CN113591474B - 一种基于加权融合的Loc2vec模型的重复数据检测方法 - Google Patents
一种基于加权融合的Loc2vec模型的重复数据检测方法 Download PDFInfo
- Publication number
- CN113591474B CN113591474B CN202110824753.4A CN202110824753A CN113591474B CN 113591474 B CN113591474 B CN 113591474B CN 202110824753 A CN202110824753 A CN 202110824753A CN 113591474 B CN113591474 B CN 113591474B
- Authority
- CN
- China
- Prior art keywords
- model
- data
- loc2vec
- similarity
- doc2vec
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 32
- 230000004927 fusion Effects 0.000 title claims abstract description 15
- 230000011218 segmentation Effects 0.000 claims abstract description 20
- 238000004364 calculation method Methods 0.000 claims abstract description 18
- 238000004458 analytical method Methods 0.000 claims abstract description 12
- 239000013598 vector Substances 0.000 claims description 9
- 238000000034 method Methods 0.000 claims description 8
- 238000003062 neural network model Methods 0.000 abstract description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于加权融合的Loc2vec模型的重复数据检测方法,首先,在数据处理层,将语料文件进行分词处理,将其用于Doc2vec模型的训练,同时对待检测的源数据进行分词处理,用于下一阶段的重复数据检测;随后在编码分析层,构建出训练后的Doc2vec模型,将该模型与LCS算法加权融合,得到用于核心字段重复性检测的加权相似度计算模型Loc2vec模型,使用Loc2vec模型对分词后的待检测数据进行相似度计算;最后,对数据相似度计算结果进行分析,相似度大于80%认定为重复数据,从而实现重复性数据项的检测。本发明使用大规模语料库对深度神经网络模型doc2vec进行无监督训练,可以充分使用语料库内的语义信息,大大减少了人工标记的工作量,提升了重复数据检测的效率与准确率。
Description
技术领域
本发明属于自然语言处理技术领域,具体涉及一种重复数据检测方法。
背景技术
在自然语言处理、数据挖掘等领域,重复数据检测一直是学者们关注的重要主题,同时随着大数据时代的到来,信息增长迅速,对于信息数据的检索与匹配的需求越来越多,重复数据检测这一关键技术也发挥着越来越重要的作用。基于字符串的重复数据检测方法是直接对数据文本进行比较,主要包括最小编辑距离、最长公共子序列(LCS)等算法,基于字符串的检测方法的算法原理简单,实现较为方便,并且对文本直接进行比较,可用于文本快速匹配任务之中,但由于这类算法只考虑了字符串的结构特征,未进行语义内容的分析,重复数据检测准确率较低,且无法执行数据内容较为复杂的任务。
自2013年分布式词向量问世以来,基于深度学习的方法在重复性数据检测领域有了更多的成果,无监督的学习方法不需要依赖于标签数据信息就可以计算文本间的语义相似度,这类方法更加通用。Doc2vec是一种无监督式的学习算法,是Word2vec模型的拓展。计算出来的向量可以通过计算向量之间的距离来判定句子、短语以及文件之间的相似性。使用大规模的语料库进行模型训练,模型对于重复性数据的检测准确率较高,但也存在训练时间过长,检测效率低等问题。
发明内容
为了克服现有技术的不足,本发明提供了一种基于加权融合的Loc2vec模型的重复数据检测方法,首先,在数据处理层,将语料文件进行分词处理,将其用于Doc2vec模型的训练,同时对待检测的源数据进行分词处理,用于下一阶段的重复数据检测;随后在编码分析层,构建出训练后的Doc2vec模型,将该模型与LCS算法加权融合,得到用于核心字段重复性检测的加权相似度计算模型Loc2vec模型,使用Loc2vec模型对分词后的待检测数据进行相似度计算;最后,对数据相似度计算结果进行分析,相似度大于80%认定为重复数据,从而实现重复性数据项的检测。本发明使用大规模语料库对深度神经网络模型doc2vec进行无监督训练,可以充分使用语料库内的语义信息,大大减少了人工标记的工作量,提升了重复数据检测的效率与准确率。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1:数据处理阶段:
对于待检测的源数据项和语料库,使用分词工具,进行分词处理,将处理后的语料库用于doc2vec基础模型训练,处理后的待检测源数据项用于下一阶段模型编码处理分析,同时对doc2vec基础模型进行参数设定,设定结果如表1所示;
表1 doc2vec基础模型参数
步骤2:编码分析阶段;
将步骤1中分词处理后的待检测源数据项使用doc2vec基础模型进行编码处理分析,处理的过程如下所示:
步骤2-1:定义源数据集为d{d1,d2...dn};
步骤2-2:使用doc2vec模型对源数据集进行训练,得到文本向量集为v{v(d1),v(d2)...v(dn)};
步骤2-3:采用余弦相似度计算公式,计算两个文本向量之间的语义相似度simDoc,计算公式如式(2):
步骤2-4:使用LCS算法对源数据集内数据项之间的最长公共子序列算法相似度进行检测,如式(2):
其中,simLCS表示LSC算法计算出的文本相似度,len(d1)表示待检测字符串的长度,LCS(d1,d2)表示两个字符串的最长公共子序列长度;
步骤2-4:将式(1)和式(2)进行加权融合,得到加权相似度计算模型,如式(3),根据式(3)来计算数据项之间的相似度值的大小;
simLoc2vec(X,Y)=α·simLCS+(1-α)·simDoc (3)
其中α∈[0,1],X、Y分别为待检测的两条数据;
步骤3:重复数据判别阶段:
使用Loc2vec模型对待检测源数据项的相似度进行计算,对于数据项之间相似度大于F%的数据项认定其为重复数据,最终获取得到重复数据集合。
优选地,所述分词工具为jieba分词工具。
优选地,所述A=100,B=3,C=200,D=1,E=4。
优选地,所述α=0.6,F=80。
本发明的有益效果如下:
本发明将深度学习网络模型与基于字符串的检测算法相结合,Doc2vec模型采用无监督学习的模式,不需要人工标注就可对语料数据进行训练学习,大大减少了传统人工标记工作方式的工作量,同时结合LCS算法,针对字符串的结构特征进行分词,两个算法加权融合后的Loc2vec模型大大提升了重复数据检测的效率,与直接使用两种算法进行重复数据检测相比,本发明提出的检测模型提升了重复性数据检测的准确率,保证了数据的可靠性。
附图说明
图1为本发明进行重复数据检测的架构图。
图2为本发明加权融合的Loc2vec模型构建流程。
图3为本发明实施例α取值对检测准确度影响示意图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
本发明的整体架构如图1所示,对重复数据的检测主要分为三个阶段,数据处理层对数据进行分词处理,以及模型初始化,编码分析层对Loc2vec模型进行构建,并使用Loc2vec模型进行数据相似度检测,最后在数据输出层根据数据之间的相似度值来判别重复数据项。
一种基于加权融合的Loc2vec模型的重复数据检测方法,包括如下步骤:
步骤1:数据处理阶段:
对于待检测的源数据项和大规模语料库,使用分词工具,进行jieba工具进行分词处理,将处理后的语料库用于doc2vec基础模型训练,处理后的待检测源数据项用于下一阶段模型编码处理分析,同时对doc2vec基础模型进行参数设定,设定结果如表1所示;
表1 doc2vec基础模型参数
步骤2:编码分析阶段;
将步骤1中分词处理后的待检测源数据项使用doc2vec基础模型进行编码处理分析,处理的过程如下所示:
步骤2-1:定义源数据集为d{d1,d2...dn};
步骤2-2:使用doc2vec模型对源数据集进行训练,得到文本向量集为v{v(d1),v(d2)...v(dn)};
步骤2-3:采用余弦相似度计算公式,计算两个文本向量之间的语义相似度simDoc,计算公式如式(2):
步骤2-4:使用LCS算法对源数据集内数据项之间的最长公共子序列算法相似度进行检测,如式(2):
步骤2-4:如图2所示,将式(1)和式(2)进行加权融合,得到加权相似度计算模型,如式(3),根据式(3)来计算数据项之间的相似度值的大小;
simLoc2vec(X,Y)=α·simLCS+(1-α)·simDoc (3)
其中α∈[0,1],使用人工标记的标准重复数据集,针对α取值范围,取0到1范围内数值进行对照实验,如图3所示,根据对照实验结果,可知α取0.6时检测准确率最高,因此将α设定为0.6;式(3)中X,Y分别为待检测的两条数据,将两个数据项进行LCS算法相似度计算以及Doc2vec模型相似度计算,并通过权重α进行加权计算,得到Loc2vec模型计算出的数据相似度值。
步骤3:重复数据判别阶段:
使用Loc2vec模型对待检测源数据项的相似度进行计算,对于数据项之间相似度大于80%的数据项认定其为重复数据,最终获取得到重复数据集合。
Claims (4)
1.一种基于加权融合的Loc2vec模型的重复数据检测方法,其特征在于,包括以下步骤:
步骤1:数据处理阶段:
对于待检测的源数据项和语料库,使用分词工具,进行分词处理,将处理后的语料库用于doc2vec基础模型训练,处理后的待检测源数据项用于下一阶段模型编码处理分析,同时对doc2vec基础模型进行参数设定,设定结果如表1所示;
表1 doc2vec基础模型参数
步骤2:编码分析阶段;
将步骤1中分词处理后的待检测源数据项使用doc2vec基础模型进行编码处理分析,处理的过程如下所示:
步骤2-1:定义源数据集为d{d1,d2...dn};
步骤2-2:使用doc2vec模型对源数据集进行训练,得到文本向量集为v{v(d1),v(d2)...v(dn)};
步骤2-3:采用余弦相似度计算公式,计算两个文本向量之间的语义相似度simDoc,计算公式如式(2):
步骤2-4:使用LCS算法对源数据集内数据项之间的最长公共子序列算法相似度进行检测,如式(2):
其中,simLCS表示LSC算法计算出的文本相似度,len(d1)表示待检测字符串的长度,LCS(d1,d2)表示两个字符串的最长公共子序列长度;
步骤2-4:将式(1)和式(2)进行加权融合,得到加权相似度计算模型,如式(3),根据式(3)来计算数据项之间的相似度值的大小;
simLoc2vec(X,Y)=α·simLCS+(1-α)·simDoc (3)
其中α∈[0,1],X、Y分别为待检测的两条数据;
步骤3:重复数据判别阶段:
使用Loc2vec模型对待检测源数据项的相似度进行计算,对于数据项之间相似度大于F%的数据项认定其为重复数据,最终获取得到重复数据集合。
2.根据权利要求1所述的一种基于加权融合的Loc2vec模型的重复数据检测方法,其特征在于,所述分词工具为jieba分词工具。
3.根据权利要求1所述的一种基于加权融合的Loc2vec模型的重复数据检测方法,其特征在于,所述A=100,B=3,C=200,D=1,E=4。
4.根据权利要求1所述的一种基于加权融合的Loc2vec模型的重复数据检测方法,其特征在于,所述α=0.6,F=80。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110824753.4A CN113591474B (zh) | 2021-07-21 | 2021-07-21 | 一种基于加权融合的Loc2vec模型的重复数据检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110824753.4A CN113591474B (zh) | 2021-07-21 | 2021-07-21 | 一种基于加权融合的Loc2vec模型的重复数据检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113591474A CN113591474A (zh) | 2021-11-02 |
CN113591474B true CN113591474B (zh) | 2024-04-05 |
Family
ID=78248821
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110824753.4A Active CN113591474B (zh) | 2021-07-21 | 2021-07-21 | 一种基于加权融合的Loc2vec模型的重复数据检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113591474B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114202013B (zh) * | 2021-11-22 | 2024-04-12 | 西北工业大学 | 一种基于自适应半监督的语义相似度计算方法 |
CN114925757B (zh) * | 2022-05-09 | 2023-10-03 | 中国电信股份有限公司 | 多源威胁情报融合方法、装置、设备和存储介质 |
CN115641856B (zh) * | 2022-12-14 | 2023-03-28 | 北京远鉴信息技术有限公司 | 一种语音的重复音频检测方法、装置及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101352846B1 (ko) * | 2013-07-19 | 2014-01-20 | (주)에스티씨 | 확률 이론에 기반하는 다중 센서 데이터 융합 방법을 이용한 상황 추론 시스템 및 방법 |
KR20140044156A (ko) * | 2012-10-04 | 2014-04-14 | 한양대학교 에리카산학협력단 | 중복 뉴스 탐지 시스템 및 중복 뉴스 탐지 방법 |
CN109117464A (zh) * | 2018-03-02 | 2019-01-01 | 南京邮电大学 | 一种基于编辑距离的数据相似度检测方法 |
CN110532557A (zh) * | 2019-08-29 | 2019-12-03 | 北京计算机技术及应用研究所 | 一种无监督的文本相似度计算方法 |
CN110825877A (zh) * | 2019-11-12 | 2020-02-21 | 中国石油大学(华东) | 一种基于文本聚类的语义相似度分析方法 |
CN112784092A (zh) * | 2021-01-28 | 2021-05-11 | 电子科技大学 | 一种混合融合模型的跨模态图像文本检索方法 |
WO2021093755A1 (zh) * | 2019-11-14 | 2021-05-20 | 华为技术有限公司 | 问题的匹配方法及装置、问题的回复方法及装置 |
WO2021135910A1 (zh) * | 2020-06-24 | 2021-07-08 | 平安科技(深圳)有限公司 | 基于机器阅读理解的信息抽取方法、及其相关设备 |
-
2021
- 2021-07-21 CN CN202110824753.4A patent/CN113591474B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20140044156A (ko) * | 2012-10-04 | 2014-04-14 | 한양대학교 에리카산학협력단 | 중복 뉴스 탐지 시스템 및 중복 뉴스 탐지 방법 |
KR101352846B1 (ko) * | 2013-07-19 | 2014-01-20 | (주)에스티씨 | 확률 이론에 기반하는 다중 센서 데이터 융합 방법을 이용한 상황 추론 시스템 및 방법 |
CN109117464A (zh) * | 2018-03-02 | 2019-01-01 | 南京邮电大学 | 一种基于编辑距离的数据相似度检测方法 |
CN110532557A (zh) * | 2019-08-29 | 2019-12-03 | 北京计算机技术及应用研究所 | 一种无监督的文本相似度计算方法 |
CN110825877A (zh) * | 2019-11-12 | 2020-02-21 | 中国石油大学(华东) | 一种基于文本聚类的语义相似度分析方法 |
WO2021093755A1 (zh) * | 2019-11-14 | 2021-05-20 | 华为技术有限公司 | 问题的匹配方法及装置、问题的回复方法及装置 |
WO2021135910A1 (zh) * | 2020-06-24 | 2021-07-08 | 平安科技(深圳)有限公司 | 基于机器阅读理解的信息抽取方法、及其相关设备 |
CN112784092A (zh) * | 2021-01-28 | 2021-05-11 | 电子科技大学 | 一种混合融合模型的跨模态图像文本检索方法 |
Non-Patent Citations (2)
Title |
---|
基于Do-Bi-LSTM模型的电子政务文本相似度评估模型;李凡;白尚旺;党伟超;潘理虎;;计算机与现代化;20200715(07);全文 * |
基于向量空间模型和Word2vec的试题相似度研究;孙鹏辉;邹金霞;韩婧妍;曲家锴;;信息记录材料;20200401(04);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113591474A (zh) | 2021-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113591474B (zh) | 一种基于加权融合的Loc2vec模型的重复数据检测方法 | |
CN110598005B (zh) | 一种面向公共安全事件的多源异构数据知识图谱构建方法 | |
CN111209401A (zh) | 网络舆情文本信息情感极性分类处理系统及方法 | |
CN109033374B (zh) | 基于贝叶斯分类器的知识图谱检索方法 | |
CN110825877A (zh) | 一种基于文本聚类的语义相似度分析方法 | |
CN111931506B (zh) | 一种基于图信息增强的实体关系抽取方法 | |
CN112115238A (zh) | 一种基于bert和知识库的问答方法和系统 | |
CN114880468B (zh) | 基于BiLSTM与知识图谱的建筑规范审查方法与系统 | |
CN113157918B (zh) | 一种基于注意力机制的商品名称短文本分类方法和系统 | |
CN110532568B (zh) | 基于树特征选择和迁移学习的汉语词义消歧方法 | |
CN111159332A (zh) | 一种基于bert的文本多意图识别方法 | |
CN117689963B (zh) | 一种基于多模态预训练模型的视觉实体链接方法 | |
CN111191464A (zh) | 基于组合距离的语义相似度计算方法 | |
CN114511003A (zh) | 一种基于加权融合相似度模型的重复性数据检测方法 | |
CN114048314A (zh) | 一种自然语言隐写分析方法 | |
CN115563311B (zh) | 一种文档标注和知识库管理方法及知识库管理系统 | |
CN114818713B (zh) | 一种基于边界检测的中文命名实体识别方法 | |
CN114818711B (zh) | 基于神经网络的多信息融合命名实体识别方法 | |
CN114330350B (zh) | 一种命名实体识别方法、装置、电子设备及存储介质 | |
CN113297844A (zh) | 一种基于doc2vec模型与最小编辑距离的重复性数据检测方法 | |
CN111460834B (zh) | 基于lstm网络的法条语义标注方法及装置 | |
CN112835620A (zh) | 一种基于深度学习的语义相似代码在线检测方法 | |
CN113986345A (zh) | 一种预训练增强的代码克隆检测方法 | |
CN113591473B (zh) | 一种基于BTM主题模型和Doc2vec的文本相似度计算方法 | |
CN114202013B (zh) | 一种基于自适应半监督的语义相似度计算方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |