CN113591474B - 一种基于加权融合的Loc2vec模型的重复数据检测方法 - Google Patents

一种基于加权融合的Loc2vec模型的重复数据检测方法 Download PDF

Info

Publication number
CN113591474B
CN113591474B CN202110824753.4A CN202110824753A CN113591474B CN 113591474 B CN113591474 B CN 113591474B CN 202110824753 A CN202110824753 A CN 202110824753A CN 113591474 B CN113591474 B CN 113591474B
Authority
CN
China
Prior art keywords
model
data
loc2vec
similarity
doc2vec
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110824753.4A
Other languages
English (en)
Other versions
CN113591474A (zh
Inventor
郑江滨
曹宏业
王寅隆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202110824753.4A priority Critical patent/CN113591474B/zh
Publication of CN113591474A publication Critical patent/CN113591474A/zh
Application granted granted Critical
Publication of CN113591474B publication Critical patent/CN113591474B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于加权融合的Loc2vec模型的重复数据检测方法,首先,在数据处理层,将语料文件进行分词处理,将其用于Doc2vec模型的训练,同时对待检测的源数据进行分词处理,用于下一阶段的重复数据检测;随后在编码分析层,构建出训练后的Doc2vec模型,将该模型与LCS算法加权融合,得到用于核心字段重复性检测的加权相似度计算模型Loc2vec模型,使用Loc2vec模型对分词后的待检测数据进行相似度计算;最后,对数据相似度计算结果进行分析,相似度大于80%认定为重复数据,从而实现重复性数据项的检测。本发明使用大规模语料库对深度神经网络模型doc2vec进行无监督训练,可以充分使用语料库内的语义信息,大大减少了人工标记的工作量,提升了重复数据检测的效率与准确率。

Description

一种基于加权融合的Loc2vec模型的重复数据检测方法
技术领域
本发明属于自然语言处理技术领域,具体涉及一种重复数据检测方法。
背景技术
在自然语言处理、数据挖掘等领域,重复数据检测一直是学者们关注的重要主题,同时随着大数据时代的到来,信息增长迅速,对于信息数据的检索与匹配的需求越来越多,重复数据检测这一关键技术也发挥着越来越重要的作用。基于字符串的重复数据检测方法是直接对数据文本进行比较,主要包括最小编辑距离、最长公共子序列(LCS)等算法,基于字符串的检测方法的算法原理简单,实现较为方便,并且对文本直接进行比较,可用于文本快速匹配任务之中,但由于这类算法只考虑了字符串的结构特征,未进行语义内容的分析,重复数据检测准确率较低,且无法执行数据内容较为复杂的任务。
自2013年分布式词向量问世以来,基于深度学习的方法在重复性数据检测领域有了更多的成果,无监督的学习方法不需要依赖于标签数据信息就可以计算文本间的语义相似度,这类方法更加通用。Doc2vec是一种无监督式的学习算法,是Word2vec模型的拓展。计算出来的向量可以通过计算向量之间的距离来判定句子、短语以及文件之间的相似性。使用大规模的语料库进行模型训练,模型对于重复性数据的检测准确率较高,但也存在训练时间过长,检测效率低等问题。
发明内容
为了克服现有技术的不足,本发明提供了一种基于加权融合的Loc2vec模型的重复数据检测方法,首先,在数据处理层,将语料文件进行分词处理,将其用于Doc2vec模型的训练,同时对待检测的源数据进行分词处理,用于下一阶段的重复数据检测;随后在编码分析层,构建出训练后的Doc2vec模型,将该模型与LCS算法加权融合,得到用于核心字段重复性检测的加权相似度计算模型Loc2vec模型,使用Loc2vec模型对分词后的待检测数据进行相似度计算;最后,对数据相似度计算结果进行分析,相似度大于80%认定为重复数据,从而实现重复性数据项的检测。本发明使用大规模语料库对深度神经网络模型doc2vec进行无监督训练,可以充分使用语料库内的语义信息,大大减少了人工标记的工作量,提升了重复数据检测的效率与准确率。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1:数据处理阶段:
对于待检测的源数据项和语料库,使用分词工具,进行分词处理,将处理后的语料库用于doc2vec基础模型训练,处理后的待检测源数据项用于下一阶段模型编码处理分析,同时对doc2vec基础模型进行参数设定,设定结果如表1所示;
表1 doc2vec基础模型参数
步骤2:编码分析阶段;
将步骤1中分词处理后的待检测源数据项使用doc2vec基础模型进行编码处理分析,处理的过程如下所示:
步骤2-1:定义源数据集为d{d1,d2...dn};
步骤2-2:使用doc2vec模型对源数据集进行训练,得到文本向量集为v{v(d1),v(d2)...v(dn)};
步骤2-3:采用余弦相似度计算公式,计算两个文本向量之间的语义相似度simDoc,计算公式如式(2):
步骤2-4:使用LCS算法对源数据集内数据项之间的最长公共子序列算法相似度进行检测,如式(2):
其中,simLCS表示LSC算法计算出的文本相似度,len(d1)表示待检测字符串的长度,LCS(d1,d2)表示两个字符串的最长公共子序列长度;
步骤2-4:将式(1)和式(2)进行加权融合,得到加权相似度计算模型,如式(3),根据式(3)来计算数据项之间的相似度值的大小;
simLoc2vec(X,Y)=α·simLCS+(1-α)·simDoc (3)
其中α∈[0,1],X、Y分别为待检测的两条数据;
步骤3:重复数据判别阶段:
使用Loc2vec模型对待检测源数据项的相似度进行计算,对于数据项之间相似度大于F%的数据项认定其为重复数据,最终获取得到重复数据集合。
优选地,所述分词工具为jieba分词工具。
优选地,所述A=100,B=3,C=200,D=1,E=4。
优选地,所述α=0.6,F=80。
本发明的有益效果如下:
本发明将深度学习网络模型与基于字符串的检测算法相结合,Doc2vec模型采用无监督学习的模式,不需要人工标注就可对语料数据进行训练学习,大大减少了传统人工标记工作方式的工作量,同时结合LCS算法,针对字符串的结构特征进行分词,两个算法加权融合后的Loc2vec模型大大提升了重复数据检测的效率,与直接使用两种算法进行重复数据检测相比,本发明提出的检测模型提升了重复性数据检测的准确率,保证了数据的可靠性。
附图说明
图1为本发明进行重复数据检测的架构图。
图2为本发明加权融合的Loc2vec模型构建流程。
图3为本发明实施例α取值对检测准确度影响示意图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
本发明的整体架构如图1所示,对重复数据的检测主要分为三个阶段,数据处理层对数据进行分词处理,以及模型初始化,编码分析层对Loc2vec模型进行构建,并使用Loc2vec模型进行数据相似度检测,最后在数据输出层根据数据之间的相似度值来判别重复数据项。
一种基于加权融合的Loc2vec模型的重复数据检测方法,包括如下步骤:
步骤1:数据处理阶段:
对于待检测的源数据项和大规模语料库,使用分词工具,进行jieba工具进行分词处理,将处理后的语料库用于doc2vec基础模型训练,处理后的待检测源数据项用于下一阶段模型编码处理分析,同时对doc2vec基础模型进行参数设定,设定结果如表1所示;
表1 doc2vec基础模型参数
步骤2:编码分析阶段;
将步骤1中分词处理后的待检测源数据项使用doc2vec基础模型进行编码处理分析,处理的过程如下所示:
步骤2-1:定义源数据集为d{d1,d2...dn};
步骤2-2:使用doc2vec模型对源数据集进行训练,得到文本向量集为v{v(d1),v(d2)...v(dn)};
步骤2-3:采用余弦相似度计算公式,计算两个文本向量之间的语义相似度simDoc,计算公式如式(2):
步骤2-4:使用LCS算法对源数据集内数据项之间的最长公共子序列算法相似度进行检测,如式(2):
步骤2-4:如图2所示,将式(1)和式(2)进行加权融合,得到加权相似度计算模型,如式(3),根据式(3)来计算数据项之间的相似度值的大小;
simLoc2vec(X,Y)=α·simLCS+(1-α)·simDoc (3)
其中α∈[0,1],使用人工标记的标准重复数据集,针对α取值范围,取0到1范围内数值进行对照实验,如图3所示,根据对照实验结果,可知α取0.6时检测准确率最高,因此将α设定为0.6;式(3)中X,Y分别为待检测的两条数据,将两个数据项进行LCS算法相似度计算以及Doc2vec模型相似度计算,并通过权重α进行加权计算,得到Loc2vec模型计算出的数据相似度值。
步骤3:重复数据判别阶段:
使用Loc2vec模型对待检测源数据项的相似度进行计算,对于数据项之间相似度大于80%的数据项认定其为重复数据,最终获取得到重复数据集合。

Claims (4)

1.一种基于加权融合的Loc2vec模型的重复数据检测方法,其特征在于,包括以下步骤:
步骤1:数据处理阶段:
对于待检测的源数据项和语料库,使用分词工具,进行分词处理,将处理后的语料库用于doc2vec基础模型训练,处理后的待检测源数据项用于下一阶段模型编码处理分析,同时对doc2vec基础模型进行参数设定,设定结果如表1所示;
表1 doc2vec基础模型参数
步骤2:编码分析阶段;
将步骤1中分词处理后的待检测源数据项使用doc2vec基础模型进行编码处理分析,处理的过程如下所示:
步骤2-1:定义源数据集为d{d1,d2...dn};
步骤2-2:使用doc2vec模型对源数据集进行训练,得到文本向量集为v{v(d1),v(d2)...v(dn)};
步骤2-3:采用余弦相似度计算公式,计算两个文本向量之间的语义相似度simDoc,计算公式如式(2):
步骤2-4:使用LCS算法对源数据集内数据项之间的最长公共子序列算法相似度进行检测,如式(2):
其中,simLCS表示LSC算法计算出的文本相似度,len(d1)表示待检测字符串的长度,LCS(d1,d2)表示两个字符串的最长公共子序列长度;
步骤2-4:将式(1)和式(2)进行加权融合,得到加权相似度计算模型,如式(3),根据式(3)来计算数据项之间的相似度值的大小;
simLoc2vec(X,Y)=α·simLCS+(1-α)·simDoc (3)
其中α∈[0,1],X、Y分别为待检测的两条数据;
步骤3:重复数据判别阶段:
使用Loc2vec模型对待检测源数据项的相似度进行计算,对于数据项之间相似度大于F%的数据项认定其为重复数据,最终获取得到重复数据集合。
2.根据权利要求1所述的一种基于加权融合的Loc2vec模型的重复数据检测方法,其特征在于,所述分词工具为jieba分词工具。
3.根据权利要求1所述的一种基于加权融合的Loc2vec模型的重复数据检测方法,其特征在于,所述A=100,B=3,C=200,D=1,E=4。
4.根据权利要求1所述的一种基于加权融合的Loc2vec模型的重复数据检测方法,其特征在于,所述α=0.6,F=80。
CN202110824753.4A 2021-07-21 2021-07-21 一种基于加权融合的Loc2vec模型的重复数据检测方法 Active CN113591474B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110824753.4A CN113591474B (zh) 2021-07-21 2021-07-21 一种基于加权融合的Loc2vec模型的重复数据检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110824753.4A CN113591474B (zh) 2021-07-21 2021-07-21 一种基于加权融合的Loc2vec模型的重复数据检测方法

Publications (2)

Publication Number Publication Date
CN113591474A CN113591474A (zh) 2021-11-02
CN113591474B true CN113591474B (zh) 2024-04-05

Family

ID=78248821

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110824753.4A Active CN113591474B (zh) 2021-07-21 2021-07-21 一种基于加权融合的Loc2vec模型的重复数据检测方法

Country Status (1)

Country Link
CN (1) CN113591474B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114202013B (zh) * 2021-11-22 2024-04-12 西北工业大学 一种基于自适应半监督的语义相似度计算方法
CN114925757B (zh) * 2022-05-09 2023-10-03 中国电信股份有限公司 多源威胁情报融合方法、装置、设备和存储介质
CN115641856B (zh) * 2022-12-14 2023-03-28 北京远鉴信息技术有限公司 一种语音的重复音频检测方法、装置及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101352846B1 (ko) * 2013-07-19 2014-01-20 (주)에스티씨 확률 이론에 기반하는 다중 센서 데이터 융합 방법을 이용한 상황 추론 시스템 및 방법
KR20140044156A (ko) * 2012-10-04 2014-04-14 한양대학교 에리카산학협력단 중복 뉴스 탐지 시스템 및 중복 뉴스 탐지 방법
CN109117464A (zh) * 2018-03-02 2019-01-01 南京邮电大学 一种基于编辑距离的数据相似度检测方法
CN110532557A (zh) * 2019-08-29 2019-12-03 北京计算机技术及应用研究所 一种无监督的文本相似度计算方法
CN110825877A (zh) * 2019-11-12 2020-02-21 中国石油大学(华东) 一种基于文本聚类的语义相似度分析方法
CN112784092A (zh) * 2021-01-28 2021-05-11 电子科技大学 一种混合融合模型的跨模态图像文本检索方法
WO2021093755A1 (zh) * 2019-11-14 2021-05-20 华为技术有限公司 问题的匹配方法及装置、问题的回复方法及装置
WO2021135910A1 (zh) * 2020-06-24 2021-07-08 平安科技(深圳)有限公司 基于机器阅读理解的信息抽取方法、及其相关设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140044156A (ko) * 2012-10-04 2014-04-14 한양대학교 에리카산학협력단 중복 뉴스 탐지 시스템 및 중복 뉴스 탐지 방법
KR101352846B1 (ko) * 2013-07-19 2014-01-20 (주)에스티씨 확률 이론에 기반하는 다중 센서 데이터 융합 방법을 이용한 상황 추론 시스템 및 방법
CN109117464A (zh) * 2018-03-02 2019-01-01 南京邮电大学 一种基于编辑距离的数据相似度检测方法
CN110532557A (zh) * 2019-08-29 2019-12-03 北京计算机技术及应用研究所 一种无监督的文本相似度计算方法
CN110825877A (zh) * 2019-11-12 2020-02-21 中国石油大学(华东) 一种基于文本聚类的语义相似度分析方法
WO2021093755A1 (zh) * 2019-11-14 2021-05-20 华为技术有限公司 问题的匹配方法及装置、问题的回复方法及装置
WO2021135910A1 (zh) * 2020-06-24 2021-07-08 平安科技(深圳)有限公司 基于机器阅读理解的信息抽取方法、及其相关设备
CN112784092A (zh) * 2021-01-28 2021-05-11 电子科技大学 一种混合融合模型的跨模态图像文本检索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于Do-Bi-LSTM模型的电子政务文本相似度评估模型;李凡;白尚旺;党伟超;潘理虎;;计算机与现代化;20200715(07);全文 *
基于向量空间模型和Word2vec的试题相似度研究;孙鹏辉;邹金霞;韩婧妍;曲家锴;;信息记录材料;20200401(04);全文 *

Also Published As

Publication number Publication date
CN113591474A (zh) 2021-11-02

Similar Documents

Publication Publication Date Title
CN113591474B (zh) 一种基于加权融合的Loc2vec模型的重复数据检测方法
CN110598005B (zh) 一种面向公共安全事件的多源异构数据知识图谱构建方法
CN111209401A (zh) 网络舆情文本信息情感极性分类处理系统及方法
CN109033374B (zh) 基于贝叶斯分类器的知识图谱检索方法
CN110825877A (zh) 一种基于文本聚类的语义相似度分析方法
CN111931506B (zh) 一种基于图信息增强的实体关系抽取方法
CN110532554A (zh) 一种中文摘要生成方法、系统及存储介质
CN110309306A (zh) 一种基于wsd层级记忆网络的文档建模分类方法
CN112115238A (zh) 一种基于bert和知识库的问答方法和系统
CN112163089B (zh) 一种融合命名实体识别的高技术文本分类方法及系统
CN110532568B (zh) 基于树特征选择和迁移学习的汉语词义消歧方法
CN111159332A (zh) 一种基于bert的文本多意图识别方法
CN114139533A (zh) 一种面向中文小说领域的文本内容审核方法
CN111191464A (zh) 基于组合距离的语义相似度计算方法
CN115759071A (zh) 基于大数据的政务敏感信息识别系统和方法
CN113157918B (zh) 一种基于注意力机制的商品名称短文本分类方法和系统
CN114048314A (zh) 一种自然语言隐写分析方法
CN115033689B (zh) 一种基于小样本文本分类原型网络欧氏距离计算方法
CN116484848A (zh) 一种基于nlp的文本实体识别方法
CN112835620B (zh) 一种基于深度学习的语义相似代码在线检测方法
CN113297844B (zh) 一种基于doc2vec模型与最小编辑距离的重复性数据检测方法
CN114511003A (zh) 一种基于加权融合相似度模型的重复性数据检测方法
CN111460834B (zh) 基于lstm网络的法条语义标注方法及装置
CN113986345A (zh) 一种预训练增强的代码克隆检测方法
CN113591473B (zh) 一种基于BTM主题模型和Doc2vec的文本相似度计算方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant