CN113297844B - 一种基于doc2vec模型与最小编辑距离的重复性数据检测方法 - Google Patents

一种基于doc2vec模型与最小编辑距离的重复性数据检测方法 Download PDF

Info

Publication number
CN113297844B
CN113297844B CN202110560489.8A CN202110560489A CN113297844B CN 113297844 B CN113297844 B CN 113297844B CN 202110560489 A CN202110560489 A CN 202110560489A CN 113297844 B CN113297844 B CN 113297844B
Authority
CN
China
Prior art keywords
data
field
model
doc2vec
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110560489.8A
Other languages
English (en)
Other versions
CN113297844A (zh
Inventor
郑江滨
曹宏业
杨洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202110560489.8A priority Critical patent/CN113297844B/zh
Publication of CN113297844A publication Critical patent/CN113297844A/zh
Application granted granted Critical
Publication of CN113297844B publication Critical patent/CN113297844B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于doc2vec模型与最小编辑距离的重复性数据检测方法,首先,进行doc2vec模型的定义与训练,将语料文件进行分词处理后,将其用于模型训练,得到用于语义相似度检测的模型;随后,对结构化的数据进行数据字段的划分,明确核心字段以及辅助字段,针对核心字段进行语义相似度的计算,计算出语义最为相似的字符串集合,随后针对该集合使用最小编辑距离算法,计算出字符串的相似度,获取核心字段重复数据集;最后,结合辅助字段,辅助字段中存在一个内容重复的字段,则认定为重复数据项,从而实现重复性数据的检测。本发明的方法大大提升了数据查重的准确率,为信息核查提供了有力的支撑,保证了数据的可靠性,从而为数据建设提供了智能化辅助。

Description

一种基于doc2vec模型与最小编辑距离的重复性数据检测 方法
技术领域
本发明属于模式识别技术领域,具体涉及一种重复性数据检测方法。
背景技术
随着大数据技术的发展,数据激增,在海量数据中存在大量的重复或相似数据,从而造成数据存储空间被大量占用、数据质量下降以及业务差错率上升等问题。因此如何有效进行数据查重,是一个亟待解决的问题。排序-合并思想是处理数据库完全重复数据的标准方法,俞荣华等人提出将字符串进行排序,针对排序后的结果计算编辑距离来判别数据的重复性。但使用编辑距离进行数据重复性判别时,未能考虑字符串位置颠倒、中文文字简称无法判别等问题。针对汉字字符串特点,邵清等人使用汉字拼音和五笔编码计算改进了该算法,但由于语言存在大量同义词、多义词导致在词形上无法匹配对应关心,模糊匹配的结果不够理想。藏润强等提出的一种基于编辑距离和TFRSF的文本相似度计算方法,通过计算词频与编辑距离,判断文本属性值,有效解决了字符串颠倒问题。刘月锟提出的基于约束的字符串相似度研究与应用,给出了相似字符串转换不可逆的定义,明确了当前计算字符串相似度的局限性,进一步提出具有约束属性的字符串概念,将字符串以及属性作为整体进行数据重复性的判别依据。
分布式词向量提出之后,基于深度学习的方法在数据查重领域有了更多的成果,无监督学习方法不需要带有标签的数据集就可以计算文本间的语义相似度,这类方法更加通用。针对中国政府部门文件,Li等人提出使用LDA与doc2vec模型结合的方法来实现文件级相似度的检测。曹祺等人提出了基于深度学习的doc2vec模型的对专利数据的相似度的检测方法,该方法对数据分析人员的专利领域知识要求较低,不需要专业人员对数据进行清洗。肖晗等人提出了文本相似度检测模型HybridDL,通过结合潜在迪利克雷分布来对doc2vec中的词向量增加主题属性权重,从而实现一种结合主题的深度学习检测方法。
可以看出,传统的数据查重方法往往仅考虑字符串的结构特征,未进行数据项语义分析。
发明内容
为了克服现有技术的不足,本发明提供了一种基于doc2vec模型与最小编辑距离的重复性数据检测方法,首先,进行doc2vec模型的定义与训练,将语料文件进行分词处理后,将其用于模型训练,得到用于语义相似度检测的模型;随后,对结构化的数据进行数据字段的划分,明确核心字段以及辅助字段,针对核心字段进行语义相似度的计算,计算出语义最为相似的字符串集合,随后针对该集合使用最小编辑距离算法,计算出字符串的相似度,获取核心字段重复数据集;最后,结合辅助字段,辅助字段中存在一个内容重复的字段,则认定为重复数据项,从而实现重复性数据的检测。本发明的方法大大提升了数据查重的准确率,为信息核查提供了有力的支撑,保证了数据的可靠性,从而为数据建设提供了智能化辅助。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1:模型初始化及数据预处理;
定义doc2vec基础模型参数;
使用分词工具对语料文件进行分词,构成语料数据集;
对结构化源数据进行字段划分,划分为核心字段和辅助字段;
步骤2:模型训练及数据处理;
步骤2-1:使用语料数据集对doc2vec基础模型进行模型训练,训练完成后获取用于语义判别的最终doc2vec模型;
步骤2-2:使用最终doc2vec模型对结构化源数据的核心字段进行语义相似性检测,获取语义相似的核心字段集合,具体的语义相似度检测步骤如下:
定义核心字段数据集为d{d1,d2...dn};
使用最终doc2vec模型对核心字段数据集进行语义判别,得到文本向量集v{v(d1),v(d2)...v(dn)};
采用余弦相似度计算公式,计算文本向量集中两个语义向量的语义相似度,计算公式如下:
对计算出的语义相似度从大到小排序,取前A个数据项构成核心字段语义相似数据集;
步骤3:重复性数据判别;
对核心字段语义相似数据集的语义向量,进一步使用最小编辑距离算法计算字段相似度:
设定字段相似度阈值Y2,将字段相似度大于阈值Y2的字段判定为核心字段重复数据项;
最后结合数据项辅助字段进行重复性数据判定:当核心字段重复数据项中有一个字段与任意一个辅助字段重复则认定该字段为重复性数据,最终获取重复性数据集合。
优选地,所述定义doc2vec基础模型参数如表1:
表1doc2vec基础模型参数
优选地,所述分词工具为jieba分词工具。
优选地,所述核心字段为表征数据项语义内涵的字段,所述辅助字段为其余表征数据项信息的字段。
优选地,所述字段相似度阈值A=10,Y2=0.75。
本发明的有益效果如下:
针对传统的数据查重方法在使用基础算法进行数据重复性初步核查筛查的基础上,还需要大量具有专业领域知识的人员,逐项进行手动判别的问题。本发明方法采用无监督学习的模式,通过计算机自动操作减少了人工工作量,不需要过多依靠行业专家进行数据重复性判别,提升了数据重复性检测的效率。此外,与直接使用最小编辑距离方法进行数据查重的算法相比,本发明的方法大大提升了数据查重的准确率,为信息核查提供了有力的支撑,保证了数据的可靠性,从而为数据建设提供了智能化辅助。
附图说明
图1为本发明方法原理框图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
基于最小编辑距离算法进行数据库数据查重时,需要基于专业领域知识进行判断,且无法处理字符串颠倒的问题。基于深度学习的方法无需事先约定业务模型,利用神经网络生成模型,发掘出数据语义关联性。但是,利用神经网络生成的模型,没有考虑字符串的结构特征,对字符串的长度不敏感。因此,本文将这两种方法进行融合,使用doc2vec模型判别语义信息后,使用最小编辑距离方法进一步判别。
本发明针对教育评价类数据内容进行重复数据检测,在数据库的存储信息中,包含论文、科研项目等多种类型的数据项,各数据项包含多个字段,例如论文数据项中有“论文题目”、“第一作者”、“发布时间”等字段,其中“论文题目”字段可表征该数据项的语义内涵,因此将该字段视为核心字段,其他字段可明确该数据项全部信息,作为辅助字段。本发明利用核心字段进行语义相似度检测后,结合辅助字段信息实现数据重复性检测。
如图1所示,一种基于doc2vec模型与最小编辑距离的重复性数据检测方法,包括如下步骤:
步骤1:模型初始化及数据预处理;
定义doc2vec基础模型参数;
使用分词工具对语料文件进行分词,构成语料数据集;
对结构化源数据进行字段划分,划分为核心字段和辅助字段;
步骤2:模型训练及数据处理;
步骤2-1:使用语料数据集对doc2vec基础模型进行模型训练,训练完成后获取用于语义判别的最终doc2vec模型;
步骤2-2:使用最终doc2vec模型对结构化源数据的核心字段进行语义相似性检测,获取语义相似的核心字段集合,具体的语义相似度检测步骤如下:
定义核心字段数据集为d{d1,d2...dn};
使用最终doc2vec模型对核心字段数据集进行语义判别,得到文本向量集v{v(d1),v(d2)...v(dn)};
采用余弦相似度计算公式,计算文本向量集中两个语义向量的语义相似度,计算公式如下:
对计算出的语义相似度从大到小排序,取前A个数据项构成核心字段语义相似数据集;
步骤3:重复性数据判别;
对核心字段语义相似数据集的语义向量,进一步使用最小编辑距离算法计算字段相似度:
设定字段相似度阈值Y2,将字段相似度大于阈值Y2的字段判定为核心字段重复数据项;
最后结合数据项辅助字段进行重复性数据判定:当核心字段重复数据项中有一个字段与任意一个辅助字段重复则认定该字段为重复性数据,最终获取重复性数据集合。
具体实施例:
1、模型初始化及数据预处理:
初始化doc2vec的基础模型。首先,定义基础的doc2vec模型参数,如表1所示。接着,对语料文件进行数据预处理,该过程主要包括分词、去停用词等。主流的分词算法有机械分词法和非机械分词法。本发明选用国内技术比较成熟的jieba分词工具对文本进行分词。
表1 doc2vec基础模型参数
随后对结构化源数据进行字段划分,明确核心字段和辅助字段。核心字段为该数据项表征数据项语义内涵的字段,例如论文数据项的“论文题目”字段;其余表征该数据项内容的字段为辅助字段。
2、模型训练及数据处理:
使用第1步处理后的语料数据集,针对doc2vec待训练模型进行模型训练,获取可用于语义判别的doc2vec模型;
使用该模型对结构化源数据的核心字段进行语义重复性检测,获取语义相似的数据集合;
3、重复性数据的判别:
对于当前已获取到的核心字段语义相似数据集,进一步使用最小编辑距离算法判断字段相似度;经实验,由表2可知使用最小编辑距离判定科研项目数据重复性,阈值取0.75时,算法准确率最高。因此,将最小编辑距离判定相似度的阈值设定为0.75,语义相似数据集中,经最小编辑距离判别的相似度大于0.75认定为核心字段重复数据项。最后,结合辅助字段进行重复性数据判定,三个辅助字段中,有一个字段重复则认定该数据项为重复数据,最终获取重复性数据集合。
表2最小编辑距离阈值测试表

Claims (5)

1.一种基于doc2vec模型与最小编辑距离的重复性数据检测方法,其特征在于,包括以下步骤:
步骤1:模型初始化及数据预处理;
定义doc2vec基础模型参数;
使用分词工具对语料文件进行分词,构成语料数据集;
对结构化源数据进行字段划分,划分为核心字段和辅助字段;
步骤2:模型训练及数据处理;
步骤2-1:使用语料数据集对doc2vec基础模型进行模型训练,训练完成后获取用于语义判别的最终doc2vec模型;
步骤2-2:使用最终doc2vec模型对结构化源数据的核心字段进行语义相似性检测,获取语义相似的核心字段集合,具体的语义相似度检测步骤如下:
定义核心字段数据集为d{d1,d2...dn};
使用最终doc2vec模型对核心字段数据集进行语义判别,得到文本向量集v{v(d1),v(d2)...v(dn)};
采用余弦相似度计算公式,计算文本向量集中两个语义向量的语义相似度,计算公式如下:
对计算出的语义相似度从大到小排序,取前A个数据项构成核心字段语义相似数据集;
步骤3:重复性数据判别;
对核心字段语义相似数据集的语义向量,进一步使用最小编辑距离算法计算字段相似度:
设定字段相似度阈值Y2,将字段相似度大于阈值Y2的字段判定为核心字段重复数据项;
最后结合数据项辅助字段进行重复性数据判定:当核心字段重复数据项中有一个字段与任意一个辅助字段重复则认定该字段为重复性数据,最终获取重复性数据集合。
2.根据权利要求1所述的一种基于doc2vec模型与最小编辑距离的重复性数据检测方法,其特征在于,所述定义doc2vec基础模型参数如表1:
表1 doc2vec基础模型参数
3.根据权利要求1所述的一种基于doc2vec模型与最小编辑距离的重复性数据检测方法,其特征在于,所述分词工具为jieba分词工具。
4.根据权利要求1所述的一种基于doc2vec模型与最小编辑距离的重复性数据检测方法,其特征在于,所述核心字段为表征数据项语义内涵的字段,所述辅助字段为其余表征数据项信息的字段。
5.根据权利要求1所述的一种基于doc2vec模型与最小编辑距离的重复性数据检测方法,其特征在于,所述字段相似度阈值A=10,Y2=0.75。
CN202110560489.8A 2021-05-21 2021-05-21 一种基于doc2vec模型与最小编辑距离的重复性数据检测方法 Active CN113297844B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110560489.8A CN113297844B (zh) 2021-05-21 2021-05-21 一种基于doc2vec模型与最小编辑距离的重复性数据检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110560489.8A CN113297844B (zh) 2021-05-21 2021-05-21 一种基于doc2vec模型与最小编辑距离的重复性数据检测方法

Publications (2)

Publication Number Publication Date
CN113297844A CN113297844A (zh) 2021-08-24
CN113297844B true CN113297844B (zh) 2023-11-17

Family

ID=77323936

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110560489.8A Active CN113297844B (zh) 2021-05-21 2021-05-21 一种基于doc2vec模型与最小编辑距离的重复性数据检测方法

Country Status (1)

Country Link
CN (1) CN113297844B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116631550B (zh) * 2023-07-26 2023-11-28 深圳爱递医药科技有限公司 一种临床试验的数据管理及逻辑核查方法及其医疗系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112468658A (zh) * 2020-11-20 2021-03-09 平安普惠企业管理有限公司 语音质量检测方法、装置、计算机设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11803583B2 (en) * 2019-11-07 2023-10-31 Ohio State Innovation Foundation Concept discovery from text via knowledge transfer

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112468658A (zh) * 2020-11-20 2021-03-09 平安普惠企业管理有限公司 语音质量检测方法、装置、计算机设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王芳 ; 王继荣 ; 杨晓东 ; 李军 ; .基于中文文本的编辑距离算法的改进.青岛大学学报(自然科学版).2017,(03),全文. *

Also Published As

Publication number Publication date
CN113297844A (zh) 2021-08-24

Similar Documents

Publication Publication Date Title
CN110298033B (zh) 关键词语料标注训练提取系统
CN110321925B (zh) 一种基于语义聚合指纹的文本多粒度相似度比对方法
Nodarakis et al. Large Scale Sentiment Analysis on Twitter with Spark.
CN110825877A (zh) 一种基于文本聚类的语义相似度分析方法
CN112035730B (zh) 一种语义检索方法、装置及电子设备
CN110888991B (zh) 一种弱标注环境下的分段式语义标注方法
Liang et al. GLTM: A global and local word embedding-based topic model for short texts
Wang et al. Ptr: Phrase-based topical ranking for automatic keyphrase extraction in scientific publications
Liu et al. Measuring similarity of academic articles with semantic profile and joint word embedding
WO2015043075A1 (zh) 面向微博的情感实体搜索系统
CN113962293B (zh) 一种基于LightGBM分类与表示学习的姓名消歧方法和系统
Sleeman et al. Topic modeling for RDF graphs
WO2020074017A1 (zh) 基于深度学习的医学文献中关键词筛选方法及装置
CN110728151A (zh) 基于视觉特征的信息深度处理方法及系统
CN111767325A (zh) 基于深度学习的多源数据深度融合方法
CN112051986A (zh) 基于开源知识的代码搜索推荐装置及方法
CN114265935A (zh) 一种基于文本挖掘的科技项目立项管理辅助决策方法及系统
CN114997288A (zh) 一种设计资源关联方法
CN114238653A (zh) 一种编程教育知识图谱构建、补全与智能问答的方法
Pang et al. A text similarity measurement based on semantic fingerprint of characteristic phrases
CN111753067A (zh) 一种技术交底文本创新性评估方法、装置和设备
CN113297844B (zh) 一种基于doc2vec模型与最小编辑距离的重复性数据检测方法
CN110765781A (zh) 一种领域术语语义知识库人机协同构建方法
Ding et al. The research of text mining based on self-organizing maps
Rajman et al. From text to knowledge: Document processing and visualization: A text mining approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant