CN113297844B

CN113297844B - 一种基于doc2vec模型与最小编辑距离的重复性数据检测方法

Info

Publication number: CN113297844B
Application number: CN202110560489.8A
Authority: CN
Inventors: 郑江滨; 曹宏业; 杨洁
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2021-05-21
Filing date: 2021-05-21
Publication date: 2023-11-17
Anticipated expiration: 2041-05-21
Also published as: CN113297844A

Abstract

本发明公开了一种基于doc2vec模型与最小编辑距离的重复性数据检测方法，首先，进行doc2vec模型的定义与训练，将语料文件进行分词处理后，将其用于模型训练，得到用于语义相似度检测的模型；随后，对结构化的数据进行数据字段的划分，明确核心字段以及辅助字段，针对核心字段进行语义相似度的计算，计算出语义最为相似的字符串集合，随后针对该集合使用最小编辑距离算法，计算出字符串的相似度，获取核心字段重复数据集；最后，结合辅助字段，辅助字段中存在一个内容重复的字段，则认定为重复数据项，从而实现重复性数据的检测。本发明的方法大大提升了数据查重的准确率，为信息核查提供了有力的支撑，保证了数据的可靠性，从而为数据建设提供了智能化辅助。

Description

一种基于doc2vec模型与最小编辑距离的重复性数据检测方法

技术领域

本发明属于模式识别技术领域，具体涉及一种重复性数据检测方法。

背景技术

随着大数据技术的发展，数据激增，在海量数据中存在大量的重复或相似数据，从而造成数据存储空间被大量占用、数据质量下降以及业务差错率上升等问题。因此如何有效进行数据查重，是一个亟待解决的问题。排序-合并思想是处理数据库完全重复数据的标准方法，俞荣华等人提出将字符串进行排序，针对排序后的结果计算编辑距离来判别数据的重复性。但使用编辑距离进行数据重复性判别时，未能考虑字符串位置颠倒、中文文字简称无法判别等问题。针对汉字字符串特点，邵清等人使用汉字拼音和五笔编码计算改进了该算法，但由于语言存在大量同义词、多义词导致在词形上无法匹配对应关心，模糊匹配的结果不够理想。藏润强等提出的一种基于编辑距离和TFRSF的文本相似度计算方法，通过计算词频与编辑距离，判断文本属性值，有效解决了字符串颠倒问题。刘月锟提出的基于约束的字符串相似度研究与应用，给出了相似字符串转换不可逆的定义，明确了当前计算字符串相似度的局限性，进一步提出具有约束属性的字符串概念，将字符串以及属性作为整体进行数据重复性的判别依据。

分布式词向量提出之后，基于深度学习的方法在数据查重领域有了更多的成果，无监督学习方法不需要带有标签的数据集就可以计算文本间的语义相似度,这类方法更加通用。针对中国政府部门文件，Li等人提出使用LDA与doc2vec模型结合的方法来实现文件级相似度的检测。曹祺等人提出了基于深度学习的doc2vec模型的对专利数据的相似度的检测方法，该方法对数据分析人员的专利领域知识要求较低，不需要专业人员对数据进行清洗。肖晗等人提出了文本相似度检测模型HybridDL，通过结合潜在迪利克雷分布来对doc2vec中的词向量增加主题属性权重，从而实现一种结合主题的深度学习检测方法。

可以看出，传统的数据查重方法往往仅考虑字符串的结构特征，未进行数据项语义分析。

发明内容

为了克服现有技术的不足，本发明提供了一种基于doc2vec模型与最小编辑距离的重复性数据检测方法，首先，进行doc2vec模型的定义与训练，将语料文件进行分词处理后，将其用于模型训练，得到用于语义相似度检测的模型；随后，对结构化的数据进行数据字段的划分，明确核心字段以及辅助字段，针对核心字段进行语义相似度的计算，计算出语义最为相似的字符串集合，随后针对该集合使用最小编辑距离算法，计算出字符串的相似度，获取核心字段重复数据集；最后，结合辅助字段，辅助字段中存在一个内容重复的字段，则认定为重复数据项，从而实现重复性数据的检测。本发明的方法大大提升了数据查重的准确率，为信息核查提供了有力的支撑，保证了数据的可靠性，从而为数据建设提供了智能化辅助。

本发明解决其技术问题所采用的技术方案包括如下步骤：

步骤1：模型初始化及数据预处理；

定义doc2vec基础模型参数；

使用分词工具对语料文件进行分词，构成语料数据集；

对结构化源数据进行字段划分，划分为核心字段和辅助字段；

步骤2：模型训练及数据处理；

步骤2-1：使用语料数据集对doc2vec基础模型进行模型训练，训练完成后获取用于语义判别的最终doc2vec模型；

步骤2-2：使用最终doc2vec模型对结构化源数据的核心字段进行语义相似性检测，获取语义相似的核心字段集合，具体的语义相似度检测步骤如下：

定义核心字段数据集为d{d1，d2...dn}；

使用最终doc2vec模型对核心字段数据集进行语义判别，得到文本向量集v{v(d1),v(d2)...v(dn)}；

采用余弦相似度计算公式，计算文本向量集中两个语义向量的语义相似度，计算公式如下：

对计算出的语义相似度从大到小排序，取前A个数据项构成核心字段语义相似数据集；

步骤3：重复性数据判别；

对核心字段语义相似数据集的语义向量，进一步使用最小编辑距离算法计算字段相似度：

设定字段相似度阈值Y₂，将字段相似度大于阈值Y₂的字段判定为核心字段重复数据项；

最后结合数据项辅助字段进行重复性数据判定：当核心字段重复数据项中有一个字段与任意一个辅助字段重复则认定该字段为重复性数据，最终获取重复性数据集合。

优选地，所述定义doc2vec基础模型参数如表1：

表1doc2vec基础模型参数

优选地，所述分词工具为jieba分词工具。

优选地，所述核心字段为表征数据项语义内涵的字段，所述辅助字段为其余表征数据项信息的字段。

优选地，所述字段相似度阈值A＝10，Y₂＝0.75。

本发明的有益效果如下：

针对传统的数据查重方法在使用基础算法进行数据重复性初步核查筛查的基础上，还需要大量具有专业领域知识的人员，逐项进行手动判别的问题。本发明方法采用无监督学习的模式，通过计算机自动操作减少了人工工作量，不需要过多依靠行业专家进行数据重复性判别，提升了数据重复性检测的效率。此外，与直接使用最小编辑距离方法进行数据查重的算法相比，本发明的方法大大提升了数据查重的准确率，为信息核查提供了有力的支撑，保证了数据的可靠性，从而为数据建设提供了智能化辅助。

附图说明

图1为本发明方法原理框图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

基于最小编辑距离算法进行数据库数据查重时，需要基于专业领域知识进行判断，且无法处理字符串颠倒的问题。基于深度学习的方法无需事先约定业务模型，利用神经网络生成模型，发掘出数据语义关联性。但是，利用神经网络生成的模型，没有考虑字符串的结构特征，对字符串的长度不敏感。因此，本文将这两种方法进行融合，使用doc2vec模型判别语义信息后，使用最小编辑距离方法进一步判别。

本发明针对教育评价类数据内容进行重复数据检测，在数据库的存储信息中，包含论文、科研项目等多种类型的数据项，各数据项包含多个字段，例如论文数据项中有“论文题目”、“第一作者”、“发布时间”等字段，其中“论文题目”字段可表征该数据项的语义内涵，因此将该字段视为核心字段，其他字段可明确该数据项全部信息，作为辅助字段。本发明利用核心字段进行语义相似度检测后，结合辅助字段信息实现数据重复性检测。

如图1所示，一种基于doc2vec模型与最小编辑距离的重复性数据检测方法，包括如下步骤：

步骤1：模型初始化及数据预处理；

定义doc2vec基础模型参数；

使用分词工具对语料文件进行分词，构成语料数据集；

步骤2：模型训练及数据处理；

定义核心字段数据集为d{d1，d2...dn}；

使用最终doc2vec模型对核心字段数据集进行语义判别，得到文本向量集v{v(d1)，v(d2)...v(dn)}；

步骤3：重复性数据判别；

具体实施例：

1、模型初始化及数据预处理：

初始化doc2vec的基础模型。首先，定义基础的doc2vec模型参数，如表1所示。接着，对语料文件进行数据预处理，该过程主要包括分词、去停用词等。主流的分词算法有机械分词法和非机械分词法。本发明选用国内技术比较成熟的jieba分词工具对文本进行分词。

表1 doc2vec基础模型参数

随后对结构化源数据进行字段划分，明确核心字段和辅助字段。核心字段为该数据项表征数据项语义内涵的字段，例如论文数据项的“论文题目”字段；其余表征该数据项内容的字段为辅助字段。

2、模型训练及数据处理：

使用第1步处理后的语料数据集，针对doc2vec待训练模型进行模型训练，获取可用于语义判别的doc2vec模型；

使用该模型对结构化源数据的核心字段进行语义重复性检测，获取语义相似的数据集合；

3、重复性数据的判别：

对于当前已获取到的核心字段语义相似数据集，进一步使用最小编辑距离算法判断字段相似度；经实验，由表2可知使用最小编辑距离判定科研项目数据重复性，阈值取0.75时，算法准确率最高。因此，将最小编辑距离判定相似度的阈值设定为0.75，语义相似数据集中，经最小编辑距离判别的相似度大于0.75认定为核心字段重复数据项。最后，结合辅助字段进行重复性数据判定，三个辅助字段中，有一个字段重复则认定该数据项为重复数据，最终获取重复性数据集合。

表2最小编辑距离阈值测试表

Claims

1.一种基于doc2vec模型与最小编辑距离的重复性数据检测方法，其特征在于，包括以下步骤：

步骤1：模型初始化及数据预处理；

定义doc2vec基础模型参数；

使用分词工具对语料文件进行分词，构成语料数据集；

步骤2：模型训练及数据处理；

定义核心字段数据集为d{d1,d2...dn}；

步骤3：重复性数据判别；

2.根据权利要求1所述的一种基于doc2vec模型与最小编辑距离的重复性数据检测方法，其特征在于，所述定义doc2vec基础模型参数如表1：

表1 doc2vec基础模型参数

3.根据权利要求1所述的一种基于doc2vec模型与最小编辑距离的重复性数据检测方法，其特征在于，所述分词工具为jieba分词工具。

4.根据权利要求1所述的一种基于doc2vec模型与最小编辑距离的重复性数据检测方法，其特征在于，所述核心字段为表征数据项语义内涵的字段，所述辅助字段为其余表征数据项信息的字段。

5.根据权利要求1所述的一种基于doc2vec模型与最小编辑距离的重复性数据检测方法，其特征在于，所述字段相似度阈值A＝10，Y₂＝0.75。