CN112214983B

CN112214983B - 一种数据记录查重方法及系统

Info

Publication number: CN112214983B
Application number: CN202010995042.9A
Authority: CN
Inventors: 林群仰; 王树金; 彭霄; 黄子虔
Original assignee: Yuanguang Software Co Ltd
Current assignee: Yuanguang Software Co Ltd
Priority date: 2020-09-21
Filing date: 2020-09-21
Publication date: 2023-08-11
Anticipated expiration: 2040-09-21
Also published as: CN112214983A

Abstract

本发明涉及一种数据记录查重方法及系统，属于数据处理技术领域，解决了现有数据查重方式单一、准确度差的问题。该方法包括，获取每一待查重数据记录的元数据字段；为每一元数据字段配置对应的查重方式、查重算法以及占比权重；为每一待查重数据记录设置相似度下限值；根据配置好的查重方式、查重算法以及占比权重，计算获得每一待对比数据记录与待查重数据记录的相似度值；以及，将获得的相似度值与对应的相似度下限值进行比较，过滤获得相似度值不低于相似度下限值的数据记录。该方法根据元数据字段的不同数据特性配置对应的查重方案，从而提高数据查重的准确率，并降低对查重算法代码开发、调整的需求，提高效率的同时，能够节约成本。

Description

一种数据记录查重方法及系统

技术领域

本发明涉及数据处理技术领域，尤其涉及一种数据记录查重方法及系统。

背景技术

随着企业发展、信息化建设的不断深入，企业内建设的业务系统不断增加，其数据关系日益复杂，各业务系统内带有业务特性、具有共性且具有唯一性的对象类型数据日益庞大；另一方面，因业务需要，各系统之间存在同一类数据的分开管理、交叉管理的现象，同时系统之间的数据交换更加频繁。因此为将此类数据在业务系统之间流转及管理时，保持数据记录的一致性、唯一性，需对此类数据记录与所有在库的同类数据记录进行查重，找出高度相似的数据记录，经人工判断后，进行记录的合并，确保数据记录的正确性及唯一性。

现有的数据记录查重方式主要将数据对象下各数据记录的各元数据字段的数据内容进行组合，形成完整的字符段，再由该字符段与其他数据记录所合成的字符段，经由单一的查重算法进行查重。采用该种查重方式时，若数据记录的元数据字段特性较为单一，可快速满足查重要求，但当数据记录包含多种数据类型且具体多种业务特性的元数据字段时，此种查重方式的查重计算结果准确度差，无法满足使用需求，且需不断的根据其数据特性去屏蔽冗余字段、调整其查重算法。因此每次数据对象发送变化，需不断的进行代码开发，去适应企业及各种业务系统在发展过程中的需求变化。因此，现有的数据记录查重方式无法满足企业各业务系统中的数据对象不断变化、增加，业务特性不断转化而引起的数据记录相似判断准则及需求。

现有技术至少存在以下缺陷，一是查重方法单一，只适用于数据记录的元数据字段特性较为单一的数据查重，对于包含多种数据特性和业务特性的数据记录的查重准确率低；二是不断的根据数据对象的变化进行查重算法代码的开发与调整，效率低、成本高。

发明内容

鉴于上述的分析，本发明旨在提供一种数据记录查重方法及系统，用以解决现有数据记录查重方式单一、准确率低，且需不断对查重算法进行代码开发与调整，效率低、成本高的问题。

一方面，本发明提供了一种数据记录查重方法，包括以下步骤：

获取每一待查重数据记录的元数据字段，所述每一待查重数据记录至少包括一个元数据字段；

为每一所述元数据字段配置对应的查重方式、查重算法以及占比权重；

为每一所述待查重数据记录设置对应的相似度下限值；

根据配置好的查重方式、查重算法以及占比权重，计算获得每一待对比数据记录与所述待查重数据记录的相似度值；

以及，将获得的所述相似度值与对应的相似度下限值进行比较，过滤获得相似度值不低于所述相似度下限值的数据记录。

进一步的，所述为每一所述元数据字段配置对应的查重方式、查重算法以及占比权重，具体包括：

根据所述元数据字段的文本类型配置对应的查重方式；

根据所述元数据字段的数据特性配置对应的查重算法；

根据所述元数据字段对所属待查重数据记录的区分度配置对应的占比权重。

进一步的，所述根据配置好的查重方式、查重算法以及占比权重，计算获得每一待对比数据记录与所述待查重数据记录的相似度值，具体包括：

确定待对比数据记录；

根据配置好的查重方式将待查重数据记录与待对比数据记录中相应元数据字段对应的数据内容转换为相同的文本类型或文本格式；

根据配置好的查重算法计算待对比数据记录与所述待查重数据记录每一相应元数据字段对应的数据内容的相似度值；

根据计算获得的所述元数据字段数据内容的相似度值以及元数据字段对应的占比权重，计算获得待对比数据记录与待查重数据记录的整体相似度值。

进一步的，所述文本类型包括简体文本类型、繁体文本类型、拼音文本类型以及数字文本类型，对应配置的查重方式包括简繁转换方式、拼音转换方式及数字匹配方式；

其中，所述数字匹配方式，用于对文本类型为数字的待检查元数据字段与对应的待对比元数据字段数据内容的长度、数值及数值对应的位置进行匹配，以转换为相同的文本格式。

进一步的，所述查重算法包括余弦算法、模糊算法和完全匹配算法；

所述余弦算法及所述完全匹配算法，用于计算数据内容为单一文本的元数据字段之间的相似度值；

所述模糊算法，用于计算数据内容以段落计量的元数据字段之间的相似度值。

另一方面，本发明提供了一种数据记录查重系统，包括：

数据获取模块，用于获取每一待查重数据记录的元数据字段，所述每一待查重数据记录至少包括一个元数据字段；

查重方案配置模块，用于为每一所述元数据字段配置对应的查重方式、查重算法以及占比权重；还用于为每一所述待查重数据记录设置对应的相似度下限值；

数据记录查重模块，用于根据配置好的查重方式、查重算法以及占比权重，计算获得每一待对比数据记录与所述待查重数据记录的相似度值；

结果输出模块，用于将获得的所述相似度值与对应的相似度下限值进行比较，过滤获得相似度值不低于所述相似度下限值的数据记录，并进行输出。

进一步的，所述查重方案配置模块，进一步用于：

根据所述元数据字段的文本类型配置对应的查重方式；

根据所述元数据字段的数据特性配置对应的查重算法；

进一步的，所述数据记录查重模块，进一步用于：

确定待对比数据记录；

进一步的，所述文本类型包括简体文本类型、繁体文本类型、拼音文本类型以及数字文本类型，所述查重方案配置模块对应配置的查重方式包括简繁转换方式、拼音转换方式及数字匹配方式；

其中，所述数字匹配方式，用于对文本类型为数字的待检查元数据字段与对应的待比对元数据字段数据内容的长度、数值及数值对应的位置进行匹配，以转换为相同的文本格式。

进一步的，所述查重方案配置模块可配置的查重算法包括余弦算法、模糊算法和完全匹配算法；

与现有技术相比，本发明至少可实现如下有益效果之一：

1、本发明提出的数据记录查重方法与系统，根据数据记录的每一元数据字段的特性配置其对应的查重方式、查重算法以及占比权重，规避了现有技术中数据查重方法单一的缺陷，从而提高对不同特性的数据记录查重的准确度。

2、本发明提出的数据记录查重方法与系统，包含了预先开发好的多种查重方式和查重算法，当数据记录的数据特性或业务特性发生变化，导致配置的查重方案查重准确率降低时，只需根据变化后的数据记录的数据特性和业务特性重新配置对应的查重方案(查重方式、查重算法及占比权重)，无需对查重方式、查重算法进行重新开发和调整，提高了效率的同时，降低了开发成本。

本发明中，上述各技术方案之间还可以相互组合，以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述，并且，部分优点可从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。

附图说明

附图仅用于示出具体实施例的目的，而并不认为是对本发明的限制，在整个附图中，相同的参考符号表示相同的部件。

图1为本发明实施例数据记录查重方法的流程图；

图2为本发明实施例计算获得待对比数据记录与待查重数据记录的相似度值并获得查重结果的流程图；

图3为本发明实施例数据记录查重系统的示意图。

具体实施方式

下面结合附图来具体描述本发明的优选实施例，其中，附图构成本申请一部分，并与本发明的实施例一起用于阐释本发明的原理，并非用于限定本发明的范围。

方法实施例

本发明的一个具体实施例，公开了一种数据记录查重方法。如图1所示，该方法包括以下步骤：

步骤1、确定待查重数据对象，每一数据对象包括多条数据记录，获取每一待查重数据记录的元数据字段，每一待查重数据记录至少包括一个元数据字段。示例性的，数据对象为职工信息，则每一名职工会对应一条数据记录，而职工信息中的姓名、民族、身份证号等则对应元数据字段。

步骤2、为每一元数据字段配置对应的查重方式、查重算法以及占比权重。不同元数据字段的文本类型、数据特性以及对待查询数据记录的区分度不同，因此分别为其设置各自的查重方式、查重算法以及占比权重，提升查重准确性。

步骤3、为每一待查重数据记录设置对应的相似度下限值。优选的，可以根据查重结果不断调整该相似度下限值，以提高查重准确度，并保证查重的有效率。示例性的，当查重结果中包含的数据记录存在较多杂质时，即查重结果中存在较多数据记录与待查重数据记录不是重复的数据记录，则上调相似度下限值；当查重结果中包含的数据记录均是与待查重数据记录重复的数据记录时，则可能存在查重不全的情况，可以下调相似度下限值，不断调整以提高查重准确度。

步骤4、根据配置好的查重方式、查重算法以及占比权重，计算获得每一待对比数据记录与待查重数据记录的相似度值。具体的，每一数据记录可以包括多个元数据字段，在计算相似度值时，可以先得到对比数据记录与待查重数据记录每一相应元数据字段对应的数据内容的相似度值，然后再计算获得每一待对比数据记录与待查重数据记录的相似度值。

步骤5、将获得的相似度值与对应的相似度下限值进行比较，过滤获得相似度值不低于相似度下限值的数据记录。

优选的，步骤2中，为每一元数据字段配置对应的查重方式、查重算法以及占比权重，具体包括：

步骤2.1、根据元数据字段的文本类型配置对应的查重方式。具体的，文本类型包括简体文本类型、繁体文本类型、拼音文本类型以及数字文本类型，对应配置的查重方式包括简繁转换方式、拼音转换方式及数字匹配方式。

步骤2.2、根据元数据字段的数据特性配置对应的查重算法。具体的，数据特性是指元数据字段对应的数据内容的特点，示例性的，数据内容为无标准定式的单一文本、具有标准定式的单一文本或者数据内容以段落计量，根据数据特性配置的查重算法可以包括余弦算法、完全匹配算法和模糊算法。

其中，余弦算法，用于计算数据内容具有同类性质但无特殊句式的单一文本的元数据字段之间的相似度值，示例性的，组织名称、企业名称等元数据字段，通过比较并计算字段内数据内容或字符的重复比例来确定元数据字段之间的相似度值。

完全匹配算法，用于计算数据内容为具体特殊定式和含义引用内容，示例性，如行政区域、行业类别等标准数据，需完全一致才计为重复，相似度值为1，否则为0，

模糊算法，用于计算数据内容以段落计量的元数据字段之间的相似度值。示例性的，该元数据字段对应的任一段落包含N个字符，N个字符中存在连续X个字符重复，若则该段落无重复，若/>则记为重复，并根据/>的具体值确定其具体相似度值，对该元数据字段对应的全部段落均采用上述方式计算相似度值，并进行加权求平均，以获得该元数据字段对应的整体相似度值。

具体的，本发明可配置的查重算法还包括其他可执行的算法，示例性的，还可以包括复写率算法、比对算法等等，不进行一一穷举。

步骤2.3、根据元数据字段对所属待查重数据记录的区分度配置对应的占比权重。具体的，在配置占比权重时，元数据字段对所属待查重数据记录的区分度较高时，配置的占比权重大，区分度较低时，配置的占比权重小，示例性的，职工信息数据记录中的姓名或者身份证号对数据记录的区分度较大，则可以配置较大的权重，民族对数据记录的区分度较小，则可以配置较小的权重。

优选的，步骤4中，根据配置好的查重方式、查重算法以及占比权重，计算获得每一待对比数据记录与待查重数据记录的相似度值，并获得相似度高的数据记录，如图2所示，具体包括：

步骤4.1、载入数据对象的待查重数据记录以及待对比数据记录。

步骤4.2、获取并解析配置好的查重方式、查重算法。

步骤4.3、获取待查重数据记录，并确定待对比数据记录。

步骤4.4、根据配置好的查重方式将待查重数据记录与待对比数据记录中相应元数据字段对应的数据内容转换为相同的文本类型或文本格式。

步骤4.5、根据配置好的查重算法计算待对比数据记录与待查重数据记录每一相应元数据字段对应的数据内容的相似度值。

步骤4.6、根据计算获得的元数据字段之间数据内容的相似度值以及元数据字段对应的占比权重，计算获得待对比数据记录与待查重数据记录的整体相似度值。

步骤4.7、根据相似度下限值进行滤除，获得相似度值不低于相似度下限值的数据记录。

优选的，步骤4.4中，元数据字段数据内容的文本类型为繁体文本类型，则可以采用简繁转换的查重方式，将文字统一转换为简体字符后再根据配置查重算法进行查重。

元数据字段数据内容的文本类型为拼音文本类型，即包含大量的拼写，则可以采用拼音转换的查重方式，将元数据字段数据内容中的文字统一转换为拼音字符后再根据配置的查重算法进行查重。

元数据字段数据内容的文本类型为数字文本类型，则可以采用数字匹配的查重方式对待检查元数据字段与对应的待对比元数据字段数据内容的长度、数值及数值对应的位置进行匹配，以转换为相同的文本格式。示例性的，职工的身份证号，同为18位数字，会造成查重算法失准，因此采用数字匹配的查重方式，将数据长度、数值、数值对应的位置同时参与进行匹配计算。

系统实施例

本实施例与方法实施例基于相同的发明构思，为重复描述之处，可参见方法实施例的内容。

本发明的另一个实施例，公开了一种数据记录查重系统，如图3所示，包括：

数据获取模块，用于获取每一待查重数据记录的元数据字段，每一待查重数据记录至少包括一个元数据字段。

查重方案配置模块，用于为每一元数据字段配置对应的查重方式、查重算法以及占比权重；还用于为每一待查重数据记录设置对应的相似度下限值。查重方案配置模块中已经包含有预先开发好的查重方式以及查重算法，并可以根据实际使用需求增加新的查重方式或查重算法。

数据记录查重模块，用于根据配置好的查重方式、查重算法以及占比权重，计算获得每一待对比数据记录与待查重数据记录的相似度值。

结果输出模块，用于将获得的相似度值与对应的相似度下限值进行比较，过滤获得相似度值不低于相似度下限值的数据记录，并进行输出。

优选的，查重方案配置模块，进一步用于：

根据元数据字段的文本类型配置对应的查重方式。

根据元数据字段的数据特性配置对应的查重算法。

根据元数据字段对所属待查重数据记录的区分度配置对应的占比权重。

优选的，数据记录查重模块，进一步用于：

载入数据对象的待查重数据记录以及待对比数据记录。

获取并解析配置好的查重方式、查重算法。

获取待查重数据记录，并确定待对比数据记录。

根据配置好的查重方式将待查重数据记录与待对比数据记录中相应元数据字段对应的数据内容转换为相同的文本类型或文本格式。

根据配置好的查重算法计算待对比数据记录与待查重数据记录每一相应元数据字段对应的数据内容的相似度值。

根据计算获得的元数据字段之间数据内容的相似度值以及元数据字段对应的占比权重，计算获得待对比数据记录与待查重数据记录的整体相似度值。

优选的，文本类型包括简体文本类型、繁体文本类型、拼音文本类型以及数字文本类型，该查重方案配置模块对应配置的查重方式包括简繁转换方式、拼音转换方式及数字匹配方式。

其中，数字匹配方式，用于对文本类型为数字的待检查元数据字段与对应的待比对元数据字段数据内容的长度、数值及数值对应的位置进行匹配，以转换为相同的文本格式。

优选的，该查重方案配置模块可配置的查重算法包括余弦算法、模糊算法和完全匹配算法。

余弦算法及完全匹配算法，用于计算数据内容为单一文本的元数据字段之间的相似度值。

模糊算法，用于计算数据内容以段落计量的元数据字段之间的相似度值。

与现有技术相比，本发明提出的数据记录查重方法与系统，一方面根据数据记录的每一元数据字段的特性配置其对应的查重方式、查重算法以及占比权重，规避了现有技术中数据查重方法单一的缺陷，从而提高对不同特性的数据记录查重的准确度。另一方面，本发明提出的数据记录查重方法与系统，包含了预先开发好的多种查重方式和查重算法，当数据记录的数据特性或业务特性发生变化，导致配置的查重方案查重准确率降低时，只需根据变化后的数据记录的数据特性和业务特性重新配置对应的查重方案(查重方式、查重算法及占比权重)，无需对查重方式、查重算法进行重新开发和调整，提高了效率的同时，降低了开发成本。

本领域技术人员可以理解，实现上述实施例方法的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读存储介质中。其中，所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种数据记录查重方法，其特征在于，包括以下步骤：

为每一所述待查重数据记录设置对应的相似度下限值，根据查重结果调整所述相似度下限值；

根据配置好的查重方式、查重算法以及占比权重，计算获得每一待对比数据记录与所述待查重数据记录的相似度值，其中：

确定待对比数据记录；根据配置好的查重方式将待查重数据记录与待对比数据记录中相应元数据字段对应的数据内容转换为相同的文本类型或文本格式；根据配置好的查重算法计算待对比数据记录与所述待查重数据记录每一相应元数据字段对应的数据内容的相似度值；根据计算获得的所述元数据字段数据内容的相似度值以及元数据字段对应的占比权重，计算获得待对比数据记录与待查重数据记录的整体相似度值；以及，将获得的所述整体相似度值与对应的相似度下限值进行比较，过滤获得相似度值不低于所述相似度下限值的数据记录。

2.根据权利要求1所述的数据记录查重方法，其特征在于，所述为每一所述元数据字段配置对应的查重方式、查重算法以及占比权重，具体包括：

根据所述元数据字段的文本类型配置对应的查重方式；

根据所述元数据字段的数据特性配置对应的查重算法；

3.根据权利要求2所述的数据记录查重方法，其特征在于，所述文本类型包括简体文本类型、繁体文本类型、拼音文本类型以及数字文本类型，对应配置的查重方式包括简繁转换方式、拼音转换方式及数字匹配方式；

4.根据权利要求3所述的数据记录查重方法，其特征在于，所述查重算法包括余弦算法、模糊算法和完全匹配算法；

5.一种数据记录查重系统，其特征在于，包括：

查重方案配置模块，用于为每一所述元数据字段配置对应的查重方式、查重算法以及占比权重；还用于为每一所述待查重数据记录设置对应的相似度下限值，根据查重结果调整所述相似度下限值；

数据记录查重模块，用于根据配置好的查重方式、查重算法以及占比权重，计算获得每一待对比数据记录与所述待查重数据记录的相似度值，其中：确定待对比数据记录；根据配置好的查重方式将待查重数据记录与待对比数据记录中相应元数据字段对应的数据内容转换为相同的文本类型或文本格式；根据配置好的查重算法计算待对比数据记录与所述待查重数据记录每一相应元数据字段对应的数据内容的相似度值；根据计算获得的所述元数据字段数据内容的相似度值以及元数据字段对应的占比权重，计算获得待对比数据记录与待查重数据记录的整体相似度值；

6.根据权利要求5所述的数据记录查重系统，其特征在于，所述查重方案配置模块，进一步用于：

根据所述元数据字段的文本类型配置对应的查重方式；

根据所述元数据字段的数据特性配置对应的查重算法；

7.根据权利要求5所述的数据记录查重系统，其特征在于，所述数据记录查重模块，进一步用于：

确定待对比数据记录；

8.根据权利要求6或7所述的数据记录查重系统，其特征在于，所述文本类型包括简体文本类型、繁体文本类型、拼音文本类型以及数字文本类型，所述查重方案配置模块对应配置的查重方式包括简繁转换方式、拼音转换方式及数字匹配方式；

9.根据权利要求8所述的数据记录查重系统，其特征在于，所述查重方案配置模块可配置的查重算法包括余弦算法、模糊算法和完全匹配算法；