CN112214983B - 一种数据记录查重方法及系统 - Google Patents

一种数据记录查重方法及系统 Download PDF

Info

Publication number
CN112214983B
CN112214983B CN202010995042.9A CN202010995042A CN112214983B CN 112214983 B CN112214983 B CN 112214983B CN 202010995042 A CN202010995042 A CN 202010995042A CN 112214983 B CN112214983 B CN 112214983B
Authority
CN
China
Prior art keywords
data record
data
metadata field
algorithm
checked
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010995042.9A
Other languages
English (en)
Other versions
CN112214983A (zh
Inventor
林群仰
王树金
彭霄
黄子虔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yuanguang Software Co Ltd
Original Assignee
Yuanguang Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yuanguang Software Co Ltd filed Critical Yuanguang Software Co Ltd
Priority to CN202010995042.9A priority Critical patent/CN112214983B/zh
Publication of CN112214983A publication Critical patent/CN112214983A/zh
Application granted granted Critical
Publication of CN112214983B publication Critical patent/CN112214983B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种数据记录查重方法及系统,属于数据处理技术领域,解决了现有数据查重方式单一、准确度差的问题。该方法包括,获取每一待查重数据记录的元数据字段;为每一元数据字段配置对应的查重方式、查重算法以及占比权重;为每一待查重数据记录设置相似度下限值;根据配置好的查重方式、查重算法以及占比权重,计算获得每一待对比数据记录与待查重数据记录的相似度值;以及,将获得的相似度值与对应的相似度下限值进行比较,过滤获得相似度值不低于相似度下限值的数据记录。该方法根据元数据字段的不同数据特性配置对应的查重方案,从而提高数据查重的准确率,并降低对查重算法代码开发、调整的需求,提高效率的同时,能够节约成本。

Description

一种数据记录查重方法及系统
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据记录查重方法及系统。
背景技术
随着企业发展、信息化建设的不断深入,企业内建设的业务系统不断增加,其数据关系日益复杂,各业务系统内带有业务特性、具有共性且具有唯一性的对象类型数据日益庞大;另一方面,因业务需要,各系统之间存在同一类数据的分开管理、交叉管理的现象,同时系统之间的数据交换更加频繁。因此为将此类数据在业务系统之间流转及管理时,保持数据记录的一致性、唯一性,需对此类数据记录与所有在库的同类数据记录进行查重,找出高度相似的数据记录,经人工判断后,进行记录的合并,确保数据记录的正确性及唯一性。
现有的数据记录查重方式主要将数据对象下各数据记录的各元数据字段的数据内容进行组合,形成完整的字符段,再由该字符段与其他数据记录所合成的字符段,经由单一的查重算法进行查重。采用该种查重方式时,若数据记录的元数据字段特性较为单一,可快速满足查重要求,但当数据记录包含多种数据类型且具体多种业务特性的元数据字段时,此种查重方式的查重计算结果准确度差,无法满足使用需求,且需不断的根据其数据特性去屏蔽冗余字段、调整其查重算法。因此每次数据对象发送变化,需不断的进行代码开发,去适应企业及各种业务系统在发展过程中的需求变化。因此,现有的数据记录查重方式无法满足企业各业务系统中的数据对象不断变化、增加,业务特性不断转化而引起的数据记录相似判断准则及需求。
现有技术至少存在以下缺陷,一是查重方法单一,只适用于数据记录的元数据字段特性较为单一的数据查重,对于包含多种数据特性和业务特性的数据记录的查重准确率低;二是不断的根据数据对象的变化进行查重算法代码的开发与调整,效率低、成本高。
发明内容
鉴于上述的分析,本发明旨在提供一种数据记录查重方法及系统,用以解决现有数据记录查重方式单一、准确率低,且需不断对查重算法进行代码开发与调整,效率低、成本高的问题。
一方面,本发明提供了一种数据记录查重方法,包括以下步骤:
获取每一待查重数据记录的元数据字段,所述每一待查重数据记录至少包括一个元数据字段;
为每一所述元数据字段配置对应的查重方式、查重算法以及占比权重;
为每一所述待查重数据记录设置对应的相似度下限值;
根据配置好的查重方式、查重算法以及占比权重,计算获得每一待对比数据记录与所述待查重数据记录的相似度值;
以及,将获得的所述相似度值与对应的相似度下限值进行比较,过滤获得相似度值不低于所述相似度下限值的数据记录。
进一步的,所述为每一所述元数据字段配置对应的查重方式、查重算法以及占比权重,具体包括:
根据所述元数据字段的文本类型配置对应的查重方式;
根据所述元数据字段的数据特性配置对应的查重算法;
根据所述元数据字段对所属待查重数据记录的区分度配置对应的占比权重。
进一步的,所述根据配置好的查重方式、查重算法以及占比权重,计算获得每一待对比数据记录与所述待查重数据记录的相似度值,具体包括:
确定待对比数据记录;
根据配置好的查重方式将待查重数据记录与待对比数据记录中相应元数据字段对应的数据内容转换为相同的文本类型或文本格式;
根据配置好的查重算法计算待对比数据记录与所述待查重数据记录每一相应元数据字段对应的数据内容的相似度值;
根据计算获得的所述元数据字段数据内容的相似度值以及元数据字段对应的占比权重,计算获得待对比数据记录与待查重数据记录的整体相似度值。
进一步的,所述文本类型包括简体文本类型、繁体文本类型、拼音文本类型以及数字文本类型,对应配置的查重方式包括简繁转换方式、拼音转换方式及数字匹配方式;
其中,所述数字匹配方式,用于对文本类型为数字的待检查元数据字段与对应的待对比元数据字段数据内容的长度、数值及数值对应的位置进行匹配,以转换为相同的文本格式。
进一步的,所述查重算法包括余弦算法、模糊算法和完全匹配算法;
所述余弦算法及所述完全匹配算法,用于计算数据内容为单一文本的元数据字段之间的相似度值;
所述模糊算法,用于计算数据内容以段落计量的元数据字段之间的相似度值。
另一方面,本发明提供了一种数据记录查重系统,包括:
数据获取模块,用于获取每一待查重数据记录的元数据字段,所述每一待查重数据记录至少包括一个元数据字段;
查重方案配置模块,用于为每一所述元数据字段配置对应的查重方式、查重算法以及占比权重;还用于为每一所述待查重数据记录设置对应的相似度下限值;
数据记录查重模块,用于根据配置好的查重方式、查重算法以及占比权重,计算获得每一待对比数据记录与所述待查重数据记录的相似度值;
结果输出模块,用于将获得的所述相似度值与对应的相似度下限值进行比较,过滤获得相似度值不低于所述相似度下限值的数据记录,并进行输出。
进一步的,所述查重方案配置模块,进一步用于:
根据所述元数据字段的文本类型配置对应的查重方式;
根据所述元数据字段的数据特性配置对应的查重算法;
根据所述元数据字段对所属待查重数据记录的区分度配置对应的占比权重。
进一步的,所述数据记录查重模块,进一步用于:
确定待对比数据记录;
根据配置好的查重方式将待查重数据记录与待对比数据记录中相应元数据字段对应的数据内容转换为相同的文本类型或文本格式;
根据配置好的查重算法计算待对比数据记录与所述待查重数据记录每一相应元数据字段对应的数据内容的相似度值;
根据计算获得的所述元数据字段数据内容的相似度值以及元数据字段对应的占比权重,计算获得待对比数据记录与待查重数据记录的整体相似度值。
进一步的,所述文本类型包括简体文本类型、繁体文本类型、拼音文本类型以及数字文本类型,所述查重方案配置模块对应配置的查重方式包括简繁转换方式、拼音转换方式及数字匹配方式;
其中,所述数字匹配方式,用于对文本类型为数字的待检查元数据字段与对应的待比对元数据字段数据内容的长度、数值及数值对应的位置进行匹配,以转换为相同的文本格式。
进一步的,所述查重方案配置模块可配置的查重算法包括余弦算法、模糊算法和完全匹配算法;
所述余弦算法及所述完全匹配算法,用于计算数据内容为单一文本的元数据字段之间的相似度值;
所述模糊算法,用于计算数据内容以段落计量的元数据字段之间的相似度值。
与现有技术相比,本发明至少可实现如下有益效果之一:
1、本发明提出的数据记录查重方法与系统,根据数据记录的每一元数据字段的特性配置其对应的查重方式、查重算法以及占比权重,规避了现有技术中数据查重方法单一的缺陷,从而提高对不同特性的数据记录查重的准确度。
2、本发明提出的数据记录查重方法与系统,包含了预先开发好的多种查重方式和查重算法,当数据记录的数据特性或业务特性发生变化,导致配置的查重方案查重准确率降低时,只需根据变化后的数据记录的数据特性和业务特性重新配置对应的查重方案(查重方式、查重算法及占比权重),无需对查重方式、查重算法进行重新开发和调整,提高了效率的同时,降低了开发成本。
本发明中,上述各技术方案之间还可以相互组合,以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述,并且,部分优点可从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件。
图1为本发明实施例数据记录查重方法的流程图;
图2为本发明实施例计算获得待对比数据记录与待查重数据记录的相似度值并获得查重结果的流程图;
图3为本发明实施例数据记录查重系统的示意图。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。
方法实施例
本发明的一个具体实施例,公开了一种数据记录查重方法。如图1所示,该方法包括以下步骤:
步骤1、确定待查重数据对象,每一数据对象包括多条数据记录,获取每一待查重数据记录的元数据字段,每一待查重数据记录至少包括一个元数据字段。示例性的,数据对象为职工信息,则每一名职工会对应一条数据记录,而职工信息中的姓名、民族、身份证号等则对应元数据字段。
步骤2、为每一元数据字段配置对应的查重方式、查重算法以及占比权重。不同元数据字段的文本类型、数据特性以及对待查询数据记录的区分度不同,因此分别为其设置各自的查重方式、查重算法以及占比权重,提升查重准确性。
步骤3、为每一待查重数据记录设置对应的相似度下限值。优选的,可以根据查重结果不断调整该相似度下限值,以提高查重准确度,并保证查重的有效率。示例性的,当查重结果中包含的数据记录存在较多杂质时,即查重结果中存在较多数据记录与待查重数据记录不是重复的数据记录,则上调相似度下限值;当查重结果中包含的数据记录均是与待查重数据记录重复的数据记录时,则可能存在查重不全的情况,可以下调相似度下限值,不断调整以提高查重准确度。
步骤4、根据配置好的查重方式、查重算法以及占比权重,计算获得每一待对比数据记录与待查重数据记录的相似度值。具体的,每一数据记录可以包括多个元数据字段,在计算相似度值时,可以先得到对比数据记录与待查重数据记录每一相应元数据字段对应的数据内容的相似度值,然后再计算获得每一待对比数据记录与待查重数据记录的相似度值。
步骤5、将获得的相似度值与对应的相似度下限值进行比较,过滤获得相似度值不低于相似度下限值的数据记录。
优选的,步骤2中,为每一元数据字段配置对应的查重方式、查重算法以及占比权重,具体包括:
步骤2.1、根据元数据字段的文本类型配置对应的查重方式。具体的,文本类型包括简体文本类型、繁体文本类型、拼音文本类型以及数字文本类型,对应配置的查重方式包括简繁转换方式、拼音转换方式及数字匹配方式。
步骤2.2、根据元数据字段的数据特性配置对应的查重算法。具体的,数据特性是指元数据字段对应的数据内容的特点,示例性的,数据内容为无标准定式的单一文本、具有标准定式的单一文本或者数据内容以段落计量,根据数据特性配置的查重算法可以包括余弦算法、完全匹配算法和模糊算法。
其中,余弦算法,用于计算数据内容具有同类性质但无特殊句式的单一文本的元数据字段之间的相似度值,示例性的,组织名称、企业名称等元数据字段,通过比较并计算字段内数据内容或字符的重复比例来确定元数据字段之间的相似度值。
完全匹配算法,用于计算数据内容为具体特殊定式和含义引用内容,示例性,如行政区域、行业类别等标准数据,需完全一致才计为重复,相似度值为1,否则为0,
模糊算法,用于计算数据内容以段落计量的元数据字段之间的相似度值。示例性的,该元数据字段对应的任一段落包含N个字符,N个字符中存在连续X个字符重复,若则该段落无重复,若/>则记为重复,并根据/>的具体值确定其具体相似度值,对该元数据字段对应的全部段落均采用上述方式计算相似度值,并进行加权求平均,以获得该元数据字段对应的整体相似度值。
具体的,本发明可配置的查重算法还包括其他可执行的算法,示例性的,还可以包括复写率算法、比对算法等等,不进行一一穷举。
步骤2.3、根据元数据字段对所属待查重数据记录的区分度配置对应的占比权重。具体的,在配置占比权重时,元数据字段对所属待查重数据记录的区分度较高时,配置的占比权重大,区分度较低时,配置的占比权重小,示例性的,职工信息数据记录中的姓名或者身份证号对数据记录的区分度较大,则可以配置较大的权重,民族对数据记录的区分度较小,则可以配置较小的权重。
优选的,步骤4中,根据配置好的查重方式、查重算法以及占比权重,计算获得每一待对比数据记录与待查重数据记录的相似度值,并获得相似度高的数据记录,如图2所示,具体包括:
步骤4.1、载入数据对象的待查重数据记录以及待对比数据记录。
步骤4.2、获取并解析配置好的查重方式、查重算法。
步骤4.3、获取待查重数据记录,并确定待对比数据记录。
步骤4.4、根据配置好的查重方式将待查重数据记录与待对比数据记录中相应元数据字段对应的数据内容转换为相同的文本类型或文本格式。
步骤4.5、根据配置好的查重算法计算待对比数据记录与待查重数据记录每一相应元数据字段对应的数据内容的相似度值。
步骤4.6、根据计算获得的元数据字段之间数据内容的相似度值以及元数据字段对应的占比权重,计算获得待对比数据记录与待查重数据记录的整体相似度值。
步骤4.7、根据相似度下限值进行滤除,获得相似度值不低于相似度下限值的数据记录。
优选的,步骤4.4中,元数据字段数据内容的文本类型为繁体文本类型,则可以采用简繁转换的查重方式,将文字统一转换为简体字符后再根据配置查重算法进行查重。
元数据字段数据内容的文本类型为拼音文本类型,即包含大量的拼写,则可以采用拼音转换的查重方式,将元数据字段数据内容中的文字统一转换为拼音字符后再根据配置的查重算法进行查重。
元数据字段数据内容的文本类型为数字文本类型,则可以采用数字匹配的查重方式对待检查元数据字段与对应的待对比元数据字段数据内容的长度、数值及数值对应的位置进行匹配,以转换为相同的文本格式。示例性的,职工的身份证号,同为18位数字,会造成查重算法失准,因此采用数字匹配的查重方式,将数据长度、数值、数值对应的位置同时参与进行匹配计算。
系统实施例
本实施例与方法实施例基于相同的发明构思,为重复描述之处,可参见方法实施例的内容。
本发明的另一个实施例,公开了一种数据记录查重系统,如图3所示,包括:
数据获取模块,用于获取每一待查重数据记录的元数据字段,每一待查重数据记录至少包括一个元数据字段。
查重方案配置模块,用于为每一元数据字段配置对应的查重方式、查重算法以及占比权重;还用于为每一待查重数据记录设置对应的相似度下限值。查重方案配置模块中已经包含有预先开发好的查重方式以及查重算法,并可以根据实际使用需求增加新的查重方式或查重算法。
数据记录查重模块,用于根据配置好的查重方式、查重算法以及占比权重,计算获得每一待对比数据记录与待查重数据记录的相似度值。
结果输出模块,用于将获得的相似度值与对应的相似度下限值进行比较,过滤获得相似度值不低于相似度下限值的数据记录,并进行输出。
优选的,查重方案配置模块,进一步用于:
根据元数据字段的文本类型配置对应的查重方式。
根据元数据字段的数据特性配置对应的查重算法。
根据元数据字段对所属待查重数据记录的区分度配置对应的占比权重。
优选的,数据记录查重模块,进一步用于:
载入数据对象的待查重数据记录以及待对比数据记录。
获取并解析配置好的查重方式、查重算法。
获取待查重数据记录,并确定待对比数据记录。
根据配置好的查重方式将待查重数据记录与待对比数据记录中相应元数据字段对应的数据内容转换为相同的文本类型或文本格式。
根据配置好的查重算法计算待对比数据记录与待查重数据记录每一相应元数据字段对应的数据内容的相似度值。
根据计算获得的元数据字段之间数据内容的相似度值以及元数据字段对应的占比权重,计算获得待对比数据记录与待查重数据记录的整体相似度值。
优选的,文本类型包括简体文本类型、繁体文本类型、拼音文本类型以及数字文本类型,该查重方案配置模块对应配置的查重方式包括简繁转换方式、拼音转换方式及数字匹配方式。
其中,数字匹配方式,用于对文本类型为数字的待检查元数据字段与对应的待比对元数据字段数据内容的长度、数值及数值对应的位置进行匹配,以转换为相同的文本格式。
优选的,该查重方案配置模块可配置的查重算法包括余弦算法、模糊算法和完全匹配算法。
余弦算法及完全匹配算法,用于计算数据内容为单一文本的元数据字段之间的相似度值。
模糊算法,用于计算数据内容以段落计量的元数据字段之间的相似度值。
与现有技术相比,本发明提出的数据记录查重方法与系统,一方面根据数据记录的每一元数据字段的特性配置其对应的查重方式、查重算法以及占比权重,规避了现有技术中数据查重方法单一的缺陷,从而提高对不同特性的数据记录查重的准确度。另一方面,本发明提出的数据记录查重方法与系统,包含了预先开发好的多种查重方式和查重算法,当数据记录的数据特性或业务特性发生变化,导致配置的查重方案查重准确率降低时,只需根据变化后的数据记录的数据特性和业务特性重新配置对应的查重方案(查重方式、查重算法及占比权重),无需对查重方式、查重算法进行重新开发和调整,提高了效率的同时,降低了开发成本。
本领域技术人员可以理解,实现上述实施例方法的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读存储介质中。其中,所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (9)

1.一种数据记录查重方法,其特征在于,包括以下步骤:
获取每一待查重数据记录的元数据字段,所述每一待查重数据记录至少包括一个元数据字段;
为每一所述元数据字段配置对应的查重方式、查重算法以及占比权重;
为每一所述待查重数据记录设置对应的相似度下限值,根据查重结果调整所述相似度下限值;
根据配置好的查重方式、查重算法以及占比权重,计算获得每一待对比数据记录与所述待查重数据记录的相似度值,其中:
确定待对比数据记录;根据配置好的查重方式将待查重数据记录与待对比数据记录中相应元数据字段对应的数据内容转换为相同的文本类型或文本格式;根据配置好的查重算法计算待对比数据记录与所述待查重数据记录每一相应元数据字段对应的数据内容的相似度值;根据计算获得的所述元数据字段数据内容的相似度值以及元数据字段对应的占比权重,计算获得待对比数据记录与待查重数据记录的整体相似度值;以及,将获得的所述整体相似度值与对应的相似度下限值进行比较,过滤获得相似度值不低于所述相似度下限值的数据记录。
2.根据权利要求1所述的数据记录查重方法,其特征在于,所述为每一所述元数据字段配置对应的查重方式、查重算法以及占比权重,具体包括:
根据所述元数据字段的文本类型配置对应的查重方式;
根据所述元数据字段的数据特性配置对应的查重算法;
根据所述元数据字段对所属待查重数据记录的区分度配置对应的占比权重。
3.根据权利要求2所述的数据记录查重方法,其特征在于,所述文本类型包括简体文本类型、繁体文本类型、拼音文本类型以及数字文本类型,对应配置的查重方式包括简繁转换方式、拼音转换方式及数字匹配方式;
其中,所述数字匹配方式,用于对文本类型为数字的待检查元数据字段与对应的待对比元数据字段数据内容的长度、数值及数值对应的位置进行匹配,以转换为相同的文本格式。
4.根据权利要求3所述的数据记录查重方法,其特征在于,所述查重算法包括余弦算法、模糊算法和完全匹配算法;
所述余弦算法及所述完全匹配算法,用于计算数据内容为单一文本的元数据字段之间的相似度值;
所述模糊算法,用于计算数据内容以段落计量的元数据字段之间的相似度值。
5.一种数据记录查重系统,其特征在于,包括:
数据获取模块,用于获取每一待查重数据记录的元数据字段,所述每一待查重数据记录至少包括一个元数据字段;
查重方案配置模块,用于为每一所述元数据字段配置对应的查重方式、查重算法以及占比权重;还用于为每一所述待查重数据记录设置对应的相似度下限值,根据查重结果调整所述相似度下限值;
数据记录查重模块,用于根据配置好的查重方式、查重算法以及占比权重,计算获得每一待对比数据记录与所述待查重数据记录的相似度值,其中:确定待对比数据记录;根据配置好的查重方式将待查重数据记录与待对比数据记录中相应元数据字段对应的数据内容转换为相同的文本类型或文本格式;根据配置好的查重算法计算待对比数据记录与所述待查重数据记录每一相应元数据字段对应的数据内容的相似度值;根据计算获得的所述元数据字段数据内容的相似度值以及元数据字段对应的占比权重,计算获得待对比数据记录与待查重数据记录的整体相似度值;
结果输出模块,用于将获得的所述相似度值与对应的相似度下限值进行比较,过滤获得相似度值不低于所述相似度下限值的数据记录,并进行输出。
6.根据权利要求5所述的数据记录查重系统,其特征在于,所述查重方案配置模块,进一步用于:
根据所述元数据字段的文本类型配置对应的查重方式;
根据所述元数据字段的数据特性配置对应的查重算法;
根据所述元数据字段对所属待查重数据记录的区分度配置对应的占比权重。
7.根据权利要求5所述的数据记录查重系统,其特征在于,所述数据记录查重模块,进一步用于:
确定待对比数据记录;
根据配置好的查重方式将待查重数据记录与待对比数据记录中相应元数据字段对应的数据内容转换为相同的文本类型或文本格式;
根据配置好的查重算法计算待对比数据记录与所述待查重数据记录每一相应元数据字段对应的数据内容的相似度值;
根据计算获得的所述元数据字段数据内容的相似度值以及元数据字段对应的占比权重,计算获得待对比数据记录与待查重数据记录的整体相似度值。
8.根据权利要求6或7所述的数据记录查重系统,其特征在于,所述文本类型包括简体文本类型、繁体文本类型、拼音文本类型以及数字文本类型,所述查重方案配置模块对应配置的查重方式包括简繁转换方式、拼音转换方式及数字匹配方式;
其中,所述数字匹配方式,用于对文本类型为数字的待检查元数据字段与对应的待比对元数据字段数据内容的长度、数值及数值对应的位置进行匹配,以转换为相同的文本格式。
9.根据权利要求8所述的数据记录查重系统,其特征在于,所述查重方案配置模块可配置的查重算法包括余弦算法、模糊算法和完全匹配算法;
所述余弦算法及所述完全匹配算法,用于计算数据内容为单一文本的元数据字段之间的相似度值;
所述模糊算法,用于计算数据内容以段落计量的元数据字段之间的相似度值。
CN202010995042.9A 2020-09-21 2020-09-21 一种数据记录查重方法及系统 Active CN112214983B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010995042.9A CN112214983B (zh) 2020-09-21 2020-09-21 一种数据记录查重方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010995042.9A CN112214983B (zh) 2020-09-21 2020-09-21 一种数据记录查重方法及系统

Publications (2)

Publication Number Publication Date
CN112214983A CN112214983A (zh) 2021-01-12
CN112214983B true CN112214983B (zh) 2023-08-11

Family

ID=74049702

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010995042.9A Active CN112214983B (zh) 2020-09-21 2020-09-21 一种数据记录查重方法及系统

Country Status (1)

Country Link
CN (1) CN112214983B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114490940A (zh) * 2022-01-25 2022-05-13 中国人民解放军国防科技大学 一种自适应的项目查重方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101197875A (zh) * 2007-12-26 2008-06-11 华为技术有限公司 局数据核查方法及装置
CN105718506A (zh) * 2016-01-04 2016-06-29 胡新伟 一种科技项目查重对比的方法
CN106446148A (zh) * 2016-09-21 2017-02-22 中国运载火箭技术研究院 一种基于聚类的文本查重方法
CN109710729A (zh) * 2018-12-14 2019-05-03 麒麟合盛网络技术股份有限公司 一种文本数据的采集方法及装置
CN110390084A (zh) * 2019-06-19 2019-10-29 平安国际智慧城市科技股份有限公司 文本查重方法、装置、设备及存储介质
CN110472203A (zh) * 2019-08-14 2019-11-19 上海智臻智能网络科技股份有限公司 一种文章的查重检测方法、装置、设备及存储介质
CN110941743A (zh) * 2019-10-14 2020-03-31 广西壮族自治区科学技术情报研究所 一种基于深度学习算法自动实现字段权重分配的科技项目查重方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8719236B2 (en) * 2012-08-23 2014-05-06 Microsoft Corporation Selecting candidate rows for deduplication
US20170212881A1 (en) * 2016-01-26 2017-07-27 Bank Of America Corporation Systems and methods for simplifying a check testing data interface
US20180096018A1 (en) * 2016-09-30 2018-04-05 Microsoft Technology Licensing, Llc Reducing processing for comparing large metadata sets

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101197875A (zh) * 2007-12-26 2008-06-11 华为技术有限公司 局数据核查方法及装置
CN105718506A (zh) * 2016-01-04 2016-06-29 胡新伟 一种科技项目查重对比的方法
CN106446148A (zh) * 2016-09-21 2017-02-22 中国运载火箭技术研究院 一种基于聚类的文本查重方法
CN109710729A (zh) * 2018-12-14 2019-05-03 麒麟合盛网络技术股份有限公司 一种文本数据的采集方法及装置
CN110390084A (zh) * 2019-06-19 2019-10-29 平安国际智慧城市科技股份有限公司 文本查重方法、装置、设备及存储介质
CN110472203A (zh) * 2019-08-14 2019-11-19 上海智臻智能网络科技股份有限公司 一种文章的查重检测方法、装置、设备及存储介质
CN110941743A (zh) * 2019-10-14 2020-03-31 广西壮族自治区科学技术情报研究所 一种基于深度学习算法自动实现字段权重分配的科技项目查重方法

Also Published As

Publication number Publication date
CN112214983A (zh) 2021-01-12

Similar Documents

Publication Publication Date Title
Chen et al. Adaptive color feature extraction based on image color distributions
Déjean et al. A system for converting PDF documents into structured XML format
CN107491487B (zh) 一种全文数据库架构及位图索引创建、数据查询方法、服务器及介质
CN111506621B (zh) 一种数据统计方法及装置
JP2019502979A (ja) 構造化されたマルチフィールドファイルのレイアウトの自動解釈
CN110046168A (zh) 一种增量数据一致性实现方法及装置
CN101499065B (zh) 基于fa的表项压缩方法及装置、表项匹配方法及装置
CN111125116B (zh) 定位业务表中代码字段及对应代码表的方法及系统
CN105701251A (zh) 一种基于对象定义的数据导出导入方法
US9171054B1 (en) Systems and methods for high-speed searching and filtering of large datasets
CN112214983B (zh) 一种数据记录查重方法及系统
CN114328981B (zh) 基于模式映射的知识图谱建立和数据获取方法、装置
CN107609151A (zh) 基于Redis实现XBRL实例文档缓存的方法
CN112307318A (zh) 一种内容发布方法、系统及装置
CN112363996B (zh) 用于建立电网知识图谱的物理模型的方法及系统和介质
US20080010632A1 (en) Processing large sized relationship-specifying markup language documents
US10754859B2 (en) Encoding edges in graph databases
CN116186116A (zh) 一种基于等保测评的资产问题分析方法
CN114218347A (zh) 多个文件内容的快速索引查找方法
CN114495138A (zh) 一种智能文档识别与特征提取方法、装置平台和存储介质
Berberidis et al. Summarizing labeled multi-graphs
US20020111936A1 (en) System and method for analyzing computer intelligible electronic data
CN110347804B (zh) 一种线性时间复杂度的敏感信息检测方法
CN114492419B (zh) 基于标注中新增关键词语的文本标注方法、系统及装置
Pitti et al. Encoded archival description

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant