CN113407576A - 基于降维算法的数据关联方法及系统 - Google Patents

基于降维算法的数据关联方法及系统 Download PDF

Info

Publication number
CN113407576A
CN113407576A CN202110718103.1A CN202110718103A CN113407576A CN 113407576 A CN113407576 A CN 113407576A CN 202110718103 A CN202110718103 A CN 202110718103A CN 113407576 A CN113407576 A CN 113407576A
Authority
CN
China
Prior art keywords
data
dimension reduction
algorithm
fingerprints
reduction algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110718103.1A
Other languages
English (en)
Inventor
朱家兵
刘明磊
刘顼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Software Technology Co Ltd
Original Assignee
Inspur Software Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Software Technology Co Ltd filed Critical Inspur Software Technology Co Ltd
Priority to CN202110718103.1A priority Critical patent/CN113407576A/zh
Publication of CN113407576A publication Critical patent/CN113407576A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24564Applying rules; Deductive queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2255Hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9014Indexing; Data structures therefor; Storage structures hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开基于降维算法的数据关联方法及系统,涉及数据挖掘技术领域;利用Simhash算法将每个数据的相关字段降维转换为数据指纹,能够将高维数据降维到相对低维的空间上,有利于进行数据字段的相似性比对,再进行数据指纹的近似度比较,获取数据间匹配关系,实现了大量低质量数据与海量主数据的高成功率快速匹配,也提升低质量业务数据的关联度查找效率。

Description

基于降维算法的数据关联方法及系统
技术领域
本发明公开方法及系统,涉及数据挖掘技术领域,具体地说是基于降维算法的数据关联方法及系统。
背景技术
某些大数据中心,汇聚了内部各业务条线及业务数据,需要实现以人员主数据为中心的数据打通和深度挖掘,但由于不同数据来源数据质量参差不齐,且人员数据中身份证、手机号等可直接用于判断联系的关键字段出现错误或缺失,而其他信息字段多为无法直接进行比较的长短文本,如常住地,户籍地、工作单位等时,极其容易导致大量数据无法与人员主数据关联。
发明内容
本发明针对现有技术的问题,提供基于降维算法的数据关联方法及系统,具有通用性强、实施简便等特点,具有广阔的应用前景。
本发明提出的具体方案是:
基于降维算法的数据关联方法,利用Simhash算法将每个数据的相关字段降维转换为数据指纹,比较数据指纹的近似度,获取数据间匹配关系。
进一步,所述的基于降维算法的数据关联方法中降维转换相关字段:
将每个数据的相关字段设置为对应特征,
利用Simhash算法计算所有特征的Simhash值并通过权重配置及归一化处理形成数据指纹。
进一步,所述的基于降维算法的数据关联方法中比较数据指纹间的汉明距离,根据汉明距离比较结果判断数据指纹间的近似度。
进一步,所述的基于降维算法的数据关联方法中所述划分数据指纹区间,利用区间的哈希表查找并比较数据指纹间的汉明距离。
基于降维算法的数据关联系统,包括降维转换模块和比对模块,
降维转换模块利用Simhash算法将每个数据的相关字段降维转换为数据指纹,比对模块比较数据指纹的近似度,获取数据间匹配关系。
进一步,所述的基于降维算法的数据关联系统中降维转换模块降维转换相关字段的过程:
将每个数据的相关字段设置为对应特征,
利用Simhash算法计算所有特征的Simhash值并通过权重配置及归一化处理形成数据指纹。
进一步,所述的基于降维算法的数据关联系统中比对模块比较数据指纹间的汉明距离,根据汉明距离比较结果判断数据指纹间的近似度。
进一步,所述的基于降维算法的数据关联系统中对比划分数据指纹区间,利用区间的哈希表查找并比较数据指纹间的汉明距离。
基于降维算法的数据关联装置包括至少一个存储器和至少一个处理器;
所述至少一个存储器,用于存储机器可读程序;
所述至少一个处理器,用于调用所述机器可读程序,执行所述的基于降维算法的数据关联方法。
计算机可读介质,所述计算机可读介质上存储有计算机指令,所述计算机指令在被处理器执行时,使所述处理器执行所述的基于降维算法的数据关联方法。
本发明的有益之处是:
本发明提供基于降维算法的数据关联方法,利用Simhash算法将每个数据的相关字段降维转换为数据指纹,能够将高维数据降维到相对低维的空间上,有利于进行数据字段的相似性比对,再进行数据指纹的近似度比较,获取数据间匹配关系,实现了大量低质量数据与海量主数据的高成功率快速匹配,也提升低质量业务数据的关联度查找效率。
附图说明
图1是本发明方法流程示意图。
具体实施方式
涉及的名词说明:分词就是将连续的字序列按照一定的规范重新组合成词序列的过程,中文分词指的是中文在基本文法上有其特殊性而存在的分词。
局部敏感哈希(Locality Sensitive Hashing,LSH)算法,是近似最近邻搜索算法中的一种,它在高维数据空间中表现优异。局部敏感哈希核心思想是:在高维空间相邻的数据经过局部敏感哈希函数的映射投影转化到低维空间后,他们落入同一个空间区间的概率很大,而不相邻的数据映射到同一个空间区间的概率则很小。
Simhash是一种常用的局部敏感哈希算法,与普通hash算法的不同在于:针对微小差异的字符串,Simhash的计算结果仅有微小差异,而普通hash则差异巨大,这种特征允许通过比较Simhash摘要来衡量原内容的相似性。Simhash算法简单高效,适合与对语法一致性要求不太高的大规模并发场景中应用,符合项目中遇到的问题场景。
HashMap的基本数据结构是数组加链表。HashMap数组的每一个元素不止是一个Entry对象,也是一个链表的头节点。每一个Entry对象通过Next指针指向它的下一个Entry节点。当新来的Entry映射到冲突的数组位置时,只需要插入到对应的链表尾部即可。当链表长度大于8时,链表转为红黑树,以此提高查找效率。
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
本发明提供基于降维算法的数据关联方法,利用Simhash算法将每个数据的相关字段降维转换为数据指纹,比较数据指纹的近似度,获取数据间匹配关系。
利用本发明方法通过Simhash算法降维转换数据字段为数据指纹,可以利用数据指纹比较,获取数据间匹配关系,提升低质量数据与主数据关联比例和关联效率。
具体应用中,在本发明的一些实施例中,详细说明分析计算过程。以人员的主数据与一些无关联的包含姓名、身份类型、户籍地、原工作单位、现工作单位、常住地等信息中的多个字段内容多为中文信息为例,执行本发明方法时,使用Simhash将人员主数据及待关联数据中每条数据中多个字段进行合并降维,形成数据指纹:
首先,将每个数据的相关字段设置为对应特征,比如特征1,特征2,特征3...特征N,对每个特征设置不同的权重值,尤其针对长文本字段时,可以进行分词,并将长文本字段的特征划分为子特征的集合,比如特征3对应长文本字段,特征3被分为子特征3-1,子特征3-2,子特征3-3...子特征3-N,所有子特征的权重值与特征3相同,并可在后续计算中使用子特征的集合代替特征3。为方便观察与计算,利用特征列表进行特征展示。例如表1。
表1
Figure BDA0003135669670000041
然后,利用Simhash算法计算所有特征的Simhash值:计算特征列表中所有特征的Simhash,可以根据需要选择64bits或者128bits,本例采用64bits。参考表2。
表2
Figure BDA0003135669670000051
再进行权重配置,将Simhash结果按位加权,如果该位为0,则加权结果为-1×特征权重,如该位为1,则加权结果为1×特征权重,参考表3。
表3
特征编号 Simhash 加权结果
特征1 d41d8cd98f00b204 5,5,-5,5,-5,5,-5,-5,-5,…
特征2 3b5d5c3712955042 -2,-2,2,2,2,-2,2,2,…
子特征3-1 2cd6ee2c70b0bded -1,-1,1,-1,1,1,-1,-1,…
子特征3-2 9ffbf43126e33be5 1,-1,-1,1,1,1,1,1,…
子特征3-N 60b725f10c9c85c7 -1,1,1,-1,-1,-1,-1,-1,…
上述过程所产生的数据均可存放于数据库中备用。当有新接入数据需要与主数据进行关联时,根据新接入数据中包含的字段,提取相应字段的加权结果进行后续操作即可。
再将本次参与比较的字段加权结果按位进行sum压缩合并,得到结果:
8,-3,6,15,-6,8,7,8,…
对结果进行归一化,逐位判断,如>0,则归一化为1,否则归一化为0,结果即为本条数据的指纹:
10110111…(共64bits)。
经过上述数据处理过程,得到了人员主数据及新增数据每条数据的数据指纹。继续比较数据指纹间的汉明距离,根据汉明距离比较结果判断数据指纹间的近似度,获得数据间匹配关联关系。
进一步,为详细说明数据指纹间的近似度比较,在本发明的一些实施例中,利用两个数据指纹判定相似的条件的汉明距离进行比较判断。
根据汉明距离(Hamming Distance)<=3,距离越小则相似度越高的条件进行筛选。为降低筛选的复杂度优化算法,划分数据指纹区间,以前述实施例中64bits为例,将64bits的数据指纹分为4个区间,则不同的位数最多位于3个区间,即必有一个区间相等。
其中将主数据的数据指纹按每16位取值,作为key建立四个HashMap:A(1-16位),B(17-32位),C(33-48位),D(49-64位),value为完整的指纹值。
分别取待关联数据的1-16位,17-32位,33-48位,49-64位在A、B、C、D四个HashMap中查找是否有对应元素:如果在四个HashMap中均未查到对应元素,则无相似数据记录,说明主数据与待关联数据确实没有关联关系;如果有命中,则遍历命中的该键值链表计算获取最小汉明距离的值;如果在四个HashMap有多个命中,则逐个遍历每个链表,找到所有的相近数据记录。
上述优化后的数据指纹近似度比较过程实现了算法复杂度数量级的降低,并且能够实现大量低质量数据与海量主数据的高成功率快速匹配,提升低质量数据与人员主数据关联比例和关联效率。
同时本发明还提供基于降维算法的数据关联系统,包括降维转换模块和比对模块,
降维转换模块利用Simhash算法将每个数据的相关字段降维转换为数据指纹,比对模块比较数据指纹的近似度,获取数据间匹配关系。
上述系统内的各模块之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。同样地,本发明系统可以通过Simhash算法降维转换数据字段为数据指纹,可以利用数据指纹比较,获取数据间匹配关系,提升低质量数据与主数据关联比例和关联效率。
以及本发明提供基于降维算法的数据关联装置包括至少一个存储器和至少一个处理器;
所述至少一个存储器,用于存储机器可读程序;
所述至少一个处理器,用于调用所述机器可读程序,执行所述的基于降维算法的数据关联方法。上述装置内的处理器的信息交互、执行可读程序过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。同样地,本发明装置可以通过Simhash算法降维转换数据字段为数据指纹,可以利用数据指纹比较,获取数据间匹配关系,提升低质量数据与主数据关联比例和关联效率。
同时本发明提供计算机可读介质,所述计算机可读介质上存储有计算机指令,所述计算机指令在被处理器执行时,使所述处理器执行所述的基于降维算法的数据关联方法。具体地,可以提供配有存储介质的系统或者装置,在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。
在这种情况下,从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此程序代码和存储程序代码的存储介质构成了本发明的一部分。
用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机上下载程序代码。
此外,应该清楚的是,不仅可以通过执行计算机所读出的程序代码,而且可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作,从而实现上述实施例中任意一项实施例的功能。
此外,可以理解的是,将由存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中,随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作,从而实现上述实施例中任一实施例的功能。
需要说明的是,上述较佳实施例中各流程和各系统结构中不是所有的步骤和模块都是必须的,可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的,可以根据需要进行调整。上述各实施例中描述的系统结构可以是物理结构,也可以是逻辑结构,即,有些模块可能由同一物理实体实现,或者,有些模块可能分由多个物理实体实现,或者,可以由多个独立设备中的某些部件共同实现。
以上所述实施例仅是为充分说明本发明而所举的较佳的实施例,本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换,均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims (10)

1.基于降维算法的数据关联方法,其特征是利用Simhash算法将每个数据的相关字段降维转换为数据指纹,比较数据指纹的近似度,获取数据间匹配关系。
2.根据权利要求1所述的基于降维算法的数据关联方法,其特征是降维转换相关字段:
将每个数据的相关字段设置为对应特征,
利用Simhash算法计算所有特征的Simhash值并通过权重配置及归一化处理形成数据指纹。
3.根据权利要求1或2所述的基于降维算法的数据关联方法,其特征是比较数据指纹间的汉明距离,根据汉明距离比较结果判断数据指纹间的近似度。
4.根据权利要求3所述的基于降维算法的数据关联方法,其特征是所述划分数据指纹区间,利用区间的哈希表查找并比较数据指纹间的汉明距离。
5.基于降维算法的数据关联系统,其特征是包括降维转换模块和比对模块,
降维转换模块利用Simhash算法将每个数据的相关字段降维转换为数据指纹,比对模块比较数据指纹的近似度,获取数据间匹配关系。
6.根据权利要求5所述的基于降维算法的数据关联系统,其特征是降维转换模块降维转换相关字段的过程:
将每个数据的相关字段设置为对应特征,
利用Simhash算法计算所有特征的Simhash值并通过权重配置及归一化处理形成数据指纹。
7.根据权利要求5或6所述的基于降维算法的数据关联系统,其特征是比对模块比较数据指纹间的汉明距离,根据汉明距离比较结果判断数据指纹间的近似度。
8.根据权利要求7所述的基于降维算法的数据关联系统,其特征是对比划分数据指纹区间,利用区间的哈希表查找并比较数据指纹间的汉明距离。
9.基于降维算法的数据关联装置,其特征是包括至少一个存储器和至少一个处理器;
所述至少一个存储器,用于存储机器可读程序;
所述至少一个处理器,用于调用所述机器可读程序,执行权利要求1至4中任一项所述的基于降维算法的数据关联方法。
10.计算机可读介质,其特征是所述计算机可读介质上存储有计算机指令,所述计算机指令在被处理器执行时,使所述处理器执行权利要求1至4任一项所述的基于降维算法的数据关联方法。
CN202110718103.1A 2021-06-28 2021-06-28 基于降维算法的数据关联方法及系统 Pending CN113407576A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110718103.1A CN113407576A (zh) 2021-06-28 2021-06-28 基于降维算法的数据关联方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110718103.1A CN113407576A (zh) 2021-06-28 2021-06-28 基于降维算法的数据关联方法及系统

Publications (1)

Publication Number Publication Date
CN113407576A true CN113407576A (zh) 2021-09-17

Family

ID=77679728

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110718103.1A Pending CN113407576A (zh) 2021-06-28 2021-06-28 基于降维算法的数据关联方法及系统

Country Status (1)

Country Link
CN (1) CN113407576A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116091000A (zh) * 2023-02-14 2023-05-09 深圳市万特网络科技有限公司 一种基于oa系统的资源智能化管理系统及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070130188A1 (en) * 2005-12-07 2007-06-07 Moon Hwa S Data hashing method, data processing method, and data processing system using similarity-based hashing algorithm
CN105138647A (zh) * 2015-08-26 2015-12-09 陕西师范大学 一种基于Simhash算法的旅游网络社区划分方法
CN108132929A (zh) * 2017-12-25 2018-06-08 上海大学 一种海量非结构化文本的相似性计算方法
CN112364124A (zh) * 2020-11-19 2021-02-12 湖南红网新媒体集团有限公司 一种文本相似度匹配及计算方法、系统和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070130188A1 (en) * 2005-12-07 2007-06-07 Moon Hwa S Data hashing method, data processing method, and data processing system using similarity-based hashing algorithm
CN105138647A (zh) * 2015-08-26 2015-12-09 陕西师范大学 一种基于Simhash算法的旅游网络社区划分方法
CN108132929A (zh) * 2017-12-25 2018-06-08 上海大学 一种海量非结构化文本的相似性计算方法
CN112364124A (zh) * 2020-11-19 2021-02-12 湖南红网新媒体集团有限公司 一种文本相似度匹配及计算方法、系统和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LENGYE7: "《https://blog.csdn.net/lengye7/article/details/79789206》", 2 April 2018 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116091000A (zh) * 2023-02-14 2023-05-09 深圳市万特网络科技有限公司 一种基于oa系统的资源智能化管理系统及方法
CN116091000B (zh) * 2023-02-14 2023-12-08 宁波紫熙物联科技有限公司 一种基于oa系统的资源智能化管理系统及方法

Similar Documents

Publication Publication Date Title
JP4814570B2 (ja) あいまいな重複に強い検出器
US8782061B2 (en) Scalable lookup-driven entity extraction from indexed document collections
US20070005556A1 (en) Probabilistic techniques for detecting duplicate tuples
US9129010B2 (en) System and method of partitioned lexicographic search
US10649997B2 (en) Method, system and computer program product for performing numeric searches related to biometric information, for finding a matching biometric identifier in a biometric database
US20060206527A1 (en) Document management method and apparatus and document search method and apparatus
JP7149976B2 (ja) 誤り訂正方法及び装置、コンピュータ読み取り可能な媒体
CN114691721A (zh) 图数据的查询方法、装置、电子设备及存储介质
CN110083731B (zh) 图像检索方法、装置、计算机设备及存储介质
CN113407576A (zh) 基于降维算法的数据关联方法及系统
CN117033534A (zh) 地理信息处理方法、装置、计算机设备和存储介质
KR102158049B1 (ko) Cf 트리를 활용한 범위 질의 기반의 데이터 클러스터링 장치 및 방법
CN115186138A (zh) 一种配电网数据的比对方法及终端
CN113792709B (zh) 快速大规模人脸识别方法及系统
JP2004046612A (ja) データマッチング方法、データマッチング装置、データマッチングプログラムおよびコンピュータで読み取り可能な記録媒体
Mohamed et al. Quantized ranking for permutation-based indexing
KR101085066B1 (ko) 대용량 다속성 데이터집합에서 의미 있는 지식 탐사를 위한 연관 분류 방법
CN114911826A (zh) 一种关联数据检索方法和系统
Yu et al. Novel text classification based on k-nearest neighbor
KR20010109067A (ko) 특징 벡터 데이터 공간의 인덱싱 방법
CN112100670A (zh) 一种基于大数据的隐私数据分级保护方法
Curtis et al. A comprehensive image similarity retrieval system that utilizes multiple feature vectors in high dimensional space
Wang et al. MP-RW-LSH: an efficient multi-probe LSH solution to ANNS-L 1
CN111460088A (zh) 相似文本的检索方法、装置和系统
CN112015922B (zh) 多媒体文件的检索方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210917