CN113760996A - 一种数据整合方法及系统、设备和存储介质 - Google Patents

一种数据整合方法及系统、设备和存储介质 Download PDF

Info

Publication number
CN113760996A
CN113760996A CN202111058864.5A CN202111058864A CN113760996A CN 113760996 A CN113760996 A CN 113760996A CN 202111058864 A CN202111058864 A CN 202111058864A CN 113760996 A CN113760996 A CN 113760996A
Authority
CN
China
Prior art keywords
data
entity
matching
attribute
data integration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111058864.5A
Other languages
English (en)
Inventor
黄艳香
白强伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Minglue Artificial Intelligence Group Co Ltd
Original Assignee
Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Minglue Artificial Intelligence Group Co Ltd filed Critical Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority to CN202111058864.5A priority Critical patent/CN113760996A/zh
Publication of CN113760996A publication Critical patent/CN113760996A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • G06F16/24558Binary matching operations
    • G06F16/2456Join operations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种数据整合方法,包括:实体匹配步骤:基于集合型数据的相似度计算,将多个数据源实体进行匹配,完成多数据源实体匹配;数据融合步骤:将匹配成功的至少一个数据源实体,进行链接和融合,并采用集合型数据结构存储来自多个数据源实体的多值属性,生成多值属性集合,完成多源数据的数据整合。本发明方法实现了增量多源数据整合,可以减少匹配次数,释放已处理数据的存储空间。

Description

一种数据整合方法及系统、设备和存储介质
技术领域
本申请涉及数据处理领域,特别是涉及一种数据整合方法、系统、计算机设备和计算机可读存储介质。
背景技术
当今当前,许多企业都将数据视为一项重要资产,但往往由于管理人员变迁、物理布局分散、系统自治等原因,数据存在来源繁杂(不同类型的关系型数据库,不同部门的数据等)、结构异构(SQL,NoSQL数据库,文本文件,Hive大数据等)等问题,要完成不同部门数据资产的统一管理,并不简单。在企业的数字化转型过程中,将多源异构的数据进行集成、融合,是企业做好上层应用的必要基础条件,而实体匹配和数据融合是这一过程中非常重要的环节。举例来讲,数据源1有个“张三,男,30岁,明略科技”,数据源2有个“张三,男,28岁,秒针”,判断两个“张三”是否是同一人,如是的话,需要将两个“张三”融合成为一个“张三”为应用层提供服务,判断是否一个人一般称之为实体匹配任务,而融合为一个“张三”一般称之为数据融合任务,实际应用中实体匹配任务和数据融合任务密切关联,共同组成多源数据的整合处理技术。
(1)针对不同数据源的数据整合即实体匹配和融合,现有技术一般采用批量数据处理的方式,先将所有来自不同数据源的实体进行1对1的匹配链接,然后将所有匹配成功的实体进行链接、融合,针对来自不同数据源的不同属性值,如前所述,保留一个真值。其中,判断真值的方式有投票法(即选择出现次数最多的作为真值)、权重投票法等等。
(2)针对属性相似度的计算,对于单一值,不同的数据类型有各自的相似度计算方式,如字符串相似度、数值相似度等,对于多值,即集合型值,现有技术一般采用Jaccard,cosine,Ochiai等相似度算法。
目前针对相关技术中,存在以下瓶颈,尚未提出有效解决方案:
(1)针对不同数据源的数据整合即实体匹配和融合,现有技术多采用传统的1v1匹配然后对数据进行融合,真值发现的方式,这种方式在处理批量数据时较为可行,但对于增量数据或动态变化的数据来讲,这种方式存在局限性。数据融合时,对每个属性仅保留真值发现后的“真值”,将丢失了其他数据源的“非真值”信息,这些信息可能是算法误判的真实数据、历史过期数据或者因误操作而导致的错误数据,一方面,随着数据的增加或变化,算法可能基于这些数据判断出更加准确的“真值”;另一方面,即使历史过期数据或错误数据,不同数据源的数据可能是由于类似的原因或误操作造成的,这样的数据在判断来自不同数据源的实体是否是一个实体即实体匹配时仍然具有价值。
(2)针对属性相似度的计算,当前单值属性相似度的计算相对比较成熟,但是对于多值属性即集合型属性的相似度计算,现有技术是将集合看成一个整体,如集合{a,b,c}和集合{c}的相似度按照Jaccard相似度是1/3,而在实体匹配场景中,集合的出现是不同数据源的值组合而成,集合中的元素是相对独立的,比如一个融合多个数据源后的实体某个属性值是{a,b,c},新增一个数据源中该实体的属性值是{c},实际含义是该属性值和其中一个数据源是完全匹配的,因此,传统计算方式在此场景下并不适合。对于集合型属性,采用传统计算方式得出的属性相似度不能准确反映实际信息,将影响实体匹配的准确度。
因此,基于上述现有技术中存在的问题,本发明方法提出以集合形式存储来自多个数据源的属性值的方法。提供了不同数据源的数据实体匹配和数据融合过程中,仅保留真值的处理方式造成信息丢失不适用于增量或动态变化场景的解决方案,提出了采用集合类数据结构存储属性的多值信息的方法。并且,针对此场景下的多值属性相似度的计算问题,解决现有技术计算结果不够准确的问题,提出了新的集合型属性值相似度计算方式。
发明内容
本申请实施例提供了一种用户隐私数据的随机分组存储,推荐服务器端的不依赖用户信息存储的推荐实现方式,可以保证用户的隐私数据得到保护,在客户端不会有完整存储,在服务器端不会有留存。
第一方面,本申请实施例提供了一种数据整合方法,包括:
实体匹配步骤:基于集合型数据的相似度计算,将多个数据源实体进行匹配,完成多数据源的实体匹配;
数据融合步骤:将匹配成功的至少一个数据源实体,进行链接和融合,并采用集合型数据结构存储来自多个数据源实体的多值属性,生成多值属性集合,完成多源数据的数据整合。
在一些实施例中,上述数据整合方法,还包括:
增量匹配融合步骤:将新增数据源实体,执行实体匹配步骤及数据融合步骤,完成新增数据源实体的动态数据整合。
在一些实施例中,上述集合型数据的相似度计算,采用公式:
Figure BDA0003253967220000031
对于集合A和集合B,分别对于集合A中和集合B中的每个元素(a,b),取其与另一个集合元素的最大相似度,加和后除以集合A和集合B的长度和。
在一些实施例中,上述多个数据源实体合成一个所述多值属性集合,针对所述多值属性集合的其中一个属性,以集合形式保存了所有所述多个数据源的同一属性的不同值。
第二方面,本申请实施例提供了一种数据整合系统,采用如上所述的数据整合处理方法,包括:
实体匹配模块:基于集合型数据的相似度计算,将多个数据源实体进行匹配,完成多数据源的实体匹配;
数据融合模块:将匹配成功的至少一个数据源实体,进行链接和融合,并采用集合型数据结构存储来自多个数据源实体的多值属性,生成多值属性集合,完成多源数据的数据整合。
在一些实施例中,上述数据整合系统,还包括:
增量匹配融合模块:将新增数据源实体,执行实体匹配步骤及数据融合步骤,完成新增数据源实体的动态数据整合。
在一些实施例中,上述集合型数据的相似度计算,采用公式:
Figure BDA0003253967220000041
对于集合A和集合B,分别对于集合A中和集合B中的每个元素(a,b),取其与另一个集合元素的最大相似度,加和后除以集合A和集合B的长度和。
在一些实施例中,上述多个数据源实体合成一个多值属性集合,针对多值属性集合的其中一个属性,以集合形式保存了所有多个数据源的同一属性的不同值。
第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如上述第一方面所述的数据整合方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的数据整合方法。
相比于相关现有技术,本发明提出一种在多源数据的实体匹配和数据融合中保留不同的属性值的方法,并设计了一种集合型数据结构用来存储多值属性,此方式适用于增量的多源数据整合场景,可以减少匹配次数,释放已处理数据的存储空间,并且上层应用可基于动态的多值信息提高属性真值发现的准确度。针对此方法中需要用到的多值属性相似度计算,即集合型数据相似度计算,我们提出了一种新的相似度算法,在此场景下相对于传统计算方式更为准确、适用。
本发明方法有益效果在于:
1)不丢失信息,可以动态增量多数据源实体;
2)相比于1v1的模式减少对比次数,相对于传统的列表相似度计算,在实体匹配这个领域中更加准确和适用程度更高。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本发明数据整合方法流程示意图;
图2为本发明具体实施例数据融合示意图;
图3为本发明具体实施例新增数据融合示意图;
图4为本发明具体实施例新增数据匹配融合示意图;
图5为本发明数据整合系统示意图;
图6为根据本申请实施例的计算机设备的硬件结构示意图。
以上图中:
100数据整合系统
10实体匹配模块,20数据融合模块和30新增匹配融合模块
81、处理器;82、存储器;83、通信接口;80、总线。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
本申请所涉及的数据整合方法、装置、计算机设备或者存储介质提供了一种在多源数据的实体匹配和数据融合中保留不同的属性值的方法,并设计了一种集合型数据结构用来存储多值属性;同时,还提出了一种新的集合型数据相似度计算算法,适用于集合中的元素具有相对独立性的场景。
在实体匹配和数据融合的过程中,本发明方法重点关心两个点。一是,如前所述,不同数据源对同一实体的描述存在不同,将多源异构数据进行集成融合后,实体的某一属性可能存在多个可能的值,其中有些值可能是过期的或者错误的,这种情况下就需要在应用中对这些不同的值进行处理,最常见的方法是对属性进行真值发现,仅保留一个值。二是,虽然实体匹配的相关技术很多,包括基于业务规则的、机器学习模型的、还有语言模型等,但在众多方法中,属性相似度的计算都是关键基础,其中实体的属性值可能是不同类型的,如数值型、字符串型等。
图1为本发明方法流程示意图,如图1所示,本实施例提供了一种数据整合方法,包括:
实体匹配步骤S10:基于集合型数据的相似度计算,将多个数据源实体进行匹配,完成多数据源的实体匹配;
数据融合步骤S20:将匹配成功的至少一个数据源实体,进行链接和融合,并采用集合型数据结构存储来自多个数据源实体的多值属性,生成多值属性集合,完成多源数据的数据整合。
进一步的,数据整合方法还包括:
增量匹配融合步骤S30:将新增数据源实体,执行实体匹配步骤及数据融合步骤,完成新增数据源实体的动态数据整合。
在一些实施例中,上述集合型数据的相似度计算,采用公式:
Figure BDA0003253967220000071
对于集合A和集合B,分别对于集合A中和集合B中的每个元素(a,b),取其与另一个集合元素的最大相似度,加和后除以集合A和集合B的长度和。
在一些实施例中,上述多个数据源实体合成一个多值属性集合,针对多值属性集合的其中一个属性,以集合形式保存了所有多个数据源的同一属性的不同值。
以下结合附图对本发明数据整合方法的具体实施例进行详细说明:
本发明主要解决不同数据源的数据实体匹配和数据融合过程中,仅保留真值的处理方式造成信息丢失不适用于增量或动态变化场景的问题,提出了采用集合类数据结构存储属性的多值信息的方法。并且,针对此场景下的多值属性相似度的计算问题,解决现有技术计算结果不够准确的问题,提出了新的集合型属性值相似度计算方式。
本发明提出一种在多源数据的实体匹配和数据融合中保留不同的属性值的方法,并设计了一种集合型数据结构用来存储多值属性,图2为本发明具体实施例数据融合示意图,如图2所示,分别有3个来自不同数据源的实体R1、R2和R3,经过实体匹配算法被匹配到一起,其中其A1属性的值分别为a、b和c,在融合过程中,我们将R1、R2和R3合成一个实体R,对其A1属性,我们以集合形式保存了所有数据源的不同值,即{a,b,c},并且,针对每个值存储相关有用信息,如出现次数、来源、数据产生时间等,这些数据在后续应用过程中将为实体R的A1属性真实值的判断提供有用信息。
图3为本发明具体实施例新增数据融合示意图,如图3所示,在增量场景中,对于一个新增数据源和实体R4,在传统方式中,将R1、R2和R3融合为R后,针对A1值仅保留一个真值,如图3中示例为a,那么对于新增数据R4,由于其属性值b与保留真值a不同,可能难以判断R4是否和R为同一实体,为增加算法的准确性,将需要R4再分别与R1、R2和R3进行1v1的匹配来判断,这种情况下,不仅匹配次数较多,而且对于已处理数据如R1、R2和R3还需要继续存储以应对新增数据R4的匹配,耗费存储资源。
应用本专利中提出的方法,在新增数据R4时,由于我们在R中保留了A1属性的所有不同值,图4为本发明具体实施例新增数据匹配融合示意图,如图4所示,R4和R可以匹配成功,不需分别与R1、R2和R3进行匹配,在R4和R匹配成功后,我们将R的信息进行更新,如A1的属性值b的相关信息由{出现次数:1,来源[2],数据产生时间:XXX,…}变为{出现次数:2,来源:[2,4],数据产生时间:XXX},后续应用中R的A1属性的真值将依据最新数据产生。在此情况下,数据R将随新增数据源而动态更新,已处理的数据如R1、R2和R3则可以不再存储,释放存储资源,另外,新增数据R4仅需与R进行匹配,匹配次数较少。
在上述R4与R匹配过程中,需要考虑的一个问题就是多值属性的相似度计算,即R的A1属性值为[a,b,c],而R4的A1属性值为b,或者,新增的数据本身已经融合了几个不同的数据源,R5的A1属性值为[c,d],在此情况下,我们需要对多值属性数据即A1进行相似度计算。传统集合型数值相似度如Jaccard、Ochiai等将集合看作一个整体,在上述场景中,其相似度将较低,如应用Jaccard相似度,则R4、R5与R在A1属性上的相似度将分别为1/3和1/4。然而实际上,由于这些不同的值都是由不同数据源产生的,因此是具有一定的独立性的,传统的相似度不能反应。因此,我们提出一个新的集合型相似度计算算法:
Figure BDA0003253967220000091
对于集合A和集合B,分别对于A中和B中的每个元素,取其与另一个集合元素的最大相似度,加和后除以集合A和集合B的长度和。以上述R4和R5分别与R的相似度计算为例,可得结果分别为1/2和2/5,相对传统相似度计算,对单个元素匹配值给予的权重更多。
此外,图5为本发明数据整合系统示意图,如图5所示,本申请实施例提供了一种数据整合系统100,采用如上所述的数据整合处理方法,包括:
实体匹配模块10:基于集合型数据的相似度计算,将多个数据源实体进行匹配,完成多数据源的实体匹配;
数据融合模块20:将匹配成功的至少一个数据源实体,进行链接和融合,并采用集合型数据结构存储来自多个数据源实体的多值属性,生成多值属性集合,完成多源数据的数据整合。
进一步的,上述数据整合系统100,还包括:
增量匹配融合模块30:将新增数据源实体,执行实体匹配步骤及数据融合步骤,完成新增数据源实体的动态数据整合。
在一些实施例中,上述集合型数据的相似度计算,采用公式:
Figure BDA0003253967220000092
对于集合A和集合B,分别对于集合A中和集合B中的每个元素(a,b),取其与另一个集合元素的最大相似度,加和后除以集合A和集合B的长度和。
在一些实施例中,上述多个数据源实体合成一个多值属性集合,针对多值属性集合的其中一个属性,以集合形式保存了所有多个数据源的同一属性的不同值。
第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的数据整合方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的数据整合方法。
另外,结合图1描述的本申请实施例的信息推荐方法可以由计算机设备来实现。图6为根据本申请实施例的计算机设备的硬件结构示意图。
计算机设备可以包括处理器81以及存储有计算机程序指令的存储器82。
具体地,上述处理器81可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
其中,存储器82可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器82可包括硬盘驱动器(Hard Disk Drive,简称为HDD)、软盘驱动器、固态驱动器(SolidState Drive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(Universal SerialBus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器82可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器82可在数据处理装置的内部或外部。在特定实施例中,存储器82是非易失性(Non-Volatile)存储器。在特定实施例中,存储器82包括只读存储器(Read-Only Memory,简称为ROM)和随机存取存储器(RandomAccess Memory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory,简称为PROM)、可擦除PROM(Erasable ProgrammableRead-Only Memory,简称为EPROM)、电可擦除PROM(Electrically Erasable ProgrammableRead-Only Memory,简称为EEPROM)、电可改写ROM(Electrically Alterable Read-OnlyMemory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(Static Random-Access Memory,简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode Dynamic Random Access Memory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Extended Date Out Dynamic RandomAccess Memory,简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory,简称SDRAM)等。
存储器82可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器81所执行的可能的计算机程序指令。
处理器81通过读取并执行存储器82中存储的计算机程序指令,以实现上述实施例中的任意一种信息推荐方法。
在其中一些实施例中,计算机设备还可包括通信接口83和总线80。其中,如图6所示,处理器81、存储器82、通信接口83通过总线80连接并完成相互间的通信。
通信接口83用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信端口83还可以实现与其他部件例如:外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。
总线80包括硬件、软件或两者,将计算机设备的部件彼此耦接在一起。总线80包括但不限于以下至少之一:数据总线(Data Bus)、地址总线(Address Bus)、控制总线(Control Bus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制,总线80可包括图形加速接口(Accelerated Graphics Port,简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture,简称为EISA)总线、前端总线(Front Side Bus,简称为FSB)、超传输(Hyper Transport,简称为HT)互连、工业标准架构(Industry Standard Architecture,简称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(Low Pin Count,简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture,简称为MCA)总线、外围组件互连(Peripheral Component Interconnect,简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment,简称为SATA)总线、视频电子标准协会局部(Video ElectronicsStandards Association Local Bus,简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线80可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
该计算机设备可以在多源数据的实体匹配和数据融合中保留不同的属性值的方法,并设计了一种集合型数据结构用来存储多值属性。同时,提出了一种新的集合型数据相似度计算算法,适用于集合中的元素具有相对独立性的场景。
另外,结合上述实施例中的数据整合方法,本申请实施例可提供一种存储介质来实现。该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种数据整合方法。
相比于现有技术,本发明提出一种在多源数据的实体匹配和数据融合中保留不同的属性值的方法,并设计了一种集合型数据结构用来存储多值属性,此方式适用于增量的多源数据整合场景,可以减少匹配次数,释放已处理数据的存储空间,并且上层应用可基于动态的多值信息提高属性真值发现的准确度。针对此方法中需要用到的多值属性相似度计算,即集合型数据相似度计算,我们提出了一种新的相似度算法,在此场景下相对于传统计算方式更为准确、适用。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种数据整合方法,其特征在于,包括:
实体匹配步骤:基于集合型数据的相似度计算,将多个数据源实体进行匹配,完成多数据源的实体匹配;
数据融合步骤:将匹配成功的至少一个所述数据源实体,进行链接和融合,并采用集合型数据结构存储来自所述多个数据源实体的多值属性,生成多值属性集合,完成多源数据的数据整合。
2.根据权利要求1所述数据整合方法,其特征在于,还包括:
增量匹配融合步骤:将新增数据源实体,执行所述实体匹配步骤及所述数据融合步骤,完成新增数据源实体的动态数据整合。
3.根据权利要求1所述数据整合方法,其特征在于,所述集合型数据的相似度计算,采用公式:
Figure FDA0003253967210000011
对于集合A和集合B,分别对于所述集合A中和所述集合B中的每个元素(a,b),取其与另一个集合元素的最大相似度,加和后除以所述集合A和所述集合B的长度和。
4.根据权利要求1所述数据整合方法,其特征在于,所述多个数据源实体合成一个所述多值属性集合,针对所述多值属性集合的其中一个属性,以集合形式保存了所有所述多个数据源的同一属性的不同值。
5.一种数据整合系统,采用如权利要求1-4中任意一项所述的数据整合处理方法,其特征在于,包括:
实体匹配模块:基于集合型数据的相似度计算,将多个数据源实体进行匹配,完成多数据源的实体匹配;
数据融合模块:将匹配成功的至少一个所述数据源实体,进行链接和融合,并采用集合型数据结构存储来自所述多个数据源实体的多值属性,生成多值属性集合,完成多源数据的数据整合。
6.根据权利要求5所述数据整合系统,其特征在于,还包括:
增量匹配融合模块:将新增数据源实体,执行所述实体匹配模块及所述数据融合模块,完成新增数据源实体的动态数据整合。
7.根据权利要求5所述数据整合系统,其特征在于,所述集合型数据的相似度计算,采用公式:
Figure FDA0003253967210000021
对于集合A和集合B,分别对于所述集合A中和所述集合B中的每个元素(a,b),取其与另一个集合元素的最大相似度,加和后除以所述集合A和所述集合B的长度和。
8.根据权利要求5所述数据整合系统,其特征在于,所述多个数据源实体合成一个多值属性集合,针对所述多值属性集合的其中一个属性,以集合形式保存了所有所述多个数据源的同一属性的不同值。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述计算机设备执行所述计算机程序时实现如权利要求1至4中任一项所述的数据整合方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至4中任一项所述的数据整合方法。
CN202111058864.5A 2021-09-09 2021-09-09 一种数据整合方法及系统、设备和存储介质 Pending CN113760996A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111058864.5A CN113760996A (zh) 2021-09-09 2021-09-09 一种数据整合方法及系统、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111058864.5A CN113760996A (zh) 2021-09-09 2021-09-09 一种数据整合方法及系统、设备和存储介质

Publications (1)

Publication Number Publication Date
CN113760996A true CN113760996A (zh) 2021-12-07

Family

ID=78794662

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111058864.5A Pending CN113760996A (zh) 2021-09-09 2021-09-09 一种数据整合方法及系统、设备和存储介质

Country Status (1)

Country Link
CN (1) CN113760996A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114564626A (zh) * 2021-12-23 2022-05-31 中国电子科技集团公司第二十九研究所 一种过滤电子侦察专项态势的方法及存储介质
CN114969041A (zh) * 2022-05-27 2022-08-30 河北省科学技术情报研究院(河北省科技创新战略研究院) 一种多源主附实体同一性甄别及数据自补的处理方法
CN115391403A (zh) * 2022-08-29 2022-11-25 中电金信软件有限公司 一种基于规则引擎的数据整合方法及数据整合装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647318A (zh) * 2018-05-10 2018-10-12 北京航空航天大学 一种基于多源数据的知识融合方法
CN111339313A (zh) * 2020-02-18 2020-06-26 北京航空航天大学 一种基于多模态融合的知识库构建方法
CN111538842A (zh) * 2019-11-15 2020-08-14 国家电网有限公司 网络空间态势的智能感知和预测方法、装置和计算机设备
CN111598136A (zh) * 2020-04-24 2020-08-28 成都数联铭品科技有限公司 一种动态数据融合方法及系统
CN111767376A (zh) * 2020-06-03 2020-10-13 北京理工大学 基于动态知识图谱的问答系统及方法
CN112906826A (zh) * 2021-03-30 2021-06-04 平安科技(深圳)有限公司 基于多维度的知识图谱的融合方法、装置及计算机设备
CN113220904A (zh) * 2021-05-20 2021-08-06 合肥工业大学 数据处理方法及数据处理装置、电子设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647318A (zh) * 2018-05-10 2018-10-12 北京航空航天大学 一种基于多源数据的知识融合方法
CN111538842A (zh) * 2019-11-15 2020-08-14 国家电网有限公司 网络空间态势的智能感知和预测方法、装置和计算机设备
CN111339313A (zh) * 2020-02-18 2020-06-26 北京航空航天大学 一种基于多模态融合的知识库构建方法
CN111598136A (zh) * 2020-04-24 2020-08-28 成都数联铭品科技有限公司 一种动态数据融合方法及系统
CN111767376A (zh) * 2020-06-03 2020-10-13 北京理工大学 基于动态知识图谱的问答系统及方法
CN112906826A (zh) * 2021-03-30 2021-06-04 平安科技(深圳)有限公司 基于多维度的知识图谱的融合方法、装置及计算机设备
CN113220904A (zh) * 2021-05-20 2021-08-06 合肥工业大学 数据处理方法及数据处理装置、电子设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114564626A (zh) * 2021-12-23 2022-05-31 中国电子科技集团公司第二十九研究所 一种过滤电子侦察专项态势的方法及存储介质
CN114969041A (zh) * 2022-05-27 2022-08-30 河北省科学技术情报研究院(河北省科技创新战略研究院) 一种多源主附实体同一性甄别及数据自补的处理方法
CN115391403A (zh) * 2022-08-29 2022-11-25 中电金信软件有限公司 一种基于规则引擎的数据整合方法及数据整合装置
CN115391403B (zh) * 2022-08-29 2023-08-25 中电金信软件有限公司 一种基于规则引擎的数据整合方法及数据整合装置

Similar Documents

Publication Publication Date Title
CN113760996A (zh) 一种数据整合方法及系统、设备和存储介质
US9449115B2 (en) Method, controller, program and data storage system for performing reconciliation processing
JP2020091902A (ja) 分散型データストアのバージョン化された階層型データ構造
US9390176B2 (en) System and method for recursively traversing the internet and other sources to identify, gather, curate, adjudicate, and qualify business identity and related data
US20050015396A1 (en) System and method for structuring data in a computer system
US10453165B1 (en) Computer vision machine learning model execution service
US9116879B2 (en) Dynamic rule reordering for message classification
CN109983456B (zh) 存储器内密钥范围搜索方法和系统
US20170308620A1 (en) Making graph pattern queries bounded in big graphs
US20240126817A1 (en) Graph data query
CN111104540B (zh) 图像搜索方法、装置、设备及计算机可读存储介质
US10007800B2 (en) Remote rule execution
CN112084781B (zh) 一种标准术语确定方法、装置及存储介质
CN109446225A (zh) 数据缓存方法、装置、计算机设备及存储介质
CN114741384A (zh) 一种患者信息处理方法及其装置、计算机可读存储介质
CN115687276B (zh) 一种文件处理方法、装置、电子设备及存储介质
US20220284501A1 (en) Probabilistic determination of compatible content
US10394761B1 (en) Systems and methods for analyzing and storing network relationships
CN112307272B (zh) 确定对象之间关系信息的方法、装置、计算设备及存储介质
CN110555158A (zh) 互斥数据处理方法及系统、计算机可读存储介质
US11347689B2 (en) Method, device and computer program product for event ordering
CN110678854B (zh) 数据查询的方法和装置
US20150134676A1 (en) Amorphous data query formulation
CN110889040B (zh) 用于推送信息的方法和装置
US10223405B2 (en) Retrieval control method and retrieval server

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination