CN110580304A - 数据融合方法、装置、计算机设备及计算机存储介质 - Google Patents

数据融合方法、装置、计算机设备及计算机存储介质 Download PDF

Info

Publication number
CN110580304A
CN110580304A CN201910683866.XA CN201910683866A CN110580304A CN 110580304 A CN110580304 A CN 110580304A CN 201910683866 A CN201910683866 A CN 201910683866A CN 110580304 A CN110580304 A CN 110580304A
Authority
CN
China
Prior art keywords
entities
entity
fusion
data
description information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910683866.XA
Other languages
English (en)
Inventor
周剀
刘嘉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910683866.XA priority Critical patent/CN110580304A/zh
Publication of CN110580304A publication Critical patent/CN110580304A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种数据融合方法、装置、计算机设备及计算机存储介质,涉及数据处理技术领域,可以将实现关联属性的数据融合,提高数据融合的准确率。所述方法包括:获取各个数据源中实体的描述信息;从所述各个数据源中实体的描述信息中提取各个实体之间的关联关系,将具有关联关系的实体进行汇总,生成实体集合;根据所述实体集合中各个实体之间的关联关系,建立实体层级模型;以所述实体层级模型为融合依据,根据预设融合条件对各个数据源中国的实体描述信息进行数据融合。

Description

数据融合方法、装置、计算机设备及计算机存储介质
技术领域
本发明涉及数据处理技术领域,尤其是涉及数据融合方法、装置、计算机设备及计算机存储介质。
背景技术
数据融合是对指向同一实体的数据进行合并去重,将来自多个信息源的数据和信息加以关联、组合,找出更有价值的信息,最终实现对指向不同实体的数据保留,以便企业进行决策的处理。
现有的数据融合技术中,由于来自不同信息源的数据总是有一定程度的不确定性和不一致性,通常需要判断数据包含的特征之间是否能够进行融合,具体过程可以通过确定各个数据中的共有属性对,并计算各个数据中的共有属性对之间的相似度,从而将共有属性对之间的相似度较高的各个数据进行数据融合。
然而,现有技术在提取各个数据中的共有属性过程中,只是通过属性之间的语义相似度来确定共有属性,而对于具有关联属性的数据,例如,第一数据中的属性a为第二数据中的属性b的上位概念,例如,球类为足球的上位概念,虽然两者具有一定的关联关系,可以满足数据融合条件,而通过语义相似度计算得到的第一数据和第二数据之间相似度并不是很高,所以无法确定属性a与属性b属性为共有属性,进而无法进行数据融合,影响数据融合的准确率。
发明内容
有鉴于此,本发明提供了一种数据融合方法、装置、计算机设备及计算机存储介质,主要目的在于提高数据融合的准确率。
依据本发明一个方面,提供了一种数据融合方法,该方法包括:
获取各个数据源中实体的描述信息;
从所述各个数据源中实体的描述信息中提取各个实体之间的关联关系,将具有关联关系的实体进行汇总,生成实体集合;
根据所述实体集合中各个实体之间的关联类型,建立多层级的实体模型;
以所述多层级的实体模型为融合依据,根据设置的预设融合条件对各个数据源中的实体描述信息进行数据融合。
进一步地,所述获取各个数据源中实体的描述信息包括:
利用预先收集的属性标识去识别各个数据源中的实体,并将各个数据源中的实体标识出来,得到实体标识;
根据所述实体标识获取各个数据源中附加在实体上的描述信息。
进一步地,所述从所述各个数据源中实体的描述信息中提取各个实体之间的关联关系,将具有关联关系的实体进行汇总,生成实体集合包括:
根据所述各个数据源中实体的描述信息确定各个实体之间的关联规则,并将符合所述关联规则的各个实体进行关联;
将关联后的各个实体进行汇总,生成实体集合。
进一步地,所述根据所述各个数据源中实体的描述信息确定各个实体之间的关联规则,并将符合所述关联规则的各个实体进行关联包括:
根据业务应用场景对所述各个数据源中实体的描述信息进行划分,分别统计不同业务应用场景下各个实体之间同时出现的概率值;
以所述各个实体之间同时出现的概率值作为关联规则,将所述各个实体之间同时出现的概率值大于第一预设值的各个实体进行关联。
进一步地,所述根据所述各个数据源中实体的描述信息确定各个实体之间的关联规则,并将符合所述关联规则的各个实体进行关联包括:
通过解析所述各个数据源中实体的描述信息,从所述实体的描述信息中抽取出实体以及实体属性;
以各个实体之间具有相同实体属性的数量作为关联规则,将具有相同实体属性的数量大于第二预设值的各个实体进行关联。
进一步地,所述实体之间的关联类型包括并列关联类型和从属关联类型,所述根据所述实体集合中各个实体之间的关联类型,建立多层级的实体模型包括:
根据所述实体集合中各个实体之间的并列关联类型,将具有并列关联类型的实体放入同一层级的实体模型中,使得所述多层级的实体模型中层级内的实体之间具有并列关联类型;
根据所述实体集合中各个实体之间的从属关联类型,将具有从属关联类型的实体放入相邻层级的实体模型中,使得所述多层级的实体模型中层级间的实体之间具有从属关联类型。
进一步地,所述预设融合条件包括有融合层级数量,所述以所述多层级的实体模型为融合依据,根据设置的预设融合条件对各个数据源中的实体描述信息进行数据融合包括:
将所述多层级的实体模型中层级内实体的描述信息进行数据融合,得到第一融合数据;
根据所述融合层级数量,将所述多层级的实体模型中处于融合层级数量内实体的描述信息融合至所述第一融合数据,得到第二融合数据。
依据本发明另一个方面,提供了一种数据融合装置,所述装置包括:
获取单元,用于获取各个数据源中实体的描述信息;
提取单元,用于从所述各个数据源中实体的描述信息中提取各个实体之间的关联关系,将具有关联关系的实体进行汇总,生成实体集合;
建立单元,用于根据所述实体集合中各个实体之间的关联类型,建立多层级的实体模型;
融合单元,用于以所述多层级的实体模型为融合依据,根据设置的预设融合条件对各个数据源中的实体描述信息进行数据融合。
进一步地,所述获取单元包括:
识别模块,用于利用预先收集的属性标识去识别各个数据源中的实体,并将各个数据源中的实体标识出来,得到实体标识;
获取模块,用于根据所述实体标识获取各个数据源中附加在实体上的描述信息。
进一步地,所述提取单元包括:
确定模块,用于根据所述各个数据源中实体的描述信息确定各个实体之间的关联规则,并将符合所述关联规则的各个实体进行关联;
生成模块,用于将关联后的各个实体进行汇总,生成实体集合。
进一步地,所述确定模块,具体用于根据业务应用场景对所述各个数据源中实体的描述信息进行划分,分别统计不同业务应用场景下各个实体之间同时出现的概率值;
所述确定模块,具体还用于以所述各个实体之间同时出现的概率值作为关联规则,将所述各个实体之间同时出现的概率值大于第一预设值的各个实体进行关联。
进一步地,所述确定模块,具体还用于通过解析所述各个数据源中实体的描述信息,从所述实体的描述信息中抽取出实体以及实体属性;
所述确定模块,具体还用于以各个实体之间具有相同实体属性的数量作为关联规则,将具有相同实体属性的数量大于第二预设值的各个实体进行关联。
进一步地,所述实体之间的关联类型包括并列关联类型和从属关联类型,所述建立单元包括:
第一建立模块,用于根据所述实体集合中各个实体之间的并列关联类型,将具有并列关联类型的实体放入同一层级的实体模型中,使得所述多层级的实体模型中层级内的实体之间具有并列关联类型;
第二建立模块,用于根据所述实体集合中各个实体之间的从属关联类型,将具有从属关联类型的实体放入相邻层级的实体模型中,使得所述多层级的实体模型中层级间的实体之间具有从属关联类型。
进一步地,所述预设融合条件包括有融合层级数量,所述融合单元包括:
第一融合模块,用于将所述多层级的实体模型中层级内实体的描述信息进行数据融合,得到第一融合数据;
第二融合模块,用于根据所述融合层级数量,将所述多层级的实体模型中处于融合层级数量内实体的描述信息融合至所述第一融合数据,得到第二融合数据。
依据本发明又一个方面,提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现数据融合方法的步骤。
依据本发明再一个方面,提供了一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现数据融合方法的步骤。
借由上述技术方案,本发明提供一种数据融合方法及装置,与现有技术中利用共有属性进行数据融合的方式相比,本发明实施例,通过从各个数据源中实体的描述信息中提取各个实体之间的关联关系,并将具有关联关系的实体进行汇总,生成实体集合,这里的实体集合除了考虑到实体之间的共有性,还考虑到实体之间的关联性,进一步根据实体集合中各个实体之间的关联类型,建立多层级的实体模型,通过多层级的实体模型来对各个数据源中的实体描述信息进行数据融合,可以根据不同预设融合条件实现不同层级数据的融合,能够提高数据融合的灵活度,从而保证融合数据的准确率。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种数据融合方法流程示意图;
图2示出了本发明实施例提供的另一种数据融合方法流程示意图;
图3示出了本发明实施例提供的一种数据融合装置的结构示意图;
图4示出了本发明实施例提供的另一种数据融合装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例提供了一种数据融合方法,可以提高生数据融合的准确率,如图1所示,该方法包括:
101、获取各个数据源中实体的描述信息。
其中,各个数据源可以为来源于不同获取渠道的数据,这里的获取渠道可以为各个网站、数据平台或者创建的数据库等等,实体为源数据中描述现实世界的对象或概念,如职工、学生、课程等,实体的描述信息为描述实体特征的文字,例如学生的性别、年龄、成绩,课程的内容等。
对于本发明实施例,这里从各个数据源中获取的实体的描述信息可以为标题,一段文字,也可以为一篇文章,在实体的描述信息中会涉及到多个实体以及实体对应的多个描述信息,例如,从新闻网站上获取的新闻标题:北京动物园调节温度,硬让动物进入冬眠期,这里涉及的实体有“北京”、动物园”、“动物”,实体对应的描述信息有“硬让动物进入冬眠期”,“动物园调节温度”。
需要说明的是,由于各个数据源中实体的描述信息可能是杂乱无章的,这里可以在获取各个数据源中实体的描述信息的过程中,针对不同领域的数据源来获取实体描述信息,并将相同领域的数据源获取的实体描述信息划分到一块,例如,将从金融领域类数据源获取的实体描述信息放入金融类的实体描述信息中,计算机领域类数据源获取的实体描述信息放入计算机类的实体描述信息中,这里不进行限定,针对各个领域还可以继续对实体的描述信息进行划分,例如,针对计算机领域,可以根据应用系统类型对实体的描述信息进行划分,还可以针对应用终端类型对实体的描述信息进行划分。
102、从所述各个数据源中实体的描述信息中提取各个实体之间的关联关系,将具有关联关系的实体进行汇总,生成实体集合。
对于本发明实施例,具体可以通过自然语言处理的方式对实体的描述信息进行处理,并从各个数据源的实体描述信息中识别出三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)来命名实体。当然也可以自定义来识别实体,例如,识别商品名实体或者城市名实体等,这里不进行限定。
另外,由于各个数据源中实体的描述信息涉及到多个实体以及每个实体对应有多个描述信息,具体可以通过解析各个数据源中实体的描述信息,根据从实体的描述信息中提取出实体以及描述实体的实体属性,为各个实体之间设置关联规则,进而将具有关联关系的各个实体进行关联,并汇总关联后的实体,生成实体集合。
需要说明的是,这里具有关联关系的实体是通过关联规则来确定的,针对不同关联规则可以得到具有不同关联程度的实体,例如,可以设置实体集合中的实体满足所有属性信息必须一致,可以设置实体集合中的实体相似度达到一定阈值等,这里不进行限定。
103、根据所述实体集合中各个实体之间的关联类型,建立多层级的实体模型。
由于在数据分析时,经常涉及到不同数据源中对相同实体使用不同的描述信息,或者在同一数据源中对不同实体使用相同的描述信息,例如,数据源M中的实体名称为a,数据源N中的实体名称为b,而实体a和实体b为相同实体,或者数据源M中实体职业为c,数据源N中实体职业为c,而数据源M中的实体与数据源N中的实体是不同的实体。考虑到实体之间可能是相互独立也可能是具有关联的,对于具有关联的实体,可以根据实体之间的依赖关系为实体集合中的各个实体设置关联类型,将实体集合中各个实体之间的关联类型分为从属关联类型、并列关联类型,例如,实体教师与实体老师为并列关联类型,说明教师与老师之间为并列关系,实体老师与学生为从属关联关系,老师与学生之间为依赖关系。
需要说明的是,排除特定场景下,如果实体之间不存在关联关系,则说明实体之间是相互独立,例如,实体医生与实体教室之间是相互独立,实体老师与实体超市之间也是相互独立的。
本发明实施例根据实体集合中各个实体之间不同的关联类型,建立多层级的实体模型,该多层级的实体模型中层级内的实体具有并列关联类型的实体,相邻层级间的实体具有从属关联关系,能够建立特定应用场景下的实体模型,将特定场景下具有关联关系的实体汇总到一起,从而提高后续数据融合的准确率,例如,针对学校应用场景,可以将学校、老师、学生、课程等实体汇总到一起,针对娱乐应用场景,可以将演唱会、歌手、音乐人等实体汇总到一起。
104、以所述多层级的实体模型为融合依据,根据设置的预设融合条件对各个数据源中的实体描述信息进行数据融合。
对于本发明实施例,多层级的实体模型中汇总的实体通常为在特定场景下具有关联关系的实体,为数据融合提供了融合依据。由于相同层级实体模型内的实体具有并列关联类型,相邻层级实体模型之间的实体具有从属关联类型,通过设置不同的融合条件可以实现对不同层级数量的实体模型中的实体描述信息进行数据融合,例如,设置相邻3个层级内实体的描述信息进行数据融合,设置将相同层级内实体的描述信息进行数据融合,这里不进行限定。
本发明提供一种数据融合方法,与现有技术中利用共有属性进行数据融合的方式相比,本发明实施例,通过从各个数据源中实体的描述信息中提取各个实体之间的关联关系,并将具有关联关系的实体进行汇总,生成实体集合,这里的实体集合除了考虑到实体之间的共有性,还考虑到实体之间的关联性,进一步根据实体集合中各个实体之间的关联类型,建立多层级的实体模型,通过多层级的实体模型来对各个数据源中的实体描述信息进行数据融合,可以根据不同预设融合条件实现不同层级数据的融合,能够提高数据融合的灵活度,从而保证融合数据的准确率。
本发明实施例提供了另一种数据融合方法,可以将实现关联属性的数据融合,提高数据融合的准确率,如图2所示,所述方法包括:
201、利用预先收集的属性标识去识别各个数据源中的实体,并将各个数据源中的实体标识出来,得到实体标识。
由于各个数据源相当于收集的原材料,该原材料中会涉及互相区别而被人们识别的事、物、概念等抽象出的实体,这里的属性标识可以为城市、人物、建筑等,利用预先收集的属性标识去识别各个数据源中的实体,从而将各个数据源中的实体标识出来,得到实体标识。
可以理解的是,具体在识别各个数据源中的实体过程中,可以通过原材料名字表中物体的术语以及具有“代码”结尾的术语,如客户代码、代理商代码、产品代码等将其名称部分代表的实体标识出来。
202、根据所述实体标识获取各个数据源中附加在实体上的描述信息。
对于本发明实施例,实体的描述信息相当于描述实体属性或者实体特征的文字,通常情况下,各个数据源中实体的描述信息是以该结构化存储的,实体可以为不同的节点,在不同的节点上附加有相关描述性信息,例如,实体book节点有category信息,title节点有lang信息等,利用实体标识检测各个数据源中附加在实体节点上的描述信息,可以获取各个数据源中附加在实体上的描述信息。
203、根据所述各个数据源中实体的描述信息确定各个实体之间的关联规则,并将符合所述关联规则的各个实体进行关联。
其中,关联规则可以描述一个事物中物品之间同时出现的概率,为了保证各个实体之间的关联规则的准确性,可以在获取各个数据源中实体的描述信息之后,根据不同业务应用场景对实体的描述信息进行划分,得到不同业务应用场景下实体的描述信息。
对于本发明实施例,具体可以根据业务应用场景对各个数据源中实体的描述信息进行划分,例如,将购物应用场景下实体的描述信息划分到一类,将医院应用场景下实体的描述信息划分到一类,分别统计不同业务应用场景下各个实体之间同时出现的概率值,例如,医生与护士同时出现的概率,医生与病人同时出现的概率,进一步以各个实体之间同时出现的概率值作为关联规则,将各个实体之间同时出现的概率值大于第一预设值的各个实体进行关联,例如,设置第一预设值为70%,则将各个实体之间同时出现的概率值大于70%的各个实体进行关联。
其中,关联规则还可以是描述一个事物中相同实体属性的数量,通常情况下,相同实体属性的数量越多,实体的关联程度越高。
对于本发明实施例,具体还可以通过解析各个数据源中实体的描述信息,从实体的描述信息中抽取出实体以及实体属性,进一步以各个实体之间具有相同实体属性的数量作为关联规则,将具有相同实体属性的数量大于第二预设值的各个实体进行关联。
另外,关联规则还可以是描述一个事物中物品之间的相似度,通常情况下,各个实体之间的相似度越高,是的关联程度越高。
对于本发明实施例,具体还可以通过解析各个数据源中实体的描述信息,从实体的描述信息中抽取出实体以及实体属性,进一步统计各个实体以及实体属性之间的相似度,以各个实体以及实体属性之间的相似度作为关联规则,将相似度大于第三预设值的各个实体进行关联。
需要说明的是,上述第一预设值、第二预设值以及第三预设值设置实体关联的条件,只有满足达到第一预设值、第二预设值以及第三预设值的情况才将各个实体进行关联,这里对第一预设值以及第二预设值的具体数值不进行限定,可以根据实际情况进行设置。
本发明实施例通过设置不同的关联规则,将符合不同关联规则的实体关联起来,从而保证实体集合内的实体之间具有关联关系,这里对关联规则不进行限定,具体根据实际需求进项选取。
204、将关联后的各个实体进行汇总,生成实体集合。
对于本发明实施例,通过将关联后的各个实体进行汇总,使得实体集合中的各个实体都是具有关联关系,然而,实体结合中的实体之间的关联关系并非是相同的关联类型,不同关联类型的关联关系使得各个实体之间的依赖关系有所不同,例如,具有并列关联类型的各个实体之间并不存在依赖关系,具有很高的数据融合度,符合融合条件,可以直接进行数据融合,而具有从属关联关系类型的各个实体之间存在不同等级的依赖关系,在数据融合的过程中需要考虑实体之间的依赖程度,从而进行数据融合。
205、根据所述实体集合中各个实体之间的并列关联类型,将具有并列关联类型的实体放入同一层级的实体模型中,使得所述多层级的实体模型中层级内的实体之间具有并列关联类型。
由于具有并列关联类型的各个实体之间并不存在依赖关系,并且实体所包含的属性特征具有极高的相似性,可以将具有并列关联类型的实体放入同一层级的实体模型中,以保证多层级的实体模型中处于相同层级实体模型内的实体之间的相似度,从而便于对相似性高数据直接进行融合。
206、根据所述实体集合中各个实体之间的从属关联类型,将具有从属关联类型的实体放入相邻层级的实体模型中,使得所述多层级的实体模型中层级间的实体之间具有从属关联类型。
由于具有并列关联类型的各个实体之间存储依赖关系,并且实体所包含的属性特征也具有不同程度的相似性,进一步根据不同程度的相似性将具有从属关联类型的实体放入相邻层级的实体模型中,以保证多层级的实体模型中处于相邻层级实体模型内的实体之间具有不同程度的相似性,从而便于对不同相似程度的数据进行融合。
207、将所述多层级的实体模型中层级内实体的描述信息进行数据融合,得到第一融合数据。
由于多层次的实体模型中处于同一层级的实体为具有并列关联类型,也就是实体所包含的属性特征具有极高的相似性,所以实体的描述信息符合最基本的数据融合条件,可以直接进行数据融合,进一步将属于同一层级内具有并列关联类型的实体以及实体描述信息进行数据融合,得到第一融合数据,从而保证相似性高的数据能够直接进行融合。
208、根据所述融合层级数量,将所述多层级的实体模型中处于融合层级数量内实体的描述信息融合至所述第一融合数据,得到第二融合数据。
由于多层级的实体模型中包括由各种关联类型下实体的描述信息,针对领域不同、需求不同,用户可以设置的不同的融合条件,该融合条件可以包括融合层级数量,通常情况下,该融合层级数量为大于2,进一步将多层级的实体模型中处于融合层级数量内的各个层级内实体的描述信息融合到第一融合数据中,得到第二融合数据,根据用户需求可以设置多个融合层级,从而实现数据的灵活融合。
需要说明的是,用户需要相似度比较高的融合数据,则可设置融合层及数量为1层,如果层级融合数量为1层,也就是只将层级内实体的描述信息进行融合,得到的第一融合数据,而不存在其他待融合实体的描述信息,而此时第一融合数据即为第二融合数据。
本发明提供另一种数据融合方法,与现有技术中利用共有属性进行数据融合的方式相比,本发明实施例,通过从各个数据源中实体的描述信息中提取各个实体之间的关联关系,并将具有关联关系的实体进行汇总,生成实体集合,这里的实体集合除了考虑到实体之间的共有性,还考虑到实体之间的关联性,进一步根据实体集合中各个实体之间的关联类型,建立多层级的实体模型,通过多层级的实体模型来对各个数据源中的实体描述信息进行数据融合,可以根据不同预设融合条件实现不同层级数据的融合,能够提高数据融合的灵活度,从而保证融合数据的准确率。
进一步地,作为图1所述方法的具体实现,本发明实施例提供了一种数据融合装置,如图3所示,所述装置包括:获取单元31、提取单元32、建立单元33、融合单元34。
获取单元31,可以用于获取各个数据源中实体的描述信息;
提取单元32,可以用于从所述各个数据源中实体的描述信息中提取各个实体之间的关联关系,将具有关联关系的实体进行汇总,生成实体集合;
建立单元33,可以用于根据所述实体集合中各个实体之间的关联类型,建立多层级的实体模型;
融合单元34,可以用于以所述多层级的实体模型为融合依据,根据设置的预设融合条件对各个数据源中的实体描述信息进行数据融合。
本发明提供一种数据融合装置,与现有技术中利用共有属性进行数据融合的方式相比,本发明实施例,通过从各个数据源中实体的描述信息中提取各个实体之间的关联关系,并将具有关联关系的实体进行汇总,生成实体集合,这里的实体集合除了考虑到实体之间的共有性,还考虑到实体之间的关联性,进一步根据实体集合中各个实体之间的关联类型,建立多层级的实体模型,通过多层级的实体模型来对各个数据源中的实体描述信息进行数据融合,可以根据不同预设融合条件实现不同层级数据的融合,能够提高数据融合的灵活度,从而保证融合数据的准确率。
作为图4中所示数据融合装置的进一步说明,图4是根据本发明实施例另一种数据融合装置的结构示意图,如图4所示,
所述获取单元31包括:
识别模块311,可以用于利用预先收集的属性标识去识别各个数据源中的实体,并将各个数据源中的实体标识出来,得到实体标识;
获取模块312,可以用于根据所述实体标识获取各个数据源中附加在实体上的描述信息。
进一步地,所述提取单元32包括:
确定模块321,可以用于根据所述各个数据源中实体的描述信息确定各个实体之间的关联规则,并将符合所述关联规则的各个实体进行关联;
生成模块322,可以用于将关联后的各个实体进行汇总,生成实体集合。
进一步地,所述确定模块321,具体可以用于根据业务应用场景对所述各个数据源中实体的描述信息进行划分,分别统计不同业务应用场景下各个实体之间同时出现的概率值;
所述确定模块321,具体还可以用于以所述各个实体之间同时出现的概率值作为关联规则,将所述各个实体之间同时出现的概率值大于第一预设值的各个实体进行关联。
进一步地,
所述确定模块321,具体还可以用于通过解析所述各个数据源中实体的描述信息,从所述实体的描述信息中抽取出实体以及实体属性;
所述确定模块,具体还可以用于以各个实体之间具有相同实体属性的数量作为关联规则,将具有相同实体属性的数量大于第二预设值的各个实体进行关联。
进一步地,所述实体之间的关联类型包括并列关联类型和从属关联类型,所述建立单元33包括:
第一建立模块331,可以用于根据所述实体集合中各个实体之间的并列关联类型,将具有并列关联类型的实体放入同一层级的实体模型中,使得所述多层级的实体模型中层级内的实体之间具有并列关联类型;
第二建立模块332,可以用于根据所述实体集合中各个实体之间的从属关联类型,将具有从属关联类型的实体放入相邻层级的实体模型中,使得所述多层级的实体模型中层级间的实体之间具有从属关联类型。
进一步地,所述预设融合条件包括有融合层级数量,所述融合单元34包括:
第一融合模块341,可以用于将所述多层级的实体模型中层级内实体的描述信息进行数据融合,得到第一融合数据;
第二融合模块342,可以用于根据所述融合层级数量,将所述多层级的实体模型中处于融合层级数量内实体的描述信息融合至所述第一融合数据,得到第二融合数据。
需要说明的是,本实施例提供的一种数据融合装置所涉及各功能单元的其他相应描述,可以参考图1和图2中的对应描述,在此不再赘述。
基于上述如图1和图2所示方法,相应的,本实施例还提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述如图1和图所示的数据融合方法。
基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景所述的方法。
基于上述如图1、图2所示的方法,以及图3、图4所示的虚拟装置实施例,为了实现上述目的,本申请实施例还提供了一种计算机设备,具体可以为个人计算机、服务器、网络设备等,该实体设备包括存储介质和处理器;存储介质,用于存储计算机程序;处理器,用于执行计算机程序以实现上述如图1、图2所示的数据融合方法。
可选地,该计算机设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency,RF)电路,传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等,可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。
本领域技术人员可以理解,本实施例提供的数据融合的实体设备结构并不构成对该实体设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
存储介质中还可以包括操作系统、网络通信模块。操作系统是管理上述计算机设备硬件和软件资源的程序,支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信,以及与该实体设备中其它硬件和软件之间通信。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现,也可以通过硬件实现。通过应用本申请的技术方案,与目前现有技术相比,通过从各个数据源中实体的描述信息中提取各个实体之间的关联关系,并将具有关联关系的实体进行汇总,生成实体集合,这里的实体集合除了考虑到实体之间的共有性,还考虑到实体之间的关联性,进一步根据实体集合中各个实体之间的关联类型,建立多层级的实体模型,通过多层级的实体模型来对各个数据源中的实体描述信息进行数据融合,可以根据不同预设融合条件实现不同层级数据的融合,能够提高数据融合的灵活度,从而保证融合数据的准确率。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims (10)

1.一种数据融合方法,其特征在于,所述方法包括:
获取各个数据源中实体的描述信息;
从所述各个数据源中实体的描述信息中提取各个实体之间的关联关系,将具有关联关系的实体进行汇总,生成实体集合;
根据所述实体集合中各个实体之间的关联类型,建立多层级的实体模型;
以所述多层级的实体模型为融合依据,根据设置的预设融合条件对各个数据源中的实体描述信息进行数据融合。
2.根据权利要求1所述的方法,其特征在于,所述获取各个数据源中实体的描述信息包括:
利用预先收集的属性标识去识别各个数据源中的实体,并将各个数据源中的实体标识出来,得到实体标识;
根据所述实体标识获取各个数据源中附加在实体上的描述信息。
3.根据权利要求1所述的方法,其特征在于,所述从所述各个数据源中实体的描述信息中提取各个实体之间的关联关系,将具有关联关系的实体进行汇总,生成实体集合包括:
根据所述各个数据源中实体的描述信息确定各个实体之间的关联规则,并将符合所述关联规则的各个实体进行关联;
将关联后的各个实体进行汇总,生成实体集合。
4.根据权利要求3所述的方法,其特征在于,所述根据所述各个数据源中实体的描述信息确定各个实体之间的关联规则,并将符合所述关联规则的各个实体进行关联包括:
根据业务应用场景对所述各个数据源中实体的描述信息进行划分,分别统计不同业务应用场景下各个实体之间同时出现的概率值;
以所述各个实体之间同时出现的概率值作为关联规则,将所述各个实体之间同时出现的概率值大于第一预设值的各个实体进行关联。
5.根据权利要求3所述的方法,其特征在于,所述根据所述各个数据源中实体的描述信息确定各个实体之间的关联规则,并将符合所述关联规则的各个实体进行关联包括:
通过解析所述各个数据源中实体的描述信息,从所述实体的描述信息中抽取出实体以及实体属性;
以各个实体之间具有相同实体属性的数量作为关联规则,将具有相同实体属性的数量大于第二预设值的各个实体进行关联。
6.根据权利要求1所述的方法,其特征在于,所述实体之间的关联类型包括并列关联类型和从属关联类型,所述根据所述实体集合中各个实体之间的关联类型,建立多层级的实体模型包括:
根据所述实体集合中各个实体之间的并列关联类型,将具有并列关联类型的实体放入同一层级的实体模型中,使得所述多层级的实体模型中层级内的实体之间具有并列关联类型;
根据所述实体集合中各个实体之间的从属关联类型,将具有从属关联类型的实体放入相邻层级的实体模型中,使得所述多层级的实体模型中层级间的实体之间具有从属关联类型。
7.根据权利要求1-6中任一项所述的方法,其特征在于,所述预设融合条件包括有融合层级数量,所述以所述多层级的实体模型为融合依据,根据设置的预设融合条件对各个数据源中的实体描述信息进行数据融合包括:
将所述多层级的实体模型中层级内实体的描述信息进行数据融合,得到第一融合数据;
根据所述融合层级数量,将所述多层级的实体模型中处于融合层级数量内实体的描述信息融合至所述第一融合数据,得到第二融合数据。
8.一种数据融合装置,其特征在于,所述装置包括:
获取单元,用于获取各个数据源中实体的描述信息;
提取单元,用于从所述各个数据源中实体的描述信息中提取各个实体之间的关联关系,将具有关联关系的实体进行汇总,生成实体集合;
建立单元,用于根据所述实体集合中各个实体之间的关联类型,建立多层级的实体模型;
融合单元,用于以所述多层级的实体模型为融合依据,根据设置的预设融合条件对各个数据源中的实体描述信息进行数据融合。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN201910683866.XA 2019-07-26 2019-07-26 数据融合方法、装置、计算机设备及计算机存储介质 Pending CN110580304A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910683866.XA CN110580304A (zh) 2019-07-26 2019-07-26 数据融合方法、装置、计算机设备及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910683866.XA CN110580304A (zh) 2019-07-26 2019-07-26 数据融合方法、装置、计算机设备及计算机存储介质

Publications (1)

Publication Number Publication Date
CN110580304A true CN110580304A (zh) 2019-12-17

Family

ID=68810452

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910683866.XA Pending CN110580304A (zh) 2019-07-26 2019-07-26 数据融合方法、装置、计算机设备及计算机存储介质

Country Status (1)

Country Link
CN (1) CN110580304A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111326262A (zh) * 2020-03-19 2020-06-23 北京嘉和海森健康科技有限公司 电子病历数据中实体关系抽取方法、装置及系统
CN112214531A (zh) * 2020-10-12 2021-01-12 海南大学 跨数据、信息、知识多模态的特征挖掘方法及组件
CN113609360A (zh) * 2021-08-19 2021-11-05 武汉东湖大数据交易中心股份有限公司 一种基于场景化多源数据融合分析的方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120136878A1 (en) * 2010-11-26 2012-05-31 Raymond Cypher Applying hierarchy information to data items
CN107609052A (zh) * 2017-08-23 2018-01-19 中国科学院软件研究所 一种基于语义三角的领域知识图谱的生成方法及装置
CN107665252A (zh) * 2017-09-27 2018-02-06 深圳证券信息有限公司 一种创建知识图谱的方法及装置
US20180173795A1 (en) * 2016-12-21 2018-06-21 International Business Machines Corporation Automatic ontology generation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120136878A1 (en) * 2010-11-26 2012-05-31 Raymond Cypher Applying hierarchy information to data items
US20180173795A1 (en) * 2016-12-21 2018-06-21 International Business Machines Corporation Automatic ontology generation
CN107609052A (zh) * 2017-08-23 2018-01-19 中国科学院软件研究所 一种基于语义三角的领域知识图谱的生成方法及装置
CN107665252A (zh) * 2017-09-27 2018-02-06 深圳证券信息有限公司 一种创建知识图谱的方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111326262A (zh) * 2020-03-19 2020-06-23 北京嘉和海森健康科技有限公司 电子病历数据中实体关系抽取方法、装置及系统
CN112214531A (zh) * 2020-10-12 2021-01-12 海南大学 跨数据、信息、知识多模态的特征挖掘方法及组件
CN113609360A (zh) * 2021-08-19 2021-11-05 武汉东湖大数据交易中心股份有限公司 一种基于场景化多源数据融合分析的方法和系统

Similar Documents

Publication Publication Date Title
Bartunov et al. Joint link-attribute user identity resolution in online social networks
CN109299258B (zh) 一种舆情事件检测方法、装置及设备
CN110765272B (zh) 基于知识图谱的签约方法、装置、计算机设备及计算机存储介质
CN110580304A (zh) 数据融合方法、装置、计算机设备及计算机存储介质
KR101630752B1 (ko) 유통용 비식별 빅데이터 처리 방법
CN107515915A (zh) 基于用户行为数据的用户标识关联方法
CN112613917A (zh) 基于用户画像的信息推送方法、装置、设备及存储介质
CN108153824A (zh) 目标用户群体的确定方法及装置
CN105376223A (zh) 网络身份关系的可靠度计算方法
CN115661302A (zh) 一种视频编辑方法、装置、设备及存储介质
JP6308339B1 (ja) クラスタリングシステム、方法およびプログラム、並びに、レコメンドシステム
JP2019086940A (ja) 関連スコア算出システム、方法およびプログラム
JP7092194B2 (ja) 情報処理装置、判定方法、及びプログラム
ES2657866T3 (es) Dispositivo de búsqueda, procedimiento de búsqueda, programa de búsqueda y medio de memoria legible por ordenador para grabar un programa de búsqueda
CN112988848B (zh) 一种数据处理方法、装置、设备及存储介质
CN112966756A (zh) 一种可视化的准入规则的生成方法、装置、机器可读介质及设备
CN110968584B (zh) 一种画像生成系统、方法、电子设备及可读存储介质
CN110941638B (zh) 应用分类规则库构建方法、应用分类方法及装置
CN113934776B (zh) 食材推送方法、装置、介质及设备
JP2020135673A (ja) 投稿評価システム及び方法
CN106549914B (zh) 一种独立访问者的识别方法及装置
CN114781517A (zh) 风险识别的方法、装置及终端设备
KR20230136410A (ko) 개인에게 최적화된 정책을 추천하는 방법 및 장치
JP6191277B2 (ja) 情報処理装置、情報処理方法、プログラム
CN111382343B (zh) 一种标签体系生成方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination