CN113220904A - 数据处理方法及数据处理装置、电子设备 - Google Patents

数据处理方法及数据处理装置、电子设备 Download PDF

Info

Publication number
CN113220904A
CN113220904A CN202110554350.2A CN202110554350A CN113220904A CN 113220904 A CN113220904 A CN 113220904A CN 202110554350 A CN202110554350 A CN 202110554350A CN 113220904 A CN113220904 A CN 113220904A
Authority
CN
China
Prior art keywords
entity
data
initial
same
entity data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110554350.2A
Other languages
English (en)
Inventor
吴信东
李娇
黄艳香
卜晨阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN202110554350.2A priority Critical patent/CN113220904A/zh
Publication of CN113220904A publication Critical patent/CN113220904A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据处理方法及数据处理装置、电子设备。其中,该数据处理方法包括:接收检索请求,其中,检索请求中至少包括:待搜索的实体关键词;响应检索请求,基于实体关键词,获取同名实体集合;计算同名实体集合中各初始实体数据之间的语义相似度;基于初始实体数据之间的语义相似度,确定多组语义相同的实体簇;对每组相同实体簇中的各个初始实体数据进行融合处理,得到检索结果,其中,检索结果中包含有融合处理得到的超点数据以及关联的初始实体数据。本发明解决了相关技术中在存储知识图谱中的同名实体数据时,容易发生数据信息丢失的技术问题。

Description

数据处理方法及数据处理装置、电子设备
技术领域
本发明涉及数据处理技术领域,具体而言,涉及一种数据处理方法及数据处理装置、电子设备。
背景技术
相关技术中,随着知识图谱规模的不断扩大,来自各不同数据源的数据的不断扩充,知识图谱中存在了越来越多的同名实体。在这些同名实体中,有部分可能均指代同一实体。因此,需要解决知识图谱中同名实体的歧义性问题,将相同的实体进行融合,去除冗余和错误信息,从而确保知识图谱中实体数据的质量,为后续的知识图谱应用提供准确而全面的技术支持。
同时,在存储知识图谱中的数据时,现有的数据融合后实体的存储方式有两种:(1)增加一个新的实体,删除检测出的相同实体。在图数据库中,则是新建一个新的节点,删除冗余的相同节点。这种方式虽然在存储上节省了空间,但不同数据源的数据会存在信息不一致的问题,若仅保留其中一个数据源的信息,将导致信息丢失的问题。(2)在相同实体之间建立表示实体相同的关系。在图数据库中,则是在相同实体之间建立一条边,表示实体相同,例如“sameAs”。这种方式在保留源信息的基础上,对相同的实体之间进行了识别。但这种方式本质上没有对各数据源的数据进行融合操作,没有实现各相同实体之间的信息融合、信息互通。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种数据处理方法及数据处理装置、电子设备,以至少解决相关技术中在存储知识图谱中的同名实体数据时,容易发生数据信息丢失的技术问题。
根据本发明实施例的一个方面,提供了一种数据处理方法,包括:接收检索请求,其中,所述检索请求中至少包括:待搜索的实体关键词;响应所述检索请求,基于所述实体关键词,获取同名实体集合;计算所述同名实体集合中各初始实体数据之间的语义相似度;基于初始实体数据之间的语义相似度,确定多组语义相同的实体簇;对每组相同实体簇中的各个初始实体数据进行融合处理,得到检索结果,其中,检索结果中包含有融合处理得到的超点数据以及关联的初始实体数据。
可选地,计算所述同名实体集合中各初始实体数据之间的语义相似度的步骤,包括:计算每两个所述初始实体数据之间的属性相似度;计算每两个所述初始实体数据之间的关系相似度;分别确定与所述属性相似度对应的第一权重值以及与所述关系相似度对应的第二权重值;基于所述属性相似度以及对应的第一权重值、所述关系相似度以及对应的第二权重值,计算两个所述初始实体数据之间的语义相似度。
可选地,计算每两个所述初始实体数据之间的属性相似度的步骤,包括:采用预设语言模型算法将每两个所述初始实体数据的属性信息构建为特征向量;计算两个所述特征向量之间的余弦相似度;将所述余弦相似度表征为两个所述初始实体数据之间的属性相似度。
可选地,计算每两个所述初始实体数据之间的关系相似度的步骤,包括:确定每个所述初始实体数据的所有关联关系;基于每个所述初始实体数据的所有关联关系,分析每两个所述初始实体数据之间的具备相同关联关系的关系数量;确定每两个所述初始实体数据所拥有的关系数量总和;基于每两个所述初始实体数据之间的具备相同关联关系的关系数量和每两个所述初始实体数据所拥有的关系数量总和,计算每两个所述初始实体数据之间的关系相似度。
可选地,对每组相同实体簇中的各个初始实体数据进行融合处理,得到检索结果,其中,检索结果中包含有融合处理得到的超点数据以及关联的初始实体数据的步骤,包括:确定相同实体簇中各个初始实体数据出现冲突的实体属性,得到冲突属性;计算每个冲突属性的真实属性值;基于每个所述冲突属性的真实属性值,对所述相同实体簇中的各个初始实体数据进行融合处理,得到处理后的超点数据;保存所述超点数据以及所述相同实体簇中的多个初始实体数据,得到所述检索结果。
可选地,计算每个冲突属性的真实属性值的步骤,包括:确定每个所述冲突属性的数据源;获取每个所述冲突属性的数据源的可靠参数以及每个可靠参数的可靠权重值;对所述可靠权重值进行加权求和,以计算每个所述冲突属性的信任参数;对每个所述冲突属性的信任参数进行排序,得到排序结果;将所述排序结果中信任参数最大的属性值确定为所述冲突属性的真实属性值。
可选地,保存所述超点数据以及所述相同实体簇中的多个初始实体数据,得到所述检索结果的步骤,包括:以第一类型的结点形式存储所述超点数据;以第二类型的结点形式存储所述相同实体簇中的多个初始实体数据;在所述超点数据以及对应的相同实体簇中的每一个所述初始实体数据之间建立关联边,得到所述检索结果。
可选地,所述数据处理方法还包括:接收实体修改指令;基于所述实体修改指令,移除所述检索结果中的实体数据;或者,基于所述实体修改指令,将其它实体数据增添至所述检索结果中。
根据本发明实施例的另一方面,还提供了一种数据处理装置,包括:接收单元,用于接收检索请求,其中,所述检索请求中至少包括:待搜索的实体关键词;获取单元,用于响应所述检索请求,基于所述实体关键词,获取同名实体集合;计算单元,用于计算所述同名实体集合中各初始实体数据之间的语义相似度;确定单元,用于基于初始实体数据之间的语义相似度,确定多组语义相同的实体簇;融合单元,用于对每组相同实体簇中的各个初始实体数据进行融合处理,得到检索结果,其中,检索结果中包含有融合处理得到的超点数据以及关联的初始实体数据。
可选地,所述计算单元包括:第一计算模块,用于计算每两个所述初始实体数据之间的属性相似度;第二计算模块,用于计算每两个所述初始实体数据之间的关系相似度;第一确定模块,用于分别确定与所述属性相似度对应的第一权重值以及与所述关系相似度对应的第二权重值;第三计算模块,用于基于所述属性相似度以及对应的第一权重值、所述关系相似度以及对应的第二权重值,计算两个所述初始实体数据之间的语义相似度。
可选地,所述第一计算模块包括:第一构建子模块,用于采用预设语言模型算法将每两个所述初始实体数据的属性信息构建为特征向量;第一计算子模块,用于计算两个所述特征向量之间的余弦相似度;第一确定子模块,用于将所述余弦相似度表征为两个所述初始实体数据之间的属性相似度。
可选地,所述第二计算模块包括:第二确定子模块,用于确定每个所述初始实体数据的所有关联关系;第一分析子模块,用于基于每个所述初始实体数据的所有关联关系,分析每两个所述初始实体数据之间的具备相同关联关系的关系数量;第三确定子模块,用于确定每两个所述初始实体数据所拥有的关系数量总和;第二计算子模块,用于基于每两个所述初始实体数据之间的具备相同关联关系的关系数量和每两个所述初始实体数据所拥有的关系数量总和,计算每两个所述初始实体数据之间的关系相似度。
可选地,所述融合单元包括:第一确定模块,用于确定相同实体簇中各个初始实体数据出现冲突的实体属性,得到冲突属性;第四计算模块,用于计算每个冲突属性的真实属性值;基于每个所述冲突属性的真实属性值,对所述相同实体簇中的各个初始实体数据进行融合处理,得到处理后的超点数据;第一保存模块,用于保存所述超点数据以及所述相同实体簇中的多个初始实体数据,得到所述检索结果。
可选地,所述第四计算模块包括:第三确定子模块,用于确定每个所述冲突属性的数据源;获取子模块,用于获取每个所述冲突属性的数据源的可靠参数以及每个可靠参数的可靠权重值;累加子模块,用于对所述可靠权重值进行加权求和,以计算每个所述冲突属性的信任参数;排序子模块,用于对每个所述冲突属性的信任参数进行排序,得到排序结果;第四确定子模块,用于将所述排序结果中信任参数最大的属性值确定为所述冲突属性的真实属性值。
可选地,所述第一保存模块包括:第一存储子模块,用于以第一类型的结点形式存储所述超点数据;第二存储子模块,用于以第二类型的结点形式存储所述相同实体簇中的多个初始实体数据;建立子模块,用于在所述超点数据以及对应的相同实体簇中的每一个所述初始实体数据之间建立关联边,得到所述检索结果。
可选地,所述数据处理装置还包括:接收模块,用于接收实体修改指令;移除模块,用于基于所述实体修改指令,移除所述检索结果中的实体数据;或者,增添模块,用于基于所述实体修改指令,将其它实体数据增添至所述检索结果中。
根据本发明实施例的另一方面,还提供了一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的数据处理装方法。
根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述任意一项所述的数据处理装方法。
本发明实施例中,采用接收检索请求,其中,检索请求中至少包括:待搜索的实体关键词,响应检索请求,基于实体关键词,获取同名实体集合,计算同名实体集合中各初始实体数据之间的语义相似度,基于初始实体数据之间的语义相似度,确定多组语义相同的实体簇,对每组相同实体簇中的各个初始实体数据进行融合处理,得到检索结果,其中,检索结果中包含有融合处理得到的超点数据以及关联的初始实体数据。在该实施例中,可以将语义相同的同名实体数据进行融合,在融合数据的基础上,仍保留各数据源的初始数据,便于后期对信息的查漏补缺,并保留不同语义的同名实体,保证能够查看到真实的实体数据,从而解决相关技术中在存储知识图谱中的同名实体数据时,容易发生数据信息丢失的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的数据处理方法的流程图;
图2是根据本发明实施例的一种可选的数据处理装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例一
根据本发明实施例,提供了一种数据处理方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的一种可选的数据处理方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,接收检索请求,其中,检索请求中至少包括:待搜索的实体关键词;
步骤S104,响应检索请求,基于实体关键词,获取同名实体集合;
步骤S106,计算同名实体集合中各初始实体数据之间的语义相似度;
步骤S108,基于初始实体数据之间的语义相似度,确定多组语义相同的实体簇;
步骤S110,对每组相同实体簇中的各个初始实体数据进行融合处理,得到检索结果,其中,检索结果中包含有融合处理得到的超点数据以及关联的初始实体数据。
通过上述步骤,可以接收检索请求,其中,检索请求中至少包括:待搜索的实体关键词,响应检索请求,基于实体关键词,获取同名实体集合,计算同名实体集合中各初始实体数据之间的语义相似度,基于初始实体数据之间的语义相似度,确定多组语义相同的实体簇,对每组相同实体簇中的各个初始实体数据进行融合处理,得到检索结果,其中,检索结果中包含有融合处理得到的超点数据以及关联的初始实体数据。在该实施例中,可以将语义相同的同名实体数据进行融合,在融合数据的基础上,仍保留各数据源的初始数据,便于后期对信息的查漏补缺,并保留不同语义的同名实体,保证能够查看到真实的实体数据,从而解决相关技术中在存储知识图谱中的同名实体数据时,容易发生数据信息丢失的技术问题。
本实施例,可以应用于以知识图谱为构建模型的数据处理系统\数据处理软件中,针对当前知识图谱中存在大量同名实体数据的情况,能够通过融合语义相同的实体簇,在融合数据的基础上,仍保留各数据源的初始数据,便于后期对信息的查漏补缺,打破各数据源中数据相互隔离的封闭状态,实现各数据源之间的语义互通,使实体信息更加丰富、全面、准确,还有利于后续信息检索、知识推理等领域的应用。
下面结合上述各实施步骤来详细说明本发明实施例。
步骤S102,接收检索请求,其中,检索请求中至少包括:待搜索的实体关键词。
本实施例,对实体关键词的类型和具体长度等不做限定,例如,历史名人、数据函数、公司简称、地理标识等。用户可以通过搜索框等输入需要搜索的实体关键词,例如,输入实体名称A,这样运行知识图谱检索的系统/软件就可以自动在数据库中搜索名称为A的实体数据,并返回一组实体名称均为A的同名实体集合。
步骤S104,响应检索请求,基于实体关键词,获取同名实体集合。
步骤S106,计算同名实体集合中各初始实体数据之间的语义相似度。
可选的,计算同名实体集合中各初始实体数据之间的语义相似度的步骤,包括:计算每两个初始实体数据之间的属性相似度;计算每两个初始实体数据之间的关系相似度;分别确定与属性相似度对应的第一权重值以及与关系相似度对应的第二权重值;基于属性相似度以及对应的第一权重值、关系相似度以及对应的第二权重值,计算两个初始实体数据之间的语义相似度。
本实施例中可选的实施方式,计算每两个初始实体数据之间的属性相似度的步骤,包括:采用预设语言模型算法将每两个初始实体数据的属性信息构建为特征向量;计算两个特征向量之间的余弦相似度;将余弦相似度表征为两个初始实体数据之间的属性相似度。
可选的,预设语言模型算法可以自行选取,例如,选取词向量模型BERT算法。
另一种可选的,计算每两个初始实体数据之间的关系相似度的步骤,包括:确定每个初始实体数据的所有关联关系;基于每个初始实体数据的所有关联关系,分析每两个初始实体数据之间的具备相同关联关系的关系数量;确定每两个初始实体数据所拥有的关系数量总和;基于每两个初始实体数据之间的具备相同关联关系的关系数量和每两个初始实体数据所拥有的关系数量总和,计算每两个初始实体数据之间的关系相似度。
步骤S108,基于初始实体数据之间的语义相似度,确定多组语义相同的实体簇。
步骤S110,对每组相同实体簇中的各个初始实体数据进行融合处理,得到检索结果,其中,检索结果中包含有融合处理得到的超点数据以及关联的初始实体数据。
检索结果中包含有具有相同语义的初始实体数据,将每一组相同实体簇中的初始实体数据进行融合处理,将融合处理得到的新实体数据在本实施例中表征为“超点数据”;同时在,知识图谱中,还可以存储与超点数据关联的初始实体数据。
当前,知识图谱存储方式主要有三类:(1)基于关系数据库的存储方式:主要以表格形式存储数据,如三元组表、水平表、属性表等。关系型数据库在存储知识时,需要先确定所有的概念类型和关系,即需要预先定义本体。如果有些新知识不在本体的范畴内,需要修改甚至重新设计本体,将耗费大量的人力物力。并且,关系型数据库对于知识推理及多跳查询的实现会显得非常复杂。(2)面向RDF的三元组数据库存储方式:是专门为存储大规模RDF数据而开发的知识图谱数据库,通过六重索引(SPO、SOP、PSO、POS、OSP、OPS)的方式解决了三元组搜索的效率问题。但是六重索引意味着6倍空间开销,而且更新维护代价大。(3)基于图数据库的存储方式:主要以图的形式来存储数据,图中的节点表示知识图谱中的实体,边表示实体之间的关系。图数据库本身提供完善的图查询语言、支持各种图挖掘算法。在查询速度上要优于关系型数据库,特别是多跳查询的性能较好。因此,本申请在存储时,提出了新的多源数据融合的存储方式,其体现于第三种知识图谱存储方式(即是基于图数据库的存储方式)的新设计。
可选的,对每组相同实体簇中的各个初始实体数据进行融合处理,得到检索结果,其中,检索结果中包含有融合处理得到的超点数据以及关联的初始实体数据的步骤,包括:确定相同实体簇中各个初始实体数据出现冲突的实体属性,得到冲突属性;计算每个冲突属性的真实属性值;基于每个冲突属性的真实属性值,对相同实体簇中的各个初始实体数据进行融合处理,得到处理后的超点数据;保存超点数据以及相同实体簇中的多个初始实体数据,得到检索结果,其中,检索结果中包含有融合处理得到的超点数据以及关联的初始实体数据。
例如,知识图谱中存在多个同名实体“李世民”,由于每个李世民的出生年份和出生地址不相同,即出现了多个关于同名实体数据-李世民的冲突属性(冲突属性为出生年份和出生地址),此时,需要确定各冲突属性的数据来源的可靠性,选取可靠性最高的数据值作为该冲突属性的真实数据值。
另一种可选的,计算每个冲突属性的真实属性值的步骤,包括:确定每个冲突属性的数据源;获取每个冲突属性的数据源的可靠参数以及每个可靠参数的可靠权重值;对可靠权重值进行加权求和,以计算每个冲突属性的信任参数;对每个冲突属性的信任参数进行排序,得到排序结果;将排序结果中信任参数最大的属性值确定为冲突属性的真实属性值。
通过计算每一个冲突属性值的信任参数\信任度T,信任度最大的属性值则为我们要存储的真值,越可靠的数据源所提供的信息的信任度越高。因此,本申请可以通过数据源的可靠性,来计算冲突属性的信任度。具体的计算方法为:首先为每一个或每一类数据源初始化一个可靠性r,通过对每一个冲突属性的数据源可靠性的加权求和,计算冲突属性的信任度。
可选的,保存所述超点数据以及所述相同实体簇中的多个初始实体数据,得到所述检索结果的步骤,包括:以第一类型的结点形式存储所述超点数据;以第二类型的结点形式存储所述相同实体簇中的多个初始实体数据;在所述超点数据以及对应的相同实体簇中的每一个所述初始实体数据之间建立关联边,得到所述检索结果。
在知识图谱中,保存数据时,一般每一个实体以结点的形式进行存储,每一个结点的类型为实体的类型,如人物实体的结点类型为“People”。本实施例中,为了将融合处理后形成的结点与一般的实体结点进行区分,表征为“超点数据”。在存储时,以第一类型的结点形式存储该超点数据,例如,以类型为“Super”的结点形式进行存储;同时,可以以第二类型的结点形式存储关联的初始实体数据,然后将超点数据与初始实体数据之间通过关联边连接,例如,将与超点数据对应的相同实体簇中的每一个初始实体数据之间通过“samePerson”类型边连接。
本实施例中,数据处理方法还包括:接收实体修改指令;基于实体修改指令,移除检索结果中的实体数据;或者,基于实体修改指令,将其它实体数据增添至检索结果中。
用户可检查检索结果中的超点数据所连接的初始实体数据是否均是相同实体,若存在不同的实体,可以将不相同的实体移除,同样,若发现其他实体与超点数据中的实体数据是相同实体,也可以将该实体数据添加至超点数据中。
下面通过一种具体的实施方式来说明本实施例。
步骤1:信息检索
步骤1.1:用户输入待搜索的实体名称A,系统将自动在数据库中搜索名称为A的实体,并返回一组实体名称均为A的同名实体集合E={e1,e2,...,ei}。
步骤2:实体消歧
步骤2.1:初始化一个空集S,从同名实体集合E中随机抽取一个实体ei,放入集合S中;
步骤2.2:再从同名实体集合E中随机抽取一个实体ej,计算实体ei和ej的语义相似度;
步骤2.2.1:计算实体ei和ej之间的属性相似度。使用BERT算法将实体ei和ej的属性信息构建为特征向量,之后计算两个向量之间的余弦相似度,计算结果即为实体ei和ej之间的属性相似度E(ei,ej);
步骤2.2.2:计算实体ei和ej之间的关系相似度,R(ei)代表实体ei的所有关系,|R(ei)∩R(ej)|表示人物ei和ej相同的关系数量,|R(ei)∪R(ej)|表示实体ei和ej所拥有的关系数量总和,关系相似度的计算公式如下面公式(1)所示:
Figure BDA0003076504730000091
步骤2.2.3:计算实体ei和ej之间的语义相似度,其中,γ和δ分别为属性相似度和关系相似度的权重,用来平衡二者在语义相似度测量中的重要程度,计算公式如下面公式(2)所示:
Sim(ei,ej)=γφ(ei,ej)+δRel(ei,ej) (2);
步骤2.3:设置一个阈值S,若相似度分数Sim(ei,ej)大于阈值S,则说明两个实体相同,将实体ej放入集合S中,若小于阈值,将实体ej放入集合
Figure BDA0003076504730000101
中。
步骤2.4:重复执行步骤2.2和2.3,直至集合E为空,执行下一步骤。
步骤2.5:将集合S记为一组相同实体簇C,将集合
Figure BDA0003076504730000102
记为同名实体集合E,集合S重新置为空集。
步骤2.6:重复执行步骤2.1至2.5,直至集合
Figure BDA0003076504730000103
为空。
步骤3:冲突消解
步骤3.1:将步骤2中生成的每一组相同实体簇C中的实体进行融合。
步骤3.1.1:计算每一个冲突属性值(例如,李世民,出生年份不相同)的信任度T,信任度最大的属性值则为我们要存储的真值。我们认为:越可靠的数据源所提供的信息的信任度越高。因此,我们可以通过数据源的可靠性,来计算冲突属性的信任度。具体的计算方法为:首先为每一个或每一类数据源初始化一个可靠性r,通过对每一个冲突属性的数据源可靠性的加权求和,计算冲突属性的信任度。冲突属性p的信任度Tp计算公式(3)如下:
Figure BDA0003076504730000104
其中,S为冲突属性p的所有数据源的集合,ri为S中每一个数据源的可靠性,N为S中所有数据源的数目。
步骤4:数据存储
步骤4.1:将每一组相同实体簇C中的实体融合后的新实体构建为“超点”。在知识图谱中,一般每一个实体以结点的形式进行存储,每一个结点的类型为实体的类型,如人物实体的结点类型为“People”。为了将融合后形成的结点与一般的实体结点进行区分,我们将称之为“超点”。“超点”以类型为“Super”的结点形式进行存储,并与其对应的相同实体簇C中的每一个实体之间通过“samePerson”类型边连接。
步骤5:数据校验
步骤5.1:用户检查超点所连接的实体是否均是相同实体,若存在不同的实体,用户可以将不相同的实体移除,同样,若发现其他实体与超点中的实体是相同实体,用户也可以将该实体添加至超点中。
本申请提出了“超点”(该超点可以理解为上述实施方式中的超点数据)的概念,设计了一种新的多源数据融合存储方法,在保留原数据的情况下,将所有相同实体融合成一个新的节点,本申请表征为“超点数据”,这种方式可以在融合数据的基础上,仍保留各数据源的初始数据,便于后期对信息的查漏补缺。另外,在融合过程中加入了用户的校验机制,在一定程度上保证了“超点数据”的准确率。“超点数据”不仅可以打破各数据源中数据相互隔离的封闭状态,实现各数据源之间的语义互通,使实体信息更加丰富、全面、准确,还有利于后续信息检索、知识推理等领域的应用。
下面结合另一种可选的实施例来说明本申请。
实施例二
本实施例提供的一种数据处理装置可以包括多个实施单元,每个实施单元对应于上述实施例一中的各个实施步骤。
图2是根据本发明实施例的一种可选的数据处理装置的示意图,如图2所示,该数据处理装置可以包括:接收单元21、获取单元23、计算单元25、确定单元27、融合单元29,其中,
接收单元21,用于接收检索请求,其中,检索请求中至少包括:待搜索的实体关键词;
获取单元23,用于响应检索请求,基于实体关键词,获取同名实体集合;
计算单元25,用于计算同名实体集合中各初始实体数据之间的语义相似度;
确定单元27,用于基于初始实体数据之间的语义相似度,确定多组语义相同的实体簇;
融合单元29,用于对每组相同实体簇中的各个初始实体数据进行融合处理,得到检索结果,其中,检索结果中包含有融合处理得到的超点数据以及关联的初始实体数据。
上述数据处理装置,可以通过接收单元21接收检索请求,其中,检索请求中至少包括:待搜索的实体关键词,通过获取单元23响应检索请求,基于实体关键词,获取同名实体集合,通过计算单元25计算同名实体集合中各初始实体数据之间的语义相似度,通过确定单元27基于初始实体数据之间的语义相似度,确定多组语义相同的实体簇,通过融合单元29对每组相同实体簇中的各个初始实体数据进行融合处理,得到检索结果,其中,检索结果中包含有融合处理得到的超点数据以及关联的初始实体数据。在该实施例中,可以将语义相同的同名实体数据进行融合,在融合数据的基础上,仍保留各数据源的初始数据,便于后期对信息的查漏补缺,并保留不同语义的同名实体,这样用户在查看时能够查看到真实的实体数据,减少对同名实体数据的误解,从而解决相关技术中在存储知识图谱中的同名实体数据时,容易发生数据信息丢失的技术问题。
可选的,计算单元包括:第一计算模块,用于计算每两个初始实体数据之间的属性相似度;第二计算模块,用于计算每两个初始实体数据之间的关系相似度;第一确定模块,用于分别确定与属性相似度对应的第一权重值以及与关系相似度对应的第二权重值;第三计算模块,用于基于属性相似度以及对应的第一权重值、关系相似度以及对应的第二权重值,计算两个初始实体数据之间的语义相似度。
可选的,第一计算模块包括:第一构建子模块,用于采用预设语言模型算法将每两个初始实体数据的属性信息构建为特征向量;第一计算子模块,用于计算两个特征向量之间的余弦相似度;第一确定子模块,用于将余弦相似度表征为两个初始实体数据之间的属性相似度。
可选的,第二计算模块包括:第二确定子模块,用于确定每个初始实体数据的所有关联关系;第一分析子模块,用于基于每个初始实体数据的所有关联关系,分析每两个初始实体数据之间的具备相同关联关系的关系数量;第三确定子模块,用于确定每两个初始实体数据所拥有的关系数量总和;第二计算子模块,用于基于每两个初始实体数据之间的具备相同关联关系的关系数量和每两个初始实体数据所拥有的关系数量总和,计算每两个初始实体数据之间的关系相似度。
可选的,融合单元包括:第一确定模块,用于确定相同实体簇中各个初始实体数据出现冲突的实体属性,得到冲突属性;第四计算模块,用于计算每个冲突属性的真实属性值;基于每个冲突属性的真实属性值,对相同实体簇中的各个初始实体数据进行融合处理,得到处理后的超点数据;第一保存模块,用于保存超点数据以及相同实体簇中的多个初始实体数据,得到检索结果,其中,检索结果中包含有融合处理得到的超点数据以及关联的初始实体数据。
可选的,第四计算模块包括:第三确定子模块,用于确定每个冲突属性的数据源;获取子模块,用于获取每个冲突属性的数据源的可靠参数以及每个可靠参数的可靠权重值;累加子模块,用于对可靠权重值进行加权求和,以计算每个冲突属性的信任参数;排序子模块,用于对每个冲突属性的信任参数进行排序,得到排序结果;第四确定子模块,用于将排序结果中信任参数最大的属性值确定为冲突属性的真实属性值。
可选的,第一保存模块包括:第一存储子模块,用于以第一类型的结点形式存储超点数据;第二存储子模块,用于以第二类型的结点形式存储相同实体簇中的多个初始实体数据;建立子模块,用于在超点数据以及对应的相同实体簇中的每一个所述初始实体数据之间建立关联边,得到检索结果。
可选的,数据处理装置还包括:接收模块,用于接收实体修改指令;移除模块,用于基于实体修改指令,移除检索结果中的实体数据;或者,增添模块,用于基于实体修改指令,将其它实体数据增添至检索结果中。
上述的数据处理装置还可以包括处理器和存储器,上述接收单元21、获取单元23、计算单元25、确定单元27、融合单元29等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
上述处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来对每组相同实体簇中的各个初始实体数据进行融合处理,得到检索结果,其中,检索结果中包含有融合处理得到的超点数据以及关联的初始实体数据。
上述存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
根据本发明实施例的另一方面,还提供了一种电子设备,包括:处理器;以及存储器,用于存储处理器的可执行指令;其中,处理器配置为经由执行可执行指令来执行上述任意一项的数据处理装方法。
根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,计算机可读存储介质包括存储的计算机程序,其中,在计算机程序运行时控制计算机可读存储介质所在设备执行上述任意一项的数据处理装方法。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:接收检索请求,其中,检索请求中至少包括:待搜索的实体关键词;响应检索请求,基于实体关键词,获取同名实体集合;计算同名实体集合中各初始实体数据之间的语义相似度;基于初始实体数据之间的语义相似度,确定多组语义相同的实体簇;对每组相同实体簇中的各个初始实体数据进行融合处理,得到检索结果,其中,检索结果中包含有融合处理得到的超点数据以及关联的初始实体数据。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种数据处理方法,其特征在于,包括:
接收检索请求,其中,所述检索请求中至少包括:待搜索的实体关键词;
响应所述检索请求,基于所述实体关键词,获取同名实体集合;
计算所述同名实体集合中各初始实体数据之间的语义相似度;
基于初始实体数据之间的语义相似度,确定多组语义相同的实体簇;
对每组相同实体簇中的各个初始实体数据进行融合处理,得到检索结果,其中,所述检索结果中包含有融合处理得到的超点数据以及关联的所述初始实体数据。
2.根据权利要求1所述的方法,其特征在于,计算所述同名实体集合中各初始实体数据之间的语义相似度的步骤,包括:
计算每两个所述初始实体数据之间的属性相似度;
计算每两个所述初始实体数据之间的关系相似度;
分别确定与所述属性相似度对应的第一权重值以及与所述关系相似度对应的第二权重值;
基于所述属性相似度以及对应的第一权重值、所述关系相似度以及对应的第二权重值,计算两个所述初始实体数据之间的语义相似度。
3.根据权利要求2所述的方法,其特征在于,计算每两个所述初始实体数据之间的属性相似度的步骤,包括:
采用预设语言模型算法将每两个所述初始实体数据的属性信息构建为特征向量;
计算两个所述特征向量之间的余弦相似度;
将所述余弦相似度表征为两个所述初始实体数据之间的属性相似度。
4.根据权利要求2所述的方法,其特征在于,计算每两个所述初始实体数据之间的关系相似度的步骤,包括:
确定每个所述初始实体数据的所有关联关系;
基于每个所述初始实体数据的所有关联关系,分析每两个所述初始实体数据之间的具备相同关联关系的关系数量;
确定每两个所述初始实体数据所拥有的关系数量总和;
基于每两个所述初始实体数据之间的具备相同关联关系的关系数量和每两个所述初始实体数据所拥有的关系数量总和,计算每两个所述初始实体数据之间的关系相似度。
5.根据权利要求1所述的方法,其特征在于,对每组相同实体簇中的各个初始实体数据进行融合处理,得到检索结果,其中,检索结果中包含有融合处理得到的超点数据以及关联的初始实体数据的步骤,包括:
确定相同实体簇中各个初始实体数据出现冲突的实体属性,得到冲突属性;
计算每个冲突属性的真实属性值;
基于每个所述冲突属性的真实属性值,对所述相同实体簇中的各个初始实体数据进行融合处理,得到处理后的超点数据;
保存所述超点数据以及所述相同实体簇中的多个初始实体数据,得到所述检索结果。
6.根据权利要求5所述的方法,其特征在于,计算每个冲突属性的真实属性值的步骤,包括:
确定每个所述冲突属性的数据源;
获取每个所述冲突属性的数据源的可靠参数以及每个可靠参数的可靠权重值;
对所述可靠权重值进行加权求和,以计算每个所述冲突属性的信任参数;
对每个所述冲突属性的信任参数进行排序,得到排序结果;
将所述排序结果中信任参数最大的属性值确定为所述冲突属性的真实属性值。
7.根据权利要求5所述的方法,其特征在于,保存所述超点数据以及所述相同实体簇中的多个初始实体数据,得到所述检索结果的步骤,包括:
以第一类型的结点形式存储所述超点数据;
以第二类型的结点形式存储所述相同实体簇中的多个初始实体数据;
在所述超点数据以及对应的相同实体簇中的每一个所述初始实体数据之间建立关联边,得到所述检索结果。
8.根据权利要求1所述的方法,其特征在于,所述数据处理方法还包括:
接收实体修改指令;
基于所述实体修改指令,移除所述检索结果中的实体数据;或者,
基于所述实体修改指令,将其它实体数据增添至所述检索结果中。
9.一种数据处理装置,其特征在于,包括:
接收单元,用于接收检索请求,其中,所述检索请求中至少包括:待搜索的实体关键词;
获取单元,用于响应所述检索请求,基于所述实体关键词,获取同名实体集合;
计算单元,用于计算所述同名实体集合中各初始实体数据之间的语义相似度;
确定单元,用于基于初始实体数据之间的语义相似度,确定多组语义相同的实体簇;
融合单元,用于对每组相同实体簇中的各个初始实体数据进行融合处理,得到检索结果,其中,所述检索结果中包含有融合处理得到的超点数据以及关联的所述初始实体数据。
10.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至8中任意一项所述的数据处理装方法。
CN202110554350.2A 2021-05-20 2021-05-20 数据处理方法及数据处理装置、电子设备 Pending CN113220904A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110554350.2A CN113220904A (zh) 2021-05-20 2021-05-20 数据处理方法及数据处理装置、电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110554350.2A CN113220904A (zh) 2021-05-20 2021-05-20 数据处理方法及数据处理装置、电子设备

Publications (1)

Publication Number Publication Date
CN113220904A true CN113220904A (zh) 2021-08-06

Family

ID=77093579

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110554350.2A Pending CN113220904A (zh) 2021-05-20 2021-05-20 数据处理方法及数据处理装置、电子设备

Country Status (1)

Country Link
CN (1) CN113220904A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113760996A (zh) * 2021-09-09 2021-12-07 上海明略人工智能(集团)有限公司 一种数据整合方法及系统、设备和存储介质
CN114139547A (zh) * 2021-11-25 2022-03-04 北京中科闻歌科技股份有限公司 知识融合方法、装置、设备、系统及介质
CN116244344A (zh) * 2022-11-25 2023-06-09 中国农业科学院农业信息研究所 基于用户需求的检索方法、装置以及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110516047A (zh) * 2019-09-02 2019-11-29 湖南工业大学 基于包装领域的知识图谱的检索方法及检索系统
CN110807102A (zh) * 2019-09-19 2020-02-18 平安科技(深圳)有限公司 知识融合方法、装置、计算机设备和存储介质
CN111782817A (zh) * 2020-05-30 2020-10-16 国网福建省电力有限公司信息通信分公司 一种面向信息系统的知识图谱构建方法、装置及电子设备
CN112035511A (zh) * 2020-08-31 2020-12-04 康键信息技术(深圳)有限公司 基于医学知识图谱的目标数据搜索方法及相关设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110516047A (zh) * 2019-09-02 2019-11-29 湖南工业大学 基于包装领域的知识图谱的检索方法及检索系统
CN110807102A (zh) * 2019-09-19 2020-02-18 平安科技(深圳)有限公司 知识融合方法、装置、计算机设备和存储介质
CN111782817A (zh) * 2020-05-30 2020-10-16 国网福建省电力有限公司信息通信分公司 一种面向信息系统的知识图谱构建方法、装置及电子设备
CN112035511A (zh) * 2020-08-31 2020-12-04 康键信息技术(深圳)有限公司 基于医学知识图谱的目标数据搜索方法及相关设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
任羿等: "《基于模型的可靠性系统工程》", 28 February 2021 *
吴信东: "碎片化家谱数据的融合技术", 《软件学报》 *
王志华等: "基于本体的语义网检索模型及关键技术研究", 《计算机工程与设计》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113760996A (zh) * 2021-09-09 2021-12-07 上海明略人工智能(集团)有限公司 一种数据整合方法及系统、设备和存储介质
CN114139547A (zh) * 2021-11-25 2022-03-04 北京中科闻歌科技股份有限公司 知识融合方法、装置、设备、系统及介质
CN114139547B (zh) * 2021-11-25 2023-07-04 北京中科闻歌科技股份有限公司 知识融合方法、装置、设备、系统及介质
CN116244344A (zh) * 2022-11-25 2023-06-09 中国农业科学院农业信息研究所 基于用户需求的检索方法、装置以及电子设备
CN116244344B (zh) * 2022-11-25 2023-09-05 中国农业科学院农业信息研究所 基于用户需求的检索方法、装置以及电子设备

Similar Documents

Publication Publication Date Title
Qi et al. Data-driven web APIs recommendation for building web applications
Xu et al. Topic based context-aware travel recommendation method exploiting geotagged photos
CN113220904A (zh) 数据处理方法及数据处理装置、电子设备
US7818279B2 (en) Event detection based on evolution of click-through data
CN111353106B (zh) 推荐方法和装置、电子设备和存储介质
CN109033101B (zh) 标签推荐方法及装置
CN107180093B (zh) 信息搜索方法及装置和时效性查询词识别方法及装置
CN108304444A (zh) 信息查询方法及装置
CN110795613B (zh) 商品搜索方法、装置、系统及电子设备
CN103761286B (zh) 一种基于用户兴趣的服务资源检索方法
CN112784049B (zh) 一种面向文本数据的在线社交平台多元知识获取方法
US9116916B2 (en) Information organizing sytem and information organizing method
Oo Pattern discovery using association rule mining on clustered data
Adeleye et al. A fitness-based evolving network for web-apis discovery
CN114443783B (zh) 一种供应链数据分析和增强处理方法及装置
CN107291875B (zh) 一种基于元数据图的元数据组织管理方法和系统
Kwapong et al. A knowledge graph approach to mashup tag recommendation
CN115757735A (zh) 一种面向电网数字化建设成果资源的智能检索方法及系统
CN108763208A (zh) 话题信息获取方法、装置、服务器和计算机可读存储介质
CN114780700A (zh) 基于机器阅读理解的智能问答方法、装置、设备及介质
Zhao et al. Integration of link and semantic relations for information recommendation
Nguyen et al. Pagerank-based approach on ranking social events: a case study with flickr
Chen et al. Analyzing User Behavior History for constructing user profile
CN111476037B (zh) 文本处理方法、装置、计算机设备和存储介质
Zhu et al. A materialized-view based technique to optimize progressive queries via dependency analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210806