CN110580294B

CN110580294B - 实体融合方法、装置、设备及存储介质

Info

Publication number: CN110580294B
Application number: CN201910860139.6A
Authority: CN
Inventors: 王策; 杜东
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-09-11
Filing date: 2019-09-11
Publication date: 2022-11-29
Anticipated expiration: 2039-09-11
Also published as: CN110580294A

Abstract

本发明实施例提供了一种实体融合方法、装置、设备及存储介质；所述方法包括：确定待提取的目标实体；采用人工智能的特征提取模型，对样本数据中的实体进行特征提取，得到所述目标实体的目标向量和其他实体的其他向量；从所述其他向量中，查找与所述目标向量相匹配的候选向量；将所述候选向量对应的候选实体，与所述目标实体进行融合。通过样本数据中的实体向量，确定与目标实体匹配的实体，从而提高相似实体融合的准确率。

Description

实体融合方法、装置、设备及存储介质

技术领域

本发明涉及机器学习领域，尤其涉及实体融合方法、装置、设备及存储介质。

背景技术

在相关技术中，知识图谱中实体融合的方法是，每个类型的实体定义一些关键属性，计算这些属性的相似度，对每个属性相似度加权求和，大于某个阈值则认为两个实体相似，将该两个实体进行融合；但是实体关键属性值存在噪音，每个来源的知识图谱实体信息准确度不能保证，导致无法融合。

发明内容

本发明实施例提供一种实体融合方法、装置、设备及存储介质，能够通过样本数据中的实体向量，确定与目标实体匹配的实体，从而提高相似实体融合的准确率。

本发明实施例的技术方案是这样实现的：

第一方面，本发明实施例提供一种实体融合方法，包括：

确定待提取的目标实体；

对样本数据中的实体进行特征提取，得到所述目标实体的目标向量和其他实体的其他向量；

从所述其他向量中，查找与所述目标向量相匹配的候选向量；

将所述候选向量对应的候选实体，与所述目标实体进行融合。

第二方面，本发明实施例提供一种实体融合装置，包括：

第一确定模块，用于确定待提取的目标实体；

第一提取模块，用于对样本数据中的实体进行特征提取，得到所述目标实体的目标向量和其他实体的其他向量；

第一查找模块，用于从所述其他向量中，查找与所述目标向量相匹配的候选向量；

第一融合模块，用于将所述候选向量对应的候选实体，与所述目标实体进行融合。

第三方面，本发明实施例提供一种实体融合的设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现上述实体融合方法。

第四方面，本发明实施例提供一种存储介质，存储有可执行指令，用于引起处理器执行时，实现本发明实施例提供的实体融合方法。

本发明实施例具有以下有益效果：首先，确定待提取的目标实体；然后，采用人工智能的特征提取模型，对样本数据中的实体进行特征提取，得到所述目标实体的目标向量和其他实体的其他向量；从所述其他向量中，查找与所述目标向量相匹配的候选向量；最后，将所述候选向量对应的候选实体，与所述目标实体进行融合；如此，通过对样本数据进行特征提取，得到目标实体和其他实体的向量，然后，从其他向量中查找与目标向量匹配的候选向量，最后将目标实体和候选实体进行融合，提高了识别候选实体的准确度，从而提高了将不同来源的相似实体融合的准确率。

附图说明

图1是本发明实施例提供的实体融合系统的一个可选的架构示意图；

图2是本发明实施例提供的实体融合的系统的结构示意图；

图3是本发明实施例提供的实体融合方法的实现流程示意图；

图4A是本发明实施例提供的实体融合方法的另一实现流程示意图；

图4B是本发明实施例提供的实体融合方法的另一实现流程示意图；

图5A是本发明实施例实体融合方法的另一实现流程示意图；

图5B是本发明实施例实体融合方法的应用场景图；

图5C是本发明实施例实体融合方法的另一应用场景图；

图6是本发明实施例实体融合方法的应用场景图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本发明实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1)知识图谱(knowledge gragh)：用来描述真实世界中存在的各种实体和概念，以及他们之间的强关系，通过关系去描述两个实体之间的关联。例如：哈登和休斯敦火箭队都是实体，他们的关系就是所属球队和球员关系，哈登---> 所属球队--->休斯敦火箭队，休斯敦火箭队--->球员--->哈登。知识图谱本质上是一种语义网络。其结点代表实体或者概念，边代表实体/概念之间的各种语义关系。知识图谱本质上是语义网络，是一种基于图的数据结构，由节点(“实体”) 和边(“关系”)组成。在知识图谱里，每个节点表示现实世界中存在的“实体”，每条边为实体与实体之间的“关系”。

2)实体对齐(entity alignment)：也叫实体相似度匹配、本体匹配、本体对齐等，指的是不同来源的知识图谱中包含相同的实体，需要将他们融合。例如： A网站的明星A实体：https://A.com/item/明星A/114923；B网站的明星A实体： https://movie.b.com/celebrity/1054424/。这样两个页面指的是同一个人，在知识库中应当作为一个实体，因此需要将两个页面中的内容融合在一起。

3)网络嵌入学习(Network Embedding，NE)：知识图谱中有千万级别的实体和边，NE的核心思想就是找到一种映射函数，该函数将网络中的每个节点转换为低维度的潜在表示。

4)词嵌入工具(Word2vec)：用于生成词向量，通过词向量可以很好地度量词与词之间的相似性。word2vec采用的模型包含了词袋模型和词嵌入模型 (Skip-Gram)。通过它可以在大数据量上进行高效训练从而得到词向量。

5)联合嵌入(Joint embedding)：不同来源的知识库之间是互不相通的，采用网络嵌入(network embedding)获取的节点表示只能保证相同知识库的实体近似，不能保证不同领域之间的相同实体相似度高，这样就需要对network embedding算法进行优化，不同来源知识库的实体进行联合嵌入，保证不同来源知识库的相同实体相似度高。

在相关技术中，知识图谱实体融合的方法是，每个类型的实体定义一些关键属性，计算这些属性的相似度，每个属性相似度加权求和，大于某个阈值则认为两个实体相似，要进行融合。例如：对于明星A在A网站和B网站的出生日期相同，且名称相同，则可以认为是相同的实体；但是，实体关键属性值存在噪音，每个来源的知识图谱实体信息准确度不能保证，降低了能够进行融合的实体的准确度。

针对上述技术问题，本发明实施例提供一种实体融合方法、终端及存储介质，通过对样本数据中的实体特征提取，得到实体向量，然后，从多个实体向量中确定出与目标实体向量有关联或者相似度较高的候选实体向量，最后，将候选实体和目标实体进行融合，从而提高对相似实体融合的准确率。

下面说明本发明实施例提供的实体融合的设备的示例性应用，本发明实施例提供的设备可以实施为笔记本电脑，平板电脑，台式计算机，机顶盒，移动设备(例如，移动电话，便携式音乐播放器，个人数字助理，专用消息设备，便携式游戏设备)等各种类型的用户终端，也可以实施为服务器。下面，将说明设备实施为终端或服务器时示例性应用。

参见图1，图1是本发明实施例提供的实体融合系统的一个可选的架构示意图，为实现支撑一个示例性应用，首先，从知识图谱11和知识图谱12中获取样本数据；将知识图谱11作为目标知识图谱，从目标知识图谱中确定目标实体101；其次，对知识图谱11中的实体和知识图谱12中的实体进行特征提取，得到目标向量和其他向量；再次，从知识图谱12对应的其他向量中，查找与所述目标向量相同的候选向量，即从知识图谱12的实体中找出与目标实体101 相同的候选实体102；最后，将知识图谱11中的目标实体101和知识图谱12 中的候选实体102进行对齐，以实现来自于两个知识图谱的相同实体进行融合，从而提高了相似实体融合的召回率。

参见图2，图2是本发明实施例提供的实体融合的系统的结构示意图，图2 所示的终端400包括：至少一个处理器410、存储器450、至少一个网络接口4 20和用户接口430。终端400中的各个组件通过总线系统440耦合在一起。可理解，总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统440。

处理器410可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口430包括使得能够呈现媒体内容的一个或多个输出装置431，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口430还包括一个或多个输入装置432，包括有助于用户输入的用户接口部件，在一些示例中键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器450可以是可移除的，不可移除的或其组合。示例性的硬件终端包括固态存储器，硬盘驱动器，光盘驱动器等。存储器450可选地包括在物理位置上远离处理器410的一个或多个存储终端。

存储器450包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(Read Only Memory，R OM)，易失性存储器可以是随机存取存储器(Random Access Memory，RAM)。本发明实施例描述的存储器450旨在包括任意适合类型的存储器。

在一些实施例中，存储器450能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统451，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块452，用于经由一个或多个(有线或无线)网络接口420到达其他计算终端，示例性的网络接口420包括：蓝牙、无线相容性认证、和通用串行总线(UniversalSerial Bus，USB)等；

呈现模块453，用于经由一个或多个与用户接口430相关联的输出装置43 1(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围终端和显示内容和信息的用户接口)；

输入处理模块454，用于对一个或多个来自一个或多个输入装置432之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本发明实施例提供的装置可以采用软件方式实现，图2 示出了存储在存储器450中的实体融合的服务器455，其可以是程序和插件等形式的软件，包括以下软件模块：第一确定模块4551、第一提取模块4552、第一查找模块4553和第一融合模块4554；这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

在另一些实施例中，本发明实施例提供的装置可以采用硬件方式实现，作为示例，本发明实施例提供的装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的实体融合方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(Application Specific Integ rated Circuit，ASIC)、DSP、可编程逻辑器件(Programmable Logic Device，P LD)、复杂可编程逻辑器件(ComplexProgrammable Logic Device，CPLD)、现场可编程门阵列(Field-Programmable GateArray，FPGA)或其他电子元件。

为了更好地理解本申请实施例提供的方法，首先对人工智能、人工智能的各个分支，以及本申请实施例提供的方法所涉及的应用领域进行说明。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。以下对各个方向分别进行说明。

计算机视觉技术(Computer Vision，CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OC R、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

语音技术(Speech Technology)的关键技术有自动语音识别技术(Automa ticSpeech Recognition，ASR)和语音合成技术(Text To Speech，TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

自然语言处理(Nature Language Processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的自然语言处理等技术，具体通过如下实施例进行说明。

参见图3，图3是本发明实施例提供的实体融合方法的实现流程示意图，结合图3示出的步骤进行说明。

步骤S301，确定待提取的目标实体。

在一些实施例中，从至少一个知识图谱中，获取样本数据。然后，从样本数据的实体中，确定待提取的目标实体；在一个具体例子中，目标实体可以是搜索页面中的一个人物或该人物相关联的事件，比如该人物毕业院校、专业或者从事过的行业等。

步骤S302，对样本数据中的实体进行特征提取，得到所述目标实体的目标向量和其他实体的其他向量。

在一些实施例中，对样本数据中的实体进行特征提取，可以是采用人工智能的特征提取模型以实现，比如，将样本数据的实体输入该人工智能的特征提取模型中，该人工智能的特征提取模型获取该实体的各个特征点，从而得到目标实体的目标向量和其他实体的其他向量。采用神经网络对样本数据中的实体进行特征提取，得到表征目标实体的目标向量，和表征其他实体的其他向量。样本数据对应于同一个知识图谱时，所述其他实体中不包含与所述目标实体相同的实体；所述样本数据对应于两个以上的知识图谱时，所述其他实体中包含与所述目标实体相同的实体。在一个具体例子中，如果样本数据来自于同一个知识图谱，比如，样本数据来自于搜索页面A，搜索页面A为关于明星A的搜索，将目标实体设为明星A，其他实体为该搜索页面中的除目标实体之外的实体，比如，明星A主演的电影、歌曲、教育经历或与该明星同名的其他人等。如果样本数据来自于不同的知识图谱，将其中一个知识图谱确定为目标知识图谱；在目标知识图谱中确定目标实体，将目标知识图谱中除目标实体之外的实体和其他知识图谱的样本数据中的实体为其他实体。

步骤S303，从所述其他向量中，查找与所述目标向量相匹配的候选向量。

在一些实施例中，如果样本数据来自于同一个知识图谱，从其他向量中查找与目标向量关联度较大的候选向量，即从其他实体中查找与目标实体有关联的实体，比如，样本数据均来自于搜索页面S，目标实体为明星A，那么候选实体即为与明星A有关联的主演电影或唱过的歌曲等；如果样本数据来自于不同的知识图谱，从其他向量中查找与目标向量相同的候选向量，即从其他实体中查找与目标实体相同的实体；比如，样本数据来自于搜索页面S和搜索页面 D，目标实体为搜索页面S中的明星A，那么候选实体即为搜索页面D中与明星A相同的实体。

步骤S304，将所述候选向量对应的候选实体，与所述目标实体进行融合。

在一些实施例中，如果候选向量为与目标向量关联度较大的向量，那么将候选实体和目标实体进行连接，以使候选实体和目标实体联系起来；如果候选向量为与目标向量相同的向量，那么将候选实体和目标实体进行对齐，以表明二者为相同的实体。

在本发明实施例中，通过对样本数据进行特征提取，得到目标实体和其他实体的向量，然后，从其他向量中查找与目标向量匹配的候选向量，最后将二者融合，从而提高了将不同来源的相似实体融合的准确率。

在一些实施例中，在所述样本数据对应于两个以上的知识图谱的情况下，其他实体中包含与所述目标实体相同的实体，为实现将来源于不同的知识图谱的相同实体，进行对齐，所述步骤S301和步骤S302可以通过以下步骤实现，图4A是本发明实施例提供的实体融合方法的另一实现流程示意图，基于图3 的步骤进行以下说明：

步骤S401，从目标知识图谱中的样本数据的实体中，确定待提取的目标实体。

在一些实施例中，所述目标知识图谱为所述两个以上的知识图谱中的任一知识图谱。首先，在两个以上的知识图谱中确定一个目标知识图谱，然后，从该目标知识图谱中确定目标实体；比如，搜索网站A和B两个知识图谱，将搜索网站A作为目标知识图谱，将搜索网站A中的明星A作为目标实体；然后，从别的知识图谱中找出也是明星A的候选实体。

步骤S402，对目标知识图谱中的样本数据中的实体进行特征提取，得到所述目标向量和所述目标知识图谱中除所述目标实体之外的实体的第一其他子向量。

在一个具体例子中，对搜索网站A中的目标实体明星A的数据进行特征提取，得到目标向量，并对搜索网站A中的其他实体进行特征提取，得到第一其他子向量。

步骤S403，对其他知识图谱中的实体进行特征提取，得到第二其他子向量。

在一个具体例子中，对搜索网站B中的实体进行特征提取，得到第二其他子向量。

步骤S404，将所述第一其他子向量和所述第二其他子向量，确定为所述其他向量。

上述步骤S402至步骤S404给出了一种实现“对样本数据中的实体进行特征提取，得到所述目标实体的目标向量和其他实体的其他向量”的方式，在该方式中，将目标知识图谱中除所述目标实体之外的实体和其他知识图谱中的实体作为其他向量，该其他向量中包含与目标向量相同的向量，从而能够从其他向量对应的其他实体中查找出与目标实体匹配的候选实体。

在一些实施例中，为了将不同来源的实体在同一个向量空间进行对齐，所述步骤S303和S304可以通过以下步骤实现，图4B是本发明实施例提供的实体融合方法的另一实现流程示意图，基于图3的步骤进行以下说明：

步骤S411，确定每一所述第二其他子向量与所述目标向量相同的概率信息。

在一些实施例中，首先，从第二其他子向量中，选择出现频次大于频次阈值，且不属于候选向量的负样本向量；在一个具体例子中，从样本数据的其他实体中，选择负样本实体，即选择出现频次较高，且与目标实体无关联关系的实体；然后，基于所述负样本向量，确定每一所述第二其他子向量与所述目标向量相同的概率信息。在一个具体例子中，确定负样本向量与第二其他子向量之间的余弦值，余弦值越大说明第二其他子向量的实体与负样本向量的实体越相似，那么该第二其他子向量的实体与目标实体越不相似，所以，负样本向量与第二其他子向量之间的余弦值越小，说明该第二其他子向量的实体与目标实体越相似，即该第二其他子向量的实体与目标实体相同的可能性越大。在本实施例中，确定每一第二其他子向量与目标向量相同的可能性，比如，每一第二其他子向量与目标向量相同的概率或置信度等，在一个具体例子中，通过确定第二其他子向量与目标向量之间的余弦值，以确定第二其他子向量与目标向量的相似度，余弦值越大，说明第二其他子向量与目标向量越相似。

步骤S412，将概率信息满足条件的第二其他子向量，确定为与所述目标向量相同的候选向量。

在一个具体例子中，如果概率信息为概率值，将概率值大于0.9的第二其他子向量，确定为与目标向量相同的候选向量。

上述步骤S411和步骤S412给出了一种实现“从所述其他向量中查找与所述目标向量相匹配的候选向量”的方式，在该方式中，从其他知识图谱的实体中，查找出与目标实体相同的实体，这样实现了将来源不同的实体进行对齐。

步骤S413，将所述与所述目标实体相同的候选向量对应的候选实体，和所述目标实体进行对齐，以实现候选实体与所述目标实体的融合。

在一个具体例子中，将搜索网站A的知识图谱作为目标知识图谱，将其中的明星A作为目标实体，然后，从其他搜索网站的知识图谱的实体(比如，搜索网站B的知识图谱的实体)中找出明星A，最后，将搜索网站A中的明星A 与搜索网站B中的明星A进行对齐，从而实现了将两个来源不同的相同实体进行融合，形成新的知识图谱。

在其他实施例中，在步骤S413之后，对于与目标实体相同的候选实体，进行标注，将目标实体和候选实体以标注的形式表明二者为相同实体。

在一些实施例中，为了在其他实体中找出目标实体相关联的实体，以将与目标实体相关联的实体联系起来，在所述步骤S412之后，所述方法还包括以下步骤：

第一步，针对同一个知识图谱中样本数据的目标向量和其他向量，确定每一其他向量与所述目标向量之间的关联度。

在一些实施例中，所述关联度可以理解为其他向量和目标向量之间关联系数，表示其他向量对应的实体与目标实体之间的关联程度。对于针对来自于同一个知识图谱的样本数据中的实体，从这些实体中查找与目标实体存在关联关系的实体，比如，对于搜索网站A的知识图谱中的目标实体明星A，在该搜索网站A的其他实体中搜索与明星A相关联的实体，比如，明星A主演的电影、参与的电视剧和演唱过的歌曲等。

第二步，将关联度大于等于关联度阈值的其他向量，确定为与所述目标向量相匹配的候选向量。

在一些实施例中，将关联度大于关联度阈值的其他向量，确定为满足条件的其他向量，比如，将关联系数大于系数阈值的其他向量对应的其他实体，作为候选实体。

上述第一步和第二步，实现了对于来自于同一个知识图谱的样本数据，从所述其他向量中，查找与所述目标向量相匹配的候选向量。

第三步，确定所述候选实体与所述目标实体之间的语义关系。

在一些实施例中，所述语义关系表明所述候选实体和所述目标实体之间的关联，还表示候选实体和目标实体之间的归属性，比如，目标实体为某一个球员，候选实体为球队，那么二者之间的语音关系为目标实体归属于候选实体。

第四步，基于所述语义关系，连接所述候选实体和所述目标实体。

在一些实施例中，基于该语义信息表明的候选实体和所述目标实体之间的关联，将候选实体和所述目标实体连接起来，形成新的知识图谱。

下面，将说明本发明实施例在一个实际的应用场景中的示例性应用，以对两个网页中相同的实体进行融合为例，进行说明。

图5A是本发明实施例实体融合方法的另一实现流程示意图，参见图5A所示的步骤，进行以下说明：

步骤S501，获取样本数据。

在一些实施例中，可以是从不同的知识图谱中获取样本数据，比如，从A 搜索网站的知识图谱和B搜索网站的知识图谱中获取样本数据。

获取样本数据之后，对样本数据进行以下处理：

第一步，将样本数据转换为边关系。

在一个具体例子中，首先，(url_a name_a url_b name_b)，其中url_a为当前的页面，url_b为在该页面出现的锚文本对应的链接，name_a为url_a的名称， name_b为url_b对应实体的名称，例如：A搜索网站的明星A实体生成的数据之间的边关系包括：

(https://A.com/item/％E5％88％98％E5％BE％B7％E5％8D％8E/114923明星Ahttps://A.com/item/％E6％97％A0％E9％97％B4％E9％81％93/9369674主演的电影1)；

(https://A.com/item/％E5％88％98％E5％BE％B7％E5％8D％8E/114923明星 Ahttps://A.com/item/％E6％8B％86％E5％BC％B9％E4％B8％93％E5％AE％B6/16 818545主演的电影2)；

(https://A.com/item/％E5％88％98％E5％BE％B7％E5％8D％8E/114923明星 Ahttps://A.com/item/％E7％96％AF％E7％8B％82％E7％9A％84％E7％9F％B3％E 5％A4％B4主演的电影3)等。

如图5B所示，在搜索网站A中输入目标实体明星A，显示的搜索页面如 511所示，明星A的基本信息包括：中文名512、英文名513、国籍514、民族 515、星座516、血型517、身高518、体重519、出生日期520、职业521、经济公司522、代表作品52、妻子524和女儿525等；这里，在搜索网站A的知识图谱中，将目标实体明星A的这些基本信息作为其他实体，与目标实体明星 A联系起来，即实现了把这些样本数据中的与目标实体相关联的实体转换为与目标实体的边关系。

B搜索网站中关于明星A实体生成的边关系数据包括：

(https://movie.B.com/celebrity/1054424/明星A https://movie.B.com/subject/ 27029233/主演的电影4)；

(https://movie.B.com/celebrity/1054424/明星A https://movie.B.com/subject/ 1307914/主演的电影1)；

(https://movie.B.com/celebrity/1054424/明星A https://movie.B.com/subject/ 1862151/主演的电影2)；

(https://movie.B.com/celebrity/1054424/明星A https://movie.B.com/subject/ 26748673/主演的电影3)等。

如图5C所示，在搜索网站B中输入目标实体明星A，显示的搜索页面如5 31所示，显示明星A个人照片532、中/英文名533、性别534、星座535、出生日期536、职业537、更多外文名538、家庭成员539等；这里，在搜索网站 B的知识图谱中，将目标实体明星A的这些基本信息作为其他实体，与目标实体明星A联系起来，即实现了把这些样本数据中的与目标实体相关联的实体转换为与目标实体的边关系。

第二步，获取搜索网站A和搜索网站B中相同的实体，将这两个相同的实体，作为一个匹配对(比如，目标实体和候选实体)。

例如，以搜索网站A中的明星A为目标实体，明星A https://A.com/item/％ E5％88％98％E5％BE％B7％E5％8D％8E/114923https://movie.B.com/celebrity/10 54424/；在其他搜索网站中查找与明星A相同的实体，可以通过以下两种方法获取：

方法一：相同名称的实体在搜索网站A和搜索网站B只出现一次，并且重要属性值(例如，出生年份)相同，则认为这两个实体为相同的实体。

方法二：对于和目标实体同名的实体，采用人工标注的方法确定，这两个实体是否为相同实体。

图6是本发明实施例实体融合方法的应用场景图，参见图6，进行以下说明：

在搜索网站A601的向量空间中，与明星A602有关联关系的邻居实体为，明星A主演的电影a 603和主演的电影b 604；

在搜索网站B611的向量空间中，与该明星A616有关联关系的邻居实体为，明星A主演的电影a 612、主演的电影c 613、主演的电影b 614和主演的电影d 615；

如果将搜索网站A601的知识图谱作为目标知识图谱，其中，明星A602 作为目标实体，在搜索网站B611中查找与明星A602相同的实体，即明星A61 6为与明星A602相同的候选实体，将明星A616与明星A602对齐，以实现对来自于不同向量空间的实体的对齐。同理，将搜索网站A601中明星A主演的电影a 603和搜索网站B611中明星A616主演的电影a 612进行对齐；将搜索网站A601中明星A主演的电影b 604和搜索网站B611中明星A616主演的电影b614进行对齐；这样就实现了将不同空间的相同实体联系起来。

步骤S502，将样本数据中的实体映射到同一连续的向量空间中，得到目标向量和其他向量。

步骤S503，从所述其他向量中，查找与所述目标向量相匹配的候选向量。

在一些实施例中，采用skip-gram模型针对目标词汇，预测目标词汇的上下文词汇，其中，词汇序列为W(w1，w2，w3，……，wn)，skip-gram模型针对预测其他词汇是否为上下文词汇的目标函数(即每一词汇被预测为目标词汇上下文词汇的概率信息)，如公式(1)所示：

其中，c为窗口值，w_t为目标词汇，w_t+j为预测的上下文词汇，P(w_t+j|w_t) 表示目标词汇和上下文词汇之间的条件概率，所述条件概率可以表示为公式(2)：

其中，V表示目标词汇，U表示预测的上下文的词汇，E表示总共有多少个词汇。

在本发明实施例中，在从其他实体中查找与目标实体匹配的候选实体的过程，基于上述确定目标词汇的上下文词汇的过程，将目标词汇替换为目标实体，上下文单词替换为其他向量，确定每一其他向量是否为候选向量的目标函数Le (即确定每一其他向量是否为候选向量概率信息的函数)，如公式(3)所示：

其中，

V表示目标实体的向量，U表示其他的向量，E表示总共有多少个实体向量。e_o表示任意一个其他实体，e_i表示目标实体，比如，e_i表示搜索网站A 的目标实体明星A；这样，基于公式(3)即可确定在同一个知识图谱中其他实体为与目标实体相关联的候选实体的概率信息，从而将概率信息满足条件的其他实体作为候选实体。

确定搜索网站A中明星A在其他搜索网络B中的相同实目标函数L_a，如公式(4)所示：

其中，Q为目标知识图谱中的所有实体的集合，e_i为目标知识图谱中的任一实体，w_o为其他知识图谱中的任一实体。

步骤S504，如果候选向量对应的候选实体与目标实体相同，将候选实体与目标实体融合，以融合候选实体和目标实体。

在一些实施例中，如果目标实体和候选实体来自于不同的知识图谱，那么融合候选实体和目标实体之后，可以得到新的知识图谱，所述新的知识图谱包含候选实体和目标实体已经对齐后的语义关系，即在新的知识图谱中，对于目标实体可以查看到该其他知识图谱中与该目标实体相同的实体。

步骤S505，如果候选向量对应的候选实体与目标实体相关联的候选实体，将该候选实体与目标实体连接起来，以体现目标实体和该候选实体之间的语义关系。

在样本数据来自于多个知识图谱的情况下，确定目标实体相同的实体，和与目标实体相关联的实体的目标函数可以表示为：L＝L_a+L_e+L_w，其中，L_a为在一个目标知识图谱中预测目标实体的相关联的实体的目标函数，L_e为其他知识图谱中预测某一实体的相关联的实体的目标函数，L_w为在目标知识图谱预测其他知识图谱中的实体中与目标实体相同的目标函数。

在本发明实施例中，采用负采样的方法确定条件概率P(e_o|e_i)和P(w_o|e_i)。在负采样中，一个实体被选作负样本的概率与该实体出现的频次有关，出现频率越高的实体越容易被选作负样本，而且与目标实体相关联的高频实体不被选为负样本，一个实体被选为负样本的概率P(w_i)，如公式(5)所示：

其中，f(w_i)表示第i个实体，

表示知识图谱中所有的实体。

这里，以采用负样本确定P(e_o|e_i)为例，进行说明，将

中的表示其他向量的U，替换为表示负样本中实体的向量，从而得到P(e_o|e_i)；同理，采用负样本确定P(w_o|e_i)。由于负样本数量并不多，所以能够降低计算P(e_o|e_i)和P(w_o|e_i)的复杂度，减小计算量。

下面继续说明本发明实施例提供的实体融合的服务器455的实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器440的实体融合的服务器455中的软件模块可以包括：

第一确定模块4551，用于确定待提取的目标实体；

第一提取模块4552，用于对样本数据中的实体进行特征提取，得到所述目标实体的目标向量和其他实体的其他向量；

第一查找模块4553，用于从所述其他向量中，查找与所述目标向量相匹配的候选向量；

第一融合模块4554，用于将所述候选向量对应的候选实体，与所述目标实体进行融合。

在一些实施例中，所述样本数据对应于同一个知识图谱时，所述其他实体中不包含与所述目标实体相同的实体；

所述样本数据对应于两个以上的知识图谱时，所述其他实体中包含与所述目标实体相同的实体。

在一些实施例中，第一确定模块4551，还用于：从目标知识图谱中的样本数据的实体中，确定待提取的目标实体；其中，所述目标知识图谱为所述两个以上的知识图谱中的任一知识图谱；

对应地，所述第一提取模块4552，还用于：对目标知识图谱中的样本数据中的实体进行特征提取，得到所述目标向量和所述目标知识图谱中除所述目标实体之外的实体的第一其他子向量；对其他知识图谱中的实体进行特征提取，得到第二其他子向量；将所述第一其他子向量和所述第二其他子向量，确定为所述其他向量。

在一些实施例中，所述第一查找模块4553，还用于：

确定每一所述第二其他子向量与所述目标向量相同的概率信息；

将概率信息满足条件的第二其他子向量，确定为与所述目标向量相同的候选向量。

在一些实施例中，第一融合模块4554，还用于：

将所述与所述目标实体相同的候选向量对应的候选实体，和所述目标实体进行对齐，以实现候选实体与所述目标实体的融合。

在一些实施例中，所述第一查找模块4553，还用于：

从第二其他子向量中，选择出现频次大于频次阈值，且不属于候选向量的负样本向量；

基于所述负样本向量，确定每一所述第二其他子向量与所述目标向量相同的概率信息。

在一些实施例中，所述第一查找模块4553，还用于：

针对同一个知识图谱中样本数据的目标向量和其他向量，确定每一其他向量与所述目标向量之间的关联度；

将关联度大于等于关联度阈值的其他向量，确定为与所述目标向量相匹配的候选向量。

本发明实施例提供一种存储有可执行指令的存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本发明实施例提供的方法。

在一些实施例中，存储介质可以是FRAM、ROM、PROM、EPROM、EE PROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种终端。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(H yper Text MarkupLanguage，HTML)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个车载计算终端上执行，或者在位于一个地点的多个计算终端上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算终端上执行。

综上所述，本发明实施例对于查找与知识图谱中的样本数据中的目标实体相匹配的候选实体的过程中，首先，确定待提取的目标实体；然后，对样本数据中的实体进行特征提取，得到所述目标实体的目标向量和其他实体的其他向量；从所述其他向量中，查找与所述目标向量相匹配的候选向量；最后，将所述候选向量对应的候选实体，与所述目标实体进行融合；如此，通过对样本数据进行特征提取，得到目标实体和其他实体的向量，然后，从其他向量中查找与目标向量匹配的候选向量，最后将目标实体和候选实体进行融合，提高了对于候选识别的准确度，从而提高了将不同来源的相似实体融合的准确率。

以上所述，仅为本发明的实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本发明的保护范围之内。

Claims

1.一种实体融合方法，其特征在于，所述方法包括：

从至少一个知识图谱中，获取样本数据；

当所述样本数据对应于两个以上的知识图谱时，从目标知识图谱中的样本数据的实体中，确定待提取的目标实体；其中，所述目标知识图谱为所述两个以上的知识图谱中的任一知识图谱；

对目标知识图谱中的样本数据中的实体进行特征提取，得到对应所述目标实体的目标向量；

对其他知识图谱中的实体进行特征提取，得到所述其他知识图谱中实体对应的子向量，所述其他知识图谱为，所述至少一个知识图谱中所述目标知识图谱之外的知识图谱；

从所述子向量中，选择对应负样本实体的负样本向量；

其中，所述负样本实体为，所述其他知识图谱中出现频次大于频次阈值，且与所述目标实体无关联关系的实体；

基于所述负样本向量，确定每一所述子向量与所述目标向量相同的概率信息，并将所述概率信息满足条件的子向量，确定为与所述目标向量相同的候选向量；

2.根据权利要求1所述的方法，其特征在于，当所述样本数据对应于同一个知识图谱时，所述样本数据中除所述目标实体之外的其他实体中不包含与所述目标实体相同的实体。

3.根据权利要求1所述的方法，其特征在于，将所述候选向量对应的候选实体，与所述目标实体进行融合，包括：

4.根据权利要求1所述的方法，其特征在于，在所述将所述候选向量对应的候选实体，与所述目标实体进行融合之前，所述方法还包括：

针对同一个知识图谱中样本数据的目标向量和其他向量，确定每一其他向量与所述目标向量之间的关联度；其中，所述其他向量包括：所述目标知识图谱中除所述目标实体之外的实体对应的向量；

5.一种实体融合装置，其特征在于，所述装置包括：

第一确定模块，用于从至少一个知识图谱中，获取样本数据；当所述样本数据对应于两个以上的知识图谱时，从目标知识图谱中的样本数据的实体中，确定待提取的目标实体；其中，所述目标知识图谱为所述两个以上的知识图谱中的任一知识图谱；

第一提取模块，用于对目标知识图谱中的样本数据中的实体进行特征提取，得到对应所述目标实体的目标向量；对其他知识图谱中的实体进行特征提取，得到所述其他知识图谱中实体对应的子向量，所述其他知识图谱为，所述至少一个知识图谱中所述目标知识图谱之外的知识图谱；

第一查找模块，用于从所述子向量中，选择对应负样本实体的负样本向量；其中，所述负样本实体为，所述其他知识图谱中出现频次大于频次阈值，且与所述目标实体无关联关系的实体；基于所述负样本向量，确定每一所述子向量与所述目标向量相同的概率信息，并将所述概率信息满足条件的子向量，确定为与所述目标向量相同的候选向量；

6.一种实体融合的设备，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至4任一项所述的方法。

7.一种存储介质，其特征在于，存储有可执行指令，用于引起处理器执行时，实现权利要求1至4任一项所述的方法。