CN114139547B

CN114139547B - 知识融合方法、装置、设备、系统及介质

Info

Publication number: CN114139547B
Application number: CN202111416144.1A
Authority: CN
Inventors: 王宇琪; 张佳旭; 郭建彬; 张文军; 郝保; 曹家; 罗引; 王磊
Original assignee: Beijing Zhongke Wenge Technology Co ltd
Current assignee: Beijing Zhongke Wenge Technology Co ltd
Priority date: 2021-11-25
Filing date: 2021-11-25
Publication date: 2023-07-04
Anticipated expiration: 2041-11-25
Also published as: CN114139547A

Abstract

本公开涉及一种知识融合方法、装置、设备、系统及介质。其中，知识融合法包括：基于第一实体数据中的第一实体名，获取第一实体数据对应的实体的至少一个实体别称，得到实体名称集；基于实体名称集，检测第一实体名和第二实体数据中的第二实体名是否匹配；在检测到第一实体名和第二实体名匹配时，将第一实体数据和第二实体数据进行融合，得到融合实体数据。根据本公开实施例，能够根据两条实体数据中的实体名是否匹配来判断它们是否需要融合，以减少计算量，提高融合效率，并且在两条实体数据中的实体名不匹配时，能够根据该两条实体数据的多维度相似度进行融合判别，以提高判别精度，进而实现多来源知识的融合，达到精准有效融合效果。

Description

知识融合方法、装置、设备、系统及介质

技术领域

本公开涉及知识融合领域，尤其涉及一种知识融合方法、装置、设备、系统及介质。

背景技术

目前，互联网上存在着大量的知识数据，在对知识数据进行梳理时，需要对来自不同数据源的知识数据进行融合，这一过程称为知识融合。

在将两个数据来源中的知识数据进行融合时，针对其中一数据来源中的某一知识数据，需与另一数据来源中的每个知识数据进行属性相似度计算，然后根据属性相似度判断该两条知识数据是否需要进行融合。但是，由于该知识数据需与另一数据来源中的每条知识数据进行属性相似度计算，导致计算量大，计算复杂度较高。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种知识融合方法、装置、设备、系统及介质。

第一方面，本公开提供了一种知识融合方法，该方法包括：

基于第一实体数据中的第一实体名，获取第一实体数据对应的实体的至少一个实体别称，得到实体名称集；

基于实体名称集，检测第一实体名和第二实体数据中的第二实体名是否匹配；其中，第一实体数据来自第一数据源，第二实体数据来自第二数据源；

在检测到第一实体名和第二实体名匹配时，将第一实体数据和第二实体数据进行融合，得到融合实体数据。

第二方面，本公开提供了一种知识融合装置，该装置包括：

第一获取模块，用于基于第一实体数据中的第一实体名，获取第一实体数据对应的实体的至少一个实体别称，得到实体名称集；

第一检测模块，用于基于实体名称集，检测第一实体名和第二实体数据中的第二实体名是否匹配；其中，第一实体数据来自第一数据源，第二实体数据来自第二数据源；

融合模块，用于在检测到第一实体名和第二实体名匹配时，将第一实体数据和第二实体数据进行融合，得到融合实体数据。

第三方面，本公开提供了一种知识融合设备，包括：

处理器；

存储器，用于存储可执行指令；

其中，处理器用于从存储器中读取可执行指令，并执行可执行指令以实现第一方面所述的知识融合方法。

第四方面，本公开实施例还提供了一种知识融合系统，该系统包括：知识融合设备、第一数据源设备和第二数据源设备；

第一数据源设备，用于提供第一实体数据；

第二数据源设备，用于提供第二实体数据；

知识融合设备，用于基于第一实体数据中的第一实体名，获取第一实体数据对应的实体的至少一个实体别称，得到实体名称集；基于实体名称集，检测第一实体名和第二实体数据中的第二实体名是否匹配；其中，第一实体数据来自第一数据源，第二实体数据来自第二数据源；在检测到第一实体名和第二实体名匹配时，将第一实体数据和第二实体数据进行融合，得到融合实体数据。

第五方面，本公开提供了一种计算机可读存储介质，该存储介质存储有计算机程序，当计算机程序被处理器执行时，使得处理器实现第一方面所述的知识融合方法。

本公开实施例提供的技术方案与现有技术相比具有如下优点：

本公开实施例的一种知识融合方法、装置、设备、系统及介质，能够基于第一实体数据中的第一实体名，获取第一实体数据对应的实体的至少一个实体别称，得到实体名称集；基于实体名称集，检测第一实体名和第二实体数据中的第二实体名是否匹配；其中，第一实体数据来自第一数据源，第二实体数据来自第二数据源；在检测到第一实体名和第二实体名匹配时，将第一实体数据和第二实体数据进行融合，得到融合实体数据。根据本公开实施例，能够根据两条实体数据中的实体名是否匹配来判断它们是否需要融合，判断方式简单，且无需计算它们的属性相似度，有利于减少计算量，提高融合效率。

附图说明

结合附图并参考以下具体实施方式，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中，相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的，原件和元素不一定按照比例绘制。

图1是本公开实施例提供的一种知识融合方法的流程示意图；

图2是本发明实施例提供的一种确定实体名相似度的逻辑示意图；

图3是本发明实施例提供的一种确定语义相似度的逻辑示意图；

图4是本发明实施例提供的一种确定属性相似度的逻辑示意图；

图5是本公开实施例提供的一种知识融合过程的流程示意图；

图6是本公开实施例提供的一种知识融合装置的结构示意图；

图7是本公开实施例提供的一种知识融合设备的硬件电路结构示意图；

图8是本公开实施例提供的一种知识融合系统的结构示意图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本公开，但本公开还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本公开的一部分实施例，而不是全部的实施例。

图1是本公开实施例提供的一种知识融合方法的流程示意图。

在本公开一些实施例中，图1所示的知识融合方法可以由知识融合设备执行。知识融合设备可以为电子设备或服务器。该电子设备可以包括但不限于诸如智能手机、笔记本电脑、个人数字助理(PDA)、平板电脑(PAD)、便携式多媒体播放器(PMP)、车载终端(例如车载导航终端)、可穿戴设备等的移动终端，以及诸如数字TV、台式计算机、智能家居设备等的固定终端。服务器可以是云服务器或者服务器集群等具有存储及计算功能的设备。

如图1所示，该知识融合方法可以包括如下步骤。

S110、基于第一实体数据中的第一实体名，获取第一实体数据对应的实体的至少一个实体别称，得到实体名称集。

在本公开实施例中，知识融合设备在对第一数据源和第二数据源中的实体数据进行融合时，可先获取第一数据源中的多个实体数据(即第一实体数据)，针对每个第一实体数据，抽取第一实体数据对应的实体的实体名(即第一实体名)和属性信息(即第一属性信息)。针对每个第一实体数据，获取第一实体数据对应的实体的至少一个实体别称，从而得到该第一实体数据对应的实体名称集。

具体地，第一实体数据为第一数据源中的任意一个实体数据。

具体地，第一实体数据可以属于任意领域，此处不作限定。例如，第一实体数据可以属于电子产品领域、医药领域、农作物领域、计算机领域等。但并不限于此。

具体地，第一实体数据可以为其对应实体的描述文本。第一实体数据中可以包括其描述的实体的第一实体名和第一属性信息，其中，第一属性信息包括属性项和各属性项对应的属性值。从第一实体数据中抽取出第一实体名和第一属性信息的具体实施方式，本领域技术人员可根据实际情况设置，此处不作限定。例如，可通过命名实体识别(NamedEntity Recognition，NER)技术从第一实体数据中抽取出第一实体名和第一属性信息。但并不限于此。

在一个示例中，第一实体数据如下：阿里某某集团控股有限公司是马某带领下的18位创始人于1999年在浙江省杭州市创立的公司。通过NER技术对该第一实体数据中进行抽取操作，可以得到第一实体名：“阿里某某集团控股有限公司”，还可以得到第一属性信息：属性项包括成立年份和位置，成立年份的属性值为“1999年”，位置的属性值为“浙江省杭州市”。

具体地，在第一实体数据中，其描述的实体具有第一实体名，但是，在其它描述文本中，该实体还可以有其它实体名(即实体别称)。

在一个示例中，阿里某某集团控股有限公司在上述第一实体数据中具有第一实体名“阿里某某集团控股有限公司”，但是，在其它描述文本中，阿里某某集团控股有限公司可能被称作“阿里某某”、“ALI某某”、“阿里”等，阿里某某”、“ALI某某”、“阿里”即为阿里某某集团控股有限公司的实体别称。

具体地，获取第一实体数据对应的实体的至少一个实体别称的具体实施方式有多种，下面将就典型示例进行说明，但并不构成对本公开的限定。

在一些实施例中，获取第一实体数据对应的实体的至少一个实体别称可以包括：获取用户输入的第一实体数据对应的实体的至少一个实体别称。

可以理解的是，第一实体数据所属领域的技术人员熟知第一实体数据对应的实体的实体别称，因此，由用户输入第一实体数据对应的实体的实体别称，可使收集到的实体别称比较齐全。

在另一些实施例中，获取第一实体数据对应的实体的至少一个实体别称可以包括：从第三数据源中获取第一实体数据对应的实体的至少一个实体别称。

具体地，第三数据源可以为开源的、公认比较权威的知识库。例如，第三数据源可以包括维基百科、百度百科、万维百科等，但并不限于此。如此，从第三实体数据中获取的实体别称比较齐全且正确。

具体地，某一第一实体数据对应的实体数据集包括：该第一实体数据中的第一实体名和该第一实体数据对应的实体的所有实体别称。

在一个示例中，第一实体数据中的第一实体名为“阿里某某集团控股有限公司”，通过S110得到的实体别称包括“阿里某某”、“ALI某某”、“阿里”，则该第一实体数据对应的实体数据集包括：“阿里某某集团控股有限公司”、“阿里某某”、“ALI某某”以及“阿里”。

S120、基于实体名称集，检测第一实体名和第二实体数据中的第二实体名是否匹配。

在本公开实施例中，知识融合设备在得到某一第一实体数据对应的实体数据集后，针对第二数据源中的任一第二实体数据，可基于该第一实体数据对应的实体名称集，检测该第一实体数据中的第一实体名和该第二实体数据中的第二实体名是否匹配，以便判断该第一实体数据和该第二实体数据是否需要进行融合。

其中，第一实体数据来自第一数据源，第二实体数据来自第二数据源。

可选地，第一数据源中的第一实体数据的数量大于第二数据源中的第二实体数据的数量。即第一数据源为较大的数据源，如此，当不同第二数据源与第一数据源进行知识融合时，第一数据源中存在与第二实体数据描述相同实体的第一实体数据的概率较高，有利于提高第一实体名和第二实体名匹配的概率，进而降低由于不匹配后续需要计算实体相似度的概率，从而减小在知识融合过程中实体相似度的计算量。

具体地，第一实体数据和第二实体数据属于同一领域。

具体地，第二实体数据为其对应实体的描述文本。第二实体数据中可以包括其描述的实体的实体名(即第二实体名)和属性信息(即第二属性信息)，其中，第二属性信息包括属性项和各属性项对应的属性值。从第二实体数据中抽取出第二实体名和第二属性信息的具体实施方式，本领域技术人员可根据实际情况设置，此处不作限定。例如，可通过NER技术从第二实体数据中抽取出第二实体名和第二属性信息。但并不限于此。

具体地，S120具体可以包括：检测第二实体名是否属于实体名称集；在检测到第二实体名属于实体名称集时，确定第一实体名和第二实体名匹配；在检测到第二实体名不属于实体名称集时，确定第一实体名和第二实体名不匹配。

具体地，当第二实体名属于实体名称集时，表明第一实体数据和第二实体数据描述的是同一实体，两者后续可以直接进行融合；当第二实体名不属于实体名称集时，表明第一实体数据和第二实体数据描述的有可能是同一实体，也可能不是同一实体，后续需根据该两者的实体相似度判断该两者是否需要融合。

在一个示例中，第一实体数据中的第一实体名为“阿里某某集团控股有限公司”，该第一实体数据对应的实体名称集中包括“阿里某某集团控股有限公司”、“阿里某某”、“ALI某某”以及“阿里”。若第二实体数据中的第二实体名为“阿里某某”，则第二实体名属于该第一实体数据对应的实体名称集，第一实体名和第二实体名匹配，该第一实体数据和该第二实体数据后续可以直接进行融合。若第二实体数据中的第二实体名为“阿里BB”，则第二实体名不属于该第一实体数据对应的实体名称集，第一实体名和第二实体名不匹配。

S130、在检测到第一实体名和第二实体名匹配时，将第一实体数据和第二实体数据进行融合，得到融合实体数据。

在本公开实施例中，知识融合设备在检测到第一实体名和第二实体名匹配时，表明第一实体名所属的第一实体数据和第二实体名所属的第二实体数据描述的是同一实体，该两条实体数据可以进行融合，得到描述该实体的融合实体数据。

具体地，S130的具体实施方式有多种，下面将就典型示例进行说明，但并不构成对本公开的限定。

可选地，在S130之后，可将融合实体数据放入目标知识库中。

在一些实施例中，将第一实体数据和第二实体数据进行融合，得到融合实体数据可以包括：根据第一实体数据中的第一属性信息和第二实体数据中的第二属性信息，确定相同的属性项；将相同的属性项对应的属性值进行合并，并且保留第一属性信息中独有的属性项对应的属性值和/或第二属性信息中独有的属性项对应的属性值，得到融合实体数据。

本公开实施例的一种知识融合方法，能够基于第一实体数据中的第一实体名，获取第一实体数据对应的实体的至少一个实体别称，得到实体名称集；基于实体名称集，检测第一实体名和第二实体数据中的第二实体名是否匹配；其中，第一实体数据来自第一数据源，第二实体数据来自第二数据源；在检测到第一实体名和第二实体名匹配时，将第一实体数据和第二实体数据进行融合，得到融合实体数据。根据本公开实施例，能够根据两条实体数据中的实体名是否匹配来判断它们是否需要融合，判断方式简单，且无需计算它们的属性相似度，有利于减少计算量，提高融合效率。

在本公开另一种实施方式中，获取第一实体数据对应的实体的至少一个实体别称可以包括：基于第一实体名，在第三数据源中进行搜索，得到第三实体数据；抽取第三实体数据中的第三实体名，得到至少一个实体别称。

可选地，基于第一实体名，在第三数据源中进行搜索，得到第三实体数据包括：基于第一实体名，在第三数据源中进行搜索，得到至少一个候选第三实体数据，将与第一实体数据属于同一领域的第三实体数据作为第三实体数据。

如此，第三实体数据和第一实体数据属于同一领域，可使第一实体数据和第三实体数据描述的是同一实体的概率较高。例如，第一实体数据属于电子产品领域，第一实体数据中的第一实体名为“苹果”，基于“苹果”，在第三数据源进行搜索，可以得到数据电子产品领域的候选第三实体数据，也可以得到水果领域的候选第三实体数据，显然，属于电子产品领域的候选第三实体数据与第一实体数据指向同一实体的概率更高。

具体地，抽取第三实体数据中的第三实体名的具体实施方式，本领域技术人员可根据实际情况设置，此处不作限定。示例性地，可通过NER技术，从第三实体数据中抽取第三实体名。

在一个示例中，基于“阿里某某集团控股有限公司”，在维基百科中进行搜索，得到的第三实体数据如下：阿里某某集团控股有限公司，又名阿里某某、ALI某某、阿里，经营多项业务，另外也从关联公司的业务和服务中取得经营商业生态系统上的支援。。通过NER技术可以从该第三实体数据中抽取出“阿里某某集团控股有限公司”“阿里某某”、“ALI某某”以及“阿里”。

可以理解的是，基于第一实体名在第三数据源中进行搜索，可快速找到可能与第一实体数据描述相同实体的候选第三实体数据，在候选第三实体数据中筛选出与第一实体数据属于相同领域的第三实体数据，可精确定位与第一实体数据描述相同实体的第三实体数据，为后续顺利获取第一实体数据对应的实体的实体别称奠基。

在本公开另一种实施方式中，还包括：在检测到第一实体名和第二实体名不匹配时，确定第一实体数据对应的实体和第二实体数据对应实体的实体相似度；根据实体相似度，确定是否融合第一实体数据和第二实体数据；在确定融合第一实体数据和第二实体数据时，将第一实体数据和第二实体数据进行融合，得到融合实体数据。

在本公开实施例中，知识融合设备在检测第一实体数据中的第一实体名和第二实体数据中的第二实体名是否匹配后，若检测到第一实体名和第二实体名不匹配，表明第一实体数据和第二实体数据描述的有可能是同一实体，也可能不是同一实体，需根据该两者的实体相似度判断该两者是否需要融合。

具体地，实体相似度用于表征第一实体数据描述的实体和第二实体数据描述的实体的相似程度。

具体地，实体相似度的具体计算方式有多种，下面将就典型示例进行说明，但并不构成对本公开的限定。

可选地，确定第一实体数据对应的实体和第二实体数据对应实体的实体相似度包括：根据第一实体名和第二实体名，确定实体名相似度；根据第一实体数据和第二实体数据，确定语义相似度；根据第一实体数据中的第一属性信息和第二实体数据中的第二属性信息，确定属性相似度；根据实体名相似度、语义相似度、以及属性相似度，确定实体相似度。

在一些实施例中，计算实体名相似度、语义相似度、以及属性相似度的平均值，将该平均值确定为实体相似度。

在另一些实施例中，根据实体名相似度、语义相似度、以及属性相似度，确定实体相似度包括：将实体名相似度、语义相似度、以及属性相似度进行权重加和，得到实体相似度。

具体地，实体名相似度、语义相似度、以及属性相似度，它们各自对应的权重值，本领域技术人员可根据它们的重要程度设置灵活设置，如此，可提高实体相似度的计算精度。

可以理解的是，相比于相关技术中仅根据两个实体数据的属性相似度来判断该两个实体数据是否需要融合的方式，本公开实施例中，不仅考虑了实体名相似、属性相似度，还引入了语义相似度，实现根据多维度信息进行融合判断，有利于提高融合判别精度。

具体地，根据实体相似度，确定是否融合第一实体数据和第二实体数据的具体实施方式有多种，下面就典型示例进行说明，但并不构成对本公开的限定。

在一些实施例中，根据实体相似度，确定是否融合第一实体数据和第二实体数据包括：在检测到实体相似度大于预设阈值时，确定将第一实体数据和第二实体数据进行融合；在检测到实体相似度小于等于预设阈值时，确定将第一实体数据和第二实体数据不进行融合。

具体地，预设阈值的具体值，本领域技术人员可根据实际情况设置，此处不作限定。

具体地，在检测到实体相似度大于预设阈值时，表明第一实体数据描述的实体和第二实体数据描述的实体相同，第一实体数据和第二实体数据可进行融合，得到针对该实体的融合实体数据。在检测到实体相似度小于等于预设阈值时，表明第一实体数据描述的实体和第二实体数据描述的实体不同，第一实体数据和第二实体数据不可以进行融合。

具体地，本领域技术人员应当理解的是，当通过上述方式检测到某一第一实体数据与第二数据源中的任一第二实体数据均不需要进行融合时，可将该第一实体数据放入目标知识库中。

可以理解的是，当基于实体名称集判断第一实体数据和第二实体数据可以融合时，直接将两者融合；当基于实体名称集无法判断第一实体数据和第二实体数据是否需要融合时，再根据第一实体数据和第二实体数据的实体相似度判断该两者是否需要融合，可减少第一数据源和第二数据源融合过程中实体相似度的计算量，从而提高融合效率。

在本公开再一种实施方式中，根据第一实体名和第二实体名，确定实体名相似度可以包括：获取第一实体名的第一词向量；获取第二实体名的第二词向量；根据第一词向量和第二词向量，确定实体名相似度。

具体地，第一词向量和第二词向量的获取方式有多种，下面就典型示例进行说明，但并不构成对本公开的限定。

在一些实施例中，获取第一实体名的第一词向量，获取第二实体名的第二词向量可以包括：基于训练好的词向量模型，获取第一词向量和第二词向量。

具体地，词向量模型可以包括Word2vec模型。但并不限于此。

具体地，词向量模型的训练过程如下：首先，收集实体名样本。每个实体名样本包括实体名和实体名对应的词向量，其中，实体名样本与第一数据源以及第二数据源中的实体数据属于相同领域。然后，基于实体名样本对词向量模型进行训练，直至达到训练标准。

具体地，根据第一词向量和第二词向量，确定实体名相似度的具体实施方式有多种，下面就典型示例进行说明，但并不构成对本公开的限定。

在一些实施例中，基于余弦相似度算法，计算第一词向量和第二词向量之间的相似度，得到实体名相似度。具体计算公式如下：

其中，Sim_word2vec(X，Y)为实体名相似度，X为第一实体数据对应的实体，O_xi为第一词向量中的第i个元素，Y为第二实体数据对应的实体，O_yi为第二词向量中的第i个元素，n为第一词向量和第二词向量的维度。

示例性，图2是本发明实施例提供的一种确定实体名相似度的逻辑示意图。如图2所示，将第一实体名输入Word2vec模型，得到第一词向量，将第二实体名输入Word2vec模型，得到第二词向量，根据第一词向量和第二词向量，确定实体名相似度。

在本公开再一种实施方式中，根据第一实体数据和第二实体数据，确定语义相似度可以包括：获取第一实体数据的第一语义向量；获取第二实体数据的第二语义向量；根据第一语义向量和第二语义向量，确定语义相似度。

具体地，第一语义向量和第二语义向量的获取方式有多种，下面就典型示例进行说明，但并不构成对本公开的限定。

在一些实施例中，获取第一实体数据的第一语义向量，获取第二实体数据的第二语义向量可以包括：基于训练好的语义向量模型，获取第一语义向量和第二语义向量。

具体地，语义向量模型可以包括BERT模型。但并不限于此。

具体地，语义向量模型的训练过程如下：首先，收集实体数据样本。其中，实体数据样本与第一数据源以及第二数据源中的实体数据属于相同领域。然后，基于实体数据样本对语义向量模型进行训练，直至达到训练标准。

具体地，根据第一语义向量和第二语义向量，确定语义相似度的具体实施方式有多种，下面就典型示例进行说明，但并不构成对本公开的限定。

在一些实施例中，基于余弦相似度算法，计算第一语义向量和第二语义向量之间的相似度，得到实体名相似度。具体计算公式如下：

其中，Sim_bert(X，Y)为语义相似度，X为第一实体数据对应的实体，P_xj为第一语义向量中的第j个元素，Y为第二实体数据对应的实体，P_yj为第二语义向量中的第j个元素，m为第一语义向量和第二语义向量的维度。

示例性，图3是本发明实施例提供的一种确定语义相似度的逻辑示意图。如图3所示，将第一实体数据输入BERT模型，得到第一语义向量，将第二实体数据输入BERT模型，得到第二语义向量，根据第一语义向量和第二语义向量，确定语义相似度。

在本公开再一种实施方式中，根据第一实体数据中的第一属性信息和第二实体数据中的第二属性信息，确定属性相似度可以包括：根据第一属性信息和第二属性信息，确定相同的属性项；基于相同的属性项对应的属性值，确定属性相似度。

示例性，图4是本发明实施例提供的一种确定属性相似度的逻辑示意图。如图4所示，根据第一实体数据中的第一属性信息和第二实体数据中的第二属性信息，统计是否存在相同的属性项，若是，基于相同的属性项对应的属性值，确定属性相似度。

具体地，基于相同的属性项对应的属性值，确定属性相似度的具体实施方式有多种，下面将就典型示例进行说明，但并不构成对本公开的限定。

在一些实施例中，继续参见图4，针对每个相同的属性项，将该属性项在第一实体数据中的属性值与该属性项在第二实体数据中的属性值进行相似度对比，得到子相似度值；将各相同的属性项对应的子相似度值进行权重加和，得到属性相似度；或者，将各相同的属性项对应的子相似度值求平均值，得到属性相似度。

具体地，子相似度值的具体计算方式，本领域技术人员可根据实际情况设置，此处不作限定。示例性地，通过Jaccard相似度计算技术，计算子相似度值。但并不限于此。

例如，将各属性项对应的子相似度值求平均值时，属性相似度的计算公式为：

其中，Sim_jaccrad(X，Y)为属性相似度，X为第一实体数据对应的实体，Q_xl为第l个相同的属性项在第一实体数据中的属性值，Y为第一实体数据对应的实体，Q_yl为第l个相同的属性项在第一实体数据中的属性值，k为相同的属性项的数量。

在本公开再一种实施方式中，基于第一实体数据中的第一实体名，获取第一实体数据对应的实体的至少一个实体别称，得到实体名称集之前，还包括：获取第一数据来源中的多个第一实体数据；针对每个第一实体数据，抽取第一实体数据对应的实体的第一实体名和第一属性信息；确定多个第一实体数据对应的实体之间的实体关系；基于各第一实体数据对应的实体、各第一实体数据对应的实体的第一实体名和第一属性信息、以及多个第一实体数据对应的实体之间的实体关系得到知识图谱。

具体地，知识图谱包括实体类型、属性类型和关系类型。根据各第一实体数据对应的实体划分实体类型，根据各第一实体数据对应的实体的第一实体名和第一属性信息确定属性类型，根据多个第一实体数据对应的实体之间的实体关系确定关系类型。

在一个示例中，第一实体数据属于电子产品领域，基于各第一实体数据对应的实体、各实体的第一实体名和第一属性信息、以及实体关系可得到基于第一数据源的商业知识图谱。

具体地，在对第二数据源中的第二实体数据抽取第二实体名和第二属性信息时，有多种实施方式，下面就典型示例进行说明，但并不构成对本公开实施例的限定。

在一些实施例中，可根据基于第一数据源构建的知识图谱，抽取第二实体数据对应的实体的第二实体名和第二属性信息。可选地，在抽取第二实体数据对应的实体的第二实体名和第二属性信息之后，可以基于各第二实体数据对应的实体、以及各第二实体数据对应的实体的第二实体名和第二属性信息更新该知识图谱。

在另一些实施例中，可独立对第二数据源中的第二实体数据抽取第二实体名和第二属性信息。

此时，基于第一实体数据中的第一实体名，获取第一实体数据对应的实体的至少一个实体别称，得到实体名称集之前，还包括：获取第二数据来源中的多个第二实体数据；针对每个第二实体数据，抽取第二实体数据对应的实体的第二实体名和第二属性信息；确定多个第二实体数据对应的实体之间的实体关系。可选地，在抽取第二实体数据对应的实体的第二实体名和第二属性信息之后，可以基于各第二实体数据对应的实体、各第二实体数据对应的实体的第二实体名和第二属性信息、以及多个第二实体数据对应的实体之间的实体关系更新该知识图谱。如此，可丰富知识图谱。

在一个示例中，基于第一数据源和第二数据源构建的知识图谱包括实体类型，属性类型和关系类型，如表1和表2所示，实体类型包括人物、组织结构、地点、产品4种，属性类型包括25种，详见表1，实体关系包括18种，详见表2。

表1

表2

如此，为商业知识图谱的构建奠定了基础，整理了人物、组织结构、地点、产品等的概念和关系，这些信息对基于知识图谱的敏感信息挖掘和语义表示都起着重要作用。

下面，将基于一个具体示例，对本公开实施例提供的恶意文件的检测方法进行详细说明。

图5是本公开实施例提供的一种知识融合过程的流程示意图。参见图5，该知识融合过程具体包括如下步骤：

S5010、抽取第一实体数据对应的实体的第一实体名和第一属性信息。

S5020、抽取第二实体数据对应的实体的第二实体名和第二属性信息。

S5030、基于第一实体数据中的第一实体名，获取第一实体数据对应的实体的至少一个实体别称，得到实体名称集。

S5040、基于实体名称集，检测第一实体名和第二实体数据中的第二实体名是否匹配。若是，执行S5050；若否，执行S5060。

S5050、将第一实体数据和第二实体数据进行融合，得到融合实体数据。

S5060、根据第一实体名和第二实体名，确定实体名相似度。

S5070、根据第一实体数据和第二实体数据，确定语义相似度。

S5080、根据第一实体数据中的第一属性信息和第二实体数据中的第二属性信息，确定属性相似度。

S5090、将实体名相似度、语义相似度、以及属性相似度进行权重加和，得到实体相似度。

S5100、检测实体相似度是否大于预设阈值。若是，执行S5050；若否，执行S5110。

S5110、不将第一实体数据和第二实体数据进行融合。

本公开实施例的一种知识融合方法，能够在基于实体名称集判断第一实体数据和第二实体数据可以融合时，直接将两者融合；在基于实体名称集无法判断第一实体数据和第二实体数据是否需要融合时，再根据第一实体数据和第二实体数据的实体相似度判断该两者是否需要融合，可减少第一数据源和第二数据源融合过程中实体相似度的计算量，从而提高融合效率。并且，在计算实体相似度时，不仅考虑了实体名相似、属性相似度，还引入了语义相似度，实现根据多维度信息进行融合判断，有利于提高融合判别精度。

本公开实施例还提供了一种知识融合装置，下面结合图4进行说明。在本公开实施例中，该知识融合装置可以被理解为上述知识融合设备或者上述知识融合设备中的部分功能模块。

图6是本公开实施例提供的一种知识融合装置的结构示意图。如图6所示，知识融合装置600可以包括：

第一获取模块610，用于基于第一实体数据中的第一实体名，获取第一实体数据对应的实体的至少一个实体别称，得到实体名称集；

第一检测模块620，用于基于实体名称集，检测第一实体名和第二实体数据中的第二实体名是否匹配；其中，第一实体数据来自第一数据源，第二实体数据来自第二数据源；

第一融合模块630，用于在检测到第一实体名和第二实体名匹配时，将第一实体数据和第二实体数据进行融合，得到融合实体数据。

本公开实施例的一种知识融合装置，能够基于第一实体数据中的第一实体名，获取第一实体数据对应的实体的至少一个实体别称，得到实体名称集；基于实体名称集，检测第一实体名和第二实体数据中的第二实体名是否匹配；其中，第一实体数据来自第一数据源，第二实体数据来自第二数据源；在检测到第一实体名和第二实体名匹配时，将第一实体数据和第二实体数据进行融合，得到融合实体数据。根据本公开实施例，能够根据两条实体数据中的实体名是否匹配来判断它们是否需要融合，判断方式简单，且无需计算它们的属性相似度，有利于减少计算量，提高融合效率。

在本公开另一种实施方式中，第一获取模块610可以包括：

搜索单元，用于基于第一实体名，在第三数据源中进行搜索，得到第三实体数据；

抽取单元，用于抽取第三实体数据中的第三实体名，得到至少一个实体别称。

在本公开又一种实施方式中，第一检测模块620可以包括：

第一检测单元，用于检测第二实体名是否属于实体名称集；

第一确定子模块，用于在检测到第二实体名属于实体名称集时，确定第一实体名和第二实体名匹配；

第三确定子模块，用于在检测到第二实体名不属于实体名称集时，确定第一实体名和第二实体名不匹配。

在本公开再一种实施方式中，该装置还包括：

第一确定模块，用于在检测到第一实体名和第二实体名不匹配时，确定第一实体数据对应的实体和第二实体数据对应实体的实体相似度；

第二确定模块，用于根据实体相似度，确定是否融合第一实体数据和第二实体数据；

第二融合模块，用于在确定融合第一实体数据和第二实体数据时，将第一实体数据和第二实体数据进行融合，得到融合实体数据。

在本公开再一种实施方式中，第一确定模块可以包括：

第三确定子模块，根据第一实体名和第二实体名，确定实体名相似度；

第四确定子模块，根据第一实体数据和第二实体数据，确定语义相似度；

第五确定子模块，根据第一实体数据中的第一属性信息和第二实体数据中的第二属性信息，确定属性相似度；

第六确定子模块，根据实体名相似度、语义相似度、以及属性相似度，确定实体相似度。

在本公开再一种实施方式中，第三确定子模块可以包括：

第一获取单元，用于获取第一实体名的第一词向量；

第二获取单元，用于获取第二实体名的第二词向量；

第一确定单元，用于根据第一词向量和第二词向量，确定实体名相似度。

在本公开再一种实施方式中，第四确定子模块可以包括：

第三获取单元，用于获取第一实体数据的第一语义向量；

第四获取单元，用于获取第二实体数据的第二语义向量；

第二确定单元，用于根据第一语义向量和第二语义向量，确定语义相似度。

在本公开再一种实施方式中，第五确定子模块可以包括：

第三确定单元，用于根据第一属性信息和第二属性信息，确定相同的属性项；

第四确定单元，基于相同的属性项对应的属性值，确定属性相似度。

在本公开再一种实施方式中，第六确定子模块，具体用于将实体名相似度、语义相似度、以及属性相似度进行权重加和，得到实体相似度。

需要说明的是，图6所示的知识融合装置600可以执行图1至图5所示的方法实施例中的各个步骤，并且实现图1至图5所示的方法实施例中的各个过程和效果，在此不做赘述。

图7是本公开实施例提供的一种知识融合设备的硬件电路结构示意图。

如图7所示，该知识融合设备可以包括控制器701以及存储有计算机程序指令的存储器702。

具体地，上述控制器701可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

存储器702可以包括用于信息或指令的大容量存储器。举例来说而非限制，存储器702可以包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus，USB)驱动器或者两个及其以上这些的组合。在合适的情况下，存储器702可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器702可在综合网关设备的内部或外部。在特定实施例中，存储器702是非易失性固态存储器。在特定实施例中，存储器702包括只读存储器(Read-Only Memory，ROM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(Programmable ROM，PROM)、可擦除PROM(Electrical Programmable ROM，EPROM)、电可擦除PROM(Electrically ErasableProgrammable ROM，EEPROM)、电可改写ROM(Electrically Alterable ROM，EAROM)或闪存，或者两个或及其以上这些的组合。

控制器701通过读取并执行存储器702中存储的计算机程序指令，以执行本公开实施例所提供的知识融合方法的步骤。

在一个示例中，该知识融合设备还可包括收发器703和总线704。其中，如图7所示，控制器701、存储器702和收发器703通过总线704连接并完成相互间的通信。

总线704包括硬件、软件或两者。举例来说而非限制，总线可包括加速图形端口(Accelerated Graphics Port，AGP)或其他图形总线、增强工业标准架构(ExtendedIndustry Standard Architecture，EISA)总线、前端总线(Front Side BUS，FSB)、超传输(Hyper Transport，HT)互连、工业标准架构(Industrial Standard Architecture，ISA)总线、无限带宽互连、低引脚数(Low Pin Count，LPC)总线、存储器总线、微信道架构(MicroChannel Architecture，MCA)总线、外围控件互连(Peripheral Component Interconnect，PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial Advanced TechnologyAttachment，SATA)总线、视频电子标准协会局部(Video Electronics StandardsAssociation Local Bus，VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线704可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

以下是本公开实施例提供的知识融合系统的实施例，该知识融合系统与上述各实施例的知识融合方法属于同一个发明构思，在视频切分系统的实施例中未详尽描述的细节内容，可以参考上述知识融合方法的实施例。

图8是本公开实施例提供的一种知识融合系统的结构示意图。

如图8所示，该系统包括：知识融合设备810、第一数据源设备820和第二数据源设备830；

第一数据源设备820，用于提供第一实体数据；

第二数据源设备830，用于提供第二实体数据；

知识融合设备810，用于基于第一实体数据中的第一实体名，获取第一实体数据对应的实体的至少一个实体别称，得到实体名称集；基于实体名称集，检测第一实体名和第二实体数据中的第二实体名是否匹配；其中，第一实体数据来自第一数据源，第二实体数据来自第二数据源；在检测到第一实体名和第二实体名匹配时，将第一实体数据和第二实体数据进行融合，得到融合实体数据。

以下是本公开实施例提供的计算机可读存储介质的实施例，该计算机可读存储介质与上述各实施例的知识融合方法属于同一个发明构思，在计算机可读存储介质的实施例中未详尽描述的细节内容，可以参考上述知识融合方法的实施例。

本实施例提供一种包含计算机可执行指令的存储介质，计算机可执行指令在由计算机处理器执行时用于执行一种知识融合方法，该方法包括：

当然，本公开实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本公开任意实施例所提供的知识融合方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本公开可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机云平台(可以是个人计算机，服务器，或者网络云平台等)执行本公开各个实施例所提供的知识融合方法。

注意，上述仅为本公开的较佳实施例及所运用技术原理。本领域技术人员会理解，本公开不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本公开的保护范围。因此，虽然通过以上实施例对本公开进行了较为详细的说明，但是本公开不仅仅限于以上实施例，在不脱离本公开构思的情况下，还可以包括更多其他等效实施例，而本公开的范围由所附的权利要求范围决定。

Claims

1.一种知识融合方法，其特征在于，包括：

基于第一实体数据中的第一实体名，获取所述第一实体数据对应的实体的至少一个实体别称，得到实体名称集；

基于所述实体名称集，检测所述第一实体名和第二实体数据中的第二实体名是否匹配；其中，所述第一实体数据来自第一数据源，所述第二实体数据来自第二数据源；

在检测到所述第一实体名和所述第二实体名匹配时，将所述第一实体数据和所述第二实体数据进行融合，得到融合实体数据；

其中，所述基于第一实体数据中的第一实体名，获取所述第一实体数据对应的实体的至少一个实体别称，得到实体名称集包括：

获取用户输入的所述第一实体数据所属领域技术人员熟知的所述第一实体数据对应的实体的至少一个实体别称；

所述方法还包括：

在检测到所述第一实体名和所述第二实体名不匹配时，确定所述第一实体数据对应的实体和所述第二实体数据对应实体的实体相似度；

其中，所述确定所述第一实体数据对应的实体和所述第二实体数据对应实体的实体相似度包括：

根据所述第一实体名和所述第二实体名，确定实体名相似度；

根据所述第一实体数据和所述第二实体数据，确定语义相似度，所述第一实体数据为所述第一实体数据对应实体的描述文本，所述第二实体数据为所述第二实体数据对应实体的描述文本，所述第一实体数据和所述第二实体数据属于同一领域；

根据所述第一实体数据中的第一属性信息和所述第二实体数据中的第二属性信息，确定属性相似度；

根据所述实体名相似度、所述语义相似度、以及所述属性相似度，确定所述实体相似度。

2.根据权利要求1所述的方法，其特征在于，所述基于第一实体数据中的第一实体名，获取所述第一实体数据对应的实体的至少一个实体别称包括：

基于所述第一实体名，在第三数据源中进行搜索，得到第三实体数据；

抽取所述第三实体数据中的第三实体名，得到至少一个所述实体别称。

3.根据权利要求1所述的方法，其特征在于，所述基于所述实体名称集，检测所述第一实体数据中的第一实体名和第二实体数据中的第二实体名是否匹配包括：

检测所述第二实体名是否属于所述实体名称集；

在检测到所述第二实体名属于所述实体名称集时，确定所述第一实体名和所述第二实体名匹配；

在检测到所述第二实体名不属于所述实体名称集时，确定所述第一实体名和所述第二实体名不匹配。

4.根据权利要求1所述的方法，其特征在于，还包括：

根据所述实体相似度，确定是否融合所述第一实体数据和所述第二实体数据；

在确定融合所述第一实体数据和所述第二实体数据时，将所述第一实体数据和所述第二实体数据进行融合，得到融合实体数据。

5.根据权利要求1所述的方法，其特征在于，根据所述第一实体名和所述第二实体名，确定实体名相似度包括：

获取所述第一实体名的第一词向量；

获取所述第二实体名的第二词向量；

根据所述第一词向量和所述第二词向量，确定所述实体名相似度。

6.根据权利要求1所述的方法，其特征在于，所述根据所述第一实体数据和所述第二实体数据，确定语义相似度包括：

获取所述第一实体数据的第一语义向量；

获取所述第二实体数据的第二语义向量；

根据所述第一语义向量和所述第二语义向量，确定所述语义相似度。

7.根据权利要求1所述的方法，其特征在于，所述根据所述第一实体数据中的第一属性信息和所述第二实体数据中的第二属性信息，确定属性相似度包括：

根据所述第一属性信息和所述第二属性信息，确定相同的属性项；

基于所述相同的属性项对应的属性值，确定所述属性相似度。

8.根据权利要求1所述的方法，其特征在于，所述根据所述实体名相似度、所述语义相似度、以及所述属性相似度，确定所述实体相似度包括：

将所述实体名相似度、所述语义相似度、以及所述属性相似度进行权重加和，得到所述实体相似度。

9.一种知识融合装置，其特征在于，包括：

第一获取模块，用于基于第一实体数据中的第一实体名，获取所述第一实体数据对应的实体的至少一个实体别称，得到实体名称集；

第一检测模块，用于基于所述实体名称集，检测所述第一实体名和第二实体数据中的第二实体名是否匹配；其中，所述第一实体数据来自第一数据源，所述第二实体数据来自第二数据源；

第一融合模块，用于在检测到所述第一实体名和所述第二实体名匹配时，将所述第一实体数据和所述第二实体数据进行融合，得到融合实体数据；

其中，所述第一获取模块包括：

获取单元，用于获取用户输入的所述第一实体数据所属领域技术人员熟知的所述第一实体数据对应的实体的至少一个实体别称；

所述装置还包括：

第一确定模块，用于在检测到所述第一实体名和所述第二实体名不匹配时，确定所述第一实体数据对应的实体和所述第二实体数据对应实体的实体相似度；

其中，所述第一确定模块包括：

第三确定子模块，用于根据所述第一实体名和所述第二实体名，确定实体名相似度；

第四确定子模块，用于根据所述第一实体数据和所述第二实体数据，确定语义相似度，所述第一实体数据为所述第一实体数据对应实体的描述文本，所述第二实体数据为所述第二实体数据对应实体的描述文本，所述第一实体数据和所述第二实体数据属于同一领域；

第五确定子模块，用于根据所述第一实体数据中的第一属性信息和所述第二实体数据中的第二属性信息，确定属性相似度；

第六确定子模块，用于根据所述实体名相似度、所述语义相似度、以及所述属性相似度，确定所述实体相似度。

10.一种知识融合设备，其特征在于，包括：

处理器；

存储器，用于存储可执行指令；

其中，所述处理器用于从所述存储器中读取所述可执行指令，并执行所述可执行指令以实现上述权利要求1-8中任一项所述的知识融合方法。

11.一种知识融合系统，其特征在于，包括：知识融合设备、第一数据源设备和第二数据源设备；

所述第一数据源设备，用于提供第一实体数据；

所述第二数据源设备，用于提供第二实体数据；

所述知识融合设备，用于基于第一实体数据中的第一实体名，获取所述第一实体数据对应的实体的至少一个实体别称，得到实体名称集；基于所述实体名称集，检测所述第一实体名和第二实体数据中的第二实体名是否匹配；其中，所述第一实体数据来自第一数据源，所述第二实体数据来自第二数据源；在检测到所述第一实体名和所述第二实体名匹配时，将所述第一实体数据和所述第二实体数据进行融合，得到融合实体数据；

其中，在所述基于第一实体数据中的第一实体名，获取所述第一实体数据对应的实体的至少一个实体别称时，所述知识融合设备具体用于获取用户输入的所述第一实体数据所属领域技术人员熟知的所述第一实体数据对应的实体的至少一个实体别称；

所述知识融合设备还用于在检测到所述第一实体名和所述第二实体名不匹配时，确定所述第一实体数据对应的实体和所述第二实体数据对应实体的实体相似度；其中，在所述确定所述第一实体数据对应的实体和所述第二实体数据对应实体的实体相似度时，所述知识融合设备具体用于根据所述第一实体名和所述第二实体名，确定实体名相似度；根据所述第一实体数据和所述第二实体数据，确定语义相似度，所述第一实体数据为所述第一实体数据对应实体的描述文本，所述第二实体数据为所述第二实体数据对应实体的描述文本，所述第一实体数据和所述第二实体数据属于同一领域；根据所述第一实体数据中的第一属性信息和所述第二实体数据中的第二属性信息，确定属性相似度；根据所述实体名相似度、所述语义相似度、以及所述属性相似度，确定所述实体相似度。

12.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，当所述计算机程序被处理器执行时，使得处理器实现用上述权利要求1-8中任一项所述的知识融合方法。