CN108959328A

CN108959328A - 知识图谱的处理方法、装置及电子设备

Info

Publication number: CN108959328A
Application number: CN201710392166.6A
Authority: CN
Inventors: 丁磊; 童毅轩; 董滨; 姜珊珊; 张永伟
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2017-05-27
Filing date: 2017-05-27
Publication date: 2018-12-07
Anticipated expiration: 2037-05-27
Also published as: CN108959328B; US20180341863A1; US11270212B2

Abstract

本发明提供了一种知识图谱的处理方法、装置及电子设备，处理方法包括：从待处理的知识图谱中获取实体集，实体集包括具有关系信息的第一实体和第二实体，从数据库中获取文本信息和图像信息；根据知识图谱的结构信息生成第一实体的第一结构信息向量和第二实体的第二结构信息向量，分别生成第一实体的第一文本信息向量、第一实体的第一图像信息向量、第二实体的第二文本信息向量以及第二实体的第二图像信息向量；建立联合损失函数，在联合损失函数最优化时得到第一实体的第一目标向量、第二实体的第二目标向量和第一实体与第二实体之间关系信息的目标关系向量。本发明能够提供更加准确和全面的知识图谱中实体和关系的向量化表示。

Description

知识图谱的处理方法、装置及电子设备

技术领域

本发明涉及自然语言处理以及知识图谱的技术领域，特别是指一种知识图谱的处理方法、装置及电子设备。

背景技术

随着社会飞速发展，我们已经进入信息爆炸时代，每天都会有海量新的实体与信息产生。互联网作为当今最为便捷的信息获取平台，用户对有效信息筛选与归纳的需求日益迫切，如何从海量数据中获取有价值的信息成为一个难题，知识图谱于此应运而生。

知识图谱将世界上所有人物、地名、书名、球队名等专有名词与事物表示为实体，将实体之间的内在联系表示为关系，旨在将数据库中的海量知识表示为实体之间利用关系作为桥梁的三元关系组。例如，北京是中国的首都这一知识，在知识图谱中则利用三元组关系(北京，是……首都，中国)进行表示。

知识图谱也被称为科学知识图谱，在图书情报界称为知识域可视化或知识领域映射地图，是显示知识发展进程与结构关系的一系列各种不同的图形，用可视化技术描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。

具体来说，知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法和计量学引文分析、共现分析等方法结合，并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。其把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来。

随着知识图谱研究的发展，知识图谱能够很好的辅助自然语言处理及语义分析。但随着知识的积累，知识图谱的数据量增大，结构越来越复杂。而近年来在知识图谱的研究上取得了显著的进展，将知识图谱中所有实体与关系映射到一个低维连续向量空间中，能够解决之前知识图谱学习时产生的稀疏性与效率问题。

但是目前，知识图谱中实体和关系的向量化表示存在的问题是：已有的算法都是从知识图谱的拓扑结构中计算实体和关系的向量化表示，缺乏对实体其他信息的使用，不够准确和全面。

发明内容

本发明要解决的技术问题是提供一种知识图谱的处理方法、装置及电子设备，能够提供更加准确和全面的知识图谱中实体和关系的向量化表示。

为解决上述技术问题，本发明的实施例提供技术方案如下：

一方面，提供一种知识图谱的处理方法，包括：

从待处理的知识图谱中获取实体集，所述实体集包括有第一实体和第二实体，所述第一实体和所述第二实体之间具有关系信息；

从数据库中获取与所述第一实体和所述第二实体相关的文本信息和图像信息；

根据所述知识图谱的结构信息生成所述第一实体的第一结构信息向量和所述第二实体的第二结构信息向量，根据所获取的文本信息和图像信息分别生成所述第一实体的第一文本信息向量、所述第一实体的第一图像信息向量、所述第二实体的第二文本信息向量以及所述第二实体的第二图像信息向量；

根据所述第一结构信息向量、第一文本信息向量、第一图像信息向量、第二结构信息向量、第二文本信息向量、第二图像信息向量建立联合损失函数，并对所述联合损失函数进行优化，在所述联合损失函数最优化时得到所述第一实体的第一目标向量、所述第二实体的第二目标向量和第一实体与第二实体之间关系信息的目标关系向量。

进一步地，所述从数据库中获取与所述第一实体和所述第二实体相关的文本信息和图像信息包括：

通过爬虫程序直接从互联网上下载与所述第一实体和所述第二实体相关的文本信息和图像信息；和/或

获取与所述第一实体和所述第二实体相关的网页，使用实体识别技术从所述网页的文本中识别出与所述第一实体和所述第二实体相关的文本信息，并通过对所述网页结构进行分析获取与所述第一实体和所述第二实体相关的图像信息。

进一步地，根据所获取的文本信息生成所述第一实体的第一文本信息向量和所述第二实体的第二文本信息向量包括：

对于每个与所述第一实体相关的文本信息，分别计算出该文本信息的文本信息向量；

根据每一文本信息向量的权重对计算得到的多个与所述第一实体相关的文本信息向量进行聚合，得到所述第一文本信息向量；

对于每个与所述第二实体相关的文本信息，分别计算出该文本信息的文本信息向量；

根据每一文本信息向量的权重对计算得到的多个与所述第二实体相关的文本信息向量进行聚合，得到所述第二文本信息向量。

进一步地，根据所获取的图像信息生成所述第一实体的第一图像信息向量和所述第二实体的第二图像信息向量包括：

对于每个与所述第一实体相关的图像信息，分别计算出该图像信息的图像信息向量；

根据每一图像信息向量的权重对计算得到的多个与所述第一实体相关的图像信息向量进行聚合，得到所述第一图像信息向量；

对于每个与所述第二实体相关的图像信息，分别计算出该图像信息的图像信息向量；

根据每一图像信息向量的权重对计算得到的多个与所述第二实体相关的图像信息向量进行聚合，得到所述第二图像信息向量。

本发明实施例还提供了一种知识图谱的处理装置，包括：

实体集获取模块，用于从待处理的知识图谱中获取实体集，所述实体集包括有第一实体和第二实体，所述第一实体和所述第二实体之间具有关系信息；

信息获取模块，用于从数据库中获取与所述第一实体和所述第二实体相关的文本信息和图像信息；

向量生成模块，用于根据所述知识图谱的结构信息生成所述第一实体的第一结构信息向量和所述第二实体的第二结构信息向量，根据所获取的文本信息和图像信息分别生成所述第一实体的第一文本信息向量、所述第一实体的第一图像信息向量、所述第二实体的第二文本信息向量以及所述第二实体的第二图像信息向量；

处理模块，用于根据所述第一结构信息向量、第一文本信息向量、第一图像信息向量、第二结构信息向量、第二文本信息向量、第二图像信息向量建立联合损失函数，并对所述联合损失函数进行优化，在所述联合损失函数最优化时得到所述第一实体的第一目标向量、所述第二实体的第二目标向量和第一实体与第二实体之间关系信息的目标关系向量。

进一步地，所述信息获取模块包括：

第一信息获取单元，用于通过爬虫程序直接从互联网上下载与所述第一实体和所述第二实体相关的文本信息和图像信息；和/或

第二信息获取单元，用于获取与所述第一实体和所述第二实体相关的网页，使用实体识别技术从所述网页的文本中识别出与所述第一实体和所述第二实体相关的文本信息，并通过对所述网页结构进行分析获取与所述第一实体和所述第二实体相关的图像信息。

进一步地，所述向量生成模块包括：

第一计算单元，用于对于每个与所述第一实体相关的文本信息，分别计算出该文本信息的文本信息向量；

第一聚合单元，用于根据每一文本信息向量的权重对计算得到的多个与所述第一实体相关的文本信息向量进行聚合，得到所述第一文本信息向量；

第二计算单元，用于对于每个与所述第二实体相关的文本信息，分别计算出该文本信息的文本信息向量；

第二聚合单元，用于根据每一文本信息向量的权重对计算得到的多个与所述第二实体相关的文本信息向量进行聚合，得到所述第二文本信息向量。

进一步地，所述向量生成模块包括：

第三计算单元，用于对于每个与所述第一实体相关的图像信息，分别计算出该图像信息的图像信息向量；

第三聚合单元，用于根据每一图像信息向量的权重对计算得到的多个与所述第一实体相关的图像信息向量进行聚合，得到所述第一图像信息向量；

第四计算单元，用于对于每个与所述第二实体相关的图像信息，分别计算出该图像信息的图像信息向量；

第四聚合单元，用于根据每一图像信息向量的权重对计算得到的多个与所述第二实体相关的图像信息向量进行聚合，得到所述第二图像信息向量。

本发明实施例还提供了一种实现知识图谱处理的电子设备，包括：

处理器；和

存储器，在所述存储器中存储有计算机程序指令，

其中，在所述计算机程序指令被所述处理器运行时，使得所述处理器执行以下步骤：

本发明的实施例具有以下有益效果：

上述方案中，并不局限从已知的知识图谱的拓扑结构中计算实体和实体间关系的向量化表示，而是还从数据库中获取与实体相关的文本信息和图像信息，并根据与实体相关的文本信息和图像信息生成文本信息向量和图像信息向量，根据利用已知知识图谱的结构信息生成的结构信息向量、实体的文本信息向量和图像信息向量生成最终的实体的向量化表示和实体间关系的向量化表示，使用更多与实体相关的信息生成实体的向量化表示和实体间关系的向量化表示，从而能够提供更加准确和全面的知识图谱中实体和关系的向量化表示。

附图说明

图1为本发明实施例知识图谱的处理方法的流程示意图；

图2为本发明实施例从数据库中获取与实体相关的文本信息和图像信息的流程示意图；

图3为本发明实施例生成结构信息向量、文本信息向量和图像信息向量的流程示意图；

图4为本发明实施例生成实体的目标向量和目标关系向量的流程示意图；

图5为本发明实施例知识图谱的处理装置的结构框图；

图6为本发明实施例信息获取模块的结构框图；

图7和图8为本发明实施例向量生成模块的结构框图；

图9为本发明实施例实现知识图谱处理的电子设备；

图10为本发明具体实施例知识图谱的处理方法的流程示意图；

图11为本发明实施例知识图谱的结构示意图；

图12为本发明实施例将知识图谱中的实体和关系分别映射到不同的向量空间中的示意图；

图13为本发明实施例复合知识图谱的示意图。

具体实施方式

为使本发明的实施例要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明的实施例针对现有技术中算法都是从知识图谱的拓扑结构中计算实体和关系的向量化表示，缺乏对实体其他信息的使用，不够准确和全面的问题，提供一种知识图谱的处理方法、装置及电子设备，能够提供更加准确和全面的知识图谱中实体和关系的向量化表示。

实施例一

本实施例提供一种知识图谱的处理方法，如图1所示，包括：

步骤101：从待处理的知识图谱中获取实体集，所述实体集包括有第一实体和第二实体，所述第一实体和所述第二实体之间具有关系信息；

步骤102：从数据库中获取与所述第一实体和所述第二实体相关的文本信息和图像信息；

步骤103：根据所述知识图谱的结构信息生成所述第一实体的第一结构信息向量和所述第二实体的第二结构信息向量，根据所获取的文本信息和图像信息分别生成所述第一实体的第一文本信息向量、所述第一实体的第一图像信息向量、所述第二实体的第二文本信息向量以及所述第二实体的第二图像信息向量；

步骤104：根据所述第一结构信息向量、第一文本信息向量、第一图像信息向量、第二结构信息向量、第二文本信息向量、第二图像信息向量建立联合损失函数，并对所述联合损失函数进行优化，在所述联合损失函数最优化时得到所述第一实体的第一目标向量、所述第二实体的第二目标向量和第一实体与第二实体之间关系信息的目标关系向量。

本实施例中，并不局限从已知的知识图谱的拓扑结构中计算实体和实体间关系的向量化表示，而是还从数据库中获取与实体相关的文本信息和图像信息，并根据与实体相关的文本信息和图像信息生成文本信息向量和图像信息向量，根据利用已知知识图谱的结构信息生成的结构信息向量、实体的文本信息向量和图像信息向量生成最终的实体的向量化表示和实体间关系的向量化表示，使用更多与实体相关的信息生成实体的向量化表示和实体间关系的向量化表示，从而能够提供更加准确和全面的知识图谱中实体和关系的向量化表示。

作为一个示例，如图2所示，步骤102包括：

步骤1021：通过爬虫程序直接从互联网上下载与所述第一实体和所述第二实体相关的文本信息和图像信息；和/或

步骤1022：获取与所述第一实体和所述第二实体相关的网页，使用实体识别技术从所述网页的文本中识别出与所述第一实体和所述第二实体相关的文本信息，并通过对所述网页结构进行分析获取与所述第一实体和所述第二实体相关的图像信息。

作为一个示例，如图3所示，步骤103包括：

步骤1031：根据知识图谱的结构信息生成实体的结构信息向量；

步骤10321：对于每个与实体相关的文本信息，分别计算出该文本信息的文本信息向量；

步骤10322：根据每一文本信息向量的权重对计算得到的多个与实体相关的文本信息向量进行聚合，得到最终的文本信息向量；

步骤10331：对于每个与实体相关的图像信息，分别计算出该图像信息的图像信息向量；

步骤10332：根据每一图像信息向量的权重对计算得到的多个与实体相关的图像信息向量进行聚合，得到最终的图像信息向量。

具体地，根据所获取的文本信息生成所述第一实体的第一文本信息向量和所述第二实体的第二文本信息向量包括：

具体地，根据所获取的图像信息生成所述第一实体的第一图像信息向量和所述第二实体的第二图像信息向量包括：

进一步地，利用去噪自动编码器对文本信息进行计算，得到文本信息的文本信息向量。

进一步地，利用堆叠卷积自动编码器对图像信息进行计算，得到图像信息的图像信息向量。

作为一个示例，如图4所示，步骤104包括：

步骤1041：建立联合损失函数；

步骤1042：对所述联合损失函数进行优化；

步骤1043：在所述联合损失函数最优化时得到所述第一实体的第一目标向量、所述第二实体的第二目标向量和第一实体与第二实体之间关系信息的目标关系向量。

实施例二

本实施例提供了一种知识图谱的处理装置，如图5所示，包括：

实体集获取模块21，用于从待处理的知识图谱中获取实体集，所述实体集包括有第一实体和第二实体，所述第一实体和所述第二实体之间具有关系信息；

信息获取模块22，用于从数据库中获取与所述第一实体和所述第二实体相关的文本信息和图像信息；

向量生成模块23，用于根据所述知识图谱的结构信息生成所述第一实体的第一结构信息向量和所述第二实体的第二结构信息向量，根据所获取的文本信息和图像信息分别生成所述第一实体的第一文本信息向量、所述第一实体的第一图像信息向量、所述第二实体的第二文本信息向量以及所述第二实体的第二图像信息向量；

处理模块24，用于根据所述第一结构信息向量、第一文本信息向量、第一图像信息向量、第二结构信息向量、第二文本信息向量、第二图像信息向量建立联合损失函数，并对所述联合损失函数进行优化，在所述联合损失函数最优化时得到所述第一实体的第一目标向量、所述第二实体的第二目标向量和第一实体与第二实体之间关系信息的目标关系向量。

作为一个示例，如图6所示，所述信息获取模块22包括：

第一信息获取单元221，用于通过爬虫程序直接从互联网上下载与所述第一实体和所述第二实体相关的文本信息和图像信息；和/或

第二信息获取单元222，用于获取与所述第一实体和所述第二实体相关的网页，使用实体识别技术从所述网页的文本中识别出与所述第一实体和所述第二实体相关的文本信息，并通过对所述网页结构进行分析获取与所述第一实体和所述第二实体相关的图像信息。

作为一个示例，如图7所示，所述向量生成模块23包括：

第一计算单元231，用于对于每个与所述第一实体相关的文本信息，分别计算出该文本信息的文本信息向量；

第一聚合单元232，用于根据每一文本信息向量的权重对计算得到的多个与所述第一实体相关的文本信息向量进行聚合，得到所述第一文本信息向量；

第二计算单元233，用于对于每个与所述第二实体相关的文本信息，分别计算出该文本信息的文本信息向量；

第二聚合单元234，用于根据每一文本信息向量的权重对计算得到的多个与所述第二实体相关的文本信息向量进行聚合，得到所述第二文本信息向量。

作为一个示例，如图8所示，所述向量生成模块23包括：

第三计算单元235，用于对于每个与所述第一实体相关的图像信息，分别计算出该图像信息的图像信息向量；

第三聚合单元236，用于根据每一图像信息向量的权重对计算得到的多个与所述第一实体相关的图像信息向量进行聚合，得到所述第一图像信息向量；

第四计算单元237，用于对于每个与所述第二实体相关的图像信息，分别计算出该图像信息的图像信息向量；

第四聚合单元238，用于根据每一图像信息向量的权重对计算得到的多个与所述第二实体相关的图像信息向量进行聚合，得到所述第二图像信息向量。

实施例三

本实施例提供了一种实现知识图谱处理的电子设备30，如图9所示，包括：

处理器32；和

存储器34，在所述存储器34中存储有计算机程序指令，

其中，在所述计算机程序指令被所述处理器运行时，使得所述处理器32执行以下步骤：

进一步地，如图9所示，实现知识图谱处理的电子设备30还包括网络接口31、输入设备33、硬盘35、和显示设备36。

上述各个接口和设备之间可以通过总线架构互连。总线架构可以是可以包括任意数量的互联的总线和桥。具体由处理器32代表的一个或者多个中央处理器(CPU)，以及由存储器34代表的一个或者多个存储器的各种电路连接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其它电路连接在一起。可以理解，总线架构用于实现这些组件之间的连接通信。总线架构除包括数据总线之外，还包括电源总线、控制总线和状态信号总线，这些都是本领域所公知的，因此本文不再对其进行详细描述。

所述网络接口31，可以连接至网络(如因特网、局域网等)，从网络中获取相关数据，例如与实体相关的网页，并可以保存在硬盘35中。

所述输入设备33，可以接收操作人员输入的各种指令，并发送给处理器32以供执行。所述输入设备33可以包括键盘或者点击设备(例如，鼠标，轨迹球(trackball)、触感板或者触摸屏等。

所述显示设备36，可以将处理器32执行指令获得的结果进行显示。

所述存储器34，用于存储操作系统运行所必须的程序和数据，以及处理器32计算过程中的中间结果等数据。

可以理解，本发明实施例中的存储器34可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM)，其用作外部高速缓存。本文描述的装置和方法的存储器34旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中，存储器34存储了如下的元素，可执行模块或者数据结构，或者他们的子集，或者他们的扩展集：操作系统341和应用程序342。

其中，操作系统341，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序342，包含各种应用程序，例如浏览器(Browser)等，用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序342中。

上述处理器32，当调用并执行所述存储器34中所存储的应用程序和数据，具体的，可以是应用程序342中存储的程序或指令时，可以从待处理的知识图谱中获取实体集，所述实体集包括有第一实体和第二实体，所述第一实体和所述第二实体之间具有关系信息；从数据库中获取与所述第一实体和所述第二实体相关的文本信息和图像信息；根据所述知识图谱的结构信息生成所述第一实体的第一结构信息向量和所述第二实体的第二结构信息向量，根据所获取的文本信息和图像信息分别生成所述第一实体的第一文本信息向量、所述第一实体的第一图像信息向量、所述第二实体的第二文本信息向量以及所述第二实体的第二图像信息向量；根据所述第一结构信息向量、第一文本信息向量、第一图像信息向量、第二结构信息向量、第二文本信息向量、第二图像信息向量建立联合损失函数，并对所述联合损失函数进行优化，在所述联合损失函数最优化时得到所述第一实体的第一目标向量、所述第二实体的第二目标向量和第一实体与第二实体之间关系信息的目标关系向量。

本发明上述实施例揭示的方法可以应用于处理器32中，或者由处理器32实现。处理器32可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器32中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器32可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器34，处理器32读取存储器34中的信息，结合其硬件完成上述方法的步骤。

可以理解的是，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(ASIC)、数字信号处理器DSP)、数字信号处理设备(DSPD)、可编程逻辑设备(PLD)、现场可编程门阵列(FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现，可通过执行本文所述功能的模块(例如过程、函数等)来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

具体地，处理器32通过爬虫程序直接从互联网上下载与所述第一实体和所述第二实体相关的文本信息和图像信息；和/或

具体地，处理器32对于每个与所述第一实体相关的文本信息，分别计算出该文本信息的文本信息向量；根据每一文本信息向量的权重对计算得到的多个与所述第一实体相关的文本信息向量进行聚合，得到所述第一文本信息向量；对于每个与所述第二实体相关的文本信息，分别计算出该文本信息的文本信息向量；根据每一文本信息向量的权重对计算得到的多个与所述第二实体相关的文本信息向量进行聚合，得到所述第二文本信息向量。

具体地，处理器32对于每个与所述第一实体相关的图像信息，分别计算出该图像信息的图像信息向量；根据每一图像信息向量的权重对计算得到的多个与所述第一实体相关的图像信息向量进行聚合，得到所述第一图像信息向量；对于每个与所述第二实体相关的图像信息，分别计算出该图像信息的图像信息向量；根据每一图像信息向量的权重对计算得到的多个与所述第二实体相关的图像信息向量进行聚合，得到所述第二图像信息向量。

具体地，处理器32利用去噪自动编码器对文本信息进行计算，得到文本信息的文本信息向量。

具体地，处理器32利用堆叠卷积自动编码器对图像信息进行计算，得到图像信息的图像信息向量。

实施例四

如图10所示，本实施例的知识图谱的处理方法具体包括以下步骤：

步骤401：从待处理的知识图谱中获取实体集；

图11所示为一待处理的知识图谱的示例图，如图11所示，该知识图谱中包括有实体：软件、文档、图像、图书馆、标题、人物、地点等等。实体之间的关系有：手册、需求、是基于、主题、作者、一部分、住址等等。示例性地，头实体(即上述第一实体)“文档”与尾实体(即上述第二实体)“人物”之间的关系为“作者”，即该文档的作者为该人物。

步骤402：获取与实体相关的文本信息和图像信息；

对于实体集中的每一实体，可以从互联网中获取与实体相关的文本信息和图像信息，文本信息是指一条关于实体的描述或其他相关的文本，图像信息是指一幅关于实体的照片或其他相关的图像。

一种实现方式是可以通过固定的爬虫程序爬取典型网站，直接获取实体的文本信息和图像信息。其中，典型网站是指具有大量良好的结构化信息的网站，例如维基百科、百度百科、搜狗百科等。

另外一种实现方式是可以在其他网站中通过实体识别技术获取实体相关的文本信息并根据网页结构获取关于实体的图像信息。通过网页结构获取指在在网页设计中，相关的文本和图像内容会在一些典型的标签结构中，利用这种特性就可以从网页中获取实体的图像信息。

步骤403：生成实体的结构信息向量、文本信息向量和图像信息向量；

实体基于拓扑信息的向量化表示即结构信息向量是从知识图谱的拓扑结构中计算出的，可以直接通过现有的TransE，TransR等方法计算出。

如图12所示，TransR方法将知识图谱(包括头实体h，关系r，尾实体t)中的“实体”和“关系”分别映射到不同的向量空间中。

对于每一个关系r，都会有一个映射矩阵Mr将实体映射到关系向量空间中

h_r＝hM_r，t_r＝tM_r

针对1个三元组(h，r，t)的目标函数

所以，整个知识图谱的目标函数为

其中，max(x，y)是指取x和y中较大的，γ是边缘系数，S是知识图谱中实际存在的三元组的集合，S′是知识图谱中不存在的三元组的集合，通过在知识图谱中存在的三元组的集合中替换实体得到，通过随机梯度下降的方法使L最小化得到最终的向量表示即实体的结构信息向量。

对于每一实体，都会获取到与该实体相关的多条文本信息，对于每一条文本信息，分别计算得到一文本信息向量，可以直接通过现有的技术，例如去噪自动编码器等，得到文本信息的向量化表示。之后根据每一文本信息向量的权重对计算得到的多个文本信息向量进行聚合，得到最终的信息向量作为实体的文本信息向量。其中，每一文本信息向量的权重＝文本信息来源网站的权威系数/所有文本信息来源网站系数的和，网站的权威系数可以人工确定，或者通过相关技术，例如基于Attention机制的模型，获得相应的系数。

对于每一实体，都会获取到与该实体相关的多条图像信息，对于每一条图像信息，分别计算得到一图像信息向量，可以直接通过现有的技术，例如堆叠卷积自动编码器等，得到图像信息的向量化表示。之后根据每一图像信息向量的权重对计算得到的多个图像信息向量进行聚合，得到最终的信息向量作为实体的图像信息向量。其中，每一图像信息向量的权重＝图像信息来源网站的权威系数/所有图像信息来源网站系数的和，网站的权威系数可以人工确定，或者通过相关技术，例如基于Attention机制的模型，获得相应的系数。

步骤404：根据实体的结构信息向量、文本信息向量和图像信息向量获取实体的目标向量和实体间关系的关系向量。

首先构建如图13所示的复合知识图谱，复合知识图谱在原有知识图谱拓扑模型的基础上，增加了基于文本信息和图像信息的部分。在原有的知识图谱模型“头实体+关系＝尾实体”原理的基础上，实体的向量化表示是基于拓扑信息，文本信息和图像信息3部分的结合，在复合知识图谱模型中，产生的错误会反向传播回这3部分的生成模型中.

利用实体的结构信息向量、文本信息向量和图像信息向量建立联合损失函数，并优化联合损失函数。联合损失函数中包含来自知识图谱的结构信息，实体的文本信息和图像信息的约束，可以通过优化联合损失函数来得到最终的知识图谱中实体和关系的向量化表示。联合损失函数可以为3方面的向量化表示之差的和，如下所示：

其中，h为头实体，t为尾实体，r为头实体与尾实体之间的关系，(h,r,t)是知识图谱中实际存在的关系对，(h’,r’,t’)是知识图谱中不存在的关系对。

d(h+r,t)可以通过如下方式计算:

d(h+r,t)＝0

for i in[结构信息向量,图像信息向量,文本信息向量]:

for j in[结构信息向量,图像信息向量,文本信息向量]:

d(h+r,t)＝d(h+r,t)+||h_i+r-t_j||。

在联合损失函数最优化时即可输出得到头实体的目标向量、尾实体的目标向量和头实体与尾实体之间关系信息的目标关系向量。

本实施例并不局限从已知的知识图谱的拓扑结构中计算实体和实体间关系的向量化表示，而是还从互联网中获取与实体相关的文本信息和图像信息，并根据与实体相关的文本信息和图像信息生成文本信息向量和图像信息向量，根据利用已知知识图谱的结构信息生成的结构信息向量、实体的文本信息向量和图像信息向量生成最终的实体的向量化表示和实体间关系的向量化表示，使用更多与实体相关的信息生成实体的向量化表示和实体间关系的向量化表示，从而能够提供更加准确和全面的知识图谱中实体和关系的向量化表示。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种知识图谱的处理方法，其特征在于，包括：

2.根据权利要求1所述的知识图谱的处理方法，其特征在于，所述从数据库中获取与所述第一实体和所述第二实体相关的文本信息和图像信息包括：

3.根据权利要求1所述的知识图谱的处理方法，其特征在于，根据所获取的文本信息生成所述第一实体的第一文本信息向量和所述第二实体的第二文本信息向量包括：

4.根据权利要求1所述的知识图谱的处理方法，其特征在于，根据所获取的图像信息生成所述第一实体的第一图像信息向量和所述第二实体的第二图像信息向量包括：

5.一种知识图谱的处理装置，其特征在于，包括：

6.根据权利要求5所述的知识图谱的处理装置，其特征在于，所述信息获取模块包括：

7.根据权利要求5所述的知识图谱的处理装置，其特征在于，所述向量生成模块包括：

8.根据权利要求5所述的知识图谱的处理装置，其特征在于，所述向量生成模块包括：

9.一种实现知识图谱处理的电子设备，其特征在于，包括：

处理器；和

存储器，在所述存储器中存储有计算机程序指令，