CN112818135B

CN112818135B - 一种基于公共语义空间学习构建图文知识图谱方法

Info

Publication number: CN112818135B
Application number: CN202110208342.2A
Authority: CN
Inventors: 曾焕强; 刘晓庆; 廖昀; 张联昌; 冯万健; 王华虎
Original assignee: Xiamen Yealink Network Technology Co Ltd; Huaqiao University
Current assignee: Xiamen Yealink Network Technology Co Ltd; Huaqiao University
Priority date: 2021-02-24
Filing date: 2021-02-24
Publication date: 2022-11-01
Anticipated expiration: 2041-02-24
Also published as: CN112818135A

Abstract

本发明公开了一种基于公共语义空间学习构建图文知识图谱方法，包括如下步骤：构建深度神经网络用于图像与文本数据的深度特征提取；将图像与文本数据对o_i＝(x_i,l_i,y_i)分别输入到深度神经网络中训练；其中o_i表示第i对图像‑文本对数据以及对应的标签，x_i，y_i与l_i分别表示第i个图像数据、文本数据以及对应的标签数据；通过损失函数学习两种图像和文本数据间的公共语义表达，并将图像与文本特征转化到公共语义空间中；根据相似度度量，依据CN‑DBpedia的构建方法构建知识图谱。本发明提供的方法能有效实现图像、文本两种不同的模态间的知识图谱构建。

Description

一种基于公共语义空间学习构建图文知识图谱方法

技术领域

本发明涉及人工智能领域，特别是指一种基于公共语义空间学习构建图文知识图谱方法。

背景技术

随着人工智能技术的快速发展和普及，当今社会逐步进入了智能化时代。知识图谱是人工智能技术的重要组成部分。其以结构化的方式描述客观世界中的概念、实体及之间的关系。知识图谱提供了一种更好的组织、管理和理解互联网海量信息的能力，将互联网的信息表达成更接近于人类认知世界的形式。而随着多模态、多媒体数据的爆炸式增长和知识的表现形式以及存储形式的多样性，跨模态知识图谱成为研究热点。

跨模态的图文知识图谱旨在不同模态的数据间(图像、文本)进行知识图谱的构建，具有非常重要的应用价值，其应用场景非常广泛，例如多媒体化知识库的构建、网页的图文知识连接等。由于图像与文本数据之间存在着异构鸿沟以及相似性度量非常困难，如何依据图像与文本的内容衡量两种模态数据之间的相似性，是构建图文模态知识图谱的关键以及难点。

发明内容

本发明的主要目的在于克服现有技术中的上述缺陷，提出一种基于公共语义空间学习构建图文知识图谱方法，将图文两种不同的模态数据特征映射到公共的语义空间中，实现两种模态数据之间的语义连接以及知识连接，能有效实现图像、文本两种不同的模态间的知识图谱构建。

本发明采用如下技术方案：

一种基于公共语义空间学习构建图文知识图谱方法，包括如下步骤：

构建深度神经网络用于图像与文本数据的深度特征提取；

将图像与文本数据对o_i＝(x_i,l_i,y_i)分别输入到深度神经网络中训练；其中o_i表示第i对图像-文本对数据以及对应的标签，x_i，y_i与l_i分别表示第i个图像数据、文本数据以及对应的标签数据；通过损失函数学习两种图像和文本数据间的公共语义表达，并将图像与文本特征转化到公共语义空间中；

根据相似度度量，依据CN-DBpedia的构建方法构建知识图谱。

具体地，所述将图像与文本数据对o_i＝(x_i,l_i,y_i)分别输入到深度神经网络中训练；其中o_i表示第i对图像-文本对数据以及对应的标签，x_i，y_i与l_i分别表示第i个图像数据、文本数据以及对应的标签数据；通过损失函数学习两种图像和文本数据间的公共语义表达，并将图像与文本特征转化到公共语义空间中；具体为：

将输入的图像数据集

输入到深度神经网络，其中x_i表示第i张图像数据，n为图像数量；经过全卷积网络FCN后对图像进行像素级分类，将图像的内容分为图像背景信息bX₁与图像主体目标信息mX₁，并将图像背景信息bX₁与图像主体目标信息mX₁通过浅层卷积网络后进行特征融合处理；

将文本数据集中内容

使用语义角色标注，其中y_i表示为第i个文本数据，m为文本数据量，将文本数据中的“施事”与“受事”角色，生成文本侧的主体目标向量mY₁，其他角色词作为辅助信息词向量bY₁；

将标注好的不同角色的词输入到Glove模型，并使用Google News数据集在模型上进行预训练生成主体目标信息mY₁与词向量bY₁，并将主体目标信息mY₁与词向量bY₁分别输入到独立的全连接网络后进行特征融合；

标签数据通过一层全连接网络生成自监督的高级标签语义信息；在最后两层全连接网络所输出的语义信息分别为L₁和L₂；

计算损失值，并通过训练缩小损失值，得到训练好的深度神经网络模型。

具体地，所述将图像背景信息bX₁与图像主体目标信息mX₁通过浅层卷积网络后进行特征融合处理；具体为：

将图像背景信息bX₁，通过一个浅层卷积网络，通过全连接网络后得到背景信息的高级特征信息bX₂，长度为e₁；

将图像主体目标信息mX₁经过一个卷积网络后得到的高级语义特征为mX₂，并通过两层全连接网络所输出的特征，分别对应的特征为mX₃与mX₄，mX₃与mX₄分别对应图像侧的神经网络中倒数第3层与倒数第2层的全连接输出，mX₄的特征长度为e₁，并将bX₂与mX₄进行特征融合。

具体地，将bX₂与mX₄进行特征融合，具体为：

并将bX₂与mX₄进行特征融合，输入到最后一层全连接层中得到iF，融合公式如下：

iF＝α₁mX₄+β₁bX₂，其中α₁+β₁＝1,α₁>β₁。

具体地：所述将主体目标信息mY₁与词向量bY₁分别输入到独立的全连接网络后进行特征融合；具体为：

主体目标信息mY₁经过一个卷积网络后得到的文本信息的高级语义特征为mY₂，并通过两层全连接网络所输出的特征，分别对应的特征为mY₃与mY₄，mY₃与mY₄分别对应文本侧的神经网络中倒数第3层与倒数第2层的全连接输出，并将bY₁经过一个全连接层的输出bY₂，将bY₂与mY₄进行特征融合。

具体地，所述将bY₂与mY₄进行特征融合，具体为：

输入到最后一层全连接层中得到tF，融合公式如下：

tF＝α₂mY₄+β₂bY₂，其中α₂+β₂＝1,α₂>β₂。

具体地，所述根据相似度度量，依据CN-DBpedia的构建方法构建知识图谱，具体包括：

构建知识图谱的方法为通过公共语义空间，对图像与文本的高级语义信息进行相似性度量；

依据CN-DBpedia的构建方法，将图像作为同其语义相似度最高的主体，关系连接依据语义最近的文本信息进行连接；

将图像数据融入到知识图谱中，实现跨模态知识图谱的构建。

具体地，计算损失值，并通过训练缩小损失值，得到训练好的深度神经网络模型，包括：所述的mX₃，mY₃与L₁之间的三元损失定义为：

其中m₁是均衡化系数。

具体地，计算损失值，并通过训练缩小损失值，得到训练好的深度神经网络模型，还包括：所述的mX₄，mY₄与L₂之间的三元损失定义为：

其中m₂是均衡化系数。

具体地，计算损失值，并通过训练缩小损失值，得到训练好的深度神经网络模型，还包括：所述的mX₅和mY₅之间的损失定义为：

其中||·||_F表示F范数。

由上述对本发明的描述可知，与现有技术相比，本发明具有如下有益效果：

(1)本发明公开一种基于公共语义空间学习构建图文知识图谱方法，将图文两种不同的模态数据特征映射到公共的语义空间中，实现两种模态数据之间的语义连接以及知识连接；首先构建深度神经网络用以图、文深度特征提取，学习两种模态数据间的公共语义表达，设计损失函数，对输入的图像与文本进行相似性度量，根据公共语义表达构建图文跨模态的知识图谱。本发明方法能有效实现图像、文本两种不同的模态间的知识图谱构建。

(2)本发明方法考虑了图像与文本两种模态数据间的公共语义空间构建，已达到图像与文本相似性度量的目的，并且将图像作为文本实体的等价实体用在知识图谱的构建中；本方法不仅有着很高的效率也有着非常好的语义对齐准确率。

附图说明

图1为本发明实施例提供的公共语义空间学习构建图文知识图谱方法流程图；

图2为本发明实施例提供的基于公共语义空间学习构建图文知识图谱方法的框架示意图。

以下结合附图和具体实施例对本发明作进一步详述。

具体实施方式

以下通过具体实施方式对本发明作进一步的描述。

本发明提供了一种基于公共语义空间学习构建图文知识图谱方法，首先构建深度神经网络用以图、文深度特征提取，学习两种模态数据间的公共语义表达，设计损失函数，对输入的图像与文本进行相似性度量，根据公共语义表达构建图文跨模态的知识图谱，能有效实现图像、文本两种不同的模态间的知识图谱构建。

如图1为本发明实施例提供的公共语义空间学习构建图文知识图谱方法流程图，如图2为本发明实施例提供的基于公共语义空间学习构建图文知识图谱方法的框架示意图，具体步骤为：

S10：构建深度神经网络用于图像与文本数据的深度特征提取；

S20：将图像与文本数据对o_i＝(x_i,l_i,y_i)分别输入到深度神经网络中训练；其中o_i表示第i对图像-文本对数据以及对应的标签，x_i，y_i与l_i分别表示第i个图像数据、文本数据以及对应的标签数据；通过损失函数学习两种图像和文本数据间的公共语义表达，并将图像与文本特征转化到公共语义空间中；

S201：将图像与文本数据对o_i＝(x_i,l_i,y_i)分别输入到深度神经网络中训练，通过神经网络的学习将图像与文本特征转化到一个公共语义空间中，其中o_i表示第i对图像-文本数据对以及对应的标签，x_i，y_i与l_i分别表示第i个图像数据，文本数据以及对应的标签数据。

S202：将输入的图像数据集

输入到图像特征提取网络，其中x_i表示第i张图像数据，一共有n张图像。在经过全卷积网络FCN后对图像进行像素级分类以达到对前后景分割的效果，将图像的内容分为背景信息bX₁与主体目标信息mX₁，本方法中可以使用FCN-16s模型作为图像分割网络。

S203：将在步骤2中图像分离的背景信息bX₁，通过一个卷积网络，作为最优选本方法中采用VGG-16，并且最后一层的全连接输出长度为e₁，通过全连接网络后得到背景信息的高级特征信息bX₂，长度为e₁。

S204：主体目标信息mX₁经过一个卷积网络后得到的高级语义特征为mX₂，并通过两层全连接网络所输出的特征，分别对应的特征为mX₃与mX₄，其中，mX₃与mX₄分别对应图像侧的神经网络中倒数第3层与倒数第2层的全连接输出，mX₄的特征长度为e₁，并将bX₂与mX₄进行特征融合，输入到最后一层全连接层中得到iF，融合公式如下：

iF＝α₁mX₄+β₁bX₂

其中α₁+β₁＝1,α₁>β₁，作为优选α₁＝0.8,β₁＝0.2。

S205：在文本侧网络中，将文本数据集中内容

使用语义角色标注，其中，m为文本数据量，将文本数据中的“施事”与“受事”角色，生成文本侧的主体目标向量mY₁，其他角色词作为辅助信息词向量bY₁。

S206：将标注好不同角色的词分别使用的是Glove模型，并使用Google News数据集在模型上进行预训练，将生成的词向量mY₁与bY₁分别输入到独立的全连接网络中。主体目标信息mY₁经过一个卷积网络后得到的文本信息的高级语义特征为mY₂，并通过两层全连接网络所输出的特征，分别对应的特征为mY₃与mY₄，其中，mY₃与mY₄分别对应文本侧的神经网络中倒数第3层与倒数第2层的全连接输出，并将bY₁经过一个全连接层的输出bY₂与mX₄进行特征融合，输入到最后一层全连接层中得到tF，融合公式为tF＝α₂mY₄+β₂bY₂，其中α₂+β₂＝1,α₂>β₂，作为优选α₂＝0.8,β₂＝0.2。

S207：标签数据通过一层全连接网络生成自监督的高级标签语义信息；在最后两层全连接网络所输出的语义信息分别为L₁和L₂。

S208：分别计算mX₃，mY₃与L₁，mX₄，mX₄与L₂以及最终的隐藏语义向量mX₅和mY₅之间的损失值，其算是函数分别为J₁,J₂以及J₃，其具体公式如下：

S209：通过不断地并缩小损失J＝J₁+J₂+J₃，作为优选循环训练500次，学习率为10^-2.5

S30：根据相似度度量，依据CN-DBpedia的构建方法构建知识图谱。

步骤301：构建知识图谱的方法为通过公共语义空间，对图像与文本的高级语义信息进行相似性度量，将图像作为同其语义相似度最高的主体。

步骤302：依据自底向上构建一个知识图谱，作为优选选择CN-DBpedia的构建流程，图像的关系连接依据其语义最近的文本信息进行连接，依照此种策略将图像数据融入到知识图谱中，实现跨模态知识图谱的构建。

本发明公开一种基于公共语义空间学习构建图文知识图谱方法，将图文两种不同的模态数据特征映射到公共的语义空间中，实现两种模态数据之间的语义连接以及知识连接；首先构建深度神经网络用以图、文深度特征提取，学习两种模态数据间的公共语义表达，设计损失函数，对输入的图像与文本进行相似性度量，根据公共语义表达构建图文跨模态的知识图谱。本发明方法能有效实现图像、文本两种不同的模态间的知识图谱构建。

本发明方法考虑了图像与文本两种模态数据间的公共语义空间构建，已达到图像与文本相似性度量的目的，并且将图像作为文本实体的等价实体用在知识图谱的构建中；本方法不仅有着很高的效率也有着非常好的语义对齐准确率。

上述仅为本发明的具体实施方式，但本发明的设计构思并不局限于此，凡利用此构思对本发明进行非实质性的改动，均应属于侵犯本发明保护范围的行为。

Claims

1.一种基于公共语义空间学习构建图文知识图谱方法，其特征在于，包括如下步骤：

S20：将图像与文本数据对o_i＝(x_i,l_i,y_i)分别输入到深度神经网络中训练；其中o_i表示第i对图像-文本数据对以及对应的标签，x_i，y_i与l_i分别表示第i个图像数据、文本数据以及对应的标签数据；通过损失函数学习两种图像和文本数据间的公共语义表达，并将图像与文本特征转化到公共语义空间中；具体为：

S201：将图像与文本数据对o_i＝(x_i,l_i,y_i)分别输入到深度神经网络中训练，通过神经网络的学习将图像与文本特征转化到一个公共语义空间中，其中o_i表示第i对图像-文本数据对以及对应的标签，x_i，y_i与l_i分别表示第i个图像数据，文本数据以及对应的标签数据；

S202：将输入的图像数据集

输入到图像特征提取网络，其中x_i表示第i张图像数据，一共有n张图像；在经过全卷积网络FCN后对图像进行像素级分类，将图像的内容分为背景信息bX₁与主体目标信息mX₁，使用FCN-16s模型作为图像分割网络；

S203：将在步骤S202中图像分离的背景信息bX₁，通过一个卷积网络，采用VGG-16，并且最后一层的全连接输出长度为e₁，通过全连接网络后得到背景信息的高级特征信息bX₂，长度为e₁；

iF＝α₁mX₄+β₁bX₂

其中α₁+β₁＝1,α₁＞β₁，α₁＝0.8,β₁＝0.2；

S205：在文本侧网络中，将文本数据集中内容

使用语义角色标注，其中，m为文本数据量，将文本数据中的“施事”与“受事”角色，生成文本侧的主体目标向量mY₁，其他角色词作为辅助信息词向量bY₁；

S206：将标注好不同角色的词分别使用的是Glove模型，并使用Google News数据集在模型上进行预训练，将生成的词向量mY₁与bY₁分别输入到独立的全连接网络中；主体目标信息mY₁经过一个卷积网络后得到的文本信息的高级语义特征为mY₂，并通过两层全连接网络所输出的特征，分别对应的特征为mY₃与mY₄，其中，mY₃与mY₄分别对应文本侧的神经网络中倒数第3层与倒数第2层的全连接输出，并将bY₁经过一个全连接层的输出bY₂与mX₄进行特征融合，输入到最后一层全连接层中得到tF，融合公式为tF＝α₂mY₄+β₂bY₂，其中α₂+β₂＝1,α₂＞β₂，α₂＝0.8,β₂＝0.2；

S207：标签数据通过一层全连接网络生成自监督的高级标签语义信息；在最后两层全连接网络所输出的语义信息分别为L₁和L₂；

S208：计算损失值，并通过训练缩小损失值，得到训练好的深度神经网络模型；

2.根据权利要求1所述的一种基于公共语义空间学习构建图文知识图谱方法，其特征在于，所述根据相似度度量，依据CN-DBpedia的构建方法构建知识图谱，具体包括：

3.根据权利要求1所述的一种基于公共语义空间学习构建图文知识图谱方法，其特征在于，计算损失值，并通过训练缩小损失值，得到训练好的深度神经网络模型，包括：所述的mX₃，mY₃与L₁之间的三元损失定义为：

其中m₁是均衡化系数。

4.根据权利要求1所述的一种基于公共语义空间学习构建图文知识图谱方法，其特征在于，计算损失值，并通过训练缩小损失值，得到训练好的深度神经网络模型，还包括：所述的mX₄，mY₄与L₂之间的三元损失定义为：

其中m₂是均衡化系数。

5.根据权利要求1所述的一种基于公共语义空间学习构建图文知识图谱方法，其特征在于，计算损失值，并通过训练缩小损失值，得到训练好的深度神经网络模型，还包括： mX₅和mY₅之间的损失定义为：

其中||·||_F表示F范数。