CN112818135B - 一种基于公共语义空间学习构建图文知识图谱方法 - Google Patents
一种基于公共语义空间学习构建图文知识图谱方法 Download PDFInfo
- Publication number
- CN112818135B CN112818135B CN202110208342.2A CN202110208342A CN112818135B CN 112818135 B CN112818135 B CN 112818135B CN 202110208342 A CN202110208342 A CN 202110208342A CN 112818135 B CN112818135 B CN 112818135B
- Authority
- CN
- China
- Prior art keywords
- image
- text
- data
- knowledge graph
- constructing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于公共语义空间学习构建图文知识图谱方法,包括如下步骤:构建深度神经网络用于图像与文本数据的深度特征提取;将图像与文本数据对oi=(xi,li,yi)分别输入到深度神经网络中训练;其中oi表示第i对图像‑文本对数据以及对应的标签,xi,yi与li分别表示第i个图像数据、文本数据以及对应的标签数据;通过损失函数学习两种图像和文本数据间的公共语义表达,并将图像与文本特征转化到公共语义空间中;根据相似度度量,依据CN‑DBpedia的构建方法构建知识图谱。本发明提供的方法能有效实现图像、文本两种不同的模态间的知识图谱构建。
Description
技术领域
本发明涉及人工智能领域,特别是指一种基于公共语义空间学习构建图文知识图谱方法。
背景技术
随着人工智能技术的快速发展和普及,当今社会逐步进入了智能化时代。知识图谱是人工智能技术的重要组成部分。其以结构化的方式描述客观世界中的概念、实体及之间的关系。知识图谱提供了一种更好的组织、管理和理解互联网海量信息的能力,将互联网的信息表达成更接近于人类认知世界的形式。而随着多模态、多媒体数据的爆炸式增长和知识的表现形式以及存储形式的多样性,跨模态知识图谱成为研究热点。
跨模态的图文知识图谱旨在不同模态的数据间(图像、文本)进行知识图谱的构建,具有非常重要的应用价值,其应用场景非常广泛,例如多媒体化知识库的构建、网页的图文知识连接等。由于图像与文本数据之间存在着异构鸿沟以及相似性度量非常困难,如何依据图像与文本的内容衡量两种模态数据之间的相似性,是构建图文模态知识图谱的关键以及难点。
发明内容
本发明的主要目的在于克服现有技术中的上述缺陷,提出一种基于公共语义空间学习构建图文知识图谱方法,将图文两种不同的模态数据特征映射到公共的语义空间中,实现两种模态数据之间的语义连接以及知识连接,能有效实现图像、文本两种不同的模态间的知识图谱构建。
本发明采用如下技术方案:
一种基于公共语义空间学习构建图文知识图谱方法,包括如下步骤:
构建深度神经网络用于图像与文本数据的深度特征提取;
将图像与文本数据对oi=(xi,li,yi)分别输入到深度神经网络中训练;其中oi表示第i对图像-文本对数据以及对应的标签,xi,yi与li分别表示第i个图像数据、文本数据以及对应的标签数据;通过损失函数学习两种图像和文本数据间的公共语义表达,并将图像与文本特征转化到公共语义空间中;
根据相似度度量,依据CN-DBpedia的构建方法构建知识图谱。
具体地,所述将图像与文本数据对oi=(xi,li,yi)分别输入到深度神经网络中训练;其中oi表示第i对图像-文本对数据以及对应的标签,xi,yi与li分别表示第i个图像数据、文本数据以及对应的标签数据;通过损失函数学习两种图像和文本数据间的公共语义表达,并将图像与文本特征转化到公共语义空间中;具体为:
将输入的图像数据集输入到深度神经网络,其中xi表示第i张图像数据,n为图像数量;经过全卷积网络FCN后对图像进行像素级分类,将图像的内容分为图像背景信息bX1与图像主体目标信息mX1,并将图像背景信息bX1与图像主体目标信息mX1通过浅层卷积网络后进行特征融合处理;
将标注好的不同角色的词输入到Glove模型,并使用Google News数据集在模型上进行预训练生成主体目标信息mY1与词向量bY1,并将主体目标信息mY1与词向量bY1分别输入到独立的全连接网络后进行特征融合;
标签数据通过一层全连接网络生成自监督的高级标签语义信息;在最后两层全连接网络所输出的语义信息分别为L1和L2;
计算损失值,并通过训练缩小损失值,得到训练好的深度神经网络模型。
具体地,所述将图像背景信息bX1与图像主体目标信息mX1通过浅层卷积网络后进行特征融合处理;具体为:
将图像背景信息bX1,通过一个浅层卷积网络,通过全连接网络后得到背景信息的高级特征信息bX2,长度为e1;
将图像主体目标信息mX1经过一个卷积网络后得到的高级语义特征为mX2,并通过两层全连接网络所输出的特征,分别对应的特征为mX3与mX4,mX3与mX4分别对应图像侧的神经网络中倒数第3层与倒数第2层的全连接输出,mX4的特征长度为e1,并将bX2与mX4进行特征融合。
具体地,将bX2与mX4进行特征融合,具体为:
并将bX2与mX4进行特征融合,输入到最后一层全连接层中得到iF,融合公式如下:
iF=α1mX4+β1bX2,其中α1+β1=1,α1>β1。
具体地:所述将主体目标信息mY1与词向量bY1分别输入到独立的全连接网络后进行特征融合;具体为:
主体目标信息mY1经过一个卷积网络后得到的文本信息的高级语义特征为mY2,并通过两层全连接网络所输出的特征,分别对应的特征为mY3与mY4,mY3与mY4分别对应文本侧的神经网络中倒数第3层与倒数第2层的全连接输出,并将bY1经过一个全连接层的输出bY2,将bY2与mY4进行特征融合。
具体地,所述将bY2与mY4进行特征融合,具体为:
输入到最后一层全连接层中得到tF,融合公式如下:
tF=α2mY4+β2bY2,其中α2+β2=1,α2>β2。
具体地,所述根据相似度度量,依据CN-DBpedia的构建方法构建知识图谱,具体包括:
构建知识图谱的方法为通过公共语义空间,对图像与文本的高级语义信息进行相似性度量;
依据CN-DBpedia的构建方法,将图像作为同其语义相似度最高的主体,关系连接依据语义最近的文本信息进行连接;
将图像数据融入到知识图谱中,实现跨模态知识图谱的构建。
具体地,计算损失值,并通过训练缩小损失值,得到训练好的深度神经网络模型,包括:所述的mX3,mY3与L1之间的三元损失定义为:
其中m1是均衡化系数。
具体地,计算损失值,并通过训练缩小损失值,得到训练好的深度神经网络模型,还包括:所述的mX4,mY4与L2之间的三元损失定义为:
其中m2是均衡化系数。
具体地,计算损失值,并通过训练缩小损失值,得到训练好的深度神经网络模型,还包括:所述的mX5和mY5之间的损失定义为:
其中||·||F表示F范数。
由上述对本发明的描述可知,与现有技术相比,本发明具有如下有益效果:
(1)本发明公开一种基于公共语义空间学习构建图文知识图谱方法,将图文两种不同的模态数据特征映射到公共的语义空间中,实现两种模态数据之间的语义连接以及知识连接;首先构建深度神经网络用以图、文深度特征提取,学习两种模态数据间的公共语义表达,设计损失函数,对输入的图像与文本进行相似性度量,根据公共语义表达构建图文跨模态的知识图谱。本发明方法能有效实现图像、文本两种不同的模态间的知识图谱构建。
(2)本发明方法考虑了图像与文本两种模态数据间的公共语义空间构建,已达到图像与文本相似性度量的目的,并且将图像作为文本实体的等价实体用在知识图谱的构建中;本方法不仅有着很高的效率也有着非常好的语义对齐准确率。
附图说明
图1为本发明实施例提供的公共语义空间学习构建图文知识图谱方法流程图;
图2为本发明实施例提供的基于公共语义空间学习构建图文知识图谱方法的框架示意图。
以下结合附图和具体实施例对本发明作进一步详述。
具体实施方式
以下通过具体实施方式对本发明作进一步的描述。
本发明提供了一种基于公共语义空间学习构建图文知识图谱方法,首先构建深度神经网络用以图、文深度特征提取,学习两种模态数据间的公共语义表达,设计损失函数,对输入的图像与文本进行相似性度量,根据公共语义表达构建图文跨模态的知识图谱,能有效实现图像、文本两种不同的模态间的知识图谱构建。
如图1为本发明实施例提供的公共语义空间学习构建图文知识图谱方法流程图,如图2为本发明实施例提供的基于公共语义空间学习构建图文知识图谱方法的框架示意图,具体步骤为:
S10:构建深度神经网络用于图像与文本数据的深度特征提取;
S20:将图像与文本数据对oi=(xi,li,yi)分别输入到深度神经网络中训练;其中oi表示第i对图像-文本对数据以及对应的标签,xi,yi与li分别表示第i个图像数据、文本数据以及对应的标签数据;通过损失函数学习两种图像和文本数据间的公共语义表达,并将图像与文本特征转化到公共语义空间中;
S201:将图像与文本数据对oi=(xi,li,yi)分别输入到深度神经网络中训练,通过神经网络的学习将图像与文本特征转化到一个公共语义空间中,其中oi表示第i对图像-文本数据对以及对应的标签,xi,yi与li分别表示第i个图像数据,文本数据以及对应的标签数据。
S202:将输入的图像数据集输入到图像特征提取网络,其中xi表示第i张图像数据,一共有n张图像。在经过全卷积网络FCN后对图像进行像素级分类以达到对前后景分割的效果,将图像的内容分为背景信息bX1与主体目标信息mX1,本方法中可以使用FCN-16s模型作为图像分割网络。
S203:将在步骤2中图像分离的背景信息bX1,通过一个卷积网络,作为最优选本方法中采用VGG-16,并且最后一层的全连接输出长度为e1,通过全连接网络后得到背景信息的高级特征信息bX2,长度为e1。
S204:主体目标信息mX1经过一个卷积网络后得到的高级语义特征为mX2,并通过两层全连接网络所输出的特征,分别对应的特征为mX3与mX4,其中,mX3与mX4分别对应图像侧的神经网络中倒数第3层与倒数第2层的全连接输出,mX4的特征长度为e1,并将bX2与mX4进行特征融合,输入到最后一层全连接层中得到iF,融合公式如下:
iF=α1mX4+β1bX2
其中α1+β1=1,α1>β1,作为优选α1=0.8,β1=0.2。
S206:将标注好不同角色的词分别使用的是Glove模型,并使用Google News数据集在模型上进行预训练,将生成的词向量mY1与bY1分别输入到独立的全连接网络中。主体目标信息mY1经过一个卷积网络后得到的文本信息的高级语义特征为mY2,并通过两层全连接网络所输出的特征,分别对应的特征为mY3与mY4,其中,mY3与mY4分别对应文本侧的神经网络中倒数第3层与倒数第2层的全连接输出,并将bY1经过一个全连接层的输出bY2与mX4进行特征融合,输入到最后一层全连接层中得到tF,融合公式为tF=α2mY4+β2bY2,其中α2+β2=1,α2>β2,作为优选α2=0.8,β2=0.2。
S207:标签数据通过一层全连接网络生成自监督的高级标签语义信息;在最后两层全连接网络所输出的语义信息分别为L1和L2。
S208:分别计算mX3,mY3与L1,mX4,mX4与L2以及最终的隐藏语义向量mX5和mY5之间的损失值,其算是函数分别为J1,J2以及J3,其具体公式如下:
S209:通过不断地并缩小损失J=J1+J2+J3,作为优选循环训练500次,学习率为10-2.5
S30:根据相似度度量,依据CN-DBpedia的构建方法构建知识图谱。
步骤301:构建知识图谱的方法为通过公共语义空间,对图像与文本的高级语义信息进行相似性度量,将图像作为同其语义相似度最高的主体。
步骤302:依据自底向上构建一个知识图谱,作为优选选择CN-DBpedia的构建流程,图像的关系连接依据其语义最近的文本信息进行连接,依照此种策略将图像数据融入到知识图谱中,实现跨模态知识图谱的构建。
本发明公开一种基于公共语义空间学习构建图文知识图谱方法,将图文两种不同的模态数据特征映射到公共的语义空间中,实现两种模态数据之间的语义连接以及知识连接;首先构建深度神经网络用以图、文深度特征提取,学习两种模态数据间的公共语义表达,设计损失函数,对输入的图像与文本进行相似性度量,根据公共语义表达构建图文跨模态的知识图谱。本发明方法能有效实现图像、文本两种不同的模态间的知识图谱构建。
本发明方法考虑了图像与文本两种模态数据间的公共语义空间构建,已达到图像与文本相似性度量的目的,并且将图像作为文本实体的等价实体用在知识图谱的构建中;本方法不仅有着很高的效率也有着非常好的语义对齐准确率。
上述仅为本发明的具体实施方式,但本发明的设计构思并不局限于此,凡利用此构思对本发明进行非实质性的改动,均应属于侵犯本发明保护范围的行为。
Claims (5)
1.一种基于公共语义空间学习构建图文知识图谱方法,其特征在于,包括如下步骤:
S10:构建深度神经网络用于图像与文本数据的深度特征提取;
S20:将图像与文本数据对oi=(xi,li,yi)分别输入到深度神经网络中训练;其中oi表示第i对图像-文本数据对 以及对应的标签,xi,yi与li分别表示第i个图像数据、文本数据以及对应的标签数据;通过损失函数学习两种图像和文本数据间的公共语义表达,并将图像与文本特征转化到公共语义空间中;具体为:
S201:将图像与文本数据对oi=(xi,li,yi)分别输入到深度神经网络中训练,通过神经网络的学习将图像与文本特征转化到一个公共语义空间中,其中oi表示第i对图像-文本数据对以及对应的标签,xi,yi与li分别表示第i个图像数据,文本数据以及对应的标签数据;
S202:将输入的图像数据集输入到图像特征提取网络,其中xi表示第i张图像数据,一共有n张图像;在经过全卷积网络FCN后对图像进行像素级分类,将图像的内容分为背景信息bX1与主体目标信息mX1,使用FCN-16s模型作为图像分割网络;
S203:将在步骤S202中图像分离的背景信息bX1,通过一个卷积网络,采用VGG-16,并且最后一层的全连接输出长度为e1,通过全连接网络后得到背景信息的高级特征信息bX2,长度为e1;
S204:主体目标信息mX1经过一个卷积网络后得到的高级语义特征为mX2,并通过两层全连接网络所输出的特征,分别对应的特征为mX3与mX4,其中,mX3与mX4分别对应图像侧的神经网络中倒数第3层与倒数第2层的全连接输出,mX4的特征长度为e1,并将bX2与mX4进行特征融合,输入到最后一层全连接层中得到iF,融合公式如下:
iF=α1mX4+β1bX2
其中α1+β1=1,α1>β1,α1=0.8,β1=0.2;
S206:将标注好不同角色的词分别使用的是Glove模型,并使用Google News数据集在模型上进行预训练,将生成的词向量mY1与bY1分别输入到独立的全连接网络中;主体目标信息mY1经过一个卷积网络后得到的文本信息的高级语义特征为mY2,并通过两层全连接网络所输出的特征,分别对应的特征为mY3与mY4,其中,mY3与mY4分别对应文本侧的神经网络中倒数第3层与倒数第2层的全连接输出,并将bY1经过一个全连接层的输出bY2与mX4进行特征融合,输入到最后一层全连接层中得到tF,融合公式为tF=α2mY4+β2bY2,其中α2+β2=1,α2>β2,α2=0.8,β2=0.2;
S207:标签数据通过一层全连接网络生成自监督的高级标签语义信息;在最后两层全连接网络所输出的语义信息分别为L1和L2;
S208:计算损失值,并通过训练缩小损失值,得到训练好的深度神经网络模型;
S30:根据相似度度量,依据CN-DBpedia的构建方法构建知识图谱。
2.根据权利要求1所述的一种基于公共语义空间学习构建图文知识图谱方法,其特征在于,所述根据相似度度量,依据CN-DBpedia的构建方法构建知识图谱,具体包括:
构建知识图谱的方法为通过公共语义空间,对图像与文本的高级语义信息进行相似性度量;
依据CN-DBpedia的构建方法,将图像作为同其语义相似度最高的主体,关系连接依据语义最近的文本信息进行连接;
将图像数据融入到知识图谱中,实现跨模态知识图谱的构建。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110208342.2A CN112818135B (zh) | 2021-02-24 | 2021-02-24 | 一种基于公共语义空间学习构建图文知识图谱方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110208342.2A CN112818135B (zh) | 2021-02-24 | 2021-02-24 | 一种基于公共语义空间学习构建图文知识图谱方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112818135A CN112818135A (zh) | 2021-05-18 |
CN112818135B true CN112818135B (zh) | 2022-11-01 |
Family
ID=75865454
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110208342.2A Active CN112818135B (zh) | 2021-02-24 | 2021-02-24 | 一种基于公共语义空间学习构建图文知识图谱方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112818135B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113435206B (zh) * | 2021-05-26 | 2023-08-01 | 卓尔智联(武汉)研究院有限公司 | 一种图文检索方法、装置和电子设备 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10740566B2 (en) * | 2018-03-23 | 2020-08-11 | Servicenow, Inc. | Method and system for automated intent mining, classification and disposition |
CN109002834B (zh) * | 2018-06-15 | 2022-02-11 | 东南大学 | 基于多模态表征的细粒度图像分类方法 |
CN110298395B (zh) * | 2019-06-18 | 2023-04-18 | 天津大学 | 一种基于三模态对抗网络的图文匹配方法 |
CN110765281A (zh) * | 2019-11-04 | 2020-02-07 | 山东浪潮人工智能研究院有限公司 | 一种多语义深度监督跨模态哈希检索方法 |
CN111428071B (zh) * | 2020-03-26 | 2022-02-01 | 电子科技大学 | 一种基于多模态特征合成的零样本跨模态检索方法 |
CN112200317B (zh) * | 2020-09-28 | 2024-05-07 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 多模态知识图谱构建方法 |
-
2021
- 2021-02-24 CN CN202110208342.2A patent/CN112818135B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112818135A (zh) | 2021-05-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yin et al. | Proposalcontrast: Unsupervised pre-training for lidar-based 3d object detection | |
CN111291212B (zh) | 基于图卷积神经网络的零样本草图图像检索方法和系统 | |
CN110852368A (zh) | 全局与局部特征嵌入及图文融合的情感分析方法与系统 | |
WO2023065617A1 (zh) | 基于预训练模型和召回排序的跨模态检索系统及方法 | |
CN108985298B (zh) | 一种基于语义一致性的人体衣物分割方法 | |
CN110647632A (zh) | 基于机器学习的图像与文本映射技术 | |
CN113742494B (zh) | 一种基于标签图转化的领域文本相似度计算方法及系统 | |
WO2023036157A1 (en) | Self-supervised spatiotemporal representation learning by exploring video continuity | |
CN116108215A (zh) | 基于深度融合的跨模态大数据检索方法及系统 | |
CN112818135B (zh) | 一种基于公共语义空间学习构建图文知识图谱方法 | |
CN114693952A (zh) | 一种基于多模态差异性融合网络的rgb-d显著性目标检测方法 | |
CN117765450A (zh) | 一种视频语言理解方法、装置、设备及可读存储介质 | |
Lu et al. | Exploration and application of graphic design language based on artificial intelligence visual communication | |
CN112199531A (zh) | 一种基于哈希算法和邻域图的跨模态检索方法及装置 | |
Wang et al. | Image colorization algorithm based on deep learning | |
CN116384403A (zh) | 一种基于场景图的多模态社交媒体命名实体识别方法 | |
Feng et al. | MDSNet: a multiscale decoupled supervision network for semantic segmentation of remote sensing images | |
CN116524298A (zh) | 基于特征存储库与对比学习的半监督目标检测方法 | |
CN114842301A (zh) | 一种图像注释模型的半监督训练方法 | |
CN115344735A (zh) | 一种层次化对齐的图像文本检索方法 | |
CN115169348A (zh) | 一种基于混合神经网络的事件抽取方法 | |
Qu et al. | Method of feature pyramid and attention enhancement network for pavement crack detection | |
Li et al. | Image aesthetic assessment using a saliency symbiosis network | |
Qian et al. | FASFLNet: feature adaptive selection and fusion lightweight network for RGB-D indoor scene parsing | |
Liang et al. | Multi-scale fusion based super-resolution underwater image segmentation network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |