CN112818135B - 一种基于公共语义空间学习构建图文知识图谱方法 - Google Patents

一种基于公共语义空间学习构建图文知识图谱方法 Download PDF

Info

Publication number
CN112818135B
CN112818135B CN202110208342.2A CN202110208342A CN112818135B CN 112818135 B CN112818135 B CN 112818135B CN 202110208342 A CN202110208342 A CN 202110208342A CN 112818135 B CN112818135 B CN 112818135B
Authority
CN
China
Prior art keywords
image
text
data
knowledge graph
constructing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110208342.2A
Other languages
English (en)
Other versions
CN112818135A (zh
Inventor
曾焕强
刘晓庆
廖昀
张联昌
冯万健
王华虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Yealink Network Technology Co Ltd
Huaqiao University
Original Assignee
Xiamen Yealink Network Technology Co Ltd
Huaqiao University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Yealink Network Technology Co Ltd, Huaqiao University filed Critical Xiamen Yealink Network Technology Co Ltd
Priority to CN202110208342.2A priority Critical patent/CN112818135B/zh
Publication of CN112818135A publication Critical patent/CN112818135A/zh
Application granted granted Critical
Publication of CN112818135B publication Critical patent/CN112818135B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于公共语义空间学习构建图文知识图谱方法,包括如下步骤:构建深度神经网络用于图像与文本数据的深度特征提取;将图像与文本数据对oi=(xi,li,yi)分别输入到深度神经网络中训练;其中oi表示第i对图像‑文本对数据以及对应的标签,xi,yi与li分别表示第i个图像数据、文本数据以及对应的标签数据;通过损失函数学习两种图像和文本数据间的公共语义表达,并将图像与文本特征转化到公共语义空间中;根据相似度度量,依据CN‑DBpedia的构建方法构建知识图谱。本发明提供的方法能有效实现图像、文本两种不同的模态间的知识图谱构建。

Description

一种基于公共语义空间学习构建图文知识图谱方法
技术领域
本发明涉及人工智能领域,特别是指一种基于公共语义空间学习构建图文知识图谱方法。
背景技术
随着人工智能技术的快速发展和普及,当今社会逐步进入了智能化时代。知识图谱是人工智能技术的重要组成部分。其以结构化的方式描述客观世界中的概念、实体及之间的关系。知识图谱提供了一种更好的组织、管理和理解互联网海量信息的能力,将互联网的信息表达成更接近于人类认知世界的形式。而随着多模态、多媒体数据的爆炸式增长和知识的表现形式以及存储形式的多样性,跨模态知识图谱成为研究热点。
跨模态的图文知识图谱旨在不同模态的数据间(图像、文本)进行知识图谱的构建,具有非常重要的应用价值,其应用场景非常广泛,例如多媒体化知识库的构建、网页的图文知识连接等。由于图像与文本数据之间存在着异构鸿沟以及相似性度量非常困难,如何依据图像与文本的内容衡量两种模态数据之间的相似性,是构建图文模态知识图谱的关键以及难点。
发明内容
本发明的主要目的在于克服现有技术中的上述缺陷,提出一种基于公共语义空间学习构建图文知识图谱方法,将图文两种不同的模态数据特征映射到公共的语义空间中,实现两种模态数据之间的语义连接以及知识连接,能有效实现图像、文本两种不同的模态间的知识图谱构建。
本发明采用如下技术方案:
一种基于公共语义空间学习构建图文知识图谱方法,包括如下步骤:
构建深度神经网络用于图像与文本数据的深度特征提取;
将图像与文本数据对oi=(xi,li,yi)分别输入到深度神经网络中训练;其中oi表示第i对图像-文本对数据以及对应的标签,xi,yi与li分别表示第i个图像数据、文本数据以及对应的标签数据;通过损失函数学习两种图像和文本数据间的公共语义表达,并将图像与文本特征转化到公共语义空间中;
根据相似度度量,依据CN-DBpedia的构建方法构建知识图谱。
具体地,所述将图像与文本数据对oi=(xi,li,yi)分别输入到深度神经网络中训练;其中oi表示第i对图像-文本对数据以及对应的标签,xi,yi与li分别表示第i个图像数据、文本数据以及对应的标签数据;通过损失函数学习两种图像和文本数据间的公共语义表达,并将图像与文本特征转化到公共语义空间中;具体为:
将输入的图像数据集
Figure BDA0002950231130000021
输入到深度神经网络,其中xi表示第i张图像数据,n为图像数量;经过全卷积网络FCN后对图像进行像素级分类,将图像的内容分为图像背景信息bX1与图像主体目标信息mX1,并将图像背景信息bX1与图像主体目标信息mX1通过浅层卷积网络后进行特征融合处理;
将文本数据集中内容
Figure BDA0002950231130000022
使用语义角色标注,其中yi表示为第i个文本数据,m为文本数据量,将文本数据中的“施事”与“受事”角色,生成文本侧的主体目标向量mY1,其他角色词作为辅助信息词向量bY1
将标注好的不同角色的词输入到Glove模型,并使用Google News数据集在模型上进行预训练生成主体目标信息mY1与词向量bY1,并将主体目标信息mY1与词向量bY1分别输入到独立的全连接网络后进行特征融合;
标签数据通过一层全连接网络生成自监督的高级标签语义信息;在最后两层全连接网络所输出的语义信息分别为L1和L2
计算损失值,并通过训练缩小损失值,得到训练好的深度神经网络模型。
具体地,所述将图像背景信息bX1与图像主体目标信息mX1通过浅层卷积网络后进行特征融合处理;具体为:
将图像背景信息bX1,通过一个浅层卷积网络,通过全连接网络后得到背景信息的高级特征信息bX2,长度为e1
将图像主体目标信息mX1经过一个卷积网络后得到的高级语义特征为mX2,并通过两层全连接网络所输出的特征,分别对应的特征为mX3与mX4,mX3与mX4分别对应图像侧的神经网络中倒数第3层与倒数第2层的全连接输出,mX4的特征长度为e1,并将bX2与mX4进行特征融合。
具体地,将bX2与mX4进行特征融合,具体为:
并将bX2与mX4进行特征融合,输入到最后一层全连接层中得到iF,融合公式如下:
iF=α1mX41bX2,其中α11=1,α11
具体地:所述将主体目标信息mY1与词向量bY1分别输入到独立的全连接网络后进行特征融合;具体为:
主体目标信息mY1经过一个卷积网络后得到的文本信息的高级语义特征为mY2,并通过两层全连接网络所输出的特征,分别对应的特征为mY3与mY4,mY3与mY4分别对应文本侧的神经网络中倒数第3层与倒数第2层的全连接输出,并将bY1经过一个全连接层的输出bY2,将bY2与mY4进行特征融合。
具体地,所述将bY2与mY4进行特征融合,具体为:
输入到最后一层全连接层中得到tF,融合公式如下:
tF=α2mY42bY2,其中α22=1,α22
具体地,所述根据相似度度量,依据CN-DBpedia的构建方法构建知识图谱,具体包括:
构建知识图谱的方法为通过公共语义空间,对图像与文本的高级语义信息进行相似性度量;
依据CN-DBpedia的构建方法,将图像作为同其语义相似度最高的主体,关系连接依据语义最近的文本信息进行连接;
将图像数据融入到知识图谱中,实现跨模态知识图谱的构建。
具体地,计算损失值,并通过训练缩小损失值,得到训练好的深度神经网络模型,包括:所述的mX3,mY3与L1之间的三元损失定义为:
Figure BDA0002950231130000041
其中m1是均衡化系数。
具体地,计算损失值,并通过训练缩小损失值,得到训练好的深度神经网络模型,还包括:所述的mX4,mY4与L2之间的三元损失定义为:
Figure BDA0002950231130000042
其中m2是均衡化系数。
具体地,计算损失值,并通过训练缩小损失值,得到训练好的深度神经网络模型,还包括:所述的mX5和mY5之间的损失定义为:
Figure BDA0002950231130000043
其中||·||F表示F范数。
由上述对本发明的描述可知,与现有技术相比,本发明具有如下有益效果:
(1)本发明公开一种基于公共语义空间学习构建图文知识图谱方法,将图文两种不同的模态数据特征映射到公共的语义空间中,实现两种模态数据之间的语义连接以及知识连接;首先构建深度神经网络用以图、文深度特征提取,学习两种模态数据间的公共语义表达,设计损失函数,对输入的图像与文本进行相似性度量,根据公共语义表达构建图文跨模态的知识图谱。本发明方法能有效实现图像、文本两种不同的模态间的知识图谱构建。
(2)本发明方法考虑了图像与文本两种模态数据间的公共语义空间构建,已达到图像与文本相似性度量的目的,并且将图像作为文本实体的等价实体用在知识图谱的构建中;本方法不仅有着很高的效率也有着非常好的语义对齐准确率。
附图说明
图1为本发明实施例提供的公共语义空间学习构建图文知识图谱方法流程图;
图2为本发明实施例提供的基于公共语义空间学习构建图文知识图谱方法的框架示意图。
以下结合附图和具体实施例对本发明作进一步详述。
具体实施方式
以下通过具体实施方式对本发明作进一步的描述。
本发明提供了一种基于公共语义空间学习构建图文知识图谱方法,首先构建深度神经网络用以图、文深度特征提取,学习两种模态数据间的公共语义表达,设计损失函数,对输入的图像与文本进行相似性度量,根据公共语义表达构建图文跨模态的知识图谱,能有效实现图像、文本两种不同的模态间的知识图谱构建。
如图1为本发明实施例提供的公共语义空间学习构建图文知识图谱方法流程图,如图2为本发明实施例提供的基于公共语义空间学习构建图文知识图谱方法的框架示意图,具体步骤为:
S10:构建深度神经网络用于图像与文本数据的深度特征提取;
S20:将图像与文本数据对oi=(xi,li,yi)分别输入到深度神经网络中训练;其中oi表示第i对图像-文本对数据以及对应的标签,xi,yi与li分别表示第i个图像数据、文本数据以及对应的标签数据;通过损失函数学习两种图像和文本数据间的公共语义表达,并将图像与文本特征转化到公共语义空间中;
S201:将图像与文本数据对oi=(xi,li,yi)分别输入到深度神经网络中训练,通过神经网络的学习将图像与文本特征转化到一个公共语义空间中,其中oi表示第i对图像-文本数据对以及对应的标签,xi,yi与li分别表示第i个图像数据,文本数据以及对应的标签数据。
S202:将输入的图像数据集
Figure BDA0002950231130000061
输入到图像特征提取网络,其中xi表示第i张图像数据,一共有n张图像。在经过全卷积网络FCN后对图像进行像素级分类以达到对前后景分割的效果,将图像的内容分为背景信息bX1与主体目标信息mX1,本方法中可以使用FCN-16s模型作为图像分割网络。
S203:将在步骤2中图像分离的背景信息bX1,通过一个卷积网络,作为最优选本方法中采用VGG-16,并且最后一层的全连接输出长度为e1,通过全连接网络后得到背景信息的高级特征信息bX2,长度为e1
S204:主体目标信息mX1经过一个卷积网络后得到的高级语义特征为mX2,并通过两层全连接网络所输出的特征,分别对应的特征为mX3与mX4,其中,mX3与mX4分别对应图像侧的神经网络中倒数第3层与倒数第2层的全连接输出,mX4的特征长度为e1,并将bX2与mX4进行特征融合,输入到最后一层全连接层中得到iF,融合公式如下:
iF=α1mX41bX2
其中α11=1,α11,作为优选α1=0.8,β1=0.2。
S205:在文本侧网络中,将文本数据集中内容
Figure BDA0002950231130000062
使用语义角色标注,其中,m为文本数据量,将文本数据中的“施事”与“受事”角色,生成文本侧的主体目标向量mY1,其他角色词作为辅助信息词向量bY1
S206:将标注好不同角色的词分别使用的是Glove模型,并使用Google News数据集在模型上进行预训练,将生成的词向量mY1与bY1分别输入到独立的全连接网络中。主体目标信息mY1经过一个卷积网络后得到的文本信息的高级语义特征为mY2,并通过两层全连接网络所输出的特征,分别对应的特征为mY3与mY4,其中,mY3与mY4分别对应文本侧的神经网络中倒数第3层与倒数第2层的全连接输出,并将bY1经过一个全连接层的输出bY2与mX4进行特征融合,输入到最后一层全连接层中得到tF,融合公式为tF=α2mY42bY2,其中α22=1,α22,作为优选α2=0.8,β2=0.2。
S207:标签数据通过一层全连接网络生成自监督的高级标签语义信息;在最后两层全连接网络所输出的语义信息分别为L1和L2
S208:分别计算mX3,mY3与L1,mX4,mX4与L2以及最终的隐藏语义向量mX5和mY5之间的损失值,其算是函数分别为J1,J2以及J3,其具体公式如下:
Figure BDA0002950231130000071
Figure BDA0002950231130000072
Figure BDA0002950231130000073
S209:通过不断地并缩小损失J=J1+J2+J3,作为优选循环训练500次,学习率为10-2.5
S30:根据相似度度量,依据CN-DBpedia的构建方法构建知识图谱。
步骤301:构建知识图谱的方法为通过公共语义空间,对图像与文本的高级语义信息进行相似性度量,将图像作为同其语义相似度最高的主体。
步骤302:依据自底向上构建一个知识图谱,作为优选选择CN-DBpedia的构建流程,图像的关系连接依据其语义最近的文本信息进行连接,依照此种策略将图像数据融入到知识图谱中,实现跨模态知识图谱的构建。
本发明公开一种基于公共语义空间学习构建图文知识图谱方法,将图文两种不同的模态数据特征映射到公共的语义空间中,实现两种模态数据之间的语义连接以及知识连接;首先构建深度神经网络用以图、文深度特征提取,学习两种模态数据间的公共语义表达,设计损失函数,对输入的图像与文本进行相似性度量,根据公共语义表达构建图文跨模态的知识图谱。本发明方法能有效实现图像、文本两种不同的模态间的知识图谱构建。
本发明方法考虑了图像与文本两种模态数据间的公共语义空间构建,已达到图像与文本相似性度量的目的,并且将图像作为文本实体的等价实体用在知识图谱的构建中;本方法不仅有着很高的效率也有着非常好的语义对齐准确率。
上述仅为本发明的具体实施方式,但本发明的设计构思并不局限于此,凡利用此构思对本发明进行非实质性的改动,均应属于侵犯本发明保护范围的行为。

Claims (5)

1.一种基于公共语义空间学习构建图文知识图谱方法,其特征在于,包括如下步骤:
S10:构建深度神经网络用于图像与文本数据的深度特征提取;
S20:将图像与文本数据对oi=(xi,li,yi)分别输入到深度神经网络中训练;其中oi表示第i对图像-文本数据对 以及对应的标签,xi,yi与li分别表示第i个图像数据、文本数据以及对应的标签数据;通过损失函数学习两种图像和文本数据间的公共语义表达,并将图像与文本特征转化到公共语义空间中;具体为:
S201:将图像与文本数据对oi=(xi,li,yi)分别输入到深度神经网络中训练,通过神经网络的学习将图像与文本特征转化到一个公共语义空间中,其中oi表示第i对图像-文本数据对以及对应的标签,xi,yi与li分别表示第i个图像数据,文本数据以及对应的标签数据;
S202:将输入的图像数据集
Figure FDA0003809422620000011
输入到图像特征提取网络,其中xi表示第i张图像数据,一共有n张图像;在经过全卷积网络FCN后对图像进行像素级分类,将图像的内容分为背景信息bX1与主体目标信息mX1,使用FCN-16s模型作为图像分割网络;
S203:将在步骤S202中图像分离的背景信息bX1,通过一个卷积网络,采用VGG-16,并且最后一层的全连接输出长度为e1,通过全连接网络后得到背景信息的高级特征信息bX2,长度为e1
S204:主体目标信息mX1经过一个卷积网络后得到的高级语义特征为mX2,并通过两层全连接网络所输出的特征,分别对应的特征为mX3与mX4,其中,mX3与mX4分别对应图像侧的神经网络中倒数第3层与倒数第2层的全连接输出,mX4的特征长度为e1,并将bX2与mX4进行特征融合,输入到最后一层全连接层中得到iF,融合公式如下:
iF=α1mX41bX2
其中α11=1,α1>β1,α1=0.8,β1=0.2;
S205:在文本侧网络中,将文本数据集中内容
Figure FDA0003809422620000021
使用语义角色标注,其中,m为文本数据量,将文本数据中的“施事”与“受事”角色,生成文本侧的主体目标向量mY1,其他角色词作为辅助信息词向量bY1
S206:将标注好不同角色的词分别使用的是Glove模型,并使用Google News数据集在模型上进行预训练,将生成的词向量mY1与bY1分别输入到独立的全连接网络中;主体目标信息mY1经过一个卷积网络后得到的文本信息的高级语义特征为mY2,并通过两层全连接网络所输出的特征,分别对应的特征为mY3与mY4,其中,mY3与mY4分别对应文本侧的神经网络中倒数第3层与倒数第2层的全连接输出,并将bY1经过一个全连接层的输出bY2与mX4进行特征融合,输入到最后一层全连接层中得到tF,融合公式为tF=α2mY42bY2,其中α22=1,α2>β2,α2=0.8,β2=0.2;
S207:标签数据通过一层全连接网络生成自监督的高级标签语义信息;在最后两层全连接网络所输出的语义信息分别为L1和L2
S208:计算损失值,并通过训练缩小损失值,得到训练好的深度神经网络模型;
S30:根据相似度度量,依据CN-DBpedia的构建方法构建知识图谱。
2.根据权利要求1所述的一种基于公共语义空间学习构建图文知识图谱方法,其特征在于,所述根据相似度度量,依据CN-DBpedia的构建方法构建知识图谱,具体包括:
构建知识图谱的方法为通过公共语义空间,对图像与文本的高级语义信息进行相似性度量;
依据CN-DBpedia的构建方法,将图像作为同其语义相似度最高的主体,关系连接依据语义最近的文本信息进行连接;
将图像数据融入到知识图谱中,实现跨模态知识图谱的构建。
3.根据权利要求1所述的一种基于公共语义空间学习构建图文知识图谱方法,其特征在于,计算损失值,并通过训练缩小损失值,得到训练好的深度神经网络模型,包括:所述的mX3,mY3与L1之间的三元损失定义为:
Figure FDA0003809422620000031
其中m1是均衡化系数。
4.根据权利要求1所述的一种基于公共语义空间学习构建图文知识图谱方法,其特征在于,计算损失值,并通过训练缩小损失值,得到训练好的深度神经网络模型,还包括:所述的mX4,mY4与L2之间的三元损失定义为:
Figure FDA0003809422620000032
其中m2是均衡化系数。
5.根据权利要求1所述的一种基于公共语义空间学习构建图文知识图谱方法,其特征在于,计算损失值,并通过训练缩小损失值,得到训练好的深度神经网络模型,还包括: mX5和mY5之间的损失定义为:
Figure FDA0003809422620000033
其中||·||F表示F范数。
CN202110208342.2A 2021-02-24 2021-02-24 一种基于公共语义空间学习构建图文知识图谱方法 Active CN112818135B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110208342.2A CN112818135B (zh) 2021-02-24 2021-02-24 一种基于公共语义空间学习构建图文知识图谱方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110208342.2A CN112818135B (zh) 2021-02-24 2021-02-24 一种基于公共语义空间学习构建图文知识图谱方法

Publications (2)

Publication Number Publication Date
CN112818135A CN112818135A (zh) 2021-05-18
CN112818135B true CN112818135B (zh) 2022-11-01

Family

ID=75865454

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110208342.2A Active CN112818135B (zh) 2021-02-24 2021-02-24 一种基于公共语义空间学习构建图文知识图谱方法

Country Status (1)

Country Link
CN (1) CN112818135B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113435206B (zh) * 2021-05-26 2023-08-01 卓尔智联(武汉)研究院有限公司 一种图文检索方法、装置和电子设备

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10740566B2 (en) * 2018-03-23 2020-08-11 Servicenow, Inc. Method and system for automated intent mining, classification and disposition
CN109002834B (zh) * 2018-06-15 2022-02-11 东南大学 基于多模态表征的细粒度图像分类方法
CN110298395B (zh) * 2019-06-18 2023-04-18 天津大学 一种基于三模态对抗网络的图文匹配方法
CN110765281A (zh) * 2019-11-04 2020-02-07 山东浪潮人工智能研究院有限公司 一种多语义深度监督跨模态哈希检索方法
CN111428071B (zh) * 2020-03-26 2022-02-01 电子科技大学 一种基于多模态特征合成的零样本跨模态检索方法
CN112200317B (zh) * 2020-09-28 2024-05-07 西南电子技术研究所(中国电子科技集团公司第十研究所) 多模态知识图谱构建方法

Also Published As

Publication number Publication date
CN112818135A (zh) 2021-05-18

Similar Documents

Publication Publication Date Title
CN111291212B (zh) 基于图卷积神经网络的零样本草图图像检索方法和系统
Yin et al. Proposalcontrast: Unsupervised pre-training for lidar-based 3d object detection
CN106547880B (zh) 一种融合地理区域知识的多维度地理场景识别方法
CN110852368A (zh) 全局与局部特征嵌入及图文融合的情感分析方法与系统
WO2023065617A1 (zh) 基于预训练模型和召回排序的跨模态检索系统及方法
CN108985298B (zh) 一种基于语义一致性的人体衣物分割方法
CN110647632B (zh) 基于机器学习的图像与文本映射技术
CN109284414B (zh) 基于语义保持的跨模态内容检索方法和系统
CN110866129A (zh) 一种基于跨媒体统一表征模型的跨媒体检索方法
CN110598537A (zh) 一种基于深度卷积网络的视频显著性检测方法
CN112818135B (zh) 一种基于公共语义空间学习构建图文知识图谱方法
CN114693952A (zh) 一种基于多模态差异性融合网络的rgb-d显著性目标检测方法
CN116108215A (zh) 基于深度融合的跨模态大数据检索方法及系统
CN116975615A (zh) 基于视频多模态信息的任务预测方法和装置
Wang et al. A novel attention-based lightweight network for multiscale object detection in underwater images
Jishan et al. Hybrid deep neural network for bangla automated image descriptor
WO2023036157A1 (en) Self-supervised spatiotemporal representation learning by exploring video continuity
Lu et al. Exploration and application of graphic design language based on artificial intelligence visual communication
CN113742494B (zh) 一种基于标签图转化的领域文本相似度计算方法及系统
CN113516118B (zh) 一种图像与文本联合嵌入的多模态文化资源加工方法
CN113239215B (zh) 多媒体资源的分类方法、装置、电子设备及存储介质
CN114842301A (zh) 一种图像注释模型的半监督训练方法
CN115344735A (zh) 一种层次化对齐的图像文本检索方法
CN115169348A (zh) 一种基于混合神经网络的事件抽取方法
Feng et al. MDSNet: a multiscale decoupled supervision network for semantic segmentation of remote sensing images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant