CN113065012A - 一种基于多模态动态交互机制的图文解析方法 - Google Patents
一种基于多模态动态交互机制的图文解析方法 Download PDFInfo
- Publication number
- CN113065012A CN113065012A CN202110288644.5A CN202110288644A CN113065012A CN 113065012 A CN113065012 A CN 113065012A CN 202110288644 A CN202110288644 A CN 202110288644A CN 113065012 A CN113065012 A CN 113065012A
- Authority
- CN
- China
- Prior art keywords
- text
- module
- image
- model
- formula
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
一种基于多模态动态交互机制的图文解析方法,提出了一个动态模态交互建模框架用于解决图文检索问题,该框架不仅能够涵盖现有方法的交互模式,还能够自动学习其他未被探索到的模式。为了赋予模型充分的模态交互能力,从不同角度、不同粒度设计了四种基础的交互模块,其有效解决了模态内推理和模态间对齐两大图文检索中的核心挑战。为了动态地学习模态交互模式,在每个交互模块中整合了一个动态路由器。通过提出的语义一致性正则化技术对路径决策过程进行了合理的、强有力的约束,确保了模型路径学习的高效性。在进行图像和文本之间的相互检索时准确度大幅度提高。
Description
技术领域
本发明涉及图文检索技术领域,具体涉及一种基于多模态动态交互机制的图文解析方法。
背景技术
视觉和语言作为信息表示、存储和传播的两大重要媒介,在日常生产和生活中扮演着重要的角色。近年来,随着计算机技术和人工智能的发展,人们对机器感知和推理的需求与日俱增,特别是对于图像和文本两种数据的理解与匹配,故图文检索吸引了国内外众多研究者的研究兴趣。作为信息检索和多媒体计算领域的基础性和关键性任务,其不仅能有效地打破视觉和语言之间的语义鸿沟和分布壁垒,还能促进许多上层应用的发展(如:跨模态检索、图像标注、视觉问答),因而具有广泛的、深刻的研究意义。
图文检索任务聚焦于图像和文本之间的相互检索,它的发展面临着诸多挑战,其中的两个最具代表性的挑战为:模态内关系的推理和模态间语义的对齐。前者要求准确地识别和理解模态内部实体间的关系,如“小男孩旁边有一个红色的雪橇”;后者则要求在语义层面精确地对不同模态间的实体进行对齐。近年来,针对以上两大挑战,图文检索领域涌现了众多研究工作,其大致可以分为三个类别:基于模态内交互的方法、基于模态间交互的方法、基于混合模态交互的方法。这三类方法主要存在两个问题:首先,这些方法的模态交互模式是手工设计的,严重依赖于专家性经验和大量的实验反馈,这很有可能导致最优的模态交互模式未被探索到;另外,这些方法无一例外都属于静态方法,即所有的数据样本都经过相同且固定的计算流。即使简单的样本也不得不经过复杂的交互计算,这将导致计算资源的浪费。
发明内容
本发明为了克服以上技术的不足,提供了一种实现图像数据库和文本数据库之间的双向语义配对和检索的基于多模态动态交互机制的图文解析方法。
本发明克服其技术问题所采用的技术方案是:
一种基于多模态动态交互机制的图文解析方法,包括如下步骤:
a)利用Bottom-up Attention网络和BERT模型分别提取图像的视觉区域特征和文本的上下文感知的词嵌入;
b)定义四种类型的基础交互模块用于完成不同层面及不同粒度的交互操作;
c)对经过多层动态路由精炼的特征与另一模态的特征计算余弦相似度;
d)利用在线负样本挖掘方法计算三元组损失项;
e)以BERT提取的文本特征之间的相似度为监督信号,对收集的交互路径之间的相似度进行约束,得到路径损失项;
f)结合三元组损失项和路径损失项,利用PyTorch中的Adam优化器对模型进行端到端的优化;
g)使用优化的模型提取图像和文本的特征,计算余弦相似度,进行双向跨模态检索。
进一步的,步骤a)中选择Bottom-up Attention网络提取的按照置信度排序的前R个区域特征,使用全连接变换得到矩阵V,vi为第i个区域的特征,i∈{1,...,R},为实数空间,D为特征的维度,对矩阵V利用平均池化得到全局图像特征利用预训练的BERT模型提取文本词嵌入,使用一维卷积网络对提取的文本词嵌入进行局部关系增强,得到矩阵W,wi为第i个单词的特征,i∈{1,...,K},对矩阵W利用最大池化得到全局文本特征进一步的,步骤b)包括如下步骤:
b-1)通过公式得到第l层第i个基础交互模块输出的特征矩阵式中为第l层第i个基础交互模块的交互函数,为第l层第i个基础交互模块的输入,使用矩阵表示局部查询特征,使用矩阵表示全局查询特征,使用矩阵表示局部候选特征,使用矩阵表示全局候选特征,M和N分别为两个矩阵的行数,对于图像-文本模型版本,赋值X:=V(M:=R)和Y:=W(N:=K),对于文本-图像模型版本,赋值X:=W(M:=K)和Y:=V(N:=R);
b-3)通过公式建立模态内推理模块,式中Concat(·)为拼接操作,H为头的数目,FFN(·)为由两层感知机所实现的前馈网络,i∈{1,...,H},Softmax(·)为Softmax函数,T为转置,dk为Q′和K′的维度,Wi Q′、Wi K′、Wi V′为模型的权重;
c-1)对修正恒等模块、模态内推理模块、整体-局部引导模块及跨模态精炼模块在深度和宽度两个维度进行稠密连接操作,连接后形成路径空间;
c-2)通过公式表示路径空间的路由过程,式中C为每层的模块总数,表示第(l-1)层第j个模块的输出,为第(l-1)层第j个cell到第1层第i个cell的路由概率, 为第l层第i个cell的路由函数, 为的第r个行向量;
进一步的,步骤c-2)中的第l层第i个cell的路由函数依次由平均池化、多层感知机和非线性映射计算得到。
进一步的,步骤d)包括如下特征:步骤d)包括如下特征:
d-1)给定图像I和文本T,通过计算图像-文本版本的模型的相似度s(I,T),通过公式计算文本-图像版本的模型的相似度s(I,T),对于图像-文本模型版本,赋值X:=V,模型输出为v*=x*,对于文本-图像模型版本,赋值X:=W,模型输出为w*=x*;
进一步的,步骤e)包括如下步骤:
e-1)收集并拼接路由概率得到路由向量e-2)以BERT提取的文本嵌入作为监督信号,使用语义-路径一致性损失对路由向量的学习进修越是,通过公式计算路径损失项LP,式中B为与x处于相同模态的数据实例集合,与为相应的BERT输出特征,gy为临时变量。
进一步的,步骤f)中通过公式L=LA+λPLP结合三元组损失项和路径损失项得到最终的损失L,λP为权衡参数。
本发明的有益效果是:提出了一个动态模态交互建模框架用于解决图文检索问题,该框架不仅能够涵盖现有方法的交互模式,还能够自动学习其他未被探索到的模式。为了赋予模型充分的模态交互能力,从不同角度、不同粒度设计了四种基础的交互模块,其有效解决了模态内推理和模态间对齐两大图文检索中的核心挑战。为了动态地学习模态交互模式,在每个交互模块中整合了一个动态路由器。通过提出的语义一致性正则化技术对路径决策过程进行了合理的、强有力的约束,确保了模型路径学习的高效性。在进行图像和文本之间的相互检索时准确度大幅度提高。
附图说明
图1为本发明的流程图。
具体实施方式
下面结合附图1对本发明做进一步说明。
一种基于多模态动态交互机制的图文解析方法,包括如下步骤:
a)利用Bottom-up Attention网络和BERT模型分别提取图像的视觉区域特征和文本的上下文感知的词嵌入。
b)定义四种类型的基础交互模块用于完成不同层面及不同粒度的交互操作。
c)。为每个基础交互模块配置一个路由器,路由器能够根据数据自动学习交互路径。在图像-文本版本的模型中,把图像的视觉区域特征作为计算的主体,文本的词嵌入作为交互的辅助模态,两者作为输入通过多层的由四种交互模块稠密连接形成的模态交互路由模型中。文本-图像版本同理,也进行与此对称的操作过程对经过多层动态路由精炼的特征与另一模态的特征计算余弦相似度。
d)基于所计算的余弦相似度,利用在线负样本挖掘方法计算三元组损失项。
e)以BERT提取的文本特征之间的相似度为监督信号,对所收集的交互路径之间的相似度进行约束,得到路径损失项,该项可使语义空间和路径空间在一定程度上能够保持一致。
f)结合三元组损失项和路径损失项,利用PyTorch中的Adam优化器对模型进行端到端的优化。
g)在测试阶段,使用优化的模型提取图像和文本的特征,计算余弦相似度,以此进行双向跨模态检索。
提出了一个动态模态交互建模框架用于解决图文检索问题,该框架不仅能够涵盖现有方法的交互模式,还能够自动学习其他未被探索到的模式。这是第一个利用动态机制对模态交互模式进行探索的工作。为了赋予模型充分的模态交互能力,本发明从不同角度、不同粒度设计了四种基础的交互模块,其有效解决了模态内推理和模态间对齐两大图文检索中的核心挑战。为了动态地学习模态交互模式,本发明在每个交互模块中整合了一个动态路由器。此外,本发明提出的语义一致性正则化技术对路径决策过程进行了合理的、强有力的约束,确保了模型路径学习的高效性。通过使用本发明进行图像和文本之间的相互检索,准确度大幅度提高。
实施例1:
步骤a)中选择Bottom-up Attention网络提取的按照置信度排序的前R个区域特征,使用全连接变换得到矩阵V,vi为第i个区域的特征,i∈{1,...,R},为实数空间,D为特征的维度,对矩阵V利用平均池化得到全局图像特征利用预训练的BERT模型提取文本词嵌入,使用一维卷积网络对提取的文本词嵌入进行局部关系增强,得到矩阵W,wi为第i个单词的特征,i∈{1,...,K},对矩阵W利用最大池化得到全局文本特征
实施例2:
步骤b)包括如下步骤:
b-1)通过公式得到第l层第i个基础交互模块输出的特征矩阵式中为第l层第i个基础交互模块的交互函数,为第l层第i个基础交互模块的输入,使用矩阵表示局部查询特征,使用矩阵表示全局查询特征,使用矩阵表示局部候选特征,使用矩阵表示全局候选特征,M和N分别为两个矩阵的行数。本发明共设计了两种版本的模型:对于图像-文本模型版本,赋值X:=V(M:=R)和Y:=W(N:=K),对于文本-图像模型版本,赋值X:=W(M:=K)和Y:=V(N:=R)。
b-3)通过公式建立模态内推理模块,本发明使用多头注意力机制设计模态内推理模块,赋予模型模态内关系推理的能力,该机制表示如下:Concat(·)为拼接操作,H为头的数目,FFN(·)为由两层感知机所实现的前馈网络,i∈{1,...,H},Softmax(·)为Softmax函数,T为转置,dk为Q′和K′的维度,Wi Q′、Wi K′、Wi V′为模型的权重。
b-4)管局部表征可以编码细节线索,但全局特征中包含了丰富的上下文和高层次语义信息,仍然值得关注。为此,本发明设计了整体-局部引导模块,该模块表示如下:dr为引导方向,Norm(·)为L2归一化操作,FC为全连接层,xr为整体-局部引导模块的输入,xr′为整体-局部引导模块的输出,r∈{1,...,M}。
b-5)为了进一步桥接跨模态数据间的语义鸿沟,本发明设计了跨模态精炼模块对局部特征进行局部-局部跨模态交互。首先,计算注意力权重:式中λ为温度因子的倒数,srk=cos(xr,yk),xr为矩阵X的第r个行向量,yk为矩阵Y的第k个行向量,通过公式计算上下文向量cr。
实施例3:
步骤c)包括如下步骤:
c-1)为了使以上四种基础交互模块更好地协同合作,本发明在深度和宽度两个维度对对修正恒等模块、模态内推理模块、整体-局部引导模块及跨模态精炼模块在深度和宽度两个维度进行稠密连接操作,连接后形成路径空间。
c-2)通过公式表示路径空间的路由过程,式中C为每层的模块总数,表示第(l-1)层第j个模块的输出,为第(l-1)层第j个cell到第1层第i个cell的路由概率, 为第l层第i个cell的路由函数, 为的第r个行向量。
实施例4:
步骤c-2)中的第l层第i个cell的路由函数依次由平均池化、多层感知机和非线性映射计算得到。
实施例5:
步骤d)包括如下特征:
d-1)给定图像I和文本T,通过计算图像-文本版本的模型的相似度s(I,T),通过公式计算文本-图像版本的模型的相似度s(I,T),对于图像-文本模型版本,赋值X:=V,模型输出为v*=x*,对于文本-图像模型版本,赋值X:=W,模型输出为w*=x*;
实施例6:
步骤e)包括如下步骤:
e-1)收集并拼接路由概率得到路由向量e-2)以BERT提取的文本嵌入作为监督信号,使用语义-路径一致性损失对路由向量的学习进修越是,通过公式计算路径损失项LP,式中B为与x处于相同模态的数据实例集合,与为相应的BERT输出特征,gy为临时变量。
实施例7:
步骤f)中通过公式L=LA+λPLP结合三元组损失项和路径损失项得到最终的损失L,λP为权衡参数。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于多模态动态交互机制的图文解析方法,其特征在于,包括如下步骤:
a)利用Bottom-up Attention网络和BERT模型分别提取图像的视觉区域特征和文本的上下文感知的词嵌入;
b)定义四种类型的基础交互模块用于完成不同层面及不同粒度的交互操作;
c)对经过多层动态路由精炼的特征与另一模态的特征计算余弦相似度;
d)利用在线负样本挖掘方法计算三元组损失项;
e)以BERT提取的文本特征之间的相似度为监督信号,对收集的交互路径之间的相似度进行约束,得到路径损失项;
f)结合三元组损失项和路径损失项,利用PyTorch中的Adam优化器对模型进行端到端的优化;
g)使用优化的模型提取图像和文本的特征,计算余弦相似度,进行双向跨模态检索。
3.根据权利要求2所述的基于多模态动态交互机制的图文解析方法,其特征在于,步骤b)包括如下步骤:
b-1)通过公式得到第l层第i个基础交互模块输出的特征矩阵式中Fi (l)为第l层第i个基础交互模块的交互函数,为第l层第i个基础交互模块的输入,使用矩阵表示局部查询特征,使用矩阵表示全局查询特征,使用矩阵表示局部候选特征,使用矩阵表示全局候选特征,M和N分别为两个矩阵的行数,对于图像-文本模型版本,赋值X:=V(M:=R)和Y:=W(N:=K),对于文本-图像模型版本,赋值X:=W(M:=K)和Y:=V(N:=R);
b-3)通过公式建立模态内推理模块,式中Concat(·)为拼接操作,H为头的数目,FFN(·)为由两层感知机所实现的前馈网络, Softmax(·)为Softmax函数,T为转置,dk为Q′和K′的维度,Wi Q′、Wi K′、Wi V′为模型的权重;
4.根据权利要求3所述的基于多模态动态交互机制的图文解析方法,其特征在于,步骤c)包括如下步骤:
c-1)对修正恒等模块、模态内推理模块、整体-局部引导模块及跨模态精炼模块在深度和宽度两个维度进行稠密连接操作,连接后形成路径空间;
c-2)通过公式表示路径空间的路由过程,式中C为每层的模块总数,表示第(l-1)层第j个模块的输出,为第(l-1)层第j个cell到第1层第i个cell的路由概率, 为第l层第i个cell的路由函数, 为的第r个行向量;
5.根据权利要求1所述的基于多模态动态交互机制的图文解析方法,其特征在于:步骤c-2)中的第l层第i个cell的路由函数依次由平均池化、多层感知机和非线性映射计算得到。
8.根据权利要求7所述的基于多模态动态交互机制的图文解析方法,其特征在于:步骤f)中通过公式L=LA+λPLP结合三元组损失项和路径损失项得到最终的损失L,λP为权衡参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110288644.5A CN113065012B (zh) | 2021-03-17 | 2021-03-17 | 一种基于多模态动态交互机制的图文解析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110288644.5A CN113065012B (zh) | 2021-03-17 | 2021-03-17 | 一种基于多模态动态交互机制的图文解析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113065012A true CN113065012A (zh) | 2021-07-02 |
CN113065012B CN113065012B (zh) | 2022-04-22 |
Family
ID=76561192
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110288644.5A Active CN113065012B (zh) | 2021-03-17 | 2021-03-17 | 一种基于多模态动态交互机制的图文解析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113065012B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114254618A (zh) * | 2021-12-14 | 2022-03-29 | 哈尔滨工程大学 | 基于动态路由注意力机制的视觉问答方法、存储介质及设备 |
CN114297473A (zh) * | 2021-11-25 | 2022-04-08 | 北京邮电大学 | 基于多级图文语义对齐模型的新闻事件搜索方法及系统 |
CN116150418A (zh) * | 2023-04-20 | 2023-05-23 | 南京邮电大学 | 一种基于混合聚焦注意力机制的图文匹配方法及系统 |
CN116342343A (zh) * | 2023-05-31 | 2023-06-27 | 创而新(北京)教育科技有限公司 | 一种数据驱动可扩展的在线教育平台处理方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103391594A (zh) * | 2012-05-09 | 2013-11-13 | 电信科学技术研究院 | 一种无线体域网路由优化的方法及装置 |
US20170206416A1 (en) * | 2016-01-19 | 2017-07-20 | Fuji Xerox Co., Ltd. | Systems and Methods for Associating an Image with a Business Venue by using Visually-Relevant and Business-Aware Semantics |
CN109063732A (zh) * | 2018-06-26 | 2018-12-21 | 山东大学 | 基于特征交互和多任务学习的图像排序方法及系统 |
CN110597878A (zh) * | 2019-09-16 | 2019-12-20 | 广东工业大学 | 一种多模态数据的跨模态检索方法、装置、设备及介质 |
CN112000818A (zh) * | 2020-07-10 | 2020-11-27 | 中国科学院信息工程研究所 | 一种面向文本和图像的跨媒体检索方法及电子装置 |
CN112201228A (zh) * | 2020-09-28 | 2021-01-08 | 苏州贝果智能科技有限公司 | 一种基于人工智能的多模态语义识别服务接入方法 |
-
2021
- 2021-03-17 CN CN202110288644.5A patent/CN113065012B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103391594A (zh) * | 2012-05-09 | 2013-11-13 | 电信科学技术研究院 | 一种无线体域网路由优化的方法及装置 |
US20170206416A1 (en) * | 2016-01-19 | 2017-07-20 | Fuji Xerox Co., Ltd. | Systems and Methods for Associating an Image with a Business Venue by using Visually-Relevant and Business-Aware Semantics |
CN109063732A (zh) * | 2018-06-26 | 2018-12-21 | 山东大学 | 基于特征交互和多任务学习的图像排序方法及系统 |
CN110597878A (zh) * | 2019-09-16 | 2019-12-20 | 广东工业大学 | 一种多模态数据的跨模态检索方法、装置、设备及介质 |
CN112000818A (zh) * | 2020-07-10 | 2020-11-27 | 中国科学院信息工程研究所 | 一种面向文本和图像的跨媒体检索方法及电子装置 |
CN112201228A (zh) * | 2020-09-28 | 2021-01-08 | 苏州贝果智能科技有限公司 | 一种基于人工智能的多模态语义识别服务接入方法 |
Non-Patent Citations (4)
Title |
---|
HUAN LIN, FANDONG MENG等: "Dynamic Context-guided Capsule Network for Multimodal Machine Translation", 《MM "20: THE 28TH ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA》 * |
LEIGANG QU,MENG LIU等: "Context-Aware Multi-View Summarization Network for Image-Text Matching", 《MM "20: THE 28TH ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA》 * |
WENSHAN WANG等: "Dynamic Interaction Networks for Image-Text Multimodal Learning", 《NEUROCOMPUTING 》 * |
张鸿等: "跨媒体相关性推理与检索研究", 《计算机研究与发展》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114297473A (zh) * | 2021-11-25 | 2022-04-08 | 北京邮电大学 | 基于多级图文语义对齐模型的新闻事件搜索方法及系统 |
CN114254618A (zh) * | 2021-12-14 | 2022-03-29 | 哈尔滨工程大学 | 基于动态路由注意力机制的视觉问答方法、存储介质及设备 |
CN114254618B (zh) * | 2021-12-14 | 2024-09-20 | 哈尔滨工程大学 | 基于动态路由注意力机制的视觉问答方法、存储介质及设备 |
CN116150418A (zh) * | 2023-04-20 | 2023-05-23 | 南京邮电大学 | 一种基于混合聚焦注意力机制的图文匹配方法及系统 |
CN116342343A (zh) * | 2023-05-31 | 2023-06-27 | 创而新(北京)教育科技有限公司 | 一种数据驱动可扩展的在线教育平台处理方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113065012B (zh) | 2022-04-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113065012B (zh) | 一种基于多模态动态交互机制的图文解析方法 | |
CN115033670B (zh) | 多粒度特征融合的跨模态图文检索方法 | |
Waheed et al. | CNN deep learning-based image to vector depiction | |
CN116975776B (zh) | 一种基于张量和互信息的多模态数据融合方法和设备 | |
CN115145551A (zh) | 一种面向机器学习应用低代码开发的智能辅助系统 | |
CN113920379B (zh) | 一种基于知识辅助的零样本图像分类方法 | |
CN114912423A (zh) | 一种基于迁移学习的方面级别情感分析方法及装置 | |
CN116975256B (zh) | 抽水蓄能电站地下厂房施工过程多源信息的处理方法及系统 | |
CN113468291B (zh) | 基于专利网络表示学习的专利自动分类方法 | |
CN113779220A (zh) | 一种基于三通道认知图谱和图注意力网络的蒙语多跳问答方法 | |
CN117391051B (zh) | 一种融合情感的共同注意网络多模态虚假新闻检测方法 | |
CN117151222B (zh) | 领域知识引导的突发事件案例实体属性及其关系抽取方法、电子设备和存储介质 | |
CN116843175A (zh) | 一种合同条款风险检查方法、系统、设备和存储介质 | |
CN114331122A (zh) | 重点人员风险等级评估方法及相关设备 | |
CN115048511A (zh) | 一种基于Bert的护照版面分析方法 | |
CN117540035B (zh) | 一种基于实体类型信息融合的rpa知识图谱构建方法 | |
CN111309849B (zh) | 一种基于联合学习模型的细粒度数值信息抽取方法 | |
CN117236374A (zh) | 一种基于充分展开的材料图神经网络的分层解释方法 | |
CN112950414A (zh) | 一种基于解耦法律要素的法律文本表示方法 | |
CN117371481A (zh) | 一种基于元学习的神经网络模型检索方法 | |
CN113988083B (zh) | 一种用于航运新闻摘要生成的事实性信息编码与评估方法 | |
CN115600602A (zh) | 一种长文本的关键要素抽取方法、系统及终端设备 | |
Luo et al. | ESGNet: A multimodal network model incorporating entity semantic graphs for information extraction from Chinese resumes | |
Yu et al. | Workflow recommendation based on graph embedding | |
Zeng et al. | DIC-Transformer: interpretation of plant disease classification results using image caption generation technology |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |