CN107679582A - 一种基于多模态分解模型进行可视问答的方法 - Google Patents

一种基于多模态分解模型进行可视问答的方法 Download PDF

Info

Publication number
CN107679582A
CN107679582A CN201710991611.0A CN201710991611A CN107679582A CN 107679582 A CN107679582 A CN 107679582A CN 201710991611 A CN201710991611 A CN 201710991611A CN 107679582 A CN107679582 A CN 107679582A
Authority
CN
China
Prior art keywords
image
attention
mfb
question
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201710991611.0A
Other languages
English (en)
Inventor
夏春秋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Vision Technology Co Ltd
Original Assignee
Shenzhen Vision Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Vision Technology Co Ltd filed Critical Shenzhen Vision Technology Co Ltd
Priority to CN201710991611.0A priority Critical patent/CN107679582A/zh
Publication of CN107679582A publication Critical patent/CN107679582A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/245Classification techniques relating to the decision surface
    • G06F18/2451Classification techniques relating to the decision surface linear, e.g. hyperplane
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

一种基于多模态分解模型进行可视问答的方法,图像在ImageNet数据集进行训练并提取图像特征,问题标记为文字转化为特征向量,在基本网络体系结构中引入协同注意力模型,同时学习图像和问题的相关特征,表征多模态特征之间细粒度相关性,多模态特征进入多模态分解双线性池(MFB)或多模态分解高阶池(MFH)模块图像生成融合图像问题特征z,z送入分类器预测最佳匹配的答案。本发明采用协同注意力模型预测图像中每个空间网格与问题之间的相关性,有利于准确预测最佳匹配答案,结合这种图像注意机制,可以使模型有效地了解哪个图像区域对于问题是重要的,显著的提高模型的性能以及问答的准确率。

Description

一种基于多模态分解模型进行可视问答的方法
技术领域
本发明涉及可视问答领域,尤其是涉及了一种基于多模态分解模型进行可视问答的方法。
背景技术
随着机器视觉的不断发展,机器自动理解图像中的语义表示得到广泛的研究,可视问答常用于图像检索、智能交通、可视教育、人工智能等领域,具体地,在图像检索领域,可通过理解图像和问题,进行重点信息分解,获得相应的文字描述。在可视教育领域,对特定的特征进行分解,结合文图中的特征信息进行推理得出正确答案。为提升人工智迈出了更进一步。目前现有的研究只考虑图像中的视觉特征,而忽视了问题中的相关特征,然而不同于图像检索和图像描述,可视问答需要计算机对于文字和图案的语义都有条理的理解并进行有逻辑的推理才可获得最符合准确的答案,因此在可视问答领域仍然存在一定的挑战。
本发明提出了一种基于多模态分解模型进行可视问答的方法,图像在ImageNet数据集进行训练并提取图像特征,问题标记为文字转化为特征向量,通过长短记忆模型网络获得问题表示向量。在基本网络体系结构中引入协同注意力模型,同时学习图像和问题的相关特征,有效地表征多模态特征之间的细粒度相关性,多模态特征进入多模态分解双线性池(MFB)或多模态分解高阶池(MFH)模块图像生成融合图像问题特征z,z送入多路分类器预测的最佳匹配的答案。本发明采用MFB融合问题和图像的视觉特征,并利用MFH获得更多地相关视觉特征,协同注意力模型预测图像中每个空间网格与问题之间的相关性,有利于准确预测最佳匹配答案,结合这种图像注意机制,可以使模型有效地了解哪个图像区域对于问题是重要的,显著的提高模型的性能以及问答的准确率。
发明内容
针对目前性能不高及准确率低,本发明采用MFB融合问题和图像的视觉特征,并利用MFH获得更多地相关视觉特征,协同注意力模型预测图像中每个空间网格与问题之间的相关性,有利于准确预测最佳匹配答案,结合这种图像注意机制,可以使模型有效地了解哪个图像区域对于问题是重要的,显著的提高模型的性能。
为解决上述问题,本发明提供了一种基于多模态分解模型进行可视问答的方法,主要包括:多模态分解双线性池(MFB)(一);
多模态分解高阶池(MFH)(二);
协同注意力模型(三)。
其中,多模态分解双线性池(MFB),不同模态分别有两个特征矢量,其中图像的视觉特征为问题文字的视觉特征多模态分解双线性池的公式为:
zi=xTWiy (1)
其中,代表投影矩阵,代表双线性模型的输出,误差包含在W中,忽视可能有的偏差,通过学习获得o-维度的z输出,虽然双线性池可有效的捕捉成对特征维度的互动,但可能引入大量参数导致高的计算损失和过拟合的风险。
进一步地,双线性模型根据单模态数据的矩阵分解技巧,公式(1)的投影矩阵Wi分解为两个低级矩阵计算式:
其中,k为分界矩阵的最新维度,o代表哈达马积数或是两个矢量的要素相乘数,为总向量,学习矩阵内容 后,可求出内容输出在保证简单性的同时,把U和V重新进行调整为2-D矩阵公式3调整为:
SumPool(x,k)表示使用尺寸为k在一维非重叠窗口x上形成的加法汇聚,称之为多模态分解双线性池(MFB),为了防止过拟合,在要素相关层后加入流失层,MFB输出中加入标准化功率:z←sign(z)|z|0.5和l2标准化:z←z/‖z‖。
其中,多模态分解高阶池(MFH)是通过大量增加MFB模块,MFB可分为扩大阶段和压缩阶段:
不同模态的特征扩大至一个高纬度的空间进行要素相乘,之后,加入标准化层进行加法汇聚计算,随后在压缩阶段或缩小化过程中,将高纬度信息进行压缩成输出特征,最后压缩后的x和y通过concat函数将数组进行连接,Drop(·),SumPool(·),Norm(·)分别为筛选点、总汇层和标准测点层,zexp为板块的输入数,z为模块的输出,为提高MFBp模板的连串性,将公式进行优化:
i∈{1,2,…,p}是MFB模件的指数,是加权矩阵,是MFB模件中第i位的内部特征,是MFB模件中第i-1位内部特征,为总向量。
进一步地,扩大阶段和压缩阶段,获得MFB的i位内部特征之后,通过公式5计算MFB的输出特征zi,高阶MFHp模型的最终的输出特征z通过浓缩MFB模块的输出特征p:
随着p的增加,模型的大小和MFH的输出特征维数的线性增长,为了控制模型的复杂度和训练时间,我们在实验中使用p<4。
其中,协同注意力模型(三),在基本网络体系结构中引入共同注意学习(它共同学习图像和问题),有效地表征多模态特征之间的细粒度相关性,使模型具有更好的表示能力,对于一个给定的图像,不同的问题导致完全不同的答案,因此,图像注意模型能够预测图像中每个空间网格与问题之间的相关性,有利于准确预测最佳匹配答案,结合这种图像注意机制,可以使模型有效地了解哪个图像区域对于问题是重要的。
进一步地,基本网络体系结构,图像在ImageNet数据集进行训练,使用152层ResNet模型来提取图像特征,图像调整大小至448x448,图片使用2048-Dpool5特征(正规化)来表征,问题先标记化成文字,然后进一步转化为一个独热特征向量,最大长度为T,独热特征向量通过嵌入层进入有1024个隐藏单元的长短记忆模型(LSTM)网络,从LSTM网络提取最后一个单词的输出特征形成问题表示向量,预测答案。
进一步地,多模态特征(从图像和问题中提取)进入MFB或MFH模块图像生成融合图像问题特征z,z送入多路分类器预测的最佳匹配的答案。
进一步地,共同注意学习采用MFB+CoAtt和MFH+CoAtt协同学习,同时注意问题和图像,具体来说,14×14(196)的图像的空间网格用来表示输入图像,从LSTM网络的输出特征T是用来表示在输入问题的每一个字,之后,问题特征T输入到一个问题注意模块中,输出注意的问题表示,该注意的问题表示输入图像的关注模块(196图像特征),和MFB或MFH生成一个图像融合问题表示。
进一步地,融合图像问题表示进一步用于学习多类分类器的答案预测,使用MFH在图像关注模块不会显著提高预测精度,而且诱导更高的计算成本,MFH模块仅用于特征融合阶段整合提取图像和问题的注意特征,图像的关注模块和问题的关注模块包括连续的1×1卷积层和ReLU层,其次是softmax归一化层预测每个输入特征的注意权重,通过输入特征的加权和得到注意特征,为了进一步提高注意力特征的表示能力,生成多个注意图以增强学习注意图,并将这些注意图连接到输出注意的图像特征。
附图说明
图1是本发明一种基于多模态分解模型进行可视问答的系统流程图。
图2是本发明一种基于多模态分解模型进行可视问答的MFB流程图。
图3是本发明一种基于多模态分解模型进行可视问答的MFH流程图。
图4是本发明一种基于多模态分解模型进行可视问答的基本网络体系结构图。
图5是本发明一种基于多模态分解模型进行可视问答的协同注意力模型图示。
具体实施方案
需要说明的是,再不冲突的情况下,本文中的实验例及实验里中的特征可相互结合,下面结合附图和具体实施例对本发明作进一步详细说明。
图1是本发明一种基于多模态分解模型进行可视问答的系统流程图。主要包括多模态分解双线性池化(MFB)、多模态分解高阶池化(MFH)、协助注意力模型。
图2是本发明一种基于多模态分解模型进行可视问答的MFB流程图。多模态分解双线性池(MFB),不同模态分别有两个特征矢量,其中图像的视觉特征为问题文字的视觉特征多模态分解双线性池的公式为:
zi=xTWiy (1)
其中,代表投影矩阵,代表双线性模型的输出,误差包含在W中,忽视可能有的偏差,通过学习获得o-维度的z输出,虽然双线性池可有效的捕捉成对特征维度的互动,但可能引入大量参数导致高的计算损失和过拟合的风险。双线性模型根据单模态数据的矩阵分解技巧,公式(1)的投影矩阵Wi分解为两个低级矩阵计算式:
其中,k为分界矩阵的最新维度,o代表哈达马积数或是两个矢量的要素相乘数,为总向量,学习矩阵内容 后,可求出内容输出在保证简单性的同时,把U和V重新进行调整为2-D矩阵公式3调整为:
SumPool(x,k)表示使用尺寸为k在一维非重叠窗口x上形成的加法汇聚,称之为多模态分解双线性池(MFB),为了防止过拟合,在要素相关层后加入流失层,MFB输出中加入标准化功率:z←sign(z)|z|0.5和l2标准化:z←z/‖z‖。
图3是本发明一种基于多模态分解模型进行可视问答的MFH流程图。多模态分解高阶池(MFH)是通过大量增加MFB模块,MFB可分为扩大阶段和压缩阶段:
不同模态的特征扩大至一个高纬度的空间进行要素相乘,之后,加入标准化层进行加法汇聚计算,随后在压缩阶段或缩小化过程中,将高纬度信息进行压缩成输出特征,最后压缩后的x和y通过concat函数将数组进行连接,Drop(·),SumPool(·),Norm(·)分别为筛选点、总汇层和标准测点层,zexp为板块的输入数,z为模块的输出,为提高MFBp模板的连串性,将公式进行优化:
i∈{1,2,…,p}是MFB模件的指数,是加权矩阵,是MFB模件中第i位的内部特征,是MFB模件中第i-1位内部特征,为总向量。
扩大阶段和压缩阶段,获得MFB的i位内部特征之后,通过公式5计算MFB的输出特征zi,高阶MFHp模型的最终的输出特征z通过浓缩MFB模块的输出特征p:
随着p的增加,模型的大小和MFH的输出特征维数的线性增长,为了控制模型的复杂度和训练时间,我们在实验中使用p<4。
图4是本发明一种基于多模态分解模型进行可视问答的基本网络体系结构图。图像在ImageNet数据集进行训练,使用152层ResNet模型来提取图像特征,图像调整大小至448x448,图片使用2048-Dpool5特征(正规化)来表征,问题先标记化成文字,然后进一步转化为一个独热特征向量,最大长度为T,独热特征向量通过嵌入层进入有1024个隐藏单元的长短记忆模型(LSTM)网络,从LSTM网络提取最后一个单词的输出特征形成问题表示向量,预测答案。
进一步地,多模态特征(从图像和问题中提取)进入MFB或MFH模块图像生成融合图像问题特征z,z送入多路分类器预测的最佳匹配的答案。
图5是本发明一种基于多模态分解模型进行可视问答的协同注意力模型图示。在基本网络体系结构中引入共同注意学习(它共同学习图像和问题),有效地表征多模态特征之间的细粒度相关性,使模型具有更好的表示能力,对于一个给定的图像,不同的问题导致完全不同的答案,因此,图像注意模型能够预测图像中每个空间网格与问题之间的相关性,有利于准确预测最佳匹配答案,结合这种图像注意机制,可以使模型有效地了解哪个图像区域对于问题是重要的
共同注意学习采用MFB+CoAtt和MFH+CoAtt协同学习,同时注意问题和图像,具体来说,14×14(196)的图像的空间网格用来表示输入图像,从LSTM网络的输出特征T是用来表示在输入问题的每一个字,之后,问题特征T输入到一个问题注意模块中,输出注意的问题表示,该注意的问题表示输入图像的关注模块(196图像特征),和MFB或MFH生成一个图像融合问题表示。
融合图像问题表示进一步用于学习多类分类器的答案预测,使用MFH在图像关注模块不会显著提高预测精度,而且诱导更高的计算成本,MFH模块仅用于特征融合阶段整合提取图像和问题的注意特征,图像的关注模块和问题的关注模块包括连续的1×1卷积层和ReLU层,其次是softmax归一化层预测每个输入特征的注意权重,通过输入特征的加权和得到注意特征,为了进一步提高注意力特征的表示能力,生成多个注意图以增强学习注意图,并将这些注意图连接到输出注意的图像特征。
对于本领域技术人员,本发明不限制于上述实施例的细节,在不背离本发明的精神和范围的情况下,能够以其他具体形式实现本发明。此外,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围,这些改进和变型也应视为本发明的保护范围。因此,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims (10)

1.一种基于多模态分解模型进行可视问答的方法,其特征在于,主要包括多模态分解双线性池(MFB)(一);多模态分解高阶池(MFH)(二);协同注意力模型(三)。
2.基于权利要求书1所述的多模态分解双线性池(MFB)(一),其特征在于,不同模态分别有两个特征矢量,其中图像的视觉特征为问题文字的视觉特征多模态分解双线性池的公式为:
zi=xTWiy (1)
其中,代表投影矩阵,代表双线性模型的输出,误差包含在W中,忽视可能有的偏差,通过学习获得o-维度的z输出,虽然双线性池可有效的捕捉成对特征维度的互动,但可能引入大量参数导致高的计算损失和过拟合的风险。
3.基于权利要求书2所述的双线性模型,其特征在于,根据单模态数据的矩阵分解技巧,公式(1)的投影矩阵Wi分解为两个低级矩阵计算式:
其中,k为分界矩阵的最新维度,o代表哈达马积数或是两个矢量的要素相乘数,为总向量,学习矩阵内容 后,可求出内容输出在保证简单性的同时,把U和V重新进行调整为2-D矩阵公式3调整为:
SumPool(x,k)表示使用尺寸为k在一维非重叠窗口x上形成的加法汇聚,称之为多模态分解双线性池(MFB),为了防止过拟合,在要素相关层后加入流失层,MFB输出中加入标准化功率:z←sign(z)|z|0.5和l2标准化:z←z/‖z‖。
4.基于权利要求书1所述的多模态分解高阶池(MFH)(二),其特征在于,MFH是通过大量增加MFB模块,MFB可分为扩大阶段和压缩阶段:
不同模态的特征扩大至一个高纬度的空间进行要素相乘,之后,加入标准化层进行加法汇聚计算,随后在压缩阶段或缩小化过程中,将高纬度信息进行压缩成输出特征,最后压缩后的x和y通过concat函数将数组进行连接,Drop(·),SumPool(·),Norm(·)分别为筛选点、总汇层和标准测点层,zexp为板块的输入数,z为模块的输出,为提高MFBp模板的连串性,将公式进行优化:
<mrow> <msubsup> <mi>z</mi> <mi>exp</mi> <mi>i</mi> </msubsup> <mo>=</mo> <msub> <msup> <mi>MFB</mi> <mi>i</mi> </msup> <mi>exp</mi> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>=</mo> <msubsup> <mi>z</mi> <mi>exp</mi> <mrow> <mi>i</mi> <mo>-</mo> <mn>1</mn> </mrow> </msubsup> <mi>o</mi> <mrow> <mo>(</mo> <mi>D</mi> <mi>r</mi> <mi>o</mi> <mi>p</mi> <mi>o</mi> <mi>u</mi> <mi>t</mi> <mo>(</mo> <msup> <mover> <mi>U</mi> <mo>~</mo> </mover> <msup> <mi>i</mi> <mi>T</mi> </msup> </msup> <mi>x</mi> <mi>o</mi> <mi>y</mi> <msup> <mover> <mi>V</mi> <mo>~</mo> </mover> <msup> <mi>i</mi> <mi>T</mi> </msup> </msup> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> </mrow>
i∈{1,2,…,p}是MFB模件的指数,是加权矩阵,是MFB模件中第i位的内部特征,是MFB模件中第i-1位内部特征,为总向量。
5.基于权利要求书4所述的扩大阶段和压缩阶段,其特征在于,获得MFB的i位内部特征之后,通过公式5计算MFB的输出特征zi,高阶MFHp模型的最终的输出特征z通过浓缩MFB模块的输出特征p:
随着p的增加,模型的大小和MFH的输出特征维数的线性增长,为了控制模型的复杂度和训练时间,我们在实验中使用p<4。
6.基于权利要求1所述的协同注意力模型(三),其特征在于,在基本网络体系结构中引入共同注意学习(它共同学习图像和问题),有效地表征多模态特征之间的细粒度相关性,使模型具有更好的表示能力,对于一个给定的图像,不同的问题导致完全不同的答案,因此,图像注意模型能够预测图像中每个空间网格与问题之间的相关性,有利于准确预测最佳匹配答案,结合这种图像注意机制,可以使模型有效地了解哪个图像区域对于问题是重要的。
7.基于权利要求6所述的基本网络体系结构,其特征在于,图像在ImageNet数据集进行训练,使用152层ResNet模型来提取图像特征,图像调整大小至448x448,图片使用2048-Dpool5特征(正规化)来表征,问题先标记化成文字,然后进一步转化为一个独热特征向量,最大长度为T,独热特征向量通过嵌入层进入有1024个隐藏单元的长短记忆模型(LSTM)网络,从LSTM网络提取最后一个单词的输出特征形成问题表示向量,预测答案。
8.基于权利要求6所述的多模态特征,其特征在于,多模态特征(从图像和问题中提取)进入MFB或MFH模块图像生成融合图像问题特征z,z送入多路分类器预测的最佳匹配的答案。
9.基于权利要求6所述的共同注意学习,其特征在于,采用MFB+CoAtt和MFH+CoAtt协同学习,同时注意问题和图像,具体来说,14×14(196)的图像的空间网格用来表示输入图像,从LSTM网络的输出特征T是用来表示在输入问题的每一个字,之后,问题特征T输入到一个问题注意模块中,输出注意的问题表示,该注意的问题表示输入图像的关注模块(196图像特征),和MFB或MFH生成一个图像融合问题表示。
10.基于权利要求9所述的图像融合问题,其特征在于,融合的图像问题表示进一步用于学习多类分类器的答案预测,使用MFH在图像关注模块不会显著提高预测精度,而且诱导更高的计算成本,MFH模块仅用于特征融合阶段整合提取图像和问题的注意特征,图像的关注模块和问题的关注模块包括连续的1×1卷积层和ReLU层,其次是softmax归一化层预测每个输入特征的注意权重,通过输入特征的加权和得到注意特征,为了进一步提高注意力特征的表示能力,生成多个注意图以增强学习注意图,并将这些注意图连接到输出注意的图像特征。
CN201710991611.0A 2017-10-20 2017-10-20 一种基于多模态分解模型进行可视问答的方法 Withdrawn CN107679582A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710991611.0A CN107679582A (zh) 2017-10-20 2017-10-20 一种基于多模态分解模型进行可视问答的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710991611.0A CN107679582A (zh) 2017-10-20 2017-10-20 一种基于多模态分解模型进行可视问答的方法

Publications (1)

Publication Number Publication Date
CN107679582A true CN107679582A (zh) 2018-02-09

Family

ID=61141366

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710991611.0A Withdrawn CN107679582A (zh) 2017-10-20 2017-10-20 一种基于多模态分解模型进行可视问答的方法

Country Status (1)

Country Link
CN (1) CN107679582A (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647702A (zh) * 2018-04-13 2018-10-12 湖南大学 一种基于迁移学习的大规模食材图像分类方法
CN109002834A (zh) * 2018-06-15 2018-12-14 东南大学 基于多模态表征的细粒度图像分类方法
CN109145970A (zh) * 2018-08-06 2019-01-04 北京市商汤科技开发有限公司 基于图像的问答处理方法和装置、电子设备及存储介质
CN109165699A (zh) * 2018-10-17 2019-01-08 中国科学技术大学 细粒度图像分类方法
CN109190683A (zh) * 2018-08-14 2019-01-11 电子科技大学 一种基于注意力机制和双模态图像的分类方法
CN109785409A (zh) * 2018-12-29 2019-05-21 武汉大学 一种基于注意力机制的图像-文本数据融合方法和系统
CN109784163A (zh) * 2018-12-12 2019-05-21 中国科学院深圳先进技术研究院 一种轻量视觉问答系统及方法
CN109977428A (zh) * 2019-03-29 2019-07-05 北京金山数字娱乐科技有限公司 一种答案获取的方法及装置
CN110134774A (zh) * 2019-04-29 2019-08-16 华中科技大学 一种基于注意力决策的图像视觉问答模型、方法和系统
CN110175527A (zh) * 2019-04-29 2019-08-27 北京百度网讯科技有限公司 行人再识别方法及装置、计算机设备及可读介质
CN110209789A (zh) * 2019-05-29 2019-09-06 山东大学 一种用户注意力引导的多模态对话系统及方法
CN110222770A (zh) * 2019-06-10 2019-09-10 成都澳海川科技有限公司 一种基于组合关系注意力网络的视觉问答方法
CN110490254A (zh) * 2019-08-20 2019-11-22 山西潞安环保能源开发股份有限公司五阳煤矿 一种基于双重注意力机制层次网络的图像语义生成方法
CN110598018A (zh) * 2019-08-13 2019-12-20 天津大学 一种基于协同注意力的草图图像检索方法
CN112926655A (zh) * 2021-02-25 2021-06-08 电子科技大学 一种图像内容理解与视觉问答vqa方法、存储介质和终端
CN113010712A (zh) * 2021-03-04 2021-06-22 天津大学 一种基于多图融合的视觉问答方法
CN113626662A (zh) * 2021-07-29 2021-11-09 山东新一代信息产业技术研究院有限公司 一种实现灾后图像视觉问答的方法
CN113837212A (zh) * 2020-06-24 2021-12-24 四川大学 一种基于多模态双向导向注意力的视觉问答方法
CN114417044A (zh) * 2022-01-19 2022-04-29 中国科学院空天信息创新研究院 图像问答的方法及装置
CN115730059A (zh) * 2022-12-08 2023-03-03 安徽建筑大学 视觉问答方法、装置、设备及存储介质
CN116030295A (zh) * 2022-10-13 2023-04-28 中电金信软件(上海)有限公司 物品识别方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170124432A1 (en) * 2015-11-03 2017-05-04 Baidu Usa Llc Systems and methods for attention-based configurable convolutional neural networks (abc-cnn) for visual question answering
CN106951473A (zh) * 2017-03-06 2017-07-14 浙江大学 面向视觉障碍人士的深度视觉问答系统的构建方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170124432A1 (en) * 2015-11-03 2017-05-04 Baidu Usa Llc Systems and methods for attention-based configurable convolutional neural networks (abc-cnn) for visual question answering
CN106951473A (zh) * 2017-03-06 2017-07-14 浙江大学 面向视觉障碍人士的深度视觉问答系统的构建方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ZHOU YU ET.AL: "Beyond Bilinear: Generalized Multi-modal Factorized High-order Pooling for Visual Question Answering", 《ARXIV:1708.03619V1 [CS.CV]》 *

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647702B (zh) * 2018-04-13 2021-06-01 湖南大学 一种基于迁移学习的大规模食材图像分类方法
CN108647702A (zh) * 2018-04-13 2018-10-12 湖南大学 一种基于迁移学习的大规模食材图像分类方法
CN109002834B (zh) * 2018-06-15 2022-02-11 东南大学 基于多模态表征的细粒度图像分类方法
CN109002834A (zh) * 2018-06-15 2018-12-14 东南大学 基于多模态表征的细粒度图像分类方法
CN109145970A (zh) * 2018-08-06 2019-01-04 北京市商汤科技开发有限公司 基于图像的问答处理方法和装置、电子设备及存储介质
CN109145970B (zh) * 2018-08-06 2021-01-12 北京市商汤科技开发有限公司 基于图像的问答处理方法和装置、电子设备及存储介质
CN109190683A (zh) * 2018-08-14 2019-01-11 电子科技大学 一种基于注意力机制和双模态图像的分类方法
CN109165699A (zh) * 2018-10-17 2019-01-08 中国科学技术大学 细粒度图像分类方法
CN109165699B (zh) * 2018-10-17 2020-06-26 中国科学技术大学 细粒度图像分类方法
CN109784163A (zh) * 2018-12-12 2019-05-21 中国科学院深圳先进技术研究院 一种轻量视觉问答系统及方法
WO2020119631A1 (zh) * 2018-12-12 2020-06-18 中国科学院深圳先进技术研究院 一种轻量视觉问答系统及方法
CN109785409A (zh) * 2018-12-29 2019-05-21 武汉大学 一种基于注意力机制的图像-文本数据融合方法和系统
CN109785409B (zh) * 2018-12-29 2020-09-08 武汉大学 一种基于注意力机制的图像-文本数据融合方法和系统
CN109977428B (zh) * 2019-03-29 2024-04-02 北京金山数字娱乐科技有限公司 一种答案获取的方法及装置
CN109977428A (zh) * 2019-03-29 2019-07-05 北京金山数字娱乐科技有限公司 一种答案获取的方法及装置
CN110134774A (zh) * 2019-04-29 2019-08-16 华中科技大学 一种基于注意力决策的图像视觉问答模型、方法和系统
CN110134774B (zh) * 2019-04-29 2021-02-09 华中科技大学 一种基于注意力决策的图像视觉问答模型、方法和系统
CN110175527A (zh) * 2019-04-29 2019-08-27 北京百度网讯科技有限公司 行人再识别方法及装置、计算机设备及可读介质
US11379696B2 (en) 2019-04-29 2022-07-05 Beijing Baidu Netcom Science And Technology Co., Ltd. Pedestrian re-identification method, computer device and readable medium
CN110209789A (zh) * 2019-05-29 2019-09-06 山东大学 一种用户注意力引导的多模态对话系统及方法
CN110209789B (zh) * 2019-05-29 2021-08-24 山东大学 一种用户注意力引导的多模态对话系统及方法
CN110222770A (zh) * 2019-06-10 2019-09-10 成都澳海川科技有限公司 一种基于组合关系注意力网络的视觉问答方法
CN110598018A (zh) * 2019-08-13 2019-12-20 天津大学 一种基于协同注意力的草图图像检索方法
CN110490254A (zh) * 2019-08-20 2019-11-22 山西潞安环保能源开发股份有限公司五阳煤矿 一种基于双重注意力机制层次网络的图像语义生成方法
CN110490254B (zh) * 2019-08-20 2023-04-18 山西潞安环保能源开发股份有限公司五阳煤矿 一种基于双重注意力机制层次网络的图像语义生成方法
CN113837212A (zh) * 2020-06-24 2021-12-24 四川大学 一种基于多模态双向导向注意力的视觉问答方法
CN113837212B (zh) * 2020-06-24 2023-09-26 四川大学 一种基于多模态双向导向注意力的视觉问答方法
CN112926655B (zh) * 2021-02-25 2022-05-17 电子科技大学 一种图像内容理解与视觉问答vqa方法、存储介质和终端
CN112926655A (zh) * 2021-02-25 2021-06-08 电子科技大学 一种图像内容理解与视觉问答vqa方法、存储介质和终端
CN113010712A (zh) * 2021-03-04 2021-06-22 天津大学 一种基于多图融合的视觉问答方法
CN113626662A (zh) * 2021-07-29 2021-11-09 山东新一代信息产业技术研究院有限公司 一种实现灾后图像视觉问答的方法
CN114417044A (zh) * 2022-01-19 2022-04-29 中国科学院空天信息创新研究院 图像问答的方法及装置
CN116030295A (zh) * 2022-10-13 2023-04-28 中电金信软件(上海)有限公司 物品识别方法、装置、电子设备及存储介质
CN115730059A (zh) * 2022-12-08 2023-03-03 安徽建筑大学 视觉问答方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN107679582A (zh) 一种基于多模态分解模型进行可视问答的方法
CN111985369B (zh) 基于跨模态注意力卷积神经网络的课程领域多模态文档分类方法
CN111554268B (zh) 基于语言模型的语言识别方法、文本分类方法和装置
US10970830B2 (en) Image style conversion method, apparatus and device
CN110263912B (zh) 一种基于多目标关联深度推理的图像问答方法
CN109711463A (zh) 基于注意力的重要对象检测方法
Zhu et al. Attention-aware perceptual enhancement nets for low-resolution image classification
US20160155016A1 (en) Method for Implementing a High-Level Image Representation for Image Analysis
CN108154156B (zh) 基于神经主题模型的图像集成分类方法及装置
CN110111365B (zh) 基于深度学习的训练方法和装置以及目标跟踪方法和装置
Ye et al. A joint-training two-stage method for remote sensing image captioning
CN114495129A (zh) 文字检测模型预训练方法以及装置
CN113761153A (zh) 基于图片的问答处理方法、装置、可读介质及电子设备
Wang et al. Advanced Multimodal Deep Learning Architecture for Image-Text Matching
CN114708270B (zh) 基于知识聚合与解耦蒸馏的压缩方法在语义分割中的应用
CN115953621A (zh) 一种基于不可靠伪标签学习的半监督高光谱图像分类方法
CN114780767A (zh) 一种基于深度卷积神经网络的大规模图像检索方法及系统
Hu et al. Labelbank: Revisiting global perspectives for semantic segmentation
Jishan et al. Bangla language textual image description by hybrid neural network model
Li et al. Image decomposition with multilabel context: Algorithms and applications
Yin et al. Semi-supervised semantic segmentation with multi-reliability and multi-level feature augmentation
CN113344146A (zh) 基于双重注意力机制的图像分类方法、系统及电子设备
Jiang et al. Semantic segmentation of remote sensing images combined with attention mechanism and feature enhancement U-Net
Zhu A graph neural network-enhanced knowledge graph framework for intelligent analysis of policing cases
CN115098646B (zh) 一种图文数据的多级关系分析与挖掘方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20180209

WW01 Invention patent application withdrawn after publication