CN107679582A - 一种基于多模态分解模型进行可视问答的方法 - Google Patents
一种基于多模态分解模型进行可视问答的方法 Download PDFInfo
- Publication number
- CN107679582A CN107679582A CN201710991611.0A CN201710991611A CN107679582A CN 107679582 A CN107679582 A CN 107679582A CN 201710991611 A CN201710991611 A CN 201710991611A CN 107679582 A CN107679582 A CN 107679582A
- Authority
- CN
- China
- Prior art keywords
- image
- attention
- mfb
- question
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000354 decomposition reaction Methods 0.000 title claims abstract description 43
- 230000000007 visual effect Effects 0.000 title claims abstract description 31
- 238000000034 method Methods 0.000 title claims abstract description 12
- 239000013598 vector Substances 0.000 claims abstract description 22
- 230000007246 mechanism Effects 0.000 claims abstract 2
- 239000011159 matrix material Substances 0.000 claims description 24
- 230000006835 compression Effects 0.000 claims description 9
- 238000007906 compression Methods 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 8
- 230000004927 fusion Effects 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000011176 pooling Methods 0.000 claims description 5
- 238000002474 experimental method Methods 0.000 claims description 4
- 239000000654 additive Substances 0.000 claims description 3
- 230000000996 additive effect Effects 0.000 claims description 3
- 238000003491 array Methods 0.000 claims description 3
- 230000001419 dependent effect Effects 0.000 claims description 3
- 230000003628 erosive effect Effects 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 3
- 238000011946 reduction process Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 230000002195 synergetic effect Effects 0.000 claims description 2
- 230000002596 correlated effect Effects 0.000 abstract 1
- 239000000284 extract Substances 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 4
- 230000004075 alteration Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/245—Classification techniques relating to the decision surface
- G06F18/2451—Classification techniques relating to the decision surface linear, e.g. hyperplane
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
一种基于多模态分解模型进行可视问答的方法,图像在ImageNet数据集进行训练并提取图像特征,问题标记为文字转化为特征向量,在基本网络体系结构中引入协同注意力模型,同时学习图像和问题的相关特征,表征多模态特征之间细粒度相关性,多模态特征进入多模态分解双线性池(MFB)或多模态分解高阶池(MFH)模块图像生成融合图像问题特征z,z送入分类器预测最佳匹配的答案。本发明采用协同注意力模型预测图像中每个空间网格与问题之间的相关性,有利于准确预测最佳匹配答案,结合这种图像注意机制,可以使模型有效地了解哪个图像区域对于问题是重要的,显著的提高模型的性能以及问答的准确率。
Description
技术领域
本发明涉及可视问答领域,尤其是涉及了一种基于多模态分解模型进行可视问答的方法。
背景技术
随着机器视觉的不断发展,机器自动理解图像中的语义表示得到广泛的研究,可视问答常用于图像检索、智能交通、可视教育、人工智能等领域,具体地,在图像检索领域,可通过理解图像和问题,进行重点信息分解,获得相应的文字描述。在可视教育领域,对特定的特征进行分解,结合文图中的特征信息进行推理得出正确答案。为提升人工智迈出了更进一步。目前现有的研究只考虑图像中的视觉特征,而忽视了问题中的相关特征,然而不同于图像检索和图像描述,可视问答需要计算机对于文字和图案的语义都有条理的理解并进行有逻辑的推理才可获得最符合准确的答案,因此在可视问答领域仍然存在一定的挑战。
本发明提出了一种基于多模态分解模型进行可视问答的方法,图像在ImageNet数据集进行训练并提取图像特征,问题标记为文字转化为特征向量,通过长短记忆模型网络获得问题表示向量。在基本网络体系结构中引入协同注意力模型,同时学习图像和问题的相关特征,有效地表征多模态特征之间的细粒度相关性,多模态特征进入多模态分解双线性池(MFB)或多模态分解高阶池(MFH)模块图像生成融合图像问题特征z,z送入多路分类器预测的最佳匹配的答案。本发明采用MFB融合问题和图像的视觉特征,并利用MFH获得更多地相关视觉特征,协同注意力模型预测图像中每个空间网格与问题之间的相关性,有利于准确预测最佳匹配答案,结合这种图像注意机制,可以使模型有效地了解哪个图像区域对于问题是重要的,显著的提高模型的性能以及问答的准确率。
发明内容
针对目前性能不高及准确率低,本发明采用MFB融合问题和图像的视觉特征,并利用MFH获得更多地相关视觉特征,协同注意力模型预测图像中每个空间网格与问题之间的相关性,有利于准确预测最佳匹配答案,结合这种图像注意机制,可以使模型有效地了解哪个图像区域对于问题是重要的,显著的提高模型的性能。
为解决上述问题,本发明提供了一种基于多模态分解模型进行可视问答的方法,主要包括:多模态分解双线性池(MFB)(一);
多模态分解高阶池(MFH)(二);
协同注意力模型(三)。
其中,多模态分解双线性池(MFB),不同模态分别有两个特征矢量,其中图像的视觉特征为问题文字的视觉特征多模态分解双线性池的公式为:
zi=xTWiy (1)
其中,代表投影矩阵,代表双线性模型的输出,误差包含在W中,忽视可能有的偏差,通过学习获得o-维度的z输出,虽然双线性池可有效的捕捉成对特征维度的互动,但可能引入大量参数导致高的计算损失和过拟合的风险。
进一步地,双线性模型根据单模态数据的矩阵分解技巧,公式(1)的投影矩阵Wi分解为两个低级矩阵计算式:
其中,k为分界矩阵和的最新维度,o代表哈达马积数或是两个矢量的要素相乘数,为总向量,学习矩阵内容 和后,可求出内容输出在保证简单性的同时,把U和V重新进行调整为2-D矩阵和公式3调整为:
SumPool(x,k)表示使用尺寸为k在一维非重叠窗口x上形成的加法汇聚,称之为多模态分解双线性池(MFB),为了防止过拟合,在要素相关层后加入流失层,MFB输出中加入标准化功率:z←sign(z)|z|0.5和l2标准化:z←z/‖z‖。
其中,多模态分解高阶池(MFH)是通过大量增加MFB模块,MFB可分为扩大阶段和压缩阶段:
不同模态的特征扩大至一个高纬度的空间进行要素相乘,之后,加入标准化层进行加法汇聚计算,随后在压缩阶段或缩小化过程中,将高纬度信息进行压缩成输出特征,最后压缩后的x和y通过concat函数将数组进行连接,Drop(·),SumPool(·),Norm(·)分别为筛选点、总汇层和标准测点层,zexp为板块的输入数,z为模块的输出,为提高MFBp模板的连串性,将公式进行优化:
i∈{1,2,…,p}是MFB模件的指数,和是加权矩阵,是MFB模件中第i位的内部特征,是MFB模件中第i-1位内部特征,为总向量。
进一步地,扩大阶段和压缩阶段,获得MFB的i位内部特征之后,通过公式5计算MFB的输出特征zi,高阶MFHp模型的最终的输出特征z通过浓缩MFB模块的输出特征p:
随着p的增加,模型的大小和MFH的输出特征维数的线性增长,为了控制模型的复杂度和训练时间,我们在实验中使用p<4。
其中,协同注意力模型(三),在基本网络体系结构中引入共同注意学习(它共同学习图像和问题),有效地表征多模态特征之间的细粒度相关性,使模型具有更好的表示能力,对于一个给定的图像,不同的问题导致完全不同的答案,因此,图像注意模型能够预测图像中每个空间网格与问题之间的相关性,有利于准确预测最佳匹配答案,结合这种图像注意机制,可以使模型有效地了解哪个图像区域对于问题是重要的。
进一步地,基本网络体系结构,图像在ImageNet数据集进行训练,使用152层ResNet模型来提取图像特征,图像调整大小至448x448,图片使用2048-Dpool5特征(正规化)来表征,问题先标记化成文字,然后进一步转化为一个独热特征向量,最大长度为T,独热特征向量通过嵌入层进入有1024个隐藏单元的长短记忆模型(LSTM)网络,从LSTM网络提取最后一个单词的输出特征形成问题表示向量,预测答案。
进一步地,多模态特征(从图像和问题中提取)进入MFB或MFH模块图像生成融合图像问题特征z,z送入多路分类器预测的最佳匹配的答案。
进一步地,共同注意学习采用MFB+CoAtt和MFH+CoAtt协同学习,同时注意问题和图像,具体来说,14×14(196)的图像的空间网格用来表示输入图像,从LSTM网络的输出特征T是用来表示在输入问题的每一个字,之后,问题特征T输入到一个问题注意模块中,输出注意的问题表示,该注意的问题表示输入图像的关注模块(196图像特征),和MFB或MFH生成一个图像融合问题表示。
进一步地,融合图像问题表示进一步用于学习多类分类器的答案预测,使用MFH在图像关注模块不会显著提高预测精度,而且诱导更高的计算成本,MFH模块仅用于特征融合阶段整合提取图像和问题的注意特征,图像的关注模块和问题的关注模块包括连续的1×1卷积层和ReLU层,其次是softmax归一化层预测每个输入特征的注意权重,通过输入特征的加权和得到注意特征,为了进一步提高注意力特征的表示能力,生成多个注意图以增强学习注意图,并将这些注意图连接到输出注意的图像特征。
附图说明
图1是本发明一种基于多模态分解模型进行可视问答的系统流程图。
图2是本发明一种基于多模态分解模型进行可视问答的MFB流程图。
图3是本发明一种基于多模态分解模型进行可视问答的MFH流程图。
图4是本发明一种基于多模态分解模型进行可视问答的基本网络体系结构图。
图5是本发明一种基于多模态分解模型进行可视问答的协同注意力模型图示。
具体实施方案
需要说明的是,再不冲突的情况下,本文中的实验例及实验里中的特征可相互结合,下面结合附图和具体实施例对本发明作进一步详细说明。
图1是本发明一种基于多模态分解模型进行可视问答的系统流程图。主要包括多模态分解双线性池化(MFB)、多模态分解高阶池化(MFH)、协助注意力模型。
图2是本发明一种基于多模态分解模型进行可视问答的MFB流程图。多模态分解双线性池(MFB),不同模态分别有两个特征矢量,其中图像的视觉特征为问题文字的视觉特征多模态分解双线性池的公式为:
zi=xTWiy (1)
其中,代表投影矩阵,代表双线性模型的输出,误差包含在W中,忽视可能有的偏差,通过学习获得o-维度的z输出,虽然双线性池可有效的捕捉成对特征维度的互动,但可能引入大量参数导致高的计算损失和过拟合的风险。双线性模型根据单模态数据的矩阵分解技巧,公式(1)的投影矩阵Wi分解为两个低级矩阵计算式:
其中,k为分界矩阵和的最新维度,o代表哈达马积数或是两个矢量的要素相乘数,为总向量,学习矩阵内容 和后,可求出内容输出在保证简单性的同时,把U和V重新进行调整为2-D矩阵和公式3调整为:
SumPool(x,k)表示使用尺寸为k在一维非重叠窗口x上形成的加法汇聚,称之为多模态分解双线性池(MFB),为了防止过拟合,在要素相关层后加入流失层,MFB输出中加入标准化功率:z←sign(z)|z|0.5和l2标准化:z←z/‖z‖。
图3是本发明一种基于多模态分解模型进行可视问答的MFH流程图。多模态分解高阶池(MFH)是通过大量增加MFB模块,MFB可分为扩大阶段和压缩阶段:
不同模态的特征扩大至一个高纬度的空间进行要素相乘,之后,加入标准化层进行加法汇聚计算,随后在压缩阶段或缩小化过程中,将高纬度信息进行压缩成输出特征,最后压缩后的x和y通过concat函数将数组进行连接,Drop(·),SumPool(·),Norm(·)分别为筛选点、总汇层和标准测点层,zexp为板块的输入数,z为模块的输出,为提高MFBp模板的连串性,将公式进行优化:
i∈{1,2,…,p}是MFB模件的指数,和是加权矩阵,是MFB模件中第i位的内部特征,是MFB模件中第i-1位内部特征,为总向量。
扩大阶段和压缩阶段,获得MFB的i位内部特征之后,通过公式5计算MFB的输出特征zi,高阶MFHp模型的最终的输出特征z通过浓缩MFB模块的输出特征p:
随着p的增加,模型的大小和MFH的输出特征维数的线性增长,为了控制模型的复杂度和训练时间,我们在实验中使用p<4。
图4是本发明一种基于多模态分解模型进行可视问答的基本网络体系结构图。图像在ImageNet数据集进行训练,使用152层ResNet模型来提取图像特征,图像调整大小至448x448,图片使用2048-Dpool5特征(正规化)来表征,问题先标记化成文字,然后进一步转化为一个独热特征向量,最大长度为T,独热特征向量通过嵌入层进入有1024个隐藏单元的长短记忆模型(LSTM)网络,从LSTM网络提取最后一个单词的输出特征形成问题表示向量,预测答案。
进一步地,多模态特征(从图像和问题中提取)进入MFB或MFH模块图像生成融合图像问题特征z,z送入多路分类器预测的最佳匹配的答案。
图5是本发明一种基于多模态分解模型进行可视问答的协同注意力模型图示。在基本网络体系结构中引入共同注意学习(它共同学习图像和问题),有效地表征多模态特征之间的细粒度相关性,使模型具有更好的表示能力,对于一个给定的图像,不同的问题导致完全不同的答案,因此,图像注意模型能够预测图像中每个空间网格与问题之间的相关性,有利于准确预测最佳匹配答案,结合这种图像注意机制,可以使模型有效地了解哪个图像区域对于问题是重要的
共同注意学习采用MFB+CoAtt和MFH+CoAtt协同学习,同时注意问题和图像,具体来说,14×14(196)的图像的空间网格用来表示输入图像,从LSTM网络的输出特征T是用来表示在输入问题的每一个字,之后,问题特征T输入到一个问题注意模块中,输出注意的问题表示,该注意的问题表示输入图像的关注模块(196图像特征),和MFB或MFH生成一个图像融合问题表示。
融合图像问题表示进一步用于学习多类分类器的答案预测,使用MFH在图像关注模块不会显著提高预测精度,而且诱导更高的计算成本,MFH模块仅用于特征融合阶段整合提取图像和问题的注意特征,图像的关注模块和问题的关注模块包括连续的1×1卷积层和ReLU层,其次是softmax归一化层预测每个输入特征的注意权重,通过输入特征的加权和得到注意特征,为了进一步提高注意力特征的表示能力,生成多个注意图以增强学习注意图,并将这些注意图连接到输出注意的图像特征。
对于本领域技术人员,本发明不限制于上述实施例的细节,在不背离本发明的精神和范围的情况下,能够以其他具体形式实现本发明。此外,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围,这些改进和变型也应视为本发明的保护范围。因此,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
Claims (10)
1.一种基于多模态分解模型进行可视问答的方法,其特征在于,主要包括多模态分解双线性池(MFB)(一);多模态分解高阶池(MFH)(二);协同注意力模型(三)。
2.基于权利要求书1所述的多模态分解双线性池(MFB)(一),其特征在于,不同模态分别有两个特征矢量,其中图像的视觉特征为问题文字的视觉特征多模态分解双线性池的公式为:
zi=xTWiy (1)
其中,代表投影矩阵,代表双线性模型的输出,误差包含在W中,忽视可能有的偏差,通过学习获得o-维度的z输出,虽然双线性池可有效的捕捉成对特征维度的互动,但可能引入大量参数导致高的计算损失和过拟合的风险。
3.基于权利要求书2所述的双线性模型,其特征在于,根据单模态数据的矩阵分解技巧,公式(1)的投影矩阵Wi分解为两个低级矩阵计算式:
其中,k为分界矩阵和的最新维度,o代表哈达马积数或是两个矢量的要素相乘数,为总向量,学习矩阵内容 和后,可求出内容输出在保证简单性的同时,把U和V重新进行调整为2-D矩阵和公式3调整为:
SumPool(x,k)表示使用尺寸为k在一维非重叠窗口x上形成的加法汇聚,称之为多模态分解双线性池(MFB),为了防止过拟合,在要素相关层后加入流失层,MFB输出中加入标准化功率:z←sign(z)|z|0.5和l2标准化:z←z/‖z‖。
4.基于权利要求书1所述的多模态分解高阶池(MFH)(二),其特征在于,MFH是通过大量增加MFB模块,MFB可分为扩大阶段和压缩阶段:
不同模态的特征扩大至一个高纬度的空间进行要素相乘,之后,加入标准化层进行加法汇聚计算,随后在压缩阶段或缩小化过程中,将高纬度信息进行压缩成输出特征,最后压缩后的x和y通过concat函数将数组进行连接,Drop(·),SumPool(·),Norm(·)分别为筛选点、总汇层和标准测点层,zexp为板块的输入数,z为模块的输出,为提高MFBp模板的连串性,将公式进行优化:
<mrow>
<msubsup>
<mi>z</mi>
<mi>exp</mi>
<mi>i</mi>
</msubsup>
<mo>=</mo>
<msub>
<msup>
<mi>MFB</mi>
<mi>i</mi>
</msup>
<mi>exp</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>x</mi>
<mo>,</mo>
<mi>y</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<msubsup>
<mi>z</mi>
<mi>exp</mi>
<mrow>
<mi>i</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msubsup>
<mi>o</mi>
<mrow>
<mo>(</mo>
<mi>D</mi>
<mi>r</mi>
<mi>o</mi>
<mi>p</mi>
<mi>o</mi>
<mi>u</mi>
<mi>t</mi>
<mo>(</mo>
<msup>
<mover>
<mi>U</mi>
<mo>~</mo>
</mover>
<msup>
<mi>i</mi>
<mi>T</mi>
</msup>
</msup>
<mi>x</mi>
<mi>o</mi>
<mi>y</mi>
<msup>
<mover>
<mi>V</mi>
<mo>~</mo>
</mover>
<msup>
<mi>i</mi>
<mi>T</mi>
</msup>
</msup>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>6</mn>
<mo>)</mo>
</mrow>
</mrow>
i∈{1,2,…,p}是MFB模件的指数,和是加权矩阵,是MFB模件中第i位的内部特征,是MFB模件中第i-1位内部特征,为总向量。
5.基于权利要求书4所述的扩大阶段和压缩阶段,其特征在于,获得MFB的i位内部特征之后,通过公式5计算MFB的输出特征zi,高阶MFHp模型的最终的输出特征z通过浓缩MFB模块的输出特征p:
随着p的增加,模型的大小和MFH的输出特征维数的线性增长,为了控制模型的复杂度和训练时间,我们在实验中使用p<4。
6.基于权利要求1所述的协同注意力模型(三),其特征在于,在基本网络体系结构中引入共同注意学习(它共同学习图像和问题),有效地表征多模态特征之间的细粒度相关性,使模型具有更好的表示能力,对于一个给定的图像,不同的问题导致完全不同的答案,因此,图像注意模型能够预测图像中每个空间网格与问题之间的相关性,有利于准确预测最佳匹配答案,结合这种图像注意机制,可以使模型有效地了解哪个图像区域对于问题是重要的。
7.基于权利要求6所述的基本网络体系结构,其特征在于,图像在ImageNet数据集进行训练,使用152层ResNet模型来提取图像特征,图像调整大小至448x448,图片使用2048-Dpool5特征(正规化)来表征,问题先标记化成文字,然后进一步转化为一个独热特征向量,最大长度为T,独热特征向量通过嵌入层进入有1024个隐藏单元的长短记忆模型(LSTM)网络,从LSTM网络提取最后一个单词的输出特征形成问题表示向量,预测答案。
8.基于权利要求6所述的多模态特征,其特征在于,多模态特征(从图像和问题中提取)进入MFB或MFH模块图像生成融合图像问题特征z,z送入多路分类器预测的最佳匹配的答案。
9.基于权利要求6所述的共同注意学习,其特征在于,采用MFB+CoAtt和MFH+CoAtt协同学习,同时注意问题和图像,具体来说,14×14(196)的图像的空间网格用来表示输入图像,从LSTM网络的输出特征T是用来表示在输入问题的每一个字,之后,问题特征T输入到一个问题注意模块中,输出注意的问题表示,该注意的问题表示输入图像的关注模块(196图像特征),和MFB或MFH生成一个图像融合问题表示。
10.基于权利要求9所述的图像融合问题,其特征在于,融合的图像问题表示进一步用于学习多类分类器的答案预测,使用MFH在图像关注模块不会显著提高预测精度,而且诱导更高的计算成本,MFH模块仅用于特征融合阶段整合提取图像和问题的注意特征,图像的关注模块和问题的关注模块包括连续的1×1卷积层和ReLU层,其次是softmax归一化层预测每个输入特征的注意权重,通过输入特征的加权和得到注意特征,为了进一步提高注意力特征的表示能力,生成多个注意图以增强学习注意图,并将这些注意图连接到输出注意的图像特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710991611.0A CN107679582A (zh) | 2017-10-20 | 2017-10-20 | 一种基于多模态分解模型进行可视问答的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710991611.0A CN107679582A (zh) | 2017-10-20 | 2017-10-20 | 一种基于多模态分解模型进行可视问答的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107679582A true CN107679582A (zh) | 2018-02-09 |
Family
ID=61141366
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710991611.0A Withdrawn CN107679582A (zh) | 2017-10-20 | 2017-10-20 | 一种基于多模态分解模型进行可视问答的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107679582A (zh) |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108647702A (zh) * | 2018-04-13 | 2018-10-12 | 湖南大学 | 一种基于迁移学习的大规模食材图像分类方法 |
CN109002834A (zh) * | 2018-06-15 | 2018-12-14 | 东南大学 | 基于多模态表征的细粒度图像分类方法 |
CN109145970A (zh) * | 2018-08-06 | 2019-01-04 | 北京市商汤科技开发有限公司 | 基于图像的问答处理方法和装置、电子设备及存储介质 |
CN109165699A (zh) * | 2018-10-17 | 2019-01-08 | 中国科学技术大学 | 细粒度图像分类方法 |
CN109190683A (zh) * | 2018-08-14 | 2019-01-11 | 电子科技大学 | 一种基于注意力机制和双模态图像的分类方法 |
CN109785409A (zh) * | 2018-12-29 | 2019-05-21 | 武汉大学 | 一种基于注意力机制的图像-文本数据融合方法和系统 |
CN109784163A (zh) * | 2018-12-12 | 2019-05-21 | 中国科学院深圳先进技术研究院 | 一种轻量视觉问答系统及方法 |
CN109977428A (zh) * | 2019-03-29 | 2019-07-05 | 北京金山数字娱乐科技有限公司 | 一种答案获取的方法及装置 |
CN110134774A (zh) * | 2019-04-29 | 2019-08-16 | 华中科技大学 | 一种基于注意力决策的图像视觉问答模型、方法和系统 |
CN110175527A (zh) * | 2019-04-29 | 2019-08-27 | 北京百度网讯科技有限公司 | 行人再识别方法及装置、计算机设备及可读介质 |
CN110209789A (zh) * | 2019-05-29 | 2019-09-06 | 山东大学 | 一种用户注意力引导的多模态对话系统及方法 |
CN110222770A (zh) * | 2019-06-10 | 2019-09-10 | 成都澳海川科技有限公司 | 一种基于组合关系注意力网络的视觉问答方法 |
CN110490254A (zh) * | 2019-08-20 | 2019-11-22 | 山西潞安环保能源开发股份有限公司五阳煤矿 | 一种基于双重注意力机制层次网络的图像语义生成方法 |
CN110598018A (zh) * | 2019-08-13 | 2019-12-20 | 天津大学 | 一种基于协同注意力的草图图像检索方法 |
CN112926655A (zh) * | 2021-02-25 | 2021-06-08 | 电子科技大学 | 一种图像内容理解与视觉问答vqa方法、存储介质和终端 |
CN113010712A (zh) * | 2021-03-04 | 2021-06-22 | 天津大学 | 一种基于多图融合的视觉问答方法 |
CN113626662A (zh) * | 2021-07-29 | 2021-11-09 | 山东新一代信息产业技术研究院有限公司 | 一种实现灾后图像视觉问答的方法 |
CN113837212A (zh) * | 2020-06-24 | 2021-12-24 | 四川大学 | 一种基于多模态双向导向注意力的视觉问答方法 |
CN114417044A (zh) * | 2022-01-19 | 2022-04-29 | 中国科学院空天信息创新研究院 | 图像问答的方法及装置 |
CN115730059A (zh) * | 2022-12-08 | 2023-03-03 | 安徽建筑大学 | 视觉问答方法、装置、设备及存储介质 |
CN116030295A (zh) * | 2022-10-13 | 2023-04-28 | 中电金信软件(上海)有限公司 | 物品识别方法、装置、电子设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170124432A1 (en) * | 2015-11-03 | 2017-05-04 | Baidu Usa Llc | Systems and methods for attention-based configurable convolutional neural networks (abc-cnn) for visual question answering |
CN106951473A (zh) * | 2017-03-06 | 2017-07-14 | 浙江大学 | 面向视觉障碍人士的深度视觉问答系统的构建方法 |
-
2017
- 2017-10-20 CN CN201710991611.0A patent/CN107679582A/zh not_active Withdrawn
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170124432A1 (en) * | 2015-11-03 | 2017-05-04 | Baidu Usa Llc | Systems and methods for attention-based configurable convolutional neural networks (abc-cnn) for visual question answering |
CN106951473A (zh) * | 2017-03-06 | 2017-07-14 | 浙江大学 | 面向视觉障碍人士的深度视觉问答系统的构建方法 |
Non-Patent Citations (1)
Title |
---|
ZHOU YU ET.AL: "Beyond Bilinear: Generalized Multi-modal Factorized High-order Pooling for Visual Question Answering", 《ARXIV:1708.03619V1 [CS.CV]》 * |
Cited By (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108647702B (zh) * | 2018-04-13 | 2021-06-01 | 湖南大学 | 一种基于迁移学习的大规模食材图像分类方法 |
CN108647702A (zh) * | 2018-04-13 | 2018-10-12 | 湖南大学 | 一种基于迁移学习的大规模食材图像分类方法 |
CN109002834B (zh) * | 2018-06-15 | 2022-02-11 | 东南大学 | 基于多模态表征的细粒度图像分类方法 |
CN109002834A (zh) * | 2018-06-15 | 2018-12-14 | 东南大学 | 基于多模态表征的细粒度图像分类方法 |
CN109145970A (zh) * | 2018-08-06 | 2019-01-04 | 北京市商汤科技开发有限公司 | 基于图像的问答处理方法和装置、电子设备及存储介质 |
CN109145970B (zh) * | 2018-08-06 | 2021-01-12 | 北京市商汤科技开发有限公司 | 基于图像的问答处理方法和装置、电子设备及存储介质 |
CN109190683A (zh) * | 2018-08-14 | 2019-01-11 | 电子科技大学 | 一种基于注意力机制和双模态图像的分类方法 |
CN109165699A (zh) * | 2018-10-17 | 2019-01-08 | 中国科学技术大学 | 细粒度图像分类方法 |
CN109165699B (zh) * | 2018-10-17 | 2020-06-26 | 中国科学技术大学 | 细粒度图像分类方法 |
CN109784163A (zh) * | 2018-12-12 | 2019-05-21 | 中国科学院深圳先进技术研究院 | 一种轻量视觉问答系统及方法 |
WO2020119631A1 (zh) * | 2018-12-12 | 2020-06-18 | 中国科学院深圳先进技术研究院 | 一种轻量视觉问答系统及方法 |
CN109785409A (zh) * | 2018-12-29 | 2019-05-21 | 武汉大学 | 一种基于注意力机制的图像-文本数据融合方法和系统 |
CN109785409B (zh) * | 2018-12-29 | 2020-09-08 | 武汉大学 | 一种基于注意力机制的图像-文本数据融合方法和系统 |
CN109977428B (zh) * | 2019-03-29 | 2024-04-02 | 北京金山数字娱乐科技有限公司 | 一种答案获取的方法及装置 |
CN109977428A (zh) * | 2019-03-29 | 2019-07-05 | 北京金山数字娱乐科技有限公司 | 一种答案获取的方法及装置 |
CN110134774A (zh) * | 2019-04-29 | 2019-08-16 | 华中科技大学 | 一种基于注意力决策的图像视觉问答模型、方法和系统 |
CN110134774B (zh) * | 2019-04-29 | 2021-02-09 | 华中科技大学 | 一种基于注意力决策的图像视觉问答模型、方法和系统 |
CN110175527A (zh) * | 2019-04-29 | 2019-08-27 | 北京百度网讯科技有限公司 | 行人再识别方法及装置、计算机设备及可读介质 |
US11379696B2 (en) | 2019-04-29 | 2022-07-05 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Pedestrian re-identification method, computer device and readable medium |
CN110209789A (zh) * | 2019-05-29 | 2019-09-06 | 山东大学 | 一种用户注意力引导的多模态对话系统及方法 |
CN110209789B (zh) * | 2019-05-29 | 2021-08-24 | 山东大学 | 一种用户注意力引导的多模态对话系统及方法 |
CN110222770A (zh) * | 2019-06-10 | 2019-09-10 | 成都澳海川科技有限公司 | 一种基于组合关系注意力网络的视觉问答方法 |
CN110598018A (zh) * | 2019-08-13 | 2019-12-20 | 天津大学 | 一种基于协同注意力的草图图像检索方法 |
CN110490254A (zh) * | 2019-08-20 | 2019-11-22 | 山西潞安环保能源开发股份有限公司五阳煤矿 | 一种基于双重注意力机制层次网络的图像语义生成方法 |
CN110490254B (zh) * | 2019-08-20 | 2023-04-18 | 山西潞安环保能源开发股份有限公司五阳煤矿 | 一种基于双重注意力机制层次网络的图像语义生成方法 |
CN113837212A (zh) * | 2020-06-24 | 2021-12-24 | 四川大学 | 一种基于多模态双向导向注意力的视觉问答方法 |
CN113837212B (zh) * | 2020-06-24 | 2023-09-26 | 四川大学 | 一种基于多模态双向导向注意力的视觉问答方法 |
CN112926655B (zh) * | 2021-02-25 | 2022-05-17 | 电子科技大学 | 一种图像内容理解与视觉问答vqa方法、存储介质和终端 |
CN112926655A (zh) * | 2021-02-25 | 2021-06-08 | 电子科技大学 | 一种图像内容理解与视觉问答vqa方法、存储介质和终端 |
CN113010712A (zh) * | 2021-03-04 | 2021-06-22 | 天津大学 | 一种基于多图融合的视觉问答方法 |
CN113626662A (zh) * | 2021-07-29 | 2021-11-09 | 山东新一代信息产业技术研究院有限公司 | 一种实现灾后图像视觉问答的方法 |
CN114417044A (zh) * | 2022-01-19 | 2022-04-29 | 中国科学院空天信息创新研究院 | 图像问答的方法及装置 |
CN116030295A (zh) * | 2022-10-13 | 2023-04-28 | 中电金信软件(上海)有限公司 | 物品识别方法、装置、电子设备及存储介质 |
CN115730059A (zh) * | 2022-12-08 | 2023-03-03 | 安徽建筑大学 | 视觉问答方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107679582A (zh) | 一种基于多模态分解模型进行可视问答的方法 | |
CN111985369B (zh) | 基于跨模态注意力卷积神经网络的课程领域多模态文档分类方法 | |
CN111554268B (zh) | 基于语言模型的语言识别方法、文本分类方法和装置 | |
US10970830B2 (en) | Image style conversion method, apparatus and device | |
CN110263912B (zh) | 一种基于多目标关联深度推理的图像问答方法 | |
CN109711463A (zh) | 基于注意力的重要对象检测方法 | |
Zhu et al. | Attention-aware perceptual enhancement nets for low-resolution image classification | |
US20160155016A1 (en) | Method for Implementing a High-Level Image Representation for Image Analysis | |
CN108154156B (zh) | 基于神经主题模型的图像集成分类方法及装置 | |
CN110111365B (zh) | 基于深度学习的训练方法和装置以及目标跟踪方法和装置 | |
Ye et al. | A joint-training two-stage method for remote sensing image captioning | |
CN114495129A (zh) | 文字检测模型预训练方法以及装置 | |
CN113761153A (zh) | 基于图片的问答处理方法、装置、可读介质及电子设备 | |
Wang et al. | Advanced Multimodal Deep Learning Architecture for Image-Text Matching | |
CN114708270B (zh) | 基于知识聚合与解耦蒸馏的压缩方法在语义分割中的应用 | |
CN115953621A (zh) | 一种基于不可靠伪标签学习的半监督高光谱图像分类方法 | |
CN114780767A (zh) | 一种基于深度卷积神经网络的大规模图像检索方法及系统 | |
Hu et al. | Labelbank: Revisiting global perspectives for semantic segmentation | |
Jishan et al. | Bangla language textual image description by hybrid neural network model | |
Li et al. | Image decomposition with multilabel context: Algorithms and applications | |
Yin et al. | Semi-supervised semantic segmentation with multi-reliability and multi-level feature augmentation | |
CN113344146A (zh) | 基于双重注意力机制的图像分类方法、系统及电子设备 | |
Jiang et al. | Semantic segmentation of remote sensing images combined with attention mechanism and feature enhancement U-Net | |
Zhu | A graph neural network-enhanced knowledge graph framework for intelligent analysis of policing cases | |
CN115098646B (zh) | 一种图文数据的多级关系分析与挖掘方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20180209 |
|
WW01 | Invention patent application withdrawn after publication |