CN109670576B - 一种多尺度视觉关注图像描述方法 - Google Patents
一种多尺度视觉关注图像描述方法 Download PDFInfo
- Publication number
- CN109670576B CN109670576B CN201811446195.7A CN201811446195A CN109670576B CN 109670576 B CN109670576 B CN 109670576B CN 201811446195 A CN201811446195 A CN 201811446195A CN 109670576 B CN109670576 B CN 109670576B
- Authority
- CN
- China
- Prior art keywords
- layer
- visual
- model
- neural network
- visual attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
Abstract
本发明公开了一种多尺度视觉关注图像描述方法,通过对海量已标注文本描述的图像训练,得到一个由三部分:双层循环神经网络,多尺度视觉关注模型,多模态层组成的图像描述模型,实现对任意测试图像自动生成与其内容相关的描述语句。本发明能更加结合联系文本与视觉信息之间的联系,并将视觉关注机制应用到区域视觉特征中,得到更精确的视觉关注特征。同时通过双层循环神经网络的设计,解耦文本和视觉特征的处理,并将多尺度视觉关注模型加入多模态层,进而提高模型性能;本发明还利用共享矩阵方案,在大幅减少模型参数量的同时,也使模型性能得到更进一步提升。
Description
技术领域
本发明涉及人工智能自然语言处理领域,更具体地,涉及一种多尺度视觉关注图像描述方法。
背景技术
随着2012年基于图像识别的AlexNet的提出,基于深度学习的人工神经网络得到了迅猛的发展。如今,基于图像分类的卷积神经网络已达到超越人类的图像识别精度,视觉领域的发展已为人们的科技生活提供了极大的便利。同时,基于文本特征的循环神经网络同样发展迅速,尤其是LSTM网络的提出,有效解决了传统循环神经网络RNN对长时信息的遗忘问题。而作为一个融合计算机视觉和自然语言处理领域的图像描述问题,具有广泛的应用前景,例如图像内容的识别,早期儿童教育以及盲人导航等等。对早期儿童教育等应用而言,自动获得图像的文本描述是非常有价值的。使用人力标注显然不现实,而随着深度学习技术的发展,使用图像描述技术,可以大大降低教师和家长的工作量,具有广泛的应用前景。对于盲人导航领域,图像描述技术可以有效解决导盲犬的培育成本和相关隐患,还能提供更加精准得分析和判断路况信息,来帮助盲人导航指路。
虽然传统M-RNN模型能够有效融合多种模态的特征信息,包括全局的图像视觉特征,但其并没有充分利用区域块的图像特征信息。然而一张图片中往往包含了多个目标,因此仅仅利用全局的图像特征会导致图像特征的冗余,同时也忽略了很多区域块的图像特征信息,导致最终生成的句子不能充分表达图片中的所有信息。同时,传统视觉关注模型缺乏考虑融合多种尺度的视觉特征。尽管M-RNN模型具有首尾对称结构,但模型中独热码与嵌入层之间的转换矩阵参数并没有被充分利用,这也给模型带来了额外的参数量,增加模型计算成本的同时也增加了训练时过拟合的风险。
发明内容
本发明为克服上述现有技术中参数量较大导致的计算成本高及训练时较高的过拟合风险的问题,提供一种多尺度视觉关注图像描述方法。
本发明旨在至少在一定程度上解决上述技术问题。
为解决上述技术问题,本发明的技术方案如下:
一种多尺度视觉关注图像描述方法,所述方法构造的多尺度视觉关注图像描述模型包括单词输入处理层,卷积神经网络层,循环层,多尺度视觉关注模型MVA,多模态层;
所述单词输入处理层:包括第一嵌入层和第二嵌入层;将欲训练的单词使用独热码表示,将独热码依次经过第一嵌入层和第二嵌入层转换为词向量,所述词向量作为循环层的输入;
所述卷积神经网络层用于提取输入图像的全局视觉特征和多尺度区域块视觉特征;
选用现有循环神经网络作为循环层,接受来自第二嵌入层的词向量作为输入;
所述多尺度视觉关注模型MVA将循环层中第二个循环神经网络隐含层的输出结果和卷积神经网络提取的区域块视觉特征一起作为输入,并输出视觉关注特征;
所述多模态层将所述第二嵌入层的输出特征、循环层第二层的输出特征,全局视觉特征以及多尺度视觉关注模型MVA输出的视觉关注特征作为多模态层的输入,并输出词向量;
所述方法具体处理过程包括如下步骤:
S1:选用现有循环神经网络作为循环层,将欲训练的单词使用独热码表示,将独热码依次经过第一嵌入层和第二嵌入层转换为词向量,所述词向量作为循环层的输入;构造用于视觉特征提取的卷积神经网络具体步骤如下:
S1.1:选择在图像数据集ImageNet上预训练好的卷积神经网络相关参数,用于提取全局视觉特征;
S1.2:对图像描述的数据集的所有图片提取相关的全局视觉特征,并将每个全局视觉特征存储为向量vf;
S1.3:在卷积神经网络模型中,通过CNN和RCNN模型,分别得到不同尺度的区域块视觉特征向量;
S1.4:在循环层中,采用双层循环神经网络的设计解耦文本和视觉特征处理,第一层循环神经网络用于处理文本模型,第二层循环神经网络用于处理视觉特征;
S2:构造多尺度视觉关注模型MVA,具体步骤如下:
S2.1:取S1.3步骤中输出的区域块视觉特征作为多尺度视觉关注模型MVA的输入,输入的区域块视觉特征包含多个区域块的特征信息,将每张图像中由CNN提取的区域块视觉特征表示为:a={a1,…aN},由RCNN提取的区域块视觉特征表示为:b={b1,…bL},根据步骤S1双层循环神经网络中第二个LSTM隐含层的输出ht,以及区域块视觉特征a,b通过元素点乘运算fatt计算得到当前时刻与当前上下文语境相关的关注激活状态向量公式如下:
S2.3:将步骤S2.1和步骤S2.2得到的关注激活状态向量eti和关注权重ati进行加权求和得到视觉关注特征Ai,Bi,公式如下:
S3:构造融合各类特征的多模态层,具体步骤如下:
S3.1:将所述第二嵌入层的输出特征wt、循环层的第二个LSTM输出特征rt,全局视觉特征vf以及多尺度视觉关注模型MVA输出的视觉关注特征At,Bt作为多模态层的输入,将上述特征通过矩阵分别映射为同一维度的特征向量,多模态层输出m(t)表示为:
m(t)=g(Vw·wt+Vr·rt+VI·vf+At+Bt)
其中,Vw,Vr,VI分别表示为wt,rt,vf的映射矩阵,g(·)为调整过的双曲正切函数
S4:多尺度视觉关注图像描述模型的训练和输出,具体步骤如下:
S4.1:图像采集:采用多个带有文本标注的图像数据集用于多尺度视觉关注图像描述模型的训练和验证;
S4.2:采用交叉熵损失作为多尺度视觉关注图像描述模型的目标函数,采用随机梯度下降算法计算损失梯度并使用反向传导算法对整个多尺度视觉关注图像描述模型网络里所有层中的参数进行微调。
S4.3:将多模态层的输出输出向量经过矩阵转换为用于文本生成的独热码,独热码通过SoftMax计算出当前时刻多尺度视觉关注图像描述模型输出的单词即图像描述。
进一步地,步骤S1中提取15个基于RCNN图像区域的区域块视觉特征,196个基于CNN的方格区域特征,所述视觉特征向量vf为2048维。
进一步地,所述损失函数公式为:
其中,N表示单词总数,Ns表示训练集句子总数,L(i)表示第i个句子的长度,θ表示模型的参数。
与现有技术相比,本发明技术方案的有益效果是:
本发明通过结合文本与视觉特征的关联,应用多尺度关注机制生成区域块视觉特征,从而有效提升模型的性能和效果,同时利用共享矩阵方案大幅降低模型参数,减少模型过拟合风险的同时增加模型的性能。
附图说明
图1为总结构框图。
图2为共享矩阵方案示意图。
具体实施方式
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
参见图1,一种多尺度视觉关注图像描述方法,所述方法构造的多尺度视觉关注图像描述模型包括单词输入处理层,卷积神经网络层,循环层,多尺度视觉关注模型MVA,多模态层;
所述单词输入处理层:包括第一嵌入层和第二嵌入层;将欲训练的单词使用独热码表示,将独热码依次经过第一嵌入层和第二嵌入层转换为词向量,所述词向量作为循环层的输入;
所述卷积神经网络层用于提取输入图像的全局视觉特征和多尺度区域块视觉特征;
选用现有循环神经网络作为循环层,接受来自第二嵌入层的词向量作为输入;
所述多尺度视觉关注模型MVA将循环层中隐含层的输出结果和卷积神经网络提取的多尺度视觉特征一起作为输入,并输出视觉关注特征;
所述多模态层将所述第二嵌入层的输出特征、循环层的输出特征,全局视觉特征以及多尺度视觉关注模型MVA输出的视觉关注特征作为多模态层的输入,并输出词向量;
包括以下步骤:
S1:选用现有循环神经网络作为循环层,将欲训练的单词使用独热码表示,将独热码依次经过第一嵌入层和第二嵌入层转换为词向量,所述词向量作为循环层的输入;构造用于视觉特征提取的卷积神经网络具体步骤如下:
具体步骤如下:
S1.1:选择在图像数据集ImageNet上预训练好的卷积神经网络相关参数,用于提取全局视觉特征;
S1.2:对图像描述的数据集的所有图片提取相关的全局视觉特征,并将每个全局视觉特征存储2048维的向量vf;
S1.3:在卷积神经网络模型中,首先提取网络最后一个卷积层的输出结果,然后将其通过空间自适应池化操作得到196个方格区域块特征,同时通过RCNN,得到15个特征区域块的视觉特征向量;由CNN提取的区域块视觉特征向量a,其维度196*2048,其中2048代表每个向量的维度,196对应图像中的14*14个区域块子区域,区域块视觉特征向量也可以表示为a={a1,…aN}。由RCNN提取的区域块视觉特征向量b,其维度15*2048,其中2048代表每个向量的维度,15对应图像中的15个区域块子区域,区域块视觉特征向量也可以表示为b={b1,…bL}。
S1.4:在循环层中,采用双层循环神经网络的设计解耦文本和视觉特征处理,第一层循环神经网络用于处理文本模型,第二层循环神经网络用于处理视觉特征;
S2构造多尺度视觉关注模型MVA,区域块视觉特征输入到多尺度视觉关注模型中,根据步骤S1中循环神经网络第二隐含层的输出,以及区域块视觉特征,共同计算出当前时刻每个区域的关注权重,然后将计算得到的权重与区域块图像特征进行加权求和,就可以得到当前时刻基于当前上下文语境下的视觉关注特征向量。该视觉关注特征将指导模型有效关注到与当前生成的描述语句相关的区域块图像区域,大幅提高了视觉特征的准确性,从而提升模型生成文本的效果。具体步骤如下:
S2.1:取S1.3步骤中输出的区域块视觉特征作为多尺度视觉关注模型MVA的输入,输入的区域块视觉特征包含多种区域块的特征信息,将每张图像中由CNN提取的区域块视觉特征表示为:a={a1,…aN},由RCNN提取的区域块视觉特征表示为:b={b1,…bL},根据步骤S1双层循环神经网络中第二个LSTM隐含层的输出ht,以及区域块视觉特征a,b通过元素点乘运算fatt计算得到当前时刻与当前上下文语境相关的关注激活状态向量公式如下:
S2.3:将步骤S2.1和步骤S2.2得到的关注激活状态向量eti和关注权重ati进行加权求和得到视觉关注特征Ai,Bi,公式如下:
S3:构造融合各类特征的多模态层,为了充分利用多种模态的特征信息,使得特征信息共同作用促进模型的性能,采用一个多模态层来融合这些特征。这些特征包括:卷积神经网络提取的全局图像特征vf,步骤(2)中经过视觉关注模型输出的区域块图像特征At,Bt,第二个嵌入层的输出wt以及循环神经网络第二层输出的文本特征rt。具体步骤如下:
S3.1:将所述方法的第二嵌入层的输出特征wt、循环层的输出rt,全局视觉特征vf以及多尺度视觉关注模型MVA输出的视觉关注特征At,Bt作为多模态层的输入将上述特征通过矩阵分别映射为同一维度的特征向量,多模态层输出m(t)表示为:
m(t)=g(Vw·wt+Vr·rt+VI·vf+At+Bt)
其中,Vw,Vr,VI分别表示为wt,rt,vf的映射矩阵,g(·)为调整过的双曲正切函数
本发明针对多模态层输出向量转换为独热码过程与单词输入处理阶段将独热码转为词向量的过程互为逆操作,设计了共享矩阵方案,如图2所示,在整个网络结构中,我们采用共享矩阵方案,利用模型的对称结构,通过共享模型中独热码与嵌入层之间的转换矩阵,大幅降低了模型的参数量,进一步提升了模型的性能。具体过程如下:
循环层的输入构建,所述方法初始时将单词用稀疏的独热码来表示,所述独热码经过Uw映射到第一嵌入层转换为稠密的嵌入层向量,然后将第一嵌入层得到的嵌入向量经过矩阵映射得到第二嵌入层得到嵌入层特征wt,
第二嵌入层输出特征wt作为循环层的输入,所述方法最后的输出是第一嵌入层的转换相反的逆变换,将待输出向量经过矩阵Um转换为用于文本生成的独热码;将这两个互为逆操作的转换矩阵参数共享,两个转换矩阵参数量为:(1024N+2048N),第一嵌入层维度为1024,多模态层特征维度为2048,单词总量也即独热码维度N取值为10000。
S4:多尺度视觉关注图像描述模型的训练和输出,全局图像特征和区域块图像特征采用在ImageNet训练集预训练好的卷积神经网络进行特征提取,其他模型的所有参数则首先通过随机初始化,然后在训练过程中根据交叉熵误差,采用随机梯度下降算法计算损失梯度并使用反向传导算法对整个多尺度视觉关注图像描述模型网络里所有层中的参数进行微调。具体步骤如下:
S4.1:图像采集:采用多个带有文本标注的图像数据集用于多尺度视觉关注图像描述模型的训练和验证;
S4.2:采用交叉熵损失作为多尺度视觉关注图像描述模型的目标函数,采用随机梯度下降算法计算损失梯度并使用反向传导算法对整个多尺度视觉关注图像描述模型网络里所有层中的参数进行微调,损失函数公式为:
其中,N表示单词总数,Ns表示训练集句子总数,L(i)表示第i个句子的长度,θ表示模型的参数。
S4.3:将多模态层的输出输出向量经过矩阵转换为用于文本生成的独热码,独热码通过SoftMax计算出当前时刻图像描述模型输出的单词即图像描述。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (3)
1.一种多尺度视觉关注图像描述方法,其特征在于,所述方法构造的多尺度视觉关注图像描述模型包括单词输入处理层,卷积神经网络层,循环层,多尺度视觉关注模型MVA,多模态层;
所述单词输入处理层:包括第一嵌入层和第二嵌入层;将欲训练的单词使用独热码表示,将独热码依次经过第一嵌入层和第二嵌入层转换为词向量,所述词向量作为循环层的输入;
所述卷积神经网络层用于提取输入图像的全局视觉特征和多尺度视觉特征;
选用现有循环神经网络作为循环层,接受来自第二嵌入层的词向量作为输入;同时,通过双层循环神经网络的设计,解耦文本和视觉特征的处理,第一层循环神经网络用于处理文本模型,第二层循环神经网络用于处理视觉特征;
所述多尺度视觉关注模型MVA将循环层中第二层的隐含层输出结果和卷积神经网络提取的多尺度视觉特征一起作为输入,并输出视觉关注特征;
所述多模态层将所述第二嵌入层的输出特征、循环层的输出特征,全局视觉特征以及多尺度视觉关注模型MVA输出的视觉关注特征作为多模态层的输入,并输出词向量;
所述方法具体处理过程包括如下步骤:
S1:选用现有循环神经网络作为循环层,将欲训练的单词使用独热码表示,将独热码依次经过第一嵌入层和第二嵌入层转换为词向量,所述词向量作为循环层的输入;构造用于视觉特征提取的卷积神经网络具体步骤如下:
S1.1:选择在图像数据集ImageNet上预训练好的卷积神经网络相关参数,用于提取全局视觉特征;
S1.2:对图像描述的数据集的所有图片提取相关的全局视觉特征,并将每个全局视觉特征存储为向量vf;
S1.3:在卷积神经网络模型中,通过CNN和RCNN模型,分别得到不同尺度的区域块视觉特征向量;
S1.4:在循环层中,采用双层循环神经网络的设计解耦文本和视觉特征处理,第一层循环神经网络用于处理文本模型,第二层循环神经网络用于处理视觉特征;
S2:构造多尺度视觉关注模型MVA,具体步骤如下:
S2.1:取S1.3步骤中输出的区域块视觉特征作为多尺度视觉关注模型MVA的输入,输入的区域块视觉特征包含多种区域块的特征信息,将每张图像中由CNN提取的区域块视觉特征表示为:a={a1,…aN},由RCNN提取的区域块视觉特征表示为:b={b1,…bL},根据步骤S1双层循环神经网络中第二个LSTM隐含层的输出ht,以及区域块视觉特征a,b通过元素点乘运算fatt计算得到当前时刻与当前上下文语境相关的关注激活状态向量公式如下:
S2.3:将步骤S2.1和步骤S2.2得到的关注激活状态向量eti和关注权重ati进行加权求和得到视觉关注特征Ai,Bi,公式如下:
S3:构造融合各类特征的多模态层,具体步骤如下:
S3.1:将所述第二嵌入层的输出特征wt、循环层第二个LSTM的输出特征rt,全局视觉特征vf以及多尺度视觉关注模型MVA输出的视觉关注特征At,Bt作为多模态层的输入,将上述特征通过矩阵分别映射为同一维度的特征向量,多模态层输出m(t)表示为:
m(t)=g(Vw·wt+Vr·rt+VI·vf+At+Bt)
其中,Vw,Vr,VI分别表示为wt,rt,vf的映射矩阵,g(·)为调整过的双曲正切函数
S4:多尺度视觉关注图像描述模型的训练和输出,具体步骤如下:
S4.1:图像采集:采用多个带有文本标注的图像数据集用于多尺度视觉关注图像描述模型的训练和验证;
S4.2:采用交叉熵损失作为多尺度视觉关注图像描述模型的目标函数,采用随机梯度下降算法计算损失梯度并使用反向传导算法对整个多尺度视觉关注图像描述模型网络里所有层中的参数进行微调;
S4.3:将多模态层的输出向量经过矩阵转换为用于文本生成的独热码,独热码通过SoftMax计算出当前时刻多尺度视觉关注图像描述模型输出的单词即图像描述。
2.根据权利要求1所述的一种多尺度视觉关注图像描述方法,其特征在于,步骤S1中提取15个基于RCNN图像区域的区域块视觉特征,196个基于CNN的方格区域特征,所述视觉特征向量vf为2048维。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811446195.7A CN109670576B (zh) | 2018-11-29 | 2018-11-29 | 一种多尺度视觉关注图像描述方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811446195.7A CN109670576B (zh) | 2018-11-29 | 2018-11-29 | 一种多尺度视觉关注图像描述方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109670576A CN109670576A (zh) | 2019-04-23 |
CN109670576B true CN109670576B (zh) | 2022-09-13 |
Family
ID=66143468
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811446195.7A Active CN109670576B (zh) | 2018-11-29 | 2018-11-29 | 一种多尺度视觉关注图像描述方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109670576B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110111399B (zh) * | 2019-04-24 | 2023-06-30 | 上海理工大学 | 一种基于视觉注意力的图像文本生成方法 |
CN110135441B (zh) * | 2019-05-17 | 2020-03-03 | 北京邮电大学 | 一种图像的文本描述方法及装置 |
CN110490136B (zh) * | 2019-08-20 | 2023-03-24 | 电子科技大学 | 一种基于知识蒸馏的人体行为预测方法 |
CN111209961B (zh) * | 2020-01-03 | 2020-10-09 | 广州海洋地质调查局 | 一种冷泉区海底生物识别方法及处理终端 |
CN111767461B (zh) * | 2020-06-24 | 2024-02-06 | 北京奇艺世纪科技有限公司 | 数据处理方法及装置 |
CN112101165B (zh) * | 2020-09-07 | 2022-07-15 | 腾讯科技(深圳)有限公司 | 兴趣点识别方法、装置、计算机设备和存储介质 |
CN112308081B (zh) * | 2020-11-05 | 2023-05-30 | 南强智视(厦门)科技有限公司 | 一种基于注意力机制的图像目标预测方法 |
CN112926662B (zh) * | 2021-02-25 | 2022-05-03 | 电子科技大学 | 一种基于多尺度语言嵌入rec的目标检测方法 |
CN116543146B (zh) * | 2023-07-06 | 2023-09-26 | 贵州大学 | 一种基于窗口自注意与多尺度机制的图像密集描述方法 |
CN117609902B (zh) * | 2024-01-18 | 2024-04-05 | 北京知呱呱科技有限公司 | 一种基于图文多模态双曲嵌入的专利ipc分类方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2996058A1 (en) * | 2014-09-10 | 2016-03-16 | Intrasense | Method for automatically generating representations of imaging data and interactive visual imaging reports |
EP3099075A1 (en) * | 2015-05-29 | 2016-11-30 | Xiaomi Inc. | Method and device for processing identification of video file |
CN106599198A (zh) * | 2016-12-14 | 2017-04-26 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种多级联结循环神经网络的图像描述方法 |
CN106777125A (zh) * | 2016-12-16 | 2017-05-31 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种基于神经网络及图像关注点的图像描述生成方法 |
CN106844442A (zh) * | 2016-12-16 | 2017-06-13 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 基于fcn特征提取的多模态循环神经网络图像描述方法 |
CN108108771A (zh) * | 2018-01-03 | 2018-06-01 | 华南理工大学 | 基于多尺度深度学习的图像问答方法 |
CN108829677A (zh) * | 2018-06-05 | 2018-11-16 | 大连理工大学 | 一种基于多模态注意力的图像标题自动生成方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7428338B2 (en) * | 2002-01-10 | 2008-09-23 | Ricoh Co., Ltd. | Header-based processing of images compressed using multi-scale transforms |
US9965705B2 (en) * | 2015-11-03 | 2018-05-08 | Baidu Usa Llc | Systems and methods for attention-based configurable convolutional neural networks (ABC-CNN) for visual question answering |
US10705525B2 (en) * | 2017-04-07 | 2020-07-07 | Nvidia Corporation | Performing autonomous path navigation using deep neural networks |
-
2018
- 2018-11-29 CN CN201811446195.7A patent/CN109670576B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2996058A1 (en) * | 2014-09-10 | 2016-03-16 | Intrasense | Method for automatically generating representations of imaging data and interactive visual imaging reports |
EP3099075A1 (en) * | 2015-05-29 | 2016-11-30 | Xiaomi Inc. | Method and device for processing identification of video file |
CN106599198A (zh) * | 2016-12-14 | 2017-04-26 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种多级联结循环神经网络的图像描述方法 |
CN106777125A (zh) * | 2016-12-16 | 2017-05-31 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种基于神经网络及图像关注点的图像描述生成方法 |
CN106844442A (zh) * | 2016-12-16 | 2017-06-13 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 基于fcn特征提取的多模态循环神经网络图像描述方法 |
CN108108771A (zh) * | 2018-01-03 | 2018-06-01 | 华南理工大学 | 基于多尺度深度学习的图像问答方法 |
CN108829677A (zh) * | 2018-06-05 | 2018-11-16 | 大连理工大学 | 一种基于多模态注意力的图像标题自动生成方法 |
Non-Patent Citations (2)
Title |
---|
Multiscale illumination normalization for face recognition using dual-tree complex wavelet transform in logarithm domain;Haifeng Hu;《Computer Vision and Image Understanding》;20110621;全文 * |
核主成分分析网络的人脸识别方法;胡伟鹏,胡海峰等;《中山大学学报》;20160930;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109670576A (zh) | 2019-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109670576B (zh) | 一种多尺度视觉关注图像描述方法 | |
CN109918671A (zh) | 基于卷积循环神经网络的电子病历实体关系抽取方法 | |
CN110580500A (zh) | 一种面向人物交互的网络权重生成少样本图像分类方法 | |
Latif et al. | An automatic Arabic sign language recognition system based on deep CNN: an assistive system for the deaf and hard of hearing | |
CN109145304B (zh) | 一种基于字的中文观点要素情感分析方法 | |
CN110516095A (zh) | 基于语义迁移的弱监督深度哈希社交图像检索方法和系统 | |
CN113656570A (zh) | 基于深度学习模型的视觉问答方法及装置、介质、设备 | |
CN111598183A (zh) | 一种多特征融合图像描述方法 | |
CN113361278B (zh) | 一种基于数据增强与主动学习的小样本命名实体识别方法 | |
KR20200010672A (ko) | 딥러닝을 이용한 스마트 상품 검색 방법 및 시스템 | |
CN117218498B (zh) | 基于多模态编码器的多模态大语言模型训练方法及系统 | |
CN113743544A (zh) | 一种跨模态神经网络构建方法、行人检索方法及系统 | |
CN112651940A (zh) | 基于双编码器生成式对抗网络的协同视觉显著性检测方法 | |
CN115131613A (zh) | 一种基于多向知识迁移的小样本图像分类方法 | |
CN114186568A (zh) | 一种基于关系编码和层次注意力机制的图像段落描述方法 | |
CN115221846A (zh) | 一种数据处理方法及相关设备 | |
CN115827954A (zh) | 动态加权的跨模态融合网络检索方法、系统、电子设备 | |
CN116385937A (zh) | 一种基于多粒度的跨模态交互框架解决视频问答的方法及系统 | |
CN116975350A (zh) | 图文检索方法、装置、设备及存储介质 | |
CN115221369A (zh) | 视觉问答的实现方法和基于视觉问答检验模型的方法 | |
CN111026887A (zh) | 一种跨媒体检索的方法及系统 | |
CN110472746A (zh) | 一种基于人工智能的编码预测方法和系统 | |
CN112216379A (zh) | 一种基于智能联合学习的疾病诊断系统 | |
CN113780059A (zh) | 一种基于多特征点的连续手语识别方法 | |
CN111445545B (zh) | 一种文本转贴图方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |