CN109670576B - 一种多尺度视觉关注图像描述方法 - Google Patents

一种多尺度视觉关注图像描述方法 Download PDF

Info

Publication number
CN109670576B
CN109670576B CN201811446195.7A CN201811446195A CN109670576B CN 109670576 B CN109670576 B CN 109670576B CN 201811446195 A CN201811446195 A CN 201811446195A CN 109670576 B CN109670576 B CN 109670576B
Authority
CN
China
Prior art keywords
layer
visual
model
neural network
visual attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811446195.7A
Other languages
English (en)
Other versions
CN109670576A (zh
Inventor
胡海峰
何琛
张俊轩
刘峥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201811446195.7A priority Critical patent/CN109670576B/zh
Publication of CN109670576A publication Critical patent/CN109670576A/zh
Application granted granted Critical
Publication of CN109670576B publication Critical patent/CN109670576B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks

Abstract

本发明公开了一种多尺度视觉关注图像描述方法,通过对海量已标注文本描述的图像训练,得到一个由三部分:双层循环神经网络,多尺度视觉关注模型,多模态层组成的图像描述模型,实现对任意测试图像自动生成与其内容相关的描述语句。本发明能更加结合联系文本与视觉信息之间的联系,并将视觉关注机制应用到区域视觉特征中,得到更精确的视觉关注特征。同时通过双层循环神经网络的设计,解耦文本和视觉特征的处理,并将多尺度视觉关注模型加入多模态层,进而提高模型性能;本发明还利用共享矩阵方案,在大幅减少模型参数量的同时,也使模型性能得到更进一步提升。

Description

一种多尺度视觉关注图像描述方法
技术领域
本发明涉及人工智能自然语言处理领域,更具体地,涉及一种多尺度视觉关注图像描述方法。
背景技术
随着2012年基于图像识别的AlexNet的提出,基于深度学习的人工神经网络得到了迅猛的发展。如今,基于图像分类的卷积神经网络已达到超越人类的图像识别精度,视觉领域的发展已为人们的科技生活提供了极大的便利。同时,基于文本特征的循环神经网络同样发展迅速,尤其是LSTM网络的提出,有效解决了传统循环神经网络RNN对长时信息的遗忘问题。而作为一个融合计算机视觉和自然语言处理领域的图像描述问题,具有广泛的应用前景,例如图像内容的识别,早期儿童教育以及盲人导航等等。对早期儿童教育等应用而言,自动获得图像的文本描述是非常有价值的。使用人力标注显然不现实,而随着深度学习技术的发展,使用图像描述技术,可以大大降低教师和家长的工作量,具有广泛的应用前景。对于盲人导航领域,图像描述技术可以有效解决导盲犬的培育成本和相关隐患,还能提供更加精准得分析和判断路况信息,来帮助盲人导航指路。
虽然传统M-RNN模型能够有效融合多种模态的特征信息,包括全局的图像视觉特征,但其并没有充分利用区域块的图像特征信息。然而一张图片中往往包含了多个目标,因此仅仅利用全局的图像特征会导致图像特征的冗余,同时也忽略了很多区域块的图像特征信息,导致最终生成的句子不能充分表达图片中的所有信息。同时,传统视觉关注模型缺乏考虑融合多种尺度的视觉特征。尽管M-RNN模型具有首尾对称结构,但模型中独热码与嵌入层之间的转换矩阵参数并没有被充分利用,这也给模型带来了额外的参数量,增加模型计算成本的同时也增加了训练时过拟合的风险。
发明内容
本发明为克服上述现有技术中参数量较大导致的计算成本高及训练时较高的过拟合风险的问题,提供一种多尺度视觉关注图像描述方法。
本发明旨在至少在一定程度上解决上述技术问题。
为解决上述技术问题,本发明的技术方案如下:
一种多尺度视觉关注图像描述方法,所述方法构造的多尺度视觉关注图像描述模型包括单词输入处理层,卷积神经网络层,循环层,多尺度视觉关注模型MVA,多模态层;
所述单词输入处理层:包括第一嵌入层和第二嵌入层;将欲训练的单词使用独热码表示,将独热码依次经过第一嵌入层和第二嵌入层转换为词向量,所述词向量作为循环层的输入;
所述卷积神经网络层用于提取输入图像的全局视觉特征和多尺度区域块视觉特征;
选用现有循环神经网络作为循环层,接受来自第二嵌入层的词向量作为输入;
所述多尺度视觉关注模型MVA将循环层中第二个循环神经网络隐含层的输出结果和卷积神经网络提取的区域块视觉特征一起作为输入,并输出视觉关注特征;
所述多模态层将所述第二嵌入层的输出特征、循环层第二层的输出特征,全局视觉特征以及多尺度视觉关注模型MVA输出的视觉关注特征作为多模态层的输入,并输出词向量;
所述方法具体处理过程包括如下步骤:
S1:选用现有循环神经网络作为循环层,将欲训练的单词使用独热码表示,将独热码依次经过第一嵌入层和第二嵌入层转换为词向量,所述词向量作为循环层的输入;构造用于视觉特征提取的卷积神经网络具体步骤如下:
S1.1:选择在图像数据集ImageNet上预训练好的卷积神经网络相关参数,用于提取全局视觉特征;
S1.2:对图像描述的数据集的所有图片提取相关的全局视觉特征,并将每个全局视觉特征存储为向量vf
S1.3:在卷积神经网络模型中,通过CNN和RCNN模型,分别得到不同尺度的区域块视觉特征向量;
S1.4:在循环层中,采用双层循环神经网络的设计解耦文本和视觉特征处理,第一层循环神经网络用于处理文本模型,第二层循环神经网络用于处理视觉特征;
S2:构造多尺度视觉关注模型MVA,具体步骤如下:
S2.1:取S1.3步骤中输出的区域块视觉特征作为多尺度视觉关注模型MVA的输入,输入的区域块视觉特征包含多个区域块的特征信息,将每张图像中由CNN提取的区域块视觉特征表示为:a={a1,…aN},由RCNN提取的区域块视觉特征表示为:b={b1,…bL},根据步骤S1双层循环神经网络中第二个LSTM隐含层的输出ht,以及区域块视觉特征a,b通过元素点乘运算fatt计算得到当前时刻与当前上下文语境相关的关注激活状态向量
Figure BDA0001885766980000031
公式如下:
Figure BDA0001885766980000032
Figure BDA0001885766980000033
S2.2:将S2.1中计算得到的关注激活状态向量eti作为输入,通过一个SoftMax层计算出当前时刻每个区域块的关注权重,关注权重
Figure BDA0001885766980000034
公式如下:
Figure BDA0001885766980000035
Figure BDA0001885766980000036
S2.3:将步骤S2.1和步骤S2.2得到的关注激活状态向量eti和关注权重ati进行加权求和得到视觉关注特征Ai,Bi,公式如下:
Figure BDA0001885766980000037
Figure BDA0001885766980000038
S3:构造融合各类特征的多模态层,具体步骤如下:
S3.1:将所述第二嵌入层的输出特征wt、循环层的第二个LSTM输出特征rt,全局视觉特征vf以及多尺度视觉关注模型MVA输出的视觉关注特征At,Bt作为多模态层的输入,将上述特征通过矩阵分别映射为同一维度的特征向量,多模态层输出m(t)表示为:
m(t)=g(Vw·wt+Vr·rt+VI·vf+At+Bt)
其中,Vw,Vr,VI分别表示为wt,rt,vf的映射矩阵,g(·)为调整过的双曲正切函数
Figure BDA0001885766980000039
S4:多尺度视觉关注图像描述模型的训练和输出,具体步骤如下:
S4.1:图像采集:采用多个带有文本标注的图像数据集用于多尺度视觉关注图像描述模型的训练和验证;
S4.2:采用交叉熵损失作为多尺度视觉关注图像描述模型的目标函数,采用随机梯度下降算法计算损失梯度并使用反向传导算法对整个多尺度视觉关注图像描述模型网络里所有层中的参数进行微调。
S4.3:将多模态层的输出输出向量经过矩阵转换为用于文本生成的独热码,独热码通过SoftMax计算出当前时刻多尺度视觉关注图像描述模型输出的单词即图像描述。
进一步地,步骤S1中提取15个基于RCNN图像区域的区域块视觉特征,196个基于CNN的方格区域特征,所述视觉特征向量vf为2048维。
进一步地,所述损失函数公式为:
Figure BDA0001885766980000041
其中,N表示单词总数,Ns表示训练集句子总数,L(i)表示第i个句子的长度,θ表示模型的参数。
与现有技术相比,本发明技术方案的有益效果是:
本发明通过结合文本与视觉特征的关联,应用多尺度关注机制生成区域块视觉特征,从而有效提升模型的性能和效果,同时利用共享矩阵方案大幅降低模型参数,减少模型过拟合风险的同时增加模型的性能。
附图说明
图1为总结构框图。
图2为共享矩阵方案示意图。
具体实施方式
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
参见图1,一种多尺度视觉关注图像描述方法,所述方法构造的多尺度视觉关注图像描述模型包括单词输入处理层,卷积神经网络层,循环层,多尺度视觉关注模型MVA,多模态层;
所述单词输入处理层:包括第一嵌入层和第二嵌入层;将欲训练的单词使用独热码表示,将独热码依次经过第一嵌入层和第二嵌入层转换为词向量,所述词向量作为循环层的输入;
所述卷积神经网络层用于提取输入图像的全局视觉特征和多尺度区域块视觉特征;
选用现有循环神经网络作为循环层,接受来自第二嵌入层的词向量作为输入;
所述多尺度视觉关注模型MVA将循环层中隐含层的输出结果和卷积神经网络提取的多尺度视觉特征一起作为输入,并输出视觉关注特征;
所述多模态层将所述第二嵌入层的输出特征、循环层的输出特征,全局视觉特征以及多尺度视觉关注模型MVA输出的视觉关注特征作为多模态层的输入,并输出词向量;
包括以下步骤:
S1:选用现有循环神经网络作为循环层,将欲训练的单词使用独热码表示,将独热码依次经过第一嵌入层和第二嵌入层转换为词向量,所述词向量作为循环层的输入;构造用于视觉特征提取的卷积神经网络具体步骤如下:
具体步骤如下:
S1.1:选择在图像数据集ImageNet上预训练好的卷积神经网络相关参数,用于提取全局视觉特征;
S1.2:对图像描述的数据集的所有图片提取相关的全局视觉特征,并将每个全局视觉特征存储2048维的向量vf
S1.3:在卷积神经网络模型中,首先提取网络最后一个卷积层的输出结果,然后将其通过空间自适应池化操作得到196个方格区域块特征,同时通过RCNN,得到15个特征区域块的视觉特征向量;由CNN提取的区域块视觉特征向量a,其维度196*2048,其中2048代表每个向量的维度,196对应图像中的14*14个区域块子区域,区域块视觉特征向量也可以表示为a={a1,…aN}。由RCNN提取的区域块视觉特征向量b,其维度15*2048,其中2048代表每个向量的维度,15对应图像中的15个区域块子区域,区域块视觉特征向量也可以表示为b={b1,…bL}。
S1.4:在循环层中,采用双层循环神经网络的设计解耦文本和视觉特征处理,第一层循环神经网络用于处理文本模型,第二层循环神经网络用于处理视觉特征;
S2构造多尺度视觉关注模型MVA,区域块视觉特征输入到多尺度视觉关注模型中,根据步骤S1中循环神经网络第二隐含层的输出,以及区域块视觉特征,共同计算出当前时刻每个区域的关注权重,然后将计算得到的权重与区域块图像特征进行加权求和,就可以得到当前时刻基于当前上下文语境下的视觉关注特征向量。该视觉关注特征将指导模型有效关注到与当前生成的描述语句相关的区域块图像区域,大幅提高了视觉特征的准确性,从而提升模型生成文本的效果。具体步骤如下:
S2.1:取S1.3步骤中输出的区域块视觉特征作为多尺度视觉关注模型MVA的输入,输入的区域块视觉特征包含多种区域块的特征信息,将每张图像中由CNN提取的区域块视觉特征表示为:a={a1,…aN},由RCNN提取的区域块视觉特征表示为:b={b1,…bL},根据步骤S1双层循环神经网络中第二个LSTM隐含层的输出ht,以及区域块视觉特征a,b通过元素点乘运算fatt计算得到当前时刻与当前上下文语境相关的关注激活状态向量
Figure BDA0001885766980000061
公式如下:
Figure BDA0001885766980000062
Figure BDA0001885766980000063
S2.2:将S2.1中计算得到的关注激活状态向量eti作为输入,通过一个SoftMax层计算出当前时刻每个区域块的关注权重,关注权重
Figure BDA0001885766980000064
公式如下:
Figure BDA0001885766980000065
Figure BDA0001885766980000066
S2.3:将步骤S2.1和步骤S2.2得到的关注激活状态向量eti和关注权重ati进行加权求和得到视觉关注特征Ai,Bi,公式如下:
Figure BDA0001885766980000067
Figure BDA0001885766980000068
S3:构造融合各类特征的多模态层,为了充分利用多种模态的特征信息,使得特征信息共同作用促进模型的性能,采用一个多模态层来融合这些特征。这些特征包括:卷积神经网络提取的全局图像特征vf,步骤(2)中经过视觉关注模型输出的区域块图像特征At,Bt,第二个嵌入层的输出wt以及循环神经网络第二层输出的文本特征rt。具体步骤如下:
S3.1:将所述方法的第二嵌入层的输出特征wt、循环层的输出rt,全局视觉特征vf以及多尺度视觉关注模型MVA输出的视觉关注特征At,Bt作为多模态层的输入将上述特征通过矩阵分别映射为同一维度的特征向量,多模态层输出m(t)表示为:
m(t)=g(Vw·wt+Vr·rt+VI·vf+At+Bt)
其中,Vw,Vr,VI分别表示为wt,rt,vf的映射矩阵,g(·)为调整过的双曲正切函数
Figure BDA0001885766980000071
本发明针对多模态层输出向量转换为独热码过程与单词输入处理阶段将独热码转为词向量的过程互为逆操作,设计了共享矩阵方案,如图2所示,在整个网络结构中,我们采用共享矩阵方案,利用模型的对称结构,通过共享模型中独热码与嵌入层之间的转换矩阵,大幅降低了模型的参数量,进一步提升了模型的性能。具体过程如下:
循环层的输入构建,所述方法初始时将单词用稀疏的独热码来表示,所述独热码经过Uw映射到第一嵌入层转换为稠密的嵌入层向量,然后将第一嵌入层得到的嵌入向量经过矩阵映射得到第二嵌入层得到嵌入层特征wt
第二嵌入层输出特征wt作为循环层的输入,所述方法最后的输出是第一嵌入层的转换相反的逆变换,将待输出向量经过矩阵Um转换为用于文本生成的独热码;将这两个互为逆操作的转换矩阵参数共享,两个转换矩阵参数量为:(1024N+2048N),第一嵌入层维度为1024,多模态层特征维度为2048,单词总量也即独热码维度N取值为10000。
转换矩阵分解,由于矩阵维度的不同将多模态层到独热码的转换矩阵Um拆分为两个矩阵,即
Figure BDA0001885766980000072
通过共享矩阵Um的参数,有效减少模型的参数量,矩阵的参数总量减少到(1024N+2048×1024);
S4:多尺度视觉关注图像描述模型的训练和输出,全局图像特征和区域块图像特征采用在ImageNet训练集预训练好的卷积神经网络进行特征提取,其他模型的所有参数则首先通过随机初始化,然后在训练过程中根据交叉熵误差,采用随机梯度下降算法计算损失梯度并使用反向传导算法对整个多尺度视觉关注图像描述模型网络里所有层中的参数进行微调。具体步骤如下:
S4.1:图像采集:采用多个带有文本标注的图像数据集用于多尺度视觉关注图像描述模型的训练和验证;
S4.2:采用交叉熵损失作为多尺度视觉关注图像描述模型的目标函数,采用随机梯度下降算法计算损失梯度并使用反向传导算法对整个多尺度视觉关注图像描述模型网络里所有层中的参数进行微调,损失函数公式为:
Figure BDA0001885766980000081
其中,N表示单词总数,Ns表示训练集句子总数,L(i)表示第i个句子的长度,θ表示模型的参数。
S4.3:将多模态层的输出输出向量经过矩阵转换为用于文本生成的独热码,独热码通过SoftMax计算出当前时刻图像描述模型输出的单词即图像描述。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (3)

1.一种多尺度视觉关注图像描述方法,其特征在于,所述方法构造的多尺度视觉关注图像描述模型包括单词输入处理层,卷积神经网络层,循环层,多尺度视觉关注模型MVA,多模态层;
所述单词输入处理层:包括第一嵌入层和第二嵌入层;将欲训练的单词使用独热码表示,将独热码依次经过第一嵌入层和第二嵌入层转换为词向量,所述词向量作为循环层的输入;
所述卷积神经网络层用于提取输入图像的全局视觉特征和多尺度视觉特征;
选用现有循环神经网络作为循环层,接受来自第二嵌入层的词向量作为输入;同时,通过双层循环神经网络的设计,解耦文本和视觉特征的处理,第一层循环神经网络用于处理文本模型,第二层循环神经网络用于处理视觉特征;
所述多尺度视觉关注模型MVA将循环层中第二层的隐含层输出结果和卷积神经网络提取的多尺度视觉特征一起作为输入,并输出视觉关注特征;
所述多模态层将所述第二嵌入层的输出特征、循环层的输出特征,全局视觉特征以及多尺度视觉关注模型MVA输出的视觉关注特征作为多模态层的输入,并输出词向量;
所述方法具体处理过程包括如下步骤:
S1:选用现有循环神经网络作为循环层,将欲训练的单词使用独热码表示,将独热码依次经过第一嵌入层和第二嵌入层转换为词向量,所述词向量作为循环层的输入;构造用于视觉特征提取的卷积神经网络具体步骤如下:
S1.1:选择在图像数据集ImageNet上预训练好的卷积神经网络相关参数,用于提取全局视觉特征;
S1.2:对图像描述的数据集的所有图片提取相关的全局视觉特征,并将每个全局视觉特征存储为向量vf
S1.3:在卷积神经网络模型中,通过CNN和RCNN模型,分别得到不同尺度的区域块视觉特征向量;
S1.4:在循环层中,采用双层循环神经网络的设计解耦文本和视觉特征处理,第一层循环神经网络用于处理文本模型,第二层循环神经网络用于处理视觉特征;
S2:构造多尺度视觉关注模型MVA,具体步骤如下:
S2.1:取S1.3步骤中输出的区域块视觉特征作为多尺度视觉关注模型MVA的输入,输入的区域块视觉特征包含多种区域块的特征信息,将每张图像中由CNN提取的区域块视觉特征表示为:a={a1,…aN},由RCNN提取的区域块视觉特征表示为:b={b1,…bL},根据步骤S1双层循环神经网络中第二个LSTM隐含层的输出ht,以及区域块视觉特征a,b通过元素点乘运算fatt计算得到当前时刻与当前上下文语境相关的关注激活状态向量
Figure FDA0001885766970000021
公式如下:
Figure FDA0001885766970000022
Figure FDA0001885766970000023
S2.2:将S2.1中计算得到的关注激活状态向量eti作为输入,通过一个SoftMax层计算出当前时刻每个区域块的关注权重,关注权重
Figure FDA0001885766970000024
公式如下:
Figure FDA0001885766970000025
Figure FDA0001885766970000026
S2.3:将步骤S2.1和步骤S2.2得到的关注激活状态向量eti和关注权重ati进行加权求和得到视觉关注特征Ai,Bi,公式如下:
Figure FDA0001885766970000027
Figure FDA0001885766970000028
S3:构造融合各类特征的多模态层,具体步骤如下:
S3.1:将所述第二嵌入层的输出特征wt、循环层第二个LSTM的输出特征rt,全局视觉特征vf以及多尺度视觉关注模型MVA输出的视觉关注特征At,Bt作为多模态层的输入,将上述特征通过矩阵分别映射为同一维度的特征向量,多模态层输出m(t)表示为:
m(t)=g(Vw·wt+Vr·rt+VI·vf+At+Bt)
其中,Vw,Vr,VI分别表示为wt,rt,vf的映射矩阵,g(·)为调整过的双曲正切函数
Figure FDA0001885766970000029
S4:多尺度视觉关注图像描述模型的训练和输出,具体步骤如下:
S4.1:图像采集:采用多个带有文本标注的图像数据集用于多尺度视觉关注图像描述模型的训练和验证;
S4.2:采用交叉熵损失作为多尺度视觉关注图像描述模型的目标函数,采用随机梯度下降算法计算损失梯度并使用反向传导算法对整个多尺度视觉关注图像描述模型网络里所有层中的参数进行微调;
S4.3:将多模态层的输出向量经过矩阵转换为用于文本生成的独热码,独热码通过SoftMax计算出当前时刻多尺度视觉关注图像描述模型输出的单词即图像描述。
2.根据权利要求1所述的一种多尺度视觉关注图像描述方法,其特征在于,步骤S1中提取15个基于RCNN图像区域的区域块视觉特征,196个基于CNN的方格区域特征,所述视觉特征向量vf为2048维。
3.根据权利要求1所述的一种多尺度视觉关注图像描述方法,其特征在于,所述损失函数公式为:
Figure FDA0001885766970000031
其中,N表示单词总数,Ns表示训练集句子总数,L(i)表示第i个句子的长度,θ表示模型的参数。
CN201811446195.7A 2018-11-29 2018-11-29 一种多尺度视觉关注图像描述方法 Active CN109670576B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811446195.7A CN109670576B (zh) 2018-11-29 2018-11-29 一种多尺度视觉关注图像描述方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811446195.7A CN109670576B (zh) 2018-11-29 2018-11-29 一种多尺度视觉关注图像描述方法

Publications (2)

Publication Number Publication Date
CN109670576A CN109670576A (zh) 2019-04-23
CN109670576B true CN109670576B (zh) 2022-09-13

Family

ID=66143468

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811446195.7A Active CN109670576B (zh) 2018-11-29 2018-11-29 一种多尺度视觉关注图像描述方法

Country Status (1)

Country Link
CN (1) CN109670576B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110111399B (zh) * 2019-04-24 2023-06-30 上海理工大学 一种基于视觉注意力的图像文本生成方法
CN110135441B (zh) * 2019-05-17 2020-03-03 北京邮电大学 一种图像的文本描述方法及装置
CN110490136B (zh) * 2019-08-20 2023-03-24 电子科技大学 一种基于知识蒸馏的人体行为预测方法
CN111209961B (zh) * 2020-01-03 2020-10-09 广州海洋地质调查局 一种冷泉区海底生物识别方法及处理终端
CN111767461B (zh) * 2020-06-24 2024-02-06 北京奇艺世纪科技有限公司 数据处理方法及装置
CN112101165B (zh) * 2020-09-07 2022-07-15 腾讯科技(深圳)有限公司 兴趣点识别方法、装置、计算机设备和存储介质
CN112308081B (zh) * 2020-11-05 2023-05-30 南强智视(厦门)科技有限公司 一种基于注意力机制的图像目标预测方法
CN112926662B (zh) * 2021-02-25 2022-05-03 电子科技大学 一种基于多尺度语言嵌入rec的目标检测方法
CN116543146B (zh) * 2023-07-06 2023-09-26 贵州大学 一种基于窗口自注意与多尺度机制的图像密集描述方法
CN117609902B (zh) * 2024-01-18 2024-04-05 北京知呱呱科技有限公司 一种基于图文多模态双曲嵌入的专利ipc分类方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2996058A1 (en) * 2014-09-10 2016-03-16 Intrasense Method for automatically generating representations of imaging data and interactive visual imaging reports
EP3099075A1 (en) * 2015-05-29 2016-11-30 Xiaomi Inc. Method and device for processing identification of video file
CN106599198A (zh) * 2016-12-14 2017-04-26 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种多级联结循环神经网络的图像描述方法
CN106777125A (zh) * 2016-12-16 2017-05-31 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于神经网络及图像关注点的图像描述生成方法
CN106844442A (zh) * 2016-12-16 2017-06-13 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于fcn特征提取的多模态循环神经网络图像描述方法
CN108108771A (zh) * 2018-01-03 2018-06-01 华南理工大学 基于多尺度深度学习的图像问答方法
CN108829677A (zh) * 2018-06-05 2018-11-16 大连理工大学 一种基于多模态注意力的图像标题自动生成方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7428338B2 (en) * 2002-01-10 2008-09-23 Ricoh Co., Ltd. Header-based processing of images compressed using multi-scale transforms
US9965705B2 (en) * 2015-11-03 2018-05-08 Baidu Usa Llc Systems and methods for attention-based configurable convolutional neural networks (ABC-CNN) for visual question answering
US10705525B2 (en) * 2017-04-07 2020-07-07 Nvidia Corporation Performing autonomous path navigation using deep neural networks

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2996058A1 (en) * 2014-09-10 2016-03-16 Intrasense Method for automatically generating representations of imaging data and interactive visual imaging reports
EP3099075A1 (en) * 2015-05-29 2016-11-30 Xiaomi Inc. Method and device for processing identification of video file
CN106599198A (zh) * 2016-12-14 2017-04-26 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种多级联结循环神经网络的图像描述方法
CN106777125A (zh) * 2016-12-16 2017-05-31 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于神经网络及图像关注点的图像描述生成方法
CN106844442A (zh) * 2016-12-16 2017-06-13 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于fcn特征提取的多模态循环神经网络图像描述方法
CN108108771A (zh) * 2018-01-03 2018-06-01 华南理工大学 基于多尺度深度学习的图像问答方法
CN108829677A (zh) * 2018-06-05 2018-11-16 大连理工大学 一种基于多模态注意力的图像标题自动生成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Multiscale illumination normalization for face recognition using dual-tree complex wavelet transform in logarithm domain;Haifeng Hu;《Computer Vision and Image Understanding》;20110621;全文 *
核主成分分析网络的人脸识别方法;胡伟鹏,胡海峰等;《中山大学学报》;20160930;全文 *

Also Published As

Publication number Publication date
CN109670576A (zh) 2019-04-23

Similar Documents

Publication Publication Date Title
CN109670576B (zh) 一种多尺度视觉关注图像描述方法
CN109918671A (zh) 基于卷积循环神经网络的电子病历实体关系抽取方法
CN110580500A (zh) 一种面向人物交互的网络权重生成少样本图像分类方法
Latif et al. An automatic Arabic sign language recognition system based on deep CNN: an assistive system for the deaf and hard of hearing
CN109145304B (zh) 一种基于字的中文观点要素情感分析方法
CN110516095A (zh) 基于语义迁移的弱监督深度哈希社交图像检索方法和系统
CN113656570A (zh) 基于深度学习模型的视觉问答方法及装置、介质、设备
CN111598183A (zh) 一种多特征融合图像描述方法
CN113361278B (zh) 一种基于数据增强与主动学习的小样本命名实体识别方法
KR20200010672A (ko) 딥러닝을 이용한 스마트 상품 검색 방법 및 시스템
CN117218498B (zh) 基于多模态编码器的多模态大语言模型训练方法及系统
CN113743544A (zh) 一种跨模态神经网络构建方法、行人检索方法及系统
CN112651940A (zh) 基于双编码器生成式对抗网络的协同视觉显著性检测方法
CN115131613A (zh) 一种基于多向知识迁移的小样本图像分类方法
CN114186568A (zh) 一种基于关系编码和层次注意力机制的图像段落描述方法
CN115221846A (zh) 一种数据处理方法及相关设备
CN115827954A (zh) 动态加权的跨模态融合网络检索方法、系统、电子设备
CN116385937A (zh) 一种基于多粒度的跨模态交互框架解决视频问答的方法及系统
CN116975350A (zh) 图文检索方法、装置、设备及存储介质
CN115221369A (zh) 视觉问答的实现方法和基于视觉问答检验模型的方法
CN111026887A (zh) 一种跨媒体检索的方法及系统
CN110472746A (zh) 一种基于人工智能的编码预测方法和系统
CN112216379A (zh) 一种基于智能联合学习的疾病诊断系统
CN113780059A (zh) 一种基于多特征点的连续手语识别方法
CN111445545B (zh) 一种文本转贴图方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant