CN113780350B - 一种基于ViLBERT和BiLSTM的图像描述方法 - Google Patents
一种基于ViLBERT和BiLSTM的图像描述方法 Download PDFInfo
- Publication number
- CN113780350B CN113780350B CN202110912994.4A CN202110912994A CN113780350B CN 113780350 B CN113780350 B CN 113780350B CN 202110912994 A CN202110912994 A CN 202110912994A CN 113780350 B CN113780350 B CN 113780350B
- Authority
- CN
- China
- Prior art keywords
- image
- lstm
- processing
- text
- bilstm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 77
- 238000012545 processing Methods 0.000 claims abstract description 59
- 238000012549 training Methods 0.000 claims abstract description 23
- 238000000605 extraction Methods 0.000 claims abstract description 18
- 230000009466 transformation Effects 0.000 claims abstract 2
- 239000011159 matrix material Substances 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于ViLBERT和BiLSTM的图像描述方法,其特征在于,包括:将待描述图像进行特征提取处理并输入至图像描述模型中进行处理得到图片描述信息,其中,图像描述模型通过如下预先训练过程获得:获取训练图像集以及对应的图像文本信息;对训练图像集进行特征提取得到图像特征信息;通过文本处理transformer块对图像文本信息进行处理得到文本特征信息;对图像特征信息以及文本特征信息分别进行一个联合注意力transformer层处理,再分别经过一个transformer块处理以及分别经过加权处理模块处理得到图像特征;使用Att‑LSTM的输入数据以及上一层Att‑LSTM的输出,再使用Lan‑LSTM的输入数据以及上一层Lan‑LSTM的输出,最后输出将输入至softmax中得到对应的单词;使用交叉熵损失函数对图像描述模型进行训练。
Description
技术领域
本发明涉及一种基于ViLBERT和BiLSTM的图像描述方法。
背景技术
随着电脑和互联网的普及,人们每天会接触大量的图片和视频,如何让计算机快速识别图片中的信息并加以描述成文本信息,对于图像的检索和分析具有巨大的研究价值。结合近年来火热的深度学习技术,图像描述技术能够惠及到我们生活中的方方面面。图像描述作为把计算机视觉和自然语言处理相结合的跨模态跨领域的任务。一般地,它将输入的图片通过卷积神经网络提取图像特征并利用循环神经网络等方法生成一段文字的描述,这段描述要求和图片的内容高度相似。这对于人类来说是很简单的,通俗来说就是看图说话,几岁的儿童就能很详细地描述一张图片的内容。但对于计算机来说还是有很大的难度的,这要求计算机利用模型来提取图片内的特征以及一些高层语义信息,然后利用自然语言处理的方法表达图片中的内容。
近几年有关图像描述的研究主要可以分为以下三个方向:
(1)基于模板的方法
传统的图像描述模型是通过模板填充的方法来生成图像描述,它主要是通过局部二值模式、尺度不变特征转换或者方向梯度直方图等模型提取图像的视觉特征,并根据这些特征检测对应目标、动作及属性对应的单词词汇,最后将单词填入到模板中。该类方法使用的模板是固定的,生成的语句格式相对固定且形式单一,应用的场景也很局限,因而无法应用到实际的场景之中。
(2)基于检索的方法
基于检索的方法,主要是将大量的图片描述存于一个集合中,然后通过比较有标签图片和训练生成图片描述两者间相似度来生成一个候选描述的集合,再从中选择最符合该图片的描述。这样的方法能保证语句的正确性,但语义的正确性却难以保证,因而对图像描述的正确率较低。
(3)基于生成的方法
这类方法的大致流程是先将图像信息编码后作为输入放进模型,随后利用此模型生成该图像对应的文本描述。图像描述模型一般采用编码器-解码器架构,编码器使用卷积神经网络(CNN)提取图像特征,解码器采用循环神经网络(RNN)来生成文本描述。这是在图像描述中普遍应用且效果最好的模型,它在语句结构的完整性、语义的正确性、以及泛化能力得到了一致的认可。
本发明提出在编码阶段使用目标检测模型提取图像信息,并和图像对应的文本信息进行加权结合,能有效地提高图像信息的利用率,使模型能够准确定位图像的主体和图像内各目标之间的联系,最终生成高质量的文本描述。
本发明在盲人和机器人的实时导航、图像检索系统以及医学CT的报告生成等多个领域都有着广泛的应用场景。
发明内容
为解决上述问题,提供一种基于ViLBERT和BiLSTM的图像描述方法,本发明采用了如下技术方案:
本发明提供的一种基于ViLBERT和BiLSTM的图像描述方法,其特征在于,包括:步骤S1-1,将待描述图像通过特征提取处理得到预处理图像特征;步骤S1-2,将预处理图像特征输入至预先训练的图像描述模型中进行处理得到图片描述信息,其中,图像描述模型具有ViLBERT子模型和BiLSTM子模型,ViLBERT子模型具有文本处理transformer块、两个联合注意力transformer层、两个transformer块、以及加权处理模块,BiLSTM子模型包括一个Att-LSTM以及一个Lan-LSTM,图像描述模型通过如下预先训练过程获得:步骤S2-1,获取训练图像集以及对应的图像文本信息w0,w1,…,wt;步骤S2-2,对训练图像集进行特征提取得到图像特征信息p0,p1,…,pt;步骤S2-3,通过文本处理transformer块对图像文本信息w0,w1,…,wt进行处理得到文本特征信息;步骤S2-4,对图像特征信息以及文本特征信息分别进行一个联合注意力transformer层处理,然后再分别经过一个transformer块进行处理,得到对应的图像流特征hp0,hp1,…,hpt以及对应的文本流特征hw0,hw1,…,hwt;步骤S2-5,加权处理模块对图像流特征hp0,hp1,…,hpt以及文本流特征hw0,hw1,…,hwt进行处理得到图像特征V={v0,v1,…,vt};步骤S2-6,使用Att-LSTM的输入数据以及上一层Att-LSTM的输出,并输入至Att-LSTM中输出得到步骤S2-7,使用Lan-LSTM的输入数据以及上一层Lan-LSTM的输出,并输入至Lan-LSTM中输出得到/>步骤S2-8,将/>输入至softmax中进行分类得到对应的单词;步骤S2-9,基于真实人工描述序列以及图像文本信息参数,使用交叉熵损失函数对图像描述模型进行训练。
本发明提供的一种基于ViLBERT和BiLSTM的图像描述方法,还可以具有这样的技术特征,其中,特征提取处理通过FasterR-CNN进行特征提取得到。
本发明提供的一种基于ViLBERT和BiLSTM的图像描述方法,还可以具有这样的技术特征,其中,步骤S2-4中,在对将图像特征信息以及文本特征信息分别经过一个transformer块进行处理后,对图像特征信息以及文本特征信息进行残差相加处理,从而得到具有多模态特征的图像流特征hp0,hp1,…,hpt以及具有多模态特征的文本流特征hw0,hw1,…,hwt。
本发明提供的一种基于ViLBERT和BiLSTM的图像描述方法,还可以具有这样的技术特征,其中,加权处理模块在计算时使用如下公式:
vi=0.5hpi+0.5hwi
式中,加权因子为0.5。
本发明提供的一种基于ViLBERT和BiLSTM的图像描述方法,还可以具有这样的技术特征,其中,t时刻的Lan-LSTM的输入数据为
式中,为上一时间步长Lan-LSTM的输出,/>为图像特征V的均值池化值,即为之前生成单词的编码向量,We为加权矩阵,∏t为t时刻驶入单词的独热编码,将这三者拼接得到/>
本发明提供的一种基于ViLBERT和BiLSTM的图像描述方法,还可以具有这样的技术特征,其中,Lan-LSTM的输入数据为
式中,为加权后的图像特征V,/>为Att-LSTM的输出。
本发明提供的一种基于ViLBERT和BiLSTM的图像描述方法,还可以具有这样的技术特征,其中,由如下公式计算得到:
式中,分别为已学习的参数,/>为ωa的转置矩阵,vi为图形特征V的第i个区域特征,/>为Att-LSTM的输出。
本发明提供的一种基于ViLBERT和BiLSTM的图像描述方法,还可以具有这样的技术特征,其中,在t时间步长输出单词的概率分布由如下公式给出:
式中,y1:T为单词序列(y1,…,yT),以及/>分别为已学习权重和偏差参数。
并且,完整的单词序列输出分布如下式所示:
本发明提供的一种基于ViLBERT和BiLSTM的图像描述方法,还可以具有这样的技术特征,其中,交叉熵损失函数为:
式中,为真实人工描述序列,θ为图像文本信息参数,/>为第t个真实人工描述。
发明作用与效果
根据本发明的一种基于ViLBERT和BiLSTM的图像描述方法,由于在获取训练图像集以及对应的图像文本信息后,对训练图像集进行特征提取得到图像特征信息,再通过文本处理transformer块对图像文本信息进行处理得到文本特征信息,又对图像特征信息以及文本特征信息分别进行一个联合注意力transformer层处理,然后再分别经过一个transformer块进行处理,得到对应的图像流特征以及对应的文本流特征,进而加权处理模块对图像流特征以及文本流特征进行处理得到图像特征V,因此不仅可以更好地学习到图像特征,而且解决了图像描述中图像特征信息提取利用不足,上下文关联性弱的问题。
附图说明
图1是本发明实施例中的基于ViLBERT和BiLSTM的图像描述方法的流程图;
图2是本发明实施例中的在图像描述中基于ViLBERT和BiLSTM的流程图;
图3是本发明实施例中基于ViLBERT和BiLSTM的图像描述方法的模型示意图。
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,以下结合实施例及附图对本发明的一种基于ViLBERT和BiLSTM的图像描述方法作具体阐述。
<实施例>
图1是本发明实施例中的基于ViLBERT和BiLSTM的图像描述方法的流程图。
如图1所示,本实施例中先通过使用FasterR-CNN对图像集进行特征提取,再结合ViLBERT和BiLSTM训练完成图像描述模型,进而对图像描述模型进行测试,具体包括步骤S1-1至步骤S1-2。
步骤S1-1,将待描述图像通过特征提取处理得到预处理图像特征。
步骤S1-2,将预处理图像特征输入至预先训练的图像描述模型中进行处理得到图片描述信息。
其中,图像描述模型具有ViLBERT子模型和BiLSTM子模型,ViLBERT子模型具有文本处理transformer块、两个联合注意力transformer层、两个transformer块、以及加权处理模块,BiLSTM子模型包括一个Att-LSTM以及一个Lan-LSTM。
本实施例中,BiLSTM子模型为双层长短期记忆网络,Att-LSTM为注意力BiLSTM,Lan-LSTM为加入注意力的语义BiLSTM。
本实施例中,该图像描述模型需要预先通过训练过程进行训练得到,具体地:
图2是本发明实施例中的在图像描述中基于ViLBERT和BiLSTM的流程图。
图3是本发明实施例中基于ViLBERT和BiLSTM的图像描述方法的模型示意图。
如图2、图3所示,本实施例中图像描述模型的训练步骤包括步骤S2-1至步骤S2-9。
步骤S2-1,获取训练图像集以及对应的图像文本信息w0,w1,…,wt(即图3)。
步骤S2-2,对训练图像集进行特征提取得到图像特征信息p0,p1,…,pt(即图3)。
其中,特征提取处理通过FasterR-CNN进行特征提取得到。
步骤S2-3,通过文本处理transformer块(即图3中的TRM)对图像文本信息w0,w1,…,wt进行处理得到文本特征信息。
步骤S2-4,对图像特征信息以及文本特征信息分别进行一个联合注意力transformer层(即图3中的CoTRM)处理,然后再分别经过一个transformer块(即图3中的TRM)进行处理,得到对应的图像流特征hp0,hp1,…,hpt(即图3)以及对应的文本流特征hw0,hw1,…,hwt(即图3)。
其中,在对将所述图像特征信息以及所述文本特征信息分别经过一个transformer块进行处理后,对所述图像特征信息以及所述文本特征信息进行残差相加处理,从而得到具有多模态特征的所述图像流特征hp0,hp1,…,hpt以及具有多模态特征的所述文本流特征hw0,hw1,…,hwt。
步骤S2-5,加权处理模块(即图3中的Concat)对图像流特征hp0,hp1,…,hpt以及文本流特征hw0,hw1,…,hwt进行处理得到图像特征V={v0,v1,…,vt}。
其中,所述加权处理模块在计算时使用如下公式:
vi=0.5hpi+0.5hwi
式中,加权因子为0.5。
步骤S2-6,使用Att-LSTM的输入数据以及上一层Att-LSTM的输出,并输入至Att-LSTM中输出得到
其中,在每一个时间步长上,LSTM使用公式如下计算:
ht=LSTM(xt,ht-1)
式中,xt为LSTM的输入向量,ht-1为上一时间步长的LSTM的输出向量,
t时刻的所述Lan-LSTM的输入数据为
式中,为上一时间步长Lan-LSTM的输出,/>为所述图像特征V的均值池化值,即/>We∏t为之前生成单词的编码向量,We为加权矩阵,∏t为t时刻驶入单词的独热编码,将这三者拼接得到/>
实施例中,在输出得到后,在每一个时间步长上结合图像特征V生成一个标准化注意力权重αi,t,并得到加权后的图像特征/>
步骤S2-7,使用Lan-LSTM的输入数据以及上一层Lan-LSTM的输出,并输入至Lan-LSTM中输出得到
其中,所述Lan-LSTM的输入数据为
式中,为加权后的图像特征V,/>为Att-LSTM的输出。
步骤S2-8,将输入至softmax中进行分类得到对应的单词(即图3中的“Twopeople on there snowboards with a group behind them”)。
其中,由如下公式计算得到:
式中,分别为已学习的参数,/>为ωa的转置矩阵,vi为图形特征V的第i个区域特征,/>为Att-LSTM的t时刻的输出隐藏向量,αi,t为标准化注意力权重。
步骤S2-9,基于真实人工描述序列以及图像文本信息参数,使用交叉熵损失函数对图像描述模型进行训练。
其中,所述交叉熵损失函数为:
式中,为真实人工描述序列,θ为图像文本信息参数,/>为第t个真实人工描述。
通过上述步骤即可完成图像描述模型的训练,将待描述图像经过特征提取处理后输入至图像描述模型进行处理,从而得到图像描述信息。
实施例作用与效果
根据本实施例提供的一种基于ViLBERT和BiLSTM的图像描述方法,由于在获取训练图像集以及对应的图像文本信息后,对训练图像集进行特征提取得到图像特征信息,再通过文本处理transformer块对图像文本信息进行处理得到文本特征信息,又对图像特征信息以及文本特征信息分别进行一个联合注意力transformer层处理,然后再分别经过一个transformer块进行处理,得到对应的图像流特征以及对应的文本流特征,进而加权处理模块对图像流特征以及文本流特征进行处理得到图像特征V,因此不仅可以更好地学习到图像特征,而且解决了图像描述中图像特征信息提取利用不足,上下文关联性弱的问题。
上述实施例仅用于举例说明本发明的具体实施方式,而本发明不限于上述实施例的描述范围。
Claims (9)
1.一种基于ViLBERT和BiLSTM的图像描述方法,其特征在于,包括:
步骤S1-1,将待描述图像通过特征提取处理得到预处理图像特征;
步骤S1-2,将所述预处理图像特征输入至预先训练的图像描述模型中进行处理得到图片描述信息,
其中,图像描述模型具有ViLBERT子模型和BiLSTM子模型,
所述ViLBERT子模型具有文本处理transformer块、两个联合注意力transformer层、两个transformer块、以及加权处理模块,
所述BiLSTM子模型包括一个Att-LSTM以及一个Lan-LSTM,
所述图像描述模型通过如下预先训练过程获得:
步骤S2-1,获取训练图像集以及对应的图像文本信息w0,w1,...,wt;
步骤S2-2,对所述训练图像集进行特征提取得到图像特征信息p0,p1,...,pt;
步骤S2-3,通过所述文本处理transformer块对所述图像文本信息w0,w1,...,wt进行处理得到文本特征信息;
步骤S2-4,对所述图像特征信息以及所述文本特征信息分别进行一个联合注意力transformer层处理,然后再分别经过一个transformer块进行处理,得到对应的图像流特征hp0,hp1,...,hpt以及对应的文本流特征hw0,hw1,...,hwt;
步骤S2-5,所述加权处理模块对所述图像流特征hp0,hp1,...,hpt以及所述文本流特征hw0,hw1,...,hwt进行处理得到图像特征V={v0,v1,...,vt};
步骤S2-6,使用所述Att-LSTM的输入数据以及上一层所述Att-LSTM的输出,并输入至所述Att-LSTM中输出得到
步骤S2-7,使用所述Lan-LSTM的输入数据以及上一层所述Lan-LSTM的输出,并输入至所述Lan-LSTM中输出得到
步骤S2-8,将所述输入至softmax中进行分类得到对应的单词;
步骤S2-9,基于真实人工描述序列以及图像文本信息参数,使用交叉熵损失函数对所述图像描述模型进行训练。
2.根据权利要求1所述的一种基于ViLBERT和BiLSTM的图像描述方法,其特征在于:
其中,所述特征提取处理通过Faster R-CNN进行特征提取得到。
3.根据权利要求1所述的一种基于ViLBERT和BiLSTM的图像描述方法,其特征在于:
其中,步骤S2-4中,在对将所述图像特征信息以及所述文本特征信息分别经过一个transformer块进行处理后,对所述图像特征信息以及所述文本特征信息进行残差相加处理,从而得到具有多模态特征的所述图像流特征hp0,hp1,...,hpt以及具有多模态特征的所述文本流特征hw0,hw1,...,hwt。
4.根据权利要求1所述的一种基于ViLBERT和BiLSTM的图像描述方法,其特征在于:
其中,所述加权处理模块在计算时使用如下公式:
vi=0.5hpi+0.5hwi
式中,加权因子为0.5。
5.根据权利要求1所述的一种基于ViLBERT和BiLSTM的图像描述方法,其特征在于:
其中,t时刻的所述Lan-LSTM的输入数据为
式中,为上一时间步长Lan-LSTM的输出,/>为所述图像特征V的均值池化值,即We∏t为之前生成单词的编码向量,We为加权矩阵,∏t为t时刻驶入单词的独热编码,将这三者拼接得到/>
6.根据权利要求1所述的一种基于ViLBERT和BiLSTM的图像描述方法,其特征在于:
其中,所述Lan-LSTM的输入数据为
式中,为加权后的图像特征V,/>为Att-LSTM的输出。
7.根据权利要求6所述的一种基于ViLBERT和BiLSTM的图像描述方法,其特征在于:
其中,由如下公式计算得到:
式中,分别为已学习的参数,/>为ωa的转置矩阵,vi为图形特征V的第i个区域特征,/>为Att-LSTM的输出。
8.根据权利要求1所述的一种基于ViLBERT和BiLSTM的图像描述方法,其特征在于:
其中,在t时间步长输出单词的概率分布由如下公式给出:
式中,y1:T为单词序列(y1,...,yT),以及/>分别为已学习权重和偏差参数,
并且,完整的单词序列输出分布如下式所示:
9.根据权利要求1所述的一种基于ViLBERT和BiLSTM的图像描述方法,其特征在于:
其中,所述交叉熵损失函数为:
式中,为真实人工描述序列,θ为图像文本信息参数,/>为第t个真实人工描述。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110912994.4A CN113780350B (zh) | 2021-08-10 | 2021-08-10 | 一种基于ViLBERT和BiLSTM的图像描述方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110912994.4A CN113780350B (zh) | 2021-08-10 | 2021-08-10 | 一种基于ViLBERT和BiLSTM的图像描述方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113780350A CN113780350A (zh) | 2021-12-10 |
CN113780350B true CN113780350B (zh) | 2023-12-19 |
Family
ID=78837222
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110912994.4A Active CN113780350B (zh) | 2021-08-10 | 2021-08-10 | 一种基于ViLBERT和BiLSTM的图像描述方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113780350B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114743630B (zh) * | 2022-04-01 | 2024-08-02 | 杭州电子科技大学 | 一种基于跨模态对比学习的医学报告生成方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109726696A (zh) * | 2019-01-03 | 2019-05-07 | 电子科技大学 | 基于推敲注意力机制的图像描述生成系统及方法 |
CN110222349A (zh) * | 2019-06-13 | 2019-09-10 | 成都信息工程大学 | 一种深度动态上下文词语表示的模型及方法、计算机 |
CN110473267A (zh) * | 2019-07-12 | 2019-11-19 | 北京邮电大学 | 基于注意力特征提取网络的社交网络图像描述生成方法 |
CN111160467A (zh) * | 2019-05-31 | 2020-05-15 | 北京理工大学 | 一种基于条件随机场和内部语义注意力的图像描述方法 |
WO2020186484A1 (zh) * | 2019-03-20 | 2020-09-24 | 深圳大学 | 图片自动生成描述的方法、系统、电子装置及存储介质 |
-
2021
- 2021-08-10 CN CN202110912994.4A patent/CN113780350B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109726696A (zh) * | 2019-01-03 | 2019-05-07 | 电子科技大学 | 基于推敲注意力机制的图像描述生成系统及方法 |
WO2020186484A1 (zh) * | 2019-03-20 | 2020-09-24 | 深圳大学 | 图片自动生成描述的方法、系统、电子装置及存储介质 |
CN111160467A (zh) * | 2019-05-31 | 2020-05-15 | 北京理工大学 | 一种基于条件随机场和内部语义注意力的图像描述方法 |
CN110222349A (zh) * | 2019-06-13 | 2019-09-10 | 成都信息工程大学 | 一种深度动态上下文词语表示的模型及方法、计算机 |
CN110473267A (zh) * | 2019-07-12 | 2019-11-19 | 北京邮电大学 | 基于注意力特征提取网络的社交网络图像描述生成方法 |
Non-Patent Citations (1)
Title |
---|
跨层多模型特征融合与因果卷积解码的图像描述;罗会兰;岳亮亮;中国图象图形学报(第008期);1604-1617 * |
Also Published As
Publication number | Publication date |
---|---|
CN113780350A (zh) | 2021-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109344288B (zh) | 一种基于多模态特征结合多层注意力机制的结合视频描述方法 | |
Gao et al. | Deep label distribution learning with label ambiguity | |
Liu et al. | Two-stream 3d convolutional neural network for skeleton-based action recognition | |
CN109524006B (zh) | 一种基于深度学习的汉语普通话唇语识别方法 | |
CN112860888B (zh) | 一种基于注意力机制的双模态情感分析方法 | |
CN112766172B (zh) | 一种基于时序注意力机制的人脸连续表情识别方法 | |
CN110647612A (zh) | 一种基于双视觉注意力网络的视觉对话生成方法 | |
CN111028319B (zh) | 一种基于面部运动单元的三维非真实感表情生成方法 | |
CN113822192A (zh) | 一种基于Transformer的多模态特征融合的在押人员情感识别方法、设备及介质 | |
CN113609326B (zh) | 基于外部知识和目标间关系的图像描述生成方法 | |
CN113449801B (zh) | 一种基于多级图像上下文编解码的图像人物行为描述生成方法 | |
CN113516152B (zh) | 一种基于复合图像语义的图像描述方法 | |
CN113780059A (zh) | 一种基于多特征点的连续手语识别方法 | |
CN112528989B (zh) | 一种图像语义细粒度的描述生成方法 | |
CN116704198A (zh) | 一种基于多模态信息引导的知识增强视觉问答方法 | |
CN117764084A (zh) | 基于多头注意力机制与多模型融合的短文本情感分析方法 | |
CN113780350B (zh) | 一种基于ViLBERT和BiLSTM的图像描述方法 | |
CN117150320B (zh) | 对话数字人情感风格相似度评价方法及系统 | |
Senanayaka et al. | Continuous American Sign Language Recognition Using Computer Vision And Deep Learning Technologies | |
Thakar et al. | Sign Language to Text Conversion in Real Time using Transfer Learning | |
CN113722536A (zh) | 基于双线性自适应特征交互与目标感知的视频描述方法 | |
CN116758402B (zh) | 图像人物关系识别方法、系统、设备及存储介质 | |
CN114944002B (zh) | 文本描述辅助的姿势感知的人脸表情识别方法 | |
CN116311493A (zh) | 一种基于编码解码架构的两阶段人-物交互检测方法 | |
Vahdati et al. | Facial beauty prediction from facial parts using multi-task and multi-stream convolutional neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |