CN111368898B - 一种基于长短时记忆网络变体的图像描述生成方法 - Google Patents
一种基于长短时记忆网络变体的图像描述生成方法 Download PDFInfo
- Publication number
- CN111368898B CN111368898B CN202010129973.0A CN202010129973A CN111368898B CN 111368898 B CN111368898 B CN 111368898B CN 202010129973 A CN202010129973 A CN 202010129973A CN 111368898 B CN111368898 B CN 111368898B
- Authority
- CN
- China
- Prior art keywords
- image
- description
- network
- lstm
- long
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000015654 memory Effects 0.000 title claims abstract description 21
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 27
- 230000008569 process Effects 0.000 claims abstract description 13
- 230000007246 mechanism Effects 0.000 claims abstract description 5
- 238000012549 training Methods 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 10
- 230000009466 transformation Effects 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- YTAHJIFKAKIKAV-XNMGPUDCSA-N [(1R)-3-morpholin-4-yl-1-phenylpropyl] N-[(3S)-2-oxo-5-phenyl-1,3-dihydro-1,4-benzodiazepin-3-yl]carbamate Chemical compound O=C1[C@H](N=C(C2=C(N1)C=CC=C2)C1=CC=CC=C1)NC(O[C@H](CCN1CCOCC1)C1=CC=CC=C1)=O YTAHJIFKAKIKAV-XNMGPUDCSA-N 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000002787 reinforcement Effects 0.000 claims description 3
- 230000000007 visual effect Effects 0.000 description 6
- 235000019987 cider Nutrition 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 235000013599 spices Nutrition 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于长短时记忆网络变体的图像描述生成方法,该方法利用一图像描述模型生成待识别图像的图像描述,所述图像描述模型包括卷积神经网络、图像特征编码模块和描述生成模块,所述卷积神经网络获得待识别图像的初始图像特征,所述图像特征编码模块对初始图像特征进行处理,所述图像特征编码模块的输出和所述初始图像特征同时作为描述生成模块的输入,所述描述生成模块中,基于注意力机制和长短时记忆网络变体生成描述句子。与现有技术相比,本发明具有能显著提升图像描述的质量和准确性等优点。
Description
技术领域
本发明涉及图像理解和自然语言处理的交叉领域,尤其是涉及一种基于长短时记忆网络变体的图像描述生成方法。
背景技术
图像描述任务是近年来机器学习领域一大热点。该任务通过机器学习模型,将图像信息自动转换为自然语言描述,在人机交互、盲人导航、图片检索等领域有着广泛的应用前景,因此吸引了国内外大量学者的研究兴趣。同时,该任务也是机器学习领域的一大难点问题,因其不仅需要模型准确地识别图片、视频中的目标物体,还需要模型对物体与物体之间、物体与背景之间等关系有较为深刻地理解,并生成一段生动的自然语言描述,因此这一任务对计算机视觉和自然语言处理两大领域都有着较大的考验。
目前,大部分学者主要使用深度学习方法来实现视觉描述任务。最基本的模型框架是使用卷积神经网络(CNN)来提取图片或视频的特征,再将视觉特征送入长短期记忆网络(LSTM)来生成自然语言描述,如专利申请CN110288029A。为了模仿人类做视觉描述时描述每个词大脑会将注意力集中到图片或视频中的某一区域这一机制,注意力网络(Attention Network)也被引入视觉描述任务,如CN108052512A。但目前的方法还存在缺乏生成自然语言所需的生动的语义信息以及容易产生噪声等问题。
发明内容
本发明的目的在于克服上述现有技术存在的缺陷而提供一种基于长短时记忆网络变体的图像描述生成方法,能显著提升图像描述的质量和准确性。
本发明的目的可以通过以下技术方案来实现:
一种基于长短时记忆网络变体的图像描述生成方法,该方法利用一图像描述模型生成待识别图像的图像描述,所述图像描述模型包括卷积神经网络、图像特征编码模块和描述生成模块,所述卷积神经网络获得待识别图像的初始图像特征,所述图像特征编码模块对初始图像特征进行处理,所述图像特征编码模块的输出和所述初始图像特征同时作为描述生成模块的输入,所述描述生成模块中,基于注意力机制和长短时记忆网络变体生成描述句子。
进一步地,所述图像特征编码模块的处理过程具体为:
将初始图像特征变换为序列图像特征,按照序列次序依次将所述序列图像特征输入至第一LSTM中,获取带有语义信息的全局图像特征。
进一步地,所述初始图像特征依次经过两个全连接层和一个ReLU激活函数后变换为所述序列图像特征。
其中,vj为序列图像特征中的元素。
进一步地,所述卷积神经网络输出的初始图像特征经维数变换后输入所述描述生成模块。
进一步地,所述描述生成模块包括依次连接的第二LSTM、注意力网络和CaptionNet网络,所述第二LSTM用于描述CaptionNet网络输出的前面时间步生成的句子信息,生成前面时间步词特征,所述注意力网络用于生成局部注意力图像特征,所述CaptionNet网络为LSTM变体,其输入门和细胞输入仅以所述局部注意力图像特征作为输入,其遗忘门和输出门同时以所述局部注意力图像特征和前面时间步词特征作为输入。
其中,xt=ReLU(Weωt-1)是词嵌入向量,ωt-1是上一个词的one-hot向量。
进一步地,在时间步t,所述局部注意力图像特征的计算公式为:
其中,Vt a是局部注意力图像特征,αti是概率分布,Vi h是经维数变换后的初始图像特征中的元素,K是图像特征的个数。
进一步地,所述图像描述模型的训练过程具体为:
使用交叉损失函数对所述图像描述模型进行M轮训练,其中前N轮训练中,卷积神经网络的参数固定,其他部分进行学习,后M-N轮训练中,卷积神经网络进行学习,其他部分的参数固定;
使用强化学习方法优化所述图像描述模型,优化过程中,卷积神经网络的参数固定,其他部分进行学习。
与现有技术相比,本发明具有如下有益效果:
1、本发明图像特征变换为序列图像特征(Sequential Image Features)并依次输入到长短期记忆(LSTM)中,可以获得语义信息更加丰富的全局图像特征,进而提高图像描述准确性。
2、本发明引用注意力网络,模型能根据当前的描述和视觉内容在视觉特征的维度上生成一个概率分布,这一分布能够反应当前即将生成的词与视觉特征中的哪一个区域最为相关,从而帮助模型更加准确地生成描述信息。
3、本发明针对LSTM每一个时间步只能接收一个输入,而基于注意力的图像描述生成模型往往有两个输入这一问题,对LSTM进行改进,使其能同时接收两个输出,以获得更多图像信息,减少前面时间步的词对当前时间步输出的不利影响,显著提升图像描述的质量和准确性。
附图说明
图1为本发明模型的整体框架图;
图2为本发明中图像特征编码的框架图;
图3为本发明中每个时间步使用注意力网络生成词的框架图;
图4为本发明中LSTM变体,即CaptionNet的内部示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
本发明提供一种基于长短时记忆网络变体的图像描述生成方法,该方法利用一图像描述模型生成待识别图像的图像描述,如图1所示,所述图像描述模型包括卷积神经网络(CNN)、图像特征编码模块和描述生成模块,所述卷积神经网络获得待识别图像的初始图像特征,所述图像特征编码模块对初始图像特征进行处理,所述图像特征编码模块的输出和所述初始图像特征同时作为描述生成模块的输入,所述描述生成模块中,基于注意力机制和长短时记忆网络变体生成描述句子。
如图2所示,所述图像特征编码模块的处理过程具体为:将初始图像特征变换为序列图像特征,按照序列次序依次将所述序列图像特征输入至第一LSTM(记作LSTM1)中,获取带有语义信息的全局图像特征。所述初始图像特征依次经过两个全连接层和一个ReLU激活函数后变换为所述序列图像特征。
图像特征编码模块的具体过程包括:
11)将图像描述数据集MS COCO中的图像一致调整为576×576大小,再随机裁剪成512×512大小,输入到已在ImageNet上提前训练好的ResNet152中,取其最后一个卷积层的输出记为V∈RD×K,其中K=256为图像特征的个数,D=2048为每个图像特征的维数;
12)使用两个全连接层(FC)和一个ReLU激活函数,将V变换为“序列图像特征”(Sequential Image Features)Vs,具体表示为:
Vs=ReLU(Wk(WdV+bd)T+bk)
其中Wd∈RE×D,bd∈RE,Wk∈RS×K,bk∈RS是待学习的参数,E=512是用户预设的LSTM输入维数,S=10是用户预设的序列图像特征的序列长度;
其中LSTM内部的计算方式为:
ij=σ(Wivvj+Wihhj-1+bi)
fj=σ(Wfvvj+Wfhhj-1+bf)
oj=σ(Wovvj+Wohhj-1+bo)
gj=tanh(Wgvvj+Wghhj-1+bg)
cj=ij⊙gj+fj⊙cj-1
hj=oj⊙tanh(cj)
这里,ij,fj,oj,gj分别为LSTM的输入门、遗忘门、输出门和细胞输入。
描述生成模块包括依次连接的第二LSTM、注意力网络和CaptionNet网络,所述第二LSTM用于描述CaptionNet网络输出的前面时间步生成的句子信息,生成前面时间步词特征,所述注意力网络用于生成局部注意力图像特征,所述CaptionNet网络为LSTM变体,其输入门和细胞输入仅以所述局部注意力图像特征作为输入,其遗忘门和输出门同时以所述局部注意力图像特征和前面时间步词特征作为输入。
为了使得V的维数与注意力网络的维数一致,作以下变换:
Vh=ReLU(WvhV+bvh)
其中Wvh∈RH×D,bvh∈RH是待学习的参数,H=1024是LSTM或CaptionNet隐藏层的维数大小。
如图3所示,生成时间步t的词时,包括步骤:
其中xt=ReLU(Weωt-1)是词嵌入向量,ωt-1是上一个词的one-hot向量,We是待学习的参数;
22)使用注意力网络生成在V上的一个概率分布αt:
αt=softmax(zt)
23)使用预测当前时间步生成的词,CaptionNet的输入输出为:
之后,CaptionNet细胞层和隐藏层的更新方式与LSTM相同:
其中Wp∈RG×H,bp∈RG是待学习的参数,G是词典的大小。
上述图像描述模型搭建完毕后的训练过程具体为:
31)使用交叉损失函数对所述图像描述模型进行M轮训练,其中前N轮训练中,卷积神经网络的参数固定,其他部分进行学习,后M-N轮训练中,卷积神经网络进行学习,其他部分的参数固定。
本实施例中,设一个图像描述真实的词序列是模型的全部待学习参数是θ,训练轮数为25轮,其中前10轮CNN的参数固定,剩余模型的学习率为5e-4,后15轮CNN参与训练,学习率为1e-5,剩余模型的学习率不变。
交叉损失函数具体表示为:
32)使用强化学习方法优化所述图像描述模型,优化过程中,卷积神经网络的参数固定,其他部分进行学习。
为了验证本申请方法的性能,设计了以下实验。
在公开数据集MS COCO上使用本方法进行训练以及测试,使用BLEU、METEOR、ROUGE_L、CIDEr和SPICE标准来对生成的句子进行评价。在MSCOCO数据集上,其训练集有113287张图像,验证集和验证集各有5000张图像,每张图像有5条以上人工标注的参考句子;
表1本发明在MS COCO数据集上性能表现
方法 | B-1 | B-4 | METEOR | ROUGE_L | CIDEr | SPICE |
基准模型 | 79.8 | 36.3 | 27.7 | 56.9 | 120.1 | 21.4 |
本发明 | 80.0 | 37.6 | 28.2 | 57.8 | 123.9 | 21.9 |
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由本发明所确定的保护范围内。
Claims (9)
1.一种基于长短时记忆网络变体的图像描述生成方法,其特征在于,该方法利用一图像描述模型生成待识别图像的图像描述,所述图像描述模型包括卷积神经网络、图像特征编码模块和描述生成模块,所述卷积神经网络获得待识别图像的初始图像特征,所述图像特征编码模块对初始图像特征进行处理,所述图像特征编码模块的输出和所述初始图像特征同时作为描述生成模块的输入,所述描述生成模块中,基于注意力机制和长短时记忆网络变体生成描述句子;
所述描述生成模块包括依次连接的第二LSTM、注意力网络和CaptionNet网络,所述第二LSTM用于描述CaptionNet网络输出的前面时间步生成的句子信息,生成前面时间步词特征,所述注意力网络用于生成局部注意力图像特征,所述CaptionNet网络为LSTM变体,其输入门和细胞输入仅以所述局部注意力图像特征作为输入,其遗忘门和输出门同时以所述局部注意力图像特征和前面时间步词特征作为输入。
2.根据权利要求1所述的基于长短时记忆网络变体的图像描述生成方法,其特征在于,所述图像特征编码模块的处理过程具体为:
将初始图像特征变换为序列图像特征,按照序列次序依次将所述序列图像特征输入至第一LSTM中,获取带有语义信息的全局图像特征。
3.根据权利要求2所述的基于长短时记忆网络变体的图像描述生成方法,其特征在于,所述初始图像特征依次经过两个全连接层和一个ReLU激活函数后变换为所述序列图像特征。
5.根据权利要求1所述的基于长短时记忆网络变体的图像描述生成方法,其特征在于,所述卷积神经网络输出的初始图像特征经维数变换后输入所述描述生成模块。
9.根据权利要求1所述的基于长短时记忆网络变体的图像描述生成方法,其特征在于,所述图像描述模型的训练过程具体为:
使用交叉损失函数对所述图像描述模型进行M轮训练,其中前N轮训练中,卷积神经网络的参数固定,其他部分进行学习,后M-N轮训练中,卷积神经网络进行学习,其他部分的参数固定;
使用强化学习方法优化所述图像描述模型,优化过程中,卷积神经网络的参数固定,其他部分进行学习。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010129973.0A CN111368898B (zh) | 2020-02-28 | 2020-02-28 | 一种基于长短时记忆网络变体的图像描述生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010129973.0A CN111368898B (zh) | 2020-02-28 | 2020-02-28 | 一种基于长短时记忆网络变体的图像描述生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111368898A CN111368898A (zh) | 2020-07-03 |
CN111368898B true CN111368898B (zh) | 2022-10-25 |
Family
ID=71206524
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010129973.0A Active CN111368898B (zh) | 2020-02-28 | 2020-02-28 | 一种基于长短时记忆网络变体的图像描述生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111368898B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112911338B (zh) * | 2021-01-28 | 2022-01-11 | 山东大学 | 一种基于编码解码网络的交通场景描述方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108052512A (zh) * | 2017-11-03 | 2018-05-18 | 同济大学 | 一种基于深度注意力机制的图像描述生成方法 |
CA3040165A1 (en) * | 2016-11-18 | 2018-05-24 | Salesforce.Com, Inc. | Spatial attention model for image captioning |
CN109359214A (zh) * | 2018-10-15 | 2019-02-19 | 平安科技(深圳)有限公司 | 基于神经网络的视频描述生成方法、存储介质及终端设备 |
CN110084250A (zh) * | 2019-04-26 | 2019-08-02 | 北京金山数字娱乐科技有限公司 | 一种图像描述的方法及系统 |
CN110210499A (zh) * | 2019-06-03 | 2019-09-06 | 中国矿业大学 | 一种图像语义描述的自适应生成系统 |
CN110288665A (zh) * | 2019-05-13 | 2019-09-27 | 中国科学院西安光学精密机械研究所 | 基于卷积神经网络的图像描述方法、计算机可读存储介质、电子设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108305296B (zh) * | 2017-08-30 | 2021-02-26 | 深圳市腾讯计算机系统有限公司 | 图像描述生成方法、模型训练方法、设备和存储介质 |
-
2020
- 2020-02-28 CN CN202010129973.0A patent/CN111368898B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA3040165A1 (en) * | 2016-11-18 | 2018-05-24 | Salesforce.Com, Inc. | Spatial attention model for image captioning |
CN108052512A (zh) * | 2017-11-03 | 2018-05-18 | 同济大学 | 一种基于深度注意力机制的图像描述生成方法 |
CN109359214A (zh) * | 2018-10-15 | 2019-02-19 | 平安科技(深圳)有限公司 | 基于神经网络的视频描述生成方法、存储介质及终端设备 |
CN110084250A (zh) * | 2019-04-26 | 2019-08-02 | 北京金山数字娱乐科技有限公司 | 一种图像描述的方法及系统 |
CN110288665A (zh) * | 2019-05-13 | 2019-09-27 | 中国科学院西安光学精密机械研究所 | 基于卷积神经网络的图像描述方法、计算机可读存储介质、电子设备 |
CN110210499A (zh) * | 2019-06-03 | 2019-09-06 | 中国矿业大学 | 一种图像语义描述的自适应生成系统 |
Non-Patent Citations (3)
Title |
---|
"Image description through fusion based recurrent multi-modal learning";Ram Manohar Oruganti等;《2016 IEEE International Conference on Image Processing》;20160819;全文 * |
"Visual question answering algorithm based on image caption";Wenliang Cai等;《2019 IEEE 3rd Information Technology, Networking,Electronic and Automation Control Conference》;20190606;全文 * |
融合word2vec和注意力机制的图像描述模型;邓珍荣等;《计算机科学》;20190415(第04期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111368898A (zh) | 2020-07-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109544524B (zh) | 一种基于注意力机制的多属性图像美学评价系统 | |
CN113254599B (zh) | 一种基于半监督学习的多标签微博文本分类方法 | |
EP3832519A1 (en) | Method and apparatus for evaluating translation quality | |
US20210019599A1 (en) | Adaptive neural architecture search | |
CN110909736B (zh) | 一种基于长短期记忆模型与目标检测算法的图像描述方法 | |
CN112650886B (zh) | 基于跨模态动态卷积网络的跨模态视频时刻检索方法 | |
CN110991290B (zh) | 基于语义指导与记忆机制的视频描述方法 | |
US20230368500A1 (en) | Time-series image description method for dam defects based on local self-attention | |
CN110032741B (zh) | 一种基于语义扩展和最大边缘相关的伪文本生成方法 | |
CN112070114A (zh) | 基于高斯约束注意力机制网络的场景文字识别方法及系统 | |
CN115858847B (zh) | 基于跨模态注意力保留的组合式查询图像检索方法 | |
CN117762499B (zh) | 任务指令构建方法和任务处理方法 | |
CN113722536B (zh) | 基于双线性自适应特征交互与目标感知的视频描述方法 | |
CN111368898B (zh) | 一种基于长短时记忆网络变体的图像描述生成方法 | |
CN118503494A (zh) | 面向多源异构知识库的大模型问答方法、装置和设备 | |
CN113239678B (zh) | 一种面向答案选择的多角度注意力特征匹配方法及系统 | |
CN116610795B (zh) | 文本检索方法及装置 | |
CN111079964B (zh) | 基于人工智能的在线教育课程分配平台 | |
Qian et al. | Filtration network: A frame sampling strategy via deep reinforcement learning for video captioning | |
CN114048296A (zh) | 基于语义门的闲聊型多轮对话方法、系统、介质及设备 | |
CN115617959A (zh) | 问题解答方法及装置 | |
Zhang et al. | Image caption generation method based on an interaction mechanism and scene concept selection module | |
CN116303559B (zh) | 表格问答的控制方法、系统及存储介质 | |
Huang et al. | Enhanced video caption generation based on multimodal features | |
CN118015389B (zh) | 基于混合条件变分自编码的多样化图像描述生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |