CN113139575B - 一种基于条件嵌入预训练语言模型的图像标题生成方法 - Google Patents

一种基于条件嵌入预训练语言模型的图像标题生成方法 Download PDF

Info

Publication number
CN113139575B
CN113139575B CN202110292541.6A CN202110292541A CN113139575B CN 113139575 B CN113139575 B CN 113139575B CN 202110292541 A CN202110292541 A CN 202110292541A CN 113139575 B CN113139575 B CN 113139575B
Authority
CN
China
Prior art keywords
image
model
language model
unilm
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110292541.6A
Other languages
English (en)
Other versions
CN113139575A (zh
Inventor
张旻
林培捷
李鹏飞
姜明
汤景凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202110292541.6A priority Critical patent/CN113139575B/zh
Publication of CN113139575A publication Critical patent/CN113139575A/zh
Application granted granted Critical
Publication of CN113139575B publication Critical patent/CN113139575B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于条件嵌入预训练语言模型的图像标题生成方法。本发明提出了一种基于预训练语言模型的网络,被称为CE‑UNILM。在预训练语言模型UNILM的输入端,构建KEN,KEN使用目标检测的方法对图像进行目标检测,并将结果作为关键文本信息,通过关键词嵌入的方式进行输入。通过构建VEN对图像特征进行提取,并将图像进行编码,通过条件嵌入的方式进行输入。同时,本发明提出的CELN,CELN是一种通过视觉嵌入来调节预训练语言模型进行特征选择的有效机制,将CELN应用于统一预训练语言模型中的transformer上。结果表明,这种方法具有更好的鲁棒性和自适应能力。

Description

一种基于条件嵌入预训练语言模型的图像标题生成方法
技术领域
本发明属于图像描述技术领域,涉及图像标题生成方法,具体是一种基于条件嵌入预训练语言模型的图像标题生成方法。
背景技术
大规模预训练语言模型使文本理解任务和文本生成任务的效果得到大幅度提高,这也改变了研究人员的研究方式,使得针对预训练语言模型进行调整进行下游任务成为主流方法。针对图像-文本,语音-文本等的研究也越来越多,具体应用上包括了图像字幕,视频字幕,图像问答,视频问答等。
相对于传统编码-解码的任务过程,预训练语言模型在自然语言处理任务上的成果是优秀的。这是因为文章、语句天生就是蕴含着语法、语义的训练资源,预训练语言模型在海量的语料数据中学习,它能够基于足够多的上下文文本表征来预测目标的语义信息。通常而言,预训练语言模型的输入包括了来自文本的单词、图像的感兴趣区域(IOU)以及消除不同模态数据的特定元素。在输入操作之前,通过注意力机制将视觉-语言进行聚合、对齐是常见的操作。但是,下游任务的视觉信息和文本信息应该在模型学习整个过程起作用,而不是仅依靠输入的多模态融合信息。CBN中认为语言能够更好的帮助预训练模型更好的识别图像。CBN以LSTM提取的自然语言特征作为条件,预测BN层参数的增量,使得不同的输入都有相对应的归一化参数。既然自然语言特征可以作为condition,用于预测BN参数的变化,那么图片的类别信息自然也可以作为condition来预测BN层的参数。受此启发,本文认为图像能够帮助预训练语言模型更好的说话。在预训练语言模型中,LN层取代了BN层,因此,需要将图片信息嵌入到LN层中,通过这种操作使得预训练语言模型面对下游任务时,能更好的参考图片信息进行特征选择。
发明内容
本发明的目的是针对现有技术的不足,提供一种基于条件嵌入预训练语言模型的图像标题生成方法。通过本发明方法来解决预训练语言模型在进行下游任务时,不能时刻借鉴图像信息的问题。为了解决这些问题,本发明不再遵循这种主流做法,并提出通过视觉特征作为条件输入来调节整个预训练语言模型的处理。具体来说,在预训练语言模型UNILM的输入端构建KEN(Keywords Embedding Network),KEN使用目标检测的方法对图像进行目标检测,并将检测结果作为关键文本信息,通过关键词嵌入的方式进行输入。通过构建VEN(Visual Embedding Network)对图像特征进行提取,并将图像进行编码,通过条件嵌入的方式进行输入。对于预训练语言模型来说,transformer中的LN层已经有现成的、无条件的g(gain)和b(bias)了,它们用于对特征施加增益和偏置操作,都是固定长度的向量。CELN需要保持模型跟原来的预训练语言模型一致,通过VEN对图像进行编码为g',b'作为条件输入,g',b'跟g,b具有相同的维度,然后将结果分别加到g和b上去。从含义上讲可以解释为:根据g',b'的信息,预训练语言模型强调和图像相关的特征选择,降权另一部分特征。通过条件调节权重,模型在文本生成时,会针对性的关注和图片相关的特征,达到对图像的准确描述。结果表明,这种方法具有更好的鲁棒性和自适应能力。
本发明有益效果如下:
本发明提出图像能够帮助预训练语言模型更好的说话,在预训练语言模型中,将图片信息嵌入到transformer中的LN层中,并利用目标检测提取的关键字作为预训练语言模型的输入。通过这种操作使得预训练语言模型面对下游任务时,能更好的参考图片信息进行特征选择。结果表明,这种方法具有更好的鲁棒性和自适应能力。根据图像描述领域标准性能指标进行测试,评价指标包括:BLEU_1/BLEU_2/BLEU_3/BLEU_4/METOR/ROUGE_L/CIDEr/SPICE。在MSCOCO数据集上进行测试,测试结果分别为:81.9/66.5/52.6/41.5/32,1/64.4/130.9/28.1。在Visual Genome数据集上进行测试,测试结果分别为:52.9/37.8/28.7/22.4/27.2/54.6/277.9/58.7,两项测试结果均在领域内属于领先水平。
附图说明
图1是本发明的整体实施方案流程图;
图2是本发明的KEN模块示意图;
图3是本发明的VEN模块示意图;
图4是本发明的CELN模块示意图;
图5是本发明的整体结构示意图;
图6是本发明实施例图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1是本发明的整体实施方案流程图,一种基于条件嵌入预训练语言模型的图像标题生成方法,包括以下步骤:
步骤(1)使用目标检测方法Faster RCNN对图像进行目标检测,并将检测结果作为构建图像的关键词集合,将关键词集合和特殊字符组成输入序列,输入序列通过词嵌入的方式进行输入,构建关键词嵌入网络KEN(Keywords Embedding Network);
步骤(2)使用预训练的图像提取模型ResNet对图像进行特征提取,构建特征编码网络;对图像进行编码,将编码结果通过条件嵌入的方式进行输入,构建视觉嵌入网络VEN(Visual Embedding Network);
步骤(3)针对预训练语言模型,transformer中的LN层已有现成的、无条件的g和b,且g和b用于对特征施加增益和偏置操作时,都是固定长度的向量;通过VEN对图像编码为g',b';
g',b'跟g,b具有相同的维度,将VEN的编码结果g',b'分别加到g和b上去,构建条件嵌入归一化层CELN(Conditional Embedding layer Normalization);
步骤(4)将KEN和VEN的编码结果分别作为预训练语言模型的序列输入和条件嵌入。将CELN替换UNILM的transformer中所有的LN层,构建CE-UNILM模型;
步骤(5)对CE-UNILM模型进行训练,挑选最优训练模型。将图片输入训练好的CE-UNILM模型,输出对应的图像标题;
进一步的,所述步骤(1)具体实现过程如下:
1-1使用在Visual Genome数据集上预训练的Faster RCNN对图像进行目标提取。Faster RCNN能够获得目标类别以及相应目标在图像中的区域。为了用于图像标题生成任务,取模型最终类别输出并得到关键词集合W={w1,w2,...,ws}。其中,ws是通过目标检测算法对图像提取的类别如公式(1)所示。
W=Faster RCNN(I) (1)
1-2获取关键词集合W后,将W和三个特殊标记组合为输入序列S。三个特殊标记分别为:[CLS]、[SEP]和[STOP];其中[CLS]放在第一个关键字之前,例如输入句子A,要在句子A之前加[CLS]标志,[SEP]用于分开两个输入句子,例如输入句子A和B,要在句子A后面且句子B前面增加[SEP]标志,[STOP]放在句子结束,表示句子结束,例如句子A,要在A后面加[STOP]标志。
1-3将步骤1-1中目标检测所获得的类别ws进行编码,维度为768;若N为输入序列S的最终序列长度,则S的维度为768*N。
1-4将步骤1-1、1-2和1-3所述流程构成KEN,参照图2。
进一步,所述步骤(2)具体实现过程如下:
2-1基干网络使用在ImageNet上预训练的ResNet模型,获得对应图像I的图像特征Iresnet,其维度为2048维,如公式(2)所示。
Iresnet=ResNet(I) (2)
2-2采用双通道结构,每个通道上图像特征Iresnet经过两层512维的全连接操作以及两层Swish激活函数,然后升维到768维,最终表达如公式(3)(4)所示。
g′=fVEN-DC1(Iresnet) (3)
b′=fVEN-DC2(Iresnet) (4)
其中,fCEN-DC1和fCEN-DC2分别代表两个不同的通道。由于图像特征Iresnet在训练过程中,两列参数的调整逐渐不同,所以最终产生的g′和b′也不相同。
2-3将步骤2-1和步骤2-2所述流程构成VEN,参照图3。
进一步的,所述步骤(3)具体实现过程如下:
3-1计算特征x在LN层的归一化统计量均值μ和方差σ,特征x通过均值μ和方差σ,可以得到归一化后的特征值为x′,如公式(5)所示:
Figure BDA0002982881800000051
其中,ε是一个很小的小数,防止除0。
3-2在LN中需要一组参数来保证归一化操作不会破坏之前的信息,在LN中这组参数叫做增益g和偏置b,LN的输出如公式(6)所示。
fLN(x′)=g⊙x′+b (6)
合并公式(5),(6),LN层最终输出,如公式(7)所示。
Figure BDA0002982881800000052
3-3对于transformer来说,已经有现成的、无条件的g和b了,它们都是长度固定的向量。VEN将图像特征编码到跟g和b一样的维度,然后将两个编码结果g′和b′分别加到g和b上去如公式(8)(9)所示。
Figure BDA0002982881800000053
Figure BDA0002982881800000054
为了防止扰乱原来的预训练权重,两个变换矩阵可以全零初始化,这样在初始状态,模型依然保持跟原来的预训练模型一致。
3-4通过CELN获得新特征为
Figure BDA0002982881800000055
计算过程如公式(10)所示。
Figure BDA0002982881800000056
其中,μ和σ是分别是均值和方差。
3-5将步骤3-1、3-2、3-3和3-4所述流程构成CELN,参照图4。
进一步的,步骤(4)所述具体实现过程如下:
4-1将KEN作为预训练语言模型UNILM的输入,VEN的结果作为预训练语言模型UNILM的条件输入,用CELN替换UNILM中transformer的所有的LN层。
4-2将步骤4-1中KEN、VEN以及加入了CELN的UNILM模型进行组合,构建CE-UNILM模型,整体模型参照图5。
进一步的,步骤(5)所述具体实现过程如下:
5-1进行端到端的训练,epoch设置为10,学习率为0.00001,batch size为16,使用Adam优化器渐进式的调整学习率。在推理短语中,使用波束搜索,波束大小为3。利用标准的交叉熵损失来训练模型,公式(11)所示。
Figure BDA0002982881800000061
其中,y1:t为给定的真实描述,θ为模型参数。
5-2将测试图像输入到CE-UNILM模型中,获得图像标题。
实施例1:
如图6所示,通过目标检测算法检测出目标包括:flower vase lavender,构建关键词集W={flower vase lavender},将关键词集和步骤1-2所提高的特殊字符组成输入序列S。输入到CE-UNILM模型中,得到预测结果为:a flower in a vase of purplelavender。

Claims (4)

1.一种基于条件嵌入预训练语言模型的图像标题生成方法,其特征在于包括以下步骤:
步骤(1)使用目标检测方法Faster RCNN对图像进行目标检测,并将检测结果作为构建图像的关键词集合,将关键词集合和特殊字符组成输入序列,输入序列通过词嵌入的方式进行输入,构建关键词嵌入网络KEN;
步骤(2)使用预训练的图像提取模型ResNet对图像进行特征提取,构建特征编码网络;对图像进行编码,将编码结果通过条件嵌入的方式进行输入,构建视觉嵌入网络VEN;
步骤(3)针对预训练语言模型,transformer中的LN层已有现成的、无条件的g和b,且g和b用于对特征施加增益和偏置操作时,都是固定长度的向量;通过VEN将图像编码为g',b';
g',b'跟g,b具有相同的维度,将VEN的编码结果g',b'分别加到g和b上去,构建条件嵌入归一化层CELN;
步骤(4)将KEN和VEN的编码结果分别作为预训练语言模型的序列输入和条件嵌入;用CELN替换UNILM的transformer中所有的LN层,构建CE-UNILM模型;
步骤(5)对CE-UNILM模型进行训练,挑选最优训练模型;将图片输入训练好的CE-UNILM模型,输出对应的图像标题;
所述步骤(3)具体实现过程如下:
3-1计算特征x在LN层的归一化统计量均值μ和方差σ,特征x通过均值μ和方差σ,可以得到归一化后的特征值为x',如公式(5)所示:
Figure FDA0003459428730000011
其中,ε是一个很小的小数,防止除0;
3-2在LN中需要一组参数来保证归一化操作不会破坏之前的信息,在LN中这组参数叫做增益g和偏置b,LN的输出如公式(6)所示;
fLN(x')=g☉x'+b (6)
合并公式(5),(6),LN层最终输出,如公式(7)所示;
Figure FDA0003459428730000021
3-3对于transformer来说,已经有现成的、无条件的g和b了,它们都是长度固定的向量;VEN将图像特征编码到跟g和b一样的维度,然后将两个编码结果g'和b'分别加到g和b上去如公式(8)(9)所示;
Figure FDA0003459428730000022
Figure FDA0003459428730000023
3-4通过CELN获得新特征为
Figure FDA0003459428730000024
计算过程如公式(10)所示;
Figure FDA0003459428730000025
其中,μ和σ是分别是均值和方差;
步骤(4)所述具体实现过程如下:
4-1将KEN作为预训练语言模型UNILM的输入,VEN的结果作为预训练语言模型UNILM的条件输入,用CELN替换UNILM中transformer的所有的LN层;
4-2将步骤4-1中KEN、VEN以及加入了CELN的UNILM模型进行组合,构建CE-UNILM模型。
2.根据权利要求1所述的一种基于条件嵌入预训练语言模型的图像标题生成方法,其特征在于所述步骤(1)具体实现过程如下:
1-1使用在Visual Genome数据集上预训练的Faster RCNN对图像进行目标提取;Faster RCNN能够获得目标类别以及相应目标在图像中的区域;为了用于图像标题生成任务,取模型最终类别输出并得到关键词集合W={w1,w2,…,ws};其中,ws是通过目标检测算法对图像提取的类别如公式(1)所示;
W=Faster RCNN(I) (1)
1-2获取关键词集合W后,将W和三个特殊标记组合为输入序列S;三个特殊标记分别为:[CLS]、[SEP]和[STOP];其中[CLS]放在第一个关键字之前,要在句子A之前加[CLS]标志;[SEP]用于分开两个输入句子,在句子A后面且句子B前面增加[SEP]标志;[STOP]放在句子结束,表示句子结束,在句子A后面加[STOP]标志;
1-3将步骤1-1中目标检测所获得的类别ws进行编码,维度为768;若N为输入序列S的最终序列长度,则S的维度为768*N。
3.根据权利要求2所述的一种基于条件嵌入预训练语言模型的图像标题生成方法,其特征在于所述步骤(2)具体实现过程如下:
2-1基干网络使用在ImageNet上预训练的ResNet模型,获得对应图像I的图像特征Iresnet,其维度为2048维,如公式(2)所示;
Iresnet=ResNet(I) (2)
2-2采用双通道结构,每个通道上图像特征Iresnet经过两层512维的全连接操作以及两层Swish激活函数,然后升维到768维,最终表达如公式(3)(4)所示;
g'=fVEN-DC1(Iresnet) (3)
b'=fVEN-DC2(Iresnet) (4)
其中,fCEN-DC1和fCEN-DC2分别代表两个不同的通道;由于图像特征Iresnet在训练过程中,两列参数的调整逐渐不同,所以最终产生的g'和b'也不相同。
4.根据权利要求3所述的一种基于条件嵌入预训练语言模型的图像标题生成方法,其特征在于步骤(5)所述具体实现过程如下:
5-1进行端到端的训练,epoch设置为10,学习率为0.00001,batch size为16,使用Adam优化器渐进式的调整学习率;在推理短语中,使用波束搜索,波束大小为3;利用标准的交叉熵损失来训练模型,公式(11)所示;
Figure FDA0003459428730000031
其中,y1:t为给定的真实描述,θ为模型参数;
5-2将测试图像输入到CE-UNILM模型中,获得图像标题。
CN202110292541.6A 2021-03-18 2021-03-18 一种基于条件嵌入预训练语言模型的图像标题生成方法 Active CN113139575B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110292541.6A CN113139575B (zh) 2021-03-18 2021-03-18 一种基于条件嵌入预训练语言模型的图像标题生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110292541.6A CN113139575B (zh) 2021-03-18 2021-03-18 一种基于条件嵌入预训练语言模型的图像标题生成方法

Publications (2)

Publication Number Publication Date
CN113139575A CN113139575A (zh) 2021-07-20
CN113139575B true CN113139575B (zh) 2022-03-01

Family

ID=76811515

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110292541.6A Active CN113139575B (zh) 2021-03-18 2021-03-18 一种基于条件嵌入预训练语言模型的图像标题生成方法

Country Status (1)

Country Link
CN (1) CN113139575B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113722425A (zh) * 2021-07-23 2021-11-30 阿里巴巴达摩院(杭州)科技有限公司 数据处理方法、计算机设备及计算机可读存储介质
CN114611498A (zh) * 2022-03-18 2022-06-10 腾讯科技(深圳)有限公司 标题生成方法、模型训练方法及装置
CN117634459A (zh) * 2024-01-24 2024-03-01 山东海量信息技术研究院 目标内容生成及模型训练方法、装置、系统、设备及介质

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102541973A (zh) * 2010-09-16 2012-07-04 卡西欧计算机株式会社 图像显示装置、图像显示方法
CN108009154A (zh) * 2017-12-20 2018-05-08 哈尔滨理工大学 一种基于深度学习模型的图像中文描述方法
CN108711166A (zh) * 2018-04-12 2018-10-26 浙江工业大学 一种基于四旋翼无人机的单目相机尺度估计方法
CN108829677A (zh) * 2018-06-05 2018-11-16 大连理工大学 一种基于多模态注意力的图像标题自动生成方法
CN110348462A (zh) * 2019-07-09 2019-10-18 北京金山数字娱乐科技有限公司 一种图像特征确定、视觉问答方法、装置、设备及介质
CN110733506A (zh) * 2019-10-17 2020-01-31 上海舵敏智能科技有限公司 无人驾驶车辆的车道变更方法及设备
CN111143535A (zh) * 2019-12-27 2020-05-12 北京百度网讯科技有限公司 用于生成对话模型的方法和装置
CN111178094A (zh) * 2019-12-20 2020-05-19 沈阳雅译网络技术有限公司 一种基于预训练的稀缺资源神经机器翻译训练方法
CN111274764A (zh) * 2020-01-23 2020-06-12 北京百度网讯科技有限公司 语言生成方法、装置、计算机设备及存储介质
CN111523304A (zh) * 2020-04-27 2020-08-11 华东师范大学 一种基于预训练模型的产品描述文本的自动生成方法
CN112016604A (zh) * 2020-08-19 2020-12-01 华东师范大学 一种运用视觉信息的零资源机器翻译方法
CN112104919A (zh) * 2020-09-11 2020-12-18 腾讯科技(深圳)有限公司 基于神经网络的内容标题生成方法、装置、设备、和计算机可读存储介质
CN112446207A (zh) * 2020-12-01 2021-03-05 平安科技(深圳)有限公司 标题生成方法、装置、电子设备及存储介质
CN112508048A (zh) * 2020-10-22 2021-03-16 复旦大学 图像描述的生成方法和装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103092935A (zh) * 2013-01-08 2013-05-08 杭州电子科技大学 一种基于sift量化的近似拷贝图像检测方法
US11086883B2 (en) * 2016-04-15 2021-08-10 Google Llc Systems and methods for suggesting content to a writer based on contents of a document
US10565305B2 (en) * 2016-11-18 2020-02-18 Salesforce.Com, Inc. Adaptive attention model for image captioning
CN109583490B (zh) * 2018-11-22 2021-08-10 上海交通大学 大规模图像的匹配方法

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102541973A (zh) * 2010-09-16 2012-07-04 卡西欧计算机株式会社 图像显示装置、图像显示方法
CN108009154A (zh) * 2017-12-20 2018-05-08 哈尔滨理工大学 一种基于深度学习模型的图像中文描述方法
CN108711166A (zh) * 2018-04-12 2018-10-26 浙江工业大学 一种基于四旋翼无人机的单目相机尺度估计方法
CN108829677A (zh) * 2018-06-05 2018-11-16 大连理工大学 一种基于多模态注意力的图像标题自动生成方法
CN110348462A (zh) * 2019-07-09 2019-10-18 北京金山数字娱乐科技有限公司 一种图像特征确定、视觉问答方法、装置、设备及介质
CN110733506A (zh) * 2019-10-17 2020-01-31 上海舵敏智能科技有限公司 无人驾驶车辆的车道变更方法及设备
CN111178094A (zh) * 2019-12-20 2020-05-19 沈阳雅译网络技术有限公司 一种基于预训练的稀缺资源神经机器翻译训练方法
CN111143535A (zh) * 2019-12-27 2020-05-12 北京百度网讯科技有限公司 用于生成对话模型的方法和装置
CN111274764A (zh) * 2020-01-23 2020-06-12 北京百度网讯科技有限公司 语言生成方法、装置、计算机设备及存储介质
CN111523304A (zh) * 2020-04-27 2020-08-11 华东师范大学 一种基于预训练模型的产品描述文本的自动生成方法
CN112016604A (zh) * 2020-08-19 2020-12-01 华东师范大学 一种运用视觉信息的零资源机器翻译方法
CN112104919A (zh) * 2020-09-11 2020-12-18 腾讯科技(深圳)有限公司 基于神经网络的内容标题生成方法、装置、设备、和计算机可读存储介质
CN112508048A (zh) * 2020-10-22 2021-03-16 复旦大学 图像描述的生成方法和装置
CN112446207A (zh) * 2020-12-01 2021-03-05 平安科技(深圳)有限公司 标题生成方法、装置、电子设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Multimodal Transformer With Multi-View Visual;Jun Yu et al.;《IEEE》;20201231;第4467-4480页 *
联合自注意力和循环网络的图像标题生成;王习等;《计算机科学》;20210204;第157-163页 *

Also Published As

Publication number Publication date
CN113139575A (zh) 2021-07-20

Similar Documents

Publication Publication Date Title
CN113139575B (zh) 一种基于条件嵌入预训练语言模型的图像标题生成方法
CN110914827B (zh) 生成多语言语义解析器的系统和计算机实现方法
CN113254599B (zh) 一种基于半监督学习的多标签微博文本分类方法
CN109960804B (zh) 一种题目文本句子向量生成方法及装置
WO2022141878A1 (zh) 端到端的语言模型预训练方法、系统、设备及存储介质
CN109992775B (zh) 一种基于高级语义的文本摘要生成方法
CN111666758B (zh) 中文分词方法、训练设备以及计算机可读存储介质
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
CN110619043A (zh) 基于动态词向量的自动文本摘要生成方法
CN113190656B (zh) 一种基于多标注框架与融合特征的中文命名实体抽取方法
CN110688479B (zh) 一种用于生成式摘要的评估方法及排序网络
CN110222338B (zh) 一种机构名实体识别方法
CN111444367A (zh) 一种基于全局与局部注意力机制的图像标题生成方法
CN110929498A (zh) 一种短文本相似度的计算方法及装置、可读存储介质
CN111368542A (zh) 一种基于递归神经网络的文本语言关联抽取方法和系统
CN113111663A (zh) 一种融合关键信息的摘要生成方法
CN116610778A (zh) 基于跨模态全局与局部注意力机制的双向图文匹配方法
CN113627550A (zh) 一种基于多模态融合的图文情感分析方法
CN113076744A (zh) 一种基于卷积神经网络的文物知识关系抽取方法
CN113158667A (zh) 基于实体关系级别注意力机制的事件检测方法
CN110750669B (zh) 一种图像字幕生成的方法及系统
CN117033961A (zh) 一种上下文语境感知的多模态图文分类方法
Kore et al. Legal document summarization using nlp and ml techniques
CN116204622A (zh) 一种跨语言稠密检索中的查询表示增强方法
CN115422362B (zh) 一种基于人工智能的文本匹配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant