CN114707523A - 基于交互式Transformer的图像-多语言字幕转换方法 - Google Patents

基于交互式Transformer的图像-多语言字幕转换方法 Download PDF

Info

Publication number
CN114707523A
CN114707523A CN202210418758.1A CN202210418758A CN114707523A CN 114707523 A CN114707523 A CN 114707523A CN 202210418758 A CN202210418758 A CN 202210418758A CN 114707523 A CN114707523 A CN 114707523A
Authority
CN
China
Prior art keywords
image
chinese
english
module
representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210418758.1A
Other languages
English (en)
Other versions
CN114707523B (zh
Inventor
胡珍珍
徐月圆
周愿恩
洪日昌
汪萌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN202210418758.1A priority Critical patent/CN114707523B/zh
Publication of CN114707523A publication Critical patent/CN114707523A/zh
Application granted granted Critical
Publication of CN114707523B publication Critical patent/CN114707523B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种基于交互式Transformer的图像‑多语言字幕转换方法,其步骤包括:1.构建图像‑多语言字幕数据集,2.获取图像的VinVL特征表示,3.获取文本的特征表示,4.采用图像特征与文本特征训练图像‑多语言字幕模型,5.利用训练好的图像‑多语言字幕模型,实现对图像的多种语言描述。本发明的文本信息涉及中英文两种语言,能够综合利用文本与视觉信息,实现图像到多语言字幕的转换,从而支持多种语言的高效转换。

Description

基于交互式Transformer的图像-多语言字幕转换方法
技术领域
本发明属于人工智能领域,具体的说是一种基于交互式Transformer的图像-多语言字幕转换方法。
背景技术
近年来,图像-字幕转换技术在图像索引、智能教育以及(盲人)视觉辅助等方面有着广泛的应用。但是目前大多数图像-字幕转换工作都是针对单一语言的,尤其是英语,而忽略了世界上有大量的非英语母语人群。图像-字幕转换技术的好处也应该带给这些用户,因此图像-字幕转换技术需要支持多种语言。
目前一些工作通过为每一种语言设计一个独立的模型,然后组合多个模型达到支持多语言的目的,但是这种方法将导致整体参数随着支持语言数量的增加而线性增加,不利于实际部署和维护。Tsutsui等人2017年发表的《Using Artificial Tokens to ControlLanguages for Multilingual Image Caption Generation》开创性地提出使用了卷积神经网络作为编码器和循环神经网络作为解码器,通过变换人工标记训练模型,使得单一模型可以产生对图像的两种语言描述。但是,该模型中两种语言描述不能同时产生,并且循环神经网络作为骨干网络,模型不能并行训练,存在长期依赖问题。如何设计一个单一紧凑的模型使其能够同时生成对图像的多种语言描述仍是亟待解决的问题。
发明内容
本发明是为了解决上述现有技术存在的不足之处,提出一种基于交互式Transformer的图像-多语言字幕转换方法,以期能通过单一的模型同时生成对图像的多种语言描述,从而支持多种语言的高效转换。
本发明为达到上述发明目的,采用如下技术方案:
本发明一种基于交互式Transformer的图像-多语言字幕转换方法的特点是按如下步骤进行:
步骤1、构建图像-多语言字幕数据集D={I,Y,Z};其中,I表示图像集,Y表示由所述图像集I中每张图像所对应的若干个中文描述语句构成的中文字幕集合;Z表示由所述图像集I中每张图像所对应的若干个英文描述语句构成的英文字幕集合;
步骤2、获取图像的VinVL特征表示;
采用VinVL模型对图像集I中的图像i进行处理,得到图像i的VinVL特征表示xi
步骤3、获取文本的特征表示;
步骤3.1、基于中文字幕集合Y和英文字幕集合Z构建包含M1个词汇量的中文字典以及M2个词汇量的英文字典;
步骤3.2、计算中文字幕集合Y中每个中文描述语句的文本特征表示,令图像i所对应的任意一个中文描述语句yi的中文文本特征表示记为
Figure BDA0003605988370000021
其中,
Figure BDA0003605988370000022
表示中文描述语句yi中的第k个中文词向量;K表示词向量总数;
计算英文描述语句集合Z中每个英文描述语句的文本特征表示,令图像i所对应的任意一个英文描述语句zi的英文文本特征表示记为
Figure BDA0003605988370000023
其中,
Figure BDA0003605988370000024
表示英文描述语句zi中的第k个英文词向量;
步骤4、构建图像-多语言字幕模型,包括:编码器、解码器和生成器;
步骤4.1、所述编码器由L1个相同的编码模块依次连接而成,每个编码模块均由多头自注意网络和全连接前馈网络组成,且每个编码模块后均连接有残差操作层和正则化操作层;
所述图像i的VinVL特征表示xi输入所述编码器中,并经过依次经过L1个编码模块的处理后输出图像i的上下文区域特征
Figure BDA0003605988370000025
步骤4.2、所述解码器由L2个相同的解码模块依次连接而成,且每个解码模块均由交互模块、关系模块和前馈网络组成;所述交互模块由一个自注意模块、一个关系注意模块和一个融合模块组成;
步骤4.2.1、使用位置编码表示序列的顺序;
对第k个中文词向量
Figure BDA0003605988370000026
和第k个英文词向量
Figure BDA0003605988370000027
进行位置编码,分别得到第k个中文嵌入特征
Figure BDA0003605988370000028
和第k个英文嵌入特征
Figure BDA0003605988370000029
从而得到图像i所对应的任意一个中文描述语句的中文嵌入特征向量
Figure BDA00036059883700000210
和图像i所对应的任意一个英文描述语句的英文嵌入特征向量
Figure BDA00036059883700000211
步骤4.2.2、将中文嵌入特征向量
Figure BDA00036059883700000212
和英文嵌入特征向量
Figure BDA00036059883700000213
拼接为向量
Figure BDA00036059883700000214
后输入第一个解码模块中的交互模块进行交互学习,分别由自注意模块输出中文的内部表示Hi cn-cn和英文的内部表示Hi en-en、由关系注意模块输出中-英的交互表示Hi cn-en和英-中的交互表示的Hi en-cn,再将中文的内部表示Hi cn-cn、英文的内部表示Hi en-en和中-英的交互表示Hi cn-en、英-中的交互表示Hi en-cn输入融合模块中,并利用式(1)和式(2)的融合函数进行融合,从而得到图像i所对应的任意一个中、英文描述语句的高级表示Hi cn、Hi en
Hi en=Hi en-en1×relu(Hi en-cn) (1)
Hi cn=Hi cn-cn2×relu(Hi cn-en) (2)
式(1)和式(2)中,λ1,λ2表示两个控制参数;relu表示激活函数;
步骤4.2.3、由中、英文描述语句的高级表示Hi cn、Hi en拼接为高级表示[Hi cn,Hi en],并将图像i的上下文区域特征
Figure BDA0003605988370000031
一起输入关系模块中,并由关系模块输出图像i及其对应的中英文描述语句的关系注意特征Ii-YiZi
步骤4.2.4、将关系注意特征Ii-YiZi输入前馈神经网络,并输出解码特征Decoderi,1
步骤4.2.5、将第一个解码模块输出解码特征Decoderi,1作为下一个解码模块的输入,并依次经过L2个解码模块的处理后,由第L2个解码模块的前馈神经网络输出最终的解码特征Decoderi,L2
步骤4.3、生成对图像i的中、英文自然语言描述句子:
步骤4.3.1、将最终的解码特征Decoderi,L2中包含的图像i的中、英文语言描述的预测信息按维度拆为中文预测信息cn-Decoderi,L2和英文预测信息en-Decoderi,L2
将所述中文预测信息cn-Decoderi,L2输入中文句子生成器,生成中文描述句子的预测特征cni
将所述英文预测信息en-Decoderi,L2输入英文句子生成器,生成英文描述句子的预测特征eni
步骤4.3.2、在中、英字典中查找中、英文描述句子的预测特征cni,eni所对应的单词,从而生成中、英文自然语言描述句子y′i,z′i
步骤5、优化图像-多语言字幕模型:
步骤5.1、在第一训练阶段时,基于所述图像-多语言字幕数据集D,通过最小化如式(1)所示的交叉熵损失loss来优化图像-多语言字幕模型:
Figure BDA0003605988370000041
式(3)中,θ表示学习参数;
步骤5.2、在第二训练阶段时,基于式(6)所示的总梯度
Figure BDA0003605988370000042
利用self-critical训练方法对优化后的图像-多语言字幕模型进行微调,从而得到最佳图像-多语言字幕模型:
Figure BDA0003605988370000043
Figure BDA0003605988370000044
Figure BDA0003605988370000045
式(4)~式(6)中,
Figure BDA0003605988370000046
表示中文自然语言描述句子y′的梯度;
Figure BDA0003605988370000047
表示英文自然语言描述句子z′的梯度;θ表示学习参数,R表示CIDEr函数,b表示基础分数,N表示采样总数,y′i表示图像i的中文自然语言描述句子,z′n表示In的英文自然语言描述句子;
步骤5.3、以最佳图像-多语言字幕模型实现对输入的任意图像输出其对应的中、英文语言字幕。
与现有技术相比,本发明的有益效果在于:
1、本发明通过一个基于交互式Transformer的图像-多语言字幕转换方法,克服了现有技术中无法使用单一模型同时生成对图像的多种语言描述问题,节省了储存空间以及对计算机资源的占用,更有利于实际运用时的部署与维护。
2、本发明通过使用Transformerr作为骨干网,在训练期间整体处理一个句子,采用位置编码表示序列的顺序,使得模型能够并行训练,解决了长期依赖的问题,加快了语言转换速度。
3、本发明通过交互模块,使多种目标语言之间相互学习、补充,获得更丰富的信息,提高了文本特征的有效性,提升了生成描述的准确性。
4、本发明通过对支持的多种语言采用共享编码器网络参数和解码器骨干网络参数,减少了需要存储的参数总数,节省了储存空间以及对计算机资源的占用。
5、本发明通过self-critical强化训练,促进对模型的进一步微调,使得模型生成的描述结果更准确、更丰富多样。
附图说明
图1为本发明图像-多语言字幕模型的框架图;
图2为本发明自注意模块图。
图3为本发明关系注意模块图。
图4为本发明交互模块图。
图5为本发明图像-多语言字幕模型训练流程图。
具体实施方式
本实施例中,一种基于交互式Transformer的图像-多语言字幕转换方法,是利用Transformer模型,并综合考虑图像与文本特征,使用交互模块促进不同目标语言之间相互学习,提高模型生成描述的准确性,通过共享编码器网络参数和解码器骨干网络参数,减少了需要存储的模型参数总数,提升模型参数效率,最后通过self-critical强化训练,促进模型进一步微调,获得更准确、丰富多样的描述结果。如图1所示,模型的输入包括图像和文本信息,将图像传输到VinVL模块,得到图像的VinVL特征,将图像的VinVL特征输入编码器,经过L1个依次连接的编码模块,输出图像的上下文区域特征;将中、英文文本信息转换为文本特征,对文本特征进行位置编码;将位置编码后的文本特征与图像的上下文区域特征输入解码器,经过L2个依次连接的解码模块,输出解码特征;然后将解码特征输入中、英文句子生成器,生成中英文句子描述。具体的说,是按如下步骤进行:
步骤1、构建图像-多语言字幕数据集D={I,Y,Z};其中,I表示图像集,Y表示由图像集I中每张图像所对应的若干个中文描述语句构成的中文字幕集合;Z表示由图像集I中每张图像所对应的若干个英文描述语句构成的英文字幕集合;本实施例中,使用的是MSCOCO数据集,该数据集包含丰富的图像资源,并且每张图像有5个英文描述。在此基础上,使用百度API对英文描述进行翻译,得到5个对应的中文描述,由此组成新的双语数据集,命名为COCO-EN-CN。
步骤2、获取图像的VinVL特征表示;
采用VinVL模型对图像集I中的图像i进行处理,得到图像i的VinVL特征表示xi
步骤3、获取文本的特征表示;
步骤3.1、基于中文字幕集合Y和英文字幕集合Z,通过对文本数据进行分词、删除词频过低的单词,英文中将出现次数少于5次的单词舍去,中文中将出现次数少于10次的单词舍去,其余单词组成字典,构建包含M1个词汇量的中文字典以及M2个词汇量的英文字典;本实施例中,M1=9532,M2=9487。
步骤3.2、计算中文字幕集合Y中每个中文描述语句的文本特征表示,令图像i所对应的任意一个中文描述语句yi的中文文本特征表示记为
Figure BDA0003605988370000061
其中,
Figure BDA0003605988370000062
表示中文描述语句yi中的第k个中文词向量;K表示词向量总数,本实施例中,K=20;
计算英文描述语句集合Z中每个英文描述语句的文本特征表示,令图像i所对应的任意一个英文描述语句zi的英文文本特征表示记为
Figure BDA0003605988370000063
其中,
Figure BDA0003605988370000064
表示英文描述语句zi中的第k个英文词向量;
步骤4、构建图像-多语言字幕模型,包括:编码器、解码器和生成器;
步骤4.1、编码器由L1个相同的编码模块依次连接而成,每个编码模块均由多头自注意网络和全连接前馈网络组成,且每个编码模块后均连接有残差操作层和正则化操作层,本实施例中,L1=6;
图像i的VinVL特征表示xi输入编码器中,并经过依次经过L1个编码模块的处理后输出图像i的上下文区域特征
Figure BDA0003605988370000065
1、步骤4.2、解码器由L2个相同的解码模块依次连接而成,本实施例中,L2=1,且每个解码模块均由交互模块、关系模块和前馈网络组成;交互模块,如图4所示,由一个自注意模块(如图2所示)、一个关系注意模块(如图3所示)和一个融合模块组成,通过交互模块,使多种目标语言之间相互学习、补充,获得更丰富的信息,提高生成描述的准确性;两种语言共享编码器网络和解码器骨干网络,减少了需要存储的模型参数总数,提升模型参数效率,节省了计算资源。
步骤4.2.1、使用位置编码表示序列的顺序;
对第k个中文词向量
Figure BDA0003605988370000066
和第k个英文词向量
Figure BDA0003605988370000067
进行位置编码,分别得到第k个中文嵌入特征
Figure BDA0003605988370000068
和第k个英文嵌入特征
Figure BDA0003605988370000069
从而得到图像i所对应的任意一个中文描述语句的中文嵌入特征向量
Figure BDA00036059883700000610
和图像i所对应的任意一个英文描述语句的英文嵌入特征向量
Figure BDA00036059883700000611
步骤4.2.2、将中文嵌入特征向量
Figure BDA00036059883700000612
和英文嵌入特征向量
Figure BDA00036059883700000613
拼接为向量
Figure BDA00036059883700000614
后输入第一个解码模块中的交互模块进行交互学习。分别由自注意模块输出中文的内部表示Hi cn-cn和英文的内部表示Hi en-en、由关系注意模块输出中-英的交互表示Hi cn-en和英-中的交互表示的Hi en-cn,再将中文的内部表示Hi cn-cn、英文的内部表示Hi en-en和中-英的交互表示Hi cn-en、英-中的交互表示Hi en-cn输入融合模块中,并利用式(1)和式(2)的融合函数进行融合,从而得到图像i所对应的任意一个中、英文描述语句的高级表示Hi cn、Hi en
Hi en=Hi en-en1×relu(Hi en-cn) (1)
Hi cn=Hi cn-cn2×relu(Hi cn-en) (2)
式(1)和式(2)中,λ1,λ2表示两个控制参数,本实施例中,λ1=λ2=0.1;relu表示激活函数;
步骤4.2.3、由中、英文描述语句的高级表示Hi cn、Hi en拼接为高级表示[Hi cn,Hi en],并将图像i的上下文区域特征
Figure BDA0003605988370000071
一起输入关系模块中,并由关系模块输出图像i及其对应的中英文描述语句的关系注意特征Ii-YiZi
步骤4.2.4、将关系注意特征Ii-YiZi输入前馈神经网络,并输出解码特征Decoderi,1
步骤4.2.5、将第一个解码模块输出解码特征Decoderi,1作为下一个解码模块的输入,并依次经过L2个解码模块的处理后,由第L2个解码模块的前馈神经网络输出最终的解码特征Decoderi,L2
步骤4.3、生成对图像i的中、英文自然语言描述句子:
步骤4.3.1、将最终的解码特征Decoderi,L2中包含的图像i的中、英文语言描述的预测信息按维度拆为中文预测信息cn-Decoderi,L2和英文预测信息en-Decoderi,L2
将中文预测信息cn-Decoderi,L2输入中文句子生成器,生成中文描述句子的预测特征cni
将英文预测信息en-Decoderi,L2输入英文句子生成器,生成英文描述句子的预测特征eni
步骤4.3.2、在中、英字典中查找中、英文描述句子的预测特征cni,eni所对应的单词,从而生成中、英文自然语言描述句子y′i,z′i
步骤5、优化图像-多语言字幕模型,图像-多语言字幕模型训练流程如图5所示:
步骤5.1、在第一训练阶段时,基于图像-多语言字幕数据集D,通过最小化如式(1)所示的交叉熵损失loss来优化图像-多语言字幕模型:
Figure BDA0003605988370000081
式(3)中,θ表示学习参数;
设置第一阶段最大迭代次数epoch_number1=15,利用反向传播和梯度下降法对目标函数loss进行训练,本实施例中,梯度下降法采用学习率,指数衰减率的Adam优化算法,当迭代次数达到epoch_number1时,停止训练,使得目标函数loss达到最小。
步骤5.2、在第二训练阶段时,基于式(6)所示的总梯度
Figure BDA0003605988370000082
利用self-critical训练方法对优化后的图像-多语言字幕模型进行微调,从而得到最佳图像-多语言字幕模型:
Figure BDA0003605988370000083
Figure BDA0003605988370000084
Figure BDA0003605988370000085
式(4)中,
Figure BDA0003605988370000086
表示中文自然语言描述句子y′的梯度;式(5)中,
Figure BDA0003605988370000087
表示英文自然语言描述句子z′的梯度;θ表示学习参数,R表示CIDEr函数,b表示基础分数,N表示采样总数,In表示图像集I中采样的第n个图像,y′n表示In的中文自然语言描述句子,z′n表示In的英文自然语言描述句子;
设置第二阶段最大迭代次数epoch_number2=15,利用self-critical进一步进行微调,当迭代次数达到epoch_number2时,停止训练。
步骤5.3、以最佳图像-多语言字幕模型实现对输入的任意图像输出其对应的中、英文语言字幕。
综上所述,本方法更适用于在实际资源有限的环境中,比如移动设备,若采用为每一种语言设计一个独立模型,存储多个大型神经网络模型来支持多种语言是不切实际的。但通过单一模型支持多种语言,节省了储存空间以及对计算机资源的占用,提高了模型效率,更有利于实际运用时的部署与维护。

Claims (1)

1.一种基于交互式Transformer的图像-多语言字幕转换方法,其特征是,按如下步骤进行:
步骤1、构建图像-多语言字幕数据集D={I,Y,Z};其中,I表示图像集,Y表示由所述图像集I中每张图像所对应的若干个中文描述语句构成的中文字幕集合;Z表示由所述图像集I中每张图像所对应的若干个英文描述语句构成的英文字幕集合;
步骤2、获取图像的VinVL特征表示;
采用VinVL模型对图像集I中的图像i进行处理,得到图像i的VinVL特征表示xi
步骤3、获取文本的特征表示;
步骤3.1、基于中文字幕集合Y和英文字幕集合Z构建包含M1个词汇量的中文字典以及M2个词汇量的英文字典;
步骤3.2、计算中文字幕集合Y中每个中文描述语句的文本特征表示,令图像i所对应的任意一个中文描述语句yi的中文文本特征表示记为
Figure FDA0003605988360000011
其中,
Figure FDA0003605988360000012
表示中文描述语句yi中的第k个中文词向量;K表示词向量总数;
计算英文描述语句集合Z中每个英文描述语句的文本特征表示,令图像i所对应的任意一个英文描述语句zi的英文文本特征表示记为
Figure FDA0003605988360000013
其中,
Figure FDA0003605988360000014
表示英文描述语句zi中的第k个英文词向量;
步骤4、构建图像-多语言字幕模型,包括:编码器、解码器和生成器;
步骤4.1、所述编码器由L1个相同的编码模块依次连接而成,每个编码模块均由多头自注意网络和全连接前馈网络组成,且每个编码模块后均连接有残差操作层和正则化操作层;
所述图像i的VinVL特征表示xi输入所述编码器中,并经过依次经过L1个编码模块的处理后输出图像i的上下文区域特征
Figure FDA0003605988360000015
步骤4.2、所述解码器由L2个相同的解码模块依次连接而成,且每个解码模块均由交互模块、关系模块和前馈网络组成;所述交互模块由一个自注意模块、一个关系注意模块和一个融合模块组成;
步骤4.2.1、使用位置编码表示序列的顺序;
对第k个中文词向量
Figure FDA0003605988360000016
和第k个英文词向量
Figure FDA0003605988360000017
进行位置编码,分别得到第k个中文嵌入特征
Figure FDA0003605988360000018
和第k个英文嵌入特征
Figure FDA0003605988360000019
从而得到图像i所对应的任意一个中文描述语句的中文嵌入特征向量
Figure FDA0003605988360000021
和图像i所对应的任意一个英文描述语句的英文嵌入特征向量
Figure FDA0003605988360000022
步骤4.2.2、将中文嵌入特征向量
Figure FDA0003605988360000023
和英文嵌入特征向量
Figure FDA0003605988360000024
拼接为向量
Figure FDA0003605988360000025
后输入第一个解码模块中的交互模块进行交互学习,分别由自注意模块输出中文的内部表示Hi cn-cn和英文的内部表示Hi en-en、由关系注意模块输出中-英的交互表示Hi cn-en和英-中的交互表示的Hi en-cn,再将中文的内部表示Hi cn-cn、英文的内部表示Hi en-en和中-英的交互表示Hi cn-en、英-中的交互表示Hi en-cn输入融合模块中,并利用式(1)和式(2)的融合函数进行融合,从而得到图像i所对应的任意一个中、英文描述语句的高级表示Hi cn、Hi en
Hi en=Hi en-en1×relu(Hi en-cn) (1)
Hi cn=Hi cn-cn2×relu(Hi cn-en) (2)
式(1)和式(2)中,λ1,λ2表示两个控制参数;relu表示激活函数;
步骤4.2.3、由中、英文描述语句的高级表示Hi cn、Hi en拼接为高级表示[Hi cn,Hi en],并将图像i的上下文区域特征
Figure FDA0003605988360000026
一起输入关系模块中,并由关系模块输出图像i及其对应的中英文描述语句的关系注意特征Ii-YiZi
步骤4.2.4、将关系注意特征Ii-YiZi输入前馈神经网络,并输出解码特征Decoderi,1
步骤4.2.5、将第一个解码模块输出解码特征Decoderi,1作为下一个解码模块的输入,并依次经过L2个解码模块的处理后,由第L2个解码模块的前馈神经网络输出最终的解码特征Decoderi,L2
步骤4.3、生成对图像i的中、英文自然语言描述句子:
步骤4.3.1、将最终的解码特征Decoderi,L2中包含的图像i的中、英文语言描述的预测信息按维度拆为中文预测信息cn-Decoderi,L2和英文预测信息en-Decoderi,L2
将所述中文预测信息cn-Decoderi,L2输入中文句子生成器,生成中文描述句子的预测特征cni
将所述英文预测信息en-Decoderi,L2输入英文句子生成器,生成英文描述句子的预测特征eni
步骤4.3.2、在中、英字典中查找中、英文描述句子的预测特征cni,eni所对应的单词,从而生成中、英文自然语言描述句子yi′,zi′;
步骤5、优化图像-多语言字幕模型:
步骤5.1、在第一训练阶段时,基于所述图像-多语言字幕数据集D,通过最小化如式(1)所示的交叉熵损失loss来优化图像-多语言字幕模型:
Figure FDA0003605988360000031
式(3)中,θ表示学习参数;
步骤5.2、在第二训练阶段时,基于式(6)所示的总梯度
Figure FDA0003605988360000032
利用self-critical训练方法对优化后的图像-多语言字幕模型进行微调,从而得到最佳图像-多语言字幕模型:
Figure FDA0003605988360000033
Figure FDA0003605988360000034
Figure FDA0003605988360000035
式(4)~式(6)中,
Figure FDA0003605988360000036
表示中文自然语言描述句子y′的梯度;
Figure FDA0003605988360000037
表示英文自然语言描述句子z′的梯度;θ表示学习参数,R表示CIDEr函数,b表示基础分数,N表示采样总数,yi′表示图像i的中文自然语言描述句子,z′n表示In的英文自然语言描述句子;
步骤5.3、以最佳图像-多语言字幕模型实现对输入的任意图像输出其对应的中、英文语言字幕。
CN202210418758.1A 2022-04-20 2022-04-20 基于交互式Transformer的图像-多语言字幕转换方法 Active CN114707523B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210418758.1A CN114707523B (zh) 2022-04-20 2022-04-20 基于交互式Transformer的图像-多语言字幕转换方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210418758.1A CN114707523B (zh) 2022-04-20 2022-04-20 基于交互式Transformer的图像-多语言字幕转换方法

Publications (2)

Publication Number Publication Date
CN114707523A true CN114707523A (zh) 2022-07-05
CN114707523B CN114707523B (zh) 2024-03-08

Family

ID=82175889

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210418758.1A Active CN114707523B (zh) 2022-04-20 2022-04-20 基于交互式Transformer的图像-多语言字幕转换方法

Country Status (1)

Country Link
CN (1) CN114707523B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116612365A (zh) * 2023-06-09 2023-08-18 匀熵智能科技(无锡)有限公司 基于目标检测和自然语言处理的图像字幕生成方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200097554A1 (en) * 2018-09-26 2020-03-26 Huawei Technologies Co., Ltd. Systems and methods for multilingual text generation field
CN112560454A (zh) * 2020-12-22 2021-03-26 广东工业大学 双语图像字幕生成方法、系统、储存介质及计算机设备
WO2021223323A1 (zh) * 2020-05-06 2021-11-11 首都师范大学 一种中文视觉词汇表构建的图像内容自动描述方法
CN113792112A (zh) * 2020-07-31 2021-12-14 北京京东尚科信息技术有限公司 视觉语言任务处理系统、训练方法、装置、设备及介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200097554A1 (en) * 2018-09-26 2020-03-26 Huawei Technologies Co., Ltd. Systems and methods for multilingual text generation field
WO2021223323A1 (zh) * 2020-05-06 2021-11-11 首都师范大学 一种中文视觉词汇表构建的图像内容自动描述方法
CN113792112A (zh) * 2020-07-31 2021-12-14 北京京东尚科信息技术有限公司 视觉语言任务处理系统、训练方法、装置、设备及介质
CN112560454A (zh) * 2020-12-22 2021-03-26 广东工业大学 双语图像字幕生成方法、系统、储存介质及计算机设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
徐菲菲;冯东升;: "文本词向量与预训练语言模型研究", 上海电力大学学报, no. 04, 15 August 2020 (2020-08-15) *
陈兴;: "基于多模态神经网络生成图像中文描述", 计算机系统应用, no. 09, 15 September 2020 (2020-09-15) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116612365A (zh) * 2023-06-09 2023-08-18 匀熵智能科技(无锡)有限公司 基于目标检测和自然语言处理的图像字幕生成方法
CN116612365B (zh) * 2023-06-09 2024-01-23 匀熵智能科技(无锡)有限公司 基于目标检测和自然语言处理的图像字幕生成方法

Also Published As

Publication number Publication date
CN114707523B (zh) 2024-03-08

Similar Documents

Publication Publication Date Title
CN110765966B (zh) 一种面向手写文字的一阶段自动识别与翻译方法
CN110334361B (zh) 一种面向小语种语言的神经机器翻译方法
CN111145728B (zh) 语音识别模型训练方法、系统、移动终端及存储介质
CN107705784B (zh) 文本正则化模型训练方法和装置、文本正则化方法和装置
CN110069790B (zh) 一种通过译文回译对照原文的机器翻译系统及方法
CN111858932A (zh) 基于Transformer的多重特征中英文情感分类方法及系统
CN112069199B (zh) 一种基于中间语法树的多轮自然语言转sql方法
CN110457661B (zh) 自然语言生成方法、装置、设备及存储介质
CN110516244B (zh) 一种基于bert的句子自动填充方法
CN112989796A (zh) 一种基于句法指导的文本命名实体信息识别方法
CN110929476B (zh) 一种基于混合粒度注意力机制的任务型多轮对话模型构建方法
CN112364639B (zh) 基于预训练语言模型的上下文敏感的释义生成方法及系统
CN115906815B (zh) 一种用于修改一种或多种类型错误句子的纠错方法及装置
CN115831102A (zh) 基于预训练特征表示的语音识别方法、装置及电子设备
CN114972848A (zh) 基于细粒度视觉信息控制网络的图像语义理解及文本生成
CN114707523A (zh) 基于交互式Transformer的图像-多语言字幕转换方法
CN112967720B (zh) 少量重口音数据下的端到端语音转文本模型优化方法
CN113870835A (zh) 基于人工智能的语音合成方法、装置、设备及存储介质
CN117195922A (zh) 一种人在回路的神经机器翻译方法、系统及可读存储介质
CN112464673B (zh) 融合义原信息的语言含义理解方法
CN114254657B (zh) 一种翻译方法及其相关设备
CN115374784A (zh) 一种多模态信息选择性融合的中文命名实体识别方法
CN115171647A (zh) 一种具有自然停顿处理的语音合成方法、装置、电子设备及计算机可读介质
CN114372140A (zh) 分层会议摘要生成模型训练方法、生成方法及装置
CN114625759A (zh) 模型训练方法、智能问答方法、设备、介质及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant