CN114707523A - 基于交互式Transformer的图像-多语言字幕转换方法 - Google Patents
基于交互式Transformer的图像-多语言字幕转换方法 Download PDFInfo
- Publication number
- CN114707523A CN114707523A CN202210418758.1A CN202210418758A CN114707523A CN 114707523 A CN114707523 A CN 114707523A CN 202210418758 A CN202210418758 A CN 202210418758A CN 114707523 A CN114707523 A CN 114707523A
- Authority
- CN
- China
- Prior art keywords
- image
- chinese
- english
- module
- representation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000002452 interceptive effect Effects 0.000 title claims abstract description 24
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 17
- 238000012549 training Methods 0.000 claims abstract description 19
- 239000013598 vector Substances 0.000 claims description 30
- 230000003993 interaction Effects 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 11
- 230000004927 fusion Effects 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 7
- 239000000126 substance Substances 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 3
- 235000019987 cider Nutrition 0.000 claims description 3
- 230000000007 visual effect Effects 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 4
- 238000012423 maintenance Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000011478 gradient descent method Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 239000011541 reaction mixture Substances 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种基于交互式Transformer的图像‑多语言字幕转换方法,其步骤包括:1.构建图像‑多语言字幕数据集,2.获取图像的VinVL特征表示,3.获取文本的特征表示,4.采用图像特征与文本特征训练图像‑多语言字幕模型,5.利用训练好的图像‑多语言字幕模型,实现对图像的多种语言描述。本发明的文本信息涉及中英文两种语言,能够综合利用文本与视觉信息,实现图像到多语言字幕的转换,从而支持多种语言的高效转换。
Description
技术领域
本发明属于人工智能领域,具体的说是一种基于交互式Transformer的图像-多语言字幕转换方法。
背景技术
近年来,图像-字幕转换技术在图像索引、智能教育以及(盲人)视觉辅助等方面有着广泛的应用。但是目前大多数图像-字幕转换工作都是针对单一语言的,尤其是英语,而忽略了世界上有大量的非英语母语人群。图像-字幕转换技术的好处也应该带给这些用户,因此图像-字幕转换技术需要支持多种语言。
目前一些工作通过为每一种语言设计一个独立的模型,然后组合多个模型达到支持多语言的目的,但是这种方法将导致整体参数随着支持语言数量的增加而线性增加,不利于实际部署和维护。Tsutsui等人2017年发表的《Using Artificial Tokens to ControlLanguages for Multilingual Image Caption Generation》开创性地提出使用了卷积神经网络作为编码器和循环神经网络作为解码器,通过变换人工标记训练模型,使得单一模型可以产生对图像的两种语言描述。但是,该模型中两种语言描述不能同时产生,并且循环神经网络作为骨干网络,模型不能并行训练,存在长期依赖问题。如何设计一个单一紧凑的模型使其能够同时生成对图像的多种语言描述仍是亟待解决的问题。
发明内容
本发明是为了解决上述现有技术存在的不足之处,提出一种基于交互式Transformer的图像-多语言字幕转换方法,以期能通过单一的模型同时生成对图像的多种语言描述,从而支持多种语言的高效转换。
本发明为达到上述发明目的,采用如下技术方案:
本发明一种基于交互式Transformer的图像-多语言字幕转换方法的特点是按如下步骤进行:
步骤1、构建图像-多语言字幕数据集D={I,Y,Z};其中,I表示图像集,Y表示由所述图像集I中每张图像所对应的若干个中文描述语句构成的中文字幕集合;Z表示由所述图像集I中每张图像所对应的若干个英文描述语句构成的英文字幕集合;
步骤2、获取图像的VinVL特征表示;
采用VinVL模型对图像集I中的图像i进行处理,得到图像i的VinVL特征表示xi;
步骤3、获取文本的特征表示;
步骤3.1、基于中文字幕集合Y和英文字幕集合Z构建包含M1个词汇量的中文字典以及M2个词汇量的英文字典;
步骤4、构建图像-多语言字幕模型,包括:编码器、解码器和生成器;
步骤4.1、所述编码器由L1个相同的编码模块依次连接而成,每个编码模块均由多头自注意网络和全连接前馈网络组成,且每个编码模块后均连接有残差操作层和正则化操作层;
步骤4.2、所述解码器由L2个相同的解码模块依次连接而成,且每个解码模块均由交互模块、关系模块和前馈网络组成;所述交互模块由一个自注意模块、一个关系注意模块和一个融合模块组成;
步骤4.2.1、使用位置编码表示序列的顺序;
对第k个中文词向量和第k个英文词向量进行位置编码,分别得到第k个中文嵌入特征和第k个英文嵌入特征从而得到图像i所对应的任意一个中文描述语句的中文嵌入特征向量和图像i所对应的任意一个英文描述语句的英文嵌入特征向量
步骤4.2.2、将中文嵌入特征向量和英文嵌入特征向量拼接为向量后输入第一个解码模块中的交互模块进行交互学习,分别由自注意模块输出中文的内部表示Hi cn-cn和英文的内部表示Hi en-en、由关系注意模块输出中-英的交互表示Hi cn-en和英-中的交互表示的Hi en-cn,再将中文的内部表示Hi cn-cn、英文的内部表示Hi en-en和中-英的交互表示Hi cn-en、英-中的交互表示Hi en-cn输入融合模块中,并利用式(1)和式(2)的融合函数进行融合,从而得到图像i所对应的任意一个中、英文描述语句的高级表示Hi cn、Hi en:
Hi en=Hi en-en+λ1×relu(Hi en-cn) (1)
Hi cn=Hi cn-cn+λ2×relu(Hi cn-en) (2)
式(1)和式(2)中,λ1,λ2表示两个控制参数;relu表示激活函数;
步骤4.2.3、由中、英文描述语句的高级表示Hi cn、Hi en拼接为高级表示[Hi cn,Hi en],并将图像i的上下文区域特征一起输入关系模块中,并由关系模块输出图像i及其对应的中英文描述语句的关系注意特征Ii-YiZi;
步骤4.2.4、将关系注意特征Ii-YiZi输入前馈神经网络,并输出解码特征Decoderi,1;
步骤4.2.5、将第一个解码模块输出解码特征Decoderi,1作为下一个解码模块的输入,并依次经过L2个解码模块的处理后,由第L2个解码模块的前馈神经网络输出最终的解码特征Decoderi,L2;
步骤4.3、生成对图像i的中、英文自然语言描述句子:
步骤4.3.1、将最终的解码特征Decoderi,L2中包含的图像i的中、英文语言描述的预测信息按维度拆为中文预测信息cn-Decoderi,L2和英文预测信息en-Decoderi,L2;
将所述中文预测信息cn-Decoderi,L2输入中文句子生成器,生成中文描述句子的预测特征cni;
将所述英文预测信息en-Decoderi,L2输入英文句子生成器,生成英文描述句子的预测特征eni;
步骤4.3.2、在中、英字典中查找中、英文描述句子的预测特征cni,eni所对应的单词,从而生成中、英文自然语言描述句子y′i,z′i;
步骤5、优化图像-多语言字幕模型:
步骤5.1、在第一训练阶段时,基于所述图像-多语言字幕数据集D,通过最小化如式(1)所示的交叉熵损失loss来优化图像-多语言字幕模型:
式(3)中,θ表示学习参数;
式(4)~式(6)中,表示中文自然语言描述句子y′的梯度;表示英文自然语言描述句子z′的梯度;θ表示学习参数,R表示CIDEr函数,b表示基础分数,N表示采样总数,y′i表示图像i的中文自然语言描述句子,z′n表示In的英文自然语言描述句子;
步骤5.3、以最佳图像-多语言字幕模型实现对输入的任意图像输出其对应的中、英文语言字幕。
与现有技术相比,本发明的有益效果在于:
1、本发明通过一个基于交互式Transformer的图像-多语言字幕转换方法,克服了现有技术中无法使用单一模型同时生成对图像的多种语言描述问题,节省了储存空间以及对计算机资源的占用,更有利于实际运用时的部署与维护。
2、本发明通过使用Transformerr作为骨干网,在训练期间整体处理一个句子,采用位置编码表示序列的顺序,使得模型能够并行训练,解决了长期依赖的问题,加快了语言转换速度。
3、本发明通过交互模块,使多种目标语言之间相互学习、补充,获得更丰富的信息,提高了文本特征的有效性,提升了生成描述的准确性。
4、本发明通过对支持的多种语言采用共享编码器网络参数和解码器骨干网络参数,减少了需要存储的参数总数,节省了储存空间以及对计算机资源的占用。
5、本发明通过self-critical强化训练,促进对模型的进一步微调,使得模型生成的描述结果更准确、更丰富多样。
附图说明
图1为本发明图像-多语言字幕模型的框架图;
图2为本发明自注意模块图。
图3为本发明关系注意模块图。
图4为本发明交互模块图。
图5为本发明图像-多语言字幕模型训练流程图。
具体实施方式
本实施例中,一种基于交互式Transformer的图像-多语言字幕转换方法,是利用Transformer模型,并综合考虑图像与文本特征,使用交互模块促进不同目标语言之间相互学习,提高模型生成描述的准确性,通过共享编码器网络参数和解码器骨干网络参数,减少了需要存储的模型参数总数,提升模型参数效率,最后通过self-critical强化训练,促进模型进一步微调,获得更准确、丰富多样的描述结果。如图1所示,模型的输入包括图像和文本信息,将图像传输到VinVL模块,得到图像的VinVL特征,将图像的VinVL特征输入编码器,经过L1个依次连接的编码模块,输出图像的上下文区域特征;将中、英文文本信息转换为文本特征,对文本特征进行位置编码;将位置编码后的文本特征与图像的上下文区域特征输入解码器,经过L2个依次连接的解码模块,输出解码特征;然后将解码特征输入中、英文句子生成器,生成中英文句子描述。具体的说,是按如下步骤进行:
步骤1、构建图像-多语言字幕数据集D={I,Y,Z};其中,I表示图像集,Y表示由图像集I中每张图像所对应的若干个中文描述语句构成的中文字幕集合;Z表示由图像集I中每张图像所对应的若干个英文描述语句构成的英文字幕集合;本实施例中,使用的是MSCOCO数据集,该数据集包含丰富的图像资源,并且每张图像有5个英文描述。在此基础上,使用百度API对英文描述进行翻译,得到5个对应的中文描述,由此组成新的双语数据集,命名为COCO-EN-CN。
步骤2、获取图像的VinVL特征表示;
采用VinVL模型对图像集I中的图像i进行处理,得到图像i的VinVL特征表示xi;
步骤3、获取文本的特征表示;
步骤3.1、基于中文字幕集合Y和英文字幕集合Z,通过对文本数据进行分词、删除词频过低的单词,英文中将出现次数少于5次的单词舍去,中文中将出现次数少于10次的单词舍去,其余单词组成字典,构建包含M1个词汇量的中文字典以及M2个词汇量的英文字典;本实施例中,M1=9532,M2=9487。
步骤3.2、计算中文字幕集合Y中每个中文描述语句的文本特征表示,令图像i所对应的任意一个中文描述语句yi的中文文本特征表示记为其中,表示中文描述语句yi中的第k个中文词向量;K表示词向量总数,本实施例中,K=20;
步骤4、构建图像-多语言字幕模型,包括:编码器、解码器和生成器;
步骤4.1、编码器由L1个相同的编码模块依次连接而成,每个编码模块均由多头自注意网络和全连接前馈网络组成,且每个编码模块后均连接有残差操作层和正则化操作层,本实施例中,L1=6;
1、步骤4.2、解码器由L2个相同的解码模块依次连接而成,本实施例中,L2=1,且每个解码模块均由交互模块、关系模块和前馈网络组成;交互模块,如图4所示,由一个自注意模块(如图2所示)、一个关系注意模块(如图3所示)和一个融合模块组成,通过交互模块,使多种目标语言之间相互学习、补充,获得更丰富的信息,提高生成描述的准确性;两种语言共享编码器网络和解码器骨干网络,减少了需要存储的模型参数总数,提升模型参数效率,节省了计算资源。
步骤4.2.1、使用位置编码表示序列的顺序;
对第k个中文词向量和第k个英文词向量进行位置编码,分别得到第k个中文嵌入特征和第k个英文嵌入特征从而得到图像i所对应的任意一个中文描述语句的中文嵌入特征向量和图像i所对应的任意一个英文描述语句的英文嵌入特征向量
步骤4.2.2、将中文嵌入特征向量和英文嵌入特征向量拼接为向量后输入第一个解码模块中的交互模块进行交互学习。分别由自注意模块输出中文的内部表示Hi cn-cn和英文的内部表示Hi en-en、由关系注意模块输出中-英的交互表示Hi cn-en和英-中的交互表示的Hi en-cn,再将中文的内部表示Hi cn-cn、英文的内部表示Hi en-en和中-英的交互表示Hi cn-en、英-中的交互表示Hi en-cn输入融合模块中,并利用式(1)和式(2)的融合函数进行融合,从而得到图像i所对应的任意一个中、英文描述语句的高级表示Hi cn、Hi en:
Hi en=Hi en-en+λ1×relu(Hi en-cn) (1)
Hi cn=Hi cn-cn+λ2×relu(Hi cn-en) (2)
式(1)和式(2)中,λ1,λ2表示两个控制参数,本实施例中,λ1=λ2=0.1;relu表示激活函数;
步骤4.2.3、由中、英文描述语句的高级表示Hi cn、Hi en拼接为高级表示[Hi cn,Hi en],并将图像i的上下文区域特征一起输入关系模块中,并由关系模块输出图像i及其对应的中英文描述语句的关系注意特征Ii-YiZi;
步骤4.2.4、将关系注意特征Ii-YiZi输入前馈神经网络,并输出解码特征Decoderi,1;
步骤4.2.5、将第一个解码模块输出解码特征Decoderi,1作为下一个解码模块的输入,并依次经过L2个解码模块的处理后,由第L2个解码模块的前馈神经网络输出最终的解码特征Decoderi,L2;
步骤4.3、生成对图像i的中、英文自然语言描述句子:
步骤4.3.1、将最终的解码特征Decoderi,L2中包含的图像i的中、英文语言描述的预测信息按维度拆为中文预测信息cn-Decoderi,L2和英文预测信息en-Decoderi,L2;
将中文预测信息cn-Decoderi,L2输入中文句子生成器,生成中文描述句子的预测特征cni;
将英文预测信息en-Decoderi,L2输入英文句子生成器,生成英文描述句子的预测特征eni;
步骤4.3.2、在中、英字典中查找中、英文描述句子的预测特征cni,eni所对应的单词,从而生成中、英文自然语言描述句子y′i,z′i;
步骤5、优化图像-多语言字幕模型,图像-多语言字幕模型训练流程如图5所示:
步骤5.1、在第一训练阶段时,基于图像-多语言字幕数据集D,通过最小化如式(1)所示的交叉熵损失loss来优化图像-多语言字幕模型:
式(3)中,θ表示学习参数;
设置第一阶段最大迭代次数epoch_number1=15,利用反向传播和梯度下降法对目标函数loss进行训练,本实施例中,梯度下降法采用学习率,指数衰减率的Adam优化算法,当迭代次数达到epoch_number1时,停止训练,使得目标函数loss达到最小。
式(4)中,表示中文自然语言描述句子y′的梯度;式(5)中,表示英文自然语言描述句子z′的梯度;θ表示学习参数,R表示CIDEr函数,b表示基础分数,N表示采样总数,In表示图像集I中采样的第n个图像,y′n表示In的中文自然语言描述句子,z′n表示In的英文自然语言描述句子;
设置第二阶段最大迭代次数epoch_number2=15,利用self-critical进一步进行微调,当迭代次数达到epoch_number2时,停止训练。
步骤5.3、以最佳图像-多语言字幕模型实现对输入的任意图像输出其对应的中、英文语言字幕。
综上所述,本方法更适用于在实际资源有限的环境中,比如移动设备,若采用为每一种语言设计一个独立模型,存储多个大型神经网络模型来支持多种语言是不切实际的。但通过单一模型支持多种语言,节省了储存空间以及对计算机资源的占用,提高了模型效率,更有利于实际运用时的部署与维护。
Claims (1)
1.一种基于交互式Transformer的图像-多语言字幕转换方法,其特征是,按如下步骤进行:
步骤1、构建图像-多语言字幕数据集D={I,Y,Z};其中,I表示图像集,Y表示由所述图像集I中每张图像所对应的若干个中文描述语句构成的中文字幕集合;Z表示由所述图像集I中每张图像所对应的若干个英文描述语句构成的英文字幕集合;
步骤2、获取图像的VinVL特征表示;
采用VinVL模型对图像集I中的图像i进行处理,得到图像i的VinVL特征表示xi;
步骤3、获取文本的特征表示;
步骤3.1、基于中文字幕集合Y和英文字幕集合Z构建包含M1个词汇量的中文字典以及M2个词汇量的英文字典;
步骤4、构建图像-多语言字幕模型,包括:编码器、解码器和生成器;
步骤4.1、所述编码器由L1个相同的编码模块依次连接而成,每个编码模块均由多头自注意网络和全连接前馈网络组成,且每个编码模块后均连接有残差操作层和正则化操作层;
步骤4.2、所述解码器由L2个相同的解码模块依次连接而成,且每个解码模块均由交互模块、关系模块和前馈网络组成;所述交互模块由一个自注意模块、一个关系注意模块和一个融合模块组成;
步骤4.2.1、使用位置编码表示序列的顺序;
对第k个中文词向量和第k个英文词向量进行位置编码,分别得到第k个中文嵌入特征和第k个英文嵌入特征从而得到图像i所对应的任意一个中文描述语句的中文嵌入特征向量和图像i所对应的任意一个英文描述语句的英文嵌入特征向量
步骤4.2.2、将中文嵌入特征向量和英文嵌入特征向量拼接为向量后输入第一个解码模块中的交互模块进行交互学习,分别由自注意模块输出中文的内部表示Hi cn-cn和英文的内部表示Hi en-en、由关系注意模块输出中-英的交互表示Hi cn-en和英-中的交互表示的Hi en-cn,再将中文的内部表示Hi cn-cn、英文的内部表示Hi en-en和中-英的交互表示Hi cn-en、英-中的交互表示Hi en-cn输入融合模块中,并利用式(1)和式(2)的融合函数进行融合,从而得到图像i所对应的任意一个中、英文描述语句的高级表示Hi cn、Hi en:
Hi en=Hi en-en+λ1×relu(Hi en-cn) (1)
Hi cn=Hi cn-cn+λ2×relu(Hi cn-en) (2)
式(1)和式(2)中,λ1,λ2表示两个控制参数;relu表示激活函数;
步骤4.2.3、由中、英文描述语句的高级表示Hi cn、Hi en拼接为高级表示[Hi cn,Hi en],并将图像i的上下文区域特征一起输入关系模块中,并由关系模块输出图像i及其对应的中英文描述语句的关系注意特征Ii-YiZi;
步骤4.2.4、将关系注意特征Ii-YiZi输入前馈神经网络,并输出解码特征Decoderi,1;
步骤4.2.5、将第一个解码模块输出解码特征Decoderi,1作为下一个解码模块的输入,并依次经过L2个解码模块的处理后,由第L2个解码模块的前馈神经网络输出最终的解码特征Decoderi,L2;
步骤4.3、生成对图像i的中、英文自然语言描述句子:
步骤4.3.1、将最终的解码特征Decoderi,L2中包含的图像i的中、英文语言描述的预测信息按维度拆为中文预测信息cn-Decoderi,L2和英文预测信息en-Decoderi,L2;
将所述中文预测信息cn-Decoderi,L2输入中文句子生成器,生成中文描述句子的预测特征cni;
将所述英文预测信息en-Decoderi,L2输入英文句子生成器,生成英文描述句子的预测特征eni;
步骤4.3.2、在中、英字典中查找中、英文描述句子的预测特征cni,eni所对应的单词,从而生成中、英文自然语言描述句子yi′,zi′;
步骤5、优化图像-多语言字幕模型:
步骤5.1、在第一训练阶段时,基于所述图像-多语言字幕数据集D,通过最小化如式(1)所示的交叉熵损失loss来优化图像-多语言字幕模型:
式(3)中,θ表示学习参数;
式(4)~式(6)中,表示中文自然语言描述句子y′的梯度;表示英文自然语言描述句子z′的梯度;θ表示学习参数,R表示CIDEr函数,b表示基础分数,N表示采样总数,yi′表示图像i的中文自然语言描述句子,z′n表示In的英文自然语言描述句子;
步骤5.3、以最佳图像-多语言字幕模型实现对输入的任意图像输出其对应的中、英文语言字幕。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210418758.1A CN114707523B (zh) | 2022-04-20 | 2022-04-20 | 基于交互式Transformer的图像-多语言字幕转换方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210418758.1A CN114707523B (zh) | 2022-04-20 | 2022-04-20 | 基于交互式Transformer的图像-多语言字幕转换方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114707523A true CN114707523A (zh) | 2022-07-05 |
CN114707523B CN114707523B (zh) | 2024-03-08 |
Family
ID=82175889
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210418758.1A Active CN114707523B (zh) | 2022-04-20 | 2022-04-20 | 基于交互式Transformer的图像-多语言字幕转换方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114707523B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116612365A (zh) * | 2023-06-09 | 2023-08-18 | 匀熵智能科技(无锡)有限公司 | 基于目标检测和自然语言处理的图像字幕生成方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200097554A1 (en) * | 2018-09-26 | 2020-03-26 | Huawei Technologies Co., Ltd. | Systems and methods for multilingual text generation field |
CN112560454A (zh) * | 2020-12-22 | 2021-03-26 | 广东工业大学 | 双语图像字幕生成方法、系统、储存介质及计算机设备 |
WO2021223323A1 (zh) * | 2020-05-06 | 2021-11-11 | 首都师范大学 | 一种中文视觉词汇表构建的图像内容自动描述方法 |
CN113792112A (zh) * | 2020-07-31 | 2021-12-14 | 北京京东尚科信息技术有限公司 | 视觉语言任务处理系统、训练方法、装置、设备及介质 |
-
2022
- 2022-04-20 CN CN202210418758.1A patent/CN114707523B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200097554A1 (en) * | 2018-09-26 | 2020-03-26 | Huawei Technologies Co., Ltd. | Systems and methods for multilingual text generation field |
WO2021223323A1 (zh) * | 2020-05-06 | 2021-11-11 | 首都师范大学 | 一种中文视觉词汇表构建的图像内容自动描述方法 |
CN113792112A (zh) * | 2020-07-31 | 2021-12-14 | 北京京东尚科信息技术有限公司 | 视觉语言任务处理系统、训练方法、装置、设备及介质 |
CN112560454A (zh) * | 2020-12-22 | 2021-03-26 | 广东工业大学 | 双语图像字幕生成方法、系统、储存介质及计算机设备 |
Non-Patent Citations (2)
Title |
---|
徐菲菲;冯东升;: "文本词向量与预训练语言模型研究", 上海电力大学学报, no. 04, 15 August 2020 (2020-08-15) * |
陈兴;: "基于多模态神经网络生成图像中文描述", 计算机系统应用, no. 09, 15 September 2020 (2020-09-15) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116612365A (zh) * | 2023-06-09 | 2023-08-18 | 匀熵智能科技(无锡)有限公司 | 基于目标检测和自然语言处理的图像字幕生成方法 |
CN116612365B (zh) * | 2023-06-09 | 2024-01-23 | 匀熵智能科技(无锡)有限公司 | 基于目标检测和自然语言处理的图像字幕生成方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114707523B (zh) | 2024-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110765966B (zh) | 一种面向手写文字的一阶段自动识别与翻译方法 | |
CN110334361B (zh) | 一种面向小语种语言的神经机器翻译方法 | |
CN111145728B (zh) | 语音识别模型训练方法、系统、移动终端及存储介质 | |
CN107705784B (zh) | 文本正则化模型训练方法和装置、文本正则化方法和装置 | |
CN110069790B (zh) | 一种通过译文回译对照原文的机器翻译系统及方法 | |
CN111858932A (zh) | 基于Transformer的多重特征中英文情感分类方法及系统 | |
CN112069199B (zh) | 一种基于中间语法树的多轮自然语言转sql方法 | |
CN110457661B (zh) | 自然语言生成方法、装置、设备及存储介质 | |
CN110516244B (zh) | 一种基于bert的句子自动填充方法 | |
CN112989796A (zh) | 一种基于句法指导的文本命名实体信息识别方法 | |
CN110929476B (zh) | 一种基于混合粒度注意力机制的任务型多轮对话模型构建方法 | |
CN112364639B (zh) | 基于预训练语言模型的上下文敏感的释义生成方法及系统 | |
CN115906815B (zh) | 一种用于修改一种或多种类型错误句子的纠错方法及装置 | |
CN115831102A (zh) | 基于预训练特征表示的语音识别方法、装置及电子设备 | |
CN114972848A (zh) | 基于细粒度视觉信息控制网络的图像语义理解及文本生成 | |
CN114707523A (zh) | 基于交互式Transformer的图像-多语言字幕转换方法 | |
CN112967720B (zh) | 少量重口音数据下的端到端语音转文本模型优化方法 | |
CN113870835A (zh) | 基于人工智能的语音合成方法、装置、设备及存储介质 | |
CN117195922A (zh) | 一种人在回路的神经机器翻译方法、系统及可读存储介质 | |
CN112464673B (zh) | 融合义原信息的语言含义理解方法 | |
CN114254657B (zh) | 一种翻译方法及其相关设备 | |
CN115374784A (zh) | 一种多模态信息选择性融合的中文命名实体识别方法 | |
CN115171647A (zh) | 一种具有自然停顿处理的语音合成方法、装置、电子设备及计算机可读介质 | |
CN114372140A (zh) | 分层会议摘要生成模型训练方法、生成方法及装置 | |
CN114625759A (zh) | 模型训练方法、智能问答方法、设备、介质及程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |