CN116168401A - 基于多模态码本的文本图像翻译模型的训练方法 - Google Patents

基于多模态码本的文本图像翻译模型的训练方法 Download PDF

Info

Publication number
CN116168401A
CN116168401A CN202310158612.2A CN202310158612A CN116168401A CN 116168401 A CN116168401 A CN 116168401A CN 202310158612 A CN202310158612 A CN 202310158612A CN 116168401 A CN116168401 A CN 116168401A
Authority
CN
China
Prior art keywords
text
image
training
encoder
codebook
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310158612.2A
Other languages
English (en)
Inventor
苏劲松
蓝志彬
余嘉炜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN202310158612.2A priority Critical patent/CN116168401A/zh
Publication of CN116168401A publication Critical patent/CN116168401A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries
    • G06V30/246Division of the character sequences into groups prior to recognition; Selection of dictionaries using linguistic properties, e.g. specific for English or German language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/1918Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)

Abstract

本申请提出了一种基于多模态码本的文本图像翻译模型的训练方法,包括采用所述训练样本集中的图像对应的语言文本和目标语言文本对所述文本编码器和所述文本解码器进行训练;采用所述训练样本集中的图像对应的语言文本对所述多模态码本进行训练;采用所述图像和所述图像对应的语言文本对所述图像编码器和所述多模态码本进行训练;采用所述图像、所述图像对应的语言文本、所述光学字符识别文本和所述目标语言文本对所述文本图像翻译模型进行微调,以得到训练好的文本图像翻译模型;由此,利用输入的图像联想相关文本,从而为翻译过程提供有效的补充信息,以便得到更好的翻译效果。

Description

基于多模态码本的文本图像翻译模型的训练方法
技术领域
本申请涉及自然语言处理技术领域,特别涉及一种基于多模态码本的文本图像翻译模型的训练方法和一种计算机设备。
背景技术
相关技术中,文本图像翻译旨在将嵌入在图像中的源文本翻译成目标译文;当前的文本图像翻译模型主要采用级联的方式进行翻译,即先使用光学字符识别模型对图像中的文本进行识别,然后将识别出的文本输入到翻译模型进行翻译;然而,这种级联的方式会存在错误传播的问题,其中,识别的文本可能会包含错误,导致后续的翻译错误;此外,文本图像翻译任务的数据量较少,导致模型的性能受限。
发明内容
本申请旨在至少在一定程度上解决上述技术中的技术问题之一。为此,本申请的一个目的在于提出一种基于多模态码本的文本图像翻译模型的训练方法,该模型包括多模态码本,利用输入的图像联想相关文本,从而为翻译过程提供有效的补充信息,以便得到更好的翻译效果。
本申请的第二个目的在于提出一种计算机设备。
为达到上述目的,本申请第一方面实施例提出了一种基于多模态码本的文本图像翻译模型的训练方法,该方法包括以下步骤:获取训练样本集,其中,所述训练样本集包括多个训练样本对,所述每个训练样本对包括图像、图像对应的语言文本、光学字符识别文本和目标语言文本;构建文本图像翻译模型,其中,所述文本图像翻译模型包括文本编码器、图像编码器、多模态码本和文本解码器;采用所述训练样本集对所述文本图像翻译模型进行训练,以得到训练好的文本图像翻译模型。
根据本申请实施例的基于多模态码本的文本图像翻译模型的训练方法,首先,获取训练样本集,其中,训练样本集包括多个训练样本对,每个训练样本对包括图像、图像对应的语言文本、光学字符识别文本和目标语言文本;构建文本图像翻译模型,其中,文本图像翻译模型包括文本编码器、图像编码器、多模态码本和文本解码器;采用训练样本集对文本图像翻译模型进行训练,以得到训练好的文本图像翻译模型;由此,利用输入的图像联想相关文本,从而为翻译过程提供有效的补充信息,以便得到更好的翻译效果。
另外,根据本申请上述实施例提出的基于多模态码本的文本图像翻译模型的训练方法还可以具有如下附加的技术特征:
可选地,采用所述训练样本集对所述文本图像翻译模型进行训练,以得到训练好的文本图像翻译模型,包括:采用所述训练样本集中的图像对应的语言文本和目标语言文本对所述文本编码器和所述文本解码器进行训练;采用所述训练样本集中的图像对应的语言文本对所述多模态码本进行训练;采用所述图像和所述图像对应的语言文本对所述图像编码器和所述多模态码本进行训练;采用所述图像、所述图像对应的语言文本、所述光学字符识别文本和所述目标语言文本对所述文本图像翻译模型进行微调,以得到训练好的文本图像翻译模型。
可选地,所述文本编码器基于Transformer编码器进行构建,堆叠了Le个相同层,每个层包括一个自注意力子层和一个前馈网络子层;所述图像编码器采用ViT构建,包括Lv个堆叠层,每个堆叠层包括一个自注意力子层和一个前馈网络子层,并在顶层增加了一个线性变换子层和交叉注意力子层以将视觉特征序列维度转换到与所述文本编码器隐状态序列维度一致;所述多模态码本包括K个码元,对所述文本编码器的隐状态序列和所述图像编码器的视觉特征序列进行量化;所述文本解码器基于Transformer解码器进行构建,具有Ld个相同层,包括自注意力子层、前馈网络子层和交叉注意力子层,以便根据所述文本编码器输出的隐状态序列和所述多模态码本输出的码元生成最终的目标语言文本。
可选地,采用如下公式对所述文本编码器的隐状态序列和所述图像编码器的视觉特征序列进行量化:
Figure BDA0004093410170000021
Figure BDA0004093410170000022
其中,ek表示第k个码元,
Figure BDA0004093410170000023
表示文本编码器第Le层输出的隐状态序列中的第i个隐状态,
Figure BDA0004093410170000024
表示图像编码器第Lv层输出的视觉特征序列中的第j个特征,ek′表示
Figure BDA0004093410170000025
映射到了多模态码本中第k′个码元的嵌入表示,ek″表示
Figure BDA0004093410170000026
映射到了多模态码本中第k″个码元的嵌入表示。
可选地,所述文本解码器在第t个解码时间步,生成下一个词元的概率分布定义如下:
Figure BDA0004093410170000027
其中,
Figure BDA0004093410170000028
表示第Ld层文本解码器输出的隐状态序列,v为输入的图像,
Figure BDA0004093410170000029
为输入的光学字符识别文本,y为目标语言文本,表示整个文本图像翻译模型参数,Wo和bo为可训练的模型参数。
可选地,采用以下训练目标对所述文本编码器和所述文本解码器进行训练:
Figure BDA0004093410170000031
其中,x为图像对应的语言文本,θte为文本编码器的参数,θtd为文本解码器的参数。
可选地,在采用所述图像和所述图像对应的语言文本对所述图像编码器和多模态码本进行训练时,采用指数移动平均法更新多模态码本,衰减因子决定过去值影响当前平均值的程度。
可选地,采用以下训练目标对所述图像编码器和所述多模态码本进行训练:
Figure BDA0004093410170000032
Figure BDA0004093410170000033
Figure BDA0004093410170000034
其中,sg表示梯度截断操作,θie是图像编码器中除了ViT模块的参数,
Figure BDA0004093410170000035
表示第Lv层图像编码器输出的视觉特征序列,
Figure BDA0004093410170000036
表示第Le层文本编码器输出的隐状态序列,
Figure BDA0004093410170000037
的计算方式为
Figure BDA0004093410170000038
Figure BDA0004093410170000039
的计算方式为
Figure BDA00040934101700000310
分别表示图像和文本的语义信息,通过
Figure BDA00040934101700000311
损失项,能够将图像和文本表示尽可能量化为相同的码元,使用承诺损失
Figure BDA00040934101700000312
确保文本编码器输出的隐状态和图像编码器输出的视觉特征与所选的码元嵌入表示保持接近,防止映射时从一个码元到另一个码元之间频繁波动,α是控制
Figure BDA00040934101700000313
损失效果的超参数。
可选地,如权利要求8所述的基于多模态码本的文本图像翻译模型的训练方法,其特征在于,采用以下训练目标优化整个文本图像翻译模型:
Figure BDA00040934101700000314
Figure BDA00040934101700000315
Figure BDA00040934101700000316
其中,
Figure BDA00040934101700000317
为文本编码器设计的承诺损失,β是量化其效果的超参数,
Figure BDA00040934101700000318
为文本图像翻译损失。
为达到上述目的,本申请第三方面实施例提出了一种计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上述的基于多模态码本的文本图像翻译模型的训练方法。
根据本申请实施例的计算机设备,通过存储器存储基于多模态码本的文本图像翻译模型的训练程序,这样基于多模态码本的文本图像翻译模型的训练程序被处理器执行时实现上述的基于多模态码本的文本图像翻译模型的训练方法,由此,文本图像翻译模型在生成翻译时,能够利用图像获取有效的补充信息,提高翻译质量。
附图说明
图1为根据本申请实施例的基于多模态码本的文本图像翻译模型的训练方法的流程示意图;
图2为根据本申请实施例的文本图像翻译模型的总体网络结构示意图;
图3为根据本申请实施例的总体训练框架示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
为了更好的理解上述技术方案,下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例,然而应当理解,可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本申请,并且能够将本申请的范围完整的传达给本领域的技术人员。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
图1为根据本申请实施例的基于多模态码本的文本图像翻译模型的训练方法的流程示意图,如图1所示,本申请实施例的基于多模态码本的文本图像翻译模型的训练方法包括以下步骤:
S101,获取训练样本集,其中,训练样本集包括多个训练样本对,每个训练样本对包括图像、图像对应的语言文本、光学字符识别文本和目标语言文本。
需要说明的是,图像上包括有待翻译语言文字,图像对应的语言文本即图像上的文字构成的文本,光学字符识别文本是采用OCR识别对图像上的文字进行识别后得到的文本,目标语言文本为根据图像对应的语言文本进行翻译后的文本。
S102,构建文本图像翻译模型,其中,文本图像翻译模型包括文本编码器、图像编码器、多模态码本和文本解码器。
也就是说,如图2所示,构建的文本图像翻译模型包括文本编码器、图像编码器、多模态码本和文本解码器四个模块。
作为一个实施例,文本编码器基于Transformer编码器进行构建,堆叠了Le个相同层,每个层包括一个自注意力子层和一个前馈网络子层;使用
Figure BDA0004093410170000051
表示第l层文本编码器输出的隐状态序列,其中Ne为隐状态序列的长度。
作为一个具体实施例,本申请采用6层的文本编码器结构。
作为一个实施例,图像编码器采用ViT构建,与Transformer编码器类似,ViT包括Lv个堆叠层,每个堆叠层包括一个自注意力子层和一个前馈网络子层,Transformer编码器和ViT之间的一个关键区别是层归一化的放置,其中,在ViT中采用了预归一化的方法;使用
Figure BDA0004093410170000052
表示第l层图像编码器输出的视觉特征序列,其中,Nv为视觉特征序列的长度。
作为一个具体实施例,本申请采用12层的图像编码器结构,并在顶层增加了一个线性变换子层和交叉注意力子层以将视觉特征序列维度转换到与文本编码器隐状态序列维度一致。
作为一个实施例,多模态码本包括K个码元,通过多模态码本能够对文本编码器的隐状态序列和图像编码器的视觉特征序列进行量化。
作为一个具体实施例,采用如下公式对文本编码器的隐状态序列和图像编码器的视觉特征序列进行量化:
Figure BDA0004093410170000053
Figure BDA0004093410170000054
其中,ek表示第k个码元,
Figure BDA0004093410170000055
表示文本编码器第Le层输出的隐状态序列中的第i个隐状态,
Figure BDA0004093410170000056
表示图像编码器第Lv层输出的视觉特征序列中的第j个特征,ek′表示
Figure BDA0004093410170000057
映射到了多模态码本中第k个码元的嵌入表示,ek″表示
Figure BDA0004093410170000058
映射到了多模态码本中第k″个码元的嵌入表示。
需要说明的是,通过上述方式文本和图像表示都被映射码元的共享语义空间中。
作为一个实施例,文本解码器基于Transformer解码器进行构建,具有Ld个相同层,包括自注意力子层、前馈网络子层和交叉注意力子层,以便根据文本编码器输出的隐状态序列和多模态码本输出的码元生成最终的目标语言文本。
作为一个具体实施例,使用
Figure BDA0004093410170000059
表示第l层文本解码器输出的隐状态序列,其中Nd为该隐状态序列的长度;在第t个解码时间步,生成下一个词元的概率分布定义如下:
Figure BDA0004093410170000061
其中,
Figure BDA0004093410170000062
表示在第t个解码时间步第Ld层文本解码器输出的隐状态序列,v为输入的图像,
Figure BDA0004093410170000063
为输入的光学字符识别文本,y为目标语言文本,表示整个文本图像翻译模型参数,Wo和bo为可训练的模型参数。
终上所述,本申请的文本图像翻译模型包括:(1)文本编码器,其将输入文本转换为状态序列;(2)图像编码器,其使用预训练模型进行初始化,将输入图像编码为视觉向量序列;(3)多模态码本,其用于输入图像表示,然后输出包含正确文本或相关文本信息的码元;(4)文本解码器,其利用文本编码器输出的隐藏状态和多模态码本输出的码元生成最终翻译;本申请的文本图像翻译模型可以利用输入图像通多模态码本预测与输入文本相关的码元,为后续翻译提供补充信息,缓解错误传播问题。
S103,采用训练样本集对文本图像翻译模型进行训练,以得到训练好的文本图像翻译模型。
作为一个实施例,采用训练样本集对所述文本图像翻译模型进行训练,以得到训练好的文本图像翻译模型,包括:采用训练样本集中的图像对应的语言文本和目标语言文本对文本编码器和文本解码器进行训练;采用训练样本集中的图像对应的语言文本对多模态码本进行训练;采用图像和图像对应的语言文本对图像编码器和多模态码本进行训练;采用图像、图像对应的语言文本、光学字符识别文本和目标语言文本对文本图像翻译模型进行微调,以得到训练好的文本图像翻译模型。
也就是说,如图3所示,文本图像翻译模型在训练过程中包括四个阶段。
其中,如图3(a)显示了本申请的第一个阶段,在该阶段以普通翻译的方式在大规模双语语料库上预训练文本编码器和文本解码器。形式上,对于每个平行句对(,y),本申请为这个阶段定义以下训练目标:
Figure BDA0004093410170000064
其中,x为图像对应的语言文本,θte为文本编码器的参数,θtd为文本解码器的参数。
另外,如图3(b)显示了本申请的第二个阶段,在该阶段利用单语数据预训练多模态码本,其中,单语数据采用第一阶段双语数据中源语言部分的数据;通过这一阶段的训练能为多模态码本的每个m码元学习聚类表示;以及用指数移动平均方法更新多模态码本,其中,衰减因子决定过去值影响当前平均值的程度。形式上,第k个码元的嵌入表示更新如下:
Figure BDA0004093410170000065
Figure BDA0004093410170000071
nk←γnk+(1-)ck,
Figure BDA0004093410170000072
其中,
Figure BDA0004093410170000073
是指示函数,γ是设置为0.99的衰减因子;ck计算聚类到第k个码元中的文本编码器隐状态的数量,hk表示这些隐状态的加和,nk表示过去值和当前值ck的指数加权平均值。
另外,如图3(c)中虚线框部分显示了本申请的第三个阶段,在该阶段引入了一个涉及额外光学字符识别数据和图像文本对齐任务,以进一步训练图像编码器和多模态码本;通过这一阶段的训练,赋予多模态码本初步的利用图像关联相关文本的能力;给定一个图像文本训练实例(,x),将这一阶段的训练目标定义为:
Figure BDA0004093410170000074
Figure BDA0004093410170000075
Figure BDA0004093410170000076
其中,sg表示梯度截断操作,θie是图像编码器中除了ViT模块的参数,
Figure BDA0004093410170000077
表示第Lv层图像编码器输出的视觉特征序列,
Figure BDA0004093410170000078
表示第Le层文本编码器输出的隐状态序列,
Figure BDA0004093410170000079
的计算方式为
Figure BDA00040934101700000710
Figure BDA00040934101700000711
的计算方式为
Figure BDA00040934101700000712
分别表示图像和文本的语义信息,通过
Figure BDA00040934101700000713
损失项,能够将图像和文本表示尽可能量化为相同的码元,使用承诺损失
Figure BDA00040934101700000714
确保文本编码器输出的隐状态和图像编码器输出的视觉特征与所选的码元嵌入表示保持接近,防止映射时从一个码元到另一个码元之间频繁波动,α是控制
Figure BDA00040934101700000715
损失效果的超参数;在这个阶段,通用采用和第二阶段一样的方式继续更新多模态码本。
另外,如图3(c)显示了本方法第四阶段的训练过程,在这个阶段
Figure BDA00040934101700000716
损失项仍然参与其中,它保持了训练的一致性并使微调更加平滑;给定一个文本图像翻译训练实例
Figure BDA00040934101700000717
通过以下目标优化整个模型:
Figure BDA00040934101700000718
Figure BDA00040934101700000719
Figure BDA00040934101700000720
其中,
Figure BDA00040934101700000721
为文本编码器设计的承诺损失,β是量化其效果的超参数,
Figure BDA00040934101700000722
为文本图像翻译损失。
需要注意的是,
Figure BDA0004093410170000081
只是作为
Figure BDA0004093410170000082
的输入,以保证模型训练和推理的一致性,而x用作图像文本对齐任务的输入,以训练多模态码本将输入图像与正确文本相关联的能力;此外,仍然使用指数移动平均方法更新多模态码本;通过这一阶段的训练,获得最终的基于多模态码本的文本图像翻译模型,其可用于模型测试及实际使用。
也就是说,本申请的文本图像翻译模型的训练过程包括:(1)使用大规模双语语料库通过普通的文本翻译任务来预训练文本编码器和文本解码器;(2)使用大规模双语语料库中的单语数据通过指数平均更新方法预训练新添加的多模态码本;(3)使用额外的光学字符识别数据集通过图像文本对齐任务预训练图像编码器和多模态码本,以增强多模态码本将图像与相关文关联的能力;(4);在文本图像翻译数据集上微调所有模块,获得最终的文本图像翻译模型。该文本图像翻译模型在训练完成后,通过输入图像和识别的光学字符识别文本后即可翻译出目标语言文本。
终上所述,根据本申请提出的基于多模态码本的文本图像翻译模型的训练方法,该模型包含多模态码本模块,以利用输入的图像联想相关文本,从而为翻译过程提供有效的补充信息;多模态码本包括固定数量的码元,每一个码元都是一种聚类表示;模型在训练时将图像和对应的正确文本映射到相同码元的语义空间上,在推理时模型通过多模态码本将图像映射为包含相关文本信息的码元,以此为翻译提供补充信息,获得更好的翻译结果。
另外,本申请实施例还提出了一种计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上述的基于多模态码本的文本图像翻译模型的训练方法。
根据本申请实施例的计算机设备,通过存储器存储基于多模态码本的文本图像翻译模型的训练程序,这样基于多模态码本的文本图像翻译模型的训练被处理器执行时实现上述的基于多模态码本的文本图像翻译模型的训练方法,由此,文本图像翻译模型在生成翻译时,能够利用图像获取有效的补充信息,提高翻译质量。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
应当注意的是,在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本申请可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
在本申请的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本申请中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
在本申请中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不应理解为必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种基于多模态码本的文本图像翻译模型的训练方法,其特征在于,包括以下步骤:
获取训练样本集,其中,所述训练样本集包括多个训练样本对,所述每个训练样本对包括图像、图像对应的语言文本、光学字符识别文本和目标语言文本;
构建文本图像翻译模型,其中,所述文本图像翻译模型包括文本编码器、图像编码器、多模态码本和文本解码器;
采用所述训练样本集对所述文本图像翻译模型进行训练,以得到训练好的文本图像翻译模型。
2.如权利要求1所述的基于多模态码本的文本图像翻译模型的训练方法,其特征在于,采用所述训练样本集对所述文本图像翻译模型进行训练,以得到训练好的文本图像翻译模型,包括:
采用所述训练样本集中的图像对应的语言文本和目标语言文本对所述文本编码器和所述文本解码器进行训练;
采用所述训练样本集中的图像对应的语言文本对所述多模态码本进行训练;
采用所述图像和所述图像对应的语言文本对所述图像编码器和所述多模态码本进行训练;
采用所述图像、所述图像对应的语言文本、所述光学字符识别文本和所述目标语言文本对所述文本图像翻译模型进行微调,以得到训练好的文本图像翻译模型。
3.如权利要求2所述的基于多模态码本的文本图像翻译模型的训练方法,其特征在于,所述文本编码器基于Transformer编码器进行构建,堆叠了Le个相同层,每个层包括一个自注意力子层和一个前馈网络子层;所述图像编码器采用ViT构建,包括Lv个堆叠层,每个堆叠层包括一个自注意力子层和一个前馈网络子层,并在顶层增加了一个线性变换子层和交叉注意力子层以将视觉特征序列维度转换到与所述文本编码器隐状态序列维度一致;所述多模态码本包括K个码元,对所述文本编码器的隐状态序列和所述图像编码器的视觉特征序列进行量化;所述文本解码器基于Transformer解码器进行构建,具有Ld个相同层,包括自注意力子层、前馈网络子层和交叉注意力子层,以便根据所述文本编码器输出的隐状态序列和所述多模态码本输出的码元生成最终的目标语言文本。
4.如权利要求3所述的基于多模态码本的文本图像翻译模型的训练方法,其特征在于,采用如下公式对所述文本编码器的隐状态序列和所述图像编码器的视觉特征序列进行量化:
Figure FDA0004093410160000011
Figure FDA0004093410160000021
其中,ek表示第k个码元,
Figure FDA0004093410160000022
表示文本编码器第Le层输出的隐状态序列中的第i个隐状态,
Figure FDA0004093410160000023
表示图像编码器第Lv层输出的视觉特征序列中的第j个特征,ek′表示
Figure FDA0004093410160000024
映射到了多模态码本中第k′个码元的嵌入表示,ek″表示
Figure FDA0004093410160000025
映射到了多模态码本中第k″个码元的嵌入表示。
5.如权利要求4所述的基于多模态码本的文本图像翻译模型的训练方法,其特征在于,所述文本解码器在第t个解码时间步,生成下一个词元的概率分布定义如下:
Figure FDA0004093410160000026
其中,
Figure FDA0004093410160000027
表示第Ld层文本解码器输出的隐状态序列,v为输入的图像,
Figure FDA0004093410160000028
为输入的光学字符识别文本,y为目标语言文本,θ表示整个文本图像翻译模型参数,Wo和bo为可训练的模型参数。
6.如权利要求5所述的基于多模态码本的文本图像翻译模型的训练方法,其特征在于,采用以下训练目标对所述文本编码器和所述文本解码器进行训练:
Figure FDA0004093410160000029
其中,x为图像对应的语言文本,θte为文本编码器的参数,θtd为文本解码器的参数。
7.如权利要求6所述的基于多模态码本的文本图像翻译模型的训练方法,其特征在于,在采用所述图像和所述图像对应的语言文本对所述图像编码器和多模态码本进行训练时,采用指数移动平均法更新多模态码本,衰减因子决定过去值影响当前平均值的程度。
8.如权利要求7所述的基于多模态码本的文本图像翻译模型的训练方法,其特征在于,采用以下训练目标对所述图像编码器和所述多模态码本进行训练:
Figure FDA00040934101600000210
Figure FDA00040934101600000211
Figure FDA00040934101600000212
其中,sg表示梯度截断操作,θie是图像编码器中除了ViT模块的参数,
Figure FDA00040934101600000213
表示第Lv层图像编码器输出的视觉特征序列,
Figure FDA00040934101600000214
表示第Le层文本编码器输出的隐状态序列,
Figure FDA00040934101600000215
的计算方式为
Figure FDA00040934101600000216
的计算方式为
Figure FDA00040934101600000217
分别表示图像和文本的语义信息,通过
Figure FDA00040934101600000218
损失项,能够将图像和文本表示尽可能量化为相同的码元,使用承诺损失
Figure FDA0004093410160000031
确保文本编码器输出的隐状态和图像编码器输出的视觉特征与所选的码元嵌入表示保持接近,防止映射时从一个码元到另一个码元之间频繁波动,α是控制
Figure FDA0004093410160000037
损失效果的超参数。
9.如权利要求8所述的基于多模态码本的文本图像翻译模型的训练方法,其特征在于,采用以下训练目标优化整个文本图像翻译模型:
Figure FDA0004093410160000032
Figure FDA0004093410160000033
Figure FDA0004093410160000034
其中,
Figure FDA0004093410160000035
为文本编码器设计的承诺损失,β是量化其效果的超参数,
Figure FDA0004093410160000036
为文本图像翻译损失。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现如权利要求1-9中任一项所述的基于多模态码本的文本图像翻译模型的训练方法。
CN202310158612.2A 2023-02-23 2023-02-23 基于多模态码本的文本图像翻译模型的训练方法 Pending CN116168401A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310158612.2A CN116168401A (zh) 2023-02-23 2023-02-23 基于多模态码本的文本图像翻译模型的训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310158612.2A CN116168401A (zh) 2023-02-23 2023-02-23 基于多模态码本的文本图像翻译模型的训练方法

Publications (1)

Publication Number Publication Date
CN116168401A true CN116168401A (zh) 2023-05-26

Family

ID=86421661

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310158612.2A Pending CN116168401A (zh) 2023-02-23 2023-02-23 基于多模态码本的文本图像翻译模型的训练方法

Country Status (1)

Country Link
CN (1) CN116168401A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116758341A (zh) * 2023-05-31 2023-09-15 北京长木谷医疗科技股份有限公司 一种基于gpt的髋关节病变智能诊断方法、装置及设备
CN117034965A (zh) * 2023-08-08 2023-11-10 中国科学院自动化研究所 基于视觉语言预训练的图像文本翻译方法及装置
CN118364933A (zh) * 2024-06-19 2024-07-19 上海岩芯数智人工智能科技有限公司 全模态词表向量及全模态解编码器的训练方法、视频生成方法及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116758341A (zh) * 2023-05-31 2023-09-15 北京长木谷医疗科技股份有限公司 一种基于gpt的髋关节病变智能诊断方法、装置及设备
CN116758341B (zh) * 2023-05-31 2024-03-19 北京长木谷医疗科技股份有限公司 一种基于gpt的髋关节病变智能诊断方法、装置及设备
CN117034965A (zh) * 2023-08-08 2023-11-10 中国科学院自动化研究所 基于视觉语言预训练的图像文本翻译方法及装置
CN117034965B (zh) * 2023-08-08 2024-03-22 中国科学院自动化研究所 基于视觉语言预训练的图像文本翻译方法及装置
CN118364933A (zh) * 2024-06-19 2024-07-19 上海岩芯数智人工智能科技有限公司 全模态词表向量及全模态解编码器的训练方法、视频生成方法及系统

Similar Documents

Publication Publication Date Title
CN113987209B (zh) 基于知识指导前缀微调的自然语言处理方法、装置、计算设备和存储介质
CN109840287B (zh) 一种基于神经网络的跨模态信息检索方法和装置
CN116168401A (zh) 基于多模态码本的文本图像翻译模型的训练方法
EP4348506A1 (en) Systems and methods for vision-and-language representation learning
CN111368514B (zh) 模型训练及古诗生成方法、古诗生成装置、设备和介质
CN114168709A (zh) 一种基于轻量化预训练语言模型的文本分类方法
CN112084301B (zh) 文本修正模型的训练方法及装置、文本修正方法及装置
CN115861995B (zh) 一种视觉问答方法、装置及电子设备和存储介质
CN115204143B (zh) 一种基于prompt的文本相似度计算方法及系统
CN115034201A (zh) 使用弱监督多奖励强化学习扩充用于句子分类的文本数据
CN114925703B (zh) 一种多粒度文本表示和图文融合的视觉问答方法及系统
CN116069931A (zh) 层级标签文本分类方法、系统、设备及存储介质
CN114626529B (zh) 一种自然语言推理微调方法、系统、装置及存储介质
CN117875395A (zh) 多模态预训练模型的训练方法、装置及存储介质
CN117494815A (zh) 面向档案的可信大语言模型训练、推理方法和装置
CN114529917A (zh) 一种零样本中文单字识别方法、系统、装置及存储介质
CN112287641B (zh) 一种同义句生成方法、系统、终端及存储介质
CN112131363B (zh) 自动问答方法、装置、设备及存储介质
Mitra et al. Incremental and iterative learning of answer set programs from mutually distinct examples
CN111666375A (zh) 文本相似度的匹配方法、电子设备和计算机可读介质
CN111259673A (zh) 一种基于反馈序列多任务学习的法律判决预测方法及系统
CN116127978A (zh) 基于医学文本的嵌套命名实体抽取方法
CN115617954A (zh) 问答方法、装置、电子设备及存储介质
CN112685543B (zh) 一种基于文本回答问题的方法及装置
CN118132733B (zh) 一种试题检索方法、系统、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination