CN116522152B - 基于回译的翻译模型训练方法及装置 - Google Patents

基于回译的翻译模型训练方法及装置 Download PDF

Info

Publication number
CN116522152B
CN116522152B CN202310814082.2A CN202310814082A CN116522152B CN 116522152 B CN116522152 B CN 116522152B CN 202310814082 A CN202310814082 A CN 202310814082A CN 116522152 B CN116522152 B CN 116522152B
Authority
CN
China
Prior art keywords
language
corpus
translation
language corpus
translation model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310814082.2A
Other languages
English (en)
Other versions
CN116522152A (zh
Inventor
王芳
暴宇健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Xumi Yuntu Space Technology Co Ltd
Original Assignee
Shenzhen Xumi Yuntu Space Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Xumi Yuntu Space Technology Co Ltd filed Critical Shenzhen Xumi Yuntu Space Technology Co Ltd
Priority to CN202310814082.2A priority Critical patent/CN116522152B/zh
Publication of CN116522152A publication Critical patent/CN116522152A/zh
Application granted granted Critical
Publication of CN116522152B publication Critical patent/CN116522152B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供了一种基于回译的翻译模型训练方法及装置。该方法包括:通过正向翻译模型正译得到各条第一语言语料对应的第二语言表征向量组和第二语言语料,并计算各条第一语言语料对应的第一均值向量;通过逆向翻译模型回译得到各条第二语言语料对应的第二语言表征向量组,并计算各条第二语言语料对应的第二均值向量;根据每条第一语言语料对应的第一均值向量和第二均值向量以及与该条第一语言语料语义不同的另一条第一语言语料对应的第二均值向量,利用三元组损失函数计算第一对比损失;根据每条第一语言语料对应的第二语言语料以及标签,利用多分类交叉熵损失函数计算第一分类损失;依据第一对比损失和第一分类损失更新正向翻译模型的模型参数。

Description

基于回译的翻译模型训练方法及装置
技术领域
本申请涉及机器学习技术领域,尤其涉及一种基于回译的翻译模型训练方法及装置。
背景技术
近年来,随着神经机器翻译技术带来机器翻译品质的显著提升,且随着国际交流也越来越紧密,世界范围内的机器翻译市场需求稳步增长,机器翻译技术和产业呈现紧密结合的态势,使用场景也越来越多。在国际会议、外交活动到跨境商务和教育培训等场景,机器翻译技术在提升交流效率方面有不可忽视的作用。然而目前训练好的翻译模型存在过拟合和精度有待进一步提高的问题。
发明内容
有鉴于此,本申请实施例提供了一种基于回译的翻译模型训练方法、装置、电子设备及计算机可读存储介质,以解决现有技术中,翻译模型存在过拟合和精度低的问题。
本申请实施例的第一方面,提供了一种基于回译的翻译模型训练方法,包括:获取训练数据和待训练的正向翻译模型对应的已经通过训练的逆向翻译模型,训练数据包括多条第一语言语料和每条第一语言语料对应的标签;将多条第一语言语料输入正向翻译模型,正译得到各条第一语言语料对应的第二语言表征向量组和第二语言语料,并计算正译得到的各条第一语言语料对应的第二语言表征向量组中多条向量的第一均值向量;将正译得到的各条第二语言语料输入逆向翻译模型,回译得到各条第二语言语料对应的第二语言表征向量组,并计算回译得到的各条第二语言语料对应的第二语言表征向量组中多条向量的第二均值向量;根据每条第一语言语料对应的第一均值向量和第二均值向量以及与该条第一语言语料语义不同的另一条第一语言语料对应的第二均值向量,利用三元组损失函数计算第一对比损失;根据每条第一语言语料对应的第二语言语料以及标签,利用多分类交叉熵损失函数计算第一分类损失;依据第一对比损失和第一分类损失更新正向翻译模型的模型参数,以完成对正向翻译模型的训练。
本申请实施例的第二方面,提供了一种基于回译的翻译模型训练装置,包括:获取模块,被配置为获取训练数据和待训练的正向翻译模型对应的已经通过训练的逆向翻译模型,训练数据包括多条第一语言语料和每条第一语言语料对应的标签;正译模块,被配置为将多条第一语言语料输入正向翻译模型,正译得到各条第一语言语料对应的第二语言表征向量组和第二语言语料,并计算正译得到的各条第一语言语料对应的第二语言表征向量组中多条向量的第一均值向量;回译模块,被配置为将正译得到的各条第二语言语料输入逆向翻译模型,回译得到各条第二语言语料对应的第二语言表征向量组,并计算回译得到的各条第二语言语料对应的第二语言表征向量组中多条向量的第二均值向量;第一计算模块,被配置为根据每条第一语言语料对应的第一均值向量和第二均值向量以及与该条第一语言语料语义不同的另一条第一语言语料对应的第二均值向量,利用三元组损失函数计算第一对比损失;第二计算模块,被配置为根据每条第一语言语料对应的第二语言语料以及标签,利用多分类交叉熵损失函数计算第一分类损失;更新模块,被配置为依据第一对比损失和第一分类损失更新正向翻译模型的模型参数,以完成对正向翻译模型的训练。
本申请实施例的第三方面,提供了一种电子设备,包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述方法的步骤。
本申请实施例的第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
本申请实施例与现有技术相比存在的有益效果是:获取训练数据和待训练的正向翻译模型对应的已经通过训练的逆向翻译模型,训练数据包括多条第一语言语料和每条第一语言语料对应的标签;将多条第一语言语料输入正向翻译模型,正译得到各条第一语言语料对应的第二语言表征向量组和第二语言语料,并计算正译得到的各条第一语言语料对应的第二语言表征向量组中多条向量的第一均值向量;将正译得到的各条第二语言语料输入逆向翻译模型,回译得到各条第二语言语料对应的第二语言表征向量组,并计算回译得到的各条第二语言语料对应的第二语言表征向量组中多条向量的第二均值向量;根据每条第一语言语料对应的第一均值向量和第二均值向量以及与该条第一语言语料语义不同的另一条第一语言语料对应的第二均值向量,利用三元组损失函数计算第一对比损失;根据每条第一语言语料对应的第二语言语料以及标签,利用多分类交叉熵损失函数计算第一分类损失;依据第一对比损失和第一分类损失更新正向翻译模型的模型参数,以完成对正向翻译模型的训练。本申请实施例通过将对比损失作为正则项引入模型训练中,因此,采用上述技术手段,可以解决现有技术中,翻译模型存在过拟合和精度低的问题,进而提高翻译模型的精度,提高模型泛化性能。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本申请实施例提供的一种基于回译的翻译模型训练方法的流程示意图(一);
图2是本申请实施例提供的一种基于回译的翻译模型训练方法的流程示意图(二);
图3是本申请实施例提供的一种基于回译的翻译模型训练装置的结构示意图;
图4是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
图1是本申请实施例提供的一种基于回译的翻译模型训练方法的流程示意图(一)。图1的基于回译的翻译模型训练方法可以由计算机或服务器,或者计算机或服务器上的软件执行。如图1所示,该基于回译的翻译模型训练方法包括:
S101,获取训练数据和待训练的正向翻译模型对应的已经通过训练的逆向翻译模型,训练数据包括多条第一语言语料和每条第一语言语料对应的标签;
S102,将多条第一语言语料输入正向翻译模型,正译得到各条第一语言语料对应的第二语言表征向量组和第二语言语料,并计算正译得到的各条第一语言语料对应的第二语言表征向量组中多条向量的第一均值向量;
S103,将正译得到的各条第二语言语料输入逆向翻译模型,回译得到各条第二语言语料对应的第二语言表征向量组,并计算回译得到的各条第二语言语料对应的第二语言表征向量组中多条向量的第二均值向量;
S104,根据每条第一语言语料对应的第一均值向量和第二均值向量以及与该条第一语言语料语义不同的另一条第一语言语料对应的第二均值向量,利用三元组损失函数计算第一对比损失;
S105,根据每条第一语言语料对应的第二语言语料以及标签,利用多分类交叉熵损失函数计算第一分类损失;
S106,依据第一对比损失和第一分类损失更新正向翻译模型的模型参数,以完成对正向翻译模型的训练。
训练数据中的训练语料的语言是第一语言,所以称之为第一语言语料。正向翻译模型内部翻译的过程称之为正译,也就是正向翻译,逆向翻译模型内部翻译的过程称之为回译。
第一语言语料对应的第二语言表征向量组中多条向量的第一均值向量,也可以看作是第一语言语料对应的第一均值向量;第一语言语料对应的正译得到的第二语言语料,正译得到的第二语言语料对应的第二语言表征向量组中多条向量的第二均值向量,也可以看作是第一语言语料对应的第二均值向量。第一均值向量是通过计算正译得到的第二语言表征向量组中多条向量中对应位置的元素的均值得到的。
三元组损失函数是triplet( ),多分类交叉熵损失函数是多分类任务下的交叉熵损失函数。某条第一语言语料对应的第一均值向量和第二均值向量分别为Ea和Ep,与该条第一语言语料语义不同的另一条第一语言语料对应的第二均值向量为En(与该条第一语言语料语义不同的另一条第一语言语料是随机确定的),该条第一语言语料对应的损失值等于triplet(Ea,Ep,En),将所有第一语言语料对应的损失值相加为第一对比损失。将第一对比损失和第一分类损失按照预设权值加权求和为总损失,依据总损失更新正向翻译模型的模型参数。
根据本申请实施例提供的技术方案,获取训练数据和待训练的正向翻译模型对应的已经通过训练的逆向翻译模型,训练数据包括多条第一语言语料和每条第一语言语料对应的标签;将多条第一语言语料输入正向翻译模型,正译得到各条第一语言语料对应的第二语言表征向量组和第二语言语料,并计算正译得到的各条第一语言语料对应的第二语言表征向量组中多条向量的第一均值向量;将正译得到的各条第二语言语料输入逆向翻译模型,回译得到各条第二语言语料对应的第二语言表征向量组,并计算回译得到的各条第二语言语料对应的第二语言表征向量组中多条向量的第二均值向量;根据每条第一语言语料对应的第一均值向量和第二均值向量以及与该条第一语言语料语义不同的另一条第一语言语料对应的第二均值向量,利用三元组损失函数计算第一对比损失;根据每条第一语言语料对应的第二语言语料以及标签,利用多分类交叉熵损失函数计算第一分类损失;依据第一对比损失和第一分类损失更新正向翻译模型的模型参数,以完成对正向翻译模型的训练。本申请实施例通过将对比损失作为正则项引入模型训练中,因此,采用上述技术手段,可以解决现有技术中,翻译模型存在过拟合和精度低的问题,进而提高翻译模型的精度,提高模型泛化性能。
将多条第一语言语料输入正向翻译模型,正译得到各条第一语言语料对应的第二语言表征向量组和第二语言语料,包括:正向翻译模型内部依次包括第一语言编码器、第二语言解码器和第二语言分类器;将多条第一语言语料输入正向翻译模型:通过第一语言编码器处理各条第一语言语料,正译得到各条第一语言语料对应的第一语言表征向量组;通过第二语言解码器处理正译得到的各条第一语言语料对应的第一语言表征向量组,正译得到各条第一语言语料对应的第二语言表征向量组;通过第二语言分类器处理正译得到的各条第一语言语料对应的第二语言表征向量组,正译得到各条第一语言语料对应的和第二语言语料。
将正译得到的各条第二语言语料输入逆向翻译模型,回译得到各条第二语言语料对应的第二语言表征向量组,包括:逆向翻译模型内部依次包括第二语言编码器、第一语言解码器和第一语言分类器;将正译得到的各条第二语言语料输入逆向翻译模型:通过第二语言编码器处理正译得到的各条第二语言语料,回译得到各条第二语言语料对应的第二语言表征向量组;通过第一语言解码器处理回译得到的各条第二语言语料对应的第二语言表征向量组,回译得到各条第二语言语料对应的第一语言表征向量组;通过第一语言分类器处理回译得到的各条第一语言语料对应的第一语言表征向量组,回译得到各条第一语言语料对应的和第一语言语料。
在一个可选实施例中,将多条第一语言语料输入正向翻译模型,依次正译得到各条第一语言语料对应的第一语言表征向量组、第二语言表征向量组和第二语言语料,并计算正译得到的各条第一语言语料对应的第一语言表征向量组中多条向量的第三均值向量;将正译得到的各条第二语言语料输入逆向翻译模型,依次回译得到各条第二语言语料对应的第二语言表征向量组、第一语言表征向量组和第一语言语料,并计算回译得到的各条第二语言语料对应的第一语言表征向量组中多条向量的第四均值向量;根据每条第一语言语料对应的第三均值向量和第四均值向量以及与该条第一语言语料语义不同的另一条第一语言语料对应的第四均值向量,利用三元组损失函数计算第二对比损失;根据每条第一语言语料对应的第二语言语料以及标签,利用多分类交叉熵损失函数计算第一分类损失;依据第二对比损失和第一分类损失更新正向翻译模型的模型参数,以完成对正向翻译模型的训练。
比如第一语言为中文,第二语言为英文,正向翻译模型是中译英模型,正译是将第一语言语料输入正向翻译模型,依次得到第一语言语料对应的第一语言表征向量组、第二语言表征向量组和第二语言语料的过程;逆向翻译模型是英译中模型,回译是将正译得到的第二语言语料输入逆向翻译模型,依次得到第二语言表征向量组、第一语言表征向量组和第一语言语料的过程;正译与回译互为逆过程,正向翻译模型和逆向翻译模型的内部结构是对应的。
依据第二对比损失和第一分类损失更新正向翻译模型的模型参数,与依据第一对比损失和第一分类损失更新正向翻译模型的模型参数是并列的方法,可以根据具体情况选择两种方法中的任意一种。
根据每条第一语言语料对应的第二语言语料以及标签,利用多分类交叉熵损失函数计算第一分类损失之后,方法还包括:根据每条第一语言语料以及该条第一语言语料对应的回译得到的第一语言语料,利用多分类交叉熵损失函数计算第二分类损失;依据第一对比损失、第二对比损失、第一分类损失和第二分类损失更新正向翻译模型的模型参数,以完成对正向翻译模型的训练。
依据第一对比损失、第二对比损失、第一分类损失和第二分类损失更新正向翻译模型的模型参数,是按照预设权重对第一对比损失、第二对比损失、第一分类损失和第二分类损失加权求和,得到总损失,依据总损失更新正向翻译模型的模型参数。本申请实施例考虑到了第一对比损失、第二对比损失、第一分类损失和第二分类损失,所以可以进一步提高训练后正向翻译模型的精度和泛化性能。
利用三元组损失函数计算第一对比损失之后,方法还包括:依据第一对比损失更新正向翻译模型的模型参数,以完成对正向翻译模型的训练。
本申请实施例只利用第一对比损失更新正向翻译模型的模型参数,因为不用计算分类损失,所以训练数据可以是没有标注的,不需要额外的人工标注的数据来训练模型,这样可以在同等语料量下,提高机器翻译的泛化能力和精度,且降低了人工标注成本。
正向翻译模型内部依次包括第一语言编码器、第二语言解码器和第二语言分类器;逆向翻译模型内部依次包括第二语言编码器、第一语言解码器和第一语言分类器;第一语言编码器和第二语言编码器均为BART模型的编码器,第二语言解码器和第一语言解码器均为BART模型的解码器,第二语言分类器和第一语言分类器均由全连接层和激活层组成。
可选地,第一语言编码器和第二语言编码器均为Transformer或CNN或RNN的编码器,第二语言解码器和第一语言解码器均为Transformer或CNN或RNN的解码器,第二语言分类器和第一语言分类器均由全连接层和激活层组成。
CNN全称是Convolutional NeuralNetworks,RNN全称是Recurrent NeuralNetwork。
图2是本申请实施例提供的一种基于回译的翻译模型训练方法的流程示意图(二)。如图2所示,包括:
S201,获取训练数据和待训练的正向翻译模型对应的已经通过训练的逆向翻译模型;
S202,将多条第一语言语料输入正向翻译模型,依次正译得到各条第一语言语料对应的第一语言表征向量组、第二语言表征向量组和第二语言语料;
S203,计算正译得到的各条第一语言语料对应的第二语言表征向量组中多条向量的第一均值向量,以及计算正译得到的各条第一语言语料对应的第一语言表征向量组中多条向量的第三均值向量;
S204,将正译得到的各条第二语言语料输入逆向翻译模型,依次回译得到各条第二语言语料对应的第二语言表征向量组、第一语言表征向量组和第一语言语料;
S205,计算回译得到的各条第二语言语料对应的第二语言表征向量组中多条向量的第二均值向量,以及计算回译得到的各条第二语言语料对应的第一语言表征向量组中多条向量的第四均值向量;
S206,根据每条第一语言语料对应的第一均值向量和第二均值向量以及与该条第一语言语料语义不同的另一条第一语言语料对应的第二均值向量,利用三元组损失函数计算第一对比损失;
S207,根据每条第一语言语料对应的第三均值向量和第四均值向量以及与该条第一语言语料语义不同的另一条第一语言语料对应的第四均值向量,利用三元组损失函数计算第二对比损失;
S208,根据每条第一语言语料对应的第二语言语料以及标签,利用多分类交叉熵损失函数计算第一分类损失;
S209,根据每条第一语言语料以及该条第一语言语料对应的回译得到的第一语言语料,利用多分类交叉熵损失函数计算第二分类损失;
S210,依据第一对比损失、第二对比损失、第一分类损失和第二分类损失更新正向翻译模型的模型参数,以完成对正向翻译模型的训练。
本申请实施例通过将第一对比损失和第二对比损失作为正则项引入模型训练中,并且同时利用第一对比损失、第二对比损失、第一分类损失和第二分类损失训练模型,因此,采用上述技术手段,可以解决现有技术中,翻译模型存在过拟合和精度低的问题,进而提高翻译模型的精度,提高模型泛化性能。
上述所有可选技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
图3是本申请实施例提供的一种基于回译的翻译模型训练装置的示意图。如图3所示,该基于回译的翻译模型训练装置包括:
获取模块301,被配置为获取训练数据和待训练的正向翻译模型对应的已经通过训练的逆向翻译模型,训练数据包括多条第一语言语料和每条第一语言语料对应的标签;
正译模块302,被配置为将多条第一语言语料输入正向翻译模型,正译得到各条第一语言语料对应的第二语言表征向量组和第二语言语料,并计算正译得到的各条第一语言语料对应的第二语言表征向量组中多条向量的第一均值向量;
回译模块303,被配置为将正译得到的各条第二语言语料输入逆向翻译模型,回译得到各条第二语言语料对应的第二语言表征向量组,并计算回译得到的各条第二语言语料对应的第二语言表征向量组中多条向量的第二均值向量;
第一计算模块304,被配置为根据每条第一语言语料对应的第一均值向量和第二均值向量以及与该条第一语言语料语义不同的另一条第一语言语料对应的第二均值向量,利用三元组损失函数计算第一对比损失;
第二计算模块305,被配置为根据每条第一语言语料对应的第二语言语料以及标签,利用多分类交叉熵损失函数计算第一分类损失;
更新模块306,被配置为依据第一对比损失和第一分类损失更新正向翻译模型的模型参数,以完成对正向翻译模型的训练。
根据本申请实施例提供的技术方案,获取训练数据和待训练的正向翻译模型对应的已经通过训练的逆向翻译模型,训练数据包括多条第一语言语料和每条第一语言语料对应的标签;将多条第一语言语料输入正向翻译模型,正译得到各条第一语言语料对应的第二语言表征向量组和第二语言语料,并计算正译得到的各条第一语言语料对应的第二语言表征向量组中多条向量的第一均值向量;将正译得到的各条第二语言语料输入逆向翻译模型,回译得到各条第二语言语料对应的第二语言表征向量组,并计算回译得到的各条第二语言语料对应的第二语言表征向量组中多条向量的第二均值向量;根据每条第一语言语料对应的第一均值向量和第二均值向量以及与该条第一语言语料语义不同的另一条第一语言语料对应的第二均值向量,利用三元组损失函数计算第一对比损失;根据每条第一语言语料对应的第二语言语料以及标签,利用多分类交叉熵损失函数计算第一分类损失;依据第一对比损失和第一分类损失更新正向翻译模型的模型参数,以完成对正向翻译模型的训练。本申请实施例通过将对比损失作为正则项引入模型训练中,因此,采用上述技术手段,可以解决现有技术中,翻译模型存在过拟合和精度低的问题,进而提高翻译模型的精度,提高模型泛化性能。
可选地,正译模块302还被配置为正向翻译模型内部依次包括第一语言编码器、第二语言解码器和第二语言分类器;将多条第一语言语料输入正向翻译模型:通过第一语言编码器处理各条第一语言语料,正译得到各条第一语言语料对应的第一语言表征向量组;通过第二语言解码器处理正译得到的各条第一语言语料对应的第一语言表征向量组,正译得到各条第一语言语料对应的第二语言表征向量组;通过第二语言分类器处理正译得到的各条第一语言语料对应的第二语言表征向量组,正译得到各条第一语言语料对应的和第二语言语料。
可选地,回译模块303还被配置为逆向翻译模型内部依次包括第二语言编码器、第一语言解码器和第一语言分类器;将正译得到的各条第二语言语料输入逆向翻译模型:通过第二语言编码器处理正译得到的各条第二语言语料,回译得到各条第二语言语料对应的第二语言表征向量组;通过第一语言解码器处理回译得到的各条第二语言语料对应的第二语言表征向量组,回译得到各条第二语言语料对应的第一语言表征向量组;通过第一语言分类器处理回译得到的各条第一语言语料对应的第一语言表征向量组,回译得到各条第一语言语料对应的和第一语言语料。
可选地,更新模块306还被配置为将多条第一语言语料输入正向翻译模型,正译得到各条第一语言语料对应的第一语言表征向量组、第二语言表征向量组和第二语言语料,并计算正译得到的各条第一语言语料对应的第一语言表征向量组中多条向量的第三均值向量;将正译得到的各条第二语言语料输入逆向翻译模型,回译得到各条第二语言语料对应的第二语言表征向量组、第一语言表征向量组和第一语言语料,并计算回译得到的各条第二语言语料对应的第一语言表征向量组中多条向量的第四均值向量;根据每条第一语言语料对应的第三均值向量和第四均值向量以及与该条第一语言语料语义不同的另一条第一语言语料对应的第四均值向量,利用三元组损失函数计算第二对比损失;根据每条第一语言语料对应的第二语言语料以及标签,利用多分类交叉熵损失函数计算第一分类损失;依据第二对比损失和第一分类损失更新正向翻译模型的模型参数,以完成对正向翻译模型的训练。
可选地,更新模块306还被配置为根据每条第一语言语料以及该条第一语言语料对应的回译得到的第一语言语料,利用多分类交叉熵损失函数计算第二分类损失;依据第一对比损失、第二对比损失、第一分类损失和第二分类损失更新正向翻译模型的模型参数,以完成对正向翻译模型的训练。
可选地,更新模块306还被配置为依据第一对比损失更新正向翻译模型的模型参数,以完成对正向翻译模型的训练。
正向翻译模型内部依次包括第一语言编码器、第二语言解码器和第二语言分类器;逆向翻译模型内部依次包括第二语言编码器、第一语言解码器和第一语言分类器;第一语言编码器和第二语言编码器均为BART模型的编码器,第二语言解码器和第一语言解码器均为BART模型的解码器,第二语言分类器和第一语言分类器均由全连接层和激活层组成。
可选地,更新模块306还被配置为获取训练数据和待训练的正向翻译模型对应的已经通过训练的逆向翻译模型;将多条第一语言语料输入正向翻译模型,正译得到各条第一语言语料对应的第二语言表征向量组和第二语言语料;计算正译得到的各条第一语言语料对应的第二语言表征向量组中多条向量的第一均值向量,以及计算正译得到的各条第一语言语料对应的第一语言表征向量组中多条向量的第三均值向量;将正译得到的各条第二语言语料输入逆向翻译模型,回译得到各条第二语言语料对应的第二语言表征向量组;计算回译得到的各条第二语言语料对应的第二语言表征向量组中多条向量的第二均值向量,以及计算回译得到的各条第二语言语料对应的第一语言表征向量组中多条向量的第四均值向量;根据每条第一语言语料对应的第一均值向量和第二均值向量以及与该条第一语言语料语义不同的另一条第一语言语料对应的第二均值向量,利用三元组损失函数计算第一对比损失;根据每条第一语言语料对应的第三均值向量和第四均值向量以及与该条第一语言语料语义不同的另一条第一语言语料对应的第四均值向量,利用三元组损失函数计算第二对比损失;根据每条第一语言语料对应的第二语言语料以及标签,利用多分类交叉熵损失函数计算第一分类损失;根据每条第一语言语料以及该条第一语言语料对应的回译得到的第一语言语料,利用多分类交叉熵损失函数计算第二分类损失;依据第一对比损失、第二对比损失、第一分类损失和第二分类损失更新正向翻译模型的模型参数,以完成对正向翻译模型的训练。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
图4是本申请实施例提供的电子设备4的示意图。如图4所示,该实施例的电子设备4包括:处理器401、存储器402以及存储在该存储器402中并且可在处理器401上运行的计算机程序403。处理器401执行计算机程序403时实现上述各个方法实施例中的步骤。或者,处理器401执行计算机程序403时实现上述各装置实施例中各模块/单元的功能。
电子设备4可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备4可以包括但不仅限于处理器401和存储器402。本领域技术人员可以理解,图4仅仅是电子设备4的示例,并不构成对电子设备4的限定,可以包括比图示更多或更少的部件,或者不同的部件。
处理器401可以是中央处理单元(Central Processing Unit,CPU),也可以是其它通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
存储器402可以是电子设备4的内部存储单元,例如,电子设备4的硬盘或内存。存储器402也可以是电子设备4的外部存储设备,例如,电子设备4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。存储器402还可以既包括电子设备4的内部存储单元也包括外部存储设备。存储器402用于存储计算机程序以及电子设备所需的其它程序和数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可以存储在计算机可读存储介质中,该计算机程序在被处理器执行时,可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如,在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (10)

1.一种基于回译的翻译模型训练方法,其特征在于,包括:
获取训练数据和待训练的正向翻译模型对应的已经通过训练的逆向翻译模型,所述训练数据包括多条第一语言语料和每条第一语言语料对应的标签,其中,所述正向翻译模型和所述逆向翻译模型分别用于正译和回译,所述正向翻译模型和所述逆向翻译模型提供互逆的操作;
将多条第一语言语料输入所述正向翻译模型,正译得到各条第一语言语料对应的第二语言表征向量组和第二语言语料,并计算正译得到的各条第一语言语料对应的第二语言表征向量组中多条向量的第一均值向量;
将正译得到的各条第二语言语料输入所述逆向翻译模型,回译得到各条第二语言语料对应的第二语言表征向量组,并计算回译得到的各条第二语言语料对应的第二语言表征向量组中多条向量的第二均值向量;
根据每条第一语言语料对应的第一均值向量和第二均值向量以及与该条第一语言语料语义不同的另一条第一语言语料对应的第二均值向量,利用三元组损失函数计算第一对比损失;
根据每条第一语言语料对应的第二语言语料以及标签,利用多分类交叉熵损失函数计算第一分类损失;
依据所述第一对比损失和所述第一分类损失更新所述正向翻译模型的模型参数,以完成对所述正向翻译模型的训练;
其中,每条第一语言语料对应的第一均值向量是通过计算正译得到的该条第一语言语料对应的第二语言表征向量组中多条向量中对应位置的元素的均值得到的,每条第一语言语料对应的第二均值向量是通过计算回译得到的该条第一语言语料对应的第二语言语料对应的第二语言表征向量组中多条向量中对应位置的元素的均值得到的。
2.根据权利要求1所述的方法,其特征在于,将多条第一语言语料输入所述正向翻译模型,正译得到各条第一语言语料对应的第二语言表征向量组和第二语言语料,包括:
所述正向翻译模型内部依次包括第一语言编码器、第二语言解码器和第二语言分类器;
将多条第一语言语料输入所述正向翻译模型:
通过所述第一语言编码器处理各条第一语言语料,正译得到各条第一语言语料对应的第一语言表征向量组;
通过所述第二语言解码器处理正译得到的各条第一语言语料对应的第一语言表征向量组,正译得到各条第一语言语料对应的第二语言表征向量组;
通过所述第二语言分类器处理正译得到的各条第一语言语料对应的第二语言表征向量组,正译得到各条第一语言语料对应的和第二语言语料。
3.根据权利要求1所述的方法,其特征在于,将正译得到的各条第二语言语料输入所述逆向翻译模型,回译得到各条第二语言语料对应的第二语言表征向量组,包括:
所述逆向翻译模型内部依次包括第二语言编码器、第一语言解码器和第一语言分类器;
将正译得到的各条第二语言语料输入所述逆向翻译模型:
通过所述第二语言编码器处理正译得到的各条第二语言语料,回译得到各条第二语言语料对应的第二语言表征向量组;
通过所述第一语言解码器处理回译得到的各条第二语言语料对应的第二语言表征向量组,回译得到各条第二语言语料对应的第一语言表征向量组;
通过所述第一语言分类器处理回译得到的各条第一语言语料对应的第一语言表征向量组,回译得到各条第一语言语料对应的和第一语言语料。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将多条第一语言语料输入所述正向翻译模型,依次正译得到各条第一语言语料对应的第一语言表征向量组、第二语言表征向量组和第二语言语料,并计算正译得到的各条第一语言语料对应的第一语言表征向量组中多条向量的第三均值向量;
将正译得到的各条第二语言语料输入所述逆向翻译模型,依次回译得到各条第二语言语料对应的第二语言表征向量组、第一语言表征向量组和第一语言语料,并计算回译得到的各条第二语言语料对应的第一语言表征向量组中多条向量的第四均值向量;
根据每条第一语言语料对应的第三均值向量和第四均值向量以及与该条第一语言语料语义不同的另一条第一语言语料对应的第四均值向量,利用所述三元组损失函数计算第二对比损失;
根据每条第一语言语料对应的第二语言语料以及标签,利用所述多分类交叉熵损失函数计算第一分类损失;
依据所述第二对比损失和所述第一分类损失更新所述正向翻译模型的模型参数,以完成对所述正向翻译模型的训练。
5.根据权利要求4所述的方法,其特征在于,根据每条第一语言语料对应的第二语言语料以及标签,利用所述多分类交叉熵损失函数计算第一分类损失之后,所述方法还包括:
根据每条第一语言语料以及该条第一语言语料对应的回译得到的第一语言语料,利用所述多分类交叉熵损失函数计算第二分类损失;
依据所述第一对比损失、所述第二对比损失、所述第一分类损失和所述第二分类损失更新所述正向翻译模型的模型参数,以完成对所述正向翻译模型的训练。
6.根据权利要求1所述的方法,其特征在于,利用三元组损失函数计算第一对比损失之后,所述方法还包括:
依据所述第一对比损失更新所述正向翻译模型的模型参数,以完成对所述正向翻译模型的训练。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
所述正向翻译模型内部依次包括第一语言编码器、第二语言解码器和第二语言分类器;
所述逆向翻译模型内部依次包括第二语言编码器、第一语言解码器和第一语言分类器;
所述第一语言编码器和所述第二语言编码器均为BART模型的编码器,所述第二语言解码器和所述第一语言解码器均为BART模型的解码器,所述第二语言分类器和所述第一语言分类器均由全连接层和激活层组成。
8.一种基于回译的翻译模型训练装置,其特征在于,包括:
获取模块,被配置为获取训练数据和待训练的正向翻译模型对应的已经通过训练的逆向翻译模型,所述训练数据包括多条第一语言语料和每条第一语言语料对应的标签,其中,所述正向翻译模型和所述逆向翻译模型分别用于正译和回译,所述正向翻译模型和所述逆向翻译模型提供互逆的操作;
正译模块,被配置为将多条第一语言语料输入所述正向翻译模型,正译得到各条第一语言语料对应的第二语言表征向量组和第二语言语料,并计算正译得到的各条第一语言语料对应的第二语言表征向量组中多条向量的第一均值向量;
回译模块,被配置为将正译得到的各条第二语言语料输入所述逆向翻译模型,回译得到各条第二语言语料对应的第二语言表征向量组,并计算回译得到的各条第二语言语料对应的第二语言表征向量组中多条向量的第二均值向量;
第一计算模块,被配置为根据每条第一语言语料对应的第一均值向量和第二均值向量以及与该条第一语言语料语义不同的另一条第一语言语料对应的第二均值向量,利用三元组损失函数计算第一对比损失;
第二计算模块,被配置为根据每条第一语言语料对应的第二语言语料以及标签,利用多分类交叉熵损失函数计算第一分类损失;
更新模块,被配置为依据所述第一对比损失和所述第一分类损失更新所述正向翻译模型的模型参数,以完成对所述正向翻译模型的训练;
其中,每条第一语言语料对应的第一均值向量是通过计算正译得到的该条第一语言语料对应的第二语言表征向量组中多条向量中对应位置的元素的均值得到的,每条第一语言语料对应的第二均值向量是通过计算回译得到的该条第一语言语料对应的第二语言语料对应的第二语言表征向量组中多条向量中对应位置的元素的均值得到的。
9.一种电子设备,包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。
CN202310814082.2A 2023-07-05 2023-07-05 基于回译的翻译模型训练方法及装置 Active CN116522152B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310814082.2A CN116522152B (zh) 2023-07-05 2023-07-05 基于回译的翻译模型训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310814082.2A CN116522152B (zh) 2023-07-05 2023-07-05 基于回译的翻译模型训练方法及装置

Publications (2)

Publication Number Publication Date
CN116522152A CN116522152A (zh) 2023-08-01
CN116522152B true CN116522152B (zh) 2023-11-10

Family

ID=87401602

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310814082.2A Active CN116522152B (zh) 2023-07-05 2023-07-05 基于回译的翻译模型训练方法及装置

Country Status (1)

Country Link
CN (1) CN116522152B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111325038A (zh) * 2020-02-03 2020-06-23 苏州交驰人工智能研究院有限公司 翻译训练数据生成方法、装置、计算机设备及存储介质
CN111738025A (zh) * 2020-08-20 2020-10-02 腾讯科技(深圳)有限公司 基于人工智能的翻译方法、装置、电子设备和存储介质
CN115249019A (zh) * 2022-08-10 2022-10-28 中译语通科技股份有限公司 一种目标多语言神经机器翻译模型的构建方法和装置
CN115841162A (zh) * 2022-12-02 2023-03-24 澳门大学 语言翻译模型训练方法、电子设备及存储介质
CN116362351A (zh) * 2023-05-29 2023-06-30 深圳须弥云图空间科技有限公司 利用噪声扰动训练预训练语言模型的方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10679014B2 (en) * 2017-06-08 2020-06-09 Panasonic Intellectual Property Management Co., Ltd. Method for providing translation information, non-transitory computer-readable recording medium, and translation information providing apparatus
CN110826344B (zh) * 2019-10-24 2022-03-01 北京小米智能科技有限公司 神经网络模型压缩方法、语料翻译方法及其装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111325038A (zh) * 2020-02-03 2020-06-23 苏州交驰人工智能研究院有限公司 翻译训练数据生成方法、装置、计算机设备及存储介质
CN111738025A (zh) * 2020-08-20 2020-10-02 腾讯科技(深圳)有限公司 基于人工智能的翻译方法、装置、电子设备和存储介质
CN115249019A (zh) * 2022-08-10 2022-10-28 中译语通科技股份有限公司 一种目标多语言神经机器翻译模型的构建方法和装置
CN115841162A (zh) * 2022-12-02 2023-03-24 澳门大学 语言翻译模型训练方法、电子设备及存储介质
CN116362351A (zh) * 2023-05-29 2023-06-30 深圳须弥云图空间科技有限公司 利用噪声扰动训练预训练语言模型的方法及装置

Also Published As

Publication number Publication date
CN116522152A (zh) 2023-08-01

Similar Documents

Publication Publication Date Title
CN110377740B (zh) 情感极性分析方法、装置、电子设备及存储介质
CN107391646B (zh) 一种视频图像的语义信息提取方法及装置
US10204289B2 (en) Hieroglyphic feature-based data processing
CN113379786B (zh) 图像抠图方法、装置、计算机设备及存储介质
CN112270200B (zh) 一种文本信息的翻译方法、装置、电子设备和存储介质
CN114491289A (zh) 一种双向门控卷积网络的社交内容抑郁检测方法
CN116595130B (zh) 基于小语言模型的多种任务下的语料扩充方法及装置
CN116612500B (zh) 行人重识别模型训练方法及装置
CN116522152B (zh) 基于回译的翻译模型训练方法及装置
CN116108157B (zh) 训练文本生成模型的方法、文本生成方法及装置
WO2020153159A1 (ja) 系列ラベリング装置、系列ラベリング方法、およびプログラム
CN112989843A (zh) 意图识别方法、装置、计算设备及存储介质
CN116108810A (zh) 文本数据增强方法及装置
CN108829896B (zh) 回复信息反馈方法和装置
CN116127925A (zh) 基于对文本进行破坏处理的文本数据增强方法及装置
CN112765936B (zh) 一种基于语言模型进行运算的训练方法及装置
CN116364097A (zh) 一种数据处理方法及装置、设备、存储介质
CN115049546A (zh) 样本数据处理方法、装置、电子设备及存储介质
CN115238673A (zh) 文案的生成方法、装置、电子设备及存储介质
CN116912889B (zh) 行人重识别方法及装置
CN117474037B (zh) 基于空间距离对齐的知识蒸馏方法及装置
CN116912634B (zh) 目标追踪模型的训练方法及装置
CN116595385B (zh) 作文生成模型训练方法及装置
CN117292024B (zh) 基于语音的图像生成方法、装置、介质及电子设备
CN116912633B (zh) 目标追踪模型的训练方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant