CN112733552B - 机器翻译模型构建方法、装置以及设备 - Google Patents

机器翻译模型构建方法、装置以及设备 Download PDF

Info

Publication number
CN112733552B
CN112733552B CN202011605010.XA CN202011605010A CN112733552B CN 112733552 B CN112733552 B CN 112733552B CN 202011605010 A CN202011605010 A CN 202011605010A CN 112733552 B CN112733552 B CN 112733552B
Authority
CN
China
Prior art keywords
model
training
translation
models
current optimal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011605010.XA
Other languages
English (en)
Other versions
CN112733552A (zh
Inventor
宋锐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
iFlytek Co Ltd
Original Assignee
University of Science and Technology of China USTC
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC, iFlytek Co Ltd filed Critical University of Science and Technology of China USTC
Priority to CN202011605010.XA priority Critical patent/CN112733552B/zh
Publication of CN112733552A publication Critical patent/CN112733552A/zh
Application granted granted Critical
Publication of CN112733552B publication Critical patent/CN112733552B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种机器翻译模型构建方法、装置以及设备,本发明从机器翻译模型训练维度,对目标翻译模型的构建提出改进,具体是通过对多个不同结构参数的待定翻译模型进行训练,并记录当前最优的各待定翻译模型参数,同时结合各待定翻译模型的自身训练,利用当前最优模型对各待定翻译模型进行同步融合训练,经此训练方式便可以使得不同结构参数的待定翻译模型的知识进行交互,由此构建出的目标翻译模型在显著提高翻译质量的同时,更具有较强的鲁棒性。本发明在多个翻译模型的容量、计算效率和翻译效果之间进行均衡,使多个待定翻译模型能够实现在线混合学习,从而可以兼顾机器翻译模型在实际上线时对于翻译效果以及部署操作的双重需求。

Description

机器翻译模型构建方法、装置以及设备
技术领域
本发明涉及机器翻译领域,尤其涉及一种机器翻译模型构建方法、装 置以及设备。
背景技术
随着全球化趋势进一步发展,语言沟通成为不同语言种族群体相互交 流面临的一个重要课题,实现任意时间、任意地点、任意语言的无障碍自 由沟通是人类追求的一个梦想。传统语言服务行业采用人工陪同口译、交 替口译以及同声传译等解决语言沟通障碍问题,但受限于人力不足以及综 合成本,无法满足普通人对不同语言沟通交流的需求。
机器翻译是利用计算机将一种自然语言(源语言)转换为另一种自然 语言(目标语言)的过程,其可以大幅节约翻译时间,提高翻译效率,满 足诸如资讯等时效性要求较高或者海量文本的翻译需求,极大地降低了人 力成本。而更重要的是,它让跨语种交流变成每个人都可以拥有的能力, 语言不通不再是人们获取信息和服务的障碍。
在当前技术条件,机器翻译效果未达完全理想水平。现有的翻译模型 训练方案,主要是基于收集到的源语言和目标语言平行句对在特定模型结 构上训练至收敛得到一个翻译模型;且当模型上线时,由于受限于实际硬 件条件,通常仅能部署单个模型,甚至有些翻译模型还需要进行裁剪才能 够进行部署,现有技术尚无法在获得较佳翻译效果的同时,克服部署条件限制过多等实际操作问题。
发明内容
鉴于上述,本发明旨在提供一种机器翻译模型构建方法、装置以及设 备,以及相应地提供了一种计算机可读存储介质和计算机程序产品,主要 解决前述机器翻译模型在部署时遇到的翻译效果不佳以及难以实操的问题。
本发明采用的技术方案如下:
第一方面,本发明提供了一种机器翻译模型构建方法,其中包括:
预先构建多个待定翻译模型,所述待定翻译模型之间具有不同的结构 和/或不同的参数;
利用预设的语料集分别对各所述待定翻译模型进行独立训练;
每训练预设的第一步数后,将各所述待定翻译模型的当前最优模型予 以保存;
每训练预设的第二步数后,对各所述待定翻译模型进行独立训练的同 时,结合所述当前最优模型以及预设的多模型混合训练策略,对各所述待 定翻译模型进行同步融合训练,其中,所述第一步数小于或等于所述第二 步数;
在进行若干轮同步融合训练并直至触发预设的训练结束条件时,得到 相应于各所述待定翻译模型的最终模型;
将至少一个所述最终模型作为目标翻译模型。
在其中至少一种可能的实现方式中,所述多模型混合训练策略包括:
每训练预设的第二步数后,将每种所述待定翻译模型经训练更新后的 当前状态作为对应该所述待定翻译模型的第一模型;
从所述当前最优模型中选择若干个第二模型,所述第二模型包括:除 任一所述第一模型对应的所述当前最优模型以外的其他所述当前最优模型;
利用所述第二模型的输出指导相应的所述第一模型的训练。
在其中至少一种可能的实现方式中,所述从所述当前最优模型中选择 若干个第二模型包括:
在保存所述当前最优模型时,基于所述语料集以及预设的指标,评估 各所述待定翻译模型的当前训练效果的优劣程度;
基于所述优劣程度以及预设的阈值,从所述当前最优模型中选择所述 第二模型。
在其中至少一种可能的实现方式中,所述从所述当前最优模型中选择 若干个第二模型包括:
基于相对所述第一模型的结构差异和/或参数差异,从所述当前最优模 型中选择所述第二模型。
在其中至少一种可能的实现方式中,所述利用所述第二模型的输出指 导相应的所述第一模型的训练包括:
使所述第一模型的输出概率分布接近所述第二模型的输出概率分布。
在其中至少一种可能的实现方式中,所述利用所述第二模型的输出指 导相应的所述第一模型的训练还包括:
在各所述第二步数内,利用经所述第一步数保存的当前最优第二模型 的输出指导相应的所述第一模型的训练。
第二方面,本发明提供了一种机器翻译模型构建装置,其中包括:
待定模型构建模块,用于预先构建多个待定翻译模型,所述待定翻译 模型之间具有不同的结构和/或不同的参数;
独立训练模块,用于利用预设的语料集分别对各所述待定翻译模型进 行独立训练;
当前最优模型保存模块,用于每训练预设的第一步数后,将各所述待 定翻译模型的当前最优模型予以保存;
同步融合训练模块,用于每训练预设的第二步数后,对各所述待定翻 译模型进行独立训练的同时,结合所述当前最优模型以及预设的多模型混 合训练策略,对各所述待定翻译模型进行同步融合训练,其中,所述第一 步数小于或等于所述第二步数;
最终模型获取模块,用于在进行若干轮同步融合训练并直至触发预设 的训练结束条件时,得到相应于各所述待定翻译模型的最终模型;
目标翻译模型确定模块,用于将至少一个所述最终模型作为目标翻译 模型。
在其中至少一种可能的实现方式中,所述同步融合训练模块包括多模 型混合训练子模块,所述多模型混合训练子模块具体包括:
第一模型确定单元,用于每训练预设的第二步数后,将每种所述待定 翻译模型经训练更新后的当前状态作为对应该所述待定翻译模型的第一模 型;
第二模型选择单元,用于从所述当前最优模型中选择若干个第二模型, 所述第二模型包括:除任一所述第一模型对应的所述当前最优模型以外的 其他所述当前最优模型;
训练指导单元,用于利用所述第二模型的输出指导相应的所述第一模 型的训练。
在其中至少一种可能的实现方式中,所述训练指导单元包括:
训练效果评估组件,用于在保存所述当前最优模型时,基于所述语料 集以及预设的指标,评估各所述待定翻译模型的当前训练效果的优劣程度;
第二模型选择组件,用于基于所述优劣程度以及预设的阈值,从所述 当前最优模型中选择所述第二模型。
在其中至少一种可能的实现方式中,所述训练指导单元具体用于:基 于相对所述第一模型的结构差异和/或参数差异,从所述当前最优模型中选 择所述第二模型。
在其中至少一种可能的实现方式中,所述训练指导单元包括:
概率分布学习组件,用于使所述第一模型的输出概率分布接近所述第 二模型的输出概率分布。
在其中至少一种可能的实现方式中,所述训练指导单元具体用于:在 各所述第二步数内,利用经所述第一步数保存的当前最优第二模型的输出 指导相应的所述第一模型的训练。
第三方面,本发明提供了一种机器翻译模型构建设备,其中包括:
一个或多个处理器、存储器以及一个或多个计算机程序,所述存储器 可以采用非易失性存储介质,其中所述一个或多个计算机程序被存储在所 述存储器中,所述一个或多个计算机程序包括指令,当所述指令被所述设 备执行时,使得所述设备执行如第一方面或者第一方面的任一可能实现方 式中的所述方法。
第四方面,本发明提供了一种计算机可读存储介质,该计算机可读存 储介质中存储有计算机程序,当其在计算机上运行时,使得计算机至少执 行如第一方面或者第一方面的任一可能实现方式中的所述方法。
第五方面,本发明还提供了一种计算机程序产品,当所述计算机程序 产品被计算机执行时,用于至少执行第一方面或者第一方面的任一可能实 现方式中的所述方法。
在第五方面的至少一种可能的实现方式中,该产品涉及到的相关程序 可以全部或者部分存储在与处理器封装在一起的存储器上,也可以部分或 者全部存储在不与处理器封装在一起的存储介质上。
本发明的构思在于从机器翻译模型训练的维度,对目标翻译模型的构 建提出改进,具体是通过对多个不同结构、不同参数的待定翻译模型进行 训练,并每隔一定的训练更新步数记录当前最优的各待定翻译模型参数, 同时又按一定的训练更新周期结合各待定翻译模型的自身训练,利用当前 最优模型对实时更新的各待定翻译模型进行同步融合训练,经此训练方式便可以使得不同结构、不同参数的待定翻译模型的知识进行融合交互,由 此构建出的目标翻译模型在显著提高翻译质量的同时,可以使其具有更强 的鲁棒性。本发明在多个不同结构、不同参数的翻译模型容量、计算效率 和翻译效果之间进行均衡,使多个待定翻译模型能够实现在线混合学习, 从而得到性能显著优于现有技术的机器翻译模型,进而可以兼顾机器翻译 模型在实际上线时对于翻译效果以及部署操作的双重需求。
附图说明
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本 发明作进一步描述,其中:
图1为本发明提供的机器翻译模型构建方法的实施例的流程图;
图2为本发明提供的多模型混合训练策略的实施例的流程图;
图3为本发明提供的机器翻译模型构建装置的实施例的示意图;
图4为本发明提供的机器翻译模型构建设备的实施例的示意图。
具体实施方式
下面详细描述本发明的实施例,实施例的示例在附图中示出,其中自 始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的 元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明, 而不能解释为对本发明的限制。
在对本发明各实施例进行展开之前,首先对本发明的设计脉络进行如 下说明,为了满足机器翻译模型的翻译质量和效率,发明人尝试将多个翻 译模型进行彼此独立训练,待多个翻译模型训练收敛后,通过对各个翻译 模型输出概率加权的方式,在概率空间上对多个翻译模型进行融合,由此 确实可以相对提升翻译的准确度。但是经分析发现,此方式仍存在至少以下两个缺点:(1)这里采用的模型融合思想,如果期望实现在线融合操作, 需要对参与融合的各翻译模型的结构提出要求,即需要采用结构完全一样 的翻译模型,这才能保证解码端在解码时进行step by step的解码;(2) 这种多模型融合方式,会使得融合后的翻译模型的规模非常庞大,即便可 以解决单模型翻译效果不佳的问题,但却无法在目前的生产环境和应用场景中进行上线部署。
有鉴于此,发明人认为对多模型融合的尝试并不能有效满足实际技术 所需,因而提出了如下至少一种站位于训练角度的改进方案,如图1所示 的机器翻译模型构建方法的实施例,具体可以包括:
步骤S1、预先构建多个待定翻译模型。
原始的机器翻译模型的构建方式可以基于现有的成熟方案,例如但不 限于基于深度学习思想预先设置两种及以上翻译模型,以待后续处理从中 确定出目标翻译模型,本发明对此不作限定,但需要指出的是,为了规避 采用完全相同的多模型所带来的实操约束,本实施例提出预先构建的多个 所述待定翻译模型之间,可以具有不同的结构和/或不同的参数。这里以神 经网络翻译模型为例,可以采下述三种方式选择所述待定翻译模型的架构: 方式一、可以选取不同结构的翻译模型,比如transformer架构、RNN架构 等;方式二、可以选取结构相同但参数量不同的翻译模型;方式三、可将方式一与方式二进行任意组合,例如构建出4个待定翻译模型,其中包括 具有第一参数量的transformer翻译模型、具有第二参数量的transformer翻 译模型、具有第三参数量的LSTM翻译模型、具有第四参数量的LSTM翻 译模型,其中第一参数量与第二参数量不同,第三参数量与第四参数量不 同。再者,在实际操作中待定翻译模型的数量可以因需而定,为方便后文 说明,这里给出结合实际情况选取的N个待定翻译模型,将此N个待定翻 译模型记为{M1,M2,…,MN}。
步骤S2、利用预设的语料集分别对各所述待定翻译模型进行独立训练。
具体而言,可以收集大量源语种文本与目标语种文本的句对,构建训 练所用的语料集合,这里记为(X,Y)。在实际训练过程中,可以先采用常 规的模型训练方式分别对N个待定翻译模型进行独立的训练更新,例如但 不限于可以先随机初始化各个待定翻译模型{M0,M1,M2,…,MN}的参数,只 有各个待定翻译模型可以随机读取语料库(X,Y)并采用诸如CE准则进行 更新,具体可以借鉴一些现有的成熟方案,本实施例对各待定翻译模型的 独立训练方式不作赘述。
步骤S3、每训练预设的第一步数后,将各所述待定翻译模型的当前最 优模型予以保存。
本步骤的目的是为后文提及的同步融合训练提供训练基础,即可以在 各个待定翻译模型进行实时训练、迭代更新的阶段,按一定的时间间隔,保存{M0,M1,M2,…,MN}的当前最优参数。由此可以补充两点其一、可以在 前述预设所述待定翻译模型时,设置最优模型参数的保存间隔S步(所称 第一步数);其二、本领域技术人员可以理解的是,模型经每一步训练便 会得到相应的更新参数后的“新”模型,也即是N个待定翻译模型经S步训练可迭代出S*N个模型状态,但是并不意味着每步更新后得到的当前参 数绝对优于前步训练,因而本步骤可以是指每经由S步训练后,从S*N个 模型状态中按预设的标准从中选出{M0,M1,M2,…,MN}的当前最优模型,记 为Mj_best,j=0,1,2,…,N,当然,实际操作时可以通过复制相应N个待定翻译 模型的当前最优参数并以此形成当前最优模型集合,对此本实施例不作限定。而可以进一步说明的是,在保存所述当前最优模型时所采用的预设标 准可以有多种形式,例如可以基于所述语料集以及预设的指标,评估各所 述待定翻译模型的当前训练效果的优劣程度,这里所述优劣程度可以但不 限于是指利用前述大量语料数据形成的开发集上针对CE准则计算出的损 失loss或者利用开发集获得的BLEU分等,对此本发明同样不作限定。
步骤S4、每训练预设的第二步数后,对各所述待定翻译模型进行独立 训练的同时,结合所述当前最优模型以及预设的多模型混合训练策略,对 各所述待定翻译模型进行同步融合训练。
在前文基础上本发明提出按照另一个时间间隔周期,将前述独立训练 与所述当前最优模型Mj_best及多模型混合训练策略相互结合,对各待定翻 译模型{M0,M1,M2,…,MN}进行同步融合训练。这里需先指出的是由于本发 明的初衷在于将当前最优模型作为同步融合训练的基础,因而可以在前文 提及的构建所述待定翻译模型的阶段,设定启动同步融合训练的周期间隔 T步(所称第二步数),并且所述第一步数S需小于或等于所述第二步数T, 这样便可以确保在0~T步训练阶段,至少经过了一个S步(保存周期)并 得到用于同步融合训练的当前最优模型。
关于所述同步融合训练,是指T步后至少包括了两种训练模式,一个 是对各个待定翻译模型的独立训练,另一个是多模型混合训练策略,而在 T步之前可以仅对各个待定翻译模型进行独立训练。并且在实际操作中,所述多模型混合训练策略可以有多种选择,例如可以按照既定的对应关系 利用当前最优模型Mj_best中的某当前最优模型与对应的某待定翻译模型进 行两两交叉训练,以N=3为例,T步后有M1_best、M2_best、M3_best,使M1_best与实时训练更新的当前M2交叉训练,同时使M1_best与实时训练更新的当前 M3交叉训练,以此类推,同步地采用M2_best、M3_best进行交叉训练。在此 构思基础上,本发明进一步提出了更佳的多模型混合训练策略,如图2所 示,可以具体包括如下环节:
步骤S41、每训练预设的第二步数后,将每种所述待定翻译模型经训 练更新后的当前状态作为对应该所述待定翻译模型的第一模型。
在实际操作中,可以每经过T步,便将每种不同结构和/或不同参数的 待定翻译模型的当前更新状态(即采用T步后训练出的新参数形成的当前 待定翻译模型)作为第一模型。
步骤S42、从所述当前最优模型中选择若干个第二模型。
针对其中一个第一模型,从当前最优模型Mj_best中选择出若干个,与 第一模型对应的当前最优模型不同的其他当前最优模型,作为第二模型, 也即是除了某一所述第一模型对应的所述当前最优模型以外的其他当前最 优模型,举例来说,对于当前的M2可以从除了M2_best以外的其他Mj_best中 选择一个或多个所述当前最优模型作为第二模型,并且其他N-1个第一模 型同步选择相应的第二模型。而从当前最优模型中选择若干个第二模型的具体实现方式,则可以同样有多种方式,例如结合前文提及的保存当期最 优模型时进行的训练效果优劣评估,这里可以基于所述优劣程度以及预设 的阈值,从所述当前最优模型中选择一个或多个所述第二模型,例如将 BLEU得分超过评分阈值的TopX个当前最优模型作为第二模型;此外,还 可以考虑的是,由于本发明强调的是可以不限定各翻译模型的结构参数, 因而还可以基于相对所述第一模型的结构差异和/或参数差异,从所述当前 最优模型中选择一个或多个所述第二模型。优选地,对于后者方式,可以选择结构差异较大和/或参数差异较大的当前最优模型作为第二模型,这样 能够使得多模型混合训练时可以充分学习到不同类型翻译模型的优势。
步骤S43、利用所述第二模型的输出指导相应的所述第一模型的训练。
这里提出的多模型混合训练的具体方式,便是将第二模型作为指导模 型,对相应的第一模型的学习训练提供指引,例如可以通过M2_best、M3_best对当前M1进行训练,同步地通过M1_best、M3_best对当前M2进行训练,通 过M1_best、M2best对当前M3进行训练。结合翻译场景,具体的由所述第二 模型的输出指导相应的所述第一模型的训练可以但不限于是指使所述第一 模型的输出概率分布接近所述第二模型的输出概率分布,更佳地,还可以 在每轮T周期内,利用经S步保存的最新的当前最优第二模型的输出去指 导相应的所述第一模型的训练。
为便于理解,这里结合前文提及的CE准则以及一些常用的损失函数 对所述同步融合训练进行示意性说明:
对于某个待定翻译模型Mi(i=0,1,…N),在[T*k,T*k+T]阶段(k不 等于0,k=0表明是在0~T步阶段)除了可使用CE准则更新该模型,还可以使得待定翻译模型Mi的输出概率分布Pi,分别学习(接近)Mj_best,j≠i 的输出概率分布Qj,实施时可以基于如下目标:
L表示所述同步融合训练的总损失函数,且这里的αj是一个可学习且 可以根据经验指定的参数,这里的Y是指选择出的相应第一模型Mi的第二 模型的数量。
其中,损失函数CEloss的定义可以参考如下:
这里的yi为真实分布,在翻译任务中通常是一个onehot向量,网络输 出分布为总的类别数为n。
其中,损失函数KLloss的定义可以参考如下:
由此,假设预先构建出N=10个待定翻译模型{M0,M1,M2,…,MN},且 k*T步后针对的某个当前Mi为M1,并选择了除与M1对应的当前最优模型 M1_best以外的其他9个当前最优模型作为第二模型,这样,前述多模型混 合训练的损失就是α2KL(P1,Q2)+α3KL(P1,Q3)+……+α10KL(P1,Q10) 的九分之一。
本领域技术人员可以理解的是,上述示例中涉及的损失函数及其定义, 皆可参考现有相关技术,并且在实际操作中可以根据真实场景选用不同的 损失函数,前述示例仅是为了说明所述多模型混合训练以及所述同步融合 训练的技术构思,因而可以不限定仅以一种CE准则实施所述独立训练,也可以不限定第二模型指导第一模型的方式必须基于KLloss。
接续前文参考图1,步骤S5、在进行若干轮同步融合训练并直至触发 预设的训练结束条件时,得到相应于各所述待定翻译模型的最终模型。
同样地,可以在预先构建待定翻译模型时设定但不限于最大更新步数 作为训练结束条件。这样,从0步开始,且从T步后又经过若干轮同步融 合训练,当总训练步数到达最大更新步数时便可以输出所述最终模型 Mi_best,i=0,1,2,...,N。这里还可以指出两点,其一、在进行若干轮同步融 合训练时,如采用前文提及的选择第二模型并指导第一模型的实施例时, 可以考虑每隔T个周期,便基于最新的所述当前最优模型重新选择相应某 第一模型的第二模型,也即是以T为周期替换指导模型;其二、输出的最 终模型Mi_best一方面可以来自触发结束训练时当前效果最优的模型参数, 另一方面也可以是当触发结束训练时采用最近一次保存的Mj_best,前者获 得的最终模型相对最优(并且前者也可以作为触发训练结束的设定条件), 后者则无需在训练结束时再一次评估模型训练效果,一旦结束直接又保存 的当前最优模型作为最终模型,可以节省一定的运算资源及处理时间,二 者可因需选择,对此本发明不作限定。
步骤S6、将至少一个所述最终模型作为目标翻译模型。
在实际操作中,最后可以根据实际场景条件和需求,从模型规模、运 行效率等角度,从上述最终模型Mi_best中选择需要部署的一个或多个模型。 这里还可以进一步指出的是,当实际应用环境需求提升翻译质量或效率, 可以将输出的N个最终模型做进一步融合,这里的融合有至少两层含义, 一个是指可以通过本发明获得的最终模型在实际部署时兼容前文提及的离线融合思路,或者另外也可以考虑利用诸如ensemble模型翻译数据库里的源语言文本,得到伪语料集将/>与(X,Y)按照一定比例进行训练 数据融合,再对最终模型进行前述训练过程,对此本发明不作限定
综上所述,本发明的构思在于从机器翻译模型训练的维度,对目标翻 译模型的构建提出改进,具体是通过对多个不同结构、不同参数的待定翻 译模型进行训练,并每隔一定的训练更新步数记录当前最优的各待定翻译 模型参数,同时又按一定的训练更新周期结合各待定翻译模型的自身训练, 利用当前最优模型对实时更新的各待定翻译模型进行同步融合训练,经此训练方式便可以使得不同结构、不同参数的待定翻译模型的知识进行融合 交互,由此构建出的目标翻译模型在显著提高翻译质量的同时,可以使其 具有更强的鲁棒性。本发明在多个不同结构、不同参数的翻译模型容量、 计算效率和翻译效果之间进行均衡,使多个待定翻译模型能够实现在线混 合学习,从而得到性能显著优于现有技术的机器翻译模型,进而可以兼顾 机器翻译模型在实际上线时对于翻译效果以及部署操作的双重需求。举例来说:基于LSTM的翻译模型对中短句的翻译相较transformer架构的翻译模型更有优势,而transformer架构的翻译模型则更擅长对于长句的翻译,通过本发明提供的各实施例可以在训练过程中使得多个不同模型进行知识 融合,从而在各待定翻译模型之间相互吸收优点,使得训练后得到的目标 翻译模型的翻译性能及部署操作明显优于现有的机器翻译模型。
相应于上述各实施例及优选方案,本发明还提供了一种机器翻译模型 构建装置的实施例,如图3所示,具体可以包括如下部件:
待定模型构建模块1,用于预先构建多个待定翻译模型,所述待定翻 译模型之间具有不同的结构和/或不同的参数;
独立训练模块2,用于利用预设的语料集分别对各所述待定翻译模型 进行独立训练;
当前最优模型保存模块3,用于每训练预设的第一步数后,将各所述 待定翻译模型的当前最优模型予以保存;
同步融合训练模块4,用于每训练预设的第二步数后,对各所述待定 翻译模型进行独立训练的同时,结合所述当前最优模型以及预设的多模型 混合训练策略,对各所述待定翻译模型进行同步融合训练,其中,所述第 一步数小于或等于所述第二步数;
最终模型获取模块5,用于在进行若干轮同步融合训练并直至触发预 设的训练结束条件时,得到相应于各所述待定翻译模型的最终模型;
目标翻译模型确定模块6,用于将至少一个所述最终模型作为目标翻 译模型。
在其中至少一种可能的实现方式中,所述同步融合训练模块包括多模 型混合训练子模块,所述多模型混合训练子模块具体包括:
第一模型确定单元,用于每训练预设的第二步数后,将每种所述待定 翻译模型经训练更新后的当前状态作为对应该所述待定翻译模型的第一模 型;
第二模型选择单元,用于从所述当前最优模型中选择若干个第二模型, 所述第二模型包括:除任一所述第一模型对应的所述当前最优模型以外的 其他所述当前最优模型;
训练指导单元,用于利用所述第二模型的输出指导相应的所述第一模 型的训练。
在其中至少一种可能的实现方式中,所述训练指导单元包括:
训练效果评估组件,用于在保存所述当前最优模型时,基于所述语料 集以及预设的指标,评估各所述待定翻译模型的当前训练效果的优劣程度;
第二模型选择组件,用于基于所述优劣程度以及预设的阈值,从所述 当前最优模型中选择所述第二模型。
在其中至少一种可能的实现方式中,所述训练指导单元具体用于:基 于相对所述第一模型的结构差异和/或参数差异,从所述当前最优模型中选 择所述第二模型。
在其中至少一种可能的实现方式中,所述训练指导单元包括:
概率分布学习组件,用于使所述第一模型的输出概率分布接近所述第 二模型的输出概率分布。
在其中至少一种可能的实现方式中,所述训练指导单元具体用于:在 各所述第二步数内,利用经所述第一步数保存的当前最优第二模型的输出 指导相应的所述第一模型的训练。
应理解以上图3所示的机器翻译模型构建装置可中各个部件的划分仅 仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实 体上,也可以物理上分开。且这些部件可以全部以软件通过处理元件调用 的形式实现;也可以全部以硬件的形式实现;还可以部分部件以软件通过处理元件调用的形式实现,部分部件通过硬件的形式实现。例如,某个上 述模块可以为单独设立的处理元件,也可以集成在电子设备的某一个芯片 中实现。其它部件的实现与之类似。此外这些部件全部或部分可以集成在 一起,也可以独立实现。在实现过程中,上述方法的各步骤或以上各个部 件可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些部件可以是被配置成实施以上方法的一个或多个集成 电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit; 以下简称:ASIC),或,一个或多个微处理器(Digital Singnal Processor; 以下简称:DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array;以下简称:FPGA)等。再如,这些部件可以集成在一起,以 片上系统(System-On-a-Chip;以下简称:SOC)的形式实现。
综合上述各实施例及其优选方案,本领域技术人员可以理解的是,在 实际操作中,本发明所涉及的技术构思可适用于多种实施方式,本发明以 下述载体作为示意性说明:
(1)一种机器翻译模型构建设备。该设备具体可以包括:一个或多个 处理器、存储器以及一个或多个计算机程序,其中所述一个或多个计算机 程序被存储在所述存储器中,所述一个或多个计算机程序包括指令,当所 述指令被所述设备执行时,使得所述设备执行前述实施例或者等效实施方式的步骤/功能。
图4为本发明提供的机器翻译模型构建设备的实施例的结构示意图, 在其他实施例中该设备具体可以为与计算机相关的设施,例如但不限于服 务器、相关平台系统、智能终端等。
具体如图4所示,机器翻译模型构建设备900包括处理器910和存储 器930。其中,处理器910和存储器930之间可以通过内部连接通路互相 通信,传递控制和/或数据信号,该存储器930用于存储计算机程序,该处 理器910用于从该存储器930中调用并运行该计算机程序。上述处理器910 可以和存储器930可以合成一个处理装置,更常见的是彼此独立的部件, 处理器910用于执行存储器930中存储的程序代码来实现上述功能。具体实现时,该存储器930也可以集成在处理器910中,或者,独立于处理器 910。
除此之外,为了使得机器翻译模型构建设备900的功能更加完善,该 设备900还可以包括输入单元960、显示单元970、音频电路980、摄像头 990和传感器901等中的一个或多个,所述音频电路还可以包括扬声器982、 麦克风984等。其中,显示单元970可以包括显示屏。
进一步地,上述设备900还可以包括电源950,用于给该设备900中 的各种器件或电路提供电能。
应理解,该设备900中的各个部件的操作和/或功能,具体可参见前文 中关于方法、系统等实施例的描述,为避免重复,此处适当省略详细描述。
应理解,图4所示的机器翻译模型构建设备900中的处理器910可以 是片上系统SOC,该处理器910中可以包括中央处理器(Central Processing Unit;以下简称:CPU),还可以进一步包括其他类型的处理器,例如:图 像处理器(Graphics Processing Unit;以下简称:GPU)等,具体在下文中 再作介绍。
总之,处理器910内部的各部分处理器或处理单元可以共同配合实现 之前的方法流程,且各部分处理器或处理单元相应的软件程序可存储在存 储器930中。
(2)一种可读存储介质,在可读存储介质上存储有计算机程序或上述 装置,当计算机程序或上述装置被执行时,使得计算机执行前述实施例或 等效实施方式的步骤/功能。
在本发明所提供的几个实施例中,任一功能如果以软件功能单元的形 式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存 储介质中。基于这样的理解,本发明的某些技术方案本质上或者说对现有 技术做出贡献的部分或者该技术方案的部分可以以如下所述软件产品的形 式体现出来。
(3)一种计算机程序产品(该产品可以包括上述装置),该计算机程 序产品在终端设备上运行时,使终端设备执行前述实施例或等效实施方式 的机器翻译模型构建方法。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解 到上述实施方法中的全部或部分步骤可借助软件加必需的通用硬件平台的 方式来实现。基于这样的理解,上述计算机程序产品可以包括但不限于是 指APP;接续前文,上述设备/终端可以是一台计算机设备,并且,该计算 机设备的硬件结构还可以具体包括:至少一个处理器,至少一个通信接口, 至少一个存储器和至少一个通信总线;处理器、通信接口、存储器均可以通过通信总线完成相互间的通信。其中,处理器可能是一个中央处理器CPU、 DSP、微控制器或数字信号处理器,还可包括GPU、嵌入式神经网络处理 器(Neural-network ProcessUnits;以下简称:NPU)和图像信号处理器(Image Signal Processing;以下简称:ISP),该处理器还可包括特定集成电路ASIC, 或者是被配置成实施本发明实施例的一个或多个集成电路等,此外,处理 器可以具有操作一个或多个软件程序的功能,软件程序可以存储在存储器 等存储介质中;而前述的存储器/存储介质可以包括:非易失性存储器(non-volatile memory),例如非可移动磁盘、U盘、移动硬盘、光盘等,以 及只读存储器(Read-Only Memory;以下简称:ROM)、随机存取存储器 (Random Access Memory;以下简称:RAM)等。
本发明实施例中,“至少一个”是指一个或者多个,“多个”是指两 个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种 关系,例如,A和/或B,可以表示单独存在A、同时存在A和B、单独存 在B的情况。其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项”及其类似表达,是指的这 些项中的任意组合,包括单项或复数项的任意组合。例如,a,b和c中的 至少一项可以表示:a,b,c,a和b,a和c,b和c或a和b和c,其中a, b,c可以是单个,也可以是多个。
本领域技术人员可以意识到,本说明书中公开的实施例中描述的各模 块、单元及方法步骤,能够以电子硬件、计算机软件和电子硬件的结合来 实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定 应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同 方式来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
以及,其中作为分离部件说明的模块、单元等可以是或者也可以不是 物理上分开的,即可以位于一个地方,或者也可以分布到多个地方,例如 系统网络的节点上。具体可根据实际的需要选择其中的部分或者全部模块、 单元来实现上述实施例方案的目的。本领域技术人员在不付出创造性劳动 的情况下,即可以理解并实施。
以上依据图式所示的实施例详细说明了本发明的构造、特征及作用效 果,但以上仅为本发明的较佳实施例,需要言明的是,上述实施例及其优 选方式所涉及的技术特征,本领域技术人员可以在不脱离、不改变本发明 的设计思路以及技术效果的前提下,合理地组合搭配成多种等效方案;因 此,本发明不以图面所示限定实施范围,凡是依照本发明的构想所作的改变,或修改为等同变化的等效实施例,仍未超出说明书与图示所涵盖的精 神时,均应在本发明的保护范围内。

Claims (8)

1.一种机器翻译模型构建方法,其特征在于,包括:
预先构建多个待定翻译模型,所述待定翻译模型之间具有不同的结构和/或不同的参数;
利用预设的语料集分别对各所述待定翻译模型进行独立训练;
每训练预设的第一步数后,将各所述待定翻译模型的当前最优模型予以保存;
每训练预设的第二步数后,对各所述待定翻译模型进行独立训练的同时,结合所述当前最优模型以及预设的多模型混合训练策略,对各所述待定翻译模型进行同步融合训练,其中,所述第一步数小于或等于所述第二步数;
在进行若干轮同步融合训练并直至触发预设的训练结束条件时,得到相应于各所述待定翻译模型的最终模型;
将至少一个所述最终模型作为目标翻译模型;
所述多模型混合训练策略包括:
同步利用若干个当前最优模型与对应的实时训练更新的待定翻译模型进行两两交叉训练;或者,
每训练预设的第二步数后,将每种待定翻译模型经训练更新后的当前状态作为对应该待定翻译模型的第一模型;从当前最优模型中选择若干个第二模型,所述第二模型包括:除任一所述第一模型对应的当前最优模型以外的其他当前最优模型;利用所述第二模型的输出指导相应的所述第一模型的训练。
2.根据权利要求1所述的机器翻译模型构建方法,其特征在于,所述从所述当前最优模型中选择若干个第二模型包括:
在保存所述当前最优模型时,基于所述语料集以及预设的指标,评估各所述待定翻译模型的当前训练效果的优劣程度;
基于所述优劣程度以及预设的阈值,从所述当前最优模型中选择所述第二模型。
3.根据权利要求1所述的机器翻译模型构建方法,其特征在于,所述从所述当前最优模型中选择若干个第二模型包括:
基于相对所述第一模型的结构差异和/或参数差异,从所述当前最优模型中选择所述第二模型。
4.根据权利要求1~3任一项所述的机器翻译模型构建方法,其特征在于,所述利用所述第二模型的输出指导相应的所述第一模型的训练包括:
使所述第一模型的输出概率分布接近所述第二模型的输出概率分布。
5.根据权利要求4所述的机器翻译模型构建方法,其特征在于,所述利用所述第二模型的输出指导相应的所述第一模型的训练还包括:
在各所述第二步数内,利用经所述第一步数保存的当前最优第二模型的输出指导相应的所述第一模型的训练。
6.一种机器翻译模型构建装置,其特征在于,包括:
待定模型构建模块,用于预先构建多个待定翻译模型,所述待定翻译模型之间具有不同的结构和/或不同的参数;
独立训练模块,用于利用预设的语料集分别对各所述待定翻译模型进行独立训练;
当前最优模型保存模块,用于每训练预设的第一步数后,将各所述待定翻译模型的当前最优模型予以保存;
同步融合训练模块,用于每训练预设的第二步数后,对各所述待定翻译模型进行独立训练的同时,结合所述当前最优模型以及预设的多模型混合训练策略,对各所述待定翻译模型进行同步融合训练,其中,所述第一步数小于或等于所述第二步数;
最终模型获取模块,用于在进行若干轮同步融合训练并直至触发预设的训练结束条件时,得到相应于各所述待定翻译模型的最终模型;
目标翻译模型确定模块,用于将至少一个所述最终模型作为目标翻译模型;
所述多模型混合训练策略包括:
同步利用若干个当前最优模型与对应的实时训练更新的待定翻译模型进行两两交叉训练;或者,
每训练预设的第二步数后,将每种待定翻译模型经训练更新后的当前状态作为对应该待定翻译模型的第一模型;从当前最优模型中选择若干个第二模型,所述第二模型包括:除任一所述第一模型对应的当前最优模型以外的其他当前最优模型;利用所述第二模型的输出指导相应的所述第一模型的训练。
7.一种机器翻译模型构建设备,其特征在于,包括:
一个或多个处理器、存储器以及一个或多个计算机程序,其中所述一个或多个计算机程序被存储在所述存储器中,所述一个或多个计算机程序包括指令,当所述指令被所述设备执行时,使得所述设备执行权利要求1~5任一项所述的机器翻译模型构建方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,当所述计算机程序在计算机上运行时,使得计算机执行权利要求1~5任一项所述的机器翻译模型构建方法。
CN202011605010.XA 2020-12-30 2020-12-30 机器翻译模型构建方法、装置以及设备 Active CN112733552B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011605010.XA CN112733552B (zh) 2020-12-30 2020-12-30 机器翻译模型构建方法、装置以及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011605010.XA CN112733552B (zh) 2020-12-30 2020-12-30 机器翻译模型构建方法、装置以及设备

Publications (2)

Publication Number Publication Date
CN112733552A CN112733552A (zh) 2021-04-30
CN112733552B true CN112733552B (zh) 2024-04-12

Family

ID=75610798

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011605010.XA Active CN112733552B (zh) 2020-12-30 2020-12-30 机器翻译模型构建方法、装置以及设备

Country Status (1)

Country Link
CN (1) CN112733552B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114239608B (zh) * 2021-11-16 2022-11-25 北京百度网讯科技有限公司 翻译方法、模型训练方法、装置、电子设备及存储介质
CN114048759A (zh) * 2021-11-16 2022-02-15 北京百度网讯科技有限公司 模型训练方法、数据处理方法、装置、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109753636A (zh) * 2017-11-01 2019-05-14 阿里巴巴集团控股有限公司 机器处理及文本纠错方法和装置、计算设备以及存储介质
CN110162800A (zh) * 2019-05-08 2019-08-23 北京百度网讯科技有限公司 翻译模型的训练方法和装置
JP2020140709A (ja) * 2019-02-26 2020-09-03 株式会社リコー ニューラル機械翻訳モデルの訓練方法、装置及び記憶媒体
JP2020140710A (ja) * 2019-02-26 2020-09-03 株式会社リコー ニューラル機械翻訳モデルの訓練方法、装置及び記憶媒体
WO2020253648A1 (zh) * 2019-06-19 2020-12-24 腾讯科技(深圳)有限公司 翻译方法、机器翻译模型的训练方法、装置及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11562243B2 (en) * 2017-11-17 2023-01-24 Meta Platforms, Inc. Machine-learning models based on non-local neural networks

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109753636A (zh) * 2017-11-01 2019-05-14 阿里巴巴集团控股有限公司 机器处理及文本纠错方法和装置、计算设备以及存储介质
JP2020140709A (ja) * 2019-02-26 2020-09-03 株式会社リコー ニューラル機械翻訳モデルの訓練方法、装置及び記憶媒体
JP2020140710A (ja) * 2019-02-26 2020-09-03 株式会社リコー ニューラル機械翻訳モデルの訓練方法、装置及び記憶媒体
CN111626064A (zh) * 2019-02-26 2020-09-04 株式会社理光 神经机器翻译模型的训练方法、装置及存储介质
CN110162800A (zh) * 2019-05-08 2019-08-23 北京百度网讯科技有限公司 翻译模型的训练方法和装置
WO2020253648A1 (zh) * 2019-06-19 2020-12-24 腾讯科技(深圳)有限公司 翻译方法、机器翻译模型的训练方法、装置及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
EM算法在神经机器翻译模型中的应用研究;杨云;王全;;计算机应用与软件(08);全文 *
融合领域知识与深度学习的机器翻译领域自适应研究;丁亮;何彦青;;情报科学(10);全文 *

Also Published As

Publication number Publication date
CN112733552A (zh) 2021-04-30

Similar Documents

Publication Publication Date Title
CN110599492B (zh) 图像分割模型的训练方法、装置、电子设备及存储介质
CN112733552B (zh) 机器翻译模型构建方法、装置以及设备
CN115879535B (zh) 一种自动驾驶感知模型的训练方法、装置、设备和介质
CN110766038B (zh) 无监督式的地貌分类模型训练和地貌图构建方法
CN112487168B (zh) 知识图谱的语义问答方法、装置、计算机设备及存储介质
CA3069365A1 (en) Generation of point of interest copy
US11423235B2 (en) Cognitive orchestration of multi-task dialogue system
US11887224B2 (en) Method, apparatus, and computer program for completing painting of image, and method, apparatus, and computer program for training artificial neural network
CN114550223B (zh) 人物交互检测方法、装置及电子设备
CN114388064A (zh) 用于蛋白质表征学习的多模态信息融合方法、系统、终端及存储介质
CN114889638A (zh) 一种自动驾驶系统中的轨迹预测方法及系统
CN115114421A (zh) 一种问答模型训练方法
CN115064020A (zh) 基于数字孪生技术的智慧教学方法、系统及存储介质
CN115129848A (zh) 一种视觉问答任务的处理方法、装置、设备和介质
CN111242176B (zh) 计算机视觉任务的处理方法、装置及电子系统
CN113704495B (zh) 实体对齐方法、装置、电子设备和存储介质
JP2023549048A (ja) 音声認識方法と装置並びにコンピュータデバイス及びコンピュータプログラム
CN111488460A (zh) 数据处理方法、装置和计算机可读存储介质
CN113541986B (zh) 5g切片的故障预测方法、装置及计算设备
CN117292007A (zh) 图像生成方法及装置
CN116958324A (zh) 图像生成模型的训练方法、装置、设备及存储介质
CN115272667B (zh) 农田图像分割模型训练方法、装置、电子设备和介质
CN116010899A (zh) 多模态数据处理及预训练模型的预训练方法、电子设备
CN112232445B (zh) 多标签分类任务网络的训练方法和装置
CN112419216A (zh) 图像去干扰方法、装置、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20230517

Address after: 230000 96 Jinzhai Road, Hefei City, Anhui Province

Applicant after: University of Science and Technology of China

Applicant after: IFLYTEK Co.,Ltd.

Address before: 230088 666 Wangjiang West Road, Hefei hi tech Development Zone, Anhui

Applicant before: IFLYTEK Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant