CN115796192A - 多语言翻译模型的生成方法、翻译方法、终端及介质 - Google Patents

多语言翻译模型的生成方法、翻译方法、终端及介质 Download PDF

Info

Publication number
CN115796192A
CN115796192A CN202211011066.1A CN202211011066A CN115796192A CN 115796192 A CN115796192 A CN 115796192A CN 202211011066 A CN202211011066 A CN 202211011066A CN 115796192 A CN115796192 A CN 115796192A
Authority
CN
China
Prior art keywords
language
sentence
translation
bilingual
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211011066.1A
Other languages
English (en)
Inventor
陶恒韬
王晖
颜达森
王进
张艳
易泽轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peng Cheng Laboratory
Original Assignee
Peng Cheng Laboratory
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peng Cheng Laboratory filed Critical Peng Cheng Laboratory
Priority to CN202211011066.1A priority Critical patent/CN115796192A/zh
Publication of CN115796192A publication Critical patent/CN115796192A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明实施例提供了一种多语言翻译模型的生成方法、翻译方法、终端及存储介质,通过获取多个第一单语语句,对预设自回归语言模型进行训练,生成预训练语言模型;所述预设自回归语言模型由解码器组成;获取多个双语语句对,并将所述双语语句对中互译的两个语句拼接,生成双语训练样本;基于所述双语训练样本对所述预训练语言模型进行训练,生成多语言翻译模型;所述多语言翻译模型用于将给定的源语言翻译出目标语句。通过上述方案,利用稀缺语言资源生成高翻译质量的多语言翻译模型,实现高质量的多语言翻译。

Description

多语言翻译模型的生成方法、翻译方法、终端及介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种多语言翻译模型的 生成方法、翻译方法、终端及计算机可读存储介质。
背景技术
机器翻译又称为自动翻译,是利用计算机将一种自然语言(源语 言)转换为另一种自然语言(目标语言)的技术。神经网络翻译模型 是机器翻译的一种实现形式,其依赖于含有大量数据的语料库来进行 翻译模型的训练。但是机器翻译领域中翻译模型所需的训练语句属于 稀缺资源,不论是单语语料还是双语语料都十分的匮乏。
目前为了通过稀缺的训练语句实现多语言之间的翻译,通常采用 两种方式:第一种方式是通过多个不同的翻译模型(例如中-日、中- 英、中-俄),可以选定桥接语言实现从源语言到多种目标语言的翻 译(例如英-中-俄、英-中-日);第二种方式是基于传统的神经网络 翻译模型,强行将所有的双语语料进行共同训练,最终得到一个涉及 多语言(例如中文、英文、日文、俄文)的机器翻译模型。
通过以上两种处理方式虽然在一定程度上能够实现多语言翻译, 但是由于该两种处理方式本身存在的缺陷,导致翻译质量较差。对于 第一种方式,一方面多个不同的翻译模型需要大量的双语语料,而目 前的双语语料资源稀缺导致训练的翻译模型的翻译质量不能得到保 证,另一方面在采用桥接语言时至少需要进行两次翻译,容易带来错 误叠加,并且进行多次翻译也更加耗时。对于第二种方式,将多语言 语料一起进行训练,当不同语言之间语言特点或构成存在较大差别 时,传统的多语言翻译框架将无法解决由语言特点不同所带来的翻译 知识冲突问题,兼容性得不到保障,训练得到的多语言翻译模型的翻译质量差。
基于此,如何提供一种通过稀缺训练语言实现高翻译质量的多语 言翻译成为亟需解决的技术问题。
发明内容
本发明的主要目的在于提供多语言翻译模型的生成方法、翻译方 法、终端及计算机可读存储介质,旨在解决现有技术中无法通过稀缺 的语言资源实现高翻译质量的多语言翻译模型的问题。
为实现上述目的,本发明实施例提供了一种多语言翻译模型的生 成方法,所述多语言翻译模型的生成方法包括:
获取多个第一单语语句,对预设自回归语言模型进行训练,生成 预训练语言模型;所述预设自回归语言模型由解码器组成;
获取多个双语语句对,并将所述双语语句对中互译的两个语句拼 接,生成双语训练样本;
基于所述双语训练样本对所述预训练语言模型进行训练,生成多 语言翻译模型;所述多语言翻译模型用于将给定的源语言翻译出目标 语句。
可选地,所述多个第一单语语句由多种语言的单语语句组成;所 述多个双语语句对由至少三种互译语种不同的双语语句对组成。
可选地,所述第一单语语句和所述双语语句对中的源语句、目标 语句中的至少一种语句采用的语言相同。
可选地,获取多个双语语句对,并将所述双语语句对中互译的两 个语句拼接生成双语训练样本,具体包括:
确定各双语语句对中源语句的语言标识、目标语句的语言标识, 以及由所述源语句翻译至目标语句的翻译标识;
按照预设顺序,对所述双语语句对中源语句的语言标识、源语句、 翻译标识、目标语句的语言标识以及目标语句进行拼接,生成双语训 练样本。
可选地,基于所述双语训练样本对所述预训练语言模型进行训 练,生成多语言翻译模型,具体包括:
获取多个第二单语语句,并确定各第二单语语句的语言标识;
将所述第二单语语句的语言标识以及对应的第二单语语句进行 拼接,生成单语训练样本;
根据所述单语训练样本以及所述双语训练样本对所述预训练语 言模型进行训练,生成所述多语言翻译模型。
可选地,所述第二单语语句和所述双语语句对中的源语句、目标 语句中的至少一种语句采用的语言相同。
可选地,所述获取多个第一单语语句,对预设自回归语言模型进 行训练,生成预训练语言模型,具体包括:
确定各第一单语语句的语系,并将语系相同的第一单语语句组成 语系集合;
按照所述语系集合,对所述预设自回归语言模型进行训练,生成 预训练语言模型。
可选地,所述方法还包括:
基于预设语料库,获取多个原始单语语句和多个原始双语语句 对;
对各所述原始单语语句以及所述原始双语语句对进行数据预处 理,以得到所述第一单语语句以及所述双语语句对;
其中,所述数据预处理至少包括:数据格式转换、数据融合、软 硬规则过滤、对齐过滤、精确去重、模糊去重、长度筛选中的一项或 多项。
为了实现上述目的,本发明实施例还提供了一种翻译方法,所述 翻译方法包括:
获取待翻译语句、所述待翻译语句的语言标识、翻译标识、以及 目标语句的语言标识;
将所述待翻译语句、所述待翻译语句的语言标识、翻译标识、以 及目标语句的语言标识作为输入项,输入所述多语言翻译模型,以得 到所述待翻译语句对应的目标语句;
所述多语言翻译模型由上述任意一项所述的多语言翻译模型的 生成方法得到。
可选地,所述翻译方法还包括:
将所述目标语句转换为对应的目标语音,并将所述目标语音发送 至对应的用户终端,以使所述用户终端将所述目标语言播放。
可选地,所述翻译方法还包括:
在所述待翻译语句为语音格式的情况下,将所述待翻译语句转换 为对应的文本格式,并将所述文本格式的待翻译语句作为多语言翻译 模型的输入项。
为了实现上述目的,本发明实施例还提供了一种终端,所述终端 包括:处理器和存储器;所述存储器上存储有可被所述处理器执行的 计算机可读程序;所述处理器执行所述计算机可读程序时实现如上任 一项所述的多语言翻译模型的生成方法中的步骤,或者如上所述的翻 译方法中的步骤。
为了实现上述目的,本发明实施例还提供了一种计算机可读存储 介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个 或者多个程序可被一个或多个处理器执行,以实现如上任一项所述的 多语言翻译模型生成方法中的步骤,或者如上所述的翻译方法中的步 骤。
本发明通过高资源的、语料分布更丰富的单语语句,对预设自回 归语言模型进行训练,生成预训练语言模型,以增强语种翻译的鲁棒 性。然后通过低资源的双语语句对对预训练语言模型进行训练,以生 成多语言翻译模型实现对多语言翻译。通过本发明实施例提供的方 案,一方面无需通过桥接语言进行多语言翻译,有效避免错误叠加, 加快翻译效率;另一方面,相对于直接将多语言语料直接一起训练, 可以提高多语言翻译模型的兼容性,使得多语言翻译模型的训练质量 有很大的提升,即实现了通过稀缺训练语言实现高质量的多语言翻 译。
附图说明
图1为本发明实施例提供的多语言模型的生成方法的场景示意 图;
图2为本发明实施例提供的多语言模型的生成方法的流程图;
图3为本发明实施例提供的预设自回归语言模型中解码器的结 构示意图;
图4为本发明实施例提供的模型训练过程中训练语句的tokens 图;
图5为本发明实施例提供的部分国家的语言示意图;
图6为本发明实施例提供的图5中所示语言的语系分布图;
图7为本发明实施例提供的53个语种的单语语句的数据分布图;
图8为本发明实施例提供的53个语种“英外”双语语句对的数 据分布图;
图9为本发明实施例提供的53个语种“中外”双语语句对的数 据分布图;
图10为本发明实施例提供的多语言模型的生成方法中步骤S202 的流程图;
图11为本发明实施例提供的多语言模型的生成方法的示意图;
图12为本发明实施例提供的多语言模型的生成方法的步骤S203 的流程图;
图13为本发明实施例提供的对预设语料库进行数据处理的流程 图;
图14为本发明实施例提供的翻译方法的流程图;
图15为本发明实施例提供的终端的结构示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚、明确,以下参照 附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的 具体实施例仅仅用以解释本发明,并不用于限定本发明。
为了实现上述目的,在本发明实施例中,获取多个第一单语语句 对预设自回归语言模型进行训练,生成预训练语言模型,再获取多个 双语语句对,并将双语语句对中互译的两个语句拼接生成双语训练样 本对预训练语言模型进行训练,生成多语言翻译模型。可见,在本发 明实施例中,通过高资源的第一单语语句以及低资源的双语语句对对 预设自回归语言模型进行训练,生成多语言翻译模型,使得生成的多 语言翻译模型能够实现多语言之间的高质量翻译。
举例说明,本发明实施例可以应用到如图1所示的场景中。在图 1所示的场景中,终端设备1可以采集第一单语语句、双语语句对, 并将第一单语语句和双语语句对输入服务器2,服务器2根据第一单 语语句和双语语句对对预设自回归语言模型进行训练。服务器2可以 预先存储有预设自回归语言模型,并响应终端设备1输入的第一单语 语句和双语语句对,通过第一单语语句和双语语句对预设自回归语言 模型进行训练,生成多翻译语言模型。
可以理解的是,在上述应用场景中,虽然将本发明实施方式的动 作描述为部分由终端设备2执行,部分由服务器1执行,但是这些动 作也可以完全由服务器1执行,或者完全由终端设备2执行。本发明 在执行主体方面不受限制,只要执行了本发明实施方式所公开的动作 即可。
进一步地,在生成多语言翻译模型后,可以将多语言翻译模型用 于对通过终端设备输入的待翻译语句进行翻译,得到目标语句,利用 稀缺语言资源实现高质量的多语言翻译。可以理解的是,生成的多语 言翻译模型可以存储在服务器1中,也可以存储在终端设备中,在本 发明实施例中不做限定。
需要注意的是,上述应用场景仅是为了便于理解本发明而示出, 本发明的实施方式在此方面不做任何限制。相反,本发明的实施方式 可以应用于适用的任何场景。
下面结合附图,通过对实施例的描述,对发明内容做进一步的说 明。
本发明实施例提供了一种多语言翻译模型的生成方法,如图2所 示,本发明实施例提供的多语言翻译模型的生成方法,至少可以包括 以下步骤:
S201,获取多个第一单语语句,对预设自回归语言模型进行训练, 生成预训练语言模型。
其中,多个第一单语语句由多种语言的单语语句组成。多种语言 可以是任意语言(例如中文、英文、俄文、日文、德文、韩文、法文 等等)。例如,多个第一单语语句中部分第一单语语句为英文语句, 部分第一单语语句为中文语句,剩余部分第一单语语句为俄文语句。 在本申请实施例中,可以从训练集中抽取多个第一单语语句。
并且,上述预设自回归语言模型由解码器构成,例如由解码器构 成预设自回归语言模型如图3所示。可以理解的是,在本发明实施例 中的预设自回归语言模型仅由解码器构成,并不包括编码器。
在本发明实施例中,通过多个第一单语语句,对预设自回归语言 模型进行训练,可以充分学习不同语言的语言特点,例如:中文和英 文具有不同的语言特点(如语法结构不同),从而使得生成的预训练 语言模型能够适用于不同的语言特点,从而使得生成的多语言翻译模 型的翻译更加准确,更符合目标语言的语言特点。
具体地,可以将多个第一单语语句按照顺序拼接起来作为预设自 回归语言模型的输入项,对预设自回归语言模型进行训练。并且,在 模型训练过程中,为了防止后面的单语语句收到前面单语语句的干 扰,可以重置预设自回归语言模型的解码器结构中的注意力掩码 (attention mask),使得预测一个令牌(token)时只能看到当前条语 句里已经出现的令牌。同时,为了保证位置编码的正确性,可以重置 每一条第一单语语句的位置编码,如图4所示。
在本发明的一些实施例中,可以先确定获取的多个第一单语语句 中各第一单语语句的语系,并将语系相同的第一单语语句组成语系 集;按照语系集合,对预设自回归语言模型进行训练,生成预训练语 言模型。
以所设置的部分国家为例,如图5所示共有53个语种,按照语 系划分,如图6所示,可以划分为11种语系。图7为53个语种的单 语语句的数据分布图,图8为53个语种“英外”双语语句对的数据 分布图,图9为本发明实施例提供的53个语种“中外”双语语句对 的数据分布图。
在稀缺的语言资源中,有些语种属于低资源语言,其能够使用的 语句十分地匮乏。由于相同语系之间的不同语种的语言特点接近,相 同语种的与中间有增强作用。因此,可以将语系相同的第一单语语句 组成集合,按照不同地语系集合依次对预设自回归语言模型进行训 练,对于资源匮乏的语种也能很好的学习其语言特点,使得生成的预 训练语言模型能够有更加准确的预测结果。
S202,获取多个双语语句对,并将双语语句对中互译的两个语句 拼接,生成双语训练样本。
其中,多个双语语句对由至少三种互译语种不同的双语语句对组 成。例如:多个双语语句对中包括:若干中-英语句对、若干中-俄语 句对、若干中-日语句对,以此训练得到的翻译模型能够实现至少三 种语种之间的翻译。在本申请实施例中,可以从训练集中抽取多个第 一单语语句。
图10为本发明实施例提供的多语言翻译模型的生成方法中步骤 S202的流程图,如图10所示,步骤S202至少可以由以下步骤实现:
S1001,确定各双语语句对中源语句的语言标识、目标语句的语 言标识、以及由源语句翻译至目标语句的翻译标识。
在本发明实施例中,双语语句对包括互译的两个语句,其中一个 语句为源语句,另一个语句为目标语句。例如:源语句为“Your schoolbag is on the table”,目标语句为“你的书包在桌子上”。语句 的语言标识用于表示该语句所属的语种,以源语句为“Yourschoolbag is on the table”为例,则该源语句为英语,其语言语种可以为en,语 言标识可以唯一表示其对应的语种。翻译标识用于表示将源语句翻译 至目标语句,例如用TR来表示翻译。
可以理解的是,双语语句对中两个互译的语句,可以选择任意一 个语句作为源语句,则该双语语句对中的另一个语句即为目标语句, 对于双语语句对中源语句和目标语句的界定,在本发明实施例中不做 限定。
S1002,按照预设顺序,对双语语句对中源语句的语言标识、源 语句、翻译标识、目标语句的语言标识以及目标语句进行拼接,生成 双语训练样本。
在本发明实施例中,可以按照源语句的语言标识、源语句、翻译 标识、目标语句的语言标识、目标语句的顺序进行拼接,生成双语训 练样本。例如如图11所示:
languae_ID--Src_bilingual--Translate_ID--languae_ID--Tag_bilingu al,即为源语句的语言标识--源语句--翻译标识--目标语句的语言标识 --目标语句。
需要说明的是,上述实施例中的“--”仅表示连接符,为了便于 书写表示存在,在实际使用过程中不存在。
S203,基于双语训练样本对预训练语言模型进行训练,生成多语 言翻译模型。
该多语言翻译模型用于根据给定的源语句翻译出目标语句。具体 地,在给定源语句、源语句的语言标识,翻译标识、目标语句的语言 标识作为输入项的情况下,多语言翻译模型即可确定给定的源语句对 应的目标语句,目标语句的语种与输入的目标语句的语言标识对应。
在本发明实施例中,也可以将每条双语训练样本进行拼接,作为 预训练语言模型的输入项,具体的实现步骤可以参照上述每条第一单 语语句拼接的实现方式,在本发明实施例不再进行赘述。
本发明实施例提供的多语言翻译模型的生成方法,通过高资源 的、语料分布更丰富的单语语句,对预设自回归语言模型进行训练, 生成预训练语言模型,以增强语种翻译的鲁棒性。然后通过低资源的 双语语句对对预训练语言模型进行训练,以生成多语言翻译模型实现 对多语言翻译。通过本发明实施例提供的方案,一方面无需通过桥接 语言进行多语言翻译,有效避免错误叠加,加快翻译效率;另一方面, 相对于直接将多语言语料直接一起训练,可以提高多语言翻译模型的 兼容性,使得多语言翻译模型的训练质量有很大的提升,即实现了通 过稀缺训练语言实现高质量的多语言翻译。并且,传统的神经网络翻 译模型通常是采用“编码器-解码器”结构,编码器负责把源原句编 码成一种句子表示形式,解码器负责利用这种句子表示形式逐词生成 目标语句。编码器-解码器结构的神经网络翻译模型需要大量的双语 语句对,但是目前双语语句对是十分匮乏的。而在本发明实施例中仅 通过解码器即可完成语言翻译,无需解码器,对双语语句对的依赖较 小。
在本发明的一些实施例中,第一单语语句和双语语句对中的源语 句、目标语句中的至少一种语句采用的语言相同。也就是说,例如双 语语句对中的源语句为英文、目标语句为中文时,第一单语语句可以 是英文和/或中文。在第一单语语句和双语语句对中的源语句、目标 语句中的至少一种语句采用的语言相同的情况下,通过第一单语语句 训练得到的预训练语言模型,可以进一步增加多语言翻译模型的翻译 质量。
为了进一步提高多语言翻译的翻译质量,在本发明的一些实施例 中,如图12所示(图12为本发明实施例提供的多语言翻译模型的生 成方法中步骤S203的流程图,),步骤S203至少可以通过以下步骤 实现:
S1201,获取多个第二单语语句,并确定各第二单语语句的语句 标识。
需要说明的是,上述第二单语语句和第一单语语句可以是相同或 不同的语句,在本发明实施例中不做限定。
在本发明实施例中,第二单语语句和双语语句对中的源语句、目 标语句中的至少一种语句采用的语言相同,可以进一步提高生成的多 语言翻译模型的翻译质量。
S1202,将第二单语语句的语言标识以及对应的第二单语语句进 行拼接,生成单语训练样本。
如图11所示,按照语言标识、语句的顺序,将第二单语语句的 语言标识和第二单语语句进行拼接,从而生成单语训练样本。
S1203,根据单语训练样本以及双语训练样本对预训练语言模型 进行训练,生成多语言翻译模型。
在本发明实施例中,通过单语训练样本和双语训练样本对预训练 语言模型进行训练,即进行混合增量学习。加入了单语训练样本对预 训练语言模型进行训练,可以使得生成的多语言翻译模型的翻译质量 进一步提高,能够更加方便的迁移学习、部署实现。
在本发明的一些实施例中,可以基于预设语料库,获取多个原始 单语语句和多个原始双语语句对;对各原始单语语句以及原始双语语 句对进行数据预处理,得到第一单语语句以及双语语句对。其中,数 据预处理至少包括:数据格式转换、数据融合、软硬规则过滤、对齐 过滤、精确去重、模糊去重、长度筛选中的一项或多项。
在本发明实施例中,上述预设语料库可以是目前所公开的语料 库,预设语料库中存储有大量的原始单语语句以及原始双语语句,由 于预设语料库中的原始语句中存在一定的噪声,因此,在本发明实施 例中,对于从预设语料库中获取的原始语句进行数据清洗,以得到适 用于模型训练的训练集,从而进一步提高生成的多语言翻译模型的精 度,在有限的训练资源下提高翻译质量。如图13所示,上述预设语 料库可以由多个语料库构成,通过对预设语料库中的原始语句进行数 据处理,得到对应的训练集,这些训练集中包括用于模型训练的第一 单语语句以及双语语句对。
语言多样性是造成语言障碍的主要因素,因此,能够实现多语言 之间的翻译就至关重要。通过本发明实施例提供的多语言翻译模型的 生成方法,能够利用稀缺的语言资源生成高翻译质量的多语言翻译模 型,适用于多语言翻译的应用场景。
为了实现上述目的,本发明实施例还提供了一种翻译方法,如图 14所示(图14为本发明实施例提供的翻译方法的流程图),本发明 实施例提供的翻译方法至少可以通过以下步骤实现:
S1401,获取待翻译语句、待翻译语句的语言标识、翻译标识、 以及目标语句的语言标识。
S1402,将待翻译语句、待翻译语句的语言标识、翻译标识、以 及目标语句的语言标识作为输入项,输入多语言翻译模型,以得到所 述待翻译语句对应的目标语句。
其中,多语言翻译模型为通过上述多语言翻译模型的生成方法得 到的多语言翻译模型。
在本发明的一些实施例中,可以将翻译得到的目标语句转换为对 应的目标语音,并将目标语音发送至对应的用户终端,以使用户终端 将所述目标语言播放。在某些应用场景中,需要将翻译得到的目标语 句通过语音的形式广播给对应的用户,因此,在本发明实施例中,可 以将目标语句转换为目标语音,并把该目标语音发送至对应的用户终 端。
在本发明的一些实施例中,在所述待翻译语句为语音格式的情况 下,将所述待翻译语句转换为对应的文本格式,并将所述文本格式的 待翻译语句作为多语言翻译模型的输入项。在实际使用过程中,获取 的待翻译语句可能是语音,因此,可以先将语音格式的待翻译语句转 换为文本格式,并将文本格式的待翻译语句作为输入项进行翻译,从 而实现能够承载多种形式的翻译。
基于上述多语言翻译模型的生成方法以及翻译方法,本发明实施 例还提供了一种终端,如图15所示,其包括至少一个处理器 (processor)150;显示屏151;以及存储器(memory)152,还可以 包括通信接口(Communications Interface)153和总线154。其中,处理器150、显示屏151、存储器152和通信接口153可以通过总线154 完成相互间的通信。显示屏151设置为显示初始设置模式中预设的用 户引导界面。通信接口153可以传输信息。处理器150可以调用存储 器152中的逻辑指令,以执行上述实施例中的方法。
此外,上述的存储器152中的逻辑指令可以通过软件功能单元的 形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可 读取存储介质中。
存储器152作为一种计算机可读存储介质,可设置为存储软件程 序、计算机可执行程序,如本公开实施例中的方法对应的程序指令或 模块。处理器150通过运行存储在存储器152中的软件程序、指令或 模块,从而执行功能应用以及数据处理,即实现上述实施例所述的多 语言翻译模型的生成方法中的步骤,或者翻译方法中的步骤。
存储器152可包括存储程序区和存储数据区,其中,存储程序区 可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储 根据终端的使用所创建的数据等。此外,存储器152可以包括高速随 机存取存储器,还可以包括非易失性存储器。例如,U盘、移动硬盘、 只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等多种可以存储程序代码的介 质,也可以是暂态存储介质。
基于上述多语言翻译模型的生成方法以及翻译方法,本发明实施 例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有 一个或多个程序,所述一个或多个程序可被一个或多个处理器执行, 以实现上述实施例所述的多语言翻译模型的生成方法中的步骤,或者 翻译方法中的步骤。
此外,上述终端和计算机可读存储介质中的多条指令处理器加载 并执行的具体过程在上述方法中已经详细说明,在这里就不再一一陈 述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何 其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过 程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列 出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固 有的要素。在没有更多限制的情况下,由语句“包括一个……”限定 的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存 在另外的相同要素。
当然,本领域普通技术人员可以理解实现上述实施例方法中的全 部或部分流程,是可以通过计算机程序来指令相关硬件(如处理器, 控制器等)来完成,所述的程序可存储于一计算机可读取的计算机可 读存储介质中,所述程序在执行时可包括如上述各方法实施例的流 程。其中所述的计算机可读存储介质可为存储器、磁碟、光盘等。
应当理解的是,本发明的应用不限于上述的举例,对本领域普通 技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和 变换都应属于本发明所附权利要求的保护范围。

Claims (13)

1.一种多语言翻译模型的生成方法,其特征在于,所述多语言翻译模型的生成方法包括:
获取多个第一单语语句,对预设自回归语言模型进行训练,生成预训练语言模型;所述预设自回归语言模型由解码器组成;
获取多个双语语句对,并将所述双语语句对中互译的两个语句拼接,生成双语训练样本;
基于所述双语训练样本对所述预训练语言模型进行训练,生成多语言翻译模型;所述多语言翻译模型用于将给定的源语言翻译出目标语句。
2.根据权利要求1所述的多语言翻译模型的生成方法,其特征在于,所述多个第一单语语句由多种语言的单语语句组成;所述多个双语语句对由至少三种互译语种不同的双语语句对组成。
3.根据权利要求1所述的多语言翻译模型的生成方法,其特征在于,所述第一单语语句和所述双语语句对中的源语句、目标语句中的至少一种语句采用的语言相同。
4.根据权利要求1所述的多语言翻译模型的生成方法,其特征在于,获取多个双语语句对,并将所述双语语句对中互译的两个语句拼接生成双语训练样本,具体包括:
确定各双语语句对中源语句的语言标识、目标语句的语言标识,以及由所述源语句翻译至目标语句的翻译标识;
按照预设顺序,对所述双语语句对中源语句的语言标识、源语句、翻译标识、目标语句的语言标识以及目标语句进行拼接,生成双语训练样本。
5.根据权利要求1所述的多语言翻译模型的生成方法,其特征在于,基于所述双语训练样本对所述预训练语言模型进行训练,生成多语言翻译模型,具体包括:
获取多个第二单语语句,并确定各第二单语语句的语言标识;
将所述第二单语语句的语言标识以及对应的第二单语语句进行拼接,生成单语训练样本;
根据所述单语训练样本以及所述双语训练样本对所述预训练语言模型进行训练,生成所述多语言翻译模型。
6.根据权利要求1所述的多语言翻译模型的生成方法,其特征在于,所述第二单语语句和所述双语语句对中的源语句、目标语句中的至少一种语句采用的语言相同。
7.根据权利要求1所述的多语言翻译模型的生成方法,其特征在于,所述获取多个第一单语语句,对预设自回归语言模型进行训练,生成预训练语言模型,具体包括:
确定各第一单语语句的语系,并将语系相同的第一单语语句组成语系集合;
按照所述语系集合,对所述预设自回归语言模型进行训练,生成预训练语言模型。
8.根据权利要求1所述的多语言翻译模型的生成方法,其特征在于,所述方法还包括:
基于预设语料库,获取多个原始单语语句和多个原始双语语句对;
对各所述原始单语语句以及所述原始双语语句对进行数据预处理,以得到所述第一单语语句以及所述双语语句对;
其中,所述数据预处理至少包括:数据格式转换、数据融合、软硬规则过滤、对齐过滤、精确去重、模糊去重、长度筛选中的一项或多项。
9.一种翻译方法,其特征在于,应用如权利要求1-8任一项所述的多语言翻译模型的生成方法得到的多语言翻译模型,所述翻译方法包括:
获取待翻译语句、所述待翻译语句的语言标识、翻译标识、以及目标语句的语言标识;
将所述待翻译语句、所述待翻译语句的语言标识、翻译标识、以及目标语句的语言标识作为输入项,输入所述多语言翻译模型,以得到所述待翻译语句对应的目标语句;
所述多语言翻译模型由权利要求1-8任意一项所述的多语言翻译模型的生成方法得到。
10.根据权利要求9所述的翻译方法,其特征在于,所述翻译方法还包括:
将所述目标语句转换为对应的目标语音,并将所述目标语音发送至对应的用户终端,以使所述用户终端将所述目标语言播放。
11.根据权利要求9所述的翻译方法,其特征在于,所述翻译方法还包括:
在所述待翻译语句为语音格式的情况下,将所述待翻译语句转换为对应的文本格式,并将所述文本格式的待翻译语句作为多语言翻译模型的输入项。
12.一种终端,其特征在于,所述终端包括:处理器和存储器;所述存储器上存储有可被所述处理器执行的计算机可读程序;所述处理器执行所述计算机可读程序时实现如权利要求1-8任一项所述的多语言翻译模型的生成方法中的步骤,或者如权利要求9-11所述的翻译方法中的步骤。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或多个处理器执行,以实现如权利要求1-8任一项所述的多语言翻译模型生成方法中的步骤,或者如权利要求9-11所述的翻译方法中的步骤。
CN202211011066.1A 2022-08-23 2022-08-23 多语言翻译模型的生成方法、翻译方法、终端及介质 Pending CN115796192A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211011066.1A CN115796192A (zh) 2022-08-23 2022-08-23 多语言翻译模型的生成方法、翻译方法、终端及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211011066.1A CN115796192A (zh) 2022-08-23 2022-08-23 多语言翻译模型的生成方法、翻译方法、终端及介质

Publications (1)

Publication Number Publication Date
CN115796192A true CN115796192A (zh) 2023-03-14

Family

ID=85431535

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211011066.1A Pending CN115796192A (zh) 2022-08-23 2022-08-23 多语言翻译模型的生成方法、翻译方法、终端及介质

Country Status (1)

Country Link
CN (1) CN115796192A (zh)

Similar Documents

Publication Publication Date Title
CN110543643B (zh) 文本翻译模型的训练方法及装置
US20090192782A1 (en) Method for increasing the accuracy of statistical machine translation (SMT)
CN110555213B (zh) 文本翻译模型的训练方法、文本翻译方法及装置
CN108090400A (zh) 一种图像文本识别的方法和装置
CN101458681A (zh) 语音翻译方法和语音翻译装置
CN109213851B (zh) 对话系统中口语理解的跨语言迁移方法
CN112560510B (zh) 翻译模型训练方法、装置、设备及存储介质
CN112016271A (zh) 语言风格转换模型的训练方法、文本处理方法以及装置
CN112463942A (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
CN111178098B (zh) 一种文本翻译方法、装置、设备及计算机可读存储介质
KR20040024619A (ko) 복수 언어의 대역 텍스트 입력에 의한 제 3 언어 텍스트생성 알고리즘, 장치 및 프로그램
Farooq et al. A crowdsourcing-based framework for the development and validation of machine readable parallel corpus for sign languages
Pal et al. Answering naturally: Factoid to full length answer generation
CN113988063A (zh) 一种文本纠错方法、装置、设备及计算机可读存储介质
CN109657244B (zh) 一种英文长句自动切分方法及系统
CN115455981B (zh) 一种多语种语句的语义理解方法、装置、设备及存储介质
CN115796192A (zh) 多语言翻译模型的生成方法、翻译方法、终端及介质
CN116681061A (zh) 一种基于多任务学习和注意力机制的英文语法纠正技术
Chandu et al. Style variation as a vantage point for code-switching
CN115438678A (zh) 机器翻译方法、装置、电子设备及存储介质
CN114861628A (zh) 训练机器翻译模型的系统、方法、电子设备及存储介质
CN114492469A (zh) 一种翻译方法、翻译装置和计算机可读存储介质
CN113822053A (zh) 一种语法错误检测方法、装置、电子设备及存储介质
Garside The large-scale production of syntactically analysed corpora
CN111443979A (zh) 文档处理方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination