CN115496079B - 一种中文翻译方法和装置 - Google Patents

一种中文翻译方法和装置 Download PDF

Info

Publication number
CN115496079B
CN115496079B CN202211463449.2A CN202211463449A CN115496079B CN 115496079 B CN115496079 B CN 115496079B CN 202211463449 A CN202211463449 A CN 202211463449A CN 115496079 B CN115496079 B CN 115496079B
Authority
CN
China
Prior art keywords
foreign language
ciphertext
chinese
stroke
stroke sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211463449.2A
Other languages
English (en)
Other versions
CN115496079A (zh
Inventor
刘学博
王志军
张民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Graduate School Harbin Institute of Technology
Original Assignee
Shenzhen Graduate School Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Graduate School Harbin Institute of Technology filed Critical Shenzhen Graduate School Harbin Institute of Technology
Priority to CN202211463449.2A priority Critical patent/CN115496079B/zh
Publication of CN115496079A publication Critical patent/CN115496079A/zh
Application granted granted Critical
Publication of CN115496079B publication Critical patent/CN115496079B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及自然语言的处理及转换技术领域,特别是指一种中文翻译方法,所述方法包括:S1、对训练集的中文源数据进行外语化笔画序列建模,得到所述中文源数据的外语化笔画序列;S2、对所述外语化笔画序列进行密文数据增强,得到密文;S3、对所述外语化笔画序列的数据集和所述密文的数据集,以及对应译文的数据集进行联合子词学习,并对文本进行切分,得到后续模型训练的最终数据集;S4、用所述最终数据集,对变换器Transformer模型进行多源一致性训练,得到中文神经机器翻译模型;S5、使用所述中文神经机器翻译模型,将待翻译语句翻译成目标语句。采用本发明,明显地提升了翻译效果并减少了模型参数量。

Description

一种中文翻译方法和装置
技术领域
本发明涉及自然语言的处理及转换技术领域,特别是指一种中文翻译方法和装置。
背景技术
机器翻译是指通过计算机技术将一种自然语言自动转换为另一种自然语言的过程。随着深度学习技术的发展,神经机器翻译已经成为新一代机器翻译技术,基于深度神经网络的机器翻译模型已有较强的学习能力。神经机器翻译在中文上的应用,通常以单个汉字字符作为最小的表示单元,通过对文本进行中文分词得到模型的输入序列,而中文字符内部蕴含着偏旁部首等重要信息,这些信息对中文的理解有着重要作用,例如,所有以“扌”为部首的汉字基本都是动词,同时都有依靠手来行动的意义。以汉字字符为最小表示单元的做法,隐藏了中文字符内部的丰富信息,限制了神经机器翻译模型的学习。
发明内容
本发明提供了一种中文翻译方法和装置,用以对中文进行高效准确的翻译。所述技术方案如下:
一方面,提供了一种中文翻译方法,所述方法包括:
S1、对训练集的中文源数据进行外语化笔画序列建模,得到所述中文源数据的外语化笔画序列;
S2、对所述外语化笔画序列进行密文数据增强,得到密文;
S3、对所述外语化笔画序列的数据集和所述密文的数据集,以及对应译文的数据集进行联合子词学习,并对文本进行切分,得到后续模型训练的最终数据集;
S4、用所述最终数据集,对变换器Transformer模型进行多源一致性训练,得到中文神经机器翻译模型;
S5、使用所述中文神经机器翻译模型,将待翻译语句翻译成目标语句。
可选地,所述S1的对训练集的中文源数据进行外语化笔画序列建模,得到所述中文源数据的外语化笔画序列,具体包括:
S11、将训练集中文语料句子中的字符用空格分隔开,再根据预定义好的词典,将每个中文字符拆分为不同的笔画序列;
S12、将每个笔画映射为对应的外文字母;
所述映射,过程如下:
通过对语料统计,得到每种笔画和每种外文字母的出现频率;
映射规则为:按频率高低顺序,将笔画映射为外文字母;
根据所述映射规则,把所述笔画序列转换成所述外语化笔画序列。
可选地,所述外语化笔画序列包括拉丁化笔画序列,对汉字进行笔画拆分时,预定义了25种不同的笔画,将这25种笔画和26个小写英文字母构建映射,所述S12的映射过程中按频率高低顺序,将笔画映射为外文字母,具体包括:
将在中文中出现频率最高的第一笔画映射为在英文中出现频率最高的第一字母,所述第一笔画为:一,所述第一字母为:e,剩余笔画和字母按照频率高低顺序一一映射起来,最终剩余频率最低的英文字母z不予使用。
可选地,所述S2的对所述外语化笔画序列进行密文数据增强,得到密文,具体包括:
对所述外语化笔画序列,生成ROT-k密文;
所述ROT-k密文,表示将所述外语化笔画序列中的每个外文字母,替换为其在外文字母表中第k个位置后的字母,k是可调的参数。
可选地,k取2,获得ROT-1及ROT-2的密文,将获得的ROT-1密文及ROT-2密文、所述外语化笔画序列、以及对应译文构成后续模型训练的数据集。
可选地,所述S3的对所述外语化笔画序列的数据集和所述密文的数据集,以及对应译文的数据集,进行联合子词学习,并对文本进行切分,得到后续模型训练的最终数据集,具体包括:
所述ROT-1密文及所述ROT-2密文、所述外语化笔画序列、以及对应译文构成的数据集中,所有数据都是以外文字母表为基础字符集,将其混合在一起进行联合子词学习,并各自进行分词,得到共享的表示,所述共享的表示包括:编码器的输入词嵌入、解码器的输入词嵌入和输出分类层共享所有词嵌入参数矩阵。
可选地,所述S4的用所述最终数据集,对变换器Transformer模型进行多源一致性训练,得到中文神经机器翻译模型,具体包括:
将分词后的外语化笔画序列、密文和对应译文,输入到所述中文神经机器翻译模型中,得到分词后的外语化笔画序列和密文二者各自的负对数似然损失;接着对分词后的外语化笔画序列和密文二者的输出概率分布计算一致性损失;通过最小化这三项损失来更新模型的参数;
其中,所述一致性损失用来刻画两种输出概率分布之间的相似度,所述一致性损失:
Figure 323931DEST_PATH_IMAGE001
Figure 589696DEST_PATH_IMAGE002
表示样本
Figure 25357DEST_PATH_IMAGE003
的中文源数据,
Figure 983954DEST_PATH_IMAGE004
表示其分词后的外语化笔画序列,
Figure 876472DEST_PATH_IMAGE005
表 示
Figure 696661DEST_PATH_IMAGE004
的密文;
Figure 970516DEST_PATH_IMAGE006
表示
Figure 850747DEST_PATH_IMAGE004
通过模型后的输出和对应译文
Figure 210053DEST_PATH_IMAGE007
的负对数似然损失;
Figure 568353DEST_PATH_IMAGE008
表示
Figure 227874DEST_PATH_IMAGE009
通过模型后的输出和对应译文
Figure 279006DEST_PATH_IMAGE007
的负对数似 然损失;
Figure 128538DEST_PATH_IMAGE010
表示
Figure 211901DEST_PATH_IMAGE004
的输出概率分布对
Figure 132452DEST_PATH_IMAGE011
的 输出概率分布的KL散度;
Figure 807016DEST_PATH_IMAGE012
表示
Figure 872405DEST_PATH_IMAGE013
的输出概率分 布对
Figure 838087DEST_PATH_IMAGE004
的输出概率分布的KL散度。
另一方面,提供了一种中文翻译装置,所述装置包括:
外语化笔画序列建模模块,用于对训练集的中文源数据进行外语化笔画序列建模,得到所述中文源数据的外语化笔画序列;
密文数据增强模块,用于对所述外语化笔画序列进行密文数据增强,得到密文;
联合子词学习模块,用于对所述外语化笔画序列的数据集和所述密文的数据集,以及对应译文的数据集进行联合子词学习,并对文本进行切分,得到后续模型训练的最终数据集;
多源一致性训练模块,用于用所述最终数据集,对变换器Transformer模型进行多源一致性训练,得到中文神经机器翻译模型;
翻译模块,用于使用所述中文神经机器翻译模型,将待翻译语句翻译成目标语句。
另一方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现上述中文翻译方法。
另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述中文翻译方法。
本发明提供的技术方案带来的有益效果至少包括:
本发明所述中文神经机器翻译模型对比于目前中文机器翻译模型具有更好的表示学习能力,以及更少的模型参数。本发明在WMT 2017中英翻译数据集上训练出来的模型,在测试集上取得了不使用额外语料的最好结果,明显地提升了翻译效果并减少了模型参数量,具有大规模商业化的潜力。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种中文翻译方法流程图;
图2是本发明实施例提供的拉丁化笔画序列建模示意图;
图3是本发明实施例的密文数据增强示意图;
图4是本发明实施例的子词学习及共享源端-目标端表示示意图;
图5是本发明实施例提供的一种中文翻译装置框图;
图6是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
如图1所示,本发明实施例提供了一种中文翻译方法,所述方法包括:
S1、对训练集的中文源数据进行外语化笔画序列建模,得到所述中文源数据的外语化笔画序列;
S2、对所述外语化笔画序列进行密文数据增强,得到密文;
S3、对所述外语化笔画序列的数据集和所述密文的数据集,以及对应译文的数据集进行联合子词学习,并对文本进行切分,得到后续模型训练的最终数据集;
S4、用所述最终数据集,对变换器Transformer模型进行多源一致性训练,得到中文神经机器翻译模型;
S5、使用所述中文神经机器翻译模型,将待翻译语句翻译成目标语句。
下面结合图2-图4,详细说明本发明实施例的一种中文翻译方法,所述方法包括:
S1、对训练集的中文源数据进行外语化笔画序列建模,得到所述中文源数据的外语化笔画序列;
所述训练集是一个平行语料库,由多组含义相同,但属于不同语言文本的句子组成, 比如中文源数据“汤姆正在和艾伦聊天”,对应英文译文“Tom is talking to Allen”。
可选地,所述S1的对训练集的中文源数据进行外语化笔画序列建模,得到所述中文源数据的外语化笔画序列,具体包括:
S11、将训练集中文语料句子中的字符用空格分隔开,再根据预定义好的词典,将每个中文字符拆分为不同的笔画序列;
所述预定义好的词典可以为本领域认可的通用词典。
如图2所示,将“汤姆正在和艾伦聊天”中的每个字符拆分为不同的笔画序列。
对于拥有相同笔画序列的不同汉字,比如“井”和“开”,为了区分它们,本发明实施例在这些相同的笔画序列末尾添加不同的数字。
汉字被拆分过后,后续的中文神经机器翻译模型可以更好地学习到偏旁部首等内部特征。
S12、将每个笔画映射为对应的外文字母;所述映射,过程如下:
所述映射,过程如下:
通过对语料统计,得到每种笔画和每种外文字母的出现频率;
映射规则为:按频率高低顺序,将笔画映射为外文字母;
根据所述映射规则,把所述笔画序列转换成所述外语化笔画序列。
所述外文字母可以为拉丁字母,比如26个小写英文字母;也可以为德文字母、法文字母等其他外文字母。本发明实施例在下文中以26个小写英文字母的拉丁字母为例说明,但并不限制本发明实施例的保护范围。
可选地,所述外语化笔画序列包括拉丁化笔画序列,对汉字进行笔画拆分时,预定义了25种不同的笔画,将这25种笔画和26个小写英文字母构建映射,所述S12的映射过程中按频率高低顺序,将笔画映射为外文字母,如图2所示,将中文映射为拉丁字母的外语化笔画序列建模,称为拉丁化笔画序列建模,具体包括:
将在中文中出现频率最高的第一笔画映射为在英文中出现频率最高的第一字母,所述第一笔画为:一,所述第一字母为:e,剩余笔画和字母按照频率高低顺序一一映射起来,最终剩余频率最低的英文字母z不予使用。
语言中频率越高的符号携带的信息越少,按频率进行映射保证了将两种语言中相同地位的符号相互对应,减少编码的信息丢失。
S2、对所述外语化笔画序列进行密文数据增强,得到密文;
可选地,所述S2的对所述外语化笔画序列进行密文数据增强,得到密文,具体包括:
对所述外语化笔画序列,生成ROT-k密文;
所述ROT-k密文,表示将所述外语化笔画序列中的每个外文字母,替换为其在外文字母表中第k个位置后的字母,k是可调的参数。
可选地,k取2,获得ROT-1及ROT-2的密文,将获得的ROT-1密文及ROT-2密文、所述外语化笔画序列、以及对应译文构成后续模型训练的数据集。
经过多次取值验证,k取2,获得ROT-1及ROT-2的密文,将获得的ROT-1密文及ROT-2密文、所述外语化笔画序列、以及对应译文构成后续模型训练的数据集,得到的中文神经机器翻译模型翻译效果最好。
如表1,以拉丁化笔画序列为例,示出了本发明实施例的密文数据转换词典示意,其中包括:源序列、ROT-1密文及ROT-2密文,ROT-1密文为将所述源序列中的每个拉丁字母,替换为其在拉丁字母表中第1个位置后的字母得到的密文,ROT-2密文为将所述源序列中的每个拉丁字母,替换为其在拉丁字母表中第2个位置后的字母得到的密文。
表1 密文数据转换词典示意
Figure 206621DEST_PATH_IMAGE014
如图3,以拉丁化笔画序列为例,示出了本发明实施例的密文数据增强示意图,其中包括:中文源数据、中文源数据的拉丁化笔画序列、密文、英文译文。
S3、对所述外语化笔画序列的数据集和所述密文的数据集,以及对应译文的数据集进行联合子词学习,并对文本进行切分,得到后续模型训练的最终数据集;
可选地,所述S3的对所述外语化笔画序列的数据集和所述密文的数据集,以及对应译文的数据集进行联合子词学习,并对文本进行切分,得到后续模型训练的最终数据集,具体包括:
所述ROT-1密文及所述ROT-2密文、所述外语化笔画序列、以及对应译文构成的数据集中,所有数据都是以外文字母表为基础字符集,将其混合在一起进行联合子词学习,并各自进行分词,得到共享的表示,所述共享的表示包括:编码器的输入词嵌入、解码器的输入词嵌入和输出分类层共享所有词嵌入参数矩阵。
所述联合子词学习,学习到的词表是属于所有源端和目标端(外语化笔画序列和密文,以及外文)数据的,因此可以在后续的中文神经机器翻译模型上应用权重共享技术。也就是在基于序列-序列架构的中文神经机器翻译模型中,编码器的输入词嵌入、解码器的输入词嵌入和输出分类层进行共享,词嵌入是通过词在词表中的下标,去词嵌入矩阵中取到对应的向量,输出分类层则是相反的过程,通过模型输出的向量找到词表中概率最大的词,因此这一矩阵也可以共享。即三者都使用相同的词嵌入矩阵。在现有的做法中,由于中文和外文无法共享词表,所以无法共享所有的词嵌入参数矩阵,但是通过本发明实施例的外语化笔画序列建模后,中文的外语化笔画序列和外文拥有相同的基础字符集,可以统一学习一个词表,从而编码器的输入词嵌入、解码器的输入词嵌入和输出分类层共享所有词嵌入参数矩阵。
以拉丁化笔画序列为例,通过子词学习,中文字符的拉丁化笔画序列,被拆分成了其内部偏旁部首对应的拉丁化笔画子序列,比如图4中a所示的中文“和”对应的拉丁化笔画序列“teatoaie”,被拆分成了“禾”和“口”对应的拉丁化笔画子序列“teato”和“aie”,“teato”后面用“@@”表示该子序列不是词的末尾。这样可以提取出字符内部信息,同时进行联合子词学习,得到了拉丁化笔画序列同英文之间的共享子词,比如图4中b所示的源端的ttaeer被拆分成:t@@ ta@@ eer三个子词,目标端的talk被拆分成:ta@@ lk两个子词,它们能共享ta这个子词。
这一步得到的词表相对现有的做法会小很多,是本发明实施例的方法能够打破参数瓶颈的主要原因,同时共享的表示也能提升模型性能。
S4、用所述最终数据集,对变换器Transformer模型进行多源一致性训练,得到中文神经机器翻译模型;
所述多源一致性训练任务的平行语料包含多个源端文本,对每一个样本,源端文本包括:分词后的外语化笔画序列,以及分词后的两种密文。
可选地,所述S4的用所述最终数据集,对变换器Transformer模型进行多源一致性训练,得到中文神经机器翻译模型,具体包括:
将分词后的外语化笔画序列、密文和对应译文,输入到所述中文神经机器翻译模型中,得到外语化笔画序列和密文二者各自的负对数似然损失;接着对外语化笔画序列和密文二者的输出概率分布计算一致性损失;通过最小化这三项损失来更新模型的参数;
其中,所述一致性损失用来刻画两种输出概率分布之间的相似度,所述一致性损失:
Figure 333977DEST_PATH_IMAGE001
Figure 155171DEST_PATH_IMAGE002
表示样本
Figure 658965DEST_PATH_IMAGE003
的中文源数据,
Figure 147584DEST_PATH_IMAGE004
表示其分词后的外语化笔画序列,
Figure 445841DEST_PATH_IMAGE005
表 示
Figure 643080DEST_PATH_IMAGE004
的密文;
Figure 137515DEST_PATH_IMAGE006
表示
Figure 683903DEST_PATH_IMAGE004
通过模型后的输出和对应译文
Figure 418640DEST_PATH_IMAGE007
的负对数似然损失;
Figure 951778DEST_PATH_IMAGE008
表示
Figure 515483DEST_PATH_IMAGE009
通过模型后的输出和对应译文
Figure 198268DEST_PATH_IMAGE007
的负对数似然损失;
Figure 87596DEST_PATH_IMAGE010
表示
Figure 121411DEST_PATH_IMAGE004
的输出概率分布对
Figure 19965DEST_PATH_IMAGE009
的 输出概率分布的KL散度;
Figure 822836DEST_PATH_IMAGE015
表示
Figure 145715DEST_PATH_IMAGE013
的输出概率分 布对
Figure 666826DEST_PATH_IMAGE004
的输出概率分布的KL散度。
如表2所示,示出了本发明实施例的多源一致性学习算法流程。
表2 多源一致性学习算法流程
Figure 103492DEST_PATH_IMAGE016
一致性损失基于类间散度损失,类间散度损失,又叫KL散度,公式如下:
Figure 26449DEST_PATH_IMAGE017
KL散度可以用来衡量两个概率分布之间的相似性,两个概率分布越接近,KL散度越小。
外语化笔画序列和密文输入模型后都会输出一个概率分布,对于预测的某个词来说,是用一个N维的向量来表示,本发明实施例假设外语化笔画序列和密文对这个词的输出概率分布分别为P、Q,那么KL散度计算就由上面的公式给出,可以发现这一计算过程并不是对称的,即P对Q的KL散度和Q对P的KL散度是不一样的,在本发明实施例的方法中,通过分别计算P对Q的和Q对P的KL散度,再取均值来得到所述的第三项损失,这项损失本发明实施例命名为一致性损失。
而对源文和密文做一致性损失的目的是,从二者语义相似的角度来约束模型的学习过程。即源文和密文是语义相似的,同时密文可以增强语料的语法和形式多样性,提供了描述语言的另一个角度,为了使模型从源文和密文中学习到相同语义分布,需要进行这样的约束。
S5、使用所述中文神经机器翻译模型,将待翻译语句翻译成目标语句。
可选地,用基于集束搜索的解码方法生成目标语句。
集束搜索的解码方法具体为:
在解码过程中,每次选择概率最大的几个目标词作为候选集,并以概率值作为当前词的评分,在每个集束都生成完句子后,选择评分最高的集束中的目标语句作为最终的翻译结果。
如图5所示,本发明实施例还提供一种中文翻译装置,所述装置包括:
外语化笔画序列建模模块510,用于对训练集的中文源数据进行外语化笔画序列建模,得到所述中文源数据的外语化笔画序列;
密文数据增强模块520,用于对所述外语化笔画序列进行密文数据增强,得到密文;
联合子词学习模块530,用于对所述外语化笔画序列的数据集和所述密文的数据集,以及对应译文的数据集进行联合子词学习,并对文本进行切分,得到后续模型训练的最终数据集;
多源一致性训练模块540,用于用所述最终数据集,对变换器Transformer模型进行多源一致性训练,得到中文神经机器翻译模型;
翻译模块550,用于使用所述中文神经机器翻译模型,将待翻译语句翻译成目标语句。
本发明实施例提供的一种中文翻译装置,其功能结构与本发明实施例提供的一种中文翻译方法相对应,在此不再赘述。
图6是本发明实施例提供的一种电子设备600的结构示意图,该电子设备600可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)601和一个或一个以上的存储器602,其中,所述存储器602中存储有至少一条指令,所述至少一条指令由所述处理器601加载并执行以实现上述中文翻译方法的步骤。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由终端中的处理器执行以完成上述中文翻译方法。例如,所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种中文翻译方法,其特征在于,所述方法包括:
S1、对训练集的中文源数据进行外语化笔画序列建模,得到所述中文源数据的外语化笔画序列;
所述S1的对训练集的中文源数据进行外语化笔画序列建模,得到所述中文源数据的外语化笔画序列,具体包括:
S11、将训练集中文语料句子中的字符用空格分隔开,再根据预定义好的词典,将每个中文字符拆分为不同的笔画序列;
S12、将每个笔画映射为对应的外文字母;
所述映射,过程如下:
通过对语料统计,得到每种笔画和每种外文字母的出现频率;
映射规则为:按频率高低顺序,将笔画映射为外文字母;
根据所述映射规则,把所述笔画序列转换成所述外语化笔画序列;
所述外语化笔画序列包括拉丁化笔画序列,对汉字进行笔画拆分时,预定义了25种不同的笔画,将这25种笔画和26个小写英文字母构建映射,所述S12的映射过程中按频率高低顺序,将笔画映射为外文字母,具体包括:
将在中文中出现频率最高的第一笔画映射为在英文中出现频率最高的第一字母,所述第一笔画为:一,所述第一字母为:e,剩余笔画和字母按照频率高低顺序一一映射起来,最终剩余频率最低的英文字母z不予使用;
S2、对所述外语化笔画序列进行密文数据增强,得到密文;
所述S2的对所述外语化笔画序列进行密文数据增强,得到密文,具体包括:
对所述外语化笔画序列,生成ROT-k密文;
所述ROT-k密文,表示将所述外语化笔画序列中的每个外文字母,替换为其在外文字母表中第k个位置后的字母,k取2,获得ROT-1及ROT-2的密文,将获得的ROT-1密文及ROT-2密文、所述外语化笔画序列、以及对应译文构成后续模型训练的数据集;
S3、对所述外语化笔画序列的数据集和所述密文的数据集,以及对应译文的数据集进行联合子词学习,并对文本进行切分,得到后续模型训练的最终数据集;
所述S3的对所述外语化笔画序列的数据集和所述密文的数据集,以及对应译文的数据集,进行联合子词学习,并对文本进行切分,得到后续模型训练的最终数据集,具体包括:
所述ROT-1密文及所述ROT-2密文、所述外语化笔画序列、以及对应译文构成的数据集中,所有数据都是以外文字母表为基础字符集,将其混合在一起进行联合子词学习,并各自进行分词,得到共享的表示,所述共享的表示包括:编码器的输入词嵌入、解码器的输入词嵌入和输出分类层共享所有词嵌入参数矩阵;
S4、用所述最终数据集,对变换器Transformer模型进行多源一致性训练,得到中文神经机器翻译模型;
所述S4的用所述最终数据集,对变换器Transformer模型进行多源一致性训练,得到中文神经机器翻译模型,具体包括:
将分词后的外语化笔画序列、密文和对应译文,输入到所述中文神经机器翻译模型中,得到分词后的外语化笔画序列和密文二者各自的负对数似然损失;接着对分词后的外语化笔画序列和密文二者的输出概率分布计算一致性损失;通过最小化这三项损失来更新模型的参数;
其中,所述一致性损失用来刻画两种输出概率分布之间的相似度,所述一致性损失:
Figure 966835DEST_PATH_IMAGE001
Figure 919485DEST_PATH_IMAGE002
表示样本
Figure 494823DEST_PATH_IMAGE003
的中文源数据分词后的外语化笔画序列,
Figure 768809DEST_PATH_IMAGE004
表示
Figure 87795DEST_PATH_IMAGE002
的密文;
Figure 396417DEST_PATH_IMAGE005
表示
Figure 80339DEST_PATH_IMAGE006
通过模型后的输出和对应译文
Figure 638359DEST_PATH_IMAGE007
的负对数似然损失;
Figure 698719DEST_PATH_IMAGE008
表示
Figure 658585DEST_PATH_IMAGE009
通过模型后的输出和对应译文
Figure 513408DEST_PATH_IMAGE010
的负对数似然损失;
Figure 824304DEST_PATH_IMAGE011
表示
Figure 422776DEST_PATH_IMAGE006
的输出概率分布对
Figure 237148DEST_PATH_IMAGE009
的输出概率分布的KL散度;
Figure 528452DEST_PATH_IMAGE012
表示
Figure 765791DEST_PATH_IMAGE009
的输出概率分布对
Figure 230271DEST_PATH_IMAGE006
的输出概率分布的KL散度;
S5、使用所述中文神经机器翻译模型,将待翻译语句翻译成目标语句。
2.一种中文翻译装置,其特征在于,所述装置包括:
外语化笔画序列建模模块,用于对训练集的中文源数据进行外语化笔画序列建模,得到所述中文源数据的外语化笔画序列;
所述外语化笔画序列建模模块,具体用于:
将训练集中文语料句子中的字符用空格分隔开,再根据预定义好的词典,将每个中文字符拆分为不同的笔画序列;
将每个笔画映射为对应的外文字母;
所述映射,过程如下:
通过对语料统计,得到每种笔画和每种外文字母的出现频率;
映射规则为:按频率高低顺序,将笔画映射为外文字母;
根据所述映射规则,把所述笔画序列转换成所述外语化笔画序列;
所述外语化笔画序列包括拉丁化笔画序列,对汉字进行笔画拆分时,预定义了25种不同的笔画,将这25种笔画和26个小写英文字母构建映射,所述映射过程中按频率高低顺序,将笔画映射为外文字母,具体包括:
将在中文中出现频率最高的第一笔画映射为在英文中出现频率最高的第一字母,所述第一笔画为:一,所述第一字母为:e,剩余笔画和字母按照频率高低顺序一一映射起来,最终剩余频率最低的英文字母z不予使用;
密文数据增强模块,用于对所述外语化笔画序列进行密文数据增强,得到密文;
所述密文数据增强模块,具体用于:
对所述外语化笔画序列,生成ROT-k密文;
所述ROT-k密文,表示将所述外语化笔画序列中的每个外文字母,替换为其在外文字母表中第k个位置后的字母,k取2,获得ROT-1及ROT-2的密文,将获得的ROT-1密文及ROT-2密文、所述外语化笔画序列、以及对应译文构成后续模型训练的数据集;
联合子词学习模块,用于对所述外语化笔画序列的数据集和所述密文的数据集,以及对应译文的数据集进行联合子词学习,并对文本进行切分,得到后续模型训练的最终数据集;
所述联合子词学习模块,具体用于:
所述ROT-1密文及所述ROT-2密文、所述外语化笔画序列、以及对应译文构成的数据集中,所有数据都是以外文字母表为基础字符集,将其混合在一起进行联合子词学习,并各自进行分词,得到共享的表示,所述共享的表示包括:编码器的输入词嵌入、解码器的输入词嵌入和输出分类层共享所有词嵌入参数矩阵;
多源一致性训练模块,用于用所述最终数据集,对变换器Transformer模型进行多源一致性训练,得到中文神经机器翻译模型;
所述多源一致性训练模块,具体用于:
将分词后的外语化笔画序列、密文和对应译文,输入到所述中文神经机器翻译模型中,得到分词后的外语化笔画序列和密文二者各自的负对数似然损失;接着对分词后的外语化笔画序列和密文二者的输出概率分布计算一致性损失;通过最小化这三项损失来更新模型的参数;
其中,所述一致性损失用来刻画两种输出概率分布之间的相似度,所述一致性损失:
Figure 836833DEST_PATH_IMAGE001
Figure 361355DEST_PATH_IMAGE002
表示样本
Figure 318947DEST_PATH_IMAGE003
的中文源数据分词后的外语化笔画序列,
Figure 321538DEST_PATH_IMAGE004
表示
Figure 48185DEST_PATH_IMAGE002
的密文;
Figure 946871DEST_PATH_IMAGE005
表示
Figure 188497DEST_PATH_IMAGE006
通过模型后的输出和对应译文
Figure 932462DEST_PATH_IMAGE007
的负对数似然损失;
Figure 841512DEST_PATH_IMAGE008
表示
Figure 379941DEST_PATH_IMAGE009
通过模型后的输出和对应译文
Figure 374441DEST_PATH_IMAGE010
的负对数似然损失;
Figure 656518DEST_PATH_IMAGE011
表示
Figure 121872DEST_PATH_IMAGE006
的输出概率分布对
Figure 893519DEST_PATH_IMAGE009
的输出概率分布的KL散度;
Figure 312999DEST_PATH_IMAGE012
表示
Figure 461084DEST_PATH_IMAGE009
的输出概率分布对
Figure 16830DEST_PATH_IMAGE006
的输出概率分布的KL散度;
翻译模块,用于使用所述中文神经机器翻译模型,将待翻译语句翻译成目标语句。
3.一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令,其特征在于,所述至少一条指令由所述处理器加载并执行以实现如权利要求1所述中文翻译方法。
4.一种计算机可读存储介质,所述存储介质中存储有至少一条指令,其特征在于,所述至少一条指令由处理器加载并执行以实现如权利要求1所述中文翻译方法。
CN202211463449.2A 2022-11-22 2022-11-22 一种中文翻译方法和装置 Active CN115496079B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211463449.2A CN115496079B (zh) 2022-11-22 2022-11-22 一种中文翻译方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211463449.2A CN115496079B (zh) 2022-11-22 2022-11-22 一种中文翻译方法和装置

Publications (2)

Publication Number Publication Date
CN115496079A CN115496079A (zh) 2022-12-20
CN115496079B true CN115496079B (zh) 2023-02-03

Family

ID=85105961

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211463449.2A Active CN115496079B (zh) 2022-11-22 2022-11-22 一种中文翻译方法和装置

Country Status (1)

Country Link
CN (1) CN115496079B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111523306A (zh) * 2019-01-17 2020-08-11 阿里巴巴集团控股有限公司 文本的纠错方法、装置和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10380241B2 (en) * 2010-05-26 2019-08-13 Warren Daniel Child Modular system and method for managing chinese, japanese, and korean linguistic data in electronic form

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111523306A (zh) * 2019-01-17 2020-08-11 阿里巴巴集团控股有限公司 文本的纠错方法、装置和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CipherDAug: Ciphertext based Data Augmentation for Neural Machine Translation;Nishant Kambhatla et al.;《Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics》;20220522;第201-218页 *
基于笔画中文字向量模型设计与研究;赵浩新 等;《中文信息学报》;20190531;第33卷(第5期);第17-23页 *

Also Published As

Publication number Publication date
CN115496079A (zh) 2022-12-20

Similar Documents

Publication Publication Date Title
CN108920473B (zh) 一种基于同类词与同义词替换的数据增强机器翻译方法
CN107870901B (zh) 从翻译源原文生成相似文的方法、记录介质、装置以及系统
CN110619043A (zh) 基于动态词向量的自动文本摘要生成方法
US20170308526A1 (en) Compcuter Implemented machine translation apparatus and machine translation method
JP7413630B2 (ja) 要約生成モデルの訓練方法、装置、デバイス及び記憶媒体
Jansen Word and phrase translation with word2vec
Khan et al. RNN-LSTM-GRU based language transformation
Li et al. Improving text normalization using character-blocks based models and system combination
CN115587590A (zh) 训练语料集构建方法、翻译模型训练方法、翻译方法
JP2018055670A (ja) 類似文生成方法、類似文生成プログラム、類似文生成装置及び類似文生成システム
KR20230009564A (ko) 앙상블 스코어를 이용한 학습 데이터 교정 방법 및 그 장치
KR101079869B1 (ko) 품사 및 동형이의어 태깅 방법 및 이를 이용한 단말 장치
CN111428518B (zh) 一种低频词翻译方法及装置
CN115033753A (zh) 训练语料集构建方法、文本处理方法及装置
Yang et al. Spell Checking for Chinese.
CN115496079B (zh) 一种中文翻译方法和装置
Li et al. Cross-lingual transferring of pre-trained contextualized language models
CN111178060A (zh) 一种基于语言模型的韩语分词还原方法
Nguyen et al. OCR error correction for Vietnamese handwritten text using neural machine translation
Kryeziu et al. Pre-training MLM using BERT for the albanian language
Raza et al. Saraiki Language Word Prediction And Spell Correction Framework
Stüker et al. Human translations guided language discovery for ASR systems.
JPH11328316A (ja) 文字認識装置、方法及び記憶媒体
Chaudhury et al. DACL: Disfluency augmented curriculum learning for fluent text generation
Singvongsa et al. Lao-Thai machine translation using statistical model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant