CN112417897B - 词对齐模型训练、文本处理的方法、系统、设备和介质 - Google Patents

词对齐模型训练、文本处理的方法、系统、设备和介质 Download PDF

Info

Publication number
CN112417897B
CN112417897B CN202011374919.9A CN202011374919A CN112417897B CN 112417897 B CN112417897 B CN 112417897B CN 202011374919 A CN202011374919 A CN 202011374919A CN 112417897 B CN112417897 B CN 112417897B
Authority
CN
China
Prior art keywords
model
word
result
word alignment
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011374919.9A
Other languages
English (en)
Other versions
CN112417897A (zh
Inventor
鲍开放
俞谦
李健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Zhilv Information Technology Co ltd
Original Assignee
Shanghai Zhilv Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Zhilv Information Technology Co ltd filed Critical Shanghai Zhilv Information Technology Co ltd
Priority to CN202011374919.9A priority Critical patent/CN112417897B/zh
Publication of CN112417897A publication Critical patent/CN112417897A/zh
Application granted granted Critical
Publication of CN112417897B publication Critical patent/CN112417897B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种词对齐模型训练、文本处理的方法、系统、设备和介质,词对齐模型的训练方法包括:获取样本双语语料;基于所述样本双语语料训练得到分词模型;将所述样本双语语料输入至所述分词模型以获取分词结果;获取所述分词结果对应的词对齐结果;基于所述分词结果训练得到翻译模型,其中,所述翻译模型用于输出与所述分词结果对应的注意力矩阵;基于所述词对齐结果和所述注意力矩阵训练得到词对齐模型。本发明通过与双语语料对应的词对齐结果和翻译模型对应的注意力矩阵训练得到词对齐模型,优化了词对齐模型,提高了词对齐模型的精度,优化了占位符的映射准确性,提高了实体词翻译准确性,提高了文本整体的翻译准确性。

Description

词对齐模型训练、文本处理的方法、系统、设备和介质
技术领域
本发明涉及文本翻译处理技术领域,尤其涉及一种词对齐模型训练、文本处理的方法、系统、设备和介质。
背景技术
国际化的深入,使得各国之间的交流越来越深入,对翻译的需求也越来越大。随着深度学习的兴起,机器自动翻译的发展迎来了很大的突破。
机器翻译受限于训练数据,在不同场景下的效果区别会比较大。比如用通用领域的翻译服务来翻译旅游领域的一些文本,有些专业术语会出现明显的错误。文本中的实体词(时间、数字、专名等)非常重要,往往蕴含了非常关键的信息,体现了领域的特色。在机器翻译中保证实体词的翻译准确性是垂直领域自适应过程中非常重要的一部分。实际中我们可以基于词典,对实体词进行占位符替换,然后模型翻译后再重新替换回去。这种方式存在着占位符个数和种类多了之后难以维护的问题。通常,我们可以借助词对齐模型来进行优化这个过程。
词对齐指的是机器翻译过程中源语言和目标语言单词之间的对应关系。当前的单词对齐工具一般是一种基于统计的模型用来训练得到词对齐模型。然而在基于现有的词对齐模型得到的包含实体词的翻译结果并不能满足实际的翻译准确度的要求。
发明内容
本发明要解决的技术问题是为了克服现有技术中机器翻译存在实体词的翻译准确性不高的缺陷,目的在于提供一种词对齐模型训练、文本处理的方法、系统、设备和介质。
本发明是通过下述技术方案来解决上述技术问题:
本发明提供一种词对齐模型的训练方法,所述训练方法包括:
获取样本双语语料;
基于所述样本双语语料训练得到分词模型;
将所述样本双语语料输入至所述分词模型以获取分词结果;
获取所述分词结果对应的词对齐结果;
基于所述分词结果训练得到翻译模型,其中,所述翻译模型用于输出与所述分词结果对应的注意力矩阵;
基于所述词对齐结果和所述注意力矩阵训练得到词对齐模型。
较佳地,所述翻译模型包括基于自注意力的序列到序列模型;
所述注意力矩阵包括交叉注意力矩阵;
其中,所述交叉注意力矩阵的三个维度分别为注意力的头数、译文的长度和源语言的长度。
较佳地,所述基于所述词对齐结果和所述注意力矩阵训练得到词对齐模型的步骤具体包括:
将所述词对齐结果和所述注意力矩阵作为输入,采用卷积神经网络训练得到所述词对齐模型。
较佳地,所述词对齐模型包括依次连接的第一层卷积层、第二层卷积层、第三层卷积层、第四层卷积层、第五层卷积层和平均聚合器;
所述第一层卷积层、所述第二层卷积层、所述第三层卷积层和所述第四层卷积层的激活函数均为线性整流函数,所述第五层卷积层的激活函数为Sigmoid函数;
和/或,
所述获取所述分词结果对应的词对齐结果的步骤具体包括:
将所述分词结果输入Fast Align(一种词对齐工具)词对齐工具以获取所述词对齐结果。
本发明还提供一种待翻译文本的处理方法,所述处理方法基于前述的词对齐模型的训练方法实现,所述处理方法包括:
对所述待翻译文本进行预处理以获得预处理结果;
识别出所述预处理结果中的目标内容,并采用占位符替换对应位置的所述目标内容,以获取占位符替换结果;
将所述占位符替换结果输入至所述分词模型中以获取目标分词结果;
将所述目标分词结果输入至所述翻译模型以获取中间翻译文本;
将所述中间翻译文本输入至所述词对齐模型以获取目标词对齐结果;
根据所述目标词对齐结果将所述中间翻译文本中的所述占位符替换为对应的所述目标内容,以获取目标翻译文本。
本发明还提供一种词对齐模型的训练系统,所述训练系统包括:语料获取模块、分词模型训练模块、分词结果获取模块、词对齐结果获取模块、翻译模型训练模块和词对齐模型训练模块;
所述语料获取模块用于获取样本双语语料;
所述分词模型训练模块用于基于所述样本双语语料训练得到分词模型;
所述分词结果获取模块用于将所述样本双语语料输入至所述分词模型以获取分词结果;
所述词对齐结果获取模块用于获取所述分词结果对应的词对齐结果;
所述翻译模型训练模块用于基于所述分词结果训练得到翻译模型,其中,所述翻译模型用于输出与所述分词结果对应的注意力矩阵;
所述词对齐模型训练模块用于基于所述词对齐结果和所述注意力矩阵训练得到词对齐模型。
较佳地,所述翻译模型包括基于自注意力的序列到序列模型;
所述注意力矩阵包括交叉注意力矩阵;
其中,所述交叉注意力矩阵的三个维度分别为注意力的头数、译文的长度和源语言的长度。
较佳地,所述词对齐模型训练模块用于将所述词对齐结果和所述注意力矩阵作为输入,采用卷积神经网络训练得到所述词对齐模型。
较佳地,所述词对齐模型包括依次连接的第一层卷积层、第二层卷积层、第三层卷积层、第四层卷积层、第五层卷积层和平均聚合器;
所述第一层卷积层、所述第二层卷积层、所述第三层卷积层和所述第四层卷积层的激活函数均为线性整流函数,所述第五层卷积层的激活函数为Sigmoid(S型生长曲线)函数;
和/或,
所述词对齐结果获取模块用于将所述分词结果输入Fast Align词对齐工具以获取所述词对齐结果。
本发明还提供一种待翻译文本的处理系统,所述处理系统基于前述的词对齐模型的训练系统实现,所述处理系统包括:预处理模块、占位符替换模块、目标分词结果获取模块、中间翻译文本获取模块、目标词对齐结果获取模块和目标翻译文本获取模块;
所述预处理模块用于对所述待翻译文本进行预处理以获得预处理结果;
所述占位符替换模块用于识别出所述预处理结果中的目标内容,并采用占位符替换对应位置的所述目标内容,以获取占位符替换结果;
所述目标分词结果获取模块用于将所述占位符替换结果输入至所述分词模型中以获取目标分词结果;
所述中间翻译文本获取模块用于将所述目标分词结果输入至所述翻译模型以获取中间翻译文本;
所述目标词对齐结果获取模块用于将所述中间翻译文本输入至所述词对齐模型以获取目标词对齐结果;
所述目标翻译文本获取模块用于根据所述目标词对齐结果将所述中间翻译文本中的所述占位符替换为对应的所述目标内容,以获取目标翻译文本。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现前述的词对齐模型的训练方法,和/或,实现前述的待翻译文本的处理方法。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现前述的词对齐模型的训练方法的步骤,和/或,实现前述的待翻译文本的处理方法。
本发明的积极进步效果在于:通过与双语语料对应的词对齐结果和翻译模型对应的注意力矩阵训练得到词对齐模型,利用翻译模型编码文本的句子级语义信息进行词对齐工作,将词对齐模型和翻译模型集成到单个的机器翻译网络中,优化了词对齐模型,提高了词对齐模型的精度,优化了占位符的映射准确性,提高了实体词翻译准确性,提高了文本整体的翻译准确性。
附图说明
图1为本发明的实施例1的词对齐模型的训练方法的流程图。
图2为本发明的实施例2的词对齐模型的训练方法的流程图。
图3为本发明的实施例3的待翻译文本的处理方法的流程图。
图4为本发明的实施例4的词对齐模型的训练系统的模块示意图。
图5为本发明的实施例6的待翻译文本的处理系统的模块示意图。
图6为本发明的实施例7的电子设备的结构示意图。
具体实施方式
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
实施例1
本实施例提供一种词对齐模型的训练方法。参照图1,本实施例的词对齐模型的训练方法包括:
S101、获取样本双语语料。
S102、基于样本双语语料训练得到分词模型。对样本双语语料的一部分进行清洗和拆句的预处理,对预处理后的这部分样本双语语料作为输入并使用开源的SentencePiece(一种分词训练工具)进行训练得到分词模型,训练过程中,SentencePiece对输入的样本双语语料进行分词以切分成子词序列。其中,基于SentencePiece如何对双语预料进行训练得到分词模型属于本领域的成熟技术,此处就不再赘述。
S103、将样本双语语料输入至分词模型以获取分词结果。将全部的将样本双语语料进行清洗和拆句的预处理,将预处理后的样本双语语料输入至分词模型以获取分词结果。
S104、获取分词结果对应的词对齐结果。
S105、基于分词结果训练得到翻译模型,其中,翻译模型用于输出与分词结果对应的注意力矩阵。
具体实施时,翻译模型包括但不限于基于自注意力的序列到序列模型,如Transformer(一种自然语言处理翻译模型)模型。翻译模型的编码器采用卷积神经网络、循环神经网络、自注意力的编码器等。
翻译模型不限制语种,可以用于中英单语种,也可以用于中英互译,也可以用于多语种互译;当然也适用于其他任意语种之间的翻译处理。
Transformer模型有3个注意力矩阵,分别为2个自注意力矩阵和1个编码器和解码器之间的交叉注意力矩阵。注意力矩阵采用3个注意力矩阵中的交叉注意力矩阵。其中,交叉注意力矩阵的三个维度分别为注意力的头数、译文的长度和源语言的长度。
S106、基于词对齐结果和注意力矩阵训练得到词对齐模型。
其中,词对齐模型用于输出双语语料中源语料和目标语料中各个词的对应关系。
本实施例通过与双语语料对应的词对齐结果和翻译模型对应的注意力矩阵训练得到词对齐模型,利用翻译模型编码文本的句子级语义信息进行词对齐工作,将词对齐模型和翻译模型集成到单个的机器翻译网络中,优化了词对齐模型,提高了词对齐模型的精度,优化了占位符的映射准确性,提高了实体词翻译准确性,提高了文本整体的翻译准确性。
实施例2
本实施例的词对齐模型的训练方法是对实施例1的进一步改进,具体地:
参照图2,步骤S104具体包括:
S1041、将分词结果输入Fast Align词对齐工具以获取词对齐结果。
其中,Fast Align属于基于统计的词对齐工具,使用IBM3(一种词对齐模型)模型实现词对齐功能。Fast Align内存占用小,可支持千万条级别的平行语料同时训练。将分词结果输入Fast Align以无监督的方式获取词对齐结果,训练时间短,训练效率高。
步骤S106具体包括:
S1061、将词对齐结果和注意力矩阵作为输入,采用卷积神经网络训练得到词对齐模型。将基于统计的词对齐结果和注意力矩阵作为输入,采用卷积神经网络训练以有监督方式得到词对齐模型,进一步优化了词对齐模型,提高了词对齐模型的精度,优化了占位符的映射准确性,提升了实体词的翻译准确性,提高了文本整体的翻译准确性。
具体实施时,词对齐模型包括依次连接的第一层卷积层、第二层卷积层、第三层卷积层、第四层卷积层、第五层卷积层和平均聚合器。
第一层卷积层、第二层卷积层、第三层卷积层和第四层卷积层的激活函数均为线性整流函数,第五层卷积层的激活函数为Sigmoid函数。
其中,第一层卷积层的卷积核为(9,9),卷积核的数量为128;第二层卷积层的卷积核为(7,7),卷积核的数量为64;第三层卷积层的卷积核为(5,5),卷积核的数量为64;第四层卷积层的卷积核为(3,3),卷积核的数量为64;第五层卷积层的卷积核为(1,1),卷积核的数量为16。
词对齐模型的输入数据包括:批大小、批目标语言最大长度、批源语言最大长度和自注意力头数。词对齐模型的输出数据包括:批目标语言最大长度和批源语言最大长度。
本实施例的词对齐模型属于多项二分类模型,假设源语言有M个词,目标语言有N个词,即为一个M*N的矩阵,矩阵上面的点为1则表示有映射关系,0为没有映射关系。词对齐模型的损失函数即为M*N个二分类的交叉熵和。由于其中正样本1的个数会比负样本少很多,本实施例对损失进行采样以降低负样本的权重。
本实施例的词对齐模型的损失函数的定义如下:
Figure BDA0002806958160000081
其中,L是模型损失值,T是译文词片序列,S是原文词片序列,δ∈{0,1}是一个随机掩码,yt,s∈{0,1}是第t个译文词片与第s个原文词片之间的真实映射关系(0表示没有映射关系,1表示存在映射关系),
Figure BDA0002806958160000082
表示模型针对第t个译文词片与第s个原文词片之间输出的存在映射关系概率。
本实施例的词对齐模型的损失函数也可以采用其他类型的损失函数,具体可以根据实际情况进行选择与调整,在此就不再赘述。
本实施例通过与双语语料对应的词对齐结果和翻译模型对应的注意力矩阵作为输入,采用卷积神经网络训练得到词对齐模型,利用翻译模型编码文本的句子级语义信息进行词对齐工作,将词对齐模型和翻译模型集成到单个的机器翻译网络中,进一步优化了词对齐模型,提高了词对齐模型的精度,优化了占位符的映射准确性,提高了实体词翻译准确性,提高了文本整体的翻译准确性。
实施例3
本实施例提供一种待翻译文本的处理方法,该处理方法基于前述的词对齐模型的训练方法实现。参照图3,待翻译文本的处理方法包括:
S201、对待翻译文本进行预处理以获得预处理结果。
S202、识别出预处理结果中的目标内容,并采用占位符替换对应位置的目标内容,以获取占位符替换结果。目标内容包括但不限于实体词。
S203、将占位符替换结果输入至分词模型中以获取目标分词结果。
S204、将目标分词结果输入至翻译模型以获取中间翻译文本。
S205、将中间翻译文本输入至词对齐模型以获取目标词对齐结果。
S206、根据目标词对齐结果将中间翻译文本中的占位符替换为对应的目标内容,以获取目标翻译文本。
其中,占位符是一种事先约定的特殊符号标识,例如,对于文本“订单号123”、“订单号99”、“订单号1008808”,其中的数字即为实体词,统一用占位符α指代该数字,转换后则为“订单号α”。
下面结合实例具体说明本实施例的待翻译文本的处理流程:
(1)以中翻英为例,获取待翻译文本为“订单号1234567已确认。”。
(2)对待翻译文本进行清洗和拆句的预处理以获得预处理结果,由于待翻译文本本身为一个短句,预处理结果为“订单号1234567已确认。”。
(3)识别出预处理结果中的目标内容“1234567”,并采用占位符替换对应位置的目标内容,以获取占位符替换结果,占位符替换结果为“订单号α已确认。”。
(4)将占位符替换结果输入至分词模型中以获取目标分词结果,目标分词结果为“订单号α已确认。”。
(5)将目标分词结果输入至翻译模型以获取中间翻译文本,中间翻译文本为“Theorder numberαhas been confirmed.”。
(6)将中间翻译文本输入至词对齐模型以获取目标词对齐结果,例如,“订单”对应“order”,“α”对应“α”。
(7)根据目标词对齐结果将中间翻译文本中的占位符替换为对应的目标内容,以获取目标翻译文本,目标翻译文本为“The order number 1234567 has beenconfirmed.”。
本实施例通过词对齐模型来进行优化对实体词进行占位符替换并在模型翻译后再重新替换回去的过程,利用翻译模型编码文本的句子级语义信息进行词对齐工作,将词对齐模型和翻译模型集成到单个的机器翻译网络中,提高了词对齐模型的精度,优化了占位符的映射准确性,提高了实体词翻译准确性,提高了文本整体的翻译准确性。
实施例4
本实施例提供一种词对齐模型的训练系统。参照图4,词对齐模型的训练系统包括:语料获取模块11、分词模型训练模块12、分词结果获取模块13、词对齐结果获取模块14、翻译模型训练模块15和词对齐模型训练模块16;
语料获取模块11用于获取样本双语语料。
分词模型训练模块12用于基于样本双语语料训练得到分词模型。分词模型训练模块12对样本双语语料的一部分进行清洗和拆句的预处理,对预处理后的这部分样本双语语料作为输入并使用开源的SentencePiece进行训练得到分词模型,训练过程中,SentencePiece对输入的样本双语语料进行分词以切分成子词序列。其中,基于SentencePiece如何对双语预料进行训练得到分词模型属于本领域的成熟技术,此处就不再赘述。
分词结果获取模块13用于将样本双语语料输入至分词模型以获取分词结果。分词结果获取模块13将全部的将样本双语语料进行清洗和拆句的预处理,将预处理后的样本双语语料输入至分词模型以获取分词结果。
词对齐结果获取模块14用于获取分词结果对应的词对齐结果。
翻译模型训练模块15用于基于分词结果训练得到翻译模型,其中,翻译模型用于输出与分词结果对应的注意力矩阵。
具体实施时,翻译模型包括但不限于基于自注意力的序列到序列模型,如Transformer模型。翻译模型的编码器采用卷积神经网络、循环神经网络、自注意力的编码器等。
翻译模型不限制语种,可以用于中英单语种,也可以用于中英互译,也可以用于多语种互译;当然也适用于其他任意语种之间的翻译处理。
Transformer模型有3个注意力矩阵,分别为2个自注意力矩阵和1个编码器和解码器之间的交叉注意力矩阵。注意力矩阵采用3个注意力矩阵中的交叉注意力矩阵。其中,交叉注意力矩阵的三个维度分别为注意力的头数、译文的长度和源语言的长度。
词对齐模型训练模块16用于基于词对齐结果和注意力矩阵训练得到词对齐模型。
其中,词对齐模型用于输出双语语料中源语料和目标语料中各个词的对应关系。
本实施例通过与双语语料对应的词对齐结果和翻译模型对应的注意力矩阵训练得到词对齐模型,利用翻译模型编码文本的句子级语义信息进行词对齐工作,将词对齐模型和翻译模型集成到单个的机器翻译网络中,优化了词对齐模型,提高了词对齐模型的精度,优化了占位符的映射准确性,提高了实体词翻译准确性,提高了文本整体的翻译准确性。
实施例5
本实施例的词对齐模型的训练系统是对实施例4的进一步改进,具体地:
词对齐结果获取模块14用于将分词结果输入Fast Align词对齐工具以获取词对齐结果。
其中,Fast Align属于基于统计的词对齐工具,使用IBM3模型实现词对齐功能。Fast Align内存占用小,可支持千万条级别的平行语料同时训练。将分词结果输入FastAlign以无监督的方式获取词对齐结果,训练时间短,训练效率高。
词对齐模型训练模块16用于将词对齐结果和注意力矩阵作为输入,采用卷积神经网络训练得到词对齐模型。将基于统计的词对齐结果和注意力矩阵作为输入,采用卷积神经网络训练以有监督方式得到词对齐模型,进一步优化了词对齐模型,提高了词对齐模型的精度,优化了占位符的映射准确性,提升了实体词的翻译准确性,提高了文本整体的翻译准确性。
具体实施时,词对齐模型包括依次连接的第一层卷积层、第二层卷积层、第三层卷积层、第四层卷积层、第五层卷积层和平均聚合器。
第一层卷积层、第二层卷积层、第三层卷积层和第四层卷积层的激活函数均为线性整流函数,第五层卷积层的激活函数为Sigmoid函数。
其中,第一层卷积层的卷积核为(9,9),卷积核的数量为128;第二层卷积层的卷积核为(7,7),卷积核的数量为64;第三层卷积层的卷积核为(5,5),卷积核的数量为64;第四层卷积层的卷积核为(3,3),卷积核的数量为64;第五层卷积层的卷积核为(1,1),卷积核的数量为16。
词对齐模型的输入数据包括:批大小、批目标语言最大长度、批源语言最大长度和自注意力头数。词对齐模型的输出数据包括:批目标语言最大长度和批源语言最大长度。
本实施例的词对齐模型属于多项二分类模型,假设源语言有M个词,目标语言有N个词,即为一个M*N的矩阵,矩阵上面的点为1则表示有映射关系,0为没有映射关系。词对齐模型的损失函数即为M*N个二分类的交叉熵和。由于其中正样本1的个数会比负样本少很多,本实施例对损失进行采样以降低负样本的权重。
本实施例的词对齐模型的损失函数的定义如下:
Figure BDA0002806958160000121
其中,L是模型损失值,T是译文词片序列,S是原文词片序列,δ∈{0,1}是一个随机掩码,yt,s∈{0,1}是第t个译文词片与第s个原文词片之间的真实映射关系(0表示没有映射关系,1表示存在映射关系),
Figure BDA0002806958160000122
表示模型针对第t个译文词片与第s个原文词片之间输出的存在映射关系概率。
本实施例的词对齐模型的损失函数也可以采用其他类型的损失函数,具体可以根据实际情况进行选择与调整,在此就不再赘述。
本实施例通过与双语语料对应的词对齐结果和翻译模型对应的注意力矩阵作为输入,采用卷积神经网络训练得到词对齐模型,利用翻译模型编码文本的句子级语义信息进行词对齐工作,将词对齐模型和翻译模型集成到单个的机器翻译网络中,进一步优化了词对齐模型,提高了词对齐模型的精度,优化了占位符的映射准确性,提高了实体词翻译准确性,提高了文本整体的翻译准确性。
实施例6
本实施例提供一种待翻译文本的处理系统,该处理系统基于前述的词对齐模型的训练系统实现。参照图5,待翻译文本的处理系统包括:预处理模块21、占位符替换模块22、目标分词结果获取模块23、中间翻译文本获取模块24、目标词对齐结果获取模块25和目标翻译文本获取模块26。
预处理模块21用于对待翻译文本进行预处理以获得预处理结果。
占位符替换模块22用于识别出预处理结果中的目标内容,并采用占位符替换对应位置的目标内容,以获取占位符替换结果。目标内容包括但不限于实体词。
目标分词结果获取模块23用于将占位符替换结果输入至分词模型中以获取目标分词结果。
中间翻译文本获取模块24用于将目标分词结果输入至翻译模型以获取中间翻译文本。
目标词对齐结果获取模块25用于将中间翻译文本输入至词对齐模型以获取目标词对齐结果。
目标翻译文本获取模块26用于根据目标词对齐结果将中间翻译文本中的占位符替换为对应的目标内容,以获取目标翻译文本。
其中,占位符是一种事先约定的特殊符号标识,例如,对于文本“订单号123”、“订单号99”、“订单号1008808”,其中的数字即为实体词,统一用占位符α指代该数字,转换后则为“订单号α”。
下面结合实例具体说明本实施例的待翻译文本的处理流程:
(1)以中翻英为例,待翻译文本获取模块(图中未示出)获取待翻译文本为“订单号1234567已确认。”。
(2)预处理模块21对待翻译文本进行清洗和拆句的预处理以获得预处理结果,由于待翻译文本本身为一个短句,预处理结果为“订单号1234567已确认。”。
(3)占位符替换模块22识别出预处理结果中的目标内容“1234567”,并采用占位符替换对应位置的目标内容,以获取占位符替换结果,占位符替换结果为“订单号α已确认。”。
(4)目标分词结果获取模块23将占位符替换结果输入至分词模型中以获取目标分词结果,目标分词结果为“订单号α已确认。”。
(5)中间翻译文本获取模块24将目标分词结果输入至翻译模型以获取中间翻译文本,中间翻译文本为“The order numberαhas been confirmed.”。
(6)目标词对齐结果获取模块25将中间翻译文本输入至词对齐模型以获取目标词对齐结果,例如,“订单”对应“order”,“α”对应“α”。
(7)目标翻译文本获取模块26根据目标词对齐结果将中间翻译文本中的占位符替换为对应的目标内容,以获取目标翻译文本,目标翻译文本为“The order number1234567has been confirmed.”。
本实施例通过词对齐模型来进行优化对实体词进行占位符替换并在模型翻译后再重新替换回去的过程,利用翻译模型编码文本的句子级语义信息进行词对齐工作,将词对齐模型和翻译模型集成到单个的机器翻译网络中,提高了词对齐模型的精度,优化了占位符的映射准确性,提高了实体词翻译准确性,提高了文本整体的翻译准确性。
实施例7
图6为本发明实施例7提供的一种电子设备的结构示意图。所述电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现实施例1或实施例2中的任意一个实施例中的词对齐模型的训练方法。图6显示的电子设备30仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
电子设备30可以以通用计算设备的形式表现,例如其可以为服务器设备。电子设备30的组件可以包括但不限于:上述至少一个处理器31、上述至少一个存储器32、连接不同系统组件(包括存储器32和处理器31)的总线33。
总线33包括数据总线、地址总线和控制总线。
存储器32可以包括易失性存储器,例如随机存取存储器(RAM)321和/或高速缓存存储器322,还可以进一步包括只读存储器(ROM)323。
存储器32还可以包括具有一组(至少一个)程序模块324的程序/实用工具325,这样的程序模块324包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
处理器31通过运行存储在存储器32中的计算机程序,从而执行各种功能应用以及数据处理,例如本发明实施例1或实施例2中的任意一个实施例中的词对齐模型的训练方法。
电子设备30也可以与一个或多个外部设备34(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口35进行。并且,模型生成的设备30还可以通过网络适配器36与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器36通过总线33与模型生成的设备30的其它模块通信。应当明白,尽管图中未示出,可以结合模型生成的设备30使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
实施例8
本发明实施例8提供了一种电子设备,电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现实施例3中的待翻译文本的处理方法,该电子设备的具体结构参照实施例7中的电子设备,其工作原理与实施例7中的电子设备的工作原理基本一致,在此不再赘述。
实施例9
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现实施例1或实施例2中的任意一个实施例中的词对齐模型的训练方法的步骤。
其中,可读存储介质可以采用的更具体可以包括但不限于:便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。
在可能的实施方式中,本发明还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行实现实施例1或实施例2中的任意一个实施例中的词对齐模型的训练方法的步骤。
其中,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码,所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。
实施例10
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现实施例3中的待翻译文本的处理方法的步骤。
其中,可读存储介质可以采用的更具体可以包括但不限于:便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。
在可能的实施方式中,本发明还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行实现实施例3中的待翻译文本的处理方法的步骤。
其中,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码,所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。

Claims (8)

1.一种待翻译文本的处理方法,其特征在于,所述处理方法基于词对齐模型的训练方法实现,所述词对齐模型的训练方法包括:
获取样本双语语料;
基于所述样本双语语料训练得到分词模型;
将所述样本双语语料输入至所述分词模型以获取分词结果;
获取所述分词结果对应的词对齐结果;
基于所述分词结果训练得到翻译模型,其中,所述翻译模型用于输出与所述分词结果对应的注意力矩阵;
基于所述词对齐结果和所述注意力矩阵训练得到词对齐模型,其中,所述词对齐模型用于输出所述样本双语语料中源语料和目标语料中各个词的对应关系;
所述注意力矩阵包括交叉注意力矩阵;
所述基于所述词对齐结果和所述注意力矩阵训练得到词对齐模型的步骤具体包括:
将所述词对齐结果和所述注意力矩阵作为输入,采用卷积神经网络训练得到所述词对齐模型;
所述处理方法包括:
对所述待翻译文本进行预处理以获得预处理结果;
识别出所述预处理结果中的目标内容,并采用占位符替换对应位置的所述目标内容,以获取占位符替换结果;
将所述占位符替换结果输入至所述分词模型中以获取目标分词结果;
将所述目标分词结果输入至所述翻译模型以获取中间翻译文本;
将所述中间翻译文本输入至所述词对齐模型以获取目标词对齐结果;
根据所述目标词对齐结果将所述中间翻译文本中的所述占位符替换为对应的所述目标内容,以获取目标翻译文本。
2.如权利要求1所述的待翻译文本的处理方法,其特征在于,所述翻译模型包括基于自注意力的序列到序列模型;
其中,所述交叉注意力矩阵的三个维度分别为注意力的头数、译文的长度和源语言的长度。
3.如权利要求1所述的待翻译文本的处理方法,其特征在于,所述词对齐模型包括依次连接的第一层卷积层、第二层卷积层、第三层卷积层、第四层卷积层、第五层卷积层和平均聚合器;
所述第一层卷积层、所述第二层卷积层、所述第三层卷积层和所述第四层卷积层的激活函数均为线性整流函数,所述第五层卷积层的激活函数为Sigmoid函数;
和/或,
所述获取所述分词结果对应的词对齐结果的步骤具体包括:
将所述分词结果输入Fast Align词对齐工具以获取所述词对齐结果。
4.一种待翻译文本的处理系统,其特征在于,所述处理系统基于词对齐模型的训练系统实现,所述词对齐模型的训练系统包括:语料获取模块、分词模型训练模块、分词结果获取模块、词对齐结果获取模块、翻译模型训练模块和词对齐模型训练模块;
所述语料获取模块用于获取样本双语语料;
所述分词模型训练模块用于基于所述样本双语语料训练得到分词模型;
所述分词结果获取模块用于将所述样本双语语料输入至所述分词模型以获取分词结果;
所述词对齐结果获取模块用于获取所述分词结果对应的词对齐结果;
所述翻译模型训练模块用于基于所述分词结果训练得到翻译模型,其中,所述翻译模型用于输出与所述分词结果对应的注意力矩阵;
所述词对齐模型训练模块用于基于所述词对齐结果和所述注意力矩阵训练得到词对齐模型,其中,所述词对齐模型用于输出所述样本双语语料中源语料和目标语料中各个词的对应关系;
所述注意力矩阵包括交叉注意力矩阵;
所述词对齐模型训练模块用于将所述词对齐结果和所述注意力矩阵作为输入,采用卷积神经网络训练得到所述词对齐模型;
所述处理系统包括:预处理模块、占位符替换模块、目标分词结果获取模块、中间翻译文本获取模块、目标词对齐结果获取模块和目标翻译文本获取模块;
所述预处理模块用于对所述待翻译文本进行预处理以获得预处理结果;
所述占位符替换模块用于识别出所述预处理结果中的目标内容,并采用占位符替换对应位置的所述目标内容,以获取占位符替换结果;
所述目标分词结果获取模块用于将所述占位符替换结果输入至所述分词模型中以获取目标分词结果;
所述中间翻译文本获取模块用于将所述目标分词结果输入至所述翻译模型以获取中间翻译文本;
所述目标词对齐结果获取模块用于将所述中间翻译文本输入至所述词对齐模型以获取目标词对齐结果;
所述目标翻译文本获取模块用于根据所述目标词对齐结果将所述中间翻译文本中的所述占位符替换为对应的所述目标内容,以获取目标翻译文本。
5.如权利要求4所述的待翻译文本的处理系统,其特征在于,所述翻译模型包括基于自注意力的序列到序列模型;
其中,所述交叉注意力矩阵的三个维度分别为注意力的头数、译文的长度和源语言的长度。
6.如权利要求4所述的待翻译文本的处理系统,其特征在于,所述词对齐模型包括依次连接的第一层卷积层、第二层卷积层、第三层卷积层、第四层卷积层、第五层卷积层和平均聚合器;
所述第一层卷积层、所述第二层卷积层、所述第三层卷积层和所述第四层卷积层的激活函数均为线性整流函数,所述第五层卷积层的激活函数为Sigmoid函数;
和/或,
所述词对齐结果获取模块用于将所述分词结果输入Fast Align词对齐工具以获取所述词对齐结果。
7.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-3中任一项所述的待翻译文本的处理方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-3中任一项所述的待翻译文本的处理方法。
CN202011374919.9A 2020-11-30 2020-11-30 词对齐模型训练、文本处理的方法、系统、设备和介质 Active CN112417897B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011374919.9A CN112417897B (zh) 2020-11-30 2020-11-30 词对齐模型训练、文本处理的方法、系统、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011374919.9A CN112417897B (zh) 2020-11-30 2020-11-30 词对齐模型训练、文本处理的方法、系统、设备和介质

Publications (2)

Publication Number Publication Date
CN112417897A CN112417897A (zh) 2021-02-26
CN112417897B true CN112417897B (zh) 2023-04-07

Family

ID=74829013

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011374919.9A Active CN112417897B (zh) 2020-11-30 2020-11-30 词对齐模型训练、文本处理的方法、系统、设备和介质

Country Status (1)

Country Link
CN (1) CN112417897B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113591496A (zh) * 2021-07-15 2021-11-02 清华大学 一种双语词语对齐方法及系统
CN113626564B (zh) * 2021-10-09 2021-12-17 腾讯科技(深圳)有限公司 一种概念标签生成方法、装置、电子设备和存储介质
CN114896959B (zh) * 2022-04-15 2023-07-07 合肥工业大学 中日词语自动对齐方法和系统
CN117540755A (zh) * 2023-11-13 2024-02-09 北京云上曲率科技有限公司 一种神经机器翻译模型进行数据增强的方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107590138A (zh) * 2017-08-18 2018-01-16 浙江大学 一种基于词性注意力机制的神经机器翻译方法
CN108345583A (zh) * 2017-12-28 2018-07-31 中国科学院自动化研究所 基于多语注意力机制的事件识别及分类方法及装置
CN108647214A (zh) * 2018-03-29 2018-10-12 中国科学院自动化研究所 基于深层神经网络翻译模型的解码方法
CN108829677A (zh) * 2018-06-05 2018-11-16 大连理工大学 一种基于多模态注意力的图像标题自动生成方法
CN110874535A (zh) * 2018-08-28 2020-03-10 阿里巴巴集团控股有限公司 依存关系对齐组件、依存关系对齐训练方法、设备及介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107967263A (zh) * 2017-12-11 2018-04-27 中译语通科技股份有限公司 一种机器翻译数字泛化方法及系统、计算机、计算机程序
CN109684648B (zh) * 2019-01-14 2020-09-01 浙江大学 一种多特征融合的古今汉语自动翻译方法
CN110543644B (zh) * 2019-09-04 2023-08-29 语联网(武汉)信息技术有限公司 包含术语翻译的机器翻译方法、装置与电子设备
CN110879940B (zh) * 2019-11-21 2022-07-12 哈尔滨理工大学 一种基于深度神经网络的机器翻译方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107590138A (zh) * 2017-08-18 2018-01-16 浙江大学 一种基于词性注意力机制的神经机器翻译方法
CN108345583A (zh) * 2017-12-28 2018-07-31 中国科学院自动化研究所 基于多语注意力机制的事件识别及分类方法及装置
CN108647214A (zh) * 2018-03-29 2018-10-12 中国科学院自动化研究所 基于深层神经网络翻译模型的解码方法
CN108829677A (zh) * 2018-06-05 2018-11-16 大连理工大学 一种基于多模态注意力的图像标题自动生成方法
CN110874535A (zh) * 2018-08-28 2020-03-10 阿里巴巴集团控股有限公司 依存关系对齐组件、依存关系对齐训练方法、设备及介质

Also Published As

Publication number Publication date
CN112417897A (zh) 2021-02-26

Similar Documents

Publication Publication Date Title
CN112417897B (zh) 词对齐模型训练、文本处理的方法、系统、设备和介质
CN110543644B (zh) 包含术语翻译的机器翻译方法、装置与电子设备
CN108416058B (zh) 一种基于Bi-LSTM输入信息增强的关系抽取方法
CN109190131B (zh) 一种基于神经机器翻译的英语单词及其大小写联合预测方法
US10108607B2 (en) Method and device for machine translation
CN108804423B (zh) 医疗文本特征提取与自动匹配方法和系统
CN105279149A (zh) 一种中文文本自动校正方法
WO2023160472A1 (zh) 一种模型训练方法及相关设备
CN112818712B (zh) 基于翻译记忆库的机器翻译方法及装置
CN111178061B (zh) 一种基于编码转换的多国语分词方法
CN112633017A (zh) 翻译模型训练、翻译处理方法、装置、设备和存储介质
Moeng et al. Canonical and surface morphological segmentation for nguni languages
CN115759119B (zh) 一种金融文本情感分析方法、系统、介质和设备
US20220139386A1 (en) System and method for chinese punctuation restoration using sub-character information
CN112417823B (zh) 一种中文文本语序调整和量词补全方法及系统
CN111814493B (zh) 机器翻译方法、装置、电子设备和存储介质
CN110287483B (zh) 一种利用五笔字根深度学习的未登录词识别方法及系统
CN113743101B (zh) 文本纠错方法、装置、电子设备和计算机存储介质
CN115268868A (zh) 一种基于有监督学习的智能源码转换方法
CN112926344A (zh) 基于词向量替换数据增强的机器翻译模型训练方法、装置、电子设备及存储介质
CN111753532A (zh) 西文文本的纠错方法和装置、电子设备及存储介质
CN102135957A (zh) 一种翻译短句的方法及装置
JP5500636B2 (ja) 句テーブル生成器及びそのためのコンピュータプログラム
CN114818728A (zh) 一种文本风格迁移模型训练及文本风格迁移方法及装置
CN114298032A (zh) 文本标点检测方法、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant