CN110738045A

CN110738045A - 一种面向神经网络机器翻译的英文词法分析方法及系统

Info

Publication number: CN110738045A
Application number: CN201911028075.XA
Authority: CN
Inventors: 张孝飞; 范婷婷; 王芳; 任明雪; 李程
Original assignee: Beijing Zhong Xian Electronic Technology Development Co Ltd
Current assignee: Beijing Zhong Xian Electronic Technology Development Co Ltd
Priority date: 2019-10-25
Filing date: 2019-10-25
Publication date: 2020-01-31

Abstract

本发明提供一种面向神经网络机器翻译的英文词法分析方法，包括如下步骤：对待处理的英文文本进行英文分词；对英文分词后得到的每一个单词利用特殊词汇表进行查询筛选；对查询到的单词的结果信息保留在词法分析结果中；对未查询到的单词进行规则处理；对于符合规则处理条件的单词进行词架构还原，对于不符合规则处理条件的单词，直接将单词保存在词法分析结果中；输出词法分析结果，并将所述词法分析结果加入到机器深度学习训练当中。本发明还提供了一种面向神经网络机器翻译的英文词法分析系统。本发明所述的面向神经网络机器翻译的英文词法分析方法，可解决神经网络机器翻译的训练语料数据稀疏，造成机器学习效率下降、翻译质量不佳的问题。

Description

一种面向神经网络机器翻译的英文词法分析方法及系统

技术领域

本发明属于语言处理技术领域，尤其涉及一种面向神经网络机器翻译的英文词法分析方法及系统。

背景技术

神经网络机器翻译技术为近几年提出，并迅速成为机器翻译领域主流研究方法，与传统的机器翻译技术相比，其突出特点为结合神经网络和深度学习的优势，克服基于片段翻译导致语法不准确、语言不通顺的问题，能够充分利用上下文信息，使得译文通顺，准确率高，且工程效率高。

但是，在英文文本的机器翻译过程中，由于英文属于屈折语系，单词存在单复数、主被动、比较级等多种变形，神经网络机器翻译的训练语料存在数据稀疏问题，造成机器学习效率下降，翻译质量不佳。

传统的机器翻译中，英文词法分析技术面向的是基于规则的机器翻译(Rule-based MT)，属于翻译计算步骤之一，例如中国专利文献CN1134567A、中国专利文献CN1100825A中，采用如下方法进行英文词法分析：在句法分析步骤之前，基于人对语言学知识的理性整理，充分获取翻译原文中词语的变形架构信息，比如doing表示进行时，便于翻译时在译文中加入相应的时态信息“正在”，从而获得相对准确的翻译结果。

传统的词法分析方法的目的在于获取单词语法信息(例如单复数、比较级等)，从而进行语法转换实现准确翻译，用于提高基于规则的机翻效果。其具有如下缺点：

(1)相关语法变形规则为人工编写规则，工作量大，且容易出现规则不准确、互相冲突的情况，后期翻译效果不好；

(2)机器根据既定规则去分析，无自主性；

(3)由于英文语言的复杂性，词法句法规则不可能罗列穷尽，因此传统词法分析方法具有一定局限性，不适用于神经网络机器翻译。

鉴于此，目前亟待提出一种适用于神经网络机器翻译的英文词法分析方法，以克服现有的神经网络机器翻译的训练语料数据稀疏，造成机器学习效率下降，翻译质量不佳的问题。

发明内容

为此，本发明所要解决的是现有技术中的神经网络机器翻译的训练语料数据稀疏，造成机器学习效率下降，翻译质量不佳的问题，进而提供一种面向神经网络机器翻译的英文词法分析方法及系统。

为此，本发明提供一种面向神经网络机器翻译的英文词法分析方法，其目的在于获取单词架构变形信息，从而进行深度学习和模型训练，用于降低数据维度，解决数据稀疏问题，提高神经网络机翻效果。

本发明的面向神经网络机器翻译的英文词法分析方法，包括如下步骤：

S1、对待处理的英文文本进行英文分词；

S2、对经过步骤S1英文分词后得到的每一个单词利用特殊词汇表进行查询筛选；对查询到的单词直接输出所述特殊词汇表中的结果信息，并保留在词法分析结果中；对未查询到的单词，进入下一步；

S3、对步骤S2中未查询到的单词进行规则处理；对于符合规则处理条件的单词进行词架构还原，并对还原成功的单词进行变形架构信息标注，将还原成功的单词及变形架构的标注信息保留在词法分析结果当中；对于不符合规则处理条件的单词，直接将单词保存在词法分析结果中；

S4、输出步骤S2、S3中的所述词法分析结果，并加入到机器深度学习训练当中。

优选地，步骤S1具体包括如下步骤：输入待处理英文文本，并对其进行英文分词，英文分词中对标点字符的处理方式为加空格分开；其中，所述待处理英文文本为英文单语语料文本。

优选地，步骤S2中，所述特殊词汇表包含不规则变形单词、利用规则还原时存在歧义的单词。

优选地，步骤S3所述的规则处理中，利用预设规则变形表对符合规则处理条件的单词进行词架构还原；所述预设规则变形表为后缀规则变形表、前缀规则变形表、前后缀规则变形表中的一种或多种。

优选地，步骤S3中，利用预设规则变形表对单词进行词架构还原具体包括如下步骤：查询所述预设规则变形表，确认步骤S2中未查询到的单词是否符合所述预设规则变形表的规则处理条件；

若符合所述预设规则变形表的规则处理条件，则依据所述预设规则变形表对单词进行还原，并确定还原后的单词是否可在英文词典中查询到，若可查询到，则还原成功，保留还原成功的单词的原形及前后缀变形部分，并对变形部分进行变形架构信息标注，将还原成功的单词及变形架构的标注信息保留在词法分析结果当中；若还原后的单词不可在英文词典中查询到，则还原失败，保留还原前单词的形态，进入下一步；

若不符合所述预设规则变形表的规则处理条件，则进入下一步。

优选地，步骤S3具体包括如下步骤：

S31、查询所述前后缀规则变形表，确认步骤S2中未查询到的单词是否符合所述前后缀规则变形表的规则处理条件；

若符合所述前后缀规则变形表的规则处理条件，则依据所述前后缀规则变形表对单词进行前后缀架构同时还原，并确定还原后的单词是否可在英文词典中查询到，若可查询到，则还原成功，保留还原成功的单词的原形及前后缀变形部分，并对前后缀变形部分进行变形架构信息标注，将还原成功的单词及变形架构的标注信息保留在词法分析结果当中；若还原后的单词不可在英文词典中查询到，则还原失败，保留还原前单词的形态，进入下一步；

若不符合所述前后缀规则变形表的规则处理条件，则进入下一步；

S32、对于步骤S31中还原失败的单词或者不符合所述前后缀规则变形表的规则处理条件的单词，查询所述后缀规则变形表，确认单词是否符合所述后缀规则变形表的规则处理条件；

若符合所述后缀规则变形表的规则处理条件，则依据所述后缀规则变形表对单词进行后缀架构还原，并确定还原后的单词是否可在英文词典中查询到，若可查询到，则还原成功，保留还原成功的单词的原形及后缀变形部分，并对后缀变形部分进行变形架构信息标注，将还原成功的单词及变形架构的标注信息保留在词法分析结果当中；若还原后的单词不可在英文词典中查询到，则还原失败，保留还原前单词的形态，进入下一步；

若不符合所述后缀规则变形表的规则处理条件，则进入下一步；

S33、对于步骤S32中还原失败的单词或者不符合所述后缀规则变形表的规则处理条件的单词，查询所述前缀规则变形表，确认单词是否符合所述前缀规则变形表的规则处理条件；

若符合所述前缀规则变形表的规则处理条件，则依据所述前缀规则变形表对单词进行前缀架构还原，并确定还原后的单词是否可在英文词典中查询到，若可查询到，则还原成功，保留还原成功的单词的原形及前缀变形部分，并对前缀变形部分进行变形架构信息标注，将还原成功的单词及变形架构的标注信息保留在词法分析结果当中；若还原后的单词不可在英文词典中查询到，则还原失败，保留还原前单词的形态，直接将单词保存在词法分析结果中；

若不符合所述前缀规则变形表的规则处理条件，直接将单词保存在词法分析结果中。

优选地，步骤S4中，将步骤S2、S3中的所述词法分析结果输出后，与中文对齐后作为引擎训练双语语料加入到机器深度学习训练当中。

优选地，步骤S4中，按照如下基本公式计算：

h＝g(W^Tx+b)

其中，h表示隐含层输出值；g表示激活函数；W表示权值向量；x表示输入值；b表示偏置。

进一步优选地，所述机器深度学习训练中，W值和b值根据由反向传播算法计算出的差值进行调整。

本发明还提供一种面向神经网络机器翻译的英文词法分析系统，适于实现所述的面向神经网络机器翻译的英文词法分析方法，其包括：

英文分词模块，所述英文分词模块适于对输入的待处理英文文本进行英文分词，并对标点符号进行处理；

架构还原模块，所述架构还原模块适于对英文分词后得到的每一个单词进行特殊词汇表的查询筛选、以及规则处理中的词架构还原；

架构信息标注模块，所述架构信息标注模块适于对词架构还原成功的单词进行变形架构信息标注；

输出模块，所述输出模块适于输出词法分析结果；

机器深度学习训练模块，所述机器深度学习训练模块适于将输出模块输出的词法分析结果进行神经网络机器翻译引擎模型的深度学习训练。

本发明的上述技术方案，相比现有技术具有以下优点：

(1)本发明所述的面向神经网络机器翻译的英文词法分析方法，用于对引擎模型训练的英文语料文本进行架构还原，并标注变形架构信息，将带有保留标注信息的词法分析结果加入到神经网络机器深度学习训练过程当中。通过深度学习训练，引擎自主学习到架构变形之间的关系，在翻译未训练过的文本时，也可以通过之前学过的架构变形判断出文本含义，从而得到更准确的翻译结果，有效降低了待处理文本的数据维度，解决了训练语料的数据稀疏问题，有利于提高机器学习效率，从而提高神经网络机器翻译质量。

(2)本发明所述的面向神经网络机器翻译的英文词法分析方法，采用深度学习中的反向传播算法，利用其特征学习/表示学习能力，使引擎充分自主学习单词原形及各变形部分之间的关联关系，该算法展现出神经网络深度学习强大的非线性学习及表示学习能力，可实现更好地学习效果，出错率低，后期翻译效果好。

(3)本发明所述的面向神经网络机器翻译的英文词法分析方法，对词法分析过程进行了简化，只需进行文本架构还原，并标注变形架构信息，而非硬性标注变形架构的语法信息，语法信息由引擎自主学习获得，大大减少了人类工作量，并且提高了分析效率，结果准确率高；且此分析结果更适用于神经网络机器学习，对训练语料的架构信息标注便于引擎更好的自主学习单词原形及各变形架构部分之间的关联关系。

附图说明

图1是本发明实施例所述的面向神经网络机器翻译的英文词法分析方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施例所述的面向神经网络机器翻译的英文词法分析方法，包括如下步骤：

S1、对待处理的英文文本进行英文分词。作为本实施例的具体实现方式，步骤S1具体包括如下步骤：输入待处理英文文本，并对其进行英文分词，英文分词中对标点字符的处理方式为加空格分开；其中，所述待处理英文文本为英文单语语料文本。

S2、对经过步骤S1英文分词后得到的每一个单词利用特殊词汇表进行查询筛选；对查询到的单词直接输出所述特殊词汇表中的结果信息，并保留在词法分析结果中，例如，可按照如下方式保留结果信息：men-man_singular，done-do_past；对未查询到的单词，进入下一步；其中，所述特殊词汇表包含不规则变形单词、利用规则还原时存在歧义的单词，例如，feed、attached等。

本实施例中，利用预设规则变形表对符合规则处理条件的单词进行词架构还原。需要说明的是，所述预设规则变形表的设计方式并不唯一，所述预设规则变形表中包含的内容可以是英文单词单/复数、过去式/过去分词、比较级/最高级等。本实施例中，所述预设规则变形表为后缀规则变形表、前缀规则变形表、前后缀规则变形表中的一种或多种，可分别按照后缀规则变形表、前缀规则变形表、前后缀规则变形表进行词架构还原，各规则变形表进行词架构还原的前后顺序并不唯一。

作为具体实现方式，可按照如下顺序进行：

其中，所述后缀规则变形表的还原规则并不唯一，根据单词的实际用法进行预设，例如：

*es-＞FIND(IL，(1，1)，″s″|″z″|″x″|″o″)||FIND(IL，(1，2)，″ch″|″sh″)，INFLEX(-)

*er-＞FIND()，INFLEX(-)

*est-＞FIND()，INFLEX(-)

标注信息的格式也不唯一，例如，可以是：peaches——peach suf_ies，其中suf_ies为后缀变形标注。

其中，所述前缀规则变形表的还原规则并不唯一，根据单词的实际用法进行预设，例如：

im*->FIND()，INFLEX(-)

re*->FIND()，INFLEX(-)

anti*->FIND()，INFLEX(-)

标注信息的格式也不唯一，例如，可以是：im possible——pre_impossible，其中pre_im为前缀变形标注。

需要说明的是，所述待处理英文文本中，单词以所有格(例如’s)等形式出现时，由于S1分词时将’s与原单词之间加以空格，故只对原词进行处理，所有格形式不做处理。

另外需要说明的是，以步骤S2中提到的所述特殊词汇表中包含的不规则变形单词feed为例，若按照上述规则处理，则得到fe suf_ed，其中的fe在词典中可查，因此将输出该结果，但由于feed本身为单词原形，不可拆分，故规则处理错误，应列入所述特殊词汇表中。以步骤S2中提到的所述特殊词汇表中包含的利用规则还原时存在歧义的单词attached为例，若按照上述规则处理，则得到attache suf_d，其中的attache在词典中可查，因此将输出该结果，但由于其不符合实际的架构形式attach suf_ed，因此规则处理还原时存在歧义，应列入所述特殊词汇表中。

S4、输出步骤S2、S3中的所述词法分析结果，并加入到机器深度学习训练当中。可以是与中文对齐后作为引擎训练双语语料加入到机器深度学习训练当中。

其中，所述词法分析结果的格式并不唯一，例如，当待处理的英文文本中的原文为“I am rebuying it”时，输出的词法分析结果为“I am pre_re buy suf_ing it”。

需要说明的是，本实施例所述的机器深度学习训练算法为现有技术中常规的算法，例如，可参考如下文献：

book{Goodfellow-et-al-2016，title＝{Deep Learning}，

author＝{Ian Goodfellow and Yoshua Bengio and Aaron Courville}，

publisher＝{MIT Press}，

note＝{\url{http：//www.deeplearningbook.org}}，

year＝{2016}

作为本实施例中的具体实现方式，所述机器深度学习训练按照如下基本公式计算：

h＝g(W^Tx+b)

具体而言，所述机器深度学习训练包括如下步骤：

S41、将输入数据输入编码器，按照如下方式进行编码：多层神经网络的第一层由下式给出：h₍₁₎＝g₍₁₎(W₍₁₎ ^Tx+b₍₁₎)；第二层由下式给出：h₍₂₎＝g₍₂₎(W₍₂₎ ^Th₍₁₎+b₍₂₎)；第三层由下式给出h₍₃₎＝g₍₃₎(W₍₃₎ ^Th₍₂₎+b₍₃₎)；以此类推，第n层由下式给出：h_(n)＝g_(n)(W_(n) ^Th_(n-1)+b_(n))；即每一层的输入x由上一层的结果h(n)替换；

其中，h_(n)表示隐含层输出值；g_(n)表示激活函数；W_(n)表示权值向量；b_(n)表示偏置；

S42、将步骤S41中，编码得到的结果h_(n)作为解码层输入值，同样按照如下基本公式进行多层计算：

h＝g(W^Tx+b)

其中，h表示隐含层输出值；g表示激活函数；W表示权值向量；x表示输入值；b表示偏置；

由此实现词法分析结果的神经网络机器翻译引擎模型的深度学习训练。

所述机器深度学习训练中，将W值和b值根据由反向传播算法计算出的差值进行调整。其中，所述反向传播算法，作为一种常规的监督学习算法，也采用现有技术中常规手段。

本实施例还提供一种面向神经网络机器翻译的英文词法分析系统，用于实现上述面向神经网络机器翻译的英文词法分析方法，其包括：

输出模块，所述输出模块适于输出词法分析结果；

本实施例还提供一种适于实现上文描述的面向神经网络机器翻译的英文词法分析方法的计算机系统。计算机系统包括处理器和计算机可读存储介质。该计算机系统可以执行根据本发明实施例的方法。

具体地，处理器例如可以包括通用微处理器、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))，等等。处理器还可以包括用于缓存用途的板载存储器。处理器可以是用于执行根据本发明实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

计算机可读存储介质，例如可以是非易失性的计算机可读存储介质，具体示例包括但不限于：磁存储装置，如磁带或硬盘(HDD)；光存储装置，如光盘(CD-ROM)；存储器，如随机存取存储器(RAM)或闪存；等等。

计算机可读存储介质可以包括计算机程序，该计算机程序可以包括代码/计算机可执行指令，其在由处理器执行时使得处理器执行根据本发明实施例的方法或其任何变形。

计算机程序可被配置为具有例如包括计算机程序模块的计算机程序代码。例如，在示例实施例中，计算机程序中的代码可以包括一个或多个程序模块，例如包括英文分词模块、架构还原模块、架构信息标注模块、输出模块、机器深度学习训练模块。应当注意，模块的划分方式和个数并不是固定的，本领域技术人员可以根据实际情况使用合适的程序模块或程序模块组合，当这些程序模块组合被处理器执行时，使得处理器可以执行根据本发明实施例的方法或其任何变形。

根据本发明的实施例，上述模块中的至少一个可以实现为计算机程序模块，其在被处理器执行时，可以实现上面描述的相应操作。

本发明还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本发明实施例的方法。

根据本发明的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种面向神经网络机器翻译的英文词法分析方法，其特征在于，包括如下步骤：

S1、对待处理的英文文本进行英文分词；

2.根据权利要求1所述的面向神经网络机器翻译的英文词法分析方法，其特征在于，步骤S1具体包括如下步骤：输入待处理英文文本，并对其进行英文分词，英文分词中对标点字符的处理方式为加空格分开；其中，所述待处理英文文本为英文单语语料文本。

3.根据权利要求1所述的面向神经网络机器翻译的英文词法分析方法，其特征在于，步骤S2中，所述特殊词汇表包含不规则变形单词、利用规则还原时存在歧义的单词。

4.根据权利要求1所述的面向神经网络机器翻译的英文词法分析方法，其特征在于，步骤S3所述的规则处理中，利用预设规则变形表对符合规则处理条件的单词进行词架构还原；所述预设规则变形表为后缀规则变形表、前缀规则变形表、前后缀规则变形表中的一种或多种。

5.根据权利要求4所述的面向神经网络机器翻译的英文词法分析方法，其特征在于，步骤S3中，利用预设规则变形表对单词进行词架构还原具体包括如下步骤：查询所述预设规则变形表，确认步骤S2中未查询到的单词是否符合所述预设规则变形表的规则处理条件；

6.根据权利要求5所述的面向神经网络机器翻译的英文词法分析方法，其特征在于，步骤S3具体包括如下步骤：

7.根据权利要求1所述的面向神经网络机器翻译的英文词法分析方法，其特征在于，步骤S4中，将步骤S2、S3中的所述词法分析结果输出后，与中文对齐后作为引擎训练双语语料加入到机器深度学习训练当中。

8.根据权利要求7所述的面向神经网络机器翻译的英文词法分析方法，其特征在于，步骤S4中，按照如下基本公式计算：

h＝g(W^Tx+b)

9.根据权利要求8所述的面向神经网络机器翻译的英文词法分析方法，其特征在于，

所述机器深度学习训练中，W值和b值根据由反向传播算法计算出的差值进行调整。

10.一种面向神经网络机器翻译的英文词法分析系统，适于实现权利要求1-9中任意一项所述的面向神经网络机器翻译的英文词法分析方法，其特征在于，包括：

输出模块，所述输出模块适于输出词法分析结果；