CN110852099B

CN110852099B - 一种适用于神经网络机器翻译的汉语分词方法及装置

Info

Publication number: CN110852099B
Application number: CN201911028104.2A
Authority: CN
Inventors: 张孝飞; 葛昱晖; 陈莉莉; 李帅; 吕荣波
Original assignee: Beijing Zhong Xian Electronic Technology Development Co ltd
Current assignee: Beijing Zhong Xian Electronic Technology Development Co ltd
Priority date: 2019-10-25
Filing date: 2019-10-25
Publication date: 2021-10-29
Anticipated expiration: 2039-10-25
Also published as: CN110852099A

Abstract

本发明涉及机器翻译技术领域，尤其涉及一种适用于神经网络机器翻译的汉语分词方法及装置；所述分词方法包括以下步骤：S100：对传统分词词表进行处理，形成适用于神经网络机器翻译的新分词词表；S200：依照新分词词表，对句子进行分词，采用前向最大匹配法和后向最大匹配法结合的方式，分别进行分词；S300：将前向最大匹配法的分词结果和后向最大匹配法的分词结果进行比较，进行评价处理后择一输出，该方法降低了待译文本的数据维度，提高了神经网络机器翻译的效率和准确性。

Description

一种适用于神经网络机器翻译的汉语分词方法及装置

技术领域

本发明涉及机器翻译技术领域，尤其涉及一种适用于神经网络机器翻译的汉语分词方法。

背景技术

专利文献作为技术信息最有效的载体，囊括了全球90％以上的最新技术情报，相对于其他文献形式，专利更具有新颖、实用的特征。同时，随着时代的发展，专利申请量也在逐年增多，世界知识产权组织(WIP0)2019年3月19日发布的数据显示，2018年全球通过该组织申请的国际专利数量达到创纪录的25.3万件，较2017年增长3.9％。然而与此同时，我们也必须看到，国际专利申请量的激增，同时也导致了人工翻译压力的激增，人工翻译成本高，耗时久，在一定程度上阻碍了科技文化的交流。因此，研发、推广能够初步取代人工、降低翻译成本的机器翻译引擎十分必要。

近年以来，机器翻译技术在历经规则、统计等算法模型的发展之后，进入了融合神经网络(NMT)和深度学习的算法的阶段。相比于传统的统计机器翻译(SMT)而言，NMT能够训练一张能够从一个序列映射到另一个序列的神经网络，输出的可以是一个变长的序列，这使得NMT具有以往系统所不具有的较强大的表示能力及自主学习能力。为了进一步提升翻译效果，达到初步取代人工、降低翻译成本的目的，针对神经网络算法的特点，设计更适用于神经网络系统的分词方法及装置十分必要。

目前通用的汉语分词方法，一般是适用于统计机器翻译引擎的分词方法，其主要特点之一为分词词表词汇量大，往往为百万级别。这主要是由于汉语表现形式复杂丰富，受算法所限，分词词表中需要具有大量的词、以及词汇组合才能保证源语言语义识别的准确性。而神经网络机器翻译的训练复杂度和计算复杂度随着词汇表词数的增加而剧增，也就是说，传统统计词表不能适用于神经翻译引擎，会导致用于神经网络机器翻译的训练语料存在数据稀疏、维度较高的问题，造成机器学习效率下降，翻译质量不佳。

另外一方面，研究表明，适合神经网络机器翻译引擎的词汇表词数在3-8万之间。然而这会导致大量低频词不在词汇表中，被当做未登录词，由此引发翻译性能的迅速下降。为了解决上述问题，急需发明一种适用于神经网络机器翻译的汉语分词方法及其装置。该方法及装置能够在进行分词时，同时满足分词词表词汇总数在3-8万之间、以及能将低频词切分处理为高频词这两个保证神经网络机器翻译引擎翻译效果的条件。

发明内容

本发明的目的在于：通过分析汉语词性、语法、句法规律，以及汉语词对应关系，提出了一种能够在进行分词时，同时满足分词词表词汇总数在3-8万之间、以及能将低频词切分处理为高频词这两个保证神经网络机器翻译引擎翻译效果的条件，来适用于神经网络机器翻译的汉语分词方法及装置。

本发明提供了下述方案：

一种适用于神经网络机器翻译的汉语分词方法，其特征在于：包括以下步骤：

S100：对传统分词词表进行处理，形成适用于神经网络机器翻译的新分词词表；

S200：依照新分词词表，对句子进行分词，采用前向最大匹配法和后向最大匹配法结合的方式，分别进行分词；

所述最大匹配法是指，以新分词词表为依据，取新分词词表中最长单词的字数为首次的取字数量，在新分词词表中，对所取出的字符串进行扫描，若该字符串不能在新分词词表中查到，则逐次递减取字数量，直至查到结果；

S300：将前向最大匹配法的分词结果和后向最大匹配法的分词结果进行比较，进行评价处理后择一输出。

优选的，所述S100包括以下内容：

S101：导入传统分词词表。传统分词词表指的是，行业内之前常用的基于统计的分词词表。该词表结合了现代汉语词典全词汇以及通过既往语料处理、收集到的所有对译词汇，词汇量为200-300万条；

S102：根据字数进行分别处理，具体方式如下：

1)对1-2字词做全部保留处理；

2)对3-4字词进行根据规则的筛除和保留，具体方式如下：

i)对于3字词，词内部关系为2层才能形成完整词意的，予以保留；词内部关系为一层的做筛除处理；

ii)对于4字词，词内部关系为2层或2层以上才能形成完整词意的予以保留，词内部关系为一层的做筛除处理；

3)对4字以上词汇进行筛除处理；

S103：去除冗余，形成词汇量为2-3W的新分词词表。

通过对分词词表的处理，我们能将原大小为200-300W词条的词表数量缩减至2-3W词条，极大地避免了数据量过大运算复杂的问题；其次，如上的处理方式符合汉语语言特点，被筛除的词汇能够通过保留词汇合成得到，同时又避免了大量未登录词的出现，保证了翻译效果。

优选的，S200中最大匹配法包括：前向最大匹配法和后向最大匹配法，或采用二者相结合的方式，分别进行分词；

优选的，所述S200具体包括以下步骤：

S201：确定取字数量N，进行最大匹配：以新分词词表为依据，取新分词词表中最长单词的字数为首次的取字数量N，在句子中进行扫描进行分词匹配；具体地说，由于处理后的基础词表最长单词为4个字，那么在做匹配时，我们最开始用4个字作为取字数量；

S202：分别使用前向最大匹配法和后向最大匹配法对句子各进行一次分词处理；

所述前向最大匹配法是指，以新分词词表为依据，从句尾开始向前取词，取新分词词表中最长单词的字数为首次的取字数量，在新分词词表中，对所取出的字符串进行扫描，若该字符串不能在新分词词表中查到，则逐次递减取字数量，直至查到结果，依照此方法进行逐词匹配，直至句首。

所述后向最大匹配法是指，以新分词词表为依据，从句首开始向后取词，取新分词词表中最长单词的字数为首次的取字数量，在新分词词表中，对所取出的字符串进行扫描，若该字符串不能在新分词词表中查到，则逐次递减取字数量，直至查到结果，依照此方法进行逐词匹配，直至句尾。具体地说，由于处理后的基础词表最长单词为4个字，那么在做匹配时，我们最开始用4个字作为取字数量。

优选的，所述S300对分词结果进行评价具体为：当前向最大匹配法与后向最大匹配法切分所得结果一致时，选择直接输出结果；当前向最大匹配法与后向最大匹配法切分所得结果不一致时，进行两种切分结果的对比，输出切分成词数最多的一个分词结果；当切分成词数相同时，按照前向最大匹配法得到的分词结果进行输出。这是由于，通过研究发现，前向最大匹配法的分词结果，比后向最大匹配法切分所得结果的准确率高2％左右。

为实现本方法，达到预期效果，本发明设计了一种适用于神经网络的汉语分词装置，所述装置主要包括以下模块：

输入文本处理模块，将输入文本同时导入至前向匹配模块和后向匹配模块，分别进行分词处理；

前向匹配模块，与后向匹配模块同时运行，对切分后的输入文本按照前向最大匹配法进行切分，并将前向最大匹配分词结果传送至分词结果对比模块进行与后向最大匹配分词结果进行对照；

后向匹配模块，与前向匹配模块同时运行，对切分后的输入文本按照前向最大匹配法进行切分，并将前向最大匹配分词结果传送至分词结果对比模块进行与后向最大匹配分词结果进行对照；

分词结果对比模块，将前向匹配模块和后向匹配模块输出的分词结果进行对照，当前向最大匹配法与后向最大匹配法切分所得结果一致时，选择直接输出结果；当前向最大匹配法与后向最大匹配法切分所得结果不一致时，进行两种切分结果的对比，输出切分成词数最多的一个分词结果；当切分成词数相同时，按照前向最大匹配法得到的分词结果进行输出。

分词结果输出模块，用于将分词结果进行输出。

本发明产生的有益效果：从分词词表上来说，本方法与传统方法相比，精简了分词词表的数量，将分词词表规模从统计机器翻译引擎的百万级缩减至30000个词条左右，极大地避免了数据量过大运算复杂的问题的同时，也避免了大量未登录词的出现，同时保证了翻译效率和翻译效果；在分词过程中，采用前向最大匹配法和后向最大匹配法结合的方式，对于存在交叉歧义和组合歧义的部分，进行依据规则的处理后进行输出，提高了分词的准确性，保证了翻译效果。

附图说明

图1为本发明的适用于神经网络机器翻译的构建新分词词表的流程框图；

图2为本发明的最大匹配法进行汉语分词流程示意图；

图3为本发明的适用于神经网络机器翻译的汉语分词装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整地传达给本领域的技术人员。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非被特定定义，否则不会用理想化或过于正式的含义来解释。

参见图1、2、3所示，一种适用于神经网络机器翻译的汉语分词方法，包括以下步骤：

S100：对传统分词词表进行处理，形成适用于神经网络机器翻译的新分词词表。S100具体包括以下内容：

S101：导入传统分词词表。传统分词词表指的是，行业内之前常用的基于统计的分词词表。该词表结合了现代汉语词典全词汇以及通过既往语料处理、收集到的所有对译词汇，词汇量为200-300万条

S102：根据字数进行分别处理，具体方式如下：

1)对1-2字词做全部保留处理；

2)对3-4字词进行根据规则的筛除和保留，具体方式如下：

i)设三字词为W1W2W3，则可预想的词关系有W1\W2\W3、W1\W2W3以及W1W2\W3三种。在W1\W2\W3(比如“吐\鲁\番”)的情况下，由于三个字相互关联，即2层关系才能形成完整词意，相对复杂，所以我们采取保留措施。而W1\W2W3(比如“烤\地瓜”)以及W1W2\W3(比如“电视\机”)一层关系的情况，我们可以理解为单字词与2字词的组合词，词内部关系相对简单，机器能够自主学习并表达，出于降维的考虑，我们仅保留分词方式为W1\W2\W3，即词内部关系为2层以上的三字词，而删除其他两种。

ii)设四字词为W1W2W3W4，则可预想的词关系有W1\W2\W3\W4、W1W2\W3\W4、W1\W2W3\W4、W1\W2\W3W4、W1\W2W3W4、W1W2\W3W4、以及W1W2W3\W4共7种情况，与3字词同样，出于降维的考虑，我们选择保留词内部关系为2层以上的四字词，即W1\W2\W3\W4、W1W2\W3\W4、W1\W2W3\W4、以及W1\W2\W3W4这四种情况的四字词，而其他情况(W1\W2W3W4、W1W2\W3W4、以及W1W2W3\W4)则做筛除处理。

3)对4字以上词汇进行筛除处理。经分析我们发现，绝大部分可以单独表示一个完整语义的汉字词，字数在1-4字中间，只保留1-4字词能够大幅度削减词表大小，提高计算机运算效率。因此，对4字以上的词汇，我们在分词词表中进行筛除处理。

S103：形成新分词词表。通过对分词词表的处理，我们能将原大小为200-300W词条的词表数量缩减至2-3W词条，极大地避免了数据稀疏问题，同时可利用神经网络系统强大的学习能力和表达能力，学习并自行运算词与词之间关系，以实现在降低维度去除不必要信息的同时，达到翻译效果的提升。

S200：依照新分词词表，对句子进行分词，采用前向最大匹配法和后向最大匹配法结合的方式，分别进行分词。

所述最大匹配法是指，如图2所示，以新分词词表为依据，取新分词词表中最长单词的字数为首次的取字数量，在新分词词表中，对所取出的字符串进行扫描，若该字符串不能在新分词词表中查到，则逐次递减取字数量，直至查到结果；

所述前向最大匹配法是指，以新分词词表为依据，从句尾开始向前取词，取新分词词表中最长单词的字数为首次的取字数量，在新分词词表中，对所取出的字符串进行扫描，若该字符串不能在新分词词表中查到，则逐次递减取字数量，直至查到结果，依照此方法进行逐词匹配，直至句首；

所述后向最大匹配法是指，以新分词词表为依据，从句首开始向后取词，取新分词词表中最长单词的字数为首次的取字数量，在新分词词表中，对所取出的字符串进行扫描，若该字符串不能在新分词词表中查到，则逐次递减取字数量，直至查到结果，依照此方法进行逐词匹配，直至句尾。

S300：对分词结果进行评价；将前向最大匹配法的分词结果和后向最大匹配法的分词结果进行比较，当前向最大匹配法与后向最大匹配法切分所得结果一致时，选择直接输出结果；当前向最大匹配法与后向最大匹配法切分所得结果不一致时，对于存在交叉歧义和组合歧义的部分，进行两种切分结果的对比，输出切分成词数最多的一个分词结果；当切分成词数相同时，按照前向最大匹配法得到的分词结果进行输出。这是由于，通过研究发现，前向最大匹配法的分词结果，比后向最大匹配法切分所得结果的准确率高2％左右。

实施例1：待分词字符串为：本发明的凝胶化剂无论在水系或有机溶剂系或双系中都可形成凝胶。

对结果进行前向最大匹配切词，得到前向切词结果：

本/发明/的/凝胶/化/剂/无论/在/水系/或/有机/溶剂/系/或/双系/中/都可/形成/凝胶/。

对结果进行后向最大匹配切词，得到后向切词结果：

本/发明/的/凝胶/化/剂/无论/在/水系/或/有机/溶剂/系/或/双系/中/都可/形成/凝胶。

对比两个结果，发现两结果一致，输出结果。

实施例2：待分词字符串为：本周有多名北京大学生前来应聘。

对结果进行前向最大匹配法切词，得到前向切词结果：

本周/有/多名/北京/大/学生/前来/应聘/。

对结果进行后向最大匹配法切词，得到后向切词结果：

本周/有/多名/北京/大学/生前/来/应聘。

对比两切分结果，发现结果不一致，计算成词数，前向成词数为8个，后向成词数为8个，词数一致，根据规则，选取前向切词结果，进行输出。

本周/有/多名/北京/大/学生/前来/应聘/。

为实现本方法，达到预期效果，本发明设计了一种装置，所述装置主要包括以下模块：

输入文本处理模块310，将输入文本同时导入至前向匹配模块和后向匹配模块，分别进行分词处理；

前向匹配模块320，与后向匹配模块同时运行，对切分后的输入文本按照前向最大匹配法进行切分，并将前向最大匹配分词结果传送至分词结果对比模块进行与后向最大匹配分词结果进行对照；

后向匹配模块330，与前向匹配模块同时运行，对切分后的输入文本按照前向最大匹配法进行切分，并将前向最大匹配分词结果传送至分词结果对比模块进行与后向最大匹配分词结果进行对照；

分词结果对比模块340，将前向匹配模块和后向匹配模块输出的分词结果进行比较，当前向最大匹配法与后向最大匹配法切分所得结果一致时，选择直接输出结果；当前向最大匹配法与后向最大匹配法切分所得结果不一致时，进行两种切分结果的对比，输出切分成词数最多的一个分词结果；当切分成词数相同时，按照前向最大匹配法得到的分词结果进行输出。

分词结果输出模块350，用于将分词结果进行输出。

本实施例还提供一种适于实现上文描述的适用于神经网络机器翻译的汉语分词方法的计算机系统。计算机系统包括处理器和计算机可读存储介质。该计算机系统可以执行根据本发明实施例的方法。

具体地，处理器例如可以包括通用微处理器、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))，等等。处理器还可以包括用于缓存用途的板载存储器。处理器可以是用于执行根据本发明实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

计算机可读存储介质，例如可以是非易失性的计算机可读存储介质，具体示例包括但不限于：磁存储装置，如磁带或硬盘(HDD)；光存储装置，如光盘(CD-ROM)；存储器，如随机存取存储器(RAM)或闪存；等等。

计算机可读存储介质可以包括计算机程序，该计算机程序可以包括代码/计算机可执行指令，其在由处理器执行时使得处理器执行根据本发明实施例的方法或其任何变形。

计算机程序可被配置为具有例如包括计算机程序模块的计算机程序代码。例如，在示例实施例中，计算机程序中的代码可以包括一个或多个程序模块，例如包括输入文本处理模块，前向匹配模块，后向匹配模块，分词结果对比模块及分词结果输出模块。应当注意，模块的划分方式和个数并不是固定的，本领域技术人员可以根据实际情况使用合适的程序模块或程序模块组合，当这些程序模块组合被处理器执行时，使得处理器可以执行根据本发明实施例的方法或其任何变形。

根据本发明的实施例，上述模块中的至少一个可以实现为计算机程序模块，其在被处理器执行时，可以实现上面描述的相应操作。

本发明还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本发明实施例的方法。

根据本发明的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种适用于神经网络机器翻译的汉语分词方法，其特征在于：包括以下步骤：

S300：将前向最大匹配法的分词结果和后向最大匹配法的分词结果进行比较，进行评价处理后择一输出；

其中，所述S100具体包括以下内容：

S101：导入传统分词词表；

S102：根据字数进行分别处理，具体方式如下：

1）对1-2字词做全部保留处理；

2）对3-4字词进行根据规则的筛除和保留，具体方式如下：

i）对于3字词，词内部关系为2层才能形成完整词意的，予以保留；词内部关系为一层的做筛除处理；

ii）对于4字词，词内部关系为2层或2层以上才能形成完整词意的予以保留，词内部关系为一层的做筛除处理；

3）对4字以上词汇进行筛除处理；

S103：形成新分词词表；

所述S300中对分词结果进行评价具体为：

当前向最大匹配法与后向最大匹配法切分所得结果一致时，选择直接输出结果；当前向最大匹配法与后向最大匹配法切分所得结果不一致时，进行两种切分结果的对比，输出切分成词数最多的一个分词结果；当切分成词数相同时，按照前向最大匹配法得到的分词结果进行输出。

2.根据权利要求1所述的适用于神经网络机器翻译的汉语分词方法，其特征在于所述的新分词词表的词条数量为2-3万条。

3.根据权利要求1所述的适用于神经网络机器翻译的汉语分词方法，其特征在于：S200中最大匹配法包括：前向最大匹配法和后向最大匹配法；

所述后向最大匹配法是指，以新分词词表为依据，从句首开始向后取词，取新分词词表中最长词的字数为首次的取字数量，在新分词词表中，对所取出的字符串进行扫描，若该字符串不能在新分词词表中查到，则逐次递减取字数量，直至查到结果，依照此方法进行逐词匹配，直至句尾。

4.根据权利要求1所述的适用于神经网络机器翻译的汉语分词方法，其特征在于：S200具体包括以下步骤：

S201：确定取字数量N，进行最大匹配：以新分词词表为依据，取新分词词表中最长单词的字数为首次的取字数量N，在句子中进行扫描及分词匹配；

S202：分别使用前向最大匹配法和后向最大匹配法对句子各进行一次分词处理。

5.一种适用于神经网络机器翻译的汉语分词装置，其特征在于：包括以下模块：

输入文本处理模块，用于将输入文本同时导入至前向匹配模块和后向匹配模块，分别进行分词处理；

前向匹配模块，用于与后向匹配模块同时运行，对输入文本按照前向最大匹配法进行切分，并将前向最大匹配分词结果传送至分词结果对比模块与后向最大匹配分词结果进行对照；

后向匹配模块，用于与前向匹配模块同时运行，对输入文本按照后向最大匹配法进行切分，并将后向最大匹配分词结果传送至分词结果对比模块与前向最大匹配分词结果进行对照；

分词结果对比模块，用于将前向匹配模块和后向匹配模块输出的分词结果进行对照，当前向最大匹配法与后向最大匹配法切分所得结果一致时，选择直接输出结果；当前向最大匹配法与后向最大匹配法切分所得结果不一致时，进行两种切分结果的对比，输出切分成词数最多的一个分词结果；当切分成词数相同时，按照前向最大匹配法得到的分词结果进行输出；

分词结果输出模块，用于将分词结果进行输出；

其中，所述前向匹配模块和后向匹配模块基于新分词词表对所述输入文本进行分词处理，所述新分词词表的生成方法具体包括：

S101：导入传统分词词表；

S102：根据字数进行分别处理，具体方式如下：

1）对1-2字词做全部保留处理；

2）对3-4字词进行根据规则的筛除和保留，具体方式如下：

3）对4字以上词汇进行筛除处理；

S103：形成新分词词表。