CN107832308B

CN107832308B - 一种机器翻译的断句方法及系统、计算机程序、计算机

Info

Publication number: CN107832308B
Application number: CN201711310547.1A
Authority: CN
Inventors: 宗浩; 程国艮
Original assignee: Global Tone Communication Technology Co ltd
Current assignee: Global Tone Communication Technology Co ltd
Priority date: 2017-12-11
Filing date: 2017-12-11
Publication date: 2021-06-04
Anticipated expiration: 2037-12-11
Also published as: CN107832308A

Abstract

本发明属于计算机软件技术领域，公开了一种机器翻译的断句方法及系统、计算机程序、计算机，包括：给出输入文本的语言种类；使用断句方法进行文本的句子切分。本发明可以提高长句子或者篇章文本的翻译质量，断句后分开翻译再组合回来的译文质量明显优于未断句的质量；还可以解决超长句子翻译时间过长的问题，通过断句分发翻译请求来达到提高翻译响应速度的效果。本发明针对机器翻译实际应用中可能存在的句子切分问题，提出了机器翻译的句子切分方法。在实际应用测试中，提高了句子翻译准确性在BLEU(Bilingual Evaluation Understudy)上平均有0.8左右的提升，在翻译效率上也有约7％左右的提升。

Description

一种机器翻译的断句方法及系统、计算机程序、计算机

技术领域

本发明属于计算机软件技术领域，尤其涉及一种机器翻译的断句方法及系统、计算机程序、计算机。

背景技术

机器翻译是利用计算机算法自动地将一种源语言句子翻译成为另一种目标语言句子的过程。机器翻译是人工智能的一个研究方向，具有十分重要的科研价值和实用价值。伴随着全球化进程的不断深化和互联网的迅速发展，机器翻译技术在国内外政治、经济、社会、文化交流等方面发挥着越来越重要的作用。目前，大部分机器翻译使用的断句方法均为简单的以句号、问号、感叹号进行切分，不会针对引号进行单独处理；百度没有对引号中的句子单独处理，如果使用本文提出的句子切分方法，则不会出现百度类似的问题，错误的将引号中的句子断开。由于错误的将句子断开，百度翻译还多译出了一个引号，增加了翻译的忠实度错误。此外，如果翻译中存在小数点，标题点，网址，域名，路径等容易引发断句错误从而使得翻译结果不佳。遇到这种情况，机器翻译往往需要耗费更多的时间对这种不符合语法的冗长句子进行翻译。如果将其切分成更小的碎片可以有效的减少翻译时间。

综上所述，现有技术中存在的问题是：目前机器翻译没有句子切分；对于引号中存在多句话；句子中存在小数点、标题点、网址、域名、路径和缩写等情况时往往表现不佳。

发明内容

针对现有技术存在的问题，本发明提供了一种机器翻译的断句方法及系统、计算机程序、计算机。

本发明是这样实现的，一种机器翻译的断句方法，所述机器翻译的断句方法包括：

步骤一，给出输入文本的语言种类；

步骤二，使用断句方法进行文本的句子切分。

进一步，所述步骤二包括：中文句子切分、英文句子切分、所有输入句子强制保留。

进一步，所述中文句子切分具体包括：

(1)句子的最大长度L_max；可切分的标点符号集合P_stop，可切分的标点符号包括句号、问号、感叹号和分号，暨P_stop＝{，？！；}；次级切分优先级序列P_sub＝[......，：]优先级的顺序依次为省略号、逗号和分号；

(2)句子长度小于L_max个字符：

句子内不存在引号，则按照P_stop进行切分；

句子内存在引号，在保证引号内句子不断开的情况下按照(1)进行切分；

(3)句子长度大于等于L_max个字符:

检索句子前L_max个字符中是否有其他标点符号，有则按照P_sub的优先级进行切分；

句子前L_max个字符中均无其他标点符号，在L_max位置进行切分；对切分后长度小于L_max使用(2)进行切分。

进一步，所述英文句子切分具体包括：

(1)允许句子的最大长度L_max；可切分的标点符号集合P_stop可切分的标点符号包括句号、问号、感叹号，暨P_stop＝{.？！｝；设定次级切分优先级序列P_sub＝[...，]优先级的顺序依次为省略号、逗号和分号；

(2)句子长度小于L_max个单词：

句子内不存在引号，则按照P_stop进行切分；

(3)句子长度大于等于L_max个单词：

1)检索句子前L_max个单词中是否有其他标点符号，有则按照P_sub的优先级进行切分；

2)句子前L_max个单词中均无其他标点符号，则强制在L_max位置进行切分；对切分后长度小于L_max使用(2)进行切分。

进一步，所述所有输入句子强制保留具体包括：

(1)英语数字中的小数点或标题点，不会被切分开；

(2)以http,https,ftp,feed开始的网址不会被且分开；

(3)以www开始的域名不会被切分开；

(4)以.com,.cn,.org,.net,.edu,.us,.ai结尾的域名不会被断开；

(5)邮件地址不会被断开；

(6)UNIX路径不会断开；

(7)Windows路径不会被断开；

(8)句子中存在缩写点，不会被断开。

本发明的另一目的在于提供一种所述机器翻译的断句方法的机器翻译的断句系统，所述机器翻译的断句系统包括：

输入模块，用于给出输入文本的语言种类；

句子切分模块，用于使用本断句方法进行文本的句子切分。

所述句子切分模块进一步包括：

中文切分单元，用于对于中文句子切分；

英文切分单元，用于对于英文句子切分：

保留单元，用于对于所有输入句子里面强制保留。

本发明的另一目的在于提供一种实现所述机器翻译的断句方法的计算机程序。

本发明的另一目的在于提供一种搭载有所述计算机程序的计算机。

本发明的另一目的在于提供一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行所述的机器翻译的断句方法。

本发明可以提高长句子或者篇章文本的翻译质量，断句后分开翻译再组合回来的译文质量明显优于未断句的质量；还可以解决超长句子翻译时间过长的问题，通过断句分发翻译请求来达到提高翻译响应速度的效果。本发明针对机器翻译实际应用中可能存在的句子切分问题，提出了机器翻译的句子切分方法。在实际应用测试中，提高了句子翻译准确性在BLEU(Bilingual Evaluation Understudy)上平均有0.8左右的提升，在翻译效率上也有约7％左右的提升。

附图说明

图1是本发明实施例提供的机器翻译的断句方法流程图。

图2是本发明实施例提供的机器翻译的断句系统结构示意图；

图中：1、输入模块；2、句子切分模块；2-1、中文切分单元；2-2、英文切分单元；2-3、保留单元。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

下面结合附图对本发明的应用原理作详细的描述。

如图1所示，本发明实施例提供的机器翻译的断句方法包括以下步骤：

S101：给出输入文本的语言种类；

S102：使用本断句方法进行文本的句子切分。

在本发明的优选实施例中：对于中文句子使用如下规则进行切分：

(1)设定允许句子的最大长度L_max；设定可切分的标点符号集合P_stop在本发明中可切分的标点符号一般包括句号、问号、感叹号和分号，暨P_stop＝{，？！；}；设定次级切分优先级序列P_sub＝[......，：]优先级的顺序依次为省略号、逗号和分号；

(2)若句子长度小于L_max个字符：

若句子内不存在引号，则按照P_stop进行切分；

若句子内存在引号，在保证引号内句子不断开的情况下按照规则a进行切分；

(3)若句子长度大于等于L_max个字符:

检索句子前L_max个字符中是否有其他标点符号，若有则按照P_sub的优先级进行切分；

若句子前L_max个字符中均无其他标点符号，则强制在L_max位置进行切分；然后对切分后长度小于L_max使用规则(2)进行切分；

在本发明的优选实施例中：对于英文句子使用如下规则进行切分：

(1)设定允许句子的最大长度L_max；设定可切分的标点符号集合P_stop在本发明中可切分的标点符号一般包括句号、问号、感叹号，暨P_stop＝{.？！｝；设定次级切分优先级序列P_sub＝[...，]优先级的顺序依次为省略号、逗号和分号；

(2)若句子长度小于L_max个单词：

若句子内不存在引号，则按照P_stop进行切分；

若句子内存在引号，在保证引号内句子不断开的情况下按照规则(1)进行切分；

(3)若句子长度大于等于L_max个单词:

1)检索句子前L_max个单词中是否有其他标点符号，若有则按照P_sub的优先级进行切分；

2)若句子前L_max个单词中均无其他标点符号，则强制在L_max位置进行切分；然后对切分后长度小于L_max使用规则2进行切分；

在本发明的优选实施例中：对于所有输入句子里面使用如下规则进行强制保留(保留的部分不会被切分开)：

(1)英语数字中的小数点或标题点，例如1.2,3.4；1.2.等，不会被切分开；

(2)以http,https,ftp,feed等开始的网址不会被且分开；

(3)以www开始的域名不会被切分开；

(4)以.com,.cn,.org,.net,.edu,.us,.ai等结尾的域名不会被断开；

(5)所有的邮件地址(形如xxx@xxx.xxx)不会被断开；

(6)UNIX路径不会断开(形如/home/gtct.com/sentencec)；

(7)Windows路径不会被断开(形如C:\\gtct.com\sentence)；

(8)句子中存在缩写点，不会被断开，例如(Mr.Mss.)输出切分好的句子。

如图2所示，本发明实施例提供的机器翻译的断句系统包括：

输入模块1，用于给出输入文本的语言种类；

句子切分模块2，用于使用本断句方法进行文本的句子切分。

句子切分模块2进一步包括：

中文切分单元2-1，用于对于中文句子切分；

英文切分单元2-2，用于对于英文句子切分：

保留单元2-3，用于对于所有输入句子里面强制保留。

下面结合具体实施例对本发明的应用原理作进一步的描述。

现有需要翻译的文本中文：

1.他说：“我今天终于知道了真相。我恨你！”然后走了。

按照本发明的方法，参考中文切分方法的2b可以得到切分结果。

1.他说：“我今天终于知道了真相。我恨你！”然后走了。

市面上只用句号、问号、感叹号作为切分则会切分成三句：

1.他说：“我今天终于知道了真相。

2.我恨你！

3.”然后走了。

然后将整句发送给机器翻译系统进行翻译再返回给用户。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现，所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种机器翻译的断句方法，其特征在于，所述机器翻译的断句方法包括：

步骤一，给出输入文本的语言种类；

步骤二，使用断句方法进行文本的句子切分；

所述步骤二包括：中文句子切分、英文句子切分、所有输入句子强制保留；

所述中文句子切分具体包括：

(1)句子的最大长度L_max；可切分的标点符号集合P_stop，可切分的标点符号包括句号、问号、感叹号和分号，即P_stop＝{。？！；}；次级切分优先级序列P_sub＝[......，：]，优先级的顺序依次为省略号、逗号和冒号；

(2)句子长度小于L_max个字符：

句子内不存在引号，则按照P_stop进行切分；

(3)句子长度大于等于L_max个字符：

2.如权利要求1所述的机器翻译的断句方法，其特征在于，所述英文句子切分具体包括：

[1]允许句子的最大长度L_max；可切分的标点符号集合P_stop’，可切分的标点符号包括句号、问号、感叹号，即P_stop’＝[.？！}；设定次级切分优先级序列P_sub’＝[...，；]，优先级的顺序依次为省略号、逗号和分号；

[2]句子长度小于L_max个单词：

句子内不存在引号，则按照P_stop’进行切分；

句子内存在引号，在保证引号内句子不断开的情况下按照[1]进行切分；

[3]句子长度大于等于L_max个单词：

检索句子前L_max个单词中是否有其他标点符号，有则按照P_sub’的优先级进行切分；

句子前L_max个单词中均无其他标点符号，则强制在L_max位置进行切分；对切分后长度小于L_max使用[2]进行切分。

3.如权利要求1所述的机器翻译的断句方法，其特征在于，所述所有输入句子强制保留具体包括：

(1)英语数字中的小数点或标题点，不会被切分开；

(2)以http,https,ftp,feed开始的网址不会被切分开；

(3)以www开始的域名不会被切分开；

(4)以.com,.cn,.org,.net,.edu,.us,.ai结尾的域名不会被切分开；

(5)邮件地址不会被切分开；

(6)UNIX路径不会被切分开；

(7)Windows路径不会被切分开；

(8)句子中存在缩写点，不会被切分开。

4.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1-3任意一项所述的机器翻译的断句方法。