CN107491443B

CN107491443B - 一种包含非常规词汇的中文句子翻译方法及系统

Info

Publication number: CN107491443B
Application number: CN201710677928.7A
Authority: CN
Inventors: 王静
Original assignee: Transn Iol Technology Co ltd
Current assignee: Transn Iol Technology Co ltd
Priority date: 2017-08-08
Filing date: 2017-08-08
Publication date: 2020-09-25
Anticipated expiration: 2037-08-08
Also published as: CN107491443A

Abstract

本发明提供了一种包含非常规词汇的中文句子翻译方法及系统。针对包含非常规词汇的中文句子，本发明首先通过分词技术，识别出其中的常规词汇和非常规词汇，然后，分别对这两部分进行分析和翻译，组合出翻译结果；其中，常规词汇可以通过自动翻译工具得出，对于非常规词汇，则可以采用本发明提出的语料库检索技术得到比较准确的翻译结果。通过本发明的方法，翻译人员只需要完成较小工作量的编辑和校对工作，即可得到整个句子的翻译结果，同时保证了较高的准确率。

Description

一种包含非常规词汇的中文句子翻译方法及系统

技术领域

本发明涉及翻译技术领域，特别涉及一种包含非常规词汇的中文句子翻译方法及系统。

背景技术

由于互联网技术的发展，各种新词汇层出不穷。特别是社交网络工具的普及，每个人都成为信息的发布者和创造者。通过社交网络，参与者可以自由的编纂词汇、自创词语甚至各种句子进行交流。然而，这些词汇、自创词甚至句子都是有别于传统的词语和句子，并不被传统语料库所收录。

然而，由于中文文化对外交流的需要，需要对各种中文句子进行准确的翻译。但是现有的翻译工具大多只能针对已有的常见语句进行翻译，对于包含非常规词汇的句子，翻译工具往往无能为力或者给出错误结果。如果逐一对句子进行人工识别，由于翻译工作量巨大，翻译工作本身往往枯燥重复，容易产生错误识别，工作效率不高。

因此，急需一种能够对包含非常规词汇的中文句子进行翻译的方法和翻译系统，以便解决上述问题。

发明内容

本发明提出的一种包含非常规词汇的中文句子翻译方法，所述方法包括：识别所述中文句子中的常规词汇部分和非常规部分，分别对常规词汇和非常规词汇进行翻译，并输出翻译结果，其特征在于，包括如下步骤：

A1：获取待翻译的中文句子S；

A2：对所述的待翻译的中文句子S进行分词处理，将所述中文句子切分成N个子部分；每个子部分均具有一个属性值，所述属性值为如下三种之一：常规、非常规、未识别；

A3：将步骤A2得到的N个子部分按照其在原中文句子中的先后顺序进行排序，得到有序子部分S(0)，S(2)，……，S(N-1)；并将所述有序子部分S(0)，S(2)，……，S(N-1)的属性值均初始化为“未识别”；

A4：对每一个子部分，识别其属性，并输出每一子部分的属性识别结果，具体包括：

(A40)对于i＝0，计算S(i)与S(i+1)的连接概率Pi1，如果该连接概率Pi1属于某个阈值区间Ti1，则将S(i)和S(i+1)属性均设置为“常规”；否则，设置S(i)属性为“非常规”；

(A41)令i＝i+1，判断i＜(N-1)是否成立；如果是，进入下一步(A42)，否则，进入步骤(A43)；

(A42)判断S(i)的属性是否为“未识别”；

如果是，则计算S(i)与S(i+1)的连接概率Pi1，如果该连接概率Pi1属于某个阈值区间Ti1，则将S(i)和S(i+1)属性均设置为“常规”，否则，设置S(i)属性为“非常规”；返回执行步骤(A41)；

如果否，则直接返回执行步骤(A41)；

(A43)判断S(i)的属性是否为“未识别”；如果否，则识别结束；如果是，则设置S(i)属性为“非常规”；

A5：分别对待翻译的中文句子S中的属性为“常规”的子部分和属性为“非常规”的子部分进行翻译，获得两部分翻译结果；

A6：将两部分翻译结果进行组合、编辑、校对，获得所述待翻译的中文句子S的翻译结果；

A7：输出所述翻译结果。

其中，计算两个子部分的连接概率，包括：计算两个子部分同在一个句子中出现的概率；计算两个子部分在同一个句子中相邻出现的概率；计算两个子部分在同一个句子中距离小于一定阈值的概率。

其中，对于不同的参数i，所述阈值区间Ti1满足如下条件之一：

(1)区间Tk1是区间T01子集；其中1＜k＜N；

(2)区间T01上限大于区间Tk1上限，其中1＜k＜N；

(3)如果m＞n，则阈值区间Tm1的区间长度小于阈值区间Tn1的区间长度，其中1＜m＜N，1＜n＜N。

当识别出待翻译的中文句子S中的属性为“非常规”的子部分之后，对对待翻译的中文句子S中的属性为“非常规”的子部分进行翻译，其具体步骤如下：

S41：如果所述属性为“非常规”的子部分是中文词语，对其进行语义分析，将中文词语转化为汉语拼音；如果是中文短句，则对该短句进行语义切分，将短句切分成至少一个中文词语，将所述中文词语进行语义分析，并将所述中文词语转化为汉语拼音；

S42：根据所述汉语拼音，在至少一个预先建立的外文语料库中进行检索，获得与所述汉语拼音对应的至少一个外文翻译词汇；

S43：从所述至少一个外文翻译词汇中，选择一个词汇作为该汉语拼音对应的中文词语或者中文短句的翻译结果；

S43：显示所述待翻译的中文词语或者中文短句翻译结果。

其中，所述预先建立的外文语料库，是指利用网络爬虫程序，以所述预设时间节点为起点，在互联网外文语料中采集该预设时间节点之后出现的外文词汇；

和/或，

利用网络爬虫程序，在互联网外文语料中采集该预设时间段内出现的外文词汇。

为区分显示待翻译的中文句子S中的属性为“非常规”的子部分和待翻译的中文句子S中的属性为“常规”的子部分，在显示过程中，还可以对两部分分别以不同格式显示，例如，常规子部分正常显示，而非常规子部分加粗显示、以不同显示、下划线显示或者其他着重显示方式；相对应的，常规子部分的翻译结果也常规显示，而非常规子部分的翻译结果加粗显示、以不同显示、下划线显示或者其他着重显示方式。采用这种方式的好处在于，后期人工对翻译结果进行编辑、校对、组合时，可以关注到重点，减轻视觉疲劳。

为执行上述方法，本发明还提供了一种用于实现上述翻译方法的系统，其包含存储器和处理器，所述存储器上存储有计算机可执行指令，所述处理器执行所述可执行指令，用于执行所述的翻译方法。

本发明的有益效果

通过本发明，在针对包含非常规词汇的中文句子进行翻译时，首先识别出其中的常规词汇和非常规词汇，然后，分别对这两部分进行分析和翻译，组合出翻译结果；其中，常规词汇可以通过自动翻译工具得出，对于非常规词汇，则可以采用本发明提出的语料库检索技术得到比较准确的翻译结果。通过本发明的方法，翻译人员只需要完成较小工作量的编辑和校对工作，即可得到整个句子的翻译结果，同时保证了较高的准确率。

附图说明

图1-图4是现有技术中的几种翻译结果

图5是本发明的翻译方法的流程图

图6是本发明的翻译结果界面示意图。

具体实施方式

如附图1-4所示，现有技术中常见的几种翻译工具，包括谷歌翻译、百度翻译、金山词霸以及网易有道，对于一个包含非常规词语“石乐志”的句子“他玩游戏石乐志。”的翻译结果，其结果分别显示如图1-图4所示。

众所周知，“石乐志”起源于某网络游戏论坛，是游戏网友相互之间交流用语，其本意是想表达“失了智”。由于网络语言的随意性，其流行演变成了“石乐志”。对包含该词的句子进行翻译时，如果不能正确识别，则无法得到正确的翻译结果，造成翻译错误。

以附图1为例，谷歌翻译的结果是“He played the game.”可见，该翻译工具完全不能识别“石乐志”这个词汇，仅仅对待翻译句子“他玩游戏石乐志。”的常规部分进行了翻译，即只能得到“他玩游戏”的翻译结果“He played the game.”，翻译结果当然不正确；

图2中，百度翻译的结果也为“He played the game Lezhi stone.″

再看附图3，为金山公司的两款产品的翻译结果，上部分为其网页端ICIBA结果“Heplayed the game Lezhi stone.”，下部分为手机客户端结果“He played the game ofShi Lezhi.”

虽然对句子的所有部分均进行了翻译，但是翻译结果显然语句不通，“石乐志”翻译成“Lezhi stone”显得不伦不类；

附图4是网易有道的翻译结果，“He plays the game stone.”该结果更是无法识别“石乐志”，仅仅机械的给出了“石”的翻译“stone”。

因此，现有的翻译工具针对包含非常规词语的句子进行自动翻译时，往往会出现错误，需要逐一人工校正，工作量巨大。

针对上述问题，本发明提出了一种翻译方法，可以针对包含非常规词语的句子进行正确翻译，其流程如图5所述。

首先，获取获取待翻译的中文句子S；

以上述待翻译的中文句子为例，S为“他玩游戏石乐志。”

其次，对所述的待翻译的中文句子S进行分词处理，将所述中文句子切分成N个子部分；每个子部分均具有一个属性值，所述属性值为如下三种之一：常规、非常规、未识别；并将N个子部分按照其在原中文句子中的先后顺序进行排序，得到有序子部分S(0)，S(2)，……，S(N-1)；并将所述有序子部分S(0)，S(2)，……，S(N-1)的属性值均初始化为“未识别”；

以上述句子为例，可以得到多种可能的分词切分结果：

(1)S(0)＝“他”，S(1)＝“玩”，S(2)＝“游戏”，S(4)＝“石乐志”；

(2)S(0)＝“他”，S(1)＝“玩游戏”，S(4)＝“石乐志”；

(3)S(0)＝“他”，S(1)＝“玩”，S(2)＝“游戏”，S(4)＝“石”，S(4)＝“乐”，S(4)＝“志”；

(4)S(0)＝“他”，S(1)＝“玩游戏”，S(3)＝“石”，S(4)＝“乐”，S(5)＝“志”；

……

本发明不对此进行具体限定，分词结果只需要遵循一定的规律，合理即可。

必要时，用户可以对分词结果进行调整。

得到分词结果之后，就可以对其进行属性赋值识别，该过程可以采用计算机过程自动执行，是一个循环执行过程。

具体来说，将子部分分为三个部分，首(S(0))、尾(S(N-1))和除首尾之外的其他部分(S(i)，1＜1＜N-1)，分别执行如下判断和识别：

(A42)判断S(i)的属性是否为“未识别”；

如果否，则直接返回执行步骤(A41)；

以前述分词结果(1)为例，其识别结果如下表：

S(i)	他	玩	游戏	石乐志
					属性	常规	常规	常规	非常规

接下来可以分别对两部分进行翻译：

常规部分翻译结果为：He played the game。

非常规部分翻译结果为：lost mind。

最后，对两部分翻译结果结果进行组合、编辑以及必要的校对工作，即可以得到原来句子“他玩游戏石乐志。”的较为准确的翻译结果为：He played the game and lost hismind，如图6所示。

图6显示了所述方法的各个执行模块。需要注意的是，图6中各个模块可以分别显示，也可以依照顺序先后显示；可以部分显示，也可以全部显示。分别显示时，例如，界面显示“请输入待翻译的句子″，用户输入之后，该页面消失，然后进入下一个页面″系统分词结果″、″对应翻译结果″、……″显示最终结果″等页面，每个页面都具备和用户交互的功能。

在实际应用中，可以不显示其中一个或多个页面，直接输入待翻译句子，然后显示最终结果；还可以采用人机交互界面，在显示最终结果之前，对结果进行编辑、校正，组合等等；具体可以采用触摸屏输入删除某些词语、增加某些词语，直接在触摸屏上移动某些词语的顺序等等。

当翻译量巨大时，可以采用自动文本识别技术，自动逐句、逐段输入待翻译的文本，然后进行上述过程得到初步的翻译结果，翻译人员只需要完成非常规部分的校对、编辑工作即可。其中，可以采用加粗、倾斜字体、高亮等方式，显示非常规部分，还可以在最终结果中突出显示人工编辑的部分。

采用的人机界面，可以发挥翻译人员的主观能动性，对机器识别和翻译的结果进行主动调整。如前所述，翻译人员可以对系统的初步翻译结果进行编辑；同样的，系统可以在分词界面对系统的分词结果进行调整，以得到正确的分词结果。

可见，通过以上流程和方法，对于包含非常规词汇的句子进行翻译，可以得到较为准确的结果，同时减轻了翻译人员的校对工作量，方便快捷。

本领域技术人员可知晓，说明书实施例中具体实例仅仅作为一种示例；除特别限定外，本领域技术人员在实现本发明的系统中，可以对多个模块进行组合或者调换；可以采用计算机形式的流程模块实现，还可以实现为计算机可读介质，用于存储执行所述方法的指令。

Claims

1.一种包含非常规词汇的中文句子翻译方法，所述方法包括：识别所述中文句子中的常规词汇部分和非常规部分，分别对常规词汇和非常规词汇进行翻译，并输出翻译结果，其特征在于，包括如下步骤：

A1：获取待翻译的中文句子S；

(A42)判断S(i)的属性是否为“未识别”；

如果否，则直接返回执行步骤(A41)；

A7：输出所述翻译结果；

其中，对待翻译的中文句子S中的属性为“非常规”的子部分进行翻译，其具体步骤如下：

S44：显示所述待翻译的中文词语或者中文短句翻译结果。

2.如权利要求1所述的翻译方法，其特征在于，计算两个子部分的连接概率，包括：计算两个子部分同在一个句子中出现的概率；计算两个子部分在同一个句子中相邻出现的概率；计算两个子部分在同一个句子中距离小于一定阈值的概率。

3.如权利要求2所述的翻译方法，其特征在于，对于不同的参数i，所述阈值区间Ti1满足如下条件：区间Tk1是区间T01子集，其中1＜k＜N。

4.如权利要求2所述的翻译方法，其特征在于，对于不同的参数i，所述阈值区间Ti1满足如下条件：区间T01上限大于区间Tk1上限，其中1＜k＜N。

5.如权利要求2所述的翻译方法，其特征在于，对于不同的参数i，所述阈值区间Ti1满足如下条件：如果m＞n，则阈值区间Tm1的区间长度小于阈值区间Tn1的区间长度，其中1＜m＜N，1＜n＜N。

6.如权利要求1所述的翻译方法，其特征在于，对待翻译的中文句子S中的属性为“常规”的子部分进行翻译，包括采用人工翻译、机器翻译以及人工和机器组合翻译。

7.如权利要求1所述的翻译方法，其特征在于，所述步骤S42中，所述预先建立的外文语料库，是指利用网络爬虫程序，以预设时间节点为起点，在互联网外文语料中采集预设时间节点之后出现的外文词汇；

和/或，利用网络爬虫程序，在互联网外文语料中采集预设时间段内出现的外文词汇。

8.如权利要求1-7任一项所述的翻译方法，其中，获得两部分翻译结果，进一步包括：将属性为“非常规”的子部分的翻译结果和属性为“常规”的子部分的翻译结果采用不同的显示方式显示出来。

9.一种执行如权利要求1-7任一项所述的方法的翻译系统，其包含存储器和处理器，所述存储器上存储有计算机可执行指令，所述处理器执行所述可执行指令，用于实现权利要求1-7任一项所述的翻译方法。