CN104331397B

CN104331397B - 一种机器翻译方法及系统

Info

Publication number: CN104331397B
Application number: CN201410277523.0A
Authority: CN
Inventors: 李大洪; 钱治群
Original assignee: SHENZHEN DVITEC INDUSTRY Co Ltd
Current assignee: SHENZHEN DVITEC INDUSTRY Co Ltd
Priority date: 2014-06-19
Filing date: 2014-06-19
Publication date: 2017-07-07
Anticipated expiration: 2034-06-19
Also published as: CN104331397A

Abstract

本发明公开了一种机器翻译方法及系统，方法包括以下步骤：S1、加载双语言或多语言关键词数据，读取每一个关键词及其译文，用语言标识标识不同的语言种类，将每一个关键词转换为一个自然语言变量以形成自然语言变量库；S2、对待翻译的语句进行切词以将待翻译的语句切分成由若干个关键词组；S3、根据用户的设定，在每个所述关键词后添加需要翻译输出的语言种类的语言标识以形成关键词序列；S4、将所述关键词序列中的每一个元素替换为变量地址以生产变量排版语言，S5、编译或解释变量排版语言从而形成译文。本发明具有实用，翻译效率高、译文稳定性好的优点。

Description

一种机器翻译方法及系统

技术领域

本发明涉及自动翻译技术，尤其是涉及一种及其翻译方法及系统。

背景技术

机器翻译(machine translation)，又称为自动翻译，是利用计算机把一种自然源语言转变为另一种自然目标语言的过程，一般指自然语言之间句子和全文的翻译。它是自然语言处理的一个分支，与计算语言学、自然语言理解之间存在着密不可分的关系。

现有技术一般处理过程：

a.切词(分词)：切词难度大，区分出的关键词不准确

b.语法分析：解析句子主干难度大，不准确，句子其他成分，语态，倒桩等都有很大难度。非常耗时。

c.语义定位：统计翻译中常用。语义域定位可能会不准确，不成熟的系统也可能没有此域，无法翻译。

d.查词典：一般都是通过关键词的HASH数据库实现

e.句子合成:对以上关键词及分析过程进行合并输出。一般句子合成方法有统计合成法、规则合成法。统计合成法智能程度高，对人类语言和智慧的抽象和定位，但成本大，较专业，随着机器不断学习成熟，最终将成为具有人工智能的图灵机。

由此可以看出，目前的机器翻译，以中文为例首先要对语句进行切词，然后进行语法分析，利用翻译规则，辅助软件辞典，对句子进行译码，最后合成一个另外语言的句子。其方法复杂，专业，涉及流程太长，任何地方有误，翻译出的句子都有偏差。如果将翻译出的句子在进行一次逆翻译成原来的语言操作，或多次进行这种“翻译”后，结果可能面目全非，语义都根本无法理解了。

发明内容

本发明所要解决的技术问题是：提供一种机器翻译的方法和系统，用于提高翻译效率及可逆性。

本发明的技术问题通过下述手段予以解决：

一种机器翻译方法，包括以下步骤：

S1、加载双语言或多语言关键词数据，读取每一个关键词及其译文，用语言标识标识不同的语言种类，将每一个关键词转换为一个自然语言变量以形成自然语言变量库，所述自然语言变量是以其对应的关键词作为数组名的字符串指针数组，所述字符串指针数组以所述语言标识为索引的，并且设置每个指针指向的地址存储的值为所述关键词与所述语言标识对应的语言种类的译文；

S2、对待翻译的语句进行切词以将待翻译的语句切分成由若干个关键词组；

S3、根据用户的设定，在每个所述关键词后添加需要翻译输出的语言种类的语言标识以形成关键词序列，从而，所述关键词序列中的每一元素均由一关键词与一语言标识组成；

S4、对所述关键词序列中的每一元素，所述自然语言变量库中均有一个以所述元素中的关键词为数组名的字符串指针数组，将所述关键词序列中的每一个元素替换为以该元素中的关键词作为数组名的所述字符串指针数组中以该元素中的语言标识为索引的指针所指向的地址从而生成变量排版语言；

S5、对所述变量排版语言进行解释或者编译以求取所述变量排版语言中每个地址存储的值，从而形成译文。

优选地：所述步骤S2中对待翻译的语句进行切词包括以下步骤：提供一输入法接口供用户通过输入法输入所述待翻译的语句；监听用户输入法的输入，将用户每次输入的字、词或短语作为一个关键词。

优选地：还包括以下步骤：S6、根据预定的翻译规程对所述步骤S5形成的所述译文进行语法调整，以优化所述译文。

一种机器翻译系统，包括：

自然语言变量库生成模块：用于加载多语言关键词数据，读取所述多语言关键词数据中每一个关键词及其多语言译文，并用语言标识标识不同的语言种类，将每一个关键词转换为一个自然语言变量以形成自然语言变量库，所述自然语言变量是以其对应的关键词作为数组名的字符串指针数组，所述字符串指针数组以所述语言标识为索引的，并且设置每个指针指向的地址存储的值为所述关键词与所述语言标识对应的语言种类的译文；

切词模块：用于对待翻译的语句进行切词以将待翻译的语句切分成若干个关键词；

关键词序列生成模块：用于根据用户的设定，在每个所述关键词后添加需要翻译输出的语言种类的语言标识以形成关键词序列，从而，所述关键词序列中的每一元素均由一关键词与一语言标识组成；

变量替换模块：用于对所述关键词序列中的每一元素，所述自然语言变量库中均有一个以所述元素中的关键词为数组名的字符串指针数组，将所述关键词序列中的每一个元素替换为以该元素中的关键词作为数组名的所述字符串指针数组中以索引为该元素中的语言标识的指针所指向的地址所存储的值，从而形成译文。

优选地：所述切词模块包括输入法监听模块：用于提供一输入法接口供用户通过输入法输入所述待翻译的语句，并监听用户输入法的输入，将用户每次输入的字、词或短语作为一个关键词。

优选地：还包括：语法调整模块：用于根据预定的翻译规程对译文生成模块生成的所述译文进行语法调整，以优化所述译文。

一种机器翻译方法，包括以下步骤：

S2、接收输入的关键词序列，所述关键词序列中的每一元素均由一关键词与一语言标识组成，对所述关键词序列中的每一元素，所述自然语言变量库中均有一个以所述元素中的关键词为数组名的字符串指针数组；

S3、将所述关键词序列中的每一个元素替换为以该元素中的关键词作为数组名的所述字符串指针数组中以该元素中的语言标识为索引的指针所指向的地址从而生成变量排版语言；

S4、对所述变量排版语言进行解释或者编译以求取所述变量排版语言中每个地址存储的值，从而形成译文。

一种机器翻译系统，其特征在于，包括：

用户输入模块：用于接收输入的关键词序列，所述关键词序列中的每一元素均由一关键词与一语言标识组成，对所述关键词序列中的每一元素，所述自然语言变量库中均有一个以所述元素中的关键词为数组名的字符串指针数组；

变量替换模块：用于将所述关键词序列中的每一个元素替换为以该元素中的关键词作为数组名的所述字符串指针数组中以该元素中的语言标识为索引的指针所指向的地址从而生成变量排版语言；

译文生成模块：用于对所述变量排版语言进行解释或者编译以求取所述变量排版语言中每个地址存储的值，从而形成译文。

与现有技术相比，本发明的方法首先生产自然语言变量库，然后以关键词为核心，直接建立关键词和自然语言变量的对应，而无需在翻译过程中查字典，具有过程简单、翻译效率高的优点；而且通过关键词与变量的关系进行翻译，无论经过多少次互逆翻译，其语义基本保持不变。

由于用户输入尤其是中文输入时，往往都是每次输入一个词，优选的方案中，通过监控用于输入法的输入进行切词，能够准确的实现对语句的切词，而且简单高效。

附图说明

图1是本发明具体实施例1的机器翻译方法的流程图；

图2是本发明具体实施例1的自然语言变量的数组结构示意图；

图3是本发明具体实施例2的及其防溢方法流程。

具体实施方式

下面结合优选的实施方式对本发明作进一步说明。

如图1所示，本实施例提供一种机器翻译方法，包括以下步骤：

S100、加载双语言或多语言关键词数据，读取每一个关键词及其译文，用语言标识标识不同的语言种类，将每一个关键词转换为一个自然语言变量以形成自然语言变量库，所述自然语言变量是以其对应的关键词作为数组名的字符串指针数组，所述字符串指针数组以所述语言标识为索引的，并且设置每个指针指向的地址存储的值为所述关键词与所述语言标识对应的语言种类的译文。

其中，所示双语或多语关键词数据可以是预先建立的一个短语数据库，是关键词的集合，也是各种语言的译文对照。典型而非限制性的数据库结构如下：

数据库结构字段：

向短语数据库输入短语数据，该短语数据优选为一个预先建立的平行词语对齐短语表，例如：

本实施例的短语数据库可以是ORACLE等大型关系数据或配置文件，程序通过加载上述短语数据库建立自然语言变量库。

以短语“系统”为例，其自然语言变量(即字符串指针数组)：的典型结构如图2所示。其中[0]、[1]、[2]、[3]、[4]、[5]、[6]分别为英语、法语、德语、阿拉伯语、韩语、俄罗斯语、日语的语言标识，同时也是字符串指针数组的索引，各个指针所指向的地址分别存储了对应与所述索引的语音种类的译文。

S200、对待翻译的语句进行切词以将待翻译的语句切分成由若干个关键词组。

本实施例提供两种不同情况下的切词，分别为针对非即时自然语言的历史输入语言切词和针对即时输入语言的输入法即使切词。

针对非即时自然语言的历史语言切词，由于中文是无分隔符的，我们可以通过内码分析unicode得到一个一个的中文字，进行内码识别，然后应用现有的一些开源的软件得到关键词。所述开源的切词软件例如：

1.Hightman开发的一套基于词频词典的机械中文分词引擎，它能将一整段的汉字基本正确的切分成词。采用的是采集的词频词典，并辅以一定的专有名称，人名，地名，数字年代等规则识别来达到基本分词，经小范围测试大概准确率在90％～95％之间，已能基本满足一些小型搜索引擎、关键字提取等场合运用。45Kb左右的文本切词时间是0.026秒，大概是1.5MB文本/秒，支持PHP4和PHP5。

2.ICTCLAS：这可是最早的中文开源分词项目之一，ICTCLAS在国内973专家组组织的评测中活动获得了第一名，在第一届国际中文处理研究机构SigHan组织的评测中都获得了多项第一名。ICTCLAS3.0分词速度单机996KB/s，分词精度98.45％，API不超过200KB，各种词典数据压缩后不到3M.ICTCLAS全部采用C/C++编写，支持Linux、FreeBSD及Windows系列操作系统，支持C/C++、C#、Delphi、Java等主流的开发语言。

3.HTTPCWS：HTTPCWS是一款基于HTTP协议的开源中文分词系统，目前仅支持Linux系统。HTTPCWS使用“ICTCLAS3.02009共享版中文分词算法”的API进行分词处理，得出分词结果。HTTPCWS将取代之前的PHPCWS中文分词扩展。

4.庖丁解牛分词：编辑Java提供lucence接口，仅支持Java语言。

5.CC-CEDICT：一个中文词典开源项目，提供一份以汉语拼音为中文辅助的汉英辞典，截至2009年2月8日，已收录82712个单词。其词典可以用于中文分词使用，而且不存在版权问题。Chrome中文版就是使用的这个词典进行中文分词的。

针对输入法即时输入语言的切词，本实施例提供如下创新的方法：提供一输入法接口供用户通过输入法输入所述待翻译的语句；监听用户输入法的输入，将用户每次输入的字、词或短语作为一个关键词。该切词方法与输入法相结合，利用用户使用输入法时往往都是每次输入一个关键词，因此，为关键词分切提供了一个现有而准确的依据。

S300、关键词

根据用户的设定，在每个所述关键词后添加需要翻译输出的语言种类的语言标识以形成关键词序列，从而，所述关键词序列中的每一元素均由一关键词与一语言标识组成，即：关键词[langue ID]的形式，其中langue ID为语言标识。例如：

切词的结果为：我们的吃饭地点改在大东门饭店

需要翻译输出的语音为英语，其语音标识为[0]

则，形成的关键词序列为：我们的[0]吃饭[0]地点[0]改在[0]大东门[0]饭店

S400、变量替换

对所述关键词序列中的每一元素，所述自然语言变量库中均有一个以所述元素中的关键词为数组名的字符串指针数组，将所述关键词序列中的每一个元素替换为以该元素中的关键词作为数组名的所述字符串指针数组中以该元素中的语言标识为索引的指针所指向的地址从而生成变量排版语言(英文名为：Variable Publish Language，缩写为：VPL)。

通过关键词序列生成VPL语言是本发明的核心之一，其主要思想是将编程语言的变量同自然语言的词(关键字)联系起来，发挥各自的优势。编程语言变量具有灵活性，程序处理方便；自然语言界面友好，他们共同在程序中发挥着各自的优势。使得翻译变得容易，而电脑具有“智能”。

S500、求变量值

对所述变量排版语言进行解释或者编译以求取所述变量排版语言中每个地址存储的值，从而形成译文。

本步骤既可以通过编译系统实现，也可以通过解释系统实现。

以编译系统为例：将所述关键词序列中每一个元素“关键词[langue ID]”替换为对应的自然语言变量，即：用变量地址去替换关键词序列，成为一个源程序，编译此源程序，得到一个可执行文件，通过编译器执行该可执行文件，即得到译文。

同理，通过解释系统实现时，则利用关键词序列中各元素与自然语言变量的关联，生产一个可解释执行的目标程序，由解释器解释执行得到译文。

S600、语法调整

根据预定的翻译规程对所述步骤S500形成的所述译文进行语法调整，以优化所述译文。

S700、输出译文

与现有技术相比，上述实施例具有以下优点：1)便捷性：通过软件容易编程实现，既可用在编译语言平台中，也可嵌入解释语言中。可广泛的应用在软件界面的自动语言翻译中，也可用在互联网页面翻译中，或是在线聊天即时翻译中，或是多语种的电子商业翻译中；2)确定性：关键字变量排版的页面，无论多少次翻译转码都不会变。语义相对确定；3)排版内容同程序变量相关，翻译起来是很方便的，而且对多语种的翻译更是游刃有余，支持的语言数是无限的；4)发明中针对无分隔符的语言的即时输入切词，更具有运算小、切词准确的优点。

实施例2

本实施例的流程图如图3所示，其与实施例1的区别仅在于：本实施例是针对用户事先已经将待翻译的语言排版成前述形式的关键词序列的情况，因而可省略实施例1中的步骤200和300，不再需要进行切词和插入语言标识。例如：用户实现将网页的文字按照上述各式进行排版后，则无需在进行切词及关键词序列生成。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说，在不脱离本发明构思的前提下，还可以做出若干等同替代或明显变型，而且性能或用途相同，都应当视为属于本发明的保护范围。

Claims

1.一种机器翻译方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于：所述步骤S2中对待翻译的语句进行切词包括以下步骤：提供一输入法接口供用户通过输入法输入所述待翻译的语句；监听用户输入法的输入，将用户每次输入的字、词或短语作为一个关键词。

3.根据权利要求1或2所述的方法，其特征在于，还包括以下步骤：

S6、根据预定的翻译规程对所述步骤S5形成的所述译文进行语法调整，以优化所述译文。

4.一种机器翻译系统，其特征在于，包括：

5.根据权利要求4所述的机器翻译系统，其特征在于，所述切词模块包括

输入法监听模块：用于提供一输入法接口供用户通过输入法输入所述待翻译的语句，并监听用户输入法的输入，将用户每次输入的字、词或短语作为一个关键词。

6.根据权利要求4或5所述的机器翻译系统，其特征在在于，还包括：

语法调整模块：用于根据预定的翻译规程对译文生成模块生成的所述译文进行语法调整，以优化所述译文。

7.一种机器翻译方法，其特征在于，包括以下步骤：

8.一种机器翻译系统，其特征在于，包括：