CN109086258A

CN109086258A - 一种提高准确性和速度的繁体和简体翻译方法

Info

Publication number: CN109086258A
Application number: CN201810608763.2A
Authority: CN
Inventors: 郑向阳; 钟送来
Original assignee: Guangzhou Xinjing Technology Co Ltd
Current assignee: Guangzhou Xinjing Technology Co Ltd
Priority date: 2018-06-13
Filing date: 2018-06-13
Publication date: 2018-12-25

Abstract

本发明公开一种提高准确性和速度的繁体和简体翻译方法，当简体转换为繁体时，该翻译方法包括以下步骤：字符码表一对一映射：按照内码字符映射表，将GB内码转换成BIG5内码；根据词汇识别进行一对多字的转换：当一个简体字对应多个繁体字时，根据该简体字所在的词汇来确定其对应的繁体字；对词表达方式差异的转换：将简体词翻译成对应的繁体词；根据上下文对词翻译：当一个简体词对应多个繁体词时，根据该简体词在上下文中的含义，将该简体词翻译成对应的繁体词。本翻译方法能够提高繁体和简体互译时的准确性和速度，经过大量实验表明，其翻译的准确性高达99.9％以上，其翻译速度高达1.7Mbytes/s。

Description

一种提高准确性和速度的繁体和简体翻译方法

技术领域

本发明涉及繁体和简体互译方法，特别是一种提高准确性和速度的繁体和简体翻译方法。

背景技术

中国大陆地区从上世纪60年代开始全面使用简化字，而台港澳地区以及海外华人华语社区依然使用繁体字。此外，中国大陆在古籍出版、古汉语教学研究以及某些对外交往中，仍然使用繁体字。汉字繁简体并存这一客观情况，对汉字的简繁文本转换提出了要求；同时由于海峡两岸文化、经贸活动广阔度、频繁度的增加和交流程度的深入，两岸民众均对繁简字的准确转换提出了越来越迫切和更高级的要求。

目前在互联网上使用较为广泛和较多的繁简字转换工具或转换系统有：金山词霸的“繁体字简体字转换”、google翻译软件中的“繁简字转换以及百度搜索中的“繁简字转换”。以上三种繁简字转换工具或转换系统，在实现“简化字”与“繁体字”的转换时，都有着翻译准确性不高、翻译速度不够快的缺点。

发明内容

为了克服现有技术的上述缺点，本发明的目的是提供一种提高准确性和速度的繁体和简体翻译方法，能够提高繁体和简体互译时的准确性和速度，经过大量实验表明，其翻译的准确性高达99.9％以上，其翻译速度高达1.7Mbytes/s。

本发明解决其技术问题所采用的技术方案是：

一种提高准确性和速度的繁体和简体翻译方法，当简体转换为繁体时，该翻译方法包括以下步骤：

(1)字符码表一对一映射：按照内码字符映射表，将GB内码转换成BIG5内码；

(2)根据词汇识别进行一对多字的转换：当一个简体字对应多个繁体字时，根据该简体字所在的词汇来确定其对应的繁体字；

(3)对词表达方式差异的转换：将简体词翻译成对应的繁体词；

(4)根据上下文对词翻译：当一个简体词对应多个繁体词时，根据该简体词在上下文中的含义来确定其对应的繁体词。

作为本发明的进一步改进：一种提高准确性和速度的繁体和简体翻译方法，当繁体转换为简体时，该翻译方法包括以下步骤：

(1)字符码表一对一映射：按照内码字符映射表，将BIG5内码转换成GB内码；

(2)根据词汇识别进行一对多字的转换：当一个繁体字对应多个简体字时，根据该繁体字所在的词汇来确定其对应的简体字；

(3)对词表达方式差异的转换：将繁体词翻译成对应的简体词；

(4)根据上下文对词翻译：当一个繁体词对应多个简体词时，根据该繁体词在上下文中的含义来确定其对应的简体词。

作为本发明的进一步改进：在进行所述“字符码表一对一映射”前，还包括以下步骤：

(1)用户利用输入装置输入中文内容；

(2)计算机操作系统判断用户输入的中文内容的中文字体种类；

(3)如果是简体，则转换为GB内码；

(4)如果是繁体，则转换为BIG5内码。

作为本发明的进一步改进：所述计算机操作系统包括Windows系列操作系统、Unix操作系统、Linux操作系统和Mac操作系统。

与现有技术相比，本发明的有益效果是：

本翻译方法能够提高繁体和简体互译时的准确性和速度，经过大量实验表明，其翻译的准确性高达99.9％以上，其翻译速度高达1.7Mbytes/s，优于同行业大多数的繁简翻译系统，适合大量推广使用。

具体实施方式

现结合实施例对本发明进一步说明：

一种提高准确性和速度的繁体和简体翻译方法，当繁体转换为简体时，该翻译方法包括以下步骤：

在进行所述“字符码表一对一映射”前，还包括以下步骤：

(1)用户利用输入装置输入中文内容；

(3)如果是简体，则转换为GB内码；

(4)如果是繁体，则转换为BIG5内码。

所述计算机操作系统包括Windows系列操作系统、Unix操作系统、Linux操作系统和Mac操作系统。Windows系列操作系统包括Windows 95、Windows 98、Windows XP、Windows2000、Windows 7、Windows 8、Windows 10等等。Unix操作系统包括SYSTEM V系统和BSD系统，SYSTEM V系统包括SCO UNIX、HP UNIX、SUN UNIX、IBM UNIX等等，BSD系统包括FreeBSD、OpenBSD、NetBSD、APPle UNIX等等。Linux操作系统包括Linux Mint、Ubuntu、OpenSUSE、Fedora、PC-BSD、Debian、RHEL、CentOS等等。Mac操作系统包括Mac OS、Mac OS X、macOSHigh Sierra等等。

以下为该翻译方法的详细解释：

一、字符码表一对一映射

其转换机制是按照内码字符映射表，在简体转换为繁体时，将GB内码转换成BIG5内码，在繁体转换为简体的时候就反过来。例如，GB 2312-80 0xB9FA代表简体字“国”，当简体转换为繁体的时候就把它替换成0xB0EA对应繁体BIG码的“國”字。根据我们测试证明，如果按照字符的转错机率来统计，对一般性质的文本，该处理方式可以达到98％的准确率。但其弱点是由于简繁字体并非一对一的关系，因此忽略掉一些其它较不常用的字。

表1：一对一字符内码映像表

二、根据词汇识别进行一对多字的转换

在简体转换为繁体时，对于一个简体字应该翻译成在当前有可能的繁体字中的哪一个，我们可以根据该简体字所在的词汇来决定。

表2：词汇映像表

在表2中，头发与出发的“发”字在简体中是同一字型的，但繁体中却不一样。这样就可以根据“发”字所在的词汇来对该字进行准确的转换。如果是头发就翻译成“頭髮”，如果是出发就翻译成“出發”。

三、对词表达方式差异的转换

有一些词，在繁体与简体有不同的表达方式，步骤三能够实现不同表达方式的转换，即将简体词翻译成对应的繁体词。

表3：不同表达方式的词汇差异的例子

四、根据上下文对词翻译

有一些词，是需要根据上下文才能够准确的翻译出来。当一个简体词对应多个繁体词时，根据该简体词在上下文中的含义，将该简体词翻译成对应的繁体词。比如在中国大陆的语言习惯中，“文件”代表一般的文件，也可以代表是计算机磁盘中存取的文件(document)。而在繁体用户的语言习惯中，这两个含义是用两个不同的词来表达，繁体用语的一般文件为“文件”，在计算机中存取的资料为“档案”。

实施例：该翻译方法的翻译速度测试(高流量压力测试)

1、测试目的

本次测试是为了获取大流量访问时繁简翻译系统(应用该翻译方法的系统)在工作极限状态下的简繁转换速度数据。

该数据回答的问题是：

在本测试所规定的环境下，在除繁简翻译系统之处理速度之外的其他因素都不成为访问速度瓶颈的情况下，通过繁简翻译系统动态转换出来的中文繁体网站最大可以满足多大流量的繁体用户访问？

2、测试要点

为使本测试能够达到目的，测试注意到以下要点：

(1)测试环境要求

测试环境中包括了许多影响测试结果的因素，最主要的包括以下几点：

●测试用主机的配置(主机配置越高，测试得到的速度数据就越快)；

●网络环境的稳定(例如必须无其他用户共享使用)；

●网络带宽充足，设备稳定；

●测试用网页必须针对实际访问情况而选定；

●软件系统单一稳定(不允许有其他程序占用测试系统的资源)。

(2)保证除繁简翻译系统之处理速度之外的其他因素皆不成为访问速度瓶颈

由于我们的测试目的是要获取繁简翻译系统的最大处理速度，因此整个测试环境的配置必须使速度瓶颈落在繁简翻译系统的处理速度上。因此，以下是注意事项：

●采用100M的局域网环境，确保网络传输速度不成为速度瓶颈；

●采用静态网页做为测试用网页，确保原版的服务器的输出速度不因动态数据之处理(如数据库等)而成为瓶颈。

验证原版服务器处理速度不是瓶颈的方式是：观察在100M局域网饱和的状态下，原版服务器的CPU占用率远低于100％。

(3)保证繁简翻译系统处于极限工作状态下

验证繁简翻译系统处于极限工作状态的方式是：观察在压力测试过程中，安装了繁简翻译系统的主机的CPU占用率达到或接近100％。如果并非如此，则说明当前状态下繁简翻译系统并没有足够的工作负荷，其他地方出现速度瓶颈。

3、测试原理

Web Server(下称原版服务器)：用于发布未经繁体转换的网页。

Converter(下称繁简翻译系统服务器)：安装有繁简翻译系统软件。

Ab.exe(测试软件)：用于测试速度的软件。

繁简转换服务器安放在原版服务器与测试软件之间。测试软件向繁简转换系统不断发出网页请求，繁简翻译系统把原版服务器的网页翻译成简体后发送回测试程序。

测试软件可以不断地重复发送，而且可以控制同一时间共存的发送请求的进程的数量。返回的数据流的速率与每秒输出的pageview将被被作为测试结果列印出来。

4、硬件配置

(1)服务器1：作原版服务器使用。

CPU:PII 500以上；

RAM:128M；

HDD:QUANTUM IDE 10G(或其它)。

(2)服务器2：用于安装繁简翻译系统。

CPU:PII 500以上；

RAM:128M；

HDD:QUANTUM IDE 10G(或其它)。

(3)服务器3：用于安装测试软件。

CPU:PII 500以上；

RAM:128M；

HDD:QUANTUM IDE 10G(或其它)。

5、操作系统

三台服务器的操作系统均为Win2000(任意版本)。

6、网络环境

100M以太网(测试过程保证无其他用户共享使用)。

7、结果

测试结果文件拷贝：

表4：直观数据表

测试系统	总重复次数	同时连接数	输出速度
				信使网络繁简通	1000	20	1.7Mbytes/s

从表4可见，该繁简翻译系统的翻译速度高达1.7Mbytes/s，优于同行业大多数的繁简翻译系统。

综上所述，本领域的普通技术人员阅读本发明文件后，根据本发明的技术方案和技术构思无需创造性脑力劳动而作出其他各种对应的变换方案，均属于本发明所保护的范围。

Claims

1.一种提高准确性和速度的繁体和简体翻译方法，其特征在于：当简体转换为繁体时，该翻译方法包括以下步骤：

2.一种提高准确性和速度的繁体和简体翻译方法，其特征在于：当繁体转换为简体时，该翻译方法包括以下步骤：

3.根据权利要求1或2所述的一种提高准确性和速度的繁体和简体翻译方法，其特征在于：在进行所述“字符码表一对一映射”前，还包括以下步骤：

(1)用户利用输入装置输入中文内容；

(3)如果是简体，则转换为GB内码；

(4)如果是繁体，则转换为BIG5内码。

4.根据权利要求3所述的一种提高准确性和速度的繁体和简体翻译方法，其特征在于：所述计算机操作系统包括Windows系列操作系统、Unix操作系统、Linux操作系统和Mac操作系统。