CN109086258A - 一种提高准确性和速度的繁体和简体翻译方法 - Google Patents
一种提高准确性和速度的繁体和简体翻译方法 Download PDFInfo
- Publication number
- CN109086258A CN109086258A CN201810608763.2A CN201810608763A CN109086258A CN 109086258 A CN109086258 A CN 109086258A CN 201810608763 A CN201810608763 A CN 201810608763A CN 109086258 A CN109086258 A CN 109086258A
- Authority
- CN
- China
- Prior art keywords
- simplified
- word
- traditional font
- speed
- chinese
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000006243 chemical reaction Methods 0.000 claims abstract description 24
- 238000013507 mapping Methods 0.000 claims abstract description 13
- 101000695861 Arabidopsis thaliana Brefeldin A-inhibited guanine nucleotide-exchange protein 5 Proteins 0.000 claims abstract description 11
- 238000013519 translation Methods 0.000 abstract description 31
- 238000002474 experimental method Methods 0.000 abstract description 3
- 238000012360 testing method Methods 0.000 description 21
- 238000012545 processing Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- VLCQZHSMCYCDJL-UHFFFAOYSA-N tribenuron methyl Chemical compound COC(=O)C1=CC=CC=C1S(=O)(=O)NC(=O)N(C)C1=NC(C)=NC(OC)=N1 VLCQZHSMCYCDJL-UHFFFAOYSA-N 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 230000007306 turnover Effects 0.000 description 2
- 235000006679 Mentha X verticillata Nutrition 0.000 description 1
- 235000002899 Mentha suaveolens Nutrition 0.000 description 1
- 235000001636 Mentha x rotundifolia Nutrition 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
- G06F40/157—Transformation using dictionaries or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开一种提高准确性和速度的繁体和简体翻译方法,当简体转换为繁体时,该翻译方法包括以下步骤:字符码表一对一映射:按照内码字符映射表,将GB内码转换成BIG5内码;根据词汇识别进行一对多字的转换:当一个简体字对应多个繁体字时,根据该简体字所在的词汇来确定其对应的繁体字;对词表达方式差异的转换:将简体词翻译成对应的繁体词;根据上下文对词翻译:当一个简体词对应多个繁体词时,根据该简体词在上下文中的含义,将该简体词翻译成对应的繁体词。本翻译方法能够提高繁体和简体互译时的准确性和速度,经过大量实验表明,其翻译的准确性高达99.9%以上,其翻译速度高达1.7Mbytes/s。
Description
技术领域
本发明涉及繁体和简体互译方法,特别是一种提高准确性和速度的繁体和简体翻译方法。
背景技术
中国大陆地区从上世纪60年代开始全面使用简化字,而台港澳地区以及海外华人华语社区依然使用繁体字。此外,中国大陆在古籍出版、古汉语教学研究以及某些对外交往中,仍然使用繁体字。汉字繁简体并存这一客观情况,对汉字的简繁文本转换提出了要求;同时由于海峡两岸文化、经贸活动广阔度、频繁度的增加和交流程度的深入,两岸民众均对繁简字的准确转换提出了越来越迫切和更高级的要求。
目前在互联网上使用较为广泛和较多的繁简字转换工具或转换系统有:金山词霸的“繁体字简体字转换”、google翻译软件中的“繁简字转换以及百度搜索中的“繁简字转换”。以上三种繁简字转换工具或转换系统,在实现“简化字”与“繁体字”的转换时,都有着翻译准确性不高、翻译速度不够快的缺点。
发明内容
为了克服现有技术的上述缺点,本发明的目的是提供一种提高准确性和速度的繁体和简体翻译方法,能够提高繁体和简体互译时的准确性和速度,经过大量实验表明,其翻译的准确性高达99.9%以上,其翻译速度高达1.7Mbytes/s。
本发明解决其技术问题所采用的技术方案是:
一种提高准确性和速度的繁体和简体翻译方法,当简体转换为繁体时,该翻译方法包括以下步骤:
(1)字符码表一对一映射:按照内码字符映射表,将GB内码转换成BIG5内码;
(2)根据词汇识别进行一对多字的转换:当一个简体字对应多个繁体字时,根据该简体字所在的词汇来确定其对应的繁体字;
(3)对词表达方式差异的转换:将简体词翻译成对应的繁体词;
(4)根据上下文对词翻译:当一个简体词对应多个繁体词时,根据该简体词在上下文中的含义来确定其对应的繁体词。
作为本发明的进一步改进:一种提高准确性和速度的繁体和简体翻译方法,当繁体转换为简体时,该翻译方法包括以下步骤:
(1)字符码表一对一映射:按照内码字符映射表,将BIG5内码转换成GB内码;
(2)根据词汇识别进行一对多字的转换:当一个繁体字对应多个简体字时,根据该繁体字所在的词汇来确定其对应的简体字;
(3)对词表达方式差异的转换:将繁体词翻译成对应的简体词;
(4)根据上下文对词翻译:当一个繁体词对应多个简体词时,根据该繁体词在上下文中的含义来确定其对应的简体词。
作为本发明的进一步改进:在进行所述“字符码表一对一映射”前,还包括以下步骤:
(1)用户利用输入装置输入中文内容;
(2)计算机操作系统判断用户输入的中文内容的中文字体种类;
(3)如果是简体,则转换为GB内码;
(4)如果是繁体,则转换为BIG5内码。
作为本发明的进一步改进:所述计算机操作系统包括Windows系列操作系统、Unix操作系统、Linux操作系统和Mac操作系统。
与现有技术相比,本发明的有益效果是:
本翻译方法能够提高繁体和简体互译时的准确性和速度,经过大量实验表明,其翻译的准确性高达99.9%以上,其翻译速度高达1.7Mbytes/s,优于同行业大多数的繁简翻译系统,适合大量推广使用。
具体实施方式
现结合实施例对本发明进一步说明:
一种提高准确性和速度的繁体和简体翻译方法,当简体转换为繁体时,该翻译方法包括以下步骤:
(1)字符码表一对一映射:按照内码字符映射表,将GB内码转换成BIG5内码;
(2)根据词汇识别进行一对多字的转换:当一个简体字对应多个繁体字时,根据该简体字所在的词汇来确定其对应的繁体字;
(3)对词表达方式差异的转换:将简体词翻译成对应的繁体词;
(4)根据上下文对词翻译:当一个简体词对应多个繁体词时,根据该简体词在上下文中的含义来确定其对应的繁体词。
一种提高准确性和速度的繁体和简体翻译方法,当繁体转换为简体时,该翻译方法包括以下步骤:
(1)字符码表一对一映射:按照内码字符映射表,将BIG5内码转换成GB内码;
(2)根据词汇识别进行一对多字的转换:当一个繁体字对应多个简体字时,根据该繁体字所在的词汇来确定其对应的简体字;
(3)对词表达方式差异的转换:将繁体词翻译成对应的简体词;
(4)根据上下文对词翻译:当一个繁体词对应多个简体词时,根据该繁体词在上下文中的含义来确定其对应的简体词。
在进行所述“字符码表一对一映射”前,还包括以下步骤:
(1)用户利用输入装置输入中文内容;
(2)计算机操作系统判断用户输入的中文内容的中文字体种类;
(3)如果是简体,则转换为GB内码;
(4)如果是繁体,则转换为BIG5内码。
所述计算机操作系统包括Windows系列操作系统、Unix操作系统、Linux操作系统和Mac操作系统。Windows系列操作系统包括Windows 95、Windows 98、Windows XP、Windows2000、Windows 7、Windows 8、Windows 10等等。Unix操作系统包括SYSTEM V系统和BSD系统,SYSTEM V系统包括SCO UNIX、HP UNIX、SUN UNIX、IBM UNIX等等,BSD系统包括FreeBSD、OpenBSD、NetBSD、APPle UNIX等等。Linux操作系统包括Linux Mint、Ubuntu、OpenSUSE、Fedora、PC-BSD、Debian、RHEL、CentOS等等。Mac操作系统包括Mac OS、Mac OS X、macOSHigh Sierra等等。
以下为该翻译方法的详细解释:
一、字符码表一对一映射
其转换机制是按照内码字符映射表,在简体转换为繁体时,将GB内码转换成BIG5内码,在繁体转换为简体的时候就反过来。例如,GB 2312-80 0xB9FA代表简体字“国”,当简体转换为繁体的时候就把它替换成0xB0EA对应繁体BIG码的“國”字。根据我们测试证明,如果按照字符的转错机率来统计,对一般性质的文本,该处理方式可以达到98%的准确率。但其弱点是由于简繁字体并非一对一的关系,因此忽略掉一些其它较不常用的字。
表1:一对一字符内码映像表
二、根据词汇识别进行一对多字的转换
在简体转换为繁体时,对于一个简体字应该翻译成在当前有可能的繁体字中的哪一个,我们可以根据该简体字所在的词汇来决定。
表2:词汇映像表
在表2中,头发与出发的“发”字在简体中是同一字型的,但繁体中却不一样。这样就可以根据“发”字所在的词汇来对该字进行准确的转换。如果是头发就翻译成“頭髮”,如果是出发就翻译成“出發”。
三、对词表达方式差异的转换
有一些词,在繁体与简体有不同的表达方式,步骤三能够实现不同表达方式的转换,即将简体词翻译成对应的繁体词。
表3:不同表达方式的词汇差异的例子
四、根据上下文对词翻译
有一些词,是需要根据上下文才能够准确的翻译出来。当一个简体词对应多个繁体词时,根据该简体词在上下文中的含义,将该简体词翻译成对应的繁体词。比如在中国大陆的语言习惯中,“文件”代表一般的文件,也可以代表是计算机磁盘中存取的文件(document)。而在繁体用户的语言习惯中,这两个含义是用两个不同的词来表达,繁体用语的一般文件为“文件”,在计算机中存取的资料为“档案”。
实施例:该翻译方法的翻译速度测试(高流量压力测试)
1、测试目的
本次测试是为了获取大流量访问时繁简翻译系统(应用该翻译方法的系统)在工作极限状态下的简繁转换速度数据。
该数据回答的问题是:
在本测试所规定的环境下,在除繁简翻译系统之处理速度之外的其他因素都不成为访问速度瓶颈的情况下,通过繁简翻译系统动态转换出来的中文繁体网站最大可以满足多大流量的繁体用户访问?
2、测试要点
为使本测试能够达到目的,测试注意到以下要点:
(1)测试环境要求
测试环境中包括了许多影响测试结果的因素,最主要的包括以下几点:
●测试用主机的配置(主机配置越高,测试得到的速度数据就越快);
●网络环境的稳定(例如必须无其他用户共享使用);
●网络带宽充足,设备稳定;
●测试用网页必须针对实际访问情况而选定;
●软件系统单一稳定(不允许有其他程序占用测试系统的资源)。
(2)保证除繁简翻译系统之处理速度之外的其他因素皆不成为访问速度瓶颈
由于我们的测试目的是要获取繁简翻译系统的最大处理速度,因此整个测试环境的配置必须使速度瓶颈落在繁简翻译系统的处理速度上。因此,以下是注意事项:
●采用100M的局域网环境,确保网络传输速度不成为速度瓶颈;
●采用静态网页做为测试用网页,确保原版的服务器的输出速度不因动态数据之处理(如数据库等)而成为瓶颈。
验证原版服务器处理速度不是瓶颈的方式是:观察在100M局域网饱和的状态下,原版服务器的CPU占用率远低于100%。
(3)保证繁简翻译系统处于极限工作状态下
验证繁简翻译系统处于极限工作状态的方式是:观察在压力测试过程中,安装了繁简翻译系统的主机的CPU占用率达到或接近100%。如果并非如此,则说明当前状态下繁简翻译系统并没有足够的工作负荷,其他地方出现速度瓶颈。
3、测试原理
Web Server(下称原版服务器):用于发布未经繁体转换的网页。
Converter(下称繁简翻译系统服务器):安装有繁简翻译系统软件。
Ab.exe(测试软件):用于测试速度的软件。
繁简转换服务器安放在原版服务器与测试软件之间。测试软件向繁简转换系统不断发出网页请求,繁简翻译系统把原版服务器的网页翻译成简体后发送回测试程序。
测试软件可以不断地重复发送,而且可以控制同一时间共存的发送请求的进程的数量。返回的数据流的速率与每秒输出的pageview将被被作为测试结果列印出来。
4、硬件配置
(1)服务器1:作原版服务器使用。
CPU:PII 500以上;
RAM:128M;
HDD:QUANTUM IDE 10G(或其它)。
(2)服务器2:用于安装繁简翻译系统。
CPU:PII 500以上;
RAM:128M;
HDD:QUANTUM IDE 10G(或其它)。
(3)服务器3:用于安装测试软件。
CPU:PII 500以上;
RAM:128M;
HDD:QUANTUM IDE 10G(或其它)。
5、操作系统
三台服务器的操作系统均为Win2000(任意版本)。
6、网络环境
100M以太网(测试过程保证无其他用户共享使用)。
7、结果
测试结果文件拷贝:
表4:直观数据表
测试系统 | 总重复次数 | 同时连接数 | 输出速度 |
信使网络繁简通 | 1000 | 20 | 1.7Mbytes/s |
从表4可见,该繁简翻译系统的翻译速度高达1.7Mbytes/s,优于同行业大多数的繁简翻译系统。
综上所述,本领域的普通技术人员阅读本发明文件后,根据本发明的技术方案和技术构思无需创造性脑力劳动而作出其他各种对应的变换方案,均属于本发明所保护的范围。
Claims (4)
1.一种提高准确性和速度的繁体和简体翻译方法,其特征在于:当简体转换为繁体时,该翻译方法包括以下步骤:
(1)字符码表一对一映射:按照内码字符映射表,将GB内码转换成BIG5内码;
(2)根据词汇识别进行一对多字的转换:当一个简体字对应多个繁体字时,根据该简体字所在的词汇来确定其对应的繁体字;
(3)对词表达方式差异的转换:将简体词翻译成对应的繁体词;
(4)根据上下文对词翻译:当一个简体词对应多个繁体词时,根据该简体词在上下文中的含义来确定其对应的繁体词。
2.一种提高准确性和速度的繁体和简体翻译方法,其特征在于:当繁体转换为简体时,该翻译方法包括以下步骤:
(1)字符码表一对一映射:按照内码字符映射表,将BIG5内码转换成GB内码;
(2)根据词汇识别进行一对多字的转换:当一个繁体字对应多个简体字时,根据该繁体字所在的词汇来确定其对应的简体字;
(3)对词表达方式差异的转换:将繁体词翻译成对应的简体词;
(4)根据上下文对词翻译:当一个繁体词对应多个简体词时,根据该繁体词在上下文中的含义来确定其对应的简体词。
3.根据权利要求1或2所述的一种提高准确性和速度的繁体和简体翻译方法,其特征在于:在进行所述“字符码表一对一映射”前,还包括以下步骤:
(1)用户利用输入装置输入中文内容;
(2)计算机操作系统判断用户输入的中文内容的中文字体种类;
(3)如果是简体,则转换为GB内码;
(4)如果是繁体,则转换为BIG5内码。
4.根据权利要求3所述的一种提高准确性和速度的繁体和简体翻译方法,其特征在于:所述计算机操作系统包括Windows系列操作系统、Unix操作系统、Linux操作系统和Mac操作系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810608763.2A CN109086258A (zh) | 2018-06-13 | 2018-06-13 | 一种提高准确性和速度的繁体和简体翻译方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810608763.2A CN109086258A (zh) | 2018-06-13 | 2018-06-13 | 一种提高准确性和速度的繁体和简体翻译方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109086258A true CN109086258A (zh) | 2018-12-25 |
Family
ID=64839562
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810608763.2A Pending CN109086258A (zh) | 2018-06-13 | 2018-06-13 | 一种提高准确性和速度的繁体和简体翻译方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109086258A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1035014A (zh) * | 1987-11-14 | 1989-08-23 | 夏普公司 | 汉文输入装置 |
CN1038364A (zh) * | 1988-06-03 | 1989-12-27 | 李毅民 | 简繁体字兼容自动转换汉字信息处理系统 |
CN1349184A (zh) * | 2000-10-13 | 2002-05-15 | 财团法人资讯工业策进会 | 中文繁体字与简体字的即时互换系统 |
CN101859295A (zh) * | 2009-04-07 | 2010-10-13 | 英业达股份有限公司 | 具标记提示的简繁字词转换系统及其方法 |
CN103559178A (zh) * | 2013-05-31 | 2014-02-05 | 武汉中文百科网络有限公司 | 互联网中文简繁字转换系统及方法 |
CN108108337A (zh) * | 2016-11-25 | 2018-06-01 | 北大方正集团有限公司 | 简繁互转方法及装置 |
-
2018
- 2018-06-13 CN CN201810608763.2A patent/CN109086258A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1035014A (zh) * | 1987-11-14 | 1989-08-23 | 夏普公司 | 汉文输入装置 |
CN1038364A (zh) * | 1988-06-03 | 1989-12-27 | 李毅民 | 简繁体字兼容自动转换汉字信息处理系统 |
CN1349184A (zh) * | 2000-10-13 | 2002-05-15 | 财团法人资讯工业策进会 | 中文繁体字与简体字的即时互换系统 |
CN101859295A (zh) * | 2009-04-07 | 2010-10-13 | 英业达股份有限公司 | 具标记提示的简繁字词转换系统及其方法 |
CN103559178A (zh) * | 2013-05-31 | 2014-02-05 | 武汉中文百科网络有限公司 | 互联网中文简繁字转换系统及方法 |
CN108108337A (zh) * | 2016-11-25 | 2018-06-01 | 北大方正集团有限公司 | 简繁互转方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4717821B2 (ja) | ターゲットページとは異なる文字セットおよび/または言語で書かれたクエリを使用する検索のための方法 | |
WO2018205389A1 (zh) | 语音识别方法、系统、电子装置及介质 | |
US8694303B2 (en) | Systems and methods for tuning parameters in statistical machine translation | |
JP5462001B2 (ja) | 文脈上の入力方法 | |
US9507867B2 (en) | Discovery engine | |
US10360258B2 (en) | Image annotation using aggregated page information from active and inactive indices | |
US20110137635A1 (en) | Transliterating semitic languages including diacritics | |
CN102184256A (zh) | 一种针对海量相似短文本的聚类方法和系统 | |
Xiao et al. | A topic similarity model for hierarchical phrase-based translation | |
US20210248498A1 (en) | Method and apparatus for training pre-trained knowledge model, and electronic device | |
US11977567B2 (en) | Method of retrieving query, electronic device and medium | |
US20150046154A1 (en) | Native-script and cross-script chinese name matching | |
Luk et al. | A comparison of Chinese document indexing strategies and retrieval models | |
Li et al. | When is char better than subword: A systematic study of segmentation algorithms for neural machine translation | |
Cai et al. | An optimization strategy of massive small files storage based on HDFS | |
CN109086258A (zh) | 一种提高准确性和速度的繁体和简体翻译方法 | |
US20090103809A1 (en) | Input method transform | |
CN102253983A (zh) | 一种汉语高危词识别方法和系统 | |
US20220300573A1 (en) | Method for presenting information, electronic device, and storage medium | |
Woliński | An efficient implementation of a large grammar of Polish | |
CN103488305A (zh) | 一种简繁对照中文输入法系统 | |
Jingrui et al. | A method of optimizing LDA result purity based on semantic similarity | |
Tohti et al. | Character code conversion and misspelled word processing in Uyghur, Kazak, Kyrgyz multilingual information retrieval system | |
Han et al. | Research on vertical search engine based on tibetan news sites | |
JP2008269391A (ja) | 係り受けを解析する方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181225 |
|
RJ01 | Rejection of invention patent application after publication |