CN103559178A - 互联网中文简繁字转换系统及方法 - Google Patents
互联网中文简繁字转换系统及方法 Download PDFInfo
- Publication number
- CN103559178A CN103559178A CN201310215166.0A CN201310215166A CN103559178A CN 103559178 A CN103559178 A CN 103559178A CN 201310215166 A CN201310215166 A CN 201310215166A CN 103559178 A CN103559178 A CN 103559178A
- Authority
- CN
- China
- Prior art keywords
- simplified
- word
- participle
- chinese characters
- traditional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种互联网中文简繁字转换系统,属于中文简繁转换技术,包括:分词模块,用于针对输入的语句进行分词,不同的语义分出不同的字和词组;符号处理模块,用于把简体与繁体中的不相同符号进行转换;词组处理模块,用于针对简体与繁体中词组翻译的差别进行转换;字处理模块,用于针对简体字和繁体字进行转换;综合处理模块,用于针对简体和繁体字词在不同语境中的不同用法进行转换。本发明还公开了一种互联网中文简繁字转换方法。本发明实现了互联网及计算机领域内繁简词汇的准确转换,提供了准确的简繁转换工具;本发明用技术手段实现了海峡两岸民众在互联网上的交流,若大陆网站使用本系统,可以方便台湾民众阅览。
Description
技术领域
本发明涉及中文简繁转换技术领域,特别涉及一种互联网中文简繁字转换系统及方法。
背景技术
中国大陆地区从上世纪60年代开始全面使用简化字,而台港澳地区以及海外华人华语社区依然使用繁体字。此外,中国大陆在古籍出版、古汉语教学研究以及某些对外交往中,仍然使用繁体字。汉字繁简体并存这一客观情况,对汉字的简繁文本转换提出了要求;同时由于海峡两岸文化、经贸活动广阔度、频繁度的增加和交流程度的深入,两岸民众均对繁简字的准确转换提出了越来越迫切和更高级的要求。
近十多年来,学术界和互联网界都有不少专家、学者对繁简字的转换进行了研究和探索,研制了不少繁简字转换工具或转换系统,但至今尚无一种能够在中国“大陆简化字”与“台湾繁体字(有人称正体字)”之间准确转换的工具或系统。
目前在互联网上使用较为广泛和较多的繁简字转换工具或转换系统有:金山词霸的“繁体字简体字转换”、google(谷歌)翻译软件中的“繁简字转换”以及百度搜索中的“繁简字转换”。以上三种繁简字转换工具或转换系统,在实现“简化字”与“繁体字”的转换时,都只能部分地实现“简化字”与“繁体字”的转换,不能达到准确转换的目的。
发明内容
有鉴于此,本发明的目的在于提供一种互联网中文简繁字转换系统及方法,用于实现“简化字”与“繁体字”的准确转换。
本发明提供了一种互联网中文简繁字转换系统,包括:
分词模块,用于对输入的语句进行分词,不同的语义分出不同的字和词组;
符号处理模块,用于对简体语句与繁体语句中的不相同符号进行转换;
词组处理模块,用于对分词后简体的词组进行繁体转换;
字处理模块,用于将简体字转换为繁体字;
综合处理模块,用于对简体和繁体字词在不同语境中的不同用法进行转换。
本发明还提供了一种互联网中文简繁字转换方法,包括:
将输入的语句进行分词,不同的语义分出不同的字和词组;
将简体语句与繁体语句中的不相同符号进行转换;
对分词后简体的词组进行繁体转换;
将简体字转换为繁体字;
对简体和繁体字词在不同语境中的不同用法进行转换。
本发明实现了互联网及计算机领域内繁简词汇的准确转换,提供了准确的简繁转换工具。例如:
应用程序接口(大陆简体)—转换—→應用程式介面(台湾繁体)
服务器(大陆简体)—转换—→伺服器(台湾繁体)
带宽(大陆简体)—转换—→頻寬(台湾繁体)
云计算(大陆简体)—转换—→雲端運算(台湾繁体)
其次,本发明用技术手段实现了海峡两岸民众在互联网上的交流,若大陆网站使用本系统,可以方便台湾民众阅览,提高网站对台湾民众的亲和力、亲切感。
最后,大陆地区的运营性网站运营本系统制作繁体版,方便台湾地区民众(在繁体版上)认读、识别产品名称,有利于交易的达成,因而也将有利于提升网站的市场竞争力。例如,在农产品名称方面:
菠萝(大陆简体)—转换—→鳳梨(台湾繁体)
猕猴桃(大陆简体)—转换—→奇異果(台湾繁体)
番石榴(大陆简体)—转换—→芭樂(台湾繁体)
西兰花(大陆简体)—转换—→花椰菜(台湾繁体)
附图说明
图1为本发明实施例提供的互联网中文简繁字转换系统结构图;
图2为本发明实施例中分词模块的结构图;
图3为本发明实施例中“台湾大学”网站首页首屏截屏图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步的详细描述。
如图1所示,本实施例提供的互联网中文简繁字转换系统主要有五个模块:符号处理模块、词组处理模块、字处理模块、综合处理模块以及分词模块。
分词模块11,用于对输入的语句进行分词,不同的语义能分出不同的字和词组。如图2所示,分词模块11具体包括:
语句分词单元111、用于将语句分成单个字,如:王晓平在1月份滦南大会上说的确实在理,切分为:王/晓/平/在/1/月/份/滦/南/大/会/上/说/的/确/实/在/理
组合词组单元112、用于通过词库检索对每个词之间进行组合计算所有可能的词组,得到所有词组的组合:
王/晓/平/在/1/月/份/滦/南/大/会上/说/的/确实/在/理
王/晓/平/在/1/月/份/滦/南/大会/上/说/的/确实/在/理
王/晓/平/在/1/月份/滦/南/大/会/上/说/的/确实/在/理
王/晓/平/在/1/月份/滦/南/大会/上/说/的/确实/在/理
王/晓/平/在/1/月份/滦/南/大/会上/说/的/确实/在/理
权重值如下:
eWeight | sWord |
218.00 | 王 |
9.00 | 晓 |
271.00 | 平 |
78484.00 | 在 |
0.00 | 1 |
1900.00 | 月 |
11.00 | 月份 |
1234.00 | 份 |
1.00 | 滦 |
813.00 | 南 |
14536.00 | 大 |
1333.00 | 大会 |
6136.00 | 会 |
469.00 | 会上 |
23706.00 | 上 |
17649.00 | 说 |
358156.00 | 的 |
210.00 | 的确 |
181.00 | 确 |
361.00 | 确实 |
357.00 | 实 |
295.00 | 实在 |
78484.00 | 在 |
3.00 | 在理 |
129.00 | 理 |
最短路径分词单元113、用于使用N最短路径计算出多个分词方案。最短路径分词算法:以第一个词为起点,最后一个词为终点,从起点开始记录到达终点的所有路径,每个词之间存在着权重,记录每个路径的最终权重值之和,权重最少的路径即为最短路径;(权重由词的词性决定)N最短路径为最短路径保留最前的N个结果。列出得到的最短路径分别如下:
0 1 2 3 4 5 6 8 9 10 11 14 16 17 20 23 25 174
0 1 2 3 4 5 6 8 9 10 12 15 16 17 20 23 25 176
0 1 2 3 4 5 7 9 10 11 13 15 16 17 20 23 25 181
0 1 2 3 4 5 7 9 10 11 14 16 17 20 23 25 167
0 1 2 3 4 5 7 9 10 12 15 16 17 20 23 25 169
分词结果取167与169的结果如下:
王/晓/平/在/1/月份/滦/南/大/会上/说/的/确实/在/理
王/晓/平/在/1/月份/滦/南/大会/上/说/的/确实/在/理
数字日期处理单元114、用于进行数字、日期合并的处理:
王/晓/平/在/1月份/滦/南/大/会上/说/的/确实/在/理
王/晓/平/在/1月份/滦/南/大会/上/说/的/确实/在/理
名称处理单元115、用于人名和地名以及翻译名的识别,找出所有可能的人名、地名及翻译名:
王晓平/在/1月份/滦南/大/会上/说/的/确实/在/理
王晓平/在/1月份/滦南/大会/上/说/的/确实/在/理
二次最短路径分词单元116、在上一步的基础上,再次使用N最短路径求得最后的分词结果:
02681114171819212325164
王晓平/在/1月份/滦南/大会/上/说/的/确实/在/理
以上词组数据库、人名地名数据库都由《中华现代汉语词典》专家提供。
符号处理模块12,用于将不相同符号转换成台湾当地熟悉的符号。例如:中文双引号“”在台湾当地为「」。
词组处理模块13,中文简体的词组和台湾繁体的词组存在着异同,同时包括对国外的词(人名,地名等)翻译的异同,词组处理模块13就是针对这些异同进行转换。例如:奥巴马翻译为歐巴馬,沙特阿拉伯翻译为沙烏地阿拉伯,内存翻译为記憶體,带宽翻译为頻寬
以上中文简体词组对应台湾繁体词组数据库,由中华文字大辞典专家提供。
字处理模块14,用于将中文简体字转换成台湾繁体字。单个字处理是根据简体字和繁体字对应表,判断该字是否存在于表中,如果存在则返回表中对应的繁体字,不存在则返回原来的字。
综合处理模块15,用于对中文简体和台湾繁体存在着特殊关系的一种处理。例如:系,用于中文系、计算机系的时候是不需要翻译的;但在用于表示解释的意思,相当于“即”的时候,则需要翻译为係。以上中文简体词 组对应台湾繁体词组数据库,由《中华现代汉语词典》专家提供。
本实施例还提供了一种互联网中文简繁字转换方法,包括:
针对输入的语句进行分词,不同的语义分出不同的字和词组;把简体与繁体中的不相同符号进行转换;针对简体与繁体中词组翻译的差别进行转换;针对简体字和繁体字进行转换;针对简体和繁体字词在不同语境中的不同用法进行转换。
其中,所述针对输入的语句进行分词的方法具体包括:
把语句分成单个字;通过词库检索对每个词进行组合,获取所有可能的词组,得到所有词组的不同组合;针对所述不同组合分别使用N最短路径计算出至少一个分词方案;针对所述至少一个分词方案进行数字、日期合并的处理;在所述合并处理后的分词方案中识别出人名、地名及翻译名;再次使用N最短路径获取最后的分词结果。
本实施例运用分词技术,更加精确完整了实现了简繁转换。例如:人体内存有微生物(人體内存有微生物),小明去买了内存(小明去買了記憶體),两条语句都存在有“内存”两字,但是在不同语义中,会有不同的翻译。
本实施例进行“简化字”与“繁体字”之间转换时的准确率高于目前的繁简字转换工具或系统。这里以“台湾大学网站”关于台湾大学的文字介绍为例(见台湾大学网页,网址:http://www.ntu.edu.tw/about/about.html),比较说明如下(图3为“台湾大学”网站首页首屏截图)。
以下是使用本实施例转换后的“中文简体”与“中文繁体”结果,转换准确率为100%,见表1:
表1
以下是通过谷歌翻译软件中的“繁简字转换”工具转换的结果,转换不 准确的用粗体字体标出,见表2:
表2
总之,以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。
Claims (5)
1.一种互联网中文简繁字转换系统,其特征在于,包括:
分词模块,用于对输入的语句进行分词,不同的语义分出不同的字和词组;
符号处理模块,用于对简体语句与繁体语句中的不相同符号进行转换;
词组处理模块,用于对分词后简体的词组进行繁体转换;
字处理模块,用于将简体字转换为繁体字;
综合处理模块,用于对简体和繁体字词在不同语境中的不同用法进行转换。
2.根据权利要求1所述的互联网中文简繁字转换系统,其特征在于,所述分词模块具体包括:
语句分词单元,用于将语句分成单个字;
组合词组单元,用于通过词库检索对所述每个字进行组合,获取所有可能的词组,得到所有词组的不同组合;
最短路径分词单元,用于对所述不同组合分别使用N最短路径计算出至少一个分词方案;
数字日期处理单元,用于针对所述至少一个分词方案进行数字、日期合并的处理;
名称处理单元,用于在所述合并处理后的分词方案中识别出人名、地名及翻译名;
二次最短路径分词单元,用于再次使用N最短路径获取最后的分词结果。
3.一种互联网中文简繁字转换方法,其特征在于,包括:
将输入的语句进行分词,不同的语义分出不同的字和词组;
将简体语句与繁体语句中的不相同符号进行转换;
对分词后简体的词组进行繁体转换;
将简体字转换为繁体字;
对简体和繁体字词在不同语境中的不同用法进行转换。
4.根据权利要求3所述的互联网中文简繁字转换方法,其特征在于,所述将输入的语句进行分词的步骤具体包括:
把语句分成单个字;
通过词库检索对所述每个字进行组合,获取所有可能的词组,得到所有词组的不同组合;
针对所述不同组合分别使用N最短路径计算出至少一个分词方案;
针对所述至少一个分词方案进行数字、日期合并的处理;
在所述合并处理后的分词方案中识别出人名、地名及翻译名;
再次使用N最短路径获取最后的分词结果。
5.根据权利要求4所述的互联网中文简繁字转换方法,其特征在于,所述使用N最短路径进行分词的步骤具体包括:
通过上一步得到词组组合,每个组合都以第一个词为起点,最后一个词为终点,从起点开始记录到达终点的所有路径,每个词之间存在着权重,记录每个路径的最终权重值之和,权重最少的路径为最短路径;所述权重由词的词性决定,所述N最短路径为最短路径保留最前的N个结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310215166.0A CN103559178A (zh) | 2013-05-31 | 2013-05-31 | 互联网中文简繁字转换系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310215166.0A CN103559178A (zh) | 2013-05-31 | 2013-05-31 | 互联网中文简繁字转换系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103559178A true CN103559178A (zh) | 2014-02-05 |
Family
ID=50013427
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310215166.0A Pending CN103559178A (zh) | 2013-05-31 | 2013-05-31 | 互联网中文简繁字转换系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103559178A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106682411A (zh) * | 2016-12-22 | 2017-05-17 | 浙江大学 | 一种将体检诊断数据转化为疾病标签的方法 |
CN109086258A (zh) * | 2018-06-13 | 2018-12-25 | 广州市信景技术有限公司 | 一种提高准确性和速度的繁体和简体翻译方法 |
CN112949283B (zh) * | 2021-04-26 | 2024-01-23 | 合肥工业大学 | 文本处理方法、装置、非易失性存储介质及处理器 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1204811A (zh) * | 1998-08-13 | 1999-01-13 | 英业达股份有限公司 | 汉语语句切分的方法及其系统 |
CN1369833A (zh) * | 2001-02-16 | 2002-09-18 | 意蓝科技股份有限公司 | 词汇式繁体中文与简体中文的转换系统及转换方法 |
CN101082908A (zh) * | 2007-06-26 | 2007-12-05 | 腾讯科技(深圳)有限公司 | 一种中文分词方法及系统 |
CN101131690A (zh) * | 2006-08-21 | 2008-02-27 | 富士施乐株式会社 | 简体汉字和繁体汉字相互转换方法及其系统 |
-
2013
- 2013-05-31 CN CN201310215166.0A patent/CN103559178A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1204811A (zh) * | 1998-08-13 | 1999-01-13 | 英业达股份有限公司 | 汉语语句切分的方法及其系统 |
CN1369833A (zh) * | 2001-02-16 | 2002-09-18 | 意蓝科技股份有限公司 | 词汇式繁体中文与简体中文的转换系统及转换方法 |
CN101131690A (zh) * | 2006-08-21 | 2008-02-27 | 富士施乐株式会社 | 简体汉字和繁体汉字相互转换方法及其系统 |
CN101082908A (zh) * | 2007-06-26 | 2007-12-05 | 腾讯科技(深圳)有限公司 | 一种中文分词方法及系统 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106682411A (zh) * | 2016-12-22 | 2017-05-17 | 浙江大学 | 一种将体检诊断数据转化为疾病标签的方法 |
CN106682411B (zh) * | 2016-12-22 | 2019-04-16 | 浙江大学 | 一种将体检诊断数据转化为疾病标签的方法 |
CN109086258A (zh) * | 2018-06-13 | 2018-12-25 | 广州市信景技术有限公司 | 一种提高准确性和速度的繁体和简体翻译方法 |
CN112949283B (zh) * | 2021-04-26 | 2024-01-23 | 合肥工业大学 | 文本处理方法、装置、非易失性存储介质及处理器 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103377239B (zh) | 计算文本间相似度的方法和装置 | |
US8190628B1 (en) | Phrase generation | |
CN106610951A (zh) | 改进的基于语义分析的文本相似度求解算法 | |
CN107391667B (zh) | 一种词条处理方法及移动终端 | |
US20120330955A1 (en) | Document similarity calculation device | |
CN111459977B (zh) | 自然语言查询的转换 | |
CN103594085A (zh) | 一种提供语音识别结果的方法及系统 | |
WO2015096529A1 (zh) | 面向通用机译引擎的个性化翻译方法及装置 | |
CN111651990A (zh) | 一种实体识别方法、计算设备及可读存储介质 | |
CN103559178A (zh) | 互联网中文简繁字转换系统及方法 | |
JP6586850B2 (ja) | テーブル再構成装置と方法 | |
CN112328735A (zh) | 热点话题确定方法、装置及终端设备 | |
CN109710742B (zh) | 一种个股公告自然语言查询处理的方法、系统及设备 | |
CN113157852A (zh) | 语音处理的方法、系统、电子设备及存储介质 | |
CN106569994A (zh) | 地址的分析方法及装置 | |
WO2024066903A1 (zh) | 识别待识别医药行业目标对象的方法、设备和介质 | |
CN112651226B (zh) | 基于依存句法树的知识解析系统及方法 | |
CN104699662B (zh) | 识别整体符号串的方法和装置 | |
Dhore et al. | Optimizing transliteration for Hindi/Marathi to English using only two weights | |
Al-Sultany et al. | Enriching tweets for topic modeling via linking to the wikipedia | |
JP2022162525A (ja) | 音声認識方法及び装置 | |
CN109727591B (zh) | 一种语音搜索的方法及装置 | |
Dhawan et al. | Hybrid approach for stemming in Punjabi | |
CN113033205A (zh) | 实体链接的方法、装置、设备以及存储介质 | |
Buriachok et al. | Implantation of indexing optimization technology for highly specialized terms based on Metaphone phonetical algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20140205 |