CN1421803A - 可处理多音字的拼音/注音转换系统及方法 - Google Patents
可处理多音字的拼音/注音转换系统及方法 Download PDFInfo
- Publication number
- CN1421803A CN1421803A CN 01139837 CN01139837A CN1421803A CN 1421803 A CN1421803 A CN 1421803A CN 01139837 CN01139837 CN 01139837 CN 01139837 A CN01139837 A CN 01139837A CN 1421803 A CN1421803 A CN 1421803A
- Authority
- CN
- China
- Prior art keywords
- phonetic
- character
- conversion
- chinese
- polyphone
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
Abstract
一种可处理多音字的拼音/注音转换系统及方法,进行简体中文汉字拼音和繁体中文汉字注音的输入与相互转换,通过本发明所提供的“汉语拼音/注音”对应关系转换表,以语言标记的方式决定其内部对应转换数据库模式,即只需要提供一套对应的带语音标记的汉字数据库,便能够实现“汉字/汉语拼音”、“汉字/注音”以及“汉语拼音/注音”等多种转换的功能;而本发明的另一个重点在于该“汉语拼音/注音”对应关系转换表能够在拼音/注音转换过程中提供有关多音字的多种发音的处理方法。
Description
技术领域
本发明涉及一种可处理多音字的拼音/注音转换系统及方法,特别是涉及一种应用于计算机可执行操作系统平台上,用以进行简体中文汉字、繁体中文汉字之间汉语拼音和注音拼音的输入与自动转换。
背景技术
随着企业与企业间的往来互动越来越频繁,彼此间的文件信息的交流沟通也成了日常生活中重要而且不可缺少的一项重要工作,在国际互联网络如此快速发达的今天,大部分的信息交流所采用的方式都是通过网络来传递电子文件信息来实现的,而这样的方式不仅更加方便迅速而且更具经济效益。
然而由于现行世界各地所使用的文字语言在计算机上具有许多不同的编码方式,所以往往在信息交流的过程当中会造成交换信息的双方在内容的解读及认识上出现一定程度上的潜在的困扰,例如:繁体汉字与简体汉字,就有根本上的编码方式的差别存在,也因此对于在所使用的操作系统平台上加载所谓的繁体、简体汉字互换功能的软件需求也就越来越迫切。由于繁体、简体文字所采行的拼音方式不同,具体来说就是繁体字采用「注音」的编码方式,而简体字采用「汉语拼音」编码方式的基本差异存在,因而导致在进行繁体简体汉字互换的过程中,通常必须先对原始文字的发音做必要的转换,以便获取到欲转换字词的正确发音,最后才能得到正确的繁体或简体字词。
就过去公知的技术而言,几种类似的繁体简体汉字互换功能的软件在处理繁体转简体或是简体转繁体中「字转音」的部分时,几乎都是通过在操作系统内部分别建立两套储存有各自发音符号和其对应的简体字和繁体字的对应数据库,然后在处理过程中将原始文字的发音符号拿来跟对应数据库中所记载的转换发音数据逐一对比,找到需要转换的正确发音符号。这样的处理方式会有下列几个问题:首先,为了提高对比结果的成功率,必须花费大量的人力以及时间去从事数据库的维护工作,造成人力、金钱、时间成本上不必要的浪费;再者,使用人力维护数据库不但容易因为人员的疏忽而造成数据库内容上产生谬误,也极难保证两者数据库内容的一致性;此外,与日俱增的庞大数据库内容的存储也将造成硬件空间上的沉重负担,尤其是当有大量文件信息需要进行识别转换时,还会造成执行效率上的不佳。
而从另一项公知的技术中发现,这些具有繁体/简体汉字互换功能的软件在处理繁体/简体或是简体/繁体中「字转音」的部分时,并不能够为多音字的转换提供一种有效的解决方法,也就是在现有方法中只能依照数据库所储存的现有数据去提供有限的发音内容,但是对于多音字的某一种发音,就不能处理该多音字的其它发音,这样一来在转换过程当中可能因为数据库内容的不够完整而影响到对比的结果,进而造成对信息的解读及认识上产生语意上的错误,严重时甚至还会影响到工作进度上的问题。
因此,在对繁体/简体汉字互换功能的软件需求逐渐扩增时,我们正需要一种能够同时提供简体中文汉字、繁体中文汉字的输入和自动转换并且可以提供多音字处理的系统及方法,来解决前述技术上的不足。
发明内容
有鉴于此,本发明的目的在于提供一种可处理多音字的拼音/注音转换系统及方法,以解决上述公知技术所存在的问题。
本发明的上述目的是这样实现的:一种可处理多音字的拼音/注音转换系统,用以进行简体中文汉字拼音、繁体中文汉字注音的输入与相互转换,该系统至少包含:一数据库加载模块,用以根据一操作系统平台中所使用的一带语音标记的汉字数据库来决定一加载的汉字语音数据库类型;一字符对应关系产生模块,用以根据该数据库加载模块所提供的该加载汉字数据库类型来决定一字符对应关系转换表类型,产生出一对应关系转换数据库;一字符转换模块,用以对一使用者由一输入设备所输入的一字符串进行转换,即根据该字符对应关系产生模块提供的该对应关系转换数据库,产生一转换后的对应字符组;一多音字转换模块,用以接受该字符转换模块传送来的一多音字处理需求,进行相应的转换处理;以及一输出模块,用以接受该字符转换模块以及该多音字转换模块传送的一转换后的字符组,将该字符组输出至一输出设备当中。
本发明的上述目的是这样实现的:一种可处理多音字的拼音/注音转换方法,用以进行简体中文汉字拼音、繁体中文汉字注音之间的输入与转换,该方法至少包含下列步骤:在一计算机可执行的操作系统平台上加载一汉字数据库;根据加载的该汉字语音数据库,决定一对应关系转换表类型;根据该对应关系转换表类型,决定一对应关系转换数据库类型;接受一使用者由一输入设备输入一字符串;判断该字符串是否属于一汉字字符串及是否需要一多音字处理;根据该使用者自行选择一多音字所需要的正确发音符号;根据该字符对应关系转换表将该字符串转换产生一转换后对应字符组;根据该转换后对应字符组输出至一输出设备;及根据判断该字符串的结果决定一结束操作。
由此可见,本发明所述的可处理多音字的拼音/注音转换系统及方法,首先提供“汉语拼音/注音”对应关系转换表,使我们可以在系统中只需要通过一套对应的汉字语音数据库,即可实现在一个操作系统平台中,进行简体中文汉字拼音、繁体中文汉字注音的输入和转换,进而达到汉语拼音/注音的自动转换功能。这样的方式不但可以节省所需要的硬件空间,同时也降低了人工输入数据库的成本,减少发生不必要的错误,提高了执行的速度。
此外,由于在本发明所述的“汉语拼音/注音”对应关系转换表中,具有可处理多音字的特殊对应关系,因而可以使得本系统及方法在不使用转换运算法则(Algorithm)、不使用其他词库的情况下,即能够处理汉语拼音/注音转换过程中的多音字的多种发音,解决了过去传统简体中文汉字拼音、繁体中文汉字注音的输入与转换的过程中,无法有效处理多音字的问题。
附图说明
图1为本发明的可处理多音字的拼音/注音转换系统及方法的功能模块图;
图2为本发明的可处理多音字的拼音/注音转换系统及方法的整体流程图;
图3为本发明的可处理多音字的拼音/注音转换系统及方法的“汉语拼音/注音”对应关系转换表。
具体实施方式
下面结合实施例及其附图,对本发明作进一步详细说明。
本发明提出了一种可处理多音字的拼音/注音转换系统及方法,主要应用于计算机可执行操作系统平台上,用以提供简体中文汉字、繁体中文汉字之间汉语拼音和注音的输入与转换的系统及方法,同时还可根据对应关系转换数据库中特定内容实现对多音字的处理。
本发明以一较佳实施例说明本方法的具体可行性,图1为本发明所述的可处理多音字的拼音/注音转换系统及方法的功能模块图,其主要的系统功能模块包含(1)数据库加载模块101;(2)字符对应关系产生模块102;(3)字符转换产生模块103;(4)多音字转换模块104;及(5)输出模块105。
(1)数据库加载模块101:用以根据操作系统中所使用的汉字数据库来决定欲为系统加载的汉字数据库的型。
(2)字符对应关系产生模块102:用以根据数据库加载模块101所提供的加载汉字数据库的类型来决定内部的字符对应关系转换表类型,产生对应关系转换数据库。
(3)字符转换产生模块103:用以接收使用者由输入设备输入的字符串,并对其进行转换,根据字符对应关系产生模块102所提供的对应关系转换数据库,产生转换后的对应字符组。
(4)多音字转换模块104:用以接收字符转换产生模块103传送的多音字处理需求,并对多音字部分作相应的转换处理。
(5)输出模块105:用以接收由字符转换产生模块103以及多音字转换模块104传送的转换后的字符组,并将此字符组由输出设备输出。
请参阅图2,图2为本发明所述的处理多音字的拼音转换系统及方法的整体流程图,说明本系统主要的方法如下:
首先,我们必须在所使用的系统操作平台上加载一套带语音标记的汉字数据库(步骤201),这套汉字数据库的类型可以是“汉字/汉语拼音”的对应数据库也可以是一套“汉字/注音”的对应数据库。接着,本系统会根据在系统操作平台中所加载的汉字数据库的类型,由本系统所提供的字符对应关系产生模块102,来决定本系统内部所要建立的字符对应关系转换表(步骤202),而这一字符对应关系转换表可以是:“汉语拼音-注音”或者是“注音-汉语拼音”的内部字符对应关系,然后再依据模块102所决定的内部字符对应关系,产生对应关系转换数据库(步骤203),也就是“汉语拼音-注音”对应关系转换数据库或者是“注音-汉语拼音”对应关系转换数据库。当使用者由输入设备输入一欲转换的文字字符串(步骤204)时,本系统所提供的字符转换产生模块103会首先判断使用者所输入的字符串是否为汉字字符串?(步骤205a)以及是否需要进行多音字处理?(步骤205b),如果该字符串不是汉字字符串,则本系统将会结束流程;如果是汉字字符串,则本系统会进一步判断使用者所输入的字符串是否有多音字要作进一步处理,如果有,那么本系统所提供的多音字转换模块104便会依据使用者实际需求自行选择该多音字所对应的发音字符(步骤206),若没有多音字需要处理,则本系统会继续进行其流程,将使用者输入的字符串依据加载的带语音标记的汉字数据库产生完整的对应字符组(步骤207),然后再根据模块102所建立的对应关系转换数据库进行对应字符组转换的动作,生成转换后的对应字符组(步骤208),最后通过系统操作平台的输出设备将转换后的对应字符组输出(步骤209)。
请参阅图3,图3为本发明所述的可处理多音字的拼音/注音转换系统及方法的“汉语拼音/注音”对应关系转换表,说明本系统中所定义的“汉语拼音/注音”字符发音对应关系对照。
本发明利用自行建立的“汉语拼音/注音”对应关系转换表,只需要在计算机可执行的操作系统平台上提供一套“汉字/汉语拼音”或者“汉字/注音”相对应的带语音标记的汉字数据库,便能够实现“汉字/汉语拼音”、“汉字/注音”以及“注音/拼音”等多种拼音转换的功能,不但节省硬件空间,减少维护数据库内容的人力、时间与成本,还可减少人工操作上发生错误的机率,更可以因此提升执行上的效率。并且该“汉语拼音/注音”对应关系转换表在既不使用运算法则,也不采用词库的情况下,便能够提供在拼音、注音转换过程中多音字的多种发音处理方法,解决以往只能处理单音字或是必须通过运算法则、庞大词库建立的方式来解决的现有瓶颈。
虽然本发明已以较佳的实施例公开如上,但其目的并非用以限定本发明,任何熟悉本发明的普通技术人员,在不脱离本发明的精神和范围内,当可作适当的等效设计与润饰,因此本发明的保护范围应当以权利要求所确定的范围为准。
Claims (11)
1.一种可处理多音字的拼音/注音转换系统,用以进行简体中文汉字汉语拼音、繁体中文汉字之间注音的输入与转换,其特征在于该系统至少包含:
一数据库加载模块,用以根据一系统操作平台中所使用的一带语音标记的汉字数据库来决定一欲为系统加载的带语音标记的汉字数据库的类型;
一字符对应关系产生模块,用以根据该数据库加载模块所提供的该加载的汉字数据库的类型来决定一字符对应关系转换表类型,产生一对应关系转换数据库;
一字符转换产生模块,用以接收一使用者由一输入设备输入的一字符串,并对其进行转换,根据该字符对应关系产生模块提供的该对应关系转换数据库,产生一转换后的对应字符组;
一多音字转换模块,用以接收该字符转换产生模块传送的一多音字处理需求,并对多音字部分作相应的转换处理;以及
一输出模块,用以接收由该字符转换产生模块以及该多音字转换模块传送的一转换后字符组,并将该字符组由一输出设备输出。
2.如权利要求1所述的可处理多音字的拼音/注音转换系统,其特征在于该汉字数据库以及该加载的汉字数据库的类型至少包含有:“汉字/汉语拼音”以及“汉字/注音”的对应数据库。
3.如权利要求1所述的可处理多音字的拼音/注音转换系统,其特征在于该字符对应关系转换表类型以及该对应关系转换数据库是以一程序语言标记的方式决定其内部对应模式,该程序语言标记属于一布尔数据型态。
4.如权利要求1所述的可处理多音字的拼音/注音转换系统,其特征在于该字符对应关系转换表中所储存的是“汉语拼音”和“注音拼音”间的发音符号对照组合。
5.如权利要求1所述的处理多音字的拼音转换系统,其特征在于该输入设备是键盘、鼠标、数字触碰式面板及声音辨识系统中的任意一种。
6.一种可处理多音字的拼音/注音转换方法,用以进行简体中文汉字汉语拼音、繁体中文汉字之间注音的输入与转换,其特征在于该方法至少包含下列步骤:
在一计算机可执行的系统操作平台加载一汉字数据库;
根据该加载汉字数据库类型,决定一对应关系转换表类型;
根据该对应关系转换表类型,决定一对应关系转换数据库类型;
接收一使用者由一输入设备输入的一字符串;
判断该字符串是否属于一汉字字符串及是否需要作一多音字处理;
根据该使用者自行选择一多音字所需要的正确发音符号;
根据该字符对应关系转换表将该字符串转换产生一转换后对应字符组;
根据该转换后对应字符组输出至一输出设备;及
根据判断该字符串的结果决定一结束操作。
7.如权利要求6所述的可处理多音字的拼音/注音转换方法,其特征在于该汉字数据库至少包含有:“汉字/汉语拼音”以及“汉字/注音拼音”的对应数据库。
8.如权利要求6所述的可处理多音字的拼音/注音转换方法,其特征在于该字符对应关系转换表类型以及该对应关系转换数据库是以一程序语言标记的方式决定其内部对应模式,该程序语言标记属于一布尔数据型态。
9.如权利要求6所述的可处理多音字的拼音/注音转换方法,其特征在于该字符对应关系转换表中所储存的是“汉语拼音”和“注音拼音”间的发音符号对照组合。
10.如权利要求9所述的可处理多音字的拼音/注音转换方法,其特征在于,其字符转换过程完全使用该字符转换表中所列的发音符号以逐一对比转换的方式来进行。
11.如权利要求6所述的可处理多音字的拼音/注音转换方法,其特征在于该输入设备是键盘、鼠标、数字触碰式面板及声音辨识系统中的任意一种。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 01139837 CN1421803A (zh) | 2001-11-30 | 2001-11-30 | 可处理多音字的拼音/注音转换系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 01139837 CN1421803A (zh) | 2001-11-30 | 2001-11-30 | 可处理多音字的拼音/注音转换系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1421803A true CN1421803A (zh) | 2003-06-04 |
Family
ID=4675452
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 01139837 Pending CN1421803A (zh) | 2001-11-30 | 2001-11-30 | 可处理多音字的拼音/注音转换系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1421803A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101621560A (zh) * | 2009-08-10 | 2010-01-06 | 上海闻泰电子科技有限公司 | 通过拼音首字母查找繁体电话本记录的方法 |
CN101271449B (zh) * | 2007-03-19 | 2010-09-22 | 株式会社东芝 | 裁减词表和为汉字串注音的方法及装置 |
WO2012092845A1 (zh) * | 2011-01-04 | 2012-07-12 | 中国移动通信集团公司 | 一种汉字信息的处理方法及汉字信息的处理装置 |
CN101271687B (zh) * | 2007-03-20 | 2012-07-18 | 株式会社东芝 | 字音转换预测以及语音合成的方法和装置 |
CN101859295B (zh) * | 2009-04-07 | 2013-03-13 | 英业达股份有限公司 | 具标记提示的简繁字词转换系统及其方法 |
CN103617248A (zh) * | 2013-10-28 | 2014-03-05 | 乐视网信息技术(北京)股份有限公司 | 一种名称转换方法及装置 |
CN104991698A (zh) * | 2015-06-23 | 2015-10-21 | 上海卓易科技股份有限公司 | 一种获取数据信息的方法及装置 |
CN106383848A (zh) * | 2016-08-31 | 2017-02-08 | 浪潮软件集团有限公司 | 一种实现的多音字汉字转拼音的方法 |
CN108829655A (zh) * | 2018-06-12 | 2018-11-16 | 黄�益 | 一种文本处理方法 |
CN109918619A (zh) * | 2019-01-07 | 2019-06-21 | 平安科技(深圳)有限公司 | 一种基于基础字典标注的发音标注方法和装置 |
CN112036121A (zh) * | 2020-08-31 | 2020-12-04 | 浪潮商用机器有限公司 | 一种简体汉字与繁体汉字转换方法及相关装置 |
CN112199576A (zh) * | 2020-10-20 | 2021-01-08 | 山东浪潮商用系统有限公司 | 一种中文拼音搜索的实现方法和系统 |
-
2001
- 2001-11-30 CN CN 01139837 patent/CN1421803A/zh active Pending
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101271449B (zh) * | 2007-03-19 | 2010-09-22 | 株式会社东芝 | 裁减词表和为汉字串注音的方法及装置 |
CN101271687B (zh) * | 2007-03-20 | 2012-07-18 | 株式会社东芝 | 字音转换预测以及语音合成的方法和装置 |
CN101859295B (zh) * | 2009-04-07 | 2013-03-13 | 英业达股份有限公司 | 具标记提示的简繁字词转换系统及其方法 |
CN101621560A (zh) * | 2009-08-10 | 2010-01-06 | 上海闻泰电子科技有限公司 | 通过拼音首字母查找繁体电话本记录的方法 |
WO2012092845A1 (zh) * | 2011-01-04 | 2012-07-12 | 中国移动通信集团公司 | 一种汉字信息的处理方法及汉字信息的处理装置 |
CN103617248A (zh) * | 2013-10-28 | 2014-03-05 | 乐视网信息技术(北京)股份有限公司 | 一种名称转换方法及装置 |
CN104991698A (zh) * | 2015-06-23 | 2015-10-21 | 上海卓易科技股份有限公司 | 一种获取数据信息的方法及装置 |
CN106383848A (zh) * | 2016-08-31 | 2017-02-08 | 浪潮软件集团有限公司 | 一种实现的多音字汉字转拼音的方法 |
CN108829655A (zh) * | 2018-06-12 | 2018-11-16 | 黄�益 | 一种文本处理方法 |
CN109918619A (zh) * | 2019-01-07 | 2019-06-21 | 平安科技(深圳)有限公司 | 一种基于基础字典标注的发音标注方法和装置 |
CN109918619B (zh) * | 2019-01-07 | 2024-04-26 | 平安科技(深圳)有限公司 | 一种基于基础字典标注的发音标注方法和装置 |
CN112036121A (zh) * | 2020-08-31 | 2020-12-04 | 浪潮商用机器有限公司 | 一种简体汉字与繁体汉字转换方法及相关装置 |
CN112199576A (zh) * | 2020-10-20 | 2021-01-08 | 山东浪潮商用系统有限公司 | 一种中文拼音搜索的实现方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1421803A (zh) | 可处理多音字的拼音/注音转换系统及方法 | |
CN86105459A (zh) | 输入处理系统 | |
CN109101494A (zh) | 一种用于中文句子语义相似度计算的方法,设备以及计算机可读存储介质 | |
CN104881469A (zh) | 一种数据导出方法和装置 | |
CN1140523A (zh) | 远程通信交换机多语种操作与维护接口 | |
CN101430684A (zh) | 中文办公软件文档与其他格式文档相互转换的方法及装置 | |
CN101686234A (zh) | 实现多语种信息交流的系统 | |
CN111967265B (zh) | 一种数据集自动生成的中文分词与实体识别联合学习方法 | |
CN1180858A (zh) | 字符输入装置 | |
CN1253781C (zh) | 汉字电子化中的拼部组字方法 | |
CN101516086A (zh) | 移动通讯的业务匹配方法 | |
CN103488305A (zh) | 一种简繁对照中文输入法系统 | |
CN111553158A (zh) | 一种基于BiLSTM-CRF模型的电力调度领域命名实体识别方法及系统 | |
CN102073639A (zh) | 使用者输入与查询的辅助系统及其方法 | |
CN112885352A (zh) | 一种语料库的构建方法、装置、计算机设备及存储介质 | |
CN1036297C (zh) | 键盘电脑设备 | |
CN1289083A (zh) | 简繁体汉字输入系统及其方法 | |
CN109284012A (zh) | 一种古彝文语言输入控制系统及方法、信息数据处理终端 | |
CN103810242A (zh) | 创新经纬网及文献位置自动识别系统及方法 | |
CN2459696Y (zh) | 可输入文字的鼠标器 | |
CN101329615A (zh) | 一种输入信息的显示方法及装置 | |
CN107451105A (zh) | 一种基于新型汉字全息编码规则的明盲文转换系统 | |
TW518479B (en) | Phonetic spelling conversion system and method capable of handling multi-tone words | |
CN1031228C (zh) | 场景交际专用袖珍计算器 | |
Qiu et al. | Research on Intelligent Ticketing Method Based on Text Word Segmentation of Scheduling Operation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |