CN103235789A - 一种汉字转换为拼音及首字母的方法 - Google Patents

一种汉字转换为拼音及首字母的方法 Download PDF

Info

Publication number
CN103235789A
CN103235789A CN2013101065884A CN201310106588A CN103235789A CN 103235789 A CN103235789 A CN 103235789A CN 2013101065884 A CN2013101065884 A CN 2013101065884A CN 201310106588 A CN201310106588 A CN 201310106588A CN 103235789 A CN103235789 A CN 103235789A
Authority
CN
China
Prior art keywords
phonetic
chinese character
contrast
sound
sublist
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013101065884A
Other languages
English (en)
Other versions
CN103235789B (zh
Inventor
唐侨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huizhou Desay SV Automotive Co Ltd
Original Assignee
Huizhou Desay SV Automotive Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huizhou Desay SV Automotive Co Ltd filed Critical Huizhou Desay SV Automotive Co Ltd
Priority to CN201310106588.4A priority Critical patent/CN103235789B/zh
Publication of CN103235789A publication Critical patent/CN103235789A/zh
Application granted granted Critical
Publication of CN103235789B publication Critical patent/CN103235789B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种汉字转换为拼音及首字母的方法,包括以下步骤;(1)将所有的拼音进行编号;(2)建立汉字拼音的基础对照表,将汉字对应拼音的编号以及拼音首字母按照汉字的Unicode值由小到大的顺序添加到对基础照表中;(3)读取该基础对照表,根据基础对照表将汉字转换为拼音及拼音首字母。本发明使用对照表,对于汉字查找拼音功能,对系统资源的消耗非常小,有效的降低了对于系统资源的消耗;在实施查找过程中,使用数组存储对照表,对于CPU的消耗只是数组的寻址,非常快速,为用户提供更好的使用感受;建立多音字的对照子表,能够同时满足多音字的查询转换。

Description

一种汉字转换为拼音及首字母的方法
技术领域
本发明涉及一种汉字转换为拼音及首字母的方法。
背景技术
随着车载电子技术的不断发展,车载娱乐系统也大量成为车辆中的必备产品。车载娱乐系统所提供给用户的功能也在不断的丰富,涵盖了导航功能,蓝牙功能,音视频文件的播放,收音功能等方方面面。 很多应用都会提供给用户较多的列表信息,例如歌曲列表,导航功能中查询到的兴趣点的列表,蓝牙电话本联系人的列表等,当列表信息量巨大的时候,用户就会碰到一个问题:怎样在这些列表中快速查找到自己想要的信息呢。对于使用中文的用户来说,通常的做法是按照拼音的发音将整个列表做个排序,或者是通过输入首字母,快速的将结果做一个过滤。而这些快速查找一条信息的方法中最为核心的部分就是将汉字转化为拼音或者是首字母,然后再通过拼音和首字母来进行排序和过滤。在现有技术中,也不乏一些产品会有针对信息列表提供这样或者那样的查找和过滤功能,而这些方法也通常有一些缺陷。如通过采用数据库的方式来查询,需要建立一个汉字和对应拼音,首字母的数据库。在实际使用时,需要加载数据库引擎,每查一个字,都需要执行一次查询语句,会较为消耗系统资源,而每次查询一个字都需要做一次查询动作,如果大量的汉字需要转换,效率上也会有严重问题。又如通过文本方式,记录每个汉字及其对应的拼音信息,这样查一个字需要通过读取文件的方式把所有信息全部浏览一次,效率非常低下。而对于嵌入式的系统,在内存和CPU资源上都非常紧张,通常的方法在做这样一个功能时,都会遇到性能的瓶颈,使用户陷入等待,影响用户体验。
发明内容
为了实现汉字与拼音及拼音首字母的快速转换,本发明提供一种汉字转换为拼音及首字母的设计方案。
一种汉字转换为拼音及首字母的方法,包括以下步骤:
(1)将所有的拼音进行编号;(2)建立汉字拼音的基础对照表,将汉字对应拼音的编号以及拼音首字母按照汉字的Unicode值由小到大的顺序添加到对基础照表中;(3)读取该基础对照表,根据基础对照表将汉字转换为拼音及拼音首字母。
所述步骤2的拼音的编号以及拼音的首字母以3个字节存储,具体为拼音的编号存储于第一、二字节,拼音首字母存储于第三字节。
所述读取对照表的方法为:建立一个对照数组,将对基础照表中各个汉字对应的拼音编号及拼音首字母顺序存入对照数组中。
所述对照数组为一维数组。
根据基础对照表将汉字转换为拼音及拼音首字母的方法为:
(1)读取将要待转换的汉字的Unicode值;(2)将步骤(1)的Unicode值减去0x4E00,得到一差值;(3)将步骤(2)所得到的差值乘以3所得到的值作为对照数组的下标;(4)根据下标查找对照数组所对应位置的连续三个字节所存储的拼音编号及拼音首字母。
还包括多音字对照子表:二音字对照子表、三音字对照子表以及四音字对照子表。
所述多音字对照子表的建立方法为:
(a)将所有二音字顺序存储于二音字对照子表中,将每个二音字对应的2个读音拼音的编号结合对应的拼音首字母,以2个三字节的顺序存储;(b)将所有三音字顺序存储于三音字对照子表中,将每个三音字对应的3个读音拼音的编号结合对应的拼音首字母,以3个三字节的顺序存储;(c)将所有四音字顺序存储于四音字对照子表中,将每个四音字对应的4个读音拼音的编号结合对应的拼音首字母,以4个三字节的顺序存储。
将多音汉字转换为拼音及拼音首字母的方法为:
(I)多音字在基础对照表中相应存储区域的第一、二个字节存储该多音字在相应对照表中的偏移位置,第三个字节存储其读音数n,n=2,3,4;(II)将基础对照表、二音字对照子表、三音字对照子表以及四音字对照子表依次顺序存储于对照数组中;(III)从对照数组中基础对照表区域读取到某个汉字的存储区域第三字节为读音数n,即判断其为n音字,并根据第一、二字节中的偏移位置,在n音字对应的区域查找该汉字对应的n组拼音编号及拼音首字母。
综上所述,本发明具有以下有益效果:(1)使用对照表,对于汉字查找拼音功能,对系统资源的消耗非常小,有效的降低了对于系统资源的消耗;(2)在实施查找过程中,使用数组存储对照表,对于CPU的消耗只是数组的寻址,非常快速,为用户提供更好的使用感受;(3)建立多音字的对照子表,能够同时满足多音字的查询转换。
附图说明
图1为本发明所述拼音的编号以及拼音的首字母的存储结构示意图;
图2为本发明所述二音字的拼音编号以及拼音的首字母的存储结构示意图;
图3为二音字的在对照数组基础对照表区域的存储结构示意图。
具体实施方式
为了让本领域的技术人员能够更好地了解本发明的技术方案,下面结合附图对本发明作进一步的阐述。
本发明揭示了一种汉字转换为拼音及首字母的方法,包括以下步骤;
(1)将所有的拼音进行编号;所有汉字中(在GB13000中所包含的汉字为20902个)的拼音不超过512个,这样用2个字节的长度就可以表示一个拼音了。再加上首字母一个字节,这样每个汉字用三个字节表示拼音和首字母信息。
(2)建立汉字拼音的基础对照表,将汉字对应拼音的编号以及拼音首字母按照汉字的Unicode值由小到大的顺序添加到对基础照表中。如图1所示,拼音的编号以及拼音的首字母以3个字节存储,具体为拼音的编号存储于第一、二字节,拼音首字母存储于第三字节。
(3)读取该基础对照表,根据基础对照表将汉字转换为拼音及拼音首字母。
建立一个对照数组(此处对照数组为一维数组),将对基础照表中各个汉字对应的拼音编号及拼音首字母顺序存入对照数组中。读取将要待转换的汉字的Unicode值并使用该Unicode值减去0x4E00(0x4E00为Unicode值最小的汉字,即对照表中第一个汉字),得到一差值;将所得到的差值乘以3所得到的值作为对照数组的下标;根据下标查找对照数组所对应位置的连续三个字节所存储的拼音编号及拼音首字母。
由于汉字中还有二音字,三音字及四音字等多音字的存在,其中有二音字2141个,三音字260个,四音字25个,故还设置有多音字对照子表:二音字对照子表、三音字对照子表以及四音字对照子表。
多音字对照子表的建立方法为:(a)将所有二音字顺序存储于二音字对照子表中,将每个二音字对应的2个读音拼音的编号结合对应的拼音首字母,以2个三字节的顺序存储;(b)将所有三音字顺序存储于三音字对照子表中,将每个三音字对应的3个读音拼音的编号结合对应的拼音首字母,以3个三字节的顺序存储;(c)将所有四音字顺序存储于四音字对照子表中,将每个四音字对应的4个读音拼音的编号结合对应的拼音首字母,以4个三字节的顺序存储。其中,二音字的存储结构如图2所示,三音字及四音字的存储结构可由此类推。
将多音汉字转换为拼音及拼音首字母的方法为:
(I)多音字在基础对照表中相应存储区域的第一、二个字节存储该多音字在相应对照表中的偏移位置,第三个字节存储其读音数n,n=2,3,4;(II)将基础对照表、二音字对照子表、三音字对照子表以及四音字对照子表依次顺序存储于对照数组中;(III)从对照数组中基础对照表区域读取到某个汉字的存储区域第三字节为读音数n,即判断其为n音字,并根据第一、二字节中的偏移位置,在n音字对应的区域查找该汉字对应的n组拼音编号及拼音首字母。
设某字有两个读音,而两个读音的信息记录在对照数组二音字对照子表区域的第123个位置,则在对照数组的基础对照表区域,其对应的三字节记录的信息如图3所示,第三字节中的“2”表示该字有两个音,“123”表示该字存储于对照数组的二音字区域的第123位。查找该字的拼音和首字母时,先按照单音字的方法读取到对应三个字节的信息,则分别为123与2,通过第三字节的“2”,知道其为二音字并在对照数组中查询二音字对照子表,并根据其偏移位置“123”,读取对照数组下标为[20902*3 + 123 * (2*3)] 处的连续6个字节数据,这6个数据就记录了该二音字的两个读音的信息。三音字与四音字的查询方法可依次类推。
本实施例只是本发明的较优实施方式,未进行详细描述的部分均采用公知的成熟技术。需要说明的是,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些改变和变形都应属于本发明所附的权利要求的保护范围。

Claims (8)

1.一种汉字转换为拼音及首字母的方法,其特征在于,包括以下步骤:
(1)将所有的拼音进行编号;
(2)建立汉字拼音的基础对照表,将汉字对应拼音的编号以及拼音首字母按照汉字的Unicode值由小到大的顺序添加到对基础照表中;
(3)读取该基础对照表,根据基础对照表将汉字转换为拼音及拼音首字母。
2.根据权利要求1所述的一种汉字转换为拼音及首字母的方法,其特征在于,步骤2所述的拼音的编号以及拼音的首字母以3个字节存储,具体为拼音的编号存储于第一、二字节,拼音首字母存储于第三字节。
3.根据权利要求1所述的一种汉字转换为拼音及首字母的方法,其特征在于,所述读取对照表的方法为:建立一个对照数组,将对基础照表中各个汉字对应的拼音编号及拼音首字母顺序存入对照数组中。
4.根据权利要求3所述的一种汉字转换为拼音及首字母的方法,其特征在于,所述对照数组为一维数组。
5.根据权利要求4所述的一种汉字转换为拼音及首字母的方法,其特征在于,根据基础对照表将汉字转换为拼音及拼音首字母的方法为:
(1)读取将要待转换的汉字的Unicode值;
(2)将步骤(1)的Unicode值减去0x4E00,得到一差值;
(3)将步骤(2)所得到的差值乘以3所得到的值作为对照数组的下标;
(4)根据下标查找对照数组所对应位置的连续三个字节所存储的拼音编号及拼音首字母。
6.根据权利要求1所述的一种汉字转换为拼音及首字母的方法,其特征在于,还包括多音字对照子表:二音字对照子表、三音字对照子表以及四音字对照子表。
7.根据权利要求6所述的一种汉字转换为拼音及首字母的方法,其特征在于,所述多音字对照子表的建立方法为:
(a)将所有二音字顺序存储于二音字对照子表中,将每个二音字对应的2个读音拼音的编号结合对应的拼音首字母,以2个三字节的顺序存储;
(b)将所有三音字顺序存储于三音字对照子表中,将每个三音字对应的3个读音拼音的编号结合对应的拼音首字母,以3个三字节的顺序存储;
(c)将所有四音字顺序存储于四音字对照子表中,将每个四音字对应的4个读音拼音的编号结合对应的拼音首字母,以4个三字节的顺序存储。
8.根据权利要求7所述的一种汉字转换为拼音及首字母的方法,其特征在于,将多音汉字转换为拼音及拼音首字母的方法为:
(I)多音字在基础对照表中相应存储区域的第一、二个字节存储该多音字在相应对照表中的偏移位置,第三个字节存储其读音数n,n=2,3,4;
(II)将基础对照表、二音字对照子表、三音字对照子表以及四音字对照子表依次顺序存储于对照数组中;
(III)从对照数组中基础对照表区域读取到某个汉字的存储区域第三字节为读音数n,即判断其为n音字,并根据第一、二字节中的偏移位置,在n音字对应的区域查找该汉字对应的n组拼音编号及拼音首字母。
CN201310106588.4A 2013-03-29 2013-03-29 一种汉字转换为拼音及首字母的方法 Active CN103235789B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310106588.4A CN103235789B (zh) 2013-03-29 2013-03-29 一种汉字转换为拼音及首字母的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310106588.4A CN103235789B (zh) 2013-03-29 2013-03-29 一种汉字转换为拼音及首字母的方法

Publications (2)

Publication Number Publication Date
CN103235789A true CN103235789A (zh) 2013-08-07
CN103235789B CN103235789B (zh) 2016-08-10

Family

ID=48883831

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310106588.4A Active CN103235789B (zh) 2013-03-29 2013-03-29 一种汉字转换为拼音及首字母的方法

Country Status (1)

Country Link
CN (1) CN103235789B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103617248A (zh) * 2013-10-28 2014-03-05 乐视网信息技术(北京)股份有限公司 一种名称转换方法及装置
CN104317505A (zh) * 2014-10-12 2015-01-28 渤海大学 一种汉语拼音的输出系统及方法
CN106383848A (zh) * 2016-08-31 2017-02-08 浪潮软件集团有限公司 一种实现的多音字汉字转拼音的方法
CN108121692A (zh) * 2017-12-22 2018-06-05 苏州麦迪斯顿医疗科技股份有限公司 字符转换方法、装置、系统及存储介质
CN110110041A (zh) * 2019-03-15 2019-08-09 平安科技(深圳)有限公司 错词纠正方法、装置、计算机装置及存储介质
CN111614977A (zh) * 2017-12-28 2020-09-01 贵州白山云科技股份有限公司 网络系统中文本内容传输优化方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1567174A (zh) * 2003-06-09 2005-01-19 吴胜远 对象表示和处理的方法及其装置
CN101118542A (zh) * 2006-07-31 2008-02-06 西门子通信技术(北京)有限公司 一种中文字符的转换方法及其系统
CN102223430A (zh) * 2011-06-13 2011-10-19 深圳桑菲消费通信有限公司 一种手机联系人多音字排序及搜索方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1567174A (zh) * 2003-06-09 2005-01-19 吴胜远 对象表示和处理的方法及其装置
US20060294136A1 (en) * 2003-06-09 2006-12-28 Shengyuan Wu Object representing and processing method and apparatus
CN101118542A (zh) * 2006-07-31 2008-02-06 西门子通信技术(北京)有限公司 一种中文字符的转换方法及其系统
CN102223430A (zh) * 2011-06-13 2011-10-19 深圳桑菲消费通信有限公司 一种手机联系人多音字排序及搜索方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103617248A (zh) * 2013-10-28 2014-03-05 乐视网信息技术(北京)股份有限公司 一种名称转换方法及装置
CN104317505A (zh) * 2014-10-12 2015-01-28 渤海大学 一种汉语拼音的输出系统及方法
CN106383848A (zh) * 2016-08-31 2017-02-08 浪潮软件集团有限公司 一种实现的多音字汉字转拼音的方法
CN108121692A (zh) * 2017-12-22 2018-06-05 苏州麦迪斯顿医疗科技股份有限公司 字符转换方法、装置、系统及存储介质
CN111614977A (zh) * 2017-12-28 2020-09-01 贵州白山云科技股份有限公司 网络系统中文本内容传输优化方法和系统
CN110110041A (zh) * 2019-03-15 2019-08-09 平安科技(深圳)有限公司 错词纠正方法、装置、计算机装置及存储介质
CN110110041B (zh) * 2019-03-15 2022-02-15 平安科技(深圳)有限公司 错词纠正方法、装置、计算机装置及存储介质

Also Published As

Publication number Publication date
CN103235789B (zh) 2016-08-10

Similar Documents

Publication Publication Date Title
CN103235789A (zh) 一种汉字转换为拼音及首字母的方法
Brisaboa et al. Compact representation of web graphs with extended functionality
CN102147795A (zh) 兴趣点检索方法、兴趣点检索装置和导航系统
CN107992542A (zh) 一种基于主题模型的相似文章推荐方法
CN104111935B (zh) 一种推送微博的方法及系统、服务器
CN103365992B (zh) 一种基于一维线性空间实现Trie树的词典检索方法
CN102999625A (zh) 一种检索请求语义扩展方法
CN103631909A (zh) 对大规模结构化和非结构化数据联合处理的系统及方法
CN102750379B (zh) 一种基于过滤型的字符串快速匹配方法
CN103123650A (zh) 一种基于整数映射的xml数据库全文索引方法
CN104636389A (zh) 实现Hbase数据库实时查询的方法和系统
CN103456300A (zh) 一种基于class-base语言模型的POI语音识别方法
CN101551820B (zh) 兴趣点属性的索引数据库的生成方法和装置
CN108038090A (zh) 一种文本地址的处理方法和装置
CN105096944A (zh) 语音识别方法及装置
CN101398830B (zh) 词库模糊查询方法及词库模糊查询系统
CN103389976A (zh) 用于终端的搜索方法及系统
CN102799596A (zh) 基于网络应用的关键词过滤方法及系统
CN104679764A (zh) 一种图数据检索方法和装置
CN101539433A (zh) 导航系统中拼音首字母加声调检索的方法及装置
CN105824956A (zh) 一种基于链表结构的倒排索引模型及其构建方法
CN101013430A (zh) 搜索方法及装置
CN102253983A (zh) 一种汉语高危词识别方法和系统
CN102521418A (zh) 用于存储拼音的存储结构及拼音输入方法
CN104268259A (zh) 一种运用于导航终端的快速模糊容错搜索交叉路口的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 516006 Guangdong province Huizhou City Zhongkai high tech Zone and five West Road No. 103

Applicant after: HUIZHOU DESAY SV AUTOMOTIVE CO., LTD.

Address before: 516006 Guangdong province Huizhou City Zhongkai high tech Zone and five West Road No. 103

Applicant before: Huizhou Desay SV Auto. Electronics Co., Ltd.

COR Change of bibliographic data
C14 Grant of patent or utility model
GR01 Patent grant