CN101615180A - 汉语拼音识别方法和装置 - Google Patents

汉语拼音识别方法和装置 Download PDF

Info

Publication number
CN101615180A
CN101615180A CN200810131741A CN200810131741A CN101615180A CN 101615180 A CN101615180 A CN 101615180A CN 200810131741 A CN200810131741 A CN 200810131741A CN 200810131741 A CN200810131741 A CN 200810131741A CN 101615180 A CN101615180 A CN 101615180A
Authority
CN
China
Prior art keywords
word
contrary
phonetic alphabet
chinese phonetic
tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200810131741A
Other languages
English (en)
Other versions
CN101615180B (zh
Inventor
王双红
刘秉清
卢祺
朱进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
IBM China Co Ltd
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to CN2008101317418A priority Critical patent/CN101615180B/zh
Publication of CN101615180A publication Critical patent/CN101615180A/zh
Application granted granted Critical
Publication of CN101615180B publication Critical patent/CN101615180B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

提供了一种用于处理包含汉语拼音和英文的混写语料的方法和装置。该方法包括:读取步骤,读取待处理的混写语料;提取步骤,从所述待处理的混写语料中提取包括至少一个字母的单词;以及识别步骤,按照从所述单词的末尾开始按从后向前的方向,以逐个字母判断的方式来识别所述单词是否是汉语拼音。

Description

汉语拼音识别方法和装置
技术领域
本发明涉及处理包含汉语拼音和英文的混写语料的方法和装置,更具体地,涉及从包含汉语拼音和英文的混写语料中识别汉语拼音的方法和装置。
背景技术
汉语拼音与英文混写是我们日常工作/生活中经常碰见的问题。一个以英语为母语的人在读到中文拼音的姓名的时候,经常会将一个中国人的姓名拆成名(First Name)和中名(Middle Name)或姓(Last Name),一些软件应用在处理中国人姓名的时候也经常会将一个中国人的姓名拆成名和中名。这些文化背景的差异会给我们日常的工作交流造成一定的不便。目前也没有一个好的机制来区分汉语拼音与英文单词,进而有效区分汉语拼音的姓名以及英语姓名。例如在一些字处理软件中,大多数汉语拼音的姓名会被当作拼写错误而错误地标识出来。
现有的一些拼音输入法软件能够区分汉语拼音以及英文单词,比如微软拼音输入法,紫光输入法,搜狗拼音输入法等。由于在输入拼音时,总是在按照拼音从前向后的顺序来逐个输入字母的同时来识别所输入的单词是否为拼音,因此这些输入法软件都是从前往后逐渐匹配一个单词。
一些搜索引擎,例如www.google.cn等,也能识别汉语拼音,在搜索栏中输入汉语拼音,搜索网页中会有匹配中文词显示出来,如输入“Beijing”,会在网页中显示“ 北京”,“背景”等。但是该功能实质上与中文拼音输入法相似,同样是在按照拼音从前向后的顺序来逐个输入字母的同时来识别所输入的单词是否为拼音,所以这些搜索引擎也是按照单词从前往后的方式来进行匹配。
可以按照如下的方式来进行从前往后的判断:
(1)建立所有汉语拼音的列表。当判断一个单词是不是汉语拼音的时候,逐条匹配表中的每个单词,例如用strcmp函数。如果发现一个匹配的,则说明是一个有效的汉语拼音。
(2)设计哈希(Hash)算法,然后根据算法将所有的拼音插入到哈希表中。对于给定的单词根据哈希算法计算其哈希值,然后查找该哈希表,如果找到匹配的单词则为一个有效的汉语拼音。
(3)将所有的汉语拼音按照从左到右的顺序,创建索引树。对于给定的单词,从左到右逐个字母匹配该索引树,如果能够完全匹配,则说明是一个有效的汉语拼音。
但是,这些从前往后逐个判断的方式效率较低。因此,存在更加快速高效地区分汉语拼音以及英文单词的需要。
发明内容
为了高效地区分汉语拼音和英文单词而提出了本发明。
根据一个方面,提出了一种用于处理包含汉语拼音和英文的混写语料的方法,包括:读取步骤,读取待处理的混写语料;提取步骤,从所述待处理的混写语料中提取包括至少一个字母的单词;以及识别步骤,按照从所述单词的末尾开始按从后向前的方向,以逐个字母判断的方式来识别所述单词是否是汉语拼音。
根据另一个方面,提出了一种用于处理包含汉语拼音和英文的混写语料的装置,包括:读取模块,读取待处理的混写语料;提取模块,从所述读取模块接收所述待处理的混写语料,并从混写语料中提取包括至少一个字母的单词;以及识别模块,从所述提取模块接收所述单词,并按照从所述单词的末尾向前的方向,以逐个字母判断的方式来识别所述单词是否是汉语拼音。
根据本发明的实施例,可以迅速排除非汉语拼音的单词。
根据本发明的实施例,可以准确高效地从包含汉语拼音和英文的混写语料中识别汉语拼音。
附图说明
从下面结合附图对本发明实施例的详细描述中,本发明的这些和/或其它方面和优点将变得更加清楚并更容易理解,其中:
图1是根据本发明的一个实施例的处理混写语料的方法的流程图;
图2是根据本发明的一个实施例的逆韵母树的例子的图;
图3是示出利用图2的逆韵母树来识别汉语拼音的一个方法的流程图;
图4是根据本发明的一个实施例的逆拼音树的例子的图;
图5是示出利用图4的逆拼音树来识别汉语拼音的一个方法的流程图;以及
图6是根据本发明的一个实施例的处理混写语料的装置的方框图。
具体实施方式
下面将结合附图详细描述本发明的具体实施例。在同一个实施例中,相同的附图标记用于表示执行相同功能的相同元件或元素。
汉语拼音和英文单词一样,由26个字母组成。汉语拼音是单音节的词,一般由一个声母以及一个韵母,或者由单个韵母组成。下面列出了一些声母和韵母(其中v对应于汉语拼音ü)。
声母表:b p m f d t n l g k h j q x zh ch sh r z c s y w
韵母表:a o e i u v ai an ao ou ei en er ia ie in iu ua ue(ve)ui un uo angeng ing ong
声母和韵母之间相互组合,形成了表示汉语拼音的音节。下面列出了一些汉语拼音的音节。
音节表:
ba bo bai bei bao ban ben bang beng bibie biao bian bin bing bu
pa po pai pao pou pan pen pang peng pi pie piao pian pin ping pu
ma mo me mai mao mou man men mang meng mi mie miao miu mian minming
fa fo fei fou fan fen fang feng fu
da de dai dei dao dou dan dang deng di die diao diu dian ding duan duo dudui dong
ta te tai tao tou tan tang teng ti tie tiao tian ting tuan tuo tu tun tui tong
na nai nei nao nen nang neng ni nie niao niu nian nin niang ning ne nuo nunv nong
la le lailei lao lou lan lang leng li lia lie liao liu lian lin liang ling luo lu lvlun lue(lve)long
ga ge gai gei gao gou gan gen gang geng gua guai guan guang guo gu gungui gong
ka ke kai kou kan ken kang keng kua kuai kuan kuang kuo ku kun kui kong
ha he hai hei hao hou hen hang heng han hua huai huan huang huo hu hunhui hong
ji jia jie jiao jiu jian jin jiang jing ju jiong jue(jve)
qi qia qie qiao qiu qian qin qiang qing qu qiong que(qve)
xi xia xie xiao xiu xian xin xiang xing xu xun xiong xue(xve)
zha zhe zhi zhai zhao zhou zhan zhen zhang zheng zhua zhuai zhuan zhuangzhuo zhu zhun zhui zhong
cha che chi chai chou chan chen chang cheng chuai chuan chuang chuo chuchun chui chao chong
sha she shi shai shao shou shan shen shang sheng shua shuai shuan shuangshuo shu shun shui
re ri rao rou ran ren rang reng ruan ruo ru rui
za ze zi zai zao zou zang zeng zuan zuo zu zhuai zun zui zong
ca ce ci cai cao cou can cen cang ceng cuan cuo cu cun cui cong
sa se si sai sao sou san sen sang seng suan suo su sun sui song
ya yao you yan yang yu ye yue(yve)yuan yi yin yun ying yong
wa wo wai wei wan wen wang weng wu
从上面的音节表可以看出,汉语拼音必定以韵母结尾。在此规律的基础上,本发明人提出了更加简单有效的识别汉语拼音的方法。
图1是根据本发明的一个实施例处理混写语料的方法100的流程图。
步骤101是读取步骤,读取待处理的混写语料。该混写语料可包含汉语拼音(例如,姓名)和英文单词。可以从例如硬盘驱动器、闪存、诸如软盘、光盘等的存储介质来读取该混写语料。
步骤105是提取步骤,从该待处理的混写语料中提取包括至少一个字母的单词。可以采用一般的提取单词的方法。例如,可通过空格符号、制表符号、标点符号或回车符号等来判断单词的起始或结束,从而提取单词。当然,也可以采用其它方式来提取单词。
步骤110是识别步骤,按照从所提取的单词的末尾开始按从后向前的方向,以逐个字母判断的方式来识别该单词是否是汉语拼音。
进一步分析汉语拼音的韵母,可以发现汉语拼音只能以下列9个字母之一结尾{a,o,e,i,u,v,r,n,g},而汉语拼音的首字母却可以是多达23种可能(除了i、u、v之外),因此按照单词从后向前的方向进行判断,比从前向后的方式更优。在英文单词中有大量以非上述9个字母结尾的单词。例如,对于单词best,由于其末尾字母t不可能出现在汉语拼音末尾字符,因此仅需要一步比较就可以判断该单词best不是汉语拼音。也就是说,在步骤110中,如果单词不是以上述9个字母之一结束,则立即可识别出它必定不是一个汉语拼音。通过判断最后一个字母可以快速地排除大量的、诸如英文单词的非汉语拼音。而在现有技术的从前往后的判断方式下,仅仅通过一个单词的首字母,大多数情况下我们无法有效区分它是否是一个汉语拼音。
为了更准确地识别汉语拼音,可以参照汉语拼音的韵母表,建立如图2所例示的树形结构(以下,称为逆韵母树)。可以预先建立该树形结构,也可以在执行图1的方法100的过程中并行地建立该树形结构,或者将该建立步骤包括在步骤101、105、110的任一个中。
在图2中,树右边的数字表示左边节点所在的层的深度。例如,1表示第一层,2表示第二层,以此类推。该逆韵母树中的每个节点包括一个字母,每一个完整的分支(以及第一层中除r、n、g外的字母)都是韵母表中的一个韵母或组合韵母(即韵母的组合,如ian、iao、uai、uan、iang、iong、uang)。树中最后一层的节点称为叶子节点。
对于给定的单词,按照从所述单词的末尾开始按从后向前的方向,逐个字母地匹配该逆韵母树;如果所述单词的一个字母与所述逆韵母树的相应层不匹配,则直接确定该单词不是有效的汉语拼音,并且结束该识别方法。
应注意,图2的树形结构有可能进行变更。例如,由于韵母ve在大多数情况下也可以写作ue,所以可以省略有关ve的分支。类似地,也可以省略有关vn的分支。另外,由于韵母un是uen的缩写,因此图2的树形结构可以增加有关uen的分支。类似地,也可以增加iou的分支(其缩写是iu),等等。也有可能根据需要去除或增加其它分支,或仅仅使用树形结构的前几层。
图3是以示例的方式示出利用逆韵母树来识别汉语拼音的一个方法300的流程图。本发明不限于这样的示例,基于该示例,本领域技术人员很容易构造出其它等价的方法或算法。
在步骤301中,测量在步骤105中提取的单词的长度N(即,该单词所具有的所有字母的数目)。
在步骤304中,取出所述单词的末尾字母。例如,这可通过设置判断参数L的初始值为L=N、并取出所述单词的第L个字母(从前向后,或从左向右)来实现。
在步骤307中,将逆韵母树的第一层设置为当前层。
在步骤310中,将该第L个字母(此时是末尾字母)与当前层(此时是上述逆韵母树的第一层)进行匹配,以查看该第L个字母是否与逆韵母树的第一层中的某个节点的字母相同。如果上述匹配的结果是“否”,则前进到步骤312,在此,确定该单词不是汉语拼音,从而结束该方法。
如果步骤310处的匹配结果是“是”,则前进到步骤314,确定该匹配的节点是否是逆韵母树的叶子节点。如果该确定结果是“是”,则前进到步骤320,在此,确定该单词可能是有效的汉语拼音,从而结束该方法。
如果步骤314处的确定结果是“否”,则方法前进到步骤315,在此确定L是否等于1。如果L=1(步骤315处的“是”),则方法前进到步骤317并确定该单词不是有效的汉语拼音,从而结束该方法。另一方面,如果L≠1(步骤315处的“否”),则方法前进到步骤316。在步骤316,将该匹配的节点的下一层设置为当前层。然后在步骤318,将判断参数L减去1(L=L-1),并取出单词的第L个字母。然后方法回到步骤310,将单词的第L个字母与当前层进行匹配。
按照以上的方法,当在逆韵母树的某一层判断为与单词的某个字母不匹配,则直接确定该单词不是有效的汉语拼音,并结束流程。当判断为匹配时,则该单词有可能是有效的汉语拼音。在该层不是逆韵母树的最后一层(即,叶子节点)且单词的该字母不是最后一个字母(即,首字母)的情况下,再进入逆韵母树的下一层,匹配该单词的下一字母,直到完成逆韵母树的最后一层或该单词的首字母的匹配为止。
与上述通过判断单词的结尾字母来识别汉语拼音的方法相比,由于英文单词中以汉语拼音的韵母结尾的单词更少,因此通过与逆韵母树进行匹配,可以进一步地排除大量的非拼音单词,提高了识别的准确度。
进一步地,为了更准确地识别汉语拼音,可以参照音节表,将声母包括到上述树形结构中,从而类似地建立逆拼音树。为了简洁起见,图4中仅仅给出了逆拼音树的一部分的例子。其中,第一层的节点{u}具有位于第二层上的两个子节点{o}和{i},节点{i}进一步具有位于第三层上的7个子节点{m}、{d}、{n}、{l}、{j}、{q}、{x},这7个子节点是逆拼音树的叶子节点。虽然在此未示出整个逆拼音树,但本领域技术人员根据汉语拼音的音节表,很清楚整个逆拼音树的构造及其可能的变更形式。
对于给定的单词,按照从所述单词的末尾开始按从后向前的方向,逐个字母地匹配该逆拼音树;如果所述单词的一个字母与所述逆拼音树的相应层不匹配,则直接确定该单词不是有效的汉语拼音;以及如果所述单词的所有字母与所述逆拼音树的一个分支完全匹配,则确定该单词是有效的汉语拼音。
图5以示例的方式,示出了与图3类似的利用逆拼音树来识别汉语拼音的另一个方法500的流程图。本发明不限于这样的示例,基于该示例,本领域技术人员很容易构造出其它等价的方法或算法。
另外,在汉语拼音中,有一些可以不带声母,而仅仅由纯韵母构成,例如,a、an、ang、ai、ao、e、en、o、ou等等。为了更准确地识别汉语拼音,尤其是此类不带声母的汉语拼音,可以引入“假叶子节点”的概念。该假叶子节点不是逆拼音树的真正的叶子节点,而是上述纯韵母的汉语拼音的首字母所在的节点(如图4中带“*”号的那些节点),从任一假叶子节点到其根节点的一条路径也是一个有效的韵母或汉语拼音。可以将叶子节点和假叶子节点统称为“终点节点”。在此意义上,逆拼音树的一个“分支”表示从一个终点节点到其根节点的路径上的所有节点上的字母组成的字母序列。换句话说,逆拼音树的每一条分支是一个完整有效的汉语拼音。当然,终点节点并不是本发明所必要的,而且也可以为了实现本发明的不同目的而进行变化。例如,可以将不常用的“ei”、“eng”也包括到上述纯韵母的汉语拼音中。
在方法500中,在步骤501中,测量在步骤105中提取的单词的长度N。
在步骤504中,取出所述单词的末尾字母。例如,这可通过设置判断参数L的初始值为L=N、并取出所述单词的第L个字母(从前向后,或从左向右)来实现。
在步骤507中,将逆拼音树的第一层设置为当前层。
在步骤510中,将该第L个字母(此时是末尾字母)与当前层(此时是上述逆拼音树的第一层)进行匹配,以查看该第L个字母是否与逆拼音树的当前层中的某个节点的字母相同。如果上述匹配的结果是“否”,则前进到步骤512,在此,确定该单词不是汉语拼音,从而结束该方法。
如果步骤510处的匹配结果是“是”,则前进到步骤514,确定该匹配的节点是否是逆拼音树的叶子节点。如果步骤514处的确定结果是“否”,则前进到步骤518。在步骤518,确定L是否等于1。如果步骤518处的确定结果是“是”,则前进到步骤522,在此,确定该匹配的节点是否是逆拼音树的假叶子节点。如果步骤522处的确定结果是“否”,则前进到步骤524并确定改单词不是有效的汉语拼音,从而结束该方法。
如果在步骤518处确定L不等于1,则方法前进到步骤526。在步骤526,将该匹配的节点的下一层设置为当前层。然后在步骤528,将判断参数L减去1(L=L-1),并取出单词的第L个字母。然后方法回到步骤510,将单词的第L个字母与当前层进行匹配。
另一方面,如果步骤514处的确定结果是“是”,则前进到步骤516。在步骤516,确定L是否等于1。如果确定L不等于1,则前进到步骤512,在此,确定该单词不是有效的汉语拼音,从而结束该方法。
如果在步骤516处确定L=1,则确定该单词是有效的汉语拼音,从而结束该方法。
另一方面,如果步骤522处的确定结果是“是”,则前进到步骤520,确定该单词是有效的汉语拼音,从而结束该方法。
下面结合图4和图5举例说明本发明的实施例。对于一个有效的汉语拼音“xiu”,在步骤50 1中,确定拼音长度N=3。在步骤504中,设置判断参数L=N=3,并取出“xiu”的第3个字母“u”。在步骤507中,设置逆拼音树的第一层为当前层。
在步骤510中,检查字母“u”与逆拼音树的当前层(此时是第一层)是否匹配。因为“u”被包括在第一层的节点{a,o,e,i,u,v,r,n,g}中,所以步骤501处的匹配结果是“是”,方法前进到步骤514。
在步骤514中,因为匹配的节点{u}不是逆拼音树的叶子节点,所以推进到步骤518,因为L不等于1,所以继续推进到步骤526,将位于{u}之后的第二层设置为当前层。然后在步骤528,设置L=2,并取出单词“xiu”的第二个字母“i”。方法返回步骤510,将字母“i”与逆拼音树的当前层(此时,{u}在第二层中的子节点)进行匹配。由于“i”被包括在{u}的子节点{o,i}中,所以前进到步骤514。此时该匹配的节点{i}不是逆拼音树的叶子节点,因此前进到步骤518,此时L不等于1,因此继续前进到步骤526。在步骤526,将位于{i}之后的第三层设置为当前层,然后在步骤528设置L=1,取出“xiu”的第一个字母“x”。方法再次返回步骤510,将字母“x”与逆拼音树的当前层(此时,{i}在第三层中的子结点)进行匹配。由于“x”被包括在{i}的子节点{m,d,n,l,j,q,x}中,步骤推进到514,由于该匹配的节点是叶子节点,因此推进到步骤516,由于此时L=1,因此推进到步骤520,确定该单词“xiu”是有效的汉语拼音。换句话说,因为“xiu”与逆拼音树的一个分支<x,i,u>完全匹配,所以确定该单词“xiu”是有效的汉语拼音。
表1给出了利用逆拼音树的本实施例的算法性能与前述的传统方法(1)和方法(2)的比较结果。
表1:
  测试场景   测试单词数量(总单词数/拼音   场景描述   方法(1)的使用时间   方法(2)的使用时间   利用逆拼音树的本方法的使用时间   本方法相对方法(1)的性能提升   本方法相对方法(2)的性能提升
  场景1   3731833/0   只有英文单词   12.19ms   0.83ms   0.48ms   2,440%   72.92%
  场景2   2740442/192844   英文单词与汉语拼音混写,各汉语拼音出现频率相同   8.73ms   0.64ms   0.37ms   2,259%   72.97%
  场景3   7135228/7135228   只有汉语拼音,各汉语拼音出现频率相同   10.18ms   1.37ms   0.83ms   1,127%   65.06%
从表1可以看出,利用逆拼音树的本实施例的方法与传统的方法相比,识别时间大大缩短,因而大幅度地提高了工作效率。
图6是根据本发明的一个实施例的处理混写语料的装置600的方框图。该装置600包括读取模块601,其读取待处理的混写语料;提取模块602,从所述读取模块接收所述待处理的混写语料,从所述待处理的混写语料中提取包括至少一个字母的单词;以及识别模块603,从所述提取模块接收所述单词,按照从所述单词的末尾向前的方向,以逐个字母判断的方式来识别所述单词是否是汉语拼音。
识别模块603可以通过判断单词的结尾字母是否是9个字母{a,o,e,i,u,v,r,n,g}之一,来迅速判断该单词是否为有效的汉语拼音。
识别模块603还可以建立如图2或图4所示的树形结构,或利用预先已经建立的树形结构。在此情况下,识别模块603可执行如图3或图5所示的方法,以便识别该单词是否为有效的汉语拼音。为了避免重复,在此不再详细描述识别模块603的具体操作。
本发明可以应用于多个方面。例如,当利用本发明的方法或装置快速识别出单词是有效的汉语拼音后,可以不将其标记为拼写错误,提高工作效率。在混写英文和汉语拼音的某些特定情况下,汉语拼音表示人的姓名或实体的名称。假如汉语拼音表示人的姓名,并且姓和名是分开的两个单词,则可以进一步根据中国人姓名的没有中名的特点,来正确地标记人的姓名。例如,将姓和名标示成不同的背景颜色。
应注意,本发明的实施例可以通过硬件、软件或硬件和软件的组合来实现,其实现方式不对本发明的范围构成限制。
本发明实施例中各个功能模块相互之间的连接关系不对本发明的范围构成限制,其中的一个或多个功能模块可以包括或连接到其它任意的功能模块或外部元件。
虽然上面已经结合附图示出并详细描述了本发明的一些实施例,本领域的技术人员应当理解,在不偏离本发明的原则和精神的情况下,可以对这些实施例做出变化和修改,而仍然落在所附的权利要求及其等价物的范围内。

Claims (12)

1、一种用于处理包含汉语拼音和英文的混写语料的方法,包括:
读取步骤,读取待处理的混写语料;
提取步骤,从所述待处理的混写语料中提取包括至少一个字母的单词;以及
识别步骤,按照从所述单词的末尾开始按从后向前的方向,以逐个字母判断的方式来识别所述单词是否是汉语拼音。
2、如权利要求1所述的方法,其中所述识别步骤包括:
如果所述单词的末尾字母不在集合{a,o,e,i,u,v,r,n,g}中时,则确定该单词不是有效的汉语拼音。
3、如权利要求1所述的方法,还包括:
树创建步骤,创建逆韵母树,其中该逆韵母树的每个分支代表一个韵母或组合韵母。
4、如权利要求3所述的方法,其中所述识别步骤包括:
按照从所述单词的末尾开始按从后向前的方向,逐个字母地匹配该逆韵母树;以及
如果所述单词的一个字母与所述逆韵母树的相应层不匹配,则确定该单词不是有效的汉语拼音。
5、如权利要求1所述的方法,还包括:
树创建步骤,创建逆拼音树,其中该逆拼音树的每个分支代表一个汉语拼音。
6、如权利要求5所述的方法,其中所述识别步骤包括:
按照从所述单词的末尾开始按从后向前的方向,逐个字母地匹配该逆拼音树;
如果所述单词的一个字母与所述逆拼音树的相应层不匹配,则确定该单词不是有效的汉语拼音;以及
如果所述单词的所有字母与所述逆拼音树的一个分支完全匹配,则确定该单词是有效的汉语拼音。
7、一种用于处理包含汉语拼音和英文的混写语料的装置,包括:
读取模块,读取待处理的混写语料;
提取模块,从所述读取模块接收所述待处理的混写语料,并从所述混写语料中提取包括至少一个字母的单词;以及
识别模块,从所述提取模块接收所述单词,并按照从所述单词的末尾向前的方向,以逐个字母判断的方式来识别所述单词是否是汉语拼音。
8、如权利要求7所述的装置,其中:
如果所述单词的末尾字母不在集合{a,o,e,i,u,v,r,n,g}中时,则所述识别模块确定该单词不是有效的汉语拼音。
9、如权利要求7所述的装置,还包括:
树创建装置,创建逆韵母树,其中该逆韵母树的每个分支代表一个韵母或组合韵母。
10、如权利要求9所述的装置,其中所述识别模块
按照从所述单词的末尾开始按从后向前的方向,逐个字母地匹配该逆韵母树;以及
如果所述单词的一个字母与所述逆韵母树的相应层不匹配,则确定该单词不是有效的汉语拼音。
11、如权利要求7所述的装置,还包括:
树创建装置,创建逆拼音树,其中该逆拼音树的每个分支代表一个汉语拼音。
12、如权利要求11所述的装置,其中所述识别模块
按照从所述单词的末尾开始按从后向前的方向,逐个字母地匹配该逆拼音树;
如果所述单词的一个字母与所述逆拼音树的相应层不匹配,则确定该单词不是有效的汉语拼音;以及
如果所述单词的所有字母与所述逆拼音树的一个分支完全匹配,则确定该单词是有效的汉语拼音。
CN2008101317418A 2008-06-27 2008-06-27 汉语拼音识别方法和装置 Expired - Fee Related CN101615180B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2008101317418A CN101615180B (zh) 2008-06-27 2008-06-27 汉语拼音识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008101317418A CN101615180B (zh) 2008-06-27 2008-06-27 汉语拼音识别方法和装置

Publications (2)

Publication Number Publication Date
CN101615180A true CN101615180A (zh) 2009-12-30
CN101615180B CN101615180B (zh) 2012-10-31

Family

ID=41494825

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008101317418A Expired - Fee Related CN101615180B (zh) 2008-06-27 2008-06-27 汉语拼音识别方法和装置

Country Status (1)

Country Link
CN (1) CN101615180B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107247708A (zh) * 2017-07-03 2017-10-13 中国银行股份有限公司 一种姓名识别方法及系统
CN109448717A (zh) * 2018-12-10 2019-03-08 深圳普得技术有限公司 一种语音单词拼写识别方法、设备及存储介质
CN111079489A (zh) * 2019-05-28 2020-04-28 广东小天才科技有限公司 一种内容识别方法及电子设备
CN112528649A (zh) * 2020-12-14 2021-03-19 圆通速递有限公司 针对多语言混合文本的英文拼音识别方法和系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1496062A (zh) * 2000-06-28 2004-05-12 因特国风网络软件有限公司 网络中智能信息处理的方法和系统
CN1308801C (zh) * 2002-03-15 2007-04-04 王有卫 汉字句输入法
CN101206673A (zh) * 2007-12-25 2008-06-25 北京科文书业信息技术有限公司 网络搜索过程中关键词的智能纠错系统及方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107247708A (zh) * 2017-07-03 2017-10-13 中国银行股份有限公司 一种姓名识别方法及系统
CN109448717A (zh) * 2018-12-10 2019-03-08 深圳普得技术有限公司 一种语音单词拼写识别方法、设备及存储介质
CN111079489A (zh) * 2019-05-28 2020-04-28 广东小天才科技有限公司 一种内容识别方法及电子设备
CN111079489B (zh) * 2019-05-28 2023-04-28 广东小天才科技有限公司 一种内容识别方法及电子设备
CN112528649A (zh) * 2020-12-14 2021-03-19 圆通速递有限公司 针对多语言混合文本的英文拼音识别方法和系统
CN112528649B (zh) * 2020-12-14 2024-09-17 圆通速递有限公司 针对多语言混合文本的英文拼音识别方法和系统

Also Published As

Publication number Publication date
CN101615180B (zh) 2012-10-31

Similar Documents

Publication Publication Date Title
Chang et al. Optimizing Chinese word segmentation for machine translation performance
CN101615180B (zh) 汉语拼音识别方法和装置
US9984064B2 (en) Reduction of memory usage in feature generation
CN105335360A (zh) 生成文档结构的方法和装置
US7165021B2 (en) Chinese language input system
CN102184027B (zh) 五行音形码中文输入编码方法
WO2019042349A1 (zh) 操作系统框架的翻译方法、移动终端和存储装置
CN107797995A (zh) 一种中英文片段语料生成方法
CN104267826A (zh) 一种基于极简键盘的汉字输入方法
CN107329756B (zh) 程序文件的生成方法、装置、存储介质、处理器和终端
US20020193984A1 (en) Chinese language input system
Li et al. Transformer-lite: High-efficiency deployment of large language models on mobile phone gpus
CN104951092A (zh) 信息交互方法、装置、键盘及汉字输入法、设备
CN105068675B (zh) 数字键盘拼音集合二码输入方法
CN100511108C (zh) 用数字键输入汉字的方法
CN104503600A (zh) 一种触屏设备中快速输入拼音的方法
Gu et al. Introduction to NJUPT Chinese spelling check systems in CLP-2014 bakeoff
CN101539811A (zh) 六键小键盘及其基于六键小键盘的中英文输入方法
CN103631789A (zh) 文档处理方法和装置
CN108763871B (zh) 基于第三代测序序列的补洞方法及装置
CN118170947A (zh) 基于拼音检索视频文件的方法及相关设备
CN1558313A (zh) 数字键盘拼音三键输入方法
CN105589567B (zh) 双手并击式全拼输入键盘及输入方法
Ye et al. A Roman-Chinese Character Conversion System Correcting Pinyin Spell Errors with Application to the Chinese FEP
Kwak et al. Construction of an Efficient Pre-analyzed Dictionary for Korean Morphological Analysis

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: IBM (CHINA) CO., LTD.

Free format text: FORMER OWNER: INTERNATIONAL BUSINESS MACHINES CORPORATION

Effective date: 20150728

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150728

Address after: 201203 Shanghai city Pudong New Area Keyuan Road No. 399 Zhang Jiang Zhang Jiang high tech Park Innovation Park 10 Building 7 layer

Patentee after: International Business Machines (China) Co., Ltd.

Address before: New York grams of Armand

Patentee before: International Business Machines Corp.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20121031

Termination date: 20190627