CN101441527B - 拼音输入中提示正确读音的方法及装置 - Google Patents

拼音输入中提示正确读音的方法及装置 Download PDF

Info

Publication number
CN101441527B
CN101441527B CN2008102408310A CN200810240831A CN101441527B CN 101441527 B CN101441527 B CN 101441527B CN 2008102408310 A CN2008102408310 A CN 2008102408310A CN 200810240831 A CN200810240831 A CN 200810240831A CN 101441527 B CN101441527 B CN 101441527B
Authority
CN
China
Prior art keywords
pinyin string
fuzzy sound
candidate word
fuzzy
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2008102408310A
Other languages
English (en)
Other versions
CN101441527A (zh
Inventor
张会鹏
梅书慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Shiji Guangsu Information Technology Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN2008102408310A priority Critical patent/CN101441527B/zh
Publication of CN101441527A publication Critical patent/CN101441527A/zh
Application granted granted Critical
Publication of CN101441527B publication Critical patent/CN101441527B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明实施例提供了一种拼音输入中提示正确读音的方法及装置。首先根据用户所输入的拼音串和预先建立的模糊音对应表,匹配出所述拼音串的模糊音组合;然后再根据该模糊音组合查找词库,生成针对所述拼音串的候选词集合;再比较所生成的各个候选词的正确读音和所述拼音串是否相同,若不相同,则标注该不相同的候选词的正确读音。这样就能够在提高用户打字效率的同时,又可以帮助纠正发音,提高了中文输入设备或工具的使用效果和实际推广价值。

Description

拼音输入中提示正确读音的方法及装置
技术领域
本发明涉及中文输入领域,尤其涉及一种拼音输入中提示正确读音的方法及装置。
背景技术
目前,用户要将汉字输入到电脑中显示,就需要利用相应的输入法和输入装置来完成,现在较为常见的输入法就是拼音输入法和五笔输入法,它们是基于键盘的中文输入方法。具体来说,就是通过键盘输入某个汉字的编码,然后根据编码转换成相应的汉字进行显示。
以拼音输入法来说,其发音组词是按照普通话的标准来进行的,但是由于各个地方的方言发音很多都不准确,故在很多的拼音输入法中都应用了模糊音组词的技术,也就是把拼音中声母和韵母有模糊的发音建立一定的对应关系,然后再模糊组词,使得发音不准的用户也可以打出正确的字。
举例来说,首先建立声母“c”和“ch”的模糊音对应关系,即″c=ch″;韵母“an”和“ang”的模糊音对应关系,即″an=ang″。如图1所示为现有技术中模糊组词的示意图,图中:当输入拼音串“can”时,根据之前建立的模糊音对应关系,就可以得到“chang”这个拼音串对应的候选词“常”。这是由于将“c”和“ch进行了等同处理,且“an”和“ang”进行了等同处理,这样读音为“can”、“cang”、“chan”或“chang”的候选词就都会出现在候选词列表中,从而不论用户的发音是否准确,都可以打出正确的字,一定程度上提高了中文输入的速度。
但从现有技术的方案可以看出,由于在开启模糊音技术时,中文输入设备不具备标识正确读音的能力,这样就导致用户分不清正确读音和错误读音,不利于用户的使用。
发明内容
本发明实施例所要解决的技术问题在于提供一种拼音输入中提示正确读音的方法及装置,能够提高中文输入设备的读音识别能力,有利于提高用户的使用效率和使用效果。
本发明实施例提供了一种拼音输入中提示正确读音的方法,包括:
根据用户所输入的拼音串和预先建立的模糊音对应表,匹配出所述拼音串的模糊音组合;
并根据该模糊音组合查找词库,生成针对所述拼音串的候选词集合;
比较所生成的各个候选词的正确读音和所述拼音串是否相同,若不相同,则标注不相同的候选词的正确读音。
本发明实施例还提供了一种拼音输入中提示正确读音的装置,包括:
模糊音匹配单元,用于根据用户所输入的拼音串和预先建立的模糊音对应表,匹配出所述拼音串的模糊音组合;
候选词生成单元,用于根据所述模糊音匹配单元所匹配出的模糊音组合查找词库,生成针对所述拼音串的候选词集合;
正确读音标注单元,用于比较所述候选词生成单元所生成的各个候选词的正确读音和用户所输入的拼音串是否相同,若不相同,则标注不相同的候选词的正确读音。
由上述所提供的技术方案可以看出,首先根据用户所输入的拼音串和预先建立的模糊音对应表,匹配出所述拼音串的模糊音组合;然后再根据该模糊音组合查找词库,生成针对所述拼音串的候选词集合;再比较所生成的各个候选词的正确读音和所述拼音串是否相同,若不相同,则标注该不相同的候选词的正确读音。这样就能够提高中文输入设备的读音识别能力,有利于提高用户的使用效率和使用效果。
附图说明
图1为现有技术中模糊组词的示意图;
图2为本发明实施例1所提供方法的流程示意图;
图3为本发明实施例1所述方法生成候选词集合的示意图;
图4为本发明实施例1所述方法进行正确读音标注的示意图;
图5为本发明实施例2所提供装置的结构示意图。
具体实施方式
本发明实施例提供了一种拼音输入中提示正确读音的方法及装置,下面结合附图对本发明的实施例做进一步详细说明。
实施例1:本发明实施例1提供了一种拼音输入中提示正确读音的方法,如图2所示为本实施例1所提供方法的流程示意图,所述方法包括:
步骤21:根据用户所输入的拼音串和预先建立的模糊音对应表,匹配出所述拼音串的模糊音组合。
在该步骤中,当用户通过中文输入设备或工具输入拼音串时,该中文输入设备或工具就可以根据该用户所输入的拼音串和预先建立的模糊音对应表,匹配出该拼音串相应的模糊音组合。具体实现过程中,可以将所输入的拼音串划分成声母和韵母两部分,然后分别根据预先所建立的声母模糊音对应表和韵母模糊音对应表进行查找,从而匹配出该拼音串所对应的模糊音组合,该声母模糊音对应表和韵母模糊音对应表是根据用户的实际使用需求来进行设定的。
举例来说,可以根据用户的使用习惯,将常用拼音的声母和韵母进行模糊音组合,声母部分可以包括:c=ch,s=sh,z=zh,l=n,f=h,r=l;韵母部分可以包括:An=ang,en=eng,in=ing,ian=iang,uan=uang。这样就可以形成如下的模糊音对应表:
声母模糊音对应表:
  c   ch
  s   sh
  z   zh
  l   n
  c   ch
  f   h
  r   l
韵母模糊音对应表:
  an   ang
  en   eng
  in   ing
  ian   iang
  uan   uang
以上是常用拼音的声母和韵母对应表,在实际操作过程中,也可以由用户根据使用习惯,自定义一些拼音的声母和韵母对应关系,例如可以定义sh=x等比较特殊的对应关系。
建立了上述的模糊音对应表之后,就可以根据用户所输入的拼音串来进行查找,从而形成相应的模糊音组合。例如,当输入拼音串“can”时,可以将该拼音串拆分成声母“c”和韵母“an”,然后分别到声母模糊音对应表和韵母模糊音对应表中进行查找,获得声母“c、ch”和韵母“an、ang”,然后从声母中选出一个和韵母中的一个进行组合,从而形成模糊音组合“can、cang、chan和chang”,这就是针对所输入拼音串的模糊音组合。
另外,在该步骤中,还可以在用户输入拼音串时,首先判断该用户所输入的拼音串是否是单个;若是单个,则根据该单个拼音串查找预先建立的模糊音对应表,匹配出该单个拼音串的模糊音组合;若不是单个,还需要对该拼音串进行音节划分,然后再根据划分后的各个拼音串分别去查找预先建立的模糊音对应表,从而匹配出该多个拼音串的模糊音组合。
举例来说,如果用户输入多个拼音串“zonghuarenmingongheguo”,则首先对该拼音串进行音节划分,即“zong’hua’ren’min’gong’he’guo”,然后再根据划分后的各个拼音串进行上述步骤21的操作,逐个拼音串的进行处理,匹配出针对该多个拼音串的模糊音组合。
步骤22:根据该模糊音组合查找词库,生成针对所述拼音串的候选词集合。
在该步骤中,当匹配出相应的模糊音后,就可以根据该模糊音组合去查找中文输入设备或工具中所建立的词库,提取出每一个模糊音所对应的候选词,生成针对所输入拼音串的候选词的集合。
举例来说,如图3所示为本实施例1所述方法生成候选词集合的示意图,图中:当输入拼音串“can”,并匹配出了模糊音组合“can、cang、chan和chang”之后,就可以根据该模糊音组合查找词库,提取“can”所对应的候选词“惨,餐,参,残等”,可以称之为集合1;提取“cang”所对应的候选词“仓,藏,苍,舱等”,可以称之为集合2;在提取“chan”所对应的候选词“产,缠,铲,颤等”,可以称之为集合3;在提取“chang”所对应的候选词“常,长,厂,畅等”,可以称之为集合4。分别提取完各个模糊音所对应的候选词后,将所得到的候选词进行组合,就可以生产针对所输入拼音串的候选词集合了,具体是将集合1、2、3和4进行组合,该总的集合就是所输入拼音串的候选词集合。
步骤23:比较所生成的各个候选词的正确读音和所输入的拼音串是否相同。
在该步骤中,当生成相应的候选词集合之后,就可以将各个候选词的正确读音分别与所输入的拼音串进行比较,判断该候选词的正确读音和所输入的拼音串是否相同,然后根据判断结果执行相应的操作。
步骤24:若不相同,则标注该不相同的候选词的正确读音。
在该步骤中,所判断某一候选词的正确读音和所输入的拼音串不相同,则就需要对该不相同的候选词的正确读音进行标注。
举例来说,如图4所示为本发明实施例1所述方法进行正确读音标注的示意图,图中:用户输入拼音串“can”,并生成针对该拼音串的候选词集合后,从第一个候选词开始分别比较各个候选词的正确读音和所输入的拼音串是否相同,例如“惨”的正确读音是“can”,和所输入的拼音串是相同的;而“常”的正确读音是“chang”,和所输入的拼音串是否不相同的,这样就需要对该不相同的候选词“常”的正确读音进行标注。具体标注的方法可以是在旁边用括号进行标注,也可以在右下角或其他位置进行相应的标注,只要用户能够进行识别区分就可以了。
步骤25:若相同,则不用标注该候选词。
在该步骤中,若候选词的正确读音和所输入的拼音串是相同的,则不需要对其进行标注,例如“惨”的正确读音是“can”,和所输入的拼音串是相同的,这样就不需要进行正确读音的标注了。
通过以上技术方案的实施,就可以提高中文输入设备的读音识别能力,有利于提高用户的使用效率和使用效果,在实现提高用户打字效率的同时,又可以帮助纠正发音,进一步提高了中文输入设备或工具的使用效果和实际推广价值。
另外,在本实施例1的实际实现过程中,还可以根据用户的实际使用需求,设置标注正确读音的候选词个数,例如可以设置标注正确读音的候选词为第一个或全部,这样当设置为第一个进行标注时,就只需要对第一个正确读音和拼音串不相同的候选词进行标注了;当设置为全部进行标注时,就需要对所有正确读音和拼音串不相同的候选词进行标注。
另外,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成,相应的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
实施例2:本发明实施例2提供了一种拼音输入中提示正确读音的装置,如图5所示为所述装置的结构示意图,所述装置包括模糊音匹配单元、候选词生成单元和正确读音标注单元,其中:
所述模糊音匹配单元用于根据用户所输入的拼音串和预先建立的模糊音对应表,匹配出所述拼音串的模糊音组合。具体进行匹配的方式见以上方法实施例1中所述。
所述候选词生成单元用于根据所述模糊音匹配单元所匹配出的模糊音组合查找词库,生成针对所述拼音串的候选词集合。具体生成候选词集合的方式见以上方法实施例1中所述。
所述正确读音标注单元用于比较所述候选词生成单元所生成的各个候选词的正确读音和用户所输入的拼音串是否相同,若不相同,则标注该不相同的候选词的正确读音。具体进行标注的方法见以上方法实施例1中所述。
另外,以上所述装置中还可包括模糊音对应表建立单元,该模糊音对应表建立单元用于按照用户实际使用需求,建立声母模糊音对应表和韵母模糊音对应表。
另外,以上所述装置中还可包括个数设置单元,该个数设置单元用于根据用户实际使用需求,设置标注正确读音的候选词个数。
以上所述装置可以集成设置于中文输入设备或工具中;也可以设置成单独的功能实体,和所述中文输入设备或工具保持连接关系。
值得注意的是,上述装置实施例中所包括的各个单元只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
综上所述,本发明实施例可以提高中文输入设备的读音识别能力,有利于提高用户的使用效率和使用效果。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明实施例揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (10)

1.一种拼音输入中提示正确读音的方法,其特征在于,
根据用户所输入的拼音串和预先建立的模糊音对应表,匹配出所述拼音串的模糊音组合;
并根据该模糊音组合查找词库,生成针对所述拼音串的候选词集合;
比较所生成的各个候选词的正确读音和所述拼音串是否相同,若不相同,则标注不相同的候选词的正确读音。
2.如权利要求1所述的方法,其特征在于,所述预先建立的模糊音对应表,具体包括:
按照用户实际使用需求,建立声母模糊音对应表和韵母模糊音对应表。
3.如权利要求1所述的方法,其特征在于,所述根据用户所输入的拼音串和预先建立的模糊音对应表,匹配出所述拼音串的模糊音组合,具体包括:
判断用户所输入的拼音串是否是单个;
若是单个,则根据该单个拼音串查找预先建立的模糊音对应表,匹配出该单个拼音串的模糊音组合;
若不是,则对该拼音串进行音节划分,根据划分后的各个拼音串分别查找预先建立的模糊音对应表,匹配出该拼音串的模糊音组合。
4.如权利要求1所述的方法,其特征在于,所述根据该模糊音组合查找词库,生成针对所述拼音串的候选词集合,具体包括:
根据该模糊音组合中的各个模糊音分别查找词库,将各个模糊音查找所得到的候选词进行组合,生成针对所述拼音串的候选词集合。
5.如权利要求1至4其中之一所述的方法,其特征在于,所述方法还包括:
根据用户实际使用需求,设置标注正确读音的候选词个数。
6.如权利要求5所述的方法,其特征在于,所述设置标注正确读音的候选词个数,具体包括:
设置标注正确读音的候选词为第一个或全部。
7.一种拼音输入中提示正确读音的装置,其特征在于,包括:
模糊音匹配单元,用于根据用户所输入的拼音串和预先建立的模糊音对应表,匹配出所述拼音串的模糊音组合;
候选词生成单元,用于根据所述模糊音匹配单元所匹配出的模糊音组合查找词库,生成针对所述拼音串的候选词集合;
正确读音标注单元,用于比较所述候选词生成单元所生成的各个候选词的正确读音和用户所输入的拼音串是否相同,若不相同,则标注不相同的候选词的正确读音。
8.如权利要求7所述的装置,其特征在于,所述装置还包括:
模糊音对应表建立单元,用于按照用户实际使用需求,预先建立模糊音对应表,所述预先建立的模糊音对应表包括:声母模糊音对应表和韵母模糊音对应表。
9.如权利要求7所述的装置,其特征在于,所述装置还包括:
个数设置单元,用于根据用户实际使用需求,设置标注正确读音的候选词个数。
10.如权利要求7至9其中之一所述的装置,其特征在于,
所述装置设置于中文输入设备中。
CN2008102408310A 2008-12-24 2008-12-24 拼音输入中提示正确读音的方法及装置 Active CN101441527B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2008102408310A CN101441527B (zh) 2008-12-24 2008-12-24 拼音输入中提示正确读音的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008102408310A CN101441527B (zh) 2008-12-24 2008-12-24 拼音输入中提示正确读音的方法及装置

Publications (2)

Publication Number Publication Date
CN101441527A CN101441527A (zh) 2009-05-27
CN101441527B true CN101441527B (zh) 2010-10-06

Family

ID=40725985

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008102408310A Active CN101441527B (zh) 2008-12-24 2008-12-24 拼音输入中提示正确读音的方法及装置

Country Status (1)

Country Link
CN (1) CN101441527B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101667099B (zh) * 2009-10-16 2016-04-06 神形互联有限公司 一种连笔键盘文字输入的方法和设备
CN102541281A (zh) * 2010-12-22 2012-07-04 张家港市赫图阿拉信息技术有限公司 一种输入疑难字的方法
CN103514236B (zh) * 2012-06-30 2017-06-09 重庆新媒农信科技有限公司 检索应用中基于拼音的检索条件纠错提示处理方法
CN104216906A (zh) * 2013-05-31 2014-12-17 大陆汽车投资(上海)有限公司 语音搜索方法和设备
CN104331222B (zh) * 2014-03-26 2018-06-05 广州三星通信技术研究有限公司 使用输入法输入字符的方法和设备
CN104036004B (zh) * 2014-06-17 2018-06-19 百度在线网络技术(北京)有限公司 搜索纠错方法和搜索纠错装置
CN105302795B (zh) * 2015-11-11 2018-03-20 河海大学 基于汉语模糊发音和语音识别的中文文本校验系统及方法
CN105589573A (zh) * 2015-12-18 2016-05-18 魅族科技(中国)有限公司 文字输出方法及文字输出装置
CN105549760B (zh) * 2016-01-27 2018-07-20 百度在线网络技术(北京)有限公司 信息输入方法和装置
CN106339105A (zh) * 2016-08-25 2017-01-18 百度在线网络技术(北京)有限公司 用于识别拼音信息的方法及装置
CN112328096A (zh) * 2020-11-13 2021-02-05 维沃移动通信有限公司 候选词显示方法、装置和电子设备
CN113705203A (zh) * 2021-09-02 2021-11-26 上海极链网络科技有限公司 文本纠错方法、装置、电子设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN101441527A (zh) 2009-05-27

Similar Documents

Publication Publication Date Title
CN101441527B (zh) 拼音输入中提示正确读音的方法及装置
CN106598939B (zh) 一种文本纠错方法及装置、服务器、存储介质
CN108389577B (zh) 优化语音识别声学模型的方法、系统、设备及存储介质
US8706472B2 (en) Method for disambiguating multiple readings in language conversion
Beaufort et al. A hybrid rule/model-based finite-state framework for normalizing SMS messages
CN100565525C (zh) 一种计算机汉字输入方法及系统
US9767092B2 (en) Information extraction in a natural language understanding system
EP1675019B1 (en) System and method for disambiguating non diacritized arabic words in a text
CN102866782B (zh) 一种提高整句生成效率的输入法和输入法系统
CN101276245B (zh) 一种输入过程中编码纠错的提示方法和系统
CN101154226B (zh) 在输入法词库中添加未登录词的方法及文字输入装置
CN101556508A (zh) 一种输入法中候选词的生成方法、装置、系统及设备
JP2010505208A (ja) タイピング効率向上のためのタイピング候補の生成方法
KR20010035679A (ko) 외래어 음차표기의 음성적 거리 계산방법
CN104485107A (zh) 名称的语音识别方法、语音识别系统和语音识别设备
CN105096933A (zh) 分词词典的生成方法和装置及语音合成方法和装置
EP2447854A1 (en) Method and system of automatic diacritization of Arabic
CN101739143B (zh) 文字输入方法及系统
JP5231484B2 (ja) 音声認識装置、音声認識方法、プログラム、及びプログラムを配信する情報処理装置
CN102929864A (zh) 一种音字转换方法及装置
Bagul et al. Rule based POS tagger for Marathi text
CN111611793B (zh) 数据处理方法、装置、设备及存储介质
CN109002454B (zh) 一种确定目标单词的拼读分区的方法和电子设备
CN105511636B (zh) 改进的全部汉字汉词简易无重码统一输入法
CN100535836C (zh) 在中文输入法中恢复候选词顺序的方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: SHENZHEN SHIJI LIGHT SPEED INFORMATION TECHNOLOGY

Free format text: FORMER OWNER: TENGXUN SCI-TECH (SHENZHEN) CO., LTD.

Effective date: 20131206

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 518028 SHENZHEN, GUANGDONG PROVINCE TO: 518057 SHENZHEN, GUANGDONG PROVINCE

TR01 Transfer of patent right

Effective date of registration: 20131206

Address after: 518057 Tencent Building, 16, Nanshan District hi tech park, Guangdong, Shenzhen

Patentee after: Shenzhen Shiji Guangsu Information Technology Co., Ltd.

Address before: 2 East 403 room, SEG science and technology garden, Futian District, Guangdong, Shenzhen 518028, China

Patentee before: Tencent Technology (Shenzhen) Co., Ltd.