CN101075262A - 一种计算机汉字输入方法及系统 - Google Patents

一种计算机汉字输入方法及系统 Download PDF

Info

Publication number
CN101075262A
CN101075262A CN 200710110851 CN200710110851A CN101075262A CN 101075262 A CN101075262 A CN 101075262A CN 200710110851 CN200710110851 CN 200710110851 CN 200710110851 A CN200710110851 A CN 200710110851A CN 101075262 A CN101075262 A CN 101075262A
Authority
CN
China
Prior art keywords
character string
spelling
unit
string
simplicity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 200710110851
Other languages
English (en)
Other versions
CN100565525C (zh
Inventor
张会鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Shiji Guangsu Information Technology Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CNB2007101108511A priority Critical patent/CN100565525C/zh
Publication of CN101075262A publication Critical patent/CN101075262A/zh
Application granted granted Critical
Publication of CN100565525C publication Critical patent/CN100565525C/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种计算机汉字输入方法,包括以下步骤:按音节划分接收到的拼音串;提取每个音节的首字母组成简拼字符串;在预先建立的简拼字符串到全拼字符串映射表中查找出所述简拼字符串对应的所有全拼字符串;根据上述所有全拼字符串输出对应的候选词。本发明提供一种计算机汉字输入方法和计算机汉字输入系统,在接收到的拼音串不是简拼字符串或者全拼字符串时,能够实现候选词的输出,方便用户使用,增强用户体验。

Description

一种计算机汉字输入方法及系统
技术领域
本发明涉及计算机汉字输入领域,特别涉及一种计算机汉字输入方法及系统。
背景技术
中文输入方法是运行于操作系统上的一个输入工具,是把键盘输入的按键信息或其他非键盘输入的信息转换成汉字输入的方法。目前使用最广的是基于键盘的中文输入方法。
由于英文字母只有26个,它们分别对应着键盘上的26个字母,所以对于英文而言是不存在什么输入方法的,直接输入英文字母即可。由于汉字是由字的音、形、义来共同表达的,因此汉字的拼音可以用于确定汉字的候选词。现有的汉字拼音输入方法是通过事先设定键盘与拼音字母的对应关系,实现汉字的输入。比如:键盘A对应拼音字母a、键盘B对应拼音字母b、键盘V对应拼音字母ü等等。虽然汉字的拼音的韵母是由很多字母组合而成,但是这些拼音的韵母也可以用对应的键盘先后输入确定。比如韵母üe,其对应于先后输入键盘V和键盘E。这种全拼输入汉字的方法,虽然可以实现汉字的输入,但由于每个词都需要键入整个拼音字符串,用户使用时比较麻烦。
现有中文输入方法均支持简拼字符串的输入,即只输入一个音节的声母部分,就可以输出候选词。但现有支持简拼输入的中文输入方法只支持声母输入。如果想输入“中国”,除了输入整个拼音字符串外,还可以输入简拼字符串“zhg”。当输入“zhg”时,输出的候选词为:“1这个2整个3职工4中国5中共”。用户再从候选词中选择4,便可完成“中国”的输入。但是如果用户在输入简拼时多输入了韵母中的一些字母,就不能输出对应的候选词,无法实现汉字的输入。比如用户输入“zhog”,就不会输出任何候选词。此时就需要用户删除所有的韵母或者补齐韵母中漏掉的字母,才能实现候选词的输出。
现有简拼输入方法,如果获取到的拼音串不是简拼字符串或者全拼字符串时,不能实现候选词的输出,用户使用很不方便,用户体检较差。
发明内容
本发明的目的是提供一种计算机汉字输入方法,该方法在获取到的拼音串不是简拼字符串或者全拼字符串时,能够实现候选词的输出,方便用户使用,增强用户体验。
本发明的目的还提供一种计算机汉字输入系统,该系统在获取到的拼音串不是简拼字符串和全拼字符串时,能够实现候选词的输出,方便用户使用。
为解决上述技术问题,本发明实施例提供一种计算机汉字输入方法,包括以下步骤:
按音节划分接收到的拼音串;
提取每个音节的首字母组成简拼字符串;
在预先建立的简拼字符串到全拼字符串映射表中查找出所述简拼字符串对应的所有全拼字符串;
根据所述全拼字符串输出对应的候选词。
优选地,在预先建立的简拼字符串到全拼字符串映射表中查找出所述简拼字符串对应的所有全拼字符串后包括步骤:
确定上述所有全拼字符串与该接收的拼音串相匹配的各全拼字符串;
根据上述各全拼字符串输出对应的候选词。
优选地,所述所有候选词是按照词频由大到小的顺序排列。
优选地,所述词频是预先用文本统计所述候选词的出现频率。
优选地,所述简拼字符串到全拼字符串映射表具体为简拼字符串与通过所述简拼字符串扩展的全部全拼字符串之间的关系对照表。
优选地,所述按音节划分接收的拼音串具体为按动态规划算法划分该接收到的拼音串的音节。
优选地,所述确定上述所有全拼字符串与该接收的拼音串相匹配的各全拼字符串,具体为:
将查找到的所述简拼字符串对应的所有全拼字符串逐个与该接收到的拼音串相比较,确定与该接收的拼音串相匹配的各全拼字符串。
本发明实施例提供一种计算机汉字输入系统,该系统包括:
存储单元,用于存储简拼字符串到全拼字符串映射表和全拼字符串到候选词映射表;
接收单元,用于接收用户输入的拼音串;
音节划分单元,用于按音节划分所述接收单元接收的拼音串;
简拼提取单元,用于提取所述音节划分单元划分后的拼音串中的每个音节的首字母,组成简拼字符串;
第一查找单元,用于根据所述存储单元中存储的简拼字符串到全拼字符串映射表,查找出与所述简拼提取单元生成的简拼字符串对应的所有全拼字符串;
第二查找单元,用于根据所述存储单元中存储的全拼字符串到候选词映射表,查找出所述第一查找单元确定的所有全拼字符串对应的所有候选词;
输出单元,用于输出所述第二查找单元确定的所有候选词。
优选地,所述系统进一步包括比较单元;
所述比较单元,用于比较所述接收单元接收的拼音串与所述第一查找单元查找出的所有全拼字符串,确定相匹配的各全拼字符串;
所述第二查找单元,用于根据所述存储单元中存储的全拼字符串到候选词映射表,查找出所述比较单元确定的各全拼字符串对应的所有候选词;
所述输出单元,用于输出所述第二查找单元确定的各全拼字符串对应的所有候选词。
优选地,该系统还包括:
词频单元,用于记录候选词的词频;
所述输出单元将所述第二查找单元确定的所有候选词按照所述词频单元记录的候选词词频顺序进行输出。
优选地,所述音节划分单元是按动态规划算法进行音节划分。
由于本发明实施例所述方法,预先建立了简拼字符串到全拼字符串映射表。当接收到拼音串后,对该拼音串按音节划分,并提取每个音节的首字母组成简拼字符串。然后对照简拼字符串到全拼字符串的映射表查找到所有该简拼字符串对应的所有全拼字符串。最后输出所有全拼字符串对应的候选词。因此,该方法在获取到拼音串不是简拼字符串或者全拼字符串时,能够实现候选词的输出,方便用户使用。
由于本发明实施例所述系统,存储单元中存储了预先建立了简拼字符串到全拼字符串的映射表和全拼字符串到候选词的映射表。当接收单元接收到的拼音串后,音节划分单元对该拼音串按音节进行划分。简拼提取单元提取每个音节的首字母组成简拼字符串。第一查找单元对照存储单元中存储的简拼字符串到全拼字符串的映射表查找到所有该简拼字符串对应的全部全拼字符串。第二查找单元对照全拼字符串到候选词的映射表,查找到所述第一查找单元确定的全部全拼字符串对应的候选词。所述输出单元输出所述第二查找单元确定的候选词。因此,该系统在接收单元接收到的拼音串不是简拼字符串或者全拼字符串时,仍能够实现候选词的输出,增强了用户体验。
附图说明
图1为本发明所述方法一种实施方式流程图;
图2为本发明建立简拼字符串与全拼字符串映射表的流程图;
图3本发明所述简拼字符串到全拼字符串映射表示意图;
图4为本发明所述全拼字符串到候选词映射表示意图;
图5为本发明所述方法第二种实施方式流程图;
图6为本发明所述方法第三种实施方式流程图;
图7为本发明所述方法第四种实施方式流程图;
图8为本发明所述系统第一种实施方式结构图;
图9为本发明所述系统第二种实施方式结构图;
图10为本发明所述系统第三种实施方式结构图。
具体实施方式
本发明提供一种计算机汉字输入方法,用于实现灵活的输入。当接收到的拼音串不是简拼字符串或者全拼字符串时,仍能够实现候选词的输出。
为了使本技术领域的技术人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。
参见图1,该图为本发明所述方法一种实施方式流程图。
S10、按音节划分接收到的拼音串。
此时接收到的拼音串可能是全拼字符串或者简拼字符串或者是不完整的全拼字符串。
将接收到的拼音串按照音节进行划分。对于完整的音节按照一个音节处理。对于不完整的音节,则要判断是否为音节开始的一部分,若是则按一个音节处理。
S20、提取每个音节的首字母组成简拼字符串。
由于已经对接收的字符串进行了音节划分,可以很方便的提取每个音节的首字母,这样就组成了简拼字符串。
S30、在预先建立的简拼字符串到全拼字符串映射表中查找出所述简拼字符串对应的所有全拼字符串。
对照预先建立的简拼字符串到全拼字符串映射表,可以得到与该简拼字符串对应的所有全拼字符串。
S40、根据所述全拼字符串输出对应的候选词。
对照预先建立的全拼字符串与候选词映射表,输出所有全拼字符串对应的候选词。
由于本发明第一种实施方式所述方法,预先建立了简拼字符串到全拼字符串映射表。当接收到拼音串后,对该拼音串按音节进行划分,并提取每个音节的首字母组成简拼字符串。然后对照简拼字符串到全拼字符串映射表查找到所有该简拼字符串对应的全部全拼字符串。最后输出所有全拼字符串对应的候选词。因此,该方法在获取到的拼音串不是简拼字符串和全拼字符串时,仍能够实现候选词的输出,方便用户使用。
下面结合图2具体说明本发明建立简拼字符串与全拼字符串映射表的过程。参见图2,该图为本发明建立简拼字符串与全拼字符串映射表的流程图。
S101、预先建立一个声母到音节的映射表。
声母到音节的映射表具体如下:
b对应ba bai bao be ben beng bu......
c对应ca cai can cang ce cen ceng......
zh对应zha zhai zhe zhen zheng......
S102、通过该声母到音节映射表,将各简拼字符串对应的每个字母进行扩展,形成多个全拼串。
例如简拼字符串“zg”,对于“z”和“g”分别进行扩展,可以分别得出全拼字符串集合{za zan ze zen zeng......zhe zhen zheng zhizhong zhou zhu zhua zhuan......}和{ga gai gao gan gang ge gen......},这两个集合相乘得出很多种组合方案,即形成了多个全拼字符串集合。
{zaga zagai zagao......zanga zangai zangao......}
S103、将上述全部全拼字符串与候选词全拼字符串相对应,确定能够组成候选词的全拼字符串。
例如:全拼字符串集合{zaga zagai zagao......zanga zangaizangao......}与候选词全拼字符串相对应后,得到下列全拼字符串。
“zao’gao”、“zao’gui”、“zao’guo”、“zha’gang”、“zhan’gui”、“zhan’guo”、“zhao’gu”、“zhe’ge”、“zhen’gui”、“zheng’ge”、“zhong’gan”、“zhong’gu”、“zhong’guo”、“zhong’gong”、“zhou’gong”、“zhou’guang”、“zhou’gun”、“zhu’ge”、“zhu’gan”、“zhu′guan”、“zu’ge”、“zu’guo”、“zun’gui”。
S104、将每个简拼字符串与步骤S103确定的全拼字符串建立映射表。
通过上述方法,就可以建立每个简拼字符串与全拼字符串映射表。当步骤S20提取每个音节的首字母组成简拼字符串后,步骤S30就可以根据该简拼字符串与全拼字符串映射表,查找出所述简拼字符串对应的所有全拼字符串。
下面结合具体实施例对本发明所述方法第一种实施方式进行详细描述。参见图3和图4,图3本发明所述简拼字符串到全拼字符串映射表示意图;图4为本发明所述全拼字符串到候选词映射表示意图。
首先,接收到的拼音串为“zhog”,按音节划分后为“zho’g”和“zh’o’g”。
然后,提取上述音节划分后的拼音串“zho’g”  和“zh’o’g”中的每个音节的首字母,组成具体的简拼字符串“zg”  和“zog”。
根据图3所示的简拼字符串到全拼字符串映射表,则简拼字符串“zg”对应的全拼字符串有“zao’gao”、“zao’gui”、“zao’guo”、“zha’gang”、“zhan’gui”、“zhan’guo”、“zhao’gu”、“zhe’ge”、“zhen’gui”、“zheng’ge”、“zhong’gan”、“zhong’gu”、“zhong’guo”、“zhong’gong”、“zhou’gong”、“zhou’guang”、“zhou’gun”、“zhu’ge”、“zhu’gan”、“zhu′guan”、“zu’ge”、“zu’guo”、“zun’gui”。
“zog”没有对应的全拼字符串。
根据上述所有全拼字符串输出对应的候选词。
本发明优选实施方式,在确定简拼字符串对应的全拼字符串后,还需要将所述全拼字符串与接收到的拼音串比较。具体过程参见图5和下文的本发明第二种具体实施方式部分的描述。
以上面的例子进行说明,在确定简拼字符串对应的全拼字符串后,将上述“zg”对应的全拼字符串与接收到的拼音串“zhog”比较,确定匹配的全拼字符串。
具体过程为:将上述“zg”对应的全拼字符串逐个与“zhog”比较,确定与“zhog”匹配的全拼字符串。具体有“zhong’gan”、“zhong’gong”、“zhong’gu”、“zhong’guo”、“zhou’gong”、“zhou’guang”、“zhou’gun”。
根据图4所示的全拼字符串到候选词映射表,得出上述全拼字符串“zhong’gan”、“zhong’gong”、“zhong’gu”、“zhong’guo”、“zhou’gong”、“zhou’guang”、“zhou’gun”分别对应的候选词。
“zhong′gan”对应“中干”;“zhong’gong”对应“中共”;“zhong’gu”对应“中古、中骨、钟鼓、终古”;“zhong’guo”对应“中国、种过”;“zhou’gong”对应“周公、轴功”;“zhou’guang”对应“昼光”;“zhou’gun”对应“纣棍”。
则输出的候选词为“中干、中共、中古、中骨、钟鼓、终古、中国、种过、周公、轴功、昼光、纣棍”。
参见图5,该图为本发明所述方法第二种实施方式流程图。
本发明所述方法第二种实施方式相对于第一种实施方式,在步骤S30和S40之间增加了步骤S35。
S35、确定步骤S30中所有全拼字符串与步骤S10中接收的拼音串相匹配的各全拼字符串。
将步骤S30确定的全部全拼字符串逐个与步骤S10接收的拼音串进行比较,确定与该接收的拼音串匹配的各全拼字符串。
S40、根据上述各全拼字符串输出对应的候选词。
对照预先建立的全拼字符串与候选词映射表,输出所有符合接收到的拼音串的各全拼字符串对应的候选词。
由于本发明第二种实施方式所述方法能够确定符合接收到的拼音串的所有全拼字符串。最后输出符合接收到的拼音串的所有全拼字符串对应的候选词。因此,本发明第二种实施方式所述方法在获取到的拼音串不是简拼字符串和全拼字符串时,能够实现候选词的有效输出,方便用户使用。
参见图6,该图为本发明所述方法第三种实施方式流程图。
本发明所述方法第三种实施方式相对于第二种实施方式,所述步骤S40根据上述各全拼字符串输出对应的候选词具体为:
S41、在预先建立的全拼字符串到选词典映射表中查找出步骤S35确定的各全拼字符串对应的所有候选词。
S42、输出上述所有候选词。
关于全拼字符串到候选词映射表的建立过程可以参见上述步骤S103,具体建立过程在此不再赘述。
参见图7,该图为本发明所述方法第四种实施方式流程图。
本发明所述方法第四种实施方式,相对于第三种实施方式,所述步骤S35确定上述所有全拼字符串与该接收的拼音串相匹配的各全拼字符串包括:
S351、逐个比较所述所有全拼字符串与该接收到的拼音串。
S352、记录与该接收的拼音串相匹配的全拼字符串。
将上述所有全拼字符串通过逐个判断,比较是否与该接收的拼音串相匹配。这样就可以防止漏掉与该接收的拼音串相匹配的全拼字符串。从而防止漏掉用户需要的候选词对应的全拼字符串。
本发明优选实施方式,所述步骤S40输出的候选词是可以按照词频由大到小的顺序排列的。词频是预先通过文本统计所述各个候选词的出现频率进行确定的。
当本发明所述方法实施例按照词频由大到小的顺序输出候选词时,这样用户需要的词出现在所有候选词的前面的概率就比较大。相对减小了用户在查找候选词时的翻页次数,更加有利于用户的使用,进一步增强了用户体验。
本发明优选实施方式,所述按音节划分接收的拼音串具体为按动态规划算法划分该接收到的拼音串的音节。
下面简单介绍一下动态规划算法:
设M矩阵的元素Mij记录i到j之间的分割代价。
考察当拼音字符串C1C2......Cn的子串Ci......Cj,用以下分段函数来表示该子串作为一个整体音节的分割代价值V(i,j)。
Figure A20071011085100121
这里的0、1和2,不仅是一个用于区分的编号,还是根据动态规划求最小分割代价的需要。这种设定的大小数值的区别,能够从下面的递归公式中得到验证。
动态规划算法能够有效地避免重复运算,关键在于设有矩阵M,保存有子问题的分析结果,能够在处理其他更大的子问题时直接访问,要求分割效果最好,可得出递归公式:
Mij = V ( i , j ) ( i = j ) min i &le; k < j { M i , j + M k + 1 , j + V ( i , j ) } ( i < j )
下面还以拼音串“zhog”为例,说明采用动态规划算法进行音节划分的过程。
“z”、“h”、“g”都可以作为一个音节的开始部分,“o”可以作为一个整体音节。
“z”的分割代价值V(i,j)=1;
“h”的分割代价值V(i,j)=1;
“g”的分割代价值V(i,j)=1;
“o”的分割代价值V(i,j)=0
此时,Mij=““z”的分割代价值”+““h”的分割代价值”+““g”的分割代价值”+““o”的分割代价值”=3。
如果把“zhog”划分为“zh”、“o”和“g”,那么拼音串“zhog”的分割代价值V(i,j)=1+0+1=2。
如果把“zhog”划分为“zho”和“g”,那么拼音串“zhog”的分割代价值V(i,j)=1+1=2。
所以整个拼音串“zhog”的最小分割代价的分割方式有两种:分割“zh”、“o”和“g”以及分割为“zho”和“g”。
当然,本发明实施例所述按音节划分还可以同时采用动态规划算法和音节数量最少原则进行划分。即保留采用动态规划算法进行音节划分后的拼音串,也保留采用音节数量最少原则进行音节划分后的拼音串。
本发明还提供一种计算机汉字输入系统,用于实现灵活的输入。当接收到的拼音串,既不是简拼字符串又不是全拼字符串时,仍能够实现候选词的输出。
参见图8,该图为本发明所述系统第一种实施方式结构图。
本发明所述系统第一种实施方式的计算机汉字输入系统,包括存储单元1、接收单元2、音节划分单元3、简拼提取单元4、第一查找单元5、第二查找单元7、输出单元8。
存储单元1,用于存储简拼字符串到全拼字符串映射表和全拼字符串到候选词映射表。
简拼字符串到全拼字符串映射表和全拼字符串到候选词映射表的建立过程在前文中均已描述,在此不再赘述。
接收单元2,用于接收用户输入的拼音串。
音节划分单元3,用于按音节划分所述接收单元2接收的拼音串。
简拼提取单元4,用于提取所述音节划分单元3划分后的拼音串中的每个音节的首字母组成简拼字符串。
第一查找单元5,用于根据所述存储单元1中存储的简拼字符串到全拼字符串映射表,查找出与所述简拼提取单元4生成的简拼字符串对应的所有全拼字符串。
第二查找单元7,用于根据所述存储单元1中存储的全拼字符串到候选词映射表,查找出所述第一查找单元5确定的各全拼字符串对应的所有候选词。
输出单元8,用于输出所述第二查找单元7确定的所有候选词。
由于本发明实施例所述系统,存储单元1中存储预先建立了简拼字符串到全拼字符串映射表和全拼字符串到候选词映射表。当接收单元2接收到的拼音串后,音节划分单元3对该拼音串按音节进行划分。简拼提取单元4提取每个音节的首字母组成简拼字符串。第一查找单元5对照存储单元1中存储的简拼字符串到全拼字符串映射表,查找到该简拼字符串对应的所有全拼字符串。第二查找单元7对照存储单元1中存储的全拼字符串到候选词映射表。输出单元8输出第二查找单元7确定的候选词。因此,该系统在接收单元2接收到的拼音串不是简拼字符串或者全拼字符串时,仍能够实现候选词的输出,方便用户使用。
参见图9,该图为本发明所述系统第二种实施方式结构图。
本发明所述系统第二种实施方式的计算机汉字输入系统,相对第一种实施方式,增加了比较单元6。
比较单元6,用于比较所述接收单元2接收的拼音串与所述第一查找单元5查找出的所有全拼字符串比较,确定相匹配的各全拼字符串。
第二查找单元7,用于根据所述存储单元1中存储的全拼字符串到候选词映射表,查找出所述比较单元6确定的各全拼字符串对应的所有候选词。
输出单元8,用于输出所述第二查找单元7确定的所有候选词。
由于本发明实施例所述系统,存储单元1中存储预先建立了简拼字符串到全拼字符串映射表和全拼字符串到候选词映射表。当接收单元2接收到的拼音串后,音节划分单元3对该拼音串按音节进行划分。简拼提取单元4提取每个音节的首字母组成简拼字符串。第一查找单元5对照存储单元1中存储的简拼字符串到全拼字符串映射表,查找到该简拼字符串对应的所有全拼字符串。比较单元6比较所述接收单元2接收的拼音串与所述第一查找单元5查找出的所有全拼字符串,确定符合接收到的拼音串的全部全拼字符串。第二查找单元7对照存储单元1中存储的全拼字符串到候选词映射表。输出单元8输出第二查找单元7确定的候选词。因此,该系统在接收单元2接收到的拼音串不是简拼字符串或者全拼字符串时,仍能够实现候选词的输出,方便用户使用。
参见图10,该图为本发明所述系统第三种实施方式结构图。
本发明所述系统第三种实施方式相对第二种实施方式增加了词频单元9。
词频单元9,用于记录每个候选词的词频。所述输出单元8将所述第二查找单元7确定的所有候选词按照所述词频单元9记录的候选词词频顺序进行输出。
当本发明所述方法实施例按照词频单元9记录候选词的词频,当由大到小的顺序输出候选词时,用户需要的词出现在所有候选词前面的概率就比较大,相对减小了用户查找候选词的翻页次数,更加有利于用户的使用,增强了用户体验。
当然还可以在存储单元1存储每个候选词的词频,而不需要增加词频单元9。输出单元8同样可以将所述第二查找单元7确定的所有候选词按照存储单元1存储的词频由大到小的顺序输出。
本发明所述系统优选实施方式,所述音节划分单元是按动态规划算法进行音节划分。当然,本发明实施例所述按音节划分还可以同时采用动态规划算法和音节数量最少原则进行划分。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (11)

1、一种计算机汉字输入方法,其特征在于,包括以下步骤:
按音节划分接收到的拼音串;
提取每个音节的首字母组成简拼字符串;
在预先建立的简拼字符串到全拼字符串映射表中查找出所述简拼字符串对应的所有全拼字符串;
根据所述全拼字符串输出对应的候选词。
2、根据权利要求1所述的计算机汉字输入方法,其特征在于,在预先建立的简拼字符串到全拼字符串映射表中查找出所述简拼字符串对应的所有全拼字符串后包括步骤:
确定上述所有全拼字符串与该接收的拼音串相匹配的各全拼字符串;
根据上述各全拼字符串输出对应的候选词。
3、根据权利要求1或2所示的计算机汉字输入方法,其特征在于,所述所有候选词是按照词频由大到小的顺序排列。
4、根据权利要求3所述的计算机汉字输入方法,其特征在于,所述词频是预先用文本统计所述候选词的出现频率。
5、根据权利要求3所述的计算机汉字输入方法,其特征在于,所述简拼字符串到全拼字符串映射表具体为简拼字符串与通过所述简拼字符串扩展的全部全拼字符串之间的关系对照表。
6、根据权利要求1所述的计算机汉字输入方法,其特征在于,所述按音节划分接收的拼音串具体为按动态规划算法划分该接收到的拼音串的音节。
7、根据权利要求1所述的计算机汉字输入方法,其特征在于,所述确定上述所有全拼字符串与该接收的拼音串相匹配的各全拼字符串,具体为:
将查找到的所述简拼字符串对应的所有全拼字符串逐个与该接收到的拼音串相比较,确定与该接收的拼音串相匹配的各全拼字符串。
8、一种计算机汉字输入系统,其特征在于,该系统包括:
存储单元,用于存储简拼字符串到全拼字符串映射表和全拼字符串到候选词映射表;
接收单元,用于接收用户输入的拼音串;
音节划分单元,用于按音节划分所述接收单元接收的拼音串;
简拼提取单元,用于提取所述音节划分单元划分后的拼音串中的每个音节的首字母,组成简拼字符串;
第一查找单元,用于根据所述存储单元中存储的简拼字符串到全拼字符串映射表,查找出与所述简拼提取单元生成的简拼字符串对应的所有全拼字符串;
第二查找单元,用于根据所述存储单元中存储的全拼字符串到候选词映射表,查找出所述第一查找单元确定的所有全拼字符串对应的所有候选词;
输出单元,用于输出所述第二查找单元确定的所有候选词。
9、根据权利要求8所述的计算机汉字输入系统,其特征在于,所述系统进一步包括比较单元;
所述比较单元,用于比较所述接收单元接收的拼音串与所述第一查找单元查找出的所有全拼字符串,确定相匹配的各全拼字符串;
所述第二查找单元,用于根据所述存储单元中存储的全拼字符串到候选词映射表,查找出所述比较单元确定的各全拼字符串对应的所有候选词;
所述输出单元,用于输出所述第二查找单元确定的各全拼字符串对应的所有候选词。
10、根据权利要求9所述的计算机汉字输入系统,其特征在于,该系统还包括:
词频单元,用于记录候选词的词频;
所述输出单元将所述第二查找单元确定的所有候选词按照所述词频单元记录的候选词词频顺序进行输出。
11、根据权利要求8至10任一所述的计算机汉字输入系统,其特征在于,所述音节划分单元是按动态规划算法进行音节划分。
CNB2007101108511A 2007-06-12 2007-06-12 一种计算机汉字输入方法及系统 Active CN100565525C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2007101108511A CN100565525C (zh) 2007-06-12 2007-06-12 一种计算机汉字输入方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2007101108511A CN100565525C (zh) 2007-06-12 2007-06-12 一种计算机汉字输入方法及系统

Publications (2)

Publication Number Publication Date
CN101075262A true CN101075262A (zh) 2007-11-21
CN100565525C CN100565525C (zh) 2009-12-02

Family

ID=38976313

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2007101108511A Active CN100565525C (zh) 2007-06-12 2007-06-12 一种计算机汉字输入方法及系统

Country Status (1)

Country Link
CN (1) CN100565525C (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102298448A (zh) * 2011-07-29 2011-12-28 北京大学 一种汉字输入方法
CN102736741A (zh) * 2011-04-12 2012-10-17 腾讯科技(深圳)有限公司 一种汉字的拼音输入方法及系统
CN102982118A (zh) * 2012-11-09 2013-03-20 北京奇虎科技有限公司 一种基于收藏夹的搜索方法和装置
CN103176616A (zh) * 2011-12-21 2013-06-26 北京大学 古琴减字谱字符的输入方法和装置
CN103823814A (zh) * 2012-11-19 2014-05-28 腾讯科技(深圳)有限公司 一种信息处理方法及装置
CN104102661A (zh) * 2013-04-09 2014-10-15 重庆新媒农信科技有限公司 一种拼音流切分方法及系统
CN102147796B (zh) * 2010-02-05 2014-10-15 阿里巴巴集团控股有限公司 一种词汇检索方法及其装置
CN104345896A (zh) * 2013-07-31 2015-02-11 淘宝(中国)软件有限公司 拼音文字词组输入方法及系统
CN104991656A (zh) * 2015-06-11 2015-10-21 周连惠 一种输入汉语词组的方法
CN107132927A (zh) * 2016-02-29 2017-09-05 北京搜狗科技发展有限公司 输入字符的识别方法及装置和用于识别输入字符的装置
CN104102661B (zh) * 2013-04-09 2018-02-09 重庆新媒农信科技有限公司 一种拼音流切分方法及系统
CN108874170A (zh) * 2017-05-08 2018-11-23 北京搜狗科技发展有限公司 一种输入方法及装置
CN109901725A (zh) * 2017-12-07 2019-06-18 北京搜狗科技发展有限公司 一种拼音串切分方法和装置
CN110333787A (zh) * 2019-04-28 2019-10-15 华为技术有限公司 输入字符的方法和装置
CN110597800A (zh) * 2018-05-23 2019-12-20 杭州海康威视数字技术股份有限公司 一种注释信息确定、前缀树构建方法及装置
CN112925469A (zh) * 2021-03-31 2021-06-08 维沃移动通信有限公司 内容显示方法、装置、存储介质及电子设备
CN115905297A (zh) * 2023-01-04 2023-04-04 脉策(上海)智能科技有限公司 用于检索数据的方法、设备和介质

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102147796B (zh) * 2010-02-05 2014-10-15 阿里巴巴集团控股有限公司 一种词汇检索方法及其装置
CN102736741A (zh) * 2011-04-12 2012-10-17 腾讯科技(深圳)有限公司 一种汉字的拼音输入方法及系统
CN102298448B (zh) * 2011-07-29 2013-04-17 北京大学 一种汉字输入方法
CN102298448A (zh) * 2011-07-29 2011-12-28 北京大学 一种汉字输入方法
CN103176616A (zh) * 2011-12-21 2013-06-26 北京大学 古琴减字谱字符的输入方法和装置
CN102982118B (zh) * 2012-11-09 2017-04-19 北京奇虎科技有限公司 一种基于收藏夹的搜索方法和装置
CN102982118A (zh) * 2012-11-09 2013-03-20 北京奇虎科技有限公司 一种基于收藏夹的搜索方法和装置
CN103823814A (zh) * 2012-11-19 2014-05-28 腾讯科技(深圳)有限公司 一种信息处理方法及装置
CN103823814B (zh) * 2012-11-19 2017-12-01 腾讯科技(深圳)有限公司 一种信息处理方法及装置
CN104102661A (zh) * 2013-04-09 2014-10-15 重庆新媒农信科技有限公司 一种拼音流切分方法及系统
CN104102661B (zh) * 2013-04-09 2018-02-09 重庆新媒农信科技有限公司 一种拼音流切分方法及系统
CN104345896A (zh) * 2013-07-31 2015-02-11 淘宝(中国)软件有限公司 拼音文字词组输入方法及系统
CN104345896B (zh) * 2013-07-31 2018-02-06 淘宝(中国)软件有限公司 拼音文字词组输入方法及系统
CN104991656B (zh) * 2015-06-11 2018-12-21 浦江开丰广告设计有限公司 一种输入汉语词组的方法
CN104991656A (zh) * 2015-06-11 2015-10-21 周连惠 一种输入汉语词组的方法
CN107132927B (zh) * 2016-02-29 2022-04-01 北京搜狗科技发展有限公司 输入字符的识别方法及装置和用于识别输入字符的装置
CN107132927A (zh) * 2016-02-29 2017-09-05 北京搜狗科技发展有限公司 输入字符的识别方法及装置和用于识别输入字符的装置
CN108874170A (zh) * 2017-05-08 2018-11-23 北京搜狗科技发展有限公司 一种输入方法及装置
CN108874170B (zh) * 2017-05-08 2023-05-23 北京搜狗科技发展有限公司 一种输入方法及装置
CN109901725B (zh) * 2017-12-07 2022-05-06 北京搜狗科技发展有限公司 一种拼音串切分方法和装置
CN109901725A (zh) * 2017-12-07 2019-06-18 北京搜狗科技发展有限公司 一种拼音串切分方法和装置
CN110597800A (zh) * 2018-05-23 2019-12-20 杭州海康威视数字技术股份有限公司 一种注释信息确定、前缀树构建方法及装置
CN110333787A (zh) * 2019-04-28 2019-10-15 华为技术有限公司 输入字符的方法和装置
CN112925469A (zh) * 2021-03-31 2021-06-08 维沃移动通信有限公司 内容显示方法、装置、存储介质及电子设备
CN115905297A (zh) * 2023-01-04 2023-04-04 脉策(上海)智能科技有限公司 用于检索数据的方法、设备和介质
CN115905297B (zh) * 2023-01-04 2023-12-15 脉策(上海)智能科技有限公司 用于检索数据的方法、设备和介质

Also Published As

Publication number Publication date
CN100565525C (zh) 2009-12-02

Similar Documents

Publication Publication Date Title
CN101075262A (zh) 一种计算机汉字输入方法及系统
CN1113305C (zh) 语言处理装置和方法
CN1316707A (zh) 数据压缩与检索方法和数据检索设备及记录媒体
CN1133127C (zh) 文件检索系统
CN1161701C (zh) 语言识别装置和语言识别方法
CN1330333A (zh) 汉语输入变换处理装置及输入变换处理方法和记录介质
CN1180369C (zh) 输入字符串的设备和方法
CN1471029A (zh) 自动检测文件中搭配错误的系统和方法
CN1761958A (zh) 用于查找串的方法和设备
CN101067766A (zh) 输入法中取消字符串的方法及文字输入系统
CN1781102A (zh) 低速存储器判定树
CN101030267A (zh) 自动问答方法及系统
CN1752934A (zh) 编译器、编译方法以及编译程序
CN1910573A (zh) 用来识别并分类命名实体的系统
CN1627294A (zh) 用学习数据有效提取检索者合意的文档的过滤方法和设备
CN1702650A (zh) 用于将日文翻译成中文的设备和方法以及计算机程序产品
CN101038508A (zh) Gb拼音输入法
CN1256650C (zh) 一种中文整句输入法
CN1315722A (zh) 用于汉语语音识别系统的连续语音处理方法和装置
CN1737739A (zh) 基于英文键盘的藏文输入法
CN1257458C (zh) 数据错误检测方法和装置
CN101067809A (zh) 独立词切分
CN1186711C (zh) 蒙古文输入方法
CN1851642A (zh) 一种接口数据文法分析处理系统及其分析处理方法
CN1203390C (zh) 在具有精简键盘设备上语音输入汉字的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: SHENZHEN SHIJI LIGHT SPEED INFORMATION TECHNOLOGY

Free format text: FORMER OWNER: TENGXUN SCI-TECH (SHENZHEN) CO., LTD.

Effective date: 20131021

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 518044 SHENZHEN, GUANGDONG PROVINCE TO: 518057 SHENZHEN, GUANGDONG PROVINCE

TR01 Transfer of patent right

Effective date of registration: 20131021

Address after: 518057 Tencent Building, 16, Nanshan District hi tech park, Guangdong, Shenzhen

Patentee after: Shenzhen Shiji Guangsu Information Technology Co., Ltd.

Address before: 2, 518044, East 410 room, SEG science and Technology Park, Zhenxing Road, Shenzhen, Guangdong, Futian District

Patentee before: Tencent Technology (Shenzhen) Co., Ltd.