零记忆简单子字拆分输入法
技术领域
本发明属于汉字输入法,具体涉及一种零记忆简单子字拆分输入法,适用于计算机汉字输出。
背景技术
目前的汉字输入法主要有五笔输入法、拼音输入法等。五笔输入法重码少,输出速度快,但是字根难记,还要非常熟悉字根在键盘上的布局,除了专业的打字员以外,很少有人认真学习五笔输入法;拼音输入法,不需要记字根,只需要知道汉字的读音就可以打出汉字,但是汉字的同音字很多,用户使用拼音输入法,需要选字,汉字的输出速度比较慢;现在的汉字音型输入法,需要用户记忆一些规则,虽然型码比五笔少,但是也有几十个之多,同样存在记忆麻烦。
本人在中国申请了申请号为:200910191043.1,名称为零记忆汉字编码输入法的发明专利,该零记忆汉字编码输入法拆分出来的是最大子字,虽然不需要记忆字根编码,甚至有的汉字不认识,仍然能够编码,输出汉字,但是该输入法不能保证对任意汉字编码输出,如“密”字,拆分出两个最大子字是“宓”和“山”,但是如果不认识“宓”字,就不能快速输出“密”字。由此可知该输入法拆分出来的最大子字,生僻字较多,要想快速输出汉字,在一定程度上要求用户有良好的识字基础。
发明内容
本发明所要解决的问题在于提供一种能够轻松输出汉字的零记忆简单子字拆分输入法。
为达到上述目的,本发明提供一种零记忆简单子字拆分输入法,使用通用电脑键盘中的英文字母键输出汉字,其关键在于:按书写顺序对汉字进行拆分,拆分出简单子字,要求顺序拆分出的简单子字笔画数尽量多,且简单子字最少,取顺序拆分出的简单子字的拼音首字母,顺序组合组成三位键汉字编码,每个三位键汉字编码对应相应的一个或几个单个的汉字,选择需要输出的汉字,所述简单子字拆分编码具体步骤如下:
(1)按书写顺序对要输出的汉字进行拆分,当汉字为不可拆分字时,顺序取该汉字拼音首字母、拼音次字母和第三个拼音字母,顺序组成三位键汉字编码;
如果汉字只有一个拼音字母时,则规定该汉字的三位键汉字编码的拼音次字母、拼音末字母与拼音首字母相同;
如果汉字只有两个拼音字母时,则规定该汉字的三位键汉字编码的拼音末字母与拼音次字母相同;
按照本发明的输入法,不可拆分的汉字较少,可以用三位键汉字编码对不可拆分的汉字进行编码,提高输出效率。
(2)当汉字仅含有一个简单子字时,顺序取简单子字拼音首字母、汉字首笔画编码、汉字末笔画编码,顺序组合组成三位键汉字编码;
(3)当汉字含有两个简单子字时,顺序取第一个简单子字拼音首字母、第二个简单子字拼音首字母和汉字末笔画编码,顺序组合组成三位键汉字编码;
(4)当汉字含有三个及三个以上简单子字时,顺序取第一个简单子字拼音首字母、第二个简单子字拼音首字母、最后一个简单子字拼音首字母,顺序组合组成三位键汉字编码。
(5)对常用汉字,在三位键编码的基础上,再取汉字三位键编码的第一码或前两码,组成汉字输出简码。
有关汉字拆分的几个定义、术语:
汉字部件:对汉字进行拆分,拆分出来的每一个拆分单元,包括部首、汉字、笔画等,统称汉字部件。
子字:对汉字进行拆分,如果拆分出来的汉字部件是一个汉字,则该汉字部件称为子字。
简单子字(必须满足下列条件之一):
(1)对汉字进行拆分,当拆分出来的子字的笔画数在二至五画之间(含二画、五画),这样的子字,是简单子字,这种简单子字,称为汉字型简单子字。
(2)指定的常用部首,也是简单子字。这种简单子字,称为部首型简单子字。
(3)当成字部首作为汉字左偏旁部首时,该成字部首也是简单子字。这种简单子字,称为成字型简单子字。
不可拆分字:用于拆分的汉字,如果不含有简单子字,则这种汉字称为不可拆分字。
例如:“永”是不可拆分字,而“计”不是不可拆分字,可以拆分为“讠”和“十”。
汉字拆分规则如下:
规则1:简单子字,不能再拆分。
规则2:“曰”,“日”,作为简单子字时,统一为“日”字,编码为:R;“口”,“囗”,作为简单子字时,统一为“口”字,编码为:K;“子”,“孑”,作为简单子字时,统一为“子”字,编码为:Z。
规则3:(取大优先)对汉字进行拆分,要求顺序拆分出来的简单子字的笔画数尽量多,且简单子字最少。
例如:“先”,有两种拆分方法可以拆出简单子字,第一种:拆分出简单子字“十”、“兀”,第二种:拆分出简单子字“土”、“儿”,因为“土”的笔画数比“十”多;故采取第二种拆分方法。
又例如:“笾”,拆分为:“”和“边”,而不能拆分为:“”、“力”和“辶”。
根据本发明拆分出来的简单子字,基本都是很简单的常见的汉字,小学生都能够认识,记忆量小,降低了该本发明的应用门槛,利于实现汉字的输入法的普及。
汉字按书写顺序拆分,汉字的下列部首对应一位编码,下面这些常用部首,数量极少,其编码大多是助记词拼音首字母,通过助记词或者助记方法能够很快记住其编码。这些部首的编码如下表:
所述笔画与笔画编码的对应关系入下表:
名称 |
编码 |
说明 |
横笔画 |
H |
|
竖笔画 |
S |
|
撇笔画 |
P |
提笔画也归为撇 |
点笔画 |
D |
捺笔画也归为点 |
折笔画 |
Z |
勾笔画也归为折 |
如果要输出由两个及两个以上的汉字组成的词组,取词组中的汉字编码组成四位键词组编码;
(1)当词组含有两个汉字时,顺序取第一个汉字编码的前两码、第二个汉字编码的前两码,顺序组合,组成四位键词组编码;
(2)当词组含有三个汉字时,顺序取第一个汉字编码的第一码、第二个汉字编码的第一码、第三个汉字编码的前两码,顺序组合,组成四位键词组编码;
(3)当词组含有四个及四个以上的汉字时,顺序取第一个汉字编码的第一码、第二个汉字编码的第一码、第三个汉字编码的第一码和最后一个汉字编码的第一码,顺序组合,组成四位键词组编码。
单个三位键汉字编码与四位键汉字编码间不会出现重码,因而从整体上进一步降低了重码,且能够进一步提高汉字的输出速度。
本发明的显著效果是:记忆量小,重码少,能够简单快速的输出汉字及词组,降低了该本发明的应用门槛,利于实现汉字的输入法的普及。
具体实施方式
下面结合具体实施例对本发明作进一步详细说明。
一种零记忆简单子字拆分输入法,使用通用电脑键盘中的英文字母键输出汉字,按书写顺序对汉字进行拆分,拆分出简单子字,要求顺序拆分出的简单子字笔画数尽量多,且简单子字最少,取顺序拆分出的简单子字的拼音首字母,顺序组合组成三位键汉字编码,每个三位键汉字编码对应相应的一个或几个单个的汉字,选择需要输出的汉字,所述简单子字拆分编码具体步骤如下:
(1)按书写顺序对要输出的汉字进行拆分,当汉字为不可拆分字时,顺序取该汉字拼音首字母、拼音次字母和第三个拼音字母,顺序组成三位键汉字编码;
如果汉字只有一个拼音字母时,则规定该汉字的三位键汉字编码的拼音次字母、拼音末字母与拼音首字母相同;
如果汉字只有两个拼音字母时,则规定该汉字的三位键汉字编码的拼音末字母与拼音次字母相同;
如“么”字,其拼音为“me”,其三位键汉字编码为:MEE。
如果汉字含有两个以上拼音字母时,则规定该汉字的三位键编码为该汉字拼音的前三位;
如“片”字,其拼音为“pian”,根据定义,其三位键汉字编码为:PIA
(2)当汉字仅含有一个简单子字时,顺序取简单子字拼音首字母、汉字首笔画编码、汉字末笔画编码,顺序组合组成三位键汉字编码;
如“米”字,拆分出一个简单子字“木”,“木”读音“mu”,汉字首笔画编码D、汉字末笔画编码D,其三位键汉字编码为:MDD。
(3)当汉字含有两个简单子字时,顺序取第一个简单子字拼音首字母、第二个简单子字拼音首字母和汉字末笔画编码,顺序组合组成三位键汉字编码;
如“含”字,拆分出两个简单子字“今”、“口”,“今”读音“jin”,“口”读音“kou”,汉字末笔画编码H,其三位键汉字编码为:JKH。
(4)当汉字含有三个及三个以上简单子字时,顺序取第一个简单子字拼音首字母、第二个简单子字拼音首字母、最后一个简单子字拼音首字母,顺序组合组成三位键汉字编码。
如“程”字,拆分出三个简单子字“禾”、“口”、“王”,读音分别为“he”、“kou”、“wang“,其三位键汉字编码为:HKW;
如“嬴”字,拆分出五个简单子字“亡”、“口”、“月”、“贝”和“凡”,读音分别为“wang”、“kou”、“yue”、“bei”和“fan”,其三位键汉字编码为:WKF;
(5)对常用汉字,在三位键编码的基础上,再取汉字三位键编码的第一码或前两码,组成汉字输出简码。
另外,其他部分汉字拆分举例如下:
汉字 |
简单子字 |
米 |
木 |
报 |
扌卩又 |
播 |
扌木田 |
课 |
讠曰木 |
拼 |
扌开 |
洁 |
氵士口 |
坌 |
分土 |
卡 |
上卜 |
所述汉字按书写顺序拆分,指定的汉字的部首分别对应一位编码,指定的部首编码如下表:
把最常用的部首进行编码,简化输出,有利于提高输出的速度。
所述笔画与笔画编码的对应关系入下表:
名称 |
编码 |
说明 |
横笔画 |
H |
|
竖笔画 |
S |
|
撇笔画 |
P |
提笔画也归为撇 |
点笔画 |
D |
捺笔画也归为点 |
折笔画 |
Z |
勾笔画也归为折 |
如果要输出由两个及两个以上的汉字组成的词组,取词组中的汉字编码组成四位键词组编码;
(1)当词组含有两个汉字时,顺序取第一个汉字编码的前两码、第二个汉字编码的前两码,顺序组合,组成四位键词组编码;
如“语文”,“语”的三位键汉字编码是:IWK,“文”的三位键汉字编码是:WEN,因此“语文”的四位键词组编码为IWWE。
(2)当词组含有三个汉字时,顺序取第一个汉字编码的第一码、第二个汉字编码的第一码、第三个汉字编码的前两码,顺序组合,组成四位键词组编码;
如“计算机,其三个汉字的三位键汉字编码分别是:ISS、ZMC、MJZ,因此“计算机”的四位键词组编码为:IZMJ。
(3)当词组含有四个及四个以上的汉字时,顺序取第一个汉字编码的第一码、第二个汉字编码的第一码、第三个汉字编码的第一码和最后一个汉字编码的第一码,顺序组合,组成四位键词组编码。
例如:“汉字编码”,该四个汉字的三位键汉字编码依次是:LYD、BZH、SHC、SMH,所以,“汉字编码”的编码是:LBSS;
又例如:“中国人民解放军”,其编码为“中、国、人、军”每个字的编码的第一码组合,所以,“中国人民解放军”的编码是:KKRB。
词组码长为四码,单字码长为三码,所以词组与单字间不会产生重码,有利于降低重码率,同时将单字编码设定为三码,可以提高汉字拆分效率。
本输入法重码率低,输入速度快,只要有小学文化水平,都可以打出任意汉字,利于实现汉字输入法的快速普及。
对于上述实施例,仅是说明本发明,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。