CN1725156B - 汉字输入方法 - Google Patents
汉字输入方法 Download PDFInfo
- Publication number
- CN1725156B CN1725156B CN 200410070870 CN200410070870A CN1725156B CN 1725156 B CN1725156 B CN 1725156B CN 200410070870 CN200410070870 CN 200410070870 CN 200410070870 A CN200410070870 A CN 200410070870A CN 1725156 B CN1725156 B CN 1725156B
- Authority
- CN
- China
- Prior art keywords
- characters
- radicals
- traditional chinese
- representatives
- chinese dictionaries
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
- Input From Keyboards Or The Like (AREA)
Abstract
一种汉字输入方法,其中确定了8组笔划,每一组笔划由一个数字编为笔划码;选定了康熙字典部首之中的184个部首,每一个部首用两位数的数字编为部首码。对每个单独存在的汉字数字由一个数字键代表。该汉字输入方法的拆分汉字及取码规则是:按照书写该汉字的笔顺,如果遇到的是部首,则取部首码;如果遇到的不是部首,则取笔划码;取前4位数码以及尾2位数码完成取码;对于少于6位数码的汉字,取完数码即结束取码。该汉字输入方法可以只用十个数字键来完成汉字输入,这样操作方便,应用广泛,适用于电脑键盘,电话键盘及其它键盘。
Description
技术领域
本发明涉及一种汉字输入方法,特别是涉及一种只使用预定数量的键位(例如数字键)即可完成输入的汉字输入方法。另外,本发明还涉及一种适用于该汉字输入方法的键盘。
背景技术
随着信息技术的发展和普及,越来越多的人在使用或者学习使用输入汉字方法。迄今,已经有很多种汉字输入方法,例如,五笔画、二笔画、五笔字型、全拼音、紧缩拼音码、双拼双音、自然码、国标码、电报码等。现有技术的汉字输入方法存在各自的局限。有的汉字输入方法的规则不稳定,存在许多牵强的例外规定;有的汉字输入方法的原理复杂;不便于拆分汉字及取码。有的汉字输入方法需要记忆的内容太多,例如五笔字型就需要硬记大量字根,不易记忆学习。还有的汉字输入方法操作复杂,不适于推广应用。而且,现有的汉字输入方法大多只限于简体汉字或只限于繁体汉字的输入,而对繁体字和简体字的混合输入则没有涉及。
发明内容
为了解决现有的汉字输入法中的上述问题,本发明的目的是提供一种新型的汉字输入方法,具有规则稳定、原理简洁、容易记忆、操作方便和应用广泛的优点,而且还可以适用于输入繁体字或简体字。
根据本发明的汉字输入方法包括:
确定8组笔划,每一组笔划由一个数位编为笔划码;
选定康熙字典部首之中的184个部首,每一个部首用两位数的数字编为部首码;
对每个单独存在的汉字数字由一个数字键代表;
对所要输入的汉字按下列方式取码:按照书写该汉字的笔顺,如果遇到的是部首,则取部首码;如果遇到的不是部首,则取笔划码;取前4位编码以及尾2位编码完成对所述汉字的取码;对于少于6位编码的汉字,取完编码后即结束对所述汉字的取码;
对于词语的取码原则是:对于词语,取其第一个字的前4码,对少于4码的字,取完编码即完成该第一个字的取码;根据所述词语中的字数及标点符号数,取相应数目的第一通配符,词语中的字数多于8个的时候,通配符的数目一律只取8个;取该词语最后一个字的尾2码,如果从最后一个字只能得到一个码,则取该码,以组成所述词语的编码。
在本发明的一种实施方案中,所述8组笔划包括横,竖,勾,撇,点,交,分,及口,分别由对应的数字键代表。
在本发明的一种实施方案中,本发明用数字键代表单独存在的汉字数字,如壹,贰,叁,肆,伍,陆,柒,捌,玖,零。
在本发明的又一种实施方案中,在所述184个康熙部首中,将其中119个部首分成4类联想部首来编码,即人体类,动物类,民生类,和天文类;并且将剩余部首的其中61个所述部首按笔划来编码,再将剩余的少数4个所述部首用特别联想来编码。
本发明的其它优点、特征及优选的方案可以从下面结合附图的说明中更好地得到理解。
附图说明
图1为将本发明的笔划标示在电话按键上的示意图;
图2为将本发明的笔划标示在计算机数字键盘上的示意图;
图3为将本发明的输入法标示在计算机键盘上的示意图;
图4为将本发明的日本版输入法标示在计算机键盘上的示意图;
图5为本发明的京典笔划及部首编码编辑的关系图。
具体实施方式
为便于说明,本发明的汉字输入法被称为“京典输入法”。以下简称为“京典”或“本输入法”。其重要的特点之一是运用预定数量的字符来编码,因而可以减少对键位数量的需求。显然,本发明在用于只有数字键盘的设备中是具有优势的。以下结合附图,以采用数字进行编码的方式说明本发明的汉字编码和输入的优选实施方案。本领域的技术人员可以理解,尽管下文中采用的是数字编码的方式,但是如果用相应的字符代替数字进行编码,也是可以的。另外,在本说明书中,凡提及“国家”就是指“中华人民共和国”。
一、拆字取码的规则
根据本发明,“京典”所涉及的汉字包括“大五码第一字区”的5401个汉字,是繁体字。这5401个繁体字之内有237个也用作简体字的,例如:“干”本身是繁体字,但也代表“幹”或饼干的“乾”。另外有1731个繁体字有相对的简体字,是不在繁体字之内的,例如“邓”代表“鄧”,“泽”代表“澤”。在该实施方案中“京典”所涉及的就是上述总共7132个字。
根据本发明人的多项分析发现,上述5401个繁体字已经有很好的代表性。因此,在以下的描述中所涉及的统计数字,都是基于这5401个字。5401字之中包括167个常用又独立成字的“康熙部首”。因此,根据本发明的一个实施例,“京典”的字库只包括这5401字,基本满足中文写作的使用。这从另一方面也证明了上述5401字的代表性。
下面说明在本发明实施例中的拆字取码规则。例如,对于汉字“張”,可拆为“弓長”,“李”字可拆为“木子”。它们由两个“康熙部首”完整地组合而成,这样组成的汉字一共有886个,占16.40%。再看“誌,謝、談、詩、謎”这五个字,它们每个字都是用三个“康熙部首”完整地组合而成的(包括“言、土、心、身、寸、火、土、米、辶”)。再看“認、謬”两个字,它们由两个“康熙部首”带头,又由一个“康熙部首”押尾(包括“言、刀、羽、彡”),而带头和押尾之间有一些笔划。用三个“康熙部首”完整地组合或勾出轮廓的汉字,共有1798字,占33.29%。那么,运用不多于三个的“康熙部首”能够完整地组合或勾出轮廓的汉字就有167个部首,加上上述的886和1798字,共2851字,占52.79%,即大约占一半。“京典”的拆字取码规则即与这大约一半的字的组成有很大关系。
用“康熙部首”去拆字基本上没有问题,但是会出现对一个字有多种拆字方式的情况。例如“李”可拆为“木子”,也可拆为“十八子”,因为“十八”也是“康熙部首”。如果考虑“一丨、丿乙亅”这6个字“单笔划”的康熙部首,也可以将“李”拆为“一丨八子”。因此需要有一个适当的规则来拆字。
为此,根据本发明的一种方案,提出了一种新的拆字规则,包括:
(1)确定十个笔划部首,即“一丨丶丿乙亅十八亠口”;
(2)将除了这十个笔划部首之外的其余204个“康熙部首”定义为“表意部首”。
这样,上述大约占一半数量的汉字可以由不多于三个的“表意部首”组成或勾出轮廓,如此拆字就清楚无误了。
另外,有一组笔划在写字时要用到,但却不在上述十个“笔划部首”之中。例如“乃、丐、兮、专、吳、与、與、刁、司、也、典、央、了、之”。在这些字中包含了几个笔形“ㄋ、ㄅ、ㄣ、フ”。它们的笔势有共通处,就是顺勾(或叫顺折)。“京典”将这组笔划叫作“三字勾”;原因是“ㄋ”这一笔在手写的时候,往往和写“3”字相仿。例如“防、陈、部、郭”的“耳仔旁”和“3”字一模一样。“京典”将“3字勾”简称为“勾”。后文将说明,将其编码确定为“3”。“3字勾”连同上述十个“笔划部首”简称为“笔划”。
运用康熙“笔划”和“表意部首”去组合汉字就是“京典”的基础。以下将“表意部首”简称为“部首”。
每一个“笔划”用一个数字代表,称为“笔划码”。每一个“部首”用两个数字代表,称为“部首码”。如上所述,两个“表意部首”带头和一个“表意部首”押尾,可以完整地组合或勾划出大约一半的汉字。换言之,按照书写的顺序取前四码(两个部首)、尾两码(一个部首)就可以完整地组合或勾划出上述“大约一半”的汉字。
将该规则引伸到其它汉字就得出以下“京典”的“拆字取码规则”:
1、按照书写的顺序,“写”到部首就取“部首码”;不是部首就取“笔划码”。
2、取前4码,尾2码完成编码,共计6个码;对少于6个码的字,取完编码就结束。
“京典”的一个特点是用预定数量的符号来编码,优选采用十个数字即1,2,3,4,5,6,7,8,9,0编码。汉字也有10个数字:一二三四五六七八九零。当要求数字表示绝对正确的时候,例如写银行支票,就要用大字数字:壹贰叁肆伍陆柒捌玖零。“一”和“二”容易给修改成“三”,于是又使用“乙”和“两”代替“一”和“二”。在现在的中文文章之中,经常都使用1,2,3,4,5,6,7,8,9,0了。
“京典”也确认了阿拉伯数字可以用于在中文中表达数字。它们与“一二三…壹贰叁…乙两”基本上可以互换使用。如上所述,“汉字数字”包括:“一壹乙二贰两三叁四肆五伍六陆七柒八捌九玖零”。“汉字数字”以外的汉字称为“一般汉字”。于是:
“一壹乙”的编码都是“1”,“二贰两”的编码都是“2”,如此类推……“○零”的编码都是“0”。当这些字出现在汉字之内,作为特定汉字的一部分时,则一概不当作数字,而作为普通的汉字。它们还是要按照上述的“拆字取码规则”处理。例如:“些竺泗吾丸”字里面有“二四五九”。但是,它们不是独立的数字;于是,就一概按照“拆字取码规则”处理。
二、京典笔划码
京典笔划的“基础”是第一节所讲的十个康熙笔划部首,“一丨、丿乙亅十八亠口”,以及“3字勾”。它们的编码列于表2.1。其中,编码5和9不代表任何笔划。恰巧可以利用普通话谐音“5-无”。“9-走”去联想,从而将表内编码5和9对应的笔划名称定义为“无”和“走”。因此,京典笔划码实际只有8个。这8组笔划分为两种:第一种叫“单笔划”,共5组;第二种叫“复笔划”,共3组。
本输入法用到的所有笔划
每一个笔划都有一个编码,但是,反过来,每一个笔划编码是可以代表几个笔划的。几个笔划共享同一个编码的原因是基于“同款式、同系列”的概念。举“3字勾”为例:单勾的几种笔划“乛フ”是同款式的,吊勾的几种笔划也是同款式的,双勾的几种笔划“ㄋ ”又是同款的;而单勾、吊勾和双勾都带着“顺勾”的,不是反勾,“顺勾”就是同系列的共同点。从书写的角度看,“同款式”就是“笔势相同”;“同系列”就是几种款式或者笔势之间有共同点。
“京典”将笔划码运用“同款式、同系列”的概念归纳之后,只有8个;而8个笔划码又归纳为2组:第一组称为“单笔划”,包括“横竖勾撇点”5种笔划;第二组称为“复笔划”,包括“交分口”3种笔划。顾名思义,“单笔划”就是只有一笔的笔划,“复笔划”就是有多于一笔的笔划。
现在,将所有“同款式、同系列”的笔划收编入以上的“基础”表之中,就得出以下表2.2:京典笔划编码总表。以下再详细述说。
笔划的同款式,同系列概念
首先简单地介绍各组笔划选择数字去代表该笔划的原因,也为各个笔划款式起名(参看表2.3)。各个笔划本身都有已确定(非京典确定)的名称的。例如:“ㄋ”称为“横折折勾”,称为“横折折撇”,称为“横撇弯勾”,称为“横折折折”。“京典”将笔划归纳为17个笔划款式之后,从新给予17个名称。以下分别解释部首笔划。
举例-纯笔划组成的汉字47个
5041个繁体字之中用纯笔划组成的字,为数很少;表2.4之中的47个几乎是全部了。表内的数字是该字的编码。例如:串字拆成“口口丨”取码002,右字拆成“一丿口”取码140,上字拆成“丨一一”取码211,午字拆成“丿一十”,如此类推。在本发明的输入方法中,有一个很“自然”的规则:见到“复笔划”就不要取“单笔划”。例如上述的午字,要拆成“丿一十”即417,不应拆成“丿一一丨”即4112,取“复笔划”可以节省字的码数,因此是很“自然”的规则。
单笔划和复笔划的详细说明
进一步参看表2.5。单笔划“横竖勾撇点”的“同款式、同系列”的补充及说明,以便了解单笔划的应用。
继续参看表2.6:复笔划“交分口”的“同款式、同系列”的补充及说明,看了这个表,还需要看表2.7:运用复笔划的规则。本输入法对3个“复笔划”的“款式”的限制是很严格的,所以,款式很少,每一个款式之中的不同形态也极少;复笔划很“纯净”。运用这3个“复笔划”也有严格限制。严格限制的效果是:运用复笔划去编码的时候,思考起来简洁。
表2.5和2.6之中的字例,大部分是在表2.4之中选取的:每个例字的编码连同该字一并列出;其它牵涉部首的例字不列出编码。
补充一个关于“复笔交分口”的概念。易经以五为天,十为地,易经时代的五字是乂。在本输入法中,乂的编码是8,十的编码是7,用本输入法可以有“分8为天”,“交7为地”的概念。“口”可以想象为一个圆圈-围着天地的圆圈。那么,本输入法的“复笔交分口”就可以联想成为一个很简单的“太极图”。
三、京典部首码
京典制作部首码的“蓝图”总结在图5中。本节的说明将围绕着这个京典笔划及部首编码编辑关系图。
排除20个毋需编码的部首之后,就可以确定184个“康熙部首”为“京典部首”。
上文所述的204个表意部首中的20个是不需要“刻意”地编码的;它们算是“隐形”或是“无形”,下面将会说明。余下来就只有184个是要“刻意”地编码的。请参看下表3.1。
表3.1:“隐形部首”、“无形部首”和“京典部首”
隐形部首
关于18个“隐形”的部首。运用“京典笔划码”以及“拆字取码规则”可以将204个表意部首之中的18个用两个笔划码编码。举几个例子说明:“干”字,运用京典笔划拆成“一十”,编码17。“小”字,运用京典笔划拆成“亅ハ”,编码28。“二“字独立使用时当作数字,取码2;在汉字结构之中出现时,运用京典笔划取码“一一”11,例如“竺”字,取码“一一”“11”。再用“加”字做例子,当作全笔划取码,拆成“丿口”取码340就是了;查康熙字典的时候,“加”从力部;虽然知道“力”是一个常用的康熙部首,但是,运用本输入法,见到“力”就当是看到“笔划”,那么,“力”这个部首就算是“隐形”了。以上18个“隐形部首”,使用者“不需要”去记得它们是“表意部首”,大可以视而不见,把它们当作隐形。
见到“隐形部首”就当是见到“笔划”。这里要补充一下:18个“隐形”的部首之中的“刀”和“卩”在康熙部首里是规定了变体的:刂从刀,从卩。它门各自按书写的笔划取码:刀34(刂22)卩32(36)。康熙字典卩部有10个字包含其中常用字只有两个:“危卷”。(这是要说明一点,康熙部首是不考虑部首的使用量是多是少的。)
无形部首
两个完全没有实用价值的部首,称为“无形部首”,是“不需要”去记得的,说明如下。
1)“夂”是“峰逢”的顶上。“夊”是“夏”字的底下。“夂”和“夊”的字形很难分辨,不加研究是不知道它们其实是两个部首的。而且,很多普及的字典已经删除了“夊”,或者说“将夊合并入“夂”。“夊”是完全没有实用价值的部首了。使用者见“夊”如见“夂”即可。
2)“鬯”这个康熙部首,只出现在5401字之中的一个“鬱”字里,而按照“京典拆字取码规则”,“鬯”又不在“鬱”字的取码之中;“鬯”字也不在5401字之中。即是说,在京典拆字取码的过程之中,根本没有用过“鬯”字,使用者当然是“不需要”去记得它的。要用到“鬯”,就当是一个一般汉字去拆字取码就是了。
“鬯”和“夊”在本输入法分析5401字之中确实完全没有用过,是“无影无形”的。所以,它们称为“无形部首”。
京典部首
余下来的表意部首就有204-18-2=184个。这184个表意部首有拆字取码的实用价值。京典不考虑它们的使用量是多是少,一律为它们编码,称这184个表意部首为“京典部首”。
这184个“京典部首”分为两部分去编码,参看表3.2:
1.分类联想编码:“京典”运用“分类联想”编排其中119个,占184个的64.7%,称为“分类联想编码”。
2.笔划组合编码:“京典”运用“笔划组合”编排其中61个。其余4个的编码和这61个之中的4个有个别联想关系。这61+4=65个部首的编码统称为“笔划组合编码”。
表3.2:京典部首编码分为“分类联想编码”和“笔划组合编码”
“京典部首编码”就是为每一个“京典部首”编两个数字去代表,这两个数字就是“京典部首码”简称“部首码”。每一个部首都具有两个数字的编码,但是,反过来,一个编码也可以代表几个部首。例如:88代表“父母生子女谷”6个部首。结果,京典部首有184个,但是,部首码只有60个;平均大概3个部首共享一个两位数字的部首码。京典发现,60个部首编码,对于平衡本输入法系统的整体效益,是颇为理想的。以下分别讲述“分类联想编码”,和“笔划组合编码”。
分类联想编码
分类联想编码是将119个相关的部首,分为4类“身体,动物,民生,天文”去联想的,请参看下表。这4类的编码次序相对于人而言是由近而远的:身上所有-身体,身边所见-动物,切身所倚-民生,身外遥遥-天文。
这几类部首的编码都是顺序的,由小到大:身体类的部首由0开头,动物类的部首由2开头,民生类的部首由8开头,天文类的部首由9开头。这几类部首由0,2,8,9,开头是本输入法的刻意安排,本意是要得出一个汉字编排的“可读”索引,而副作用是可以令操作本输入法可以舒适方便地运用手指,又避免重码。119个分类联想编排的部首分布在38个编码。
本输入法用“身体,动物,民生,天文”这4类去归纳康熙部首,效果是很好的。例如“动物类”的“壟虎馬鹿牛羊隹犬豸豕魚蟲鼠鳥”16个部首,就是康熙部首代表动物的全部。其余“身体,民生,天文”3类所收集的部首,也很接近该类的全部。收集同类部首,是本输入法运用分类联想的第一步。
表3.3:分类联想编码分为4类-“身体类”,“动物类”,“民生类”和“天文类”(注:表内“宇宙七政”的“七政”即是“日月和金木水火土五星”。表内″父″字不属于分类联想编码。)
进一步举例说明分类联想。例如:鼻是可以拆成“自田廾”的,所以,“自田廾”这3个部首和“鼻”这一个部首归纳在一起,“鼻自田廾”的编码相同,都是06。进一步联想的形式并不是单一的,各个字按照其字义,字形或者字构作适当的联想。总之“身体,动物,民生,天文”这4类的部首和进一步联想的部首合共有119个,收集在表3.3之中。以下,将要说明这119个部首如何运用联想去编码。请注意,对每一类部首的讲解都是有一套简单易记的“主题概念”去引导使用者联想的。
身体类联想部首-32个
身体类部首联想的主题概念(请参看表3.4):
1、身体类首先想到:手脚、眼耳口鼻、皮毛骨血、(有)头(有)面、身心(康泰)。
2、身体类部首的顺序排列是:01手,02“脚”,03“眼”,04耳,05“口”,06鼻,07皮毛骨血,08“頭”面,09身心。
3、主题概念之中的“脚”,“眼”和“頭”都不是部首,但是由以下的部首代表。
4、“足止疋”是部首,是“脚”的意义,于是,02“脚”的位置就交给“足止疋”了。
5、“目”是部首,是“眼”的意义,于是,03“眼”的位置就交给“目”了。
6、“首頁”是部首,是“頭”的意义,于是,08“頭”面,的位置就交给“首面頁”了。
7、“口”已经由复笔划编码0代表了,于是,05“口”的位置就交给口里面的“舌牙齒”了。
表内有两栏说明,其一关于直接代表该类别的部首,其二关于进一步联想的部首。以下为其余三类部首的说明情况相类似。
表3.4:身体类部首联想的简略说明
动物类联想部首-23个
动物类部首联想的主题概念(请参看表3.6):
1、动物类首先想到:壟馬牛羊雞犬豬魚蟲鳥。
2、动物类的主题概念的顺序排列就是:20龍,21馬,22牛,23羊,24雞,25犬,26豬,27魚,28蟲,29鳥。
3、主题概念之中的“雞”,“豬”和“蟲”都不是部首,但是有以下的部首代表。
4、“隹”是部首,是“短尾鸟”的意义(雞是短尾鸟,所以雞的字构从隹部),于是,24“雞”的位置就交给“隹”了。
5、“豕”是部首,是“豬”的本义,于是,26“豬”的位置就交给“豕”了。
6、“虫”是部首,是“蟲”的简体,于是,28“蟲”的位置就交给“虫”了。
表3.5:动物类部首联想的简略说明
民生类联想部首-44个
民生类部首联想的主题概念(请参看表3.6):
1、民生类首先想到:衣食住行、父母生子女、人……。
2、“食”要扩充成3个部首去编码“食米麥”。米和麦是中国南方和北方的主要粮食。
3、“住”要扩充成3个概念去编码:“家、庭、(住户)”。家、庭、住户-顺序。
4、“父母生子女”是民生之中最重要的部分:人伦。
5、“人”,新生命就是“父母生子女”的结果。
6、民生类主题概念的顺序排列就是:80衣81食82米83麥84宀(家字头)85广(庭字头)86户(住户的户)87行88父母生子女89人。(注:“父”属于隐形部首,在联想“父母生子女”之中欠了“父”字,联想就欠妥了。父字是不计算在119个联想部首之中的。)
7、主题概念之中的“家”和“庭”都不是部首,但是有以下的部首代表。
8、“宀”是部首,是“家字头”的意义,于是,84“家”的位置就交给家字头“宀”了。
9、“广”是部首,是“庭字头”的意义,于是,85广(庭字头)的位置就交给“广”了。
表3.6:民生类部首联想的简略说明
天文类联想部首-20个
天文类部首联想的主题概念(请参看表3.7):
1.天文类的主题概念就是:日月金木水火土。
2.天文类主题概念的排列顺序是:90日91月92金93木94水95火96土。
表3.7:天文类部首联想的简略说明
日本人将“金木水火土”排成“火水木金土”
以下表3.8描述了日本对星期一、星期二……的叫法。可见,日本人将“金木水火土”排成“火水木金土”。因此,本输入法的日本版,以上“金92木93水94火95”的编码,就要转成“火92水93木94金95”。
表3.8:日本用“日月火水木金土”去命名一星期的七天
中国的叫法 | 星期一 | 星期二 | 星期三 | 星期四 | 星期五 | 星期六 | 星期日 |
日本的叫法 | 月曜日 | 火曜日 | 水曜日 | 木曜日 | 金曜日 | 土曜日 | 日曜日 |
总结分类联想编码和编码实例
到此为止,可以将119个分类联想编码的部首总结,请参看表3.9,表3.9即是119个京典分类联想编码部首的编码结果。
表3.9运用“分类联想”编排的119个部首-编码总览
例如,前面讲的“木子李”的编码:按照表3.9,木编码93,子编码88,李的编码就是9388了。
类似地,“弓長”張的張字编码是3112,因为弓的编码是31,長的编码是12,但是,弓和長是运用笔划组合部首编码的,在表3.9找不到,以下就说明笔划组合部首编码。
笔划组合部首编码
184个京典部首之中的119个已经运用联想给予编码了。如果将余下65个部首编码,之后,则所有一般汉字就可以进行拆字取码了。这65个部首之中的61个是运用该部首的笔划编码的,其余4个运用个别联想编码。这65个部首共享了22个部首码。表3.10显示了这65个部首分为4类进行编码。以下就说明该4类。
表3.10:运用笔划组合编码的65个部首
第一类:用首两笔编码的部首(共56个)占了65个部首之中的大部分(86%)。例如:“豆鬲”起笔的笔划是“一口”笔划码10,“豆鬲”的部首码就编为10;“西酉”起笔的笔划是“一囗”笔划码100(“囗”是部首围口,部首码是00),截取头两个数字,“西酉”的部首码就编为10了。如此类推。这56个部首的笔划字形大部分都很稳定。取笔划优先是按照康熙部首的正体字形处理,但是也有少数几个例外,以下进一步说明。
1)这一项与4个部首有关。部首有正体和变体的,以下选择依照康熙字典正体笔划取码,这是正常的优先处理方式:
長,镸,长-按照正体字“長”取码12。
歹,-按照正体字“歹”取码14。
ヨ,彑-按照正体字取码31。
巛,巜,川-按照正体字“巛”取码44。
2)这项与4个部首有关。部首有正体和变体的,以下选择依照康熙部首的变体笔划取码,这是由于康熙的变体比正体常用得多,例如其中3个部首“阜、邑、艸”,在汉字之中,几乎全部都是用变体“阝阝”而不用正体“阜邑艸”的,而且“阝(在左)、阝(在右)”共享相同的编码可以避免思想混乱:
艸,(康熙部首的草头,不是简体字的草头)按照康熙变体的笔划“十十”取码77。
3)这项与两个部首有关。国家对部首的笔划有实用性修正的,按照国家规定:
用-国家标准“用”的首笔是竖丨,不是撇丿,所以编码是23,而不是43。(实际上,用字在汉字结构之中,大多数是写竖起笔的。)
鬼-国家标准的新字型“鬼”第六笔从“白”中直接撇下成为一笔的,旧字型“鬼”的“田”与紧接的“撇”是分开两笔的,于是“鬼”的取码与“白”相同,拆成“丿日”编码是490,截取前两个数字49作为部首码。(鬼字若果依据康熙字典字形,编码就会是40;依据康熙字典字形能够保持本输入法依据康熙字典统一中日韩汉字的编码的统一性,值得考虑:本输入法日后有权为此修改编码。)
4)附注:以下三个字“黄(黄)、鹵(卤)、齊,齐,”虽然有繁简和日本汉字之分,但是首两笔的繁、简和日本汉字写法相同,所以整个字的繁简或日本笔划变化不影向编码。
第二类:用最末两笔编码的部首有4个,这4个部首用最末两笔编码更佳。其中“尢(尤兀)、无”适宜共享编码46,“殳”取码36和隐形部首“又”相同:这样可以避免思想混乱。其中“禸”细心研究起来算是康熙字典的变体,无论如何,京典选择“禸”(符合手写习惯)的笔划,取码46,而不取正体“禸”的笔划。
第四类:有4个部首运用个别联想去编码:
“屮”-视为半个草花头“艸”-取码与“艸”相同-77。
“竹”-草花头和竹花头,京典刻意地将它们排列在一起。“草花头”的编码是77,“齊”的编码是78,那么“竹”就顺“草齊竹”的次序取码79。
“黑”-京典将“黑”和“白”编在相邻的位置。“白”的编码是49。一般口语是说“黑白黑白”的,所以,黑的编码就是48了。(黑白双生,尤如阴阳双生,日月相邻。)
有需要将和“青”字合编在一起。编码71,原因是要给 这一批“横撇提”难分的偏傍全部联想到青字头和字芯一概取码71。而且,有很多情况,很难分是还是的,例如“害”字芯(正字和印刷体从“丰”,手写可以从)。“青 ”统一编码71就可以避免取码思想的混乱。
说到这里,可以进一步说明上文提及京典运用分类联想编码可以“避开了要研究部首的各种不同体栽的不同笔划”的概念。以上笔划稳定的65个部首尚且有几个字要订定有说服力的取舍理由,其余用联想方法编码的119个部首,若改用笔划编码的话,其取舍理由肯定会是繁复不已的,应当予以避免。因此,本输入法运用“联想编码”是有很多优点的。
表3.11是65个笔划组合编码的部首的总结。由于“隐形部首”是被当作笔划去取码的,所以,它们也被列入这个表之中。可见本输入法对查字典有用的部首都予以了编码,“隐形部首”虽然毋需刻意编码,但是,不经意地,它们已经有了两位数字的编码。
表3.11:65个笔划组合编码部首的总表
将“联想编码的部首”和“笔划组合的部首”合并,即得出表3.12“京典部首码总表”。运用这个“京典部首码总表”的编码,加上前一节说明的8个“京典笔划码”,所有汉字都可以拆字取码。
表3.12:京典部首码总表
拆字取码实例
本说明书第一节提及的几个字:“張、誌、謝、談、詩、謎、認、謬”,现在可以示范拆字取码了。
首先在表3.13检查出相关部首的编码:
弓31,長12,言05,士93,心09,身09,寸12,火95,
土97,米82,辶87,刀34,羽29,彡44。
然后按照“拆字取码规则”拆字取码,取码列于表3.13:
表3.13:拆字取码实例
字 | 拆成部首 | 取码 | 字 | 拆成部首 | 取码 |
張 | 弓長 | 3112 | 詩 | 言土寸 | 059612 |
志 | 言士心 | 059609 | 謎 | 言米辶 | 058287 |
謝 | 言身寸 | 090912 | 認 | 言刀心 | 053409 |
談 | 言火火 | 099595 | 謬 | 言羽彡 | 052944 |
拆字取码遇到的疑难
拆字取码是会遇到疑难的。疑难来自4类:
1.字有不同的写法;
2.字的组合有超过一种的可能组合。
3.部首有各种不同体裁要确定,简单讲是有正体和变体之分;
4.部首取半码的情况
解决第一和第二类疑难问题属于文字结构学的范围,与本输入法的方法无关。
第三和第四类是属于运用本输入法的规则,以下补充说明。
部首有正体和变体的
“京典”关于184个“京典部首”最重要的一项规则是:
所有部首的变体都视为部首看待,取码与部首正体相同。
例如:“衣,衤”是部首“衣”,不论书写的体栽,编码都是“80”,;“食,饣,”是部首“食”,不论书写的体栽,编码都是“81”。“言讠”都是部首“言”,以上拆字取码运用繁体“言”部的几个字做例子,若果改用简体去写,用了“讠”傍代替“言”,拆解的程序和编辑都是和繁体字相同的。这项规则的优点是:避开了要研究部首的各种不同体栽的不同笔划,于是,每见部首,都能够实时取码;这使得本输入法的拆取码规则繁简通用。
由于翻查字典或其它需要,很多部首变体都是有了权威性的规定的,包括:康熙字典,国际标准ISO10646(Kangxi Radicals,码位2F00至2FD5和CJK Radicals Supplement,码位2F80至2EF3),国家的《汉字统一部首表(草案)》。这几个权威性规定的部首变体,除了极少数(暂时不出3个,暂时确定的只有两个)京典有理由不接受之外,其余全部接受,视为部首变体,适用于本输入法。情况总结在下表3.14。在这个表之中,显示了“京典专用的部首变体和字例”。京典选定这些专用的部首变体是基于两项考虑因素的:
1.该部首变体可以运用甲骨文、金文、篆书等推敲证明是所属部首的变体-这种京典部首变体占了很大部分;
2.该部首变体有实用价值-使得拆字取码轻松,避免思想混乱,这种变体为数很少,京典已经努力减少了这类变体。
部首取半码的情况
按照京典的拆字取码通则,当第4码或第5码是部首的时候,会出现取半码的需要。这种情况并不复杂,为数也不多(在5401字之中有大概354个)。以下表3.15列齐了四种可能的情况,也列出它们拆解的程序。其中要注意表内有两项符号的应用:()和*。
表3.15:部首取半码的情况
关于():在上表“京典“前4,后2”的拆法”这一列之中,(且)代表要取“且”编码03的前半码和后半码,其实就是“且”的全码。只因为“且”跨过了第4和第5码的码位,才给它一个()。
(囗*曰)代表要取“囗”的前半码,标示为“(囗”;取“曰”的后半码,标示为“曰)”。
“(且”代表要取“且”的前半码。“*)”代表要取“*”的后半码。
简单总结来说,京典用“(”置于部首之前,代表要取它的前半码,用“)”置于部首之后,代表要取它的后半码。
关于*:“*”在以上的描述之中是代表了一些毋需取码的笔划或部首。上表出现过的是:
山十(且*页:这里*代表“一八”
*):这里*代表“一”
部首索引
参看表3.16“京典部首索引表”。结合本输入法的编码和京典的数据库管理技术,汉字可以按照“京典部首索引表”去修编字典,表内204个用来查字典用的部首定义为“索引部首”。该构想中的字典的“可读性”来自这个表之中的“汉字排序”,它是分开以下的几个层次/组别的,每组内的字符排列次序按照京典编码次序:
1.汉字数字:大概26个;
2.无部首汉字:大概47个;
3.按照214个康熙部首之中的204个索引部首修编的汉字:占5401字的99%以上。
4.标点符号。
5.使用者自订编码语句等等。
表3.16:京典部首索引表
表内不包含214个康熙部首之中的10个『一丨丶丿乙亅二爻夊鬯』;
其余204个部首,京典用来查字典,这204个称为″索引部首″。
{}内的部首是可以用两个京典策划码编好的;
5个【】之内的部首是不列入国家部首表面『京典』保留其部首地位的;
2个()之内的部首″变体″是列入国家部首表面『京典』不保留其部首地位的。
附注:表内出现在部首右邊的数目字是某康熙字典的页碼,這可以示範本索引表的應用。
运用京典部首索引去查字典可以代替运用康熙部首索引去查字典。表3.16“京典部首索引表”示范了一例:每个部首之后的数字是某康熙字典的页码,本发明人就是运用这个“京典部首索引表”去对照康熙部首的页码,再查字,而不需要数笔划去找部首页码。若果康熙字典的部首是运用京典部首索引去编排,那么,这里说的对照工作也可以省略了。如果部首内的字也是运用京典编码去排列,则数笔划去查字又可以省略了。
四、“京典”与键盘的结合
“京典”的最重要特点是用有限的符号对汉字的笔划及部首进行编码。而数字编码又是其中的一个优选的方式。因此,最直接可以使用京典的有两种设备:(1)电话(包括移动电话),(2)计算机的数字键盘。
图1和图2分别显示了“京典”将“京典笔划”标示在电话按键上和计算机键盘上的情况。这是“京典”的特征。
计算机键盘当然也可以使用“京典”。图3显示了“京典”在计算机键盘上的标示。其中可以看出4项“京典”的特征:
(1)京典基本输入列,代表编码:1,2,3,4,5,6,7,8,9,0。顺次序排在键盘放手指的一列,即是由A字开始的一列,顺次序由左至右是:A,S,D,F,G,H,J,K,L,;。京典排列是按数字次序的,与英文字母完全没有关系。
运用这个“京典基本输入列”就已经完全可以运用“京典”。但是,在一个优选实施例中,“京典”更进一步安排了另外3个“京典快速代替输入列”,如下所述。
(2)京典编码“01,02,03,04,05,06,07,08,09,00”,顺次序由左至右放在键盘最上一列,即是键盘“1,2,3,4,5,6,7,8,9,0”的位置。在键位上标示了相对的京典部首:“手,足,目,耳,舌,鼻,皮,首,身,□”。例:按键盘“;a”和“1”都是输入了“01”,得“手”。
(3)京典编码“81,82,83,84,85,86,87,88,89,80”,顺次序由左至右放在键盘的第二列,即是键盘“Q,W,E,R,T,Y,U,I,O,P”的位置。在键位标示了相对的京典部首:“食,米,麥,宀,广,户,行,父,人,衣”。例:按键盘“ka”和“Q”都是输入了“81”,得“食”。
(4)京典编码“91,92,93,94,95,96,97,98,99,90”,顺次序由左至右放在键盘的最下一列,即是键盘“Z,X,C,V,B,N,M,,,.,/”的位置。在键位标示了相对的京典部首和符号:“月,金,木,水,火,土,風,’,°,日”。例:按键盘“la”和“Z”都是输入了“91”,得“月”。
图4显示了“京典”(日本版)。在键盘上标示了京典的特征。日本版”不同之处在于“金,木,水,火”4个部首的次序与“基本版”恰好相反。
下面对本发明的上述采用数字编码方式的“京典”汉字输入方法的步骤归纳如下,包括:
预先确定8组笔划,用8个一位的数字分别对应于各组笔划;
预先确定多个部首,每个所述部首用一个两位数字部首码来编码;
用0至9的数字来代表单独存在的汉字数字;
预先指定键盘上的一组键位与所述数字建立对应关系;
将所要输入的汉字按照笔顺和结构拆分为所述笔划和所述部首;
对所要输入的汉字按下列方式取码:按照书写该汉字的笔顺,如果遇到的是部首,则取部首码;如果遇到的不是部首,则取笔划码;取前4位数码以及尾2位数码完成取码;对于少于6位数码的汉字,取完数码就结束取码;并且
按照所确定的所述部首码或所述笔划码,按压所述键盘上的所述数字键来输入所述汉字。
在本发明的上述方案中,采用了横,竖,勾,撇,点,交,分,及口作为所述的8组笔划,即分别由对应的数字键代表。
本发明的“京典”用数字键代表单独存在的汉字数字,如壹,贰,叁,肆,伍,陆,柒,捌,玖,零。
“京典”中采用的184个部首及前述的8种笔划都选自康熙字典中的康熙部首。将所述184个部首中的119个分成4类联想部首来编码,即人体类,动物类,民生类,和天文类;将剩余的65个部首按笔划来编码,并按“身上所有,身边所见,切身所倚,身外遥遥”的联想方式分类。
下面再进一步说明可进一步提高本发明的性能的优选实施例。
五、词语输入
各种输入法一般都已包括词组甚至短句的输入。本发明的“京典”也可以提供词语的输入方法,以下进行说明。
根据本发明一实施例,“京典”可以采用如下的“词语取码规则”:
按照书写的顺序,进行以下3个步骤:
(1)取第一个字的前4码(两个部首),当作是“写”了第一个字;对少于4码的字,取完编码就算写完该第一个字;
(2)然后根据词语中的字数按下通配符,例如以“9”来作为通配符,“9”的个数就代表词语中字的个数(包括词语中标点符号),词语中的字符个数多于8个的情况就用8个通配符代表;
(3)在输入与词语中字数相应个数的通配符如“9”之后,再取最后一个字的尾2码,即可输入该词语。如果从最后一个字只能得到一个码,则输入这一个码就完成了。
下表给出了一些词语输入的例子。表5.1显示了词语的编码方法,表5.2显示了在计算机键盘上和数字键盘输入词码的例子。
考虑到词中的字数可以有很多,因此,可以用“。”等符号代表多个通配符,以缩短编码长度和输入的码数。例如,在带有“。”的键盘上就可以用“。”表示“99”,如下表所示。
表5.1词语编码的例子
例子 | 不亦樂乎 | 總而言之 | 愛莫能助 | 一心一意 | 獨一無二 |
步骤(1) | 不:1436 | 總:4440 | 愛:0184 | 一:1 | 獨:2503 |
步骤(2) | 9999 | 9999 | 9999 | 9999 | 9999 |
步骤(3) | 乎:12 | 之:36 | 助:34 | 意:09 | 二:2 |
京典词码 | 1436。。12 | 4440。。36 | 0184。。34 | 1。。94 | 2503。。2 |
表5.2词语输入的例子
词例 | 用计算机键盘输入词码 | 运用数字键盘输入词码 |
一向 | 1。30 | 1 99 30 |
一窩蜂 | 1。971 | 1 999 71 |
一年半載 | 1。。87 | 1 99 99 87 |
一五一十 | 1。。7 | 1 99 99 7 |
一動不如一靜 | 1。。。31 | 1 9999 9931 |
一山還有一山高 | 1。。。970 | 1 999 9 999 70 |
一而再,再而三 | 1。。。93 | 1 999 9 999 3 |
一分耕耘,一分收穫 | 1。。。。36 | 1 9999 9999 36 |
天增歲月人增壽,春滿乾坤福滿門 | 189。。。。986 | 189 9999 9999 86 |
词语的其它编码方法
以下考虑两个词“奧林匹克運動會”和“世界貿易組織”的几种编码方式,参看表5.3。其中的2至5项运用“词语取码通则”就可以编码了。第6及7项的编码,在以下再作解释。
表5.3:举例说明编码方法不变,编码方式多变
1 | 词语 | 奧林匹克運動會 | 世界貿易組織 |
2 | 分词输入之一 | 奧林匹克-運動-會 | 世界-貿易-組織 |
3 | 分词输入之一 | 奧林匹克-運動會 | |
4 | 中文简称之一 | 奧運會 | |
5 | 中文简称之一 | 奧運 | 世貿 |
6 | 整个词语的简称 | 奧.運. | 世.貿. |
7 | 英文简称 | Olympic | WTO(W.T.O.) |
关于第六项“奧.運.”和“世.貿.”,单字的京典码是:奧423089運848787世726貿466308。在“整个词语的简称”之中,单字的京典码也“简化”,取前4个码,省尾2码,是为“简化码”。于是:
简称:奧.運.,编码4230 99 8487 99,计算机会录入“奧林匹克運動會”。或者运用计算机键盘输入“4230.8487.”就可以了,轻松方便快捷。
简称:世.貿.,编码726 99 4663 99,计算机会录入“世界貿易組織”。或者运用计算机键盘输入“726.4663.”就可以了,轻松方便快捷。
这个方法可以说是“重复”“词语取码通则”的前半部分:“前4”再补上“.”。“.”是通用的“省略用”符号。这一个方法可以引伸,例如:三字简称“阿.聯.猷.”(编码:3210 99 0344 99 8102 99,运用计算机就是3210.0344.8102.)代表“阿拉伯聯合会長國”。对于多于三字的简称的编码,处理方法相同。
关于第七项:“Olympic”代表“奧林匹克運動會”和“W.T.O.”代表“世界貿易組織”,这是为接受“汉-英”“国际并列同重”的人士而设的。(英文简称WTO可算是国际通用的简称,WTO在中港台的口语和书面上都是可以流通的。)。这里就是运用“京典可以为英文字母编码”的好例子,如下。
在计算机键盘上按“Olympic”就落在京典计算机键盘编码的O 89L 9Y 86 M 97 P 80 I 88 C 93之上,取码89 9 86 97 90 88 93,运用计算机就是Olympic七键,也就是“奧林匹克運動會”的编码了。操作可以说是“打英文,出中文”,但是本输入法的特点是:编码仍然保持本输入法的基础,用数字编码,不是用英文字母编码。
在计算机键盘上按“W.T.O.”就落在京典计算机键盘编码的W82.99 T 85.99 O 89.99,取码82 99 85 99 89 99,也就是“世界貿易組織”的编码了。请留意Olympic是一个英文字,而WTO是由W.T.O.省略而来的。W.T.O.代表三个英文字World Trade Organization。这个省略(W.T.O.省为WTO),“人”能够分辨得出WTO就是W.T.O.,但是计算机分辨不出来。所以,编码的时候要用正式的W.T.O.而不用简化的WTO。
以上的六种“输入”方式,能够配合使用者不同的思考方式。这两个“热门”词是会首先收录在本输入软件的内置“词汇语汇”中的。运用“中文简称”、“英文简称”或是“词语取码通则”的方式,一并收入本输入法的编码之中。运用哪种方式输入可任由使用者选择。运用计算机键盘(不是电话键盘)输入的话,用“英文简称”方式会比较便捷。表5.4列出了几种不同编码方式的编码。
表5.4:编码实例
奧林匹克運動會 | 京典码 | 世界貿易組織 | 京典码 | |
运用“中文简称” | 奧.運. | 4230 99 8487 99 | 世.貿. | 726 99 4663 99 |
运用“英文简称” | Olympic | 89 9 86 97 80 8893 | W.T.O. | 82 99 85 99 8999 |
奧林匹克運動會 | 京典码 | 世界貿易組織 | 京典码 | |
运用“词语取码通则” | 奧9999999會 | 4230 9999 999 90 | 世99 99 99織 | 726 999999 16 |
六、京典编码的几个特点
本输入法的汉字编码还可以特别留出一些未用的“码位”。即,汉字的编码并不尽用“00”至“99”开头。运用“京典”中文输入法,甚至可以实现在一篇中文文章之中输入所有会遇到的字符,而不仅是一般的汉字。汉字当然是本输入法的首要目标-也是本输入法的“核心”,但是本输入法也可以进一步拓展为可输入其它“常用汉字”以外的字符。
下面结合本输入法的特点,介绍一些可实现输入“常用汉字”以外的字符的实施例。另外也顺便说明一些本发明的“编码区域分布”的效果。
第一个特点:汉字编码不用“98”或“99”带头。
因此,可以按照如下方式提供一些特殊的编码:
1、“常用汉字”以外的符号,例如:标点,箭头,货币,数学符号等,用“98”开头编码。
2、对于专用字、词或符号,允许用户自行编码,用“99”开头。
3、按照上述的“京典”编码去顺序排列,就可得出:汉字(及词语)-汉用符号-用户自定义编码,这一个“可读性”的次序。
具体编码方案如下表。
编码范围 | 范围内容 | 说明 |
0至979797 | 汉字 | 1、汉字部首编码排列在“00”至“97”之间,“98”和“99”被预留,不用来编部首码。2、汉字笔划编码刻意地避开了“9”,不用“9”编笔划。因此,汉字编码不以“98”或“99”开头。 |
98至989999 | 汉语符号 | 汉语符号,尤其是“标点”,“京典”视它们为“汉语”的一部分。本输入法将“98”开头的编码留给汉用符号。这样安排,本输入法的编码次序排列的结果是:汉字一汉用符号。 |
编码范围 | 范围内容 | 说明 |
99 | 句号(。) | 在计算机键盘上,“99”是英文Full Stop“.”的位置,这个安排,其一是配合计算机键盘方便操作;其二,也是为京典的编码划上句号。“99”以后,就是用户自订编码了。 |
99至999999 | 用户自定义编码 | 根据用户需要使用。用户自定义编码在本输入法的编码次序中是被刻意地排在最后的。 |
第二个特点:汉字编码不用“98”或“99”押尾
可以运用“98”押尾来达到以下的效果,情况如下表。
第三个特点:汉字笔划编码刻意地避开了“5”,不用“5”编笔划,也不用来编部首。
因此,可以将该编码位置留给“国际字符”,情况如下表。
编码范围 | 范围内容 | 批注 |
50至599999 | 国际字符 | 汉字完全不用这一个区域的编码,因此该区域就完全分配给国际标准“ISO 10646”的“非中日韩”字符,例如:泰文,阿拉伯文……等等。 |
运用5字押尾,可以为重码字人为地排出次序。例如“父母生子女”5个字的编码是相同的,都是“88”。运用5字押尾的编码情况就是:父88,母885,生8855,子88555,女885555,于是,按“88”的时候,“父母生子女”就是这个次序出现,而象“子女生父母”之类的奇怪次序就不会出现了。还要指出,运用计算机键盘操作,按5字是用左手的食指由原本位置(F键)向右移一键的位置(G键)按下,操作的感觉是按向右剪咀。
第四个特点:除了以上所讲的“码位”“98”、“99”和“5”字开头的编码之外,汉字编码不占用的“码位”还有10个,可以分组来用。
由于这些码的位置用途未确定,可以根据需要进行多种分组。以下分4组只是一个例子。
第1组:65,67,68
第2组:33(本输入法视33为“至尊”位置。)
第3组:37,38(本输入法视37,38为“太极文理”位置。)
第4组:15,35,45,75。(本输入法视这4个为“留空”位置,宜长期留空。)
综上所述,本发明的输入法主要为汉字和词语提供一套用有限量(优选为10个以内)的符号来表达的编码。在优选采用“数字”编码的情况下,在整体的数字编码结构之内,保留了充足的码位给汉字/词以外的字符,例如标点符号以及其日韩汉字、阿拉伯文等。
此外,本输入法可以配合计算机“统一内码(Unicode)”,为Unicode的“汉字/词”以外的字符编上不重复又与统一内码的编排顺序相结合的京典编码。
下面再介绍一些对本发明的输入法中不用于汉字编码的码位的应用实例。
在这些码位上编码,首先要确定其用途,然后进行细致的编码。一般要求编码有如下效果:
1、编码容易记忆
2、无重码或重码极少
现在可以举出的例子虽然不多,但是,本领域技术人员也应该可以理解这一概念的。
例一:用98带头,用途:标点符号。符号例如:「」“”【】《》……
例三:用98押尾,用途:隐藏部首变体。部首变体例如: 扌爫讠忄……。
例四:用99押尾,用途:省略词语之中的“押尾成份词”。“押尾成份词”例如:花,草。
例五:用98押尾,用途:隐藏繁简同义同码的字体。繁简同义同码的字体例如:繁体″簡碼″,简体″简码″……
本输入法关于98和99的统一概念是:
1.编码之中运用98(即是计算机键盘的“英文,”,或者是“中文,”)押尾就代表隐藏:
2.编码之中运用99(即是计算机键盘的“英文.”,或者是“中文。”)就代表省略。
下面分别列表说明这些编码。例一:98字头一常用标点符号
参考以下列表。中文是可以横书或者直书的。标点符号当然有横书或者直书的不同体栽,但是,无论横、直,都有共享的“前置”编码。
例如:横书的括号“()”用编码9809和9800表示。
例子之中的“前置”编码9809和9800是相同的,直书的标点符号编码要在横书的符号编码之后补“2”押尾,2表示竖,示意直书。
这个例子蕴含了一个编码的概念。将需要编码的字符放在计算机键盘之上,然后,对号入座。
楷书笔划有几个是日常有应用的:“一乙八”,不常用到的笔划例如“ ”,京典给它们的“笔划码”加上“98”:见下表。这里说明一下“隐藏”。例如键入1,本输入法显示“一乙”供选择,而“ ”就不会显示出来(虽然它们的理论编码也都是1),不显示出来也就是隐藏了。编码的时候加“98”是有隐藏作用的,“隐藏”是从编码的角度去看;而使用编码进行文字输入的时候补上“98”就是“显示隐藏”。以下各例子所讲的“隐藏”都是这里的意思。
例四:用99押尾,用途:省略词语之中的“押尾成份词”。例如:花,草。
例五:用98押尾,用途:隐藏繁简同义同码的字体。繁简同义同码的字体例如:繁体的″簡碼″,简体的″简码″……
现代汉字有一种称为“减笔字”的,可算是现称“简体字”的前身。最简单,或者称为简洁的“减笔”就是:“减省部首的笔划”。本输入法对5401个繁体汉字的分析之中,就有818个用减省部首笔划而得出的“减笔字”(简体字)。运用本输入法去编码,这些字的繁体和简体的编码是相同的。以下举几个“言”字部的例子。
繁体字 | 简体字 | 编码(繁简字相同) |
謂 | 谓 | 050691 |
謝 | 谢 | 050912 |
譚 | 谭 | 051007 |
証 | 证 | 05102 |
这818个有减笔字的繁体汉字占上述5401个繁体汉字的15.15%,不是少数。编码运用98押尾去隐藏繁简同义同码的字体的情况是这样的:
使用繁体流行版的时候:输入字码出“繁体字”,输入字码+98才出“简体字”。
输入编码 | 繁体字 | 简体字 | |
050691 | 謂 | ||
05069198 | 谓 | ||
050912 | 謝 | ||
05091298 | 谢 |
使用简体流行版的时候:输入字码出“简体字”,输入字码+98才出“繁体字”
输入编码 | 繁体字 | 简体字 | |
050691 | 谓 | ||
05069198 | 謂 | ||
050912 | 谢 | ||
05091298 | 謝 |
如此运用“98”押尾的效果是:运用“繁体流行版”或者“简体流行版”要输入“繁简同义同码”的字的编码是相同的,而操作时,根据是用“繁体流行版”还是用“简体流行版”,用“繁体流行版”,可始终得到“繁体字”,用“简体流行版”,可始终得到“简体字”。但是,用“繁体版”而要得到相对的简体字也可以,在编码之后加“98”即可;用“简体版”而要得到相对的繁体字也可以,同样在编码之后加“98”。有这样的效果,无论用“繁体流行版”或者“简体流行版”都是可以输出所有“繁体字”和“简体字”的。(标点符号也有繁简之分的,“98”押尾的方法,仍可使用。)(这个方法可以进一步发展成为打″简″出″繁″,″打繁出简″,″打中出日″,″打日出中″,″打中出韩″,″打韩出中″……等。例如:打简体″汉″字,再加98,可以出繁体″漢″字,或日本的″漢″字;请留意日本的″漢″字和中國的″漢″字是有小小分别的。)
七、“京典输入法”的编码系统
现在可以从整体的角度去看“京典输入法”的编码系统。“京典输入法”是一个系统,因为,本输入法不单止为汉字编码,而且为所有的字符编码:表7.1的A,B,C,D,E,F六项。最重要的,是六项的编码基本上是“不相重迭”的,因为,如果编码出现较多“重迭”,就算不上是系统了。“不相重迭”的原因是由于本输入法对编码的刻意安排,也列在这个表之中。
表7.1:京典输入法可以编码的字符
京典“京典输入法”的编码系统包含所有的字符 | 京典对编码的刻意安排(以下是安排的点要) | |
A | 汉字 | 5和9不代表任何笔划,98和99不代表任何部首。 |
B | 汉词、汉语 | 编码以内,每输入一个9字代表一个汉字。 |
C | 汉文 | 编码以999999开头 |
D | 标点……等符号 | 编码以98开头 |
E | 使用者自订的“字词语文” | 编码以99开头 |
F | 国际标准的所有字符 | 编码以5字开头 |
G | 冷僻的字词语文符号 | 编码以98押尾 |
参看表7.2的举例就很容易看得清:字和词语“不相重迭”的情况了。两字词语不会和单字“重迭”,三字词语不会和两字词语“重迭”,如此类推。还有另一个京典的本意效果,就是为汉字/词语排列一个“有可读性”的次序-即是“索引”。表7.2用京典编码顺序排出来就有“可读性”了。京典编码的整体系统的排列次序是:字-跟着字排的词语、
表7.2:字和词语“不相重叠”的情况,和“可读性”的排列次序
项目号码 | 字/词语/符号 | 京典编码(顺序) |
1 | 輸 | 8789 22 |
2 | 輸血 | 8789 99 07 |
3 | 輸出 | 8789 99 26 |
4 | 輸了 | 8789 99 32 |
5 | 輸送 | 8789 99 87 |
6 | 輸入 | 8789 99 89 |
7 | 輸赢 | 8789 99 97 |
8 | 輸入器 | 8789 999 00 |
9 | 輸入碼 | 8789 999 21 |
10 | 輸入法 | 8789 999 46 |
11 | 輸入键 | 8789 999 87 |
12 | 輸打赢要 | 8789 9999 88 |
13 | 輸血救人 | 8789 9999 89 |
14 | 輸赢平常事 | 8789 9999 9 31 |
15 | 輸得心服口服 | 8789 9999 99 36 |
16 | 輸赢只算是過眼雲烟 | 8789 9999 9999 96 |
18 | , | 98 |
19 | : | 989 |
20 | 。 | 99 |
“京典”运用8个“笔划码”和184个“京典部前缀”的编码研究开发出来的编码系统,能够达到以下的优良特点:
规则稳定:运用“京典部首”规则,没有奇怪或者牵强的例外。
原理简洁:“京典部首”的规则合理,追求与汉字的结构吻合。
学习轻松:184个“京典部首”编码容易记忆,越用越轻松。
操作方便:汉字组合的重码字大部分在“一码字”和“两码字”,不防碍输入操作。(有一种“高手”使用的输入汉字方式,叫作“盲打”,即是,遮盖着计算器的屏幕也可以正确无误地输入汉字:本输入法是可以发展到如此地步的。)
运用计算机操作输入法舒适:8只手指(不计算大姆指)的使用量平均。
应用广阔:编码预留了空间给常用标点符号。
编码预留了空间给国际ISO 10646非汉字的“所有”符号:而又无重码。编码次序与ISO 10646尽量相符。
应用广阔:编码预留了空间给常用标点符号。
编码预留了空间给国际ISO 10646非汉字的“所有”符号:而又无重码。编码次序与ISO 10646尽量相符。
运用“京典编码”可以将传统汉字字典部首次序数码化,保存了运用康熙部首查字典的优良传统方法,然后实用地修正传统编收汉字不良的地方,将传统汉字字典优化和普及化。也可以将字典“有效”地数码化可以说是康熙部首式的数码化。
以上结合特定的例子描述了本发明的优选实施方式。本领域的技术人员显然可以在本发明的范围内对上述优选实施方式进行各种修改和采用多种等同的替代手段实现本发明。因此,任何未脱离本发明实质的变化和改动都应在本发明的保护范围之内。本发明的保护范围以所附权利要求书限定。
Claims (5)
1.一种汉字输入方法,包括:
确定8组笔划,每一组笔划由一个数位编为笔划码;
选定康熙字典部首之中的184个部首,每一个部首用两位数的数字编为部首码;
对每个单独存在的汉字数字由一个数字键代表;
其中,所述8组笔划包括5组单笔划和3组复笔划作为编码的码元,并定义如下:
“横”:一,,乙,
“竖”:丨,亅,
“勾”:,乛
“撇”:丿,
“交”:十,亠,
“分”:,乂,メ;
“口”:口;
所述8组笔划码与数位键的关系如下:
数字键3对应笔划组“勾”:,乛
数字键4对应笔划组“撇”:丿,
数位键0对应笔划组“口”:口;
每个单独存在的汉字数字与所述数位键的对应关系是:
数位键1对应汉字数字:一,壹,乙;
数位键2对应汉字数字:二,贰,两;
数位键3对应汉字数字:三,參,叁,参,叁;
数位键4对应汉字数字:四,肆;
数位键5对应汉字数字:五,伍;
数位键6对应汉字数字:六,陆,陸;
数位键7对应汉字数字:七,柒;
数位键8对应汉字数字:八,捌;
数位键9对应汉字数字:九,玖;
数位键0对应汉字数字:O,零;
所述184个康熙部首中的119个部首分成人体类、动物类、民生类和天文类的4类联想部首来编码,将所述184个部首中余下的65部首中的61个按笔划来编码,将该65个部首中其余的4个部首用个别联想来编码,其中所述部首码与所述数位键的关系如下:
人体类:
00代表:口,韋,韦;
04代表:耳;
05代表:言,讠,舌,牙,齒,齿,歯;
06代表:鼻,自,田,廾,丌;
08代表:首,,面,頁,页,,見,见,貝,贝;
09代表:身,心,忄,
动物类:
20代表:龍,龙,竜,虍,,虎;
21代表:馬,马,鹿,比,匕,,七;
23代表:羊,
25代表:犬,犭,豸;
26代表:豕;
27代表:魚,鱼,,龟,亀,,黾;
28代表:虫,鼠,,臼,
民生类:
80代表:衣,衤,,示,礻,
83代表:麥,麦,來,,夂,夂,夊,夕,,攴,攵,支,舛;
84代表:宀,冖,穴;
85代表:广,厂,疒,爿,丬,辰,麻;
89代表:人,亻,入,大,欠,龠,,亼;
天文类:
91代表:月,肉,
92代表:金,钅;
93代表:木,,片;
95代表:火,灬;
其余的部首码:
10代表:豆,鬲,酉,,襾,西;
12代表:工,寸,臣,長,镸,长,髟;
14代表:石,瓦,至,而,歹,歺;
16代表:戈,
21代表:鹵,卤;
22代表:黹,业,
26代表:山;
41代表:气,乞,矢,缶;
43代表:色;
49代表:白,,鬼;
70代表:高,
72代表:黃,黄,甘,革,
74代表:方,玄;
79代表:竹,;
88代表:谷;
其余所述4个部首与两位元数位的部首码的对应关系是:
48代表:黑;
71代表:耒;
77代表:屮;
79代表:竹;
其中,对要输入的汉字所采取的取码规则是:按照书写该汉字的笔顺,如果遇到的是部首,则取部首码,如果遇到的不是部首,则取笔划码,取前4位编码以及尾2位编码完成对汉字的取码,对少于6位编码的汉字,取完编码后即结束对汉字的取码;
对于词语的取码原则是:对于词语,取其第一个字的前4码,对少于4码的字,取完编码即完成该第一个字的取码;根据所述词语中的字数及标点符号数,取相应数目的第一通配符,词语中的字数多于8个的时候,通配符的数目一律只取8个;取该词语最后一个字的尾2码,如果从最后一个字只能得到一个码,则取该码,以组成所述词语的编码。
2.根据权利要求1所述的汉字输入方法,所述数位键为电话键盘或计算机键盘上的数位键。
3.根据权利要求2所述的汉字输入方法其中所述计算机键盘的键位与所述笔划或所述部首还具有以下的对应关系:
所述计算机键盘的键位“A”,“S”,“D”,“F”,“H”,“J”,“K”,和“;”分别代表笔划:“横”,“竖”,“勾”,“撇”,“点”,“交”,“分”,和“口”;
所述计算机键盘的键位“1”,“2”,“3”,“4”,“5”,“6”,“7”,“8”,“9”,和“0”分别代表部首:“手”,“足”,“目”,“耳”,“言”,“鼻”,“皮”,“首”,“身”,和“口”;
所述计算机键盘的键位“Q”,“W”,“E”,“R”,“T”,“Y”,“U”,“I”,“O”,和“P”分别代表部首:“食”,“米”,“麦”,“宀”,“广”,“户”,“行”,“父”,“人”,和“衣”;
所述计算机键盘的键位“Z”,“X”,“C”,“V”,“B”,“N”,“M”,“,”,“.”和“/”分别代表部首:“月”,“金”,“木”,“水”,“火”,“土”,“风”,“,”,“。”和“日”。
4.根据权利要求2所述的汉字输入方法,其中所述计算机键盘的键位与所述笔划及所述部首还具有以下的对应关系:
所述计算机键盘的键位“A”,“S”,“D”,“F”,“H”,“J”,“K”,和“;”分别代表笔划:“横”,“竖”,“勾”,“撇”,“点”,“交”,“分”,和“口”;
所述计算机键盘的键位“1”,“2”,“3”,“4”,“5”,“6”,“7”,“8”,“9”,和“0”分别代表部首:“手”,“足”,“目”,“耳”,“言”,“鼻”,“皮”,“首”,“身”,和“口”;
所述计算机键盘的键位“Q”,“W”,“E”,“R”,“T”,“Y”,“U”,“I”,“O”,和“P”分别代表部首:“食”,“米”,“麦”,“宀”,“广”,“户”,“行”,“父”,“人”,和“衣”;
所述计算机键盘的键位“Z”,“X”,“C”,“V”,“B”,“N”,“M”,“,”,“.”和“/”分别代表部首:“月”,“火”,“水”,“木”,“金”,“土”,“风”,“,”,“。”和“日”。
5.根据权利要求2所述的汉字输入方法,其特征在于:代表40个所述编码的键位分上下4行由左至右分布在所述计算机键盘上,
第一行键位由左至右对应于编码:01,02,03,04,05,06,07,08,09,00;
第二行键位由左至右对应于编码:81,82,83,84,85,86,87,88,89,80;
第三行键位由左至右对应于编码:1,2,3,4,5,6,7,8,9,0;
第四行键位由左至右对应于编码:91,92,93,94,95,96,97,98,99,90;
以上的编码排列是按位置对应的。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200410070870 CN1725156B (zh) | 2004-07-23 | 2004-07-23 | 汉字输入方法 |
TW093124454A TW200606661A (en) | 2004-07-23 | 2004-08-13 | Chinese character input method and keyboard using the method for input |
HK06106301.5A HK1083913A1 (en) | 2004-07-23 | 2006-05-30 | Chinese input method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200410070870 CN1725156B (zh) | 2004-07-23 | 2004-07-23 | 汉字输入方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1725156A CN1725156A (zh) | 2006-01-25 |
CN1725156B true CN1725156B (zh) | 2010-05-26 |
Family
ID=35924651
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 200410070870 Expired - Fee Related CN1725156B (zh) | 2004-07-23 | 2004-07-23 | 汉字输入方法 |
Country Status (3)
Country | Link |
---|---|
CN (1) | CN1725156B (zh) |
HK (1) | HK1083913A1 (zh) |
TW (1) | TW200606661A (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100458667C (zh) * | 2007-03-17 | 2009-02-04 | 戴銮谟 | 汉字在手机及计算机上用五笔画十四部首的输入方法 |
KR101581786B1 (ko) * | 2014-02-17 | 2016-01-04 | 주식회사 팔락성 | 중문자 입력장치 및 방법 |
CN112307277A (zh) * | 2020-09-29 | 2021-02-02 | 西安赢瑞电子有限公司 | 一种汉字串匹配预判方法 |
-
2004
- 2004-07-23 CN CN 200410070870 patent/CN1725156B/zh not_active Expired - Fee Related
- 2004-08-13 TW TW093124454A patent/TW200606661A/zh unknown
-
2006
- 2006-05-30 HK HK06106301.5A patent/HK1083913A1/xx unknown
Also Published As
Publication number | Publication date |
---|---|
TW200606661A (en) | 2006-02-16 |
CN1725156A (zh) | 2006-01-25 |
HK1083913A1 (en) | 2006-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101183279B (zh) | 一种电脑/手机统一的形音码汉字键盘输入方法 | |
CN101598976B (zh) | 一种电脑/手机统一的汉字键盘输入方法 | |
CN1725156B (zh) | 汉字输入方法 | |
CN100478853C (zh) | 和码汉字形义信息码输入法 | |
CN101872249A (zh) | 双拼双形输入法 | |
CN101872250A (zh) | 部首输入法 | |
CN102163087A (zh) | 一种汉字形码输入法 | |
CN104951096A (zh) | 汉字编码八类笔形座标形码输入法 | |
CN101813978A (zh) | 音义码汉字输入法 | |
CN101930292B (zh) | 汉字的形音数的综合编码输入方法和应用 | |
CN101135938A (zh) | 一种汉字元拼双音输入方法 | |
CN100403240C (zh) | 计算机汉字编码输入方法 | |
CN103176614A (zh) | 多键共击速录 | |
CN103760989B (zh) | 和码横竖加撇捺字形技术与输入法 | |
CN104123011A (zh) | 汉字和汉语拼音的编码输入方法和应用 | |
CN105511636A (zh) | 全部汉字汉词简易无重码统一输入法改进 | |
CN100465862C (zh) | 一种首末码汉字输入方法 | |
CN100573422C (zh) | 声码加笔画码数字键汉字输入法 | |
CN100375947C (zh) | 30键认知码汉字输入方法 | |
CN100568162C (zh) | 一种计算机汉字输入方法 | |
CN105278697B (zh) | 组合式双拼类主副码汉字、词语编码输入法及其键盘 | |
CN106774987A (zh) | 全部汉字汉词简易无重码统一输入法定型 | |
CN101344820A (zh) | 一种计算机汉字输入方法及其键盘 | |
CN1641551B (zh) | 辨义拼音汉字输入法 | |
CN1331025C (zh) | 拼音四角笔码(形)汉字输入法及其键盘设计 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 1083913 Country of ref document: HK |
|
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: GR Ref document number: 1083913 Country of ref document: HK |
|
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20100526 Termination date: 20140723 |
|
EXPY | Termination of patent right or utility model |