CN101930292A - 汉字的形音数的综合编码方法和应用 - Google Patents
汉字的形音数的综合编码方法和应用 Download PDFInfo
- Publication number
- CN101930292A CN101930292A CN2009101499393A CN200910149939A CN101930292A CN 101930292 A CN101930292 A CN 101930292A CN 2009101499393 A CN2009101499393 A CN 2009101499393A CN 200910149939 A CN200910149939 A CN 200910149939A CN 101930292 A CN101930292 A CN 101930292A
- Authority
- CN
- China
- Prior art keywords
- input
- code
- coding
- chinese
- key
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Document Processing Apparatus (AREA)
Abstract
本发明是汉字的综合编码方法和应用,形码以四笔约50类部件分组,用26个字母4码长对70244个汉字进行了层次编码,排序发现编码匀称重码相对很少,特别适合字典的编撰和键盘编码输入,能对任意汉字集字典进行层次编码排序,检字十分快捷;或作汉字键盘输入,给汉字书写应用出版提供了极大方便。对GB2312为主的常用子集只需3码输入,双拼2码输入,或用4数字作形数、音数码输入等;利用符号、数字作九宫结构码使用,或作简码直输;在形数码输入中用5键就能输入一个汉字。本法用字键映射数字的设定为双拼打开了音数码输入,特别是4声调音数码输入的大门;韩码拼音及键盘为汉语拼音、汉字音数码,特别是4声调的输入就是映射应用的最好范例。
Description
本发明是一种汉字的形音数的综合编码方法和应用,是一种主要用于计算机、手机等汉字输入,以及信息交换、信息处理、汉字查询用的综合编码、输入方法,其核心是针对汉字的两维图形特征和造字特点,尽量利用编码资源,融合了笔划、形码部件、双拼、映射等要素,进行了系统、全面的整合,形成了以四笔层次码为核心的,键盘资源利用配置合理的四笔编码、输入架构体系,对GB2312是采用3个编码的最佳选择,比五笔等输入方法整整少了1键;对GB18030的70244个汉字,则是增加了一层次,采用4个编码,从实际编码排序效果来看,4码重码最多只有九个,和目前流行的4码体系相比无疑是一项重大的突破。
汉字编码的实质只是建立一个相对稳定的数据库,在我的以往的编码方法中,为了追求速度,曾采用了30多个代码,目的就在于追求3键无重码的输入效果,现在提升到用26个字母,实现了对GB2312的3键无重码的输入,这是经历了十数年的一个漫长的逐步精炼、众多反复、优化、简化的过程,将形、音、数整合到一起的关键在于,我发现了键位数码的映射关系,从而使拼音输入,拼音的数字输入变得非常的简明,从而使手机的数码输入变得特别的简明快捷,形成了一个完整的综合编码体系,在易学、码长、实用、速度等多方面都得到了全面地提升。四笔层次形码的记忆量非常的少,少到约50类的编码组合,从根本上解决了易学性的问题,只要按编码部件的首、次笔划或整体特征,就能对征入组入位,无须记忆部件的多少,这可以说是在汉字编码领域的一次首创,其特点是:
1、部件的归类是主要的,例如‘大’如果是编码部件,应该用什么代码呢,在哪儿能找到它?大字横起笔,代码肯定在第2行的9个字母之中;横后有撇,那就是第2个字母s,实际的记忆量是非常少的。
2、根据汉字的层次造字特征,针对3部件码和形数码中的层次3码的特征,根据3部件在字平面中的相对位置关系,归纳出3点式九宫结构码,找到了3码长和速度的最佳切入点,三点式如正3角(∴)、倒3角(∵)等3点的相互关系,正如权利要求书表2所示,这样比较形象好记,为编码输入,特别是形数码的输入找到了捷径。
右边是取三码时的实际编码例,表中九宫格内,最少有一例是三点式结构,特别形象、便于记忆,所以命名为九宫结构表,这样的结构码用在形码输入中非常有利于重码的减少。
歇刨 | 喜恚 | 架恩 |
唱拱 | 做辙 | 品森茵菡 |
福擦 | 抱捆 | 远同匐园 |
3、充分发挥了符号键的示根和释放重码的功能,方法是输入某代码后,表明已进入汉字的输入状态,此时的符号键已不能起到输入符号的作用,本法充分地利用了这一资源,令之作为字根的窗口显示输入和重码区别键使用,这种于教、于学、于输为一体的前瞻性减少重码的方法,既有示根作用,又利于提高输入速度,有百利而无一害,定会受到社会大众的欢迎。
4、韩码的编码体系的形、音、数的大致架构如下表1所示:
韩码总体构架配置一览表(表1)
一、权利要求1的说明
四笔层次形码的编码方法是权利要求1核心内容,包括形码部件的四笔分类50种组合和层次编码方法两个部分。按汉字字形编码离不开部件,形码部件多到数百种,按GF3001的规定有560种,按字典中的归类,通常叫部首,约有200种左右(189个),实际上编码部件存在着诸多的不确定性,例如编码方法的不同,所选字集字数多少的不同,编码码长的不同等;本发明廻避了这样的不确定性,而是抓住了编码更深层次的目标,按部件起笔分点、竖、横、撇四个大类,这样分类的好处是取得了所谓的规模效益,使分布更加均匀。部件的四笔分类,如何映射到代码字母上才是最为关键的地方,本法将26个代码字母,按5∶5∶9∶7的比例分成了四类,正好和部件分类相匹配。针对大到象‘原、或、金、龍’这样字都可以作为一个编码部件,其编码部件的多少,实在是无法界定,本法采取的是四笔层次编码方法,把部件按特征归纳为约50个分类,然后确定相应的代码,取代了数百个编码部件繁杂的代码确定,这是最为简明的部件分类方法,是本发明的精彩之处,使学用简明,记忆量大幅度地减少了,只和通用的字母量处在同样的量级。
四笔用26个字母进行非常简明的编码,重码率很低,用于字典的排序,比四角号码查字法的容量大多了, 比部首查字法简单多了,也就是说四笔层次形码是一项非常简单有效的编码发明,将四笔层次形码单列出来,就是明确地强调了四笔层次形码在字词典编撰、出版、排序方面的应用,将对社会产生巨大的反响,按四笔层次编码方法排序的字典,已经编撰成功,完全地删除了笔划检字的环节,这是一个划时代的进步,下面按四笔和层次的两个分项要求加以说明。
1.1四笔是以点竖横撇的4种笔划作为编码部件的分类,点笔类占据上行的q w e r t 5个代码键,竖笔占据上行的y u i o p的5个代码键,横笔占据中行的a s d f g h J k l的9个代码键,撇笔占据下行的z x c v b n m的7个代码键,三行共26键,比例分配是5∶5∶9∶7,5+5=10,10、9、7正好符合电脑键盘三行的设计,非常便于四类部件的记忆。
1.2将键盘上的26个字母,按5、5、9、7配置四笔的分类,这样的比例分配,正好符合部件多少、使用频度的实际需求,在对GB2312字符集的编码排序统计中发现(即相当于将6763个汉字输入一遍),点笔类占20%,竖笔占19%,横笔占35%,撇笔占26%;而按26个键的5∶5∶9∶7的所占比例分别是,19.2%,19.2%,34.6%,27%,最小误差是竖类,19.2%-19%=0.2%;最大误差是撇类,也只有27%-26%=1%,非常符合四类代码字母所占的比例,这说明26个字母的使用频度非常相近,是本发明最为突出的成功之处之一。
1.3将编码部件归纳为约50种组合,是四笔的又一突出贡献,克服了在汉字编码方面强调编码部件的多少,拆分是否规范的问题,四笔编码部件和GF3001的560个标准部件对照,有增有减,增加的如权利要求书表1中的手写部件,减少的有531号部件等,相应的例字有‘羲’,在总体上则大致相同;在本法中具体的字母设置的560个部件举例如下,不排除会有变动:
1.3.1点笔类,共q(u)w e(h)r t 5个代码:
q(u)1个‘点横折’大类,存在着‘门’是否要单独分类的问题;其特点是起笔是点笔,其后有横折的笔划特点,共有14个部件;
w键也是1个大类,有13部件,特点是‘两点’,部件‘疒、忄’也属于此类;
e(h)键有2个大类,一是3点,包括举字头,二是捺,包括捺勾,象部件‘匕’就属于这一类,这也是为了平衡,有10个部件;
r键有2大类,一类是4点,包括‘火、心、米’等,二类是点撇类,如宀、为、為 州等,有15个部件;
t键有2大类,一类是点、提(点折),二类是点横,有12个部件归类;
点笔类共有8大类64个部件。
1.3.2竖笔类,共用了y u i o p 5个代码:
y键有3个大类,一是‘足’类、包括甲、里、果等,二是下口,包括下开口,如内、巾、凸等,三是‘凸’类,有28个部件;
u(q)键有3大类,一是上口(竖折),如屮、卐、爿、凹、由、曲等,二是‘日’,包括‘門、’等,三是‘母、毋’等,有32个部件;
I(z)键有2大类,一是竖起笔,如上、山、小等,二是中、央类,如等,29个部件;
O键有2大类,一是口,这是一较大的部件,二是穿、窜(申)类,如电、串、丳等,有13个部件;
P键有3大类,一是双竖类,如业、非等,二是多口类,如目、且、田类,三是四黑类,如皿和‘曾’的第2个部件等,有21个部作;
竖笔类共有13个大类,123个部件。
1.3.3横笔类,共用了a s d f g h(e)j k j/九个代码:
a键有2大类,一是‘一’类,包括正、工、雨等,三是右开口类,如匚、牙、瓦、髟等,共同特点是横竖不相交,有37个部件;
s键有1大类,特征是横有撇,如西、大、夷、页、百等,有27个部件;
d键有1大类,是十字类,比较简明的分类,其中束事包括在内,有12个部件;
f键有1大类,是两横(单竖)类,如干、戋、专、土等,有19个部件;
g键有2大类,一是三横,如王、韦、耒等,二是左开口,如聿、尹、艮、彐、丑等,有38个部件;
h(e)键有3大类,一是双(多)竖(交)类,如卅、艹、甘、共的上半部等,二是横折(双竖)类,如巴、也、乜、三是兼的后半部等,有18个部件;
j键有2大类,一是J丁类,如弓、已、弗等,二是革世类,如帶竽,有37个部件;
k键有2大类,是横后有点类,如戈、太、寸、犬、扌等,此处的‘扌’,是把提看成‘点’的,和提从点从T是一致的,有18个部件;
l键有2大类,1是七(7)字类,如车、了、乙、飞等,2是横两点类,来、平、夹等,有29个部件;
横笔类共有16个大类,235个部件。
1.3.4撇笔类,有z(i)x c v b n m 7个代码分别是:
z(i)键有1个大类,是撇横类,如气、生、我、钅、牛、手等,有15个部件;
c键有1大类,是撇横折类,如象、饣、勹、免、鸟、鱼等,有16个部件;
v键有1大类,是撇折类,如女、纟、氏、巛、发的上半部等,有22个部件;
b键有2大类,一是撇类,如丿、九、长、乃、片、千、禾、舌等,二是白类,如卑、鬼、囱、殷的首部件等此处要说明一下,有26个部件;
n键有3个大类,一是双撇或撇双类,如彳、豸、乎、儿、斤等,二是撇横折类,如月、用、丹、册、几等,三是自舟类,如身等,有30个部件;
m键有3个大类,一是3撇或撇3类,如彡、川、爪、犭、采的上半部等,二是个字类,如食、竹、佥的上半部等,三是八字类,如入、共的下两点等,有17个部件;
撇笔类共有13个大类,138个部件。
四笔和GF3001的560个部件分类,大部分相同,四笔部件中有560个部件中没有设置的部件,如表1中手写的部件(一八)属横撇类,代码为S,例字‘爾’的编码是‘sy’;也有四笔中没有的,如编号是521号531号两部件,在四笔中被拆分,其例字 的编码是‘dbo rzbo’,‘羲’的编码是‘wbs’等;编码部件在四笔中归纳成约50个大类,由于在分类中擦边球是难免的,如两横类和横双竖交差类的区别,F键是双横,H是双竖,同为双横、双竖就是擦边球等;又如横折类的J/K/L键的区别,K键有两类,1是横点,2是和折点,和点有关联,如‘又’从折点K,L的横折和‘7’相似,‘令’的编码是‘mk’,‘今’的编码是‘ml’等。
2.关于汉字的层次编码的方法分四项说明,一是汉字的层次性及编码方法;二是8项编码规则;三是四笔层次形码的编码重点说明;四是四笔层次形码的应用。
2.1.汉字的层次性及编码方法
四笔层次码的编码方法是以GB18030的70244个汉字为基础的4码长编码体系,首先要根据字的特点采用相应的编码,编码部件可以是笔划、部首、独体字、也可以是多根字,具有明显的变通特征和省略,层次性非常的突出;对于复杂的汉字,采取逆向思维逐层取根码的方法,按码长优先等8项编码规则和多根字组字的编码。
2.1.汉字的层次性
a在国标基本字符集中,大多数常用字都是两根、3根字,例如″包″是双根字,饱、泡、炮、疱、胞、抱、苞这一系列字都是由包加不同的偏旁组成的3根字,读音似包,加上偏旁就有了不同的意思,有明显的横向(加边旁)的层次特点;
b汉字层次性的有明显的纵向(趋向复杂)特点,如母、每、敏、繁、蘩,其中蘩的层次分别是‘艹’‘糸’‘攵’,即首、尾、尾,就是说,按层次取部件码绝对不是按前后次序排列的;
c大、犬、尢、尤、龙、陇、垄、龍、 等说明,用一二三末这类的部件选取规则已不适用,层次编码就好象用什么钥匙开什么锁一样,是最为适用的方法,象后两个字,取码时是按多根字组合的编码规则,其编码规则是取‘首、尾、首、尾’和‘首、首、首、尾’,实用编码是‘tata、ttta’,象由两个颠倒的‘或’字组成的字,取两个‘或’的首尾部件码,编码是‘ktkt’。
2.2.八项编码规则
在新版GB18030中汉字总数已达到70244个,以后还会增加,不管汉字有多复杂,层次性的编码方法都能应付,例如,在新增的字集中有一个字由‘西域哲人’4个字组成,那编码就由这4个字的首部件组成,编码就是afkx,就整个编码体系而言,为了编码更加规范,以下这18个大号字,编码具有一定的代表性,(夀幬 曨籯、娛 巎籋嘂、嬹 嬽嚌奯、厵 )(其后只用排序号代替)制定了八项编码规则如下:
1、码长优先 是针同一编码体系中,对少笔划汉字和多笔划字的用于减少重码的具体措施,指的是在选取编码部件时,部件数要向码长数靠拢(优先),多了码长不允许,少了会因编码空间的减少而增加重码,这在编码输入时更为突出,而这种优先仅仅是目的,往往用其它的规则来实现;例如,对上述2、3、5、16、18号这5个字,2号光右侧的寿字就由6个分列部件组成,就得和平衡省略相配合,3号、16号和成字优先相配合,5号和要点优先相配合,18号和交重拆2相配合,它们的编码分别是:“yfak、vjpi、mtop、sssi、zgb”字。
2、部件设定 主要有两条,一是在汉字的拆分中使用有相当的频度,过少就不一定有设定价值;二是看这样的设定是否有利于输入的简化,这与GF3001中所述的部件设定要求是分立的、交不拆不同。在本法中为了编码的分布均匀,有时将独体字拆分成两个部件,如‘重’‘垂’‘肅’等;有时将分开的的两部分视为一个编码部件,如‘一口’等,依此将‘事’列入G的范畴;这有利于编码部件在26个字母代码分配上的总体平衡。以上述第6号、第7号字为例,涉及到口天吴的两种写法,特别是6号7号字的第三部分,按搭接分成两个部件,前一部件的编码都从代码u,后一部件的代码要看是否存‘ ’而定,如果存在,这在9号字中就已用到,符合部件设定原则,编码都从s;如不存在,则编码从‘八’从‘m’,则其编码依据码长优先原则和此部件设定原则,6号字的编码是vous,7号字的编码是vous或voum。
3、对征入座 是强化部件特征,淡化部件的多少,依据部件的特征对号入座,从而降低了汉字编码输入 的准入门坎,这是将数百种部件归纳为约50个部件组合的基本原则,具有较大的灵活性。在上述字例中,1号字的第一个部件就比较特别,笔划多到8划,依据对征入座规则,则非常的简明,因为起笔是‘横’,那必在键盘的第二行,编码必定是9个字母代码中一个;又因为是多横,范围一下子就指向了‘G’,那就很快得出1号字的编码是‘gok’。再以‘为’ 的编码为例,前两个字的首笔划是点,那肯定是‘q、w、e、r、t’中的一个,次笔是撇,部件代码马上指向了‘r’,这两个字的编码分别是‘r’‘rr’;第三个字的首笔是‘撇’,那部件归类肯定在键盘的第三行,后续‘3点’,其部件代码立即指向了‘m’,编码是‘mbr’;用同样的方法,‘饭’和‘飯’的编码是‘cnk’‘mnk’,鸟’和‘鳥’的编码是‘ca’‘ba’,这说明字的形码由于写法、简繁的不同,编码也不尽相同。象凹、凸、及GF3001中的编号是487的部件,都从竖起笔,以总体特征设定代码,分别从u y和u。
4、总体平衡 在上述2号字的右侧寿字有6个部件,要在6个中取3个部件作代码,取首、中、末比较平衡,其中还要参考后好续的‘成字优先’,最后取‘士、工、寸’3个比较合适的部件,其编码是‘yfak’。
5、突出特征 在‘赢’‘衡’等系列汉字中尤为突出,变化的只在中间的贝、女、羊等,其贝、女、羊就是要点特征,其余部分可以归一、或用双码。在本系统中是设定‘亡’为首部件、‘口’为替补部件,这三个字的编码分别是:toy、tov、tow。所以在本编码体系中,把特征部件视为要点优先,有要点就有省略,省略‘月’‘凡’等部分。
6、成字优先 是为了迎合大众的日常习惯设定的一项原则。通常所说的口天吴,那样的顺口,就是体现了‘成字’易记的优越性,这一原则在独体字的拆分中,尤为突出,象‘朱’这个字,如要拆分,以拆分为‘丿’和‘未’为佳,末可拆分成‘一木’,未可不拆分等。
7、交重拆2 是部件设定规则的局部特例,是针对的象‘重、垂、‘肅’等交重复杂部件,为减少重码而设定的1条规则。这是因为不允许拆分会导致部件过于集中,分布不均的现象,而且会导致部件的多而杂;但不允许多拆,多拆会引起拆分的混乱,故特设定再复杂的交重部件,最多只能拆分为两个部件代码,同时限定同一笔划不允许在两个部件中重复体现。上述3个例字拆分代码分别设定为:bu、bh、gb;上述9号字18号字的笔划虽很多,总体上只分为两个部分,第2个部分适用拆2原则,9号字的编码是msy,18号字的编码是zgb。
8、简码设定 简码是编码输入中是一项通用原则,在众多的编码体系中都被广泛采用,其具体的应用将在权利要求2的编码输入中再加举例说明。
2.3四笔层次形码的编码重点说明
层次编码的取舍与书写次序无关。例如,‘枷’‘弩’‘進’字,第1个层次部件分别是‘木、弓、辶’,由此可见,层次编码部件的确定与书写次序无关,这3个字的编码依次是‘dho、vkj、xtq’,从中可以看出编码中的次序,从写书顺序。
2.3.1字按四笔编码用在字词典的出版中进行排序,是四笔应用的重要组成部分,其适用范围可扩大到韩、日等使用汉字体系的国家和地区。
2.3.2四笔中有几种非常规编码取码设定,如(羸、成、匕、刁、凹)等特说明一下:
1)嬴、羸的第3个编码,依据特征省略原则,把女、羊等设定为必取的编码;其编码分别为tov和tow。
2)成、贰、武、载、越、藏等字中都带弋、戈的编码方法,是将此类部件单列弋类从k,粘连从粘类部件。如藏的第2个部件,编码视规范起笔从横撇从s,编码从u的前提是竖起笔,视习惯或规范而定,‘成’拆分时的首部件代码是s;‘越’字中的后一部件的代码是从a;其全码分别是:贰-kfy,成-sj′,武-akl,载-fl′,越-fia,藏-has等。
3)把笔划‘提’视为点更为形似,符合3点水的习惯说法,所以在部件归类中将‘扌’从横点类从K,更为简明;如刁、或的编码从jt、kot等。
4)‘匕’按书写习惯应从竖勾,本法将‘匕’视为捺折(勾)从点类e,这是因为三点水的部件用量很大,而且集中在前,使之从点折类,起到了平衡单键负担的作用;要提及的‘比’的首部件(即规范中的43号部件)按笔顺规范应从横起笔a,‘北’的首部件从竖起笔i,编码分别是ae和ie。
5)‘行’有时可视作一个部件编码,如‘衡’字的3码长编码可以是ncs,4码长时仍拆分为双码。有些独体字,象‘凹、凸’等笔划特征不明显,而总的形象特征十分明显,就以‘形’分别约定代码,编码分别从u、y。
6)字码在大字符集中非常突出,以权利要求中所提到的‘原’字为例,是由3个部件‘厂’‘白’‘小’组成,在GB18030大字符集中有‘厵’这个字,显然是由3个相同的‘原’字组成,所以依据层次关系,应该属于并列的,如果取3码,则取3个‘原’字的首部件‘厂’,如果取4码,可再取一个尾部件码‘小’,编码sssi;另外如‘灜、 羴、 ’等字的4个编码分别是etop、tata、wwwg、ttte、ttta。其中第一个字的第4个编码是‘P’而不是‘N’,体现了本法所倡导的要件优先原则。
7)下面再以22个字为例:“一、二、三、四、五、六、七、八、九、十、百、千、万、卐’、卍、凹、凸、萬、億、繁、蘩、厵”,具有层次编码的代表性,其编码分别是“a、aa、aaa、p、a、tm、l、m、b、d、s、b、s、u、j、u、y、hy、xtur、zuzv、hzzv、sssi”。
2.4.四笔层次形码的应用
在新版GB18030中汉字总数高达70244个,对于这样的大字符集用得最多的还是其子集,可以是简体汉字集、繁体汉字集或者是它们的多少不等的组合集,可用于汉字的键盘输入,也可在字词典上应用,现在的字典、辞海都是以部首分类的方法进行分类查找,非常的复杂繁锁,所以用起来非常的费时,而四笔层次形码编码,用的也是象新华字典中使用的拼音排序的26个英文字母,优越性体现在:部件分四个大类,还归纳成约50组分类,十分简明,非常地便于记忆;加上编码空间有26的4次方,空间高达45万(456976),汉语拼音的码长虽长到六个字母,变化只有约417*4=1668个,重码多达百数个之多,字典收字不多还可行,如新华字典,多了根本行不通,如辞海等;根据对70244个汉字的排序来看,内的编码,重码也很少,如果分中、日、韩及其它子集,重码会更少;可见此编码方法非常的实用,准确率特高,实用价值是显然的,不愧为是一种新颖高级的排序检字方法。在我新编的约一万多字的字典中,要查“韓” 字,编码是‘djoa’的字只有一个“韓”字,可见检字效果有多好!如果字典收字够多的话,要查找前面第5页中所提到的18个字,编码分别是:gok yfak vjpi utya mtop vous vous ianc msy ouoovxym dbo vpps otwn sisi sssi uu/uuuu zgb,依据这些编码,就能找到对应的字,其中6号、7号两个字是通假字,在余下的16个字中,在本发明中只有2、3、17号字是2中选1有重码,其余13个汉字都是4键无重码,可直接输入,平均约4.1键,可见实际重码率是很低的,由此可见,如果在字典、词典中用之作为编码排序查找汉字,是非常的简明快捷,完全避开了笔划查字的繁锁程序,功在千秋。
二、权利要求2电脑键盘输入方法
权利要求2是汉字的四笔电脑键盘输入方法,是四笔层次形码的主要应用之一,和权利要求1相同的是,编码部件的分类、归纳以及编码规则基本相同,所不同的是:面对汉字输入的不同的需求,要设计不同的子集,有不同的具体设定,如码长、简码、结构码等,目前主要的有以GB2312为主的3码长的输入子集,和以GB13000为主体的4码长输入子集等,讲电脑键盘输入就不能不讲输入速度,为提高输入速度,就得区分常用字和非常用字、冷避字,并根据特定的人群,设定特定的输入子集。在输入方面需要说明的主要有3点,1是对部件设定规则的修正,2是符号键的利用,包括结构码的实际应用,3是简码的设定,以及由于这些特殊需要,需要说明的其它问题。
1.GB2312输入子集
汉字的输入常针对的是常用字,加入过多的冷僻字会占用资源,降底输入速度,造成资源的浪费,实际应用中往往是简繁并存的,就范围而言,以GB2312为主的输入子集和以简体字为主的输入子集有相近的内涵,很难有强制性的规定。
1.1权利要求2.1是针对简体形码的四笔输入方法,以GB2312为主的四笔输入子集,设定为3码长,3部件字以下(含3部件)的编码,从部件码;如:不、什、部,四笔编码是‘s xd tol’;3部件以上取层次3码,如:繁,编码是‘zzv’;在常用子集中,部件都相对较少,取层次编码的频度较低。
汉字输入的最终目的是准确无误的输入某一个特定的汉字,这是输入的唯一性要求,实现的手段主要有三种,一种是从提示窗口中选定某一汉字,点击键入,此法的缺点是,选择需要时间,特别当重码很多时(拼音输入),需要翻页,比较麻烦;二是用词条输入(拼音),以减少重码;三是将常用字设定为用简码输入,本法还利用符号键作亚简码输入,尽量减少了重码,基本实现了3键无重码输入的目的,无重码直输是输入的最佳选择,是对输入性能的综合显示,贡献突出。
1.2四笔层次形码用于电脑的汉字编码输入中的符号键的应用,特别是在GB2312子集的汉字3键无重码的输入中发挥着难以取代的作用,是四笔提高效率的一条很重要的措施,在此先具体地介绍一下使用的方法,综合使用效果,然后再介绍具体的编码输入方法。
在键盘上有11个符号键,在进入输入状态的(击过第1个英文代码键)前提下,使用符号键,可不影响其基本的功能,即不影响作为符号键任何功能的使用;本法将符号键设定为示根、简码、重码区别键、词选择键使用,从而大幅度地降低了重码,保证了极低的重码率。
用符号键作亚简码设定,利用符号键作1级简码,具有示根作用,系增加了新的功能;2级简码能体现两根(部件)的相互关系,起到结构码和简码的双重作用。通常两个代码所存在的相互关系,有4种设定情况,1、独体字的首尾码、或拆分2码;2、左右两部件码;3、上下两部件码;4、交包两部件码,结构码如权利要求2所示,当某1类过量时,因为有窗口提示,为减少重码,允许相互兼容,以提高输入速度。符号键共11个,单根时,用其中的10个作示根,包括数字专用的一个符号(-),剩下的一个符号(`)专作在输字过程中很少用,甚至不用的40个专用部首边旁部件,如‘亻、彳、辶、艹’等,本体系设定用‘`’及后续符号显示,格式是代码+‘`’+指定符,几乎不占字母代码资源。例如,彳的编码是‘n`,’,分别键入‘n’‘`’‘,’就输入了‘彳’字,有此功能既能满足输入此类符号的特殊需要,又不占用正常的输入资源,不会影响正常的输入速度,是一个两全齐美的选择。
1.3作为一种输入方法,对高频字的简码设定是不可缺少的,和其它输入方法一样,简码设定不受部件多少的限制。使用符号键输入,因未占用数字资源,自动生成的数字同样能起到输入的目的。总之,以GB2312为主体的3码长子集,突显简明快捷的输入特点,加上词条的输入,将更方便快捷。
2.GB18030的四笔编码输入子集
权利要求2.2是针对GB18030的四笔输入,由于此集扩充的汉字特多,包括中日韩使用的许多冷僻字,在实际应用中往往是用其子集,我国现行比较实用的是GBK子集,已基本上具备了四笔输入的主要特征,其编码规则和权利要求1基本相同,所不同的是针对不同的输入实用子集,会有所调整,通常都选择4码长,和前款输入集相比,主要差别是增加了一个编码层次,即增加一个代码的代价,换来的是编码空间增加了25倍,编码的重码率大为降低;另外,在符号键的利用上,增加了三点式结构码的应用。
2.1从3码长调整为4码的直接结果是,4部件以下(含4部件)字的编码从部件码,4部件以上字取层次4码。由于新版GB18030字符集涵盖‘中日韩’的许多冷僻字,象由两个‘或’组成的汉字等,在讲输入时不能排除任何一个字的输入、使用,当然包括这类汉字,取层次4码的方法,又有所增加;这同时也預示着,此编码、输入方法的适用范围已经扩大到用汉字的地方,如‘日、韩’等国家和地区;四笔层次形码的编码、输入方法可以根据实际环境的需要和使用范围,设计成各种各样的汉字、输入子集,大如相对独立的中、日、韩三国的汉字编码集或输入集,小到各行各业的诸如科贸、工商、教学等实际使用环境的需要,都能得到广泛的应用。
2.2符号键在汉字输入中的应用
1、符号键在汉字输入中应用,在3码长的简码子集中已就1级简码和2级简码作了介绍,在此集中仍然延用,作第二键运用时,即在键入字母键后的使用,设定了3个使用功能,一是作独体字的直接输入用,起到了输入分流的作用,如键入‘J,’就输入了‘已’字,键入‘J’’就输入了‘巳’字,键入‘J.’就输入了‘己’字等,这儿个字笔划数相同,笔划也相同,连形状也近乎相同,在形码输入中,肯定是重码,此时用符号键输入非常有效,也不排斥用数字键选择输入;二是作常用字的简码输入用,提高了输入的效率,其中设定符号键‘-’专作中文数字输入,如用编码T-、L-、M-、B-输入六、七、八、九这4 个数字;三是作示根键用,即拿出一个符号键,例如用‘`’符作示根符,当键入任一键,如‘X’键,再键入‘`’键,会从窗口弹出‘亻,’,指定输入符号是‘,’,输入符号‘,’就会实现输入‘亻’的目的,这样就让这些不常用的字符,既能输入又避开常用的输入的资源环境,用符号键输入,是两全齐美的选择。
2、符号键在汉字输入中的第三键的使用主要用于区分双根字结构的作用,也作二级简码输入使用,作简码使用时,包括后续的第四键都不受字结构的约束,参见9页双根设定介绍。
3、符号键在汉字输入中的第四键主要作九宫结构码使用(参见此说明书的第11页),也可作简码使用,在权利要求书中的表2,除符号键的设定外,还包含了九个数字码,这是用于手机汉字输入时的结构码的设定,表中最后一行中的数字,1示独体字、2示双根字,这是后话。
2.3四笔层次形码的输入方法应用
2.3.1根据权利要求1所述的四笔层次形码的编码方法,即用50类相关部件分配映射在26个英文字母上,再依照八项基本编码规则进行具体的编码,再加上2.1.1所说的符号键的设计,就自然形成了四笔层次形码的键盘输入方法,适用GB18030整个综合编码字符集。
2.3.2在权利要求2.1中所讲到的符号键的运用,在4码长的体系中,由于范围和内容的改变,符号键只在少于3个部件的汉字中有所利用,此时用空格键加选择也是简明的输入方案,在前面(第5页那18个字)提及第1、第9、第12、第18这4个字,可加上符号成了‘gok/、msy/、dbo,zgb;’,加上符号成了带符号键输入的编码,其它编码则完全相同,体现符号键的功能。
三、权利要求3的四笔形数码输入
四笔形数码是适用于GB2312或以常用字集为主体的,为手机数字输入或电脑数字输入汉字的输入方法,是基于权利要求1.2所述的根据汉字的造字层次,逐层取根码,不管字的笔划、部件多少,都取3个层次编码,编码部件是直接映射到9个数字键上,并以点2、横3、撇2、竖2的四笔比例设定1~9个数字,再加一个九宫结构数码,单字输入共4个数字编码,是一种集形部件和部件结构为一体的数字编码输入方法。
1.四笔形数码的编码部件可以是笔划,偏旁部首或独体字等,以四笔分类;表3是部件归类表,即表明什么样的部件,该用什么样的数字代码,现以点笔为例加以说明,第一行的数字代码是‘1’,设定点、捺、或起笔是点,次笔非点的部件代码为‘1’,表3中的第三列是‘1’编码部件的举例,如‘宀、门’等,这里要提醒注意的是,部件的举例只是少数,关键在于对中间一列的规则的设定。将编码部件映射到具体数字键上的列表,有利于尽快地确定可靠的代码,在四笔形数码的码表中,好在一个类型除横笔3种外,只有两种选择,两种可能,这和笔划码的麻烦、笔顺相比,则比较简明,而速度要快多了,是一种非常实用快捷的编码方法。
2.四笔形数码输入取3根码,而且对独体字、双根字、3根字、多根(4根以上)字都取三码,3根字取3码、多根字取层次3码,此前已作了多次说明,在形数码中要说明的重点在于少笔划的独体字、双根字和笔划本身。方法是:单笔划重复两次成3码,如‘一’字,编码是‘333’,加结构码1,全码是‘3331’;独体 字取部件码加首尾笔排码或拆2部件码(含笔划、部件的交错),如‘人、千’等,编码是‘761、764’,加结构码1,全码是‘7611、7641’;又如‘垂、凸、凹’等;取总根码、加拆2(部件或首尾笔划)码,编码是‘7751、8831、9831’;两根字取‘边旁部首’码(难分部首时取‘首部件’码),加非部首部件的拆2双码,如‘根、码、审’等字,编码是‘456、353、198’,加结构码2,全码分别是‘4562、3532、1982’。
3.笔形数码的第4个数字码设定为数字结构码,在前款中已说明了单根、双根字的应用,这里要介绍的是权利要求2中的三点式九宫结构码在形数码中的应用,由于形数码只取3个部件码,所以结构码在这里显得特别重要。
三点式九宫结构数字码例字表
歇刨刮7 | 喜恚8 | 架恩9 |
唱行4 | 做辙5 | 品茵6 |
福擦1 | 挝插捆2 | 远同匐函园3 |
从此表中可见,九个格子叫做九宫是通俗的叫法,每个格子用1个数字代表,也是毫无疑问的,每一个格子内最少有一种类型,是可以拆分为3点式的,所以将此表命名为九宫结构码表,其中的数字就叫做九宫结构数码。以表中的例字为例,‘远、品、架’字的四笔形数编码分别是‘3313、8886、5849’,用如此的数码输入,不仅重码很少,而且非常简明,是减少重码的有效手段之一。
四笔形数码的简码设定是用‘0’替代1~3个数字码。一级简码一定是以该数字为首码的高频字,二级简码也是以前两个数码加‘0’设定,三级简码同3个部件码,直接加‘0’输入,省略了结构码。
4.四笔形数码输入是本发明的一个亮点,去除简码的设定,输入的重码实际上非常少,满4码长时最多也只有6~7个,5键就能输入GB2312中的任1个汉字,这是非常难得的成果,现以输入‘国家知识产权局’这七个字为例,其编码分别是‘8 13 7487 1824 1131 4512(6重码选1)5583(3重码选1),击键总数为(包括空格键在内)是27,27÷7=3.86,平均单字只有3.86键,学起来也非常容易,输入快捷方便,定将对社会的文明和进步产生极其深远的影响。
四权利要求4的字母键位映射数字关系的说明
权利要求4讲的是字母(键位)数字的映射关系,是本发明的又一个亮点,后续的权利要求6只是其在拼音数码输入、汉字数码输入的具体的应用而已。就字母映射而言,只要字母总数不超过81个,便能实现和两个数字的对应关系,如俄文、日文等;英文字母只有26个,只占三分之一,更可以利用键位映射数码输入,即每输入一个字母用两个映射数字替代就行了,有些场合需将英文名如Obama译成中文奥巴马,在另一场合又要将奥巴马译成英文,通常比较麻烦,是不可逆的,用此映射关系(以下表的前3行作映射例)Obama→1935213721→Obama是可逆的,是最好不过了,特别简明,包括俄、日字母等都可以进行此类方便的转换,应用极其广泛,可以用两个数字替代一个字母,对任意码长的字母编码都是可行的,比如,在本发明的3码长的四笔层次形码中,就可以用6个数字映射编码替代,再加一个数字结构码便形成7码长的形数码的输入方法,只不过在韩码体系中,有更简明的4码长的形数码输入,远低小于7,因而未被采用。
在26个字母的基础上,如果按3倍计算,3组,共78个字符,映射78个双数字码;或者用26个英文 字母,再加一个虚拟字母,共27个,相当于权利要求4中表4中的占81个映射数字,都能实现汉字的双拼输入。方法是用其3分之一,即26或27个字母键,作拼音的无声调双拼数码输入,用另外的52或54个,又分为两组,按2×2组合,形成4种组合,正好对应拼音的4个声调,进行汉字的4声调的拼音数字输入,特别是其中还兼有纯汉语拼音的4声调数码的输入,具体的映射方式和输入效果紧密相关。
字母键位映射拼音数码例表
11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 |
21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 |
31 | 32 | 33 | 34 | 35 | 36 | 37 | 38 | 39 |
41 | 42 | 43 | 44 | 45 | 46 | 47 | 48 | 49 |
51 | 52 | 53 | 54 | 55 | 56 | 57 | 58 | 59 |
61 | 62 | 63 | 64 | 65 | 66 | 67 | 68 | 69 |
71 | 72 | 73 | 74 | 75 | 76 | 77 | 78 | 79 |
81 | 82 | 83 | 84 | 85 | 86 | 87 | 88 | 89 |
91 | 92 | 93 | 94 | 95 | 96 | 97 | 98 | 99 |
1.在汉字的电脑键盘输入中,具体的映射方式大致有行列排序、和(组)块排序等类型;因九九排序中不涉及数字‘0’,首先要将键盘第一行的最后一个字母P视为第三行的字母,再复制两次,成三组九行;前3行为第一组,如权利要求中的表4-1所示;中3行为第二组,后3行为第三组,如表4-2所示。表4-1表4-2合并即如左表,前1个映射数字显示行,后1个数字显示列数,和通常所说的行列式的表示方式极为相似,这在叙说字母数字映射关系时,比较简单明了,在实际应用中则不如后续的组块排序便于记忆。
1.1用表4-1的映射关系可以作任何双拼的数码输入。汉字的双拼输入是用汉字的声母+韵母的拼音输入方法,由于声母只有23个,加1个虚拟声母,只24个,少于26个字母,韵母用26个字母替代,实用中要靠记忆这些韵母的设定,因版本很多,繁杂无序、难有特色、很难记忆,所以使用并不普遍;有了字母(键位)数字的映射,便能用数字替代声母、韵母的设定,进行数码的双拼输入,便能在仅有数字键盘的手机上进行简单明快的汉字输入了,从而突显了双拼数码汉字输入的功能;由此可见,此映射关系具有一定的普遍性,用途广泛。
1.2用表4-2的映射关系可以作任何4声调的双拼数码输入。表4-2包括两组26个字母的映射数字,再用两组数字进行2×2组合,即依据11、12、21、22的设定组成4组编码,正好对应4个声调,便能在仅有数字键盘的手机上进行简单明快的4声调双拼数码输入,包括拼音和汉字的输入。
1.3同时用表4-1,表4-2的映射关系可以同时作无声调的、4声调的综合双拼数码输入,而且两者互不干扰,数字‘0’均可作简码输入。
2.字符数字的映射关系的组块排序,即权利要求4中表4-3、表4-4所示,和前款表4-1表4-2相比,特别是在双拼输入时直观有序,便于记忆,最为简明。
2.1用表4-3的26键的1~9的字母映射的数码,可以进行无声调的汉语拼音或汉字的双拼数码输入。在电脑键盘输入中,如表4-3所示,26个字母在一个大组内,其特点是作单独无声调输入时,相对比较简明,即每一行的3个组号数字和3个位号数字相同;如输入‘数’字,拼音是‘shu’,用无声调输入,sh→e →13、u→q→11,输入数码是1311,就可输入拼音‘shu’或汉字‘数’。
2.2用表4-4的两组26键的1~9的字母映射的数码,可以进行4声调的汉字的双拼数码输入,方法是将两组的字母(键位)映射数字编码,按组号分类成1、2,按11、12、21、22四种组合,并令之对应4个声调,就能实现汉字的双拼4声调的拼音数码输入,好处是用4个数码就能实现4声调的汉字或汉语拼音的输入,用于只有数字键盘的手机汉字输入,突显方便。
左图表是表4-4所示的9个小组中的第一小组的映射关系,涵盖qw e 3个字母,映射数码的前位码,即小组编码是1,后位码又分上、下两种情况,并进行2·2组合(2进制),即依据11、12、21、22的设定组成4组编码,正好对应4个声调的双拼输入,包括拼音和汉字的数码输入等;如输入‘数’字,拼音是‘shu’,有两个读音,分别是shǔ和shù,以3声输入的规则是‘21’,数码是 即 4声输入的规则是‘22’,数码是 即shù→1917;输入数码1914(3声调)、1917(4声调),就可输入拼音‘shǔ、shù’或汉字‘数’。
2.3同时用表4-3,表4-4的映射关系可以同时作无声调的、4声调的综合双拼数码输入,而且两者互不干扰,数字‘0’均可作简码输入。
表4-3表4-4所示的特点是突出显示组码相同,即前位码相同的前题下,前、后两组的次位码的规则排序具有多样性,即权利要求书所述的‘不外是’‘123、456、789’,证明在汉字或拼音的双拼数码输入中有多种选择,同样可行。
3.用三组1~9的字母(键位)映射的数码,即78或81个数码空间,就能同时实现双拼无声调、和4声调的汉语拼音或汉字的双拼数码输入,由于它们有各自的编码空间,没有重叠的部分,所以综合版的拼音、汉字的双拼数码输入可以同时作无声调输入和4声调输入,而且互不干扰,是一种崭新的字母数字映射输入方法,为双拼输入开辟了数码输入拼音、汉字的美好前景;特别是4声调的拼音输入,只要取两组键盘字母复制映射数码,然后按2×2的组合,形成4声调的拼音输入数码,便能进行汉语拼音、汉字的4声调的输入,具体的实用价值非常高,使在字母键盘输入中难以实现的汉语拼音的4声输入变得十分的简单,这在后续的权利要求6中有充分的体现,是本发明的又一精彩的亮点。
五、权利要求5的韩码双拼输入
语言文字是难以分割的两部分,在汉字编码、输入实践中,形码输入特别符合汉字的特点,可以说是对症下药的编码、输入方法,汉字有417种发音,用拼音输入汉字最大的缺点就是重码特多,在仅有数千字的编码输入子集中,重码就多达百余个,如再增加字数,重码当然会更多,实用的拼音输入往往以词条输入为主,这就减少了重码,成了比较流行的汉字输入方法,和形码输入有互补的作用。
在汉语拼音中有23个声母,30多个韵母,作双拼输入时,通常可以在26个字母之内23个声母以外设定某键作虚拟声母以满足无声母拼音的输入,如果在26个字母以外再加1个虚拟字母或键,那就给数码拼音的输入增加了编码空间,其中包括韵母、虚拟声母的设定和韵母输入时的后虚拟键的双拼输入等,这种后 虚拟键的双拼输入,已经不是完整的‘声韵’双拼输入的概念。
1.在拼音输入中汉字的双拼输入是一种较为流行的输入方法,而双拼的声母韵母设定的版本很多。本编码体系采用了比较特殊的韵母设定,基本上是按韵母的5个板块和字母的自然次序顺次排列,特别便于记忆,加上声母绝大多数和电脑键盘上的设定一样,所以在总体上记忆量很少,是一种非常简单易行的拼音输入方法,而且可以利用其字母键位,映射成数码输入,这就淡化了字母,强化了键位与编码数字的设定关系,从而突显了数码的板块和顺序的设定优点,为韩码数字双拼打好了良好的基础,好就好在经字母键盘映射数码后,见到的仅仅是5个韵母系列,和系列中的韵母有规则的排列,这是韩码双拼和其它双拼的本质区别。
2.韩码键盘是将e移到了h位,u移到q位,i移到z位,并互换这6个字母的键位,这样就避免了h当作e用、q当作u用、z当作I用的尴尬,就可以把声母的设定和韵母的设定统一了起来,就常用韩码输入的人来说,有百利而无一害。
2.1那改动是否具有科学性呢,回答是肯定的,这是因为中文输入不同于英文输入,有自己的特点,而键盘是针对英文输入字母使用的频度设计的,中文的拼音字母是借用英文字母的,但字母的使用频度则完全不一样,有的字母占据着重要的键位,象u、i等使用的频度并不高,而使用频度较高的q、z却被边缘化了,所以面对中国如此多的使用键盘的人群,改是一定要改的,只是找不到合理的依据而已;随着韩码双拼的问世,为提高双拼的输入效率,势必要取代杂乱无章的双拼,那改动键盘字母键位的设计,当然要提上议事日程,具有毋庸置疑的科学性。
2.2在韩码输入体系中,键位是一个重复率很高的词,在映射关系中最为突出的数字编码就是由键位确定的,键位和指法有紧密的联系,韩码键盘就是针对键位和指法的一种实用性很强的中文输入的键盘设计,是依据韵母的设定e→h、i→z、u→q进行的,令之互换位置,则新键盘的字母排列是UWHRTYQZOP,ASDFGEJKL,IXCVBNM,显然,H、Q、Z都调到了便于击键的高频度区域,加上原声母的设定zh=o,ch=v,sh=e,就将z、zh,c、ch,s、sh又都在同行呈现,其便于记忆的优点是不言而喻的,而且和韵母在26英文字母设定所在的键位上,按a o e i u 5个系列分块有序排列,形成了高度的统一,即第1行10个键位排列u7o3两个系列,第2行9个键位排列a5e4两个系列,第3行7个键位由‘i’系列独占,是表5的键位形态的突出体现,其中u系和i系有互补交换,以便于在作纯汉语拼音输入时出现重码;字母在键盘中的具体位置是次要的,故延用英文键盘设计,保留英文输入基本格局,只对牵涉到韩码双拼输入的6个字母进行变动,这样改动的实用性是显然的,可以在两种输入体系中共享键盘资源。
3.输入的键盘韵母设定如表5所示,这是按26个字母键位设定的韵母排序,说明如下:
3.1第一行的两个韵母系列,设定a和e正好占9个代码,完全按字母的自然顺序排列。
3.2将韵母u移至字母q位键位,这样的好处是有利于韵母按字母的自然顺序排列,其最后一个韵母是uo,和o系的韵母ou正好有对称的形式,再加上韵母‘ü’,共9个与‘u’有关,这样淡化了字母,只讲排 序,特别便于记忆。
3.3在一行中o系占用右铡3个键位,依次是ou、o、ong分别从I、o、p原键盘字母键位,这里的ou设置是为了此行的整体排序效果,形成u系和o系的自然链接,即形成第1行的uo ou(ü)o ong,效果,以便于记忆。
3.4第3行将I设定在z键上,I系列的排列和in ing和字母n的有机地联系在一起。
3.5互韵母有iang从ua,uang从ia或iu,具有对等、互换或联想的色彩;iao随iang之后从uai或i在系单列;ü从o键,和uo ou ü有自成一体的感觉。
3.6双拼输入中对表5中的加有‘*’的韵母,表示可无声母直接输入汉字,实际输入时缺少一个‘无’的输入信息,需虚拟一个声母,如可选字母a(实为键位);或在后续的拼音数码输入(权利要求6)中设定的26个字母之外的虚拟键位输入,后虚拟键才是真正的虚拟,无需设定特定的字母或符号。
3.7表5对韵母的设定可以看出,韵母除了a外,e u üi在英文键盘上都不是用英文字母键,这里特引进键位这个词,忽略、淡化字母本身,想到的仅是韵母、键位、数码,强化了字母数码的映射、界定,特别的简明,非常便于记忆,当然用韩码键盘则能高度的统一。
4.码双拼中当进入双拼状态,即击过字母键之后,到输入汉字之前,借助符号键可作声调的筛选及翻页的功能。
六、权利要求6的韩码的汉语拼音数码输入和汉字的数码输入
汉字的双拼输入实际上有两个输入层次,1是拼音,2是汉字,汉字的双拼数码输入也是如此。在绝大多数情况下,讲输入都是指输入汉字,很少用到拼音的输入,而忽略了输入拼音的需求,在韩码的双拼数码输入中,不仅讲汉字的输入,还要讲汉语拼音的输入,特别是4声调的汉语拼音的输入功能。
1.韩码的汉语拼音输入或汉字的数码输入形式之一是用26键的设定,拼音数码输入或者叫汉语拼音数码输入是权利要求6的请求保护的内容,这是在权利要求4的字母键盘数字映射的基础上,加上权利要求中的表5或表6的声母、韵母设定基础上形成的数码输入方法;汉字的双拼数码输入,和拼音的数码输入的基本条件和形成过程几乎一样,区别仅在于最终的输入目的的差别,两者是紧密地联系在一起的,都存在着无声调输入,4声调输入和两者兼而有之的综合输入方法。
1.1采用权利要求4所述的字母键盘映射数字编码方法,加上拼音的声母、韵母设定,就能映射成4个数字编码,实现拼音即汉语拼音、或汉字的拼音输入;在说明通用拼音输入时按表4-1表4-2的行排序的键位数字映射取拼音的输入数码,最为简洁明了,具体的举例和体验,由于声母、韵母设定的未知性和不确定性,只能参照后续的韩码拼音数字输入,以理解其普遍适用性。
1.2韩码拼音26键映射数字输入是用权利要求中的表5或表6所述的对声母、韵母的设定,将拼音的声母、韵母映射成4个数字编码,共78个,实现拼音即汉语拼音的输入,或汉字的拼音输入;在权利要求4中的键位数字的映射数码,有取一组、两组、或三组数字映射编码的选择,取一组的映射可实现双拼的无声调的拼音输入,取两组就可作4声调的双拼的拼音输入,取三组的编码方式是同时兼有无声调和有声调双 拼的拼音输入;因为拼音的数码输入和汉字的拼音数码输入大同小异,只是映射目标的差异,或者说是半成品和成品之间的关系;作韩码的汉语拼音的数码输入或汉字的数码输入时引用表4-3表4-4的块(组)分组排序的键位数字映射的数码输入,都采用4码长设定,仅仅是举例不同而已,互换同样适用。
1.2.1表4-3是包括虚键的单组设定,完全满足表5的只用26个字母键的双拼输入,或跳过(虚键数码92,用此选)或删除虚拟键(将字母P的映射数码93改为92),此时的无声母的韵母输入可用26键中去除23个声母设定以外的3键作虚拟声母作无母韵的输入,表5中是设A键作虚拟声母键;现以输入拼音zhong为例,按权利要求5的设定,zh的代码为o,ong的代码为P,再按表4-3的键位数字映射的数码就分别是33和93,即输入3393四个数字就等同于输入了拼音zhong,在软件的支持下,便能显示拼音zhong,从而达到了输入的目的,或者以此数码输入‘中’字等。
1.2.2表4-4是包括虚键的双组设定,和前述一样,用26键时选择跳过,按权利要求4表4权利要求5的表5进行两组的键位数字的一一映射,并进行类似2进制的排列组合形成的4组数字编码,其声调隐藏在4个数字编码之中,这是韩码双拼的4声调输入的典型特色,如要输入拼音‘zhōng’,是1声,取‘1-1’的映射关系,即zh→o→36,ong→P→96的两组数字,两者的结合就是3696,输入3696即相当于输入了zhōng,在软件的支持下便能显示zhōng的输入,或输入‘中’字;再以输入ér为例,系第二声,为1-2的映射关系,根据表4表5,即J映射成67,因为是无声母,在表4-4中设定A虚键的映射数字是44,输入4467即相当于输入了ér,并用软件显示ér,或可输入汉字‘儿’,由此可见,声调隐藏在4个数码之中。
1.2.3根据权利要求4的键位数字映射方法,权利要求5或权利要求6的声母韵母的键位设定,从以上表4-3取单组作无声调的拼音输入,表4-4取两组作4声调的拼音的数码输入,可见无声调输入和有声调的4声调的拼音数码输入都有各自的编码空间互不干扰,取三组的实质便是同时兼有这两种输入而已,要输入上述两例,过程和结果完全一样,是一种特别适用于数字键盘(如手机)的汉字输入方法。
2.码的汉语拼音输入或汉字的数码输入形式之二是用27键的设定,用表4-3和表4-4是最为简明的块分组排序映射设定,其好处是两位数字的前一个数字在作无声调或4声调输入变化时都不会发生变化,变化的只是后一个数字。
无声调输入(表4-3的后1个数字(第二、第四)不外是1、2、3中的1个;
4声调输入(表4-4)的第1声(1-1)组合的第二、第四个数字不外是4、5、6中的1个数字;
第2声(1-2)组合的第二个数字是4、5、6中的一个,第四个数字是7、8、9中的1个;
第3声(2-1)组合的第二个数字是7、8、9中的一个,第四个数字是4、5、6中的1个;
第4声(2-2)组合的第二、第四个数字不外是7、8、9中的1个数字。
如果设定某一组作无声调输入,那另外两组就用作4声调的输入,而且如前述,和4声的关系类似二进制的约定,下面就汉字的音数码输入举例加以说明:
2.1韩码双拼的汉字无声调输入,是在声母、韵母设定的基础上加上权利要求4的表4-3键位数字映射完成。如权利要求所述,要输入‘创’字,首先要知道其拼音chuang,再区分出声母是ch,韵母是uang, 根据权利要求5的表5设定,ch→v,uang→m,根据表4-3,v→81,m→91,那汉字‘创’的拼音无声调数码输入的4个编码就是8191;输入8191即相当于映射到chuang的拼音,是可以作输入chuang的,而这和前款的拼音输入要求不同,是要在拼音是chuang的众多的汉字里找到汉字‘创’,在此后的窗口有6个汉字显示(本试用版),1声有‘窗、疮’,2声有‘床’,3声有‘闯’,4声有‘怆、创’,‘创’字是6中选一。这里的输入数码是8191,权利要求中的是8192,区别仅于韵母的设定而异。
2.2表4-4是两组键位数字映射,作4声调汉字输入或汉语拼音输入,表6是韩码声母、韵母27键设定例表,表4-4的前组的组内编码是4、5、6,后组是7、8、9,每组的中行是公用的小组号,小组号编码即为映射前数码,与有、无声调,及各声调的输入选择无关;作汉字或汉语拼音4声调输入时,第一、第三个数字是小组数(即映射的前数码),区别仅在于第二、第四的小组内映射数码,即在块分组的键位数字映射关系中,在表4-3表4-4的四个数字中有如下特点:
按表4-4是两组模式的键位数字映射表,和表6的声母、韵母设定,有4种组合数字编码,对应着拼音的4个声调,还以续前无声调输入例,改输入拼音是chúang,并2声调的汉字‘床’字为例,根据表6的声母、韵母设定, 即chúang→8498,当输入2声调数码8498,就能输入2声调的拼音→chúang,或输入‘床’字8498→‘床’;同样,要输入‘闯’字,系3声调,数码是8795,就能直接输入‘闯’字,无须选择;‘创’有两个读音,系1声和4声,1声的4声调映射输入数码是8495,4声调数码是8798,都能输入‘创’字,这比无声调的输入数码8191或8192,效果好得多了,请注意这8192、8495、8498、8795、8798中,正好符合了5种输入状态的数码,都有各自的编码空间,就某键位而言,其后数码正好是1、4、7,或2、5、8的规律,和权利要求书中的不外是123、456、789,或者是147、258、369的规律,而且淡化了字母了v、‘虚’键的实际意义,只在于键位和映射的组合。
在27键输入时,编码空间更大更方便,如韵母uang,在表5中设定在z(i)键位,在表6中设定在虚键位,iao在表6中是独占了一个键位,这都是编码空所带来的好处,具有更大的机动能力。
2.3韵母的直接输入例,欲输入汉字‘儿’,拼音是ér,音调系第二声,无声母,按4声调汉字的拼音数码输入,可用表4-2、表4-4映射数码设定,声母、韵母设定可用表5或表6的约定,现先以用表4-4和表5为例,表5的虚声母为A键,按虚声母+韵母的2声调的映射,虚→A→44,er→j→67,那输入ér或汉字‘儿’的数字编码是:4467;再以表6的声母、韵母设定,拼音ér是无声母输入例,或用韵母+虚键进行汉字的拼音数码输入,er→j→64,虚→98,其输入数码是6498,也就是说输入数码6498就可输入拼音‘ér’或汉字‘儿’,在GB2312中有5个字,‘儿’从5中选一输入即可。
2.4在汉字的拼音数码输入中,可设定数字‘0’作中断符,输入特定的常用高频字,这种对简码的记忆投入会给自己带来输入快捷的丰厚回报。续前款,如果设定‘儿’是简码6490,就可直接输6490就能直输‘儿’字了,请注意,简码的设定,是加数字‘0’,可替代后1个、两个、最多3个数字编码,实现直输的目的。
七韩码的卓越性能
1、四笔的部件分配均衡合理,根据对编码数据库的初步统计,对GB2312未作简码设定前的全码进行统计,能3码直接输入的汉字占总数的64%;点笔类的总击键数占击键总数、代码数占代码总数的比例分别是20%和19.2%,竖笔是19%和19.2%,横笔是35%和34.6%,撇笔是26%和27%,误差很少,非 常符合26个键的5∶5∶9∶7的所占比例,这是最为突出的成功之处;
2、四笔的重码率极低,以GB2312为主的字符集,借助符号键能实现3键无重输入;
3、四笔对GB18030的编码非常的简明方便,通过对70244个汉字的编码排序发现,满码长重码最多只有的9个,其编码是uuuu,在现输入平台中只有1个‘茻’字能显示(注),此重码夺冠,与GF3001的‘120号部件(門)’设定有关;次重码8个,编码是nsbi,以下便是8组7重码,以编码rmoy为例,能输入显示(GBK)的只‘爚’一个字;可见重码字会因子集收字的范围变更而改变,多数在GB18030新增的范围内,很难有定论。
4、本人已用四笔层次编码方法,对收录了约一万多字的字典进行了编码排序,现已装订成策,此字典的特点是用四笔编码排序替代拼音排序,把原来的拼音排序改成拼音索引,取消了部首笔划查字的环节。汉字讲的就是字形,按形码编码排序,一字可能有多个发音,都集中在一起,这样特别利于了解一字多音的内涵,克服了往往因为懒得动手再去查验,造成对字的不甚了解;我在编撰字典中,发现一例,是‘拽’这个字,我通常的理解是‘拉’的意思,这也没有错,当在编码排序后发现,此字有3个发音,其中‘zhuāi’的意思是‘扔’,然后‘zhuài’的意思才是‘拉’,不同的声调,意思完全相反,拉和扔的方向正好相反,此例充分说明,以形码归类,将读音归到一起,对于对字的理解十分有利,所以用四笔层次编码排序,为字典、辞典的字词的查找提供了极大的方便,非常的快捷,又因四笔编码只须记忆4笔分类约50个部件组合,非常的简明,查找快捷,必将为中文汉字的研究、出版、创造了非常有利的条件。
5、四笔编码(权利要求1)也好,输入(权利要求2)也好,适用范围很广涵盖GB18030的70244个汉字,显然包括中、日、韩在内,当然可以编撰适用各自范围的子集,将为中、日、韩等民众广泛地使用汉字开了便捷管道,造福各国人民。
6、四笔的形数码(权利要求3)只有4码长,重码也只有数个,5键就能(GB2312)输入任一个汉字,特别适用于通讯用手机的汉字输入。
7、权利要求4的表4特征,是字母键盘映射数字的发明,是韩码拼音数码输入的关键所在,也为其它双拼输入转化为数码输入提供了捷径,和韩码双拼的区别仅局限于虚拟声母的设定。
8、韩码的双拼声母韵母的设定,为华人键盘的诞生开辟了广阔的前景,这是符合华人语言习惯的键盘,属于中国人的键盘,真正的功劳要归功于韩码双拼中的韵母按板块的系列设置和键位数字的映射。
9、韩码双拼的拼音(汉语拼音)数码输入是韩码音数码汉字输入的基础,是十分有效的拼音的输入方法,具有难以替代的诱惑和魅力,用4个数字就能够作4声调的拼音输入,就是用26个英文字母都难以实现,4位数码做到了,而且有着比字母的拼音输入更快的速度、更高的效率,这是一项奇绩。
10、韩码的双拼数码汉字的输入极其简明,具有拼音固有的优点,即对熟悉拼音的青年学生来讲几乎不用学习就会使用,会给手机通讯的发展带来十分利好的前景。
下面以韩码应用实例,证明其优越性能。
a)音数码的输入和形数码一样,也设定为4码长,现以输入我的前申请‘汉字的四笔层次形码及形音的数字编码输入方法’这21个字为例,加深理解一下音数码块分组4声数码输入的实际效果,这21字译成数码如下:汉594、字7787选4、的4、四4887选0、笔8884选7、层7669、次7987选3、形7589选4、码9744选4、及6487翻选、形7589选4、音2686翻选、的4、数19、字7787选4、编8575选5、码9744选4、输1311翻选9、入2717选6、方5454选3、法5744选2,(注:此数码用的老版本,字和数码后的‘选’字说明在现用输入软件中输入了这些数码后,需要选择重码字,‘翻选’是指需要翻页再选。)从中可见有3次需翻页,有3次不足规定的码长,大致单字需要输5键左右,可见就4码长的数字编码输入方法来讲,效率非常高,据编码排序发现,作无声调输入时重码会多到100多个,作4声输入时重码只有50多个。
b)列宁在国家与革命中讲的一段话是:‘被压迫阶级的解放,不仅非进行暴力革命不可,而且非消灭统治阶级所建立的、体现这种脱离的国家政权机构不可。这是马克思对革命的任务做了具体的历史的分析后得出的绝对肯定结论。’将这段话,分别用简形码、形数码,音码、音数码进行了输入演示,根据示例的单字输入统计,包括空格键、翻页键在内,平均单字单输击键数效果如下表:
单输击键数效果表
输入法 | 代码 | 总击键数 | 汉字数 | 平均击键数 | 备注 |
简形码 | 26 | 199 | 78 | 2.55 | 不计空格1.99键 |
形数码 | 10 | 296 | 78 | 3.8 | |
音码 | 26 | 285 | 78 | 3.65 | |
无声调音码 | 9 | 451 | 78 | 5.78 | |
4声音码 | 9 | 383 | 78 | 4.91 | 全码 |
4声音码 | 10 | 336 | 78 | 4.3 | 用了简码 |
c)再举胡锦涛同志在西柏坂的一段讲话是:‘我们永远不能忘记他们为党和人民建立的丰功伟绩,永远不能忘记他们用生命培育的奋斗精神,一定要继承和发扬他们的优秀品质和崇高精神,做到为党和人民的事业生命不息、奋斗不止。’(78字)现以单字对应的形式,译成四笔形码如下:z xq q;asq s vye tr;qjxh xq r Ion bo x,jl gl tw b g;ah,xg vgy,q;asq s vye tr;qj xh xq n,z,moj fto ty;b sp;wd rgy qo,,a- rj av vru le bo vk kl xh xq b xk bb ooo ndxbo irq to rgy qo,,xdz afp r Ion bo x,jl b g p,z;moj s nr、sp;wd s i]。
从编码的译文可见,单字最多3码,平均单字单输击键数如下:如不包括空格键共171个字符,171/78=2.2(键);如包括空格键,设空格=0.6键,则有(171+25)/78=2.51(键),此例是依据实际编码设定的输入软件的统计数,单字平均击键数不仅与所选文章相关,也与部件归类的多少呈逆相关,减少大类必然导致击键数增高,此只比原说明书增加了0.1键,都在可选择之中。
d)下面是利用韩码排序编撰字典例,突显了删除笔划检字的环节,以百家姓中的前24个姓在字典中所在页码,还在表中列出了相应的形数码、双拼码和4声调的数字编码,其中包括简体字和正体字,突显韩码 的综合性能。证明用四笔50类部件组合的层次编码排序,非常的简明便捷。
韩码字典及双拼数码例字列表
注:1、表中字典页是指收字约一万多字韩码字典试用本;形数是指权利要求3的3部件码加1结构码输入法(表2);
2、韩码双拼的字母代码用的是韩码键盘设定,和通用键盘的差别在于‘u e i’3个字母和‘q h z’对调。
3、韩码音数码用的是4声调的数字设定,映射关系采用的是权利要求4中的表4-4。
e)再用通用键盘映射的韩码4声调数码输入例如下:
亲 爱 的 爸 爸 妈 妈, 新 年 好, ……祝 你 们 身
qin1 ai4 de ba4 ba4 ma ma, xin nian2 hao4,……zhu4 ni3 men4 shen
1485 4748 4656 8847 8847 9644 9644 7585 8678 5958 3917 8974 9768 8565
体 健 康, 寿 比 南 山! 儿 某。
ti jian4 kang,shou4 bi3 nan2 shang3!er2 mou3。
2574 6778 6554 8738 8874 8649 1954 4467 9735。
其效果显然是,只用4位数字,即击键数只为4,比用字母的击键数要少许多,还能区分音调,比字母拼音输入要简明得多,定会给手机的汉字输入应用提供极大的方便,具有美好的前景,加设‘0’简码,效果会更好。
Claims (6)
1.一种汉字的形音数的综合编码方法和应用,是一种用于汉字信息交换、信息处理的编码方法,集形(GB18030)、音(GB2312)、数(GB2312)为一体的多种集合的综合编码、输入方法。对GB2312形码采用的是层次3码的方案,对GB18030则增加了一个层次,采用了层次4码的方法,编码部件都以点、竖、横、撇4笔分类,也叫汉字的四笔层次形码(简称四笔),再加上双拼音码和形、音的数字编码、输入等,统称为汉字的形音数的综合编码方法(简称韩码)。韩码四笔非常的简明,编码部件和GF3001中的560个部件的大部分相同,新增、减少的部件很少,并归纳为约50类的部件组合,记忆量很少,可操作性极强,非常简单易行,应用非常的广泛;例如:可对GB18030的任何子集进行编码排序,应用到字典就能替代部首检字,删除笔划排序的检字环节,具有划时代的意义;在键盘编码输入中,形码常用汉字子集可用3码长的26个字母输入和4码长的10个数字键输入两种,对通用汉字子集则常用层次4码输入汉字;韩码拼音数字输入是建立在字母键位映射数字关系上的数字输入,以声韵双拼基础,所以适用于任何声韵双拼输入,而且包括两部分,1是拼音的直接输入,2是汉字的拼音输入;韩码拼音输入是以韵母键位顺次设置为特征的输入,韩码拼音数字输入是以韩码的声母韵母设置,再映射成4位数字的数码输入,兼有无声调输入、4声调输入的综合数字输入等,且输入目的可以是汉语的拼音,也可以是汉字等。这就形成了一种综合的编码方法,输入是其最主要的应用,其特征在于:
1.1汉字形码的编码部件以起笔分点(捺)、竖、横、撇四个人类,分别以通用键盘的26个英文字母为代码,按5∶5∶9∶7的键盘自然顺序从左到右、从上到下依次排列,据GB2312字符集的编码排序统计表明,四笔依5∶5∶9∶7的比例分类配置恰到好处,四笔部件所用代码使用的频度几乎和字母所占的比例相同,将编码部件综合概括成约50种组合,编码部件和GF3001中的560个部件的大部分相同,新增、减少的部件很少,这样的按键盘键位的自然顺序依次设置,既简明又便于记忆、详见表1和说明书。
1.2汉字的四笔层次形码,是根据汉字的造字层次,逐层取根码的编码方法,特点是编码部件可以是笔划、部首、独体字、也可以是多根字,具有明显的变通特征和省略,层次性非常突出;目前的GB18030收字70244个汉字,包括中日韩三国使用的任何汉字,都可采用4码长的四笔层次编码方法,具体的层次编码方法是:4部件以内直取部件代码,对多部件组成的即4部件以上的复杂汉字,取层次4码,是先按层次找出两个突出的偏旁部首代码,然后再取剩余部分的首尾双码,且4码的排序依照书写次序排次;如‘敏、繁’两字,系4部件以内,取部件的编码分别是:zuz、zuzv;如‘蘩’字的编码方法是,先逐层找出部首‘艹、糸’,再找出首尾部件‘ 攵’,这4个部件的代码是‘h、v、z、z’,从部件代码变成编码是按字的部件的书写次序依次排列,编码是‘hzzv’。层次编码大致有如下五种类型,一是逐层分解类(即前例),二是并列两字型,如 字的编码取两个字的首尾代码‘tata’;三是3字并列型,如‘厵’字,取3个字的首部件代码,再加末部件码,其编码是‘sssi’。四由4字组成类,如由4个‘原’组成的字的编码则是‘ssss’,这里只把‘原’看成一个编码部件,只取首部件(厂)的代码,把以后的‘白’‘小’都视 为省略,再如‘西域哲人’例,编码取4字的首部码,编码是‘afkx’;五层次性不明显的汉字编码,相对要复杂些,如‘壽、 嘂、 ’等,编码见说明。在实际应用中,对复杂汉字的编码是按码长优先、部件设定、对征入座、总体平衡、突出特征、成字优先、交重拆2和简码设定等8项基本规则编码,详见说明书。
汉字四笔层次编码的应用,最简单的也是最突出的用途就是按四笔编码排序编撰字典,可根据各种需要编撰若干类子集,或用于电脑键盘的汉字输入等,重码少说明四笔层次设计合理,都突显了简单易学,部件设置、分类层次分明,简洁明快的特点。
字根代码分类设置表(表1)
2.根据权利要求1所述的汉字的形音数的综合编码方法利应用,四笔层次形码的键盘输入方法是以输入汉字为目的的主要应用之一,GB18030有七万多字,四笔层次形码的实际应用例是最常用的就是以GB2312为主体的3码长的输入子集,和以GBK为主体的两万多字的4码长的输入子集,所用编码部件和GF3001中的560 个部件大部分都相同;四笔层次形码输入自96年问世以来,利用符号键的剩余资源,在十多年的输入实践中发挥着良好的效果,其特征在于:
2.1汉字的四笔层次形码的键盘输入方法,是四笔编码方法的具体应用,最常用的是以GB2312为主体的3码长的输入子集,设定编码最多取3个,3部件(含3个)以下字用部件码,3部件以上的取层次3码,单根字、双根字、包括3部件字或3部件以上的高频字,可以用空格键、或符号键作一级简码或二级简码输入,如:‘敏、繁、蘩’用3码长的输入编码分别是‘zuz、zzv、hzv’,象‘的’“不”的这类高频字就是用编码b、s加空格作简码直接输入等,其符号键的利用和具体输入例,祥见说明书。
2.2汉字的四笔层次形码的键盘输入方法,对GB18030为主的输入子集,编码最多取4个,单根字、双根字,取根码,用特定符号(11个)作简码输入;3根字取3根码,有重码时可加如表2所示的三点式九宫结构码符号直接输入,这样可减少重码;编码部件是4个的正好取4码,多于4个的取层次4码;对高频字可以不受部件多少的限制,可直接加空格作1、2、3级简码输入。以‘母、每、敏、繁、蘩’为例,输入编码分别是:u、zu、zuz、zuzv、hzzv;再以‘原’、‘厵’的编码输入为例,‘原’单独输入时用3个明显的根部件‘厂’‘白’‘小’,即‘sbi’3码加空格直接输入,‘厵’字先取3个首部件(厂)的代码,再取末部件‘小’的编码,全码是‘sssi’,也可用3点式九宫结构码(详见表2)‘sss/’输入;由4个‘原’组成的字,是把‘原’看成一个编码部件,把以后的白、小视为省略,输入编码是‘ssss’。
九宫结构码分类表(表2)
注:每格的上行为结构特征,下行的数字为数字结构代码、标点符号因键盘设计的差异为暂定代码,是按标准键盘排列的键位设置,本质是9类结构代码,允许具体数字、符号有变动。
在输入中双根结构码分4种,即左右(,.)、上下(;‘)、交包(/、)、粘联即拆分的独体字([])等8个符号表示,包括剩余的3个(-=`)共11个符号键,(`)设为符号的专用输入键,(-)为中文数字专用,(`、-、=)也作字根、两级简码键使用;单根时10个符号键作重码区别键和1级简码键使用。
3.根据权利要求1所述的汉字的形音数的综合编码方法和应用,四笔形码的数字编码输入是用3个部件数字码加1个九宫数字结构码输入汉字,是用于涵盖GB2312字符集为主体的一种数字编码输入方法,主要适用于通讯手机的汉字输入、也可用于电脑数字键盘的输入,其特征在于:
四笔编码部件以点2、横3、撇2、竖2的比例,设定在1~9的9个数字键上。不管汉字的笔划多少,都取3个部件编码,独体字中单笔重1笔,两笔以上取总根码、加拆2双(或首尾笔划,或两部件)码(如人、凸、凹、垂、重等);双根字取偏旁部首码,和非偏旁部首部件的拆2双码;3根字取3根码、多根字取层次3根码。在四笔形数码的输入中,部件编码只取3个,再加一个同权利要求2(1)表2中的数字键所示的3点式结构码,码长为4,其中独体字的结构码为1,双根字的结构码为2,‘0’数字键作中断、 简码键使用,即加0作1、2、3级简码输入,不受部件多少的约束,部件数码设定(可调整)如下:
形数码归类表(表3)
4.根据权利要求1所述的汉字的形音数的综合编码方法和应用,将字母或键位映射成81(78)个1-9的两个数字的方法,可以作信息的转换、传输、汉语拼音的输入、汉字的数码输入等广泛地应用,特别是手机的汉字的拼音输入功能,效果特佳,克服了手机汉字输入难的瓶颈难题,其特征在于:
以电脑键盘的26个字母键位,再加一个虚拟键位,共27个,正好以1~9的数字排列作字母键位代码,字母键位码长为2,共81种,其中26个可作为字母映射数字信息的转换代码,作转换传输信息用,或作拼音的无声调数码输入、双拼输入用;54个或81个都可用于作信息的传输用的字符转换,特别是以52个字母键位映射数字,作为汉语拼音的4声调数字编码输入,效果极佳;由此可见,用78或81个的字母键位映射数字可以同时作无声调输入和4声调输入汉语拼音输入或汉字的输入,而且它们有各自的编码空间,互不干扰,无需切换便可任意变通输入,同时可以令数字‘0’键作中断键使用。在双拼输入中是用26个字母设定,设有虚拟声母,那就直接导用字母键位映射数码输入,在27个键位映射条件下,韵母直接输入还可以后虚拟代码的方式输入,即将新增的虚键作为韵母的后虚拟直接输入汉字等。
键位行无声调拼音数码设定表(表4-1)
映射数码作无声调输入和4声调输入时,具体的设置数字映射方法根据九九行列排列,
大体上有行、列、错3种设置,以行设置最为简明易懂,块设置在拼音输入中最为实用。
键位行4声调拼音数码设定表(表4-2)
键位组块第一组无声调数码设定表(表4-3)
注:上表分9个小组,拟作无声调输入,上行是组号数码和所属组内字母,下行是键位字母和相应的位码。
键位组块第二、第三组4声调数码设定表(表4-4)
注:上表大格中行是组码,小格是字母的位次码,上行为2进制的‘1’的位码,下行为‘2’的位码,两者组合形成4个数码,用作4声调拼音、4声调汉字输入。轻声可用表6-1的456、789,表6-2的123等实施输入。
上表4-3表4-4是组块设置(包括斜角转换设置)例表,特点是在拼音数字输入中,明显地隐含着大组特征,具有区分无声调输入、4声调输入和何声调输入的特点,以标准键盘中的27个键位分成9组,3个字母为1小组,分别用1~9个数字代表,小组内的代码不外是123、456、789;或者是147、258、369这两种分类组合,实际上它们是基本等价的,都是9个数字中的3个,分配给3个键位作代码。表4-3可 用作无声调拼音输入,其后数字特征是1、2、3个数字中的一个,表4-4是两组27个数字,采用2进制作双拼4声输入,形成4位数码的4种组合,方法是11、12、21、22分别对应一、二、三、四、四个声调的数字编码,其中1对应4、5、6,2对应7、8、9,四声输入的数字编码,按这样的组合,其后一个数字不外是4、5、6或7、8、9中的一个,显然两者互不干扰,异常的简明,两者合并起来便能同时得到两类拼音的综合输入,对26键映射同样适用,同时可以用‘0’数字键作中断键使用。
5.根据权利要求1所述的汉字的形音数的综合编码方法和应用,韩码的拼音输入是以声韵双拼为基础的输入方法,和形码输入有互补的作用,其特征在于:
韩码的双拼输入是以26个英文字母为代码的输入方法,设定声母ch=v,zh=o,sh=e,虚拟声母=a键,其它声母从原键;韵母设定是将a、o、e、i、u(ü)这5个韵母系列,划定5个区域顺次设定,如表5所示,表中的26格代表键盘的26个字母键位,其特点是用通用键盘的第一行设定u o系列,第二行设定a e系列,第三行设定为i系列,并按字母的自然顺序排列,这样的声母、韵母的键位设定非常容易记忆,是一种简明快捷的拼音输入或用汉字的拼音输入方法。
根据韩码拼音输入的键盘设定,作u→q→u,e→h→e,i→z→i互换,韩码键盘也就顺理成章地诞生了,新的键盘字母排序是上行u w h r t y q z o p,中行a s d f g e j k l,下行i x c v b n m其突出的优点是适合汉字或汉语拼音的输入,是属于华人的键盘,尤其是将字母键位变换成数字输入状态时,淡化了字母的特质,强化了拼音韵母的有规则的排列,从而使手机的汉字数字双拼输入变得非常的简明快捷,特别是用键盘难以实现的4声调的拼音输入,变得十分简单易行,为后续数字双拼输入奠定了良好基础。
韩码键盘双拼键位设定A表(表5)
韩码双拼利用符号键可作变通设定翻页功能,即在拼音进入输入状态后,即击过首键(声母或韵母)后,会弹出窗口,提示常用字的的输入;击过第二键(即声母后续韵母键)即完成双拼后,或继续输入双拼数字作词条的输入,或利用弹出的所输音节的汉字提示窗口,直接选中字的输入;提示窗口有15个分类汉字提示输入键(5类音标,每类3个),还有5个翻页键,分别是4声调和无声调5类输入,选中便进行分类翻页,翻页后便能同时提示20(10个符号和10个数字)个选择,这样就减少了层次,输入更为快捷。
6.根据权利要求1所述的汉字的形音数的综合编码方法和应用,和权利要求4所述的字母键位映射数码设定,以及拼音的声母、韵母的设定,就可以作汉语拼音数码输入或汉字的拼音数码输入,其中声母、韵母设定可以用权利要求5的韩码双拼设定,也可以作其它的任意的声韵设定,都可以作拼音的无声调的输入、4声调 的输入,和两者的综合数码输入等,这是韩码的又一典型应用之一,其特征在于:
6.1韩码的汉语拼音数字输入和汉字的拼音数字输入,是在权利要求4的字母键位映射数字基础上的输入方法,以表4-3、表4-4映射关系为例,采用权利要求5的韩码双拼的用26个键位的映射,即权利要求5的声母、韵母(表5)设定,显然,此时的映射只涉及26个字母键位,共78个映射数字,再依据这些数字编码,输入汉语拼音或汉字,现以输入拼音“chuàng”和汉字“创”为例,加以方法的阐明。
首先作拼音“chuang”的无声调输入,根据权利要求5的表5的声韵双拼设定,将chuang拆分成‘ch’‘uang’,其中ch→v,uang→m,即chuang→vm;按权利要求4的表4-3的映射关系,v→81、m→91,双拼的字符编码映射成数字编码就是8191,在软件的支持下,键入8191,便可输入→chuang或汉字‘创’。
作拼音“chuàng”的4声调的输入,所涉键位相同,有ch→v,uang→m,chuang→vm;由于是4声调的第4声的拼音、汉字输入,所以要依据表4-4的映射关系表,第4声属22设定,便得出ch→v 87,uang→m 97,vz→8797;在软件的支持下,键入8797,便可输入→chuàng,或输入汉字‘创’。
6.2韩码的汉语拼音数字输入和汉字的拼音数字输入,在27个键位映射条件下,编码空间有了扩大,选择的余地增加了,表6和表5的不同正在于此,表6的变化体现在将‘iao’单列,其后韵母顺延,即‘uang’移到了虚拟键位,下面仍以输入拼音“chuàng”和汉字“创”为例,用表4-3、表4-4的字母键位映射数字,举例说明汉语拼音或汉字的数字输入方法。
首先对拼音“chuang”作无声调输入,将chuang拆分成‘ch’‘uang’,根据表6声韵双拼设定,其中ch→v,uang→虚,即chuang→v虚;按权利要求4的表4-3的映射关系,v→81、虚→92,双拼的字符编码映射成数字的编码是8192,在软件的支持下,键入8192,便可输入→chuang,或输入汉字‘创’。
作拼音“chuàng”的4声调的输入,同样根据表6的声韵双拼设定,字母键位代码和紧前相同,有ch→v,uang→虚,chuang→v虚;由于是4声调的第4声的拼音、汉字输入,所以映射关系要依据表4-4进行,即第4声属22设定(参见第7页第2行),便得出ch→v 87,uang→虚 98,v虚→8798;
在软件的支持下,键入8798,便可输入→chuàng,或输入汉字‘创’。
从上述的汉语拼音“chuàng”及汉字‘创’的拼音数码输入证明,利用权利要求4的映射关系可以作26键(可以是通用键盘,也可以如表5所示的特定键盘等)双拼的无声调、4声调的输入,也可以适用27键(表6)双拼的无声调、4声调的输入,同时还证明权利要求4的映射是关键,应用变化万千,是非常广泛的,韩码拼音及键盘就是映射应用的最好范例。
韩码键盘双拼键位设定B表(表6)
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310637474.2A CN104123011B (zh) | 2009-06-18 | 2009-06-18 | 汉字和汉语拼音的编码输入方法 |
CN 200910149939 CN101930292B (zh) | 2009-06-18 | 2009-06-18 | 汉字的形音数的综合编码输入方法和应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200910149939 CN101930292B (zh) | 2009-06-18 | 2009-06-18 | 汉字的形音数的综合编码输入方法和应用 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310637474.2A Division CN104123011B (zh) | 2009-06-18 | 2009-06-18 | 汉字和汉语拼音的编码输入方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101930292A true CN101930292A (zh) | 2010-12-29 |
CN101930292B CN101930292B (zh) | 2013-12-18 |
Family
ID=43369502
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 200910149939 Active CN101930292B (zh) | 2009-06-18 | 2009-06-18 | 汉字的形音数的综合编码输入方法和应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101930292B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103729066A (zh) * | 2012-10-12 | 2014-04-16 | 李焌坚 | 一种支持模糊音的数字双拼双笔整句输入法及其键盘方案 |
CN110442246A (zh) * | 2019-05-07 | 2019-11-12 | 佐建明 | 一种汉字部件输入法 |
CN112307277A (zh) * | 2020-09-29 | 2021-02-02 | 西安赢瑞电子有限公司 | 一种汉字串匹配预判方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1203391C (zh) * | 2002-08-02 | 2005-05-25 | 郑岩松 | 左右音形数码汉字电脑输入法及其键盘 |
CN101093421A (zh) * | 2006-06-20 | 2007-12-26 | 韩恒瑞 | 汉字的四笔层次形码及形音的数字编码输入方法 |
-
2009
- 2009-06-18 CN CN 200910149939 patent/CN101930292B/zh active Active
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103729066A (zh) * | 2012-10-12 | 2014-04-16 | 李焌坚 | 一种支持模糊音的数字双拼双笔整句输入法及其键盘方案 |
CN110442246A (zh) * | 2019-05-07 | 2019-11-12 | 佐建明 | 一种汉字部件输入法 |
CN112307277A (zh) * | 2020-09-29 | 2021-02-02 | 西安赢瑞电子有限公司 | 一种汉字串匹配预判方法 |
Also Published As
Publication number | Publication date |
---|---|
CN101930292B (zh) | 2013-12-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20080232689A1 (en) | Coding systems for Chinese characters and uses thereof | |
CN101930292B (zh) | 汉字的形音数的综合编码输入方法和应用 | |
CN104123011A (zh) | 汉字和汉语拼音的编码输入方法和应用 | |
CN102750000A (zh) | 双拼王输入法 | |
CN102053719A (zh) | 华文汉字输入法 | |
CN101093421A (zh) | 汉字的四笔层次形码及形音的数字编码输入方法 | |
WO2010131759A1 (ja) | 中国語入力パソコン | |
CN102253726B (zh) | 一种计算机汉字数字笔画的输入方法及键盘技术 | |
CN105045410A (zh) | 一种形式化拼音和汉字对应识别的方法 | |
CN103176614A (zh) | 多键共击速录 | |
CN101587381B (zh) | 音形汉字无重码输入法 | |
CN101086686A (zh) | 一种数字键盘汉字输入法 | |
CN100545790C (zh) | 计算机汉字信息猎头码输入法 | |
Von Mengden | Ablaut or transfixation? On the Old English strong verbs | |
CN104731362A (zh) | 中文炎码快录 | |
CN101901061B (zh) | 汉字序码输入方法 | |
CN1108553C (zh) | 通用普及型音元形音汉字编码输入方法 | |
CN1028386C (zh) | 电脑汉字象形编码输入计算机的方法 | |
CN101149642A (zh) | 手机电脑通用之全汉字无重码三角数码专业分类输入法 | |
CN102902370A (zh) | 一种计算机类形码汉字键盘技术 | |
CN101706685A (zh) | 一种汉字输入法 | |
CN1125393C (zh) | 利用计算机键盘汉字编码输入方法 | |
CN1609765B (zh) | 活字码中文字根输入法及其键盘 | |
CN1194397A (zh) | 一种汉字输入方法及其键盘设计 | |
Wain | The word ‘lebai’and its ethnic origins: reassessing an early designation for Muslim religious officials in the Malay world |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
DD01 | Delivery of document by public notice |
Addressee: Han Hengrui Document name: Notification of Patent Invention Entering into Substantive Examination Stage |
|
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |