CN101625598A - 一种符合文字理据的汉字编码及键盘输入技术 - Google Patents

一种符合文字理据的汉字编码及键盘输入技术 Download PDF

Info

Publication number
CN101625598A
CN101625598A CN200810071358A CN200810071358A CN101625598A CN 101625598 A CN101625598 A CN 101625598A CN 200810071358 A CN200810071358 A CN 200810071358A CN 200810071358 A CN200810071358 A CN 200810071358A CN 101625598 A CN101625598 A CN 101625598A
Authority
CN
China
Prior art keywords
parts
chinese character
word
coding
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200810071358A
Other languages
English (en)
Inventor
谢振斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN200810071358A priority Critical patent/CN101625598A/zh
Publication of CN101625598A publication Critical patent/CN101625598A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本发明是一种汉字的信息编码及录入技术。本发明依据汉字的字源字理对汉字进行部件拆分、分类和编码,依据象形或谐音把部件映射到26个字母上,做到规则简单、好学易记、科学规范、简繁统一,可以适应大字符集和海量词语的编码和输入。编码符合语文规范、字源字理,能够很好地传承汉字的文化内涵,还可以应用于字典编纂、汉字教学、汉字排序检索等领域。

Description

一种符合文字理据的汉字编码及键盘输入技术
技术领域
本发明是一种汉字的电脑键盘输入方案,涉及汉字的编码技术和软件优化技术。
背景技术
目前的电脑输入法,主要分为形码、音码和结合音形信息的音形码或形音码。
音码是一种以字音信息为基础的汉字编码,目前大陆流行的音码是“拼音输入法”。拼音输入法的优点是容易学习使用,上手快,缺点是重码率高,对于非常用的字词和不懂发音的字输入困难。
形码是一种以字形信息为基础的汉字编码,多数以字根为编码基础,如五笔字型、郑码等。
它们的优点是重码率比拼音大大降低,输入速度较快。
但缺点是学习掌握的难度较大,需要记忆的东西太多,一段时间不用就很容易忘记。而且多数的部件拆分不符合字源字理,不利于汉字文化的传承、教育和发展。
另外也有一些结合音形或者笔画信息的汉字编码,但基本上都一样无法兼顾易学、高效、科学的矛盾。
发明内容
本输入法方案设计的目标,就是为了解决目前输入法技术存在的这些不足,真正突破汉字形码编码的理论难题。
本输入法提供了多种编码输入模式,有部件码(形码)、拼音码、笔画码等编码方式,其中形码是本方案的重点。
拼音输入模式是为了兼顾一些用户的便利和习惯,而且新增“子字拼音输入法”,弥补了目前拼音输入法的不足。
笔画是主要是为了检字目的。当不懂拼音又不懂部件时,就可以利用它迅速获得相关信息。
用户可以随时选择需要的输入模式,但也允许一种模式下不切换而直接输入另一种编码,如此大大方便用户的使用。
在软件优化上也具有多项独特的技术。总体的优良设计,使得本输入法能够适应多类型的人群。
而本输入法的重点在于独创的“全息部件编码”,它大大超越了现有的各种形码方案,解决了易学和高速的矛盾。
以下就部件码、拼音码、软件技术分别给予介绍。
第一篇全息部件编码的设计
一、编码特征
山人全息码具有以下主要特征:
1.基于汉字的字源和构字原理进行拆分,以传统的部首为基础,符合语文规范,很好地实现汉字文化的传承。可以用于汉字基础教育、字书编纂、汉字检索排序等领域。
2.包含汉字形体结构的全部信息,是一种全息编码。不仅能见字识码,而且能见码识字。这是现有的所有编码做不到的。
3.所有的部件几乎都有唯一的编码(1-2字母),所以几乎不丢失汉字的信息。
4.部件科学地归纳为26个大类,初学者只需要记住这26类就可以开始打字,几乎没有学习难度。
1、全息特征
简要说明一下“全息特征”:
(1)编码撷取了全部的汉字部件信息。
不做类似“前三末一”的残缺选择,不做码长的限制。
汉字的编码是由它的全部部件的编码罗列而成,而部件本身编码几乎是唯一的,所以汉字信息几乎不丢失。
(2)母字和子字的编码机理一致。
汉字子字的编码,一定包含在母字编码之中,而且彼此编码原理完全一样。
比如:“菇”包含了子字“姑”,那么“菇”的编码CNCO,一定包含“姑”的编码NCO。
同理:“姑”包含了子字“古”,那么“姑”的编码NCO,一定包含“古”的编码CO。
注:汉字中包含的字块称为“子字”(也称“部件”或“偏旁”)。
(3)词语和单字编码机理一致。
“词语是由一组汉字组成”,和“汉字是由一组部件组成”,可以类比看待。
也就是说,词语编码和汉字编码原理是统一的。所以不需要另外学习词语规则。
比如:“日月”这个词的编码是BD,“明”这个字的编码也是BD。为他们的部件序列是一致的。
你可以把“树”字假想成“木又寸”这个“词语”,进行编码。
所以,本编码方案是一种真正的全息编码。
2、编码的科学性
(1)部件拆分符合字源字理
汉字的拆分是根据汉字造字的原理进行的,基础部件表中的部件几乎都是传统汉字部首。
(2)部件分类科学规范
按照部件的文化内涵进行分类,把约300个部件,归纳为26个大类,符合汉字造字的科学性。
26大类分别是:
日  月  金  木  水  火  土
虫  草  人  体  心  口  手
民  言  衣  食  住  行  财
八  叉  横  竖  撇  点  折
(注:其中“月、点”合并了,“水、竖”也合并了。)
(3)部件的大类码和小类码,都是经过精心设计,并利用信息理论进行全面的优化,使得编码系统既保证了简单易学,又保证符合科学,而且可以做到高速输入。
(4)几乎不受新旧字形和简繁字形的干扰。
换句话说,一般同一个字,我们怎么输入,港台人士也可以怎么输入,不需要分为两套编码。比如“鲜、鲜”是KvKy,“说、説、說”都是IVOV。
(5)几乎不受笔顺争议的影响。这是许多基于笔画信息的编码无法做到的。
(6)可以适应已经收入到Unicode中的全部7万多个汉字的输入,并且可以无限扩展。
(7)没有码长限制,没有人为的部件取舍,有多少部件就取多少部件。确保汉字信息不损耗。
二、设计过程
本方案涉及的形码,全称为“山人全息部件码”,是一种基于汉字部件拆分的纯形编码,力求最大限度地保留汉字的文化信息内涵,是一种真正的全息编码。
(2.1)编码的目标原则
本发明的部件编码,在设计之初就确立了以下一些目标原则:
(1)汉字拆分必须符合汉字字源、造字原理、演变规律,不能光凭字形随意肢解。
(2)兼容篆书、隶书、楷书,兼容简繁体,兼容新旧字形。比如“说、說”就连它的小篆编码都是相同的。
(3)尽量避免因为汉字演变历史中字形演变或讹误造成的困扰。对某些讹误字形进行认同编码。
(4)将汉字分解为一组部件序列,并映射到相应的字母编码上。力求不损失信息,达到全息编码的效果。
(5)基于26个字母进行编码,不限制码长,按照部件书写顺序取码。
(6)以最科学的方法对汉字基础部件进行分类,归结为26类,并给出大类码。
(7)合理的部件归并。确保既适当兼容字形演变,又不损耗汉字信息。设立了“义并”和“形并”原则。
(8)优化部件映射,确保极低的记忆量。大类码按照发音或者形状联想,并结合击键负荷来统筹设计。
小类码则根据部件的音形信息规定,一般独体的使用声母,合体则取用特征构件编码。
(9)兼顾初学者的低门槛要求和熟练者的盲打要求。初学者只需要懂得26个大类就可以输入,熟练者结合部件的小码可以做到高速盲打。
(10)兼容拼音和笔画输入。这对不会拆字或不记得编码的时候很有价值。
(11)规则及其简单,就是顺序输入部件编码即可。
但输入时允许一些省简,不如可以省掉小码的输入,比如允许不切换地输入笔画或拼音。
(12)词语输入和单字输入方法完全一致。罗列部件编码即可。
(13)简单直观的拆分原则。符合大众认知,又要符合字源字理。
(14)每个部件几乎都有唯一性编码,不像一般输入法那样,一个字母对应很多部件。
(15)部件映射优化设计。
利用部件的信息量、最佳理论码长、部件互斥研究、均衡分布、键盘负荷分布等进行科学设计,达到极低的重码率和键选率。
(16)规范性、科学性。可用于基础教学、字典编纂、汉字检索排序等,并最大程度地继承汉字文化内涵。
(17)不认识汉字拼音和字义的人也可以很快掌握和使用。
(18)尽量避免笔画变形和笔顺二义性的干扰。比如“匕”旧字形是“一乚”、“丿乚”,普通人甚至弄不清那一笔先写。那些按照起笔分类的方案就会出现困扰,用户搞不清该用“一”、“乚”、还是“丿”。
(19)在不使用类似末笔交叉码、结构辅助码等特殊规则情况下,做到比五笔字型重码更少,平均码长更短。支持上百万词语时也不会明显增加重码。
(2.2)汉字结构原理
首先,我们大家知道,汉字最早是一些象形符号,随着不断的发展,这些符号按照一些原则组合成更加复杂的形体,代表更加复杂的意义。这些规则就是我们常说的六书。
古代把那些象形符号称为“文”,而合成出来的符号称为“字”,就是所谓的“独体为文,合体为字”。
六书包含汉字的构造原则和用法:象形、指事、会意、形声、假借、转注。
汉代的许慎著述的《说文解字》对汉字的字源、字构、意义,有较科学全面的整理和记述。
汉字虽然经过了几千年的演变,但是这些基本的构造原则一直没有变化,也正是因为汉字的这种巧妙的设计,使得它成为如今世上仅存的一种表意文字。
现代汉字的独体字,就是相当于古代的“文”,是负载有一定文化含义的基本元素。
而现代汉字的合体字,就相当于古代的“字”,除了少量的指事、会意字外,约80%以上的汉字属于形声字。
由于经过漫长的演变,汉字产生了较大的形体改变,部分甚至出现了讹误。
从造字用字的角度看,出现了大量用字分化、假借、引申、繁化、简化、变异等形态,从而出现了大量的新汉字和异体字。
使得汉字这个家族的成员日趋庞大。
但统计表明,在同一个时代里的实际使用汉字数量并不是很多,大约在5千~1万左右。
特别是常用的汉字,非常集中。
因为汉字的使用不是均等的,不同汉字具有不同的实用频度,它们符合一定的分布规律。
(2.3)汉字编码思路
既然汉字本来就是通过一些基本字形元素,通过一些原则组合起来的,那么就一定可以分解出这些基本元素来,并对这些元素进行序列化和编码,从而得到汉字的完全信息编码。
我们称这种基本元素为“基础部件”或“基元”、“字根”,本文论述中若出现这样的术语时,它们是同义的。
按照信息理论,不难证明这样的方法是最佳的编码方法。因为部件本身是信息的高度聚合体。它不是随机的笔画组合,而是具有稳定形体的、负荷一定内涵的笔画组合。
一些基本术语的定义:
【构件】:由一组笔画组成,是组成汉字或部件的字形元素(零件)。
【部件】:是组成汉字的一组具有稳定形体和含义的笔画组合。它是负荷有一定的含义构件,是组建复杂汉字的元素。也可称为“偏旁”、“字块”等。
【基础部件】:不能继续拆分的部件,是具备一定含义的最小汉字构造单位。又称为“字根”、“基元”等。在本文的叙述中,为了方便,在一般不引起歧义的情况下,基础部件也简称之为“部件”。
【义件】:汉字结构中和汉字意义关联的部件。合体字一般都有一个或以上的“义件”,不过经过长期演变,部分汉字“义件”的含义关联已经不明显或者完全丢失。
【声件】:形声字中和汉字发音关联的部件。不过部分“声件”由于长期的演变,表音能力已经削弱甚至丧失。
【部首】:统领一组汉字意义归属的基础部件,它代表一族汉字的意义特征或共性归纳。也是一般字典归部的依据。
既然汉字是由部件组成的,那么我们的第一步工作就是把汉字拆分成一系列部件的组合。
为了制定好科学的基础部件表,使汉字拆分能够满足前述目标原则,我们必须结合大量的文字学知识、汉字字源字理分析研究来进行,并结合字频进行大量的信息量统计、互斥研究、重码分析等,保证拆分结果和编码结果的科学性。
当拆分出现可能的二义性时,更要综合考虑,兼顾大众认知、汉字演变规律等。
(2.4)部件拆分和频度统计
本人对Unicode已经收录的7万多汉字进行全面的拆分和数据统计,掌握一些相关信息。以下是最高频基础部件的部分数据举例:
部件  构字数  频度  期望码长
口    8780    14165 1.0
一    6127    10816 1.0
艹    5785    4185  1.3
人    5096    9427  1.1
木    5062    6675  1.2
水    4275    4961  1.3
日    4060    5965  1.2
土    3491    5470  1.2
月    2799    4214  1.3
火    2545    1975  1.6
手    2470    4435  1.3
田    2283    2630  1.5
大    2242    3481  1.4
宀    2145    3189  1.4
心    2113    3028  1.4
八    2111    3106  1.4
山    2105    1177  1.7
金    1939    1739  1.6
糸    1927    2840  1.4
......
共有300个左右的部件,其中部分部件是经过了我们“义并”原则归并过(后面将会谈到归并原则)。
(2.5)部件的编码设计
为了给这些部件进行最佳的编码,我们算出了他们的“理论期望码长”,也就是按照编码理论得出的最佳编码码长。
由于我们的编码码元是26个英文字母,所以这里的长度就是我们期望做到的编码字母数。根据统计数据我们得知,只有少数的部件信息量满足单字母的编码的要求,适合使用单字母,其余多数应该编成双字母甚至三个字母。平均一个部件的信息量约为1.5个字母。为了便于分类、学习、记忆,我们采取1-2字母的方式对这些基础部件进行编码。
统计数据表明,汉字的部件序列基本上是各自不相同的,也就是说一个汉字对应一个部件序列,并且是“一一对应”的关系。仅有少量特例,如:
“旮旭  叭只  员呗  叻另  呐呙  杏束  旰旱  晾景  晖晕  屺岂”等。
这些重码主要是排列方法的差异引起的,如果愿意后缀一个“字型”信息,那么以上重码也是可以避免。当然这个字型信息信息量很低,在实践中我们基本上将它忽略。
(实际上在高级技巧中,我们的方案设计中也有它们的后缀补码技巧,如Shift-1..5,候选序号暗含等技术)。
所以,汉字的部件分解,是“全息”的,基本上不丢失信息。
而我们的部件又是由1-2为字母几乎唯一地确定,所以我们的汉字映射部件,再映射到字母,始终是“双射对应”的,几乎不丢失信息。
当然,我们在“部件互斥”研究环节,经过大量的统计分析,也归并了少量“部件”的编码。但数量较少,基本不影响我们的最早确立的总体目标原则。
(2.6)汉字的编码设计
按照书写顺序或者部首顺序,列出汉字的部件序列并转换为字母编码,即为汉字的全息编码。在实际输入时,允许我们可以省略部分部件的子码,形成简易码。
(2.7)词语的编码设计
词语的编码,只要顺序输入词语各个汉字的全息码或简易码即可。
对于其中码长超过2字母的汉字,还可以简省输入:只要输入前2个字母或更多都是允许的。对于总码长达到4码或以上时,还允许各个汉字编码省略为1个字母或更多。
到此为止,我们的汉字编码总体思路已经介绍好了,下面逐步展开具体的设计细节。
三、部件拆分和归并
根据我们的拆分详细资料,组成7万个汉字的部件(字根)实际上多达近千个。但其实很多部件是等价的。
我们需要对这些部件按照我们的“目标原则”进行整理归并,然后才方便进行编码:
(1)义并:根据部件的字源、含义进行归并,凡是属于“同源”的部件,虽然形体产生了较大的演变,也看作是“等价部件”。比如“氵水氺”、“火灬”、“艸、艹、”等,它们的篆书字形其实是完全一样的,含义也是完全一样的。所以,我们把它们当作“等价部件”看待。(2)形并:凡是形体接近,容易造成书写、识认错误的部件一律进行归并。如“日曰”、“人入”、“艹、卝”等。它们的本字虽然含义不同,形体也可以区分,但是他们在构字过程中经常发生混淆、讹变。比如“最曾喝慢替”里面实际上是“曰”,但我们很难和“日”分辨。再比如“內全”里面的“入”已经讹变成了“人”,为了不给大众造成太大的困扰,我们也将他们编码归并。
这个层次的归并,仅仅出于编码的需要,在实际教学和构字分析和必要时,仍然应该区分它们。
(3)类并:这个归并实际是我们的“大分类”法则,也是我们最上一层的归并。
我们把含义接近、互相关联、形体类似的一些部件归类,形成26个大类,分配给26个“大码”。这就是我们的类并。比如“水氵氺”、“川巛”、“冫”、“ ”均归为“水”大类。它们具有相同的大类码“S”,但小码根据编码的需要有可能不同。
以上就是本方案的分类系统。
四、基础部件表及其编码
(4.1)部件的大类编码清单
以下具体给出大类的分类法:
26个大类及对应的字母:
自然类:日月金木水火土  B D J M S W T
生命类:虫草人体心口手  K C R E Q O F
生活类:民言衣食住行财  N I Y U A L G
字形类:八叉横竖撇点折  V X H S P D Z
(4.2)部件的小类编码清单
每个大类包含若干个“基础部件”(亦称字根、基元)。
基础部件的编码是由“大类码+小类码”构成的。
大类码又简称为“大码”,小类码简称为“小码”、“子码”。
一个大类里安排有一个或几个代表字根,称为“主根”,它没有小码,是单字母编码。而其余的多数部件是2个字母的编码。
以下列出各个大类包含的基础部件及其编码:
【日B】日、颜色。B是日的象形符号。
主根:日B(r)  曰B(v)
Figure S2008100713588D00071
B(m)
副根:白Ba  黑Bw  黄Bx
【月D】月、点捺。D是月亮的象形符号,也是点的拼音符号。
主根:月D(v)丶D
副根:夕D(x)  丹D(a)  且Dh
【金j】金属、兵器。J是金的拼音符号,也是刀的象形符号。
主根:刀J(刂
Figure S2008100713588D00073
_介)
副根:金钅Jr  干Jg  斤Jn  弓Jg  矛Jm  矢Js  殳Js
Figure S2008100713588D00074
Jy  戈Jg  戊Jp  戋Jj
【木M】木。M是木的拼音符号。
主根:木M
副根:未Mv
【水S】水、竖笔。S是“水”的象形符号,也是“水”和“丨”的拼音符号。
主根:水氵氺S  冫S(b)  丨亅S
副根:川巛
Figure S2008100713588D00081
S(c)
【火W】火、天象、小字形。W是火的象形符号,也是“多笔对称体”的表征符号。
主根:火灬W(r)  小
Figure 2008100713588_0
Figure S2008100713588D00082
W(x)_亦~业W
副根:不Wb  光Wv  气Wq  风Wf  云Wy  雨Ws  尚Wa
【土T】土、土山、石头、悬崖、山谷。T是土的拼音符号。
主根:土  T  士  T(h)
副根:厂
Figure S2008100713588D00083
T(c)  山Ta  石Ti  谷Tu  邑Ty  阝Te
Figure S2008100713588D00084
阜Tf
【虫K】动物。K是动物的象形符号。虫是古代对动物的总称。
主根:缺
副根:牛Kn  马Km  羊Ky  犬Kq  虫Kc  鱼Kv  鸟Kn  隹Kz豕Ks  亥Kr  彑Kj  龙Kl  虍Kh  豸Kz  兔Kt  鼠Ks  鹿Kl  象Kx  乌Kw  龟Kg  黾Ko  巴Kb
【草C】草、十、植物。C是草的拼音符号。
主根:十C  艹
Figure S2008100713588D00085
C讠 中C  廾C(g)  _六C(v)  丌C
副根:
Figure S2008100713588D00086
C  丰C(f)  生Cs  廿Cn  井Cj  卅C(s)  卌C(x)
【人R】人形。R是人的拼音符号,也是人的象形符号。
主根:人亻R  入R(u)
Figure S2008100713588D00087
R
副根:亼亽Rj
【体E】躯体、器官。E是“目eye、耳ear”的英文符号,是“耳、而”的拼音符号,也是“耳”的象形符号。
主根:目E
副根:见Ev  耳Ee  页Ey  面Ea  自Ez  鼻Eb  舌Eo  尸Ei  身Es  欠Eq  疒Eb  歹Ed  囟Ex而Eh  髟Eb  羽Ev  飞Ef  皮Ep  毛Em  牙Ey  齿Ec  角Ej  骨冎Eg  血Ex  肉Er
【心Q】心理、鬼神。Q是心的象形符号,也是情的拼音符号。
主根:心Q
副根:示Qs  鬼Qg  非Qv  卜Q(b)
Figure S2008100713588D00088
Q  _乍Q  _才Q
【口O】口。O是口的象形符号。
主根:口O
【手F】手、手部动作。F是手的象形符号。
主根:手扌F_  举F_  于F
副根:工F(g)  寸Fd  力Fl  才Fp
【民N】人类、人际。N是女的拼音符号。
主根:
副根:女Nv  大N(r)  母Nm  毋Nw  夫Nf  子Nz  氏Ns  臣Nc  民Ni
【言I】文化、亠头。I是“讠”的象形符号。
主根:言I  亠I
副根:文Ix  音Ib  册Ic  壴Iz  曲Iq  龠Iv  六Iv  ~享高Io  方If  亡Iz  齐Ij
【衣Y】衣饰。Y是衣的拼音符号,也是衣的象形符号。
主根:糸Y
副根:幺Y(a)  衣Yi  巾Yj  镸Yc  革Yg  韦Yw  麻Ym  
Figure S2008100713588D00091
Yb乡Yx  彡Y  也(Y)
【食U】食物、食器、器具。U是食器的象形符号。
主根:凵U  匕U(b)  禾U(h)
副根:竹Uz  食Us  米Um  麦Um  瓜Ug  韭Uj  甘Ug  辛Ux  卤Ul  香Ub耒Ul  酉Uy  皿Um  臼Uj  豆Ud  斗Ud  缶Uf  瓦Uw  鬲Ul  鼎Ud  两Ul
【住A】居住:A是房子的象形符号。
主根:宀A  冖A  冂A
副根:穴AvAv  口Ak  门Am  户Ah  囱Ac  广Ag  西西Ax  片Ap  爿Aq  网Ax  皿As  四As
【行L】脚部动作、出行。L是“辶”的象形符号。
主根:辶L  廴L  之L  止L  疋L  夂LL  彳L  亍L
副根:走Lt  足Lz  癶L  舛L  行Lx  立Li  车Lc  舟Lz  禸Lr
【财G】财宝。G是“厶”和玉佩的象形符号。
主根:厶G  王G  田G
副根:玉Gd  壬Gr  贝Gb
【八V】二、八字形。V是“丷”的象形符号,也是“双笔对称体”的表征符号。
主根:二V  儿V(r)  八丷V(b)  十V(s)
【叉X】叉形、手、爪。X是“叉形”的象形符号。
主根:又X  
Figure 2008100713588_1
X  乂X
副根:彐Xj  爪Xz  采Xm  %臼Xx  聿Xv  攵Xq  支Xc
【横H】横笔、横起笔部件。H是横的拼音符号。
主根:-H
副根:匚Hk  丁Hd  五Hw  七Hz  可Ho  甫Hp  辰Hc  旡Hj
【竖S】竖笔。S是竖的拼音符号。
见【水S】部。
【撇P】撇笔、撇起笔部件。P是撇的拼音符号。
主根:丿P  几P
副根:勹Pk  千Pq  及Px  九Pj  丸Pd  凡Pd  用Pv  ~乐P  ~卬P
【点D】点笔。D是点的拼音符号。
见【月D】部。
【折Z】折笔、折起笔部件。Z是折的拼音符号。
主根:
Figure S2008100713588D00101
Z  冖Z  乚Z
副根:乙Zy  
Figure 2008100713588_2
Zk  己Zj  巳Z(s)  ~已Z  卩
Figure 2008100713588_3
Zj
Figure S2008100713588D00103
Zs  艮Zg
注:
1.以上带括号的小码仅仅限于该部件单独运用时的编码,不参与组字时的编码。
2.由于一些部件无法输入电脑,本文采取了变通表示法,用“_”和“~”符号分别表示截取该字的前部件和后部件。“_”表示取后面字的后一个部件,如“_六”表示去掉“丶”后的形状,而“~”则表示取前一个部件,如“~已”表示去掉后面的“乚”以后的形状,“%”表示字架部件。
(4.3)部件的大类编码设计及其科学性
以上大类的编码,主要是根据象形和拼音来帮助记忆,部分还二者兼备,这使得学习起来非常容易。列举如下:
象形:日B  月D  金(刀J)  木M  水S  火W  土T  虫K  人R  体E  心Q  口O  手F  言I  衣Y  食U住A  行L  财G
谐音:草C  民(女N)  金J  木M  水S  土T  人R  体E
(4.4)部件的小类编码设计原则及其科学性
而部件的小码,则是根据拼音或特征小部件来编码。这些设计原则可以帮助初学者学习和记忆。
a)对于形体上可以进一步分解的部件,我们一般取末尾构件的类别作为小码,
如:“見”可以细分为“目儿”所以小码为“R”(儿)。
但尽量避开同类的构件,如行走类的“走”可细分为【土】,但不取“”而取“土”,因为“”也属于“行走”类。
说明:这里所谓的可以细分,只是形体上的拆分,而不是“部件拆分”,因为我们编码的对象已经是“基础部件”,基础部件的定义已经给出了它是最小的可以拆分的部件了。所以为了避免混乱,这里细分的元素暂且称之为“构件”。
某种意义上,有些部件确实也算是可以拆分的,理应属于合成部件,但由于这些“合成部件”多数是
长期稳定使用的传统部首,它们已经形成了自己的独立意义,所以我们依然把它看作不可拆分的基础部件。
比如:鼻=【自畀】(从自畀声),殳=【几又】(从又持几),【支】=【又】(从又持卜),
都可以进一步拆开解释,但它们整体的含义已经相对地独立了。
此外有些形体虽然可拆,但拆开的构件已经发生了讹变。
比如“香”小篆应该拆解为【黍甘】,但楷书讹变为【禾日】,而且“香”本身已经有了特定的含义了,所以我们把它作为基础部件。
这就好比:词语是可以独立运用的最小语法单位。一些词语必须看作一个整体,不能拆开为单字道理一样。比如“马上”不能理解为“马的上面”。“马上”从“词语”层次来说是不能拆分的,但从“字”级别看自然可以分解为“马”和“上”。同理,部件“見”从部件层次说,是最小不可分的元素。但从构件一级看,可以再分解为“目儿”。
但本编码方案的最小编码元素是“基础部件”,虽然对于小码的编码借助了一些更细致的“构件分解”,但仅限于“小码”编码设计这个环节的讨论。
b)对于字形较为复杂,或者独体的不易分解的基础部件,我们多数使用声母首字母来作为子码,少数使用韵母首字母。比如:动物类的“马ma”用m,“虎hu”用h。一般遇到“yu”音,我们用“v”作为子码。
比如“鱼Kv”、“聿Xv”、“羽Ev”等,这些都是很容易学习的。
少部分用得是韵母首字母,比如:“尸shi”小码i、“石shi”小码i、“山shan”小码a。
当然也有少数小码需要稍多点的记忆。
比如:“面”用的是“口”的类码A做小码,“金”用的是“人”的类码R做小码。
“且”细分为“一”,大码归“月D”,小码取“一h”。
以上就是全部汉字“基础部件”的编码设计细节。
接下来,我们需要交代一下拆分规则,以及拆分注意事项。
五、汉字部件拆分
由于经过精心设计,我们有了一份完美、科学的“基础部件”表。这些基础部件(字根)确保了我们对汉字
的拆分是容易的、直观的、和自然的。同时拆分结果也是符合汉字字源字理,能够很好地传承汉字的文化内涵。
当然也有少数需要注意的规范和特殊规则,以下逐一阐明。
(5.1)部件拆分规则
(1)尽量匹配最大的部件。比如“韵”可以匹配“音勹冫”,就不要匹配“立日勹冫”。
(2)尽量让部件部件不存在交叉关系。如:“朱”不拆解为“
Figure S2008100713588D00111
木”而拆为“丿未”。
(3)能组成符合笔画的部件,就尽量避免单笔画的部件。比如:“午”不拆为“丿干”而应拆为“
Figure S2008100713588D00112
Figure 2008100713588_5
十”。
(4)如果某一个笔画被两个部件共享,那么应该把该共享笔画复制一份看待。分为连笔和叠笔两种情况。比如:
连笔:
“我”=【丿扌戈】,横笔连在一起了,应剪断处理。
“果”=【田木】,竖笔连在一起了,应剪断处理。
“制”=【牛巾刂】,竖笔连在一起了,应剪断处理。
叠笔:
“彖”应该看作“彑豕”,横笔叠在一起了,应复制一份。
(也可以理解为“豕”缺一横的“”为“豕”的省形,依然等同于“豕”看待。)
判断是否共享的原则:
若后写的某部件的一个笔画,贯穿了前面的部件时,可以抽离该笔画处理,除非该笔画并未贯穿,或者该笔画对前面部件是不可缺少的。如:
果:“木”的竖笔上伸入“日”,但未穿透,产生了“田”的基础部件构形,所以看作“田”。
疌:“”的竖笔上伸入“一彐”,均为穿透,而且抽离后也不影响那两个部件。所以抽离处理。“隶事妻禹”同理。
制:“巾”的竖笔上伸入“牛”,若抽离该笔,“牛”无法成为部件,所以必须共享。
(5)字架结构的汉字,应该把字架看作一个部件。比如“衷”是“衣中”,这里的“衣”属于字架部件。
字架部件一般不会按照笔顺一次写完,而是部分先写,部分后写。字架部件主要有:
“衣、木、禾、大、工、戈”几个。但我们取码时,对于部件的取码顺序,只需要看首笔即可。也就是说只要部件的首笔写了,就算该部件写了。比如“式”的部件顺序是“戈工”而不是“工戈”。
(4)粘连拆解的特例。部分汉字部件发生粘连,需要从粘连出剪断,才看得清楚其部件组成。如:“其真共具兴兵典舆”几个字,应该把下面的“一八”和上面的部分剪断,其编码就一目了然了。
其=“甘一八”
真=“十目一八”
具=“目一八”
兴=“ツ一八”
兵=“斤一八”
典=“冊一八”
以上就是拆分的规则,及其注意事项。
六、汉字的编码示例
(6.1)全息编码及示例
全息编码:按照汉字的书写顺序得到的部件序列,称为汉字的全息部件序列。把部件替换成相应的字母编码后,
得到的字母序列,我们称之为汉字的全息字母编码,简称为汉字全息部件码(或全息码),在不会和后述的“简易码”产生混淆时也可以直接简称为部件码。
部件序列不限制长度,必须包括全部的汉字部件,同样转译成字母也是。所以称之为全息码。全息码示例:
【汉】=【氵又】=【S X】
【字】=【宀子】=【A Nz】
【编】=【纟户冊】=【Y Ah Ic】
【码】=【石马】=【Ti Km】
【示】=【示】=【Qs】
【例】=【亻歹刂】=【R Ed J】
我们使用大写字母表示大码,小写字母表示小码,这样容易区分,并确保编码连写的时候可以区隔部件边界,
在编撰字典时,我们可以保留这大小写表示法。
但是在本编码用于电脑输入法时,则可以不区分大小写,以减少操作的难度。由于系统已经经过细心的调适,
所以部件边界模糊造成的重码是非常少的,完全可以适应盲打的需求。
(6.2)汉字简易码及示例
最前面我们已经叙述了本方案设计的目标原则,里面有提到,必须兼顾“初学者容易上手”和熟练者“高速盲打”的需求。
为了降低初学者的学习门槛。本编码方案给出了全息码的简省编码形式。
简易码:也就是全息部件编码省略了全部或部分小码的编码。
简易码设计的目的是:
(1)给初学者很低的门槛,只需要懂26个大类就可以打字。
(2)缩短复杂汉字的码长,一般3个部件以上的汉字,鼓励使用简易码输入。
由于经过精心的互斥设计,同一大类的部件互斥度很高,小码负荷的信息量不高,省略它造成的信息损失不多,仅仅在双部件汉字中重码较为明显。
如果一个汉字由三个部件或以上组成时,实际上简易码已经很少会重码。所以即便是“熟练的盲打者”,只要遇到
三个部件或更多部件的汉字,大可以直接输入简易码。
但对于单部件或者双部件汉字来说,简易码重码会比较多,所以除了常用字以外,可能需要进行重码选择。
不过重码还是比拼音少得非常多,而且对于多数常用字来说由于高频先见的排列,基本上属于首选,直接空格就可以。
对于初学者来说,简易码大大降低了学习的难度,几乎介绍完26个大类,及各自包含的部件后,就可以上机打字了。而且对于复杂构造的汉字,简易码避免的冗长的全息编码输入,大大提高输入效率。
对于全部省略小码的部件码,我们称为“纯简易码”,简称简易码,或简码。
对于省略部分小码的部件码,我们也泛称之为“简易码”或“简略码”。
一般情况下,对二部件汉字,建议至少对其中一个部件增加小码,做成3个字母的编码,这样就几乎没有了重码。
简易码示例:
【部】=【立口阝】=全息【Li O Te】=纯简易【L O T】
【输】=【车亼月刂】=全息【Lc Rj D J】=纯简易【L R D J】
(6.3)词语的部件编码及示例
词语的部件编码和单字的部件编码原则基本上是一致的。
把组成词语的各个汉字的全息编码,按照顺序罗列出来,就构成了词语的全息编码。当然,词语也有相应的“简易编码”,除了撷取单字的简易编码组成的词语简易码外,我们还允许对每个单字的编码进行省略(允许缩短到2个字母),由此构成词语的简易编码。而且,对于常用词语,只要总码长达到4个字母,那么也允许每个汉字码缩短到1个字母。如果一个汉字本身的全息码就比允许省略的长度还短,那么就用全码即可。
比如:
【计算机】=【讠十竹目廾木几】=【I C Uz E C M P】
简略码:=【ICUECMP】=【ICUEMP】=【IUMP】=【ICUM】等等。
【人家】=【人宀豕】=【R AKs】=【RAK】
(6.4)汉字的“部件拼音编码”
汉字的部件拼音编码,就是由相应汉字的部件拼音组成的编码,或称为“子字拼音法”。
构成:
【子字拼音法】:先把汉字拆分成部件(子字),不一定是基础部件,然后罗列他们的拼音,就构成子字拼音码。(可以看作子字组成的词语)。甚至还可以在最后增加本字的拼音。
举例:
“树”=【权quan寸cun】=quancun
“树”=【木mu对dui】=mudui
“树”=【木mu又you寸cun】=muyoucun
“张”=【弓gong长chang】=gongchang
“张”=【弓gong长chang张zhang】=gongchangzhang
也可以理解成把“树”看作“木对”或“木又寸”这样的词语进行输入。
(6.5)全息部首码:
和全息部件码唯一的区别在于拆分的顺序,部首码是分层拆出部首,形成的部首序列,然后映射成编码。
部首码=部首1+子字1
子字1=部首2+子字2
以此类推,得到的部件序列:部首1、部首2、部首3等等,并转换为字母编码即可。
部首码,主要的用途在于字典编纂。
优点:
(1)可以使得汉字的编码具有部首聚类的效果,编纂字典时相同部首必定排列在一起。
(2)部首码每次拆出的都是汉字的部首,比较醒目,往往容易抓取。比如:遍=辶+扁=辶户+冊。
缺点:
(1)有些汉字部首位置不易确定,可能造成操作的困难。比如:“问闻”到底先取哪一个部件作为部首?
全息部首码虽有局限性,但在字书编纂、汉字按部首分类时则具有较大的作用。
第二篇输入法方案及软件技术
七、实际汉字输入过程及编码应用技巧
(7.1)键盘布局
本输入法适合用于具有26个字母的各种键盘,如流行的PC键盘。必要时可以把大类或主根刻印在键帽上面。软件还提供“部件软键盘”,也可以用鼠标点击输入汉字。
本方案的字根,按照键盘字母的对应位置进行布局。如果使用某种特殊排列的键盘,也要跟着字母位置变化作相应变化,并不按照物理位置固定。
(7.2)部件码模式的输入
当我们使用本输入法方案输入汉字时,我们可以选择拼音编码模式,也可以部件编码模式,以及其他的几种输入模式。
这里介绍的是部件编码输入的过程。
当我们打开本输入法,并处于“部件输入模式”时,
我们敲入一个汉字的的全息编码或者简易码,就可以输入相应的汉字。
全息编码和任意省略小码的简易码,均可以无切换地输入,它们统称为“部件码”。
在实际输入时,只需要输入编码的前面部分,软件就会把部分匹配字词显示出来,供选择。
如果需要的汉字已经处于首选位置,那么直接敲入空格就可以上屏。
如果处在其他序号位置,那么需要敲入相应的序号进行输入。
如果第一页没有看到,也可以用翻页键进行翻页,直到看到需要的汉字,在输入相应的序号。
一般地,对于初学者,只需要输入一个汉字的前面两三个部件的简易码就可以了,常用汉字一定会出现在首选或者首页,罕用汉字则需要进行翻页。
对于词语,一般也是输入4个字母左右就可以得到该词语。
对于熟练的盲打者,最好输入较完整的编码,也就是对于单、双部件的汉字尽量输入全息码,多部件汉字则多数可以输入为3至4码的简易码,少数较罕用的汉字有可能需要输入5码或更多码。
由于全息码的精心设计,实际上只要熟练掌握一些常用汉字的输入,基本上就解决了全部汉字的输入。因为,本方案的全息特征确保了任何一个“子字”的编码和母字,保持相包容的关系。比如:
你会输入“姑NCO”就一定会输入“菇CNCO”,因为只要前面增加“艹C”,其后面则完全照打。
你会输入“寺TFd”,就会输入“等UTF”、“特KTF”、“持FTF”、“待LTF”、“诗ITF”等等。
你会输入“青CD”,就会输入“情QCD”、“请ICD”、“清SCD”、“精UCD”、“静CDR”等等。
哪怕是从来不认识的字,如“锖JCD”、“靔CDW”,也是一瞬间输入,因为都包含“青CD”这个“子字的编码”。
熟练后,几乎就会变成下意识的习惯动作。
不像其他的编码,需要类似“前三末一”这样的取码规则,那样将造成以上特征不一定成立。
这就是“全息”的好处。
注:在实际的电脑输入大码和小码时,不需要区分大小写。在编撰字典等场合则可以区分大小写。
在不区分大小写时,部件码的静态重码率约为2%(对7000个实用汉字)。部件码的动态键选率低于0.5%。(针对7万汉字的大字符集)
(二)拼音码模式的输入
1)直接辅助码
汉语拼音的全拼或者双拼后面允许加上辅助码,以降低重码。缺省的辅助码是首部件的声母或者全息大类码,或者笔画代码。笔画可以用hspdz或者小键盘1-5数字输入。如果候选项设置为5个或以下,那么大键盘的67890也可以用作笔画辅助码。
3)声调功能。
目前的拼音输入法一般不支持声调输入。本方案采取一些特殊技巧,在不影响常规习惯的基石出上兼容了声调输入。
共提供以下几种输入声调的方法:
a)在音节末尾追加声调字母:
第一声:重复末字母或末元音字母。
第二声:重复末字母或末元音字母两次。
第三声:追加v字母。
第四声:追加vv字母。
轻声:按照第一声处理。
b)使用Shift加数字1到5几个键进行声调输入。
2)子字拼音输入法
此法利用汉字的拆分部件(子字)的拼音序列来输入汉字。特别适合于一些罕用汉字或不会读音的汉字。
具体方法是,把汉字拆开成2块或多块,按顺序输入它们的拼音,就可以输入得到该汉字。比如:树,你可以输入【木又寸】的拼音muyoucun,这样就可以得到该汉字。
而且还允许输入不完整的拼音,实际上可以说,就是把“木又寸”看作词语,然后按照词语的拼音输入法进行输入。
这实际上也可以称作为单字的“虚拟词语输入法”,或“子字拼音法”。
对于罕用汉字即便你会拼音,由于频度很低,需要多次翻页才可以输入,利用子字拼音法,则可以快速输入。
(三)笔画码输入
笔画码就是根据国家颁布的汉字笔顺规范,按照12345代表横竖撇点折,进行编码。
1)【?】引导后,就可以用12345代表横竖撇点折,输入汉字。进输入3个笔画时,部件优先显示。
2)小键盘的数字可以直接输入笔画码。
3)直接使用HSPDZ这五个键,无切换地输入笔画码。
4)笔画辅助码。无论拼音或者部件模式都可以。
a)在候选项数量只有5个以下时,允许用6-0这五个键代表横竖撇点折,来追加汉字的笔画码。
b)Tab或其他自定义引导键触发后,开始笔画辅助码输入。
(四)高级查字
进入【查字】菜单,或者按下【查字】活键,则可以根据多种条件进行汉字模糊匹配查字。可以输入汉字的部分编码,也可以直接输入汉字的部分子字、部件、笔画、拼音、其他信息等,进行匹配,并列出匹配的汉字及其相关信息,供用户使用或选择。
(五)系统特殊控制键安排
1)中英文模式切换:
一般输入法使用Shift或者Ctrl来切换中英文模式,但它们作为移位键,很容易被误触发。
本方案,除了兼容传统之外,还引入了一个特殊的切换键,那就是【CapsLock】键。
该键本来是英文键盘的大小写模式转换键,外形具有IBM的船型专利设计,所以不容易误触发。
在我们输入法中,允许定义它作为中英文模式切换键,理解为“Chinese application stateLock”
当大写灯亮时,代表中文输入,小写则代表英文输入。
2)简繁体切换键
除了允许定义为Ctrl/Shift/Alt+字母的组合外,还可以定义为:Ctrl-CapsLock或Shift-CapsLock。使得切换更加方便好用。
如果在输入汉字的中途,按下【简繁】键,那么候选区的字词马上变换。
3)罕用字切换键
【罕字】键:用于显示罕用字的候选。不管是否打开7万汉字大字符集,都可以激发那些罕用字的显示。显示时常用字将被临时屏蔽,在本次选择前有效。
具体键位可以自定义。
4)异体字切换
【异体】键:用于显示目前候选字的异体字、形近字、关联字、讹误字等密切有关的字。
具体键位可以自定义。
5)词语首选键
【词语】键:用于对第一个候选的“词语”进行自动上屏。
具体键位可以自定义。缺省为【;】。
6)单字过滤键即单字分隔符。
【单字】键:用于过滤掉词语候选,只剩下单字候选。
具体键位可以自定义。缺省为【’】或【-】,即和音节分割符一致。
【’】除了是拼音的音节分隔符外,在部件码中也可以作为词语中各个单字的分隔符。
当它位于编码末尾时,则具有单字过滤功能:将把前面的编码或从上一个分隔符起的编码,仅看作单字编码,不会进行智能切割。
7)精确匹配
【精确】键,按下时,则只匹配全部部件都已经输入的字词,其余一律屏蔽。
8)以词定字:
【切词】键将自动把候选中的词语全部拆散为单字,供选取。
具体键位可以自定义。
9)符号引导:
【/】【.】均可以引导一些符号功能或特殊功能。
而【,】则根据符号状态自动输入全形逗号或者半形逗号。
10)帮助引导:
【帮助】键:激活帮助索引,导引初学者了解常用功能,或者进入帮助文档。
缺省为【?】键。
11)模糊匹配键:
【通配】键:允许用来替代某个不会输入的编码。
缺省为【?】
12)命令引导:
【命令】键:可扩展计算器、字典、月历,以及命令式功能切换或者系统设置等功能。
13)英文的直接上屏,及大写转换上屏:
【Enter】回车键可以使正在输入的编码,不做翻译地保持原样上屏。便于英文的输入。
【Shift-Enter】同上,但其中的小写字母全部被转化为大写,再上屏。
14)智能组词时的,快速修改法:
当输入的编码无法匹配任何汉字或词语时,系统尝试切割字码,并且智能组成词语。
但由于信息的不足,可能出现组成的词语不是希望输入的词语,这时可以利用快速修改法,迅速定位到
错误的汉字或词语位置,进行修改。步骤如下:
a)系统在智能组词时,对于每个不确定的词语下面都标上了一个数字序号,
用户看到组词错误时可以使用Shift-序号进行快速定位。
b)定位后,系统临时屏蔽其他分段的字码,候选出现的是本段字词码的后选项,用户可以选中一个正确候选,
或者翻页后选择,也可以继续输入代码来减少重码。
c)选中正确的代码后,系统重新智能调整不确定部分的组词,如果用户不满意,还可以重复上述步骤,直到全部正确后按下空格确认。
15)静态词频的手工调整:
当候选出现时,按下Down键,候选栏的光标将移动到候选项上面。
这时,软件将自动显示该候选字的很多信息,比如拼音、部件、笔画、含义、词频等信息。
左右光标键可以让光标移到另一个后选项上。
Ctrl-左右键,可以移动候选项的排列顺序。[+-]可以修改数值。【Del】可以删除自造词。
(五)软件优化技术
1)候选区管理:静态词频和动态词频有机的结合
候选区分为横排格式和竖排格式,一般最多可以有10个候选,用1-0十个数字表示和选择。用户也可以自行调整候选项的个数。
候选区被划分为前面的静态区和后面的动态区,数目可以设置。
静态区的顺序按照静态词频,由高到低排列,不会随意变动。
动态区的内容和顺序则会根据输入汉字的动态频度进行调整。
系统首选一般是静态区第一个,但用户也可以选择动态首选项。只要某个候选的动态频度达到一定高度时,就有可能变成首选项,该位置的内容将被高亮提示。静态区内容也有动态词频统计,但统计值并不会改变它的屏幕位置。静态区有的汉字,动态区不再重复。
候选区针对不同属性的字词,将使用不一样的颜色来指示。
比如Ext-B的汉字、精确匹配的汉字、模糊匹配的汉字、容错码、PUA字符等等,均可以设置成不一样的颜色。
2)动态联想
系统在显示候选、智能组词的时候,将参考前一刻刚输入的词语,最佳化地处理候选提示。
3)语域自动识别
每个人都有自己打字的专业领域。但目前输入法都是靠积累个人词库或者加载相应专业词库来更好地
接近个人的需要。可惜这不是每个人都可以做好的步骤,所以很难做到最佳化适应个人需求。
本发明提供了“语域识别技术”,可以动态地识别出个人这一刻的输入偏好和所属的专业,并及时地提升相关专业的词库权值,做到最佳化的个人适配。
方法就是,
针对每个专业领域,设置一些专业特征词,并配有专业度数据。
一旦输入这些词语,相应的专业度系数便会得到提升。特别是第二次输入该专业词语时权值更大。
一旦专业系数达到足够时,便触发激活相应的词库,并且按照专业系数值来加权使用该词库的词频。
4)兼容码和容错码:
a)兼容码:
一个汉字有时会出现一些争议性的编码,可能都有道理,这是系统也允许作为合法的编码输入,称为该字的兼容码。
b)容错码:
一个汉字输入时,一些人容易产生一些违背规定的编码,或出现容易混淆的编码。这个编码实际上是不符合系统
确立的规则要求的,也就是算作是错误的编码。但由于容易出错的人较多,于是系统也兼收进来,
但显示时采取不同的颜色以示区分,并且后面会注明正确的编码,以便下次可以纠正过来。必要时可以出现声音或文字的警示,以便提醒错误的纠正。
附录:一些部件变体清单:
由于本方案的归并原则,一些部件属于另外一些部件的变体部件,彼此认同和等价。
所以有时并不提及他的变体。但有些变体部件字形差异还是比较大,这里列出一些常见的变体:
Figure S2008100713588D00191
冂、囪  囱、~所  户  戶  戸、門  门、丬  爿、
Figure 2008100713588_6
Figure S2008100713588D00192
Figure S2008100713588D00193
襾  西
Figure S2008100713588D00194
~冒、黒  黑、黄  黄、卝  艹  艸  卄  丱
Figure S2008100713588D00195
冃 月、円  丹、靣  面、齒  齿、歺  歹、飛  飞
Figure S2008100713588D00196
骨、
Figure S2008100713588D00197
老、
Figure S2008100713588D00198
身、見  见、頁  页、扌  手
Figure S2008100713588D00199
ユ  工、
Figure S2008100713588D001910
旡、
Figure S2008100713588D001911
匚、尤  尢、讠  言、冊  册
齐  齊  斉、髙  高、
Figure S2008100713588D001913
_争、刂  刀
Figure S2008100713588D001914
~州、~尧  戈、钅  金
亀  龟  龜、虎  虍、鳥  鸟  S鸟、黽  黾、~录  彑、龍  龙
馬  马、
Figure S2008100713588D001915
牛 牜
Figure S2008100713588D001916
Figure S2008100713588D001917
犭  犬、兎  兔、魚  鱼
烏  乌、
Figure S2008100713588D001918
Figure S2008100713588D001919
Figure S2008100713588D001921
Figure S2008100713588D001922
辵  辶、禸、車  车、
Figure S2008100713588D001924
足、
Figure S2008100713588D001925
止、
Figure S2008100713588D001926
Figure S2008100713588D001927
毋、~占  卜、心  忄
Figure S2008100713588D001929
礻  示、
Figure S2008100713588D001930
水  氺  _乑  _眔  ~益  氵、_巟  川  巛  巜、
Figure S2008100713588D001931
冫、亅  丨
Figure S2008100713588D001932
厂、两
Figure S2008100713588D001933
両  兩、卤  卥  鹵  卣、麥  麦、
Figure S2008100713588D001934
食 饣、
Figure S2008100713588D001935
丣  酉
Figure S2008100713588D001936
竹、丷  八、~业  _亦、小、灬  火、业  _亞  _亜  _虚
Figure S2008100713588D001938
尚、風  风、
Figure S2008100713588D001939
乂、ス  又、
Figure S2008100713588D001940
Figure S2008100713588D001941
支  攵、
Figure S2008100713588D001942
Figure S2008100713588D001943
糸  纟、長  镸  长、衤  衣、麻、韋  韦、
Figure S2008100713588D001945
~已
Figure S2008100713588D001947
Figure S2008100713588D001948
く 
Figure S2008100713588D001949
、~即  艮、
Figure S2008100713588D001950
Figure S2008100713588D001951
Figure S2008100713588D001952

Claims (9)

1、一种汉字编码及键盘输入方案,其特征为:
(1)将汉字拆分为部件序列,并按照一定的顺序排列这些部件。顺序分为两种:(a)按照部件的书写顺序,(b)按照“部首取码顺序”:即先取出汉字的部首,留下偏旁(子字),再对偏旁(子字)重复这个过程,直到全部部首取完。
(2)部件按照其字源含义或者形似特征进行分类,分为26个大类,即:
自然:日、月、金(兵器)、木、水、火、土。
生命:虫(动物)、草、人、体(器官)、心、口、手。
人类:民(人际、子女)、言(文化)、衣、食、住、行、财。
字形:八、叉(手)、横、竖(合并到水)、撇、点(合并到月)、折。
(3)每个大类按照形状或读音的联想对应到一个英文字母上,形成大类码。
(4)每个大类的代表部件称为主形部件(主根),其编码就是大类码。
而每个大类的其他部件,则由2个字母组成,其第一个字母为大类码,第二个字母为小类码(小码、子码),小类码根据读音或者部件的特征形状对应到26个字母。
(5)在输入汉字时,可以完整输入汉字全部部件的编码(全息码),也可以省略其中任意一些部件的小码,形成简易码。如果输入前面部分编码时,所需要的字词已经是屏幕首选,可以用空格直接上屏,而省去剩余编码的输入。
(6)词语的编码:顺序输入词语各个汉字的全息码或简易码即可。
对于其中码长超过2字母的汉字,还可以简省输入:只要输入前2个字母或更多都是允许的。
对于总码长达到4码或以上时,还允许各个汉字编码省略为1个字母或更多。
(7)少数部件允许设立有专用小码,它仅仅在该部件的单独时,或者属于汉字最末尾部件时才有效。
(8)对少数常用的重码汉字允许末尾追加补码,补码可以是拼音声母或者字型信息码。
2、一种汉字编码及键盘输入方案,其特征为:
(1)提供一种“子字拼音法”输入汉字,具体就是:把汉字拆分为几个字块或部件,然后分别输入这几个字块或部件的拼音(一般输入全拼,但也允许省略),还允许末尾再追加该字的拼音。
3、一种拼音输入法的改进技术,可应用于本输入法方案的拼音模式,其特征为:
(1)针对目前的拼音输入法,该模式除了具备目前主流的拼音输入法的特征以外,还支持专有的声调输入,允许在音节后面追加声调,方法有二:
(a)用Shift加输入1到5代表声调,或者
(b)用重复最后一个元音或末字母来代表第一声(阴平),再重一次表示第二声,用v代表第三声,vv代表第四声。
4、一种输入法的改进技术,其特征为:
(1)允许使用混打模式,这时可以不切换地直接输入拼音码或者形码。
(2)无论在拼音模式还是形码模式,允许不切换地输入笔画编码,使用hspdz五个字母或者小键盘的1-5键代表横竖撇点折五个笔画。
5、一种输入法技术优化方案,其特征为:允许用CapsLock键来切换中英文模式。避免目前流行的用Shift或Ctrl做切换键产生的容易误触发的弊端。
6、一种输入法技术优化方案,其特征为:设有【罕字】键,代表只显示罕用字,按下以后候选区显示的是相匹配的罕用字。不管系统是否处在大字符集模式。
7、一种输入法技术优化方案,其特征为:设有【异体】键,代表显示出目前候选区汉字的“异体字”或“相关汉字”。
8、一种输入法技术优化方案,其特征为:首选也允许选择静态模式和动态模式。静态模式,首选固定为第一个候选。动态模式,首选会根据频度统计自动调整到最合适的位置上。
9、一种输入法技术优化方案,其特征为:加入独创的动态语域切换技术:输入法软件会根据你输入的一些专业特征词语,分别给予相应领域的权值分值提升,当分值到达一定值时,系统识别出你录入文字所属的领域,从而自动激活并增强该领域词库的权值,确保该领域词语的便利输入,智能地适应各领域的用户。同一个时间允许多个领域被激活和加权。
CN200810071358A 2008-07-08 2008-07-08 一种符合文字理据的汉字编码及键盘输入技术 Pending CN101625598A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200810071358A CN101625598A (zh) 2008-07-08 2008-07-08 一种符合文字理据的汉字编码及键盘输入技术

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200810071358A CN101625598A (zh) 2008-07-08 2008-07-08 一种符合文字理据的汉字编码及键盘输入技术

Publications (1)

Publication Number Publication Date
CN101625598A true CN101625598A (zh) 2010-01-13

Family

ID=41521463

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200810071358A Pending CN101625598A (zh) 2008-07-08 2008-07-08 一种符合文字理据的汉字编码及键盘输入技术

Country Status (1)

Country Link
CN (1) CN101625598A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102841686A (zh) * 2011-06-22 2012-12-26 王圣军 中一汉字图形检索输入法
CN103197764A (zh) * 2012-01-10 2013-07-10 联想(北京)有限公司 拼音输入法及装置
CN112991122A (zh) * 2021-05-10 2021-06-18 北京世纪好未来教育科技有限公司 汉字教学的规划方法和装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102841686A (zh) * 2011-06-22 2012-12-26 王圣军 中一汉字图形检索输入法
CN103197764A (zh) * 2012-01-10 2013-07-10 联想(北京)有限公司 拼音输入法及装置
CN103197764B (zh) * 2012-01-10 2016-08-17 联想(北京)有限公司 拼音输入法及装置
CN112991122A (zh) * 2021-05-10 2021-06-18 北京世纪好未来教育科技有限公司 汉字教学的规划方法和装置

Similar Documents

Publication Publication Date Title
CN102262683B (zh) 一种汉字输入方法
CN101089795B (zh) 单击与并击输入中英文的方法和键盘
CN103902058B (zh) 一种中英文混合速录的方法与键盘
CN101281426A (zh) 一种智能部件积木式汉字输入法
CN101625598A (zh) 一种符合文字理据的汉字编码及键盘输入技术
CN101833376A (zh) 基于汉字拆分的智能语句级汉字输入系统
CN100568166C (zh) 一种查字打字同码输入法及其输入装置和应用
TW201314498A (zh) 嵌合字根式中文輸入法
CN104951096A (zh) 汉字编码八类笔形座标形码输入法
CN101135938A (zh) 一种汉字元拼双音输入方法
CN101344820A (zh) 一种计算机汉字输入方法及其键盘
CN101872250A (zh) 部首输入法
CN103176614A (zh) 多键共击速录
CN101833375A (zh) 计算机汉字查阅梢芯法
CN1057624C (zh) 一种汉字输入方法及其键盘设计
CN101118464A (zh) 易捷系列汉语输入方法
CN106959764A (zh) 一种有助于正确书写汉字的形码输入法
CN104238765B (zh) 中小学生键盘,标拼码输入法
CN1746829A (zh) 优化汉字根码输入法
CN101393482B (zh) 一种计算机汉字和汉字部件的输入方法及其键盘
CN101158884B (zh) 汉字形码计算机手机一体化输入技术
CN1328649C (zh) 汉字“三形联想”形码输入法
CN102103415A (zh) 一种古琴减字谱字符输入的计算机处理方法
CN1204487C (zh) 根声码汉字输入法
CN106293130B (zh) 中文字音字形笔画笔顺快捷手写输入法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20100113