CN101625598A - 一种符合文字理据的汉字编码及键盘输入技术 - Google Patents
一种符合文字理据的汉字编码及键盘输入技术 Download PDFInfo
- Publication number
- CN101625598A CN101625598A CN200810071358A CN200810071358A CN101625598A CN 101625598 A CN101625598 A CN 101625598A CN 200810071358 A CN200810071358 A CN 200810071358A CN 200810071358 A CN200810071358 A CN 200810071358A CN 101625598 A CN101625598 A CN 101625598A
- Authority
- CN
- China
- Prior art keywords
- parts
- chinese character
- word
- coding
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Document Processing Apparatus (AREA)
Abstract
本发明是一种汉字的信息编码及录入技术。本发明依据汉字的字源字理对汉字进行部件拆分、分类和编码,依据象形或谐音把部件映射到26个字母上,做到规则简单、好学易记、科学规范、简繁统一,可以适应大字符集和海量词语的编码和输入。编码符合语文规范、字源字理,能够很好地传承汉字的文化内涵,还可以应用于字典编纂、汉字教学、汉字排序检索等领域。
Description
技术领域
本发明是一种汉字的电脑键盘输入方案,涉及汉字的编码技术和软件优化技术。
背景技术
目前的电脑输入法,主要分为形码、音码和结合音形信息的音形码或形音码。
音码是一种以字音信息为基础的汉字编码,目前大陆流行的音码是“拼音输入法”。拼音输入法的优点是容易学习使用,上手快,缺点是重码率高,对于非常用的字词和不懂发音的字输入困难。
形码是一种以字形信息为基础的汉字编码,多数以字根为编码基础,如五笔字型、郑码等。
它们的优点是重码率比拼音大大降低,输入速度较快。
但缺点是学习掌握的难度较大,需要记忆的东西太多,一段时间不用就很容易忘记。而且多数的部件拆分不符合字源字理,不利于汉字文化的传承、教育和发展。
另外也有一些结合音形或者笔画信息的汉字编码,但基本上都一样无法兼顾易学、高效、科学的矛盾。
发明内容
本输入法方案设计的目标,就是为了解决目前输入法技术存在的这些不足,真正突破汉字形码编码的理论难题。
本输入法提供了多种编码输入模式,有部件码(形码)、拼音码、笔画码等编码方式,其中形码是本方案的重点。
拼音输入模式是为了兼顾一些用户的便利和习惯,而且新增“子字拼音输入法”,弥补了目前拼音输入法的不足。
笔画是主要是为了检字目的。当不懂拼音又不懂部件时,就可以利用它迅速获得相关信息。
用户可以随时选择需要的输入模式,但也允许一种模式下不切换而直接输入另一种编码,如此大大方便用户的使用。
在软件优化上也具有多项独特的技术。总体的优良设计,使得本输入法能够适应多类型的人群。
而本输入法的重点在于独创的“全息部件编码”,它大大超越了现有的各种形码方案,解决了易学和高速的矛盾。
以下就部件码、拼音码、软件技术分别给予介绍。
第一篇全息部件编码的设计
一、编码特征
山人全息码具有以下主要特征:
1.基于汉字的字源和构字原理进行拆分,以传统的部首为基础,符合语文规范,很好地实现汉字文化的传承。可以用于汉字基础教育、字书编纂、汉字检索排序等领域。
2.包含汉字形体结构的全部信息,是一种全息编码。不仅能见字识码,而且能见码识字。这是现有的所有编码做不到的。
3.所有的部件几乎都有唯一的编码(1-2字母),所以几乎不丢失汉字的信息。
4.部件科学地归纳为26个大类,初学者只需要记住这26类就可以开始打字,几乎没有学习难度。
1、全息特征
简要说明一下“全息特征”:
(1)编码撷取了全部的汉字部件信息。
不做类似“前三末一”的残缺选择,不做码长的限制。
汉字的编码是由它的全部部件的编码罗列而成,而部件本身编码几乎是唯一的,所以汉字信息几乎不丢失。
(2)母字和子字的编码机理一致。
汉字子字的编码,一定包含在母字编码之中,而且彼此编码原理完全一样。
比如:“菇”包含了子字“姑”,那么“菇”的编码CNCO,一定包含“姑”的编码NCO。
同理:“姑”包含了子字“古”,那么“姑”的编码NCO,一定包含“古”的编码CO。
注:汉字中包含的字块称为“子字”(也称“部件”或“偏旁”)。
(3)词语和单字编码机理一致。
“词语是由一组汉字组成”,和“汉字是由一组部件组成”,可以类比看待。
也就是说,词语编码和汉字编码原理是统一的。所以不需要另外学习词语规则。
比如:“日月”这个词的编码是BD,“明”这个字的编码也是BD。为他们的部件序列是一致的。
你可以把“树”字假想成“木又寸”这个“词语”,进行编码。
所以,本编码方案是一种真正的全息编码。
2、编码的科学性
(1)部件拆分符合字源字理
汉字的拆分是根据汉字造字的原理进行的,基础部件表中的部件几乎都是传统汉字部首。
(2)部件分类科学规范
按照部件的文化内涵进行分类,把约300个部件,归纳为26个大类,符合汉字造字的科学性。
26大类分别是:
日 月 金 木 水 火 土
虫 草 人 体 心 口 手
民 言 衣 食 住 行 财
八 叉 横 竖 撇 点 折
(注:其中“月、点”合并了,“水、竖”也合并了。)
(3)部件的大类码和小类码,都是经过精心设计,并利用信息理论进行全面的优化,使得编码系统既保证了简单易学,又保证符合科学,而且可以做到高速输入。
(4)几乎不受新旧字形和简繁字形的干扰。
换句话说,一般同一个字,我们怎么输入,港台人士也可以怎么输入,不需要分为两套编码。比如“鲜、鲜”是KvKy,“说、説、說”都是IVOV。
(5)几乎不受笔顺争议的影响。这是许多基于笔画信息的编码无法做到的。
(6)可以适应已经收入到Unicode中的全部7万多个汉字的输入,并且可以无限扩展。
(7)没有码长限制,没有人为的部件取舍,有多少部件就取多少部件。确保汉字信息不损耗。
二、设计过程
本方案涉及的形码,全称为“山人全息部件码”,是一种基于汉字部件拆分的纯形编码,力求最大限度地保留汉字的文化信息内涵,是一种真正的全息编码。
(2.1)编码的目标原则
本发明的部件编码,在设计之初就确立了以下一些目标原则:
(1)汉字拆分必须符合汉字字源、造字原理、演变规律,不能光凭字形随意肢解。
(2)兼容篆书、隶书、楷书,兼容简繁体,兼容新旧字形。比如“说、說”就连它的小篆编码都是相同的。
(3)尽量避免因为汉字演变历史中字形演变或讹误造成的困扰。对某些讹误字形进行认同编码。
(4)将汉字分解为一组部件序列,并映射到相应的字母编码上。力求不损失信息,达到全息编码的效果。
(5)基于26个字母进行编码,不限制码长,按照部件书写顺序取码。
(6)以最科学的方法对汉字基础部件进行分类,归结为26类,并给出大类码。
(7)合理的部件归并。确保既适当兼容字形演变,又不损耗汉字信息。设立了“义并”和“形并”原则。
(8)优化部件映射,确保极低的记忆量。大类码按照发音或者形状联想,并结合击键负荷来统筹设计。
小类码则根据部件的音形信息规定,一般独体的使用声母,合体则取用特征构件编码。
(9)兼顾初学者的低门槛要求和熟练者的盲打要求。初学者只需要懂得26个大类就可以输入,熟练者结合部件的小码可以做到高速盲打。
(10)兼容拼音和笔画输入。这对不会拆字或不记得编码的时候很有价值。
(11)规则及其简单,就是顺序输入部件编码即可。
但输入时允许一些省简,不如可以省掉小码的输入,比如允许不切换地输入笔画或拼音。
(12)词语输入和单字输入方法完全一致。罗列部件编码即可。
(13)简单直观的拆分原则。符合大众认知,又要符合字源字理。
(14)每个部件几乎都有唯一性编码,不像一般输入法那样,一个字母对应很多部件。
(15)部件映射优化设计。
利用部件的信息量、最佳理论码长、部件互斥研究、均衡分布、键盘负荷分布等进行科学设计,达到极低的重码率和键选率。
(16)规范性、科学性。可用于基础教学、字典编纂、汉字检索排序等,并最大程度地继承汉字文化内涵。
(17)不认识汉字拼音和字义的人也可以很快掌握和使用。
(18)尽量避免笔画变形和笔顺二义性的干扰。比如“匕”旧字形是“一乚”、“丿乚”,普通人甚至弄不清那一笔先写。那些按照起笔分类的方案就会出现困扰,用户搞不清该用“一”、“乚”、还是“丿”。
(19)在不使用类似末笔交叉码、结构辅助码等特殊规则情况下,做到比五笔字型重码更少,平均码长更短。支持上百万词语时也不会明显增加重码。
(2.2)汉字结构原理
首先,我们大家知道,汉字最早是一些象形符号,随着不断的发展,这些符号按照一些原则组合成更加复杂的形体,代表更加复杂的意义。这些规则就是我们常说的六书。
古代把那些象形符号称为“文”,而合成出来的符号称为“字”,就是所谓的“独体为文,合体为字”。
六书包含汉字的构造原则和用法:象形、指事、会意、形声、假借、转注。
汉代的许慎著述的《说文解字》对汉字的字源、字构、意义,有较科学全面的整理和记述。
汉字虽然经过了几千年的演变,但是这些基本的构造原则一直没有变化,也正是因为汉字的这种巧妙的设计,使得它成为如今世上仅存的一种表意文字。
现代汉字的独体字,就是相当于古代的“文”,是负载有一定文化含义的基本元素。
而现代汉字的合体字,就相当于古代的“字”,除了少量的指事、会意字外,约80%以上的汉字属于形声字。
由于经过漫长的演变,汉字产生了较大的形体改变,部分甚至出现了讹误。
从造字用字的角度看,出现了大量用字分化、假借、引申、繁化、简化、变异等形态,从而出现了大量的新汉字和异体字。
使得汉字这个家族的成员日趋庞大。
但统计表明,在同一个时代里的实际使用汉字数量并不是很多,大约在5千~1万左右。
特别是常用的汉字,非常集中。
因为汉字的使用不是均等的,不同汉字具有不同的实用频度,它们符合一定的分布规律。
(2.3)汉字编码思路
既然汉字本来就是通过一些基本字形元素,通过一些原则组合起来的,那么就一定可以分解出这些基本元素来,并对这些元素进行序列化和编码,从而得到汉字的完全信息编码。
我们称这种基本元素为“基础部件”或“基元”、“字根”,本文论述中若出现这样的术语时,它们是同义的。
按照信息理论,不难证明这样的方法是最佳的编码方法。因为部件本身是信息的高度聚合体。它不是随机的笔画组合,而是具有稳定形体的、负荷一定内涵的笔画组合。
一些基本术语的定义:
【构件】:由一组笔画组成,是组成汉字或部件的字形元素(零件)。
【部件】:是组成汉字的一组具有稳定形体和含义的笔画组合。它是负荷有一定的含义构件,是组建复杂汉字的元素。也可称为“偏旁”、“字块”等。
【基础部件】:不能继续拆分的部件,是具备一定含义的最小汉字构造单位。又称为“字根”、“基元”等。在本文的叙述中,为了方便,在一般不引起歧义的情况下,基础部件也简称之为“部件”。
【义件】:汉字结构中和汉字意义关联的部件。合体字一般都有一个或以上的“义件”,不过经过长期演变,部分汉字“义件”的含义关联已经不明显或者完全丢失。
【声件】:形声字中和汉字发音关联的部件。不过部分“声件”由于长期的演变,表音能力已经削弱甚至丧失。
【部首】:统领一组汉字意义归属的基础部件,它代表一族汉字的意义特征或共性归纳。也是一般字典归部的依据。
既然汉字是由部件组成的,那么我们的第一步工作就是把汉字拆分成一系列部件的组合。
为了制定好科学的基础部件表,使汉字拆分能够满足前述目标原则,我们必须结合大量的文字学知识、汉字字源字理分析研究来进行,并结合字频进行大量的信息量统计、互斥研究、重码分析等,保证拆分结果和编码结果的科学性。
当拆分出现可能的二义性时,更要综合考虑,兼顾大众认知、汉字演变规律等。
(2.4)部件拆分和频度统计
本人对Unicode已经收录的7万多汉字进行全面的拆分和数据统计,掌握一些相关信息。以下是最高频基础部件的部分数据举例:
部件 构字数 频度 期望码长
口 8780 14165 1.0
一 6127 10816 1.0
艹 5785 4185 1.3
人 5096 9427 1.1
木 5062 6675 1.2
水 4275 4961 1.3
日 4060 5965 1.2
土 3491 5470 1.2
月 2799 4214 1.3
火 2545 1975 1.6
手 2470 4435 1.3
田 2283 2630 1.5
大 2242 3481 1.4
宀 2145 3189 1.4
心 2113 3028 1.4
八 2111 3106 1.4
山 2105 1177 1.7
金 1939 1739 1.6
糸 1927 2840 1.4
......
共有300个左右的部件,其中部分部件是经过了我们“义并”原则归并过(后面将会谈到归并原则)。
(2.5)部件的编码设计
为了给这些部件进行最佳的编码,我们算出了他们的“理论期望码长”,也就是按照编码理论得出的最佳编码码长。
由于我们的编码码元是26个英文字母,所以这里的长度就是我们期望做到的编码字母数。根据统计数据我们得知,只有少数的部件信息量满足单字母的编码的要求,适合使用单字母,其余多数应该编成双字母甚至三个字母。平均一个部件的信息量约为1.5个字母。为了便于分类、学习、记忆,我们采取1-2字母的方式对这些基础部件进行编码。
统计数据表明,汉字的部件序列基本上是各自不相同的,也就是说一个汉字对应一个部件序列,并且是“一一对应”的关系。仅有少量特例,如:
“旮旭 叭只 员呗 叻另 呐呙 杏束 旰旱 晾景 晖晕 屺岂”等。
这些重码主要是排列方法的差异引起的,如果愿意后缀一个“字型”信息,那么以上重码也是可以避免。当然这个字型信息信息量很低,在实践中我们基本上将它忽略。
(实际上在高级技巧中,我们的方案设计中也有它们的后缀补码技巧,如Shift-1..5,候选序号暗含等技术)。
所以,汉字的部件分解,是“全息”的,基本上不丢失信息。
而我们的部件又是由1-2为字母几乎唯一地确定,所以我们的汉字映射部件,再映射到字母,始终是“双射对应”的,几乎不丢失信息。
当然,我们在“部件互斥”研究环节,经过大量的统计分析,也归并了少量“部件”的编码。但数量较少,基本不影响我们的最早确立的总体目标原则。
(2.6)汉字的编码设计
按照书写顺序或者部首顺序,列出汉字的部件序列并转换为字母编码,即为汉字的全息编码。在实际输入时,允许我们可以省略部分部件的子码,形成简易码。
(2.7)词语的编码设计
词语的编码,只要顺序输入词语各个汉字的全息码或简易码即可。
对于其中码长超过2字母的汉字,还可以简省输入:只要输入前2个字母或更多都是允许的。对于总码长达到4码或以上时,还允许各个汉字编码省略为1个字母或更多。
到此为止,我们的汉字编码总体思路已经介绍好了,下面逐步展开具体的设计细节。
三、部件拆分和归并
根据我们的拆分详细资料,组成7万个汉字的部件(字根)实际上多达近千个。但其实很多部件是等价的。
我们需要对这些部件按照我们的“目标原则”进行整理归并,然后才方便进行编码:
(1)义并:根据部件的字源、含义进行归并,凡是属于“同源”的部件,虽然形体产生了较大的演变,也看作是“等价部件”。比如“氵水氺”、“火灬”、“艸、艹、”等,它们的篆书字形其实是完全一样的,含义也是完全一样的。所以,我们把它们当作“等价部件”看待。(2)形并:凡是形体接近,容易造成书写、识认错误的部件一律进行归并。如“日曰”、“人入”、“艹、卝”等。它们的本字虽然含义不同,形体也可以区分,但是他们在构字过程中经常发生混淆、讹变。比如“最曾喝慢替”里面实际上是“曰”,但我们很难和“日”分辨。再比如“內全”里面的“入”已经讹变成了“人”,为了不给大众造成太大的困扰,我们也将他们编码归并。
这个层次的归并,仅仅出于编码的需要,在实际教学和构字分析和必要时,仍然应该区分它们。
(3)类并:这个归并实际是我们的“大分类”法则,也是我们最上一层的归并。
我们把含义接近、互相关联、形体类似的一些部件归类,形成26个大类,分配给26个“大码”。这就是我们的类并。比如“水氵氺”、“川巛”、“冫”、“ ”均归为“水”大类。它们具有相同的大类码“S”,但小码根据编码的需要有可能不同。
以上就是本方案的分类系统。
四、基础部件表及其编码
(4.1)部件的大类编码清单
以下具体给出大类的分类法:
26个大类及对应的字母:
自然类:日月金木水火土 B D J M S W T
生命类:虫草人体心口手 K C R E Q O F
生活类:民言衣食住行财 N I Y U A L G
字形类:八叉横竖撇点折 V X H S P D Z
(4.2)部件的小类编码清单
每个大类包含若干个“基础部件”(亦称字根、基元)。
基础部件的编码是由“大类码+小类码”构成的。
大类码又简称为“大码”,小类码简称为“小码”、“子码”。
一个大类里安排有一个或几个代表字根,称为“主根”,它没有小码,是单字母编码。而其余的多数部件是2个字母的编码。
以下列出各个大类包含的基础部件及其编码:
【日B】日、颜色。B是日的象形符号。
副根:白Ba 黑Bw 黄Bx
【月D】月、点捺。D是月亮的象形符号,也是点的拼音符号。
主根:月D(v)丶D
副根:夕D(x) 丹D(a) 且Dh
【金j】金属、兵器。J是金的拼音符号,也是刀的象形符号。
【木M】木。M是木的拼音符号。
主根:木M
副根:未Mv
【水S】水、竖笔。S是“水”的象形符号,也是“水”和“丨”的拼音符号。
主根:水氵氺S 冫S(b) 丨亅S
【火W】火、天象、小字形。W是火的象形符号,也是“多笔对称体”的表征符号。
副根:不Wb 光Wv 气Wq 风Wf 云Wy 雨Ws 尚Wa
【土T】土、土山、石头、悬崖、山谷。T是土的拼音符号。
主根:土 T 士 T(h)
【虫K】动物。K是动物的象形符号。虫是古代对动物的总称。
主根:缺
副根:牛Kn 马Km 羊Ky 犬Kq 虫Kc 鱼Kv 鸟Kn 隹Kz豕Ks 亥Kr 彑Kj 龙Kl 虍Kh 豸Kz 兔Kt 鼠Ks 鹿Kl 象Kx 乌Kw 龟Kg 黾Ko 巴Kb
【草C】草、十、植物。C是草的拼音符号。
【人R】人形。R是人的拼音符号,也是人的象形符号。
副根:亼亽Rj
【体E】躯体、器官。E是“目eye、耳ear”的英文符号,是“耳、而”的拼音符号,也是“耳”的象形符号。
主根:目E
副根:见Ev 耳Ee 页Ey 面Ea 自Ez 鼻Eb 舌Eo 尸Ei 身Es 欠Eq 疒Eb 歹Ed 囟Ex而Eh 髟Eb 羽Ev 飞Ef 皮Ep 毛Em 牙Ey 齿Ec 角Ej 骨冎Eg 血Ex 肉Er
【心Q】心理、鬼神。Q是心的象形符号,也是情的拼音符号。
主根:心Q
【口O】口。O是口的象形符号。
主根:口O
【手F】手、手部动作。F是手的象形符号。
主根:手扌F_ 举F_ 于F
副根:工F(g) 寸Fd 力Fl 才Fp
【民N】人类、人际。N是女的拼音符号。
主根:
副根:女Nv 大N(r) 母Nm 毋Nw 夫Nf 子Nz 氏Ns 臣Nc 民Ni
【言I】文化、亠头。I是“讠”的象形符号。
主根:言I 亠I
副根:文Ix 音Ib 册Ic 壴Iz 曲Iq 龠Iv 六Iv ~享高Io 方If 亡Iz 齐Ij
【衣Y】衣饰。Y是衣的拼音符号,也是衣的象形符号。
主根:糸Y
【食U】食物、食器、器具。U是食器的象形符号。
主根:凵U 匕U(b) 禾U(h)
副根:竹Uz 食Us 米Um 麦Um 瓜Ug 韭Uj 甘Ug 辛Ux 卤Ul 香Ub耒Ul 酉Uy 皿Um 臼Uj 豆Ud 斗Ud 缶Uf 瓦Uw 鬲Ul 鼎Ud 两Ul
【住A】居住:A是房子的象形符号。
主根:宀A 冖A 冂A
副根:穴AvAv 口Ak 门Am 户Ah 囱Ac 广Ag 西西Ax 片Ap 爿Aq 网Ax 皿As 四As
【行L】脚部动作、出行。L是“辶”的象形符号。
主根:辶L 廴L 之L 止L 疋L 夂LL 彳L 亍L
副根:走Lt 足Lz 癶L 舛L 行Lx 立Li 车Lc 舟Lz 禸Lr
【财G】财宝。G是“厶”和玉佩的象形符号。
主根:厶G 王G 田G
副根:玉Gd 壬Gr 贝Gb
【八V】二、八字形。V是“丷”的象形符号,也是“双笔对称体”的表征符号。
主根:二V 儿V(r) 八丷V(b) 十V(s)
【叉X】叉形、手、爪。X是“叉形”的象形符号。
副根:彐Xj 爪Xz 采Xm %臼Xx 聿Xv 攵Xq 支Xc
【横H】横笔、横起笔部件。H是横的拼音符号。
主根:-H
副根:匚Hk 丁Hd 五Hw 七Hz 可Ho 甫Hp 辰Hc 旡Hj
【竖S】竖笔。S是竖的拼音符号。
见【水S】部。
【撇P】撇笔、撇起笔部件。P是撇的拼音符号。
主根:丿P 几P
副根:勹Pk 千Pq 及Px 九Pj 丸Pd 凡Pd 用Pv ~乐P ~卬P
【点D】点笔。D是点的拼音符号。
见【月D】部。
【折Z】折笔、折起笔部件。Z是折的拼音符号。
注:
1.以上带括号的小码仅仅限于该部件单独运用时的编码,不参与组字时的编码。
2.由于一些部件无法输入电脑,本文采取了变通表示法,用“_”和“~”符号分别表示截取该字的前部件和后部件。“_”表示取后面字的后一个部件,如“_六”表示去掉“丶”后的形状,而“~”则表示取前一个部件,如“~已”表示去掉后面的“乚”以后的形状,“%”表示字架部件。
(4.3)部件的大类编码设计及其科学性
以上大类的编码,主要是根据象形和拼音来帮助记忆,部分还二者兼备,这使得学习起来非常容易。列举如下:
象形:日B 月D 金(刀J) 木M 水S 火W 土T 虫K 人R 体E 心Q 口O 手F 言I 衣Y 食U住A 行L 财G
谐音:草C 民(女N) 金J 木M 水S 土T 人R 体E
(4.4)部件的小类编码设计原则及其科学性
而部件的小码,则是根据拼音或特征小部件来编码。这些设计原则可以帮助初学者学习和记忆。
a)对于形体上可以进一步分解的部件,我们一般取末尾构件的类别作为小码,
如:“見”可以细分为“目儿”所以小码为“R”(儿)。
但尽量避开同类的构件,如行走类的“走”可细分为【土】,但不取“”而取“土”,因为“”也属于“行走”类。
说明:这里所谓的可以细分,只是形体上的拆分,而不是“部件拆分”,因为我们编码的对象已经是“基础部件”,基础部件的定义已经给出了它是最小的可以拆分的部件了。所以为了避免混乱,这里细分的元素暂且称之为“构件”。
某种意义上,有些部件确实也算是可以拆分的,理应属于合成部件,但由于这些“合成部件”多数是
长期稳定使用的传统部首,它们已经形成了自己的独立意义,所以我们依然把它看作不可拆分的基础部件。
比如:鼻=【自畀】(从自畀声),殳=【几又】(从又持几),【支】=【又】(从又持卜),
都可以进一步拆开解释,但它们整体的含义已经相对地独立了。
此外有些形体虽然可拆,但拆开的构件已经发生了讹变。
比如“香”小篆应该拆解为【黍甘】,但楷书讹变为【禾日】,而且“香”本身已经有了特定的含义了,所以我们把它作为基础部件。
这就好比:词语是可以独立运用的最小语法单位。一些词语必须看作一个整体,不能拆开为单字道理一样。比如“马上”不能理解为“马的上面”。“马上”从“词语”层次来说是不能拆分的,但从“字”级别看自然可以分解为“马”和“上”。同理,部件“見”从部件层次说,是最小不可分的元素。但从构件一级看,可以再分解为“目儿”。
但本编码方案的最小编码元素是“基础部件”,虽然对于小码的编码借助了一些更细致的“构件分解”,但仅限于“小码”编码设计这个环节的讨论。
b)对于字形较为复杂,或者独体的不易分解的基础部件,我们多数使用声母首字母来作为子码,少数使用韵母首字母。比如:动物类的“马ma”用m,“虎hu”用h。一般遇到“yu”音,我们用“v”作为子码。
比如“鱼Kv”、“聿Xv”、“羽Ev”等,这些都是很容易学习的。
少部分用得是韵母首字母,比如:“尸shi”小码i、“石shi”小码i、“山shan”小码a。
当然也有少数小码需要稍多点的记忆。
比如:“面”用的是“口”的类码A做小码,“金”用的是“人”的类码R做小码。
“且”细分为“一”,大码归“月D”,小码取“一h”。
以上就是全部汉字“基础部件”的编码设计细节。
接下来,我们需要交代一下拆分规则,以及拆分注意事项。
五、汉字部件拆分
由于经过精心设计,我们有了一份完美、科学的“基础部件”表。这些基础部件(字根)确保了我们对汉字
的拆分是容易的、直观的、和自然的。同时拆分结果也是符合汉字字源字理,能够很好地传承汉字的文化内涵。
当然也有少数需要注意的规范和特殊规则,以下逐一阐明。
(5.1)部件拆分规则
(1)尽量匹配最大的部件。比如“韵”可以匹配“音勹冫”,就不要匹配“立日勹冫”。
(4)如果某一个笔画被两个部件共享,那么应该把该共享笔画复制一份看待。分为连笔和叠笔两种情况。比如:
连笔:
“我”=【丿扌戈】,横笔连在一起了,应剪断处理。
“果”=【田木】,竖笔连在一起了,应剪断处理。
“制”=【牛巾刂】,竖笔连在一起了,应剪断处理。
叠笔:
“彖”应该看作“彑豕”,横笔叠在一起了,应复制一份。
(也可以理解为“豕”缺一横的“”为“豕”的省形,依然等同于“豕”看待。)
判断是否共享的原则:
若后写的某部件的一个笔画,贯穿了前面的部件时,可以抽离该笔画处理,除非该笔画并未贯穿,或者该笔画对前面部件是不可缺少的。如:
果:“木”的竖笔上伸入“日”,但未穿透,产生了“田”的基础部件构形,所以看作“田”。
疌:“”的竖笔上伸入“一彐”,均为穿透,而且抽离后也不影响那两个部件。所以抽离处理。“隶事妻禹”同理。
制:“巾”的竖笔上伸入“牛”,若抽离该笔,“牛”无法成为部件,所以必须共享。
(5)字架结构的汉字,应该把字架看作一个部件。比如“衷”是“衣中”,这里的“衣”属于字架部件。
字架部件一般不会按照笔顺一次写完,而是部分先写,部分后写。字架部件主要有:
“衣、木、禾、大、工、戈”几个。但我们取码时,对于部件的取码顺序,只需要看首笔即可。也就是说只要部件的首笔写了,就算该部件写了。比如“式”的部件顺序是“戈工”而不是“工戈”。
(4)粘连拆解的特例。部分汉字部件发生粘连,需要从粘连出剪断,才看得清楚其部件组成。如:“其真共具兴兵典舆”几个字,应该把下面的“一八”和上面的部分剪断,其编码就一目了然了。
其=“甘一八”
真=“十目一八”
具=“目一八”
兴=“ツ一八”
兵=“斤一八”
典=“冊一八”
以上就是拆分的规则,及其注意事项。
六、汉字的编码示例
(6.1)全息编码及示例
全息编码:按照汉字的书写顺序得到的部件序列,称为汉字的全息部件序列。把部件替换成相应的字母编码后,
得到的字母序列,我们称之为汉字的全息字母编码,简称为汉字全息部件码(或全息码),在不会和后述的“简易码”产生混淆时也可以直接简称为部件码。
部件序列不限制长度,必须包括全部的汉字部件,同样转译成字母也是。所以称之为全息码。全息码示例:
【汉】=【氵又】=【S X】
【字】=【宀子】=【A Nz】
【编】=【纟户冊】=【Y Ah Ic】
【码】=【石马】=【Ti Km】
【示】=【示】=【Qs】
【例】=【亻歹刂】=【R Ed J】
我们使用大写字母表示大码,小写字母表示小码,这样容易区分,并确保编码连写的时候可以区隔部件边界,
在编撰字典时,我们可以保留这大小写表示法。
但是在本编码用于电脑输入法时,则可以不区分大小写,以减少操作的难度。由于系统已经经过细心的调适,
所以部件边界模糊造成的重码是非常少的,完全可以适应盲打的需求。
(6.2)汉字简易码及示例
最前面我们已经叙述了本方案设计的目标原则,里面有提到,必须兼顾“初学者容易上手”和熟练者“高速盲打”的需求。
为了降低初学者的学习门槛。本编码方案给出了全息码的简省编码形式。
简易码:也就是全息部件编码省略了全部或部分小码的编码。
简易码设计的目的是:
(1)给初学者很低的门槛,只需要懂26个大类就可以打字。
(2)缩短复杂汉字的码长,一般3个部件以上的汉字,鼓励使用简易码输入。
由于经过精心的互斥设计,同一大类的部件互斥度很高,小码负荷的信息量不高,省略它造成的信息损失不多,仅仅在双部件汉字中重码较为明显。
如果一个汉字由三个部件或以上组成时,实际上简易码已经很少会重码。所以即便是“熟练的盲打者”,只要遇到
三个部件或更多部件的汉字,大可以直接输入简易码。
但对于单部件或者双部件汉字来说,简易码重码会比较多,所以除了常用字以外,可能需要进行重码选择。
不过重码还是比拼音少得非常多,而且对于多数常用字来说由于高频先见的排列,基本上属于首选,直接空格就可以。
对于初学者来说,简易码大大降低了学习的难度,几乎介绍完26个大类,及各自包含的部件后,就可以上机打字了。而且对于复杂构造的汉字,简易码避免的冗长的全息编码输入,大大提高输入效率。
对于全部省略小码的部件码,我们称为“纯简易码”,简称简易码,或简码。
对于省略部分小码的部件码,我们也泛称之为“简易码”或“简略码”。
一般情况下,对二部件汉字,建议至少对其中一个部件增加小码,做成3个字母的编码,这样就几乎没有了重码。
简易码示例:
【部】=【立口阝】=全息【Li O Te】=纯简易【L O T】
【输】=【车亼月刂】=全息【Lc Rj D J】=纯简易【L R D J】
(6.3)词语的部件编码及示例
词语的部件编码和单字的部件编码原则基本上是一致的。
把组成词语的各个汉字的全息编码,按照顺序罗列出来,就构成了词语的全息编码。当然,词语也有相应的“简易编码”,除了撷取单字的简易编码组成的词语简易码外,我们还允许对每个单字的编码进行省略(允许缩短到2个字母),由此构成词语的简易编码。而且,对于常用词语,只要总码长达到4个字母,那么也允许每个汉字码缩短到1个字母。如果一个汉字本身的全息码就比允许省略的长度还短,那么就用全码即可。
比如:
【计算机】=【讠十竹目廾木几】=【I C Uz E C M P】
简略码:=【ICUECMP】=【ICUEMP】=【IUMP】=【ICUM】等等。
【人家】=【人宀豕】=【R AKs】=【RAK】
(6.4)汉字的“部件拼音编码”
汉字的部件拼音编码,就是由相应汉字的部件拼音组成的编码,或称为“子字拼音法”。
构成:
【子字拼音法】:先把汉字拆分成部件(子字),不一定是基础部件,然后罗列他们的拼音,就构成子字拼音码。(可以看作子字组成的词语)。甚至还可以在最后增加本字的拼音。
举例:
“树”=【权quan寸cun】=quancun
“树”=【木mu对dui】=mudui
“树”=【木mu又you寸cun】=muyoucun
“张”=【弓gong长chang】=gongchang
“张”=【弓gong长chang张zhang】=gongchangzhang
也可以理解成把“树”看作“木对”或“木又寸”这样的词语进行输入。
(6.5)全息部首码:
和全息部件码唯一的区别在于拆分的顺序,部首码是分层拆出部首,形成的部首序列,然后映射成编码。
部首码=部首1+子字1
子字1=部首2+子字2
以此类推,得到的部件序列:部首1、部首2、部首3等等,并转换为字母编码即可。
部首码,主要的用途在于字典编纂。
优点:
(1)可以使得汉字的编码具有部首聚类的效果,编纂字典时相同部首必定排列在一起。
(2)部首码每次拆出的都是汉字的部首,比较醒目,往往容易抓取。比如:遍=辶+扁=辶户+冊。
缺点:
(1)有些汉字部首位置不易确定,可能造成操作的困难。比如:“问闻”到底先取哪一个部件作为部首?
全息部首码虽有局限性,但在字书编纂、汉字按部首分类时则具有较大的作用。
第二篇输入法方案及软件技术
七、实际汉字输入过程及编码应用技巧
(7.1)键盘布局
本输入法适合用于具有26个字母的各种键盘,如流行的PC键盘。必要时可以把大类或主根刻印在键帽上面。软件还提供“部件软键盘”,也可以用鼠标点击输入汉字。
本方案的字根,按照键盘字母的对应位置进行布局。如果使用某种特殊排列的键盘,也要跟着字母位置变化作相应变化,并不按照物理位置固定。
(7.2)部件码模式的输入
当我们使用本输入法方案输入汉字时,我们可以选择拼音编码模式,也可以部件编码模式,以及其他的几种输入模式。
这里介绍的是部件编码输入的过程。
当我们打开本输入法,并处于“部件输入模式”时,
我们敲入一个汉字的的全息编码或者简易码,就可以输入相应的汉字。
全息编码和任意省略小码的简易码,均可以无切换地输入,它们统称为“部件码”。
在实际输入时,只需要输入编码的前面部分,软件就会把部分匹配字词显示出来,供选择。
如果需要的汉字已经处于首选位置,那么直接敲入空格就可以上屏。
如果处在其他序号位置,那么需要敲入相应的序号进行输入。
如果第一页没有看到,也可以用翻页键进行翻页,直到看到需要的汉字,在输入相应的序号。
一般地,对于初学者,只需要输入一个汉字的前面两三个部件的简易码就可以了,常用汉字一定会出现在首选或者首页,罕用汉字则需要进行翻页。
对于词语,一般也是输入4个字母左右就可以得到该词语。
对于熟练的盲打者,最好输入较完整的编码,也就是对于单、双部件的汉字尽量输入全息码,多部件汉字则多数可以输入为3至4码的简易码,少数较罕用的汉字有可能需要输入5码或更多码。
由于全息码的精心设计,实际上只要熟练掌握一些常用汉字的输入,基本上就解决了全部汉字的输入。因为,本方案的全息特征确保了任何一个“子字”的编码和母字,保持相包容的关系。比如:
你会输入“姑NCO”就一定会输入“菇CNCO”,因为只要前面增加“艹C”,其后面则完全照打。
你会输入“寺TFd”,就会输入“等UTF”、“特KTF”、“持FTF”、“待LTF”、“诗ITF”等等。
你会输入“青CD”,就会输入“情QCD”、“请ICD”、“清SCD”、“精UCD”、“静CDR”等等。
哪怕是从来不认识的字,如“锖JCD”、“靔CDW”,也是一瞬间输入,因为都包含“青CD”这个“子字的编码”。
熟练后,几乎就会变成下意识的习惯动作。
不像其他的编码,需要类似“前三末一”这样的取码规则,那样将造成以上特征不一定成立。
这就是“全息”的好处。
注:在实际的电脑输入大码和小码时,不需要区分大小写。在编撰字典等场合则可以区分大小写。
在不区分大小写时,部件码的静态重码率约为2%(对7000个实用汉字)。部件码的动态键选率低于0.5%。(针对7万汉字的大字符集)
(二)拼音码模式的输入
1)直接辅助码
汉语拼音的全拼或者双拼后面允许加上辅助码,以降低重码。缺省的辅助码是首部件的声母或者全息大类码,或者笔画代码。笔画可以用hspdz或者小键盘1-5数字输入。如果候选项设置为5个或以下,那么大键盘的67890也可以用作笔画辅助码。
3)声调功能。
目前的拼音输入法一般不支持声调输入。本方案采取一些特殊技巧,在不影响常规习惯的基石出上兼容了声调输入。
共提供以下几种输入声调的方法:
a)在音节末尾追加声调字母:
第一声:重复末字母或末元音字母。
第二声:重复末字母或末元音字母两次。
第三声:追加v字母。
第四声:追加vv字母。
轻声:按照第一声处理。
b)使用Shift加数字1到5几个键进行声调输入。
2)子字拼音输入法
此法利用汉字的拆分部件(子字)的拼音序列来输入汉字。特别适合于一些罕用汉字或不会读音的汉字。
具体方法是,把汉字拆开成2块或多块,按顺序输入它们的拼音,就可以输入得到该汉字。比如:树,你可以输入【木又寸】的拼音muyoucun,这样就可以得到该汉字。
而且还允许输入不完整的拼音,实际上可以说,就是把“木又寸”看作词语,然后按照词语的拼音输入法进行输入。
这实际上也可以称作为单字的“虚拟词语输入法”,或“子字拼音法”。
对于罕用汉字即便你会拼音,由于频度很低,需要多次翻页才可以输入,利用子字拼音法,则可以快速输入。
(三)笔画码输入
笔画码就是根据国家颁布的汉字笔顺规范,按照12345代表横竖撇点折,进行编码。
1)【?】引导后,就可以用12345代表横竖撇点折,输入汉字。进输入3个笔画时,部件优先显示。
2)小键盘的数字可以直接输入笔画码。
3)直接使用HSPDZ这五个键,无切换地输入笔画码。
4)笔画辅助码。无论拼音或者部件模式都可以。
a)在候选项数量只有5个以下时,允许用6-0这五个键代表横竖撇点折,来追加汉字的笔画码。
b)Tab或其他自定义引导键触发后,开始笔画辅助码输入。
(四)高级查字
进入【查字】菜单,或者按下【查字】活键,则可以根据多种条件进行汉字模糊匹配查字。可以输入汉字的部分编码,也可以直接输入汉字的部分子字、部件、笔画、拼音、其他信息等,进行匹配,并列出匹配的汉字及其相关信息,供用户使用或选择。
(五)系统特殊控制键安排
1)中英文模式切换:
一般输入法使用Shift或者Ctrl来切换中英文模式,但它们作为移位键,很容易被误触发。
本方案,除了兼容传统之外,还引入了一个特殊的切换键,那就是【CapsLock】键。
该键本来是英文键盘的大小写模式转换键,外形具有IBM的船型专利设计,所以不容易误触发。
在我们输入法中,允许定义它作为中英文模式切换键,理解为“Chinese application stateLock”
当大写灯亮时,代表中文输入,小写则代表英文输入。
2)简繁体切换键
除了允许定义为Ctrl/Shift/Alt+字母的组合外,还可以定义为:Ctrl-CapsLock或Shift-CapsLock。使得切换更加方便好用。
如果在输入汉字的中途,按下【简繁】键,那么候选区的字词马上变换。
3)罕用字切换键
【罕字】键:用于显示罕用字的候选。不管是否打开7万汉字大字符集,都可以激发那些罕用字的显示。显示时常用字将被临时屏蔽,在本次选择前有效。
具体键位可以自定义。
4)异体字切换
【异体】键:用于显示目前候选字的异体字、形近字、关联字、讹误字等密切有关的字。
具体键位可以自定义。
5)词语首选键
【词语】键:用于对第一个候选的“词语”进行自动上屏。
具体键位可以自定义。缺省为【;】。
6)单字过滤键即单字分隔符。
【单字】键:用于过滤掉词语候选,只剩下单字候选。
具体键位可以自定义。缺省为【’】或【-】,即和音节分割符一致。
【’】除了是拼音的音节分隔符外,在部件码中也可以作为词语中各个单字的分隔符。
当它位于编码末尾时,则具有单字过滤功能:将把前面的编码或从上一个分隔符起的编码,仅看作单字编码,不会进行智能切割。
7)精确匹配
【精确】键,按下时,则只匹配全部部件都已经输入的字词,其余一律屏蔽。
8)以词定字:
【切词】键将自动把候选中的词语全部拆散为单字,供选取。
具体键位可以自定义。
9)符号引导:
【/】【.】均可以引导一些符号功能或特殊功能。
而【,】则根据符号状态自动输入全形逗号或者半形逗号。
10)帮助引导:
【帮助】键:激活帮助索引,导引初学者了解常用功能,或者进入帮助文档。
缺省为【?】键。
11)模糊匹配键:
【通配】键:允许用来替代某个不会输入的编码。
缺省为【?】
12)命令引导:
【命令】键:可扩展计算器、字典、月历,以及命令式功能切换或者系统设置等功能。
13)英文的直接上屏,及大写转换上屏:
【Enter】回车键可以使正在输入的编码,不做翻译地保持原样上屏。便于英文的输入。
【Shift-Enter】同上,但其中的小写字母全部被转化为大写,再上屏。
14)智能组词时的,快速修改法:
当输入的编码无法匹配任何汉字或词语时,系统尝试切割字码,并且智能组成词语。
但由于信息的不足,可能出现组成的词语不是希望输入的词语,这时可以利用快速修改法,迅速定位到
错误的汉字或词语位置,进行修改。步骤如下:
a)系统在智能组词时,对于每个不确定的词语下面都标上了一个数字序号,
用户看到组词错误时可以使用Shift-序号进行快速定位。
b)定位后,系统临时屏蔽其他分段的字码,候选出现的是本段字词码的后选项,用户可以选中一个正确候选,
或者翻页后选择,也可以继续输入代码来减少重码。
c)选中正确的代码后,系统重新智能调整不确定部分的组词,如果用户不满意,还可以重复上述步骤,直到全部正确后按下空格确认。
15)静态词频的手工调整:
当候选出现时,按下Down键,候选栏的光标将移动到候选项上面。
这时,软件将自动显示该候选字的很多信息,比如拼音、部件、笔画、含义、词频等信息。
左右光标键可以让光标移到另一个后选项上。
Ctrl-左右键,可以移动候选项的排列顺序。[+-]可以修改数值。【Del】可以删除自造词。
(五)软件优化技术
1)候选区管理:静态词频和动态词频有机的结合
候选区分为横排格式和竖排格式,一般最多可以有10个候选,用1-0十个数字表示和选择。用户也可以自行调整候选项的个数。
候选区被划分为前面的静态区和后面的动态区,数目可以设置。
静态区的顺序按照静态词频,由高到低排列,不会随意变动。
动态区的内容和顺序则会根据输入汉字的动态频度进行调整。
系统首选一般是静态区第一个,但用户也可以选择动态首选项。只要某个候选的动态频度达到一定高度时,就有可能变成首选项,该位置的内容将被高亮提示。静态区内容也有动态词频统计,但统计值并不会改变它的屏幕位置。静态区有的汉字,动态区不再重复。
候选区针对不同属性的字词,将使用不一样的颜色来指示。
比如Ext-B的汉字、精确匹配的汉字、模糊匹配的汉字、容错码、PUA字符等等,均可以设置成不一样的颜色。
2)动态联想
系统在显示候选、智能组词的时候,将参考前一刻刚输入的词语,最佳化地处理候选提示。
3)语域自动识别
每个人都有自己打字的专业领域。但目前输入法都是靠积累个人词库或者加载相应专业词库来更好地
接近个人的需要。可惜这不是每个人都可以做好的步骤,所以很难做到最佳化适应个人需求。
本发明提供了“语域识别技术”,可以动态地识别出个人这一刻的输入偏好和所属的专业,并及时地提升相关专业的词库权值,做到最佳化的个人适配。
方法就是,
针对每个专业领域,设置一些专业特征词,并配有专业度数据。
一旦输入这些词语,相应的专业度系数便会得到提升。特别是第二次输入该专业词语时权值更大。
一旦专业系数达到足够时,便触发激活相应的词库,并且按照专业系数值来加权使用该词库的词频。
4)兼容码和容错码:
a)兼容码:
一个汉字有时会出现一些争议性的编码,可能都有道理,这是系统也允许作为合法的编码输入,称为该字的兼容码。
b)容错码:
一个汉字输入时,一些人容易产生一些违背规定的编码,或出现容易混淆的编码。这个编码实际上是不符合系统
确立的规则要求的,也就是算作是错误的编码。但由于容易出错的人较多,于是系统也兼收进来,
但显示时采取不同的颜色以示区分,并且后面会注明正确的编码,以便下次可以纠正过来。必要时可以出现声音或文字的警示,以便提醒错误的纠正。
附录:一些部件变体清单:
由于本方案的归并原则,一些部件属于另外一些部件的变体部件,彼此认同和等价。
所以有时并不提及他的变体。但有些变体部件字形差异还是比较大,这里列出一些常见的变体:
冃 月、円 丹、靣 面、齒 齿、歺 歹、飛 飞
亀 龟 龜、虎 虍、鳥 鸟 S鸟、黽 黾、~录 彑、龍 龙
Claims (9)
1、一种汉字编码及键盘输入方案,其特征为:
(1)将汉字拆分为部件序列,并按照一定的顺序排列这些部件。顺序分为两种:(a)按照部件的书写顺序,(b)按照“部首取码顺序”:即先取出汉字的部首,留下偏旁(子字),再对偏旁(子字)重复这个过程,直到全部部首取完。
(2)部件按照其字源含义或者形似特征进行分类,分为26个大类,即:
自然:日、月、金(兵器)、木、水、火、土。
生命:虫(动物)、草、人、体(器官)、心、口、手。
人类:民(人际、子女)、言(文化)、衣、食、住、行、财。
字形:八、叉(手)、横、竖(合并到水)、撇、点(合并到月)、折。
(3)每个大类按照形状或读音的联想对应到一个英文字母上,形成大类码。
(4)每个大类的代表部件称为主形部件(主根),其编码就是大类码。
而每个大类的其他部件,则由2个字母组成,其第一个字母为大类码,第二个字母为小类码(小码、子码),小类码根据读音或者部件的特征形状对应到26个字母。
(5)在输入汉字时,可以完整输入汉字全部部件的编码(全息码),也可以省略其中任意一些部件的小码,形成简易码。如果输入前面部分编码时,所需要的字词已经是屏幕首选,可以用空格直接上屏,而省去剩余编码的输入。
(6)词语的编码:顺序输入词语各个汉字的全息码或简易码即可。
对于其中码长超过2字母的汉字,还可以简省输入:只要输入前2个字母或更多都是允许的。
对于总码长达到4码或以上时,还允许各个汉字编码省略为1个字母或更多。
(7)少数部件允许设立有专用小码,它仅仅在该部件的单独时,或者属于汉字最末尾部件时才有效。
(8)对少数常用的重码汉字允许末尾追加补码,补码可以是拼音声母或者字型信息码。
2、一种汉字编码及键盘输入方案,其特征为:
(1)提供一种“子字拼音法”输入汉字,具体就是:把汉字拆分为几个字块或部件,然后分别输入这几个字块或部件的拼音(一般输入全拼,但也允许省略),还允许末尾再追加该字的拼音。
3、一种拼音输入法的改进技术,可应用于本输入法方案的拼音模式,其特征为:
(1)针对目前的拼音输入法,该模式除了具备目前主流的拼音输入法的特征以外,还支持专有的声调输入,允许在音节后面追加声调,方法有二:
(a)用Shift加输入1到5代表声调,或者
(b)用重复最后一个元音或末字母来代表第一声(阴平),再重一次表示第二声,用v代表第三声,vv代表第四声。
4、一种输入法的改进技术,其特征为:
(1)允许使用混打模式,这时可以不切换地直接输入拼音码或者形码。
(2)无论在拼音模式还是形码模式,允许不切换地输入笔画编码,使用hspdz五个字母或者小键盘的1-5键代表横竖撇点折五个笔画。
5、一种输入法技术优化方案,其特征为:允许用CapsLock键来切换中英文模式。避免目前流行的用Shift或Ctrl做切换键产生的容易误触发的弊端。
6、一种输入法技术优化方案,其特征为:设有【罕字】键,代表只显示罕用字,按下以后候选区显示的是相匹配的罕用字。不管系统是否处在大字符集模式。
7、一种输入法技术优化方案,其特征为:设有【异体】键,代表显示出目前候选区汉字的“异体字”或“相关汉字”。
8、一种输入法技术优化方案,其特征为:首选也允许选择静态模式和动态模式。静态模式,首选固定为第一个候选。动态模式,首选会根据频度统计自动调整到最合适的位置上。
9、一种输入法技术优化方案,其特征为:加入独创的动态语域切换技术:输入法软件会根据你输入的一些专业特征词语,分别给予相应领域的权值分值提升,当分值到达一定值时,系统识别出你录入文字所属的领域,从而自动激活并增强该领域词库的权值,确保该领域词语的便利输入,智能地适应各领域的用户。同一个时间允许多个领域被激活和加权。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200810071358A CN101625598A (zh) | 2008-07-08 | 2008-07-08 | 一种符合文字理据的汉字编码及键盘输入技术 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200810071358A CN101625598A (zh) | 2008-07-08 | 2008-07-08 | 一种符合文字理据的汉字编码及键盘输入技术 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101625598A true CN101625598A (zh) | 2010-01-13 |
Family
ID=41521463
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200810071358A Pending CN101625598A (zh) | 2008-07-08 | 2008-07-08 | 一种符合文字理据的汉字编码及键盘输入技术 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101625598A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102841686A (zh) * | 2011-06-22 | 2012-12-26 | 王圣军 | 中一汉字图形检索输入法 |
CN103197764A (zh) * | 2012-01-10 | 2013-07-10 | 联想(北京)有限公司 | 拼音输入法及装置 |
CN112991122A (zh) * | 2021-05-10 | 2021-06-18 | 北京世纪好未来教育科技有限公司 | 汉字教学的规划方法和装置 |
-
2008
- 2008-07-08 CN CN200810071358A patent/CN101625598A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102841686A (zh) * | 2011-06-22 | 2012-12-26 | 王圣军 | 中一汉字图形检索输入法 |
CN103197764A (zh) * | 2012-01-10 | 2013-07-10 | 联想(北京)有限公司 | 拼音输入法及装置 |
CN103197764B (zh) * | 2012-01-10 | 2016-08-17 | 联想(北京)有限公司 | 拼音输入法及装置 |
CN112991122A (zh) * | 2021-05-10 | 2021-06-18 | 北京世纪好未来教育科技有限公司 | 汉字教学的规划方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102262683B (zh) | 一种汉字输入方法 | |
CN101089795B (zh) | 单击与并击输入中英文的方法和键盘 | |
CN103902058B (zh) | 一种中英文混合速录的方法与键盘 | |
CN101281426A (zh) | 一种智能部件积木式汉字输入法 | |
CN101625598A (zh) | 一种符合文字理据的汉字编码及键盘输入技术 | |
CN101833376A (zh) | 基于汉字拆分的智能语句级汉字输入系统 | |
CN100568166C (zh) | 一种查字打字同码输入法及其输入装置和应用 | |
TW201314498A (zh) | 嵌合字根式中文輸入法 | |
CN104951096A (zh) | 汉字编码八类笔形座标形码输入法 | |
CN101135938A (zh) | 一种汉字元拼双音输入方法 | |
CN101344820A (zh) | 一种计算机汉字输入方法及其键盘 | |
CN101872250A (zh) | 部首输入法 | |
CN103176614A (zh) | 多键共击速录 | |
CN101833375A (zh) | 计算机汉字查阅梢芯法 | |
CN1057624C (zh) | 一种汉字输入方法及其键盘设计 | |
CN101118464A (zh) | 易捷系列汉语输入方法 | |
CN106959764A (zh) | 一种有助于正确书写汉字的形码输入法 | |
CN104238765B (zh) | 中小学生键盘,标拼码输入法 | |
CN1746829A (zh) | 优化汉字根码输入法 | |
CN101393482B (zh) | 一种计算机汉字和汉字部件的输入方法及其键盘 | |
CN101158884B (zh) | 汉字形码计算机手机一体化输入技术 | |
CN1328649C (zh) | 汉字“三形联想”形码输入法 | |
CN102103415A (zh) | 一种古琴减字谱字符输入的计算机处理方法 | |
CN1204487C (zh) | 根声码汉字输入法 | |
CN106293130B (zh) | 中文字音字形笔画笔顺快捷手写输入法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20100113 |