CN1035216C - 汉字拚形高效编码输入法 - Google Patents
汉字拚形高效编码输入法 Download PDFInfo
- Publication number
- CN1035216C CN1035216C CN92108812A CN92108812A CN1035216C CN 1035216 C CN1035216 C CN 1035216C CN 92108812 A CN92108812 A CN 92108812A CN 92108812 A CN92108812 A CN 92108812A CN 1035216 C CN1035216 C CN 1035216C
- Authority
- CN
- China
- Prior art keywords
- character
- basic
- sign indicating
- indicating number
- chinese character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 21
- 239000002689 soil Substances 0.000 claims description 2
- 239000002023 wood Substances 0.000 claims description 2
- 241000251468 Actinopterygii Species 0.000 claims 1
- 240000007594 Oryza sativa Species 0.000 claims 1
- 235000007164 Oryza sativa Nutrition 0.000 claims 1
- 241001494479 Pecora Species 0.000 claims 1
- 210000000988 bone and bone Anatomy 0.000 claims 1
- 235000013339 cereals Nutrition 0.000 claims 1
- 235000009566 rice Nutrition 0.000 claims 1
- 235000015170 shellfish Nutrition 0.000 claims 1
- 239000004575 stone Substances 0.000 claims 1
- 238000004458 analytical method Methods 0.000 description 5
- 241000723346 Cinnamomum camphora Species 0.000 description 4
- 238000005096 rolling process Methods 0.000 description 4
- 230000008676 import Effects 0.000 description 2
- 230000003796 beauty Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000010977 jade Substances 0.000 description 1
Landscapes
- Document Processing Apparatus (AREA)
Abstract
一种汉字拚形高效编码输入法,本发明从汉字字元中优选出120个字元作为代表字元,这120个代表字元连自己在内共代表300个左右的编码基本字元。根据六条取码规则,任何人均可以严格逻辑地推导出任一汉字的唯一代码,消除了取码的岐义性,降低了学习输入法的难度,提高了学习输入法的兴趣。本发明的编码效率很高,任何汉字、汉词最多只需击三键,平均每字只需击1.6键左右。
Description
本发明涉及一种计算机汉字编码输入方法。
汉字拚形编码输入法目前仍是占统治地位的计算机汉字输入方法。现有的形码输入法有一共同缺点:取码存在歧义性,依给定的取码规则有时不能编出唯一确定的代码。这增加了学习的困难,降低了学习编码的兴趣,并使整个编码方案缺乏逻辑美。其次,许多编码输入法的编码效率还不够高,例如著名的“五笔字型”输入法一般需要击四键才能输入一个汉字,而降低汉字代码长度是提高汉字输入速度的重要一环。汉字信源与汉字键盘信道的最优匹配是提高汉字键盘输入速度的又一重要环节,在这一点上仍有很大的潜力可以发挥。
本发明提供一种新的汉字拚形编码输入方法。
1.基本笔划及其分类
书写汉字时毛笔从下笔到提笔之间一笔写出的连续笔划叫基本笔划。基本笔划是不可拆分的笔划,组成汉字的笔划一共有三十多个基本笔划。
本发明将三十多个基本笔划分成点、横、竖、撇、左折、右折、等六大类,分别以丶一丨 丿
乙为代表,其中斜横与挑归入横类,斜竖归入竖类,捺归入点类,收笔时左拐并沿顺时针方向归入左折,也叫顺折,收笔时右拐并逆时针方向归入右折,也叫反折。
2.字元、代表字元与基本字元
汉字可以拆卸成许多部件,这些组成汉字的部件也叫字元,或叫子字。偏旁部首是字元。基本笔划也是字元,但它们是不可以再行拆卸分解的最小字元,叫平庸字元。
本发明从汉字字元中优选出120个基本字元作为代表字元,依据信源信道匹配原理将基本字元分成26个基本字元组分别与26个英文字母键对应。在120个代表字元中,其中有6个是平庸代表字元即“代表笔划”,其他114个代表字元是真字元。这120个代表字元共代表300个左右(包括120个代表字元本身)的编码基本字元,总数300左右的编码基本字元随120个代表字元一起分为26个组。每一个组和一个英文字母对应,这种对应关系的建立是根据信道与信源最优匹配原理用优化算法导出,最充分地保证了高频字母和字母串总是能最顺手最快捷地键入计算机。
代表字元与被代表字字元间存在形义上的某种相似性,使人很容易联想起它们居于一组,并因而联想出它们共同的代码。
有了编码基本字元,每个基本字元又有了代码,于是每个汉字都可编成一串代码。
本发明的取码方法如下:
G1.笔顺原则一一本发明严格按照书写顺序依次给汉字取码例:斧→八*乂*斤*→tge,气→*一*乙*→ejm(见图3)。G2.最大基本字元析取原则一每次依笔顺取出小于待编字的最大基本字元前面。斧字的第一码不取丿,也不取
和父或
等字元,因为后三个字元不是基本字元(不出现在图3),非基本字元没有编码意义(不出现在图3中,就没有英文字母作它的代码)。而‘丿’虽是图3的基本字元,却比基本字元‘八’小,而八是依次取出的小于斧字的最大基本字元,因此第一码取出的应是它。
G3.三码原则一本规则规定每个汉字都编为三码。
G4.逆笔顺最大基本字元析取原则
依G1和G2取出一个汉字的首码和次码后,残留下来的字元如果不是一个基本字元,就不能把汉字编成三码。本发明规定第三码即尾码的取码原则是:从最后一个笔划逆笔顺而上取出的最大基本字元作为第三码。以樟字为例,依G1和G2取出本和立之后,余下的字元“早”不是基本字元,即不出现在图3之中,因此樟字还不能编成三码。G4告诉你如何取第三码。从早字的最后一笔往上溯,陆续出现丨十干……等字元。显然,这个序列中干是小于早字的最大基本字元,这就是樟字的尾码。因此,由图3可知樟字的代码是p(木),u(立),f(干)。
G5.基本字元再析原则
有些汉字在析取第一个最大基本字元之后,余下部分是一个基本字元,这样的汉字于是可编成两码,但这就与规则G3的三码原则冲突。还有些汉字,它本身就是基本字元,例如巾、土……等等,这些字可以编成一码,这也与G3的三码原则冲突。在以上两种及其他只能得到一码或二码的情况下,为贯彻三码原则,本发明对基本字元进行再拆析,使之产生三码。
本发明依不同的具体情况制定以下三条“再拆析”规则
G5.1当汉字取出首码后,余下的部分是一个基本字元,应对该字元依G1至G4取次码和尾码。例如扣字取出扌后,余下的口字是基本字元,口字应再行拆析为和一。现在,扣字已被编成三码字:扌(e)(g)一(j)。又如酒字,取出首码氵后余下的酉是基本字元,为产生三码,应对酉继续拆柝,依规则G2,次码是一,取出一后余下的
是非基本子字。现在依G3和G4取尾码,尾码是二。因此酒的代码是氵(a)一(j)二(b)。
G5.2_当汉字取出首码后,余下部分是一个基本笔划,在第一节即指出,基本笔划是不能再拆柝的(基本笔划虽也看作基本字元,但它们是平庸的基本字元,不能再拆析),在这种情况下,应依G1-G3把首字元(是基本字元)拆成首次两码,前述的基本笔划作为尾码。例如扎字,依G5.2应拆编成扌和,再拆编成一(j)亅(d)乚(m)三码。
如果汉字是一个基本笔划,则把它重复三次产生三码,例如乙字编成乙(m)乙(m)乙(m)。一字编成jjj。
G6.戈、囗、匚 取整原则
为了提高折字取码的质量,本发明对戈、囗、匚 等少数几个基本字元规定特殊的取整原则如下:
G6在依笔顺取码(或依逆笔顺取尾码)的过程中只要碰到这三个基本字元及其所代表的三类基本字元(囗只代表自己)的第一个基本笔划或最后一个基本笔划(取尾码时),就应当把该字元作为整体取出成为待编字的一码。对戈、囗、匚取整时显然局部破坏了原来的依笔顺(或逆笔顺)取码的原则。
对囗的取整还有几条补充规定。
G6.1囗内包含的字元有笔划伸出囗外者,囗不取整,如酉由申等。
G6.2囗内仅含横和竖两种笔划者,囗不取整,如目、田、日、回等。
G6.3一个汉字如不足三码,这时为贯彻三码原则,戈、囗、匚 三个基本字元均可依G5进行再拆析。以下是实施G6的实例:我→丿*找→丿*戈*扌→丿*戈*
俄→亻*我→亻*丿*
→亻*丿*戈伐→亻*戈→亻*
*丶代→亻*弋→亻*
*丶框→木*匡→木*匚*王国→囗*玉→囗*王*丶窗→穴*囱→穴*丿*
→穴*丿*囗西→一*
→一**
→一*
*一
我字的首码可能认为应取
(b)但因‘一’是戈字元中的笔划,依戈的取整原则,不能取出它。
为了提高汉字输入速度,提高工作效率,本发明对高频汉字及词的输入方法采取如下规则:
G7.缩码规则
对于52个高频字,分别用对应的英文字母的大、小写,加空格键组成该高频字的代码,而略去其它两码。
G8.词码规则
对三字及三字以上调,取第一二字的首码和最后一字的首码构成词的基本码,但最后一码用大写。
对二字词,取第一、二字的首码和第二字的尾码构成词基本码,第三码用大写。
本发明确定了一套非常简单而且逻辑上极为严谨的取码规则。依据这套规则,任何入均可以对任一汉字逻辑地推导出它的唯一确定的代码,完全消除了取码的歧义性。这就大大降低了学习的难度,提高了学习汉字编码方案的兴趣,并使本方案的学习成为训练青少年罗辑推理能力的一门辅助课程。
本发明依重码率最低和学习量最小两个准则,利用计算机对编码基本字元进行了反复的优选和合理的科学的分组。
本发明输入一汉字至多只需击三键,采用简缩码输入后,平均码长可降至每字1.6键左右,是目前编码效率最高的形码方案之一。本专利输入法取简缩码的规则极其简单,在获得高编码效率的同时还保有方案的易学性。
本发明依据信源信道匹配原理建立26个基本字元组与26个英文字母键之间的对应关系,更充分地发挥了键盘信道的信息传输潜力,将进一步显著提高本专利输入法的汉字极限输入速度。
本发明已在长沙前进计算机研究所、中南工业大学计算机科学系和湖南医学专科学校实施、使用,效果良好,初学者经过三小时讲授即可学会,经过三天的练习就可承接汉字输入业务。
附图说明:
图1.本发明六大类基本笔划及其对应的代码;
图2.本发明26组(120)个代表字元及其代码;
图3.本发明的300个基本字元及键位配置。
Claims (1)
1.一种汉字拚形编码输入法,其特征在于,
1>从汉字字元中优选出120个基本字元作为代表字元,依据信源信道匹配原理将基本字元分成26个基本字元组分别与26个英文字母键对应;120个代表字元共代表300个左右(包括120个代表字元本身)的编码基本字元;120个代表字元包括六大类三十多个基本笔划;其具体对应方式为:A:三、寸、才、力,B:艹、二、
,C:亠、六、讠、文,D:
、マ、彳、足、牛、车、
,E:九、斤、手、气,F:丿、千、鱼、
、穴,G:乂、厂、冂、贝、虫,H:十、厂
、西、目、饣,I:口、
、申,J:一、舟、工、犬,K:七、亻、几、户,L:纟、毛、大、
、白、示,M:乙、厶、女、雨、匚,O:
、又、石、弓、门,P:木、爪、戈。Q:口、四、山、马,R:丁、巾、日、止、
、骨,s:也、古、竹、丷、卜,T:人、钅、甫,U:
、、立、火、衣,V:
、小、尸、耳,W:五、羊、王、禾、丰,X:丨、片、心、宀、且,Y:土、田、
,Z:不、月、之、勹、米;
2>利用上述键盘输入方法是:
a.每次按照书写顺序依次给汉字取码,取出小于待编字的最大基本字元;
b.每个汉字最多取三码,
c.对于多于三个基本字元的汉字,从最后一个笔划逆笔顺而上取出的最大基本字元作为第三码,
d.一个汉字取出首码后,余下部分是一个基本字元,则根椐a所述的方法对基本字元,依次取出二码和尾码,
e.一个汉字取出首码后,余下部分是一个基本笔划,则将首字拆成首码和二码,
f.如果汉字是由两个基本笔划组成,则把第二个基本笔划重复一次产生三码,
g.在依笔顺取码(或依逆笔顺取尾码)的过程中如果遇到“戈”、“囗”、“匸”这三个基本字元及其所代表的三类基本字元的第一个基本笔划或最后一个基本笔划(取尾码时),则对这三个基本字元作为整体取码,
h.“囗”内包含的字元有笔划伸出“囗”外者,囗不取整,
i.“囗”内仅含横和竖两种笔划者,“囗”不取整,
j.如果一个汉字不足三码,则对“戈”、“囗”、“匚” 三个基本字元依次进行再析取码,
k.对于52个高频字,分别采用对应的英文字母的大、小写,加空格键组成该高频字的代码,而略去其它两码,
1.对三字及三字以上词,取第一二字的首码和最后一字的首码构成词的基本码,且最后一码用大写,
m.对二字词,取第一、二字的首码和第二字的尾码构成词基本码,第三码用大写。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN92108812A CN1035216C (zh) | 1992-07-23 | 1992-07-23 | 汉字拚形高效编码输入法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN92108812A CN1035216C (zh) | 1992-07-23 | 1992-07-23 | 汉字拚形高效编码输入法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1083233A CN1083233A (zh) | 1994-03-02 |
CN1035216C true CN1035216C (zh) | 1997-06-18 |
Family
ID=4943837
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN92108812A Expired - Fee Related CN1035216C (zh) | 1992-07-23 | 1992-07-23 | 汉字拚形高效编码输入法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1035216C (zh) |
-
1992
- 1992-07-23 CN CN92108812A patent/CN1035216C/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN1083233A (zh) | 1994-03-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1035216C (zh) | 汉字拚形高效编码输入法 | |
CN1169041C (zh) | 音形拼音汉字输入法 | |
CN1022781C (zh) | 一种汉字笔形编码的计算输入方法 | |
CN1020386C (zh) | 结构笔画四位数编码法及键盘 | |
CN1115618C (zh) | 汉字阴阳双极形码输入系统 | |
CN1154508A (zh) | 汉字三维三码字词兼容输入法 | |
CN1055773C (zh) | 部首音序汉字编码输入法 | |
CN1029335C (zh) | 汉字音形三码编码输入方法 | |
CN1074147C (zh) | 一种五码汉字输入法 | |
CN1109285C (zh) | 字声部件计算机汉字输入法 | |
CN1146775C (zh) | 七字根双笔画形音码计算机汉字输入方法 | |
CN1142477C (zh) | 易码汉字电脑编码输入法 | |
CN1054693C (zh) | 一种动态部件二三拆分的计算机汉字输入方法 | |
CN1099162A (zh) | 音形义全信息汉字输入方法及其键盘 | |
CN1332402A (zh) | 字词句万能组合汉字输入法 | |
CN1109284C (zh) | 汉字多息码计算机输入方法 | |
CN1174348A (zh) | 优化的合书汉字编码法及输入键盘 | |
CN1309343A (zh) | 数字键盘汉字拆形首音输入法 | |
CN1197949A (zh) | 一种汉字编码输入方法 | |
CN1009586B (zh) | 计算机汉字词字二分拼形输入方案 | |
CN1687876A (zh) | 一种计算机汉字输入法及其键盘 | |
CN1127382A (zh) | 三码汉字输入方法 | |
CN1288186A (zh) | 一种电脑汉字输入码 | |
CN1567157A (zh) | 五码加加汉字输入法 | |
CN86105505A (zh) | 汉字输入方法及其所用键盘 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C19 | Lapse of patent right due to non-payment of the annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |