CN1166997C - 汉字免拆分快速输入法 - Google Patents
汉字免拆分快速输入法 Download PDFInfo
- Publication number
- CN1166997C CN1166997C CNB011052228A CN01105222A CN1166997C CN 1166997 C CN1166997 C CN 1166997C CN B011052228 A CNB011052228 A CN B011052228A CN 01105222 A CN01105222 A CN 01105222A CN 1166997 C CN1166997 C CN 1166997C
- Authority
- CN
- China
- Prior art keywords
- code
- chinese
- character
- chinese character
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Abstract
本发明属于汉字信息处理技术和现代汉字应用研究领域,可以解决汉字检索不便和形码难学两个问题。特点是用拼音首码整体表达独体字,拆分不再难,不需背口诀;使用双码部件仍只需按前三后一规则取码;高效输入GB2312汉字重码率仅6%,又可输入繁体字;具有易学高效规范繁简通用的特点。部首的82%取为编码部件且表达恰当,金翼码检字法可与部首检字法比照衔接,不仅解决查字典难问题,又使信息技术学习和语文学习相溶合,相辅相成。
Description
1.发明名称:金翼码——汉字检索和计算机输入两用形码
2.所属技术领域:汉字信息处理技术和现代汉字应用研究
3.汉字计算机键盘输入技术的现状
将汉字编码后用通用键盘输入计算机是汉字输入主要的、基本的方法。其中尤以形码最具发展潜力,可以达到重码极少,高效输入,又不依赖所输入汉字的读音。然而至今大多数人仍在使用拼音输入法,输入速度慢,对不认识的汉字难以输入,会用某种形码的人也是靠的苦背口诀反复练习,停用则忘,“形码难学”几成定论;担心违反汉字规范的编码造成负面影响也在所必然。因此目前这一技术的现状可以概括为:“初步解决了汉字进入计算机的难题”,但“在令人欣喜的同时,我们还应清醒地认识到如钱伟长教授指出的‘理想的输入方法还没有实现’这样的现实。”(见《汉语语言文字信息处理》,陈原主编,上海教育出版社1997年12月出版)这种状况对我国普及信息技术、提高社会文化水平和工作效率都是非常不利的。为了寻求更好的键盘输入法,人们努力探求,从未停止。去年推出的“二笔输入法”便是一种新的音形码,但由于多了一个拆取笔划配对编码的过程,比直接按部件编码要慢,而且输入不认识的汉字比较麻烦。人们期待着向易学、高效、规范方向发展的形码研究能有新的进展。
4.解决汉字查字典难问题在四角号码之后未有进展
汉字检索不便问题是非拼音文字的固有缺点,在字典上查一个不认识的汉字可能要比查一个英文单字多用几倍的时间,增加了学习汉字的困难,以至于“秀才认字读半边”,妨碍了国人使用汉字水平的提高。这种状况对中华文化的发展和传播很不利。其他需要给汉字排序检索的地方都不方便,效率不高。改善这一状况的努力始终未有结果,甚至连讨论多年的统一部首也不能实现。应该看到,在东西文化交融的时代,按字型给汉字编码,借助编码的码元为汉字排序,是解决汉字检索难的好办法。使用四角号码检字法有时便可以达到准确迅速的目的。然而四角号码加取第五码之后在一些区域仍有很多重码,且取码难点不少,难以推广使用(见《现代汉字学纲要》,苏培成著,北京大学出版社,1994)。近年来为汉字进入计算机不断推出各种编码,解决汉字检索难的问题获得了新的契机,然而现有的编码由于远离人们的文字习惯,不能与原有的检字法接轨,难以用来编排字典。例如,码元集由字母、数字、标点符号混合组成的编码,汉字被过度拆分或采用无理表达导致脱离汉字字型特征的编码,或者需要进行复杂的汉字分类、使用繁杂的拆分取码规则因而识字阶段的学生难以学会的编码,以及有违汉字规范的编码,都不适用于汉字检索。四角号码之后,尚未有新的按编码排序的字典得到稍具规模的使用。
5.发明金翼码的目的
发明一种好的形码具有特殊重要的意义,因为:
(1)只有形码不依赖每个汉字的读音只按照汉字字型和笔顺进行编码,学会之后可以迅速输入相应字库中的任何一个汉字。考虑到国内文化事业的全面发展和汉字走向世界后使用范围的扩大,IS010646.1国际汉字标准和与其对应的GB13000.1字符集(大字库)的制订,只有形码才能在键盘输入中满足这一形势的需要。
(2)按汉字部件编制的形码与汉字最贴近,熟悉汉字者在编码时只要眼睛“闪电式的一瞥”(郑易里先生语)便可识别部件,编码速度快,加之可以做到重码极少,能达到最高的输入效率。
(3)如部件选择适当表达有据,编码法简单易学符合规范,利用形码给汉字排序编字典可与部首检字法比照衔接,既可以解决查字典难问题,又可使信息技术学习和语文学习互相溶合衔接,相辅相成,事半功倍。
按照这一思路设计的金翼码不仅提供了汉字输入和汉字检索用的形码,也提供了一个最佳的学习途径:小学生先学会使用金翼码检字法字典,在语文学习中受益;而后自然过渡到计算机汉字输入,可以熟练掌握,运用自如。此后在学习古文、学习专业和社会工作中当GB2312基本集汉字不敷需要时,又可用同一编码法输入GB13000.1字库中的繁体字、港台地区和日、韩汉字。一份投入,两份收获,终生受益。
无疑的,金翼码适合各种文化程度的人学习使用,可以满足社会各界人士的需要。
6.金翼码的技术方案
(1)适用的汉字集
金翼码适用于GB2312-80基本集汉字,也适用于GB13000.1字符集。对常用汉字要求重码少以实现高效输入,现在达到的是在基本集汉字加7000多条常用词组组成的首选字词库中重码率6%,其中一级汉字的重码率也是6%。GB13000.1中去除基本集汉字后的部份可以称为扩展汉字,组成扩展字库。对扩展汉字要求没有输入困难,每组重码字字数小于10,不需翻页寻找。两个字库呈梯队式衔接,当首选字库不敷需要时转入扩展字库。这样的设计保证了在汉字大字库中输入基本集汉字的高效性。
根据清华大学的统计,86王码的字库重码率为7.4%。金翼码的重码率属于键盘输入法中最低者之一。
(2)码元集和最大码长
为了操作迅速并适用于汉字检索,只用26个拉丁字母为码元。最大码长为四码,不用五码,以利于高效输入。
(3)编码规则
对组合字只有一条编码规则:依照笔顺按有大不取小的规定取前三后一四码。
与郑码不同,金翼码对双码字元的取码不另作规定,按照前三后一的规定自然取码。如双码字元禾-HM,在以下三个字中禾的取码分别为HM、H、M:萎-CHMN,矮-SDHN,榛-MSRM,(艹-C,女-N,矢-SD,木-M,秦-SRHM)不须用公式去规定,不必特殊记忆。
单码成字字元作为汉字输入时,只补首笔笔划和末笔笔划,如:木=MHN。
双码成字字元作为汉字输入时,不另补码,非常方便。
(4)编码部件集
主要有以下几部份:
A.独体字和语委推荐的201个字典部首中的大部份:
凹巴八贝本卑鼻匕必秉卜不
才长车册臣辰尺赤齿丑出川串垂寸
大刀丹丁东电典豆
儿二耳戋
方丰凡甫夫非弗发缶
工弓干瓜戈革甘果广鬼骨更艮
火回乎一户禾黄黑
衣亦弋尹已夷
金斤井见及甲巾柬九夹臼
口开
了立力鹿两来耒里龙幺
木皿母民马门目毛末麻矛
女鸟廿农牛年乃内
平皮片爿彳
犬七千丘且佥求其气曲欠齐
人冉刃入日曰隹
上三山卅十石世士氏豕矢示食尸水书束鼠肃手身申厶
土田天屯凸
月元羽聿禺禹鱼雨于臾
王文万瓦韦毋乌兀丸五无未午为戊
心小辛夕西熏
言又尢业曳也酉由牙央
竹子州之中爪止丈乙兆舟重乍豸专
勹广艹匚屮髟刂 冫阝卩彐囗宀冖巛灬虍衤廴殳钅纟冂
丶丨丿彡犭亻饣礻氵廾扌肀凵夊攵忄X亠讠辶
B.折笔
把折笔分成三类,有利于充分反映形状特征,用同形对应法表达,形象易记,也利于减少重码:
C.与拉丁字母(大写)形状相同或非常相象的非成字部件,见(5)。
D.少数非部首合体字:尔尧用与成离
E.少数表音非成字部件
如:-Q(青=QU),
-Z(占=ZK)等。
(5)部件表达技术
A.对成字部件和有惯用名称的字典部首用拼音首码整体表达法。
如:丿-P,艹-C,辶-Z,木-M,女-N,土-T,火-H,言讠-Y,
成-CG(右部为戈),柬-JX(下部为小),重-ZT(下部为土)。
B.对非成字部件用码元同形对应法。
-A,
-B,匚-C,
-D,彐-E,
-F,
-G,
以上两例结合产生了下列编码:
董-CZT,追-PBZ,炼-HJX,妪-NCX,诚-YCG。
再将成、城两字的编码作一比较:
金翼码成字为双码字元 成=CG,城=TCG;
王码拆成字为厂乙L丿,成=DNNT,城=FDNT;
表形码拆为戈丿乙, 成=SJZ, 城=YSJZ;
郑码拆为 戈丿乙, 成=HMY, 城=BHV。
对比之下不难看出,运用拼音首码整体表达法免除了困难的拆分,利用部件的音形特征——学习者最熟悉的汉字知识和汉语拼音知识(最简单部份)编码,表达简捷有据,不仅最容易学习记忆,而且可以从编码看出汉字由部件组成的情况。李=MZ,木子李;陈=ED,耳东陈;吴=KT,口天吴;谭=YXIS,言西早谭;金翼码使用的是人们最熟知的汉字结构表达法。而过度拆分的编码法使用户远离了原本熟悉的汉字知识背景,加之表达方法的无理性,所以只能机械地记忆生疏的拆分规则和一串串作为输入工具的符号。
金翼码选用了大多数的独体字作编码部件,结构复杂的如:重垂秉熏黑肃年缶曲酉丑甘艮母禹禺臣成等字,以及制敝典等字,都不需要拆分,同时也避免了从且字中拆出月,从丘字中拆出斤这种不合文字习惯的作法。
金翼码的同形对应和表形码的表形不同。表形码的码元表达的不是部件的形状,而是靠语言表述的一类部件的结构特征,如用F表达的一类叫作“直式多交叉部件”,包括:中丰韦申聿串事
等。这些部件与F的形状差异很大,而同形对应则是非成字部件和码元形状相同或近似,可以直接由部件形状对应到码元,符合认知心理。
(6)词组输入
根据《现代汉语频率词典》(北京语言学院编)对16000个词汇的统计(包括单字词):
使用频率最高的前1677个词条复盖率为80%,
使用频率最高的前3000个词条复盖率为86.8%,
使用频率最高的前4150个词条复盖率为90%,
使用频率最高的前5000个词条复盖率为91.67%,
使用频率最高的前8000个词条复盖率为95.12%。
金翼码在GB2312字库中加人七千多条词组,以常用书面用语两字词为主保证高效输入。编码规则是:
两字词:[第一字首码][第一字末码][第二字首码][第二字末码]
三字词:[第一字首码][第二字首码][第三字首码][第三字末码]
四字词:[第一字首码][第二字首码][第三字首码][第四字首码]
多字词:[第一字首码][第二字首码][第三字首码][最末字首码]
例如:现代-WJRI
现代化-WRRB
现代企业制度-WRRG
(7)一码和两码资源的使用
汉字的使用频率差别很大,“现代汉语通用字数据统计表”中“使用度”数据举例如下(见《现代汉语通用字表》,国家语委编):
的=405501,在=100599,
以=49000, 及=10065,
准=5086, 肯=1006,
灌=501, 侮=103,
虾=56, 槌=10,
摈=6, 营=1。可见让高频字成为无重码的一码或两码,可以明显提高输入速度。一码字位26个,两码字位676个,应该充份利用。
金翼码规定,由两个码元组成的双码字要补加字元的两个末笔码,如:巡-GZLN,其中LN是补充的L丶两个末笔码。这样可以减少重码,也可以有计划的按排两码字元。在使用频率最高的前50个汉字中选择26个单码字:
他不出大说 国工一是的
和了在为个 我就人上地
有以这 要用中其中除了“他的在就”四字之外都有记忆依据。其他高频字大多数是两码字,有记忆依据,如:
两码字元:成于发里来力长电两本年制重正;
两码组合字,不加补码:时生对分可主过产进如化现当去好;
缩码:们到也能学面法部高;
首尾码:(与两字词中相同)作会同子下动而方种得行经都小自度还体开业。两码字位还可以用来按排重码字中的常用者,如:
另叻重码,另=KL;贪颔重码,贪=RN;
部竞重码,部=LK,竞=LE;
因此在实际使用中常用字的重码可以大为减少。
两码字中还有:二三四五六七八九十百千万亿兆整,月日,多少,内外,比更最,及与因则再被,张王李刘吴孙朱周等诸多高频字,追求输入速度的人士可以如愿以偿。
7.金翼码的规范性
金翼码所用规范除了两个字库之外还有:
独体字的划分按《信息处理用GB-13000.1字符集汉字部件规范》,
国家语委发布,1997.12;
201部首按《汉字统一部首表(草案)》,
见《语言文字规范手册》,语文出版社,1993;
汉字笔顺按《现代汉语通用字笔顺规范》,国家语委编,1997。
8.金翼码检字法
金翼码检字法——按金翼码排序的汉字字典,其目录(部件表)具有如下形式:(C组)
C-艹厂寸匚垂川出屮
CC-虫
CE-丑
CG-成
CH-册
CK-辰
CL-臣
CN-尺
CP-髟才
CS-车
CU-齿
CV-镸长
可以从中找到部首检字法中的艹部、厂部、匚部、屮部、虫部、辰部、髟部、车部、齿部等等。寸字位于字尾,还有心、刂、攵、灬、辶等都在字尾,必要时也可列出尾码部首的对照表。
字典形式,汉字前为金翼码,汉字后为汉语拼音(和解释):
|
CB 萆bi
CBB 芘pi
CBBS 荜bi
CBD 厕ce
|
CCS 厍she
CCSG 蝻nan
CCSK 蜘zhi
CCSK 蛄gu
|
CSB 质zhi
CSCE 轭e
CSD 医yi
CSDK 轺yao
|
CUB 龀chen
CUBL 龅pao
CUDK 龆tiao
|
在金翼码排序的字典中,位于左侧和上侧的同一部首的字靠近排列,双码部首的字更易集中。由于汉字没有过度拆分,部件完整,表达有音形可依,编码可以反映出汉字由部件构成的情况,比四角号字典更接近部首检字的习惯。一个汉字,前有由拉丁字母组成的形码表达字形属性,后有拉丁字母组成的汉语拼音表示读音,使汉字在音、形信息的表达方面都具备科学性,适合现代社会的需要,对汉字走向世界也极其有利。
用部首检字法查字,有时难以确定部首。如以下两字:
疑:现代汉语辞典——矢部,辞海——匕部,康熙字典——疋部;
孰:现代汉语辞典——亠部,辞海——丸部,康熙字典——子部。
查字典难的实质是部首检字法的不确定性以及要数出部首笔划数和剩余笔划数两次检索。用《金翼码检字法》就完全没有这些问题,查汉字的速度要比用部首检字法或笔划法快很多,可以超过查英文单字的速度。这本字典也是学习金翼码的工具。
8.推广使用金翼码的意义
(1)提高语文学习效率和信息技术学习效率,有利于汉字书写规范化;
(2)提高使用汉字的计算机用户的工作效率,提高网络使用和运行效率;
(3)繁简通用,在使用大字库时也能保证输入基本集汉字的高效性,有利于中华文化的继承和发展以及汉字走向世界;
(4)广泛使用金翼码有利于提高全社会的汉字应用水平,并可给图书编目、电话簿编排等需要大量编目检索之处提供新的手段。推广一种科学高效的汉字检索法将对社会文化的发展传播产生深远的影响。
Claims (1)
1.汉字免拆分快速输入法简称MK法或MK码,是一种依据汉字字形编码的计算机汉字输入方法,其特征在于;
根据国家语委颁布的《信息处理用GB13000.1字符集汉字部件规范》中《汉字基础部件表》及其使用规则确定MK码编码部件(或称字元、字根),通过双码部件整体表达法和非字部件同形对应法等编码新技术,并采用拼音首码表达与字母借用的方法,以26个英文字母作代码对全部编码部件进行有理据的表达,具体表达关系如下:
(1)对GB2312-80基本集汉字字库,用348个编码部件组成编码部件表;
マ-A-八卜 AA=巴 凹=AO
BX=秉
GV=鬼 GX=更
-H-火灬一回户乎
HH=黑 HA=黄 HM=禾 HQ=虍
-L-立了林鹿纟糸幺 LL=力 LA=令 LB=龙 LD=刘 LM=来
LR=两 LS=吏耒 LT=里 LV=离 LX=乐
MQ=毛 MX=末
-O-水氵丨束士 OA=肃 ON=书
QR=欠 QZ=气
-R-人亻刃冉肉 RN=入
UO=雨 UR=臾 US=于
厶-V-手扌 VV=申 VP=身
-W-王亡文夂攵瓦韦丸乌毋兀 WW=五 WE=无 WG=戊 WN=为 WP=万
WX=未
ZQ=豸 ZT=重
另有归类部件67个,代码表达和归类关系是:
A-丷(八)
B-
(匕)
H-戶(户)
W-
(毋) WE-
(无)
(2)扩展至GB13000.1字符集全部汉字,即用于GBK汉字字库,需要增加新的编码部件和繁简对应编码部件:B-
C-
G-
I-
L-
L-
N-
N-卄 S-
U-
U-
W-夊 W-
Y-
BF-
DD-鬥 EE-
GL-
HF-華ML-黽 WE-
WX-卍 WX-
YM-
YY-
ZD-
糹-纟
-
-饣
-册
-甲-
--西 貝-贝 見-见 車-车長-长 柬-东 門-门
-亚 馬-马烏-乌 魚-鱼 爲為-为 飛-飞 龍-龙另有非G列汉字专用编码部件未列出;
利用上述编码部件与代码之间的表达关系实现计算机汉字编码输入,其规则和步骤分别是:
单个汉字按以下规则编码输入:
①组合字按照各构成部分之间的自然界限进行免拆直接编码,依照笔顺取前三后一四码;
②单码部件字,在单码部件的代码后按照首笔和末笔笔形补加两个代码;
③双码部件字,两个代码即是其编码;
④对两码组合字进行补码避重,按照编码部件的末笔笔形补加两个代码;
最大码长四码,不足四码者在输入时加一个空格键结束,输入后如有重码,在提示栏中挑选所需汉字;
高频汉字另有易记、无重码的一码简码或两码简码;
在GB2312-80基本集汉字字库中编有21000条词组,按以下规则编码输入:
①两字词:[第一字首码][第一字末码][第二字首码][第二字末码]
②三字词:[第一字首码][第二字首码][第三字首码][第三字末码]
③四字词:[第一字首码][第二字首码][第三字首码][第四字首码]
④多字词:[第一字首码][第二字首码][第三字首码][最末字首码]
输入后如有重码,在提示栏中挑选所需词组。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB011052228A CN1166997C (zh) | 2001-01-16 | 2001-01-16 | 汉字免拆分快速输入法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB011052228A CN1166997C (zh) | 2001-01-16 | 2001-01-16 | 汉字免拆分快速输入法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1366227A CN1366227A (zh) | 2002-08-28 |
CN1166997C true CN1166997C (zh) | 2004-09-15 |
Family
ID=4654307
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB011052228A Expired - Fee Related CN1166997C (zh) | 2001-01-16 | 2001-01-16 | 汉字免拆分快速输入法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1166997C (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1854999B (zh) * | 2005-04-29 | 2011-06-29 | 邵德子 | 多用编码 |
CN101158884B (zh) * | 2007-10-15 | 2010-04-21 | 敬永权 | 汉字形码计算机手机一体化输入技术 |
CN106959764B (zh) * | 2016-07-19 | 2019-10-22 | 敬永权 | 一种有助于正确书写汉字的形码输入法 |
-
2001
- 2001-01-16 CN CNB011052228A patent/CN1166997C/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN1366227A (zh) | 2002-08-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1023916C (zh) | 简繁五笔字根汉字输入系统 | |
CN1166997C (zh) | 汉字免拆分快速输入法 | |
CN1019424B (zh) | 音形笔画综合编码汉字高速输入法及所用键盘 | |
CN1110741C (zh) | 音形码汉字输入方法 | |
CN1129058C (zh) | 仿真拼音汉字输入法 | |
CN1121645C (zh) | 音形字理码汉字输入方法 | |
CN1028680C (zh) | 汉字全息码 | |
CN1020052C (zh) | 形元汉字信息处理方法及其键盘 | |
CN1259615C (zh) | 字母键盘和数字键盘通用汉字输入法及其左半字形识别法 | |
CN1123819C (zh) | 计算机汉字键位码输入方法 | |
CN1256644C (zh) | 一种偏旁部首汉字输入方法 | |
CN1266577C (zh) | 音数形汉字输入方法 | |
CN1841278A (zh) | 双联码免拆高效汉字输入技术 | |
CN85100087A (zh) | 《中文声数编码》方案及其实现方法 | |
CN1081355C (zh) | 三音码计算机汉字输入方法及其键盘 | |
CN1417674A (zh) | 汉语音节双读方案和汉语键盘及其信息输入处理方法 | |
CN1374577A (zh) | 英文字母键盘和数字键盘通用汉字电脑输入法及其键盘 | |
CN1062797A (zh) | 文字输入键盘及方法 | |
CN1058342C (zh) | 汉字编码的计算机输入方法 | |
CN1156744C (zh) | 元根码汉字输入方法 | |
CN1120408C (zh) | 一种计算机结构声读汉字输入方法 | |
CN1162766C (zh) | 一种汉字音形编码输入方法 | |
CN1055434A (zh) | 字符的图元输入方法及其键盘 | |
CN1093654C (zh) | 结构码汉字输入法及使用的通用键盘 | |
CN1246759C (zh) | 一种采用根素码的计算机汉字输入方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C57 | Notification of unclear or unknown address | ||
DD01 | Delivery of document by public notice |
Addressee: Jing Yongquan Document name: payment instructions |
|
C57 | Notification of unclear or unknown address | ||
DD01 | Delivery of document by public notice |
Addressee: Jing Yongquan Document name: payment instructions |
|
C57 | Notification of unclear or unknown address | ||
DD01 | Delivery of document by public notice |
Addressee: Jing Yongquan Document name: Notification of Termination of Patent Right |
|
C19 | Lapse of patent right due to non-payment of the annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |