CN1058342C - 汉字编码的计算机输入方法 - Google Patents

汉字编码的计算机输入方法 Download PDF

Info

Publication number
CN1058342C
CN1058342C CN97107364A CN97107364A CN1058342C CN 1058342 C CN1058342 C CN 1058342C CN 97107364 A CN97107364 A CN 97107364A CN 97107364 A CN97107364 A CN 97107364A CN 1058342 C CN1058342 C CN 1058342C
Authority
CN
China
Prior art keywords
word
code
sign indicating
indicating number
stroke
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN97107364A
Other languages
English (en)
Other versions
CN1173662A (zh
Inventor
郭杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN97107364A priority Critical patent/CN1058342C/zh
Publication of CN1173662A publication Critical patent/CN1173662A/zh
Application granted granted Critical
Publication of CN1058342C publication Critical patent/CN1058342C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Abstract

本发明公开了一种汉字编码的计算机输入方法,涉及汉字信息处理技术领域。主要技术特征是汉字、词语的输入可由音型段代码和字型段代码的编码来实现,在编码中使用同一种汉字字型分类方法和汉字拆分方法,规则明晰简单,易学易用,没有字根键位记忆负担。适用于数字信息传输、微机电脑、资料检索等各种需要汉字编码的领域,能够满足多种类型汉字录入人员的需要。有助于对汉字信息规律认识的提高,有利用汉字编码技术和计算机应用技术的深度开发。

Description

汉字编码的计算机输入方法
本发明涉及一种汉字编码的计算机输入方法,特别是,涉及采用音、调和形码进行编码的汉字编码的计算机输入方法。
汉字素以结构复杂、形象独特著称,由于字种数量大、同音字多等原因,汉字编码输入技术一直制约着我国计算机应用水平的提高。目前在汉字信息处理技术领域中存在着数百种汉字编码方案,这些编码方案可以分为形码、音码、音形码(或形音码)三大类型。
形码以王永民先生发表的五笔字形方案最为典型,因其重码率低、足四码自动见字、可以高速盲打而在专职录入人员中通行,但五笔字型需以一百二十多个基本字根的键位记忆和较复杂的汉字拆分规则为基础,普通汉字录入人员难于掌握、不能牢记;同时因汉字笔形的限制,造成简码不能最大限度覆盖高频常用字,大量常用词汇不能进入空白码位等,成为该方案的不足。
音码中最有影响的是中国科学院计算所开发的联想汉字系统,其显著的优点在于简单、大众化、与推广普及普通话的要求一致,但同音重码字太多,看屏拣字降低了文稿输入的效率,这也是音码类方案共有的不足之处,虽然也出现过在音码中加进声调号、顺序号、引导号等改进方案,却并未能从根本上解决问题,反而增加了输入的复杂性。
音形码(或形音码)以周志农先生制作的自然码输入系统最为普及,该输入法以与电子工业部第六研究所开发的CC-DOS中的拼音输入法相近的双拼音码为基础,综合多种优秀编码方案的设计思想创制而成,具有较高的普及性。但该编码方案的音码部分未能处理声调信息,形码部分规则不够明晰,对一百六十八组形义部件的代码处理沿袭了字根键位记忆方式,码根也不够简洁,学习仍有难度。同时因僻字检码困难使专业性较差,故仍不能取代五笔字形。
最后就现有技术的总体而言,一般性地还存在着过多注重缩短编码长度的趋向。虽然在汉字编码输入技术发展的初期,码长短作为汉字键盘输入的一项突出优点曾为个人计算机在我国普及起了极大的推动作用,但过短的码长造成汉语汉字内在信息的简化利用,汉字编码领域至今流派纷呈难于统一的重要原因就是各家编码均在几乎相同的层次上利用汉字信息,因而不能更完整地反映汉语汉字丰富的信息内涵,结果使得汉字编码与人们表达思想的习惯难于一致,最终反而降低了编码的实用性、缩小了编码的适用范围。事实上,编码的实用性不应被单纯诠释为对特殊录入形态的满足,而是应服从于编码输入技术发展的自身规律,即满足特殊录入要求的编码形式只不过是更完整的编码中不同的约束条件下可以实现的特别功能而已。
总之,汉字编码输入技术的发展已使人们认识到,设计出能从更高层次上概括和表达汉语汉字内在信息规律的汉字编码方案,在我国已成为提高计算机应用水平的技术关键。
本发明的目的在于提供一种能够同时满足不同汉字录入人员对汉字计算机输入的各自需要,使得汉字编码与人们表达思想的习惯一致,形码规则明晰记忆量少,并且也能直接输出汉字的拼音化形式的汉字编码的计算机输入方法。
为了实现本发明的上述目的,本汉字编码的计算机输入方法,其特征在于:(1)拼音代码包括:
Aa,Bb,Cc,Dd,Ee,Ff,Gg,Hh,Ii,Jj,Kk,Ll,Mm,Nn,Oo,Pp,Qq,Rr,Ss,Tt,Uu,Vv,Ww,Xx,Yy,Zz,ΛΛ依次分配在通用标准键盘的对应字母健上,和ΛΛ分配在符号键“;”上或分别分配在字母键n、g上;
(2)声调代码包括有:阴平、阳平、上声、去声和轻声,
分别以一个字母为代码;
(3)将汉字以笔画(划)和字型划分的方法分配代码:
笔画代码:点分配为M,横为T,竖为K,撇为P和弯为S,
字型代码:上下型、上中下型、品字型汉字分配为A,
          左右型、左中右型为E,
          独体型为O,和
          包围型为U;
(4)利用上述键盘的单字、词组输入方法是:
   单字:为输入该单字的字音段代码,包括所述拼音代
码中的声母、韵母,和声调码,以及字形段代码包括首部
(划)码、字型码、次部(划)码和末件(划)码;
    词组:双字词为输入该双字的字音段代码,以及第一字的前两码、第二字的前两码输入;
            三字词为输入该三字的字音段代码,以及第一、第二字的首码、第三字的前两码;
            四字以上词输入该各字的字音段代码,以及各字的字形段码。
本发明汉字节码及其键盘的特点在于:汉字、词语的输入可由原型码和特型码两套编码来实现,原型码考虑到在语言文字学、信息技术及计算机科学等领域存在着一定程度的需求,以全拼音化形式作为表达手段,是一套汉语汉字信息处理完全字母化的、具有可读性的编码方案;在原型码的基础上,通过特征信息的组合使用提供多种特型码来满足不同类型汉字录入人员对编码的需要。原型码和特型码使用同一种汉字字型分类方法和汉字拆分方法,规则明晰简单,没有字根键位记忆负担。
同时应当指出的是,目前个人计算机(PC机)所使用的通用标准键盘的打字机键区是直接从英文机械打字机上移用过来的,其字母键位布置以英语拼音规律为基础,但是汉语拼音规律与英语拼音规律之间有着显著差异。例如,对国家标准《GB2312-80信息交换用汉字编码字符集(基本集)》中所收录的6763个汉字的统计表明,汉语拼音的复韵母使用频度很高(达65%),且汉语拼音具有明显的声韵密集区,如组合声母Zh、Ch、Sh的使用频度达到14%,韵母I的使用频度则高达40%,而单韵母I和以韵母I起头与声母拼合的使用方式又在其中占到79%的份额等。因此,为与本发明的编码技术相适应,设计了节码特型键盘和节码专用键盘。
本发明汉字节码及其键盘的构思是:将中华人民共和国国家标准《GB2312-80信息交换用汉字编码字符集(基本集)》中所收录的6763个汉字作为本集,将《信息交换用汉字编码字符集第二辅助集》和《信息交换用汉字编码字符集第四辅助集》两个续集中大量的汉字作为外集,通过字节的扩展过程及代码排列组合形式的变化在本集和外集中形成多层次汉字集合,进而逐次获得集合中各个汉字的编码作为原型码;通过构件分类与笔划数组合、单笔划组合、单笔划与字型组合、韵调组合,提供多种特型码来满足不同类型汉字录入人员尤其是专职录入人员对编码的需要。用这种方法获得的汉字编码称为“节码”。编码方案如下。
一、原型码方案:汉字节码的原型码形式为“音符、声调符、形符”。
1、节码拼音方案:这是一种半压缩式的汉语拼音方案修正方案。所用的注音符号为:()中是汉语拼音,[]中是国际音标。
(1).节码字母表:在汉语拼音字母表中增加一个发音字母“Λ”(小写形式为“Λ”),用二十七个记音字符组成节码字母表。字母Λ的发音为[eη]。字母表如下:
Aa,Bb,Cc,Dd,Ee,Ff,Gg,Hh,Ii,Jj,Kk,Ll,Mm,Nn,Oo,Pp,Qq,Rr,Ss,Tt,Uu,Vv,Ww,Xx,Yy,Zz,Λ
Figure C9710736400081
(2).声母:字母与汉语拼音方案的声母字母相同,使用方法也与汉语拼音方案中声母的使用方法相同。字母Y、字母W用作声母时,自编码的标音字部起与其它声母等效使用。
(3).韵母表:将汉语拼音的韵母“ü”用字母“v”代替,“ng”形式用字母“Λ”代替,“iou”、“uei”和“uen”形式使用“iu”、“ui”和“un”形式,并将字母“N”、“Λ”和“L”作为配韵母纳入韵母表中,它们的字母音分别为[en]、[eη]和[:]。节码拼音韵母表如表1所示。
2、字节分配形式:全码的码位格式如图1所示。
其中前五个字节构成节码的音符,它由节码拼音的声母与韵母组成;
字节[6]为声调符代码,用来表示汉语拼音的五种声调,称为“声调码”;
字节[7]为首件分类码或单笔划代码,它取自合体字拆分后的第一位次构件或独体字的首笔单笔划,称为“首部码”;
字节[8]为字型码,用来表示该汉字的字型特征;
字节[9]为次件分类码或单笔划代码,它取自合体字拆分后的第二位次构件或独体字的右上方单笔划,称为“次部码”;
字节[10]为末件分类码或单笔划代码,它取自合体字拆分后的第三位次构件或独体字的右下方单笔划,称为“末件码”;
格式中由“音符、声调符”构成的前半段称为“字音段”,由“首部码、字型码、次部码、末件码”构成的后半段称为“字形段”。
3、声调码及声调号:将汉语拼音的阴平、阳平、上声、去声、轻声等五种声调依次编号并各以一个字母作为代码,声调编号称为声调号、声调代码称为声调码,声调码及声调号如表2所示。
4、汉字单笔划和构件分类:
将汉字的各种单笔划按笔形特征分为五类并编号,每类用一个字母作代码,称为单笔码。单笔划编号称为单笔号。单笔码及单笔号如表3所示。
把汉字拆成若干构件并分类和编号,每一类用一个字母作代码,称为分类码。构件编号称为分类号。构件共分为五种类型,分类码及分类号如表4所示。
5、字型码及字型号:根据汉字部件间的相互关系将汉字分为上下型、左右型、独体型、包围型共四种类型并编号,每一类用一个字母作代码,称为字型码、字型号。字型码及字型号如表5所示。
6、编码基本规则:
(1).汉字部类:将31个规定音节的字母或字母串赋予31个汉字(其中包括一个多音字“阿”)作为它们的代码,组成形式为“韵母”的定韵字部,这些定韵字就是节码拼音韵母表中的注音汉字。定韵字之外的“韵母、声调符”型汉字组成韵声字部。将节码的声母与韵母以拼音方式结合成“声母、韵母”形式的字母串赋予一批阴平声调的汉字组成标音字部。在音符之后加上声调码赋予一批汉字组成“音符、声调符”形式的音声字部。剩余汉字的编码形式为“字音段、字形段”,它们构成了音形字部。
(2).赋码过程:编码自定韵字部开始,以后按码位格式逐字节扩展,经韵声字部、标音字部、音声字部、音形字部四部后逐个、逐音地获得本集中6763个汉字的编码,总的原则是在充分发挥编码效力的基础上相对常用字优先赋码。例如以字母串“Jirme”起头的汉字集合有“计、记、悸、剂、济、洎”诸字,则它们的原型码分别为Jirmet,Jirmes,Jirme,Jirmek,Jirmem,Jirmep。在赋码过程中,那些不再具有编码需要的字母组合形式则终止使用。
(3).汉字字型分类方法:只有一个构件的汉字,属独体字类型,如“册、米、尺、用、自、小、田、乐”等。合体字由两个以上部件组成,部件由一个或多个构件组成。部件间的相对位置为上下关系时属上下型汉字,为左右关系时属左右型汉字,为嵌套关系时属包围型汉字。“品字型”归入上下字型中。汉字部件间的关系呈分散贯通汉字的形式,如“湖”字由“氵、古、月”三个部件组成,左右型;“超”字由“走、召”两个部件组成,包围型;“警”字由“敬、
Figure C9710736400101
口”三个部件组成,上下型。对上下型和左右型汉字以横向或纵向分散贯通汉字为准,纵向或横向难以确定时由书写顺序决定,如“照”“琵”属上下型汉字、“靛”“能”属左右型汉字。
嵌套关系是指单笔划、构件在两侧以上有另一单笔划或另一构件的笔划存在,如“刁、火、式、爽、乘、属”等,但点划和短折不视为一侧、中间起笔的撇划对处在其下方的构件不形成包围,如“实、卖、春、友、态”等属上下型汉字,而“在、存、局、区、进、建、式、爽、乘、属”等属包围型汉字。
(4).汉字拆分方法(汉字字形以《印刷通用汉字字形表》为准):
单笔划拆分规则:
a.单笔划取自汉字或部件左上、左下、右上、右下四个方位。
b.当某方位上单笔划难以确定时,左上左下应取相对首笔划,右上右下应取相对末笔划,如“由”字左上左下右上取“丨”、右下取“一”;
c.构件右上右下方位为嵌套关系时,单笔划应取自内部构件,如“冈”字左上左下取“丨”、右上取“丿”、右下取“
Figure C9710736400102
”;
d.当某方位上单笔划空缺或单笔划已经取过时,应虚拟一“竖”划取码,如“弓”字的左下单笔划、“王”字的右上和右下单笔划均取“丨”。
汉字构件拆分规则:
a.交叉笔划作为一件、分散的单笔划和嵌套在其它构件中的单笔划应与相邻较紧的、较先的构件一并拆出,如“事、夷、乐、亘、必、火、严”等不拆分,“式”拆为“弋、工”,“斗”拆为“
Figure C9710736400103
、十”,“同”拆为“
Figure C9710736400104
、口”,“表”拆为“ ”,“老”拆为“十、
Figure C9710736400107
、匕”等;
b.书写时具有联带关系的分散单笔划以及连续书写成的连接笔划作为一个构件拆出,如“昌”拆为“日、曰”,“付”拆为“亻、寸”,“非”拆为“ ”,“巷”拆为“艹、
Figure C9710736400109
、巳”,而“州、韭、足、巨”等不拆分;
c.三面以上包围着的连接关系应作为一个构件一并拆出,如“某”拆为“甘、木”,“畴”拆为“田、
Figure C97107364001010
、寸”,而“角、身”等不拆分;
d.点划除与它笔交叉外均应视作分散关系,如“单”拆为“丷、
Figure C97107364001011
”,“辛”拆为“
Figure C97107364001012
、干”,“章”拆为“立、日、十”,“豆”拆为“
Figure C97107364001013
、”等;
e.对左右型、上下型汉字进行拆分时,构件位次为:第一件按书写顺序取第一部件的第一笔顺构件、然后取按字型分类后各部件的第一笔顺构件,以后按书写顺序取最末部件的第二笔顺构件,最后回旋着取汉字角位上尚未取过的构件,并以拆至回旋线路上最后一个角位的构件为限,如“湘”拆为“氵、木、目”,“盆”拆为“八、刀、皿”,“靛”拆为“、宀、 、月”,“琵”拆为“王、 、匕、王”,“凿”拆为“业、丷、干、凵”,“嘉”拆为“士、口、、力、口”,“喜”拆为“士、口、、口”,“氪”拆为“、十、兄、
Figure C9710736400113
”“鬓”拆为“镸、宀、丘、八、彡”,“骥”拆为“马、
Figure C9710736400114
、田、八”,“翰”拆为“十、人、习、十”,“镉”拆为“、
Figure C9710736400115
、冂、、
Figure C9710736400116
”等;
包围型汉字拆分时应转换成相似的左右型或上下型汉字进行,如“馗”拆为“九、、自”,类似左右型;“遨”拆为“
Figure C9710736400117
、辶、攵”,类似上下型;
汉字拆分时,上下型汉字中的并列相同构件只取一件,如“器”拆为“口、犬、口”。汉字拆分后分类码不足三个又需消除原型码的重码时,加末部件或首部件右下方单笔划代码来消除重码。
7、外集汉字编码:大量的外集汉字在本集的外层扩展编码,扩展方法为:
(1).对非重码字,按编码基本规则赋码;
(2).对重码字则加“集位符”区别,集位符代码称为“集位码”。集位码为字母e、a、o,码位在首部码与字型码之间。字母e用于上下型和左右型汉字,字母组合ea、ee发音为[i:],字母a、o分别用于包围型和独体型汉字,字母组合au、oo发音为[
Figure C9710736400118
]。[]中是国际音标。
8、词语编码:词语编码的原则是使编码的发音最接近于普通话语音,方法包括:
(1).音符合成法:由汉字节码的音符组合而成,如“中国”ZhoΛgguob,“时事”Shibshir,“青年”QiΛgnianb;
(2).形符标识法:在音符合成的基础上加上词中某字的首部码,主要用于区分同音词,如“实事”Shibmshir;
(3).近音法,即对于阴平声调的汉字在多数场合直接使用对应的标音字节码组词,如“科学”Kexveb,“新的”Xinde,“波浪”BolaΛr,“很多”Hencdo;
(4).缩短法:主要用于常用词和造词,如“文化教育”Wenbjiaor,“特别快车”Terkuair;
(5).拟声法和取声法:直接以声母与声调码组合拟音或使用声母,主要用于缩短编码长度,如“计算机”Jrsuanrj,“特级”Trjb,“叽叽嘎嘎”Jjgaga;
9、三十记音表:原型码的结构使它具有可读性。它的字音段可按汉语拼音方式发音,字形段可用国际音标注音。字形段中“次部码、末件码”部分按英语的读音习惯发音,由“首部码、字型码”和由“首部码、集位码、字型码”构成的四十个音节的三十种发音按表6所示。
二、节码特型键盘:特型键盘是针对目前PC机的通用标准键盘设计成的区位键键盘,用于满足当前使用通用标准键盘的用户输入节码。
图2是节码特型键盘区位键键位。在通用标准键盘上将二十六个字母键中的二十四个和一个标点键“;”按五个构件分类码所在行分为五个区,每区五键,每键各以一个二位数作为区位号,位号由键盘中央向两侧递增,具体区划如下:()中是区位号,十位数为区号、个位数为位号,
点起笔区五键,由字母C(11)、V(12)、B(13)、N(14)、M(15)组成;
横起笔区五键,由字母T(21)、R(22)、E(23)、W(24)、Q(25)组成;
竖起笔区五键,由字母H(31)、J(32)、K(33)、L(34)、;(35)键组成;
撇起笔区五键,由字母Y(41)、U(42)、I(43)、O(44)、P(45)组成;
弯起笔区五键,由字母G(51)、F(52)、D(53)、S(54)、A(55)组成;
使用节码特型键盘既可以输入原型码,又可以输入特型码。当以“;”键代替字母“Λ”时可输入原型码,输入特型码时以区位号所对应的字母键输入。另外两个字母键X键和Z键在输入原型码时作声母键用,在输入特型码时作重码离散键和检索键用。
三、节码专用键盘:在键盘的打字机键区以节码拼音字母的键位布置为核心设计成节码专用键盘,各键的排列既可采用通用标准键盘的纵向右斜形式,也可采用纵横向垂直对齐形式。在节码专用键盘上,二十七个节码拼音字母的位置按使用频度(高频字母分别布置于左侧和右侧中部)和汉语拼音规律布阵,反映着汉语的声韵密集区特征,有利于汉字键盘输入时双手手指功能充分发挥。同时在左右两个Alt键的外侧各设置一个功能键:左方Piny键用于以字母形式输入原型码,右方Qieh键用于滚动切换特型码输入方式。
节码专用键盘键位如图3所示。在专用键盘上将二十七个字母键中的二十五个按五个构件分类码所在行分为五个区,每区五键,每键各以一个二位数作为区位号,位号由键盘中央向两侧递增,具体区划如下:()中是区位号,十位数为区号、个位数为位号,
点起笔1区五键,由字母M(11)、O(12)、E(13)、U(14)、F(15)组成;
横起笔2区五键,由字母L(21)、N(22)、A(23)、Λ(24)、T(25)组成;
竖起笔3区五键,由字母K(31)、X(32)、Z(33)、V(34)、D(35)组成;
撇起笔4区五键,由字母J(41)、B(42)、I(43)、Q(44)、P(45)组成;
弯起笔5区五键,由字母G(51)、R(52)、C(53)、H(54)、S(55)组成。
使用节码专用键盘既可以输入原型码,又可以输入特型码,输入原型码时直接以键面字母输入,输入特型码时以区位号所对应的字母键输入。另外两个字母键Y键和W键在输入原型码时作声母键用,在输入特型码时作重码离散键和检索键用。
四、特型码方案:节码综合体现了汉字语音、字形、笔形的内在规律,能在计算机上实现多种多样的输入输出方式,而且除它的原型码因具有足够短的平均码长适合普通用户外,还能根据不同用户群体的需要以不同的约束条件转换成多种特型码,亦即通过特征信息的组合使用就能将现有技术中形码、音码、音形码(或形音码)等编码型式作为特例从原型码中演化出来。本发明的特型码有构件码、笔形码、全压缩码,以及不同的声形或形声输入方式、音形或形音输入方式、数字式输入方式,利用软件技术用户还可以自定义编码。
特征信息组合使用的方法是将两种(个)信息的编号组合起来作为区位号使用,此区位号与节码专用键盘或节码特型键盘的区位号相对应即可获得相应的字母作为组合信息的代码。特征信息组合的方式包括:
构件分类号与构件笔划数组合:以构件分类号为区号、构件笔划数减一为位号(单笔划“一”和“乙”的位号为1)组合成区位号后将汉字构件分配到对应的字母键上,在节码特型键盘上布置汉字构件的例子如图4所示。例如点起笔区C键区位号11(在专用键盘上对应于M键,以下括号中均指专用键盘上的对应字母键)布置“冫、亠、冖”等两笔划构件、V键区位号12(O键)布置“氵、广、宀”等三笔划构件、B键区位号13(E键)布置“户、文、为”等四笔划构件、N键区位号14(U键)布置“疒、立、主”等五笔划构件、M键区位号15(F键)布置“良、 、米”等六划及六划以上构件;又如撇起笔区Y键区位号41(J键)布置“人、亻、八”等两笔划构件、U键区位号42(B键)布置“彡、千、川”等三笔划构件、I键区位号43(I键)布置“牛、斤、月”等四笔划构件、O键区位号44(Q键)布置“鸟、白、禾”等五笔划构件、P键区位号45(P键)布置“身、自、
Figure C9710736400132
”等六划及六划以上构件等。
汉字单笔划代号与字型号组合:由汉字某方位的单笔划代号与字型号组合成区位号(以单笔号为区号、字型号为位号)可获得“笔型码”。以“汉字左上方单笔划、字型号”组合成的笔型码称为“首型码”,如“码”字左上方单笔划“一”的单笔号为2、属左右型汉字字型号为2,组合成区位号22即在特型键盘上获得首型码字母“R”,在专用键盘上则对应于“N”键。
两个单笔划代号组合:由汉字或者汉字部件的两个单笔号组合成区位号可获得笔形组合码(前一个单笔号为区号、后一个单笔号为位号)。“左笔码”由汉字或部件“左上方单笔划代号、左下方单笔划代号”组成,“右笔码”由汉字或部件“右上方单笔划代号、右下方单笔划代号”组成,由“第二位次构件首笔、第三位次构件首笔”则组成“首笔码”。
韵母分组号与声调号组合:将节码韵母表中的韵母分为五组并编号,以分组号为区号、声调号为位号获得“韵调码”。韵母分组及编号如表7所示。
韵母分组是以韵母使用频度为依据兼顾易分易记进行的,4组中是除字母I以外的单韵母,2组中是含有字母E的双字韵母及单韵母I,1组中是含有字母A的双字韵母,5组中是剩余的双字韵母,3组中是三字韵母。
1、构件码:码长最多为四码。
取构件的键位字母组成编码,按汉字拆分后的构件位次将各构件代码依次称为首件码、次件码、三件码、四件码。
四件以上的字编码形式为:首件码、次件码、三件码、四件码;
三构件汉字的编码形式为:首件码、次件码、三件码、汉字右笔码;
两构件汉字的编码形式为:首件码、次件码、汉字右笔码;
独体汉字的编码形式为:首件码、汉字右笔码;
双字词的编码形式为:第一字的前两码、第二字的前两码;
三字词的编码形式为:第一字、第二字的首件码、第三字的前两码;
四字词的编码形式为:取各字的首件码组成编码;
多字词语的编码形式为:取前三字和最末一字的首件码组成编码。
汉字、词语均以编码加空格键输入,足四码时若无重码即自动上屏。各码位的重码字,以空格键输入常用的一个、以重码离散键“X”或“Y”键加空格键输入次常用的一个,剩余重码字以数字或游标方式选中。
系统也支持以声形或形声方式、音形或形音方式输入构件码,用声母与构件码合成编码时实现声形或形声方式、用声母和韵调码与构件码合成编码时实现音形或形音方式:
字的声形方式为:声母加汉字构件码的前三码(独体汉字为前两码);
双字词的声形方式为:第一字声母、首件码加第二字声母、首件码;
三字词的声形方式为:第一、第二字声母加第三字声母、首件码;
四字词的声形方式为:取各字的声母组成编码;
多字词语的声形方式为:取前三字和最末一字的声母组成编码。
声形方式所用的声母指原型码的第一个字母。
将声形方式中的声母置于编码的末尾时则可实现形声方式。
在声形方式中的声母之后加上韵调码后与构件码的前二码组合,又可以音形方式或形音方式实现输入。
2、笔形码:码长最多为四码。
四部件以上的字编码形式为:首部左笔码、次部左笔码、三部左笔码、四部左笔码;
三部件汉字的编码形式为:首部左笔码、次部左笔码、三部左笔码、汉字右笔码;
两部件汉字的编码形式为:首部左笔码、次部左笔码、汉字右笔码;
独体汉字的编码形式为:汉字左笔码、汉字右笔码;
双字词的编码形式为:第一字的前两码、第二字的前两码;
三字词的编码形式为:第一字、第二字的头码、第三字的前两码;
四字词的编码形式为:取各字的头码组成编码;
多字词语的编码形式为:取前三字和最末一字的头码组成编码。
汉字、词语均以编码加空格键输入,足四码时若无重码即自动上屏。各码位的重码字,以空格键输入常用的一个、以重码离散键“X”或“Y”键加空格键输入次常用的一个,剩余重码字以数字或游标方式选中。
系统也支持以声形或形声方式、音形或形音方式输入笔形码,用声母与笔形码合成编码时实现声形或形声方式、用声母和韵调码与笔形码合成编码时实现音形或形音方式:
字的声形方式为:声母加汉字笔形码的前三码(独体汉字为前两码);
双字词声形方式为:第一字声母、首部左笔码加第二字声母、首部左笔码;
三字词的声形方式为:第一、第二字声母加第三字声母、首部左笔码;
四字词的声形方式为:取各字的声母组成编码;
多字词语的声形方式为:取前三字和最末一字的声母组成编码。
声形方式所用的声母指原型码的第一个字母。
将声形方式中的声母置于编码的末尾时则可实现形声方式。
在声形方式中的声母之后加上韵调码与笔形码的前二码组合,又可以音形方式或形音方式实现输入。
3、全压缩码:全压缩码是原型码特征信息的全组合形式。
合体字的全压缩码形式为:原型码首字母、韵调码、首型码、首笔码;
独体字的全压缩码形式为:原型码首字母、韵调码、首型码、汉字右笔码;
双字词的编码形式为:第一字的前两码、第二字的前两码;
三字词的编码形式为:第一字、第二字的头码、第三字的前两码;
四字词的编码形式为:取各字的头码组成编码;
多字词语的编码形式为:取前三字和最末一字的头码组成编码。
汉字、词语均以编码加空格键输入,足四码时若无重码即自动上屏。各码位的重码字,以空格键输入常用的一个、以重码离散键“X”或“Y”键加空格键输入次常用的一个,剩余重码字以数字或游标方式选中。
4、数字式输入方式:各种特型码都可以相应区位号表示为数字形式(声母直接换成相应区位号,专用键盘上的Y键、W键和特型键盘上的X键、Z键区位号分别为66、77)来实现键盘输入。
5、检索键:空余字母键Z(或W键)在每种特型码中均可用作检索。汉字输入时若录入人员遇到字音、笔形、构件信息模糊的情形,此时对不清楚的码位以Z键(或W键)代替,系统便提出全部其余码位相同的字词供检索。
本发明的优点:原型码与文稿输入时的思维一致,可作为一种汉语拼音文字使用,适用于各种需要汉字编码的领域,无重码,不需字根记忆,记音功能更有助于记忆;特型码编码力强,具有高度的实用性,适用于多种类型的汉字录入人员。本发明规则明晰简单,易学易用,有助于对汉字信息规律认识的提高,有利于汉字编码技术和计算机应用技术的深度开发。
图1是原型码全码位格式。
图2是节码特型键盘区位键键位。
图3是节码专用键盘键位。
图4是特型键盘汉字构件示意图。
原型码编码实施例:以编码加空格键输入。如在音形字部中,以字母串“Xigpe”开头的汉字集合有“稀、
Figure C9710736400151
、锡、僖、鼷、牺、歙、郗、欷”诸字,它们的原型码分别为Xigpe、Xigpem、Xigpek、Xigpetk、Xigpeps、Xigpet、Xigpep、Xigpes、Xigpepp。键入Xigpetk后加空格键即输入“僖”字。
特型码编码实施例(以特型键盘举例):
例1.独体字“重”:原型码ZhoΛrpo;构件码PU,声形(形声)式ZPU(PUZ),音形(形音)式ZSPU(PUZS);笔形码UK,声形(形声)式ZUK(UKZ),音形(形音)式ZSUK(UKZS);全压缩码ZSU,全压缩码数字方式77544332。
例2.独体字“垂”:原型码Chuibpo;构件码PUX,声形(形声)式CPU(PUC),音形(形音)式CFPU(PUCF);笔形码UKX,声形(形声)式CUK(UKC),音形(形音)式CFUK(UKCF);全压缩码CFU,全压缩码数字方式11524332。
例3.两部件汉字“明”:拆为“日、月”,原型码MiΛbke;构件码KIQ,声形(形声)式MKIQ(KIQM),音形(形音)式MFKI(KIMF);笔形码KIQ,声形(形声)式MKIQ(KIQM),音形(形音)式MFKI(KIMF);全压缩码MFJP,全压缩码数字方式15523245。
例4.三部件汉字“琳”:拆为“王、木、木”,原型码Linbtet;构件码EEEH,声形(形声)式LEEE(EEEL),音形(形音)式LFEE(EELF);笔形码RWWH,声形(形声)式LRWW(RWWL),音形(形音)式LFRW(RWLF);全压缩码LFRR,全压缩码数字方式34522222。
例5.两部件汉字“鞯”:拆为“廿、艹、 、子、
Figure C9710736400162
”,原型码Jiangtet;构件码ERRF,声形(形声)式JERR(ERRJ),音形(形音)式JHER(ERJH);笔形码REJ,声形(形声)式JREJ(REJJ),音形(形音)式JHRE(REJH);全压缩码JHRR,全压缩码数字方式32312222。
例6.双字词“科学”:拆为“禾、
Figure C9710736400163
Figure C9710736400164
冖”,原型码Kexveb;构件码OCVC,声形式KOXV,音形式KYXR;笔形码OVBB,声形式KOXB,音形式KYXR;全压缩码KYXR,全压缩码数字方式33416622。
例7.三字词“计算机”:拆为“ 讠、
Figure C9710736400165
、木、几”,原型码Jrsuanrj;构件码CUEY,声形式JS用,音形式JSJT;笔形码MUWI,声形式JSJW,音形式JSJT;全压缩码JSJT,全压缩码数字方式32543221。
例8.四字词“中国人民”:拆为“中、口、人、
Figure C9710736400166
”,原型码ZhoΛgguobRenbminb;构件码KJYF,声形式ZGRM,音形式ZGRM;笔形码JKIA,声形式ZGRM,音形式ZGRM;全压缩码ZGRM,全压缩码数字方式77512215。
表1:
节码拼音   A   O   E   I  U V N Λ L
汉语拼音   a   o   e   i  u ü r
注    音   阿   喔   阿   一  巫 (yu) [en] [eη] [:]
节码拼音   AI   E   UI   AO  OU IU IA UA UO IE VE
汉语拼音   ai   ei   uei   ao  ou iou ia ua uo ie üe
注    音   哀   欸   威   凹  欧
节码拼音   EL   AN   EN   IN  UN VN
汉语拼音   er   an   en   in  uen üen ang eng ing ong
注    音   [:]   安   恩   因  温 (eng) (ing) (ong)
节码拼音   IAO   IAN   IAΛ   IOΛ  UAI UAN UAΛ UEΛ VAN
汉语拼音   iao   ian   iang   iong  uai uan uang ueng üan
注    音   妖   烟   央   庸  歪
表2:
  声    调    码     G     B     C     R     H
  声    调    号     1     2     3     4     5
对应的汉语拼音声调    阴平    阳平    上声    去声    轻声
表3:
Figure C9710736400171
表4:
Figure C9710736400181
表5:
字型码 字型号 汉字类型 例  字
  A   1 上下型、上中下型、品字型 悉、慧、晶
  E   2 左右型、左中右型 利、班、能
  O   3 独体型 成、良、衣、丰
  U   4 包围型 乘、回、爽、可
表6:
表7:
分组号  韵    母
    1  AI、IA、AN、AΛ、AO、UA
    2  I、EI、IE、EN、EΛ、VE、EL
    3  IAO、IAN、IAΛ、IOΛ、UAI、UAN、UAΛ、UEΛ、VAN
    4  A、O、E、U、V
    5  UI、IU、IN、UN、VN、OΛ、IΛ、OU、UO

Claims (10)

1、一种汉字编码的计算机输入方法,其特征在于:(1)拼音代码包括:
Aa,Bb,Cc,Dd,Ee,Ff,Gg,Hh,Ii,Jj,Kk,Ll,Mm,Nn,Oo,Pp,Qq,Rr,Ss,Tt,Uu,Vv,ww,Xx,Yy,Zz,Λ
Figure C9710736400021
依次分配在通用标准键盘的对应字母健上,而将Λ
Figure C9710736400022
分配在符号键“;”上或分别分配在字母键n、g上;(2)声调代码包括有:阴平、阳平、上声、去声和轻声,分别以一个字母为代码;(3)将汉字以笔划(画)和字型划分的方法分配代码:
笔划代码:点分配为M,横为T,竖为K,撇为P和弯为S,
字型代码:上下型、上中下型、品字型汉字分配为A,
          左右型、左中右型为E,
          独体型为O,和
          包围型为U;(4)利用上述键盘的单字、词组输入方法是:
单字:为输入该单字的字音段代码,包括所述拼音代码中的声母、韵母,和声调码,以及字形段代码包括首部(划)码、字型码、次部(划)码和末件(划)码;
词组:双字词为输入该双字的字音段代码,以及第一字的前两码、第二字的前两码输入,
         三字词为输入该三字的字音段代码,以及第一、第二字的首码、第三字的前两码,
        四字以上词输入该各字的字音段代码,以及各字的字形段代码。
2、根据权利要求1所述的汉字编码的计算机输入方法,其特征在于所述的笔划代码包括单笔划码和构件码。
3、根据权利要求1或2任一项所述的汉字编码的计算机输入方法,其特征在于所述的字音段代码的最大码长为六码,所述的字型段代码的最大码长为四码。
4、根据权利要求3所述的汉字编码的计算机输入方法,其特征在于所述的字型段代码还包括集位码,所述集位码具有上下型、左右型字分配为E、包围型为A,和独体型为O。
5、根据权利要求1、2或4任一项所述的汉字编码的计算机输入方法,其特征在于所述的单字和词组输出为拼音化形式。
6、一种汉字编码的计算机输入方法,其特征在于:(1)拼音代码包括:
Aa,Bb,Cc,Dd,Ee,Ff,Gg,Hh,Ii,Jj,Kk,Ll,Mm,Nn,Oo,Pp,Qq,Rr,Ss,Tt,Uu,Vv,Ww,Xx,Yy,Zz,Λ
Figure C9710736400031
依次分配在通用标准键盘的对应字母健上,而将Λ
Figure C9710736400032
分配在符号键“;”上或分别分配在字母键n、g上;(2)声调代码包括有:阴平、阳平、上声、去声和轻声,分别以一个字母为代码;(3)将汉字划分为构件,构件代码:以点起笔分配为M,以横起笔为T,以竖起笔为K,以撇起笔为P和以弯起笔为S;(4)利用上述键盘的单字、词组输入方法是:单字:为输入该字的声母加构件的前三码或独体汉字为前两码;词组:
  双字词为第一字声母、首件码加第二字声母、首件码;
  三字词为第一、第二字声母加第三字声母、首件码;
  四字词为各字的声母;
  多字词为前三字和最末字的声母。
7、一种汉字编码的计算机输入方法,其特征在于:(1)拼音代码包括:
Aa,Bb,Cc,Dd,Ee,Ff,Gg,Hh,Ii,Jj,Kk,Ll,Mm,Nn,Oo,Pp,Qq,Rr,Ss,Tt,Uu,Vv,Ww,Xx,Yy,Zz,Λ
Figure C9710736400041
依次分配在通用标准键盘的对应字母健上,而将Λ
Figure C9710736400042
分配在符号键“;”上或分别分配在字母键n、g上;(2)声调代码包括有:阴平、阳平、上声、去声和轻声,分别以一个字母为代码;(3)以汉字笔划(形)分配代码:点配为M,横为T,竖为K,撇为P和弯起为S;(4)利用上述键盘的单字、词组输入方法是:单字:为输入该字的声母加笔划前三码或独体汉字的笔画前两码;词组:双字词为第一字声母、首部左笔码、加第二字声母、首部左笔码;
    三字词为第一、第二字声母,加第三字声母、首部左笔码;
    四字词为各字的声母;
    多字词为前三字和最末字的声母。
8、一种汉字编码的计算机输入方法,其特征在于:(1)拼音代码包括:
Aa,Bb,Cc,Dd,Ee,Ff,Gg,Hh,Ii,Jj,Kk,Ll,Mm,Nn,Oo,Pp,Qq,Rr,Ss,Tt,Uu,Vv,Ww,Xx,Yy,Zz,Λ
Figure C9710736400043
依次分配在通用标准键盘的对应字母健上,而将Λ 分配在符号键“;”上或分别分配在字母键n、g上;(2)声调代码包括有:阴平、阳平、上声、去声和轻声,分别以一个字母为代码;(3)将汉字以笔划和字型划分的方法分配代码:
笔划代码:点分配为M,横为T,竖为K,撇为P和弯为S,
字型代码:上下型、上中下型、品字型汉字分配为A,左右型、左中右型为E,独体型为O,和包围型为U;(4)利用上述键盘的单字、词组输入方法是:单字:合体字为输入首字母、韵调码、首型码、首笔码;
    独体字为首字母、韵调码、首型码、右笔码;词组:双字词为第一字的前两码、第二字的前两码;
    三字词为第一字、第二字的头码、第三字的前两码;
    四字词为各字的头码;
    多字词为前三字和最末字的头码。
9、根据权利要求1、6、7和8任一项所述的汉字编码的计算机输入方法,其特征在于所述的字形段代码的取码规则是:
单笔划取自汉字和部件左上、左下、右上、右下四个方位;
当某方位上单笔划难以确定时,左上、左下两个方位取相对首笔划,右上、右下两个方位取相对末笔划;
构件右上、右下方位为嵌套关系时,单笔划取自内部构件;以及
当某个方位上单笔划空缺或已经取过时,以虚拟“竖”划取码。
10、根据权利要求2、6和9任一项所述的汉字编码的计算机输入方法,其特征在于所述的汉字构件包括:交叉笔划部分、分散的单笔划和嵌套在其它构件中的单笔划与连续书写的连接笔划部分、和三面以上包围着的有连接关系的部分。
CN97107364A 1996-03-04 1997-02-21 汉字编码的计算机输入方法 Expired - Fee Related CN1058342C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN97107364A CN1058342C (zh) 1996-03-04 1997-02-21 汉字编码的计算机输入方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN96117463 1996-03-04
CN96117463.3 1996-03-04
CN97107364A CN1058342C (zh) 1996-03-04 1997-02-21 汉字编码的计算机输入方法

Publications (2)

Publication Number Publication Date
CN1173662A CN1173662A (zh) 1998-02-18
CN1058342C true CN1058342C (zh) 2000-11-08

Family

ID=25744025

Family Applications (1)

Application Number Title Priority Date Filing Date
CN97107364A Expired - Fee Related CN1058342C (zh) 1996-03-04 1997-02-21 汉字编码的计算机输入方法

Country Status (1)

Country Link
CN (1) CN1058342C (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105109213A (zh) * 2015-06-02 2015-12-02 王弢 中文拼音安全打字机

Also Published As

Publication number Publication date
CN1173662A (zh) 1998-02-18

Similar Documents

Publication Publication Date Title
CN1023916C (zh) 简繁五笔字根汉字输入系统
CN1026525C (zh) 智能五笔双拼码计算机汉字输入方法
CN1015218B (zh) 字根编码输入法及其设备
CN1607491A (zh) 使用操纵杆输入中文的系统和方法
CN1095560C (zh) 修改汉字转换结果的系统
CN101038508A (zh) Gb拼音输入法
CN1058342C (zh) 汉字编码的计算机输入方法
CN1136496C (zh) 简化拼音-触摸屏鼠标式汉字输入方法
CN1052200A (zh) 音形义字词兼容编码系列及键盘
CN1121645C (zh) 音形字理码汉字输入方法
CN1679023A (zh) 创建和使用中文语言数据和用户自纠正数据的方法和系统
CN1257445C (zh) 音义码汉字输入方法
CN1256644C (zh) 一种偏旁部首汉字输入方法
CN1062797A (zh) 文字输入键盘及方法
CN85100087A (zh) 《中文声数编码》方案及其实现方法
CN1584809A (zh) 可做拼音汉字的汉字编码的输入法
CN1038888A (zh) 音形义兼容与汉拼字联词编码系列及键盘
CN1023917C (zh) 汉语文字处理之方法
CN1123818C (zh) 电拼汉字计算机输入法、所用键盘及其中文内码
CN1089175C (zh) 规范部首笔画合成输入法
CN1366227A (zh) 汉字免拆分快速输入法
CN1081773A (zh) “多声递推联想”汉语词字编码
CN1093654C (zh) 结构码汉字输入法及使用的通用键盘
CN1175726A (zh) 汉语的方块拼音字的电脑输入方法
CN1045226C (zh) 普及型六笔二维汉字编码输入法及键盘

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C19 Lapse of patent right due to non-payment of the annual fee
CF01 Termination of patent right due to non-payment of annual fee