CN1104352A - 计算机汉字输入系统 - Google Patents

计算机汉字输入系统 Download PDF

Info

Publication number
CN1104352A
CN1104352A CN 94105481 CN94105481A CN1104352A CN 1104352 A CN1104352 A CN 1104352A CN 94105481 CN94105481 CN 94105481 CN 94105481 A CN94105481 A CN 94105481A CN 1104352 A CN1104352 A CN 1104352A
Authority
CN
China
Prior art keywords
parts
character
code
word
chinese character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 94105481
Other languages
English (en)
Other versions
CN1038366C (zh
Inventor
何克抗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN94105481A priority Critical patent/CN1038366C/zh
Publication of CN1104352A publication Critical patent/CN1104352A/zh
Application granted granted Critical
Publication of CN1038366C publication Critical patent/CN1038366C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本发明涉及一种计算机汉字输入方法,将计算机 的汉字输入与中小学的语文教育紧密结合,做到识 字、编码、查字和打字的有机统一。本发明以部件码 为主辅以笔画码,以规范性为主要选择原则,选取五 种基本笔画和由成字部件、不成字的复笔部件组成的 300个左右基本部件,部件主要按其名称拼音的首字 母分类再辅以无名称部件的笔画特征分类,笔画特征 用数字表示,按7条拆分原则拆分汉字和按5条编码 规则输入汉字,规范易学快速。

Description

本发明属于计算机汉字输入系统,是在国际通用计算机键盘上采用适合于中小学语文教学要求的汉字编码方法的计算机汉字输入系统。
众所周知,计算机在我国的推广应用要比西方发达国家落后,除了经济基础和科技发展条件的制约以外,一个很重要的原因就是汉字输入计算机要比拉丁文字困难得多。
在中国要把母语输入计算机是要经过专门学习或职业培训才能获得的专门技能;而在拉丁语系国家,把自己母语输入计算机则是任何一位受过中小学基础教育的国民都能具有的基本技能。很显然,要从根本上解决这个问题,使我国计算机普及率真正赶上西方发达国家水平,出路只有一条-把计算机汉字输入问题与我国中小学的基础教育,特别是语文教育结合起来,使计算机教育、编码教育和语文教育融为一体,做到识字、编码、查字和打字四者相结合,使学生经过小学和中学阶段的学习,既获得基础教育所要求的基本知识,又掌握将汉字输入计算机所需要的编码方法与打字技能。由于这种方法与技能的教育与中小学的语文教育紧密结合,因此可以成为学生认知结构中基本知识与基本技能的有机组成部分。这种通过基础教育所获得的基本知识与基本技能是特别牢固、难以遗忘的。这样掌握的汉字输入方法将会和我们书写汉字一样运用自如。但是,在此之前我们还未看到有任何一种汉字输入方案是完全按照这样一种社会需求,即与中小学基础教育紧密结合的社会需求,严格遵循中小学语文教学的规范,并且是在中小学做过认真的试验后研制出来的。
本发明的目的是提出一种符合汉字认知过程和中小学生认知特点的汉字编码方法和计算机汉字输入系统技术方案,可以使计算机教育、编码教育与中小学语文教育融为一体。
对本发明的内容详细说明如下:
本发明计算机汉字输入系统,采用计算机国际通用键盘,对应26个拉丁字母键和1-9九个数字键设计码元,其汉字信息处理方式属于形码编码体系,包括形码部件的选取与归并、部件分类与键盘代码设计、汉字拆分规则和汉字编码规则,具体内容是:
部件的选取、归并
a、部件的选取方法是:
从《汉字统一部首表》中选取所有独体字部首121个:乙,十,厂,卜,八,人,匕,儿,几,刀,力,厶,又,干,工,土,大,尢,寸,弋,口,巾,山,夕,广,门,尸,己,弓,女,飞,小,子,马,幺,王,无,韦,木,犬,车,戈,牙,瓦,止,日,月,贝,见,牛,鬼,手,目,毛,面,气,长,虫,片,斤,爪,父,氏,入,文,方,火,斗,户,心,母,水,示,甘,石,矢,生,龙,言,页,业,豆,艮,皿,矛,田,耒,禾,白,瓜,鸟,立,疋,皮,耳,臣,西,而,竹,臼,自,血,舟,衣,羊,米,聿,酉,豕,辰,里,身,豸,隹,雨,非,鱼,革,毋,士,鹿,
复笔部首55个:
冂,凵,匚,冂,卩,刂,亻, ,勹,
Figure 941054810_IMG26
,冫,
Figure 941054810_IMG27
,阝,廴,辶,艹,扌,
Figure 941054810_IMG28
,彳,彡,犭,攵,饣,丬,忄,氵,宀,
Figure 941054810_IMG29
Figure 941054810_IMG30
巛, 灬,
Figure 941054810_IMG32
,礻肀,罒,钅,疒,
Figure 941054810_IMG33
,虍
Figure 941054810_IMG34
,衤,
Figure 941054810_IMG35
,厂, ,刀,
Figure 941054810_IMG38
和合体字部首7个:
穴、足、食、金、齿、麻、欠作为部件;
从《汉字末级部件组字频度表》中选取构字能力强、且为小学用间架结构进行识字教学所需要的独体字部首111个:
凹,巴,本,必,卑,半,白,才,册,产,虫,垂,串,丑,出,川,斥,电,东,刁,丹,丁,发,父,夫,弗,甫,丰,凡,市,更,果,丐,乎,亥,互,曷,函,以,义,亦,夷,尹,及,甲,久,兼,柬,戋,巨,堇,交,井,疌,了,两,乐,吏,民,末,买,内,乃,农,廿,平,求,丘,千,且,曲,冉,壬,世,史,巳,申,上,束,屯,头,于,禺,禹,臾,我,戊,午,乌,亡,丸,为,未,习,尤,也,由,永,丫,曳,矢,央,之,重,专,兆,丈,乍,中,秉,
Figure 941054810_IMG39
和复笔部首111个:
Figure 941054810_IMG40
(敖字旁),
Figure 941054810_IMG41
(敝字旁), (殷字旁), (祭字头),
Figure 941054810_IMG44
(单字底) )(弟字底),
Figure 941054810_IMG47
(春字头),
Figure 941054810_IMG48
(惠字头),
Figure 941054810_IMG49
(庚字底),
Figure 941054810_IMG50
(官字底), (共字头), (黑字头),
Figure 941054810_IMG53
(眉字头),
Figure 941054810_IMG54
(免字底) (其字头),
Figure 941054810_IMG56
(妻字头),冘(沈字边),
Figure 941054810_IMG57
(鼠字底),
Figure 941054810_IMG58
(舞字头) (熏字头), (杨字边), (养字头),
Figure 941054810_IMG62
(制字旁),隺
Figure 941054810_IMG63
Figure 941054810_IMG64
作为部件;
在不生造违反小学识字教学规律的部件的前提下,从一般常用字中选取24个独体字和合体字作为部件:
爱、安、奥、尔、易、令、今、离、去、佥、是、天、同、余、俞、予、万、罔、襄、有、用、 、亚、尧。
b、对《汉字末级部件组字频度表》中的不成字部件进行合理归并,在归并时依据基于汉字认知心理的三条相似性原则:
轮廓框架相同,只是主要笔画之间比例关系不同的部件,仍视为同一类部件:
几(
Figure 941054810_IMG66
),丁(
Figure 941054810_IMG67
),冂(
Figure 941054810_IMG68
),十(
Figure 941054810_IMG69
),口(囗),文(攵,
Figure 941054810_IMG70
,)
归并了八个部件;
轮廓框架相同,只是轮廓框架空间位置不同的部件仍视为同一类部件:
巾( ),冂(凵,匚,
Figure 941054810_IMG72
),片(爿,丬, ),日( ),山(彐,
Figure 941054810_IMG75
),月(
Figure 941054810_IMG76
),中(
Figure 941054810_IMG77
归并了十四个部件;
主要轮廓框架相同,只是次要笔画有差异的部件仍视为同一类部件:
Figure 941054810_IMG78
归并了六十二个部件。
部件分类的方法和部件与笔画对应计算机键盘的分类代码
部件分类的方法是:
采用以音联想为主,辅以形联想的音形结合方式来建立部件分类系统:
a、音联想分类代码是:
把所有成字部件的表音符定义为相应汉字拼音的首字母,把有传统名称的不成字部件的表音符定义为该部件名称拼音的首字母,当部件名称的拼音首字母为Y时,其表音符的定义分三种情况处理:
a)若Y后面的字母为I时,即该汉字或部件名称的发音为YI或YIN时,其表音符定义为I;
b)、若Y后面的字母为U时,即该汉字或部件名称的发音为YU、YUE或YUAN时,其表音符定义为U;
c)、若Y后面为其它字母时,其表音符定义为Y;按其表音符分类,该表音符就是相应部件的代码,依此建立起一套以音联想的部件分类子系统,该子系统除O、V字母以外,共含24个以拼音字母对应的拉丁字母为代码的部件子类。
b、形联想分类代码是:
首先把无表音符的基本部件,包括所有无传统名称又难以命名的不成字部件或虽有传统名称但直观上易于用笔画特征区别的不成字部件,按其笔画特征分成形联想的部件分类子系统的四个子类:
不含折笔的两笔部件用数字“2”作代码,
不含折笔的叁笔部件用数字“3”作代码,
不含折笔的肆笔及肆笔以上部件用数字“4”作代码,
含折笔的复笔部件用数字“5”作代码,
再把五个单笔画部件作为单独的形联想笔画子类,采用数字“1”、“7”、“8”、“6”、“9”分别作为“横”、“竖”、“撇”、“点”、“折”五个单笔画子类的代码,其中将“竖钩”(1)笔画归为“竖”,总共使用了24个字母代码和9个数字代码,总数为33个代码,并将与之对应的计算机键盘上的字母键和数字键作为码元。
部件选取、归并与分类的具体内容如附图1所列。
图1表中所列的字母“V”和“O”留作大字符集和全汉字集编码中使用,
表中的:卜(
Figure 941054810_IMG80
),和艹(廾)(草字头)也可列入“不含折笔的两笔部件”类和“不含折笔的三笔部件”类;“骨”和“詹”也可以根据需要选作基本部件。
汉字拆分的规则有七项,分别是:
a、相离可分,即部件之间有相离关系的合体字可以拆分;
b、相接可分,即部件之间有相接关系的合体字可以拆分;
c、独笔可分,即合体字中的独立笔画可以拆分;
d、准独体可分,即准独体字可拆分为两个部件:其中一个是独体字或结构部首,另一个是不成字又不属于结构部首的单笔画或复笔部件;
e、交重不分,即部件之间有相交笔画或相重笔画(即存在公共笔画)的汉字不可拆分;
f、从少优先,即当汉字有两种可能的拆分方式时,优先选取能拆出较少部件的方式;
g、成字优先,即一个汉字若有两种可能的拆分方式,且两种拆分方式拆出的部件数也相同,则优先选取能拆出独体字或结构部首的方式;
汉字编码规则有六项,分别是:
a、对33个高频字只取一码;
A爱,B不,C出,D的,E而,F发,G个,H和,I以,J就,K看,L了,M没,N你,P平,Q去,R人,S是,T他,U于,W我,X小,Y有,Z在,1一,2二,3三,4四,5五,6六,7七,8八,9九,其中字母O、V不作为高频字的代码;
b、对独体字编码:取表音符+首笔画码+末笔画码,即“独体音首尾”;
c、对两部件合体字编码:取部件1代码+部件2代码,即“合体两部件”;
d、对三部件合体字编码:取部件1代码+部件2代码+部件3代码,即“合体三部件”;
e、对四部件及四部件以上合体字的编码:取部件1代码+部件2代码+部件3代码+末部件代码,即、“合体四部件”;
f、按照小学识字教学关于间架结构中部件排列顺序的规定,确定合体字取码顺序。
本发明涉及的六项基本概念包括:
【定义1】汉字的基本笔画
本系统定义了五种汉字的基本笔画,它们是:
横(一、
Figure 941054810_IMG81
),竖(丨、亅),撇(丿、 ),点(丶、
Figure 941054810_IMG83
),折(
Figure 941054810_IMG84
Figure 941054810_IMG85
)。
注意:本系统把竖勾“亅”归入竖笔而不是归入折笔。
【定义2】结构部首
本系统定义的结构部首是指由独体字演变而成的部首,虽然不能作为汉字单独使用,但确有读音和意义,如三点水“氵”、宝盖头“宀”,包字头“勹”、衣字旁“衤”等。结构部首往往作为汉字的偏旁,起形符作用。
【定义3】独体字
本系统定义的独体字是指不能再拆分的、音义俱全的汉字。
例如:本、心、川、非、申、我……等。
【定义4】准独体字
本系统定义的准独体字是指由两个部分通过相接或相离关系组成的汉字,这两部分中的一部分必须是独体字或结构部首,另一部分则是既不成字又不属于结构部首的单笔或复笔部件。例如:
“产”字是由独体字“立”和撇笔“丿”通过相接关系组成的准独体字,类似的准独体字还有:失、朱、矢……等;
“礼”字是由结构部首“礻”和单折笔“ ”通过相离关系组成的准独体字,类似的准独体字还有:扎、轧、孔……等;
“夹”字是由独体字“夫”和复笔部件“
Figure 941054810_IMG87
”(倒八字)通过相接关系组成的准独体字,类似的准独体字还有:关、并、来……等;
“冈”字是由结构部件“冂”和复笔部件“
Figure 941054810_IMG88
”通过相离关系组成的准独体字,类似的准独体字还有:网、区、凶……等;
“勿”字是由结构部首“勹”和复笔部件“
Figure 941054810_IMG89
”组成的准独体字,类似的准独体字还有:匆、匀、氘……等;
【定义5】部件、成字部件与不成字部件
本系统中被选入《基本部件表》的所有独体字、准独体字、合体字以及不成字的复笔画皆称为“基本部件”,简称“部件”。其中属于独体字、准独体字或合体字的部件又称为“成字部件”,其余则称为“不成字部件”。《基本部件表》见附图1。
在基本部件表中,不成字部件被分成两大类:一类是有传统名称的,如虎字头“虍”、官字底“ ”等,称为“有名称的不成字部件”,其代码用其“表音符”表示,表音符的含义见下面的定义6。另一类是无传统名称又难以命名的复笔部件,如“
”等,称为“无名称的不成字部件”,其代码用笔画特征数表示。其中的两点水“冫”、三点水“氵”、包字头“勹”和绞丝旁“
Figure 941054810_IMG91
”等本来是有传统名称的,但由于这些部件在直观上易于用笔画特征区别,所以在本系统中将这些部件的代码用笔画特征数目“2、3、4、5”表示,而不用其表音符表示。
【定义6】汉字和部件的“表音符”与部件代码
本系统为每个汉字及有名称的部件定义一个“表音符”,其定义为:
1)当汉字部件名称的拼音首字母是Y以外的其它字母时,其表音符即指其拼音的首字母,在多数情况下就是声母或声母的首字母,在零声母情况下则是韵母的首字母。
2)当汉字或部件名称的拼音首字母是“Y”时,其表音符的定义分三种情况:
<1>、若“Y”后面的字母为“I”时,即该汉字或部件名称的发音为“YI”或“YIN”时,其表音符定义为:“I”;
<2>、若“Y”后面的字母为“U”时,即该汉字或部件名称的发音为“YU”、“YUE”或“YUAN”时,其表音符定义为:“U”;
<3>、若“Y”后面为其他字母时,其表音符定义为“Y”。
对于成字部件和有名称的不成字部件,其表音符就是该部件的代码;对于无名称的不成字部件或虽有名称但直观上易于用笔画特征区别的不成字部件,其代码则用代表该部件笔画特征的数字2、3、4或5表示。
基于上述6项基本概念,本发明系统从《汉字统一部首表》(中国文字改革委员会、1983年公布)和《汉字末级部件组字频度表》(中国文字改革委员会、1985年发表)中选取、归并的各种个部件的关系可表列如下:
Figure 941054810_IMG92
本系统的键位代码定义是:
在本发明中采用的国际通用计算机键盘上的26个拉丁文字母键中,除O、V键保留在大字符集和全汉字集编码计算机输入系统中使用外,其余24个字母键作为以音联想的基本部件类的表音符代码键;1-9九个数字键中的“2”、“3”、“4”、“5”四个键作为无表音符的形联想基本部件类(包括所有无传统名称又难以命名的不成字部件或虽有传统名称但直观上易于用笔画特征区别的不成字部件)的代码键。其余的数字键“1”、“7”、“8”、“6”、“9”分别作为笔画“横”、“竖”、“撇”、“点”、“折”的代码键。
在对各键位的部件分配上,本发明提出了解决“均衡分配”的技术措施。具体讲,由于每个部件的构字能力有很大差异,所以部件的“均衡分配”并不是要求将300个左右的基本部件平均分配到33个键位上,而是要求分配到每个键位上的所有部件的总构字能力大致均衡。每个部件的构字能力定义为“含有该部件的汉字总数”。例如在汉字基本集范围内,部件“氵”的构字能力是366;部件“亻”的构字能力是229;部件“舟”是31;部件“爪”只有3。可见,不同部件的构字能力差别很大,如果把基本部件数平均分配到每个键位上,显然达不到使每个键位上所有部件的总构字能力比较均衡的目的。判断部件是否均衡分配,主要不是看每个键位上分配的部件数是否大致相等,而是要用该编码系统的重码率来衡量。也就是说,重码率愈低意味着部件构字能力的分配愈均匀。在本发明的部件分类系统设计中,为了保证部件构字能力的分配有较好的均衡性,针对两个分类子系统的不同特点采取了如下的不同措施:
在音联想的部件分类子系统中,如定义6所述一般都是以该部件名称拼音的首字母作为该部件的表音符,即部件代码;为了保证有较好的均衡性,这里采取一个例外的处理措施。
这个例外措施如定义6所述,是当部件名称的拼音首字母为Y时,其表音符的定义分三种情况处理:
a)若Y后面的字母为I时,即该汉字或部件名称的发音为YI或YIN时,其表音符定义为I;
b)若Y后面的字母为U时,即该汉字或部件名称的发音为YU、YUE、或YUAN时,其表音符定义为U;
c)若Y后面为其它字母时,其表音符定义为Y。
由于汉字拼音方案规定,在I,IN,U,UE,UAN等韵母的前面若无声母时,则需加字母Y(这时U上的两点可以省略),从而造成以Y为首字母的部件特别多(有40多个),使键位Y负担过重。采用上述处理后,等于恢复该部件拼音的本来面目,因而并不影响对该类部件的联想记忆。不仅键位Y的负担大为减轻,而且还使原来空闲的键位I和U得到充分利用,真可谓一举三得。
在形联想的部件分类子系统中,如定义5所述,是将无传统名称又难以命名的复笔部件按其笔画特征分成四类,为了改善均衡性,这里也有几个部件作为例外处理。例如三点水“氵”、两点水“冫”、绞丝旁“ ”和包字头“勹”等本来都是有传统名称的结构部首,应当归入第一类,即按音联想分类。但是现在却将它们归入第二类,即按笔画特征(形联想)分类。其原因有二:一是因为这几个部件在直观上易于用笔画的数目特征区别,便于用形联想;二是因为这样做以后,使构字能力特强的三点水“氵”和绞丝旁“
Figure 941054810_IMG94
”,以及构字能力较强的两点水“冫”和包字头“勹”可以被分配到构字能力很弱的复笔部件类,从而完全消除了与这几个部件有关的重码,使部件构字能力的分配均衡性大为提高。
卜(
Figure 941054810_IMG95
),匕(
Figure 941054810_IMG96
),艹(廾)(草字头)也可以依此规则处理,分配到“不含折笔的两笔部件”类和“不含折笔部件”类。
采取上述针对两个部件分类子系统的不同措施后,整个编码系统的重码率明显降低(静态重码率在1.46%左右),这说明本系统的部件构字能力分配已达到相当均匀的程度。
本发明的基本部件分类表如附图1所示。
为方便小学低年级教学,本发明将附图1所列的基本部件表简化出如附图2所示的简表。
本发明的汉字拆分规则有七项,具体内容是:
【规则1】相离可分:部件之间有相离关系的合体字可以拆分。
例如:体=亻,本(注:这里的“=”表示“可拆分为”,下同。)
部=立,口,阝
燕=廿,口,
Figure 941054810_IMG97
,匕,灬,
【规则2】相接可分:部件之间有相接关系的合体字可以拆分。
例如:允=厶,儿
素=
Figure 941054810_IMG98
,幺,小
誉= ,一,八,言
【规则3】独笔可分:合体字中的独立笔画可以拆分。
例如:修=亻,丨,
Figure 941054810_IMG100
,彡 其中竖笔丨是独立笔画,类似的字有“候”字;
断=米, ,斤 其中单折笔
Figure 941054810_IMG102
是独立笔画;
甚=
Figure 941054810_IMG103
,八,
Figure 941054810_IMG104
其中单折笔
Figure 941054810_IMG105
是独立笔画;
蒙=艹,
Figure 941054810_IMG106
,一,豕 其中横笔一是独立笔画;
系=丿,幺,小  其中横撇丿是独立笔画,类似的字有“追”和“窗”;
【规则4】准独体可分:根据准独体字的定义可知,准独体字可拆分为两个部件:其中一个是独体字或结构部首,另一个是不成字又不属于结构部首的单笔画或复笔部件。
例如:尺=尸,
Figure 941054810_IMG107
朱=丿,未
夹=夫,
Figure 941054810_IMG108
区=匚,
Figure 941054810_IMG109
网=冂,
Figure 941054810_IMG110
勿=勹,
Figure 941054810_IMG111
匆=勹,
【规则5】交重不分:部件之间有相交笔画或相重笔画(即存在公共笔画)的汉字不可拆分。
例如:申≠曰,丨  (这里用≠表示“不可拆分为”,下同。)
东≠七,小  (部件“七”和“小”之间有相交)
栽≠土,木,戈  (部件“土”和“戈”之间存在公共横笔,这种拆分违背交重不分规则,正确拆分方法是:栽=十,戈,木)
夫≠二,人
我≠丿,扌,戈
聿≠
Figure 941054810_IMG113
毋≠
Figure 941054810_IMG114
在本发明中,“申”(表音符S)、“东”(表音符D)、“夫”(表音符F)、“我”(表音符W)、“聿”(表音符U)、“毋”(表音符W)以及其他由相交或相重笔画组成的字均不拆分,即按独体字方式输入,但是当它们作为构字部件在合体字中出现时,则以其表音符作为部件代码。例如,栋=木,东(MD);俄=亻,我(RW)。
【规则6】从少优先:当一个汉字有两种可能的拆分方式时,优先选取能拆出较少部件的那种方式。
例如:彦=产,彡 同时,彦=
Figure 941054810_IMG115
,厂,彡
前者拆出的部件数为2,后者拆出的部件数为3,根据规则6,应取前一种拆分方式。
【规则7】成字优先:一个汉字若有两种可能的拆分方式,且两种拆分方式拆出的部件数也相同,则优先选取能拆出独体字或结构部首的方式,由于结构部首皆由独体字演变而成并有意义,因此,在本规则中可视同“成字”。
例如:街=彳,土,土,一,丁同时,街=彳,土,土,二,亅两者拆出的部件数相同,但前者拆出的全是独体字和结构部首,而后者则包含一个单笔部件“亅”,因此根据规则7应当取前一种拆分方式。
同理可知,“百”字的正确拆分方法应是:百=一,白(百≠ ,日)。
本发明的汉字编码规则是:
高频字的编码
对33个高频汉字只取一码,其中九个数字(一,二,……,九)就取相应的数字码(1,2,……,9),其余的24个高频字则取其表音符作为编码:
Figure 941054810_IMG117
注:本发明规定字母O和字母V在汉字基本集的编码系统中不作为码元,留待大字符集和全汉字集编码系统中使用。
独体字的编码
独体字一般取三码:
第一码 第二码 第三码
该字的“表音符” 该字的首笔画代码 该字的末笔画代码
基本笔画的代码规定是:横(一,1),竖(7,七),撇(八,8),点、捺(六,6),折(九,9)。
例如:
凹(A71),巴(B99),东(D16),非(F71),果(G76),衣(I66),入(R86),禺(U76),韦(W17),央(Y76)。
对单笔画的独体字只取其表音符和首笔画码(二码)。
例如:乙(I9)。
为了区分有相同表音符和笔画码的独体字,对一般的独体字有时也可以取二码或四码:
取二码-省略了第三码,即只取表音符和首笔画码;
取四码-对第三码重复取码,即多取一次末笔画码。
例如:
贝(B7),大(D1),义(I6),雨(U1),专(Z1),垂(C811),戈(G166),耒(L166),史(S766)。
至于哪些独体字需要取四码,哪些独体字只需要取二码,无需用户记忆,在软件环境支持下,系统会提前告诉用户,即当用户输入完第一码(表音符)以后,系统会在显示器屏幕上立刻显示出以该表音符打头并且第二码为笔画码的所有二码字;而当用户输入第一、第二码后,系统会立即显示出以该两码打头并且第三码为笔画码的所有三码字,以及以该两码打头并且第三、第四码皆为笔画码的所有四码字。
两部件合体字及准独体字的编码
两部件合体字一般只有两码:
第一码 第二码
第一部件的代码 第二部件的代码
例如:
化=亻,匕(RB)
外=夕,卜(XB)
纺=
Figure 941054810_IMG118
,方(5F)
为了区分有相同部件代码的合体字,对两部件合体字有时也可以取三码或四码。
取三码-第三码取该汉字的首笔画或末笔画代码;
取四码-第三、四码依次取该汉字的首笔画代码和末笔画代码。
例如:
较=车,交(CJ)
苋=艹,见(CJ1)
蒹=艹,兼(CJ16)
虮=虫,几(CJ79)
至于哪些两部件合体字需要取三码,哪些两部件合体字需要取四码,以及到底需取首笔还是末笔画代码(或同时取首、末笔代码)均无需用户记忆,软件会提前通过屏幕显示告诉用户,即当用户输入完两个部件的代码以后,系统会立刻显示出以这两个代码开头并且第三码为笔画码的所有三码字,以及以这两个代码开头并且第三、第四码皆为笔画码的所有四码字。
由于准独体字也可以拆分成两个部件,因此准独体字的编码规则与两部件合体字的编码规则相同,唯一的差别是在准独体字的拆分结果中有一个部件是既不成字又不属于结构部首的单笔画或复笔画部件(而由两部件合体字拆分得到的两个部件,应当都是独体字,或一个为独体字另一个为结构部首)。
例如:
失=丿,夫(8F)
夹=夫,
Figure 941054810_IMG119
(F8)
区=匚, (KS1)
太=大,丶(D6)
犬=大,丶(D61)
冬=夂,
Figure 941054810_IMG121
(W2)
成=戊,
Figure 941054810_IMG122
(W9)
三部件合体字一般只取三码:
第一码 第二码 第三码
第一部件的代码 第二部件的代码 第三部件的代码
树=木,又,寸(MYC)
素=
Figure 941054810_IMG123
,幺,小(45X)
健=亻,聿,廴(RUZ)
当三部件合体字中含有独立笔画时,要多取一码,即取四码,多出的一码就是该独立笔画的代码。
例如:
槌=木,
Figure 941054810_IMG124
,辶,(M8GZ),其中含独立笔画“丿”,代码为8;
榔=木,丶,
Figure 941054810_IMG125
,阝,(M6GE),其中含独立笔画“丶”,代码为6;
窗=穴,
Figure 941054810_IMG126
,口,夕,(X8KX),其中含独立笔画“
Figure 941054810_IMG127
”,代码为8。
为了区分有相同部件代码的合体字,对不含有独立笔画的三部件合体字有时也可以取四码,第四码是该汉字的首笔画或末笔画代码。
例如:
梧=木,五,口(M5K)
眙=目,厶,口(M5K7)
骀=马,厶,口(M5K9)
枸=木,勹,口(M5K1)
至于哪些三部件合体字需要取四码,以及到底需取首笔画还是末笔画的代码也无需用户记忆,软件会提前用屏幕引导方式告诉用户。
5四部件及四部件以上合体字的编码
四部件及四部件以上合体字均取四码:
第一码 第二码 第三码 第四码
第一部件代码 第二部件代码 第三部件代码 末部件代码
例如:
誉=
Figure 941054810_IMG128
,一,八,言(318Y)
解= ,用,刀,牛(DYDN)
蟹= ,用,刀,牛,虫(DYDC)
赢=亡,口,贝,月,凡(WKBF)
璺=
Figure 941054810_IMG131
,同,
Figure 941054810_IMG132
,王,丶(4T56)
鬣=
Figure 941054810_IMG133
,彡,巛,口,
Figure 941054810_IMG134
(535S)
合体字编码中的取码顺序
合体字编码中的取码顺序取决于合体字中部件的排列顺序,显然,该顺序与合体字的间架结构类型及书写笔顺有关。在小学语文识字教学中,通常把合体字的间架结构划分为八大类,各类结构的示例如下面所示:
1  左右结构(信,称,结)
2  左中右结构(撤,衍,湖)
3  挟中结构(乘,燕,赢)
4  上下结构(家,早,霜)
5  上中下结构(荧,黄,卓)
6  品字型结构(品,晶,森)
7  全包围结构(团,固,围)
8  半包围结构,这种结构可进一步细分为:上三包、下三包、左三包、左上包、左下包、右上包等六种类型:
上三包:内部件被外部件从上面三个方向包围(同,风,向);
下三包:内部件被外部件从下面三个方向包围(函,画,凶);
左三包:内部件被外部件从左面三个方向包围(匠,匪,匹);
左上包:内部件被外部件从左上角包围(尾,眉,病);
左下包:内部件被外部件从左下角包围(建,逃);
右上包:内部件被外部件从右上角包围(甸,包,氧);
以上各种间架结构的部件排列顺序(即取码顺序)如附图3所示,附图3中的数字即表示取码的顺序。其中,除全包围结构和左三包结构的部件顺序和通常书写笔顺稍有不同之外(全包围结构和左三包结构的部件顺序由部件的起笔决定),其余结构的部件顺序和书写笔顺完全相同。
由此可见,合体字编码中的取码顺序可以用一句话来概括:合体字编码的取码顺序就是间架结构中部件的排列顺序。
成字部件的编码
成字部件也称“部件字”(即基本部件表中所包含的汉字),部件字中既有独体字、准独体字,也有合体字。当它们作为合体字中的构字部件使用时,不管它们是独体字、准独体字还是合体字,一律用一个代码(即部件码)来表示;而当它们本身作为一个汉字直接输入时,则同样要区分独体字与合体字两种情况,分别予以编码才能输入(其中的准独体字可按照“两部件合体字”的方式输入)。
独体字部件的编码:
独体字的编码规则是:表音符+首笔画码+末笔画码(音、首、尾)
“东”是独体字部件,其编码为D16;
“耳”是独体字部件,其编码为E1;
“束”是独体字部件,其编码为S16。
合体字部件的编码:
安=宀,女  “安”是两部件组成的合体字部件,其编码为BN;
齿=止,人,凵 “齿”是三部件组成的合体字部件,其编码为ZRK;
襄=
Figure 941054810_IMG135
,口,口,
Figure 941054810_IMG136
“襄”是五部件组成的合体字部件,其编码为2KK5。
四部件及四部件以上合体的编码规则是:
第一部件码+第二部件码+第三部件码+第四部件码
高频字部件的编码:
爱(A),不(B),出(C),而(E),发(F),以(I),了(L),平(P),去(Q),人(R),是(S),于(U),我(W),小(X),有(Y)等15个汉字都是高频成字部件,故可用一码,即部件码输入;
的(D),个(G),和(H),就(J),看(K),没(M),欠(N),他(T),在(Z)等9个汉字也是高频字,但不是部件,所以虽然可用一码输入,但不能作为构字部件对其字合体字进行编码。
本发明包括的词语编码,其规则内容是:
本发明汉字系统中的词库包含双字词、三字词、四字词以及四字以上的多字词,各类词的码长均不超过四码。其编码规则如下:
双字词的编码
依次取双字词第一、二汉字的首末部件代码作为该双字词的编码,共四码。如果双字词中含有一个部件字或不属于部件的独体字,则该双字词的码长将由四码减为三码,其中有一位码即为该独体字或部件字的表音符;如果双字词所含两个汉字皆为部件字或不属于部件的独体字,则该双字词的码长将减为两码,并且这两码就是所含两汉字的表音符。例如:
猜测=犭,月,氵,刂(QU32);
猜中=犭,月,中(QUZ);(“中”是部件字)
事情=事,忄,月(SXU);(“事”是独体字)
安乐=安,乐(AL);(“安”和“乐”皆为部件字)
人民=人,民(RM)。(“人”和“民”皆为部件字)
三字词的编码
依次取三字词第一、二、三汉字的首部件代码,加上第三个汉字的末部件代码作为该三字词的编码,共四码。如果第三个汉字是部件字或不属于部件的独体字则取其表音符为代码,这时码长由四码减为三码。例如:
蒙古包=艹,十,勹,巳(S5S);
应用文=广,用,文(GYW);
共和党= ,禾,
Figure 941054810_IMG138
,儿(GH3E);
忍耐力=刀,而,力(DEL)。
四字词及四字以上多字词的编码
依次取四字词或四字以上多字词第一、二、三汉字的四部首部件代码,加上第末汉字的末部件代码共四码作为该四字词或多字词的编码。如果其中某个汉字是部件字或不属于部件的独体字则取其表音符作为代码,这时码长仍为四码。例如:
色彩缤纷=
Figure 941054810_IMG139
,刀(D45D);
耳闻目睹=耳,门,目,日(EMMR);
丰富多彩=丰,宀,夕,彡(FBX3);
马克思列宁主义=马,
Figure 941054810_IMG140
,田,义(MSTI)。
本发明的不成字部首编码规则内容是:
在国标GB2312汉字编码字符集中,除了包含6000多个汉字以外还有43个不成字的部首。为了使这43个部首也能输入计算机系统,必须在对汉字进行编码的同时也对这些不成字的部首进行编码。由于这些不成字的部首在结构上与独体字相同,而且各自有相应的代码,可以按照独体字的方式对不成字部首进行编码,在认知码编码系统中不成字部首是不成字部件的子集,其编码规则为:
第一码 第二码 第三码
该部首的代码(表音符或笔画特征数) 首笔画代码 末笔画代码
例如:
艹(C17),氵(361),冫(261),冂(K79),勹(589),丬(P67),亻(R87),彐(S91),尢(Y19)。
对于单笔画的不成字部首,由于其部首代码就是该单笔画的代码,所以这时只取两码而且这两码相同,既是部首代码又是首笔画码。例如:丿(88),丶(66),丨(77)。
为了区分同码,对不成字部首有时可以取四码,这时的第四码是对第三码重复取码,即多取一次末笔画码。例如:
(B699),疒(B666),扌(T111),肀(U977),讠(Y699)。
至于哪些不成字部首需要取四码,哪些只需取三码,无需用户记忆,软件系统会提前告诉用户。屏幕提前显示的原理和方式与独体字中的提前显示完全相同。
对本发明标点符号键位动态定义内容的说明:
根据本发明编码规则,一个汉字的编码有以下四种不同情况:
两部件合体字的编码-前两码必定是部件码,第三、四码则是笔画码;
三部件合体字的编码-前三码必定是部件码,第四码则是笔画码;
四部件合体字的编码-四位代码皆为部件码;
独体字的编码-第一码是表音符(相当于部件码),第二、三码则是笔画码。
准独体字的编码-与两部件合体字的编码类似。
由以上分析可知,在本发明系统中一个汉字的编码通常由部件代码和笔画代码两部分组成。为了减少记忆负担,做到易学易记,也为了加快键入速度,在本发明系统中对这两部分代码作不同的处理:对于部件码要求用户熟记;对于笔画码则让机器去记忆而无需用户死记。为此本发明给出“重码汉字”和“同部件码汉字”的定义,并对同部件码汉字采用“键位动态定义技术”实现快速选择与键入。
重码汉字的定义:若某两个或两个以上汉字的编码完全相同、即部件码和笔画码均相同,则称这两个、或两个以上汉字为“重码汉字”,简称重码字。
同部件码汉字的定义:若某两个或两个以上汉字的编码只是其中的部件码部分相同,而其笔画码部分却不相同,则称这两个或两个以上汉字为“同部件码汉字”,简称同部件码字。
键位动态定义技术的基本思想,是使标准键盘上的标点符号键位在不同的输入时刻具有不同的定义,以便最大限度地发挥标点符号键的作用,从而达到快速有效地选择与键入“同部件码汉字”的目的。
对键位动态定义技术的实现方法与技术特征说明如下:
1、在输入一个汉字之前,标点符号键的定义与通常情况相同,即被定义为各种西文标点符号或中文标点符号。
2、在输入一个汉字的过程中,当需要对“同部件码汉字”作选择时,标点符号键位被定义为同部件码汉字专用选择键。由于在编码输入过程中不可能键入标点符号,所以此刻可将标点符号键定义成其他用途。
3、在输入一个汉字的过程中,当不需要对“同部件码汉字”作选择时,标点符号键位无定义,这时可用空格键输入待选汉字。
4、在完成一个汉字的输入之后,标点符号键位又恢复通常情况下的定义,即表示西文标点符号或中文标点符号。
当输入某一汉字的认知编码时,屏幕提示行将显示出所有同部件码汉字,显示格式为<序号><汉字><1位或2位笔画码>,这时无需逐位输入后面的笔画码及结束键,而是直接键入提示行汉字前面的序号即可直接选择所要输入的汉字。这时的序号选择就是利用上述键位动态定义技术所定义的同部件码汉字选择键,也就是八个标点符号键,各键名称与不同序号的对应关系如下:
Figure 941054810_IMG142
若用左Shift+同部件码汉字选择键,则各键名称与不同序号的对应关系为:
Figure 941054810_IMG143
由于“左斜线”键位在通用键盘上的位置并不统一而其他标点符号键的位置是统一的,有很大一类键盘的“左斜线”键位是紧靠“引号”键的右侧位置,所以同部件码汉字选择键的各键名称与序号的对应关系也可采用如下形式:
Figure 941054810_IMG144
这时若用左Shift+同部件码汉字选择键,则各键名称与不同序号的对应关系为:
Figure 941054810_IMG145
同部件码汉字选择键与序号的两种不同对应关系,即两种不同的选择键设置方式,可由系统程序员事先选定,也可以通过人机交互方式由用户自己去确定。
当同部件码汉字的序号为9-16时,也可不用左Shift+同部件码汉字选择键来选择,而是用右侧的小键盘9、0、1、2、3、4、5、6来选择,这时0-6分别对应序号10-16。由于序号大于8的同部件码汉字为数极少而且绝大多数是不常用字,所以对序号大于8的同部件汉字采用何种方式选择并不重要,真正对输入速度有重要影响的是对序号为1-8的同部件码汉字的选择。这是因为这类同部件码汉字不仅数量大而且出现频度很高。将序号为1-8同部件码汉字的选择,分配给上述动态定义的八个标点符号键来担任,正好能最理想地满足这方面的要求,其原因有二:
1、在通用键盘的布局中,标点符号键被安排在击键较方便的右侧下三排键上,与字母键同在下三排之中。这样可避免使用最上面一排,即第四排的数字键来进行同部件码汉字,或联想词语的选择,从而减少了击键手指的移动范围,可以有效地提高键入速度。
2、这种键位动态定义技术与汉字屏幕的引导提示技术相结合,可以使一个同部件码选择键同时起“1位笔画码+结束键”或“两位笔画码+结束键”的作用,即一键可以同时起两键甚至三键的作用,从而使平均码长缩短,击键次数大为减少,键入速度大大加快。
例如,在本发明系统中当用户键入两位部件码YG后,提示行的待选区将显示待选字“课”,在引导区将显示7个与“课”字具有相同部件码(YG)的汉字以及表示这些汉字序号的标点符号和相应的笔画码。整个提示行的显示内容如下面所示:
本发明:YG课,差6.艰9/酣11;酐17′讧61[讦67]戏96
这时用户要输入“课”字,可直接打结束键(空格);若要输入“差”字可用逗号键选择序号1即可键入该字,而无需打入“笔画码6+结束键”即可以用一键代替两键;当要输入“艰”或“酣”字时可用句号键或除号键作类似的选择;若要输入“酐”字可用分号键选择序号4即可键入该字,无需打“笔画码17+结束键”,即可以用一键代替三键;当要输入“讧”、“讦”或“戏”字时可用引号、左方括号或右方括号等键作类似的选择。这样不仅将较繁的笔画输入问题转换为简单的同部件码字的选择问题,使用户只需记住为数不多的、便于联想记忆的基本部件代码,而无需去记忆每个汉字的繁琐的笔画代码;而且由于可用一键代替两键或三键,使实际码长大为缩短,击键次数大为减少,从而使键入速度大大提高,即符合易学易记原则又满足了快速性的要求,可谓一举两得。
在实际的汉字输入系统中,通过设置或取消“笔画码提示”功能键,可以使提示行中紧随“同部件码汉字”之后的笔画码在需要时,例如初学本发明时,显示出来,而在不需要时,例如当对认知码有一定了解后,则被消隐,从而使屏幕提示简洁明了,可以更便于实际的使用和操作。
对本发明的重码自动区分技术内容的说明:
本发明是目前重码率较低的汉字编码方案,若采用一般的提示选择方法加以解决是完全可以的,但这样做相当于增大了码长,并不可取。为此本发明系统软件采用了上下文智能匹配分析方法让机器自动去解决重码区分问题,从而可省去敲入重码选择键,使系统性能进一步提高。具体实现方法及技术特征如下:
1、在汉字输入过程中,若遇非重码字且前面无重码字,则按一般情况处理,可直接输出屏幕。如果是重码字,则先与上下文作智能匹配分析,若能匹配构词,则按匹配构词调整输出;若不能匹配构词,则提示选择,这时用户可以不作选择直接输入下一字。
2、如果对前一重码提示未作选择就继续输入下一汉字,且不再是重码字,系统先作上下文智能匹配分析,若能匹配构词,就按匹配构词输出;若不能匹配构词则提示用户选择输出,但这种情况在连续文本输入时极少出现。
3、连续输入的两个字均是重码字,系统分析两者之间的搭配关系。若能匹配构词,则直接输出该词语;若不能匹配构词,则提示各种可能的搭配关系供用户选择,这种情况在连续文本输出时也极少出现。
此种上下文智能匹配分析的处理技术,在汉字连续文本录入过程中,可以基本解决汉字重码的自动区分问题。
实例如下:
①磷酸 SMX5 Y 58 W
②寥寥无几 B X X 3 B X X 3W19J89
③腹部 U 2 R WLKE
④显微镜 RY71 R S 1 WJLRE
⑤销声匿迹  J3USMKCSKIZ
其中有下划线的编码字磷(嶙)、酸(羧)、寥(瘳)、腹(鳆)、微(徽、徵)、匿(喏)是重码字,但这时用户可不必打入重码选择键,系统通过智能分析能做出正确的重码区分,从而减少了击键次数,进一步提高了系统的性能。
本发明的功能键定义内容是:
ALT+`  设置或取消“词语输入”的开关,
ALT+1  区位码(可以查认知码),
ALT+2  图形符,
ALT+3  认知码,
ALT+4  ACSⅡ码,
ALT+5  拼音码,(取消联想时可查认知码)
ALT+6  设置或取消“笔画码提示”的开关,
ALT+7  设置或取消“联想词语”的开关(取消联想时,可查认知码)
ALT+8  设置/取消标点的开关,
ALT+9  半角/全角开关,
ALT+0  设置/取消表格的开关,
ALT+-  Shift+F1~F10宏定义设置,
ALT+=  Shift+F1~F10利用文件的宏定义设置。
对笔画码提示功能  ALT+6的说明:
设置笔画码提示功能时,系统不仅提前显示“同部件码汉字”及该汉字的序号,而且显示该汉字在部件码之后的笔画码;
取消笔画码提示功能时,系统仅提前显示“同部件码汉字”及该汉字的序号,而不显示该汉字在部件码之后的笔划码。
对联想功能  ALT+7的说明:
设置时,可以联想27000个双字词,4500个多字词;
取消时,可由拼音码查出认知码。
当使用拼音查找本码时,提示行以下列形式给出相应的编码,如:
拼音码:hao→[汉字]壕←→[本发明]T2KS
同理,在区位状态下,查找认知码也是如此。
区位码:6767→[汉字]沣←→[本发明]3F7
对标点功能  ALT+8的说明:
取消时,输出半角西文标点;
设置时,可用以下各键输出全角中文标点:
西文标点键  中文标点  西文标点键  中文标点
,  ,  =  =
.  。  +  +
/  /  |  ÷
<  《  \  ×
>  》  !  !
?  ?  @  …
;  ;  #  .
'  ‘’  $  ¥
:  :  %  %
"  “”    ^‰
[  【】  &  ℃
]  *  *
{ {}  (  (
}  「」  )  )
- - ′
Figure 941054810_IMG146
-  -  ~  ~
对全角功能  ALT+9的说明:
设置时,系统输出全角字母、数字。
对表格功能  ALT+0的说明:
设置时,可用Shift键+各字母键输出制表符
左Shift+字母为细线,右Shift+字母为粗线
对宏定义:ALT+“-”(动态自定义词语,不存贮),临时造词的说明:
方式一:先按下ALT“-”键,再输入词串,最后按左Shift+F1~F10键。这时,输入词串中的前80字符(40汉字)即被赋给Shift+F1~F10键,以后用户就可以随时按右Shift+F1~F10键来输出该词串。
方式二:在任意的文本编辑器环境里,先将屏幕上光标移到词串首处,接着按下ALT+“-”键,然后移动光标到词串末尾,再按左Shift+F1~F10键,这时屏幕上的词串即被赋为Shift+F1~F10键,以后用户就可以随时按右Shift+F1~F10键来输出该词串。
方式三:先按左Shift+F1~F10键,接着输入词串,再按ESC键结束(ESC键作为词串结束标志),宏定义结果如前。
对宏定义:ALT+“=”通过读文件动态自定义词语的说明:
先按下ALT+“=”键,再按左Shift+F1~F10键,则系统将读取文件\RZM\RZSFT.F1~RZSFT.F10,并把对应文件中的前80字节作宏定义,以后用户即可通过按右Shift+F1~F10来调用已作宏定义的词串。
文件RZSFT.F1~RZSFT.F10可以是由任意文本编辑器编辑的文本文件。
对图形符输入  ALT+“2”的说明:
此功能可以使图形符存储区的区号加1,其中各区图形符号如下表所示。这时可用符号键=或-对各存储区的图形符实现翻页查找:对于不同版本的SPDOS,由于字库不同,对应的图形符也不完全相同。
下表列出的是SPDOS6.0F下的一区图形符:
空格  1  2  3  4  5  6  7  8  9
、  。  ·  ˉ  ˇ  ¨  〃  々  -
~  ‖  …  ‘  ’  “  ”  〔  〕  〈
〉  《  》  「  」  『  』  〖  〗  【
】  ±  ×  ÷  ∶  ∧  ∨  ∑  ∏  ∪
∩  ∈  ∷  √  ⊥  ∥  ∠  ⌒  ⊙  ∫
∮  ≡  ≌  ≈  ∽  ∝  ≠  ≮  ≯  ≤
≥  ∞  ∵  ∴  ♂  ♀  °  ′  ″  ℃
$  ¤  ¢  £  ‰  §  №  ☆  ★  ○
●  ◎  ◇  ◆  □  ■  △  ▲  ※  →
← ↑ ↓
Figure 941054810_IMG147
其它各区以此类推。
对同部件码字选择及联想选择的说明:
同部件码字选择键:
在本发明输入方式下,提示行中显示的所有同部件码汉字可根据其显示序号用同部件码字选择键进行快速选择和键入,这时右侧小键盘数字键也可以作为序号9~16的同部件码字选择键使用。
在其它输入方式下,大、小键盘的数字键定义不变。
联想选择:
在本发明输入方式或拼音输入方式下,每输入一个汉字后,通过系统的联想功能可以联想出与该字有关的各种可能的汉字及词语,并在提示行中给出,对所有联想汉字或联想词语的选择,也是根据它们在提示行中的出现序号用同部件码汉字选择键进行选择。
对同部件码及联想翻页用“-”和“=”键的说明:
当提示行中所提示的汉字数目超过屏幕所提供的显示宽度时,为了查找相应的汉字需要使用翻页功能:
=:翻到下一页
-:翻到前一页
对其它热键定义的说明:
1、ECS  造词开始和宏定义结束。
2、TAB  在认知码或拼音码的输入状态下实现动态转英文输入或回转,此键必须是在编码输入中间使用。
3、ALT+Z  动态转换,打开本系统/关闭本系统。
4、ALT+W存词语。
5、ALT+′用来设置或取消“词语输入”的功能。
对造词并存贮(建立扩展词库)的说明
通过造词并加以存贮可建立一个扩展词库,具体方法如下:
1、造词:输入待造词的编码+ESC+输入待造词语+ESC结束。
2、存贮:关机之前,按ALT+W将文件MYRZM.LIB写入磁盘(进入本系统之初会自动读入该文件)。
造词时,编码规则不限,本扩展词库可为拼音码、认知码共享检索,但拼音时不接受数字键。
其它
提前显示“同部件码汉字”的显示长度限制可以为16个汉字。
自定义词语的长度限制可以为40个汉字。
本发明的特点是具有规范性、易学性、快速性、兼容性、一致性和完备性。
规范性:本发明以国家文字改革委员会公布和发表的《汉字统一部首表》、《汉字末级部件组字频度表》作为选取部件的材料基础;本发明的合体字结构方式采用小学语文识字教学的间架结构划分规则;本发明部件的拆分规则符合小学语文教学大纲规定;上述措施使本发明在部件的选取,构字和拆分方面具有规范性。本发明以五个笔画部首作为基本笔画,并把“竖钩”归入竖笔;笔画的书写顺序依循《汉字属性字典》(傅永和先生主编);这两项措施使本发明对笔画的定义符合规范性。本发明在建立汉字库时既按照国标基本集(GB2312-80)和辅助集中给出的汉字进行编码码本的设计,同时又遵循1986年发布的《简化字总表》以及1955年发布的《第一批异体字整理表》的有关规定,使字库中的简化字、异体字具有规范性。
易学性:本发明的编码体系属于形码。本发明采用联想记忆的音形结合分类方式,符合小学生识字的认知心理模型,并为小学教学试验验证。在对计算机键盘上各键位分配码元的设计中,本发明采用了均衡分配原则,并提出以部件发音分类时,按名称拼音的第一、二字母进行分类的方案,其中将首字母为“Y”的部件分三类处理,使各字母键所承担的部件数量分配较为均匀,且使各字母键承担的部件的构字能力得到均衡分配;对没有名称且难以命名的复笔部件或虽有名称但直观上易于用笔画特征区分的复笔部件以形分类,按其笔画数目特征分别归类用数字键“2”、“3”、“4”、“5”作为代码键。上述部件分类系统由于较合理地利用了各个部件名称拼写的第一、第二字母以及复笔部件的笔画数目特征,不仅易于记忆,而且使300个左右的部件比较匀衡地分配在33个键位上,从而能较好地解决易学性好与重码率低之间的矛盾。
快速性:本发明采用不等长码,对33个高频字取一字一码;对700个左右的常用字取一字两码;对3000多个次常用字取一字三码;对其它的罕用字取一字四码。这样,对国标基本集的6763个汉字来说,可以做到静态平均码长为3左右,动态平均码长(考虑每个汉字的使用频度)在2.5以内。
本发明采用词语输入方式,词语编码的码长最大不超过四码。采用词语输入后,动态平均码长将可降到2以内。
本发明采用适当的编码措施,实现单字与词语混合输入,而无需按键切换;加上采用“键位动态定义”和“重码自动区分”等先进技术,可以进一步提高输入速度。
兼容性:本发明采用了国际通用的计算机键盘设计汉字编码输入系统,300个左右部件均衡地分配在24个拉丁文字母键和1-9九个数字键上,还予留“O”、“V”字母键给大字符集和全汉字集。因此具有兼容性。
一致性:本发明是以部件为主,笔画为辅的形码系统。本发明编码规则的一致性主要体现在以下几个方面:
(1)部件分类规则的一致性:对选定的部件集中的每个部件,按统一规则进行分类,没有不按规则的特殊分类;
(2)部件拆分规则的一致性:对具有同类结构方式的合体字按同样的规则进行拆分;
(3)笔顺规则的一致性:遵循规范的汉字书写笔顺规则,一旦掌握此规则,学生即能按正确笔顺书写出所有的汉字,除个别字以外,不要求学生逐个字地去死记笔顺;
(4)取码规则的一致性:对所有汉字的取码规则一致;对今后大字符集汉字的取码规则也和基本集汉字的取码规则相同。
完备性:本发明方案采用形码系统;精心选择形码部件,可用较小的部件集去覆盖全部汉字;精心设计部件分类系统,在符合容易联想记忆要求的前提下,使选定的部件集中的全体部件均衡地分配到33个键位上;在符合易学性的前提下,使静态平均码长为3左右,动态平均码长在2.5以下;制定的编码规则简单、明确,既适合汉字的基本集,同时也适用于大字符集和全汉字集。
本发明系统完全建立在汉字认知心理与认知模型的理论基础上,符合中小学生的认知特点并与小学识字教学规律相吻合,可使小学生在语文识字教学过程中很容易地掌握计算机汉字输入技能,并且终身不忘,对于在我国普及计算机技术具有划时代的意义。

Claims (4)

1、一种“认知码”计算机汉字输入系统,采用计算机国际通用键盘,对应26个拉丁字母键和1-9九个数字键设计码元,其汉字信息处理方式属于形码编码体系,包括形码部件的选取与归并、部件分类与键盘代码设计、汉字拆分规则和汉字编码规则,其特征在于:
(1)部件的选取、归并
a、部件的选取方法是:
从《汉字统一部首表》中选取所有独体字部首121个:乙,十,厂,卜,八,人,匕,儿,几,刀,力,厶,又,干工,土,大,尢,寸,弋,口,巾,山,夕,广,门,尸,己,弓,女飞,小,子,马,幺,王,无,韦,木,犬,车,戈,牙,瓦,止,日月,贝,见,牛,鬼,手,目,毛,面,气,长,虫,片,斤,爪,父,氏入,文,方,火,斗,户,心,母,水,示,甘,石,矢,生,龙,言,页业,豆,艮,皿,矛,田,耒,禾,白,瓜,鸟,立,疋,皮,耳,臣,西而,竹,臼,自,血,舟,衣,羊,米,聿,酉,豕,辰,里,身,豸,隹雨,非,鱼,革,毋,士,鹿,
复笔部首56个:
冂,凵,匚,冂,卩,刂,亻,ク,勹,亠,冫,讠,阝,廴,辶,艹,扌 ,彳,彡,犭,攵,饣,丬,忄,氵,宀,彐,
Figure 941054810_IMG3
,屮,纟,巛, ,夂,灬, ,礻,肀,罒,钅,疒,
Figure 941054810_IMG6
,虍,
Figure 941054810_IMG7
,衤,
Figure 941054810_IMG8
,, ,冖,厂, ,刀,├
和合体字部首7个:
穴、足、食、金、齿、麻、欠作为部件;
从《汉字末级部件组字频度表》中选取构字能力强、且为小学用间架结构进行识字教学所需要的独体字部首111个:
凹,巴,本,必,卑,半,白,才,册,产,虫,垂,串,丑,出,川,斥,电,东,刁,丹,丁,发,父,夫,弗,甫,丰,凡,市,更,果,丐,乎,亥,互,曷,函,以,义,亦,夷,尹,及,甲,久,兼,柬,戋,巨,堇,交,井,疌,了,两,乐,吏,民,末,买,内,乃,农,廿,平,求,丘,千,且,曲,冉,壬,世,史,巳,申,上,束,屯,头,于,禺,臾,我,戊,午,乌,亡,丸,为,未,习,尤,也,由,永,丫,曳,夭,央,之,重,专,兆,丈,乍,中,秉,戊,
和复笔部首:
Figure 941054810_IMG11
作为部件,
在不生造违反小学识字教学规律的部件的前提下,从一般常用字中选取24个独体字和合体字作为部件:
爱、安、奥、尔、易、令、今、离、去、佥、是、天、同、余、俞、予、万、罔、襄、有、用、叚、亚、尧;
b、对《汉字末级部件组字频度表》中的不成字部件进行合理归并,在归并时依据基于汉字认知心理的三条相似性原则:
轮廓框架相同,只是主要笔画之间比例关系不同的部件,仍视为同一类部件:
几( ),丁( ),冂(
Figure 941054810_IMG14
),十( ),口(囗),文(夊,夊,夂)
归并了八个部件:
轮廓框架相同,只是轮廓框架空间位置不同的部件仍视为同一类部件:
巾(屮,
Figure 941054810_IMG16
),冂(凵,匚,コ),片(爿,丬,
Figure 941054810_IMG17
),日(
Figure 941054810_IMG18
),山(彐,ヨ),月(
Figure 941054810_IMG19
),中(
Figure 941054810_IMG20
)
归并了十四个部件:
主要轮廓框架相同,只是次要笔画有差异的部件仍视为同一类部件:
Figure 941054810_IMG21
归并了六十二个部件:
(2)部件分类的方法和计算机键盘的代码设计部件分类的方法是:
采用以音联想为主,辅以形想的音形结合方式来建立部件分类系统:
a、音联想分类代码是:
把所有成字部件的表音符定义为相应汉字拼音的首字母,把有传统名称的不成字部件的表音符定义为该部件称拼音的首字母,当部件名称的拼音首字母为Y时,其表音符的定义分三种情况处理:
a)若Y后面的字母为I时,即该汉字或部件名称的发音为YI或YIN时,其表音符定义为I;
b)、若Y后面的字母为U时,即该汉字或部件名称的发音为YU、YUE或YUAN时,其表音符定义为U;
c)、若Y后面为其它字母时,其表音符定义为Y;然后按表音符将部件分类,该表音符就是相应部件的代码,依此建立起一套以音联想的部件分类子系统,该子系统除O、V字母以外,共含24个以拼音字母对应的拉丁字母为代码的部件子类;
b、形联想分类代码是:
首先把无表音符的基本部件,包括所有无传统名称又难以命名的不成字部件或虽有传统名称但直观上不易于用笔画特征区别的不成字部件,按其笔画特征分成联想的部件分类子系统的四个子类:
不含折笔的两笔部件用数字“2”作代码,
不含折笔的叁笔部件用数字“3”作代码,
不含折笔的肆笔及肆笔以上部件用数字“4”作代码,含折笔的复笔部件用数字“5”作代码,
再把五个单笔画部件作为单独的形联想笔画子类,采用数字“1”、“7”、“8”、“6”、“9”分别作为“横”、“竖”、“撇”、“点”、“折”五个单笔画子类的代码,其中将“竖钩”(1)笔画归为“竖”,总共使用了24个字母代码和9个数字代码,总数为33个代码,并将与之对应的计算机键盘上的字母键和数字键作为码元;
部件选取、归并与分类的具体内容如下表所列:
Figure 941054810_IMG22
Figure 941054810_IMG24
表中所列的字母“V”和“O”留作大字符集和全汉字集编码中使用,
表中的:卜(┣,┨)和艹(廾)(草字头)也可列入“不含折笔的两笔部件”类和“不含折笔的三笔部件”类;
(3)汉字拆分的规则有七项,分别是:
a、相离可分,即部件之间有相离关系的合体字可以拆分;
b、相接可分,即部件之间有相接关系的合体字可以拆分;
c、独笔可分,即合体字中的独立笔画可以拆分;
d、准独体可分,即准独体字可拆分为两个部件:其中一个是独体字或结构部首,另一个是不成字又不属于结构部首的单笔画或复笔部件;
e、交重不分,即部件之间有相交笔画或相重笔画(即存在公共笔画)的汉字不可拆分;
f、从少优先,即当汉字有两种可能的拆分方式时,优先选取能拆出较少部件的方式;
g、成字优先,即一个汉字若有两种可能的拆分方式,且两种拆分方式拆出的部件数也相同,则优先选取能拆出独体字或结构部首的方式;
(4)汉字编码规则有六项,分别是:
a、对33个高频字只取一码;
A爱,B不,C出,D的,E而,F发,G个,H和,I以,J就,K看,L了,M没,N你,P平,Q去,R人,S是,T他,U于,W我,X小,Y有,Z在,1一,2二,3三,4四,5五,6六,7七,8八,9九,其中字母O、V不作为高频字的代码;
b、对独体字编码:取表音符+首笔画码+末笔画码,即“独体音首尾”;
c、对两部件合体字编码:取部件1代码+部件2代码,即“合体两部件”;
d、对三部件合体字编码:取部件1代码+部件2代码+部件3代码,即“合体三部件”;
e、对四部件及四部件以上合体字的编码:取部件1代码+部件2代码+部件3代码+末部件代码,即、“合体四部件”;
f、按照小学识字教学关于间架结构中部件排列顺序的规定,确定合体字取码顺序。
2、如权利要求1所述的“认知码”计算机汉字输入系统,其特征在于键盘上的标点符号键具有动态定义,其方法是:
a、在输入一个汉字之前,标点符号键的定义与通常情况相同,即被定义为各种西文标点符号或中文标点符号;
b、在输入一个汉字的过程中,当需要对“同部件码汉字”作选择时,标点符号键位被定义为同部件码汉字专用选择键;
c、在输入一个汉字的过程中,当不需要对“同部件码汉字”作选择时,标点符号键位无定义,这时可用空格键输入待选汉字;
d、在完成一个汉字的输入之后,标点符号键位又恢复通常情况下的定义,即表示西文标点符号或中文标点符号。
3、如权利要求1所述的“认知码”计算机输入系统,其特征在于系统具有重码字的自动区功能,其方法是:
a、遇重码字,先与上下文作智能匹配分析,若能匹配构词,则按匹配构词输出;若不能匹配构词,则提示选择,这时用户可以不作选择直接输入下一字;
b、如果对前一重码提示未作选择就继续输入下一汉字,且不再是重码字,系统先作上下文智能匹配分析,若能匹配构词,就按匹配构词输出;若不能匹配构词则提示用户选择输出;
c、连续输入的两个字均是重码字,系统分析两者之间的搭配关系;若能匹配构词,则直接输出该词语;若不能匹配构词,则提示各种可能的搭配关系供用户选择。
4、如权利要求1所述的“认知码”计算机汉字输入系统,其特征在于计算机各功能键定义是:
ALT+′  设置或取消“词语输入”的开关
ALT+1  区位码(可以查认知码)
ALT+2  图形符
ALT+3  认知码
ALT+4  ACSⅡ码
ALT+5  拼音码(取消联想时可查认知码)
ALT+6  设置或取消“笔画码提示”的开关
ALT+7  设置或取消“联想词语”的开关(取消联想时,可查认知码)
ALT+8  设置/取消标点的开关
ALT+9  半角/全角开关
ALT+0  设置/取消表格的开关
ALT+-  Shift+F1~F10宏定义设置
ALT+=  Shift+F1~F10利用文件的宏定义设置。
CN94105481A 1994-05-31 1994-05-31 计算机汉字输入方法 Expired - Fee Related CN1038366C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN94105481A CN1038366C (zh) 1994-05-31 1994-05-31 计算机汉字输入方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN94105481A CN1038366C (zh) 1994-05-31 1994-05-31 计算机汉字输入方法

Publications (2)

Publication Number Publication Date
CN1104352A true CN1104352A (zh) 1995-06-28
CN1038366C CN1038366C (zh) 1998-05-13

Family

ID=5032087

Family Applications (1)

Application Number Title Priority Date Filing Date
CN94105481A Expired - Fee Related CN1038366C (zh) 1994-05-31 1994-05-31 计算机汉字输入方法

Country Status (1)

Country Link
CN (1) CN1038366C (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1997042563A1 (fr) * 1996-05-07 1997-11-13 Bo Li Methode de saisie de caracteres chinois avec une seule forme de traits

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100375947C (zh) * 2001-01-17 2008-03-19 李�诚 30键认知码汉字输入方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1997042563A1 (fr) * 1996-05-07 1997-11-13 Bo Li Methode de saisie de caracteres chinois avec une seule forme de traits

Also Published As

Publication number Publication date
CN1038366C (zh) 1998-05-13

Similar Documents

Publication Publication Date Title
CN1900886A (zh) 单击与多键并击混合输入中、英文的方法和键盘
CN1038366C (zh) 计算机汉字输入方法
CN1119759C (zh) 中文汉语到盲文的自动转换方法
CN1031302C (zh) 汉字部首分类编码输入方法
CN1163815C (zh) 汉语形声字输入方法
CN1154502A (zh) 教育规范五笔字型汉字输入法及其装置
CN1417674A (zh) 汉语音节双读方案和汉语键盘及其信息输入处理方法
CN1851620A (zh) 笔画汉字输入法及其专用键盘
CN1808355A (zh) 中文谐音输入法
CN1089919C (zh) 一种叠加式按形归类的文字拆分编码输入方法及键盘
CN1908870A (zh) 单击与多键并击混合输入中英文的方法和键盘
CN1529219A (zh) 语言码输入法
CN1054695C (zh) 计算机汉字八四码输入法及键盘
CN1121646C (zh) 写字码电脑汉字输入法
CN1025896C (zh) 新概念编码计算机汉字输入键盘
CN1116634C (zh) 一种汉字拼音语言文字编码的计算机汉字输入方法
CN1357814A (zh) 计算机汉语键盘及其汉语信息的输入和处理方法
CN1725156A (zh) 汉字输入方法及使用该方法进行输入的键盘
CN1065973C (zh) 音速码汉字输入方法及其输入键盘
CN1118740C (zh) 以字符底平线的基本单元结构形态选取代码的计算机汉字输入方法
CN1129836C (zh) 形意类字母汉字多功能输入法
CN1124539C (zh) 计算机汉字输入方法及键盘
CN1059280C (zh) 部首编码计算机汉字输入法
CN1399185A (zh) 整体汉字输入法及其键盘
CN1043209A (zh) 计算机汉字处理方法

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C14 Grant of patent or utility model
GR01 Patent grant
C19 Lapse of patent right due to non-payment of the annual fee
CF01 Termination of patent right due to non-payment of annual fee