CN1037599A - 笔顺结构六笔拼形汉字编码通用方案 - Google Patents
笔顺结构六笔拼形汉字编码通用方案 Download PDFInfo
- Publication number
- CN1037599A CN1037599A CN 89102870 CN89102870A CN1037599A CN 1037599 A CN1037599 A CN 1037599A CN 89102870 CN89102870 CN 89102870 CN 89102870 A CN89102870 A CN 89102870A CN 1037599 A CN1037599 A CN 1037599A
- Authority
- CN
- China
- Prior art keywords
- stroke
- radical
- word
- speech
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims abstract description 50
- 238000012163 sequencing technique Methods 0.000 claims description 9
- 238000003860 storage Methods 0.000 claims description 8
- 239000002023 wood Substances 0.000 claims description 8
- 239000002689 soil Substances 0.000 claims description 7
- 235000017166 Bambusa arundinacea Nutrition 0.000 claims description 6
- 235000017491 Bambusa tulda Nutrition 0.000 claims description 6
- 241001330002 Bambuseae Species 0.000 claims description 6
- 235000015334 Phyllostachys viridis Nutrition 0.000 claims description 6
- 239000011425 bamboo Substances 0.000 claims description 6
- 235000013339 cereals Nutrition 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 6
- 239000000203 mixture Substances 0.000 claims description 6
- 239000000463 material Substances 0.000 claims description 5
- 238000005096 rolling process Methods 0.000 claims description 5
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 5
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 claims description 4
- 240000007594 Oryza sativa Species 0.000 claims description 4
- 235000007164 Oryza sativa Nutrition 0.000 claims description 4
- 241000270708 Testudinidae Species 0.000 claims description 4
- 241000209140 Triticum Species 0.000 claims description 4
- 235000021307 Triticum Nutrition 0.000 claims description 4
- 229910052736 halogen Inorganic materials 0.000 claims description 4
- 150000002367 halogens Chemical class 0.000 claims description 4
- 235000009566 rice Nutrition 0.000 claims description 4
- 235000015170 shellfish Nutrition 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 3
- 239000003795 chemical substances by application Substances 0.000 claims description 3
- 239000010931 gold Substances 0.000 claims description 3
- 229910052737 gold Inorganic materials 0.000 claims description 3
- 238000002156 mixing Methods 0.000 claims description 3
- 239000004575 stone Substances 0.000 claims description 3
- 241000251468 Actinopterygii Species 0.000 claims description 2
- 241000238631 Hexapoda Species 0.000 claims description 2
- 241001494479 Pecora Species 0.000 claims description 2
- 239000008280 blood Substances 0.000 claims description 2
- 210000004369 blood Anatomy 0.000 claims description 2
- 230000000295 complement effect Effects 0.000 claims description 2
- -1 door=Door Substances 0.000 claims description 2
- 235000013305 food Nutrition 0.000 claims description 2
- 239000010985 leather Substances 0.000 claims description 2
- 235000013372 meat Nutrition 0.000 claims description 2
- 230000000877 morphologic effect Effects 0.000 claims description 2
- 230000006855 networking Effects 0.000 claims description 2
- 238000010422 painting Methods 0.000 claims description 2
- 238000003825 pressing Methods 0.000 claims description 2
- 238000009394 selective breeding Methods 0.000 claims description 2
- 241000282472 Canis lupus familiaris Species 0.000 claims 2
- 230000006870 function Effects 0.000 description 14
- 230000008901 benefit Effects 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 230000033228 biological regulation Effects 0.000 description 2
- 238000005266 casting Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 2
- 241000707825 Argyrosomus regius Species 0.000 description 1
- 244000236658 Paeonia lactiflora Species 0.000 description 1
- 235000008598 Paeonia lactiflora Nutrition 0.000 description 1
- 241001674048 Phthiraptera Species 0.000 description 1
- 208000037656 Respiratory Sounds Diseases 0.000 description 1
- 208000024780 Urticaria Diseases 0.000 description 1
- 229910052729 chemical element Inorganic materials 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000011109 contamination Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000012467 final product Substances 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000008595 infiltration Effects 0.000 description 1
- 238000001764 infiltration Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000010287 polarization Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000000746 purification Methods 0.000 description 1
- 206010037833 rales Diseases 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 239000003643 water by type Substances 0.000 description 1
Images
Landscapes
- Document Processing Apparatus (AREA)
Abstract
一种汉字的编码方案,它照顾到笔画、笔画关系、
笔顺、字根、字根方位关系等汉字的形体属性;根据汉
语表意的五个拼形层次,采取五种输入方法,单字击
键次数在11~2次之间;电脑键盘设计则根据字根
起笔、会意、形近来完成,用35个键,使用该盘可使接
受二次教育的时间缩到最短。
Description
为了电脑时代在中国的早日到来,为了统一中文信息处理领域(检字查字典、汉字电信码、电脑汉字编码)内的汉字编码,也为了使应用电脑而接受二次教育的时间缩到最短(并且这种教育不与汉字体系的本来属性相悖,可以与小学语文教育相结合),特发明了《笔顺结构六笔拼形汉字编码通用方案》。
汉字体系的字种为平面拼形表意面符。汉语的表意主要通过五个层次的拼形来实现:笔画拼形而为字根或子汉字;笔画与字根相拼而为汉字;字根、汉字之间相拼而为汉字;单字相连而为词、词组;字、词的组合而为句。根据汉字体系联系、联想、兼容、模糊的特点,结合汉语五层次的拼形规律,笔者提出了一个普及型的汉字编码通用方案。方案具体如下。
一类笔画码又称为检字码。2、二类笔画码(电信码):将折分为三类,
、、、
、乙、
为5;
、
为51;ㄑ、
为52。其余分类编码与一类笔画码相同。3、三类笔画码(电脑码):丶为1;一、乛依次为20、21;丨、亅、
依次为30、31、32、33;丿、
依次为40、41;
、、、
、乙、
依次为500、501…507;
依次为510、511…513;
依次为520、521;
、乚、
依次为60、61…64。关于笔画三类码见附图一(图中带※的笔画为笔者新增,其余的则据北京师范学院《语文基础知识》编纂)。对于笔画,它只有形状的区分而无大小的区别,所以在点类中,垂点、长点为竖(竖长点为竖);撇点,提点均为撇。在撇类中,斜撇、平撇和直撇均为撇。为了便于记忆,我们不妨给这六类笔画重新定义。凡笔画左上右下走向且收笔顿笔者为点;凡笔画主要部分水平者为横;凡笔画主要部分铅直,或虽非铅直,但起笔与终笔连线为铅直者为竖;凡笔画左下右上者为撇;凡笔画有死弯(笔折锋除外)者为折;凡笔画基本左上右下,收笔不顿者为捺。
二、笔画间的关系符号。笔画间的关系以符号表示。把符号写在某一笔画前面,它的意义是表示这一笔画与前
面已完成笔画(可能是一笔,也可能是几笔,一般情况为刚刚完成的笔画)间的明显关系。笔画间的关系可分为独立、粘连(单连、双连和多连,笔端相连,端身相连,身端相连)和交叉(单叉、双叉和多叉,正叉和偏叉)。书写时,若将完成的这一笔与已完成的笔画间有间隙、或虽无间隙但它们相连是由于压缩平面空间所造成的(如“林”字中左“木”中的点与右“木”中的撇相连就属于这种情况),则笔画间的关系为独立,用“0”表示;若笔画相接(与几个笔画相接,接于笔画的何部位均无关系),则称为粘连关系,用“-”表示;若将完成的某一笔画穿过已完成的笔画(穿过几个笔画,在笔画的何部位穿过均无关系),则称为交叉关系,用“×”表示。如果某一笔画与前面存在着两种以上关系时,则采用最明显的关系表示之,即依次选用“×”、“-”、“0”表示。如“王”字的第三笔与第一笔为粘连,与第二笔为交叉,则第三笔前应为交叉符号,用一类笔画码表示时为“202×3-2”。
三、独立字根间的方位关系符号。独立字根间的方位关系是指已完成的字根与未完成的靠近字根(即按书写笔顺它们靠近)在平面方位所处的关系。方位关系符号写在已完成字根的后面。由于字根间相互独立,所以方位符号与笔画关系符号“0”等同,它们在一定条件下可以相互
替代。若两字根处上下方位,则称为上下结构,用“=”表示;若两字根处左右方位,则称为左右结构,用“∥”表示;若两字根处非上下、左右方位,而是处相含方位,则称为包围结构,用“
”表示。关于包围结构需作如下说明:1、包围是指某些笔画集合体被其他的两面以上相连的笔画围着,且包围、被包围的笔画呈独立关系。如“看、有、匠、趋、鬼、网、凶、画、国、虱”等字为包围结构,“月、用”为独体字。2、若被包围部分,包围部分仍有平面方位结构,不复杂时用“0”表示,复杂时用方位结构符号。3、若包围部分的笔画书写不连续,“
”出现在先写笔画的后面。例:“囚”的一类码表示应为:“3-5
4-1-2”。另外,对于独体字及无法明确方位结构的字,不采用方位结构符号。对于孤点(上方、角上或被包围的单点)所处的方位,也不用方位符号表示,而是用“0”来表示。
四、汉字的编码。汉字编码实际上是按笔顺将组成单字的独立字根分开,横排成列,中间用方位关系的相应符号连接;同时,按笔顺将各字根的拆开笔画横排成列,用笔画关系的相应符号连接笔画代码。这就是给单个汉字进行编码的具体方法。依照此法可以方便地把平面拼形表意面符的汉单字变为横排的只有先后顺序的符号串了。这种
由十二个符号组成的单字编码,最大限度地保留了该字的形体信息量(笔画、笔顺、笔画关系及字根间的方位关系),它能更全面地反映该字的形体属性,并且象西文一样横排列。为了根据单字编码给汉字群定序,两种关系符号需要统一赋值。“0”与“=、∥、
”等价;“×”<“-”<“0”;“
”>“∥”>“=”。用三类笔画码和六个关系符号可以给汉字进行编码,根据符号值及笔画码大小,可以把全部汉字排成唯一的列(极个别汉字除外,如“土”和“十”类字,仍需人为定序),这种列是由汉字自身形体决定的,它是全部汉字的形体自然序。汉字群体自然序的具体确定:先按汉字笔画数(即汉字编码符号串的位数)粗给序;再按汉字编码符号串的大小细给序。存在一个汉字或产生一个汉字,它在这种序中就有一个确定的位置,而这种位置的确定完全是由它自己的形体决定的。增加或减少汉字的个数都不会使这种序发生大的变化。因此,此方案是立足于汉字体系这个整体的,它不仅能给现有的汉字定序,而将来产生的汉字也可以在现在确定的序中找到位置(就象化学元素周期表对未知元素定位一样),所以它不仅适用于今天,也适用于明天,它所具有的历史意义也因此而见。利用汉字体系的这种自然序可以实现汉字资料的各种检索。按这种序把汉字存入电脑,就可以根
据需要编纂体现汉字不同形体属性的字典。例如,可以按汉字的横存在数量排出一个字表;可以按会意部首排出一个字表(汉字中大部分部首是独立的);也可以按存在的字根个数排出一个字表;还可以有其他用途,找出具有各种形体特点的汉字来进行研究等等。
五、编码方案应用于检索汉字。用于汉字检索的主要是一类笔画码,表示单字主体结构的方位符号及其笔画数。对独体字则采用笔画关系中的“-”表示其结构,意思是整个汉字的笔画都粘连成一个整体了。方案具体如下:1、汉字的层第给序:根据起笔先对汉字进行A层给序,把汉字依次分为“丶”部、“一”部、“丨”部、“丿”部、“”部五大类;在A层给序的基础上进行B层给序,把每类汉字依次分为“一”独体部、“=”上下结构部、“∥”左右结构部、“
”包围结构部;在B层给序的基础上进行C层给序,在每一大部分里根据前六笔笔画的编码,依据码的大小排列成若干小部分,不足六位者低位充零;在C层给序的基础上进行D层给序,在每一小部分里根据汉字笔画数的多少分成许多更小的部分,笔画少的在前,笔画多的在后;在D层给序的基础上进行E层给序,在更小的部分里,根据六笔以后的笔画编码大小排列单个汉字。2、重码处理。在C、E层次给序中如遇重码,可
考虑进行F层给序,即用汉字形体的自然序码给重码汉字定序。3、编码位数。为了适应小学低年级学生的查找,每个汉字只须对它的前六笔进行编码,且采用三位一节的方法。4、字体标准。本方案以中小学课本和现行的印刷体字为标准。5、检索范例。查找一个生字,根据笔顺先给它的前六笔进行编码,再确定它的结构,最后数笔画数。例:查找“码”字,编码为“243,525”,结构符号为“∥”,笔画数为八画,连起来是“243,525∥8”,在字典中即可查出(假定的笔顺字典)。实际查找时,无须细数笔画数,只对待查生字的笔画进行大概地估计就可查找,因为前六笔的笔画、笔顺且结构相同的字并不多。6、字典印刷。在字典眉批上印上六位数码、主体方位符号及笔画数,以备查找。在字典中每个字旁印有含笔画二类码、笔画关系符号、字根的方位关系符号的符号串,作为该字的笔顺标志和电信码。该检字法适用于以汉字开头的各种文字资料(字、词典、人、地、书名索引)的检索,它是照顾汉字形体属性最多的一种检字法,它象拼音检索那样简单,又象四角号码检字法那样方便。以上文字为《笔顺结构六码六位检字法》的说明书。检索范例见附图二。
六、编码方案应用于汉字电信编码。按笔顺顺次排列
单字的笔画二类码,笔画关系及方位关系符号即为该单字的电信码。一般懂汉字常识的人稍经训练,都可以完成下面的工作。一方面,可以利用十二种符号,根据笔顺规则,对汉字进行看字编码,或想字编码;另一方面,也可以根据汉字书写规则、字根方位拼形规则,结合字根、汉字的形体印象,把表示汉字的符号串一笔一笔地写出来,经过整形、认定,即可准确地完成译码工作,得到正确的汉字。这后一方面的工作虽然只是看字编码的逆过程,但要比看字编码复杂些,它不仅涉及到汉字的拼形知识,还要涉及到汉字的使用知识,因为一些形近字(编码相同的字)要放到语言环境即上下文之中去确定。例如,对下面的一组编码“2×3×4∥1-20104-2=52×4×23-5-2-2×6 203-5-2×3-4-1
1-5-6 104∥5-2-2”只要动笔写一下,并把写出来的稍作比较,就可以确定它们是“接电速归”这样几个汉字。电信码作如下规定:“·”为点(滴);“-”为划(答)。1为“·-”;2为“··-”;3为“···--”;4为“····-”;5为“·····”;6为“-····”;0为“-----”;“=”为“·-·”;“∥”为“-·-”;“
”为“·--·”;“×”为“-·--”;“-”为“·-··”。这种规
定,数码沿用国际通用电码规定,其他五种关系符号为笔者所规定(用其他点划也可),也可用其他英文电码替代,“×”-X,“=”-B,“-”-I,“∥”-H,“
”-N。开始试用时可以把常用字根及使用频率较高的的字的编码做成卡片或小册子发行,以备使用者能够随时查考。刚实施肯定会不习惯,并认为烦琐,时间一长,习惯了就会感到很方便。这种电信编码,需要记忆的东西极少,且编码和译码均与汉字常识相吻合。它的使用会加强汉字基础知识的训练。该电信码方案的实施,可以减掉邮电部门那枯燥无味的译电工作,把编码和译码交给使用者;对拍发,邮送电报的人还可以起到短时保密作用,从而满足人们保密心理的要求;可以降低收发电报的费用,对于民用电信事业的发展将起到促进作用;对于少年儿童来讲,可以看作是一种有趣的智力游戏,把汉字的笔画、笔画关系、笔顺、方位结构教学形象直观地寓教于乐,为他们以后查字典、使用电脑打下了坚实的基础。此外,由于汉字电信码是汉字形体的又一种表达形式,所以它在电子译报、编码及汉字资料的自动检索方面应用前景也十分广阔;它的应用还能起到净化、精练书面语言的作用,尤其在中文信息交换领域内是这样。以上一、二、三、四、六为《DL汉字电信码》说明书。
七、编码方案在电脑上的应用
1、汉字的机内代码(也可以作为汉字电脑存储地址码)。机内码采用汉字形体自然序码,即采用笔画三类码及六个关系符号。同时,对汉字的词类、词性应有标志加以区别。汉语的词可分为实词、虚词两大类,不妨用“1”表示实词,用“0”表示虚词。实词分为名、动、助动,形容、数、量、副、代词,依次在“1”后面用“0、1…7加以区分;虚词又分为介、连、助、语气、叹词,依次在“0”后面用“0、1…4”加以区分。例如:“01”表示虚词中的连词,而“10”则表示实词中的名词。把表示词性的两位数放在每个汉字编码符号串的后面。对于多音节的词,把表示词性的数码放在该词的最末一个汉字编码符号串的后面,对于中间汉字的词性则不予表示。关于词性的确定,应以词的常用词性来表示。对于词性的转变,则放到语法层次上去考虑。
2、汉字的输入方案。由于汉字形体信息量很大,输入时,完全不必要把单字形体的全部信息都加以输入,而只是依一定规则提取单字的部分形体信息加以输入。
A、键盘。本方案采用西文机现有的字母数字键盘。用35键,其中26个字母键(20个纯字根键,6个笔画字根键),6个数码键(关系符号键)和3个功能键。
把171个字根按起笔、形近、会意和笔画繁简的原则排在26个字母键上。下面说明中,字符下方的“·”表示该字符为键的主符,数码为该键的编号。
13 W:主、亠、广、云、文、方、礻;
14 Q:走、讠、言、之、辶、廴、足;
21 U:土、二、寸、扌、才、井、十;
23 O:石、工、下、正、戈、戋、王;
31 F:水、氺、小、丬、上、止、山;
33 S:田、目、且、皿、四、西、里;
34 A:日、贝、见、内、由、天、云;
41 J:月、、、牛、矢、乍、生;
42 K:人、亻、儿、个、几、毛、隹;
43 L:白、
、夕、夂、勹、勺、刀;
50 V:
、ㄋ、冂、凵、厶、、
;
51 C:又、己、已、巴、尸、弓、民;
52 X:女、卩、阝、耳、彐、母、
;
53 Z:也、马、攵、力、纟、出、艮;
60 B:
、气、斤、及、钅。
方位符号“=、∥、
”依次占据数码“5、6、7”;笔画关系符号“×、-、0”依次占据“8、9、0”位置。另外,“字完成”、“词完成”、“句完成”功能键依次占据“=、∧、/”键。原计算机的这几个功能键,也可占据其他用途少的键。具体排列见附图三。
B、输入方法。汉字输入采用五种方法,且共用一个键盘。低级方法可渗透到高级方法中去。方法具体如下:
(1)笔画拼形输入法:按笔顺顺次击单字的第一、二、末三个独立字根的前两笔的笔画,笔画间的关系及第一、二独立字根后的方位关系符号。例:“部”应击“1-2=3-5∥5-3”。对于只有两个独立字根的单字则少击两个笔画键、两个符号键(一个笔画关系符号、一个方位关系符号),即只击这两独立字根的前两笔的笔画,
笔画关系及两独立字根的方位关系键。若独立字根只有一个笔画(点不算独立字根)时,则只击该笔画,例:“画”为“2=3-5
5-3”。对于独体字,击该字前六笔的笔画及其笔画关系,对于不足六笔的独体字,击出全部笔画及其笔画关系。运用笔画拼形输入法,单字最多击键11次。
(2)字根拼形输入法:只须按笔顺击单字的第一、二、末三个独立字根及前两个字根后的方位关系符号,例:“接”为“扌∥立=女”。对于只有两个字根的单字,只击该字的两个字根及它们之间的方位关系符号;对于独体字可按笔顺在该字的一、二、末三个字根间用笔画关系“×”、“-”、“0”相拼击出,末字根前的笔画关系符号由该字根的首笔前的笔画关系决定;不足三个字根的独体字可用仅有的字根相拼击出,例:“秉”为:“禾×彐”;“关”为:“
-天”。若键上有某一字时,输入时只击一次即可。注意:笔画拼形时应注意笔画,字根拼形时则不必注意笔画的变化,字根拼形应注意汉字的变体。例:捺变点:人、火、大、木、禾、文、米、八、又、失、艮、皮等字根在作旁时末笔捺变点;横变提(撇):王、土、耳、子、车、女、牛、工、正、止、皿、血、且、马等字根在作旁时末笔均变提,用字根输入可不考虑
这些变化。汉字变体与汉字通用:犬=犭,月=月=肉,饣=食,人=亻=入,小=,几=几,八=丷(※),土=士,纟=糸=幺,天=夭,韦=韋,日=曰,贝=貝,见=見,四=
,西=覀,已=己=巳,钅=金,门=門,竹=,页=頁,亦=
,=羊=,鸟=鳥,足=,马=馬,氵=水(※),讠=言,刂=刃,丬=爿,忄=心=
,刀=,扌=手=,
=廿,七=匕,里=
,毛=
,爫=爪,彐=
=彑,卜=
,口=囗,
=
,
=屮=巾,
=聿=肀,龙=龍,亚=亞,車=车,卤=鹵,鱼=魚,龟=龜,麦=麥,风=風,齐=
,黾=
,齿=齒,子=孑=孓(注:※表示两个字根已排在两个键上了,使用时最好加以注意)。上述画等号的字根,当输入一个时,也同时输入了与它相等的字根,它将根据需要加入到拼字中去,这样就把简体字、繁体字混合在一起输入了。字根拼形,单字最多击键5次。
(3)笔画字根混合拼形输入法:对于不存在的字根(键盘上只收入高频字根),可先用前两笔的笔画及其关系符号相拼为字根(简单字根),或将笔画与字根、字根与字根用“×”“-”“0”相拼为新字根(较繁字根),然后再按字根拼形法输入,应用上述三种拼形法输入,当字拼成后,须击“字完成”功能键。汉字拼形输入单字的方
法具有一定程度的任意性,同一个汉字可以用两种以上的方法输入电脑,因汉字的字根本身就非一明确的概念,它具有某种程度的模糊性,它可由笔画相拼产生,也可由其他字根相拼得到,且汉字与字根间的界限是很难区分的,我们只能追求一定程度的精确和模糊状态下的明确,所以,每个人都可以按照自己的习惯去拼汉字,输入电脑之中。
(4)字根拼词输入法:对于多音节的词、词组的输入,不管字数多少,只须击第一、二汉字的首独立字根和末汉字的末独立字根,对于双字词,击首字的首独立字根、次字的首、末独立字根;对于词中的独体字,可按笔画拼形,字根拼形及混合拼形完成它,对于不存在的字根可用混拼法去完成它,然后再按字根拼词法输入。例:“中华人民共和国”拼时为:“中、亻、王0、”。字根拼词输入法,单字平均击键3次,词拼成时击“词完成”功能键。
(5)词拼句输入法:分为实词输入法和根词输入法。实词输入法只须按字根拼词法输入实词,对于虚词则靠电脑根据表意及语法规则去填充,使用者只须检验并选择显示结果;根词输入法。只须按字根拼字法输入根词(绝大部分为单字),而对于前缀、后缀字则靠电脑根据表意,语法规则、语言环境去选择,可能的结果由使用者认定,对于构词能力极强的根词,可以采用实词输入法。使用这两
种方法时,当字词拼成时应击相应功能键,句末的字、词完成时击“句完成”功能键。词拼句输入法,单字平均击键2次以下。
(6)重码处理:采用上述方案输入汉字肯定会出现重码,这是很自然的现象,由于汉字容易识记而不容易书写,所以人工选择并不占用更多的时间(对自己意中的字、词组及句子的选择一般不会超过0.2~2秒)。重码现象还可以用电脑来克服,原因是这样的,在现代汉语中,任意汉字的组合不一定能成词表意,任意词的连结不一定能成句,词作为句子的主要材料是有一定限制的,字作为词的材料也是有限制的(单字也作为词出现在句子里),利用这两种限制就可以让电脑去选择,具体方法如下:“字完成”连击二次,电脑则选择刚输入的单字,“词完成”连击两次电脑则选择刚输入的词;“字完成”、“词完成”连击,电脑则选择两“词完成”间或前面的“、”“,”“?”“。”“!”与“词完成”间的字。对“词完成”、“句完成”连击则电脑选择词、词组的方式与上述类似。电脑选择的依据见下文。
为了便于记忆,特把上述主要内容整理如下:汉字编码本不难,笔画分类第一关。关系符号来定义,确定顺序闯难关。捺六折五撇是四,点一横二竖为三,上下左右又
包围,独立交叉并粘连,方位结构分群笔,笔画关系夹中间,笔顺排列笔画码,单字代码照此编。检索汉字信息少,六笔编码在首端,笔画数目在最后,主体结构中间担。电信编码最简单,代码符号用得全。电脑编码不复杂,输入方法和键盘。关系符号占上边,六类笔画在中间,左边点折还有竖,右方横撇捺一键。足走言之文主示,羊立米门
Q W E R
火雨点。横了二寸土草木,石戈王正豕大犬。日见天云且
T Y U I O P A
西田,口可占中上水山。竖心少卜七八撇,牛生月失人几
S D F G H J K
个。刀夕白勺长禾用,金捺及厂子不欠。折冂巴弓民又已,
L N B M V C
母女耳彐也出艮,输入方法很简单,总按笔顺来击键。汉
X Z
字字根分独立,独立字根一二三,前两字根首和次,第三字根在末端。笔画拼形前两笔,关系符号将其连。字根拼形手续减,方位字根总相间。混合拼形方法俏,拼字词组全用到。字根拼词击键少,关系符号省去了。词组拼句进词字,虚词缀字靠电脑。字、词完成击两次,刚输入的选择好。字、词完成若连击,选字范围扩大了。词句完成若
连击,择词范围大且巧。
3、建立多路汉字、词、汉语规则、键盘使用方法存储网络。本文只涉及汉字、词库等的存储内容,并不涉及其他方面的细节。
A单字库。单字库中的汉字按字根拼形输入法建立相应的排列。首先按汉字的起笔、方位结构(独体、二个独立字根、三个以上独立字根)分层次粗给序;其次在粗给序的基础上按三个独立字根前两笔的笔画编码进一步给序;最后按汉字形体自然序码定序。“小(少)的在前,大( )的在后”是诸层次汉字排列的总规则(以下同)。
B多音节词、词组库。(1)按字根拼词法建立相应的词排列,先按字数粗给序,然后按词中第一、二汉字首字根,末字的末字根的编码符号串细给序,对于双字词也取相应的字根进行编码定序。(2)以字带词的存储。有两种方式,一种是按首字排定的序(汉字形体自然序列)存储词、词组(例如词典);另一种是按根词(单字)排定的序来存储词、词组。
C汉语常识、规则、键盘使用方法库。该库将汉语使用的一般常识、规则存储进去,并把汉字输入方法也存储进去,是电脑进行思维、完成比较、纠正错误的依据,同时也可为初学者提供学习方法。(1)汉字拼形规则:包括书
写规则、笔画关系、字根方位组合及与这些规则相对应的范例(笔画关系的各种情况,汉字全部字根,方位组合的全部可能情况等)。它是作为汉字单字库、输入、输出之间的过渡规则库,以完成可能汉单字的输出准备工作。(2)拼词规则:对组词材料(单字)的限制是拼词的主要规则,它还包含语法规则(与成句规则的语法规则中的语法规则共用)和组词范例(词组类型):主谓、动宾、联合、偏正、后补、连动、兼语、同位、数词词组、数量词组、指量词组和介词结构等。它作为输入、输出、字库、词库的中间环节,用以调节指令与词的输出、选择成词的单字,以保证有符合词法规则的汉字组合的输出。(3)成句规则,基本句型:主+谓,主+谓+宾,状+定+主+状+定+宾……,无主句,短语式;语法规则:主、谓、宾、定、状、补语的定义,标志,用法,构成材料限制,词性的转化;关联词、助词填充;以及与上述语法规则相对应的范例等。此外,还要有标点符号规则,分段规则(成文小规则)。成句规则作为输入、输出、字库、词库、成词规则,拼形规则之间的中介环节。它在择词、选字,克服重码现象上将起很大作用,同时提供给使用者符合语法规范的句子,以供认定。(4)五种输入方法的存储,以完成对输入指令的检查及对错误的报警。
本方案的实质性特点和优点是很突出的。首先,它最大限度地照顾了汉字的形体属性(笔画、笔画关系、笔顺、字根及字根间的方位关系),并从汉字的形体属性出发,根据汉语表意的五个层次,采用五种拼形输入方法;其次,它充分体现了汉字体系的联系、联想、兼容和模糊的特点,三种类码依次为基础,五种方法相互联系、交插、渗透,同一个汉字可以用两种以上的方法进入电脑;再就是它的键盘根据形近原则,融合部首检字法优点,符合人们认字、用字习惯,使用者无须记背键盘,使用该盘可以使受二次教育的时间缩到最短,并且这种教育完全能够与小学的语文教育相结合,从而使应用电脑的教育从儿童时代就开始了;该方案通用于懂汉字常识的任何人,通用于中文信息处理领域,也通用于普及和提高(不同知识层次的人有不同的输入速度);它把“极易掌握”与“高速输入”有机地结合起来,在极易掌握的前提下达到高速输入之目的。总之一句话,该方案的实施能够改变目前汉字编码的混乱局面,统一中文信息处理领域内的汉字编码,这无疑会给人们带来极大的方便。人们使用起电脑来,将会象使用纸和笔一样方便、简单和有效。为了电脑时代在中国的早日到来,为了中华民族文化的振兴、繁荣和发展,愿该方案能尽它的微薄之力。
Claims (8)
- 一种汉字编码的方案,其特征在于:
- 2、将公知的笔画间的交叉(单叉、双叉和多叉,正叉和偏叉)、粘连(单连,双连和多连,笔端连和端、身连)、独立关系依次用符号“×”、“-”、“0”表示,符号用在某一笔画前,表示该笔画与前面已完成笔画所存在的明显关系。符号大小关系为:“×”<“-”<“0”。
- 4、汉字编码。按笔顺将组成单字的独立字根分开,横排成列,中间用方位关系的相应符号连接;同时,按笔顺将各字根的拆开笔画横排成列,用笔画关系的相应符号连结笔画代码,即为单个汉字的编码。用三类笔画码和两种关系符号可以给全部汉字编码,并能按码大小把它们排成唯一确定的列。这种列是由汉字自身形体决定的,因此称它为汉字的形体自然序。
- 6、汉字编码用于电信。按笔顺顺次排列单字的二类笔画码、笔画关系符号及方位关系符号即为该单字的电信码。十二个符号中七个数码可用国际通用的数码点划拍发,其余五个符号可选用合适的英文字符的点划代替或重新规定。以上的一、二、三、四、六为《DL汉字电信码》权力要求。
- 7、汉字编码用于电脑。1、汉字的机内代码用汉字形体自然序码,并把公知的词类、词性用两位数码表示,置于单字、词及词组编码符号串的后面。2、汉字输入方案。A、键盘。将六类笔画及公知的171个字根排于26个字母键上13 W 主、亠、广、云、文、方、礻、14 Q 走、讠、言、之、辶、廴、足;21 U 土、二、寸、扌、才、井、十;22 I 木、艹、、 、疋、皮、革;23 O 石、工、下、正、戈、戋、王;24 P 犬、大、尤、 、豸、豕、鸟;30 G 丨、 、卜、忄、刂、心、少;31 F 水、氺、小、丬、上、止、由;32 D 口、中、虫、占、 、可、古;33 S 田、目、且、皿、四、西、里;34 A 日、内、贝、见、由、天、云;41 J 月、、、牛、失、乍、生;42 K 人、亻、儿、个、几、毛、隹;43 L 白、 、夕、攵、勹、勺、刀;51 C 又、己、已、巴、尸、弓、民;53 Z 也、马、攵、力、纟、出、艮;“=、∥、 、×、-、0”依次置于数码5、6、7、8、9、0键,“字完成”、“词完成”、“句完成”依次置于“=、∧、/”键。应用字根拼形、字根拼词输入时,请注意汉字字体的变体:犬=犭,月=月=肉,饣=食,人=亻=人,小=,几=几,土=士,纟=糸=幺,天=夭,日=曰,贝=貝,见=見,四= ,西=覀,己=已=巳,钅=金,门=門,竹=,=羊=,刂=刃,鸟=鳥,足=,马=馬,扌=手=,讠=言,丬=爿,忄=心=,刀=,=廿,匕=七,里= , =毛,彐= =彑,卜= ,口=囗,车=車,子=孑=孓,八=丷,韦= ,页=頁,亦= ,氵=水,爫=爪, = , =屮=巾,肀= =聿,龙=龍,亚=亞,卤=鹵,鱼=魚,龟=龜,麦=麥,风=風,黾= ,齿=齒。输入上述一个字根时就同时输入与它相等的字根。在输入字根时可不考虑笔画的变化:人、火、大、禾、木、长、文、米、八、又、矢、艮、皮字根在做左旁时捺变点;王、土、耳、子、车、女、工、正、止、皿、血、且、马字根在做左旁时末笔横变提。在用笔画拼形输入时必须考虑这些变化。B、输入方法。(1)笔画拼形输入:按笔顺顺次击出单字的第一、二、末三个独立字根的前两笔的笔画、笔画间的关系及第一、二独立字根后的方位关系符号键;对于有两个独立字根的字,则较前少击两个笔画、两个符号键;若独立字根只有一个笔画时,则只击该笔画(点不算独立字根);对于独体字,击该字前六笔的笔画及其笔画关系;若独体字不足六笔者,击出全部笔画及其笔画关系。(2)字根拼形输入:按笔顺击单字的第一、二、末三个独立字根及前两字根后的方位关系符号键;对有两独立字根的字,少击一个字根、一个方位关系符号键;对于独体字按笔顺在一、二、末三个字根间用笔画关系相拼击出,末字根前的笔画关系由该字根首笔前笔画关系决定;不足三个字根的独体字可用仅有字根相拼。(3)笔画字根混合拼形输入:对于键盘上不存在的字根,可用前两笔的笔画及其关系符号相拼为字根(简单字根)、笔画与字根或字根与字根用笔画关系相拼为新字根,然后按字根拼形法输入。应用上述三种拼形法输入时,当字拼成后击“字完成”功能键。(4)字根拼词输入:击词、词组中第一、二汉字的首独立字根、最末字的末独立字根键;对双字词,击首字的首独立字根,次字的首、末独立字根;对于独体字及键盘上不存在的字根按笔画拼形、混合拼形处理,完成后再按拼词法处理。词完成时击“词完成”功能键。(5)词拼句输入:实词拼句,按拼词法完成实词输入,对于虚词靠电脑填充;根词拼句,按拼字法完成根词输入,其余部分用电脑选用。使用这两种方法,当字、词完成后击相应的功能键,句末的字、词完成时击“句完成”键。(6)重码处理:用人工选择和电脑选择处理重码。电脑重码处理:“字完成”连击两次,电脑则选择刚输入的字;“词完成”连击两次,电脑则选择刚输入的词;“字完成”“词完成”连击,电脑则选择两“词完成”间、前面的“、”、“?”、“!”、“。”、“,”与“词完成”间的单字;“词完成”“句完成”连击,电脑则选择两“句完成”间、前面的“、”、“?”、“!”、“。”、“,”与“句完成”间的词、词组。3、建立多路汉字、词、汉语规则,键盘使用方法存储网络。A、单字库:按字根拼形输入法建立相应的汉字排列,把排列好的单字进行存储。B、词库:(1)按字根拼词输入法建立相应的词排列,然后存储词条。(2)以字带词存储,按单字的形体自然序排列的首字、首字带词存储词条;根词带词存储词条。C、汉语规则:(1)拼字规则:将公知书写规则、笔画关系、字根方位组合情况、全部字根及与这些规则相对应的范例存储进去。(2)拼词规则:拼词材料限制及词组类型。(3)成句规则:主、谓、宾、定、状、补语定义、标志、用词限制;基本句型;词性转化;关联词、助词填充及与上述相对应的范例。此外,还有标点符号使用规则和分段规则。(4)五种输入方法的存储。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 89102870 CN1037599A (zh) | 1989-05-01 | 1989-05-01 | 笔顺结构六笔拼形汉字编码通用方案 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 89102870 CN1037599A (zh) | 1989-05-01 | 1989-05-01 | 笔顺结构六笔拼形汉字编码通用方案 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1037599A true CN1037599A (zh) | 1989-11-29 |
Family
ID=4854882
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 89102870 Pending CN1037599A (zh) | 1989-05-01 | 1989-05-01 | 笔顺结构六笔拼形汉字编码通用方案 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1037599A (zh) |
-
1989
- 1989-05-01 CN CN 89102870 patent/CN1037599A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102073386A (zh) | 一种象形会意分类字根的汉字计算机输入法 | |
CN1037599A (zh) | 笔顺结构六笔拼形汉字编码通用方案 | |
CN1147777C (zh) | 计算机汉字输入方法 | |
CN101093421A (zh) | 汉字的四笔层次形码及形音的数字编码输入方法 | |
CN1020386C (zh) | 结构笔画四位数编码法及键盘 | |
CN1125393C (zh) | 利用计算机键盘汉字编码输入方法 | |
CN1081004A (zh) | 汉字结构笔顺数字编码方法 | |
CN105278697B (zh) | 组合式双拼类主副码汉字、词语编码输入法及其键盘 | |
CN102043469A (zh) | 两笔型三维数码输入法及其键盘 | |
CN1020136C (zh) | 经纬编码法及其汉字输入键盘 | |
CN100397307C (zh) | 计算机笔画部首二元码汉字输入方法 | |
CN1058109A (zh) | 七笔声形输入法 | |
CN1118084A (zh) | 形声码 | |
CN1067476C (zh) | 九三码汉字输入方法及键盘 | |
CN1123817C (zh) | 一种汉字输入法 | |
CN1068947C (zh) | 一种形声及形形结合的计算机汉字输入方法 | |
CN1120406C (zh) | 计算机汉字部首输入方法 | |
CN1360246A (zh) | 汉字编码数字化及其使用方法 | |
CN1079161C (zh) | 一种声形结合的计算机汉字输入方法 | |
CN1164700A (zh) | 通用普及型音元形音汉字编码输入方法 | |
CN101236460B (zh) | 一种通过计算机字母键盘输入汉字的方法 | |
CN1233794A (zh) | 一套汉字编码输入法及其键盘和检字法 | |
CN1160243A (zh) | 字形笔顺码汉字输入系统及其键盘 | |
CN1295274A (zh) | 佳法码 | |
CN1067753A (zh) | 电脑汉字象形编码法及其键盘 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C06 | Publication | ||
PB01 | Publication | ||
C01 | Deemed withdrawal of patent application (patent law 1993) | ||
WD01 | Invention patent application deemed withdrawn after publication |