CN1054446C - 一种合成编码的计算机汉字输入方法 - Google Patents

一种合成编码的计算机汉字输入方法 Download PDF

Info

Publication number
CN1054446C
CN1054446C CN96115986A CN96115986A CN1054446C CN 1054446 C CN1054446 C CN 1054446C CN 96115986 A CN96115986 A CN 96115986A CN 96115986 A CN96115986 A CN 96115986A CN 1054446 C CN1054446 C CN 1054446C
Authority
CN
China
Prior art keywords
code
word
chinese character
chinese
font
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN96115986A
Other languages
English (en)
Other versions
CN1152742A (zh
Inventor
赵光锋
林钧昌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qufu Normal University
Original Assignee
Qufu Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qufu Normal University filed Critical Qufu Normal University
Priority to CN96115986A priority Critical patent/CN1054446C/zh
Publication of CN1152742A publication Critical patent/CN1152742A/zh
Application granted granted Critical
Publication of CN1054446C publication Critical patent/CN1054446C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本发明涉及合成编码法及汉字输入键盘,属于计算机汉字输入技术领域。将汉字的声母作为第一位编码,其后是形码,在不少于30个键位的键盘上,声母zh、ch、sh分别对应U、O、V,其余声母与英文字母键一一对应,取汉字五种基本笔划横、竖、撇、点、折,代码依次为1、2、3、4、5,形成拼音拼形组字组词的汉字编码法及输入键盘。本发明码长短,字根少,音形结合易学易记,适用于计算机汉字系统及有关设备中。

Description

一种合成编码的计算机汉字输入方法
本发明涉及合成编码法及汉字输入键盘,属于计算机汉字输入技术领域。
汉字是中华民族勤劳智彗的结晶。汉字的发明和使用是中华民族对人类文明的卓越贡献。同时,汉字也为几千年来中国的进步发展、繁荣昌盛、团结统一做出了巨大的贡献。然而,在人类文明步入了以计算机为标志的信息时代的今天,汉字因其大字符集的固有特性而使汉字的计算机信息处理比拼音文字的计算机信息处理要困难得多。这种困难集中体现在将中文信息的文字材料输入到计算机内的过程上。众所周知,用计算机进行信息处理的第一步就是将基本的文字材料输入到计算机中去。因此解决汉字输入问题是实现用计算机对汉字信息进行快速处理的关键。
随着微型计算机的普及,信息处理的发展,特别是伴随着对汉字信息处理的研究中,人们探讨过许多汉字输入方案。最初人们设想过用大键盘的方式解决汉字输入问题。但是这种方案很快就被否决了。因为这种方案是建立在一字一键的基础上的,对于成千上万个汉字来说就需要成千上万个键与之对应,例如我国于1981年颁布的《信息交换用汉字编码字符集基本集》(即GB-2312)中共收入6763个基本汉字,为这些汉字设计的大键盘将有几千个键位。这样的键盘既不利于汉字集的扩充也不利于提高输入速度。据日本实用字研究协会的统计,具有26个键位的英文字母数字键盘的击键速度是每分钟450次,有50个键位的键盘的击键速度是每分钟250次,当键位数达到2000时击键速度只有每分钟50次。因此大键盘的思路是难以行得通的。
大键盘的思路被否定之后,人们自然地转到利用已有的在计算机上广泛使用的小键盘来输入汉字的思路上。现有的小键盘上的键位充其量不过一百个左右,要输入成千上万个汉字就需要建立一种被称为汉字编码的键位组合到汉字的对应。经过许多专家学者十几年的辛勤探索,迄今为止,已经出现了数百种汉字编码方案,其中在微型机上常见的诸如拼音输入方案、区位码、电报码、自然码、五笔字型、大众码、表形码等优秀编码方案却不过十几种。这十几种编码方案各有特色各有优缺点。在这些编码方案中,有只利用汉字的字音属性的,如拼音输入方案;有只利用汉字的字形属性的,如五笔字型;有既利用汉字的字音属性又利用汉字的字形属性的,如自然码;有既不利用汉字的字音属性也不利用汉字的字形属性的,如区位码和电报码等。
一套汉字编码方案的优劣大体上应从两个方面来考虑,其一:是否易学易用,其二:是否有较高的输入速度。影响易学程度的关键因素之一是编码规则的繁简程度及其记忆量的大小。影响输入速度的因素主要是重码率,码长、码元数、码元的键位布局、编码方案中包含的词组数等也对输入速度有影响。
编码方案的记忆量是指掌握该编码方案需要记忆的内容的数量。要掌握拼音输入法即使对于只接受过初等教育的人来说也几乎不需要记忆任何内容,因此拼音输入法是最容易掌握的,是迄今为止拥有最多使用者的汉字输入法。一般说来,编码规则简单则编码方案的记忆量就少,编码方案就容易被掌握。但是情况并非总是如此,尽管区位码和电报码输入法的规则很简单,但这种规则的简单是建立在必须记住每个汉字的代码的基础之上的,要熟练地使用它们就必须记住每个汉字的代码,所以这种汉字编码方案的记忆量是非常巨大的,以至于今天使用这种输入法的人廖廖无几。显而易见,一套容易掌握的汉字编码方案是那种编码规则简单同时记忆量又少的编码方案。
重码率是衡量使用同一代码的汉字的多少的一个指标。如果有多个汉字使用同一代码,那么当输入这个代码后并不能立即输入需要的汉字,尚需要从这个代码对应的几个汉字中挑选出所需要的汉字。重码率越高,花费在这种挑选上的时间就越多,当然输入汉字的速度也就越低。因此一套具有较高输入速度的汉字编码方案必然是一套重码率低的编码方案。
码元是指汉字代码使用的符号。在现代汉字计算机编码方案中一般利用标准键盘上的符号。因为码元少占用的键位就少击键速度就快,所以在保证人手十指合理分工并保证重码率充分低的前提下汉字编码中使用的码元越少,汉字的输入速度就越快。码长是指一个汉字的代码中所含的码元的个数。显然,较短的码长会有较高的输入速度。另外码长较短还有一个优点,就是易于编码方案在计算机上的实现同时在实现后有利于节约计算机的内存。区位码和电报码输入方案的码元少,码长很短且整齐,所有汉字的代码皆由四个码元构成。同时在这两种方案中没有重码,从理论上说,如果熟记所有汉字的区位码或电报码,那么使用它们输入汉字的速度将是很快的。但是要记住几千个汉字的代码对于绝大多数人来说是不现实的。这也是这两种方案的普及率很低的原因。
汉字编码规则简单、记忆量少与重码率低、码元少、码长短,即易学程度与输入速度是一对矛盾。当前已有一些编码方案较成功地解决了这一对矛盾,五笔字型和自然码方案就是其中的代表。1989年2月15日CN1003326B公开了″优化五笔字型编码法及其键盘″,它将优选的字根依据其首笔相同或形态相近等特征分成五大类,分别归入标准键盘的五个区,具有重码率低输入速度快的优点,被认为是当今最优秀的汉字编码方案之一。因为五笔字型和自然码的记忆量都比区位码和电报码的记忆量少得多,所以掌握它们比较容易。但要掌握这两种编码方案仍需记住二百个左右的字根及其在键盘上的位置,另外对自然码尚需记住三十多个汉语拼音的具有两个以上字母的声母和韵母的键盘位置。加之编码规则较复杂,掌握起来仍是不太容易,是特别适用于专业输入员的编码方案。
每个汉字都是音形义几种属性的统一体。而字义是由字音和字形属性决定的。纵观当今汉字编码方案,汉字的字形属性和字音属性在其中起着举足轻重的作用,要克服区位码和电报码因其完全抛开汉字属性而强行编码所带来的记忆量大难以掌握的缺点,就必须充分利用汉字的字形属性和字音属性使一套汉字编码方案做到见字知码。一套好的汉字编码方案应该充分利用汉字的各种属性,以最少的记忆量获得最高的输入速度。
十几年的汉字编码探索业已表明,仅使用汉字字音属性的拼音方案尽管有其易学的特点,但是这种方案的重码率太高,码长不齐,这既不利于方案在计算机上的实现也很难有较高的输入速度,只适合于不太常用计算机输入汉字的人使用。仅使用汉字字形属性的编码方案也有其难以克服的弱点。纯形码为减少重码率,往往采取增加字根的方法,这将在两个方面增加学习和输入时的困难。其一,增加字根必然导致记忆的增加,其二,字根若太多也会带来拆字的困难。另外有些汉字仅靠增加字根量仍然不能区分,例如,“旭”和“旮”,“标”和“柰”等。欲区分这些汉字,纯形码方案又需要采用所谓的“型码”来区分它们,也就是把汉字区分为上下型、左右型、包围型、半包围型或杂合型等。例如五笔字型就采用一种由三种字型代码和末笔代码构成的“交叉识别码”来区分这些字根及其顺序都相同从而形码也必然相同的汉字。这样做必然会增加输入者的负担,因为有些汉字的型是模棱两可的。对于这些字型模棱两可的汉字,在输入时采用字型识别码势必会影响输入速度。原因是明显的,当你弄不清楚一个字的字型属性时,你只能花费时间去一次一次地试打。有些纯形编码方案采用容错码的方式来克服这样一个缺点。但这种容错处理方式是有限度的,首先容错码要保证不出现重码,其次太多的容错码会浪费宝贵的计算机内存资源。总之纯形码有其与生具来的难以克服的弱点。有理由认为仅利用字音属性的编码方案不会有较高的输入速度,仅利用字形属性的编码方案很难会有易学性和速度两方面都比五笔字型更令人满意的编码方案。
按国家颁布的汉语拼音方案给汉字注音时每个汉字所用的字母数量不一,有些字如″阿″只需一个字母,而有些字如″庄″却需要六个字母。音形码编码方案若想达到码长整齐且较短的目的,就必须对超过一个字母的汉语拼音的声母和韵母进行压缩,使音码控制在两个码位的范围内,然后再使用两个或多个码位的形码来区分同音字。自然码编码方案就是这样做的。据统计,在国标GB-2312收入的6763个汉字中,同音字最多的有114个。若将形码字根合理地分布在26个字母键上,再使用两位形码来区分同音字,这从数量对比上来看似乎是没问题的,因为取两个字母的不同排列有676个之多,这样就可以使可用代码数与最大需求代码数之比约为6∶1。然而这样做并不能有效地区分同音字。例如自然码编码方案的形码字根多达近二百个时采用两位形码仍不能很好地降低重码率。再从同音字的分布规律上看,在6763个汉字中读“ri”的字只有一个而读“yi”的字却有110个之多,最多同音字数与最少同音字数之比为110∶1。这样两位形码的使用就不太均匀合理了,因为对有些同音字没有必要使用两位形码而对于有些同音字又不能仅用两位形码完全或几乎完全区分。采用这种两音两形方式的自然码的形码字根数与纯形码的五笔字型的字根数不相上下,但学习自然码时尚需记住3O多个多字母的声母和韵母的键盘位置。这种方案还存在着一个弱点,由于在汉字中有大量的多音字,这势必会造成一字多码从而浪费计算机内存的问题。
本发明的目的在于,克服已有技术的缺点,提供一种音形合成的编码法及汉字输入键盘。
本发明的目的是通过如下技术方案实现的。
将汉字的声母作为第一位编码,其后是形码,在不少于30个健位的键盘上,声母Zh、Ch、Sh分别对应U、O、V,其余声母与英文字母键一一对应,取汉字五种基本笔划横、竖、撇、点、折,代码依次为1、2、3、4、6,形成拼音拼形组字组词的汉字编码法及输入键盘。
本发明将标准英文键盘分为五个区,第一区G F D S A,代码为11 12 1314 15,第二区H J K L;,代码为21 22 23 24 25,第三区T R E W Q,代码为31 32 33 34 35,第四区Y U I O P,代码为41 42 43 44 45,第五区B V C X Z,代码为51 52 53 54 55。
本发明优选汉字67种字根在键盘上的分布及形码如下:
    G 11 广 氵                    Y 41 月 羊
    F 12 饣                       U 42 竹 辶 雨
    D 13 大                       I 43 米 示 灬 礻衤
    S 14 四 纟幺 
Figure C9611598600061
             O 44 虫 又
    A 15 八 马 犭                 P 45 门 匚 冂 勹 凵
    H 21 禾 火                    B 51 疒 匕
    J 22 金 钅臼 
Figure C9611598600062
             V 52 石 水
    K 28 口                       C 53 艹 
Figure C9611598600063
    L 24 立 力 耒                 X 54 西 辛
    ;25 人 亻                 Z 55 子 足 山
    T 31 土 士                    N    女 牛 
Figure C9611598600065
 田
    R 32 日 彳                    M    皿 木 口
    E 33 耳 阝车                  <    目 小
    W 34 王 攵 夂                 >    心 忄
Figure C9611598600066
    Q 35 言 讠                    /    扌手 寸 弓
本发明音码由汉语拼音的第一个字母声母构成,形码由一个字根在键盘上对应的字母或两个笔划的代码对应的字母或键盘符号构成。
单字输入首先键入汉字的音码,然后键入汉字第一、二及最后一形码,字根单字的形码只有一个时用两个M键补足,字根单字的形码不足三个时补一位该字根对应的形码。
双字词组先键入第一字的音码及首位形码,然后键入第二字的音码及首位形码。
三字词组顺序键入每个字的音码。
四词组顺序键入每个字的音码。
四字以上词组顺序键入前三个字和末一个字的音码。
常用26个汉字一级简码只输入一个对应编码键:
大a,不b,到c,的d,这e,地f,个g,和h,一i,就j,来k,了l,们m,你n,里o,子p,说q,人r,上s,他t,着u,是v,我w,要x,有y,在z。
我们对音形码的一个重要改进是对单字词减少音码增加形码,即变两位音码为一位音码,变两位形码为三位形码。这样做是符合汉字的演变和产生规律的。先人最初造字以象形字为主,后来随着社会和文化的发展新产的汉字则主要以形声字为主。据统计,在我们今天所使用的汉字中有90%以上是形声字。这也就是说绝大部分的汉字已经寓其音于其形中了。因此如果再在编码中使用两位代码作音码将是一种极大的浪费。本发明采用一音三形的编码模式既符合汉字的造字规律又改变了同音码汉字子集之间的数量上的不平衡,增加了区分同音码汉字的可用代码,同时也大大降低了一字多码的出现。
本发明可适用于一切大、中、小、微型计算机中文信息处理系统,并将在中文电传电脑打字和计算机汉字排版印刷等方面获得广泛的应用。
下面结合附图和实施例对本发明作更进一步说明。
图1是汉字五种基本笔划表。
图2是字根和代码中英文共容键盘。
单字编码中,第一位编码为音码,它是声母zh,ch,sh分别用u,o,v代替后每个单字的汉语拼音注音的第一个字母。这样在26个英文字母中音码只用了25个,这25个音码把近七千个汉字分为25组。最多的一组有汉字605个,最少的一组有汉字51个,每组最多字数与最少字数之比为605∶51约为12∶1,这显然要比用两位音码时的分组均匀得多。本发明将形码字根分布在30个键位上。用三位形码构成的不同排列为27000种,在拥有最多字数的同音码组中可用码与需要码之比为27000∶605约为45∶1。如果采用两位音码两位形码的模式则区分同音码的可用码与最多需要码之比为900∶110大约为8.2∶1。因此采用一音三形的模式加大了区分同音码的可用代码与需要代码的比例,这也就降低了产生重码的可能性。本发明单字编码中只有87个码是对应着两个汉字的,另有一个码对应着三个字,即只有88个重码,实际重码率不足万分之一。汉字的一字多音现象大多是具有相同的声母而具有不同的韵母。所以采用一音三形的方式还可以有效地降低一字多码的现象从而可以达到节约计算机内存的目的。
本发明除包括了GB-2312的所有单字外还包含大量的两字以上的词汇。根据《现代汉语频率词典》和《信息交换用五千词》精心挑选了近一万七千条词汇。其中双字词汇13544条,三字词汇1724条,四字以上词汇1653条。按同样的键位数如果能输入两个字甚至多个字那么输入速度肯定会比只能输入一个字快得多。因此在不增加码长的情况下增加词汇的收入量肯定会提高输入速度。
为了提高输入速度,本发明还设计了简码方案。它的一级简码中包含了26个最常用的单字,二级简码中包含了347个单字和399个双字词组。按频率统计这些简码字词的覆盖面已达75%以上。仅用两位编码就能够输入大量的双字词汇也肯定会有助于输入速度的提高。本发明形码部分只有60多个字根,而且大部分是按其读音的第一个拼音字母安排的,因此学习掌握本发明的记忆量是非常小的。
构成汉字的最基本的元素是笔划。在书写标准体汉字时从落笔开始到提笔结束所留下的痕迹称为一个笔划。本发明取能够被社会广泛接受的五种基本笔划即横,竖,撇,点,折,用1,2,3,4,5作为这五种基本笔划的代码;一般说来运笔方向自左至右者为横,自上至下者为竖,自右上至左下者为撇,自左上至右下的捺归点类笔划,运笔方向有转折的笔划归为折类笔划。另有下面两条特殊的归类方式,(1)运笔方向自左下至右上的“提”归为横类笔划,但是“氵”和“冫”中的末笔按传统习惯应归为点类笔划;(2)竖末向左钩者归为竖类笔划,其余带钩的笔划归为折类笔划。
除了基本笔划外,本发明为了拆字的直观并兼顾到减少产生重码的可能性精选了83个不同形态的字根。这83个字根都是传统的汉字偏旁部首,其中,绝大部分是国标GB-2312中收录的。这83个字根是:
疒,八,车,虫,寸,大,耳,阝,弓,广,禾,火,金,钅,臼,口,立,力,马,门,匚,冂,勹,凵,米,皿,木,目,牛,女,人,亻,日,山,石,示,礻,手,扌,水,四,田,土,士,王,西,小,辛,心,忄,言,讠,羊,又,雨,月,竹,子,足(包括:), 匕,艹,
Figure C9611598600082
囗,彳,犭,饣, 氵,辶,
Figure C9611598600083
纟,幺,攵,夂,灬,衤,
Figure C9611598600084
乂,耒,
Figure C9611598600085
(包括:
Figure C9611598600086
Figure C9611598600087
为记忆方便,可以将以上字根分类合并。按照传统习惯,把“耳、阝”,“金、钅”,“人、亻”,“心、忄”,“手、扌”,“言、讠”,“示、礻”等,分别归为一种;按形状近似把“土、士”,“攵、夂”,“纟、幺”  等,分别归为一种,在组字特征上,有字根“门、匚、冂、勹、凵”,出现的汉字大多为半包围形的或称偏包围形的汉字,可将它们归为一种称之为“偏围”的字根;字根“
Figure C9611598600091
Figure C9611598600092
Figure C9611598600093
”一般出现在汉字的上部,可将其归为一种称之为“盖”的字根。这样的分类既自然也有助于记忆字根在键盘上的分布。经过以上合并后,本发明实际上只有67种字根。
由于字根很少,在拆字时不会造成字根间争笔划的冲突。只须按照大家公认的书写顺序将汉字分拆为五种基本笔划和67种基本字根即可。另外在拆字时要遵循以下两条基本原则:
①.取大原则:一个基本笔划应尽可能地与前面的笔划或字根相连构成一个较大的字根,但字根的笔划数必须少于原字的笔划数。例如:“辩”字应拆为“辛讠辛”而不应拆为“立13讠立12”。字根笔划数要少于原字的笔划数是指对于被选为字根的单字也需再要进一步分拆。例如:“米”字要分拆为“43木”,“疒”要分拆为“广44”等。
②.不交原则:即前后两个字根不能共用原字的相同的笔划。例如“生”字不能拆为“牛土”,因为这时“牛”和“土”共用“生”字的第三笔和第四笔,而应分拆为“牛1”。
键盘布局如图3所示。
键位分区:
由于本发明的字根很少,因此在一个单字的分拆序列中字根往往较少,编码时如果让一个基本笔划就对应一个键位或者说对应一个码元是不合理的,采取两个相连的基本笔划对应一个码元的方法来克服这一弱点,遵循打字击键时的指法规律,从键盘中央的30个键中选出25个分为五个区,第一区是“G、F、D、S、A”,其编号分别为“11、12、13、14、15”,第二区是“H、J、K、L、;”,编号分别为“21、22、23、24、25”,第三区是“T、R、E、W、Q”,其编号分别为“31、32、33、34、35”,第四区是“Y、U、I、O、P”,其编号分别为“41、42、43、44、45”,第五区是“B、V、C、X、Z”,其编号分别为“51、52、53、54、55”。
字根的键位分布:
本发明67种字根合理地分布在26个字母键及4个符号键“;、<、>、/”上,在字根的键盘分布中基本上遵循了按音码分布的规律,即大部分字根分布在它的传统读音的声母或韵母的第一个字母所在的键位。
按字根的声母分布的有39种49个:
疒,匕,艹,大,耳(阝),饣(饭旁),广,禾,火,金(钅),臼,口,立,力,耒,木,皿,牛,女,
Figure C9611598600101
虫,偏包类字根(门,匚,冂,勹,凵),日,彳,纟(幺),四,土(士),竹,辶,石,水,王,攵(夂),西,辛,月,羊,子,足()。
按字根的韵母分布的有9种10个:
八,车,犭,马,米, (礻),衤,雨,又。
以上两种分布方式使得大部分字根的键盘位置不需要记忆,另外一些字根分布也有规律可循,例如字根“小”在“<”号上,“扌(手)”在类似于笔划提的符号“/”上等。
单字音码是由汉字的国家标准汉语拼音注音中的zh,ch,sh分别用u,o,v代替后取第一个字母得到的。例如“爱,耳,朱,充,是”的音码分别为“a,e,u,o,v”。
单个汉字的形码按以下方法确定:
首先考虑单字的分拆序列中的第一个单元即基本笔划或字根,
①.若此单元是基本笔划则这转②;否则用此单元即字根所在的键位符号即其对应的码元作为一位形码,转④;
②.记此基本笔划为单元1,若单元1后还有单元,则记此单元为单元2,转③,否则单元1的笔划代码后补“1”构成键位代码,按键盘分区用此键位代码对应的符号作为一位形码,转⑦;
③.若单元2是字根则省略单元1,用单元2(字根)对应的码元作为一位形码,转④;否则用单元1和单元2的笔划代码构成键位代码,取此键位代码对应的符号作为一位形码,转④;
④.若分拆序列中的单元已用尽则转⑦;否则,若已取够两位形码则转⑤,若未取够两位形码则转①去考虑分拆序列中刚刚用过的这一单元的下一单元;
⑤.若最后一个单元是基本笔划,则记其为单元2转⑥;否则最后一个单元是一字根,取其对应的码元作为第三位形码,转⑧;
⑥.如果单元2前面是一个尚未使用的基本笔划则用它的笔划代码和单元2的笔划代码构成键位代码,取此键位代码对应的符号作为第三位形码,转⑧;否则用单元2的笔划代码后补“1”构成键位代码,取此键位代码对应的符号作为第三位形码,转⑧;
⑦.至此形码至多有两位,应按下述规则补充形码:如果单字是字根则补充字根所在键位的符号作为一位形码,如果单字不是字根且按以上规则只取到一位形码,则补充两个“m”  作为形码;转⑧;
⑧.字形码取码结束。
以上字形码的取码步骤看起来很繁锁,原因是我们为使取码规则尽量表述得清晰、严格。其实真正理解之后是很简单的,可概括为以下几句话:
           首二末一顺序取,  字根前面去单笔;
           字根单独成一码,  键位代码合两笔;
           字根形码不足三,  所在键位充其一;
           单字形码若孤单,  两个M做兄弟。
单字的编码是由它的音码和形码构成的,音码在前形码在后。
例1.“乙”字的分拆序列是“5”,编码是“ybmm”,其中“y”是音码,“bmm”是形码,在形码“bmm”中,“b”是分拆单元“5”补“1”得到的键位代码“51”所对应的码元,“mm”是补充形码。
例2.“人”字的分拆序列是“34”,编码是“rw;”,其中“r”是音码,“w;”是形码,在形码“w;”中,“w”是键位代码“34”对应的码元,“;”是补充形码。
例3.“我”字的分拆序列是“3扌534”,编码是“w/cy”,其中“w”是音码,“/cy”是形码;在形码“/cy”中,“/”是省略字根“扌”前的单一笔划“3”后字根“扌”对应的码元,“c”是键位代码“53”对应的码元,“y”是分拆序列中最后一个单元即基本笔划“4”补“1”构成的键位代码“41”对应的码元。
例4.“及”字的分拆序列是“5人”,编码是“j;mm”。
例5.“想”字的分拆序列是“木目心”,编码是“xm<>”。
双字词组的编码由第一字的音码及首位形码和第二字的音码及首位形码组成。例,“胜利”的编码是“vylh”,“汉字”的编码是“hgz<”等。
三字词组的编码由三个字的音码顺序组成。例如,“大学生”的编码是“dxv”,“共产党”的编码是“god”,“计算机”的编码是“jsj”等。
四字词组的编码由四个字的音码组成,例如,″朝气蓬勃″的编码是″uqpb″,“共产主义”的编码是“gouy”。
四字以上词组的编码由前三个字的音码及最后一个字的音码构成。例如,“不管三七二十一”的编码是“bgsy”,“中华人民共和国”的编码是″uhrg″。
挑选了26个最常用的汉字给它们以最短的码长。这26个汉字尽管为数很少但使用频率却已达26.78%。其中大部分汉字的一级简码是有规律的,例如“不的个和就了们你人他着是我有在”共15个是这些字的音码,“大这一”是这三个字的韵母,其他的一级简码似乎没有明显的规律,我们仍然着意做了这样的安排:“到地,来里”的简码就分别在它们的音码d和l的周围,“说,要”的简码是它们的第一位形码,只有“上”和“子”的简码没有明显的规律。据《现代汉语频率词典》的统计这些汉字的使用频率已超过四分之一,所以这些一级简码的设置对提高输入速度是相当重要的。
本发明还挑选了347个较常用的单字和399个较常用的双字词汇作为二级简码。这些二级简码的使用频率按词计算已达54.25%,按字计算已达48.34%。这样一来,将有71.76%的单个汉字可用一、二级简码输入。二级简码采用两位编码,它的取码规则是:二级简码字的编码由单字的前两位编码即音码和首位形码组成。二级简码词的编码由这两个字的音码组成。例如“因为,所以,得,好”的二级简码分别是“yw,sy,dr,hn”等。
二级简码中收入双字词汇是本发明的又一特色,一二级简码的覆盖率说明将是一种高效率的汉字编码。熟悉二级简码的编码将有助于提高输入速度。

Claims (1)

1.一种合成编码的计算机汉字输入方法,其特征在于:将汉字的声母作为第一位编码,其后是形码,分别与打印机英文键盘上的字母或符号键对应,具体分配如下:A.第一位编码是汉语拼音的声母,zh、ch、sh分别对应英文键盘上的U、O、V,其余声母与英文字母键一一对应;B.形码由一个字根在键盘上对应的字母或两个笔划的代码对应的字母或键盘符号构成:(1)英文键盘分为五个区,第一区G F D S A,代码为11 12 13 14 15,第二区H J KL;,代码为21 22 23 24 25,第三区T R E W Q,代码为31 32 33 34 35,第四区Y U I O P,代码为41 42 43 44 45,第五区B V C X Z,代码为51 52 53 54 55;
(2)优选汉字67种字根在键盘上的分布及形码如下:
         G 11 广  氵                      Y 41 月 羊
         F 12 饣                          U 42 竹 辶 雨
         D 13 大                          I 43 米 示 灬 礻衤
         S 14 四 纟幺 
Figure C9611598600021
                O 44 虫 又
         A 15 八 马 犭                    P 45 门 匚 冂 勹 凵
         H 21 禾 火                       B 51 疒匕
         J 22 金 钅臼                  V 52 石 水
         K 23 口                          C 53 艹 
         L 24 立 力 耒                    X 54 西 辛
         ;25 人 亻                    Z 55 子 足 山
         T 31 土 士                       N 女 牛 
Figure C9611598600025
 田
         R 32 日 彳                       M 皿 木 口
         E 33 耳 阝车                     < 目 小 
         W 34 王 攵 夂                    > 心 忄
         Q 35 言 讠                       / 扌手 寸 弓
C.利用上述键盘的字、词输入方法是:单字输入:首先键入汉字的音码,然后键入汉字第一、二及最后一形码,字根单字的形码只有一个时用两个M键补足,字根单字的形码不足三个时补一位该字根对应的形码;词组输入:(1)双字词组先键入第一字的音码及首位形码,然后键入第二字的音码及首位形码;(2)三字词组顺序键入每个字的音码;(3)四字词组顺序键入每个字的音码;(4)四字以上词组顺序键入前三个字和末一个字的音码;简码:常用26个汉字一级简码只输入一个对应编码键:大a,不b,到c,的d,这e,地f,个g,和h,一i,就j,来k,了l,们m,你n,里o,子p,说q,人r,上s,他t,着u,是v,我w,要x,有y,在z。
CN96115986A 1996-09-27 1996-09-27 一种合成编码的计算机汉字输入方法 Expired - Fee Related CN1054446C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN96115986A CN1054446C (zh) 1996-09-27 1996-09-27 一种合成编码的计算机汉字输入方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN96115986A CN1054446C (zh) 1996-09-27 1996-09-27 一种合成编码的计算机汉字输入方法

Publications (2)

Publication Number Publication Date
CN1152742A CN1152742A (zh) 1997-06-25
CN1054446C true CN1054446C (zh) 2000-07-12

Family

ID=5123184

Family Applications (1)

Application Number Title Priority Date Filing Date
CN96115986A Expired - Fee Related CN1054446C (zh) 1996-09-27 1996-09-27 一种合成编码的计算机汉字输入方法

Country Status (1)

Country Link
CN (1) CN1054446C (zh)

Also Published As

Publication number Publication date
CN1152742A (zh) 1997-06-25

Similar Documents

Publication Publication Date Title
CN100462901C (zh) Gb拼音输入法
CN1318786A (zh) 显示于屏幕上的集约型中英文键盘
CN1054446C (zh) 一种合成编码的计算机汉字输入方法
CN1194285C (zh) 多输入方式的计算机汉字编码输入技术
CN1081004A (zh) 汉字结构笔顺数字编码方法
CN103207685A (zh) T形汉字码输入法
CN101706685A (zh) 一种汉字输入法
CN1207648C (zh) 五三码及其键盘
CN1234062C (zh) 计算机汉字输入方法
CN1694046A (zh) 一种计算机编码汉字键盘输入方法及信息码
CN1195263C (zh) 一种快易通汉字输入方法
CN104731362A (zh) 中文炎码快录
CN1244855C (zh) 中文信息处理汉字数字化规范编码输入技术
CN100383712C (zh) 五笔区形中文输入法
CN1108551C (zh) 优化赋音形码计算机汉字输入方法
CN1026829C (zh) 中文头尾码输入法及其键盘装置
CN1339733A (zh) 计算机汉字汉易码输入方法及键盘
CN1010988B (zh) 汉字输入方法及其所用键盘
CN101226423A (zh) 计算机汉语(观声联韵)快速录入方法
CN103246359A (zh) 一种既方便拼音又方便形码输入的计算机键盘
CN1068203A (zh) 音形义字词兼容编码系统与键盘
CN1220420A (zh) 汉字正负单数部首周期表及部首数码输入法
CN1147108A (zh) 笔划相关码中文系统
CN1421767A (zh) 汉字双笔六码输入法
CN1160880A (zh) 一种汉字输入法

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C14 Grant of patent or utility model
GR01 Patent grant
C19 Lapse of patent right due to non-payment of the annual fee
CF01 Termination of patent right due to non-payment of annual fee