CN1118010C

CN1118010C - 一种基于五结构字型汉字编码的计算机汉字输入方法

Info

Publication number: CN1118010C
Application number: CN 97107823
Authority: CN
Inventors: 谢先弟; 谢作毅
Original assignee: Individual
Current assignee: Individual
Priority date: 1997-04-30
Filing date: 1997-12-11
Publication date: 2003-08-13
Anticipated expiration: 2017-12-11
Also published as: CN1204079A

Abstract

本发明属于中文信息处理技术领域中的计算机汉字输入编码技术，本发明以汉字五种造字要素，用汉字的五种组合、分解和结构知识，按汉字书写的规则，取组成汉字各部件的码元为汉字的编码，其中五种造字要素含常用汉字250个，以其中243个字的声母第一字母作码元，7个字的韵母第一字母作码元。本编码方案每个汉字不超过4码，并直接用计算机国际标准键盘，无需另加任何字符。本编码方案集汉语拼音编码的拼音和五笔字型编码的拼形优点于一体，方法更简单，更易学，更易用。

Description

一种基于五结构字型汉字编码的计算机汉字输入方法

本发明属于中文信息处理技术领域中的计算机汉字输入编码技术。

目前国内外的汉字输入编码方法已有数百种，但较常用的很少，原因是大多数编码方案都存在易学与易用的矛盾。比如现行通用的全拼和简拼编码方法，虽可直接利用汉字拼音与键盘上的25个字母对应，操作简单，但它需要使用者能对每一个汉字都会准确拼音，由于我国幅源辽阔，方言差异很大，这就给普及应用带来了困难。又比如五笔字型编码方案，掌握以后输入速度很快，但拆字要求高，它的130个主字根和60多个次字根按五种笔形分布在键盘25个字母的五个区域内，难于记忆，初学十分困难。对于计算机逐渐普及的今天，人们对汉字编码方案的要求更高，能识汉字就能学能用的编码方案无疑是一个设计目标。

本发明的在于针对现有技术存在的上述不足，目的在于提供一种集现有拼音编码和拼形编码的优点为一体的，既易学、易记，又能提高输入速度的汉字编码方法。

本发明是通过以下技术方案来实现的：

经过研究分析汉字的结构，我们可得出这样的结论：汉字是用基本笔画、部首字、单体字、部首字根、特别字根五种造字要素，即字素，按单体、双合体、三合体、多合体、混合体五种组合方式，按散、连、包、串、交五种连接方式，以单体结构、上下结构(含上中下结构)、左右结构(含左中右结构)、包围结构(含全包围和半包围结构)、混合结构五种结构，构造而成。这一结论即为本编码方案的理论基础。

字素是汉字构造的最小基本部件，本方案选取了汉字中250个字作为字素，以其中243个字的声母第一个字母作码元，7个字的韵母第一个字母作码元，为便于记忆，编辑成两首歌诀：

造字五要素歌诀(一)

点横竖捺钩，拐撇尤其聿；(前7个为基本笔画名称)

金木水火土，日月鸟隹雨；

人身耳目口，手足爪心血；

骨毛皮气，幺儿子女业；

母王臣士卜，工ム文言力；

见门走止食，田瓜禾竹米；

车舟斗瓦厂，韦巾羽革衣； (中间118个部首字)

弓矛矢戈贝，刀臼皿缶耒；

马牛羊犬豕，鹿龙黽鬼鱼；

豸虫鼠角艮，黑白赤辰夕；

二四八十几，寸斤疋片页；

大小方西广，山石酉之已；

比示又欠歹，包宝病登列； (后15个为部首字根字)

老妇草匡虎，六建绞前提。

造字五要素歌诀(二)

巴本半必不，才册长垂也；

丑

单东丁，而非丰凡夷；

甫弗发夫夬，丐户甘更

乖亥乎夹柬，兼及井九以；

久开亏来了，乐丽两面乂；(前95个单体字)

民末乃廿农，内平七且尹；

千丘求曲冉，卅氏世柬于；

乇屯夭丸为，我万无未禹；

五勿央亚牙，臾

乍专禺；

中兆朱自亦，报敝曾段与；

鹤今假卯囊，那叟扬制妻。 (后15个是特别字根字)

造字五要素歌诀(一)中，前七个字是基本笔画名称。以其名称韵母的第一字母作基本笔画的码元，即i、e、u、a、o、u、i，它是将学龄儿童教育识字挂图中，汉字书写笔画名称，归纳为七种单字名称。丶点(含

冫氵

是点的组合)、一横、丨竖、_捺、亅钩(含乛、

乙、

乚、

收笔钩)ㄑ拐(含ㄍ、巛、

)、撇(含フ、

彡，收笔左下撇)。

基本笔画有三种用途：

(1)作建造部首字、部首字根、单体字、特别字根四种造字要素的原材料。

(2)在单体字、双合体字、三合体字编码时，以起笔或末笔作补码。

(3)作造字的基本部件，如主、旦、旧、尺、买、甾、产等，是一种造字基本要素。

造字五要素中的部首字118个，部首字根15个，是从《现代汉语词典》的189个部首中选出来的。成字部首称部首字字素，以声母第一字母作码元。

部首字根：勹、彐、宀、疒、匚、癶、刂、耂、艹、_、廴、_、亠、纟、扌等，单独不成为字，称为字根。字根组成的合体字称为字根字，选15个常用字根字的声母第一字母作部首字根的码元。

造字五要素中的单体字95个，特别字根15个，是从《现代汉语词典》中，单字组成部件中精选出来的。单体字字素组字在两个或两个以上，以声母第一字母作码元。

特别字根：

等，以15个常用特别字根字的声母第一字母作特别字根的码元。

在本方案中汉字的五种字体包括：单体、双合体、三合体、多合体、混合体。

单体是指汉字体系中的独体字。双合体、三合体、多合体，分别是二至多个字素的合体字，是汉字体系中形声字，占汉字中的绝大多数。在汉字体系中，有一种分不清部首的字，如整、臻等，大部分收集在《字典》中的五个单笔部首里。在《字典》的部首中，合体字部首，没有选作部首字素。因此，分不清部首的字数增多，本方案把这类汉字组合体称为混合体，其结构称为混合结构。常以起笔字素代部首，也称首部。

本方案中把汉字分为五种连接方式即散、连、包、串、交，这也是汉字字素分解的基础：

散：字素与字素之间有间隙，如明、虎、售、箱、整，散是汉字中的绝大多数，按字素直接分解；

连：字素与字素之间有笔画连接，如下(一卜)、生(牛一)、产(立丿)、先(

儿)、表(_癶)，从连接处按字素分解，连在汉字中数量次于散。

包：一个字素把另一些字素包起来，如团(囗才)、图(囗夂

)、匡(匚王)、凶(凵

)，同(冂一口)，汉字体系中全包围和三面包围的字属于包方式，占汉字中的少数，是散的另一种方式，字素与字素之间有间隙，按散方式分解；下面几个字分解要掌握舆(臼车一八)、燕(廿北口，灬)、卵(

)、學(臼女冖子)、舆(臼一八)。

串：字素与字素之间有一公共笔画，将字素串接在一起，如串(中中)、出(山山)、重(千田土)、熏(千黑)、 (肀冂_

)、妻( 女)、隶(聿水)、堇(廿中王)、疌( )、

(母中女)、臿(千臼)、乘(乖八)、 (禾_)、果(田木)、里(田土)，只有这十几种类型要掌握，从串接处分解。

交：字素与字素之间有全部或部份交连在一起，如畢(田廿十)、華(廿廿十)、

(亠幺冖牛)、孝(耂子)、在( 丨土)几种类型要掌握，可作特例列出。

以上散、连、包三种连接类型是汉字中的绝大多数，分解比较容易。包、串、交类型只有二十多个。可作为特处理。

本方案对字素取码顺序五条规则：

从上到下，例：盘：舟皿；曾、丷

日。

从左到右，例：明：日月；谢：讠身寸。

从外到内，例：国：囗王、；问：门口。

起笔在先要先取，例：想：木目心；毅：

豕几又。

按照笔顺顺序取码。

本方案对起笔和末笔的取码也有五规则：

先横后竖，例，十：一十；干：一二干。

先撇后捺，例，人：丿人；木：一才木。

先外后内再封口，例，团：冂团。

先中间后两两边，例，小亅小；水：亅

水。

竖撇最左取在先。例，口：丨冂口；牛：丿_牛。

在以上关于字素码元和汉字字体分类以及汉字连接方式等的基础上，本方案的设计有两套取码规则：

1.按形音双拼取码：

字：单体字编码＝a+单体字声母+起笔码元+末笔码元

双合体字编码＝一部字素码元+起笔码元+二部字素码元+末笔

码元三合体字编码＝一部字素码元+二部字素码元+三部字素码元+

末笔码元多合体字编码＝一部字素码元+二部字素码元+三部字素码元+

末部字素码元混合体字编码：

①双混合体＝一部字素码元+起笔码元+二部字素码元+末笔

码元

②三混合体＝一部字素码元+二部字素码元+三部字素码元+

末笔码元

③多混合体＝一部字素码元+二部字素码元+三部字素码元+

末部字素码元词：双字词编码＝第一字首部字素码元+第二字首部字素码元+第一

字末部字素码元+第二字末部字素码元

三字词编码＝第一字首部字素码元+第二字首部字素码元+第三

字首部字素码元+第三字末部字素码元

多字词编码＝第一字首部字素码元+第二字首部字素码元+第三

字首部+末字首部字素码元

形音双拼码的取码顺序按照汉字的书写规则，将汉字按字素分解为一部(首部)、二部、三部、末部，依顺序取码。

2.按读知形式取码(一)：反映汉字读音和结构特征，为小学语文教学

设计。

字：单体字编码＝a+声母+起笔码元+末笔码元

双合体字编码＝声母+形旁字素码元+声旁字素码元+末笔码元

三合体字编码＝声母+形旁字素码元+声旁首字素码元+声旁末

字素码元

多合体字编码＝声母+形旁字素码元+声旁首字素码元+声旁末

字素码元

混合体字编码：

①双混合体＝声母+首部字素码元+末部字素码地+末笔码元

②三混合体＝声母+首部字素码元+二部字素码元+末部字素

码元

③多混合体＝声母+首部字素码元+二部字素码元+末部字素

码元

词：双字词编码＝第一字声母+第二字声母+第一字形旁字素码元+

第二字形旁字素码元

三字词编码＝第一字声母+第二字声母+第三字声母+第三字形

旁字素码元

多字词编码＝第一字声母+第二字声母+第三字声母+末字声母

读知码(二)：为会说普通话，但拼音不十分准确的人设计。

字：单体字编码＝声母+A+起笔+末笔

双合体字编码＝声母+首部+二部+末笔

三合体字编码＝声母+部部+二部+三部

多合体字编码＝声母+首部+二部+末部

汉字在取自身读音声母后，按部件排列五条顺序规则取码。

词：双字词编码＝声母1+首部1+声母2+首部2

三字词编码＝声母1+声母2+声母3+首部3

多字词编码＝声母1+声母2+声母3+声母末

其中：1、2、3……末是词汇中字的排列顺序号，首部是字的起笔那个部件。

会说普通话的人(拼音不要求准确，知取声母第一字母就行)用此方法，比按读音和结构特征取码方便些。

读知码相对于汉语拼音码，大大减少了重码，不需翻页，提高了录入速度，编码取字的声母和笔画的韵母，比拼音码取所有拼音的字母容易得多。读知码还反映汉字的读音和结构特征，键盘直接输入无需加任何字符。形音双拼码相对于五笔字型码，前者键盘直接输入，无需在键盘上附加任何字符，录入速度相当于或高于五笔字型码。250个部件字中，97％以上是常用字，方法更简单。

本方案中，读知码是一种基础码，它是表明汉字读音和结构特征的一种编码。最适合于小学生和初学汉字的人打字使用，用汉字的读音和结构特征练打字，还可帮助记忆汉字。但对所有编码的汉字都要会读，汉字读音的记忆量大。而形音双拼码可解决对汉字读音记忆量大的问题，它先用造字五要素拼形，接着接字素的拼音取声母为编码，拼形和拼音同时进行，因此，它只要求会读250个常用汉字，理解编码规则，就可使用。

用上述方法对《现代汉语词典》中的一万多个单字(含简体、繁体和异体字)进行正规编码，在整个汉字体系归一化后，出现在第三码上是唯一的三码字，但在第四码上，也出现重码字。又对小学、初中语文课本中的词组和一些常用词组，一万多条进行正规编码，词组编码归一化后，也出现在第三码上是唯一的三码词组，在第四上也出现重码词。

任何编码方法，重码总是难免的，本方案采取常用的方法，即利用计算机显示屏的编辑功能来消除重码。当在第四码上出现重码时去掉第四码，用程序将重码字在第三键上显示在提示状态行中，这样在不翻页(一个提示状态行)的情况下，消除了重码。

按照上述方法，字和词的编码都集中在第四码和少部分三码上，第一、二、三码存在很大空间，第四码的空间也没有填满。所以本编码方法支持两万多汉字是没有问题的。本方案将字的一、二、三级简码和词组码结合，可支持3-4万特大字符集，构成很有价值的字词廉容编码方法。

五结构字型汉字编码方法有以下特点：

(1)集目前用户使用最广泛的优秀编码：汉语拼音编码(拼音)和五笔字型汉字编码(拼形)的优特点于一体，但方法更简便，记忆量少、易学、易记、不易忘记。

(2)小学一二年级语文基础，若把小学一二年级语文教学和汉字编码知识结合起来教学，有利于从娃娃开始抓计算机学习，也有利在中小学以上有文化的人中，普及计算机应用。

(3)汉字信息的计算机输入，直接用国际标准键盘，无需增加其它字符，已等同于外国文字的拉丁字母输入方法，有利于在国内外所有拉丁字母输入的计算机上推广使用汉字编码软件。

(4)输入速度快，平均每个字1-4键，利用字词简码输入速度相当于或快于五笔字型汉字编码。也快于外国文字的拉丁字母输入方法。

(5)只需读270个常用汉字，知其中265个字的声母，5个字的韵母，只要受正规小学教育的人都具备。所以，不受读音和地方话的限制。

(6)为中文汉字信息计算机处理向标准化、规范化发展，提供了一种参考方法。

下面提供本编码方案及实例比较表，以及造字五要素与计算机键盘对照表，以利于对本方案的进一步了解：说明：(1)上下部首双合体和上中下结构中，上下都为部首字的读知码一

律取上为形旁。

(2)左右部首双合体和左右结构中，左右都为部首字的读知码一律取左为形旁。(3)形声字的形旁在字中独占一个层次的空间位置，以此分辨形旁。(4)混合结构中，也分双、三和多混合体，没有明显部首，按汉字笔画书写顺序规则从起笔字素算起分为一部、二部、三部和末部，一部代部首。编码时和读知码、形声双拼码的双合体、三合体多合体一样。(5)读知码，形旁不管处于何位置，都要取第二码：上下都是部首字的以上为形左右都是部首字的以左为形内外都是部首字的以外为形。(6)不管何种结构形声双拼码最简单。

汉字五结构、读知码、形音码实例对照表

(实例中上排为读知码下排为形音双拼码)

造字五要素与键盘对照表·虚线将各种字素分开。

续表