CN1655104A

CN1655104A - 段码中文输入法

Info

Publication number: CN1655104A
Application number: CN 200510052247
Authority: CN
Inventors: 李梧杰
Original assignee: Individual
Current assignee: Individual
Priority date: 2005-02-02
Filing date: 2005-02-02
Publication date: 2005-08-17

Abstract

一种计算机汉字编码和输入方法。它以汉语拼音为“音”的基本依据，以国家《汉字笔顺规范》和《汉字部件规范》为“形”的基本依据，采取“形音结合”的基本编码模式；以“先音后形”的编码方式去适应一般人的书写习惯；以纯形编码的方式解决不懂读音的汉字输入问题；以“音托”加“形托”字根的方式解决字根难记的问题；用明确的字根概念解决字根选用模糊问题；以对字根进行二次拆分的方法，解决“形”码中识别码难选的问题；以减少在词组编码中需“形”识别的汉字个数的方法，有效提高输入速度；采用默认上屏栏和选择上屏栏相分离的输入方法，缓解由于扩大字库量造成重码率增加的影响；用确保一级汉字上屏的方法，适应一部分有盲打需求的群体。

Description

段码中文输入法

一、技术领域：本发明涉及一种计算机汉字编码和输入的方法。

二、背景技术：目前流行的计算机汉字输入法以“五笔字型”为代表的“形码”输入方法和以“智能ABC”、“微软输入法”等为代表的“音码”输入方法，虽然都有各自的优点，但又各自都存在着难以避免的弊端。如“形码”输入方法虽然重码少，速度快，但其低重码率往往是通过缩小字库量，增加字根记忆难度，增加汉字拆分难度等方式获得的，故普遍存在着难掌握，易遗忘，很多非通用字无法输入等弊端；“音码”输入方法虽然简便易学(对熟悉普通话和汉语拼音的人而言)，但存在着重码率高，输入速度慢，很多不懂读音的汉字难以输入等弊端，且这种输入方法用久还易造成乱用同音字和“执笔忘字”的毛病。最后，无论是“音码”输入方法还是“形码”输入方法，都不能全面体现汉字“音”、“形”、“义”的基本特征。

三、发明内容：本发明旨在创造一种取两种输入方法之长，避两种输入方法之短，能全面体现我们中华汉字“音”、“形”、“义”基本特征的输入法。即段码中文输入法。

(一)编码的基本模式。

段码中文输入法对中文编码输入采用分段编码的方法，这种编码方法能使中文单字或词组的编码更加科学、简明，单字或词组的输入选择更自如，它可用下面模式表示：

单字或词组的编码＝汉字码段编码+字根码段编码+根首码段编码

单字或词组编码的标准码长均为四码，在实际编码时，可根据不同的情况对各码段进行取舍。

(二)汉字码和字根码。

段码中文输入法取汉字(或字根)读音声母对应的英文字母作为该汉字(或字根)的汉字码(或字根码)[当汉字(或字根)读音的声母为zh、ch、sh时，用英文字母V、U、I替代；当汉字(或字根)读音为零声母时，取其第一个拼音字母对应的英文字母作为该汉字(或字根)的汉字码(或字根码)]。如“贝”(bèi)、“虫”(chóng)、“耳”(ěr)、的汉字码分别为B、U、E(为区别起见，在本文里英文字母用大写字母表示，汉语拼音用小写字母表示)。

(三)汉字的基本笔画。

为便于描述和分析汉字的字形，凡本输入法所描述和分析的汉字，主要指国家语言文字工作委员会，国家新闻出版署1988年3月颁布的《现代汉语通用字表》的7000个汉字。汉字字体均为印刷宋体字体，对字体笔画的起笔、转角、收笔中属美术修饰而加粗、加长部分，本输入法一律予以忽略；汉字的笔画数与笔顺均遵照国家语言文字工作委员会，国家新闻出版署1997年颁布的《现代汉语通用笔顺规范》。

段码中文输入法把汉字分成基本笔画、字根、汉字三个层次。

段码中文输入法对汉字笔画的定义是：在书写汉字过程中不间断地一次写成的一条线条称为笔画。

汉字的笔画形态有很多，但如果只考虑笔画的运笔方向，不考虑笔画的长短或轻重，则汉字的笔画可以归纳为五种：横(héng)、竖(shù)、撇(piě)、点(diǎn)、折(zhé)。汉字的这五种笔画称为汉字的基本笔画，段码中文输入法将其分别记作“一”、“丨”、“ノ”、“丶”、“”，其编码符号及键位分别为“H”、“I”、“P”、“D”、“V”。

段码中文输入法对一些笔画的变形作如下规定：

1、“提”归于基本笔画“横”。例如汉字“冷”的第2笔；汉字“地”的第3笔。

2、“竖左钩”归于基本笔画“竖”。例如汉字“利”的最后一笔。

3、“捺”归于基本笔画“点”。例如汉字“八”的第2笔；汉字“禾”的最后一笔。

4、有些长度很短，笔画先轻后重，我们通常称为“斜点”和“竖点”的汉字笔画，这类笔画作为特别例外主要考虑笔画的长短或轻重。为易于区别，段码中文输入法把它们称作“短点笔画”。短点笔画归于基本笔画“点”。例如汉字“心”的第1笔(竖点)和第3、4笔(斜点)都是短点笔画，它们都归于基本笔画“点”。。

5、所有带转折、拐弯的笔画均归于基本笔画“折”。例如汉字“又”的第2笔；汉字“儿”的第2笔。

汉字五种基本笔画的标记、读音、编码符号、键位、运笔方向及笔画的变形如下表所示。

(四)两个笔画的相处关系。

在这里段码中文输入法先来定义有关笔画的端部和中部的概念：

一个笔画由它的两个端部和一个中部组成，笔画的起笔部分叫始端部，笔画的收笔部分叫末端部。笔画的一个端部是指从笔画的端点起沿运笔方向(或相反方向)量得长度等于笔画直径的那一段笔画，其中笔画的直径是指字体各笔画中最粗的那一段笔画的直径；笔画的中部为该笔画除了两个端部外余下的(或中间的)那一段笔画。特别例外：短点笔画只有中部没有端部。

现在段码中文输入法来定义两个笔画的相处关系：

1、当两个笔画之间有一定距离，不相连接时，我们称这两个笔画为相离关系，可用符号“∥”表示。如汉字“二”和“儿”的两个笔画均为“∥”关系。

2、当两个笔画在始端部相连接而其它部分不连接时，我们称这两个笔画为始端相连关系，可用符号表示。如汉字“厂”的两个笔画为关系。

3、当两个笔画在末端部相连接而其它部分不连接时，我们称这两个笔画为末端相连关系，可用符号

表示。如汉字“口”的第二笔与第三笔为关系。

4、当一个笔画的末端部与另个一笔画的始端部相连接而其它部分不相连接时，我们称这两个笔画为末端与始端相连关系，可用符号表示。如汉字“了”的两个笔画为

关系。

5、当两个笔画的两个端部互相连接而其它部分互不连接时，我们称这两个笔画为互为端部相连关系，可用符号

表示，。如汉字“贯”的第一笔与第二笔为

关系。

6、当笔画A的始端部与笔画B的中部相连接而其它部分互不连接时，我们称笔画A与笔画B为始端与中部相连关系，可用符号表示。如汉字“女”的第二笔和第三笔为

关系，

7、若笔画A的中部与笔画B的始端部相连接而其它部分互不连接时，则称笔画A与笔画B为中部与始端相连关系，可用符号表示。如汉字“包”的第一笔与第二笔为

关系。

8、当笔画A的末端部与笔画B的中部相连接而其它部分互不连接时，我们称笔画A与笔画B为末端与中部相连关系，可用符号

表示。如汉字“匕”的第一笔与第二笔为

关系，

9、若笔画A的中部与笔画B的末端部相连接而其它部分互不连接时，则称笔画A与笔画B为中部与末端相连关系，可用符号

表示。如汉字“北”的第一笔与第二笔为关系。

10、当两个笔画各有一个端部与另一个笔画的中部相连接而其它部分互不连接时，我们称这两个笔画为互为端部与中部相连关系，可用符号表示。如汉字“互”的第二笔与第三笔为关系。

11、当一个笔画穿过另一个笔画而使它们在中部互相连接，且只有一个连接点时，我们称这两个笔画为单一相交关系，可用符号表示。如汉字“七”的两个笔画为

关系。

12、当两个笔画有两个连接点，一个在端部相连接，另一个在中部相交，我们称这两个笔画为单端相接中部相交关系，可用符号表示。如汉字“母”的第一笔与第二笔为关系。

段码中文输入法把汉字内部的两个笔画相处关系分为以上12种关系，且规定每两个笔画关系只存在于其中一种笔画相处关系之中。

(五)汉字构件。

汉字构件的定义：由若干个按书写顺序的连续笔画构成的汉字组件叫汉字构件(连续笔画的个数可以是由1到整个汉字的笔画个数的任一整数)。

如汉字“寸”，其第一笔、第二笔和第三笔各可组成1个汉字构件；汉字“寸”的第一笔和第二笔，第二笔和第三笔又可以各组成1个汉字构件；汉字“寸”本身也可以组成一个汉字构件。

汉字构件笔顺的定义：一个汉字构件中的全部基本笔画按书写顺序的排序叫该汉字构件的笔顺。笔顺可用X{α、β…γ}表示。其中X为汉字构件，α、β…γ为该汉字构件所有基本笔画按书写顺序的笔画排序。

如汉字构件“寸”的笔顺可记作：寸{一、丨、丶}；

先后笔关系的定义：在同一个汉字构件中，相对于两个基本笔画而言，笔顺序号较小的叫先笔，笔顺序号较大的叫后笔，先笔和后笔的笔画相处关系叫先后笔关系。汉字构件的先后笔关系可用X[δ:ε]表示，其中其中X为汉字构件，δ和ε分别是先笔和后笔的笔顺序号。

在汉字构件“寸”中，各个笔画间的先后笔关系为：寸[1:2]＝

寸[1:3]＝∥、寸[2:3]＝∥。

(六)汉字的字根。

汉字的数量很大，汉字构件的数量更大。但如果将这些汉字构件归纳起来，只考虑其笔顺和先后笔关系时，则这样的汉字构件就减少很多了。

汉字字根的定义：只考虑笔顺和先后笔关系的汉字构件叫做汉字的字根。

如汉字构件“寸”作为字根可以表述为：寸{一、丨、丶}。寸[1:2]＝

寸[1:3]＝∥、寸[2:3]＝∥。

正如基本笔画为抽象的笔画一样，字根为抽象的汉字构件，它不一定有固定的形态，但每个字根又至少代表着一个汉字构件的结构。为便于我们对字根进行分析和运用，一般上段码中文输入法是从同属一个字根的汉字构件中选出一个代表(引读音字根和变读音字根除外)，以它的型态、结构、笔顺和先后笔关系代表这个字根，这样的汉字构件我们称为字根的原形，其它原来与其同属一个字根的汉字构件则称作该字根的变形，记作B∽A，其中B为字根变形，A为字根原形(在后面部分如不特别说明，所讲的字根均指字根的原形)。

(七)字根的读音、笔顺、字根码及在键盘上的键位。

由于字根的读音关系到字根码及字根在键盘上的位置，故字根的读音在段码中文输入法编码中很重要。为使所有字根都取得读音，段码中文输入法把字根分为引读音字根、跟读音字根和变读音字根三类。

1、引读音字根和跟读音字根

段码中文输入法引读音字根有160个，跟读音字根有27个。成字引读音字根直接以其引用字读音作为字根读音[注：在段码中文输入法成字字根里，“口”取字根的似形读(o)]；非成字引读音字根的读音是：先为其定义一个要义，然后取在要义中起主要作用的汉字作为引用字，最后以引用字的读音作为字根读音；对于跟读音字根，不管是不是成字字根，一律取其相对应的引读音字根作为字根读音。引读音字根和跟读音字根的读音及它们的对应关系如附图1所示。

2、变读音字根

变读音字根原本是与某一引读音字根属同一字根的两个不同的汉字构件，如(字根“马”和“纟”)，但由于其形态上的不同而在汉字结构中往往属于不同的汉字部首或汉字部件，而且它们也不便互相取得同声母的读音，因而段码中文输入法在一个字根中分别以它们的形态分出两个字根原形，将它们之中的一个归入引读音字根，而另一个则取一要义后从这个引读音字根中“变”读音而变回其应有的读音，并把其称之为变读音字根。段码中文输入法共有7个变读音字根。7对引读音字根和变读音字根的读音及它们的对应关系如附图2所示。在下面所述的汉字拆分中，引读音字根和变读音字根应作不同的字根选用。

3、字根的笔顺

成字字根的笔顺与其引用字的笔顺相一致；非成字字根的笔顺，与其引用字中对应的汉字构件或与其对应的汉字部首相一致，对无汉字部首相对应或引用字中没有对应的汉字构件的字根，其笔顺取段码中文输入法定义的笔顺。段码中文输入法字根的笔顺如附图3所示。

4、字根的字根码及其在键盘上的键位

字根在取得读音后，其字根码即可按本说明书“(二)汉字码和字根码”的方法取得。段码中文输入法共有194个字根。段码中文输入法字根表和各字根在键盘上的键位如附图4所示。

(八)汉字构件的判定。

由字根的定义可知，一个汉字构件是否属一个字根，不是依据其形态是否相似，而是依据它们的笔顺是否一致，先后笔关系是否相同。

现举几个例子来加以说明：

例1、判定汉字构件“”是否属字根“厶”。

因为{、丶}＝厶{、丶}

[1:2]＝

＝厶[1:2](注意：短点笔画只有中部没有端部)

所以∽厶

例2、判定汉字构件“已”是否属字根“己”。

因为已[2:3]＝

己[2:3]＝

已[2:3]≠己[2:3]

故汉字构件“已”不属于字根“己”。

例3、判定汉字“里”中的汉字构件“土”是否属字根“土”。

汉字“里”中的汉字构件“土”的笔顺为土{丨、一、一}；字根“土”的笔顺为土{一、丨、一}，它们的笔顺不一致，故汉字“里”中的汉字构件“土”不属字根“土”。

例4、判定汉字构件“六”是否属字根

六{丶、一、ノ、丶}＝

{丶、一、ノ、丶

六[1:2]＝∥＝ [1:2]，六[1:3]＝∥＝ [i:3]，六[1:4]＝∥＝ [1:4]，

六[2:3]＝∥＝

[2:3]，六[2:4]＝∥＝ [2:4]，

但是六[3:4]＝∥，

[3:4]＝六[3:4]≠ [3:4]，

故汉字构件“六”不属于字根

由于一个汉字构件先后笔关系的个数是N个相异元素不许重复的2的组合数(N为字根笔画数)，当汉字构件的笔画数增大的时，先后笔关系的个数增加得很快，这使得当汉字构件笔画数增大后(比如当汉字构件笔画数为6个时，则该汉字构件先后笔关系的个数增加到15个)，用先后笔关系进行汉字构件的判定变得十分麻烦。但在另一方面，受汉字结构的规律性的制约，当汉字构件的笔画数增大时，笔顺相同的汉字构件的个数也迅速减少。以段码中文输入法字根的194个字根为例，字根笔画数为2时，与其他字根有相同笔顺的字根有33个；当字根笔画数为3时，与其他字根有相同笔顺的字根有25个；当字根笔画数为4时，与其他字根有相同笔顺的字根有14个；当字根笔画数为5时，与其他字根有相同笔顺的字根只有2个了(字根“罒”和“皿”)；而当字根笔画数为6个以上时，全部字根互相之间都没有相同笔顺的字根，此时仅依据笔顺就可判定其之间是否相属。由于段码中文输入法的字根基本上以汉字部首、汉字部件或可组字汉字作为字根原形，并且已经涵盖了绝大部分汉字的基本结构，所以在汉字拆分时大部分汉字部首、部件可直接与字根原形对号入座(特别是多笔画的汉字构件)，即使汉字部首或部件在不同的汉字中发生了形变，也能从字根的部首或部件属性上轻易判别出来。故在实际进行汉字编码录入时，大多数汉字构件能直观地进行字根的选定。而对一些变形较大的小笔画汉字构件，往往只需关注结构上的某些关键部位，再结合笔顺，亦不难进行字根的选定，很少情况需要象例1-4那样把整个汉字构件全部分解后逐一分析。在经过一段时间使用本输入法后，我们会很快熟悉各种汉字构件与字根的对应关系。

为方便在汉字拆分中进行字根的选定，现把一些变形较大的字根列表如下：

(九)字根在选定中应注意的问题。

在下面所述的汉字拆分中需进行字根选定时，我们应注意在个别情况下，同一汉字构件在汉字的不同位置上有时会发生微小的变形，以致汉字构件发生了改变，但这时该汉字构件作为原有汉字部件的属性并没有改变。在这种情况下，段码中文输入法仍把它们看作是未变形前的汉字构件。如汉字“双”，它是由两个相同的汉字部件“又”组成的，但它左边的汉字构件由“又”变形为

(先后笔关系由

关系变形为关系)，如若把这个汉字构件判定属字根“廴”(笔顺同为“、丶”，先后笔关系同为关系)，这显然不符合该汉字构件在汉字结构中的作为“又”的部件属性，故该汉字构件应判定属字根“又”；又如“兆”和“豕”字的最后二笔应看成由字根

构成。

(十)汉字的拆分排序

汉字的拆分排序是段码中文输入法进行中文输入编码的程序之一。段码中文输入法汉字的拆分排序是指在对每个汉字进行中文输入编码过程中，都应把的汉字拆分为两个或两个以上段码中文输入法字根，并将拆分出来的字根按拆分的先后顺序排列成字根排序。

段码中文输入法对汉字的拆分制定了如下规则：按照笔顺，取大优先，照顾结构，照顾字根，特殊拆分，能连不交，能连不散，兼顾直观。

1、按照笔顺

段码中文输入法对汉字进行拆分的顺序是按照汉字的笔顺进行的，具体方法是从汉字的第一笔起以字根为单位按笔顺一个紧接一个地把汉字进行拆分，直至把整个汉字全部拆分为字根为止。例如，“把”字的拆分是从“把”字的第一笔起按笔顺先拆分出字根“扌”，此时拆分已进行到“把”字的第四笔，再从第四笔起按笔顺拆分出字根“巴”；同样道理，“周”字的拆分是按笔顺先取“

，再取“土”，然后取“口”。

2、取大优先

在按照笔顺为汉字拆分时，不能无限制地选取笔画数小的字根，因为这样有可能会造成将汉字拆分为基本笔画字根，从而使汉字编码复杂化。为了避免这种情况，段码中文输入法制定了“取大优先”的规则，即在按照笔顺为汉字拆分的过程中，如有若干个不同笔画数的字根可选取，则优先选取笔面数目大的字根(当然这个字根的笔画数最大不能等于汉字的笔画数)，使汉字的字根数减少到最小限度。以“环”字的拆分排序为例：第一笔按笔顺可选取的字根有“一”、“二”、“干”、“王”四个字根，取笔画数最多的字根“王”为“环”字的第一排序字根。此时“环”字的拆分已进行到第五笔，该笔按笔顺可选取的字根有“一”、“丆”二个字根，取笔画数最多的字根“丆”为“环”字的第二排序字根。在第七笔，该笔按笔顺可选取的字根有“丨”、“卜”二个字根，取笔画数最多的字根“卜”为“环”字的第三排序字根。至此“环”字全部拆分完毕，故“环”字可拆分为“王丆卜”字根排序。

3、照顾结构

在按取大优先规则对汉字进行拆分时，对由多个汉字结构组成的汉字，应照顾汉字结构的整体性，尽量使汉字的拆分显得更为直观。为此，段码中文输入法规定在进行汉字拆分时，如需由两个(或多个)汉字结构组合成一个字根时，一般情况下只能以完整结构的形式组合成一个字根，而不能把其中一个(或多个

结构拆散后跨结构组合成字根，以照顾汉字结构的整体性。如“旧”字是左右结构的汉字，在进行汉字拆分时如只考虑取大优先规则而不管汉字结构，把左结构的“丨”和右结构的第一笔(将右结构拆散)“丨”组合成字根“‖”以后，那么“旧”字的第二个字根就只能取“彐”，这就破坏了“丨”和“日”作为汉字“旧”的左右结构的整体性，使汉字的拆分变得很不直观。所以对“旧”字的拆分应照顾其左右结构的整体性，不取“‖”、“彐”的字根拆分方案，而应取“丨”、“日”的字根拆分方案。又如汉字“乏”，拆分时不选“八、、”(上部分结构与拆散的下部分结构组合成字根)的字根拆分方案，而应选“ノ、辶”的字根拆分方案；同理，对汉字“贬”拆分时不选“贝、八、、丶”的字根拆分方案，而应选“贝、ノ、辶”的字根拆分方案(小的汉字结构可比照汉字的整体结构进一步细分)；又如汉字“鲠”，拆分时不选“

二、日、乂”(左右结构各拆出一笔组合成字根)的字根拆分方案，而应选“

一、一、日、乂”的字根拆分方案。此外，对含有

一类结构的汉字构件，一律作“ノ

”或“ノ冂”拆分，而不作“

”、“

”或“亻”拆分。如“舟”字应取“ノ、亠、丶”的字根拆分方案，不取“ 、亠、丶”的字根拆分方案；“者”字应取“土、ノ、日”的字根拆分方案，不取“土、亻、彐”的字根拆分方案。

由于在进行汉字拆分时，有相当一部分汉字结构对是否包含汉字构件“亠”、“”和不易区分，为有利于进行字根的迅速选定，作为例外，段码中文输入法允许“亠”、“”和

这三个字根，不管与前后结构是否为整体结合，只要不增加字根拆分个数，都可以按取大优先规则跨结构组合成字根进行汉字的拆分。如“主”字为上下结构(“丶”为上结构，“王”为下结构)的汉字，而对“主”字的拆分应取“亠”、“土”的字根拆分方案，不取“丶”、“王”的字根拆分方案(注意：在进行汉字拆分的过程中，如可选“立”、

或等笔画数大于“亠”的字根的话，则仍按取大优先规则优先选取“立”、或等字根进行汉字的拆分)。

汉字的独体结构一般情况下全部按取大优先规则进行拆分。

4、照顾字根

当按取大优先规则拆分影响到下一字根选取的整体性，从而使整个汉字的字根拆分个数增多时，应照顾下一字根的选取，采用字根拆分个数较少的拆分方案。例如对“遂”字的拆分，如按取大优先规则先取字根“”，则后面部分结构的拆分只能取字根“刀”、

“辶”从而使“遂”字拆分为5个字根。如在选取字根时考虑下一个字根的整体性，对第一个字根选“丷”，那么第二和第三个字根就可选“豕”和“辶”，从而使“遂”字字根拆分个数只有3个，减少了整个汉字字根拆分的个数。在这种情况下，应采用后面的拆分方案。

5、特殊拆分

(1)对全包围、左包围、右上包围型的汉字或汉字构件的拆分。根据字根的定义，字根是汉字构件的一种类型，而汉字构件是由连续笔画所构成的。如按字根的定义及按以上规则对全包围、左包围、右上包围型的汉字或汉字构件进行拆分，有时会使汉字的拆分变得十分零碎和很不直观，现各抽一个汉字举例说明：“国”字拆分为“冂、王、丶、一”字根排序；“区”字拆分为“一、乂、”字根排序；“可”字拆分为“一、囗、丨”字根排序。为使以上结构的汉字拆分字根个数尽可能减少，字根选取更显的直观，段码中文输入法引入了“准字根”的概念：若一个汉字内的两个汉字构件结合起来的组合体，除笔画不连续外，其它方面条件均全部与某一字根相同，则这两个汉字构件的组合体叫做属于这个字根的准字根。

如：国{丨、、X3～7、一丨≈□{丨、、一}

(X3～7为国字第3至第7笔的笔顺排序)

国[1:2]＝

＝□[1:2]

国[1:8]＝

＝□[1:3]

国[2:8]＝

＝□[2:3]

所以国字的第1、2、8笔的组合体是字根“□”的准字根。为使汉字的拆分更直观，汉字拆分的个数更少，段码中文输入法对全包围、左包围、右上包围型的汉字或汉字构件，允许并优先使用准字根采取“先外后内”的拆分方法进行拆分。这样，对上面三个汉字的拆分可分别为；“国”字拆分为“□、王、丶”字根排序；“区”字拆分为“匚、乂”字根排序；“可”字拆分为“丁、□”字根排序。同理，可按同样规则对全包围、左包围、右上包围型的汉字构件进行拆分：如“声”字拆分为“土、尸、丨”字根排序；“其”字拆分为“、二、八”字根排序；“欧”字拆分为“匚、乂、、人”字根排序；“斌”字拆分为“文、一、弋、止”字根排序。

对全包围、左包围、右上包围型的汉字或汉字构件拆分时有两点是需要注意的：一是当应用准字根拆分不但没有减少字根个数，反而增加字根个数时，不应用准字根进行拆分。如“艮”字应用准字根拆分为“巳、一、 ”字根排序，而不用准字根拆分为“彐、 ”字根排序，这时应采用后一种拆分方法；二是在没有准字根参与拆分的情况下，即使是全包围、左包围、右上包围型的汉字或汉字构件，仍应按照汉字或汉字构件的笔顺进行拆分。如“且”字不应作“冂、一、二”拆分(先封口再进入)，而应作“ 一”拆分；“耳”字不应作“丁、十、二”拆分，而应作“丁、丨、三”拆分。

(2)对单笔画汉字的拆分。根据段码中文输入法汉字拆分排序的定义，每个汉字在编码过程中都必须拆分为两个或两个以上段码中文输入法字根，由此，为对单笔画的汉字进行编码，段码中文输入法规定每个单笔画汉字都可拆分为两个与该汉字基本笔画相同的字根。如汉字“一”可拆分为“一、一”字根排字；汉字“乙”可拆分为“、”字根排序。特别例外：汉字“0”可拆分为“□、□”字根排序。

6、能连不交

在对汉字拆分时，如果该字既可以按相连关系拆分，又可以按相交关系拆分时，则以相连关系进行拆分。例如“生”字按相连关系拆分为“ノ、”，如按相交关系拆分为“

丄”。此时应以相连关系拆分为准。但如果按相连关系拆分比相交关系拆分字根数更多的话，则还是以相交关系拆分为准，如“缶”字按相连关系拆分为“、十、凵”，按相交关系拆分为“

山”，则还是以相交关系为准(注意：缶字为独体字，不是下包围型结构汉字)。

7、能连不散

在对汉字拆分时，如果该字既可以以“连”的关系拆分，又可以按“散”的关系拆分时，则以“连”的关系进行拆分。例如“隶”字按“连”的关系拆分为“

丨、

”，如按“散”的关系拆分为“ 丨、冫、 ”。此时应以“连”的关系拆分为准。

8、兼顾直观

(1)段码中文输入法的7个变读音字根和与其对应的7个引读音字根按字根的定义本应属同一字根，故这7对字根在选用时应按其在汉字中的部件属性或直观相似的那个字根选取。

(2)当字根拆分后两个笔画位置与汉字或汉字构件原笔画位置相反或位置变化过大不易辨认时，应照顾直观性，选用其它比较直观的字根，如“兆”字的拆分不取“八、

”的字根排序，而应取“ノ、冫、、 ”的字根排序。

(十一)字根的二次拆分和根首码。

为解决“形”码中识别码难选的问题，段码中文输入法采用对字根进行二次拆分的方法。

字根的二次拆分规则参照汉字的拆分排序规则，要注意的是汉字的独体结构不能当作分部分结构拆分。如独体结构“宀”不能作“丶、冖”拆分，而应作“

”拆分。

根首码是字根拆分排序后排在首位的字根的字根码。如字根二次拆分后的字根排序为“一、冂、儿”，首字根为“一”，则字根二次拆分后的根首码为“H”。

由此段码中文输入法194个字根就对应有194个根首码。中文输入法194个字根拆分后对应的根首码如附图5所示。

(十二)段码中文输入法的分段编码模式。

段码中文输入法对中文输入编码采用分段编码的方法，它可用下面模式表示：

其中：单字的汉字码段编码只有一个，就是该单字本身的汉字码；词组的汉字码段编码为该词组各汉字的汉字码依汉字在词组中的顺序组成的序列；单字的字根码段编码是将该单字按汉字拆分规则拆分出来的字根的字根码依拆分顺序组成的字根码序列；词组的字根码段编码由词组中最末一个汉字的字根码段编码替代；根首码段编码是与字根码段编码各字根对应的根首码按字根码段编码顺序组成的序列。

单字或词组编码的标准编码码长均为四码，在实际编码时，可依据不同的情况对各码段进行取舍。

(十三)段码中文输入法的三种编码方式。

段码中文输入法的输入编码根据输入需要有三种编码方式可供选择：它们是单字纯形编码，单字音形编码和中文词组编码。其中任一汉字都可用单字纯形编码和单字音形编码两种方式进行编码。任一中文词组都可用中文词组编码方式进行编码。

1、单字纯形编码

单字纯形编码是指单个汉字单纯以该汉字的字形依据去进行编码，单字纯形编码的基本模式是：

单字纯形编码＝字根码段编码+根首码段编码

单字纯形编码的具体方法是：

(1)当单字的字根码段编码不足4码时，以根首码段编码依次补足4码作为汉字录入编码。

如“蚌”字的字根码段编码为“UF”，根首码段编码为“OS”，则“蚌”字的纯形标准编码为“UFOS”。

又如“棒”字的字根码段编码为“MUF”，字根码段首字根的根首码为“I”，则“棒”字的纯形标准编码为“MUFI”；

(2)当字根码段编码刚好4码时，以该字根码段编码作为汉字录入编码。

如“睹”字的字根码段编码为“MTPR”，则“睹”字的纯形标准编码为“MTPR”；

(3)当字根码段编码超出4码时，以字根码段编码的前3码和末码依次组成的编码作为汉字录入编码。

如“羹”字的字根码段编码为“QTSQTD”，则“羹”字的纯形标准编码为“QTSD”。

2、单字音形编码

单字音形编码是指单个汉字以该汉字的读音和字形两方面的依据去进行编码，单字音形编码的基本模式是：

单字音形编码＝汉字码段编码+字根码段编码+根首码段编码

其中汉字码段编码只有一个，就是该单字本身的汉字码；根首码段编码也只有一个，就是字根码段首个字根的根首码。

单字音形编码的具体方法是：

(1)当单字的“汉字码段编码+字根码段编码”不足4码时，以根首码段编码补足4码作为汉字录入编码。

以上述的“蚌”字为例：其汉字码为“B”，则其音形标准编码为“BUFO”。

(2)当单字的“汉字码段编码+字根码段编码”刚好4码时，以该“汉字码段编码+字根码段编码”作为汉字录入编码。

以上述的“棒”字为例：其汉字码为“B”，则其音形标准编码为“BMUF”。

(3)当“汉字码段编码+字根码段编码”超出4码时，以“汉字码段编码+字根码段编码”的前3码和末码依次组成的编码作为汉字录入编码。

以上述的“羹”字为例：其汉字码为“G”，则其音形标准编码为“GQTD”。

3、中文词组编码

中文词组编码以该词组中各汉字的顺序、读音和词组中末汉字的字形三方面的依据去进行编码。中文词组编码的基本模式是：

中文词组编码＝汉字码段编码+字根码段编码

中文词组编码的具体方法是：

(1)当汉字码段编码不足4码时，以词组中末汉字的字根码段编码补足4码作为词组录入编码。

以对词组“繁荣”编码为例：其汉字码段编码为“FR”，词组中末汉字“荣”的前2个字根的字根码段编码为“CG”，则词组“繁荣”的标准编码为“FRCG”。

又以对词组“专利局”编码为例，其汉字码段编码为“VLJ”，词组中末汉字“局”的首字根的字根码为“I”，则词组“专利局”的标准编码为“VLJI”。

(2)当词组的汉字码段编码刚好4码时，以该汉字码段编码作为词组录入编码。

以对词组“独具匠心”编码为例：其汉字码段编码为“DJJX”，则词组“独具匠心”的标准编码为“DJJX”。

(3)当词组的汉字码段编码超出4码时，以汉字码段编码的前3码和末码依次组成的编码作为词组录入编码。

以对词组“中华人民共和国”编码为例：其汉字码段编码为“VHRMGHG”，则词组“中华人民共和国”的标准编码为“VHRG”。

(十四)默认上屏栏和选择上屏栏相分离的输入方法

一般来说，当一种输入法的字库量增大时，重码率也会相应增加，段码中文输入法也不例外。况且段码中文输入法在单字输入里还同时兼容了二种输入方式，这也会不同程度增加重码率。为缓解重码率增大给汉字输入造成的影响，段码中文输入法采用了一种默认上屏栏和选择上屏栏相分离的输入方法，具体方法是：

当标准编码发生重复编码时，在四键输满后在输入法界面上把其中一个重复编码的单字或词组显示在默认上屏栏上，其余重码的单字或词组显示在以数字为标题的选择上屏栏上。此时，当需要选择上屏栏的单字或词组上屏时，单击该栏对应的数字标题的数字键即可上屏(对数字标题为1的单字或词组，单击空格键也可使其上屏)；当需要默认上屏栏的单字或词组上屏时，单击任一字符键(数字键除外)即可使其上屏，并同时执行单击该键的操作；当需要默认上屏栏的单字或词组上屏后再输入1个空格时，按住上档键同时单击空格键即可。

当采用上述的输入方法后，相当于在重复编码的字词中除默认上屏的字词外，还多了一个准第四级简化编码(标准编码+空格键输入)，而段码中文输入法的重复编码的字词中，大部分为只有两个。这样，大多数情况下，操作者只须继续下一步操作或单击空格键即可完成重复编码的选择输入。

(十五)段码中文输入法的盲打输入

汉字的盲打输入是一种高速的汉字输入方法，特别是在单纯抄录文稿时，它能有效地减少目光在荧屏和文稿上切换的频度，所以它是一种重要的汉字输入方法。

段码中文输入法的盲打输入方法是；

把在《国家标准GB2312-80字符集》的一级汉字范围内按单字音形编码而重复编码的汉字，优先选定其中一个为默认上屏单字，其余另一个(最多时仅有三个重复编码)汉字以强记方式记住其简化编码，则可实现在大字库范围内按单字音形编码的低误差率盲打录入(当然，有时也可以用单字纯形编码输入，但这会提高误差率)。段码中文输入法的盲打输入方法需强记的汉字的单字音形简化编码有96个，其汉字和编码如附图6所示。

(十六)段码中文输入法的技术效果

段码中文输入法目前已经进行了在数据库上的编码，共收录了汉字13000余个，大部分为简化汉字，也有部分繁体字和异体字，全部用单字音形编码和单字纯形编码两种方式进行编码，能根本上解决生僻字输入难的问题；共收录了词组34000余条，能方便地以词组为单位优先进行输入；其中收录成语8000余条，能使很多忘记字形的汉字也能进行输入；第三级简化编码15000余条，覆盖了第三级简化编码可用码位的85％以上，如以单字音形编码和单字纯形编码及词组编码共60000余条计算，总重码率为35％，在单字音形编码范围内的重码率为17％。在重复编码的字词中，大部分为只有两个重复编码的，在采用默认上屏栏和选择上屏栏相分离的输入方法后，其中有9000余条已选为默认上屏，余下的9000余条余条成为准第四级简化编码，选择上屏栏标题数字在2以后的的字词仅有3000余条，在进行字词使用频率分级后，这3000余字词其本上是生僻字或是较少使用的词组了，而在同一码位重复编码的字词再高不起过10个，这使得选择上屏栏无需翻页检索。由于在一级汉字范围内单字音形重复编码的汉字仅有188个，已将其中的92个设定为默认上屏，在对其余的96个汉字进行简化编码强记后，即可实现单字音形编码的盲打，该盲打方法可覆盖汉字11000余个，因已进行了字词频率的分级处理，该盲打方法误差率当在千分之一以下。

Claims

1、一种计算机汉字编码方法，其特征在于：任一汉字或词组都可以按以下模式进行编码：

2、一种计算机汉字输入方法，其特征在于：单字或词组编码的标准码长为四码，当发生重复编码时，在四键输满后采取默认上屏栏和选择上屏栏相分离的输入方法。

3、根据权利要求1所述的编码方法，其特征在于取汉字(或字根)读音声母对应的英文字母作为该汉字(或字根)的汉字码(或字根码)[当汉字(或字根)读音的声母为zh、ch、sh时，用英文字母V、U、I替代；当汉字(或字根)读音为零声母时，取其第一个拼音字母对应的英文字母作为该汉字(或字根)的汉字码(或字根码)]。

4、根据权利要求1所述的编码方法，其特征在于：字根的定义为：字根是只考虑笔顺和先后笔关系的汉字构件。

5、根据权利要求l所述的编码方法，其特征是：把字根分为引读音字根、跟读音字根和变读音字根三类，再分别定义各类字根取得读音的方式，然后根据其读音确定其字根码及在键盘中的键位。段码中文输入法输入法的194个字根分配及键位如下：

A：爫

B：八贝白巴卜

疒匕

C：寸  艹

廾

D：丶丁刀大癶

E：二儿耳阝 ‖

冫

丷

F：非丰纟



g：广革干工古弓戈

宀冖

H：一禾黑火

I：丨山石十士尸豕礻

J：九几巾己甲臼钅

廴

K：冂凵  匚丂

L：力龙鹿林了立

M：母马目门米皿木朩

N：鸟乃廿女



O：口

P：

扌

Q：七千  犭亠 

R：人

亻彳日曰

S：三罒巳厶氵

彡巛灬

T：土 

镸

U：厂虫车



V： 止兆舟豸隹豕  辶

W：我王兀文攵夂

X：小

 心忄覀夕辛

彐

Y：又幺弋也业羽乂月讠

衤

Z：子早  ナ丆

6、根据权利要求1所述的编码方法，其特征是：汉字码段编码是单字的汉字码或者是词组的汉字码依其对应的汉字在词组中的顺序组成的序列；字根码段编码是将一个汉字拆分为2个以上(含2个)字根的字根码依拆分顺序组成的序列。根首码是将一个字根依汉字拆分规则拆分后排在首位的字根的字根码，根首码段编码是与字根码段编码各字根对应的根首码按相同顺序组成的序列。

7、根据权利要求1所述的编码方法，其特征是：任一汉字都可用单字纯形编码和单字音形编码两种方法进行编码。

8、根据权利要求1所述的编码方法，其特征是：把在《国家标准GB2312-80字符集》的一级汉字范围内按单字音形编码而重复编码的汉字，优先选定其中一个为默认上屏单字，其余另外的汉字以强记方式记住其简化编码，则可实现按单字音形编码的盲打录入。