CN1841365A - 段码中文输入法 - Google Patents
段码中文输入法 Download PDFInfo
- Publication number
- CN1841365A CN1841365A CN 200610054682 CN200610054682A CN1841365A CN 1841365 A CN1841365 A CN 1841365A CN 200610054682 CN200610054682 CN 200610054682 CN 200610054682 A CN200610054682 A CN 200610054682A CN 1841365 A CN1841365 A CN 1841365A
- Authority
- CN
- China
- Prior art keywords
- chinese character
- radical
- coding
- code
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
Abstract
一种计算机汉字编码和重码字词处理方法。它以汉语拼音为“音”的基本依据,以国家《汉字笔顺规范》和《汉字部件规范》为“形”的基本依据,采取“音形结合”和分段编码的编码方法;以“先音后形”的编码方式适应人们的书写习惯;以兼容“纯形编码”的方式解决不懂读音的汉字输入问题;以“音托”和“形托”字根的方式解决字根难记问题;用明确的字根概念解决字根选用模糊问题;用对字根进行拆分的方法,解决“形码”中识别码难选的问题;用“音码”为主的词组输入方法;有效提高输入速度;创造一种默认上屏栏与选择上屏栏相分离的重码字词处理方法,有效缓解重码对中文录入造成的影响;用确保一级汉字上屏的方法,适应一部分有盲打需求的群体。
Description
一、技术领域:本发明涉及一种计算机汉字编码和重码字词处理的方法。
二、背景技术:目前流行的计算机汉字输入法以“五笔字型”为代表的“形码”输入方法和以“智能ABC”、“微软输入法”等为代表的“音码”输入方法,虽然都有各自的优点,但又各自都存在着难以避免的弊端。如“形码”输入方法虽然重码少,速度快,但其低重码率往往是通过缩小字库量,增加字根记忆难度,增加汉字拆分难度等方式获得的,故普遍存在着难掌握,易遗忘,很多非通用字无法输入等弊端;“音码”输入方法虽然简便易学(对熟悉普通话和汉语拼音的人而言),但存在着重码率高,输入速度慢,很多不懂读音的汉字难以输入等弊端,且这种输入方法用久还易造成乱用同音字和“执笔忘字”等毛病。最后,无论是“音码”输入方法还是“形码”输入方法,都不能全面体现汉字“音”、“形”、“义”的基本特征。
三、发明内容:本发明旨在创造一种取两种输入方法之长,避两种输入方法之短,能全面体现我们中华汉字“音”、“形”、“义”基本特征的计算机汉字输入法。
(一)编码的基本模式
段码中文输入法对中文输入编码采取“音形结合”和分段编码的方法,这种编码方法能使中文单字或词组的编码更加科学、简明。段码中文输入法编码的基本模式可用下面式子表示:
单字或词组的编码=汉字码段编码+字根码段编码+根首码段编码
其中,单字或词组编码的标准码长均为4码,在实际编码时,可根据不同的情况对各码段进行取舍。
(二)汉字码和字根码
段码中文输入法取汉字或字根读音的声母作为该汉字或字根的汉字码或字根码,但是,当汉字或字根读音的声母为zh、ch、sh时,用字母V、U、I替代;当汉字或字根读音为零声母时,取其第一个拼音字母作为该汉字或字根的汉字码或字根码。如汉字“贝”(bèi)、“虫”(chóng)、“耳”(ěr)的汉字码分别为“B”、“U”、“E”。
(三)汉字的笔画和基本笔形
段码中文输入法中汉字的书写顺序以国家语言文字工作委员会,国家新闻出版署1997年4月发布的《现代汉语通用字笔顺规范》为依据;汉字基础部件以国家语言文字工作委员会1997年12月发布的《汉字部件规范》为依据。为便于描述和分析汉字的字形,凡本输入法所描述和分析的汉字,主要指国家语言文字工作委员会,国家新闻出版署1988年3月发布的《现代汉语通用字表》的7000个汉字;汉字字体为常规印刷宋体,对字体笔画的起笔、转角、收笔中属美术修饰而加粗、加长部分,本输入法一律予以忽略。
段码中文输入法把汉字的组成分为基本笔形、字根、汉字三个层次。
段码中文输入法对汉字笔画的定义是:构成汉字字形的最小连笔单位称作笔画。
汉字的笔画形态非常多,但如果只考虑笔画的运笔方向,不考虑笔画的长短或轻重,则汉字的笔画可以归纳为五种:横(héng)、竖(shù)、撇(piě)、点(diǎn)、折(zhé),汉字的这五种笔画称为汉字的基本笔形,段码中文输入法将其分别记作“一”、“丨”、“ノ”、“丶”、“”,其编码符号及键位取这五个汉字的汉字码,分别为“H”、“I”、“P”、“D”、“V”。
段码中文输入法对一些笔画的变形作如下规定:
1、“提”归于基本笔形“横”。例如汉字“冷”的第2笔;汉字“地”的第3笔。
2、“竖左钩”归于基本笔形“竖”。例如汉字“了”的第2笔;汉字“利”的最后一笔。
3、“捺”归于基本笔形“点”。例如汉字“八”的第2笔;汉字“禾”的最后一笔。
4、有些长度很短,笔画先轻后重,我们通常称为“斜点”和“竖点”的汉字笔画,这类笔画作为例外主要考虑笔画的长短或轻重。为易于区别,段码中文输入法把它们称作“短点笔画”。短点笔画归于基本笔形“点”。例如汉字“心”的第1笔(竖点)和第3、4笔(斜点)都是短点笔画,它们都归于基本笔形“点”。
5、所有带转折、拐弯的笔画均归于基本笔形“折”(笔画“竖左钩”除外)。例如汉字“又”的第1笔;汉字“儿”的第2笔。
汉字五种基本笔形的标记、读音、编码符号、键位、运笔方向及笔画的变形如下表所示:
(四)两个笔画之间的相对位置关系
1、笔画的构成
一个笔画由它的笔首、笔身和笔尾3个部分构成,其中笔首和笔尾可统称为笔端。
笔画的笔首(或笔尾)是指从笔画的起笔端点(或收笔端点)起沿运笔方向(或运笔相反方向)量得长度等于笔画直径的那一段笔画,其中笔画的直径是指笔画所在字体中或参与讨论研究的各笔画中最粗的那一段笔画的直径;笔画的笔身为该笔画除了两个笔端外余下的(或中间的)那一段笔画。
特殊例外:短点笔画只有笔身而没有笔端。
2、连结两个笔画的两种基本形式
当两个笔画的笔端与笔端、笔身与笔端或笔端与笔身相连结时,则称这种笔画连结形式为相接形式,其连结部位叫相接部。如汉字“厂”(笔端与笔端相连结)、汉字“人”(笔身与笔端相连结)和汉字“匕”(笔端与笔身相连结)的两个笔画都是以相接形式相连结,这三个汉字内的两个笔画的连结部位都叫两个笔画的相接部;当两个笔画的笔身与笔身相连结且每个笔画都有笔画的一部分分别落在另一个笔画的两侧时,则称这种笔画连结形式为相交形式,其连结部位叫相交部。如汉字“九”的两个笔画以相交形式相连结,这两个笔画的连结部位就叫两个笔画的相交部。
3、两个笔画之间的相对位置关系(可简称为笔画关系)
假定笔画A比笔画B的书写顺序在先,则这两个笔画之间的相对位置关系可分为:
(1)当笔画A与笔画B在笔首相接而其它部分互不连结时,则称这两个笔画为笔首单接关系,可用符号
表示。如汉字“厂”的两个笔画为
关系。
(5)当笔画A的笔身与笔画B的笔首相接而其它部分互不连结时,则称笔画A与笔画B为身首单接关系,可用符号
表示。如汉字“写”的第一笔与第二笔为
关系(注意:因为短点笔画只有笔身而没有笔端,所以这两个笔画不能看成是
关系)。
(9)当笔画A与笔画B的笔身各有一个相接部时,则称这两个笔画为笔身双接关系,可用符号
表示。如汉字“互”的第二笔与第三笔为
关系。
(12)当笔画A与笔画B之间既没有相接部,也没有相交部时,则称这两个笔画为相离关系,可用符号“//”表示。如汉字“二”的两个笔画为“//”关系,汉字“膏”的前二笔也为“//”关系(注意:因为短点笔画没有笔端,所以这两个笔画不能看成是
关系)。
段码中文输入法把汉字内部的两个笔画之间的相对位置关系分为以上12种关系,并规定每两个笔画的关系只能且必须属于其中一种笔画相对位置关系。
(五)汉字构件
汉字的字形是汉字的各笔画按书写顺序和字的结构组成的图形。如果我们试图按书写顺序对汉字以“形”编码,则经常需要取若干个按书写顺序连续的笔画在保持原结构的状态下进行分析,这部分笔画组成的结构就是下面所述的“汉字构件”。
汉字构件的定义:由若干个按书写顺序连续的笔画构成的汉字组件叫汉字构件(连续笔画的个数可以是由1到整个汉字的笔画个数的任一自然数)。
如汉字“子”,其第一笔、第二笔和第三笔各可组成一个汉字构件;汉字“子”的第一笔和第二笔、第二笔和第三笔又可以各组成一个汉字构件;汉字“子”本身也可以组成一个汉字构件。
汉字构件笔顺的定义:一个汉字构件中的全部笔画所属的基本笔形按书写顺序的排列叫该汉字构件的笔顺。汉字构件的笔顺可用X{a、b…c}表示。其中X为汉字构件,a、b…c为该汉字构件全部笔画所属的基本笔形按书写顺序的排列。如汉字构件“子”的笔顺可记作:子{、丨、一}。
先后笔关系的定义:在同一个汉字构件中,相对于两个笔画而言,书写顺序在先的叫先笔,书写顺序在后的叫后笔,先笔和后笔的笔画相对位置关系叫先后笔关系。汉字构件的先后笔关系可用X[m:n]表示,其中X为汉字构件,m和n分别是先笔和后笔的书写顺序排序号。
(六)汉字的字根
从汉字构件的定义可知,汉字构件能够分别表示所有汉字中各个笔画数层次的按书写顺序笔画连续的汉字组件的结构,因此可以用这些有准确定义的结构对汉字进行粗细自如的拆分。但另一方面,汉字的数量很大,汉字构件的数量更大,因而使用全部的汉字构件对汉字进行编码是很不现实的。但如果将这些汉字构件归纳起来,只考虑其笔顺和先后笔关系,即以笔顺和先后笔关系来对汉字构件进行归类,并从中选出最有代表性的汉字构件类别,则利用这部分汉字构件类别方便地对所有汉字进行拆分和编码是可能的。
汉字的字根的定义:笔顺和先后笔关系都分别相同的汉字构件类别叫做汉字的字根。
所以这几个汉字构件组成的类别叫做笔顺为“ノ、”先后笔关系为
的字根。
当汉字构件只有一个笔画时,因为没有先后笔关系,笔顺成为只有这个笔画所属的基本笔形的排列,笔顺相同的汉字构件类别也就成为基本笔形,所以这时汉字的字根为该笔画所属的基本笔形。
如所有归于基本笔形“折”的笔画均属于字根“”。
因为字根是汉字构件的类别,所以它不一定有固定的形态,为便于对字根进行分析和运用,一般段码中文输入法是从同属一个字根的汉字构件中选出一个代表(7个变读音字根和它们对应的7个引读音字根除外,后面章节再加以说明),以它的形态、结构、笔顺和先后笔关系代表这个字根,这样的汉字构件称为字根的原形,其余原来与这个代表同属一个字根的汉字构件称作该字根的变形。当汉字构件A和B同属一个字根且选用汉字构件A作为字根原形时,也可以称汉字构件B属于字根A。例如汉字构件“”、“勹”、
都同属一个字根,段码中文输入法选其中的汉字构件“”代表这个字根,则汉字构件“”就是字根的原形,汉字构件“勹”、
是字根“”的变形,汉字构件“勹”、
都属于字根“”(在后面如不特别说明,所讲的字根均指字根的原形)。
(七)字根的读音、笔顺、字根码及在键盘上的键位
由前面“(二)汉字码和字根码”可知,字根的读音关系到字根码的取得及字根在键盘上的位置,故字根的读音在段码中文输入法中很重要。为使所有段码中文输入法字根(后面所述的字根均指段码中文输入法选用的字根)都取得读音,段码中文输入法把字根按读音的取得方式分为引读音字根、跟读音字根和变读音字根三类。
1、引读音字根和跟读音字根
段码中文输入法引读音字根有155个,跟读音字根有26个。
成字引读音字根直接以其引用字读音作为字根读音[注:在成字字根里,“口”取字根的似形读(o)]。如成字引读音字根“米”,它的读音直接用它的引用字“米”的读音读“mǐ”。
非成字引读音字根的读音是:先为其定义一个要义,然后取在要义中起主要作用的汉字作为引用字,最后以引用字的读音作为字根读音。如非成字引读音字根“钅”,我们先为其定义一个要义叫“金字旁”,然后取在要义中起主要作用的“金”字作为引用字,最后以引用字“金”的读音“jīn”作为字根“钅”的读音。
引读音字根和跟读音字根的读音及它们的对应关系如附图1所示。
2、变读音字根
变读音字根原本是与某一引读音字根属同一字根的两个不同的汉字构件(如字根“马”和“纟”),但由于其形态上的不同而在汉字结构中往往属于不同的汉字部首或汉字基础部件(汉字基础部件可简称为部件),而且它们也不便互相取得同声母的读音,因而段码中文输入法在同属一个字根的汉字构件类别中分别以它们的形态分出两个字根原形,将它们之中的一个归入引读音字根,而另一个则取一要义后从这个引读音字根中“变”读音而变回其应有的读音,并把其称为“变读音字根”。段码中文输入法共有7个变读音字根。7对引读音字根和变读音字根的读音及它们的对应关系如附图2所示。在下面所述的汉字拆分中,这7对引读音字根和变读音字根应作不同的字根选用。
3、字根的笔顺
成字字根的笔顺取其引用字的笔顺;非成字字根的笔顺,取其引用字中对应的汉字构件或与其对应的部件的笔顺,对无部件相对应或引用字中没有对应的汉字构件的字根,其笔顺取段码中文输入法定义的笔顺。段码中文输入法字根的笔顺如附图3所示。
4、字根的字根码及其在键盘上的键位
字根在取得读音后,其字根码即可按“(二)汉字码和字根码”的方法取得。段码中文输入法共选用了188个字根。段码中文输入法字根表和各字根在键盘上的键位如附图4所示。
(八)字根的判定
由字根的定义可知,一个汉字构件是否属一个字根,不是依据其形态是否相似,而是依据它们的笔顺是否一致,先后笔关系是否相同。
现在举几个例子加以说明:
例1、判定汉字构件“”是否属字根“厶”。
解:因为{、丶}=厶{、丶}
所以汉字构件“”属于字根“厶”。
例2、判定汉字构件“已”是否属字根“己”。
故汉字构件“已”不属于字根“己”。
例3、判定汉字“里”中的汉字构件“土”是否属字根“土”。
解:汉字“里”中的汉字构件“土”的笔顺为土{丨、一、一};字根“土”的笔顺为土{一、丨、一},它们的笔顺不一致,故汉字“里”中的汉字构件“土”不属字根“土”。
解:六{丶、一、ノ、丶}=
{丶、一、ノ、丶}。
由于一个字根先后笔关系的个数是N个相异元素不许重复的2的组合数(N为字根笔画数),当字根的笔画数慢慢增加时,先后笔关系的个数增加得很快(比如当字根笔画数增加到6个时,该字根先后笔关系的个数增加到了15个),这使得当字根笔画数增大后,用先后笔关系进行字根的判定变得十分麻烦。但在另一方面,受汉字结构规律性的制约,当字根的笔画数增加时,笔顺相同的字根的个数也迅速减少,当字根笔画数增加到一定数量时,所有字根的笔顺都不相同了,此时仅依据笔顺就可判定其之间是否相属。以段码中文输入法的188个字根为例,当字根笔画数为2时,52个字根中有两个以上笔顺相同的有43个;随着字根笔画数的增加,笔顺相同的字根个数也迅速减少,当字根笔画数为5时,23个字根中只有2个笔顺相同的了(字根“罒”和“皿”);而当字根笔画数为6个以上时,全部字根互相之间都没有相同的笔顺,此时仅依据笔顺就可判定其之间是否相属了。
由于段码中文输入法的字根基本上以汉字部首、汉字基础部件或可组字汉字作为字根原形,所以在汉字拆分时这些汉字部首、部件可直接与字根原形对号入座(特别是多笔画的汉字构件),即使有些汉字部首或部件在不同的汉字中发生了形变,也能从字根原形的部首或部件属性上比较容易地判别出来。故在实际进行汉字拆分时,大多数汉字构件都能直观地进行字根的判定。而对一些变形较大的小笔画汉字构件,往往只需关注结构上的某些关键部位,再结合笔顺,亦不难进行字根的判定,很少情况需要象例1、例4那样把整个汉字构件全部分解后逐一分析。在经过一段时间使用本输入法后,我们会很快熟悉各种汉字构件与字根的对应关系。
为方便在下面所述的汉字拆分中进行字根的判定,现把一些变形较大的字根列表如下:
(九)在进行字根判定时应注意的问题
在进行字根判定时,还应注意在个别情况下,同一部件在汉字的不同位置有时会发生微小的变形,以致当它作为汉字构件时的字根属性发生了改变,而这时该部件的部件属性并没有改变。在这种情况下,段码中文输入法仍把该汉字构件看作是未变形前的部件的结构。如汉字“双”是由两个相同的部件“又”组成的,但它左边的部件由“又”变形为“ヌ”(先后笔关系由
关系变形为
关系),如果判定这个汉字构件属字根“廴”(笔顺同为“、丶”,先后笔关系同为
关系),显然不符合这个“ヌ”仍然是部件“又”的部件属性。故在进行字根判定时应把左边变形后的“ヌ”看作是未变形时的部件“又”的结构,即应判定汉字构件“ヌ”属字根“又”;同理,不应判定“兆”和“豕”字的最后二笔属字根“八”和“人”,而应判定属字根
(尽管
并不是汉字基础部件,但却是一种常见的汉字基础结构)。
(十)汉字的拆分规则
汉字的拆分是段码中文输入法进行字根码取码的必要前提。段码中文输入法汉字的拆分是指在进行字根码取码前,都应把汉字拆分为两个以上(含两个)段码中文输入法字根,并将拆分出来的字根按拆分的先后顺序排列成字根排列。
段码中文输入法对汉字的拆分制定了如下规则:书写顺序,取大优先,照顾部件,特殊拆分,兼顾直观。
1、书写顺序
段码中文输入法对汉字进行拆分的顺序是按照汉字的书写顺序进行的,具体方法是从书写汉字的第一笔起以字根为单位按书写顺序一个紧接一个地把汉字进行拆分,直至把整个汉字全部拆分为字根为止。例如,“把”字的拆分是从“把”字的第一笔起按书写顺序先拆分出字根“扌”,此时拆分已进行到“把”字的第四笔,再从第四笔起按书写顺序拆分出字根“巴”,所以“把”字可拆分为字根排列“扌、巴”;同样道理,“周”字的拆分是按书写顺序先取字根
再取字根“土”,然后取字根“口”,所以“周”字可拆分为字根排列
土、口”。
2、取大优先
在按照书写顺序将汉字拆分时,不能无限制地选取笔画数小的字根,因为这样会造成所有汉字都被拆分为基本笔形字根,使汉字编码复杂化。为了避免这种情况,段码中文输入法制定了“取大优先”的规则:在按照书写顺序为汉字拆分的过程中,如有若干个不同笔画数的字根可选取,则优先选取笔画数大的字根(当然这个字根的笔画数最大不能等于汉字的笔画数),使汉字拆分的字根数减少到最小限度。以“环”字的拆分为例:第一笔按书写顺序可选取的字根有“一”、“二”、“干”、“王”四个字根,取笔画数最多的字根“王”为“环”字的第一排序字根。此时“环”字的拆分已进行到第五笔,该笔按书写顺序可选取的字根有“一”、“丆”二个字根,取笔画数最多的字根“丆”为“环”字的第二排序字根。在第七笔,该笔按书写顺序可选取的字根有“丨”、“卜”二个字根,取笔画数最多的字根“卜”为“环”字的第三排序字根。至此,“环”字全部拆分完毕,故“环”字可拆分为字根排列“王、丆、卜”。
3、照顾部件
在按取大优先规则对汉字进行拆分时,对由多个汉字基础部件组成的汉字,一般情况下都应照顾部件的整体性,尽量使汉字的拆分与汉字的部件组成一致。为此,本输入法规定在进行汉字拆分时,如需将两个以上(含两个)部件组合成一个字根,一般情况下只能以完整部件的形式互相组合,而不能将任一部件拆散后跨部件组合成字根。如“旧”字是由“丨”和“日”两个部件左右结合而成的汉字,在进行汉字拆分时如只考虑取大优先规则而不管汉字的结构,把左边部件“丨”和右边部件“日”的第一笔“丨”(将部件“日”拆散)组合成字根“‖”。那么,“旧”字的第二个字根就只能取“彐”,这就破坏了“丨”和“日”作为汉字“旧”的左右结构的整体性,使汉字的拆分与汉字的部件组成不一致。所以对“旧”字的拆分应照顾部件的整体性,不取“‖、彐”的字根拆分方案,而应取“丨、日”的字根拆分方案;又如对汉字“出”的拆分,不取“凵、山”的字根拆分方案(拆开第一个部件“屮”的第三笔“丨”与第二个部件“凵”组合成字根“山”),而应取“凵、丨、凵”的字根拆分方案。
对单个汉字基础部件拆分一般情况下仍按取大优先规则进行。如独体字“示”作“二、小”拆分。但拆分时如前面字根按取大优先拆分影响到后面字根选取的整体性,使该部件拆分字根个数增多时,应照顾后面字根的选取,采用字根拆分个数较少的拆分方案。如汉字基础部件“牜”不作“、丨、一、”拆分,而应作“ノ、扌”拆分。
因为《汉字部件规范》中有些部件在组配汉字过程中有时候并不按照书写顺序来组配,所以本输入法规定:在部件与书写顺序不一致的地方,以书写顺序为准(后面“4、特殊拆分”所规定的特殊的汉字和汉字构件除外)。如汉字“巫”不作“工、人、人”拆分,而应作“丁、人、人、一”拆分。
前面已经说过,在按取大优先规则对汉字进行拆分时,对由多个部件组成的汉字,一般情况下都应照顾部件的整体性。也就是说,在一般情况下是照顾部件优先于取大优先。但是在下面特殊情况下,段码中文输入法则规定取大优先优先于照顾部件:
(1)在对多部件汉字拆分时,由于有相当一部分汉字不易判断是否包含部件“亠”、“”和
为有利于字根的迅速选定,作为例外,段码中文输入法允许“亠”、“”和
这三个字根,不管前后部件是否被分割,只要不增加字根拆分个数,都可以按取大优先规则跨部件组合成字根。如汉字“主”由部件“丶”、“王”结合而成,而对“主”字的拆分应取“亠、土”的字根拆分方案,不取“丶、王”的字根拆分方案(注意:在进行汉字拆分的过程中,如可选“立”、
或
等笔画数大于“亠”的字根且能够照顾部件的话,则仍按取大优先规则优先选取“立”、
或
等字根进行汉字的拆分)。在运用“亠”、“”和
这三个字根对汉字进行拆分时,若前面字根按取大优先拆分影响到后面字根选取的整体性,从而使汉字拆分的字根个数增多时,应照顾后面字根的选取,采用字根拆分个数较少的拆分方案。例如对“遂”字的拆分,不取“、、
辶”的字根拆分方案,而应取“丷、豕、辶”的字根拆分方案。
(2)有些汉字在相同部位具有某个相同的汉字构件(如汉字“页、夏、面、而、石、不、豕”和“百”在头二笔均具有汉字构件“丆”),一般按取大优先规则选用该汉字构件作字根都没有出现将任一部件拆散后跨部件组合成字根的情况(如“页、夏、面”的第一个部件均为汉字构件“丆”,“而、石、不、豕”为独体字,它们拆分时第一个字根都可取“丆”),仅在个别汉字中选用该汉字构件作字根会出现将部件拆散后跨部件组合成字根的情况(如汉字“百”的部件结构为“一”、“白”上下结合)。
为有利于字根的迅速选定,除上述字根“亠”、“”和
外,下面汉字或汉字结构也可按取大优先规则选用字根,它们分别是“百”(“丆”为应选的第一排序字根);“亏”、“亍”、“元”(“二”为应选的第一排序字根);“生”、“失”、“朱”
为应选的第一排序字根);“无”(“二”为应选的第一排序字根)。如“百”字不应作“一、白”拆分,而作应“丆、日”拆分;“行”字不应作“彳、一、丁”拆分,而作应“彳、二、丨”拆分。
4、特殊拆分
在对汉字进行拆分时,对一些特殊的汉字和汉字构件,要采用一些特殊的拆分方法。
(1)对全包围、左包围、右上包围型的汉字或汉字构件的拆分。根据字根的定义,字根是汉字构件的类别,而汉字构件是由连续笔画所构成的。如按字根的定义及按以上规则对全包围、左包围、右上包围型的汉字或汉字构件进行拆分,往往会使汉字的拆分变得十分零碎和很不直观。各举一个汉字为例:“国”字拆分为字根排列“冂、王、丶、一”;“区”字拆分为字根排列“一、乂、”;“可”字拆分为字根排列“一、口、丨”。
为使全包围、左包围、右上包围型的汉字或汉字构件拆分的字根个数尽可能减少,字根的选取更直观,段码中文输入法引入了“准字根”的概念:假如一个汉字内的两个汉字构件相隔若干笔画,当将相隔的笔画予以忽略后,这两个汉字构件按原结构结合起来的组合体属于某一字根,则该组合体叫做属于这个字根的准字根。
如“国”字的汉字构件“冂”和最末一笔“一”相隔汉字构件“玉”的5个笔画,若将那5个笔画予以忽略,则其按原结构结合起来的组合体为“口”,它显然属于字根“口”。所以“国”字的汉字构件“冂”和最末一笔“一”按原结构结合起来的组合体是字根“口”的准字根。
为使汉字的拆分更直观,汉字拆分的字根个数更少,段码中文输入法对全包围、左包围、右上包围型的汉字或汉字构件,允许且优先使用准字根并采用“先外后内”的拆分方法进行拆分。这样,对上面三个汉字的拆分可分别为:“国”字拆分为字根排列“口、王、丶”;“区”字拆分为字根排列“匚、乂”;“可”字拆分为字根排列“丁、口”。同理:“声”字可拆分为字根排列“士、尸、丨”;“其”字可拆分为字根排列“、二、八”;“欧”字可拆分为字根排列“匚、乂、、人”;“斌”字可拆分为字根排列“文、一、弋、止”。
将全包围、左包围、右上包围型的汉字或汉字构件拆分时有两点是需要注意的:一是若应用准字根拆分不但没有减少字根个数,反而增加字根个数,就不能应用准字根进行拆分。如“艮”字应用准字根时拆分为字根排列“巳、一、
而不应用准字根时拆分为字根排列“彐、
这时应采用后一种拆分方法:二是在没有准字根参与拆分的情况下,即使是全包围、左包围、右上包围型的汉字或汉字构件,也应按照汉字或汉字构件的书写顺序进行拆分。如“且”字不应作“冂、一、二”拆分(先封口再进入),而应作“冃、一”拆分;“耳”字不应作“丁、十、二”拆分,而应作“丁、丨、三”拆分。
(2)对单笔画汉字的拆分。由于在进行字根码取码前,都应把汉字拆分为两个以上(含两个)字根。为了使单笔画汉字也能够进行字根码取码,本输入法规定每个单笔画汉字都可拆分为两个与该汉字基本笔形相同的字根。如汉字“一”可拆分为“一、一”字根排列:汉字“乙,,可拆分为“、”,字根排列。特殊例外:汉字“O”可拆分为“口、口”字根排列。
5、兼顾直观
(1)段码中文输入法的7对引读音字根和变读音字根按字根的定义本应分别属同一个字根,但在汉字拆分中每一对字根都作不同的字根使用,因此在每一对字根中选用哪一个时应按其在汉字中的部件属性相同或直观相似的那个字根选取。如“吉”字应作“士、口”拆分,不作“十、口”拆分:“走”字应作“土、
”拆分,不作“士、
”拆分:“丹”字应作
亠”拆分,不作“几、亠”拆分,“风”字应作“几、乂”拆分,不作
乂”拆分。
(2)若汉字拆分后两个笔画的位置与汉字原笔画位置相反,或与常见的汉字结构比较变化过大不易辨认,应兼顾直观,选用其它比较直观的字根。如独体字“兆”不作“八、一、、拆分,而应作“ノ、冫、、
拆分;又如独体字“舟”不作“
、、亠、丶”拆分,而应作“ノ、
亠、丶”拆分:再如汉字“既”不作“彐、厶、一、力、”拆分,而应作“彐、厶、一、、儿”拆分。
对一些常见的汉字结构的拆分,附图5“常见汉字结构拆分示例”中给出了示例,它可以帮助学习者快速掌握汉字拆分的方法。
(十一)字根的拆分及根首字根和根首码
为解决“形码”中“识别码”难选的问题,段码中文输入法采取对字根进行拆分后再取根首码作为“识别码”的方法。
一个字根拆分后排在首位所得的字根叫该字根的根首字根,所得根首字根的字根码是该字根的根首码。如字根“革”拆分后的字根排列为“廿、口、十”,则字根“革”的根首字根为“廿”,根首码为“N”。由此段码中文输入法188个字根就对应有188个根首字根和188个根首码。段码中文输入法188个字根拆分后对应的根首字根如附图6所示。
(十二)段码中文输入法分段编码的基本模式
段码中文输入法对中文输入编码采用分段编码的方法,其编码的基本模式可用下式表示:
单字或词组的编码=汉字码段编码+字根码段编码+根首码段编码
其中:单字的汉字码段编码最多只有一个编码,就是该单字本身的汉字码,词组的汉字码段编码是该词组各汉字的汉字码依其对应的汉字在词组中的顺序组成的排列;单字的字根码段编码是该单字按汉字拆分规则拆分出来的字根的字根码依其对应的字根在字根排列中的顺序组成的排列,词组的字根码段编码是词组中各汉字的字根码段编码的第二个字根码依其对应的汉字在词组中的顺序组成的排列;根首码段编码是单字拆分出来的各字根的根首码依其对应的字根在字根排列中的顺序组成的排列。
单字或词组的标准编码码长均为4码,在编码中:
1、当前面码段编码不足4码时,以后面码段编码依次补足4码作为标准编码;
2、当前面码段编码超出4码(含4码)时,舍去后面码段编码,取前3码和末码作为标准编码。
(十三)段码中文输入法三种编码的条件模式
在段码中文输入法编码的基本模式下,依据提供的字词条件有三种编码的条件模式可供选择:单字纯形编码模式、单字音形编码模式和词组编码模式,其中任一汉字都可用单字纯形编码模式和单字音形编码模式两种条件模式进行编码,任一词组都可用词组编码模式进行编码。
1、单字纯形编码模式
单字纯形编码模式是指单个汉字单纯依据该汉字的字形的条件进行编码的模式。单字纯形编码模式可用下式表示:
单字纯形编码=字根码段编码+根首码段编码
单字纯形编码的具体方法是:
(1)当字根码段编码不足4码时,以根首码段编码依次补足4码作为汉字的标准编码。
如“时”字的字根码段编码为“RC”,“时”字拆分出来的字根“日”和“寸”的根首码分别为“O”和“I”,即根首码段编码为“OI”,所以“时”字的纯形编码为“RCOI”;
又如“棒”字的字根码段编码为“MUF”,“棒”字在拆分时排在第一的字根“木”的根首码为“I”,则“棒”字的纯形编码为“MUFI”。
(2)当字根码段编码超出4码(含4码)时,舍去根首码段编码,以字根码段编码的前3码和末码组成的编码作为汉字的标准编码。
如“睹”字的字根码段编码为“MTPR”,则“睹”字的纯形编码为“MTPR”;
又如“羹”字的字根码段编码为“QTSQTD”,则“羹”字的纯形编码为“QTSD”。
2、单字音形编码模式
单字音形编码模式是指单个汉字依据该汉字的读音和字形两个方面的条件进行编码的模式。单字音形编码模式可用下式表示:
单字音形编码=汉字码段编码+字根码段编码+根首码段编码
其中汉字码段编码只有一个编码,就是该单字本身的汉字码;根首码段编码最多只有一个编码,就是该单字在拆分时排在第一的字根的根首码。
单字音形编码的具体方法是:
(1)当单字的“汉字码段编码+字根码段编码”不足4码时,以该单字在拆分时排在第一的字根的根首码补足4码作为汉字的标准编码。
以上述的“时”字为例:其汉字码为“I”,字根码段编码为“RC”,“时”字在拆分时排在第一的字根“日”的根首码为“O”,则其音形编码为“IRCO”。
(2)当“汉字码段编码+字根码段编码”超出4码(含4码)时,舍去根首码段编码,以“汉字码段编码+字根码段编码”的前3码和末码组成的编码作为汉字的标准编码。
以上述的“棒”字为例:其汉字码为“B”,字根码段编码为“MUF”,则其音形编码为“BMUF”;
再以上述的“羹”字为例:其汉字码为“G”,字根码段编码为“QTSQTD”,则其音形编码为“GQTD”。
3、词组编码模式
词组编码模式是指词组依据该词组中各汉字的顺序、读音和字形三个方面的条件进行编码的模式。词组编码模式可用下式表示:
词组编码=汉字码段编码+字根码段编码
词组编码的具体方法是:
(1)当汉字码段编码不足4码时,以词组中各汉字的字根码段编码的第一个字根码依次补足4码作为词组的标准编码。
以对词组“繁荣”编码为例:其汉字码段编码为“FR”,词组中汉字“繁”的字根码段编码为“NMWYX”,汉字“荣”的字根码段编码为“CGM”,词组中汉字“繁”和“荣”的字根码段编码的第一个字根码分别为“N”和“C”,则词组“繁荣”的标准编码为“FRNC”。
又以对词组“专利局”编码为例,其汉字码段编码为“VLJ”,词组中首汉字“专”的字根码段编码的第一个字根码为“E”,则词组“专利局”的标准编码为“VLJE”。
(2)当词组的汉字码段编码超出4码(含4码)时,舍去字根码段编码,以汉字码段编码的前3码和末码组成的编码作为词组的标准编码。
以对词组“独具匠心”编码为例:其汉字码段编码为“DJJX”,则词组“独具匠心”的标准编码为“DJJX”;
又以对词组“中华人民共和国”编码为例:其汉字码段编码为“VHRMGHG”,则词组“中华人民共和国”的标准编码为“VHRG”。
(十四)默认上屏栏与选择上屏栏相分离的重码字词处理方法
一般来说,当一种输入法的字词库量增大时,重码率也会相应增大,段码中文输入法也不例外。况且段码中文输入法在单字录入里还同时兼容了二种编码的条件模式,这也会不同程度增大重码率。为减少重码率增大给中文录入造成的影响,段码中文输入法创造了一种默认上屏栏与选择上屏栏相分离的重码字词处理方法,具体是:
当标准编码发生重码时,在输满标准编码后把其中一个重码字词显示在输入法提示窗口的默认上屏栏上(该栏可单独设一个提示框,置于光标所处的位置上,提示框不设边框,提示框的字词用反色显示,使其在视觉上跟已上屏的字词的区别仅为反色显示,提示框仅在重码字词输满标准编码后才出现),其余重码的字词显示在以数字为标题的选择上屏栏上。此时,有三种输入方法可供选择:
1、若击打对应数字标题的数字键,则可使该数字标题栏的字词上屏。对数字标题为1的字词,击打空格键也可使该栏字词上屏(用鼠标单击任一栏字词也可以使其上屏);
2、若击打任意一个字符键(数字键和空格键除外),则首先使默认上屏栏的字词上屏,紧接着又执行击打该键的指令;
3、若按下或击打Shift键或Ctrl键,则仅使默认上屏栏的字词上屏,不再执行其它指令。
以输入标准编码“CMCI”为例,它有“村”、“草木”和“萛”三个重码字词。当标准编码“CMCI”全部输入后,汉字“村”作为默认上屏字词显示在荧屏光标所处的位置上(在视觉上它跟已上屏的“村”字的区别仅为反色显示),“草木”和“算”这二个字词显示在选择上屏提示框里面,数字标题分别为“1”和“2”。此时:
当需要“萛”字上屏时,击一次数字键“2”即可;
当需要词组“草木”上屏时,击一次空格键即可(当然,击一次数字键“1”也可使其上屏,但恐怕没有击打一次空格键来得方便);
当需要在录入汉字“村”以后紧接着要输入其它字符时(数字和空格除外),可把“村”字当作已上屏,直接输入其它字符,在击打第一个字符键时,“村”字正式上屏,随后紧接着执行击打该键的指令。
若在录入汉字“村”以后,不打算紧接着输入其它字符(比如准备在录入“村”字后再输入空格),按下或击打Shift键或Ctrl键,则仅使“村”字上屏,不再执行其它指令(这时可以再输入空格)。
在采用上述的重码字词处理方法后,相当于在重码的字词中除默认上屏字词和数字标题为2以上的选择上屏字词外,还有了一个准第四级简码(数字标题为1的选择上屏字词可使用标准编码+空格键的方法输入),而段码中文输入法的重码字词中,大部分为只有两个。这样,在中文录入时即使发生了重码,但在大多数情况下,操作者只须继续下一步操作或击打空格键即可完成重码的选择输入。由于段码中文输入法在字词库中已进行了高频字词在前的频率分级处理,使得操作者很少需要使用数字键来进行字词选择输入。
(十五)段码中文输入法的盲打输入
汉字的盲打输入是一种高速的汉字输入方法,特别是在单纯抄录文稿时,它能有效地减少目光在荧屏和文稿上切换的频率,所以它是一种重要的汉字输入方法。
段码中文输入法的盲打输入方法是;
在全部收录字词范围内重码的字词中把单字音形编码设定为优先默认上屏字词,再把在《国家标准GB2312-80字符集》的一级汉字范围内按单字音形编码而重码的汉字,优先选定其中一个为默认上屏单字,另外的一至二个(最多时仅有三个)重码汉字以强记方式记住其简码,则可实现在大字库范围内按单字音形编码模式的低误差率盲打录入(当然,有时也可以用单字纯形编码模式输入,但这会提高误差率)。段码中文输入法的盲打输入方法需强记的汉字的音形编码的简码有96个,在我们记住这96个汉字的音形编码的简码后,即可使用单字音形编码模式的方法盲打。该盲打方法可覆盖包括全部一级汉字在内的汉字12000余个,因已进行了字词使用频率的分级处理,该盲打方法误差率当在千分之一以下。段码中文输入法的盲打输入方法需强记的96个汉字和编码如附图7所示。
(十六)段码中文输入法的技术效果
段码中文输入法目前已经进行了在数据库上的编码,共收录了汉字13000余个,大部分为简化汉字,也有部分繁体字和异体字,全部用单字音形编码和单字纯形编码两种模式进行编码,能基本上解决生僻字输入难的问题;共收录了词组55000余条,能方便地以词组为单位优先进行输入;其中收录成语8000余条,能使很多忘记字形的汉字也能方便地进行输入;第三级简码14000余条,覆盖了第三级简码可用编码空间的80%以上;如以单字音形编码和单字纯形编码及词组编码共83000余条为基数,总重码率为35%;在单字音形编码范围内的重码率为17%;在重码的字词中,大部分为只有两个重码的,在采用默认上屏栏与选择上屏栏相分离的重码字词处理方法后,其中有12000余条已选为默认上屏,余下的有12000余条成为准第四级简化编码,选择上屏栏标题数字在2以后的字词仅有4000余条,在进行字词使用频率分级后,这4000余字词其本上是生僻字或是较少使用的词组了,而在同一组重码的字词数再高不超过9个,这使得选择上屏栏无需翻页检索;由于在一级汉字范围内按单字音形编码重码的汉字仅有188个,已将其中的92个设定为默认上屏,在对其余的96个汉字进行简码强记后,即可实现按单字音形编码模式的盲打,该盲打方法可覆盖汉字12000余个,因已进行了字词频率的分级处理,该盲打方法的误差率当在千分之一以下。
四、附图说明:
附图1为引读音字根和跟读音字根的读音及它们的对应关系表图;
附图2为7对引读音字根和变读音字根的读音及它们的对应关系表图;
附图3为段码中文输入法字根的笔顺表图;
附图4为段码中文输入法字根表图;
附图5为常见汉字结构拆分示例表图;
附图6为段码中文输入法188个字根拆分后对应的根首字根表图;
附图7为段码中文输入法的盲打输入方法需强记的汉字及其音形简化编码表图。
Claims (8)
1、一种计算机汉字编码方法,其特征是任一汉字或词组都可以按以下基本模式进行编码:
单字或词组的编码=汉字码段编码+字根码段编码+根首码段编码
2、一种计算机汉字编码的重码字词处理方法,其特征是:当标准编码发生重码时,在输满标准编码后采取默认上屏栏与选择上屏栏相分离的重码字词处理方法。
3、根据权利要求1所述的编码方法,其特征在于取汉字或字根读音的声母作为该汉字或字根的汉字码或字根码,但是,当汉字或字根读音的声母为zh、ch、sh时,用字母V、U、I替代;当汉字或字根读音为零声母时,取其第一个拼音字母作为该汉字或字根的汉字码或字根码。
4、根据权利要求1所述的编码方法,其特征在于把汉字的字根定义为:笔顺和先后笔关系都分别相同的汉字构件类别叫做汉字的字根。
5、根据权利要求1所述的编码方法,其特征在于把字根分为引读音字根、跟读音字根和变读音字根三类,再分别定义各类字根取得读音的方式,然后根据其读音确定其字根码及在键盘中的键位,段码中文输入法的188个字根分配及键位如下:
I: 丨 山 石 十 士 尸 豕 ネ
K: 冂
L: 力 龙 鹿 林 了 立
M: 母 马 目 门 米 皿 木
O: 囗
Z: 子 早
ナ 丆
6、根据权利要求1所述的编码方法,其特征是:单字的汉字码段编码是该单字的汉字码,词组的汉字码段编码是该词组各汉字的汉字码依其对应的汉字在词组中的顺序组成的排列;单字的字根码段编码是该单字按汉字拆分规则拆分出来的字根的字根码依其对应的字根在字根排列中的顺序组成的排列,词组的字根码段编码是词组中各汉字的字根码段编码的第一个字根码依其对应的汉字在词组中的顺序组成的排列;根首码是将一个字根参照汉字拆分规则拆分后排在首位的字根的字根码,根首码段编码是单字拆分出来的各字根的根首码依其对应的字根在字根排列中的顺序组成的排列。
7、根据权利要求1所述的编码方法,其特征是在段码中文输入法编码的基本模式下,依据提供的字词条件有三种编码的条件模式可供选择:单字纯形编码模式、单字音形编码模式和词组编码模式,其中任一汉字都可用单字纯形编码模式和单字音形编码模式两种条件模式进行编码,任一词组都可用词组编码模式进行编码。
8、根据权利要求1所述的编码方法,其特征是:在全部收录字词范围内重码的字词中把单字音形编码设定为优先默认上屏字词,再把在《国家标准GB2312-80字符集》的一级汉字范围内按单字音形编码而重码的汉字,优先选定其中一个为默认上屏单字,其余重码的汉字以强记方式记住其简码,则可实现按单字音形编码的盲打录入。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200610054682 CN1841365A (zh) | 2005-02-02 | 2006-01-18 | 段码中文输入法 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200510052247 CN1655104A (zh) | 2005-02-02 | 2005-02-02 | 段码中文输入法 |
CN200510052247.9 | 2005-02-02 | ||
CN 200610054682 CN1841365A (zh) | 2005-02-02 | 2006-01-18 | 段码中文输入法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1841365A true CN1841365A (zh) | 2006-10-04 |
Family
ID=37030398
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 200610054682 Pending CN1841365A (zh) | 2005-02-02 | 2006-01-18 | 段码中文输入法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1841365A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105912139A (zh) * | 2016-01-11 | 2016-08-31 | 金云中 | 一种模块化笔画编码汉字对应识别的方法 |
-
2006
- 2006-01-18 CN CN 200610054682 patent/CN1841365A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105912139A (zh) * | 2016-01-11 | 2016-08-31 | 金云中 | 一种模块化笔画编码汉字对应识别的方法 |
CN105912139B (zh) * | 2016-01-11 | 2022-08-30 | 金云中 | 一种模块化笔画编码汉字对应识别的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1841365A (zh) | 段码中文输入法 | |
CN1515988A (zh) | 一类音形义汉字编码输入法 | |
CN1655104A (zh) | 段码中文输入法 | |
CN1123819C (zh) | 计算机汉字键位码输入方法 | |
CN1195260C (zh) | 一种用数字键对汉字进行输入的方法 | |
CN1309342A (zh) | 计算机汉字音形模糊输入法 | |
CN1266577C (zh) | 音数形汉字输入方法 | |
CN1374577A (zh) | 英文字母键盘和数字键盘通用汉字电脑输入法及其键盘 | |
CN1228705C (zh) | 按汉字构件定位取码的计算机汉字输入法 | |
CN1093654C (zh) | 结构码汉字输入法及使用的通用键盘 | |
CN1081810C (zh) | 计算机音形汉字输入法 | |
CN1818837A (zh) | 规范应用汉语拼音方案的汉字输入法 | |
CN1821938A (zh) | 简明数码手机中文笔画输入法 | |
CN1079061A (zh) | 计算机汉字部首代码输入法 | |
CN1164689A (zh) | 以词为单位的音形意汉字计算机输入法及中西文兼容键盘 | |
CN1303504C (zh) | 计算机汉字字母文字化输入法 | |
CN100342312C (zh) | 平行拆分式汉字编码小键盘输入及其显示方法 | |
CN1434371A (zh) | 一种使用数字键盘的汉字输入方法 | |
CN1975640A (zh) | 规范应用汉语拼音方案的汉字输入法 | |
CN1246759C (zh) | 一种采用根素码的计算机汉字输入方法 | |
CN1295589C (zh) | 无根码汉字输入法 | |
CN1648827A (zh) | 笔画汉字输入法 | |
CN1821937A (zh) | 简明数码手机中文拼音输入法 | |
CN1749929A (zh) | 三级码元输入法 | |
CN1652067A (zh) | 一种汉字计算机输入法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |