CN1074559C - 构形识别码及其键盘 - Google Patents

构形识别码及其键盘

Info

Publication number
CN1074559C
CN1074559C CN97120108A CN97120108A CN1074559C CN 1074559 C CN1074559 C CN 1074559C CN 97120108 A CN97120108 A CN 97120108A CN 97120108 A CN97120108 A CN 97120108A CN 1074559 C CN1074559 C CN 1074559C
Authority
CN
China
Prior art keywords
code
configuration
stroke
identification code
chinese character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN97120108A
Other languages
English (en)
Other versions
CN1181532A (zh
Inventor
王永民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinguan Wang's Code Sci & Tech Co Ltd Beijing
Original Assignee
Jinguan Wang's Code Sci & Tech Co Ltd Beijing
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinguan Wang's Code Sci & Tech Co Ltd Beijing filed Critical Jinguan Wang's Code Sci & Tech Co Ltd Beijing
Priority to CN97120108A priority Critical patent/CN1074559C/zh
Publication of CN1181532A publication Critical patent/CN1181532A/zh
Application granted granted Critical
Publication of CN1074559C publication Critical patent/CN1074559C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

一种汉字编码识别法及其键盘,采用汉字的笔画及该笔画与其它笔画之间散、连、交的构形关系作为特征信息,交叉组合,形成独特的构形识别码,单独追加在已有的编码之后,或与其它识别码同时使用,用以扩大编码的离散性,降低重码率;该识别码对应的键位,可以设置在各种汉字输入键盘的代码键或区位键上;本发明可有效地提高输入速度和汉字在通讯网络上传输的准确性,适用于任何类型的编码体系。

Description

构形识别码及其键盘
本发明属于一种汉字形码识别法及键盘技术,适用于一切形码、形声码或声码输入方法键盘中利用笔画构形识别的方法及对应的计算机键盘。
其特征在于采用汉字图形中具有某种特征比如位置特征的笔画,例如末笔或首笔,以及该笔画与其它笔画之间的若干种构造形态关系,例如散、连、交的构形关系,作为汉字图形中客观存在的字形特征信息,将二者交叉组合,建立构形识别法,形成构形识别码,其对应的构形识别键,可以设置在字母或数字键上,或设置在各种中文输入键盘的代码键或区位键上。
汉字构形识别法及其键盘,其特征在于将汉字图形中具有某种特征的基本笔画,命以数字代码,和该笔画与相邻笔画之间的构造形态关系,诸如散、连、交等等的构形关系均命以数字代码,两种数字代码再交叉组合,形成构形识别码。
目前形码及形声码输入技术中的字型识别码有五笔字型法的字型识别码。虽然字型识别码的发明使汉字编码输入技术从小键盘重码的困惑中取得重大进步,但是面对CJK20902个汉字的大字符集的编码输入难题时,仅用26个字母键编码输入,还必须从汉字图形中“榨取”更多的特征信息,才能起到区别字形、离散重码、提高编码唯一性的作用。
众所周知,汉字有形、音、义三种属性,从任何一种属性中都可以提取汉字的特征信息,用于对汉字进行编码并设计键盘,完成汉字的编码输入,由此形成所谓的形码、音码、义码或兼具几种属性的结合码。
三类编码之中,编码唯一性最好的是形码,如果部件分配合理,重码率比较容易达到较低的水平。
然而,当字符集合扩大时,结构简单的字,即由很少部件构成的字仍然会有大量重码出现,虽经王永民先生发明的“末笔识别码”的使用,在国标6763个汉字集中已起到了良好的离散作用,但仅仅靠这一种识别码,仍然无法突破20902个大字符集汉字编码的惊人难关。此种情况多年来一直困惑着编码界。以致于到现在为上,世界上还没有一个编码技术可以公告其重码率达到了较低水平。
因为从编码的基础理论可知,对于随机编码而言,重码率即近似于编码量在整个空间中的占有率。而汉字编码是常常把重码的对数当作重码率,认为汉字随机编码的重码率最好要在2%以下,即C=0.02。在此情况下,如果要对1万汉字编码,则应提供的编码空间容量至少要达到R=1万×1/C=50万。
在国标6763个汉字集中,两根字约有700个,如果不加识别码以使加大码长,则要在两键组合25×25=625个空间中,容纳700个随机编码,重码中将会超过50%,是相当惊人的。
为此,当年王永民先生在五笔字型技术中发明创造了“末笔字型识别码”,使编码空间扩大了15倍,有效地将这些由少数字根组成的字的编码强制“驱赶”到了一个更大的空间中,减少了重码,这个空间的大小是:
                      25×25×15=9375显然,在这一空间中容纳700个随机编码时,其空间占有率为700÷9375=0.075
此时,按占有率的一半为重码率计算,重码率则为3.5%,比不加识别码时的50%低的多!
显然,对于CJK20902个汉字而言,其中两根字为(两个部件构成的字)1800个左右,仍用一个识别码时,空间占有率则为1800÷9375=20%。
当空间占有率的一半作为重码概率时,则重码率为10%。
显然,这一重码率仍然是太高了。为了减少这一重码率,仍有必要继续加大这些“少根字”的编码,即在原来“末笔字型识别码”的后边,再加一个识别码。当然,这个新的识别码可以是音的,但最好是纯形的,仍然避开读音,从汉字的图形中“榨取”特征信息,例如从汉字本身的笔画、笔画形态之中寻找很容易被观察出来,并便于被掌握和使用的特征信息。
编码为了离散重码,就必须扩大编码空间。本发明创造了一种完全取自汉字图形之中的“笔画构形识别码”,这一识别码由以下两个要素构成:
1、汉字图形中某一个笔画,最好是选取某一个位置比较特殊,易于被观察确认的笔画,如末笔画或首笔画,将这一笔画以数字代码命名,作为“构形识别”法两位代码中的一位,当笔画分一、丨、丿、、乙5种时,可用1、2、3、4、5代表这些笔画,作为构形识别码中的一个“位”;
2、汉字图形中被选中的那个笔画与邻近笔画之间的构造形态关系,即构形关系。这种关系可以有许多种,但一股可以分为:
散笔关系:如:“八、共、参、利”中的最后一笔;
连笔关系:如:“去、刀、后、里”中的最后一笔;
交笔关系:如:“又、于、汉、串”中的最后一笔;
一个被选中的笔画与其余几个笔画的关系,还可以有连交、交连、连交连、交交连等多重关系;
本发明将以上这种关系命以数字代号,可以是:
散1;连2;交3;连交4;交连5等等。
将这些代表笔画形态的数字代码作为构形识别中的另一个“位”;由上述的笔画代码和构形代码,两者共同交叉配合便组成了“笔画构形识别码”,其中两种代码哪一种在前,哪一种在后,可以随意设定。可以是:
当使用五笔字型的5区5位键盘时,以上由2位数组成的“构形识别码”可以直接对应到5区5位的字根键盘上,并同时将“构形识别码”与25个英文字母GFDSA……NBVCX等对应起来使用,如上表所示。
构形识别码的数量可根据笔画的分类数量和构形分类的数量交叉相乘得到。例如当5种笔画3种构形时,有5×3=15种;当选用8种笔画3种构形时,有8×3=24种;当选用4种笔画4种构形时,有4×4=16种。
本发明的实施例如附图所示:
附图是本发明在“五笔字型”中采用散、连、交三种构形识别码的键盘实施例。在键位设置上可以是:
“散”形码设在:11G位、21H位、31T位、41Y位和51N位;
“连”形码12F位、22J位、32R位、42U位和52B位;
“交”形码13D位、23K位、33E位、43I位和53V位。
在图中,以上构形识别码分别用小方框与其内标示的末笔笔画类型和笔画数表示,一个笔画表示散、两个笔画表示连、三个笔画表示交。
采用三种构形识别码输入汉字的编码实施例如下:
采用“散”识别码的汉字例子:
①三、11G,②川、21H,③彦、31T,④小、41Y,⑤乞、51N;
采用“连”识别码的汉字例子::
①口、12F,②打、22J,③才、32R,④长、42V,⑤亏、52B;
采用“交”识别码的汉字例子::
①再、13D,②十、23K,③身、33E,④又、43I,⑤电、53V。
本发明在编码中的使用方法如下例所示:
本例是“馬、ム、又”同处在一个键位时,构形识别码的应用示例。
Figure C9712010800061
由上表不难看出,由于馬、ム、又同处在一个键上,仅靠输入字根,三个字全重码,即使加入了末笔字型识别码,三个字仍然重码。只有追加了“构形识别码”三个字都不再重码了。
本发明在编码中的使用方法如下例:
当输入汉字所使用的键盘确定之后,构形识别码可根据键盘的区位划分与字母键对应;也可以人为地将构形识别码与英文字母相对应,比如在使用汉语拼音输入汉字时,构形识别码既可以用五笔字型的区位字母补加在拼音之后,也可以人为地列表,规定构形识别码与哪个字母相对应。
例如:当规定“横连”的末笔构形用字母F代表时,“红”的输入码即为红:HONGF,其中F代表末笔的构形为“横连”;
本发明还可以有其它实施例,例如可以在散、连、交的基础上增设含有连、交的综合类,综合类还可以分成“两点综合”和“多点综合”类等构形识别码,在“五笔字型”的五区五位键盘中,利用五区五位可设25种。
两点综合类可以是包括综合“连交”、“交连”、“连连”和“交交”的两点综合类,多点综合类可以是包括综合“交连交”、“连交连”、“交交连”、“连连交”、“交连连”、“连交交”、“连连连”和“交交交”的三点综合类构形;
本发明突出的实质性特点是在汉字的字型特征中挖掘出与其它笔画在平面图形中关系特征,具有直观易辨的特点,将这种汉字本身含的特征信息纳入编码之中,是汉字编码理论中没有先例的一个突破,与其它形、音、义特征具有实质性的区别和可观的实用价值。
本发明显著的进步在于在编码信息中增加一种全新的汉字笔画构形信息,并使之转换对应成为一个编码,可以配合已有的各种汉字拆分方法使用,全面提高汉字计算机输入的编码功能,解决举世称难的大字符集编码时重码惊人的难题。
本发明可应用于任何版本的五笔字型编码体系中,既可以取代字型识别码单独使用,也可以与字型识别码同时并用。对20902个汉字的大字符集编码时,可以并用字型识别码和构型识别码,以此创造更大的编码空间,产生足够的离散重码能力,有效地提高编码的唯一性。降低重码率,提高输入速度和通讯传输中的准确度。
本发明所述的汉字构形识别码中所采用的汉字笔画构形的散、连、交三种构形,可以用数字1、2、3之顺序表示,也可以用其它顺序或其它数字表示之,此时,与之对应的键位的字母可以相应改变。
本发明还可应用于各种形码、形声码或声码输入法及键盘。在用于“五笔字型”以外的形码、形声码或声码输入方法时,本发明的构形识别码可以直接用于所指的编码法,或与其它识别码并列使用。一般来说,构形识别码追加在不足最大码长的某些汉字的全码之后。
本发明所创造的笔画构形识别码,是指将笔画与临近笔画之间的构造形态作为双重特征信息,转换为编码,对应到键位上的一种通用方法。对任何一个特定的笔画,都可以形成一个构形识别码。因此,一个汉字之中,可同时有若干个构形识别码,到底用于编码时采用几个一般以产生足够的离散能力为好。

Claims (7)

1、一种用于汉字编码输入的构形码识别方法,其特征在于采用汉字图形中具有某种位置特征的笔画代码,以及该笔画与其它笔画之间的构造形态关系的代码,将二者作为字形特征信息并交叉组合,形成构形识别码,其对应的键位可以设置在字母或数字键上,或设置在各种中文输入键盘的代码键或区位键上。
2、如权利要求1所述的构形码识别方法,其特征在于将汉字图形中某特定位置的笔画或该笔画的构造形态关系诸如散、连、交等构形关系,均以数字命名,两种数字再交叉组合,形成构形识别码。
3、如权利要求2所述的汉字构形码识别方法,其特征在于所述的构形识别码在笔画分为5种即:横1、竖2、撇3、捺和点4、折5,构形关系为散、连、交3种时,可以分三类,分别是散1、连2和交3;对应的键位分别是:散笔类对应的键应位是11、21、31、41、51,连笔类对应的键位是12、22、32、42、52,交笔类对应的键位是13、23、33、43、53。
4、如权利要求2所述的汉字构形码识别方法,其特征在于构形识别码可以在散、连、交的基础上增设包括由“连交”、“交连”、“连连”、“交交”、“连交连”、“交连交”类构成的综合类,形成四类以上的构形识别码;当分为四类时,对应键位的区位码是11、21、31、41、51;12、22、32、42、52;13、23、33、43、53;14、24、34、44、54。
5、如权利要求1、或2所述的汉字构形码识别方法,其特征在于构形识别码,可以直接追加在字根码或拼音码之中或最后作为一个输入码。
6、如权利要求1、或2所述的汉字构形码识别方法,其特征在于构形识别码与字型识别码或其它附加码可以同时使用。
7、如权利要求1、或2、或3所述的汉字构形码识别方法,其特征在于所采用的汉字笔画构造形态的散、连、交三种构形,可以用数字1、2、3之顺序表示,也可以用其它顺序或其它数字表示之,此时,与之对应的键位的字母可以相应改变。
CN97120108A 1997-11-04 1997-11-04 构形识别码及其键盘 Expired - Fee Related CN1074559C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN97120108A CN1074559C (zh) 1997-11-04 1997-11-04 构形识别码及其键盘

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN97120108A CN1074559C (zh) 1997-11-04 1997-11-04 构形识别码及其键盘

Publications (2)

Publication Number Publication Date
CN1181532A CN1181532A (zh) 1998-05-13
CN1074559C true CN1074559C (zh) 2001-11-07

Family

ID=5175749

Family Applications (1)

Application Number Title Priority Date Filing Date
CN97120108A Expired - Fee Related CN1074559C (zh) 1997-11-04 1997-11-04 构形识别码及其键盘

Country Status (1)

Country Link
CN (1) CN1074559C (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100389376C (zh) * 2005-09-01 2008-05-21 钱任举 一种通用的汉字输入方法及其虚拟键盘
CN100401238C (zh) * 2005-09-23 2008-07-09 英保达股份有限公司 输入单元设定系统以及方法
CN101833378B (zh) * 2010-04-12 2012-09-19 林海涛 一种改进的五笔输入法及其键盘

Also Published As

Publication number Publication date
CN1181532A (zh) 1998-05-13

Similar Documents

Publication Publication Date Title
CN1074559C (zh) 构形识别码及其键盘
CN1924765A (zh) 五型笔画编码输入法及其输入键盘
CN1885316A (zh) 数据信息的编码方法
CN1118011C (zh) 一种十笔形数字编码汉字输入法
CN1731326A (zh) 电脑和手机键盘的中文双笔输入法
CN1083586C (zh) 形码五键输入法及五区五位键盘
CN1107593A (zh) 音形经纬码计算机汉字输入方法
CN1466035A (zh) 优选编码部件汉字编码键盘及电脑输入方法
CN1043381C (zh) 汉字四笔画数码输入法
CN1885242A (zh) 可减少候选字的汉字输入方法:笔画编码+拼音首字母
CN1924766A (zh) 五型音画编码输入法及其输入键盘
CN1403902A (zh) 一种计算机汉字输入法
CN1291299C (zh) 数字键盘七键五码汉字编码输入方法
CN1049989C (zh) 两级数码计算机汉字输入方法及数码键盘
CN1107898C (zh) 双对码电脑汉字输入方法
CN1388696A (zh) 汉字象形数字编码方法及输入键盘
CN1327188A (zh) 左部右部笔画数字编码汉字电脑输入法及其键盘
CN1132367A (zh) 一种图形文字的输入方法及其键盘
CN1584804A (zh) 数字键盘汉字输入法
CN1677321A (zh) 多键并击式简音拼音输入汉字的方法及键盘
CN1269543A (zh) 60键电脑及6画十二形汉码
CN1176422A (zh) 一键输入两笔汉字或其它笔划组合字的计算机输入编码法
CN1376962A (zh) 计算机汉字输入方法
CN1348126A (zh) 五指五码汉字输入法
CN1201177A (zh) 汉字电脑输入音形码及其输入键盘

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C53 Correction of patent for invention or patent application
CB02 Change of applicant information

Applicant after: Jinguan Wang's Code Sci. & Tech. Co., Ltd., Beijing

Applicant before: Wang Yongmin

COR Change of bibliographic data

Free format text: CORRECT: APPLICANT; FROM: WANG YONGMIN TO: BEIJING GOLDEN CROWN CODE TECHNOLOGY CO., LTD.

C14 Grant of patent or utility model
GR01 Patent grant
C19 Lapse of patent right due to non-payment of the annual fee
CF01 Termination of patent right due to non-payment of annual fee