CN1306237A

CN1306237A - 一种新的形码汉字输入方法

Info

Publication number: CN1306237A
Application number: CN 00119183
Authority: CN
Inventors: 刘春荣
Original assignee: Individual
Current assignee: Individual
Priority date: 2000-07-06
Filing date: 2000-07-06
Publication date: 2001-08-01

Abstract

本发明涉及一种新的形码汉字输入方法,它采用标准键盘,将26个英文字母键全部用来进行编码,而用“/”作为查询键,本发明对字根、拆分、笔顺、字型、简码及重码序等进行了全面地规范和优化,并增加了扩展简码、反常码和混编容错码等功能,大大提高了汉字的输入速度,真正做到了易学、易用、易推广,十分便于用户的学习和使用。

Description

一种新的形码汉字输入方法

本发明涉及一种新的形码汉字输入方法。

五笔字型在我国是一种家喻户晓的汉字输入方法，由于其编码的直观性比较好，受到用户欢迎。但实践证明，五笔字型存在不少问题，特别是在拆分、笔顺和编码的规范性上表现尤为突出。例如它将汉字拆分得过于零碎就是一个典型例子。在五笔字型中，像“犭、礻、衤、

豸”等基本偏旁部首，都要被拆成两部分(犭：丿、礻：

丶、衤：

：丿扌、：丿土、豸：)；像“鸟、面、甫、戊”这样一些组字部件都要被拆成四部分(鸟：勹一、面：丆冂‖三、甫：一月丨丶、戊：厂

丶丿)。这一问题的直接后果是：

(1)与“语言文字规范”之间存在着尖锐矛盾；

(2)汉字的拆分成为用户学习使用的一大难点；

(3)字根的信息量减小，因而重码率增大。

五笔字型还在字型分类、简码选取及拆分方法等方面存在问题。

五笔字型的问题影响了它的易学性和易用性，对于普及十分不利。

98年软件业又推出了98王码，98王码是为了解决“字根和笔画顺序不符合国家语言文字规范”的问题而提出的，但它自98年推向社会以来，一直没有受到用户青睐，这是因为它存在下列问题：

第一、98王码并没有很好地解决汉字拆分过碎等不符合语言文字规范的问题，像“ 马、豕、曲、

等组字部件，在98王码中不但仍要被拆分，有的甚至比五笔字型拆得更零碎(例如部件“

”，在五笔字型中被拆成三部分：一，在98王码中被拆成四部分：_一

一)：

第二、98王码在增删字根时，没有兼顾到重码率的降低问题，所以98王码系统的重码几率较高，容纳的词组量较少，许多常用词组(如；“真理、赞成”等)不能用词组码输入；

第三、98王码中的汉字拆分和编码方法(即所谓“无拆分编码法”和“补码码元”法)的规律性和规范性很差，有很大的主观人为性，反而不如五笔字型容易学习和使用；

第四、98王码不兼容五笔字型，在98王码中去掉的字根、新增的字根及调换位置的字根共60个，凡与这些字根有关的字词，在98王码中均不能用五笔字型的编码输入，这是广大五笔字型的老用户向98王码过渡的一个难以逾越的鸿沟。

总之，98王码虽然在字根和笔顺的规范性上有所改进，但并不理想。由于没有顾及到兼容性和易学性等问题，使它很难得到用户认可。

本发明的目的是针对五笔字型和98王码存在的上述问题，在兼顾了“规范性、兼容性、易学性、高效性”的原则下而提出的一种能够使形码输入方法与传统汉字文化紧密结合起来，真正做到易学、易用、易推广的新的形码汉字输入方法。

本发明的目的是通过以下方式实现的：

本发明采用标准键盘，将26个英文字母全部用来进行编码，其特征是本发明将26个编码键划分成六个区，分别称为1区、2区、3区、4区、5区和0区，前五个区每区包括五个键，分别命以键位号1、2、3、4、5,0区只有一个键，键位号为0，一个编码键的区号和位号的连写便是该键的区位号，区位号与编码键的对应关系是：

1区：11-G、12-F、13-D、14-S、15-A

2区：21-H、22-J、23-K、24-L、25-M

3区：31-T、32-R、33-E、34-W、35-Q

4区：41-Y、42-U、43-I、44-O、45-P

5区：51-N、52-B、53-V、54-C、55-X

0区：00-Z：

1区、2区、3区、4区和5区的25个键对应着本发明的全部字根，故称为字根键盘，其对应关系是：

G：王( )、一(

)、_、戋、五：

F：土(_)、二、(=、

)、十(

)、寸、雨、

干、士、

D：大、三、厂、石、戊、羊、古、犬、_、ナ、

S：木(

)、丁(

)、西(覀)、

A：工、匚( )、七(

)、戈、

犭、艹、廿、

H：目、丨(亅)、上、止( )、卜、

J：日、‖、刂、

曰、早、虫：K：口、川：

L：田、甲、口、四皿、力、车、

M：山、冂

由、贝、曲、几

T：禾(

)、丿、_、毛、_、攵、夂

彳；

R：白、手、_(

)、扌、丘、斤、

E：月、彡、乃、用、豸、豕、

W：人、八、亻、

Q：金、勹(ク、

钅、夕、

儿

Y：言、_(丶)、讠、文、方、广、亠、

U：立、冫(

丬(

辛、疒、六(

)、门：

I：水、氵、

小(

O：火、灬、米、业、

※；

P：之、冖、辶、礻、衤、宀、廴；

N：已、乙、_(

)、己( )、巳(

)、尸、羽、心、忄、 B：子、了、凵、卩、阝、孑、也、耳；

V：女、巛、九、刀、

彐(

)、

臼：C：又、厶、

巴、马、

X：幺、纟、

母、毋、

、艮、

弓、匕

每个字母所对应的第一个字根是该字母键的中文键名，0区对应着本发明的扩展码，称为扩展键，扩展键的中文键名是汉字“零”；

每个字根所对应的编码键的区位号称为该字根的字根码，一个笔画所对应的单笔字根的字根码叫做该笔画的笔画码：

在汉字的结构分类上，本发明将汉字分为单体字与散体字，单体字包括单根字和字根之间交连成一体的复根字，散体字是以字根或单体字作为组字单元、并且它们之间是以离散的关系组合而成的汉字，散体字包括左右结构、上下结构、半包围结构和全包围结构四种结构类型；

在汉字的拆分上，本发明根据其是单体字还是散体字，采用以下原则进行拆分：

单体字(指复根单体字)的拆分原则

a．若字的首笔与次笔可构成一个字根，其余部分也是一个字根，且这两个字根连而不交，则将它的前两笔拆为第一字根，剩余的部分作为第二字根；

b．要拆分的单体字若不具备上述特点，但其首笔与其它笔画连而不交，且去掉首笔后剩余的部分是一个字根，则将它的首笔画拆为第一字根，剩余部分作为第二字根；

c．要拆分的单体字不具备上述两个特点，则依据笔画的书写顺序，以每次取一个尽可能大的字根(即笔画尽可能多的字根)为原则进行拆分；

散体字的拆分原则

散体字拆分时，如果字中含有离散的字根，首先将它拆出来，然后再将剩下的单体字进行拆分，最后将拆分的所有字根按它们的首笔画的书写顺序排序即得拆分结果；

本发明在编码规则上，针对键名字、单根字、复根字和词组设定了不同的规则：

a．键名的编码规则

将键名的字根码重复取四次；

b．单根字的编码规则(键名除外)

(1)笔画在三笔以上的单根字，其编码是：

字根码+首笔笔画码+次笔笔画码+末笔笔画码(2)笔画为两笔的单根字，其编码是：

字根码+首笔笔画码+末笔笔画码(3)以下五种单笔画要在字根码和笔画码之后加两个L，即为：

一：11 11 24 24/GGLL

丨：21 21 24 24/HHLL

丿：31 31 24 24/TTLL

丶：41 41 24 24/YYLL

乙：51 51 24 24/NNLL

c．复根字的编码规则

本发明将汉字的笔画分为五种：横、竖、撇、捺、折，并分别命以笔画代号1、2、3、4、5，同时将复根字分为三种字型：左右型、上下型、杂合型，分别命以字型代号1、2、3，由复根字的末根的末笔笔画代号与其字型代号组成的两位数编码称为识别码，对复根字采取以下编码规则：

(1)双根字的编码规则是：

第一字根码+第二字根码+识别码

(2)三根字的编码规则是：

第一字根码+第二字根码+第三字根码+识别码

(3)多根字的编码规则是：

第一字根码+第二字根码+第三字根码+末根码；

d．词组的编码规则

(1)双字词的输入码是由其每个字的前两个码组成

(2)三字词的输入码是前两个字各取第一码，最后一个字取其前两个码组成

(3)多字词的输入码是由第一、第二、第三及最末一个字的第一字根码组成；

本发明为单字设定了二级简码和三级简码，二级简码由其全码的前两个码组成，三级简码由其全码的前三个码组成；

本发明在设定简码时遵循以下原则：

a．简码优先常用字，即在前两码或前三码相同的字中，选择使用频度最高的字享受二级简码或三级简码；

b．在使用频度相同的情况下，二级简码优先双根字，三级简码优先三根字；

c．一个字如果享受了二级简码就不再享受三级简码；

本发明通过扩展码Z的参与编码，构成了一整套的扩展简码，扩展简码分为一级扩展简码、二级扩展简码和三级扩展简码，其编码规则是：

a．一级扩展简码选定的高频汉字为78个，并分为三级：一级扩展简码、二级扩展简码、三级扩展简码，每一级包含26个字，一级高频字是指那些最常用的汉字，包括有五笔字型中的25个高频字和一个“特”字，“特”的一级简码是“Z”；二级高频字主要是指一些没有简码的常用双根字，其一级扩展简码由它的首根码和一个与该字无关的扩展码“Z”组成；三级高频字主要是一些没有简码的常用三根字，其一级扩展简码由它的首根码和2个扩展码“Z”组成；

b．二级扩展简码二级扩展简码是由无简码的双根字的字根码再加扩展码组成，其编码规则是：

国标一级汉字：第一字根码+第二字根码+Z

国标二级汉字：第一字根码+第二字根码+Z+Z；

c．三级扩展简码

三级扩展简码是由无简码的三根字的三个字根再加一个扩展码“Z”组成；

在重码序的处理上，本发明采取以下原则：

a．将使用频度高的字或词放在第一位置

b．重码字中有简码的字将第一位置让位给没有简码的常用字

c．常用字与词组重码时，常用字放第一位置

d．不常用字与词组重码时，词组放第一位置；

本发明为20个生僻字设立了反常末尾码，这20个生僻字的正常编码与常用词组重码，反常末尾码是将该字编码的最后一个码用“L”替换，这20个字是：啬揄洹缍绺瑾韪榫樗殓罅舴趔跗鳘毹旌罹窨窳；

本发明为单字和词组设定了混编容错码，混编容错码由部分本发明的字根码和部分五笔字型的字根码组成；

在本发明中26个英文字母全部用来进行编码，而用“/”键作为查询键。由于本发明对字根、拆分、笔顺、字型、简码及重码序等进行了全面规范和优化，并增加了扩展简码和混编容错码等功能，故它具有以下主要特点：

1．规范性好

本发明规范化的字根与汉字构字部件相一致，较好地解决了汉字拆分与“语言文字规范”之间的矛盾，像“犭、礻、衤、

母、

羊、戊、曲、

等组字部件都是字根，不再拆分，基本上消除了汉字拆分过碎的问题。从下面的对比例子可见一斑：

汉字五笔拆分结果本发明拆分结果

狠

丿彐

犭艮

祥

礻羊

褴

‖ _丶皿衤‖

皿

每 _

一

_母

敝

冂小攵攵

茂艹厂丶丿

艹戊

甫一丨丶

寒宀二‖一八宀

八

告丿土口

口

典冂

八

八

面丆冂‖三丆

段亻三几又

几又

假亻_丨二又亻又

那刀二阝

阝

尧七丿一儿一儿

舞

一夕匚丨

夕匚丨

2．输入速度快

在本发明中，由于字根的信息量增大，加之对增删的字根严格按低重码率原则加以筛选定位，使得重码率明显降低。下面的几个统计实例可说明这一点：

(1)将“P”键上的字根“

”用“衤礻”替代后，在相关的260个字词中，重码数由44降为24；

(2)去掉“Q”键上的字根“

”，并在“A”键上增加字根“犭”，在相关的162个字词中，重码数由36降为15；

(3)在“F”键上增加字根“

”，在相关的75个字词中，重码数由原来的15降为3；

(4)在“E”键上增加字根“

”，在相关的152个字词中，重码数由原来的42降为4。

本发明的低重码率的特点，使它可以容纳更多的词组。所以本发明提供给用户三万多条词组，比五笔字型和98王码都要多得多，几乎覆盖了全部常用词汇和成语。

极低的重码率、大数量的词组、科学的重码序、以及新增的扩展简码和反常码等功能，都使本发明的输入速度进一步得到提高。下面四个例子可以说明这一点：

(1)输入词组“赞成”，98王码没有这个词组，须用单字的编码分两次输入；用五笔输入，键入词组的编码“tfdn”后，“赞成”并不出现在屏幕上，而是在提示行中列出三个重码词组：

1．造成2．赞成3．千万这时须按选择数字键2才能完成输入；若用本发明的方法输入，键入编码“eqdn”后，“赞成”立即出现在屏幕上。

(2)输入“猬”字，用五笔或98王码输入，键入编码“qtle”后，在提示行上出现两个重码字：

1．猥2．猬须再按数字键2完成输入；若用本发明的方法输入，键入编码“ale”后，“猬”立即出现在屏幕上。

(3)输入词组“真理”，98王码中没有这个词组，须用单字的编码分两次输入；用五笔输入，键入编码“fhgj”后，在提示行中列出重码字词：

1．趔2．真理须再按选择数字键2才能完成输入；若用本发明的方法输入，键入编码“fhgj”后，“真理”立即出现在屏幕上。

(4)输入“运转”，98王码中没有这个词组，须用单字的编码分两次输入；用五笔输入，键入编码“fclf”后，出现两个重码字词：

1．盍2．运转须再按数字键2完成输入；若用本发明的方法输入，键入编码“fclf”后，在提示行上也出现二个重码词字：

1．运转2．盍但“运转”在第一位置上，不用敲选择数字键，当输入下文时，它自动出现在屏幕上。

3．易学易用易推广

本发明的输入法由于解决了字根、拆分、笔顺、字型等的规范化问题，因而大大降低了汉字拆分与编码的难度，使得汉字拆分不再成为学习的难点，使得编码完全符合人们对汉字的直观认识和书写习惯，这些都十分便于用户学习和使用。

很多字，在五笔下拆分很困难，而在本发明的方法下，它们的字根组成非常明显直观，拆分起来十分简单。如：

单字五笔拆分结果本发明的拆分结果

博十一

丨丶寸十

丶寸

岛勹丶

山山

咸厂一口

丶丿戊一口

面丆冂‖三丆

狠丿彐犭艮

舞一夕匚丨

夕匚丨

由于本发明具有混编容错功能，这使广大熟悉五笔字型的用户可以“自然流畅”地过渡到本发明。他们在向本发明过渡时，很可能部分编码是本发明的，部分编码是五笔字型的，例如，当输入“狠”时，记住了本发明的字根“犭”但还没有记住本发明的字根“艮”，编码就是avey，或者记住了“艮”而没有记住“犭”，编码就是qtxy，本发明的混编容错功能使这些混合编码都能正常输入。这样，五笔字型的用户可以在不影响使用的情况下，通过边用边学，逐步地、自然而然地掌握本发明的方法。所以本发明不仅容易在初学者中推广，也容易在五笔字型的用户中推广。

本发明的新拆分方法更进一步地为初学者解决了汉字拆分难的问题。五笔字型的拆分方法是“取大优先，兼顾直观，能连不交，能散不连”。这种拆分方法显然很不严谨，有主观人为性。98王码“创造”了一个所谓“无拆分编码法”的新原则，即在编码时“利用汉字作为平面图形文字在认知中的视觉优势，直接为码元编码”。这实际上也是一种拆分方法。按照这个方法，98王码将“万、束、耒、丰”四个字拆分成：

万：一勹

束：木口

耒：二木

丰：三丨这种拆分显然具有很大的主观人为性，不同的人完全可以有不同的认知。例如，既然“束”可以认知成“木口”，那么将“耒”认知成“木二”岂不更合理，为什么要认知成“二木”?又如，按照“耒”认知成“二木”的道理，“丰”不是应该认知成“二十”，而为什么又认知成“三丨”呢?所以，这种主观“认知”的“无拆分编码法”既不科学，又不严密，只能给编码造成混乱，给学习带来困难。

根据本发明的新拆分方法，上面四个字只要按照笔画的书写顺序依次写出笔画尽可能多的字根即完成拆分：

万：丆

束：一口小

耒：三小

丰：三丨这里没有任何含糊和二异的问题。

附图：图1为本发明的字根键位示意图；图2为本发明的汉字拆分流程图；图3为本发明的一级扩展简码的一级高频字键位示意图；图4为本发明的一级扩展简码的二级高频字键位示意图；图5为本发明的一级扩展简码的三级高频字键位示意图。

Claims

1、一种新的形码汉字输入方法，它采用标准键盘，将26个英文字母全部用来进行编码，其特征是本发明将26个编码键划分成六个区，分别称为1区、2区、3区、4区、5区和0区，前五个区每区包括五个键，分别命以键位号1、2、3、4、5，0区只有一个键，键位号为0，一个编码键的区号和位号的连写便是该键的区位号，区位号与编码键的对应关系是：1区：11-G、12-F、13-D、14-S、15-A2区：2l-H、22-J、23-K、24-L、25-M3区：31-T、32-R、33-E、34-W、35-04区：41-Y、42-U、43-I、44-0、45-P5区：51-N、52-B、53-V、54-C、55-XO区：00-Z：

G：王(王)、一(

)、_、戋、五；