CN100405264C

CN100405264C - 基于一键一字的汉字特征定位编码复合输入方法

Info

Publication number: CN100405264C
Application number: CNB031346294A
Authority: CN
Inventors: 刘君度; 刘冰彬; 陈昌英
Original assignee: Individual
Current assignee: Individual
Priority date: 2003-09-29
Filing date: 2003-09-29
Publication date: 2008-07-23
Anticipated expiration: 2023-09-29
Also published as: CN1604017A

Abstract

本发明旨在解决计算机中文信息处理中汉字编码技术的两难问题，即降低汉字编码的重码率和码元符号与汉字笔形特征相对应的有理化难题。通过科学地选取声、形码元构建一个容易记忆、便于操作，且适用于国家GB2312-80和GB18030-2000《信息交换汉字编码字符集》繁体、简体大字符集汉字的编码体系。通过采用由多种汉字编码方式组成的一体化复合输入方案和一些优化编码的措施，以满足不同工作、不同文化层次的人员进行汉字输入的需要，从而为人们提供一种既规范，又简易便捷、能即学即用、理想的汉字编码输入方法。

Description

基于一键一字的汉字特征定位编码复合输入方法

一、技术领域

本发明属于计算机信息处理技术的汉字编码键盘输入方法，特别是以PC通用键盘的26个拉丁字母键通过对汉字编码输入中文信息的方法。

二、背景技术

自从计算机在汉语言区域应用以来，汉字编码输入技术就是实现计算机中文信息处理的关键之一。由于汉字数量繁多、结构复杂，对其编码有一个相互矛盾的两难问题。首先是汉字特征与编码符号之间对应的唯一性，即重码问题；其次是编码符号与汉字特征之间相互关联的可接受性，即编码符号的有理化问题。

新的编码方案只有在这两个相互矛盾的问题同时得到解决时，才能成为一种既好学又好用、理想的汉字编码方案。现有的汉字编码输入技术为解决重码问题而大量地扩充码元和字元，使编码元素达到二、三百个甚至四百个之多，由于不能进行合理归类，且人为地将汉字部件拆分并强行安置到键盘的各个键位上。这种无理编码方式，表面上看似有规律，其实是走入了汉字编码的误区，为记忆这些码元和汉字的拆分规则而大量耗费使用人员脑力的结果，更加大了汉字输入的劳动强度，这是人们普遍认为汉字输入技术难以掌握的主要原因。

本发明的目的，旨在解决计算机中文信息处理中上述汉字编码技术的两难问题，即降低汉字编码的重码率和编码符号与汉字编码相对应的有理化难题；通过科学地选取声、形码元构建一个适用于国家GB2312-80和GB18030-2000繁体、简体大字符集汉字的编码体系，从而为人们提供一种既规范，又简易便捷、能即学即用、理想的汉字编码输入方法。

三、发明内容

现有的汉字音形编码输入方式，其固有的缺限与拼音输入方式一样，对读音不准或不认识的汉字难以输入，更难以对汉字部件和各种标点符号进行编码。此外，它和字形编码输入方式一样，也需要大量设置字形编码元素，至使每个键位的汉字部件多达十余个，编码元素愈多，记忆码元和对汉字进行的拆分就愈难。尽管如此，其重码率之高，仍难以令人满意。为此，本发明采用了由多种汉字编码方式组成的复合输入方案和一些优化编码的措施，以此满足各种不同工作、不同文化层次的人员进行汉字输入的需要。

1、编码思想

本发明是基于一键一字的汉字特征定音定位取码的音形编码方案。其编码思想是：以汉字的读音及汉字三个角的笔形特征进行编码，通过通用的拉丁字母键盘输入汉字。本发明的汉字编码方法是这样实现的：以PC通用键盘的26个拉丁字母为基本码元，一个汉字取四键作为编码，即汉字编码的最大码长为4。汉字的编码由声码和形码两部分组成，声码部分取汉字汉语拼音的首字母为声码，汉字的声码与PC通用键盘上的拉丁字母一一相对应；形码部分取汉字的首形码、尾形码、补形码作为汉字的字形编码。本发明对汉字字形定位编码的约定意义是：

以汉字左上角起笔的笔形特征为首形码；

以汉字右下角末笔的笔形特征为尾形码；

以汉字右上角最高处的笔形特征为补形码。

汉字形码部分的字形编码元素分为26类，它们分别与键盘上的26个拉丁字母按笔形特征的形似关系相对应：

E-一单笔画横，如：天、王、石；

I-丨亅单笔画竖、竖左钩，如：旧、山、临、丁、到；

J-丿单笔画撇，如：千、禾、看、行、顺、形；

U-丶单笔画点，如：宝、识、问、军、去、杰；

R-

单笔画捺，如：良、衣、衷、襄；

C-乚单笔画横向上钩、斜右钩，如：见、化、风、几、兄；

S-

单笔画折弯钩，如：与、鸟、鸡、夸；

A-亠头笔，点与横的组合，如：京、应、广、防；

X-乂 斜叉，两笔斜交叉，如：文、右、肴、及、狗；

H-十正叉，两笔垂直正交叉，如：土、壳、填、付；

N-艹卄草头，草字头和草字头的变形，如：英、其、期、燕、革；

W-扌斜插，一笔斜向穿过两笔或两笔以上的笔画，如：打、戈、春；

M-丰正插，一笔垂直穿过两笔或两笔以上的笔画，如：青、手、本、慧；

T- 金旁头，撇与横的组合，如：铁、午、缶；

K-乛厂斜角笔形，一笔向下斜向转折或两笔笔头斜向相接组成的斜角笔形，如：买、乃、反、兵；

L-卩直角笔形，一笔向下垂直转折或两笔笔头垂直相接组成的直角形，如：习、厂、扫、雪、阿；

Y-亻单人旁，如：仃、仁、凭；

G-氵冫三点水、两点水，如：河、流、冰、冷；

O-口空小方框，小框内无笔画，如：另、扣、杏、器；

Q-日实小方框，小框内有笔画，如：是、旺、盼、备、苗、想；

D-囗独立的大方框，大方框外无附加笔画，如：回、因、国、团；

P-月月和月字形的变形，如：股、青、望；

F-木木和木字形的变形，如：标、未、米、抹、来；

V-小

忄小和小字形的变形，如：孙、示、尖、觉、肖、情；

B-八丷八和八字形的变形，如：全、天、兴、央、羊；

Z-王王和王字形的变形，如：琴、玲、全、璧；

以上字母键位所对应的汉字编码元素是一个“类”的概念，即以汉字笔画的走向和部件的形态特征进行归类，从具有共同特征的一类汉字部件和笔画中归纳出一个有代表性的部件作为汉字编码的字元。如两笔交叉的部件虽有乂、十、

等几种，但按其特征进行分类只有斜交叉和垂直交叉两种，可分别用X和H作为其码元代码，从而使汉字编码元素的集合大为简化。这些具有代表性的汉字部件按象形、会意、形声的造字方法与键盘上相应的拉丁字母建立的自然关联，形成键位字母与笔形的映射关系，解决了编码码元与汉字笔画、部件之间相互对应的有理性问题，从而极大地降低了记忆编码码元和汉字字元的难度，有利于取码和操作。

本发明的声码采用汉语拼音声母、韵母的首字母23个，基本字形编码元素26个，它们分别与键盘上的26个拉丁字母按笔形特征的形似关系相对应。此外，另增加10个与字形基本码元形态相似的扩展码元，它们与相似的字形基本码元同属一类而归于同一键位。这些声、形码元的集合涵盖了对国家GB2312-80和GB18030-2000《信息交换汉字编码字符集》中繁体、简体大字符集汉字编码所需的全部编码元素，从而可以完成对汉字大字符集中近2.8万汉字及其笔画、部件、偏旁和中、英文标点符号的编码。

2、编码规则

本发明是一种复合的汉字编码输入方案。为了适用于各文化层次不同的使用人员，它同时兼容了声形输入和形声输入两种汉字编码输入方式，从而解决了现有的音形输入方式对不认识汉字的输入问题。

汉字的声形输入方式：

汉字编码的声形输入方式，是本发明主要的一种汉字输入方式。其码元顺序首先取汉字的声码，即取汉字汉语拼音的首字母，然后取该汉字左上角的首形码，其次取该汉字右下角的尾形码，最后再取该汉字右上角的补形码，最多四键，所需要的汉字就会出现在屏幕提示行上，这时按空格键或者选字键便可输入该汉字。

汉字编码的码元顺序也可作如下表示：

声码+首形码+尾形码+补形码

汉字声码的编码规则

汉字的声码就是汉字汉语拼音的首字母。通常情况下，就是汉字读音的声母，对于双声母和零声母的汉字，则只取其首位字母。除去U、I、V三个字母外，所有作为声码的拼音字母共有23个，它们分别与PC通用键盘的23个拉丁字母一一对应。

汉字字形的编码规则

(1)对汉字取形码，在既可以取单笔画又可以取多笔画字元部件时，应优先按多笔画字元取码，这是编码时“取大部件优先”的规则。

例如“谅”字的编码，“谅”字左上角的首形码是单笔画点(丶)，应取U；“凉”字右下角亦是点，但它与另外的两个笔画组成了多笔画部件“小”，尾形码应按取大优先的规则取V，而不能按单笔画取U；“谅”字右上角的点与其下的横组成了多笔画部件头笔(亠)，补形码也应按取大优先的规则取A。因此“谅”字的形码为UVA。如果要将“谅”字输入计算机，应先键入“谅”字的声母L，然后再键入形码，即输入其编码LUVA，“谅”字便可自动上屏输入。

(2)一个笔形或部件，前角已用过，后角仍可以重复取码。

例如：“看”字的编码是KJQJ，(补形码重复取首形码的撇J)。

“音”字的编码是YAQA，(补形码重复取首形码的点横A)。

“青”字的编码是QMPM，(补形码重复取首形码的插笔M)

“时”字的编码是SQHH，(补形码重复取尾形码的两笔交叉H)

“木”字的编码是MFFF (尾形码、补形码重复取首形码的“木”F)

(3)一个笔形或部件可以分角取码。

例如：“买”字的编码是MEBK，(“买”字的首笔画在左上角的笔形是横，首形码取E，右上角的补形码取横折K)

“习”字的编码是XEIL，(“习”字的首笔画横折钩分别由首形码取横E，尾形码取竖钩I，补形码取折角L)

“风”字的编码是FLCL，(“风”字的横折钩分别由首形码取直角L，尾形码取斜右钩C，补形码取直角L)

(4)一笔的上下两段与其它笔画构成两种不同的笔形或部件的，应分角取码。

例如：“大”字的编码是DXBX，首笔画撇的上半段与首笔画横两笔斜交叉，首形码为X，撇的下半段与末笔画捺构成字元部件“八”，尾形码为B，则“大”的编码为DXBX。

“未”字竖笔画的上半段直插两个横笔画，首形码为M，竖笔画的下半段与横、撇和捺构成多笔画字元部件“木”，尾形码为F，补形码重复取首形码相同的码元M，则“未”字的编码为WMFM。

“吸”字右上角的补形码是折笔，其下半段在右下角与末笔画撇两笔斜交叉，分角取码则尾形码为X，补形码为K，“吸”字的编码为XOXK。

(5)凡缺角的汉字取形码时，缺角部分无笔画的形码一律取A，这是编码时“缺角取A”的规则。有少数汉字存在“缺角”的情况，如：“厂、尹、广、矿、”等汉字，右下角的尾形码均无笔画，这时应取A作尾形码。

例如：“厂”字的编码是CLAE；“广”字的编码是GAAA；

“尹”字的编码是YEAL；“矿”字的编码是KEAA。

(6)对于字首是头笔画(亠)、草字头(艹)或属草字头变形的汉字，在取其右上角的补形码时，不直接取其右上角，应移除(亠)和(艹)后再取右上角的笔画作补形码。

例如：“京”字的编码是JAVO； “疗”字的编码是LAIK；

“庆”字的编码是QABX； “芳”字的编码是FNIA；

“其”字的编码是QNBE； “革”字的编码是GNME。

(7)对于外围是“口、门”两类的汉字，在取其右下角的尾形码时，不直接取其右下角，而改取其框内右下角的笔画作尾形码。但在“口、门”的上、下、左、右有附加笔画的两类汉字不在此例，仍同一般汉字取右下角的笔画作尾形码。如：“国、因、问、闻、”应取内框右下角的笔画作为尾形码。

“国”字的编码是GDED；“因”字的编码是YDBD；

“问”字的编码是WUOL；“闻”字的编码是WUXL。

而：“苗、旧、们、简”等字框外均有附加笔画，仍按一般汉字取右下角的笔画作为尾形码。

“苗”字的编码是MNQQ；“旧”字的编码是JIQQ；

“们”字的编码是MYIL；“简”字的编码是JTIT。

汉字的形声输入方式：

本发明为适应文化层次不同的使用人员，允许对那些读音不准或不认识的汉字采用下述形声方式输入汉字。

对于不具备汉语拼音基础知识的人和不认识的字，难以确定汉字声母的编码，也可以采用形声编码方式输入，即先按声形输入方式下的形码输入规则，依序输入该字的首形码，尾形码、补形码，第四键取组成该汉字的字首成字偏旁或字末成字偏旁读音的首字母为声码。形声输入方式下汉字的编码是等长的4位编码，键入四键，所需要的汉字就会出现在屏幕提示行上，这时按空格键或者选字键便可输入该汉字。

汉字形声编码输入方式下码元的键入顺序也可作如下表示：

首形码+尾形码+补形码+成字偏旁声码

在这里需要注意的是：无论是字首成字偏旁或是字末成字偏旁，均须取最大成字偏旁的声母编码。其具体规定如下：

(1)本发明所指的“成字偏旁”是指组成该字的偏旁有明确的读音、而且不需要修正笔形即可独立使用的汉字。例如：虫、石、贝、牛、又、皮、俞、扁等均为有读音、可独立成字的偏旁；而纟、亻、钅、虍、扌、宀等则不作成字偏旁处理。

(2)本发明所指的“字首成字偏旁”是由汉字首笔与其后续笔画组成的最大成字偏旁。

例如：“彰”有字首成字偏旁“章”，而无字末成字偏旁。

“郇”有字首成字偏旁“旬”，而无字末成字偏旁。

(3)本发明所指的“字末成字偏旁”是由汉字末笔与其前续笔画组成的最大成字偏旁。

例如：“读”有字末成字偏旁“卖”，而无字首成字偏旁。

“卖”有字末成字偏旁“买”和字首成字偏旁“十”。

“鞭”既有字首成字偏旁“革”，也有字末成字偏旁“便”。

(4)汉字偏旁的取码按位置先取字末成字偏旁的声码，如没有字末成字偏旁则改取字首成字偏旁的声码，没有字首、字末成字偏旁的汉字，声码一律取V。

例如：“彬”的声码取字末成字偏旁“杉”的声母S。

“统”的声码取字末成字偏旁“充”的声母C。

“谧”的声码取字末成字偏旁“皿”的声母M。

“邡”的声码取字首成字偏旁“方”的声母F。

“单”、“事”、“卮”无字首、字末成字偏旁，其声码均取V。

本发明无论声形输入方式还是形声输入方式均是相互兼容的一体化汉字输入方式，无需作任何转换便可相互交替地以编码直接输入汉字。

3、汉字编码的优化措施

(1)定音定位，一键一字

本发明是基于一键一字的音形汉字编码方案。一键一字的编码原理有如写字的过程，下笔写第一横是“一”字，在横之下添一横是“二”字，加上竖笔就是“干”字，若再加上一横便是“王”字，继续补写笔画还可以写成“玉”和“玫”等字。与此相同，这种一笔一字的道理应用于汉字编码，就是基于一键一字的汉字编码方法。

本发明的汉字编码采用对汉字特征定音定位的取码方式。任何一个汉字，无论是独体字、合体字、全包围结构，还是半包围结构，甚至是单个的码元或者是汉字部件，如“一”、“人”、“口”、“小”、“卄”等，都可以把它们看成一个方块形，这是人们普遍认同的：汉字是方块字的道理。因而都有左上角、右下角、右上角，即都可以取出它们的首形码、尾形码和补形码。所以，任何一个汉字和有读音的汉字部件或偏旁均可按一个统一的编码规则取足四个编码元素，从而形成了汉字等长的四位编码。为了充分利用编码空间和简码资源、提高键入速率并降低重码率，在汉字声形编码输入方式下，需要对某些高频常用汉字的编码加以缩短，将其设置为一级、二级或三级简码，简码的设置既降低了汉字取码的难度，达到了一键一字的汉字输入效果，同时又减少了击键次数，提高了汉字输入的速度。

为了避免声形、形声两种输入方式共存时相互之间的重码，在汉字形声编码输入方式下，每个汉字的编码均为等长的四位编码。

现以一些字形较为特殊的字例“一、人、口、小、刀、衡”说明在声形输入方式下对高频常用汉字编码的优化过程。

一：“一”字的左上角取首形码是横E，右下角取尾形码也是横E，右上角取补形码仍是横E。按编码规则在形码前加上“一”的声母Y，则其完整的编码为YEEE。在实际操作中，“一”字为高频常用字，其一级简码就是声母Y，键入声母Y，“一”字就出现在提示行上，不必再键入形码EEE，按下空格键，“一”字便可上屏输入。

人：“人”字左上角的首形码不能取单笔画“撇”，因它是由撇与捺构成的多笔画部件“八”字形的变形，应按大部件优先的规则取“八”，其码元为B；同样，右下角的尾形码则是捺与撇构成的八字形的变形仍取B，右上角的补形码实质上与首形码的取码位置是相同的，仍然是B，“人”字的声母是R，其编码为RBBB。在实际操作中，“人”字为高频常用字，其一级简码就是R，键入声母R，“人”字就出现在提示行上，按下空格键便将“人”字输入。

口：“口”字的左上角取首形码是大“口”，其码元为D，右下角取尾形码因框内无笔画为A，右上角取补形码也是大“口”为D，“口”字的声母是K，其编码为KDAD。在实际操作时，“口”字是常用字，有二级简码，键入KD后“口”字出现在提示行，按空格键即可输入“口”字。

小：“小”字左上角取首形码是“小”，其码元为V，右下角取尾形码也是“小”，右上角取补形码仍是“小”，“小”字的声母是X，其编码是XVVV。实际操作时“小”字是常用字，它有二级简码，键入XV后，“小”字便出现在提示行，按空格键即可输入“小”字。

刀：“刀”字左上角取首形码是横E，右下角取尾形码是竖左勾I，右上角取补形码是垂直的折角L，“刀”字的声母是D，其编码则为DEIL。实际操作中，“刀”字是常用字，它有二级简码，键入DE后，“刀”字出现在提示行，按空格键即可输入“刀”字。

衡：“衡”字左上角的首形码是撇J，右下角的尾形码是竖左钩I，右上角的补形码是横E，“衡”字的声母是H，其编码为HJIE。将其编码全部键入后，“衡”字无重码，因而自动上屏输入计算机。

本发明无论声形输入方式还是形声输入方式均是相互兼容的，无需作任何转换便可直接输入。

例1：输入汉字“盛”。

假如不认识“盛”字，难以确定其声母的编码，可敲入形码LEU后再敲入“皿”字的声母M，即可输入“盛”字；如按声形输入方式其编码为SLE，无需输入补形码U。

例2、输入汉字“垣”

先敲入形码HEE，该字仅有字末成字偏旁“亘”，继续敲入声母G即可输入“垣”字；如按声形输入方式其编码为YHE，无需输入补形码E。

例3、输入汉字“浚”。

先敲入形码UXU，因该字首、末均无成字偏旁，应敲入V，若无重码，则自动输入汉字“浚”，有重码可用数字键选择输入；如按声形输入方式其编码为JUX，无需输入补形码U。

由此可见，一个汉字可以同时具有“声形码”和“形声码”两个编码，二者相互兼容，互不干扰，使用人员勿需按转换键，就可以交替地用另一种输入法按不同的编码录入同一个汉字，即每个汉字至少有两个编码，多音字根据读音不同则有两个以上的编码。

(2)编码前设置引导字符

汉字笔画、部件、偏旁以及中、英文标点符号与特殊符号因其读音的不确定性，在声形输入方式下不便于编码。为此，需在字形编码前加入引导字符，以非声母的I、U、V作为前置字母替代声码，从而解决了汉字偏旁读音不准以及用纯字母键盘输入标点符号的问题。

汉字笔画、部件、偏旁的编码

汉字的笔画、部件、偏旁往往只有名称而无读音，导致声母的不确定性，在对汉字的笔画、部件、偏旁编码时以V为前置字母替代声码，然后按汉字形码的编码规则输入该偏旁的首形码、尾形码和补形码。

即：V+首形码+尾形码+补形码

例如：“丿”的编码为VJJJ； “扌”的编码为VWWW；

“亻”的编码为VYYY； “忄”的编码为VVVV；

“卄”的编码为VNNN； “氵”的编码为VGGG；

“

”的编码为VECL； “勹”的编码为VJIL；

“乂”的编码为VXXX； “

”的编码为VOEO；

“爿”的编码为VIII； “

”的编码为VWBW；

“丂”的编码为VESE； “糹”的编码为VIUI；

“卩”的编码为VLIL； “釒”的编码为VBZB；

“厶”的编码为VIUI； “土”的编码为VMEM；

“宀”的编码为VUKU； “钅”的编码为VTCT。

标点符号与特殊符号的编码

本发明的中、英文标点符号与特殊符号可以用标准键盘上相应的符号键输入，也可以用字母编码的方式输入。其编码规则是以字母I作为标点符号与特殊符号编码的前置字母，然后按形码的编码规则取标点符号与特殊符号的形码。取标点符号与特殊符号的形码时有两种情况，当标点符号与特殊符号为一个整体不能分割时，其形码的取码规则与单字形码的取码规则一样，依序取标点符号与特殊符号的首形码、尾形码和补形码。

即：I+首形码+尾形码+补形码

例如：逗号“，”的编码为IJJJ；句号“。”的编码为I000；

加法符号“+”的编码为IHHH；乘法符号“×”的编码为IXXX；

井形符号“#”的编码为IWWW；女性符号“♀”的编码为IOHO。

当标点符号与特殊符号是由两个或多个相互分离的符号组成时，则分别按顺序取组成该符号各部分的首形码。

即：I+首形码1+首形码2+首形码3

例如：分号“；”由点和撇组成，其编码为IUJ；

冒号“：”由点和点组成，其编码为IUU；

感叹号“！”由竖和点组成，其编码为IIU；

省略号“…”由三个点组成，其编码为IUUU；

除法符号“÷”由点和横、点组成，其编码为IUEU；

百分号“％”由园、斜杠(类似一撇)和园组成，其编码为I0I0。

为了提高输入效率，汉字的笔画、部件、偏旁以及中、英文标点符号与特殊符号与汉字一样，其编码均可以根据实际需要设置简码，以利于快速输入。

(3)万能键查字输入

本发明提供了声码、形码的模糊编码方法，键盘右下角的“/”(可视为？)键为万能键，无论是单字声形方式或形声方式，还是输入词汇，它均可替代编码中任何一位不能确定的编码。

例1：输入汉字“馏”。

假如我们难以判断“馏”字的首形码，可用模糊编码代替首形码，输入L/QL，便可从提示行查出“馏”字的编码为LJQL，这时可用数字键选择输入。

例2、输入汉字“啬”。

假如不认识“啬”字，则不能确定“啬”字的声母编码，可以敲入/HQH，提示行即显示“啬”的编码SHQH，可用数字键选择输入。

4、词组的编码

词组的编码按输入方式也有声形输入方式和全形输入方式两种。声形输入方式按“声母优先、形码后补”的原则编码，即按顺序键入词组中每个汉字的声母，最多只取四个声母，不足四个声母的可继续取形码补足。词组的全形输入方式是不考虑汉字的读音，完全以汉字的字形特征对词组进行编码。两种输入方式根据词组的字数不同分别有以下三种编码方法。

(1)声形输入方式

二字词组编码：

依序输入二字词组每个字的声码和首字首形码、末字尾形码。

即：首字声码+末字声码+首字首形码+末字尾形码

三字词组编码：

依序输入三字词组每个字的声码和末字的尾形码。

即：声码1+声码2+声码3+末字尾形码

四字和四字以上词组的编码：

依序输入前三个字的声码和末字的声码。

即：声码1+声码2+声码3+末字声码

(2)全形输入方式

二字词组编码：

依序输入二字词组每个字的首形码和尾形码。

即：首字首形码+首字尾形码+末字首形码+末字尾形码

三字词组编码：

依序输入三字词组每个字的首形码和末字的尾形码。

即：首形码1+首形码2+首形码3+末字尾形码

四字和四字以上词组的编码：

依序输入前三字的首形码和末字的首形码。

即：首形码1+首形码2+首形码3+末字首形码

基于快速输入的思想，词组在声形输入方式下的编码与汉字的编码一样，全编码词组可以根据编码的需要设置为二级简码或三级简码。如“北京”的简码为BJ；“计算机”的简码为JSJ；“技术创新”的全编码为JSCX；“满园春色”的全编码为MYCS；“中华人民共和国”的全编码为ZHRG，均无需输入形码。

全形输入方式下的词组编码为避免与声形输入方式发生交叉重码，其编码一律为等长的四键全编码格式。

5、有益效果

本发明解决了汉字编码部件与拉丁字母相互对应的唯一性以及两者之间相互关联的有理化难题。如键位I仅作为竖笔画的代码，键位X仅作为两笔斜交叉的代码，键位0仅作为小方框内无笔画的空口的代码，键位Q仅作为小方框内有笔画的实口的代码，键位D则作为独立大方框的代码，键位L只代表直角的折笔画，J与撇形态相似，键盘上的键位字母与汉字部件这种唯一的对应和象形的映射关系，大大降低了记忆编码码元的难度，实现了汉字编码输入易学与好用两者圆满的统一。

本发明首创了复合的声形、形声、全形的一体化汉字编码输入模式。这种复合的汉字一体化输入模式可以满足各种不同文化层次以及从事不同工作的人员对汉字输入的需求。

本发明首创了定音定位、一键一字的汉字编码输入模式。定音定位取码，使汉字编码具有规范性与确定性的品质特征；一键一字的汉字编码方法，有利于减少重码，提高汉字输入效率。通过实测GB2312-80汉字字符集的编码，其重码率仅为1.6％，达到了许多汉字输入法都难以企及的指标。

本发明的显著进步还体现在首创了用26个具有代表性的字形部件所构建的汉字编码体系，这种简明有规律的同一性特征的分类方法，有利于记忆和操作。其所构建的汉字编码的码元体系既可满足对GB2312-80汉字字符集的编码要求，也可满足对GB18030-2000大字符集中繁体、简体汉字编码的要求。

本发明的汉字编码与国民普及教育背景知识相一致，对音、形码元的选择充分利用了人们在普及义务教育中已有的知识储备。因而，只要具有小学文化基础的人就可以在很短的时间内掌握汉字输入技术，真正做到即学即用。

四、附图说明

本发明用于汉字编码输入的PC通用键盘，其编码码元和汉字字元在具体键位上的分布情况由附图给出。

附图是根据本发明提出的编码码元和汉字字元在PC通用键盘上具体键位的分布图。汉字的声码元素与PC通用键盘上原有的拉丁字母一一对应；汉字字形的编码部件分别与相应的26个拉丁字母按象形、会意的造字方法形成映射关联，且每个键位上字形的编码部件所代表的是与其笔形特征相似的一类字形编码部件，所有这些同类部件的集合，构成了可输入国家GB2312-80和GB18030-2000繁体、简体汉字大字符集的编码体系。附图中的斜杠键(可视为问号键)，是用于模糊查询的万能键。

由于PC通用键盘上原有的拉丁字母与本发明的字音编码元素、字形编码部件具有完全对应和高度的相关性，因而也可以不必在键位上标识汉字的编码部件，凭借PC通用键盘上原有的拉丁字母与编码部件形态相似的关系，即可方便、快速地输入汉字，为本发明的通用性和普适性创造了条件。

五、具体实施方式

下面结合附图详细说明依据本发明提出的具体键盘装置对汉字繁体、简体及其部件、标点符号进行编码的实施例。

1、汉字编码实例

简体声码形码声形码形声码繁体声码形码声形码形声码

人 R 八八八 RBBB BBBV

见 J 乚 JLCL LCLV 見 J 目乚目 JQCQ QCQM

为 W 丶亅 WUIX UIXV 爲 W 丿亅丿 WJIJ JIJV

优 Y 亻乚丶 YYCU YCUY 優 Y 亻乂一 YYXE YXEW

备 B 丿田乛 BJQK JQKT 備 B 亻亅艹 BYIN YINY

龙 L 乚丶 LXCU XCUV 龍 L 亠乚一 LACE ACEL

马 M 丂 MLSL LSLV 馬 M 丂一 MLSE LSEV

轻 Q 一乛 QXEK XEKG 輕 Q 丰一一 QMEE MEEG

车 C 丰 CXMX XMXV 車 C 丰丰丰 CMMM MMMV

长 C 十乀丿 CHRJ HRJV 長 C 乀一 CLRE LREV

长 Z 十乀丿 ZHRJ HRJV 長 Z 乀一 ZLRE LREV

学 X

十

XVHV VHVZ 學 X 厂十 XKHL KHLZ

财 C 十十 CLHH LHHC 財 C 目十十 CQHH QHHC

宝 B 丶王丶 BUZU UZUY 寳 B 丶八丶 BUBU UBUB

丰 F 丰丰丰 FMMM MMMV 豊 F 丰一丰 FMEM MEMD

还 H 丶乀一 HURE UREB 還 H 丶乀日 HURQ URQV

让 R 丶一一 RUEE UEES 讓 R 亠乀亠 RARA ARAX

陈 C 木 CLFX LFXD 陳 C 木丰 CLFM LFMD

规 G 扌乚 GWCL WCLJ 规 G 扌乚目 GWCQ WCQE

详 X 丶丰丷 XUMB UMBY 詳 Y 亠丰丷 YAMB AMBY

听 T 囗丨丿 TOIJ OIJJ 聴 T 一丶十 TEUH EUHX

笔 B 乚 BTCT TCTM 筆 B 丰 BTMT TMTY

里 L 日一日 LQEQ QEQV 裹 L 亠乀亠 LARA ARAV

国 G 囗王囗 GDZD DZDY 國 G 囗扌囗 GDWD DWDH

间 J 丶日 WUQL UQLR 間 J 日 JLQL LQLR

。 I 囗囗囗 I000 000V 镕 R 囗丶 RTOU TOUR

， I 丿丿丿 IJJJ JJJV 俬 S 亻丶丨 SYUI YUIS

； I 丶丿丶 IUJ UJUV 侸 S 亻一一 SYEE YEED

V 一丶乛 VEUK EUKV 伱 N 亻小八 NYVB YVBX

厂 V 乛A丿 VKAJ KAJV 劧 Z 丿亅 ZJIX JIXL

廴 V 一乂A VEXA EXAV

上述所示汉字编码均为码长四位的全编码，但在声形输入方式下许多汉字均有简码，不必按全码输入。如：

人---R 见---JL 为---WU 优---YYC 备---BJQ 龙---LXC 马---MLS

轻---QXE 车---CXM 长---CHR 长---ZHR 学---XVH 财---CLH 宝---BUE

丰---FMM 还---HU 让---RU 陈---CLV 规---GWE 详---XUM 听---TO

笔---BTC 里---LQ 间---JUQ

2、词组编码实例

词组声码字元部件声形全编码声形简码全形编码

北京 BJ 一小 BJEV BJ ECAV

首都 SD 八乛 SDBK SD BQHK

因为 YW 囗亅 YWDI YW DBUI

美丽 ML 丷亅 MLBI ML BBEI

生态 ST 丿丶 STJU STJ JEXU

计划 JH 丶亅 JHUI JHU UHWI

春天 CT 扌八 CTWB WQEB

温暖 WN 氵乂 WNGX GEQX

互联网 HLW 亅 HLWI HLW EELI

计算机 JSJ 乚 JSJC JSJ UBHC

创造性 CZX 一 CZXE BUVE

知识创新 ZSCX ZSCX TUBA

知识产权局 ZSCJ ZSCJ TUAL

中华人民共和国 ZHRG ZHRG ZHR MYBD

本发明可以软件的形式制作成计算机信息处理的汉字输入系统，安装于UCDOS以及WINWDOS 9X、WINWDOS XP等各种计算机操作平台上，为使用人员提供多种简便、快捷、理想的汉字输入方法。

Claims

1.一种计算机汉字输入方法，该方法的汉字编码由声码和形码两部分组成，汉字既可以按声形方式编码，也可以按形声方式编码，包括以下步骤：

(1)所述声码为汉字汉语拼音的首字母；所述形码由首形码、尾形码、补形码组成，它们分别定位抽取汉字三个角的笔形特征进行编码；所述首形码为汉字左上角起笔的笔形特征，尾形码为汉字右下角末笔的笔形特征，补形码为汉字右上角最高处的笔形特征；声码码元、形码码元两者的集合构成了可对国家GB2312-80和GB18030-2000《信息交换汉字编码字符集》中繁体、简体大字符集汉字及其偏旁、部件、中英文标点符号进行编码的码元体系；

(2)所述声码码元与PC通用键盘上除I、U、V以外所余的23个英文字母一一相对应；所述形码码元分为26类，每一类仅以一个具有代表性的汉字部件作为形码码元的基本码元，再辅以与基本码元形态相似的扩展码元10个，所述基本码元和扩展码元分别与键盘上的26个英文字母按笔形特征的形似关系相对应：

E-一单笔画横；

I-丨亅单笔画竖、竖左钩；

J-丿单笔画撇；

U-丶单笔画点；

R-

单笔画捺；

C-乚单笔画横向上钩、斜右钩；

S-

单笔画折弯钩；

A-亠头笔，点与横的组合；

X-乂ナ斜叉，两笔斜交叉；

H-十正叉，两笔垂直正交叉；

N-艹卄草头，草字头和草字头的变形；

W-扌斜插，一笔斜向穿过两笔或两笔以上的笔画；

M-丰正插，一笔垂直穿过两笔或两笔以上的笔画；

T- 金旁头，撇与横的组合；

K-乛斜角笔形，一笔向下斜向转折或两笔笔头斜向相接组

成的斜角笔形；

L-卩直角笔形，一笔向下垂直转折或两笔笔头垂直相接组

成的直角笔形；

Y-亻单人旁；

G-氵冫三点水、两点水；

O-□ 空小方框，小框内无笔画；

Q-日实小方框，小框内有笔画；

D-□ 独立的大方框，大方框外无附加笔画；

P-月月和月字的变形；

F-木木和木字的变形；

V-小忄小和小字的变形；

B-八丷八和八字的变形；

Z-王王和王字的变形；

(3)汉字的声形输入方式使用不等长编码，其最大码长为四键，对汉字编码时先取声码，然后取汉字的形码，其码元的编码顺序为：

声码+首形码+尾形码+补形码；

(4)汉字的形声输入方式使用等长编码，其码长为四键，对汉字编码时先取字的形码，然后取汉字成字偏旁声码，其码元的编码顺序为：

首形码+尾形码+补形码+成字偏旁声码；

其中：所述成字偏旁是指组成该字的偏旁有明确的读音，而且不需要修正笔形即可独立使用的汉字，成字偏旁可分为字首成字偏旁和字末成字偏旁两种；

所述成字偏旁中的字首成字偏旁是指由汉字首笔与其后续笔画组成的最大成字偏旁；

所述成字偏旁中的字末成字偏旁是指由汉字末笔与其前续笔画组成的最大成字偏旁；

成字偏旁声码优先取汉字字末成字偏旁的声码，如没有字末成字偏旁则改取字首成字偏旁的声码，没有字首、字末成字偏旁的汉字，其声码一律取V。

(5)汉字的偏旁、部件和笔画用声形输入方式编码，编码时在形码前加入分类引导字符，以非声母的V作为前置字母替代声码，然后按汉字形码的编码规则取首形码、尾形码和补形码，其编码的码元顺序如下：

V+首形码+尾形码+补形码；

(6)中、英文标点符号与特殊符号用声形输入方式编码，编码时在形码前加入分类引导字符，以非声母的I作为前置字母替代声码，然后按汉字形码的编码规则取首形码、尾形码和补形码，其编码的码元顺序如下：

I+首形码+尾形码+补形码；

当标点符号与特殊符号是由两个或多个相互分离的符号组成时，分别按顺序取组成该符号各个部分的首形码，其编码的码元顺序如下：

I+首形码1+首形码2+首形码3。

2.如权利要求1所述的汉字输入方法，其形码部分的字形编码规则如下：

(1)取汉字的形码，在既可以取单笔画又可以取多笔画字元部件时，应优先按多笔画字元取码；

(2)一个笔形或部件，前角已用过，后角仍可以重复取码；

(3)一个笔形或部件可以分角取码；

(4)一个笔画的上下两段与其它笔画构成两种不同的笔形或部件的，应分角取码；

(5)凡缺角的汉字取形码时，缺角部分无笔画的形码一律取A；

(6)对于字首是头笔亠、草字头艹或属草字头变形的汉字，在取其右上角的补形码时，不直接取其右上角，应移除头笔亠或草字头艹后再取右上角的笔画作补形码；

(7)对于外围是“□、门”两类的汉字，在取其右下角的尾形码时，不直接取其右下角，而改取其框内右下角的笔画或部件作尾形码，但在“□、门”的上、下、左、右有附加笔画的两类汉字不在此例，仍同一般汉字取右下角的笔画或部件作尾形码。

3.如权利要求1所述的汉字输入方法，词组的编码按输入方式有声形输入方式和全形输入方式两种，其特征在于：声形输入方式下词组按“声码优先、形码后补”的原则编码；全形编码输入方式下的词组编码一律为等长的四键全编码格式，两种方式的词组编码采用声形、全形编码相互兼容的一体化复合输入方式，其编码方法如下：

(1)声形输入方式

二字词组编码：

依序输入二字词组每个字的声码和首字首形码、末字尾形码，

即：首字声码+末字声码+首字首形码+末字尾形码；

三字词组编码：

依序输入三字词组每个字的声码和末字的尾形码，

即：声码1+声码2+声码3+末字尾形码；

四字和四字以上词组的编码：

依序输入前三个字的声码和末字的声码，

即：声码1+声码2+声码3+末字声码；

(2)全形输入方式

二字词组编码：

依序输入二字词组每个字的首形码和尾形码，

即：首字首形码+首字尾形码+末字首形码+末字尾形码；

三字词组编码：

依序输入三字词组每个字的首形码和末字的尾形码，

即：首形码1+首形码2+首形码3+末字尾形码；

四字和四字以上词组的编码：

依序输入前三字的首形码和末字的首形码，

即：首形码1+首形码2+首形码3+末字首形码。

4.如权利要求1所述的汉字输入方法，其特征是：声形输入方式与形声输入方式两者相互兼容构成一体化的汉字输入方法，无需作任何转换便可交替使用声形输入方式或者形声输入方式直接输入汉字和词组。

5.如权利要求1所述的汉字输入方法，其特征在于部分汉字及偏旁、部件和标点符号的全编码如下：