CN1317906A

CN1317906A - 移动通信与计算机信息处理中英文数字化输入集成系统

Info

Publication number: CN1317906A
Application number: CN 01119137
Authority: CN
Inventors: 刘君度; 刘冰彬; 陈昌英
Original assignee: Individual
Current assignee: Individual
Priority date: 2001-05-19
Filing date: 2001-05-19
Publication date: 2001-10-17
Anticipated expiration: 2021-05-19
Also published as: CN1317906B

Abstract

本发明是一种用于计算机和移动通信设备中英文信息处理的汉字规范编码输入技术。该技术包容了多种汉字输入方式，是融声形、形声、数码输入于一体的中英文字处理系统。它采用计算机字母键盘或移动通讯设备的数字小键盘，遵循人们书写的习惯思维方式，以汉字的读音和字形特征为编码依据，通过编码元素的数字化转换，建立码元与键位字母、数字之间的自然关联，使所需的记忆量降低到最低限度，减轻汉字输入的劳动强度，有效地解决汉字输入难学易忘、英文字母输入繁琐的问题，给人们提供一种既规范又简易便捷、能即学即用的中、英文数字化输入技术。

Description

移动通信与计算机信息处理中英文数字化输入集成系统

本发明涉及一种用于微电子设备信息处理的中英文字数字化编码技术，特别是使用英文字母键盘或数字键盘将汉字、英文字符、标点符号以多种编码方式输入到某种电子设备进行中英文信息处理和通讯的汉字数字化规范编码集成输入方法。

移动通信和计算机技术的迅速发展，人们不仅需要字母形式的汉字编码，随着具有汉字信息处理功能的数字键盘产品以及可用数字键盘操作控制的电子设备不断涌现，无论是移动通信领域或军事指挥、侦察、控制等军用设备，还是电视、因特网、机顶盒等遥控器乃至使用数字键盘的学习设备、信息点播设备、信息家电、数据存储设备等都亟待开发既方便、又容易掌握的汉字数字化输入技术。为促进中文信息技术和民族软件产业的发展，信息产业部和国家质量技术监督局于2000年3月联合发布了两项中文信息技术标准，其中《信息技术和信息交换用汉字编码字符集、基本集的扩充》为国家强制性标准，《信息技术和数字键盘汉字输入通用要求》为国家推荐性标准。新标准的颁布对信息技术在微电子通讯领域健康、正常、有序地发展，对中文数字输入技术走向规范化、标准化具有重要意义。目前，现行的汉字数字编码有笔划输入和拼音输入等方法，如爱立信公司的手机采用“字能输入”，飞利浦、摩托罗拉公司的手机安装了“T9智能汉字输入”以及拼音输入，此外也有获得国家专利采用计算机数字小键盘输入汉字的“笔顺码”和“五笔数码”输入法。其不足之处就是使用起来比较繁琐、规则太多、难于记忆，输入一个汉字的击键次数较多，掌握它们仍有一定的难度，现行的汉字输入法，无论是字符编码还是数字编码均难以适应计算机和移动通信领域中文信息交换的要求。

以汉字的数字编码而言，由于数字键盘仅有十个键位，现行数字编码方案多以汉字的笔划和笔顺进行编码，因而对使用者的文化程度要求较高，不利于数字编码技术的应用和普及，虽然有的数字输入法改进后增加了联想和智能处理功能，对提高汉字的整体录入速度是有利的，但单个汉字仍需一笔一键地输入，平均击键次数较多、重码率高且难于学习和掌握。

本发明的目的是要提供一种用数字或西文字符两种编码方法合一并模块化的汉字数字化编码输入集成系统。该系统集成了多种汉字编码输入方法以适应人们各种不同的需求，其中，汉字的字母编码是基于一般人均已具有的知识储备，通过科学地选取汉字的基本码元和引入汉字字首成字偏旁与字末成字偏旁的概念，将声形与形声两种输入法合为一体，进一步解决不认识的汉字的输入问题。同时，运用我国古代象形、会意的“六书”造字方法，建立基本码元与对应键位字母之间的有机联系，从而使所需的记忆量降到最低限度，减轻汉字输入的劳动强度，进而有效地解决计算机信息处理过程中汉字输入难学易忘的问题。汉字的数字化编码是用于移动通信的汉字编码输入技术，编码旨在减少单字的平均击键次数、降低重码率，达到或超过国家现行汉字数字编码技术指标的同时，实现汉字数字编码的规范化，最大限度地减轻人们的记忆负担，有效地解决移动通信设备中汉字、英文字符、词汇、整句以及标点符号输入困难的问题，给人们提供一种可用于计算机和移动通信数字键盘的既规范、又简易便捷，能即学即用的汉字数字化编码集成输入技术。

本发明的汉字数字化编码集成输入技术是这样实现的：以英文字母的26个字母键和数字键盘0-9的十个数字键分别进行汉字编码。汉字的字母编码是以26个英文字母对汉字进行编码，其编码思想是：汉字的编码由声码和形码两部分组成，声码部分取汉字的声母或汉字拼音的首字母编码；形码部分取汉字字形的首、尾、补编码。汉字形码对首、尾、补编码的约定意义是：以汉字左上角的起笔为首形码，右下角末笔为尾形码，补形码则取汉字右上角最高的笔形。根据上述编码原则，一个汉字的完整编码可分四次取码，最多四键输入一个汉字。

汉字的数字化编码是以0-9个数字对汉字及中文标点符号、英文字母及英文标点符号进行编码，其编码思想是：在汉字的字母编码的基础上，保持汉字的基本编码元素和编码规则不变，将汉字声母及字形的编码元素以一位数字或两位数字进行编码。

以下分别将汉字的字母编码方法和数字化编码方法说明如下：

一、汉字的字母编码方法

以计算机键盘的26个字母键，一个汉字取四键作为编码。汉字的编码由声码和形码两部分组成，声码部分取汉字的声母编码，形码部分取汉字字形的首、尾、补编码。汉字的声母编码与键盘的英文字母完全相对应(无声母的汉字取韵母的首字母为编码)。汉字形码对首、尾、补编码的约定意义是：以汉字左上角的起笔为首形码，右下角末笔为尾形码，最后以汉字右上角最高的笔形为补形码，一个汉字的全码为四码。

(一)汉字声母的编码

汉字声母的编码是指选取汉字汉语拼音的首字母进行编码。一般情况下首字母即是该汉字的声母，若遇卷舌音如：ZH、CH、SH或无声母的汉字则取其声母或韵母的第一个首字母编码，声母的编码与键位上的英文字母一一对应。

(二)汉字字形的编码

形码部分的字形编码元素分为十种，分别用十个字母键表示：

E-一乚横、右弯钩(含横上钩和斜右钩)

I-丨丿亅竖、撇 (含竖左钩)

U-丶 点、捺

X-乂ナ十叉 (两笔交叉)

W-扌 插 (一笔纵向穿两笔或两笔以上)

O-口方框 (四角整齐的方形)

L-

角 (一笔向下转折或两笔笔头相接所形成的角形)

B-八丷 八 (八字形和八字形的变形)

V-小忄小 (小字和小字的变形)

A-亠点下有一横(点与横笔组成的复笔)

编码元素按国家现行出版的《新华字典》、《辞海》对汉字笔形的分类进行了取舍，同时引入了笔划形态、方向及其相互关系的概念，按象形、会意、形声的关系使之与相应的键位字母自然地关联，无须强记，达到心领神会、一目了然的效果。

由于同声母的一些汉字可能具有相似的首尾结构，会出现多个汉字编码相同的重码问题，为了进一步降低重码率，分散较为集中的重码字，达到易学好用的目的，本发明采用了一种“路径”的编码方法，将全码相同的多个不同汉字，按其使用的频度分散到全码所路经的上级简码，即任何一个全码汉字，均可根据编码需要占用其“路径”上的一级、二级、三级简码资源。例如有三个汉字的编码均为JALE，则按汉字的使用频度以JA为一个高频字简码，JAL为一个常用字简码，JALE为一个非常用字的编码。因此只要知道一个字的全码，就可以在键入全码的“路径”上录入该汉字，从而使重码率大为降低，为计算机的汉字快速输入创造了条件。

根据上述编码原则，本发明的单个汉字可同时采用声形输入和形声输入两种方式输入汉字，其编码规则分述如下。

(三)单字的声形输入方式

单字的声形输入方式是按照人们书写汉字的习惯思维方式，即先根据字的读音考虑写首笔划，最后以末笔划结束的过程。因此编码的规则是先输入汉字读音的声母，然后是首形码、尾形码，最后加补形码，也就是：

声码+首形码+尾形码+补形码

例如：“金”字的编码JBEB，简码为JBE；“石”字的编码SEOE，简码为SEO；“教”字的编码JXXB，简码为JXX；“新”字的编码XAII，该字无简码。

(四)单字的形声输入方式

为适应文化层次不同的人员，允许对那些不会读或不会写的汉字采用下述形声方式输入汉字。

在一般的声形输入方式下，应当先输入汉字的声码，然后再输入该字的三个形码。对于不认识的字，难以确定声母的编码，也可以采用形声方式输入，即先输入该字的首形码，尾形码、补形码，第四键取组成该汉字的字首成字偏旁或字末成字偏旁的声母编码，也就是：

首形码+尾形码+补形码+偏旁声码

在这里需要注意：无论是字首成字偏旁或是字末成字偏旁，均须取最大成字偏旁的声母编码。具体规定如下：

1、本发明所指的“成字偏旁”是指组成该字的偏旁有明确的读音，

而且不需要修正笔形即可独立作为汉字使用的偏旁。例如：虫、石、

贝、牛、又、皮、俞、扁等均为有读音、可独立成字的偏旁；而纟、

亻、攵、钅、、扌、宀等则不作成字偏旁处理。

2、本发明所指的“字首成字偏旁”是由汉字首笔与其后续笔划组

成的最大成字偏旁。

例如：“彰”有字首成字偏旁“章”，而无字末成字偏旁。

“郇”郇有字首成字偏旁“旬”，而无字末成字偏旁。

3、本发明所指的“字末成字偏旁”是由汉字末笔与其前续笔划组

成的最大成字偏旁。

例如：“读”有字末成字偏旁“卖”，而无字首成字偏旁。

“鞭”既有字首成字偏旁“革”，也有字末成字偏旁“便”。

4、汉字偏旁的取码按位置先取字末成字偏旁的声母编码，如没有

字末成字偏旁则改取字首成字偏旁的声母编码。

例如：“彬”的声码取字末成字偏旁“杉”的声母S。

“统”的声码取字末成字偏旁“充”的声母C。

“谧”的声码取字末成字偏旁“皿”的声母M。

“邡”的声码取字首成字偏旁“方”的声母F。

5、没有字首、字末成字偏旁的汉字，声码一律取V。

例如：单、事、卮、其声码均取V。

以下是用形声输入方式输入汉字的例子：

例1、输入汉字“盛”。

假如不认识“盛”字，难以确定其声母的编码，可敲入形码LEU后再敲入“皿”字的声母M，即可输入“盛”字。

例2、输入汉字“袭”

先敲入形码XUU，该字有字末成字偏旁“衣”，继续敲入声母Y即可输入“袭”字。

例3、输入汉字“浚”。

先敲入形码UXU，因该字首、末均无成字偏旁，应敲入V，若无重码，则自动输入汉字“浚”，有重码可用数字键选择输入。

由此可见，一个汉字可以同时具有“声形码”和“形声码”两个编码，二者相互兼容，互不干扰，使用人员勿需按转换键，就可以随意交替使用另一种输入法录入汉字，解决了对不认识的汉字的录入问题。

(五)万能键查字输入

本发明提供了声码、形码的模糊编码方法，键盘右下角的“/”(可视为？)键为万能键，无论是单字声形方式或形声方式，还是输入词汇，它均可替代编码中任何一位不能确定的编码。

例1、输入汉字“馏”。

假如我们难以判断“馏”字的首形码，可用模糊编码代替首形码，输入L/OL，便可从提示行查出“馏”字的编码为LIOL，这时可用数字键选择输入。

例2、输入汉字“啬”。

假如不认识“啬”字，则不能确定“啬”字的声母编码，可以敲入/XOX，

提示行即显示“啬”的编码SXOX，可用数字键选择输入。

(六)词汇与整句的编码

词汇编码按“声母优先、形码后补”的原则编码，即按顺序键入词汇中每个汉字的声母，最多只取四个声母，不足四个声母的词可继续取形码补足。根据词汇的字数不同有以下三种编码方法。

1、二字词编码：

依序输入每个字的声码和首字首形码、末字尾形码。

即：首字声码+末字声码+首字首形码+末字尾形码

2、三字词编码：

依序输入每个字的声码和末字的尾形码。

即：声码1+声码2+声码3+末字尾形码

3、多字词与整句编码：

依序输入前三个字的声码和末字的声码。

即：声码1+声码2+声码3+末字声码

基于快速输入的思想，词汇的编码与汉字的编码一样，采用了“路径”的编码方法，全码词可以占用“路径”上的二级简码、三级简码资源。如“北京”的简码为BJ；“计算机”的简码为JSJ；“技术创新”的全码为JSCX；“满园春色”的全码为MYCS；“中华人民共和国”的全码为ZHRG，均无需输入形码。汉字的字母编码收集了国标GB2312-80的一、二级汉字和国家新颁布的GB18030《信息交换汉字编码字符集》的汉字以及五万余条常用词汇。此外，囊括了商务印书馆1996年版《汉语成语小词典》中的全部成语，只需直接敲入声母就可进行成语的录入而不会与汉字发生重码。

二、汉字的数字化编码方法

汉字的数字化编码是以0-9个数字对汉字及中文标点符号、英文字母及英文标点符号进行数字编码，其编码思想是：在汉字的字母编码的基础上，保持汉字的基本编码元素和编码规则不变，将汉字声母及字形的编码元素以一位数字或两位数字进行编码。由于有的汉字声母可以由两位数字表示，因此一个汉字的数字编码最多由五位数字构成，即最多五键输入一个汉字。(一)汉字声母的编码

汉字声母的编码是指选取汉字汉语拼音的首字母进行数字编码。一般情况下首字母即是该汉字的声母，若遇卷舌音如：ZH、CH、SH或无声母的汉字则取其声母或韵母的第一个首字母编码。为便于记忆，声母的数字编码按汉语拼音的送气音与不送气音分类成对编码。编码表如下：

1、声母编码(共十对)

数字代码 1 2 3 4 5 6 7 8 9 01

声母 B M D L G J S Z Y H

｜｜｜｜｜｜｜｜｜｜

声母 P F T N K Q X C R W

数字代码 10 20 30 40 50 60 70 80 90 02

2、韵母编码(共六个)

韵母 A E O I U V

数字代码 03 04 05 06 07 08

3、功能识别符编码(共五个)

00 数字识别符

06 英文字母识别符

07 备用识别符

08 电话查询与自动拨号识别符

09 标点符号识别符

这种将声母有规律的分类进行组合式编码的方法，不仅一目了然、便于记忆，且能以所见知所不见，如：已知数字键盘的1、2、3键位分别表示声母B、M、D，若要输入其对应的声母P、F、T，按编码规律可知其编码分别为10、20、30，只需补零即可。如果需要输入英文字符，也可以从英语的角度来理解，不难看出这是按清辅音和浊辅音成对的关系进行编码的，从而减轻记忆负担，达到了使人过目不忘的效果。

(二)汉字字形的编码

形码部分的字形编码元素分为十种，分别用十个数字键表示：

1-一乚横、右弯钩(含横上钩和斜右钩)

2-丨丿亅竖、撇 (含竖左钩)

3-丶 点、捺

4-乂ナ十叉 (两笔交叉)

5-扌 插 (一笔纵向穿两笔或两笔以上)

6-口方框 (四角整齐的方形)

7-

角 (一笔向下转折或两笔笔头相接所形成的角形)

8-八丷 八 (八字形和八字形的变形)

9-小忄小 (小字和小字的变形)

0-亠点下有一横(点与横笔组成的复笔)

编码元素按国家现行出版的《新华字典》、《辞海》对汉字笔形的分类进行了取舍。

(三)汉字数字化编码示例

汉字数字化编码与英文字母编码一样也有声形输入和形声输入两种输入方法，其编码流程如下：

1、单字的声形输入方式

声码+首形码+尾形码+补形码

例如：“金”字的编码6818，简码为681；“石”字的编码7161，简码为716；“教”字的编码6448，简码为644；“新”字的编码70022，该字无简码。

2、单字的形声输入方式

首形码+尾形码+补形码+偏旁声码(若无偏旁声码则加零)

例如：输入汉字“袭”先敲入形码43 3，该字有字末成字偏旁“衣”，继续敲入声码9即4339，便可输入“袭”字。

输入汉字“浚”。先敲入形码343，因该字首、末均无成字偏旁，应敲入0，编码为3430，若无重码，则自动输入汉字“浚”，有重码可用数字键选择输入。

由于同声母的一些汉字可能具有相似的首尾结构，会出现多个汉字编码相同的重码问题，为了在仅有十个基本码元的情况下降低重码率，分散较为集中的重码字，达到易学好用的目的，数字编码与字母编码一样采用了“路径”的编码方法，将全码相同的多个不同汉字，按其使用的频度分散到全码所路经的上级简码，即任何一个全码汉字，均可根据编码需要占用其路经上的一级、二级、三级乃至四级简码资源。例如有四个汉字的编码均为01879，则按使用频度以018为一个高频字简码，0187为一个常用字简码，01879为两个非常用字的编码。因此只要知道一个字的全码，就可以在键入全码的路径上找到该汉字，从而使重码率大为降低，实现了同一编码最多不超过三个汉字，进一步降低了单个汉字的平均击键次数。

(四)生僻字的编码

汉字数字化编码中的国标GB2312-80的一、二级字库汉字占据了1-5位的编码空间，为解决用汉字输入人名、地名以及典籍中一些生僻字的问题，国家新颁布GB18030-2000《信息交换汉字编码字符集》的汉字27000多个，其中一些使用频率很低的生僻字以五位或六位数字编码，具体方法是与常用字一样仍按声形法或形声法对生僻字取码，然后继续补零至六位数字。

1、声形法输入生僻字的取码流程：

声码+首形码+尾形码+补形码+零

例如：用声形法输入生僻字“镕”，其编码为908630。

用声形法输入生僻字“俬”，其编码为72320。

2、形声法输入生僻字的取码流程：

首形码+尾形码+补形码+偏旁声码+零

例如：用形声法输入生僻字“镕”，其编码为863900。

用形声法输入生僻字“俬”，其编码为23270。

(五)数字编码

数字0-9已用作汉字的编码元素，在汉字数字输入法状态下是不能直接输入阿拉伯数字的，只有退出或者关闭汉字数字输入法，在窗口状态下才能直接输入数字。为了在汉字数字输入状态下输入阿拉伯数字，集成系统定义了“00”为数字编码的识别字符，即要输入0-9的数字时先键入“00”的识别字符，接着再键入要输入的的数字。如要输入数字9，应键入009，便可将9直接输入上屏。若要输入数字8189，应键入008189，则8189直接上屏。数字编码可直接输入集成系统所存储0-9999的四位任意数，五位以上的数字可分两次输入。以下是0-9的数字编码示例。

数字编码示例：

编码数字编码数字

00 0 005 5

001 1 006 6

002 2 007 7

003 3 008 8

004 4 009 9

(六)英文字母编码

英文字母输入方式有汉字数字化编码输入和纯英文输入状态下英文字母直接编码输入两种，其编码方法分述如下。

1、英文字母在汉字数字输入法状态下是以编码形式输入的，因此，需要输入英文字母时应先键入英文字母识别符“06”再加英文字母编码，英文字母的编码方法与汉语拼音中声母和韵母的数字编码是一致的，此外，也可按其在键盘上的具体键位加以确定，如字母“Y”在数字9键上的左数第一位，键入其编码069即可上屏；字母“F”在数字2键上的上中间第二位，键入其编码0620，字母F即可上屏；字母“V”位于数字8键上左数第三位，键入其编码0608，字母V即可上屏。以下是汉字数字输入法状态下英文字母的对应编码表。

编码英文字母编码英文字母编码英文字母

061 B 0610 P 0601 H

062 M 0620 F 0602 W

063 D 0630 T 0603 A

064 L 0640 N 0604 E

065 G 0650 K 0605 O

066 J 0660 Q 0606 I

067 S 0670 X 0607 U

068 Z 0680 C 0608 V

069 Y 0690 R

2、退出汉字数字输入法进入英文输入法状态，英文字母可以更为简便地直接输入。此时，可省去英文字母识别符“06”，只需按照英文字母所在的对应键位输入其相应的编码，每个字母最多按两次即可上屏显示，由于其编码的唯一性，系统可以按偶位识别原理进行两两划分并自行识别，无需预先显示，从而可只看键盘实现快速盲打输入英文字母及其标点符号。以下是纯英文字母输入状态下的字母编码。

编码英文字母编码英文字母编码英文字母

1 B 10 P 01 H

2 M 20 F 02 W

3 D 30 T 03 A

4

L 40 N 04 E

5

G 50 K 05 O

6

J 60 Q 06 I

7

S 70 X 07 U

8 Z 80 C 08 V

9

Y 90 R

注：

表示确认键。

例如：输入英文单词“HOLLO”可直接连续键入各个字母的数字编码01054

4

05，系统识别时按偶位划分原则将编码划分为01-05-4

-4 -05，屏幕便可显示对应的英文单词“HOLLO”。较之现行的英文数字输入法，可大幅度地减少击键次数，使英文字母的输入更为简易快捷。

(七)中英文标点符号的编码

汉字数字化编码可以直接用数码输入各种中、英文标点符号，为此需要有识别符引导进入标点符号编码模块，数字化编码以“09”为中、英文标点符号的识别符，即在输入标点符号编码前，先输入“09”作为识别符，然后按符号编码规则输入标点符号的编码。中英文标点符号没有声码，只需按形码的编码规则对要输入的符号取形码即可。标点符号取形码有两种情况：当符号为一个整体不能分割时，其取码规则与单字取形码的规则一样，取符号的首形码、尾形码和补形码。

即：09+首形码+尾形码+补形码

例如：加法符号+为09444；减法符号-为09111；井形符号#为09555。

如果符号是由多个独立并分隔开的符号组成时，则分别按顺序取组成该符号的各部分的首形码。

即：09+首形码1+首形码2+首形码3+首形码4

例如：分号；由点和撇组成，编码为0932；冒号：由点和点组成，编码为0933：感叹号！由竖和点组成，编码为0923；除法符号÷由点、横、点组成，编码为09313；省略号…由三个点组成，编码为09333；百分号％由园、斜杠(类似一撇)和园所组成，故编码为09626。为了提高输入速度和效率，符号编码与单个汉字一样也有简码，以下是部分常用中英文标点符号的编码示例。

中英文常用标点符号编码示例：0 ． 0954 ￡09 。 0955 $091 - 09555 #0911 — 096 @09111 = 0967 ℃092 ， 0962 ％0922 / 09626 ‰0922 ‘ 0964 ♀09222 “ 097 ()0923 ！ 0971 ∑093 、 0973 ？0931 ÷ 0976 ♂0932 ； 09761 №0933 ： 0977 <>09333 … 0977 〈〉094 + 09777 《》0941 ± 098 &0944 × 0984 ￥095 * 0985

由此可见，中西文符号是按符形编码的，只要在符形码之前附上“09”的识别符即可，使用简便，无需强记。

(八)词汇的编码

词汇编码按“声母优先、形码后补”的原则编码，即按顺序键入词汇中每个汉字的声母，最多只取四个声母，词汇的码长为六位数字，取完声母后不足六位数字可继续取形码补足，取完规定的形码仍不足六位数字时可补零。根据词汇的字数不同有以下三种编码方法。

1、二字词编码：

依序输入每个字的声码和首字首形码、末字尾形码、末字补形码，仍不足六

位数字时可补零。

即：首字声码+末字声码+首字首形码+末字尾形码+末字补形码+零

2、三字词编码：

依序输入每个字的声码和首字首形码、末字尾形码、末字补形码。

即：声码1+声码2+声码3+首字首形码+末字尾形码+末字补形码

3、多字词编码：

依序输入前三个字的声码和末字的声码、首字首形码、末字尾形码。

即：声码1+声码2+声码3+末字声码+首字首形码+末字尾形码

基于快速输入的思想，词汇的编码与汉字的编码一样，采用了“路径”的编码方法，全码词可以占用“路径”上的二级、三级、四级等各级简码资源。如“北京”的简码为16；“计算机”的简码为676；“满园春色”的全码为29807，“中华人民共和国”的全码为801905，均无需输入形码。汉字的数字化编码收集了国标GB2312-80的一、二级汉字和国家新颁布的GB18030《信息交换汉字编码字符集》的汉字以及五万余条常用词汇。此外，囊括了商务印书馆1996年版《汉语成语小词典》中的全部成语，大多敲入声母的编码就可将成语录入而不会与汉字发生重码。经过以上技术处理的词汇重码率仅为千分之一。

(九)电话查询与自动拨号功能

电话号码的记忆是件费心劳神的事，汉字数字化编码方法由于重码率极低，从而为移动通讯的电话号码查询和自动拨号提供了简便实用的操作方案。本方案的实现是基于数据存储模块中已输入了用户的姓名及电话号码等资料的情况下，通过输入查找人的姓名编码而从已有的数据库中调出其对应的电话号码，经确认后自动拨号接通对方的通信设备。实施该功能的过程是这样的：首先键入“08”的查询和自动拨号识别符，接着输入被查询人的姓名编码，姓名的编码方法与汉字数字化编码中的词汇编码方法完全相同，但系统规定只取姓名编码的前四位数字编码。例如：“陆游”的编码按照二字词编码规则为49748，要查询其电话号码和相关资料应键入084974即可调出“陆游”的电话号码，查看无误，经确认后自动拨号发出。

“辛弃疾”的编码按照三字词编码规则为70606，要查询其电话号码和相关资料应键入087060，显示后，经确认即自动拨号发出。

根据上述原理，也可建立专用的电话查询与自动拨号窗口界面，此时可取消引导识别符，用户按系统设计好的格式输入了相关人员的姓名、单位名称及其相应的电话号码存储于数据库，需要拨号时只要输入姓名或者单位名称的编码即可调出其对应的电话号码，经确认后便可自动拨号发出。由于无需识别符，可以直接取姓名的六位数字编码，因而可存储数万个通讯号码以适应大用户的需要。

电话查询与自动拨号功能是基于所输入的姓名编码与数据库中存储的姓名编码相同的关系实现的。只要知道被查询人的姓名或单位名称，便可按数字编码规则输入其姓名或者单位名称编码，系统据此调出相对应的电话号码和相关资料，从而避免记忆那些抽象而难记的电话号码，提高工作效率。

本发明的汉字数字化编码键盘的具体结构由以下实施例及其附图给出。

图1是根据本发明提出的汉字数字化编码键盘的数字、英文字母的具体键位分布图。

下面结合图1详细说明依据本发明的汉字数字化编码输入技术提出的具体键盘的设置细节及汉字输入过程。

该键盘包括十个数字键，每个键位分别以0-9的阿拉伯数字标识，其中1-8的每个键位上分别根据声母、韵母的编码规则分配三个英文字母与其处于同一键位并作标识，在数字9的键位上仅标识Y和R两个英文字母与汉语拼音中的Y和R相对应。0键位则是一个纯数字键，它除了作为一个形码键位之外，同时也是一个辅助的功能键，可与其它数字键配合以区分出输入的是哪一个字母。为了使用方便和操作简单，根据字母在数字键位上不同位置的提示作用，配合0键即可输入相应的字母。本发明的数字编码键盘也可在原计算机的数字键盘上加贴标签或带有字母标识的键帽，使汉字的输入更为直观简便。键位上的英文字母从左、中、右排列的约定意义是：左边的第一个字母以按一次本键位表示；中间的第二个字母以按一次本键位接着再加按0键表示；从左至右的第三个字母以先按一次0键再接着按本键位表示。这里的字母位序起到了提示数码的作用，减轻了人们的记忆负担，同时有利于提高键入速度。例如要输入字母G，因其在左边第一位，表示“5”代表字母G，只要按数字键5即可；若要输入字母K，因其在中间第二位，表示需先按5键接着再加按0键，即“50”代表字母K；如果要输入字母W，因其居左数的第三位，则需先按0键后再接着按2键，即“02”代表字母W。例如输入一个“新”字，其声母X是7键位上的第二个字母，需要键入70和其余的三个形码022，“新”的编码则为70022；又如输入“宝石”一词，其声母为B和S均在1键和7键左边的第一位，键入17和形码361，“宝石”一词的编码为17361；成语“马到成功”的声母为MDCG，按字母位置的提示可知其编码为23805。标点符号则需先输入识别符09再键入形码，如逗号的编码键入092即可，其余可类推。由此可见：即使声母的数字代码记不住，按照键位上字母标识的位置也能迅速确定该字母的数字编码，形码则按数字代码直接键入，无需强记，操作是非常简便快捷的。

数字化输入集成系统与现行汉字编码方法相比，其特点是编码的规范性和确定性。本发明是基于国家确定了的汉语拼音和对汉字笔形分类的确定性条件下构建的规范编码，其中任何一个汉字也都具有规范确定的编码，因而最大限度地减少了汉字编码的模糊性和二义性。

本发明首次实现了汉字的计算机西文字符编码与移动通信数字化编码在基本码元和编码规则上的统一，这种通用性有利于减少重复学习，降低社会劳动成本，有利于推动汉字输入技术在电子与通信技术领域的应用和普及。

本发明的汉字多种编码输入方式，可广泛适应社会上各种人员的需求，特别是汉字的数字化编码方法，其重码率和单字的平均击键次数等各项性能技术指标均已超过现行的优秀字符型编码，实现了词汇的无重码输入。

汉字数字化输入集成系统兼容了声形输入和形声输入两种汉字录入方式。由于字首成字偏旁和字末成字偏旁概念的引入，本发明兼有音码输入法的简便和形码输入法的快捷等优点，解决了拼音和声形输入法用键盘不能输入不认识的汉字的问题。

编码规则特别简单，充分利用了人们已有的知识储备，没有特殊要求记忆的附加内容。汉字字母编码由于用声母作首码，与键盘的英文字母完全一致；声母的数字化编码按照汉语拼音中送气音与不送气音分类成对编码，这种极有规律的排列组合几乎无需标识的提示便可举一反三，达到易学好用的目的；字形的编码运用了古代汉字象形、会意、形声的造字方法选取十个键位，使每一个基本码元与其对应键位的字母有“形似”和“神似”的联系，如巧妙地用E表示横笔，I表示竖笔，O表示口，L表示直角的折笔，X表示两笔交叉，W表示多笔交叉，都极为形象自然、顺理成章，扩展的异形码元也仅25个，因而无须强记。在汉字输入过程中，使用者取码的视线只需集中在汉字的首、尾及右上角固定位置的笔划上，操作规范，不存在对汉字进行部件拆分的问题，只要知道汉字的大概轮廓便可录入，不必细究汉字的内部笔划，因此学习掌握特别容易。一个具有小学文化程度的人，已经初步学习了汉语拼音和查字典的基础知识，只要了解一下汉字编码的基本规则就可以使用键盘进行汉字输入，容易做到即学即用。

本发明实现了单字和词汇的自然区分。由于编码中选用了不同的字母键分别表示声码和形码，根据I、O、U、V、E、A等仅表示形码的字母在编码中出现的位置，即可区分是单字还是词汇，减少了单字和词汇同时出现的重码问题，这种使单字和词汇两者泾渭分明、各行其道的措施，进一步提高了编码素质。

词汇和整句录入是提高汉字整体输入速度的关键，词汇的编码以声母的连续编码为主，形码为辅，先“声”后“形”，形码则先首码而后尾码，符合人们书写的思维过程，词的简码只需连续键入两个或两个以上的声母，省去形码后，进一步提高了词汇的输入速度，三字以上的词组只需根据声母就可以快速录入，无须考虑该词组具体怎么写，因而给人一种亲切自然的感受。

数字化输入集成系统的汉字数字化编码和汉字字母编码是两个可拆卸的模块，既可二者合一组成一个集成系统，也可一分为二按硬件设备的要求和人们的需要拆卸安装使用，以满足人们的不同需求。

汉字声母的ZH、CH、SH和Z、C、S不分，适应南方方言分不清卷舌音的特点，更易于输入汉字。

本发明可以软件的形式制作成中英文信息处理的汉字输入集成系统，安装于UCDOS、以及WINDOWS3.X、WINDOWS95、WINDOWS98、WINDOWS NT、WINDWOS2000等各种计算机操作平台上，为计算机提供多种简便、快捷的汉字输入方式；本发明由于采用可分可合、模块化的结构方式，也可固化于只读存储器嵌入各种电子信息设备作为中英文信息处理的汉字输入技术，供掌上型移动通信设备输入汉字和英文字符以进行中、英文信息的传输和交换。

Claims

1、移动通信与计算机信息处理的中、英文数字化编码输入集成系统，一种使用字母或数字键盘将汉字、英文字符以及标点符号输入到某种电子设备特别是移动通信设备以进行中、英文信息处理和通讯的汉字数字化规范编码输入技术。采用该技术的集成系统软件具有汉字英文字母编码输入和数字编码输入功能，汉字编码由声码和形码两部分组成，其特征在于：

(1)汉字的英文字母编码方法

a．所述声码部分为汉字汉语拼音的声母或韵母的首字母，首字母的自身即作为其编码，且与键盘上的英文字母完全一一对应。

b．所述形码部分的汉字基本编码元素取自《新华字典》以及《辞海》对汉字笔形的十种笔划分类，同时引入了笔划形态、方向及其相互关系的概念，按象形、会意、形声的关系使之与相应的键位字母自然关联，每个键位字母所代表的笔划如下：E-一 横、右弯钩(含横上钩和斜右钩)I-丨丿亅竖、撇 (含竖左钩)U-丶 点、捺X-乂ナ十叉 (两笔交叉)W-扌 插 (一笔纵向穿两笔或两笔以上)O-口方框 (四角整齐的方形)L- 角 (一笔向下转折或两笔笔头相接所形成的角形)B-八丷  八 (八字形和八字形的变形)V-小忄小 (小字和小字的变形)A-亠点下有一横(点与横笔组成的复笔)

(2)中英文数字编码方法

a、所述声码部分为汉字汉语拼音的声母或韵母的首字母，首字母是经数字化编码后以数字形式键入，其编码规则按汉语拼音的送气音与不送音及其它相关特征进行分类，然后成对组合编码。编码表如下：

(a)、声母编码(共十对)

数字代码 1 2 3 4 5 6 7 8 9 01

声母 B M D L G J S Z Y H

｜｜｜｜｜｜｜｜｜｜

声母 P F T N K Q X C R W

数字代码 10 20 30 40 50 60 70 80 90 02

(b)、韵母编码(共六个)

韵母 A E O I U V

数字代码 03 04 05 06 07 08

b、所述形码部分的汉字字形编码元素与汉字英文字母编码的字形编码元素相同，所不同的是汉字字形的编码元素是经数字化编码后以数字形式键入。为确保编码的规范性要求，其数字编码与《新华字典》以及《辞海》对汉字笔形的分类顺序保持一致。形码部分的字形编码元素分为十种，分别用十个数字键表示。其编码表如下：1-一乚横、右弯钩(含横上钩和斜右钩)2-丨丿亅竖、撇 (含竖左钩)3-丶 点、捺4-乂ナ十叉 (两笔交叉)5-扌 插 (一笔纵向穿两笔或两笔以上)6-口方框 (四角整齐的方形)7-

角 (一笔向下转折或两笔笔头相接所形成的角形)8-八丷 八 (八字形和八字形的变形)9-小忄小 (小字和小字的变形)0-亠点下有一横(点与横笔组成的复笔)

2、根据权利要求1所述的形码部分由汉字的首形码、尾形码和补形码组成，它们与声码共同组成一个汉字的完整编码。其特征是：

首形码：指汉字左上角起笔所对应的编码。

尾形码：指汉字右下角末笔划所对应的编码。

补形码：指汉字右上角最高的笔划所对应的编码。

3、根据权利要求1所述的汉字英文字母编码和汉字数字编码均有声形输入方式和形声输入方式两种，二者相互兼容、共同存在，从而构成多输入方式的汉字数字化编码输入集成系统，其汉字编码流程的特征是：

(1)汉字的英文字母编码方法

a、声形输入方式：

声码+首形码+尾形码+补形码

b、形声输入方式：

首形码+尾形码+补形码+偏旁声码(若无偏旁声码则加V)

c、所述声形输入方式与形声输入方式两者是相互兼容、共同存在的，其特征是无需作任何转换便可交替使用声形方式和形声方式直接输入汉字。

(2)汉字的数字编码方法

a、单字的声形输入方式：

声码+首形码+尾形码+补形码

b、单字的形声输入方式：

首形码+尾形码+补形码+偏旁声码(若无偏旁声码则加零)

c、生僻字的声形输入方式：

声码+首形码+尾形码+补形码+零

d、生僻字的形声输入方式：

首形码+尾形码+补形码+偏旁声码+零

4、根据权利要求3所述的偏旁声码是指组成该汉字的字首成字偏旁或字末成字偏旁的声母编码，其特征是：

a、所述“成字偏旁”是指组成该字的偏旁有明确的读音、而且不需要修正笔形即可独立作为汉字使用的偏旁。

b、所述“字首成字偏旁”是由汉字首笔与其后续笔划组成的最大成字偏旁。

c、所述“字末成字偏旁”是由汉字末笔与其前续笔划组成的最大成字偏旁。

d、汉字偏旁的取码按位置先取字末成字偏旁的声码，如没有字末成字偏旁则改取字首成字偏旁的声码。

e、没有字首、字末成字偏旁的汉字，偏旁声码一律取字母“V”或数字“0”。

5、根据权利要求1所述汉字数字化编码输入是通过功能识别符区分、引导英文字母、标点符号等字符编码进入相应的模块而完成特殊字符的输入，并以此解决不同功能之间的干扰和重码问题。其特征是：

功能识别符编码(共五个)

00 数字识别符

06 英文字母识别符

07 备用识别符

08 电话号码查询与自动拨号识别符

09 标点符号识别符

6、根据权利要求5所述数字识别符“00”是冠于数字编码之前用以引导、识别数字编码的识别符，在数字识别符“00”之后所输入的数字即为需要输入的数字。其编码特征如下所示：

数字编码示例：

编码数字编码数字

00 0 005 5

001 1 006 6

002 2 007 7

003 3 008 8

004 4 009 9

009988 9988 009989 9989

7、根据权利要求5所述英文字母识别符“06”是冠于英文字母编码之前用以引导、识别英文字母编码的识别符，在英文字母识别符“06”之后输入英文字母编码即可输入英文字母。其编码表如下所示：

编码英文字母编码英文字母编码英文字母

061 B 0610 P 0601 H

062 M 0620 F 0602 W

063 D 0630 T 0603 A

064 L 0640 N 0604 E

065 G 0650 K 0605 O

066 J 0660 Q 0606 I

067 S 0670 X 0607 U

068 Z 0680 C 0608 V

069 Y 0690 R

8、根据权利要求1所述的英文字母在英文输入法状态下无需引导识别符即可以两键输入，此时，英文字母的编码以其所在键位的位置确定。其编码表如下：

编码英文字母编码英文字母编码英文字母

1 B 10 P 01 H

2

M 20 F 02 W

3 D 30 T 03 A

4 L 40 N 04 E

5 G 50 K 05 0

6

J 60 Q 06 I

7

S 70 X 07 U

8

Z 80 C 08 V

9

Y 90 R

注：

表示确认键。

英文字母编码是等长的两位编码，可以连续输入，系统按照偶位划分规则，进行两两识别，实现英文字母自动上屏显示。

9、根据权利要求1所述中、英文标点符号识别符“09”是冠于标点符号编码之前用以引导、识别标点符号编码的识别符，在标点符号识别符“09”之后输入标点符号编码即可输入标点符号。中、英文标点符号的编码是按形码的取码规则对符形编码，其特征在于：

(1)中英文标点符号没有声码，只需按形码的编码规则对要输入的标点符号取形码即可。标点符号取形码有两种情况：当符号为一个整体不能分割时，取符号的首形码、尾形码和补形码。

即：09+首形码+尾形码+补形码

(2)当标点符号是由多个独立并分隔开的符号组成时，则分别按顺序取组成该符号的各部分的首形码。

即：09+首形码1+首形码2+首形码3+首形码4

10、根据权利要求5所述的电话号码查询与自动拨号识别符“08”冠于被查询人姓名或者单位名称编码之前以引导、检索其电话号码并完成自动拨号。在电话号码查询与自动拨号识别符“08”之后输入被查询人姓名或者单位名称编码即可查询其电话号码。其特征在于：

(1)根据输入的姓名编码与数据库中存储的姓名编码相同的关系实现电话号码查询与自动拨号，从而以形象的被查询人的姓名或者单位名称替代抽象、冗长且难于记忆的电话号码。

(2)另建专用的电话号码查询与自动拨号的窗口界面，可取消引导识别符，直接输入姓名的六位数字编码，扩充通讯号码库以适应大用户的需要。

11、词汇的编码采用“声码优先，形码后补”的编码方案，即按顺序键入词汇中每个汉字的声母，不足四个声母的可继续取形码补足。其编码规则根据不同的输入方式和词汇的字数不同有以下编码方法，其编码流程的特征是：

(1)词汇的英文字母编码方法

a、双字词编码：

依序输入每个字的声码和首字首形码、末字尾形码。

即：首字声码+末字声码+首字首形码+末字尾形码

b、三字词编码：

依序输入每个字的声码和末字的尾形码。

即：声码1+声码2+声码3+末字尾形码

c、多字词与整句编码：

依序输入前三个字的声码和末字的声码。

即：声码1+声码2+声码3+末字声码

(2)词汇的数字编码方法

a、二字词编码：

位数字时可补零。

b、三字词编码：

即：声码1+声码2+声码3+首字首形码+末字尾形码+末字补形码

c、多字词编码：

即：声码1+声码2+声码3+末字声码+首字首形码+末字尾形码

12、根据权利要求1所述的数字键盘是以数字形式往掌上型电脑、PDA以及信息家电，特别是小型移动通讯设备输入数字化中英文信息的装置。该装置面板上安排有0-9的十个数字键，其中在1-9的九个数字键上分别标识有A-Z的26个拉丁字母。其特征在于：

(1)所述的十个数字键分别以0、1、2、3、4、5、6、7、8、9的十个阿拉伯数字进行标识。

(2)面板上1-9的九个数字键按照汉语拼音声母、韵母的发音规律标识A-Z的26个拉丁字母。其键位分配如下表：

1-BPH 4-LNE 7-SXU

2-MFW 5-GKO 8-ZCV

3-DTA 6-JQI 9-YR

(3)数字“0”键除作为数字输入外，亦可视作功能键，用以配合其它九个数字键识别所输入的数码信息。

(4)根据特征(2)所述的键位分配表并结合数字“0”键，中英文数字键盘对26个拉丁字母的约定意义是：以拉丁字母在键位上的位序提示并确定字母的编码。即从左至右位于第一列的九个字母B、M、D、L、G、J、S、Z、Y分别以其所对应的数字键1、2、3、4、5、6、7、8、9表示；从左至右位于第二列的九个字母P、F、T、N、K、Q、X、C、R分别以其所对应的数字键加“0”键10、20、30、40、50、60、70、80、90表示；即先按字母所在的键，接着再按“0”键。从左至右位于第三列的八个字母H、W、A、E、O、I、U、V分别以01、02、03、04、05、06、07、08表示；即先按数字“0”键，接着按字母所在的数字键。中英文数字键盘据此实现每一个拉丁字母只按两键即可输入。