CN102262683B

CN102262683B - 一种汉字输入方法

Info

Publication number: CN102262683B
Application number: CN201110244411.1A
Authority: CN
Inventors: 何瑞芳
Original assignee: Individual
Current assignee: Individual
Priority date: 2011-08-18
Filing date: 2011-08-18
Publication date: 2014-09-24
Anticipated expiration: 2031-08-18
Also published as: CN102262683A

Abstract

一种汉字输入方法，包括：预先对每一汉字进行囲字形单元的拆分，并把拆分结果存储至部件数据库，囲字形单元是由9个方位所组成，从左到右由上至下，这9个部位分别是左上、上、右上、左、中、右、左下、下、右下，每一汉字可拆分成囲字形单元中的多个部位的部件，并将部位和部件，连同拼音、声调、笔画的数据，存储到部件数据库中。本发明对汉字制定了一系列自然而又科学的拆分、查询、编码与汉字的拼音化规则，建立一种通过输入部件组合来寻找和输入汉字的部件查询输入法，该输入法利用键盘上的数字0到9的数字键或英文字母a到z的字母键来输入部件，再通过部件数据库的查询来输入汉字，这种基于无信息损失的拆分的编码，实现了一种称为“一字文”的汉字输入与拉丁化的方案。

Description

一种汉字输入方法

技术领域

本发明涉及汉字存储方法和多种依据该汉字存储方法相关的汉字信息处理方法，特别涉及一种汉字存储方法及使用该存储方法设置的部件查询输入法及一字文编码方法。

背景技术

以图解词意为造字方法而起源的汉字，虽然其直接的表意功能已逐渐丧失，变成了既不完全表意又不完全表音的繁难的记号文字，但又是形、音、义这三个方面的统一体，具有组词能力强、信息量大、简短、美观等优点，记载了中华文化5千年的文明。随着计算机技术的发展，汉字难学、难用、难推广的弱点，集中表现在输入法这个技术领域。

几乎所有的汉字输入法，都是从音和形这两个方面着手，形成了五花八门的音码、形码、形音码、音形码，主要是通过26个英文字母，和/或0到9这10个数字的编码，试图用最短的码长，来建立汉字和编码之间的某种关系。这里所说的英文字母，大多是基于1958年颁布的《汉语拼音方案》，共计409个拼音。

为了全面研究汉字，本项目收集了UNICODE编码完全不同的简体、繁体、日本、朝鲜汉字共76077个，其中的56900个汉字拥有拼音数据。要显示75000个汉字，可安装海峰五笔的配套超大字集支持包(http://okuc.net/Software/Unifonts.exe)。假设所有汉字都拥有拼音的数据，那么，用拼音来输入汉字的输入法，将存在严重的重码问题：76077/409＝186，也就是说，每个拼音，对应着约186个汉字。假设每页(行)显示10个字，那么，平均需要翻186/10/2＝9页，才能找到并输入一个汉字。这说明，拼音虽然简洁易学，是非常好的发音方案，却是一个很差的输入方案，也不是一个可行的汉字拉丁化方案。从这个角度说，《汉语拼音方案》的优点，正是它的缺点。

为了解决重码问题，需要除拼音之外的更多的信息。以图解词意造出的汉字，具有特殊的形态结构，可以拆分出一定的偏旁部首、部件、字根、笔画组合和笔画，那么，这些形态方面的信息，就构成了汉字的另一维的参数，为克服拼音重码的难题，提供了多种多样的解决方案。

许慎于汉安帝建光元年(121年)所著的《说文解字》，收9353字，又古文、籀文等异体同文1163字，共10506字，是中国第一部系统地分析汉字字形和考究字源的字书。许慎将每字均按“六书”(指事、象形、形声、会意、转注、假借)分析字形，把众多的汉字按形体构造分成了540部，创造了一套自成体系的“据形系联”和“以类相从”的“偏旁编字法”。

汉字最基本的构字要素，就是笔画，是书写汉字时，不间断地一次连续写成的一个线条段。汉字的笔划归纳为横、竖、撇、捺、折5种。传统的汉字结构学说里，根据汉字的构成单位把汉字分成独体字、合体字两类。独体字由笔画构成，合体字则由偏旁构成。偏旁指的是“六书”中会意、形声字里的组成部分，或表义或表音，是合体字的结构单位。采用传统文字学的两分法，称合体字的左方为「偏」，右方为「旁」。现今，合体字的左右上下任何一部分均为偏旁。部首则是用来作为排列和检索汉字依据的特殊的偏旁。

几乎所有的汉字是由若干组笔画结构拼合而成的，这些相对独立的笔画结构称为“部件”。部件是大于基本笔画而小于或等同于偏旁的结构单位。字根是从汉字最小的离散结构单位着眼分析汉字形体得出的结果，由若干笔划交叉连接而形成的相对不变的结构，是构成汉字的最基本的笔画组合。有许多偏旁部首本身包括2个以上的字根。

可以从大到小，将这些构字单元进行排列：

(1)偏旁部首是汉字最大的组成单元，可以是较简单的汉字，一般有一定的读音和意义；

(2)部件既可以是偏旁，又可以是字根这样的笔画结构；

(3)字根是构成汉字的最基本的笔画组合，本身没有特定的读音与意义；

(4)笔画仅为特定位置的书写线条。

不同的输入法，虽然取码方案不尽相同，但都是以下几种可能的不同组合：

(1)偏旁及其首、末笔画；

(2)部首及其首、末笔画；

(3)部件及其首、末笔画；

(4)字根及其首、末笔画；

(5)字的笔顺与笔画。

共有14种组合，按每次取其中的4个要素计算，则有14*13*12*11＝24024个组合，也就是24024种编码方案，其中的部分方案，已经申请了专利。不同的输入法，所采取的不同的组合的取码方案，目的只有一个：如何用最容易记忆与学习的方法，取到最短的码长的编码，以达到最少的重码的效果。

但无论是哪种组合，所取得的编码，都不能等同于原来的汉字，也就是说，汉字这种形、音、义的象形文字，在现有的不同的输入法中，所采用的编码，都已经丢失了原有汉字在形、音、义这三个方面的大部分的特征，这些英文字母和/或数字的组合，或多或少都存在人为的硬性规定的编码规则，无异于添加了另一套需要重新记忆的符号，由此增加学习与输入汉字的难度。同时，作为使用人数最多的语种之一，汉语应该同时是一种国际化的语言，那么，就要求在国际通用的计算机键盘和手机上，可以用0到9这10个数字，和a到z这26个字母来直接输入汉字，而不需要有特殊的键盘来操作。

在汉字拆分方面，做得较全面的，有CHISE(CHaracter Information ServiceEnvironment，字信息服务环境)项目(见网站http://chise.zinbun.kyoto-u.ac.jp/)，开发者为日本京都大学人文科学研究所的守岡知彦/MORIOKA Tomohiko。其拆分的缺点有.用了大量的图解来代替笔画组合.缺乏统一的拆分规则.字研究项目，用单个部首和单个部件来查询汉字，成果见【國際電腦漢字及巽體字知識庫】网站(http://chardb.iis.sinica.edu.tw/)。

在申请号为200710302601.8中公开了一种新的汉字输入法，它主要通过以下方案达到目的：以8个数字码代表8类字根，每个数字码和键盘上的1个键对应设置，8类字根具体如下：横(一，包括挑)、竖(丨)、撇(丿)、捺(乀)、点(丶)、所有折画、所有交叉的笔画、口(包括大囗和小口)。8个数字码和键盘上的8个数字键1-8分别对应设置或和键盘上的A、S、D、F、G、H、J、K分别对应设置，输入汉字时，将汉字分成左右结构型和非左右结构型，左右结构型的汉字，在该字的左部按笔顺取第一个和第二个码，然后从汉字的右部按笔顺连取二个码，最后按笔顺取该汉字的末码，非左右型的流字，近笔顺连取四码，最后按笔顺取该汉字的末码，当左右结构型汉字的左部只有一码时，则按非左右结构型汉字的规则取码。虽然，它不用更换变动现有的电脑硬件和程序，也不需要用到任何汉语拼音，但是，这种编写方式会存在信息损失，且对于普通的用户来说，存在着规则众多不容易记的缺点。同时，8个笔画取5码，从概率论的角度计算，最多只能表达8*8*8*8*8＝32768个汉字，只是76077个可输入的汉字的43％，其重码率至少为2.3以上，如果考虑到笔画的分布的不均匀性，重码率会更高，按该专利所说的4300或5300码，那么重码率为17.7(76077/4300)或14.4(76077/5300)，是一种效果不很理想的输入法。

发明内容

本发明涉及一种汉字信息处理方法，以解决现有技术中现有汉字编写方式会存在信息损失，且对于普通的用户来说，存在着规则众多不容易记的技术问题。

本发明的第二目的在于提供一种汉字拆分存储方法，以解决现有的拆分都存在信息损失的技术问题。

本发明的第三目的在于提供一种与该汉字拆分存储对应的一种汉字查询输入方法，以解决现有的存在着规则众多不容易记的技术问题。

为了达成上述目的，本发明公开了一种汉字信息处理方法，包括：

预先对每一汉字进行囲字形单元的拆分，并把拆分结果存储至部件数据库，所述囲字形单元是由9个方位所组成，从左到右由上至下，这这9个部位分别是左上、上、右上、左、中、右、左下、下、右下，所述每一汉字可拆分成至少有两个部件的囲字形单元；

在部件数据库中对应的字段存储汉字拼音信息，以及囲字形单元中每个部件的拼音信息，所述拼音信息包括拼音和/或拼音缩写和/或拼音声调信息；

输入汉字时，输入汉字的拼音信息、部件的拼音信息，从部件数据库找到对应的汉字。

预先对每一汉字进行囲字形单元的拆分进一步包括：

A1：对每个汉字进行囲字形单元的拆分，将拆开的部件及对应拼音信息保存至部件数据库；

A2：对囲字形单元中的每个部件进行囲字形单元的拆分，并把拆开后的部件及对应的拼音信息保存至部件数据库；

A3：判断组件构件能否再拆分，如能再进行步骤A2，如不能，则进行保存。

利用囲字形单元，制定如下10条针对汉字的拆分规则：

(1)部件一定要是可以用UNICODE表达，并且可以由键盘输入，在计算机屏幕上可以独立地显示的笔画组合；

(2)部件的笔画少于原始汉字；

(3)部件是最大的笔画组合，每个汉字进行解构，拆分成数目最少的部件；

(4)个别笔画组合缺乏相对应的一模一样的部件，由形态与笔画类似的部件来代替；

(5)每一个传统的偏旁部首均是部件；

(6)直接相邻的方位，在方位的数据输入与检索中，具有相同的含义。部件尽量占据具有更多相邻位置的高等值位；

(7)在出现多种可能时，遵循传统的偏旁部首、部件汉字的出现频率，尽量做到自然而合理的拆分；

(8)如果汉字在纵向上的部件为4个，可选用的方位有上、中、下、右下。如果为5个，可选用的方位有左上、左、左下、下、右下；

(9)包孕结构，均呈现四面八方包围中部的特征，除了包围之外，还可以出现局部的重叠的现象。如果完全重叠，则归入全包围结构；

(10)部件可以继续拆分，直至最简单的横、竖、撇、捺、点笔画为止。

编码按照如下这5条编码规则，来产生部件的线性拼音数据：

(1)左右结构的二合字，部件的拼音是左部件的拼音+右部件的拼音；

(2)上下结构的二合字：上部件的拼音+下部件的拼音；

(3)所有包孕结构与全包围结构的二合字：外围的部件的拼音+中部位的部件的拼音；

(4)左右结构的三合字和四合字，也即左上部位和左下部位有部件，或者左部位有部件而左上部位和左下部位无部件，依据从左到右，从上到下的顺序，则部件的拼音是：左上+左+左下+上+右上+中+右+下+右下部位的部件的拼音；

(5)其余汉字的部件组构的拼音，依据从上到下，从左到右的顺序，将各个部件的拼音拼合到一起：左上+上+右上+左+中+右+左下+下+右下部位的部件的拼音。

部件的拼音是由以下规定产生的：

如果部件有拼音信息，则用它的拼音，否则，将该部件拆分，用拆分所得的部件的拼音信息。

所述拼音信息中包括声调，所述声调中缺少声调数据、第一声、第二声、第三声和第四声分别和0、1、2、3、4相对应，轻声和其它缺读音数据的汉字，都被赋予0值，一字码编码包括汉字拼音+汉字声调+部件的拼音。

一字双码或一字单码的编码为汉字拼音的双/单码+部件的双/单码。

一种汉字拆分存储方法，包括：

预先对每一汉字进行囲字形单元的拆分，并把拆分结果存储至部件数据库，所述囲字形单元是由9个方位所组成，从左到右由上至下，这这9个部位分别是左上、上、右上、左、中、右、左下、下、右下，所述每一汉字可拆分成至少有两个部件的囲字形单元，第一次拆分进一步包括：

A1：对每个汉字进行囲字形单元，将拆开的部件及对应拼音信息保存至部件数据库；

A2：对囲字形单元中的每个部件进行囲字形单元，并把拆开后的部件及对应的拼音信息保存至部件数据库；

根据所规定的方法，可以将76077个汉字拆分成约8千个部件，然后将部件拆分成约1600个常见部件，最后将所有部件拆分到5种最简单的笔画。一个汉字的拆分过程，需要经过多次操作才能完成。它的最长的一个拆分路径，可以称为该汉字的层次。汉字层次数值从1到12，主要有4到8，平均数值是6.3。由此实现了汉字无信息损失的拆分过程。

一种基于上述拆分存储的汉字查询输入方法，包括：

(1)接收用户输入的部首信息；

(2)查询部件数据库，判断汉字是否存在，如果汉字存在，则找到该汉字；

(3)如果汉字不存在，则需要将部件分组，然后合拼查询结果，n个部件和方位，可以分成n-1，n-2，...，3，2，1组，将每一个可能的组合，执行(2)到(3)的操作，然后，将每一种可能的结果合并，直到找到所查询的一个或多个汉字；

(4)将不是边旁部首的部件进行拆分，然后用所得的部件组合，执行(1)到(3)的操作，把查询到的汉字全部返回；

(5)如果没找到符合全部输入部件的条件，则返回满足部分条件的汉字，也就是在(3)中，n-1，n-2，...，3，2组的查询结果；

(6)在返回查询结果之前，如果需要，可以继续查询包含这些结果的所有汉字。

建立相互替代的数据库，所述相互替代数据库包括保存相互可替代的繁体、简体、异体的部件、以及相互替代的同义偏旁。

可以利用部件的笔画来输入部件。其中，约1600个常用部件的笔画是1到20，使用键盘上的0到9这10个数字键来输入1到26的笔画，也可以使用键盘上的a到z这26个英文字母键，来对应于这些笔画数字键，以便在不知道拼音的情况下也能输入部件和汉字。

附图说明

图1为囲字形单元的图形示意图。

图2为拆字流程图。

图3为媝在囲字形单元的图形示意图。

图4为囲字形图的汉字查询逻辑图。

图5a-d为部件查询输入法的基本操作过程的图解。在这里，用笔画数来输入部件，用[]作为首尾分字符。

图6为部件出现频率的统计曲线图解。

具体实施方式

以下结合附图，具体说明本发明。

一、囲字形单元

汉字具有一定的形态结构，可以拆分成具有一定方位的偏旁部首、部件、字根、笔画组合和笔画。汉字结构非常复杂，除了传统的汉字结构学说所指明的左右型与上下型的双合字与三合字，还有外内型汉字和单体型汉字。目前通用的，有三种描述汉字的部件的方位的语言：自然语言、算术语言、图像符号语言。

1、自然语言，就是用自然语言的描述方式，表达出部件和方位两个方面的信息，比如“媝”字，是“上秋下女”，那么，秋与女字，就是“媝”的部件；而“秋”字，是“左禾右火”，禾与火，就是“秋”的部件。自然语言的关键词组有：左亻右出、上口下大、三个火、仁的左偏旁加上戾(是个什么字？)。自然语言，对于复杂的汉字，因为部件及其方位多变，描述起来过于复杂和多变，就变得难于解译，有可能出现多解的现象，从而缺乏统一性、精确性和科学性。

2、算术语言，就是用加(+)、减(-)、乘(*)、除(/)这四个符号，来表达部件的方位：亻+右、口/大、3*火、仁-二+戾。加(+)号表示左右的关系。减(-)号表示左边的字去除右边的部分，仁-二就是指亻。乘(*)号表示多少个，3*火就是指三个火。除(/)号表示上下的关系，口/大就是指上口下大。可以用括号来限定解译的先后次序，比如：(革+皮)/女，指字。算术语言，对于非常复杂的汉字，也存在与自然查询语言类似的缺点，并且，不是所有的汉字，都可能通过算术查询语言来表达查询的要求。

3、图像符号语言，就是用具有方位图像的特殊的字，来表示部件之间的方位关系。表示左→右/左右结构，比如何表示为亻可；表示上→下/上下结构，比如志表示为士心；更多的还有：左→中央→右/左中右结构，上→中央→下/上中下结构，左上→包围/左上包孕结构，右上→包围/右上包孕结构，左下→包围/左下包孕结构；上→包围/上三包孕结构，下→包围/下三包孕结构，左→包围/左三包孕结构；四万→包围/全包围结构；重叠结构。其它的一些单体结构、特殊结构、和更复杂的混合型结构，都无法用语言或图像符号来表达。

为了能在同一图形里，表示所有这些不同的部件之间的复杂结构，克服以上语言的缺陷，本发明首创了囲字形单元语言，来对汉字进行部件的拆分与查询。囲字形单元由9个方位的汉字输入框组成，可以将一个汉字，按照9方位，拆分成这9个部分：上、下、左、右、中、左上、左下、右上、右下(图1)。

这样，一个汉字就可以分成9个方位的9个部件；如果每一个部件再进一步拆分，就有81个方位的81个部件，即9²；依次类推，如果将一个汉字拆分n次，那就有9ⁿ个方位的9ⁿ个部件。

二、拆分规则

为了将汉字科学而又自然地拆分为部件，需要遵循一条基本准则：尽量避免汉字在形、音、义这三个方面的信息的丢失。为此，建立了10条拆分细则：

(1)部件一定要是可以用UNICODE表达，并且可以由键盘输入，在计算机屏幕上可以独立的显示的笔画组合；

(2)部件的笔画少于原始汉字；

(3)部件是最大的可拆分汉字，也就是说，每个汉字进行解构，拆分成数目最少的部件。尽可能遵守传统的两分法，依次才是三分、四分、一直到七分之后。稍后将会详细讨论相关的结构转换规则；

(4)个别笔画组合缺乏相对应的一模一样的部件，由形态与笔画类似的部件来代替。比如，鼎＝(下)+目(中)，呈下三包孕结构；

(5)每一个传统的偏旁部首，都可以是部件。需要指出的是，同一个偏旁部首，在一个汉字是部件，而在另一个汉字里，可能需要与其它笔画，组成更复杂的部件，具体操作，遵循规则(3)；

(6)直接相邻的方位，在方位的数据输入与检索中，具有相同的含义。这里，可以划分出9个等值区，其中间值分别为以上的九个部分。部件尽量占据高等值位。该规则稍后会有更详细的说明(见表1)；

(7)在出现多种可能示，遵循传统的偏旁部首、部件汉字的出现频率，尽量做到自然而合理的拆分。比如彬字，可以有这3种拆分方案：林+彡，木+杉，木+木+彡，首先，按照“数目最少的部件规则(3)”，排除拆分方案3；其次，在剩下的前两个方案中，为了遵重彬字的偏旁部首“彡”，选取方案1：林+彡；

(8)如果汉字的在纵向上的部件为4个，可选用的方位有上、中、下、右下；如果为5个，可选用的方位有左上、左、左下、下、右下；按照以上原则拆分的汉字，在纵向上的部件不超过5个；

(9)汉字的主要形体结构，其拆分方案见表1。其中的包孕结构，均呈现四面八方包围中部的特征，除了包围之外，还可以出现局部的重叠的现象。如果完全重叠，则归入全包围结构；

(10)每个部件又是独立的汉字，可以继续拆分，按照前面的9条规则，直至拆分到不可再分的最简单的笔画(横、竖、撇、捺、点：一丨丿乀丶)为止。横勾与竖勾的勾，可用点表示。还有少量其它圆弧形曲线形的笔画，比如的○。

其中，第6条，需要做进一步的说明。首先，直接相邻的方位，指的是在囲形图中，以边或角相连的方位，现用表格，罗列出每一个方位的等值方位(表1)。

表1 囲字形单元的直接相邻的等值方位

由此，将方位分成三组。

第一组是边角位，有左上、右上、左下、右下这4个方位，每一个位都有4个等值位，构成4个等值区。

第二组是边中位，有左、右、下、下这4个方位，每一个位都有6个等值位，构成4个等值区。

第三组是中位，有中这1个方位，有9个等值位，构成1个等值区，也就是说，中位是所有其它方位的等值位，或者说，其它方位是中位的等值位。

由此可见，第三组是高等值位，第一组是低等值位。在拆分的过程中，需要尽量地利用高等值位。

典型的汉字形体结构及其拆分方案与实例，归纳于表2。

表2 汉字主要形体结构的拆分方案、实例与出现频率

规则3是其中的最重要的拆分规则之一，该规则的应用，在造成的汉字部件数目减少的同时，还常常导致汉字的形体结构的转换。比如三合字，常拥有左中右结构、上中下结构，和上下与左右的复合型结构。如果它们的相邻部件能够组成新的更大(笔画数更多)的部件，则将发生结构的转换而变成双合字。具体的转换规则有：

(1)左中右结构：在囲形图中的部件的部位是左+中+右，如果左+中或者中+右的这两个部件，可以合成另一个更多笔画的部件，那么，左中右结构将变成左右结构，例如，彬＝木+木+彡＝林+彡，湖＝氵+古+月＝氵+胡，具体的转换公式有：左+中+右＝(左+中)+右＝左+右，左+中+右＝左+(中+右)＝左+右；

如果左+右可以结合成另一个更多笔画的部件，那么，左中右结构将变成全包围结构，例如，衍＝彳+氵+亍＝行+氵，具体的转换公式是：左+中+右＝(左+右)+中＝右+中；

(2)上中下结构：在囲形图中的部件的部位是上+中+下，如果上+中或者中+下的这两个部件，可以合成另一个更多笔画的部件，那么，上中下结构将变成上下结构，例如，禀＝亠+回+示＝+示，髻＝髟+士+口＝髟+吉，具体的转换公式有：上+中+下＝(上+中)+下＝上+下，上+中+下＝上+(中+下)＝上+下；

如果上+下可以结合成另一个更多笔画的部件，那么，上中下结构将变成全包围结构，例如，衷＝亠+中+＝衣+中，具体的转换公式是：上+中+下＝(上+下)+中＝右+中；

(3)上(左右)+下结构：上下结构的上部，具有左右结构。如果上左部与下部可以结合成一个新的部件，那么，该结构就转换为左下包孕结构，例如，＝(彖+瓜)+虫虫＝蠡+瓜，具体的转换公式是：上(左右)+下＝(上左+下)+上右＝左下+中；

如果上右部与下部可以结合成一个新的部件，那么，该结构就转换为右下包孕结构，例如，聖＝(耳+口)+王＝呈+耳，具体的转换公式是：上(左右)+下＝(上右+下)+上左＝右下+中；

(4)上+下(左右)结构：上下结构的下部，具有左右结构。如果下左部与上部可以结合成一个新的部件，那么，该结构就转换为左上包孕结构，例如，簸＝+(其+皮)＝箕+皮，具体的转换公式是：上+下(左右)＝(上+下左)+下右＝左上+中；

如果下右部与上部可以结合成一个新的部件，那么，该结构就转换为右上包孕结构，例如，蘤＝艹+(白+爲)＝蔿+白，具体的转换公式是：上+下(左右)＝(上+下右)+下左＝右上+中；

(5)左(上+下)+右结构：左右结构的左部，具有上下结构。如果左上部与右部可以结合成一个新的部件，那么，该结构就转换为右上包孕结构，例如，＝(+缶)+殳＝+缶，具体的转换公式是：左(上+下)+右＝(左上+右)+左下＝右上+中；

如果左下部与右部可以结合成一个新的部件，那么，该结构就转换为右下包孕结构，例如，＝(凶+孑)+攵＝孜+凶，具体的转换公式是：左(上+下)+右＝(左下+右)+左上＝右下+中；

(6)左+右(上+下)结构：左右结构的右部，具有上下结构。如果左部与右上部可以结合成一个新的部件，那么，该结构就转换为左上包孕结构，例如，稭＝禾+(比+日)＝秕+日，具体的转换公式是：左+右(上+下)＝(左+右上)+右下＝左上+中；

如果左部与右下部可以结合成一个新的部件，那么，该结构就转换为左下包孕结构，例如，炧＝火+(+也)＝灺+，具体的转换公式是：左+右(上+下)＝(左+右下)+右上＝左下+中。

四合字，也可以用类似的方法，转换成三合字与双合字。其中，较典型的例子有属于左三包孕结构的双合字：、、鹽，下三包孕结构的双合字：，上三包孕结构的双合字：羸。

按照这10条汉字拆分规则，对所有汉字进行拆分，可以做到：

(1)同一个部件，只在一处进行拆分，从而避免了同一个部件重复拆分，避免了这种简单的工作的反复操作；

(2)将一个汉字及其部件反复拆分，最后所剩下的惟有最简单的笔画，如果将这些具有一定方位的笔画拼凑到一起，则可得出该汉字的笔顺。不同的汉字，一定具有不同的笔画组合。囲形图这样的拆分过程，同时保留了部件和部位的多维的信息，是一个在形、音、义这三个方面的信息均无丢失的汉字拆分过程。这一点，将在一下节中作更详细的分析。

三、汉字拆分、存储、部件组构和层次

利用囲字形单元，在确立了汉字的拆分规则之后，就可以对一个汉字进行拆分，有效地建立起一个汉字的部件数据库。

汉字的拆分过程，可以用拆分状态的变化来描述。一个汉字，有三种状态：尚未拆分、已经拆分、不可继续拆分(如图2)。

其拆开过程进一步包括以下步骤：

一个尚未拆分的汉字，首先要进行拆分。拆分的操作，就是上面的10条拆分部件的规则。这个操作过程，可以分为如下3步：

(1)一个尚未拆分的汉字，判断是否可以拆分；(2)如若可以拆分，就进行拆分；(3)将拆分的结果，部件和它们的方位的数据，存入部件数据库。对每一个部件，返回操作第(1)-(2)步，直至不可以拆分为止。

举例说明，“媝”字，(1)是可以拆分的；(2)现在，利用囲字形单元，将它拆分成“上秋下女”；(3)点击“存储”，将结果存入部件数据库(见图3)。秋字与女字，可以作进一步的拆分，成为“左禾右火”与“上下乂”，再将结果存入部件数据库。该拆分过程直至将所有部件，都拆分成最基本的4种笔画才算完成。

媝字及其部件可以拆分为：

媝＝秋(上)女(下)

秋＝禾(左)火(右)

禾＝丿(上)木(下)

木＝十(上)八(中)

十＝一(右)丨(中)

八＝丿(左)乀(右)

火＝人(下)丷(中)

人＝丿(左)乀(右)

丷＝、(左)、(右)

女＝(上)乂(下)

＝一(右)丿(中)

乂＝乀(右)丿(中)

可以用如下这6条规则，来将汉字的立体结构，表达成部件的线性的排列方式：

(1)左右结构的二合字，部件组构是左部件+右部件；

(2)上下结构的二合字：上部件+下部件；

(3)所有包孕结构与全包围结构的二合字：外围的部件+中部位的部件；

(4)左右结构的三合字和四合字，也即左上部位和左下部位有部件，或者左部位有部件而左上部位和左下部位无部件，依据从左到右，从上到下的顺序，部件的组合方式是：左上+左+左下+上+右上+中+右+下+右下部位的部件；

(5)其余汉字的部件组构，依据从上到下，从左到右的顺序，将各个部件的拼合到一起：左上+上+右上+左+中+右+左下+下+右下部位的部件；

(6)处理上面所得的部件组构：一个部件，继续操作上面的(1)到(5)的步骤，直至拆分到横、竖、撇、捺、点(一丨丿乀、)之一为止。

运用囲字形单元所创建的汉字拆分法，是一种无信息损失的拆分过程。汉字被拆分成具有一定部位的部件组合，复杂的部件可拆分成更简单的部件，简单的部件可以拆分成最简单的笔画。这样的过程，是一个多次拆分的过程。与之相反的，就是由最简单的笔画构建简单的部件，再由简单的部件构建复杂的部件，再由这些部件构建成出最后的汉字。造字和拆分，是两个相反的操作，其中的每一步，都是可逆的，也就是说，部件组构与汉字之间，具有一一对应的关系。这个汉字拆分与构建，是多次操作的过程，这个次数，显示出汉字的层次特性，操作的次数愈多，说明汉字的结构愈复杂。

这里所引入的“部件组构”这个名词，指的是汉字经过拆分之后，所拥有的部件的组成和通过这些部件的部位所呈现出的汉字结构。

一个汉字，经过多次拆分之后，最长的一个拆分路径的长度，可以称为汉字的层次(Layer)。比如“何”字，它拆分所得的部件组构是：亻(丿丨)可(丁(一亅(丨、))口(匚(一(丨一))丨))，其最长的拆分路径是5。比如“顰”字，它拆分所得的部件组构是：((頻(步(止(上(丄(丨一)一)丨)(丨丿))頁((一自(丿目(日(口(匚(一(丨一))丨)一)一)))八(丿乀)))三(一二(一一)))三(一二(一一)))卑(甶(丿田(囗(匚(一(丨一))丨)十(一丨)))丿十(一丨))，其最长的拆分路径的长度是12。

汉字的层次数值从低到高有1到12，其中，1占0.1％，2占0.4％，3占1.7％，4占6.9％，5占19.5％，6占29.0％，7占24.5％，8占13.0％，9占4.0％，10占0.9％，11占0.04％，12占0.002％，呈正态分布。层次数从4到8的汉字，共占92.9％。汉字层次的平均数值是6.3，总体标准差为1.4。大部分的汉字，需要经过4到8次的拆分，才能完成从汉字到基本笔画的过程。将汉字的部件组构分开来，就能把这个分级拆分的过程，看得更加清楚。这里，以“何”字为例，共分成5个层次(Layer)，也就是，通过5次拆分，才完成其全部的拆分过程：

Layer 1：何＝>亻(丿丨)可(丁(一亅(丨、))口(匚(一(丨一))丨))

Layer 2：亻＝>丿丨

Layer 2：可＝>丁(一亅(丨、))口(匚(一(丨一))丨)

Layer 3：丁＝>一亅(丨、)

Layer 4：亅＝>丨、

Layer 3：口＝>匚(一(丨一))丨

Layer 4：匚＝>一(丨一)

Layer 5：＝>丨一

7万6千多个汉字被拆分成8千多个部件。经过统计(见表2)，占91.4％的汉字，都可以拆分成两个部件，属于双合字。该结果，印证了传统的汉字结构学说的偏旁部首的二分法，其中，左右型(占60.6％)和上下型结构(占20.7％)的汉字，在所有汉字里，占有主导的地位。三合字只占6.6％，四合字占1.6，其余汉字(5到7个部件)仅仅占有0.4％。

这8千个部件的出现频率，是不均匀的。图6显示了部件的出现频率。该图由两个统计图表叠加而成，其一是部件出现次数vs部件出现次数之和，其二是部件出现频率vs部件出现次数。这里的“部件出现次数”，指的是汉字经过第一次拆分之后，所出现的次数，如果将所有汉字在第一次拆分之后，所出现的同一部件的出现次数相加，所得到的数值，也可以称为“部件出现次数”。与此相对的，是“部件出现最大次数”，也就是所有总笔画数高于该部件的汉字和部件进行拆分之后，所得到的部件出现次数，是该部件可能具有的最大的出现次数。比如品字，它的层次数值是5，部件组构是口(匚(一(丨一))丨)吅(口(匚(一(丨一))丨)口(匚(一(丨一))丨))，第一次拆分为口与吅，它对口的“部件出现次数”的贡献值为1，而吅可拆分为口口，那么，品字对口的“部件出现最大次数”的贡献值为3。对于部件出现次数vs部件出现次数之和的图解，部件出现次数之和，是相对于部件出现次数的某一数值，具有该出现数值的部件的数目，比如，部件出现次数为1的部件有3000个，部件出现次数为10的部件有100个，那么，在部件出现次数vs部件出现次数之和的图上，就有两个坐标点，分别是(100，10)和(3000，1)。将所有坐标投射到该图上，就得到由这些点所连出的曲线，表现了这样的一个特征：在所有8000多个部件中，只有一小部分的部件是常见的部件。部件出现频率vs部件出现次数的图解，部件出现频率是：累计的部件出现次数*部件出现次数之和/((部件出现次数*部件出现次数之和)的总和)，该图进一步说明了这个问题：只有一小部分的部件是常见的部件。从这些统计分析的结果，可以总结出如下3条特征：

(1)部件出现的次数不均匀。其中，最常出现的100个部件，占部件出现总数的44％；最常出现的200个部件，占部件出现总数的54％；最常出现的500个部件，占部件出现总数的70％；最常出现的1450个部件，占部件出现总数的90％；

(2)不常出现的部件，均可拆分为常见的部件；

(3)《说文解字》与《新华字典》所提出的边旁部首，均属于常见的部件。

经过多次拆分之后，所有部件都可以拆分到最简单的5种笔画。从8000到5，中间经过不同的部件之间的多次转换，在这个多次拆分的过程中，可以找到一些常见的部件，它们满足这样的条件：1)是常见的边旁部首或简单的汉字；2)容易输入；3)能过通过它们，用囲字形单元，找到所有的部件。这样，就可以通过这些常见的部件，来找到并输入所有的汉字。

部件的出现次数，与部件的总笔画数之间，存在负相关性，它们的相关系数是-0.20。如果利用部件出现最大次数来计算，该负相关性会得到进一步的增强。也就是说，总笔画数愈大，被用来造字的机会愈少。那么，就可以用总笔画数和出现次数这两个参数，来确定常见部件。按照不同的筛选参数，常见部件的数目，可以是介于8000到5之间的任意数值。这样，从统计学和字形单元查询的有效性这两方面考虑，经过多次的尝试之后，所找到的算法是：

对于拆分所得的约8千个部件，如果部件出现少于10次，而笔画多于2画，或者笔画多于20，而出现次数不限，则将对该部件进行拆分操作；

将拆分所得的部件的出现次数加入其余部件，将它们的出现次数，存储入部件数据库。

该算法所得的约1600个部件就是常见部件。同过这些常用部件，可以找到其它所有的部件和所有的汉字。

与拆分过程相反的，是汉字的建造过程。造字的过程，类似于现代流水线式的生产过程：由标准的部件，按照一定的图纸，来装配机器。部件除了作为语言学的术语外，还有一个意义，就是指机器的一个组成部分，一个部件由若干零件装配而成，其性能，自然由其零件决定。那么，汉字，也是由一定部位的部件构成的，部件与汉字之间，在意义、读音和形状上，一定具有某种相互继承的关系。

象形的汉字，是形、音、义这三个方面的综合体。层次表现了汉字的复杂程度，层次愈高，表明该字的复杂程度也愈高。高层次的汉字，由低层次的部件(汉字)组成，它们在形、音、义这三个方面，具有相互继承的特征。由此，充分显示了汉字拆分过程的无信息损失的特征。

四、部件查询方法

本发明可以将所有的汉字按照上述的拆字规则进行拆分后存储至对应的部件数据库中。所有的汉字只是一个虚指，并不是实指。比如，某一类型汉字字典的所有的汉字进行拆分，当碰到某一汉字在部件数据库中没有的话，重新拆分后进行部件数据库存储。本发明所收集和拆分的汉字为76077个。

基于上述的汉字拆分存储方式，有很多种编码及输入查询方法。本发明就举几个例子：部件查询方法、一字文及扩展编码。

首先介绍部件查询方法

构造汉字的囲字形单元，是二维的图形，用来拆分汉字的同时，又可用来查询汉字。在建立了部件数据库之后，查询的算法，并不复杂，需要处理的难点，就在于多级汉字拆分与查询的算法。

具体的操作，如图4所示，可以分解为如下的7个步骤：

(1)用户利用囲字形单元，输入查询要求：n个部件和方位。具体操作方法，由前面的10条拆分规则确定；

(2)程序系统按照等值位技术，查询部件数据库，判断汉字是否存在。等值位的确定，参见表1。如果汉字存在，则找到该汉字。(有两处优化：一是同义偏旁，比如水和氵，它们在查询的过程中，可以相互替代；另一是繁体、简体、异体的部件，比如马和馬，它们在查询的过程中，也可以相互替代。在此，不再详述)；

(3)如果汉字不存在，则需要将部件分组，然后合拼查询结果。n个部件和方位，可以分成n-1，n-2，...，3，2，1组，将每一个可能的组合，执行(2)到(3)的操作，然后，将每一种可能的结果合并，直至找到所查询的一个或多个汉字；

(6)在返回查询结果之前，如果需要，可以继续查询包含这些结果的所有汉字。这是一种深度查询；

(7)如果没有找到符合n-1，n-2，...，3，2个部件条件的汉字，则寻找和返回满足一个条件的所有汉字。

具体的查询过程比较复杂，特别是第(2)步的两个优化步骤，需要建立一个同义偏旁的数据库表格，一个繁体、简体、异体的数据库表格的数据。

从步骤(2)到(3)，是一个多循环反复运算的过程。这里所说的“深度”查询，就是用找到的汉字，继续寻找包含这些汉字的其它汉字。这样，就可以从部件，查询到所要找寻的汉字。比如，从禾与火找到秋，然后，再找到所有以秋为部件的汉字，比如：秋稥愁媝鶖湬瞅揪鬏萩醔啾踿鍫锹鍬揫甃蝵鹙萩偢僽愀煍湫楸。

现在以“贛”字为例，来解析该程序的执行过程。囲字形单元有9个方位，每一次，可以接受1到9个部件的查询输入条件。贛字的层次数值为9，部件组构为：贑(章(立(亠(丶一)(丷(丶丶)一))早(日(口(匚(一(丨一))丨)一)十(一丨)))貢(工(一丄(丨一))貝(目(日(口(匚(一(丨一))丨)一)一)(丿乁))))夂(又(一乂(乁丿))丿)。贛字至少有10个可用的查询部件：立、日、十、夂、工、貝、早、章、貢、贑，正确的拆分方案是：贑(左下)夂(中)。可以用不同的部件组合，来进行查询的操作。基本特征就是，所用的部件越多，部件的层次数值愈高，则查询所返回的汉字越少，所得的结果越精确。下面是不同的部件组合的查询过程和所得的结果。

1)选用一个部件来进行查询。比如用“章”，则可以找到53个字，如：贑鱆障彰樟璋墇獐蔁瞕暲蟑幛嶂傽鏱鄣遧瘴慞漳嫜，每个字都包含了部件“章”；如果深度查询，则可以找到59个字，如：贑鱆障彰樟騿璋墇獐蔁瞕暲蟑幛嶂傽鏱鄣遧瘴慞漳嫜贛赣，其中，“贛赣”这6个字，是由“贑”字再次查询所获得的；

2)选用两个部件来进行查询。比如用“章”和“貢”进行深度查询，则可以找到8个字：贑贛赣，其中的带“贡”部件的字，那是因为“贡”是“貢”的繁体字的缘故。如果用“贑”和“夂”查询，则只找到一个汉字：贛；

3)选用三个部件来进行查询。比如用“章”、“貢”和“夂”进行深度查询，则只找到1个字：贛。如果是深度查询，则可以找到7个字：贛灨；

4)选用四个部件来进行查询。如用“立”、“早”、“夂”和“貢”进行查询，则只找到1个字：贛。在这里，4个部件，步骤(1)是查询条件，n＝4；步骤(2)，查询数据库，是否存在有这4个部件的汉字，结果是“不存在”；进入步骤(3)，对这4个部件进行组合：3字组合(立早夂、立早貢、早夂貢)、2字组合(立早、立夂、立貢、早夂、早貢、夂貢)，分别查询，并将查询所得的结果，与剩下的部件进行组合查询。在这里，立早貢的3字组合的查询过程，则需要2字组合(立早、立貢、早貢)的查询，立早的查询得到“章”字，“章”与剩下的“貢”部件组合，查询得到“贑”。那么，立早貢的3字组合的查询结果“贑”字，可以进一步与剩下的部件“夂”进行组合查询，最后得到“贑”字。其余组合均不成功。这样的组合查询，是一个循环反复的程序。

另举一例，字的层次为6，部件组构为忄(丶丨丶)敞(尚((丷(丶丶)丶)冖(丶乛(一丶))口(ㄈ(一(丨一))丨))攵((丿一)乂(乀丿)))，可以拆分为：忄、惝、尚、敞、攵，正确的拆分方案是：忄(左)敞(右)。可以用三个组合来查询：忄尚攵，惝攵，忄敞。其中，需要特别提出的是惝攵组合，需要达到步骤(4)，将“惝”拆分成“忄”和“尚”；然后，对“忄尚攵”进行下一循环的查询：到达步骤(3)：由“尚攵”找到“敞”；再进行第3个循环的查询：由“忄敞”找到“”。

汉字有同义偏旁字、简繁体与异体字，为了查询的方便，可以相互替换。比如羊，有 这5个替换字，比如羨字，可以用“羊”两个部件来查询。

这样的查询过程，可以视为一种特殊的输入法：部件查询输入法。输入法的具体方案是：

(1)所有的汉字，都可以拆分成部件，而绝大部分的汉字，都可以拆分成两个部件；

(2)汉字由部件组成，复杂部件由简单部件组成，简单部件由5种最基本的笔画(一丨丿乀丶)组合而成。这样的部件，约为8000个，那么，只需要输入这8千个汉字中少数的几个汉字，就可以找到相应的汉字。在这些部件中，最常见的部件约1600个，而其余部件，都可以用这些最常见的部件组合而成(见图6的统计曲线)。比如贑字，可拆分成“贑”和“夂”，而贑则是由更常见的部件“章”和“貢”组合而成的；

(3)一个部件，平均对应于9个汉字，但每两个或两个以上的部件的组合，所对应的汉字则近于1。这种用部件来直接查询和输入汉字的方法，具有非常低的重码率；

(4)只需要选定一个特殊的分字符，就可以借助于现有的任何一种输入法，来输入部件，然后查询和输入所要输入的汉字。这里的查询过程，与囲字形单元的汉字查询，有一点不同之处：在查询部件的数据库时，不再考虑部件的方位(部位)这个因素。这样做的目的，基于两点考虑：一是因为不需要部位这个参数的帮助，也可以保持非常低的重码率，另一原因，是为了减少用户的负担，用户可以用随意排列的部件来找到所需要输入的汉字。

本项目试验所采用的方案是：

(1)选用的分字符是[]，[为首分字符，]为尾分字符，首尾分字符之间的汉字和/或字母和/或数字，即为部件的查询条件；

(2)用总笔画数，来输入部件。所用的总笔画数：1到32。这里，也可以用任何其它的输入法，来输入部件。在8千个部件中，所选出的约1600个常用部件的笔画是1到20。可以用键盘上的0到9这10个数字键来输入1到26的笔画，也可以利用键盘上的a到z这26个英文字母键，来对应于这些笔画数字键。在这里，数字键1对应于字母键a，数字键2对应于字母键b，数字键3对应于字母键c，...，依次类推，数字键26对应于字母键z。这样，在不知道拼音的情况下也能输入所需要的部件；

(3)查询部件数据库，罗列相应的部件，以供选择；

(4)根据所选择的部件或部件组合，来到部件数据库中，寻找汉字；

(5)罗列所找到的汉字，以供用户选择与输入。

部件查询输入法就好比是查字典，通过边旁部首或部件来寻找汉字。所不同的是，原来的《说文解字》和《新华字典》，只用一个边旁部首，而部件查询输入法，可以用1到9个部件来寻找汉字。假使汉字散布在一个多维的文字空间，查询就好比是在这个多维空间里寻找一个有字的点，如果只用一个坐标值，则只能截取到相应的一个平面上的所有的点，而部件查询输入法，当用两个坐标值时，可以找到一条线上的所有点，当用三个或更多的部件时，所对应的空间上的几何图形，只能是唯一的一个点：重码率为1。由此可见，部件查询输入法与字典的相似性在于：1)用笔画数查找部件或边旁部首；2)用部件或边旁部首来查找汉字，所有边旁部首均属于部件。部件查询输入法与字典的不同之处在于：1)《新华字典》所用的边旁部首为200个，而部件查询输入法所用的部件的数目更多，部件约8000个，常用部件约1600个；2)每次查询时，字典只用一个边旁部首，而部件查询输入法所用的部件，有1到9个，多数情况下用2个部件。可以说，部件查询输入法是《新华字典》查字方法的扩展型的方案。

无论是用总笔画数，还是用拼音，都可以快速找到这些常见部件，然后通过这些部件，来输入汉字。

如何快速输入汉字，成了部件查询输入法的关键问题。本项目引入了一种综合性的部件输入方案：

(1)如果输入的是英文字母a-z的任意组合，则查询拼音、部件组构的拼音、一字文的一字双码和一字单码，返回的结果，按笔画从小到大和部件的出现频率从大到小排序。其中的部件组构的拼音、一字文的一字双码和一字单码，将在下一节引入。这里的部件的出现频率，指的是上一节所解释过的“部件出现次数”，也即：将所有汉字在第一次拆分之后，所出现的同一部件出现次数相加，所得出的数值；

(2)如果输入的是数字1到36的任意组合，则将数值当作总笔画数处理，按照前面所描述的那些步骤执行；

(3)如果输入字符串由两部分组成，前面部分是数值后面部分是英文字母a--Z的组合，或者前面部分是英文字母a-z的组合而后面部分是数值，如果数值是一个从1到36的自然数，那么该数值解译为总笔画数，该字母组合解译为拼音，比如“he7”或“7he”，就可以是“亨”或“何”，如果输入的是hen7、7hen、heng7、7heng，就只能是“亨”字。如果数值是0，则按部件组构的拼音处理；

(4)如果输入的字符串由三部分组成，前、后部分都是英文字母a-Z的组合，中间是0到4的数值，就把输入的字符串，按下一节将要引入的一字文的一字全码处理；

(5)如果输入的是部件，则用部件查询输入法查询并返回所得到的汉字。

以“何”字为例，可以用：人可、亻可、可、亻口丁、7、h、he、h7、7h、he7、7he、renke、he2renke、hereke、hrk等不同的方式来输入。它们之间的最大的区别，从本质上讲，就是所提供的信息量，信息量越大，所选定的汉字的数量就越少，结果越精确。更多的解译，将在下一节中展开。

可以这样来理解部件查询输入法：1)汉字拆分：76077个汉字＝>8000个部件＝>1600个常用部件；2)汉字输入与拆分，是两个相反的过程；3)可以通过输入少量的常用部件，来达到输入所有汉字的目的。既然直接输入7万多个汉字是如此复杂，那么，就将该输入过程分解为两个简单的步骤：先输入两个或两个以上的常见部件，然后，通过所输入的常见部件，来达到输入所有汉字的目的。这样，就将一个复杂的问题，分解成两个简单的问题，通过解决这两个简单的问题，达到解决一个复杂的问题的目的。

图5a-d显示了部件查询输入法的基本操作过程。在这里，用[为首分字符，]为尾分字符，数字作为部件的笔画数。为了输入“秋影”这两个字，首先输入秋字，然后输入影字。秋的部件是禾与火，禾有5笔画，输入[5；就可以找到[禾；再输入4，就可以找到[禾火；输入]，通过[禾火]，找到秋字；同理，通过“秋[日京]”，最终找到和成功输入了“秋影”这个词组。

部件查询输入法的主要优点有：

(1)全面性。部件对汉字进行了全面的索引，可以用确切的部件组合，输入所要寻找的汉字；

(2)可行性。最常见的部件约1600个，只需要通过这些常见部件，就可以输入76077个汉字；

(3)简易性。很多汉字都缺乏拼音的数据，同时，用户所能记忆的汉字的读音也是很有限和不够精确的，而依赖部件查询输入法，可以用现有的输入法或者总笔画数的方法，来快速输入所需要的常见部件；

(4)有用性。利用部件查询输入法，可以输入一些常见输入法很难输入的汉字。

(5)可操作性。本输入法不需要有特殊的键盘，只要键盘有0到9这十个数字键，和/或者a到z这26个字母键，就可以在不知道部件拼音的情况下，顺利输入所有的常用部件，并由此找到和输入所有的汉字。

五、一字文的编码

运用囲字形单元所创建的汉字拆分法，是一种无信息损失的拆分过程，也就是说，可以从所拆分开来的部件及其部位的组合，推导出原始的汉字。那么，所拆分开来的部件及其部位的组合，也可以建立另一种新的输入法的编码，该编码由三个部分组成：汉字拼音+汉字声调+按照一定规则产生的部件组构的拼音，由此产生的编码，称为一字文。一字文将二维的汉字图形，转换成线性排列的英文字母与数字，同时又保留了原始汉字的一些形体结构信息。

一字文编码的第一与第二部分，就是汉字的读音。一个汉字，可以有多个读音，其中有一个是主要的读音。这里的读音，指的是《(汉语拼音方案》，具有拼音和声调。汉字的声调，有0、1、2、3、4这五个数值。汉字的第一声、第二声、第三声、第四声分别被赋予1、2、3、4，轻声和其它缺乏读音数据的汉字，都被赋予0值。一个汉字如果没有拼音数据，那它第一部分是空值，第二部分是0。一旦获得拼音数据，就可随时添加和重新计算一字文的编码。比如朝字，有两个读音：cháo、zhāo，一字文编码的汉字拼音+汉字声调就是：chao2、zhao1。

编码的第三部分，由汉字部件的拼音组合而成，这个组合过程，需要反映出汉字的形体结构。为此，建立如下这5条编码规则，来产生部件组构的拼音的次序，来将汉字部件的立体结构，表达成英文字母的线性的排列方式：

(2)上下结构的二合字：上部件的拼音+下部件的拼音；

部件的拼音的产生，由以下2个步骤决定：

(1)如果部件有拼音，则用它的拼音，如果部件有多个拼音，则只用它的主要拼音；

(2)否则，将该部件拆分，用拆分所得的部件组构的拼音。该拼音由以上4条规则和这里的2条规则的反复运用算得。

举例说明，朝字的部件为：(左)月(右)，部件的拼音是zhuoyue，相应的一字全码是chao2zhuoyue和zhao1zhuoyue。字缺乏拼音的数据，部件组合是右(左)阝(右)，拼音是youer，相应的一字全码是Oyouer。字的部件组合是(右下)又(中)，拼音是youeryou，其中，字没有拼音，就用它的部件的拼音(youer)来代替，相应的一字全码是xi4youeryou。

为了缩短一字文的码长，设计出另外两种编码方案：一字双码与一字单码，它们的编码顺序与一字全码一致，所不同的有三处：

(1)一字双码与一字单码没有声调的数据，只由两部分组成：汉字拼音的双/单码+部件组构的拼音的双/单码；

(2)拼音的双码。如果拼音少于三个字母，拼音的双码就等于拼音，否则，双码就是声韵双拼，先取拼音的第一个字母，第二个字母，就是从拼音的第二位算起的韵母字母a、e、i、o、u、y之一；

(3)拼音的单码，就是拼音的第一个字母。

朝的一字双码是cazuyu，一字单码是czy；的一字双码是yoer，一字单码是ye；的一字双码是xiyoyo，一字单码是xyy。

所有这些规则，都注重一个自然的特色，也就是，不硬性修改汉字本身的拼音与编码，人为地降低汉字编码的重码率。

由这些规则所算出的汉字一字文的编码，其统计结果见表3。由此可见，用一字全码输入汉字，无需翻页，同时，一字全码与汉字之间，近于一对一的对应关系，也就是近于无信息损失的编码。要特别强调的是，本系统是基于76077个汉字的拆分完成的，重码的计算，也是基于这7万6千多个汉字。需要指出的是，这与以往的专利的重码计算有很大的不同，以前的计算，都仅仅是针对部分汉字的取码所得。比如申请号为200710302601.8的专利，它所声称的重码为1.9或1.5，而按照本系统的计算，则高达17.7或14.4。

表3 一字文的一字全码、一字双码与一字单码的码长与重码的统计表

一字全码重码的原因有四：

(1)完全相同的一个字，存在不同的UTF-8值。比如吝与吝，吝的UTF-8是E5 90 9D，吝的UTF-8是EF A7 AD。它们有完全相同的编码。这些汉字的出现，是由不同国家和地区的不同项目，创造出形状完全相同的汉字所引起的，无论采用什么编码，这种重码现象都无法避免；

(2)简繁体字，大多拥有相同的一字文编码，比如码和碼，它们具有相同的一字全码(ma3shima)、一字双码(masima)、一字单码(msm)，因为它们的右部位分别是马和馬，具有相同的拼音；

(3)异体字，可以拥有相同的一字文编码，比如轊，它们具有相同的一字全码(wei4chehui)、一字双码(wecehu)、一字单码(wch)；

(4)随机的因素。由于汉字拼音具有很高的重码，使得一字文出现少量的重码现象。

英文一共有26个字母，那么，码长为2的编码，共有26*26＝676；码长为3的编码，共有26*26*26＝17576。至少需要4码长之上的编码，才可能覆盖所有汉字。一字文全码的平均码长是10，双码的平均码长是6，单码的平均码长是3，这恰好是因为，大部分的汉字都可以拆分为2个部件，那么，它们的编码，就取自汉字和它的2个部件，这三个拼音：3(1个汉字+2个部件)*2(双码)＝6，3(1个汉字+2个部件)*1(单码)＝3。英文单词的平均码长是5。一字文的双码码长与英文单词的平均码长相似。

一字文的编码的起始部分，即为拼音编码，但一字文所加长的后部分编码，利用了部件组合的拼音，克服了拼音编码的重码过多的难题。同时，对于很多还没有拼音数据的汉字，也由一字文利用借助部件组构的拼音，来成功地输入。正如“何”字，以下几方面的数据之间，有一种自然而又合理的对应关系：

何＝＝亻可＝＝亻(丁口)＝＝(丿丨)(一亅)(匚丨)＝＝丿丨一亅(一)丨＝＝丿丨一亅一丨一丨＝＝he2＝＝renke＝＝he2renke＝＝hereke＝＝hrk

大部分的汉字，都需要多层次的拆分，才能完成从汉字到基本笔画(横、竖、撇、捺、点：一丨丿乀丶)的过程。一字文的部件组合的拼音，只取第一层拆分的部件的拼音，比如何字，只取亻可的拼音，而没有采用亻丁口，和其它的更多的笔画组合的数据。

一字文输入法与部件查询输入法的区别在于：

(1)一字文将象形的文字转换成英文字母与数据的组合，这是一个由两纬图像到一维的线性字母排列的转变。而部件查询输入法则直接用部件本身来找到和输入汉字；

(2)用一字文来输入汉字，不需要复杂的算法，而部件查询，则需要反复循环的数据查询和运算，才能找到相应的汉字；

(3)一字文用英文字母与数据来直接输入汉字，只用一个步骤就完成；而部件查询输入法需要借助其它输入方法，先来输入部件，然后，通过部件来查询数据库，达到输入汉字的目的。也就是说，部件查询输入法是用两个步骤，才能输入汉字的。可以将两种输入结合到一起，用一字文来输入部件，然后，通过部件查询，来输入汉字。

一字全码、一字双码、一字单码，利用键盘上的英文字母a到z的字母键和数字0到4的数字键来输入汉字。这使得输入中文，就好比输入英文单词，可以用世界上的任何一个简单的键盘，就能输入所有的汉字。这对使用人数众多的汉语的国际化，具有重要的意义。

为了让用户更方便和快捷地输入汉字，本项目引入了一种综合性的汉字输入方案：

(1)如果出现部件的分字符：[，则将分字符后面的字符串，按照部件查询的规则处理，所返回的结果，按笔画从小到大和部件的出现频率从大到小排序：

1.1)如果输入的是英文字母a-z的任意组合，则查询所有部件的拼音、部件组构的拼音、所有部件的一字文的一字双码和一字单码；

1.2)如果输入的是数字1到36的任意组合，则将数值当作总笔画数处理，查询拥有该笔画的部件；

1.3)如果输入字符串由两部分组成，无论前面部分是数值后面部分是英文字母a-z的组合，或者前面部分是英文字母a-z的组合而后面部分是数值，按照数值的大小，分3种情况处理：

1.3.1)如果数值是一个从1到36的自然数，那么该数值解译为总笔画数，该字母组合解译为拼音，比如“gu5”或“5gu”，就可以是“古归...”等12个部件字；

1.3.2)如果数值是0，那么该字母组合解译为部件组构的拼音，比如Oshikou，得到：古归等14个部件字；

1.3.3)任何其它的数字，相应的字母组合解译为拼音。

1.4)如果输入的字符串由三部分组成，前后都是英文字母a-z的组合，中间是0到4的数值，就把输入的字符串，按一字文的一字全码处理；

1.5)如果输入的是部件，则用部件查询输入法查询并返回所得到的汉字。

(2)如果没有部件的分字符出现，则按照字符串的性质，分3种情况分别处理。所返回的结果，按汉字的出现频率从大到小排序。汉字的出现频率的数据，由本项目在分析了近100千兆的文本数据之后统计所得。这3种情况分别是：

2.1)如果输入的是英文字母a-z的任意组合，则查询所有汉字的所有拼音、部件组构的拼音、所有汉字的一字文的一字双码和一字单码。这里，可以引入一个优化选项：常用词组的选择性输入，在此不作详述；

2.2)如果输入的是数值，该数值在许可的范围之内(1到115)，则将数值当作总笔画数处理，查询拥有该笔画的汉字；

2.3)如果输入的字符串，无论前面部分是数值后面部分是英文字母a-z的组合，或者前面部分是英文字母a-z的组合而后面部分是数值，按照数值的大小，分3种情况处理：

2.3.1)如果数值是一个从1到115的自然数，那么该数值解译为总笔画数，该字母组合解译为拼音，比如“hu9”或“9hu”，就可以是“皇活胡...”等20个汉字；

2.3.2)如果数值是0，那么该字母组合解译为部件组构的拼音，比如Oshikou，得到：知古等12个汉字；

2.3.3)任何其它的数字，相应的字母组合解译为拼音。

2.4)如果输入的字符串由三部分组成，前后都是英文字母a-z的组合，中间是0到4的数值，就把输入的字符串，按一字文的一字全码处理。汉字的拼音和总笔画数，是汉字的两大基本特征，而部件组构，是汉字的核心所在，没有汉字的组构，就没有汉字。这样的一个综合方案，让用户从汉字的基本性质出发，可以从多个方面运用所喜好的方法来输入同一个汉字。比如“胡”字，就可以有如表4所示的这些输入的选择。

表4 一字文综合输入法，胡字输入的42种选择

*注：表示“胡”字出现在第几页；从页面的开头算起第几个字；出现胡字的页面，共有多少个汉字。按这里的设置，一个页最多能显示10个汉字。

从这个例子，可以看出，以下3点特征：

(1)所提供的信息愈多，则所返回的汉字越少，结果愈精确，其中，最好的，当数一字全码和部件查询输入法，它们的重码率近于1；

(2)汉字在文本中的出现频率，和部件在汉字中的出现次数，对效果较差的输入法所返回的汉字的排序，有重大的影响；

(3)总笔画数与拼音相结合，比单独使用它们，能取得更加好的效果。

从汉字的拼音、总笔画数和部件组构这三个属性从发，来输入汉字，是一种最自然和理想的汉字输入的选择，因为它们是每一个认识汉字的人所熟悉的基本属性，这些属性的运用，不会给用户增加额外的学习负担。可以预见，一字文和部件查询输入法，是汉字输入法发展的必然趋势，它们的运用，将对汉语的推广和国际化，产生深远的影响。

六、一字文作为一种汉字拉丁化方案

1951年，毛泽东曾表示“文字必须改革，必须走世界文字共同的拼音方向”。但“汉字的拼音化”的尝试，始终未获得成功，最主要的原因有两个：一个是同音字与词的繁多，使得拼音文字没法阅读；另一个是拼音化之后，使得方块汉字在形、音、义这三个方面的原始信息丢失，将对汉语文化产生无法弥补的影响。

本发明所提出的一字文方案，采用一种无信息损失的汉字拆分过程，使得原始汉字、拆分之后的部件组构、拼音化之后的一字全码，出现一种一一对应的相互关系。一个汉语拼音，平均对应有186个汉字，而一字文的一个一字全码，平均对应有1.2个汉字。

由汉字来组成词组的一字文的规则：

(1)直接从拼音组成词组，比如“中国人”，中的一字文是zhonglkoushu，国的一字文是guo2weiyu，人的一字文是ren2piena，而“中国人”则为zhongguoren；

(2)如果有两个或更多的不同的词组，具有完全相同的拼音组合，那么，对于较不常见的词组，可以取最后一个字的一字文，来增长该词组的编码，比如“中国人”，就变成zhongguoren2piena；

(3)需要建立一个词组的一字文数据库，才能在推广一字文的过程中，避免不必要的混乱。

这些规则的实施，需要经过长时间的设计与应用，才能完成实用化的过程。随着时间，词组可以得到进一步的简化。

由汉字和词组来组成句子的规则：

(1)用空格来分开汉字的一字文编码和词组的一字文编码；

(2)标点符号，采用英文的标点符号；

(3)大小写等习惯，也采用英文的习惯；

(4)从象形文字到一字文的自动转换，只能逐字翻译，词组的运用比较困难。从一字文返回到象形汉语，只需要借助于一个词组数据库，就很容易完成。

比如这样的一句话：“中国人讲汉语。”，翻译成一字文，就应该是：“Zhongguoren jiang3yanj ing hanyu.”。这样的一字文，就类似于英文的行文方式。

总而言之，一字文的主要优点有5个：

(1)一字全码是一种无信息损失而又自然和科学的编码，可以从一字全码，找到对应的汉字；

(2)一字全码采用了汉语拼音这个已经被广泛接受的汉字读音方案，保留了原始汉字的发音；

(3)一字文同时又是重码率近于1的输入法的编码，可以在推广输入法的同时，慢慢养成书写的习惯，以达到推广一字文的目的；

(4)一字全码的编码，不光保留了原始汉字的发音，同时还存储了部件与部位的信息。全码的平均码长是10，其相应的一字双码与一字单码的码长分别是6与3；

(5)一字文可以与方块汉语共存，它们之间存在一一对应的关系。

这样的编码，同时是很好的输入法与汉字拉丁化方案。从本质上讲，一字文是《汉字拼音方案》的扩展型方案。从理论上分析，一字文是完全可行的汉语拉丁化方案。不过，无论什么样的汉字拉丁化方案，如果没有政府的支持，就很难成功推广的。

一种汉字拆分存储方法，包括：

预先对每一汉字进行囲字形单元的拆分，并把拆分结果存储至部件数据库，所述囲字形单元是由9个方位所组成，从左到右由上至下，这这9个部位分别是左上、上、右上、左、中、右、左下、下、右下，所述每一汉字可拆分成囲字形单元中的两个或两个以上部位的部件，第一次拆分进一步包括：

A3：判断组件构件能否再拆分，如能再进行步骤A2，如不能，则进行保存；

具体地查询包括：

(1)接收用户输入的部首信息；

(6)在返回查询结果之前，如果需要，可以继续查询包含这些结果的所有汉字，

利用部件的笔画来输入部件，其中，约1600个常用部件的总笔画数是1到20，可以用键盘上的0到9这10个数字键来输入1到26的笔画，也可以利用键盘上的a到z这26个英文字母键，来对应于这些笔画数字键，以便在不知道拼音的情况下也能输入部件和汉字。

这种处理方式，给用户带来使用上的方便。

Claims

1.一种汉字输入方法，其特征在于，包括：

预先对每一汉字进行囲字形单元的拆分，并把拆分结果存储至部件数据库，所述囲字形单元是由9个方位所组成，从左到右由上至下，这9个部位分别是左上、上、右上、左、中、右、左下、下、右下，所述每一汉字可拆分成囲字形单元中的两个或两个以上部位的部件，第一次拆分进一步包括：

部件查询的规则包括：

(1)接收用户输入的部首信息；

利用部件的笔画来输入部件，其中，用键盘上的0到9这10个数字键来输入1到26的笔画，或利用键盘上的a到z这26个英文字母键，来对应于这些笔画数字键，以便在不知道拼音的情况下也能输入部件和汉字；

在输入部件和汉字的过程中：

1.3.1)如果数值是一个从1到36的自然数，那么该数值解译为总笔画数，该字母组合解译为拼音；

1.3.2)如果数值是0，那么该字母组合解译为部件组构的拼音；

1.3.3)任何其它的数字，相应的字母组合解译为拼音；

1.5)如果输入的是部件，则用所输入的部件从部件数据库中查询并返回所得到的汉字；

(2)如果没有部件的分字符出现，则按照字符串的性质，分3种情况分别处理，所返回的结果，按汉字的出现频率从大到小排序：

2.1)如果输入的是英文字母a-z的任意组合，则查询所有汉字的所有拼音、部件组构的拼音、所有汉字的一字文的一字双码和一字单码，这里，引入一个优化选项：常用词组的选择性输入；

2.2)如果输入的是数值，该数值在许可的范围之内，则将数值当作总笔画数处理，查询拥有该笔画的汉字；

2.3.1)如果数值是一个从1到115的自然数，那么该数值解译为总笔画数，该字母组合解译为拼音；

2.3.2)如果数值是0，那么该字母组合解译为部件组构的拼音；

2.3.3)任何其它的数字，相应的字母组合解译为拼青，

2.4)如果输入的字符串由三部分组成，前后都是英文字母a-z的组合，中间是0到4的数值，就把输入的字符串，按一字文的一字全码处理；

其中，所述一字文包括三个部分组成：汉字拼音+汉字声调+按照一定规则产生的部件组构的拼音；

所述一字全码即汉字拼音+汉字声调+按照一定规则产生的部件组构的拼音；

所述一字单码即汉字拼音的单码+部件组构的拼音的单码，所述拼音的单码即拼音的第一个字母；

所述一字双码即汉字拼音的双码+部件组构的拼音的双码，若拼音少于三个字母，拼音的双码就等于拼音，否则，双码就是声韵双拼，先取拼音的第一个字母，第二个字母，就是从拼音的第二位算起的韵母字母a、e、i、o、u、y之一所述拼音的双码。