CN101706680B

CN101706680B - 计算机的表音输入汉字法

Info

Publication number: CN101706680B
Application number: CN200810231344.8A
Authority: CN
Inventors: 陈耀西; 陈红根
Original assignee: Individual
Current assignee: Individual
Priority date: 2008-12-12
Filing date: 2008-12-12
Publication date: 2014-06-04
Anticipated expiration: 2028-12-12
Also published as: CN101706680A

Abstract

依据汉字信息是二维模式的规律，在现行汉语拼音的注音字(音素)的基础上，加注声母字母作后缀，作为“形素”；加注声母字母作前缀(部首)，作为“义素”，从而实现了“音、义、形”集成的汉语拼音文字(表音汉字)。按照《汉字输入法》的概念，表音汉字就是汉字的编码。在“WINDOWS’95”上，微软公司提供了一个接口，按照接口规定制成码本文件，即可实现计算机输入汉字。我国汉语拼音为26个拉丁文字母，与现在使用的键盘字母表一致，不需要改动键盘。由于《拼音输入法》不能区分同音字，所以，必须换屏找字，使用不便；而表音字是规律化的文字，经过普及教育的人操作，既不需换屏找字，又不必用联想造词，用盲打即可顺利实现汉字输入。

Description

计算机的表音输入汉字法

一、技术领域：

中国语文现代化学会第5次学术会议于2002年10月12到15日在河南省开封市召开，会议发表《汉语现代化中国语文现代化学会第5次学术会议综述》中说：“用拼音给汉字注音，用拼音汉语用于汉字不方便使用的领域，已经在逐渐走拼音化道路。

”这段论述说明：

我国目前实行的是“一语两文”的语文方针，“一语”是指汉语；“两文”是汉字和汉语拼音。但是，目前的汉语拼音，它既不能区分同音字；又不能辨别多音字。它只能给汉字注音(半文字型)，达不到表音化汉字的要求。大家知道：《输入法》打汉字只是应用于计算机的外围设备，并没有进入计算机的核心设备——中央处理机(即CPU)，这就叫中文在计算机上的边缘化；当用计算机用于计算时，却没有中文的计算机语言，全都是外文的计算机语言，例如：BASIC语言、C语言、FORTRAN语言等。大家都用外文编程，还说这是与国际接轨，中文进入不了编译器。特别是大量的基于英文的程序库，在编程领域的广泛应用，使得英文几乎垄断了编程领域。在信息化方面，汉字事实上已经被边缘化。

我国汉字才实现了汉字表音化(全文字型)。即实现了现行汉字(即表意字)与表音字(即拼音字)一一对应。汉字表音化了，可以用表音字设计计算机语言，设计中文编译器。这样汉字就能进入计算机的核心——中央处理机，全面掌控计算机，我们就不受别人的控制。要不要走这一步，是决定我国要不要走独立自主的信息化道路的问题。

因此，才有计算机的表音输入汉字法(简称

)。

二、背景技术：

下面论述实现汉字表音化(即编码)的思路是：将汉字变为26个拉丁文字母来表示。计算机能识别26个拉丁文字母，因此也就能识别汉字。但是，能不能将汉字的识别变成对26个拉丁文字母的识别呢？也就是说，如果能够实现以26个拉丁字母拼音而形成的拼音字确定一个汉字，使拼音字与汉字一一对应，那么，就实现了汉字的表音化。汉字表音化了，中国人使用计算机就同外国人一个样。

汉字能表音化，是因汉字体系是二维结构体系。例如北京举办奥运会的印章标志上的汉语拼音大家知道，读

的有41个汉字，读

的有78个汉字。分别列表如下：

1.(bei)

邶苝軰鉳

2.(bei)惫鞴俻偹備僃憊犕糒

3.(bei)

褙偝揹褙鄁

4.(bei)

碑俾埤椑痺萆諀錍鹎

5.

狈钡呗垻梖狽珼蛽鋇以及：

1.

倞惊婛猄鯨鶁麖鲸

2.

警儆憼擏曔檠璥蟼驚

3.

憬幜暻燝璟

4.

橸

5.

肼阱坓宑汫汬穽妌

6.

镜境獍傹境鏡

7.经径颈茎劲痉弪刭胫迳泾俓剄勁弳徑桱涇烃烴痙経經脛莖葝踁逕鋞陉陘頚頸鵛

我们先不去管

代表北京是否合理。可是，在分析上述北京的拼音符号和

的同音系列字之后，却发现：汉字的信息模式是一个二维数组A(m，n)模式。

A1.1，A1.2，A1.3，A1.4，……A1.n，

A2.1，A2.2，A2.3，A2.4，……A2.n，

A3.1，A3.2，A3.3，A3.4，……A3.n，

A4.1，A4.2，A4.3，A4.4，……A4.n，

…………………………………………

Am.1，Am.2，Am.3，Am.4，……Am.n，

(一)同音字的列变是基本字的部首(前缀)变化。

每一行的加粗字都是基本字，读

的基本字为

读

的基本字为

在基本字后面的都是该基本字的不同部首的同音字。例如“(bei)邶苝軰鉳”和“

倞惊婛猄鯨鶁麖鲸”。也就是说，同音字的列变是通过部首变化来实现的，部首不参与读音，是示意的加缀作用，由于它在字中的位置居前，所以称为部首或前缀。由此可以看出：汉字的形声字是加缀字。其实作为部首的

等也是基本字，只是作为部首时，有的字已经符号化了，例如：“水”符号化为“氵”，“金”符号化为“钅”。

(二)同音字的行变是基本字的变化

上述“bei”和“jing”就是两个音素，读“bei”的基本字“北、备、背、卑、贝”有五个；读“jing”的基本字“京、敬、景、晶、井、竟、巠”有七个。同一读音中，每个基本字是音同字不同。不同的读音中，有的同音基本字较多，但超过25个的极少。

综上所述：同音字的列变与行变形成一种二维结构。与一维结构相比，它以少量符号变化获得较多的信息量。因此，汉字的同音字现象，恰恰是汉字优点的表征，而不是汉字的缺点。

在甲骨文字里，形声字只占20％，到东汉许慎的《说文解字》里，形声字所占比例达到82％，到清代康熙年间编纂的《康熙字典》，形声字已占90％。而非形声字，主要为图像文字的象形字、指事字、会意字，它们大都为基本字。例如，北京两个基本字，“北”是会意字，“京”是象形字。如果将基本字包括在形声字系统中。那么，整个汉字就形成一个以基本字为核心的形声字矩阵，每个汉字都有自己的坐标位置。在汉字的416个读音中，几乎每一个读音都有同音字，这是一个普遍现象。所以说：

也可以表述为：

显然，与《汉语字典》以相同部首聚类编辑的结果不相同，《汉语字典》以汉字“意符”为中心，没有充分发挥汉字基本字的核心作用，掩盖了汉字体系的二维结构规律。因此，对汉字体系的二维结构规律，可用公式表示如下：

H＝A(m，n)

式中H代表汉字体系，A(m，n)为二维数组。将汉字体系用数学公式表示，应该不必惊奇，因为汉字发展到形声字的时间确实太长久了，因而也就太完备了，完备到可用数学公式表达其规律的地步，进一步即是字母表示的拼音文字。过去，人们只有这样一个推理性的认识：就文字的复杂程度而言，以象形文字为最，其次为表意文字，形声字又次之，拼音文字最简单，是文字发展的历史必然。并未说明形声字是一种规律化的文字，也未论证拼音文字是形声字发展的必然归宿。

三、发明内容

当发现汉字的信息模式是二维信息模式后，汉字的规律就展现在人们的面前，人们就可以利用它来实现汉字表音化(即编码)。

(一)对汉字的纵向变化，用加后缀的方法将同音基本字表音化

汉字是单音节字，由23个声母、24个韵母相拼。将读“bei”的基本字加一个信息差异，即为

就将其区分开来；同样，将读

的基本字也加一个信息差异，即为

因为加信息差异就将同音基本字区分开来，所以处于第一行第一列的(bei)北和

京都不需加后缀，这就将北京举办奥运会的印章标志合理化了。

对于庞大的汉字体系来说，汉字读音只有416个，其余的字，则是这416个读音的重复循环。每循环一次，改变一个信息，就可将同音基本字区分开416个。这就可以将同音基本字转换成表音字。

例如：中华人民共和国：Zhonghua ren min gong he guo，北京：beijing等。它就是《新华字典》上“汉语拼音音节索引”的416个音节。以这416个音节为数以万计的汉字体系注音。因此，现行的汉语拼音是一个注音系统，不是一个文字系统，只有音符一个要素，是一个一维系统，只能成其为汉字读音的一个补充。

中。为此，将动词基本字放在第二循环，加后缀v；将有生命的名词(即动、植物的名称：龟、李等)基本字放在第三循环，加后缀r；将形容词基本字放在第四循环，加后缀x。如此进行下去，直将23个声母字用完。由于“v”在汉字注音中被保留，我们将其作为隔音符使用。将“v”加在动词基本字后面，作为第二循环与其它循环相区别的信息。这样一来，我们将获得25个循环。在归并同音基本字以后，我们发现：汉字的同一个读音的同音基本字超过25个的极少。

因到第六组时，同音基本字就很少了。配到第七组时，则可用双声母字做后缀。因配到第七组后，同音基本字就没有了，故可截止。

4、后缀表如下：

(二)对汉字的横向变化，用加前缀将部首字母化

汉字的形声字由两部分组成：一半示音，即基本字；另一半示意(属性)，即部首。其实作为部首的“

土”等也是基本字，只是作为部首时，有的字已经符号化了，例如：“水”符号化为“氵”，“金”符号化为“钅”。在将汉字表音化时，对基本字“水”的注音字

作部首时以代表；对基本字“金”的注音字“jin”，作部首时以“j”代表。这样一来，以单声母字作部首的将是下列23个部首。即：(b)疒、(p)丿(撇)、(m)木、(f)阝(阜)，(d)刀、(t)土、(n)女、(l)力，(g)戈、(k)口、(h)火、(j)金，(q)犬、(x)心、

竹、

虫，

水、(r)人、(z)足、(c)草，(s)

、(y)言、(w)王等。单声母字部首占《新华字典》上总字数40％。其余部首为两个声母字，如：(nr)牜、(gr)瓜、辶、(rb)日等。其中，因“牛”的基本字在字母化时为(nuir)，将其缩写为(nr)，以其代表“牛”的部首。以这种缩写法，可将其余作部首的基本字全部转化为表音化的部首。故在下表中的部首表音化为：

1.

(ypbei)邶(cbei)苝

軰(jbei)鉳

2.惫鞴俻偹犕僃憊犕糒

3.褙偝揹褙鄁

4.

碑俾埤椑痺萆諀錍鹎

5.

狈钡呗垻梖狽珼蛽鋇以及：

1.

2.

警儆憼擏曔檠璥蟼驚

3.

4.

5.

肼阱坓宑汫汬宑妌

6.

镜境獍傹境鏡

7.

经径颈茎劲痉弪刭胫迳泾俓剄勁弳徑桱涇烃烴痙経經脛莖葝踁逕鋞陉陘頚頸鵛

从上例可以看出：

①常用字(第一循环)不加缀；从第二循环开始，基本字加后缀，基本字大多是象形字、指事字、会意字；常用字(第一循环)的形声字加前缀，没有后缀；第二循环以后的形声字既有前缀，也有后缀。所以说拼音汉字简单。前缀和后缀不参与读音，这在外语中是常见的现象。

②对于以“a、e、o”单独发音的元音字，在实现“音、义、形”集成的汉语拼音文字时，在加部首前，先加隔音符“v”，再加部首。例如：“(an)安、(mvan)桉、(jvan)铵、(rvan)侒、(kvan)咹、(tvan)垵、

洝、(cvan)荌”等。

③根据《新华字典》常用的汉字有203个部首，《说文解字》中有500个部首，按排列组合计算：23个声母应当为：23×25＝575。因此，将部首字母化，完全能满足汉字部首的数量要求。

④在归并同音基本字过程中，可以看出：简化汉字和繁体字在汉语拼音字中没有区别。这给汉字省去了很多麻烦。

(三)辨别多音字，以两个声母字做后缀将多音字表音化

汉字不仅同音字多，而且有大量的多音字。例如第三循环的“(pir)皮”：

1、(pir)皮、(fpir)陂、(bpir)疲、(jpir)铍、(xpir)怶、

蚾、(jpir)鈹、(tpir)坡、(zpir)跛、(mrpir)駊；

2、(fbipr)陂、(rbipr)佊、(xbipr)怶、(mbipr)柀、波、(sbipr)紴、(ybipr)詖、(ybipr)诐、(zbipr)跛；

3、(tpopr)坡、(fpopr)陂、(zpopr)跛、(mrpopr)駊；

4、(wbopr)玻、(zbopr)跛、(sbopr)紴、

蚾。

从上述基本字“皮”的系列字中可以看出：“形声字是由两部分组成，一半示音，另一半示意(属性)”的规律早已突破，示音的一半已经多音化了，这种现象较多。因此，有的基本字读音又是一个子系统。由于汉字的读音属非拼音系统，我们必须承认汉字传承式的读音带来的这一变化，否则表音字对表意字就没有继承性。为此，在“皮”字的系列字中，必须增加信息，以示基本字“皮”读音的变化。其中，有基本字“皮”的第一列称为正列；其他的二、三、四列称为奇列。大家知道，汉字的示音部分其实也是一些基本字，前文已述同音基本字的区分问题，如果以选配部首的方法来选配奇列的后缀。这样，既可保证不重码，又可保证以基本字为核心的规律。

两个声母字组成的奇列后缀其资源是够用的。一是有的基本字是独字；二是有的基本字没有奇列；三是有的基本字是双音字，例如：行(xing)与行(hang)，表音化时将其分开，也就没有奇列；四是奇列后缀资源体积为：

25×24＝600

因为有两个声母字重码(bb，pp，mm，.......)可利用。

(四)小结

在经过上述步骤后，就可实现三维的汉语拼音文字。即在现行汉语拼音的注音字(音素)的基础上，加注声母字母作后缀，作为“形素”；加注声母字母作前缀(部首)，作为“义素”。从而形成“音、义、形”集成的汉语拼音文字，即表音汉字。以一个表音字确定一个汉字，使表音字与汉字一一对应。因此，汉语表音字由三部分组成：

为了使汉字表音化具有高度的可信度，我们选用国家标准GB18030-2000汉字库作为平台。因为GB18030汉字库收录了27，484个汉字，它是国家为汉字研究、古籍整理等领域提供的统一的信息平台；也与2000年出版的[新华字典]上的13500个字进行了比对，实现了拼音字与汉字一一对应的目标；还将GB2312-80汉字库做成了《表音输入法》以作验证。

四、具体实施方式：

(一)《表音输入法》的实现

当汉字表音化后，中国人使用计算机就同外国人一个样。计算机不但能识别汉字，而且对词、句、篇章都能识别。语音识别、汉字翻译、自学习、自组织等人工智能问题也就能解决，只有这样机器人才能去思维。所以，汉字识别问题不解决，就没有说汉语的机器人，也就没有独立自主的自动化。这就是文字的功效，因为语言学是领先的科学，只有语言学的进展才能带动其他学科的进展，而文字是书面语言。汉字表音化后，在计算机上就可通过表音汉字来输入汉字，它完全是表音化的逆过程，也是两种文字的翻译过程，即用表音字来获得汉字。

在“WINDOWS’95”上，微软公司提供了一个接口，通过汉字《输入法》，与汉字区位码挂接，可实现计算机输入汉字。由于实现了表音字与汉字一一对应的目的，表音字就是汉字的编码，按照接口规定制成码本文件，用如下格式即可实现《表音输入法》：

[Description]

Name＝表音输入法

MaxCodes＝12

MaxElement＝2

UsedCodes＝abcdefghijklmnopqrstuvwxyz

WildChar＝？

NumRules＝3

[Rule]

ca4＝p11+p21+p31+n11

ce2＝p11+p12+p21+p22

ce3＝p11+p21+p31+p32

[Text]

阿a

啊kva

(二)《表音输入法》的操作规程

我国汉语拼音为26个拉丁文字母，与现在使用的键盘字母表完全一致，不需要改动键盘；也与现行的《拼音输入法》一样，敲拼音字母即可。但是，《拼音输入法》不能区分同音字，必须换屏找字，很是麻烦；如果同音字太多，还要数次换屏，不利于盲打。然而，汉语拼音必竟是半文字型的注音字，普及率远胜于《五笔字型输入法》；表音字是规律化的文字，受过表音字普及教育的人操作，可实现双盲操作(不需要看键盘和屏幕)，普及率肯定会超过《拼音输入法》；也不需要什么组词联想输入。然而，对于初学《表音输入法》的人，则要遵循表音字的结构规定：

对于有部首的形声字则先输入前缀，再输入拼音部分和后缀；对于没有部首的非形声字(基本字：图像字)先输入拼音部分，再输入后缀；对于常用字(即第一循环的416个多用字)就直接用拼音输入。

Claims

1.一种计算机输入汉字的方法，其编码方法是：在现行汉语拼音的注音字音素的基础上，加注声母字母作后缀，作为“形素”；加注声母字母作前缀部首，作为“义素”，从而形成“音、义、形”集成的汉语拼音文字表音文字，其特征是：以一个表音字确定一个汉字，使表音字与汉字一一对应，表音字即是计算机输入汉字的编码，将汉字的编码以文字的标准付诸实施；

对汉字的纵向变化，用加后缀的方法将同音基本字表音化，将读“bei”的基本字加一个信息差异，即为“(bei)北、(beiv)备、(beir)背、(beix)卑、(beib)贝”区分开来；同样，将读“jing”的基本字也加一个信息差异，即为“(jing)京、(jingv)敬、(jingr)景、(jingx)晶、(jingb)井、(jingd)竟、(jingp)巠，加信息差异就将同音基本字区分开”；

对汉字的横向变化，用加前缀将部首表音化：(bei)北(ypbei)邶(cbei)苝軰(jbei)鉳，(jingr)景(xjingr)憬(jmjingr)幜(rbjingr)暻(hjingr)燝(wjingr)璟，加前缀就将部首表音化；

因而，采用与现在使用的键盘字母表一致的键盘，依据“前缀+拼音部分+后缀＝表音字”的顺序，对于有部首的形声字则先输入前缀，再输入拼音部分和后缀，对于没有部首的非形声字则先输入拼音部分，再输入后缀，对于常用字就直接用拼音输入，即用盲打就可顺利实现汉字输入。