CN1146023A

CN1146023A - 汉语识字码

Info

Publication number: CN1146023A
Application number: CN 96116943
Authority: CN
Inventors: 王有卫
Original assignee: Individual
Current assignee: Individual
Priority date: 1996-05-24
Filing date: 1996-05-24
Publication date: 1997-03-26
Anticipated expiration: 2016-05-24
Also published as: CN1089458C

Abstract

本发明涉及汉字微机西文编码。本发明按字的结构将其拆分为两个成字偏旁；并按偏旁在拼音中的读音声母各取一码作为该字的第一、二码，再将第二个偏旁拆分成两个子偏旁，取最后一个子偏旁的读音作为第三码。本发明拆分汉字依汉字结构层次，确定西文码符合汉语特点，因而录入者不需具备编码知识即能快速录入，是值得大力推广的汉语识字码。

Description

汉语识字码

本发明涉及汉字微机西文编码，是以汉字偏旁形体识读或笔画名称在汉语拼音中的声母或韵腹组合的一种三键汉字编码。

已有的汉字微机西文编码一般都采取先“拆分”汉字，后编码的办法，存在以下缺陷：

一.对汉字“拆分”的随意性，这不仅破坏了汉字的原有结构，而且“拆分”出来的“字根”并不是汉字的“根”，正因为在“拆分”汉字时，不顾汉字自身结构特点，随意乱拆，至使在不同的编码中，对同一个汉字有不同的“拆分”。

二.在给汉字拆分出来的“字根”进行西文编码时，不同的编码程序对拆出来的相同“字根”又可随意给出一个不同的西文码。

所以，已有汉字微机西文编码每一种都要录入者硬记一些编码规则，这就给汉字输入带来不便。

本发明的目的，是为了克服已有汉字微机西文编码对汉字拆分的随意性，而专门设计的一种把汉字编码与识字教学有机联系起来的，拆分汉字科学规范，录入者无需编码知识，易学易记的快速便捷录入的汉语识字码。

本发明注重汉字编码的科学性，把汉字编码与识字教学统一起来，汉字编码拆分出来的“字根”，正是识字教学过程中对汉字结构的分析。这样识字教学为微机西文编码打下了基础。同时，识字码又利用汉字字形与字音的对应关系转换西文码，这为推广普通话打下了良好的基础。

本发明有单音节词(单字)，双音节词(两个词)和多音节词(多字词)三种编码。

一.单音节词(单字)取码方法

单音节词(单字)以3个西文字母或符号给出一个单音节词(单字)的西文码。西文字母的确定以汉字偏旁(含部首)在汉语拼音中的声母或笔画名称的声母为依据。这又可分为合体字取码方法和独体字取码方法两种：

(一).合体字取码方法

合体字先按结构拆分为两个成字偏旁(含常用部首)，并按偏旁在汉语拼音中的读音声母各取一码作为该合体字的第一、二码。然后将第二个偏旁再拆分成两个子偏旁，取最后一个子偏旁的读音声母作为该合体字的第三码。例如：“吴”，先拆分成“口、天”，取“口”字的声母K、“天”字的声母T作为“吴”字的第一、二码；然后将“天”字再拆分成“一、大”两个子偏旁，取第二个子偏旁“大的声母D作为“吴”字的第三码。最后得出“吴”字的编码KTD。又如“侍”，先拆分成”、寺”得第一、二码R、S；再将“寺”拆分成“土、寸”的取“寸”的声母C作为“侍”的第三码。最后得出“侍”字的编码RSC。总结为：

合体字编码＝第一偏旁声母＋第二偏旁声母＋第二偏旁拆分后的第二个子偏旁声母

在合体字中，有些字只能作一次一分为二的拆分。一次拆分后的第二个偏旁无法再进行拆分，如“银”字的“艮”旁、“红”字的“工”旁，其第三码依该偏旁在汉语拼音中的韵腹来确定。“艮”的韵腹为E，“I”的韵腹为0，由此“银”字的编码为JGE，“红”字的编码SG0。总结为：

合体字编码＝第一偏旁声母＋第二偏旁声母和韵腹

(二)独体字取码方法

独体字无法拆分出偏旁来，本发明根据笔画名称的读音声母编码。横[一]，与其它笔画不相交时，认作“一”，取“一”的声母Y。与其它笔画相交时，取“横”的声母H；竖[丨]，其形状与西文字母i的大写相同，取西文字母I；撇[丿]，取“撇”的声母P；捺[]，取“捺”的声母N；点[、]，取“点”的声母D；折[、乙、 ]，西文字母V也是折笔形，故取V字母转换独体字中的折笔形。横钩[乛]、竖钩[亅]等均看成折笔形。不足3画的用空格键补一键；超过3画的取第一、二画和最末一画。

二.双音节词(两字词)取码方法

双音节词(两字词)编码是以5个西文字母或符号给出一个双音节词的西文编码。它的方法是：一个词的两个字分别按其偏旁各拆分成两个，然后以第一个字的两个偏旁读音声母作为该词的第一、二码，以第二个字的两个偏旁读音声母作为第四、五码，第三码一律用短横[一]。例如：“百姓”，“百”字拆成“一、白”，“姓”字拆成“女、生”，然后取“一、白、女、生”四个偏旁的读音声母Y、B、N、S，作为“百姓”一词编码的第一、二、四、五码。第三码用短横[一]，得YB-NS，即为“百姓”一词的编码。总结为：

双音节词编码＝第一个字的两个偏旁读音声母＋一＋第二个字的两个偏旁读音声母。

三.多音节词取码方法

多音节词编码分三音节词和四音节词(含四音节以上的词)两种。它也是以5个西文字母或符号给出一个多音节词的西文编码。

(一)三音节词取码方法

三音节词采取先直接识字，然后再将该词的第三个字依其偏旁拆分为二，即取该词三个字的读音声母为第一、二、四码，取第三个字拆分后第二个偏旁读音声母为第五码，第三码一律用P。例如：“千里马”一词，先取该词三个字的声母Q、L、M作为该词的第一、二、四码。然后再拆分该词最后一个字“马”。“马”字是一个独体字，末笔是“一”，取“一”的声母Y为第五码。第三码为P，得QLPMY，即为“千里马”的编码。总结为：

三音节词编码＝第一、二字的声母＋P＋第三字的声母＋第三字拆分后第二个偏旁的读音声母

(二)四音节词(含四音节以上的词)取码方法

四音节以及四音节以上的词采取直接识字的方法，即取该词的四个字的声母(四音节以上的词只取前四个字的声母)作为该词的第一、二、四、五码，第三码一律用P。总结为：

四音节词编码＝第一、二字的声母＋P＋第三、四字的声母

四.简码

识字码在编了单音节词、双音节词和多音节词的同时，还编了一些简码，以便提高输入速度。

一.对分布在24个声母(含零声母)中的使用频率分别为该声母字中第一位的24个最常用汉字，确定为两键简码，即该字的声母加空格键。如“的”的简码是D□(□代表空格键)，“了”的简码为L□等。

二.对于单纯词，组成该词的第一个字不与其它字组合成词，也不单用，使用识字码只需输入第一个汉字的汉语拼音便可得出该单纯词的简码。如“蜻蜒”一词中的“蜻”字编码为CQU、“蜒”字的编码为CTJ，该词的简码为CQU，即只要输入“蜻”字的编码即可得到“蜻蜒”一词的输入效果，省略了第二个字的编码。

由上可知，“蜻蜒”一词，识字码为它共编了三种码。用单音节词输入它，“蜻蜒”一词的编码为CQUCTJ；用双音节词输入它，其编码为CQ-CT；用简码输入它，其编码为CQU。三个编码可供录者选用。此外用四音节词输入“蜻蜒点水”一词，其编码为QTPDS。

本发明有以下特点：

一.科学

本发明的科学性表现在拆分汉字的科学性和确定西文码符合汉语特点等几方面。

从拆分汉字方面说，依汉字原有结构及其层次拆分汉字。多数汉字是合体字，由偏旁组合而成。组合的方式一般为上下、左右、内外等，是什么结构依什么结构来拆分。在拆分汉字时不仅注意到了结构方式，还注意到了结构的层次性。在确定西文码方面，本发明注意到了人们掌握编码元素的普及性。不把需要编码的单字读音声母作编码的第一码或末尾码，是考虑到大多数人都没有完全掌握六千多个常用和次常用字，特别是3008个次常用字。至于多音节词直接用单字的声母编码，一方面常用词中的生僻字不多，另一方面，对不能掌握多音节词的声母者，可用单音节词和双音节词的编码。

在6763个常用字和欢常用字中，用3个西文码编一个汉字码是最经济最科学的。把汉字西文编码分布在26个字母上，若每码为2个，只有26²＝676个，无法覆盖6763个字；若每码为3个，26³＝17576个，完全可以容纳6763个字；若每码为4个，则有26⁴＝456976个。用四十多万个不相同编码来容纳六千多字，又显得太浪费。

对于词组，用5个西文码编一个词，其中第3码一律用短横[一]或P字母，是为了在微机输入时不换挡，又不造成与单字输入混淆。如果将这一码忽略不计，实际只有四码即编一个词组，一共编了约四万五千个词组。四十多万个编码容纳四万多词组的编码也是既经济又科学的。

识字码中的简码，也是根据汉语特点及其运用规律来确定的，都有其科学依据。如给24个单字编简码，是根据国家有关方面的统计得出并分布在24个字母之中，而不是凭估计、随意挑选的。至于单纯词的简码更是根据汉语单纯词的构词特殊性来编码的。

二.规范

本发明的编码不是任意的、人为的确定，而是按汉语的文字特点来编码的，因此它是规范的。它为汉字编码的规范性提供了一个范例，向汉字的“字同码”方向迈进了一大步。

三.高效

3码确定一个单字，4至5码确定一个词组，同时重码率低。因为经济科学，给录入者带来了高效。再加上简码，如“的”字据有关方面统计，它的使用频率在1/9左右，只用D字母加空格键，仅这一个字的简码使用，就可以在3码基础上至少又节约了3码的1/9。单纯词简码只是其常码的一半。

四.录入者无需“编码知识”

西文微机输入是无需“编码知识”的，只需语言文字知识。汉字、汉语输入也应只需汉语文字知识，而不需要专门的“编码知识”。本发明正是为实现这一愿望而设计的，它不需要学习、记忆与语言文字知识以外的专门的所谓“编码知识”，不需要去记忆一些与汉字无关的所谓“字根”及其任意确定的一个西文字母。

五.识字码为计算机基础教育与汉字识字教学、推广普通话架设了一座桥梁。

录入是微机学习的第一步。录入只需识字知识，无需多少“编码知识”，才能使计算机的基础教育与汉字的识字教学结合起来，让小学语文教师都成为微机录入学习的指导老师。只有这样，才能使计算机教育从儿童抓起成为现实。同时，运用汉语知识解决微机录入，又为推广普通话打下了基础。本发明的出现，使其三者的教育有了共通的桥梁。微机录入的背景知识是汉语文字的基础知识，而微机录入使用识字码则是汉字识字的巩固过程，两者相互促进，“录”“识”相长。

总之，本发明极易于推广应用，而本发明的应用又能与汉语的识字教学相结合，因此本发明有着广阔的应用前景。

Claims

1.一种汉语识字码，其特征在于：

A.单音节词取码方法为：

(a)合体字取码方法是先按结构将单字拆分为两个成字偏旁，并按偏旁在汉语拼音中的读音声母各取一码作为该字的第一、二码；再将第二个偏旁拆分成两个子偏旁，取最后一个子偏旁的读音声母作为该合体字的第三码；

(b).独体字取码方法是根据笔画名称的读音声母编码；

B.双音节词取码方法是：一个词的两个字分别按其偏旁各拆分成两个，然后以第一个字的两个偏旁读音声母作为该词的第一、二码，以第二个字的两个偏旁读音声母作为第四、五码，第三码一律用短横[一]；

C.多音节词取码方法

(a)三音节词取码方法取该词三个字的读音声母为第一、二、四码，取第三个字拆分后第二个偏旁读音声母为第五码，第三码一律用P；

(b).四音节及四音节以上的词取码方法是取四个字的声母作为该词的第一、二、四、五码，第三码一律用P，四音节以上的词只取前四个字的声母作为该词的第一、二、四、五码，第三码一律用P；

D.简码的取码方法是

(a).对最常用汉字的取码是二键，即该字的声母加空格键；

(b).对于单纯词，组成该词的第一个字不与其它字组合成词，也不单用，取码只需输入第一个汉字的汉语拼音即是该单纯词的简码。

2.如权利要求1所述的汉语识字码，其特征在于，其合体字中，有些字只能作一次一分为二的拆分，一次拆分后的第二个偏旁无法再拆分的取码法方法是取第一偏旁的声母作一码，第二偏旁的声母和韵腹作二、三码。