CN1091529C - 文字全形码 - Google Patents
文字全形码 Download PDFInfo
- Publication number
- CN1091529C CN1091529C CN93100866A CN93100866A CN1091529C CN 1091529 C CN1091529 C CN 1091529C CN 93100866 A CN93100866 A CN 93100866A CN 93100866 A CN93100866 A CN 93100866A CN 1091529 C CN1091529 C CN 1091529C
- Authority
- CN
- China
- Prior art keywords
- parts
- word
- input
- code
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 claims abstract description 28
- 230000008676 import Effects 0.000 claims description 19
- 238000010276 construction Methods 0.000 claims description 13
- 238000007906 compression Methods 0.000 abstract description 10
- 230000006835 compression Effects 0.000 abstract description 9
- 230000010365 information processing Effects 0.000 abstract description 2
- 210000003000 inclusion body Anatomy 0.000 description 13
- 230000015654 memory Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 238000012937 correction Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 210000004027 cell Anatomy 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000012467 final product Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 101100042793 Gallus gallus SMC2 gene Proteins 0.000 description 1
- 239000006227 byproduct Substances 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000037213 diet Effects 0.000 description 1
- 235000005911 diet Nutrition 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 235000015170 shellfish Nutrition 0.000 description 1
- 239000002689 soil Substances 0.000 description 1
- 239000004575 stone Substances 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
- 239000002023 wood Substances 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明涉及计算机文字信息处理中的文字编码,它通过采用“组字结构+组字部件”的结构来描述文字,阐述了一种文字的产生规则。用它可以产生、表示和输入任意形状的汉字。它提高了汉字的综合输入速度,且不仅适用于,也适用于其它各国、各民族的文字。它是一种文字的完全输入方法;是一种文字字库的压缩方法;是一种单个民族文字的计算机的内码方案;也是一种多民族文字的统一内码标准方案。
Description
本发明所述的“文字全形码”涉及计算机文字信息处理中的文字编码,具体地说,本发明涉及如何用数值或抽象字符去表述文字,以及本发明在文字的计算机输入、文字字形的压缩和产生、文字的计算机通用代码等方面的具体实施方法。
以下分别为文字的计算机输入、计算机内码和字形库压缩的现状。
以本发明的观点,文字的编码输入,从其编码所含的信息上划分,大致可分为辨识输入(不完全输入)和完全输入两种。辨识输入是针对一个固定的文字集合(汉字通常为GB2312-80)进行编码,该编码的作用就是尽量用一种最简单的规则把文字集中的其它字分辨开,这种文字编码只需每一个字的编码与文字集中其它字的编码不同即可(允许有一定的相重率,即重码率),而无需对该字的每一字形细节进行描述。完全输入的编码中含有文字字形的所有特征参数,系统可以依据编码直接产生出文字字形,如现有计算机英文单词的输入方式就是一种完全输入法。
辨识输入法除了输入速度快的优点外,但有许多致命缺点无法或极难解决:一、只能输入固定集合中的字符。对集合外的字符无法输入、产生字形和统一管理、造成混乱。二、编码中不含有字符字形所有的特征参数,无法根据编码产生出字符的字形。三.由于辨识编码的输入过程不是书写的全过程,若经常替代笔进行“书写”,容易令输入者忘却字体的具体形状。这尤其不利于中小学教育。
完全输入法对以上问题都能很好解决。虽其输入速度慢,但通过简化输入的方法即可解决。简化输入的速度不亚于辨识输入。
英语单记号的结构单一,其组成部件——字母,少且固定,很容易实现完全输入。汉字的结构复杂,部件繁多,极难实现完全输入。导致汉字输入的研究一直局限于对辨识输入的研究,使得汉字的输入远不如英文输入方便。
相同地,以本发明的观点,计算机的文字内码从其可携带的信息方面也可分辨识内码和完全内码两大类。在这里,辨识内码仅是一种图形块的代号,完全内码携有字符的特征参数。辨识内码和完全内码都相应具有以上例举的优缺点。
美国通用字符标准ASCII码,就是一种完全内码,实际上是对英文的组字部件(字母)进行了标准定义,用该码作为计算机内码,可以表示字母任意组合的英文字(单词),包括一些拼写错误的英文字。中国的汉字标准字符集GB2312-80,是辨识内码,它对完整的字进行了标准定义,由于汉字总量较大,且不是一个固定数,这样的字符集只能记录一些使用频率较高的字(若英文也采用记录法,也会遇到这样的问题),这就使得还有许多字无法用该标准表示出来。
现在的国际标准欲将这两种类型的标准合为一体,这两类标准,一类为部件表,一类为字表:一类为完全内码,一类为辨识内码。将它们掺和到一起,是极不合理的。
现在的文字字形库,如汉字库,由于找不到一个较好的文字产生规则,因此对字形数据的压缩一直不够理想。尤其是高点阵字形,其还原运算和平滑处理相当费时。
本发明的目的在于,开辟一个文字编码研究的崭新领域,实现完全编码,以解决上述目前编码现状存在的种种难题;设计一种输入编码与计算机内码结构相同的方案,以利计算机处理。
本发明所述的“文字全形码”的具体结构为:用“组字结构+组字部件”的方式来表述每一字符。
将文字开关的基本单元称为字(它是从形状上划分,而不是从其字义上划分),组成字的基本字形单元称为部件,部件组成字的规则称为组字结构。
世界各民族文字从字形上大致可分为两大类:
其中一类文字组字结构单一,组字部件很少,字与字之间以空格相隔。如英文、法文、德文等,通常称这类文字为拼音文字,称字为单词,部件为字母。
另外一类文字组字结构相当复杂,组字部件也很多,部件与部件结合很紧密,通常字形形状的大小宽度是相对固定的,一般称这类文字为表意文字(象形文字)。如中文、日文汉字、朝鲜汉字等。
其实无论拼音文字还是表意文字,都潜含有“组字结构+组字部件”的形式在内。只不过拼音文字通常只有一种结构,让人忽略了而已。拼音文字字与字之间的空格其实就是一种结构码的变形形式。表意文字的结构虽然复杂,但对于任何一种文字来说,都不可能每一个字符都独具一种结构,多少是有规律可寻的,这种组字的规律,也就是组字的通用规则,可作为组字结构记录下来,用来组合部件成字。
对一些极少出现的结构,和一些无法归纳的结构,都可不必记录,而将具有该结构的字作为一基本组字部件,并可通过“独体字结构+该组字部件”来表述该字。
一次落笔写成的笔形称为笔画。
以笔画结合的紧密程度为基础,尽量减少部件总数和减少每字部件数是划分、确定组字部件的两个原则。
组字结构是专门用来描述组字部件在字形中的相对位置关系,组字部件是用来描述文字基本字形元素的形状。组字部件还含有自身的形状、特征属性等参数,系统可根据这些参数结合组字结构进行分析,来确定各组字部件在字符中的大小宽度和位置,并通过智能方法消除字形中各部件间的明确界限,从而正确、美观地组合出文字的字形。
本发明所述的“文字全形码”与现有编码相比,其优点在于,首创性地突破了目前编码的辨识结构,实现了完全编码,能解决目前辨识编码不能解决的种种难题。用“组字结构+组字部件”的形式表述文字字形,文字字形的结构属性和形状属性分开,有利于系统进行字形处理和产生字形;能够简洁、清晰、完整地表述每一个字符的形状特征;是一种能够产生文字字形的字形产生规则;适宜作为一种文字代码的标准。
文字全形码适用任何需用数值或抽象字符表述文字的场合。
以下为文字全形码在计算机输入、内码、字形库压缩方面的具体实施。
汉字字形的最基本单元是笔画,如横、竖、撇、捺、折、挑……其形状很有限。
由笔画组成的最小可识单元为部件,它可代表一定意义,且一般笔画结合比较紧密。如日、月、人、口、金、木、水、土……部件的个数虽多,但也是有限的。以上海交大汉字编码组和上海汉语拼音文字研究组编著、科学出版社1988年12月版的《汉字信息字典》(以下简称《汉》为例,书中共统计汉字11254个,但据其自身统计,只用到694个部件。汉字部件的总量有一特性;随着汉字总数的再增加,冷僻字的增多,所用到的部件总数的再啬却很少。这些冷僻字,大都是以旧部件新组合的形式出现的。
由部件组合成汉字的规则,称为部件结构。如独体字、上下结构、左右结构、半包围结构、全包围结构……部件的结构也是有限的。
于是,本全形码输入法如此定义:首码为该字的结构码,用以定义该字的组字结构。其后的编码依次按书写顺序对该字的每一个部件进行定义,称为部件码。汉字结构的具体形状如图1.(对于图中平行结构、包容结构不能组合出的部件,本发明一律将其归为独体字)。
由图1可见,汉字组字结构虽有限,但也相当繁多、复杂。为此,本发明结合计算机系统的处理功能,对汉字组字结构作以下的简化。
包容结构,分包容体和被包容体。对于每一个能够充当包容体的部件,系统都加以包容参数的描述,用来定义该部件能够充当包容体的条件,以及该部件组成包容结构后,包容体和被包容体在该结构中的相对位置、各自的形状大小等参数。这样,用户只要向系统提供谁为包容体,谁为被包容体,系统便可以对包容结构产生其相应的字形。
因此,首先,对于各个开口方向的半包围结构(见图2),都可以用全包围来表示。
其次,再进一步,看看平行结构,如果将
表达为1∥2,“∥”表示并列关系;表达为1∥2∥3;
表达为1∥(2∥3);
表达为1∥((2∥3)∥4);
表达为1∥(2∥3)∥4。可以发现,平行结构中隐含有嵌套关系在内。利用这个,我们就可以将包容结构简化为平行结构。
简化原则:将包容体与被包容体置于并列位置,并应将包容体和被包容按书写的习惯顺序排列。如
可以简化为
或
;
可以简化为
或
;
可以简化为
或
“汹”字,其结构为
,应简化为
或
,并且输入部件码时应按1——“氵”,2——“×”,3——的顺序输入,若将2、3顺序颠倒,则经系统处理后产生的字形将为(结构码为
时)或
(结构码为
时)。
这样,就可以用平行结构来表示包容结构。四个及四以下部件的平等结构共有30个,从中选取25个定义到键盘上,见图3(品字结构可用
代表)。对于这25个结构没有包括的,可用这25个结构作两次或两次以上的重复定义。如
可先定义成
多面手再用
定义2;
可选定义成
,然后再将4定义成
可选定义成
再将1定义成
将2定义成
从表1的统计资料可以看出,5个以上的部件组成一个汉字的机率较少,所以这种重复定义的使用次数不会太多。另外,须注意的是,重复定义者与被重复定义者为被包容与包容关系,如,选定义一个
,其部件关系为1∥2,再用
重复定义2,所得形状为
,此时部件相互间关系为1∥(2∥3),这与直接使用
是不同的(1∥2∥3)!
这样,在输入全形码之后,系统先检查一下输入的部件中有没有可以充当包容体的部件,若没有,则判定组字结构为平行结构。若有,则取出该部件的包容参数,判断一下该部件作为包容体的条件是否成立,若是,即可以作为包容结构进行处理。否则,仍作为平行结构。
另外,安排一“×”键作为部件输入的点定位,可将部件以任意大小定义在字符中的任一位置上。这样,对于任意形状、任意结构的字符,都可以直接用编码去定义。将字符的宽、高划分成若干个等分的标准位置,定义某一部件在字符中的坐标位置可用标准位置号来表示,该部件在字符中所占宽度可用其所跨的标准位置数量来表示。大致结构为“结构码×’键+部件1的部件+部件1在字符中的坐标参数+部件1在字符中的宽高参数+部件2的部件码+部件2在字符中的坐标参数+部件2在字符中的宽高参数+……”。(具体方法略)
输入结构码之后,就要输入部件码、部件码的编码法可以灵活一点,它的任务是最少的键确定汉字部件。这里汉字部件的种数、名称全部都参照《汉》中的表十一(999页——1009页),部件共694个,由于汉字各部件笔形很相似,结构结合也很紧密,所以很难用分解笔形的方法来确定部件,本发明建议采用“基本笔画+拼音”的方式来确定。
部件的基本笔画,并横竖撇捺折5种,两种笔画的组合共有25种,加起来总共有30种,正好分配到靠近母的30个按键中,见图4,其中1、2、3、4、5分别代表横、竖、撇、捺、折,如此,一个部件可以这样输入:第一为这个部件的头两笔笔划,(取不足两笔笔画的,按单笔的基本笔画取),第二键为这个部件的未两笔笔划(也可以取第三、四笔画组合,用户可自选),第三键为这个部件名称的汉语拼音的声母(各声母与其相对应的英文键相对应,ZH、CH、SH分别与A、U、I键相对应)。一般情况下,采用三键输入一部件重码率极低。如采用二键输入,则重码率稍高,但可提高输入速度,采用二键输入入还是采用三键输入,用户要根据实际情况自行选择。部件输入苦有重码,可按在以下方式处理:将重码部件按其使用频率的高低排为首码、0码、1码、2码……10码,则其对应的选择键分别为空格键→0码、数字1→1码、数字2→2码……数字9→9码、数字0→10码。若未敲击选择键(空格键或数字键),面直接输入下一内容,系统会自动确认为首码。这样就能确保近600个频率较高的汉字部件用两个键即可输入。
编码全输入过程,例:“码”——选输入结构码
(按K键),再输入部件“石”的部件码,最后输入“马”的部件码:“王”——
(J键)+“王”的部件码;“程”——
(S键)+“禾”的部件码+“王”的部件码;“避”——
(Z键)+数字3+
(L键)+“尸”+“口”+“立”+“十”+“辶”;“赢”-
+数字键3+
+“亡”+“口”+“月”+“贝”+“凡”。
附 表
单个汉字部件数分布情况统计表
部件数 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 合计 |
字 数 | 323 | 2650 | 3139 | 1276 | 323 | 70 | 3 | 1 | 7785 |
占总字数百分比(%) | 4.149 | 34.040 | 40.321 | 16.391 | 4.149 | 0.899 | 0.038 | 0.013 | 100 |
字次数 | 5611317 | 10191803 | 4652330 | 1046913 | 142005 | 11192 | 1017 | 1 | 21656578 |
占总字次数百分比(%) | 25.910 | 47.061 | 21.482 | 4.834 | 0.656 | 0.052 | 0.006 | - | 100 |
由附表的统计可以看出,每个汉字的动态部件数平均为2个,一般情况下,每个汉字的结构码需用一键输入,每个部件需用两键输入,并且在输入中无需用空格键断码,系统会自动根据结构码进行断码。这样,平均每个字需用5个键输入,每分钟可输入110字以上目前单字的最高输入速度在150字/分以上,就此速率两相比较:假设每10000中出现3个国标外汉字,需造字,现输入10000字,用本编码需1000/110=91分钟,用它种编码输入需1000/150=67分钟,而其中造3个字用去了30分钟(每个字花10分钟,其中包括造字的全过程,字形数据的存储、字库的转换等),总共花了67+30=97分钟。两者速度差不多。从附表可以看出,超过六个部件的汉字的动态出现字次数达0.057%,而国标一二级汉字中级少有六个以上部件的,也就是说,实际统计结果表明,国标外汉字出现率远大于前面例举的0.03%。可见本编码实际综合输入速度是大于其他快速编码的。而且本编码输入法为输入者减少了许多造字带来的麻烦,也能让初学者在不懂汉字区位码原理的情况下输入冷僻字。
对于拼音型文字和拼音、表意混合型文字,都可以将其字母作为部件,仍以“结构码+部件码”的形式进行输入。并且对于拼音型文字,由于结构码对其整个单词的字母数量作了定义。因此无需再输入起单词之间分隔作用的空格。
在已有字库与编码对照表的情况下,本编码可采用全形简码的方式进行输入,不用将全形编码的码元一个一个地全部输入,只需按某一规则选取全形码中的部分码元进行输入,以提高输入速率。即采用完全输入法的简化输入方式进行辨识输入,设某个文字的全形编码为JB11B12B21B22B31B32其中J为结构码,B为部件码,第一个标表示部件码所定义的部件的顺序号数。则全形简码的形式可以为JB11B12B21B31或B11B21B31。只要将简码的码长控制在4键内,具体的输入形式是可以由用户自由选择和定义的。如,输入第一个部件掊件码(两键)+第二个部件的部件码的首键+末部件的部件码的首键(B11B12B21B31);或者依次输入每个部件的部件码首键(B11B12B21B31);或者依次输入每个部件的部件码首键(B11B12B21B31)……等等。
全形简码的汉字输入速度近似于五笔字型。但用全形法在遇到字为中没有的汉字时,可以直接用全形码输入,这样辨识输入和完全输入相结合,其在各行各业实际应用中的综合输入速率将远远超过其他编码。
汉字输入中,对于已用惯其它编码的用户,可将本编码做为后备码,专用于输入国标外汉字,以解造字之苦。
另外,本发明可用于对文字字形库的压缩存储。系统若直接使用本编码原则,可以省去文字字形库,而只需建立一个描述部件字形的部件库,就能够用本编码输入任意形状的文字。部件的总数远远小于整字字符总数,部件的笔画也比整字的笔画较少。
因此,用本方法可大大减少文字系统的字形数据存储量。据估算,采用这种方式在APPLE机上实现能够用编码输入任意简体、繁体、异体和常见错别字的汉字,核心内存需8K,全部内存仅需16K左右。这样就解决了低容量微机在使用汉字时必须用磁盘机调用汉字库带来的种种麻烦,也使得低档小容量微机仅有磁带机作外设就能使用汉字系统(在无汉卡情况下)。
在存储容量称大的情况下,可以建立一个国标GB2312——80区位码与本编码的转换表,并对每一个汉字具体的字形加一些细部的修饰,令字形更加美观。这样,便形成了一个具有标准介面的压缩汉字库。各种编码都可以通过国标区码直接使用本字库,产生字形或取得字形数据。
具体的构造如下:
一、将汉字某种字体所有可能出现的笔画全部统一编号,建立一个笔画形状表。对每一笔画具体形状都作详细的矢量或点阵资料记录(如长横、短横、长竖、短竖、竖撇、竖钩、斜钩、卧心钩……)。
二、给所有的部件统一编号,建立一个部件形状表。以上面记录的笔画为基础,造出每一个部件的形状:首先记录各笔画的笔画号,多面手记录各笔画在该部件中的起始和结束坐标或在该部件中的标准位置号。必要时,作一些细部的修正,如哪一笔画该长一些,哪一笔该细一些等等。
三、将国标中可以出现的汉字结构也统一编号,建立一个汉字结构表,依次将国标中的每一个汉字用本编码去定义:首先记录该汉字的结构编号,再接该汉字的书写顺序依次记录组成该汉字的部件代号。这样就完成了一个汉字的粗框,最后再加以细部的一些修正,如哪个部件应该大一些,哪两个部件结合应更紧密些,等等。
四、将所有的修正参数、修正类型、修正性质归纳起来,建立一个修正参数表,每个序号对照一个修正参数。如将1号修正参数定义为组字时第一个部件和第二部件结合要很紧密;2号修正参数定义为最后一个部件的度要比相应的比例大一个标准位置,等等。
整个压缩过程见图5。
由于本发明找到了一种可以归纳文字形状的文字产生规则,所以能对文字字形进行有效的压缩。
可以看见,这样的记录大大压缩了字库容量;以上的记录,除了第一步对笔画作了描述形状的点阵或矢量的记录外,对部件,整字形状的描述都简化成对笔画代号、部件代号、组字结构代号、修正参数代号以及一些坐标数据或标准坐标位置号的记录。因此,每增加部件、整字,都只需增加几个代号、坐标数据,每改变一种字体,有时只需改动一下基本笔画的形状即可。这样,点阵越高,字体越多,存储容量压缩的倍数就越大,可达1∶10——1∶100。同样,对于拼音型文字和拼音、表意混合型文字都可以按整字拆成“结构+部件”;部件拆成笔画的方式进行压缩。
现在计算机上通用的汉字内码国标区位码,是一种辨识内码。若将本发明用于计算机内码,可使计算机内码功能取得重大突破实现完全内码。具体结构:每个汉字的内码分两个部分,第一部分记录部件结构类型在汉字结构表中的诒,其后第二部分按书写顺序逐一记录组成该字的部件碚件形状表中的诒。各汉字的内码并不等长,其长度由部件结构所定义的部件数决定。
这样便可以以完全内码为标准,制定一个世界各文字通用的完全内码方案。
具体方法:惧各民族文字的所有组字部件,建立成一个部件形状表;归纳出这些部件可能出现的组字结构,建立一个组字结构表,并设立“重复定义”和“点定位”两个特殊结构,用以定义系统未曾定义的组字结构。对于使用频率极低的组字结构、组字部件,可将它们所述的字符的整字作为一部件置入部件形状表;对一些具有特定意义的图块,也可以以部件的形式置入部件形状表中,这些字符、图块都可以用独体字的形式将其从部件库中调出。这样,每一个字符的内码如此定义:每个字符的内码饮食两个部分,第一部分记录该字的组字结构在结构表中的序号,第二部分按书写顺序逐一记录该字的各组字部件在部件表中的序号。如,每一个英文字的内码,第一部分定义其组字结构为自左向右的平等并列型和其组字部件数,第二部分逐一记录其每倍件(字母),可省去起分隔单词作用的空格的存储;中文的内码可参照前面的汉字内码。
更进一步地说,该内码可采用两种具体形式:一、内码的第一部分和第二部分相对独立,即结构码和部件码互不关联,每一个结构或部件都只具有唯一序号,一个序号对应一个结构或部件,但由于各民族语言的组字部件总量是相当大的,这使得记录每一个字的内码所需的数值也很多。二、内码的第二部分需结合第一部分来确定。此法将部件号分成若干个区,并将每一部件在各自区位中另行区位中另行编出位置序号,即每一部件需用“区号+位置序号”来确定。内码的第二部分只记录每一部件在各自区中的位置序号,至于具体该部件处于哪一区则可以从第一部分记录的结构号中判断出。因为每一个组字结构只适用于一部分特定的部件,而系统通常是将这些具有共性的部件归纳在同一区位中的。即,每一个组字结构都只对唯一一个区中的组字部件进行定义,或者说任一个组字结构都固定了其所定义的组字部件的区号。采用这第二种方案可适当地减少整个个内码的码长位数。内码位数的长短是衡量一个标准的重要参数。
世界各民族文字的组字结构总数至少在300种以上,组字部件总数至少在1000个以上。这样,采用第一形式,对每一个组字结构呈民的存储需9个二进制位(512),对每一个组字部件的存储需14BIT(16384);采用第二种形式,对每一个组字结构号的存储需9BIT(512),对每一个组字部件存储需10BIT(1024)。
直接采用“组字结构号+组字部件号”的结构进行存储,由于组字结构号和组字部件号的数位长不等,给系统的处理带来了困难,影响了系统的效率。
可采取以下的方法进行处理:将组字结构和组字部件归入同一个集合,集合的上部存放组字结构,集合的下部存放组字部件,每一个组字结构或组字部件在集合中都有唯一序号与之对应。在集合中有一分界号。序号大于该分界号的,为组字结构号。序号小于该分界号的,为组字部件号。如,上面内码的第一种形式,每个结构号或部件号可采用15BIT(32768)进行存储,序号大于28672(二进制的1110000,00000000)的可判定为结构号,小于28672的为部件号。上面内码的第二种形式,每个结构号或部件号可采用11BIT(2048)进行存储,序号大于1536(二进制的110,00000000)的可判定为结构号,小于1536的为部件。这样,与上面的方法相比,虽然会多占用一些内存,但这样的处理,结构号和部件号的数位长度相等,也很容易将结构号和部件号分辨开,从而提高系统的处理效率。
从上面的数据可以看出,无论采取哪一种具体形式,本内码都比目前制定的双字节国际内码标准要节省内存。
这样一来,无论哪一国的文字,只要得到其内码,我们使可以得知该文字的国别、组成该字的结构和部件,并产生出该字的字形。反过来,对一已成形的文字,亦可以用本内码做为该字的唯一确定码。
另外,由于本内码和输入编码为同一结构,这样就无需做一输入编码与内码的对照表,也无需另行设计输入编码方案,大大减少了系统的开销,这对于多文种的输入尤为重要。
具体实施实例参见图6。图表中内码的汉字部件序号取自《汉》中表十五所排的部件组字动态频序,汉字结构序号按图1中的结构自上而下、自左向右编号。英文部件(字母)的序号与ASCII相同。汉字组字结构号从1开始编号,英文组字结构号从257开始编号,汉字部件号从1开始编号,英文部件号从1025开始编号。
附图说明:
图1:汉字结构分解图。图中代号,1:独体字2:平行结构3:包容结构4:品字结构5:左右结构6:上下结构7:全包围结构8:半包围结构。
图2:半包围结构之具体形状。
图3:汉字结构码键盘图。
图4:笔画1组合与键盘对应图。图中1、2、3、4、5分别对应横、竖、撇、捺、折。
图5:字库压缩法图示。图中代号,1:详细记录各笔画的具体形状。2:记录笔画编号和其在部件中的起末坐标。3:记录组字结构代号及组字部件代号。4:修正参数。A:笔画。 B:部件。C:字
图6:全形码实施实例图表。
Claims (2)
1、一种计算机编码输入系统,利用经过重新定义的计算机键盘进行输入,其特征在于,不同于现有的“拣字输入”编码,是一种“组字输入”,输入的编码可以按一定的算法造出汉字字形来,具体为,输入的第一键为描述该字组字等结构的结构码,其后再按书写顺序逐一输入该字每一部件的部件码,其具体特征还包括:
A、首先输入描述该字上下、左右、包容等结构的结构码;
C、在输入一个汉字的结构时,如遇到全包围、半包围等“包容结构”,应转化为“平行结构”来输入;
D、当要输入的汉字结构较复杂,无法用计算机键盘一次定义时,可以对组字结构进行重复定义;
E、对于某些特殊字,可以用点定位键P,将部件以指定大小定义到字符中的指定位置上;
F、输入结构码之后,再按照书写顺序逐一输入该字的部件码,部件码可3键输入,也可2键输入;
G、部件码的3键输入方案:
第一键为该部件的头两笔笔画组合对应相应按键,
第二键为该部件的末两笔笔画组合对应相应按键或该部件的第三四笔笔画组合对应按键,
第三键为该部件的名称的第一个字的汉语拼音声母,其中ZH、CH、SH用A、U、I表示,部件名称以科学出版社的《汉字信息字典》中的表十一为准;
H、部件码的2键输入方案:
第一键为该部件的名称的第一个字的汉语拼音声母,
第二键为该部件的头两笔笔画组合对应相应按键;
I、输入部件码时,部件的笔画组合对应计算机键盘的关系如下:
Q-11 W-12 E-13 R-14 T-15 Y-41 U-42 I-43 O-44 P-45
A-21 S-22 D-23 F-24 G-25 H-51 J-52 K-53 L-54 ;-55
Z-31 X-32 C-33 V-34 B-35 N-1 M-2 ,-3 .-4 /-5
其中1、2、3、4、5分别代表横、竖、撇、捺、折
J、本输入法的简码形式可以为:输入第一个部件的部件码(两键)+第二个部件的部件码首键+末部件的部件码首键(B11B12B21Bn1)
也可以为依次输入每一个部件的部件码首键,最多4键(B11B21B31B41)。
2、权利要求1所述的输入系统,在将输入码转换成计算机内码进行存储时,其特征在于,计算机内码采取与输入码相同的“组字结构+组字部件”存储方式,而非转换成国标内码存储,其具体特征还包括:
A、收集所有的组字部件,建立成一个部件形状表;
B、归纳出这些部件可能出现的组字结构,建立一个组字结构表;
C、建立“重复定义”和“点定位”两个特殊组字结构,归入组字结构表;
D、对于一些特定意义的图块和无法用组字结构描述的字,都将其作为部件收集到部件形状表中;
E、这样,存储一个汉字时,其存储内码分为两部分:
第一部分记录该字的组字结构在结构表中的序号,
第二部分按该字的笔顺先后逐一记录各组字部件在部件表中的序号;
F、从键盘用“结构+部件”的方法输入一个汉字后,可以直接将输入的“结构”通过组字结构表对应成“结构号”,将“部件”通过部件表对应成“部件号”;
G、“结构号”和“部件号”可以用不等长的二进制长度进行存储,也可以用等长的二进制长度进行存储,等长存储方法如下:
a、将“结构”与“部件”归为同一集合进行编码;
b、“结构号”作为集合的顶部元素,“部件号”作为集合的底部元素;
c、这样,系统得到一个编号后,大于分界值的,判定为“结构号”,小于分界值的,判定为“部件号”;
H、本方法用于同时记录多个民族文字时,可以将不同民族的文字部件分成不同的区进行编号,记录部件号时只记录部件在其民族区内的序号,而其所在的区,可以由组字结构来确定。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN93100866A CN1091529C (zh) | 1993-01-12 | 1993-01-12 | 文字全形码 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN93100866A CN1091529C (zh) | 1993-01-12 | 1993-01-12 | 文字全形码 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1089735A CN1089735A (zh) | 1994-07-20 |
CN1091529C true CN1091529C (zh) | 2002-09-25 |
Family
ID=4983272
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN93100866A Expired - Fee Related CN1091529C (zh) | 1993-01-12 | 1993-01-12 | 文字全形码 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1091529C (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102193647B (zh) * | 2010-03-20 | 2015-06-10 | 赵现隆 | 形状码及触摸屏的区位汉字输入法 |
CN105677718B (zh) * | 2015-12-29 | 2019-04-09 | 北京汉王数字科技有限公司 | 文字检索方法及装置 |
CN105807947A (zh) * | 2016-01-11 | 2016-07-27 | 金云中 | 一种模块化笔画编码汉字对应识别的方法 |
CN107241100B (zh) * | 2016-03-29 | 2019-11-08 | 北大方正集团有限公司 | 字库部件压缩方法及装置 |
CN106649764B (zh) * | 2016-12-27 | 2020-04-17 | 北京汉王数字科技有限公司 | 文字检索方法及文字检索装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN85102473A (zh) * | 1985-04-01 | 1987-06-17 | 山东电子研究所 | 序列字根法汉字信息处理技术 |
-
1993
- 1993-01-12 CN CN93100866A patent/CN1091529C/zh not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN85102473A (zh) * | 1985-04-01 | 1987-06-17 | 山东电子研究所 | 序列字根法汉字信息处理技术 |
Also Published As
Publication number | Publication date |
---|---|
CN1089735A (zh) | 1994-07-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5475767A (en) | Method of inputting Chinese characters using the holo-information code for Chinese characters and keyboard therefor | |
CN1102714A (zh) | 基于两笔形与两笔符的汉字输入方法及键盘 | |
CN85100837A (zh) | 优化五笔字型编码法及其键盘 | |
CN1091529C (zh) | 文字全形码 | |
CN1262474A (zh) | 二十四部首汉字排序编码法及其键盘 | |
CN1178120C (zh) | 汉字编码计算机输入方法 | |
CN100373308C (zh) | 数字键盘汉字和词组的输入法 | |
CN1120403C (zh) | 一种汉字数字编码输入法 | |
CN1177271C (zh) | 四笔号码字词不重输入法及其键盘 | |
CN1196057C (zh) | 一码二形数字编码汉字输入方法 | |
CN1202461C (zh) | 一种四角号码计算机汉字输入方法 | |
CN1243300C (zh) | 计算机汉字三笔数码输入法 | |
CN1115616C (zh) | 计算机彝文字输入方法及其键盘 | |
CN1052800C (zh) | 三笔三拼汉字编码输入法及键盘 | |
CN107145478B (zh) | 一种将汉字语句转换为盲文的方法 | |
CN1039512C (zh) | 计算机中文单笔划输入系统 | |
CN100342314C (zh) | 汉字数字特征码输入法及键盘 | |
CN1032559C (zh) | 文字输入加速方法 | |
CN1164982C (zh) | 汉字易码输入方法 | |
CN100342313C (zh) | 一种数字编码的计算机汉字输入法 | |
CN1167994C (zh) | 一二三四输入法 | |
CN1417668A (zh) | 简易数字符号汉字输入法及其键盘 | |
CN115422356A (zh) | 一种媒体数据处理方法、系统、计算机设备及存储介质 | |
CN1153943A (zh) | 九九分级制编码法(包括形序分级编码法与音序分级编码法)及10×10键盘创制方案 | |
CN1049418A (zh) | 统一码计算机汉字键盘输入方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C19 | Lapse of patent right due to non-payment of the annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |