CN1107255C - 无限有序字符集汉字全集方法和系统 - Google Patents

无限有序字符集汉字全集方法和系统 Download PDF

Info

Publication number
CN1107255C
CN1107255C CN97105292A CN97105292A CN1107255C CN 1107255 C CN1107255 C CN 1107255C CN 97105292 A CN97105292 A CN 97105292A CN 97105292 A CN97105292 A CN 97105292A CN 1107255 C CN1107255 C CN 1107255C
Authority
CN
China
Prior art keywords
code
character
word
chinese character
constructive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN97105292A
Other languages
English (en)
Other versions
CN1175024A (zh
Inventor
顾剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN97105292A priority Critical patent/CN1107255C/zh
Publication of CN1175024A publication Critical patent/CN1175024A/zh
Application granted granted Critical
Publication of CN1107255C publication Critical patent/CN1107255C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

无限有序字符集汉字全集系统属于自动机器的汉字输入输出设备,涉及汉字信息的处理方法。在与现有系统完全兼容的前提下使自动机器,如专通用计算机及系统、各种专通用信息处理设备和系统等处理和交换数量无限制的汉字字符:已有的正确汉字;还未出现的正确汉字;不正确汉字(有无意写出的错、新字)。系统中字符内码、交换码带有字的结构信息,使内、交换码具有文字意义上的顺序性,依内、交换码实现按汉字笔划、偏旁部首的排序。

Description

无限有序字符集汉字全集方法和系统
本发明属于自动机器的汉字信息处理方法和系统。具体讲是在自动机器内实现已有的正确汉字、还未出现的正确汉字、不正确汉字的处理,在自动机器间实现这些汉字的交换。自动机器的定义是:涉及汉字字符处理的光电机械等设备和系统。如:专用、通用计算机及系统,各种专用、通用信息处理设备和系统。
现有自动机器中的汉字系统都是建立在有限无序字符集上的一种处理系统,不能够充分满足汉字信息处理的需要,使之在真正需要自动处理汉字信息的场合(如使用汉字国家和地区的人口管理,信息管理、处理,金融,出版,海关,公安等等)不能真正用自动机器完成。概括地说现有自动机器中的汉字系统有两大缺陷:一是字符集没有包括所有汉字,字符集中字符数量有限;二是字符集中汉字代码不携带文字意义上的结构、顺序信息,无法依代码本身的信息按笔划、部首排序。
本发明的目的是:提出一套在自动机器中建立处理和交换无限有序字符集汉字全集的方法,以及基于此方法的无限有序字符集汉字全集系统。使自动机器中的汉字系统具有:一字符集中的字符数量无限,可以任意增加,可以处理和交换任意对字和错字;二代码本身具有文字意义上的结构和顺序信息,可依代码本身的信息实现按笔划、部首排序。
无限有序字符集汉字全集是自动机器所要处理的全部汉字,是一个有序无限集。这个集中的汉字与我们平常所说的汉字有本质不同。这些汉字绝不是语言意义上的汉字。这些汉字仅是有序图形集中的一个代码,没有对、错之分,书写(显示、打印)。发音上没有难易之别,更没有感情色彩,它仅仅是具有信息交换和记录功能的数字,是为汉字信息处理而定义的代码,除此之外别无它用。这个有序图形集中的汉字包括三部分:已有的正确汉字;还未出现的正确汉字;不正确汉字,也即无限有序汉字全集包含三个子集:第一字符集:已有的正确汉字字集;第二字符集:还未出现的正确汉字字集;第三字符集:不正确汉字字集。
一般意义上的汉字信息处理仅仅涉及第一、第三两个汉字字集:已有的正确汉字和不正确汉字。这一点很明了。人们处理汉字时一直在努力地区分正确和错误的汉字。不正确汉字可以分为两类:一类是语法意义上的错误,如“的、得、地”三个字用错了地方。本发明中的不正确汉字不包括这类错字;另一类是不符合标准、不规范的字——某个图形。
完整准确地给出这三类汉字是很困难的。第一:“已有的正确汉字”到底有多少是什么恐怕世界上不会有人知道。第二:“还未出现的正确汉字”当然不知道是什么有多少。第三:“不正确汉字”实在是太多并且也没有人专门去统计和研究它(否则这些字也变成正确汉字了),因此也没有人知道它。
“已有的正确汉字”似乎是确定的,但实际上是不确定的。原因一是汉字的定义,二是前人实际上用了多少字。如果说甲古文算是汉字的开始,今后要是再发现比甲古文还要早的文字算不算是汉字?考古学,历史学家们一直在努力发掘我们的文化宝藏,这些宝藏中一定少不了书籍和文字之类的东西,如果这些宝藏中的某些字是我们没有见过的字,它是否还是我们的汉字?这些当然都是我们的汉字!
“还未出现的正确汉字”是我们在日常生活中一定要遇到的。这是一个很复杂的问题。在早些年随着一些新鲜事物的出现我们华人会造新字来表示它,如在人类发现了新元素后我们就造一个新字来代表它。我们可以用汉字特有的规律来组造一个新的汉字,使人们一看就知道这个字的含义和读音。
“不正确汉字”是一个令所有人都头痛的问题。一是它太多,只要人们(有意、无意)写出不规范的字,这个字就是“不正确汉字”,没有人能知道人会写出多少种这样的字,自动机器在处理汉字信息时是不能(也不知道怎样)改正这些字的。二是我们曾经用过现在不准用的简化汉字,这些不规范的字不论怎样它们都是汉字,不管你高兴不高兴、准不准用我们的自动机器迟早一定要处理这些内容。
下面具体描述无限有序字符集汉字全集系统:
(1)无限有序字符集汉字全集系统中存在无限有序字符集汉字全集的汉字内码和交换码。这些内码和交换码包括:
第一字符集字符内码和交换码(已确定的正确汉字)      字集内字符数确定;
第二字符集字符内码和交换码(还未确定的正确汉字)    字集内字符数任意;
第三字符集字符内码和交换码(不正确汉字)            字集内字符数任意。
(2)无限有序字符集汉字全集系统中的汉字内码显性地包含汉字的结构信息,是汉字字结构码的变形码,因此内码可以确定该字的字结构即该字的图形和该字在汉字全集中的顺序。
汉字字结构码是不定长编码,其结构是:第一个汉字部件代码,该部件在字中的坐标及大小,第二个汉字部件代码,该部件在字中的坐标及大小,...第N个汉字部件代码,该部件在字中的坐标及大小。汉字部件的数量N由具体的汉字字形和汉字部件决定。
汉字部件是汉字的笔划和由汉字笔划组成的在汉字中高频率出现的图形。所有汉字部件按字典顺序排序组成汉字部件库。
由字结构码本身所携带信息得到汉字图形数据的具体做法是:
1:依汉字部件代码在汉字部件库中取出该部件的图形数据;
2:依汉字部件大小把此图形数据处理到代码规定的尺寸;
3:依汉字部件坐标把处理过的图形数据放到字中指定的位置;
4:重复以上三步直到处理完字结构码中的所有汉字部件。
汉字字结构码就可以是内码,但在具体实现时由于各自动机器的结构不同,可能要把此码作一定的变形,如代码长度和代码中各部分顺序的调整。
(3)无限有序字符集汉字全集系统中的汉字交换码是汉字内码经过运算得到的与现有系统交换码兼容的代码。其第一字符集中汉字交换码由该字符集中汉字内码顺序数经兼容运算后得到;第二、第三字符集中汉字交换码由该字符集中汉字内码经兼容运算后得到。
无限有序字符集汉字全集系统中汉字交换码与现有系统完全兼容,也即现有系统中的汉字交换码是无限有序字符集汉字全集系统中汉字交换码的一个于集。现有系统中已定义的所有汉字交换码在无限有序字符集汉字全集系统中都可以正确输入输出;在无限有序字符集汉字全集系统中的所有汉字交换码在现有系统上输出一定是汉字,但只有现有系统已定义的汉字才能输出其对应的汉字字形,其他交换码仅能输出一个与其不对应的汉字字形。
这里所说的现有汉字交换码指的是符合国标GB5007-85的7545个字符的交换码,本说明中所出现的现有系统的汉字交换码指的都是符合该标准的交换码。另外要注意现有系统中交换码与内码是同一个码,如“啊”的交换码和内码都是16进制数b0a1。实际上现有系统一般把内码与交换码视为同一编码。
(4)无限有序字符集汉字全集系统可以从自动机器中部分分离出来,成为功能单一的一种汉字字符输入/输出部器件,依实际情况由软件或硬件实现。
本发明的意义和优点在于:
(1)使自动机器真正成为能处理所有汉字的机器,进而为汉字处理的完全自动化打下基础。无限有序字符集汉字全集系统可以处理已公布的汉字,今后将要公布的汉字,有意、无意写出的错字、新字。现有系统仅能处理有限的、在制造、生成时就制造或定义的汉字,不能处理系统没有制造和定义的汉字。
(2)实现汉字信息真正的没有地域和时间限制的实时交换。在任何地点和任意时间在自动机器上输入输出任意想输入输出的字符,自动机器也会自动接受和处理这些信息。现有系统仅能对已经制造出的有限字符进行实时交换,对已经定义但未制造的有限字符进行非实时交换。
(3)实现自动机器中汉字的有序性。无限有序字符集汉字全集系统中的内码包含了汉字的字结构信息,因此自动机器可以自动地按汉字结构笔划和偏旁部首排序。现有系统中的汉字不能依汉字内码按笔划或偏旁部首排序。
实施例:
一、编制无限有序字符集汉字全集码,具体是:
    (1):编制字结构码(汉字内码);
    (2):由字结构码得到汉字交换码
    (3):具体汉字交换码的编码空间。
二、制造汉字单字字模发生器,具体可分为以下几步:
    (1):制造汉字部件库;
    (2):制造已知汉字字结构库(字结构数据库和字结构索引库);
    (3):制造汉字交换码与字结构码转换部件;
    (4):制造汉字部件按比例缩小部件;
    (5):制造汉字部件组合部件。
三、制造汉字单字输入器
无限有序字符集汉字全集码是系统完成处理汉字信息的基础,汉字单字字模发生器是依据无限有序字符集汉字全集码输出汉字字形数据均设备,汉字单字输入器是依据无限有序字符集汉字全集码编码理论让操作者输入单个汉字的输入设备,在自动机器中这三者构成了一个完整的,具有输入/输出功能的汉字信息处理系统;同时也可以在自动机器中单独由无限有序字符集汉字全集码和汉字单字字模发生器组成汉字字形数据输出系统。
一、编制无限有序汉字全集码
无限有序字符集汉字全集码分为两部分:一是自动机器内处理汉字使用的汉字内码,二是自动机器间交换汉字信息用的汉字交换码。无限有序字符集汉字全集码中的汉字内码和交换码都是工业界通用的ASCII码的组合。内码和交换码都经字结构码运算和转换得到。
(1):编制字结构码(汉字内码);
字结构码是系统由代码还原汉字图形所必须的编码,它提供汉字的完整结构信息,也即提供汉字部件图形信息,汉字部件的个数,汉字部件的大小及汉字部件在汉字中的位置等四部分的信息。因此字结构码依字结构与汉字部件重复以下四个部分:(把一个汉字按横竖坐标标为16*16)
1:汉字部件的代码;      数量<256        用8BIT表示
2:汉字部件顺序号;      数量<16         用4BIT表示
                         (第一个是该汉字部件总数)
3:每个部件的位置;      16*16(横竖)坐标  用8(4+4)BIT表示
4:每个部件的大小;      1*1~16*16(宽高) 用8(4+4)BIT表示
一个汉字部件所需的信息长度是:8+4+8+8=28BIT。用4个ASCII码表示一个汉字部件,从而一个汉字字结构码的长度是:该汉字汉字部件数量*4,为一个不定长码。
例1:
在汉字部件库中有汉字部件
“氵”代码=00000001      “又”代码=00000010
“口”代码=00000011      “大”代码=00000100
则“汉”的字结构码是(码长56BIT)(“,;`”等是为了易读而加的,实际代码中没有,代码中的数比实际数小1)
                       “氵”                “口”1:汉字部件的代码:0000 0001   (0)     0000 0011(2)2:汉字部件顺序号:0001        (2)          0001(2)3:每个部件的位置:0000,0000  (1,1)  0000,0100(1,5)4:每个部件的大小:0011,1111  (4,16) 1010,1111(11,16)00000001,0001,00000000,00111111;00000011,0001,00000100,10101111
则“品”的字结构码是(码长84BIT)
                “口”                                   “口”                                 “口”1:汉字部件的代码:00000011(2)       00000011(2)           00000011(2)2:汉字部件顺序号:    0010(3)           0001(2)               0010(3)3:每个部件的位置:000000011(1,4)   10010000(10,1)       10011001(10,10)4:每个部件的大小:10010011(10,4)   00110101(4,6)        01000101(5,6)00000011,0010,00000011,10010011;00000011,0001,10010000,00110101;00000011,0010,10011001,01000101
(2):由字结构码得到汉字交换码
现有系统汉字交换码使用的是高位为1的ASCII码,因此高位不能再做他用,所以上面编制的字结构码不能直接用做交换,要把28BIT等分成4份,然后在各自的前一位加1把7BIT变成8BIT,整个28BIT扩展成32BIT。扩展后的编码与现有系统完全兼容,可以作为自动机器间的交换码,通用于整个工业界。例:“汉”的字结构码和扩展后的码分别是:(1是插入的高位1)0000000 1,0001,00 000000,0 0111111;0000001 1,0001,00 0001001,010111110000000` 11,0001,00` 1000000,0` 10111111`; 10000001` 11,0001,00` 10001001`, 10101111
字结构码和扩展后的码长分别是56BIT和64BIT例:“品”的字结构码扩展后是:( 1是插入的高位1 )100000001` 11001000` 10000111` 10010011` 10000001` 11000110` 10100000` 10110101` 10000001` 11001010` 10110010` 11000101码长96BIT
扩展后的字结构码理论上就可以用做交换码,但字结构码是不定长码,交换起来要占用较多的时间和空间,而字结构码所含的信息冗余又比较多,所以可以通过一定的运算去掉一些不必要的冗余。具体运算规则是:
1:第一字符集中的汉字字符数量和字形是确定不变的,所以只需在自动机器中保留第一字符集的字结构码库,交换时交换字符在字符集中的位置(顺序)信息,用定长码即可。依据汉字数量要大于五万六千,代码长度也要大于16BIT,2个ASCII。
2:第二、第三字符集中的字符数量和字形都是不确定的,所以必须交换其字结构码。
3:无限有序字符集汉字全集中的汉字交换码与现有系统相兼容的同时又要与之有所区分,所以除现有系统定义的7545个字符(GB-5007-85)的交换码必须保留有双字节码外,所有字符都用4个或4个以上ASCII码,并且头两个ASCII码都是无限有序字符集汉字全集汉字交换码的引导码。
(3):具体汉字交换码的编码空间
在16进制数d7fb~d7fe和f8al~fefe这662个国标(GB-5007-85)未用代码中选出互不相同的8个第一字符集(已知汉字)引导码,X1~X8;1个第二字符集(还未确定的正确汉字)引导码,Y;1个第三字符集(不正确汉字)引导码,Z。
第一字符集:分兼容汉字区和已知汉字区
兼容汉字区交换码编码空间(94*94=8836个编码)      定长双字节码
alal~fefe
已知汉字区交换码编码空间(8*94*94=8*8836个编码)  定长四字节码
X1alal~X1fefe    已知汉字01区,累计8836个编码
X2alal~X2fefe    已知汉字02区,累计2*8836个编码
X8alal~X8fefe    已知汉字08区,累计8*8836(70688)个编码
第二字符集    变长四字节以上码
    以Y引导的扩展字结构码。
第三字符集    变长四字节以上码
       以z引导的扩展字结构码。
二、制造汉字单字字模发生器
汉字单字字模发生器是依汉字内码产生其对应汉字图形数据的专用器件,其构造包括:汉字部件库,已知汉字字结构库(字结构数据库和字结构索引库),第一字符集汉字交换码与字结构码转换表,汉字部件按比例缩小部件和汉字部件组合部件等部分。
(1)制造汉字部件库
汉字部件是汉字的笔划和由汉字笔划组成的在汉字中高频率出现的图形。所有汉字部件按字典顺序排序组成汉字部件库。汉字部件库以国家正式出版的专业字典(如《汉语大字典)》等中的部首目录)中的笔划和部首为基础制作。数量限制在256以内。汉字部件代码就是该部件在汉字部件库中的顺序数。
可以用点阵或算法两种方式精确定义汉字部件的图形数据。根据不同需要应制造两种汉字部件库:普通型汉字部件库与专业型汉字部件库。普通型有128*128的分辨率即可,专业型应能做到1024*1024的分辨率。
   普通型汉字部件库用点阵制作需要0.5兆字节的空间。
       128*128*256/8=16384*256/8=524288
   专业型汉字部件库用算法来实现比较合适。如用点阵制作将需要32兆字节的空间。
       1024*1024*256/8=1M*32=32M
(2)制造已知汉字字结构库(字结构数据库和字结构索引库)
已知汉字字结构库由所有已知汉字字结构码组成,分为字结构数据库和字结构索引库。字结构索引库包含兼容汉字区字结构索引表和已知汉字区字结构索引表。
已知汉字字结构库中的汉字要尽可能完整收录国内、国际上已出现过的所有汉字,包括正在使用和现已不宜使用的汉字。可把使用汉字国家正式出版的专业字典中的所有汉字全部收录。如我国的《汉语大字典》中的五万六千字;现已不使用的简化汉字;国际标准化组织ISO-10646 CJK中日本、韩国等国的汉字等等。
已知汉字字结构库中字符数量在六万左右。
    字结构数据库的数据存放结构是:(长度单位:字节)
起始地址  结束地址(名称)    字符数量(长度)    存放字符类型
0         x1*4*1-1(A1)      x1(1*4)    由1个汉字部件组成的汉字区A1+0      A1+x2*4*2-1(A2)      x2(2*4)    由2个汉字部件组成的汉字区A2+0      A2+x3*4*3-1(A3)      x3(3*4)    由3个汉字部件组成的汉字区A3+0      A3+x4*4*4-1(A4)      x4(4*4)    由4个汉字部件组成的汉字区
  ...Am-1+0    Am-1+xm*4*m-1(Am)    xm(m*4)    由m个汉字部件组成的汉字区
在由相同数量汉字部件组成的汉字区内的汉字按汉字部件代码排序。
字结构索引库是两个结构基本相同的索引表,已知汉字区字结构索引表和兼容汉字区字结构索引表。
已知汉字区字结构索引表的内容是:
   第1个汉字在字结构数据库中的地址
   第2个汉字在字结构数据库中的地址
   第3个汉字在字结构数据库中的地址
   第M个汉字在字结构数据库中的地址
表中顺序是汉字在字结构数据库中的顺序,数量是字结构数据库中字符数M;元素的长度是24BIT,3个ASCII,可以表示16M字节的字结构数据库的地址。
兼容汉字区字结构索引表的内容是:
   第1个国标字在字结构数据库中的地址,该字的顺序号
   第2个国标字在字结构数据库中的地址,该字的顺序号
   第3个国标字在字结构数据库中的地址,该字的顺序号
   第N个国标字在字结构数据库中的地址,该字的顺序号
表中顺序是国标字符的顺序,数量是国标字符数N;“该字的顺序号”是该字在字结构数据库中的顺序,元素的长度是24BIT+16BIT,5个ASCII,可以表示16M字节的字结构数据库的地址和65535个字符。
(3)制造汉字交换码与字结构码转换部件
无限有序字符集汉字全集的交换码分为2、4字节的定长码和2+4*N字节的不定长码三种,这些交换码与字结构码之间的转换是不同的。
2+4*N字节交换码是加引导码后的扩展字结构码,所以其转换规则是:去掉引导码得到扩展字结构码,再去掉兼容最高位最后得到字结构码。
4字节的交换码是汉字在字符集中的顺序数,所以其转换规则是:由交换码得到顺序数,由该顺序数在已知汉字区字结构索引表中得到该字的字结构码地址,由此地址从字结构数据库中取得字结构码。
2字节的交换码是国标字符集的交换码,从此交换码可以得到该字符在国标字符集中的顺序数,所以其转换规则是,由交换码得到顺序数,由该顺序数在兼容汉字区字结构索引表中得到该字的字结构码地址,由此地址从字结构数据库中取得字结构码。
按上面的规则制造出汉字交换码与字结构码转换部件。
(4)汉字部件按比例缩小部件
汉字部件库提供128*128或1024*1024分辨率的汉字部件图形数据,一般都大于单字字模发生器的输出,因此在输出时要对汉字部件提供的图形进行缩小。汉字部件按比例缩小部件即完成这一功能。
(5)汉字部件组合部件
一个汉字通常由多个汉字部件组成,其位置依单字变化,汉字部件组合部件即完成把多个汉字部件按字结构码的要求组合出某个汉字图形这一功能。
汉字部件组合部件的基本算法是:
1:字结构码中是否还有未处理的汉字部件?
       无:输出汉字图形数据,结束;有:继续2。
2:依据汉字部件代码在汉字部件库中取出该部件的图形数据;
3:把该图形数据用汉字部件按比例缩小部件缩小到字结构码的要求;
4:把处理后的汉字部件图形数据放到字结构码要求的位置;
5:返回到1。
三、制造汉字单字输入设备
汉字单字输入设备实现按照无限有序字符字集汉字全集的要求让使用者很方便地输入字符的功能。其原理是按照编码理论让使用者一个汉字部件一个汉字部件的输入,最终完成整个汉字的输入工作。
它的基本算法是:
1:提示输入汉字部件代码,操作者用某种输入法输入汉字部件或代码;
2:依据输入信息显示相应的汉字部件。如果输入的信息不完整,应把类似的汉字部件都显示出来让操作者选择(模糊输入);
3:提示操作者输入汉字部件的大小和位置。这一步应很直观,并以图形界面方式提供给操作者;
4:提示继续输入汉字部件(返回到1);
5:没有待输入的汉字部件时结束汉字的输入。
6:检查输入的汉字是否是第一字符集中的汉字。是产生第一字符集汉字的交换码;否查找在第一字符集中是否有字型相近的汉字,有时显示这些字符,让使用者比较是否在输入时输入有误,有误允许使用者改正错误;无误时按第三字符集汉字处理。

Claims (4)

1.一种在自动机器中对汉字字符的无限有序字符集汉字全集进行处理的方法,其特征在于:自动机器中存在依编制字结构码、再由字结构码转换得到交换码而形成汉字字符的由字结构码和交换码组成的无限有序字符集汉字全集,汉字全集由三个子集组成:第一子集为已有正确汉字字符集,第二子集为还未出现的正确汉字字符集和第三子集为不正确汉字字符集;其字结构码是一个有结构的不定长码,从某个具体字符得到其字结构码的处理方法包括下述步骤:
1)依据字符图形和汉字部件库把字符拆分为一个个汉字部件并从部件库中得到部件代码,其中:
  a提示输入汉字部件代码,让操作者用某种输入法输入汉字部件;
  b依据输入信息显示对应的汉字部件,如果输入的信息不完整,显示类似汉字部件以供选择;
  c提示操作者输入汉字部件的大小和位置;
  d返回到a提示继续输入汉字部件;
  e没有待输入的汉字部件时结束汉字的输入;
  f检查输入的汉字是否是第一子集中的汉字,如果是,产生第一子集的定长交换码,如果否,在第一子集中查找是否有字形相近的字符,若有,显示这些字以供输入者比较,当可用时,产生第一子集的定长交换码,当不可用时则按第三子集处理产生不定长交换码;
2)按照部件代码、部件排列顺序、部件位置和大小组成该部件编码;
3)对所有的汉字部件编码得到该字符的字结构码;
4)所有字符的字结构码组成整个汉字全集的字结构码;由于第一子集中的字符是已经确定的汉字,所以,系统在构造时按照上述四个步骤对子集中字符进行编码形成第一子集的字结构码;由于第二、三子集中的字符是不确定汉字,系统执行上述第一到第三步骤以得到所述字结构码;其交换码是把字结构码进行调整转换使其符合现行系统的编码,为使交换码有高的交换效率第一子集中的交换码可以直接以字符在子集中的顺序数调整转换得到,系统交换时只传递交换码,接收端在去掉为符合现行系统作出的调整转换部分后就可得到字结构码,从字结构码可得到字符的部件代码、部件位置和大小,依部件代码从部件库中取出该部件的图形数据,再依位置、大小放置部件就可以恢复出交换的字符,实现在自动机器中建立、交换和处理所有汉字字符。
2.一种在自动机器中对汉字字符的无限有序字符集汉字全集进行处理的系统,其特征在于所述系统包括:数据库,用于存储由字结构码和交换码组成的无限有序字符集汉字全集;转换部件,用于将所述字结构码转换为交换码或将所述交换码转换为字结构码;字模发生器,用于根据所述字结构码产生并输出字符图形信息;输入部件,用于根据所述字符图形信息输入所述字结构码。
3.按权利要求2所述的系统,其特征在于由字结构码和交换码组成的无限有序字符集汉字全集由三个子集组成:第一子集为已有正确汉字字符集,第二子集为还未出现的正确汉字字符集和第三子集为不正确汉字字符集,每个子集都由字结构码和交换码组成;
其字结构码是:依据汉字字符的具体结构重复以下4个部分的不定长代码:
    a汉字部件代码,
    b汉字部件顺序代码,
    c每个部件的位置代码,
    d每个部件的大小代码;
其交换码是:标准ASCII码,逻辑结构为:
    a与现有系统完全兼容的双字节定长码,
    b与现有系统部分兼容的4字节定长码,头两个字节为引导码,
    c与现有系统部分兼容的2+4*N字节不定长码,头两个字节为引导码;
第一子集中的字结构码和交换码系统在建立时就一次输入和完成转换,系统不建立第二三子集中的字结构码和交换码,这些代码由使用者在使用时输入,系统依据情况自动完成交换码到字结构码和字结构码到交换码的转换工作。
4.按权利要求2.所述的处理和交换汉字字符的系统,其特征在于:自动机器中存在依据字结构码输出字符图形信息的字模发生器,字模发生器包括:
    a.放大/缩小部件,用于按照预定比例对汉字部件进行放大/缩小;
    b.组合部件,用于将所述部件组合成所需字符。
CN97105292A 1997-08-06 1997-08-06 无限有序字符集汉字全集方法和系统 Expired - Fee Related CN1107255C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN97105292A CN1107255C (zh) 1997-08-06 1997-08-06 无限有序字符集汉字全集方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN97105292A CN1107255C (zh) 1997-08-06 1997-08-06 无限有序字符集汉字全集方法和系统

Publications (2)

Publication Number Publication Date
CN1175024A CN1175024A (zh) 1998-03-04
CN1107255C true CN1107255C (zh) 2003-04-30

Family

ID=5167820

Family Applications (1)

Application Number Title Priority Date Filing Date
CN97105292A Expired - Fee Related CN1107255C (zh) 1997-08-06 1997-08-06 无限有序字符集汉字全集方法和系统

Country Status (1)

Country Link
CN (1) CN1107255C (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1037411A (zh) * 1988-04-26 1989-11-22 楠井健 中文汉字变换方式
CN1064359A (zh) * 1992-02-08 1992-09-09 林采芬 汉语文字处理之方法
CN1121598A (zh) * 1994-09-22 1996-05-01 俞祖祯 认图设码汉字电脑输入取出及处理方法
CN1135060A (zh) * 1995-01-30 1996-11-06 三菱电机株式会社 语言处理装置和方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1037411A (zh) * 1988-04-26 1989-11-22 楠井健 中文汉字变换方式
CN1064359A (zh) * 1992-02-08 1992-09-09 林采芬 汉语文字处理之方法
CN1121598A (zh) * 1994-09-22 1996-05-01 俞祖祯 认图设码汉字电脑输入取出及处理方法
CN1135060A (zh) * 1995-01-30 1996-11-06 三菱电机株式会社 语言处理装置和方法

Also Published As

Publication number Publication date
CN1175024A (zh) 1998-03-04

Similar Documents

Publication Publication Date Title
CN1024050C (zh) 对汉字进行编码和译码的方法和装置
CN1023916C (zh) 简繁五笔字根汉字输入系统
CN1075563A (zh) 多字节字符串字符的互换代码转换的改进方法
CN1095560C (zh) 修改汉字转换结果的系统
CN1316689A (zh) 汉字输入装置和方法
CN1107255C (zh) 无限有序字符集汉字全集方法和系统
CN1136496C (zh) 简化拼音-触摸屏鼠标式汉字输入方法
CN1462966A (zh) 简繁体中文内码转换方法以及系统
CN1131768A (zh) 数据处理系统和数据处理方法
CN1302415C (zh) 一种英汉翻译机器的实现方法
CN1131770A (zh) 中文汉字的检索方式
CN1380620A (zh) 图书索引自动编排方法
CN1073722C (zh) 一种拼音输入方法
CN1081004A (zh) 汉字结构笔顺数字编码方法
CN1248024A (zh) 采用译码的汉字检索方法
CN1023843C (zh) 双位中文电脑键盘的中文输入技术
CN1150441C (zh) 字形笔顺码汉字输入法及其键盘
CN1246758C (zh) 计算机四角码汉字输入法及其键盘
CN1021259C (zh) 英文快速键入的缩码法及键盘
CN1700202A (zh) 系统外字的异地自动取存技术
CN86102418A (zh) 汉语音节处理机及汉语音节处理方法
CN1100288C (zh) 四笔序音计算机汉字键盘输入方法
CN1332401A (zh) 四笔号码字词不重输入法及其键盘
CN1244671A (zh) 数符汉字编码输入法及键盘
CN1099627C (zh) 具有整合码页的多双位元组字语言的处理系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20030430

Termination date: 20140806

EXPY Termination of patent right or utility model