CN1003256B

CN1003256B - 叠加法汉字信息压缩技术中文卡

Info

Publication number: CN1003256B
Application number: CN85108434A
Authority: CN
Inventors: 陶一峰; 谢文梁; 周虎
Original assignee: SHAOSHAN RADIO PLANT
Current assignee: SHAOSHAN RADIO PLANT
Priority date: 1985-11-11
Filing date: 1985-11-11
Publication date: 1989-02-08
Also published as: CN85108434A

Abstract

一种采用叠加法汉字信息压缩技术的中文卡，适于电子计算机中文信息处理。本中文卡采用的叠加法汉字信息压缩技术，采用８种基本笔划构成独体字和偏旁部首，笔划、偏旁部首、独体字经压缩位移构成合体字。各构件相互叠加组合成字，没有限制条件。本发明具有信息压缩比高、字形完整、美观、能用国家标准码输入，亦是与输入编码无关的汉字库。同国标ＧＢ２３１２－８０的一、二级汉字４８×４８固定点阵相比较，信息压缩比为７９．２倍。本中文卡还具有造价低廉的特点。

Description

叠加法汉字信息压缩技术中文卡

本发明涉及中文信息处理，进一步是指采用叠加法汉字信息压缩技术的中文卡或其它汉字字形发生装置。

在当今的电子计算机应用技术领域，有一个众所周知的难点，就是汉字信息处理的问题。计算机处理汉字信息，必须要有一个汉字库，即汉字字形发生器，存放汉字字形信息。西文只有几十个字母图形，而汉字则是一字一形，有几万之多，常用汉字也在三千以上。计算机处理中文和西文相比，其困难之一就是汉字库要占用巨大的信息贮存量。巨大信息量的汉字库，严重阻碍电子计算机，特别是微型计算机处理中文信息技术的推广与普及。

目前，解决普及型汉字库的问题有二种方法：

（一）非压缩型固定点阵汉字库的存放方法：有半导体存贮器的，如用EPROM固化，其优点是可靠性好，但其体积与功耗大，且成本高;也有存放于磁盘中，但可靠性差、取字速度慢且使处理系统复杂化。

（二）压缩型汉字库。现有的该类汉字库的性能和通用性尚有待提高。

本发明的目的在于，提供一种信息压缩比高、极少占用主机内存、字形完整且美观、能用国家标准码输入以及与输入编码无关、字形产生速度快、具有多种分辨以适应不同中文计算机要求的通用型汉字库-中文卡，从而解决微型计算机处理中文信息系统及汉字联机和通讯终端中的一般形式的汉字库问题，从而对汉字信息处理计算机的普及、推广起到积极、有效的作用。

本发明在分析与研究了汉字字形结构规律的基础上，研制出叠加法汉字压缩技术汉字库。叠加法汉字压缩技术的基本原理是，采用8种基本函数笔划作为组成汉字的基本构件。

8种基本函数笔划是：（1）直：“丨”、（2）直钩：“亅”、（3）横：“一”、（4）横钩：“”、（5）横捺：“

”、（6）撇：“丿”或“

”、（7）直撇“

”、（8）捺：“”或“

”。根据不同字体的要求，以这八种基本笔划及扩充变形笔划函数为基础进行修正、变形，适应不同的要求。

8种基本笔划及其变形扩充笔划由笔划字体特征（如宋体、楷体、黑体、隶书、魏碑等）、笔划种类、笔划长度、笔划起点位置等变量所确定的函数来进行描述。用两个或两个以上字节规定出笔划数据格式和压缩位移数据格式，对笔划起点座标和长度及压缩位移中的位移量乘以指定的同一系数，就可得到易于改变分辨率的字形点阵输出。

本发明中定义笔划是组字的基本单元，不是线段，也不是线段的包络面，而是何种字体特征的笔划就用何种函数去描述它。对于不同种类的字体，数据格式是相同的，具有相同的字形信息量。等线体或不同点阵大小的宋、楷、黑、仿、隶等字体基本上都用同一种数据，仅仅是函数的定义不同而已。这种笔划函数是多值函数，由多值函数、即多条曲线组成面性质的笔划。由笔划组合成独体字和偏旁部首，笔划、独体字和偏旁部首经过压缩位移叠加成合体字，合体字和偏旁部首、独体字、笔划又可相互配合，经压缩位移叠加组合成另外的合体字。所有这些叠加过程中，不受字体、字数、提高点阵分辨率、以及构件相对位置和相对比例等方面的条件限制。这里所说的构件，既包括笔划、偏旁部首和独体字，也包括合体字和经过再次叠加组合的新的合体字。

在本发明中，构件和由构件叠加组合而成的汉字点阵关系由下式表示：

<math><msup><mi>n</mi><msub><mi>★</mi></msup><mi>1</mi></msub><msup><mi>n</mi><msub><mi>★</mi></msup><mi>2</mi></msub><mi>=</mi><munderover><mi>&Sigma;</mi><mi>j=1</mi><mi>m</mi></munderover><msub><mi>n</mi><mi>1-j</mi></msub><msub><mi>·n</mi><mi>2-j</mi></msub><msub><mi>/X</mi><mi>ysj</mi></msub><msub><mi>·Y</mi><mi>ysj</mi></msub></math>

在上式中，m为构件个数，n_i-j·n_2-j为构件j的点阵，

·

为叠加后的点阵且

、

、n_i-j、n_2-j、m、j都是大于或等于1的正整数，X_ysj为第j个构件的X方向压缩倍数，Y_ysj为第j个构件的Y方向压缩倍数。

第j个构件中第P个点经压缩位移后的坐标变更关系式为：

Z_jp＝X_jp+iY_jp

＝（X_jp/X_ysj+X_wyj）+i（Y_jp/Y_ysj+Y_wyj）

其中：Z_jp是第j个构件中P点在压缩位移前的座标量，

是第j个构件中P点经压缩位移后的座标量，X_wyj是第j个构件的X方向位移量，Y_wyj是第j个构件Y方向的位移量。

现在对本发明所述的叠加造字过程做出说明。

汉字字形点阵的产生，由于汉字数量极大，每一字又有多种字体，因此必然要经历一个繁杂的劳动过程。用叠加法压缩技术造字，如果以简体和繁体共4万汉字、每字以宋、楷、黑、隶、魏五种字体且形成24×24直至256×256多种分辨率点阵来估算，大约需要不少于200个人年的熟练技术人员的工作量。但是，尽管如此，由于字数越多，总的信息压缩比就越大，此时的压缩比已达到1000倍以上。一次工作完成以后，十亿人口乃至海外华人、子孙后代都可使用，其社会效益和经济效益显然是相当巨大的。实际上，在提供同样字数的情况下，以全点阵来描述汉字字形，是很难实施的。

图6示出了大体的工作流程。在对汉字信息进行压缩处理以前，首先要完成汉字字形数据化的工作。具体地说，先请有关专家按照国家标准字符集写出全部要数据化的汉字字模，然后通过图形处理设备或其它手段将字模逐点描述出全点阵的字形数据，在此基础上才能开始进行归类和叠加压缩的工作，归类和叠加压缩的步骤是：

第一步：根据前述原理，分别用大于14位二进制数对笔划数据和压缩位移数据进行格式安排。

笔划数据规定：用a位二进制数表示笔划在直角座标第1象限内的起点座标X₀、Y₀，笔划长度用b位二进制数表示，笔划种类也用c位二进制数表示。其中a≥4，b≥3，c≥3，均为整数。

压缩位移数据规定：以字的中点为直角座标原点，分别用a位二进制数以补码表示被压缩位移构件的X方向和Y方向的压缩数。a定义同上。

以1位二进制数表示字形信息的结束，以1位二进制数区别上述的数据性质-是笔划还是压缩位移数据。

X和Y方向的压缩位移互不相关，压缩位移数据后面顺序下来的若干个字节规定为被压缩位移构件的＊部码-存贮器地址码。

因此，基本笔划起点座标、笔划长度、构件的压缩位移量乘以指定的同一系数，就得到了由系数大小决定的输出点阵，亦即可得到易于安排变动的字形点阵输出。

第二步：将所要造的字按字形结构规律分类。（一）没有共同构件的字或构件以任意方式排列，（二）具有共同构件的字排列于一个连续的地址＊内，共同构件只占用其本身一个构件的信息位置。在这个段内的字，其另外构件是字库中已有的完整构件，则只用此构件的内部码标出，构件的压缩位移特征量由表格归类统一给出，亦即对其给以共同的构件或和由表格给以压缩位移特征数。这样使得存放国家标准的一、二级汉字非精密字库能以24.5K字节存放（对于精密型字库，占用空间需适当增加），而且在此基础上每增加一个汉字，一般只需平均大约两个字节存放构成该字的非公共构件的内码。

若段内的字扩充时缺少完整构件，则需按本步骤第（一）项的规则逐一列出。

第三步：按照第二步的第（二）项，根据合体字点阵组成情况，编排出组成合体字的函数集合和各个分支函数的初值、变量。

第四步：编制计算机调试程序，在计算机终端CRT上逐个调试构字函数初值和变量直到显示和打印出的字形完整美观，该字移数据就可用了。

第五步：对全部要造的字进行总排列，列出共同构件地址段表和公用压缩位移特征表及国家标准GB2312-80码入口表，编制字形形成程序。逐一算出每个构字笔划点阵，逐一叠加而得到整字点阵。

字形的入口即是存贮器的地址，和固定点阵形式一致，字形与输入编码无关，能用国家标准码输入。

叠加法汉字信息压缩技术，能通用于各种中文信息处理系统，如军事通讯、电报接收、电子汉字打字机、电子印刷设备或联机终端等。在这些设备里内附一个用叠加技术实现的中文卡或汉字字形发生库，字形库与各类汉字设备之间，经过通用接口交换数据。中文卡或字库的输入码分为两种，一种是控制码（或称特征码），规定字体和点阵分辨率，另一种是字符码，也就是前述的与编码方案无关的国家标准交换码。其输出码则是由控制码和字符码规定的字形点阵数据码。从上面的叙述还可以看出，由于繁体汉字与简体汉字的标准交换码有一定的对应关系，所以采用本发明的汉字设备很容易根据同一文本进行简繁字体的切换。

下面结合附图介绍怎样用本发明作为汉字设备的内附字符发生装置。

实施例（一）：

图1为将该字库用于APPle-Ⅱ计算机的逻辑原理图，其中字库部分是用Z₈₀CPU的微计算机，做成一块插卡，可插入Apple-Ⅱ的I/O插槽（2^#-7^#）。Apple-Ⅱ机是使用6502 CPU的微计算机，两者之间的通信经过Z₈₀APIO进行。

图1中Apple-Ⅱ使用插卡的地址说明如下表：

Apple中文卡使用的接口地址

Apple-Ⅱ读取字形的程序框图见图2。PIO的A口以方式二（双向方式）工作，BSTB为国家标准码或特征码写入的请求信号，而ASTB则为读取字形码（或标志）以后的回答信号。Z₈₀A与此相应的接口程序见图3。

Apple-Ⅱ机向字库打入特征码，主要是用于规定字形分辨率，可以从16×16、24×24、32×32、40×40、48×48五种点阵分辨率中任选，其字形码长度分别为32字节、72字节、128字节、200字节、288字节。在未打入新的特征码以前，字库总是以原先规定的分辨率构组字形。当国家标准码打入后，字库即进入组字程序，并在字形组成后发出一个字形已组成的标准码。Apple-Ⅱ查询到这个标志码后，则以规定的时间间隔读取字形码，直至结束。

在Apple-Ⅱ中文卡中，还包括中文处理的监控程序，其程序地址为C800～CFFF。由于这里只有2K地址，而监控程序需4K-8K的寻址范围，所以图1中还包括了地址扩充的逻辑原理图。扩充办法是一块EPROM2764存放监控程序，其最高位地址A₁₂、A₁₁两个D触发器控制，并可按前表的介绍由Apple-Ⅱ写入。为了简化线路，减少元器件，Z₈₀A的时钟由Apple总线上的7M信号二分频获得。

实施例（二）：

图4为将该字库用于IBMPC计算机的逻辑原理框图，其中字库部分同Apple-Ⅱ中文卡一样，也做成一块插卡，可插入PC机的相应插槽。所不同的是为了提高速度，用建立（字形码）缓冲区的方法取代了Z80APIO接口，PC机与中文卡之间通信以DMA（直接存贮器存取）方式进行。当PC机向Z80ACPU发出DMA请求，Z80ACPU响应后，PC机便控制了中文卡上SRAM（静态随机存贮器）的存取工作。在SRAM中，有四个双方约定的地址，分别用于存放特征码、标志码的第一、第二字节。另外有若干地址作为字形码的缓冲区。缓冲区长度随字形分辨率的不同而异，从32字节到512字节不等。特征码规定了点阵分辨率，如实施（一）所述。标志码用于存放双方通信联络的标志，包括组字请求标准、组字完成标志等。

IBMPC机读取字形的程序框图见图5。

Z80ACPU以查询方向不断读判标志码。读到组字请求标志以后，转入组字程序。然后向PC机发出中断请求，通知PC主机组字结束。PC机在接到中断信号后，先获得对SRAM操作的控制，尔后进行其它处理。

PC机在写入请求组字标志国家标准码和进行中断处理、读取字形码时，都必须获取对SRAM的控制。

Claims

1、一种适用于计算机汉字信息处理的汉字字形信息的叠加法压缩技术，其特征在于，所述压缩技术以笔划函数描述基本笔划及其变形笔划，然后产生字形构件，各构件相互叠加组合成字，不受字体、字数、提高点阵分辨率、以及构件相对位置和相对比例等方面的条件限制。所述压缩技术制作的汉字库以通用的接口方式提供字形数据的交换办法。

2、根据权利要求1所述的叠加法压缩技术，其特征在于，所述字形构件包括基本笔划及其变形笔划以及由笔划构成的独体字和偏旁部首、由笔划、独体字和偏旁部首构成的合体字。

3、根据权利要求1所述的叠加法压缩技术，其特征在于，所述笔划函数由笔划字体特征、笔划种类、笔划长度、笔划起点位置、笔划特征等变量来确定。用函数描述笔划，整字或构件是多个函数的集合。

4、根据权利要求1所述的叠加法压缩技术，其特征在于，用2个或2个以上字节规定出笔划数据格式和压缩位移数据格式，对笔划起点座标和长度及压缩位移中的位移量乘以指定的同一系数，由此得到易于改变分辨率的字形点阵输出。

5、根据权利要求1所述的叠加法压缩技术，其特征在于，构件和由构件叠加组合而成的汉字点阵关系由下式表示：

在上式中n_i-j·n_2-j为构件j的点阵，

·

为叠加后的点阵，且、

、n_1-j、n_2-j、m、j都是正整数，m为构件个数;X_ysj为第j个构件的X方向压缩倍数;Y_ysj为第j个构件的Y方向压缩倍数。

第j个构件中第p个点经压缩位移后的座标变更关系式为：

Z_jp＝X_jp+iY_jp

＝（X_jp/X_ysj+X_wyj）+i（Y_jp/Y_ysj+Y_wyj）

其中Z_jp是第j个构件中P点在压缩位移前的座标量，

6、根据权利要求1所述压缩技术制作的汉字库，其特征在于，字库提供适配各类计算机主机芯片的通用接口，字形数据的交换与编码方案无关，用国家标准交换码输入，并根据字体和点阵分辨率的控制码产生字形数据。