CN1359079A

CN1359079A - 超大型汉字信息处理装置及方法

Info

Publication number: CN1359079A
Application number: CN 00135547
Authority: CN
Inventors: 蓝德康; 郑珑
Original assignee: BEIJING ZHONGYI ZHENGMA NEW TECHNOLOGY Co Ltd
Current assignee: Lan Dekang; Zheng Long
Priority date: 2000-12-18
Filing date: 2000-12-18
Publication date: 2002-07-17
Anticipated expiration: 2020-12-18
Also published as: HK1049380A1; CN1177285C

Abstract

提供一种超大型汉字信息处理装置及方法。该装置包括:汉字输入码接收装置;判断待输入的汉字是否是扩展汉字的判断装置;笫一转换和发送装置,用于在输入的汉字是标准汉字时,将输入码转换为所述汉字的机内码并发送给文字处理模块;第二转换和发送装置,用于在输入的汉字是扩展汉字时,将输入码转换为相应的扩展字库识别码和所述汉字的机内码,然后向文字处理模块发送对应于所述扩展字库识别码的字体设置命令,并且向文字处理模块发送所述机内码。

Description

超大型汉字信息处理装置及方法

本发明涉及汉字信息处理装置及方法，并且更具体地涉及能够处理十万以上汉字的超大型汉字信息处理装置及方法。

当前印刷业应用计算机进行汉字输入、编辑、排版、打印输出或发排印前胶片已经很普遍。但是，当处理的字量超过GB2312-80标准的6,763个汉字或是超出GB13000.1标准的21,003个汉字时，目前国内和国外的一些著名的、常用的排版系统都无法处理。比如《康熙字典》的字头字就有47,000多个，在释义部分，还有超出这47,000字的2000多汉字，不但用字量大，而且版式复杂。因此，无论是铅字印刷技术传入中国的100多年以来，还是现代的计算机激光照排技术，都没有解决《康熙字典》按原版式印刷的难题，只能靠照相影印。许多古籍、地方志、人名档案以及大型文献的整理和印刷出版也都如此。可以说，当前计算机印前系统处理的字量不能满足中华5000年文化发展用字的需求。

因此，随着信息化进程在各个领域，特别是在大型文献、大型科研文献、古代典藉、户籍造册等领域的加速发展，急需一种能够对两万以上汉字进行输入、编辑、排版和打印的汉字信息处理系统。

为解决上述需求，本发明的第一个目的是提供一种超大型汉字信息处理装置，它能够方便地处理十万个以上的汉字。

本发明的第二个目的是提供一种超大型汉字信息处理方法。

为实现第一个目的，本发明提供一种汉字信息处理装置，其特征在于包括：

用于接收汉字输入码的接收装置；

用于根据输入码判断待输入的汉字是标准汉字还是扩展汉字的判断装置；

第一转换和发送装置，用于在所述判断装置判断出所述汉字是标准汉字时，将所述输入码转换为所述汉字的机内码，并将所述机内码发送给文字处理模块；

第二转换和发送装置，用于在所述判断装置判断出所述汉字是扩展汉字时，将所述输入码转换为相应的扩展字库识别码和所述汉字的机内码，然后向文字处理模块发送对应于所述扩展字库识别码的字体设置命令，并且向文字处理模块发送所述机内码。

为实现第二个目的，本发明提供一种汉字信息处理方法，其特征在于包括以下步骤：

(1)接收汉字输入码；

(2)根据输入码判断待输入的汉字是标准汉字还是扩展汉字；

(3)如果步骤(2)判断所述汉字是标准汉字，则将所述输入码转换为所述汉字的机内码，并将所述机内码发送给文字处理模块；

(4)如果步骤(2)判断所述汉字是扩展汉字，则将所述输入码转换为相应的扩展字库识别码和所述汉字的机内码，然后向文字处理模块发送对应于所述扩展字库识别码的字体设置命令，并且向文字处理模块发送所述机内码。

根据本发明的装置和方法，能够利用计算机对十万个以上的汉字进入输入、编辑、排版和打印等，从而在需要处理大量汉字的领域中极大地促进计算机的应用。

结合附图，通过以下示例方式对本发明最佳实施方式的描述，本发明的上述和其他目的、特征和优点将会更加明显。

图1是本发明的超大型汉字信息处理方法的总流程图；

图2是造字系统的流程图；

图3是图1中的Microsoft Word 95/97接口管理模块的流程图；

图4是图1中的输入法管理模块的流程图；

图5示出了本发明的汉字信息处理装置的示意结构；以及

图6示出本发明的汉字信息处理方法的流程图。

为解决10万汉字能够在计算机上进行汉字输入、编辑、排版、打印输出或发排印前胶片，就必须有10万汉字库，这是汉字显示、打印的基础。此外，还须有能够输入10万汉字的输入方法，编辑、排版支持系统。

因此，必须解决三个关键技术。第一是先进的曲线描述汉字字模的计算机制作系统，即造字系统；第二是能够输入10万汉字的输入方法；第三是能够对10万汉字进行处理的汉字编辑软件。

造字系统

开发造字系统时，难点在于国外资料仅仅公开了用三次曲线描述英文字母的理论算法，但是没有公开英文造字系统的设计技术。申请人自行设计了曲线汉字算法，完成了计算机造字系统的设计开发，并在使用中不断升级改进。

通过该造字系统制作的曲线汉字符合国际通用的TrueType二次曲线的描述格式。每个汉字的轮廓是由若干条Bezier二次曲线和直线组成的，Bezier二次曲线实际上是由起始点、结束点、中间控制点三个点来描述曲线的形状。在这里，将这三个点称为控制点。直线是由起始点、结束点两个控制点描述。造字系统由以下几部分组成：

1.移动控制点可调节各条轮廓线的曲率，并可伸缩各个笔画的长度、宽度、斜度和曲度；

2.对于每种字体，预先要制作几千个大小不等的汉字零部件，然后给每个零部件编入编码(例如，郑码)，零部件按编码排序后，就可用编码快速地调用零部件将其拼合成各种不同字体的整字。比如有宋、仿宋、楷、黑等字体；

3.在拼字的过程中，可以移动或旋转零部件，并可无极缩放其大小，以调整字体重心的平稳；

4.用编码(如郑码)还可调用已经精修的成品汉字，取其某些零部件来拼合新的汉字。由于成品字经过多遍精修，其中的零部件要比初始的单独零部件质量高。这一技术不但使造字效率大大提高，而且最大限度地保证了所造字的精度和美观。

汉字输入法

在本发明的最佳实施方式中，采用郑码作为汉字或汉字零部件的编码，这是因为，作为一种方便、快捷的汉字输入方法，郑码能够对二万以上的汉字以及汉字零部件进行编码，从而可以将二万以上汉字或汉字零部件输入到计算机中。在涉及大字符集的印前制作项目中，郑码输入法已得到广泛应用。

当然，如果其他汉字输入法能够对二万以上的汉字以及汉字零部件进行编码的话，也可以采用这样的汉字输入法。

汉字编辑软件

为了便于用户使用，本发明最佳实施方式中，将Microsoft Word作为汉字编辑软件。现有的Microsoft Word 95/97/2000，支持21,003个汉字。在Microsoft Word中，结合True Type字库分页技术，可以利用字体设置命令改变相关汉字的字体。

当然，如果其他汉字编辑软件也能够利用True Type中文字库分页技术改变汉字字体的话，也可以采用这样的汉字编辑软件。

本发明的最佳实施方式，集郑码输入法、10万汉字库、造字系统、Microsoft Word于一体，解决了计算机对10万汉字进行处理的支撑技术，保证10万个汉字能够正确地输入计算机，并根据用户需要得到正确处理。

具体地说，本发明将Microsoft Word API技术、True Type中文字库分页技术和郑码输入法巧妙地结合在一起，通过超大型汉字输入法管理模块来实现，该超大型汉字输入法管理模块可直接控制Microsoft Word95/97/2000，达到处理10万汉字的输入、输出、排版和电子检索等功能。

在一种具体实现中，超大型汉字输入法管理模块由三个部分合成：第一部分是输入法功能的设置；第二部分是软键盘输入；第三部分是超大型汉字键盘输入。

输入法功能的设置，包括十万/二万切换、中/英文标点切换、全角/半角切换、中英文切换、词语联想、词语输入、逐渐提示、外码提示、光标跟随九项设置，下面一一列举如下：

1.十万/二万切换：用Ctrl+Tab键来切换，当“二万”功能有效时，只输入21003个汉字，否则可输入10万汉字；

2.中/英文标点切换：键盘Ctrl+.(句号)键切换，在英文标点状态下，所有标点与键盘一一对应。在中文标点状态下，中文标点符号与键盘的对照关系如下：“省略号……”对应“^”；“破折号——”对应“-”；“顿号、”对应“/”；“间隔号·”对应“@”；“连接号—”对应“&”；“人民币符号￥”对应“$”；其他标点与键盘一一对应；

3.全角/半角切换：键盘Shift+Space键切换，在全角状态下输入的字母为双字节宽度，否则为单字节；

4.中英文切换：键盘Caps Lock键或Ctrl+Space键切换；

5.词语联想：输入字词后，自动提示出以当前字词开头的候选词语；

6.词语输入：允许/禁止词语输入；

7.逐渐提示：逐渐提示是指在候选窗中显示所有以已输入码元开始的字和词，以方便用户选择，逐渐提示”未设置时，键入有效码元后，如没有重码，汉字直接上屏。如有重码，在候选窗中显示重码汉字。

8.外码提示：外码提示是指在候选窗中显示所有以已输入码元开始的字词的其余外码，以方便用户学习。“外码提示”只有在“逐渐提示”有效下才起作用；

9.光标跟随：光标跟随是指外码窗和候选窗始终在输入光标附近出现并自动跟随光标移动，以使用户在中文输入时具有良好的视觉效果。

软键盘的输入包括标准PC键盘、希腊字母、俄文字母、注音符号、拼音、日文平假名、日文片假名、标点符号、数字序号、数学符号、单位符号、制表符、特殊符号共十三项符号的输入。

超大型汉字键盘的输入，该技术是本发明的关键技术，它结合了Microsoft Word API技术、True Type中文字库分页技术以及“郑码”汉字编码方法。

True Type中文字库分页技术是本申请人的实用技术，限于目前Word只能处理21003个汉字，必须对十万个汉字分成5个页面，页面的具体分配如下：

1.超大型输入法内部分配。

其中第一个页面是两字节表示，与当前的GBK标准是完全一致的，第2～5个页面在输入法内部是四字节表示的，前两个字节分别以十六进制数D7FA，D7FB，D7FC，D7FD表示(这四个十六进制数实际上是GBK标准码位中的没有定义的码位，我们用这四个数分别表示四个页面)，后两个字节GBK标准码位表示。

2.字库的分配。

由五个字库组成，每个字库包含2万个汉字，每个字库包含一个页面的汉字，其中第一个页面的字库是系统本身字库，第2～5个页面的字库是超大型汉字信息处理系统提供的十万字库(除系统的21003个汉字)，这些字库占用的是GBK标准码位，区分十万字库的方法是依据字库名称来确定的，第2～5个页面的字库名称分别是“SuperSong1”、“SuperSong2”、“SuperSong3”、“SuperSong4”。第2～5个页面用的码位虽然是GBK码，但每个码位存放的汉字是不一样，如同样一个GBK码0xd2bb，在第一个页面放的是汉字“一”，但在第二个页面放的却是“

”字，在第三个页面放的又是另外一个汉字。

3.在Microsoft Word中页面的分配。

当超大型输入法向Microsoft Word发送汉字时，如果是第一个页面的汉字，就直接发送给Microsoft word；如果是第2～5个页面的汉字，因为输入法内部分配是四字节表示的，通过前两字节可判定该汉字所在页面，进一步可确定该汉字所在的字库编号，所以向Microsoft Word发送汉字时，先发送该汉字的字体信息，然后发送后两个字节。

有了True Type中文字库分页技术基础，要在输入法内部实现自动分页，就必须能够直接控制Word的当前显示字体，才能对十万个汉字进行处理。申请人通过Microsoft word API对word进行控制。

Microsoft Word API是微软Word开发接口的工具包(Microsoft WordDeveloper′s Kit)，通过该工具包可对Word实行再开发，即可控制word的部分排版、编辑功能。在Windows中，可以建立独立的特殊动态连接库(WLL)作为Word的插件，从而增强Word的功能。这个WLL可调用Word API，但这个WLL必须安装到WordBasic宏所在的子目录里才能被Word调用。这样的话，我们不能直接控制Word，也就达不到十万汉字全部进入计算机的目的。经过试验与探索，终于找到了一种方法，可以解决直接控制Word的问题。因为输入法管理模块(IME)本身就是一个动态连接库，虽然没有安装到WordBasic宏所在的子目录里，但使用Word时，如果需要输入汉字，就必须调用输入法管理模块，也就是说，在Word中打开输入法管理模块相当于装入了一个特殊的WLL库，所以通过该输入法管理模块，也可调用Word API，从而达到直接控制Word的目的。

要控制Word当前输入的汉字显示字体，超大型输入法管理模块控制Word的方法如下：

    1.初始化Word命令缓冲区(InitWCB函数)；该函数的调用说明如下：

         void InitWCB(WCB far *lpwcb，

                      ushort  retType，

                      LPUCHAR lpBuffer，

                      ushort  cBufferSize)；

         lpwcb--Word命令缓冲区

         retType--命令类型(TypeString：字符串，TypeShort：16位整

         数，TypeLong：32位整数，TypeVoid：相当C语言中的void类

         型)

         lpBuffer--返回字符串

         cBufferSize--返回字符串的长度

    2.添加Word命令参数；

      void AddStringParam(WCB far*lpwcb，

                          LPUCHAR lpStr)；

         lpwcb--Word命令缓冲区

         lpStr--添加的字符串(在该发明中添加的字体名称)

    3.执行Word命令(WORDCALL函数)。

   void WORDCALL(short CommandID)；

   CommandID--Word命令代号，其中代号“wdFont”是设置当前字体名称的命令代号。

有了True Type中文字库分页技术以及“郑码”汉字编码方法，再结合Microsoft Word API技术，就可实现超大型汉字键盘的输入。

超大型汉字键盘的输入方法如下：

1.分析输入的键值，确认键值是否为郑码编码A-Z；

2.显示候选字词。当候选字为GBK内的汉字时，以宋体字显示该汉字，当候选字为GBK以外的字时则按分页字库显示，因为输入法内部分配的是四字节表示的，通过前两字节可判定该汉字所在页面，进一步可确定该汉字所在的字库编号，所以调用SelectFont命令选择字体名称为该汉字所属的字体名称，然后以两个字节代码显示该汉字；

3.确认输入键为选择键′0′-′9′或空格键；

4.确认当前调用程序，如果为Word95/97，则调用Word API设置分页字体，发送输入的字符给调用程序，否则直接发送输入的字符给调用程序。

上述过程详细地示于图4之中，在此不再赘述。

图1示出了超大型汉字信息处理系统的总体结构。

图2示出造字系统的流程图，该造字系统是完成十万汉字库的工具。

图3是Microsoft Word 95/97接口流程图。该图中包含三个小模块，其中“输入法调用Word命令”是超大型汉字输入模块与Word的接口技术，“超级查找命令”是Word中查找十万汉字的专用命令“超级字体命令(SuperFont)”是是嵌入到Word中的宏命令，其目的在于改变汉字字体名称时，不改变第2～5个页面的字体名称，否则就会把第2～5个页面的汉字改到第一个页面去，显示的不再是原来的汉字了。该命令的实现步骤如下：

1.判定所选字符串中是否含第2～5页面的汉字；

2.当含第2～5页面的汉字时不改变字体，否则设为所选字体。

下面是SuperFont宏命令的源代码：

    Dim lastElement

    Dim count_

    Dim theResult

    Dim theFont$

    Dim iLastFont$

    Dim iFontCount

    Dim fontarray()As String

    lastElement＝WordBasic.CountFonts()-1

    ReDim fontarray(lastElement)As String

    For count_＝0 To lastElement

         Select Case WordBasic.[font$](count_+1)

               Case″SuperSong1″ 
				
				<dp n="d8"/>
                    iFontCount＝iFontCount+1

                Case″SuperSong2″

                    iFontCount＝iFontCount+1

                Case″SuperSong3″

                    iFontCount＝iFontCount+1

                Case″SuperSong4″

                    iFontCount＝iFontCount+1

                Case″SuperSong5″

                    iFontCount＝iFontCount+1

                Case Else

           fontarray(count_-iFontCount)＝WordBasic.[font$](count_+
1)

           End Select

       Next

“超级查找命令(SuperFind)”是嵌入到Word中的宏命令。其目的在于能够精确查找到第1～5个页面的十万汉字，直接使用Word中的“查找”命令，如果要找第一个页面的汉字，因查找时只是根据其内码来寻找，可能会找到第2～5个页面中的另外一个汉字(其内码与查找的汉字一样)。所以必须提供一个“超级查找命令(SuperFind)”来解决这个问题。

该命令的实现步骤如下：

1.在SuperFind对话框中输入要找的汉字；

2.返回要找汉字的内码；

3.返回要找汉字的字体名称；

4.通过以下的源程序找到汉字；

      Selection.Find.ClearFormatting

      With Selection.Find

          .Text＝txtFind.Text(要找的汉字)

          .Replacement.Text＝″″

          .Forward＝True

          Select Case iSearchScope
				
				<dp n="d9"/>
        Case 0

            .Forward＝True

            .Wrap＝wdFindContinue

        Case 1

            .Forward＝True

            .Wrap＝wdFindAsk

        Case2

            .Forward＝False

            .Wrap＝wdFindAsk

   End Select

    .Format＝True

    If strFName＜＞″MS Sans Serif″Then

        .Font.NameFarEast＝strFName(要到汉字的字体名称)

    Else

        .Font.NameFarEast＝″宋体″

    End If

    .MatchCase＝False

    .MatchWholeWord＝False

    .MatchWildcards＝False

    .MatchSoundsLike＝False

    .MatchAllWordForms＝False

    .MatchByte＝True
End With
iResult＝Selection.Find.Execute
IfiResult＝True Then

    iSearched＝iSearched+1
End If
IfiSearched＝0 Then

    MsgBox″没有查找到相应的字！″
				
				<dp n="d10"/>
        End If

为了更形象地理解本发明，下面给出一个实际的例子。

在“超大型汉字信息处理系统中”中第二至第五个页面的字体名称分别设为“SuperSong1”、“SuperSong2”、“Supersong3”、“SuperSong4”，第一个页面的字体选用系统已安装字体。

在Windows 95/98/NT中运行Word软件，然后切换到“超级郑码”输入法。

输入一个汉字，在二万汉字输入模式时，如果键入“a”，再键入空格键，选择的是汉字“一”，在超大型汉字输入模块内部得到可汉字“一”的代码为两字节0xd2bb，输入模块直接将“一”字的两字节代码0xd2bb发给Word；当用Ctrl+Tab键切换到输入十万汉字模式时，“超”提示为红色，这时可以输入GBK以外的汉字，键入“iaia”，这时提示“1：叔叔 2：

3： ”，敲入“2”键，选中“

”字，这时在超大型汉字输入模块内部得到“

”字的四字节代码为0xd7fad2bb，前面两字节代码为0xd7fa，可以判定为第二个页面的汉字，所以将Word的当前字体设为“SuperSong1”，设置当前字体的步骤是：

a.WCB wcb；

b.InitWCB(&wcb，TypeVoid，NULL，0)；

c.AddStringParam(&wcb，“SuperSong1”)；

d.WORDCALL(wdFont)；

然后将“

”字的后两字节0xd2bb发给Word，这时Word将以“SuperSong1”中GBK内码0xd2bb所对应的汉字“

”显示。

1.查找一个汉字，选择“SuperFind”命令，在查找内容中输入汉字“ ”，就会在上面输入的内容中找到该字。如果直接使用Word中的“查找”命令，在查找内容中输入汉字“一”，则会找到“一”和“

”两个字，这与实际要找的内容是不符的，所以为查找GBK以外的十万汉字，“超大型汉字信息处理系统”中增加了嵌入到Word中的“SuperFind”命令；

2.变换字体名称，选择“一

”两个汉字，使用“SuperFont”命令，选择字体为“黑体”，所选内容就变为“一

”。如果直接使用Word中的“字体”命令，同样选择的字体为“黑体”，所选内容就变为“一一”。这与实际变换效果是不符的，所以为保证GBK以外的汉字在变换字体名称时不会出错，在“超大型汉字信息处理系统”中增加了嵌入到Word中的“SuperFont”命令。

如上所述，已详细地描述了本发明的最佳实施方式，并给出了一个实际的例子。下面结合图5和图6对本发明的汉字信息处理装置和方法做一个总结。

图5示出了本发明的汉字信息处理装置的示意结构。

在图5中，标号501代表用于接收汉字输入码的接收装置；标号502代表用于根据输入码判断待输入的汉字是标准汉字还是扩展汉字的判断装置；标号503代表第一转换和发送装置，用于在判断装置502判断出待输入的汉字是标准汉字时，将输入码转换为汉字的机内码，并将机内码发送给文字处理模块；标号504代表第二转换和发送装置，用于在判断装置502判断出汉字是扩展汉字时，将输入码转换为相应的扩展字库识别码和待输入汉字的机内码，然后向文字处理模块发送对应于该扩展字库识别码的字体设置命令，并且向文字处理模块发送机内码；标号505代表文字处理模块；标号506代表标准字库/扩展字库。

文字处理模块505，包括用于在从第二转换和发送装置504收到字体设置命令和机内码后，根据机内码，从扩展字库识别码标识的字库(即扩展字库)获取字形信息的装置。所获取的字形信息可进而传递给显示装置或打印装置(未示出)以便显示或打印。

文字处理模块505还包括用于只改变标准汉字的字体而不改变扩展汉字的字体的装置。

文字处理模块505还可以包括用于判断所查找的汉字是标准汉字还是扩展汉字的装置；以及

用于在判断出所查找的汉字是扩展汉字时利用扩展字库进行查找的装置。

文字处理模块505处理后的汉字信息，可以输出至其他装置做进一步处理，比如存储、显示、打印等。

标准字库/扩展字库506具有多个页面，在它一个页面中存储了标准汉字的字形信息，而在其他多个页面中存储了扩展汉字的字形信息，其中存储扩展汉字字形信息的不同页面由不同的扩展字库识别码标识。

图6示出本发明的汉字信息处理方法的流程图。

步骤601，接收汉字输入码。

步骤602，根据输入码判断待输入的汉字是不是标准汉字。

如果步骤602的判断结果为是，则进行到步骤606，否则进行到步骤603。

步骤606，将输入码转换为汉字机内码，然后进行到步骤605。

步骤603，将输入码转换为相应的扩展字库识别码和汉字机内码。

步骤604，向文字处理模块发送对应于扩展字库识别码的字体设置命令。

步骤605，向文字处理模块发送机内码，然后返回步骤601。

文字处理模块在收到字体设置命令和所述机内码后，根据机内码，从扩展字库识别码标识的字库获取字形信息。

文字处理模块还可以执行以下步骤：在改变已录入的汉字的字体时，只改变标准汉字的字体，而不改变扩展汉字的字体；以及在查找已录入的汉字时，首先判断所查找的汉字是标准汉字还是扩展汉字，如果所查找的汉字是扩展汉字，则利用扩展字库进行查找。

另外，可以通过以下步骤预先构造包括多个页面的多个汉字库，在汉字库的一个页面中存储标准汉字的字形信息，该页面包括符合GB2312-80、GB13000.1和GB18030-2000的宋、仿、楷、黑四种曲线字库，而在其他多个页面中存储扩展汉字的字形信息，存储扩展汉字字形信息的不同页面由不同的扩展字库识别码标识，扩展字库含有符合SuperCJK标准68000汉字宋、楷两种曲线字库以及10万曲线宋体、楷体字库。

虽然已经示出和详细描述了本发明的较佳实施方式，但是应当认识到可以对本发明做出各种变化和修改而不脱离权利要求书的范围。

Claims

1.一种汉字信息处理装置，其特征在于包括：

用于接收汉字输入码的接收装置；

2.根据权利要求1的装置，其特征在于文字处理模块包括：

用于在收到所述字体设置命令和所述机内码后，根据所述机内码，从所述扩展字库识别码标识的字库获取字形信息的装置。

3.根据权利要求1的装置，其特征在于文字处理模块包括：

用于只改变标准汉字的字体而不改变扩展汉字的字体的装置。

4.根据权利要求1的装置，其特征在于文字处理模块包括：

用于判断所查找的汉字是标准汉字还是扩展汉字的装置；以及

用于在判断出所查找的汉字是扩展汉字时利用所述扩展字库进行查找的装置。

5.根据权利要求2至4中任一项的装置，其特征在于所述文字处理模块是Microsoft Word。

6.根据权利要求1的装置，其特征在于还包括：

具有多个页面的多个汉字库，在所述汉字库的一个页面中存储了标准汉字的字形信息，而在其他多个页面中存储了扩展汉字的字形信息，其中存储扩展汉字字形信息的不同页面由不同的扩展字库识别码标识。

7.根据权利要求1至4以及6中任一项的装置，其特征在于所述接收装置允许以郑码作为输入码。

8.一种汉字信息处理方法，其特征在于包括以下步骤：

(1)接收汉字输入码；

(2)根据输入码判断待输入的汉字是标准汉字还是扩展汉字；

9.根据权利要求8的方法，其特征在于还包括由文字处理模块执行的以下步骤：在收到所述字体设置命令和所述机内码后，根据所述机内码，从所述扩展字库识别码标识的字库获取字形信息。

10.根据权利要求8的方法，其特征在于还包括由文字处理模块执行的以下步骤：在改变已录入的汉字的字体时，只改变标准汉字的字体，而不改变扩展汉字的字体。

11.根据权利要求8的方法，其特征在于还包括由文字处理模块执行的以下步骤：在查找已录入的汉字时，首先判断所查找的汉字是标准汉字还是扩展汉字，如果所查找的汉字是扩展汉字，则利用所述扩展字库进行查找。

12.根据权利要求9至11中任一项的方法，其特征在于所述文字处理模块是Microsoft Word。

13.根据权利要求8的方法，其特征在于还包括以下步骤：预先构造包括多个页面的多个汉字库，在所述汉字库的一个页面中存储标准汉字的字形信息，该页面包括符合GB2312-80、GB13000.1和GB18030-2000的宋、仿、楷、黑四种曲线字库，而在其他多个页面中存储扩展汉字的字形信息，存储扩展汉字字形信息的不同页面由不同的扩展字库识别码标识，扩展字库含有符合SuperCJK标准68000汉字宋、楷两种曲线字库以及10万曲线宋体、楷体字库。

14.根据权利要求13的方法，其特征在于所述多个汉字库包括11×12、13×14、15×16、20×20、24×24和48×48点阵汉字库。

15.根据权利要求8至11以及13和14中任一项的方法，其特征在于步骤(1)中的汉字输入码是郑码。