CN1673935A

CN1673935A - 甲骨文电脑输入法

Info

Publication number: CN1673935A
Application number: CN 200510004998
Authority: CN
Inventors: 刘志祥; 尹奎英; 刘晓戎
Original assignee: Individual
Current assignee: Individual
Priority date: 2005-02-01
Filing date: 2005-02-01
Publication date: 2005-09-28

Abstract

一种用于在计算机系统中输入甲骨文文字的输入法。目前甲骨文和其他古文字还没有专门的输入法，在出版引用古文字的书籍时，需要手工书写然后再影印出版，效率很低。本发明是根据甲骨文的字型特点，使用六位数字进行编码检索甲骨文文字，进行电脑输入，简单易学。编码原理也适用于金文文字。根据该编码方法设计开发了Windows操作系统下的输入法软件，并创建了甲骨文样本字库。使用本输入法可以实现古文字办公自动化，结束出版业的手工抄写古文字的历史。

Description

甲骨文电脑输入法

技术领域

本发明属于汉字输入法领域，用于在计算机系统中输入和检索甲骨文文字，实现古文字办公自动化，结束出版业手工抄写古文字的历史。

技术背景

甲骨文是世界上最古老的三种文字之一，也是唯一延续至今的文字。研究甲骨文对文字学，历史学，考古学，语言学等多门学科以及对书法研究和创作都有非常重要的意义。因此，创建计算机识别的甲骨文信息处理系统很有必要，但是这方面的研究非常有限，远远落后于现代文字的识别处理技术。

现代汉字的信息处理技术已经很成熟，仅输入法就有上百种，但是甲骨文和其他古文字还没有电脑输入法，涉及大量引用古代汉字的书籍在出版时，难以实现办公自动化。例如《甲骨文字典》、《西周甲文注》等书和许多研究古文字的杂志，都是手工书写或部分手工书写后再制版的(见附图1、附图2)，手工书写难以做到整齐美观，更影响工作效率。

要实现古文字的电脑输入，关键一步是要对古文字进行科学的编码。现有的一些甲骨文、金文的编码方法没有利用古文字本身的特点，而是套用了现代汉字的编码模式。这些编码方法只适用于“标准化”了的甲骨文、金文，不能表达原始写法的甲骨文、金文。只能用于检索某个现代汉字对应的甲骨文(定义为正向检索)，不能用于看到某个甲骨文文字来检索对应的现代汉字或是否有对应的现代汉字(定义为逆向检索)。有的编码方法只有四位码，即使能表达所有的甲骨文、金文，重码也会很多。

本发明按照甲骨文自身的字型特点进行编码，使用六位数字码，重码率较低。根据Windows操作系统提供的IMM-IME结构，设计开发了输入法。实现了在计算机系统中输入、打印甲骨文文字。编码的原理也适用于金文。使用本发明完成甲骨文、金文字库后，可以实现古文字办公自动化。更重要的是，为破译古文字提供方便。

发明内容

本发明主要包括两部分，第一部分是甲骨文文字的编码方法，第二部分是输入法软件。

第一部分编码技术

一、原理：

分析甲骨文，可看出，甲骨文由三种结构组成，一种是封闭曲线结构，一种是交叉线段结构，一种是飘离曲线或点结构。据此编成六位码。从左到右依次为：

1、眼码：封闭曲线组成，借用围棋术语命名为“眼”，用y表示眼码。一个字有几个封闭曲线围成的空白，眼码就是几。例如：

(口)y＝1 (自)y＝2

(专)y＝5 (卜)y＝0

眼码最高为9，眼数超过9，眼码仍记为9(其余各码类此)。肥笔记为眼。

眼有多种形态，其它具体规定暂略。

2、睫码：与眼相连的、不分叉的笔画，如眼之睫毛。眼上有几条睫，睫码就是几。用J表示睫码。例如：

(自)J＝5 (宗)J＝3

(？)J＝2

(卜)J＝0

甲骨文是刻画字，“无意”中刻画出来的睫也记为睫。

3、蘖码

4、枝码

这两种码互有关联，放在一起解释。

不成眼的交叉笔画，似树枝之分叉，像禾穗之分蘖，这种结构中，交叉点数为蘖码数，最少用几笔可以描绘完(不得重描，先后顺序不限)，枝码就是几。用N、Z分别表示蘖码和枝码。例如：

(冉)N＝2 Z＝3 (宋)N＝3 Z＝5

(桑)N＝7 Z＝8 (口)N＝0 Z＝0

蘖码和枝码是关联的，可以用公式表示：

Z＝N+蘖枝团块数

蘖枝团块数就是有蘖枝的笔画，被空白或眼分隔开的块数，例如，上述“冉”字，团块数为1，“宋”字，团块数为2。又 (麓)字，团块数为4。

这个公式适用于由两条笔画交叉形成的蘖。对于三条笔画或四条笔画形成的蘖，例如(？)字，(寮)字，因数量很少，直接数笔画即可。

5、飘码：甲骨文字不构成眼和蘖枝的飘离笔画，有几笔，飘码就是几。这些笔画样式很多，有曲线，折线，短划或者点。用P表示。例如：

(黹)P＝3

(小)P＝3

(？)P＝1

(？)P＝3

(明)P＝2

6、结构码：构成一个甲骨文字的互不粘连的结构块数就是结构码数(不包括眼中的块数)，用G表示。例如：

(？)G＝2

(卫)G＝8

规定：当眼中有眼、睫、蘖枝、飘时，G＝0例如：

(炯)G＝0

(祸)G＝0

(？)G＝0

将上述六位码按顺序组合起来，就可以完整地表达一个甲骨文字。

(人)001201

(口)120001

(桑)247803

(麓)206903

(炯)220000

二、实用化处理

有了编码原理，实际上还不能应用。因为甲骨片出土后，很多字的字迹模糊，这些字的具体写法，各人有各人的理解。写法不一样，编码就不同。甲骨文是刻画字，在刻写的过程中笔画很容易走形，这样也影响编码。所以还需要有些具体措施来保证：对同一个字，不同的人也能编出同样的码，达到实用的目的。

具体措施如下：

1、字根标准化：其他的甲骨文编码方法是将每个字都标准化，这对于正向检索是可以的，但要用于输入法，就无法使用了。我们的办法是，只将常用字根标准化，使用次数多了，就可以记住。也可列表供查检。已将常见的100多个字根列了标准化表。编码时，对这些字根只按标准写法编码。

2、文字对称化处理。甲骨文中有大量的字成上下或左右对称。按专门的细则加以处理，就像出土文物，按对称法修补一样，这样会使编码方便和准确。在字根标准化中也用到了这一办法。

3、结构块分离法。就是将不合理的粘连分开再编码。

4、数码最大化法。对有些编码模糊不清的采取数值大的编码。

5、一字多码法。以上四种办法还解决不了问题的，采取一字多码法，对其几种可能的写法都编码，打出任何一个码，都可以输入(或检索)这个字。

以上各法都有具体规定，这里从略。

三、编码效果

按上述原理已经编制了甲骨文数字编码字库的手工样本(见附图3)，实现了逆向检索，即看到一个甲骨文字就可以检索对应的现代汉字，及相关的资料(文字的发音，在《甲骨文字典》中的页码等)。

第二部分Windows平台下输入法软件

上述的编码方法能够应用到计算机系统中，实现古文字的办公自动化，必须是设计开发相应的输入法软件。Windows平台下的输入法软件开发主要包括如下几个步骤。

1、建立字库

建立甲骨文的Windows TrueType字库，字库采用Unicode编码，甲骨文文字在字库中的编码使用Unicode为造字保留的码位。造字区编码是从0xE000开始，到0xF8FF结束。

2、组织码表

码表(即编码字典)是实现输入法不可缺少的数据文件，它规定了甲骨文的编码与字库中甲骨文文字的对应关系，文字的输入实际上就是使用文字的编码对码表文件进行动态检索的过程。

3、利用Windows平台下的IMM-IME(输入法管理器-输入法编辑器)结构，编程实现输入法软件。

在Windows95以后的Windows Far East Edition(远东版本)中，提供了IMM-IME(输入法管理器-输入法编辑器)结构，同时提供了完整有效的输入法编程接口。本输入法软件的设计思想是：利用Windows操作系统提供的IMM-IME结构，使用IME API(IME应用程序编程接口)进行输入法编程实现。

IMM-IME结构中，IMM模块的功能是由操作系统提供的，需要编程实现的是IME模块，该模块主要包括两部分

(1)IME转换界面，这是一组需要编程实现的接口函数，这些函数由输入法管理器调用。

(2)IME转换界面，需要编程实现的一组窗口，这些窗口接收和处理由IMM发来的消息，提供用户交互的界面。

附图说明

图1显示现在出版的甲骨文书集是手工书写后影印的。

图2《甲骨文字典》是手工书写后影印出版的。

图3根据本编码方法制作成的《甲骨文数字编码字库》。

具体实施方式

本发明在具体实施的时候，首先需要把甲骨文的TrueType字库安装到Windows操作系统中，字库安装好之后，把本输入法的码表和程序文件复制到Windows的系统目录中，并修改注册表。至此输入法软件和字库都已安装完毕，使用本输入法的步骤如下：

1、打开编辑器(例如Microsoft Word)；

2、在编辑器的字库列表中选择甲骨文字库；

3、在操作系统的输入法列表中选择甲骨文输入法；

4、输入甲骨文的六位编码，例如001201，就得到对应的甲骨文文字，例如“卜”字。

我们已经制作了甲骨文的样本TrueType字库，在本说明书的写作过程中已经使用，很好的实现了编辑、打印的功能，证明我们的输入法是完全可用的。对于已发现的所有甲骨文字库的建立，原则上是完全可行的，但是需要做大量细致的工作。

Claims

1.一种甲骨文输入法，用于在计算机系统中输入、检索甲骨文文字。其特征是：根据甲骨文文字的字型，使用六位数字进行编码，根据该编码方法设计开发输入法软件和字库。本输入法可以用于在Windows系列操作系统平台中输入甲骨文文字。

2.根据1所述的甲骨文输入法，其特征是可以对所有甲骨文文字的原始写法进行编码，同一个甲骨文文字的多种写法，使用本编码方法都可以进行编码。

3.根据1所述的甲骨文输入法，其特征是使用六位码，重码率低。六位码的理论容量远远大于现在已知的甲骨文文字总数。

4.根据1所述的甲骨文输入法，其特征是根据古文字自身的特点进行编码，不需要对古文字整体进行标准化，只需对字根标准化。

5.根据1所述的甲骨文输入法，其特征是可以用于字库检索系统，既可以用于由一个现代汉字检索对应的甲骨文，也可以用于由一个甲骨文文字检索对应的现代汉字。

6.根据1所述的甲骨文输入法，其特征是输入码只用数字0到9。

7.根据1所述的甲骨文输入法，编码方法也适用于金文文字。

8.根据1所述的甲骨文输入法，其特征是软件是基于Windows操作系统中提供的IMM-IME结构设计。