CN1040278A

CN1040278A - 汉字多语种术语数据库系统实现方法

Info

Publication number: CN1040278A
Application number: CN 88104835
Authority: CN
Inventors: 于永源
Original assignee: Individual
Current assignee: Individual
Priority date: 1988-08-09
Filing date: 1988-08-09
Publication date: 1990-03-07

Abstract

中西兼容多语种术语数据库对中文数据的输入及处理有特殊要求，即中文数据应如西文数据一样具有字顺排序序值，以支持数据库的存贮、检索、词汇索引等功能，从而使汉字处理可以援引处理西文数据的软件。

目前，通用的汉字输入系统，不能有效地满足上述要求，为此提出了汉字数据内部码的设计方法以及该内部码(简称排序码)为基础而发展的数据库录入及检索工作站设计方法。为支持上述方法的有效应用，提出了自适应拼音-汉字词汇自动转换系统的实现方法。

Description

术语数据库是60年代末和70年代初开始出现的新领域。至今仅有近20年的历史。术语数据库是计算机化的术语加工管理系统，又称计算机化词典或电子词典，其主要功用是为术语工作现代化服务，同时也可以为计算机辅助翻译服务。在本方法实现之前，通过联邦德国情报文献协会的情报学数据库检索，未发现有中外兼容的术语数据库系统。1987年利用本方法在联邦德国完成了系统原型设计。1988年初完成了实验性术语数据库建设，证明本方法是切实可行的。所完成的系统原型曾在1987年汉诺威工业博览会及法兰克福国际数据库博览会上做了联机检索表演。

本发明的目的是为了解决多语种术语数据库系统中面临的汉字处理的特殊问题及中西文数据处理的兼容问题，使系统能顺利实现及便于使用。

技术说明：多语种术语数据库分为联机术语数据库及非联机术语数据库两种类型，本方法着重于联机型术语库系统，但其基本方法亦适用于非联机型。

联机术语数据库系统包括以下几种构件（见图1）：

主机（2），数据采集工作站（1），联机编辑加工终端（3），本地检索终端（4），通讯网络（5），联机检索终端（6，7）。

数据采集工作站负责建库输入工作，可采用带中文字库及专用软件的个人计算机（PC），以脱机方式工作。这样可以省去联机时间，采集好的数据通过软盘送入主机。利用主机所具有的数据库语言完成倒排及建库工作。其修改及编辑加工任务由联机终端完成。联机终端可由带有汉字库及专用软件的个人计算机或终端机充当。数据检索由联机终端负责。在主机附近的可通过直接联线检索。在远处则通过邮电通讯网络联接。联接方式可通过调制解调器（Modem）或声学耦合器来实现。检索终端可用带汉字字库的个人计算机或带有专用软件的终端。汉字的显示及打印均在终端级或主机控制的专用打印器上实现。

多语种术语数据库对汉字输入的要求是能与其他拉丁文字一样方便地处理及相互兼容。其中重要的一个要求是中文数据的排序问题。对于词典及术语工作来说，利用机器进行自动排序（编制分类索引及字顺索引）是一项重要加工内容，也是存贮及检索的重要前提。

现有的汉字输入系统（汉字终端或具有汉字功能的PC），不论以何种输入码工作，其机内码多采用国际码，由于国际码不具备统一的序值标准。既无法按字顺排序，也无法按传统的笔划或部首排序。这就使现有系统难以支持术语数据库的建设。

为此，本系统采用专用的数据库机内码实现建库工作，并以此为基础设计专用工作站。

汉字多语种术语数据库工作站具有以下特点：

-一个具有语音序值的数据库机内码（排序码）;

-以排序码为基础的输入方法;

-自适应语音-字形词汇转换系统;

-连接上述汉字输入系统与数据库软件的支撑结构。

以下分四个方面加以说明：

1.机内排序码的特点及其产生：

1.1 对机内码的要求：术语数据库的汉字机内码应当能象英文字母的ASCII码一样，既反映语音特征又反映其字形特征，可按字顺排序及查找。在计算机处理时（如自动排序）可使用西文软件进行，而不必自行设计专用排序软件、在数据库中，汉字数据的排列亦按其语音序值排，从而可以方便地按字顺查找。

1.2 排序码的产生：由于汉字既有大量的同音字又有相当数量的多音字。所以，为了能正确区分同音字及多音字，排序码必须既包含语音序值（汉语拼音及四声，拼音由于拉丁字母表示，四声由0-4表示，其中0表示非重读字）又包含字形代码（字形代码可直接用国际码表示，也可用笔划数如上频度值表示），这样可做到每个音形组合均有代码，且按常见的词典字顺排列。譬如，在码表中银行的行（hang）及自行车的行（Xing）各有自己的代码。

1.3 码表的产生：码表包含字形（用国际码代表）、拼音、四声、笔划数、部首序号、频度值。通过码表可以实现由字顺排序向部首或笔划排序的转换。也可实现排序码向国际码的转换，以进行系统间数据交换。码表的编制可借助列表程序，把有关项目填入。最后制成按拼音四声排序的索引表，供输入系统调用。

1.4 源码及简码：源码系指包含语音及字形特征的代码。最简便的办法是用拼音+四声+国际码构成源码。在数据量不太大时用源码可保留直观性的优点，通过程序处理可抽出其拼音字母，使其成为一个拼音项，国际码则可用来调出汉字用于显示或打印。在数据量极大时，为了节省空间可采用源码的流水号构成简码，其排序功能与源码相同，用户可根据需要选用其中一种。

2.以排序码为基础的输入方法

该方法与其他方法的区别在于，它输入到数据库中的汉字是以排序码而不是国际码为机内码，从而保证了中文数据的排序功能。为了便于区分多音字以及能与其它西方语言一起处理，采用拼音字母做为输入码。

2.1 同音字的区分：同音字可按四声及频度列出，用光标移动或“老鼠”选择。每个字都在屏幕上注明拼音和四声，输入时用户不必打出四声。（见图2）。

2.2 多音字的区分：采用拼音输入，遇到多音字时，必须并列加以显示，由用户加以选择。

2.3 外文字母及特种符号的输入：采用排序码不仅可以输入汉字，也可以同时输入各种外国文字及特种符号。

例如，俄文字母，希腊字母，日文假名等皆可按其对应的拉丁字母键入。汉语拼音字母的序值与相应的汉字对应。例如A和阿在排序时皆入A的序列。特种符号则以对应的组分方式键入，例如○可用两个园括弧（及）表示，方形或菱形可用两个尖括弧表示：<>＝◇□，△可用<及一表示等。采用这种输入方法，不必死记代码，任何人都可使用。

3 自适应拼音一字形转换系统

拼音输入的缺点是同音字的区分速度太慢，采用词组方式输入可以大大提高速度。但不同用户所常用的词汇不同。如包罗万象，占用存贮空间过大。如存词量过小，则不能解决键入速度问题，比较好的办法是采用一个可变词库（机读词表）做为知识库。用户可以自行存入自己常用的词，也可随时删除。通过专用程序可使拼音自动转换为字形（在库内用排序码代表），例如，beijing可转换为北京。

对于同音词则需加以选择：

如bei jing：1.北京

2.背景

由于同音词并不多，故并不影响速度。

用这种办法也可以由字词组成词组，如：

中国+科学院＝中国科学院

新组成的词组也可以存入词表，提供自动转换系统使用。这样用户可免去大量的输入工作量，只写入词及词组的拼音，而不必逐字输入。为了缩短击键次数，也可以用双拼方法代替拼音字母。

4.多语种数据库工作站系统

可分为录入工作站及检索工作站两类。

工作站可采用个人计算机或专门汉字终端，中文打印器。

软件包括工作站核心软件及应用程序（图2）。

核心软件结构见图3，它由以下几部分构成：

拼音序值码表，拼音-汉字词库，拼音-汉字词组库。

拼音-汉字转换程序。

4.1 录入工作站

录入工作站的软件由上述核心软件及录入外围软件构成，其任务是借助拼音-汉字转换系统把排序码录入数据库中。

4.2 检索工作站：

检索工作站由核心软件及检索外围软件构成。检索软件应包括通讯（联机）程序及查询程序。其任务是使主机与终端连通，并进入库中，然后通过拼音-汉字转换系统，把拼音组成变成排序码形式，做为检索词送入库中进行查询。查询结果同样可以经过该软件转换成国标码并调出汉字，加以显示和打印。

由于在录入中主要检索词均已存入词库或词组库，所以在检索时，几乎所有检索词均可由拼音组合转成汉字排序码输入，而不必逐字输入，这样可以节省联机机时（图3）。

6 本方法所支持的系统具有以下主要功能：

1.汉字数据的自动排序;

2.拼音-汉字词汇自动转换;

3.方便的汉字输入功能;

4.汉字联机检索功能;

5.检索结果的汉字输出功能。

7.应用范围：本方法所支持的系统主要用于与现有的西文数据库软件及主机配合，从而完成多语种术语数据库的建库、检索及数据管理等任务，但其核心部分的应用不限于特定的数据库语言或机型，而可以在不同的系统上应用。经过必要改进后也可适用于

1.机器翻译工作站（机读词典的编制及应用）;

2.词典编辑加工及出版等。

以排序码为基础的输入系统，拼音-字形转换等基本结构也可以支持其它类型的数据库，如文献数据库等，使其中的中文数据具有和西文数据同样的排序功能，以便于机器处理。

Claims

1、汉字多语种术语数据库系统实现方法。其特征为：采用专用汉字排序码做数据库内部码。以保证汉字数据按字顺自动排序之功能；以及采用自适应拼音-字形转换系统构成输入系统，以保证建库及检索过程中汉字的输入。

2、根据要求1所实现的系统，包括：

-多语种录入工作站（1），其特征是可通过键盘直接键入排序码;

-多语种检索工作站（4，6，7），其特征是在检得汉字数据后可直接由排序码输出汉字。