CN1825309A

CN1825309A - 基于Unicode编码的跨库检索方法

Info

Publication number: CN1825309A
Application number: CN 200610001051
Authority: CN
Inventors: 冯建康; 王宏源; 赵锋
Original assignee: 王宏源
Priority date: 2006-01-18
Filing date: 2006-01-18
Publication date: 2006-08-30

Abstract

本发明公开了一种基于Unicode编码的跨库检索方法。该方法为数据库检索用户提供统一的基于Unicode编码的查询接口。根据用户输入的检索条件，对Unicode倒排索引表进行检索，并返回符合条件的检索结果。该方法首先记录各电子数据库格式信息，然后为本地镜像的数据库索引信息基于Unicode建立倒排索引。同时本发明还提供了用户可自己选择的记录结果排序方法。可以使用户可以更好更快的在多种不同语言，不同编码的电子数据库中检索出自己需要的信息。

Description

基于Unicode编码的跨库检索方法

技术领域

本发明属于计算机技术领域，特别涉及一种基于Unicode编码的跨库检索方法。

背景技术

随着电子资源总量与种类的迅猛增长，图书馆拥有越来越多的异构数据库，例如一些大型图书馆一般都拥有多种电子期刊数据库，电子图书数据库，自建的特色数据库等等。这些独立的数据库在给检索用户提供丰富信息的同时也带来了很多不便，用户若要查询某一信息往往需要依次进入各个电子资源的搜索界面进行搜索，并且要对各个数据库的搜索规则有足够的认识，方可获得所需的信息。因此跨库检索技术成为当前图书馆检索技术领域的一个热门技术，也出现了一些解决方案与产品。当前实现跨库检索主要包括三种主流方法。一、通过数据库接口软件与不同的数据库直接连接；二、将不同数据库间的格式进行转换；三、运用元搜索引擎的基本原理，封装数据库的Web客户端。

随着数据库技术的发展，近几年出现了越来越多的古代信息的电子化数据库产品，例如关于考古出土的甲骨文、金文、简帛、古代书籍的信息很多已经转换成电子文本数据，这些信息也逐渐以典籍数据库的形式进入图书馆。但是，由于古文中包含了大量非常用的文字，超出了当前二字节编码的常用文字字符的范围，譬如汉字总字符数如果超过2万就无法利用双字节来进行管理，因此目前图书馆使用的典籍类数据库技术还要用到包括多字节/宽字节编码(Multibytes/Wide Char)方式等高级的字符管理技术。通俗的说，多字节编码就是外码，一般为可变长编码，主要用于信息存储和交换；宽字节编码就是内码，为定长码，通常一个字符对应4个字节，主要用于信息处理。常见的多字节编码有UTF-8，ISO8859系列，GB2312，GBK，EUC-JP等。GB18030是最新的汉字编码字符集国家标准，向下兼容GBK和GB2312标准。GB18030编码是一二四字节变长编码。一字节部分从0x0～0x7F与ASCII编码兼容。二字节部分，首字节从0x81～0xFE，尾字节从0x40～0x7E以及0x80～0xFE，与GBK标准基本兼容。四字节部分，第一字节从0x81～0xFE，第二字节从0x30～0x39，第三和第四字节的范围和前两个字节分别相同。四字节部分覆盖了从0x0080开始，除去二字节部分已经覆盖的所有Unicode3.1码位。Unicode有一个特性：它包括了世界上所有的字符字形。所以，各个地区的语言都可以建立与Unicode的映射关系。

在包含了这些多字节/宽字节编码方式，尤其是含有四字节Unicode字符的典籍数据库系统中，当前的跨库检索系统就无能为力了，他们无法实现对包含四字节编码信息典籍数据库和其它基于二字节、单字节编码的数据库进行跨库检索。

发明内容

鉴于上述原因，本发明的主要目的是提供一种基于Unicode编码的跨库检索方法。该跨库检索方法基于Unicode编码，使跨库检索可以跨越单字节编码信息数据库、二字节编码信息数据库和四字节编码信息数据库。

在实现基于Unicode编码的跨库检索时，其步骤包括：

A、建立电子数据库格式描述表。为当前存在的每一个电子数据库建立相应的格式描述信息，并将其插入格式描述表中。格式描述信息记录的内容包括电子数据库内容的编码格式、电子数据库内容的语言信息、是否包含四字节信息和电子信息内容文件的文件格式。

B、提取本地镜像的电子数据库内容索引信息并基于Unicode为其建立倒排索引表。

C、采用元搜索引擎的模式，为用户提供统一的基于Unicode编码的查询接口。用户提交查询后，将用户的查询条件同时送入以下两个处理流程。

D1、将用户查询条件送入本地建立的倒排序表中进行查询。并将查询结果返回用户。查询结果除包括索引表中查询命中的记录信息外，还包括该记录所属电子数据库的格式描述信息。

D2、对于没有为其建立倒排索引表的电子数据库，将用户查询条件由Unicode转换为其相应要求的查询条件编码后，送入相应电子数据库的检索系统中进行检索。并根据电子数据库返回结果的编码类型将结果统一转换成Unicode编码格式，并采用相应的显示方式进行显示。此外查询结果还包括该记录所属电子数据库的格式描述信息。

E、在显示结果时，为用户提供排序规则(例如：时间顺序、Unicode优先、特定库优先)。根据用户的选择决定返回结果记录显示的先后顺序。

本发明的特点：

1、本发明使得跨库检索能够有效跨越不同编码格式的电子数据库，为用户提供统一风格的查询和显示界面。

2、由于在本地对电子数据库建立了倒排索引，可以大大提高用户的检索速度。

附图说明

图1为本发明进行跨库检索时的数据处理流程示意图。

具体实施方式

本发明的主要目的是提供一种基于Unicode编码的跨库检索方法。具体的实施方法如下：

其中编码格式包括：Unicode、GB2312、BIG5、ISO、GB18030等等。

电子数据库内容的语言信息包括：中文简体、中文繁体、英文、德文、法文、日文、韩文、蒙文、藏文、意大利文、西班牙文等。

电子信息内容的文件格式包括：PDF、Microsoft Word/PowerPoint/Excel、CAJ、HTML、TXT、TIFF、JPEG、GIF、PNG、BMP等(其中TIFF、JPEG、GIF、PNG、BMP等格式的文件是通过OCR提取其中的文字内容加入数据库的)。

B、提取本地镜像的电子数据库内容索引信息并基于Unicode为其建立基于词库的倒排索引表。在建立索引时将四字节作为独立的词进行处理，并将其加入词库中。

C、采用元搜索引擎的模式为用户提供统一的基于Unicode编码的查询接口。但当前的元搜索引擎技术大都将用户输入的查询条件分发给其下层的搜索引擎，在本发明中，为了能使该条件输入框能正常显示各种Unicode字符，该输入框的内容要指定为能显示Unicode编码字符的超大字符集字体或扩展字符集字体。用户提交查询后，将用户的查询条件同时送入以下两个处理流程。

E、在显示结果时，也根据元搜索引擎的方式，综合显示从各子库返回的结果。用户可以从以下的可选排序规则(时间顺序、Unicode优先、特定库优先等)选择决定返回结果记录显示的先后顺序。

其中，时间顺序：在系统查询时，结果记录按照结果返回的时间先后顺序进行显示，结果返回速度快的记录排在结果返回速度慢的记录前面显示。

Unicode优先：根据步骤A中记录的各电子数据库的编码格式信息，在一定时间内，显示基于Unicode编码的电子数据库返回的结果。该时间过后，则其余结果按照返回时间的先后顺序进行显示。

特定库优先：用户在查询时，可以指定特定的数据库优先显示，在一定的时间内，显示用户指定的特定数据库中返回的结果记录。该时间过后，则其余结果按照返回时间的先后顺序进行显示。

在显示具体的结果时，根据步骤A中记录的各电子数据库中记录的编码格式信息和语言格式信息为其选择合适的显示方式进行显示。

本发明的优点与技术效果：

本发明主要特点在，在元搜索技术的基础上，采用了基于Unicode的跨库检索流程，对于用户查询入口和结果输出接口都采用统一的Unicode编码格式。在建立本地索引时，也是基于Unicode编码建立的。同时本发明还提供了用户可自己选择的记录结果排序方法。可以使用户可以更好更快的在多种不同语言，不同编码的电子数据库中检索出自己需要的信息。

Claims

1、一种基于Unicode编码的跨库检索方法。该方法为数据库检索用户提供统一的基于Unicode编码的查询接口。根据用户输入的检索条件，对一个或多个跨越单字节编码信息、二字节编码信息和四字节(含Unicode)编码信息的数据库或倒排索引表进行检索，并返回符合条件的检索结果。

2、如在权利要求1所述的基于Unicode编码的跨库检索方法，其特征在于：首先为当前存在的每一个电子数据库建立相应的格式描述信息表。其格式描述信息包括电子数据库的编码格式、电子数据库内容的语言信息、是否包含四字节信息、以及电子信息内容文件的文件格式四部分信息。

3、如在权利要求1所述的基于Unicode编码的跨库检索方法，其特征在于：提取本地镜像的电子数据库内容索引信息并基于Unicode为其建立倒排索引表。

4、如在权利要求1所述的基于Unicode编码的跨库检索方法，其特征在于：为用户提供统一的基于Unicode编码的查询接口，用户输入的查询条件输入框的内容要能显示Unicode编码字符的超大字符集字体或扩展字符集字体。

5、如在权利要求1所述的基于Unicode编码的跨库检索方法，其特征在于：将用户查询条件送入本地建立的倒排序表中进行查询。并将查询结果返回用户。查询结果除包括索引表中查询命中的记录信息外，还包括该记录所属电子数据库的格式描述信息。

6、如在权利要求1所述的基于Unicode编码的跨库检索方法，其特征在于：对于没有为其建立倒排索引表的电子数据库，将用户查询条件由Unicode转换为其相应要求的查询条件编码后，送入相应电子数据库的检索系统中进行检索。并根据电子数据库返回结果的编码类型将结果统一转换成Unicode编码格式，并采用相应的显示方式进行显示。此外查询结果还包括该记录所属电子数据库的格式描述信息。

7、如在权利要求1所述的基于Unicode编码的跨库检索方法，其特征在于：在显示结果时，为用户提供三种排序规则(时间顺序、Unicode优先、特定库优先)。根据用户的选择决定返回结果记录显示的先后顺序。