CN1825309A - 基于Unicode编码的跨库检索方法 - Google Patents

基于Unicode编码的跨库检索方法 Download PDF

Info

Publication number
CN1825309A
CN1825309A CN 200610001051 CN200610001051A CN1825309A CN 1825309 A CN1825309 A CN 1825309A CN 200610001051 CN200610001051 CN 200610001051 CN 200610001051 A CN200610001051 A CN 200610001051A CN 1825309 A CN1825309 A CN 1825309A
Authority
CN
China
Prior art keywords
unicode
user
information
coding
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 200610001051
Other languages
English (en)
Inventor
冯建康
王宏源
赵锋
Original Assignee
王宏源
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 王宏源 filed Critical 王宏源
Priority to CN 200610001051 priority Critical patent/CN1825309A/zh
Publication of CN1825309A publication Critical patent/CN1825309A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于Unicode编码的跨库检索方法。该方法为数据库检索用户提供统一的基于Unicode编码的查询接口。根据用户输入的检索条件,对Unicode倒排索引表进行检索,并返回符合条件的检索结果。该方法首先记录各电子数据库格式信息,然后为本地镜像的数据库索引信息基于Unicode建立倒排索引。同时本发明还提供了用户可自己选择的记录结果排序方法。可以使用户可以更好更快的在多种不同语言,不同编码的电子数据库中检索出自己需要的信息。

Description

基于Unicode编码的跨库检索方法
技术领域
本发明属于计算机技术领域,特别涉及一种基于Unicode编码的跨库检索方法。
背景技术
随着电子资源总量与种类的迅猛增长,图书馆拥有越来越多的异构数据库,例如一些大型图书馆一般都拥有多种电子期刊数据库,电子图书数据库,自建的特色数据库等等。这些独立的数据库在给检索用户提供丰富信息的同时也带来了很多不便,用户若要查询某一信息往往需要依次进入各个电子资源的搜索界面进行搜索,并且要对各个数据库的搜索规则有足够的认识,方可获得所需的信息。因此跨库检索技术成为当前图书馆检索技术领域的一个热门技术,也出现了一些解决方案与产品。当前实现跨库检索主要包括三种主流方法。一、通过数据库接口软件与不同的数据库直接连接;二、将不同数据库间的格式进行转换;三、运用元搜索引擎的基本原理,封装数据库的Web客户端。
随着数据库技术的发展,近几年出现了越来越多的古代信息的电子化数据库产品,例如关于考古出土的甲骨文、金文、简帛、古代书籍的信息很多已经转换成电子文本数据,这些信息也逐渐以典籍数据库的形式进入图书馆。但是,由于古文中包含了大量非常用的文字,超出了当前二字节编码的常用文字字符的范围,譬如汉字总字符数如果超过2万就无法利用双字节来进行管理,因此目前图书馆使用的典籍类数据库技术还要用到包括多字节/宽字节编码(Multibytes/Wide Char)方式等高级的字符管理技术。通俗的说,多字节编码就是外码,一般为可变长编码,主要用于信息存储和交换;宽字节编码就是内码,为定长码,通常一个字符对应4个字节,主要用于信息处理。常见的多字节编码有UTF-8,ISO8859系列,GB2312,GBK,EUC-JP等。GB18030是最新的汉字编码字符集国家标准,向下兼容GBK和GB2312标准。GB18030编码是一二四字节变长编码。一字节部分从0x0~0x7F与ASCII编码兼容。二字节部分,首字节从0x81~0xFE,尾字节从0x40~0x7E以及0x80~0xFE,与GBK标准基本兼容。四字节部分,第一字节从0x81~0xFE,第二字节从0x30~0x39,第三和第四字节的范围和前两个字节分别相同。四字节部分覆盖了从0x0080开始,除去二字节部分已经覆盖的所有Unicode3.1码位。Unicode有一个特性:它包括了世界上所有的字符字形。所以,各个地区的语言都可以建立与Unicode的映射关系。
在包含了这些多字节/宽字节编码方式,尤其是含有四字节Unicode字符的典籍数据库系统中,当前的跨库检索系统就无能为力了,他们无法实现对包含四字节编码信息典籍数据库和其它基于二字节、单字节编码的数据库进行跨库检索。
发明内容
鉴于上述原因,本发明的主要目的是提供一种基于Unicode编码的跨库检索方法。该跨库检索方法基于Unicode编码,使跨库检索可以跨越单字节编码信息数据库、二字节编码信息数据库和四字节编码信息数据库。
在实现基于Unicode编码的跨库检索时,其步骤包括:
A、建立电子数据库格式描述表。为当前存在的每一个电子数据库建立相应的格式描述信息,并将其插入格式描述表中。格式描述信息记录的内容包括电子数据库内容的编码格式、电子数据库内容的语言信息、是否包含四字节信息和电子信息内容文件的文件格式。
B、提取本地镜像的电子数据库内容索引信息并基于Unicode为其建立倒排索引表。
C、采用元搜索引擎的模式,为用户提供统一的基于Unicode编码的查询接口。用户提交查询后,将用户的查询条件同时送入以下两个处理流程。
D1、将用户查询条件送入本地建立的倒排序表中进行查询。并将查询结果返回用户。查询结果除包括索引表中查询命中的记录信息外,还包括该记录所属电子数据库的格式描述信息。
D2、对于没有为其建立倒排索引表的电子数据库,将用户查询条件由Unicode转换为其相应要求的查询条件编码后,送入相应电子数据库的检索系统中进行检索。并根据电子数据库返回结果的编码类型将结果统一转换成Unicode编码格式,并采用相应的显示方式进行显示。此外查询结果还包括该记录所属电子数据库的格式描述信息。
E、在显示结果时,为用户提供排序规则(例如:时间顺序、Unicode优先、特定库优先)。根据用户的选择决定返回结果记录显示的先后顺序。
本发明的特点:
1、本发明使得跨库检索能够有效跨越不同编码格式的电子数据库,为用户提供统一风格的查询和显示界面。
2、由于在本地对电子数据库建立了倒排索引,可以大大提高用户的检索速度。
附图说明
图1为本发明进行跨库检索时的数据处理流程示意图。
具体实施方式
本发明的主要目的是提供一种基于Unicode编码的跨库检索方法。具体的实施方法如下:
A、建立电子数据库格式描述表。为当前存在的每一个电子数据库建立相应的格式描述信息,并将其插入格式描述表中。格式描述信息记录的内容包括电子数据库内容的编码格式、电子数据库内容的语言信息、是否包含四字节信息和电子信息内容文件的文件格式。
其中编码格式包括:Unicode、GB2312、BIG5、ISO、GB18030等等。
电子数据库内容的语言信息包括:中文简体、中文繁体、英文、德文、法文、日文、韩文、蒙文、藏文、意大利文、西班牙文等。
电子信息内容的文件格式包括:PDF、Microsoft Word/PowerPoint/Excel、CAJ、HTML、TXT、TIFF、JPEG、GIF、PNG、BMP等(其中TIFF、JPEG、GIF、PNG、BMP等格式的文件是通过OCR提取其中的文字内容加入数据库的)。
B、提取本地镜像的电子数据库内容索引信息并基于Unicode为其建立基于词库的倒排索引表。在建立索引时将四字节作为独立的词进行处理,并将其加入词库中。
C、采用元搜索引擎的模式为用户提供统一的基于Unicode编码的查询接口。但当前的元搜索引擎技术大都将用户输入的查询条件分发给其下层的搜索引擎,在本发明中,为了能使该条件输入框能正常显示各种Unicode字符,该输入框的内容要指定为能显示Unicode编码字符的超大字符集字体或扩展字符集字体。用户提交查询后,将用户的查询条件同时送入以下两个处理流程。
D1、将用户查询条件送入本地建立的倒排序表中进行查询。并将查询结果返回用户。查询结果除包括索引表中查询命中的记录信息外,还包括该记录所属电子数据库的格式描述信息。
D2、对于没有为其建立倒排索引表的电子数据库,将用户查询条件由Unicode转换为其相应要求的查询条件编码后,送入相应电子数据库的检索系统中进行检索。并根据电子数据库返回结果的编码类型将结果统一转换成Unicode编码格式,并采用相应的显示方式进行显示。此外查询结果还包括该记录所属电子数据库的格式描述信息。
E、在显示结果时,也根据元搜索引擎的方式,综合显示从各子库返回的结果。用户可以从以下的可选排序规则(时间顺序、Unicode优先、特定库优先等)选择决定返回结果记录显示的先后顺序。
其中,时间顺序:在系统查询时,结果记录按照结果返回的时间先后顺序进行显示,结果返回速度快的记录排在结果返回速度慢的记录前面显示。
Unicode优先:根据步骤A中记录的各电子数据库的编码格式信息,在一定时间内,显示基于Unicode编码的电子数据库返回的结果。该时间过后,则其余结果按照返回时间的先后顺序进行显示。
特定库优先:用户在查询时,可以指定特定的数据库优先显示,在一定的时间内,显示用户指定的特定数据库中返回的结果记录。该时间过后,则其余结果按照返回时间的先后顺序进行显示。
在显示具体的结果时,根据步骤A中记录的各电子数据库中记录的编码格式信息和语言格式信息为其选择合适的显示方式进行显示。
本发明的优点与技术效果:
本发明主要特点在,在元搜索技术的基础上,采用了基于Unicode的跨库检索流程,对于用户查询入口和结果输出接口都采用统一的Unicode编码格式。在建立本地索引时,也是基于Unicode编码建立的。同时本发明还提供了用户可自己选择的记录结果排序方法。可以使用户可以更好更快的在多种不同语言,不同编码的电子数据库中检索出自己需要的信息。

Claims (7)

1、一种基于Unicode编码的跨库检索方法。该方法为数据库检索用户提供统一的基于Unicode编码的查询接口。根据用户输入的检索条件,对一个或多个跨越单字节编码信息、二字节编码信息和四字节(含Unicode)编码信息的数据库或倒排索引表进行检索,并返回符合条件的检索结果。
2、如在权利要求1所述的基于Unicode编码的跨库检索方法,其特征在于:首先为当前存在的每一个电子数据库建立相应的格式描述信息表。其格式描述信息包括电子数据库的编码格式、电子数据库内容的语言信息、是否包含四字节信息、以及电子信息内容文件的文件格式四部分信息。
3、如在权利要求1所述的基于Unicode编码的跨库检索方法,其特征在于:提取本地镜像的电子数据库内容索引信息并基于Unicode为其建立倒排索引表。
4、如在权利要求1所述的基于Unicode编码的跨库检索方法,其特征在于:为用户提供统一的基于Unicode编码的查询接口,用户输入的查询条件输入框的内容要能显示Unicode编码字符的超大字符集字体或扩展字符集字体。
5、如在权利要求1所述的基于Unicode编码的跨库检索方法,其特征在于:将用户查询条件送入本地建立的倒排序表中进行查询。并将查询结果返回用户。查询结果除包括索引表中查询命中的记录信息外,还包括该记录所属电子数据库的格式描述信息。
6、如在权利要求1所述的基于Unicode编码的跨库检索方法,其特征在于:对于没有为其建立倒排索引表的电子数据库,将用户查询条件由Unicode转换为其相应要求的查询条件编码后,送入相应电子数据库的检索系统中进行检索。并根据电子数据库返回结果的编码类型将结果统一转换成Unicode编码格式,并采用相应的显示方式进行显示。此外查询结果还包括该记录所属电子数据库的格式描述信息。
7、如在权利要求1所述的基于Unicode编码的跨库检索方法,其特征在于:在显示结果时,为用户提供三种排序规则(时间顺序、Unicode优先、特定库优先)。根据用户的选择决定返回结果记录显示的先后顺序。
CN 200610001051 2006-01-18 2006-01-18 基于Unicode编码的跨库检索方法 Pending CN1825309A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200610001051 CN1825309A (zh) 2006-01-18 2006-01-18 基于Unicode编码的跨库检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200610001051 CN1825309A (zh) 2006-01-18 2006-01-18 基于Unicode编码的跨库检索方法

Publications (1)

Publication Number Publication Date
CN1825309A true CN1825309A (zh) 2006-08-30

Family

ID=36935987

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200610001051 Pending CN1825309A (zh) 2006-01-18 2006-01-18 基于Unicode编码的跨库检索方法

Country Status (1)

Country Link
CN (1) CN1825309A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102339216A (zh) * 2010-07-15 2012-02-01 江苏国光信息产业股份有限公司 基于VxWorks操作系统的汉字显示方法
CN105404615A (zh) * 2015-11-05 2016-03-16 腾讯科技(深圳)有限公司 一种词的检索方法和装置
WO2019047359A1 (zh) * 2017-09-08 2019-03-14 国云科技股份有限公司 一种跨库多表联合查询系统及其实现方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102339216A (zh) * 2010-07-15 2012-02-01 江苏国光信息产业股份有限公司 基于VxWorks操作系统的汉字显示方法
CN105404615A (zh) * 2015-11-05 2016-03-16 腾讯科技(深圳)有限公司 一种词的检索方法和装置
CN105404615B (zh) * 2015-11-05 2020-02-11 腾讯科技(深圳)有限公司 一种词的检索方法和装置
WO2019047359A1 (zh) * 2017-09-08 2019-03-14 国云科技股份有限公司 一种跨库多表联合查询系统及其实现方法

Similar Documents

Publication Publication Date Title
KR100372584B1 (ko) 데이터처리방법 및 시스템 및 그 처리프로그램을 기록한계산기판독이 가능한 기록매체
Widom Data management for XML: Research directions
CN102141916B (zh) 嵌入式设备及其在osd界面显示语言文字的方法
US20040210556A1 (en) Database facility for XML server pages language
JP2000148736A (ja) フォントの取得方法、登録方法、表示方法、印刷方法、異体字フォントを含む電子文書の取り扱い方法およびその記録媒体
US6915303B2 (en) Code generator system for digital libraries
WO2004109492A1 (fr) Procede et appareil de traitement et de representation d'objets
EP1836612B1 (en) Method and system for formatting and indexing data
CN107463571A (zh) 网页消重方法
CN1825309A (zh) 基于Unicode编码的跨库检索方法
CN112148938B (zh) 一种跨域异构数据检索系统及检索方法
US20050187964A1 (en) Method and apparatus for retrieving natural language text
CN100336061C (zh) 多媒体对象检索设备和方法
Dao et al. An indexing scheme for structured documents and its implementation
CN1116647C (zh) 采用译码的汉字检索方法
CN100489847C (zh) 网络查询四字节字符的方法及系统
CN108763413B (zh) 基于数据存储格式的数据查找定位方法
CN102722527B (zh) 一种支持含有缺失符号的查询请求的全文检索方法
CN116702747A (zh) Pdf在线阅读器设计方法、装置、计算机设备及介质
Kong et al. Word File Parsing Based On Python
CN117290523B (zh) 基于动态索引表的全文检索方法及装置
CN117235291B (zh) 基于静态索引表的全文检索方法及装置
Press Emerging dynabase tools
Cuo et al. Research on Tibetan Web Standard Text Data Model
Min et al. Method of Understanding Structure and Building Database with Material Experiment Data

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20090313

Address after: One hundred thousand and twenty Beijing City, Chaoyang District Street heading for the small village compound No. 12 room 901 Postal Code: 100020

Applicant after: Wang Fei

Address before: One hundred thousand and twenty Beijing City, Chaoyang District Street heading for the small village compound No. 12 room 901 Postal Code: 100020

Applicant before: Wang Hongyuan

ASS Succession or assignment of patent right

Owner name: WANG FEI

Free format text: FORMER OWNER: WANG HONGYUAN

Effective date: 20090313

C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication