CN201421609Y - 基于文字异形体信息的搜索引擎系统 - Google Patents

基于文字异形体信息的搜索引擎系统 Download PDF

Info

Publication number
CN201421609Y
CN201421609Y CN2009200679784U CN200920067978U CN201421609Y CN 201421609 Y CN201421609 Y CN 201421609Y CN 2009200679784 U CN2009200679784 U CN 2009200679784U CN 200920067978 U CN200920067978 U CN 200920067978U CN 201421609 Y CN201421609 Y CN 201421609Y
Authority
CN
China
Prior art keywords
character
converter
text
chinese
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
CN2009200679784U
Other languages
English (en)
Inventor
邓晓涛
谢兵
杨杰
程健章
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chuanxian Network Technology Shanghai Co Ltd
Original Assignee
Chuanxian Network Technology Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chuanxian Network Technology Shanghai Co Ltd filed Critical Chuanxian Network Technology Shanghai Co Ltd
Priority to CN2009200679784U priority Critical patent/CN201421609Y/zh
Application granted granted Critical
Publication of CN201421609Y publication Critical patent/CN201421609Y/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

一种基于文字异形体信息的搜索引擎系统,包括通讯连接的客户端和服务器端,其中:所述服务器端包括:文本信息获取模块,文本分词模块,转换模块,索引器,用于对所述转换模块的输出进行倒排序索引;索引文件库,用于根据所述索引器的输出生成索引文件;所述客户端包括:用户输入模块,文本分词模块,转换模块,用于将所述文本分词模块进行分词处理的文本信息进行转换;查询器,用于将所述转换模块输出的词条与用户输入的查询条件进行组合,查询所述服务器端的索引文件库,并输出查询结果;结果返回模块。本实用新型可广泛应用于含有异形体的文字信息检索,并且可以通过文字的其它形体进行搜索,并返回对应该文字信息的搜索结果。

Description

基于文字异形体信息的搜索引擎系统
技术领域
本实用新型涉及的是一种文本信息搜索引擎系统,具体是一种基于文字异形体信息的搜索引擎系统。
背景技术
随着互联网的发展,搜索引擎成为人们检索信息必不可少的工具之一。在互联网中,信息主要是以文字的形式呈现,而由于文字形体的多样性,使得相同意义的文字信息,有不同的表现形式,这主要是由于人们对信息的描述习惯、输入工具、地域等不同而形成的文字信息的不同形体,简称异形体。文字异形体主要有字符编码不同、语言不同、格式不同。搜索引擎在对文本信息处理时,通常对原始的信息进行分词(Word Segmentation)处理,处理后的信息直接生成倒排序索引文件(Reverse Order Index File),其原理在于,通过分词产生的词条(Term)对应信息所在的文本路径或者URL(Uniform Resource Location)之间建立一个映射关系,在用户进行信息检索时,通过输入的短语中包含的词条,找到对应的资源并返回。如果用户输入的信息中含有该词条的异形体的词条就不会被检索出来。
目前,搜索引擎在处理异形体词条是将该词条的异形体作为独立的词条,或者将该词条的异形体作为额外的词条进行重复搜索。在日常生活中,文字信息的异形体的形式很多,这些主要是由于地域或者用户的使用习惯以及输入工具有关。在基于文字异形体信息的搜索引擎系统中所涉及到的异形体有汉字的简体和繁体、字符的全角和半角、中文数字和阿拉伯数字、日期的格式。
汉字的简、繁体信息的差异主要体现在地域的差异上。另外还有些输入工具具备这种简繁体的输入,也有用户的个人兴趣使用混合的形体。在互联网中,中文汉字信息以简繁体两种形体存在,那么就会存在这样一个问题,在输入简体和繁体结合中文进行检索时,可能得不到我们想要的结果(例如搜索“农菐”)。
全角字符和半角字符,在计算机字符编码集合中是属于不同的字符编码集(例如“a”和“a”的字符编码是不同的)。在互联网中,这种编码混合使用的现象也是普遍存在的,主要体现使用者的一种个性。由于字符集合的不同,在索引时会对全角和半角的字符当作不同的字符进行索引,而检索时,搜索引擎只会检索对应的词条,因而具有同种意义字符不会检索到。
中文数字和阿拉伯数字在信息中虽然有各自的用途,但是在一些基数和序数的信息描述以及年月日等的描述上,意义是相同的(例如“一九九七年七月一日”和“1997年7月1日”)。人们在使用这些数字进行信息描述时,按照不同的场合,数字的异形体使用都存在(例如“九百九十九朵玫瑰”和“999朵玫瑰”)。而我们在检索信息是,为了减少输入量,会直接输入阿拉伯数字,这样以中文描述的信息不会被检索到(例如输入“999”进行搜索,则“九百九十九”不会被检索到)。
日期格式也有很多不同的形式,除了上面所描述的中文日期外,还有一些使用习惯上的格式(例如“2007-07-01”和“20070701”),这些日期格式只是在形式上有不同,但是从人们的认识角度来看表示的一种意思。人们在发布文字信息时习惯用标准的日期格式,而在搜索时使用数字串日期格式来检索,这样也会存在同上面描述的问题,不能相互检索。
为了解决这个问题,在对信息进行分词处理时,对原始信息进行了调整,将所有的这些异形体形式转换成指定的某一形体(例如将所有的繁体字在分词时以简体字生成倒排序文件),同样,在进行检索时,将检索的信息以转化成索引中存在的形体形式进行检索,最后将该词条对应的倒排文件系列返回,通过搜索引擎系统告诉用户信息的所在位置。
实用新型内容
本实用新型的目的在于针对现有文本搜索引擎的不足,提出一种可忽略信息表现的不同形体进行文本内容搜索的搜索引擎系统。在对该信息进行分词的过程中,针对不同的文字异形体信息,设计各自的处理器,将这些处理逻辑嵌入到分词过程中,使得对于不同的异形体在分词后可以获得统一的词条(例如“农菐”和“農菐”都会以“农业”来进行索引)。处理完后的词条会由搜索引擎系统进行索引处理,索引处理完成后,搜索引擎可以对用户输入的查询关键字进行分词,同样通过不同的处理器分成不同的词条,然后搜索引擎系统可以针对词条来检索出结果,并将结果返回给用户。
本实用新型具体采用如下技术方案:
一种基于文字异形体信息的搜索引擎系统,包括通讯连接的客户端和服务器端,其中:
所述服务器端包括:
文本信息获取模块,用于获取文本信息,该文本信息可以是用户输入的,也可以是在互联网中提取的;
文本分词模块,用于将所述文本信息获取模块获取的文本信息进行分词处理;
转换模块,用于将所述文本分词模块进行分词处理的文本信息进行转换;
索引器,用于对所述转换模块的输出进行倒排序索引,并计算权重;
索引文件库,用于根据所述索引器的输出生成索引文件;
所述客户端包括:
用户输入模块,用于接受用户输入的查询关键词和查询条件;
文本分词模块,用于将所述用户输入模块获取的查询关键词进行分词处理;
转换模块,用于将所述文本分词模块进行分词处理的文本信息进行转换;
查询器,用于将所述转换模块输出的词条与用户输入的查询条件进行组合,查询所述服务器端的索引文件库,并输出查询结果;
结果返回模块,用于返回所述查询器的查询结果。
其中,所述服务器端与客户端的转换模块均包括以下转换器中的多个或全部:
中文简繁体转换器,用于中文简体和繁体的转换;
字符全半角转换器,用于全角字符和半角字符的转换;
中文数字转换器,用于将中文表示的数字格式转换阿拉伯表示的数字;
日期格式转换器,用于判别日期格式,并将日期格式转换成定义的统一格式。
进一步地,所述中文简繁体转换器包括:
简繁体映射表,其内存储有简体字库、繁体字库及简繁映射关系;
简繁体转换模块,与所述简繁体映射表相连接,用于进行简繁体转换并输出;
简繁体编码判断模块,用于判断分词后的文本信息中是否需要是行简繁体转换,如果是则输出至所述简繁体转换模块,如果否,则直接输出。
进一步地,所述字符全半角转换器包括:
字符全角半角转换模块,用于转换字符中的全角和半角并输出;
字符全角半角判断模块,用于判断分词后的文本信息是否需要进行字符全角、半角转换,如果是,则输出至所述字符全角半角转换模块,如果否,则直接输出。
进一步地,所述中文数字转换器包括:
数字映射表,其内存储有中文数字字库、阿拉伯数字及中文数字与阿拉伯数字的映射关系;
中文数字转换模块,与所述数字映射表相连接,用于进行中文数字和阿拉伯数字的转换并输出;
中文数字转换判断模块,用于判断分词后的文本信息是否需要进行字符中文数字转换,如果是,则输出至所述中文数字转换模块,如果否,则直接输出。
进一步地,所述日期格式转换器包括:
日期格式定义模块,用于定义日期格式;
日期格式转换模块,与所述日期格式定义模块相连接,用于将输入的日期格式转换为定义的日期格式并输出;
日期格式转换判断模块,用于判断分词后的文本信息是否需要进行字符日期格式转换,如果是,则输出至所述日期格式转换模块,如果否,则直接输出。
本实用新型可广泛应用于含有异形体的文字信息检索,并且可以通过文字的其它形体进行搜索,并返回对应该文字信息的搜索结果。如:在对文字信息进行索引和用户输入查询条件时,简繁体转换器对汉字进行简体和繁体转换;查询结果与信息中和用户输入的文字简、繁形体无关。在对文字信息进行索引和用户输入查询条件时,字符全半角转换器对字符进行全角、半角转换;查询结果与信息和用户输入的字符全角、半角无关。在对文字信息进行索引和用户输入查询条件时,中文数字转义器对中文数字进行转换;查询结果与信息和用户输入的中文数字和阿拉伯数字无关。在对文字信息进行索引和用户输入查询条件时,日期格式转换器对日期格式文本进行转换;查询结果与信息中和用户输入的日期的格式无关。
以下结合附图及实施例进一步说明本实用新型。
附图说明
图1为本实用新型基于文字异形体信息的搜索引擎系统实施例示意图;
图2为本实用新型实施例中的中文简繁体转换器示意图;
图3为本实用新型实施例中的字符全半角转换器示意图;
图4为本实用新型实施例中的中文数字转换器示意图;
图5为本实用新型实施例中的日期格式转换器示意图。
具体实施方式
如图1所示,一种基于文字异形体信息的搜索引擎系统,包括通讯连接的客户端和服务器端,其中,所述服务器端包括:
文本信息获取模块,用于获取文本信息,该文本信息可以是用户输入的,也可以是在互联网中提取的;
文本分词模块,用于将所述文本信息获取模块获取的文本信息进行分词处理;
转换模块,用于将所述文本分词模块进行分词处理的文本信息进行转换;
索引器,用于对所述转换模块的输出进行倒排序索引,并计算权重;
索引文件库,用于根据所述索引器的输出生成索引文件;
所述客户端包括:
用户输入模块,用于接受用户输入的查询关键词和查询条件;
文本分词模块,用于将所述用户输入模块获取的查询关键词进行分词处理;
转换模块,用于将所述文本分词模块进行分词处理的文本信息进行转换;
查询器,用于将所述转换模块输出的词条与用户输入的查询条件进行组合,查询所述服务器端的索引文件库,并输出查询结果;
结果返回模块,用于返回所述查询器的查询结果。
其中,所述服务器端与客户端的转换模块均包括:
中文简繁体转换器,用于中文简体和繁体的转换;
字符全半角转换器,用于全角字符和半角字符的转换;
中文数字转换器,用于将中文表示的数字格式转换阿拉伯表示的数字;这样可以使查询的结果和用户输入的中文数字或阿拉伯数字无关。
日期格式转换器,用于判别日期格式,并将日期格式转换成定义的统一格式。
进一步地,所述中文简繁体转换器如图2所示,包括:
简繁体映射表,其内存储有简体字库、繁体字库及简繁映射关系;
简繁体转换模块,与所述简繁体映射表相连接,用于进行简繁体转换并输出;
简繁体编码判断模块,用于判断分词后的文本信息中是否需要是行简繁体转换,如果是则输出至所述简繁体转换模块,如果否,则直接输出。
进一步地,所述字符全半角转换器如图3所示,包括:
字符全角半角转换模块,用于转换字符中的全角和半角并输出;
字符全角半角判断模块,用于判断分词后的文本信息是否需要进行字符全角、半角转换,如果是,则输出至所述字符全角半角转换模块,如果否,则直接输出。
进一步地,所述中文数字转换器如图4所示,包括:
数字映射表,其内存储有中文数字字库、阿拉伯数字及中文数字与阿拉伯数字的映射关系;
中文数字转换模块,与所述数字映射表相连接,用于进行中文数字和阿拉伯数字的转换并输出;
中文数字转换判断模块,用于判断分词后的文本信息是否需要进行字符中文数字转换,如果是,则输出至所述中文数字转换模块,如果否,则直接输出。
进一步地,所述日期格式转换器如图5所示,包括:
日期格式定义模块,用于定义日期格式;
日期格式转换模块,与所述日期格式定义模块相连接,用于将输入的日期格式转换为定义的日期格式并输出;
日期格式转换判断模块,用于判断分词后的文本信息是否需要进行字符日期格式转换,如果是,则输出至所述日期格式转换模块,如果否,则直接输出。

Claims (1)

1、一种基于文字异形体信息的搜索引擎系统,包括通讯连接的客户端和服务器端,其特征在于:
所述服务器端包括:
文本信息获取模块,用于获取文本信息,该文本信息可以是用户输入的,也可以是在互联网中提取的;
文本分词模块,用于将所述文本信息获取模块获取的文本信息进行分词处理;
转换模块,用于将所述文本分词模块进行分词处理的文本信息进行转换;
索引器,用于对所述转换模块的输出进行倒排序索引,并计算权重;
索引文件库,用于根据所述索引器的输出生成索引文件;
所述客户端包括:
用户输入模块,用于接受用户输入的查询关键词和查询条件;
文本分词模块,用于将所述用户输入模块获取的查询关键词进行分词处理;
转换模块,用于将所述文本分词模块进行分词处理的文本信息进行转换;
查询器,用于将所述转换模块输出的词条与用户输入的查询条件进行组合,查询所述服务器端的索引文件库,并输出查询结果;
结果返回模块,用于返回所述查询器的查询结果。
其中,所述服务器端与客户端的转换模块均包括以下转换器中的多个或全部:
中文简繁体转换器,用于中文简体和繁体的转换;
字符全半角转换器,用于全角字符和半角字符的转换;
中文数字转换器,用于将中文表示的数字格式转换阿拉伯表示的数字;
日期格式转换器,用于判别日期格式,并将日期格式转换成定义的统一格式。
CN2009200679784U 2009-02-23 2009-02-23 基于文字异形体信息的搜索引擎系统 Expired - Lifetime CN201421609Y (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009200679784U CN201421609Y (zh) 2009-02-23 2009-02-23 基于文字异形体信息的搜索引擎系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009200679784U CN201421609Y (zh) 2009-02-23 2009-02-23 基于文字异形体信息的搜索引擎系统

Publications (1)

Publication Number Publication Date
CN201421609Y true CN201421609Y (zh) 2010-03-10

Family

ID=41808269

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009200679784U Expired - Lifetime CN201421609Y (zh) 2009-02-23 2009-02-23 基于文字异形体信息的搜索引擎系统

Country Status (1)

Country Link
CN (1) CN201421609Y (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103902682A (zh) * 2014-03-21 2014-07-02 百度在线网络技术(北京)有限公司 信息查询方法和装置
WO2022068494A1 (zh) * 2020-09-29 2022-04-07 北京字跳网络技术有限公司 搜索目标内容的方法、装置、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103902682A (zh) * 2014-03-21 2014-07-02 百度在线网络技术(北京)有限公司 信息查询方法和装置
WO2022068494A1 (zh) * 2020-09-29 2022-04-07 北京字跳网络技术有限公司 搜索目标内容的方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN101814073A (zh) 基于文字异形体信息的搜索引擎方法
US8484210B2 (en) Representing markup language document data in a searchable format in a database system
Miles et al. Skos: Simple knowledge organisation for the web
CN100423005C (zh) 索引实体的方法和系统
CN1987853A (zh) 关系型数据库与全文检索相结合的检索方法
CN110222110A (zh) 一种基于etl工具的资源描述框架数据转换存储一体化方法
CN101706790A (zh) 搜索引擎中包含web对象的聚类方法
CN102200974A (zh) 一种用于搜索引擎的统一信息检索智能体系统与方法
CN101894143A (zh) 一种联邦检索及检索结果集成展现方法及系统
CN105426529A (zh) 基于用户搜索意图定位的图像检索方法及系统
CN103123650A (zh) 一种基于整数映射的xml数据库全文索引方法
CN103365914A (zh) 基于搜索引擎的数据库查询系统和方法
CN102855252A (zh) 一种基于需求的数据检索方法和装置
CN103885985A (zh) 微博实时检索方法和装置
US7333994B2 (en) System and method for database having relational node structure
CN106570140A (zh) 确定信息热点的方法及装置
CN108804409A (zh) 一种语义检索方法和装置
CN100397397C (zh) 基于关系数据库的xml数据存储与访问方法
CN101933017B (zh) 文件检索装置、文件检索系统和文件检索方法
CN201421609Y (zh) 基于文字异形体信息的搜索引擎系统
CN102063474A (zh) 基于语义相关的XML关键字top-k查询方法
CN1786956B (zh) 搜索引擎中处理含Unicode四字节编码东亚表意文字异体字转换的方法
Jin et al. Tise: A temporal search engine for web contents
CN103177122A (zh) 一种基于同义词的个人文件搜索方法
CN103886093A (zh) 电子商务搜索引擎同义词的处理方法

Legal Events

Date Code Title Description
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: TRANSMISSION LINE NETWORK TECHNOLOGY (SHANGHAI) CO

Free format text: FORMER OWNER: WEIXU NETWORK TECHNOLOGY (SHANGHAI) CO., LTD.

Effective date: 20140404

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 200003 HUANGPU, SHANGHAI TO: 200241 MINHANG, SHANGHAI

TR01 Transfer of patent right

Effective date of registration: 20140404

Address after: 200241 Shanghai City, Dongchuan Road, No. 555, floor floor, room f, F, F, F, F, No. 02, Minhang District

Patentee after: WEIXU NETWORK TECHNOLOGY (SHANGHAI) CO., LTD.

Address before: 200003 gate 1305, 6 South Suzhou Road, Shanghai

Patentee before: Weixu Network Technology (Shanghai) Co., Ltd.

CX01 Expiry of patent term

Granted publication date: 20100310

CX01 Expiry of patent term