CN102103610A - 一种检索信息、信息处理的方法及装置 - Google Patents

一种检索信息、信息处理的方法及装置 Download PDF

Info

Publication number
CN102103610A
CN102103610A CN2009102429947A CN200910242994A CN102103610A CN 102103610 A CN102103610 A CN 102103610A CN 2009102429947 A CN2009102429947 A CN 2009102429947A CN 200910242994 A CN200910242994 A CN 200910242994A CN 102103610 A CN102103610 A CN 102103610A
Authority
CN
China
Prior art keywords
entry
attribute
chinese character
attribute number
hanzi
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2009102429947A
Other languages
English (en)
Inventor
闫进兵
徐剑波
张�杰
赵东岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Peking University Founder Group Co Ltd
Beijing Founder Apabi Technology Co Ltd
Original Assignee
Peking University
Peking University Founder Group Co Ltd
Beijing Founder Apabi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University, Peking University Founder Group Co Ltd, Beijing Founder Apabi Technology Co Ltd filed Critical Peking University
Priority to CN2009102429947A priority Critical patent/CN102103610A/zh
Publication of CN102103610A publication Critical patent/CN102103610A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种检索信息、信息处理的方法,用于提高检索信息的效率,以及提高信息排序的效率。所述检索信息的方法包括:将输入的两个关键词与索引项中的词条进行匹配;其中索引项中的词条是排序后的词条;在索引项中检索匹配成功的两个词条之间的所有词条。所述信息处理的方法包括:获得包含属性编号与汉字的对应关系;该对应关系是根据汉字属性与属性编号的对应关系及汉字属性与汉字的对应关系获得的;其中属性编号是对汉字属性进行排序并对排序后的每个汉字属性进行顺序编号得到的;获得索引项的每个词条中的汉字对应的属性编号;根据获得的属性编号对索引项中的词条进行排序。本发明还公开了用于实现所述方法的装置。

Description

一种检索信息、信息处理的方法及装置
技术领域
本发明涉及计算机及信息处理领域,特别是涉及检索信息、信息处理的方法及装置。
背景技术
全文检索是一种将文件中所有文本与检索项匹配的文字资料检索方法。全文检索中需要大量用到排序操作,如对分词的词表进行排序后建立倒排索引以便快速查找,对结果集进行排序等等。而比较是排序的基础。在对文本内容进行比较时,常见的做法是按字符内码(如GB2312、Unicode等内码格式)进行比较,来确定其顺序。字符内码是按照英文和数字等的大小或先后进行排序,利用该字符内码可实现快速比较。对汉字来说,只规定了一段内码区间用于汉字,但这段内码的顺序往往没有意义。若希望将汉字按照拼音/笔画顺序排序,则现有技术通过应用程序接口(API)函数查找每个汉字的拼音/笔画,再对所有汉字的拼音/笔画进行比较和排序。该方案的执行效率较低。
另外,在信息检索中,例如希望检索到按拼音顺序姓安到姓李的所有作者的文章,则需要列举出从姓安到姓李的所有的姓,然后再根据这所有姓的内码进行检索,该方式的检索效率较低。
发明内容
本发明实施例提供一种检索信息的方法及装置,用于提高检索信息的效率;还提供一种信息处理的方法及装置,用于提高信息排序的效率。
一种检索信息的方法,包括以下步骤:
将输入的两个关键词与索引项中的词条进行匹配;其中索引项中的词条是根据词条对应的属性编号进行排序后的词条;
在索引项中检索匹配成功的两个词条之间的所有词条。
一种信息处理的方法,包括以下步骤:
获得包含属性编号与汉字的对应关系;该对应关系是根据汉字属性与属性编号的对应关系及汉字属性与汉字的对应关系获得的;其中属性编号是对汉字属性进行排序并对排序后的每个汉字属性进行顺序编号得到的;
获得索引项的每个词条中的汉字对应的属性编号;
根据获得的属性编号对索引项中的词条进行排序。
一种检索装置,包括:
匹配模块,用于将输入的两个关键词与索引项中的词条进行匹配;其中索引项中的词条是根据词条对应的属性编号进行排序后的词条;
检索模块,用于在索引项中检索匹配成功的两个词条之间的所有词条。
一种用于信息处理的装置,包括:
关系模块,用于获得包含属性编号与汉字的对应关系;该对应关系是根据汉字属性与属性编号的对应关系及汉字属性与汉字的对应关系获得的;其中属性编号是对汉字属性进行排序并对排序后的每个汉字属性进行顺序编号得到的;
查询模块,用于获得索引项的每个词条中的汉字对应的属性编号;
排序模块,用于根据获得的属性编号对索引项中的词条进行排序。
一种获得汉字编码表的方法,包括以下步骤:
对汉字属性进行排序,并对排序后的每个汉字属性进行顺序编号,得到属性编号;
确定汉字属性对应的汉字;
根据汉字属性与属性编号的对应关系及汉字属性与汉字的对应关系,获得包含属性编号与汉字的对应关系的汉字编码表。
本发明实施例对汉字的属性进行排序,并顺序编号,然后根据该编号对索引项中的词条进行排序,提高了对词条的排序效率。并且在对排序后的词条进行检索时,可提高检索的效率。
附图说明
图1为本发明实施例中获得汉字编码表的主要方法流程图;
图2为本发明实施例中获得汉字编码表的详细方法流程图;
图3为本发明实施例中信息处理的主要方法流程图;
图4为本发明实施例中信息处理的详细方法流程图;
图5为本发明实施例中检索信息的方法流程图;
图6为本发明实施例中排序装置的结构图;
图7为本发明实施例中检索装置的结构图。
具体实施方式
本发明实施例对汉字的属性进行排序,并顺序编号,然后根据该编号对索引项中的词条进行排序,提高了对词条的排序效率。并且在对排序后的词条进行检索时,可提高检索的效率。
本实施例排序和检索的基础都在于对属性进行顺序编号,下面首先对该编号过程进行介绍。
参见图1,本实施例中获得汉字编码表的主要方法流程如下:
步骤101:对汉字属性进行排序,并对排序后的每个汉字属性进行顺序编号,得到属性编号。本实施例中,在对汉字进行比较、排序和检索等过程中,均可用属性编号代替汉字的内码来进行各项操作。
步骤102:确定汉字属性对应的汉字。
步骤103:根据汉字属性与属性编号的对应关系及汉字属性与汉字的对应关系,获得包含属性编号与汉字的对应关系的汉字编码表。其中,汉字可以由其内码表示,即获得包含属性编号与内码的对应关系的汉字编码表。
本实施例中汉字属性包括拼音、笔画或笔画数等。索引项可以相当于一个列表,词条为索引项中的内容,例如词条为作者姓名,索引项为包含了数据库中所有作者姓名的列表;或者,词条为书名,索引项为包含了数据库中所有书名的列表。
以拼音为例,参见图2所示的获得汉字编码表的详细方法流程:
步骤201:对所有拼音进行排序。本实施例中按照字母a到z的顺序对所有拼音进行排序。
步骤202:对排序后的拼音进行顺序编号,得到属性编号。较佳的,该属性编号的取值范围与汉字内码的范围相同,这样便于汉字与其它字符内码进行比较、排序和检索。其它字符的内码可直接作为其属性编号。本实施例中的属性编号的位数固定,较小标号的高位由0填充。例如属性编号的位数为5位,排序后的第1个拼音的属性编号为00000,或从1开始编号,则为00001。
步骤203:为每个汉字确定拼音,并进一步确定属性编号。本实施例中拼音不区分音调,拼音相同的多个汉字可以对应相同的属性编号;或者属性编号的前n位标识拼音,后m位标识相同拼音的不同汉字,这样属性编号可唯一标识一个汉字;属性编号还可以有其它方式,此处不一一列举。
步骤204:获得包含汉字的内码与属性编号的对应关系的汉字编码表。尤其是排序后的属性编号与内码的对应关系。该汉字编码表可以以数组或列表等数据结构存储。
如果采用笔画,则可对所有笔画进行排序,再对排序后的笔画进行顺序编号,得到属性编号,然后建立汉字的内码与属性编号的对应关系。如果采用笔画数,由于笔画数本身就是数字,并且有顺序,可以直接将该数字作为属性编号,然后建立汉字的内码与属性编号的对应关系。
有了汉字编码表,有利于对词条进行排序和检索。下面分别介绍排序和检索的实现过程。
参见图3,本实施例中信息处理的主要方法流程如下:
步骤301:获得包含属性编号与汉字的对应关系。该对应关系是根据汉字属性与属性编号的对应关系及汉字属性与汉字的对应关系获得的。其中属性编号是对汉字属性进行排序并对排序后的每个汉字属性进行顺序编号得到的。该步骤相当于获得汉字编码表的步骤,如果已有汉字编码表,则直接获得该表即可。
步骤302:获得索引项的每个词条中的汉字对应的属性编号。
步骤303:根据获得的属性编号对索引项中的词条进行排序。
参见图4,本实施例中信息处理的详细方法流程如下:
步骤401:获得包含属性编号与汉字的对应关系。
步骤402:获得索引项的每个词条中的每个字符对应的属性编号。其中汉字的属性编号可通过步骤401中的对应关系获得,汉字以外的字符的属性编号采用其内码。所述属性编号的取值范围在汉字对应的内码的取值范围内。
步骤403:将每个词条中多个字符对应的属性编号进行拼接,得到该词条对应的属性编号。如果词条只包含一个字符,则可跳过该步骤。
步骤404:根据拼接后的属性编号对索引项中的词条进行排序。在排序的比较过程中,本实施例对各属性编号从高位开始比较。例如,两个属性编号为123和13,则这两个属性编号的最高位均为1,该位的比较结果一致,然后对次高位进行比较,结果3大于2,则如果按从小到大进行排序,属性编号123排在13的前面。
本实施例在需要根据汉字属性进行排序时,效果较好。例如,在排版印刷中输出作者或者人名登记时,为了表示公平,经常是姓名不分先后,此时就需要按照拼音或笔画顺序得到需要的姓名。如果按照现有技术采用内码的比较方式,需要确定汉字内码对应的拼音,再确定拼音中的每个字母对应的内码,然后再进行比较和排序。而本实施例确定汉字对应的属性编号后,直接根据属性编号对汉字进行排序即可,其排序的效率明显优于现有技术。
参见图5,本实施例中检索信息的主要方法流程如下:
步骤501:将输入的两个关键词与索引项中的词条进行匹配。其中索引项中的词条是采用权利要求1所述的方法进行排序后的词条。
步骤502:在索引项中检索匹配成功的两个词条之间的所有词条。本实施例中匹配成功的两个词条之间的所有词条包括匹配成功的两个词条。
本实施例中输入的关键词与词条进行匹配时采用模糊匹配,词条的前n个字符与关键词完全匹配,则确定匹配成功,否则匹配失败。其中n为关键词的字符长度。
用户可以只输入两个关键词,则可直接将这两个关键词与词条进行匹配。用户也可以输入一句话,然后对该句话进行分词和解析,解析出两个关键词后再与词条进行匹配。
当输入的关键词大于两个时,根据输入的n个关键词对应的属性编号对n个关键词进行排序;其中n为不小于3的整数。将排序后的n个关键词中每相邻两个关键词分为一组。针对每组中的两个关键词,将该两个关键词与索引项中的词条进行匹配,并在索引项中检索匹配成功的两个词条之间的所有词条。
本实施例适用于根据汉字属性进行范围检索。例如,需要检索姓李到姓张的所有作者。采用现有技术的内码检索方式时,如果现有技术已经将内码按照拼音顺序进行了排序,内码的大小顺序是被打乱的,则需要判断将李和张的内码分别与排序后的内码一一比较,才能确定李和张的位置,实现过程较繁琐。而本实施例将李和张作为两个关键词与作者词条进行匹配,便可以检索出姓李到姓张的所有作者,其检索效率明显优于现有技术。
以上介绍了信息排序和检索的方法实现流程,该过程可由排序装置和检索装置实现,下面分别对两个装置的内部结构和功能进行介绍。
参见图6,本实施例中排序装置包括:关系模块601、查询模块602和排序模块603。
关系模块601用于获得包含属性编号与汉字的对应关系。该对应关系是根据汉字属性与属性编号的对应关系及汉字属性与汉字的对应关系获得的。其中属性编号是对汉字属性进行排序并对排序后的每个汉字属性进行顺序编号得到的。所述属性编号在汉字对应的内码范围内。
查询模块602用于获得索引项的每个词条中的汉字对应的属性编号。当词条包含汉字以外的字符时,汉字以外的字符对应的属性编号为该字符的内码。查询模块602获得索引项的每个词条中的字符对应的属性编号。当词条包括多个汉字时,查询模块602获得索引项的每个词条中的每个汉字对应的属性编号,并将每个词条中多个汉字对应的属性编号进行拼接,得到该词条对应的属性编号。
排序模块603用于根据获得的属性编号对索引项中的词条进行排序。
参见图7,本实施例中检索装置包括:匹配模块701和检索模块702。
匹配模块701用于将输入的两个关键词与索引项中的词条进行匹配,其中索引项中的词条是根据词条对应的属性编号进行排序后的词条。当输入的关键词大于两个时,匹配模块701还用于根据输入的n个关键词对应的属性编号对n个关键词进行排序;其中n为不小于3的整数;将排序后的n个关键词中每相邻两个关键词分为一组;针对每组中的两个关键词,将该两个关键词与索引项中的词条进行匹配。
检索模块702用于在索引项中检索匹配成功的两个词条和该两个词条之间的所有词条。
检索装置还可以包括排序装置中的所有模块。
用于实现本发明实施例的软件可以存储于软盘、硬盘、光盘和闪存等存储介质。
本发明实施例对汉字的属性进行排序,并顺序编号,然后根据该编号对索引项中的词条进行排序,提高了对词条的排序效率。并且在对排序后的词条进行检索时,可提高检索的效率。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若对本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (17)

1.一种检索信息的方法,其特征在于,包括以下步骤:
将输入的两个关键词与索引项中的词条进行匹配,其中索引项中的词条是根据词条对应的属性编号进行排序后的词条;
在索引项中检索匹配成功的两个词条之间的所有词条。
2.如权利要求1所述的方法,其特征在于,根据词条对应的属性编号进行排序的步骤包括:
获得包含属性编号与汉字的对应关系,该对应关系是根据汉字属性与属性编号的对应关系及汉字属性与汉字的对应关系获得的,其中属性编号是对汉字属性进行排序并对排序后的每个汉字属性进行顺序编号得到的;
获得索引项的每个词条中的汉字对应的属性编号;
根据获得的属性编号对索引项中的词条进行排序。
3.如权利要求2所述的方法,其特征在于,所述属性编号的取值范围在汉字对应的内码的取值范围内。
4.如权利要求3所述的方法,其特征在于,当词条包含汉字以外的字符时,汉字以外的字符对应的属性编号为该字符的内码;
获得索引项的每个词条中的汉字对应的属性编号的步骤包括:获得索引项的每个词条中的字符对应的属性编号。
5.如权利要求2所述的方法,其特征在于,汉字属性包括拼音、笔画或笔画数。
6.如权利要求2所述的方法,其特征在于,当词条包括多个汉字时,获得索引项的每个词条中的汉字对应的属性编号的步骤包括:获得索引项的每个词条中的每个汉字对应的属性编号,并将每个词条中多个汉字对应的属性编号进行拼接,得到该词条对应的属性编号。
7.如权利要求1所述的方法,其特征在于,当输入的关键词大于两个时,将输入的两个关键词与索引项中的词条进行匹配的步骤包括:
根据输入的n个关键词对应的属性编号对n个关键词进行排序;其中n为不小于3的整数;
将排序后的n个关键词中每相邻两个关键词分为一组;
针对每组中的两个关键词,将该两个关键词与索引项中的词条进行匹配。
8.一种信息处理的方法,其特征在于,包括以下步骤:
获得包含属性编号与汉字的对应关系,该对应关系是根据汉字属性与属性编号的对应关系及汉字属性与汉字的对应关系获得的,其中属性编号是对汉字属性进行排序并对排序后的每个汉字属性进行顺序编号得到的;
获得索引项的每个词条中的汉字对应的属性编号;
根据获得的属性编号对索引项中的词条进行排序。
9.一种检索装置,其特征在于,包括:
匹配模块,用于将输入的两个关键词与索引项中的词条进行匹配,其中索引项中的词条是根据词条对应的属性编号进行排序后的词条;
检索模块,用于在索引项中检索匹配成功的两个词条之间的所有词条。
10.如权利要求9所述的装置,其特征在于,还包括:
关系模块,用于获得包含属性编号与汉字的对应关系,该对应关系是根据汉字属性与属性编号的对应关系及汉字属性与汉字的对应关系获得的,其中属性编号是对汉字属性进行排序并对排序后的每个汉字属性进行顺序编号得到的;
查询模块,用于获得索引项的每个词条中的汉字对应的属性编号;
排序模块,用于根据获得的属性编号对索引项中的词条进行排序。
11.如权利要求9所述的装置,其特征在于,所述属性编号在汉字对应的内码范围内。
12.如权利要求11所述的装置,其特征在于,当词条包含汉字以外的字符时,汉字以外的字符对应的属性编号为该字符的内码;
查询模块获得索引项的每个词条中的字符对应的属性编号。
13.如权利要求9所述的装置,其特征在于,汉字属性包括拼音、笔画或笔画数。
14.如权利要求9所述的装置,其特征在于,查询模块在词条包括多个汉字时,获得索引项的每个词条中的每个汉字对应的属性编号,并将每个词条中多个汉字对应的属性编号进行拼接,得到该词条对应的属性编号。
15.如权利要求9所述的装置,其特征在于,当输入的关键词大于两个时,匹配模块还用于根据输入的n个关键词对应的属性编号对n个关键词进行排序;其中n为不小于3的整数;将排序后的n个关键词中每相邻两个关键词分为一组;针对每组中的两个关键词,将该两个关键词与索引项中的词条进行匹配。
16.一种用于信息处理的装置,其特征在于,包括:
关系模块,用于获得包含属性编号与汉字的对应关系,该对应关系是根据汉字属性与属性编号的对应关系及汉字属性与汉字的对应关系获得的,其中属性编号是对汉字属性进行排序并对排序后的每个汉字属性进行顺序编号得到的;
查询模块,用于获得索引项的每个词条中的汉字对应的属性编号;
排序模块,用于根据获得的属性编号对索引项中的词条进行排序。
17.一种获得汉字编码表的方法,其特征在于,包括以下步骤:
对汉字属性进行排序,并对排序后的每个汉字属性进行顺序编号,得到属性编号;
确定汉字属性对应的汉字;
根据汉字属性与属性编号的对应关系及汉字属性与汉字的对应关系,获得包含属性编号与汉字的对应关系的汉字编码表。
CN2009102429947A 2009-12-21 2009-12-21 一种检索信息、信息处理的方法及装置 Pending CN102103610A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009102429947A CN102103610A (zh) 2009-12-21 2009-12-21 一种检索信息、信息处理的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009102429947A CN102103610A (zh) 2009-12-21 2009-12-21 一种检索信息、信息处理的方法及装置

Publications (1)

Publication Number Publication Date
CN102103610A true CN102103610A (zh) 2011-06-22

Family

ID=44156387

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009102429947A Pending CN102103610A (zh) 2009-12-21 2009-12-21 一种检索信息、信息处理的方法及装置

Country Status (1)

Country Link
CN (1) CN102103610A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103034718A (zh) * 2012-12-12 2013-04-10 北京博雅立方科技有限公司 一种目标数据排序方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103034718A (zh) * 2012-12-12 2013-04-10 北京博雅立方科技有限公司 一种目标数据排序方法及装置
CN103034718B (zh) * 2012-12-12 2016-07-06 北京博雅立方科技有限公司 一种目标数据排序方法及装置

Similar Documents

Publication Publication Date Title
US8473501B2 (en) Methods, computer systems, software and storage media for handling many data elements for search and annotation
TWI480746B (zh) 使用經結構化之資料儲存器達到較快速全文檢索
CN101388012B (zh) 带有易混淆音识别的拼音检查系统和方法
US8775433B2 (en) Self-indexing data structure
US7277029B2 (en) Using language models to expand wildcards
US20060031207A1 (en) Content search in complex language, such as Japanese
CN1008016B (zh) 输入处理系统
CN105045852A (zh) 一种教学资源的全文搜索引擎系统
CN101556508A (zh) 一种输入法中候选词的生成方法、装置、系统及设备
CN101751430A (zh) 电子词典模糊检索方法
CN102789464A (zh) 基于语意识别的自然语言处理方法、装置和系统
CN101894143A (zh) 一种联邦检索及检索结果集成展现方法及系统
CN109885641B (zh) 一种数据库中文全文检索的方法及系统
KR20200018469A (ko) 데이터 압축 및 분석을 위한 컴퓨터화된 방법
CN1256688C (zh) 用于中文文本处理系统的中文分词方法
CN1464430A (zh) 区分亚洲语言写入系统中组织名称的系统
Soori et al. Text similarity based on data compression in Arabic
Ohta et al. CRF-based bibliography extraction from reference strings focusing on various token granularities
Matsuoka et al. Examination of effective features for CRF-based bibliography extraction from reference strings
CN102103610A (zh) 一种检索信息、信息处理的方法及装置
CN110245215B (zh) 一种文本检索方法和装置
CN101436205A (zh) 通过释义查询单字的方法与装置
CN102207947A (zh) 一种直接引语素材库的生成方法
CN112818645A (zh) 一种化学信息抽取方法、装置、设备及存储介质
EP1605371A1 (en) Content search in complex language, such as japanese

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20110622