CN102508920A - 一种基于Boosting分类算法的信息检索方法 - Google Patents

一种基于Boosting分类算法的信息检索方法 Download PDF

Info

Publication number
CN102508920A
CN102508920A CN2011103708545A CN201110370854A CN102508920A CN 102508920 A CN102508920 A CN 102508920A CN 2011103708545 A CN2011103708545 A CN 2011103708545A CN 201110370854 A CN201110370854 A CN 201110370854A CN 102508920 A CN102508920 A CN 102508920A
Authority
CN
China
Prior art keywords
document
sentence
search key
boosting
key word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011103708545A
Other languages
English (en)
Other versions
CN102508920B (zh
Inventor
石忠民
徐亚波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Interactive Polytron Technologies Inc
Original Assignee
GUANGZHOU SUMMBA INFORMATION TECHNOLOGY CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GUANGZHOU SUMMBA INFORMATION TECHNOLOGY CO LTD filed Critical GUANGZHOU SUMMBA INFORMATION TECHNOLOGY CO LTD
Priority to CN 201110370854 priority Critical patent/CN102508920B/zh
Publication of CN102508920A publication Critical patent/CN102508920A/zh
Application granted granted Critical
Publication of CN102508920B publication Critical patent/CN102508920B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于Boosting分类算法的信息检索方法,包括:接收初始搜索关键字;进行规范化处理;进行同义词扩展;产生初始文档列表,并赋予每个文档一个初始相关值R1;利用boosting分类算法对每个文档的每个句子进行分类,为每个句子分派一个句子分类值;计算每个文档所有句子的句子分类值的平均值,并将平均值作为该文档的文档分类值R2;按R=R1+i*R2计算文档的最终相关值R,i为权重;根据最终相关值对初始文档列表进行重排序,生成发送给用户的最终文档列表。本方法通过Boosting分类算法对排序后的文档进行了关联性分类,结合机器学习和自然语言处理技术对文档进行了重排序,提高了信息检索的性能。

Description

一种基于Boosting分类算法的信息检索方法
技术领域
本发明涉及计算机信息处理领域技术,尤其涉及一种基于Boosting分类算法的信息检索方法。
背景技术
随着信息技术的不断发展与互联网的普及,人们使用信息检索的频率越来越高,信息检索已经成为互联网应用的最常见、最基本的组成部分。目前,业内为提升信息检索性能而采用的方法是扩展查询,即通过构建越来越庞大的参考数据库,为用户返回规模越来越大的搜索主题集,换言之,现有的信息检索方法是在“全”上面下功夫,用户提交搜索请求后给用户返回越来越全面的搜索主题集,由用户在搜索主题集中寻找自己所需要的信息。然而,信息检索的性能还取决于“准”,即要求返回给用户的搜索主题集能按照相关度排序,相关度越大,就越有可能是用户需要的信息,但是,现有的信息检索方法对相关度的考量都只是停留在对文字内容的匹配上,并没有建立在对文字内容的理解上,造成的结果是将字面相似、意义相差甚远的主题作为相关度高的信息排在搜索主题集的前列,给用户带来困扰。因此,到目前为止,信息检索已经出现了性能屏障,如何突破屏障提高性能已经成为信息检索领域的重要研究课题。
发明内容
针对现有技术的不足,本发明的目的旨在于提供一种提高信息检索性能的基于Boosting分类算法的信息检索方法。
为实现上述目的本发明采用如下技术方案:
一种基于Boosting分类算法的信息检索方法,包括:
步骤a.接收用户提交的初始搜索关键字;
步骤b.对初始搜索关键字进行规范化处理,生成规范搜索关键字;
步骤c.在参考数据库中对规范搜索关键字进行同义词扩展,生成扩展搜索关键字;
步骤d.在索引中对扩展搜索关键字进行检索,产生按相关性排序的初始文档列表,并赋予每个文档一个与其相关性相匹配的初始相关值,相关性越大,初始相关值就越大;
步骤e.利用boosting分类算法对每个文档的每个句子根据其与术语的关联性进行分类,并为每个句子分派一个句子分类值,句子与术语的关联性越大,句子分类值就越大;
步骤f.计算每个文档所有句子的句子分类值的平均值,并将该平均值作为该文档的文档分类值;
步骤g.计算每个文档的最终相关值,计算公式为:R=R1+i*R2,其中R为最终相关值,R1为初始相关值,R2为文档分类值,i为文档分类值的权重;
步骤h.根据最终相关值对初始文档列表进行重排序,生成按最终相关值排序的最终文档列表,并将最终文档列表发送给用户。
其中,所述步骤b中的规范化处理包括分词处理、去除重复内容、去除无关内容。
其中,该方法进一步包括与步骤e同时进行的步骤e’.根据关联性反馈从所有文档中挑选出与扩展搜索关键字不同的补充搜索关键字,并将补充搜索关键字合并到扩展搜索关键字中。
其中,当再次接收到用户提交的相同初始搜索关键字时,所述步骤c中的扩展搜索关键字为合并了补充搜索关键字的扩展搜索关键字。
本发明所阐述的一种基于Boosting分类算法的信息检索方法,其有益效果在于:本方法通过Boosting分类算法对排序后的文档进行了关联性分类,结合机器学习和自然语言处理技术对文档进行了重排序,大大提高了信息检索的性能。
附图说明
图1是本发明一种基于Boosting分类算法的信息检索方法的流程图。
具体实施方式
下面结合附图与具体实施例来对本发明作进一步描述。
请参照图1所示,其显示出了本发明一种基于Boosting分类算法的信息检索方法的工作流程,在步骤a中,接收用户提交的初始搜索关键字。
进行到步骤b,对初始搜索关键字进行规范化处理,生成规范搜索关键字。在本步骤中,规范化处理包括分词处理、去除重复内容、去除无关内容。
进行到步骤c,在参考数据库中对规范搜索关键字进行同义词扩展,生成扩展搜索关键字。
进行到步骤d,在索引中对扩展搜索关键字进行检索,产生按相关性排序的初始文档列表,并赋予每个文档一个与其相关性相匹配的初始相关值,相关性越大,初始相关值就越大。具体而言,本实施例利用Lemur语言建模工具包中的解析查询模块、建立索引模块、结构化查询检索模块来实现本步骤,其中,解析查询模块包含了两种处理不同类型查询的工具:ParseQuery和PareInQueryOp,ParseQuery用于处理用NIST’s Web或TREC格式编写的查询,而ParseInQueryOp用于解析用结构化查询语言编写的结构化查询,这两种查询均会转换为一种Lemur中使用的文档格式:BasicDocStream格式。在多次测试后发现结构化查询的效果较好,因此本实施例使用结构化查询。以下代码描述了一个结构化查询样本:
Figure BDA0000110112600000041
Lemur的建立索引模块提供了四种索引的构建,分别为InvIndex、InvFPIndex、KeyfileIncIndex以及IndriIndex,本实施例使用的是KeyfileIncIndex,它包含了术语的定位信息,并且比InvIndex和InvFPIndex速度快,比IndriIndex占用更少的磁盘空间;在结构化查询检索模块中,结构化查询被转到StructQueryEval模块中。
以上步骤与目前一般的信息检索方法的工作流程相同,对于一般的信息检索方法而言,在初始文档列表产生后就进行结果输出,即将初始文档列表作为结果发送给用户,而本方法还将对初始文档列表进行如下处理:
进行到步骤e,利用boosting分类算法对每个文档的每个句子根据其与术语的关联性进行分类,并为每个句子分派一个句子分类值,句子与术语的关联性越大,句子分类值就越大。具体而言,在本步骤中,Boosting算法会捕获嵌入在文档中的子结构,即句子,将每个句子当作一个标号有序树,并将所有的子树集当作特征集,Boosting算法反复调用弱学习者产生弱假设,而强假设最终由弱假设线性组合而成。
进行到步骤f,计算每个文档所有句子的句子分类值的平均值,并将该平均值作为该文档的文档分类值;
进行到步骤g,计算每个文档的最终相关值,计算公式为:R=R1+i*R2,其中R为最终相关值,R1为初始相关值,R2为文档分类值,i为文档分类值的权重;
进行到步骤h,根据最终相关值对初始文档列表进行重排序,生成按最终相关值排序的最终文档列表,并将最终文档列表发送给用户。
这样,利用Boosting算法对初始文档列表进行了再处理,有效避免了在返回给用户的检索结果中,出现将仅为字面相似的主题作为相关度高的信息排在搜索主题集前列的现象,从而大大提高了信息检索的性能。
为了进一步提高检索性能,本方法还包括与步骤e同时进行的步骤e’.根据关联性反馈从所有文档中挑选出与扩展搜索关键字不同的补充搜索关键字,并将补充搜索关键字合并到扩展搜索关键字中。这样,当有用户再次输入相同的初始搜索关键字进行检索时,通过步骤c得到的扩展搜索关键字将包含了前一次用同一初始搜索关键字检索时所挑选出来的补充搜索关键字,从而提高了检索结果的全面性。
下面对本方法的性能进行实验评估:
从2005个随机检索任务的评估结果中用Lemur提取检索文件的评估结果,每个搜索主题集的前两个主题的检索文件作为测试数据,剩余主题的检索文件作为训练数据,评估函数为i′=argmaxiE(R1+i*R2),下表为任取的一个搜索主题集的评估结果:
Figure BDA0000110112600000061
上表列出了该搜索主题集的#110和#111两个主题在重排前(i=0)和重排后的MAP、P10、P100的性能,从上表可看出,i′在i等于15时收敛,信息检索的性能得到显著提高:MAP在#110主题中从0.0012增加到0.0024,在#111主题中从0.0492增加到0.1602;P10和P100也有同样的情形。
出于篇幅考虑,在此不再罗列此次实验其它搜索主题集的评估结果,但综合所有的评估结果发现,采用boosting算法进行重排序对信息检索的性能有着显著地提高,特别是在重检索文件比例(bpref)小时效果最明显,比如上表中的0.25和0.4356。
以上所述,仅是本发明较佳实施例而已,并非对本发明的技术范围作任何限制,故凡是依据本发明的技术实质对以上实施例所作的任何细微修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (4)

1.一种基于Boosting分类算法的信息检索方法,其特征在于,包括:
步骤a.接收用户提交的初始搜索关键字;
步骤b.对初始搜索关键字进行规范化处理,生成规范搜索关键字;
步骤c.在参考数据库中对规范搜索关键字进行同义词扩展,生成扩展搜索关键字;
步骤d. 在索引中对扩展搜索关键字进行检索,产生按相关性排序的初始文档列表,并赋予每个文档一个与其相关性相匹配的初始相关值,相关性越大,初始相关值就越大;
步骤e.利用boosting分类算法对每个文档的每个句子根据其与术语的关联性进行分类,并为每个句子分派一个句子分类值,句子与术语的关联性越大,句子分类值就越大;
步骤f.计算每个文档所有句子的句子分类值的平均值,并将该平均值作为该文档的文档分类值;
步骤g.计算每个文档的最终相关值,计算公式为:R=R1+i*R2,其中R为最终相关值,R1为初始相关值,R2为文档分类值,i为文档分类值的权重;
步骤h. 根据最终相关值对初始文档列表进行重排序,生成按最终相关值排序的最终文档列表,并将最终文档列表发送给用户。
2.根据权利要求1所述的一种基于Boosting分类算法的信息检索方法,其特征在于,所述步骤b中的规范化处理包括分词处理、去除重复内容、去除无关内容。
3.根据权利要求1所述的一种基于Boosting分类算法的信息检索方法,其特征在于,进一步包括与步骤e同时进行的步骤e’.根据关联性反馈从所有文档中挑选出与扩展搜索关键字不同的补充搜索关键字,并将补充搜索关键字合并到扩展搜索关键字中。
4.根据权利要求3所述的一种基于Boosting分类算法的信息检索方法,其特征在于,当再次接收到用户提交的相同初始搜索关键字时,所述步骤c中的扩展搜索关键字为合并了补充搜索关键字的扩展搜索关键字。
CN 201110370854 2011-11-18 2011-11-18 一种基于Boosting分类算法的信息检索方法 Active CN102508920B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110370854 CN102508920B (zh) 2011-11-18 2011-11-18 一种基于Boosting分类算法的信息检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110370854 CN102508920B (zh) 2011-11-18 2011-11-18 一种基于Boosting分类算法的信息检索方法

Publications (2)

Publication Number Publication Date
CN102508920A true CN102508920A (zh) 2012-06-20
CN102508920B CN102508920B (zh) 2013-03-13

Family

ID=46221006

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110370854 Active CN102508920B (zh) 2011-11-18 2011-11-18 一种基于Boosting分类算法的信息检索方法

Country Status (1)

Country Link
CN (1) CN102508920B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103123649A (zh) * 2013-01-29 2013-05-29 广州一找网络科技有限公司 一种基于微博平台的消息搜索方法及系统
CN105550217A (zh) * 2015-12-03 2016-05-04 腾讯科技(深圳)有限公司 场景音乐搜索方法及场景音乐搜索装置
CN109241499A (zh) * 2018-08-10 2019-01-18 四川译讯信息科技有限公司 一种在线图文转换方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101194255A (zh) * 2004-10-08 2008-06-04 派特拉公司 扩展分类索引以及分类文档的检索
US7440968B1 (en) * 2004-11-30 2008-10-21 Google Inc. Query boosting based on classification
CN101566991A (zh) * 2008-04-25 2009-10-28 张宝永 提高计算机检索专业信息功能的方法及系统
US20110016117A1 (en) * 2009-07-20 2011-01-20 LexisNexis. Fuzzy proximity boosting and influence kernels

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101194255A (zh) * 2004-10-08 2008-06-04 派特拉公司 扩展分类索引以及分类文档的检索
US7440968B1 (en) * 2004-11-30 2008-10-21 Google Inc. Query boosting based on classification
CN101566991A (zh) * 2008-04-25 2009-10-28 张宝永 提高计算机检索专业信息功能的方法及系统
US20110016117A1 (en) * 2009-07-20 2011-01-20 LexisNexis. Fuzzy proximity boosting and influence kernels

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103123649A (zh) * 2013-01-29 2013-05-29 广州一找网络科技有限公司 一种基于微博平台的消息搜索方法及系统
CN103123649B (zh) * 2013-01-29 2016-04-20 广州一找网络科技有限公司 一种基于微博平台的消息搜索方法及系统
CN105550217A (zh) * 2015-12-03 2016-05-04 腾讯科技(深圳)有限公司 场景音乐搜索方法及场景音乐搜索装置
CN109241499A (zh) * 2018-08-10 2019-01-18 四川译讯信息科技有限公司 一种在线图文转换方法
CN109241499B (zh) * 2018-08-10 2023-07-18 四川译讯信息科技有限公司 一种在线图文转换方法

Also Published As

Publication number Publication date
CN102508920B (zh) 2013-03-13

Similar Documents

Publication Publication Date Title
CN109800284B (zh) 一种面向任务的非结构化信息智能问答系统构建方法
US9069857B2 (en) Per-document index for semantic searching
CN111104794A (zh) 一种基于主题词的文本相似度匹配方法
CN101694670B (zh) 一种基于公共子串的中文Web文档在线聚类方法
Ni et al. Short text clustering by finding core terms
US20070271226A1 (en) Annotation by Search
CN111428047B (zh) 一种基于ucl语义标引的知识图谱构建方法及装置
CN103123653A (zh) 基于贝叶斯分类学习的搜索引擎检索排序方法
CN102456016B (zh) 一种对搜索结果进行排序的方法及装置
CN106708929B (zh) 视频节目的搜索方法和装置
CN103617174A (zh) 一种基于云计算的分布式搜索方法
CN111026710A (zh) 一种数据集的检索方法及系统
CN103823906A (zh) 一种基于微博数据的多维度检索排序优化算法和工具
WO2012159558A1 (zh) 基于语意识别的自然语言处理方法、装置和系统
CN104778201A (zh) 一种基于多查询结果合并的在先技术检索方法
CN115563313A (zh) 基于知识图谱的文献书籍语义检索系统
CN105404677A (zh) 一种基于树形结构的检索方法
CN102508920B (zh) 一种基于Boosting分类算法的信息检索方法
CN102915381A (zh) 基于多维语义的可视化网络检索呈现系统及呈现控制方法
CN110728135A (zh) 文本主题标引方法、装置、电子设备及计算机存储介质
CN102609455B (zh) 一种实现汉语同音字检索的方法
CN103324707A (zh) 一种基于半监督聚类的查询扩展方法
JP2001184358A (ja) カテゴリ因子による情報検索装置,情報検索方法およびそのプログラム記録媒体
CN105426490A (zh) 一种基于树形结构的索引方法
CN103886093A (zh) 电子商务搜索引擎同义词的处理方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: GUANGZHOU ZHISUO INFORMATION TECHNOLOGY CO., LTD.

Free format text: FORMER OWNER: GUANGZHOU SUMMBA INFORMATION TECHNOLOGY CO.,LTD.

Effective date: 20150826

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150826

Address after: 2304, room 207, No. 510000, Whampoa Avenue, Tianhe District, Guangdong, Guangzhou province (for office use only)

Patentee after: Guangzhou Chile Mdt InfoTech Ltd

Address before: 510663 innovation building, 182 science Avenue, Luogang District Science City, Guangdong, Guangzhou C1-1101

Patentee before: Guangzhou Summba Information Technology Co.,Ltd.

C56 Change in the name or address of the patentee
CP02 Change in the address of a patent holder

Address after: 510000, four, room 702, 100 West Whampoa Road, Tianhe District, Guangdong, Guangzhou

Patentee after: Guangzhou Chile Mdt InfoTech Ltd

Address before: 2304, room 207, No. 510000, Whampoa Avenue, Tianhe District, Guangdong, Guangzhou province (for office use only)

Patentee before: Guangzhou Chile Mdt InfoTech Ltd

TR01 Transfer of patent right

Effective date of registration: 20181114

Address after: 510623 Room 1501, 120 Huangpu Avenue West, Tianhe District, Guangzhou City, Guangdong Province

Patentee after: Interactive Polytron Technologies Inc

Address before: 510000 Room 702, Room 4, No. 100 West Huangpu Avenue, Tianhe District, Guangzhou City, Guangdong Province

Patentee before: Guangzhou Chile Mdt InfoTech Ltd

TR01 Transfer of patent right