CN106202234B - 基于样本对分类器可纠正的交互式信息检索方法 - Google Patents
基于样本对分类器可纠正的交互式信息检索方法 Download PDFInfo
- Publication number
- CN106202234B CN106202234B CN201610495578.8A CN201610495578A CN106202234B CN 106202234 B CN106202234 B CN 106202234B CN 201610495578 A CN201610495578 A CN 201610495578A CN 106202234 B CN106202234 B CN 106202234B
- Authority
- CN
- China
- Prior art keywords
- classifier
- document
- documents
- user
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于样本对分类器可纠正的交互式信息检索方法,在初始检索信息较少,且人机交互次数受限的情况下,本发明通过评价样本对分类器纠错能力来选择高价值样本向用户提问,某些代表性文档是否是用户检索的目标文档,从而逐步理解用户检索需求,从而确保了检索精度。并通过评价样本对分类器的纠正能力,利用交互式学习策略从未标注文本库中选择高价值的样本,从而在较短时间内获得高精度的文本分类器,进一步地提高信息检索精度。并采用基于词频的弱分类器和增强学习策略同本发明提出的样本价值评价方法结合,形成了计算复杂度较小的、适用于在线信息检索的主动学习方法。
Description
技术领域
本发明涉及一种搜索的处理方法,具体涉及一种基于样本对分类器可纠正的交互式信息检索方法。
背景技术
随着在一些网络上用户可使用众多网页和媒体信息的出现,需要研究者已经将目光转向如何为用户提供更快捷、方便的方法来获得来自网络的信息,如现有的检索系统中,一般都是:用户输入查询,搜索引擎返回一个或多个与该查询相关的链接,而该链接不一定是用户所需要的,或者与用户的查询不相关的,用户需要重新输入查询,因此用户体验效果不佳,查询效率低。目前的检索技术中,每个搜索引擎都具有独特的功能,而每个搜索引擎都对应一定的搜索条件,很多引擎只能对少量的词进行查询,这样会造成搜索范围较大,搜索的结果不够准确,不能使用户得到真正需要的信息,并且由于查询结果往往存在很多的冗余,造成界面屏幕不够空间显示,从而影响搜索进程。
此外,当前的主要信息检索技术是让用户尽可能清晰的描述检索目标,从而提高检索精度。但是由于计算机处理信息和人脑处理信息的差异性,以及自然语言理解技术的限制,用户很难利用计算机系统提供的方式一次性清晰的描述自己的检索需求。目前的主动学习策略主要是根据样本的不确定性评价样本对于分类器形成的价值。这种方式在分类器一旦形成对检索目标的错误认知情况下,在交互次数和训练集大小受限时难以纠正错误,而信息检索中,由于初始检索条件提供的信息较少,分类器在学习的初期很容易形成对检索目标的错误认识。此外,现有主动学习算法的计算复杂度也较高,不适用于在线检索。
发明内容
1、要解决的问题
本发明要解决的技术问题是提供一种基于样本对分类器可纠正的交互式信息检索方法,用以解决信息检索中检索目标描述困难、主动学习策略纠错能力不强和计算复杂度过高等现有技术中存在的问题。
2、技术方案
为解决上述技术问题,本发明所采取的技术方案是:
所述的一种基于样本对分类器可纠正的交互式信息检索方法,其包括如下步骤:
S1用户提交查询信息,搜索引擎对用户输入的查询信息进行检索后,根据检索到的信息,通过查询结果的链接信息获取相关文档,记为顶层文档;
S2计算用户输入的查询信息与所述顶层文档中每篇文档的相关度,所述相关度根据用户输入查询信息的词项在所述顶层文档中的出现频率计算,取相关度较高的前m篇作为用户检索的候选集;
S3从所述候选集中随机抽取n篇文档交给用户判断是否是希望获取的文档,把用户标注后的这n篇文档放入训练集T中;
S4使用向量空间模型(Vector Space Model)对所述训练集T进行表示,用AdaBoost.MH with real-valued predictions算法在候选集T上进行训练,并产生分类器;
S5采用步骤S4所述的分类器对所述候选集T中的用户未标注文档进行分类;
其中,α、β为经验系数;po表示文档判为正例后可能对分类器的贡献度;ne表示文档被判为反例后可能对分类器的贡献度;Score为分类器对当前文档和用户检索目标相关度的量化输出的得分,分值越高,则该文档属于正类可能性越大,分值越低,则该文档不属于正类的可能性越大;Max和Min分别为分类器给所述未标注文档得出的最高分值和最低分值;(Max-Score)/(Max-Min)体现了文档样本在当前分类器判断下不属于检索目标的可能性;(Score-Min)/(Max-Min)则相应地体现了文档样本在当前分类器判断下不属于正类的可能性;
根据采用的向量空间模型(Vector Space Model)文档表示方法和增强学习策略以及计算复杂度较低的基于关键词词频信息的弱分类器,确定样本对分类器的纠正力度系数的计算公式为:
其中,c(w)表示分类器给出的词项w和目标查询文档的相关度(即分类器对样本的得分),W为当前文档d中所含有关键词项集合;令D为全部文档集合,则d∈D为当前样本文档,为已标注文档集;令|Tr|表示已标注文档总数,#Tr(w)为在已标注文档中含词项w的文档数,#(w,d)为词项w在当前文档d中出现频次,则idf函数计算公式为tf-idf公式为tfidf(w,d)=#(w,d)·idf(w);
S7根据所述贡献度评价公式选择贡献度最高的k篇文档请用户标注,并放入所述训练集T中;
S8如果未达到迭代次数限制则返回步骤S3,否则向下进行;
S9利用步骤S4所述分类器对候选集T中的剩余文档进行排序;
S10将步骤S9所述分类器产生的排序结果按照相关度降序向用户提交排序靠前的文档。
优选地,步骤S1中在用户提交查询信息后,删除查询信息中频率小于3的词和无意义的虚词再进行检索。
优选地,步骤S8中迭代次数限制为5次。
3、有益效果
相比于现有技术,本发明的有益效果为:
(1)本发明所述检索方法中用户不需要直接清晰的描述检索目标,而是可以通过回答计算机系统的问题,即某些代表性文档是否是自己的检索目标,从而让计算机系统理解自己的检索意图;
(2)本发明在初始检索信息较少,且人机交互次数受限的情况下,本发明通过评价样本对分类器纠错能力来选择高价值样本向用户提问,某些代表性文档是否是用户检索的目标文档,从而逐步理解用户检索需求,从而确保了检索精度;
(3)通过评价样本对分类器的纠正能力,利用交互式学习策略从未标注文本库中选择高价值的样本,从而在较短时间内获得高精度的文本分类器,进而提高信息检索精度;
(4)本发明采用基于词频的弱分类器和增强学习策略同本发明提出的样本价值评价方法结合,形成了计算复杂度较小的、适用于在线信息检索的主动学习方法。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1是本发明所述的一种基于样本对分类器可纠正的交互式信息检索方法与随机训练集和基于不确定性的主动学习方法对10类文档10次平均检索精度对比图(纵坐标为各类别10次检索的平均精度,横坐标是作为检索目标的10类文档);
图2是本发明所述的一种基于样本对分类器可纠正的交互式信息检索方法与随机训练集和基于不确定性的主动学习方法对10类文档10次检索精度均方差对比图(纵坐标为各类别10次检索精度的均方差,横坐标是作为检索目标的10类文档)。
具体实施方式
下面结合具体实施例对本发明进一步进行描述。
本发明具体涉及一种实验用可编程路由平台及实现方法,用于计算机网络类课程的教学实验,让学生可以通过自行设计协议和路由算法,并观察路由过程,从而加深对计算机网络工作原理的理解。
一种基于样本对分类器可纠正的交互式信息检索方法,其包括如下步骤:
S1用户提交查询信息,删除查询信息中频率小于3的词和无意义的虚词,然后搜索引擎对用户输入的查询信息进行检索后,根据检索到的信息,通过查询结果的链接信息获取相关文档,记为顶层文档;
S2计算用户输入的查询信息与所述顶层文档中每篇文档的相关度,所述相关度根据用户输入查询信息的词项在所述顶层文档中的出现频率计算,取相关度较高的前m篇作为用户检索的候选集;
S3从所述候选集中随机抽取n篇文档交给用户判断是否是希望获取的文档,把用户标注后的这n篇文档放入训练集T中;
S4使用向量空间模型(Vector Space Model)对所述训练集T进行表示,用AdaBoost.MH with real-valued predictions算法在候选集T上进行训练,并产生分类器;
S5采用步骤S4所述的分类器对所述候选集T中的用户未标注文档进行分类;
其中,α、β为经验系数;po表示文档判为正例后可能对分类器的贡献度;ne表示文档被判为反例后可能对分类器的贡献度;Score为分类器对当前文档和用户检索目标相关度的量化输出的得分,分值越高,则该文档属于正类可能性越大,分值越低,则该文档不属于正类的可能性越大;Max和Min分别为分类器给所述未标注文档得出的最高分值和最低分值;(Max-Score)/(Max-Min)体现了文档样本在当前分类器判断下不属于检索目标的可能性;(Score-Min)/(Max-Min)则相应地体现了文档样本在当前分类器判断下不属于正类的可能性;
根据采用的向量空间模型(Vector Space Model)文档表示方法和增强学习策略以及计算复杂度较低的基于关键词词频信息的弱分类器,确定样本对分类器的纠正力度系数的计算公式为:
其中,c(w)表示分类器给出的词项w和目标查询文档的相关度(即分类器对样本的得分),W为当前文档d中所含有关键词项集合;令D为全部文档集合,则d∈D为当前样本文档,为已标注文档集;令|Tr|表示已标注文档总数,#Tr(w)为在已标注文档中含词项w的文档数,#(w,d)为词项w在当前文档d中出现频次,则idf函数计算公式为tf-idf公式为tfidf(w,d)=#(w,d)·idf(w);
S7根据所述贡献度评价公式选择贡献度最高的k篇文档请用户标注,并放入所述训练集T中;
S8如果未达到5次的迭代次数限制则返回步骤S3,否则向下进行;
S9利用步骤S4所述分类器对候选集T中的剩余文档进行排序;
S10将步骤S9所述分类器产生的排序结果按照相关度降序向用户提交排序靠前的文档。
验证实验:
(1)在实验中使用Reuters21578文档集的一个子集,通过把其中某类文档作为检索目标来考察本发明的检索精度;
(2)对比检索方法分别为,其一是一次性随机抽取10%的文档作为训练集;其二是基于主动学习的交互式检索,它首先随机抽取5%的文档,然后每次提交1%的未标注文档给“用户”标注,一共迭代5次。文档集中共有10个类别,分别为:”bop”:105篇,”gas”(105篇),”soybean”(111篇),”gold”(124篇),”oil”(124篇),”gnp”(136篇),”coffee”(139篇),”sugar”(162篇),”oilseed”(171篇),”supply”(174篇);
(3)实验中,每次将一个类别假设为“用户”要检索的内容;对每个类别重复检索10次以观察不同算法在交互式信息检索中的表现。每类文档的10次检索的平均精度如图1所示。实验中,本发明提出的基于分类器纠正能力的主动学习方法的检索精度总体上优于随机训练集和基于不确定性的主动学习方法。其中,两类主动学习策略相对于随机训练集的学习方法优势较为明显。
为了进一步分析主动学习策略选择高价值样本的能力,实验计算了各类文档在10次模拟检索中的精度的均方差。均方差高表示算法受初始训练集的影响较大,而均方差低则表明算法可以有针对性的寻找需要的样本,受初始训练集影响较低,故而检索精度抖动较小。3个算法的性能抖动情况如图2所示。从图2可以看出,本发明提出的主动学习算法多数情况下抖动较小,受初始训练集影响的概率较低,在交互次数和训练集空间受限的情况下仍然有较好的稳定性。因此适用于交互次数受限、且对服务实时性有一定要求的基于信息检索的网络业务。
基于上述,本发明所述检索方法中用户不需要直接清晰的描述检索目标,而是可以通过回答计算机系统的问题,即某些代表性文档是否是自己的检索目标,从而让计算机系统理解自己的检索意图;在初始检索信息较少,且人机交互次数受限的情况下,本发明通过评价样本对分类器纠错能力来选择高价值样本向用户提问,某些代表性文档是否是用户检索的目标文档,从而逐步理解用户检索需求,从而确保了检索精度;并采用基于词频的弱分类器和增强学习策略同本发明提出的样本价值评价方法结合,形成了计算复杂度较小的、适用于在线信息检索的主动学习方法。
由技术常识可知,本发明可以通过其他的不脱离其精神实质或必要特征的实施方案来实现。因此,上述公开的实施方案,就各方面而言,都只是举例说明,并不是仅有的。所有在本发明范围内或在等同于本发明的范围内的改变均被本发明所包含。
Claims (3)
1.一种基于样本对分类器可纠正的交互式信息检索方法,其特征在于包括如下步骤:
S1用户提交查询信息,搜索引擎对用户输入的查询信息进行检索后,根据检索到的信息,通过查询结果的链接信息获取相关文档,记为顶层文档;
S2计算用户输入的查询信息与所述顶层文档中每篇文档的相关度,所述相关度根据用户输入查询信息的词项在所述顶层文档中的出现频率计算,取相关度较高的前m篇作为用户检索的候选集;
S3从所述候选集中随机抽取n篇文档交给用户判断是否是希望获取的文档,把用户标注后的这n篇文档放入训练集T中;
S4使用向量空间模型(Vector Space Model)对所述训练集T进行表示,用AdaBoost.MHwith real-valued predictions算法在候选集T上进行训练,并产生分类器;
S5采用步骤S4所述的分类器对所述候选集T中的用户未标注文档进行分类;
其中,α、β为经验系数;po表示文档判为正例后可能对分类器的纠正力度;ne表示文档被判为反例后可能对分类器的纠正力度;Score为分类器对当前文档和用户检索目标相关度的量化输出的得分,分值越高,则该文档属于正类可能性越大,分值越低,则该文档不属于正类的可能性越大;Max和Min分别为分类器给所述未标注文档得出的最高分值和最低分值;(Max-Score)/(Max-Min)体现了文档样本在当前分类器判断下不属于检索目标的可能性;(Score-Min)/(Max-Min)则相应地体现了文档样本在当前分类器判断下不属于正类的可能性;
根据采用的向量空间模型(Vector Space Model)文档表示方法和增强学习策略以及计算复杂度较低的基于关键词词频信息的弱分类器,确定样本对分类器的纠正力度系数的计算公式为:
其中,c(w)表示分类器给出的词项w和目标查询文档的相关度(即分类器对样本的得分),W为当前文档d中所含有关键词项集合;令D为全部文档集合,则d∈D为当前样本文档,为已标注文档集;令|Tr|表示已标注文档总数,#Tr(w)为在已标注文档中含词项w的文档数,#(w,d)为词项w在当前文档d中出现频次,则idf函数计算公式为tf-idf公式为tfidf(w,d)=#(w,d)·idf(w);
S7根据所述贡献度评价公式选择贡献度最高的k篇文档请用户标注,并放入所述训练集T中;
S8如果未达到迭代次数限制则返回步骤S3,否则向下进行;
S9利用步骤S4所述分类器对候选集T中的剩余文档进行排序;
S10将步骤S9所述分类器产生的排序结果按照相关度降序向用户提交排序靠前的文档。
2.根据权利要求1所述的一种基于样本对分类器可纠正的交互式信息检索方法,其特征在于,步骤S1中在用户提交查询信息后,删除查询信息中频率小于3的词和无意义的虚词再进行检索。
3.根据权利要求1所述的一种基于样本对分类器可纠正的交互式信息检索方法,其特征在于,步骤S8中迭代次数限制为5次。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610495578.8A CN106202234B (zh) | 2016-06-29 | 2016-06-29 | 基于样本对分类器可纠正的交互式信息检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610495578.8A CN106202234B (zh) | 2016-06-29 | 2016-06-29 | 基于样本对分类器可纠正的交互式信息检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106202234A CN106202234A (zh) | 2016-12-07 |
CN106202234B true CN106202234B (zh) | 2020-01-07 |
Family
ID=57462416
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610495578.8A Active CN106202234B (zh) | 2016-06-29 | 2016-06-29 | 基于样本对分类器可纠正的交互式信息检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106202234B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113127642B (zh) * | 2021-04-29 | 2022-12-23 | 广盟数据科技(上海)有限公司 | 文档可控式自动分类方法、装置、设备及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103793510A (zh) * | 2014-01-29 | 2014-05-14 | 苏州融希信息科技有限公司 | 一种基于主动学习的分类器构建方法 |
-
2016
- 2016-06-29 CN CN201610495578.8A patent/CN106202234B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103793510A (zh) * | 2014-01-29 | 2014-05-14 | 苏州融希信息科技有限公司 | 一种基于主动学习的分类器构建方法 |
Non-Patent Citations (2)
Title |
---|
中文文本分类中特征描述及分类器构造方法研究;刘里;《信息科技辑》;20070131;I138-483 * |
基于Adaboost框架下自动编码器提升方法的文本分类;刘广秀等;《电子世界》;20160608;195-197 * |
Also Published As
Publication number | Publication date |
---|---|
CN106202234A (zh) | 2016-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108280114B (zh) | 一种基于深度学习的用户文献阅读兴趣分析方法 | |
CN106202294B (zh) | 基于关键词和主题模型融合的相关新闻计算方法及装置 | |
US8150822B2 (en) | On-line iterative multistage search engine with text categorization and supervised learning | |
CN111143479A (zh) | 基于dbscan聚类算法的知识图谱关系抽取与rest服务可视化融合方法 | |
JP2018063696A (ja) | ノン・ファクトイド型質問応答システム及び方法並びにそのためのコンピュータプログラム | |
US20040249808A1 (en) | Query expansion using query logs | |
CN111797214A (zh) | 基于faq数据库的问题筛选方法、装置、计算机设备及介质 | |
CN108009135B (zh) | 生成文档摘要的方法和装置 | |
CN102663129A (zh) | 医疗领域深度问答方法及医学检索系统 | |
US20180341686A1 (en) | System and method for data search based on top-to-bottom similarity analysis | |
CN112632228A (zh) | 一种基于文本挖掘的辅助评标方法及系统 | |
CN112035599B (zh) | 基于垂直搜索的查询方法、装置、计算机设备及存储介质 | |
CN107301199A (zh) | 一种数据标签生成方法和装置 | |
CN112307182B (zh) | 一种基于问答系统的伪相关反馈的扩展查询方法 | |
US20180210897A1 (en) | Model generation method, word weighting method, device, apparatus, and computer storage medium | |
CN111078835A (zh) | 简历评估方法、装置、计算机设备及存储介质 | |
CN110866102A (zh) | 检索处理方法 | |
CN111125295A (zh) | 一种基于lstm的获取食品安全问题答案的方法及系统 | |
CN113722512A (zh) | 基于语言模型的文本检索方法、装置、设备及存储介质 | |
WO2018066489A1 (ja) | ノン・ファクトイド型質問応答システム及び方法並びにそのためのコンピュータプログラム | |
CN106570196B (zh) | 视频节目的搜索方法和装置 | |
KR20120047622A (ko) | 디지털 콘텐츠 관리 시스템 및 방법 | |
CN108268883B (zh) | 基于开放数据的移动端信息模板自构建系统 | |
CN106202234B (zh) | 基于样本对分类器可纠正的交互式信息检索方法 | |
WO2021150313A1 (en) | Contrastive learning for question answering (qa) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |