CN111897919A - 基于Copulas函数和伪相关反馈规则扩展的文本检索方法 - Google Patents
基于Copulas函数和伪相关反馈规则扩展的文本检索方法 Download PDFInfo
- Publication number
- CN111897919A CN111897919A CN202010773048.1A CN202010773048A CN111897919A CN 111897919 A CN111897919 A CN 111897919A CN 202010773048 A CN202010773048 A CN 202010773048A CN 111897919 A CN111897919 A CN 111897919A
- Authority
- CN
- China
- Prior art keywords
- pseudo
- chinese
- rule
- query
- expansion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3338—Query expansion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3325—Reformulation based on results of preceding query
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出了一种基于Copulas函数和伪相关反馈规则扩展的文本检索方法,该方法首先将用户查询检索中文文本原始文档集,从初检结果中提取前列n篇初检文档构建伪相关反馈文档集,利用基于Copulas函数的支持度‑置信度框架在伪相关反馈文档集中挖掘规则扩展词,扩展词和原查询组合为新查询,实现伪相关反馈规则扩展,新查询再次检索中文文档,得到最终结果文档返回用户。本发明利用Copulas函数将文本文档特征词项集的以项集频度为度量的古典概型分布和以项集权值为度量的概率分布综合统一为项集支持度和置信度,能挖掘出高质量的扩展词实现伪相关反馈规则扩展,提高和改善中文文本信息检索性能,具有较好的应用价值和推广前景。
Description
技术领域
本发明涉及一种基于Copulas函数和伪相关反馈规则扩展的文本检索方法,属于信息检索技术领域。
背景技术
当前搜索引擎和web信息检索系统没有完全解决查询主题漂移和词不匹配问题,导致web检索性能降低。随着网络技术的发展,数字资源迅猛增长,大数据时代的到来,上述问题更为突出,如何让用户快速找到所需的信息资源,减少查询主题漂移和词不匹配问题以满足用户信息需求,是信息检索领域亟待解决一个重要问题。查询扩展是解决上述问题的核心关键技术之一,查询扩展指的是对原查询权重进行改造,或者添加与原查询语义相关的其他特征词,弥补原查询过于简单导致的语义信息不足,达到改善信息检索性能的目的。近十几年来,学者们从不同的视角对基于查询扩展的信息检索方法开展研究,产生了一些有效的信息检索方法,例如,周栋等提出的一种基于查询扩展的个性化信息检索方法(见专利文献:周栋;伍璇;赵文玉,一种基于查询扩展的个性化信息检索方法,授权公布号:CN106547864B,申请(专利)号:CN201610932970.4),岳文等提出的一种基于查询扩展和分类的信息检索方法(见文献:岳文,陈治平,林亚平.基于查询扩展和分类的信息检索算法[J].系统仿真学报,2006,018(007):1926-1929,1934.),等等,这些方法经过实验验证了所述检索方法的有效性,但还没有最终完全解决信息检索中存在的查询主题漂移和词不匹配等技术问题。
为了解决当前信息检索系统中查询主题漂移和词不匹配等技术问题,提高信息系统检索性能,本发明将Copulas函数(见文献:Sklar A.Fonctions de repartitionàndimensions et leurs marges[J].Publication de l'Institut de Statistique l'Universite Paris,1959,8(1):229-231.)引入信息检索领域,首先提出一种基于Copulas函数的支持度-置信度框架,然后提出一种基于Copulas函数和伪相关反馈规则扩展的文本检索方法,实验结果表明,本发明方法能提高和改善跨信息检索性能,具有较好的应用价值和推广前景。
发明内容
本发明的目的是提出一种基于Copulas函数和伪相关反馈规则扩展的文本检索方法,将该方法用于web信息检索系统,例如搜索引擎和网络检索系统,可减少信息检索中查询主题漂移和词不匹配问题,从而改善和提高信息检索系统的查询性能。
本发明所采用的具体技术方案如下:
一种基于Copulas函数和伪相关反馈规则扩展的文本检索方法,其包括三个阶段:首次检索阶段、基于Copulas函数的支持度CopSup(Copulas based Support)-置信度CopCon(Copulas based Confidence)框架的规则扩展词挖掘阶段、查询扩展的实现以及再次检索阶段,所述三个阶段的步骤如下:
步骤1.首次检索阶段:用户查询在原始中文文档集中检索中文文档得到初检结果,从初检结果中提取前列n篇初检文档构建初检伪相关反馈文档集,具体步骤如下:
(1.1)用户查询在原始中文文档集中检索中文文档得到初检结果。
(1.2)从初检结果中提取前列n篇初检文档构建初检伪相关反馈文档集。
(1.3)预处理对初检伪相关反馈文档集进行预处理,然后转入步骤2。
初检伪相关反馈文档集预处理内容是:采用现有中文分词工具进行分词,去除中文停用词,提取中文特征词,并计算特征词权值,最后构建伪相关反馈中文文档库和中文特征词库。
本发明采用TF-IDF(term frequency–inverse document frequency)加权技术(见文献:Ricardo Baeza-Yates Berthier Ribeiro-Neto等著,王知津等译,《现代信息检索》,机械工业出版社,2005年:21-22。)计算初检伪相关反馈文档集中的特征词权值。
步骤2.基于Copulas函数的支持度-置信度框架的规则扩展词挖掘阶段,具体步骤如下:
(2.1)提取1_候选项集C1:从中文特征词库中提取特征词作为1_候选项集C1。
(2.2)计算CopSup(C1):计算1_候选项集C1的基于Copulas理论的支持度CopSup(C1),如式(1)所示:
式(1)中,n(C1)表示1_候选项集C1在伪相关反馈中文文档库中出现的频度,DocCount表示伪相关反馈中文文档库总文档数量,w(C1)表示1_候选项集C1在伪相关反馈中文文档库中的项集权重,ItemsWeight表示伪相关反馈中文文档库中全体中文特征词的权重累加和。
(2.3)提取1_频繁项集L1:如果CopSup(C1)≥最小支持度阈值ms,则将C1作为1_频繁项集L1,并添加到频繁项集集合FIS(Frequent ItemSet)。
(2.4)产生k_候选项集Ck:k_候选项集Ck由(k-1)_频繁项集Lk-1自连接得到,所述k≥2。
所述自连接方法采用Apriori算法(见文献:Agrawal R,Imielinski T,SwamiA.Mining association rules between sets of items in large database[C]//Proceedings of the 1993ACM SIGMOD International Conference on Management ofData,Washington D C,USA,1993:207-216.)中给出的候选项集连接方法。
(2.5)项集剪枝:当k=2,判断k_候选项集Ck是否含有中文原查询词项,如果该Ck不含有原查询词项,则删除该Ck,如果该Ck含有原查询词项,则留下该Ck,然后,留下的Ck转入步骤(2.6);如果k>2,则Ck直接转入步骤(2.6)。
(2.6)计算CopSup(Ck):计算k_候选项集Ck的基于Copulas理论的支持度CopSup(Ck),如式(2)所示:
式(2)中,n(Ck)表示k_候选项集Ck在伪相关反馈中文文档库中出现的频度,w(Ck)表示k_候选项集Ck在伪相关反馈中文文档库中的项集权重;DocCount和ItemsWeight的定义与式(1)相同。
(2.7)产生k_频繁项集Lk:如果CopSup(Ck)≥ms,则该Ck就是k_频繁项集Lk,添加到FIS,然后,转入步骤(2.8),否则,直接转入步骤(2.8)。
(2.8)k加1后转入步骤(2.4)继续顺序执行其后步骤,直到Lk为空集,则频繁项集挖掘结束,转入步骤(2.9)。
(2.9)从FIS中任意取出k_频繁项集Lk,所述k≥2。
(2.11)计算CopCon(Qi→ETj):计算基于Copulas理论的关联规则Qi→ETj的置信度CopCon(Qi→ETj),如式(3)所示:
式(3)中,n(Qi)表示真子集项集Qi在伪相关反馈中文文档库中出现的频度,w(Qi)表示真子集项集Qi在伪相关反馈中文文档库中的项集权重,n(Qi∪ETj)表示项集(Qi∪ETj)在伪相关反馈中文文档库中出现的频度,w(Qi∪ETj)表示项集(Qi∪ETj)在伪相关反馈中文文档库中的项集权重;DocCount和ItemsWeight的定义与式(1)相同。
(2.12)产生强关联规则:提取CopCon(Qi→ETj)≥最小置信度阈值mc的强关联规则Qi→ETj,加入到关联规则集AR(Association Rule),然后,从Lk中重新提取其他的真子集项集ETj和Qi,且Qi∪ETj=Lk,转入步骤(2.11)再顺序进行其后步骤,如此循环,直到Lk的所有真子集项集当且仅当都被取出一次为止,这时转入如步骤(2.9),进行新一轮关联规则模式挖掘,从FIS中再取出任意其他Lk,再顺序进行其后步骤,如此循环,直到FIS中所有k_频繁项集Lk当且仅当都被取出一次为止,这时关联规则模式挖掘结束,转入如下步骤(2.13)。
(2.13)产生规则扩展词:从特征词关联规则模式集合AR中提取关联规则后件ETj作为规则扩展词,计算规则扩展词权值,建立规则扩展词库,然后,转入步骤3。所述扩展词权值wETj计算公式如式(4)所示:
式(4)中,max()表示关联规则置信度的最大值,当多个关联规则模式中同时出现相同的规则扩展词时,取其置信度值最大的作为该规则扩展词的权值;n(Qi)、w(Qi)、n(Qi∪ETj)、w(Qi∪ETj)、DocCount、ItemsWeight的定义与式(3)相同。
步骤3.查询扩展的实现以及再次检索阶段,具体步骤如下:
(3.1)从规则扩展词库中提取规则扩展词,并与原查询词组合为新查询,实现查询扩展。
(3.2)新查询再次检索中文文档得到最终检索结果文档。
(3.3)将最终检索结果文档返回给用户。
本发明与现有技术相比,具有以下有益效果:
(1)本发明提出了一种基于Copulas函数和伪相关反馈规则扩展的文本检索方法,该方法利用基于Copulas函数的支持度-置信度框架在伪相关反馈文档集中挖掘规则扩展词,扩展词和原查询组合为新查询,实现伪相关反馈规则扩展,新查询再次检索中文文档,得到最终结果文档返回用户。本发明利用Copulas函数将文本文档特征词项集的以项集频度为度量的古典概型分布和以项集权值为度量的概率分布综合统一为项集支持度和置信度,提高了所挖掘出的规则扩展词质量。实验结果表明,本发明能提高信息检索系统的查询性能,能有效遏制查询主题漂移和词不匹配问题,具有较好的应用价值和推广前景。
(2)选择2种现有方法作为本发明的对比方法,并将国际标准数据集NTCIR-5CLIR作为本发明方法实验语料。实验结果表明,与基准检索比较,本发明方法评价指标P@5平均增幅最高分别可达18.79%,与近年现有同类的扩展方法比较,其平均增幅最高分别可达8.11%和8.32%,检索性能增幅效果显著,说明本发明方法的检索性能均优于基准检索和对比方法,能提高信息检索性能,减少信息检索中查询漂移和词不匹配问题,具有很高的应用价值和广阔的推广前景。
附图说明
图1为本发明所述的基于Copulas函数和伪相关反馈规则扩展的文本检索方法的总体流程示意图。
具体实施方式
一、为了更好地说明本发明的技术方案,下面将本发明涉及的相关概念介绍如下:
1.项集
在文本挖掘中,将一篇文本文档当作一个事务,文档中的各个特征词称为项目,特征词项目的集合称为项集,项集中所有项目的个数称为项集长度。k_项集指含有k个项目的项集,k即为项集的长度。
2.规则扩展词
设x、y是任意的特征词项集,将形如x→y的蕴含式称为关联规则,其中,x称为规则前件,y称为规则后件。如果所述前件x是原查询词项集,那么将所述关联规则后件y为规则扩展词。
3.基于Copulas函数的支持度-置信度框架
Copulas函数(见文献:Sklar A.Fonctions de repartitionàn dimensions etleurs marges[J].Publication de l'Institut de Statistique l'Universite Paris,1959,8(1):229-231.)用来描述变量间相关性,可以将任意形式的分布进行合并连接为一个有效的多元分布函数。
本发明利用Copulas函数将文本文档特征词项集的以项集频度为度量的古典概型分布和以项集权值为度量的概率分布综合统一为项集支持度和置信度,构建基于Copulas函数的支持度-置信度框架,用于评价关联规则模式,以提高规则扩展词质量。所述基于Copulas函数的支持度-置信度框架的支持度CopSup(Copulas based Support)和置信度CopCon(Copulas based Confidence)的计算方法描述如下:
式(5)中,n(T1∪T2)表示项集(T1∪T2)在伪相关反馈中文文档库中出现的频度,DocCount表示伪相关反馈中文文档库总文档数量,w(T1∪T2)表示项集(T1∪T2)在伪相关反馈中文文档库中的项集权重,ItemsWeight表示伪相关反馈中文文档库中全体中文特征词的权重累加和。
基于Copulas函数的关联规则(T1→T2)的置信度CopCon(T1→T2),如式(6)所示:
式(6)中,n(T1)表示项集T1在伪相关反馈中文文档库中出现的频度,w(T2)表示项集T2在伪相关反馈中文文档库中的项集权重;n(T1∪T2)、w(T1∪T2)、DocCount、ItemsWeight的定义与式(5)相同。
4.伪相关反馈规则扩展
查询扩展指的是对原查询权重进行改造,或者添加与原查询语义相关的其他特征词,弥补原查询过于简单导致的语义信息不足,达到改善信息检索性能的目的。查询扩展的核心问题是扩展词的来源与扩展模型的设计。
本发明将基于伪相关反馈和关联规则挖掘的查询扩展称为伪相关反馈规则扩展。所述伪相关反馈规则扩展的扩展词来源于关联规则的后件项集,并且所述关联规则是通过基于Copulas函数的支持度-置信度框架在初检伪相关反馈文档集中挖掘得到。
5.扩展词权值计算
本发明扩展词来源于基于Copulas函数的关联规则后件ETj,并且该关联规则的前件必须是查询词项集Qi,以及所述关联规则的支持度CopSup(Qi→ETj)≥最小支持度阈值ms和置信度CopCon(Qi→ETj)≥最小置信度阈值mc。由于关联规则置信度反映了查询词项和扩展词项之间的确定性和可信程度,其值越高,表明查询词与扩展词越相关,因此,本发明将基于Copulas函数的置信度值作为扩展词的权值we的计算依据,如式(7)所示:
式(7)中,MAX()表示关联规则置信度的最大值,即当多个关联规则模式中同时出现相同的扩展词时,取其置信度值最大的作为该扩展词的权值;n(Qi)表示项集Qi在伪相关反馈中文文档库中出现的频度,w(Qi)表示项集Qi在伪相关反馈中文文档库中的项集权重;n(Qi∪ETj)表示项集(Qi∪ETj)在伪相关反馈中文文档库中出现的频度,w(Qi∪ETj)表示项集(Qi∪ETj)在伪相关反馈中文文档库中的项集权重;DocCount、ItemsWeight的定义与式(5)相同。
二、下面结合附图和具体对比实验来对本发明作进一步说明。
如图1所示,本发明的基于Copulas函数和伪相关反馈规则扩展的文本检索方法包括三个阶段:首次检索阶段、基于Copulas函数的支持度CopSup(Copulas based Support)-置信度CopCon(Copulas based Confidence)框架的规则扩展词挖掘阶段、查询扩展的实现以及再次检索阶段,所述三个阶段的步骤如下:
步骤1.首次检索阶段:用户查询在原始中文文档集中检索中文文档得到初检结果,从初检结果中提取前列n篇初检文档构建初检伪相关反馈文档集,具体步骤如下:
(1.1)用户查询在原始中文文档集中检索中文文档得到初检结果。
(1.2)从初检结果中提取前列n篇初检文档构建初检伪相关反馈文档集。
(1.3)预处理对初检伪相关反馈文档集进行预处理,然后转入步骤2。
初检伪相关反馈文档集预处理内容是:采用现有中文分词工具进行分词,去除中文停用词,提取中文特征词,并计算特征词权值,最后构建伪相关反馈中文文档库和中文特征词库。所述初检伪相关反馈文档集中的特征词权值采用TF-IDF加权技术计算。
步骤2.基于Copulas函数的支持度-置信度框架的规则扩展词挖掘阶段,具体步骤如下:
(2.1)提取1_候选项集C1:从中文特征词库中提取单个特征词作为1_候选项集C1。
(2.2)计算CopSup(C1):计算1_候选项集C1的基于Copulas理论的支持度CopSup(C1),如式(1)所示:
式(1)中,n(C1)表示1_候选项集C1在伪相关反馈中文文档库中出现的频度,DocCount表示伪相关反馈中文文档库总文档数量,w(C1)表示1_候选项集C1在伪相关反馈中文文档库中的项集权重,ItemsWeight表示伪相关反馈中文文档库中全体中文特征词的权重累加和。
(2.3)提取1_频繁项集L1:如果CopSup(C1)≥最小支持度阈值ms,则将C1作为1_频繁项集L1,并添加到频繁项集集合FIS(Frequent ItemSet)。
(2.4)产生k_候选项集Ck:k_候选项集Ck由(k-1)_频繁项集Lk-1自连接得到,所述k≥2。
所述自连接方法采用Apriori算法中给出的候选项集连接方法。
(2.5)项集剪枝:当k=2,判断k_候选项集Ck是否含有中文原查询词项,如果该Ck不含有原查询词项,则删除该Ck,如果该Ck含有原查询词项,则留下该Ck,然后,留下的Ck转入步骤(2.6);如果k>2,则Ck直接转入步骤(2.6)。
(2.6)计算CopSup(Ck):计算k_候选项集Ck的基于Copulas理论的支持度CopSup(Ck),如式(2)所示:
式(2)中,n(Ck)表示k_候选项集Ck在伪相关反馈中文文档库中出现的频度,w(Ck)表示k_候选项集Ck在伪相关反馈中文文档库中的项集权重;DocCount和ItemsWeight的定义与式(1)相同。
(2.7)产生k_频繁项集Lk:如果CopSup(Ck)≥ms,则该Ck就是k_频繁项集Lk,添加到FIS,然后,转入步骤(2.8),否则,直接转入步骤(2.8)。
(2.8)k加1后转入步骤(2.4)继续顺序执行其后步骤,直到Lk为空集,则频繁项集挖掘结束,转入步骤(2.9)。
(2.9)从FIS中任意取出k_频繁项集Lk,所述k≥2。
(2.11)计算CopCon(Qi→ETj):计算基于Copulas理论的关联规则Qi→ETj的置信度CopCon(Qi→ETj),如式(3)所示:
式(3)中,n(Qi)表示真子集项集Qi在伪相关反馈中文文档库中出现的频度,w(Qi)表示真子集项集Qi在伪相关反馈中文文档库中的项集权重,n(Qi∪ETj)表示项集(Qi∪ETj)在伪相关反馈中文文档库中出现的频度,w(Qi∪ETj)表示项集(Qi∪ETj)在伪相关反馈中文文档库中的项集权重;DocCount和ItemsWeight的定义与式(1)相同。
(2.12)产生强关联规则:提取CopCon(Qi→ETj)≥最小置信度阈值mc的强关联规则Qi→ETj,加入到关联规则集AR(Association Rule),然后,从Lk中重新提取其他的真子集项集ETj和Qi,且Qi∪ETj=Lk,转入步骤(2.11)再顺序进行其后步骤,如此循环,直到Lk的所有真子集项集当且仅当都被取出一次为止,这时转入如步骤(2.9),进行新一轮关联规则模式挖掘,从FIS中再取出任意其他Lk,再顺序进行其后步骤,如此循环,直到FIS中所有k_频繁项集Lk当且仅当都被取出一次为止,这时关联规则模式挖掘结束,转入如下步骤(2.13)。
(2.13)产生规则扩展词:从特征词关联规则模式集合AR中提取关联规则后件ETj作为规则扩展词,计算规则扩展词权值,建立规则扩展词库,然后,转入步骤3。所述扩展词权值wETj计算公式如式(4)所示:
式(4)中,max()表示关联规则置信度的最大值,当多个关联规则模式中同时出现相同的规则扩展词时,取其置信度值最大的作为该规则扩展词的权值;n(Qi)、w(Qi)、n(Qi∪ETj)、w(Qi∪ETj)、DocCount、ItemsWeight的定义与式(3)相同。
步骤3.查询扩展的实现以及再次检索阶段,具体步骤如下:
(3.1)从规则扩展词库中提取规则扩展词,并与原查询词组合为新查询,实现查询扩展。
(3.2)新查询再次检索中文文档得到最终检索结果文档。
(3.3)将最终检索结果文档返回给用户。
实验设计与结果:
我们将本发明方法和对比方法的进行检索实验,比较本发明方法和对比方法的实际检索性能,以说明本发明方法的有效性。
1.实验环境及实验数据:
本发明实验环境采用开源的全文检索引擎开发包Lucene.Net(详见:http://lucenenet.apac he.org/)作为基础检索环境,将NTCIR-5CLIR(详细见:http://research.nii.ac.jp/ntcir/data/data-en.html.)中文文本语料Economic Daily News(edn)、-Ming Hseng News(mhn)和Unit ed Express(ude)的2000年和2001年新闻文本作为实验数据,简称中文edn2000、edn2001、mhn2000、mhn2001、ude2000和ude2001语料集,共计434882篇中文文档。该语料有文档集、查询集和结果集。查询集有50个中文查询,每个查询有4种类型查询主题,结果集有R igid和Relax标准,Rigid表示与查询高度相关和相关的情况,Relax表示与查询高度相关、相关和部分相关。本文采用Title和Description(简称Desc)查询主题进行检索实验,其中,Ti tle查询属于短查询,以名词和名词性短语简要描述查询主题,Desc查询属于长查询,以句子形式简要描述查询主题查询。
本发明实验结果评价指标是P@5。所述P@5是指对于测试查询返回的前5个结果的准确率。
2.基准检索与对比方法:
基准检索是原始查询提交到Lucene.Net进行初次检索得到的检索结果。
对比方法1:基于现有的完全加权正负关联规则挖掘和查询扩展的信息检索方法,采用文献(黄名选,蒋曹清.基于完全加权正负关联模式挖掘的越-英跨语言查询译后扩展[J].电子学报,2018,46(12):3029-3036.)的完全加权正负关联模式挖掘技术挖掘加权正负扩展词,正扩展词中去除负扩展词后得到最终扩展词,最终扩展词与原查询组合为新查询,实现查询扩展,新查询再次检索实验数据文档得到最终检索结果,实验参数是:ms∈{0.09,0.1,0.11,0.13,0.15},mc=0.1,α=0.3,minPR=0.1和minNR=0.01。
对比方法2:基于现有的多支持度阈值的频繁模式挖掘和查询扩展的信息检索方法,采用文献(Zhang H R,Zhang J W,Wei X Y,et al.A new frequent pattern miningalgorithm with weighted multiple minimum supports[J].Intelligent Automation&Soft Computing,2017,23(4):605-612.)的基于多支持度阈值的频繁模式挖掘技术挖掘伪相关反馈文档集中那些规则前件为原查询词项的加权关联规则,将规则后件作为扩展词,扩展词与原查询组合为新查询,实现查询扩展,新查询再次检索实验数据文档得到最终检索结果,其中,实验参数是:mc=0.1,LMS=0.2,HMS=0.25,WT=0.1,ms∈{0.2,0.25,0.3,0.35,0.4}。
3.实验方法和结果如下:
50个中文查询分别在6个数据集上进行检索实验,得到基准检索、对比方法和本发明方法的检索结果P@5平均值,如表1和表2所示,其中,“本发明方法平均增幅(%)”是指本发明方法相对于基准检索和对比方法的6个数据集检索结果的平均增幅,其计算方法是先计算本发明方法在各个数据集上的增幅,然后累加这些增幅再除以6即得总的平均增幅。
表1本发明与基准、对比方法的检索性能P@5值比较(Title查询)
表2本发明与基准、对比方法的检索性能P@5值比较(Desc查询)
表1和表2表明,本发明方法在6个数据集上的检索结果都得到了提高,与基准检索比较,本文发明方法P@5平均增幅最高可达18.79%,检索性能改善效果显著,与对比方法比较,本文算法P@5平均增幅最高分别可达8.11%和8.32%,说明本发明方法信息检索性能高于基准检索和同类的对比方法。实验结果表明,本发明方法是有效的,确实能提高息检索性能,具有很高的应用价值和广阔的推广前景。
Claims (1)
1.一种基于Copulas函数和伪相关反馈规则扩展的文本检索方法,其特征在于,包括三个阶段:首次检索阶段、基于Copulas函数的支持度-置信度框架的规则扩展词挖掘阶段、查询扩展的实现以及再次检索阶段,所述三个阶段的步骤如下:
步骤1.首次检索阶段:用户查询在原始中文文档集中检索中文文档得到初检结果,从初检结果中提取前列n篇初检文档构建初检伪相关反馈文档集,具体步骤如下:
(1.1)用户查询在原始中文文档集中检索中文文档得到初检结果;
(1.2)从初检结果中提取前列n篇初检文档构建初检伪相关反馈文档集;
(1.3)预处理对初检伪相关反馈文档集进行预处理,然后转入步骤2;
所述预处理内容是:采用现有中文分词工具进行分词,去除中文停用词,提取中文特征词,并采用TF-IDF加权技术计算特征词权值,最后构建伪相关反馈中文文档库和中文特征词库;
步骤2.基于Copulas函数的支持度-置信度框架的规则扩展词挖掘阶段,具体步骤如下:
(2.1)提取1_候选项集C1:从中文特征词库中提取单个特征词作为1_候选项集C1;
(2.2)计算CopSup(C1):计算1_候选项集C1的基于Copulas理论的支持度CopSup(C1),如式(1)所示:
式(1)中,n(C1)表示1_候选项集C1在伪相关反馈中文文档库中出现的频度,DocCount表示伪相关反馈中文文档库总文档数量,w(C1)表示1_候选项集C1在伪相关反馈中文文档库中的项集权重,ItemsWeight表示伪相关反馈中文文档库中全体中文特征词的权重累加和;
(2.3)提取1_频繁项集L1:如果CopSup(C1)≥最小支持度阈值ms,则将C1作为1_频繁项集L1,并添加到频繁项集集合FIS;
(2.4)产生k_候选项集Ck:k_候选项集Ck由(k-1)_频繁项集Lk-1自连接得到,所述k≥2;
所述自连接方法采用Apriori算法中给出的候选项集连接方法;
(2.5)项集剪枝:当k=2,判断k_候选项集Ck是否含有中文原查询词项,如果该Ck不含有原查询词项,则删除该Ck,如果该Ck含有原查询词项,则留下该Ck,然后,留下的Ck转入步骤(2.6);如果k>2,则Ck直接转入步骤(2.6);
(2.6)计算CopSup(Ck):计算k_候选项集Ck的基于Copulas理论的支持度CopSup(Ck),如式(2)所示:
式(2)中,n(Ck)表示k_候选项集Ck在伪相关反馈中文文档库中出现的频度,w(Ck)表示k_候选项集Ck在伪相关反馈中文文档库中的项集权重;DocCount和ItemsWeight的定义与式(1)相同;
(2.7)产生k_频繁项集Lk:如果CopSup(Ck)≥ms,则该Ck就是k_频繁项集Lk,添加到FIS,然后,转入步骤(2.8),否则,直接转入步骤(2.8);
(2.8)k加1后转入步骤(2.4)继续顺序执行其后步骤,直到Lk为空集,则频繁项集挖掘结束,转入步骤(2.9);
(2.9)从FIS中任意取出k_频繁项集Lk,所述k≥2;
(2.11)计算CopCon(Qi→ETj):计算基于Copulas理论的关联规则Qi→ETj的置信度CopCon(Qi→ETj),如式(3)所示:
式(3)中,n(Qi)表示真子集项集Qi在伪相关反馈中文文档库中出现的频度,w(Qi)表示真子集项集Qi在伪相关反馈中文文档库中的项集权重,n(Qi∪ETj)表示项集(Qi∪ETj)在伪相关反馈中文文档库中出现的频度,w(Qi∪ETj)表示项集(Qi∪ETj)在伪相关反馈中文文档库中的项集权重;DocCount和ItemsWeight的定义与式(1)相同;
(2.12)产生强关联规则:提取CopCon(Qi→ETj)≥最小置信度阈值mc的强关联规则Qi→ETj,加入到关联规则集AR(Association Rule),然后,从Lk中重新提取其他的真子集项集ETj和Qi,且Qi∪ETj=Lk,转入步骤(2.11)再顺序进行其后步骤,如此循环,直到Lk的所有真子集项集当且仅当都被取出一次为止,这时转入如步骤(2.9),进行新一轮关联规则模式挖掘,从FIS中再取出任意其他Lk,再顺序进行其后步骤,如此循环,直到FIS中所有k_频繁项集Lk当且仅当都被取出一次为止,这时关联规则模式挖掘结束,转入如下步骤(2.13);
(2.13)产生规则扩展词:从特征词关联规则模式集合AR中提取关联规则后件ETj作为规则扩展词,计算规则扩展词权值,建立规则扩展词库,然后,转入步骤3;所述扩展词权值wETj计算公式如式(4)所示:
式(4)中,max()表示关联规则置信度的最大值,当多个关联规则模式中同时出现相同的规则扩展词时,取其置信度值最大的作为该规则扩展词的权值;n(Qi)、w(Qi)、n(Qi∪ETj)、w(Qi∪ETj)、DocCount、ItemsWeight的定义与式(3)相同;
步骤3.查询扩展的实现以及再次检索阶段,具体步骤如下:
(3.1)从规则扩展词库中提取规则扩展词,并与原查询词组合为新查询,实现查询扩展;
(3.2)新查询再次检索中文文档得到最终检索结果文档;
(3.3)将最终检索结果文档返回给用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010773048.1A CN111897919A (zh) | 2020-08-04 | 2020-08-04 | 基于Copulas函数和伪相关反馈规则扩展的文本检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010773048.1A CN111897919A (zh) | 2020-08-04 | 2020-08-04 | 基于Copulas函数和伪相关反馈规则扩展的文本检索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111897919A true CN111897919A (zh) | 2020-11-06 |
Family
ID=73183347
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010773048.1A Withdrawn CN111897919A (zh) | 2020-08-04 | 2020-08-04 | 基于Copulas函数和伪相关反馈规则扩展的文本检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111897919A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112835923A (zh) * | 2021-02-02 | 2021-05-25 | 中国工商银行股份有限公司 | 一种相关检索方法、装置和设备 |
-
2020
- 2020-08-04 CN CN202010773048.1A patent/CN111897919A/zh not_active Withdrawn
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112835923A (zh) * | 2021-02-02 | 2021-05-25 | 中国工商银行股份有限公司 | 一种相关检索方法、装置和设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Danesh et al. | Sgrank: Combining statistical and graphical methods to improve the state of the art in unsupervised keyphrase extraction | |
Wan et al. | Single document keyphrase extraction using neighborhood knowledge. | |
Hiemstra et al. | Relating the new language models of information retrieval to the traditional retrieval models | |
CN109299278B (zh) | 基于置信度-相关系数框架挖掘规则前件的文本检索方法 | |
Huang et al. | An approach on Chinese microblog entity linking combining baidu encyclopaedia and word2vec | |
Wei et al. | Learning from context: a mutual reinforcement model for Chinese microblog opinion retrieval | |
CN109582769A (zh) | 基于权值排序的关联模式挖掘和后件扩展的文本检索方法 | |
CN109739953B (zh) | 基于卡方分析-置信度框架和后件扩展的文本检索方法 | |
CN111897922A (zh) | 基于模式挖掘与词向量相似度计算的中文查询扩展方法 | |
CN111897919A (zh) | 基于Copulas函数和伪相关反馈规则扩展的文本检索方法 | |
CN109299292B (zh) | 基于矩阵加权关联规则前后件混合扩展的文本检索方法 | |
CN109726263B (zh) | 基于特征词加权关联模式挖掘的跨语言译后混合扩展方法 | |
CN111897926A (zh) | 深度学习与扩展词挖掘交集融合的中文查询扩展方法 | |
CN109684463B (zh) | 基于权值比较与挖掘的跨语言译后前件扩展方法 | |
CN111897927B (zh) | 融合Copulas理论和关联规则挖掘的中文查询扩展方法 | |
Pan et al. | Using dempster-shafer’s evidence theory for query expansion based on freebase knowledge | |
Wan et al. | Single document summarization with document expansion | |
CN109684465B (zh) | 基于项集权值比较的模式挖掘和混合扩展的文本检索方法 | |
CN109739952A (zh) | 融合关联度和卡方值的模式挖掘与扩展的跨语言检索方法 | |
Li et al. | Complex query recognition based on dynamic learning mechanism | |
Miyanishi et al. | Time-aware latent concept expansion for microblog search | |
CN109684464B (zh) | 通过权值比较实现规则后件挖掘的跨语言查询扩展方法 | |
CN111897924A (zh) | 基于关联规则与词向量融合扩展的文本检索方法 | |
CN111897928A (zh) | 查询词嵌入扩展词和统计扩展词并集的中文查询扩展方法 | |
CN108416442B (zh) | 基于项频度和权值的中文词间矩阵加权关联规则挖掘方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20201106 |