CN111897927B - 融合Copulas理论和关联规则挖掘的中文查询扩展方法 - Google Patents
融合Copulas理论和关联规则挖掘的中文查询扩展方法 Download PDFInfo
- Publication number
- CN111897927B CN111897927B CN202010774431.9A CN202010774431A CN111897927B CN 111897927 B CN111897927 B CN 111897927B CN 202010774431 A CN202010774431 A CN 202010774431A CN 111897927 B CN111897927 B CN 111897927B
- Authority
- CN
- China
- Prior art keywords
- chinese
- pseudo
- association rule
- query
- theory
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 86
- 241000039077 Copula Species 0.000 title claims abstract description 40
- 238000005065 mining Methods 0.000 title claims abstract description 37
- 238000001514 detection method Methods 0.000 claims abstract description 6
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 9
- 238000005516 engineering process Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 7
- 238000012360 testing method Methods 0.000 claims description 6
- 238000009825 accumulation Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000007547 defect Effects 0.000 abstract 1
- 230000003321 amplification Effects 0.000 description 10
- 238000003199 nucleic acid amplification method Methods 0.000 description 10
- 238000002474 experimental method Methods 0.000 description 6
- 238000009826 distribution Methods 0.000 description 5
- 238000007689 inspection Methods 0.000 description 4
- 238000012733 comparative method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 241000370685 Arge Species 0.000 description 1
- 125000002059 L-arginyl group Chemical group O=C([*])[C@](N([H])[H])([H])C([H])([H])C([H])([H])C([H])([H])N([H])C(=N[H])N([H])[H] 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000013401 experimental design Methods 0.000 description 1
- 235000011389 fruit/vegetable juice Nutrition 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3338—Query expansion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3325—Reformulation based on results of preceding query
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提出了一种融合Copulas理论和关联规则挖掘的中文查询扩展方法,该方法首先原始查询检索文档,然后从初检结果中提取前列n篇初检文档构建伪相关反馈文档集,利用基于Copulas理论的支持度与置信度对伪相关反馈文档集挖掘含有原查询词项的特征词频繁项集和关联规则模式,最后,从规则前件是原查询的关联规则模式中提取规则后件作为扩展词,实现查询扩展。本发明克服现有基于关联规则挖掘的查询扩展缺陷,能挖掘出高质量的扩展词,有效遏制查询主题漂移和词不匹配问题。本发明能改善和提高信息检索性能,可用于搜索引擎和实际网络信息检索系统,提高信息查询性能,具有较好的应用价值和推广前景。
Description
技术领域
本发明涉及一种融合Copulas理论和关联规则挖掘的中文查询扩展方法,属于信息检索技术领域。
背景技术
查询主题漂移和词不匹配问题长期困扰信息检索系统,导致检索系统查询性能降低,这是当前信息检索领域还没有得到完全解决的问题。随着网络技术的发展,数字资源迅猛增长,大数据时代的到来,如何让用户快速找到所需的信息资源,减少查询主题漂移和词不匹配问题以满足用户信息需求,是信息检索领域亟待解决一个重要问题。查询扩展(Query Expansion,QE)是解决上述问题的核心关键技术之一,查询扩展指的是对原查询权重进行改造,或者添加与原查询语义相关的其他特征词,弥补原查询过于简单导致的语义信息不足,达到改善信息检索性能的目的。近十几年来,学者们从不同的视角对查询扩展方法开展研究,产生了一些有效的查询扩展方法,例如,Lv Y等提出一种改善伪相关反馈的boosting查询扩展方法(见文献:Lv Y,Zhai C,Chen W.A boosting approach toimproving pseudo-relevance feedback[C].In Ma W,Nie J,Baeza-Yates R A,Chua T,Croft W B.(Eds.)Proceeding of the 34th International ACM SIGIR 2011,Beijing,China,2011:165-174.),Latiri C等提出了一种基于关联规则挖掘的自动查询扩展方法,该方法给出一种冗余关联规则发现方法,以减少冗余关联规则数量(见文献:Latiri C,Haddad H,Hamrouni T.Towards an effective automatic query expansion processusing an association rule mining approach[J].journal of intelligentinformation systems,2012,39(1):209-247.),黄名选等提出一种用于跨语言信息检索的基于完全加权正负关联模式挖掘的查询扩展方法(见文献:黄名选,蒋曹清.基于完全加权正负关联模式挖掘的越-英跨语言查询译后扩展[J].电子学报,2018,46(12):3029-3036.),等等,但还没有最终完全解决信息检索中存在的查询主题漂移和词不匹配等技术问题。事实上,文本特征词项集在文本事务数据库中存在两种概率分布,即以项集频度为度量的古典概型分布和以项集权值为度量的概率分布,在文档集中挖掘扩展词时应该考虑这些概率分布,才能设置出更合理的关联模式支持度和置信度,最终才能挖掘高质量的扩展词。因此,本发明借鉴Copulas理论(见文献:Sklar A.Fonctions de repartitionàndimensions et leursmarges[J].Publication de l'Institut de Statistiquel'Universite Paris,1959,8(1):229-231.),将上述两种概率分布融合,提出一种融合Copulas理论和关联规则挖掘的中文查询扩展方法,实验结果表明,本发明方法能提高和改善跨信息检索性能,具有较好的应用价值和推广前景。
发明内容
本发明的目的是提出一种融合Copulas理论和关联规则挖掘的中文查询扩展方法,将该方法用于实际中文搜索引擎和信息检索系统,可改善和提高信息检索系统的查询性能,减少信息检索中查询主题漂移和词不匹配问题。
本发明所采用的具体技术方案如下:
一种融合Copulas理论和关联规则挖掘的中文查询扩展方法,包括下列步骤:
步骤1:中文查询检索中文文档,从初检结果中提取前列n篇初检文档构建伪相关反馈文档集,然后预处理伪相关反馈文档集,具体步骤如下:
(1.1)中文查询检索中文文档得到初检结果。
(1.2)从初检结果中提取前列n篇初检文档构建伪相关反馈文档集。
(1.3)预处理伪相关反馈文档集,然后转入步骤2。
伪相关反馈文档集预处理内容是:采用盘古分词工具(详见:https://archive.codeplex.co m/?p=pangusegment)分词,去除中文停用词,提取中文特征词,并计算特征词权值,最后构建伪相关反馈中文文档库和中文特征词库。
本发明采用TF-IDF(term frequency–inverse document frequency)加权技术(见文献:Ricardo Baeza-Yates BerthierRibeiro-Neto等著,王知津等译,《现代信息检索》,机械工业出版社,2005年:21-22。)计算特征词权值。
步骤2:利用基于Copulas理论的支持度对伪相关反馈文档集挖掘含有原查询词项的特征词频繁项集,具体步骤如下:
(2.1)从中文特征词库中提取特征词作为1_候选项集C1。
(2.2)计算1_候选项集C1的基于Copulas理论的支持度Sup(C1),如式(1)所示:
式(1)中,Count(C1)表示1_候选项集C1在伪相关反馈中文文档库中出现的频度,DocCount表示伪相关反馈中文文档库总文档数量,Weight(C1)表示1_候选项集C1在伪相关反馈中文文档库中的项集权重,ItemsWeight表示伪相关反馈中文文档库中全体中文特征词的权重累加和。
(2.3)提取Sup(C1)≥最小支持度阈值ms的C1作为1_频繁项集L1,并添加到频繁项集集合FIS(Frequent ItemSet)。
(2.4)采用自连接方法将(k-1)_频繁项集Lk-1自连接得到k_候选项集Ck,所述k≥2。
所述自连接方法采用Apriori算法(见文献:Agrawal R,Imielinski T,SwamiA.Mining association rules between sets of items in large database[C]//Proceedings of the 1993ACM SIGMOD International Conference on Management ofData,Washington D C,USA,1993:207-216.)中给出的候选项集连接方法。
(2.5)当k=2,判断k_候选项集Ck是否含有中文原查询词项,如果该Ck不含有原查询词项,则删除该Ck,如果该Ck含有原查询词项,则留下该Ck,然后,留下的Ck转入步骤(2.6);如果k>2,则Ck直接转入步骤(2.6)。
(2.6)计算k_候选项集Ck的基于Copulas理论的支持度Sup(Ck),如式(2)所示:
式(2)中,Count(Ck)表示k_候选项集Ck在伪相关反馈中文文档库中出现的频度,Weight(Ck)表示k_候选项集Ck在伪相关反馈中文文档库中的项集权重;DocCount和ItemsWeight的定义与式(1)相同。
(2.7)如果Sup(Ck)≥ms,则该Ck就是k_频繁项集Lk,添加到FIS,然后,转入步骤(2.8),否则,直接转入步骤(2.8)。
(2.8)k加1后转入步骤(2.4)继续顺序执行其后步骤,直到Lk为空集才转入步骤3。
步骤3:利用基于Copulas理论的置信度对特征词频繁项集挖掘含有原查询词项的关联规则模式,具体步骤如下:
(3.1)从FIS中任意取出k_频繁项集Lk,所述k≥2。
(3.3)计算基于Copulas理论的关联规则Qi→ETj的置信度Conf(Qi→ETj),如式(3)所示:
式(3)中,Count(Qi)表示真子集项集Qi在伪相关反馈中文文档库中出现的频度,Weight(Qi)表示真子集项集Qi在伪相关反馈中文文档库中的项集权重,Count(Qi∪ETj)表示项集(Qi∪ETj)在伪相关反馈中文文档库中出现的频度,Weight(Qi∪ETj)表示项集(Qi∪ETj)在伪相关反馈中文文档库中的项集权重;DocCount和ItemsWeight的定义与式(1)相同。
(3.4)提取Conf(Qi→ETj)≥最小置信度阈值mc的关联规则Qi→ETj,加入到特征词关联规则模式集合AR(Association Rule)。
(3.5)从Lk中提取其他的两类真子集项集ETj和Qi,且Qi∪ETj=Lk,然后,转入步骤(3.3)再顺序进行其后步骤,如此循环,直到Lk的所有真子集项集当且仅当都被取出一次为止,这时转入如步骤(3.1),进行新一轮关联规则模式挖掘,从FIS中再取出任意其他Lk,再顺序进行其后步骤,如此循环,直到FIS中所有k_频繁项集Lk当且仅当都被取出一次为止,这时关联规则模式挖掘结束,转入如下步骤4。
步骤4:从特征词关联规则模式集合AR中提取关联规则后件ETj作为扩展词,计算扩展词权值wETj。所述扩展词权值wETj计算公式如式(4)所示:
式(4)中,max()表示关联规则置信度的最大值,当多个关联规则模式中同时出现相同的扩展词时,取其置信度值最大的作为该扩展词的权值;Count(Qi)、Weight(Qi)、Count(Qi∪ETj)、Weight(Qi∪ETj)、DocCount、ItemsWeight的定义与式(3)相同。
步骤5:扩展词与原查询词组合为新查询再次检索中文文档,实现查询扩展。
本发明与现有技术相比,具有以下有益效果:
(1)本发明提出了一种融合Copulas理论和关联规则挖掘的中文查询扩展方法,该方法利用基于Copulas理论的支持度与置信度对伪相关反馈文档集挖掘含有原查询词项的特征词频繁项集和关联规则模式,从这些规则模式中提取扩展词,扩展词与原查询词组合为新查询再次检索中文文档,实现查询扩展。实验结果表明,本方法能提高和改善信息检索性能,能有效遏制查询主题漂移和词不匹配问题,具有较好的应用价值和推广前景。
(2)将标准数据集NTCIR-5CLIR作为本发明方法实验语料。选择2种现有方法作为本发明的对比方法,实验结果表明,与基准检索比较,本发明方法MAP平均增幅最高分别可达21.78%,与近年现有同类的扩展方法比较,其平均增幅最高分别可达17.02%和10.16%,实验效果显著,说明本发明方法的检索性能均优于基准检索和对比方法,能提高信息检索性能,减少信息检索中查询漂移和词不匹配问题,具有很高的应用价值和广阔的推广前景。
附图说明
图1为本发明所述的融合Copulas理论和关联规则挖掘的中文查询扩展方法的总体流程示意图。
具体实施方式
一、为了更好地说明本发明的技术方案,下面将本发明涉及的相关概念介绍如下:
1.项集
在文本挖掘中,将一篇文本文档当作一个事务,文档中的各个特征词称为项目,特征词项目的集合称为项集,项集中所有项目的个数称为项集长度。k_项集指含有k个项目的项集,k即为项集的长度。
2.关联规则的前件和后件
设x、y是任意的特征词项集,将形如x→y的蕴含式称为关联规则,其中,x称为规则前件,y称为规则后件。
3.查询扩展
查询扩展指的是对原查询权重进行改造,或者添加与原查询语义相关的其他特征词,弥补原查询过于简单导致的语义信息不足,达到改善信息检索性能的目的。
4.基于Copulas理论的支持度与置信度
Copulas函数理论(见文献:Sklar A.Fonctions de repartitionàn dimensionset leursmarges[J].Publication de l'Institut de Statistiquel'Universite Paris,1959,8(1):229-231.)用来描述变量间相关性,可以将任意形式的分布进行合并连接为一个有效的多元分布函数。借鉴Copulas函数理论,本发明提出基于Copulas理论的特征词项集(T1∪T2)的支持度Sup(T1∪T2),如式(5)所示:
式(5)中,Count(T1∪T2)表示项集(T1∪T2)在伪相关反馈中文文档库中出现的频度,DocCount表示伪相关反馈中文文档库总文档数量,Weight(T1∪T2)表示项集(T1∪T2)在伪相关反馈中文文档库中的项集权重,ItemsWeight表示伪相关反馈中文文档库中全体中文特征词的权重累加和。
基于Copulas理论的关联规则(T1→T2)的置信度Conf(T1→T2),如式(6)所示:
式(6)中,Count(T1)表示项集T1在伪相关反馈中文文档库中出现的频度,Weight(T1)表示项集T1在伪相关反馈中文文档库中的项集权重;Count(T1∪T2)、DocCount、Weight(T1∪T2)、ItemsWeight的定义与式(5)相同。
5.扩展词权值计算
本发明扩展词来源于基于Copulas理论的关联规则后件ETj,并且该关联规则的前件必须是查询词项集Qi,以及所述关联规则的支持度Sup(Qi→ETj)≥最小支持度阈值ms和置信度Conf(Qi→ETj)≥最小置信度阈值mc。由于关联规则置信度反映了查询词项和扩展词项之间的确定性和可信程度,其值越高,表明查询词与扩展词越相关,因此,本发明将置信度值作为扩展词的权值wETj的计算依据,如式(7)所示:
式(7)中,MAX()表示关联规则置信度的最大值,即当多个关联规则模式中同时出现相同的扩展词时,取其置信度值最大的作为该扩展词的权值;Count(Qi)表示真子集项集Qi在伪相关反馈中文文档库中出现的频度,Weight(Qi)表示真子集项集Qi在伪相关反馈中文文档库中的项集权重,Count(Qi∪ETj)表示真子集项集(Qi∪ETj)在伪相关反馈中文文档库中出现的频度,Weight(Qi∪ETj)表示真子集项集(Qi∪ETj)在伪相关反馈中文文档库中的项集权重;DocCount、ItemsWeight的定义与式(5)相同。
二、下面结合附图和具体对比实验来对本发明作进一步说明。
如图1所示,本发明的融合Copulas理论和关联规则挖掘的中文查询扩展方法,包括下列步骤:
步骤1:中文查询检索中文文档,从初检结果中提取前列n篇初检文档构建伪相关反馈文档集,然后预处理伪相关反馈文档集,具体步骤如下:
(1.1)中文查询检索中文文档得到初检结果。
(1.2)从初检结果中提取前列n篇初检文档构建伪相关反馈文档集。
(1.3)预处理伪相关反馈文档集,然后转入步骤2。
伪相关反馈文档集预处理内容是:采用盘古分词工具分词,去除中文停用词,提取中文特征词,并计算特征词权值,最后构建伪相关反馈中文文档库和中文特征词库。所述特征词权值采用TF-IDF加权技术计算。
步骤2:利用基于Copulas理论的支持度对伪相关反馈文档集挖掘含有原查询词项的特征词频繁项集,具体步骤如下:
(2.1)从中文特征词库中提取特征词作为1_候选项集C1。
(2.2)计算1_候选项集C1的基于Copulas理论的支持度Sup(C1),如式(1)所示:
式(1)中,Count(C1)表示1_候选项集C1在伪相关反馈中文文档库中出现的频度,DocCount表示伪相关反馈中文文档库总文档数量,Weight(C1)表示1_候选项集C1在伪相关反馈中文文档库中的项集权重,ItemsWeight表示伪相关反馈中文文档库中全体中文特征词的权重累加和。
(2.3)提取Sup(C1)≥最小支持度阈值ms的C1作为1_频繁项集L1,并添加到频繁项集集合FIS(Frequent ItemSet)。
(2.4)采用自连接方法将(k-1)_频繁项集Lk-1自连接得到k_候选项集Ck,所述k≥2。
所述自连接方法采用Apriori算法中给出的候选项集连接方法。
(2.5)当k=2,判断k_候选项集Ck是否含有中文原查询词项,如果该Ck不含有原查询词项,则删除该Ck,如果该Ck含有原查询词项,则留下该Ck,然后,留下的Ck转入步骤(2.6);如果k>2,则Ck直接转入步骤(2.6)。
(2.6)计算k_候选项集Ck的基于Copulas理论的支持度Sup(Ck),如式(2)所示:
式(2)中,Count(Ck)表示k_候选项集Ck在伪相关反馈中文文档库中出现的频度,Weight(Ck)表示k_候选项集Ck在伪相关反馈中文文档库中的项集权重;DocCount和ItemsWeight的定义与式(1)相同。
(2.7)如果Sup(Ck)≥ms,则该Ck就是k_频繁项集Lk,添加到FIS,然后,转入步骤(2.8),否则,直接转入步骤(2.8)。
(2.8)k加1后转入步骤(2.4)继续顺序执行其后步骤,直到Lk为空集才转入步骤3。
步骤3:利用基于Copulas理论的置信度对特征词频繁项集挖掘含有原查询词项的关联规则模式,具体步骤如下:
(3.1)从FIS中任意取出k_频繁项集Lk,所述k≥2。
(3.3)计算基于Copulas理论的关联规则Qi→ETj的置信度Conf(Qi→ETj),如式(3)所示:
式(3)中,Count(Qi)表示真子集项集Qi在伪相关反馈中文文档库中出现的频度,Weight(Qi)表示真子集项集Qi在伪相关反馈中文文档库中的项集权重,Count(Qi∪ETj)表示项集(Qi∪ETj)在伪相关反馈中文文档库中出现的频度,Weight(Qi∪ETj)表示项集(Qi∪ETj)在伪相关反馈中文文档库中的项集权重;DocCount和ItemsWeight的定义与式(1)相同。
(3.4)提取Conf(Qi→ETj)≥最小置信度阈值mc的关联规则Qi→ETj,加入到特征词关联规则模式集合AR(Association Rule)。
(3.5)从Lk中提取其他的两类真子集项集ETj和Qi,且Qi∪ETj=Lk,然后,转入步骤(3.3)再顺序进行其后步骤,如此循环,直到Lk的所有真子集项集当且仅当都被取出一次为止,这时转入如步骤(3.1),进行新一轮关联规则模式挖掘,从FIS中再取出任意其他Lk,再顺序进行其后步骤,如此循环,直到FIS中所有k_频繁项集Lk当且仅当都被取出一次为止,这时关联规则模式挖掘结束,转入如下步骤4。
步骤4:从特征词关联规则模式集合AR中提取关联规则后件ETj作为扩展词,计算扩展词权值wETj。所述扩展词权值wETj计算公式如式(4)所示:
式(4)中,max()表示关联规则置信度的最大值,当多个关联规则模式中同时出现相同的扩展词时,取其置信度值最大的作为该扩展词的权值;Count(Qi)、Weight(Qi)、Count(Qi∪ETj)、Weight(Qi∪ETj)、DocCount、ItemsWeight的定义与式(3)相同。
步骤5:扩展词与原查询词组合为新查询再次检索中文文档,实现查询扩展。
实验设计与结果:
为了说明本发明方法的有效性,我们将本发明方法和对比方法的进行查询扩展检索实验,比较本发明方法和对比方法的扩展检索性能。
1.实验数据及预处理:
本发明将NTCIR-5CLIR(详细见:http://research.nii.ac.jp/ntcir/data/data-en.html.)中文文本语料Economic Daily News(edn)、-Ming Hseng News(mhn)和UnitedExpress(ude)的2000年和2001年新闻文本作为实验数据,简称中文edn2000、edn2001、mhn2000、mhn2001、ude2000和ude2001语料集,共计434882篇中文文档,作为本发明实验数据。除了文档集外,该语料有查询集和结果集。查询集有50个中文查询,每个查询有4种类型查询主题,结果集有Rigid和Relax标准,Rigid表示与查询高度相关和相关的情况,Relax表示与查询高度相关、相关和部分相关。本文采用Title和Description(简称Desc)查询主题进行检索实验,其中,Title查询属于短查询,以名词和名词性短语简要描述查询主题,Desc查询属于长查询,以句子形式简要描述查询主题查询。本发明实验结果评价指标是MAP(Mean Average Precision)。
本发明实验环境是:采用开源的全文检索引擎开发包Lucene.Net(详见:http://lucenenet.apache.org/)作为基础检索环境,在此基础上编写本发明方法和对比方法的实验源程序,验证本发明方法的检索性能及其有效性。
基准检索是原始查询提交到Lucene.Net进行初次检索得到的检索结果。
2.对比方法:
对比方法1:基于现有的完全加权正负关联模式挖掘的查询扩展方法,采用文献(黄名选,蒋曹清.基于完全加权正负关联模式挖掘的越-英跨语言查询译后扩展[J].电子学报,2018,46(12):3029-3036.)的完全加权正负关联模式挖掘技术挖掘加权正负扩展词,正扩展词中去除负扩展词后得到最终扩展词,实验参数是:ms∈{0.09,0.1,0.11,0.13,0.15},mc=0.1,α=0.3,minPR=0.1和minNR=0.01。
对比方法2:基于现有的多支持度阈值的频繁模式挖掘的查询扩展方法,采用文献(Zhang H R,Zhang J W,Wei X Y,et al.A new frequent pattern mining algorithmwith weighted multiple minimum supports[J].Intelligent Automation&SoftComputing,2017,23(4):605-612.)的基于多支持度阈值的频繁模式挖掘技术挖掘伪相关反馈文档集中那些规则前件为原查询词项的加权关联规则,将规则后件作为扩展词,其中,实验参数是:mc=0.1,LMS=0.2,HMS=0.25,WT=0.1,ms∈{0.2,0.25,0.3,0.35,0.4}。
3.实验方法和结果如下:
运行本发明方法和对比方法的源程序以及Lucene.Net,提交50个中文查询分别在6个数据集上进行检索实验,得到基准检索、对比方法和本发明方法的检索结果MAP平均值,如表1和表2所示,其中,“本发明方法平均增幅(%)”是指本发明方法相对于基准检索和对比方法的6个数据集检索结果的平均增幅,其计算方法是先计算本发明方法在各个数据集上的增幅,然后累加这些增幅再除以6即得总的平均增幅。例如,本发明方法相对于基准检索的平均增幅(%)=(((0.4834-0.4278)÷0.4278+(0.2657-0.1992)÷0.1992+(0.4884-0.3701)÷0.3701+(0.2927-0.2497)÷0.2497+(0.3521-0.3049)÷0.3049+(0.3762-0.3144)÷0.3144)×100)÷6=21.78%,其余类似。实验时,伪相关反馈文档数n=20,本发明方法实验参数:ms∈(0.008,0.009,0.01,0.011,0.012),mc=0.1。
表1本文发明方法与基准检索、对比方法的检索性能MAP值比较(Title查询)
表2本文发明方法与基准检索、对比方法的检索性能MAP值比较(Desc查询)
表1和表2表明,本发明方法在6个数据集上的检索结果都得到了改善,其MAP平均值或者平均增幅都高于基准检索和对比方法的,具体表现如下:①与基准检索比较,本文发明方法MAP平均增幅最高可达21.78%,检索性能改善效果显著;②与对比方法比较,本文算法MAP平均增幅最高分别可达17.02%和10.16%,说明本发明方法扩展检索性能高于同类的对比方法;③本发明方法Desc查询的检索结果MAP平均增幅比Title查询的高,说明本发明方法对长查询扩展性能的提升更有效。
实验结果表明,本发明方法是有效的,确实能提高息检索性能,具有很高的应用价值和广阔的推广前景。
Claims (6)
1.一种融合Copulas理论和关联规则挖掘的中文查询扩展方法,其特征在于,包括下列步骤:
步骤1:中文查询检索中文文档,从初检结果中提取前列n篇初检文档构建伪相关反馈文档集,然后预处理伪相关反馈文档集,具体步骤如下:
(1.1)中文查询检索中文文档得到初检结果;
(1.2)从初检结果中提取前列n篇初检文档构建伪相关反馈文档集;
(1.3)预处理伪相关反馈文档集,然后转入步骤2;预处理内容是:采用盘古分词工具分词,去除中文停用词,提取中文特征词,并计算特征词权值,最后构建伪相关反馈中文文档库和中文特征词库;
步骤2:利用基于Copulas理论的支持度对伪相关反馈文档集挖掘含有原查询词项的特征词频繁项集,具体步骤如下:
(2.1)从中文特征词库中提取特征词作为1_候选项集C1;
(2.2)计算1_候选项集C1的基于Copulas理论的支持度Sup(C1);
(2.3)提取Sup(C1)≥最小支持度阈值ms的C1作为1_频繁项集L1,并添加到频繁项集集合FIS;
(2.4)采用自连接方法将(k-1)_频繁项集Lk-1自连接得到k_候选项集Ck,所述k≥2;
(2.5)当k=2,判断k_候选项集Ck是否含有中文原查询词项,如果该Ck不含有原查询词项,则删除该Ck,如果该Ck含有原查询词项,则留下该Ck,然后,留下的Ck转入步骤(2.6);如果k>2,则Ck直接转入步骤(2.6);
(2.6)计算k_候选项集Ck的基于Copulas理论的支持度Sup(Ck);
(2.7)如果Sup(Ck)≥ms,则该Ck就是k_频繁项集Lk,添加到FIS,然后,转入步骤(2.8),否则,直接转入步骤(2.8);
(2.8)k加1后转入步骤(2.4)继续顺序执行其后步骤,直到Lk为空集才转入步骤3;
步骤3:利用基于Copulas理论的置信度对特征词频繁项集挖掘含有原查询词项的关联规则模式,具体步骤如下:
(3.1)从FIS中任意取出k_频繁项集Lk,所述k≥2;
(3.3)计算基于Copulas理论的关联规则Qi→ETj的置信度Conf(Qi→ETj);
(3.4)提取Conf(Qi→ETj)≥最小置信度阈值mc的关联规则Qi→ETj,加入到特征词关联规则模式集合AR;
(3.5)从Lk中提取其他的两类真子集项集ETj和Qi,且Qi∪ETj=Lk,然后,转入步骤(3.3)再顺序进行其后步骤,如此循环,直到Lk的所有真子集项集当且仅当都被取出一次为止,这时转入如步骤(3.1),进行新一轮关联规则模式挖掘,从FIS中再取出任意其他Lk,再顺序进行其后步骤,如此循环,直到FIS中所有k_频繁项集Lk当且仅当都被取出一次为止,这时关联规则模式挖掘结束,转入如下步骤4;
步骤4:从特征词关联规则模式集合AR中提取关联规则后件ETj作为扩展词,计算扩展词权值wETj;
步骤5:扩展词与原查询词组合为新查询再次检索中文文档,实现查询扩展。
2.根据权利要求1所述的融合Copulas理论和关联规则挖掘的中文查询扩展方法,其特征在于:在所述步骤(2.2)中,1_候选项集C1的基于Copulas理论的支持度Sup(C1)的计算按式(1)进行:
式(1)中,Count(C1)表示1_候选项集C1在伪相关反馈中文文档库中出现的频度,DocCount表示伪相关反馈中文文档库总文档数量,Weight(C1)表示1_候选项集C1在伪相关反馈中文文档库中的项集权重,ItemsWeight表示伪相关反馈中文文档库中全体中文特征词的权重累加和;
在所述步骤(2.6)中,k_候选项集Ck的基于Copulas理论的支持度Sup(Ck)的计算按式(2)进行:
式(2)中,Count(Ck)表示k_候选项集Ck在伪相关反馈中文文档库中出现的频度,Weight(Ck)表示k_候选项集Ck在伪相关反馈中文文档库中的项集权重;DocCount和ItemsWeight的定义与式(1)相同。
3.根据权利要求1所述的融合Copulas理论和关联规则挖掘的中文查询扩展方法,其特征在于:在所述步骤(3.3)中,基于Copulas理论的关联规则Qi→ETj的置信度Conf(Qi→ETj)的计算按式(3)进行:
式(3)中,Count(Qi)表示真子集项集Qi在伪相关反馈中文文档库中出现的频度,Weight(Qi)表示真子集项集Qi在伪相关反馈中文文档库中的项集权重,Count(Qi∪ETj)表示项集(Qi∪ETj)在伪相关反馈中文文档库中出现的频度,Weight(Qi∪ETj)表示项集(Qi∪ETj)在伪相关反馈中文文档库中的项集权重;DocCount表示伪相关反馈中文文档库总文档数量,ItemsWeight表示伪相关反馈中文文档库中全体中文特征词的权重累加和。
4.根据权利要求1所述的融合Copulas理论和关联规则挖掘的中文查询扩展方法,其特征在于:在所述步骤4中,扩展词权值wETj的计算按式(4)进行:
式(4)中,max()表示关联规则置信度的最大值,当多个关联规则模式中同时出现相同的扩展词时,取其置信度值最大的作为该扩展词的权值;Count(Qi)表示真子集项集Qi在伪相关反馈中文文档库中出现的频度,Weight(Qi)表示真子集项集Qi在伪相关反馈中文文档库中的项集权重,Count(Qi∪ETj)表示项集(Qi∪ETj)在伪相关反馈中文文档库中出现的频度,Weight(Qi∪ETj)表示项集(Qi∪ETj)在伪相关反馈中文文档库中的项集权重;DocCount表示伪相关反馈中文文档库总文档数量,ItemsWeight表示伪相关反馈中文文档库中全体中文特征词的权重累加和。
5.根据权利要求1所述的融合Copulas理论和关联规则挖掘的中文查询扩展方法,其特征在于:在所述步骤(1.3)中,采用TF-IDF加权技术计算特征词权值。
6.根据权利要求1所述的融合Copulas理论和关联规则挖掘的中文查询扩展方法,其特征在于:在所述步骤(2.4)中,所述自连接方法采用中给出的候选项集连接方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010774431.9A CN111897927B (zh) | 2020-08-04 | 2020-08-04 | 融合Copulas理论和关联规则挖掘的中文查询扩展方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010774431.9A CN111897927B (zh) | 2020-08-04 | 2020-08-04 | 融合Copulas理论和关联规则挖掘的中文查询扩展方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111897927A CN111897927A (zh) | 2020-11-06 |
CN111897927B true CN111897927B (zh) | 2022-08-26 |
Family
ID=73245573
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010774431.9A Expired - Fee Related CN111897927B (zh) | 2020-08-04 | 2020-08-04 | 融合Copulas理论和关联规则挖掘的中文查询扩展方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111897927B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113342855B (zh) * | 2021-06-24 | 2022-03-01 | 汇付天下有限公司 | 一种基于大数据的数据匹配方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103064945A (zh) * | 2012-12-26 | 2013-04-24 | 吉林大学 | 基于本体的情境搜索方法 |
CN109829104A (zh) * | 2019-01-14 | 2019-05-31 | 华中师范大学 | 基于语义相似度的伪相关反馈模型信息检索方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080270364A1 (en) * | 2007-04-30 | 2008-10-30 | Google Inc. | Expansion rule evaluation |
US9280587B2 (en) * | 2013-03-15 | 2016-03-08 | Xerox Corporation | Mailbox search engine using query multi-modal expansion and community-based smoothing |
-
2020
- 2020-08-04 CN CN202010774431.9A patent/CN111897927B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103064945A (zh) * | 2012-12-26 | 2013-04-24 | 吉林大学 | 基于本体的情境搜索方法 |
CN109829104A (zh) * | 2019-01-14 | 2019-05-31 | 华中师范大学 | 基于语义相似度的伪相关反馈模型信息检索方法及系统 |
Non-Patent Citations (4)
Title |
---|
Query Expansion for Bangla Search Engine Pipilika;Md. Rezaul Islam;《2020 IEEE Region 10 Symposium (TENSYMP)》;20200607;全文 * |
基于Copulas框架的混合式查询扩展方法;张书波等;《计算机科学》;20160615;全文 * |
基于句结构的主题分类模型改进算法;韩奕农等;《电子技术与软件工程》;20200215(第04期);全文 * |
融合Copulas理论和关联规则挖掘的查询扩展;黄名选;《模式识别与人工智能》;20210228;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111897927A (zh) | 2020-11-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wan et al. | Single document keyphrase extraction using neighborhood knowledge. | |
CN112256843B (zh) | 一种基于tf-idf方法优化的新闻关键词提取方法及系统 | |
Raghav et al. | Analyzing the extraction of relevant legal judgments using paragraph-level and citation information | |
Chen et al. | LinkingPark: An Integrated Approach for Semantic Table Interpretation. | |
CN109299278B (zh) | 基于置信度-相关系数框架挖掘规则前件的文本检索方法 | |
Mao et al. | Automatic keywords extraction based on co-occurrence and semantic relationships between words | |
CN109815401A (zh) | 一种应用于Web人物搜索的人名消歧方法 | |
Al-Lahham et al. | Conditional arabic light stemmer: condlight. | |
Gunasekara et al. | Context aware stopwords for Sinhala Text classification | |
CN111897927B (zh) | 融合Copulas理论和关联规则挖掘的中文查询扩展方法 | |
CN109739953B (zh) | 基于卡方分析-置信度框架和后件扩展的文本检索方法 | |
CN111897922A (zh) | 基于模式挖掘与词向量相似度计算的中文查询扩展方法 | |
CN111897928A (zh) | 查询词嵌入扩展词和统计扩展词并集的中文查询扩展方法 | |
CN109299292B (zh) | 基于矩阵加权关联规则前后件混合扩展的文本检索方法 | |
CN111897923A (zh) | 基于词向量与关联模式交集扩展的文本检索方法 | |
CN109726263B (zh) | 基于特征词加权关联模式挖掘的跨语言译后混合扩展方法 | |
CN111897926A (zh) | 深度学习与扩展词挖掘交集融合的中文查询扩展方法 | |
Wan et al. | Single document summarization with document expansion | |
CN111897919A (zh) | 基于Copulas函数和伪相关反馈规则扩展的文本检索方法 | |
CN109684465B (zh) | 基于项集权值比较的模式挖掘和混合扩展的文本检索方法 | |
CN109684464B (zh) | 通过权值比较实现规则后件挖掘的跨语言查询扩展方法 | |
Li et al. | Keyphrase extraction and grouping based on association rules | |
CN113609247A (zh) | 一种基于改进Simhash算法的大数据文本去重技术 | |
CN111897924A (zh) | 基于关联规则与词向量融合扩展的文本检索方法 | |
CN111897921A (zh) | 基于词向量学习和模式挖掘融合扩展的文本检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220826 |