CN109684465B - 基于项集权值比较的模式挖掘和混合扩展的文本检索方法 - Google Patents

基于项集权值比较的模式挖掘和混合扩展的文本检索方法 Download PDF

Info

Publication number
CN109684465B
CN109684465B CN201811649207.6A CN201811649207A CN109684465B CN 109684465 B CN109684465 B CN 109684465B CN 201811649207 A CN201811649207 A CN 201811649207A CN 109684465 B CN109684465 B CN 109684465B
Authority
CN
China
Prior art keywords
item
item set
weight
document
association rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811649207.6A
Other languages
English (en)
Other versions
CN109684465A (zh
Inventor
黄名选
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangxi University of Finance and Economics
Original Assignee
Guangxi University of Finance and Economics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi University of Finance and Economics filed Critical Guangxi University of Finance and Economics
Priority to CN201811649207.6A priority Critical patent/CN109684465B/zh
Publication of CN109684465A publication Critical patent/CN109684465A/zh
Application granted granted Critical
Publication of CN109684465B publication Critical patent/CN109684465B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了基于项集权值比较的模式挖掘和混合扩展的文本检索方法,首先用户查询首次检索得到初检前列文档,构建并预处理初检相关文档集,通过比较项集权值挖掘含有原查询词项的频繁项集,通过项集中最小项目的项集权值和最大项目的项集权值的比值、项集的项目权值最大者或最大项目权值对候选项集剪枝,通过计算卡方值和置信度值从频繁项集提取含有原查询词项的关联规则,将那些后件是原查询词项的关联规则前件以及前件是原查询词项的关联规则后件作为扩展词,扩展词与原查询词组合为新查询再次检索文档集得到最终检索结果文档返回给用户。本发明采用基于项集权值比值的剪枝和混合扩展技术,检索性能得到改善和提升,应用价值高,推广前景广阔。

Description

基于项集权值比较的模式挖掘和混合扩展的文本检索方法
技术领域
本发明属于信息检索领域,具体基于项集权值比较的模式挖掘和混合扩展的文本检索方法。
背景技术
当前,网络信息资源已经成为了隐含巨大经济价值和研究价值的网络大数据,如何高效、准确地从网络大数据里找到更多所需的信息,一直是信息检索领域研究的热点问题。搜索引擎在一定程度上缓解了人们在互联网检索信息的困难,但是,现有的搜索引擎或者web信息检索系统往往是基于关键词机械式符号匹配的检索,很难避免信息过载和词不匹配等问题,例如,查询词是“电脑”,尽管“计算机”描述的是相同的含义,但是,“电脑”、“计算机”在信息检索系统里被认为是不同的检索词,这样,仅仅含有关键词“计算机”,而不含“电脑”的文档不能被检索出来,这是因为词不匹配的原因。
发明内容
为了解决上述问题,本发明提出基于项集权值比较的模式挖掘和混合扩展的文本检索方法,采用基于项集权值比值的剪枝和混合扩展方法,能挖掘出与原查询相关的扩展词,能解决信息检索中查询主题漂移和词不匹配问题,提高和改善文本信息检索性能,具有较好的应用价值和推广前景。
本发明的技术方案如下:
基于项集权值比较的模式挖掘和混合扩展的文本检索方法,包括下列步骤:
步骤1.用户查询首次检索文档得到初检结果,用户对初检结果进行相关反馈判断得到初检相关文档集,预处理所述相关文档集,具体步骤如下:
(1.1)用户查询首次检索文档集得到初检前列文档。
(1.2)用户对初检前列文档进行相关性判断得到初检相关文档,构建初检相关文档集。
(1.3)预处理初检相关文档集,计算初检相关文档集特征词权值,构建文档索引库和特征词库。
初检相关文档集预处理要根据不同语种采用相应的预处理方法,例如,对于英文文档,预处理方法是:去除英文停用词,采用Porter程序(详细见网址:http://tartarus.org/martin/PorterStemmer)提取得到英文特征词词干,计算英文特征词权值;对于中文文档,预处理方法是:去除中文停用词,对中文文档进行分词后提取中文特征词,计算中文特征词权值。
所述特征词权值的计算公式,如式(1)所示的计算公式。
Figure BDA0001932630830000021
式(1)中,wij表示文档di中特征词tj的权值,tfj,i表示特征词tj在文档di中的词频,普遍将tfj,i进行标准化处理,所述标准化处理是指将文档di中每个特征词所述的tfj,i除以文档di的最大词频,idfj是逆文档频度(Inverse Document Frequency)。
步骤2.结合原查询词项,挖掘含有原查询词项的特征词频繁项集,并进行项集剪枝,具体步骤如下:
(2.1)从特征词库中提取特征词作为1_候选项集C1
(2.2)扫描文档索引库,统计文档总数n和统计C1的项集权值w[C1];
(2.3)计算最小权值支持阈值MWS。所述MWS计算公式如式(2)所示。
MWS=n×ms (2)
式(2)中,所述ms为最小支持度阈值,n为文档索引库的文本文档总数;
(2.4)如果w[C1]≥MWS,则C1就是特征词1_频繁项集L1,添加到频繁项集集合FIS(Frequent ItemSet)。
(2.5)采用Aproiri连接方法将特征词1_频繁项集L1自连接得到多个2_候选项集C2
所述Aproiri连接方法详见文献(Agrawal R,Imielinski T,Swami A.Miningassociation rules between sets of items in large database[C]//Proceedings ofthe 1993 ACM SIGMOD International Conference on Management of Data,WashingtonD C,USA,1993:207-216.)
(2.6)剪枝不含原查询词项的2_候选项集C2
(2.7)对余下的2_候选项集C2,扫描文档索引库统计分别C2的项集权值w[C2];
(2.8)如果w[C2]≥MWS,则C2就是特征词2_频繁项集L2,添加到频繁项集集合FIS(Frequent ItemSet)。
(2.9)采用Aproiri连接方法将特征词(k-1)_频繁项集Lk-1自连接得到多个k_候选项集Ck=(i1,i2,…,ik),所述k≥2;
(2.10)扫描文档索引库,分别统计各Ck的项集权值w[Ck]和各Ck中最大的项目权值wm,分别得到所述最大的项目权值wm对应的项目im,所述m∈(1,2,…,k);
(2.11)如果所述项目im对应的1_项集(im)是非频繁的,或者wm<MWS,则剪枝所述Ck
(2.12)对于余下的Ck,如果w[Ck]≥MWS×k并且wmin[(iq)]≥minRate×wmax[(ip)],那么,对应的Ck就是特征词k_频繁项集Lk,添加到频繁项集集合FIS;所述minRate为最小项集权值比阈值;所述wmin[(iq)]为最小项目的项集权值,wmax[(ip)]为最大项目的项集权值,wmin[(iq)]和wmax[(ip)]的含义如下:假设k_候选项集Ck=(i1,i2,…ik),Ck的各个项目i1,i2,…,ik单独作为1_项集时对应为(i1),(i2),…,(ik),在文档索引库中统计1_项集(i1),(i2),…,(ik)的项集权值分别为w[(i1)],w[(i2)],…,w[(ik)],将w[(i1)],w[(i2)],…,w[(ik)]中最小的项集权值称为最小项目的项集权值,记为wmin[(iq)],对应的1_项集记为(iq),将与Ck对应的所述项目iq称为Ck的最小项目,同理,将w[(i1)],w[(i2)],…,w[(ik)]中最大的项集权值称为最大项目的项集权值,记为wmax[(ip)],对应的1_项集记为(ip),将与Ck对应的所述项目ip称为Ck的最大项目;所述q∈(1,2,…,k),p∈(1,2,…,k);
(2.13)如果特征词k_频繁项集Lk为空集,这时,则特征词频繁项集挖掘结束,转入如下步骤3,否则,k加1后转入步骤(2.9)继续顺序循环。
步骤3.通过计算项集的卡方值和关联规则置信度值从频繁项集中提取含有原查询词项的强加权关联规则。
(3.1)构建Lk的所有真子集项集集合;
(3.2)从真子集项集集合中任意取出两个真子集项集qt和Et,且
Figure BDA0001932630830000031
qt∪Et=Lk
Figure BDA0001932630830000032
QTL为原查询词项集合,Et为不含原查询词项的特征词项集Et,计算项集(qt,Et)的卡方(Chi-Square,Chis)值,所述卡方Chis(qt,Et)计算公式如式(3)所示。
Figure BDA0001932630830000033
式(3)中,w[(qt)]为项集qt在文档索引库中项集权值,k1为项集qt的长度,w[(Et)]为项集Et在文档索引库中项集权值,k2为项集Et的长度,w[(qt,Et)]为项集(qt,Et)在文档索引库中的项集权值总和,kL为项集(qt,Et)的项目个数,n为文档索引库的文本文档总数;
(3.3)如果Chis(qt,Et)>0,则计算特征词加权关联规则置信度(WeightedConfidence,WConf)WConf(qt→Et)和WConf(Et→qt)。
若WConf(qt→Et)≥最小置信度阈值mc,则关联规则qt→Et是强关联规则模式,添加到关联规则模式集合AR(Association Rule)。若WConf(Et→qt)≥mc,则Et→qt是强关联规则模式,添加到AR。
所述WConf(qt→Et)和WConf(Et→qt)的计算公式如式(4)和(5)所示。
Figure BDA0001932630830000034
Figure BDA0001932630830000041
式(4)和(5)中,w[(qt)],k1,w[(Et)],k2,w[(qt,Et)],kL的定义同式(3)。
(3.4)如果Lk的每个真子集项集当且仅当都被取出一次,则本次Lk中的特征词关联规则模式挖掘结束,这时从繁项集集合FIS中重新取出另一个Lk,并转入步骤(3.1)进行另一个Lk的关联规则模式挖掘,否则,转入步骤(3.2)再顺序执行各个步骤;如果频繁项集集合FIS中的每个Lk都已经被取出挖掘关联规则模式,则结束关联规则模式挖掘,转入如下步骤4。
步骤4.将那些后件是原查询词项的强关联规则前件以及前件是原查询词项的强关联规则后件作为扩展词,计算所述扩展词权值。
从关联规则模式集合AR中提取每个关联规则Et→qt的前件Et和关联规则qt→Et的后件Et作为查询扩展词,所述扩展词的权值we计算公式如式(6)所示。
Figure BDA0001932630830000042
式(6)中,max(WConf())和max(Chis())分别表示关联规则置信度和卡方值的最大值,
Figure BDA0001932630830000043
表示项集中最小项目的项集权值和最大项目的项集权值的比值的最大值,即当扩展词重复出现在多个关联规则模式时,分别取上述3个度量值的最大值。
步骤5.扩展词与原查询词组合为新查询再次检索文档得到最后检索结果文档返回给用户。
本发明与现有技术相比,具有以下有益效果:
(1)本发明提出一种基于项集权值比较的模式挖掘和混合扩展的文本检索方法。该发明方法通过比较项集权值从初检相关文档集中挖掘含有原查询词项的频繁项集,通过项集中最小项目的项集权值和最大项目的项集权值的比值,以及项集的项目权值最大者或者最大项目权值对项集进行剪枝,通过计算项集的卡方值和关联规则置信度值从频繁项集中提取含有原查询词项的强加权关联规则,最后,将那些后件是原查询词项的强关联规则前件以及前件是原查询词项的强关联规则后件作为扩展词,扩展词与原查询词组合为新查询再次检索文档集得到最终检索结果文档返回给用户。实验结果表明,本发明方法能提高和改善文本检索性能,具有较好的应用价值,推广前景广阔。
(2)选择国际上普遍使用的标准数据集NTCIR-5CLIR的英文文本语料作为本发明方法实验语料。实验结果表明,与现有方法比较,本发明方法的检索结果P@5和P@10值都比对比方法的高,效果显著,说明本发明方法的检索性能均优于现有的对比方法,能提高文本信息检索性能,减少信息检索中查询漂移和词不匹配问题,具有很高的应用价值和广阔的推广前景。
附图说明
图1为本发明基于加权关联规则前后件混合扩展的文本检索方法的流程示意图。
具体实施方式
为了更好地说明本发明的技术方案,下面将本发明涉及的相关概念介绍如下:
1.假设DS={d1,d2,…,dn}是文本文档集(Document Set,DS),其中,di(1≤i≤n)是文档集DS中的第i篇文档,di={t1,t2,…,tm,…,tp},tm(m=1,2,…,p)为文档特征词项目,简称特征项,一般是由字、词或词组构成,di中对应的特征项权值集合Wi={wi1,wi2,…,wim,…,wip},wim为第i篇文档di中第m个特征项tm对应的权值,T={t1,t2,…,tn}表示DS中全体特征项集合,T的各个子集均称为特征项项集,简称项集。
2.关联规则的前件和后件
设T1、T2是任意的文本特征词项集,将形如T1→T2的蕴含式称为文本特征词关联规则,其中,T1称为规则前件,T2称为规则后件。
3.项目权值和项集权值的区别描述如下:假设在文本文档索引库中统计k_候选项集Ck=(i1,i2,…,ik)的项集权值w[Ck],得到Ck各个项目i1,i2,…,ik对应的权值为w1,w2,…,wk,那么,所述w1,w2,…,wk称为项目权值,而Ck的项集权值w[Ck]=w1+w2+…+wk
4.项集中最小项目和最大项目,以及项集中最小项目的项集权值和最大项目的项集权值的含义解释如下:
假设k_候选项集Ck=(i1,i2,…ik),Ck的各个项目i1,i2,…,ik单独作为1_项集时对应为(i1),(i2),…,(ik),在文档索引库中统计1_项集(i1),(i2),…,(ik)的项集权值分别为w[(i1)],w[(i2)],…,w[(ik)],将w[(i1)],w[(i2)],…,w[(ik)]中最小的项集权值称为最小项目的项集权值,记为wmin[(iq)],对应的1_项集记为(iq),将与Ck对应的所述项目iq称为Ck的最小项目,同理,将w[(i1)],w[(i2)],…,w[(ik)]中最大的项集权值称为最大项目的项集权值,记为wmax[(ip)],对应的1_项集记为(ip),将与Ck对应的所述项目ip称为Ck的最大项目;所述q∈(1,2,…,k),p∈(1,2,…,k)。
实施例1
如图1所示,基于项集权值比较的模式挖掘和混合扩展的文本检索方法,包括下列步骤:
步骤1.用户查询首次检索文档得到初检结果,用户对初检结果进行相关反馈判断得到初检相关文档集,预处理所述相关文档集,具体步骤如下:
(1.1)用户查询首次检索文档集得到初检前列文档。
(1.2)用户对初检前列文档进行相关性判断得到初检相关文档,构建初检相关文档集。
(1.3)预处理初检相关文档集,计算初检相关文档集特征词权值,构建文档索引库和特征词库。
初检相关文档集预处理要根据不同语种采用相应的预处理方法,例如,对于英文文档,预处理方法是:去除英文停用词,采用Porter程序(详细见网址:http://tartarus.org/martin/PorterStemmer)提取得到英文特征词词干,计算英文特征词权值;对于中文文档,预处理方法是:去除中文停用词,对中文文档进行分词后提取中文特征词,计算中文特征词权值。
所述特征词权值的计算公式,如式(1)所示的计算公式。
Figure BDA0001932630830000061
式(1)中,wij表示文档di中特征词tj的权值,tfj,i表示特征词tj在文档di中的词频,普遍将tfj,i进行标准化处理,所述标准化处理是指将文档di中每个特征词所述的tfj,i除以文档di的最大词频,idfj是逆文档频度(Inverse Document Frequency)。
步骤2.结合原查询词项,挖掘含有原查询词项的特征词频繁项集,并进行项集剪枝,具体步骤如下:
(2.1)从特征词库中提取特征词作为1_候选项集C1
(2.2)扫描文档索引库,统计文档总数n和统计C1的项集权值w[C1];
(2.3)计算最小权值支持阈值MWS。所述MWS计算公式如式(2)所示。
MWS=n×ms (2)
式(2)中,所述ms为最小支持度阈值,n为文档索引库的文本文档总数;
(2.4)如果w[C1]≥MWS,则C1就是特征词1_频繁项集L1,添加到频繁项集集合FIS(Frequent ItemSet)。
(2.5)采用Aproiri连接方法将特征词1_频繁项集L1自连接得到多个2_候选项集C2
所述Aproiri连接方法详见文献(Agrawal R,Imielinski T,Swami A.Miningassociation rules between sets of items in large database[C]//Proceedings ofthe 1993ACM SIGMOD International Conference on Management of Data,WashingtonD C,USA,1993:207-216.)
(2.6)剪枝不含原查询词项的2_候选项集C2
(2.7)对余下的2_候选项集C2,扫描文档索引库分别统计C2的项集权值w[C2];
(2.8)如果w[C2]≥MWS,则C2就是特征词2_频繁项集L2,添加到频繁项集集合FIS(Frequent ItemSet)。
(2.9)采用Aproiri连接方法将特征词(k-1)_频繁项集Lk-1自连接得到多个k_候选项集Ck=(i1,i2,…,ik),所述k≥2;
(2.10)扫描文档索引库,分别统计各Ck的项集权值w[Ck]和各Ck中最大的项目权值wm,分别得到所述最大的项目权值wm对应的项目im,所述m∈(1,2,…,k);;
(2.11)如果所述项目im对应的1_项集(im)是非频繁的,或者wm<MWS,则剪枝所述Ck
(2.12)对于余下的Ck,如果w[Ck]≥MWS×k并且wmin[(iq)]≥minRate×wmax[(ip)],那么,对应的Ck就是特征词k_频繁项集Lk,添加到频繁项集集合FIS;所述minRate为最小项集权值比阈值;所述wmin[(iq)]为最小项目的项集权值,wmax[(ip)]为最大项目的项集权值,wmin[(iq)]和wmax[(ip)]的含义如下:假设k_候选项集Ck=(i1,i2,…ik),Ck的各个项目i1,i2,…,ik单独作为1_项集时对应为(i1),(i2),…,(ik),在文档索引库中统计1_项集(i1),(i2),…,(ik)的项集权值分别为w[(i1)],w[(i2)],…,w[(ik)],将w[(i1)],w[(i2)],…,w[(ik)]中最小的项集权值称为最小项目的项集权值,记为wmin[(iq)],对应的1_项集记为(iq),将与Ck对应的所述项目iq称为Ck的最小项目,同理,将w[(i1)],w[(i2)],…,w[(ik)]中最大的项集权值称为最大项目的项集权值,记为wmax[(ip)],对应的1_项集记为(ip),将与Ck对应的所述项目ip称为Ck的最大项目;所述q∈(1,2,…,k),p∈(1,2,…,k);
(2.13)如果特征词k_频繁项集Lk为空集,这时,则特征词频繁项集挖掘结束,转入步骤3,否则,k加1后转入步骤(2.9)继续顺序循环。
本发明所述的剪枝采用如下方法:
(1)假设k_候选项集Ck=(i1,i2,…ik),wmin[(iq)]为Ck的最小项目的项集权值,wmax[(ip)]为Ck的最大项目的项集权值,如果wmin[(iq)]<minRate×wmax[(ip)],则所述Ck是无效项集,剪除所述Ck;本发明只挖掘wmin[(iq)]≥minRate×wmax[(ip)]的频繁项集;所述minRate为最小项集权值比阈值。。
(2)如果k_候选项集Ck=(i1,i2,…,ik)中最大的项目权值小于最小权值支持阈值MWS,那么Ck是非频繁的,则可以剪除所述Ck
(3)假设k_候选项集Ck=(i1,i2,…,ik)中最大项目权值对应的项目单独作为1_项集为(im),如果所述1_项集(im)是非频繁的,则可以剪除所述Ck
(4)当挖掘到候选2_项集时,将不含原查询词项的候选2_项集删除,留下含有原查询词项的候选2_项集。
步骤3.通过计算项集的卡方值和关联规则置信度值从频繁项集中提取含有原查询词项的强加权关联规则。
(3.1)构建Lk的所有真子集项集集合;
(3.2)从真子集项集集合中任意取出两个真子集项集qt和Et,且
Figure BDA0001932630830000081
qt∪Et=Lk
Figure BDA0001932630830000082
QTL为原查询词项集合,Et为不含原查询词项的特征词项集Et,计算项集(qt,Et)的卡方(Chi-Square,Chis)值,所述卡方Chis(qt,Et)计算公式如式(3)所示。
Figure BDA0001932630830000083
式(3)中,w[(qt)]为项集qt在文档索引库中项集权值,k1为项集qt的长度,w[(Et)]为项集Et在文档索引库中项集权值,k2为项集Et的长度,w[(qt,Et)]为项集(qt,Et)在文档索引库中的项集权值总和,kL为项集(qt,Et)的项目个数,n为文档索引库的文本文档总数;
(3.3)如果Chis(qt,Et)>0,则计算特征词加权关联规则置信度(WeightedConfidence,WConf)WConf(qt→Et)和WConf(Et→qt)。
若WConf(qt→Et)≥最小置信度阈值mc,则关联规则qt→Et是强关联规则模式,添加到关联规则模式集合AR(Association Rule)。若WConf(Et→qt)≥mc,则Et→qt是强关联规则模式,添加到AR。
所述WConf(qt→Et)和WConf(Et→qt)的计算公式如式(4)和(5)所示。
Figure BDA0001932630830000084
Figure BDA0001932630830000085
式(4)和(5)中,w[(qt)],k1,w[(Et)],k2,w[(qt,Et)],kL的定义同式(3)。
(3.4)如果Lk的每个真子集项集当且仅当都被取出一次,则本次Lk中的特征词关联规则模式挖掘结束,这时从繁项集集合FIS中重新取出另一个Lk,并转入步骤(3.1)进行另一个Lk的关联规则模式挖掘,否则,转入步骤(3.2)顺序执行各个步骤;如果频繁项集集合FIS中的每个Lk都已经被取出挖掘关联规则模式,则结束关联规则模式挖掘,转入如下步骤4。
步骤4.将那些后件是原查询词项的强关联规则前件以及前件是原查询词项的强关联规则后件作为扩展词,计算所述扩展词权值。
从关联规则模式集合AR中提取每个关联规则Et→qt的前件Et和关联规则qt→Et的后件Et作为查询扩展词,所述扩展词的权值we计算公式如式(6)所示。
Figure BDA0001932630830000086
式(6)中,max(WConf())和max(Chis())分别表示关联规则置信度和卡方值的最大值,
Figure BDA0001932630830000091
表示项集中最小项目的项集权值和最大项目的项集权值的比值的最大值,即当扩展词重复出现在多个关联规则模式时,分别取上述3个度量值的最大值。
步骤5.扩展词与原查询词组合为新查询再次检索文档得到最后检索结果文档返回给用户。
实验设计与结果:
为了说明本发明方法的有效性,特进行基于本发明方法和对比方法的信息检索实验,比较本发明方法和对比方法的检索性能。
实验语料:
以信息检索领域中国际上普遍使用的标准数据集NTCIR-5CLIR的英文文本语料(见网址:http://research.nii.ac.jp/ntcir/permission/ntcir-5/perm-en-CLIR.html)作为本发明方法的实验语料,即选择NTCIR-5CLIR语料中的英文文档集Mainichi DailyNews 2000、2001年和Korea Times 2001年的新闻文本,共有26224篇英文文档作为本发明实验数据,具体是Mainichi Daily News 2000的新闻文本6608篇(简称m0),MainichiDaily News 2001的5547篇(简称m1)和Korea Times 2001年的14069篇(简称k1)。
NTCIR-5CLIR语料有文档测试集、50个查询主题集及其对应的结果集,其中,每个查询主题类型有Title、Desc、Narr和Conc等4种类型,结果集有2种评价标准,即高度相关,相关的Rigid标准和高度相关、相关和部分相关的Relax标准。本发明实验用的查询主题类型选择Title和Desc类型,Title查询属于短查询,以名词和名词性短语简要描述查询主题,Desc查询属于长查询,以句子形式简要描述查询主题。
本发明实验结果的评价指标是P@5和P@10。所述P@5是指对于测试查询返回的前5个结果的准确率,所述P@10是指对于测试查询返回的前10个结果的准确率。
对比方法介绍如下:
(1)对比方法1:基于完全加权关联规则挖掘的信息检索方法。所述对比方法1采用文献(黄名选.完全加权模式挖掘与相关反馈融合的印尼汉跨语言查询扩展.小型微型计算机系统,2017,38(8):1783-1791.)的完全加权关联规则挖掘技术对英文文本首次检索结果的用户相关反馈文档集挖掘特征词关联规则,将规则前件是原查询词项的关联规则后件作为扩展词,扩展词和原查询组合为新查询再进行第二次检索,得到最终检索结果。实验参数是:最小置信度阈值mc为0.1,最小支持度阈值ms分别为0.8,1.0,1.3,1.5,1.7。
(2)对比方法2:基于完全加权正负关联规则挖掘的信息检索方法。所述对比方法2采用文献(周秀梅,黄名选.基于项权值变化的完全加权正负关联规则挖掘[J].电子学报,2015,43(8):1545-1554.)的完全加权正负关联规则挖掘技术对英文文本首次检索结果的用户相关反馈文档集挖掘特征词正负关联规则,将正关联规则前件是原查询词项的规则后件作为候选扩展词,将负关联规则前件是原查询词项的规则后件作为负扩展词,从候选扩展词中剪除负扩展词后得到最终的查询扩展词,扩展词和原查询组合为新查询再进行第二次检索,得到最终检索结果。实验参数是:最小置信度阈值mc为0.5,最小支持度阈值ms分别为0.2,0.25,0.3,0.35,0.4,最小兴趣度阈值mi为0.02。
(3)对比方法3:基于加权关联模式挖掘的信息检索方法。所述对比方法3是采用文献(黄名选.基于加权关联模式挖掘的越-英跨语言查询扩展[J].情报学报,2017,36(3):307-318.)的加权关联模式挖掘方法对英文文本首次检索结果的用户相关反馈文档集进行挖掘,得到含有原查询词项的英文特征词关联规则,提取前件为原查询词项的关联规则后件作为扩展词,扩展词和原查询组合为新查询,进行第二次检索,得到最终检索结果。实验参数是:最小置信度阈值mc为0.01,最小兴趣度阈值mi为0.0001,最小置信度阈值ms为0.007,0.008,0.009,0.01,0.011。
实验方法和结果如下:
运行本发明方法和对比方法的源程序,提交50个英文查询主题的Title和Desc查询在3个英文数据集m0、m1和k1中进行英文文本信息检索实验。实验时,对初检前列50篇英文文档进行用户相关反馈后得到初检用户相关反馈文档(为了简便,本文实验中,将初检前列50篇文档中含有已知结果集中的相关文档视为初检相关文档),本发明方法通过比较项集权值从初检用户相关反馈文档集中挖掘含有原查询词项的频繁项集,通过项集中最小项目的项集权值和最大项目的项集权值的比值,以及项集的项目权值最大者或者最大项目权值对项集进行剪枝,通过计算项集的卡方值和关联规则置信度值从频繁项集中提取含有原查询词项的强加权关联规则,最后,将那些后件是原查询词项的强关联规则前件以及前件是原查询词项的强关联规则后件作为扩展词,扩展词与原查询词组合为新查询再次检索文档集得到最终检索结果。通过实验,得到本发明方法和对比方法的检索结果P@5和P@10值分别如表1至表4所示,实验时挖掘到3_项集,其中,本发明方法的实验参数是:最小置信度阈值mc=0.1,最小支持度阈值ms分别为0.5,0.6,0.7,0.8,0.9,最小项集关联度阈值minIRe=0.4。
表1本发明方法与对比方法的检索结果P@5值比较(Title查询主题)
Figure BDA0001932630830000111
表2本发明方法与对比方法的检索结果P@10值比较(Title查询主题)
Figure BDA0001932630830000112
表3本发明方法与对比方法的检索结果P@5值比较(Desc查询主题)
Figure BDA0001932630830000113
表4本发明方法与对比方法的检索结果P@10值比较(Desc查询主题)
Figure BDA0001932630830000114
表1至表4表明,本发明方法的检索结果P@5和P@10值都比3个对比方法的检索结果高,效果显著。实验结果表明,本发明方法是有效的,确实能提高文本信息检索性能,具有很高的应用价值和广阔的推广前景。

Claims (2)

1.基于项集权值比较的模式挖掘和混合扩展的文本检索方法,包括下列步骤:
步骤1.用户查询首次检索文档得到初检结果,用户对初检结果进行相关反馈判断得到初检相关文档集,预处理所述初检相关文档集,具体步骤如下:
(1.1)用户查询首次检索文档集得到初检前列文档;
(1.2)用户对初检前列文档进行相关性判断得到初检相关文档,构建初检相关文档集;
(1.3)预处理初检相关文档集,构建文档索引库和特征词库;
步骤2.结合原查询词项,挖掘含有原查询词项的特征词频繁项集,并进行项集剪枝,具体步骤如下:
(2.1)从特征词库中提取特征词作为1_候选项集C1
(2.2)扫描文档索引库,统计文档总数n和统计C1的项集权值w[C1];
(2.3)计算最小权值支持阈值MWS;所述MWS计算公式如式(2)所示:
MWS=n×ms (2)
式(2)中,所述ms为最小支持度阈值,n为文档索引库的文本文档总数;
(2.4)如果w[C1]≥MWS,则C1就是特征词1_频繁项集L1,添加到频繁项集集合FIS;
(2.5)采用Aproiri连接方法将特征词1_频繁项集L1自连接得到多个2_候选项集C2
(2.6)剪枝不含原查询词项的2_候选项集C2
(2.7)对余下的2_候选项集C2,扫描文档索引库分别统计C2的项集权值w[C2];
(2.8)如果w[C2]≥MWS,则C2就是特征词2_频繁项集L2,添加到频繁项集集合FIS;
(2.9)采用Aproiri连接方法将特征词(k-1)_频繁项集Lk-1自连接得到多个k_候选项集Ck=(i1,i2,…,ik),所述k≥2;
(2.10)扫描文档索引库,分别统计各Ck的项集权值w[Ck]和各Ck中最大的项目权值wm,分别得到所述最大的项目权值wm对应的项目im,所述m∈(1,2,…,k);
(2.11)如果所述项目im对应的1_项集(im)是非频繁的,或者wm<MWS,则剪枝所述Ck
(2.12)对于余下的Ck,如果w[Ck]≥MWS×k并且wmin[(iq)]≥minRate×wmax[(ip)],那么,对应的Ck就是特征词k_频繁项集Lk,添加到频繁项集集合FIS;所述minRate为最小项集权值比阈值;所述wmin[(iq)]为最小项目的项集权值,wmax[(ip)]为最大项目的项集权值,wmin[(iq)]和wmax[(ip)]的含义如下:假设k_候选项集Ck=(i1,i2,…ik),Ck的各个项目i1,i2,…,ik单独作为1_项集时对应为(i1),(i2),…,(ik),在文档索引库中统计1_项集(i1),(i2),…,(ik)的项集权值分别为w[(i1)],w[(i2)],…,w[(ik)],将w[(i1)],w[(i2)],…,w[(ik)]中最小的项集权值称为最小项目的项集权值,记为wmin[(iq)],对应的1_项集记为(iq),将与Ck对应的所述项目iq称为Ck的最小项目,同理,将w[(i1)],w[(i2)],…,w[(ik)]中最大的项集权值称为最大项目的项集权值,记为wmax[(ip)],对应的1_项集记为(ip),将与Ck对应的所述项目ip称为Ck的最大项目;所述q∈(1,2,…,k),p∈(1,2,…,k);
(2.13)如果特征词k_频繁项集Lk为空集,则特征词频繁项集挖掘结束,转入如下步骤3,否则,k加1后转入步骤(2.9)继续顺序循环;
步骤3.通过计算项集的卡方值和关联规则置信度值从频繁项集中提取含有原查询词项的强加权关联规则,具体步骤如下:
(3.1)构建特征词k_频繁项集Lk的所有真子集项集集合;
(3.2)从真子集项集集合中任意取出两个真子集项集qt和Et,且
Figure FDA0003731172880000021
qt∪Et=Lk
Figure FDA0003731172880000022
QTL为原查询词项集合,Et为不含原查询词项的特征词项集Et,计算项集(qt,Et)的卡方值Chis(qt,Et),计算公式如式(3)所示:
Figure FDA0003731172880000023
式(3)中,w[(qt)]为项集qt在文档索引库中项集权值,k1为项集qt的长度,w[(Et)]为项集Et在文档索引库中项集权值,k2为项集Et的长度,w[(qt,Et)]为项集(qt,Et)在文档索引库中的项集权值,kL为项集(qt,Et)的项目个数,n为文档索引库的文本文档总数;
(3.3)如果Chis(qt,Et)>0,则分别计算特征词加权关联规则置信度WConf(qt→Et)和WConf(Et→qt);若WConf(qt→Et)≥最小置信度阈值mc,则关联规则qt→Et是强关联规则模式,添加到关联规则模式集合AR;若WConf(Et→qt)≥mc,则Et→qt是强关联规则模式,添加到关联规则模式集合AR;
所述WConf(qt→Et)和WConf(Et→qt)的计算公式如式(4)和(5)所示:
Figure FDA0003731172880000024
Figure FDA0003731172880000025
式(4)和(5)中,w[(qt)],k1,w[(Et)],k2,w[(qt,Et)],kL的定义同式(3);
(3.4)如果Lk的每个真子集项集当且仅当都被取出一次,那么本次Lk中的特征词关联规则模式挖掘结束,这时从频 繁项集集合FIS中重新取出另一个Lk,并转入步骤(3.1)进行另一个Lk的关联规则模式挖掘,否则,转入步骤(3.2)再顺序执行各个步骤;如果频繁项集集合FIS中的每个Lk都已经被取出挖掘关联规则模式,则结束关联规则模式挖掘,转入如下步骤4;
步骤4.从关联规则模式集合AR中提取每个关联规则Et→qt的前件Et和关联规则qt→Et的后件Et作为查询扩展词,计算所述扩展词权值we,计算公式如式(6)所示:
Figure FDA0003731172880000031
式(6)中,max(WConf())和max(Chis())分别表示关联规则置信度和卡方值的最大值,
Figure FDA0003731172880000032
表示项集中最小项目的项集权值和最大项目的项集权值的比值的最大值,即当扩展词重复出现在多个关联规则模式时,分别取上述3个度量值的最大值;
步骤5.扩展词与原查询词组合为新查询再次检索文档得到最后检索结果文档返回给用户。
2.如权利要求1所述的基于项集权值比较的模式挖掘和混合扩展的文本检索方法,其特征在于,所述(1.3)预处理初检相关文档集,具体方法是:去除停用词,提取特征词,计算特征词权值,计算公式如式(1)所示:
Figure FDA0003731172880000033
式(1)中,wij表示文档di中特征词tj的权值,tfj,i表示特征词tj在文档di中的词频,普遍将tfj,i进行标准化处理,所述标准化处理是指将文档di中每个特征词所述的tfj,i除以文档di的最大词频,idfj是逆文档频度。
CN201811649207.6A 2018-12-30 2018-12-30 基于项集权值比较的模式挖掘和混合扩展的文本检索方法 Active CN109684465B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811649207.6A CN109684465B (zh) 2018-12-30 2018-12-30 基于项集权值比较的模式挖掘和混合扩展的文本检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811649207.6A CN109684465B (zh) 2018-12-30 2018-12-30 基于项集权值比较的模式挖掘和混合扩展的文本检索方法

Publications (2)

Publication Number Publication Date
CN109684465A CN109684465A (zh) 2019-04-26
CN109684465B true CN109684465B (zh) 2022-12-06

Family

ID=66191569

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811649207.6A Active CN109684465B (zh) 2018-12-30 2018-12-30 基于项集权值比较的模式挖掘和混合扩展的文本检索方法

Country Status (1)

Country Link
CN (1) CN109684465B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111897928A (zh) * 2020-08-04 2020-11-06 广西财经学院 查询词嵌入扩展词和统计扩展词并集的中文查询扩展方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107526839A (zh) * 2017-09-08 2017-12-29 广西财经学院 基于完全加权正负模式的跨语言查询译后后件扩展方法
CN107562904A (zh) * 2017-09-08 2018-01-09 广西财经学院 融合项权值与频度的英文词间加权正负关联模式挖掘方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5775466B2 (ja) * 2012-01-13 2015-09-09 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 会話から雑談部分を抽出するための雑談抽出システム、方法、およびプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107526839A (zh) * 2017-09-08 2017-12-29 广西财经学院 基于完全加权正负模式的跨语言查询译后后件扩展方法
CN107562904A (zh) * 2017-09-08 2018-01-09 广西财经学院 融合项权值与频度的英文词间加权正负关联模式挖掘方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A Review of Feature Extraction in Sentiment Analysis;Dr. Muhammad Zubair Asghar;《Journal of Basic and Applied Research International》;20140131;181-186 *
基于项权值变化的矩阵加权关联规则挖掘;周秀梅 等;《计算机应用研究》;20150420;2918-2929 *

Also Published As

Publication number Publication date
CN109684465A (zh) 2019-04-26

Similar Documents

Publication Publication Date Title
CN102662936B (zh) 融合Web挖掘、多特征与有监督学习的汉英未登录词翻译方法
CN109299278B (zh) 基于置信度-相关系数框架挖掘规则前件的文本检索方法
CN103064969A (zh) 自动建立关键词索引表的方法
CN107092675B (zh) 一种基于统计和浅层语言分析的维吾尔文语义串抽取方法
CN109582769A (zh) 基于权值排序的关联模式挖掘和后件扩展的文本检索方法
CN109739953B (zh) 基于卡方分析-置信度框架和后件扩展的文本检索方法
CN109726263B (zh) 基于特征词加权关联模式挖掘的跨语言译后混合扩展方法
CN109684463B (zh) 基于权值比较与挖掘的跨语言译后前件扩展方法
CN109299292B (zh) 基于矩阵加权关联规则前后件混合扩展的文本检索方法
CN109684465B (zh) 基于项集权值比较的模式挖掘和混合扩展的文本检索方法
CN107609095A (zh) 基于加权正负规则前件与相关反馈的跨语言查询扩展方法
CN111897922A (zh) 基于模式挖掘与词向量相似度计算的中文查询扩展方法
Kashefi et al. Optimizing Document Similarity Detection in Persian Information Retrieval.
CN109739952A (zh) 融合关联度和卡方值的模式挖掘与扩展的跨语言检索方法
Wan et al. Single document summarization with document expansion
CN109684464B (zh) 通过权值比较实现规则后件挖掘的跨语言查询扩展方法
CN107526839B (zh) 基于完全加权正负模式的跨语言查询译后后件扩展方法
CN111897927B (zh) 融合Copulas理论和关联规则挖掘的中文查询扩展方法
CN111897919A (zh) 基于Copulas函数和伪相关反馈规则扩展的文本检索方法
CN111897924A (zh) 基于关联规则与词向量融合扩展的文本检索方法
CN108416442B (zh) 基于项频度和权值的中文词间矩阵加权关联规则挖掘方法
CN108170778B (zh) 基于完全加权规则后件的中英跨语言查询译后扩展方法
CN109684462B (zh) 基于权值比较和卡方分析的文本词间关联规则挖掘方法
CN111897928A (zh) 查询词嵌入扩展词和统计扩展词并集的中文查询扩展方法
CN109753559A (zh) 基于rcsac框架挖掘和规则后件扩展的跨语言文本检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant