CN109739953B - 基于卡方分析-置信度框架和后件扩展的文本检索方法 - Google Patents

基于卡方分析-置信度框架和后件扩展的文本检索方法 Download PDF

Info

Publication number
CN109739953B
CN109739953B CN201811649209.5A CN201811649209A CN109739953B CN 109739953 B CN109739953 B CN 109739953B CN 201811649209 A CN201811649209 A CN 201811649209A CN 109739953 B CN109739953 B CN 109739953B
Authority
CN
China
Prior art keywords
item
item set
weight
document
term
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201811649209.5A
Other languages
English (en)
Other versions
CN109739953A (zh
Inventor
黄名选
夏国恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangxi University of Finance and Economics
Original Assignee
Guangxi University of Finance and Economics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi University of Finance and Economics filed Critical Guangxi University of Finance and Economics
Priority to CN201811649209.5A priority Critical patent/CN109739953B/zh
Publication of CN109739953A publication Critical patent/CN109739953A/zh
Application granted granted Critical
Publication of CN109739953B publication Critical patent/CN109739953B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于卡方分析‑置信度框架和后件扩展的文本检索方法,首先用户查询检索文本文档,构建初检相关文档集,再通过项集权值比较在该文档集中挖掘含有原查询词项的频繁项集,通过项集中最小项目的项集权值和最大项目的项集权值的比值、项集的项目权值最大者或最大项目权值对候选项集剪枝,采用卡方分析‑置信度评价框架从频繁项集中挖掘那些前件是原查询词项的特征词加权关联规则,提取加权关联规则后件项集作为扩展词,扩展词与原查询词组合为新查询再次检索文档得到最终检索结果文档返回给用户。本发明采用基于项集权值比的项集剪枝和关联规则后件扩展,能挖掘出与原查询相关的扩展词,提高和改善文本检索性能,具有较好的应用价值和推广前景。

Description

基于卡方分析-置信度框架和后件扩展的文本检索方法
技术领域
本发明属于信息检索领域,具体是基于卡方分析-置信度框架和后件扩展的文本检索方法。
背景技术
当前,网络信息资源迅猛增长,成为了隐含巨大经济价值和研究价值的网络大数据。如何高效、准确地从信息的汪洋大海里找到更多所需的信息,一直是信息检索领域研究的热点问题。当前出现的web搜索引擎在一定程度上缓解了人们在互联网检索信息的困难,但是,目前的搜索引擎或者web信息检索系统往往是基于关键词机械式符号匹配的检索,很难避免信息过载和词不匹配等问题,例如,查询词是“计算机”,尽管“电脑”描述的是相同的含义,但是,“计算机”、“电脑”在信息检索系统里被认为是不同的检索词,这样,仅仅含有关键词“电脑”,而不含“计算机”的文档不能被检索出来,这是因为词不匹配的原因。
发明内容
为了解决上述问题,本发明提出基于卡方分析-置信度框架和后件扩展的文本检索方法,采用基于项集权值比率的项集剪枝和关联规则后件扩展方法,能挖掘出与原查询相关的扩展词,可以解决信息检索系统中词不匹配问题,提高和改善文本信息检索性能,具有较好的应用价值和推广前景。
本发明的技术方案如下:
基于卡方分析-置信度框架和后件扩展的文本检索方法,包括下列步骤:
步骤1.用户查询检索文本文档,根据用户相关性反馈构建和预处理初检相关文档集,具体步骤如下:
(1)用户查询首次检索文档集得到初检前列文档。
(2)用户对初检前列文档进行相关性判断得到初检相关文档,构建初检相关文档集。
(3)预处理初检相关文档集,计算初检相关文档集特征词权值,构建文档索引库和特征词库。
初检相关文档集预处理要根据不同语种采用相应的预处理方法,例如,对于英文文档,预处理方法是:去除英文停用词,采用Porter程序(详细见网址:http://tartarus.org/martin/PorterStemmer)提取得到英文特征词词干,计算英文特征词权值;对于中文文档,预处理方法是:去除中文停用词,对中文文档进行分词后提取中文特征词,计算中文特征词权值,计算公式如式(1)所示:
Figure BDA0001932631050000021
式(1)中,wij表示文档di中特征词tj的权值,tfj,i表示特征词tj在文档di中的词频,普遍将tfj,i进行标准化处理,所述标准化处理是指将文档di中每个特征词所述的tfj,i除以文档di的最大词频,idfj是逆文档频度(Inverse Document Frequency)。
步骤2.通过项集权值比较在初检相关文档集中挖掘含有原查询词项的频繁项集,通过项集中最小项目的项集权值和最大项目的项集权值的比值,以及项集的项目权值最大者或者最大项目权值对项集进行剪枝,具体步骤如下:
(2.1)从特征词库中提取特征词作为1_候选项集C1
(2.2)扫描文档索引库,统计文档总数n和统计C1的项集权值w[C1];
(2.3)计算最小权值支持阈值MWS。所述MWS计算公式如式(2)所示。
MWS=n×ms (2)
式(2)中,所述ms为最小支持度阈值。
(2.4)如果w[C1]≥MWS,则C1就是文本特征词1_频繁项集L1,添加到频繁项集集合FIS(Frequent ItemSet)。
(2.5)采用Aproiri连接方法将文本特征词1_频繁项集L1自连接得到多个2_候选项集C2
所述Aproiri连接方法详见文献(Agrawal R,Imielinski T,Swami A.Miningassociation rules between sets of items in large database[C]//Proceedings ofthe 1993 ACM SIGMOD International Conference on Management of Data,WashingtonD C,USA,1993:207-216.)
(2.6)剪枝不含原查询词项的2_候选项集C2
(2.7)对余下的2_候选项集C2,扫描文档索引库分别统计C2的项集权值w[C2];
(2.8)如果w[C2]≥MWS,则C2就是文本特征词2_频繁项集L2,添加到频繁项集集合FIS(Frequent ItemSet)。
(2.9)采用Aproiri连接方法将文本特征词(k-1)_频繁项集Lk-1自连接得到k_候选项集Ck=(i1,i2,…,ik),所述k≥2;
(2.10)扫描文档索引库,分别统计各Ck的项集权值w[Ck]和各Ck中最大的项目权值wm,分别得到所述最大的项目权值wm对应的项目im,所述m∈(1,2,…,k);;
(2.11)如果所述项目im对应的1_项集(im)是非频繁的,或者wm<MWS,则剪枝所述Ck
(2.12)对于余下的Ck,如果w[Ck]≥MWS×k并且wmin[(iq)]≥minRate×wmax[(ip)],那么,对应的Ck就是文本特征词k_频繁项集Lk,添加到频繁项集集合FIS;所述minRate为最小项集权值比阈值;所述wmin[(iq)]为最小项目的项集权值,wmax[(ip)]为最大项目的项集权值,wmin[(iq)]和wmax[(ip)]的含义如下:假设k_候选项集Ck=(i1,i2,…ik),Ck的各个项目i1,i2,…,ik单独作为1_项集时对应为(i1),(i2),…,(ik),在文档索引库中统计1_项集(i1),(i2),…,(ik)的项集权值分别为w[(i1)],w[(i2)],…,w[(ik)],将w[(i1)],w[(i2)],…,w[(ik)]中最小的项集权值称为最小项目的项集权值,记为wmin[(iq)],对应的1_项集记为(iq),将与Ck对应的所述项目iq称为Ck的最小项目,同理,将w[(i1)],w[(i2)],…,w[(ik)]中最大的项集权值称为最大项目的项集权值,记为wmax[(ip)],对应的1_项集记为(ip),将与Ck对应的所述项目ip称为Ck的最大项目;所述q∈(1,2,…,k),p∈(1,2,…,k);
(2.13)如果文本特征词k_频繁项集Lk为空集,这时,则特征词频繁项集挖掘结束,转入如下步骤3,否则,k加1后转入步骤(2.9)继续顺序循环。
步骤3.采用卡方分析-置信度评价框架从频繁项集集合FIS中挖掘那些前件是原查询词项的特征词加权关联规则,具体步骤如下:
(3.1)构建Lk的所有真子集项集集合;
(3.2)从真子集项集集合中任意取出两个真子集项集qt和Et,且
Figure BDA0001932631050000031
qt∪Et=Lk
Figure BDA0001932631050000032
QTL为原查询词项集合,Et为不含原查询词项的特征词项集Et,计算项集(qt,Et)的卡方值Chis(qt,Et),计算公式如式(3)所示:
Figure BDA0001932631050000033
式(3)中,w[(qt)]为项集qt在文档索引库中项集权值,k1为项集qt的长度,w[(Et)]为项集Et在文档索引库中项集权值,k2为项集Et的长度,w[(qt,Et)]为项集(qt,Et)在文档索引库中的项集权值,kL为项集(qt,Et)的项目个数,n为文档索引库的文档总数;
(3.3)如果Chis(qt,Et)>0,则计算特征词加权关联规则置信度WConf(qt→Et),若WConf(qt→Et)≥最小置信度阈值mc,则关联规则qt→Et是强加权关联规则模式,添加到关联规则模式集合AR;所述WConf(qt→Et)的计算公式如式(4)所示:
Figure BDA0001932631050000041
式(4)中,w[(qt)],k1,w[(qt,Et)],kL的定义同式(3);
(3.4)如果Lk的每个真子集项集当且仅当都被取出一次,那么本次Lk中的特征词关联规则模式挖掘结束,这时从繁项集集合FIS中重新取出另一个Lk,并转入步骤(3.1)进行另一个Lk的关联规则模式挖掘,否则,转入步骤(3.2)再顺序执行各个步骤;如果频繁项集集合FIS中的每个Lk都已经被取出挖掘关联规则模式,则结束关联规则模式挖掘,转入如下步骤4。
步骤4.从关联规则模式集合AR中提取每个关联规则qt→Et的后件Et作为查询扩展词,计算扩展词权值we,计算公式如式(5)所示:
Figure BDA0001932631050000042
式(5)中,max(WConf())和max(Chis())分别表示关联规则置信度和卡方值的最大值,
Figure BDA0001932631050000043
表示项集中最小项目的项集权值wmin和最大项目的项集权值wmax的比值的最大值,即当扩展词重复出现在多个关联规则模式时,取上述3个度量值的最大值。
步骤5.扩展词与原查询词组合为新查询再次检索文本文档得到最终检索结果并返回给用户。
本发明与现有技术相比,具有以下有益效果:
(1)本发明提出一种基于卡方分析-置信度框架和后件扩展的文本检索方法。该发明方法通过项集权值比较在初检相关文档集中挖掘含有原查询词项的频繁项集,通过项集中最小项目的项集权值和最大项目的项集权值的比值,以及项集的项目权值最大者或者最大项目权值对项集进行剪枝,采用卡方分析-置信度评价框架从频繁项集中挖掘那些前件是原查询词项的特征词加权关联规则,提取所述加权关联规则后件项集作为扩展词,扩展词与原查询词组合为新查询再次检索文档得到最终检索结果文档返回给用户。实验结果表明,本发明采用基于项集权值比率的项集剪枝和关联规则后件扩展技术,能挖掘出与原查询相关的扩展词,提高和改善文本信息检索性能,具有较好的应用价值和推广前景。
(2)选择国际上普遍使用的标准数据集NTCIR-5CLIR的英文文本语料作为本发明方法实验语料。实验结果表明,与现有方法比较,本发明方法的检索结果P@5和P@10值都高于对比方法的,提高幅度最高可达到158.12%,效果显著,说明本发明方法的检索性能均优于现有的对比方法,能提高文本信息检索性能,减少信息检索中查询漂移和词不匹配问题,具有很高的应用价值和广阔的推广前景。
附图说明
图1为本发明基于卡方分析-置信度框架和后件扩展的文本检索方法的流程示意图。
具体实施方式
本发明相关的概念:
1.项目权值和项集权值的区别描述如下:假设在文本文档索引库中统计k_候选项集Ck=(i1,i2,…,ik)的项集权值w[Ck],得到Ck各个项目i1,i2,…,ik对应的权值为w1,w2,…,wk,那么,所述w1,w2,…,wk称为项目权值,而Ck的项集权值w[Ck]=w1+w2+…+wk
2.项集中最小项目和最大项目,以及项集中最小项目的项集权值和最大项目的项集权值的含义解释如下:
假设k_候选项集Ck=(i1,i2,…ik),Ck的各个项目i1,i2,…,ik单独作为1_项集时对应为(i1),(i2),…,(ik),在文档索引库中统计1_项集(i1),(i2),…,(ik)的项集权值分别为w[(i1)],w[(i2)],…,w[(ik)],将w[(i1)],w[(i2)],…,w[(ik)]中最小的项集权值称为最小项目的项集权值,记为wmin[(iq)],对应的1_项集记为(iq),将与Ck对应的所述项目iq称为Ck的最小项目,同理,将w[(i1)],w[(i2)],…,w[(ik)]中最大的项集权值称为最大项目的项集权值,记为wmax[(ip)],对应的1_项集记为(ip),将与Ck对应的所述项目ip称为Ck的最大项目;所述q∈(1,2,…,k),p∈(1,2,…,k)。
实施例1:
如图1所示,基于卡方分析-置信度框架和后件扩展的文本检索方法,包括下列步骤:
步骤1.用户查询检索文本文档,根据用户相关性反馈构建和预处理初检相关文档集,具体步骤如下:
(1)用户查询首次检索文档集得到初检前列文档。
(2)用户对初检前列文档进行相关性判断得到初检相关文档,构建初检相关文档集。
(3)预处理初检相关文档集,计算初检相关文档集特征词权值,构建文档索引库和特征词库。
初检相关文档集预处理要根据不同语种采用相应的预处理方法,例如,对于英文文档,预处理方法是:去除英文停用词,采用Porter程序(详细见网址:http://tartarus.org/martin
/PorterStemmer)提取得到英文特征词词干,计算英文特征词权值;对于中文文档,预处理方法是:去除中文停用词,对中文文档进行分词后提取中文特征词,计算中文特征词权值,计算公式如式(1)所示:
Figure BDA0001932631050000061
式(1)中,wij表示文档di中特征词tj的权值,tfj,i表示特征词tj在文档di中的词频,普遍将tfj,i进行标准化处理,所述标准化处理是指将所述的文档di中每个特征词tfj,i除以文档di的最大词频,idfj是逆文档频度(Inverse Document Frequency)。
步骤2.通过项集权值比较在初检相关文档集中挖掘含有原查询词项的频繁项集,通过项集中最小项目的项集权值和最大项目的项集权值的比值,以及项集的项目权值最大者或者最大项目权值对项集进行剪枝,具体步骤如下:
(2.1)从特征词库中提取特征词作为1_候选项集C1
(2.2)扫描文档索引库,统计文档总数n和统计C1的项集权值w[C1];
(2.3)计算最小权值支持阈值MWS。所述MWS计算公式如式(2)所示。
MWS=n×ms (2)
式(2)中,所述ms为最小支持度阈值。
(2.4)如果w[C1]≥MWS,则C1就是文本特征词1_频繁项集L1,添加到频繁项集集合FIS(Frequent ItemSet)。
(2.5)采用Aproiri连接方法将文本特征词1_频繁项集L1自连接得到多个2_候选项集C2
所述Aproiri连接方法详见文献(Agrawal R,Imielinski T,Swami A.Miningassociation rules between sets of items in large database[C]//Proceedings ofthe 1993 ACM SIGMOD International Conference on Management of Data,WashingtonD C,USA,1993:207-216.)
(2.6)剪枝不含原查询词项的2_候选项集C2
(2.7)对余下的2_候选项集C2,扫描文档索引库统计C2的项集权值w[C2];
(2.8)如果w[C2]≥MWS,则C2就是文本特征词2_频繁项集L2,添加到频繁项集集合FIS(Frequent ItemSet)。
(2.9)采用Aproiri连接方法将文本特征词(k-1)_频繁项集Lk-1自连接得到多个k_候选项集Ck=(i1,i2,…,ik),所述k≥2;
(2.10)扫描文档索引库,统计Ck的项集权值w[Ck]和Ck中最大的项目权值wm,得到所述最大的项目权值对应的项目im,所述m∈(1,2,…,k);;
(2.11)如果所述项目im对应的1_项集(im)是非频繁的,或者wm<MWS,则剪枝所述Ck
(2.12)对于余下的Ck,如果w[Ck]≥MWS×k并且wmin[(iq)]≥minRate×wmax[(ip)],那么,对应的Ck就是文本特征词k_频繁项集Lk,添加到频繁项集集合FIS;所述minRate为最小项集权值比阈值;所述wmin[(iq)]为最小项目的项集权值,wmax[(ip)]为最大项目的项集权值,wmin[(iq)]和wmax[(ip)]的含义如下:假设k_候选项集Ck=(i1,i2,…ik),Ck的各个项目i1,i2,…,ik单独作为1_项集时对应为(i1),(i2),…,(ik),在文档索引库中统计1_项集(i1),(i2),…,(ik)的项集权值分别为w[(i1)],w[(i2)],…,w[(ik)],将w[(i1)],w[(i2)],…,w[(ik)]中最小的项集权值称为最小项目的项集权值,记为wmin[(iq)],对应的1_项集记为(iq),将与Ck对应的所述项目iq称为Ck的最小项目,同理,将w[(i1)],w[(i2)],…,w[(ik)]中最大的项集权值称为最大项目的项集权值,记为wmax[(ip)],对应的1_项集记为(ip),将与Ck对应的所述项目ip称为Ck的最大项目;所述q∈(1,2,…,k),p∈(1,2,…,k);
(2.13)如果文本特征词k_频繁项集Lk为空集,这时,则特征词频繁项集挖掘结束,转入如下步骤3,否则,k加1后转入步骤(2.9)继续顺序循环。
本发明所述剪枝采用如下方法:
(1)假设k_候选项集Ck=(i1,i2,…ik),wmin[(iq)]为Ck的最小项目的项集权值,wmax[(ip)]为Ck的最大项目的项集权值,如果wmin[(iq)]<minRate×wmax[(ip)],则所述Ck是无效项集,剪除所述Ck;本发明只挖掘wmin[(iq)]≥minRate×wmax[(ip)]的频繁项集;所述minRate为最小项集权值比阈值。
(2)如果k_候选项集Ck=(i1,i2,…,ik)中最大的项目权值小于最小权值支持阈值MWS,那么Ck是非频繁的,则剪除所述Ck
(3)假设k_候选项集Ck=(i1,i2,…,ik)中最大项目权值对应的项目单独作为1_项集为(im),如果所述1_项集(im)是非频繁的,则剪除所述Ck
(4)当挖掘到候选2_项集时,将不含原查询词项的候选2_项集删除,留下含有含原查询词项的候选2_项集。
步骤3.采用卡方分析-置信度评价框架从频繁项集集合FIS中挖掘那些前件是原查询词项的特征词加权关联规则,具体步骤如下:
(3.1)构建文本特征词k_频繁项集Lk的所有真子集项集集合;
(3.2)从真子集项集集合中任意取出两个真子集项集qt和Et,且
Figure BDA0001932631050000081
qt∪Et=Lk
Figure BDA0001932631050000082
QTL为原查询词项集合,Et为不含原查询词项的特征词项集Et,计算项集(qt,Et)的卡方值Chis(qt,Et),计算公式如式(3)所示:
Figure BDA0001932631050000083
式(3)中,w[(qt)]为项集qt在文档索引库中项集权值,k1为项集qt的长度,w[(Et)]为项集Et在文档索引库中项集权值,k2为项集Et的长度,w[(qt,Et)]为项集(qt,Et)在文档索引库中的项集权值,kL为项集(qt,Et)的项目个数,n为文档索引库的文档总数;
(3.3)如果Chis(qt,Et)>0,则计算特征词加权关联规则置信度WConf(qt→Et),若WConf(qt→Et)≥最小置信度阈值mc,则关联规则qt→Et是强加权关联规则模式,添加到关联规则模式集合AR;所述WConf(qt→Et)的计算公式如式(4)所示:
Figure BDA0001932631050000084
式(4)中,w[(qt)],k1,w[(qt,Et)],kL的定义同式(3)
(3.4)如果Lk的每个真子集项集当且仅当都被取出一次,那么本次Lk中的特征词关联规则模式挖掘结束,这时从繁项集集合FIS中重新取出另一个Lk,并转入步骤(3.1)进行另一个Lk的关联规则模式挖掘,否则,转入步骤(3.2)再顺序执行各个步骤;如果频繁项集集合FIS中的每个Lk都已经被取出挖掘关联规则模式,则结束关联规则模式挖掘,转入如下步骤4。
步骤4.从关联规则模式集合AR中提取每个关联规则qt→Et的后件Et作为查询扩展词,计算扩展词权值we,计算公式如式(5)所示:
Figure BDA0001932631050000085
式(5)中,max(WConf())和max(Chis())分别表示关联规则置信度和卡方值的最大值,
Figure BDA0001932631050000086
表示项集中最小项目的项集权值wmin和最大项目的项集权值wmax的比值的最大值,即当扩展词重复出现在多个关联规则模式时,取上述3个度量值的最大值。
步骤5.扩展词与原查询词组合为新查询再次检索文本文档得到最终检索结果并返回给用户。
实验设计与结果:
为了说明本发明方法的有效性,特进行基于本发明方法和对比方法的信息检索实验,比较本发明方法和对比方法的检索性能。
实验语料:
以信息检索领域中国际上普遍使用的标准数据集NTCIR-5CLIR的英文文本语料(见网址:http://research.nii.ac.jp/ntcir/permission/ntcir-5/perm-en-CLIR.html)作为本发明方法实验语料,即选择NTCIR-5CLIR英文文本语料中的英文文档集MainichiDaily News 2000、2001年和Korea Times 2001年的新闻文本,共有26224篇英文文档作为本发明实验数据,具体是Mainichi Daily News 2000的新闻文本6608篇(简称m0),Mainichi Daily News 2001的5547篇(m1)和Korea Times 2001年的14069篇(k1)。
NTCIR-5CLIR语料有文档测试集、50个查询主题集及其对应的结果集,其中,每个查询主题类型有Title、Desc、Narr和Conc等4种类型,结果集有2种评价标准,即高度相关,相关的Rigid标准和高度相关、相关和部分相关的Relax标准。本发明实验用的查询主题类型选择Title和Desc类型,Title查询属于短查询,以名词和名词性短语简要描述查询主题,Desc查询属于长查询,以句子形式简要描述查询主题。
本发明实验结果的评价指标是P@5和P@10。所述P@5是指对于测试查询返回的前5个结果的准确率,所述P@10是指对于测试查询返回的前10个结果的准确率。
对比方法介绍如下:
对比方法是基于完全加权正负关联规则挖掘和查询扩展的英文文本信息检索方法。所述对比方法采用文献(周秀梅,黄名选.基于项权值变化的完全加权正负关联规则挖掘[J].电子学报,2015,43(8):1545-1554.)的完全加权正负关联规则挖掘技术对英文文本首次检索结果的用户相关反馈文档集挖掘特征词正负关联规则,将正关联规则前件是原查询词项的规则后件作为候选扩展词,将负关联规则前件是原查询词项的规则后件作为负扩展词,从候选扩展词中剪除负扩展词后得到最终的查询扩展词,扩展词和原查询组合为新查询再进行第二次检索,得到最终检索结果。实验参数是:最小置信度阈值mc为0.5,最小支持度阈值ms分别为0.2,0.25,0.3,0.35,0.4,最小兴趣度阈值mi为0.02。
实验方法和结果如下:
运行本发明方法和对比方法的源程序,提交50个英文查询主题的Title和Desc查询在3个英文数据集m0、m1和k1中进行英文文本信息检索实验。实验时,对初检前列50篇英文文档进行用户相关反馈后得到初检用户相关反馈文档(为了简便,本文实验中,将初检前列50篇文档中含有已知结果集中的相关文档视为初检相关文档),本发明方法通过项集权值比较在初检用户相关反馈文档集中挖掘含有原查询词项的频繁项集,通过项集中最小项目的项集权值和最大项目的项集权值的比值,以及项集的项目权值最大者或者最大项目权值对项集进行剪枝,采用卡方分析-置信度评价框架从频繁项集中挖掘那些前件是原查询词项的特征词加权关联规则,提取所述加权关联规则后件项集作为扩展词,扩展词与原查询词组合为新查询再次检索文档得到最终检索结果。通过实验,得到本发明方法和对比方法的检索结果P@5和P@10值分别如表1和表2所示,实验时挖掘到3_项集,其中,本发明方法的实验参数是:最小置信度阈值mc=0.1,最小支持度阈值ms分别为0.5,0.6,0.7,0.8,0.9,最小项集关联度阈值minIRe=0.4。
表1本发明方法与对比方法的检索结果比较(Title查询主题)
Figure BDA0001932631050000101
表2本发明方法与对比方法的检索结果比较(Desc查询主题)
Figure BDA0001932631050000102
表1和表2表明,本发明方法的检索结果P@5和P@10值都高于对比方法的,提高幅度最高可达到158.12%,效果显著。实验结果表明,本发明方法是有效的,确实能提高文本信息检索性能,具有很高的应用价值和广阔的推广前景。

Claims (2)

1.基于卡方分析-置信度框架和后件扩展的文本检索方法,其特征在于,包括下列步骤:
步骤1:用户查询检索文本文档,根据用户相关性反馈构建和预处理初检相关文档集,具体步骤如下:
(1)用户查询首次检索文档集得到初检前列文档;
(2)用户对初检前列文档进行相关性判断得到初检相关文档,构建初检相关文档集;
(3)预处理初检相关文档集,构建文档索引库和特征词库;
步骤2:通过项集权值比较在初检相关文档集中挖掘含有原查询词项的频繁项集,通过项集中最小项目的项集权值和最大项目的项集权值的比值,以及项集的项目权值最大者或者最大项目权值对项集进行剪枝,具体步骤如下:
(2.1)从特征词库中提取特征词作为1_候选项集C1
(2.2)扫描文档索引库,统计文档索引库的文档总数n和统计C1的项集权值w[C1];
(2.3)计算最小权值支持阈值MWS;所述MWS计算公式如式(2)所示:
MWS=n×ms (2)
式(2)中,所述ms为最小支持度阈值;n为文档索引库的文档总数;
(2.4)如果w[C1]≥MWS,则C1就是文本特征词1_频繁项集L1,添加到频繁项集集合FIS;
(2.5)采用Aproiri连接方法将文本特征词1_频繁项集L1自连接得到多个2_候选项集C2
(2.6)剪枝不含原查询词项的2_候选项集C2
(2.7)对余下的2_候选项集C2,扫描文档索引库分别统计各C2的项集权值w[C2];
(2.8)如果w[C2]≥MWS,则C2就是文本特征词2_频繁项集L2,添加到频繁项集集合FIS;
(2.9)采用Aproiri连接方法将文本特征词(k-1)_频繁项集Lk-1自连接得到多个k_候选项集Ck=(i1,i2,...,ik),所述k≥2;
(2.10)扫描文档索引库,分别统计各Ck的项集权值w[Ck]和各Ck中最大的项目权值wm,分别得到所述最大的项目权值wm对应的项目im,所述m∈(1,2,...,k);
(2.11)如果所述项目im对应的1_项集(im)是非频繁的,或者wm<MWS,则剪枝所述Ck
(2.12)对于余下的Ck,如果w[Ck]≥MWS×k并且wmin[(iq)]≥minRate×wmax[(ip)],那么,对应的Ck就是文本特征词k_频繁项集Lk,添加到频繁项集集合FIS;所述minRate为最小项集权值比阈值;所述wmin[(iq)]为最小项目的项集权值,wmax[(ip)]为最大项目的项集权值,wmin[(iq)]和wmax[(ip)]的含义如下:假设k_候选项集Ck=(i1,i2,...ik),Ck的各个项目i1,i2,...,ik单独作为1_项集时对应为(i1),(i2),...,(ik),在文档索引库中统计1_项集(i1),(i2),...,(ik)的项集权值分别为w[(i1)],w[(i2)],...,w[(ik)],将w[(i1)],w[(i2)],...,w[(ik)]中最小的项集权值称为最小项目的项集权值,记为wmin[(iq)],对应的1_项集记为(iq),将与Ck对应的所述项目iq称为Ck的最小项目,同理,将w[(i1)],w[(i2)],...,w[(ik)]中最大的项集权值称为最大项目的项集权值,记为wmax[(ip)],对应的1_项集记为(ip),将与Ck对应的所述项目ip称为Ck的最大项目;所述q∈(1,2,…,k),p∈(1,2,...,k);
(2.13)如果文本特征词k_频繁项集Lk为空集,则特征词频繁项集挖掘结束,转入如下步骤3,否则,k加1后转入步骤(2.9)继续顺序循环;
步骤3:采用卡方分析-置信度评价框架从频繁项集集合FIS中挖掘那些前件是原查询词项的特征词加权关联规则,具体步骤如下:
(3.1)构建Lk的所有真子集项集集合;
(3.2)从真子集项集集合中任意取出两个真子集项集qt和Et,且
Figure FDA0003087155730000021
qt∪Et=Lk
Figure FDA0003087155730000022
QTL为原查询词项集合,Et为不含原查询词项的特征词项集Et,计算项集(qt,Et)的卡方值Chis(qt,Et),计算公式如式(3)所示:
Figure FDA0003087155730000023
式(3)中,w[(qt)]为项集qt在文档索引库中项集权值,k1为项集qt的长度,w[(Et)]为项集Et在文档索引库中项集权值,k2为项集Et的长度,w[(qt,Et)]为项集(qt,Et)在文档索引库中的项集权值,kL为项集(qt,Et)的项目个数,n为文档索引库的文档总数;
(3.3)如果Chis(qt,Et)>0,则计算特征词加权关联规则置信度WConf(qt→Et),若WConf(qt→Et)≥最小置信度阈值mc,则关联规则qt→Et是强加权关联规则模式,添加到关联规则模式集合AR;所述WConf(qt→Et)的计算公式如式(4)所示:
Figure FDA0003087155730000024
式(4)中,w[(qt)],k1,w[(qt,Et)],kL的定义同式(3);
(3.4)如果Lk的每个真子集项集当且仅当都被取出一次,那么本次Lk中的特征词关联规则模式挖掘结束,这时从繁项集集合FIS中重新取出另一个Lk,并转入步骤(3.1)依序执行进行另一个Lk的关联规则模式挖掘,否则,转入步骤(3.2)再顺序执行各个步骤;如果频繁项集集合FIS中的每个Lk都已经被取出挖掘关联规则模式,则结束关联规则模式挖掘,转入如下步骤4;
步骤4:从关联规则模式集合AR中提取每个关联规则qt→Et的后件Et作为查询扩展词,计算扩展词权值we,计算公式如式(5)所示:
Figure FDA0003087155730000031
式(5)中,max(WConf())和max(Chis())分别表示关联规则置信度和卡方值的最大值,
Figure FDA0003087155730000032
表示项集中最小项目的项集权值wmin和最大项目的项集权值wmax的比值的最大值;
步骤5:扩展词与原查询词组合为新查询再次检索文本文档得到最终检索结果并返回给用户。
2.如权利要求1所述的基于卡方分析-置信度框架和后件扩展的文本检索方法,其特征在于,所述步骤1中,具体步骤(3)的预处理初检相关文档集,具体方法是:去除停用词,提取特征词,计算特征词权值,计算公式如式(1)所示:
Figure FDA0003087155730000033
式(1)中,wij表示文档di中特征词tj的权值,tfj,i表示特征词tj在文档di中的词频,将tfj,i进行标准化处理,所述标准化处理是指将文档di中每个特征词所述的tfj,i除以文档di的最大词频,idfj是逆文档频度。
CN201811649209.5A 2018-12-30 2018-12-30 基于卡方分析-置信度框架和后件扩展的文本检索方法 Expired - Fee Related CN109739953B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811649209.5A CN109739953B (zh) 2018-12-30 2018-12-30 基于卡方分析-置信度框架和后件扩展的文本检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811649209.5A CN109739953B (zh) 2018-12-30 2018-12-30 基于卡方分析-置信度框架和后件扩展的文本检索方法

Publications (2)

Publication Number Publication Date
CN109739953A CN109739953A (zh) 2019-05-10
CN109739953B true CN109739953B (zh) 2021-07-20

Family

ID=66362930

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811649209.5A Expired - Fee Related CN109739953B (zh) 2018-12-30 2018-12-30 基于卡方分析-置信度框架和后件扩展的文本检索方法

Country Status (1)

Country Link
CN (1) CN109739953B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115221872B (zh) * 2021-07-30 2023-06-02 苏州七星天专利运营管理有限责任公司 一种基于近义扩展的词汇扩展方法和系统
CN116340617B (zh) * 2023-02-15 2023-12-12 荣耀终端有限公司 一种搜索推荐方法和装置

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101630314A (zh) * 2008-07-16 2010-01-20 中国科学院自动化研究所 一种基于领域知识的语义查询扩展方法
CN101655857A (zh) * 2009-09-18 2010-02-24 西安建筑科技大学 基于关联规则挖掘技术挖掘建设法规领域数据的方法
CN103838801A (zh) * 2012-11-27 2014-06-04 大连灵动科技发展有限公司 一种网页主题信息抽取方法
CN104317794A (zh) * 2014-08-27 2015-01-28 广西教育学院 基于动态项权值的中文特征词关联模式挖掘方法及其系统
CN106095859A (zh) * 2016-06-02 2016-11-09 成都淞幸科技有限责任公司 基于olam的多维度中医针灸关联规则挖掘方法
CN106484781A (zh) * 2016-09-18 2017-03-08 广西财经学院 融合关联模式和用户反馈的印尼汉跨语言检索方法及系统
CN106802936A (zh) * 2016-12-29 2017-06-06 桂林电子科技大学 一种基于项集熵的数据挖掘方法
CN106844482A (zh) * 2016-12-23 2017-06-13 北京奇虎科技有限公司 一种基于搜索引擎的检索信息匹配方法及装置
CN107766323A (zh) * 2017-09-06 2018-03-06 淮阴工学院 一种基于互信息和关联规则的文本特征提取方法
CN108446408A (zh) * 2018-04-13 2018-08-24 浙江工业大学 一种基于PageRank的短文本摘要方法
CN108509421A (zh) * 2018-04-04 2018-09-07 郑州大学 基于随机游走和粗糙决策置信度的文本情感分类方法
CN108664642A (zh) * 2018-05-16 2018-10-16 句容市茂润苗木有限公司 基于Apriori算法的词性标注规则自动获取方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9740736B2 (en) * 2013-09-19 2017-08-22 Maluuba Inc. Linking ontologies to expand supported language
CN105740712B (zh) * 2016-03-09 2018-07-24 哈尔滨工程大学 基于贝叶斯网络的Android恶意行为检测方法
US10726022B2 (en) * 2016-08-26 2020-07-28 Facebook, Inc. Classifying search queries on online social networks
CN106339481B (zh) * 2016-08-30 2019-04-30 电子科技大学 基于最大置信度的中文复合新词发现方法
CN106776678A (zh) * 2016-11-02 2017-05-31 四川用联信息技术有限公司 新的关键词优化实现搜索引擎优化技术
US20180260414A1 (en) * 2017-03-10 2018-09-13 Xerox Corporation Query expansion learning with recurrent networks
CN108334548A (zh) * 2017-12-26 2018-07-27 爱品克科技(武汉)股份有限公司 一种基于关联规则的数据挖掘技术
CN109062915B (zh) * 2018-03-30 2020-11-17 山东管理学院 一种文本数据集正负关联规则挖掘方法及装置

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101630314A (zh) * 2008-07-16 2010-01-20 中国科学院自动化研究所 一种基于领域知识的语义查询扩展方法
CN101655857A (zh) * 2009-09-18 2010-02-24 西安建筑科技大学 基于关联规则挖掘技术挖掘建设法规领域数据的方法
CN103838801A (zh) * 2012-11-27 2014-06-04 大连灵动科技发展有限公司 一种网页主题信息抽取方法
CN104317794A (zh) * 2014-08-27 2015-01-28 广西教育学院 基于动态项权值的中文特征词关联模式挖掘方法及其系统
CN106095859A (zh) * 2016-06-02 2016-11-09 成都淞幸科技有限责任公司 基于olam的多维度中医针灸关联规则挖掘方法
CN106484781A (zh) * 2016-09-18 2017-03-08 广西财经学院 融合关联模式和用户反馈的印尼汉跨语言检索方法及系统
CN106844482A (zh) * 2016-12-23 2017-06-13 北京奇虎科技有限公司 一种基于搜索引擎的检索信息匹配方法及装置
CN106802936A (zh) * 2016-12-29 2017-06-06 桂林电子科技大学 一种基于项集熵的数据挖掘方法
CN107766323A (zh) * 2017-09-06 2018-03-06 淮阴工学院 一种基于互信息和关联规则的文本特征提取方法
CN108509421A (zh) * 2018-04-04 2018-09-07 郑州大学 基于随机游走和粗糙决策置信度的文本情感分类方法
CN108446408A (zh) * 2018-04-13 2018-08-24 浙江工业大学 一种基于PageRank的短文本摘要方法
CN108664642A (zh) * 2018-05-16 2018-10-16 句容市茂润苗木有限公司 基于Apriori算法的词性标注规则自动获取方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
A survey of query expansion, query suggestion and query refinement techniques;Jessie Ooi 等;《2015 4th International Conference on Software Engineering and Computer Systems》;20151123;112-117 *
基于卡方分析的关联模式剪枝方法研究;徐勇 等;《计算机工程与设计》;20060816;第27卷(第15期);2753-2755 *
基于负频繁项集的负关联规则挖掘研究;马亮;《中国优秀硕士学位论文全文数据库 信息科技辑》;20111015(第10期);I138-385 *
完全加权模式挖掘与相关反馈融合的印尼汉跨语言查询扩展;黄名选;《小型微型计算机系统》;20170815;第38卷(第08期);1783-1791 *

Also Published As

Publication number Publication date
CN109739953A (zh) 2019-05-10

Similar Documents

Publication Publication Date Title
CN108763196A (zh) 一种基于pmi的关键字提取方法
CN109299278B (zh) 基于置信度-相关系数框架挖掘规则前件的文本检索方法
CN107092675B (zh) 一种基于统计和浅层语言分析的维吾尔文语义串抽取方法
CN109739953B (zh) 基于卡方分析-置信度框架和后件扩展的文本检索方法
Mao et al. Automatic keywords extraction based on co-occurrence and semantic relationships between words
CN109582769A (zh) 基于权值排序的关联模式挖掘和后件扩展的文本检索方法
CN109684463B (zh) 基于权值比较与挖掘的跨语言译后前件扩展方法
CN109726263B (zh) 基于特征词加权关联模式挖掘的跨语言译后混合扩展方法
CN109299292B (zh) 基于矩阵加权关联规则前后件混合扩展的文本检索方法
CN111897922A (zh) 基于模式挖掘与词向量相似度计算的中文查询扩展方法
CN109684465B (zh) 基于项集权值比较的模式挖掘和混合扩展的文本检索方法
CN107609095A (zh) 基于加权正负规则前件与相关反馈的跨语言查询扩展方法
CN111897926A (zh) 深度学习与扩展词挖掘交集融合的中文查询扩展方法
CN109684464B (zh) 通过权值比较实现规则后件挖掘的跨语言查询扩展方法
CN111897927B (zh) 融合Copulas理论和关联规则挖掘的中文查询扩展方法
CN109739952A (zh) 融合关联度和卡方值的模式挖掘与扩展的跨语言检索方法
CN107526839A (zh) 基于完全加权正负模式的跨语言查询译后后件扩展方法
CN111897919A (zh) 基于Copulas函数和伪相关反馈规则扩展的文本检索方法
CN108416442B (zh) 基于项频度和权值的中文词间矩阵加权关联规则挖掘方法
CN108170778B (zh) 基于完全加权规则后件的中英跨语言查询译后扩展方法
CN111897924A (zh) 基于关联规则与词向量融合扩展的文本检索方法
CN109684462B (zh) 基于权值比较和卡方分析的文本词间关联规则挖掘方法
Sahmoudi et al. A new keyphrases extraction method based on suffix tree data structure for Arabic documents clustering
CN111897921A (zh) 基于词向量学习和模式挖掘融合扩展的文本检索方法
CN111897928A (zh) 查询词嵌入扩展词和统计扩展词并集的中文查询扩展方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210720

Termination date: 20211230

CF01 Termination of patent right due to non-payment of annual fee