CN109739953B

CN109739953B - 基于卡方分析-置信度框架和后件扩展的文本检索方法

Info

Publication number: CN109739953B
Application number: CN201811649209.5A
Authority: CN
Inventors: 黄名选; 夏国恩
Original assignee: Guangxi University of Finance and Economics
Current assignee: Guangxi University of Finance and Economics
Priority date: 2018-12-30
Filing date: 2018-12-30
Publication date: 2021-07-20
Anticipated expiration: 2038-12-30
Also published as: CN109739953A

Abstract

本发明公开了基于卡方分析‑置信度框架和后件扩展的文本检索方法，首先用户查询检索文本文档，构建初检相关文档集，再通过项集权值比较在该文档集中挖掘含有原查询词项的频繁项集，通过项集中最小项目的项集权值和最大项目的项集权值的比值、项集的项目权值最大者或最大项目权值对候选项集剪枝,采用卡方分析‑置信度评价框架从频繁项集中挖掘那些前件是原查询词项的特征词加权关联规则，提取加权关联规则后件项集作为扩展词，扩展词与原查询词组合为新查询再次检索文档得到最终检索结果文档返回给用户。本发明采用基于项集权值比的项集剪枝和关联规则后件扩展，能挖掘出与原查询相关的扩展词，提高和改善文本检索性能，具有较好的应用价值和推广前景。

Description

基于卡方分析-置信度框架和后件扩展的文本检索方法

技术领域

本发明属于信息检索领域，具体是基于卡方分析-置信度框架和后件扩展的文本检索方法。

背景技术

当前，网络信息资源迅猛增长，成为了隐含巨大经济价值和研究价值的网络大数据。如何高效、准确地从信息的汪洋大海里找到更多所需的信息，一直是信息检索领域研究的热点问题。当前出现的web搜索引擎在一定程度上缓解了人们在互联网检索信息的困难，但是，目前的搜索引擎或者web信息检索系统往往是基于关键词机械式符号匹配的检索，很难避免信息过载和词不匹配等问题，例如，查询词是“计算机”，尽管“电脑”描述的是相同的含义，但是，“计算机”、“电脑”在信息检索系统里被认为是不同的检索词，这样，仅仅含有关键词“电脑”，而不含“计算机”的文档不能被检索出来，这是因为词不匹配的原因。

发明内容

为了解决上述问题，本发明提出基于卡方分析-置信度框架和后件扩展的文本检索方法，采用基于项集权值比率的项集剪枝和关联规则后件扩展方法，能挖掘出与原查询相关的扩展词，可以解决信息检索系统中词不匹配问题，提高和改善文本信息检索性能，具有较好的应用价值和推广前景。

本发明的技术方案如下：

基于卡方分析-置信度框架和后件扩展的文本检索方法，包括下列步骤：

步骤1.用户查询检索文本文档，根据用户相关性反馈构建和预处理初检相关文档集，具体步骤如下：

(1)用户查询首次检索文档集得到初检前列文档。

(2)用户对初检前列文档进行相关性判断得到初检相关文档，构建初检相关文档集。

(3)预处理初检相关文档集，计算初检相关文档集特征词权值，构建文档索引库和特征词库。

初检相关文档集预处理要根据不同语种采用相应的预处理方法，例如，对于英文文档，预处理方法是：去除英文停用词，采用Porter程序(详细见网址：http://tartarus.org/martin/PorterStemmer)提取得到英文特征词词干，计算英文特征词权值；对于中文文档，预处理方法是：去除中文停用词，对中文文档进行分词后提取中文特征词，计算中文特征词权值，计算公式如式(1)所示：

式(1)中，w_ij表示文档d_i中特征词t_j的权值，tf_j,i表示特征词t_j在文档d_i中的词频，普遍将tf_j,_i进行标准化处理，所述标准化处理是指将文档d_i中每个特征词所述的tf_j,_i除以文档d_i的最大词频，idf_j是逆文档频度(Inverse Document Frequency)。

步骤2.通过项集权值比较在初检相关文档集中挖掘含有原查询词项的频繁项集，通过项集中最小项目的项集权值和最大项目的项集权值的比值，以及项集的项目权值最大者或者最大项目权值对项集进行剪枝，具体步骤如下：

(2.1)从特征词库中提取特征词作为1_候选项集C₁；

(2.2)扫描文档索引库，统计文档总数n和统计C₁的项集权值w[C₁]；

(2.3)计算最小权值支持阈值MWS。所述MWS计算公式如式(2)所示。

MWS＝n×ms (2)

式(2)中，所述ms为最小支持度阈值。

(2.4)如果w[C₁]≥MWS，则C₁就是文本特征词1_频繁项集L₁，添加到频繁项集集合FIS(Frequent ItemSet)。

(2.5)采用Aproiri连接方法将文本特征词1_频繁项集L₁自连接得到多个2_候选项集C₂。

所述Aproiri连接方法详见文献(Agrawal R,Imielinski T,Swami A.Miningassociation rules between sets of items in large database[C]//Proceedings ofthe 1993 ACM SIGMOD International Conference on Management of Data,WashingtonD C,USA,1993:207-216.)

(2.6)剪枝不含原查询词项的2_候选项集C₂；

(2.7)对余下的2_候选项集C₂，扫描文档索引库分别统计C₂的项集权值w[C₂]；

(2.8)如果w[C₂]≥MWS，则C₂就是文本特征词2_频繁项集L₂，添加到频繁项集集合FIS(Frequent ItemSet)。

(2.9)采用Aproiri连接方法将文本特征词(k-1)_频繁项集L_k-1自连接得到k_候选项集C_k＝(i₁,i₂,…,i_k)，所述k≥2；

(2.10)扫描文档索引库，分别统计各C_k的项集权值w[C_k]和各C_k中最大的项目权值w_m，分别得到所述最大的项目权值w_m对应的项目i_m，所述m∈(1,2,…,k)；；

(2.11)如果所述项目i_m对应的1_项集(i_m)是非频繁的，或者w_m<MWS，则剪枝所述C_k；

(2.12)对于余下的C_k，如果w[C_k]≥MWS×k并且w_min[(i_q)]≥minRate×w_max[(i_p)]，那么，对应的C_k就是文本特征词k_频繁项集L_k，添加到频繁项集集合FIS；所述minRate为最小项集权值比阈值；所述w_min[(i_q)]为最小项目的项集权值，w_max[(i_p)]为最大项目的项集权值，w_min[(i_q)]和w_max[(i_p)]的含义如下：假设k_候选项集C_k＝(i₁,i₂,…i_k)，C_k的各个项目i₁,i₂,…,i_k单独作为1_项集时对应为(i₁),(i₂),…,(i_k)，在文档索引库中统计1_项集(i₁),(i₂),…,(i_k)的项集权值分别为w[(i₁)],w[(i₂)],…,w[(i_k)]，将w[(i₁)],w[(i₂)],…,w[(i_k)]中最小的项集权值称为最小项目的项集权值，记为w_min[(i_q)]，对应的1_项集记为(i_q)，将与C_k对应的所述项目i_q称为C_k的最小项目，同理，将w[(i₁)],w[(i₂)],…,w[(i_k)]中最大的项集权值称为最大项目的项集权值，记为w_max[(i_p)]，对应的1_项集记为(i_p)，将与C_k对应的所述项目i_p称为C_k的最大项目；所述q∈(1,2,…,k)，p∈(1,2,…,k)；

(2.13)如果文本特征词k_频繁项集L_k为空集，这时，则特征词频繁项集挖掘结束，转入如下步骤3，否则，k加1后转入步骤(2.9)继续顺序循环。

步骤3.采用卡方分析-置信度评价框架从频繁项集集合FIS中挖掘那些前件是原查询词项的特征词加权关联规则，具体步骤如下：

(3.1)构建L_k的所有真子集项集集合；

(3.2)从真子集项集集合中任意取出两个真子集项集q_t和E_t，且

q_t∪E_t＝L_k，

Q_TL为原查询词项集合，E_t为不含原查询词项的特征词项集E_t，计算项集(q_t,E_t)的卡方值Chis(q_t,E_t)，计算公式如式(3)所示：

式(3)中，w[(q_t)]为项集q_t在文档索引库中项集权值，k₁为项集q_t的长度，w[(E_t)]为项集E_t在文档索引库中项集权值，k₂为项集E_t的长度，w[(q_t,E_t)]为项集(q_t,E_t)在文档索引库中的项集权值，k_L为项集(q_t,E_t)的项目个数，n为文档索引库的文档总数；

(3.3)如果Chis(q_t,E_t)>0，则计算特征词加权关联规则置信度WConf(q_t→E_t)，若WConf(q_t→E_t)≥最小置信度阈值mc，则关联规则q_t→E_t是强加权关联规则模式，添加到关联规则模式集合AR；所述WConf(q_t→E_t)的计算公式如式(4)所示：

式(4)中，w[(q_t)]，k₁，w[(q_t,E_t)]，k_L的定义同式(3)；

(3.4)如果L_k的每个真子集项集当且仅当都被取出一次，那么本次L_k中的特征词关联规则模式挖掘结束，这时从繁项集集合FIS中重新取出另一个L_k，并转入步骤(3.1)进行另一个L_k的关联规则模式挖掘，否则，转入步骤(3.2)再顺序执行各个步骤；如果频繁项集集合FIS中的每个L_k都已经被取出挖掘关联规则模式，则结束关联规则模式挖掘，转入如下步骤4。

步骤4.从关联规则模式集合AR中提取每个关联规则q_t→E_t的后件Et作为查询扩展词，计算扩展词权值w_e，计算公式如式(5)所示：

式(5)中，max(WConf())和max(Chis())分别表示关联规则置信度和卡方值的最大值，

表示项集中最小项目的项集权值w_min和最大项目的项集权值w_max的比值的最大值，即当扩展词重复出现在多个关联规则模式时，取上述3个度量值的最大值。

步骤5.扩展词与原查询词组合为新查询再次检索文本文档得到最终检索结果并返回给用户。

本发明与现有技术相比，具有以下有益效果：

(1)本发明提出一种基于卡方分析-置信度框架和后件扩展的文本检索方法。该发明方法通过项集权值比较在初检相关文档集中挖掘含有原查询词项的频繁项集，通过项集中最小项目的项集权值和最大项目的项集权值的比值，以及项集的项目权值最大者或者最大项目权值对项集进行剪枝,采用卡方分析-置信度评价框架从频繁项集中挖掘那些前件是原查询词项的特征词加权关联规则，提取所述加权关联规则后件项集作为扩展词，扩展词与原查询词组合为新查询再次检索文档得到最终检索结果文档返回给用户。实验结果表明，本发明采用基于项集权值比率的项集剪枝和关联规则后件扩展技术，能挖掘出与原查询相关的扩展词，提高和改善文本信息检索性能，具有较好的应用价值和推广前景。

(2)选择国际上普遍使用的标准数据集NTCIR-5CLIR的英文文本语料作为本发明方法实验语料。实验结果表明，与现有方法比较，本发明方法的检索结果P@5和P@10值都高于对比方法的，提高幅度最高可达到158.12％，效果显著，说明本发明方法的检索性能均优于现有的对比方法，能提高文本信息检索性能，减少信息检索中查询漂移和词不匹配问题，具有很高的应用价值和广阔的推广前景。

附图说明

图1为本发明基于卡方分析-置信度框架和后件扩展的文本检索方法的流程示意图。

具体实施方式

本发明相关的概念：

1.项目权值和项集权值的区别描述如下：假设在文本文档索引库中统计k_候选项集C_k＝(i₁,i₂,…,i_k)的项集权值w[C_k]，得到C_k各个项目i₁,i₂,…,i_k对应的权值为w₁,w₂,…,w_k，那么，所述w₁,w₂,…,w_k称为项目权值，而C_k的项集权值w[C_k]＝w₁+w₂+…+w_k。

2.项集中最小项目和最大项目，以及项集中最小项目的项集权值和最大项目的项集权值的含义解释如下：

假设k_候选项集C_k＝(i₁,i₂,…i_k)，C_k的各个项目i₁,i₂,…,i_k单独作为1_项集时对应为(i₁),(i₂),…,(i_k)，在文档索引库中统计1_项集(i₁),(i₂),…,(i_k)的项集权值分别为w[(i₁)],w[(i₂)],…,w[(i_k)]，将w[(i₁)],w[(i₂)],…,w[(i_k)]中最小的项集权值称为最小项目的项集权值，记为w_min[(i_q)]，对应的1_项集记为(i_q)，将与C_k对应的所述项目i_q称为C_k的最小项目，同理，将w[(i₁)],w[(i₂)],…,w[(i_k)]中最大的项集权值称为最大项目的项集权值，记为w_max[(i_p)]，对应的1_项集记为(i_p)，将与C_k对应的所述项目i_p称为C_k的最大项目；所述q∈(1,2,…,k)，p∈(1,2,…,k)。

实施例1：

如图1所示，基于卡方分析-置信度框架和后件扩展的文本检索方法，包括下列步骤：

(1)用户查询首次检索文档集得到初检前列文档。

初检相关文档集预处理要根据不同语种采用相应的预处理方法，例如，对于英文文档，预处理方法是：去除英文停用词，采用Porter程序(详细见网址：http://tartarus.org/martin

/PorterStemmer)提取得到英文特征词词干，计算英文特征词权值；对于中文文档，预处理方法是：去除中文停用词，对中文文档进行分词后提取中文特征词，计算中文特征词权值，计算公式如式(1)所示：

式(1)中，w_ij表示文档d_i中特征词t_j的权值，tf_j,i表示特征词t_j在文档d_i中的词频，普遍将tf_j,_i进行标准化处理，所述标准化处理是指将所述的文档d_i中每个特征词tf_j,_i除以文档d_i的最大词频，idf_j是逆文档频度(Inverse Document Frequency)。

(2.1)从特征词库中提取特征词作为1_候选项集C₁；

MWS＝n×ms (2)

式(2)中，所述ms为最小支持度阈值。

(2.6)剪枝不含原查询词项的2_候选项集C₂；

(2.7)对余下的2_候选项集C₂，扫描文档索引库统计C₂的项集权值w[C₂]；

(2.9)采用Aproiri连接方法将文本特征词(k-1)_频繁项集L_k-1自连接得到多个k_候选项集C_k＝(i₁,i₂,…,i_k)，所述k≥2；

(2.10)扫描文档索引库，统计C_k的项集权值w[C_k]和C_k中最大的项目权值w_m，得到所述最大的项目权值对应的项目i_m，所述m∈(1,2,…,k)；；

本发明所述剪枝采用如下方法：

(1)假设k_候选项集C_k＝(i₁,i₂,…i_k)，w_min[(i_q)]为C_k的最小项目的项集权值，w_max[(i_p)]为C_k的最大项目的项集权值，如果w_min[(i_q)]<minRate×w_max[(i_p)]，则所述C_k是无效项集，剪除所述C_k；本发明只挖掘w_min[(i_q)]≥minRate×w_max[(i_p)]的频繁项集；所述minRate为最小项集权值比阈值。

(2)如果k_候选项集C_k＝(i₁,i₂,…,i_k)中最大的项目权值小于最小权值支持阈值MWS，那么C_k是非频繁的，则剪除所述C_k；

(3)假设k_候选项集C_k＝(i₁,i₂,…,i_k)中最大项目权值对应的项目单独作为1_项集为(i_m)，如果所述1_项集(i_m)是非频繁的，则剪除所述C_k。

(4)当挖掘到候选2_项集时，将不含原查询词项的候选2_项集删除，留下含有含原查询词项的候选2_项集。

(3.1)构建文本特征词k_频繁项集L_k的所有真子集项集集合；

q_t∪E_t＝L_k，

式(4)中，w[(q_t)]，k₁，w[(q_t,E_t)]，k_L的定义同式(3)

实验设计与结果：

为了说明本发明方法的有效性，特进行基于本发明方法和对比方法的信息检索实验，比较本发明方法和对比方法的检索性能。

实验语料：

以信息检索领域中国际上普遍使用的标准数据集NTCIR-5CLIR的英文文本语料(见网址：http://research.nii.ac.jp/ntcir/permission/ntcir-5/perm-en-CLIR.html)作为本发明方法实验语料，即选择NTCIR-5CLIR英文文本语料中的英文文档集MainichiDaily News 2000、2001年和Korea Times 2001年的新闻文本，共有26224篇英文文档作为本发明实验数据，具体是Mainichi Daily News 2000的新闻文本6608篇(简称m0)，Mainichi Daily News 2001的5547篇(m1)和Korea Times 2001年的14069篇(k1)。

NTCIR-5CLIR语料有文档测试集、50个查询主题集及其对应的结果集，其中，每个查询主题类型有Title、Desc、Narr和Conc等4种类型，结果集有2种评价标准，即高度相关，相关的Rigid标准和高度相关、相关和部分相关的Relax标准。本发明实验用的查询主题类型选择Title和Desc类型，Title查询属于短查询，以名词和名词性短语简要描述查询主题，Desc查询属于长查询，以句子形式简要描述查询主题。

本发明实验结果的评价指标是P@5和P@10。所述P@5是指对于测试查询返回的前5个结果的准确率，所述P@10是指对于测试查询返回的前10个结果的准确率。

对比方法介绍如下：

对比方法是基于完全加权正负关联规则挖掘和查询扩展的英文文本信息检索方法。所述对比方法采用文献(周秀梅,黄名选.基于项权值变化的完全加权正负关联规则挖掘[J].电子学报,2015,43(8):1545-1554.)的完全加权正负关联规则挖掘技术对英文文本首次检索结果的用户相关反馈文档集挖掘特征词正负关联规则，将正关联规则前件是原查询词项的规则后件作为候选扩展词，将负关联规则前件是原查询词项的规则后件作为负扩展词，从候选扩展词中剪除负扩展词后得到最终的查询扩展词，扩展词和原查询组合为新查询再进行第二次检索，得到最终检索结果。实验参数是：最小置信度阈值mc为0.5，最小支持度阈值ms分别为0.2,0.25,0.3,0.35,0.4，最小兴趣度阈值mi为0.02。

实验方法和结果如下：

运行本发明方法和对比方法的源程序，提交50个英文查询主题的Title和Desc查询在3个英文数据集m0、m1和k1中进行英文文本信息检索实验。实验时，对初检前列50篇英文文档进行用户相关反馈后得到初检用户相关反馈文档(为了简便，本文实验中，将初检前列50篇文档中含有已知结果集中的相关文档视为初检相关文档)，本发明方法通过项集权值比较在初检用户相关反馈文档集中挖掘含有原查询词项的频繁项集，通过项集中最小项目的项集权值和最大项目的项集权值的比值，以及项集的项目权值最大者或者最大项目权值对项集进行剪枝,采用卡方分析-置信度评价框架从频繁项集中挖掘那些前件是原查询词项的特征词加权关联规则，提取所述加权关联规则后件项集作为扩展词，扩展词与原查询词组合为新查询再次检索文档得到最终检索结果。通过实验，得到本发明方法和对比方法的检索结果P@5和P@10值分别如表1和表2所示，实验时挖掘到3_项集，其中，本发明方法的实验参数是：最小置信度阈值mc＝0.1，最小支持度阈值ms分别为0.5,0.6,0.7,0.8,0.9，最小项集关联度阈值minIRe＝0.4。

表1本发明方法与对比方法的检索结果比较(Title查询主题)

表2本发明方法与对比方法的检索结果比较(Desc查询主题)

表1和表2表明，本发明方法的检索结果P@5和P@10值都高于对比方法的，提高幅度最高可达到158.12％，效果显著。实验结果表明，本发明方法是有效的，确实能提高文本信息检索性能，具有很高的应用价值和广阔的推广前景。

Claims

1.基于卡方分析-置信度框架和后件扩展的文本检索方法，其特征在于，包括下列步骤：

步骤1：用户查询检索文本文档，根据用户相关性反馈构建和预处理初检相关文档集，具体步骤如下：

(1)用户查询首次检索文档集得到初检前列文档；

(2)用户对初检前列文档进行相关性判断得到初检相关文档，构建初检相关文档集；

(3)预处理初检相关文档集，构建文档索引库和特征词库；

步骤2：通过项集权值比较在初检相关文档集中挖掘含有原查询词项的频繁项集，通过项集中最小项目的项集权值和最大项目的项集权值的比值，以及项集的项目权值最大者或者最大项目权值对项集进行剪枝，具体步骤如下：

(2.1)从特征词库中提取特征词作为1_候选项集C₁；

(2.2)扫描文档索引库，统计文档索引库的文档总数n和统计C₁的项集权值w[C₁]；

(2.3)计算最小权值支持阈值MWS；所述MWS计算公式如式(2)所示：

MWS＝n×ms (2)

式(2)中，所述ms为最小支持度阈值；n为文档索引库的文档总数；

(2.4)如果w[C₁]≥MWS，则C₁就是文本特征词1_频繁项集L₁，添加到频繁项集集合FIS；

(2.5)采用Aproiri连接方法将文本特征词1_频繁项集L₁自连接得到多个2_候选项集C₂；

(2.6)剪枝不含原查询词项的2_候选项集C₂；

(2.7)对余下的2_候选项集C₂，扫描文档索引库分别统计各C₂的项集权值w[C₂]；

(2.8)如果w[C₂]≥MWS，则C₂就是文本特征词2_频繁项集L₂，添加到频繁项集集合FIS；

(2.9)采用Aproiri连接方法将文本特征词(k-1)_频繁项集L_k-1自连接得到多个k_候选项集C_k＝(i₁，i₂，...，i_k)，所述k≥2；

(2.10)扫描文档索引库，分别统计各C_k的项集权值w[C_k]和各C_k中最大的项目权值w_m，分别得到所述最大的项目权值w_m对应的项目i_m，所述m∈(1，2，...，k)；

(2.11)如果所述项目i_m对应的1_项集(i_m)是非频繁的，或者w_m＜MWS，则剪枝所述C_k；

(2.12)对于余下的C_k，如果w[C_k]≥MWS×k并且w_min[(i_q)]≥minRate×w_max[(i_p)]，那么，对应的C_k就是文本特征词k_频繁项集L_k，添加到频繁项集集合FIS；所述minRate为最小项集权值比阈值；所述w_min[(i_q)]为最小项目的项集权值，w_max[(i_p)]为最大项目的项集权值，w_min[(i_q)]和w_max[(i_p)]的含义如下：假设k_候选项集C_k＝(i₁，i₂，...i_k)，C_k的各个项目i₁，i₂，...，i_k单独作为1_项集时对应为(i₁)，(i₂)，...，(i_k)，在文档索引库中统计1_项集(i₁)，(i₂)，...，(i_k)的项集权值分别为w[(i₁)]，w[(i₂)]，...，w[(i_k)]，将w[(i₁)]，w[(i₂)]，...，w[(i_k)]中最小的项集权值称为最小项目的项集权值，记为w_min[(i_q)]，对应的1_项集记为(i_q)，将与C_k对应的所述项目i_q称为C_k的最小项目，同理，将w[(i₁)]，w[(i₂)]，...，w[(i_k)]中最大的项集权值称为最大项目的项集权值，记为w_max[(i_p)]，对应的1_项集记为(i_p)，将与C_k对应的所述项目i_p称为C_k的最大项目；所述q∈(1，2，…，k)，p∈(1，2，...，k)；

(2.13)如果文本特征词k_频繁项集L_k为空集，则特征词频繁项集挖掘结束，转入如下步骤3，否则，k加1后转入步骤(2.9)继续顺序循环；

步骤3：采用卡方分析-置信度评价框架从频繁项集集合FIS中挖掘那些前件是原查询词项的特征词加权关联规则，具体步骤如下：

(3.1)构建L_k的所有真子集项集集合；

q_t∪E_t＝L_k，

Q_TL为原查询词项集合，E_t为不含原查询词项的特征词项集E_t，计算项集(q_t，E_t)的卡方值Chis(q_t，E_t)，计算公式如式(3)所示：

式(3)中，w[(q_t)]为项集q_t在文档索引库中项集权值，k₁为项集q_t的长度，w[(E_t)]为项集E_t在文档索引库中项集权值，k₂为项集E_t的长度，w[(q_t，E_t)]为项集(q_t，E_t)在文档索引库中的项集权值，k_L为项集(q_t，E_t)的项目个数，n为文档索引库的文档总数；

(3.3)如果Chis(q_t，E_t)＞0，则计算特征词加权关联规则置信度WConf(q_t→E_t)，若WConf(q_t→E_t)≥最小置信度阈值mc，则关联规则q_t→E_t是强加权关联规则模式，添加到关联规则模式集合AR；所述WConf(q_t→E_t)的计算公式如式(4)所示：

式(4)中，w[(q_t)]，k₁，w[(q_t，E_t)]，k_L的定义同式(3)；

(3.4)如果L_k的每个真子集项集当且仅当都被取出一次，那么本次L_k中的特征词关联规则模式挖掘结束，这时从繁项集集合FIS中重新取出另一个L_k，并转入步骤(3.1)依序执行进行另一个L_k的关联规则模式挖掘，否则，转入步骤(3.2)再顺序执行各个步骤；如果频繁项集集合FIS中的每个L_k都已经被取出挖掘关联规则模式，则结束关联规则模式挖掘，转入如下步骤4；

步骤4：从关联规则模式集合AR中提取每个关联规则q_t→E_t的后件Et作为查询扩展词，计算扩展词权值w_e，计算公式如式(5)所示：

表示项集中最小项目的项集权值w_min和最大项目的项集权值w_max的比值的最大值；

步骤5：扩展词与原查询词组合为新查询再次检索文本文档得到最终检索结果并返回给用户。

2.如权利要求1所述的基于卡方分析-置信度框架和后件扩展的文本检索方法，其特征在于，所述步骤1中，具体步骤(3)的预处理初检相关文档集，具体方法是：去除停用词，提取特征词，计算特征词权值，计算公式如式(1)所示：

式(1)中，w_ij表示文档d_i中特征词t_j的权值，tf_j，i表示特征词t_j在文档d_i中的词频，将tf_j，i进行标准化处理，所述标准化处理是指将文档d_i中每个特征词所述的tf_j，i除以文档d_i的最大词频，idf_j是逆文档频度。