CN111897927B

CN111897927B - 融合Copulas理论和关联规则挖掘的中文查询扩展方法

Info

Publication number: CN111897927B
Application number: CN202010774431.9A
Authority: CN
Inventors: 黄名选
Original assignee: Guangxi University of Finance and Economics
Current assignee: Guangxi University of Finance and Economics
Priority date: 2020-08-04
Filing date: 2020-08-04
Publication date: 2022-08-26
Anticipated expiration: 2040-08-04
Also published as: CN111897927A

Abstract

本发明提出了一种融合Copulas理论和关联规则挖掘的中文查询扩展方法，该方法首先原始查询检索文档，然后从初检结果中提取前列n篇初检文档构建伪相关反馈文档集，利用基于Copulas理论的支持度与置信度对伪相关反馈文档集挖掘含有原查询词项的特征词频繁项集和关联规则模式，最后，从规则前件是原查询的关联规则模式中提取规则后件作为扩展词，实现查询扩展。本发明克服现有基于关联规则挖掘的查询扩展缺陷，能挖掘出高质量的扩展词，有效遏制查询主题漂移和词不匹配问题。本发明能改善和提高信息检索性能，可用于搜索引擎和实际网络信息检索系统，提高信息查询性能，具有较好的应用价值和推广前景。

Description

融合Copulas理论和关联规则挖掘的中文查询扩展方法

技术领域

本发明涉及一种融合Copulas理论和关联规则挖掘的中文查询扩展方法，属于信息检索技术领域。

背景技术

查询主题漂移和词不匹配问题长期困扰信息检索系统，导致检索系统查询性能降低，这是当前信息检索领域还没有得到完全解决的问题。随着网络技术的发展，数字资源迅猛增长，大数据时代的到来，如何让用户快速找到所需的信息资源，减少查询主题漂移和词不匹配问题以满足用户信息需求，是信息检索领域亟待解决一个重要问题。查询扩展(Query Expansion,QE)是解决上述问题的核心关键技术之一，查询扩展指的是对原查询权重进行改造，或者添加与原查询语义相关的其他特征词，弥补原查询过于简单导致的语义信息不足，达到改善信息检索性能的目的。近十几年来，学者们从不同的视角对查询扩展方法开展研究，产生了一些有效的查询扩展方法，例如，Lv Y等提出一种改善伪相关反馈的boosting查询扩展方法(见文献：Lv Y,Zhai C,Chen W.A boosting approach toimproving pseudo-relevance feedback[C].In Ma W,Nie J,Baeza-Yates R A,Chua T,Croft W B.(Eds.)Proceeding of the 34th International ACM SIGIR 2011,Beijing,China,2011:165-174.)，Latiri C等提出了一种基于关联规则挖掘的自动查询扩展方法，该方法给出一种冗余关联规则发现方法，以减少冗余关联规则数量(见文献：Latiri C,Haddad H,Hamrouni T.Towards an effective automatic query expansion processusing an association rule mining approach[J].journal of intelligentinformation systems,2012,39(1):209-247.)，黄名选等提出一种用于跨语言信息检索的基于完全加权正负关联模式挖掘的查询扩展方法(见文献：黄名选,蒋曹清.基于完全加权正负关联模式挖掘的越-英跨语言查询译后扩展[J].电子学报,2018,46(12):3029-3036.)，等等，但还没有最终完全解决信息检索中存在的查询主题漂移和词不匹配等技术问题。事实上，文本特征词项集在文本事务数据库中存在两种概率分布，即以项集频度为度量的古典概型分布和以项集权值为度量的概率分布，在文档集中挖掘扩展词时应该考虑这些概率分布，才能设置出更合理的关联模式支持度和置信度，最终才能挖掘高质量的扩展词。因此，本发明借鉴Copulas理论(见文献：Sklar A.Fonctions de repartitionàndimensions et leursmarges[J].Publication de l'Institut de Statistiquel'Universite Paris,1959,8(1):229-231.)，将上述两种概率分布融合，提出一种融合Copulas理论和关联规则挖掘的中文查询扩展方法，实验结果表明，本发明方法能提高和改善跨信息检索性能，具有较好的应用价值和推广前景。

发明内容

本发明的目的是提出一种融合Copulas理论和关联规则挖掘的中文查询扩展方法，将该方法用于实际中文搜索引擎和信息检索系统，可改善和提高信息检索系统的查询性能，减少信息检索中查询主题漂移和词不匹配问题。

本发明所采用的具体技术方案如下：

一种融合Copulas理论和关联规则挖掘的中文查询扩展方法，包括下列步骤：

步骤1：中文查询检索中文文档，从初检结果中提取前列n篇初检文档构建伪相关反馈文档集，然后预处理伪相关反馈文档集，具体步骤如下：

(1.1)中文查询检索中文文档得到初检结果。

(1.2)从初检结果中提取前列n篇初检文档构建伪相关反馈文档集。

(1.3)预处理伪相关反馈文档集，然后转入步骤2。

伪相关反馈文档集预处理内容是：采用盘古分词工具(详见：https://archive.codeplex.co m/？p＝pangusegment)分词，去除中文停用词，提取中文特征词，并计算特征词权值，最后构建伪相关反馈中文文档库和中文特征词库。

本发明采用TF-IDF(term frequency–inverse document frequency)加权技术(见文献：Ricardo Baeza-Yates BerthierRibeiro-Neto等著，王知津等译,《现代信息检索》，机械工业出版社，2005年：21-22。)计算特征词权值。

步骤2：利用基于Copulas理论的支持度对伪相关反馈文档集挖掘含有原查询词项的特征词频繁项集，具体步骤如下：

(2.1)从中文特征词库中提取特征词作为1_候选项集C₁。

(2.2)计算1_候选项集C₁的基于Copulas理论的支持度Sup(C₁)，如式(1)所示：

式(1)中，Count(C₁)表示1_候选项集C₁在伪相关反馈中文文档库中出现的频度，DocCount表示伪相关反馈中文文档库总文档数量，Weight(C₁)表示1_候选项集C₁在伪相关反馈中文文档库中的项集权重，ItemsWeight表示伪相关反馈中文文档库中全体中文特征词的权重累加和。

(2.3)提取Sup(C₁)≥最小支持度阈值ms的C₁作为1_频繁项集L₁，并添加到频繁项集集合FIS(Frequent ItemSet)。

(2.4)采用自连接方法将(k-1)_频繁项集L_k-1自连接得到k_候选项集C_k，所述k≥2。

所述自连接方法采用Apriori算法(见文献：Agrawal R,Imielinski T,SwamiA.Mining association rules between sets of items in large database[C]//Proceedings of the 1993ACM SIGMOD International Conference on Management ofData,Washington D C,USA,1993:207-216.)中给出的候选项集连接方法。

(2.5)当k＝2，判断k_候选项集C_k是否含有中文原查询词项，如果该C_k不含有原查询词项，则删除该C_k，如果该C_k含有原查询词项，则留下该C_k，然后，留下的C_k转入步骤(2.6)；如果k>2，则C_k直接转入步骤(2.6)。

(2.6)计算k_候选项集C_k的基于Copulas理论的支持度Sup(C_k)，如式(2)所示：

式(2)中，Count(C_k)表示k_候选项集C_k在伪相关反馈中文文档库中出现的频度，Weight(C_k)表示k_候选项集C_k在伪相关反馈中文文档库中的项集权重；DocCount和ItemsWeight的定义与式(1)相同。

(2.7)如果Sup(C_k)≥ms，则该C_k就是k_频繁项集L_k，添加到FIS，然后，转入步骤(2.8)，否则，直接转入步骤(2.8)。

(2.8)k加1后转入步骤(2.4)继续顺序执行其后步骤，直到L_k为空集才转入步骤3。

步骤3：利用基于Copulas理论的置信度对特征词频繁项集挖掘含有原查询词项的关联规则模式，具体步骤如下：

(3.1)从FIS中任意取出k_频繁项集L_k，所述k≥2。

(3.2)提取L_k的两类真子集项集ET_j和Q_i，且

Q_i∪ET_j＝L_k，

所述ET_j为不含查询词项的真子集项集，所述Q_i为含查询词项的真子集项集，所述Q为原查询词项集合。

(3.3)计算基于Copulas理论的关联规则Q_i→ET_j的置信度Conf(Q_i→ET_j)，如式(3)所示：

式(3)中，Count(Q_i)表示真子集项集Q_i在伪相关反馈中文文档库中出现的频度，Weight(Q_i)表示真子集项集Q_i在伪相关反馈中文文档库中的项集权重，Count(Q_i∪ET_j)表示项集(Q_i∪ET_j)在伪相关反馈中文文档库中出现的频度，Weight(Q_i∪ET_j)表示项集(Q_i∪ET_j)在伪相关反馈中文文档库中的项集权重；DocCount和ItemsWeight的定义与式(1)相同。

(3.4)提取Conf(Q_i→ET_j)≥最小置信度阈值mc的关联规则Q_i→ET_j，加入到特征词关联规则模式集合AR(Association Rule)。

(3.5)从L_k中提取其他的两类真子集项集ET_j和Q_i，且

Q_i∪ET_j＝L_k，

然后，转入步骤(3.3)再顺序进行其后步骤，如此循环，直到L_k的所有真子集项集当且仅当都被取出一次为止，这时转入如步骤(3.1)，进行新一轮关联规则模式挖掘，从FIS中再取出任意其他L_k，再顺序进行其后步骤，如此循环，直到FIS中所有k_频繁项集L_k当且仅当都被取出一次为止，这时关联规则模式挖掘结束，转入如下步骤4。

步骤4：从特征词关联规则模式集合AR中提取关联规则后件ET_j作为扩展词，计算扩展词权值w_ETj。所述扩展词权值w_ETj计算公式如式(4)所示：

式(4)中，max()表示关联规则置信度的最大值，当多个关联规则模式中同时出现相同的扩展词时，取其置信度值最大的作为该扩展词的权值；Count(Q_i)、Weight(Q_i)、Count(Q_i∪ET_j)、Weight(Q_i∪ET_j)、DocCount、ItemsWeight的定义与式(3)相同。

步骤5：扩展词与原查询词组合为新查询再次检索中文文档，实现查询扩展。

本发明与现有技术相比，具有以下有益效果：

(1)本发明提出了一种融合Copulas理论和关联规则挖掘的中文查询扩展方法，该方法利用基于Copulas理论的支持度与置信度对伪相关反馈文档集挖掘含有原查询词项的特征词频繁项集和关联规则模式，从这些规则模式中提取扩展词，扩展词与原查询词组合为新查询再次检索中文文档，实现查询扩展。实验结果表明，本方法能提高和改善信息检索性能，能有效遏制查询主题漂移和词不匹配问题，具有较好的应用价值和推广前景。

(2)将标准数据集NTCIR-5CLIR作为本发明方法实验语料。选择2种现有方法作为本发明的对比方法，实验结果表明，与基准检索比较，本发明方法MAP平均增幅最高分别可达21.78％，与近年现有同类的扩展方法比较，其平均增幅最高分别可达17.02％和10.16％，实验效果显著，说明本发明方法的检索性能均优于基准检索和对比方法，能提高信息检索性能，减少信息检索中查询漂移和词不匹配问题，具有很高的应用价值和广阔的推广前景。

附图说明

图1为本发明所述的融合Copulas理论和关联规则挖掘的中文查询扩展方法的总体流程示意图。

具体实施方式

一、为了更好地说明本发明的技术方案，下面将本发明涉及的相关概念介绍如下：

1.项集

在文本挖掘中，将一篇文本文档当作一个事务，文档中的各个特征词称为项目，特征词项目的集合称为项集，项集中所有项目的个数称为项集长度。k_项集指含有k个项目的项集，k即为项集的长度。

2.关联规则的前件和后件

设x、y是任意的特征词项集，将形如x→y的蕴含式称为关联规则，其中，x称为规则前件，y称为规则后件。

3.查询扩展

查询扩展指的是对原查询权重进行改造，或者添加与原查询语义相关的其他特征词，弥补原查询过于简单导致的语义信息不足，达到改善信息检索性能的目的。

4.基于Copulas理论的支持度与置信度

Copulas函数理论(见文献：Sklar A.Fonctions de repartitionàn dimensionset leursmarges[J].Publication de l'Institut de Statistiquel'Universite Paris,1959,8(1):229-231.)用来描述变量间相关性，可以将任意形式的分布进行合并连接为一个有效的多元分布函数。借鉴Copulas函数理论，本发明提出基于Copulas理论的特征词项集(T₁∪T₂)的支持度Sup(T₁∪T₂)，如式(5)所示：

式(5)中，Count(T₁∪T₂)表示项集(T₁∪T₂)在伪相关反馈中文文档库中出现的频度，DocCount表示伪相关反馈中文文档库总文档数量，Weight(T₁∪T₂)表示项集(T₁∪T₂)在伪相关反馈中文文档库中的项集权重，ItemsWeight表示伪相关反馈中文文档库中全体中文特征词的权重累加和。

基于Copulas理论的关联规则(T₁→T₂)的置信度Conf(T₁→T₂)，如式(6)所示：

式(6)中，Count(T₁)表示项集T₁在伪相关反馈中文文档库中出现的频度，Weight(T₁)表示项集T₁在伪相关反馈中文文档库中的项集权重；Count(T₁∪T₂)、DocCount、Weight(T₁∪T₂)、ItemsWeight的定义与式(5)相同。

5.扩展词权值计算

本发明扩展词来源于基于Copulas理论的关联规则后件ET_j，并且该关联规则的前件必须是查询词项集Q_i，以及所述关联规则的支持度Sup(Q_i→ET_j)≥最小支持度阈值ms和置信度Conf(Q_i→ET_j)≥最小置信度阈值mc。由于关联规则置信度反映了查询词项和扩展词项之间的确定性和可信程度，其值越高，表明查询词与扩展词越相关，因此，本发明将置信度值作为扩展词的权值w_ETj的计算依据，如式(7)所示：

式(7)中，MAX()表示关联规则置信度的最大值，即当多个关联规则模式中同时出现相同的扩展词时，取其置信度值最大的作为该扩展词的权值；Count(Q_i)表示真子集项集Q_i在伪相关反馈中文文档库中出现的频度，Weight(Q_i)表示真子集项集Q_i在伪相关反馈中文文档库中的项集权重，Count(Q_i∪ET_j)表示真子集项集(Q_i∪ET_j)在伪相关反馈中文文档库中出现的频度，Weight(Q_i∪ET_j)表示真子集项集(Q_i∪ET_j)在伪相关反馈中文文档库中的项集权重；DocCount、ItemsWeight的定义与式(5)相同。

二、下面结合附图和具体对比实验来对本发明作进一步说明。

如图1所示，本发明的融合Copulas理论和关联规则挖掘的中文查询扩展方法，包括下列步骤：

(1.1)中文查询检索中文文档得到初检结果。

(1.3)预处理伪相关反馈文档集，然后转入步骤2。

伪相关反馈文档集预处理内容是：采用盘古分词工具分词，去除中文停用词，提取中文特征词，并计算特征词权值，最后构建伪相关反馈中文文档库和中文特征词库。所述特征词权值采用TF-IDF加权技术计算。

(2.1)从中文特征词库中提取特征词作为1_候选项集C₁。

所述自连接方法采用Apriori算法中给出的候选项集连接方法。

(3.1)从FIS中任意取出k_频繁项集L_k，所述k≥2。

(3.2)提取L_k的两类真子集项集ET_j和Q_i，且

Q_i∪ET_j＝L_k，

(3.5)从L_k中提取其他的两类真子集项集ET_j和Q_i，且

Q_i∪ET_j＝L_k，

实验设计与结果：

为了说明本发明方法的有效性，我们将本发明方法和对比方法的进行查询扩展检索实验，比较本发明方法和对比方法的扩展检索性能。

1.实验数据及预处理：

本发明将NTCIR-5CLIR(详细见：http://research.nii.ac.jp/ntcir/data/data-en.html.)中文文本语料Economic Daily News(edn)、-Ming Hseng News(mhn)和UnitedExpress(ude)的2000年和2001年新闻文本作为实验数据，简称中文edn2000、edn2001、mhn2000、mhn2001、ude2000和ude2001语料集，共计434882篇中文文档，作为本发明实验数据。除了文档集外，该语料有查询集和结果集。查询集有50个中文查询，每个查询有4种类型查询主题，结果集有Rigid和Relax标准，Rigid表示与查询高度相关和相关的情况，Relax表示与查询高度相关、相关和部分相关。本文采用Title和Description(简称Desc)查询主题进行检索实验，其中，Title查询属于短查询，以名词和名词性短语简要描述查询主题，Desc查询属于长查询，以句子形式简要描述查询主题查询。本发明实验结果评价指标是MAP(Mean Average Precision)。

本发明实验环境是：采用开源的全文检索引擎开发包Lucene.Net(详见：http://lucenenet.apache.org/)作为基础检索环境，在此基础上编写本发明方法和对比方法的实验源程序，验证本发明方法的检索性能及其有效性。

基准检索是原始查询提交到Lucene.Net进行初次检索得到的检索结果。

2.对比方法：

对比方法1：基于现有的完全加权正负关联模式挖掘的查询扩展方法，采用文献(黄名选,蒋曹清.基于完全加权正负关联模式挖掘的越-英跨语言查询译后扩展[J].电子学报,2018,46(12):3029-3036.)的完全加权正负关联模式挖掘技术挖掘加权正负扩展词，正扩展词中去除负扩展词后得到最终扩展词，实验参数是：ms∈{0.09,0.1,0.11,0.13,0.15}，mc＝0.1，α＝0.3，minPR＝0.1和minNR＝0.01。

对比方法2：基于现有的多支持度阈值的频繁模式挖掘的查询扩展方法，采用文献(Zhang H R,Zhang J W,Wei X Y,et al.A new frequent pattern mining algorithmwith weighted multiple minimum supports[J].Intelligent Automation&SoftComputing,2017,23(4):605-612.)的基于多支持度阈值的频繁模式挖掘技术挖掘伪相关反馈文档集中那些规则前件为原查询词项的加权关联规则，将规则后件作为扩展词，其中，实验参数是：mc＝0.1，LMS＝0.2，HMS＝0.25，WT＝0.1，ms∈{0.2,0.25,0.3,0.35,0.4}。

3.实验方法和结果如下：

运行本发明方法和对比方法的源程序以及Lucene.Net，提交50个中文查询分别在6个数据集上进行检索实验，得到基准检索、对比方法和本发明方法的检索结果MAP平均值，如表1和表2所示，其中，“本发明方法平均增幅(％)”是指本发明方法相对于基准检索和对比方法的6个数据集检索结果的平均增幅，其计算方法是先计算本发明方法在各个数据集上的增幅，然后累加这些增幅再除以6即得总的平均增幅。例如，本发明方法相对于基准检索的平均增幅(％)＝(((0.4834-0.4278)÷0.4278+(0.2657-0.1992)÷0.1992+(0.4884-0.3701)÷0.3701+(0.2927-0.2497)÷0.2497+(0.3521-0.3049)÷0.3049+(0.3762-0.3144)÷0.3144)×100)÷6＝21.78％，其余类似。实验时，伪相关反馈文档数n＝20，本发明方法实验参数：ms∈(0.008，0.009，0.01，0.011，0.012)，mc＝0.1。

表1本文发明方法与基准检索、对比方法的检索性能MAP值比较(Title查询)

表2本文发明方法与基准检索、对比方法的检索性能MAP值比较(Desc查询)

表1和表2表明，本发明方法在6个数据集上的检索结果都得到了改善，其MAP平均值或者平均增幅都高于基准检索和对比方法的，具体表现如下：①与基准检索比较，本文发明方法MAP平均增幅最高可达21.78％，检索性能改善效果显著；②与对比方法比较，本文算法MAP平均增幅最高分别可达17.02％和10.16％，说明本发明方法扩展检索性能高于同类的对比方法；③本发明方法Desc查询的检索结果MAP平均增幅比Title查询的高，说明本发明方法对长查询扩展性能的提升更有效。

实验结果表明，本发明方法是有效的，确实能提高息检索性能，具有很高的应用价值和广阔的推广前景。

Claims

1.一种融合Copulas理论和关联规则挖掘的中文查询扩展方法，其特征在于，包括下列步骤：

(1.1)中文查询检索中文文档得到初检结果；

(1.2)从初检结果中提取前列n篇初检文档构建伪相关反馈文档集；

(1.3)预处理伪相关反馈文档集，然后转入步骤2；预处理内容是：采用盘古分词工具分词，去除中文停用词，提取中文特征词，并计算特征词权值，最后构建伪相关反馈中文文档库和中文特征词库；

(2.1)从中文特征词库中提取特征词作为1_候选项集C₁；

(2.2)计算1_候选项集C₁的基于Copulas理论的支持度Sup(C₁)；

(2.3)提取Sup(C₁)≥最小支持度阈值ms的C₁作为1_频繁项集L₁，并添加到频繁项集集合FIS；

(2.4)采用自连接方法将(k-1)_频繁项集L_k-1自连接得到k_候选项集C_k，所述k≥2；

(2.5)当k＝2，判断k_候选项集C_k是否含有中文原查询词项，如果该C_k不含有原查询词项，则删除该C_k，如果该C_k含有原查询词项，则留下该C_k，然后，留下的C_k转入步骤(2.6)；如果k>2，则C_k直接转入步骤(2.6)；

(2.6)计算k_候选项集C_k的基于Copulas理论的支持度Sup(C_k)；

(2.7)如果Sup(C_k)≥ms，则该C_k就是k_频繁项集L_k，添加到FIS，然后，转入步骤(2.8)，否则，直接转入步骤(2.8)；

(2.8)k加1后转入步骤(2.4)继续顺序执行其后步骤，直到L_k为空集才转入步骤3；

(3.1)从FIS中任意取出k_频繁项集L_k，所述k≥2；

(3.2)提取L_k的两类真子集项集ET_j和Q_i，且

Q_i∪ET_j＝L_k，

所述ET_j为不含查询词项的真子集项集，所述Q_i为含查询词项的真子集项集，所述Q为原查询词项集合；

(3.3)计算基于Copulas理论的关联规则Q_i→ET_j的置信度Conf(Q_i→ET_j)；

(3.4)提取Conf(Q_i→ET_j)≥最小置信度阈值mc的关联规则Q_i→ET_j，加入到特征词关联规则模式集合AR；

(3.5)从L_k中提取其他的两类真子集项集ET_j和Q_i，且

Q_i∪ET_j＝L_k，

然后，转入步骤(3.3)再顺序进行其后步骤，如此循环，直到L_k的所有真子集项集当且仅当都被取出一次为止，这时转入如步骤(3.1)，进行新一轮关联规则模式挖掘，从FIS中再取出任意其他L_k，再顺序进行其后步骤，如此循环，直到FIS中所有k_频繁项集L_k当且仅当都被取出一次为止，这时关联规则模式挖掘结束，转入如下步骤4；

步骤4：从特征词关联规则模式集合AR中提取关联规则后件ET_j作为扩展词，计算扩展词权值w_ETj；

2.根据权利要求1所述的融合Copulas理论和关联规则挖掘的中文查询扩展方法，其特征在于：在所述步骤(2.2)中，1_候选项集C₁的基于Copulas理论的支持度Sup(C₁)的计算按式(1)进行：

式(1)中，Count(C₁)表示1_候选项集C₁在伪相关反馈中文文档库中出现的频度，DocCount表示伪相关反馈中文文档库总文档数量，Weight(C₁)表示1_候选项集C₁在伪相关反馈中文文档库中的项集权重，ItemsWeight表示伪相关反馈中文文档库中全体中文特征词的权重累加和；

在所述步骤(2.6)中，k_候选项集C_k的基于Copulas理论的支持度Sup(C_k)的计算按式(2)进行：

3.根据权利要求1所述的融合Copulas理论和关联规则挖掘的中文查询扩展方法，其特征在于：在所述步骤(3.3)中，基于Copulas理论的关联规则Q_i→ET_j的置信度Conf(Q_i→ET_j)的计算按式(3)进行：

式(3)中，Count(Q_i)表示真子集项集Q_i在伪相关反馈中文文档库中出现的频度，Weight(Q_i)表示真子集项集Q_i在伪相关反馈中文文档库中的项集权重，Count(Q_i∪ET_j)表示项集(Q_i∪ET_j)在伪相关反馈中文文档库中出现的频度，Weight(Q_i∪ET_j)表示项集(Q_i∪ET_j)在伪相关反馈中文文档库中的项集权重；DocCount表示伪相关反馈中文文档库总文档数量，ItemsWeight表示伪相关反馈中文文档库中全体中文特征词的权重累加和。

4.根据权利要求1所述的融合Copulas理论和关联规则挖掘的中文查询扩展方法，其特征在于：在所述步骤4中，扩展词权值w_ETj的计算按式(4)进行：

式(4)中，max()表示关联规则置信度的最大值，当多个关联规则模式中同时出现相同的扩展词时，取其置信度值最大的作为该扩展词的权值；Count(Q_i)表示真子集项集Q_i在伪相关反馈中文文档库中出现的频度，Weight(Q_i)表示真子集项集Q_i在伪相关反馈中文文档库中的项集权重，Count(Q_i∪ET_j)表示项集(Q_i∪ET_j)在伪相关反馈中文文档库中出现的频度，Weight(Q_i∪ET_j)表示项集(Q_i∪ET_j)在伪相关反馈中文文档库中的项集权重；DocCount表示伪相关反馈中文文档库总文档数量，ItemsWeight表示伪相关反馈中文文档库中全体中文特征词的权重累加和。

5.根据权利要求1所述的融合Copulas理论和关联规则挖掘的中文查询扩展方法，其特征在于：在所述步骤(1.3)中，采用TF-IDF加权技术计算特征词权值。

6.根据权利要求1所述的融合Copulas理论和关联规则挖掘的中文查询扩展方法，其特征在于：在所述步骤(2.4)中，所述自连接方法采用中给出的候选项集连接方法。