CN111897928A

CN111897928A - 查询词嵌入扩展词和统计扩展词并集的中文查询扩展方法

Info

Publication number: CN111897928A
Application number: CN202010774442.7A
Authority: CN
Inventors: 黄名选
Original assignee: Guangxi University of Finance and Economics
Current assignee: Guangxi University of Finance and Economics
Priority date: 2020-08-04
Filing date: 2020-08-04
Publication date: 2020-11-06

Abstract

本发明提出了一种查询词嵌入扩展词和统计扩展词并集的中文查询扩展方法，其利用深度学习工具对对初检文档集进行词嵌入语义学习训练，得到词向量集，计算每个查询词项与所有非查询词项的向量余弦相似度并降序排列，提取前列非查询词项作为查询词项词嵌入扩展词，得到查询词项词嵌入扩展词集，然后利用基于Copulas理论的统计扩展词挖掘方法对伪相关反馈文档集挖掘统计扩展词，建立统计扩展词集，最后将查询词项词嵌入扩展词集和统计扩展词集进行并集得到最终扩展词，最终扩展词和原查询组合为新查询，再次检索文档集，实现查询扩展。本发明将查询词嵌入扩展词和统计扩展词并集融合，能挖掘出与原查询相关的高质量扩展词，提高和改善文本信息检索性能。

Description

查询词嵌入扩展词和统计扩展词并集的中文查询扩展方法

技术领域

本发明涉及一种查询词嵌入扩展词和统计扩展词并集的中文查询扩展方法，属于信息检索技术领域。

背景技术

在自然语言处理中，查询扩展是解决信息检索领域中查询主题漂移和词不匹配问题的核心技术之一，查询扩展指的是对原查询权重进行修改或者添加与原查询相关的语词，弥补用户查询信息不足，改善信息检索系统查全率和查准率。其核心问题是扩展词的来源及其扩展模型的设计。

近十几年来，随着网络技术的发展以及大数据时代的到来，如何从海量的大数据资源中精准检索到用户的所需信息，是国内外学术界和产业界关注的焦点，查询扩展作为解决这类问题的核心技术一直深受国内外学者的重视和研究，一些查询扩展方法被提出，例如，Latiri等(Latiri C,Haddad H,Hamrouni T.Towards an effective automaticquery expansion process using an association rule mining approach[J].journalof intelligent information systems,2012,39(1):209-247.)提出一种基于关联规则挖掘的查询扩展方法，Bouziri等(Bouziri A,Latiri C,Gaussier E et al.Learning queryexpansion from association rules between terms[C].Proceedings of the 7thInternational Joint Conference on Knowledge Discovery,Knowledge Engineeringand Knowledge Management(IC3K),Lisbon,Portugal,2015:525-530.)提出一种基于分类学习算法和关联规则挖掘的查询扩展方法，黄等(黄名选,严小卫,张师超.基于矩阵加权关联规则挖掘的伪相关反馈查询扩展[J].软件学报,2009,20(7):1854-1865.)提出一种基于矩阵加权关联模式挖掘的查询扩展方法，等等，实验结果表明，上述查询扩展方法是有效的，在改善信息检索性能方面有获得较好的表现。

然而，现有查询扩展方法还没有最终完全解决信息检索中存在的查询主题漂移和词不匹配等技术问题，针对这些缺陷，本发明提出一种查询词嵌入扩展词和统计扩展词并集的中文查询扩展方法，该方法可应用于搜索引擎和Web信息检索系统，能减少查询漂移和词不匹配等问题，提高信息检索性能，具有很好的应用价值和广阔的推广前景。

发明内容

本发明的目的是提出一种查询词嵌入扩展词和统计扩展词并集的中文查询扩展方法，将该方法用于信息检索领域，如实际中文搜索引擎和web信息检索系统，能改善和提高信息检索系统的查询性能，减少信息检索中查询主题漂移和词不匹配问题。

本发明所采用的具体技术方案如下：

一种查询词嵌入扩展词和统计扩展词并集的中文查询扩展方法，包括下列步骤：

步骤1.构建初检文档集：中文用户查询检索原始中文文档集得到初检文档集。

步骤2.产生初检文档词向量集：对初检文档集进行中文分词和去除中文停用词，利用深度学习工具对对初检文档集进行词嵌入语义学习训练，得到初检文档词向量集；所述初检文档词向量集含有各个查询词项词向量和非查询词项词向量。

本发明所述深度学习工具是指Google开源词向量工具word2vec的Skip-gram模型(详见：https://code.google.com/p/word2vec/)。

步骤3.产生查询词项词嵌入扩展词集：计算每个查询词项与所有非查询词项的向量余弦相似度，降序排列向量余弦相似度，提取各个查询词项对应的前列Vn个非查询词项作为查询词项词嵌入扩展词，得到查询词项词嵌入扩展词集，具体步骤如下：

(3.1)在词向量集中，计算原查询词项集合Q(所述Q＝(q₁,q₂,…,q_j))中每个查询词项(q₁,q₂,…,q_j)与所有非查询词项的向量余弦相似度q_jsim_l，其中，1≤l≤i。

所述q_jsim_l，的计算公式，如式(1)所示：

式(1)中，vwecet_l表示第l个非查询词项wecet_l的词向量值，vq_s表示第s个查询词q_s的词向量值。

(3.2)降序排列向量余弦相似度值q_jsim_l，得到原查询词项集合Q的各个查询词项(q₁,q₂,…,q_j)的词嵌入候选扩展词及其向量相似度值，如式(2)所示：

式(2)中，q_jvet_l表示查询词项q_j的第l个查询词项词嵌入候选扩展词，q_jsim_l表示查询词项q_j与第l个查询词项词嵌入候选扩展词的向量余弦相似度值。

(3.3)根据降序排列向量余弦相似度值q_jsim_l的顺序，提取原查询词项集合Q中各个查询词项(q₁,q₂,…,q_j)的前列Vn个查询词项的词嵌入候选扩展词作为查询词项词嵌入扩展词，共得到j×Vn个词嵌入扩展词(q₁vet₁,q₁vet₂,…,q₁vet_Vn,…,q_jvet_Vn)，去除重复词项后，得到查询词项词嵌入扩展词集WEETS_QT(Word Embedding Expansion Term Set ofQuery Terms)，如式(3)所示，然后转入步骤4。

WEETS_QT＝{vqet₁,vqet₂,...,vqet_r}

(vqet_i∈(q₁vet₁,q₁vet₂,...,q₁vet_Vn,...,q_jvet_Vn),1≤i≤r) (3)

式(3)中，vqet_r表示去除重复词项后得到的第r个查询词项词嵌入扩展词。

查询词项词嵌入扩展词权值w(qvet_i)如式(4)所示，其中，1≤i≤r。

式(4)表明，查询词项词嵌入扩展词权值为该查询词项与所有词嵌入候选扩展词的向量余弦相似度值，如果存在多个相同的查询词项词嵌入扩展词，则累加它们的向量余弦相似度值作为该查询词项词嵌入扩展词的权值。

步骤4.产生统计扩展词集：从初检文档集中提取前列m篇伪相关反馈文档，构建伪相关反馈文档集，利用基于Copulas理论的统计扩展词挖掘方法对伪相关反馈文档集挖掘统计扩展词，建立统计扩展词集；所述基于Copulas理论的统计扩展词挖掘方法具体步骤如下：

(4.1)从初检文档集中提取前列m篇初检文档作为伪相关反馈文档，构建伪相关反馈文档集，对初检伪相关反馈文档集进行中文分词、去除中文停用词和提取特征词的预处理，并计算特征词权值，最后构建伪相关反馈中文文档库和中文特征词库。

本发明采用TF-IDF(term frequency–inverse document frequency)加权技术(见文献：Ricardo Baeza-Yates Berthier Ribeiro-Neto等著，王知津等译,《现代信息检索》，机械工业出版社，2005年：21-22。)计算特征词权值。

(4.2)利用Copulas理论框架下融合项频度和权值的特征词关联模式支持度IFWSup(Support based on Itemsets Frequency and Weights)和最小支持度阈值ms挖掘伪相关反馈文档集中含有原查询词项的k_频繁项集，所述k≥1，具体步骤如下：

(4.2.1)从中文特征词库中提取特征词作为1_候选项集C₁。

(4.2.2)计算1_候选项集C₁的支持度IFWSup(C₁)，如果IFWSup(C₁)不低于ms，则将C₁作为1_频繁项集L₁，并添加到频繁项集集合FIS(Frequent ItemSet)。

所述支持度IFWSup(C₁)的计算公式，如式(5)所示：

式(5)中，fre_C1表示1_候选项集C₁在伪相关反馈中文文档库中出现的频度，Doc_fre表示伪相关反馈中文文档库总文档数量，wei_C1表示1_候选项集C₁在伪相关反馈中文文档库中的项集权重，Items_wei表示伪相关反馈中文文档库中全体中文特征词的权重累加和；exp表示以自然常数e为底的指数函数。

(4.2.3)将(k-1)_频繁项集L_k-1自连接生成k_候选项集C_k，所述k≥2。

所述自连接方法采用Apriori算法(见文献：Agrawal R,Imielinski T,SwamiA.Mining association rules between sets of items in large database[C]//Proceedings of the 1993ACM SIGMOD International Conference on Management ofData,Washington D C,USA,1993:207-216.)中给出的候选项集连接方法。

(4.2.4)当挖掘到2_候选项集C₂时，如果该C₂不含有原查询词项，则删除该C₂，如果该C₂含有原查询词项，则留下该C₂，然后，留下的C₂转入步骤(4.2.5)；当挖掘到k_候选项集C_k，所述k≥3，则直接转入步骤(4.2.5)。

(4.2.5)计算k_候选项集C_k的支持度IFWSup(C_k)，如果IFWSup(C_k)不低于ms，则将C_k作为k_频繁项集L_k，并添加到FIS。

所述IFWSup(C_k)的计算如式(6)所示：

式(6)中，

表示k_候选项集C_k在伪相关反馈中文文档库中出现的频度，

表示k_候选项集C_k在伪相关反馈中文文档库中的项集权重，Doc_fre、Items_wei的定义与式(5)相同。

(4.2.6)k加1后转入步骤(4.2.3)继续顺序执行其后步骤，直到产生所述L_k为空集，则频繁项集挖掘结束，转入步骤(4.3)。

(4.3)利用Copulas理论框架下融合项频度和权值的特征词关联模式置信度IFWConf(Confidence based on Itemsets Frequency and Weights)和最小置信度阈值mc从频繁项集中挖掘前件含有原查询词项项集的关联规则模式，具体步骤如下：

(4.3.1)从FIS中任意取出L_k，所述k≥2。

(4.3.2)提取L_k中真子集项集L_Q和L_Et，计算所述关联规则L_Q→L_Et的置信度IFWConf(L_Q→L_Et)，所述L_Q∪L_Et＝L_k，

所述L_Et为不含查询词项的真子集项集，所述L_Q为含查询词项的真子集项集。

所述IFWConf(L_Q→L_Et)计算，如式(7)所示：

式(7)中，

表示k_频繁项集L_k在伪相关反馈中文文档库中出现的频度，

表示k_频繁项集L_k在伪相关反馈中文文档库中的项集权重，

表示k_频繁项集L_k的真子集项集L_Q在伪相关反馈中文文档库中出现的频度，

表示k_频繁项集L_k的真子集项集L_Q在伪相关反馈中文文档库中的项集权重。

(4.3.3)提取IFWConf(L_Q→L_Et)不小于mc的关联规则L_Q→L_Et加入到关联规则集AR(Association Rule)，然后，转入步骤(4.3.2)，从L_k中重新提取其他的真子集项集L_Q和L_Et，再顺序进行其后步骤，如此循环，直到L_k的所有真子集项集当且仅当都被取出一次为止，这时转入如步骤(4.3.1)，进行新一轮关联规则模式挖掘，从FIS中再取出任意其他L_k，再顺序进行其后步骤，如此循环，直到FIS中所有k_频繁项集L_k当且仅当都被取出一次为止，这时关联规则模式挖掘结束，转入如下步骤(4.4)。

(4.4)从关联规则集AR中提取关联规则后件L_Et作为统计扩展词，得到统计扩展词集SETS(Statistical Expansion Term Set)，并计算统计扩展词权值w_SET，然后，转入步骤5。

所述SETS如式(8)所示：

式(8)中，Set_i表示第i个统计扩展词。

所述统计扩展词权值w_SET计算公式如式(9)所示。

w_SET＝max(IFWConf(L_Q→L_Et)) (9)

式(9)中，max()表示关联规则置信度的最大值，当多个关联规则模式中同时出现相同的规则扩展词时，取其置信度值最大的作为该规则扩展词的权值。

步骤5.产生最终扩展词集：将查询词项词嵌入扩展词集和统计扩展词集进行并集运算，得到最终扩展词，具体步骤是：

(5.1)将查询词项词嵌入扩展词集WEETS_QT和统计扩展词集SETS进行并集运算，得到原查询词项集合Q的最终扩展词集FETS(Final Expansion Term Set)，如式(10)所示：

式(10)中，ET_i为第i个最终扩展词(1≤i≤n)。

(5.2)计算最终扩展词权值w(ET_i)。

最终扩展词权值w(ET_i)如式(11)所示：

步骤6.实现查询扩展：扩展词与原查询组合为新查询再次检索原始中文文档集，实现查询扩展。

本发明与现有技术相比，具有以下有益效果：

(1)本发明提出了一种查询词嵌入扩展词和统计扩展词并集的中文查询扩展方法，该发明方法首先利用深度学习工具对对初检文档集进行词嵌入语义学习训练，得到词向量集，计算每个查询词项与所有非查询词项的向量余弦相似度，降序排列向量余弦相似度，提取各个查询词项对应的前列非查询词项构建查询词项词嵌入扩展词集，然后，利用基于Copulas理论的统计扩展词挖掘方法对伪相关反馈文档集挖掘统计扩展词，建立统计扩展词集，最后，将查询词项词嵌入扩展词集和统计扩展词集进行并集运算，得到最终扩展词，最终扩展词和原查询组合为新查询，再次检索文档集，实现查询扩展。实验结果表明，本发明方法能改善信息检索性能，检索性能高于近年同类的对比方法，具有较好的应用价值和推广前景。

(2)选择近年出现的4种同类查询扩展方法作为本发明方法的对比方法，实验数据是国家标准数据集NTCIR-5CLIR中文语料。实验结果表明，本发明方法的实验结果MAP值都高于基准检索，相对于4种对比方法，本发明方法MAP值绝大部分都得到提升，说明本发明方法的检索性能均优于基准检索和对比方法，能提高信息检索性能，减少信息检索中查询漂移和词不匹配问题，具有很高的应用价值和广阔的推广前景。

附图说明

图1为本发明所述的查询词嵌入扩展词和统计扩展词并集的中文查询扩展方法的总体流程示意图。

具体实施方式

一、为了更好地说明本发明的技术方案，下面将本发明涉及的相关概念介绍如下：

1.项集

在文本挖掘中，将一篇文本文档当作一个事务，文档中的各个特征词称为项目，特征词项目的集合称为项集，项集中所有项目的个数称为项集长度。k_项集指含有k个项目的项集，k即为项集的长度。

2.关联规则前件和后件

设x、y是任意的特征词项集，将形如x→y的蕴含式称为关联规则，其中，x称为规则前件，y称为规则后件。

3.Copulas理论框架下基于项频度和权值的支持度和置信度

Copulas理论(见文献：Sklar A.Fonctions de repartition à n dimensions etleurs marges[J].Publication de l'Institut de Statistique l'Universite Paris,1959,8(1):229-231.)用来描述变量间相关性，可以将任意形式的分布进行合并连接为一个有效的多元分布函数。

本发明利用Copulas函数将特征词项集频度和权值综合统一到特征词关联模式支持度和置信度，提出Copulas理论框架下基于项频度和权值的特征词关联模式支持度IFWSup(Support based on Itemsets Frequency and Weights)和置信度IFWConf(Confidence based on Itemsets Frequency and Weights)，其计算公式如下：

特征词项集(T₁∪T₂)支持度IFWSup(T₁∪T₂)的计算公式，如式(12)所示：

式(12)中，

表示项集(T₁∪T₂)在伪相关反馈中文文档库中出现的频度，

表示项集(T₁∪T₂)在伪相关反馈中文文档库中的项集权重。Doc_fre表示伪相关反馈中文文档库总文档数量，Items_wei表示伪相关反馈中文文档库中全体中文特征词的权重累加和；exp表示以自然常数e为底的指数函数。

特征词关联规则T₁→T₂的置信度IFWConf(T₁→T₂)的计算公式，如式(13)所示：

式(13)中，

表示项集(T₁∪T₂)在伪相关反馈中文文档库中出现的频度，

表示项集(T₁∪T₂)在伪相关反馈中文文档库中的项集权重，

表示项集T₁在伪相关反馈中文文档库中出现的频度，

表示项集T₁在伪相关反馈中文文档库中的项集权重。

4.统计扩展词

本发明将通过基于统计分析的数据挖掘技术得到的扩展词称为统计扩展词，具体来说，统计扩展词来自关联规则的后件项集，并以关联规则的置信度作为统计扩展词的权值。

5.查询词项词嵌入扩展词

查询词项词嵌入扩展词具体描述如下：在初检文档词向量集中，首先计算每个查询词项与所有非查询词项的向量余弦相似度，降序排列向量余弦相似度，提取各个查询词项对应的前列非查询词项作为查询词项词嵌入扩展词。

二、下面结合附图和具体对比实验来对本发明作进一步说明。

如图1所示，本发明的查询词嵌入扩展词和统计扩展词并集的中文查询扩展方法，包括下列步骤：

本发明所述深度学习工具是指Google开源词向量工具word2vec的Skip-gram模型。

所述q_jsim_l，的计算公式，如式(1)所示：

(3.3)根据降序排列向量余弦相似度值q_jsim_l的顺序，提取原查询词项集合Q中各个查询词项(q₁,q₂,…,q_j)的前列Vn个查询词项的词嵌入候选扩展词作为查询词项词嵌入扩展词，共得到j×Vn个词嵌入扩展词(q₁vet₁,q₁vet₂,…,q₁vet_Vn,…,q_jvet_Vn)，去除重复词项后，得到查询词项词嵌入扩展词集WEETS_QT，如式(3)所示，然后转入步骤4。

WEETS_QT＝{vqet₁,vqet₂,...,vqet_r}

(vqet_i∈(q₁vet₁,q₁vet₂,...,q₁vet_Vn,...,q_jvet_Vn),1≤i≤r) (3)

(4.1)从初检文档集中提取前列m篇初检文档作为伪相关反馈文档，构建伪相关反馈文档集，对初检伪相关反馈文档集进行中文分词、去除中文停用词和提取特征词的预处理，并采用TF-IDF加权技术计算特征词权值，最后构建伪相关反馈中文文档库和中文特征词库。

(4.2.1)从中文特征词库中提取特征词作为1_候选项集C₁。

所述支持度IFWSup(C₁)的计算公式，如式(5)所示：

式(5)中，

表示1_候选项集C₁在伪相关反馈中文文档库中出现的频度，Doc_fre表示伪相关反馈中文文档库总文档数量，

表示1_候选项集C₁在伪相关反馈中文文档库中的项集权重，Items_wei表示伪相关反馈中文文档库中全体中文特征词的权重累加和；exp表示以自然常数e为底的指数函数。

所述自连接方法采用Apriori算法中给出的候选项集连接方法。

所述IFWSup(C_k)的计算如式(6)所示：

式(6)中，

表示k_候选项集C_k在伪相关反馈中文文档库中出现的频度，

(4.3.1)从FIS中任意取出L_k，所述k≥2。

所述IFWConf(L_Q→L_Et)计算，如式(7)所示：

式(7)中，

表示k_频繁项集L_k在伪相关反馈中文文档库中出现的频度，

表示k_频繁项集L_k在伪相关反馈中文文档库中的项集权重，

所述SETS如式(8)所示：

式(8)中，Set_i表示第i个统计扩展词。

所述统计扩展词权值w_SET计算公式如式(9)所示。

w_SET＝max(IFWConf(L_Q→L_Et)) (9)

式(10)中，ET_i为第i个最终扩展词(1≤i≤n)。

(5.2)计算最终扩展词权值w(ET_i)。

最终扩展词权值w(ET_i)如式(11)所示：

实验设计与结果：

我们通过和现有同类方法进行实验对比，以说明本发明方法的有效性。

1.实验环境及实验数据：

为了验证本文提出的查询扩展模型的有效性，本文采用国际标准数据集NTCIR-5CLIR(http://research.nii.ac.jp/ntcir/data/data-en.html.)的中文文本语料作为实验数据。该中文语料为8个数据集共计901446篇文档，具体信息如表1所示。该语料有4种类型的查询主题，共50个中文查询，结果集有2种评价标准：Rigid(与查询高度相关，相关)和Relax(与查询高度相关、相关和部分相关)。

本发明实验采用Title查询主题，Title查询以名词和名词性短语简要描述查询主题。

实验数据预处理是：中文分词和去除中文停用词。实验结果检索评价指标是MAP(Mean Average Precision)。

表1 NTCIR-5 CLIR中文原始语料集信息

2.基准检索与对比方法：

实验基础检索环境采用Lucene.Net(详见：http://lucenenet.apache.org/)搭建。

基准检索与对比算法说明如下：

基准检索BR(Baseline Retrieval)：指50个原始查询经Lucene.Net初次检索得到的检索结果。具体对比查询扩展方法详见表2所示。

表2对比查询扩展方法的来源及其实验参数

3.实验结果如下：

50个中文查询在实验数据集上运行Lucene.Net和本发明方法、对比方法的源程序，得到基准检索、对比方法以及本发明方法的检索结果MAP的平均值，如表3和表4所示。

表3本发明方法与基准检索、对比方法的检索结果MAP值(Relax)

表4本发明方法与基准检索、对比方法的的检索结果MAP值(Rigid)

表3和4表明，本发明方法检索结果MAP都高于基准检索和4种对比扩展方法，说明本发明方法扩展检索性能高于基准检索和同类的对比方法。实验结果表明，本发明方法是有效的，确实能提高息检索性能，具有很高的应用价值和广阔的推广前景。

Claims

1.一种查询词嵌入扩展词和统计扩展词并集的中文查询扩展方法，其特征在于，包括下列步骤：

步骤1.构建初检文档集：中文用户查询检索原始中文文档集得到初检文档集；

步骤2.产生初检文档词向量集：对初检文档集进行中文分词和去除中文停用词，利用深度学习工具对对初检文档集进行词嵌入语义学习训练，得到初检文档词向量集；所述初检文档词向量集含有各个查询词项词向量和非查询词项词向量；

所述深度学习工具是指Google开源词向量工具word2vec的Skip-gram模型；

(3.1)在词向量集中，计算原查询词项集合Q(所述Q＝(q₁,q₂,…,q_j))中每个查询词项(q₁,q₂,…,q_j)与所有非查询词项的向量余弦相似度q_jsim_l，其中，1≤l≤i；

所述q_jsim_l，的计算公式，如式(1)所示：

式(1)中，vwecet_l表示第l个非查询词项wecet_l的词向量值，vq_s表示第s个查询词q_s的词向量值；

式(2)中，q_jvet_l表示查询词项q_j的第l个查询词项词嵌入候选扩展词，q_jsim_l表示查询词项q_j与第l个查询词项词嵌入候选扩展词的向量余弦相似度值；

(3.3)根据降序排列向量余弦相似度值q_jsim_l的顺序，提取原查询词项集合Q中各个查询词项(q₁,q₂,…,q_j)的前列Vn个查询词项的词嵌入候选扩展词作为查询词项词嵌入扩展词，共得到j×Vn个词嵌入扩展词(q₁vet₁,q₁vet₂,…,q₁vet_Vn,…,q_jvet_Vn)，去除重复词项后，得到查询词项词嵌入扩展词集WEETS_QT，如式(3)所示，然后转入步骤4；

WEETS_QT＝{vqet₁,vqet₂,...,vqet_r}

(vqet_i∈(q₁vet₁,q₁vet₂,...,q₁vet_Vn,...,q_jvet_Vn),1≤i≤r) (3)

式(3)中，vqet_r表示去除重复词项后得到的第r个查询词项词嵌入扩展词；

查询词项词嵌入扩展词权值w(qvet_i)如式(4)所示，其中，1≤i≤r；

式(4)表明，查询词项词嵌入扩展词权值为该查询词项与所有词嵌入候选扩展词的向量余弦相似度值，如果存在多个相同的查询词项词嵌入扩展词，则累加它们的向量余弦相似度值作为该查询词项词嵌入扩展词的权值；

(4.1)从初检文档集中提取前列m篇初检文档作为伪相关反馈文档，构建伪相关反馈文档集，对初检伪相关反馈文档集进行中文分词、去除中文停用词和提取特征词的预处理，并采用TF-IDF加权技术计算特征词权值，最后构建伪相关反馈中文文档库和中文特征词库；

(4.2)利用Copulas理论框架下融合项频度和权值的特征词关联模式支持度IFWSup和最小支持度阈值ms挖掘伪相关反馈文档集中含有原查询词项的k_频繁项集，所述k≥1，具体步骤如下：

(4.2.1)从中文特征词库中提取特征词作为1_候选项集C₁；

(4.2.2)计算1_候选项集C₁的支持度IFWSup(C₁)，如果IFWSup(C₁)不低于ms，则将C₁作为1_频繁项集L₁，并添加到频繁项集集合FIS；

所述支持度IFWSup(C₁)的计算公式，如式(5)所示：

式(5)中，

表示1_候选项集C₁在伪相关反馈中文文档库中的项集权重，Items_wei表示伪相关反馈中文文档库中全体中文特征词的权重累加和；exp表示以自然常数e为底的指数函数；

(4.2.3)将(k-1)_频繁项集L_k-1自连接生成k_候选项集C_k，所述k≥2；

所述自连接方法采用Apriori算法中给出的候选项集连接方法；

(4.2.4)当挖掘到2_候选项集C₂时，如果该C₂不含有原查询词项，则删除该C₂，如果该C₂含有原查询词项，则留下该C₂，然后，留下的C₂转入步骤(4.2.5)；当挖掘到k_候选项集C_k，所述k≥3，则直接转入步骤(4.2.5)；

(4.2.5)计算k_候选项集C_k的支持度IFWSup(C_k)，如果IFWSup(C_k)不低于ms，则将C_k作为k_频繁项集L_k，并添加到FIS；

所述IFWSup(C_k)的计算如式(6)所示：

式(6)中，

表示k_候选项集C_k在伪相关反馈中文文档库中出现的频度，

表示k_候选项集C_k在伪相关反馈中文文档库中的项集权重，Doc_fre、Items_wei的定义与式(5)相同；

(4.2.6)k加1后转入步骤(4.2.3)继续顺序执行其后步骤，直到产生所述L_k为空集，则频繁项集挖掘结束，转入步骤(4.3)；

(4.3)利用Copulas理论框架下融合项频度和权值的特征词关联模式置信度IFWConf和最小置信度阈值mc从频繁项集中挖掘前件含有原查询词项项集的关联规则模式，具体步骤如下：

(4.3.1)从FIS中任意取出L_k，所述k≥2；

所述L_Et为不含查询词项的真子集项集，所述L_Q为含查询词项的真子集项集；

所述IFWConf(L_Q→L_Et)计算，如式(7)所示：

式(7)中，

表示k_频繁项集L_k在伪相关反馈中文文档库中出现的频度，

表示k_频繁项集L_k在伪相关反馈中文文档库中的项集权重，

表示k_频繁项集L_k的真子集项集L_Q在伪相关反馈中文文档库中的项集权重；

(4.3.3)提取IFWConf(L_Q→L_Et)不小于mc的关联规则L_Q→L_Et加入到关联规则集AR，然后，转入步骤(4.3.2)，从L_k中重新提取其他的真子集项集L_Q和L_Et，再顺序进行其后步骤，如此循环，直到L_k的所有真子集项集当且仅当都被取出一次为止，这时转入如步骤(4.3.1)，进行新一轮关联规则模式挖掘，从FIS中再取出任意其他L_k，再顺序进行其后步骤，如此循环，直到FIS中所有k_频繁项集L_k当且仅当都被取出一次为止，这时关联规则模式挖掘结束，转入如下步骤(4.4)；

(4.4)从关联规则集AR中提取关联规则后件L_Et作为统计扩展词，得到统计扩展词集SETS，并计算统计扩展词权值w_SET，然后，转入步骤5；

所述SETS如式(8)所示：

式(8)中，Set_i表示第i个统计扩展词；

所述统计扩展词权值w_SET计算公式如式(9)所示；

w_SET＝max(IFWConf(L_Q→L_Et)) (9)

式(9)中，max()表示关联规则置信度的最大值，当多个关联规则模式中同时出现相同的规则扩展词时，取其置信度值最大的作为该规则扩展词的权值；

(5.1)将查询词项词嵌入扩展词集WEETS_QT和统计扩展词集SETS进行并集运算，得到原查询词项集合Q的最终扩展词集FETS，如式(10)所示：

式(10)中，ET_i为第i个最终扩展词(1≤i≤n)；

(5.2)计算最终扩展词权值w(ET_i)；

最终扩展词权值w(ET_i)如式(11)所示：