CN111897921A

CN111897921A - 基于词向量学习和模式挖掘融合扩展的文本检索方法

Info

Publication number: CN111897921A
Application number: CN202010773068.9A
Authority: CN
Inventors: 黄名选
Original assignee: Guangxi University of Finance and Economics
Current assignee: Guangxi University of Finance and Economics
Priority date: 2020-08-04
Filing date: 2020-08-04
Publication date: 2020-11-06

Abstract

本发明提出了一种基于词向量学习和模式挖掘融合扩展的文本检索方法，其通过用户查询检索中文文档集得到初检文档，对初检文档进行词嵌入语义学习训练得到初检文档词向量集；构建伪相关反馈文档集，采用基于Copulas函数的规则后件扩展词挖掘方法挖掘扩展词，建立规则后件扩展词集，计算规则后件扩展词与原查询的向量余弦相似度，提取词向量规则后件扩展词集；计算非查询词项与原查询的向量余弦相似度，提取词向量扩展词集；将词向量扩展词集和词向量规则后件扩展词集并集融合得到最终扩展词，最终扩展词和原查询组合为新查询，实现查询扩展。本发明采用两次检索和两次词向量相似度计算的机制实现查询扩展，文本信息检索性能得到很好的改善和提高。

Description

基于词向量学习和模式挖掘融合扩展的文本检索方法

技术领域

本发明涉及一种基于词向量学习和模式挖掘融合扩展的文本检索方法，属于信息检索技术领域。

背景技术

当前信息检索领域还存在查询主题漂移和词不匹配问题，导致信息查询性能降低，影响用户获取所需的信息资源。在信息检索中使用查询扩展技术可以解决上述问题，查询扩展指的是对原查询权重进行改造，或者添加与原查询语义相关的其他特征词，弥补原查询过于简单导致的语义信息不足，达到改善信息检索性能的目的。近十几年来，学者们从不同的视角对基于查询扩展的信息检索方法开展研究，产生了一些有效的信息检索方法，例如，Vaidyanathan等(Vaidyanathan R,Das S,Srivastava N.Query ExpansionStrategy based on Pseudo Relevance Feedback and Term Weight Scheme forMonolingual Retrieval[J].International Journal of Computer Applications,2015,105(8):1-6.)提出一种伪相关反馈扩展的信息检索方法，岳文等提出的一种基于查询扩展和分类的信息检索方法(见文献：岳文,陈治平,林亚平.基于查询扩展和分类的信息检索算法[J].系统仿真学报,2006,018(007):1926-1929,1934.)，等等，这些方法经过实验验证了所述检索方法的有效性，但还没有最终完全解决信息检索中存在的查询主题漂移和词不匹配等技术问题。

为了解决当前信息检索系统中查询主题漂移和词不匹配等技术问题，提高信息系统检索性能，本发明将Copulas函数(见文献：Sklar A.Fonctions de repartitionàndimensions et leurs marges[J].Publication de l'Institut de Statistique l'Universite Paris,1959,8(1):229-231.)引入信息检索领域，将关联模式挖掘和词向量语义学习融合，采用两次检索和两次词向量相似度计算的机制实现查询扩展，提出一种基于词向量学习和模式挖掘融合扩展的文本检索方法，实验结果表明，本发明方法能提高和改善跨信息检索性能，具有较好的应用价值和推广前景。

发明内容

本发明的目的是提出一种基于词向量学习和模式挖掘融合扩展的文本检索方法，将该方法用于信息检索领域，如实际中文搜索引擎和web信息检索系统，能改善和提高信息检索系统的查询性能，减少信息检索中查询主题漂移和词不匹配问题。

本发明所采用的具体技术方案如下：

一种基于词向量学习和模式挖掘融合扩展的文本检索方法，包括下列步骤：

步骤1.用户查询检索中文文档集得到初检文档集。

步骤2.对初检文档集进行中文分词和去除中文停用词，利用深度学习工具对初检文档集进行词向量语义学习训练得到包括查询词项和非查询词项的词向量集。

本发明所述深度学习工具是指Google开源词向量工具word2vec的Skip-gram模型(详见：https://code.google.com/p/word2vec/)。

步骤3.从初检文档集中提取前列m篇初检文档作为伪相关反馈文档，构建伪相关反馈文档集，对初检伪相关反馈文档集进行中文分词、去除中文停用词和提取特征词的预处理，并计算特征词权值，最后构建伪相关反馈中文文档库和中文特征词库。

本发明采用TF-IDF(term frequency–inverse document frequency)加权技术(见文献：Ricardo Baeza-Yates Berthier Ribeiro-Neto等著，王知津等译,《现代信息检索》，机械工业出版社，2005年：21-22。)计算特征词权值。

步骤4.从中文特征词库中提取特征词得到1_候选项集C₁，并计算1_候选项集C₁基于Copulas函数的支持度CFSup(C₁)，如果CFSup(C₁)不低于最小支持度阈值ms，则将C₁作为1_频繁项集L₁，并添加到频繁项集集合FIS(Frequent ItemSet)。

所述CFSup(Supportbasedon Copulas Function)表示基于Copulas函数的支持度。

所述CFSup(C₁)的计算如式(1)所示：

式(1)中，freq(C1)表示1_候选项集C1在伪相关反馈中文文档库中出现的频度，freq(allDocs)表示伪相关反馈中文文档库总文档数量，w(C1)表示1_候选项集C1在伪相关反馈中文文档库中的项集权重，w(allItems)表示伪相关反馈中文文档库中全体中文特征词项目的权重累加和；exp表示以自然常数e为底的指数函数。

步骤5.由(k-1)_频繁项集L_k-1自连接产生k_候选项集C_k，所述k≥2。

所述自连接方法采用Apriori算法(见文献：Agrawal R,Imielinski T,SwamiA.Mining association rules between sets of items in large database[C]//Proceedings of the 1993 ACM SIGMOD International Conference on Management ofData,Washington D C,USA,1993:207-216.)中给出的候选项集连接方法。

步骤6.当挖掘到2_候选项集C₂时，如果该C₂不含有原查询词项，则删除该C₂，如果该C₂含有原查询词项，则留下该C₂，然后，留下的C₂转入步骤7；当挖掘到k_候选项集C_k，所述k≥3时，则直接转入步骤7。

步骤7.计算k_候选项集C_k支持度CFSup(C_k)，如果CFSup(C_k)不低于ms，则将C_k作为k_频繁项集L_k，并添加到FIS。

所述CFSup(C_k)的计算如式(2)所示：

式(2)中，freq(C_k)表示k_候选项集C_k在伪相关反馈中文文档库中出现的频度，w(C_k)表示k_候选项集C_k在伪相关反馈中文文档库中的项集权重；freq(allDocs)和w(allItems)的定义与式(1)相同。

步骤8.k加1后转入步骤5继续顺序执行其后步骤，直到产生所述L_k为空集，则频繁项集挖掘结束，转入步骤9。

步骤9.从FIS中任意取出L_k，所述k≥2。

步骤10.从k_频繁项集L_k中提取真子集项集L_q和L_Ret，计算关联规则(L_q→L_Ret)基于Copulas函数的置信度CFConf(L_q→L_Ret)，且L_q∪L_Ret＝L_k，

所述L_Ret为不含查询词项的真子集项集，所述L_q为含查询词项的真子集项集。

所述CFConf(Confidence basedon Copulas Function)表示基于Copulas函数的置信度，所述CFConf(L_q→L_Aet)的计算公式如式(3)所示：

式(3)中，freq(L_k)表示k_频繁项集L_k在伪相关反馈中文文档库中出现的频度，w(L_k)表示k_频繁项集L_k在伪相关反馈中文文档库中的项集权重，所述freq(L_q)表示k_频繁项集L_k的真子集项集L_q在伪相关反馈中文文档库中出现的频度，w(L_q)表示k_频繁项集L_k的真子集项集L_q在伪相关反馈中文文档库中的项集权重。

步骤11.提取CFConf(L_q→L_Ret)不小于最小置信度阈值mc的关联规则L_q→L_Ret加入到关联规则集AR(Association Rule)，然后，转入步骤10，从L_k中重新提取其他的真子集项集L_q和L_Ret，再顺序进行其后步骤，如此循环，直到L_k的所有真子集项集当且仅当都被取出一次为止，这时转入如步骤9，进行新一轮关联规则模式挖掘，从FIS中再取出任意其他L_k，再顺序进行其后步骤，如此循环，直到FIS中所有k_频繁项集L_k当且仅当都被取出一次为止，这时关联规则模式挖掘结束，转入如下步骤12。

步骤12.从关联规则集AR中提取关联规则后件L_Ret的特征词作为规则后件扩展词，得到规则后件扩展词集RCET(Rule Consequent Expansion Term)，并计算规则后件扩展词权值w_Ret，然后，转入步骤13。

所述RCET如式(4)所示：

RCET＝{Ret₁,Ret₂,...,Ret_i}

(CFSup(.)≥ms,CFConf(.)≥mc) (4)

式(4)中，Ret_i表示第i个规则后件扩展词。

所述规则后件扩展词权值w_Ret计算公式如式(5)所示：

w_Ret＝max(CFConf(L_q→L_Ret)) (5)

式(5)中，max()表示关联规则置信度的最大值，当多个关联规则模式中同时出现相同的规则扩展词时，取其置信度值最大的作为该规则后件扩展词的权值。

步骤13.在词向量集中，计算规则后件扩展词(Ret₁,Ret₂,..,Ret_s)与原查询词项集合Q(所述Q＝(q₁,q₂,…,q_j))中各查询词项(q₁,q₂,…,q_j)的向量余弦相似度RCos(Ret_l,q_s)，如式(6)所示，其中1≤l≤i，1≤s≤j。

式(6)中，vRet_l表示第l个规则后件扩展词Ret_l的词向量值，vq_s表示第s个查询词q_s的词向量值。

步骤14.累加规则后件扩展词与各个查询词的向量相似度值得到的相似度总和作为该规则后件扩展词与原查询词项集合Q的向量余弦相似度值RSim(Ret_l,Q)，如式(7)所示：

步骤15.提取向量相似度RSim(Ret_l,Q)值不低于最小相似度阈值minVSim的规则后件扩展词作为词向量规则后件扩展词，得到词向量规则后件扩展词集WERCETS(WordEmbedding Rule ConsequentExpansion Term Set)，并计算词向量规则后件扩展词权值w(Rvet_l)，然后转入步骤16。所述词向量规则后件扩展词权值w(Rvet_l)由规则后件扩展词权值w_Ret和所述规则后件扩展词与原查询词项集合Q的向量余弦相似度值RSim(Rvet_l,Q)组成。

词向量规则后件扩展词集WERCETS如式(8)所示：

WERCETS＝{Rvet₁,Rvet₂,...,Rvet_S}

(RSim(Rvet_l,Q)≥minVSim,Rvet_l∈WERCETS,1≤l≤s) (8)

式(8)中，Rvet_s表示第s个词向量规则后件扩展词，RSim(Rvet_l,Q)表示第l个词向量规则后件扩展词与各个查询词项的向量余弦相似度值的累加和，按式(7)计算。

所述w(Rvet_l)计算公式如式(9)所示：

w(Rvet_l)＝exp(log(w_Ret)+log(RSim(Rvet_l,Q))) (9)

步骤16.在所述词向量集中，计算非查询词项(cet₁,cet₂,…,cet_i)与原查询词项集合Q中各查询词项(q₁,q₂,…,q_j)的向量余弦相似度vCos(cet_l,q_s)，其中，1≤l≤i，1≤s≤j，如式(10)所示：

式(10)中，vcet_l表示第l个非查询词项cet_l的词向量值,vq_s表示第s个查询词q_s的词向量值。

步骤17.累加非查询词项和原查询词项集合Q中各查询词项的向量余弦相似度得到总的相似度值，作为非查询词项与原查询词项集合Q的向量余弦相似度VSim(cet_l,Q)，如式(11)所示：

步骤18.对向量余弦相似度VSim(cet_l,Q)排降序，根据所排的降序提取前列Vm个非查询词项作为原查询词项集合Q的词向量扩展词，构建词向量扩展词集WVETS(WordVector Expansion Term Sets)，并计算词向量扩展词权值w(vet_l)，然后转入步骤19。

词向量扩展词集WVETS如式(12)所示

WVETS＝(vet₁,vet₂,...,vet_vm)

(vet_l∈(cet₁,cet₂,…,cet_i),1≤l≤vm) (12)

式(12)中，vet_l表示第l个词向量扩展词(l∈(1,2,…,Vm))。

本发明将总的向量余弦相似度值作为词向量扩展词权值w(vet_l)，如式(13)所示：

w(vet_l)＝VSim(vet_l,Q) (13)

步骤19词向量扩展词集WVETS和词向量规则后件扩展词集WERCETS并集融合，得到最终扩展词FETS(Final Expansion Term Set)，并计算最终扩展词权值w(ET_l)，然后转入步骤20。

所述最终扩展词FETS如式(14)所示：

FETS＝WVETS∪WERCETS＝{ET₁,ET₂,...ET_n}

(ET_i∈WVETS，或者ET_i∈WERCETS，1≤i≤n) (14)

所述最终扩展词权值w(ET_l)为词向量扩展词权值w(vet_l)，或者词向量规则后件扩展词权值w(Rvet_l)，或者为两者之和，如式(15)所示：

步骤20.最终扩展词和原查询组合为新查询，再次检索文档集，并将最终检索文档返回给用户。

本发明与现有技术相比，具有以下有益效果：

(1)本发明提出了一种基于词向量学习和模式挖掘融合扩展的文本检索方法，该发明方法首先通过用户查询检索原始中文文档集得到初检文档，采用基于Copulas函数的规则后件扩展词挖掘方法对伪相关反馈文档集挖掘扩展词，建立规则后件扩展词集，然后，对全部初检文档进行词嵌入语义学习训练，得到初检文档词向量集，最后，计算非查询词项与原查询的向量余弦相似度，根据降序排列的相似度值提取前列非查询词项作为词向量扩展词，得到词向量扩展词集，计算规则后件扩展词与原查询的向量余弦相似度，提取所述向量相似度值不低于最小相似度阈值的规则后件扩展词，得到词向量规则后件扩展词集，词向量扩展词集和词向量规则后件扩展词集并集融合得到最终扩展词，最终扩展词和原查询组合为新查询，再次检索文档集，并将最终检索文档返回给用户。本发明采用两次检索和两次词向量相似度计算的机制实现查询扩展，挖掘出高质量扩展词，提高信息检索性能，具有较好应用价值和推广前景。

(2)以国家标准数据集NTCIR-5CLIR中文语料作为实验数据，选择近年出现的4种同类查询扩展方法与本发明方法进行对比。实验结果表明，本发明方法检索结果MAP和P@5都高于基准检索和4种对比扩展方法，说明本发明方法的检索性能均优于基准检索和对比方法，能提高信息检索性能，减少信息检索中查询漂移和词不匹配问题，具有很高的应用价值和广阔的推广前景。

附图说明

图1为本发明所述的基于词向量学习和模式挖掘融合扩展的文本检索方法的总体流程示意图。

具体实施方式

一、为了更好地说明本发明的技术方案，下面将本发明涉及的相关概念介绍如下：

1.项集

在文本挖掘中，将一篇文本文档当作一个事务，文档中的各个特征词称为项目，特征词项目的集合称为项集，项集中所有项目的个数称为项集长度。k_项集指含有k个项目的项集，k即为项集的长度。

2.关联规则前件和后件

设x、y是任意的特征词项集，将形如x→y的蕴含式称为关联规则，其中，x称为规则前件，y称为规则后件。

3.基于Copulas函数的特征词项集支持度和置信度

Copulas理论(见文献：Sklar A.Fonctions de repartitionàn dimensions etleurs marges[J].Publication de l'Institut de Statistique l'Universite Paris,1959,8(1):229-231.)用来描述变量间相关性，可以将任意形式的分布进行合并连接为一个有效的多元分布函数。

本发明利用Copulas函数将特征词项集频度和权值综合统一到特征词关联模式支持度和置信度，提出基于Copulas函数的特征词项集支持度CFSup(SupportbasedonCopulas Function)和特征词关联规则置信度CFConf(Copulas based basedon CopulasFunction)。

基于Copulas函数的特征词项集(T₁∪T₂)支持度CFSup(T₁∪T₂)的计算公式，如式(16)所示：

式(16)中，freq(T₁∪T₂)表示项集(T₁∪T₂)在伪相关反馈中文文档库中出现的频度，freq(allDocs)表示伪相关反馈中文文档库总文档数量，w(T₁∪T₂)表示项集(T₁∪T₂)在伪相关反馈中文文档库中的项集权重，w(allItems)表示伪相关反馈中文文档库中全体中文特征词项目的权重累加和。exp表示以自然常数e为底的指数函数。

基于Copulas函数的特征词关联规则置信度CFConf(T₁→T₂)计算，如式(17)所示：

式(17)中，freq(T₁)表示项集T₁在伪相关反馈中文文档库中出现的频度，w(T₁)表示项集T₁在伪相关反馈中文文档库中的项集权重，freq(T1∪T2)、w(T1∪T2)的定义和式(16)相同。

4.规则后件扩展词、词向量规则后件扩展词

规则后件扩展词来自关联规则的后件项集的特征词，并将关联规则的置信度作为所述规则后件扩展词的权值。

计算规则后件扩展词与原查询的向量余弦相似度，将所述向量余弦相似度值不低于最小相似度阈值的规则后件扩展词称为词向量规则后件扩展词。

词向量规则后件扩展词权值w(Rvet_l)由规则后件扩展词权值w_Ret和所述规则后件扩展词与原查询词项集合Q的向量余弦相似度值RSim(Rvet_l,Q)组成，由于所述两种扩展词权值来源不同，本发明利用Copulas的累积分布函数，将规则后件扩展词权值和所述规则后件扩展词与原查询词项集合Q的向量余弦相似度值RSim(Rvet_l,Q)综合统一为统计词向量规则后件扩展词权值w(Rvet_l)，如式(18)所示

5.词向量扩展词

计算非查询词项与全部查询词项的向量余弦相似度，将非查询词项与全部查询词项的向量余弦相似度的累加和作为所述非查询词项与原查询的总的向量余弦相似度，将根据降序排列总的向量余弦相似度提取的前列Vm个非查询词项称为词向量扩展词，并将总的向量余弦相似度值作为所述词向量扩展词权值。

二、下面结合附图和具体对比实验来对本发明作进一步说明。

如图1所示，本发明的基于词向量学习和模式挖掘融合扩展的文本检索方法，包括下列步骤：

步骤1.用户查询检索中文文档集得到初检文档集。

本发明所述深度学习工具是指Google开源词向量工具word2vec的Skip-gram模型。

步骤3.从初检文档集中提取前列m篇初检文档作为伪相关反馈文档，构建伪相关反馈文档集，对初检伪相关反馈文档集进行中文分词、去除中文停用词和提取特征词的预处理，并采用TF-IDF加权技术计算特征词权值，最后构建伪相关反馈中文文档库和中文特征词库。

所述CFSup(C₁)的计算如式(1)所示：

所述自连接方法采用Apriori算法中给出的候选项集连接方法。

所述CFSup(C_k)的计算如式(2)所示：

步骤9.从FIS中任意取出L_k，所述k≥2。

所述RCET如式(4)所示：

RCET＝{Ret₁,Ret₂,...,Ret_i}

(CFSup(.)≥ms,CFConf(.)≥mc) (4)

式(4)中，Ret_i表示第i个规则后件扩展词。

所述规则后件扩展词权值w_Ret计算公式如式(5)所示：

w_Ret＝max(CFConf(L_q→L_Ret)) (5)

词向量规则后件扩展词集WERCETS如式(8)所示：

WERCETS＝{Rvet₁,Rvet₂,...,Rvet_S}

(RSim(Rvet_l,Q)≥minVSim,Rvet_l∈WERCETS,1≤l≤s) (8)

所述w(Rvet_l)计算公式如式(9)所示：

w(Rvet_l)＝exp(log(w_Ret)+log(RSim(Rvet_l,Q))) (9)

词向量扩展词集WVETS如式(12)所示

WVETS＝(vet₁,vet₂,...,vet_vm)

(vet_l∈(cet₁,cet₂,…,cet_i),1≤l≤vm) (12)

式(12)中，vet_l表示第l个词向量扩展词(l∈(1,2,…,Vm))。

w(vet_l)＝VSim(vet_l,Q) (13)

所述最终扩展词FETS如式(14)所示：

FETS＝WVETS∪WERCETS＝{ET₁,ET₂,...ET_n}

(ET_i∈WVETS，或者ET_i∈WERCETS，1≤i≤n) (14)

实验设计与结果：

我们通过和现有同类方法进行实验对比，以说明本发明方法的有效性。

1.实验环境及实验数据：

为了验证本文提出的查询扩展模型的有效性，本文采用国际标准数据集NTCIR-5CLIR(http://research.nii.ac.jp/ntcir/data/data-en.html.)的中文文本语料作为实验数据。该中文语料为8个数据集共计901446篇文档，具体信息如表1所示。该语料有4种类型的查询主题，共50个中文查询，结果集有2种评价标准：Rigid(与查询高度相关，相关)和Relax(与查询高度相关、相关和部分相关)。

本发明实验采用Description(即Desc)查询主题，Desc查询以句子形式简要描述查询主题。

实验数据预处理是：中文分词和去除中文停用词。实验结果检索评价指标是MAP(Mean Average Precision)和P@5。

表1原始语料集信息

2.基准检索与对比方法：

实验基础检索环境采用Lucene.Net(详见：http://lucenenet.apache.org/)搭建。

基准检索与对比算法说明如下：

基准检索BR(Baseline Retrieval)：指50个原始查询经Lucene.Net初次检索得到的检索结果。具体对比查询扩展方法描述如下：

对比方法1：采用文献(黄名选.基于加权关联模式挖掘的越-英跨语言查询扩展[J].情报学报,2017,36(3):307-318.)的加权关联模式挖掘技术挖掘扩展词.实验参数：mc＝0.1,mi＝0.0001,ms∈(0.004,0.005,0.006,0.007)。

对比方法2：文献(Zhang H R,Zhang J W,Wei X Y,et al.A new frequentpattern mining algorithm with weighted multiple minimum supports[J].Intelligent Automation&Soft Computing,2017,23(4):605-612.)的基于多支持度阈值的加权频繁模式挖掘技术挖掘扩展词.实验参数：mc＝0.1,LMS＝0.2,HMS＝0.25,WT＝0.1,ms∈(0.1,0.15,0.2,0.25)。

对比方法3：采用文献(许侃,林原,曲忱,等.专利查询扩展的词向量方法研究[J].计算机科学与探索,2018,12(6):972-980.)基于词向量的查询扩展方法。实验参数：k＝60,α＝0.1。

对比方法4：采用文献(黄名选,蒋曹清.基于完全加权正负关联模式挖掘的越-英跨语言查询译后扩展[J].电子学报,2018,46(12):3029-3036.)的完全加权正负关联模式挖掘技术挖掘正负扩展词，去除负扩展词后得到最终扩展词.实验参数：mc＝0.1,α＝0.3,minPR＝0.1,minNR＝0.01,ms∈(0.10,0.11,0.12,0.13)。

3.实验结果如下：

50个中文查询在实验数据集上运行Lucene.Net和本发明方法、对比方法的源程序，得到基准检索、对比方法以及本发明方法的检索结果MAP和P@5的平均值，如表2～表5所示。

表2本发明方法与基准检索、对比方法的检索结果P@5值(Relax)

表3本发明方法与基准检索、对比方法的检索结果P@5值(Rigid)

表4本发明方法与基准检索、对比方法的检索结果MAP值(Relax)

表5本发明方法与基准检索、对比方法的检索结果MAP值(Rigid)

表2～5表明，相对于4种对比方法，本发明方法MAP和P@5值绝大部分都得到提升，同时，本发明方法的实验结果MAP和P@5值都高于基准检索，说明本发明方法扩展检索性能高于基准检索和同类的对比方法。实验结果表明，本发明方法是有效的，确实能提高息检索性能，具有很高的应用价值和广阔的推广前景。

Claims

1.一种基于词向量学习和模式挖掘融合扩展的文本检索方法，其特征在于，包括下列步骤：

步骤1.用户查询检索中文文档集得到初检文档集；

步骤2.对初检文档集进行中文分词和去除中文停用词，利用深度学习工具对初检文档集进行词向量语义学习训练得到包括查询词项和非查询词项的词向量集；

所述深度学习工具是指Google开源词向量工具word2vec的Skip-gram模型；

步骤3.从初检文档集中提取前列m篇初检文档作为伪相关反馈文档，构建伪相关反馈文档集，对初检伪相关反馈文档集进行中文分词、去除中文停用词和提取特征词的预处理，并采用TF-IDF加权技术计算特征词权值，最后构建伪相关反馈中文文档库和中文特征词库；

步骤4.从中文特征词库中提取特征词得到1_候选项集C₁，并计算1_候选项集C₁基于Copulas函数的支持度CFSup(C₁)，如果CFSup(C₁)不低于最小支持度阈值ms，则将C₁作为1_频繁项集L₁，并添加到频繁项集集合FIS；

所述CFSup(C₁)的计算如式(1)所示：

式(1)中，freq(C1)表示1_候选项集C1在伪相关反馈中文文档库中出现的频度，freq(allDocs)表示伪相关反馈中文文档库总文档数量，w(C1)表示1_候选项集C1在伪相关反馈中文文档库中的项集权重，w(allItems)表示伪相关反馈中文文档库中全体中文特征词项目的权重累加和；exp表示以自然常数e为底的指数函数；

步骤5.由(k-1)_频繁项集L_k-1自连接产生k_候选项集C_k，所述k≥2；

所述自连接方法采用Apriori算法中给出的候选项集连接方法；

步骤6.当挖掘到2_候选项集C₂时，如果该C₂不含有原查询词项，则删除该C₂，如果该C₂含有原查询词项，则留下该C₂，然后，留下的C₂转入步骤7；当挖掘到k_候选项集C_k，所述k≥3时，则直接转入步骤7；

步骤7.计算k_候选项集C_k支持度CFSup(C_k)，如果CFSup(C_k)不低于ms，则将C_k作为k_频繁项集L_k，并添加到FIS；

所述CFSup(C_k)的计算如式(2)所示：

式(2)中，freq(C_k)表示k_候选项集C_k在伪相关反馈中文文档库中出现的频度，w(C_k)表示k_候选项集C_k在伪相关反馈中文文档库中的项集权重；freq(allDocs)和w(allItems)的定义与式(1)相同；

步骤8.k加1后转入步骤5继续顺序执行其后步骤，直到产生所述L_k为空集，则频繁项集挖掘结束，转入步骤9；

步骤9.从FIS中任意取出L_k，所述k≥2；

所述L_Ret为不含查询词项的真子集项集，所述L_q为含查询词项的真子集项集；

所述CFConf(L_q→L_Aet)的计算公式如式(3)所示：

式(3)中，freq(L_k)表示k_频繁项集L_k在伪相关反馈中文文档库中出现的频度，w(L_k)表示k_频繁项集L_k在伪相关反馈中文文档库中的项集权重，所述freq(L_q)表示k_频繁项集L_k的真子集项集L_q在伪相关反馈中文文档库中出现的频度，w(L_q)表示k_频繁项集L_k的真子集项集L_q在伪相关反馈中文文档库中的项集权重；

步骤11.提取CFConf(L_q→L_Ret)不小于最小置信度阈值mc的关联规则L_q→L_Ret加入到关联规则集AR，然后，转入步骤10，从L_k中重新提取其他的真子集项集L_q和L_Ret，再顺序进行其后步骤，如此循环，直到L_k的所有真子集项集当且仅当都被取出一次为止，这时转入如步骤9，进行新一轮关联规则模式挖掘，从FIS中再取出任意其他L_k，再顺序进行其后步骤，如此循环，直到FIS中所有k_频繁项集L_k当且仅当都被取出一次为止，这时关联规则模式挖掘结束，转入如下步骤12；

步骤12.从关联规则集AR中提取关联规则后件L_Ret的特征词作为规则后件扩展词，得到规则后件扩展词集RCET，并计算规则后件扩展词权值w_Ret，然后，转入步骤13；

所述RCET如式(4)所示：

RCET＝{Ret₁,Ret₂,...,Ret_i}

(CFSup(.)≥ms,CFConf(.)≥mc) (4)

式(4)中，Ret_i表示第i个规则后件扩展词；

所述规则后件扩展词权值w_Ret计算公式如式(5)所示：

w_Ret＝max(CFConf(L_q→L_Ret)) (5)

式(5)中，max()表示关联规则置信度的最大值，当多个关联规则模式中同时出现相同的规则扩展词时，取其置信度值最大的作为该规则后件扩展词的权值；

步骤13.在词向量集中，计算规则后件扩展词(Ret₁,Ret₂,..,Ret_s)与原查询词项集合Q(所述Q＝(q₁,q₂,…,q_j))中各查询词项(q₁,q₂,…,q_j)的向量余弦相似度RCos(Ret_l,q_s)，如式(6)所示，其中1≤l≤i，1≤s≤j；

式(6)中，vRet_l表示第l个规则后件扩展词Ret_l的词向量值，vq_s表示第s个查询词q_s的词向量值；

步骤15.提取向量相似度RSim(Ret_l,Q)值不低于最小相似度阈值minVSim的规则后件扩展词作为词向量规则后件扩展词，得到词向量规则后件扩展词集WERCETS，并计算词向量规则后件扩展词权值w(Rvet_l)，然后转入步骤16；所述词向量规则后件扩展词权值w(Rvet_l)由规则后件扩展词权值w_Ret和所述规则后件扩展词与原查询词项集合Q的向量余弦相似度值RSim(Rvet_l,Q)组成；

词向量规则后件扩展词集WERCETS如式(8)所示：

WERCETS＝{Rvet₁,Rvet₂,...,Rvet_S}

(RSim(Rvet_l,Q)≥minVSim,Rvet_l∈WERCETS,1≤l≤s) (8)

式(8)中，Rvet_s表示第s个词向量规则后件扩展词，RSim(Rvet_l,Q)表示第l个词向量规则后件扩展词与各个查询词项的向量余弦相似度值的累加和，按式(7)计算；

所述w(Rvet_l)计算公式如式(9)所示：

w(Rvet_l)＝exp(log(w_Ret)+log(RSim(Rvet_l,Q))) (9)

式(10)中，vcet_l表示第l个非查询词项cet_l的词向量值,vq_s表示第s个查询词q_s的词向量值；

步骤18.对向量余弦相似度VSim(cet_l,Q)排降序，根据所排的降序提取前列Vm个非查询词项作为原查询词项集合Q的词向量扩展词，构建词向量扩展词集WVETS，并计算词向量扩展词权值w(vet_l)，然后转入步骤19；

词向量扩展词集WVETS如式(12)所示

WVETS＝(vet₁,vet₂,...,vet_vm)

(vet_l∈(cet₁,cet₂,…,cet_i),1≤l≤vm) (12)

式(12)中，vet_l表示第l个词向量扩展词(l∈(1,2,…,Vm))；

w(vet_l)＝VSim(vet_l,Q) (13)

步骤19词向量扩展词集WVETS和词向量规则后件扩展词集WERCETS并集融合，得到最终扩展词FETS，并计算最终扩展词权值w(ET_l)，然后转入步骤20；

所述最终扩展词FETS如式(14)所示：

FETS＝WVETS∪WERCETS＝{ET₁,ET₂,...ET_n}

(ET_i∈WVETS，或者ET_i∈WERCETS，1≤i≤n) (14)