CN108170778B

CN108170778B - 基于完全加权规则后件的中英跨语言查询译后扩展方法

Info

Publication number: CN108170778B
Application number: CN201711433112.6A
Authority: CN
Inventors: 黄名选
Original assignee: Guangxi University of Finance and Economics
Current assignee: Guangxi University of Finance and Economics
Priority date: 2017-12-26
Filing date: 2017-12-26
Publication date: 2021-09-10
Anticipated expiration: 2037-12-26
Also published as: CN108170778A

Abstract

本发明公开了基于完全加权规则后件的中英跨语言查询译后扩展方法，首先进行中英跨语言初次检索，提取初检前列英文文档经用户相关性判断构建初检相关文档集并预处理后采用融合项集权值和频度的完全加权项集支持度计算方法对初检相关文档集挖掘含有译后原查询词项的完全加权频繁项集，采用基于完全加权置信度‑兴趣度评价框架对完全加权频繁项集挖掘前件是译后原查询词项的英文特征词间完全加权关联规则，提取规则后件作为中英跨语言译后扩展词，译后扩展词与译后原查询词组合为新查询再次检索英文文档。本发明方法能提高和改善跨语言信息检索性能，减少跨语言信息检索中查询主题严重漂移和词不匹配等问题，具有较高的应用价值和广阔的应用前景。

Description

基于完全加权规则后件的中英跨语言查询译后扩展方法

技术领域

本发明属于信息检索领域，具体是一种基于完全加权规则后件的中英跨语言查询译后扩展方法。

背景技术

跨语言信息检索指的是借助机器翻译以一种语言的查询式检索其他语言信息资源的技术。其表达用户查询的语言称为源语言，被检索的文档所用的语言称为目标语言。跨语言信息检索受查询翻译质量和同义词、多义词等的影响，常常导致查询主题严重漂移，词不匹配以及查询项翻译歧义和多义性等等问题。跨语言查询扩展是解决上述问题的关键技术之一。跨语言查询扩展指的是在跨语言信息检索过程中，添加与原查询相关的语词，和原查询重新构建新查询再次检索的过程。按照其扩展发生在检索过程的不同阶段，分为译前查询扩展、译后查询扩展和混合式查询扩展(即同时发生在译前与译后的查询扩展)三种。研究表明，跨语言查询扩展是提高跨语言信息检索性能的核心技术之一。随着跨语言信息检索研究的兴起，跨语言查询扩展越来越受到国内外学者专家的关注和讨论，成为一个研究热点。多年来，各国学者从不同角度和方向对跨语言查询扩展进行深入研究和讨论，取得了丰富的理论成果，但还没有最终完全解决跨语言信息检索中查全率和查准率问题。

发明内容

针对上述现有技术存在的问题，本发明提出一种基于完全加权规则后件的中英跨语言查询译后扩展方法，该方法能提高和改善跨语言检索性能，解决跨语言信息检索中查询主题漂移和词不匹配问题，适用于跨语言信息检索领域，还能应用于跨语言搜索引擎，提高搜索引擎检索性能。

本发明采用技术方案如下：

基于完全加权规则后件的中英跨语言查询译后扩展方法，首先利用机器翻译工具进行中英跨语言初次检索，提取初检前列英文文档经用户相关性判断构建初检相关文档集，对初检相关文档集进行预处理，构建初检英文文档库和特征词库；采用融合项集权值和频度的完全加权项集支持度计算方法对初检英文文档库挖掘含有译后原查询词项的完全加权频繁项集得到完全加权频繁项集集合；然后，采用基于完全加权置信度-兴趣度评价框架对所述完全加权频繁项集挖掘前件是译后原查询词项的英文特征词间完全加权关联规则，构建英文特征词关联规则库，从所述英文特征词关联规则库中提取规则后件作为中英跨语言译后扩展词，所述译后扩展词与译后原查询词组合为新查询再次检索英文文档。

所述中英跨语言初次检索为先利用机器翻译工具将中文用户查询翻译为英文查询，采用向量空间检索模型将所述英文查询检索英文文档集得到初检英文文档。

所述对初检相关文档集进行预处理的方法为将初检英文相关文档集去除英文停用词，采用Porter程序提取英文特征词并按如下式(1)计算特征词权值，构建初检英文文档库和特征词库；

式(1)中，N表示初检相关文档集中总的文档数量，w_ij表示初检相关英文文档d_i中特征词t_j的权值，df_j表示含有英文特征词t_j的英文文档数量，tf_j,i表示英文特征词t_j在文档d_i中的出现次数，即词频，max(tf_i)表示初检相关英文文档d_i中最大的词频值，即文档d_i的所有英文特征词词频中的最大者，lg表示对数函数。

所述采用融合项集权值和频度的完全加权项集支持度计算方法对初检英文文档库挖掘含有译后原查询词项的完全加权频繁项集方法如下：

(1)挖掘英文特征词完全加权频繁1_项集L₁：

从所述特征词库中提取英文特征词作为英文特征词候选1_项集C₁，计算C₁的完全加权支持度awSup(C₁)，如果awSup(C₁)≥支持度阈值ms，则C₁为完全加权频繁1_项集L₁，将L₁添加到完全加权频繁项集集合awPIS；

awSup(C₁)计算公式如下式(2)所示：

式(2)中，

为英文特征词候选1_项集C₁在初检英文文档库中的项集权值累加所得的总和值，W为初检英文文档库中所有英文特征词权值的累加总和值，n为初检英文文档库中英文文档总篇数，

为英文特征词候选1_项集C₁在初检英文文档库中出现的频度；

(2)挖掘英文特征词完全加权频繁k_项集L_k，所述的k≥2，具体步骤：

(2.1)采用Apriori连接方法将英文特征词完全加权频繁(k-1)_项集L_k-1进行自连接得到英文特征词完全加权候选k_项集C_k，所述的k≥2；

(2.2)当挖掘到2_项集C₂时，将不含译后原查询词项的英文特征词候选2_项集C₂删除，保留含有译后原查询词项的候选2_项集C₂；

(2.3)计算C_k的完全加权支持度awSup(C_k)，awSup(C_k)计算公式如式(3)所示：

式(3)中，

为英文特征词候选k_项集C_k在初检英文文档库中项集权值的累加总和值，

为C_k在初检英文文档库中的项集频度，n为初检英文文档库中的英文文档总篇数，W为初检英文文档库中所有英文特征词权值的累加总和值，

为英文特征词完全加权候选k_项集C_k的项集长度，项集长度是指项集中的项目总个数；

(2.4)如果awSup(C_k)≥ms，则C_k就是英文特征词完全加权频繁k_项集L_k，添加到完全加权频繁项集集合awPIS；

(2.5)若英文特征词完全加权频繁k_项集L_k为空集，则含有译后原查询词项的完全加权频繁项集挖掘结束，否则，k加1后转入步骤(2.1)继续循环。

所述采用基于完全加权置信度-兴趣度评价框架对所述完全加权频繁项集挖掘前件是译后原查询词项的英文特征词间完全加权关联规则，构建英文特征词关联规则库的具体步骤如下：

对于所述完全加权频繁项集集合awPIS中每一个频繁k_项集L_k，所述的k≥2，采用置信度-兴趣度评价框架从频繁k_项集L_k中挖掘前件是译后原查询词项的英文特征词完全加权关联规则，步骤如下：

(1)取出频繁k_项集L_k的所有真子集项集，构建L_k真子集项集集合；

(2)取出L_k真子集项集集合中任意两个真子集项集qt和Et，且

qt∪Et＝L_k，

所述的Q_En为译后原查询词项集合；

(3)计算英文特征词完全加权兴趣度awInt(qt,Et)，如果awInt(qt,Et)≥最小兴趣度阈值mi，则计算英文特征词完全加权置信度awConf(qt→Et)，若awConf(qt→Et)≥最小置信度阈值mc，则关联规则qt→Et是强英文特征词完全加权关联规则，并加入到英文特征词完全加权关联规则集合awAR；awInt(qt,Et)和awConf(qt→Et)的计算公式如式(4)和式(5)所示：

式(4)和(5)中，n₁、n₂和n₁₂分别为英文特征词完全加权项集qt、Et以及项集(qt,Et)在初检英文文档库中出现的频度，k₁、k₂项k₁₂分别为英文特征词完全加权项集qt、Et以及项集(qt,Et)的项集长度，w₁、w₂和w₁₂分别为英文特征词完全加权项集qt、Et以及项集(qt,Et)在初检英文文档库中的项集权值累加所得的总和值；

(4)返回步骤(2)循环执行，直到L_k的真子集项集集合中每个真子集项集当且仅当被取出一次，然后从完全加权频繁项集集合awPIS中重新取出新的频繁k_项集L_k，转入步骤(1)进行新一轮完全加权关联规则挖掘，直到完全加权频繁项集集合awPIS中每一个频繁k_项集L_k都已经被取出，则英文特征词间完全加权关联规则挖掘结束。

所述从英文特征词关联规则库中提取规则后件作为中英跨语言译后扩展词的方法为：

从所述英文特征词关联规则库中提取每个关联规则qt→Et的后件Et作为跨语言查询译后后件扩展词，按下式(6)计算该后件扩展词的权值W_exp：

W_exp＝0.5×[max(awConf(qt→Et))+max(awInt(qt,Et)))] (6)

式(6)表明，当扩展词重复出现在多个关联规则qt→Et时，则存在多个置信度和多个兴趣度，这时分别取置信度的最大值max(awConf(qt→Et))和兴趣度的最大值max(awInt(qt,Et))参与扩展词权值计算。

本发明与现有技术相比，具有以下有益效果：

(1)本发明方法采用融合项集权值和频度的完全加权项集支持度计算方法对初检相关文档集挖掘含有译后原查询词项的完全加权频繁项集，采用基于完全加权置信度-兴趣度评价框架对完全加权频繁项集挖掘前件是译后原查询词项的英文特征词间完全加权关联规则模式，从规则模式中提取规则后件作为中英跨语言译后扩展词实现中英跨语言查询译后扩展，译后扩展词与译后原查询词组合为新查询再次检索英文文档。实验结果表明，本发明能提高和改善跨语言信息检索性能，减少跨语言信息检索中查询主题严重漂移和词不匹配等问题，具有较高的应用价值和广阔的应用前景。

(2)选择国际上普遍使用的NTCIR-5CLIR数据集作为本发明方法实验语料。将本发明方法与单语言检索基准方法和跨语言检索基准、现有跨语言查询扩展方法进行实验比较和分析。实验结果表明，本发明方法的检索性能均优于对比方法的，能提高中英跨语言信息检索性能，减少跨语言信息检索中查询漂移和词不匹配问题。主要原因分析如下：跨语言信息检索受词不匹配和查询翻译质量的双重影响，常常导致严重的初检查询主题漂移等问题，本发明方法能获得与译后原查询相关的后件扩展词实现中英跨语言查询译后扩展，提高了跨语言检索性能。

附图说明

图1为本发明所述的基于完全加权规则后件的中英跨语言查询译后扩展方法的流程框图。

具体实施方式

为了更好地说明本发明的技术方案，以下结合附图详细说明本发明的具体实施方式，但不构成对本发明权利要求保护范围的限制。

本发明涉及的相关概念介绍如下：

1.关联规则的前件和后件：将形如x→y的蕴含式称为关联规则，其中，x称为规则前件，y称为规则后件。

2.融合项频度和权值的完全加权关联模式支持度

在关联模式挖掘研究中，其核心问题是关联模式的支持度计算问题。本发明提出融合项频度和权值的完全加权关联模式I的支持度(awSup(I))计算公式，如式(7)所示。

式(7)中，W为事务数据库中所有项目权值的累加总和值，w_I为项集I在事务数据库中的项集权值的累加总和值，n为事务数据库中总的事务数，n_I为项集I在事务数据库中出现的频度，k_I为项集I的项集长度，项集长度是指项集中的项目总个数，例如，项集(I1,I2)的项集长度是2。

式(7)的支持度计算公式同时考虑了项集权值w_I和项集频度n_I，克服了现有加权支持度计算的缺陷。

3.完全加权词间关联模式置信度和兴趣度

本发明给出基于项集权值和频度的完全加权特征词关联模式(T₁→T₂)置信度(awConf(T₁→T₂))计算公式如式(8)所示。

式(8)中，n和W同式(7)的，w₁和w₁₂分别为项集T₁和(T₁,T₂)在事务数据库中项集权值的累加总和值，n₁和n₁₂分别为项集T₁和(T₁,T₂)在事务数据库中出现的频度，k₁和k₁₂分别为项集T₁和(T₁,T₂)的项集长度。

关联模式兴趣度反映了两个子项集之间关系的密切程度及有趣性，是评价完全加权词间关联模式有趣性和新颖性的典型度量。本发明给出基于项集权值和频度的完全加权词间关联模式(T₁,T₂)兴趣度(awInt(T₁,T₂))计算公式如式(9)所示。

式(9)中，n₁和n₁₂，w₁和w₁₂，k₁和k₁₂同式(8)的。

当MInt(T₁,T₂)值为0，说明这两个项集虽然有所关联，但是实际上是无相关的、无趣的。而当EMInt(T₁,T₂)值越大，表明项集T₁和T₂的关系越密切，越有趣，值得用户更多的关注。

4.基于完全加权规则后件的跨语言查询译后扩展词权值计算

本发明的扩展词来源完全加权关联规则后件，而完全加权置信度和兴趣度是评价完全加权关联规则的重要指标，置信度表明了在原查询词项出现的情况下扩展词项出现的条件概率，兴趣度衡量了原查询词项与扩展词项之间的关系紧密程度，即有趣性程度。因此，本发明将完全加权关联规则模式的置信度和兴趣度作为跨语言译后扩展词权值(W_exp)计算依据，W_exp计算公式如式(10)所示。

式(10)表明，当扩展词重复出现在多个关联规则时，多个置信度和兴趣度的情况就会存在，故取置信度的最大值max(awConf)和兴趣度的最大值max(awInt)参与扩展词权值计算。

如图1所示，基于完全加权规则后件的中英跨语言查询译后扩展方法，包括下列步骤：

1.中英跨语言初次检索，构建初检相关英文文档集，具体步骤：

(1)借助机器翻译工具将中文用户查询翻译为英文查询。

可以使用的机器翻译系统有：微软必应机器翻译接口Microsoft TranslatorAPI，谷歌机器翻译接口，等等。

(2)采用传统的向量空间检索模型将英文查询检索英文文档集得到初检前列英文文档。

(3)将初检前列n篇英文文档提交给用户进行相关性判断得到初检相关文档，构建初检相关英文文档集。

2.预处理初检相关英文文档集，构建初检英文文档库和特征词库

将初检英文相关文档集去除英文停用词，提取英文特征词并计算特征词权值，构建初检英文文档库和特征词库。

本发明采用Porter程序(详细见网址：http://tartarus.org/martin/PorterStemmer)进行词干提取，本发明提出如下式(1)计算英文特征词权值：

式(1)表明，在初检英文相关文档集中，特征词的df_j值越大，则该特征词与原查询越相关，越重要，具有较高的权值。

3.采用融合项集权值和频度的完全加权项集支持度计算方法对初检相关文档库挖掘含有译后原查询词项的完全加权频繁项集，具体步骤如下：

(1)挖掘英文特征词完全加权频繁1_项集L₁：

从特征词库中提取英文特征词作为英文特征词候选1_项集C₁，计算C₁的完全加权支持度awSup(C₁)，如果awSup(C₁)≥支持度阈值ms，则C₁为完全加权频繁1_项集L₁，并将L₁添加到完全加权频繁项集集合awPIS；

awSup(C₁)计算公式如式(2)所示：

式(2)中，

为英文特征词候选1_项集C₁在初检英文文档库中出现的频度。

(2.1)采用Apriori连接方法(详见文献：Agrawal R,Imielinski T,SwamiA.Mining association rules between sets of items in large database[C]//Proceedings of the 1993ACM SIGMOD International Conference on Management ofData,Washington D C,USA,1993:207-216.)将英文特征词完全加权频繁(k-1)_项集L_k-1进行自连接得到英文特征词完全加权候选k_项集C_k，所述的k≥2；

(2.2)当挖掘到2_项集C₂时，将不含译后原查询词项的英文特征词候选2_项集C₂删除，保留含有译后原查询词项的候选2_项集C₂。

(2.3)计算C_k的完全加权支持度awSup(C_k)，awSup(C_k)的计算公式如式(3)所示；

式(3)中，

为英文特征词完全加权候选k_项集C_k的项集长度，项集长度是指项集中的项目总个数，例如项集(I1,I2,I3)的项集长度是3。

(2.4)如果awSup(C_k)≥ms，则C_k就是英文特征词完全加权频繁k_项集L_k，添加到完全加权频繁项集集合awPIS。

(2.5)若英文特征词完全加权频繁k_项集L_k为空集，则含有译后原查询词项的完全加权频繁项集挖掘结束，转入步骤4，否则，k加1后转入步骤(2.1)继续循环。

4.采用基于完全加权置信度-兴趣度评价框架对频繁项集挖掘前件是译后原查询词项的英文特征词完全加权关联规则，具体步骤如下：

对于完全加权频繁项集集合awPIS中每一个频繁k_项集L_k，所述的k≥2，采用置信度-兴趣度评价框架从频繁k_项集L_k中挖掘前件是译后原查询词项的英文特征词完全加权关联规则，步骤如下：

(4.1)取出频繁k_项集L_k的所有真子集项集，构建L_k真子集项集集合；

(4.2)取出L_k真子集项集集合中任意两个真子集项集qt和Et，且

qt∪Et＝L_k，

所述的Q_En为译后原查询词项集合；

(4.3)计算英文特征词完全加权兴趣度awInt(qt,Et)，如果awInt(qt,Et)≥最小兴趣度阈值mi，则计算英文特征词完全加权置信度awConf(qt→Et)，若awConf(qt→Et)≥最小置信度阈值mc，则关联规则qt→Et是强英文特征词完全加权关联规则，并加入到英文特征词完全加权关联规则集合awAR。

awInt(qt,Et)和awConf(qt→Et)的计算公式分别如式(4)和式(5)所示。

式(4)和(5)中，n₁、n₂和n₁₂分别为英文特征词完全加权项集qt、Et以及项集(qt,Et)在初检英文文档库中出现的频度，k₁、k₂项k₁₂分别为英文特征词完全加权项集qt、Et以及项集(qt,Et)的项集长度，w₁、w₂和w₁₂分别为英文特征词完全加权项集qt、Et以及项集(qt,Et)在初检英文文档库中的项集权值累加所得的总和值。

(4.4)返回步骤(4.2)循环执行，直到L_k的真子集项集集合中每个真子集项集当且仅当被取出一次，然后从完全加权频繁项集集合awPIS中重新取出新的频繁k_项集L_k，转入步骤(4.1)进行新一轮完全加权关联规则挖掘，直到awPIS中每一个频繁k_项集L_k都已经被取出，则英文特征词间完全加权关联规则挖掘结束，最后得到英文特征词完全加权关联规则集合awAR即为所述英文特征词关联规则库。转入步骤5。

5.从所述英文特征词关联规则库中提取规则后件作为中英跨语言译后扩展词实现中英跨语言查询译后扩展

从英文特征词完全加权关联规则集合awAR中提取每个关联规则qt→Et的后件Et作为跨语言查询译后后件扩展词，计算该后件扩展词的权值W_exp。W_exp计算公式如式(6)所示。

W_exp＝0.5×[max(awConf(qt→Et))+max(awInt(qt,Et)))] (6)

式(6)表明，当扩展词重复出现在多个关联规则qt→Et时，多个置信度和多个兴趣度的情况就会存在，这时分别取置信度的最大值max(awConf(qt→Et))和兴趣度的最大值max(awInt(qt,Et))参与扩展词权值计算。

6.译后后件扩展词与译后原查询词组合为新查询再次检索英文文档，完成了中英跨语言查询译后扩展。

实验设计与结果：

基于本发明方法和对比方法的中英跨语言信息检索实验，比较本发明方法和对比方法的跨语言检索性能，以此说明本发明方法的有效性。

实验数据集：

本发明实验语料选择NTCIR-5CLIR(见网址：http://research.nii.ac.jp/ntcir/permission/ntcir-5/perm-en-CLIR.html)语料中的中文查询集和英文文档集MainichiDaily News 2000、2001年和Korea Times 2001年的新闻文本，共有26224篇英文文档，所述的Mainichi Daily News 2000的新闻文本6608篇(简称m00)，Mainichi Daily News 2001的5547篇(简称m01)和Korea Times 2001年的14069篇(简称k01)。该语料有文档测试集、50个查询主题集及其对应的结果集，其中，每个查询主题类型有Title、Desc、Narr和Conc等4种类型，结果集有2种评价标准，即高度相关，相关的Rigid标准和高度相关、相关和部分相关的Relax标准。实验时查询主题类型选择Title和Desc类型，Title查询属于短查询，以名词和名词性短语简要描述查询主题，Desc查询属于长查询，以句子形式简要描述查询主题。

英文文档集的预处理：采用Porter程序(见网址：http://tartarus.org/martin/PorterStemmer.)进行英文词干提取、去除英文停用词和提取特征词项及其权值计算等处理。实验中用到的机器翻译工具是微软必应(Bing)翻译接口Microsoft Translator API。

本发明实验的跨语言检索评价指标是P@10和平均查准率均值MAP(MeanAveragePrecision)。

对比基准方法：

(1)中英跨语言检索(Chinese-English Cross-Language Retrieval,CECLB)：指中文查询经机器翻译为英文后检索英文文档得到的检索结果。

(2)基于矩阵关联规则的伪相关反馈跨语言查询扩展(Cross-Language QueryExpansion Based on Matrix-weighted Association Rules,ClQE_MWAR)方法：该基准方法是按照文献(黄名选,严小卫,张师超.基于矩阵加权关联规则挖掘的伪相关反馈查询扩展[J].软件学报,2009,20(7):1854-1865.)的查询扩展方法实现中英跨语言查询扩展。

实验结果如下：

编写了本发明方法和基准方法的源程序，通过实验分析和比较本发明方法和对比基准方法的中英跨语言信息检索性能，对50个中文查询主题的Title和Desc查询进行中英跨语言信息检索，对跨语言初检前列50篇英文文档进行用户相关性判断后得到初检用户相关反馈文档(为了简便，本文实验中，将初检前列50篇文档中含有已知结果集中的相关文档视为初检相关文档)进行实验，得到中英跨语言检索结果的MAP和P@10的平均值，分别如表1至表2所示，实验时挖掘到3_项集。

表1本文发明方法与对比基准方法的检索性能比较(Title查询)

实验参数:mc＝0.1，mi＝0.1，ms∈{0.3,0.35,0.4,0.45,0.5}.

表1表明，本发明方法的Title查询的P@10和MAP值均比对比方法的高，其中，比对比方法CECLB的提高幅度范围为16.22％-141.20％，而比对比方法ClQE_MWAR的为20.27％-131.27％。

表2本文发明方法与基准方法的检索性能比较(Desc查询)

实验参数:mc＝0.1，mi＝0.1，ms∈{0.3,0.35,0.4,0.45,0.5}.

从表2结果可知，表明了检索性能比较。从表2可知，本发明方法的Desc查询的检索结果的MAP和P@10值也高于对比方法的，其中，比对比方法CECLB的提高幅度最大可达198.60％，而比对比方法ClQE_MWAR的可达241.46％。

实验结果表明，本发明方法是有效的，确实能提高中英跨语言信息检索性能，具有很高的应用价值和广阔的推广前景。

Claims

1.基于完全加权规则后件的中英跨语言查询译后扩展方法，其特征在于：首先利用机器翻译工具进行中英跨语言初次检索，提取初检前列英文文档经用户相关性判断构建初检相关文档集，对初检相关文档集进行预处理，构建初检英文文档库和特征词库；采用融合项集权值和频度的完全加权项集支持度计算方法对初检英文文档库挖掘含有译后原查询词项的完全加权频繁项集得到完全加权频繁项集集合；然后，采用基于完全加权置信度-兴趣度评价框架对所述完全加权频繁项集挖掘前件是译后原查询词项的英文特征词间完全加权关联规则，构建英文特征词关联规则库，从所述英文特征词关联规则库中提取规则后件作为中英跨语言译后扩展词，所述译后扩展词与译后原查询词组合为新查询再次检索英文文档；

(1)挖掘英文特征词完全加权频繁1_项集L₁：

awSup(C₁)计算公式如式(2)所示：

式(2)中，

(2.3)计算C_k的完全加权支持度awSup(C_k)如式(3)所示：

式(3)中，

(2.5)若英文特征词完全加权频繁k_项集L_k为空集，则含有译后原查询词项的完全加权频繁项集挖掘结束，否则，k加1后转入步骤(2.1)继续循环；

(2)取出L_k真子集项集集合中任意两个真子集项集qt和Et，且

qt∪Et＝L_k，

所述的Q_En为译后原查询词项集合；

(4)返回步骤(2)循环执行，直到L_k的真子集项集集合中每个真子集项集当且仅当被取出一次，然后从完全加权频繁项集集合awPIS中重新取出新的频繁k_项集L_k，转入步骤(1)进行新一轮完全加权关联规则挖掘，直到完全加权频繁项集集合awPIS中每一个频繁k_项集L_k都已经被取出，则英文特征词间完全加权关联规则挖掘结束；

W_exp＝0.5×[max(awConf(qt→Et))+max(awInt(qt,Et)))] (6)

2.如权利要求1所述的基于完全加权规则后件的中英跨语言查询译后扩展方法，其特征在于：所述中英跨语言初次检索为先利用机器翻译工具将中文用户查询翻译为英文查询，采用向量空间检索模型将所述英文查询检索英文文档集得到初检英文文档。

3.如权利要求1所述的基于完全加权规则后件的中英跨语言查询译后扩展方法，其特征在于：所述对初检相关文档集进行预处理的方法为将初检英文相关文档集去除英文停用词，采用Porter程序提取英文特征词并按如下公式(1)计算特征词权值，构建初检英文文档库和特征词库；