CN107526839A

CN107526839A - 基于完全加权正负模式的跨语言查询译后后件扩展方法

Info

Publication number: CN107526839A
Application number: CN201710807543.8A
Authority: CN
Inventors: 黄名选
Original assignee: Guangxi University of Finance and Economics
Current assignee: Guangxi University of Finance and Economics
Priority date: 2017-09-08
Filing date: 2017-09-08
Publication date: 2017-12-29
Anticipated expiration: 2037-09-08
Also published as: CN107526839B

Abstract

一种基于完全加权正负模式的跨语言查询译后后件扩展方法，首先将源语言查询翻译为目标语言查询在目标语言文档进行检索，提取前列初检文档经用户相关判断后构建初检相关文档集；再采用面向跨语言查询扩展的基于支持度‑关联度‑提升度‑置信度评价框架的正负关联模式挖掘技术对初检相关文档集挖掘含有查询词项的特征词正负关联规则模式，构建特征词正负关联规则库；从库中提取其规则前件是查询词项的完全加权正负关联规则模式，将正关联规则后件特征词作候选扩展词，负关联规则后件作负扩展词，候选扩展词中去除负扩展词后得到最终后件扩展词实现跨语言查询译后后件扩展。本发明能提高和改善跨语言信息检索性能，有较好的应用价值和推广前景。

Description

基于完全加权正负模式的跨语言查询译后后件扩展方法

技术领域

本发明属于互联网信息检索领域，具体是一种基于完全加权正负模式的跨语言查询译后后件扩展方法，适合于跨语言信息检索查询扩展等领域。

背景技术

跨语言信息检索(Cross-Language Information Retrieval,CLIR)于20世纪90年代末期开始得到重视和关注。如今我们正处于一个多语言网络时代，语言多样化的互联网资源已经成为大数据信息资源，急需性能良好的跨语言检索工具，因此，跨语言信息检索成为了信息检索领域迫切研究的技术。

跨语言信息检索指的是以一种语言的查询式检索其他语言信息资源的技术，其表达用户查询的语言称为源语言(Source Language)，被检索的文档所用的语言称为目标语言(Target Language)。跨语言查询扩展技术是一种能改善和提高跨语言检索性能的核心技术之一，其旨在解决跨语言信息检索领域长期困扰的、严重的查询主题漂移和词不匹配等问题。跨语言查询扩展按照其扩展发生在检索过程的不同阶段，分为译前查询扩展、译后查询扩展和混合式查询扩展(即同时发生在译前与译后的查询扩展)三种。随着跨语言信息检索研究的兴起，跨语言查询扩展越来越受到国内外学者的关注和讨论，成为一个研究热点。

跨语言信息检索是信息检索与机器翻译结合的技术，比单语言检索更为复杂，面临的问题比单语言检索更为严重。这些问题一直是制约跨语言信息检索技术发展的瓶颈，也是当前国际上急需解决的跨语言信息检索中普遍存在的难题，主要表现为：查询主题严重漂移、词不匹配以及查询项翻译歧义和多义性，等等。跨语言查询扩展是解决上述问题的核心技术之一。近10年来，跨语言查询扩展模型与算法得到了广泛关注和深入研究，取得了丰富的理论成果，但还没有最终完全解决上述问题。鉴于此，本发明了一种基于完全加权正负模式的跨语言查询译后后件扩展方法。实验结果表明，本文算法适用于跨语言信息检索领域，能有效地减少跨语言信息检索中长期存在的查询主题漂移和词不匹配问题，提高和改善跨语言检索性能，具有重要的应用价值和广阔的推广前景。

发明内容

本发明将完全加权正负关联模式挖掘应用于跨语言查询译后扩展，提出了一种基于完全加权正负模式的跨语言查询译后后件扩展方法，应用于跨语言信息检索领域，能解决跨语言信息检索中长期存在的查询主题漂移和词不匹配问题，提高跨语言信息检索性能，也可以应用于跨语言搜索引擎，提高搜索引擎的查全率和查准率等检索性能。

本发明采取的技术方案是：

1.一种基于完全加权正负模式的跨语言查询译后后件扩展方法，其特征在于包括如下步骤：

1.1源语言用户查询通过机器翻译工具翻译为目标语言查询；

1.2目标语言查询在目标语言原始文档集中检索得到目标语言初检文档；

1.3提取前列n篇目标语言初检文档进行相关性判断得到目标语言初检相关文档集；

1.4对目标语言初检相关文档集挖掘含有原查询词项的完全加权频繁项集和负项集；

具体步骤：

1.4.1对目标语言初检相关文档集进行预处理，构建文档索引库和总特征词库；

1.4.2挖掘频繁1_项集L₁：

即从总的特征词库得到特征词候选1_项集C₁，计算1_项集C₁的支持度awSup(C₁)，如果awSup(C₁)≥支持度阈值ms，则候选1_项集C₁为频繁1_项集L₁，并将L₁添加到完全加权频繁项集集合PIS；所述的awSup(C₁)计算公式如式(1)所示。

其中，n和W为分别目标语言初检相关文档集中文档总篇数和所有特征词权值的总和，为C₁在目标语言初检相关文档集中出现的频度，为C₁在目标语言初检相关文档集中的项集权值，λ∈(0,1)为调节系数，其值不能取0或1；

1.4.3挖掘含有查询词项的频繁k_项集L_k和负k_项集N_k，所述的k≥2

具体步骤：

(1)挖掘候选k_项集C_k：通过频繁(k-1)_项集L_k-1进行Aproiri连接而得到；

(2)当k＝2时，剪除不含查询词项的候选2_项集C₂，保留含有查询词项的候选2_项集C₂；

(3)计算候选k_项集C_k的支持度awSup(C_k)：

如果awSup(C_k)≥支持度阈值ms，再计算C_k的完全加权频繁项集关联度awPIR(C_k)，若awPIR(C_k)≥频繁项集关联度阈值minPR，则k_候选项集C_k为完全加权频繁k_项集L_k，添加到完全加权频繁项集集合PIS；

若awSup(C_k)<ms，则计算完全加权负项集关联度awNIR(C_k)，如果awNIR(C_k)≥负项集关联度阈值minNR，那么，C_k为完全加权负k_项集N_k，并添加到完全加权负项集集合NIS。

所述的awSup(C_k)计算公式如式(2)所示。

其中，为C_k在目标语言初检相关文档集中出现的频度，为C_k在目标语言初检相关文档集中的项集权值，k为C_k的项目个数。

所述的awPIR(C_k)计算公式如式(3)和式(4)所示：

其中，候选加权正项集C_k＝(t₁,t₂,…,t_k)，k≥2，t_max(1≤max≤m)是C_k的所有项目中其支持度最大的单项目，I_q为C_k的所有2_子项集至(m-1)_子项集中其支持度最大的子项集；

所述的awNIR(C_k)计算公式如式(5)和式(6)所示：

其中，候选加权负项集C_k＝(t₁,t₂,…,t_r)，r≥2，t_max(1≤max≤r)是C_k的所有项目中其支持度最大的单项目，I_p为C_k的所有2_子项集至(r-1)_子项集中其支持度最大的子项集；

(4)若k_项集L_k为空集，则项集挖掘结束，转到步骤1.5，否则，转到步骤(1)，继续挖掘；

1.5从完全加权频繁项集集合PIS中挖掘完全加权强正关联规则：对于特征词完全加权频繁项集集合PIS中每一个频繁k_项集L_k，所述的k≥2，挖掘L_k中前件是查询词项集qt而后件是扩展词项集I的关联规则qt→I，所述的qt和I的并集为L_k，qt和I的交集为空集，qt为查询词项集，I为扩展词项集，具体挖掘步骤如下：

(1)求出正项集L_k的所有真子集，得到L_k真子集项集集合；

(2)从L_k真子集集合中任意取出两个子项集qt和I，且qt∪I＝L_k，其中；

(3)计算完全加权关联规则qt→I置信度awARConf(qt→I)及其提升度awARL(qt→I)；若awARL(qt→I)>1，且awARConf(qt→I)>＝mc，则得到完全加权强关联规则qt→I，并加入到完全加权强正关联规则集合PAR；所述的awARConf(qt→I)和awARL(qt→I)计算公式如式(7)和式(8)所示：

(4)返回步骤(2)再顺序进行，直到L_k真子集项集集合中每个真子集当且仅当被取出一次，然后从PIS集合中重新取出新的正项集L_k，转入步骤(1)进行新一轮加权关联规则挖掘，直到PIS中每一个正项集L_k都已经被取出为止，这时转入步骤1.6；

1.6从负项集集合NIS中挖掘完全加权强负关联规则：对于负项集集合NIS中每一个负项集N_k，k>＝2，挖掘N_k中前件是查询词项集qt而后件是负扩展词项集I的完全加权负关联规则qt→﹁I和﹁qt→I，所述的qt和I的并集为L_k，qt和I的交集为空集，具体挖掘步骤如下：

(1)找出负项集N_k的所有真子集，得到N_k真子集集合；

(2)从N_k真子集集合中任意取出两个子项集qt和I，且qt∪I＝N_k，其中qt为查询项集；(3)计算提升度awARL(qt→I)，若awARL(qt→I)<1，计算负关联规则qt→﹁I置信度awARConf(qt→﹁I)，若awARConf(qt→﹁I)>＝mc，则得到完全加权强负关联规则qt→﹁I，并加入到完全加权强负关联规则集合NAR；计算负关联规则﹁qt→I置信度awARConf(﹁qt→I)，若awARConf(﹁qt→I)>＝mc，则得到完全加权强负关联规则﹁qt→I，并加入到NAR；

所述的awARConf(qt→﹁I)和awARConf(﹁qt→I)计算公式如式(9)和式(10)所示：

awARConf(qt→﹁I)＝1-awARConf(qt→I) (9)

(4)返回步骤(2)再顺序执行，直到N_k真子集集合中每个真子集当且仅当被取出一次为止，这时转入步骤(5)；

(5)从NIS集合中重新取出新的负项集N_k，转入步骤(1)进行新一轮完全加权负关联规则挖掘，如果NIS集合中每个负项集都当且仅当已经被取出一次，则完全加权强负关联规则挖掘结束，转入步骤1.7；

1.7从完全加权强正关联规则集合PAR中提取其规则前件是查询词项的完全加权正关联规则模式qt→I，将该正关联规则后件特征词作为候选扩展词，构建候选后件扩展词库；

1.8从完全加权强负关联规则集合NAR中提取其规则前件是查询词项的完全加权负关联规则模式qt→﹁I和﹁qt→I，将负关联规则后件I作为后件负扩展词，构建后件负扩展词库；

1.9将候选后件扩展词库中的候选后件扩展词和后件负扩展词库的负扩展词比较，在候选后件扩展词库中删除与负扩展词相同的候选扩展词，候选后件扩展词库中余下的候选后件扩展词即为最终后件扩展词；

2.0最终后件扩展词与目标语言原查询词组合为新查询再次检索，实现跨语言查询译后后件扩展。

以上所述，完全加权强负关联规则qt→﹁I和﹁qt→I符号“﹁”表示负相关符号，“﹁I”表示在目标语言初检相关文档集中不出现特征词项集I的情况，即属于负相关情况；

“qt→﹁I”表示查询词项项集qt和扩展词项集I呈现负相关关系，在目标语言初检相关文档集中查询词项项集qt的出现使得扩展词项集I不会出现；

“﹁qt→I”表示查询词项项集qt和扩展词项集I呈现负相关关系，在目标语言初检相关文档集中查询词项项集qt的不出现使得扩展词项集I会出现；

完全加权强正关联规则qt→I的含义是在目标语言初检相关文档集中查询词项项集qt的出现会促使扩展词项集I也会出现。

本发明与现有技术相比，具有以下有益效果：

(1)本发明提出一种基于完全加权正负模式的跨语言查询译后后件扩展方法。该方法采用基于完全加权支持度-关联度-提升度-置信度评价框架的正负模式挖掘技术对跨语言初检相关文档集挖掘完全加权正负关联规则模式，提取完全加权正负关联规则模式的后件作为原查询词项相关的扩展词实现跨语言查询译后件扩展，使得跨语言信息检索性能有了较好的提升。

(2)选择日本情报信息研究所主办的多国语言处理国际评测会议上的跨语言信息检索标准数据测试语料NTCIR-5CLIR的英文文本数据集作为本发明实验语料，以越南语和英语为语言对象，与没有实行查询扩展技术的越英跨语言检索(Vietnamese-EnglishCross-Language Retrieval,VECLR)基准方法和基于文献(吴丹,何大庆,王惠临.基于伪相关的跨语言查询扩展[J].情报学报,2010,29(2):232-239.)的伪相关反馈查询译后扩展(Query Post-Translation Expansion Based on Pseudo Relevance Feedback,QPTE_PRF)的越英跨语言检索算法比较，实验结果表明，与对比基准方法VECLR和QPTE_PRF比较，本发明方法的TITLE查询类型的越英跨语言检索结果的R-Prec和P@5值得到了较大的提高，比VECLR方法的提高幅度最大可以达到125.26％，比QPTE_PRF基准方法的提高幅度最高达到了371.54％；本发明方法的DESC查询类型的越英跨语言检索结果的R-Prec和P@5值比基准方法VECLR和QPTE_PRF的也有了较大的提高，最大的提高幅度分别为178.76％和347.59％。

(3)实验结果表明，本发明方法是有效的，确实能提高跨语言信息检索性能，主要原因分析如下：跨语言信息检索受词不匹配和查询翻译质量的双重影响，常常导致严重的初检查询主题漂移等问题，本发明将完全加权正负关联模式挖掘应用于越英跨语言查询扩展，提出一种基于完全加权正负模式的跨语言查询译后后件扩展方法，获得与原查询相关的后件扩展词实现越英跨语言查询译后后件扩展，提高了检索性能。

附图说明

图1为本发明所述的一种基于完全加权正负模式的跨语言查询译后后件扩展方法框图。

图2为本发明所述的一种基于完全加权正负模式的跨语言查询译后后件扩展方法总体流程示意图。

具体实施方式

为了更好地说明本发明的技术方案，下面将本发明涉及的相关概念介绍如下：

1.跨语言查询译后后件扩展

跨语言查询译后后件扩展是指：在跨语言查询扩展中，源语言查询翻译为目标语言查询后检索目标语言文档后，采用挖掘算法对目标语言初检文档挖掘得到的关联规则模式，提取关联规则模式后件作为后件扩展词，后件扩展词与目标语言原查询词项组合为新查询。

2.完全加权支持度

假设DS＝{d₁,d₂,…,d_n}是跨语言初检相关文档集(Document Set，DS)，其中，d_i(1≤i≤n)是文档集DS中的第i篇文档，d_i＝{t₁,t₂,…,t_m,…,t_p}，t_m(m＝1,2,…,p)为文档特征词项目，简称特征项，一般是由字、词或词组构成，d_i中对应的特征项权值集合W_i＝{w_i1,w_i2,…,w_im,…,w_ip}，w_im为第i篇文档d_i中第m个特征项t_m对应的权值，TS＝{t₁,t₂,…,t_k}表示DS中全体特征项集合，TS的各个子集均称为特征项项集，简称项集。

针对现有技术的缺陷，本发明充分考虑了特征词项目频度及其权值，提出一种新的完全加权支持度(All-weighted Support,awSup)awSup(I)计算方法。所述的awSup(I)计算公式如式(11)所示。

其中，w_I为完全加权项集I在跨语言初检相关文档集DS中项集权值总和，n_I为完全加权项集I在跨语言初检相关文档集DS中出现的项集频度，n是跨语言初检相关文档集DS中的总文档篇数；W为跨语言初检相关文档集DS中所有特征词权值总和；k为项集I的项目个数(即项集长度)，λ∈(0,1)为调节系数，其值不能取0或1，主要作用是调节项目频度和项目权值综合对加权支持度的影响。

假设最小完全加权支持度阈值为ms，若awSup(I₁∪I₂)≥ms，则完全加权项集(I₁∪I₂)是正项集(即频繁项集)，否则，(I₁∪I₂)为负项集。

本发明方法只关注如下三类完全加权负项集：(﹁I)，(I₁∪﹁I₂)和(﹁I₁∪I₂)，给出完全加权负项集支持度awSup(﹁I)、awSup(I₁∪﹁I₂)和awSup(﹁I₁∪I₂)的计算公式如式(12)-式(14)所示。

awSup(﹁I)＝1-awSup(I) (12)

awSup(I₁∪﹁I₂)＝awSup(I₁)-awSup(I₁∪I₂) (13)

awSup(﹁I₁∪I₂)＝awSup(I₂)-awSup(I₁∪I₂) (14)

本发明方法只关注如下两类完全加权负关联规则：(I₁→﹁I₂)和(﹁I₁→I₂)，给出完全加权正负关联规则置信度(All-weighted Association Rule Confidence,awARConf)awARConf(I₁→I₂)、awARConf(I₁→﹁I₂)和awARConf(﹁I₁→I₂)的计算公式如式(15)至式(17)所示。

3.完全加权正负项集关联度

完全加权项集关联度是指加权项集中任意两个单项目之间以及子项集之间关联强度的度量。项集关联度越高，表明该项集中的子项集之间关系越密切，越受到关注。本发明改进现有的关联度，给出了完全加权正负项集的关联度计算方法，既考虑项集中任意两个单项目的关联程度，同时也考虑了项集中两个子项集之间存在的关联性。

完全加权正项集关联度(All-weighted Positive Itemset Relevancy,awPIR)：对于完全加权特征词正项集C_k＝(t₁,t₂,…,t_m)，m为正项集C_k的长度，m≥2，设t_max(1≤max≤m)是C_k的所有项目中其支持度最大的单项目，I_q为C_k的所有2_子项集至(m-1)_子项集中其支持度最大的子项集，给出完全加权正项集关联度awPIR(C_k)的计算公式如式(18)和式(19)所示。

其中，候选完全加权正项集C_k＝(t₁,t₂,…,t_k)，k≥2，t_max(1≤max≤m)是C_k的所有项目中其支持度最大的单项目，I_q为C_k的所有2_子项集至(m-1)_子项集中其支持度最大的子项集。

式(18)和式(19)表明，完全加权正项集C_k关联度等于支持度最大的单项目t_max和子项集I_q(即I_q为2_子项集至(m-1)_子项集之一)分别出现时该正项集出现的条件概率的总和。

完全加权负项集关联度(All-weighted Negative Itemset Relevancy,awNIR)：对于完全加权特征词负项集C_k＝(t₁,t₂,…,t_r)，r为负项集C_k的长度，r≥2，设t_max(1≤max≤r)是负项集C_k的所有项目中其支持度最大的单项目，I_p为负项集C_k的所有2_子项集至(r-1)_子项集中其支持度最大的子项集，给出完全加权负项集关联度awNIR(C_k)的计算公式如式(20)和式(21)所示。

其中，候选完全加权负项集C_k＝(t₁,t₂,…,t_r)，r≥2，设t_max(1≤max≤r)是C_k的所有项目中其支持度最大的单项目，I_p为C_k的所有2_子项集至(r-1)_子项集中其支持度最大的子项集。

式(20)和式(21)表明，完全加权负项集C_k关联度等于支持度最大的单项目t_max和子项集I_p(即I_p为2_子项集至(r-1)_子项集之一)分别不出现时该负项集出现的条件概率的总和。

实例：假若C_k＝(t₁∪t₂∪t₃∪t₄)(支持度为0.65)，其单项目t₁，t₂，t₃和t₄的支持度分别为0.82，0.45，0.76和0.75，其2_子项集和3_子项集(t₁∪t₂)，(t₁∪t₃)，(t₁∪t₄)，(t₂∪t₃)，(t₂∪t₄)，(t₁∪t₂∪t₃)，(t₁∪t₂∪t₄)，(t₂∪t₃∪t₄)支持度分别为0.64,0.78,0.75,0.74,0.67,0.,66,0.56,0.43，则其支持度最大(值为0.82)的单项目是t₁，其2_子项集和3_子项集中其支持度最大(值为0.78)的子项集为(t₁∪t₃)，那么，使用式(14)计算正项集(t₁∪t₂∪t₃∪t₄)的关联度为0.81。其计算过程如下：

4.完全加权关联规则提升度

传统的关联规则评价框架(支持度-置信度)的局限性是忽略了规则后件中出现的项集支持度，使得高置信度的规则有时可能出现误导。提升度(Lift)是解决该问题的一个有效的相关性度量。关联规则X→Y提升度Lift(X→Y)指的是含有X的条件下同时含有Y的概率与Y总体发生的概率之比，即规则的置信度Confidence(X→Y)与后件Y的支持度sup(Y)之比。基于传统的提升度概念，给出完全加权关联规则I₁→I₂提升度(All-weighted AssociationRule Lift,awARL)awARL(I₁→I₂)的计算公式如式(22)所示。

根据相关性理论，提升度能够评估关联规则前件和后件的相关性，可以评估一方的出现提升(或降低)另一方出现的程度。即，当awARL(I₁→I₂)>1时，I₁→I₂是正关联规则，项集I₁和I₂中，一方的出现会提升另一方出现的可能性；当awARL(I₁→I₂)<1时，I₁→I₂则是负关联规则，一方的出现会降低另一方出现的可能性；当awARL(I₁→I₂)＝1时，项集I₁和I₂是相互独立，不相关，此时关联规则I₁→I₂是虚假规则。很容易证明awARL(I₁→I₂)具有如下的性质1。

性质1②awARL(﹁I₁→I₂)<1；③awARL(﹁I₁→﹁I₂)>1.⑤awARL(﹁I₁→I₂)>1；⑥awARL(﹁I₁→﹁I₂)<1。

根据性质1，当awARL(I₁→I₂)>1时，可以挖掘出完全加权正关联规则I₁→I₂。当awARL(I₁→I₂)<1时，能挖掘出完全加权负关联规则I₁→﹁I₂和﹁I₁→I₂。

假设最小完全加权置信度阈值为mc，结合性质1，给出完全加权强正负关联规则定义如下：

对于完全加权正项集(I₁∪I₂)，若awARL(I₁→I₂)>1，且awARConf(I₁→I₂)≥mc，则完全加权关联规则I₁→I₂是强关联规则。

对于负项集(I₁∪I₂)，若awARL(I₁→I₂)<1，且awARConf(I₁→﹁I₂)≥mc，awARConf(﹁I₁→I₂)≥mc，则I₁→﹁I₂和﹁I₁→I₂是强负关联规则。

本发明一种基于完全加权正负模式的跨语言查询译后后件扩展方法，包括下列步骤：

1.1源语言用户查询通过机器翻译工具翻译为目标语言查询；

所述的机器翻译工具可以是：微软必应机器翻译接口Microsoft Translator API，谷歌机器翻译接口，等等。

1.2目标语言查询在目标语言原始文档集中检索得到目标语言初检文档，本发明方法具体使用的检索模型是经典的基于向量空间模型的检索模型。

具体步骤：

预处理步骤是：

(1)对于目标语言是汉语，则进行中文分词，去除停用词，提取中文特征词，中文分词程序采用中国科学院计算技术研究所研制编写的汉语词法分析系统ICTCLAS；对于目标语言是英语，则采用Porter程序(详细见网址：http://tartarus.org/～martin/PorterStemmer)进行词干提取,去除英文停用词；

(2)计算特征词权值，特征词权值表明该特征词对于其所在文档的重要程度，采用经典的和流行的tf-idf特征词权值w_ij计算方法。所述的w_ij计算公式如式(23)所示：

其中，w_ij表示文档d_i中特征词t_j的权值，tf_j,i表示特征词t_j在文档d_i中的出现次数，df_j表示含有特征词t_j的文档数量，N表示文档集合中总的文档数量。

(3)构建文档索引库和总特征词库。

1.4.2挖掘频繁1_项集L₁：即从总的特征词库得到特征词候选1_项集C₁，计算1_项集C₁的支持度awSup(C₁)，如果awSup(C₁)≥支持度阈值ms，则候选1_项集C₁为频繁1_项集L₁，将L₁添加到完全加权频繁项集集合PIS；所述的awSup(C₁)计算公式如式(24)所示：

其中，n和W为分别目标语言初检相关文档集中文档总篇数和所有特征词权值的总和，为完全加权项集C₁在目标语言初检相关文档集中出现的项集频度，为完全加权项集C₁在目标语言初检相关文档集中的项集权值总和，λ∈(0,1)为调节系数，其值不能取0或1。

1.4.3挖掘含有查询词项的完全加权频繁k_项集L_k和负k_项集N_k，所述的k≥2。

具体步骤：

Aproiri连接详见文献：Agrawal R,Imielinski T,Swami A.Mining associationrules between sets of items in large database[C]//Proceedings of the 1993ACMSIGMOD International Conference on Management of Data,Washington D C,USA,1993:207-216.

(2)当k＝2时，剪除不含查询词项的候选2_项集C₂，保留含有查询词项的候选2_项集C₂。

(3)计算候选k_项集C_k的支持度awSup(C_k)：

如果awSup(C_k)≥支持度阈值ms，再计算C_k的完全加权频繁项集关联度awPIR(C_k)，若awPIR(C_k)≥频繁项集关联度阈值minPR，则k_候选项集C_k为频繁k_项集L_k，添加到完全加权频繁项集集合PIS；

若awSup(C_k)<ms，则计算完全加权负项集关联度awNIR(C_k)，如果awNIR(C_k)≥负项集关联度阈值minNR，那么，C_k为完全加权负k_项集N_k，添加到完全加权负项集集合NIS。所述的awSup(C_k)计算公式如式(25)所示：

所述的awPIR(C_k)计算公式如式(26)和式(27)所示：

其中，候选加权正项集C_k＝(t₁,t₂,…,t_k)，k≥2，t_max(1≤max≤m)是C_k的所有项目中其支持度最大的单项目，I_q为C_k的所有2_子项集至(m-1)_子项集中其支持度最大的子项集。

所述的awNIR(C_k)计算公式如式(28)和式(29)所示：

其中，候选加权负项集C_k＝(t₁,t₂,…,t_r)，r≥2，t_max(1≤max≤r)是C_k的所有项目中其支持度最大的单项目，I_p为C_k的所有2_子项集至(r-1)_子项集中其支持度最大的子项集。

(4)若k_项集L_k为空集，则项集挖掘结束，转到步骤1.5，否则，转到步骤(1)，继续挖掘。

(1)求出正项集L_k的所有真子集，得到L_k真子集项集集合；

(2)从L_k真子集集合中任意取出两个子项集qt和I，且qt∪I＝L_k，

(3)计算完全加权关联规则qt→I置信度awARConf(qt→I)及其提升度awARL(qt→I)。若awARL(qt→I)>1，且awARConf(qt→I)>＝mc，则得到完全加权强关联规则qt→I，并加入到完全加权强正关联规则集合PAR。

所述的awARConf(qt→I)和awARL(qt→I)计算公式如式(30)和式(31)所示：

(5)返回步骤(2)再顺序进行，直到L_k真子集项集集合中每个真子集当且仅当被取出一次，然后从PIS集合中重新取出新的正项集L_k，转入步骤(1)进行新一轮加权关联规则挖掘，直到PIS中每一个正项集L_k都已经被取出为止，这时转入步骤1.6。

(1)找出负项集N_k的所有真子集，得到N_k真子集集合。

(2)从N_k真子集集合中任意取出两个子项集qt和I，且qt∪I＝N_k，其中qt为查询项集。

(3)计算提升度awARL(qt→I)，若awARL(qt→I)<1，计算负关联规则qt→﹁I置信度awARConf(qt→﹁I)，若awARConf(qt→﹁I)>＝mc，则得到完全加权强负关联规则qt→﹁I，并加入到完全加权强负关联规则集合NAR；计算负关联规则﹁qt→I置信度awARConf(﹁qt→I)，若awARConf(﹁qt→I)>＝mc，则得到完全加权强负关联规则﹁qt→I，并加入到NAR。

所述的awARConf(qt→﹁I)和awARConf(﹁qt→I)计算公式如式(32)和式(33)所示：

awARConf(qt→﹁I)＝1-awARConf(qt→I) (32)

(5)从NIS集合中重新取出新的负项集N_k，转入步骤(1)进行新一轮完全加权负关联规则挖掘，如果NIS集合中每个负项集都当且仅当已经被取出一次，则完全加权强负关联规则挖掘结束，转入步骤1.7。

1.7从完全加权强正关联规则集合PAR中提取其规则前件是查询词项的完全加权正关联规则模式qt→I，将该正关联规则后件特征词作为候选扩展词，构建候选后件扩展词库。

1.8从完全加权强负关联规则集合NAR中提取其规则前件是查询词项的完全加权负关联规则模式qt→﹁I和﹁qt→I，将负关联规则后件I作为后件负扩展词，构建后件负扩展词库。

1.9将候选后件扩展词库中的候选后件扩展词和后件负扩展词库的负扩展词比较，在候选后件扩展词库中删除与负扩展词相同的候选扩展词，候选后件扩展词库中余下的候选后件扩展词即为最终后件扩展词。

实验设计与结果：

为了说明本发明方法的有效性，以越南语和英语为语言对象开展基于本发明方法和对比方法的越英跨语言信息检索实验。

实验数据集：

选择日本情报信息研究所主办的多国语言处理国际评测会议上的跨语言信息检索标准数据测试语料NTCIR-5 CLIR的英文文本数据集作为本文实验语料，该数据来源于Mainichi Daily News新闻媒体2000、2001年(简称mdn00、mdn01)和Korea Times2001年(简称ktn01)的新闻文本，共26224篇英文文本信息(即mdn00有6608篇,mdn01有5547篇，ktn01有14069篇)。该数据集有文档测试集、结果集和查询集，结果集有Rigid标准(即与查询高度相关，相关)和Relax标准(即与查询高度相关、相关和部分相关)等两种，查询集包括50个查询主题，分别有日文、韩文、中文和英文等四个版本以及TITLE、DESC、NARR和CONC等4种查询主题类型，TITLE查询类型以名词和名词性短语简要描述查询主题，属于短查询，而DESC查询类型以句子形式简要描述查询主题查询，属于长查询。本文采用TITLE和DESC查询类型进行检索实验。

本发明实验中，由于NTCIR-5 CLIR语料没有提供越南语查询版本，故我们特请翻译机构东盟语言专业翻译人员将NTCIR-5 CLIR中50个中文版查询主题语料人工翻译为越南语查询作为本文实验的源语言查询。

对比基准方法：

(1)越英跨语言检索(Vietnamese-English Cross-Language Retrieval,VECLR)基准方法：指越英跨语言首次检索的结果，即将源语言越南语查询经过机器翻译为英文后检索英文文档得到的检索结果，在检索过程中没有采用查询扩展技术。

(2)基于伪相关反馈查询译后扩展(Query Post-Translation Expansion Basedon Pseudo Relevance Feedback,QPTE_PRF)的越英跨语言检索算法：QPTE_PRF基准算法是基于文献(吴丹,何大庆,王惠临.基于伪相关的跨语言查询扩展[J].情报学报,2010,29(2):232-239.)的跨语言查询扩展方法实现越英跨语言查询译后扩展的检索结果。其实验方法及参数：源语言越南语查询机器翻译为英文查询检索英文文档，提取跨语言初检前列英文文档20篇构建初检英文相关文档集，提取英文特征词项并计算其权值，按权值降序排列将前列20个特征词项作为为英文扩展词实现越英跨语言查询译后扩展。

采用R-查准率(R-Prec)和P@5作为本发明的跨语言检索评价指标。R-查准率是指当R个文档被检索后所计算的查准率，其中R是指对应于某个查询在文档集合中相关文档数，不强调文档结果集中文档的排序情况。

实验结果如下：

编写了本发明方法和基准方法的源程序，通过实验分析和比较本发明方法和对比基准方法的越英跨语言信息检索性能，对50个越南语TITLE和DESC查询进行越英跨语言信息检索，对跨语言初检前列50篇英文文档进行用户相关性判断后得到初检用户相关反馈文档(为了简便，本文实验中，将初检前列50篇文档中含有已知结果集中的相关文档视为初检相关文档)进行实验，得到越英跨语言检索结果的R-Prec和P@5的平均值，分别如表1至表2所示，公共的实验参数设置如下：α＝0.3，minPR＝0.1，minNR＝0.01，挖掘到3_项集。

表1本文发明方法与对比基准方法的检索性能比较(TITLE查询)

本表实验参数:mc＝0.8，ms∈{0.2,0.25,0.3,0.35,0.4,0.45}(mdn00),ms∈{0.2,0.23,0.25,0.28,0.3}(mdn01和ktn01).

表1实验结果表明，与对比基准方法VECLR和QPTE_PRF基准方法比较，本发明方法的TITLE查询类型的越英跨语言检索结果的R-Prec和P@5值得到了较大的提高，比VECLR方法的提高幅度最大可以达到125.26％，比QPTE_PRF基准方法的提高幅度最高达到了371.54％。

表2本文发明方法与基准方法的检索性能比较(DESC查询)

本表实验参数:mc＝0.8,ms∈{0.2,0.23,0.25,0.28,0.3}

从表2实验结果可知，本发明方法的DESC查询类型的越英跨语言检索结果的R-Prec和P@5值比基准方法VECLR和QPTE_PRF的也有了较大的提高，最大的提高幅度分别为178.76％和347.59％。

实验结果表明，本发明方法是有效的，确实能提高跨语言信息检索性能。

Claims

1.1源语言用户查询通过机器翻译工具翻译为目标语言查询；

具体步骤：

1.4.2挖掘频繁1_项集L₁：

即从总的特征词库得到特征词候选1_项集C₁，计算1_项集C₁的支持度awSup(C₁)，如果awSup(C₁)≥支持度阈值ms，则候选1_项集C₁为频繁1_项集L₁，并将L₁添加到完全加权频繁项集集合PIS；所述的awSup(C₁)计算公式如下：

<mrow> <mi>a</mi> <mi>w</mi> <mi>S</mi> <mi>u</mi> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>C</mi> <mn>1</mn> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mi>&lambda;</mi> <mo>&times;</mo> <mrow> <mo>(</mo> <mfrac> <msub> <mi>n</mi> <msub> <mi>c</mi> <mn>1</mn> </msub> </msub> <mi>n</mi> </mfrac> <mo>-</mo> <mfrac> <msub> <mi>w</mi> <msub> <mi>c</mi> <mn>1</mn> </msub> </msub> <mi>W</mi> </mfrac> <mo>)</mo> </mrow> <mo>+</mo> <mfrac> <msub> <mi>w</mi> <msub> <mi>c</mi> <mn>1</mn> </msub> </msub> <mi>W</mi> </mfrac> </mrow>

具体步骤：

(3)计算候选k_项集C_k的支持度awSup(C_k)：

若awSup(C_k)<ms，则计算完全加权负项集关联度awNIR(C_k)，如果awNIR(C_k)≥负项集关联度阈值minNR，那么，C_k为完全加权负k_项集N_k，并添加到完全加权负项集集合NIS；

所述的awSup(C_k)计算公式如下：

<mrow> <mi>a</mi> <mi>w</mi> <mi>S</mi> <mi>u</mi> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>C</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mi>&lambda;</mi> <mo>&times;</mo> <mrow> <mo>(</mo> <mfrac> <msub> <mi>n</mi> <msub> <mi>c</mi> <mi>k</mi> </msub> </msub> <mi>n</mi> </mfrac> <mo>-</mo> <mfrac> <msub> <mi>w</mi> <msub> <mi>c</mi> <mi>k</mi> </msub> </msub> <mi>W</mi> </mfrac> <mo>)</mo> </mrow> <mo>+</mo> <mfrac> <msub> <mi>w</mi> <msub> <mi>c</mi> <mi>k</mi> </msub> </msub> <mi>W</mi> </mfrac> </mrow>

其中，为C_k在目标语言初检相关文档集中出现的频度，为C_k在目标语言初检相关文档集中的项集权值，k为C_k的项目个数；

所述的awPIR(C_k)计算公式如下：

<mrow> <mi>a</mi> <mi>w</mi> <mi>P</mi> <mi>I</mi> <mi>R</mi> <mrow> <mo>(</mo> <msub> <mi>C</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>N</mi> <mi>a</mi> <mi>w</mi> <mi>I</mi> <mi>S</mi> <mi>u</mi> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>C</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mn>2</mn> <mo>&times;</mo> <mi>N</mi> <mi>a</mi> <mi>w</mi> <mi>I</mi> <mi>S</mi> <mi>u</mi> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mi>max</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>+</mo> <mfrac> <mrow> <mi>N</mi> <mi>a</mi> <mi>w</mi> <mi>I</mi> <mi>S</mi> <mi>u</mi> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>C</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mn>2</mn> <mo>&times;</mo> <mi>N</mi> <mi>a</mi> <mi>w</mi> <mi>I</mi> <mi>S</mi> <mi>u</mi> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>I</mi> <mi>q</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>,</mo> <mi>m</mi> <mo>></mo> <mn>2</mn> </mrow>

所述的awNIR(C_k)计算公式如下：

<mrow> <mi>a</mi> <mi>w</mi> <mi>N</mi> <mi>I</mi> <mi>R</mi> <mrow> <mo>(</mo> <msub> <mi>C</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <mo>&times;</mo> <mrow> <mo>(</mo> <mrow> <mfrac> <mrow> <mi>N</mi> <mi>a</mi> <mi>w</mi> <mi>I</mi> <mi>S</mi> <mi>u</mi> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>C</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mn>1</mn> <mo>-</mo> <mi>N</mi> <mi>a</mi> <mi>w</mi> <mi>I</mi> <mi>S</mi> <mi>u</mi> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mi>max</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mfrac> <mrow> <mi>N</mi> <mi>a</mi> <mi>w</mi> <mi>I</mi> <mi>S</mi> <mi>u</mi> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>C</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>N</mi> <mi>a</mi> <mi>w</mi> <mi>I</mi> <mi>S</mi> <mi>u</mi> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>I</mi> <mi>p</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mn>1</mn> </mrow> </mfrac> </mrow> <mo>)</mo> </mrow> <mo>,</mo> <mi>r</mi> <mo>></mo> <mn>2</mn> </mrow>

(1)求出正项集L_k的所有真子集，得到L_k真子集项集集合；

(3)计算完全加权关联规则qt→I置信度awARConf(qt→I)及其提升度awARL(qt→I)；若awARL(qt→I)>1，且awARConf(qt→I)>＝mc，则得到完全加权强关联规则qt→I，并加入到完全加权强正关联规则集合PAR；

所述的awARConf(qt→I)和awARL(qt→I)计算公式如下：

<mrow> <mi>a</mi> <mi>w</mi> <mi>A</mi> <mi>R</mi> <mi>C</mi> <mi>o</mi> <mi>n</mi> <mi>f</mi> <mrow> <mo>(</mo> <mi>q</mi> <mi>t</mi> <mo>&RightArrow;</mo> <mi>I</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>a</mi> <mi>w</mi> <mi>I</mi> <mi>S</mi> <mi>u</mi> <mi>p</mi> <mrow> <mo>(</mo> <mi>q</mi> <mi>t</mi> <mo>&cup;</mo> <mi>I</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>a</mi> <mi>w</mi> <mi>I</mi> <mi>S</mi> <mi>u</mi> <mi>p</mi> <mrow> <mo>(</mo> <mi>q</mi> <mi>t</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>

<mrow> <mi>a</mi> <mi>w</mi> <mi>A</mi> <mi>R</mi> <mi>L</mi> <mrow> <mo>(</mo> <mi>q</mi> <mi>t</mi> <mo>&RightArrow;</mo> <mi>I</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>a</mi> <mi>w</mi> <mi>A</mi> <mi>R</mi> <mi>C</mi> <mi>o</mi> <mi>n</mi> <mi>f</mi> <mrow> <mo>(</mo> <mi>q</mi> <mi>t</mi> <mo>&RightArrow;</mo> <mi>I</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>a</mi> <mi>w</mi> <mi>I</mi> <mi>S</mi> <mi>u</mi> <mi>p</mi> <mrow> <mo>(</mo> <mi>q</mi> <mi>t</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>

(1)找出负项集N_k的所有真子集，得到N_k真子集集合；

(2)从N_k真子集集合中任意取出两个子项集qt和I，且qt∪I＝N_k，其中qt为查询项集；

(3)计算提升度awARL(qt→I)，若awARL(qt→I)<1，计算负关联规则qt→﹁I置信度awARConf(qt→﹁I)，若awARConf(qt→﹁I)>＝mc，则得到完全加权强负关联规则qt→﹁I，并加入到完全加权强负关联规则集合NAR；计算负关联规则﹁qt→I置信度awARConf(﹁qt→I)，若awARConf(﹁qt→I)>＝mc，则得到完全加权强负关联规则﹁qt→I，并加入到NAR；所述的awARConf(qt→﹁I)和awARConf(﹁qt→I)计算公式如下：