CN108170778B - 基于完全加权规则后件的中英跨语言查询译后扩展方法 - Google Patents

基于完全加权规则后件的中英跨语言查询译后扩展方法 Download PDF

Info

Publication number
CN108170778B
CN108170778B CN201711433112.6A CN201711433112A CN108170778B CN 108170778 B CN108170778 B CN 108170778B CN 201711433112 A CN201711433112 A CN 201711433112A CN 108170778 B CN108170778 B CN 108170778B
Authority
CN
China
Prior art keywords
english
word
item set
weighted
frequent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711433112.6A
Other languages
English (en)
Other versions
CN108170778A (zh
Inventor
黄名选
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangxi University of Finance and Economics
Original Assignee
Guangxi University of Finance and Economics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi University of Finance and Economics filed Critical Guangxi University of Finance and Economics
Priority to CN201711433112.6A priority Critical patent/CN108170778B/zh
Publication of CN108170778A publication Critical patent/CN108170778A/zh
Application granted granted Critical
Publication of CN108170778B publication Critical patent/CN108170778B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于完全加权规则后件的中英跨语言查询译后扩展方法,首先进行中英跨语言初次检索,提取初检前列英文文档经用户相关性判断构建初检相关文档集并预处理后采用融合项集权值和频度的完全加权项集支持度计算方法对初检相关文档集挖掘含有译后原查询词项的完全加权频繁项集,采用基于完全加权置信度‑兴趣度评价框架对完全加权频繁项集挖掘前件是译后原查询词项的英文特征词间完全加权关联规则,提取规则后件作为中英跨语言译后扩展词,译后扩展词与译后原查询词组合为新查询再次检索英文文档。本发明方法能提高和改善跨语言信息检索性能,减少跨语言信息检索中查询主题严重漂移和词不匹配等问题,具有较高的应用价值和广阔的应用前景。

Description

基于完全加权规则后件的中英跨语言查询译后扩展方法
技术领域
本发明属于信息检索领域,具体是一种基于完全加权规则后件的中英跨语言查询译后扩展方法。
背景技术
跨语言信息检索指的是借助机器翻译以一种语言的查询式检索其他语言信息资源的技术。其表达用户查询的语言称为源语言,被检索的文档所用的语言称为目标语言。跨语言信息检索受查询翻译质量和同义词、多义词等的影响,常常导致查询主题严重漂移,词不匹配以及查询项翻译歧义和多义性等等问题。跨语言查询扩展是解决上述问题的关键技术之一。跨语言查询扩展指的是在跨语言信息检索过程中,添加与原查询相关的语词,和原查询重新构建新查询再次检索的过程。按照其扩展发生在检索过程的不同阶段,分为译前查询扩展、译后查询扩展和混合式查询扩展(即同时发生在译前与译后的查询扩展)三种。研究表明,跨语言查询扩展是提高跨语言信息检索性能的核心技术之一。随着跨语言信息检索研究的兴起,跨语言查询扩展越来越受到国内外学者专家的关注和讨论,成为一个研究热点。多年来,各国学者从不同角度和方向对跨语言查询扩展进行深入研究和讨论,取得了丰富的理论成果,但还没有最终完全解决跨语言信息检索中查全率和查准率问题。
发明内容
针对上述现有技术存在的问题,本发明提出一种基于完全加权规则后件的中英跨语言查询译后扩展方法,该方法能提高和改善跨语言检索性能,解决跨语言信息检索中查询主题漂移和词不匹配问题,适用于跨语言信息检索领域,还能应用于跨语言搜索引擎,提高搜索引擎检索性能。
本发明采用技术方案如下:
基于完全加权规则后件的中英跨语言查询译后扩展方法,首先利用机器翻译工具进行中英跨语言初次检索,提取初检前列英文文档经用户相关性判断构建初检相关文档集,对初检相关文档集进行预处理,构建初检英文文档库和特征词库;采用融合项集权值和频度的完全加权项集支持度计算方法对初检英文文档库挖掘含有译后原查询词项的完全加权频繁项集得到完全加权频繁项集集合;然后,采用基于完全加权置信度-兴趣度评价框架对所述完全加权频繁项集挖掘前件是译后原查询词项的英文特征词间完全加权关联规则,构建英文特征词关联规则库,从所述英文特征词关联规则库中提取规则后件作为中英跨语言译后扩展词,所述译后扩展词与译后原查询词组合为新查询再次检索英文文档。
所述中英跨语言初次检索为先利用机器翻译工具将中文用户查询翻译为英文查询,采用向量空间检索模型将所述英文查询检索英文文档集得到初检英文文档。
所述对初检相关文档集进行预处理的方法为将初检英文相关文档集去除英文停用词,采用Porter程序提取英文特征词并按如下式(1)计算特征词权值,构建初检英文文档库和特征词库;
Figure BDA0001525287140000021
式(1)中,N表示初检相关文档集中总的文档数量,wij表示初检相关英文文档di中特征词tj的权值,dfj表示含有英文特征词tj的英文文档数量,tfj,i表示英文特征词tj在文档di中的出现次数,即词频,max(tfi)表示初检相关英文文档di中最大的词频值,即文档di的所有英文特征词词频中的最大者,lg表示对数函数。
所述采用融合项集权值和频度的完全加权项集支持度计算方法对初检英文文档库挖掘含有译后原查询词项的完全加权频繁项集方法如下:
(1)挖掘英文特征词完全加权频繁1_项集L1
从所述特征词库中提取英文特征词作为英文特征词候选1_项集C1,计算C1的完全加权支持度awSup(C1),如果awSup(C1)≥支持度阈值ms,则C1为完全加权频繁1_项集L1,将L1添加到完全加权频繁项集集合awPIS;
awSup(C1)计算公式如下式(2)所示:
Figure BDA0001525287140000022
式(2)中,
Figure BDA0001525287140000023
为英文特征词候选1_项集C1在初检英文文档库中的项集权值累加所得的总和值,W为初检英文文档库中所有英文特征词权值的累加总和值,n为初检英文文档库中英文文档总篇数,
Figure BDA0001525287140000024
为英文特征词候选1_项集C1在初检英文文档库中出现的频度;
(2)挖掘英文特征词完全加权频繁k_项集Lk,所述的k≥2,具体步骤:
(2.1)采用Apriori连接方法将英文特征词完全加权频繁(k-1)_项集Lk-1进行自连接得到英文特征词完全加权候选k_项集Ck,所述的k≥2;
(2.2)当挖掘到2_项集C2时,将不含译后原查询词项的英文特征词候选2_项集C2删除,保留含有译后原查询词项的候选2_项集C2
(2.3)计算Ck的完全加权支持度awSup(Ck),awSup(Ck)计算公式如式(3)所示:
Figure BDA0001525287140000031
式(3)中,
Figure BDA0001525287140000032
为英文特征词候选k_项集Ck在初检英文文档库中项集权值的累加总和值,
Figure BDA0001525287140000033
为Ck在初检英文文档库中的项集频度,n为初检英文文档库中的英文文档总篇数,W为初检英文文档库中所有英文特征词权值的累加总和值,
Figure BDA0001525287140000034
为英文特征词完全加权候选k_项集Ck的项集长度,项集长度是指项集中的项目总个数;
(2.4)如果awSup(Ck)≥ms,则Ck就是英文特征词完全加权频繁k_项集Lk,添加到完全加权频繁项集集合awPIS;
(2.5)若英文特征词完全加权频繁k_项集Lk为空集,则含有译后原查询词项的完全加权频繁项集挖掘结束,否则,k加1后转入步骤(2.1)继续循环。
所述采用基于完全加权置信度-兴趣度评价框架对所述完全加权频繁项集挖掘前件是译后原查询词项的英文特征词间完全加权关联规则,构建英文特征词关联规则库的具体步骤如下:
对于所述完全加权频繁项集集合awPIS中每一个频繁k_项集Lk,所述的k≥2,采用置信度-兴趣度评价框架从频繁k_项集Lk中挖掘前件是译后原查询词项的英文特征词完全加权关联规则,步骤如下:
(1)取出频繁k_项集Lk的所有真子集项集,构建Lk真子集项集集合;
(2)取出Lk真子集项集集合中任意两个真子集项集qt和Et,且
Figure BDA0001525287140000035
qt∪Et=Lk
Figure BDA0001525287140000036
所述的QEn为译后原查询词项集合;
(3)计算英文特征词完全加权兴趣度awInt(qt,Et),如果awInt(qt,Et)≥最小兴趣度阈值mi,则计算英文特征词完全加权置信度awConf(qt→Et),若awConf(qt→Et)≥最小置信度阈值mc,则关联规则qt→Et是强英文特征词完全加权关联规则,并加入到英文特征词完全加权关联规则集合awAR;awInt(qt,Et)和awConf(qt→Et)的计算公式如式(4)和式(5)所示:
Figure BDA0001525287140000037
Figure BDA0001525287140000038
式(4)和(5)中,n1、n2和n12分别为英文特征词完全加权项集qt、Et以及项集(qt,Et)在初检英文文档库中出现的频度,k1、k2项k12分别为英文特征词完全加权项集qt、Et以及项集(qt,Et)的项集长度,w1、w2和w12分别为英文特征词完全加权项集qt、Et以及项集(qt,Et)在初检英文文档库中的项集权值累加所得的总和值;
(4)返回步骤(2)循环执行,直到Lk的真子集项集集合中每个真子集项集当且仅当被取出一次,然后从完全加权频繁项集集合awPIS中重新取出新的频繁k_项集Lk,转入步骤(1)进行新一轮完全加权关联规则挖掘,直到完全加权频繁项集集合awPIS中每一个频繁k_项集Lk都已经被取出,则英文特征词间完全加权关联规则挖掘结束。
所述从英文特征词关联规则库中提取规则后件作为中英跨语言译后扩展词的方法为:
从所述英文特征词关联规则库中提取每个关联规则qt→Et的后件Et作为跨语言查询译后后件扩展词,按下式(6)计算该后件扩展词的权值Wexp
Wexp=0.5×[max(awConf(qt→Et))+max(awInt(qt,Et)))] (6)
式(6)表明,当扩展词重复出现在多个关联规则qt→Et时,则存在多个置信度和多个兴趣度,这时分别取置信度的最大值max(awConf(qt→Et))和兴趣度的最大值max(awInt(qt,Et))参与扩展词权值计算。
本发明与现有技术相比,具有以下有益效果:
(1)本发明方法采用融合项集权值和频度的完全加权项集支持度计算方法对初检相关文档集挖掘含有译后原查询词项的完全加权频繁项集,采用基于完全加权置信度-兴趣度评价框架对完全加权频繁项集挖掘前件是译后原查询词项的英文特征词间完全加权关联规则模式,从规则模式中提取规则后件作为中英跨语言译后扩展词实现中英跨语言查询译后扩展,译后扩展词与译后原查询词组合为新查询再次检索英文文档。实验结果表明,本发明能提高和改善跨语言信息检索性能,减少跨语言信息检索中查询主题严重漂移和词不匹配等问题,具有较高的应用价值和广阔的应用前景。
(2)选择国际上普遍使用的NTCIR-5CLIR数据集作为本发明方法实验语料。将本发明方法与单语言检索基准方法和跨语言检索基准、现有跨语言查询扩展方法进行实验比较和分析。实验结果表明,本发明方法的检索性能均优于对比方法的,能提高中英跨语言信息检索性能,减少跨语言信息检索中查询漂移和词不匹配问题。主要原因分析如下:跨语言信息检索受词不匹配和查询翻译质量的双重影响,常常导致严重的初检查询主题漂移等问题,本发明方法能获得与译后原查询相关的后件扩展词实现中英跨语言查询译后扩展,提高了跨语言检索性能。
附图说明
图1为本发明所述的基于完全加权规则后件的中英跨语言查询译后扩展方法的流程框图。
具体实施方式
为了更好地说明本发明的技术方案,以下结合附图详细说明本发明的具体实施方式,但不构成对本发明权利要求保护范围的限制。
本发明涉及的相关概念介绍如下:
1.关联规则的前件和后件:将形如x→y的蕴含式称为关联规则,其中,x称为规则前件,y称为规则后件。
2.融合项频度和权值的完全加权关联模式支持度
在关联模式挖掘研究中,其核心问题是关联模式的支持度计算问题。本发明提出融合项频度和权值的完全加权关联模式I的支持度(awSup(I))计算公式,如式(7)所示。
Figure BDA0001525287140000051
式(7)中,W为事务数据库中所有项目权值的累加总和值,wI为项集I在事务数据库中的项集权值的累加总和值,n为事务数据库中总的事务数,nI为项集I在事务数据库中出现的频度,kI为项集I的项集长度,项集长度是指项集中的项目总个数,例如,项集(I1,I2)的项集长度是2。
式(7)的支持度计算公式同时考虑了项集权值wI和项集频度nI,克服了现有加权支持度计算的缺陷。
3.完全加权词间关联模式置信度和兴趣度
本发明给出基于项集权值和频度的完全加权特征词关联模式(T1→T2)置信度(awConf(T1→T2))计算公式如式(8)所示。
Figure BDA0001525287140000052
式(8)中,n和W同式(7)的,w1和w12分别为项集T1和(T1,T2)在事务数据库中项集权值的累加总和值,n1和n12分别为项集T1和(T1,T2)在事务数据库中出现的频度,k1和k12分别为项集T1和(T1,T2)的项集长度。
关联模式兴趣度反映了两个子项集之间关系的密切程度及有趣性,是评价完全加权词间关联模式有趣性和新颖性的典型度量。本发明给出基于项集权值和频度的完全加权词间关联模式(T1,T2)兴趣度(awInt(T1,T2))计算公式如式(9)所示。
Figure BDA0001525287140000061
式(9)中,n1和n12,w1和w12,k1和k12同式(8)的。
当MInt(T1,T2)值为0,说明这两个项集虽然有所关联,但是实际上是无相关的、无趣的。而当EMInt(T1,T2)值越大,表明项集T1和T2的关系越密切,越有趣,值得用户更多的关注。
4.基于完全加权规则后件的跨语言查询译后扩展词权值计算
本发明的扩展词来源完全加权关联规则后件,而完全加权置信度和兴趣度是评价完全加权关联规则的重要指标,置信度表明了在原查询词项出现的情况下扩展词项出现的条件概率,兴趣度衡量了原查询词项与扩展词项之间的关系紧密程度,即有趣性程度。因此,本发明将完全加权关联规则模式的置信度和兴趣度作为跨语言译后扩展词权值(Wexp)计算依据,Wexp计算公式如式(10)所示。
Figure BDA0001525287140000062
式(10)表明,当扩展词重复出现在多个关联规则时,多个置信度和兴趣度的情况就会存在,故取置信度的最大值max(awConf)和兴趣度的最大值max(awInt)参与扩展词权值计算。
如图1所示,基于完全加权规则后件的中英跨语言查询译后扩展方法,包括下列步骤:
1.中英跨语言初次检索,构建初检相关英文文档集,具体步骤:
(1)借助机器翻译工具将中文用户查询翻译为英文查询。
可以使用的机器翻译系统有:微软必应机器翻译接口Microsoft TranslatorAPI,谷歌机器翻译接口,等等。
(2)采用传统的向量空间检索模型将英文查询检索英文文档集得到初检前列英文文档。
(3)将初检前列n篇英文文档提交给用户进行相关性判断得到初检相关文档,构建初检相关英文文档集。
2.预处理初检相关英文文档集,构建初检英文文档库和特征词库
将初检英文相关文档集去除英文停用词,提取英文特征词并计算特征词权值,构建初检英文文档库和特征词库。
本发明采用Porter程序(详细见网址:http://tartarus.org/martin/PorterStemmer)进行词干提取,本发明提出如下式(1)计算英文特征词权值:
Figure BDA0001525287140000071
式(1)中,N表示初检相关文档集中总的文档数量,wij表示初检相关英文文档di中特征词tj的权值,dfj表示含有英文特征词tj的英文文档数量,tfj,i表示英文特征词tj在文档di中的出现次数,即词频,max(tfi)表示初检相关英文文档di中最大的词频值,即文档di的所有英文特征词词频中的最大者,lg表示对数函数。
式(1)表明,在初检英文相关文档集中,特征词的dfj值越大,则该特征词与原查询越相关,越重要,具有较高的权值。
3.采用融合项集权值和频度的完全加权项集支持度计算方法对初检相关文档库挖掘含有译后原查询词项的完全加权频繁项集,具体步骤如下:
(1)挖掘英文特征词完全加权频繁1_项集L1
从特征词库中提取英文特征词作为英文特征词候选1_项集C1,计算C1的完全加权支持度awSup(C1),如果awSup(C1)≥支持度阈值ms,则C1为完全加权频繁1_项集L1,并将L1添加到完全加权频繁项集集合awPIS;
awSup(C1)计算公式如式(2)所示:
Figure BDA0001525287140000072
式(2)中,
Figure BDA0001525287140000073
为英文特征词候选1_项集C1在初检英文文档库中的项集权值累加所得的总和值,W为初检英文文档库中所有英文特征词权值的累加总和值,n为初检英文文档库中英文文档总篇数,
Figure BDA0001525287140000074
为英文特征词候选1_项集C1在初检英文文档库中出现的频度。
(2)挖掘英文特征词完全加权频繁k_项集Lk,所述的k≥2,具体步骤:
(2.1)采用Apriori连接方法(详见文献:Agrawal R,Imielinski T,SwamiA.Mining association rules between sets of items in large database[C]//Proceedings of the 1993ACM SIGMOD International Conference on Management ofData,Washington D C,USA,1993:207-216.)将英文特征词完全加权频繁(k-1)_项集Lk-1进行自连接得到英文特征词完全加权候选k_项集Ck,所述的k≥2;
(2.2)当挖掘到2_项集C2时,将不含译后原查询词项的英文特征词候选2_项集C2删除,保留含有译后原查询词项的候选2_项集C2
(2.3)计算Ck的完全加权支持度awSup(Ck),awSup(Ck)的计算公式如式(3)所示;
Figure BDA0001525287140000081
式(3)中,
Figure BDA0001525287140000082
为英文特征词候选k_项集Ck在初检英文文档库中项集权值的累加总和值,
Figure BDA0001525287140000083
为Ck在初检英文文档库中的项集频度,n为初检英文文档库中的英文文档总篇数,W为初检英文文档库中所有英文特征词权值的累加总和值,
Figure BDA0001525287140000084
为英文特征词完全加权候选k_项集Ck的项集长度,项集长度是指项集中的项目总个数,例如项集(I1,I2,I3)的项集长度是3。
(2.4)如果awSup(Ck)≥ms,则Ck就是英文特征词完全加权频繁k_项集Lk,添加到完全加权频繁项集集合awPIS。
(2.5)若英文特征词完全加权频繁k_项集Lk为空集,则含有译后原查询词项的完全加权频繁项集挖掘结束,转入步骤4,否则,k加1后转入步骤(2.1)继续循环。
4.采用基于完全加权置信度-兴趣度评价框架对频繁项集挖掘前件是译后原查询词项的英文特征词完全加权关联规则,具体步骤如下:
对于完全加权频繁项集集合awPIS中每一个频繁k_项集Lk,所述的k≥2,采用置信度-兴趣度评价框架从频繁k_项集Lk中挖掘前件是译后原查询词项的英文特征词完全加权关联规则,步骤如下:
(4.1)取出频繁k_项集Lk的所有真子集项集,构建Lk真子集项集集合;
(4.2)取出Lk真子集项集集合中任意两个真子集项集qt和Et,且
Figure BDA0001525287140000085
qt∪Et=Lk
Figure BDA0001525287140000086
所述的QEn为译后原查询词项集合;
(4.3)计算英文特征词完全加权兴趣度awInt(qt,Et),如果awInt(qt,Et)≥最小兴趣度阈值mi,则计算英文特征词完全加权置信度awConf(qt→Et),若awConf(qt→Et)≥最小置信度阈值mc,则关联规则qt→Et是强英文特征词完全加权关联规则,并加入到英文特征词完全加权关联规则集合awAR。
awInt(qt,Et)和awConf(qt→Et)的计算公式分别如式(4)和式(5)所示。
Figure BDA0001525287140000087
Figure BDA0001525287140000088
式(4)和(5)中,n1、n2和n12分别为英文特征词完全加权项集qt、Et以及项集(qt,Et)在初检英文文档库中出现的频度,k1、k2项k12分别为英文特征词完全加权项集qt、Et以及项集(qt,Et)的项集长度,w1、w2和w12分别为英文特征词完全加权项集qt、Et以及项集(qt,Et)在初检英文文档库中的项集权值累加所得的总和值。
(4.4)返回步骤(4.2)循环执行,直到Lk的真子集项集集合中每个真子集项集当且仅当被取出一次,然后从完全加权频繁项集集合awPIS中重新取出新的频繁k_项集Lk,转入步骤(4.1)进行新一轮完全加权关联规则挖掘,直到awPIS中每一个频繁k_项集Lk都已经被取出,则英文特征词间完全加权关联规则挖掘结束,最后得到英文特征词完全加权关联规则集合awAR即为所述英文特征词关联规则库。转入步骤5。
5.从所述英文特征词关联规则库中提取规则后件作为中英跨语言译后扩展词实现中英跨语言查询译后扩展
从英文特征词完全加权关联规则集合awAR中提取每个关联规则qt→Et的后件Et作为跨语言查询译后后件扩展词,计算该后件扩展词的权值Wexp。Wexp计算公式如式(6)所示。
Wexp=0.5×[max(awConf(qt→Et))+max(awInt(qt,Et)))] (6)
式(6)表明,当扩展词重复出现在多个关联规则qt→Et时,多个置信度和多个兴趣度的情况就会存在,这时分别取置信度的最大值max(awConf(qt→Et))和兴趣度的最大值max(awInt(qt,Et))参与扩展词权值计算。
6.译后后件扩展词与译后原查询词组合为新查询再次检索英文文档,完成了中英跨语言查询译后扩展。
实验设计与结果:
基于本发明方法和对比方法的中英跨语言信息检索实验,比较本发明方法和对比方法的跨语言检索性能,以此说明本发明方法的有效性。
实验数据集:
本发明实验语料选择NTCIR-5CLIR(见网址:http://research.nii.ac.jp/ntcir/permission/ntcir-5/perm-en-CLIR.html)语料中的中文查询集和英文文档集MainichiDaily News 2000、2001年和Korea Times 2001年的新闻文本,共有26224篇英文文档,所述的Mainichi Daily News 2000的新闻文本6608篇(简称m00),Mainichi Daily News 2001的5547篇(简称m01)和Korea Times 2001年的14069篇(简称k01)。该语料有文档测试集、50个查询主题集及其对应的结果集,其中,每个查询主题类型有Title、Desc、Narr和Conc等4种类型,结果集有2种评价标准,即高度相关,相关的Rigid标准和高度相关、相关和部分相关的Relax标准。实验时查询主题类型选择Title和Desc类型,Title查询属于短查询,以名词和名词性短语简要描述查询主题,Desc查询属于长查询,以句子形式简要描述查询主题。
英文文档集的预处理:采用Porter程序(见网址:http://tartarus.org/martin/PorterStemmer.)进行英文词干提取、去除英文停用词和提取特征词项及其权值计算等处理。实验中用到的机器翻译工具是微软必应(Bing)翻译接口Microsoft Translator API。
本发明实验的跨语言检索评价指标是P@10和平均查准率均值MAP(MeanAveragePrecision)。
对比基准方法:
(1)中英跨语言检索(Chinese-English Cross-Language Retrieval,CECLB):指中文查询经机器翻译为英文后检索英文文档得到的检索结果。
(2)基于矩阵关联规则的伪相关反馈跨语言查询扩展(Cross-Language QueryExpansion Based on Matrix-weighted Association Rules,ClQE_MWAR)方法:该基准方法是按照文献(黄名选,严小卫,张师超.基于矩阵加权关联规则挖掘的伪相关反馈查询扩展[J].软件学报,2009,20(7):1854-1865.)的查询扩展方法实现中英跨语言查询扩展。
实验结果如下:
编写了本发明方法和基准方法的源程序,通过实验分析和比较本发明方法和对比基准方法的中英跨语言信息检索性能,对50个中文查询主题的Title和Desc查询进行中英跨语言信息检索,对跨语言初检前列50篇英文文档进行用户相关性判断后得到初检用户相关反馈文档(为了简便,本文实验中,将初检前列50篇文档中含有已知结果集中的相关文档视为初检相关文档)进行实验,得到中英跨语言检索结果的MAP和P@10的平均值,分别如表1至表2所示,实验时挖掘到3_项集。
表1本文发明方法与对比基准方法的检索性能比较(Title查询)
Figure BDA0001525287140000101
实验参数:mc=0.1,mi=0.1,ms∈{0.3,0.35,0.4,0.45,0.5}.
表1表明,本发明方法的Title查询的P@10和MAP值均比对比方法的高,其中,比对比方法CECLB的提高幅度范围为16.22%-141.20%,而比对比方法ClQE_MWAR的为20.27%-131.27%。
表2本文发明方法与基准方法的检索性能比较(Desc查询)
Figure BDA0001525287140000111
实验参数:mc=0.1,mi=0.1,ms∈{0.3,0.35,0.4,0.45,0.5}.
从表2结果可知,表明了检索性能比较。从表2可知,本发明方法的Desc查询的检索结果的MAP和P@10值也高于对比方法的,其中,比对比方法CECLB的提高幅度最大可达198.60%,而比对比方法ClQE_MWAR的可达241.46%。
实验结果表明,本发明方法是有效的,确实能提高中英跨语言信息检索性能,具有很高的应用价值和广阔的推广前景。

Claims (3)

1.基于完全加权规则后件的中英跨语言查询译后扩展方法,其特征在于:首先利用机器翻译工具进行中英跨语言初次检索,提取初检前列英文文档经用户相关性判断构建初检相关文档集,对初检相关文档集进行预处理,构建初检英文文档库和特征词库;采用融合项集权值和频度的完全加权项集支持度计算方法对初检英文文档库挖掘含有译后原查询词项的完全加权频繁项集得到完全加权频繁项集集合;然后,采用基于完全加权置信度-兴趣度评价框架对所述完全加权频繁项集挖掘前件是译后原查询词项的英文特征词间完全加权关联规则,构建英文特征词关联规则库,从所述英文特征词关联规则库中提取规则后件作为中英跨语言译后扩展词,所述译后扩展词与译后原查询词组合为新查询再次检索英文文档;
所述采用融合项集权值和频度的完全加权项集支持度计算方法对初检英文文档库挖掘含有译后原查询词项的完全加权频繁项集方法如下:
(1)挖掘英文特征词完全加权频繁1_项集L1
从所述特征词库中提取英文特征词作为英文特征词候选1_项集C1,计算C1的完全加权支持度awSup(C1),如果awSup(C1)≥支持度阈值ms,则C1为完全加权频繁1_项集L1,将L1添加到完全加权频繁项集集合awPIS;
awSup(C1)计算公式如式(2)所示:
Figure FDA0003191297050000011
式(2)中,
Figure FDA0003191297050000012
为英文特征词候选1_项集C1在初检英文文档库中的项集权值累加所得的总和值,W为初检英文文档库中所有英文特征词权值的累加总和值,n为初检英文文档库中英文文档总篇数,
Figure FDA0003191297050000013
为英文特征词候选1_项集C1在初检英文文档库中出现的频度;
(2)挖掘英文特征词完全加权频繁k_项集Lk,所述的k≥2,具体步骤:
(2.1)采用Apriori连接方法将英文特征词完全加权频繁(k-1)_项集Lk-1进行自连接得到英文特征词完全加权候选k_项集Ck,所述的k≥2;
(2.2)当挖掘到2_项集C2时,将不含译后原查询词项的英文特征词候选2_项集C2删除,保留含有译后原查询词项的候选2_项集C2
(2.3)计算Ck的完全加权支持度awSup(Ck)如式(3)所示:
Figure FDA0003191297050000014
式(3)中,
Figure FDA0003191297050000015
为英文特征词候选k_项集Ck在初检英文文档库中项集权值的累加总和值,
Figure FDA0003191297050000021
为Ck在初检英文文档库中的项集频度,n为初检英文文档库中的英文文档总篇数,W为初检英文文档库中所有英文特征词权值的累加总和值,
Figure FDA0003191297050000022
为英文特征词完全加权候选k_项集Ck的项集长度,项集长度是指项集中的项目总个数;
(2.4)如果awSup(Ck)≥ms,则Ck就是英文特征词完全加权频繁k_项集Lk,添加到完全加权频繁项集集合awPIS;
(2.5)若英文特征词完全加权频繁k_项集Lk为空集,则含有译后原查询词项的完全加权频繁项集挖掘结束,否则,k加1后转入步骤(2.1)继续循环;
所述采用基于完全加权置信度-兴趣度评价框架对所述完全加权频繁项集挖掘前件是译后原查询词项的英文特征词间完全加权关联规则,构建英文特征词关联规则库的具体步骤如下:
对于所述完全加权频繁项集集合awPIS中每一个频繁k_项集Lk,所述的k≥2,采用置信度-兴趣度评价框架从频繁k_项集Lk中挖掘前件是译后原查询词项的英文特征词完全加权关联规则,步骤如下:
(1)取出频繁k_项集Lk的所有真子集项集,构建Lk真子集项集集合;
(2)取出Lk真子集项集集合中任意两个真子集项集qt和Et,且
Figure FDA0003191297050000023
qt∪Et=Lk
Figure FDA0003191297050000024
所述的QEn为译后原查询词项集合;
(3)计算英文特征词完全加权兴趣度awInt(qt,Et),如果awInt(qt,Et)≥最小兴趣度阈值mi,则计算英文特征词完全加权置信度awConf(qt→Et),若awConf(qt→Et)≥最小置信度阈值mc,则关联规则qt→Et是强英文特征词完全加权关联规则,并加入到英文特征词完全加权关联规则集合awAR;awInt(qt,Et)和awConf(qt→Et)的计算公式如式(4)和式(5)所示:
Figure FDA0003191297050000025
Figure FDA0003191297050000026
式(4)和(5)中,n1、n2和n12分别为英文特征词完全加权项集qt、Et以及项集(qt,Et)在初检英文文档库中出现的频度,k1、k2项k12分别为英文特征词完全加权项集qt、Et以及项集(qt,Et)的项集长度,w1、w2和w12分别为英文特征词完全加权项集qt、Et以及项集(qt,Et)在初检英文文档库中的项集权值累加所得的总和值;
(4)返回步骤(2)循环执行,直到Lk的真子集项集集合中每个真子集项集当且仅当被取出一次,然后从完全加权频繁项集集合awPIS中重新取出新的频繁k_项集Lk,转入步骤(1)进行新一轮完全加权关联规则挖掘,直到完全加权频繁项集集合awPIS中每一个频繁k_项集Lk都已经被取出,则英文特征词间完全加权关联规则挖掘结束;
所述从英文特征词关联规则库中提取规则后件作为中英跨语言译后扩展词的方法为:
从所述英文特征词关联规则库中提取每个关联规则qt→Et的后件Et作为跨语言查询译后后件扩展词,按下式(6)计算该后件扩展词的权值Wexp
Wexp=0.5×[max(awConf(qt→Et))+max(awInt(qt,Et)))] (6)
式(6)表明,当扩展词重复出现在多个关联规则qt→Et时,则存在多个置信度和多个兴趣度,这时分别取置信度的最大值max(awConf(qt→Et))和兴趣度的最大值max(awInt(qt,Et))参与扩展词权值计算。
2.如权利要求1所述的基于完全加权规则后件的中英跨语言查询译后扩展方法,其特征在于:所述中英跨语言初次检索为先利用机器翻译工具将中文用户查询翻译为英文查询,采用向量空间检索模型将所述英文查询检索英文文档集得到初检英文文档。
3.如权利要求1所述的基于完全加权规则后件的中英跨语言查询译后扩展方法,其特征在于:所述对初检相关文档集进行预处理的方法为将初检英文相关文档集去除英文停用词,采用Porter程序提取英文特征词并按如下公式(1)计算特征词权值,构建初检英文文档库和特征词库;
Figure FDA0003191297050000031
式(1)中,N表示初检相关文档集中总的文档数量,wij表示初检相关英文文档di中特征词tj的权值,dfj表示含有英文特征词tj的英文文档数量,tfj,i表示英文特征词tj在文档di中的出现次数,即词频,max(tfi)表示初检相关英文文档di中最大的词频值,即文档di的所有英文特征词词频中的最大者,lg表示对数函数。
CN201711433112.6A 2017-12-26 2017-12-26 基于完全加权规则后件的中英跨语言查询译后扩展方法 Active CN108170778B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711433112.6A CN108170778B (zh) 2017-12-26 2017-12-26 基于完全加权规则后件的中英跨语言查询译后扩展方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711433112.6A CN108170778B (zh) 2017-12-26 2017-12-26 基于完全加权规则后件的中英跨语言查询译后扩展方法

Publications (2)

Publication Number Publication Date
CN108170778A CN108170778A (zh) 2018-06-15
CN108170778B true CN108170778B (zh) 2021-09-10

Family

ID=62521065

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711433112.6A Active CN108170778B (zh) 2017-12-26 2017-12-26 基于完全加权规则后件的中英跨语言查询译后扩展方法

Country Status (1)

Country Link
CN (1) CN108170778B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109684464B (zh) * 2018-12-30 2021-06-04 广西财经学院 通过权值比较实现规则后件挖掘的跨语言查询扩展方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106372241A (zh) * 2016-09-18 2017-02-01 广西财经学院 基于词间加权关联模式的越英跨语言文本检索方法及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106372241A (zh) * 2016-09-18 2017-02-01 广西财经学院 基于词间加权关联模式的越英跨语言文本检索方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
完全加权模式挖掘与相关反馈融合的印尼汉跨语言查询扩展;黄名选;《小型微型计算机系统》;20170815;第1783-1791页 *

Also Published As

Publication number Publication date
CN108170778A (zh) 2018-06-15

Similar Documents

Publication Publication Date Title
Han et al. A generative entity-mention model for linking entities with knowledge base
Chen et al. Novel association measures using web search with double checking
CN104391942A (zh) 基于语义图谱的短文本特征扩展方法
CN103186556B (zh) 得到和搜索结构化语义知识的方法及对应装置
CN109299278B (zh) 基于置信度-相关系数框架挖掘规则前件的文本检索方法
CN107092675B (zh) 一种基于统计和浅层语言分析的维吾尔文语义串抽取方法
CN102662936A (zh) 融合Web挖掘、多特征与有监督学习的汉英未登录词翻译方法
CN106484781B (zh) 融合关联模式和用户反馈的印尼汉跨语言检索方法及系统
CN107609095B (zh) 基于加权正负规则前件与相关反馈的跨语言查询扩展方法
CN108170778B (zh) 基于完全加权规则后件的中英跨语言查询译后扩展方法
CN109684463B (zh) 基于权值比较与挖掘的跨语言译后前件扩展方法
CN109726263B (zh) 基于特征词加权关联模式挖掘的跨语言译后混合扩展方法
CN109739953B (zh) 基于卡方分析-置信度框架和后件扩展的文本检索方法
CN107526839B (zh) 基于完全加权正负模式的跨语言查询译后后件扩展方法
CN111897922A (zh) 基于模式挖掘与词向量相似度计算的中文查询扩展方法
Zheng et al. The selection of Mongolian stop words
CN111897926A (zh) 深度学习与扩展词挖掘交集融合的中文查询扩展方法
CN108133022B (zh) 基于矩阵加权关联规则的中英跨语言查询前件扩展方法
Azad et al. A novel model for query expansion using pseudo-relevant web knowledge
CN108416442B (zh) 基于项频度和权值的中文词间矩阵加权关联规则挖掘方法
CN109684464B (zh) 通过权值比较实现规则后件挖掘的跨语言查询扩展方法
CN109684465B (zh) 基于项集权值比较的模式挖掘和混合扩展的文本检索方法
CN111897927B (zh) 融合Copulas理论和关联规则挖掘的中文查询扩展方法
CN104317888B (zh) 一种全文检索测试数据生成方法
CN111897928A (zh) 查询词嵌入扩展词和统计扩展词并集的中文查询扩展方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant