CN109726263B - 基于特征词加权关联模式挖掘的跨语言译后混合扩展方法 - Google Patents

基于特征词加权关联模式挖掘的跨语言译后混合扩展方法 Download PDF

Info

Publication number
CN109726263B
CN109726263B CN201811646513.4A CN201811646513A CN109726263B CN 109726263 B CN109726263 B CN 109726263B CN 201811646513 A CN201811646513 A CN 201811646513A CN 109726263 B CN109726263 B CN 109726263B
Authority
CN
China
Prior art keywords
item set
text
item
association rule
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201811646513.4A
Other languages
English (en)
Other versions
CN109726263A (zh
Inventor
黄名选
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangxi University of Finance and Economics
Original Assignee
Guangxi University of Finance and Economics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi University of Finance and Economics filed Critical Guangxi University of Finance and Economics
Priority to CN201811646513.4A priority Critical patent/CN109726263B/zh
Publication of CN109726263A publication Critical patent/CN109726263A/zh
Application granted granted Critical
Publication of CN109726263B publication Critical patent/CN109726263B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了基于特征词加权关联模式挖掘的跨语言译后混合扩展方法,首先源语言查询首次检索目标语言文档,构建并预处理初检相关反馈文档集,通过项集权值比较在该文档集挖掘含有原查询词项的频繁项集,用项集关联度及项集的项目权值最大者或最大项目权值对候选项集剪枝,用卡方分析‑置信度评价框架从频繁项集挖掘含有原查询词项的文本特征词关联规则,提取后件是原查询词项的关联规则前件及前件是原查询词项的关联规则后件作为译后扩展词实现跨语言译后混合扩展。本发明克服现有加权关联规则挖掘技术的缺陷,提高挖掘效率,挖掘出与原查询相关的扩展词,提高和改善跨语言检索性能,在实际web跨语言检索系统中有较高的应用价值和推广前景。

Description

基于特征词加权关联模式挖掘的跨语言译后混合扩展方法
技术领域
本发明属于信息检索领域,具体是基于特征词加权关联模式挖掘的跨语言译后混合扩展方法。
背景技术
跨语言查询扩展是提高和改善跨语言信息检索性能的核心技术之一,能解决跨语言信息检索中长期困扰的查询主题严重漂移和词不匹配等问题,指的是在跨语言信息检索过程中,采用某种策略发现与原查询相关的扩展词,扩展词和原查询组合得到新查询并再次检索的过程。
当前,网络信息资源迅猛增长,成为了隐含巨大经济价值和研究价值的网络大数据。面对具有多语言性特点的网络信息资源,网络用户以自己熟悉的语言的查询表达式在网络大数据资源中跨语言检索其他语言信息资源时,经常遇到的查询主题严重漂移和词不匹配等问题,这些问题的解决要依赖于跨语言查询扩展技术。近十几年来,学者们对跨语言查询扩展方法开展了卓有成效的研究,特别是对基于关联模式挖掘的跨语言查询译后扩展方法的研究,取得了丰富的研究成果,例如,吴丹等提出的基于伪相关反馈的跨语言查询译后扩展方法(吴丹,何大庆,王惠临.基于伪相关反馈的跨语言查询扩展[J].情报学报,2010,29(2):232-239.),黄名选提出基于加权关联模式挖掘的跨语言查询扩展方法(黄名选.基于加权关联模式挖掘的越-英跨语言查询扩展[J].情报学报,2017,36(3):307-318.,黄名选.完全加权模式挖掘与相关反馈融合的印尼汉跨语言查询扩展,小型微型计算机系统,2017,38(8):1783-1791.),等等,但还没有最终完全解决跨语言信息检索中查询主题严重漂移和词不匹配问题。
发明内容
本发明提出了基于特征词加权关联模式挖掘的跨语言译后混合扩展方法,应用于跨语言信息检索领域,解决跨语言信息检索中查询主题漂移和词不匹配问题,适合于实际的跨语言搜索引擎和web跨语言信息检索系统,提高信息检索性能。
本发明采用如下技术方案:
基于特征词加权关联模式挖掘的跨语言译后混合扩展方法,包括下列步骤:
步骤1:借助机器翻译工具,源语言查询式跨语言首次检索目标语言文档,构建和预处理初检相关反馈文档集。具体步骤:
(1.1)源语言用户查询通过机器翻译工具译为目标语言,采用向量空间检索模型检索目标语言文本文档集得到初检前列目标语言文档。
机器翻译工具可以是:微软必应机器翻译接口Microsoft Translator API,或者,谷歌机器翻译接口,等等。
(1.2)通过对初检前列目标语言文档进行相关性判断构建初检相关反馈文档集。
(1.3)预处理初检相关反馈文档集,构建目标语言文本文档索引库和特征词库。
初检相关反馈文档集预处理方法要根据不同语种采用相应的预处理方法,例如,如果目标语言是英语,则预处理方法是:去除英文停用词,采用Porter程序(详细见网址:http://tartarus.org/martin/PorterStemmer)提取得到英文特征词词干,计算英文特征词权值,如果目标语言是汉语,预处理方法是:去除中文停用词,对中文文档进行分词后提取中文特征词,计算中文特征词权值。
本发明给出初检相关反馈文档特征词权值计算公式,如式(1)所示的计算公式。
Figure BDA0001932164520000021
式(1)中,wij表示文档di中特征词tj的权值,tfj,i表示特征词tj在文档di中的词频,普遍将tfj,i进行标准化处理,所述标准化处理是指将文档di中每个特征词所述的tfj,i除以文档di的最大词频,idfj是逆文档频度(Inverse Document Frequency)。
步骤2:通过项集权值比较在初检相关反馈文档集挖掘含有原查询词项的频繁项集,运用项集关联度值以及项集的项目权值最大者或最大项目权值对项集进行剪枝,具体步骤如下:
(2.1)挖掘文本特征词1_频繁项集L1,具体步骤如下:
(2.1.1)从特征词库中提取文本特征词作为1_候选项集C1
(2.1.2)扫描目标语言文本文档索引库,统计文本文档总数n和统计C1的项集权值w[C1];
(2.1.3)计算最小权值支持阈值MWS。所述MWS计算公式如式(2)所示。
MWS=n×ms (2)
式(2)中,所述ms为最小支持度阈值,n为目标语言文本文档索引库的文本文档总数。
(2.1.4)如果w[C1]≥MWS,则C1就是文本特征词1_频繁项集L1,添加到频繁项集集合FIS(Frequent ItemSet)。
(2.2)挖掘文本特征词2_频繁项集L2,具体步骤如下:
(2.2.1)采用Aproiri连接方法将文本特征词1_频繁项集L1自连接得到2_候选项集C2
所述Aproiri连接方法详见文献(Agrawal R,Imielinski T,Swami A.Miningassociation rules between sets of items in large database[C]//Proceedings ofthe 1993ACM SIGMOD International Conference on Management of Data,WashingtonD C,USA,1993:207-216.)
(2.2.2)剪枝不含原查询词项的2_候选项集C2
(2.2.3)对余下的2_候选项集C2,扫描目标语言文本文档索引库分别统计各余下的2_候选项集C2的项集权值w[C2];
(2.2.4)如果w[C2]≥MWS,则C2就是文本特征词2_频繁项集L2,添加到频繁项集集合FIS(Frequent ItemSet)。
(2.3)挖掘文本特征词k_频繁项集Lk,所述k≥2。具体步骤如下:
(2.3.1)采用Aproiri连接方法将文本特征词(k-1)_频繁项集Lk-1自连接得到k_候选项集Ck=(i1,i2,…,ik),所述k≥2;
(2.3.2)扫描目标语言文本文档索引库,分别统计各Ck的项集权值w[Ck]和各Ck中最大的项目权值wm,分别得到各Ck中最大的项目权值wm对应的项目im,所述m∈(1,2,…,k);
(2.3.3)如果所述项目im对应的1_项集(im)是非频繁的,或者wm<MWS,则剪枝所述Ck
(2.3.4)对于余下的Ck,分别计算Ck的项集关联度IRe(Ck),如果w[Ck]≥MWS×k并且IRe(Ck)≥minIRe,那么,该Ck就是文本特征词k_频繁项集Lk,添加到频繁项集集合FIS;
所述minIRe为最小项集关联度阈值;所述IRe(Ck)的计算公式如式(3)所示;
Figure BDA0001932164520000031
式(3)中,wmin[(iq)]和wmax[(ip)]的含义如下:对于Ck=(i1,i2,…ik),k_候选项集Ck的各个项目i1,i2,…,ik分别单独作为1_项集时对应为(i1),(i2),…,(ik);wmin[(iq)]和wmax[(ip)]分别表示1_项集(i1),(i2),…,(ik)中最小的1_项集权值和最大的1_项集权值;所述q∈(1,2,…,k),p∈(1,2,…,k);
(2.3.5)如果文本特征词k_频繁项集Lk为空集,这时,则文本特征词频繁项集挖掘结束,转入如下步骤3,否则,k加1后转入步骤(2.3.1)继续顺序循环。
步骤3:采用卡方分析-置信度评价框架从频繁项集集合FIS中每一个文本特征词k_频繁项集Lk挖掘含有原查询词项的文本特征词加权关联规则模式,所述k≥2。具体方法如下:
从频繁项集集合FIS中取出任意一个文本特征词k_频繁项集Lk,按照下面步骤挖掘每个Lk的所有含有原查询词项的关联规则模式。
(3.1)构建Lk的所有真子集项集集合;
(3.2)从真子集项集集合中任意取出两个真子集项集qt和Et,且
Figure BDA0001932164520000041
qt∪Et=Lk
Figure BDA0001932164520000042
QTL为目标语言原查询词项集合,Et为不含原查询词项的特征词项集Et,计算项集(qt,Et)的卡方(Chi-Square,Chis)值,所述卡方Chis(qt,Et)计算公式如式(4)所示。
Figure BDA0001932164520000043
式(4)中,w[(qt)]为项集qt在目标语言文本文档索引库中项集权值,k1为项集qt的长度,w[(Et)]为项集Et在目标语言文本文档索引库中项集权值,k2为项集Et的长度,w[(qt,Et)]为项集(qt,Et)在目标语言文本文档索引库中的项集权值,kL为项集(qt,Et)的项目个数,n为目标语言文本文档索引库的文本文档总数。
(3.3)如果Chis(qt,Et)>0,则计算文本特征词加权关联规则置信度(WeightedConfidence,WConf)WConf(qt→Et)和WConf(Et→qt);
若WConf(qt→Et)≥最小置信度阈值mc,则关联规则qt→Et是强加权关联规则模式,添加到加权关联规则模式集合WAR;若WConf(Et→qt)≥mc,则Et→qt是强加权关联规则模式,添加到WAR;
所述WConf(qt→Et)和WConf(Et→qt)的计算公式如式(5)和(6)所示;
Figure BDA0001932164520000044
Figure BDA0001932164520000045
式(5)和(6)中,w[(qt)],k1,w[(Et)],k2,w[(qt,Et)],kL的定义同式(4);
(3.4)如果Lk的每个真子集项集当且仅当都被取出一次,那么本次Lk中的文本特征词加权关联规则模式挖掘结束,这时从繁项集集合FIS中重新取出另一个Lk,并转入步骤(3.1)进行另一个Lk的加权关联规则模式挖掘,否则,转入步骤(3.2)再顺序执行各个步骤;如果频繁项集集合FIS中的每个Lk都已经被取出挖掘加权关联规则模式,则结束整个加权关联规则模式挖掘,转入如下步骤4。
步骤4:从加权关联规则模式集合WAR中提取那些后件是原查询词项的关联规则Et→qt的前件项集Et以及前件是原查询词项的关联规则qt→Et的后件项集Et作为译后扩展词,计算扩展词权值。
从加权关联规则模式集合WAR中提取关联规则Et→qt的前件Et和关联规则qt→Et的后件Et作为跨语言查询译后扩展词,所述扩展词的权值we计算公式如式(7)所示。
we=0.5×max(WConf())+0.3×max(Chis())+0.2×max(IRe()) (7)
式(7)中,max(WConf())、max(Chis())和max(IRe())分别表示加权关联规则置信度、卡方值和关联度的最大值,即当扩展词重复出现在多个加权关联规则模式时,取上述3个度量值的最大值。
步骤5:步骤4所述译后扩展词与译后原查询词组合为新译后查询再次检索目标语言文档,完成跨语言译后混合扩展。
本发明与现有技术相比,具有以下有益效果:
(1)本发明提出一种基于特征词加权关联模式挖掘的跨语言译后混合扩展方法。该发明方法通过项集权值比较对初检相关反馈文档集挖掘含有原查询词项的频繁项集,运用项集关联度以及项集的项目权值最大者或者最大项目权值进行项集剪枝,采用卡方分析-置信度评价框架从频繁项集中挖掘含有原查询词项的文本特征词关联规则模式,最后,从关联规则中提取后件是原查询词项的关联规则前件项集以及前件是原查询词项的关联规则后件项集作为译后扩展词,实现跨语言译后混合扩展。实验结果表明,本发明能提高和改善跨语言信息检索性能,在跨语言搜索引擎和web检索系统中具有较高的应用价值和推广前景。
(2)选择国际上普遍使用的标准数据集NTCIR-5CLIR作为本发明方法实验语料。与对比方法比较,实验结果表明,本发明方法的跨语言检索结果P@15和平均R-查准率值都比对比方法的高,效果显著,说明本发明方法的检索性能均优于对比方法,能提高跨语言信息检索性能,减少跨语言信息检索中查询漂移和词不匹配问题,具有很高的应用价值和广阔的推广前景。
附图说明
图1为本发明基于特征词加权关联模式挖掘的跨语言译后混合扩展方法的流程示意图。
具体实施方式
为了更好地说明本发明的技术方案,下面将本发明涉及的相关概念介绍如下:
1.文本特征词关联规则的前件和后件
设T1、T2是任意的文本特征词项集,将形如T1→T2的蕴含式称为文本特征词关联规则,其中,T1称为规则前件,T2称为规则后件。
2.假设DS={d1,d2,…,dn}是文本文档集(Document Set,DS),其中,di(1≤i≤n)是文档集DS中的第i篇文档,di={t1,t2,…,tm,…,tp},tm(m=1,2,…,p)为文档特征词项目,简称特征项,一般是由字、词或词组构成,di中对应的特征项权值集合Wi={wi1,wi2,…,wim,…,wip},wim为第i篇文档di中第m个特征项tm对应的权值,T={t1,t2,…,tn}表示DS中全体特征项集合,T的各个子集均称为特征项项集,简称项集。
所述项目权值和项集权值的区别描述如下:假设在文本文档索引库中统计k_候选项集Ck=(i1,i2,…,ik)的项集权值w[Ck],得到Ck各个项目i1,i2,…,ik对应的权值为w1,w2,…,wk,那么,所述w1,w2,…,wk称为项目权值,而Ck的项集权值w[Ck]=w1+w2+…+wk
实施例1
如图1所示,基于特征词加权关联模式挖掘的跨语言译后混合扩展方法,包括下列步骤:
步骤1:借助机器翻译工具,源语言查询式跨语言首次检索目标语言文档,构建和预处理初检相关反馈文档集。具体步骤:
(1.1)源语言用户查询通过机器翻译工具译为目标语言,采用向量空间检索模型检索目标语言文本文档集得到初检前列目标语言文档。
机器翻译工具可以是:微软必应机器翻译接口Microsoft Translator API,或者,谷歌机器翻译接口,等等。
(1.2)通过对初检前列目标语言文档进行相关性判断构建初检相关反馈文档集。
(1.3)预处理初检相关反馈文档集,构建目标语言文本文档索引库和特征词库。
初检相关反馈文档集预处理方法要根据不同语种采用相应的预处理方法,例如,如果目标语言是英语,则预处理方法是:去除英文停用词,采用Porter程序(详细见网址:http://tartarus.org/martin/PorterStemmer)提取得到英文特征词词干,计算英文特征词权值,如果目标语言是汉语,预处理方法是:去除中文停用词,对中文文档进行分词后提取中文特征词,计算中文特征词权值。
本发明给出初检相关反馈文档特征词权值计算公式,如式(1)所示的计算公式。
Figure BDA0001932164520000061
式(1)中,wij表示文档di中特征词tj的权值,tfj,i表示特征词tj在文档di中的词频,普遍将tfj,i进行标准化处理,所述标准化处理是指将所述的文档di中每个特征词tfj,i除以文档di的最大词频,idfj是逆文档频度(Inverse Document Frequency)。
步骤2:通过项集权值比较在初检相关反馈文档集挖掘含有原查询词项的频繁项集,运用项集关联度值以及项集的项目权值最大者或最大项目权值对项集进行剪枝,具体步骤如下:
(2.1)挖掘文本特征词1_频繁项集L1,具体步骤如下:
(2.1.1)从特征词库中提取文本特征词作为1_候选项集C1
(2.1.2)扫描目标语言文本文档索引库,统计文本文档总数n和统计项集权值w[C1];
(2.1.3)计算最小权值支持阈值MWS。所述MWS计算公式如式(2)所示。
MWS=n×ms (2)
式(2)中,所述ms为最小支持度阈值,n为目标语言文本文档索引库的文本文档总数。
(2.1.4)如果w[C1]≥MWS,则C1就是文本特征词1_频繁项集L1,添加到频繁项集集合FIS(Frequent ItemSet)。
(2.2)挖掘文本特征词2_频繁项集L2,具体步骤如下:
(2.2.1)采用Aproiri连接方法将文本特征词1_频繁项集L1自连接得到多个2_候选项集C2
所述Aproiri连接方法详见文献(Agrawal R,Imielinski T,Swami A.Miningassociation rules between sets of items in large database[C]//Proceedings ofthe 1993ACM SIGMOD International Conference on Management of Data,WashingtonD C,USA,1993:207-216.)
(2.2.2)剪枝不含原查询词项的2_候选项集C2
(2.2.3)对余下的2_候选项集C2,扫描目标语言文本文档索引库分别统计各余下的2_候选项集C2的项集权值w[C2];
(2.2.4)如果w[C2]≥MWS,则C2就是文本特征词2_频繁项集L2,添加到频繁项集集合FIS(Frequent ItemSet)。
(2.3)挖掘文本特征词k_频繁项集Lk,所述k≥2。具体步骤如下:
(2.3.1)采用Aproiri连接方法将文本特征词(k-1)_频繁项集Lk-1自连接得到多个k_候选项集Ck=(i1,i2,…,ik),所述k≥2;
(2.3.2)扫描目标语言文本文档索引库,分别统计各Ck的项集权值w[Ck]和各Ck中最大的项目权值wm,分别得到所述最大的项目权值wm对应的项目im,所述m∈(1,2,…,k);
(2.3.3)如果所述项目im对应的1_项集(im)是非频繁的,或者wm<MWS,则剪枝所述Ck
(2.3.4)对于余下的Ck,分别计算各Ck的项集关联度(ItemSet Relrvancy,IRe)IRe(Ck),如果w[Ck]≥MWS×k并且IRe(Ck)≥minIRe,那么,对应的Ck就是文本特征词k_频繁项集Lk,添加到频繁项集集合FIS,否则剪枝所述Ck
所述minIRe为最小项集关联度阈值。所述IRe(Ck)的计算公式如式(3)所示。
Figure BDA0001932164520000081
式(3)中,wmin[(iq)]和wmax[(ip)]的含义如下:
对于Ck=(i1,i2,…ik),k_候选项集Ck的各个项目i1,i2,…,ik分别单独作为1_项集时对应为(i1),(i2),…,(ik);wmin[(iq)]和wmax[(ip)]分别表示1_项集(i1),(i2),…,(ik)中最小的1_项集权值和最大的1_项集权值;q∈(1,2,…,k),p∈(1,2,…,k);
(2.3.5)如果文本特征词k_频繁项集Lk为空集,这时,则文本特征词频繁项集挖掘结束,转入如下步骤3,否则,k加1后转入步骤(2.3.1)继续顺序循环。
本发明所述的剪枝采用如下方法:
(1)对于k_候选项集Ck=(i1,i2,…,ik),如果所述Ck的项集权值w[Ck]<MWS×k,则所述是非频繁的,剪除所述Ck;如果所述Ck的项集关联度IRe(Ck)<minIRe,则所述Ck是无效项集,剪除所述Ck;综上所述,本发明只挖掘w[Ck]≥MWS×k并且IRe(Ck)≥minIRe的有效频繁项集,所述minIRe为最小项集关联度阈值。
(2)如果k_候选项集Ck=(i1,i2,…,ik)中最大的项目权值小于最小权值支持阈值MWS,那么Ck是非频繁的,则剪除所述Ck
(3)假设k_候选项集Ck=(i1,i2,…,ik)中最大项目权值对应的项目单独作为1_项集为(im),如果所述1_项集(im)是非频繁的,则剪除所述Ck
(4)当挖掘到候选2_项集时,将不含原查询词项的候选2_项集删除,留下含有原查询词项的候选2_项集。
步骤3:采用卡方分析-置信度评价框架从频繁项集集合FIS中每一个文本特征词k_频繁项集Lk挖掘含有原查询词项的文本特征词加权关联规则模式,所述k≥2。具体方法如下:
从频繁项集集合FIS中取出任意一个文本特征词k_频繁项集Lk,按照下面步骤挖掘每个Lk的所有含有原查询词项的关联规则模式。
(3.1)构建Lk的所有真子集项集集合;
(3.2)从真子集项集集合中任意取出两个真子集项集qt和Et,且
Figure BDA0001932164520000091
qt∪Et=Lk
Figure BDA0001932164520000092
QTL为目标语言原查询词项集合,Et为不含原查询词项的特征词项集,计算项集(qt,Et)的卡方(Chi-Square,Chis)值,所述卡方Chis(qt,Et)计算公式如式(4)所示。
Figure BDA0001932164520000093
式(4)中,w[(qt)]为项集qt在目标语言文本文档索引库中项集权值,k1为项集qt的长度,w[(Et)]为项集Et在目标语言文本文档索引库中项集权值,k2为项集Et的长度,w[(qt,Et)]为项集(qt,Et)在目标语言文本文档索引库中的项集权值,kL为项集(qt,Et)的项目个数,n为目标语言文本文档索引库的文本文档总数。
(3.3)如果Chis(qt,Et)>0,则计算文本特征词加权关联规则置信度(WeightedConfidence,WConf)WConf(qt→Et)和WConf(Et→qt);
若WConf(qt→Et)≥最小置信度阈值mc,则关联规则qt→Et是强加权关联规则模式,添加到加权关联规则模式集合WAR;若WConf(Et→qt)≥mc,则Et→qt是强加权关联规则模式,添加到WAR;
所述WConf(qt→Et)和WConf(Et→qt)的计算公式如式(5)和(6)所示;
Figure BDA0001932164520000094
Figure BDA0001932164520000095
式(5)和(6)中,w[(qt)],k1,w[(Et)],k2,w[(qt,Et)],kL的定义同式(4);
(3.4)如果Lk的每个真子集项集当且仅当都被取出一次,那么本次Lk中的文本特征词加权关联规则模式挖掘结束,这时从繁项集集合FIS中重新取出另一个Lk,并转入步骤(3.1)进行另一个Lk的加权关联规则模式挖掘,否则,转入步骤(3.2)再顺序执行各个步骤;如果频繁项集集合FIS中的每个Lk都已经被取出挖掘加权关联规则模式,则结束整个加权关联规则模式挖掘,转入如下步骤4。
步骤4:从加权关联规则模式集合WAR中提取那些后件是原查询词项的关联规则Et→qt的前件项集Et以及前件是原查询词项的关联规则qt→Et的后件项集Et作为译后扩展词,计算扩展词权值。
从加权关联规则模式集合WAR中提取关联规则Et→qt的前件Et和关联规则qt→Et的后件Et作为跨语言查询译后扩展词,所述扩展词的权值we计算公式如式(7)所示。
we=0.5×max(WConf())+0.3×max(Chis())+0.2×max(IRe()) (7)
式(7)中,max(WConf())、max(Chis())和max(IRe())分别表示加权关联规则置信度、卡方值和关联度的最大值,即当扩展词重复出现在多个加权关联规则模式时,取上述3个度量值的最大值。
步骤5:步骤4所述译后扩展词与译后原查询词组合为新译后查询再次检索目标语言文档,完成跨语言译后混合扩展。
实验设计与结果:
为了说明本发明方法的有效性,我们进行了基于本发明方法和对比方法的印尼-英跨语言信息检索实验,比较本发明方法和对比方法的跨语言检索性能。
实验语料:
以信息检索领域中国际上普遍使用的跨语言标准数据集NTCIR-5CLIR语料(见网址:http://research.nii.ac.jp/ntcir/permission/ntcir-5/perm-en-CLIR.html)作为本发明实验语料,即选择NTCIR-5CLIR语料中的英文文档集Mainichi Daily News 2000、2001年和Korea Times 2001年的新闻文本,共有26224篇英文文档作为本发明实验数据,具体是Mainichi Daily News 2000的新闻文本6608篇(简称m0),Mainichi Daily News 2001的5547篇(简称m1)和Korea Times 2001年的14069篇(简称k1)。
NTCIR-5CLIR语料有文档测试集、50个查询主题集及其对应的结果集,其中,每个查询主题类型有Title、Desc、Narr和Conc等4种类型,结果集有2种评价标准,即高度相关,相关的Rigid标准和高度相关、相关和部分相关的Relax标准。本发明实验用的查询主题类型选择Title和Desc类型,Title查询属于短查询,以名词和名词性短语简要描述查询主题,Desc查询属于长查询,以句子形式简要描述查询主题。
本发明实验结果的评价指标是P@10和平均查准率均值MAP(Mean AveragePrecision)。
将P@15和平均R-查准率作为本发明方法实验结果的评价指标。所述P@15是指对于测试查询返回的前15个结果的准确率,所述平均R-查准率是指对所有查询所对应的R-查准率的算术平均值,所述R-查准率是指当R个文档被检索后所计算的查准率。
对比方法:
(1)对比方法1:基于加权关联模式挖掘的印尼-英跨语言查询译后扩展方法。所述对比方法2是基于文献(黄名选.基于加权关联模式挖掘的越-英跨语言查询扩展[J].情报学报,2017,36(3):307-318.)的跨语言查询扩展方法实现印尼-英跨语言查询译后扩展的检索结果。实验参数是:最小置信度阈值mc为0.01,最小兴趣度阈值mi为0.0001,最小置信度阈值ms为0.007,0.008,0.009,0.01,0.011。
(2)对比方法2:基于伪相关反馈的印尼-英跨语言查询译后扩展方法,所述对比方法2是基于文献(吴丹,何大庆,王惠临.基于伪相关反馈的跨语言查询扩展[J].情报学报,2010,29(2):232-239.)的跨语言查询扩展方法实现印尼-英跨语言查询译后扩展的检索结果。实验方法:提取印尼-英跨语言初检前列英文文档20篇构建初检相关文档集,提取特征词项并计算其权值,按权值降序排列将前列20个特征词项作为英文扩展词实现越-英跨语言查询译后扩展。
实验方法和结果如下:
运行本发明方法和对比方法的源程序,将50个印尼语查询主题的Title和Desc查询通过机器翻译系统翻译为英文,并检索英文文档,以实现印尼-英跨语言信息检索。实验时,对跨语言初检前列50篇英文文档进行用户相关反馈后得到初检用户相关反馈文档(为了简便,本实验中,将初检前列50篇文档中含有已知结果集中的相关文档视为初检相关文档),实现本发明挖掘方法后得到关联规则模式,从关联规则中提取后件是原查询词项的关联规则前件项集以及前件是原查询词项的关联规则后件项集作为译后扩展词,实现跨语言译后混合扩展。通过实验,我们得到本发明方法和对比方法的印尼-英跨语言检索结果P@15和平均R-查准率分别如表1至表2所示,实验挖掘到3_项集,其中,本发明方法的实验参数是:最小置信度阈值mc分别为0.5,0.6,0.7,0.8,0.9,最小支持度阈值ms=0.5,最小项集关联度阈值minIRe=0.4。
表1本发明方法与对比方法的检索性能比较(Title查询主题)
Figure BDA0001932164520000121
表2本发明方法与对比方法的检索性能比较(Desc查询主题)
Figure BDA0001932164520000122
表1和表2表明,本发明方法的跨语言检索结果P@15和平均R-查准率值都比对比方法的高,效果显著。实验结果表明,本发明方法是有效的,能提高跨语言信息检索性能,具有很高的应用价值和广阔的推广前景。

Claims (2)

1.基于特征词加权关联模式挖掘的跨语言译后混合扩展方法,其特征在于,包括下列步骤:
步骤1:源语言用户查询通过机器翻译工具译为目标语言,采用向量空间检索模型检索目标语言文本文档集得到初检前列目标语言文档,通过对初检前列目标语言文档进行相关性判断构建初检相关反馈文档集,预处理初检相关反馈文档集,构建目标语言文本文档索引库和特征词库;
步骤2:通过项集权值比较在初检相关反馈文档集挖掘含有原查询词项的频繁项集,运用项集关联度值以及项集的项目权值最大者或者最大项目权值对项集进行剪枝,具体步骤如下:
(2.1)挖掘文本特征词1_频繁项集L1,具体步骤如下:
(2.1.1)从特征词库中提取文本特征词作为1_候选项集C1
(2.1.2)扫描目标语言文本文档索引库,统计文本文档总数n和统计C1的项集权值w[C1];
(2.1.3)计算最小权值支持阈值MWS;所述MWS计算公式如式(2)所示;
MWS=n×ms (2)
式(2)中,所述ms为最小支持度阈值,n为目标语言文本文档索引库的文本文档总数;
(2.1.4)如果w[C1]≥MWS,则C1就是文本特征词1_频繁项集L1,添加到频繁项集集合FIS;
(2.2)挖掘文本特征词2_频繁项集L2,具体步骤如下:
(2.2.1)采用Aproiri连接方法将文本特征词1_频繁项集L1自连接得到多个2_候选项集C2
(2.2.2)剪枝不含原查询词项的2_候选项集C2
(2.2.3)对余下的2_候选项集C2,扫描目标语言文本文档索引库分别统计各余下的2_候选项集C2的项集权值w[C2];
(2.2.4)如果w[C2]≥MWS,则C2就是文本特征词2_频繁项集L2,添加到频繁项集集合FIS;
(2.3)挖掘文本特征词k_频繁项集Lk,所述k≥2;具体步骤如下:
(2.3.1)采用Aproiri连接方法将文本特征词(k-1)_频繁项集Lk-1自连接得到多个k_候选项集Ck=(i1,i2,…,ik),所述k≥2;所述i1,i2,…,ik为候选项集Ck的各个项目,ik表示候选项集Ck中第k个项目;
(2.3.2)扫描目标语言文本文档索引库,分别统计各Ck的项集权值w[Ck]和各Ck中最大的项目权值wm,分别得到各Ck中最大的项目权值wm对应的项目im,所述m∈(1,2,…,k);
(2.3.3)如果所述项目im对应的1_项集(im)是非频繁的,或者wm<MWS,则剪枝所述Ck
(2.3.4)对于余下的Ck,分别计算Ck的项集关联度IRe(Ck),如果w[Ck]≥MWS×k并且IRe(Ck)≥minIRe,那么,该Ck就是文本特征词k_频繁项集Lk,添加到频繁项集集合FIS;所述minIRe为最小项集关联度阈值;所述IRe(Ck)的计算公式如式(3)所示;
Figure FDA0003008222250000021
式(3)中,wmin[(iq)]和wmax[(ip)]的含义如下:对于Ck=(i1,i2,…ik),k_候选项集Ck的各个项目i1,i2,…,ik分别单独作为1_项集时对应为(i1),(i2),…,(ik);wmin[(iq)]和wmax[(ip)]分别表示1_项集(i1),(i2),…,(ik)中最小的1_项集权值和最大的1_项集权值;所述q∈(1,2,…,k),p∈(1,2,…,k);
(2.3.5)如果文本特征词k_频繁项集Lk为空集,则文本特征词频繁项集挖掘结束,转入如下步骤3,否则,k加1后转入步骤(2.3.1)继续顺序循环;
步骤3:采用卡方分析-置信度评价框架从频繁项集集合FIS中每一个文本特征词k_频繁项集Lk挖掘含有原查询词项的文本特征词加权关联规则模式,所述k≥2;具体方法如下:
从频繁项集集合FIS中取出任意一个文本特征词k_频繁项集Lk,按照下面步骤挖掘每个Lk的所有含有原查询词项的关联规则模式;
(3.1)构建Lk的所有真子集项集集合;
(3.2)从真子集项集集合中任意取出两个真子集项集qt和Et,且
Figure FDA0003008222250000022
qt∪Et=Lk
Figure FDA0003008222250000023
QTL为目标语言原查询词项集合,Et为不含原查询词项的特征词项集合,计算项集(qt,Et)的卡方值Chis(qt,Et),计算公式如式(4)所示;
Figure FDA0003008222250000024
式(4)中,w[(qt)]为项集qt在目标语言文本文档索引库中项集权值,k1为项集qt的长度,w[(Et)]为项集Et在目标语言文本文档索引库中项集权值,k2为项集Et的长度,w[(qt,Et)]为项集(qt,Et)在目标语言文本文档索引库中的项集权值,kL为项集(qt,Et)的项目个数,n为目标语言文本文档索引库的文本文档总数;
(3.3)如果Chis(qt,Et)>0,则计算文本特征词加权关联规则置信度WConf(qt→Et)和WConf(Et→qt);
若WConf(qt→Et)≥最小置信度阈值mc,则关联规则qt→Et是强加权关联规则模式,添加到加权关联规则模式集合WAR;若WConf(Et→qt)≥mc,则Et→qt是强加权关联规则模式,添加到WAR;
所述WConf(qt→Et)和WConf(Et→qt)的计算公式如式(5)和(6)所示;
Figure FDA0003008222250000031
Figure FDA0003008222250000032
式(5)和(6)中,w[(qt)],k1,w[(Et)],k2,w[(qt,Et)],kL的定义同式(4);
(3.4)如果Lk的每个真子集项集当且仅当都被取出一次,那么本次Lk中的文本特征词加权关联规则模式挖掘结束,这时从频繁项集集合FIS中重新取出另一个Lk,并转入步骤(3.1)顺序执行进行另一个Lk的加权关联规则模式挖掘,否则,转入步骤(3.2)再顺序执行各个步骤;如果频繁项集集合FIS中的每个Lk都已经被取出挖掘加权关联规则模式,则结束整个加权关联规则模式挖掘,转入如下步骤4;
步骤4:从加权关联规则模式集合WAR中提取那些后件是原查询词项的关联规则Et→qt的前件项集Et以及前件是原查询词项的关联规则qt→Et的后件项集Et作为译后扩展词,计算扩展词权值:
从加权关联规则模式集合WAR中提取关联规则Et→qt的前件Et和关联规则qt→Et的后件Et作为跨语言查询译后扩展词,所述扩展词的权值we计算公式如式(7)所示;
we=0.5×max(WConf())+0.3×max(Chis())+0.2×max(IRe()) (7)
式(7)中,max(WConf())、max(Chis())和max(IRe())分别表示加权关联规则置信度、卡方值的最大值和关联度的最大值;
步骤5:步骤4所述译后扩展词与译后原查询词组合为新译后查询再次检索目标语言文档,完成跨语言译后混合扩展。
2.如权利要求1所述的基于特征词加权关联模式挖掘的跨语言译后混合扩展方法,其特征在于,所述步骤1中预处理初检相关反馈文档集,方法如下:去除停用词,提取特征词并按下式(1)计算特征值权值:
Figure FDA0003008222250000041
式(1)中,wij表示文档di中特征词tj的权值,tfj,i表示特征词tj在文档di中的词频,普遍将tfj,i进行标准化处理,所述标准化处理是指将文档di中每个特征词所述的tfj,i除以文档di的最大词频,idfj是逆文档频度。
CN201811646513.4A 2018-12-30 2018-12-30 基于特征词加权关联模式挖掘的跨语言译后混合扩展方法 Expired - Fee Related CN109726263B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811646513.4A CN109726263B (zh) 2018-12-30 2018-12-30 基于特征词加权关联模式挖掘的跨语言译后混合扩展方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811646513.4A CN109726263B (zh) 2018-12-30 2018-12-30 基于特征词加权关联模式挖掘的跨语言译后混合扩展方法

Publications (2)

Publication Number Publication Date
CN109726263A CN109726263A (zh) 2019-05-07
CN109726263B true CN109726263B (zh) 2021-07-02

Family

ID=66298574

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811646513.4A Expired - Fee Related CN109726263B (zh) 2018-12-30 2018-12-30 基于特征词加权关联模式挖掘的跨语言译后混合扩展方法

Country Status (1)

Country Link
CN (1) CN109726263B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111897921A (zh) * 2020-08-04 2020-11-06 广西财经学院 基于词向量学习和模式挖掘融合扩展的文本检索方法
CN111897928A (zh) * 2020-08-04 2020-11-06 广西财经学院 查询词嵌入扩展词和统计扩展词并集的中文查询扩展方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015029241A1 (en) * 2013-08-27 2015-03-05 Nec Corporation Word translation acquisition method
CN105787001A (zh) * 2007-05-16 2016-07-20 谷歌公司 跨语言信息检索
CN106294639A (zh) * 2016-08-01 2017-01-04 金陵科技学院 基于语义的跨语言专利新创性预判分析方法
CN106372241A (zh) * 2016-09-18 2017-02-01 广西财经学院 基于词间加权关联模式的越英跨语言文本检索方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105787001A (zh) * 2007-05-16 2016-07-20 谷歌公司 跨语言信息检索
WO2015029241A1 (en) * 2013-08-27 2015-03-05 Nec Corporation Word translation acquisition method
CN106294639A (zh) * 2016-08-01 2017-01-04 金陵科技学院 基于语义的跨语言专利新创性预判分析方法
CN106372241A (zh) * 2016-09-18 2017-02-01 广西财经学院 基于词间加权关联模式的越英跨语言文本检索方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于矩阵加权关联规则的跨语言查询译后扩展;黄名选等;《模式识别与人工智能》;20181031;第31卷(第10期);887-898 *

Also Published As

Publication number Publication date
CN109726263A (zh) 2019-05-07

Similar Documents

Publication Publication Date Title
CN108763196A (zh) 一种基于pmi的关键字提取方法
CN103064969A (zh) 自动建立关键词索引表的方法
CN109299278B (zh) 基于置信度-相关系数框架挖掘规则前件的文本检索方法
CN107092675B (zh) 一种基于统计和浅层语言分析的维吾尔文语义串抽取方法
CN109726263B (zh) 基于特征词加权关联模式挖掘的跨语言译后混合扩展方法
CN109684463B (zh) 基于权值比较与挖掘的跨语言译后前件扩展方法
CN109582769A (zh) 基于权值排序的关联模式挖掘和后件扩展的文本检索方法
CN109739953B (zh) 基于卡方分析-置信度框架和后件扩展的文本检索方法
CN107609095B (zh) 基于加权正负规则前件与相关反馈的跨语言查询扩展方法
CN109299292B (zh) 基于矩阵加权关联规则前后件混合扩展的文本检索方法
CN109684464B (zh) 通过权值比较实现规则后件挖掘的跨语言查询扩展方法
CN111897922A (zh) 基于模式挖掘与词向量相似度计算的中文查询扩展方法
CN109684465B (zh) 基于项集权值比较的模式挖掘和混合扩展的文本检索方法
CN107526839A (zh) 基于完全加权正负模式的跨语言查询译后后件扩展方法
CN109739952A (zh) 融合关联度和卡方值的模式挖掘与扩展的跨语言检索方法
CN108170778B (zh) 基于完全加权规则后件的中英跨语言查询译后扩展方法
CN111209737B (zh) 噪声文档的筛除方法及计算机可读存储介质
CN111897924A (zh) 基于关联规则与词向量融合扩展的文本检索方法
CN111897919A (zh) 基于Copulas函数和伪相关反馈规则扩展的文本检索方法
CN108416442B (zh) 基于项频度和权值的中文词间矩阵加权关联规则挖掘方法
CN109684462B (zh) 基于权值比较和卡方分析的文本词间关联规则挖掘方法
CN111897927A (zh) 融合Copulas理论和关联规则挖掘的中文查询扩展方法
CN108133022B (zh) 基于矩阵加权关联规则的中英跨语言查询前件扩展方法
CN111897926A (zh) 深度学习与扩展词挖掘交集融合的中文查询扩展方法
Shahabi et al. A Method for Multi-text Summarization Based on Multi-Objective Optimization use Imperialist Competitive Algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210702

Termination date: 20211230