CN107526839A - 基于完全加权正负模式的跨语言查询译后后件扩展方法 - Google Patents
基于完全加权正负模式的跨语言查询译后后件扩展方法 Download PDFInfo
- Publication number
- CN107526839A CN107526839A CN201710807543.8A CN201710807543A CN107526839A CN 107526839 A CN107526839 A CN 107526839A CN 201710807543 A CN201710807543 A CN 201710807543A CN 107526839 A CN107526839 A CN 107526839A
- Authority
- CN
- China
- Prior art keywords
- negative
- item
- query
- term
- weighted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3337—Translation of the query language, e.g. Chinese to English
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
一种基于完全加权正负模式的跨语言查询译后后件扩展方法,首先将源语言查询翻译为目标语言查询在目标语言文档进行检索,提取前列初检文档经用户相关判断后构建初检相关文档集;再采用面向跨语言查询扩展的基于支持度‑关联度‑提升度‑置信度评价框架的正负关联模式挖掘技术对初检相关文档集挖掘含有查询词项的特征词正负关联规则模式,构建特征词正负关联规则库;从库中提取其规则前件是查询词项的完全加权正负关联规则模式,将正关联规则后件特征词作候选扩展词,负关联规则后件作负扩展词,候选扩展词中去除负扩展词后得到最终后件扩展词实现跨语言查询译后后件扩展。本发明能提高和改善跨语言信息检索性能,有较好的应用价值和推广前景。
Description
技术领域
本发明属于互联网信息检索领域,具体是一种基于完全加权正负模式的跨语言查询译后后件扩展方法,适合于跨语言信息检索查询扩展等领域。
背景技术
跨语言信息检索(Cross-Language Information Retrieval,CLIR)于20世纪90年代末期开始得到重视和关注。如今我们正处于一个多语言网络时代,语言多样化的互联网资源已经成为大数据信息资源,急需性能良好的跨语言检索工具,因此,跨语言信息检索成为了信息检索领域迫切研究的技术。
跨语言信息检索指的是以一种语言的查询式检索其他语言信息资源的技术,其表达用户查询的语言称为源语言(Source Language),被检索的文档所用的语言称为目标语言(Target Language)。跨语言查询扩展技术是一种能改善和提高跨语言检索性能的核心技术之一,其旨在解决跨语言信息检索领域长期困扰的、严重的查询主题漂移和词不匹配等问题。跨语言查询扩展按照其扩展发生在检索过程的不同阶段,分为译前查询扩展、译后查询扩展和混合式查询扩展(即同时发生在译前与译后的查询扩展)三种。随着跨语言信息检索研究的兴起,跨语言查询扩展越来越受到国内外学者的关注和讨论,成为一个研究热点。
跨语言信息检索是信息检索与机器翻译结合的技术,比单语言检索更为复杂,面临的问题比单语言检索更为严重。这些问题一直是制约跨语言信息检索技术发展的瓶颈,也是当前国际上急需解决的跨语言信息检索中普遍存在的难题,主要表现为:查询主题严重漂移、词不匹配以及查询项翻译歧义和多义性,等等。跨语言查询扩展是解决上述问题的核心技术之一。近10年来,跨语言查询扩展模型与算法得到了广泛关注和深入研究,取得了丰富的理论成果,但还没有最终完全解决上述问题。鉴于此,本发明了一种基于完全加权正负模式的跨语言查询译后后件扩展方法。实验结果表明,本文算法适用于跨语言信息检索领域,能有效地减少跨语言信息检索中长期存在的查询主题漂移和词不匹配问题,提高和改善跨语言检索性能,具有重要的应用价值和广阔的推广前景。
发明内容
本发明将完全加权正负关联模式挖掘应用于跨语言查询译后扩展,提出了一种基于完全加权正负模式的跨语言查询译后后件扩展方法,应用于跨语言信息检索领域,能解决跨语言信息检索中长期存在的查询主题漂移和词不匹配问题,提高跨语言信息检索性能,也可以应用于跨语言搜索引擎,提高搜索引擎的查全率和查准率等检索性能。
本发明采取的技术方案是:
1.一种基于完全加权正负模式的跨语言查询译后后件扩展方法,其特征在于包括如下步骤:
1.1源语言用户查询通过机器翻译工具翻译为目标语言查询;
1.2目标语言查询在目标语言原始文档集中检索得到目标语言初检文档;
1.3提取前列n篇目标语言初检文档进行相关性判断得到目标语言初检相关文档集;
1.4对目标语言初检相关文档集挖掘含有原查询词项的完全加权频繁项集和负项集;
具体步骤:
1.4.1对目标语言初检相关文档集进行预处理,构建文档索引库和总特征词库;
1.4.2挖掘频繁1_项集L1:
即从总的特征词库得到特征词候选1_项集C1,计算1_项集C1的支持度awSup(C1),如果awSup(C1)≥支持度阈值ms,则候选1_项集C1为频繁1_项集L1,并将L1添加到完全加权频繁项集集合PIS;所述的awSup(C1)计算公式如式(1)所示。
其中,n和W为分别目标语言初检相关文档集中文档总篇数和所有特征词权值的总和,为C1在目标语言初检相关文档集中出现的频度,为C1在目标语言初检相关文档集中的项集权值,λ∈(0,1)为调节系数,其值不能取0或1;
1.4.3挖掘含有查询词项的频繁k_项集Lk和负k_项集Nk,所述的k≥2
具体步骤:
(1)挖掘候选k_项集Ck:通过频繁(k-1)_项集Lk-1进行Aproiri连接而得到;
(2)当k=2时,剪除不含查询词项的候选2_项集C2,保留含有查询词项的候选2_项集C2;
(3)计算候选k_项集Ck的支持度awSup(Ck):
如果awSup(Ck)≥支持度阈值ms,再计算Ck的完全加权频繁项集关联度awPIR(Ck),若awPIR(Ck)≥频繁项集关联度阈值minPR,则k_候选项集Ck为完全加权频繁k_项集Lk,添加到完全加权频繁项集集合PIS;
若awSup(Ck)<ms,则计算完全加权负项集关联度awNIR(Ck),如果awNIR(Ck)≥负项集关联度阈值minNR,那么,Ck为完全加权负k_项集Nk,并添加到完全加权负项集集合NIS。
所述的awSup(Ck)计算公式如式(2)所示。
其中,为Ck在目标语言初检相关文档集中出现的频度,为Ck在目标语言初检相关文档集中的项集权值,k为Ck的项目个数。
所述的awPIR(Ck)计算公式如式(3)和式(4)所示:
其中,候选加权正项集Ck=(t1,t2,…,tk),k≥2,tmax(1≤max≤m)是Ck的所有项目中其支持度最大的单项目,Iq为Ck的所有2_子项集至(m-1)_子项集中其支持度最大的子项集;
所述的awNIR(Ck)计算公式如式(5)和式(6)所示:
其中,候选加权负项集Ck=(t1,t2,…,tr),r≥2,tmax(1≤max≤r)是Ck的所有项目中其支持度最大的单项目,Ip为Ck的所有2_子项集至(r-1)_子项集中其支持度最大的子项集;
(4)若k_项集Lk为空集,则项集挖掘结束,转到步骤1.5,否则,转到步骤(1),继续挖掘;
1.5从完全加权频繁项集集合PIS中挖掘完全加权强正关联规则:对于特征词完全加权频繁项集集合PIS中每一个频繁k_项集Lk,所述的k≥2,挖掘Lk中前件是查询词项集qt而后件是扩展词项集I的关联规则qt→I,所述的qt和I的并集为Lk,qt和I的交集为空集,qt为查询词项集,I为扩展词项集,具体挖掘步骤如下:
(1)求出正项集Lk的所有真子集,得到Lk真子集项集集合;
(2)从Lk真子集集合中任意取出两个子项集qt和I,且qt∪I=Lk,其中;
(3)计算完全加权关联规则qt→I置信度awARConf(qt→I)及其提升度awARL(qt→I);若awARL(qt→I)>1,且awARConf(qt→I)>=mc,则得到完全加权强关联规则qt→I,并加入到完全加权强正关联规则集合PAR;所述的awARConf(qt→I)和awARL(qt→I)计算公式如式(7)和式(8)所示:
(4)返回步骤(2)再顺序进行,直到Lk真子集项集集合中每个真子集当且仅当被取出一次,然后从PIS集合中重新取出新的正项集Lk,转入步骤(1)进行新一轮加权关联规则挖掘,直到PIS中每一个正项集Lk都已经被取出为止,这时转入步骤1.6;
1.6从负项集集合NIS中挖掘完全加权强负关联规则:对于负项集集合NIS中每一个负项集Nk,k>=2,挖掘Nk中前件是查询词项集qt而后件是负扩展词项集I的完全加权负关联规则qt→﹁I和﹁qt→I,所述的qt和I的并集为Lk,qt和I的交集为空集,具体挖掘步骤如下:
(1)找出负项集Nk的所有真子集,得到Nk真子集集合;
(2)从Nk真子集集合中任意取出两个子项集qt和I,且qt∪I=Nk,其中qt为查询项集;(3)计算提升度awARL(qt→I),若awARL(qt→I)<1,计算负关联规则qt→﹁I置信度awARConf(qt→﹁I),若awARConf(qt→﹁I)>=mc,则得到完全加权强负关联规则qt→﹁I,并加入到完全加权强负关联规则集合NAR;计算负关联规则﹁qt→I置信度awARConf(﹁qt→I),若awARConf(﹁qt→I)>=mc,则得到完全加权强负关联规则﹁qt→I,并加入到NAR;
所述的awARConf(qt→﹁I)和awARConf(﹁qt→I)计算公式如式(9)和式(10)所示:
awARConf(qt→﹁I)=1-awARConf(qt→I) (9)
(4)返回步骤(2)再顺序执行,直到Nk真子集集合中每个真子集当且仅当被取出一次为止,这时转入步骤(5);
(5)从NIS集合中重新取出新的负项集Nk,转入步骤(1)进行新一轮完全加权负关联规则挖掘,如果NIS集合中每个负项集都当且仅当已经被取出一次,则完全加权强负关联规则挖掘结束,转入步骤1.7;
1.7从完全加权强正关联规则集合PAR中提取其规则前件是查询词项的完全加权正关联规则模式qt→I,将该正关联规则后件特征词作为候选扩展词,构建候选后件扩展词库;
1.8从完全加权强负关联规则集合NAR中提取其规则前件是查询词项的完全加权负关联规则模式qt→﹁I和﹁qt→I,将负关联规则后件I作为后件负扩展词,构建后件负扩展词库;
1.9将候选后件扩展词库中的候选后件扩展词和后件负扩展词库的负扩展词比较,在候选后件扩展词库中删除与负扩展词相同的候选扩展词,候选后件扩展词库中余下的候选后件扩展词即为最终后件扩展词;
2.0最终后件扩展词与目标语言原查询词组合为新查询再次检索,实现跨语言查询译后后件扩展。
以上所述,完全加权强负关联规则qt→﹁I和﹁qt→I符号“﹁”表示负相关符号,“﹁I”表示在目标语言初检相关文档集中不出现特征词项集I的情况,即属于负相关情况;
“qt→﹁I”表示查询词项项集qt和扩展词项集I呈现负相关关系,在目标语言初检相关文档集中查询词项项集qt的出现使得扩展词项集I不会出现;
“﹁qt→I”表示查询词项项集qt和扩展词项集I呈现负相关关系,在目标语言初检相关文档集中查询词项项集qt的不出现使得扩展词项集I会出现;
完全加权强正关联规则qt→I的含义是在目标语言初检相关文档集中查询词项项集qt的出现会促使扩展词项集I也会出现。
本发明与现有技术相比,具有以下有益效果:
(1)本发明提出一种基于完全加权正负模式的跨语言查询译后后件扩展方法。该方法采用基于完全加权支持度-关联度-提升度-置信度评价框架的正负模式挖掘技术对跨语言初检相关文档集挖掘完全加权正负关联规则模式,提取完全加权正负关联规则模式的后件作为原查询词项相关的扩展词实现跨语言查询译后件扩展,使得跨语言信息检索性能有了较好的提升。
(2)选择日本情报信息研究所主办的多国语言处理国际评测会议上的跨语言信息检索标准数据测试语料NTCIR-5CLIR的英文文本数据集作为本发明实验语料,以越南语和英语为语言对象,与没有实行查询扩展技术的越英跨语言检索(Vietnamese-EnglishCross-Language Retrieval,VECLR)基准方法和基于文献(吴丹,何大庆,王惠临.基于伪相关的跨语言查询扩展[J].情报学报,2010,29(2):232-239.)的伪相关反馈查询译后扩展(Query Post-Translation Expansion Based on Pseudo Relevance Feedback,QPTE_PRF)的越英跨语言检索算法比较,实验结果表明,与对比基准方法VECLR和QPTE_PRF比较,本发明方法的TITLE查询类型的越英跨语言检索结果的R-Prec和P@5值得到了较大的提高,比VECLR方法的提高幅度最大可以达到125.26%,比QPTE_PRF基准方法的提高幅度最高达到了371.54%;本发明方法的DESC查询类型的越英跨语言检索结果的R-Prec和P@5值比基准方法VECLR和QPTE_PRF的也有了较大的提高,最大的提高幅度分别为178.76%和347.59%。
(3)实验结果表明,本发明方法是有效的,确实能提高跨语言信息检索性能,主要原因分析如下:跨语言信息检索受词不匹配和查询翻译质量的双重影响,常常导致严重的初检查询主题漂移等问题,本发明将完全加权正负关联模式挖掘应用于越英跨语言查询扩展,提出一种基于完全加权正负模式的跨语言查询译后后件扩展方法,获得与原查询相关的后件扩展词实现越英跨语言查询译后后件扩展,提高了检索性能。
附图说明
图1为本发明所述的一种基于完全加权正负模式的跨语言查询译后后件扩展方法框图。
图2为本发明所述的一种基于完全加权正负模式的跨语言查询译后后件扩展方法总体流程示意图。
具体实施方式
为了更好地说明本发明的技术方案,下面将本发明涉及的相关概念介绍如下:
1.跨语言查询译后后件扩展
跨语言查询译后后件扩展是指:在跨语言查询扩展中,源语言查询翻译为目标语言查询后检索目标语言文档后,采用挖掘算法对目标语言初检文档挖掘得到的关联规则模式,提取关联规则模式后件作为后件扩展词,后件扩展词与目标语言原查询词项组合为新查询。
2.完全加权支持度
假设DS={d1,d2,…,dn}是跨语言初检相关文档集(Document Set,DS),其中,di(1≤i≤n)是文档集DS中的第i篇文档,di={t1,t2,…,tm,…,tp},tm(m=1,2,…,p)为文档特征词项目,简称特征项,一般是由字、词或词组构成,di中对应的特征项权值集合Wi={wi1,wi2,…,wim,…,wip},wim为第i篇文档di中第m个特征项tm对应的权值,TS={t1,t2,…,tk}表示DS中全体特征项集合,TS的各个子集均称为特征项项集,简称项集。
针对现有技术的缺陷,本发明充分考虑了特征词项目频度及其权值,提出一种新的完全加权支持度(All-weighted Support,awSup)awSup(I)计算方法。所述的awSup(I)计算公式如式(11)所示。
其中,wI为完全加权项集I在跨语言初检相关文档集DS中项集权值总和,nI为完全加权项集I在跨语言初检相关文档集DS中出现的项集频度,n是跨语言初检相关文档集DS中的总文档篇数;W为跨语言初检相关文档集DS中所有特征词权值总和;k为项集I的项目个数(即项集长度),λ∈(0,1)为调节系数,其值不能取0或1,主要作用是调节项目频度和项目权值综合对加权支持度的影响。
假设最小完全加权支持度阈值为ms,若awSup(I1∪I2)≥ms,则完全加权项集(I1∪I2)是正项集(即频繁项集),否则,(I1∪I2)为负项集。
本发明方法只关注如下三类完全加权负项集:(﹁I),(I1∪﹁I2)和(﹁I1∪I2),给出完全加权负项集支持度awSup(﹁I)、awSup(I1∪﹁I2)和awSup(﹁I1∪I2)的计算公式如式(12)-式(14)所示。
awSup(﹁I)=1-awSup(I) (12)
awSup(I1∪﹁I2)=awSup(I1)-awSup(I1∪I2) (13)
awSup(﹁I1∪I2)=awSup(I2)-awSup(I1∪I2) (14)
本发明方法只关注如下两类完全加权负关联规则:(I1→﹁I2)和(﹁I1→I2),给出完全加权正负关联规则置信度(All-weighted Association Rule Confidence,awARConf)awARConf(I1→I2)、awARConf(I1→﹁I2)和awARConf(﹁I1→I2)的计算公式如式(15)至式(17)所示。
3.完全加权正负项集关联度
完全加权项集关联度是指加权项集中任意两个单项目之间以及子项集之间关联强度的度量。项集关联度越高,表明该项集中的子项集之间关系越密切,越受到关注。本发明改进现有的关联度,给出了完全加权正负项集的关联度计算方法,既考虑项集中任意两个单项目的关联程度,同时也考虑了项集中两个子项集之间存在的关联性。
完全加权正项集关联度(All-weighted Positive Itemset Relevancy,awPIR):对于完全加权特征词正项集Ck=(t1,t2,…,tm),m为正项集Ck的长度,m≥2,设tmax(1≤max≤m)是Ck的所有项目中其支持度最大的单项目,Iq为Ck的所有2_子项集至(m-1)_子项集中其支持度最大的子项集,给出完全加权正项集关联度awPIR(Ck)的计算公式如式(18)和式(19)所示。
其中,候选完全加权正项集Ck=(t1,t2,…,tk),k≥2,tmax(1≤max≤m)是Ck的所有项目中其支持度最大的单项目,Iq为Ck的所有2_子项集至(m-1)_子项集中其支持度最大的子项集。
式(18)和式(19)表明,完全加权正项集Ck关联度等于支持度最大的单项目tmax和子项集Iq(即Iq为2_子项集至(m-1)_子项集之一)分别出现时该正项集出现的条件概率的总和。
完全加权负项集关联度(All-weighted Negative Itemset Relevancy,awNIR):对于完全加权特征词负项集Ck=(t1,t2,…,tr),r为负项集Ck的长度,r≥2,设tmax(1≤max≤r)是负项集Ck的所有项目中其支持度最大的单项目,Ip为负项集Ck的所有2_子项集至(r-1)_子项集中其支持度最大的子项集,给出完全加权负项集关联度awNIR(Ck)的计算公式如式(20)和式(21)所示。
其中,候选完全加权负项集Ck=(t1,t2,…,tr),r≥2,设tmax(1≤max≤r)是Ck的所有项目中其支持度最大的单项目,Ip为Ck的所有2_子项集至(r-1)_子项集中其支持度最大的子项集。
式(20)和式(21)表明,完全加权负项集Ck关联度等于支持度最大的单项目tmax和子项集Ip(即Ip为2_子项集至(r-1)_子项集之一)分别不出现时该负项集出现的条件概率的总和。
实例:假若Ck=(t1∪t2∪t3∪t4)(支持度为0.65),其单项目t1,t2,t3和t4的支持度分别为0.82,0.45,0.76和0.75,其2_子项集和3_子项集(t1∪t2),(t1∪t3),(t1∪t4),(t2∪t3),(t2∪t4),(t1∪t2∪t3),(t1∪t2∪t4),(t2∪t3∪t4)支持度分别为0.64,0.78,0.75,0.74,0.67,0.,66,0.56,0.43,则其支持度最大(值为0.82)的单项目是t1,其2_子项集和3_子项集中其支持度最大(值为0.78)的子项集为(t1∪t3),那么,使用式(14)计算正项集(t1∪t2∪t3∪t4)的关联度为0.81。其计算过程如下:
4.完全加权关联规则提升度
传统的关联规则评价框架(支持度-置信度)的局限性是忽略了规则后件中出现的项集支持度,使得高置信度的规则有时可能出现误导。提升度(Lift)是解决该问题的一个有效的相关性度量。关联规则X→Y提升度Lift(X→Y)指的是含有X的条件下同时含有Y的概率与Y总体发生的概率之比,即规则的置信度Confidence(X→Y)与后件Y的支持度sup(Y)之比。基于传统的提升度概念,给出完全加权关联规则I1→I2提升度(All-weighted AssociationRule Lift,awARL)awARL(I1→I2)的计算公式如式(22)所示。
根据相关性理论,提升度能够评估关联规则前件和后件的相关性,可以评估一方的出现提升(或降低)另一方出现的程度。即,当awARL(I1→I2)>1时,I1→I2是正关联规则,项集I1和I2中,一方的出现会提升另一方出现的可能性;当awARL(I1→I2)<1时,I1→I2则是负关联规则,一方的出现会降低另一方出现的可能性;当awARL(I1→I2)=1时,项集I1和I2是相互独立,不相关,此时关联规则I1→I2是虚假规则。很容易证明awARL(I1→I2)具有如下的性质1。
性质1②awARL(﹁I1→I2)<1;③awARL(﹁I1→﹁I2)>1.⑤awARL(﹁I1→I2)>1;⑥awARL(﹁I1→﹁I2)<1。
根据性质1,当awARL(I1→I2)>1时,可以挖掘出完全加权正关联规则I1→I2。当awARL(I1→I2)<1时,能挖掘出完全加权负关联规则I1→﹁I2和﹁I1→I2。
假设最小完全加权置信度阈值为mc,结合性质1,给出完全加权强正负关联规则定义如下:
对于完全加权正项集(I1∪I2),若awARL(I1→I2)>1,且awARConf(I1→I2)≥mc,则完全加权关联规则I1→I2是强关联规则。
对于负项集(I1∪I2),若awARL(I1→I2)<1,且awARConf(I1→﹁I2)≥mc,awARConf(﹁I1→I2)≥mc,则I1→﹁I2和﹁I1→I2是强负关联规则。
本发明一种基于完全加权正负模式的跨语言查询译后后件扩展方法,包括下列步骤:
1.1源语言用户查询通过机器翻译工具翻译为目标语言查询;
所述的机器翻译工具可以是:微软必应机器翻译接口Microsoft Translator API,谷歌机器翻译接口,等等。
1.2目标语言查询在目标语言原始文档集中检索得到目标语言初检文档,本发明方法具体使用的检索模型是经典的基于向量空间模型的检索模型。
1.3提取前列n篇目标语言初检文档进行相关性判断得到目标语言初检相关文档集;
1.4对目标语言初检相关文档集挖掘含有原查询词项的完全加权频繁项集和负项集;
具体步骤:
1.4.1对目标语言初检相关文档集进行预处理,构建文档索引库和总特征词库;
预处理步骤是:
(1)对于目标语言是汉语,则进行中文分词,去除停用词,提取中文特征词,中文分词程序采用中国科学院计算技术研究所研制编写的汉语词法分析系统ICTCLAS;对于目标语言是英语,则采用Porter程序(详细见网址:http://tartarus.org/~martin/PorterStemmer)进行词干提取,去除英文停用词;
(2)计算特征词权值,特征词权值表明该特征词对于其所在文档的重要程度,采用经典的和流行的tf-idf特征词权值wij计算方法。所述的wij计算公式如式(23)所示:
其中,wij表示文档di中特征词tj的权值,tfj,i表示特征词tj在文档di中的出现次数,dfj表示含有特征词tj的文档数量,N表示文档集合中总的文档数量。
(3)构建文档索引库和总特征词库。
1.4.2挖掘频繁1_项集L1:即从总的特征词库得到特征词候选1_项集C1,计算1_项集C1的支持度awSup(C1),如果awSup(C1)≥支持度阈值ms,则候选1_项集C1为频繁1_项集L1,将L1添加到完全加权频繁项集集合PIS;所述的awSup(C1)计算公式如式(24)所示:
其中,n和W为分别目标语言初检相关文档集中文档总篇数和所有特征词权值的总和,为完全加权项集C1在目标语言初检相关文档集中出现的项集频度,为完全加权项集C1在目标语言初检相关文档集中的项集权值总和,λ∈(0,1)为调节系数,其值不能取0或1。
1.4.3挖掘含有查询词项的完全加权频繁k_项集Lk和负k_项集Nk,所述的k≥2。
具体步骤:
(1)挖掘候选k_项集Ck:通过频繁(k-1)_项集Lk-1进行Aproiri连接而得到;
Aproiri连接详见文献:Agrawal R,Imielinski T,Swami A.Mining associationrules between sets of items in large database[C]//Proceedings of the 1993ACMSIGMOD International Conference on Management of Data,Washington D C,USA,1993:207-216.
(2)当k=2时,剪除不含查询词项的候选2_项集C2,保留含有查询词项的候选2_项集C2。
(3)计算候选k_项集Ck的支持度awSup(Ck):
如果awSup(Ck)≥支持度阈值ms,再计算Ck的完全加权频繁项集关联度awPIR(Ck),若awPIR(Ck)≥频繁项集关联度阈值minPR,则k_候选项集Ck为频繁k_项集Lk,添加到完全加权频繁项集集合PIS;
若awSup(Ck)<ms,则计算完全加权负项集关联度awNIR(Ck),如果awNIR(Ck)≥负项集关联度阈值minNR,那么,Ck为完全加权负k_项集Nk,添加到完全加权负项集集合NIS。所述的awSup(Ck)计算公式如式(25)所示:
其中,为Ck在目标语言初检相关文档集中出现的频度,为Ck在目标语言初检相关文档集中的项集权值,k为Ck的项目个数。
所述的awPIR(Ck)计算公式如式(26)和式(27)所示:
其中,候选加权正项集Ck=(t1,t2,…,tk),k≥2,tmax(1≤max≤m)是Ck的所有项目中其支持度最大的单项目,Iq为Ck的所有2_子项集至(m-1)_子项集中其支持度最大的子项集。
所述的awNIR(Ck)计算公式如式(28)和式(29)所示:
其中,候选加权负项集Ck=(t1,t2,…,tr),r≥2,tmax(1≤max≤r)是Ck的所有项目中其支持度最大的单项目,Ip为Ck的所有2_子项集至(r-1)_子项集中其支持度最大的子项集。
(4)若k_项集Lk为空集,则项集挖掘结束,转到步骤1.5,否则,转到步骤(1),继续挖掘。
1.5从完全加权频繁项集集合PIS中挖掘完全加权强正关联规则:对于特征词完全加权频繁项集集合PIS中每一个频繁k_项集Lk,所述的k≥2,挖掘Lk中前件是查询词项集qt而后件是扩展词项集I的关联规则qt→I,所述的qt和I的并集为Lk,qt和I的交集为空集,qt为查询词项集,I为扩展词项集,具体挖掘步骤如下:
(1)求出正项集Lk的所有真子集,得到Lk真子集项集集合;
(2)从Lk真子集集合中任意取出两个子项集qt和I,且qt∪I=Lk,
(3)计算完全加权关联规则qt→I置信度awARConf(qt→I)及其提升度awARL(qt→I)。若awARL(qt→I)>1,且awARConf(qt→I)>=mc,则得到完全加权强关联规则qt→I,并加入到完全加权强正关联规则集合PAR。
所述的awARConf(qt→I)和awARL(qt→I)计算公式如式(30)和式(31)所示:
(5)返回步骤(2)再顺序进行,直到Lk真子集项集集合中每个真子集当且仅当被取出一次,然后从PIS集合中重新取出新的正项集Lk,转入步骤(1)进行新一轮加权关联规则挖掘,直到PIS中每一个正项集Lk都已经被取出为止,这时转入步骤1.6。
1.6从负项集集合NIS中挖掘完全加权强负关联规则:对于负项集集合NIS中每一个负项集Nk,k>=2,挖掘Nk中前件是查询词项集qt而后件是负扩展词项集I的完全加权负关联规则qt→﹁I和﹁qt→I,所述的qt和I的并集为Lk,qt和I的交集为空集,具体挖掘步骤如下:
(1)找出负项集Nk的所有真子集,得到Nk真子集集合。
(2)从Nk真子集集合中任意取出两个子项集qt和I,且qt∪I=Nk,其中qt为查询项集。
(3)计算提升度awARL(qt→I),若awARL(qt→I)<1,计算负关联规则qt→﹁I置信度awARConf(qt→﹁I),若awARConf(qt→﹁I)>=mc,则得到完全加权强负关联规则qt→﹁I,并加入到完全加权强负关联规则集合NAR;计算负关联规则﹁qt→I置信度awARConf(﹁qt→I),若awARConf(﹁qt→I)>=mc,则得到完全加权强负关联规则﹁qt→I,并加入到NAR。
所述的awARConf(qt→﹁I)和awARConf(﹁qt→I)计算公式如式(32)和式(33)所示:
awARConf(qt→﹁I)=1-awARConf(qt→I) (32)
(4)返回步骤(2)再顺序执行,直到Nk真子集集合中每个真子集当且仅当被取出一次为止,这时转入步骤(5);
(5)从NIS集合中重新取出新的负项集Nk,转入步骤(1)进行新一轮完全加权负关联规则挖掘,如果NIS集合中每个负项集都当且仅当已经被取出一次,则完全加权强负关联规则挖掘结束,转入步骤1.7。
1.7从完全加权强正关联规则集合PAR中提取其规则前件是查询词项的完全加权正关联规则模式qt→I,将该正关联规则后件特征词作为候选扩展词,构建候选后件扩展词库。
1.8从完全加权强负关联规则集合NAR中提取其规则前件是查询词项的完全加权负关联规则模式qt→﹁I和﹁qt→I,将负关联规则后件I作为后件负扩展词,构建后件负扩展词库。
1.9将候选后件扩展词库中的候选后件扩展词和后件负扩展词库的负扩展词比较,在候选后件扩展词库中删除与负扩展词相同的候选扩展词,候选后件扩展词库中余下的候选后件扩展词即为最终后件扩展词。
2.0最终后件扩展词与目标语言原查询词组合为新查询再次检索,实现跨语言查询译后后件扩展。
实验设计与结果:
为了说明本发明方法的有效性,以越南语和英语为语言对象开展基于本发明方法和对比方法的越英跨语言信息检索实验。
实验数据集:
选择日本情报信息研究所主办的多国语言处理国际评测会议上的跨语言信息检索标准数据测试语料NTCIR-5 CLIR的英文文本数据集作为本文实验语料,该数据来源于Mainichi Daily News新闻媒体2000、2001年(简称mdn00、mdn01)和Korea Times2001年(简称ktn01)的新闻文本,共26224篇英文文本信息(即mdn00有6608篇,mdn01有5547篇,ktn01有14069篇)。该数据集有文档测试集、结果集和查询集,结果集有Rigid标准(即与查询高度相关,相关)和Relax标准(即与查询高度相关、相关和部分相关)等两种,查询集包括50个查询主题,分别有日文、韩文、中文和英文等四个版本以及TITLE、DESC、NARR和CONC等4种查询主题类型,TITLE查询类型以名词和名词性短语简要描述查询主题,属于短查询,而DESC查询类型以句子形式简要描述查询主题查询,属于长查询。本文采用TITLE和DESC查询类型进行检索实验。
本发明实验中,由于NTCIR-5 CLIR语料没有提供越南语查询版本,故我们特请翻译机构东盟语言专业翻译人员将NTCIR-5 CLIR中50个中文版查询主题语料人工翻译为越南语查询作为本文实验的源语言查询。
对比基准方法:
(1)越英跨语言检索(Vietnamese-English Cross-Language Retrieval,VECLR)基准方法:指越英跨语言首次检索的结果,即将源语言越南语查询经过机器翻译为英文后检索英文文档得到的检索结果,在检索过程中没有采用查询扩展技术。
(2)基于伪相关反馈查询译后扩展(Query Post-Translation Expansion Basedon Pseudo Relevance Feedback,QPTE_PRF)的越英跨语言检索算法:QPTE_PRF基准算法是基于文献(吴丹,何大庆,王惠临.基于伪相关的跨语言查询扩展[J].情报学报,2010,29(2):232-239.)的跨语言查询扩展方法实现越英跨语言查询译后扩展的检索结果。其实验方法及参数:源语言越南语查询机器翻译为英文查询检索英文文档,提取跨语言初检前列英文文档20篇构建初检英文相关文档集,提取英文特征词项并计算其权值,按权值降序排列将前列20个特征词项作为为英文扩展词实现越英跨语言查询译后扩展。
采用R-查准率(R-Prec)和P@5作为本发明的跨语言检索评价指标。R-查准率是指当R个文档被检索后所计算的查准率,其中R是指对应于某个查询在文档集合中相关文档数,不强调文档结果集中文档的排序情况。
实验结果如下:
编写了本发明方法和基准方法的源程序,通过实验分析和比较本发明方法和对比基准方法的越英跨语言信息检索性能,对50个越南语TITLE和DESC查询进行越英跨语言信息检索,对跨语言初检前列50篇英文文档进行用户相关性判断后得到初检用户相关反馈文档(为了简便,本文实验中,将初检前列50篇文档中含有已知结果集中的相关文档视为初检相关文档)进行实验,得到越英跨语言检索结果的R-Prec和P@5的平均值,分别如表1至表2所示,公共的实验参数设置如下:α=0.3,minPR=0.1,minNR=0.01,挖掘到3_项集。
表1本文发明方法与对比基准方法的检索性能比较(TITLE查询)
本表实验参数:mc=0.8,ms∈{0.2,0.25,0.3,0.35,0.4,0.45}(mdn00),ms∈{0.2,0.23,0.25,0.28,0.3}(mdn01和ktn01).
表1实验结果表明,与对比基准方法VECLR和QPTE_PRF基准方法比较,本发明方法的TITLE查询类型的越英跨语言检索结果的R-Prec和P@5值得到了较大的提高,比VECLR方法的提高幅度最大可以达到125.26%,比QPTE_PRF基准方法的提高幅度最高达到了371.54%。
表2本文发明方法与基准方法的检索性能比较(DESC查询)
本表实验参数:mc=0.8,ms∈{0.2,0.23,0.25,0.28,0.3}
从表2实验结果可知,本发明方法的DESC查询类型的越英跨语言检索结果的R-Prec和P@5值比基准方法VECLR和QPTE_PRF的也有了较大的提高,最大的提高幅度分别为178.76%和347.59%。
实验结果表明,本发明方法是有效的,确实能提高跨语言信息检索性能。
Claims (1)
1.一种基于完全加权正负模式的跨语言查询译后后件扩展方法,其特征在于包括如下步骤:
1.1源语言用户查询通过机器翻译工具翻译为目标语言查询;
1.2目标语言查询在目标语言原始文档集中检索得到目标语言初检文档;
1.3提取前列n篇目标语言初检文档进行相关性判断得到目标语言初检相关文档集;
1.4对目标语言初检相关文档集挖掘含有原查询词项的完全加权频繁项集和负项集;
具体步骤:
1.4.1对目标语言初检相关文档集进行预处理,构建文档索引库和总特征词库;
1.4.2挖掘频繁1_项集L1:
即从总的特征词库得到特征词候选1_项集C1,计算1_项集C1的支持度awSup(C1),如果awSup(C1)≥支持度阈值ms,则候选1_项集C1为频繁1_项集L1,并将L1添加到完全加权频繁项集集合PIS;所述的awSup(C1)计算公式如下:
<mrow>
<mi>a</mi>
<mi>w</mi>
<mi>S</mi>
<mi>u</mi>
<mi>p</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>C</mi>
<mn>1</mn>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>&lambda;</mi>
<mo>&times;</mo>
<mrow>
<mo>(</mo>
<mfrac>
<msub>
<mi>n</mi>
<msub>
<mi>c</mi>
<mn>1</mn>
</msub>
</msub>
<mi>n</mi>
</mfrac>
<mo>-</mo>
<mfrac>
<msub>
<mi>w</mi>
<msub>
<mi>c</mi>
<mn>1</mn>
</msub>
</msub>
<mi>W</mi>
</mfrac>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mfrac>
<msub>
<mi>w</mi>
<msub>
<mi>c</mi>
<mn>1</mn>
</msub>
</msub>
<mi>W</mi>
</mfrac>
</mrow>
其中,n和W为分别目标语言初检相关文档集中文档总篇数和所有特征词权值的总和,为C1在目标语言初检相关文档集中出现的频度,为C1在目标语言初检相关文档集中的项集权值,λ∈(0,1)为调节系数,其值不能取0或1;
1.4.3挖掘含有查询词项的频繁k_项集Lk和负k_项集Nk,所述的k≥2
具体步骤:
(1)挖掘候选k_项集Ck:通过频繁(k-1)_项集Lk-1进行Aproiri连接而得到;
(2)当k=2时,剪除不含查询词项的候选2_项集C2,保留含有查询词项的候选2_项集C2;
(3)计算候选k_项集Ck的支持度awSup(Ck):
如果awSup(Ck)≥支持度阈值ms,再计算Ck的完全加权频繁项集关联度awPIR(Ck),若awPIR(Ck)≥频繁项集关联度阈值minPR,则k_候选项集Ck为完全加权频繁k_项集Lk,添加到完全加权频繁项集集合PIS;
若awSup(Ck)<ms,则计算完全加权负项集关联度awNIR(Ck),如果awNIR(Ck)≥负项集关联度阈值minNR,那么,Ck为完全加权负k_项集Nk,并添加到完全加权负项集集合NIS;
所述的awSup(Ck)计算公式如下:
<mrow>
<mi>a</mi>
<mi>w</mi>
<mi>S</mi>
<mi>u</mi>
<mi>p</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>C</mi>
<mi>k</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>&lambda;</mi>
<mo>&times;</mo>
<mrow>
<mo>(</mo>
<mfrac>
<msub>
<mi>n</mi>
<msub>
<mi>c</mi>
<mi>k</mi>
</msub>
</msub>
<mi>n</mi>
</mfrac>
<mo>-</mo>
<mfrac>
<msub>
<mi>w</mi>
<msub>
<mi>c</mi>
<mi>k</mi>
</msub>
</msub>
<mi>W</mi>
</mfrac>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mfrac>
<msub>
<mi>w</mi>
<msub>
<mi>c</mi>
<mi>k</mi>
</msub>
</msub>
<mi>W</mi>
</mfrac>
</mrow>
其中,为Ck在目标语言初检相关文档集中出现的频度,为Ck在目标语言初检相关文档集中的项集权值,k为Ck的项目个数;
所述的awPIR(Ck)计算公式如下:
<mrow>
<mi>a</mi>
<mi>w</mi>
<mi>P</mi>
<mi>I</mi>
<mi>R</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>C</mi>
<mi>k</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<mi>N</mi>
<mi>a</mi>
<mi>w</mi>
<mi>I</mi>
<mi>S</mi>
<mi>u</mi>
<mi>p</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>C</mi>
<mi>k</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mi>N</mi>
<mi>a</mi>
<mi>w</mi>
<mi>I</mi>
<mi>S</mi>
<mi>u</mi>
<mi>p</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>t</mi>
<mi>max</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>,</mo>
<mi>m</mi>
<mo>=</mo>
<mn>2</mn>
</mrow>
<mrow>
<mi>a</mi>
<mi>w</mi>
<mi>P</mi>
<mi>I</mi>
<mi>R</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>C</mi>
<mi>k</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<mi>N</mi>
<mi>a</mi>
<mi>w</mi>
<mi>I</mi>
<mi>S</mi>
<mi>u</mi>
<mi>p</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>C</mi>
<mi>k</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mn>2</mn>
<mo>&times;</mo>
<mi>N</mi>
<mi>a</mi>
<mi>w</mi>
<mi>I</mi>
<mi>S</mi>
<mi>u</mi>
<mi>p</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>t</mi>
<mi>max</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>+</mo>
<mfrac>
<mrow>
<mi>N</mi>
<mi>a</mi>
<mi>w</mi>
<mi>I</mi>
<mi>S</mi>
<mi>u</mi>
<mi>p</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>C</mi>
<mi>k</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mn>2</mn>
<mo>&times;</mo>
<mi>N</mi>
<mi>a</mi>
<mi>w</mi>
<mi>I</mi>
<mi>S</mi>
<mi>u</mi>
<mi>p</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>I</mi>
<mi>q</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>,</mo>
<mi>m</mi>
<mo>></mo>
<mn>2</mn>
</mrow>
其中,候选加权正项集Ck=(t1,t2,…,tk),k≥2,tmax(1≤max≤m)是Ck的所有项目中其支持度最大的单项目,Iq为Ck的所有2_子项集至(m-1)_子项集中其支持度最大的子项集;
所述的awNIR(Ck)计算公式如下:
<mrow>
<mi>a</mi>
<mi>w</mi>
<mi>N</mi>
<mi>I</mi>
<mi>R</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>C</mi>
<mi>k</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<mi>N</mi>
<mi>a</mi>
<mi>w</mi>
<mi>I</mi>
<mi>S</mi>
<mi>u</mi>
<mi>p</mi>
<mrow>
<mo>(</mo>
<mi>N</mi>
<mi>I</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mn>1</mn>
<mo>-</mo>
<mi>N</mi>
<mi>a</mi>
<mi>w</mi>
<mi>I</mi>
<mi>S</mi>
<mi>u</mi>
<mi>p</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>t</mi>
<mrow>
<mi>m</mi>
<mi>a</mi>
<mi>x</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>,</mo>
<mi>r</mi>
<mo>=</mo>
<mn>2</mn>
</mrow>
<mrow>
<mi>a</mi>
<mi>w</mi>
<mi>N</mi>
<mi>I</mi>
<mi>R</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>C</mi>
<mi>k</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mn>1</mn>
<mn>2</mn>
</mfrac>
<mo>&times;</mo>
<mrow>
<mo>(</mo>
<mrow>
<mfrac>
<mrow>
<mi>N</mi>
<mi>a</mi>
<mi>w</mi>
<mi>I</mi>
<mi>S</mi>
<mi>u</mi>
<mi>p</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>C</mi>
<mi>k</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mn>1</mn>
<mo>-</mo>
<mi>N</mi>
<mi>a</mi>
<mi>w</mi>
<mi>I</mi>
<mi>S</mi>
<mi>u</mi>
<mi>p</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>t</mi>
<mi>max</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>-</mo>
<mfrac>
<mrow>
<mi>N</mi>
<mi>a</mi>
<mi>w</mi>
<mi>I</mi>
<mi>S</mi>
<mi>u</mi>
<mi>p</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>C</mi>
<mi>k</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mi>N</mi>
<mi>a</mi>
<mi>w</mi>
<mi>I</mi>
<mi>S</mi>
<mi>u</mi>
<mi>p</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>I</mi>
<mi>p</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mn>1</mn>
</mrow>
</mfrac>
</mrow>
<mo>)</mo>
</mrow>
<mo>,</mo>
<mi>r</mi>
<mo>></mo>
<mn>2</mn>
</mrow>
其中,候选加权负项集Ck=(t1,t2,…,tr),r≥2,tmax(1≤max≤r)是Ck的所有项目中其支持度最大的单项目,Ip为Ck的所有2_子项集至(r-1)_子项集中其支持度最大的子项集;
(4)若k_项集Lk为空集,则项集挖掘结束,转到步骤1.5,否则,转到步骤(1),继续挖掘;
1.5从完全加权频繁项集集合PIS中挖掘完全加权强正关联规则:对于特征词完全加权频繁项集集合PIS中每一个频繁k_项集Lk,所述的k≥2,挖掘Lk中前件是查询词项集qt而后件是扩展词项集I的关联规则qt→I,所述的qt和I的并集为Lk,qt和I的交集为空集,qt为查询词项集,I为扩展词项集,具体挖掘步骤如下:
(1)求出正项集Lk的所有真子集,得到Lk真子集项集集合;
(2)从Lk真子集集合中任意取出两个子项集qt和I,且qt∪I=Lk,
(3)计算完全加权关联规则qt→I置信度awARConf(qt→I)及其提升度awARL(qt→I);若awARL(qt→I)>1,且awARConf(qt→I)>=mc,则得到完全加权强关联规则qt→I,并加入到完全加权强正关联规则集合PAR;
所述的awARConf(qt→I)和awARL(qt→I)计算公式如下:
<mrow>
<mi>a</mi>
<mi>w</mi>
<mi>A</mi>
<mi>R</mi>
<mi>C</mi>
<mi>o</mi>
<mi>n</mi>
<mi>f</mi>
<mrow>
<mo>(</mo>
<mi>q</mi>
<mi>t</mi>
<mo>&RightArrow;</mo>
<mi>I</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<mi>a</mi>
<mi>w</mi>
<mi>I</mi>
<mi>S</mi>
<mi>u</mi>
<mi>p</mi>
<mrow>
<mo>(</mo>
<mi>q</mi>
<mi>t</mi>
<mo>&cup;</mo>
<mi>I</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mi>a</mi>
<mi>w</mi>
<mi>I</mi>
<mi>S</mi>
<mi>u</mi>
<mi>p</mi>
<mrow>
<mo>(</mo>
<mi>q</mi>
<mi>t</mi>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
</mrow>
<mrow>
<mi>a</mi>
<mi>w</mi>
<mi>A</mi>
<mi>R</mi>
<mi>L</mi>
<mrow>
<mo>(</mo>
<mi>q</mi>
<mi>t</mi>
<mo>&RightArrow;</mo>
<mi>I</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<mi>a</mi>
<mi>w</mi>
<mi>A</mi>
<mi>R</mi>
<mi>C</mi>
<mi>o</mi>
<mi>n</mi>
<mi>f</mi>
<mrow>
<mo>(</mo>
<mi>q</mi>
<mi>t</mi>
<mo>&RightArrow;</mo>
<mi>I</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mi>a</mi>
<mi>w</mi>
<mi>I</mi>
<mi>S</mi>
<mi>u</mi>
<mi>p</mi>
<mrow>
<mo>(</mo>
<mi>q</mi>
<mi>t</mi>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
</mrow>
(4)返回步骤(2)再顺序进行,直到Lk真子集项集集合中每个真子集当且仅当被取出一次,然后从PIS集合中重新取出新的正项集Lk,转入步骤(1)进行新一轮加权关联规则挖掘,直到PIS中每一个正项集Lk都已经被取出为止,这时转入步骤1.6;
1.6从负项集集合NIS中挖掘完全加权强负关联规则:对于负项集集合NIS中每一个负项集Nk,k>=2,挖掘Nk中前件是查询词项集qt而后件是负扩展词项集I的完全加权负关联规则qt→﹁I和﹁qt→I,所述的qt和I的并集为Lk,qt和I的交集为空集,具体挖掘步骤如下:
(1)找出负项集Nk的所有真子集,得到Nk真子集集合;
(2)从Nk真子集集合中任意取出两个子项集qt和I,且qt∪I=Nk,其中qt为查询项集;
(3)计算提升度awARL(qt→I),若awARL(qt→I)<1,计算负关联规则qt→﹁I置信度awARConf(qt→﹁I),若awARConf(qt→﹁I)>=mc,则得到完全加权强负关联规则qt→﹁I,并加入到完全加权强负关联规则集合NAR;计算负关联规则﹁qt→I置信度awARConf(﹁qt→I),若awARConf(﹁qt→I)>=mc,则得到完全加权强负关联规则﹁qt→I,并加入到NAR;所述的awARConf(qt→﹁I)和awARConf(﹁qt→I)计算公式如下:
(4)返回步骤(2)再顺序执行,直到Nk真子集集合中每个真子集当且仅当被取出一次为止,这时转入步骤(5);
(5)从NIS集合中重新取出新的负项集Nk,转入步骤(1)进行新一轮完全加权负关联规则挖掘,如果NIS集合中每个负项集都当且仅当已经被取出一次,则完全加权强负关联规则挖掘结束,转入步骤1.7;
1.7从完全加权强正关联规则集合PAR中提取其规则前件是查询词项的完全加权正关联规则模式qt→I,将该正关联规则后件特征词作为候选扩展词,构建候选后件扩展词库;
1.8从完全加权强负关联规则集合NAR中提取其规则前件是查询词项的完全加权负关联规则模式qt→﹁I和﹁qt→I,将负关联规则后件I作为后件负扩展词,构建后件负扩展词库;
1.9将候选后件扩展词库中的候选后件扩展词和后件负扩展词库的负扩展词比较,在候选后件扩展词库中删除与负扩展词相同的候选扩展词,候选后件扩展词库中余下的候选后件扩展词即为最终后件扩展词;
2.0最终后件扩展词与目标语言原查询词组合为新查询再次检索,实现跨语言查询译后后件扩展。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710807543.8A CN107526839B (zh) | 2017-09-08 | 2017-09-08 | 基于完全加权正负模式的跨语言查询译后后件扩展方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710807543.8A CN107526839B (zh) | 2017-09-08 | 2017-09-08 | 基于完全加权正负模式的跨语言查询译后后件扩展方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107526839A true CN107526839A (zh) | 2017-12-29 |
CN107526839B CN107526839B (zh) | 2019-09-10 |
Family
ID=60736500
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710807543.8A Expired - Fee Related CN107526839B (zh) | 2017-09-08 | 2017-09-08 | 基于完全加权正负模式的跨语言查询译后后件扩展方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107526839B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109684464A (zh) * | 2018-12-30 | 2019-04-26 | 广西财经学院 | 通过权值比较实现规则后件挖掘的跨语言查询扩展方法 |
CN109684465A (zh) * | 2018-12-30 | 2019-04-26 | 广西财经学院 | 基于项集权值比较的模式挖掘和混合扩展的文本检索方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101576888A (zh) * | 2008-05-07 | 2009-11-11 | 香港理工大学 | 中文信息检索中基于结构约束的索引词权重计算方法 |
US8543563B1 (en) * | 2012-05-24 | 2013-09-24 | Xerox Corporation | Domain adaptation for query translation |
CN104216874A (zh) * | 2014-09-22 | 2014-12-17 | 广西教育学院 | 基于相关系数的中文词间加权正负模式挖掘方法及系统 |
CN104317794A (zh) * | 2014-08-27 | 2015-01-28 | 广西教育学院 | 基于动态项权值的中文特征词关联模式挖掘方法及其系统 |
CN106372241A (zh) * | 2016-09-18 | 2017-02-01 | 广西财经学院 | 基于词间加权关联模式的越英跨语言文本检索方法及系统 |
CN106484781A (zh) * | 2016-09-18 | 2017-03-08 | 广西财经学院 | 融合关联模式和用户反馈的印尼汉跨语言检索方法及系统 |
-
2017
- 2017-09-08 CN CN201710807543.8A patent/CN107526839B/zh not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101576888A (zh) * | 2008-05-07 | 2009-11-11 | 香港理工大学 | 中文信息检索中基于结构约束的索引词权重计算方法 |
US8543563B1 (en) * | 2012-05-24 | 2013-09-24 | Xerox Corporation | Domain adaptation for query translation |
CN104317794A (zh) * | 2014-08-27 | 2015-01-28 | 广西教育学院 | 基于动态项权值的中文特征词关联模式挖掘方法及其系统 |
CN104216874A (zh) * | 2014-09-22 | 2014-12-17 | 广西教育学院 | 基于相关系数的中文词间加权正负模式挖掘方法及系统 |
CN106372241A (zh) * | 2016-09-18 | 2017-02-01 | 广西财经学院 | 基于词间加权关联模式的越英跨语言文本检索方法及系统 |
CN106484781A (zh) * | 2016-09-18 | 2017-03-08 | 广西财经学院 | 融合关联模式和用户反馈的印尼汉跨语言检索方法及系统 |
Non-Patent Citations (3)
Title |
---|
黄名选: "基于加权关联模式挖掘的越英跨语言查询扩展", 《情报学报》 * |
黄名选: "基于矩阵加权关联模式的印尼中跨语言信息检索模型", 《数据分析与知识发现》 * |
黄名选: "完全加权模式挖掘与相关反馈融合的印尼汉跨语言查询扩展", 《小型微型计算机系统》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109684464A (zh) * | 2018-12-30 | 2019-04-26 | 广西财经学院 | 通过权值比较实现规则后件挖掘的跨语言查询扩展方法 |
CN109684465A (zh) * | 2018-12-30 | 2019-04-26 | 广西财经学院 | 基于项集权值比较的模式挖掘和混合扩展的文本检索方法 |
CN109684464B (zh) * | 2018-12-30 | 2021-06-04 | 广西财经学院 | 通过权值比较实现规则后件挖掘的跨语言查询扩展方法 |
CN109684465B (zh) * | 2018-12-30 | 2022-12-06 | 广西财经学院 | 基于项集权值比较的模式挖掘和混合扩展的文本检索方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107526839B (zh) | 2019-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Han et al. | A generative entity-mention model for linking entities with knowledge base | |
WO2008098507A1 (fr) | Méthode de saisie permettant de combiner des mots de façon intelligente, système associé à la méthode de saisie et méthode de renouvellement | |
EP1877939A1 (en) | Suggesting and refining user input based on original user input | |
CN106372241B (zh) | 基于词间加权关联模式的越英跨语言文本检索方法及系统 | |
CN102662936A (zh) | 融合Web挖掘、多特征与有监督学习的汉英未登录词翻译方法 | |
CN109299278B (zh) | 基于置信度-相关系数框架挖掘规则前件的文本检索方法 | |
CN107609095A (zh) | 基于加权正负规则前件与相关反馈的跨语言查询扩展方法 | |
CN106484781B (zh) | 融合关联模式和用户反馈的印尼汉跨语言检索方法及系统 | |
CN109684463B (zh) | 基于权值比较与挖掘的跨语言译后前件扩展方法 | |
CN107526839A (zh) | 基于完全加权正负模式的跨语言查询译后后件扩展方法 | |
CN109726263B (zh) | 基于特征词加权关联模式挖掘的跨语言译后混合扩展方法 | |
CN109739953B (zh) | 基于卡方分析-置信度框架和后件扩展的文本检索方法 | |
KR101616031B1 (ko) | 위키피디아의 언어자원과 병렬 코퍼스를 이용한 교차언어 검색기의 질의어 번역 시스템 및 방법 | |
CN109299292B (zh) | 基于矩阵加权关联规则前后件混合扩展的文本检索方法 | |
CN108170778B (zh) | 基于完全加权规则后件的中英跨语言查询译后扩展方法 | |
CN109684465B (zh) | 基于项集权值比较的模式挖掘和混合扩展的文本检索方法 | |
CN109684464B (zh) | 通过权值比较实现规则后件挖掘的跨语言查询扩展方法 | |
CN109739952A (zh) | 融合关联度和卡方值的模式挖掘与扩展的跨语言检索方法 | |
Alper | Auto-generating Bilingual Dictionaries: Results of the TIAD-2017 Shared Task Baseline Algorithm. | |
CN108133022B (zh) | 基于矩阵加权关联规则的中英跨语言查询前件扩展方法 | |
Lu et al. | Translation disambiguation in web-based translation extraction for English-Chinese CLIR | |
CN108416442B (zh) | 基于项频度和权值的中文词间矩阵加权关联规则挖掘方法 | |
Bajpai et al. | Cross language information retrieval: In indian language perspective | |
Rahimi et al. | Creating a Wikipedia-based Persian-English word association dictionary | |
CN107562904A (zh) | 融合项权值与频度的英文词间加权正负关联模式挖掘方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20190910 Termination date: 20200908 |