CN108133022B - 基于矩阵加权关联规则的中英跨语言查询前件扩展方法 - Google Patents

基于矩阵加权关联规则的中英跨语言查询前件扩展方法 Download PDF

Info

Publication number
CN108133022B
CN108133022B CN201711435247.6A CN201711435247A CN108133022B CN 108133022 B CN108133022 B CN 108133022B CN 201711435247 A CN201711435247 A CN 201711435247A CN 108133022 B CN108133022 B CN 108133022B
Authority
CN
China
Prior art keywords
english
matrix
word
eqt
item set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711435247.6A
Other languages
English (en)
Other versions
CN108133022A (zh
Inventor
黄名选
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangxi University of Finance and Economics
Original Assignee
Guangxi University of Finance and Economics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi University of Finance and Economics filed Critical Guangxi University of Finance and Economics
Priority to CN201711435247.6A priority Critical patent/CN108133022B/zh
Publication of CN108133022A publication Critical patent/CN108133022A/zh
Application granted granted Critical
Publication of CN108133022B publication Critical patent/CN108133022B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于矩阵加权关联规则的中英跨语言查询前件扩展方法,首先借助机器翻译将中文查询式翻译为英文并检索英文文档,用户对初检前列英文文档进行相关性判断得到初检相关英文文档集,采用基于项频度和权值的矩阵加权关联模式支持度计算方法以及基于支持度‑置信度‑兴趣度的矩阵加权关联模式挖掘方法对初检相关英文文档集挖掘后件是译后原查询词项的矩阵加权关联规则,从这些关联规则中提取其前件作为跨语言译后扩展词实现中英跨语言查询译后前件扩展。实验结果表明,本发明能有效地减少跨语言信息检索中长期存在的查询主题严重漂移和词不匹配等问题,提高和改善跨语言信息检索性能,具有很好的应用价值和推广前景。

Description

基于矩阵加权关联规则的中英跨语言查询前件扩展方法
技术领域
本发明属于网络信息检索领域,具体是一种基于矩阵加权关联规则的中英跨语言查询前件扩展方法。
背景技术
随着互联网技术的普及,具有多语言性特点的网络信息资源迅猛增长,成为了隐含巨大的经济价值和研究价值的网络大数据。如何以用户熟悉的查询语言表达式在大数据资源中检索其他语言的信息资源,以满足更多的信息需求,促使跨语言信息检索技术成为当前网络用户急需的技术。跨语言信息检索过程比单语言检索复杂,遇到的问题更严重,主要表现为:受翻译质量的影响,查询主题严重漂移,词不匹配以及查询项翻译歧义和多义性尤为严重,等等。跨语言查询扩展是解决上述问题的关键技术之一。多年来,各国学者从不同角度和方向对跨语言查询扩展进行深入研究和讨论,取得了丰富的理论成果,但还没有最终完全解决跨语言信息检索中查全率和查准率问题。鉴于此,本发明提出了一种基于矩阵加权关联规则的中英跨语言查询前件扩展方法。
发明内容
本发明提出一种基于矩阵加权关联规则的中英跨语言查询前件扩展方法,适用于跨语言信息检索领域,能有效地减少跨语言信息检索中查询主题漂移和词不匹配等问题,提高和改善跨语言检索性能。
本发明采用如下技术方案解决上述技术问题:
基于矩阵加权关联规则的中英跨语言查询前件扩展方法,首先借助机器翻译将中文查询翻译为英文查询并检索英文文档,用户对初检前列英文文档进行相关性判断得到初检相关英文文档集,对初检相关英文文档集进行预处理,构建初检英文文档库和特征词库;采用基于项频度和权值的矩阵加权关联模式支持度计算方法以及基于支持度-置信度-兴趣度的矩阵加权关联模式挖掘方法对初检相关英文文档集挖掘后件是译后原查询词项的矩阵加权关联规则,从所述关联规则中提取其前件作为中英跨语言译后扩展词。
所述检索英文文档为采用向量空间模型进行检索得到英文文档集。
所述对初检相关英文文档集进行预处理的方法为:去除英文停用词,采用Porter程序进行英文特征词词干提取,计算英文特征词权值;然后构建初检英文文档库和特征词库;所述计算英文特征词权值按如下公式(1)进行计算:
Figure BDA0001525694640000021
式(1)中,N表示初检相关文档集中总的文档数量,wij表示初检相关英文文档di中特征词tj的权值,dfj表示含有英文特征词tj的英文文档数量,tfj,i表示英文特征词tj在文档di中的出现次数,即词频,max(tfi)表示初检相关英文文档di中最大的词频值,即文档di的所有英文特征词词频中的最大者,函数lg(N)代表N的对数,lg(dfj)代表dfj的对数。
所述采用基于项频度和权值的矩阵加权关联模式支持度计算方法以及基于支持度-置信度-兴趣度的矩阵加权关联模式挖掘方法对初检相关英文文档集挖掘后件是译后原查询词项的矩阵加权关联规则的具体步骤如下:
(1)挖掘英文特征词矩阵加权频繁1_项集L1
从特征词库中提取英文特征词作为英文特征词候选1_项集C1,计算C1的矩阵加权支持度mwSup(C1),如果mwSup(C1)≥支持度阈值ms,则C1为矩阵加权频繁1_项集L1,并将L1添加到矩阵加权频繁项集集合mwPIS;
mwSup(C1)计算公式如式(2)所示:
Figure BDA0001525694640000022
式(2)中,n为初检英文文档库中英文文档总篇数,W为初检英文文档库中所有英文特征词权值的累加总和值,
Figure BDA0001525694640000023
为英文特征词候选1_项集C1在初检英文文档库中的项集权值累加所得的总和值,
Figure BDA0001525694640000024
为英文特征词候选1_项集C1在初检英文文档库中出现的频度;
(2)挖掘英文特征词矩阵加权频繁k_项集Lk,所述的k≥2,具体步骤:
(2.1)英文特征词矩阵加权频繁(k-1)_项集Lk-1进行Apriori连接生成英文特征词矩阵加权候选k_项集Ck,所述的k≥2;
(2.2)当k=2时,删除不含译后原查询词项的英文特征词候选2_项集C2,保留含有译后原查询词项的候选2_项集C2
(2.3)累加英文特征词候选k_项集Ck在初检英文文档库中的项集权值
Figure BDA0001525694640000025
统计Ck在初检英文文档库中的项集频度
Figure BDA0001525694640000026
计算Ck的矩阵加权支持度mwSup(Ck);
Figure BDA0001525694640000027
式(3)中,n为初检英文文档库中英文文档总篇数,W为初检英文文档库中所有英文特征词权值的累加总和值,
Figure BDA0001525694640000031
为英文特征词矩阵加权候选k_项集Ck的项集长度;
(2.4)如果mwSup(Ck)≥ms,则Ck就是英文特征词矩阵加权频繁k_项集Lk,添加到矩阵加权频繁项集集合mwPIS;
(2.5)若英文特征词矩阵加权频繁k_项集Lk不为空集,则k加1后转入步骤(2.1)继续循环,否则,矩阵加权频繁项集挖掘结束,转入以下步骤(3);
(3)挖掘后件是译后原查询词项的英文特征词矩阵加权关联规则:
对于矩阵加权频繁项集集合mwPIS中每一个频繁k_项集Lk,所述的k≥2,采用置信度-兴趣度评价框架从频繁k_项集Lk中挖掘后件是译后原查询词项的英文特征词矩阵加权关联规则,步骤如下:
(3.1)取出频繁k_项集Lk的所有真子集项集,构建Lk真子集项集集合;
(3.2)取出Lk真子集项集集合中任意两个真子集项集Et和Eqt,且
Figure BDA0001525694640000035
Et∪Eqt=Lk
Figure BDA0001525694640000032
QEn为译后原查询词项集合;
(3.3)计算英文特征词矩阵加权兴趣度EMInt(Et,Eqt),如果EMInt(Et,Eqt)≥最小兴趣度阈值mi,则计算英文特征词矩阵加权置信度EMConf(Et→Eqt),若EMConf(Et→Eqt)≥最小置信度阈值mc,则关联规则Et→Eqt是强英文特征词矩阵加权关联规则,并加入到英文特征词矩阵加权关联规则集合EMAR;
EMInt(Et,Eqt)和EMConf(Et→Eqt)的计算公式分别如式(4)和式(5)所示:
Figure BDA0001525694640000033
Figure BDA0001525694640000034
式(4)和(5)中,k1、k2项k12分别为英文特征词矩阵加权项集Et、Eqt以及项集(Et,Eqt)的项集长度,n1、n2和n12分别为英文特征词矩阵加权项集Et、Eqt以及项集(Et,Eqt)在初检英文文档库中出现的频度,w1、w2和w12分别为英文特征词矩阵加权项集Et、Eqt以及项集(Et,Eqt)在初检英文文档库中的项集权值累加所得的总和值;
(3.4)返回步骤(3.2),直到Lk的真子集项集集合中每个真子集项集当且仅当被取出一次,然后从矩阵加权频繁项集集合mwPIS中重新取出新的频繁k_项集Lk,转入步骤(3.1)进行新一轮矩阵加权关联规则挖掘,直到mwPIS中每一个频繁k_项集Lk都已经被取出,则英文特征词间矩阵加权关联规则挖掘结束。
所述从所述关联规则中提取其前件作为中英跨语言译后扩展词的具体方法为:
从英文特征词矩阵加权关联规则集合中提取每个关联规则Et→Eqt的前件Et作为跨语言查询译后扩展词,计算所述扩展词的权值Wexp,将扩展词与译后原查询词组合为新查询再次检索,实现中英跨语言查询译后前件扩展;
权值Wexp计算公式如式(6)所示:
Figure BDA0001525694640000041
式(6)中,max(EMConf(Et→Eqt))和max(EMInt(Et,Eqt))表示:当扩展词重复出现在多个关联规则Et→Eqt时,就会存在多个置信度和兴趣度,这时取置信度的最大值max(EMConf(Et→Eqt))和兴趣度的最大值max(EMInt(Et,Eqt))参与扩展词权值计算。
本发明与现有技术相比,具有以下有益效果:
(1)本发明提出一种基于矩阵加权关联规则的中英跨语言查询前件扩展方法。该发明方法采用基于项频度和权值的矩阵加权关联模式支持度计算方法以及基于支持度-置信度-兴趣度的矩阵加权关联模式挖掘方法对初检相关英文文档集挖掘后件是译后原查询词项的矩阵加权关联规则,从这些关联规则中提取其前件作为跨语言译后扩展词实现中英跨语言查询译后前件扩展。实验结果表明,本发明能有效地减少跨语言信息检索中长期存在的查询主题严重漂移和词不匹配等问题,提高和改善跨语言信息检索性能,具有很好的应用价值和推广前景。
(2)选择国际上普遍使用的跨语言信息检索标准数据测试语料NTCIR-5CLIR的英文文本数据集作为本发明实验语料,与跨语言检索基准CECLB、现有跨语言查询扩展方法ClQE_MWAR进行实验比较,本发明方法的Title查询的跨语言检索结果的评价指标值都比对比方法的高,其中,比对比方法CECLB的提高幅度最大可达90.79%,而比对比方法ClQE_MWAR的可达82.94%,本发明方法的Desc查询的检索结果的评价指标值比对比方法CECLB的提高幅度最大可达159.86%,而比对比方法ClQE_MWAR的可达197.16%。实验结果表明,本发明方法的检索性能均比对比方法的好,确实能提高中英跨语言信息检索性能,主要原因分析如下:跨语言信息检索受词不匹配和查询翻译质量的双重影响,常常导致严重的初检查询主题漂移等问题,本发明提出一种基于矩阵加权关联规则的中英跨语言查询前件扩展方法,获得与译后原查询相关的扩展词实现中英跨语言查询译后前件扩展,提高了跨语言检索性能。
附图说明
图1为本发明基于矩阵加权关联规则的中英跨语言查询前件扩展方法的流程框图。
具体实施方式
为了更好地说明本发明的技术方案,以下结合附图详细说明本发明的具体实施方式,但不构成对本发明权利要求保护范围的限制。
本发明涉及的相关概念介绍如下:
1.中英跨语言查询译后前件扩展
从中英跨语言检索初检结果前列相关英文文档集中挖掘那些后件是译后原查询词项的关联规则,提取这些规则前件作为扩展词,扩展词与译后原查询词项组合为新查询,再次检索英文文档,以便提高检索性能,这个过程称为中英跨语言查询译后前件扩展。
2.关联规则的前件和后件:将形如x→y的蕴含式称为关联规则,其中,x称为规则前件,y称为规则后件。
3.基于项频度和权值的矩阵加权关联模式支持度
在关联模式挖掘研究中,其核心问题是关联模式的支持度计算问题。本发明提出基于项频度和权值的矩阵加权关联模式I的支持度(mwSup(I))计算公式,如式(7)所示。
Figure BDA0001525694640000051
式(7)中,n为事务数据库中总的事务数,W为事务数据库中所有项目权值的累加总和值,nI为项集I在事务数据库中出现的频度,wI为项集I在事务数据库中的项集权值的累加总和值,kI为项集I的项集长度,项集长度是指项集中的项目总个数,例如,项集(t1,t2,t3,t4)的项集长度是4。
式(7)的支持度计算公式同时考虑了项集权值wI和项集频度nI,克服了现有加权支持度计算的缺陷。
4.矩阵加权词间关联模式置信度和兴趣度
本发明给出基于项集权值和频度的矩阵加权特征词关联模式(T1→T2)置信度(EMConf(T1→T2))计算公式如式(8)所示。
Figure BDA0001525694640000052
式(8)中,n和W同式(7)的,k1和k12分别为项集T1和(T1,T2)的项集长度,n1和n12分别为项集T1和(T1,T2)在事务数据库中出现的频度,w1和w12分别为项集T1和(T1,T2)在事务数据库中项集权值的累加总和值。
评价矩阵加权词间关联模式有趣性和新颖性的典型度量是兴趣度。兴趣度反映两个子项集之间关系的密切程度及有趣性。本发明给出基于项集权值和频度的矩阵加权词间关联模式(T1,T2)兴趣度(EMInt(T1,T2))计算公式如式(9)所示。
Figure BDA0001525694640000061
式(9)中,n1和n12,w1和w12,k1和k12同式(8)的。
当EMInt(T1,T2)值越大,表明项集T1和T2的关系越密切,越有趣,值得用户更多的关注。当MInt(T1,T2)值为0,说明这两个项集虽然有所关联,但是实际上是无相关的、无趣的。
5.基于矩阵加权词间关联模式挖掘的跨语言查询译后前件扩展模型
本发明提出的基于矩阵加权词间关联模式挖掘的跨语言查询译后前件扩展模型指的是译后扩展词来自于后件是译后原查询词项的矩阵加权关联规则前件,其形式化为式(10)所示。
{Et1,Et2,...,Etm}→{Eqt1,Eqt2,...,Eqtn}(EMConf≥mc,EMInt≥mi) (10)
式(10)中,Eqt1,Eqt2,…,Eqtn为译后原查询词项集合,Et1,Et2,…,Etm为译后扩展词项集合。
本发明将关联规则的置信度和兴趣度作为译后扩展词权值Wexp的计算依据,给出译后扩展词权值Wexp的计算公式如式(11)所示。
Figure BDA0001525694640000062
式(11)表明,当扩展词重复出现在多个关联规则时,就会存在多个置信度和兴趣度的情况,故取置信度和兴趣度的最大值参与扩展词权值计算,所述的最大值用max(EMConf)和max(EMInt)表示。
如图1所示,基于矩阵加权关联规则的中英跨语言查询前件扩展方法,包括以下步骤:
1.用户中文查询机器翻译为英文查询。
当前可以使用的机器翻译系统有:微软必应机器翻译接口Microsoft TranslatorAPI,谷歌机器翻译接口,等等。
2.采用传统的向量空间模型检索英文文档集。
采用传统的向量空间检索模型将机器翻译所得的英文查询检索英文文档集得到初检前列英文文档。
3.用户对前列初检英文文档进行相关性判断得到初检相关文档集。
将初检前列n篇英文文档提交给用户进行相关性判断得到初检相关文档集。
4.对初检英文相关文档集进行预处理,构建初检英文文档库和特征词库。
初检相关英文文档集预处理的内容是:去除英文停用词,采用Porter程序(参考网址:http://tartarus.org/martin/PorterStemmer公开的Porter程序)进行英文特征词词干提取,本发明提出如下式(1)计算英文特征词权值,最后构建初检英文文档库和特征词库。
Figure BDA0001525694640000071
式(1)中,N表示初检相关文档集中总的文档数量,wij表示初检相关英文文档di中特征词tj的权值,dfj表示含有英文特征词tj的英文文档数量,tfj,i表示英文特征词tj在文档di中的出现次数,即词频,max(tfi)表示初检相关英文文档di中最大的词频值,即文档di的所有英文特征词词频中的最大者,函数lg(N)代表N的对数,lg(dfj)代表dfj的对数。
式(1)表明,在初检英文相关文档集中,特征词的dfj值越大,则该特征词与原查询越相关,越重要,具有较高的权值。
5.对初检相关英文文档集挖掘后件是译后原查询词项的英文特征词间矩阵加权关联规则。具体步骤:
(1)挖掘英文特征词矩阵加权频繁1_项集L1
从特征词库中提取英文特征词作为英文特征词候选1_项集C1,计算C1的矩阵加权支持度mwSup(C1),如果mwSup(C1)≥支持度阈值ms,则C1为矩阵加权频繁1_项集L1,并将L1添加到矩阵加权频繁项集集合mwPIS;
mwSup(C1)计算公式如下式(2):
Figure BDA0001525694640000072
式(2)中,n为初检英文文档库中英文文档总篇数,W为初检英文文档库中所有英文特征词权值的累加总和值,
Figure BDA0001525694640000073
为英文特征词候选1_项集C1在初检英文文档库中的项集权值累加所得的总和值,
Figure BDA0001525694640000074
为英文特征词候选1_项集C1在初检英文文档库中出现的频度。
(2)挖掘英文特征词矩阵加权频繁k_项集Lk,所述的k≥2,具体步骤:
(2.1)英文特征词矩阵加权频繁(k-1)_项集Lk-1进行Apriori连接生成英文特征词矩阵加权候选k_项集Ck,所述的k≥2;
Apriori连接采用文献(Agrawal R,Imielinski T,Swami A.Mining associationrules between sets of items in large database[C]//Proceedings of the 1993ACMSIGMOD International Conference on Management of Data,Washington D C,USA,1993:207-216.)公开的方法。
(2.2)当k=2时,删除不含译后原查询词项的英文特征词候选2_项集C2,保留含有译后原查询词项的候选2_项集C2
(2.3)累加英文特征词候选k_项集Ck在初检英文文档库中的项集权值
Figure BDA0001525694640000081
统计Ck在初检英文文档库中的项集频度
Figure BDA0001525694640000082
计算Ck的矩阵加权支持度mwSup(Ck)的公式如下式(3);
Figure BDA0001525694640000083
式(3)中,n为初检英文文档库中英文文档总篇数,W为初检英文文档库中所有英文特征词权值的累加总和值,
Figure BDA0001525694640000084
为英文特征词矩阵加权候选k_项集Ck的项集长度,项集长度是指项集中的项目总个数,例如,项集(t1,t2,t3)的项集长度是3。
(2.4)如果mwSup(Ck)≥ms,则Ck就是英文特征词矩阵加权频繁k_项集Lk,添加到矩阵加权频繁项集集合mwPIS。
(2.5)若英文特征词矩阵加权频繁k_项集Lk不为空集,则k加1后转入步骤(2.1)继续循环,否则,矩阵加权频繁项集挖掘结束,转入步骤(3)。
(3)挖掘后件是译后原查询词项的英文特征词间矩阵加权关联规则。
对于矩阵加权频繁项集集合mwPIS中每一个频繁k_项集Lk,所述的k≥2,采用置信度-兴趣度评价框架从频繁k_项集Lk中挖掘后件是译后原查询词项的英文特征词间矩阵加权关联规则,步骤如下:
(3.1)取出频繁k_项集Lk的所有真子集项集,构建Lk真子集项集集合;
(3.2)取出Lk真子集项集集合中任意两个真子集项集Et和Eqt,且
Figure BDA0001525694640000088
Et∪Eqt=Lk
Figure BDA0001525694640000085
QEn为译后原查询词项集合;
(3.3)计算英文特征词矩阵加权兴趣度EMInt(Et,Eqt),如果EMInt(Et,Eqt)≥最小兴趣度阈值mi,则计算英文特征词矩阵加权置信度EMConf(Et→Eqt),若EMConf(Et→Eqt)≥最小置信度阈值mc,则关联规则Et→Eqt是强英文特征词矩阵加权关联规则,并加入到英文特征词矩阵加权关联规则集合EMAR;EMInt(Et,Eqt)和EMConf(Et→Eqt)的计算公式分别如式(4)和式(5)所示:
Figure BDA0001525694640000086
Figure BDA0001525694640000087
式(4)和(5)中,k1、k2项k12分别为英文特征词矩阵加权项集Et、Eqt以及项集(Et,Eqt)的项集长度,n1、n2和n12分别为英文特征词矩阵加权项集Et、Eqt以及项集(Et,Eqt)在初检英文文档库中出现的频度,w1、w2和w12分别为英文特征词矩阵加权项集Et、Eqt以及项集(Et,Eqt)在初检英文文档库中的项集权值累加所得的总和值。
(3.4)返回步骤(3.2),直到Lk的真子集项集集合中每个真子集项集当且仅当被取出一次,然后从矩阵加权频繁项集集合mwPIS中重新取出新的频繁k_项集Lk,转入步骤(3.1)进行新一轮矩阵加权关联规则挖掘,直到mwPIS中每一个频繁k_项集Lk都已经被取出,则英文特征词间矩阵加权关联规则挖掘结束,转入步骤6。
6.提取矩阵加权关联规则前件作为跨语言查询译后扩展词实现中英跨语言查询译后前件扩展。
从英文特征词矩阵加权关联规则集合EMAR中提取每个关联规则Et→Eqt的前件Et作为跨语言查询译后扩展词,计算该扩展词的权值Wexp,将扩展词与译后原查询词组合为新查询再次检索,实现中英跨语言查询译后前件扩展。Wexp计算公式如式(6)所示。
Figure BDA0001525694640000091
式(6)表明,当扩展词重复出现在多个关联规则Et→Eqt时,就会存在多个置信度和兴趣度的情况,这时取置信度和兴趣度的最大值参与扩展词权值计算,所述的最大值用max(EMConf(Et→Eqt))和max(EMInt(Et,Eqt))表示。
实验设计与结果:
为了说明本发明方法的有效性,我们进行了基于本发明方法和对比方法的中英跨语言信息检索实验,比较本发明方法和对比方法的跨语言检索性能。
实验数据集:选择NTCIR-5CLIR(见网址:http://research.nii.ac.jp/ntcir/permission/ntcir-5/perm-en-CLIR.html)作为本发明实验语料,该语料有文档测试集、50个查询主题集及其对应的结果集,其中,每个查询主题类型有Title、Desc、Narr和Conc等4种类型,结果集有2种评价标准,即高度相关,相关的Rigid标准和高度相关、相关和部分相关的Relax标准。本发明选择NTCIR-5CLIR语料中的中文查询集和英文文档集MainichiDaily News 2000、2001年和Korea Times 2001年的新闻文本,共有26224篇英文文档,即Mainichi Daily News 2000的新闻文本6608篇(简称m00),Mainichi Daily News 2001的5547篇(简称m01)和Korea Times 2001年的14069篇(简称k01),实验时查询主题类型选择Title和Desc类型,Title查询属于短查询,以名词和名词性短语简要描述查询主题,Desc查询属于长查询,以句子形式简要描述查询主题。
实验的英文文档集进行英文词干提取(采用Porter程序,见网址:http://tartarus.org/martin/PorterStemmer.)、去除英文停用词和提取特征词项及其权值计算等处理。实验中用到的机器翻译工具是微软必应(Bing)翻译接口Microsoft TranslatorAPI。
采用P@10和平均查准率均值MAP(Mean Average Precision)作为本发明实验的跨语言检索评价指标。
对比基准方法:
(1)中英跨语言检索(Chinese-English Cross-Language Retrieval,CECLB):指中英跨语言检索首次结果,即中文查询经机器翻译为英文后检索英文文档得到的检索结果。
(2)基于矩阵关联规则的伪相关反馈跨语言查询扩展(Cross-Language QueryExpansion Based on Matrix-weighted Association Rules,ClQE_MWAR)方法:该基准方法是按照文献(黄名选,严小卫,张师超.基于矩阵加权关联规则挖掘的伪相关反馈查询扩展[J].软件学报,2009,20(7):1854-1865.)的查询扩展方法实现中英跨语言查询扩展。
实验结果如下:
根据本发明方法和对比基准方法分别编制源程序,通过实验分析和比较本发明方法和对比基准方法的中英跨语言信息检索性能,对50个中文查询主题的Title和Desc查询进行中英跨语言信息检索,对跨语言初检前列50篇英文文档进行用户相关性判断后得到初检用户相关反馈文档(为了简便,本实验中,将初检前列50篇文档中含有已知结果集中的相关文档视为初检相关文档)进行实验,得到中英跨语言检索结果的MAP和P@10的平均值,分别如表1至表2所示,实验时挖掘到3_项集。
表1本发明方法与对比基准方法的检索性能比较(Title查询)
Figure BDA0001525694640000101
实验参数:mc=0.1,mi=0.1,ms∈{0.3,0.35,0.4,0.45,0.5}.
表1结果表明,本发明方法的Title查询的跨语言检索结果的MAP和P@10评价指标值都比对比方法的高,其中,比对比方法CECLB的提高幅度最大可达90.79%,而比对比方法ClQE_MWAR的可达82.94%。
表2本发明方法与基准方法的检索性能比较(Desc查询)
Figure BDA0001525694640000111
实验参数:mc=0.1,mi=0.1,ms∈{0.3,0.35,0.4,0.45,0.5}.
表2结果表明了Desc查询的检索性能比较。从表2可知,本发明方法的检索结果的MAP和P@10评价指标值也获得了很好的效果,均高于对比方法的,其中,比对比方法CECLB的提高幅度最大可达159.86%,而比对比方法ClQE_MWAR的可达197.16%。
上述实验结果表明了本发明方法的有效性。本发明确实能提高中英跨语言信息检索性能,具有很高的应用价值和广阔的推广前景。

Claims (3)

1.基于矩阵加权关联规则的中英跨语言查询前件扩展方法,其特征在于,首先借助机器翻译将中文查询翻译为英文查询并检索英文文档,用户对初检前列英文文档进行相关性判断得到初检相关英文文档集,对初检相关英文文档集进行预处理,构建初检英文文档库和特征词库;采用基于项频度和权值的矩阵加权关联模式支持度计算方法以及基于支持度-置信度-兴趣度的矩阵加权关联模式挖掘方法对初检相关英文文档集挖掘后件是译后原查询词项的矩阵加权关联规则,从所述关联规则中提取其前件作为中英跨语言译后扩展词;
所述采用基于项频度和权值的矩阵加权关联模式支持度计算方法以及基于支持度-置信度-兴趣度的矩阵加权关联模式挖掘方法对初检相关英文文档集挖掘后件是译后原查询词项的矩阵加权关联规则的具体步骤如下:
(1)挖掘英文特征词矩阵加权频繁1_项集L1
从特征词库中提取英文特征词作为英文特征词候选1_项集C1,计算C1的矩阵加权支持度mwSup(C1),如果mwSup(C1)≥支持度阈值ms,则C1为矩阵加权频繁1_项集L1,并将L1添加到矩阵加权频繁项集集合mwPIS;
mwSup(C1)计算公式如式(2)所示:
Figure FDA0003193377810000011
式(2)中,n为初检英文文档库中英文文档总篇数,W为初检英文文档库中所有英文特征词权值的累加总和值,
Figure FDA0003193377810000012
为英文特征词候选1_项集C1在初检英文文档库中的项集权值累加所得的总和值,
Figure FDA0003193377810000013
为英文特征词候选1_项集C1在初检英文文档库中出现的频度;
(2)挖掘英文特征词矩阵加权频繁k_项集Lk,所述的k≥2,具体步骤:
(2.1)英文特征词矩阵加权频繁(k-1)_项集Lk-1进行Apriori连接生成英文特征词矩阵加权候选k_项集Ck,所述的k≥2;
(2.2)当k=2时,删除不含译后原查询词项的英文特征词候选2_项集C2,保留含有译后原查询词项的候选2_项集C2
(2.3)累加英文特征词候选k_项集Ck在初检英文文档库中的项集权值
Figure FDA0003193377810000014
统计Ck在初检英文文档库中的项集频度
Figure FDA0003193377810000015
计算Ck的矩阵加权支持度mwSup(Ck);
Figure FDA0003193377810000016
式(3)中,n为初检英文文档库中英文文档总篇数,W为初检英文文档库中所有英文特征词权值的累加总和值,
Figure FDA0003193377810000021
为英文特征词矩阵加权候选k_项集Ck的项集长度;
(2.4)如果mwSup(Ck)≥ms,则Ck就是英文特征词矩阵加权频繁k_项集Lk,添加到矩阵加权频繁项集集合mwPIS;
(2.5)若英文特征词矩阵加权频繁k_项集Lk不为空集,则k加1后转入步骤(2.1)继续循环,否则,矩阵加权频繁项集挖掘结束,转入以下步骤(3);
(3)挖掘后件是译后原查询词项的英文特征词矩阵加权关联规则:
对于矩阵加权频繁项集集合mwPIS中每一个频繁k_项集Lk,所述的k≥2,采用置信度-兴趣度评价框架从频繁k_项集Lk中挖掘后件是译后原查询词项的英文特征词矩阵加权关联规则,步骤如下:
(3.1)取出频繁k_项集Lk的所有真子集项集,构建Lk真子集项集集合;
(3.2)取出Lk真子集项集集合中任意两个真子集项集Et和Eqt,且
Figure FDA0003193377810000022
Et∪Eqt=Lk
Figure FDA0003193377810000023
QEn为译后原查询词项集合;
(3.3)计算英文特征词矩阵加权兴趣度EMInt(Et,Eqt),如果EMInt(Et,Eqt)≥最小兴趣度阈值mi,则计算英文特征词矩阵加权置信度EMConf(Et→Eqt),若EMConf(Et→Eqt)≥最小置信度阈值mc,则关联规则Et→Eqt是强英文特征词矩阵加权关联规则,并加入到英文特征词矩阵加权关联规则集合EMAR;
EMInt(Et,Eqt)和EMConf(Et→Eqt)的计算公式分别如式(4)和式(5)所示:
Figure FDA0003193377810000024
Figure FDA0003193377810000025
式(4)和(5)中,k1、k2项k12分别为英文特征词矩阵加权项集Et、Eqt以及项集(Et,Eqt)的项集长度,n1、n2和n12分别为英文特征词矩阵加权项集Et、Eqt以及项集(Et,Eqt)在初检英文文档库中出现的频度,w1、w2和w12分别为英文特征词矩阵加权项集Et、Eqt以及项集(Et,Eqt)在初检英文文档库中的项集权值累加所得的总和值;
(3.4)返回步骤(3.2),直到Lk的真子集项集集合中每个真子集项集当且仅当被取出一次,然后从矩阵加权频繁项集集合mwPIS中重新取出新的频繁k_项集Lk,转入步骤(3.1)进行新一轮矩阵加权关联规则挖掘,直到mwPIS中每一个频繁k_项集Lk都已经被取出,则英文特征词间矩阵加权关联规则挖掘结束;
所述从所述关联规则中提取其前件作为中英跨语言译后扩展词的具体方法为:
从英文特征词矩阵加权关联规则集合中提取每个关联规则Et→Eqt的前件Et作为跨语言查询译后扩展词,计算所述扩展词的权值Wexp,将扩展词与译后原查询词组合为新查询再次检索,实现中英跨语言查询译后前件扩展;
权值Wexp计算公式如式(6)所示:
Figure FDA0003193377810000031
式(6)中,max(EMConf(Et→Eqt))和max(EMInt(Et,Eqt))表示:当扩展词重复出现在多个关联规则Et→Eqt时,就会存在多个置信度和兴趣度,这时取置信度的最大值max(EMConf(Et→Eqt))和兴趣度的最大值max(EMInt(Et,Eqt))参与扩展词权值计算。
2.如权利要求1所述的基于矩阵加权关联规则的中英跨语言查询前件扩展方法,其特征在于:所述检索英文文档为采用向量空间模型进行检索得到英文文档集。
3.如权利要求1所述的基于矩阵加权关联规则的中英跨语言查询前件扩展方法,其特征在于,所述对初检相关英文文档集进行预处理的方法为:去除英文停用词,采用Porter程序进行英文特征词词干提取,计算英文特征词权值;然后构建初检英文文档库和特征词库;所述计算英文特征词权值按如下公式(1)进行计算:
Figure FDA0003193377810000032
式(1)中,N表示初检相关文档集中总的文档数量,wij表示初检相关英文文档di中特征词tj的权值,dfj表示含有英文特征词tj的英文文档数量,tfj,i表示英文特征词tj在文档di中的出现次数,即词频,max(tfi)表示初检相关英文文档di中最大的词频值,即文档di的所有英文特征词词频中的最大者,函数lg(N)代表N的对数,lg(dfj)代表dfj的对数。
CN201711435247.6A 2017-12-26 2017-12-26 基于矩阵加权关联规则的中英跨语言查询前件扩展方法 Active CN108133022B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711435247.6A CN108133022B (zh) 2017-12-26 2017-12-26 基于矩阵加权关联规则的中英跨语言查询前件扩展方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711435247.6A CN108133022B (zh) 2017-12-26 2017-12-26 基于矩阵加权关联规则的中英跨语言查询前件扩展方法

Publications (2)

Publication Number Publication Date
CN108133022A CN108133022A (zh) 2018-06-08
CN108133022B true CN108133022B (zh) 2021-09-10

Family

ID=62392729

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711435247.6A Active CN108133022B (zh) 2017-12-26 2017-12-26 基于矩阵加权关联规则的中英跨语言查询前件扩展方法

Country Status (1)

Country Link
CN (1) CN108133022B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102253973A (zh) * 2011-06-14 2011-11-23 清华大学 汉英跨语言新闻话题检测方法及系统
CN106383883A (zh) * 2016-09-18 2017-02-08 广西财经学院 基于矩阵加权关联模式的印尼汉跨语言检索方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103229162B (zh) * 2010-09-28 2016-08-10 国际商业机器公司 使用候选答案逻辑综合提供问题答案

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102253973A (zh) * 2011-06-14 2011-11-23 清华大学 汉英跨语言新闻话题检测方法及系统
CN106383883A (zh) * 2016-09-18 2017-02-08 广西财经学院 基于矩阵加权关联模式的印尼汉跨语言检索方法及系统

Also Published As

Publication number Publication date
CN108133022A (zh) 2018-06-08

Similar Documents

Publication Publication Date Title
CN104391942B (zh) 基于语义图谱的短文本特征扩展方法
Han et al. A generative entity-mention model for linking entities with knowledge base
CN103106189B (zh) 一种挖掘同义属性词的方法和装置
KR101195341B1 (ko) 미등록 단어의 카테고리 결정 방법 및 장치
CN103646112A (zh) 利用了网络搜索的依存句法的领域自适应方法
CN102169496A (zh) 基于锚文本分析的领域术语自动生成方法
CN105975475A (zh) 基于中文短语串的细粒度主题信息抽取方法
CN107609095B (zh) 基于加权正负规则前件与相关反馈的跨语言查询扩展方法
CN109299278B (zh) 基于置信度-相关系数框架挖掘规则前件的文本检索方法
CN109815401A (zh) 一种应用于Web人物搜索的人名消歧方法
CN111444713B (zh) 新闻事件内实体关系抽取方法及装置
CN109726263B (zh) 基于特征词加权关联模式挖掘的跨语言译后混合扩展方法
CN109684463B (zh) 基于权值比较与挖掘的跨语言译后前件扩展方法
CN107526839B (zh) 基于完全加权正负模式的跨语言查询译后后件扩展方法
CN109739953B (zh) 基于卡方分析-置信度框架和后件扩展的文本检索方法
KR20080024530A (ko) 커뮤니티 특유 표현 검출 장치 및 방법
CN108170778B (zh) 基于完全加权规则后件的中英跨语言查询译后扩展方法
Zheng et al. The selection of Mongolian stop words
CN108133022B (zh) 基于矩阵加权关联规则的中英跨语言查询前件扩展方法
CN109299292B (zh) 基于矩阵加权关联规则前后件混合扩展的文本检索方法
CN111897928A (zh) 查询词嵌入扩展词和统计扩展词并集的中文查询扩展方法
CN111897922A (zh) 基于模式挖掘与词向量相似度计算的中文查询扩展方法
CN116738979A (zh) 基于核心数据识别的电网数据搜索方法、系统及电子设备
CN109684465B (zh) 基于项集权值比较的模式挖掘和混合扩展的文本检索方法
CN109684464B (zh) 通过权值比较实现规则后件挖掘的跨语言查询扩展方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant