CN111897928A - 查询词嵌入扩展词和统计扩展词并集的中文查询扩展方法 - Google Patents
查询词嵌入扩展词和统计扩展词并集的中文查询扩展方法 Download PDFInfo
- Publication number
- CN111897928A CN111897928A CN202010774442.7A CN202010774442A CN111897928A CN 111897928 A CN111897928 A CN 111897928A CN 202010774442 A CN202010774442 A CN 202010774442A CN 111897928 A CN111897928 A CN 111897928A
- Authority
- CN
- China
- Prior art keywords
- word
- expansion
- query
- words
- formula
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3338—Query expansion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3325—Reformulation based on results of preceding query
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提出了一种查询词嵌入扩展词和统计扩展词并集的中文查询扩展方法,其利用深度学习工具对对初检文档集进行词嵌入语义学习训练,得到词向量集,计算每个查询词项与所有非查询词项的向量余弦相似度并降序排列,提取前列非查询词项作为查询词项词嵌入扩展词,得到查询词项词嵌入扩展词集,然后利用基于Copulas理论的统计扩展词挖掘方法对伪相关反馈文档集挖掘统计扩展词,建立统计扩展词集,最后将查询词项词嵌入扩展词集和统计扩展词集进行并集得到最终扩展词,最终扩展词和原查询组合为新查询,再次检索文档集,实现查询扩展。本发明将查询词嵌入扩展词和统计扩展词并集融合,能挖掘出与原查询相关的高质量扩展词,提高和改善文本信息检索性能。
Description
技术领域
本发明涉及一种查询词嵌入扩展词和统计扩展词并集的中文查询扩展方法,属于信息检索技术领域。
背景技术
在自然语言处理中,查询扩展是解决信息检索领域中查询主题漂移和词不匹配问题的核心技术之一,查询扩展指的是对原查询权重进行修改或者添加与原查询相关的语词,弥补用户查询信息不足,改善信息检索系统查全率和查准率。其核心问题是扩展词的来源及其扩展模型的设计。
近十几年来,随着网络技术的发展以及大数据时代的到来,如何从海量的大数据资源中精准检索到用户的所需信息,是国内外学术界和产业界关注的焦点,查询扩展作为解决这类问题的核心技术一直深受国内外学者的重视和研究,一些查询扩展方法被提出,例如,Latiri等(Latiri C,Haddad H,Hamrouni T.Towards an effective automaticquery expansion process using an association rule mining approach[J].journalof intelligent information systems,2012,39(1):209-247.)提出一种基于关联规则挖掘的查询扩展方法,Bouziri等(Bouziri A,Latiri C,Gaussier E et al.Learning queryexpansion from association rules between terms[C].Proceedings of the 7thInternational Joint Conference on Knowledge Discovery,Knowledge Engineeringand Knowledge Management(IC3K),Lisbon,Portugal,2015:525-530.)提出一种基于分类学习算法和关联规则挖掘的查询扩展方法,黄等(黄名选,严小卫,张师超.基于矩阵加权关联规则挖掘的伪相关反馈查询扩展[J].软件学报,2009,20(7):1854-1865.)提出一种基于矩阵加权关联模式挖掘的查询扩展方法,等等,实验结果表明,上述查询扩展方法是有效的,在改善信息检索性能方面有获得较好的表现。
然而,现有查询扩展方法还没有最终完全解决信息检索中存在的查询主题漂移和词不匹配等技术问题,针对这些缺陷,本发明提出一种查询词嵌入扩展词和统计扩展词并集的中文查询扩展方法,该方法可应用于搜索引擎和Web信息检索系统,能减少查询漂移和词不匹配等问题,提高信息检索性能,具有很好的应用价值和广阔的推广前景。
发明内容
本发明的目的是提出一种查询词嵌入扩展词和统计扩展词并集的中文查询扩展方法,将该方法用于信息检索领域,如实际中文搜索引擎和web信息检索系统,能改善和提高信息检索系统的查询性能,减少信息检索中查询主题漂移和词不匹配问题。
本发明所采用的具体技术方案如下:
一种查询词嵌入扩展词和统计扩展词并集的中文查询扩展方法,包括下列步骤:
步骤1.构建初检文档集:中文用户查询检索原始中文文档集得到初检文档集。
步骤2.产生初检文档词向量集:对初检文档集进行中文分词和去除中文停用词,利用深度学习工具对对初检文档集进行词嵌入语义学习训练,得到初检文档词向量集;所述初检文档词向量集含有各个查询词项词向量和非查询词项词向量。
本发明所述深度学习工具是指Google开源词向量工具word2vec的Skip-gram模型(详见:https://code.google.com/p/word2vec/)。
步骤3.产生查询词项词嵌入扩展词集:计算每个查询词项与所有非查询词项的向量余弦相似度,降序排列向量余弦相似度,提取各个查询词项对应的前列Vn个非查询词项作为查询词项词嵌入扩展词,得到查询词项词嵌入扩展词集,具体步骤如下:
(3.1)在词向量集中,计算原查询词项集合Q(所述Q=(q1,q2,…,qj))中每个查询词项(q1,q2,…,qj)与所有非查询词项的向量余弦相似度qjsiml,其中,1≤l≤i。
所述qjsiml,的计算公式,如式(1)所示:
式(1)中,vwecetl表示第l个非查询词项wecetl的词向量值,vqs表示第s个查询词qs的词向量值。
(3.2)降序排列向量余弦相似度值qjsiml,得到原查询词项集合Q的各个查询词项(q1,q2,…,qj)的词嵌入候选扩展词及其向量相似度值,如式(2)所示:
式(2)中,qjvetl表示查询词项qj的第l个查询词项词嵌入候选扩展词,qjsiml表示查询词项qj与第l个查询词项词嵌入候选扩展词的向量余弦相似度值。
(3.3)根据降序排列向量余弦相似度值qjsiml的顺序,提取原查询词项集合Q中各个查询词项(q1,q2,…,qj)的前列Vn个查询词项的词嵌入候选扩展词作为查询词项词嵌入扩展词,共得到j×Vn个词嵌入扩展词(q1vet1,q1vet2,…,q1vetVn,…,qjvetVn),去除重复词项后,得到查询词项词嵌入扩展词集WEETS_QT(Word Embedding Expansion Term Set ofQuery Terms),如式(3)所示,然后转入步骤4。
WEETS_QT={vqet1,vqet2,...,vqetr}
(vqeti∈(q1vet1,q1vet2,...,q1vetVn,...,qjvetVn),1≤i≤r) (3)
式(3)中,vqetr表示去除重复词项后得到的第r个查询词项词嵌入扩展词。
查询词项词嵌入扩展词权值w(qveti)如式(4)所示,其中,1≤i≤r。
式(4)表明,查询词项词嵌入扩展词权值为该查询词项与所有词嵌入候选扩展词的向量余弦相似度值,如果存在多个相同的查询词项词嵌入扩展词,则累加它们的向量余弦相似度值作为该查询词项词嵌入扩展词的权值。
步骤4.产生统计扩展词集:从初检文档集中提取前列m篇伪相关反馈文档,构建伪相关反馈文档集,利用基于Copulas理论的统计扩展词挖掘方法对伪相关反馈文档集挖掘统计扩展词,建立统计扩展词集;所述基于Copulas理论的统计扩展词挖掘方法具体步骤如下:
(4.1)从初检文档集中提取前列m篇初检文档作为伪相关反馈文档,构建伪相关反馈文档集,对初检伪相关反馈文档集进行中文分词、去除中文停用词和提取特征词的预处理,并计算特征词权值,最后构建伪相关反馈中文文档库和中文特征词库。
本发明采用TF-IDF(term frequency–inverse document frequency)加权技术(见文献:Ricardo Baeza-Yates Berthier Ribeiro-Neto等著,王知津等译,《现代信息检索》,机械工业出版社,2005年:21-22。)计算特征词权值。
(4.2)利用Copulas理论框架下融合项频度和权值的特征词关联模式支持度IFWSup(Support based on Itemsets Frequency and Weights)和最小支持度阈值ms挖掘伪相关反馈文档集中含有原查询词项的k_频繁项集,所述k≥1,具体步骤如下:
(4.2.1)从中文特征词库中提取特征词作为1_候选项集C1。
(4.2.2)计算1_候选项集C1的支持度IFWSup(C1),如果IFWSup(C1)不低于ms,则将C1作为1_频繁项集L1,并添加到频繁项集集合FIS(Frequent ItemSet)。
所述支持度IFWSup(C1)的计算公式,如式(5)所示:
式(5)中,freC1表示1_候选项集C1在伪相关反馈中文文档库中出现的频度,Doc_fre表示伪相关反馈中文文档库总文档数量,weiC1表示1_候选项集C1在伪相关反馈中文文档库中的项集权重,Items_wei表示伪相关反馈中文文档库中全体中文特征词的权重累加和;exp表示以自然常数e为底的指数函数。
(4.2.3)将(k-1)_频繁项集Lk-1自连接生成k_候选项集Ck,所述k≥2。
所述自连接方法采用Apriori算法(见文献:Agrawal R,Imielinski T,SwamiA.Mining association rules between sets of items in large database[C]//Proceedings of the 1993ACM SIGMOD International Conference on Management ofData,Washington D C,USA,1993:207-216.)中给出的候选项集连接方法。
(4.2.4)当挖掘到2_候选项集C2时,如果该C2不含有原查询词项,则删除该C2,如果该C2含有原查询词项,则留下该C2,然后,留下的C2转入步骤(4.2.5);当挖掘到k_候选项集Ck,所述k≥3,则直接转入步骤(4.2.5)。
(4.2.5)计算k_候选项集Ck的支持度IFWSup(Ck),如果IFWSup(Ck)不低于ms,则将Ck作为k_频繁项集Lk,并添加到FIS。
所述IFWSup(Ck)的计算如式(6)所示:
(4.2.6)k加1后转入步骤(4.2.3)继续顺序执行其后步骤,直到产生所述Lk为空集,则频繁项集挖掘结束,转入步骤(4.3)。
(4.3)利用Copulas理论框架下融合项频度和权值的特征词关联模式置信度IFWConf(Confidence based on Itemsets Frequency and Weights)和最小置信度阈值mc从频繁项集中挖掘前件含有原查询词项项集的关联规则模式,具体步骤如下:
(4.3.1)从FIS中任意取出Lk,所述k≥2。
(4.3.2)提取Lk中真子集项集LQ和LEt,计算所述关联规则LQ→LEt的置信度IFWConf(LQ→LEt),所述LQ∪LEt=Lk,所述LEt为不含查询词项的真子集项集,所述LQ为含查询词项的真子集项集。
所述IFWConf(LQ→LEt)计算,如式(7)所示:
式(7)中,表示k_频繁项集Lk在伪相关反馈中文文档库中出现的频度,表示k_频繁项集Lk在伪相关反馈中文文档库中的项集权重,表示k_频繁项集Lk的真子集项集LQ在伪相关反馈中文文档库中出现的频度,表示k_频繁项集Lk的真子集项集LQ在伪相关反馈中文文档库中的项集权重。
(4.3.3)提取IFWConf(LQ→LEt)不小于mc的关联规则LQ→LEt加入到关联规则集AR(Association Rule),然后,转入步骤(4.3.2),从Lk中重新提取其他的真子集项集LQ和LEt,再顺序进行其后步骤,如此循环,直到Lk的所有真子集项集当且仅当都被取出一次为止,这时转入如步骤(4.3.1),进行新一轮关联规则模式挖掘,从FIS中再取出任意其他Lk,再顺序进行其后步骤,如此循环,直到FIS中所有k_频繁项集Lk当且仅当都被取出一次为止,这时关联规则模式挖掘结束,转入如下步骤(4.4)。
(4.4)从关联规则集AR中提取关联规则后件LEt作为统计扩展词,得到统计扩展词集SETS(Statistical Expansion Term Set),并计算统计扩展词权值wSET,然后,转入步骤5。
所述SETS如式(8)所示:
式(8)中,Seti表示第i个统计扩展词。
所述统计扩展词权值wSET计算公式如式(9)所示。
wSET=max(IFWConf(LQ→LEt)) (9)
式(9)中,max()表示关联规则置信度的最大值,当多个关联规则模式中同时出现相同的规则扩展词时,取其置信度值最大的作为该规则扩展词的权值。
步骤5.产生最终扩展词集:将查询词项词嵌入扩展词集和统计扩展词集进行并集运算,得到最终扩展词,具体步骤是:
(5.1)将查询词项词嵌入扩展词集WEETS_QT和统计扩展词集SETS进行并集运算,得到原查询词项集合Q的最终扩展词集FETS(Final Expansion Term Set),如式(10)所示:
式(10)中,ETi为第i个最终扩展词(1≤i≤n)。
(5.2)计算最终扩展词权值w(ETi)。
最终扩展词权值w(ETi)如式(11)所示:
步骤6.实现查询扩展:扩展词与原查询组合为新查询再次检索原始中文文档集,实现查询扩展。
本发明与现有技术相比,具有以下有益效果:
(1)本发明提出了一种查询词嵌入扩展词和统计扩展词并集的中文查询扩展方法,该发明方法首先利用深度学习工具对对初检文档集进行词嵌入语义学习训练,得到词向量集,计算每个查询词项与所有非查询词项的向量余弦相似度,降序排列向量余弦相似度,提取各个查询词项对应的前列非查询词项构建查询词项词嵌入扩展词集,然后,利用基于Copulas理论的统计扩展词挖掘方法对伪相关反馈文档集挖掘统计扩展词,建立统计扩展词集,最后,将查询词项词嵌入扩展词集和统计扩展词集进行并集运算,得到最终扩展词,最终扩展词和原查询组合为新查询,再次检索文档集,实现查询扩展。实验结果表明,本发明方法能改善信息检索性能,检索性能高于近年同类的对比方法,具有较好的应用价值和推广前景。
(2)选择近年出现的4种同类查询扩展方法作为本发明方法的对比方法,实验数据是国家标准数据集NTCIR-5CLIR中文语料。实验结果表明,本发明方法的实验结果MAP值都高于基准检索,相对于4种对比方法,本发明方法MAP值绝大部分都得到提升,说明本发明方法的检索性能均优于基准检索和对比方法,能提高信息检索性能,减少信息检索中查询漂移和词不匹配问题,具有很高的应用价值和广阔的推广前景。
附图说明
图1为本发明所述的查询词嵌入扩展词和统计扩展词并集的中文查询扩展方法的总体流程示意图。
具体实施方式
一、为了更好地说明本发明的技术方案,下面将本发明涉及的相关概念介绍如下:
1.项集
在文本挖掘中,将一篇文本文档当作一个事务,文档中的各个特征词称为项目,特征词项目的集合称为项集,项集中所有项目的个数称为项集长度。k_项集指含有k个项目的项集,k即为项集的长度。
2.关联规则前件和后件
设x、y是任意的特征词项集,将形如x→y的蕴含式称为关联规则,其中,x称为规则前件,y称为规则后件。
3.Copulas理论框架下基于项频度和权值的支持度和置信度
Copulas理论(见文献:Sklar A.Fonctions de repartition à n dimensions etleurs marges[J].Publication de l'Institut de Statistique l'Universite Paris,1959,8(1):229-231.)用来描述变量间相关性,可以将任意形式的分布进行合并连接为一个有效的多元分布函数。
本发明利用Copulas函数将特征词项集频度和权值综合统一到特征词关联模式支持度和置信度,提出Copulas理论框架下基于项频度和权值的特征词关联模式支持度IFWSup(Support based on Itemsets Frequency and Weights)和置信度IFWConf(Confidence based on Itemsets Frequency and Weights),其计算公式如下:
特征词项集(T1∪T2)支持度IFWSup(T1∪T2)的计算公式,如式(12)所示:
式(12)中,表示项集(T1∪T2)在伪相关反馈中文文档库中出现的频度,表示项集(T1∪T2)在伪相关反馈中文文档库中的项集权重。Doc_fre表示伪相关反馈中文文档库总文档数量,Items_wei表示伪相关反馈中文文档库中全体中文特征词的权重累加和;exp表示以自然常数e为底的指数函数。
特征词关联规则T1→T2的置信度IFWConf(T1→T2)的计算公式,如式(13)所示:
式(13)中,表示项集(T1∪T2)在伪相关反馈中文文档库中出现的频度,表示项集(T1∪T2)在伪相关反馈中文文档库中的项集权重,表示项集T1在伪相关反馈中文文档库中出现的频度,表示项集T1在伪相关反馈中文文档库中的项集权重。
4.统计扩展词
本发明将通过基于统计分析的数据挖掘技术得到的扩展词称为统计扩展词,具体来说,统计扩展词来自关联规则的后件项集,并以关联规则的置信度作为统计扩展词的权值。
5.查询词项词嵌入扩展词
查询词项词嵌入扩展词具体描述如下:在初检文档词向量集中,首先计算每个查询词项与所有非查询词项的向量余弦相似度,降序排列向量余弦相似度,提取各个查询词项对应的前列非查询词项作为查询词项词嵌入扩展词。
二、下面结合附图和具体对比实验来对本发明作进一步说明。
如图1所示,本发明的查询词嵌入扩展词和统计扩展词并集的中文查询扩展方法,包括下列步骤:
步骤1.构建初检文档集:中文用户查询检索原始中文文档集得到初检文档集。
步骤2.产生初检文档词向量集:对初检文档集进行中文分词和去除中文停用词,利用深度学习工具对对初检文档集进行词嵌入语义学习训练,得到初检文档词向量集;所述初检文档词向量集含有各个查询词项词向量和非查询词项词向量。
本发明所述深度学习工具是指Google开源词向量工具word2vec的Skip-gram模型。
步骤3.产生查询词项词嵌入扩展词集:计算每个查询词项与所有非查询词项的向量余弦相似度,降序排列向量余弦相似度,提取各个查询词项对应的前列Vn个非查询词项作为查询词项词嵌入扩展词,得到查询词项词嵌入扩展词集,具体步骤如下:
(3.1)在词向量集中,计算原查询词项集合Q(所述Q=(q1,q2,…,qj))中每个查询词项(q1,q2,…,qj)与所有非查询词项的向量余弦相似度qjsiml,其中,1≤l≤i。
所述qjsiml,的计算公式,如式(1)所示:
式(1)中,vwecetl表示第l个非查询词项wecetl的词向量值,vqs表示第s个查询词qs的词向量值。
(3.2)降序排列向量余弦相似度值qjsiml,得到原查询词项集合Q的各个查询词项(q1,q2,…,qj)的词嵌入候选扩展词及其向量相似度值,如式(2)所示:
式(2)中,qjvetl表示查询词项qj的第l个查询词项词嵌入候选扩展词,qjsiml表示查询词项qj与第l个查询词项词嵌入候选扩展词的向量余弦相似度值。
(3.3)根据降序排列向量余弦相似度值qjsiml的顺序,提取原查询词项集合Q中各个查询词项(q1,q2,…,qj)的前列Vn个查询词项的词嵌入候选扩展词作为查询词项词嵌入扩展词,共得到j×Vn个词嵌入扩展词(q1vet1,q1vet2,…,q1vetVn,…,qjvetVn),去除重复词项后,得到查询词项词嵌入扩展词集WEETS_QT,如式(3)所示,然后转入步骤4。
WEETS_QT={vqet1,vqet2,...,vqetr}
(vqeti∈(q1vet1,q1vet2,...,q1vetVn,...,qjvetVn),1≤i≤r) (3)
式(3)中,vqetr表示去除重复词项后得到的第r个查询词项词嵌入扩展词。
查询词项词嵌入扩展词权值w(qveti)如式(4)所示,其中,1≤i≤r。
式(4)表明,查询词项词嵌入扩展词权值为该查询词项与所有词嵌入候选扩展词的向量余弦相似度值,如果存在多个相同的查询词项词嵌入扩展词,则累加它们的向量余弦相似度值作为该查询词项词嵌入扩展词的权值。
步骤4.产生统计扩展词集:从初检文档集中提取前列m篇伪相关反馈文档,构建伪相关反馈文档集,利用基于Copulas理论的统计扩展词挖掘方法对伪相关反馈文档集挖掘统计扩展词,建立统计扩展词集;所述基于Copulas理论的统计扩展词挖掘方法具体步骤如下:
(4.1)从初检文档集中提取前列m篇初检文档作为伪相关反馈文档,构建伪相关反馈文档集,对初检伪相关反馈文档集进行中文分词、去除中文停用词和提取特征词的预处理,并采用TF-IDF加权技术计算特征词权值,最后构建伪相关反馈中文文档库和中文特征词库。
(4.2)利用Copulas理论框架下融合项频度和权值的特征词关联模式支持度IFWSup(Support based on Itemsets Frequency and Weights)和最小支持度阈值ms挖掘伪相关反馈文档集中含有原查询词项的k_频繁项集,所述k≥1,具体步骤如下:
(4.2.1)从中文特征词库中提取特征词作为1_候选项集C1。
(4.2.2)计算1_候选项集C1的支持度IFWSup(C1),如果IFWSup(C1)不低于ms,则将C1作为1_频繁项集L1,并添加到频繁项集集合FIS(Frequent ItemSet)。
所述支持度IFWSup(C1)的计算公式,如式(5)所示:
式(5)中,表示1_候选项集C1在伪相关反馈中文文档库中出现的频度,Doc_fre表示伪相关反馈中文文档库总文档数量,表示1_候选项集C1在伪相关反馈中文文档库中的项集权重,Items_wei表示伪相关反馈中文文档库中全体中文特征词的权重累加和;exp表示以自然常数e为底的指数函数。
(4.2.3)将(k-1)_频繁项集Lk-1自连接生成k_候选项集Ck,所述k≥2。
所述自连接方法采用Apriori算法中给出的候选项集连接方法。
(4.2.4)当挖掘到2_候选项集C2时,如果该C2不含有原查询词项,则删除该C2,如果该C2含有原查询词项,则留下该C2,然后,留下的C2转入步骤(4.2.5);当挖掘到k_候选项集Ck,所述k≥3,则直接转入步骤(4.2.5)。
(4.2.5)计算k_候选项集Ck的支持度IFWSup(Ck),如果IFWSup(Ck)不低于ms,则将Ck作为k_频繁项集Lk,并添加到FIS。
所述IFWSup(Ck)的计算如式(6)所示:
(4.2.6)k加1后转入步骤(4.2.3)继续顺序执行其后步骤,直到产生所述Lk为空集,则频繁项集挖掘结束,转入步骤(4.3)。
(4.3)利用Copulas理论框架下融合项频度和权值的特征词关联模式置信度IFWConf(Confidence based on Itemsets Frequency and Weights)和最小置信度阈值mc从频繁项集中挖掘前件含有原查询词项项集的关联规则模式,具体步骤如下:
(4.3.1)从FIS中任意取出Lk,所述k≥2。
(4.3.2)提取Lk中真子集项集LQ和LEt,计算所述关联规则LQ→LEt的置信度IFWConf(LQ→LEt),所述LQ∪LEt=Lk,所述LEt为不含查询词项的真子集项集,所述LQ为含查询词项的真子集项集。
所述IFWConf(LQ→LEt)计算,如式(7)所示:
式(7)中,表示k_频繁项集Lk在伪相关反馈中文文档库中出现的频度,表示k_频繁项集Lk在伪相关反馈中文文档库中的项集权重,表示k_频繁项集Lk的真子集项集LQ在伪相关反馈中文文档库中出现的频度,表示k_频繁项集Lk的真子集项集LQ在伪相关反馈中文文档库中的项集权重。
(4.3.3)提取IFWConf(LQ→LEt)不小于mc的关联规则LQ→LEt加入到关联规则集AR(Association Rule),然后,转入步骤(4.3.2),从Lk中重新提取其他的真子集项集LQ和LEt,再顺序进行其后步骤,如此循环,直到Lk的所有真子集项集当且仅当都被取出一次为止,这时转入如步骤(4.3.1),进行新一轮关联规则模式挖掘,从FIS中再取出任意其他Lk,再顺序进行其后步骤,如此循环,直到FIS中所有k_频繁项集Lk当且仅当都被取出一次为止,这时关联规则模式挖掘结束,转入如下步骤(4.4)。
(4.4)从关联规则集AR中提取关联规则后件LEt作为统计扩展词,得到统计扩展词集SETS(Statistical Expansion Term Set),并计算统计扩展词权值wSET,然后,转入步骤5。
所述SETS如式(8)所示:
式(8)中,Seti表示第i个统计扩展词。
所述统计扩展词权值wSET计算公式如式(9)所示。
wSET=max(IFWConf(LQ→LEt)) (9)
式(9)中,max()表示关联规则置信度的最大值,当多个关联规则模式中同时出现相同的规则扩展词时,取其置信度值最大的作为该规则扩展词的权值。
步骤5.产生最终扩展词集:将查询词项词嵌入扩展词集和统计扩展词集进行并集运算,得到最终扩展词,具体步骤是:
(5.1)将查询词项词嵌入扩展词集WEETS_QT和统计扩展词集SETS进行并集运算,得到原查询词项集合Q的最终扩展词集FETS(Final Expansion Term Set),如式(10)所示:
式(10)中,ETi为第i个最终扩展词(1≤i≤n)。
(5.2)计算最终扩展词权值w(ETi)。
最终扩展词权值w(ETi)如式(11)所示:
步骤6.实现查询扩展:扩展词与原查询组合为新查询再次检索原始中文文档集,实现查询扩展。
实验设计与结果:
我们通过和现有同类方法进行实验对比,以说明本发明方法的有效性。
1.实验环境及实验数据:
为了验证本文提出的查询扩展模型的有效性,本文采用国际标准数据集NTCIR-5CLIR(http://research.nii.ac.jp/ntcir/data/data-en.html.)的中文文本语料作为实验数据。该中文语料为8个数据集共计901446篇文档,具体信息如表1所示。该语料有4种类型的查询主题,共50个中文查询,结果集有2种评价标准:Rigid(与查询高度相关,相关)和Relax(与查询高度相关、相关和部分相关)。
本发明实验采用Title查询主题,Title查询以名词和名词性短语简要描述查询主题。
实验数据预处理是:中文分词和去除中文停用词。实验结果检索评价指标是MAP(Mean Average Precision)。
表1 NTCIR-5 CLIR中文原始语料集信息
2.基准检索与对比方法:
实验基础检索环境采用Lucene.Net(详见:http://lucenenet.apache.org/)搭建。
基准检索与对比算法说明如下:
基准检索BR(Baseline Retrieval):指50个原始查询经Lucene.Net初次检索得到的检索结果。具体对比查询扩展方法详见表2所示。
表2对比查询扩展方法的来源及其实验参数
3.实验结果如下:
50个中文查询在实验数据集上运行Lucene.Net和本发明方法、对比方法的源程序,得到基准检索、对比方法以及本发明方法的检索结果MAP的平均值,如表3和表4所示。
表3本发明方法与基准检索、对比方法的检索结果MAP值(Relax)
表4本发明方法与基准检索、对比方法的的检索结果MAP值(Rigid)
表3和4表明,本发明方法检索结果MAP都高于基准检索和4种对比扩展方法,说明本发明方法扩展检索性能高于基准检索和同类的对比方法。实验结果表明,本发明方法是有效的,确实能提高息检索性能,具有很高的应用价值和广阔的推广前景。
Claims (1)
1.一种查询词嵌入扩展词和统计扩展词并集的中文查询扩展方法,其特征在于,包括下列步骤:
步骤1.构建初检文档集:中文用户查询检索原始中文文档集得到初检文档集;
步骤2.产生初检文档词向量集:对初检文档集进行中文分词和去除中文停用词,利用深度学习工具对对初检文档集进行词嵌入语义学习训练,得到初检文档词向量集;所述初检文档词向量集含有各个查询词项词向量和非查询词项词向量;
所述深度学习工具是指Google开源词向量工具word2vec的Skip-gram模型;
步骤3.产生查询词项词嵌入扩展词集:计算每个查询词项与所有非查询词项的向量余弦相似度,降序排列向量余弦相似度,提取各个查询词项对应的前列Vn个非查询词项作为查询词项词嵌入扩展词,得到查询词项词嵌入扩展词集,具体步骤如下:
(3.1)在词向量集中,计算原查询词项集合Q(所述Q=(q1,q2,…,qj))中每个查询词项(q1,q2,…,qj)与所有非查询词项的向量余弦相似度qjsiml,其中,1≤l≤i;
所述qjsiml,的计算公式,如式(1)所示:
式(1)中,vwecetl表示第l个非查询词项wecetl的词向量值,vqs表示第s个查询词qs的词向量值;
(3.2)降序排列向量余弦相似度值qjsiml,得到原查询词项集合Q的各个查询词项(q1,q2,…,qj)的词嵌入候选扩展词及其向量相似度值,如式(2)所示:
式(2)中,qjvetl表示查询词项qj的第l个查询词项词嵌入候选扩展词,qjsiml表示查询词项qj与第l个查询词项词嵌入候选扩展词的向量余弦相似度值;
(3.3)根据降序排列向量余弦相似度值qjsiml的顺序,提取原查询词项集合Q中各个查询词项(q1,q2,…,qj)的前列Vn个查询词项的词嵌入候选扩展词作为查询词项词嵌入扩展词,共得到j×Vn个词嵌入扩展词(q1vet1,q1vet2,…,q1vetVn,…,qjvetVn),去除重复词项后,得到查询词项词嵌入扩展词集WEETS_QT,如式(3)所示,然后转入步骤4;
WEETS_QT={vqet1,vqet2,...,vqetr}
(vqeti∈(q1vet1,q1vet2,...,q1vetVn,...,qjvetVn),1≤i≤r) (3)
式(3)中,vqetr表示去除重复词项后得到的第r个查询词项词嵌入扩展词;
查询词项词嵌入扩展词权值w(qveti)如式(4)所示,其中,1≤i≤r;
式(4)表明,查询词项词嵌入扩展词权值为该查询词项与所有词嵌入候选扩展词的向量余弦相似度值,如果存在多个相同的查询词项词嵌入扩展词,则累加它们的向量余弦相似度值作为该查询词项词嵌入扩展词的权值;
步骤4.产生统计扩展词集:从初检文档集中提取前列m篇伪相关反馈文档,构建伪相关反馈文档集,利用基于Copulas理论的统计扩展词挖掘方法对伪相关反馈文档集挖掘统计扩展词,建立统计扩展词集;所述基于Copulas理论的统计扩展词挖掘方法具体步骤如下:
(4.1)从初检文档集中提取前列m篇初检文档作为伪相关反馈文档,构建伪相关反馈文档集,对初检伪相关反馈文档集进行中文分词、去除中文停用词和提取特征词的预处理,并采用TF-IDF加权技术计算特征词权值,最后构建伪相关反馈中文文档库和中文特征词库;
(4.2)利用Copulas理论框架下融合项频度和权值的特征词关联模式支持度IFWSup和最小支持度阈值ms挖掘伪相关反馈文档集中含有原查询词项的k_频繁项集,所述k≥1,具体步骤如下:
(4.2.1)从中文特征词库中提取特征词作为1_候选项集C1;
(4.2.2)计算1_候选项集C1的支持度IFWSup(C1),如果IFWSup(C1)不低于ms,则将C1作为1_频繁项集L1,并添加到频繁项集集合FIS;
所述支持度IFWSup(C1)的计算公式,如式(5)所示:
式(5)中,表示1_候选项集C1在伪相关反馈中文文档库中出现的频度,Doc_fre表示伪相关反馈中文文档库总文档数量,表示1_候选项集C1在伪相关反馈中文文档库中的项集权重,Items_wei表示伪相关反馈中文文档库中全体中文特征词的权重累加和;exp表示以自然常数e为底的指数函数;
(4.2.3)将(k-1)_频繁项集Lk-1自连接生成k_候选项集Ck,所述k≥2;
所述自连接方法采用Apriori算法中给出的候选项集连接方法;
(4.2.4)当挖掘到2_候选项集C2时,如果该C2不含有原查询词项,则删除该C2,如果该C2含有原查询词项,则留下该C2,然后,留下的C2转入步骤(4.2.5);当挖掘到k_候选项集Ck,所述k≥3,则直接转入步骤(4.2.5);
(4.2.5)计算k_候选项集Ck的支持度IFWSup(Ck),如果IFWSup(Ck)不低于ms,则将Ck作为k_频繁项集Lk,并添加到FIS;
所述IFWSup(Ck)的计算如式(6)所示:
(4.2.6)k加1后转入步骤(4.2.3)继续顺序执行其后步骤,直到产生所述Lk为空集,则频繁项集挖掘结束,转入步骤(4.3);
(4.3)利用Copulas理论框架下融合项频度和权值的特征词关联模式置信度IFWConf和最小置信度阈值mc从频繁项集中挖掘前件含有原查询词项项集的关联规则模式,具体步骤如下:
(4.3.1)从FIS中任意取出Lk,所述k≥2;
(4.3.2)提取Lk中真子集项集LQ和LEt,计算所述关联规则LQ→LEt的置信度IFWConf(LQ→LEt),所述LQ∪LEt=Lk,所述LEt为不含查询词项的真子集项集,所述LQ为含查询词项的真子集项集;
所述IFWConf(LQ→LEt)计算,如式(7)所示:
式(7)中,表示k_频繁项集Lk在伪相关反馈中文文档库中出现的频度,表示k_频繁项集Lk在伪相关反馈中文文档库中的项集权重,表示k_频繁项集Lk的真子集项集LQ在伪相关反馈中文文档库中出现的频度,表示k_频繁项集Lk的真子集项集LQ在伪相关反馈中文文档库中的项集权重;
(4.3.3)提取IFWConf(LQ→LEt)不小于mc的关联规则LQ→LEt加入到关联规则集AR,然后,转入步骤(4.3.2),从Lk中重新提取其他的真子集项集LQ和LEt,再顺序进行其后步骤,如此循环,直到Lk的所有真子集项集当且仅当都被取出一次为止,这时转入如步骤(4.3.1),进行新一轮关联规则模式挖掘,从FIS中再取出任意其他Lk,再顺序进行其后步骤,如此循环,直到FIS中所有k_频繁项集Lk当且仅当都被取出一次为止,这时关联规则模式挖掘结束,转入如下步骤(4.4);
(4.4)从关联规则集AR中提取关联规则后件LEt作为统计扩展词,得到统计扩展词集SETS,并计算统计扩展词权值wSET,然后,转入步骤5;
所述SETS如式(8)所示:
式(8)中,Seti表示第i个统计扩展词;
所述统计扩展词权值wSET计算公式如式(9)所示;
wSET=max(IFWConf(LQ→LEt)) (9)
式(9)中,max()表示关联规则置信度的最大值,当多个关联规则模式中同时出现相同的规则扩展词时,取其置信度值最大的作为该规则扩展词的权值;
步骤5.产生最终扩展词集:将查询词项词嵌入扩展词集和统计扩展词集进行并集运算,得到最终扩展词,具体步骤是:
(5.1)将查询词项词嵌入扩展词集WEETS_QT和统计扩展词集SETS进行并集运算,得到原查询词项集合Q的最终扩展词集FETS,如式(10)所示:
式(10)中,ETi为第i个最终扩展词(1≤i≤n);
(5.2)计算最终扩展词权值w(ETi);
最终扩展词权值w(ETi)如式(11)所示:
步骤6.实现查询扩展:扩展词与原查询组合为新查询再次检索原始中文文档集,实现查询扩展。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010774442.7A CN111897928A (zh) | 2020-08-04 | 2020-08-04 | 查询词嵌入扩展词和统计扩展词并集的中文查询扩展方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010774442.7A CN111897928A (zh) | 2020-08-04 | 2020-08-04 | 查询词嵌入扩展词和统计扩展词并集的中文查询扩展方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111897928A true CN111897928A (zh) | 2020-11-06 |
Family
ID=73245474
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010774442.7A Withdrawn CN111897928A (zh) | 2020-08-04 | 2020-08-04 | 查询词嵌入扩展词和统计扩展词并集的中文查询扩展方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111897928A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112541362A (zh) * | 2020-12-08 | 2021-03-23 | 北京百度网讯科技有限公司 | 一种泛化处理的方法、装置、设备和计算机存储介质 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020112096A1 (en) * | 1999-09-23 | 2002-08-15 | Kaminsky David Louis | Methods and apparatus for exchanging coded information |
CN106294662A (zh) * | 2016-08-05 | 2017-01-04 | 华东师范大学 | 基于上下文感知主题的查询表示及混合检索模型建立方法 |
CN106570183A (zh) * | 2016-11-14 | 2017-04-19 | 宜宾学院 | 一种彩色图像检索和分类方法 |
CN107291914A (zh) * | 2017-06-27 | 2017-10-24 | 达而观信息科技(上海)有限公司 | 一种生成搜索引擎查询扩展词的方法及系统 |
US20180004752A1 (en) * | 2016-06-30 | 2018-01-04 | International Business Machines Corporation | Log-Aided Automatic Query Expansion Based on Model Mapping |
CN108062355A (zh) * | 2017-11-23 | 2018-05-22 | 华南农业大学 | 基于伪反馈与tf-idf的查询词扩展方法 |
US20180157664A1 (en) * | 2016-12-07 | 2018-06-07 | Under Armour, Inc. | System and Method for Associating User-Entered Text to Database Entries |
CN108491462A (zh) * | 2018-03-05 | 2018-09-04 | 昆明理工大学 | 一种基于word2vec的语义查询扩展方法及装置 |
CN109684465A (zh) * | 2018-12-30 | 2019-04-26 | 广西财经学院 | 基于项集权值比较的模式挖掘和混合扩展的文本检索方法 |
CN109684463A (zh) * | 2018-12-30 | 2019-04-26 | 广西财经学院 | 基于权值比较与挖掘的跨语言译后前件扩展方法 |
CN109684464A (zh) * | 2018-12-30 | 2019-04-26 | 广西财经学院 | 通过权值比较实现规则后件挖掘的跨语言查询扩展方法 |
CN109726263A (zh) * | 2018-12-30 | 2019-05-07 | 广西财经学院 | 基于特征词加权关联模式挖掘的跨语言译后混合扩展方法 |
CN109739952A (zh) * | 2018-12-30 | 2019-05-10 | 广西财经学院 | 融合关联度和卡方值的模式挖掘与扩展的跨语言检索方法 |
-
2020
- 2020-08-04 CN CN202010774442.7A patent/CN111897928A/zh not_active Withdrawn
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020112096A1 (en) * | 1999-09-23 | 2002-08-15 | Kaminsky David Louis | Methods and apparatus for exchanging coded information |
US20180004752A1 (en) * | 2016-06-30 | 2018-01-04 | International Business Machines Corporation | Log-Aided Automatic Query Expansion Based on Model Mapping |
CN106294662A (zh) * | 2016-08-05 | 2017-01-04 | 华东师范大学 | 基于上下文感知主题的查询表示及混合检索模型建立方法 |
CN106570183A (zh) * | 2016-11-14 | 2017-04-19 | 宜宾学院 | 一种彩色图像检索和分类方法 |
US20180157664A1 (en) * | 2016-12-07 | 2018-06-07 | Under Armour, Inc. | System and Method for Associating User-Entered Text to Database Entries |
CN107291914A (zh) * | 2017-06-27 | 2017-10-24 | 达而观信息科技(上海)有限公司 | 一种生成搜索引擎查询扩展词的方法及系统 |
CN108062355A (zh) * | 2017-11-23 | 2018-05-22 | 华南农业大学 | 基于伪反馈与tf-idf的查询词扩展方法 |
CN108491462A (zh) * | 2018-03-05 | 2018-09-04 | 昆明理工大学 | 一种基于word2vec的语义查询扩展方法及装置 |
CN109684465A (zh) * | 2018-12-30 | 2019-04-26 | 广西财经学院 | 基于项集权值比较的模式挖掘和混合扩展的文本检索方法 |
CN109684463A (zh) * | 2018-12-30 | 2019-04-26 | 广西财经学院 | 基于权值比较与挖掘的跨语言译后前件扩展方法 |
CN109684464A (zh) * | 2018-12-30 | 2019-04-26 | 广西财经学院 | 通过权值比较实现规则后件挖掘的跨语言查询扩展方法 |
CN109726263A (zh) * | 2018-12-30 | 2019-05-07 | 广西财经学院 | 基于特征词加权关联模式挖掘的跨语言译后混合扩展方法 |
CN109739952A (zh) * | 2018-12-30 | 2019-05-10 | 广西财经学院 | 融合关联度和卡方值的模式挖掘与扩展的跨语言检索方法 |
Non-Patent Citations (3)
Title |
---|
MD SHAJALAL等: "Aspect-based Query Expansion for Search Results Diversification", 《2018 JOINT 7TH INTERNATIONAL CONFERENCE ON INFORMATICS, ELECTRONICS & VISION (ICIEV) AND 2018 2ND INTERNATIONAL CONFERENCE ON IMAGING, VISION & PATTERN RECOGNITION (ICIVPR)》 * |
张书波等: "基于词嵌入与扩展词交集的查询扩展", 《计算机科学》 * |
黄名选等: "基于词嵌入与扩展词交集的查询扩展", 《数据分析与知识发现》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112541362A (zh) * | 2020-12-08 | 2021-03-23 | 北京百度网讯科技有限公司 | 一种泛化处理的方法、装置、设备和计算机存储介质 |
CN112541362B (zh) * | 2020-12-08 | 2022-08-23 | 北京百度网讯科技有限公司 | 一种泛化处理的方法、装置、设备和计算机存储介质 |
US11704326B2 (en) | 2020-12-08 | 2023-07-18 | Beijing Baidu Netcom Science Technology Co., Ltd. | Generalization processing method, apparatus, device and computer storage medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106991092B (zh) | 基于大数据挖掘相似裁判文书的方法和设备 | |
CN101251841B (zh) | 基于语义的Web文档的特征矩阵的建立和检索方法 | |
CN104182527B (zh) | 基于偏序项集的中英文本词间关联规则挖掘方法及其系统 | |
CN103390004A (zh) | 一种语义冗余的确定方法和装置、对应的搜索方法和装置 | |
Mahata et al. | Theme-weighted ranking of keywords from text documents using phrase embeddings | |
Mao et al. | Automatic keywords extraction based on co-occurrence and semantic relationships between words | |
CN111897922A (zh) | 基于模式挖掘与词向量相似度计算的中文查询扩展方法 | |
Zhou et al. | Knowledge-aided open-domain question answering | |
Abolghasemi et al. | On the interpolation of contextualized term-based ranking with bm25 for query-by-example retrieval | |
CN111897926A (zh) | 深度学习与扩展词挖掘交集融合的中文查询扩展方法 | |
Liu et al. | Generating keyword queries for natural language queries to alleviate lexical chasm problem | |
CN102890690A (zh) | 目标信息搜索方法和装置 | |
CN111897928A (zh) | 查询词嵌入扩展词和统计扩展词并集的中文查询扩展方法 | |
CN109739953B (zh) | 基于卡方分析-置信度框架和后件扩展的文本检索方法 | |
CN109299292B (zh) | 基于矩阵加权关联规则前后件混合扩展的文本检索方法 | |
CN109726263B (zh) | 基于特征词加权关联模式挖掘的跨语言译后混合扩展方法 | |
CN111897921A (zh) | 基于词向量学习和模式挖掘融合扩展的文本检索方法 | |
CN111897927B (zh) | 融合Copulas理论和关联规则挖掘的中文查询扩展方法 | |
CN111897924A (zh) | 基于关联规则与词向量融合扩展的文本检索方法 | |
Li et al. | Deep learning and semantic concept spaceare used in query expansion | |
CN109684465B (zh) | 基于项集权值比较的模式挖掘和混合扩展的文本检索方法 | |
CN111897919A (zh) | 基于Copulas函数和伪相关反馈规则扩展的文本检索方法 | |
CN111897925B (zh) | 关联模式挖掘与词向量学习融合的伪相关反馈扩展方法 | |
CN109684464B (zh) | 通过权值比较实现规则后件挖掘的跨语言查询扩展方法 | |
Li et al. | Surfer100: Generating surveys from web resources, Wikipedia-style |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20201106 |