CN111897921A - 基于词向量学习和模式挖掘融合扩展的文本检索方法 - Google Patents

基于词向量学习和模式挖掘融合扩展的文本检索方法 Download PDF

Info

Publication number
CN111897921A
CN111897921A CN202010773068.9A CN202010773068A CN111897921A CN 111897921 A CN111897921 A CN 111897921A CN 202010773068 A CN202010773068 A CN 202010773068A CN 111897921 A CN111897921 A CN 111897921A
Authority
CN
China
Prior art keywords
word
vector
ret
expansion
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010773068.9A
Other languages
English (en)
Inventor
黄名选
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangxi University of Finance and Economics
Original Assignee
Guangxi University of Finance and Economics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi University of Finance and Economics filed Critical Guangxi University of Finance and Economics
Priority to CN202010773068.9A priority Critical patent/CN111897921A/zh
Publication of CN111897921A publication Critical patent/CN111897921A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3325Reformulation based on results of preceding query
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种基于词向量学习和模式挖掘融合扩展的文本检索方法,其通过用户查询检索中文文档集得到初检文档,对初检文档进行词嵌入语义学习训练得到初检文档词向量集;构建伪相关反馈文档集,采用基于Copulas函数的规则后件扩展词挖掘方法挖掘扩展词,建立规则后件扩展词集,计算规则后件扩展词与原查询的向量余弦相似度,提取词向量规则后件扩展词集;计算非查询词项与原查询的向量余弦相似度,提取词向量扩展词集;将词向量扩展词集和词向量规则后件扩展词集并集融合得到最终扩展词,最终扩展词和原查询组合为新查询,实现查询扩展。本发明采用两次检索和两次词向量相似度计算的机制实现查询扩展,文本信息检索性能得到很好的改善和提高。

Description

基于词向量学习和模式挖掘融合扩展的文本检索方法
技术领域
本发明涉及一种基于词向量学习和模式挖掘融合扩展的文本检索方法,属于信息检索技术领域。
背景技术
当前信息检索领域还存在查询主题漂移和词不匹配问题,导致信息查询性能降低,影响用户获取所需的信息资源。在信息检索中使用查询扩展技术可以解决上述问题,查询扩展指的是对原查询权重进行改造,或者添加与原查询语义相关的其他特征词,弥补原查询过于简单导致的语义信息不足,达到改善信息检索性能的目的。近十几年来,学者们从不同的视角对基于查询扩展的信息检索方法开展研究,产生了一些有效的信息检索方法,例如,Vaidyanathan等(Vaidyanathan R,Das S,Srivastava N.Query ExpansionStrategy based on Pseudo Relevance Feedback and Term Weight Scheme forMonolingual Retrieval[J].International Journal of Computer Applications,2015,105(8):1-6.)提出一种伪相关反馈扩展的信息检索方法,岳文等提出的一种基于查询扩展和分类的信息检索方法(见文献:岳文,陈治平,林亚平.基于查询扩展和分类的信息检索算法[J].系统仿真学报,2006,018(007):1926-1929,1934.),等等,这些方法经过实验验证了所述检索方法的有效性,但还没有最终完全解决信息检索中存在的查询主题漂移和词不匹配等技术问题。
为了解决当前信息检索系统中查询主题漂移和词不匹配等技术问题,提高信息系统检索性能,本发明将Copulas函数(见文献:Sklar A.Fonctions de repartitionàndimensions et leurs marges[J].Publication de l'Institut de Statistique l'Universite Paris,1959,8(1):229-231.)引入信息检索领域,将关联模式挖掘和词向量语义学习融合,采用两次检索和两次词向量相似度计算的机制实现查询扩展,提出一种基于词向量学习和模式挖掘融合扩展的文本检索方法,实验结果表明,本发明方法能提高和改善跨信息检索性能,具有较好的应用价值和推广前景。
发明内容
本发明的目的是提出一种基于词向量学习和模式挖掘融合扩展的文本检索方法,将该方法用于信息检索领域,如实际中文搜索引擎和web信息检索系统,能改善和提高信息检索系统的查询性能,减少信息检索中查询主题漂移和词不匹配问题。
本发明所采用的具体技术方案如下:
一种基于词向量学习和模式挖掘融合扩展的文本检索方法,包括下列步骤:
步骤1.用户查询检索中文文档集得到初检文档集。
步骤2.对初检文档集进行中文分词和去除中文停用词,利用深度学习工具对初检文档集进行词向量语义学习训练得到包括查询词项和非查询词项的词向量集。
本发明所述深度学习工具是指Google开源词向量工具word2vec的Skip-gram模型(详见:https://code.google.com/p/word2vec/)。
步骤3.从初检文档集中提取前列m篇初检文档作为伪相关反馈文档,构建伪相关反馈文档集,对初检伪相关反馈文档集进行中文分词、去除中文停用词和提取特征词的预处理,并计算特征词权值,最后构建伪相关反馈中文文档库和中文特征词库。
本发明采用TF-IDF(term frequency–inverse document frequency)加权技术(见文献:Ricardo Baeza-Yates Berthier Ribeiro-Neto等著,王知津等译,《现代信息检索》,机械工业出版社,2005年:21-22。)计算特征词权值。
步骤4.从中文特征词库中提取特征词得到1_候选项集C1,并计算1_候选项集C1基于Copulas函数的支持度CFSup(C1),如果CFSup(C1)不低于最小支持度阈值ms,则将C1作为1_频繁项集L1,并添加到频繁项集集合FIS(Frequent ItemSet)。
所述CFSup(Supportbasedon Copulas Function)表示基于Copulas函数的支持度。
所述CFSup(C1)的计算如式(1)所示:
Figure BDA0002617369290000021
式(1)中,freq(C1)表示1_候选项集C1在伪相关反馈中文文档库中出现的频度,freq(allDocs)表示伪相关反馈中文文档库总文档数量,w(C1)表示1_候选项集C1在伪相关反馈中文文档库中的项集权重,w(allItems)表示伪相关反馈中文文档库中全体中文特征词项目的权重累加和;exp表示以自然常数e为底的指数函数。
步骤5.由(k-1)_频繁项集Lk-1自连接产生k_候选项集Ck,所述k≥2。
所述自连接方法采用Apriori算法(见文献:Agrawal R,Imielinski T,SwamiA.Mining association rules between sets of items in large database[C]//Proceedings of the 1993 ACM SIGMOD International Conference on Management ofData,Washington D C,USA,1993:207-216.)中给出的候选项集连接方法。
步骤6.当挖掘到2_候选项集C2时,如果该C2不含有原查询词项,则删除该C2,如果该C2含有原查询词项,则留下该C2,然后,留下的C2转入步骤7;当挖掘到k_候选项集Ck,所述k≥3时,则直接转入步骤7。
步骤7.计算k_候选项集Ck支持度CFSup(Ck),如果CFSup(Ck)不低于ms,则将Ck作为k_频繁项集Lk,并添加到FIS。
所述CFSup(Ck)的计算如式(2)所示:
Figure BDA0002617369290000031
式(2)中,freq(Ck)表示k_候选项集Ck在伪相关反馈中文文档库中出现的频度,w(Ck)表示k_候选项集Ck在伪相关反馈中文文档库中的项集权重;freq(allDocs)和w(allItems)的定义与式(1)相同。
步骤8.k加1后转入步骤5继续顺序执行其后步骤,直到产生所述Lk为空集,则频繁项集挖掘结束,转入步骤9。
步骤9.从FIS中任意取出Lk,所述k≥2。
步骤10.从k_频繁项集Lk中提取真子集项集Lq和LRet,计算关联规则(Lq→LRet)基于Copulas函数的置信度CFConf(Lq→LRet),且Lq∪LRet=Lk
Figure BDA0002617369290000033
所述LRet为不含查询词项的真子集项集,所述Lq为含查询词项的真子集项集。
所述CFConf(Confidence basedon Copulas Function)表示基于Copulas函数的置信度,所述CFConf(Lq→LAet)的计算公式如式(3)所示:
Figure BDA0002617369290000032
式(3)中,freq(Lk)表示k_频繁项集Lk在伪相关反馈中文文档库中出现的频度,w(Lk)表示k_频繁项集Lk在伪相关反馈中文文档库中的项集权重,所述freq(Lq)表示k_频繁项集Lk的真子集项集Lq在伪相关反馈中文文档库中出现的频度,w(Lq)表示k_频繁项集Lk的真子集项集Lq在伪相关反馈中文文档库中的项集权重。
步骤11.提取CFConf(Lq→LRet)不小于最小置信度阈值mc的关联规则Lq→LRet加入到关联规则集AR(Association Rule),然后,转入步骤10,从Lk中重新提取其他的真子集项集Lq和LRet,再顺序进行其后步骤,如此循环,直到Lk的所有真子集项集当且仅当都被取出一次为止,这时转入如步骤9,进行新一轮关联规则模式挖掘,从FIS中再取出任意其他Lk,再顺序进行其后步骤,如此循环,直到FIS中所有k_频繁项集Lk当且仅当都被取出一次为止,这时关联规则模式挖掘结束,转入如下步骤12。
步骤12.从关联规则集AR中提取关联规则后件LRet的特征词作为规则后件扩展词,得到规则后件扩展词集RCET(Rule Consequent Expansion Term),并计算规则后件扩展词权值wRet,然后,转入步骤13。
所述RCET如式(4)所示:
RCET={Ret1,Ret2,...,Reti}
(CFSup(.)≥ms,CFConf(.)≥mc) (4)
式(4)中,Reti表示第i个规则后件扩展词。
所述规则后件扩展词权值wRet计算公式如式(5)所示:
wRet=max(CFConf(Lq→LRet)) (5)
式(5)中,max()表示关联规则置信度的最大值,当多个关联规则模式中同时出现相同的规则扩展词时,取其置信度值最大的作为该规则后件扩展词的权值。
步骤13.在词向量集中,计算规则后件扩展词(Ret1,Ret2,..,Rets)与原查询词项集合Q(所述Q=(q1,q2,…,qj))中各查询词项(q1,q2,…,qj)的向量余弦相似度RCos(Retl,qs),如式(6)所示,其中1≤l≤i,1≤s≤j。
Figure BDA0002617369290000041
式(6)中,vRetl表示第l个规则后件扩展词Retl的词向量值,vqs表示第s个查询词qs的词向量值。
步骤14.累加规则后件扩展词与各个查询词的向量相似度值得到的相似度总和作为该规则后件扩展词与原查询词项集合Q的向量余弦相似度值RSim(Retl,Q),如式(7)所示:
Figure BDA0002617369290000042
步骤15.提取向量相似度RSim(Retl,Q)值不低于最小相似度阈值minVSim的规则后件扩展词作为词向量规则后件扩展词,得到词向量规则后件扩展词集WERCETS(WordEmbedding Rule ConsequentExpansion Term Set),并计算词向量规则后件扩展词权值w(Rvetl),然后转入步骤16。所述词向量规则后件扩展词权值w(Rvetl)由规则后件扩展词权值wRet和所述规则后件扩展词与原查询词项集合Q的向量余弦相似度值RSim(Rvetl,Q)组成。
词向量规则后件扩展词集WERCETS如式(8)所示:
WERCETS={Rvet1,Rvet2,...,RvetS}
(RSim(Rvetl,Q)≥minVSim,Rvetl∈WERCETS,1≤l≤s) (8)
式(8)中,Rvets表示第s个词向量规则后件扩展词,RSim(Rvetl,Q)表示第l个词向量规则后件扩展词与各个查询词项的向量余弦相似度值的累加和,按式(7)计算。
所述w(Rvetl)计算公式如式(9)所示:
w(Rvetl)=exp(log(wRet)+log(RSim(Rvetl,Q))) (9)
步骤16.在所述词向量集中,计算非查询词项(cet1,cet2,…,ceti)与原查询词项集合Q中各查询词项(q1,q2,…,qj)的向量余弦相似度vCos(cetl,qs),其中,1≤l≤i,1≤s≤j,如式(10)所示:
Figure BDA0002617369290000051
式(10)中,vcetl表示第l个非查询词项cetl的词向量值,vqs表示第s个查询词qs的词向量值。
步骤17.累加非查询词项和原查询词项集合Q中各查询词项的向量余弦相似度得到总的相似度值,作为非查询词项与原查询词项集合Q的向量余弦相似度VSim(cetl,Q),如式(11)所示:
Figure BDA0002617369290000052
步骤18.对向量余弦相似度VSim(cetl,Q)排降序,根据所排的降序提取前列Vm个非查询词项作为原查询词项集合Q的词向量扩展词,构建词向量扩展词集WVETS(WordVector Expansion Term Sets),并计算词向量扩展词权值w(vetl),然后转入步骤19。
词向量扩展词集WVETS如式(12)所示
WVETS=(vet1,vet2,...,vetvm)
(vetl∈(cet1,cet2,…,ceti),1≤l≤vm) (12)
式(12)中,vetl表示第l个词向量扩展词(l∈(1,2,…,Vm))。
本发明将总的向量余弦相似度值作为词向量扩展词权值w(vetl),如式(13)所示:
w(vetl)=VSim(vetl,Q) (13)
步骤19词向量扩展词集WVETS和词向量规则后件扩展词集WERCETS并集融合,得到最终扩展词FETS(Final Expansion Term Set),并计算最终扩展词权值w(ETl),然后转入步骤20。
所述最终扩展词FETS如式(14)所示:
FETS=WVETS∪WERCETS={ET1,ET2,...ETn}
(ETi∈WVETS,或者ETi∈WERCETS,1≤i≤n) (14)
所述最终扩展词权值w(ETl)为词向量扩展词权值w(vetl),或者词向量规则后件扩展词权值w(Rvetl),或者为两者之和,如式(15)所示:
Figure BDA0002617369290000061
步骤20.最终扩展词和原查询组合为新查询,再次检索文档集,并将最终检索文档返回给用户。
本发明与现有技术相比,具有以下有益效果:
(1)本发明提出了一种基于词向量学习和模式挖掘融合扩展的文本检索方法,该发明方法首先通过用户查询检索原始中文文档集得到初检文档,采用基于Copulas函数的规则后件扩展词挖掘方法对伪相关反馈文档集挖掘扩展词,建立规则后件扩展词集,然后,对全部初检文档进行词嵌入语义学习训练,得到初检文档词向量集,最后,计算非查询词项与原查询的向量余弦相似度,根据降序排列的相似度值提取前列非查询词项作为词向量扩展词,得到词向量扩展词集,计算规则后件扩展词与原查询的向量余弦相似度,提取所述向量相似度值不低于最小相似度阈值的规则后件扩展词,得到词向量规则后件扩展词集,词向量扩展词集和词向量规则后件扩展词集并集融合得到最终扩展词,最终扩展词和原查询组合为新查询,再次检索文档集,并将最终检索文档返回给用户。本发明采用两次检索和两次词向量相似度计算的机制实现查询扩展,挖掘出高质量扩展词,提高信息检索性能,具有较好应用价值和推广前景。
(2)以国家标准数据集NTCIR-5CLIR中文语料作为实验数据,选择近年出现的4种同类查询扩展方法与本发明方法进行对比。实验结果表明,本发明方法检索结果MAP和P@5都高于基准检索和4种对比扩展方法,说明本发明方法的检索性能均优于基准检索和对比方法,能提高信息检索性能,减少信息检索中查询漂移和词不匹配问题,具有很高的应用价值和广阔的推广前景。
附图说明
图1为本发明所述的基于词向量学习和模式挖掘融合扩展的文本检索方法的总体流程示意图。
具体实施方式
一、为了更好地说明本发明的技术方案,下面将本发明涉及的相关概念介绍如下:
1.项集
在文本挖掘中,将一篇文本文档当作一个事务,文档中的各个特征词称为项目,特征词项目的集合称为项集,项集中所有项目的个数称为项集长度。k_项集指含有k个项目的项集,k即为项集的长度。
2.关联规则前件和后件
设x、y是任意的特征词项集,将形如x→y的蕴含式称为关联规则,其中,x称为规则前件,y称为规则后件。
3.基于Copulas函数的特征词项集支持度和置信度
Copulas理论(见文献:Sklar A.Fonctions de repartitionàn dimensions etleurs marges[J].Publication de l'Institut de Statistique l'Universite Paris,1959,8(1):229-231.)用来描述变量间相关性,可以将任意形式的分布进行合并连接为一个有效的多元分布函数。
本发明利用Copulas函数将特征词项集频度和权值综合统一到特征词关联模式支持度和置信度,提出基于Copulas函数的特征词项集支持度CFSup(SupportbasedonCopulas Function)和特征词关联规则置信度CFConf(Copulas based basedon CopulasFunction)。
基于Copulas函数的特征词项集(T1∪T2)支持度CFSup(T1∪T2)的计算公式,如式(16)所示:
Figure BDA0002617369290000071
式(16)中,freq(T1∪T2)表示项集(T1∪T2)在伪相关反馈中文文档库中出现的频度,freq(allDocs)表示伪相关反馈中文文档库总文档数量,w(T1∪T2)表示项集(T1∪T2)在伪相关反馈中文文档库中的项集权重,w(allItems)表示伪相关反馈中文文档库中全体中文特征词项目的权重累加和。exp表示以自然常数e为底的指数函数。
基于Copulas函数的特征词关联规则置信度CFConf(T1→T2)计算,如式(17)所示:
Figure BDA0002617369290000072
式(17)中,freq(T1)表示项集T1在伪相关反馈中文文档库中出现的频度,w(T1)表示项集T1在伪相关反馈中文文档库中的项集权重,freq(T1∪T2)、w(T1∪T2)的定义和式(16)相同。
4.规则后件扩展词、词向量规则后件扩展词
规则后件扩展词来自关联规则的后件项集的特征词,并将关联规则的置信度作为所述规则后件扩展词的权值。
计算规则后件扩展词与原查询的向量余弦相似度,将所述向量余弦相似度值不低于最小相似度阈值的规则后件扩展词称为词向量规则后件扩展词。
词向量规则后件扩展词权值w(Rvetl)由规则后件扩展词权值wRet和所述规则后件扩展词与原查询词项集合Q的向量余弦相似度值RSim(Rvetl,Q)组成,由于所述两种扩展词权值来源不同,本发明利用Copulas的累积分布函数,将规则后件扩展词权值和所述规则后件扩展词与原查询词项集合Q的向量余弦相似度值RSim(Rvetl,Q)综合统一为统计词向量规则后件扩展词权值w(Rvetl),如式(18)所示
Figure BDA0002617369290000081
5.词向量扩展词
计算非查询词项与全部查询词项的向量余弦相似度,将非查询词项与全部查询词项的向量余弦相似度的累加和作为所述非查询词项与原查询的总的向量余弦相似度,将根据降序排列总的向量余弦相似度提取的前列Vm个非查询词项称为词向量扩展词,并将总的向量余弦相似度值作为所述词向量扩展词权值。
二、下面结合附图和具体对比实验来对本发明作进一步说明。
如图1所示,本发明的基于词向量学习和模式挖掘融合扩展的文本检索方法,包括下列步骤:
步骤1.用户查询检索中文文档集得到初检文档集。
步骤2.对初检文档集进行中文分词和去除中文停用词,利用深度学习工具对初检文档集进行词向量语义学习训练得到包括查询词项和非查询词项的词向量集。
本发明所述深度学习工具是指Google开源词向量工具word2vec的Skip-gram模型。
步骤3.从初检文档集中提取前列m篇初检文档作为伪相关反馈文档,构建伪相关反馈文档集,对初检伪相关反馈文档集进行中文分词、去除中文停用词和提取特征词的预处理,并采用TF-IDF加权技术计算特征词权值,最后构建伪相关反馈中文文档库和中文特征词库。
步骤4.从中文特征词库中提取特征词得到1_候选项集C1,并计算1_候选项集C1基于Copulas函数的支持度CFSup(C1),如果CFSup(C1)不低于最小支持度阈值ms,则将C1作为1_频繁项集L1,并添加到频繁项集集合FIS(Frequent ItemSet)。
所述CFSup(Supportbasedon Copulas Function)表示基于Copulas函数的支持度。
所述CFSup(C1)的计算如式(1)所示:
Figure BDA0002617369290000091
式(1)中,freq(C1)表示1_候选项集C1在伪相关反馈中文文档库中出现的频度,freq(allDocs)表示伪相关反馈中文文档库总文档数量,w(C1)表示1_候选项集C1在伪相关反馈中文文档库中的项集权重,w(allItems)表示伪相关反馈中文文档库中全体中文特征词项目的权重累加和;exp表示以自然常数e为底的指数函数。
步骤5.由(k-1)_频繁项集Lk-1自连接产生k_候选项集Ck,所述k≥2。
所述自连接方法采用Apriori算法中给出的候选项集连接方法。
步骤6.当挖掘到2_候选项集C2时,如果该C2不含有原查询词项,则删除该C2,如果该C2含有原查询词项,则留下该C2,然后,留下的C2转入步骤7;当挖掘到k_候选项集Ck,所述k≥3时,则直接转入步骤7。
步骤7.计算k_候选项集Ck支持度CFSup(Ck),如果CFSup(Ck)不低于ms,则将Ck作为k_频繁项集Lk,并添加到FIS。
所述CFSup(Ck)的计算如式(2)所示:
Figure BDA0002617369290000092
式(2)中,freq(Ck)表示k_候选项集Ck在伪相关反馈中文文档库中出现的频度,w(Ck)表示k_候选项集Ck在伪相关反馈中文文档库中的项集权重;freq(allDocs)和w(allItems)的定义与式(1)相同。
步骤8.k加1后转入步骤5继续顺序执行其后步骤,直到产生所述Lk为空集,则频繁项集挖掘结束,转入步骤9。
步骤9.从FIS中任意取出Lk,所述k≥2。
步骤10.从k_频繁项集Lk中提取真子集项集Lq和LRet,计算关联规则(Lq→LRet)基于Copulas函数的置信度CFConf(Lq→LRet),且Lq∪LRet=Lk
Figure BDA0002617369290000094
所述LRet为不含查询词项的真子集项集,所述Lq为含查询词项的真子集项集。
所述CFConf(Confidence basedon Copulas Function)表示基于Copulas函数的置信度,所述CFConf(Lq→LAet)的计算公式如式(3)所示:
Figure BDA0002617369290000093
式(3)中,freq(Lk)表示k_频繁项集Lk在伪相关反馈中文文档库中出现的频度,w(Lk)表示k_频繁项集Lk在伪相关反馈中文文档库中的项集权重,所述freq(Lq)表示k_频繁项集Lk的真子集项集Lq在伪相关反馈中文文档库中出现的频度,w(Lq)表示k_频繁项集Lk的真子集项集Lq在伪相关反馈中文文档库中的项集权重。
步骤11.提取CFConf(Lq→LRet)不小于最小置信度阈值mc的关联规则Lq→LRet加入到关联规则集AR(Association Rule),然后,转入步骤10,从Lk中重新提取其他的真子集项集Lq和LRet,再顺序进行其后步骤,如此循环,直到Lk的所有真子集项集当且仅当都被取出一次为止,这时转入如步骤9,进行新一轮关联规则模式挖掘,从FIS中再取出任意其他Lk,再顺序进行其后步骤,如此循环,直到FIS中所有k_频繁项集Lk当且仅当都被取出一次为止,这时关联规则模式挖掘结束,转入如下步骤12。
步骤12.从关联规则集AR中提取关联规则后件LRet的特征词作为规则后件扩展词,得到规则后件扩展词集RCET(Rule Consequent Expansion Term),并计算规则后件扩展词权值wRet,然后,转入步骤13。
所述RCET如式(4)所示:
RCET={Ret1,Ret2,...,Reti}
(CFSup(.)≥ms,CFConf(.)≥mc) (4)
式(4)中,Reti表示第i个规则后件扩展词。
所述规则后件扩展词权值wRet计算公式如式(5)所示:
wRet=max(CFConf(Lq→LRet)) (5)
式(5)中,max()表示关联规则置信度的最大值,当多个关联规则模式中同时出现相同的规则扩展词时,取其置信度值最大的作为该规则后件扩展词的权值。
步骤13.在词向量集中,计算规则后件扩展词(Ret1,Ret2,..,Rets)与原查询词项集合Q(所述Q=(q1,q2,…,qj))中各查询词项(q1,q2,…,qj)的向量余弦相似度RCos(Retl,qs),如式(6)所示,其中1≤l≤i,1≤s≤j。
Figure BDA0002617369290000101
式(6)中,vRetl表示第l个规则后件扩展词Retl的词向量值,vqs表示第s个查询词qs的词向量值。
步骤14.累加规则后件扩展词与各个查询词的向量相似度值得到的相似度总和作为该规则后件扩展词与原查询词项集合Q的向量余弦相似度值RSim(Retl,Q),如式(7)所示:
Figure BDA0002617369290000111
步骤15.提取向量相似度RSim(Retl,Q)值不低于最小相似度阈值minVSim的规则后件扩展词作为词向量规则后件扩展词,得到词向量规则后件扩展词集WERCETS(WordEmbedding Rule ConsequentExpansion Term Set),并计算词向量规则后件扩展词权值w(Rvetl),然后转入步骤16。所述词向量规则后件扩展词权值w(Rvetl)由规则后件扩展词权值wRet和所述规则后件扩展词与原查询词项集合Q的向量余弦相似度值RSim(Rvetl,Q)组成。
词向量规则后件扩展词集WERCETS如式(8)所示:
WERCETS={Rvet1,Rvet2,...,RvetS}
(RSim(Rvetl,Q)≥minVSim,Rvetl∈WERCETS,1≤l≤s) (8)
式(8)中,Rvets表示第s个词向量规则后件扩展词,RSim(Rvetl,Q)表示第l个词向量规则后件扩展词与各个查询词项的向量余弦相似度值的累加和,按式(7)计算。
所述w(Rvetl)计算公式如式(9)所示:
w(Rvetl)=exp(log(wRet)+log(RSim(Rvetl,Q))) (9)
步骤16.在所述词向量集中,计算非查询词项(cet1,cet2,…,ceti)与原查询词项集合Q中各查询词项(q1,q2,…,qj)的向量余弦相似度vCos(cetl,qs),其中,1≤l≤i,1≤s≤j,如式(10)所示:
Figure BDA0002617369290000112
式(10)中,vcetl表示第l个非查询词项cetl的词向量值,vqs表示第s个查询词qs的词向量值。
步骤17.累加非查询词项和原查询词项集合Q中各查询词项的向量余弦相似度得到总的相似度值,作为非查询词项与原查询词项集合Q的向量余弦相似度VSim(cetl,Q),如式(11)所示:
Figure BDA0002617369290000113
步骤18.对向量余弦相似度VSim(cetl,Q)排降序,根据所排的降序提取前列Vm个非查询词项作为原查询词项集合Q的词向量扩展词,构建词向量扩展词集WVETS(WordVector Expansion Term Sets),并计算词向量扩展词权值w(vetl),然后转入步骤19。
词向量扩展词集WVETS如式(12)所示
WVETS=(vet1,vet2,...,vetvm)
(vetl∈(cet1,cet2,…,ceti),1≤l≤vm) (12)
式(12)中,vetl表示第l个词向量扩展词(l∈(1,2,…,Vm))。
本发明将总的向量余弦相似度值作为词向量扩展词权值w(vetl),如式(13)所示:
w(vetl)=VSim(vetl,Q) (13)
步骤19词向量扩展词集WVETS和词向量规则后件扩展词集WERCETS并集融合,得到最终扩展词FETS(Final Expansion Term Set),并计算最终扩展词权值w(ETl),然后转入步骤20。
所述最终扩展词FETS如式(14)所示:
FETS=WVETS∪WERCETS={ET1,ET2,...ETn}
(ETi∈WVETS,或者ETi∈WERCETS,1≤i≤n) (14)
所述最终扩展词权值w(ETl)为词向量扩展词权值w(vetl),或者词向量规则后件扩展词权值w(Rvetl),或者为两者之和,如式(15)所示:
Figure BDA0002617369290000121
步骤20.最终扩展词和原查询组合为新查询,再次检索文档集,并将最终检索文档返回给用户。
实验设计与结果:
我们通过和现有同类方法进行实验对比,以说明本发明方法的有效性。
1.实验环境及实验数据:
为了验证本文提出的查询扩展模型的有效性,本文采用国际标准数据集NTCIR-5CLIR(http://research.nii.ac.jp/ntcir/data/data-en.html.)的中文文本语料作为实验数据。该中文语料为8个数据集共计901446篇文档,具体信息如表1所示。该语料有4种类型的查询主题,共50个中文查询,结果集有2种评价标准:Rigid(与查询高度相关,相关)和Relax(与查询高度相关、相关和部分相关)。
本发明实验采用Description(即Desc)查询主题,Desc查询以句子形式简要描述查询主题。
实验数据预处理是:中文分词和去除中文停用词。实验结果检索评价指标是MAP(Mean Average Precision)和P@5。
表1原始语料集信息
Figure BDA0002617369290000131
2.基准检索与对比方法:
实验基础检索环境采用Lucene.Net(详见:http://lucenenet.apache.org/)搭建。
基准检索与对比算法说明如下:
基准检索BR(Baseline Retrieval):指50个原始查询经Lucene.Net初次检索得到的检索结果。具体对比查询扩展方法描述如下:
对比方法1:采用文献(黄名选.基于加权关联模式挖掘的越-英跨语言查询扩展[J].情报学报,2017,36(3):307-318.)的加权关联模式挖掘技术挖掘扩展词.实验参数:mc=0.1,mi=0.0001,ms∈(0.004,0.005,0.006,0.007)。
对比方法2:文献(Zhang H R,Zhang J W,Wei X Y,et al.A new frequentpattern mining algorithm with weighted multiple minimum supports[J].Intelligent Automation&Soft Computing,2017,23(4):605-612.)的基于多支持度阈值的加权频繁模式挖掘技术挖掘扩展词.实验参数:mc=0.1,LMS=0.2,HMS=0.25,WT=0.1,ms∈(0.1,0.15,0.2,0.25)。
对比方法3:采用文献(许侃,林原,曲忱,等.专利查询扩展的词向量方法研究[J].计算机科学与探索,2018,12(6):972-980.)基于词向量的查询扩展方法。实验参数:k=60,α=0.1。
对比方法4:采用文献(黄名选,蒋曹清.基于完全加权正负关联模式挖掘的越-英跨语言查询译后扩展[J].电子学报,2018,46(12):3029-3036.)的完全加权正负关联模式挖掘技术挖掘正负扩展词,去除负扩展词后得到最终扩展词.实验参数:mc=0.1,α=0.3,minPR=0.1,minNR=0.01,ms∈(0.10,0.11,0.12,0.13)。
3.实验结果如下:
50个中文查询在实验数据集上运行Lucene.Net和本发明方法、对比方法的源程序,得到基准检索、对比方法以及本发明方法的检索结果MAP和P@5的平均值,如表2~表5所示。
表2本发明方法与基准检索、对比方法的检索结果P@5值(Relax)
Figure BDA0002617369290000141
表3本发明方法与基准检索、对比方法的检索结果P@5值(Rigid)
Figure BDA0002617369290000142
表4本发明方法与基准检索、对比方法的检索结果MAP值(Relax)
Figure BDA0002617369290000143
表5本发明方法与基准检索、对比方法的检索结果MAP值(Rigid)
Figure BDA0002617369290000144
表2~5表明,相对于4种对比方法,本发明方法MAP和P@5值绝大部分都得到提升,同时,本发明方法的实验结果MAP和P@5值都高于基准检索,说明本发明方法扩展检索性能高于基准检索和同类的对比方法。实验结果表明,本发明方法是有效的,确实能提高息检索性能,具有很高的应用价值和广阔的推广前景。

Claims (1)

1.一种基于词向量学习和模式挖掘融合扩展的文本检索方法,其特征在于,包括下列步骤:
步骤1.用户查询检索中文文档集得到初检文档集;
步骤2.对初检文档集进行中文分词和去除中文停用词,利用深度学习工具对初检文档集进行词向量语义学习训练得到包括查询词项和非查询词项的词向量集;
所述深度学习工具是指Google开源词向量工具word2vec的Skip-gram模型;
步骤3.从初检文档集中提取前列m篇初检文档作为伪相关反馈文档,构建伪相关反馈文档集,对初检伪相关反馈文档集进行中文分词、去除中文停用词和提取特征词的预处理,并采用TF-IDF加权技术计算特征词权值,最后构建伪相关反馈中文文档库和中文特征词库;
步骤4.从中文特征词库中提取特征词得到1_候选项集C1,并计算1_候选项集C1基于Copulas函数的支持度CFSup(C1),如果CFSup(C1)不低于最小支持度阈值ms,则将C1作为1_频繁项集L1,并添加到频繁项集集合FIS;
所述CFSup(C1)的计算如式(1)所示:
Figure FDA0002617369280000011
式(1)中,freq(C1)表示1_候选项集C1在伪相关反馈中文文档库中出现的频度,freq(allDocs)表示伪相关反馈中文文档库总文档数量,w(C1)表示1_候选项集C1在伪相关反馈中文文档库中的项集权重,w(allItems)表示伪相关反馈中文文档库中全体中文特征词项目的权重累加和;exp表示以自然常数e为底的指数函数;
步骤5.由(k-1)_频繁项集Lk-1自连接产生k_候选项集Ck,所述k≥2;
所述自连接方法采用Apriori算法中给出的候选项集连接方法;
步骤6.当挖掘到2_候选项集C2时,如果该C2不含有原查询词项,则删除该C2,如果该C2含有原查询词项,则留下该C2,然后,留下的C2转入步骤7;当挖掘到k_候选项集Ck,所述k≥3时,则直接转入步骤7;
步骤7.计算k_候选项集Ck支持度CFSup(Ck),如果CFSup(Ck)不低于ms,则将Ck作为k_频繁项集Lk,并添加到FIS;
所述CFSup(Ck)的计算如式(2)所示:
Figure FDA0002617369280000012
式(2)中,freq(Ck)表示k_候选项集Ck在伪相关反馈中文文档库中出现的频度,w(Ck)表示k_候选项集Ck在伪相关反馈中文文档库中的项集权重;freq(allDocs)和w(allItems)的定义与式(1)相同;
步骤8.k加1后转入步骤5继续顺序执行其后步骤,直到产生所述Lk为空集,则频繁项集挖掘结束,转入步骤9;
步骤9.从FIS中任意取出Lk,所述k≥2;
步骤10.从k_频繁项集Lk中提取真子集项集Lq和LRet,计算关联规则(Lq→LRet)基于Copulas函数的置信度CFConf(Lq→LRet),且Lq∪LRet=Lk
Figure FDA0002617369280000021
所述LRet为不含查询词项的真子集项集,所述Lq为含查询词项的真子集项集;
所述CFConf(Lq→LAet)的计算公式如式(3)所示:
Figure FDA0002617369280000022
式(3)中,freq(Lk)表示k_频繁项集Lk在伪相关反馈中文文档库中出现的频度,w(Lk)表示k_频繁项集Lk在伪相关反馈中文文档库中的项集权重,所述freq(Lq)表示k_频繁项集Lk的真子集项集Lq在伪相关反馈中文文档库中出现的频度,w(Lq)表示k_频繁项集Lk的真子集项集Lq在伪相关反馈中文文档库中的项集权重;
步骤11.提取CFConf(Lq→LRet)不小于最小置信度阈值mc的关联规则Lq→LRet加入到关联规则集AR,然后,转入步骤10,从Lk中重新提取其他的真子集项集Lq和LRet,再顺序进行其后步骤,如此循环,直到Lk的所有真子集项集当且仅当都被取出一次为止,这时转入如步骤9,进行新一轮关联规则模式挖掘,从FIS中再取出任意其他Lk,再顺序进行其后步骤,如此循环,直到FIS中所有k_频繁项集Lk当且仅当都被取出一次为止,这时关联规则模式挖掘结束,转入如下步骤12;
步骤12.从关联规则集AR中提取关联规则后件LRet的特征词作为规则后件扩展词,得到规则后件扩展词集RCET,并计算规则后件扩展词权值wRet,然后,转入步骤13;
所述RCET如式(4)所示:
RCET={Ret1,Ret2,...,Reti}
(CFSup(.)≥ms,CFConf(.)≥mc) (4)
式(4)中,Reti表示第i个规则后件扩展词;
所述规则后件扩展词权值wRet计算公式如式(5)所示:
wRet=max(CFConf(Lq→LRet)) (5)
式(5)中,max()表示关联规则置信度的最大值,当多个关联规则模式中同时出现相同的规则扩展词时,取其置信度值最大的作为该规则后件扩展词的权值;
步骤13.在词向量集中,计算规则后件扩展词(Ret1,Ret2,..,Rets)与原查询词项集合Q(所述Q=(q1,q2,…,qj))中各查询词项(q1,q2,…,qj)的向量余弦相似度RCos(Retl,qs),如式(6)所示,其中1≤l≤i,1≤s≤j;
Figure FDA0002617369280000031
式(6)中,vRetl表示第l个规则后件扩展词Retl的词向量值,vqs表示第s个查询词qs的词向量值;
步骤14.累加规则后件扩展词与各个查询词的向量相似度值得到的相似度总和作为该规则后件扩展词与原查询词项集合Q的向量余弦相似度值RSim(Retl,Q),如式(7)所示:
Figure FDA0002617369280000032
步骤15.提取向量相似度RSim(Retl,Q)值不低于最小相似度阈值minVSim的规则后件扩展词作为词向量规则后件扩展词,得到词向量规则后件扩展词集WERCETS,并计算词向量规则后件扩展词权值w(Rvetl),然后转入步骤16;所述词向量规则后件扩展词权值w(Rvetl)由规则后件扩展词权值wRet和所述规则后件扩展词与原查询词项集合Q的向量余弦相似度值RSim(Rvetl,Q)组成;
词向量规则后件扩展词集WERCETS如式(8)所示:
WERCETS={Rvet1,Rvet2,...,RvetS}
(RSim(Rvetl,Q)≥minVSim,Rvetl∈WERCETS,1≤l≤s) (8)
式(8)中,Rvets表示第s个词向量规则后件扩展词,RSim(Rvetl,Q)表示第l个词向量规则后件扩展词与各个查询词项的向量余弦相似度值的累加和,按式(7)计算;
所述w(Rvetl)计算公式如式(9)所示:
w(Rvetl)=exp(log(wRet)+log(RSim(Rvetl,Q))) (9)
步骤16.在所述词向量集中,计算非查询词项(cet1,cet2,…,ceti)与原查询词项集合Q中各查询词项(q1,q2,…,qj)的向量余弦相似度vCos(cetl,qs),其中,1≤l≤i,1≤s≤j,如式(10)所示:
Figure FDA0002617369280000041
式(10)中,vcetl表示第l个非查询词项cetl的词向量值,vqs表示第s个查询词qs的词向量值;
步骤17.累加非查询词项和原查询词项集合Q中各查询词项的向量余弦相似度得到总的相似度值,作为非查询词项与原查询词项集合Q的向量余弦相似度VSim(cetl,Q),如式(11)所示:
Figure FDA0002617369280000042
步骤18.对向量余弦相似度VSim(cetl,Q)排降序,根据所排的降序提取前列Vm个非查询词项作为原查询词项集合Q的词向量扩展词,构建词向量扩展词集WVETS,并计算词向量扩展词权值w(vetl),然后转入步骤19;
词向量扩展词集WVETS如式(12)所示
WVETS=(vet1,vet2,...,vetvm)
(vetl∈(cet1,cet2,…,ceti),1≤l≤vm) (12)
式(12)中,vetl表示第l个词向量扩展词(l∈(1,2,…,Vm));
本发明将总的向量余弦相似度值作为词向量扩展词权值w(vetl),如式(13)所示:
w(vetl)=VSim(vetl,Q) (13)
步骤19词向量扩展词集WVETS和词向量规则后件扩展词集WERCETS并集融合,得到最终扩展词FETS,并计算最终扩展词权值w(ETl),然后转入步骤20;
所述最终扩展词FETS如式(14)所示:
FETS=WVETS∪WERCETS={ET1,ET2,...ETn}
(ETi∈WVETS,或者ETi∈WERCETS,1≤i≤n) (14)
所述最终扩展词权值w(ETl)为词向量扩展词权值w(vetl),或者词向量规则后件扩展词权值w(Rvetl),或者为两者之和,如式(15)所示:
Figure FDA0002617369280000043
步骤20.最终扩展词和原查询组合为新查询,再次检索文档集,并将最终检索文档返回给用户。
CN202010773068.9A 2020-08-04 2020-08-04 基于词向量学习和模式挖掘融合扩展的文本检索方法 Withdrawn CN111897921A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010773068.9A CN111897921A (zh) 2020-08-04 2020-08-04 基于词向量学习和模式挖掘融合扩展的文本检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010773068.9A CN111897921A (zh) 2020-08-04 2020-08-04 基于词向量学习和模式挖掘融合扩展的文本检索方法

Publications (1)

Publication Number Publication Date
CN111897921A true CN111897921A (zh) 2020-11-06

Family

ID=73183352

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010773068.9A Withdrawn CN111897921A (zh) 2020-08-04 2020-08-04 基于词向量学习和模式挖掘融合扩展的文本检索方法

Country Status (1)

Country Link
CN (1) CN111897921A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112687097A (zh) * 2020-11-16 2021-04-20 招商新智科技有限公司 一种高速公路路段级数据中台系统

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020194158A1 (en) * 2001-05-09 2002-12-19 International Business Machines Corporation System and method for context-dependent probabilistic modeling of words and documents
CN107066553A (zh) * 2017-03-24 2017-08-18 北京工业大学 一种基于卷积神经网络与随机森林的短文本分类方法
CN108509474A (zh) * 2017-09-15 2018-09-07 腾讯科技(深圳)有限公司 搜索信息的同义词扩展方法及装置
CN108897857A (zh) * 2018-06-28 2018-11-27 东华大学 面向领域的中文文本主题句生成方法
KR20190005494A (ko) * 2017-07-07 2019-01-16 김선욱 검색 행동 패턴에 기반한 검색어 추천 시스템
CN109299278A (zh) * 2018-11-26 2019-02-01 广西财经学院 基于置信度-相关系数框架挖掘规则前件的文本检索方法
CN109299239A (zh) * 2018-09-29 2019-02-01 福建弘扬软件股份有限公司 一种基于es的电子病历检索方法
CN109299292A (zh) * 2018-11-26 2019-02-01 广西财经学院 基于矩阵加权关联规则前后件混合扩展的文本检索方法
CN109493977A (zh) * 2018-11-09 2019-03-19 天津新开心生活科技有限公司 文本数据处理方法、装置、电子设备及计算机可读介质
CN109582769A (zh) * 2018-11-26 2019-04-05 广西财经学院 基于权值排序的关联模式挖掘和后件扩展的文本检索方法
CN109726263A (zh) * 2018-12-30 2019-05-07 广西财经学院 基于特征词加权关联模式挖掘的跨语言译后混合扩展方法
CN110232186A (zh) * 2019-05-20 2019-09-13 浙江大学 融合实体描述、层次化类型和文本关系信息的知识图谱表示学习方法
CN111353303A (zh) * 2020-05-25 2020-06-30 腾讯科技(深圳)有限公司 词向量构建方法、装置、电子设备及存储介质

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020194158A1 (en) * 2001-05-09 2002-12-19 International Business Machines Corporation System and method for context-dependent probabilistic modeling of words and documents
CN107066553A (zh) * 2017-03-24 2017-08-18 北京工业大学 一种基于卷积神经网络与随机森林的短文本分类方法
KR20190005494A (ko) * 2017-07-07 2019-01-16 김선욱 검색 행동 패턴에 기반한 검색어 추천 시스템
CN108509474A (zh) * 2017-09-15 2018-09-07 腾讯科技(深圳)有限公司 搜索信息的同义词扩展方法及装置
CN108897857A (zh) * 2018-06-28 2018-11-27 东华大学 面向领域的中文文本主题句生成方法
CN109299239A (zh) * 2018-09-29 2019-02-01 福建弘扬软件股份有限公司 一种基于es的电子病历检索方法
CN109493977A (zh) * 2018-11-09 2019-03-19 天津新开心生活科技有限公司 文本数据处理方法、装置、电子设备及计算机可读介质
CN109299278A (zh) * 2018-11-26 2019-02-01 广西财经学院 基于置信度-相关系数框架挖掘规则前件的文本检索方法
CN109299292A (zh) * 2018-11-26 2019-02-01 广西财经学院 基于矩阵加权关联规则前后件混合扩展的文本检索方法
CN109582769A (zh) * 2018-11-26 2019-04-05 广西财经学院 基于权值排序的关联模式挖掘和后件扩展的文本检索方法
CN109726263A (zh) * 2018-12-30 2019-05-07 广西财经学院 基于特征词加权关联模式挖掘的跨语言译后混合扩展方法
CN110232186A (zh) * 2019-05-20 2019-09-13 浙江大学 融合实体描述、层次化类型和文本关系信息的知识图谱表示学习方法
CN111353303A (zh) * 2020-05-25 2020-06-30 腾讯科技(深圳)有限公司 词向量构建方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
常耀成等: "特征驱动的关键词提取算法综述", 《软件学报》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112687097A (zh) * 2020-11-16 2021-04-20 招商新智科技有限公司 一种高速公路路段级数据中台系统

Similar Documents

Publication Publication Date Title
Singh et al. Vector space model: an information retrieval system
CN106156272A (zh) 一种基于多源语义分析的信息检索方法
Aggarwal et al. Query Expansion Using Wikipedia and Dbpedia.
Nguyen et al. Exploiting syntactic and semantic information for relation extraction from wikipedia
CN109299278B (zh) 基于置信度-相关系数框架挖掘规则前件的文本检索方法
Mao et al. Automatic keywords extraction based on co-occurrence and semantic relationships between words
MacAvaney et al. Characterizing question facets for complex answer retrieval
Wang et al. A semantic query expansion-based patent retrieval approach
CN111897922A (zh) 基于模式挖掘与词向量相似度计算的中文查询扩展方法
CN111897921A (zh) 基于词向量学习和模式挖掘融合扩展的文本检索方法
CN109739953B (zh) 基于卡方分析-置信度框架和后件扩展的文本检索方法
Baghel et al. Text document clustering based on frequent concepts
CN109299292B (zh) 基于矩阵加权关联规则前后件混合扩展的文本检索方法
CN109726263B (zh) 基于特征词加权关联模式挖掘的跨语言译后混合扩展方法
CN111897928A (zh) 查询词嵌入扩展词和统计扩展词并集的中文查询扩展方法
CN111897924A (zh) 基于关联规则与词向量融合扩展的文本检索方法
Heidary et al. Automatic text summarization using genetic algorithm and repetitive patterns
Li et al. Deep learning and semantic concept spaceare used in query expansion
CN111897926A (zh) 深度学习与扩展词挖掘交集融合的中文查询扩展方法
CN111897927B (zh) 融合Copulas理论和关联规则挖掘的中文查询扩展方法
CN109684464B (zh) 通过权值比较实现规则后件挖掘的跨语言查询扩展方法
Ren et al. Role-explicit query extraction and utilization for quantifying user intents
CN109684465B (zh) 基于项集权值比较的模式挖掘和混合扩展的文本检索方法
CN108416442B (zh) 基于项频度和权值的中文词间矩阵加权关联规则挖掘方法
CN111897925B (zh) 关联模式挖掘与词向量学习融合的伪相关反馈扩展方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20201106

WW01 Invention patent application withdrawn after publication