CN104765769A - 一种基于词矢量的短文本查询扩展及检索方法 - Google Patents

一种基于词矢量的短文本查询扩展及检索方法 Download PDF

Info

Publication number
CN104765769A
CN104765769A CN201510103341.6A CN201510103341A CN104765769A CN 104765769 A CN104765769 A CN 104765769A CN 201510103341 A CN201510103341 A CN 201510103341A CN 104765769 A CN104765769 A CN 104765769A
Authority
CN
China
Prior art keywords
word
vector
query
short text
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510103341.6A
Other languages
English (en)
Other versions
CN104765769B (zh
Inventor
林鸿飞
王琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN201510103341.6A priority Critical patent/CN104765769B/zh
Publication of CN104765769A publication Critical patent/CN104765769A/zh
Application granted granted Critical
Publication of CN104765769B publication Critical patent/CN104765769B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

一种基于词矢量的短文本查询扩展及检索方法,具体包括:A、短文本语料信息预处理;B、训练模型将语料词典中的每个词用词矢量来表示;C、查询扩展;D、利用查询扩展词集及BM25检索模型获取文本候选集;E、短文本的主题抽取;F、计算短文本的文本矢量;G、对传统检索模型返回的短文本重排序。本发明能够更加准确,有效地满足用户检索的需求,并且查询扩展模块会根据已有数据找出能表达用户意图的词进行查询扩展。

Description

一种基于词矢量的短文本查询扩展及检索方法
技术领域
本发明涉及数据挖掘和搜索引擎技术领域,尤其是一种基于词矢量的短文本查询扩展及检索方法。
背景技术
随着计算机和网络Internet的迅猛发展,从海量的信息资源中精确地获取信息变得越来越困难。海量信息中有很大一部分是以短文本的形式存在,同时短文本也是人们在日常生活中所必不可少的一种数据形式。短文本信息主要包括博客留言,微博信息,短信息,聊天记录等,其特点是信息长度较短,语言形式比较灵活,数据规模巨大,时效性比较强,更新速度飞快。传统的搜索引擎在这些短文本检索中精确度并不高,不能够满足人们准确获取信息的需要,因此本发明设计并实现了一种更为适合短文本信息获取的搜索引擎系统。
人们对短文本还没有找到一个高效准确的检索方法,目前关于短文本检索的方法有以下几种:
一、基于词共现的方法
当用户给定一个查询词后,搜索引擎会根据倒排索引对出现查询词的文档进行检索并评分。该方法要求所返回的短文本必须包含用户的查询词,如布尔模型、VSM模型、BM25模型、LM模型等。这类方法的缺点是:当用户给一个检索词的时候,搜索引擎只能返回包含该检索词的文档,而无法返回语义上相关但是用不同词语表达的其它文档。在短文本中,该缺点将表现的更加明显,因此短文本不太适合采用此类方法。
二、基于语义关联的方法
当用户给定一个查询词后,搜索引擎会根据这些查询词的语义信息进行扩展,将语义上相近的词语共同作为文档搜索的关键字,来丰富查询的结果。该类方法主要包括潜在语义分析模型(LSA)、概率潜在语义分析模型(PLSA),文档生成模型(LDA)等。这类方法的缺点是:当用户给定一个检索词的时候,搜索引擎会引入大量的噪音信息,虽然在一定程度上提高了检索系统的召回率,但同样引入了大量不相关的文本,降低了检索的准确度。因此,如何在丰富检索结果的同时,去掉大量不相关的信息是此类方法研究的关键。
另外,由于有的时候用户给定的查询不足以表达其所要查询的确切需求,或者说用户不知道用什么词语来表达所要检索的内容。针对这种问题,研究者们发明了查询扩展技术,用以更准确的描述用户的需求,获得更多相关、准确的返回结果。
为了提高用户的检索满意度,查询扩展技术已经成为所有搜索引擎所必须加入的一个模块,目前查询扩展方法有以下几种:
一、基于相关反馈的查询扩展
系统对用户的初始查询返回一系列结果,用户检查这组结果,并标注相关与否,然后,搜索引擎再一次利用相关文档中的重要词语进行查询扩展。该方法缺点是需要用户的参与,并且需要大量的数据来进行参数训练,因此在实践中还有许多问题需要解决。
二、基于局部分析的查询扩展
系统对用户查询所返回的前N篇文档作为相关文档,然后将其中的重要词汇作为扩展词进行查询扩展。该方法克服了相关反馈的需要用户参与的缺点,但是却牺牲了准确性,有可能把大量无关的词语加入到扩展词中来。
三、基于全局分析的查询扩展
全局分析通过对词语之间的相互关联程度,将与查询词关联度相近的若干个词语作为查询词进行扩展,具体技术主要包括词聚类、潜在语义分析、相似性词典、统计词典和语义词典(WordNet)等。
这些方法仅从语义上丰富了查询词的表示,但是并没有试图去理解用户的查询意图,而是找到每个词相近的词来进行查询扩展,很容易导致主题偏移和引入噪音等问题。因此,针对短文本如何选择最好的查询扩展词和最准确高效的检索模型成为目前该领域亟待解决的问题。
发明内容
本发明的目的是提供一种用以理解用户的查询意图并提高检索的准确性的基于词矢量的短文本查询扩展及检索方法。
本发明解决现有技术问题所采用的技术方案:一种基于词矢量的短文本查询扩展及检索方法,包括以下步骤:
A、短文本语料信息预处理:从已知数据库中采集包含短文本语料信息的文本语料集,从文本语料集中删除字数少于预设阈值的短文本语料信息;识别出所述文本语料集中的转发短文本语料信息并将其删除;对文本语料集中剩余的短文本语料信息进行分词处理,得到分词语料词典;记录每个词在所述分词语料词典中的出现次数,并去除频率小于预设阈值的词,得到语料词典;对语料词典中的短文本建立倒排索引;
B、训练模型将语料词典中的每个词用词矢量来表示:包括以下步骤:
B1、根据语料词典创建Huffman树:
对所述语料词典中的每个词语进行Huffman编码并创建Huffman树,Huffman树的每个叶子节点来代表语料词典中的每个词,根节点到每个叶子节点的路径表示该词的Huffman编码,根节点到每个叶子节点之间的内部节点不断对词语进行分类,最终把每一个词分到某个对应的叶子节点上;
B2、利用无监督训练模型对语料词典中的每个词用词矢量的形式表示
对于所述语料词典中的每个词定义一个k维实数向量,每一维实数向量为一个变量,将所述k维实数向量作为逻辑回归模型的输入向量通过逻辑回归二元分类方法来预测Huffman树中该词的上下文词语所对应的叶子节点所在路径的边值的概率;Huffman树中包括根节点在内的每一个内部节点对应一个逻辑回归模型,并同时通过损失函数和求导公式进行参数与输入变量的更新,以使输入的矢量比较接近;最后,将更新后得到的输入向量作为该词的矢量表示;
C、查询扩展:将用户的查询文本信息进行分词处理并去除停用词,得到查询词集,所述查询词集利用步骤B2的方法使查询词集中的每个查询词以词矢量的形式表示,查询词集中的词矢量经归一化后矢量相加,获得一个新的向量作为查询向量;再从所述语料词典中选出与所述查询向量的矢量夹角最相近的词语所形成的集合作为查询扩展候选集,并把它们与局部分析的查询扩展词集的交集作为最后使用的查询扩展词集,并加大原查询词的权重;所述局部分析的查询扩展词集为在通过BM25检索模型对查询词进行文本相似度计算后所返回的排序靠前的文档中,去除停用词后排序靠前的高频关键字所构成的集合;
D、利用查询扩展词集及BM25检索模型获取文本候选集:将查询扩展词集中每个查询词的IDF权值、查询词短文本权值与查询权值乘积的加和作为每篇短文本的传统模型检索得分,其中,IDF权值为查询词短文本权值为查询权值为N为短文本总数,ni为包含查询词i的文本个数,tfi为该篇文档所含查询词词频,qfi为查询文本中查询词i的词频,dl和avdl分别表示短文本长度和短文本平均长度,其它变量为调节参数;然后,采用BM25检索模型根据查询扩展词集中的查询词进行检索,按照传统模型检索得分由高到低对每篇输出文档进行排序并把排名靠前的短文本返回作为候选集;
E、短文本的主题抽取:首先对步骤D中获得的候选集中的短文本中的词语进行聚类分析,然后选出与步骤C中的查询向量最相近的一组聚类结果作为短文本主题;所述聚类结果的每一类别内的词数至少是原文本总词数的1/5;
F、计算短文本的文本向量:把所述短文本主题中的词矢量经归一化处理后进行累加作为该短文本的主题向量,并记录所述主题向量与查询向量的余弦相似度;
G、对传统检索模型返回的短文本进行二次排序,同时考虑语义相似度和传统模型所得分数进行二次排序:将步骤F中记录的主题向量与查询向量的余弦相似度值和传统模型检索得分进行线性插值,得到最终得分并对所述最终得分进行二次排序输出。
所述逻辑回归模型的具体训练过程如下:
随机地产生一个整数N,满足1<=N<=L,其中L为预先设定的阈值,假设预测词w,Huffman编码为C,分别将w前后共2*N个词的向量作为|C|个逻辑回归模型的输入,第i个逻辑回归模型的输出表示w编码第i位为1的概率;对于输入向量X的第i个逻辑回归模型的损失函数为:J(θ)=-[Ci*loghθ(X)+(1-Ci)*log(1-hθ(X))],其中即采用sigmoid作为分类函数;
通过求导可得梯度下降公式为θj=θj-α*(hθ(X)-Ci)*Xj,Xj=Xj-α*(hθ(X)-Ci)*θj,其中,θj,Xj同步更新;
步骤E中所用的聚类分析算法具体如下:
枚举候选集的短文本中的每一个词,假设已有n个类别,对于当前的词矢量V,找到与V最相近的类别向量C,计算其余弦相似度s,
则直接将V合并到类别C中,并使用直接的加和操作更新向量C;否则随机产生一个实数r(0<=r<=1),若创建一个新的类别,并将V作为新的类别向量,否则直接略去该词,不予考虑;最后除去类别中词数小于文本总词数1/5的类别。
步骤A中,从文本语料集中删除字数少于20个字的短文本。
本发明的有益效果在于:本发明将词共现与语义关联检索方法相结合,并使用带有查询意图的全局分析查询扩展方法。使本发明具有以下优点:
1、在单机环境中(CPU为双核3.0GHz,内存为4G),仅使用局部查询扩展方法和BM25检索模型,平均NDCG10值为0.596,使用本发明方法后,平均NDCG10值可达到0.716,同比增长12%。考虑语义相似度后,平均NDCG10值可达到0.793,再一次增长7.7%。
2、通过对用户检索词进行分析,并用词矢量的可加性理解用户的搜索意图,从数据字典中选择最接近用户搜索意图的词语作为查询扩展的候选词,同时,为了防止主题偏移,采取与局部相关反馈结果取交集的形式,显著地提高了搜索的丰富性。
3、将传统检索模型所返回的结果进行二次排序,同时考虑传统模型的分数和短文本与用户检索词的相似度,利用线性插值的方法,将最优的结果展现给用户。
4、本发明充分利用词矢量的叠加特性对微博等短文本进行主题词聚类,避免了K-means算法中人工设定聚类个数和迭代的过程,不但减小了算法的时间复杂度,而且还能够满足聚类的要求。
5、本发明使用与查询词最相关的聚类结果作为短文本的主题词,提高了微博主题向量的准确度。
附图说明
图1为本发明的总体流程框架图。
图2为本发明词矢量的训练模型结构图。
具体实施方式
以下结合附图及具体实施方式对本发明进行说明:
如图1所示,本发明一种基于词矢量的短文本查询扩展及检索方法的总体思路是:首先通过对短文本进行无监督学习,从中获得词语的向量表示,然后应用向量的可叠加性,使其具有理解用户查询意图的能力,最后使用抽取文本主题词的方法获得文本的向量表示,并计算其与查询词的语义相似度,再与传统模型得分进行线性插值作为最终搜索引擎排序的依据。本发明的具体步骤如下:
A、短文本语料信息预处理:从已知数据库中通过爬虫技术采集包含短文本语料信息的文本语料集,对于字数少于预设阈值的短文本(本发明设定阈值为20个字)由于其不足以表达足够的内容,因此把它们当成垃圾短文本,需要直接删除;对于转发的短文本,由于其包含原文本的全部信息,新加入的词语极少,为了提高检索的质量,满足结果的丰富性,因此也需删除。因此,从文本语料集中应删除字数少于20个字的短文本;并识别出文本语料集中的转发短文本并将其删除;对文本语料集中剩余的文本使用分词器进行分词处理,即将文本语料集中剩余的文本中的词语以空格形式分开,形成分词语料词典;在分词过程中,维护分词语料词典,记录每个词语的在分词语料词典中出现的次数。将在分词语料词典中出现次数小于预设阈值的词语删除,得到语料词典,然后对语料词典中的短文本建立倒排索引。
需要注意的是,我们只是删除用于逻辑回归训练的字典中稀有词,在建立倒排索引的过程中,稀有词仍然要考虑,因此并不会造成因为某个词出现次数少而检索不到的后果。
B、训练模型将语料词典中的每个词用词矢量来表示:包括以下步骤:
B1、根据语料词典创建Huffman树:
对语料词典中的每个词语按照词频进行Huffman编码并创建Huffman树,Huffman树的每个叶子节点来代表语料词典中的每个词,根节点到每个叶子节点的路径表示该词的Huffman编码,根节点到每个叶子节点之间的内部节点不断对词语进行分类,最终把每一个词分到某个对应的叶子节点上;
B2、利用无监督训练模型对语料词典中的每个词用词矢量的形式表示
对于所述语料词典中的每个词定义一个k维实数向量,每一维实数向量为一个变量,将所述k维实数向量作为逻辑回归模型的输入向量通过逻辑回归二元分类方法来预测Huffman树中该词上下文词语对应节点所在路径的边值的概率;Huffman树中包括根节点在内的每一个内部节点对应一个逻辑回归模型,并同时通过损失函数和求导公式进行参数与输入变量的更新,以使输入的矢量比较接近;最后,将更新后得到的输入向量作为该词的矢量表示;为了便于说明,以图2为例做简要说明,如图2所示,对四个词进行Huffman编码,对应四个叶子节点a,b,c,d,其编码分别为“00”、“01”、“10”、“11”。训练时只需训练对应叶子节点到根节点g路径上的所有内部节点e,f和根节点g即可。例如训练“10”编码,我们只需训练根节点g和其右孩子节点f的逻辑回归模型。这样做的好处是可以节省大量的计算时间而且仍然保证生成字典中每一个词的概率之和为1,加快收敛速度。同时,将每一个词用四维向量进行表示,如图2。由于一共有两个内部节点和一个根节点,所以一共需要三个逻辑回归模型。前两个词(“00”,“01”)使用根节点g和左孩子节点e的逻辑回归模型;后两个词(“10”,“11”)使用根节点g和右孩子节点f的逻辑回归模型。
逻辑回归模型的具体训练过程如下:
随机地产生一个整数N,满足1<=N<=L,其中L为预先设定的阈值,假设预测词w,Huffman编码为C,分别将w前后共2*N个词的向量作为|C|个逻辑回归模型的输入,第i个逻辑回归模型的输出表示w编码第i位为1的概率;对于输入向量X的第i个逻辑回归模型的损失函数为:J(θ)=-[Ci*loghθ(X)+(1-Ci)*log(1-hθ(X))],其中即采用sigmoid作为分类函数;
通过求导可得梯度下降公式为θj=θj-α*(hθ(X)-Ci)*Xj,Xj=Xj-α*(hθ(X)-Ci)*θj,其中,θj,Xj同步更新;
由于我们采用的是逻辑回归模型,而逻辑回归模型除了最后的分类函数(sigmoid),其它的参数均满足线性条件,因此我们求出的词矢量在一定程度上满足向量加和等操作。如果我们把查询词以词矢量的形式进行叠加操作,那么可以在一定程度上理解用户的检索意图。又因为这些词矢量是在短文本语料上进行训练的,因此可以把语料中与检索意图向量最相近的词作为查询扩展的候选词。例如,与“汪峰”最相近的词是“章子怡”,与“导师”最相近的词是“教师”,但与“汪峰”+“导师”最相近的词是“那英”。
通过实验,我们发现,将向量的叠加操作直接用于查询扩展有可能出现主题偏移。如上例中,如果我们不加大“汪峰”、“导师”的权重,将有可能返回大量和“那英”有关的文档,导致检索准确度降低。因此我们要加大原始检索词的权重,同时将选出的最相近的30个词语与局部查询扩展词集的交集作为最后的查询扩展词。通过实验发现,此种方法得到的最终扩展词并不多,因此没有必要再减少扩展词个数。局部查询扩展词集为在通过BM25检索模型对查询词进行文本相似度计算后所返回的排序靠前的文档中,去除停用词后排序靠前的高频关键字所构成的集合;即对于局部查询扩展词集,我们选择没有查询扩展的BM25检索模型返回的前300篇文档去除停用词后的前500高频关键字作为元素。
因此步骤C的具体实施方法如下:
C、查询扩展:将用户的查询文本信息进行分词处理并去除停用词,得到查询词集,查询词集经过步骤B2将查询词集中的每个词以词矢量的形式表示,查询词集中的词矢量经归一化后矢量相加,获得一个新的向量作为查询向量;再从语料词典中选出与查询向量的矢量夹角最相近的词语作为查询扩展的候选集,并将查询扩展的候选集与局部查询扩展词集的交集作为最后使用的查询扩展词,并加大原查询词的权重;其中,局部查询扩展词集由在通过BM25检索模型对查询词进行文本相似度计算后所返回的排序靠前的文档中,去除停用词后排序靠前的高频关键字所构成的集合。
D、利用查询扩展词集及BM25检索模型获取文本候选集:将查询扩展词集中每个查询词的IDF权值、查询词短文本权值与查询权值乘积的加和作为每篇短文本的传统模型检索得分,其中,IDF权值为查询词短文本权值为查询权值为N为短文本总数,ni为包含查询词i的文本个数,tfi为该篇文档所含查询词词频,qfi为查询文本中查询词i的词频,dl和avdl分别表示短文本长度和短文本平均长度,其它变量为调节参数;然后,采用BM25检索模型根据查询扩展词集中的查询词进行检索,按照传统模型检索得分由高到低对每篇输出文档进行排序并把排名靠前的短文本返回作为候选集。优选k1=1.2,k2=200,b=0.75。
E、短文本的主题抽取:首先对步骤D中获得的候选集中的短文本中的词语进行聚类分析,然后选出与步骤C中的查询向量最相近的一组聚类结果作为短文本主题;所述聚类结果的每一类别内的词数至少是原文本总词数的1/5;
以BM25传统检索模型返回的前1000篇文本作为候选集,枚举候选集的短文本中的每个词,假设我们已经有了n个类别,对于当前的词矢量V,找到与V最相近的类别向量C,算出其余弦相似度s。如果直接将V合并到类别C中,并使用直接的加和操作更新向量C;否则随机产生一个实数r(0<=r<=1),如果创建一个新的类别,并将V作为新的类别向量,否则直接略去该词,不予考虑。最后除去类别中词数小于文本总词数的类别。并把与查询向量最接近的类中的词作为短文本主题词。
本发明应用的聚类分析方法在K-means聚类分析方法的基础上进行了如下改进:1、无需手动选择类别个数2、为了提高效率不使用迭代更新,若想提高准确度可以在确定类别个数后,再进行K-means算法3、距离不再使用欧几里得距离,而是利用词矢量的余弦相似度。
F、计算短文本的文本向量:把短文本主题词中的词矢量经归一化处理后进行累加作为该短文本的主题向量,并记录该主题向量与查询向量的余弦相似度;
G、对传统检索模型返回的短文本进行二次排序,同时考虑语义相似度和传统模型所得分数进行二次排序。将步骤F中记录的主题向量与查询向量的余弦相似度值和传统检索模型的得分进行线性插值,得到最终得分:finalScore=simScore*α+(1-α)*BM25并对所述最终得分进行二次排序输出。最终按照finalScore从大到小二次排序,展示给用户。我们在实验中,自己标注数据并做NDCG评价,测得选择α=0.7时,效果比较好。再一次证明,文本余弦相似度的引入对检索系统有很明显的改善。
实施例:
为了详细的说明本系统的工作流程,下面结合具体实例,对本系统具体流程进行介绍。
A、短文本语料信息预处理
对于少于20个字的短文本和转发的文本,直接删除。对语料中剩余的文本进行分词处理。获取语料词典,记录每个词出现的次数,并去除出现频率过少的词语。对剩余的短文本建立倒排索引。
B、训练模型将语料词典中的每个词用词矢量来表示
如图2所示,通过对每一个词进行编码分类,并根据其上下文信息,用逻辑回归模型进行分类训练,从而获得每个词的矢量表示。
为了说明方便,假设输入数据X=[0.2,-0.1,0.3,-0.2]T,训练生成词语编码“01”,θ1=[0.1,0.2,0.2,0.2]T,θ2=[0.2,-0.1,-0.2,0.1]T,初始化时可以随机产生一个接近于0的数值。训练编码“01”,我们无需使用θ3。设下降速度α=0.1,则有:
h &theta; 1 ( X ) = sigmoid ( &theta; 1 T * X ) = sigmoid ( 0.02 ) = 0.505 .
根据求导公式得:
&theta; 1 1 = &theta; 1 1 - &alpha; * ( h &theta; 1 ( X ) - C 1 ) * X 1 = 0.1 - 0.1 * ( 0.505 - 0 ) * 0.2 = 0.0899 .
&theta; 1 2 = &theta; 1 2 - &alpha; * ( h &theta; 1 ( X ) - C 1 ) * X 2 = 0 . 2 - 0.1 * ( 0.505 - 0 ) * ( - 0 . 1 ) = 0 . 20505 .
&theta; 1 3 = &theta; 1 3 - &alpha; * ( h &theta; 1 ( X ) - C 1 ) * X 3 = 0 . 2 - 0.1 * ( 0.505 - 0 ) * 0 . 3 = 0 . 18485 .
&theta; 1 4 = &theta; 1 4 - &alpha; * ( h &theta; 1 ( X ) - C 1 ) * X 4 = 0 . 2 - 0.1 * ( 0.505 - 0 ) * ( - 0 . 2 ) = 0 . 2101 .
X 1 = X 1 - &alpha; * ( h &theta; 1 ( X ) - C 1 ) * &theta; 1 1 = 0.2 - 0.1 * ( 0.505 - 0 ) * 0.1 = 0.1950 .
X 2 = X 2 - &alpha; * ( h &theta; 1 ( X ) - C 1 ) * &theta; 1 2 = - 0 . 1 - 0.1 * ( 0.505 - 0 ) * 0 . 2 = - 0.1101 .
X 3 = X 3 - &alpha; * ( h &theta; 1 ( X ) - C 1 ) * &theta; 1 3 = 0 . 3 - 0.1 * ( 0.505 - 0 ) * 0 . 2 = 0 . 2899 .
X 4 = X 4 - &alpha; * ( h &theta; 1 ( X ) - C 1 ) * &theta; 1 4 = - 0 . 2 - 0.1 * ( 0.505 - 0 ) * 0 . 2 = - 0 . 2101 .
对第二个逻辑回归模型做同样处理:
h &theta; 2 ( X ) = sigmoid ( &theta; 2 T * X ) = sigmoid ( - 0.03 ) = 0 . 493 .
&theta; 2 1 = &theta; 2 1 - &alpha; * ( h &theta; 2 ( X ) - C 2 ) * X 1 = 0 . 2 - 0.1 * ( 0 . 493 - 1 ) * 0 . 1950 = 0.2100 .
&theta; 2 2 = &theta; 2 2 - &alpha; * ( h &theta; 2 ( X ) - C 2 ) * X 2 = - 0 . 1 - 0.1 * ( 0 . 493 - 1 ) * ( - 0 . 1101 ) = - 0 . 1056 .
&theta; 2 3 = &theta; 2 3 - &alpha; * ( h &theta; 2 ( X ) - C 2 ) * X 3 = - 0 . 2 - 0.1 * ( 0 . 493 - 1 ) * 0 . 2899 = - 0 . 1853 .
&theta; 2 4 = &theta; 2 4 - &alpha; * ( h &theta; 2 ( X ) - C 2 ) * X 4 = 0 . 1 - 0.1 * ( 0 . 493 - 1 ) * ( - 0 . 2101 ) = 0 . 0893 .
X 1 = X 1 - &alpha; * ( h &theta; 2 ( X ) - C 2 ) * &theta; 2 1 = 0 . 1950 - 0.1 * ( 0 . 493 - 1 ) * 0 . 2 = 0 . 2051 .
X 2 = X 2 - &alpha; * ( h &theta; 2 ( X ) - C 2 ) * &theta; 2 2 = - 0 . 1101 - 0.1 * ( 0 . 493 - 1 ) * ( - 0 . 1 ) = - 0 . 1152 .
X 3 = X 3 - &alpha; * ( h &theta; 2 ( X ) - C 2 ) * &theta; 2 3 = 0 . 2899 - 0.1 * ( 0 . 493 - 1 ) * ( - 0 . 2 ) = 0 . 2796 .
X 4 = X 4 - &alpha; * ( h &theta; 2 ( X ) - C 2 ) * &theta; 2 4 = - 0 . 2101 - 0.1 * ( 0 . 493 - 1 ) * 0 . 1 = - 0 . 2050 .
通过一次训练得到输入词的矢量表示X=[0.2051,-0.1152,0.2796,-0.2050]。对于语料中的每一个词,随机地产生一个整数N,分别将其前后2*N个词作为输入进行逻辑回归训练。当进行大量的训练后,我们可以得到语料词典中所有词的矢量表示。
C、查询扩展
假设用户输入的检索词为“高配置手机”,则第一步,将检索词进行分词处理,分成“高”、“配置”和“手机”三个词语。第二步,从训练好的词矢量中选出三个词的词矢量,将其进行加和操作,得到查询向量,最后从语料词典中找出与查询向量最相关的30个相近词作为查询扩展的候选集C1。第三步,通过使用传统检索模型BM25,对检索词进行文本相似度计算,并将得到的前300篇高相关文档中的前500非停用词作为局部分析的查询扩展词集C2。第四步,将C1与C2的交集整体作为查询扩展词集,得到三个扩展词:“性能”、“CPU”、“硬件”。
D、利用查询扩展词集及BM25检索模型获取文本候选集:
由于用户只关心返回结果的前几百篇文档,因此,我们把传统检索模型检索出的比较靠前的短文本作为候选集。即将查询扩展词作为查询词,采用BM25模型检索,并选取前1000篇高相关文档进行排序。具体方法如下:
将查询扩展词集中每个查询词的IDF权值、查询词短文本权值与查询权值乘积的加和作为每篇短文本的传统模型检索得分BM25,其中,IDF权值为查询词短文本权值为查询权值为N为短文本总数,ni为包含查询词i的文本个数,tfi为该篇文档所含查询词词频,qfi为查询文本中查询词i的词频,dl和avdl分别表示短文本长度和短文本平均长度,其它变量为调节参数;然后,采用BM25检索模型根据查询扩展词集中的查询词进行检索,按照传统模型检索得分由高到低对每篇输出文档进行排序并把排名靠前的短文本返回作为候选集;
E、短文本的主题抽取
使用聚类方法将短文本中的词语进行聚类,再根据查询向量选出最相关的类别作为短文本的主题词。
F、计算短文本的文本向量
再一次利用词矢量的可加性,将主题词的矢量和作为短文本的文本向量。记录文本向量与查询向量的余弦相似度。
G、对前若干篇短文本重排序
将余弦相似度得分和传统模型检索得分进行线性插值,得到最终得分。利用线性插值公式finalScore=simScore*α+(1-α)*BM25,α=0.7进行最终排序分数的计算,按照分数由高到低展示给用户。
为了评价本发明检索方法所得检索结果的好坏,试验中让5人对返回的文本进行相关性标注,标注等级包括:“相关”,“略相关”,“不相关”,最终根据投票数决定短文本相关等级。在实验中我们使检索词与扩展词的权重比为3:1,以防止主题的偏移。得到表1所示的实验结果,实验发现,对于检索词“高配置手机”,系统返回的前100篇短文本中,有79篇相关,8篇略相关,13篇不相关,前10篇文档的NDCG值达到0.824。
如果检索词为“世界杯比赛”,前10篇文档的NDCG值更高,而且能得到更多表达用户检索意图的词语作为查询扩展词。
表1 本发明检索结果测评信息表
以上内容是结合具体的优选技术方案对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (4)

1.一种基于词矢量的短文本查询扩展及检索方法,其特征在于,包括以下步骤:
A、短文本语料信息预处理:从已知数据库中采集包含短文本语料信息的文本语料集,从文本语料集中删除字数少于预设阈值的短文本语料信息;识别出所述文本语料集中的转发短文本语料信息并将其删除;对文本语料集中剩余的短文本语料信息进行分词处理,得到分词语料词典;记录每个词在所述分词语料词典中的出现次数,并去除频率小于预设阈值的词,得到语料词典;对语料词典中的短文本建立倒排索引;
B、训练模型将语料词典中的每个词用词矢量来表示:包括以下步骤:
B1、根据语料词典创建Huffman树:
对所述语料词典中的每个词语进行Huffman编码并创建Huffman树,Huffman树的每个叶子节点来代表语料词典中的每个词,根节点到每个叶子节点的路径表示该词的Huffman编码,根节点到每个叶子节点之间的内部节点不断对词语进行分类,最终把每一个词分到某个对应的叶子节点上;
B2、利用无监督训练模型对语料词典中的每个词用词矢量的形式表示:
对于所述语料词典中的每个词定义一个k维实数向量,每一维实数向量为一个变量,将所述k维实数向量作为逻辑回归模型的输入向量通过逻辑回归二元分类方法来预测Huffman树中该词的上下文词语所对应的叶子节点所在路径的边值的概率;Huffman树中包括根节点在内的每一个内部节点对应一个逻辑回归模型,并同时通过损失函数和求导公式进行参数与输入变量的更新,以使输入的矢量比较接近;最后,将更新后得到的输入向量作为该词的矢量表示;
C、查询扩展:将用户的查询文本信息进行分词处理并去除停用词,得到查 询词集,所述查询词集利用步骤B2的方法使查询词集中的每个查询词以词矢量的形式表示,查询词集中的词矢量经归一化后矢量相加,获得一个新的向量作为查询向量;再从所述语料词典中选出与所述查询向量的矢量夹角最相近的词语所形成的集合作为查询扩展候选集,并把它们与局部分析的查询扩展词集的交集作为最后使用的查询扩展词集,并加大原查询词的权重;所述局部分析的查询扩展词集为在通过BM25检索模型对查询词进行文本相似度计算后所返回的排序靠前的文档中,去除停用词后排序靠前的高频关键字所构成的集合;
D、利用查询扩展词集及BM25检索模型获取文本候选集:将查询扩展词集中每个查询词的IDF权值、查询词短文本权值与查询权值乘积的加和作为每篇短文本的传统模型检索得分,其中,IDF权值为查询词短文本权值为查询权值为N为短文本总数,ni为包含查询词i的文本个数,tfi为该篇文档所含查询词词频,qfi为查询文本中查询词i的词频,dl和avdl分别表示短文本长度和短文本平均长度,其它变量为调节参数;然后,采用BM25检索模型根据查询扩展词集中的查询词进行检索,按照传统模型检索得分由高到低对每篇输出文档进行排序并把排名靠前的短文本返回作为候选集;
E、短文本的主题抽取:首先对步骤D中获得的候选集中的短文本中的词语进行聚类分析,然后选出与步骤C中的查询向量最相近的一组聚类结果作为短文本主题;所述聚类结果的每一类别内的词数至少是原文本总词数的1/5;
F、计算短文本的文本向量:把所述短文本主题中的词矢量经归一化处理后进行累加作为该短文本的主题向量,并记录所述主题向量与查询向量的余弦相 似度;
G、对传统检索模型返回的短文本进行二次排序,同时考虑语义相似度和传统模型所得分数进行二次排序:将步骤F中记录的主题向量与查询向量的余弦相似度值和传统模型检索得分进行线性插值,得到最终得分并对所述最终得分进行二次排序输出。
2.根据权利要求1所述的一种基于词矢量的短文本查询扩展及检索方法,其特征在于,所述逻辑回归模型的具体训练过程如下:
随机地产生一个整数N,满足1<=N<=L,其中L为预先设定的阈值,假设预测词w,Huffman编码为C,分别将w前后共2*N个词的向量作为|C|个逻辑回归模型的输入,第i个逻辑回归模型的输出表示w编码第i位为1的概率;对于输入向量X的第i个逻辑回归模型的损失函数为:J(θ)=-[Ci*loghθ(X)+(1-Ci)*log(1-hθ(X))],其中即采用sigmoid作为分类函数;
通过求导可得梯度下降公式为θj=θj-α*(hθ(X)-Ci)*Xj,Xj=Xj-α*(hθ(X)-Ci)*θj,其中,θj,Xj同步更新。
3.根据权利要求1所述的一种基于词矢量的短文本查询扩展及检索方法,其特征在于,步骤E中所用的聚类分析算法具体如下:
枚举候选集的短文本中的每一个词,假设已有n个类别,对于当前的词矢量V,找到与V最相近的类别向量C,计算其余弦相似度s,
则直接将V合并到类别C中,并使用直接的加和操作更新向量C;否则随机产生一个实数r(0<=r<=1),若创建一个新的类别,并 将V作为新的类别向量,否则直接略去该词,不予考虑;最后除去类别中词数小于文本总词数1/5的类别。
4.根据权利要求1所述的一种基于词矢量的短文本查询扩展及检索方法,其特征在于,步骤A中,从文本语料集中删除字数少于20个字的短文本。
CN201510103341.6A 2015-03-06 2015-03-06 一种基于词矢量的短文本查询扩展及检索方法 Active CN104765769B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510103341.6A CN104765769B (zh) 2015-03-06 2015-03-06 一种基于词矢量的短文本查询扩展及检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510103341.6A CN104765769B (zh) 2015-03-06 2015-03-06 一种基于词矢量的短文本查询扩展及检索方法

Publications (2)

Publication Number Publication Date
CN104765769A true CN104765769A (zh) 2015-07-08
CN104765769B CN104765769B (zh) 2018-04-27

Family

ID=53647600

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510103341.6A Active CN104765769B (zh) 2015-03-06 2015-03-06 一种基于词矢量的短文本查询扩展及检索方法

Country Status (1)

Country Link
CN (1) CN104765769B (zh)

Cited By (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105630870A (zh) * 2015-12-16 2016-06-01 广州神马移动信息科技有限公司 搜索请求处理方法及系统
CN105653703A (zh) * 2015-12-31 2016-06-08 武汉传神信息技术有限公司 一种文档检索匹配方法
CN105808737A (zh) * 2016-03-10 2016-07-27 腾讯科技(深圳)有限公司 一种信息检索方法及服务器
CN105912716A (zh) * 2016-04-29 2016-08-31 国家计算机网络与信息安全管理中心 一种短文本分类方法及装置
CN105975507A (zh) * 2016-04-28 2016-09-28 南京理工大学 一种基于多源网络新闻数据的多媒体问答方法
CN106055779A (zh) * 2016-05-27 2016-10-26 大连楼兰科技股份有限公司 基于人工智能半监督学习逻辑回归方法建立分车型远程定损系统及方法
TWI567577B (zh) * 2015-11-05 2017-01-21 英業達股份有限公司 解決方案搜尋系統之操作方法及解決方案搜尋系統
CN106407381A (zh) * 2016-09-13 2017-02-15 北京百度网讯科技有限公司 一种基于人工智能的推送信息的方法和装置
CN106610972A (zh) * 2015-10-21 2017-05-03 阿里巴巴集团控股有限公司 查询改写方法及装置
CN107102981A (zh) * 2016-02-19 2017-08-29 腾讯科技(深圳)有限公司 词向量生成方法和装置
CN107122423A (zh) * 2017-04-06 2017-09-01 深圳Tcl数字技术有限公司 影视推介方法及装置
CN107180026A (zh) * 2017-05-02 2017-09-19 苏州大学 一种基于词嵌入语义映射的事件短语学习方法及装置
CN107220295A (zh) * 2017-04-27 2017-09-29 银江股份有限公司 一种人民矛盾调解案例搜索和调解策略推荐方法
CN107291690A (zh) * 2017-05-26 2017-10-24 北京搜狗科技发展有限公司 标点添加方法和装置、用于标点添加的装置
CN107330516A (zh) * 2016-04-29 2017-11-07 腾讯科技(深圳)有限公司 模型参数训练方法、装置及系统
CN107341169A (zh) * 2017-02-17 2017-11-10 武汉大学 一种基于信息检索的大规模软件信息站标签推荐方法
CN107491436A (zh) * 2017-08-21 2017-12-19 北京百度网讯科技有限公司 一种标题党识别方法和装置、服务器、存储介质
CN107506345A (zh) * 2016-06-14 2017-12-22 科大讯飞股份有限公司 语言模型的构建方法和装置
CN107871144A (zh) * 2017-11-24 2018-04-03 税友软件集团股份有限公司 发票商品名分类方法、系统、设备及计算机可读存储介质
CN107977676A (zh) * 2017-11-24 2018-05-01 北京神州泰岳软件股份有限公司 文本相似度计算方法及装置
WO2018121198A1 (en) * 2016-12-30 2018-07-05 Huawei Technologies Co., Ltd. Topic based intelligent electronic file searching
CN108256458A (zh) * 2018-01-04 2018-07-06 东北大学 一种针对聋人自然手语的双向实时翻译系统及方法
CN108287862A (zh) * 2017-01-09 2018-07-17 谷歌有限责任公司 搜索引擎
CN108334573A (zh) * 2018-01-22 2018-07-27 北京工业大学 基于聚类信息的高相关微博检索方法
CN108345605A (zh) * 2017-01-24 2018-07-31 苏宁云商集团股份有限公司 一种文本搜索方法及装置
CN108491462A (zh) * 2018-03-05 2018-09-04 昆明理工大学 一种基于word2vec的语义查询扩展方法及装置
CN108846050A (zh) * 2018-05-30 2018-11-20 重庆望江工业有限公司 基于多模型融合的核心工艺知识智能推送方法及系统
CN108932247A (zh) * 2017-05-24 2018-12-04 苏宁云商集团股份有限公司 一种优化文本搜索的方法及装置
CN109074353A (zh) * 2016-10-10 2018-12-21 微软技术许可有限责任公司 语言理解和信息检索的组合
CN109597995A (zh) * 2018-12-04 2019-04-09 国网江西省电力有限公司信息通信分公司 一种基于bm25加权结合词向量的文本表示方法
CN109739978A (zh) * 2018-12-11 2019-05-10 中科恒运股份有限公司 一种文本聚类方法、文本聚类装置及终端设备
CN109766414A (zh) * 2019-01-18 2019-05-17 广东小天才科技有限公司 一种意图识别方法及系统
CN109858028A (zh) * 2019-01-30 2019-06-07 神思电子技术股份有限公司 一种基于概率模型的短文本相似度计算方法
CN109871429A (zh) * 2019-01-31 2019-06-11 郑州轻工业学院 融合Wikipedia分类及显式语义特征的短文本检索方法
CN110032741A (zh) * 2019-05-06 2019-07-19 重庆理工大学 一种基于语义扩展和最大边缘相关的伪文本生成方法
WO2019154411A1 (zh) * 2018-02-12 2019-08-15 腾讯科技(深圳)有限公司 词向量更新方法和装置
CN110442760A (zh) * 2019-07-24 2019-11-12 银江股份有限公司 一种问答检索系统的同义词挖掘方法及装置
CN110457700A (zh) * 2019-08-07 2019-11-15 中国人民解放军国防科技大学 短文本描述方法和装置
CN110582761A (zh) * 2018-10-24 2019-12-17 阿里巴巴集团控股有限公司 基于点击图上向量传播模型的智能客户服务
CN110852077A (zh) * 2019-11-13 2020-02-28 泰康保险集团股份有限公司 动态调整Word2Vec模型词典的方法、装置、介质及电子设备
CN110909116A (zh) * 2019-11-28 2020-03-24 中国人民解放军军事科学院军事科学信息研究中心 一种面向社交媒体的实体集合扩展方法及系统
CN110969024A (zh) * 2018-09-30 2020-04-07 北京奇虎科技有限公司 一种查询语句的改写方法及装置
CN111460104A (zh) * 2020-04-01 2020-07-28 神思电子技术股份有限公司 行业自适应的智能搜索方法
CN111930880A (zh) * 2020-08-14 2020-11-13 易联众信息技术股份有限公司 一种文本编码检索的方法、装置及介质
CN112364139A (zh) * 2020-11-02 2021-02-12 南京京恒信息技术有限公司 一种基于深度学习的医疗对话系统意图识别分类方法
CN113240485A (zh) * 2021-05-10 2021-08-10 北京沃东天骏信息技术有限公司 文本生成模型的训练方法、文本生成方法和装置
CN113282712A (zh) * 2021-06-08 2021-08-20 平安国际智慧城市科技股份有限公司 一种文本筛选方法、装置、介质及设备
WO2022001846A1 (zh) * 2020-07-02 2022-01-06 北京字节跳动网络技术有限公司 意图识别方法、装置、可读介质及电子设备
CN114048354A (zh) * 2022-01-10 2022-02-15 广州启辰电子科技有限公司 基于多元表征和度量学习的试题检索方法、装置及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060106767A1 (en) * 2004-11-12 2006-05-18 Fuji Xerox Co., Ltd. System and method for identifying query-relevant keywords in documents with latent semantic analysis
CN102955856A (zh) * 2012-11-09 2013-03-06 北京航空航天大学 一种基于特征扩展的中文短文本分类方法
CN104391942A (zh) * 2014-11-25 2015-03-04 中国科学院自动化研究所 基于语义图谱的短文本特征扩展方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060106767A1 (en) * 2004-11-12 2006-05-18 Fuji Xerox Co., Ltd. System and method for identifying query-relevant keywords in documents with latent semantic analysis
CN102955856A (zh) * 2012-11-09 2013-03-06 北京航空航天大学 一种基于特征扩展的中文短文本分类方法
CN104391942A (zh) * 2014-11-25 2015-03-04 中国科学院自动化研究所 基于语义图谱的短文本特征扩展方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
马云龙: "基于权重标准化SimRank方法的查询扩展技术研究", 《中文信息学报》 *

Cited By (73)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106610972A (zh) * 2015-10-21 2017-05-03 阿里巴巴集团控股有限公司 查询改写方法及装置
TWI567577B (zh) * 2015-11-05 2017-01-21 英業達股份有限公司 解決方案搜尋系統之操作方法及解決方案搜尋系統
CN105630870A (zh) * 2015-12-16 2016-06-01 广州神马移动信息科技有限公司 搜索请求处理方法及系统
WO2017114110A1 (zh) * 2015-12-31 2017-07-06 语联网(武汉)信息技术有限公司 一种文档检索匹配方法
CN105653703A (zh) * 2015-12-31 2016-06-08 武汉传神信息技术有限公司 一种文档检索匹配方法
CN107102981A (zh) * 2016-02-19 2017-08-29 腾讯科技(深圳)有限公司 词向量生成方法和装置
CN107102981B (zh) * 2016-02-19 2020-06-23 腾讯科技(深圳)有限公司 词向量生成方法和装置
CN105808737A (zh) * 2016-03-10 2016-07-27 腾讯科技(深圳)有限公司 一种信息检索方法及服务器
CN105808737B (zh) * 2016-03-10 2021-04-06 腾讯科技(深圳)有限公司 一种信息检索方法及服务器
CN105975507A (zh) * 2016-04-28 2016-09-28 南京理工大学 一种基于多源网络新闻数据的多媒体问答方法
CN105912716A (zh) * 2016-04-29 2016-08-31 国家计算机网络与信息安全管理中心 一种短文本分类方法及装置
CN105912716B (zh) * 2016-04-29 2019-09-10 国家计算机网络与信息安全管理中心 一种短文本分类方法及装置
CN107330516A (zh) * 2016-04-29 2017-11-07 腾讯科技(深圳)有限公司 模型参数训练方法、装置及系统
CN106055779A (zh) * 2016-05-27 2016-10-26 大连楼兰科技股份有限公司 基于人工智能半监督学习逻辑回归方法建立分车型远程定损系统及方法
CN107506345A (zh) * 2016-06-14 2017-12-22 科大讯飞股份有限公司 语言模型的构建方法和装置
CN106407381A (zh) * 2016-09-13 2017-02-15 北京百度网讯科技有限公司 一种基于人工智能的推送信息的方法和装置
CN106407381B (zh) * 2016-09-13 2019-10-25 北京百度网讯科技有限公司 一种基于人工智能的推送信息的方法和装置
CN109074353A (zh) * 2016-10-10 2018-12-21 微软技术许可有限责任公司 语言理解和信息检索的组合
CN109074353B (zh) * 2016-10-10 2022-11-08 微软技术许可有限责任公司 用于信息检索的方法、装置和系统
WO2018121198A1 (en) * 2016-12-30 2018-07-05 Huawei Technologies Co., Ltd. Topic based intelligent electronic file searching
CN108287862A (zh) * 2017-01-09 2018-07-17 谷歌有限责任公司 搜索引擎
US11354367B2 (en) 2017-01-09 2022-06-07 Google Llc Search engine
CN108345605B (zh) * 2017-01-24 2022-04-05 苏宁易购集团股份有限公司 一种文本搜索方法及装置
CN108345605A (zh) * 2017-01-24 2018-07-31 苏宁云商集团股份有限公司 一种文本搜索方法及装置
CN107341169A (zh) * 2017-02-17 2017-11-10 武汉大学 一种基于信息检索的大规模软件信息站标签推荐方法
CN107341169B (zh) * 2017-02-17 2020-02-11 武汉大学 一种基于信息检索的大规模软件信息站标签推荐方法
CN107122423A (zh) * 2017-04-06 2017-09-01 深圳Tcl数字技术有限公司 影视推介方法及装置
CN107220295A (zh) * 2017-04-27 2017-09-29 银江股份有限公司 一种人民矛盾调解案例搜索和调解策略推荐方法
CN107220295B (zh) * 2017-04-27 2020-02-07 银江股份有限公司 一种人民矛盾调解案例搜索和调解策略推荐方法
CN107180026A (zh) * 2017-05-02 2017-09-19 苏州大学 一种基于词嵌入语义映射的事件短语学习方法及装置
CN108932247A (zh) * 2017-05-24 2018-12-04 苏宁云商集团股份有限公司 一种优化文本搜索的方法及装置
CN107291690A (zh) * 2017-05-26 2017-10-24 北京搜狗科技发展有限公司 标点添加方法和装置、用于标点添加的装置
CN107291690B (zh) * 2017-05-26 2020-10-27 北京搜狗科技发展有限公司 标点添加方法和装置、用于标点添加的装置
CN107491436A (zh) * 2017-08-21 2017-12-19 北京百度网讯科技有限公司 一种标题党识别方法和装置、服务器、存储介质
CN107977676A (zh) * 2017-11-24 2018-05-01 北京神州泰岳软件股份有限公司 文本相似度计算方法及装置
CN107871144A (zh) * 2017-11-24 2018-04-03 税友软件集团股份有限公司 发票商品名分类方法、系统、设备及计算机可读存储介质
CN108256458A (zh) * 2018-01-04 2018-07-06 东北大学 一种针对聋人自然手语的双向实时翻译系统及方法
CN108256458B (zh) * 2018-01-04 2020-08-04 东北大学 一种针对聋人自然手语的双向实时翻译系统及方法
CN108334573B (zh) * 2018-01-22 2021-02-26 北京工业大学 基于聚类信息的高相关微博检索方法
CN108334573A (zh) * 2018-01-22 2018-07-27 北京工业大学 基于聚类信息的高相关微博检索方法
US11586817B2 (en) 2018-02-12 2023-02-21 Tencent Technology (Shenzhen) Company Limited Word vector retrofitting method and apparatus
WO2019154411A1 (zh) * 2018-02-12 2019-08-15 腾讯科技(深圳)有限公司 词向量更新方法和装置
CN108491462B (zh) * 2018-03-05 2021-09-14 昆明理工大学 一种基于word2vec的语义查询扩展方法及装置
CN108491462A (zh) * 2018-03-05 2018-09-04 昆明理工大学 一种基于word2vec的语义查询扩展方法及装置
CN108846050A (zh) * 2018-05-30 2018-11-20 重庆望江工业有限公司 基于多模型融合的核心工艺知识智能推送方法及系统
CN108846050B (zh) * 2018-05-30 2022-01-21 重庆望江工业有限公司 基于多模型融合的核心工艺知识智能推送方法及系统
CN110969024A (zh) * 2018-09-30 2020-04-07 北京奇虎科技有限公司 一种查询语句的改写方法及装置
CN110582761B (zh) * 2018-10-24 2023-05-30 创新先进技术有限公司 基于点击图上向量传播模型的智能客户服务
CN110582761A (zh) * 2018-10-24 2019-12-17 阿里巴巴集团控股有限公司 基于点击图上向量传播模型的智能客户服务
CN109597995A (zh) * 2018-12-04 2019-04-09 国网江西省电力有限公司信息通信分公司 一种基于bm25加权结合词向量的文本表示方法
CN109739978A (zh) * 2018-12-11 2019-05-10 中科恒运股份有限公司 一种文本聚类方法、文本聚类装置及终端设备
CN109766414A (zh) * 2019-01-18 2019-05-17 广东小天才科技有限公司 一种意图识别方法及系统
CN109858028B (zh) * 2019-01-30 2022-11-18 神思电子技术股份有限公司 一种基于概率模型的短文本相似度计算方法
CN109858028A (zh) * 2019-01-30 2019-06-07 神思电子技术股份有限公司 一种基于概率模型的短文本相似度计算方法
CN109871429A (zh) * 2019-01-31 2019-06-11 郑州轻工业学院 融合Wikipedia分类及显式语义特征的短文本检索方法
CN110032741B (zh) * 2019-05-06 2020-02-04 重庆理工大学 一种基于语义扩展和最大边缘相关的伪文本生成方法
CN110032741A (zh) * 2019-05-06 2019-07-19 重庆理工大学 一种基于语义扩展和最大边缘相关的伪文本生成方法
CN110442760B (zh) * 2019-07-24 2022-02-15 银江技术股份有限公司 一种问答检索系统的同义词挖掘方法及装置
CN110442760A (zh) * 2019-07-24 2019-11-12 银江股份有限公司 一种问答检索系统的同义词挖掘方法及装置
CN110457700A (zh) * 2019-08-07 2019-11-15 中国人民解放军国防科技大学 短文本描述方法和装置
CN110852077B (zh) * 2019-11-13 2023-03-31 泰康保险集团股份有限公司 动态调整Word2Vec模型词典的方法、装置、介质及电子设备
CN110852077A (zh) * 2019-11-13 2020-02-28 泰康保险集团股份有限公司 动态调整Word2Vec模型词典的方法、装置、介质及电子设备
CN110909116B (zh) * 2019-11-28 2022-12-23 中国人民解放军军事科学院军事科学信息研究中心 一种面向社交媒体的实体集合扩展方法及系统
CN110909116A (zh) * 2019-11-28 2020-03-24 中国人民解放军军事科学院军事科学信息研究中心 一种面向社交媒体的实体集合扩展方法及系统
CN111460104B (zh) * 2020-04-01 2023-09-22 神思电子技术股份有限公司 行业自适应的智能搜索方法
CN111460104A (zh) * 2020-04-01 2020-07-28 神思电子技术股份有限公司 行业自适应的智能搜索方法
WO2022001846A1 (zh) * 2020-07-02 2022-01-06 北京字节跳动网络技术有限公司 意图识别方法、装置、可读介质及电子设备
CN111930880A (zh) * 2020-08-14 2020-11-13 易联众信息技术股份有限公司 一种文本编码检索的方法、装置及介质
CN112364139A (zh) * 2020-11-02 2021-02-12 南京京恒信息技术有限公司 一种基于深度学习的医疗对话系统意图识别分类方法
CN112364139B (zh) * 2020-11-02 2023-12-19 南京京恒信息技术有限公司 一种基于深度学习的医疗对话系统意图识别分类方法
CN113240485A (zh) * 2021-05-10 2021-08-10 北京沃东天骏信息技术有限公司 文本生成模型的训练方法、文本生成方法和装置
CN113282712A (zh) * 2021-06-08 2021-08-20 平安国际智慧城市科技股份有限公司 一种文本筛选方法、装置、介质及设备
CN114048354A (zh) * 2022-01-10 2022-02-15 广州启辰电子科技有限公司 基于多元表征和度量学习的试题检索方法、装置及介质

Also Published As

Publication number Publication date
CN104765769B (zh) 2018-04-27

Similar Documents

Publication Publication Date Title
CN104765769A (zh) 一种基于词矢量的短文本查询扩展及检索方法
Wang et al. K-adapter: Infusing knowledge into pre-trained models with adapters
CN107133213B (zh) 一种基于算法的文本摘要自动提取方法与系统
CN108052593B (zh) 一种基于主题词向量和网络结构的主题关键词提取方法
CN105528437B (zh) 一种基于结构化文本知识提取的问答系统构建方法
CN108280206B (zh) 一种基于语义增强的短文本分类方法
CN110298032A (zh) 文本分类语料标注训练系统
CN107066553A (zh) 一种基于卷积神经网络与随机森林的短文本分类方法
CN107895000B (zh) 一种基于卷积神经网络的跨领域语义信息检索方法
CN112800170A (zh) 问题的匹配方法及装置、问题的回复方法及装置
CN111291188B (zh) 一种智能信息抽取方法及系统
CN107180026B (zh) 一种基于词嵌入语义映射的事件短语学习方法及装置
CN106708929B (zh) 视频节目的搜索方法和装置
CN110879834A (zh) 一种基于循环卷积网络的观点检索系统及其观点检索方法
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
US11227183B1 (en) Section segmentation based information retrieval with entity expansion
CN110888991A (zh) 一种弱标注环境下的分段式语义标注方法
Torunoğlu et al. Wikipedia based semantic smoothing for twitter sentiment classification
Hillard et al. Learning weighted entity lists from web click logs for spoken language understanding
CN112036178A (zh) 一种配网实体相关的语义搜索方法
CN112905768A (zh) 一种数据交互方法、装置及存储介质
CN106570196B (zh) 视频节目的搜索方法和装置
CN114722176A (zh) 一种智能答疑的方法、装置、介质及电子设备
CN116049376B (zh) 一种信创知识检索回复的方法、装置和系统
CN111460147A (zh) 一种基于语义增强的标题短文本分类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant