CN109918477A - 一种基于变分自编码器的分布式检索资源库选择方法 - Google Patents

一种基于变分自编码器的分布式检索资源库选择方法 Download PDF

Info

Publication number
CN109918477A
CN109918477A CN201910122541.4A CN201910122541A CN109918477A CN 109918477 A CN109918477 A CN 109918477A CN 201910122541 A CN201910122541 A CN 201910122541A CN 109918477 A CN109918477 A CN 109918477A
Authority
CN
China
Prior art keywords
resources bank
text
vector
hidden variable
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910122541.4A
Other languages
English (en)
Other versions
CN109918477B (zh
Inventor
董守斌
吴天锋
袁华
胡金龙
张晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201910122541.4A priority Critical patent/CN109918477B/zh
Publication of CN109918477A publication Critical patent/CN109918477A/zh
Application granted granted Critical
Publication of CN109918477B publication Critical patent/CN109918477B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种基于变分自编码器的分布式检索资源库选择方法,该方法利用深度神经网络构建编码器与解码器网络结构,学习资源库文本的隐含表示,用来捕捉资源库文本的深层语义表示。通过无监督的训练方法得到的模型,对查询词的扩展文本进行推理,获得查询词的隐含表示。通过计算查询词与资源库的隐含表示的相似性,来获得资源库的相关性排名。该模型为无监督的训练,自动获得资源库以及文本的隐含表示向量,可克服有监督训练方法中的设计文本特征的缺点。此外,变分自编码器的网络结构简单,变分推理的计算耗时比基于马尔科夫链蒙特卡罗推理方法的LDA主题模型要低。模型训练完成后,进行资源库选择的耗时低,资源库选择的效率高。

Description

一种基于变分自编码器的分布式检索资源库选择方法
技术领域
本发明涉及分布式检索的技术领域,尤其是指一种基于变分自编码器的分布式检索资源库选择方法。
背景技术
随着信息的不断增长,在获取信息的时候人们可能不满足于单一的信息来源。在信息查询中,用户可能想要查询相关的照片,相应的视频网站上面的视频,或者是新闻、问答、技术博客、来自最新的微博内容等。分布式检索系统将查询分发到各个搜索引擎,融合多个搜索引擎中的资源库的查询结果后呈现给用户,既可以结合多个搜索引擎的结果,又可以减少用户的切换开销。
资源库选择是分布式检索需要解决的一个关键问题,目标是将用户的查询需求与相对应的资源文档集进行匹配,从大量的资源库中选择一组最有可能返回相关结果的资源库。现有的资源库选择算法中,主要有基于采样的方法、基于词项匹配的方法、基于主题模型的方法以及有监督学习的方法。有监督的方法则是需要获得训练数据,根据查询以及资源库的特征,训练模型去衡量资源库的相关性。基于采样的方法则是使用资源库中的采样文档建立中央采样索引库(CSI,centralized sample index),然后根据在中央检索库中得到的文档检索结果所属的资源库,来计算资源库的得分。基于词项匹配的方法中,计算资源库中的文档与查询之间的词项匹配程度来得到资源库的相关度。基于主题模型的方法中,衡量查询与资源库的主题概率分布的相关性。使用词项匹配的方法中,会存在文档的信息缺失,以及被高频率词支配的问题。使用LDA对资源库大文档进行模型训练时,计算耗时多。
本方法创新性地提出使用变分自编码器来进行资源库选择,通过构建编码器解码器网络,训练资源库文本的隐含表示向量,推理查询词扩展文本后的隐含表示向量。本方法通过无监督的训练方法,能自动获取更好的资源库文本的语义表示,避免涉及文本特征。此外,通过训练好的模型,进行查询文本推理的时候只需要经过一遍神经网络,推理的速度快,资源库选择的效率高。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出了一种基于变分自编码器的分布式检索资源库选择方法,利用深度神经网络构建编码器与解码器网络结构,学习资源库文本的隐含表示,用来捕捉资源库文本的深层语义表示。通过无监督的训练方法得到的模型,对查询词的扩展文本进行推理,获得查询词的隐含表示。通过计算查询词与资源库的隐含表示的相似性,来获得资源库的相关性排名。该模型为无监督的训练,自动获得资源库以及文本的隐含表示向量,可克服有监督训练方法中的设计文本特征的缺点。此外,变分自编码器的网络结构简单,变分推理的计算耗时比基于马尔科夫链蒙特卡罗推理方法的LDA主题模型要低。模型训练完成后,进行资源库选择的耗时低,资源库选择的效率高。
为实现上述目的,本发明所提供的技术方案为:一种基于变分自编码器的分布式检索资源库选择方法,包括以下步骤:
1)将采样查询得到的每个资源库的样本文档集中的文本进行预处理,拼接得到各个资源库的文本,计算资源库文本的词袋表示以及独热编码one-hot表示;
2)构建变分自编码器模型中的编码器结构,建立将资源库词袋表示向量作为输入,编码得到资源库隐变量向量的过程;
3)构建变分自编码器模型中的解码器结构,建立将资源库隐变量向量作为输入,解码得到资源库文本中词的概率的过程;
4)计算编码器损失以及解码器损失,使用批量梯度下降的方法对损失函数进行优化;
5)设置模型中训练的参数,对模型进行训练;
6)使用训练好的模型,对查询词进行扩展得到查询词扩展文本,对训练好的模型,对查询词扩展文本进行推理,得到查询词推理文本的隐变量表示,对资源库文本进行推理,得到资源库理文本的隐变量表示;
7)对查询词隐变量表示以及资源库文本隐变量表示,使用余弦相似度计算相似度,根据相似度的大小,得到资源库的得分排序结果。
在步骤1)中,提取资源库文本以及预处理的具体过程如下:
1.1)提取每个资源库中采样文档的简短摘要snippet拼接得到资源库的文本,没有简短摘要snippet的采样文档使用正文的文本内容代替,将得到的文本内容进行包括分词、英文转换为小写、去除停用词、去除标点符号和去除长度过长的字符的预处理;
1.2)对预处理后的文本计算词袋表示以及独热编码one-hot的向量表示。
在步骤2)中,构建变分自编码器模型中的编码器结构,建立将资源库词袋表示向量作为输入,编码得到资源库隐变量的具体过程如下:
2.1)使用多层感知机MLP的全连接网络结构作为编码器的网络结构,其中网络的层数设置为2层,隐含层的激活函数使用tanh;
2.2)将资源库词袋表示向量作为输入,编码得到资源库隐变量输出,计算公式如下:
第一层输出:l1=tanh(W1rbowi+b1)
第二层输出:l2=tanh(W2rbowi+b2)
均值:μ=W3l2+b3
对数方差:logσ2=W4l2+b4
标准正太分布:ξ~N(0,1)
隐变量输出:h=μ+σ·ξ
式中,W1、W2、W3、W4为第一层隐藏层、第二层隐藏层、均值网络层、对数方差网络层的权重矩阵,b1、b2、b3、b4分别为第一层隐藏层、第二层隐藏层、均值网络层、对数方差网络层的偏置参数;tanh为双曲正切激活函数,rbowi为输入第i个资源库的词袋表示向量;其中N(0,1)为标准正太分布,ξ从N(0,1)中随机采样。
在步骤3)中,资源库隐变量向量作为输入,解码得到资源库文本中词的概率的过程计算公式为:
式中,xi为资源库独热表示向量rj在位置i的值,为偏置项,R为该层的参数也是训练过程中能学习到的词向量,exp为指数函数,h为编码器输出的隐变量向量,hT表示h的转置,|V|表示xi的维度的大小;p(xi|h)表示由h生成xi的概率;p(rj|h)表示由h生成rj的概率,其中rj表示第j个资源库,N为资源库文本的大小。
在步骤4)中,计算编码器损失以及解码器损失,使用批量梯度下降的方法对损失函数进行优化的计算公式如下:
编码器损失:
第j个样本的对数生成概率:pj=[logp(x1|h),logp(x2|h),…,logp(xN|h)]
解码器损失:
整体损失:cost=e_loss+d_loss
式中,h为隐变量向量,K为h的维度,μ为编码器网络中的均值,σ为编码器中求得的标准差,其中xi为资源库独热表示向量rj在位置i的值,且i∈(1,N),rj为第j个资源库的独热表示向量,N为rj向量的长度,L为使用批量梯度下降进行优化的样本数量;在训练过程中,直接对整体损失cost使用自适应优化AdamOptimizer进行优化。
在步骤5)中,设置模型训练的参数,对模型进行训练的具体设置为:将编码器每层的维度设置为500维,将隐向量h的维度设置为50维,设置初始化模型的权重矩阵、偏置项,设置网络迭代次数epochs,设置批量梯度下降中样本的样本的数量为L,设置模型学习率α,设置学习率随着模型迭代中逐渐减少,使得在训练前期离最优解远的时候,单步更新的幅度大,以提升训练速度,在模型训练后期离最优解近时候,以小幅度更新,以获得更好的解。
在步骤6)中,得到推理得到查询词以及资源库隐变量的具体过程如下:
6.1)使用谷歌搜索接口Google search API对查询词进行扩展,针对给定的查询,调用谷歌搜索接口,获得每个查询的前十条结果的简短摘要snippet,提取其中的文本合并成一个文档,该文档则作为查询词的扩展文本;
6.2)将查询词扩展文本按照步骤1)中预处理的方法进行处理,具体为分词、英文转换为小写、去除停用词、去除标点符号、去除长度过长的字符;
6.3)计算查询词扩展文本的词袋表示向量,将词袋表示向量通过训练完毕的模型中的编码器神经网络,得到查询词的隐变量表示;
6.4)将资源库文本词袋表示向量通过编码器神经网络推理得到资源库的隐变量表示。
在步骤7)中,对查询词隐变量表示以及资源库文本隐变量表示,使用余弦相似度计算相似度,根据相似度的大小,得到资源库的得分排序结果,使用余弦相似度计算相似度的公式如下:
式中,qhi为第i个查询的隐变量向量,Rhj为第j个资源库的隐变量向量,||qhi||为向量qhi的模,||Rhj||为向量Rhj的模;针对给定的查询,根据余弦相似度的大小,对资源库进行排序,得到该查询的资源库排序列表。
本发明与现有技术相比,具有如下优点与有益效果:
1、本发明创新性地提出使用变分自编码器来进行资源库选择,通过构建编码器解码器网络,训练资源库文本的隐含表示向量,推断查询词扩展文本后的隐含表示向量。
2、本发明通过无监督的训练方法,能自动获取更好的资源库文本的语义表示,避免涉及文本特征。
3、本发明通过训练好后的模型,进行查询文本推理的时候只需要经过一遍神经网络,推理的速度快,资源库选择的效率高。
4、模型使用贝叶斯概率理论与深度学习进行结合,更好的进行扩展,算法鲁棒性好。
附图说明
图1是本发明的模型训练流程图。
图2是本发明的模型推理以及资源库选择的流程图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
如图1和图2所示,本实施例所提供的基于变分自编码器的分布式检索资源库选择方法,包括以下步骤:
步骤1:将采样查询得到的每个资源库的样本文档集中的文本进行预处理,拼接得到各个资源库的“大文档”,计算资源库大文档的词袋表示以及独热编码(one-hot)表示。其具体步骤为:
提取每个资源库中采样文档的snippet(简短摘要)拼接得到资源库的文本,没有snippet(简短摘要)的采样文档则使用正文的文本内容代替,将得到的文本内容进行预处理包括分词、英文转换为小写、去除停用词、去除标点符号、去除长度过长的字符。将处理后的文本记为R。
对处理后的文本R计算词袋表示以及独热编码(one-hot)的向量表示,得到:
词袋表示:Rbow=[rbow1,...,rbown]
独热编码表示:RV=[r1,...,rn]
其中n表示资源库的数目,rbowi为第i个资源库的词袋表示向量,ri为第i个资源库的独热表示向量。
步骤2:构建变分自编码器模型中的编码器结构,建立将资源库词袋表示向量作为输入,编码得到资源库隐变量向量的过程。
具体地,使用多层感知机(multilayer perceptrons,MLP)的全连接网络结构作为编码器的网络结构,其中网络的层数设置为2层。隐含层的激活函数使用tanh。
根据步骤1中得到的词袋表示向量Rbow作为编码器的输入,经过编码器网络结构,通过重采样技巧,得到隐变量向量的输出H=[h1,h2,…,hn],其中n表示资源库的数目,hi为第i个资源库的隐变量向量。具体地,从词袋表示向量到隐变量向量的输出的计算公式入下所示:
第一层输出:l1=tanh(W1rbowi+b1)
第二层输出:l2=tanh(W2rbowi+b2)
均值:μ=W3l2+b3
对数方差:logσ2=W4l2+b4
标准正太分布:ξ~N(0,1)
隐变量向量输出:h=μ+σ·ξ
式中,W1、W2、W3、W4为第一层隐藏层、第二层隐藏层、均值网络层、对数方差网络层的权重矩阵,b1、b2、b3、b4分别为第一层隐藏层、第二层隐藏层、均值网络层、对数方差网络层的偏置参数。tanh为双曲正切激活函数,rbowi为输入的词袋表示向量组成的矩阵,N(0,1)为标准正太分布,ξ从N(0,1)中随机采样。
步骤3:构建变分自编码器模型中的解码器结构,建立将资源库隐变量向量作为输入,解码得到资源库中词的概率的过程。
解码器的网络结构使用softmax函数。将编码器中输出的隐变量向量到解码器进行解码的具体过程为:
将步骤2中得到的编码器的隐变量向量的输出H=[h1,h2,...,hn]作为解码器的输入,通过解码器的softmax层,得到解码器的输出p(rj|h)。其具体的计算公式为:
式中,xi为资源库独热表示向量rj在位置i的值,为偏置项,R为该层的参数也是训练过程中能学习到的词向量,exp为指数函数,h为编码器输出的隐变量向量,hT表示h的转置,|V|表示xi的维度的大小。p(xi|h)表示由h生成xi的概率。p(rj|h)表示由h生成rj的概率,其中rj表示第j个资源库,N为资源库文本的大小。
步骤4:计算编码器损失以及解码器损失,使用批量梯度下降的方法对损失函数进行优化。具体计算公式如下所示:
编码器损失:
第j个样本的对数生成概率:pj=[logp(x1|h),logp(x2|h),…,logp(xN|h)]
解码器损失:
整体损失:cost=e_loss+d_loss
式中,h为隐变量向量,K为h的维度,μ为编码器网络中的均值,σ为编码器中求得的标准差,其中xi为资源库独热表示向量rj在位置i的值,且i∈(1,N),rj为第j个资源库的独热表示向量,N为rj向量的长度,L为使用批量梯度下降(mini-batch Mini-Batch GradientDescent)进行优化的样本数量。在训练过程中,直接对整体损失cost进行使用AdamOptimizer(自适应优化)进行优化。
对模型网络参数进行设置,包括将编码器每层的维度设置为500维。将隐向量h的维度设置为50维。设置初始化模型的权重矩阵、偏置项,设置网络迭代次数epochs,设置批量梯度下降中样本的样本的数量为L,设置模型学习率α,设置学习率随着模型迭代中逐渐减少,使得在训练前期离最优解远的时候,单步更新的幅度大,以提升训练速度,在模型训练后期离最优解近时候,以小幅度更新,以获得更好的解。
步骤6:对查询词进行扩展得到查询词扩展文本,对训练好的模型,对查询词扩展文本进行推理,得到查询词推理文本的隐变量向量表示。对资源库文本进行推理,得到资源库理文本的隐变量向量表示。
用户的查询词中一般只包含几个关键词,为了使得查询词的语义更加丰富,需要对查询词进行扩展。本实施例使用谷歌搜索接口(Google search API)对查询词进行扩展,针对给定的查询,调用谷歌搜索接口,获得每个查询的前十条结果的简短摘要(snippet),提取其中的文本合并成一个文档,该文档则作为查询词的扩展文本。将查询词扩展文本按照步骤1中预处理的方法进行处理,具体为分词、英文转换为小写、去除停用词、去除标点符号、去除长度过长的字符。将处理后的文本记为q={qt1,...,qtm},其中qti为第i个查询词扩展文本,m为查询数目。同样地,和步骤1的类似,获得文本q中每个查询词扩展文本的词袋表示向量,记为qbow=[qbow1,...,qbowm],其中qbowi为第i个查询词扩展文本向量,m为查询词数目。
对查询词扩展文本的词袋表示向量qbow进行推理,具体地,将qbow作为编码器输入,通过训练完毕的模型中的编码器神经网络得到qbow的隐变量向量表示,记为qh=[qh1,...,qhm],其中qhi为第i个查询词扩展文本向量。同样地,将资源库文本词袋表示向量Rbow=[rbow1,...,rbown]通过编码器神经网络推理得到Rbow的隐变量向量表示Rh=[rh1,...,rhn]。其中,n为资源库的数目,rbowi为第i个资源库的词袋表示向量,rhi为第i个资源库的词袋表示向量,n为资源库的数目。
步骤7:对查询词隐变量表示以及资源库文本隐变量表示,使用余弦相似度计算相似度,根据相似度的大小,得到资源库的得分排序结果。
具体地,通过步骤6得到的查询词的隐变量表示qh以及资源库隐变量表示Rh,使用余弦相似度计算qh与Rh的相似度,计算公式如下所示:
其中qhi为第i个查询的隐变量向量,Rhj为第j个资源库的隐变量向量,||qhi||为向量qhi的模,||Rhj||为向量Rhj的模。针对给定的查询,根据余弦相似度的大小,对资源库进行排序,得到该查询的资源库排序列表。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (8)

1.一种基于变分自编码器的分布式检索资源库选择方法,其特征在于,包括以下步骤:
1)将采样查询得到的每个资源库的样本文档集中的文本进行预处理,拼接得到各个资源库的文本,计算资源库文本的词袋表示以及独热编码one-hot表示;
2)构建变分自编码器模型中的编码器结构,建立将资源库词袋表示向量作为输入,编码得到资源库隐变量向量的过程;
3)构建变分自编码器模型中的解码器结构,建立将资源库隐变量向量作为输入,解码得到资源库文本中词的概率的过程;
4)计算编码器损失以及解码器损失,使用批量梯度下降的方法对损失函数进行优化;
5)设置模型中训练的参数,对模型进行训练;
6)使用训练好的模型,对查询词进行扩展得到查询词扩展文本,对训练好的模型,对查询词扩展文本进行推理,得到查询词推理文本的隐变量表示,对资源库文本进行推理,得到资源库理文本的隐变量表示;
7)对查询词隐变量表示以及资源库文本隐变量表示,使用余弦相似度计算相似度,根据相似度的大小,得到资源库的得分排序结果。
2.根据权利要求1所述的一种基于变分自编码器的分布式检索资源库选择方法,其特征在于,在步骤1)中,提取资源库文本以及预处理的具体过程如下:
1.1)提取每个资源库中采样文档的简短摘要snippet拼接得到资源库的文本,没有简短摘要snippet的采样文档使用正文的文本内容代替,将得到的文本内容进行包括分词、英文转换为小写、去除停用词、去除标点符号和去除长度过长的字符的预处理;
1.2)对预处理后的文本计算词袋表示以及独热编码one-hot的向量表示。
3.根据权利要求1所述的一种基于变分自编码器的分布式检索资源库选择方法,其特征在于:在步骤2)中,构建变分自编码器模型中的编码器结构,建立将资源库词袋表示向量作为输入,编码得到资源库隐变量的具体过程如下:
2.1)使用多层感知机MLP的全连接网络结构作为编码器的网络结构,其中网络的层数设置为2层,隐含层的激活函数使用tanh;
2.2)将资源库词袋表示向量作为输入,编码得到资源库隐变量输出,计算公式如下:
第一层输出:l1=tanh(W1rbowi+b1)
第二层输出:l2=tanh(W2rbowi+b2)
均值:μ=W3l2+b3
对数方差:logσ2=W4l2+b4
标准正太分布:ξ~N(0,1)
隐变量输出:h=μ+σ·ξ
式中,W1、W2、W3、W4为第一层隐藏层、第二层隐藏层、均值网络层、对数方差网络层的权重矩阵,b1、b2、b3、b4分别为第一层隐藏层、第二层隐藏层、均值网络层、对数方差网络层的偏置参数;tanh为双曲正切激活函数,rbowi为输入第i个资源库的词袋表示向量;其中N(0,1)为标准正太分布,ξ从N(0,1)中随机采样。
4.根据权利要求1所述的一种基于变分自编码器的分布式检索资源库选择方法,其特征在于:在步骤3)中,资源库隐变量向量作为输入,解码得到资源库文本中词的概率的过程计算公式为:
式中,xi为资源库独热表示向量rj在位置i的值,为偏置项,R为该层的参数也是训练过程中能学习到的词向量,exp为指数函数,h为编码器输出的隐变量向量,hT表示h的转置,|V|表示xi的维度的大小;p(xi|h)表示由h生成xi的概率;p(rj|h)表示由h生成rj的概率,其中rj表示第j个资源库,N为资源库文本的大小。
5.根据权利要求1所述的一种基于变分自编码器的分布式检索资源库选择方法,其特征在于:在步骤4)中,计算编码器损失以及解码器损失,使用批量梯度下降的方法对损失函数进行优化的计算公式如下:
编码器损失:
第j个样本的对数生成概率:pj=[logp(x1|h),logp(x2|h),…,logp(xN|h)]
解码器损失:
整体损失:cost=e_loss+d_loss
式中,h为隐变量向量,K为h的维度,μ为编码器网络中的均值,σ为编码器中求得的标准差,其中xi为资源库独热表示向量rj在位置i的值,且i∈(1,N),rj为第j个资源库的独热表示向量,N为rj向量的长度,L为使用批量梯度下降进行优化的样本数量;在训练过程中,直接对整体损失cost使用自适应优化AdamOptimizer进行优化。
6.根据权利要求1所述的一种基于变分自编码器的分布式检索资源库选择方法,其特征在于:在步骤5)中,设置模型训练的参数,对模型进行训练的具体设置为:将编码器每层的维度设置为500维,将隐向量h的维度设置为50维,设置初始化模型的权重矩阵、偏置项,设置网络迭代次数epochs,设置批量梯度下降中样本的样本的数量为L,设置模型学习率α,设置学习率随着模型迭代中逐渐减少,使得在训练前期离最优解远的时候,单步更新的幅度大,以提升训练速度,在模型训练后期离最优解近时候,以小幅度更新,以获得更好的解。
7.根据权利要求1所述的一种基于变分自编码器的分布式检索资源库选择方法,其特征在于:在步骤6)中,得到推理得到查询词以及资源库隐变量的具体过程如下:
6.1)使用谷歌搜索接口Google search API对查询词进行扩展,针对给定的查询,调用谷歌搜索接口,获得每个查询的前十条结果的简短摘要snippet,提取其中的文本合并成一个文档,该文档则作为查询词的扩展文本;
6.2)将查询词扩展文本按照步骤1)中预处理的方法进行处理,具体为分词、英文转换为小写、去除停用词、去除标点符号、去除长度过长的字符;
6.3)计算查询词扩展文本的词袋表示向量,将词袋表示向量通过训练完毕的模型中的编码器神经网络,得到查询词的隐变量表示;
6.4)将资源库文本词袋表示向量通过编码器神经网络推理得到资源库的隐变量表示。
8.根据权利要求1所述的一种基于变分自编码器的分布式检索资源库选择方法,其特征在于:在步骤7)中,对查询词隐变量表示以及资源库文本隐变量表示,使用余弦相似度计算相似度,根据相似度的大小,得到资源库的得分排序结果,使用余弦相似度计算相似度的公式如下:
式中,qhi为第i个查询的隐变量向量,Rhj为第j个资源库的隐变量向量,||qhi||为向量qhi的模,||Rhj||为向量Rhj的模;针对给定的查询,根据余弦相似度的大小,对资源库进行排序,得到该查询的资源库排序列表。
CN201910122541.4A 2019-02-18 2019-02-18 一种基于变分自编码器的分布式检索资源库选择方法 Active CN109918477B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910122541.4A CN109918477B (zh) 2019-02-18 2019-02-18 一种基于变分自编码器的分布式检索资源库选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910122541.4A CN109918477B (zh) 2019-02-18 2019-02-18 一种基于变分自编码器的分布式检索资源库选择方法

Publications (2)

Publication Number Publication Date
CN109918477A true CN109918477A (zh) 2019-06-21
CN109918477B CN109918477B (zh) 2021-02-12

Family

ID=66961759

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910122541.4A Active CN109918477B (zh) 2019-02-18 2019-02-18 一种基于变分自编码器的分布式检索资源库选择方法

Country Status (1)

Country Link
CN (1) CN109918477B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111444328A (zh) * 2020-05-06 2020-07-24 南京大学 一种带有解释生成的自然语言自动预测推断方法
CN111966998A (zh) * 2020-07-23 2020-11-20 华南理工大学 基于变分自动编码器的口令生成方法、系统、介质和设备
WO2021139486A1 (zh) * 2020-01-08 2021-07-15 平安科技(深圳)有限公司 文本增量方法、装置及终端设备
CN113486243A (zh) * 2021-07-13 2021-10-08 浙江大学 一种社交网络假流量黑灰产自动挖掘方法和系统
WO2024007867A1 (zh) * 2022-07-08 2024-01-11 华为技术有限公司 缺陷根因确定方法、装置和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108984524A (zh) * 2018-07-05 2018-12-11 北京理工大学 一种基于变分神经网络主题模型的标题生成方法
CN109034953A (zh) * 2018-07-02 2018-12-18 西南交通大学 一种电影推荐方法
CN109145288A (zh) * 2018-07-11 2019-01-04 西安电子科技大学 基于变分自编码模型的文本深度特征提取方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109034953A (zh) * 2018-07-02 2018-12-18 西南交通大学 一种电影推荐方法
CN108984524A (zh) * 2018-07-05 2018-12-11 北京理工大学 一种基于变分神经网络主题模型的标题生成方法
CN109145288A (zh) * 2018-07-11 2019-01-04 西安电子科技大学 基于变分自编码模型的文本深度特征提取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YISHU.MIAO等: "《Neural Variational Inference for Text Processing》", 《PROCEEDINGS OF THE 33 RD INTERNATIONAL CONFERENCE ON MACHINE》 *
曾旭禹等: "《一种基于深度学习的混合推荐算法》", 《计算机科学》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021139486A1 (zh) * 2020-01-08 2021-07-15 平安科技(深圳)有限公司 文本增量方法、装置及终端设备
CN111444328A (zh) * 2020-05-06 2020-07-24 南京大学 一种带有解释生成的自然语言自动预测推断方法
CN111966998A (zh) * 2020-07-23 2020-11-20 华南理工大学 基于变分自动编码器的口令生成方法、系统、介质和设备
CN113486243A (zh) * 2021-07-13 2021-10-08 浙江大学 一种社交网络假流量黑灰产自动挖掘方法和系统
CN113486243B (zh) * 2021-07-13 2023-09-05 浙江大学 一种社交网络假流量黑灰产自动挖掘方法和系统
WO2024007867A1 (zh) * 2022-07-08 2024-01-11 华为技术有限公司 缺陷根因确定方法、装置和存储介质

Also Published As

Publication number Publication date
CN109918477B (zh) 2021-02-12

Similar Documents

Publication Publication Date Title
CN113254803B (zh) 一种基于多特征异质图神经网络的社交推荐方法
US11501182B2 (en) Method and apparatus for generating model
CN111581401B (zh) 一种基于深度相关性匹配的局部引文推荐系统及方法
CN110110054B (zh) 一种基于深度学习的从非结构化文本中获取问答对的方法
CN109918477A (zh) 一种基于变分自编码器的分布式检索资源库选择方法
CN108875051A (zh) 面向海量非结构化文本的知识图谱自动构建方法及系统
CN111414461B (zh) 一种融合知识库与用户建模的智能问答方法及系统
CN110929030A (zh) 一种文本摘要和情感分类联合训练方法
CN110222163A (zh) 一种融合cnn与双向lstm的智能问答方法及系统
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN111858932A (zh) 基于Transformer的多重特征中英文情感分类方法及系统
CN110232113B (zh) 一种提高知识库问答准确度的方法及系统
CN108874896B (zh) 一种基于神经网络和幽默特征的幽默识别方法
CN112559684A (zh) 一种关键词提取及信息检索方法
CN113282711B (zh) 一种车联网文本匹配方法、装置、电子设备及存储介质
CN111026941A (zh) 一种面向装备体系论证评估的智能查询方法
US20230169271A1 (en) System and methods for neural topic modeling using topic attention networks
CN113569001A (zh) 文本处理方法、装置、计算机设备及计算机可读存储介质
CN116127095A (zh) 一种序列模型与知识图谱结合的问答方法
CN114912449B (zh) 基于代码描述文本的技术特征关键词抽取方法与系统
CN111581364B (zh) 一种面向医疗领域的中文智能问答短文本相似度计算方法
CN114692605A (zh) 一种融合句法结构信息的关键词生成方法及装置
CN114648016A (zh) 一种基于事件要素交互与标签语义增强的事件论元抽取方法
CN112926325A (zh) 基于bert神经网络的中文人物关系抽取构建方法
CN114356990A (zh) 基于迁移学习的基地命名实体识别系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant