CN109918477A

CN109918477A - 一种基于变分自编码器的分布式检索资源库选择方法

Info

Publication number: CN109918477A
Application number: CN201910122541.4A
Authority: CN
Inventors: 董守斌; 吴天锋; 袁华; 胡金龙; 张晶
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-02-18
Filing date: 2019-02-18
Publication date: 2019-06-21
Anticipated expiration: 2039-02-18
Also published as: CN109918477B

Abstract

本发明公开了一种基于变分自编码器的分布式检索资源库选择方法，该方法利用深度神经网络构建编码器与解码器网络结构，学习资源库文本的隐含表示，用来捕捉资源库文本的深层语义表示。通过无监督的训练方法得到的模型，对查询词的扩展文本进行推理，获得查询词的隐含表示。通过计算查询词与资源库的隐含表示的相似性，来获得资源库的相关性排名。该模型为无监督的训练，自动获得资源库以及文本的隐含表示向量，可克服有监督训练方法中的设计文本特征的缺点。此外，变分自编码器的网络结构简单，变分推理的计算耗时比基于马尔科夫链蒙特卡罗推理方法的LDA主题模型要低。模型训练完成后，进行资源库选择的耗时低，资源库选择的效率高。

Description

一种基于变分自编码器的分布式检索资源库选择方法

技术领域

本发明涉及分布式检索的技术领域，尤其是指一种基于变分自编码器的分布式检索资源库选择方法。

背景技术

随着信息的不断增长，在获取信息的时候人们可能不满足于单一的信息来源。在信息查询中，用户可能想要查询相关的照片，相应的视频网站上面的视频，或者是新闻、问答、技术博客、来自最新的微博内容等。分布式检索系统将查询分发到各个搜索引擎，融合多个搜索引擎中的资源库的查询结果后呈现给用户，既可以结合多个搜索引擎的结果，又可以减少用户的切换开销。

资源库选择是分布式检索需要解决的一个关键问题，目标是将用户的查询需求与相对应的资源文档集进行匹配，从大量的资源库中选择一组最有可能返回相关结果的资源库。现有的资源库选择算法中，主要有基于采样的方法、基于词项匹配的方法、基于主题模型的方法以及有监督学习的方法。有监督的方法则是需要获得训练数据，根据查询以及资源库的特征，训练模型去衡量资源库的相关性。基于采样的方法则是使用资源库中的采样文档建立中央采样索引库(CSI,centralized sample index),然后根据在中央检索库中得到的文档检索结果所属的资源库，来计算资源库的得分。基于词项匹配的方法中，计算资源库中的文档与查询之间的词项匹配程度来得到资源库的相关度。基于主题模型的方法中，衡量查询与资源库的主题概率分布的相关性。使用词项匹配的方法中，会存在文档的信息缺失，以及被高频率词支配的问题。使用LDA对资源库大文档进行模型训练时，计算耗时多。

本方法创新性地提出使用变分自编码器来进行资源库选择，通过构建编码器解码器网络，训练资源库文本的隐含表示向量，推理查询词扩展文本后的隐含表示向量。本方法通过无监督的训练方法，能自动获取更好的资源库文本的语义表示，避免涉及文本特征。此外，通过训练好的模型，进行查询文本推理的时候只需要经过一遍神经网络，推理的速度快，资源库选择的效率高。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提出了一种基于变分自编码器的分布式检索资源库选择方法，利用深度神经网络构建编码器与解码器网络结构，学习资源库文本的隐含表示，用来捕捉资源库文本的深层语义表示。通过无监督的训练方法得到的模型，对查询词的扩展文本进行推理，获得查询词的隐含表示。通过计算查询词与资源库的隐含表示的相似性，来获得资源库的相关性排名。该模型为无监督的训练，自动获得资源库以及文本的隐含表示向量，可克服有监督训练方法中的设计文本特征的缺点。此外，变分自编码器的网络结构简单，变分推理的计算耗时比基于马尔科夫链蒙特卡罗推理方法的LDA主题模型要低。模型训练完成后，进行资源库选择的耗时低，资源库选择的效率高。

为实现上述目的，本发明所提供的技术方案为：一种基于变分自编码器的分布式检索资源库选择方法，包括以下步骤：

1)将采样查询得到的每个资源库的样本文档集中的文本进行预处理，拼接得到各个资源库的文本，计算资源库文本的词袋表示以及独热编码one-hot表示；

2)构建变分自编码器模型中的编码器结构，建立将资源库词袋表示向量作为输入，编码得到资源库隐变量向量的过程；

3)构建变分自编码器模型中的解码器结构，建立将资源库隐变量向量作为输入，解码得到资源库文本中词的概率的过程；

4)计算编码器损失以及解码器损失，使用批量梯度下降的方法对损失函数进行优化；

5)设置模型中训练的参数，对模型进行训练；

6)使用训练好的模型，对查询词进行扩展得到查询词扩展文本，对训练好的模型，对查询词扩展文本进行推理，得到查询词推理文本的隐变量表示，对资源库文本进行推理，得到资源库理文本的隐变量表示；

7)对查询词隐变量表示以及资源库文本隐变量表示，使用余弦相似度计算相似度，根据相似度的大小，得到资源库的得分排序结果。

在步骤1)中，提取资源库文本以及预处理的具体过程如下：

1.1)提取每个资源库中采样文档的简短摘要snippet拼接得到资源库的文本，没有简短摘要snippet的采样文档使用正文的文本内容代替，将得到的文本内容进行包括分词、英文转换为小写、去除停用词、去除标点符号和去除长度过长的字符的预处理；

1.2)对预处理后的文本计算词袋表示以及独热编码one-hot的向量表示。

在步骤2)中，构建变分自编码器模型中的编码器结构，建立将资源库词袋表示向量作为输入，编码得到资源库隐变量的具体过程如下：

2.1)使用多层感知机MLP的全连接网络结构作为编码器的网络结构，其中网络的层数设置为2层，隐含层的激活函数使用tanh；

2.2)将资源库词袋表示向量作为输入，编码得到资源库隐变量输出，计算公式如下：

第一层输出：l₁＝tanh(W₁rbow_i+b₁)

第二层输出：l₂＝tanh(W₂rbow_i+b₂)

均值：μ＝W₃l₂+b₃

对数方差：logσ²＝W₄l₂+b₄

标准正太分布：ξ～N(0,1)

隐变量输出：h＝μ+σ·ξ

式中，W₁、W₂、W₃、W₄为第一层隐藏层、第二层隐藏层、均值网络层、对数方差网络层的权重矩阵，b₁、b₂、b₃、b₄分别为第一层隐藏层、第二层隐藏层、均值网络层、对数方差网络层的偏置参数；tanh为双曲正切激活函数，rbow_i为输入第i个资源库的词袋表示向量；其中N(0,1)为标准正太分布，ξ从N(0,1)中随机采样。

在步骤3)中，资源库隐变量向量作为输入，解码得到资源库文本中词的概率的过程计算公式为：

式中，x_i为资源库独热表示向量r_j在位置i的值，为偏置项，R为该层的参数也是训练过程中能学习到的词向量，exp为指数函数，h为编码器输出的隐变量向量，h^T表示h的转置，|V|表示x_i的维度的大小；p(x_i|h)表示由h生成x_i的概率；p(r_j|h)表示由h生成r_j的概率，其中r_j表示第j个资源库，N为资源库文本的大小。

在步骤4)中，计算编码器损失以及解码器损失，使用批量梯度下降的方法对损失函数进行优化的计算公式如下：

编码器损失：

第j个样本的对数生成概率：p_j＝[logp(x₁|h),logp(x₂|h),…,logp(x_N|h)]

解码器损失：

整体损失：cost＝e_loss+d_loss

式中，h为隐变量向量，K为h的维度，μ为编码器网络中的均值，σ为编码器中求得的标准差，其中x_i为资源库独热表示向量r_j在位置i的值，且i∈(1,N)，r_j为第j个资源库的独热表示向量，N为r_j向量的长度，L为使用批量梯度下降进行优化的样本数量；在训练过程中，直接对整体损失cost使用自适应优化AdamOptimizer进行优化。

在步骤5)中，设置模型训练的参数，对模型进行训练的具体设置为：将编码器每层的维度设置为500维，将隐向量h的维度设置为50维，设置初始化模型的权重矩阵、偏置项，设置网络迭代次数epochs，设置批量梯度下降中样本的样本的数量为L，设置模型学习率α，设置学习率随着模型迭代中逐渐减少，使得在训练前期离最优解远的时候，单步更新的幅度大，以提升训练速度，在模型训练后期离最优解近时候，以小幅度更新，以获得更好的解。

在步骤6)中，得到推理得到查询词以及资源库隐变量的具体过程如下：

6.1)使用谷歌搜索接口Google search API对查询词进行扩展，针对给定的查询，调用谷歌搜索接口，获得每个查询的前十条结果的简短摘要snippet，提取其中的文本合并成一个文档，该文档则作为查询词的扩展文本；

6.2)将查询词扩展文本按照步骤1)中预处理的方法进行处理，具体为分词、英文转换为小写、去除停用词、去除标点符号、去除长度过长的字符；

6.3)计算查询词扩展文本的词袋表示向量，将词袋表示向量通过训练完毕的模型中的编码器神经网络，得到查询词的隐变量表示；

6.4)将资源库文本词袋表示向量通过编码器神经网络推理得到资源库的隐变量表示。

在步骤7)中，对查询词隐变量表示以及资源库文本隐变量表示，使用余弦相似度计算相似度，根据相似度的大小，得到资源库的得分排序结果，使用余弦相似度计算相似度的公式如下：

式中，qh_i为第i个查询的隐变量向量，Rh_j为第j个资源库的隐变量向量，||qh_i||为向量qh_i的模，||Rh_j||为向量Rh_j的模；针对给定的查询，根据余弦相似度的大小，对资源库进行排序，得到该查询的资源库排序列表。

本发明与现有技术相比，具有如下优点与有益效果：

1、本发明创新性地提出使用变分自编码器来进行资源库选择，通过构建编码器解码器网络，训练资源库文本的隐含表示向量，推断查询词扩展文本后的隐含表示向量。

2、本发明通过无监督的训练方法，能自动获取更好的资源库文本的语义表示，避免涉及文本特征。

3、本发明通过训练好后的模型，进行查询文本推理的时候只需要经过一遍神经网络，推理的速度快，资源库选择的效率高。

4、模型使用贝叶斯概率理论与深度学习进行结合，更好的进行扩展，算法鲁棒性好。

附图说明

图1是本发明的模型训练流程图。

图2是本发明的模型推理以及资源库选择的流程图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

如图1和图2所示，本实施例所提供的基于变分自编码器的分布式检索资源库选择方法，包括以下步骤：

步骤1：将采样查询得到的每个资源库的样本文档集中的文本进行预处理，拼接得到各个资源库的“大文档”，计算资源库大文档的词袋表示以及独热编码(one-hot)表示。其具体步骤为：

提取每个资源库中采样文档的snippet(简短摘要)拼接得到资源库的文本，没有snippet(简短摘要)的采样文档则使用正文的文本内容代替，将得到的文本内容进行预处理包括分词、英文转换为小写、去除停用词、去除标点符号、去除长度过长的字符。将处理后的文本记为R。

对处理后的文本R计算词袋表示以及独热编码(one-hot)的向量表示，得到：

词袋表示：Rbow＝[rbow₁,...,rbow_n]

独热编码表示：RV＝[r₁,...,r_n]

其中n表示资源库的数目，rbow_i为第i个资源库的词袋表示向量，r_i为第i个资源库的独热表示向量。

步骤2：构建变分自编码器模型中的编码器结构，建立将资源库词袋表示向量作为输入，编码得到资源库隐变量向量的过程。

具体地，使用多层感知机(multilayer perceptrons，MLP)的全连接网络结构作为编码器的网络结构，其中网络的层数设置为2层。隐含层的激活函数使用tanh。

根据步骤1中得到的词袋表示向量Rbow作为编码器的输入，经过编码器网络结构，通过重采样技巧，得到隐变量向量的输出H＝[h₁,h₂,…,h_n]，其中n表示资源库的数目，h_i为第i个资源库的隐变量向量。具体地，从词袋表示向量到隐变量向量的输出的计算公式入下所示：

第一层输出：l₁＝tanh(W₁rbow_i+b₁)

第二层输出：l₂＝tanh(W₂rbow_i+b₂)

均值：μ＝W₃l₂+b₃

对数方差：logσ²＝W₄l₂+b₄

标准正太分布：ξ～N(0,1)

隐变量向量输出：h＝μ+σ·ξ

式中，W₁、W₂、W₃、W₄为第一层隐藏层、第二层隐藏层、均值网络层、对数方差网络层的权重矩阵，b₁、b₂、b₃、b₄分别为第一层隐藏层、第二层隐藏层、均值网络层、对数方差网络层的偏置参数。tanh为双曲正切激活函数，rbow_i为输入的词袋表示向量组成的矩阵，N(0,1)为标准正太分布，ξ从N(0,1)中随机采样。

步骤3：构建变分自编码器模型中的解码器结构，建立将资源库隐变量向量作为输入，解码得到资源库中词的概率的过程。

解码器的网络结构使用softmax函数。将编码器中输出的隐变量向量到解码器进行解码的具体过程为：

将步骤2中得到的编码器的隐变量向量的输出H＝[h₁,h₂,...,h_n]作为解码器的输入，通过解码器的softmax层，得到解码器的输出p(r_j|h)。其具体的计算公式为：

式中，x_i为资源库独热表示向量r_j在位置i的值，为偏置项，R为该层的参数也是训练过程中能学习到的词向量，exp为指数函数，h为编码器输出的隐变量向量，h^T表示h的转置，|V|表示x_i的维度的大小。p(x_i|h)表示由h生成x_i的概率。p(r_j|h)表示由h生成r_j的概率，其中r_j表示第j个资源库，N为资源库文本的大小。

步骤4：计算编码器损失以及解码器损失，使用批量梯度下降的方法对损失函数进行优化。具体计算公式如下所示：

编码器损失：

解码器损失：

整体损失：cost＝e_loss+d_loss

式中，h为隐变量向量，K为h的维度，μ为编码器网络中的均值，σ为编码器中求得的标准差，其中x_i为资源库独热表示向量r_j在位置i的值，且i∈(1,N)，r_j为第j个资源库的独热表示向量，N为r_j向量的长度，L为使用批量梯度下降(mini-batch Mini-Batch GradientDescent)进行优化的样本数量。在训练过程中，直接对整体损失cost进行使用AdamOptimizer(自适应优化)进行优化。

对模型网络参数进行设置，包括将编码器每层的维度设置为500维。将隐向量h的维度设置为50维。设置初始化模型的权重矩阵、偏置项，设置网络迭代次数epochs，设置批量梯度下降中样本的样本的数量为L，设置模型学习率α,设置学习率随着模型迭代中逐渐减少，使得在训练前期离最优解远的时候，单步更新的幅度大，以提升训练速度，在模型训练后期离最优解近时候，以小幅度更新，以获得更好的解。

步骤6：对查询词进行扩展得到查询词扩展文本，对训练好的模型，对查询词扩展文本进行推理，得到查询词推理文本的隐变量向量表示。对资源库文本进行推理，得到资源库理文本的隐变量向量表示。

用户的查询词中一般只包含几个关键词，为了使得查询词的语义更加丰富，需要对查询词进行扩展。本实施例使用谷歌搜索接口(Google search API)对查询词进行扩展，针对给定的查询，调用谷歌搜索接口，获得每个查询的前十条结果的简短摘要(snippet)，提取其中的文本合并成一个文档，该文档则作为查询词的扩展文本。将查询词扩展文本按照步骤1中预处理的方法进行处理，具体为分词、英文转换为小写、去除停用词、去除标点符号、去除长度过长的字符。将处理后的文本记为q＝{qt₁,...,qt_m}，其中qt_i为第i个查询词扩展文本，m为查询数目。同样地，和步骤1的类似，获得文本q中每个查询词扩展文本的词袋表示向量，记为qbow＝[qbow₁,...,qbow_m]，其中qbow_i为第i个查询词扩展文本向量，m为查询词数目。

对查询词扩展文本的词袋表示向量qbow进行推理，具体地，将qbow作为编码器输入，通过训练完毕的模型中的编码器神经网络得到qbow的隐变量向量表示，记为qh＝[qh₁,...,qh_m]，其中qh_i为第i个查询词扩展文本向量。同样地，将资源库文本词袋表示向量Rbow＝[rbow₁,...,rbow_n]通过编码器神经网络推理得到Rbow的隐变量向量表示Rh＝[rh₁,...,rh_n]。其中，n为资源库的数目，rbow_i为第i个资源库的词袋表示向量，rh_i为第i个资源库的词袋表示向量，n为资源库的数目。

步骤7：对查询词隐变量表示以及资源库文本隐变量表示，使用余弦相似度计算相似度，根据相似度的大小，得到资源库的得分排序结果。

具体地，通过步骤6得到的查询词的隐变量表示qh以及资源库隐变量表示Rh，使用余弦相似度计算qh与Rh的相似度，计算公式如下所示：

其中qh_i为第i个查询的隐变量向量，Rh_j为第j个资源库的隐变量向量，||qh_i||为向量qh_i的模，||Rh_j||为向量Rh_j的模。针对给定的查询，根据余弦相似度的大小，对资源库进行排序，得到该查询的资源库排序列表。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于变分自编码器的分布式检索资源库选择方法，其特征在于，包括以下步骤：

5)设置模型中训练的参数，对模型进行训练；

2.根据权利要求1所述的一种基于变分自编码器的分布式检索资源库选择方法，其特征在于，在步骤1)中，提取资源库文本以及预处理的具体过程如下：

3.根据权利要求1所述的一种基于变分自编码器的分布式检索资源库选择方法，其特征在于：在步骤2)中，构建变分自编码器模型中的编码器结构，建立将资源库词袋表示向量作为输入，编码得到资源库隐变量的具体过程如下：

第一层输出：l₁＝tanh(W₁rbow_i+b₁)

第二层输出：l₂＝tanh(W₂rbow_i+b₂)

均值：μ＝W₃l₂+b₃

对数方差：logσ²＝W₄l₂+b₄

标准正太分布：ξ～N(0,1)

隐变量输出：h＝μ+σ·ξ

4.根据权利要求1所述的一种基于变分自编码器的分布式检索资源库选择方法，其特征在于：在步骤3)中，资源库隐变量向量作为输入，解码得到资源库文本中词的概率的过程计算公式为：

5.根据权利要求1所述的一种基于变分自编码器的分布式检索资源库选择方法，其特征在于：在步骤4)中，计算编码器损失以及解码器损失，使用批量梯度下降的方法对损失函数进行优化的计算公式如下：

编码器损失：

解码器损失：

整体损失：cost＝e_loss+d_loss

6.根据权利要求1所述的一种基于变分自编码器的分布式检索资源库选择方法，其特征在于：在步骤5)中，设置模型训练的参数，对模型进行训练的具体设置为：将编码器每层的维度设置为500维，将隐向量h的维度设置为50维，设置初始化模型的权重矩阵、偏置项，设置网络迭代次数epochs，设置批量梯度下降中样本的样本的数量为L，设置模型学习率α，设置学习率随着模型迭代中逐渐减少，使得在训练前期离最优解远的时候，单步更新的幅度大，以提升训练速度，在模型训练后期离最优解近时候，以小幅度更新，以获得更好的解。

7.根据权利要求1所述的一种基于变分自编码器的分布式检索资源库选择方法，其特征在于：在步骤6)中，得到推理得到查询词以及资源库隐变量的具体过程如下：

8.根据权利要求1所述的一种基于变分自编码器的分布式检索资源库选择方法，其特征在于：在步骤7)中，对查询词隐变量表示以及资源库文本隐变量表示，使用余弦相似度计算相似度，根据相似度的大小，得到资源库的得分排序结果，使用余弦相似度计算相似度的公式如下：