CN109815474B

CN109815474B - 一种词序列向量确定方法、装置、服务器及存储介质

Info

Publication number: CN109815474B
Application number: CN201711160695.XA
Authority: CN
Inventors: 宋彦; 史树明
Original assignee: Shenzhen Tencent Computer Systems Co Ltd
Current assignee: Shenzhen Tencent Computer Systems Co Ltd
Priority date: 2017-11-20
Filing date: 2017-11-20
Publication date: 2022-09-23
Anticipated expiration: 2037-11-20
Also published as: CN109815474A

Abstract

本发明实施例提供一种词序列向量确定方法、装置、服务器及存储介质，该方法包括：获取待处理词序列；调用预训练的向量确定模型，向量确定模型以递归神经网络对词序列的状态参数输出结果，趋于词序列的主题分布结果为目标，训练递归神经网络得到；将待处理词序列的关键词依序的输入向量确定模型，确定向量确定模型根据依序输入的关键词，依序更新的状态参数，将最后一个更新得到的状态参数，作为待处理词序列的状态参数输出结果，得到待处理词序列的向量；其中，向量确定模型当前更新的状态参数，根据当前输入的关键词和上一更新的状态参数确定。本发明实施例可提升词序列向量确定结果的可靠性，并提升使用向量确定模型的搜索引擎的查询准确率。

Description

一种词序列向量确定方法、装置、服务器及存储介质

技术领域

本发明涉及数据处理技术领域，具体涉及一种词序列向量确定方法、装置、服务器及存储介质。

背景技术

词序列由多个关键词构成，词序列的向量简称为词序列向量，是对词序列的特征表示，其在搜索、查询、文本相似度计算等场景中具有广泛的应用；词序列的一种典型形式为Query，Query是指查询条件(如用户在搜索引擎输入的查询条件)，一般由多个关键词构成。在给定一个词序列的情况下，准确、快捷的确定出相应的词序列向量，对于后续在搜索、查询等场景的应用具有重要意义。

词序列向量的确定可类似于句子或段落向量的计算，属于大颗粒度文本的向量计算问题；目前的词序列向量确定方式主要是：确定词序列形成的长文本，直接以长文本所包含的词向量及词向量的组合，作为该长文本的向量，实现词序列向量的确定。

然而，不同的词序列形成的长文本多种多样，在面对一个新形成的新长文本时，计算新文本的向量前提是提供足够全面的参考词的向量，这就需要在大规模自然语言文本(如篇章级的文本)的基础上进行参考词的向量学习；而词序列一般在搜索、查询等场景中使用，词序列的使用场景往往与一般的文本不相同，因此基于大规模自然语言文本学习的参考词的向量，往往不能对词序列向量的确定提供有效的指导，并且由于仅考虑长文本的词向量的组合，而未考虑词序列中关键词之间的关系，导致所确定的词序列向量结果存在一定的偏差，使得词序列向量的确定结果的可靠性较低。

发明内容

有鉴于此，本发明实施例提供一种词序列向量确定方法、装置、服务器及存储介质，以提升词序列向量的确定结果的可靠性。

为实现上述目的，本发明实施例提供如下技术方案：

一种词序列向量确定方法，包括：

获取待处理词序列；

调用预训练的向量确定模型，所述向量确定模型以递归神经网络对词序列的状态参数输出结果，趋于词序列的主题分布结果为目标，训练所述递归神经网络得到；

将所述待处理词序列的关键词依序的输入所述向量确定模型，确定向量确定模型根据依序输入的关键词，依序更新的状态参数，将最后一个更新得到的状态参数，作为所述待处理词序列的状态参数输出结果，得到所述待处理词序列的向量；其中，所述向量确定模型当前更新的状态参数，根据当前输入的关键词和上一更新的状态参数确定。

本发明实施例还提供一种词序列向量确定装置，包括：

待处理词序列获取模块，用于获取待处理词序列；

模型调用模块，用于调用预训练的向量确定模型，所述向量确定模型以递归神经网络对词序列的状态参数输出结果，趋于词序列的主题分布结果为目标，训练所述递归神经网络得到；

向量确定模块，用于将所述待处理词序列的关键词依序的输入所述向量确定模型，确定向量确定模型根据依序输入的关键词，依序更新的状态参数，将最后一个更新得到的状态参数，作为所述待处理词序列的状态参数输出结果，得到所述待处理词序列的向量；其中，所述向量确定模型当前更新的状态参数，根据当前输入的关键词和上一更新的状态参数确定。

本发明实施例还提供一种服务器，包括：至少一个存储器和至少一个处理器；所述存储器存储有程序，所述处理器调用所述存储器存储的程序，所述程序用于：

获取待处理词序列；

本发明实施例还提供一种存储介质，所述存储介质存储有适于处理器执行的程序，所述程序用于：

获取待处理词序列；

基于上述技术方案，本发明实施例可以递归神经网络对词序列的状态参数输出结果，趋于词序列的主题分布结果为目标，训练所述递归神经网络，得到向量确定模型，将向量确定模型对待处理词序列的状态参数输出结果，作为待处理词序列的向量，并且使得待处理词序列的向量趋于待处理词序列的主题分布结果。由于词序列的主题分布结果是由词序列的各关键词的主题分布确定，可以对词序列的特征进行很好的表示，因此可使用待处理词序列的主题分布结果表示待处理词序列的向量；同时，由于关键词的主题分布对于词语的关系依赖较少，可在不需大规模自然语言文本的情况下，直接通过对大量的词序列的关键词进行学习得到，因此向量确定模型可在较少或者完全无标注的词序列数据上进行学习训练，学习复杂低较低，并且可在词序列向量的确定上实现很好的适用，保障词序列向量的确定结果的可靠性；另外，向量确定模型在具体进行待处理词序列的向量确定时，是根据待处理词序列中关键词之间的顺序关系，依序的进行状态参数的更新，将最后一个更新得到的状态参数，作为待处理词序列的向量；因此本发明实施例提供的词序列向量确定方法能够考虑词序列间的关键词关系，保障待处理词序列的向量确定结果的可靠性。

可见，本发明实施例提供的词序列向量确定方法，通过预先训练的向量确定模型，实现趋于词序列的主题分布结果的向量的确定，由于词序列的主题分布结果可在不需大规模自然语言文本的情况下，直接基于大量的词序列的关键词学习得到，实现在词序列向量确定上的适用，对词序列向量的确定提供有效的指导，提升词序列向量的确定结果的可靠性；并且向量确定模型在具体进行词序列的向量确定时，可根据词序列的关键词顺序进行，提升了词序列向量的确定结果的可靠性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种词序列向量确定方法的流程图；

图2为词序列的状态参数输出结果的确定示意图；

图3为训练得到向量确定模型的架构示意图；

图4为本发明实施例提供的向量确定模型的训练方法的流程图；

图5为向量确定模块的训练示意图；

图6为本发明实施例提供的确定词序列样本的主题分布结果的方法流程图；

图7为本发明实施例提供的向量确定模型的另一训练方法的流程图；

图8为本发明实施例提供的词序列向量确定方法的应用示例图；

图9为本发明实施例提供的词序列向量确定装置的结构框图；

图10为本发明实施例提供的词序列向量确定装置的另一结构框图；

图11为本发明实施例提供的词序列向量确定装置的再一结构框图；

图12为服务器的硬件结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的一种词序列向量确定方法的流程图，该方法可应用于服务器(如搜索服务器，查询服务器，或者其他专门设置的服务设备)，由服务器基于待处理词序列，实现待处理词序列的向量确定；参照图1，该方法可以包括：

步骤S100、获取待处理词序列。

可选的，待处理词序列为需要确定向量的词序列，待处理词序列可以包括多个关键词，待处理词序列可由用户在搜索框、查询框输入，用户输入完成的待处理词序列可上传至服务器，实现服务器对待处理词序列的获取；例如，用户在通过搜索引擎进行搜索查询时，可在终端(手机、笔记本电脑等)展示的搜索框进行关键词的输入，当用户在搜索框输入关键词完毕后，先后输入的关键词可构成待处理词序列，并上传至服务器。

步骤S110、调用预训练的向量确定模型，所述向量确定模型以递归神经网络对词序列的状态参数输出结果，趋于词序列的主题分布结果为目标，训练所述递归神经网络得到。

区别于传统的以词序列形成的长文本所包含的词向量及词向量的组合，确定词序列向量的方式，本发明实施例可以预先训练出向量确定模型，通过预训练的向量确定模型实现词序列的向量确定；

在本发明实施例中，向量确定模型的模型形式可以是递归神经网络，如可选用LSTM模型、双向LSTM模型等时间递归神经网络，当然也可选用其他属于递归神经网络的序列模型，例如GRU(Gated Recurrent Unit)等；

在训练得到向量确定模型的过程中，本发明实施例可收集多个作为训练样本的词序列，以递归神经网络对词序列的状态参数输出结果，趋于词序列的主题分布结果为目标(即递归神经网络对词序列的状态参数输出结果，与词序列的主题分布结果的差异最小化为目标，如最小化递归神经网络对词序列的状态参数输出结果，与词序列的主题分布结果的相对熵距离为目标)，多次迭代的进行递归神经网络的参数更新，将训练完成的递归神经网络作为向量确定模型，训练得到向量确定模型。

需要说明的是，LSTM模型、双向LSTM模型、GRU均是属于递归神经网络的表现形式，基于递归神经网络可以连接先前的信息到当前的任务上的能力；本发明实施例在使用递归神经网络进行词序列的处理时存在适配的改进调整，即递归神经网络可根据词序列依序输入的关键词，依序的更新状态参数，并且当前更新的状态参数，根据当前输入的关键词和上一更新的状态参数确定(如可根据当前输入的关键词，修改上一更新的状态参数，得到当前更新的状态参数)，进而可将最后一个更新得到的状态参数，作为词序列的状态参数输出结果。

可选的，词序列的主题分布结果可通过预置的主题模型确定，如通过预置的各主题类型的主题模型，确定词序列的各关键词在各主题类型的属于概率，进而确定出词序列在各主题类型的属于概率，得到词序列的主题分布结果。

步骤S120、将所述待处理词序列的关键词依序的输入所述向量确定模型，确定向量确定模型根据依序输入的关键词，依序更新的状态参数，将最后一个更新得到的状态参数，作为所述待处理词序列的状态参数输出结果，得到所述待处理词序列的向量；其中，所述向量确定模型当前更新的状态参数，根据当前输入的关键词和上一更新的状态参数确定。

在获取需确定向量的待处理词序列，并调用预训练的向量确定模型后，可由向量确定模型确定待处理词序列的状态参数输出结果，由于训练得到的向量确定模型对词序列的状态参数输出结果，趋于待处理词序列的主题分布结果，因此向量确定模型所确定的待处理词序列的状态参数输出结果，可视为是待处理词序列的主题分布结果，从而可将待处理词序列的主题分布结果作为待处理词序列的向量，实现待处理词序列的向量的确定；

需要说明的是，由于向量确定模型的模型形式属于递归神经网络，因此向量确定模型在确定待处理词序列的状态参数输出结果时，可依照上文描述的递归神经网络对词训练的适配处理改进进行；即可将待处理词序列的关键词依序的输入所述向量确定模型，使得向量确定模型可根据待处理词序列依序输入的关键词，依序的更新状态参数，并且当前更新的状态参数，根据当前输入的关键词和上一更新的状态参数确定，从而将最后一个更新得到的状态参数，作为待处理词序列的状态参数输出结果，得到待处理词序列的向量；

为便于理解，可参照图2所示词序列的状态参数输出结果的确定示意，如图2所示，可设词序列具有n个关键词，可将n个关键词依序的输入向量确定模型，则h2作为第二个状态参数，可通过处理第二个输入的关键词w2，来修改上一更新的状态参数h1，更新得到第二个状态参数h2，以此类推，则可得到最后一个更新的状态参数hn(n为词序列中关键词的数量)，确定出向量确定模型对该词序列的状态参数输出结果，得到该词序列的向量。

本发明实施例可以递归神经网络对词序列的状态参数输出结果，趋于词序列的主题分布结果为目标，训练所述递归神经网络，预先训练得到向量确定模型，从而使得向量确定模型对词序列的状态参数输出结果，趋于词序列的主题分布结果；进而在获取待处理词序列，需要确定待处理词序列的向量时，可调用该预训练的向量确定模型，将待处理词序列的关键词依序的输入所述向量确定模型，使得向量确定模型可根据依序输入的关键词，依序更新的状态参数，且当前更新的状态参数，根据当前输入的关键词和上一更新的状态参数确定，从而将最后一个更新得到的状态参数，作为所述待处理词序列的状态参数输出结果，得到待处理词序列的向量。

本发明实施例提供的词序列向量确定方法，可以递归神经网络对词序列的状态参数输出结果，趋于词序列的主题分布结果为目标，训练所述递归神经网络，得到向量确定模型，将向量确定模型对待处理词序列的状态参数输出结果，作为待处理词序列的向量，并且使得待处理词序列的向量趋于待处理词序列的主题分布结果。由于词序列的主题分布结果是由词序列的各关键词的主题分布确定，可以对词序列的特征进行很好的表示，因此可使用待处理词序列的主题分布结果表示待处理词序列的向量；同时，由于关键词的主题分布对于词语的关系依赖较少，可在不需大规模自然语言文本的情况下，直接通过对大量的词序列的关键词进行学习得到，因此向量确定模型可在较少或者完全无标注的词序列数据上进行学习训练，学习复杂低较低，并且可在词序列向量的确定上实现很好的适用，保障词序列向量的确定结果的可靠性；另外，向量确定模型在具体进行待处理词序列的向量确定时，是根据待处理词序列中关键词之间的顺序关系，依序的进行状态参数的更新，将最后一个更新得到的状态参数，作为待处理词序列的向量；因此本发明实施例提供的词序列向量确定方法能够考虑词序列间的关键词关系，保障待处理词序列的向量确定结果的可靠性。

本发明实施例提供的词序列向量确定方法，通过预先训练的向量确定模型，实现趋于词序列的主题分布结果的向量的确定，由于词序列的主题分布结果可在不需大规模自然语言文本的情况下，直接基于大量的词序列的关键词学习得到，实现在词序列向量确定上的适用，对词序列向量的确定提供有效的指导，提升词序列向量的确定结果的可靠性；并且向量确定模型在具体进行词序列的向量确定时，可根据词序列的关键词顺序进行，提升了词序列向量的确定结果的可靠性，并可提升使用该向量确定模型的搜索引擎的查询准确率。

可选的，训练得到向量确定模型可使用图3所示架构实现，图3为本发明实施例提供的训练得到向量确定模型的架构示意图，如图3所示，训练向量确定模型所使用的架构可以包括：递归神经网络01，映射层02，主题模型03；

可选的，递归神经网络可选用时间递归神经网络实现，时间递归神经网络适合于处理和预测时间序列中间隔和延迟较长的重要事件，在时间递归神经网络中，时间递归神经网络的神经元间连接构成有向图；

在一种可选实现上，时间递归神经网络可选用LSTM(Long Short-Term Memory，长短期记忆网络)模型实现，LSTM模型是一种递归神经网络，其具有至少一个处理单元，每一处理单元可包括输入门、遗忘门和输出门；显然，递归神经网络也可选用GRU等序列模型实现；

本发明实施例可通过图3所示架构，对递归神经网络进行训练，将训练完成的递归神经网络，作为训练得到的向量确定模型；相应的，若递归神经网络选用LSTM模型，则训练得到的向量确定模型也可以是LSTM模型的形式；

主题模型可选用LDA(Latent Dirichlet Allocation，隐含狄利克雷分布，一种文档主题生成模型)实现，可实现词序列的主题分布结果的确定；主题模型可以包括多个主题类型的主题模型，一个主题类型的主题模型可实现一个关键词属于该主题类型的概率确定；

映射层可选用线性映射层，也可选用非线性映射层；映射层可实现递归神经网络对词序列的状态参数输出结果，到词序列的主题分布结果的映射。

基于图3所示架构，本发明实施例可收集词序列样本作为训练样本，以递归神经网络对词序列样本的状态参数输出结果，趋于主题模型所确定的词序列样本的主题分布结果为训练目标，迭代的进行递归神经网络的参数更新，直至在递归神经网络达到收敛，得到向量确定模型；从而在对待处理词序列进行向量的确定时，可将训练得到的向量确定模型对待处理词序列的状态参数输出结果(趋于待处理词序列的主题分布)，作为待处理词序列的向量，实现词序列向量的确定。

结合图3所示架构，图4示出了本发明实施例提供的向量确定模型的训练方法的流程图，图4所示方法可应用于服务器，由服务器训练得到向量确定模型，参照图4，向量确定模型的训练方法可以包括：

步骤S200、获取多个词序列样本。

词序列样本可以是本发明实施例收集的用于训练得到向量确定模型的训练样本；词序列样本的数量可以是多个，一个词序列样本可以由多个关键词构成；

词序列样本的收集方式本发明实施例并不限制，如可以收集历史输入搜索引擎的多个词序列(如基于搜索引擎Query日志，可收集历史输入搜索引擎的多个Query)等。

步骤S210、确定递归神经网络对各词序列样本的状态参数输出结果。

可选的，对于任一词序列样本，本发明实施例可将该词序列样本的关键词依序(如依照词序列中关键词的排列顺序)的输入递归神经网络，使得递归神经网络可根据该词序列样本依序输入的关键词，依序的更新状态参数，并且当前更新的状态参数，根据当前输入的关键词和上一更新的状态参数确定，从而将最后一个更新得到的状态参数，作为该词序列样本的状态参数输出结果；以此对各词序列样本进行处理，可得到时间递归神经网络对各词序列样本的状态参数输出结果；

可以理解的是，递归神经网络对某一词序列样本的状态参数输出结果，可以认为是递归神经网络根据该词序列样本，所最后更新的隐藏层的状态参数；例如，若时间递归神经网络选用LSTM模型实现，对于某一词序列样本，LSTM模型可根据该词序列样本中依序输入的关键词，依序的更新LSTM模型的隐藏层的状态参数，从而实现最后一个更新的隐藏层的状态参数的确定，得到该词序列样本的状态参数输出结果。

步骤S220、确定主题模型对各词序列样本的主题分布结果。

对于任一词序列样本，可根据主题模型确定该词序列样本的主题分布结果，从而以此对各词序列样本进行处理，可得到主题模型对各词序列样本的主题分布结果；

可选的，对于一个词序列样本，本发明实施例可通过主题模型确定该词序列样本的每个关键词的主题分布，从而根据该词序列样本的每个关键词的主题分布，确定该词序列样本的主题分布结果，以得到各词序列样本的主题分布结果。

步骤S230、分别确定各词序列样本的状态参数输出结果，到主题分布结果的映射距离，得到各词序列样本相应的映射距离。

可选的，确定了各词序列样本的状态参数输出结果和主题分布结果后，对于任一词序列样本，本发明实施例可通过映射层，确定该词序列样本的状态参数输出结果，到该词序列样本的主题分布结果的映射距离(该映射距离可体现词序列样本的状态参数输出结果，与主题分布结果的差异)；从而对于各词序列样本的状态参数输出结果和主题分布结果，以此进行处理，则可得到各词序列样本相应的映射距离。

步骤S240、以最小化各词序列样本相应的映射距离为训练目标，更新递归神经网络的参数，直至递归神经网络达到收敛，得到向量确定模型。

本发明实施例的向量确定模型是通过训练更新递归神经网络的参数，使得递归神经网络对词序列样本的状态参数输出结果，趋于主题模型所确定的词序列样本的主题分布结果，从而将训练完成的递归神经网络(即达到收敛的时间递归神经网络)，作为训练得到的向量确定模型；

可选的，在具体训练更新时间递归神经网络的参数时，本发明实施例可以最小化各词序列样本相应的映射距离为训练目标，通过反向传播算法等参数更新方式，对时间递归神经网络的参数进行多次的迭代更新，直至训练目标不再减小，或者迭代次数达到最大次数时，认为时间递归神经网络达到收敛，完成时间递归神经网络的参数更新训练，得到向量确定模型。

基于训练得到的向量确定模块，对于任一需确定向量的词序列，本发明实施例可将向量确定模块对该词序列的状态参数输出结果(趋于该词序列的主题分布结果)，作为该词序列的向量，实现词序列向量的确定。

可选的，基于图4所示训练得到向量确定模块的方法，图5示出了相应的向量确定模块的训练示意，参照图5：

对于获取的任一词序列样本，可假设该词序列样本具有n个关键词，分别为w1至wn，则可将w1至wn的这n个关键词依序的输入递归神经网络，从而递归神经网络可根据关键词w1更新得到第一个状态参数h1，根据关键词w2修改第一个状态参数h1，更新得到第二个状态参数h2，以此类推，直至更新得到最后一个状态参数hn，确定出时间递归神经网络对该词序列样本的状态参数输出结果；

同时，对于获取的任一词序列样本，利用主题分布模型确定该词序列样本的各关键词的主题分布，根据该词序列样本的各关键词的主题分布，确定该词序列样本的主题分布结果；

利用映射层(可选为线性映射层)，确定该词序列样本的状态参数输出结果到主题分布结果的映射距离；

以最小化该映射距离为目标，更新时间递归神经网络的参数(包括更新网络中隐藏层、连接层等网络层的参数)，图中虚线箭头示例了参数的更新；可选的，更新时间递归神经网络的参数的同时，还可更新映射层的参数(可选的，若选用线性映射层，则线性映射层可表示为y＝Wx+b，这里W和b是线性层的参数，x是hn，即词序列样本的状态参数输出结果，y是词序列样本的主题分布结果，更新映射层的参数可如更新参数W和b)；

以上述方式，利用各词序列样本的状态参数输出结果到主题分布结果的映射距离，迭代的更新递归神经网络的参数，直至词序列样本相应的映射距离不再减小或者迭代次数达到最大次，完成递归神经网络的参数更新，训练得到向量确定模型。

可以看出，本发明实施例在训练得到向量确定模型的过程中，是以递归神经网络对词序列的状态参数输出结果，趋于词序列的主题分布结果为目标，而关键词的主题以及词序列的状态参数输出结果的学习均不需要标注信息，这尤其适用于工业环境，可以有效降低人力标注成本，减少对人工工作的依赖，并且不需依赖大规模自然语言文本，可有效的降低词序列向量确定所涉及的前期学习复杂度。

同时，使得词序列的向量趋于词序列的主题分布，而词序列的关键词的主题分布的影响因素相对较小，并且主题模型可不依赖于词语之间的关系实现关键词的主题类型确定，因此关键词的主题分布可以通过对大量的query日志(记录有query的大量关键词)进行学习得到，而在这样的数据集上习得的主题模型对于词序列的处理往往有较好的效果，例如在意图分类任务中，如若关键词的主题是从已分类的query日志中得到，那么相应的确定的query的向量也会在意图分类实验中得到较好效果。

可选的，在对一词序列样本进行主题分布结果的确定时，本发明实施例可通过预置的各主题类型的主题模型，确定该词序列样本的各关键词在各主题类型的所属概率，从而根据词序列样本的各关键词在各主题类型的所属概率，确定词序列样本在各主题类型的所属概率，集合词序列样本在各主题类型的所属概率，实现词序列样本的主题分布结果确定；

可选的，图6示出了本发明实施例提供的确定主题模型对各词序列样本的主题分布结果的方法流程，参照图6，该方法可以包括：

步骤S300、对于任一词序列样本，根据预置的各主题类型的主题模型，确定该词序列样本的各个关键词在各主题类型的所属概率，得到该词序列样本的各个关键词的主题分布。

可选的，对于一词序列样本中的各个关键词，本发明实施例可分别利用预置的各主题类型的主题模型，确定各个关键词在各主题类型的所属概率，实现词序列样本的各个关键词的主题分布确定，即一个关键词的主题分布由该关键词在各主题类型的所属概率集合得到。

步骤S310、根据该词序列样本的各个关键词的主题分布，确定该词序列样本在各主题类型的所属概率，根据该词序列样本在各主题类型的所属概率，确定该词序列样本的主题分布结果。

可选的，在确定一词序列样本的各个关键词在各主题类型的所属概率后，对于任一主题类型，本发明实施例可将该词序列样本的各个关键词在该主题类型的所属概率相加，并将相加结果进行归一化处理，确定该词序列样本在该主题类型的所属概率，以此确定出该词序列样本在各主题类型的所属概率；然后集合词序列样本在各主题类型的所属概率，得到词序列样本的主题分布结果。

需要说明的是，本发明实施例可使用高可信度的主题模型(也即各个关键词的主题分布切断比较准确)，使得本发明可以在较少的query数据上学习得到性能优异的向量确定模型。而在大规模语料上训练的主题模型往往比较可靠，而且大量无标注文本数据也易于获得。

可选的，以词序列为Query，递归神经网络选用LSTM模型，主题模型选用LDA模型为例，图7示出了本发明实施例提供的向量确定模型的另一训练方法的流程图，该方法可应用于服务器，参照图7，该方法可以包括：

步骤S400、获取多个Query样本。

可选的，本发明实施例可从搜索引擎的Query日志中，收集历史输入搜索引擎的多个Query，获取到作为训练样本的多个Query样本。

步骤S410、对于任一Query样本，将该Query样本的关键词依序的输入LSTM模型，使得LSTM模型根据该Query样本依序输入的关键词，依序的更新状态参数，将最后一个更新得到的状态参数，作为该Query样本的状态参数输出结果，以得到各Query样本的状态参数输出结果；其中，LSTM模型当前更新的状态参数，根据当前输入的关键词和上一更新的状态参数确定。

可选的，步骤S410的处理介绍可进一步参照图2部分所示。

步骤S420、对于任一Query样本，根据LDA模型确定该Query样本的各关键词的主题分布，根据该Query样本的各关键词的主题分布，确定该Query样本的主题分布结果，以得到各Query样本的主题分布结果。

可选的，本发明实施例可预置多个主题类型的LDA模型(即本发明实施例所指的LDA模型可以包括：多个主题类型的LDA模型)，对于任一Query样本，可根据预置的各主题类型的LDA模型，确定该Query样本的各个关键词在各主题类型的所属概率，得到该Query样本的各个关键词的主题分布，从而集合该Query样本的各关键词的主题分布，作为该Query样本的主题分布结果；

若设一Query样本的关键词为w1至wn的n个关键词，通过预置的各主题类型的LDA模型确定出各个关键词在各主题类型的所属概率，得到各个关键词的主题分布；设一Query样本的第i个关键词为wi(i为1至n的整数)，则关键词wi的主题分布可以表示为φ_wi＝(φ_1,i,φ_2,i,...φ_K,i)，其中，φ_1,i为使用第一个LDA模型所确定的关键词wi属于第一个主题类型的概率，φ_K,i为使用第K个LDA模型所确定的关键词wi属于第K个主题类型的概率，以此类推；

在确定一Query样本的各个关键词的主题分布后，可根据该Query样本的各个关键词的主题分布，确定该Query样本在各主题类型的所属概率，得到该Query样本的主题分布结果；

可选的，一Query样本在一主题类型的所属概率，可以根据该Query样的各关键词在该主题类型的所属概率确定，如将该Query样的各关键词在该主题类型的所属概率相加，将相加结果进行归一化处理(如将相加结果与表示归一化的分母相乘)，可确定该Query样在该主题类型的所属概率；作为一种示例，可设一Query样本为q，则样本q属于第K个主题类型的概率可以表示为φ_K,q；

且

其中，φ_K,i表示样本q中的第i个关键词在第K个主题类型的属于概率，Z表示归一化的分母；

进而在确定出一Query样本在各主题类型的所属概率后，可将该Query样本在各主题类型的所属概率相集合，得到该Query样本的主题分布结果；作为一种示例，可设一Query样本为q，则样本q的主题分布结果可以表示为φ_q＝{φ_1,q,φ_2,q,...φ_K,q}。

步骤S430、根据线性映射层，分别确定各Query样本的状态参数输出结果到主题分布结果的映射距离，得到各Query样本相应的映射距离。

可选的，本发明实施例所述映射距离可选用相对熵距离定义，对于任一Query样本，本发明实施例可根据线性映射层，确定该Query样本的状态参数输出结果与主题分布结果的相对熵(Kullback-Leibler)距离，实现各Query样本相应的映射距离的确定。

步骤S440、以最小化各Query样本相应的映射距离为训练目标，更新LSTM模型的参数，直至LSTM模型达到收敛，得到向量确定模型。

可选的，为便于说明，可设φ_i为第i个Query样本通过LDA模型所确定的主题分布结果，φ(θ)_i为第i个Query样本通过LSTM模型所确定的状态参数输出结果，θ为LSTM模型的参数，不同的LDA模型的参数决定了同一Query样本所确定的状态参数输出结果存在差异，则设J(θ)为Query样本的状态参数输出结果与主题分布结果的相对熵距离，Query样本的数量为N；以最小化各Query样本相应的映射距离为训练目标，更新LSTM模型的参数可视为通过如下公式表示：

基于上述公式，通过不断的输入Query样本，以最小化Query样本相应的映射距离为训练目标(即以最小化J(θ)为训练目标)，使用反向传播算法，进行LSTM模型的参数更新，直至在LSTM模型达到收敛时，可训练得到向量确定模型。

本发明实施例训练向量确定模型可以实现在线更新，即一边使用向量确定模型，一边对模型的参数进行调整，在此期间可以不间断学习和处理新的query，并可实现分布式和并行运行。

需要说明的是，图7部分内容中，Query是词序列的一种可选实现，LSTM模型是递归神经网络的一种可选实现，LDA模型是主题模型的一种可选实现；在基于词序列样本，以主题模型和递归神经网络进行向量确定模型的训练的层面，也可基于图7所示流程原理内容实现。

基于训练得到的向量确定模型，本发明实施例使用向量确定模型确定词序列向量，并进行应用的示例可如图8所示；结合图8所示，本发明实施例提供的词序列向量确定方法的应用示例可以如下：

在进行文档查询时，用户可在终端(如笔记本电脑、手机等)的查询界面的查询框中输入关键词，用户点击查询框的查询按钮，终端可将用户输入的关键词构建出的待处理词序列提交给查询服务器；相应的，终端可向查询服务器发送查询请求，该查询请求中携带有由用户输入的关键词构成的待处理关键词序列；

查询服务器可设置有预先训练的向量确定模型(具体训练方式可参照上文相应部分所示)，查询服务器在获取查询请求后，可解析查询请求中携带的待处理关键词序列，将查询请求中携带的待处理词序列的关键词依序的输入向量确定模型；向量确定模型根据依序输入的关键词，依序的更新状态参数，并且当前更新的状态参数根据当前输入的关键词，修改上一更新的状态参数确定；查询服务器将向量确定模型最后一个更新得到的状态参数(该最后一个更新得到的状态参数趋于，待处理词序列的主题分布结果)，作为待处理词序列的向量；

查询服务器将待处理词序列的向量，与文档数据库(文档数据库记录有多份文档)中记录的文档的向量进行相似度比对，确定出与待处理词序列的向量相似的文档；

查询服务器将确定的文档反馈给终端，实现文档查询过程。

显然，除进行文档查询的应用外，本发明实施例还可在搜索等场景下进行应用，具体的应用方式可视实际情况调整。

本发明实施例提供的词序列向量确定方法，通过预先训练的向量确定模型，实现趋于词序列的主题分布结果的向量的确定，由于词序列的主题分布结果可在不需大规模自然语言文本的情况下，直接基于大量的词序列的关键词学习得到，实现在词序列向量确定上的适用，对词序列向量的确定提供有效的指导，提升词序列向量的确定结果的可靠性；并且向量确定模型在具体进行词序列的向量确定时，可根据词序列的关键词顺序进行，提升了词序列向量的确定结果的可靠性。

下面对本发明实施例提供的词序列向量确定装置进行介绍，下文描述的词序列向量确定装置可认为是，服务器为实现本发明实施例提供的词序列向量确定方法，所需设置的程序模块。下文描述的词序列向量确定装置内容，可与上文描述的词序列向量确定方法内容相互对应参照。

图9为本发明实施例提供的词序列向量确定装置的结构框图，该装置可应用于服务器，参照图9，该词序列向量确定装置可以包括：

待处理词序列获取模块100，用于获取待处理词序列；

模型调用模块200，用于调用预训练的向量确定模型，所述向量确定模型以递归神经网络对词序列的状态参数输出结果，趋于词序列的主题分布结果为目标，训练所述递归神经网络得到；

向量确定模块300，用于将所述待处理词序列的关键词依序的输入所述向量确定模型，确定向量确定模型根据依序输入的关键词，依序更新的状态参数，将最后一个更新得到的状态参数，作为所述待处理词序列的状态参数输出结果，得到所述待处理词序列的向量；其中，所述向量确定模型当前更新的状态参数，根据当前输入的关键词和上一更新的状态参数确定。

可选的，图10示出了本发明实施例提供的词序列向量确定装置的另一结构框图，结合图9和图10所示，该装置还可以包括：

训练模块400，用于获取多个词序列样本；确定递归神经网络对各词序列样本的状态参数输出结果；确定主题模型对各词序列样本的主题分布结果；分别确定各词序列样本的状态参数输出结果，到主题分布结果的映射距离，得到各词序列样本相应的映射距离；以最小化各词序列样本相应的映射距离为训练目标，更新递归神经网络的参数，直至递归神经网络达到收敛，得到向量确定模型。

可选的，所述训练模块400，用于确定递归神经网络对各词序列样本的状态参数输出结果，具体包括：

对于任一词序列样本，将该词序列样本的关键词依序的输入递归神经网络，使得递归神经网络根据该词序列样本依序输入的关键词，依序的更新状态参数，且当前更新的状态参数，根据当前输入的关键词和上一更新的状态参数确定，将最后一个更新得到的状态参数，作为该词序列样本的状态参数输出结果，以得到各词序列样本的状态参数输出结果。

可选的，所述训练模块400，用于确定主题模型对各词序列样本的主题分布结果，具体包括：

对于任一词序列样本，根据预置的各主题类型的主题模型，确定该词序列样本的各个关键词在各主题类型的所属概率，得到该词序列样本的各个关键词的主题分布，根据该词序列样本的各个关键词的主题分布，确定该词序列样本在各主题类型的所属概率，根据该词序列样本在各主题类型的所属概率，确定该词序列样本的主题分布结果，以得到各词序列样本的主题分布结果。

可选的，所述训练模块400，用于根据该词序列样本的各个关键词的主题分布，确定该词序列样本在各主题类型的所属概率，具体包括：

对于任一主题类型，将该词序列样本的各个关键词在该主题类型的所属概率相加，并将相加结果进行归一化处理，确定该词序列样本在该主题类型的所属概率，以得到该词序列样本在各主题类型的所属概率。

可选的，训练模块400，用于分别确定各词序列样本的状态参数输出结果，到主题分布结果的映射距离，得到各词序列样本相应的映射距离，具体包括：

分别确定各词序列样本的状态参数输出结果，与主题分布结果的相对熵距离，得到各词序列样本相应的映射距离。

可选的，所述递归神经网络包括：LSTM模型；所述主题模型包括：LDA模型；所述词序列样本包括：query样本；所述待处理词序列包括：query；

可选的，训练模块400可通过线性映射层，分别确定各query样本的状态参数输出结果，到主题分布结果的映射距离，得到各query样本相应的映射距离。

可选的，向量确定模型可根据当前输入的关键词，修改上一更新的状态参数，得到当前更新的状态参数，以实现当前更新的状态参数，根据当前输入的关键词和上一更新的状态参数确定的目的。

可选的，本发明实施例提供的词序列向量确定装置可应用于文档查询场景，相应的，待处理词序列获取模块100，用于获取待处理词序列，可具体包括：

获取终端发送的查询请求，解析所述查询请求中携带的关键词序列，所述关键词序列包括用户输入的多个关键词；

相应的，图11示出了本发明实施例提供的词序列向量确定装置的再一结构框图，结合图10和图11所示，该装置还可以包括：

查询及反馈模块500，用于将待处理词序列的向量，与文档数据库中记录的文档的向量进行相似度比对，确定与待处理词序列的向量相似的文档；将确定的文档反馈给终端。

本发明实施例提供的词序列向量确定装置可应用于服务器，如查询服务器，搜索服务器等；可选的，图12示出了服务器的硬件结构框图，参照图12，服务器的硬件结构可以包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4；

在本发明实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

获取待处理词序列；

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本发明实施例还提供一种存储介质，该存储介质可存储有适于处理器执行的程序，所述程序用于：

获取待处理词序列；

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的核心思想或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种词序列向量确定方法，其特征在于，包括：

获取待处理词序列；

2.根据权利要求1所述的词序列向量确定方法，其特征在于，还包括：

获取多个词序列样本；

确定递归神经网络对各词序列样本的状态参数输出结果；

确定主题模型对各词序列样本的主题分布结果；

分别确定各词序列样本的状态参数输出结果，到主题分布结果的映射距离，得到各词序列样本相应的映射距离；

以最小化各词序列样本相应的映射距离为训练目标，更新递归神经网络的参数，直至递归神经网络达到收敛，得到向量确定模型。

3.根据权利要求2所述的词序列向量确定方法，其特征在于，所述确定递归神经网络对各词序列样本的状态参数输出结果包括：

4.根据权利要求2所述的词序列向量确定方法，其特征在于，所述确定主题模型对各词序列样本的主题分布结果包括：

5.根据权利要求4所述的词序列向量确定方法，其特征在于，所述根据该词序列样本的各个关键词的主题分布，确定该词序列样本在各主题类型的所属概率包括：

6.根据权利要求2-5任一项所述的词序列向量确定方法，其特征在于，所述分别确定各词序列样本的状态参数输出结果，到主题分布结果的映射距离，得到各词序列样本相应的映射距离包括：

7.根据权利要求2所述的词序列向量确定方法，其特征在于，所述递归神经网络包括：长短期记忆网络LSTM模型；所述主题模型包括：隐含狄利克雷分布LDA模型；所述词序列样本包括：query样本；所述待处理词序列包括：待处理query；

所述分别确定各词序列样本的状态参数输出结果，到主题分布结果的映射距离，得到各词序列样本相应的映射距离包括：

通过线性映射层，分别确定各query样本的状态参数输出结果，到主题分布结果的映射距离，得到各query样本相应的映射距离。

8.根据权利要求1-5任一项所述的词序列向量确定方法，其特征在于，所述向量确定模型当前更新的状态参数，根据当前输入的关键词和上一更新的状态参数确定包括：

所述向量确定模型根据当前输入的关键词，修改上一更新的状态参数，得到当前更新的状态参数。

9.根据权利要求1所述的词序列向量确定方法，其特征在于，所述获取待处理词序列包括：

所述方法还包括：

将待处理词序列的向量，与文档数据库中记录的文档的向量进行相似度比对，确定与待处理词序列的向量相似的文档；

将确定的文档反馈给终端。

10.一种词序列向量确定装置，其特征在于，包括：

待处理词序列获取模块，用于获取待处理词序列；

11.根据权利要求10所述的词序列向量确定装置，其特征在于，还包括：

训练模块，用于获取多个词序列样本；确定递归神经网络对各词序列样本的状态参数输出结果；确定主题模型对各词序列样本的主题分布结果；分别确定各词序列样本的状态参数输出结果，到主题分布结果的映射距离，得到各词序列样本相应的映射距离；以最小化各词序列样本相应的映射距离为训练目标，更新递归神经网络的参数，直至递归神经网络达到收敛，得到向量确定模型。

12.根据权利要求11所述的词序列向量确定装置，其特征在于，所述训练模块，用于确定主题模型对各词序列样本的主题分布结果，具体包括：

13.根据权利要求10-12任一项所述的词序列向量确定装置，其特征在于，所述待处理词序列获取模块，用于获取待处理词序列，具体包括：

所述词序列向量确定装置还包括：

查询及反馈模块，用于将待处理词序列的向量，与文档数据库中记录的文档的向量进行相似度比对，确定与待处理词序列的向量相似的文档；将确定的文档反馈给终端。

14.一种服务器，其特征在于，包括：至少一个存储器和至少一个处理器；所述存储器存储有程序，所述处理器调用所述存储器存储的程序，所述程序用于：

获取待处理词序列；

15.一种存储介质，其特征在于，所述存储介质存储有适于处理器执行的程序，所述程序用于：

获取待处理词序列；