CN104598611B

CN104598611B - 对搜索条目进行排序的方法及系统

Info

Publication number: CN104598611B
Application number: CN201510047913.3A
Authority: CN
Inventors: 张军; 徐晓明; 吴先超; 和为; 刘占; 刘占一; 于佃海
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-01-29
Filing date: 2015-01-29
Publication date: 2018-03-23
Anticipated expiration: 2035-01-29
Also published as: CN104598611A

Abstract

本发明提供一种对搜索条目进行排序的方法及系统，所述方法包括：通过神经网络将查询文本按照语序表示成向量；根据所述表示出的向量通过所述神经网络计算所述查询文本与搜索条目之间的排序分数；根据所述计算出的排序分数对所述搜索条目进行排序。通过采用本发明可以兼顾一词多义与近义词的匹配以及词的语序来进行搜索排序，能够给出更为准确的排序结果。

Description

对搜索条目进行排序的方法及系统

技术领域

本发明涉及通信领域，更为具体而言，涉及对搜索条目进行排序的方法及系统。

背景技术

针对用户所输入的查询文本，给用户返回排序的搜索结果是搜索引擎系统的基础。其中计算用户输入的查询文本与待排序的搜索条目之间的排序分数是搜索引擎系统的核心问题。

传统的计算查询文本与搜索条目之间的排序分数的方法是通过计算查询文本与搜索条目这两个字符串中所包含的词完全匹配上的程度，即这两个文本串的相似度，来计算查询文本与搜索条目之间的排序分数。但是这种基于词的字面上的匹配程度来计算排序分数的方法，并没有能考察到词的一词多义以及近似词的匹配，也没有考察到词的顺序问题。近年来，随着深度学习技术的发展，出现了利用DNN(Deep Neural Network，深度神经网络)技术来学习词的向量表示(把词表示为一个实数组成的向量)，通过计算由词向量组成的查询文本与搜索条目之间的相似度来计算查询文本与搜索条目之间的排序分数的方法。这种方法一般通过一个FeedForward Neural Network(前馈神经网络)来把查询文本与搜索条目中的词都映射到一个低维的向量空间当中；简单的把查询文本中的所有词的词向量相加得到查询文本的向量表示，把搜索条目中的所有的词的词向量也相加得到搜索条目的向量表示，通过计算这两个向量表示之间的相似度来作为查询文本与搜索条目之间的排序分数。这种方法虽然从一定程度上解决了传统方法当中的一词多义与近义词的问题，但是，因为忽略了词在查询文本与搜索条目当中的位置信息，因此不能解决查询文本与搜索条目中的词的顺序不同所带来的差异，例如：查询文本1：“我爱百度”与查询文本2：“百度爱我”两个查询文本的向量表示是一样的，因此会针对同样的搜素条目，给出同样的排序分数。

发明内容

为有效地解决上述技术问题，本发明提供了一种对搜索条目进行排序的方法及系统。

一方面，本发明的实施方式提供了一种对搜索条目进行排序的方法，所述方法包括：

通过神经网络将查询文本按照语序表示成向量；

根据所述表示出的向量通过所述神经网络计算所述查询文本与搜索条目之间的排序分数；

根据所述计算出的排序分数对所述搜索条目进行排序。

另一方面，本发明的实施方式还提供了一种对搜索条目进行排序的系统，所述系统包括：

表示模块，用于通过神经网络将查询文本按照语序表示成向量；

计算模块，用于根据所述表示模块所表述出的向量通过所述神经网络计算所述查询文本与搜索条目之间的排序分数；

排序模块，用于根据所述计算模块所计算出的排序分数对所述搜索条目进行排序。

实施本发明提供的对搜索条目进行排序的方法及系统可以兼顾一词多义与近义词的匹配以及词的语序来进行搜索排序，能够给出更为准确的排序结果。

附图说明

图1是根据本发明实施方式的一种对搜索条目进行排序的方法的流程图；

图2示出了图1所示的步骤S110的一种实施方式；

图3示出了图1所示的步骤S120的一种实施方式；

图4是根据本发明实施方式的另一种对搜索条目进行排序的方法的框架图；

图5是根据本发明实施方式的神经网络中的编码网络的结构示意图；

图6是根据本发明实施方式的神经网络中的解码网络的结构示意图；

图7是根据本发明实施方式的一种对搜索条目进行排序的系统的结构示意图；

图8示出了图7所示的表示模块110的一种实施方式。

具体实施方式

为使本发明的实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述。

图1是根据本发明实施方式的一种对搜索条目进行排序的方法的流程图。参见图1，所述方法包括：

S110：通过神经网络将查询文本按照语序表示成向量。

其中，神经网络又称人工神经网络，是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型，可以用电子线路来实现，也可以用计算机程序来模拟，是人工智能研究的一种方法。

S120：根据所述表示出的向量通过所述神经网络计算所述查询文本与搜索条目之间的排序分数。

S130：根据所述计算出的排序分数对所述搜索条目进行排序。

在上述实施方式中，通过将查询文本按照语序表示成向量可以实现兼顾一词多义与近义词的匹配以及词的语序来进行搜索排序，能够给出更为准确的排序结果。

在本发明的实施方式中，在执行步骤S110前，可以预先训练出所述神经网络的模型参数，具体地，可以通过以下方式实现，首选获取训练数据，其次根据所述获取的训练数据通过损失函数训练出所述模型参数。

其中，在本发明的实施方式中，所述训练数据可以包括：查询文本以及所述查询文本所对应的搜索条目；所述损失函数是指一种将一个事件(在一个样本空间中的一个元素)映射到一个表达与其事件相关的经济成本或机会成本的实数上的一种函数，示例性地，在本发明的实施方式中，可以采用损失函数中的对数损失函数，当然，本发明不限于此，本领域的技术人员可以根据实际需要采用损失函数中的0-1损失函数、平方损失函数、绝对损失函数等。

在本发明的一种优选的实施方式，在训练出所述神经网络的模型参数的过程中，还可以通过SGD(Stochastic Gradient Descent，随机梯度下降)算法以及反向传播算法对所述模型参数进行优化。其中，SGD算法的思想是通过计算某一组训练数据的梯度(模型参数的偏导数)，来迭代更新随机初始化过的参数；更新的方法是每次让参数减去所设置的一个学习率(learning rate)乘以计算出的梯度，从而在多次迭代之后可以让神经网络根据模型参数所计算出的值，与实际值之间的差在所定义的损失函数上最小化。反向传播算法是一种有效的计算梯度的方法。

如图2所示，所述步骤S110可以通过以下步骤实现：

S111：按照语序将所述查询文本的词序列中的各词输入到所述神经网络的编码网络。

S112：根据所述语序将所述输入的各词循环映射到一个向量空间。

S113：将所述循环映射结束时所得到的向量转化为所述查询文本的向量表示。

其中，在本发明的实施方式中，步骤S112可以通过以下方式实现：

首先，将所述输入的各词分别转化为对应的词向量，其中，所述输入的各词表示为w_i，所述转化后的词向量表示为C(w_i)，i＝1,…,T，T为所述查询文本的词序列的长度；

其次，通过公式(1)将所述词向量循环映射到一个向量空间，

[h_i]_j＝[LSTM_(W,U)(C(w_i),h_i-1)]_j (1)

其中[h_i]_j为向量h_i中的第j个元素，W，U为参数矩阵，LSTM_(W，U)表示通过一种递归神经网络架构LSTM根据参数矩阵W，U进行数值运算。其中，LSTM(long short term memory，一种递归神经网络架构)包括一些LSTM块来代替常规的网络单元，或者在常规的网络单元以外还包括一些LSTM块，LSTM块可以作为一个能够记住任意长度时间的值的“智能”网络单元，一个LSTM块包括一些电路，这些电路可以决定何时输入的数据对于记住该值已经足够重要，何时继续记住或忘记这个值，以及何时输出所述值。

并且，步骤S113可以通过公式(2)将所述循环映射结束时所得到的向量转化为所述查询文本的向量，

Context＝tanh Vh_T) (2)

其中，h_T表示循环映射结束时所得到的向量，Context表示所述查询文本的向量，V为参数矩阵。

如图3所示，所述步骤S120可以通过以下步骤实现：

S121：根据所述表示出的向量通过所述神经网络的解码网络计算在给定所述查询文本的条件下生成所述搜索条目的概率。

S122：将所述计算出的概率作为所述查询文本与所述搜索条目之间的排序分数。

其中，在本发明的实施方式中，所述步骤S121可以通过以下方式实现：

首先，在给定所述查询文本并且已生成所述搜索条目中在当前位置以前的词序列的条件下，通过公式(3)计算出在所述当前位置上欲生成的词为所述搜索条目在所述当前位置上的词的概率，

其中，i为所述当前位置，i＝1,2,…,T’，T’是所述搜索条目的词序列的长度，w₁,w₂,…,w_T表示所述查询文本的词序列，t_i表示所述搜索条目在所述当前位置上的词，t’_i表示在所述当前位置上欲生成的词，C(t_i)为t_i所对应的词向量，C(t’)为t’所对应的词向量,V_t表示为搜索条目的词表，Context为所述表示出的向量，h’_i为所述神经网络的解码网络在所述当前位置的隐藏状态，所述h’_i根据所述Context、所述搜索条目在所述当前位置的前一个位置上的词t_i-1所对应的词向量C(t_i-1)以及所述当前位置的前一个位置的隐藏状态h’_i-1获得，f(C(t_i),h_i,Context)例如可以是XC(t_i)+Sh_i+OContext，其中X,S以及O为预先训练出来的参数，当然本发明不限于此，本领域的技术人员可以根据实际需要采用其他的函数关系,对应地，在本发明的实施方式中，f(C(t′),h_i,Context)与f(C(t_i),h_i,Context)的函数关系相同，也可以是XC(t′)+Sh_i+OContext；

其次，根据通过所述步骤S121所计算出的概率，通过公式(4)计算出在给定所述查询文本的条件下生成所述搜索条目的概率,

其中，t₁,t₂,…,t_T’为所述搜索条目的词序列。

下面以所述搜索条目为网页的标题为例对本发明进行具体说明。如图4所示，本发明首先从用户查询日志中得到训练数据，并从训练数据中训练出模型参数。根据模型参数，可以把一个用户输入的Query(查询文本)转换成一个向量表示，然后，把这个向量表示作为给Title(网页的标题)计算RankScore(排序分数)的上下文，结合所得到的模型参数，一起计算Query与Title之间的RankScore(Q，T)。其中，一个Query由T个词组成，记为：Query＝(w₁,…,w_T)，其中的每个词w_i都属于预先定义的Query词表V_q中的一个词，词表的大小为|V_q|(其中包括用以标识Query结束的特殊词<STOP>)；一个Title由T^′个词组成，记为：Title＝(t₁,…,t_T′)其中的每个词t_i都属于预先定义的Title的词表V_t中的一个词，词表的大小为|V_t|(其中包括用以标识Title结束的特殊词<STOP>)。

图5是根据本发明实施方式的神经网络中的编码网络的结构示意图。所述编码网络的目的是把输入的Query变换成一个长度为CONTEXT_SIZE的列向量Context。所述编码网络包括：输入层、词向量层以及隐藏层。其中输入层用于按照时间序列(i＝1到i＝T)逐次将Query当中的词w_i输入到所述编码网络；词向量层用于将每个输入的词w_i用所对应的词向量(Word Embedding)进行表示；其中词向量C(w_i)是一个长度为EMBEDDING_SIZE的列向量；隐藏层表示所述编码网络在每个时间点i的状态，是一个长度为HIDDEN_SIZE的列向量h_i；在本发明的实施方式中，这里的EMBEDDING_SIZE的常见取值范围为50到1000；HIDDEN_SIZE的常见取值是EMBEDDING_SIZE的2到4倍，当然本领域的技术人员可以根据实际需要将所述列向量C(w_i)以及h_i的长度选取其他合理数值。

图6是根据本发明实施方式的神经网络中的解码网络的结构示意图。所述解码网络的目的是计算在给定了上下文Context时，能够解码生成Title的概率。与编码网络类似，所述解码网络包括：输入层、词向量层以及隐藏层。输入层用于按照时间序列(i＝1到i＝T′)逐次将Title当中的词t_i输入到所述解码网络中；词向量层用于将每个输入的词t_i用所对应的词向量(Word Embedding)进行表示；其中词向量C(t_i)是一个长度为EMBEDDING_SIZE_T的列向量；隐藏层表示所述解码网络在每个时间点i的状态，是一个长度为HIDDEN_SIZE_T的列向量h’_i；在本发明的实施方式中，这里的EMBEDDING_SIZE_T的常见取值范围为50到1000；HIDDEN_SIZE_T的常见取值是EMBEDDING_SIZE_T的2到4倍，当然本领域的技术人员可以根据实际需要将所述列向量C(t_i)以及h’_i的长度选取其他合理数值。与编码网路不同的是，每个h’_i不仅依赖于C(t_i-1)以及h’_i-1，还依赖于上下文向量Context。

以下具体说明如何利用编码网络，根据C(w_i)以及h_i-1得到h_i，并通过h_T计算得到Context，以及如何利用解码网络，在获得Context向量之后，计算生成Title的概率。

在本发明中，例如可以通过公式(5)来计算h_i当中的第j个元素[h_i]_j，

[h_i]_j＝sigmoid([WC(w_i)]_j+[Uh_i-1]_j) (5)

其中，sigmoid激活函数为一种S型函数，[h_i]_j为向量h_i中的第j个元素，W是行数为HIDDEN_SIZE，列数为EMBEDDING_SIZE的参数矩阵；U为行数为HIDDEN_SIZE，列数为HIDDEN_SIZE的参数矩阵。

为克服传统的RNN(Recurrent neural Network，递归神经网络)网络当中的梯度衰减效应(h_i当中携带的信息会随着i的变大而丢失)，在本发明的一种优选的实施方式中，可以通过上述公式(1)来计算[h_i]_j，在此不再赘述。这样通过编码网络可以得到h_T,再通过上述公式(2)进行非线性变换(利用tanh函数)，即可得到最终的上下文向量表示Context，其中，该公式(2)中的V是一个行数为CONTEXT_SIZE，列数为HIDDEN_SIZE的参数矩阵，初始的向量h₀是一个全为0的向量。

在得到Context向量之后，首先通过公式(6)把Conext变换为解码网络的初始向量h′₀，

h′₀＝tanh(V′Context) (6)

其中，V′是一个行数为HIDDEN_SIZE_T，列数为CONTEXT_SIZE的参数矩阵。

其次，通过公式(7)来进行循环计算，

[h’_i]_j＝[LSTM_{(W’,U’,C’)}(C(t_i-1),h’_i-1,Context)]_j (7)

其中，W',U',C'为参数矩阵，初始状态的词向量C(t₀)是一个全部为0的向量。

再通过公式(8)计算,在给定Query并且已生成Title中在位置i以前的词序列的条件下，在所述位置i上欲生成的词为所述Title在所述位置i上的词的概率，

其中，X，S和O是预先训练出来的参数，i＝1,2,…,T’，T’是所述Title的词序列的长度，w₁,w₂,…,w_T表示Query的词序列，t_i表示所述Title在位置i上的词，t’_i表示在位置i上欲生成的词，C(t_i)为t_i所对应的词向量，C(t’)为t’所对应的词向量,V_t表示为Title的词表，Context为所述表示出的向量，h’_i为所述神经网络的解码网络在位置i的隐藏状态，所述h’_i根据所述Context、所述Title在位置i-1上的词t_i-1所对应的词向量C(t_i-1)以及所述位置i-1的隐藏状态h’_i‐1获得；根据所述计算出的概率，通过上述公式(4)计算出在给定Query的条件下生成Title的概率。

将所述计算出的在给定Query的条件下生成Title的概率作为Query与Title的RankScore。针对所有的待排序的Title，按照所计算得到的RankScore进行排序，并通过分页，以及由上到下列出的方式展示给用户。

综上，根据本发明实施方式的神经网络的模型参数包括：Query词表当中的每个词w的词向量C(w)；Title词表当中的每个词t的词向量C(t)；编码网络的参数：W，U，V；解码网络的参数：V′,W′,U′,C′,X,S,O，在本发明的实施方式中，将这些模型参数的集合简记为θ，并且可以通过公式(9)(利用损失函数)来获取该集合θ，

J(θ)＝-∑_{所有的<Q,T>对}log P(T|Q)) (9)

并且，在本发明的实施方式中，可以通过随机梯度下降法与反向传播算法得到最优的θ。关于随机梯度下降法与反向传播算法如前文所述，在此不再赘述。其中，<Q,T>对指为得到模型参数而需要的训练数据，其中Q指用户所查询的Query，而T指用户在查询所述Query后所点击的URL(Uniform Resource Locator，统一资源定位符)对应的标题。并且，<Q,T>对的数量需要足够大，通常会超过1亿量级，可以从搜索引擎的查询日志中搜索到。

图7是根据本发明实施方式的一种对搜索条目进行排序的系统的结构示意图。参见图7，所述系统100包括：

表示模块110，用于通过神经网络将查询文本按照语序表示成向量。

计算模块120，用于根据所述表示模块110所表述出的向量通过所述神经网络计算所述查询文本与搜索条目之间的排序分数；

排序模块130，用于根据所述计算模块120所计算出的排序分数对所述搜索条目进行排序。

在本发明的实施方式中，所述系统100还可以包括：训练模块，用于训练出所述神经网络的模型参数。具体地，所述训练模块可以包括：获取单元，用于获取训练数据；以及训练单元，用于根据获取到的训练数据通过损失函数训练出所述模型参数。

在本发明的一种优选的实施方式中，所述系统训练模块还可以包括：优化单元，用于通过随机梯度下降法以及反向传播算法对所述模型参数进行优化。其中，关于随机梯度下降法以及反向传播算法的定义同上文所述，在此不再赘述。

如图8所示，所述表示模块110可以包括：

输入单元111，用于按照语序将所述查询文本的词序列中的各词输入到所述神经网络的编码网络。

映射单元112，用于根据所述语序将输入单元111所输入的各词循环映射到一个向量空间。

转化单元113，用于将映射单元112中执行的循环映射结束时所得到的向量转化为所述查询文本的向量表示。

其中，在本发明的实施方式中，所述映射单元112可以包括：第一转化组件，用于将所述输入的各词分别转化为对应的词向量，其中，所述输入的各词表示为w_i，所述转化后的词向量表示为C(w_i)，i＝1,…,T，T为所述查询文本的词序列的长度；以及循环映射组件，用于通过上述公式(1)将所述第一转化组件所转化出的词向量循环映射到一个向量空间，在此不再赘述。

并且，所述转化单元113可以包括：第二转化组件，用于通过上述公式(2)将所述循环映射结束时所得到的向量转化为所述查询文本的向量，在此不再赘述。

在本发明的实施方式中，所述计算模块可以包括：概率计算单元，用于根据所述表示出的向量通过所述神经网络的解码网络计算在给定所述查询文本的条件下生成所述搜索条目的概率，并将计算出的概率作为所述查询文本与所述搜索条目之间的排序分数。

具体地，在本发明的实施方式中，所述概率计算单元可以包括：第一概率计算组件，用于在给定所述查询文本并且已生成所述搜索条目中在当前位置以前的词序列的条件下，通过上述公式(3)计算出在所述当前位置上欲生成的词为所述搜索条目在所述当前位置上的词的概率，在此不再赘述；

以及第二概率计算组件，用于根据所述第一概率计算组件所计算出的概率，通过上述公式(4)计算出在给定所述查询文本的条件下生成所述搜索条目的概率,在此不再赘述。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可全部通过软件实现，也可借助软件结合硬件平台的方式来实现，当然也可以全部通过硬件来实施。基于这样的理解，本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来，所述计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，智能手机或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本发明说明书中使用的术语和措辞仅仅为了举例说明，并不意味构成限定。本领域技术人员应当理解，在不脱离所公开的实施方式的基本原理的前提下，对上述实施方式中的各细节可进行各种变化。因此，本发明的范围只由权利要求确定，在权利要求中，除非另有说明，所有的术语应按最宽泛合理的意思进行理解。

Claims

1.一种对搜索条目进行排序的方法，其特征在于，所述方法包括：

通过神经网络将查询文本按照语序表示成向量；

根据所述计算出的排序分数对所述搜索条目进行排序。

2.如权利要求1所述的方法，其特征在于，所述方法还包括：

在执行通过神经网络将查询文本按照语序表示成向量的步骤前，训练出所述神经网络的模型参数。

3.如权利要求2所述的方法，其特征在于，训练出所述神经网络的模型参数包括：

获取训练数据；

根据所述获取的训练数据通过损失函数训练出所述模型参数。

4.如权利要求3所述的方法，其特征在于，所述训练数据包括：查询文本以及所述查询文本所对应的搜索条目。

5.如权利要求3或4所述的方法，其特征在于，所述损失函数包括：对数损失函数。

6.如权利要求5所述的方法，其特征在于，训练出所述神经网络的模型参数还包括：

通过随机梯度下降法以及反向传播算法对所述模型参数进行优化。

7.如权利要求1所述的方法，其特征在于，通过神经网络将查询文本按照语序表示成向量包括：

按照语序将所述查询文本的词序列中的各词输入到所述神经网络的编码网络；

根据所述语序将所述输入的各词循环映射到一个向量空间；

将所述循环映射结束时所得到的向量转化为所述查询文本的向量表示。

8.如权利要求1所述的方法，其特征在于，根据所述表示出的向量通过所述神经网络计算所述查询文本与搜索条目之间的排序分数包括：

根据所述表示出的向量通过所述神经网络的解码网络计算在给定所述查询文本的条件下生成所述搜索条目的概率，并将所述计算出的概率作为所述查询文本与所述搜索条目之间的排序分数。

9.一种对搜索条目进行排序的系统，其特征在于，所述系统包括：

10.如权利要求9所述的系统，其特征在于，所述系统还包括：

训练模块，用于训练出所述神经网络的模型参数。

11.如权利要求10所述的系统，其特征在于，所述训练模块包括：

获取单元，用于获取训练数据；

训练单元，用于根据所述获取到的训练数据通过损失函数训练出所述模型参数。

12.如权利要求11所述的系统，其特征在于，所述训练数据包括：查询文本以及所述查询文本所对应的搜索条目。

13.如权利要求11或12所述的系统，其特征在于，所述损失函数包括：对数损失函数。

14.如权利要求13所述的系统，其特征在于，所述训练模块还包括：

优化单元，用于通过随机梯度下降法以及反向传播算法对所述模型参数进行优化。

15.如权利要求9所述的系统，其特征在于，所述表示模块包括：

输入单元，用于按照语序将所述查询文本的词序列中的各词输入到所述神经网络的编码网络；

映射单元，用于根据所述语序将所述输入单元所输入的各词循环映射到一个向量空间；

转化单元，用于将所述映射单元中执行的循环映射结束时所得到的向量转化为所述查询文本的向量表示。

16.如权利要求9所述的系统，其特征在于，所述计算模块包括：

概率计算单元，用于根据所述表示出的向量通过所述神经网络的解码网络计算在给定所述查询文本的条件下生成所述搜索条目的概率，并将所述计算出的概率作为所述查询文本与所述搜索条目之间的排序分数。