CN105930413A

CN105930413A - 相似度模型参数的训练方法、搜索处理方法及对应装置

Info

Publication number: CN105930413A
Application number: CN201610239784.2A
Authority: CN
Inventors: 张军
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2016-04-18
Filing date: 2016-04-18
Publication date: 2016-09-07

Abstract

本发明公开了一种相似度模型参数的训练方法，搜索处理方法及其装置，相似度模型参数方法，包括：构建训练数据集；利用所述训练数据集训练得到相似度模型参数。获取用户输入的语句描述及从预先建立的词条目数据库中获取所有的词条目；获取所述语句描述对应的词向量矩阵及词条目数据库中每个词条目的词向量；根据所述相似度模型参数及所述语句描述对应的词向量矩阵确定所述语句描述与词条目数据库中每个词条目的相似度；根据所述语句描述与词条目数据库中每个词条目的相似度将该语句描述的搜索结果呈现给所述用户。本发明能根据用户输入的描述，反向查找用户所描述的词条目，提高了用户的搜索体验及效率。

Description

相似度模型参数的训练方法、搜索处理方法及对应装置

【技术领域】

本发明涉及计算机应用技术领域，尤其涉及一种相似度模型参数的训练方法、搜索处理方法及对应装置。

【背景技术】

用户在使用搜索引擎的时候，除了通常的查找某个关键词相关联的网页之外，还有一种应用场景，用户大概知道某个词，或某个物品的意义或者用途，但是不知道该词或者物品具体的称呼(比如无痕钉)，用户可以在搜索引擎中输入该词的具体描述(比如，一种用来挂相框的东西，且不会影响墙面。)来反向查找该词；或者用户知道某家餐馆的大概特点，但是忘记了餐馆的具体名称时，希望能够输入该餐馆的描述，来找到该餐馆的名称。

当前的搜索引擎，并没有对此种应用场景进行特殊的处理，因此用户需要反复变换通过关键词搜索以找到该描述的词条目(Term)。随着搜索引擎及相关技术的发展，能够根据用户的描述，反向查找用户所描述的词条目越来越重要。

【发明内容】

本发明提供了一种相似度模型参数的训练方法、搜索处理方法及对应装置，能根据用户输入的描述，反向查找用户所描述的词条目，提高了用户的体验。

具体技术方案如下：

一种相似度模型参数的训练方法，包括：

构建训练数据集，所述训练数据集由包含词条目及该词条目的描述的样本数据构成；

利用所述训练数据集训练得到相似度模型参数，所述相似度模型参数包括由所述训练数据集所包含词语的词向量构成的词向量矩阵及将所述训练数据集中词条目的描述转换为隐层向量的隐层变换矩阵。

根据本发明一优选实施例，当所述样本数据中某个词条目的描述中所包含的词语个数为1时，所述词条目的描述的隐层向量为该词条目的描述中所包含的词语的词向量。

根据本发明一优选实施例，当所述样本数据中词条目的描述中所包含的词语个数大于1时，利用时间递归的循环神经网络LSTM从分词后的所述词条目的描述中第一个词语的隐层向量开始，递归得到分词后的所述词条目的描述中最后一个词语的隐层向量,将所述词条目的描述中最后一个词语的隐层向量确定为所述词条目的描述的隐层向量。

根据本发明一优选实施例，利用所述训练数据集训练得到相似度模型参数包括：

建立参数化的词向量矩阵，参数化的所述隐层变换矩阵；

初始化所述词向量矩阵中的参数，所述隐层变换矩阵中的参数；

采用预设的迭代算法，对所述词向量矩阵中的参数，所述隐层变换矩阵中的参数进行迭代，直至达到预设的迭代终止条件。

根据本发明一优选实施例，所述建立参数化的词向量矩阵包括：

将所述样本数据进行分词；

参数化分词得到的各词语的词向量；

由参数化后得到的各词语的词向量构成词向量矩阵。

根据本发明一优选实施例，所述迭代终止条件包括：

达到预设的迭代次数；或者

本次迭代后得到的损失函数的值小于预设目标值；或者

本次迭代结束后得到的损失函数与上次迭代结束后得到的损失函数的值之差小于预设的阈值；其中，所述损失函数根据训练数据集中词条目与词条目的描述的相似度确定。

根据本发明一优选实施例，当所述样本数据中词条目的描述的隐层向量的长度与所述词条目所对应的词向量的长度不相同时，所述相似度模型参数还包括一个长度变换矩阵，通过所述长度变换矩阵将所述词条目的描述的隐层向量转换成长度与所述词条目所对应的词向量长度相同的向量。

一种搜索处理方法，该方法包括：

获取用户输入的语句描述；

查询相似度模型参数，获取所述语句描述对应的词向量矩阵及词条目数据库中每个词条目的词向量；

根据所述相似度模型参数及所述语句描述对应的词向量矩阵确定所述语句描述对应的隐层向量；

根据所述语句描述对应的隐层向量及词条目数据库中每个词条目的词向量确定所述语句描述与词条目数据库中每个词条目的相似度；

确定词条目数据库中与所述语句描述之间的相似度满足预设要求的词条目。

其中所述相似度模型参数是采用权利要求1～7任一权项所述的方法训练得到的。

根据本发明一优选实施例，根据所述相似度模型参数及所述语句描述对应的词向量矩阵确定所述语句描述对应的隐层向量，包括：

当所述语句描述中所包含的词语个数为1时，所述语句描述的隐层向量为该语句描述中所包含的词语的词向量；或者

当所述语句描述中所包含的词语个数大于1时，根据所述相似度模型参数中隐层变换矩阵，利用时间递归的循环神经网络LSTM将所述语句描述转换为隐层向量表示。

根据本发明一优选实施例，该方法还包括：

将确定出的词条目推荐给用户供用户从中选择一个词条目进行搜索；或者，

利用确定出的词条目进行搜索，得到搜索结果。

一种相似度模型参数的训练装置，包括：

构建单元，用于构建训练数据集，所述训练数据集由包含词条目及该词条目的描述的样本数据构成；

训练单元，用于利用所述训练数据集训练得到相似度模型参数，所述相似度模型参数包括由所述训练数据集所包含词语的词向量构成的词向量矩阵及将所述训练数据集中词条目的描述转换为隐层向量的隐层变换矩阵。

根据本发明一优选实施例，所述训练单元，还用于当所述样本数据中某个词条目的描述中所包含的词语个数为1时，将所述词条目的描述中所包含的词语的词向量确定为所述词条目的描述的隐层向量。

根据本发明一优选实施例，所述训练单元，还用于当所述样本数据中词条目的描述中所包含的词语个数大于1时，利用时间递归的循环神经网络LSTM从分词后的所述词条目的描述中第一个词语的隐层向量开始，递归得到分词后的所述词条目的描述中最后一个词语的隐层向量,将所述词条目的描述中最后一个词语的隐层向量确定为所述词条目的描述的隐层向量。

根据本发明一优选实施例，所述训练单元在利用所述训练数据集训练得到相似度模型参数时，具体执行：

建立参数化的词向量矩阵，参数化的所述隐层变换矩阵；

根据本发明一优选实施例，所述训练单元在建立参数化的词向量矩阵时，具体执行：

将所述样本数据进行分词；

参数化分词得到的各词语的词向量；

由参数化后得到的各词语的词向量构成词向量矩阵。

根据本发明一优选实施例，所述迭代终止条件包括：

达到预设的迭代次数；或者

本次迭代后得到的损失函数的值小于预设目标值；或者

根据本发明一优选实施例，当所述样本数据中词条目的描述的隐层向量的长度与所述词条目所对应的词向量的长度不相同时，所述相似度模型参数还包括一个长度变换矩阵；

所述训练单元，还用于通过所述长度变换矩阵将所述词条目的描述的隐层向量转换成长度与所述词条目所对应的词向量长度相同的向量。

一种搜索处理装置，该装置包括：

第一获取单元，用于获取用户输入的语句描述；

第二获取单元，用于查询相似度模型参数，获取所述语句描述对应的词向量矩阵及词条目数据库中每个词条目的词向量；

计算单元，用于根据所述相似度模型参数及所述语句描述对应的词向量矩阵确定所述语句描述对应的隐层向量；

所述计算单元，还用于根据所述语句描述对应的隐层向量及词条目数据库中每个词条目的词向量确定所述语句描述与词条目数据库中每个词条目的相似度；

确定单元，用于确定词条目数据库中与所述语句描述之间的相似度满足预设要求的词条目；

其中所述相似度模型参数是采用权利要求11～17任一权项所述的装置训练得到的。

根据本发明一优选实施例，所述计算单元在根据所述相似度模型参数及所述语句描述对应的词向量矩阵确定所述语句描述对应的隐层向量时，具体执行：

根据本发明一优选实施例，该装置还包括：

搜索处理单元，用于将确定出的词条目推荐给用户供用户从中选择一个词条目进行搜索；或者，

利用确定出的词条目进行搜索，得到搜索结果。

由以上技术方案可以看出，本发明能根据用户输入的描述，反向查找用户所描述的词语，提高了用户的体验及搜索效率。

【附图说明】

图1是本发明实施例的基本原理框图。

图2是本发明实施例一的相似度模型参数的训练方法的流程图。

图3是本发明实施例二的搜索处理方法的流程图。

图4是本发明实施例三的相似度模型参数的训练装置的结构示意图。

图5是本发明实施例四的搜索处理装置的结构示意图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

图1是本发明实施例的基本原理框图。如图1所示，首先从互联网上挖掘包含词条目及该词条目的描述的样本数据，并构建训练数据集。根据该训练数据集训练得到相似度模型参数。最后，获取用户输入的语句描述及从预先建立的词条目数据库中获取所有的词条目，查询相似度模型参数，获取所述语句描述对应的词向量矩阵及词条目数据库中每个词条目的词向量，根据所述相似度模型参数及所述语句描述对应的词向量矩阵计算所述语句描述对应的隐层向量；根据所述语句描述对应的隐层向量及词条目数据库中每个词条目的词向量计算所述语句描述与词条目数据库中每个词条目的相似度；根据所述语句描述与词条目数据库中每个词条目的相似度将该语句描述的搜索结果呈现给所述用户。

如图2所示，是本发明实施例一的相似度模型参数的训练方法的流程图。该相似度模型参数的训练方法包括：

S10，构建训练数据集。

在本实施例中，利用已有的数据挖掘技术从网页上(如百度百科，维基百科)中挖掘包含词条目及该词条目的描述的样本数据。根据所述样本数据生成二元对。每个二元对包括一个词条目T及该词条目的描述D。例如通过搜集百度百科上的词条作为词条目，而百度百科当中关于该词条目的简介当中的第一句话(当然也可以是从简介中筛选出的其他语句)可以作为该词条目的描述。举例来说，词条目：蜗鸢；该词条目的描述：蜗鸢(学名：Rostrhamussociabilis)为鹰科齿鹰亚科的鸟类，是一种中型猛禽，体长约45厘米，上体羽毛深蓝色，头和下体羽毛灰白色或杂色，腿爪黄色有黑爪尖，眼睛棕红色。

从网页上能获得大量的这样的样本数据。样本数据的量越大，所构建的训练数据集的规模越大，后续对相似度模型参数进行训练所得到的相似度模型参数越准确。通常来说，所述样本数据至少为千万量级。

S11，利用所述训练数据集训练得到相似度模型参数。

在本实施例中，所述相似度模型参数包括由所述训练数据集所包含词语的词向量构成的词向量矩阵，将所述训练数据集中词条目的描述转换为隐层向量的隐层变换矩阵。

所述词向量矩阵E是用参数表示的。所述词向量矩阵由多个词语的词向量组成，所述词向量为将词语映射到一向量空间中，将词语在该向量空间的分布情况用一个向量表示。在本实施例中，词语在所述向量空间的分布表示词条目与词条目的描述之间的相似程度。所述隐层变换矩阵用于将词条目的描述转换为隐层向量表示。所述隐层向量用于表示所述词条目的描述的隐藏语义的向量。

优选地，作为S11的一种实施方式，该S11包括：

S110，建立参数化的词向量矩阵，参数化的隐层变换矩阵。

在建立参数化的词向量矩阵中，具体包括：

(1)将训练数据集中每个二元对进行分词。

利用分词技术对训练数据集中每个二元对中词条目的描述D进行分词。例如，假设将每个二元对中词条目的描述D分成长度为M的文本串。则每个二元对中词条目的描述D表示为(d₁,d₂...d_M)，每个二元对中的词条目T即为一个长度为1的文本串，用t表示。

(2)参数化分词得到的各词语的词向量。

每个二元对的词条目的词向量emb(T)表示为(emb_t)，每个二元对中词条目的描述D中所有词语的词向量emb(D)表示为(emb_d₁,emb_d₂...emb_d_M)。emb(D)是一个行数为M，列数为emb_size的矩阵。

(3)由参数化后得到的各词语的词向量构成词向量矩阵。

分词后的所有二元对的每个词语都包含在一个词向量矩阵中，该词向量矩阵的行高为|V|，矩阵的列宽为emb_size。这里的|V|为所有可能出现的词语的个数，即词典大小。emb_size的大小为预设值，该预设值为一个经验值，通常设定位50到1000之间。该矩阵中的每一行参数为一个长度为emb_size的向量，称为这一行对应的词语的词向量。后续可通过对相似度模型参数的训练得到所述词向量矩阵的最优解，即可得到每一行中对应的词语的词向量的最优解。

在本实施例中，当某个二元对中词条目的描述中所包含的词语个数为1时，所述二元对中词条目的描述的隐层向量为该二元对中词条目的描述中所包含的词语的词向量。当某个二元对中词条目的描述中所包含的词语个数大于1时，即M大于1时，利用时间递归的循环神经网络LSTM(Long-Short TermMemory,LSTM，简称LSTM)将所述二元对中词条目的描述转换为隐层向量表示。具体计算公式如下：

Input_i＝sigmoid(W_input*emb_d_i+U_input h_i-1)，

Forget_i＝sigmoid(W_forget*emb_d_i+U_forget h_i-1)，

Output_i＝sigmoid(W_output*emb_d_i+U_output h_i-1)，

Cellcandidate_i＝tanh(W_cell*emb_d_i+U_cell h_i-1)，

Cell_i＝Forget_i⊙Cell_i-1+Input_i⊙Cellcandidate_i，

h_i＝Output_i⊙tanh(cell_i)，

其中emb_d_i表示分词后的所述词条目的描述中第i个词语的词向量，h_i-1表示分词后的所述词条目的描述中第i-1个词语的隐层向量，其中W_input，U_input，W_forget，U_forget，W_output，U_output，W_cell及U_cell组成隐层变换矩阵。Input_i是一种门限gate，控制从当前的词语的词向量当中流入的信息量，Forget_i是一种门限gate，控制从前一个词语的词向量中遗忘的信息量，Output_i控制输出的信息量，Cellcandidate_i表示当前可用的信息量，Cell_i表示利用Forget_i及Input_i所得到的信息量。h_i表示分词后的所述词条目的描述中第i个词语的隐层向量。当得到分词后的所述词条目的描述中最后一个词语的隐层向量时，即得到了所述词条目的描述的隐层向量。

假设每个词条目的描述的隐层向量长度为hidden_size，则中W_input，W_forget，W_output，W_cell均为hidden_size*emb_size的矩阵，U_input，U_forget，U_output，U_cell均为hidden_size*hidden_size的矩阵。hidden_size等于emb_size。

使用这样的LSTM(Long Short-Term Memory)的结构的优点在于能够根据每个词条目的描述中词与词之间的依赖关系进行建模，从而能够更好地表示出每个词条目的描述的语义。

S111，初始化所述词向量矩阵中的参数及所述隐层变换矩阵中的参数。

在本实施例中，随机产生一组数字来初始化所述词向量矩阵中的参数，及所述隐层变换矩阵中的参数。当然也可以采用预设的初始值来初始化各参数，例如，采用0到0.001之间的值初始化各参数等。

S112，采用预设的迭代算法，对所述词向量矩阵中的参数，隐层变换矩阵中的参数进行迭代，直至达到预设的迭代终止条件。

在本实施例中，利用预设的迭代算法，在所述训练数据集上采用损失函数来迭代获取所述词向量矩阵中的参数值，及隐层变换矩阵中的参数值，所述损失函数根据训练数据集中词条目与词条目的描述的相似度确定。

损失函数的表达式如下：

其中Cosine函数定义如下：

C o \sin e (A, B) = \frac{A \cdot B}{| | A | | | | B | |} = \frac{Σ_{i = 1}^{m} A_{i} \times B_{i}}{\sqrt{Σ_{i = 1}^{m} A_{i}^{2}} \times \sqrt{Σ_{i = 1}^{m} B_{i}^{2}}} .

其中rep(T)表示每个二元对中词条目所对应的词向量，rep(D)表示每个二元对中词条目的描述所对应的隐层向量。

在本实施例中，当二元对中词条目的描述中所包含的词语的个数大于1时，利用时间递归的循环神经网络LSTM得到分词后的每个二元对中词条目的描述中最后一个词语的隐层向量时，即得到了每个二元对中词条目的描述的隐层向量rep(D)。当二元对中词条目的描述中所包含的词语的个数为1时，则该二元对中词条目的描述中所包含的词语的词向量即为rep(D)。

在本实施例中，每个二元对中词条目的描述的隐层向量长度与每个二元对中词条目所对应的词向量的长度相同，即hidden_size等于emb_size。在其他实施例中，每个二元对中词条目的描述的隐层向量长度与每个二元对中词条目所对应的词向量的长度不相同时，那么所述相似度模型参数还包括一个长度变换矩阵B，该长度变换矩阵用于将所述每个词条目的描述的隐层向量转换成长度为emb_size的向量。所述长度变换矩阵大小为hidden_size*emb_size。所述长度变换矩阵中参数的计算方法与词向量矩阵中参数的计算方法相同，即在步骤S11中同样可以计算出最优的长度变换矩阵。利用时间递归的循环神经网络LSTM得到分词后的每个二元对中词条目的描述中最后一个词语的隐层向量h_M后，rep(D)＝h_M*B。

在其他实施例中，本领域的技术人员可以根据需要采用其他表示形式的损失函数，如对数损失函数，平均损失函数，绝对损失函数等。

所述预设的迭代算法为随机梯度下降法(Stochastic Gradient Descent，SGD)与反向传播(Back Propagation，BP)算法。由于所建立的数据集规模过亿，因此对所述相似度模型参数进行训练，能够得到一份最优化的相似度模型参数。SGD与BP算法属于本领域技术人员的公知知识，在此仅做概要说明。BP算法是一种有效的计算参数的梯度的方法。

在本实施例中，利用SGD的迭代思想，分别对词向量矩阵，隐层变换矩阵进行初始化，通过训练数据集分别计算词向量矩阵及隐层变换矩阵的梯度，根据词向量矩阵及隐层变换矩阵的梯度分别更新初始化的词向量矩阵，及隐层变换矩阵。更新的方法是每次让词向量矩阵，减去所设置的一个学习率(learning rate)乘以计算出的词向量矩阵所对应的梯度，让隐层变换矩阵，减去所设置的一个学习率(learning rate)乘以计算出的隐层变换矩阵所对应的梯度，多次迭代后，当迭代到预设的迭代终止条件时，从而得到最优的预估模型参数。

所述预设的迭代终止条件可以是预设的迭代次数，或者本次迭代结束后得到的损失函数与上次迭代结束后得到的损失函数的值之差小于预设的阈值或者损失函数的值小于预设目标值。所述预设的迭代次数、预设的阈值及预设目标值是一个预设值，都为经验值。

在得到相似度模型参数后，会存储于存储装置中，便于后续用户输入某个词的具体描述时，根据相似度模型参数，向客户呈现与该具体描述最相似的词语，提高了用户的体验。

如图3所示，是本发明实施例二的搜索处理方法的流程图。该搜索处理方法包括：

S21，获取用户输入的语句描述。

在本实施例中，所述语句描述的输入可以是语音或者文本的形式。当为语音形式的语句描述时，先通过语音识别技术将该语音形式的语句描述转换为文本形式的语句描述。

S22，从预先建立的词条目数据库中获取所有的词条目。

在本实施例中，预先建立一个词条目数据库，该词条目数据库中包括多个词条目，该词条目数据库可根据训练数据集建立。当然也可以由人工自行添加等等。词条目数据库中词条目的数量至少为千万量级。

S23，查询相似度模型参数，获取所述语句描述对应的词向量矩阵及词条目数据库中每个词条目的词向量。

在本实施例中，所述相似度模型参数是通过实施例一中所述的方法训练得到，可从存储装置中获取与已经训练好的相似度模型参数。所述相似度模型参数包括训练数据集所包含词语的词向量构成的词向量矩阵E，将所述训练数据集中词条目的描述转换为隐层向量的隐层变换矩阵。词向量矩阵E的行高为|V|，矩阵的列宽为emb_size。这里的|V|为所有可能出现的词的个数(即词典大小)，该矩阵中的每一行数字为一个长度为emb_size的向量，称为这一行对应的词的词向量。所述词向量矩阵E由多个词的词向量组成，所述词向量为将词映射到一向量空间中，将词在该向量空间的分布情况用一个向量表示。

利用分词技术将所述语句描述DE分词成长度为n的文本串，将DE表示为de₁，de₂，…de_n。通过查询词向量矩阵E，得到语句描述DE中所对应的词向量矩阵emb(DE)为emb_de₁,emb_de₂,…,emb_de_n。其中emb_de₁为词语de₁所对应的词向量。

通过查询词向量矩阵，词条目数据库中每个词条目TE的词向量表示成emb_te。

S24，根据所述相似度模型参数及所述语句描述对应的词向量矩阵计算所述语句描述对应的隐层向量。

在本实施例中，所述相似度模型参数还包括隐层变换矩阵，其用于将所述语句描述转换为隐层向量表示。

在本实施例中，所述语句描述的隐层向量长度与词条目数据中每个词条目所对应的词向量的长度相同。当所述语句描述中所包含的词语个数为1时，所述语句描述的隐层向量为该语句描述中所包含的词语的词向量。当所述语句描述中所包含的词语个数大于1时，即n大于1时，利用时间递归的循环神经网络LSTM(Long-Short Term Memory,LSTM，简称LSTM)将所述语句描述转换为隐层向量表示。具体计算公式如下：

Input_i＝sigmoid(W_input*emb_de_i+U_input he_i-1)，

Forget_i＝sigmoid(W_forget*emb_de_i+U_forget he_i-1)，

Output_i＝sigmoid(W_output*emb_de_i+U_output he_i-1)，

Cellcandidate_i＝tanh(W_cell*emb_de_i+U_cell he_i-1)，

Cell_i＝Forget_i⊙Cell_i-1+Input_i⊙Cellcandidate_i，

he_i＝Output_i⊙tanh(cell_i)，

其中emb_d_i表示分词后的所述语句描述中第i个词语的词向量，he_i-1表示分词后的所述语句描述中第i-1个词语的隐层向量，其中W_input，U_input，W_forget，U_forget，W_output，U_output，W_cell及U_cell为隐层变换矩阵，通过实施例一中所述的方法训练得到。Input_i是一种门限gate，控制从当前的词语的词向量当中流入的信息量，Forget_i是一种门限gate，控制从前一个词语的词向量中遗忘的信息量，Output_i控制输出的信息量，Cellcandidate_i表示当前可用的信息量，Cell_i表示利用Forget_i及Input_i所得到的信息量。he_i表示分词后的所述语句描述中第i个词语的隐层向量。当得到分词后的所述语句描述中最后一个词语的隐层向量时，即得到了所述语句描述的隐层向量rep(DE)。

假设所述语句描述的隐层向量长度为hidden_size，则中W_input，W_forget，W_output，W_cell均为hidden_size*emb_size的矩阵，U_input，U_forget，U_output，U_cell均为hidden_size*hidden_size的矩阵。hidden_size等于emb_size。

使用这样的LSTM(Long Short-Term Memory)的结构的优点在于能够根据语句描述中词与词之间的依赖关系进行建模，从而能够更好地表示出语句描述的语义。

在其他实施例中，所述语句描述的隐层向量长度与词条目数据中每个词条目所对应的词向量的长度不相同。那么所述相似度模型参数还包括一个长度变换矩阵B，该长度变换矩阵B用于将所述每个词条目的描述的隐层向量转换成长度为emb_size的向量。长度变换矩阵通过实施例一中所述的方法训练得到。所述长度变换矩阵大小为hidden_size*emb_size。利用时间递归的循环神经网络LSTM得到分词后的所述语句描述中最后一个词语的隐层向量he_n后，所述语句描述的隐层向量rep(DE)＝he_n*B。

S25，根据所述语句描述对应的隐层向量及词条目数据库中每个词条目的词向量计算所述语句描述与词条目数据库中每个词条目的相似度。

在本实施例中，所述语句描述与词条目数据库中每个词条目的相似度的根据所述语句描述对应的隐层向量与词条目数据库中每个词条目的词向量的余弦距离确定,计算公式如下：

Sim_Score(TE,DE)＝Cosine(rep(TE),rep(DE))，

其中rep(TE)表示词条目数据库中每个词条目所对应的词向量，rep(DE)表示每个二元对中词条目的描述所对应的隐层向量。

S26，根据所述语句描述与词条目数据库中每个词条目的相似度确定词条目数据库中与所述语句描述之间的相似度满足预设要求的词条目。

在本实施例中，将所述语句描述与词条目数据库中每个词条目的相似度从高到低进行排序，把相似度排在前预设位数(如前十位)的词条目返回给用户，供用户从中选择一个词条目进行搜索。或者，利用确定出的词条目进行搜索，得到搜索结果提供给用户。例如，当用户在搜索引擎(如百度)的输入栏中输入“一种用来挂相框的东西，且不会影响墙面”的语句描述，搜索结果中会将关于无痕钉的网页呈现给用户。

如图4所示，本发明实施例三的相似度模型参数的训练装置的结构示意图。该装置包括：构建单元100、及训练单元101。

构建单元100用于构建训练数据集。

在本实施例中，利用已有的数据挖掘技术从网页上(如百度百科，维基百科)中挖掘包含词条目及该词条目的描述的样本数据。根据所述样本数据生成二元对。每个二元对包括一个词条目T及该词条目的描述D。例如通过搜集百度百科上的词条作为词条目，而百度百科当中关于该词条目的简介当中的第一句话(当然也可以是从简介中筛选出的其他语句)可以作为该词条目的描述。举例来说,词条目：蜗鸢；该词条目的描述：蜗鸢(学名：Rostrhamussociabilis)为鹰科齿鹰亚科的鸟类，是一种中型猛禽，体长约45厘米，上体羽毛深蓝色，头和下体羽毛灰白色或杂色，腿爪黄色有黑爪尖，眼睛棕红色。

训练单元101用于利用所述训练数据集训练得到相似度模型参数。

所述词向量矩阵E是用参数表示的。所述词向量矩阵由多个词语的词向量组成，所述词向量为将词语映射到一向量空间中，将词语在该向量空间的分布情况用一个向量表示。在本实施例中，词语在所述向量空间的分布表示词条目与词条目的描述之间的相似程度。所述隐层向量用于表示所述词条目的描述的隐藏语义。所述隐层变换矩阵用于将词条目的描述转换为隐层向量表示。

优选地，利用所述训练数据集训练得到相似度模型参数，包括：

训练单元101用于建立参数化的词向量矩阵，及参数化的隐层变换矩阵。

在建立参数化的词向量矩阵中，具体包括：

(1)将训练数据集中每个二元对进行分词。

(2)参数化分词得到的各词语的词向量。

(3)由参数化后得到的各词语的词向量构成词向量矩阵。

Input_i＝sigmoid(W_input*emb_d_i+U_input h_i-1)，

Forget_i＝sigmoid(W_forget*emb_d_i+U_forget h_i-1)，

Output_i＝sigmoid(W_output*emb_d_i+U_output h_i-1)，

Cellcandidate_i＝tanh(W_cell*emb_d_i+U_cell h_i-1)，

Cell_i＝Forget_i⊙Cell_i-1+Input_i⊙Cellcandidate_i，

h_i＝Output_i⊙tanh(cell_i)，

训练单元101用于初始化所述词向量矩阵中的参数及所述隐层变换矩阵中的参数。

在本实施例中，随机产生一组数字来初始化所述词向量矩阵中的参数，及所述隐层变换矩阵。当然也可以采用预设的初始值来初始化各参数，例如，采用0到0.001之间的值初始化各参数等。

训练单元101用于采用预设的迭代算法，对所述词向量矩阵中的参数，隐层变换矩阵中的参数进行迭代，直至达到预设的迭代终止条件。

损失函数的表达式如下：

其中Cosine函数定义如下：

C o \sin e (A, B) = \frac{A \cdot B}{| | A | | | | B | |} = \frac{Σ_{i = 1}^{m} A_{i} \times B_{i}}{\sqrt{Σ_{i = 1}^{m} A_{i}^{2}} \times \sqrt{Σ_{i = 1}^{m} B_{i}^{2}}} .

所述预设的迭代算法为随机梯度下降法(Stochastic Gradient Descent，SGD)与反向传播(Back Propagation，BP)算法。由于所建立的数据集规模过亿，因此对所述相似度模型参数进行训练，能够得到一份最优化的相似度模型模型参数。SGD与BP算法属于本领域技术人员的公知知识，在此仅做概要说明。BP算法是一种有效的计算参数的梯度的方法。

在本实施例中，利用SGD的迭代思想，分别对词向量矩阵，隐层变换矩阵进行初始化，通过训练数据集分别计算词向量矩阵及隐层变换矩阵的梯度，根据词向量矩阵，隐层变换矩阵的梯度分别更新初始化的词向量矩阵及隐层变换矩阵。更新的方法是每次让词向量矩阵，减去所设置的一个学习率(learning rate)乘以计算出的词向量矩阵所对应的梯度，让隐层变换矩阵，减去所设置的一个学习率(learning rate)乘以计算出的隐层变换矩阵所对应的梯度，多次迭代后，当迭代到预设的迭代终止条件时，从而得到最优的预估模型参数。

如图5所示，是本发明实施例四的搜索处理装置的结构示意图。该装置包括：第一获取单元201，第二获取单元202，计算单元203及确定单元204。

第一获取单元201用于获取用户输入的语句描述。

第一获取单元201还用于从预先建立的词条目数据库中获取所有的词条目。

第二获取单元202还用于查询相似度模型参数，获取所述语句描述对应的词向量矩阵及词条目数据库中每个词条目的词向量。

计算单元203用于根据所述相似度模型参数及所述语句描述对应的词向量矩阵计算所述语句描述对应的隐层向量。

Input_i＝sigmoid(W_input*emb_de_i+U_input he_i-1)，

Forget_i＝sigmoid(W_forget*emb_de_i+U_forget he_i-1)，

Output_i＝sigmoid(W_output*emb_de_i+U_output he_i-1)，

Cellcandidate_i＝tanh(W_cell*emb_de_i+U_cell he_i-1)，

Cell_i＝Forget_i⊙Cell_i-1+Input_i⊙Cellcandidate_i，

he_i＝Output_i⊙tanh(cell_i)，

所述计算单元203还用于根据所述语句描述对应的隐层向量及词条目数据库中每个词条目的词向量计算所述语句描述与词条目数据库中每个词条目的相似度。

Sim_Score(TE,DE)＝Cosine(rep(TE),rep(DE))，

所述搜索处理装置可以部署在搜索服务器上或者用户的电子装置中。

确定单元204用于根据所述语句描述与词条目数据库中每个词条目的相似度确定词条目数据库中与所述语句描述之间的相似度满足预设要求的词条目。

在本实施例中，还可以包括搜索处理单元(图中未示出)，搜索处理单元可以将所述语句描述与词条目数据库中每个词条目的相似度从高到低进行排序，把相似度排在前预设位数(如前十位)的词条目返回给用户，供用户从中选择一个词条目进行搜索。或者，利用确定出的词条目进行搜索，得到搜索结果提供给用户。例如，当用户在搜索引擎(如百度)的输入栏中输入“一种用来挂相框的东西，且不会影响墙面”的语句描述，搜索结果中会将关于无痕钉的网页呈现给用户。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种相似度模型参数的训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，当所述样本数据中某个词条目的描述中所包含的词语个数为1时，所述词条目的描述的隐层向量为该词条目的描述中所包含的词语的词向量。

3.根据权利要求1所述的方法，其特征在于，当所述样本数据中词条目的描述中所包含的词语个数大于1时，利用时间递归的循环神经网络LSTM从分词后的所述词条目的描述中第一个词语的隐层向量开始，递归得到分词后的所述词条目的描述中最后一个词语的隐层向量,将所述词条目的描述中最后一个词语的隐层向量确定为所述词条目的描述的隐层向量。

4.根据权利要求1所述的方法，其特征在于，利用所述训练数据集训练得到相似度模型参数包括：

建立参数化的词向量矩阵，及参数化的所述隐层变换矩阵；

初始化所述词向量矩阵中的参数，及所述隐层变换矩阵中的参数；

采用预设的迭代算法，对所述词向量矩阵中的参数，及所述隐层变换矩阵中的参数进行迭代，直至达到预设的迭代终止条件。

5.根据权利要求4所述的方法，其特征在于，所述建立参数化的词向量矩阵包括：

将所述样本数据进行分词；

参数化分词得到的各词语的词向量；

由参数化后得到的各词语的词向量构成词向量矩阵。

6.根据权利要求4所述的方法，其特征在于，所述迭代终止条件包括：

达到预设的迭代次数；或者

本次迭代后得到的损失函数的值小于预设目标值；或者

7.根据权利要求1所述的方法，其特征在于，当所述样本数据中词条目的描述的隐层向量的长度与所述词条目所对应的词向量的长度不相同时，所述相似度模型参数还包括一个长度变换矩阵，通过所述长度变换矩阵将所述词条目的描述的隐层向量转换成长度与所述词条目所对应的词向量长度相同的向量。

8.一种搜索处理方法，其特征在于，该方法包括：

获取用户输入的语句描述；

确定词条目数据库中与所述语句描述之间的相似度满足预设要求的词条目；其中所述相似度模型参数是采用权利要求1～7任一权项所述的方法训练得到的。

9.根据权利要求8所述的方法，其特征在于，根据所述相似度模型参数及所述语句描述对应的词向量矩阵确定所述语句描述对应的隐层向量，包括：

10.根据权利要求8所述的方法，其特征在于，该方法还包括：

利用确定出的词条目进行搜索，得到搜索结果。

11.一种相似度模型参数的训练装置，其特征在于，包括：

12.根据权利要求11所述的装置，其特征在于，所述训练单元，还用于当所述样本数据中某个词条目的描述中所包含的词语个数为1时，将所述词条目的描述中所包含的词语的词向量确定为所述词条目的描述的隐层向量。

13.根据权利要求11所述的装置，其特征在于，所述训练单元，还用于当所述样本数据中词条目的描述中所包含的词语个数大于1时，利用时间递归的循环神经网络LSTM从分词后的所述词条目的描述中第一个词语的隐层向量开始，递归得到分词后的所述词条目的描述中最后一个词语的隐层向量,将所述词条目的描述中最后一个词语的隐层向量确定为所述词条目的描述的隐层向量。

14.根据权利要求11所述的装置，其特征在于，所述训练单元在利用所述训练数据集训练得到相似度模型参数时，具体执行：

建立参数化的词向量矩阵，及参数化的所述隐层变换矩阵；

15.根据权利要求14所述的装置，其特征在于，所述训练单元在建立参数化的词向量矩阵时，具体执行：

将所述样本数据进行分词；

参数化分词得到的各词语的词向量；

由参数化后得到的各词语的词向量构成词向量矩阵。

16.根据权利要求14所述的装置，其特征在于，所述迭代终止条件包括：

达到预设的迭代次数；或者

本次迭代后得到的损失函数的值小于预设目标值；或者

17.根据权利要求11所述的装置，其特征在于，当所述样本数据中词条目的描述的隐层向量的长度与所述词条目所对应的词向量的长度不相同时，所述相似度模型参数还包括一个长度变换矩阵；

18.一种搜索处理装置，其特征在于，该装置包括：

第一获取单元，用于获取用户输入的语句描述；

计算单元，用于根据所述相似度模型参数及所述语句描述对应的词向量矩阵计算所述语句描述对应的隐层向量；

19.根据权利要求18所述的装置，其特征在于，所述计算单元在根据所述相似度模型参数及所述语句描述对应的词向量矩阵确定所述语句描述对应的隐层向量时，具体执行：

20.根据权利要求18所述的装置，其特征在于，该装置还包括：

搜索处理单元，用于将确定出的词条目推荐给用户供用户从中选择一个词条目进行搜索；或者，利用确定出的词条目进行搜索，得到搜索结果。