CN105809473A

CN105809473A - 匹配模型参数的训练方法、服务推荐方法及对应装置

Info

Publication number: CN105809473A
Application number: CN201610111873.9A
Authority: CN
Inventors: 张军
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2016-02-29
Filing date: 2016-02-29
Publication date: 2016-07-27
Anticipated expiration: 2036-02-29
Also published as: CN105809473B

Abstract

本发明公开了一种匹配模型参数的训练方法，服务推荐方法及其装置，匹配模型参数的训练方法，包括：构建预设类型服务对应的数据集；根据所述数据集建立匹配模型参数；对所述匹配模型参数进行训练得到与所述预设类型服务相关的匹配模型参数。服务推荐方法，包括：获取用户搜索某类型服务的搜索记录；从预先建立的服务提供者数据库中，获取每个服务提供者的特长描述；根据所述搜索记录及所获取的每个服务提供者的特长描述，并利用与该类型服务相关的匹配模型参数计算每个服务提供者与所述用户的匹配程度；根据所计算出的每个服务提供者的匹配程度向用户推荐服务提供者。本发明能根据用户的个性化需求提供合适的服务提供者，也降低了用户及商家的沟通成本。

Description

匹配模型参数的训练方法、服务推荐方法及对应装置

【技术领域】

本发明涉及计算机应用技术领域，尤其涉及一种匹配模型参数的训练方法、服务推荐方法及对应装置。

【背景技术】

在当前的O2O(onlinetooffline)服务领域，有些行业属于超低频的服务，比如婚庆，家装等。这类服务的特点在于用户的使用频次极低，可能一生只会用到一两次。因此用户在选择该类型的服务提供商，或者服务专员的时候，往往很难基于个人的以往经验来选择。同时此类服务通常有很强的专业性，同时每个用户的需求又有很强的个性化，因此其他用户的服务使用案例，对于新用户的参考意义很有限。

如何向此类超低频O2O服务的用户推荐适合的服务提供商家是在O2O服务推荐方面的一个关键问题。当前，该问题的解决方案主要有如下两种：方法一，根据过去用户对服务提供商的评价来列出服务提供商的榜单来作为向用户推荐的服务提供商列表；方法二，服务提供商通过网络平台，联系到用户，通过与用户的进一步沟通，来让用户选择合适的服务提供商。方法一因为整个榜单是对于所有用户都是一样的，并非根据用户的个性化需求来得到的；方法二，并非帮助用户从网络平台的所有提供商当中向用户筛选推荐出合适的服务提供商，而且，增加了用户及商家的沟通成本。

【发明内容】

本发明提供了一种匹配模型参数的训练方法、服务推荐方法及对应装置，能根据用户的个性化需求提供合适的服务提供者，同时也降低了用户及商家的沟通成本。

具体技术方案如下：

一种匹配模型参数的训练方法，包括：

构建预设类型服务对应的数据集，所述数据集包括：从与所述预设类型服务相关的搜索记录中筛选出的样本数据；

利用所述数据集训练得到所述预设类型服务相关的匹配模型参数，所述匹配模型参数包括：由所述数据集所包含词语的词向量构成的词向量矩阵。

根据本发明一优选实施例，所述样本数据包括：

查询条目、正例标题和负例标题；

其中所述正例标题包括：被点击过的结果条目对应的标题，所述负例标题包括：未被点击过的搜索结果条目对应的标题。

根据本发明一优选实施例，利用所述数据集训练得到所述预设类型服务相关的匹配模型参数包括：

建立参数化的词向量矩阵；

初始化所述词向量矩阵中的参数；

采用预设的迭代算法，对所述词向量矩阵中的参数进行迭代，直至达到预设的迭代终止条件。

根据本发明一优选实施例，所述建立参数化的词向量矩阵包括：

将所述样本数据进行分词；

参数化分词得到的各词语的词向量；

由参数化后得到的各词语的词向量构成词向量矩阵。

根据本发明一优选实施例，所述迭代终止条件包括：

达到预设的迭代次数；或者，

本次迭代结束后得到的损失函数与上次迭代结束后得到的损失函数的值之差小于预设的阈值；其中，所述损失函数由属于正例标题的词语和属于查询条目的词语之间的相似度，以及属于负例标题的词语和属于查询条目的词语之间的相似度确定。

一种服务推荐方法，该方法包括：

获取用户搜索某类型服务的搜索记录；以及从预先建立的与该类型服务相关的服务提供者数据库中，获取每个服务提供者的特长描述；

查询与所述服务相关的匹配模型参数，获取所述搜索记录对应的词向量矩阵以及各服务提供者的特长描述对应的词向量矩阵；

依据所述搜索记录对应的词向量矩阵以及各服务提供者的特长描述对应的词向量矩阵，确定各服务提供者与所述用户的匹配程度；

依据所述匹配程度向用户推荐服务提供者。

根据本发明一优选实施例，所述搜索记录包括搜索关键词及被点击过的搜索结果条目对应的标题。

根据本发明一优选实施例，确定各服务提供者与所述用户的匹配程度，包括：

利用预设向量计算方法对搜索记录对应的词向量矩阵计算得到搜索记录所对应的归一化的词向量，以及利用预设向量计算方法对各服务提供者的特长描述对应的词向量矩阵计算得到各服务提供者所对应的归一化的词向量；

计算搜索记录所对应的归一化的词向量与各服务提供者所对应的归一化的词向量之间的距离。

根据本发明一优选实施例，将服务提供者的匹配程度从高到低排序，把匹配程度排在前预设位数的服务提供者推荐给用户，或者把匹配程度超过预设阈值的服务提供者推荐给用户。

一种匹配模型参数的训练装置，包括：

构建单元，用于构建预设类型服务对应的数据集，所述数据集包括：从与所述预设类型服务相关的搜索记录中筛选出的样本数据；

训练单元，用于利用所述数据集训练得到所述预设类型服务相关的匹配模型参数，所述匹配模型参数包括：由所述数据集所包含词语的词向量构成的词向量矩阵。

根据本发明一优选实施例，所述样本数据包括：

查询条目、正例标题和负例标题；

根据本发明一优选实施例，所述训练单元具体用于：

建立参数化的词向量矩阵；

初始化所述词向量矩阵中的参数；

根据本发明一优选实施例，所述训练单元在建立参数化的词向量矩阵时，具体执行：

将所述样本数据进行分词；

参数化分词得到的各词语的词向量；

由参数化后得到的各词语的词向量构成词向量矩阵。

根据本发明一优选实施例，所述迭代终止条件包括：

达到预设的迭代次数；或者，

一种服务推荐装置，该装置包括：

第一获取单元，用于获取用户搜索某类型服务的搜索记录；以及从预先建立的与该类型服务相关的服务提供者数据库中，获取每个服务提供者的特长描述；

第二获取单元，用于查询与所述服务相关的匹配模型参数，获取所述搜索记录对应的词向量矩阵以及各服务提供者的特长描述对应的词向量矩阵；

计算单元，用于依据所述搜索记录对应的词向量矩阵以及各服务提供者的特长描述对应的词向量矩阵，确定各服务提供者与所述用户的匹配程度；

推荐单元，用于依据所述匹配程度向用户推荐服务提供者。

根据本发明一优选实施例，所述计算单元具体用于：

根据本发明一优选实施例，所述推荐单元，具体用于将服务提供者的匹配程度从高到低排序，把匹配程度排在前预设位数的服务提供者推荐给用户，或者把匹配程度超过预设阈值的服务提供者推荐给用户。

由以上技术方案可以看出，本发明能根据用户在搜索某类型服务时的搜索记录向用户推荐符合其需求的服务提供者。满足了用户的个性化需求，并降低了用户及商家的沟通成本。

【附图说明】

图1是本发明实施例的基本原理框图。

图2是本发明实施例一的匹配模型参数的训练方法的流程图。

图3是本发明实施例二的服务推荐方法的流程图。

图4是本发明实施例三的匹配模型参数的训练装置的结构示意图。

图5是本发明实施例四的服务推荐装置的结构示意图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

图1是本发明实施例的基本原理框图。如图1所示，首先从搜索引擎的点击日志中筛选出与某类型服务(例如婚庆或者家装等)相关的点击日志，并构建数据集，对该数据集进行训练得到最优的匹配模型参数。最后，获取用户搜索某类型服务的搜索记录，从预先建立的与该服务相关的服务提供者数据库中获取每个服务提供者的特长描述；根据所述搜索记录及所获取的每个服务提供者的特长描述，并利用训练好的匹配模型参数计算每个服务提供者与用户的匹配程度；根据所计算出的服务提供者的匹配程度，向用户推荐服务提供者。

如图2所示，是本发明实施例一的匹配模型参数的训练方法的流程图。该匹配模型参数的训练方法包括：

S10，构建预设类型服务对应的数据集。

在本实施例中，一种类型的服务对应一数据集，该数据集由多组样本数据构成，从搜索引擎的点击日志中筛选出与某类型服务(例如婚庆或者家装等)相关的点击日志，并从筛选出的点击日志中获取多组样本数据。每组样本数据由＜Q，T⁺，T^-＞对构成，其中Q表示用户所查询的查询条目，T⁺表示正例标题，是用户在利用所述查询条目查询后得到多条搜索结果条目，被点击过的搜索结果条目对应的标题。T^-表示负例标题，是用户在利用所述查询条目查询后得到多条搜索结果条目，未被点击过的搜索结果条目对应的标题。可通过大量用户的点击日志建立规模过亿的数据集。

S11，利用所述数据集训练得到所述预设类型服务相关的匹配模型参数。

优先地，作为S11的一个实施例的方式，S11中包括：

S110，建立参数化的词向量矩阵。

预先建立参数化的词向量矩阵E，该词向量矩阵E是用参数表示的。所述词向量矩阵由多个词的词向量组成，所述词向量为将词映射到一向量空间中，将词在该向量空间的分布情况用一个向量表示。词在所述向量空间的分布表示用户对在该服务中感兴趣的程度。

具体包括：

(1)将数据集中每组样本数据进行分词。

利用分词技术将每组样本数据中的查询条目，正例标题及负例标题进行分词。例如，假设将查询条目分成长度为M的文本串，将正例标题分成长度为N的文本串，将负例标题分成长度为L的文本串。则每组样本数据中的Q中所有词语表示为(q₁,q₂...q_M)，T⁺中所有词语表示为T^-中所有词语表示为

(2)参数化分词得到的各词语的词向量。

具体地，每组样本数据中查询条目的所有词语的词向量emb(Q)表示为(emb_q₁,emb_q₂...emb_q_M)，正例标题的所有词语的词向量emb(T⁺)表示为负例标题的所有词语的词向量emb(T^-)表示为

(3)由参数化后得到的各词语的词向量构成词向量矩阵。

分词后的所有样本数据的每个词语都包含在一个词向量矩阵中，该词向量矩阵的行高为|V|，矩阵的列宽为emb_size。这里的|V|为所有可能出现的词语的个数，即词典大小。emb_size的大小为预设值，该预设值为一个经验值，通常设定位50到1000之间。该矩阵中的每一行参数为一个长度为emb_size的向量，称为这一行对应的词语的词向量。后续可通过对匹配模型参数的训练得到所述词向量矩阵的最优解，即可得到每一行中对应的词语的词向量的最优解。

S111，初始化所述词向量矩阵中的参数。

在本实施例中，随机产生一组数字来初始化所述词向量矩阵中的参数。

S112，采用预设的迭代算法，对所述词向量矩阵中的参数进行迭代，直至达到预设的迭代终止条件。

在本实施例中，利用预设的迭代算法，在所述数据集上采用损失函数来迭代获取到所述词向量矩阵中的参数值，所述损失函数由属于正例标题的词语和属于查询条目的词语之间的相似度，以及属于负例标题的词语和属于查询条目的词语之间的相似度确定。

在所述数据集上采用损失函数的表达式为：

其中θ为词向量矩阵中的参数集合。

其中Cosine函数定义如下：

C o \sin e (A, B) = \frac{A \cdot B}{| | A | | | | B | |} = \frac{Σ_{i = 1}^{m} A_{i} \times B_{i}}{\sqrt{Σ_{i = 1}^{m} A_{i}^{2}} \times \sqrt{Σ_{i = 1}^{m} B_{i}^{2}}}

A，B是两个长度为m的向量。其中rep(Q)表示每组样本数据中查询条目所对应的归一化的词向量，rep(T⁺)表示每组样本数据中正例标题所对应的归一化的词向量，rep(T^-)表示每组样本数据中负例标题所对应的归一化的词向量。

在其他实施例中，本领域的技术人员可以根据需要采用其他表示形式的损失函数，如对数损失函数，平均损失函数，绝对损失函数等。

所述预设的迭代算法为随机梯度下降法(StochasticGradientDescent，SGD)与反向传播(BackPropagation，BP)算法。由于所建立的数据集规模过亿，因此对所述匹配模型参数进行训练，能够得到一份最优化的匹配模型参数。SGD与BP算法属于本领域技术人员的公知知识，在此仅做概要说明。BP算法是一种有效的计算参数的梯度的方法。

在本实施例中，利用SGD的迭代思想，对词向量矩阵中的参数进行初始化，通过(称为mini-batchsize)训练的数据集计算词向量矩阵中的参数梯度(即词向量矩阵中的参数的偏导数)，根据词向量矩阵中的参数的梯度更新初始化的词向量矩阵中的参数，更新的方法是每次让词向量矩阵中的参数减去所设置的一个学习率(learningrate)乘以计算出的梯度，多次迭代后，当迭代到预设的迭代终止条件时，从而得到最优的词向量矩阵中的参数。所述预设的迭代终止条件可以是本次迭代结束后得到的损失函数与上次迭代结束后得到的损失函数的值之差小于预设的阈值。所述预设的迭代次数及预设的阈值是一个预设值，都为经验值。

优先地，其中利用预设向量计算方法对每组样本数据中的查询条目的所有词语的词向量，正例标题的所有词语的词向量及负例标题的所有词语的词向量分别进行处理得到每组样本数据中查询条目所对应的归一化的词向量rep(Q)，正例标题所对应的归一化的词向量rep(T⁺)及负例标题所对应的归一化的词向量rep(T^-)

具体通过以下方式获得：

(1)，将每组样本数据的查询条目中所有词语的词向量相加得到rep(Q)，正例标题中所有词语的词向量相加得到rep(T⁺)及负例标题中所有词语的词向量进行向量相加得到rep(T^-)。

即rep(Q)＝emb_q₁+emb_q₂...+emb_q_M，

r e p (T^{+}) = e m b_t_{1}^{+} + e m b_t_{2}^{+} ... + e m b_t_{N}^{+},

r e p (T^{-}) = e m b_t_{1}^{-} + e m b_t_{2}^{-} ... + e m b_t_{L}^{-} .

(2)，对每组样本数据中的rep(Q)，rep(T⁺)及rep(T^-)分别进行归一化来更新所述每组样本数据中的rep(Q)，rep(T⁺)及rep(T^-)。在本实施例中，使用非线性变换函数，sigmoid函数把rep(Q)，rep(T⁺)及rep(T^-)向量都归一化到0到1之间。其中sigmoid函数表示为：

S i g m o i d (z) = \frac{1}{1 + e^{- z}}

在其他实施例中，也可以采用tanh等其他的非线性函数。

在得到预设类型的服务的匹配模型参数的匹配模型参数后，会存储于存储装置中，便于后续有用户搜索该服务时，根据该服务的匹配模型参数的匹配模型参数，向用户推荐合适的服务提供者。

如图3所示，是本发明实施例二的服务推荐方法的流程图。该服务推荐方法包括：

S21，获取用户搜索某类型服务的搜索记录。

用户在选用服务(以家装行业为例)时，通常会通过搜索引擎，论坛等方式进行初期的，较长时间的自行调研，用以选择合适的服务提供者。因此，在本实施例中，可获取某一时间段中用户搜索所述服务的搜索记录，所述搜索记录包括搜索关键词和点击历史。所述搜索关键词包括用户通过语音或者文本输入的搜索词及搜索语句。所述点击历史为被点击过的搜索结果条目对应的标题。

S22，从预先建立的与该类型服务相关的服务提供者数据库中，获取每个服务提供者的特长描述。

在本实施例中，一种类型的服务对应一服务提供者数据库。所述服务提供者包括服务提供商、服务专员。预先建立服务提供者数据库，该服务提供者数据库包括服务提供者的特长描述。该特长描述的来源可以是服务提供者自行添加。优先地，使用已有的数据挖掘技术从互联网上(如论坛及其他形式的网页中)自动挖掘出来的。例如，所述特长描述为：工人师傅很专业，瓷砖铺的很不错，干净整齐，工长也很负责，总是站在业主的角度来解决问题，我们提出来的问题都会很耐心很细心的帮忙解决，装修公司也总是派人过来检查，很负责等等。

S23，查询与所述服务相关的匹配模型参数，获取所述搜索记录对应的词向量矩阵以及各服务提供者的特长描述对应的词向量矩阵。

在本实施例中，所述与该类型服务相关的匹配模型参数是通过实施例一中所述的方法训练得到，可根据该服务的类型从存储装置中获取与该服务相关的已经训练好的匹配模型参数，即为与所述服务相关的词向量矩阵E，该矩阵的行高为|V|，矩阵的列宽为emb_size。这里的|V|为所有可能出现的词的个数(即词典大小)，该矩阵中的每一行数字为一个长度为emb_size的向量，称为这一行对应的词的词向量。所述词向量矩阵由多个词的词向量组成，所述词向量为将词映射到一向量空间中，将词在该向量空间的分布情况用一个向量表示。词在所述向量空间的分布表示用户对在该服务中感兴趣的程度。

优选地，该S23包括：

(1)对所述搜索记录进行分词。

用户搜索过的所述服务的搜索关键词为S，利用分词技术分词处理后可以看做S为一个长度为m的文本串，即S＝w1,w2,…,wm，例如S为(现代，简约，实用，甲醛，含量，低，环保，无污染，暖和，…)。

利用分词技术分词对用户所被点击过的搜索结果条目对应的标题H进行分词得到一个长度为n的文本串，即H＝h1,h2,…,hn。

(2)对每个服务提供者的特长描述进行分词。

对所获取的每个服务提供者的特长描述P进行分词。利用分词技术分词对所获取的每个服务提供者的特长描述P进行分词得到长度为u的文本串：P＝p1,p2,…,pu。

(3)查询与所述服务相关的词向量矩阵，获取搜索关键词当中所有词语的词向量，被点击过的搜索结果条目对应的标题中的所有词语的词向量及每个服务提供者P的所有词语的词向量

通过查询得到S当中所有词语的词向量即为，记为：

emb(S)＝emb_s1,emb_s2,…,emb_sm

类似的，我们也可以得到H的所有词语的词向量，记为：

emb(H)＝emb_h1,emb_h2,…,emb_hn。

所述搜索记录对应的词向量矩阵即由emb(S)及emb(H)组成。

同理，也可以得到每个服务提供者P的所有词语的词向量即为每个服务提供者所对应的词向量矩阵，记为：

emb(P)＝emb_p1,emb_p2,…,emb_pu。

S24，依据所述搜索记录对应的词向量矩阵以及各服务提供者的特长描述对应的词向量矩阵，确定各服务提供者与所述用户的匹配程度。

优选地，确定各服务提供者与所述用户的匹配程度包括：

(1)利用预设向量计算方法对搜索记录对应的词向量矩阵计算得到搜索记录所对应的归一化的词向量，以及利用预设向量计算方法对各服务提供者的特长描述对应的词向量矩阵计算得到各服务提供者所对应的归一化的词向量。

具体地，将搜索关键词所对应的词向量矩阵，被点击过的搜索结果条目对应的标题所对应的词向量矩阵及每个服务提供者的特长描述的词向量矩阵分别进行相加得到rep(S)，rep(H)，rep(P)，再对rep(S)，rep(H)，rep(P)归一化处理。分述如下：

把emb(S)，emb(H)，和emb(P)分别进行相加操作，即

rep(S)＝emb_s1+emb_s2+…+emb_sm；

rep(H)＝emb_h1+emb_h2+…+emb_hn；

对每个服务提供者而言，

rep(P)＝emb_p1+emb_p2+…+emb_pu；

再把rep(S)，rep(H)，rep(P)向量都归一化到0到1之间来更新所述rep(S)，rep(H)，rep(P)，优选地，使用非线性变换sigmoid函数进行归一化处理。

在其他实施例中，也可以采用tanh等其他的非线性函数。

(2)计算搜索记录所对应的归一化的词向量与各服务提供者所对应的归一化的词向量之间的距离，将搜索记录所对应的归一化的词向量与各服务提供者所对应的归一化的词向量之间的距离确定为确定各服务提供者与所述用户的匹配程度。

具体地，通过计算rep(S)及rep(H)与每个服务提供者所对应的rep(P)的距离来确定各服务提供者与所述用户的匹配程度。

对任意一个服务提供者而言，使用向量之间的夹角(Cosine夹角)得到rep(S)与rep(P)及rep(H)与rep(P)之间的距离，这两个距离相加即可得到最终的距离MatchScore：

MatchScore＝Cosine(rep(S),rep(P))+Cosine(rep(H),rep(P))

这里的Cosine函数定义如下：

C o \sin e (A, B) = \frac{A \cdot B}{| | A | | | | B | |} = \frac{Σ_{i = 1}^{m} A_{i} \times B_{i}}{\sqrt{Σ_{i = 1}^{m} A_{i}^{2}} \times \sqrt{Σ_{i = 1}^{m} B_{i}^{2}}}

A，B是两个长度为m的向量。

S25，依据所述匹配程度向用户推荐服务提供者。

优选地，可将服务提供者的匹配程度从高到低排序，把匹配程度排在前预设位数(如前十位)的服务提供者推荐给用户，或者把匹配程度超过预设阈值的服务提供者推荐给用户。例如，当用户在搜索引擎(如百度)的输入栏中输入环保涂料供应商，搜索引擎会向用户推送通过本发明所匹配出的环保涂料的服务提供者。或者用户在点击环保涂料的网页时，会在网页上呈现出本发明所匹配出的环保涂料的服务提供者。

如图4所示，本发明实施例三的匹配模型参数的训练装置的结构示意图。该装置包括：构建单元100、及训练单元101。

所述构建单元100用于构建预设类型服务对应的数据集。

所述训练单元101用于利用所述数据集训练得到所述预设类型服务相关的匹配模型参数。

优先地，在利用所述数据集训练得到所述预设类型服务相关的匹配模型参数中，包括：

所述训练单元101还用于建立参数化的词向量矩阵。

具体包括：

(1)将数据集中每组样本数据进行分词。

(2)参数化分词得到的各词语的词向量。

(3)由参数化后得到的各词语的词向量构成词向量矩阵。

所述训练单元101还用于初始化所述词向量矩阵中的参数。

所述训练单元101还用于采用预设的迭代算法，对所述词向量矩阵中的参数进行迭代，直至达到预设的迭代终止条件。

在所述数据集上采用损失函数的表达式为：

其中θ为词向量矩阵中的参数集合。

其中Cosine函数定义如下：

C o \sin e (A, B) = \frac{A \cdot B}{| | A | | | | B | |} = \frac{Σ_{i = 1}^{m} A_{i} \times B_{i}}{\sqrt{Σ_{i = 1}^{m} A_{i}^{2}} \times \sqrt{Σ_{i = 1}^{m} B_{i}^{2}}}

具体通过以下方式获得：

即rep(Q)＝emb_q₁+emb_q₂...+emb_q_M，

r e p (T^{+}) = e m b_t_{1}^{+} + e m b_t_{2}^{+} ... + e m b_t_{N}^{+},

r e p (T^{-}) = e m b_t_{1}^{-} + e m b_t_{2}^{-} ... + e m b_t_{L}^{-} .

S i g m o i d (z) = \frac{1}{1 + e^{- z}}

在其他实施例中，也可以采用tanh等其他的非线性函数。

如图5所示，是本发明实施例四的服务推荐装置的结构示意图。该服务推荐装置包括：第一获取单元201，第二获取单元202，计算单元203及推荐单元204。

所述第一获取单元201用于获取用户搜索某类型服务的搜索记录。

所述第一获取单元201还用于从预先建立的与该类型服务相关的服务提供者数据库中，获取每个服务提供者的特长描述。

所述第二获取单元202用于查询与所述服务相关的匹配模型参数，获取所述搜索记录对应的词向量矩阵以及各服务提供者的特长描述对应的词向量矩阵。

优选地，在获取所述搜索记录对应的词向量矩阵以及各服务提供者的特长描述对应的词向量矩阵中，包括：

所述第二获取单元202还用于对所述搜索记录进行分词。

所述第二获取单元202还用于对每个服务提供者的特长描述进行分词。

所述第二获取单元202还用于查询与所述服务相关的词向量矩阵，获取搜索关键词当中所有词语的词向量，被点击过的搜索结果条目对应的标题中的所有词语的词向量及每个服务提供者P的所有词语的词向量

通过查询得到S当中所有词语的词向量即为，记为：

emb(S)＝emb_s1,emb_s2,…,emb_sm

类似的，我们也可以得到H的所有词语的词向量，记为：

emb(H)＝emb_h1,emb_h2,…,emb_hn。

所述搜索记录对应的词向量矩阵即由emb(S)及emb(H)组成。

emb(P)＝emb_p1,emb_p2,…,emb_pu。

计算单元203用于依据所述搜索记录对应的词向量矩阵以及各服务提供者的特长描述对应的词向量矩阵，确定各服务提供者与所述用户的匹配程度。

优选地，确定各服务提供者与所述用户的匹配程度包括：

计算单元203还用于利用预设向量计算方法对搜索记录对应的词向量矩阵计算得到搜索记录所对应的归一化的词向量，以及利用预设向量计算方法对各服务提供者的特长描述对应的词向量矩阵计算得到各服务提供者所对应的归一化的词向量。

把emb(S)，emb(H)，和emb(P)分别进行相加操作，即

rep(S)＝emb_s1+emb_s2+…+emb_sm；

rep(H)＝emb_h1+emb_h2+…+emb_hn；

对每个服务提供者而言，

rep(P)＝emb_p1+emb_p2+…+emb_pu；

在其他实施例中，也可以采用tanh等其他的非线性函数。

计算单元203还用于计算搜索记录所对应的归一化的词向量与各服务提供者所对应的归一化的词向量之间的距离，将搜索记录所对应的归一化的词向量与各服务提供者所对应的归一化的词向量之间的距离确定为确定各服务提供者与所述用户的匹配程度。

MatchScore＝Cosine(rep(S),rep(P))+Cosine(rep(H),rep(P))

这里的Cosine函数定义如下：

C o \sin e (A, B) = \frac{A \cdot B}{| | A | | | | B | |} = \frac{Σ_{i = 1}^{m} A_{i} \times B_{i}}{\sqrt{Σ_{i = 1}^{m} A_{i}^{2}} \times \sqrt{Σ_{i = 1}^{m} B_{i}^{2}}}

A，B是两个长度为m的向量。

推荐单元204用于依据所述匹配程度向用户推荐服务提供者。

优选地，可将服务提供者的匹配程度从高到低排序，把匹配程度排在前预设位数(如前十位)的服务提供者推荐给用户。例如，当用户在搜索引擎(如百度)的输入栏中输入环保涂料供应商，搜索引擎会向用户推送通过本发明所匹配出的环保涂料的服务提供者。或者用户在点击环保涂料的网页时，会在网页上呈现出本发明所匹配出的环保涂料的服务提供者。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(RandomAccessMemory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种匹配模型参数的训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述样本数据包括：

查询条目、正例标题和负例标题；

3.根据权利要求1所述的方法，其特征在于，利用所述数据集训练得到所述预设类型服务相关的匹配模型参数包括：

建立参数化的词向量矩阵；

初始化所述词向量矩阵中的参数；

4.根据权利要求3所述的方法，其特征在于，所述建立参数化的词向量矩阵包括：

将所述样本数据进行分词；

参数化分词得到的各词语的词向量；

由参数化后得到的各词语的词向量构成词向量矩阵。

5.根据权利要求3所述的方法，其特征在于，所述迭代终止条件包括：

达到预设的迭代次数；或者，

6.一种服务推荐方法，其特征在于，该方法包括：

依据所述匹配程度向用户推荐服务提供者；

其中所述匹配模型参数是采用权利要求1～5任一权项所述的方法训练得到的。

7.根据权利要求6所述的方法，其特征在于，所述搜索记录包括搜索关键词及被点击过的搜索结果条目对应的标题。

8.根据权利要求6所述的方法，其特征在于，确定各服务提供者与所述用户的匹配程度，包括：

9.根据权利要求6所述的方法，其特征在于，将服务提供者的匹配程度从高到低排序，把匹配程度排在前预设位数的服务提供者推荐给用户，或者把匹配程度超过预设阈值的服务提供者推荐给用户。

10.一种匹配模型参数的训练装置，其特征在于，包括：

11.根据权利要求10所述的装置，其特征在于，所述样本数据包括：

查询条目、正例标题和负例标题；

12.根据权利要求10所述的装置，其特征在于，所述训练单元具体用于：

建立参数化的词向量矩阵；

初始化所述词向量矩阵中的参数；

13.根据权利要求12所述的装置，其特征在于，所述训练单元在建立参数化的词向量矩阵时，具体执行：

将所述样本数据进行分词；

参数化分词得到的各词语的词向量；

由参数化后得到的各词语的词向量构成词向量矩阵。

14.根据权利要求12所述的装置，其特征在于，所述迭代终止条件包括：

达到预设的迭代次数；或者，

15.一种服务推荐装置，其特征在于，该装置包括：

推荐单元，用于依据所述匹配程度向用户推荐服务提供者；

其中所述匹配模型参数是采用权利要求10～14任一权项所述的装置训练得到的。

16.根据权利要求15所述的装置，其特征在于，所述搜索记录包括搜索关键词及被点击过的搜索结果条目对应的标题。

17.根据权利要求15所述的装置，其特征在于，所述计算单元具体用于：

18.根据权利要求15所述的装置，其特征在于，所述推荐单元，具体用于将服务提供者的匹配程度从高到低排序，把匹配程度排在前预设位数的服务提供者推荐给用户，或者把匹配程度超过预设阈值的服务提供者推荐给用户。