CN104933183B

CN104933183B - 一种融合词向量模型和朴素贝叶斯的查询词改写方法

Info

Publication number: CN104933183B
Application number: CN201510385259.7A
Authority: CN
Inventors: 唐贤伦; 周家林; 刘安静; 周冲; 彭永嘉; 朱俊; 张毅
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing Magica Electronics Co ltd
Priority date: 2015-07-03
Filing date: 2015-07-03
Publication date: 2018-02-06
Anticipated expiration: 2035-07-03
Also published as: CN104933183A

Abstract

本发明提出一种融合词向量模型和朴素贝叶斯查询改写方法，涉及信息处理技术，该方法利用word2vec训练出向量模型并计算出与查询词最相似的前N个词构成初步的相关词库，然后进行相关度计算和分析得到对查询改写词库的候选词进行过滤，保留相关度高的词语，这种方法可有效提高查询结果的准确度和召回度，有效的解决了搜索查询无结果或者返回有效结果少的难题。

Description

一种融合词向量模型和朴素贝叶斯的查询词改写方法

技术领域

本发明涉及一种计算机信息处理技术领域，尤其涉及一种数据挖掘技术中的查询词改写方法。

背景技术

词向量模型是运用神经网络，将位于高维离散空间(维数为词典中词的数目)中的每一个词映射成低维连续空间的实数向量的技术(即词嵌入)。在自然语言处理任务中，词嵌入提供了更好的语义级别的词分布式特征表示，从而为文本处理任务带来了诸多便利。词嵌入表示的目标在于学习到每个词的向量表示，并将这种向量表示用于不同的文本处理任务。学习到的词向量既可以作为完全的词特征输入到某些特定任务的有监督学习算法中，也可以作为依赖于不同任务所特定提取特征的有益扩充。为获取有效的词嵌入表示，目前所用的机器学习方法包括基于神经网络的方法、基于受限玻尔兹曼机的方法以及基于单词与上下文相关性的方法。其中在神经网络模型中，Word2vec(神经网络)模型计算简单，并且已在一些任务中取得了良好的效果从而得到广泛的关注和应用。Word2vec采取两种模型：CBOW模型和Skip-Gram模型，在本发明中，我们使用基于Hierarchical Softmax算法的Skip-Gram模型。

朴素贝叶斯(Native Byes)算法是最广泛运用的词分类模型之一，它基于贝叶斯定理对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率，哪个最大，就认为此待分类项属于哪个类别。

采用Hierarchical Softmax算法的Skip-Gram模型做查询改写，其改写词只是从语义相关性去计算，而没有考虑查询词与搜索召回结果的上下文之间的联系，且语义上真正相关的词并不多，需要大量的预料才能有效的挖掘出来；而基于朴素贝叶斯的查询改写方法，则是从查询词与搜索召回结果的上下文之间的共现概率来挖掘改写词，尽管考虑了上下文之间的联系，然而查询词与改写词之间的语义相关性却较弱。因而更高效的查询改写方法，既需要考虑查询词与改写词之间的语义相关性，也要考虑查询词与搜索召回结果的上下文联系。

发明内容

本发明针对现有技术存在的上述缺陷，提出一种融合词向量模型和朴素贝叶斯查询改写方法，在利用Word2vec训练出词向量模型后，再计算出与查询词最相似的前N个词作为查询改写的候选词，通过朴素贝叶斯算法，对候选词进行过滤，只保留搜索相关度高的词语作为查询扩展的词语，从而提高查询的精确度和召回度。

本发明解决上述技术问题的技术方案是：利用Hierarchical Softmax算法的Skip-Gram模型完成词向量模型的训练，并计算出查询改写的候选词形成查询改写词库，再使用朴素贝叶斯算法对该查询改写词库进行优化和过滤，留下“真正”相关的候选词，使查询词能够找到相关度高的改写词。其中的优化依据是用户搜索日志，搜索查询日志是众多用户使用搜索引擎时的搜索行为历史，对它的分析相当于使用大量的用户反馈，在研究词与词的相关性过程中更有实际意义。采用Word2vec中基于Hierarchical Softmax算法的Skip-Gram模型，根据输入词来预测上下文词语即找到输入查询词的上下文相关词或同义词。

具体技术方案具体为：一种融合词向量模型和朴素贝叶斯的查询词改写方法，包括以下步骤：根据用户输入的当前查询词w，以及当前查询词的上下文contest(w)获取语料库建立词向量模型，根据词向量模型计算查询词的相关词，进行相关词筛选构成查询改写候选词库；根据用户查询日志，得到用户查询词以及搜索最终页的标题和文本标识，计算查询改写候选词库中每个候选词与查询词的相关度，根据相关度设定标准阀值，过滤器根据标准阈值过滤掉相关性弱的词，选取相关度强的词语作为查询扩展词，根据查询扩展词进一步搜索。如当输入一个用户查询词时，概率系数大于标准阈值的词为查询词的改写词，概率系数小于阈值的词则被过滤掉。所述相关度为在查询词出现时查询改写候选词库中该候选词也出现的概率系数；根据相关度标准阀值，筛选出大于标准阀值的相关词，得到查询扩展词构建新的查询改写候选词库。获得查询扩展词后，搜索引擎根据输入的关键词对应的查询扩展词进行扩展搜索。即可在搜索引擎中输入关键词时，根据查询扩展词对关键词的查询进行扩展，这样不但能够扩大召回，而且可以克服只基于关键词搜索时所遇到的“信息迷向”、“信息过载”、“词不匹配”等一系列缺点。

本发明的其中一个实施例进一步包括所述词向量模型为，以对数似然函数L为目标函数，根据当前查询词w，当前词的上下文标记contest(w)，调用公式：确定目标函数，其中p为条件概率。根据公式对查询词w的向量v(w)迭代更新，训练出查询词的更新向量v'(w)，再根据余弦相似度计算出查询词的相关词，其中，α为学习率，l^w为词w所在哈弗曼树中的层次，θ_j为词w在第j层的参数估计。再根据余弦相似度计算出查询词的相关词。

确定目标函数进一步包括：每个词对应哈弗曼树中的一个叶节点，将叶节点上的每个词映射为词向量，路径对应唯一一个哈弗曼编码，根据词w的哈弗曼编码词w的当前词向量v(w)，词w所在哈弗曼树中的层次l^w，所在路径中第j-1层节点对应的编码根据公式建立条件概率函数p(Context(w)|w)。

进行相关词筛选包括：根据搜索日志统计查询词出现的次数N(q_i)，在搜索最终页的标题和内容中，统计出搜索日志中该查询词的每一个相关词出现的次数N(s_ij)，根据公式：计算当输入查询词q_i时搜索日志中出现候选词s_ij的概率P(s_ij|q_i)；根据公式：计算在含有查询词q_i及其查询扩展词的查询语句中，同时含有另一查询词q_k的概率，获得在查询词q_i与候选词s_ij共现在搜索日志中时所有查询词q_k相乘的概率根据公式计算当输入查询语句Q时，将查询语句Q中的词q_i改写为词s_ij的条件概率。

进行相关词筛选的过程包括：根据搜索日志统计查询词出现的次数N(q_i)，然后在搜索最终页的标题和内容中，统计搜索日志中该查询词的每一个相关词出现的次数N(s_ij)，根据公式：计算在查询出现查询词q_i的情况下，搜索召回中出现相关词s_ij的概率P(s_ij|q_i)，其中，q_i为查询句子分词后的第i个查询词，s_ij为第i个查询词q_i的第j个相关词。根据公式：计算在含有查询词q_i及其查询扩展词s_ij的搜索日志中，同时含有另一查询词q_k的概率。又因为Q＝{q₁,...,q_n}，其中n为查询句子中词的个数，那么获得在含有查询词q_i及其查询扩展词s_ij在搜索日志中共现的情况下，查询句子为Q的概率，即

根据贝叶斯公式：即可算出当输入查询语句Q时，将查询词q_i改写为词s_ij的概率系数。根据阈值过滤掉概率系数小的，保留大于概率系数的查询词作为查询改写词。

在搜索引擎中，当输入搜索关键词时，同时将关键词对应的扩展词相关的索引文档，返回到搜索的召回结果中，并将扩展词的相关性系数，作为召回文档排序的一个指标。

本发明以神经网络(word2vec)输出的近义词作为候选词，再根据用户搜索日志等物理量作为训练语料，用朴素贝叶斯算法计算搜索词和它的候选词在搜索中的共现频率，根据频率系数设定阈值，过滤掉相关性弱的词语，选取相关度强的词语作为查询的扩展词语，将word2vec输出的查询扩展候选词进行评估和筛选以得到精确度更高的查询扩展词，使得对于输入查询词进行查询扩展，从而在保证搜索精确度的同时，扩大了搜索的召回度，有效的解决了搜索无结果或者搜索有效结果少的难题，大大改善用户的搜索体验。

附图说明

图1融合词向量模型和朴素贝叶斯的查询词改写方法流程图。

具体实施方法

下面结合附图对本发明进行进一步说明：

建立word2vec词向量模型后与朴素贝叶斯算法相结合，具体实现步骤如下：

步骤1：根据获取的语料库建立并训练word2vec词向量模型，并计算查询改写的候选词。

采用word2vec中基于Hierarchical Softmax算法的Skip-gram模型，由输入的用户查询词根据模型预测出查询词的上下文相关词，例如，我们对于每一个输入的查询词，可用word2vec求出它的50个相关词。如将查询词的相关词设为50个，这些相关词与输入的查询词的相关度有大有小，有的甚至不相关，进一步使用朴素贝叶斯算法进行相关词筛选。筛选的标准可设定。

word2vec是生成词向量的工具。本文使用基于Hierarchical Softmax算法的Skip-gram模型为例对查询方法作具体说明。Skip-gram模型是在已知当前词w的情况下，对其上下文Context(w)中的词进行预测，建立目标函数为：

条件概率函数p(Context(w)|w)为：

u为上下文中的词，采用Hierarchical Softmax算法，可得：

其中，w为当前词，contest(w)为当前词的上下文，此处的上下文也是词，c为所有词，j为哈弗曼树中层次的第j层，通常设定窗口的宽度为5，那么就要计算该词上文的两个词和下文的两个词，L为对数似然函数，为词w的哈弗曼编码，v(w)为词w的当前词向量，l^w为词w所在哈弗曼树中的层次，为所在路径中第j-1层节点对应的编码。每个词对应一个叶节点，可以通过一条路径找到该词，路径对应唯一一个哈弗曼编码。初始化时将叶节点上的每个词映射为一维向量，即词向量。词向量通过训练进行迭代更新获得更新后的词向量，更新公式为：

其中α为学习率，θ_j为词w在第j层的参数估计。

通过迭代更新词向量，即可训练出词的向量模型。再根据余弦相似度计算出与查询词最相关的50个词，并给出相关系数。

步骤2：根据查询日志，获得某一搜索引擎的用户查询日志，得到用户查询词以及搜索最终页的标题和文本内容，作为相关词筛选的语料数据。

步骤3：根据用户查询日志计算查询改写词库中每个搜索词的候选词在搜索中的共现频率，即候选词与查询词的相关性系数，为相关词筛选做准备。

例如，可利用朴素贝叶斯算法计算共现频率。朴素贝叶斯算法的定义为：对给定待分类项x＝{a₁,a₂,a₃…a_n}求解在此项出现的条件下各个类别y_i出现的概率，哪个P(y_i|x)大，就把此待分类项归属哪个类别。

由于判定各个类别时考虑的是概率的相对大小，P(x)是确定的，进而可以通过式(6)近似计算。

P(y_i|x)∝P(x|y_i)P(y_i) (6)

本发明中，定义查询语句的查询词集合Q＝{q₁,q₂,...,q_k}，其中，第i个查询词q_i的查询扩展候选词为s_ij，它们的对应关系为：

q_i→S_i＝{s_i1,s_i2,...,s_in} (7)

其中q_i为查询词集合中的第i个查询词，S_i为该查询词对应的相关词集合，共n个，这里取n＝50。

由贝叶斯公式可得：

(8)式即可求出，当输入查询Q时，将Q中的词q_i改写为词s_ij的条件概率。

按(6)式可以推出：

P(q_i→s_ij|Q)∝P(q_i→s_ij)P(Q|q_i→s_ij) (9)

假设查询词集合Q中有k个词，则(9)式推出：

其中，P(q_k|q_i→s_ij)表示在查询词q_i与候选词s_ij共现在搜索日志中时含有查询词q_k的概率。

至此可知，P(q_i→s_ij|Q)的大小可以通过的大小来表示。在本方法中，为了使运算简便，我们对其取对数进行运算。

P(q_i→s_ij|Q)的计算过程包括：

(1)计算P(s_ij|q_i)，即当输入搜索词q_i时，搜索日志中出现候选词s_ij的概率。根据用户搜索日志，统计查询词出现的次数N(q_i)，在搜索最终页的标题和内容中，统计出搜索日志中该查询词的每一个相关词出现的次数N(s_ij)，则对其取对数。

(2)计算P(q_k|q_i→s_ij)，即在查询词q_i与候选词s_ij共现在搜索日志中时含有查询词q_k的概率。在含有查询词q_i及其查询扩展词的查询语句中，同时含有另一查询词q_k的概率：

进而可求出：

朴素贝叶斯算法的特征在于，它基于贝叶斯定理，假设向量的所有分量之间是独立的，在本发明中，将用户搜索日志作为该算法中概率计算的基础，在计算候选词与查询词同时出现的概率时使用出现次数之比来表示，使得算法逻辑简单，易于实现。将概率的乘积运算通过取对数转化为计算机更为擅长的加法运算，使得本发明整个算法能够被计算机较为快速准确地运行，从而提高工作效率。

步骤4：设定一个相关度标准阀值，将低于该标准的相关词剔除出查询改写词库，在标准范围内的相关词留下形成最终的查询改写词。根据实验统计分析，最优可在满足80％的搜索词的改写词数大于2个，且相关性较强的原则来设定阈值。

另外，可以延生出一种新的既考虑改写词的语义信息也考虑改写词的上下文环境的查询改写方法。其原理简述如下：

同样，先建立查询词的向量模型。当输入查询语句Q＝{q₁,q₂,...,q_k}时，计算查询语句的向量v(Q)：

v(Q)＝(v(q₁)+v(q₂)+...+v(q_k))/k (13)

同样，按上文所述，根据词向量模型，按余弦相似度计算查询词q_i的改写词候选集S_i＝{s_i1,s_i2,...,s_in}。为了对候选集合中的改写词进行筛选，计算将查询词q_i改写为s_ij，从而新形成的查询语句的查询语句向量v_new(Q)：

v_new(Q_new)＝v(Q)-v(q_i)/k+v(s_ij)/k (14)

计根据公式(15)计算两个句子的余弦相似度：

λ＝cos＜v(Q),v_new(Q_new)＞ (15)

其中λ为相关性系数，假如设定阈值为0.75，当λ≥0.75时，词s_ij则可以作为q_i的改写词，当λ＜0.75时，词s_ij被从候选集合中过滤掉。

以上结合附图对本发明的具体实施方式作了说明，但这些说明不能被理解为限制了本发明的范围，本发明的保护范围由随附的权利要求书限定，任何在本发明权利要求基础上的改动都是本发明的保护范围。

Claims

1.一种融合词向量模型和朴素贝叶斯的查询词改写方法，其特征在于，包括以下步骤：根据用户输入的当前查询词w，以及当前查询词的上下文标记contest(w)，获取语料库建立词向量模型，根据词向量模型计算查询词的相关词，进行相关词筛选构成查询改写候选词库；根据用户查询日志，得到用户查询词以及搜索最终页的标题和文本标识，计算查询改写候选词库中每个候选词与查询词的相关度，根据相关度设定标准阀值，过滤器根据标准阈值过滤掉相关性弱的词，选取相关度强的词作为查询扩展词，搜索引擎根据输入的关键词对应的查询扩展词进一步搜索；

进行相关词筛选包括：根据搜索日志统计查询词出现的次数N(q_i)，在搜索最终页的标题和内容中，统计搜索日志中该查询词的每一个相关词出现的次数N(s_ij)，根据公式：计算当输入查询词q_i时搜索日志中出现候选词s_ij的概率P(s_ij|q_i)；根据公式：计算在含有查询词q_i及其查询扩展词的查询语句中，同时含有另一查询词q_k的概率；根据公式计算当输入查询语句Q时，将查询语句Q中的查询词q_i改写为词s_ij的条件概率。

2.根据权利要求1所述的方法，其特征在于，所述词向量模型为，以对数似然函数L为目标函数，根据当前查询词w，当前词的上下文标记contest(w)，调用公式：确定目标函数对其上下文中的词进行预测，根据公式对查询词w的向量v(w)迭代更新，训练出查询词的更新词向量v‘(w)，再根据余弦相似度计算出查询词的相关词，其中，α为学习率，l^w为查询词w所在哈弗曼树中的层次，θ_j为词w在第j层的参数估计，c为所有词。

3.根据权利要求1所述的方法，其特征在于，所述相关度为在查询词出现时查询改写候选词库中该候选词也出现的概率系数；根据相关度标准阀值，筛选出大于标准阀值的相关词，得到查询扩展词构建新的查询改写候选词库。

4.根据权利要求2所述的方法，其特征在于，确定目标函数进一步包括：每个词对应哈弗曼树中的一个叶节点，将叶节点上的每个词映射为词向量，路径对应唯一一个哈弗曼编码，根据词w的哈弗曼编码词w的当前词向量v(w)，词w所在哈弗曼树中的层次l^w，所在路径中第j-1层节点对应的编码根据公式建立条件概率函数p(Context(w)|w)，u为上下文中的词，j为第j层。