CN110222737A

CN110222737A - 一种基于长短时记忆网络的搜索引擎用户满意度评估方法

Info

Publication number: CN110222737A
Application number: CN201910424722.2A
Authority: CN
Inventors: 陈岭; 范阿琳
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-05-21
Filing date: 2019-05-21
Publication date: 2019-09-10

Abstract

本发明公开了一种基于长短时记忆网络的搜索引擎用户满意度评估方法，包括：首先，搜索引擎日志中提取搜索行为序列，使用基于时间间隔微扰的数据增强策略对搜索行为序列进行数据增强，并引入虚拟停留行为来表示连续行为之间的时间间隔；其次，利用长短时记忆网络学习搜索行为序列的特征表示，并建立搜索引擎用户满意度分类器；最后，利用构建的用户满意度分类器识别给定样本的用户满意度标签。该方法通过端对端学习搜索行为序列的特征表示来更有效的评估搜索引擎用户满意度。

Description

一种基于长短时记忆网络的搜索引擎用户满意度评估方法

技术领域

本发明涉及互联网信息技术领域，尤其涉及一种基于长短时记忆网络的搜索引擎用户满意度评估方法。

背景技术

搜索引擎是用户从互联网海量数据中获取所需资源信息的主要途径之一。随着用户对于高效便捷获取信息资源的要求越来越高，搜索引擎需要不断地进行系统优化从而为用户提供更优质的搜索服务。因此，如何有效评估搜索引擎的质量成为了研究界与产业界关注的焦点。

搜索引擎日志记录了用户与搜索引擎交互过程中发生的一系列行为信息，并且搜索满意度与用户的搜索行为有很强的关联。因此，研究人员通常利用从搜索引擎日志中提取的搜索行为序列来评估用户的搜索满意度，通过对搜索行为序列建模能够捕获用户在满意的搜索体验和不满意的搜索体验中潜在的搜索行为模式。

传统的搜索满意度评估方法通常使用从搜索行为序列中提取的特征来描述用户行为，并用传统的机器学习方法来评估搜索满意度。然而与用户搜索满意度有关的信息可能隐含在序列中，此类方法可能会丢失这些信息。随着深度学习方法的发展，长短时记忆网络凭借其强大的表征能力在序列建模问题上有非常突出的表现。通过端对端的学习搜索行为序列的特征表示，基于长短时记忆网络的搜索满意度评估方法能够更有效的评估搜索引擎用户满意度。由于长短时记忆网络通常只考虑序列中行为之间的顺序关系，而不考虑连续行为之间的时间间隔，因此，直接将搜索行为序列作为长短时记忆网络的输入数据将会丢失序列中连续行为之间的时间间隔信息。

此外，与非深度学习方法相比，深度学习方法需要更多的有标注数据，由于有标注数据的收集过程昂贵且耗时，有可能使训练出的模型因训练数据数量不足而导致过拟合。

发明内容

本发明要解决的问题是如何在少量有标注数据的情况下利用长短时记忆网络学习不等长时间间隔搜索行为序列的特征表示，以用于评估搜索引擎用户满意度。

为解决上述技术问题，本发明提供的技术方案为：

一种基于长短时记忆网络的搜索引擎用户满意度评估方法，包括以下步骤：

训练数据集构建：从搜索引擎日志中提取搜索行为序列，并采用使用基于时间间隔微扰的数据增强策略对搜索行为序列进行数据增强后，再引入虚拟停留行为，构建新搜索行为序列，将新搜索行为序列转化为向量，并与对应的满意度标签作为一个训练样本，以构建训练数据集；

分类器构建：以长短时记忆网络层、全连接层组成的网络作为用于满意度分类的分类器，利用训练数据集对网络进行训练，训练结束后获得训练好的分类器；

搜索引擎用户满意度识别：将待识别的搜索行为序列按照训练集构建步骤转化为向量，并将该向量输入至训练好的分类器中，经计算输出满意度分类结果。

本发明利用长短时记忆网络来学习搜索行为序列的特征表示，以用于评估搜索引擎用户满意度，通过引入虚拟停留行为把连续行为之间的时间间隔信息嵌入到搜索行为序列的特征表示中，并给出一种基于时间间隔微扰的数据增强策略来缓解模型的过拟合问题。本发明的优点包括：

(1)给出一种基于长短时记忆网络的搜索引擎用户满意度评估方法，通过端对端学习搜索行为序列的特征表示来更有效的评估搜索引擎用户满意度。

(2)引入虚拟停留行为把连续行为之间的时间间隔信息嵌入到搜索行为序列的特征表示中，从而有效利用连续行为之间的时间间隔信息。

(3)给出一种基于时间间隔微扰的数据增强策略，从而增加搜索行为序列数据的模式变化，提高长短时记忆网络的泛化能力。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1是实施例提供的基于长短时记忆网络的搜索引擎用户满意度评估方法流程图；

图2是实施例提供的训练数据集构建阶段流程图；

图3是实施例提供的分类器构建阶段流程图；

图4是实施例提供的搜索引擎用户满意度识别阶段流程图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

如图1所示，本实施例提供的基于长短时记忆网络的搜索引擎用户满意度评估方法分为训练数据集构建、分类器构建和搜索引擎用户满意度识别三个阶段。

训练数据集构建阶段

训练数据集构建阶段主要是从搜索引擎日志提取信息，并基于提取的信息构建训练数据集，如图2所示，具体包括以下步骤：

步骤1-1，将搜索引擎日志以信息需求为单位进行划分，并从信息需求所对应的搜索引擎日志中提取出由n个搜索行为a以及连续搜索行为之间的时间间隔t组成搜索行为序列S，其形式化表示为S＝＜a₁,t₁,a₂,t₂,...,a_n-1,t_n-1,a_n＞。

具体的，用户的搜索行为a包括以下四种类型：

1)提交查询词；

2)点击返回的搜索引擎结果页面上的某个结果；

3)点击当前结果页面(非搜索引擎结果页面)的超链接；

4)结束搜索。

步骤1-2，使用基于时间间隔微扰的数据增强策略对搜索行为序列进行数据增强。

具体地，通过随机生成的扰动因子t_flu轻微扰动搜索行为序列中连续行为之间的时间间隔，从而生成新的搜索行为序列。

数据增强是一种基于标签保护转换人为扩大数据集的策略，是一种减少过拟合的重要途径。给定搜索行为序列S＝＜a₁,t₁,a₂,t₂,...,a_n-1,t_n-1,a_n＞，利用随机生成的扰动因子t_flu∈(0,1)轻微扰动搜索行为序列S中连续搜索行为之间的时间间隔t，可生成新搜索行为序列S′＝＜a₁,(1±t_flu)t₁,a₂,(1±t_flu)t₂,...,a_n-1,(1±t_flu)t_n-1,a_n＞，其中±表示随机加减，且S与S′的标签相同。

应用时，针对提取出的每个搜索行为序列，重复执行m次步骤1-2，以实现对搜索行为序列的扩充。

步骤1-3，根据连续搜索行为之间的时间间隔引入相应数量固定时间间隔t_idle的虚拟停留行为，引入虚拟停留行为的搜索行为序列形式化表示为S″＝＜a₁,a₂,...,a_k-1,a_k＞，其中k≥n。

在此步骤中，虚拟停留行为表示用户在执行当前搜索行为后停留了一个固定的时长t_idle。给定一个包含n个搜索行为的搜索行为序列，用来表示两个连续搜索行为之间时间间隔的虚拟停留行为数量N_idle为：

其中t_i表示搜索行为a_i和搜索行为a_i+1之间的时间间隔。

步骤1-4，使用截断或填充的方式将所有搜索行为序列的长度统一为L。

为了使长短时记忆网络能够处理变长的搜索行为序列，需要预先指定一个统一的序列长度L。如果一个搜索行为序列的长度大于L，则截断其长度超出L的部分；如果一个搜索行为序列的长度小于L，则在该序列的首端用占位符0来填充直至其长度等于L。

步骤1-5，采用word2vec学习所有搜索行为序列中出现过的所有行为类型的向量表示，将每个搜索行为序列中的搜索行为a都转换成对应的向量r，再将每个向量化后的搜索行为序列及其对应的满意度标签作为一个训练样本来构建训练数据集。

一个训练样本可以表示为(x,y)，其中y∈{0,1}表示用户满意度的标签，0表示不满意的类，1表示满意的类；x＝[r₁,r₂,...,r_l,...,r_L]，l∈{1,2,...,L}，r_l是K维行向量。

word2vec是google提出的词向量计算框架，把所有搜索行为序列看作训练文本，搜索行为序列中的行为看作词，可使用word2vec学习出搜索行为序列中出现过的所有行为类型的向量表示，即，每个行为类型都由一个K维行向量来表示，K根据经验人为设定。

分类器构建阶段

如图3所示，分类器构建的具体步骤包括：

步骤2-1，训练分类器前，将训练数据集按照固定的批量大小进行分批，批次总数为N。

在此步骤中，批量大小M根据经验人为设定，批次总数N计算公式如下：

其中N_all为训练数据集中样本总数。

步骤2-2，从训练数据集中顺序选取索引为index的一批训练样本，其中index∈{0,1,...,N}。对于该批次中的每一个训练样本，重复执行步骤2-3。

步骤2-3，利用长短时记忆网络层、全连接层和sigmoid激活函数构成的用户满意度分类器来获取用户满意度的分类结果。

在此步骤中，用户满意度分类器由一层长短时记忆网络层和一层使用sigmoid函数作为激活函数的全连接层组成。长短时记忆网络是一种循环神经网络，其更新公式如下：

i_t＝σ_i(x_tW_xi+h_t-1W_hi+w_ci·c_t-1+b_i) (3)

f_t＝σ_f(x_tW_xf+h_t-1W_hf+w_cf·c_t-1+b_f) (4)

c_t＝f_t·c_t-1+i_t·σ_c(x_tW_xc+h_t-1W_hc+b_c) (5)

o_t＝σ_o(x_tW_xo+h_t-1W_ho+w_co·c_t+b_o) (6)

h_t＝o_t·σ_h(c_t) (7)

其中i_t、f_t、o_t分别表示第t个对象的输入门、遗忘门、输出；c_t表示细胞激活向量；x_t和h_t分别表示输入特征向量和隐藏输出向量；σ_i、σ_f、σ_o是sigmoid函数；σ_c和σ_h是双曲正切函数；W_xi、W_xf、W_xo、W_hi、W_hf、W_ho权重参数将不同的输入和门与不同的记忆细胞和输出相连接；b_i、b_f、b_o是相应的偏差；c_t的更新公式有两部分：一部分是由f_t控制的前一个细胞状态c_t-1，另一部分是从i_t与非线性σ_c的输出的点乘·创建出的新的输入状态；可选的窥视孔连接权重w_ci、w_cf、w_co会对输入门、遗忘门、输出门产生进一步的影响。使用sigmoid函数作为激活函数的全连接层可以得到用户满意度标签的概率分布。满意的类概率y′的计算公式如下：

其中e表示以自然对数为底的指数函数，α是前一层输出的向量，w是权重向量。

步骤2-4，对于该批次所有训练样本，根据上述用户满意度分类结果来计算对应的分类损失，并根据最小化分类损失的目标来调整网络参数。

在此步骤中，训练网络时，以网络的输出的预测满意度与训练样本的满意度标签的交叉熵(Cross Entropy)作为分类损失函数。

步骤2-5，重复步骤2-2～2-4直至训练数据集的所有批次都参与训练。

步骤2-6，若达到指定的训练轮数(epoch)则训练结束，否则返回步骤2-2。

搜索引擎用户满意度识别阶段

如图4所示，搜索引擎用户满意度识别的具体步骤包括：

步骤3-1，从用户提供的需要识别搜索满意度的样本中提取出由n个搜索行为a以及连续搜索行为之间的时间间隔t组成的搜索行为序列其形式化表示为对于提取出的搜索行为序列重复执行m次步骤3-2，可得搜索行为序列集

步骤3-2，使用基于时间间隔微扰的数据增强策略对搜索行为序列进行数据增强。

此步骤的具体实施方式同训练集构建阶段步骤1-2。

步骤3-3，对中的每个搜索行为序列，根据连续行为之间的时间间隔引入相应数量固定时间间隔t_idle的虚拟停留行为，一个引入虚拟停留行为的搜索行为序列形式化表示为

此步骤的具体实施方式同训练集构建阶段步骤1-3。

步骤3-4，使用截断或填充的方式将中所有搜索行为序列的长度统一为L。

此步骤的具体实施方式同训练集构建阶段步骤1-4。

步骤3-5，读取在训练数据集构建阶段得到的通过word2vec学习到的所有行为类型的向量表示，将中每个搜索行为序列中的搜索行为a都转换成对应的向量r，一个需要识别搜索满意度的搜索行为序列可以表示为r_l是K维行向量。

步骤3-6，通过构建的用户满意度分类器获取中所有搜索行为序列的类概率，得到对应的类概率集

步骤3-7，利用中所有的类概率计算样本的最终分类结果y^T。

在此步骤中，通过对类概率求平均值的方式来组合中的类概率。样本的最终分类结果y^T的计算公式如下：

如果y^T＝0表示样本的最终分类结果为不满意，如果y^T＝1则表示样本的最终分类结果为满意。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于长短时记忆网络的搜索引擎用户满意度评估方法，包括以下步骤：

2.如权利要求1所述的基于长短时记忆网络的搜索引擎用户满意度评估方法，其特征在于，从搜索引擎日志中提取搜索行为序列包括：

将搜索引擎日志以信息需求为单位进行划分，并从信息需求所对应的搜索引擎日志中提取出由n个搜索行为a以及连续搜索行为之间的时间间隔t组成搜索行为序列S，其形式化表示为S＝＜a₁,t₁,a₂,t₂,...,a_n-1,t_n-1,a_n＞。

3.如权利要求2所述的基于长短时记忆网络的搜索引擎用户满意度评估方法，其特征在于，采用使用基于时间间隔微扰的数据增强策略对搜索行为序列进行数据增强包括：

给定搜索行为序列S＝＜a₁,t₁,a₂,t₂,...,a_n-1,t_n-1,a_n＞，利用随机生成的扰动因子t_flu∈(0,1)轻微扰动搜索行为序列S中连续搜索行为之间的时间间隔t，可生成搜索行为序列S′＝＜a₁,(1±t_flu)t₁,a₂,(1±t_flu)t₂,...,a_n-1,(1±t_flu)t_n-1,a_n＞，其中±表示随机加减，且S与S′的标签相同。

4.如权利要求3所述的基于长短时记忆网络的搜索引擎用户满意度评估方法，其特征在于，引入虚拟停留行为，构建新搜索行为序列包括：

虚拟停留行为表示用户在执行当前搜索行为后停留了一个固定的时长t_idle；

给定一个包含n个搜索行为的搜索行为序列，用来表示两个连续搜索行为之间时间间隔的虚拟停留行为数量N_idle为：

其中t_i表示搜索行为a_i和搜索行为a_i+1之间的时间间隔；

则引入虚拟停留行为的搜索行为序列形式化表示为S″＝＜a₁,a₂,...,a_k-1,a_k＞，其中k≥n。

5.如权利要求1所述的基于长短时记忆网络的搜索引擎用户满意度评估方法，其特征在于，将新搜索行为序列转化为向量包含：

截断或填充的方式将所有搜索行为序列的长度统一为L；

采用word2vec学习所有搜索行为序列中出现过的所有行为类型的向量表示，将每个搜索行为序列中的搜索行为a都转换成对应的向量r。

6.如权利要求1所述的基于长短时记忆网络的搜索引擎用户满意度评估方法，其特征在于，训练网络时，以网络的输出的预测满意度与训练样本的满意度标签的交叉熵作为分类损失函数。