CN106599577A

CN106599577A - 一种结合rbm和特征选择的列表级排序学习方法

Info

Publication number: CN106599577A
Application number: CN201611147495.6A
Authority: CN
Inventors: 唐贤伦; 熊德意; 郭飞; 马艺玮; 蔡军; 刘雨微; 万亚利; 李佳歆
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2016-12-13
Filing date: 2016-12-13
Publication date: 2017-04-26

Abstract

本发明涉及一种结合RBM和特征选择的列表级排序学习方法，包括步骤：修改传统RBM可见层和隐含层的重构方式，将训练集数据输入多层RBM网络进行预训练；用多层RBM预训练所得参数对多层神经网络的参数进行初始化，得到一个训练集上的较优模型；定义基于交叉熵的损失函数并采用梯度下降法进行优化，通过验证集确定最优排序函数，微调神经网络权值；根据排序函数的系数值，选出权值最大的K个特征，组建新的数据集；根据新的数据集重新训练出最优排序函数，并对测试集进行排序，输出评价标准值。本方法具有训练时间短和排序结果评价标准值高的优点。

Description

一种结合RBM和特征选择的列表级排序学习方法

技术领域

本发明涉及一种列表级排序学习方法，尤其涉及一种结合RBM和特征选择的列表级排序学习方法。

背景技术

排序学习(Learning To Rank)是一个信息检索与机器学习相结合的研究领域，广泛地应用于文档检索、协同滤波、过滤垃圾邮件、关键词抽取等众多方面。

根据训练数据的不同，将排序学习分为基于单个样本、基于样本对以及基于列表级的算法。基于单个样本的方法与普通的分类回归方法并无本质不同，没有融入与查询相关的特征。基于样本对的方法认为所有文档对是独立同分布的，这一点与实际不符，且结果不可避免地向拥有文档对较多的查询偏移。因为排序本身是对一系列对象排序列表的预测，所以最佳的学习数据应该是对象的列表而不是对象偶对或者某单个对象。

传统的列表级ListNet算法，使用两层神经网络为学习工具，并使用梯度下降法为优化方法进行求解。由于该方法使用的神经网络结构简单，且随机初始化神经网络的连接权重，所以存在易陷入局部最小和训练时间过长、不能较好逼近排序函数的问题。

当前的排序学习领域，对特征进行分析的研究较少。从信息检索排序函数的构建方式易知，构成排序函数的特征之间并不是完全独立的，如词频(TF)和逆文档频率(IDF)这两个特征本身就是BM25(一种“非二值”的概率模型)特征的组成部分，冗杂的特征造成了排序学习的速度较慢且影响排序的精确度。

发明内容

有鉴于此，本发明的目的在于提供一种结合RBM和特征选择的列表级排序学习方法。

本发明的目的是通过以下技术方案来实现的，一种结合RBM和特征选择的列表级排序学习方法，包括以下步骤：

S101、搜集数据集，将数据集分为训练集、验证集和测试集；设置多层RBM网络的结构，修改RBM神经网络隐含层和可见层的重构的方式，将训练集样本中的每个列表的文档向量以查询列表为单位，分别输入修改后的多层RBM进行预训练；

S102、将传统ListNet算法中两层线性网络替换为多层线性神经网络，用S101中预训练得到的各层RBM网络的连接权值初始化多层线性神经网络的连接权值，得到每个查询列表的初始排序模型，以及每个查询列表的初始排序函数；基于训练集，用归一化衰减累计增益(NDCG)评价每个查询列表所对应的初始排序模型在训练集上的检索质量，并保存NDCG@n值(排序结果中前n个位置文档的评价值)最大的排序模型参数和排序函数；

S103、将整个训练集数据输入S102中得到的排序模型，得到各个查询列表中文档的预测得分值；用Luce模型和前k项(TOP-k)概率模型计算出按照人工标注降序排列的序列概率p(y)和按照模型预测分数降序排列的序列概率p(z)，定义基于交叉熵的损失函数L(y,z)，利用梯度下降法进行迭代优化，微调排序函数的参数，直到损失函数的值不再减小；保存微调过程中验证集的NDCG@n取得最大值时的参数，确定未经特征选择前的最佳排序模型RM₀以及最佳多层线性排序函数RF₀；

S104、将步骤S103所得最佳多层线性排序函数RF₀的特征系数的绝对值看做特征的权重，取前K个权重最大的特征，构建新的训练集、验证集和测试集；基于新的数据集，重复执行步骤S101至S步骤S103，得到特征选择后的最佳排序模型RM₁；

S105、将步骤S104中重新构建新的测试集的数据输入特征选择后的最佳排序模型RM₁，利用已学习参数进行特征测试，对测试集进行排序，同时得到整个测试集的排序评价标准值NDCG@n。

进一步，步骤S101中：设置多层RBM网络的结构为：将数据集中特征向量的维数作为第一层RBM的节点数，设置最后一个RBM的隐含层为输出层，节点数为1。

进一步，步骤S101中：RBM神经网络隐含层和可见层的重构的方式为：用可见层和隐含层激活值代替传统的sigmoid函数的概率生成值，作为各层的输出，即：即：其中，i表示可见层节点，j表示隐含层节点，n_v表示可见层节点数，n_j表示隐含层节点数，v_i是可见层的输出，h_j为隐含层的输出，c_i为可见层的偏置，b_j为隐含层的偏置，w_ij是可见层到隐含层的连接权值，v’_i是重构后的可见层输出，h’_j为重构后的隐含层输出。

进一步，步骤S102中，用各RBM层重构后的可见层到隐含层之间的连接权值用来初始化多层线性神经网络的连接权值，用各RBM的隐含层偏置初始化线性神经网络各隐含层的偏置，最后一层RBM的隐含层的偏置初始化神经网络输出层的偏置值。

由于采用以上技术方案，本发明具有以下优点：

本发明使用RBM模型对每个列表预训练，不仅克服神经网络随机初始化易陷入局部最小和训练时间过长的缺点，还能产生较好的参数初始值以减少再训练微调的次数。使用结合RBM的列表级排序学习算法选出对排序函数影响较大的一些特征，构建新的数据集，不仅可以加快训练速度，而且得出来的排序函数有更高的检索性能。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步的详细描述，其中：

图1为本发明方法的流程图。

具体实施方式

下面将结合附图，对本发明的优选实施例进行详细的描述。

如图1所示，一种结合RBM和特征选择的列表级排序学习方法的具体步骤是：

步骤1：搜集并分析数据集。将每个数据集按照3:1:1的比例划分为训练集、验证集和测试集，训练集用于排序模型的训练和学习，验证集用于决定模型中的一些参数，而测试集用于模型性能的检验。

因为数据集的文档由实值向量所表示，并非传统RBM的二值输入，所以需要对传统RBM模型进行修改后再将数据集输入。先将实值向量输入到可见层v，通过sigmoid函数计算隐含层节点的开启概率，得到

p(h_j＝1|v)＝sigmoid(b_j+v_i×w_ij) (1)

对这个概率做二值化处理，得到隐含层的输出

h_j＝p(h_j＝1|v)＞randn(h_j) (2)

其中，w_ij是可见层到隐含层的连接权值，v_i是可见层各节点的输出，b_j为隐含层各节点的偏置，h_j为隐含层各节点的输出；

然后根据h_j，采用可见层激活值代替传统RBM中的sigmoid函数概率生成值，对可见层的输出进行重构，得到

其中，c_i为可见层各节点的偏置，v_i’是重构后的可见层各节点的输出值；

最后根据v'，同样采用隐含层的激活值来直接对隐含层输出进行重构，得到

其中，h’_j为重构后隐含层各节点的输出值。

将训练集中的每个列表中文档向量分别依次输入修改后的第一个RBM中，进行预训练，将第一个RBM的隐藏层节点输出作为可视向量，继续训练第二个RBM，依次训练多个RBM网络，最后一个RBM的隐含层节点数设为1。

步骤2：根据步骤1中预训练所得参数初始化多层线性神经网络，得到每个查询q^(x)(x表示每个查询的id)所对应的排序学习模型m^(x)的初始参数以及每个查询所对应的初始排序函数f^(x)。选择一种排序学习的评价标准，如归一化衰减累计增益(NDCG)，其中

NDCG＝DCG/max DCG (6)

其中p为文档排序后所在的位置，r(p)为该文档的相关性，maxDCG是理想情况下的排序DCG值。

将训练集中文档按照人工打分和每个查询所对应排序函数得分从降序排序，根据公式(6)可以得到训练集上每个查询所对应模型的NDCG@n值(衡量排序结果中前n个位置文档排列的正确性的评价值)，保存NDCG@n值最高的那个排序模型m的参数和排序函数f。

步骤3：按照步骤2所得排序函数f计算得到每个查询列表文档的得分z^(x)。使用Luce概率模型可以将序列的任意一种排列方式表示成一个概率值，即

其中，S＝{s₁,s₂,...,s_n}为待排序的文档得分集合，n表示待排序的文档总数，l和p表示文档所排列的位置，π为这些对象的一种排列方式，S_π(p)表示序列π在p位置的得分，是一个递增并且严格正的函数。

采用TOP-k概率来近似替代原有整个序列的概率，分别获得两种评分函数y^(x)和z^(x)的序列概率分布和其中

其中，g表示某一种排列方式，k表示前k个文档数，x^(x)(p)和x^(x)(l)表示第x个查询中排在第p个和第l个位置的文档，n(x)表示第x个查询列表中所有的文档数。

应用交叉熵衡量这两个概率分布的相似性，进而构造损失函数L(y^(x),z^(x))，即

其中g(k)表示所有前k项排列方式。

每次迭代利用梯度下降法进行优化，即

其中i表示可见层节点，j表示隐含层节点，K表示迭代次数。

设学习率η＝0.01，微调排序函数的参数，即

ω_ij(K+1)＝ω_ij(K)-η×Δω_ij(K) (12)

直到损失函数的值不再减小。保存微调过程中验证集上的NDCG@n取得最大值时的参数，确定未经特征选择前的最佳模型RM₀以及最佳线性排序函数RF₀。

步骤4：将步骤3所得最佳排序函数RF₀的特征系数的绝对值看做特征的权重，取前K个权重最大的特征，构建新的训练集、验证集和测试集。基于新的数据集，重复执行步骤1至步骤3，得到特征选择后的最佳排序模型RM₁以及排序函数RF₁。

步骤5：将步骤4中重新构建的测试集中文档向量输入特征选择后的最佳排序模型RM₁，利用已学习参数进行特征测试，对测试集进行排序，同时得到整个测试集的排序评价标准值NDCG@n。

最后说明的是，以上优选实施例仅用以说明本发明的技术方案而非限制，尽管通过上述优选实施例已经对本发明进行了详细的描述，但本领域技术人员应当理解，可以在形式上和细节上对其作出各种各样的改变，而不偏离本发明权利要求书所限定的范围。

Claims

1.一种结合RBM和特征选择的列表级排序学习方法，其特征在于：包括以下步骤：

S102、将传统ListNet算法中两层线性网络替换为多层线性神经网络，用S101中预训练得到的各层RBM网络的连接权值初始化多层线性神经网络的连接权值，得到每个查询列表的初始排序模型，以及每个查询列表的初始排序函数；基于训练集，用归一化衰减累计增益评价每个查询列表所对应的初始排序模型在训练集上的检索质量，并保存NDCG@n值最大的排序模型参数和排序函数；

S103、将整个训练集数据输入S102中得到的排序模型，得到各个查询列表中文档的预测得分值；用Luce模型和前k项TOP-k概率模型计算出按照人工标注降序排列的序列概率p(y)和按照模型预测分数降序排列的序列概率p(z)，定义基于交叉熵的损失函数L(y,z)，利用梯度下降法进行迭代优化，微调排序函数的参数，直到损失函数的值不再减小；保存微调过程中验证集的NDCG@n取得最大值时的参数，确定未经特征选择前的最佳排序模型RM₀以及最佳多层线性排序函数RF₀；

2.根据权利要求1所述的一种结合RBM和特征选择的列表级排序学习方法，其特征在于：步骤S101中：设置多层RBM网络的结构为：将数据集中特征向量的维数作为第一层RBM的节点数，设置最后一个RBM的隐含层为输出层，节点数为1。

3.根据权利要求1所述的一种结合RBM和特征选择的列表级排序学习方法，其特征在于：步骤S101中：RBM神经网络隐含层和可见层的重构的方式为：用可见层和隐含层激活值代替传统的sigmoid函数的概率生成值，作为各层的输出，即：其中，i表示可见层节点，j表示隐含层节点，n_v表示可见层节点数，n_j表示隐含层节点数，v_i是可见层的输出，h_j为隐含层的输出，c_i为可见层的偏置，b_j为隐含层的偏置，w_ij是可见层到隐含层的连接权值，v’_i是重构后的可见层输出，h’_j为重构后的隐含层输出。

4.根据权利要求1所述的一种结合RBM和特征选择的列表级排序学习方法，其特征在于：步骤S102中，用各RBM层重构后的可见层到隐含层之间的连接权值用来初始化多层线性神经网络的连接权值，用各RBM的隐含层偏置初始化线性神经网络各隐含层的偏置，最后一层RBM的隐含层的偏置初始化神经网络输出层的偏置值。