CN103984733A

CN103984733A - 一种体现查询差异的直接优化性能指标排序方法

Info

Publication number: CN103984733A
Application number: CN201410213581.7A
Authority: CN
Inventors: 王扬
Original assignee: State Grid Corp of China SGCC; State Grid Tianjin Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Tianjin Electric Power Co Ltd
Priority date: 2014-05-20
Filing date: 2014-05-20
Publication date: 2014-08-13

Abstract

一种体现查询差异的直接优化性能指标排序方法。其包括：步骤1.网页爬取；步骤2.数据预处理及特征提取；步骤3.建立样本级排序模型；步骤4.建立查询级排序模型；步骤5.预测新查询。本发明在排序模型建立过程中考虑查询差异，基于大规模真实数据的实验结果表明，使用本发明提供的体现查询差异的直接优化性能指标排序方法可以取得比传统排序学习模型更好的性能。本发明提供的方法除排序学习之外，还可应用于多类分类、序列标注等问题，在文本分类、信息检索、网络搜索等领域具有广泛的应用前景。

Description

一种体现查询差异的直接优化性能指标排序方法

技术领域

本发明属于网络搜索和机器学习技术领域，特别是涉及一种体现查询差异的直接优化性能指标排序方法。

背景技术

排序学习旨在为目标对象按照某种规律确定一个等级顺序,是目前网络搜索与机器学习领域研究的热点问题；现有排序学习方法可分为三类:基于数据点排序学习方法,基于有序对的排序学习方法和基于列表的排序学习方法。排序学习在信息检索、网页搜索等方面有着广泛的应用前景。

与传统的机器学习任务(如分类任务等)相比,排序学习问题具有自身特性；由于待排序的文档分别是由不同的查询检索得到的,因此只有同一个查询检索到的文档之间才有序关系；在排序学习任务中,不同查询及其对应文档之间,如在数据分布、评价指标和预测未知查询能力等方面,存在显著的差异；现有排序学习方法在建立排序模型过程中,没有考虑查询及其相关文档之间的差异,在一定程度上影响了排序模型的性能；因此,有必要在建立排序模型过程中考虑不同查询及其相关文档之间的差异。

近年来提出的部分排序学习方法在一定程度上考虑了查询之间的差异；与本发明研究紧密相关的包括两大类方法:一是与查询相关的排序学习,二是排序模型融合与查询相关的排序学习方法建立多个排序模型,对于不同的预测查询使用不同的排序模型预测；Geng等基于K近邻方法,提出了与查询相关的排序学习方法。Ni等将排序样本与查询相关的性质抽象为分组学习问题,使用共性模型和特性模型共同预测排序结果。Peng等提出使用JS-散度选择与未知查询最相关的排序模型算法。以上三种与查询相关的排序学习方法虽考虑了排序样本与查询相关的特性,但仍存在以下一些不足:1.与查询相关的排序学习方法将训练集割裂为若干个训练子集；此方法只注意到训练集中样本的区别,没有考虑到样本之间还存在着联系；2.每个与查询相关排序子模型只使用训练集中的部分样本而非所有样本参与训练,导致排序模型性能不佳；3.训练过程中需要建立大量排序模型,模型训练的时间代价过大；排序模型融合主要包括以下几种方法。Qin等提出依照查询-文档对的相关程度标注将整个数据集划分为多个数据子集,而后使用BordaCount算法融合多个子排序模型的结果。Liu等将排序模型融合问题转化为半正定规划问题,使用马尔科夫过程建模并优化。Bian等提出一种基于主题的多排序模型融合方法,使用支持向量机方法建立排序模型；排序模型融合方法虽然在性能上取得比传统使用单一模型决策更好的性能,但是在子模型建立过程中并未特别考虑排序学习中查询之间存在的差异；此外,多数方法使用计算概率、加权融合等方法简单线性合并子模型,并未明确提出一种适用于排序学习问题的融合函数；但是，基于列表的排序学习方法和直接优化评价指标排序学习方法在建模过程中都没有特别考虑查询之间的差异。与查询相关的排序学习方法虽比传统建立单一模型增加考虑了查询特性，但依然存在两个问题：一是特性的选择过程与排序模型的建立相脱离，并没有体现于排序模型损失上；二是训练得到多个模型，不便于最终排序结果的处理。

发明内容

为了解决上述问题，本发明的目的在于提供一种体现查询差异的直接优化性能指标排序方法。

为了达到上述目的，本发明提供的体现查询差异的直接优化性能指标排序方法包括按顺序执行的下列步骤：

步骤1、网页爬取：从互联网中爬取网页，并解析处理，留下文本连接信息，形成网页数据集；

步骤2、数据预处理及特征提取：将步骤1中形成的网页数据集与用户查询进行匹配，建立查询-文档对；所有查询-文档对都被表示成了特征向量的形式，形成特征数据集；

步骤3、建立样本级排序模型：以排序支持向量机为子排序模型，以步骤2中形成的特征数据集中的每一个查询及其相关文档为训练子集，查询-文档对为基本训练数据，建立样本级训练模型，着重于构建新的能反映排序学习问题中的查询差异性和有序性的训练数据；

步骤4、建立查询级排序模型：以步骤3中形成的样本级训练模型的输出作为训练数据，在整个训练数据集上建立查询级训练模型，给出新的损失函数作为优化目标，并利用此损失函数实现样本级模型融合；

步骤5、预测新查询：当有新的查询需要预测时，需要构建与训练数据形式相同的预测数据，使用样本级模型构建特征数据和查询级模型两步预测，得到最终的排序结果。

在步骤2中，所述的数据预处理及特征提取的具体方法是：主要采用四大类共64维特征：第一类是20个基本内容特征，主要反映了查询与网页的各个组成部分之间的匹配情况，包括共现词频tf、文档翻转频率idf、文档长度dl及它们的各种组合形式；第二类是24个高级内容特征，主要包括概率模型BM25和统计语言模型LMIR检索模型，对该查询-文档对的打分，以及这些打分的变型形式；第三类是12个超链接特征，主要包括PageRank、HITS在内的各种链接分析算法对该网页的打分；第四类是8个网络层次特征，这主要反映了网页所在的网络中的一些结构信息。

在步骤3中，所述的建立样本级排序模型的具体方法是：

在多排序模型的融合方法中,首先需要建立子排序模型；每一个子排序模型由一个查询及其相关文档建立；不同子排序模型之间能够体现出查询之间的差异性；

对于每一个查询q_i∈Q,将这个查询与其所有的相关文档组成查询-文档对；每一个查询-文档对<q_i,d_ij>都用一个特征向量描述；

{\overset{r}{x}}_{ij} = {x_{ij}^{1}, x_{ij}^{2}, . . ., x_{ij}^{D}} - - - (1)

其中:D为特征向量的维数；

以查询为单位将整个训练数据集划分为n个数据子集；随后,在每一个训练子集上建立子排序模型；假设排序决策函数f为线性损失函数,

以子模型的输出作为子模型特征的描述,每一个子模型的输出为一维列向量,由融合模型调节每一维的权重。

在步骤4中，所述的建立查询级排序模型的具体方法是：

基于多排序模型融合思想设计融合函数；基于评价指标NDCG,体现查询差异的直接优化性能指标排序方法融合函数设计为:

E ({\overset{r}{w}}^{'}) = \frac{1}{N_{r}} Σ_{n = 1}^{N} Σ_{m = 1}^{M_{n}} \frac{(2^{y_{nm}} - 1)}{\log_{2} (1 + π ({\overset{r}{x}}_{nm}))} - - - (3)

其中:Nr是归一化参数；N是训练集中查询的个数,M_n是训练集中第n个查询包含的候选文档的个数；y_nm是的相关程度标注，符号函数表征的排序位置信息；

定义

π ({\overset{r}{x}}_{nm}) = 1 + Σ_{p = 1}^{M_{n}} I [\begin{matrix} f_{w^{'}} ({\overset{r}{x}}_{nm}) f & f_{w^{'}} ({\overset{r}{x}}_{np}) \end{matrix}] - - - (4)

其中:f表示排序顺序关系，为线性排序函数，的输出是样本的排序分值；

是一个0-1识别函数，当时,输出1；反之则输出0；

将公式(4)、公式(5)和公式(6)带入公式(3),公式(3)改写为:

E ({\overset{r}{w}}^{'}) = \frac{1}{N_{r}} Σ_{n = 1}^{N} Σ_{m = 1}^{M_{n}} \frac{(2^{y_{nm}} - 1)}{\log_{2} (2 + Σ_{p = 1}^{M_{i}} I [\begin{matrix} f_{w^{'}} ({\overset{r}{x}}_{nm}) f & f_{w^{'}} ({\overset{r}{x}}_{np}) \end{matrix}])} - - - (7)

公式(7)即为直接优化排序性能的融合函数。

所述的直接优化排序性能的融合函数的优化求解是使用梯度上升方法：

对于所有的x∈R,指数函数exp(x)均为0-1函数的上界；因此,对于所有的x∈R,I[x>0]≤exp(x)均成立；即,

Σ_{p = 1}^{M_{i}} I [\begin{matrix} f_{w^{'}} ({\overset{r}{x}}_{nm}) f & f_{w^{'}} ({\overset{r}{x}}_{np}) \end{matrix}] \leq Σ_{p = 1}^{M_{n}} \exp (f_{w^{'}} ({\overset{r}{x}}_{nm}) - f_{w^{'}} ({\overset{r}{x}}_{np})) - - - (8)

根据公式(8),得到的上界函数

\hat{π} ({\overset{r}{x}}_{nm}) = 1 + Σ_{p = 1}^{M_{n}} \exp (f_{w^{'}} ({\overset{r}{x}}_{nm}) - f_{w^{'}} ({\overset{r}{x}}_{np})) - - - (9)

将公式(9)代入公式(7)，直接优化排序性能的融合函数改写为:

\hat{E} ({\overset{r}{w}}^{'}) = \frac{1}{N_{r}} Σ_{n = 1}^{N} Σ_{m = 1}^{M_{n}} \frac{(2^{y_{m}} - 1)}{\log_{2} (2 + Σ_{p = 1}^{M_{n}} \exp (f_{w^{'}} ({\overset{r}{x}}_{nm}) - f_{w^{'}} ({\overset{r}{x}}_{np}))} - - - (10)

对比公式(10)和公式(7),公式(10)是直接优化排序性能的融合函数的下界,并且是一个连续可导函数。

本发明在排序模型建立过程中考虑查询差异，基于大规模真实数据的实验结果表明，使用本发明提供的体现查询差异的直接优化性能指标排序方法可以取得比传统排序学习模型更好的性能。本发明提供的方法除排序学习之外,还可应用于多类分类、序列标注等问题，在文本分类、信息检索、网络搜索等领域具有广泛的应用前景。

附图说明

图1为本发明提供的体现查询差异的直接优化性能指标排序方法示意图。

具体实施方式

下面结合附图和具体实施例对本发明提供的体现查询差异的直接优化性能指标排序方法进行详细说明。

如图1所示，本发明提供的体现查询差异的直接优化性能指标排序方法与传统方法不同之处在于：一种基于监督学习的融合多个子模型的方法，在建立排序模型过程中考虑查询差异，称为体现查询差异的直接优化性能指标排序方法，其包括按顺序执行的下列步骤：

步骤1、网页爬取：从互联网中爬取网页，并解析处理，留下文本连接等信息，形成网页数据集；

步骤2、数据预处理及特征提取：将步骤1中形成的网页数据集与用户查询进行匹配，建立查询-文档对；所有查询-文档对都被表示成了特征向量的形式，形成训练数据集；

步骤5、预测新查询：当有新的查询需要预测时，需要构建与训练数据形式相同的预测数据，需要使用样本级模型构建特征数据和查询级模型两步预测，得到最终的排序结果。

在步骤2中，所述的数据预处理及特征提取的具体方法是：主要采用了四大类共64维特征：第一类是20个基本内容特征，主要反映了查询与网页的各个组成部分之间的匹配情况，如共现词频tf、文档翻转频率idf、文档长度dl及它们的各种组合形式。第二类是24个高级内容特征，主要包括概率模型BM25和统计语言模型LMIR等一些经典的检索模型对该查询-文档对的打分，以及这些打分的变型形式。第三类是12个超链接特征，主要包括像PageRank、HITS等各种链接分析算法对该网页的打分。第四类是8个网络层次特征，这主要反映了网页所在的网络中的一些结构信息。

在步骤3中，所述的建立样本级排序模型的具体方法是：

在多排序模型的融合方法中,首先需要建立子排序模型；每一个子排序模型由一个查询及其相关文档建立；不同子排序模型之间可以体现出查询之间的差异性。

对于每一个查询q_i∈Q,将这个查询与其所有的相关文档组成查询-文档对；每一个查询-文档对<q_i,d_ij>都可以用一个特征向量描述。

{\overset{r}{x}}_{ij} = {x_{ij}^{1}, x_{ij}^{2}, . . ., x_{ij}^{D}} - - - (1)

其中:D为特征向量的维数。

在步骤4中，所述的建立查询级排序模型的具体方法是：

基于多排序模型融合思想,本发明设计融合函数；基于评价指标NDCG,体现查询差异的直接优化性能指标排序方法融合函数设计为:

E ({\overset{r}{w}}^{'}) = \frac{1}{N_{r}} Σ_{n = 1}^{N} Σ_{m = 1}^{M_{n}} \frac{(2^{y_{nm}} - 1)}{\log_{2} (1 + π ({\overset{r}{x}}_{nm}))} - - - (3)

其中:Nr是归一化参数；N是训练集中查询的个数,M_n是训练集中第n个查询包含的候选文档的个数；y_nm是的相关程度标注，符号函数表征的排序位置信息。

定义

π ({\overset{r}{x}}_{nm}) = 1 + Σ_{p = 1}^{M_{n}} I [\begin{matrix} f_{w^{'}} ({\overset{r}{x}}_{nm}) f & f_{w^{'}} ({\overset{r}{x}}_{np}) \end{matrix}] - - - (4)

其中:f表示排序顺序关系，为线性排序函数，的输出是样本的排序分值。

是一个0-1识别函数，当时,输出1；反之则输出0。

将公式(4)、公式(5)和公式(6)带入公式(3),公式(3)可以改写为:

E ({\overset{r}{w}}^{'}) = \frac{1}{N_{r}} Σ_{n = 1}^{N} Σ_{m = 1}^{M_{n}} \frac{(2^{y_{nm}} - 1)}{\log_{2} (2 + Σ_{p = 1}^{M_{i}} I [\begin{matrix} f_{w^{'}} ({\overset{r}{x}}_{nm}) f & f_{w^{'}} ({\overset{r}{x}}_{np}) \end{matrix}])} - - - (7)

公式(7)即为直接优化排序性能的融合函数，由于公式(7)是一个不连续的函数,所以很难直接优化公式(7)；一些之前的研究成果,使用logistic函数拟合0-1识别函数本文给出公式(7)的下界,将优化公式(7)的问题转化为优化其下界函数的问题；并且,优化其下界函数的问题是一个连续凸函数最优化问题,使用梯度上升方法可以很方便地优化求解。

Σ_{p = 1}^{M_{i}} I [\begin{matrix} f_{w^{'}} ({\overset{r}{x}}_{nm}) f & f_{w^{'}} ({\overset{r}{x}}_{np}) \end{matrix}] \leq Σ_{p = 1}^{M_{n}} \exp (f_{w^{'}} ({\overset{r}{x}}_{nm}) - f_{w^{'}} ({\overset{r}{x}}_{np})) - - - (8)

根据公式(8),可以得到的上界函数

\hat{π} ({\overset{r}{x}}_{nm}) = 1 + Σ_{p = 1}^{M_{n}} \exp (f_{w^{'}} ({\overset{r}{x}}_{nm}) - f_{w^{'}} ({\overset{r}{x}}_{np})) - - - (9)

将公式(9)代入公式(7)，直接优化排序性能的融合函数改写为:

\hat{E} ({\overset{r}{w}}^{'}) = \frac{1}{N_{r}} Σ_{n = 1}^{N} Σ_{m = 1}^{M_{n}} \frac{(2^{y_{m}} - 1)}{\log_{2} (2 + Σ_{p = 1}^{M_{n}} \exp (f_{w^{'}} ({\overset{r}{x}}_{nm}) - f_{w^{'}} ({\overset{r}{x}}_{np}))} - - - (10)

将本发明提供的方法应用于网页搜索的实验表明，使用本发明提供的体现查询差异的直接优化性能指标排序方法可以取得比传统排序学习模型更好的性能。

Claims

1.一种体现查询差异的直接优化性能指标排序方法，其特征在于：所述的体现查询差异的直接优化性能指标排序方法包括按顺序执行的下列步骤：

2.根据权利要求1所述的体现查询差异的直接优化性能指标排序方法，其特征在于：在步骤2中，所述的数据预处理及特征提取的具体方法是：主要采用四大类共64维特征：第一类是20个基本内容特征，主要反映了查询与网页的各个组成部分之间的匹配情况，包括共现词频tf、文档翻转频率idf、文档长度dl及它们的各种组合形式；第二类是24个高级内容特征，主要包括概率模型BM25和统计语言模型LMIR检索模型，对该查询-文档对的打分，以及这些打分的变型形式；第三类是12个超链接特征，主要包括PageRank、HITS在内的各种链接分析算法对该网页的打分；第四类是8个网络层次特征，这主要反映了网页所在的网络中的一些结构信息。

3.根据权利要求1所述的体现查询差异的直接优化性能指标排序方法，其特征在于：在步骤3中，所述的建立样本级排序模型的具体方法是：

{\overset{r}{x}}_{ij} = {x_{ij}^{1}, x_{ij}^{2}, . . ., x_{ij}^{D}} - - - (1)

其中:D为特征向量的维数；

4.根据权利要求1所述的体现查询差异的直接优化性能指标排序方法，其特征在于：在步骤4中，所述的建立查询级排序模型的具体方法是：

E ({\overset{r}{w}}^{'}) = \frac{1}{N_{r}} Σ_{n = 1}^{N} Σ_{m = 1}^{M_{n}} \frac{(2^{y_{nm}} - 1)}{\log_{2} (1 + π ({\overset{r}{x}}_{nm}))} - - - (3)

定义

π ({\overset{r}{x}}_{nm}) = 1 + Σ_{p = 1}^{M_{n}} I [\begin{matrix} f_{w^{'}} ({\overset{r}{x}}_{nm}) f & f_{w^{'}} ({\overset{r}{x}}_{np}) \end{matrix}] - - - (4)

是一个0-1识别函数，当时,输出1；反之则输出0；

将公式(4)、公式(5)和公式(6)带入公式(3),公式(3)改写为:

E ({\overset{r}{w}}^{'}) = \frac{1}{N_{r}} Σ_{n = 1}^{N} Σ_{m = 1}^{M_{n}} \frac{(2^{y_{nm}} - 1)}{\log_{2} (2 + Σ_{p = 1}^{M_{i}} I [\begin{matrix} f_{w^{'}} ({\overset{r}{x}}_{nm}) f & f_{w^{'}} ({\overset{r}{x}}_{np}) \end{matrix}])} - - - (7)

公式(7)即为直接优化排序性能的融合函数。

5.根据权利要求4所述的体现查询差异的直接优化性能指标排序方法，其特征在于：所述的直接优化排序性能的融合函数的优化求解是使用梯度上升方法：

Σ_{p = 1}^{M_{i}} I [\begin{matrix} f_{w^{'}} ({\overset{r}{x}}_{nm}) f & f_{w^{'}} ({\overset{r}{x}}_{np}) \end{matrix}] \leq Σ_{p = 1}^{M_{n}} \exp (f_{w^{'}} ({\overset{r}{x}}_{nm}) - f_{w^{'}} ({\overset{r}{x}}_{np})) - - - (8)

根据公式(8),得到的上界函数

\hat{π} ({\overset{r}{x}}_{nm}) = 1 + Σ_{p = 1}^{M_{n}} \exp (f_{w^{'}} ({\overset{r}{x}}_{nm}) - f_{w^{'}} ({\overset{r}{x}}_{np})) - - - (9)

将公式(9)代入公式(7)，直接优化排序性能的融合函数改写为:

\hat{E} ({\overset{r}{w}}^{'}) = \frac{1}{N_{r}} Σ_{n = 1}^{N} Σ_{m = 1}^{M_{n}} \frac{(2^{y_{m}} - 1)}{\log_{2} (2 + Σ_{p = 1}^{M_{n}} \exp (f_{w^{'}} ({\overset{r}{x}}_{nm}) - f_{w^{'}} ({\overset{r}{x}}_{np})))} - - - (10)