CN101719152A

CN101719152A - 搜索特定专家的装置和方法

Info

Publication number: CN101719152A
Application number: CN200910241895A
Authority: CN
Inventors: 唐杰; 杨子; 王波
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2009-12-14
Filing date: 2009-12-14
Publication date: 2010-06-02
Anticipated expiration: 2029-12-14
Also published as: CN101719152B

Abstract

本发明一种特定专家的搜索装置和方法，针对现有通用专家搜索无法找到特定专家的问题而发明。本发明的装置包括：参数收集模块、通用专家搜索模块、特定专家搜索模块、特定专家搜索训练模块。本发明的方法包括：从万维网中搜索专家的学术数据并存储；利用排序支持向量机建立通用专家搜索模型；计算通用专家搜索和特定专家搜索的公共特征；根据公共特征以及给定的特征及训练数据对特定专家搜索进行训练。本发明主要应用于专家搜索领域，能够根据通用专家搜索和特定专家搜索之间的联系——公共特征隐空间，并利用公共特征隐空间学习得到特定专家搜索的排序函数。

Description

搜索特定专家的装置和方法

技术领域

本发明涉及网络搜索技术领域，尤其涉及一种针对特定专家的搜索装置和方法。

背景技术

计算机和网络的普及，极大的改变了人们获取资讯的方式。但是如何从浩如烟海的万维网资讯中快速获得使用者所需的资料成为重要的研究课题。

在万维网中，对于人的搜索引起了广泛的关注。其中最为重要的问题就是专家搜索。专家搜索是指通过搜索，希望找到在特定领域中权威的学者。在过去的研究中，语言模型、话题模型、随机游走模型等被相继提出。但是已有的大部分研究主要是关注于通用的专家搜索任务，而没有深入研究过不同目的下的专家搜索问题。例如，一个正在申请研究生学校的本科生希望找到能够给出权威建议的专家作为他的导师。

通用的专家搜索方法对于不同目的下特定的专家搜索并不适合。因此希望在现有系统的基础上能够细化不同目的的专家搜索，使得不同需求的用户有更好的查询体验。

发明内容

针对现有技术中存在的缺陷和不足，本发明的目的是提供一种特定专家的搜索装置和方法，能够针对特定专家进行细化搜索。

为达到上述目的，本发明提出了一种针对特定专家的搜索装置，其特征在于，包括：

参数收集模块，所述参数收集模块从万维网中收集专家的学术数据，并存储收集到的数据；

通用专家搜索模块，所述通用专家搜索模块为排序支持向量机；

特定专家搜索模块，所述特定专家搜索模块对于特定专家搜索进行特征提取，计算所述通用专家搜索模块和所述特定专家搜索模块的公共特征隐空间，并利用公共特征以及提取的特征及训练数据对所述特定专家搜索模块进行训练。

其中，所述通用专家搜索模块包括：

训练数据模块，所述训练数据模块给定有标注的通用专家搜索训练数据集

L = {(x_{i}, y_{i})}_{i = 1}^{l},

其中x_i表示训练数据实例，而y_i表示对应的等级标号l表示标注数据实例总数和未标注数据集

S = {x_{i}^{'}}_{i = 1}^{u},

其中x′_i表示训练数据实例，u表示未标注数据实例总数；

训练实例模块，所述训练实例模块对于通用专家搜索每个查询关键词中两个不同排序等级(y_i ^a，y_i ^b)的实例(x_i ^a，x_i ^b)，创建一个实例(x_i ^a-x_i ^b，z_i)，其中z_i的取值为：如果

y_{i}^{a} > y_{i}^{b}

那么z_i＝+1，否则z_i＝-1；

学习模块，所述学习模块根据训练实例模块获得的新的训练集

L^{'} = {(x_{i}^{a} - x_{i}^{b}, z_{i})}_{i = 1}^{n},

通过优化学习得到：

\arg \min_{w^{*}} \frac{1}{2} {| | w | |}^{2} + C Σ_{i = 1}^{n} ξ_{i}

s.t.

z_{i} < w, x_{i}^{a} - x_{i}^{b} > &GreaterEqual; 1 - ξ_{i}

ξ_i≥0，i＝1，…，n；

其中w表示线性排序函数的特征权重向量，ξ_i表示松弛变量，z_i表示实例对(x_i ^a，x_i ^b)对应的等级标号，C表示平衡正则化因子和松弛因子的常数；

排序模块，所述排序模块对所述学习模块利用SVM算法求解，得到通用专家搜索的排序函数f＝<w^*，x′>。

其中，所述特定专家搜索模块包括：

L = {(x_{i}, y_{i})}_{i = 1}^{l},

其中x_i表示训练数据实例，而y_i表示对应的等级标号和未标注数据集

S = {x_{i}^{'}}_{i = 1}^{u},

其中x′_i表示训练数据实例；

y_{i}^{a} > y_{i}^{b}

那么z_i＝+1，否则z_i＝-1；

公共隐空间计算及排序函数训练模块，所述公共隐空间计算模块计算通用专家搜索和特定专家搜索的公共特征隐空间U：

\min_{W, U} \underset{t &Element; {S, T}}{Σ} Σ_{i = 1}^{n_{t}} C_{t} {[1 - z_{t_{i}} < w_{t}, U^{T} (x_{t_{i}}^{a} - x_{t_{i}}^{b}) >]}_{+} + λ {| | W | |}_{2,1}^{2}

s.t.U^TU＝I

其中W表示通用专家搜索和特定专家搜索任务对应的排序函数的权向量的组合，其中对应于通用专家搜索特征集S和特定专家搜索T特征的元素为w_t，

表示实例对对应的等级标号，而上标“+”表示伪逆，||W||_2，1 ²是正则化因子，保证了在两个任务之间学到公用的隐空间；C_S和C_T分别是两个任务的代价敏感因子，且C_T/C_S为常数；λ为平衡经验损失和正则化因子；U表示公共特征隐空间的映射矩阵，正交归一约束使得投影矩阵U唯一；

上式中的公共特征隐空间U等价表述为

\min_{M, D} \underset{t &Element; {S, T}}{Σ} [Σ_{i = 1}^{n_{t}} C_{t} {[1 - z_{t_{i}} < α_{t}, x_{t_{i}}^{a} - x_{t_{i}}^{b} >]}_{+} + λ < α_{t}, D^{+} α_{t} >]

s.t.D＞＝0，trace(D)≤1，

range (M) &SubsetEqual; range (D)

其中M＝[α_S，α_T]＝UW，

D = UDiag (\frac{{| | w^{i} | |}_{2}}{{| | W | |}_{2,1}}) U^{T},

U表示公共特征隐空间的映射矩阵，W表示在各自特征空间上通用专家搜索和特定专家搜索任务对应的排序函数的权向量的组合，进而M表示在公共特征隐空间上通用专家搜索和特定专家搜索任务对应的排序函数的权向量的组合，分别用α_S和α_T表示其中对应于通用专家搜索特征集S和特定专家搜索T排序函数的权向量，其中的每一特征对应为α_t，

表示实例对

对应的等级标号，C_S和C_T分别是两个任务的代价敏感因子，且C_T/C_S为常数；λ为平衡经验损失和正则化因子，而上标“+”表示伪逆；对于p×q矩阵X，range(X)＝{x|Xz＝x，for some z∈R^q}；

排序模块，所述排序模块利用公共隐空间计算和排序函数训练模块中得到的在公共特征隐空间上特定专家搜索排序权向量α_T，得到通用专家搜索的排序函数f＝<α_T，x>。

一种特定专家的搜索方法，包括：

步骤1、从万维网中搜索专家的学术数据并存储；

步骤2、利用排序支持向量机建立通用专家搜索模型；

步骤3、对于特定专家搜索进行特征提取，计算通用专家搜索和特定专家搜索的公共特征；根据公共特征以及提取的特征及训练数据对特定专家搜索进行训练。

其中，所述步骤2具体为：

步骤21、建立给定有标注的专家搜索训练数据集

L = {(x_{i}, y_{i})}_{i = 1}^{l},

S = {x_{i}^{'}}_{i = 1}^{u},

其中x′_i表示训练数据实例；

步骤22、排序支持向量机对于专家搜索每个查询关键词中两个不同排序等级(y_i ^a，y_i ^b)的实例(x_i ^a，x_i ^b)，创建一个实例(x_i ^a-x_i ^b，z_i)，其中z_i的取值为：如果

y_{i}^{a} > y_{i}^{b}

那么z_i＝+1，否则z_i＝-1；

步骤23、排序支持向量机模型可以从新的训练集

L^{'} = {(x_{i}^{a} - x_{i}^{b}, z_{i})}_{i = 1}^{n}

中通过优化学习得到：

\arg \min_{w^{*}} \frac{1}{2} {| | w | |}^{2} + C Σ_{i = 1}^{n} ξ_{i}

s.t.

z_{i} < w, x_{i}^{a} - x_{i}^{b} > &GreaterEqual; 1 - ξ_{i}

ξ_i≥0，i＝1，…，n；

步骤24、对步骤23利用SVM算法求解，得到通用专家搜索的排序函数f＝<w^*，x′>。

其中，所述步骤3具体为：

步骤31、建立给定有标注的专家搜索训练数据集

L = {(x_{i}, y_{i})}_{i = 1}^{l},

S = {x_{i}^{'}}_{i = 1}^{u},

其中x′_i表示训练数据实例；

步骤32、排序支持向量机对于专家搜索每个查询关键词中两个不同排序等级(y_i ^a，y_i ^b)的实例(x_i ^a，x_i ^b)，创建一个实例(x_i ^a-x_i ^b，z_i)，其中z_i的取值为：如果

y_{i}^{a} > y_{i}^{b}

那么z_i＝+1，否则z_i＝-1；

步骤33、计算通用专家搜索和特定专家搜索的公共特征隐空间U：

\min_{W, U} \underset{t &Element; {S, T}}{Σ} Σ_{i = 1}^{n_{t}} C_{t} {[1 - z_{t_{i}} < w_{t}, U^{T} (x_{t_{i}}^{a} - x_{t_{i}}^{b}) >]}_{+} + λ {| | W | |}_{2,1}^{2}

s.t.U^TU＝I

其中W表示通用专家搜索和特定专家搜索任务对应的排序函数的权向量的组合，其中对应于通用专家搜索特征集S和特定专家搜索T特征的元素为w_t，表示实例对

对应的等级标号，而上标“+”表示伪逆，||W||_2，1 ²是正则化因子，保证了在两个的任务之间学到公用的隐空间；C_S和C_T分别是两个任务的代价敏感因子，且C_T/C_S为常数；λ为平衡经验损失和正则化因子；U表示公共特征隐空间的映射矩阵，正交归一约束使得投影矩阵U唯一；

上式中的公共特征隐空间U等价表述为

\min_{M, D} \underset{t &Element; {S, T}}{Σ} [Σ_{i = 1}^{n_{t}} C_{t} {[1 - z_{t_{i}} < α_{t}, x_{t_{i}}^{a} - x_{t_{i}}^{b} >]}_{+} + λ < α_{t}, D^{+} α_{t} >]

s.t.D＞＝0，trace(D)≤1，

range (M) &SubsetEqual; range (D)

其中M＝[α_S，α_T]＝UW，

D = UDiag (\frac{{| | w^{i} | |}_{2}}{{| | W | |}_{2,1}}) U^{T},

表示实例对

对应的等级标号，C_S和C_T分别是两个任务的代价敏感因子，且C_T/C_S为常数；λ为平衡经验损失和正则化因子，而上标“+”表示伪逆，对于p×q矩阵X，range(X)＝{x|Xz＝x，for some z∈R^q}；

步骤34、根据获得的公共特征，以及给定的特征及训练数据对特定专家搜索进行训练。

上述技术方案具有如下优点：本发明通过排序支持向量机对通用专家搜索和特定专家搜索建模，并计算通用专家搜索和特定专家搜索的公共特征隐空间，从而利用公共特征隐空间，对并且其中所有的序关系予以保持。这样使得本发明能够通过公共特征隐空间，对特定专家搜索进行训练。

附图说明

图1为本发明提出的针对特定专家的搜索的流程图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

实施例1

本发明提出的特定专家的搜索装置，其优选实施例包括：

参数收集模块，所述参数收集模块从万维网中收集专家的学术数据，并将收集到的数据存储；

其中，所述通用专家搜索模块包括：

L = {(x_{i}, y_{i})}_{i = 1}^{l},

其中x_i表示训练数据实例，而y_i表示对应的等级标号，l表示标注数据实例总数和未标注数据集

S = {x_{i}^{'}}_{i = 1}^{u},

其中x′_i表示训练数据实例，u表示未标注数据实例总数；

y_{i}^{a} > y_{i}^{b}

那么z_i＝+1，否则z_i＝-1；

L^{'} = {(x_{i}^{a} - x_{i}^{b}, z_{i})}_{i = 1}^{n},

通过优化学习得到：

\arg \min_{w^{*}} \frac{1}{2} {| | w | |}^{2} + C Σ_{i = 1}^{n} ξ_{i}

s.t.

z_{i} < w, x_{i}^{a} - x_{i}^{b} > &GreaterEqual; 1 - ξ_{i}

ξ_i≥0，i＝1，…，n；

其中w表示线性排序函数的特征权重向量，ξ_i表示松弛变量，z_i表示实例对(x_i ^a，x_i ^b)对应的等级标号，C表示平衡正则化因子和松弛因子的常数。

其中，所述特定专家搜索训练模块包括：

L = {(x_{i}, y_{i})}_{i = 1}^{l},

S = {x_{i}^{'}}_{i = 1}^{u},

其中x′_i表示训练数据实例；

y_{i}^{a} > y_{i}^{b}

那么z_i＝+1，否则z_i＝-1；

\min_{W, U} \underset{t &Element; {S, T}}{Σ} Σ_{i = 1}^{n_{t}} C_{t} {[1 - z_{t_{i}} < w_{t}, U^{T} (x_{t_{i}}^{a} - x_{t_{i}}^{b}) >]}_{+} + λ {| | W | |}_{2,1}^{2}

s.t.U^TU＝I

对应的等级标号，而上标“+”表示伪逆。||W||_2，1 ²是正则化因子，保证了在两个任务之间学到公用的隐空间；C_S和C_T分别是两个任务的代价敏感因子，且C_T/C_S为常数；λ为平衡经验损失和正则化因子；U表示公共特征隐空间的映射矩阵，正交归一约束使得投影矩阵U唯一；

上式中的公共特征隐空间U等价表述为

\min_{M, D} \underset{t &Element; {S, T}}{Σ} [Σ_{i = 1}^{n_{t}} C_{t} {[1 - z_{t_{i}} < α_{t}, x_{t_{i}}^{a} - x_{t_{i}}^{b} >]}_{+} + λ < α_{t}, D^{+} α_{t} >]

s.t.D＞＝0，trace(D)≤1，

range (M) &SubsetEqual; range (D)

其中M＝[α_S，α_T]＝UW，

D = UDiag (\frac{{| | w^{i} | |}_{2}}{{| | W | |}_{2,1}}) U^{T},

表示实例对

对于特定专家搜索训练模块中，给定的特征及训练数据将在下面的实施例2中进行解释。

实施例2

本发明提出的特定专家搜索方法，其优选实施例包括：

步骤1、数据准备

为了搜索和进一步挖掘学术网络，该方法首先需要从万维网中搜集专家的学术数据。有些数据可以从结构化的数据源，例如DBLP(http://dblp.uni-trier.de/)得到论文信息，而其它的信息需要从非结构化网页中抽取，例如研究者的个人主页。该方法包含从专家的个人主页中抽取研究者的个人档案信息，并和在线数据源中的论文数据一起进行整合。抽取并整合的数据储存在学术网络数据库中。基于训练数据集，该方法使用学习排序为通用专家排序学习排序函数。

步骤2、利用排序支持向量机建立通用专家搜索模型，利用排序支持向量机预测实例间相互关系

x_{i} > x_{j} &DoubleLeftRightArrow; f (x_{i}) > f (x_{j})

的排序函数f∈F，并进行通用专家进行排序。

具体为：

步骤21、给定有标注的专家搜索训练数据集

L = {(x_{i}, y_{i})}_{i = 1}^{l}

和未标注数据集

S = {x_{i}^{'}}_{i = 1}^{u},

排序支持向量机学习得到一个可以预测实例间相互关系

x_{i} > x_{j} &DoubleLeftRightArrow; f (x_{i}) > f (x_{j})

的排序函数f∈F，其中x_i表示训练数据实例，x′_i表示训练数据实例；

y_{i}^{a} > y_{i}^{b}

那么z_i＝+1，否则z_i＝-1；

步骤23、排序支持向量机模型从新的训练集

L^{'} = {(x_{i}^{a} - x_{i}^{b}, z_{i})}_{i = 1}^{n}

中通过优化学习得到：

\arg \min_{w^{*}} \frac{1}{2} {| | w | |}^{2} + C Σ_{i = 1}^{n} ξ_{i}

s.t.

z_{i} < w, x_{i}^{a} - x_{i}^{b} > &GreaterEqual; 1 - ξ_{i}

ξ_i≥0，i＝1，…，n；

步骤3、计算通用专家搜索和特定专家搜索的公共特征；根据公共特征以及给定的特征及训练数据对特定专家搜索进行训练。

具体为：

步骤31和步骤32分别和步骤2中的S21和S22类似；

\min_{W, U} \underset{t &Element; {S, T}}{Σ} Σ_{i = 1}^{n_{t}} C_{t} {[1 - z_{t_{i}} < w_{t}, U^{T} (x_{t_{i}}^{a} - x_{t_{i}}^{b}) >]}_{+} + λ {| | W | |}_{2,1}^{2}

s.t.U^TU＝I

其中||W||_2，1 ²是正则化因子，保证了在通用专家搜索和特定专家搜索这两个任务之间学到公用的隐空间；C_S和C_T分别是两个任务的代价敏感因子，且C_T/C_S为常数；λ为平衡经验损失和正则化因子；投影函数矩阵U表示隐空间，正交归一约束使得投影矩阵U唯一；

上式中的公共特征隐空间U等价表述为

\min_{M, D} \underset{t &Element; {S, T}}{Σ} [Σ_{i = 1}^{n_{t}} C_{t} {[1 - z_{t_{i}} < α_{t}, x_{t_{i}}^{a} - x_{t_{i}}^{b} >]}_{+} + λ < α_{t}, D^{+} α_{t} >]

s.t.D＞＝0，trace(D)≤1，

range (M) &SubsetEqual; range (D)

其中M＝[α_S，α_T]＝UW，

D = UDiag (\frac{{| | w^{i} | |}_{2}}{{| | W | |}_{2,1}}) U^{T},

而上标“+”表示伪逆；对于p×q矩阵X，range(X)＝{x|Xz＝x，for some z∈R^q}；

其中，对于特征定义为：

在通用专家搜索和特定专家搜索中定义了21个特征(如表1所示)。特征L1-L10以及H1-H3是用基于单词的语言模型计算得到的分值，而特征S1-S8从各个角度反映了该专家的权威度。另外，为特定专家搜索定义了32个独有特征。特征SumCo1-SumCo8表示一个专家的所有合作者的权威性特征值的和。将SumCo1-SumCo8的值除以他的合作者总数得到了平均值，记为AvgCo1-AvgCo8。类似的，通过特征SumStu1-SumStu8以及AvgStu1-AvgStu8还考虑他的学生的总体权威性水平和平均权威性水平。

表1

特征	解释
特征	解释	L1-L10	低层次内容特征
H1-H3	高层次内容特征	L1-L10	低层次内容特征
H1-H3	高层次内容特征	S1	该专家发表他的第一篇文章距今的年数
S2	该专家发表的文章总数	S1	该专家发表他的第一篇文章距今的年数
S2	该专家发表的文章总数	S3	该专家在近2年发表的文章总数
S4	该专家在近5年发表的文章总数	S3	该专家在近2年发表的文章总数
S4	该专家在近5年发表的文章总数	S5	该专家的文章被引用的总次数
S6	该专家的文章被引用在5次以上的数目	S5	该专家的文章被引用的总次数
S6	该专家的文章被引用在5次以上的数目	S7	该专家的文章被引用在10次以上的数目
S8	该专家的PageRank得分	S7	该专家的文章被引用在10次以上的数目
S8	该专家的PageRank得分	SumCo1-8	该专家全部合作者的S1-S8得分的和
AvgCo1-8	该专家全部合作者的S1-S8得分的平均	SumCo1-8	该专家全部合作者的S1-S8得分的和
AvgCo1-8	该专家全部合作者的S1-S8得分的平均	SumStu1-8	该专家全部学生的S1-S8得分的和
AvgStu1-8	该专家全部学生的S1-S8得分的平均	SumStu1-8	该专家全部学生的S1-S8得分的和

对于特征SumStu1-SumStu8以及特征AvgStu1-AvgStu8，该方法需要识别研究者之间的师生关系。该方法中使用了一个启发式的方法，该方法主要通过研究者之间的论文合作情况进行推断，如果两个研究者没有论文合作，认为他们之间不是师生关系。

而对于发生合作的情形，可以如表2所示的四个主要特征。其中记号n_i表示作者i发表的论文总数，而n_CO表示合作的论文数，t_i是作者i的第一篇论文的年份，而t_CO是合作者之间首次合作的年份。常数N描述了通常情况下学生和老师之间论文数目之差的平均值，而T是师生发表各自第一篇论文的年份差。该应用中取N＝10以及T＝10。如果-1＜x＜1，g(x)是恒等函数，否则是符号函数。对于两个研究者i和j，该方法计算师生关系得分

s_{ij} = \underset{k}{Σ} λ_{k} f_{k} (i, j),

其中特征的权{λ}预先给定。最后，如果s_ij＞r，认为作者i是作者j的老师；如果s_ij＜-r，认为作者i是作者j的学生，其中r是一个预先确定的阈值，通常情况下取2.5-3.5。实验显示关系发现的准确率可以达到67.0％。

表2

其中，对于训练数据的定义为：

由于一个研究者是不是特定专家其实并不容易判断，仅仅通过我们所了解到的信息很难全面客观地进行特定专家排序等级的标注。因此我们试图通过学术界广泛的研究者，尽他们的了解，共同帮助我们得到该标注数据。特定专家搜索的标注数据集由9个最高频的查询关键词构成。对于每一个查询关键词，我们从专家数据库中选择专家搜索中排名前50的研究者，同时我们再选择50个在近年(例如晚于2003年)才开始发表论文且排名靠前的学术新秀，通过在数据库和网上查找他们的联系方法并得到他们的个人资料，统计发现这些学术新秀中91.6％现在是研究生或博士后研究员。我们给每一个专家或新秀发电子邮件，在电子邮件中我们根据该专家或新秀所属的查询关键词，列出了该查询关键词对应的50个专家，请求他们帮助我们对这些候选集中的专家是否为特定专家给出自己的意见，参与者可以回答“是”(+1)，“否”(-1)或者“不确定”。从专家的反馈意见中，我们可以看到他们对于自己和同行是否为特定专家的评判意见，而从新秀的反馈意见中，我们往往可以看出他对于专家，甚至是自己的导师是否为特定专家的评价。在邮件中，基于我们对于“特定专家”的定义，提供了若干判断一个研究者是不是特定专家的线索，例如他培养的学生的总体水平，他培养的学生的平均水平等等，尽管他们的出发点可能并不只是局限于我们给出的若干提示。当然，每一个参与者也可以在回复中添加自己熟悉的其他特定专家。

基于参与者的回复，我们得到了82个有效反馈。基于这些参与者的反馈意见，我们综合得到了一个较为公认的特定专家任务的标注数据。具体来讲，我们从得到的有效反馈中统计计算每个候选人的“是”(+1)和“否”(-1)的连加得分，再除以确定性回复(“是”或“否”)的数目，得到平均特定专家程度得分，再按照该得分排序得到特定专家任务的标注数据。

为了评估本发明，我们使用均值平均查准率(即MAP)和归一化的折扣累积增益(即NDCG)评估实验结果。

MAP表示每个查询关键词对应的准确率的平均值。具体来说，对于一个给定的查询关键词，根据前k个结果的查准率，首先计算平均查准率：

其中P@k表示系统对于查询关键词返回的前k个结果的查准率，定义为：

和MAP不同的是，NDCG对于排序中认为最相关的文档给予更高的权重，而在MAP中所有相关的文档有相同的权重。在位置n上的NDCG定义为：

N @ n = Z_{n} Σ_{j = 1}^{n} \frac{2^{r (j)} - 1}{\log (1 + j)}

其中，r(j)是第j个文档的排序，Z_n是归一化因子。

1)基线方法

将本发明提出的方法和三种基线方法进行比较，这三种基线方法如表3所示。排序支持向量机(RSVM)在信息检索中是一种经典的排序算法。但是该方法的设计初衷是为了在同构数据的单一域中进行排序训练。为了比较的公平，我们用RSVM进行两组实验，在其中一组中，我们只在目标域L_T上训练排序模型，而另外一组中(称为RSVMt)我们将源域和目标域组合在一起进行训练。第三种比较方法是使用铰链损失的多任务特征学习方法(称为MTRSVM)。

表3

实验方法	训练数据	测试数据
实验方法	训练数据	测试数据	RSVM	L_T	S
RSVMt	L_S∪L_T	S	RSVM	L_T	S
RSVMt	L_S∪L_T	S	MTRSVM	L_S∪L_T	S
本发明的方法	L_S∪L_T	S	MTRSVM	L_S∪L_T	S

2)实验设置

上述实验在Windows XP系统，双核AMD双核速龙处理器(2GHz)以及2G内存上进行。我们使用SVMlight的线性核以及默认参数实现RSVM、RSVMt以及MTRSVM的偏好学习步骤。我们将最大迭代次数I设置50。并且除了特别说明外，我们使用格点搜寻法从{2^-5，2^-4，2^-3，2^-2，2^-1，1，2，2²，2³，2⁴，2⁵}中选择参数C。后面小节中涉及的实验结果均为10次重复实验的平均。

3)实验结果

在本实验中，我们选取了两个查询关键词以及与其相关的文档组成标注训练数据，其余部分作为测试数据。表4中显示了特定专家搜索的性能比较。从中可以看出我们的方法胜过其他使用RSVM、RSVMt、MTRSVM以及语言模型方法的基线方法。从表4中可以看出，全部的有监督学习排序方法都超过无监督学习的语言模型方法。

表4

方法	P@5	P@10	P@15	MAP	N@5	N@10
方法	P@5	P@10	P@15	MAP	N@5	N@10	RSVM	0.7714	0.8429	0.8285	0.7756	0.5545	0.5947
RSVMt	0.8000	0.8286	0.8476	0.7837	0.5923	0.5999	RSVM	0.7714	0.8429	0.8285	0.7756	0.5545	0.5947
RSVMt	0.8000	0.8286	0.8476	0.7837	0.5923	0.5999	MTRSVM	0.8000	0.8286	0.8476	0.7875	0.6140	0.6075
HCDRank	0.8285	0.7857	0.8571	0.7971	0.6189	0.6112	MTRSVM	0.8000	0.8286	0.8476	0.7875	0.6140	0.6075
HCDRank	0.8285	0.7857	0.8571	0.7971	0.6189	0.6112	Languagemodel	0.6250	0.6875	0.6500	0.6726	0.3343	0.3809
Expertfinding	.5500	.6000	.6333	.6356	.2102	.2454	Languagemodel	0.6250	0.6875	0.6500	0.6726	0.3343	0.3809

表5中展示了用两个查询关键词在异构的任务中搜索得到的5个排在最前面的特定专家和专家的对比。我们可以看出传统的专家搜索任务并不十分适用于特定专家搜索。

表5

从实验结果可以看出，通用的专家搜索并不能替代本发明提出的特定专家搜索，而本发明中使用的方法可以实现特定专家搜索，包括特定专家搜索任务，结果优于基线方法。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变型，这些改进和变型也应视为本发明的保护范围。

Claims

1.一种针对特定专家的搜索装置，其特征在于，包括：

2.根据权利要求1所述的特定专家的搜索装置，其特征在于，所述通用专家搜索模块包括：

L = {(x_{i}, y_{i})}_{i = 1}^{l},

S = {x_{i}^{'}}_{i = 1}^{u},

x′_i表示标注数据实例，u表示未标注数据实例总数；

y_{i}^{a} > y_{i}^{b}

那么z_i＝+1，否则z_i＝-1；

L^{'} = {(x_{i}^{a} - x_{i}^{b}, z_{i})}_{i = 1}^{n},

通过优化学习得到：

\arg \min_{w^{*}} \frac{1}{2} {| | w | |}^{2} + C Σ_{i = 1}^{n} ξ_{i}

s.t.

z_{i} < w, x_{i}^{a} - x_{i}^{b} > &GreaterEqual; 1 - ξ_{i}

ξ_i≥0，i＝1，…，n；

3.根据权利要求1或2所述的特定专家的搜索装置，其特征在于，所述特定专家搜索模块包括：

L = {(x_{i}, y_{i})}_{i = 1}^{l},

S = {x_{i}^{'}}_{i = 1}^{u},

其中x′_i表示训练数据实例；

y_{i}^{a} > y_{i}^{b}

那么z_i＝+1，否则z_i＝-1；

\min_{W, U} \underset{t &Element; {S, T}}{Σ} Σ_{i = 1}^{n_{t}} C_{t} {[1 - z_{t_{i}} < w_{t}, U^{T} (x_{t_{i}}^{a} - x_{t_{i}}^{b}) >]}_{+} + λ {| | W | |}_{2,1}^{2}

s.t.U^TU＝I

表示实例对

对应的等级标号，而上标“+”表示伪逆，‖W||_2，1 ²是正则化因子，保证了在两个任务之间学到公用的隐空间；C_S和C_T分别是两个任务的代价敏感因子，且C_T/C_S为常数；λ为平衡经验损失和正则化因子；U表示公共特征隐空间的映射矩阵，正交归一约束使得投影矩阵U唯一；

上式中的公共特征隐空间U等价表述为

\min_{M, D} \underset{t &Element; {S, T}}{Σ} [Σ_{i = 1}^{n_{t}} C_{t} {[1 - z_{t_{i}} < α_{t}, x_{t_{i}}^{a} - x_{t_{i}}^{b} >]}_{+} + λ < α_{t}, D^{+} α_{t} >]

s.t.D＞＝0，trace(D)≤1，

range (M) &SubsetEqual; range (D)

其中M＝[α_S，α_T]＝UW，

D = UDiag (\frac{{| | | w^{i} | |}_{2}}{{| | W | |}_{2,1}}) U^{T},

U表示公共特征隐空

间的映射矩阵，W表示在各自特征空间上通用专家搜索和特定专家搜索任务对应的排序函数的权向量的组合，进而M表示在公共特征隐空间上通用专家搜索和特定专家搜索任务对应的排序函数的权向量的组合，分别用α_S和α_T表示其中对应于通用专家搜索特征集S和特定专家搜索T排序函数的权向量，其中的每一特征对应为α_t，

表示实例对

4.一种特定专家的搜索方法，包括：

步骤1、从万维网中搜索专家的学术数据并存储；

步骤2、利用排序支持向量机建立通用专家搜索模型；

5.根据权利要求4所述的特定专家的搜索方法，其特征在于，所述步骤2具体为：

步骤21、建立给定有标注的专家搜索训练数据集

L = {(x_{i}, y_{i})}_{i = 1}^{l},

S = {x_{i}^{'}}_{i = 1}^{u},

其中x′_i表示训练数据实例；

y_{i}^{a} > y_{i}^{b}

那么z_i＝+1，否则z_i＝-1；

步骤23、排序支持向量机模型可以从新的训练集

L^{'} = {(x_{i}^{a} - x_{i}^{b}, z_{i})}_{i = 1}^{n}

中通过优化学习得到：

\arg \min_{w^{*}} \frac{1}{2} {| | w | |}^{2} + C Σ_{i = 1}^{n} ξ_{i}

s.t.

z_{i} < w, x_{i}^{a} - x_{i}^{b} > &GreaterEqual; 1 - ξ_{i}

ξ_i≥0，i＝1，…，n；

6.根据权利要求4或5所述的特定专家的搜索方法，其特征在于，所述步骤3具体为：

步骤31、建立给定有标注的专家搜索训练数据集

L = {(x_{i}, y_{i})}_{i = 1}^{l},

S = {x_{i}^{'}}_{i = 1}^{u},

其中x′_i表示训练数据实例；

步骤32、排序支持向量机对于专家搜索每个查询关键词中两个不同排序等级(y_i ^a，y_i ^b)的实例(x_i ^a，x^ib)，创建一个实例(x_i ^a-x_i ^b，z_i)，其中z_i的取值为：如果

y_{i}^{a} > y_{i}^{b}

那么z_i＝+1，否则z_i＝-1；

\min_{W, U} \underset{t &Element; {S, T}}{Σ} Σ_{i = 1}^{n_{t}} C_{t} {[1 - z_{t_{i}} < w_{t}, U^{T} (x_{t_{i}}^{a} - x_{t_{i}}^{b}) >]}_{+} + λ {| | W | |}_{2,1}^{2}

s.t.U^TU＝I

对应的等级标号，而上标“+”表示伪逆，‖W||_2，1 ²是正则化因子，保证了在两个的任务之间学到公用的隐空间；C_S和C_T分别是两个任务的代价敏感因子，且C_T/C_S为常数；λ为平衡经验损失和正则化因子；U表示公共特征隐空间的映射矩阵，正交归一约束使得投影矩阵U唯一；

上式中的公共特征隐空间U等价表述为

\min_{M, D} \underset{t &Element; {S, T}}{Σ} [Σ_{i = 1}^{n_{t}} C_{t} {[1 - z_{t_{i}} < α_{t}, x_{t_{i}}^{a} - x_{t_{i}}^{b} >]}_{+} + λ < α_{t}, D^{+} α_{t} >]

s.t.D＞＝0，trace(D)≤1，

range (M) &SubsetEqual; range (D)

其中M＝[α_S，α_T]＝UW，

D = UDiag (\frac{{| | | w^{i} | |}_{2}}{{| | W | |}_{2,1}}) U^{T},

表示实例对