CN101719152A - 搜索特定专家的装置和方法 - Google Patents

搜索特定专家的装置和方法 Download PDF

Info

Publication number
CN101719152A
CN101719152A CN200910241895A CN200910241895A CN101719152A CN 101719152 A CN101719152 A CN 101719152A CN 200910241895 A CN200910241895 A CN 200910241895A CN 200910241895 A CN200910241895 A CN 200910241895A CN 101719152 A CN101719152 A CN 101719152A
Authority
CN
China
Prior art keywords
search
module
expression
expert
specific specialists
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200910241895A
Other languages
English (en)
Other versions
CN101719152B (zh
Inventor
唐杰
杨子
王波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN2009102418957A priority Critical patent/CN101719152B/zh
Publication of CN101719152A publication Critical patent/CN101719152A/zh
Application granted granted Critical
Publication of CN101719152B publication Critical patent/CN101719152B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明一种特定专家的搜索装置和方法,针对现有通用专家搜索无法找到特定专家的问题而发明。本发明的装置包括:参数收集模块、通用专家搜索模块、特定专家搜索模块、特定专家搜索训练模块。本发明的方法包括:从万维网中搜索专家的学术数据并存储;利用排序支持向量机建立通用专家搜索模型;计算通用专家搜索和特定专家搜索的公共特征;根据公共特征以及给定的特征及训练数据对特定专家搜索进行训练。本发明主要应用于专家搜索领域,能够根据通用专家搜索和特定专家搜索之间的联系——公共特征隐空间,并利用公共特征隐空间学习得到特定专家搜索的排序函数。

Description

搜索特定专家的装置和方法
技术领域
本发明涉及网络搜索技术领域,尤其涉及一种针对特定专家的搜索装置和方法。
背景技术
计算机和网络的普及,极大的改变了人们获取资讯的方式。但是如何从浩如烟海的万维网资讯中快速获得使用者所需的资料成为重要的研究课题。
在万维网中,对于人的搜索引起了广泛的关注。其中最为重要的问题就是专家搜索。专家搜索是指通过搜索,希望找到在特定领域中权威的学者。在过去的研究中,语言模型、话题模型、随机游走模型等被相继提出。但是已有的大部分研究主要是关注于通用的专家搜索任务,而没有深入研究过不同目的下的专家搜索问题。例如,一个正在申请研究生学校的本科生希望找到能够给出权威建议的专家作为他的导师。
通用的专家搜索方法对于不同目的下特定的专家搜索并不适合。因此希望在现有系统的基础上能够细化不同目的的专家搜索,使得不同需求的用户有更好的查询体验。
发明内容
针对现有技术中存在的缺陷和不足,本发明的目的是提供一种特定专家的搜索装置和方法,能够针对特定专家进行细化搜索。
为达到上述目的,本发明提出了一种针对特定专家的搜索装置,其特征在于,包括:
参数收集模块,所述参数收集模块从万维网中收集专家的学术数据,并存储收集到的数据;
通用专家搜索模块,所述通用专家搜索模块为排序支持向量机;
特定专家搜索模块,所述特定专家搜索模块对于特定专家搜索进行特征提取,计算所述通用专家搜索模块和所述特定专家搜索模块的公共特征隐空间,并利用公共特征以及提取的特征及训练数据对所述特定专家搜索模块进行训练。
其中,所述通用专家搜索模块包括:
训练数据模块,所述训练数据模块给定有标注的通用专家搜索训练数据集 L = { ( x i , y i ) } i = 1 l , 其中xi表示训练数据实例,而yi表示对应的等级标号l表示标注数据实例总数和未标注数据集 S = { x i ′ } i = 1 u , 其中x′i表示训练数据实例,u表示未标注数据实例总数;
训练实例模块,所述训练实例模块对于通用专家搜索每个查询关键词中两个不同排序等级(yi a,yi b)的实例(xi a,xi b),创建一个实例(xi a-xi b,zi),其中zi的取值为:如果 y i a > y i b 那么zi=+1,否则zi=-1;
学习模块,所述学习模块根据训练实例模块获得的新的训练集 L ′ = { ( x i a - x i b , z i ) } i = 1 n , 通过优化学习得到:
arg min w * 1 2 | | w | | 2 + C Σ i = 1 n ξ i
s.t. z i < w , x i a - x i b > &GreaterEqual; 1 - &xi; i
ξi≥0,i=1,…,n;
其中w表示线性排序函数的特征权重向量,ξi表示松弛变量,zi表示实例对(xi a,xi b)对应的等级标号,C表示平衡正则化因子和松弛因子的常数;
排序模块,所述排序模块对所述学习模块利用SVM算法求解,得到通用专家搜索的排序函数f=<w*,x′>。
其中,所述特定专家搜索模块包括:
训练数据模块,所述训练数据模块给定有标注的通用专家搜索训练数据集 L = { ( x i , y i ) } i = 1 l , 其中xi表示训练数据实例,而yi表示对应的等级标号和未标注数据集 S = { x i &prime; } i = 1 u , 其中x′i表示训练数据实例;
训练实例模块,所述训练实例模块对于通用专家搜索每个查询关键词中两个不同排序等级(yi a,yi b)的实例(xi a,xi b),创建一个实例(xi a-xi b,zi),其中zi的取值为:如果 y i a > y i b 那么zi=+1,否则zi=-1;
公共隐空间计算及排序函数训练模块,所述公共隐空间计算模块计算通用专家搜索和特定专家搜索的公共特征隐空间U:
min W , U &Sigma; t &Element; { S , T } &Sigma; i = 1 n t C t [ 1 - z t i < w t , U T ( x t i a - x t i b ) > ] + + &lambda; | | W | | 2,1 2
s.t.UTU=I
其中W表示通用专家搜索和特定专家搜索任务对应的排序函数的权向量的组合,其中对应于通用专家搜索特征集S和特定专家搜索T特征的元素为wt
Figure G2009102418957D00033
表示实例对对应的等级标号,而上标“+”表示伪逆,||W||2,1 2是正则化因子,保证了在两个任务之间学到公用的隐空间;CS和CT分别是两个任务的代价敏感因子,且CT/CS为常数;λ为平衡经验损失和正则化因子;U表示公共特征隐空间的映射矩阵,正交归一约束使得投影矩阵U唯一;
上式中的公共特征隐空间U等价表述为
min M , D &Sigma; t &Element; { S , T } [ &Sigma; i = 1 n t C t [ 1 - z t i < &alpha; t , x t i a - x t i b > ] + + &lambda; < &alpha; t , D + &alpha; t > ]
s.t.D>=0,trace(D)≤1,
range ( M ) &SubsetEqual; range ( D )
其中M=[αS,αT]=UW, D = UDiag ( | | w i | | 2 | | W | | 2,1 ) U T , U表示公共特征隐空间的映射矩阵,W表示在各自特征空间上通用专家搜索和特定专家搜索任务对应的排序函数的权向量的组合,进而M表示在公共特征隐空间上通用专家搜索和特定专家搜索任务对应的排序函数的权向量的组合,分别用αS和αT表示其中对应于通用专家搜索特征集S和特定专家搜索T排序函数的权向量,其中的每一特征对应为αt
Figure G2009102418957D00038
表示实例对
Figure G2009102418957D00039
对应的等级标号,CS和CT分别是两个任务的代价敏感因子,且CT/CS为常数;λ为平衡经验损失和正则化因子,而上标“+”表示伪逆;对于p×q矩阵X,range(X)={x|Xz=x,for some z∈Rq};
排序模块,所述排序模块利用公共隐空间计算和排序函数训练模块中得到的在公共特征隐空间上特定专家搜索排序权向量αT,得到通用专家搜索的排序函数f=<αT,x>。
一种特定专家的搜索方法,包括:
步骤1、从万维网中搜索专家的学术数据并存储;
步骤2、利用排序支持向量机建立通用专家搜索模型;
步骤3、对于特定专家搜索进行特征提取,计算通用专家搜索和特定专家搜索的公共特征;根据公共特征以及提取的特征及训练数据对特定专家搜索进行训练。
其中,所述步骤2具体为:
步骤21、建立给定有标注的专家搜索训练数据集 L = { ( x i , y i ) } i = 1 l , 其中xi表示训练数据实例,而yi表示对应的等级标号和未标注数据集 S = { x i &prime; } i = 1 u , 其中x′i表示训练数据实例;
步骤22、排序支持向量机对于专家搜索每个查询关键词中两个不同排序等级(yi a,yi b)的实例(xi a,xi b),创建一个实例(xi a-xi b,zi),其中zi的取值为:如果 y i a > y i b 那么zi=+1,否则zi=-1;
步骤23、排序支持向量机模型可以从新的训练集 L &prime; = { ( x i a - x i b , z i ) } i = 1 n 中通过优化学习得到:
arg min w * 1 2 | | w | | 2 + C &Sigma; i = 1 n &xi; i
s.t. z i < w , x i a - x i b > &GreaterEqual; 1 - &xi; i
ξi≥0,i=1,…,n;
其中w表示线性排序函数的特征权重向量,ξi表示松弛变量,zi表示实例对(xi a,xi b)对应的等级标号,C表示平衡正则化因子和松弛因子的常数;
步骤24、对步骤23利用SVM算法求解,得到通用专家搜索的排序函数f=<w*,x′>。
其中,所述步骤3具体为:
步骤31、建立给定有标注的专家搜索训练数据集 L = { ( x i , y i ) } i = 1 l , 其中xi表示训练数据实例,而yi表示对应的等级标号和未标注数据集 S = { x i &prime; } i = 1 u , 其中x′i表示训练数据实例;
步骤32、排序支持向量机对于专家搜索每个查询关键词中两个不同排序等级(yi a,yi b)的实例(xi a,xi b),创建一个实例(xi a-xi b,zi),其中zi的取值为:如果 y i a > y i b 那么zi=+1,否则zi=-1;
步骤33、计算通用专家搜索和特定专家搜索的公共特征隐空间U:
min W , U &Sigma; t &Element; { S , T } &Sigma; i = 1 n t C t [ 1 - z t i < w t , U T ( x t i a - x t i b ) > ] + + &lambda; | | W | | 2,1 2
s.t.UTU=I
其中W表示通用专家搜索和特定专家搜索任务对应的排序函数的权向量的组合,其中对应于通用专家搜索特征集S和特定专家搜索T特征的元素为wt表示实例对
Figure G2009102418957D00054
对应的等级标号,而上标“+”表示伪逆,||W||2,1 2是正则化因子,保证了在两个的任务之间学到公用的隐空间;CS和CT分别是两个任务的代价敏感因子,且CT/CS为常数;λ为平衡经验损失和正则化因子;U表示公共特征隐空间的映射矩阵,正交归一约束使得投影矩阵U唯一;
上式中的公共特征隐空间U等价表述为
min M , D &Sigma; t &Element; { S , T } [ &Sigma; i = 1 n t C t [ 1 - z t i < &alpha; t , x t i a - x t i b > ] + + &lambda; < &alpha; t , D + &alpha; t > ]
s.t.D>=0,trace(D)≤1,
range ( M ) &SubsetEqual; range ( D )
其中M=[αS,αT]=UW, D = UDiag ( | | w i | | 2 | | W | | 2,1 ) U T , U表示公共特征隐空间的映射矩阵,W表示在各自特征空间上通用专家搜索和特定专家搜索任务对应的排序函数的权向量的组合,进而M表示在公共特征隐空间上通用专家搜索和特定专家搜索任务对应的排序函数的权向量的组合,分别用αS和αT表示其中对应于通用专家搜索特征集S和特定专家搜索T排序函数的权向量,其中的每一特征对应为αt
Figure G2009102418957D00058
表示实例对
Figure G2009102418957D00059
对应的等级标号,CS和CT分别是两个任务的代价敏感因子,且CT/CS为常数;λ为平衡经验损失和正则化因子,而上标“+”表示伪逆,对于p×q矩阵X,range(X)={x|Xz=x,for some z∈Rq};
步骤34、根据获得的公共特征,以及给定的特征及训练数据对特定专家搜索进行训练。
上述技术方案具有如下优点:本发明通过排序支持向量机对通用专家搜索和特定专家搜索建模,并计算通用专家搜索和特定专家搜索的公共特征隐空间,从而利用公共特征隐空间,对并且其中所有的序关系予以保持。这样使得本发明能够通过公共特征隐空间,对特定专家搜索进行训练。
附图说明
图1为本发明提出的针对特定专家的搜索的流程图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
实施例1
本发明提出的特定专家的搜索装置,其优选实施例包括:
参数收集模块,所述参数收集模块从万维网中收集专家的学术数据,并将收集到的数据存储;
通用专家搜索模块,所述通用专家搜索模块为排序支持向量机;
特定专家搜索模块,所述特定专家搜索模块对于特定专家搜索进行特征提取,计算所述通用专家搜索模块和所述特定专家搜索模块的公共特征隐空间,并利用公共特征以及提取的特征及训练数据对所述特定专家搜索模块进行训练。
其中,所述通用专家搜索模块包括:
训练数据模块,所述训练数据模块给定有标注的通用专家搜索训练数据集 L = { ( x i , y i ) } i = 1 l , 其中xi表示训练数据实例,而yi表示对应的等级标号,l表示标注数据实例总数和未标注数据集 S = { x i &prime; } i = 1 u , 其中x′i表示训练数据实例,u表示未标注数据实例总数;
训练实例模块,所述训练实例模块对于通用专家搜索每个查询关键词中两个不同排序等级(yi a,yi b)的实例(xi a,xi b),创建一个实例(xi a-xi b,zi),其中zi的取值为:如果 y i a > y i b 那么zi=+1,否则zi=-1;
学习模块,所述学习模块根据训练实例模块获得的新的训练集 L &prime; = { ( x i a - x i b , z i ) } i = 1 n , 通过优化学习得到:
arg min w * 1 2 | | w | | 2 + C &Sigma; i = 1 n &xi; i
s.t. z i < w , x i a - x i b > &GreaterEqual; 1 - &xi; i
ξi≥0,i=1,…,n;
其中w表示线性排序函数的特征权重向量,ξi表示松弛变量,zi表示实例对(xi a,xi b)对应的等级标号,C表示平衡正则化因子和松弛因子的常数。
排序模块,所述排序模块对所述学习模块利用SVM算法求解,得到通用专家搜索的排序函数f=<w*,x′>。
其中,所述特定专家搜索训练模块包括:
训练数据模块,所述训练数据模块给定有标注的通用专家搜索训练数据集 L = { ( x i , y i ) } i = 1 l , 其中xi表示训练数据实例,而yi表示对应的等级标号和未标注数据集 S = { x i &prime; } i = 1 u , 其中x′i表示训练数据实例;
训练实例模块,所述训练实例模块对于通用专家搜索每个查询关键词中两个不同排序等级(yi a,yi b)的实例(xi a,xi b),创建一个实例(xi a-xi b,zi),其中zi的取值为:如果 y i a > y i b 那么zi=+1,否则zi=-1;
公共隐空间计算及排序函数训练模块,所述公共隐空间计算模块计算通用专家搜索和特定专家搜索的公共特征隐空间U:
min W , U &Sigma; t &Element; { S , T } &Sigma; i = 1 n t C t [ 1 - z t i < w t , U T ( x t i a - x t i b ) > ] + + &lambda; | | W | | 2,1 2
s.t.UTU=I
其中W表示通用专家搜索和特定专家搜索任务对应的排序函数的权向量的组合,其中对应于通用专家搜索特征集S和特定专家搜索T特征的元素为wt表示实例对
Figure G2009102418957D000710
对应的等级标号,而上标“+”表示伪逆。||W||2,1 2是正则化因子,保证了在两个任务之间学到公用的隐空间;CS和CT分别是两个任务的代价敏感因子,且CT/CS为常数;λ为平衡经验损失和正则化因子;U表示公共特征隐空间的映射矩阵,正交归一约束使得投影矩阵U唯一;
上式中的公共特征隐空间U等价表述为
min M , D &Sigma; t &Element; { S , T } [ &Sigma; i = 1 n t C t [ 1 - z t i < &alpha; t , x t i a - x t i b > ] + + &lambda; < &alpha; t , D + &alpha; t > ]
s.t.D>=0,trace(D)≤1,
range ( M ) &SubsetEqual; range ( D )
其中M=[αS,αT]=UW, D = UDiag ( | | w i | | 2 | | W | | 2,1 ) U T , U表示公共特征隐空间的映射矩阵,W表示在各自特征空间上通用专家搜索和特定专家搜索任务对应的排序函数的权向量的组合,进而M表示在公共特征隐空间上通用专家搜索和特定专家搜索任务对应的排序函数的权向量的组合,分别用αS和αT表示其中对应于通用专家搜索特征集S和特定专家搜索T排序函数的权向量,其中的每一特征对应为αt
Figure G2009102418957D00084
表示实例对
Figure G2009102418957D00085
对应的等级标号,CS和CT分别是两个任务的代价敏感因子,且CT/CS为常数;λ为平衡经验损失和正则化因子,而上标“+”表示伪逆;对于p×q矩阵X,range(X)={x|Xz=x,for some z∈Rq};
排序模块,所述排序模块利用公共隐空间计算和排序函数训练模块中得到的在公共特征隐空间上特定专家搜索排序权向量αT,得到通用专家搜索的排序函数f=<αT,x>。
对于特定专家搜索训练模块中,给定的特征及训练数据将在下面的实施例2中进行解释。
实施例2
本发明提出的特定专家搜索方法,其优选实施例包括:
步骤1、数据准备
为了搜索和进一步挖掘学术网络,该方法首先需要从万维网中搜集专家的学术数据。有些数据可以从结构化的数据源,例如DBLP(http://dblp.uni-trier.de/)得到论文信息,而其它的信息需要从非结构化网页中抽取,例如研究者的个人主页。该方法包含从专家的个人主页中抽取研究者的个人档案信息,并和在线数据源中的论文数据一起进行整合。抽取并整合的数据储存在学术网络数据库中。基于训练数据集,该方法使用学习排序为通用专家排序学习排序函数。
步骤2、利用排序支持向量机建立通用专家搜索模型,利用排序支持向量机预测实例间相互关系 x i > x j &DoubleLeftRightArrow; f ( x i ) > f ( x j ) 的排序函数f∈F,并进行通用专家进行排序。
具体为:
步骤21、给定有标注的专家搜索训练数据集 L = { ( x i , y i ) } i = 1 l 和未标注数据集 S = { x i &prime; } i = 1 u , 排序支持向量机学习得到一个可以预测实例间相互关系 x i > x j &DoubleLeftRightArrow; f ( x i ) > f ( x j ) 的排序函数f∈F,其中xi表示训练数据实例,x′i表示训练数据实例;
步骤22、排序支持向量机对于专家搜索每个查询关键词中两个不同排序等级(yi a,yi b)的实例(xi a,xi b),创建一个实例(xi a-xi b,zi),其中zi的取值为:如果 y i a > y i b 那么zi=+1,否则zi=-1;
步骤23、排序支持向量机模型从新的训练集 L &prime; = { ( x i a - x i b , z i ) } i = 1 n 中通过优化学习得到:
arg min w * 1 2 | | w | | 2 + C &Sigma; i = 1 n &xi; i
s.t. z i < w , x i a - x i b > &GreaterEqual; 1 - &xi; i
ξi≥0,i=1,…,n;
其中w表示线性排序函数的特征权重向量,ξi表示松弛变量,zi表示实例对(xi a,xi b)对应的等级标号,C表示平衡正则化因子和松弛因子的常数。
步骤24、对步骤23利用SVM算法求解,得到通用专家搜索的排序函数f=<w*,x′>。
步骤3、计算通用专家搜索和特定专家搜索的公共特征;根据公共特征以及给定的特征及训练数据对特定专家搜索进行训练。
具体为:
步骤31和步骤32分别和步骤2中的S21和S22类似;
步骤33、计算通用专家搜索和特定专家搜索的公共特征隐空间U:
min W , U &Sigma; t &Element; { S , T } &Sigma; i = 1 n t C t [ 1 - z t i < w t , U T ( x t i a - x t i b ) > ] + + &lambda; | | W | | 2,1 2
s.t.UTU=I
其中||W||2,1 2是正则化因子,保证了在通用专家搜索和特定专家搜索这两个任务之间学到公用的隐空间;CS和CT分别是两个任务的代价敏感因子,且CT/CS为常数;λ为平衡经验损失和正则化因子;投影函数矩阵U表示隐空间,正交归一约束使得投影矩阵U唯一;
上式中的公共特征隐空间U等价表述为
min M , D &Sigma; t &Element; { S , T } [ &Sigma; i = 1 n t C t [ 1 - z t i < &alpha; t , x t i a - x t i b > ] + + &lambda; < &alpha; t , D + &alpha; t > ]
s.t.D>=0,trace(D)≤1,
range ( M ) &SubsetEqual; range ( D )
其中M=[αS,αT]=UW, D = UDiag ( | | w i | | 2 | | W | | 2,1 ) U T , 而上标“+”表示伪逆;对于p×q矩阵X,range(X)={x|Xz=x,for some z∈Rq};
步骤34、根据获得的公共特征,以及给定的特征及训练数据对特定专家搜索进行训练。
其中,对于特征定义为:
在通用专家搜索和特定专家搜索中定义了21个特征(如表1所示)。特征L1-L10以及H1-H3是用基于单词的语言模型计算得到的分值,而特征S1-S8从各个角度反映了该专家的权威度。另外,为特定专家搜索定义了32个独有特征。特征SumCo1-SumCo8表示一个专家的所有合作者的权威性特征值的和。将SumCo1-SumCo8的值除以他的合作者总数得到了平均值,记为AvgCo1-AvgCo8。类似的,通过特征SumStu1-SumStu8以及AvgStu1-AvgStu8还考虑他的学生的总体权威性水平和平均权威性水平。
表1
  特征   解释
  L1-L10   低层次内容特征
  H1-H3   高层次内容特征
  S1   该专家发表他的第一篇文章距今的年数
  S2   该专家发表的文章总数
  S3   该专家在近2年发表的文章总数
  S4   该专家在近5年发表的文章总数
  S5   该专家的文章被引用的总次数
  S6   该专家的文章被引用在5次以上的数目
  S7   该专家的文章被引用在10次以上的数目
  S8   该专家的PageRank得分
  SumCo1-8   该专家全部合作者的S1-S8得分的和
  AvgCo1-8   该专家全部合作者的S1-S8得分的平均
  SumStu1-8   该专家全部学生的S1-S8得分的和
  AvgStu1-8   该专家全部学生的S1-S8得分的平均
对于特征SumStu1-SumStu8以及特征AvgStu1-AvgStu8,该方法需要识别研究者之间的师生关系。该方法中使用了一个启发式的方法,该方法主要通过研究者之间的论文合作情况进行推断,如果两个研究者没有论文合作,认为他们之间不是师生关系。
而对于发生合作的情形,可以如表2所示的四个主要特征。其中记号ni表示作者i发表的论文总数,而nCO表示合作的论文数,ti是作者i的第一篇论文的年份,而tCO是合作者之间首次合作的年份。常数N描述了通常情况下学生和老师之间论文数目之差的平均值,而T是师生发表各自第一篇论文的年份差。该应用中取N=10以及T=10。如果-1<x<1,g(x)是恒等函数,否则是符号函数。对于两个研究者i和j,该方法计算师生关系得分 s ij = &Sigma; k &lambda; k f k ( i , j ) , 其中特征的权{λ}预先给定。最后,如果sij>r,认为作者i是作者j的老师;如果sij<-r,认为作者i是作者j的学生,其中r是一个预先确定的阈值,通常情况下取2.5-3.5。实验显示关系发现的准确率可以达到67.0%。
表2
Figure G2009102418957D00121
其中,对于训练数据的定义为:
由于一个研究者是不是特定专家其实并不容易判断,仅仅通过我们所了解到的信息很难全面客观地进行特定专家排序等级的标注。因此我们试图通过学术界广泛的研究者,尽他们的了解,共同帮助我们得到该标注数据。特定专家搜索的标注数据集由9个最高频的查询关键词构成。对于每一个查询关键词,我们从专家数据库中选择专家搜索中排名前50的研究者,同时我们再选择50个在近年(例如晚于2003年)才开始发表论文且排名靠前的学术新秀,通过在数据库和网上查找他们的联系方法并得到他们的个人资料,统计发现这些学术新秀中91.6%现在是研究生或博士后研究员。我们给每一个专家或新秀发电子邮件,在电子邮件中我们根据该专家或新秀所属的查询关键词,列出了该查询关键词对应的50个专家,请求他们帮助我们对这些候选集中的专家是否为特定专家给出自己的意见,参与者可以回答“是”(+1),“否”(-1)或者“不确定”。从专家的反馈意见中,我们可以看到他们对于自己和同行是否为特定专家的评判意见,而从新秀的反馈意见中,我们往往可以看出他对于专家,甚至是自己的导师是否为特定专家的评价。在邮件中,基于我们对于“特定专家”的定义,提供了若干判断一个研究者是不是特定专家的线索,例如他培养的学生的总体水平,他培养的学生的平均水平等等,尽管他们的出发点可能并不只是局限于我们给出的若干提示。当然,每一个参与者也可以在回复中添加自己熟悉的其他特定专家。
基于参与者的回复,我们得到了82个有效反馈。基于这些参与者的反馈意见,我们综合得到了一个较为公认的特定专家任务的标注数据。具体来讲,我们从得到的有效反馈中统计计算每个候选人的“是”(+1)和“否”(-1)的连加得分,再除以确定性回复(“是”或“否”)的数目,得到平均特定专家程度得分,再按照该得分排序得到特定专家任务的标注数据。
为了评估本发明,我们使用均值平均查准率(即MAP)和归一化的折扣累积增益(即NDCG)评估实验结果。
MAP表示每个查询关键词对应的准确率的平均值。具体来说,对于一个给定的查询关键词,根据前k个结果的查准率,首先计算平均查准率:
Figure G2009102418957D00131
其中P@k表示系统对于查询关键词返回的前k个结果的查准率,定义为:
Figure G2009102418957D00132
和MAP不同的是,NDCG对于排序中认为最相关的文档给予更高的权重,而在MAP中所有相关的文档有相同的权重。在位置n上的NDCG定义为:
N @ n = Z n &Sigma; j = 1 n 2 r ( j ) - 1 log ( 1 + j )
其中,r(j)是第j个文档的排序,Zn是归一化因子。
1)基线方法
将本发明提出的方法和三种基线方法进行比较,这三种基线方法如表3所示。排序支持向量机(RSVM)在信息检索中是一种经典的排序算法。但是该方法的设计初衷是为了在同构数据的单一域中进行排序训练。为了比较的公平,我们用RSVM进行两组实验,在其中一组中,我们只在目标域LT上训练排序模型,而另外一组中(称为RSVMt)我们将源域和目标域组合在一起进行训练。第三种比较方法是使用铰链损失的多任务特征学习方法(称为MTRSVM)。
表3
  实验方法  训练数据   测试数据
  RSVM  LT   S
RSVMt LS∪LT S
MTRSVM LS∪LT S
本发明的方法 LS∪LT S
2)实验设置
上述实验在Windows XP系统,双核AMD双核速龙处理器(2GHz)以及2G内存上进行。我们使用SVMlight的线性核以及默认参数实现RSVM、RSVMt以及MTRSVM的偏好学习步骤。我们将最大迭代次数I设置50。并且除了特别说明外,我们使用格点搜寻法从{2-5,2-4,2-3,2-2,2-1,1,2,22,23,24,25}中选择参数C。后面小节中涉及的实验结果均为10次重复实验的平均。
3)实验结果
在本实验中,我们选取了两个查询关键词以及与其相关的文档组成标注训练数据,其余部分作为测试数据。表4中显示了特定专家搜索的性能比较。从中可以看出我们的方法胜过其他使用RSVM、RSVMt、MTRSVM以及语言模型方法的基线方法。从表4中可以看出,全部的有监督学习排序方法都超过无监督学习的语言模型方法。
表4
  方法   P@5   P@10   P@15   MAP   N@5   N@10
  RSVM   0.7714   0.8429   0.8285   0.7756   0.5545   0.5947
  RSVMt   0.8000   0.8286   0.8476   0.7837   0.5923   0.5999
  MTRSVM   0.8000   0.8286   0.8476   0.7875   0.6140   0.6075
  HCDRank   0.8285   0.7857   0.8571   0.7971   0.6189   0.6112
  Languagemodel   0.6250   0.6875   0.6500   0.6726   0.3343   0.3809
  Expertfinding   .5500   .6000   .6333   .6356   .2102   .2454
表5中展示了用两个查询关键词在异构的任务中搜索得到的5个排在最前面的特定专家和专家的对比。我们可以看出传统的专家搜索任务并不十分适用于特定专家搜索。
表5
Figure G2009102418957D00151
从实验结果可以看出,通用的专家搜索并不能替代本发明提出的特定专家搜索,而本发明中使用的方法可以实现特定专家搜索,包括特定专家搜索任务,结果优于基线方法。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。

Claims (6)

1.一种针对特定专家的搜索装置,其特征在于,包括:
参数收集模块,所述参数收集模块从万维网中收集专家的学术数据,并存储收集到的数据;
通用专家搜索模块,所述通用专家搜索模块为排序支持向量机;
特定专家搜索模块,所述特定专家搜索模块对于特定专家搜索进行特征提取,计算所述通用专家搜索模块和所述特定专家搜索模块的公共特征隐空间,并利用公共特征以及提取的特征及训练数据对所述特定专家搜索模块进行训练。
2.根据权利要求1所述的特定专家的搜索装置,其特征在于,所述通用专家搜索模块包括:
训练数据模块,所述训练数据模块给定有标注的通用专家搜索训练数据集 L = { ( x i , y i ) } i = 1 l , 其中xi表示训练数据实例,而yi表示对应的等级标号,l表示标注数据实例总数和未标注数据集 S = { x i &prime; } i = 1 u , x′i表示标注数据实例,u表示未标注数据实例总数;
训练实例模块,所述训练实例模块对于通用专家搜索每个查询关键词中两个不同排序等级(yi a,yi b)的实例(xi a,xi b),创建一个实例(xi a-xi b,zi),其中zi的取值为:如果 y i a > y i b 那么zi=+1,否则zi=-1;
学习模块,所述学习模块根据训练实例模块获得的新的训练集 L &prime; = { ( x i a - x i b , z i ) } i = 1 n , 通过优化学习得到:
arg min w * 1 2 | | w | | 2 + C &Sigma; i = 1 n &xi; i
s.t. z i < w , x i a - x i b > &GreaterEqual; 1 - &xi; i
ξi≥0,i=1,…,n;
其中w表示线性排序函数的特征权重向量,ξi表示松弛变量,zi表示实例对(xi a,xi b)对应的等级标号,C表示平衡正则化因子和松弛因子的常数;
排序模块,所述排序模块对所述学习模块利用SVM算法求解,得到通用专家搜索的排序函数f=<w*,x′>。
3.根据权利要求1或2所述的特定专家的搜索装置,其特征在于,所述特定专家搜索模块包括:
训练数据模块,所述训练数据模块给定有标注的通用专家搜索训练数据集 L = { ( x i , y i ) } i = 1 l , 其中xi表示训练数据实例,而yi表示对应的等级标号和未标注数据集 S = { x i &prime; } i = 1 u , 其中x′i表示训练数据实例;
训练实例模块,所述训练实例模块对于通用专家搜索每个查询关键词中两个不同排序等级(yi a,yi b)的实例(xi a,xi b),创建一个实例(xi a-xi b,zi),其中zi的取值为:如果 y i a > y i b 那么zi=+1,否则zi=-1;
公共隐空间计算及排序函数训练模块,所述公共隐空间计算模块计算通用专家搜索和特定专家搜索的公共特征隐空间U:
min W , U &Sigma; t &Element; { S , T } &Sigma; i = 1 n t C t [ 1 - z t i < w t , U T ( x t i a - x t i b ) > ] + + &lambda; | | W | | 2,1 2
s.t.UTU=I
其中W表示通用专家搜索和特定专家搜索任务对应的排序函数的权向量的组合,其中对应于通用专家搜索特征集S和特定专家搜索T特征的元素为wt
Figure F2009102418957C00025
表示实例对
Figure F2009102418957C00026
对应的等级标号,而上标“+”表示伪逆,‖W||2,1 2是正则化因子,保证了在两个任务之间学到公用的隐空间;CS和CT分别是两个任务的代价敏感因子,且CT/CS为常数;λ为平衡经验损失和正则化因子;U表示公共特征隐空间的映射矩阵,正交归一约束使得投影矩阵U唯一;
上式中的公共特征隐空间U等价表述为
min M , D &Sigma; t &Element; { S , T } [ &Sigma; i = 1 n t C t [ 1 - z t i < &alpha; t , x t i a - x t i b > ] + + &lambda; < &alpha; t , D + &alpha; t > ]
s.t.D>=0,trace(D)≤1,
range ( M ) &SubsetEqual; range ( D )
其中M=[αS,αT]=UW, D = UDiag ( | | | w i | | 2 | | W | | 2,1 ) U T , U表示公共特征隐空
间的映射矩阵,W表示在各自特征空间上通用专家搜索和特定专家搜索任务对应的排序函数的权向量的组合,进而M表示在公共特征隐空间上通用专家搜索和特定专家搜索任务对应的排序函数的权向量的组合,分别用αS和αT表示其中对应于通用专家搜索特征集S和特定专家搜索T排序函数的权向量,其中的每一特征对应为αt
Figure F2009102418957C00031
表示实例对
Figure F2009102418957C00032
对应的等级标号,CS和CT分别是两个任务的代价敏感因子,且CT/CS为常数;λ为平衡经验损失和正则化因子,而上标“+”表示伪逆;对于p×q矩阵X,range(X)={x|Xz=x,for some z∈Rq};
排序模块,所述排序模块利用公共隐空间计算和排序函数训练模块中得到的在公共特征隐空间上特定专家搜索排序权向量αT,得到通用专家搜索的排序函数f=<αT,x>。
4.一种特定专家的搜索方法,包括:
步骤1、从万维网中搜索专家的学术数据并存储;
步骤2、利用排序支持向量机建立通用专家搜索模型;
步骤3、对于特定专家搜索进行特征提取,计算通用专家搜索和特定专家搜索的公共特征;根据公共特征以及提取的特征及训练数据对特定专家搜索进行训练。
5.根据权利要求4所述的特定专家的搜索方法,其特征在于,所述步骤2具体为:
步骤21、建立给定有标注的专家搜索训练数据集 L = { ( x i , y i ) } i = 1 l , 其中xi表示训练数据实例,而yi表示对应的等级标号和未标注数据集 S = { x i &prime; } i = 1 u , 其中x′i表示训练数据实例;
步骤22、排序支持向量机对于专家搜索每个查询关键词中两个不同排序等级(yi a,yi b)的实例(xi a,xi b),创建一个实例(xi a-xi b,zi),其中zi的取值为:如果 y i a > y i b 那么zi=+1,否则zi=-1;
步骤23、排序支持向量机模型可以从新的训练集 L &prime; = { ( x i a - x i b , z i ) } i = 1 n 中通过优化学习得到:
arg min w * 1 2 | | w | | 2 + C &Sigma; i = 1 n &xi; i
s.t. z i < w , x i a - x i b > &GreaterEqual; 1 - &xi; i
ξi≥0,i=1,…,n;
其中w表示线性排序函数的特征权重向量,ξi表示松弛变量,zi表示实例对(xi a,xi b)对应的等级标号,C表示平衡正则化因子和松弛因子的常数;
步骤24、对步骤23利用SVM算法求解,得到通用专家搜索的排序函数f=<w*,x′>。
6.根据权利要求4或5所述的特定专家的搜索方法,其特征在于,所述步骤3具体为:
步骤31、建立给定有标注的专家搜索训练数据集 L = { ( x i , y i ) } i = 1 l , 其中xi表示训练数据实例,而yi表示对应的等级标号和未标注数据集 S = { x i &prime; } i = 1 u , 其中x′i表示训练数据实例;
步骤32、排序支持向量机对于专家搜索每个查询关键词中两个不同排序等级(yi a,yi b)的实例(xi a,xib),创建一个实例(xi a-xi b,zi),其中zi的取值为:如果 y i a > y i b 那么zi=+1,否则zi=-1;
步骤33、计算通用专家搜索和特定专家搜索的公共特征隐空间U:
min W , U &Sigma; t &Element; { S , T } &Sigma; i = 1 n t C t [ 1 - z t i < w t , U T ( x t i a - x t i b ) > ] + + &lambda; | | W | | 2,1 2
s.t.UTU=I
其中W表示通用专家搜索和特定专家搜索任务对应的排序函数的权向量的组合,其中对应于通用专家搜索特征集S和特定专家搜索T特征的元素为wt表示实例对
Figure F2009102418957C00046
对应的等级标号,而上标“+”表示伪逆,‖W||2,1 2是正则化因子,保证了在两个的任务之间学到公用的隐空间;CS和CT分别是两个任务的代价敏感因子,且CT/CS为常数;λ为平衡经验损失和正则化因子;U表示公共特征隐空间的映射矩阵,正交归一约束使得投影矩阵U唯一;
上式中的公共特征隐空间U等价表述为
min M , D &Sigma; t &Element; { S , T } [ &Sigma; i = 1 n t C t [ 1 - z t i < &alpha; t , x t i a - x t i b > ] + + &lambda; < &alpha; t , D + &alpha; t > ]
s.t.D>=0,trace(D)≤1,
range ( M ) &SubsetEqual; range ( D )
其中M=[αS,αT]=UW, D = UDiag ( | | | w i | | 2 | | W | | 2,1 ) U T , U表示公共特征隐空间的映射矩阵,W表示在各自特征空间上通用专家搜索和特定专家搜索任务对应的排序函数的权向量的组合,进而M表示在公共特征隐空间上通用专家搜索和特定专家搜索任务对应的排序函数的权向量的组合,分别用αS和αT表示其中对应于通用专家搜索特征集S和特定专家搜索T排序函数的权向量,其中的每一特征对应为αt
Figure F2009102418957C00051
表示实例对
Figure F2009102418957C00052
对应的等级标号,CS和CT分别是两个任务的代价敏感因子,且CT/CS为常数;λ为平衡经验损失和正则化因子,而上标“+”表示伪逆,对于p×q矩阵X,range(X)={x|Xz=x,for some z∈Rq};
步骤34、根据获得的公共特征,以及给定的特征及训练数据对特定专家搜索进行训练。
CN2009102418957A 2009-12-14 2009-12-14 搜索特定专家的装置和方法 Active CN101719152B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009102418957A CN101719152B (zh) 2009-12-14 2009-12-14 搜索特定专家的装置和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009102418957A CN101719152B (zh) 2009-12-14 2009-12-14 搜索特定专家的装置和方法

Publications (2)

Publication Number Publication Date
CN101719152A true CN101719152A (zh) 2010-06-02
CN101719152B CN101719152B (zh) 2012-07-25

Family

ID=42433726

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009102418957A Active CN101719152B (zh) 2009-12-14 2009-12-14 搜索特定专家的装置和方法

Country Status (1)

Country Link
CN (1) CN101719152B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102629279A (zh) * 2012-03-23 2012-08-08 天津大学 一种用于图像或视频搜索重排序的方法
CN103034728A (zh) * 2012-12-19 2013-04-10 北京中加国道科技有限责任公司 利用社会化网络学术资源交互平台进行信息交互的方法
CN107992524A (zh) * 2017-11-07 2018-05-04 朗坤智慧科技股份有限公司 一种专家信息搜索及领域评分计算方法
CN110704643A (zh) * 2019-08-23 2020-01-17 上海科技发展有限公司 不同类文献相同作者自动辨识方法及装置、存储介质终端

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102629279A (zh) * 2012-03-23 2012-08-08 天津大学 一种用于图像或视频搜索重排序的方法
CN103034728A (zh) * 2012-12-19 2013-04-10 北京中加国道科技有限责任公司 利用社会化网络学术资源交互平台进行信息交互的方法
CN103034728B (zh) * 2012-12-19 2015-09-09 北京中加国道科技有限责任公司 利用社会化网络学术资源交互平台进行信息交互的方法
CN107992524A (zh) * 2017-11-07 2018-05-04 朗坤智慧科技股份有限公司 一种专家信息搜索及领域评分计算方法
CN107992524B (zh) * 2017-11-07 2022-03-15 朗坤智慧科技股份有限公司 一种专家信息搜索及领域评分计算方法
CN110704643A (zh) * 2019-08-23 2020-01-17 上海科技发展有限公司 不同类文献相同作者自动辨识方法及装置、存储介质终端
CN110704643B (zh) * 2019-08-23 2022-07-26 上海科技发展有限公司 不同类文献相同作者自动辨识方法及装置、存储介质终端

Also Published As

Publication number Publication date
CN101719152B (zh) 2012-07-25

Similar Documents

Publication Publication Date Title
CN100583804C (zh) 基于专家值传播算法的社会网络专家信息处理系统及方法
CN101321190B (zh) 一种异构网络中的推荐方法及推荐系统
Sekeroglu et al. Artificial Intelligence in Education: application in student performance evaluation.
CN101408897A (zh) 一种基于协作过滤的个性化查询扩展方法
CN111143672A (zh) 基于知识图谱的专业特长学者推荐方法
Ristanti et al. Cosine similarity for title and abstract of economic journal classification
CN101719152B (zh) 搜索特定专家的装置和方法
Beel et al. Exploring the potential of user modeling based on mind maps
Lucero et al. Frameworks for organising design performance metrics
Shenton Information literacy and scholarly investigation: a British perspective
CN101710338A (zh) 一种基于公共隐空间的异构网络排序方法
Aktas et al. Using hyperlink features to personalize web search
Bourkoukou et al. A big-data oriented recommendation method in E-learning environment
Yahdin et al. Application of the relief-f algorithm for feature selection in the prediction of the relevance education background with the graduate employment of the universitas sriwijaya
TWI501183B (zh) 個人化教科書推薦系統及其方法
Salehi et al. Attribute-based recommender system for learning resource by learner preference tree
Seidel et al. Semantic Textual Similarity of Course Materials at a Distance-Learning University.
Chatti et al. Learner modeling in academic networks
Tikves et al. Perspective analysis for online debates
Yao et al. A novel search ranking method for MOOCs using unstructured course information
Bogarín et al. Discovering Students' Navigation Paths in Moodle.
Ye et al. Feature extraction of travel destinations from online Chinese-language customer reviews
Acharya et al. An educational data mining approach to concept map construction for web based learning
Derhami et al. RLRAUC: Reinforcem ent learning based ranking algorithm using user clicks
Mikhnev et al. Digital technologies for searching and processing unstructured Information in modern higher education

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant