CN101710338A - 一种基于公共隐空间的异构网络排序方法 - Google Patents

一种基于公共隐空间的异构网络排序方法 Download PDF

Info

Publication number
CN101710338A
CN101710338A CN200910238290A CN200910238290A CN101710338A CN 101710338 A CN101710338 A CN 101710338A CN 200910238290 A CN200910238290 A CN 200910238290A CN 200910238290 A CN200910238290 A CN 200910238290A CN 101710338 A CN101710338 A CN 101710338A
Authority
CN
China
Prior art keywords
hidden space
alpha
aiming field
function
territory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200910238290A
Other languages
English (en)
Inventor
唐杰
王波
杨子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN200910238290A priority Critical patent/CN101710338A/zh
Publication of CN101710338A publication Critical patent/CN101710338A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种基于公共隐空间的异构网络排序方法,包括:设定源域与目标域之间的公共隐空间,并将源域与目标域的训练样本通过转换函数映射到该公共隐空间内;设定通用目标函数;并通过公共隐空间对源域与目标域进行关联,并为源域和目标域上分别设定损失函数;优化损失函数并进行公共隐空间学习。本发明利用目标域与源域之间的公共隐空间,将两个域中的样本均通过一个转换函数被映射到该隐空间中,该公共隐空间也潜在地量化了两个域之间的相关性。本发明在保持已标号数据中偏好顺序不变的同时,能够最小化目标域中未标注数据的错误,并提出了一个能同时优化损失函数并进行隐空间学习的有效算法。

Description

一种基于公共隐空间的异构网络排序方法
技术领域
本发明涉及一种网络排序技术,特别是指一种基于公共隐空间的异构网络排序方法。
背景技术
随着互联网的飞速发展以及Web1.0向Web2.0的转变,社会网络逐渐成为一项非常重要的Web应用。社会网络通常包含各种不同的对象,从而为我们提供了大量的异构数据源。例如,在顾客-产品-评价网络中,我们需要根据用户对产品的评价或打分预测用户的偏好。我们往往拥有大量的关于已有产品的评价信息,但是缺乏甚至没有新产品的打分数据。再例如,在社会网络中,我们拥有大量的可以用来为用户推荐电影的数据,但是却只有很有限的数据为用户推荐可能的好友(即与其爱好相似的用户)或者社团。因此一个基本的问题就是如何利用从已有的源域中的标号数据学到的知识为目标域中的未知数据建立准确可靠的排序模型。
对于异构网络中相互关联的实体进行排序的问题,一些相关研究已经展开:例如迁移学习方法、领域自适应方法、多任务学习方法以及排序学习方法。但是现有的方法都不能很好的处理异构网络中的以下问题:
1、由于异构网络排序问题中涉及到多种类型的实体(即异构对象),第一个需要解决的问题就是怎样去描述源域和目标域的相关性。
2、迁移排序:并不只是需要从源域中迁移知识到目标域,还需要在学到的排序模型中,保持源域中的排序关系。
3、效率:通常来讲,排序学习需要有上千(甚至上万)的训练数据,因此需要处理大规模的数据。
发明内容
针对现有技术中存在的缺陷和不足,本发明的目的是提供一种基于隐空间的异构网络排序装置和方法,能够在异构网络中进行排序。
为达到上述目的,本发明提出了一种基于公共隐空间的异构网络排序方法,包括:
步骤1、设定源域与目标域之间的公共隐空间,并将源域与目标域的训练样本通过转换函数映射到该公共隐空间内;
步骤2、设定通用目标函数;并通过公共隐空间对源域与目标域进行关联,并为源域和目标域上分别设定损失函数;
步骤3、优化损失函数并进行公共隐空间学习。
其中,所述步骤1具体为:
设定转换函数φ:
Figure G2009102382902D0000021
所述转换函数将源域与目标域中的实例均映射到d′维的公共隐空间中。
其中,所述步骤2具体为:
步骤21、最小化如下的损失函数:
Figure G2009102382902D0000022
Figure G2009102382902D0000023
其中,
Figure G2009102382902D0000024
是指示函数,即当π成立时函数值为1,否则为0;
Figure G2009102382902D0000025
统计目标域中的错误排序对的数目;η是权衡经验损失项R和模型复杂性的惩罚项ε的参数;
步骤22、为异构网络排序问题,设定通用目标函数如下:
Figure G2009102382902D0000026
Figure G2009102382902D0000027
Figure G2009102382902D0000028
Figure G2009102382902D0000029
其中,Jφ(fS,fT)是对于异构网络排序模型复杂度的惩罚项;λ是调节经验损失和惩罚项的参数;C是为了控制两个域上样本数量的不平衡性的参数。
其中,所述步骤3具体为:
步骤31、设定fT是实例空间上的线性函数fT(x)=<wT,x>;
其中wT是通过训练数据学习到的参数,即特征的权重;<·>表示向量之间的内积;
步骤32、将fT(x)=<wT,x>替换损失函数得到:
Figure G2009102382902D0000031
步骤33、对目标域的损失函数
Figure G2009102382902D0000032
采用排序支持向量机的铰链损失估算排序错误对的数目的上界,具体为:
对于每个查询
Figure G2009102382902D0000033
(k=1,…,nT),给定一个不同排序等级的实例对
Figure G2009102382902D0000034
以及该实例对对应的标号为
Figure G2009102382902D0000035
则新实例表示为:
( x T i a - x T i b , z T i = + 1 y T i a > y T i b - 1 y T i a < y T i b )
以此得到目标域中新的训练数据 L T &prime; = { ( x T i a - x T i b , z T i ) } i = 1 n 2 ;
步骤34、对源域采用上述步骤31~步骤33的方法得到源域的wS以及
Figure G2009102382902D0000038
wS是通过训练数据学习到的参数,即特征的权重。
步骤35、对损失函数的凸上界进行优化,并将所述通用目标函数重新写为:
min w S , w T , &phi; &Sigma; i = 1 n 1 [ 1 - z S i < w S , ( &phi; ( x S i a ) - &phi; ( s S i b ) ) > ] +
+ C &Sigma; i = 1 n 2 [ 1 - z T i < w T , ( &phi; ( x T i a ) - &phi; ( x T i b ) ) > ] + ;
+ &lambda; J &phi; ( w S , w T )
步骤36、通过d×d矩阵U描述特征间的相关性,则训练样本之间的内积为
Figure G2009102382902D00000312
通过该转换函数,重新定义损失函数,即所述步骤35中的通用目标函数的第一项替换为:
Figure G2009102382902D0000041
步骤37、将模型复杂性的惩罚项Jφ(wS,wT)设定为正则化项,则重新设定通用目标函数为:
Figure G2009102382902D0000042
Figure G2009102382902D0000043
s.t.
其中,
Figure G2009102382902D0000045
表示正交归一化约束,以保证求解得到的投影矩阵U唯一;
步骤38、将步骤37的通用目标函数的等价凸形式设定如下:
min M , D &Sigma; i = 1 n 1 [ 1 - z S i < &alpha; 1 , x S i a - x S i b > ] +
+ C &Sigma; i = 1 n 2 [ 1 - z T i < &alpha; 2 , x T i a - x T i b > ] + + &lambda; &Sigma; t = 1 2 < &alpha; t , D + &alpha; t > - - - ( 2 )
s.t.D≥0
trace(D)≤1
range ( M ) &SubsetEqual; range ( D )
其中,M=[α1,α2]=UW,
Figure G2009102382902D0000049
并且
Figure G2009102382902D00000410
表示W的第i行;D的上标“+”表示矩阵D的伪逆;对于一个p×q的矩阵X,X的值域即
Figure G2009102382902D00000411
是指由其列向量张成的空间。
其中,所述方法还包括:
步骤39、通过迭代最小化算法求解所述步骤38中等价的凸问题,即过迭代算法优化矩阵M和D;具体为:
步骤391、保持矩阵D固定不变,并分别从源域及目标域中的训练数据中学习矩阵M=[α1,α2];
其中, &alpha; 1 = arg min { &Sigma; i = 1 n 1 [ 1 - z S i < &alpha; , x S i a - x S i b > ] + + &lambda; < &alpha; , D + &alpha; > } ;
&alpha; 2 = arg min { &Sigma; i = 1 n 2 [ 1 - z T i < &alpha; , x T i a - x T i b > ] + + &lambda; < &alpha; , D + &alpha; > } ;
步骤392、通过学到的矩阵M更新矩阵D;即
Figure G2009102382902D0000051
步骤393、判断是否收敛或是否达到最大迭代次数;如果是则进入步骤394;否则返回步骤391;
步骤394、在矩阵D上运用SVD分解,即
Figure G2009102382902D0000052
并根据D的最大和次大特征值对应的特征向量构建U;
步骤395、通过在公共隐空间中对源域和目标域中的已标号数据进行学习,从而得到目标域中的权向量wT *
Figure G2009102382902D0000053
Figure G2009102382902D0000054
步骤396、用学到的权向量wT *在目标域上预测新实例的排序等级
Figure G2009102382902D0000055
其中i=1-n。
上述技术方案具有如下优点:本发明提出了一个通用的框架(异构网络排序模型),在该框架中我们通过隐空间对两个域进行关联,并且分别在两个域上定义了各自的损失函数。然后本发明提出了一个能同时优化损失函数并进行隐空间学习的有效算法。由此可见,本发明利用目标域与源域之间的公共隐空间,将两个域中的样本均通过一个转换函数被映射到该隐空间中,该公共隐空间也潜在地量化了两个域之间的相关性。本发明在保持已标号数据中偏好顺序不变的同时,能够最小化目标域中未标注数据的错误,并提出了一个能同时优化损失函数并进行隐空间学习的有效算法。
附图说明
图1是本发明的优选实施例结构示意图。
图2是本发明的实施例中特征相关性分析结果图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
本发明的发明构思如下:在异构网络排序问题中,本发明的目标是从与目标域相关联的源域中迁移偏好信息,其中源域与目标域为异构网络。
由于在不同域之间对象类型以及他们特征的分布存在差异,首先需要解决的问题就是如何定量地度量两个域之间存在的相关性,以此来反映什么样的信息可以在不同域之间进行迁移。另一方面,本发明的最终目标是得到一个更高的排序性能。
基于上述考虑,本发明首先设定在两个域之间有一个公共隐空间。两个域中的样本均可以通过一个转换函数被映射到该隐空间中。而该公共隐空间也潜在地量化了两个域之间的相关性。然后,本发明在保持已标号数据中偏好顺序不变的同时,能够最小化目标域中未标注数据的错误。当从源域中迁移监督信息时,本发明也希望保持原来的偏好顺序,即我们希望最小化源域上的损失。因此,本发明提出了一个通用的框架(异构网络排序模型),在该框架中我们通过隐空间对两个域进行关联,并且分别在两个域上定义了各自的损失函数。然后本发明还提出了一个能同时优化损失函数并进行隐空间学习的有效算法。
本发明以下实施例都是基于上述构思实现的。由于对于给定目标域中已标号的训练数据
Figure G2009102382902D0000061
我们的目标是对每个查询qT k学习一个能够正确预测实例之间的偏好关系的排序函数fT,即
Figure G2009102382902D0000062
对于排序任务,基于学到的排序函数fT,我们可以预测新的实例的排序等级。
为了学习排序函数,我们可以最小化如下的损失函数:
Figure G2009102382902D0000071
其中,
Figure G2009102382902D0000073
是指示函数,即当π成立时函数值为1,否则为0;
Figure G2009102382902D0000074
统计目标域中的错误排序对的数目;η是权衡经验损失项(第一项R)和模型复杂性的惩罚项(第二项ε)的参数。
当从源域上迁移监督信息时,我们希望保持源域上实例的偏好顺序不变。为了联系两个异构空间中的实例,我们定义一个转换函数φ:
Figure G2009102382902D0000075
它将两个域中的实例均映射到d′维的公共隐空间中。
进而,本发明可以为异构网络排序问题,设定通用目标函数如下:
Figure G2009102382902D0000076
Figure G2009102382902D0000079
其中,Jφ(fS,fT)是对于异构网络排序模型复杂度的惩罚项;λ是调节经验损失和惩罚项的参数;C是为了控制两个域上样本数量的不平衡性的参数。
这样,我们就获得了一个对于异构网络排序问题的通用目标函数。为了使得目标函数最优,还需要找到最佳的参数(fS、fT和φ)。
找到最佳的参数(fS、fT和φ)的方法为:
在异构网络排序模型中,我们并不只是为了两个域学习排序函数fT和fS,同时也要学习转换函数φ。除此之外,我们希望去掉在知识迁移过程中不重要的特征,进而得到稀疏解。本发明采用了以下方法对找出最佳的参数(fS、fT和φ):
一、对异构网络排序模型框架进行初始化:
不失一般性,假设fT是实例空间上定义的线性函数:fT(x)=<wT,x>;
其中wT是通过训练数据学习到的参数(特征的权重),而<·>表示向量之间的内积。
将其替换公式错误!未找到引用源。,我们得到:
Figure G2009102382902D0000081
损失函数
Figure G2009102382902D0000082
并不连续,因此我们使用排序支持向量机(Ranking SVM)的铰链损失估计排序错误对的数目的上界。为了便于表述,我们定义下列记号:对于每个查询(k=1,…,nT),给定一个不同排序等级的实例对
Figure G2009102382902D0000084
Figure G2009102382902D0000085
以及该实例对对应的标号为
Figure G2009102382902D0000086
Figure G2009102382902D0000087
我们可以构造一个新的实例:
( x T i a - x T i b , z T i = + 1 y T i a > y T i b - 1 y T i a < y T i b ) - - - ( 6 )
因此,我们得到了目标域中一组由实例对构成的新的训练数据
Figure G2009102382902D0000089
对于源域,我们做同样的假设,并使用平行的记号wS以及
Figure G2009102382902D00000810
最后通过对原来损失函数的凸上界进行优化,我们将目标函数重新写为:
min w S , w T , &phi; &Sigma; i = 1 n 1 [ 1 - z S i < w S , ( &phi; ( x S i a ) - &phi; ( s S i b ) ) > ] +
+ C &Sigma; i = 1 n 2 [ 1 - z T i < w T , ( &phi; ( x T i a ) - &phi; ( x T i b ) ) > ] + - - - ( 7 ) .
+ &lambda; J &phi; ( w S , w T )
二、定义转换函数以及模型复杂性的惩罚项:
本发明采用d×d矩阵U描述特征间的相关性,进而样本之间的内积可以定义为
Figure G2009102382902D00000814
这种参数化方法等价于将每个样本投影到由
Figure G2009102382902D00000815
张成的隐空间中。通过该转换函数,我们可以重新定义损失函数,例如将公式错误!未找到引用源。中的第一项替换为:
Figure G2009102382902D00000816
对于模型复杂性的惩罚项Jφ(wS,wT),我们将其定义为正则化项,例如可以是源域和目标域中参数的(2,1)范数‖W‖2,1,其中W=[wS,wT]是d×2的矩阵,其第一列为wS而第二列为wT;W的(2,1)范数,定义为其中ai是W的第i行。在W的每一行中进行2范数正则化会使得在两个域上产生公共特征空间,而1范数会导致最后得到稀疏解。因此(2,1)范数正则化方法在表述两个域间相关性的同时引入了稀疏性。最后,我们重新定义目标函数为:
Figure G2009102382902D0000093
s.t.
Figure G2009102382902D0000094
其中,表示正交归一化约束,以保证求解得到的投影矩阵U唯一。
三、定义学习算法:
由于矩阵的非凸特性,直接求解目标函数(包括求解公式错误!未找到引用源。中的wS、wT和U)并不容易。不过我们可以得到目标函数公式错误!未找到引用源。的等价凸形式如下:
min M , D &Sigma; i = 1 n 1 [ 1 - z S i < &alpha; 1 , x S i a - x S i b > ] +
+ C &Sigma; i = 1 n 2 [ 1 - z T i < &alpha; 2 , x T i a - x T i b > ] + + &lambda; &Sigma; t = 1 2 < &alpha; t , D + &alpha; t > - - - ( 10 )
s.t.D≥0
trace(D)≤1
range ( M ) &SubsetEqual; range ( D )
其中,M=[α1,α2]=UW,
Figure G2009102382902D0000099
并且
Figure G2009102382902D00000910
表示W的第i行;D的上标“+”表示矩阵D的伪逆;对于一个p×q的矩阵X,它的值域(即range,又称列空间)是指由其列向量张成的空间,即
Figure G2009102382902D00000911
如果D被设为∞,目标函数将退化为只最小化经验损失,因此我们加入了对D的秩的约束。范围约束使得惩罚项的下界不为零。该等价形式也在多任务特征学习中使用。
作为优选,本发明可以通过迭代最小化算法求解等价的凸问题,在如下表的算法1中给出了算法流程:
算法1:异构网络排序模型
输入:训练集:
Figure G2009102382902D0000101
测试集:S
输出:排序函数
Figure G2009102382902D0000102
以及在测试集上预测的偏好:{yi}i=1 n
初始化: D = I d &times; d d
步骤1:发现隐空间
1:while没有达到最大迭代次数T do
2: &alpha; 1 = arg min { &Sigma; i = 1 n 1 [ 1 - z S i < &alpha; , x S i a - x S i b > ] + + &lambda; < &alpha; , D + &alpha; > }
3: &alpha; 2 = arg min { &Sigma; i = 1 n 2 [ 1 - z T i < &alpha; , x T i a - x T i b > ] + + &lambda; < &alpha; , D + &alpha; > }
4:M=[α1,α2]
5:令
Figure G2009102382902D0000106
6:end while
7:在D上使用SVD分解,
Figure G2009102382902D0000107
8:用D的最大和次大特征值对应的特征向量构建U
步骤2:隐空间中排序模型学习
9:
Figure G2009102382902D0000108
Figure G2009102382902D0000109
10:for i=1到n do
11: y i = < w T * , U T x i >
12:end for
其中,所述具体为:
步骤1:用迭代算法优化矩阵M和D;即:
步骤11、在第2至4行中,我们保持D固定不变,分别从两个域中的训练数据中学习α1和α2,也就是矩阵M;
步骤12、在第5行,我们通过学到的矩阵M更新矩阵D;
步骤13、重复进行上述步骤11和步骤12的迭代过程,直到收敛或者达到设定的最大迭代次数;
步骤14,在第7行和第8行,我们在学到的中间矩阵D上运用SVD分解,即
Figure G2009102382902D00001011
之后根据D的最大和次大特征值对应的特征向量构建U;
步骤2:在第9行,通过在隐空间中对两个域中的已标号数据进行学习,从而得到目标域中的权向量;
在第10到12行,用学到的权向量wT *在目标域上预测新实例的排序等级。
作为优选,为了提高排序的效率,本发明优选实施例还对上述算法的复杂性进行了设定。即:
异构网络排序算法中优化的两个矩阵的大小仅仅依赖于特征的数目,例如矩阵D是d×d的,而W是d×2的。矩阵D上的SVD分解复杂度为O(d3)。令N=n1+n2是用于训练的总样本数,s是非零特征数。用割平面算法,线性排序支持向量机训练需要时间复杂性为O(sN log(N)),令T为最大的迭代次数,算法的时间复杂度为O((2T+1)·sN log(N)+d3)。
下面,针对本发明的排序算法与现有排序算法进行比较以证明本发明的排序算法优于已有的排序算法:
(1)评估方法
为了定量评估我们的排序算法,本发明使用均值平均查准率(即MAP)和归一化的折扣累积增益(即NDCG)来评估实验结果。
和MAP不同的是,NDCG对于排序中认为最相关的文档给予更高的权重,而在MAP中所有相关的文档有相同的权重。在位置n上的NDCG定义为:
N @ n = Z n &Sigma; j = 1 n 2 r ( j ) - 1 log ( 1 + j )
其中,r(j)是第j个文档的排序,Zn是归一化因子。
(2)基线方法
本发明提出的排序算法标记为HCDRank。将本发明提出的方法和三种基线方法进行比较,其结果如表1所示。
排序支持向量机(RSVM)在信息检索中是一种经典的排序算法。但是该方法的设计初衷是为了在同构数据的单一域中进行排序训练。为了比较的公平,采用RSVM进行两组实验。在其中一组中,只在目标域
Figure G2009102382902D0000121
上训练排序模型;而另外一组中(称为RSVMt),将源域和目标域组合在一起进行训练。第三种比较方法是使用排序支持向量机铰链损失的多任务特征学习方法(称为MTRSVM)。
表格1:三种基线方法
Figure G2009102382902D0000122
上述实验在Windows XP系统,双核AMD双核速龙处理器(2GHz)以及2G内存上进行。我们使用SVMlight的线性核以及默认参数实现RSVM、RSVMt以及MTRSVM的偏好学习步骤。我们将最大迭代次数I设置为50。并且除了特别说明外,我们使用格点搜寻法从{2-6,2-5,2-4,2-3,2-2,2-1,1,2,22,23,24,25}中选择参数C。所有实验结果均为10次重复实验的平均。
(3)数据集
我们使用学术异构网络作为实验数据集。这里我们使用了从ArnetMiner的日志中得到的44个最频繁的查询关键词(如“datamining”(数据挖掘)及“information retrieval”(信息检索))。其中ArnetMiner是搜索引擎,可以从http://www.arnetminer.org/中获得。在本实施例中只是引用该搜索引擎的数据,亦可从其他引擎中获得,并不以此为限定。
为了得到标准答案,对于每个查询关键词,本发明从三个在线学术搜索引擎(Libra、Rexa以及ArnetMiner)中分别选择前30个查询结果并组成一个合并的列表。之后,标注者会根据每一个专家发表论文的数量、论文和相应查询关键词的相关性、他所发表在顶级期刊会议上的论文数目、以及他所获得荣誉等标准评价该专家的排序等级。一共有4种排序等级(分别为3,2,1和0),依次表示:绝对相关>相关>临界相关>不相关。
在这个实验中,本发明将要研究异构数据之间通过相互关联是否可以学习得到更好的排序结果?我们使用某一类型的标注数据(如会议)作为源域,而使用另两类数据(如专家和论文)作为目标域,主要是考虑到有标注的会议数据较易获得。因此本实验的目标是迁移会议信息帮助排序专家。
(4)特征定义
我们使用一个专家发表的所有论文的标题组成的长串文本作为专家的描述文字,而使用一个会议中发表的全部论文的标题组成的长串文本作为会议的描述文字。我们对这些实体定义特征,并总结在表2中。对于每一个实体的描述文字,有10个低层次的内容特征(如L1是词频(TF),L5是逆文档频率(IDF))和3个高层次的内容特征(如H1和H2表示原始的BM25值以及该值的对数运算结果,H3表示基于文本的语言模型的生成概率值)。S1-S3是会议独有的特征,分别表示了会议举办的年数,文章被引用的总次数。S4-S7是专家独有的特征,例如该专家第一篇文章发表的年份,所有发表过的文章总数以及所有文章被引用的总次数。总结起来,我们为会议定义了16个特征(L1一L10、H1-H3以及S1-S3),为专家定义了17个特征(L1-L10,H1-H3以及S4-S7)。
我们在查询关键词上归一化原始的特征向量。如果第i个查询关键词对应的描述文本集表示为{dj (i)}j=1 N(i),则归一化之后,文档dj (i)的特征xj (i)
x j ( i ) - min k = 1 , &CenterDot; &CenterDot; &CenterDot; , N ( i ) { x k ( i ) } max k = 1 , &CenterDot; &CenterDot; &CenterDot; , N ( i ) { x k ( i ) } - min k = 1 , &CenterDot; &CenterDot; &CenterDot; , N ( i ) { x k ( i ) } - - - ( 11 )
表格2:学术异构网络迁移排序的特征定义
  特征   描述
  L1-L10   低层次内容特征
  H1-H3   高层次内容特征
  S1   该会议举办的年数
  S2   最近5年中该会议的文章被引用的总次数
  S3   最近10年中该会议的文章被引用的总次数
  S4   该专家发表他的第一篇文章距今的年数
  S5   该专家的文章被引用的总次数
  S6   该专家的文章被引用在5次以上的数目
  S7   该专家的文章被引用在10次以上的数目
(5)结果和分析
在本实验中,我们从目标域中选择一个查询关键词和其对应的文档作为标注数据。后面的实验结果是对所有查询关键词的平均。参数C设为1。
对于基线方法,除了RSVM、RSVMt和MTRSVM外,我们还将我们的算法性能和两个在线学术搜索系统的查询结果进行比较:Libra以及Rexa,这些学术搜索系统主要基于无监督的学习算法,例如语言模型。表3展示了不同方法得到的结果,我们的方法用HCDRank表示,通过观察可以得到以下要点:
表格3:专家发现问题中不同方法的结果
Figure G2009102382902D0000151
查询精度在所有的方法中,我们的异构网络迁移排序模型的精度优于其它的五种基线方法。RSVM和MTRSVM的实验结果较为接近,这说明当目标域中的标注数据稀少时,MTRSVM并不能充分地进行迁移学习。同时,我们还可以发现所有的学习排序模型都优于两个在线系统的搜索结果,这说明在特定的领域中,一些监督信息对于提高排序性能是十分有帮助的。
特征分析图2中展示了从该数据集中最后学到的权向量。我们可以看出,wT *可以从两个域中发现数据信息,并调整从单一域的数据中学到的权重,使得在目标域中进行更好的偏好预测。这也是我们提出的算法可以胜出的主要原因。表4中按照权值绝对值的降序,列出了在学术数据集上10个最为重要的特征,包括低层次内容特征中的L2、L6、L9、L10以及高层次特征的H1-H3,和独有特征中的S1、S2和S4。
表格4:从学术数据集中学到的10个最重要特征权重
 IDs   Features   Weights
 14101213112179156   S1L10H2H3H1L2S4L9S2L6   2.722.512.502.001.581.511.131.050.990.63
由上例可以看出,迁移方法有效最主要的原因是:即便在异构网络中,实体之间也存在潜在的依赖关系,而我们可以从该潜在依赖关系中发现一些公共特征。例如在专家搜索中,专家和会议通过发表的论文联系起来。发现的潜在依赖关系可以用来在异构实体间迁移监督知识。本发明所提出的算法可以有效地发现异构网络中的公共隐空间,因此会得到更好的专家搜索性能。
从实验结果可以看出,我们的方法所有的评测结果都优于其他三种方法。实验表明,我们提出的异构网络排序方法是切实有效的。
以上所述仅是本发明的实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。

Claims (5)

1.一种基于公共隐空间的异构网络排序方法,包括:
步骤1、设定源域与目标域之间的公共隐空间,并将源域与目标域的训练样本通过转换函数映射到该公共隐空间内;
步骤2、设定通用目标函数;并通过公共隐空间对源域与目标域进行关联,并为源域和目标域上分别设定损失函数;
步骤3、优化损失函数并进行公共隐空间学习。
2.根据权利要求1所述的基于公共隐空间的异构网络排序方法,其特征在于,所述步骤1具体为:
设定转换函数
Figure F2009102382902C0000011
所述转换函数将源域与目标域中的实例均映射到d′维的公共隐空间中。
3.根据权利要求1所述的基于公共隐空间的异构网络排序方法,其特征在于,所述步骤2具体为:
步骤21、最小化如下的损失函数:
Figure F2009102382902C0000012
Figure F2009102382902C0000013
其中,
Figure F2009102382902C0000014
是指示函数,即当π成立时函数值为1,否则为0;
Figure F2009102382902C0000015
统计目标域中的错误排序对的数目;η是权衡经验损失项R和模型复杂性的惩罚项ε的参数;
步骤22、为异构网络排序问题,设定通用目标函数如下:
Figure F2009102382902C0000016
其中,Jφ(fS,fT)是对于异构网络排序模型复杂度的惩罚项;λ是调节经验损失和惩罚项的参数;C是为了控制两个域上样本数量的不平衡性的参数。
4.根据权利要求1所述的基于公共隐空间的异构网络排序方法,其特征在于,所述步骤3具体为:
步骤31、设定fT是实例空间上的线性函数fT(x)=<wT,x>;
其中wT是通过训练数据学习到的参数,即特征的权重;<·>表示向量之间的内积;
步骤32、将fT(x)=<wT,x>替换损失函数得到:
Figure F2009102382902C0000021
步骤33、对目标域的损失函数
Figure F2009102382902C0000022
采用排序支持向量机的铰链损失估算排序错误对的数目的上界,具体为:
对于每个查询
Figure F2009102382902C0000023
给定一个不同排序等级的实例对
Figure F2009102382902C0000024
以及该实例对对应的标号为
Figure F2009102382902C0000025
则新实例表示为:
x T i a - x T i b , z T i = + 1 y T i a > y T i b - 1 y T i a < y T i b
以此得到目标域中新的训练数据
Figure F2009102382902C0000027
步骤34、对源域采用上述步骤31~步骤33的方法得到源域的wS以及
Figure F2009102382902C0000028
wS是通过训练数据学习到的参数,即特征的权重。
步骤35、对损失函数的凸上界进行优化,并将所述通用目标函数重新写为:
min w S , w T , &phi; &Sigma; i = 1 n 1 [ 1 - z S i < w S , ( &phi; ( x S i a ) - &phi; ( x S i b ) ) > ] +
+ C &Sigma; i = 1 n 2 [ 1 - z T i < w T , ( &phi; ( x T i a ) - &phi; ( x T i b ) ) > ] + ;
+ &lambda;J &phi; ( w S , w T )
步骤36、通过d×d矩阵U描述特征间的相关性,则训练样本之间的内积为
Figure F2009102382902C00000212
;通过该转换函数,重新定义损失函数,即所述步骤35中的通用目标函数的第一项替换为:
步骤37、将模型复杂性的惩罚项Jφ(wS,wT)设定为正则化项,则重新设定通用目标函数为:
Figure F2009102382902C0000032
Figure F2009102382902C0000033
s.t.
Figure F2009102382902C0000034
其中,表示正交归一化约束,以保证求解得到的投影矩阵U唯一;
步骤38、将步骤37的通用目标函数的等价凸形式设定如下:
min M , D &Sigma; i = 1 n 1 [ 1 - z S i < &alpha; 1 , x S i a - x S i b > ] +
+ C &Sigma; i = 1 n 2 [ 1 - z T i < &alpha; 2 , x T i a - x T i b > ] + + &lambda; &Sigma; t = 1 2 < &alpha; t , D + &alpha; t > - - - ( 1 )
s.t.D≥0
trace(D)≤1
range ( M ) &SubsetEqual; range ( D )
其中,M=[α1,α2]=UW,并且
Figure F2009102382902C00000310
表示W的第i行;D的上标“+”表示矩阵D的伪逆;对于一个p×q的矩阵X,X的值域即
Figure F2009102382902C00000311
是指由其列向量张成的空间。
5.根据权利要求4所述的基于公共隐空间的异构网络排序方法,其特征在于,所述方法还包括:
步骤39、通过迭代最小化算法求解所述步骤38中等价的凸问题,即过迭代算法优化矩阵M和D;具体为:
步骤391、保持矩阵D固定不变,并分别从源域及目标域中的训练数据中学习矩阵M=[α1,α2];
其中, &alpha; 1 = arg min { &Sigma; i = 1 n 1 [ 1 - z S i < &alpha; , x S i a - x S i b > ] + + &lambda; < &alpha; , D + &alpha; > } ;
&alpha; 2 = arg min { &Sigma; i = 1 n 2 [ 1 - z T i < &alpha; , x T i a - x T i b > ] + + &lambda; < &alpha; , D + &alpha; > } ;
步骤392、通过学到的矩阵M更新矩阵D;即
步骤393、判断是否收敛或是否达到最大迭代次数;如果是则进入步骤394;否则返回步骤391;
步骤394、在矩阵D上运用SVD分解,即
Figure F2009102382902C0000043
,并根据D的最大和次大特征值对应的特征向量构建U;
步骤395、通过在公共隐空间中对源域和目标域中的已标号数据进行学习,从而得到目标域中的权向量wT *
Figure F2009102382902C0000044
Figure F2009102382902C0000045
步骤396、用学到的权向量wT *在目标域上预测新实例的排序等级其中i=1-n。
CN200910238290A 2009-11-24 2009-11-24 一种基于公共隐空间的异构网络排序方法 Pending CN101710338A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200910238290A CN101710338A (zh) 2009-11-24 2009-11-24 一种基于公共隐空间的异构网络排序方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200910238290A CN101710338A (zh) 2009-11-24 2009-11-24 一种基于公共隐空间的异构网络排序方法

Publications (1)

Publication Number Publication Date
CN101710338A true CN101710338A (zh) 2010-05-19

Family

ID=42403128

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910238290A Pending CN101710338A (zh) 2009-11-24 2009-11-24 一种基于公共隐空间的异构网络排序方法

Country Status (1)

Country Link
CN (1) CN101710338A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750338A (zh) * 2012-06-04 2012-10-24 天津大学 面向迁移学习的文本处理方法及其文本特征提取方法
CN103049629A (zh) * 2011-10-17 2013-04-17 阿里巴巴集团控股有限公司 一种检测噪音数据的方法及装置
CN103559318A (zh) * 2013-11-21 2014-02-05 北京邮电大学 对异质信息网络包含的对象进行排序的方法
CN103729648A (zh) * 2014-01-07 2014-04-16 中国科学院计算技术研究所 领域自适应模式识别方法及系统
CN109189921A (zh) * 2018-08-07 2019-01-11 阿里巴巴集团控股有限公司 评论评估模型的训练方法和装置
CN109711925A (zh) * 2018-11-23 2019-05-03 西安电子科技大学 具有多个辅助域的跨域推荐数据处理方法、跨域推荐系统

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103049629A (zh) * 2011-10-17 2013-04-17 阿里巴巴集团控股有限公司 一种检测噪音数据的方法及装置
CN103049629B (zh) * 2011-10-17 2016-08-10 阿里巴巴集团控股有限公司 一种检测噪音数据的方法及装置
CN102750338A (zh) * 2012-06-04 2012-10-24 天津大学 面向迁移学习的文本处理方法及其文本特征提取方法
CN103559318A (zh) * 2013-11-21 2014-02-05 北京邮电大学 对异质信息网络包含的对象进行排序的方法
CN103559318B (zh) * 2013-11-21 2016-08-17 北京邮电大学 对异质信息网络包含的对象进行排序的方法
CN103729648A (zh) * 2014-01-07 2014-04-16 中国科学院计算技术研究所 领域自适应模式识别方法及系统
CN103729648B (zh) * 2014-01-07 2017-01-04 中国科学院计算技术研究所 领域自适应模式识别方法及系统
CN109189921A (zh) * 2018-08-07 2019-01-11 阿里巴巴集团控股有限公司 评论评估模型的训练方法和装置
CN109189921B (zh) * 2018-08-07 2021-09-07 创新先进技术有限公司 评论评估模型的训练方法和装置
CN109711925A (zh) * 2018-11-23 2019-05-03 西安电子科技大学 具有多个辅助域的跨域推荐数据处理方法、跨域推荐系统

Similar Documents

Publication Publication Date Title
Bohr et al. Key topics in environmental sociology, 1990–2014: Results from a computational text analysis
Liang et al. Finding relevant papers based on citation relations
CN102792262B (zh) 使用权利要求分析排序知识产权文档的方法和系统
Feng et al. Forecasting the number of inbound tourists with Google Trends
Brazdil et al. Metalearning and algorithm selection: progress, state of the art and introduction to the 2018 special issue
CN100583804C (zh) 基于专家值传播算法的社会网络专家信息处理系统及方法
Mi et al. Probabilistic graphical models for boosting cardinal and ordinal peer grading in MOOCs
CN110717654B (zh) 基于用户评论的产品质量评价方法和系统
CN101710338A (zh) 一种基于公共隐空间的异构网络排序方法
Duan et al. Semi-supervised learning with generative model for sentiment classification of stock messages
Shingari et al. A review of applications of data mining techniques for prediction of students’ performance in higher education
Zhang et al. A novel personalized citation recommendation approach based on GAN
Bhattacharya et al. Intent-aware contextual recommendation system
Lebib et al. Enhancing information source selection using a genetic algorithm and social tagging
Xu et al. Leveraging app usage contexts for app recommendation: a neural approach
CN115329085A (zh) 一种社交机器人分类方法及系统
Syed et al. Personalized recommendation system for advanced learning management systems
Kaur Web content classification: a survey
Folorunso et al. Effects of data normalization on water quality Model in a recirculatory aquaculture system Using artificial neural network
CN111552882B (zh) 一种新闻影响力计算方法、装置、计算机设备及存储介质
Davis et al. Machine learning‐assisted industrial symbiosis: Testing the ability of word vectors to estimate similarity for material substitutions
CN106951517B (zh) 狭隘范围内文献的多样性查询方法
Qi et al. Application of LDA and word2vec to detect English off-topic composition
Qian et al. [Retracted] Study on Employee Performance Evaluation Based on Adaptive Feature Selection Fuzzy Algorithm
CN101719152A (zh) 搜索特定专家的装置和方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20100519