CN103106278A - 权重值的获取方法及装置 - Google Patents

权重值的获取方法及装置 Download PDF

Info

Publication number
CN103106278A
CN103106278A CN2013100529114A CN201310052911A CN103106278A CN 103106278 A CN103106278 A CN 103106278A CN 2013100529114 A CN2013100529114 A CN 2013100529114A CN 201310052911 A CN201310052911 A CN 201310052911A CN 103106278 A CN103106278 A CN 103106278A
Authority
CN
China
Prior art keywords
ndcg
scoring functions
given
webpage
sequences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2013100529114A
Other languages
English (en)
Inventor
陈瑶文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PEOPLE SEARCH NETWORK AG
Original Assignee
PEOPLE SEARCH NETWORK AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PEOPLE SEARCH NETWORK AG filed Critical PEOPLE SEARCH NETWORK AG
Priority to CN2013100529114A priority Critical patent/CN103106278A/zh
Publication of CN103106278A publication Critical patent/CN103106278A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明提供了一种权重值的获取方法及装置。上述方法包括:采用势能函数建模,获取在给定打分函数情况下网页的多个排序出现的概率值,其中,所述势能函数
Figure DDA00002839295000011
R表示排序,S表示所述打分函数,f(m)为与m相关的归一化函数,m为网页总数,ri为第i个网页的排名,Si为第i个网页的打分;采用所述概率值获取给定所述打分函数情况下的期望标准化折扣累积增量NDCG;在所述期望NDCG最大化时,获取所述打分函数的权重值。根据本发明提供的技术方案,简化了运算,提高了计算速度并节省了计算时间。

Description

权重值的获取方法及装置
技术领域
本发明涉及通信领域,具体而言,涉及一种权重值的获取方法及装置。
背景技术
网页搜索中至关重要的一环就是对给定查询下,返回按照相关性等因素排序好的网页。而影响排序的因素一般有很多,例如,查询跟网页的文本相关度,网站的权威度,查询的意图等等。通过综合考虑这些因素进行排序,在实现上一般会采用人工调权跟机器学习相结合的方法。
所谓人工调权,就是工程师对影响排序结果的各种因素人工手动调整权重,这样能很方便工程师对特定情况的调整。
在机器学习方法中,一般会假设学习出来一个打分函数f(q,d)=∑wiφi(q,d),其中φi(q,d)为第i个影响网页d关于查询q的排序因素,wi为其对应的权重。学习出来打分函数后,使用打分函数对给定查询q下的若干个返回文档d进行打分,然后按照打分结果进行排序就得到该查询下返回网页的一个排序。
学习出打分函数来后,面临一个评估的问题:即如何知道打分函数的好坏。相关性评估中一般使用标准化折扣累积增量(Normalized Discounted Cumulative Gain,简称为NDCG)指标(其他还有MAP,ERR),通过一定计算方法,对返回结果中前若干个网页,得出该指标的指标值,值越高则这些结果相关性越好,反之越不好。
目前机器学习方法中,主要通过三种方式来实现。一种是通过拟合标注的查询-网页的相关程度来实现,一般用0档至4档,其中档越高越相关。这种只考虑每个查询-文档对的办法,叫做Point-wise方式。另一种考虑同一个查询下,两个网页的标注相关程度的不同,使得打分函数的学习中尽可能学习出这种差异从而来保证相对顺序,这种即Pair-wise方式。最后一种是List-wise方式,这种方式被普遍认为更加合理,即直接考虑一个查询下,前若干结果应该怎么排序的,再对这个序进行优化。
BoltRank是一种基于List-wise方式的方法。为了衡量一个排序的好坏,需要计算条件概率P(R|S)。为了计算P(R|S),可以先定义E(R|S)为一势能函数,当S与R兼容较好时,势能较小(为一个负数,意味着Sj大于Sk时,j排在k的前面,从而rj小于rk),条件概率相应较大;S与R兼容较差时,势能较大,从而条件概率较小。
在BoltRank中,为了计算NDCG的期望值,引入了一个势能函数来建模给定打分函数后某个排序出来的概率,并给出了一个直观的公式(参见下式(1))用于计算。
E ( R | S ) = 2 m ( m - 1 ) Σ rj > rk ( r j - r k ) ( s j - s k ) - - - ( 1 )
其中,R表示排序,S表示打分函数,f(m)为与m相关的归一化函数,m为网页总数,rj为第j个网页的排名,rk为第k个网页的排名,Sj为第j个网页的打分,Sk为第k个网页的打分。
由(1)式可知,在进行累加的过程中,需要考虑两个变量rj和rk,因此根据该式进行计算P(R|S),复杂度为O(N2)。即,通过该式直接计算在给定打分函数情况下网页多个排序出现的概率值比较费时。
另外,为了保证符合概率分布,需要对所有排列计算出来的势能用于归一化,如式(2)所示。
P ( R | S ) = e - E ( R | S ) Σ R ′ e - E ( R ′ | S ) - - - ( 2 )
例如,如果有10个网页,那么这10个网页的所有全排列个数就达362万多。对于再大点的数字,这是不可接受的,计算耗时承受不了。于是,BoltRank不是计算所有全排列,再归一化,而是从全排列中抽样出一定数目的排列,再在抽样后的排列上做归一化。
Boltrank从所有可能的排序中抽样出部分有代表性的排序来模拟计算,可见这是一种蒙特卡洛的计算方法。Boltrank并不是随便抽取排序,而是根据人工标注的相关性,抽一些使得NDCG值比较高的排序出现较多。这其实是一种重要性抽样算法,而且假定这些高概率的排序出现的概率是相等的,即抽样的经验分布函数是一个连续的(Uniform)分布,q(R)=1。但是实际情况是这些排序出现的概率肯定是不等的,因此Boltrank算法建立的模型准确度较低。
发明内容
本发明提供了一种权重值的获取方法及装置,以至少解决相关技术中直接计算在给定打分函数情况下网页的多个排序出现的概率值比较费时的问题。
根据本发明的一个方面,提供了一种权重值的获取方法,包括:采用势能函数建模,获取在给定打分函数情况下网页的多个排序出现的概率值,其中,所述势能函数 E ( R | S ) = f ( m ) Σ r i = 1 m ( 2 r i - m - 1 ) s i , R表示排序,S表示所述打分函数,f(m)为与m相关的归一化函数,m为网页总数,ri为第i个网页的排名,Si为第i个网页的打分;采用所述概率值获取给定所述打分函数情况下的期望标准化折扣累积增量NDCG;在所述期望NDCG最大化时,获取所述打分函数的权重值。
根据本发明的另一方面,提供了一种权重值的获取装置,包括:第一获取模块,用于采用势能函数建模,获取在给定打分函数情况下网页的多个排序出现的概率值,其中,所述势能函数 E ( R | S ) = f ( m ) Σ r i = 1 m ( 2 r i - m - 1 ) s i , R表示排序,S表示所述打分函数,f(m)为与m相关的归一化函数,m为网页总数,ri为第i个网页的排名,Si为第i个网页的打分;第二获取模块,用于采用所述概率值获取给定所述打分函数情况下的期望标准化折扣累积增量NDCG;第三获取模块,用于在所述期望NDCG最大化时,获取所述打分函数的权重值。
通过本发明,将势能函数进行简化,采用简化后的势能函数建模,获取在给定打分函数情况下网页的多个排序出现的概率值,采用该概率值获取给定所述打分函数情况下的期望标准化折扣累积增量(NDCG);在所述期望NDCG最大化时,获取所述打分函数的权重值。解决了相关技术中直接计算在给定打分函数情况下网页的多个排序出现的概率值比较费时的问题,进而简化了运算,提高了计算速度并节省了计算时间。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的权重值的获取方法的流程图;
图2是根据本发明优选实施例的权重值的获取方法的流程图;
图3是根据本发明优选实施例的权重值的获取方法的算法示意图;
图4是根据本发明实施例的权重值的获取装置的结构框图;以及
图5是根据本发明优选实施例的权重值的获取方法的结构框图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
图1是根据本发明实施例的权重值的获取方法的流程图。如图1所示,该权重值的获取方法包括以下处理:
步骤S101:采用势能函数建模,获取在给定打分函数情况下网页的多个排序出现的概率值,其中,上述势能函数 E ( R | S ) = f ( m ) Σ r i = 1 m ( 2 r i - m - 1 ) s i , R表示排序,S表示上述打分函数,f(m)为与m相关的归一化函数,m为网页总数,ri为第i个网页的排名,Si为第i个网页的打分;
步骤S103:采用上述概率值获取给定上述打分函数情况下的期望标准化折扣累积增量(NDCG);
步骤S105:在上述期望NDCG最大化时,获取上述打分函数的权重值。
相关技术中,直接计算在给定打分函数情况下网页的多个排序出现的概率值比较费时。在图1所示的方法中,将势能函数进行简化,采用简化后的势能函数建模,即 E ( R | S ) = f ( m ) Σ r i = 1 m ( 2 r i - m - 1 ) s i , 获取在给定打分函数情况下网页的多个排序出现的概率值,采用该概率值获取给定上述打分函数情况下的期望标准化折扣累积增量(NDCG);在上述期望NDCG最大化时,获取上述打分函数的权重值。
其中,根据 E ( R | S ) = f ( m ) Σ r i = 1 m ( 2 r i - m - 1 ) s i 可知,在进行累加的过程中,需要考虑一个变量ri,因此根据该式进行计算P(R|S),复杂度为O(N)。即,计算在给定打分函数情况下网页多个排序出现的概率值时间上节省了一个数量级。
因而采用图1所示的方法简化了运算,提高了计算速度并节省了计算时间。
优选地,上述步骤S101中公式 E ( R | S ) = f ( m ) Σ r i = 1 m ( 2 r i - m - 1 ) s i 的f(m)可以等于
Figure BDA00002839294800044
当然,f(m)也不限于此,可以为与m相关的归一化函数。
在优选实施过程中,对于上述公式(1),即 E ( R | S ) = 2 m ( m - 1 ) Σ rj > rk ( r j - r k ) ( s j - s k ) , 先抛开前面的常数项
Figure BDA00002839294800046
ri为文档i的排名,取排名函数的反函数:r-1(i)。由此可知,r-1(i)为排在第i位的文档的下标。
Σ r j > r k ( r j - r k ) · ( s j - s k ) = Σ j > = k ( j - k ) · ( s r - 1 ( j ) - s r - 1 ( k ) ) - - - ( 3 )
公式(3)中取到等号是显然的,下一步把
Figure BDA00002839294800048
分离开来,得到下述公式(4)。
Σ j > = k ( j - k ) · s r - 1 ( j ) = Σ j = 1 m Σ k = 1 j ( j - k ) · ( s r - 1 ( j ) ) = Σ j = 1 m s r - 1 ( j ) · j ( j - 1 ) 2 - - - ( 4 )
同理,类推得到公式(5)
Σ j > = k ( j - k ) · s r - 1 ( k ) = Σ k = 1 m Σ j = k m ( j - k ) · ( s r - 1 ( k ) ) = Σ k = 1 m s r - 1 ( k ) · ( m - k ) ( m - k + 1 ) 2 - - - ( 5 )
由于r-1(i)是一个排列函数,每个值都能取到,因此公式(4)与公式(5)中的下标可以合并,合并后得公式(6)。
Σ i = 1 m m ( 2 i - m - 1 ) · s r - 1 ( i ) = Σ r i = 1 m m ( 2 r i - m - 1 ) · s i - - - ( 6 )
因此,根据公式(6)可以进一步得到上述步骤S101中公式,即 E ( R | S ) = f ( m ) Σ r i = 1 m ( 2 r i - m - 1 ) s i .
优选地,在获取在给定打分函数情况下多个排序出现的概率值之前,还可以包括以下处理:
步骤(1):初始化上述打分函数的各个权重值;
步骤(2):采用上述打分函数对预定查询的多个查询结果进行打分;
步骤(3):对于预定查询的多个查询结果进行排序,获取上述所有排序。
步骤(4):根据抽样的经验分布函数在所有排序中抽取上述多个排序,其中,上述经验分布函数q(R)=P(R|L),P(R|L)为给定人工标注数据L情况下,生成排序R的概率。
需要说明的是,上述预定查询可以是一个或多个查询,对于多个查询,获取期望NDCG,可以保证算法的可靠性。
优选地,步骤S103中,采用上述概率值获取给定上述打分函数情况下的期望NDCG可以包括以下处理:对上述多个排序中的每个排序R’,将该排序对应的NDCG值与P(R’|S)相乘,获取多个相乘结果,其中,P(R’|S)为在给定打分函数情况下该排序出现的概率值;将上述多个相乘结果进行累加获取上述期望NDCG。
则经过推导,可以通过以下公式获取上述期望NDCG:
E ( NDCG ) = Σ R ( Q ( R | S ) * NDCG ( R ) ) Q ( R | L ) Σ R Q ( R | S ) Q ( R | L )
其中,Q(R|S)=e-E(R|S),Q(R|L)=e-E(R|L),NDCG(R)为对排序R计算出来的NDCG值,L为给定的人工标注数据,E(NDCG)为上述期望NDCG。
下面对获取上述期望NDCG的优选实施方式进行描述。
前面已经提到,当一个查询(query)下对应的文档数为N时,那么对应的排序数有N!种,当N较大时,不可能考虑每个排序的。故P(R|S)是不能被准确计算出来的。因此在计算期望时,只能用蒙特卡洛的办法来模拟计算该期望值。
考虑重要性抽样算法,已知未正规化概率函数p’(x)以及q’(x),正规化概率函数分别为:
p ( x ) = p ′ ( x ) N p , q ( x ) = q ′ ( x ) N q - - - ( 7 )
根据公式(7)可以进一步得出下式(8):
∫ x p ( x ) · f ( x ) = Σ i ( p ′ ( x i ) q i ( x i ) ) · f ( x i ) Σ i p ′ ( x i ) q i ( x i ) - - - ( 8 )
为了计算f(x)在p(x)分布下的期望值,可以根据q(x)来抽样N个样本,计算f(x)的加权平均,p’(x)以及q’(x)为对应的未归一化概率函数。这样,BoltzRank论文中的抽样相当于q(x)=1,也就是连续分布,代入了上式(8)得到了BoltzRank中计算期望NDCG的公式(9)。
E ( NDCG ) = Σ R ( Q ( R | S ) · NDCG ( R ) ) Σ R Q ( R | S ) - - - ( 9 )
但是q(x)=1,其实是不合理的。如果是连续分布就不能抽样出很多较好的排序,从而不是重要的。显然,在本发明中,当q(R)=P(R|L)时,可以修复这个漏洞,也就是产生的排序如果跟人工标注数据L(即预先标好的分档)兼容越好,则产生概率越大。修复后,目标函数的计算化为上述公式,即:
E ( NDCG ) = Σ R ( Q ( R | S ) * NDCG ( R ) ) Q ( R | L ) Σ R Q ( R | S ) Q ( R | L )
需要说明的是,在执行完步骤S103之后,需要更新当前打分函数的各个权重值;之后返回执行步骤(2)、步骤(3)、步骤(4)、步骤S101以及步骤S103。以此类推,这些步骤按次序循环执行,直至期望NDCG最大化时,最终获取上述打分函数的权重值并输出。
本发明提出的irank算法模型比Boltrank算法模型准确度高。这一点可以通过实例验证。以微软Letor3的数据集OHSUMED为例,以下测试在其中2个Fold(Fold可以看做对数据的合并)上,用train.txt训练出来,并在test.txt上的比对,结果参见表1和表2。表1和表2中,NDCGN(N=1,2,3,4,5)表示前N个排序结果的NDCG值。
表1
Figure BDA00002839294800071
表2
Figure BDA00002839294800072
由表1和表2可知,基于irank算法的NDCGN值均大于基于Boltrank算法的NDCGN值,因此irank算法模型比Boltrank算法模型准确度高。
以下结合图2和图3进一步描述上述优选实施方式。
图2是根据本发明优选实施例的权重值的获取方法的流程图。图3是根据本发明优选实施例的权重值的获取方法的算法示意图。如图2所示,该权重值的获取方法包括:
步骤S201:初始化打分函数各权重值(例如,设为0)。
步骤S203:对于每个查询q,对q下面标注的每一个文档d,用打分函数f(q,d)=∑wiφi(q,d)打分,得出S。
步骤S205:对于查询q下文档的所有排列中,根据经验分布函数q(R)=P(R|L)抽样出多个排列,对每一个抽样的排列R,计算它的NDCG得分NDCG(R),最后计算出在给定打分函数情况下网页的该排序出现的概率值P(R|S)。
在优选实施过程中,采用势能函数建模,获取在给定打分函数情况下网页的该排序出现的概率值P(R|S),其中,上述势能函数 E ( R | S ) = f ( m ) Σ r i = 1 m ( 2 r i - m - 1 ) s i , R表示排序,S表示上述打分函数,f(m)为与m相关的归一化函数,m为网页总数,ri为第i个网页的排名,Si为第i个网页的打分。
步骤S207:对每个查询q,计算出期望NDCG值,即E(NDCG),将查询q对应的E(NDCG)加总起来获取E’(NDCG),再计算出E’(NDCG)相对与各个打分函数权重系数的梯度向量。
步骤S209:使用梯度下降或者L-BFGS类算法更新上述打分函数中的权重值。
迭代步骤S203到步骤S209,直到期望NDCG不在变化或变化很小。
步骤S211:在上述期望NDCG最大化时,获取上述打分函数的权重值并输出。
图4是根据本发明实施例的权重值的获取装置的结构框图。如图4所示,该权重值的获取装置包括:第一获取模块40,用于采用势能函数建模,获取在给定打分函数情况下网页的多个排序出现的概率值,其中,上述势能函数 E ( R | S ) = f ( m ) Σ r i = 1 m ( 2 r i - m - 1 ) s i , R表示排序,S表示上述打分函数,f(m)为与m相关的归一化函数,m为网页总数,ri为第i个网页的排名,Si为第i个网页的打分;第二获取模块42,与第一获取模块40相连接,用于采用上述概率值获取给定上述打分函数情况下的期望标准化折扣累积增量NDCG;第三获取模块44,与第二获取模块42相连接,用于在上述期望NDCG最大化时,获取上述打分函数的权重值。
在图4所示的装置中,第一获取模块40采用简化后的势能函数建模,获取在给定打分函数情况下网页的多个排序出现的概率值,第二获取模块42采用该概率值获取给定上述打分函数情况下的期望标准化折扣累积增量(NDCG);第三获取模块44在上述期望NDCG最大化时,获取上述打分函数的权重值。解决了相关技术中直接计算在给定打分函数情况下网页的多个排序出现的概率值比较费时的问题,进而简化了运算,提高了计算速度并节省了计算时间。
优选地,上述公式 E ( R | S ) = f ( m ) Σ r i = 1 m ( 2 r i - m - 1 ) s i 的f(m)可以等于
Figure BDA00002839294800083
当然,f(m)也不限于此,可以为与m相关的归一化函数。
优选地,如图5所示,该装置还可以包括:抽取模块46,与第一获取模块40相连接,用于根据抽样的经验分布函数在所有排序中抽取上述多个排序,其中,上述经验分布函数q(R)=P(R|L),P(R|L)为给定人工标注数据L情况下,生成排序R的概率。
优选地,如图5所示,该装置还可以包括:初始化模块48,用于初始化上述打分函数的各个权重值;打分模块50,与初始化模块48相连接,用于采用上述打分函数对预定查询的多个查询结果进行打分;第四获取模块52,与打分模块50相连接,用于对于上述多个查询结果进行排序,获取上述所有排序。
在优选实施过程中,第二获取模块42可以进一步对上述多个排序中的每个排序R’,将该排序对应的NDCG值与P(R’S)相乘,获取多个相乘结果,其中,P(R’|S)为在给定打分函数情况下该排序出现的概率值;将上述多个相乘结果进行累加获取上述期望NDCG。
在优选实施过程中,可以通过以下公式获取上述期望NDCG:
E ( NDCG ) = Σ R ( Q ( R | S ) * NDCG ( R ) ) Q ( R | L ) Σ R Q ( R | S ) Q ( R | L )
其中,Q(R|S)=e-E(R|S),Q(R|L)=e-E(R|L),NDCG(R)为对排序R计算出来的NDCG值,L为给定的人工标注数据,E(NDCG)为上述期望NDCG。
需要说明的是,上述装置中各模块相互结合的优选实施方式可以参见图1至图3的描述,此处不再赘述。
综上上述,借助本发明提供的实施例,将势能函数进行简化,采用简化后的势能函数建模,因此本发明提供的iRank算法训练速度会很快,比原有的BoltzRank算法训练速度会快一个量级。此外,根据经验分布函数q(R)=P(R|L)在所有排序中进行抽样,使得iRank算法的准确度更高。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上上述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种权重值的获取方法,其特征在于,包括:
采用势能函数建模,获取在给定打分函数情况下网页的多个排序出现的概率值,其中,所述势能函数 E ( R | S ) = f ( m ) Σ r i = 1 m ( 2 r i - m - 1 ) s i , R表示排序,S表示所述打分函数,f(m)为与m相关的归一化函数,m为网页总数,ri为第i个网页的排名,Si为第i个网页的打分;
采用所述概率值获取给定所述打分函数情况下的期望标准化折扣累积增量NDCG;
在所述期望NDCG最大化时,获取所述打分函数的权重值。
2.根据权利要求1所述的方法,其特征在于,
Figure FDA00002839294700012
3.根据权利要求1或2所述的方法,其特征在于,在获取在给定打分函数情况下所述多个排序出现的概率值之前,还包括:
根据抽样的经验分布函数在所有排序中抽取所述多个排序,其中,所述经验分布函数q(R)=P(R|L),P(R|L)为给定人工标注数据L情况下,生成排序R的概率。
4.根据权利要求3所述的方法,其特征在于,在所有排序中抽取所述多个排序之前,还包括:
初始化所述打分函数的各个权重值;
采用所述打分函数对预定查询的多个查询结果进行打分;
对于所述多个查询结果进行排序,获取所述所有排序。
5.根据权利要求1或2所述的方法,其特征在于,采用所述概率值获取给定所述打分函数情况下的期望NDCG包括:
对所述多个排序中的每个排序R’,将该排序对应的NDCG值与P(R’S)相乘,获取多个相乘结果,其中,P(R’|S)为在给定打分函数情况下该排序出现的概率值;
将所述多个相乘结果进行累加获取所述期望NDCG。
6.根据权利要求5所述的方法,其特征在于,通过以下公式获取所述期望NDCG:
E ( NDCG ) = Σ R ( Q ( R | S ) * NDCG ( R ) ) Q ( R | L ) Σ R Q ( R | S ) Q ( R | L )
其中,Q(R|S)=e-E(R|S),Q(R|L)=e-E(R|L),NDCG(R)为对排序R计算出来的NDCG值,L为给定的人工标注数据,E(NDCG)为所述期望NDCG。
7.一种权重值的获取装置,其特征在于,包括:
第一获取模块,用于采用势能函数建模,获取在给定打分函数情况下网页的多个排序出现的概率值,其中,所述势能函数 E ( R | S ) = f ( m ) Σ r i = 1 m ( 2 r i - m - 1 ) s i , R表示排序,S表示所述打分函数,f(m)为与m相关的归一化函数,m为网页总数,ri为第i个网页的排名,Si为第i个网页的打分;
第二获取模块,用于采用所述概率值获取给定所述打分函数情况下的期望标准化折扣累积增量NDCG;
第三获取模块,用于在所述期望NDCG最大化时,获取所述打分函数的权重值。
8.根据权利要求7所述的装置,其特征在于,
Figure FDA00002839294700022
9.根据权利要求7或8所述的装置,其特征在于,还包括:
抽取模块,用于根据抽样的经验分布函数在所有排序中抽取所述多个排序,其中,所述经验分布函数q(R)=P(R|L),P(R|L)为给定人工标注数据L情况下,生成排序R的概率。
10.根据权利要求9所述的装置,其特征在于,还包括:
初始化模块,用于初始化所述打分函数的各个权重值;
打分模块,用于采用所述打分函数对预定查询的多个查询结果进行打分;
第四获取模块,用于对于所述多个查询结果进行排序,获取所述所有排序。
CN2013100529114A 2013-02-18 2013-02-18 权重值的获取方法及装置 Pending CN103106278A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2013100529114A CN103106278A (zh) 2013-02-18 2013-02-18 权重值的获取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2013100529114A CN103106278A (zh) 2013-02-18 2013-02-18 权重值的获取方法及装置

Publications (1)

Publication Number Publication Date
CN103106278A true CN103106278A (zh) 2013-05-15

Family

ID=48314133

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2013100529114A Pending CN103106278A (zh) 2013-02-18 2013-02-18 权重值的获取方法及装置

Country Status (1)

Country Link
CN (1) CN103106278A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103984733A (zh) * 2014-05-20 2014-08-13 国家电网公司 一种体现查询差异的直接优化性能指标排序方法
CN104462611A (zh) * 2015-01-05 2015-03-25 五八同城信息技术有限公司 信息排序模型的建模方法、排序方法及建模装置、排序装置
CN106708973A (zh) * 2016-12-06 2017-05-24 中山大学 一种蒙特卡洛逆向求解PageRank问题的加速方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6266443B1 (en) * 1998-12-22 2001-07-24 Mitsubishi Electric Research Laboratories, Inc. Object boundary detection using a constrained viterbi search
CN1755678A (zh) * 2004-09-30 2006-04-05 微软公司 在排序搜索结果时引入锚文本用的系统和方法
US20100322525A1 (en) * 2009-06-19 2010-12-23 Microsoft Corporation Image Labeling Using Multi-Scale Processing

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6266443B1 (en) * 1998-12-22 2001-07-24 Mitsubishi Electric Research Laboratories, Inc. Object boundary detection using a constrained viterbi search
CN1755678A (zh) * 2004-09-30 2006-04-05 微软公司 在排序搜索结果时引入锚文本用的系统和方法
US20100322525A1 (en) * 2009-06-19 2010-12-23 Microsoft Corporation Image Labeling Using Multi-Scale Processing

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吴佳金、杨志豪、林原、林鸿飞: "《第六届全国信息检索学术会议论文集》", 31 December 2010, article "《基于改进Pairwise损失函数的排序学习方法》", pages: 1-8 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103984733A (zh) * 2014-05-20 2014-08-13 国家电网公司 一种体现查询差异的直接优化性能指标排序方法
CN104462611A (zh) * 2015-01-05 2015-03-25 五八同城信息技术有限公司 信息排序模型的建模方法、排序方法及建模装置、排序装置
CN104462611B (zh) * 2015-01-05 2018-06-08 五八同城信息技术有限公司 信息排序模型的建模方法、排序方法及建模装置、排序装置
CN106708973A (zh) * 2016-12-06 2017-05-24 中山大学 一种蒙特卡洛逆向求解PageRank问题的加速方法

Similar Documents

Publication Publication Date Title
US8255412B2 (en) Boosting algorithm for ranking model adaptation
Santos et al. Learning to combine multiple string similarity metrics for effective toponym matching
Volkovs et al. Boltzrank: learning to maximize expected ranking gain
CN106599054B (zh) 一种题目分类及推送的方法及系统
CN106934012A (zh) 一种基于知识图谱的自然语言问答实现方法和系统
CN102945232B (zh) 面向统计机器翻译的训练语料质量评价及选取方法
CN109753602B (zh) 一种基于机器学习的跨社交网络用户身份识别方法和系统
CN105893609A (zh) 一种基于加权混合的移动app推荐方法
CN104615767A (zh) 搜索排序模型的训练方法、搜索处理方法及装置
CN110688474B (zh) 基于深度学习与链接预测的嵌入表示获得及引文推荐方法
CN104199965A (zh) 一种语义信息检索方法
CN110377886A (zh) 项目查重方法、装置、设备及存储介质
CN101957859B (zh) 基于集成支撑矢量机排序的信息检索方法
CN103473289A (zh) 一种通信地址补全的装置及方法
CN104063502A (zh) 一种基于语义模型的wsdl半结构化文档相似性分析及分类方法
US20170235836A1 (en) Information identification and extraction
CN106202294A (zh) 基于关键词和主题模型融合的相关新闻计算方法及装置
JP2021022359A (ja) 管理システム及び管理方法
CN106599194A (zh) 标签确定方法及装置
CN104699797A (zh) 一种网页数据结构化解析方法和装置
CN108021667A (zh) 一种文本分类方法和装置
CN103095849B (zh) 基于QoS属性预测和纠错的有监督Web服务发现方法及系统
CN102693316A (zh) 基于线性泛化回归模型的跨媒体检索方法
CN104881399A (zh) 基于概率软逻辑psl的事件识别方法和系统
CN112667866A (zh) 一种试卷的生成方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130515