CN109145026B - 一种根据注释者辅助信息程度的标签排序的方法 - Google Patents

一种根据注释者辅助信息程度的标签排序的方法 Download PDF

Info

Publication number
CN109145026B
CN109145026B CN201810992434.2A CN201810992434A CN109145026B CN 109145026 B CN109145026 B CN 109145026B CN 201810992434 A CN201810992434 A CN 201810992434A CN 109145026 B CN109145026 B CN 109145026B
Authority
CN
China
Prior art keywords
annotator
degree
ranking
model
auxiliary information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810992434.2A
Other languages
English (en)
Other versions
CN109145026A (zh
Inventor
汪海涛
贺成诚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201810992434.2A priority Critical patent/CN109145026B/zh
Publication of CN109145026A publication Critical patent/CN109145026A/zh
Application granted granted Critical
Publication of CN109145026B publication Critical patent/CN109145026B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种根据注释者辅助信息的程度排序的方法,属于学习排序领域。首先分别通过利用Mallow模型基于置换的概率排序模型,构造出真实值标签与注释者之间的关系。通过利用P‑L模型基于分数的概率排序模型,构造出真实值标签与训练实例之间的关系,整合真实值与注释者之间的关系和真实值和训练实例之间的关系,得到新的概率排序模型。然后利用新的概率排序模型和约束函数,通过最大化对数似然学习得到最优参数集,最后通过EM算法迭代更新注释者的专业知识程度的参数集,并且得到排名函数参数。本发明使用最大化可能性优化框架,并引入新的EM程序迭代地推断和学习变量和参数,可以提供更多有益的相关应用。

Description

一种根据注释者辅助信息程度的标签排序的方法
技术领域
本发明公开了一种根据注释者辅助信息的程度排序的方法,属于学习排序领域。
背景技术
学习排序是一个相对较新的研究领域,在中国迅速崛起上个年代。它在许多应用程序中扮演着重要的角色,例如信息检索,数据挖掘,自然语言处理和语音识别(<InProceedings of International Conference on Machine Learning(ICML)>,2007)。在与学习排名有关的问题中,一个实例是一组对象而标签是应用于对象的排名列表。特别是学习排序旨在从训练实例和排序标签构建排序功能。在传统的情况下,每个标签都假定客观可靠。这个假设运作良好,并且还用于其他常规监督设置,例如分类。许多监督学习研究最近强调,生产准确的训练标签对许多现实世界来说可能是不可思议的或者非常昂贵任务。现有的解决方法,可以提供多个(可能是主观的或嘈杂的)标签具有不同级别的专家级别的注释者。例如,亚马逊机械Turk(AMT)允许请求者聘请来自世界各地的用户标记数据。任何AMT用户可以选择用户自己选择的标签任务。在这个事件中,一个AMT请求者可以轻松并及时地雇佣多个贴标签者。但是,AMT用户分配有限的控制权,因此不能保证获得客观准确的标签。所以,必须全面探索多个注释者下的学习。
之前进行了大量的研究以探索机器学习多注释器下的方法。早期的作品之一Smyth等人(<In Proceedings of Neural Information Processing Systems(NIPS)>,1995)是最先提出涉及到真实值的估计,然后使用估计的真实值学习模型。2010年,Raykar等人提出了概率框架来解决分类(<J.Mach.Learn.Res>2010),回归和有序回归算法多个注释器。概率框架基于一个简单但合理的假设,即注释者观察到的标签取决于真实标签和专家的程度。他们的实验结果表明他们的框架优于Smyth等人提出的模型。Donmez和Garnonell(<In Proceedings of SIAM International Conference on Data Mining(SDM)>,2010)调查了一个案例,其中注释者的专业知识是随时间变化的,并开发了一个连续的贝叶斯估计框架。Yan等人(<In Proceedings of International Conference onArtificial Intelligence and Statistics(AISTAT)>,2010)引入了用于从人群标签学习的新的主动学习算法。Xie等人(<In Proceedings of SIAM International Conferenceon Data Mining(SDM)>,2012)提出了一种新颖的学习框架,以评估实际情况注释者拒绝标记特定实例,并且每个注释者被赋予不同的一组实例来标记。其他相关着作的重点差异很大设置。
上述研究很少关注学习如何在多注释器下排序设置。Volkovs等人(<InProceedings of International Conference on Information and KnowledgeManagement(CIKM)>,2012)和Matsui等人(<In Proceedings of Pacific-AsiaConference on Knowledge Discovery and Data Mining(PAKDD)>,2014)进行的两项研究与目前的研究类似,但仍能观察到显着差异。特别是,目前的研究侧重于学习排序,而Volkovs等人专注于多个排序名单和Matsui等人的汇总重视对相关注释者的专业知识程度的评估。因此,目前的工作坚持以前的研究调查的算法列表学习排序涉及多个注释器。此外还有信用评分,专业成绩和历史注释记录,这些都提供了宝贵的一面关于注释者的专业知识程度的信息可能在许多注释任务中可用。例如,在Raykar等人的研究中,注释者是医生。直观地说,由专业级别较高的医生制作的标签大概比另一个低级别医生做的更准确。因此,专业成绩可作为有关专业知识的辅助信息注释者的程度。在这方面,这项研究调查时可用学习算法边信息。据研究人员所知,现有的众包学习算法无视注释者的辅助信息。
发明内容
本发明将Mallow和P-L相结合,提出了一种根据注释者辅助信息的程度排序的方法。因此,新引入的模型集成了无监督的模型秩聚合和传统学习排序,其中使用最大化可能性优化框架,并引入新的EM程序迭代地推断和学习变量和参数。在多个注释下学习排序和标注都可以被广泛使用。因此,这项工作可以提供更多有益的相关应用。
本发明采用的技术方案是:一种根据注释者辅助信息的程度排序的方法,包括如下步骤:首先分别通过利用Mallow模型基于置换的概率排序模型构造出真实值标签与注释者之间的关系。通过利用P-L模型基于分数的概率排序模型构造出真实值标签与训练实例之间的关系,整合真实值与注释者之间的关系和真实值和训练实例之间的关系得到新的概率排序模型。然后利用新的概率排序模型和约束函数通过最大化对数似然学习得到最优参数集。最后通过EM算法迭代更新注释者的专业知识程度的参数集,并且得到排名函数参数。
所述方法的具体步骤如下:
Step1:分别通过利用Mallow模型基于置换的概率排序模型构造出真实值标签与注释者之间的关系,通过利用P-L模型基于分数的概率排序模型构造出真实值标签与训练实例之间的关系。
Step1.1:设X为输入空间,其元素为实例,每个实例为一组对象。设Y是输出空间,其元素是X中实例的排名标签。X中的一个实例x(i)被表示为(x(i,1),...,x(i,No)),其中No表示x(i)中的对象的数量。每个对象由Nf维特征描述,然后
Figure BDA0001781105620000031
排名标签y(i)∈Y,x(i)由(y(i,1),...,y(i,No))表示,其中y(i,j)是分配给对象x(i,j)的等级。参数集Θ({θ1,...,θG))表示了注释者的辅助信息的程度,G是注释者的数量。
Step1.2:对于训练实例x(i),假设真实值标签x(i)存在(但未观察到),利用Mallow模型构造真实值标签(y(i))与第j个注释者
Figure BDA0001781105620000032
给出的标签之间的关系,如下:
Figure BDA0001781105620000033
式(1)中θj表示第j个注释者的辅助信息的程度,
Figure BDA0001781105620000034
Figure BDA0001781105620000035
表示真实值标签(y(i))与第j个注释者
Figure BDA0001781105620000036
给出的标签之间的差距。
Step1.3:对于训练实例x(i),假设真实值标签y(i)存在(但未观察到),利用P-L模型构造真实值标签y(i)和训练实例x(i)之间的关系,如下:
Figure BDA0001781105620000041
式(2)中w表示排序函数的参数向量,wT是w的转置,k、l就是一个数量计数字母。
Step2:整合真实值与注释者之间的关系和真实值和训练实例之间的关系得到新的概率排序模型。
在这个模型中,参数向量w∈RNf×1代表被学习的排序函数的参数,参数集Θ({θ1,...,θG})表示了注释者的辅助信息的程度,变量y是实例x的排序标签;变量(y1,…,yG)是来自G个注释者对于实例x的排序标签,在训练中,由所涉及的注释者给出所有训练实例(x)及其相关排序标签(y1,...,yG)的值。
Step2.1:从群体中学习排序用于描述一个新的概率排序模型,排序标签y由v(=<w,v>)调节,其中v(>0)是标签分数的参数化,y的值现在从先前P(y|v)中抽取。结果,实现了以下表达:
Figure BDA0001781105620000042
式(3)中P(y|x,w)依赖于基于分数的概率排序模型,而P(yj|y,θ)依赖于基于置换的概率排序模型。
Step2.2:设参数集Ω=(Θ,w),给定观察集D具有N个实例(x(i)表示第i个实例),似然函数Ω现在可以基于等式(3)被分解为以下表达式:
Figure BDA0001781105620000043
式(4)中整合了式(1)中定义的
Figure BDA0001781105620000047
和式(2)中定义的P-L(P(y(i)|x(i),w)),
Figure BDA0001781105620000045
表示第i个实例的第j个排序标签。
Step3:利用新的概率排序模型和约束函数通过最大化对数似然学习得到最优参数集。
Step3.1:通过最大化对数似然来获取似然函数Ω的最大似然估计量
Figure BDA0001781105620000046
如下:
Figure BDA0001781105620000051
其中
Figure BDA0001781105620000052
表示最优辅助信息程度的参数集排序,
Figure BDA0001781105620000053
表示最优的排序函数的参数。
Step3.2:注释者的专业知识程度之间的关系可以根据注释者的辅助信息程度等信息预先获得。在数学上,辅助信息可以描述如下:
θj≤θk (6)
式(6)表示第j个注释者的辅助信息程度的值优于第k个注释者的辅助信息程度的值。
Step3.3:将3.2中对注释者的辅助信息程度的描述(6)加入到3.1的式(5)中,如下:
Figure BDA0001781105620000054
Step3.4:考虑一个特例,其中一个注释者的辅助信息程度高于其他注释者。为了不失一般性,第一个注释者被认为拥有最优的辅助信息程度。在这种情况下,将式(7)改为如下:
Figure BDA0001781105620000055
Step3.5:将(7)中的约束由S形函数代替,如下所示:
Figure BDA0001781105620000056
式(9)中η(≥0)反映了辅助信息的置信度。当η→0时,置信度为0,边信息失效;当η→+∞时,置信度变得很高,并且边信息应该完全满足。
Step3.6:如果在给定了η的情况下,需对式(7)进行改进,以便通过最大化对数似然来获得最大似然估计量,如下:
Figure BDA0001781105620000057
Step4:通过EM算法迭代更新注释者的专业知识程度的参数集Θ,并且得到排序函数参数向量w。
Step4.1:计算观测数据D和真实值标签(y(i))相对于观测数据D和估计参数集Ω(t)的对数似然的期望值(E(·)),如下:
Figure BDA0001781105620000061
Step4.2:对于任意w,Q(Ω,Ω(t))的最大化是通过Θ来获得的,如下:
Figure BDA0001781105620000062
式(12)中
Figure BDA0001781105620000063
θ(t)是估计参数集Ω(t)的辅助信息的程度,w(t)是估计参数集Ω(t)的排序函数的参数向量。
式(12)中
Figure BDA0001781105620000064
表示辅助信息程度为θ1时针对第i个实例的第一个排序标签
Figure BDA0001781105620000065
与第i个实例的真实值标签(y(i))之间差距的期望。
Step4.3:对于任意Θ,通过w使Q(Ω,Ω(t))最大化等于下式的交叉熵CE的最小化。
Figure BDA0001781105620000066
Step4.4:当η→0时,式(12)变为:
Figure BDA0001781105620000067
Step4.5:通过采用二进制搜索方法来实现Θ的求解。
①对于每个
Figure BDA0001781105620000071
i∈[1,N],
Figure BDA0001781105620000072
表示第m个x(i)的排序集,随机选择两个指数n,q,并交换
Figure BDA0001781105620000073
的第n和第q个元素以形成新的排序π′。
②计算
Figure BDA0001781105620000074
对于每个i∈[1,N],如果αi>1,
Figure BDA0001781105620000075
否则
Figure BDA0001781105620000076
其概率为1-αi,否则
Figure BDA0001781105620000077
如果m<Ns,m=m+1且转到①。
③计算
Figure BDA0001781105620000078
其中Ns表示取样的数量。
④根据
Figure BDA0001781105620000079
应用二进制搜索来获得
Figure BDA00017811056200000710
Step4.6:使用最大化似然估计更新w。
③使用4.5步骤计算得到的Θ(t+1)
④重复4.5中的采样步骤1和2以获得每个x(i)的排序集。
③为每个x(i)选择采样集中的最大元素。这些最大元素是这个特定迭代的估计真实值排序。
④使用最大化似然估计更新w以估计的基本事实。
⑤如果t>MaxT,或||Θ(t)(t+1)||<τ1并且||w(t)-w(t+1)||<τ2,返回w(t+1)和Θ(t+1);否则t=t+1,转到①。
最终训练所得w和Θ便是所求的注释者的专业知识程度的排序参数集Θ和排序函数的参数向量w。
本发明的有益效果是:
1、根据注释者辅助信息的程度来进行排序
研究调查了关于注释者专业知识和技巧的辅助信息的类型用这些信息提出相应的学习算法。实验综合和现实世界的数据集(包括两个大的基准学习等级数据集)表明辅助信息提高了所学知识的表现排序功能和估算的注释专业度的准确度。
2、结合P-L模型和Mallow模型提出一种新的概率排序模型
本发明将Mallow和P-L相结合,提出了一种新的概率排序模型。因此,新引入的模型完全集成了无监督的模型秩聚合和传统学习排序。
3、使用ListMLE算法性优化框架
本发明使用ListMLE算法,并且引入新的期望最大化(EM),程序以迭代地推断真值标签,专业程度,以及要学习的排序功能的参数。
附图说明
图1为本发明中方法流程图;
具体实施方式
下面结合附图和具体实施方式,对本发明做进一步的说明。
实施例1:如图1所示,一种根据注释者辅助信息的程度排序的方法,包括如下步骤:首先提取实验数据,并选择注释器合理进行数据集划分。分别通过利用Mallow模型基于置换的概率排序模型构造出真实值标签与注释者之间的关系。通过利用P-L模型基于分数的概率排序模型构造出真实值标签与训练实例之间的关系,整合真实值与注释者之间的关系和真实值和训练实例之间的关系得到新的概率排序模型。然后利用新的概率排序模型和约束函数通过最大化对数似然学习得到最优参数集,最后通过EM算法迭代更新注释者的专业知识程度的参数集,并且得到排名函数参数。
Step1:提取实验数据,并选择注释器合理进行数据集划分。;
Step1.1:选择MQ2007数据集,它基于Gov2Web页面集合和两个来自TREC2007的Million Query轨道的查询集进行编译。MQ2007中有1694个查询与排名文档。每个查询-文档对有45维特征。大多数训练实例包含多于500个对象。采用五重交叉验证策略,并在LETOR中进行五重分区设置。在每一个环节中,都有三个学习子集:培训,验证和测试。首先,保留超过500个排名文件的查询。其次,对于训练子集中的每个查询,提取具有偶数的对象(查询-文档对)以形成新的排名列表。然后我们获得一个新的训练子集。
Step1.2:使用ListMLE算法构造了表8列出的八种不同类型的特征的八个排序函数。这八个排名函数可以被看作八个注释者。这八个排名函数是在训练集中奇数个对象的地面真值标签上评估的。
Figure BDA0001781105620000081
Figure BDA0001781105620000091
Step2:对每个训练子集使用新的概率排序模型进行概率排序。
Step2.1:排列训练子集中,每个子集获得8个排名标签。在所提出的算法的执行中,使用了八个排序函数的所有45维特征和等级标签。
Step2.2:使用本发明提出的一个新的概率排名模型,设参数集Ω=(θ,w),训练子集为D。对每个训练子集根据
Figure BDA0001781105620000092
Figure BDA0001781105620000093
进行概率排序。
Step3:利用新的概率排序模型和约束函数通过最大化对数似然学习得到每个训练子集的最优参数集。
Step3.1:由S形函数
Figure BDA0001781105620000094
作为约束函数。其中置信度参数η设为20。
Step3.2:在给定了置信度参数为20的情况下,通过
Figure BDA0001781105620000095
Figure BDA0001781105620000096
来获取每个训练子集的最大似然估计量。
Step4:通过EM算法迭代更新注释者的专业知识程度的参数集Θ,并且得到排名函数参数w。
Step4.1:计算训练子集D和真实值标签(y(i))相对于训练子集D和估计参数集Ω(t)的对数似然性,如下:
Figure BDA0001781105620000097
Step4.2:对于每个排名函数w,Q(Ω,Ω(t))的最大化是通过Θ来获得的,如下:
Figure BDA0001781105620000101
其中
Figure BDA0001781105620000102
Step4.3:对于任意排名参数集Θ,通过w使Q(Ω,Ω(t))最大化等于下式的交叉熵的最小化。
Figure BDA0001781105620000103
Step4.4:通过采用二进制搜索方法来实现Θ。
①对于每个
Figure BDA0001781105620000104
i∈[1,N],
Figure BDA0001781105620000105
表示第m个x(i)的排序集,随机选择两个指数n,q,并交换
Figure BDA0001781105620000106
的第n和第q个元素以形成新的排序π′。
②计算
Figure BDA0001781105620000107
对于每个i∈[1,N],如果αi>1,
Figure BDA0001781105620000108
否则
Figure BDA0001781105620000109
其概率为1-αi,否则
Figure BDA00017811056200001010
如果m<Ns,m=m+1且转到①。
③计算
Figure BDA00017811056200001011
其中取样的数量为500。
④根据
Figure BDA00017811056200001012
应用二进制搜索来获得
Figure BDA00017811056200001013
Step4.5:使用最大化似然估计更新w。
①使用4.4步骤计算得出的Θ(t+1)
②重复4.4中的采样步骤1和2以获得每个x(i)的排序集。
③为每个x(i)选择采样集中的最大元素。这些最大元素是这个特定迭代的估计真实值排序。
④使用最大化似然估计更新w以估计的基本事实。
⑤如果t>200,或||Θ(t)(t+1)||<0.01*8并且||w(t)-w(t+1)||<0.01*45,返回w(t+1)和Θ(t+1);否则t=t+1,转到①。
最终训练所得排名函数8实现了最高的NDCG结果,它被用作实验中的辅助信息。
通过实验表明,本发明所提出的算法明显优于常规学习排序算法。这个可能的原因是所提出的算法将概率估计和模型学习统一在概率公式中,其以改进的方式对其关系进行建模。根据不同数量的注释器,所提出的算法比常规学习排序算法更稳健。这种情况得到了支持,原因是在常规学习排序算法中,模型学习在第一步中对真实值估计非常敏感,而在所提出的算法中,模型学习可以在下一次迭代中响应真实值估计。在所有的实验中,利用边信息的所提出的算法优于不提供这一点的LTRMA-MLE。此外,直接借鉴现有众包机器学习研究并简单地将排名位置作为分数的算法LRegMA获得最差的结果。虽然本发明提出的模型会比较被动,但也可以提高学习成绩,特别是注释者的估计专业化程度。
以上所述仅是本发明的实施方法,但是本发明并不限于以上所述的实施方法,在本领域具有相关技术的人员,均可以基于本发明且不脱离宗旨的前提下做出各种变化,这种变化也应视为本发明的保护范围。

Claims (1)

1.一种根据注释者辅助信息的程度排序的方法,其特征在于:包括如下步骤:
Step1:利用Mallow模型基于置换的概率排序模型构造出真实值标签与注释者之间的关系,利用P-L模型基于分数的概率排序模型构造出真实值标签与训练实例之间的关系;
Step2:整合真实值与注释者之间的关系和真实值和训练实例之间的关系得到新的概率排序模型;
Step3:利用新的概率排序模型和约束函数通过最大化对数似然学习得到最优参数集;
Step4:通过EM算法迭代更新注释者的专业知识程度的参数集,并且得到排名函数参数;
所述Step1的具体步骤如下:
设X为输入空间,其元素为实例,每个实例为一组对象,设Y是输出空间,其元素是X中实例的排名标签,X中的一个实例x(i)被表示为(x(i,1),...,x(i,No)),其中No表示x(i)中的对象的数量,每个对象由Nf维特征描述,然后x(i,j)∈RNf,排名标签y(i)∈Y,x(i)由(y(i,1),...,y(i ,No))表示,其中y(i,j)是分配给对象x(i,j)的等级,参数集Θ({θ1,...,θG})表示了注释者的辅助信息的程度,G是注释者的数量;
Step1.1:对于训练实例x(i),假设真实值标签x(i)存在,利用Mallow模型构造真实值标签(y(i))与第j个注释者
Figure FDA0003055815110000011
给出的标签之间的关系,如下:
Figure FDA0003055815110000012
式(1)中θj表示第j个注释者的辅助信息的程度,
Figure FDA0003055815110000013
Figure FDA0003055815110000014
Figure FDA0003055815110000015
表示真实值标签(y(i))与第j个注释者
Figure FDA0003055815110000016
给出的标签之间的差距;
Step1.2:对于训练实例x(i),假设真实值标签y(i)存在,利用P-L模型构造真实值标签y(i)和训练实例x(i)之间的关系,如下:
Figure FDA0003055815110000021
式(2)中w表示排序函数的参数向量,wT是w的转置,k、l就是一个数量计数字母;
所述Step2的具体步骤如下:
在这个模型中,参数向量w∈RNf×1代表被学习的排序函数的参数,参数集Θ({θ1,...,θG})表示了注释者的辅助信息的程度,变量y是实例x的排序标签;变量(y1,…,yG)是来自G个注释者对于实例x的排序标签,在训练中,由所涉及的注释者给出所有训练实例(x)及其相关排序标签(y1,...,yG)的值;
Step2.1:从群体中学习排序用于描述一个新的概率排序模型,排序标签y由v(=<w,v>)调节,其中v(v>0)是标签分数的参数化,y的值现在从先前P(y|v)中抽取,结果,实现了以下表达:
Figure FDA0003055815110000022
式(3)中P(y|x,w)依赖于基于分数的概率排序模型,而P(yj|y,θ)依赖于基于置换的概率排序模型;
Step2.2:设参数集Ω=(Θ,w),给定观察集D具有N个实例,x(i)表示第i个实例,似然函数Ω现在可以基于等式(3)被分解为以下表达式:
Figure FDA0003055815110000023
式(4)中整合了式(1)中定义的Mallow
Figure FDA0003055815110000024
和式(2)中定义的P-L
Figure FDA0003055815110000025
Figure FDA0003055815110000026
表示第i个实例的第j个排序标签;
所述Step3的具体步骤如下:
Step3.1:通过最大化对数似然来获取似然函数Ω的最大似然估计量
Figure FDA0003055815110000027
如下:
Figure FDA0003055815110000031
其中
Figure FDA0003055815110000032
表示最优辅助信息程度的参数集排序,
Figure FDA0003055815110000033
表示最优的排序函数的参数;
Step3.2:注释者的专业知识程度之间的关系可以根据注释者的辅助信息程度等信息预先获得,在数学上,辅助信息可以描述如下:
θj≤θk (6)
式(6)表示第j个注释者的辅助信息程度的值优于第k个注释者的辅助信息程度的值;
Step3.3:将Step 3.2中对注释者的辅助信息程度的描述(6)加入到Step 3.1的式(5)中,如下:
Figure FDA0003055815110000034
Step3.4:考虑一个特例,其中一个注释者的辅助信息程度高于其他注释者,为了不失一般性,第一个注释者被认为拥有最优的辅助信息程度,在这种情况下,将式(7)改为如下:
Figure FDA0003055815110000035
Step3.5:将(7)中的约束由S形函数代替,如下所示:
Figure FDA0003055815110000036
式(9)中η(η≥0)反映了辅助信息的置信度,当η→0时,置信度为0,边信息失效;当η→+∞时,置信度变得很高,并且边信息应该完全满足;
Step3.6:如果在给定了η的情况下,需对式(7)进行改进,以便通过最大化对数似然来获得最大似然估计量,如下:
Figure FDA0003055815110000037
所述Step4的具体步骤如下:
Step4.1:计算观测数据D和真实值标签(y(i))相对于观测数据D和估计参数集Ω(t)的对数似然的期望值(E(·)),如下:
Figure FDA0003055815110000041
step4.2:对于任意w,Q(Ω,Ω(t))的最大化是通过Θ来获得的,如下:
Figure FDA0003055815110000042
式(12)中
Figure FDA0003055815110000043
θ(t)是估计参数集Ω(t)的辅助信息的程度,w(t)是估计参数集Ω(t)的排序函数的参数;
式(12)中
Figure FDA0003055815110000044
表示辅助信息程度为θ1时针对第i个实例的第一个排序标签
Figure FDA0003055815110000045
与第i个实例的真实值标签(y(i))之间差距的期望;
Step4.3:对于任意Θ,通过w使Q(Ω,Ω(t))最大化等于下式的交叉熵CE的最小化;
Figure FDA0003055815110000046
Step4.4:当η→0时,式(12)变为:
Figure FDA0003055815110000047
Step4.5:通过采用二进制搜索方法来实现Θ的求解;
①对于每个
Figure FDA0003055815110000048
Figure FDA0003055815110000049
表示第m个x(i)的排序集,随机选择两个指数n,q,并交换
Figure FDA0003055815110000051
的第n和第q个元素以形成新的排序π′;
②计算
Figure FDA0003055815110000052
对于每个i∈[1,N],如果αi>1,
Figure FDA0003055815110000053
否则
Figure FDA0003055815110000054
其概率为1-αi,否则
Figure FDA0003055815110000055
如果m<Ns,m=m+1且转到①;
③计算
Figure FDA0003055815110000056
其中Ns表示取样的数量;
④根据
Figure FDA0003055815110000057
应用二进制搜索来获得
Figure FDA0003055815110000058
Step4.6:使用最大化似然估计更新w;
①使用4.5步骤计算得到的Θ(t+1)
②重复4.5中的采样步骤1和2以获得每个x(i)的排序集;
③为每个x(i)选择采样集中的最大元素,这些最大元素是这个特定迭代的估计真实值排序;
④使用最大化似然估计更新w以估计的基本事实;
⑤如果t>MaxT,或||Θ(t)(t+1)||<τ1并且||w(t)-w(t+1)||<τ2,返回w(t+1)和Θ(t+1);否则t=t+1,转到①;
最终训练所得w和Θ便是所求的注释者的专业知识程度的排序参数集Θ和排序函数参数w。
CN201810992434.2A 2018-08-29 2018-08-29 一种根据注释者辅助信息程度的标签排序的方法 Active CN109145026B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810992434.2A CN109145026B (zh) 2018-08-29 2018-08-29 一种根据注释者辅助信息程度的标签排序的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810992434.2A CN109145026B (zh) 2018-08-29 2018-08-29 一种根据注释者辅助信息程度的标签排序的方法

Publications (2)

Publication Number Publication Date
CN109145026A CN109145026A (zh) 2019-01-04
CN109145026B true CN109145026B (zh) 2021-07-16

Family

ID=64828744

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810992434.2A Active CN109145026B (zh) 2018-08-29 2018-08-29 一种根据注释者辅助信息程度的标签排序的方法

Country Status (1)

Country Link
CN (1) CN109145026B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111738454B (zh) * 2020-08-28 2020-11-27 腾讯科技(深圳)有限公司 一种目标检测方法、装置、存储介质及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100161652A1 (en) * 2008-12-24 2010-06-24 Yahoo! Inc. Rapid iterative development of classifiers
CN103309953A (zh) * 2013-05-24 2013-09-18 合肥工业大学 一种基于多rbfnn分类器集成的多样化图像标注和检索方法
CN107451620A (zh) * 2017-08-11 2017-12-08 深圳市唯特视科技有限公司 一种基于多任务学习的场景理解方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100161652A1 (en) * 2008-12-24 2010-06-24 Yahoo! Inc. Rapid iterative development of classifiers
CN103309953A (zh) * 2013-05-24 2013-09-18 合肥工业大学 一种基于多rbfnn分类器集成的多样化图像标注和检索方法
CN107451620A (zh) * 2017-08-11 2017-12-08 深圳市唯特视科技有限公司 一种基于多任务学习的场景理解方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
Decision tree and instance-based learning for label ranking;CHENG W;《Proceedings of the 26th Annual International Conference on Machine Learning》;20091231;全文 *
Maximum likelihood from incomplete data via the EM glgorithm;Dempster A P;《Journal of Royal Statistical Society》;19771231;全文 *
一种主动学习和协同训练相结合的半监督微博情感分类方法;毕秋敏;《现代图书情报技术》;20150125;全文 *
基于排序学习的推荐算法研究综述;黄震华;《软件学报》;20151230;全文 *
基于高斯混合模型的标签排序算法研究;周扬名;《中国优秀硕士学位论文全文数据库 信息科技辑》;20140930;全文 *
应用位置信息损失的Listwise排序学习方法的研究;薛剑;《小型微型计算机系统》;20170115;全文 *

Also Published As

Publication number Publication date
CN109145026A (zh) 2019-01-04

Similar Documents

Publication Publication Date Title
Alam et al. Research on particle swarm optimization based clustering: a systematic review of literature and techniques
Hassan et al. A hybrid of multiobjective Evolutionary Algorithm and HMM-Fuzzy model for time series prediction
Meiseles et al. Source model selection for deep learning in the time series domain
Hamoud et al. Student’s success prediction model based on artificial neural networks (ANN) and a combination of feature selection methods
CN110097088A (zh) 一种基于迁移学习与特殊点策略的动态多目标进化方法
CN112395487B (zh) 信息推荐方法、装置、计算机可读存储介质及电子设备
Trstenjak et al. Determining the impact of demographic features in predicting student success in Croatia
CN111583031A (zh) 一种基于集成学习的申请评分卡模型建立方法
Prudêncio et al. Selecting machine learning algorithms using the ranking meta-learning approach
Ali et al. Fake accounts detection on social media using stack ensemble system
Area et al. Analysis of Bayes, neural network and tree classifier of classification technique in data mining using WEKA
He et al. Unsupervised learning style classification for learning path generation in online education platforms
CN109145026B (zh) 一种根据注释者辅助信息程度的标签排序的方法
Manne et al. Text categorization with K-nearest neighbor approach
Sagar et al. Analysis of prediction techniques based on classification and regression
Zamani et al. Stochastic retrieval-conditioned reranking
Yang et al. Binary output layer of feedforward neural networks for solving multi-class classification problems
Singh et al. An effort to developing the knowledge base in data mining by factor analysis and soft computing methodology
Shukla et al. Modified classification and prediction model for improving accuracy of student placement prediction
Jahan et al. Active learning for mining big data
Manne et al. A Query based Text Categorization using K-nearest neighbor Approach
Baka et al. A novel discretization technique using Class Attribute Interval Average
Mao et al. Popularity tendency analysis of ranking-oriented collaborative filtering from the perspective of loss function
CN108280531B (zh) 一种基于Lasso回归的学生班级成绩排名预测方法
Puri et al. H-Mrk-Means: Enhanced Heuristic Mrk-Means for Linear Time Clustering of Big Data Using Hybrid Meta-Heuristic Algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant