CN104915436A - 自适应多标签预测方法 - Google Patents

自适应多标签预测方法 Download PDF

Info

Publication number
CN104915436A
CN104915436A CN201510355030.9A CN201510355030A CN104915436A CN 104915436 A CN104915436 A CN 104915436A CN 201510355030 A CN201510355030 A CN 201510355030A CN 104915436 A CN104915436 A CN 104915436A
Authority
CN
China
Prior art keywords
gamma
inst
voter
assignment
represent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201510355030.9A
Other languages
English (en)
Inventor
胡学钢
王博岩
李培培
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN201510355030.9A priority Critical patent/CN104915436A/zh
Priority to CN201510501816.7A priority patent/CN105069129B/zh
Publication of CN104915436A publication Critical patent/CN104915436A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9562Bookmark management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种自适应多标签预测方法,其特征是按如下步骤进行:1、获得初始化示例集;2、获得初始化示例集中的领袖示例、局外示例和选民示例;3、获得选民示例集的所属聚类;4、采用支持向量机对预测示例进行粗分类;5、对预测示例进行多标签预测。本发明能准确地对网络信息加上标签,提高多标签预测的准确性、普适性、可解释性以及可移转性,从而实现大数据环境下智能信息分类和处理。

Description

自适应多标签预测方法
技术领域
本发明属于智能信息分类与处理领域,特别是涉及一种可应用于大数据环境下多媒体资讯的快速聚类及发现密度峰值点的自适应多标签预测方法。
背景技术
随着网络的快速发展,信息量正成几何趋势增长,当下的微博、论坛、微信、在线视频、网络购物和社交网络无一例外都需要标签来方便用户的搜索和分类,准确而详尽的标签一方面可让用户能够快速地找到其所需,另一方面商家也可以借助标签对用户进行分类,对不同的用户群推荐迎合其口味的产品,从而避免用户因浏览大量无关信息,使有价值的内容淹没在信息的海洋中。反之商家若是无法正确处理信息过载问题,将最终导致消费者的不断流失。
目前给信息加多标签的方法主要有将多标签分解转化为独立的单一标签进行标记和将多标签转化为标签间的排序来标记。转化为单一标签,将多标签之间的关联关系完全忽略,准确性低;标签间的排序不仅需要大量的计算,且确定标签的排序后,还需要进一步确定是该标签的前标签还是后标签相似程度更高,因此同样存在准确性不高的缺陷。
相较于本发明,目前的处理方法存在以下缺点:
1、目前的网络信息通过计算机的学习方法,对单一标签也就是识别问题做出的预测方法较多,但由于信息的多标签存在关联关系,因此利用分解多标签为单一多标签的方法,标签的准确性较低,不能达到实用的目的。
2、目前的多标签预测技术往往只能对给定的静态数据集做出处理,如考虑新增信息,往往需要重新学习,重新设置参数,不能做到随数据的变化而自动调整参数,因此泛化性弱,普适性差。
3、将信息的多标签预测转为标签间的序关系来处理,不仅需要大量的计算,且可解释性较差,预测的准确性也不高。
4、现有的多标签预测技术多是以提高某一评价标注而设计的,忽略了其它标准,这造成了其可移植性差的特点,仅适合在满足某些条件的数据集中使用。
发明内容
本发明是为了克服现有技术存在的不足之处,提供一种自适应多标签预测方法,以期能准确地对网络信息加上标签,提高多标签预测的准确性、普适性、可解释性以及可移转性,从而实现大数据环境下智能信息分类和处理。
本发明为解决技术问题采用如下技术方案:
本发明一种自适应多标签预测方法的特点是按如下步骤进行:
步骤1:获得初始化示例集D:
步骤1.1、由num′个已知对象建立原始示例集D′={inst′1,inst′2,…,inst′a,…,inst′num′},inst′a表示第a个已知对象所对应的原始示例;1≤a≤num′;并有inst′a={attr′a;lab′a};attr′a表示所述第a个已知对象特征的属性集;lab′a表示所述第a个已知对象语义的标签集;并有attr′a={attr′a,1,attr′a,2,…,attr′a,n};attr′a,n表示第a个已知对象的第n个属性;n为第a个已知对象的属性数;lab′a={lab′a,1,lab′a,2,…,lab′a,x,…,lab′a,m};lab′a,x表示第a个已知对象的第x个标签;m为第a个已知对象的标签数;1≤x≤m;并有:lab′a,x=1表示第a个已知对象语义符合第x个标签;lab′a,x=0表示第a个已知对象语义不符合第x个标签;
步骤1.2、对所述原始示例集D′中的num′个已知对象特征的属性集{attr′1,attr′2,…,attr′a,…,attr′num′}分别进行归一化处理,获得归一化处理后的num′个已知对象特征的属性集{attr″1,attr″2,…,attr″a,…,attr″num′};当所述归一化后的第a个已知对象特征的属性集arrta″对应的m个标签值均为0时,删除所述归一化后的第a个已知对象所属的原始示例;从而获得num个示例构成的初始化示例集D={inst1,inst2,…,insti,…,instnum};insti表示初始化后的第i个已知对象所对应的示例;并有insti={attri;labi};attri表示初始化后的第i个示例特征的属性集;labi表示初始化后的所述第i个示例语义的标签集;1≤i≤num;
步骤2:求解所述初始化示例集D中各示例的群聚度,从而确定初始化示例集D中的领袖示例、局外示例和选民示例:
步骤2.1、将所述初始化示例集D中num个示例中的每个示例的m个标签分别作为m维坐标,从而获得第i个示例insti与第k个示例instk的欧式距离dik;1≤k≤num且k≠i;
步骤2.2、定义迭代次数γ;并初始化γ=1;定义所述第i个示例insti的所属聚类为clui
步骤2.3、利用式(1)获得第γ次迭代的第i个示例insti的内聚合度从而获得第γ次迭代的num个示例的内聚合度并将最大的内聚合度记为 ρ max ( γ ) :
ρ i ( γ ) = Σ k = 1 n u m f ( d i k - d c ( γ ) ) - - - ( 1 )
式(1)中,为第γ次迭代的阈值;当 d i k ≤ d c ( γ ) 时, f ( d i k - d c ( γ ) ) = 1 ; d i k > d c ( γ ) 时, f ( d i k - d c ( γ ) ) = 0 ;
步骤2.4、利用式(2)或式(3)获得第γ次迭代的第i个示例insti的差异度从而获得第γ次迭代的num个示例的差异度 δ ( γ ) = { δ 1 ( γ ) , δ 2 ( γ ) , ... , δ i ( γ ) , ... , δ n u m ( γ ) } :
δ i ( γ ) = Σ k = 1 n u m m a x ( d i k ) , ρ i ( γ ) = ρ max ( γ ) - - - ( 2 )
ρ i ( γ ) ≠ ρ max ( γ ) - - - ( 3 )
步骤2.5、对所述第γ次迭代的num个示例的差异度δ(γ)进行归一化处理,获得归一化后的差异度 δ ′ ( γ ) = { δ 1 ′ ( γ ) , δ 2 ′ ( γ ) , ... , δ i ′ ( γ ) , ... , δ n u m ′ ( γ ) } ;
步骤2.6、利用式(4)获得第γ次迭代的第i个示例insti的群聚度从而获得第γ次迭代的num个示例的群聚度 sco ( γ ) = { sco 1 ( γ ) , sco 2 ( γ ) , ... , sco i ( γ ) ... , sco n u m ( γ ) } :
sco i ( γ ) = ρ i ( γ ) × δ i ′ ( γ ) - - - ( 4 )
步骤2.7、对所述第γ次迭代的num个示例的群聚度sco(γ)进行降序排列,获得群聚度序列 sco ′ ( γ ) = { sco 1 ′ ( γ ) , sco 2 ′ ( γ ) , ... , sco t ′ ( γ ) ... , sco n u m ′ ( γ ) } ; 并令与所述群聚度序列sco′(γ)相对应的内聚合度为 ρ ′ ( γ ) = { ρ 1 ′ ( γ ) , ρ 2 ′ ( γ ) , ... , ρ t ′ ( γ ) , ... , ρ n u m ′ ( γ ) } ; 表示当 sco i ( γ ) = sco t ′ ( γ ) 时的第γ次迭代的第i个示例insti的内聚合度;1≤t≤num;
步骤2.8、初始化t=1;
步骤2.9、判断是否成立,若成立,则第γ次迭代的阈值为有效值,并记录t后,执行步骤2.10;否则,判断是否成立,若成立,则将t+1赋值给t,并重复执行步骤2.9;否则,修改阈值将γ+1赋值给γ,并返回执行步骤2.3;
步骤2.10、若第γ次迭代的第i个示例insti的内聚合度是否满足若满足,则所述第i个示例insti为局外示例,且令所述第i个示例insti的所属聚类clui=-1;否则,判断是否成立,若成立,则第i个示例insti为领袖示例,且令clui=i,否则,第i个示例insti为选民示例;
步骤2.11、统计所述领袖示例的个数和所述选民示例的个数,并分别记为N和M;
步骤2.12、记N个领袖示例集为 D ( l ) = { inst 1 ( l ) , inst 2 ( l ) , ... , inst α ( l ) , ... , inst N ( l ) } , 1≤α≤N;则与所述N个领袖示例集D(l)相对应的内聚合度为 表示第α个领袖示例的内聚合度;与所述N个领袖示例集D(l)相对应的标签集为 lab ( l ) = { lab 1 ( l ) , lab 2 ( l ) , ... , lab α ( l ) , ... , lab N ( l ) } ; 表示第α个领袖示例的标签集;与所述N个领袖示例集D(l)相对应的所属聚类为 clu ( l ) = { clu 1 ( l ) , clu 2 ( l ) , ... , clu α ( l ) , ... , clu N ( l ) } ; 表示第α个领袖示例的所属聚类;
步骤2.13、记M个选民示例集为1≤β≤M;则与所述M个选民示例集D(v)相对应的内聚合度为 表示第β个选民示例的内聚合度;与所述M个选民示例集D(v)相对应的标签集为 lab ( v ) = { lab 1 ( v ) , lab 2 ( v ) , ... , lab β ( v ) , ... , lab M ( v ) } ; 表示第β个选民示例的标签集;与所述M个选民示例集D(v)相对应的所属聚类为 clu ( v ) = { clu 1 ( v ) , clu 2 ( v ) , ... , clu β ( v ) , ... , clu M ( v ) } ; 表示第β个选民示例的所属聚类;
步骤3:获得所述M个选民示例集D(v)的所属聚类clu(v)
步骤3.1、定义迭代次数χ;并初始化χ=1;并定义第z个中转示例instz;z≥0;并初始化α=1、β=1、z=0;
步骤3.2、从所述N个领袖示例集D(l)中选取任第α个领袖示例获得所述第α个领袖示例为与第χ次迭代的第β个选民示例的欧式距离
步骤3.3、若时,则将β+1赋值给β,并判断β≤M是否成立,若成立,重复执行步骤3.3;否则执行步骤3.5;若时,判断第χ次迭代的第β个选民示例的所属聚类是否为空,若为空,则执行步骤3.4;否则,表示第χ次迭代的第β个选民示例的所属聚类的值为第χ次迭代现有的领袖示例的下标,记为执行步骤3.11;
步骤3.4、将第α个领袖示例的下标α(l)赋值给并将z+1赋值给z,令表示将第χ次迭代的第β个选民示例中的下标βχ、标签集内聚合度和所属聚类均赋值给第χ次迭代的第z个中转示例的下标、标签集、内聚合度和所属聚类;并将β+1赋值给β;判断β≤M是否成立,若成立,则执行步骤3.3;否则执行步骤3.5;
步骤3.5、若z≤0,则执行步骤3.14;否则,将χ+1赋值给χ,并将依次赋值给令β=1;并获得所述第χ次迭代的第β个选民示例与第χ次迭代第z个中转示例的欧式距离并将z-1赋值给z;
步骤3.6、若时,则将β+1赋值给β,并判断β≤M是否成立,若成立,重复执行步骤3.6;否则执行步骤3.5;若时,判断第χ次迭代的第β个选民示例的所属聚类是否为空,若为空,则执行步骤3.7;否则,表示第χ次迭代的第β个选民示例的所属聚类的值为第χ次迭代现有的领袖示例的下标,记为执行步骤3.8;
步骤3.7、将第χ次迭代的第z个中转示例的下标z(χ)赋值给并将z+1赋值给z,令并将β+1赋值给β;并判断β≤M是否成立,若成立,则重复执行步骤3.6;否则执行步骤3.5;
步骤3.8、利用式(5)获得第χ次迭代的第β选民示例与所述第χ次迭代现有领袖示例的影响力
gra β χ ϵ ( v ) ( β χ ) = ρ β χ ( v ) × ρ ϵ ( β χ ) d β χ ϵ ( v ) ( β χ ) - - - ( 5 )
步骤3.9、利用式(6)获得第χ次迭代的第β个选民示例与第χ次迭代的第z个中转示例的影响力
gra β χ z ( v ) ( χ ) = ρ β χ ( v ) × ρ z ( χ ) d β χ z ( v ) ( χ ) - - - ( 6 )
步骤3.10、若则将β+1赋值给β,并执行步骤3.6;否则,令并将z+1赋值给z,令并将β+1赋值给β,并判断β≤M是否成立,若成立,则执行步骤3.6;否则执行步骤3.5;
步骤3.11、利用式(7)获得第χ次迭代的第β选民示例与所述第χ次迭代现有领袖示例的影响力
gra β χ ϵ ( v ) ( β χ ) = ρ β χ ( v ) × ρ ϵ ( β χ ) d β χ ϵ ( v ) ( β χ ) - - - ( 7 )
步骤3.12、利用式(8)获得第χ次迭代的第β个选民示例与第α个领袖示例的影响力
gra β χ α ( v ) ( l ) = ρ β χ ( v ) × ρ α ( l ) d β χ α ( v ) ( l ) - - - ( 8 )
步骤3.13、若则将β+1赋值给β,并执行步骤3.3;否则,将第α个领袖示例的下标α(l)赋值给并将z+1赋值给z,令并将β+1赋值给β,并判断β≤M是否成立,若成立,则执行步骤3.3;否则执行步骤3.5;
步骤3.14、将α+1赋值给α;并判断α≤N是否成立,若成立,令β=1,并执行步骤3.2;否则执行步骤3.15;
步骤3.15、将第χ次迭代时所述M个选民示例集D(v)相对应的所属聚类依次赋值给所述M个选民示例集D(v)相对应的所属聚类 { clu 1 ( v ) , clu 2 ( v ) , ... , clu β ( v ) , ... , clu M ( v ) } ;
步骤3.16、判断是否还存在所属聚类为空的选民示例,若存在,则设置所属聚类为空的选民示例的所属聚类的值为-1;
步骤4;采用支持向量机对预测示例进行粗分类:
4.1、建立由nump个预测示例组成的预测示例集P={instp1,instp2,…,instpj,…,instpnump};instpj表示第j个预测示例;1≤j≤nump;并有instpj={attrpj;labpj};arrtpj表示第j个预测示例instpj的属性集;labpj表示第j个预测示例instpj的标签集;记所述第j个预测示例instpj的内聚合度为记所述第j个预测示例instpj的所属聚类为clupj
4.2、以所述初始化示例集D相对应的num个所属聚类{clu1,clu2,…,clui,…,clunum}作为训练标签,以所述初始化示例集D中的num个已知对象的属性集{attr1,attr2…,attri,…,attrnum}作为训练样本;以所述预测示例集P的nump个属性集{attrp1,attrp2…,attrpj,…,attrpnump}作为预测样本,并用支持向量机方法进行训练,获得nump个预测标签,将所述nump个预测标签分别赋值给所述预测示例集P的nump个所属聚类;从而完成对所述预测示例集P的粗分类;
步骤5、对nump个预测示例进行多标签预测;
步骤5.1、初始化j=1;
步骤5.2、若所述预测示例集P中第j个预测示例instpj的所属聚类为clupj与所述初始化示例集D中第i个已知示例insti的所属聚类为clui相同;则利用式(9)获得第i个已知示例insti与第j个预测示例instpj的影响力graij
gra i j = ρ i × ρ j ( p ) d i j - - - ( 9 )
式(9)中,dij表示所述第i个已知示例insti与第j个预测示例instpj的欧式距离;
步骤5.3、重复步骤5.2,从而获得第j个预测示例instpj与所述初始化示例集D其他已知示例的影响力,并记录最大影响力gramax
步骤5.4、若graij=gramax,则令labpj=labi,表示所述预测示例集P的标签集labpj中的各个标签和所述初始化示例集D的标签集labi中的各个标签相同,从而获得第j个多标签预测的预测示例;
步骤5.5、将j+1赋值给j,并判断j≤nump是否成立,若成立,则返回步骤5.2执行,否则,表示完成对nump个预测示例的多标签预测。
本发明所述的自适应多标签预测方法的特点也在于:
所述步骤5中,还包括步骤5.6、将所述完成多标签预测的nump个预测示例加入所述初始化示例集D中,从而获得更新的示例集Dnew,以所述更新的示例集Dnew作为新的初始化示例集进行自适应多标签预测。
当出现新的具有相同的对象特征及相同的对象语义的预测示例时,只需先计算所述更新的示例集Dnew的内聚合度,再从步骤4开始即可完成对新的预测示例进行多标签预测。
所述步骤2.9中,修改阈值的规则是:若则将减去τ2赋值给否则,将加τ2赋值给0.1≤τ2≤0.5,75%≤τ1<100%。
与已有技术相比,本发明有益效果体现在:
1、本发明采用先粗分类再精准预测的方法,借助本发明所含的自适应性,通过多轮迭代,使得预测标签不断进化,进而取得比现有的多标签预测技术更为准确的预测结果,是一个可以投入到实际应用的方法。
2、本发明通过初始化示例集,可根据不同已知对象特征和语义确定不同的初始化示例集,使得本发明可广泛应用于现有网络平台大部分的应用环境,从简单的文字型数据,到音频,乃至图像,皆可有较好地做出标签预测,相较于现有技术普适性强。
3、本发明通过计算获得内聚合度来表示示例的内聚程度,通过计算获得差异度来表示示例的耦合程度,并依据内聚合度和差异度求解出来的群聚度,各参数有实际含义,充分考虑了高内聚低耦合的数据分类要求,易于理解和解释,从而在保证了本发明有较高的预测准确性的同时,使得本发明有较强的可移植性,可在各种条件下进行多标签预测。
4、本发明通过内聚合度能够准确找到各个产品领域中的领袖示例;对于微博,论坛和社交网络,借助此法能够准确地找到不同话题领域中影响力最大的关键用户,通过对其行为的详细研究,可预测到该领域可能的趋势,并为该领域的用户提供准确的推荐。
5、本发明通过计算示例与示例间影响力,不但可以用于多标签预测上,也可对相同语义的已知标签的示例进行类比,找寻到与该示例的多标签极为类似的示例,推荐给用户,提高用户的使用体验。
6、本发明在预测示例的多标签确定时,采用选取与预测示例最为相似的已知示例的标签集作为预测示例的标签集的方法,可以将该已知示例的用户群推荐给新出现的预测示例;可为新出现的产品找到其较为准确的市场定位,并为其发现潜在的用户。
7、本发明由于采用将完成多标签预测的预测示例加入到初始化示例集的方法,从而丰富了现有训练集,提高了下一轮预测的准确性,使得本发明具有自适应性的学习能力,面对新加入的示例能进一步完善现有数据集合,伴随已知标签示例的增加,将进一步提高该方法预测的准确性。
具体实施方式
本实施例中,一种自适应多标签预测方法,是按如下步骤进行:
步骤1:获得初始化示例集D:
步骤1.1、由num′个已知对象建立原始示例集D′={inst′1,inst′2,…,inst′a,…,inst′num′},inst′a表示第a个已知对象所对应的原始示例;1≤a≤num′;并有inst′a={attr′a;lab′a};attr′a表示第a个已知对象特征的属性集;lab′a表示第a个已知对象语义的标签集;并有attr′a={attr′a,1,attr′a,2,…,attr′a,n};attr′a,n表示第a个已知对象的第n个属性;n为第a个已知对象的属性数,lab′a={lab′a,1,lab′a,2,…,lab′a,x,…,lab′a,m};lab′a,x表示第a个已知对象的第x个标签;m为第a个已知对象的标签数;1≤x≤m;并有:lab′a,x=1表示第a个已知对象语义符合第x个标签;lab′a,x=0表示第a个已知对象语义不符合第x个标签;假设,已知对象为图片,将色差,尺寸等需要详细描述的对象特征作为属性集,用准确而详尽的数字作为各个属性的值;将风景图片,动物图片等非是即否的对象语义作为标签集,用0表示不符合该标签,用1表示符合该标签;
步骤1.2、对原始示例集D′中的num′个已知对象特征的属性集{attr′1,attr′2,…,attr′a,…,attr′num′}分别进行归一化处理;在归一化处理中,以第a个已知对象特征的属性集attr′a为例,即是先记录属性集{attr′a,1,attr′a,2,…,attr′a,n}中值最大的属性attr′a,max,再用最大的属性attr′a,max作为分母,与属性集中每个属性进行除法计算,便可获得第a个归一化处理后的已知对象特征的属性集attr″a;依此类推获得归一化处理后的num′个已知对象特征的属性集{attr″1,attr″2,…,attr″a,…,attr″num′};当归一化后的第a个已知对象特征的属性集arrta″对应的m个标签值均为0时,删除归一化后的第a个已知对象所属的原始示例;从而获得num个示例构成的初始化示例集D={inst1,inst2,…,insti,…,instnum};insti表示初始化后的第i个已知对象所对应的示例;并有insti={attri;labi};attri表示初始化后的第i个示例特征的属性集;labi表示初始化后的第i个示例语义的标签集;1≤i≤num;如表1所示:
表1:初始化示例集D第i个示例insti的数据表
attri,1 attri,n labi,1 labi,m ρi δi scoi clui
insti
步骤2:求解初始化示例集D中各示例的群聚度,从而确定初始化示例集D中的领袖示例、局外示例和选民示例:
步骤2.1、将初始化示例集D中num个示例中的每个示例的m个标签分别作为m维坐标,从而获得第i个示例insti与第k个示例instk的欧式距离dik;1≤k≤num且k≠i;例如,求解第一个示例与第二个示例的欧式距离d12,第一个示例和第二个示例都有m个相同名称的标签,但由于取值不一定相同,则分别表示为第一个示例的标签集lab1={lab1,1,lab1,2,…,lab1,m}和第二个示例的标签集lab2={lab2,1,lab2,2,…,lab2,m},则欧式距离d12 d 12 = ( lab 1 , 1 - lab 2 , 1 ) 2 + ... + ( lab 1 , m - lab 2 , m ) 2 ;
步骤2.2、定义迭代次数γ;并初始化γ=1;定义第i个示例insti的所属聚类为clui
步骤2.3、利用式(1)获得第γ次迭代的第i个示例insti的内聚合度从而获得第γ次迭代的num个示例的内聚合度并将最大的内聚合度记为 ρ max ( γ ) :
ρ i ( γ ) = Σ k = 1 n u m f ( d i k - d c ( γ ) ) - - - ( 1 )
式(1)中,为第γ次迭代的阈值;当 d i k ≤ d c ( γ ) f ( d i k - d c ( γ ) ) = 1 ; d i k > d c ( γ ) 时, f ( d i k - d c ( γ ) ) = 0 ;
步骤2.4、利用式(2)或式(3)获得第γ次迭代的第i个示例insti的差异度从而获得第γ次迭代的num个示例的差异度 δ ( γ ) = { δ 1 ( γ ) , δ 2 ( γ ) , ... , δ i ( γ ) , ... , δ n u m ( γ ) } :
δ i ( γ ) = Σ k = 1 num max ( d ik ) , ρ i ( γ ) = ρ max ( γ ) - - - ( 2 )
ρ i ( γ ) ≠ ρ max ( γ ) - - - ( 3 )
步骤2.5、对第γ次迭代的num个示例的差异度δ(γ)进行归一化处理,获得归一化后的差异度借助步骤2.4和步骤2.5将会使归一化后的差异度δ′(γ)有较大的区分,使少数接近于1,大部分值都小于0.5,这将有助于领袖示例的选取;
步骤2.6、利用式(4)获得第γ次迭代的第i个示例insti的群聚度从而获得第γ次迭代的num个示例的群聚度 sco ( γ ) = { sco 1 ( γ ) , sco 2 ( γ ) , ... , sco i ( γ ) ... , sco n u m ( γ ) } :
sco i ( γ ) = ρ i ( γ ) × δ i ′ ( γ ) - - - ( 4 )
步骤2.7、对第γ次迭代的num个示例的群聚度sco(γ)进行降序排列,获得群聚度序列 sco ′ ( γ ) = { sco 1 ′ ( γ ) , sco 2 ′ ( γ ) , ... , sco t ′ ( γ ) ... , sco n u m ′ ( γ ) } ; 并令与群聚度序列sco′(γ)相对应的内聚合度为 ρ ′ ( γ ) = { ρ 1 ′ ( γ ) , ρ 2 ′ ( γ ) , ... , ρ t ′ ( γ ) , ... , ρ n u m ′ ( γ ) } ; 表示当 sco i ( γ ) = sco t ′ ( γ ) 时的第γ次迭代的第i个示例insti的内聚合度;1≤t≤num;
步骤2.8、初始化t=1;
步骤2.9、判断是否成立,若成立,则第γ次迭代的阈值为有效值,并记录t后,执行步骤2.10;否则,判断是否成立,若成立,则将t+1赋值给t,并重复执行步骤2.9;否则,修改阈值修改阈值的规则是:若则将减去τ2赋值给否则,将加τ2赋值给0.1≤τ2≤0.5,75%≤τ1<100%;将γ+1赋值给γ,并返回执行步骤2.3;判断的条件中,1.25和3%不是固定不变的,本发明是建立在示例数目为万级,标签数目在20以下,会有较优解,当示例数目和标签数目变化时候,可以酌情进行修改,其原则是能保证后面的步骤中仅选取群聚度远大于其它示例的少量示例作为领袖示例;
步骤2.10、若第γ次迭代的第i个示例insti的内聚合度是否满足若满足,则第i个示例insti为局外示例,且令第i个示例insti的所属聚类clui=-1;否则,判断是否成立,若成立,则第i个示例insti为领袖示例,且令clui=i,否则,第i个示例insti为选民示例;
步骤2.11、统计领袖示例的个数和选民示例的个数,并分别记为N和M;
步骤2.12、记N个领袖示例集为1≤α≤N;则与N个领袖示例集D(l)相对应的内聚合度为 ρ ( l ) ( γ ) = { ρ 1 ( l ) ( γ ) , ρ 2 ( l ) ( γ ) , ... , ρ α ( l ) ( γ ) , ... , ρ N ( l ) ( γ ) } ; 表示第α个领袖示例的内聚合度;与N个领袖示例集D(l)相对应的标签集为 lab ( l ) = { lab 1 ( l ) , lab 2 ( l ) , ... , lab α ( l ) , ... , lab N ( l ) } ; 表示第α个领袖示例的标签集;与N个领袖示例集D(l)相对应的所属聚类为 表示第α个领袖示例的所属聚类;
步骤2.13、记M个选民示例集为1≤β≤M;则与M个选民示例集D(v)相对应的内聚合度为 ρ ( v ) ( γ ) = { ρ 1 ( v ) ( γ ) , ρ 2 ( v ) ( γ ) , ... , ρ β ( v ) ( γ ) , ... , ρ M ( v ) ( γ ) } ; 表示第β个选民示例的内聚合度;与M个选民示例集D(v)相对应的标签集为 lab ( v ) = { lab 1 ( v ) , lab 2 ( v ) , ... , lab β ( v ) , ... , lab M ( v ) } ; 表示第β个选民示例的标签集;与M个选民示例集D(v)相对应的所属聚类为 clu ( v ) = { clu 1 ( v ) , clu 2 ( v ) , ... , clu β ( v ) , ... , clu M ( v ) } ; 表示第β个选民示例的所属聚类;
步骤3:获得M个选民示例集D(v)的所属聚类clu(v)
步骤3.1、定义迭代次数χ;并初始化χ=1;并定义第z个中转示例instz;z≥0;并初始化α=1、β=1、z=0;第z个中转示例instz存储结构类似于常用的堆栈结构,本发明为了表述清晰,同时引入迭代次数χ,用来区分z相同时的中转示例;此时M个选民示例集D(v)相对应的所属聚类的值皆为空;
步骤3.2、从N个领袖示例集D(l)中选取任第α个领袖示例获得第α个领袖示例为与第χ次迭代的第β个选民示例的欧式距离
步骤3.3、若时,则将β+1赋值给β,并判断β≤M是否成立,若成立,重复执行步骤3.3;否则执行步骤3.5;若时,判断第χ次迭代的第β个选民示例的所属聚类是否为空,若为空,则执行步骤3.4;否则,表示第χ次迭代的第β个选民示例的所属聚类的值为第χ次迭代现有的领袖示例的下标,记为执行步骤3.11;例如,第χ次迭代现有的领袖示例为inst9,则
步骤3.4、将第α个领袖示例的下标α(l)赋值给并将z+1赋值给z,令表示将第χ次迭代的第β个选民示例中的下标βχ、标签集内聚合度和所属聚类均赋值给第χ次迭代的第z个中转示例的下标、标签集、内聚合度和所属聚类;并将β+1赋值给β;判断β≤M是否成立,若成立,则执行步骤3.3;否则执行步骤3.5;表示一个示例等于了另一个示例,其仅表示这两个示例对应的值相同,即将等号右边示例的下标、标签集、内聚合度和所属聚类赋值给等号左边示例的下标、标签集、内聚合度和所属聚类;
步骤3.5、若z≤0,则执行步骤3.14;否则,将χ+1赋值给χ,并将依次赋值给对于其它与χ相关的参数,也需将χ-1关联的赋值给对应的χ关联的,以保持数据的连贯和一致性,譬如令β=1;并获得所述第χ次迭代的第β个选民示例与第χ次迭代第z个中转示例的欧式距离并将z-1赋值给z;
步骤3.6、若时,则将β+1赋值给β,并判断β≤M是否成立,若成立,重复执行步骤3.6;否则执行步骤3.5;若时,判断第χ次迭代的第β个选民示例的所属聚类是否为空,若为空,则执行步骤3.7;否则,表示第χ次迭代的第β个选民示例的所属聚类的值为第χ次迭代现有的领袖示例的下标,记为执行步骤3.8;
步骤3.7、将第χ次迭代的第z个中转示例的下标z(χ)赋值给并将z+1赋值给z,令并将β+1赋值给β;并判断β≤M是否成立,若成立,则重复执行步骤3.6;否则执行步骤3.5;
步骤3.8、利用式(5)获得第χ次迭代的第β选民示例与第χ次迭代现有的领袖示例的影响力
gra β χ ϵ ( v ) ( β χ ) = ρ β χ ( v ) × ρ ϵ ( β χ ) d β χ ϵ ( v ) ( β χ ) - - - ( 5 )
式(5)可推广到计算任一两个语义相同的示例的影响力的计算,只需要知道两个示例的内聚合度和两者的欧式距离,套用公式(5),便可获得两个示例间的影响力;
步骤3.9、利用式(6)获得第χ次迭代的第β个选民示例与第χ次迭代的第z个中转示例的影响力
gra β χ z ( v ) ( χ ) = ρ β χ ( v ) × ρ z ( χ ) d β χ z ( v ) ( χ ) - - - ( 6 )
步骤3.10、若则将β+1赋值给β,并执行步骤3.6;否则,令并将z+1赋值给z,令并将β+1赋值给β,并判断β≤M是否成立,若成立,则执行步骤3.6;否则执行步骤3.5;
步骤3.11、利用式(7)获得第χ次迭代的第β选民示例与第χ次迭代现有领袖示例的影响力
gra β χ ϵ ( v ) ( β χ ) = ρ β χ ( v ) × ρ ϵ ( β χ ) d β χ ϵ ( v ) ( β χ ) - - - ( 7 )
步骤3.12、利用式(8)获得第χ次迭代的第β个选民示例与第α个领袖示例的影响力
gra β χ α ( v ) ( l ) = ρ β χ ( v ) × ρ α ( l ) d β χ α ( v ) ( l ) - - - ( 8 )
步骤3.13、若则将β+1赋值给β,并执行步骤3.3;否则,将第α个领袖示例的下标α(l)赋值给并将z+1赋值给z,令并判断β≤M是否成立,若成立,则将β+1赋值给β,并执行步骤3.3;否则执行步骤3.5;
步骤3.14、将α+1赋值给α;并判断α≤N是否成立,若成立,令β=1,并执行步骤3.2;否则,执行步骤3.15;
步骤3.15、将第χ次迭代时M个选民示例集D(v)相对应的所属聚类依次赋值给M个选民示例集D(v)相对应的所属聚类 { clu 1 ( v ) , clu 2 ( v ) , ... , clu β ( v ) , ... , clu M ( v ) } ;
步骤3.16、判断是否还存在所属聚类为空的选民示例,若存在,则设置所属聚类为空的选民示例的所属聚类的值为-1;因此,选民示例的所属聚类可取的值的数目为N+1,分别对应N个领袖示例的所属聚类的值以及所属聚类为-1的情况;
步骤4;采用支持向量机对预测示例进行粗分类:
4.1、建立由nump个预测示例组成的预测示例集P={instp1,instp2,…,instpj,…,instpnump};instpj表示第j个预测示例;1≤j≤nump;并有instpj={attrpj;labpj};arrtpj表示第j个预测示例instpj的属性集;labpj表示第j个预测示例instpj的标签集;记第j个预测示例instpj的内聚合度为记第j个预测示例instpj的所属聚类为clupj;本发明中预测示例和已知示例必须是同一对象,即对象的特征和语义相同,例如,已知示例是图片,则预测示例也需是图片,皆将色差,尺寸等需要详细描述的对象特征作为属性集,将风景图片,动物图片等非是即否的对象语义作为标签集,两个示例集拥有相同名称的属性集和标签集,但值各不相同,为表述清晰,本发明在论述时用不同符号进行区分;
4.2、以初始化示例集D相对应的num个所属聚类{clu1,clu2,…,clui,…,clunum}作为训练标签,以初始化示例集D中的num个已知对象的属性集{attr1,attr2…,attri,…,attrnum}作为训练样本;以预测示例集P的nump个属性集{attrp1,attrp2…,attrpj,…,attrpnump}作为预测样本,并用支持向量机方法进行训练,获得nump个预测标签,将nump个预测标签分别赋值给预测示例集P的nump个所属聚类;从而完成对预测示例集P的粗分类;支持向量机方法通常有三个输入,分别为训练标签,训练样本和预测样本,从而得到一个输出,即预测标签;
步骤5、对nump个预测示例进行多标签预测;
步骤5.1、初始化j=1;
步骤5.2、若预测示例集P中第j个预测示例instpj的所属聚类为clupj与初始化示例集D中第i个已知示例insti的所属聚类为clui相同;则利用式(9)获得第i个已知示例insti与第j个预测示例instpj的影响力graij
gra i j = ρ i × ρ j ( p ) d i j - - - ( 9 )
式(9)中,dij表示第i个已知示例insti与第j个预测示例instpj的欧式距离;
步骤5.3、重复步骤5.2,从而获得第j个预测示例instpj与初始化示例集D其他已知示例的影响力,并记录最大影响力gramax
步骤5.4、若graij=gramax,则令labpj=labi,表示预测示例集P的标签集labpj中的各个标签和初始化示例集D的标签集labi中的各个标签相同,从而获得第j个多标签预测的预测示例;
步骤5.5、将j+1赋值给j,并判断j≤nump是否成立,若成立,则返回步骤5.2执行,否则,表示完成对nump个预测示例的多标签预测;
步骤5.6、将完成多标签预测的nump个预测示例加入初始化示例集D中,从而获得更新的示例集Dnew,以更新的示例集Dnew作为新的初始化示例集进行自适应多标签预测,从而丰富现有训练集,提高下一轮预测的准确性,当出现新的具有相同的对象特征及相同的对象语义的预测示例时,只需先计算更新的示例集Dnew的内聚合度,再从步骤4开始即可完成对新的预测示例进行多标签预测。
实验结果显示,本发明在标签数目不多于20的标签预测中有的非常好的标签预测,其预测的结果与实际人为确定的标签能达到不低于80%的相似度,该结果远远高于现有的多标签预测技术,而这一数量级的标签数目正是现在大多数多媒体产品所需标签数目,故本方明是一个可以投入到实际应用的方法。如表2所示:
表2:自适应多标签预测方法实验结果
数据集名称 领域 示例数 标签数 属性数 准确性
emotions music 593 6 72 0.9633052
scene images 2407 6 294 0.810304
yeast biology 2417 14 103 0.8134254
注:1.更详尽的数据集合说明所在网址http://mulan.sourceforge.net/datasets.html;2.本发明的准确性Acc为(Zhang,M.and Zhou,Z.A review on multi-labellearningalgorithms.IEEE Trans.Knowl.Data Eng.,PP(99):1–1,2013.);yj为完成多标签预测的第j个预测示例的标签集,zj为第j个预测示例的实际人为确定的标签集,|yj∩zj|表示对yj∩zj求解其1-范数的值。

Claims (4)

1.一种自适应多标签预测方法,其特征是按如下步骤进行:
步骤1:获得初始化示例集D:
步骤1.1、由num′个已知对象建立原始示例集D′={inst′1,inst′2,…,inst′a,…,inst′num′},inst′a表示第a个已知对象所对应的原始示例;1≤a≤num′;并有inst′a={attr′a;lab′a};attr′a表示所述第a个已知对象特征的属性集;lab′a表示所述第a个已知对象语义的标签集;并有attr′a={attr′a,1,attr′a,2,…,attr′a,n};attr′a,n表示第a个已知对象的第n个属性;n为第a个已知对象的属性数;lab′a={lab′a,1,lab′a,2,…,lab′a,x,…,lab′a,m};lab′a,x表示第a个已知对象的第x个标签;m为第a个已知对象的标签数;1≤x≤m;并有:lab′a,x=1表示第a个已知对象语义符合第x个标签;lab′a,x=0表示第a个已知对象语义不符合第x个标签;
步骤1.2、对所述原始示例集D′中的num′个已知对象特征的属性集{attr′1,attr′2,…,attr′a,…,attr′num′}分别进行归一化处理,获得归一化处理后的num′个已知对象特征的属性集{attr″1,attr″2,…,attr″a,…,attr″num′};当所述归一化后的第a个已知对象特征的属性集arrta″对应的m个标签值均为0时,删除所述归一化后的第a个已知对象所属的原始示例;从而获得num个示例构成的初始化示例集D={inst1,inst2,…,insti,…,instnum};insti表示初始化后的第i个已知对象所对应的示例;并有insti={attri;labi};attri表示初始化后的第i个示例特征的属性集;labi表示初始化后的所述第i个示例语义的标签集;1≤i≤num;
步骤2:求解所述初始化示例集D中各示例的群聚度,从而确定初始化示例集D中的领袖示例、局外示例和选民示例:
步骤2.1、将所述初始化示例集D中num个示例中的每个示例的m个标签分别作为m维坐标,从而获得第i个示例insti与第k个示例instk的欧式距离dik;1≤k≤num且k≠i;
步骤2.2、定义迭代次数γ;并初始化γ=1;定义所述第i个示例insti的所属聚类为clui
步骤2.3、利用式(1)获得第γ次迭代的第i个示例insti的内聚合度从而获得第γ次迭代的num个示例的内聚合度并将最大的内聚合度记为
ρ i ( γ ) = Σ k = 1 n u m f ( d i k - d c ( γ ) ) - - - ( 1 )
式(1)中,为第γ次迭代的阈值;当时,时, f ( d i k - d c ( γ ) ) = 0 ;
步骤2.4、利用式(2)或式(3)获得第γ次迭代的第i个示例insti的差异度从而获得第γ次迭代的num个示例的差异度 δ ( γ ) = { δ 1 ( γ ) , δ 2 ( γ ) , ... , δ i ( γ ) , ... , δ n u m ( γ ) } :
δ i ( γ ) = Σ k = 1 n u m m a x ( d i k ) , ρ i ( γ ) = ρ max ( γ ) - - - ( 2 )
ρ i ( γ ) ≠ ρ max ( γ ) - - - ( 3 )
步骤2.5、对所述第γ次迭代的num个示例的差异度δ(γ)进行归一化处理,获得归一化后的差异度 δ ′ ( γ ) = { δ 1 ′ ( γ ) , δ 2 ′ ( γ ) , ... , δ i ′ ( γ ) , ... , δ n u m ′ ( γ ) } ;
步骤2.6、利用式(4)获得第γ次迭代的第i个示例insti的群聚度从而获得第γ次迭代的num个示例的群聚度 sco ( γ ) = { sco 1 ( γ ) , sco 2 ( γ ) , ... , sco i ( γ ) ... , sco n u m ( γ ) } :
sco i ( γ ) = ρ i ( γ ) × δ i ′ ( γ ) - - - ( 4 )
步骤2.7、对所述第γ次迭代的num个示例的群聚度sco(γ)进行降序排列,获得群聚度序列 sco ′ ( γ ) = { sco 1 ′ ( γ ) , sco 2 ′ ( γ ) , ... , sco t ′ ( γ ) ... , sco n u m ′ ( γ ) } ; 并令与所述群聚度序列sco′(γ)相对应的内聚合度为 ρ ′ ( γ ) = { ρ 1 ′ ( γ ) , ρ 2 ′ ( γ ) , ... , ρ t ′ ( γ ) , ... , ρ n u m ′ ( γ ) } ; 表示当 sco i ( γ ) = sco t ′ ( γ ) 时的第γ次迭代的第i个示例insti的内聚合度;1≤t≤num;
步骤2.8、初始化t=1;
步骤2.9、判断是否成立,若成立,则第γ次迭代的阈值为有效值,并记录t后,执行步骤2.10;否则,判断是否成立,若成立,则将t+1赋值给t,并重复执行步骤2.9;否则,修改阈值将γ+1赋值给γ,并返回执行步骤2.3;
步骤2.10、若第γ次迭代的第i个示例insti的内聚合度是否满足若满足,则所述第i个示例insti为局外示例,且令所述第i个示例insti的所属聚类clui=-1;否则,判断是否成立,若成立,则第i个示例insti为领袖示例,且令clui=i,否则,第i个示例insti为选民示例;
步骤2.11、统计所述领袖示例的个数和所述选民示例的个数,并分别记为N和M;
步骤2.12、记N个领袖示例集为1≤α≤N;则与所述N个领袖示例集D(l)相对应的内聚合度为 表示第α个领袖示例的内聚合度;与所述N个领袖示例集D(l)相对应的标签集为 表示第α个领袖示例的标签集;与所述N个领袖示例集D(l)相对应的所属聚类为 表示第α个领袖示例的所属聚类;
步骤2.13、记M个选民示例集为1≤β≤M;则与所述M个选民示例集D(v)相对应的内聚合度为 表示第β个选民示例的内聚合度;与所述M个选民示例集D(v)相对应的标签集为 lab ( v ) = { lab 1 ( v ) , lab 2 ( v ) , ... , lab β ( v ) , ... , lab M ( v ) } ; 表示第β个选民示例的标签集;与所述M个选民示例集D(v)相对应的所属聚类为 表示第β个选民示例的所属聚类;
步骤3:获得所述M个选民示例集D(v)的所属聚类clu(v)
步骤3.1、定义迭代次数χ;并初始化χ=1;并定义第z个中转示例instz;z≥0;并初始化α=1、β=1、z=0;
步骤3.2、从所述N个领袖示例集D(l)中选取任第α个领袖示例获得所述第α个领袖示例为与第χ次迭代的第β个选民示例的欧式距离
步骤3.3、若时,则将β+1赋值给β,并判断β≤M是否成立,若成立,重复执行步骤3.3;否则执行步骤3.5;若时,判断第χ次迭代的第β个选民示例的所属聚类是否为空,若为空,则执行步骤3.4;否则,表示第χ次迭代的第β个选民示例的所属聚类的值为第χ次迭代现有的领袖示例的下标,记为执行步骤3.11;
步骤3.4、将第α个领袖示例的下标α(l)赋值给并将z+1赋值给z,令表示将第χ次迭代的第β个选民示例中的下标βχ、标签集内聚合度和所属聚类均赋值给第χ次迭代的第z个中转示例的下标、标签集、内聚合度和所属聚类;并将β+1赋值给β;判断β≤M是否成立,若成立,则执行步骤3.3;否则执行步骤3.5;
步骤3.5、若z≤0,则执行步骤3.14;否则,将χ+1赋值给χ,并将依次赋值给令β=1;并获得所述第χ次迭代的第β个选民示例与第χ次迭代第z个中转示例的欧式距离并将z-1赋值给z;
步骤3.6、若时,则将β+1赋值给β,并判断β≤M是否成立,若成立,重复执行步骤3.6;否则执行步骤3.5;若时,判断第χ次迭代的第β个选民示例的所属聚类是否为空,若为空,则执行步骤3.7;否则,表示第χ次迭代的第β个选民示例的所属聚类的值为第χ次迭代现有的领袖示例的下标,记为执行步骤3.8;
步骤3.7、将第χ次迭代的第z个中转示例的下标z(χ)赋值给并将z+1赋值给z,令并将β+1赋值给β;并判断β≤M是否成立,若成立,则重复执行步骤3.6;否则执行步骤3.5;
步骤3.8、利用式(5)获得第χ次迭代的第β选民示例与所述第χ次迭代现有领袖示例的影响力
gra β χ ϵ ( v ) ( β χ ) = ρ β χ ( v ) × ρ ϵ ( β χ ) d β χ ϵ ( v ) ( β χ ) - - - ( 5 )
步骤3.9、利用式(6)获得第χ次迭代的第β个选民示例与第χ次迭代的第z个中转示例的影响力
gra β χ z ( v ) ( χ ) = ρ β χ ( v ) × ρ z ( χ ) d β χ z ( v ) ( χ ) - - - ( 6 )
步骤3.10、若则将β+1赋值给β,并执行步骤3.6;否则,令并将z+1赋值给z,令并将β+1赋值给β,并判断β≤M是否成立,若成立,则执行步骤3.6;否则执行步骤3.5;
步骤3.11、利用式(7)获得第χ次迭代的第β选民示例与所述第χ次迭代现有领袖示例的影响力
gra β χ ϵ ( v ) ( β χ ) = ρ β χ ( v ) × ρ ϵ ( β χ ) d β χ ϵ ( v ) ( β χ ) - - - ( 7 )
步骤3.12、利用式(8)获得第χ次迭代的第β个选民示例与第α个领袖示例的影响力
gra β χ α ( v ) ( l ) = ρ β χ ( v ) × ρ α ( l ) d β χ α ( v ) ( l ) - - - ( 8 )
步骤3.13、若则将β+1赋值给β,并执行步骤3.3;否则,将第α个领袖示例的下标α(l)赋值给并将z+1赋值给z,令并将β+1赋值给β,并判断β≤M是否成立,若成立,则执行步骤3.3;否则执行步骤3.5;
步骤3.14、将α+1赋值给α;并判断α≤N是否成立,若成立,令β=1,并执行步骤3.2;否则执行步骤3.15;
步骤3.15、将第χ次迭代时所述M个选民示例集D(v)相对应的所属聚类依次赋值给所述M个选民示例集D(v)相对应的所属聚类 { clu 1 ( v ) , clu 2 ( v ) , ... , clu β ( v ) , ... , clu M ( v ) } ;
步骤3.16、判断是否还存在所属聚类为空的选民示例,若存在,则设置所属聚类为空的选民示例的所属聚类的值为-1;
步骤4;采用支持向量机对预测示例进行粗分类:
4.1、建立由nump个预测示例组成的预测示例集P={instp1,instp2,…,instpj,…,instpnump};instpj表示第j个预测示例;1≤j≤nump;并有instpj={attrpj;labpj};arrtpj表示第j个预测示例instpj的属性集;labpj表示第j个预测示例instpj的标签集;记所述第j个预测示例instpj的内聚合度为记所述第j个预测示例instpj的所属聚类为clupj
4.2、以所述初始化示例集D相对应的num个所属聚类{clu1,clu2,…,clui,…,clunum}作为训练标签,以所述初始化示例集D中的num个已知对象的属性集{attr1,attr2…,attri,…,attrnum}作为训练样本;以所述预测示例集P的nump个属性集{attrp1,attrp2…,attrpj,…,attrpnump}作为预测样本,并用支持向量机方法进行训练,获得nump个预测标签,将所述nump个预测标签分别赋值给所述预测示例集P的nump个所属聚类;从而完成对所述预测示例集P的粗分类;
步骤5、对nump个预测示例进行多标签预测;
步骤5.1、初始化j=1;
步骤5.2、若所述预测示例集P中第j个预测示例instpj的所属聚类为clupj与所述初始化示例集D中第i个已知示例insti的所属聚类为clui相同;则利用式(9)获得第i个已知示例insti与第j个预测示例instpj的影响力graij
gra i j = ρ i × ρ j ( p ) d i j - - - ( 9 )
式(9)中,dij表示所述第i个已知示例insti与第j个预测示例instpj的欧式距离;
步骤5.3、重复步骤5.2,从而获得第j个预测示例instpj与所述初始化示例集D其他已知示例的影响力,并记录最大影响力gramax
步骤5.4、若graij=gramax,则令labpj=labi,表示所述预测示例集P的标签集labpj中的各个标签和所述初始化示例集D的标签集labi中的各个标签相同,从而获得第j个多标签预测的预测示例;
步骤5.5、将j+1赋值给j,并判断j≤nump是否成立,若成立,则返回步骤5.2执行,否则,表示完成对nump个预测示例的多标签预测。
2.根据权利要求1所述的自适应多标签预测方法,其特征是:所述步骤5中,还包括步骤5.6、将所述完成多标签预测的nump个预测示例加入所述初始化示例集D中,从而获得更新的示例集Dnew,以所述更新的示例集Dnew作为新的初始化示例集进行自适应多标签预测。
3.根据权利要求1或2所述的自适应多标签预测方法,其特征是:当出现新的具有相同的对象特征及相同的对象语义的预测示例时,只需先计算所述更新的示例集Dnew的内聚合度,再从步骤4开始即可完成对新的预测示例进行多标签预测。
4.根据权利要求1所述的自适应多标签预测方法,其特征是所述步骤2.9中,修改阈值的规则是:若则将减去τ2赋值给否则,将加τ2赋值给0.1≤τ2≤0.5,75%≤τ1<100%。
CN201510355030.9A 2015-06-24 2015-06-24 自适应多标签预测方法 Withdrawn CN104915436A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201510355030.9A CN104915436A (zh) 2015-06-24 2015-06-24 自适应多标签预测方法
CN201510501816.7A CN105069129B (zh) 2015-06-24 2015-08-14 自适应多标签预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510355030.9A CN104915436A (zh) 2015-06-24 2015-06-24 自适应多标签预测方法

Publications (1)

Publication Number Publication Date
CN104915436A true CN104915436A (zh) 2015-09-16

Family

ID=54084499

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201510355030.9A Withdrawn CN104915436A (zh) 2015-06-24 2015-06-24 自适应多标签预测方法
CN201510501816.7A Active CN105069129B (zh) 2015-06-24 2015-08-14 自适应多标签预测方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201510501816.7A Active CN105069129B (zh) 2015-06-24 2015-08-14 自适应多标签预测方法

Country Status (1)

Country Link
CN (2) CN104915436A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106909540A (zh) * 2015-12-23 2017-06-30 神州数码信息系统有限公司 一种基于协同学习的智慧城市市民偏好发现技术
CN106971713A (zh) * 2017-01-18 2017-07-21 清华大学 基于密度峰值聚类和变分贝叶斯的说话人标记方法与系统
CN108647711A (zh) * 2018-05-08 2018-10-12 重庆邮电大学 基于引力模型的多标签分类方法
CN110547806A (zh) * 2019-09-11 2019-12-10 湖北工业大学 一种基于表面肌电信号的手势动作在线识别方法及系统

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108629358B (zh) * 2017-03-23 2020-12-25 北京嘀嘀无限科技发展有限公司 对象类别的预测方法及装置
CN110162692B (zh) * 2018-12-10 2021-05-25 腾讯科技(深圳)有限公司 用户标签确定方法、装置、计算机设备和存储介质
US11379758B2 (en) 2019-12-06 2022-07-05 International Business Machines Corporation Automatic multilabel classification using machine learning

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8140584B2 (en) * 2007-12-10 2012-03-20 Aloke Guha Adaptive data classification for data mining
CN102004801A (zh) * 2010-12-30 2011-04-06 焦点科技股份有限公司 一种信息分类的方法
CN102364498B (zh) * 2011-10-17 2013-11-20 江苏大学 一种基于多标签的图像识别方法
CN102945371B (zh) * 2012-10-18 2015-06-24 浙江大学 基于多标签柔性支持向量机的分类方法
CN103077228B (zh) * 2013-01-02 2016-03-02 北京科技大学 一种基于集合特征向量的快速聚类方法和装置
CN103927394B (zh) * 2014-05-04 2017-06-16 苏州大学 一种基于svm的多标签主动学习分类方法及系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106909540A (zh) * 2015-12-23 2017-06-30 神州数码信息系统有限公司 一种基于协同学习的智慧城市市民偏好发现技术
CN106971713A (zh) * 2017-01-18 2017-07-21 清华大学 基于密度峰值聚类和变分贝叶斯的说话人标记方法与系统
CN106971713B (zh) * 2017-01-18 2020-01-07 北京华控智加科技有限公司 基于密度峰值聚类和变分贝叶斯的说话人标记方法与系统
CN108647711A (zh) * 2018-05-08 2018-10-12 重庆邮电大学 基于引力模型的多标签分类方法
CN108647711B (zh) * 2018-05-08 2021-04-20 重庆邮电大学 基于引力模型的图像的多标签分类方法
CN110547806A (zh) * 2019-09-11 2019-12-10 湖北工业大学 一种基于表面肌电信号的手势动作在线识别方法及系统
CN110547806B (zh) * 2019-09-11 2022-05-31 湖北工业大学 一种基于表面肌电信号的手势动作在线识别方法及系统

Also Published As

Publication number Publication date
CN105069129B (zh) 2018-05-18
CN105069129A (zh) 2015-11-18

Similar Documents

Publication Publication Date Title
CN104915436A (zh) 自适应多标签预测方法
CN108763362B (zh) 基于随机锚点对选择的局部模型加权融合Top-N电影推荐方法
CN103744981B (zh) 一种基于网站内容用于网站自动分类分析的系统
CN108287864B (zh) 一种兴趣群组划分方法、装置、介质及计算设备
CN105701191B (zh) 一种推送信息点击率估计方法和装置
Apaza et al. Online Courses Recommendation based on LDA.
CN105022754B (zh) 基于社交网络的对象分类方法及装置
CN102629279B (zh) 一种用于图像或视频搜索重排序的方法
CN102750347B (zh) 一种用于图像或视频搜索重排序的方法
CN105205096A (zh) 一种跨文本模态和图像模态的数据检索方法
CN108984555B (zh) 用户状态挖掘和信息推荐方法、装置以及设备
CN104794500A (zh) 一种tri-training半监督学习方法及装置
CN105205501A (zh) 一种多分类器联合的弱标注图像对象检测方法
CN108959329B (zh) 一种文本分类方法、装置、介质及设备
CN107577786B (zh) 一种基于联合聚类的矩阵分解推荐方法
CN110647683A (zh) 一种信息推荐方法、装置
CN105574213A (zh) 一种基于数据挖掘技术的微博推荐方法及装置
CN105701516B (zh) 一种基于属性判别的自动图像标注方法
CN109146606B (zh) 一种品牌推荐方法、电子设备、存储介质及系统
CN111079011A (zh) 一种基于深度学习的信息推荐方法
CN105701227B (zh) 一种基于局部关联图的跨媒体相似性度量方法和检索方法
CN113076475B (zh) 信息推荐方法、模型训练方法及相关设备
Ginsca et al. Evaluating user image tagging credibility
Fan et al. Online data clustering using variational learning of a hierarchical dirichlet process mixture of dirichlet distributions
CN104317912B (zh) 基于邻域与距离度量学习的图像语义自动标注方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C04 Withdrawal of patent application after publication (patent law 2001)
WW01 Invention patent application withdrawn after publication

Application publication date: 20150916