CN104915436A

CN104915436A - 自适应多标签预测方法

Info

Publication number: CN104915436A
Application number: CN201510355030.9A
Authority: CN
Inventors: 胡学钢; 王博岩; 李培培
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2015-06-24
Filing date: 2015-06-24
Publication date: 2015-09-16
Also published as: CN105069129B; CN105069129A

Abstract

本发明公开了一种自适应多标签预测方法，其特征是按如下步骤进行：1、获得初始化示例集；2、获得初始化示例集中的领袖示例、局外示例和选民示例；3、获得选民示例集的所属聚类；4、采用支持向量机对预测示例进行粗分类；5、对预测示例进行多标签预测。本发明能准确地对网络信息加上标签，提高多标签预测的准确性、普适性、可解释性以及可移转性，从而实现大数据环境下智能信息分类和处理。

Description

自适应多标签预测方法

技术领域

本发明属于智能信息分类与处理领域，特别是涉及一种可应用于大数据环境下多媒体资讯的快速聚类及发现密度峰值点的自适应多标签预测方法。

背景技术

随着网络的快速发展，信息量正成几何趋势增长，当下的微博、论坛、微信、在线视频、网络购物和社交网络无一例外都需要标签来方便用户的搜索和分类，准确而详尽的标签一方面可让用户能够快速地找到其所需，另一方面商家也可以借助标签对用户进行分类，对不同的用户群推荐迎合其口味的产品，从而避免用户因浏览大量无关信息，使有价值的内容淹没在信息的海洋中。反之商家若是无法正确处理信息过载问题，将最终导致消费者的不断流失。

目前给信息加多标签的方法主要有将多标签分解转化为独立的单一标签进行标记和将多标签转化为标签间的排序来标记。转化为单一标签，将多标签之间的关联关系完全忽略，准确性低；标签间的排序不仅需要大量的计算，且确定标签的排序后，还需要进一步确定是该标签的前标签还是后标签相似程度更高，因此同样存在准确性不高的缺陷。

相较于本发明，目前的处理方法存在以下缺点：

1、目前的网络信息通过计算机的学习方法，对单一标签也就是识别问题做出的预测方法较多，但由于信息的多标签存在关联关系，因此利用分解多标签为单一多标签的方法，标签的准确性较低，不能达到实用的目的。

2、目前的多标签预测技术往往只能对给定的静态数据集做出处理，如考虑新增信息，往往需要重新学习，重新设置参数，不能做到随数据的变化而自动调整参数，因此泛化性弱，普适性差。

3、将信息的多标签预测转为标签间的序关系来处理，不仅需要大量的计算，且可解释性较差，预测的准确性也不高。

4、现有的多标签预测技术多是以提高某一评价标注而设计的，忽略了其它标准，这造成了其可移植性差的特点，仅适合在满足某些条件的数据集中使用。

发明内容

本发明是为了克服现有技术存在的不足之处，提供一种自适应多标签预测方法，以期能准确地对网络信息加上标签，提高多标签预测的准确性、普适性、可解释性以及可移转性，从而实现大数据环境下智能信息分类和处理。

本发明为解决技术问题采用如下技术方案：

本发明一种自适应多标签预测方法的特点是按如下步骤进行：

步骤1：获得初始化示例集D：

步骤1.1、由num′个已知对象建立原始示例集D′＝{inst′₁,inst′₂,…,inst′_a,…,inst′_num′}，inst′_a表示第a个已知对象所对应的原始示例；1≤a≤num′；并有inst′_a＝{attr′_a；lab′_a}；attr′_a表示所述第a个已知对象特征的属性集；lab′_a表示所述第a个已知对象语义的标签集；并有attr′_a＝{attr′_a,1,attr′_a,2,…,attr′_a,n}；attr′_a,n表示第a个已知对象的第n个属性；n为第a个已知对象的属性数；lab′_a＝{lab′_a,1,lab′_a,2,…,lab′_a,x,…,lab′_a,m}；lab′_a,x表示第a个已知对象的第x个标签；m为第a个已知对象的标签数；1≤x≤m；并有：lab′_a,x＝1表示第a个已知对象语义符合第x个标签；lab′_a,x＝0表示第a个已知对象语义不符合第x个标签；

步骤1.2、对所述原始示例集D′中的num′个已知对象特征的属性集{attr′₁,attr′₂,…,attr′_a,…,attr′_num′}分别进行归一化处理，获得归一化处理后的num′个已知对象特征的属性集{attr″₁,attr″₂,…,attr″_a,…,attr″_num′}；当所述归一化后的第a个已知对象特征的属性集arrt_a″对应的m个标签值均为0时，删除所述归一化后的第a个已知对象所属的原始示例；从而获得num个示例构成的初始化示例集D＝{inst₁,inst₂,…,inst_i,…,inst_num}；inst_i表示初始化后的第i个已知对象所对应的示例；并有inst_i＝{attr_i；lab_i}；attr_i表示初始化后的第i个示例特征的属性集；lab_i表示初始化后的所述第i个示例语义的标签集；1≤i≤num；

步骤2：求解所述初始化示例集D中各示例的群聚度，从而确定初始化示例集D中的领袖示例、局外示例和选民示例：

步骤2.1、将所述初始化示例集D中num个示例中的每个示例的m个标签分别作为m维坐标，从而获得第i个示例inst_i与第k个示例inst_k的欧式距离d_ik；1≤k≤num且k≠i；

步骤2.2、定义迭代次数γ；并初始化γ＝1；定义所述第i个示例inst_i的所属聚类为clu_i；

步骤2.3、利用式(1)获得第γ次迭代的第i个示例inst_i的内聚合度从而获得第γ次迭代的num个示例的内聚合度并将最大的内聚合度记为

ρ_{\max}^{(γ)} :

ρ_{i}^{(γ)} = Σ_{k = 1}^{n u m} f (d_{i k} - d_{c}^{(γ)}) - - - (1)

式(1)中，为第γ次迭代的阈值；当

d_{i k} \leq d_{c}^{(γ)}

时，

f (d_{i k} - d_{c}^{(γ)}) = 1;

当

d_{i k} > d_{c}^{(γ)}

时，

f (d_{i k} - d_{c}^{(γ)}) = 0;

步骤2.4、利用式(2)或式(3)获得第γ次迭代的第i个示例inst_i的差异度从而获得第γ次迭代的num个示例的差异度

δ^{(γ)} = {δ_{1}^{(γ)}, δ_{2}^{(γ)}, ..., δ_{i}^{(γ)}, ..., δ_{n u m}^{(γ)}} :

δ_{i}^{(γ)} = Σ_{k = 1}^{n u m} m a x (d_{i k}),

当

ρ_{i}^{(γ)} = ρ_{\max}^{(γ)} - - - (2)

当

ρ_{i}^{(γ)} &NotEqual; ρ_{\max}^{(γ)} - - - (3)

步骤2.5、对所述第γ次迭代的num个示例的差异度δ^(γ)进行归一化处理，获得归一化后的差异度

δ^{' (γ)} = {δ_{1}^{' (γ)}, δ_{2}^{' (γ)}, ..., δ_{i}^{' (γ)}, ..., δ_{n u m}^{' (γ)}};

步骤2.6、利用式(4)获得第γ次迭代的第i个示例inst_i的群聚度从而获得第γ次迭代的num个示例的群聚度

{sco}^{(γ)} = {{sco}_{1}^{(γ)}, {sco}_{2}^{(γ)}, ..., {sco}_{i}^{(γ)} ..., {sco}_{n u m}^{(γ)}} :

{sco}_{i}^{(γ)} = ρ_{i}^{(γ)} \times δ_{i}^{' (γ)} - - - (4)

步骤2.7、对所述第γ次迭代的num个示例的群聚度sco^(γ)进行降序排列，获得群聚度序列

{sco}^{' (γ)} = {{sco}_{1}^{' (γ)}, {sco}_{2}^{' (γ)}, ..., {sco}_{t}^{' (γ)} ..., {sco}_{n u m}^{' (γ)}};

并令与所述群聚度序列sco′^(γ)相对应的内聚合度为

ρ^{' (γ)} = {ρ_{1}^{' (γ)}, ρ_{2}^{' (γ)}, ..., ρ_{t}^{' (γ)}, ..., ρ_{n u m}^{' (γ)}};

表示当

{sco}_{i}^{(γ)} = {sco}_{t}^{' (γ)}

时的第γ次迭代的第i个示例inst_i的内聚合度；1≤t≤num；

步骤2.8、初始化t＝1；

步骤2.9、判断且是否成立，若成立，则第γ次迭代的阈值为有效值，并记录t后，执行步骤2.10；否则，判断是否成立，若成立，则将t+1赋值给t，并重复执行步骤2.9；否则，修改阈值将γ+1赋值给γ，并返回执行步骤2.3；

步骤2.10、若第γ次迭代的第i个示例inst_i的内聚合度是否满足若满足，则所述第i个示例inst_i为局外示例，且令所述第i个示例inst_i的所属聚类clu_i＝-1；否则，判断是否成立，若成立，则第i个示例inst_i为领袖示例，且令clu_i＝i，否则，第i个示例inst_i为选民示例；

步骤2.11、统计所述领袖示例的个数和所述选民示例的个数，并分别记为N和M；

步骤2.12、记N个领袖示例集为

D^{(l)} = {{inst}_{1}^{(l)}, {inst}_{2}^{(l)}, ..., {inst}_{α}^{(l)}, ..., {inst}_{N}^{(l)}},

1≤α≤N；则与所述N个领袖示例集D^(l)相对应的内聚合度为表示第α个领袖示例的内聚合度；与所述N个领袖示例集D^(l)相对应的标签集为

{lab}^{(l)} = {{lab}_{1}^{(l)}, {lab}_{2}^{(l)}, ..., {lab}_{α}^{(l)}, ..., {lab}_{N}^{(l)}};

表示第α个领袖示例的标签集；与所述N个领袖示例集D^(l)相对应的所属聚类为

{clu}^{(l)} = {{clu}_{1}^{(l)}, {clu}_{2}^{(l)}, ..., {clu}_{α}^{(l)}, ..., {clu}_{N}^{(l)}};

表示第α个领袖示例的所属聚类；

步骤2.13、记M个选民示例集为1≤β≤M；则与所述M个选民示例集D^(v)相对应的内聚合度为表示第β个选民示例的内聚合度；与所述M个选民示例集D^(v)相对应的标签集为

{lab}^{(v)} = {{lab}_{1}^{(v)}, {lab}_{2}^{(v)}, ..., {lab}_{β}^{(v)}, ..., {lab}_{M}^{(v)}};

表示第β个选民示例的标签集；与所述M个选民示例集D^(v)相对应的所属聚类为

{clu}^{(v)} = {{clu}_{1}^{(v)}, {clu}_{2}^{(v)}, ..., {clu}_{β}^{(v)}, ..., {clu}_{M}^{(v)}};

表示第β个选民示例的所属聚类；

步骤3：获得所述M个选民示例集D^(v)的所属聚类clu^(v)：

步骤3.1、定义迭代次数χ；并初始化χ＝1；并定义第z个中转示例inst_z；z≥0；并初始化α＝1、β＝1、z＝0；

步骤3.2、从所述N个领袖示例集D^(l)中选取任第α个领袖示例获得所述第α个领袖示例为与第χ次迭代的第β个选民示例的欧式距离

步骤3.3、若时，则将β+1赋值给β，并判断β≤M是否成立，若成立，重复执行步骤3.3；否则执行步骤3.5；若时，判断第χ次迭代的第β个选民示例的所属聚类是否为空，若为空，则执行步骤3.4；否则，表示第χ次迭代的第β个选民示例的所属聚类的值为第χ次迭代现有的领袖示例的下标，记为执行步骤3.11；

步骤3.4、将第α个领袖示例的下标α^(l)赋值给并将z+1赋值给z，令表示将第χ次迭代的第β个选民示例中的下标β_χ、标签集内聚合度和所属聚类均赋值给第χ次迭代的第z个中转示例的下标、标签集、内聚合度和所属聚类；并将β+1赋值给β；判断β≤M是否成立，若成立，则执行步骤3.3；否则执行步骤3.5；

步骤3.5、若z≤0，则执行步骤3.14；否则，将χ+1赋值给χ，并将依次赋值给令β＝1；并获得所述第χ次迭代的第β个选民示例与第χ次迭代第z个中转示例的欧式距离并将z-1赋值给z；

步骤3.6、若时，则将β+1赋值给β，并判断β≤M是否成立，若成立，重复执行步骤3.6；否则执行步骤3.5；若时，判断第χ次迭代的第β个选民示例的所属聚类是否为空，若为空，则执行步骤3.7；否则，表示第χ次迭代的第β个选民示例的所属聚类的值为第χ次迭代现有的领袖示例的下标，记为执行步骤3.8；

步骤3.7、将第χ次迭代的第z个中转示例的下标z^(χ)赋值给并将z+1赋值给z，令并将β+1赋值给β；并判断β≤M是否成立，若成立，则重复执行步骤3.6；否则执行步骤3.5；

步骤3.8、利用式(5)获得第χ次迭代的第β选民示例与所述第χ次迭代现有领袖示例的影响力

{gra}_{β_{χ} ϵ}^{(v) (β_{χ})} = \frac{ρ_{β_{χ}}^{(v)} \times ρ_{ϵ}^{(β_{χ})}}{d_{β_{χ} ϵ}^{(v) (β_{χ})}} - - - (5)

步骤3.9、利用式(6)获得第χ次迭代的第β个选民示例与第χ次迭代的第z个中转示例的影响力

{gra}_{β_{χ} z}^{(v) (χ)} = \frac{ρ_{β_{χ}}^{(v)} \times ρ_{z}^{(χ)}}{d_{β_{χ} z}^{(v) (χ)}} - - - (6)

步骤3.10、若则将β+1赋值给β，并执行步骤3.6；否则，令并将z+1赋值给z，令并将β+1赋值给β，并判断β≤M是否成立，若成立，则执行步骤3.6；否则执行步骤3.5；

步骤3.11、利用式(7)获得第χ次迭代的第β选民示例与所述第χ次迭代现有领袖示例的影响力

{gra}_{β_{χ} ϵ}^{(v) (β_{χ})} = \frac{ρ_{β_{χ}}^{(v)} \times ρ_{ϵ}^{(β_{χ})}}{d_{β_{χ} ϵ}^{(v) (β_{χ})}} - - - (7)

步骤3.12、利用式(8)获得第χ次迭代的第β个选民示例与第α个领袖示例的影响力

{gra}_{β_{χ} α}^{(v) (l)} = \frac{ρ_{β_{χ}}^{(v)} \times ρ_{α}^{(l)}}{d_{β_{χ} α}^{(v) (l)}} - - - (8)

步骤3.13、若则将β+1赋值给β，并执行步骤3.3；否则，将第α个领袖示例的下标α^(l)赋值给并将z+1赋值给z，令并将β+1赋值给β，并判断β≤M是否成立，若成立，则执行步骤3.3；否则执行步骤3.5；

步骤3.14、将α+1赋值给α；并判断α≤N是否成立，若成立，令β＝1，并执行步骤3.2；否则执行步骤3.15；

步骤3.15、将第χ次迭代时所述M个选民示例集D^(v)相对应的所属聚类依次赋值给所述M个选民示例集D^(v)相对应的所属聚类

{{clu}_{1}^{(v)}, {clu}_{2}^{(v)}, ..., {clu}_{β}^{(v)}, ..., {clu}_{M}^{(v)}};

步骤3.16、判断是否还存在所属聚类为空的选民示例，若存在，则设置所属聚类为空的选民示例的所属聚类的值为-1；

步骤4；采用支持向量机对预测示例进行粗分类：

4.1、建立由nump个预测示例组成的预测示例集P＝{instp₁,instp₂,…,instp_j,…,instp_nump}；instp_j表示第j个预测示例；1≤j≤nump；并有instp_j＝{attrp_j；labp_j}；arrtp_j表示第j个预测示例instp_j的属性集；labp_j表示第j个预测示例instp_j的标签集；记所述第j个预测示例instp_j的内聚合度为记所述第j个预测示例instp_j的所属聚类为clup_j；

4.2、以所述初始化示例集D相对应的num个所属聚类{clu₁,clu₂,…,clu_i,…,clu_num}作为训练标签，以所述初始化示例集D中的num个已知对象的属性集{attr₁,attr₂…,attr_i,…,attr_num}作为训练样本；以所述预测示例集P的nump个属性集{attrp₁,attrp₂…,attrp_j,…,attrp_nump}作为预测样本，并用支持向量机方法进行训练，获得nump个预测标签，将所述nump个预测标签分别赋值给所述预测示例集P的nump个所属聚类；从而完成对所述预测示例集P的粗分类；

步骤5、对nump个预测示例进行多标签预测；

步骤5.1、初始化j＝1；

步骤5.2、若所述预测示例集P中第j个预测示例instp_j的所属聚类为clup_j与所述初始化示例集D中第i个已知示例inst_i的所属聚类为clu_i相同；则利用式(9)获得第i个已知示例inst_i与第j个预测示例instp_j的影响力gra_ij：

{gra}_{i j} = \frac{ρ_{i} \times ρ_{j}^{(p)}}{d_{i j}} - - - (9)

式(9)中，d_ij表示所述第i个已知示例inst_i与第j个预测示例instp_j的欧式距离；

步骤5.3、重复步骤5.2，从而获得第j个预测示例instp_j与所述初始化示例集D其他已知示例的影响力，并记录最大影响力gra_max；

步骤5.4、若gra_ij＝gra_max，则令labp_j＝lab_i，表示所述预测示例集P的标签集labp_j中的各个标签和所述初始化示例集D的标签集lab_i中的各个标签相同，从而获得第j个多标签预测的预测示例；

步骤5.5、将j+1赋值给j，并判断j≤nump是否成立，若成立，则返回步骤5.2执行，否则，表示完成对nump个预测示例的多标签预测。

本发明所述的自适应多标签预测方法的特点也在于：

所述步骤5中，还包括步骤5.6、将所述完成多标签预测的nump个预测示例加入所述初始化示例集D中，从而获得更新的示例集D_new，以所述更新的示例集D_new作为新的初始化示例集进行自适应多标签预测。

当出现新的具有相同的对象特征及相同的对象语义的预测示例时，只需先计算所述更新的示例集D_new的内聚合度，再从步骤4开始即可完成对新的预测示例进行多标签预测。

所述步骤2.9中，修改阈值的规则是：若则将减去τ₂赋值给否则，将加τ₂赋值给0.1≤τ₂≤0.5，75％≤τ₁＜100％。

与已有技术相比，本发明有益效果体现在：

1、本发明采用先粗分类再精准预测的方法，借助本发明所含的自适应性，通过多轮迭代，使得预测标签不断进化，进而取得比现有的多标签预测技术更为准确的预测结果，是一个可以投入到实际应用的方法。

2、本发明通过初始化示例集，可根据不同已知对象特征和语义确定不同的初始化示例集，使得本发明可广泛应用于现有网络平台大部分的应用环境，从简单的文字型数据，到音频，乃至图像，皆可有较好地做出标签预测，相较于现有技术普适性强。

3、本发明通过计算获得内聚合度来表示示例的内聚程度，通过计算获得差异度来表示示例的耦合程度，并依据内聚合度和差异度求解出来的群聚度，各参数有实际含义，充分考虑了高内聚低耦合的数据分类要求，易于理解和解释，从而在保证了本发明有较高的预测准确性的同时，使得本发明有较强的可移植性，可在各种条件下进行多标签预测。

4、本发明通过内聚合度能够准确找到各个产品领域中的领袖示例；对于微博，论坛和社交网络，借助此法能够准确地找到不同话题领域中影响力最大的关键用户，通过对其行为的详细研究，可预测到该领域可能的趋势，并为该领域的用户提供准确的推荐。

5、本发明通过计算示例与示例间影响力，不但可以用于多标签预测上，也可对相同语义的已知标签的示例进行类比，找寻到与该示例的多标签极为类似的示例，推荐给用户，提高用户的使用体验。

6、本发明在预测示例的多标签确定时，采用选取与预测示例最为相似的已知示例的标签集作为预测示例的标签集的方法，可以将该已知示例的用户群推荐给新出现的预测示例；可为新出现的产品找到其较为准确的市场定位，并为其发现潜在的用户。

7、本发明由于采用将完成多标签预测的预测示例加入到初始化示例集的方法，从而丰富了现有训练集，提高了下一轮预测的准确性，使得本发明具有自适应性的学习能力，面对新加入的示例能进一步完善现有数据集合，伴随已知标签示例的增加，将进一步提高该方法预测的准确性。

具体实施方式

本实施例中，一种自适应多标签预测方法，是按如下步骤进行：

步骤1：获得初始化示例集D：

步骤1.1、由num′个已知对象建立原始示例集D′＝{inst′₁,inst′₂,…,inst′_a,…,inst′_num′}，inst′_a表示第a个已知对象所对应的原始示例；1≤a≤num′；并有inst′_a＝{attr′_a；lab′_a}；attr′_a表示第a个已知对象特征的属性集；lab′_a表示第a个已知对象语义的标签集；并有attr′_a＝{attr′_a,1,attr′_a,2,…,attr′_a,n}；attr′_a,n表示第a个已知对象的第n个属性；n为第a个已知对象的属性数，lab′_a＝{lab′_a,1,lab′_a,2,…,lab′_a,x,…,lab′_a,m}；lab′_a,x表示第a个已知对象的第x个标签；m为第a个已知对象的标签数；1≤x≤m；并有：lab′_a,x＝1表示第a个已知对象语义符合第x个标签；lab′_a,x＝0表示第a个已知对象语义不符合第x个标签；假设，已知对象为图片，将色差，尺寸等需要详细描述的对象特征作为属性集，用准确而详尽的数字作为各个属性的值；将风景图片，动物图片等非是即否的对象语义作为标签集，用0表示不符合该标签，用1表示符合该标签；

步骤1.2、对原始示例集D′中的num′个已知对象特征的属性集{attr′₁,attr′₂,…,attr′_a,…,attr′_num′}分别进行归一化处理；在归一化处理中，以第a个已知对象特征的属性集attr′_a为例，即是先记录属性集{attr′_a,1,attr′_a,2,…,attr′_a,n}中值最大的属性attr′_a,max，再用最大的属性attr′_a,max作为分母，与属性集中每个属性进行除法计算，便可获得第a个归一化处理后的已知对象特征的属性集attr″_a；依此类推获得归一化处理后的num′个已知对象特征的属性集{attr″₁,attr″₂,…,attr″_a,…,attr″_num′}；当归一化后的第a个已知对象特征的属性集arrt_a″对应的m个标签值均为0时，删除归一化后的第a个已知对象所属的原始示例；从而获得num个示例构成的初始化示例集D＝{inst₁,inst₂,…,inst_i,…,inst_num}；inst_i表示初始化后的第i个已知对象所对应的示例；并有inst_i＝{attr_i；lab_i}；attr_i表示初始化后的第i个示例特征的属性集；lab_i表示初始化后的第i个示例语义的标签集；1≤i≤num；如表1所示：

表1：初始化示例集D第i个示例inst_i的数据表

attr_i,1

…

attr_i,n

lab_i,1

…

lab_i,m

ρ_i

δ_i

sco_i

clu_i

inst_i

步骤2：求解初始化示例集D中各示例的群聚度，从而确定初始化示例集D中的领袖示例、局外示例和选民示例：

步骤2.1、将初始化示例集D中num个示例中的每个示例的m个标签分别作为m维坐标，从而获得第i个示例inst_i与第k个示例inst_k的欧式距离d_ik；1≤k≤num且k≠i；例如，求解第一个示例与第二个示例的欧式距离d₁₂，第一个示例和第二个示例都有m个相同名称的标签，但由于取值不一定相同，则分别表示为第一个示例的标签集lab₁＝{lab_1,1,lab_1,2,…，lab_1,m}和第二个示例的标签集lab₂＝{lab_2,1,lab_2,2,…,lab_2,m}，则欧式距离d₁₂为

d_{12} = \sqrt{{({lab}_{1, 1} - {lab}_{2, 1})}^{2} + ... + {({lab}_{1, m} - {lab}_{2, m})}^{2}};

步骤2.2、定义迭代次数γ；并初始化γ＝1；定义第i个示例inst_i的所属聚类为clu_i；

ρ_{\max}^{(γ)} :

ρ_{i}^{(γ)} = Σ_{k = 1}^{n u m} f (d_{i k} - d_{c}^{(γ)}) - - - (1)

式(1)中，为第γ次迭代的阈值；当

d_{i k} \leq d_{c}^{(γ)}

f (d_{i k} - d_{c}^{(γ)}) = 1;

当

d_{i k} > d_{c}^{(γ)}

时，

f (d_{i k} - d_{c}^{(γ)}) = 0;

δ^{(γ)} = {δ_{1}^{(γ)}, δ_{2}^{(γ)}, ..., δ_{i}^{(γ)}, ..., δ_{n u m}^{(γ)}} :

δ_{i}^{(γ)} = Σ_{k = 1}^{num} \max (d_{ik}),

当

ρ_{i}^{(γ)} = ρ_{\max}^{(γ)} - - - (2)

当

ρ_{i}^{(γ)} &NotEqual; ρ_{\max}^{(γ)} - - - (3)

步骤2.5、对第γ次迭代的num个示例的差异度δ^(γ)进行归一化处理，获得归一化后的差异度借助步骤2.4和步骤2.5将会使归一化后的差异度δ′^(γ)有较大的区分，使少数接近于1，大部分值都小于0.5，这将有助于领袖示例的选取；

{sco}^{(γ)} = {{sco}_{1}^{(γ)}, {sco}_{2}^{(γ)}, ..., {sco}_{i}^{(γ)} ..., {sco}_{n u m}^{(γ)}} :

{sco}_{i}^{(γ)} = ρ_{i}^{(γ)} \times δ_{i}^{' (γ)} - - - (4)

步骤2.7、对第γ次迭代的num个示例的群聚度sco^(γ)进行降序排列，获得群聚度序列

{sco}^{' (γ)} = {{sco}_{1}^{' (γ)}, {sco}_{2}^{' (γ)}, ..., {sco}_{t}^{' (γ)} ..., {sco}_{n u m}^{' (γ)}};

并令与群聚度序列sco′^(γ)相对应的内聚合度为

ρ^{' (γ)} = {ρ_{1}^{' (γ)}, ρ_{2}^{' (γ)}, ..., ρ_{t}^{' (γ)}, ..., ρ_{n u m}^{' (γ)}};

表示当

{sco}_{i}^{(γ)} = {sco}_{t}^{' (γ)}

时的第γ次迭代的第i个示例inst_i的内聚合度；1≤t≤num；

步骤2.8、初始化t＝1；

步骤2.9、判断且是否成立，若成立，则第γ次迭代的阈值为有效值，并记录t后，执行步骤2.10；否则，判断是否成立，若成立，则将t+1赋值给t，并重复执行步骤2.9；否则，修改阈值修改阈值的规则是：若则将减去τ₂赋值给否则，将加τ₂赋值给0.1≤τ₂≤0.5，75％≤τ₁＜100％；将γ+1赋值给γ，并返回执行步骤2.3；判断且的条件中，1.25和3％不是固定不变的，本发明是建立在示例数目为万级，标签数目在20以下，会有较优解，当示例数目和标签数目变化时候，可以酌情进行修改，其原则是能保证后面的步骤中仅选取群聚度远大于其它示例的少量示例作为领袖示例；

步骤2.10、若第γ次迭代的第i个示例inst_i的内聚合度是否满足若满足，则第i个示例inst_i为局外示例，且令第i个示例inst_i的所属聚类clu_i＝-1；否则，判断是否成立，若成立，则第i个示例inst_i为领袖示例，且令clu_i＝i，否则，第i个示例inst_i为选民示例；

步骤2.11、统计领袖示例的个数和选民示例的个数，并分别记为N和M；

步骤2.12、记N个领袖示例集为1≤α≤N；则与N个领袖示例集D^(l)相对应的内聚合度为

ρ^{(l) (γ)} = {ρ_{1}^{(l) (γ)}, ρ_{2}^{(l) (γ)}, ..., ρ_{α}^{(l) (γ)}, ..., ρ_{N}^{(l) (γ)}};

表示第α个领袖示例的内聚合度；与N个领袖示例集D^(l)相对应的标签集为

{lab}^{(l)} = {{lab}_{1}^{(l)}, {lab}_{2}^{(l)}, ..., {lab}_{α}^{(l)}, ..., {lab}_{N}^{(l)}};

表示第α个领袖示例的标签集；与N个领袖示例集D^(l)相对应的所属聚类为表示第α个领袖示例的所属聚类；

步骤2.13、记M个选民示例集为1≤β≤M；则与M个选民示例集D^(v)相对应的内聚合度为

ρ^{(v) (γ)} = {ρ_{1}^{(v) (γ)}, ρ_{2}^{(v) (γ)}, ..., ρ_{β}^{(v) (γ)}, ..., ρ_{M}^{(v) (γ)}};

表示第β个选民示例的内聚合度；与M个选民示例集D^(v)相对应的标签集为

{lab}^{(v)} = {{lab}_{1}^{(v)}, {lab}_{2}^{(v)}, ..., {lab}_{β}^{(v)}, ..., {lab}_{M}^{(v)}};

表示第β个选民示例的标签集；与M个选民示例集D^(v)相对应的所属聚类为

{clu}^{(v)} = {{clu}_{1}^{(v)}, {clu}_{2}^{(v)}, ..., {clu}_{β}^{(v)}, ..., {clu}_{M}^{(v)}};

表示第β个选民示例的所属聚类；

步骤3：获得M个选民示例集D^(v)的所属聚类clu^(v)：

步骤3.1、定义迭代次数χ；并初始化χ＝1；并定义第z个中转示例inst_z；z≥0；并初始化α＝1、β＝1、z＝0；第z个中转示例inst_z存储结构类似于常用的堆栈结构，本发明为了表述清晰，同时引入迭代次数χ，用来区分z相同时的中转示例；此时M个选民示例集D^(v)相对应的所属聚类的值皆为空；

步骤3.2、从N个领袖示例集D^(l)中选取任第α个领袖示例获得第α个领袖示例为与第χ次迭代的第β个选民示例的欧式距离

步骤3.3、若时，则将β+1赋值给β，并判断β≤M是否成立，若成立，重复执行步骤3.3；否则执行步骤3.5；若时，判断第χ次迭代的第β个选民示例的所属聚类是否为空，若为空，则执行步骤3.4；否则，表示第χ次迭代的第β个选民示例的所属聚类的值为第χ次迭代现有的领袖示例的下标，记为执行步骤3.11；例如，第χ次迭代现有的领袖示例为inst₉，则

步骤3.4、将第α个领袖示例的下标α^(l)赋值给并将z+1赋值给z，令表示将第χ次迭代的第β个选民示例中的下标β_χ、标签集内聚合度和所属聚类均赋值给第χ次迭代的第z个中转示例的下标、标签集、内聚合度和所属聚类；并将β+1赋值给β；判断β≤M是否成立，若成立，则执行步骤3.3；否则执行步骤3.5；表示一个示例等于了另一个示例，其仅表示这两个示例对应的值相同，即将等号右边示例的下标、标签集、内聚合度和所属聚类赋值给等号左边示例的下标、标签集、内聚合度和所属聚类；

步骤3.5、若z≤0，则执行步骤3.14；否则，将χ+1赋值给χ，并将依次赋值给对于其它与χ相关的参数，也需将χ-1关联的赋值给对应的χ关联的，以保持数据的连贯和一致性，譬如令β＝1；并获得所述第χ次迭代的第β个选民示例与第χ次迭代第z个中转示例的欧式距离并将z-1赋值给z；

步骤3.8、利用式(5)获得第χ次迭代的第β选民示例与第χ次迭代现有的领袖示例的影响力

{gra}_{β_{χ} ϵ}^{(v) (β_{χ})} = \frac{ρ_{β_{χ}}^{(v)} \times ρ_{ϵ}^{(β_{χ})}}{d_{β_{χ} ϵ}^{(v) (β_{χ})}} - - - (5)

式(5)可推广到计算任一两个语义相同的示例的影响力的计算，只需要知道两个示例的内聚合度和两者的欧式距离，套用公式(5)，便可获得两个示例间的影响力；

{gra}_{β_{χ} z}^{(v) (χ)} = \frac{ρ_{β_{χ}}^{(v)} \times ρ_{z}^{(χ)}}{d_{β_{χ} z}^{(v) (χ)}} - - - (6)

步骤3.11、利用式(7)获得第χ次迭代的第β选民示例与第χ次迭代现有领袖示例的影响力

{gra}_{β_{χ} ϵ}^{(v) (β_{χ})} = \frac{ρ_{β_{χ}}^{(v)} \times ρ_{ϵ}^{(β_{χ})}}{d_{β_{χ} ϵ}^{(v) (β_{χ})}} - - - (7)

{gra}_{β_{χ} α}^{(v) (l)} = \frac{ρ_{β_{χ}}^{(v)} \times ρ_{α}^{(l)}}{d_{β_{χ} α}^{(v) (l)}} - - - (8)

步骤3.13、若则将β+1赋值给β，并执行步骤3.3；否则，将第α个领袖示例的下标α^(l)赋值给并将z+1赋值给z，令并判断β≤M是否成立，若成立，则将β+1赋值给β，并执行步骤3.3；否则执行步骤3.5；

步骤3.14、将α+1赋值给α；并判断α≤N是否成立，若成立，令β＝1，并执行步骤3.2；否则，执行步骤3.15；

步骤3.15、将第χ次迭代时M个选民示例集D^(v)相对应的所属聚类依次赋值给M个选民示例集D^(v)相对应的所属聚类

{{clu}_{1}^{(v)}, {clu}_{2}^{(v)}, ..., {clu}_{β}^{(v)}, ..., {clu}_{M}^{(v)}};

步骤3.16、判断是否还存在所属聚类为空的选民示例，若存在，则设置所属聚类为空的选民示例的所属聚类的值为-1；因此，选民示例的所属聚类可取的值的数目为N+1，分别对应N个领袖示例的所属聚类的值以及所属聚类为-1的情况；

步骤4；采用支持向量机对预测示例进行粗分类：

4.1、建立由nump个预测示例组成的预测示例集P＝{instp₁,instp₂,…,instp_j,…,instp_nump}；instp_j表示第j个预测示例；1≤j≤nump；并有instp_j＝{attrp_j；labp_j}；arrtp_j表示第j个预测示例instp_j的属性集；labp_j表示第j个预测示例instp_j的标签集；记第j个预测示例instp_j的内聚合度为记第j个预测示例instp_j的所属聚类为clup_j；本发明中预测示例和已知示例必须是同一对象，即对象的特征和语义相同，例如，已知示例是图片，则预测示例也需是图片，皆将色差，尺寸等需要详细描述的对象特征作为属性集，将风景图片，动物图片等非是即否的对象语义作为标签集，两个示例集拥有相同名称的属性集和标签集，但值各不相同，为表述清晰，本发明在论述时用不同符号进行区分；

4.2、以初始化示例集D相对应的num个所属聚类{clu₁,clu₂,…,clu_i,…,clu_num}作为训练标签，以初始化示例集D中的num个已知对象的属性集{attr₁,attr₂…,attr_i,…,attr_num}作为训练样本；以预测示例集P的nump个属性集{attrp₁,attrp₂…,attrp_j,…,attrp_nump}作为预测样本，并用支持向量机方法进行训练，获得nump个预测标签，将nump个预测标签分别赋值给预测示例集P的nump个所属聚类；从而完成对预测示例集P的粗分类；支持向量机方法通常有三个输入，分别为训练标签，训练样本和预测样本，从而得到一个输出，即预测标签；

步骤5、对nump个预测示例进行多标签预测；

步骤5.1、初始化j＝1；

步骤5.2、若预测示例集P中第j个预测示例instp_j的所属聚类为clup_j与初始化示例集D中第i个已知示例inst_i的所属聚类为clu_i相同；则利用式(9)获得第i个已知示例inst_i与第j个预测示例instp_j的影响力gra_ij：

{gra}_{i j} = \frac{ρ_{i} \times ρ_{j}^{(p)}}{d_{i j}} - - - (9)

式(9)中，d_ij表示第i个已知示例inst_i与第j个预测示例instp_j的欧式距离；

步骤5.3、重复步骤5.2，从而获得第j个预测示例instp_j与初始化示例集D其他已知示例的影响力，并记录最大影响力gra_max；

步骤5.4、若gra_ij＝gra_max，则令labp_j＝lab_i，表示预测示例集P的标签集labp_j中的各个标签和初始化示例集D的标签集lab_i中的各个标签相同，从而获得第j个多标签预测的预测示例；

步骤5.5、将j+1赋值给j，并判断j≤nump是否成立，若成立，则返回步骤5.2执行，否则，表示完成对nump个预测示例的多标签预测；

步骤5.6、将完成多标签预测的nump个预测示例加入初始化示例集D中，从而获得更新的示例集D_new，以更新的示例集D_new作为新的初始化示例集进行自适应多标签预测，从而丰富现有训练集，提高下一轮预测的准确性，当出现新的具有相同的对象特征及相同的对象语义的预测示例时，只需先计算更新的示例集D_new的内聚合度，再从步骤4开始即可完成对新的预测示例进行多标签预测。

实验结果显示，本发明在标签数目不多于20的标签预测中有的非常好的标签预测，其预测的结果与实际人为确定的标签能达到不低于80％的相似度，该结果远远高于现有的多标签预测技术，而这一数量级的标签数目正是现在大多数多媒体产品所需标签数目，故本方明是一个可以投入到实际应用的方法。如表2所示：

表2：自适应多标签预测方法实验结果

数据集名称	领域	示例数	标签数	属性数	准确性
						emotions	music	593	6	72	0.9633052
scene	images	2407	6	294	0.810304
						yeast	biology	2417	14	103	0.8134254

注：1.更详尽的数据集合说明所在网址http://mulan.sourceforge.net/datasets.html；2.本发明的准确性Acc为(Zhang,M.and Zhou,Z.A review on multi-labellearningalgorithms.IEEE Trans.Knowl.Data Eng.,PP(99):1–1,2013.)；y_j为完成多标签预测的第j个预测示例的标签集，z_j为第j个预测示例的实际人为确定的标签集，|y_j∩z_j|表示对y_j∩z_j求解其1-范数的值。

Claims

1.一种自适应多标签预测方法，其特征是按如下步骤进行：

步骤1：获得初始化示例集D：

ρ_{i}^{(γ)} = Σ_{k = 1}^{n u m} f (d_{i k} - d_{c}^{(γ)}) - - - (1)

式(1)中，为第γ次迭代的阈值；当时，当时，

f (d_{i k} - d_{c}^{(γ)}) = 0;

δ^{(γ)} = {δ_{1}^{(γ)}, δ_{2}^{(γ)}, ..., δ_{i}^{(γ)}, ..., δ_{n u m}^{(γ)}} :

δ_{i}^{(γ)} = Σ_{k = 1}^{n u m} m a x (d_{i k}),

当

ρ_{i}^{(γ)} = ρ_{\max}^{(γ)} - - - (2)

当

ρ_{i}^{(γ)} &NotEqual; ρ_{\max}^{(γ)} - - - (3)

δ^{' (γ)} = {δ_{1}^{' (γ)}, δ_{2}^{' (γ)}, ..., δ_{i}^{' (γ)}, ..., δ_{n u m}^{' (γ)}};

{sco}^{(γ)} = {{sco}_{1}^{(γ)}, {sco}_{2}^{(γ)}, ..., {sco}_{i}^{(γ)} ..., {sco}_{n u m}^{(γ)}} :

{sco}_{i}^{(γ)} = ρ_{i}^{(γ)} \times δ_{i}^{' (γ)} - - - (4)

{sco}^{' (γ)} = {{sco}_{1}^{' (γ)}, {sco}_{2}^{' (γ)}, ..., {sco}_{t}^{' (γ)} ..., {sco}_{n u m}^{' (γ)}};

并令与所述群聚度序列sco′^(γ)相对应的内聚合度为

ρ^{' (γ)} = {ρ_{1}^{' (γ)}, ρ_{2}^{' (γ)}, ..., ρ_{t}^{' (γ)}, ..., ρ_{n u m}^{' (γ)}};

表示当

{sco}_{i}^{(γ)} = {sco}_{t}^{' (γ)}

时的第γ次迭代的第i个示例inst_i的内聚合度；1≤t≤num；

步骤2.8、初始化t＝1；

步骤2.12、记N个领袖示例集为1≤α≤N；则与所述N个领袖示例集D^(l)相对应的内聚合度为表示第α个领袖示例的内聚合度；与所述N个领袖示例集D^(l)相对应的标签集为表示第α个领袖示例的标签集；与所述N个领袖示例集D^(l)相对应的所属聚类为表示第α个领袖示例的所属聚类；

{lab}^{(v)} = {{lab}_{1}^{(v)}, {lab}_{2}^{(v)}, ..., {lab}_{β}^{(v)}, ..., {lab}_{M}^{(v)}};

表示第β个选民示例的标签集；与所述M个选民示例集D^(v)相对应的所属聚类为表示第β个选民示例的所属聚类；

步骤3：获得所述M个选民示例集D^(v)的所属聚类clu^(v)：

{gra}_{β_{χ} ϵ}^{(v) (β_{χ})} = \frac{ρ_{β_{χ}}^{(v)} \times ρ_{ϵ}^{(β_{χ})}}{d_{β_{χ} ϵ}^{(v) (β_{χ})}} - - - (5)

{gra}_{β_{χ} z}^{(v) (χ)} = \frac{ρ_{β_{χ}}^{(v)} \times ρ_{z}^{(χ)}}{d_{β_{χ} z}^{(v) (χ)}} - - - (6)

{gra}_{β_{χ} ϵ}^{(v) (β_{χ})} = \frac{ρ_{β_{χ}}^{(v)} \times ρ_{ϵ}^{(β_{χ})}}{d_{β_{χ} ϵ}^{(v) (β_{χ})}} - - - (7)

{gra}_{β_{χ} α}^{(v) (l)} = \frac{ρ_{β_{χ}}^{(v)} \times ρ_{α}^{(l)}}{d_{β_{χ} α}^{(v) (l)}} - - - (8)

{{clu}_{1}^{(v)}, {clu}_{2}^{(v)}, ..., {clu}_{β}^{(v)}, ..., {clu}_{M}^{(v)}};

步骤4；采用支持向量机对预测示例进行粗分类：

步骤5、对nump个预测示例进行多标签预测；

步骤5.1、初始化j＝1；

{gra}_{i j} = \frac{ρ_{i} \times ρ_{j}^{(p)}}{d_{i j}} - - - (9)

2.根据权利要求1所述的自适应多标签预测方法，其特征是：所述步骤5中，还包括步骤5.6、将所述完成多标签预测的nump个预测示例加入所述初始化示例集D中，从而获得更新的示例集D_new，以所述更新的示例集D_new作为新的初始化示例集进行自适应多标签预测。

3.根据权利要求1或2所述的自适应多标签预测方法，其特征是：当出现新的具有相同的对象特征及相同的对象语义的预测示例时，只需先计算所述更新的示例集D_new的内聚合度，再从步骤4开始即可完成对新的预测示例进行多标签预测。

4.根据权利要求1所述的自适应多标签预测方法，其特征是所述步骤2.9中，修改阈值的规则是：若则将减去τ₂赋值给否则，将加τ₂赋值给0.1≤τ₂≤0.5，75％≤τ₁＜100％。