CN105046323B - 一种正则化rbf网络多标签分类方法 - Google Patents

一种正则化rbf网络多标签分类方法 Download PDF

Info

Publication number
CN105046323B
CN105046323B CN201510213367.6A CN201510213367A CN105046323B CN 105046323 B CN105046323 B CN 105046323B CN 201510213367 A CN201510213367 A CN 201510213367A CN 105046323 B CN105046323 B CN 105046323B
Authority
CN
China
Prior art keywords
label
network
output
rbf
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201510213367.6A
Other languages
English (en)
Other versions
CN105046323A (zh
Inventor
孙霞
王佳荣
冯筠
陈勇
吴宁海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing 3d Intellectually Science & Technology Co Ltd
Shaanxi Zhi Lian Brain Control Technology Co Ltd
Northwest University
Original Assignee
Shaanxi Ruihai Electric Engineering Co Ltd
Xi'an Maiduo Information Science & Technology Co Ltd
Northwest University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shaanxi Ruihai Electric Engineering Co Ltd, Xi'an Maiduo Information Science & Technology Co Ltd, Northwest University filed Critical Shaanxi Ruihai Electric Engineering Co Ltd
Priority to CN201510213367.6A priority Critical patent/CN105046323B/zh
Publication of CN105046323A publication Critical patent/CN105046323A/zh
Application granted granted Critical
Publication of CN105046323B publication Critical patent/CN105046323B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种正则化RBF网络多标签分类方法,属于多标签分类技术领域。采用的技术方案为:(1)构造RBF网络,包括构造网络输入层结点、隐藏层结点、输出层结点;(2)用训练数据训练RBF网络;(3)利用RBF网络预测标签。本发明方法在对多标签分类算法的设计中,利用正则化技巧,聚类速度快、泛化性能好,能够有效增强RBF网络的泛化性能。

Description

一种正则化RBF网络多标签分类方法
技术领域
本发明属于多标签分类技术领域,具体涉及一种正则化RBF网络多标签分类方法。
背景技术
在传统机器学习的框架下,分类问题研究如何将待分类样本准确的划分到唯一的某一类中。如果候选类别只有两个,这类问题被称作二值分类问题。如果候选类别有多个,这类问题被称作多类分类问题。二值分类问题和多类分类问题都是单标签分类问题。然而,在真实世界中,同时具有多个概念标记的歧义性对象广泛存在。例如在文档分类中,每篇文档可能同时属于多个主题,从不同的角度分析一篇新闻报道,可将其划分为“政治”和“经济”类;在功能基因组研究中,每个基因可能同时具有“新陈代谢”和“转录”等多种功能;在场景分类中,每幅图像可能同时包含“海滩”和“落日”等多种语义信息。这样的分类问题被称作多标签分类问题。
M.-L.Zhang.ML-RBF:RBF neural networks for multi-label learning.NeuralProcessing Letters,2009,29(2):61-74.提出了RBF神经网络的多标签分类算法,该方法包括:首先,对于训练集中的每一个标签,利用Kmeans算法对其聚类,聚类得出的中心点作为RBF的隐藏层节点;其次,通过最小化平方和误差函数解得输出层权重向量。但是该方法没有进行正则化处理,使得分类结果不能达到最优的效果。
M.-L.Zhang,Z.-J.Wang.MIMLRBF:RBF neural networks for multi-instancemulti-label learning.Neurocomputing,2009,72(16-18):3951-3956.提出了多实例多标签问题的RBF神经网络算法,该方法包括:首先,对于训练集中的每一个标签,利用k-MEDOIDS算法对其聚类,聚类得出的中心点作为网络的隐藏层神经元;其次,通过最小化平方和误差函数,优化隐藏层神经元与输出层神经元之间的权值矩阵。该方法是针对多实例多标签问题的,不能直接用于解决单独的多标签分类问题,并且该方法也没有进行正则化处理,使得分类方法不能得到最优的分类结果。
上述RBF网络多标签分类方法,都没有使用正则化技术,限制了分类方法的分类结果,降低了分类方法的泛化性能。
发明内容
为了克服上述现有技术存在的缺陷,本发明的目的在于提供一种正则化RBF网络多标签分类方法,该方法聚类速度快、泛化性能好,能够增强RBF网络的泛化性能。
本发明是通过以下技术方案来实现:
一种正则化RBF网络多标签分类方法,包括以下步骤:
步骤1:构建RBF网络
包括构造网络的输入层结点、隐藏层结点及输出层结点;
输入层结点,由n个结点组成,每一个结点对应输入样本向量的一个特征;
隐藏层结点,依次对数据集对应的标签集中的每一个标签的正样本集进行聚类,聚类之后得到个聚类中心,α为常量参数;所有的标签聚类形成的聚类中心构成了径向基函数RBF的隐藏层结点;
输出层结点,由q个结点组成,每一个输出层结点都是一个潜在的输出标签;
步骤2:用训练数据训练RBF网络
建立带正则项的RBF网络多标签分类模型,选取公开多标签数据集,选择其中的一部分作为训练数据集,对RBF网络多标签分类器进行正则参数寻优,得到连接隐藏层和输出层的权值矩阵;
步骤3:利用RBF网络预测标签
对于RBF网络的输出层结点,设定常量0为阈值;利用连接隐藏层和输出层的权值矩阵值,得出网络中每个结点的输出值,比较每个结点输出值与阈值0的大小关系,大于阈值0的作为样本的潜在标签,实现多标签分类。
步骤1所述的RBF网络构建,具体包括以下步骤:
1)设或者表示维度为n的样本空间;其中,表示维度为n的实数空间,表示维度为n的复数空间;表示具有q个可能的类标签的标签空间,多标签训练集为:
包含m个样本数据,是一个n维的特征向量是与xi相对应的标签集;
网络的输入层由n个结点组成,用于将n维的样本xi输入网络;
2)对标签空间中的每一个标签的正样本集进行聚类;
3)标签空间的维度为q,网络的输出层结点由q个结点组成,一个输出结点对应标签空间中的一个标签,则网络输出为向量f:
向量f=[f1,f2,…,fq];
向量f的每一个分量值对应网络的一个输出结点的输出值。
步骤2)所述对正样本集进行聚类的具体步骤为:
(1)标签集合中的每一个标签找出正样本集合
其中,(xj,Yj)为多标签训练集中的一个样本,是一个n维的特征向量,是与xj相对应的标签集,是集合Yj的一个元素;
(2)利用SOM聚类法,对正样本集合聚类,聚类之后得到k个聚类中心,α为常量参数,形成聚类中心为向量
(3)重复步骤(1)和(2),直至标签集中的每一个标签对应的正样本集合都聚类产生聚类中心,并将这些聚类中心合并,得到网络隐藏层结点为向量c,隐藏层结点数量为L,
步骤2所述训练RBF网络,具体包括以下步骤:
1)对于样本xj是一个n维的特征向量,RBF网络输出层的第个输出结点,其输出值形式化的定义如下:
设:
β为连接隐藏层和输出层的权值矩阵,为矩阵β的第i行第列元素,L为网络的隐藏层结点数量,m为多标签训练集的总训练样本数量;φi(xj,ci)为RBF网络的隐藏层结点ci在网络输入样本为xj时,隐藏层结点ci的输出函数值;
RBF网络的隐藏层函数采用高斯函数作为径向基函数,则φi(xj,ci)函数形式化的定义如下:
其中,ci为径向基函数φi(·)的中心,即RBF网络隐藏层结点,σ称为径向基函数的扩展常数,反应函数图像的宽度,通过计算每对网络隐藏层结点之间的距离来获得,形式化的定义为:
其中,μ为调节参数,为网络的隐藏层结点数量,ct和ch为网络隐藏层结点;
则,RBF网络输出向量f=[f1,f2,…,fq]形式化的定义为:
f=Hβ (6)
H和β定义如式(2)和式(3),向量f的每一个分量值为网络的一个输出结点的输出值,定义如式(1)所示;
2)最小化网络输出误差值,如下式:
其中,T为多标签训练集的m个训练样本的目标标签矩阵,f为RBF网络输出向量,λΩ(f)为正则项,λ为正则参数;
则有,最小化等价于:
minw(||Hβ-T||+λβ) (8)
利用岭回归的方法求解,隐藏层和输出层的权值矩阵β表示为:
β=(HTH+λI)-1HTT (9);
其中,I为单位矩阵;
3)选取若干个公开多标签数据集,利用每个多标签数据集的训练数据集训练RBF网络,寻找RBF网络多标签分类器在每一个数据集上的最优正则化参数λ,优化得到连接隐藏层和输出层的权值矩阵β。
步骤2所述的训练RBF网络的公开多标签数据集为流行的公开多标签数据集,为:Yeast数据集、Scene数据集、Genbase数据集、Emotions数据集、Enron数据集或TMC2007数据集。
步骤3所述利用RBF网络预测标签,RBF网络多标签分类器预测的标签为标签集h(xi):
其中,xi为多标签数据集的第i个样本,是一个n维的特征向量,为标签空间中的一个标签,为网络的一个输出结点的输出值,t(xi)为阈值函数,设为常量0;比较和0的大小,若大于0,则标签为xi的潜在的一个标签。
与现有技术相比,本发明具有以下有益的技术效果:
本发明首先构造RBF网络结构,RBF网络具有结构简单、全局最优、训练速度快的优点,很适合解决分类问题;其次,为了提高分类方法的速度,RBF网络的隐藏层结点使用SOM(Self Organization Map)聚类方法得到;然后,在训练RBF网络过程中,采用正则化技术在训练出网络参数,通过参数值进一步计算出多标签分类方法的函数输出值,最后将输出值与阈值函数比较,根据比较结果预测出标签,从而完成多标签分类任务。本发明改用聚类速度更快的SOM聚类方法,并且加入正则化技术,增强了RBF神经网络的泛化性能。
附图说明
图1为多标签RBF网络结构;
图2为SOM结构图;
图3为训练RBF网络流程图;
图4为预测Yeast测试数据集标签流程图。
具体实施方式
下面结合具体的实施例对本发明做进一步的详细说明,所述是对本发明的解释而不是限定。
本发明公开了一种正则化RBF网络多标签分类方法(Regularized RBF NeuralNetwork Multi-label Classification Algorithm,R-RBF-ML),包括以下步骤:
步骤1:构建RBF网络,包括构造网络输入层结点、隐藏层结点、输出层结点;
输入层:网络的输入层由n个结点组成,每个结点对应输入样本向量的一个特征。
隐藏层:在隐含层,依次对数据集对应的标签集中的每一个标签的正样本集进行聚类,聚类之后得到个聚类中心,α为常量参数,表示正样本集的大小。所有的标签聚类形成的聚类中心构成了径向基函数RBF的隐藏层结点。
输出层:输出层结点由q个结点组成,每一个输出结点都是一个可能的输出标签。
步骤2:用训练数据训练RBF网络;
建立带正则项的RBF网络多标签分类模型,选取公开多标签数据集,选择一部分作为训练数据集,对RBF网络多标签分类器进行正则参数寻优,同时优化连接隐藏层和输出层的权值矩阵。
步骤3:利用RBF网络预测标签。
对于RBF网络的输出结点,设定常量0为阈值,比较网络的每个结点输出值与0的大小关系,大于0的作为样本可能的标签。
步骤1所述RBF网络构建包括:
(1)设表示维度为n的实数空间或者复数空间 表示具有q个可能的类标签的标签空间,多标签训练集为 包含m个样本数据,是一个n维的特征向量,是与xi相对应的标签集;网络的输入层由n个结点组成,用于将n维的样本xi输入网络。
(2)对标签空间中的每一个标签的正样本集进行聚类,具体步骤为:
●标签集合中的每一个标签找出正样本集合
其中,(xj,Yj)为多标签训练集中的一个样本,是一个n维的特征向量,是与xj相对应的标签集,是集合Yj的一个元素。
●利用SOM对正样本集合聚类,聚类之后得到个聚类中心,α为常量参数,表示正样本集的大小,聚类之后形成聚类中心为向量
参见图2,是SOM结构图,SOM自组织特征映射模型是一个两层结构。一层为输入层,另一层为输出层。输出层为二维的格形,输出层神经元与输入层的每个结点都有连接。
●重复以上两个步骤,直到标签集中的每一个标签对应的正样本集合都聚类产生聚类中心,合并这些聚类中心。
经过以上三步操作,找出网络隐藏层结点为向量c,网络的隐藏层结点数量为L,
(3)标签空间的维度为q,所以网络的输出层结点由q个结点组成,一个输出结点对应标签空间中的一个标签,网络输出为向量f=[f1,f2,…,fq],向量f的每一个分量值对应网络的一个输出结点的输出值。
步骤2所述训练RBF网络,包括以下步骤:
训练RBF网络包括:
(1)RBF网络输出层的每一个结点的输出值可以形式化的定义如下:
若设
β为连接隐藏层和输出层的权值矩阵,为矩阵β的第i行第列元素,L为网络的隐藏层结点数量,m为多标签训练集的总训练样本数量。φi(xj,ci)为RBF网络的隐藏层结点ci在网络输入样本为xj时,隐藏层结点ci的输出函数值,RBF网络的隐藏层函数采用高斯函数作为径向基函数,则φi(xj,ci)函数形式化的定义如下:
其中,ci为径向基函数φi(·)的中心,即RBF网络隐藏层结点,σ称为径向基函数的扩展常数,反应函数图像的宽度,通过计算每对网络隐藏层结点之间的距离来获得,形式化的定义为:
其中,μ为调节参数,L为网络的隐藏层结点数量,ct和ch为网络隐藏层结点;
则RBF网络输出向量f=[f1,f2,…,fq]可以形式化的定义为:
f=Hβ (6)
其中H和β的定义如式(2)和式(3)所示。
(2)最小化网络输出误差值,需要最小化如下公式:
其中,T为多标签训练集的m个训练样本的目标标签矩阵,f为RBF网络输出向量,λΩ(f)为正则项,λ为正则参数。正则项也被称为权值衰减、惩罚项、函数光滑或平坦、权值修剪、先验概率、和最大间隔等。正则化技术有利于改善神经网络的泛化性能。
最小化等价于:
minw(||Hβ-T||+λβ) (8)
其中H和β的定义如式(2)和式(3)所示。
利用岭回归的方法求解,隐藏层和输出层的权值矩阵β可以表示为:
β=(HTH+λI)-1HTT (9)
(3)选取6个公开多标签数据集,分别为Yeast数据集、Scene数据集、Genbase数据集、Emotions数据集、Enron数据集和TMC2007数据集,数据集的描述如表1所示,其中标签的基即每一个对象的平均标签数量,若标签的基记为LC,则表达式为标签密度是在标签空间内对标签的基的归一化,计算表达式为:利用数据集对RBF网络进行正则参数λ寻优,同时优化连接隐藏层和输出层的权值矩阵β。
表1公开数据集
RBF网络多标签分类器预测的标签为标签集h(xi),其中xi为多标签数据集的第i个样本,是一个n维的特征向量,为标签空间中的一个标签,为网络的一个输出结点的输出值,t(xi)为阈值函数,设为常量0,比较和0的大小,若大于0,则标签为xi的可能的一个标签。
实施例
本实例以Yeast数据集为例,数据集属于生物学领域,包括1500个训练样本和917个测试样本,训练样本用于训练多标签分类系统,测试样本作为未知标签的样本,用于标签预测。Yeast数据集有103维特征和14个标签,平均标签数量为4.24,标签密度为0.303。
正则化RBF网络多标签分类方法,如图1所示,利用包含1500个样本的训练数据集构造RBF网络包括3个步骤,具体流程如下:
步骤1:网络输入层包括103个结点;
步骤2:对数据集的维度为14的标签空间中的每一个标签在训练数据集中找出正样本集进行聚类,具体步骤为:
1)标签集合中的标签y1,在训练数据集中找出正样本集合U1,U1={xj|(xj,Yj)∈D,yj1∈Yj,yj1>0},(xj,Yj)为第j个样本,yj1为标签集Yj的第一个标签,集合U1包含元素个数为|U1|=476,即有476个正样本;
2)利用SOM法对正样本集合U1聚类,聚类中心数量为k,k=α·|U1|,α为0.01,则k=5,最终形成包含5个元素的聚类中心向量c1,c1={c1,1,…,c1,5};
3)重复以上两个步骤,直到标签集中的14个标签对应的正样本集合都聚类产生聚类中心,合并这些聚类中心。
经过以上三步操作,找出网络隐藏层结点为向量c,网络的隐藏层结点数量为L,
步骤3:网络的输出层包括14个结点,网络输出向量f=[f1,f2,…,f14]。
如图3所示,利用包含1500个样本的训练数据集作为网络的输入,训练RBF网络具体流程如下:
1)根据训练样本解出其中
φi(xj,ci)为RBF网络的隐藏层结点ci在网络输入样本为xj时,隐藏层结点ci的输出函数值,xj为1500个样本中的第j个样本,ci为网络的第i个隐藏层结点,σ为径向基函数的扩展常数,μ为调节参数,且μ=1,ct和ch为网络隐藏层结点;
2)优化连接隐藏层和输出层的权值矩阵β
(1)隐藏层和输出层的权值矩阵β
β=(HTH+λI)-1HTT
其中,矩阵T为训练数据集的1500行14列的标签矩阵,I为69行69列的单位矩阵。
(2)优化权值矩阵β即优化正则项λ。为了获得最优参数λ,λ的
值被依次设置为27,26,…,2-3,依次解出相应的权值矩阵β。Average precision是一个流行的多标签评价指标,它被作为调节正则参数λ和β的依据。
如图4所示,预测Yeast测试数据集的标签,测试数据集包括917个样本数据,具体流程如下:
(1)RBF网络输出向量f=[f1,f2,…,f14],f=Htestβ,其中
(x1,c1)为第1个样本在第1个隐藏层结点上的输出值,其余以此类推。β为RBF网络隐藏层和输出层的权值矩阵。
(2)对向量f=[f1,f2,…,f14]的每一个分量值fA∈f,RBF网络多标签分类器预测的标签为标签集h(xi),大于0的分量值对应的标签即为样本xi的预测标签。
选择Hamming loss,One-error,Coverage,Ranking loss,Average-precision这5个流行的多标签评价指标,结果参见表2-7所示,评估方法的性能:
选择传统的ML-RBF(Multi-label RBF neural network)、Rank-SVM、BP-MLL(Back-Propagation for Multi-label Learning)、ML-KNN(Multi-label k NearestNeighbor)和MLNB(Multi-label Naive Bayes)多标签分类算法与正则化RBF网络多标签分类算法进行比较。得到结果如表2~7所示:
表2在6个数据集上各算法的Hamming loss
Hamming loss作为流行的多标签分类方法评价指标,在评价时,Hamming loss值越小多标签分类方法越好,在表2中,最好的结果被加粗显示,从表2中可以看出,正则化RBF网络多标签分类方法(R-RBF-ML)在所有的数据集上均取得了最好的结果。因此,根据Hamming loss评价指标,正则化RBF网络多标签分类方法是所有多标签分类方法中最好的。其中BP-MLL和MLNB计算复杂度太高,无法对TMC2007数据集进行分类,因此没有相应的Hamming loss值。
表3在6个数据集上各算法的Coverage
Coverage作为流行的多标签分类方法评价指标,在评价时,Coverage值越小多标签分类方法越好,在表3中,最好的结果被加粗显示,从表3中可以看出,在6个数据集上,正则化RBF网络多标签分类方法(R-RBF-ML)在其中4个数据集上都取得了最好的结果。因此,根据Coverage评价指标,正则化RBF网络多标签分类方法是所有多标签分类方法中相对最好的。其中BP-MLL和MLNB计算复杂度太高,无法对TMC2007数据集进行分类,因此没有相应的Coverage值。
表4在6个数据集上各算法的One error
One error作为流行的多标签分类方法评价指标,在评价时,One error值越小多标签分类方法越好,在表4中,最好的结果被加粗显示,从表4中可以看出,正则化RBF网络多标签分类方法(R-RBF-ML)在所有的数据集上均取得了最好的结果。因此,根据One error评价指标,正则化RBF网络多标签分类方法是所有多标签分类方法中最好的。其中,BP-MLL和MLNB计算复杂度太高,无法对TMC2007数据集进行分类,因此没有相应的One error值。
表5在6个数据集上各算法的Average precision
Average precision作为流行的多标签分类方法评价指标,在评价时,Averageprecision值越大多标签分类方法越好,在表5中,最好的结果被加粗显示,从表5中可以看出,正则化RBF网络多标签分类方法(R-RBF-ML)在所有的数据集上均取得了最好的结果,因此,根据Average precision评价指标,正则化RBF网络多标签分类方法是所有多标签分类方法中最好的。其中BP-MLL和MLNB计算复杂度太高,无法对TMC2007数据集进行分类,因此没有相应的Average precision值。
表6在6个数据集上各算法的Ranking loss
Ranking loss作为流行的多标签分类方法评价指标,在评价时,Ranking loss值越小多标签分类方法越好,在表6中,最好的结果被加粗显示,从表6中可以看出,在6个数据集上,正则化RBF网络多标签分类方法(R-RBF-ML)在其中4个数据集上都取得了最好的结果。因此,根据Ranking loss评价指标,正则化RBF网络多标签分类方法是所有多标签分类方法中相对最好的。其中BP-MLL和MLNB计算复杂度太高,无法对TMC2007数据集进行分类,因此没有相应的Coverage值。
表7在6个数据集上各算法的运行时间
从表7中可以看出,在RBF网络多标签分类方法中,正则化RBF网络多标签分类方法(R-RBF-ML)消耗的网络训练时间少于ML-RBF方法,尤其在大型数据集TMC2007上更加明显。与其他多标签分类方法相比,正则化RBF网络多标签分类方法(R-RBF-ML)的时间多于ML-kNN多标签分类方法。
综合表2~表7可以总结出,本发明的正则化RBF网络多标签分类方法(R-RBF-ML)在消耗较少时间的条件下取得了最好的分类效果。

Claims (2)

1.一种正则化RBF网络多标签分类方法,其特征在于,包括以下步骤:
步骤1:构建RBF网络;
包括构造网络的输入层结点、隐藏层结点及输出层结点;
输入层结点,由n个结点组成,每一个结点对应输入样本向量的一个特征;
隐藏层结点,依次对多标签数据集对应的标签集中的每一个标签l的正样本集Ul进行聚类,聚类之后得到k=α·|Ul|个聚类中心,α为常量参数;所有的标签聚类形成的聚类中心构成了径向基函数RBF的隐藏层结点;
输出层结点,由q个结点组成,每一个输出层结点都是一个潜在的输出标签;
所述的RBF网络构建,具体包括以下步骤:
1)设或者表示维度为n的样本空间;其中,表示维度为n的实数空间,表示维度为n的复数空间;表示具有q个可能的类标签的标签空间,多标签训练集为:
包含m个样本数据,是一个n维的特征向量,是与xi相对应的标签集;
网络的输入层由n个结点组成,用于将n维的样本xi输入网络;
2)对标签空间中的每一个标签yl的正样本集Ul进行聚类,具体包括以下步骤:
(1)标签集合中的每一个标签yl,找出正样本集合Ul={xj|(xj,Yj)∈D,yjl∈Yj,yjl>0};
其中,(xj,Yj)为多标签训练集中的一个样本,是一个n维的特征向量,是与xj相对应的标签集,yjl是集合Yj的一个元素;
(2)利用SOM聚类法,对正样本集合Ul聚类,聚类之后得到k个聚类中心,k=α·|Ul|,α为常量参数,形成聚类中心为向量cl,cl={cl1,…,clk};
(3)重复步骤(1)和(2),直至标签集中的每一个标签对应的正样本集合都聚类产生聚类中心,并将这些聚类中心合并,得到网络隐藏层结点为向量c,c={c1,…,cl,…,cq},隐藏层结点数量为L,
3)标签空间的维度为q,网络的输出层结点由q个结点组成,一个输出结点对应标签空间中的一个标签,则网络输出为向量f:
向量f=[f1,f2,...,fq];
向量f的每一个分量值fl对应网络的一个输出结点的输出值;
步骤2:用训练数据训练RBF网络;
建立带正则项的RBF网络多标签分类模型,选取公开多标签数据集,选择其中的一部分作为训练数据集,对RBF网络多标签分类器进行正则参数寻优,得到连接隐藏层和输出层的权值矩阵;
具体包括以下步骤:
1)对于样本xj是一个n维的特征向量,RBF网络输出层的第l个输出结点,其输出值fl形式化的定义如下:
f l ( x j ) = Σ i = 1 L β i l φ i ( x j , c i ) - - - ( 1 )
设:
β为连接隐藏层和输出层的权值矩阵,βil为矩阵β的第i行第l列元素,L为网络的隐藏层结点数量,m为多标签训练集的总训练样本数量;φi(xj,ci)为RBF网络的隐藏层结点ci在网络输入样本为xj时,隐藏层结点ci的输出函数值;
RBF网络的隐藏层函数采用高斯函数作为径向基函数,则φi(xj,ci)函数形式化的定义如下:
φ i ( x j , c i ) = exp ( - 1 2 σ 2 | | x j - c i | | 2 ) - - - ( 4 )
其中,ci为径向基函数φi(·)的中心,即RBF网络隐藏层结点,σ称为径向基函数的扩展常数,反应函数图像的宽度,通过计算每对网络隐藏层结点之间的距离来获得,形式化的定义为:
σ = μ × ( Σ t = 1 L - 1 Σ h = t + 1 L | | c t - c h | | L ( L - 1 ) 2 ) - - - ( 5 )
其中,μ为调节参数,为网络的隐藏层结点数量,ct和ch为网络隐藏层结点;
则,RBF网络输出向量f=[f1,f2,...,fq]形式化的定义为:
f=Hβ (6)
向量f的每一个分量值fl为网络的一个输出结点的输出值;
2)最小化网络输出误差值,如下式:
E = Σ j = 1 m | | f - T | | + λ Ω ( f ) - - - ( 7 )
其中,T为多标签训练集的m个训练样本的目标标签矩阵,f为RBF网络输出向量,λΩ(f)为正则项,λ为正则参数;
则有,最小化等价于:
minw(||Hβ-T||+λβ) (8)
利用岭回归的方法求解,隐藏层和输出层的权值矩阵β表示为:
β=(HTH+λI)-1HTT (9);
其中,I为单位矩阵;
3)选取若干个公开多标签数据集,利用每个多标签数据集的训练数据集训练RBF网络,寻找RBF网络多标签分类器在每一个数据集上的最优正则化参数λ,优化得到连接隐藏层和输出层的权值矩阵β;
步骤3:利用RBF网络预测标签;
对于RBF网络的输出层结点,设定常量0为阈值;利用连接隐藏层和输出层的权值矩阵值,得出网络中每个结点的输出值,比较每个结点输出值与阈值0的大小关系,大于阈值0的作为样本的潜在标签,实现多标签分类;
RBF网络多标签分类器预测的标签为标签集h(xi):
其中,xi为多标签数据集的第i个样本,是一个n维的特征向量,yl为标签空间中的一个标签,fl为网络的一个输出结点的输出值,t(xi)为阈值函数,设为常量0;
比较fl和0的大小,若大于0,则标签yl为xi的潜在的一个标签。
2.根据权利要求1所述的一种正则化RBF网络多标签分类方法,其特征在于,步骤2所述的训练RBF网络的公开多标签数据集为流行的公开多标签数据集,采用Yeast数据集、Scene数据集、Genbase数据集、Emotions数据集、Enron数据集或TMC2007数据集。
CN201510213367.6A 2015-04-29 2015-04-29 一种正则化rbf网络多标签分类方法 Expired - Fee Related CN105046323B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510213367.6A CN105046323B (zh) 2015-04-29 2015-04-29 一种正则化rbf网络多标签分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510213367.6A CN105046323B (zh) 2015-04-29 2015-04-29 一种正则化rbf网络多标签分类方法

Publications (2)

Publication Number Publication Date
CN105046323A CN105046323A (zh) 2015-11-11
CN105046323B true CN105046323B (zh) 2017-03-22

Family

ID=54452852

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510213367.6A Expired - Fee Related CN105046323B (zh) 2015-04-29 2015-04-29 一种正则化rbf网络多标签分类方法

Country Status (1)

Country Link
CN (1) CN105046323B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107705784B (zh) * 2017-09-28 2020-09-29 百度在线网络技术(北京)有限公司 文本正则化模型训练方法和装置、文本正则化方法和装置
CN109408947A (zh) * 2018-10-19 2019-03-01 杭州刀豆网络科技有限公司 一种基于机器学习的侵权网页判断方法
CN110413993A (zh) * 2019-06-26 2019-11-05 重庆兆光科技股份有限公司 一种基于稀疏权值神经网络的语义分类方法、系统和介质
CN110490221B (zh) * 2019-07-05 2023-06-23 平安科技(深圳)有限公司 多标签分类方法、电子装置及计算机可读存储介质
CN113038537B (zh) * 2019-12-24 2022-11-22 中国移动通信集团四川有限公司 分配移动网络频谱资源的方法和电子设备
CN112232445B (zh) * 2020-12-11 2021-05-11 北京世纪好未来教育科技有限公司 多标签分类任务网络的训练方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7444282B2 (en) * 2003-02-28 2008-10-28 Samsung Electronics Co., Ltd. Method of setting optimum-partitioned classified neural network and method and apparatus for automatic labeling using optimum-partitioned classified neural network
CN103309953A (zh) * 2013-05-24 2013-09-18 合肥工业大学 一种基于多rbfnn分类器集成的多样化图像标注和检索方法
CN103955702A (zh) * 2014-04-18 2014-07-30 西安电子科技大学 基于深度rbf网络的sar图像地物分类方法
CN104077595A (zh) * 2014-06-15 2014-10-01 北京工业大学 基于贝叶斯正则化的深度学习网络图像识别方法
CN104408483A (zh) * 2014-12-08 2015-03-11 西安电子科技大学 基于深度神经网络的sar纹理图像分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7444282B2 (en) * 2003-02-28 2008-10-28 Samsung Electronics Co., Ltd. Method of setting optimum-partitioned classified neural network and method and apparatus for automatic labeling using optimum-partitioned classified neural network
CN103309953A (zh) * 2013-05-24 2013-09-18 合肥工业大学 一种基于多rbfnn分类器集成的多样化图像标注和检索方法
CN103955702A (zh) * 2014-04-18 2014-07-30 西安电子科技大学 基于深度rbf网络的sar图像地物分类方法
CN104077595A (zh) * 2014-06-15 2014-10-01 北京工业大学 基于贝叶斯正则化的深度学习网络图像识别方法
CN104408483A (zh) * 2014-12-08 2015-03-11 西安电子科技大学 基于深度神经网络的sar纹理图像分类方法

Also Published As

Publication number Publication date
CN105046323A (zh) 2015-11-11

Similar Documents

Publication Publication Date Title
Li et al. Deep supervised discrete hashing
CN105046323B (zh) 一种正则化rbf网络多标签分类方法
Minaei-Bidgoli et al. Ensembles of partitions via data resampling
Ali et al. Boosted NNE collections for multicultural facial expression recognition
CN111785329B (zh) 基于对抗自动编码器的单细胞rna测序聚类方法
Cai et al. Semi-supervised multi-view clustering based on orthonormality-constrained nonnegative matrix factorization
Olteanu et al. On-line relational and multiple relational SOM
CN110827921B (zh) 一种单细胞聚类方法、装置、电子设备及存储介质
Chakraborty et al. Simultaneous variable weighting and determining the number of clusters—A weighted Gaussian means algorithm
Cai et al. Classification complexity assessment for hyper-parameter optimization
Qiu et al. A fuzzy rough set approach to hierarchical feature selection based on Hausdorff distance
Nie et al. Fast sparse discriminative k-means for unsupervised feature selection
Bedalli et al. A heterogeneous cluster ensemble model for improving the stability of fuzzy cluster analysis
Gu et al. Fuzzy style k-plane clustering
CN111259938B (zh) 基于流形学习和梯度提升模型的图片偏多标签分类方法
Ma et al. Simultaneous multi-graph learning and clustering for multiview data
CN116452863A (zh) 面向遥感影像场景分类的类中心知识蒸馏方法
Jiang et al. Minimum-margin active learning
Xu et al. Sample selection-based hierarchical extreme learning machine
CN110738245A (zh) 一种面向科学数据分析的自动聚类算法选择系统及方法
Salman et al. Gene expression analysis via spatial clustering and evaluation indexing
Yan et al. A novel clustering algorithm based on fitness proportionate sharing
Ye et al. Affinity learning via self-supervised diffusion for spectral clustering
CN117409260A (zh) 一种基于深度子空间嵌入的小样本图像分类方法及装置
He et al. Doubly stochastic distance clustering

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: Sun Xia

Inventor after: Wang Jiarong

Inventor after: Feng Jun

Inventor after: Zhao Gongbo

Inventor after: Zhao Gongyi

Inventor before: Sun Xia

Inventor before: Wang Jiarong

Inventor before: Feng Jun

Inventor before: Chen Yong

Inventor before: Wu Ninghai

CB03 Change of inventor or designer information
TR01 Transfer of patent right

Effective date of registration: 20180523

Address after: No. 229 Taibai Road, Xi'an, Shaanxi, Shaanxi

Co-patentee after: Shaanxi Zhi Lian brain control technology Co., Ltd.

Patentee after: Northwest University

Co-patentee after: Beijing 3D intellectually Science & Technology Co., Ltd.

Address before: No. 229 Taibai Road, Xi'an, Shaanxi, Shaanxi

Co-patentee before: XI'AN MAIDUO INFORMATION SCIENCE & TECHNOLOGY CO., LTD.

Patentee before: Northwest University

Co-patentee before: SHAANXI RUIHAI ELECTRIC ENGINEERING CO., LTD.

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170322

Termination date: 20200429

CF01 Termination of patent right due to non-payment of annual fee