发明内容
为解决上述技术问题,本发明提出一种智能数据噪声筛选方法,包括:
S1:通过数据库获取含真实标记何噪声标记的多标记数据,并构建真实标记矩阵和含噪标记矩阵;
S2:通过真实标记矩阵构建分类器,通过含噪标记矩阵构建噪声检测器,将分类器和噪声标记检测器组合,得到噪声筛选模型;
S3:利用最小平方损失函数训练模型,并使用弗罗贝尼乌斯范数来控制模型复杂度;
S4:利用低秩约束和稀疏约束凸上界迹范数对控制复杂度后的模型进行优化,并求解模型的参数,并更新参数得到最优参数,固定最优参数得到最优的噪声筛选模型;
S5:将待筛选数据输入最优的噪声筛选模型,计算数据的标记置信度,根据标记置信度进行排序选出置信度最高的数据,得到真实标记数据。
优选的,通过真实标记矩阵构建分类器,通过含噪标记矩阵构建噪声检测器,包括:
构建分类器:
Yg≈WX
受制于rank(W)≤∈
其中,Yg表示真实标记矩阵;W表示多标记分类器;X表示特征矩阵;rank()表示对多标记分类器引入低质假设来捕获标记相关性;∈表示第一权衡参数;
构建噪声检测器:
Yn≈SX
受制于card(S)≤σ
其中,Yn表示噪声标记矩阵,S表示噪声标记检测器;X表示特征矩阵,card()表示对噪声标记检测器引入特征诱导来筛选噪声标记,σ表示第二权衡参数。
优选的,将分类器和噪声标记检测器组合,得到噪声筛选模型,包括:
受制于H=W+S
rank(W)≤∈
card(S)≤σ
其中,H表示噪声筛选模型;
表示损失函数;λ表示第三权衡参数;R表示用来控制模型的正则项;X表示特征矩阵;Y表示含噪标记矩阵;W表示多标记分类器;S表示噪声标记检测器;card()表示对噪声标记检测器引入特征诱导来筛选噪声标记;σ表示第二权衡参数,rank()表示对多标记分类器引入低质假设来捕获标记相关性;∈表示第一权衡参数。
优选的,所述最小平方损失函数,包括:
其中,L表示最小平方损失函数;Y表示模型训练目标值;f(x)表示模型训练估计值;n表示模型训练轮数。
优选的,利用最小平方损失函数训练模型,并使用弗罗贝尼乌斯范数来控制模型复杂度,包括:
受制于H=W+S
rank(W)≤∈
card(S)≤σ
其中,H表示噪声筛选模型;Y表示含噪标记矩阵;X表示特征矩阵;W表示多标记分类器;S表示噪声标记检测器;card()表示对噪声标记检测器引入特征诱导来筛选噪声标记;σ表示第二权衡参数;rank()表示对多标记分类器引入低质假设来捕获标记相关性;∈表示第一权衡参数;
表示Frobenius范数来控制模型复杂度;λ表示表示第五权衡参数。
优选的,所述S4具体包括:
S41:利用低秩约束和稀疏约束凸上界迹范数进行模型优化,得到优化后的噪声筛选模型,包括:
受制于H=W+S
其中,H表示噪声筛选模型;Y表示含噪标记矩阵;X表示特征矩阵;W表示多标记分类器;S表示噪声标记检测器;β表示第三权衡参数;γ表示第四权衡参数;
表示Frobenius范数控制模型复杂度;λ表示第五权衡参数;‖‖
tr表示迹范数;‖‖
l表示l1范数;
S42:使用增强拉格朗日乘子提取优化后的噪声筛选模型的损失函数,包括:
其中,H表示噪声筛选模型;Y表示含噪标记矩阵;X表示特征矩阵;W表示多标记分类器;S表示噪声标记检测器;A表示拉格朗日乘子矩阵;β表示第三权衡参数;γ表示第四权衡参数;
表示Frobenius范数控制模型复杂度;λ表示第五权衡参数;‖‖
tr表示迹范数;‖‖
l表示l1范数;μ表示惩罚参数;
S43:求解模型的参数,并更新参数,得到最优参数,包括:
固定变量W和S,求解变量H:
其中,H表示噪声筛选模型;A表示拉格朗日乘子矩阵;Y表示含噪标记矩阵;X表示特征矩阵;W表示多标记分类器;S表示噪声标记检测器;β表示第三权衡参数;γ表示第四权衡参数;
表示Frobenius范数控制模型复杂度;λ表示第五权衡参数;μ表示惩罚参数。
固定变量H,求解变量W和S:
其中,H表示噪声筛选模型;A表示拉格朗日乘子矩阵;Y表示含噪标记矩阵;X表示特征矩阵;W表示多标记分类器;S表示噪声标记检测器;β表示第三权衡参数;‖‖
tr表示迹范数;γ表示第四权衡参数;‖‖
l表示l1范数;
表示Frobenius范数控制模型复杂度;μ表示惩罚参数;
更新参数:
其中,W
k+1表示多标记分类器W第k+1轮的结果;S
k+1表示噪声标记检测器S在第k+1轮的结果;S
k表示噪声标记检测器S在第k轮的结果;
表示奇异值阈值算子;H
k表示噪声筛选模型H在第k轮的结果;A
k表示拉格朗日乘子矩阵A在第k轮的结果;μ
k表示惩罚参数μ在第k轮的结果;β表示第三权衡参数;γ表示第四权衡参数;
根据最优参数更新噪声筛选模型的损失函数的拉格朗日算子矩阵和惩罚参数,包括:
Ak+1=Ak+μ(Hk+1-Wk+1-Sk+1)
μk+1=min(μmax,ρμk)
其中,Ak+1表示拉格朗日乘子矩阵A在第k+1轮的结果;μk+1表示惩罚参数μ在第k+1轮的结果;Ak表示表示拉格朗日乘子矩阵A在第k轮的结果;Sk+1表示噪声标记检测器S在第k+1轮的结果;Wk+1表示多标记分类器W在第k+1轮的结果;μmax表示惩罚参数μ的上界值;ρ表示更新参数。
优选的,计算数据的标记置信度,包括:
Y*=Ak+1μk+1(W*S*)
其中,Y*表示数据的标记置信度,Ak+1表示拉格朗日乘子矩阵A在第k+1轮的结果;μk+1表示惩罚参数μ在第k+1轮的结果;W*表示更新多标记分类器W得到的最优值;S*表示更新噪声标记检测器S得到的最优值。
本发明的有益效果:本发明基于噪声标记检测,同时复原相关标记的标记信息同时对噪声标记进行检测;一方面,通过对多标记分类器施加低秩约束来捕捉标签之间的相关性;另一方面,通过对噪声标记检测器施加稀疏约束来对特征表示诱导的噪声标记进行建模;利用概率传播的思想,利用相关标记的标记的特征信息与噪声标记之间存在线性相关性,过滤掉特征信息与噪声标记之间的错误信息,以改善概率传播的中的可信度。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种智能数据噪声筛选方法,如图1所示,包括:
S1:通过数据库获取含真实标记何噪声标记的多标记数据,并构建真实标记矩阵和含噪标记矩阵;
S2:通过真实标记矩阵构建分类器,通过含噪标记矩阵构建噪声检测器,将分类器和噪声标记检测器组合,得到噪声筛选模型;
S3:利用最小平方损失函数训练模型,并使用弗罗贝尼乌斯范数来控制模型复杂度;
S4:利用低秩约束和稀疏约束凸上界迹范数对控制复杂度后的模型进行优化,并求解模型的参数,并更新参数得到最优参数,固定最优参数得到最优的噪声筛选模型;
S5:将待筛选数据输入最优的噪声筛选模型,计算数据的标记置信度,根据标记置信度进行排序选出置信度最高的数据,得到真实标记数据。
优选的,通过真实标记矩阵构建分类器,通过含噪标记矩阵构建噪声检测器,包括:
构建分类器:
Yg≈WX
受制于rank(W)≤∈
其中,Yg表示真实标记矩阵;W表示多标记分类器;X表示特征矩阵;rank()表示对多标记分类器引入低质假设来捕获标记相关性;∈表示第一权衡参数;
构建噪声检测器:
Yn≈SX
受制于card(S)≤σ
其中,Yn表示噪声标记矩阵,S表示噪声标记检测器;X表示特征矩阵,card()表示对噪声标记检测器引入特征诱导来筛选噪声标记,σ表示第二权衡参数。
优选的,将分类器和噪声标记检测器组合,得到噪声筛选模型,包括:
受制于H=W+S
rank(W)≤∈
card(S)≤σ
其中,H表示噪声筛选模型;
表示损失函数;λ表示第三权衡参数;R表示用来控制模型的正则项;X表示特征矩阵;Y表示含噪标记矩阵;W表示多标记分类器;S表示噪声标记检测器;card()表示对噪声标记检测器引入特征诱导来筛选噪声标记;σ表示第二权衡参数,rank()表示对多标记分类器引入低质假设来捕获标记相关性;∈表示第一权衡参数。
优选的,所述最小平方损失函数,包括:
其中,L表示最小平方损失函数,Y-f(x)表示残差,整个公式表示残差的平方和;Y表示模型训练目标值;f(x)表示模型训练估计值;n表示模型训练轮数。
优选的,利用最小平方损失函数训练模型,并使用弗罗贝尼乌斯范数来控制模型复杂度,包括:
受制于H=W+S
rank(W)≤∈
card(S)≤σ
其中,H表示噪声筛选模型;Y表示含噪标记矩阵;X表示特征矩阵;W表示多标记分类器;S表示噪声标记检测器;card()表示对噪声标记检测器引入特征诱导来筛选噪声标记;σ表示第二权衡参数;rank()表示对多标记分类器引入低质假设来捕获标记相关性;∈表示第一权衡参数;
表示Frobenius范数来控制模型复杂度;λ表示表示第五权衡参数。
优选的,所述S4具体包括:
S41:利用低秩约束和稀疏约束凸上界迹范数进行模型优化,得到优化后的噪声筛选模型,包括:
受制于H=W+S
其中,H表示噪声筛选模型;Y表示含噪标记矩阵;X表示特征矩阵;W表示多标记分类器;S表示噪声标记检测器;β表示第三权衡参数;γ表示第四权衡参数;
表示Frobenius范数控制模型复杂度;λ表示第五权衡参数;‖‖
tr表示迹范数;‖‖
l表示l1范数;
S42:使用增强拉格朗日乘子提取优化后的噪声筛选模型的损失函数,包括:
其中,H表示噪声筛选模型;Y表示含噪标记矩阵;X表示特征矩阵;W表示多标记分类器;S表示噪声标记检测器;A表示拉格朗日乘子矩阵;β表示第三权衡参数;γ表示第四权衡参数;
表示Frobenius范数控制模型复杂度;λ表示第五权衡参数;‖‖
tr表示迹范数;‖‖
l表示l1范数;μ表示惩罚参数。
S43:求解模型的参数,并更新参数,得到最优参数,包括:
固定变量W和S,求解变量H:
其中,H表示噪声筛选模型;A表示拉格朗日乘子矩阵;Y表示含噪标记矩阵;X表示特征矩阵;W表示多标记分类器;S表示噪声标记检测器;β表示第三权衡参数;γ表示第四权衡参数;
表示Frobenius范数控制模型复杂度;λ表示第五权衡参数;μ表示惩罚参数。
则该问题有闭式解:
Hk+1=(YXT+μWk+μSk+A)(XXT+λI+μI)-1
其中,H
k+1表示联合学习模型H在第k+1轮的结果;I是单位矩阵;W
k表示多标记分类器W第k轮的结果;S
k表示噪声标记检测器S在第k轮的结果;λ表示第五权衡参数;μ表示惩罚参数;Y表示含噪标记矩阵;A∈
表示拉格朗日乘子矩阵;X表示特征矩阵;
固定变量H,求解变量W和S:
其中,H表示噪声筛选模型;A表示拉格朗日乘子矩阵;Y表示含噪标记矩阵;X表示特征矩阵;W表示多标记分类器;S表示噪声标记检测器;β表示第三权衡参数;‖‖
tr表示迹范数;γ表示第四权衡参数;‖‖
l表示l1范数;
表示Frobenius范数控制模型复杂度;μ表示惩罚参数;
更新参数:
其中,W
k+1表示多标记分类器W第k+1轮的结果;S
k+1表示噪声标记检测器S在第k+1轮的结果;S
k表示噪声标记检测器S在第k轮的结果;
表示奇异值阈值算子;H
k表示噪声筛选模型H在第k轮的结果;A
k表示拉格朗日乘子矩阵A在第k轮的结果;μ
k表示惩罚参数μ在第k轮的结果;β表示第三权衡参数;γ表示第四权衡参数;
根据最优参数更新噪声筛选模型的损失函数的拉格朗日算子矩阵和惩罚参数,包括:
Ak+1=Ak+μ(Hk+1-Wk+1-Sk+1)
μk+1=min(μmax,ρμk)
其中,Ak+1表示拉格朗日乘子矩阵A在第k+1轮的结果;μk+1表示惩罚参数μ在第k+1轮的结果;Ak表示表示拉格朗日乘子矩阵A在第k轮的结果;Sk+1表示噪声标记检测器S在第k+1轮的结果;Wk+1表示多标记分类器W在第k+1轮的结果;μmax表示惩罚参数μ的上界值;ρ表示更新参数。
优选的,计算数据的标记置信度,包括:
Y*=Ak+1μk+1(W*S*)
其中,Y*表示数据的标记置信度,Ak+1表示拉格朗日乘子矩阵A在第k+1轮的结果;μk+1表示惩罚参数μ在第k+1轮的结果;W*表示更新多标记分类器W得到的最优值;S*表示更新噪声标记检测器S得到的最优值。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。