CN115758223A - 一种智能数据噪声筛选方法 - Google Patents

一种智能数据噪声筛选方法 Download PDF

Info

Publication number
CN115758223A
CN115758223A CN202211545535.8A CN202211545535A CN115758223A CN 115758223 A CN115758223 A CN 115758223A CN 202211545535 A CN202211545535 A CN 202211545535A CN 115758223 A CN115758223 A CN 115758223A
Authority
CN
China
Prior art keywords
noise
model
parameter
matrix
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211545535.8A
Other languages
English (en)
Other versions
CN115758223B (zh
Inventor
王进
陆志
廖唯皓
彭云曦
刘彬
杜雨露
朴昌浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qianyi Hesheng Beijing Technology Co ltd
Yami Technology Guangzhou Co ltd
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202211545535.8A priority Critical patent/CN115758223B/zh
Publication of CN115758223A publication Critical patent/CN115758223A/zh
Application granted granted Critical
Publication of CN115758223B publication Critical patent/CN115758223B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T90/00Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation

Landscapes

  • Image Processing (AREA)

Abstract

本发明属于自然语言处理技术领域,具体涉及一种智能数据噪声筛选方法,包括:获取多标记数据,构建真实标记矩阵和含噪标记矩阵;通过真实标记矩阵和含噪标记矩阵构建噪声筛选模型;训练模型,并控制模型复杂度;对模型进行优化,并求解模型的参数,并更新参数得到最优参数,固定最优参数得到最优的噪声筛选模型;将待筛选数据输入最优的噪声筛选模型,得到真实标记数据。本发明利用含噪标记矩阵构建一个多标记分类器和噪声标记检测器,一方面减少冗余标记噪声对模型准确率的负面影响并生成具有区分性的特征信息,另一方面通过减少标记维度来提高模型的训练和预测效率,训练后的偏多标记学习模型对特征噪声和冗余标记噪声都具有更强的鲁棒性。

Description

一种智能数据噪声筛选方法
技术领域
本发明属于自然语言处理技术领域,具体涉及一种智能数据噪声筛选方法。
背景技术
近年来由于互联网技术的迅速发展以及智能手机、数码相机等电子产品普及,催生了一系列社群应用比如微信、微博、抖音等,这些应用的兴起使得人们在日常生产生活中无时无刻不在产生大量的数据,又在不知不觉中快速的传播分享数据,短时间内互联网中的数据量呈现指数爆炸式增长。如何更好利用人们产生的海量数据为人们生活带来更多的便利成为了一个重要且亟待解决的问题。
在偏多标记学习框架中,模型的训练数据集没有被精确标注的,每个示例对应一组候选标记集,候选标记集中有全部相关标记和部分不相关标记,相关标记数量未知但至少有一个。这种利用不完整的监督信息进行训练,得到一个能够预测示例准确的相关标记集合的弱监督学习框架,在当前大量训练集没有被精确标注的情况下相比于传统的多标记学习具有更好的预测能力,因此有着很大的实际研究意义。
现有的偏多标记学习算法不论是基于统一框架的策略还是基于两阶段的策略,在整个算法进行训练过程中都只考虑到了噪声标记的影响,都只是针对消除标记矩阵中噪声影响进行的一系列研究,但是由于一些原因导致数据的特征也有可能存在噪声,会使得提取出来的特征中含有不符合实例内容的部分。如果直接使用没有考虑特征噪声的偏多标记学习算法训练,模型预测的结果肯定会不可避免的降低。
发明内容
为解决上述技术问题,本发明提出一种智能数据噪声筛选方法,包括:
S1:通过数据库获取含真实标记何噪声标记的多标记数据,并构建真实标记矩阵和含噪标记矩阵;
S2:通过真实标记矩阵构建分类器,通过含噪标记矩阵构建噪声检测器,将分类器和噪声标记检测器组合,得到噪声筛选模型;
S3:利用最小平方损失函数训练模型,并使用弗罗贝尼乌斯范数来控制模型复杂度;
S4:利用低秩约束和稀疏约束凸上界迹范数对控制复杂度后的模型进行优化,并求解模型的参数,并更新参数得到最优参数,固定最优参数得到最优的噪声筛选模型;
S5:将待筛选数据输入最优的噪声筛选模型,计算数据的标记置信度,根据标记置信度进行排序选出置信度最高的数据,得到真实标记数据。
优选的,通过真实标记矩阵构建分类器,通过含噪标记矩阵构建噪声检测器,包括:
构建分类器:
Yg≈WX
受制于rank(W)≤∈
其中,Yg表示真实标记矩阵;W表示多标记分类器;X表示特征矩阵;rank()表示对多标记分类器引入低质假设来捕获标记相关性;∈表示第一权衡参数;
构建噪声检测器:
Yn≈SX
受制于card(S)≤σ
其中,Yn表示噪声标记矩阵,S表示噪声标记检测器;X表示特征矩阵,card()表示对噪声标记检测器引入特征诱导来筛选噪声标记,σ表示第二权衡参数。
优选的,将分类器和噪声标记检测器组合,得到噪声筛选模型,包括:
Figure BDA0003979657130000021
受制于H=W+S
rank(W)≤∈
card(S)≤σ
其中,H表示噪声筛选模型;
Figure BDA0003979657130000031
表示损失函数;λ表示第三权衡参数;R表示用来控制模型的正则项;X表示特征矩阵;Y表示含噪标记矩阵;W表示多标记分类器;S表示噪声标记检测器;card()表示对噪声标记检测器引入特征诱导来筛选噪声标记;σ表示第二权衡参数,rank()表示对多标记分类器引入低质假设来捕获标记相关性;∈表示第一权衡参数。
优选的,所述最小平方损失函数,包括:
Figure BDA0003979657130000032
其中,L表示最小平方损失函数;Y表示模型训练目标值;f(x)表示模型训练估计值;n表示模型训练轮数。
优选的,利用最小平方损失函数训练模型,并使用弗罗贝尼乌斯范数来控制模型复杂度,包括:
Figure BDA0003979657130000033
受制于H=W+S
rank(W)≤∈
card(S)≤σ
其中,H表示噪声筛选模型;Y表示含噪标记矩阵;X表示特征矩阵;W表示多标记分类器;S表示噪声标记检测器;card()表示对噪声标记检测器引入特征诱导来筛选噪声标记;σ表示第二权衡参数;rank()表示对多标记分类器引入低质假设来捕获标记相关性;∈表示第一权衡参数;
Figure BDA0003979657130000034
表示Frobenius范数来控制模型复杂度;λ表示表示第五权衡参数。
优选的,所述S4具体包括:
S41:利用低秩约束和稀疏约束凸上界迹范数进行模型优化,得到优化后的噪声筛选模型,包括:
Figure BDA0003979657130000035
受制于H=W+S
其中,H表示噪声筛选模型;Y表示含噪标记矩阵;X表示特征矩阵;W表示多标记分类器;S表示噪声标记检测器;β表示第三权衡参数;γ表示第四权衡参数;
Figure BDA0003979657130000048
表示Frobenius范数控制模型复杂度;λ表示第五权衡参数;‖‖tr表示迹范数;‖‖l表示l1范数;
S42:使用增强拉格朗日乘子提取优化后的噪声筛选模型的损失函数,包括:
Figure BDA0003979657130000041
其中,H表示噪声筛选模型;Y表示含噪标记矩阵;X表示特征矩阵;W表示多标记分类器;S表示噪声标记检测器;A表示拉格朗日乘子矩阵;β表示第三权衡参数;γ表示第四权衡参数;
Figure BDA0003979657130000042
表示Frobenius范数控制模型复杂度;λ表示第五权衡参数;‖‖tr表示迹范数;‖‖l表示l1范数;μ表示惩罚参数;
S43:求解模型的参数,并更新参数,得到最优参数,包括:
固定变量W和S,求解变量H:
Figure BDA0003979657130000043
其中,H表示噪声筛选模型;A表示拉格朗日乘子矩阵;Y表示含噪标记矩阵;X表示特征矩阵;W表示多标记分类器;S表示噪声标记检测器;β表示第三权衡参数;γ表示第四权衡参数;
Figure BDA0003979657130000044
表示Frobenius范数控制模型复杂度;λ表示第五权衡参数;μ表示惩罚参数。
固定变量H,求解变量W和S:
Figure BDA0003979657130000045
其中,H表示噪声筛选模型;A表示拉格朗日乘子矩阵;Y表示含噪标记矩阵;X表示特征矩阵;W表示多标记分类器;S表示噪声标记检测器;β表示第三权衡参数;‖‖tr表示迹范数;γ表示第四权衡参数;‖‖l表示l1范数;
Figure BDA0003979657130000046
表示Frobenius范数控制模型复杂度;μ表示惩罚参数;
更新参数:
Figure BDA0003979657130000047
Figure BDA0003979657130000051
其中,Wk+1表示多标记分类器W第k+1轮的结果;Sk+1表示噪声标记检测器S在第k+1轮的结果;Sk表示噪声标记检测器S在第k轮的结果;
Figure BDA0003979657130000052
表示奇异值阈值算子;Hk表示噪声筛选模型H在第k轮的结果;Ak表示拉格朗日乘子矩阵A在第k轮的结果;μk表示惩罚参数μ在第k轮的结果;β表示第三权衡参数;γ表示第四权衡参数;
根据最优参数更新噪声筛选模型的损失函数的拉格朗日算子矩阵和惩罚参数,包括:
Ak+1=Ak+μ(Hk+1-Wk+1-Sk+1)
μk+1=min(μmax,ρμk)
其中,Ak+1表示拉格朗日乘子矩阵A在第k+1轮的结果;μk+1表示惩罚参数μ在第k+1轮的结果;Ak表示表示拉格朗日乘子矩阵A在第k轮的结果;Sk+1表示噪声标记检测器S在第k+1轮的结果;Wk+1表示多标记分类器W在第k+1轮的结果;μmax表示惩罚参数μ的上界值;ρ表示更新参数。
优选的,计算数据的标记置信度,包括:
Y*=Ak+1μk+1(W*S*)
其中,Y*表示数据的标记置信度,Ak+1表示拉格朗日乘子矩阵A在第k+1轮的结果;μk+1表示惩罚参数μ在第k+1轮的结果;W*表示更新多标记分类器W得到的最优值;S*表示更新噪声标记检测器S得到的最优值。
本发明的有益效果:本发明基于噪声标记检测,同时复原相关标记的标记信息同时对噪声标记进行检测;一方面,通过对多标记分类器施加低秩约束来捕捉标签之间的相关性;另一方面,通过对噪声标记检测器施加稀疏约束来对特征表示诱导的噪声标记进行建模;利用概率传播的思想,利用相关标记的标记的特征信息与噪声标记之间存在线性相关性,过滤掉特征信息与噪声标记之间的错误信息,以改善概率传播的中的可信度。
附图说明
图1为本发明实施例一提供的一种智能数据噪声筛选方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种智能数据噪声筛选方法,如图1所示,包括:
S1:通过数据库获取含真实标记何噪声标记的多标记数据,并构建真实标记矩阵和含噪标记矩阵;
S2:通过真实标记矩阵构建分类器,通过含噪标记矩阵构建噪声检测器,将分类器和噪声标记检测器组合,得到噪声筛选模型;
S3:利用最小平方损失函数训练模型,并使用弗罗贝尼乌斯范数来控制模型复杂度;
S4:利用低秩约束和稀疏约束凸上界迹范数对控制复杂度后的模型进行优化,并求解模型的参数,并更新参数得到最优参数,固定最优参数得到最优的噪声筛选模型;
S5:将待筛选数据输入最优的噪声筛选模型,计算数据的标记置信度,根据标记置信度进行排序选出置信度最高的数据,得到真实标记数据。
优选的,通过真实标记矩阵构建分类器,通过含噪标记矩阵构建噪声检测器,包括:
构建分类器:
Yg≈WX
受制于rank(W)≤∈
其中,Yg表示真实标记矩阵;W表示多标记分类器;X表示特征矩阵;rank()表示对多标记分类器引入低质假设来捕获标记相关性;∈表示第一权衡参数;
构建噪声检测器:
Yn≈SX
受制于card(S)≤σ
其中,Yn表示噪声标记矩阵,S表示噪声标记检测器;X表示特征矩阵,card()表示对噪声标记检测器引入特征诱导来筛选噪声标记,σ表示第二权衡参数。
优选的,将分类器和噪声标记检测器组合,得到噪声筛选模型,包括:
Figure BDA0003979657130000071
受制于H=W+S
rank(W)≤∈
card(S)≤σ
其中,H表示噪声筛选模型;
Figure BDA0003979657130000072
表示损失函数;λ表示第三权衡参数;R表示用来控制模型的正则项;X表示特征矩阵;Y表示含噪标记矩阵;W表示多标记分类器;S表示噪声标记检测器;card()表示对噪声标记检测器引入特征诱导来筛选噪声标记;σ表示第二权衡参数,rank()表示对多标记分类器引入低质假设来捕获标记相关性;∈表示第一权衡参数。
优选的,所述最小平方损失函数,包括:
Figure BDA0003979657130000073
其中,L表示最小平方损失函数,Y-f(x)表示残差,整个公式表示残差的平方和;Y表示模型训练目标值;f(x)表示模型训练估计值;n表示模型训练轮数。
优选的,利用最小平方损失函数训练模型,并使用弗罗贝尼乌斯范数来控制模型复杂度,包括:
Figure BDA0003979657130000074
受制于H=W+S
rank(W)≤∈
card(S)≤σ
其中,H表示噪声筛选模型;Y表示含噪标记矩阵;X表示特征矩阵;W表示多标记分类器;S表示噪声标记检测器;card()表示对噪声标记检测器引入特征诱导来筛选噪声标记;σ表示第二权衡参数;rank()表示对多标记分类器引入低质假设来捕获标记相关性;∈表示第一权衡参数;
Figure BDA0003979657130000081
表示Frobenius范数来控制模型复杂度;λ表示表示第五权衡参数。
优选的,所述S4具体包括:
S41:利用低秩约束和稀疏约束凸上界迹范数进行模型优化,得到优化后的噪声筛选模型,包括:
Figure BDA0003979657130000082
受制于H=W+S
其中,H表示噪声筛选模型;Y表示含噪标记矩阵;X表示特征矩阵;W表示多标记分类器;S表示噪声标记检测器;β表示第三权衡参数;γ表示第四权衡参数;
Figure BDA0003979657130000083
表示Frobenius范数控制模型复杂度;λ表示第五权衡参数;‖‖tr表示迹范数;‖‖l表示l1范数;
S42:使用增强拉格朗日乘子提取优化后的噪声筛选模型的损失函数,包括:
Figure BDA0003979657130000084
其中,H表示噪声筛选模型;Y表示含噪标记矩阵;X表示特征矩阵;W表示多标记分类器;S表示噪声标记检测器;A表示拉格朗日乘子矩阵;β表示第三权衡参数;γ表示第四权衡参数;
Figure BDA0003979657130000085
表示Frobenius范数控制模型复杂度;λ表示第五权衡参数;‖‖tr表示迹范数;‖‖l表示l1范数;μ表示惩罚参数。
S43:求解模型的参数,并更新参数,得到最优参数,包括:
固定变量W和S,求解变量H:
Figure BDA0003979657130000086
其中,H表示噪声筛选模型;A表示拉格朗日乘子矩阵;Y表示含噪标记矩阵;X表示特征矩阵;W表示多标记分类器;S表示噪声标记检测器;β表示第三权衡参数;γ表示第四权衡参数;
Figure BDA0003979657130000087
表示Frobenius范数控制模型复杂度;λ表示第五权衡参数;μ表示惩罚参数。
则该问题有闭式解:
Hk+1=(YXT+μWk+μSk+A)(XXT+λI+μI)-1
其中,Hk+1表示联合学习模型H在第k+1轮的结果;I是单位矩阵;Wk表示多标记分类器W第k轮的结果;Sk表示噪声标记检测器S在第k轮的结果;λ表示第五权衡参数;μ表示惩罚参数;Y表示含噪标记矩阵;A∈
Figure BDA0003979657130000096
表示拉格朗日乘子矩阵;X表示特征矩阵;
固定变量H,求解变量W和S:
Figure BDA0003979657130000091
其中,H表示噪声筛选模型;A表示拉格朗日乘子矩阵;Y表示含噪标记矩阵;X表示特征矩阵;W表示多标记分类器;S表示噪声标记检测器;β表示第三权衡参数;‖‖tr表示迹范数;γ表示第四权衡参数;‖‖l表示l1范数;
Figure BDA0003979657130000092
表示Frobenius范数控制模型复杂度;μ表示惩罚参数;
更新参数:
Figure BDA0003979657130000093
Figure BDA0003979657130000094
其中,Wk+1表示多标记分类器W第k+1轮的结果;Sk+1表示噪声标记检测器S在第k+1轮的结果;Sk表示噪声标记检测器S在第k轮的结果;
Figure BDA0003979657130000095
表示奇异值阈值算子;Hk表示噪声筛选模型H在第k轮的结果;Ak表示拉格朗日乘子矩阵A在第k轮的结果;μk表示惩罚参数μ在第k轮的结果;β表示第三权衡参数;γ表示第四权衡参数;
根据最优参数更新噪声筛选模型的损失函数的拉格朗日算子矩阵和惩罚参数,包括:
Ak+1=Ak+μ(Hk+1-Wk+1-Sk+1)
μk+1=min(μmax,ρμk)
其中,Ak+1表示拉格朗日乘子矩阵A在第k+1轮的结果;μk+1表示惩罚参数μ在第k+1轮的结果;Ak表示表示拉格朗日乘子矩阵A在第k轮的结果;Sk+1表示噪声标记检测器S在第k+1轮的结果;Wk+1表示多标记分类器W在第k+1轮的结果;μmax表示惩罚参数μ的上界值;ρ表示更新参数。
优选的,计算数据的标记置信度,包括:
Y*=Ak+1μk+1(W*S*)
其中,Y*表示数据的标记置信度,Ak+1表示拉格朗日乘子矩阵A在第k+1轮的结果;μk+1表示惩罚参数μ在第k+1轮的结果;W*表示更新多标记分类器W得到的最优值;S*表示更新噪声标记检测器S得到的最优值。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (7)

1.一种智能数据噪声筛选方法,其特征在于,包括:
S1:通过数据库获取含真实标记何噪声标记的多标记数据,并构建真实标记矩阵和含噪标记矩阵;
S2:通过真实标记矩阵构建分类器,通过含噪标记矩阵构建噪声检测器,将分类器和噪声标记检测器组合,得到噪声筛选模型;
S3:利用最小平方损失函数训练模型,并使用弗罗贝尼乌斯范数控制模型复杂度;
S4:利用低秩约束和稀疏约束凸上界迹范数对控制复杂度后的模型进行优化,并求解模型的参数,并更新参数得到最优参数,固定最优参数得到最优的噪声筛选模型;
S5:将待筛选数据输入最优的噪声筛选模型,计算数据的标记置信度,根据标记置信度进行排序选出置信度最高的数据,得到真实标记数据。
2.根据权利要求1所述的一种智能数据噪声筛选方法,其特征在于,通过真实标记矩阵构建分类器,通过含噪标记矩阵构建噪声检测器,包括:
构建分类器:
Yg≈WX
受制于rank(W)≤∈
其中,Yg表示真实标记矩阵;W表示多标记分类器;X表示特征矩阵;rank()表示对多标记分类器引入低质假设来捕获标记相关性;∈表示第一权衡参数;
构建噪声检测器:
Yn≈SX
受制于card(S)≤σ
其中,Yn表示噪声标记矩阵,S表示噪声标记检测器;X表示特征矩阵,card()表示对噪声标记检测器引入特征诱导来筛选噪声标记,σ表示第二权衡参数。
3.根据权利要求1所述的一种智能数据噪声筛选方法,其特征在于,将分类器和噪声标记检测器组合,得到噪声筛选模型,包括:
Figure FDA0003979657120000021
受制于H=W+S
rank(W)≤∈
card(S)≤σ
其中,H表示噪声筛选模型;
Figure FDA0003979657120000024
表示损失函数;λ表示第三权衡参数;R表示用来控制模型的正则项;X表示特征矩阵;Y表示含噪标记矩阵;W表示多标记分类器;S表示噪声标记检测器;card()表示对噪声标记检测器引入特征诱导来筛选噪声标记;σ表示第二权衡参数,rank()表示对多标记分类器引入低质假设来捕获标记相关性;∈表示第一权衡参数。
4.根据权利要求1所述的一种智能数据噪声筛选方法,其特征在于,所述最小平方损失函数,包括:
Figure FDA0003979657120000022
其中,L表示最小平方损失函数;Y表示模型训练目标值;f(x)表示模型训练估计值;n表示模型训练轮数。
5.根据权利要求1所述的一种智能数据噪声筛选方法,其特征在于,利用最小平方损失函数训练模型,并使用弗罗贝尼乌斯范数来控制模型复杂度,包括:
Figure FDA0003979657120000023
受制于H=W+S
rank(W)≤∈
card(S)≤σ
其中,H表示噪声筛选模型;Y表示含噪标记矩阵;X表示特征矩阵;W表示多标记分类器;S表示噪声标记检测器;card()表示对噪声标记检测器引入特征诱导来筛选噪声标记;σ表示第二权衡参数;rank()表示对多标记分类器引入低质假设来捕获标记相关性;∈表示第一权衡参数;
Figure FDA0003979657120000037
表示Frobenius范数来控制模型复杂度;λ表示表示第五权衡参数。
6.根据权利要求1所述的一种智能数据噪声筛选方法,其特征在于,所述S4具体包括:
S41:利用低秩约束和稀疏约束凸上界迹范数进行模型优化,得到优化后的噪声筛选模型,包括:
Figure FDA0003979657120000031
受制于H=W+S
其中,H表示噪声筛选模型;Y表示含噪标记矩阵;X表示特征矩阵;W表示多标记分类器;S表示噪声标记检测器;β表示第三权衡参数;γ表示第四权衡参数;
Figure FDA0003979657120000036
表示Frobenius范数控制模型复杂度;λ表示第五权衡参数;‖‖tr表示迹范数;‖‖l表示l1范数;
S42:使用增强拉格朗日乘子提取优化后的噪声筛选模型的损失函数,包括:
Figure FDA0003979657120000032
其中,H表示噪声筛选模型;Y表示含噪标记矩阵;X表示特征矩阵;W表示多标记分类器;S表示噪声标记检测器;A表示拉格朗日乘子矩阵;β表示第三权衡参数;γ表示第四权衡参数;
Figure FDA0003979657120000034
表示Frobenius范数控制模型复杂度;λ表示第五权衡参数;‖‖tr表示迹范数;‖‖l表示l1范数;μ表示惩罚参数;
S43:求解模型的参数,并更新参数,得到最优参数,包括:
固定变量W和S,求解变量H:
Figure FDA0003979657120000033
其中,H表示噪声筛选模型;A表示拉格朗日乘子矩阵;Y表示含噪标记矩阵;X表示特征矩阵;W表示多标记分类器;S表示噪声标记检测器;β表示第三权衡参数;γ表示第四权衡参数;
Figure FDA0003979657120000035
表示Frobenius范数控制模型复杂度;λ表示第五权衡参数;μ表示惩罚参数;
固定变量H,求解变量W和S:
Figure FDA0003979657120000041
其中,H表示噪声筛选模型;A表示拉格朗日乘子矩阵;Y表示含噪标记矩阵;X表示特征矩阵;W表示多标记分类器;S表示噪声标记检测器;β表示第三权衡参数;||||tr表示迹范数;γ表示第四权衡参数;||||l表示l1范数;
Figure FDA0003979657120000042
表示Frobenius范数控制模型复杂度;μ表示惩罚参数;
更新参数:
Figure FDA0003979657120000043
Figure FDA0003979657120000044
其中,Wk+1表示多标记分类器W第k+1轮的结果;Sk+1表示噪声标记检测器S在第k+1轮的结果;Sk表示噪声标记检测器S在第k轮的结果;
Figure FDA0003979657120000045
表示奇异值阈值算子;Hk表示噪声筛选模型H在第k轮的结果;Ak表示拉格朗日乘子矩阵A在第k轮的结果;μk表示惩罚参数μ在第k轮的结果;β表示第三权衡参数;γ表示第四权衡参数;
根据最优参数更新噪声筛选模型的损失函数的拉格朗日算子矩阵和惩罚参数,包括:
Ak+1=Ak+μ(Hk+1-Wk+1-Sk+1)
μk+1=min(μmax,ρμk)
其中,Ak+1表示拉格朗日乘子矩阵A在第k+1轮的结果;μk+1表示惩罚参数μ在第k+1轮的结果;Ak表示表示拉格朗日乘子矩阵A在第k轮的结果;Sk+1表示噪声标记检测器S在第k+1轮的结果;Wk+1表示多标记分类器W在第k+1轮的结果;μmax表示惩罚参数μ的上界值;ρ表示更新参数。
7.根据权利要求1所述的一种智能数据噪声筛选方法,其特征在于,计算数据的标记置信度,包括:
Y*=Ak+1μk+1(W*S*)
其中,Y*表示数据的标记置信度;Ak+1表示拉格朗日乘子矩阵A在第k+1轮的结果;μk+1表示惩罚参数μ在第k+1轮的结果;W*表示更新多标记分类器W得到的最优值;S*表示更新噪声标记检测器S得到的最优值。
CN202211545535.8A 2022-12-05 2022-12-05 一种智能数据噪声筛选方法 Active CN115758223B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211545535.8A CN115758223B (zh) 2022-12-05 2022-12-05 一种智能数据噪声筛选方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211545535.8A CN115758223B (zh) 2022-12-05 2022-12-05 一种智能数据噪声筛选方法

Publications (2)

Publication Number Publication Date
CN115758223A true CN115758223A (zh) 2023-03-07
CN115758223B CN115758223B (zh) 2023-10-27

Family

ID=85343014

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211545535.8A Active CN115758223B (zh) 2022-12-05 2022-12-05 一种智能数据噪声筛选方法

Country Status (1)

Country Link
CN (1) CN115758223B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7181297B1 (en) * 1999-09-28 2007-02-20 Sound Id System and method for delivering customized audio data
US20190026652A1 (en) * 2017-07-20 2019-01-24 Freshworks, Inc. Noise reduction and smart ticketing for social media-based communication systems
CN110702792A (zh) * 2019-09-29 2020-01-17 中国航发北京航空材料研究院 一种基于深度学习的合金组织超声检测分类方法
CN111582506A (zh) * 2020-05-15 2020-08-25 北京交通大学 基于全局和局部标记关系的偏多标记学习方法
CN112200710A (zh) * 2020-10-08 2021-01-08 东南数字经济发展研究院 一种基于深度学习的自适应隐形水印同步检测方法
CN112700789A (zh) * 2021-03-24 2021-04-23 深圳市中科蓝讯科技股份有限公司 一种噪声检测方法、非易失性可读存储介质及电子设备
CN113742669A (zh) * 2021-08-18 2021-12-03 浙江工业大学 一种基于孪生网络的用户认证方法
CN114067165A (zh) * 2021-10-26 2022-02-18 南京航空航天大学 一种含噪声标记分布的图像筛选和学习方法与装置
US20220108226A1 (en) * 2020-10-01 2022-04-07 Nec Laboratories America, Inc. Voting-based approach for differentially private federated learning
CN114818979A (zh) * 2022-05-25 2022-07-29 东南大学 一种基于最大化间隔机制的含噪多标记分类方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7181297B1 (en) * 1999-09-28 2007-02-20 Sound Id System and method for delivering customized audio data
US20190026652A1 (en) * 2017-07-20 2019-01-24 Freshworks, Inc. Noise reduction and smart ticketing for social media-based communication systems
CN110702792A (zh) * 2019-09-29 2020-01-17 中国航发北京航空材料研究院 一种基于深度学习的合金组织超声检测分类方法
CN111582506A (zh) * 2020-05-15 2020-08-25 北京交通大学 基于全局和局部标记关系的偏多标记学习方法
US20220108226A1 (en) * 2020-10-01 2022-04-07 Nec Laboratories America, Inc. Voting-based approach for differentially private federated learning
CN112200710A (zh) * 2020-10-08 2021-01-08 东南数字经济发展研究院 一种基于深度学习的自适应隐形水印同步检测方法
CN112700789A (zh) * 2021-03-24 2021-04-23 深圳市中科蓝讯科技股份有限公司 一种噪声检测方法、非易失性可读存储介质及电子设备
CN113742669A (zh) * 2021-08-18 2021-12-03 浙江工业大学 一种基于孪生网络的用户认证方法
CN114067165A (zh) * 2021-10-26 2022-02-18 南京航空航天大学 一种含噪声标记分布的图像筛选和学习方法与装置
CN114818979A (zh) * 2022-05-25 2022-07-29 东南大学 一种基于最大化间隔机制的含噪多标记分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
REGAN C. MANAYAN ET AL.: "Ambient noise limits efficacy of smartphone-based screening for hearing loss in children at risk", 《AMERICAN JOURNAL OF OTOLARYNGOLOGY》 *
段子瑜: "NPD三维数据库的建立与应用", 《中国优秀硕士学位论文全文数据库工程科技Ⅱ辑》 *

Also Published As

Publication number Publication date
CN115758223B (zh) 2023-10-27

Similar Documents

Publication Publication Date Title
Rußwurm et al. Self-attention for raw optical satellite time series classification
Khan et al. Deep unified model for face recognition based on convolution neural network and edge computing
CN110532920B (zh) 基于FaceNet方法的小数量数据集人脸识别方法
Chen et al. Selective transfer with reinforced transfer network for partial domain adaptation
CN111079847B (zh) 一种基于深度学习的遥感影像自动标注方法
CN110298291A (zh) 基于Mask-RCNN的牛脸及牛脸关键点检测方法
CN102324038B (zh) 一种基于数字图像的植物种类识别方法
CN108647595B (zh) 基于多属性深度特征的车辆重识别方法
CN108509833B (zh) 一种基于结构化分析字典的人脸识别方法、装置及设备
CN106778863A (zh) 基于Fisher判别字典学习的仓库货品识别方法
Qin et al. Cross-domain collaborative learning via cluster canonical correlation analysis and random walker for hyperspectral image classification
CN113761259A (zh) 一种图像处理方法、装置以及计算机设备
Saponara et al. Recreating fingerprint images by convolutional neural network autoencoder architecture
CN112507924B (zh) 一种3d手势识别方法、装置及系统
CN103268607A (zh) 一种弱监督条件下的共同对象检测方法
Shi et al. Individual automatic detection and identification of big cats with the combination of different body parts
CN115359353A (zh) 一种花卉识别分类方法及装置
Fan Research and realization of video target detection system based on deep learning
CN114092938B (zh) 图像的识别处理方法、装置、电子设备及存储介质
CN109034213A (zh) 基于相关熵原则的高光谱图像分类方法和系统
Defriani et al. Recognition of regional traditional house in Indonesia using Convolutional Neural Network (CNN) method
Zuo et al. An intelligent knowledge extraction framework for recognizing identification information from real-world ID card images
CN115758223A (zh) 一种智能数据噪声筛选方法
Dong et al. Scene-oriented hierarchical classification of blurry and noisy images
CN116681128A (zh) 一种带噪多标签数据的神经网络模型训练方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20230928

Address after: No. 2762, Room 101, 9th Floor, Building 19, Zone 16, No. 188 South Fourth Ring West Road, Fengtai District, Beijing, 100071

Applicant after: Qianyi Hesheng (Beijing) Technology Co.,Ltd.

Address before: Room 801, 85 Kefeng Road, Huangpu District, Guangzhou City, Guangdong Province

Applicant before: Yami Technology (Guangzhou) Co.,Ltd.

Effective date of registration: 20230928

Address after: Room 801, 85 Kefeng Road, Huangpu District, Guangzhou City, Guangdong Province

Applicant after: Yami Technology (Guangzhou) Co.,Ltd.

Address before: 400065 Chongwen Road, Nanshan Street, Nanan District, Chongqing

Applicant before: CHONGQING University OF POSTS AND TELECOMMUNICATIONS

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant