CN109543693B - 基于正则化标签传播的弱标注数据降噪方法 - Google Patents

基于正则化标签传播的弱标注数据降噪方法 Download PDF

Info

Publication number
CN109543693B
CN109543693B CN201811430838.9A CN201811430838A CN109543693B CN 109543693 B CN109543693 B CN 109543693B CN 201811430838 A CN201811430838 A CN 201811430838A CN 109543693 B CN109543693 B CN 109543693B
Authority
CN
China
Prior art keywords
sample
noise reduction
label
data
sample data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811430838.9A
Other languages
English (en)
Other versions
CN109543693A (zh
Inventor
黄金才
黄红蓝
冯旸赫
刘忠
王�琦
程光权
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN201811430838.9A priority Critical patent/CN109543693B/zh
Publication of CN109543693A publication Critical patent/CN109543693A/zh
Application granted granted Critical
Publication of CN109543693B publication Critical patent/CN109543693B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了种基于正则化标签传播的弱标注数据降噪方法,包括以下步骤:1、从众包数据平台获取需要的弱标注样本数据集;2、对弱标注图像样本数据构造局部邻域结构;3、求解局部邻域结构的样本近邻赋权相似度矩阵;4、在弱监督的情况下对局部邻域结构构造基于系统状态一致性的降噪模型;5、通过基于正则化标签传播方法对降噪模型进行求解,实现对弱标注样本数据集的降噪。本发明通过构造弱标注数据的局部邻域结构,将整个弱标注样本数据集视为系统,从系统一致性的角度提出弱标注数据降噪方法,实现了弱标注数据的降噪,优化了样本数据集的标注质量,且在降噪过程中不需要人工经验或专家进行干预,有效提高了降噪准确率和降低效率。

Description

基于正则化标签传播的弱标注数据降噪方法
技术领域
本发明属于数据去噪领域,尤其涉及一种基于正则化标签传播的弱标注数据降噪方法。
背景技术
在大数据背景下,样本的噪声在现实生活、工业生产和工程应用中都普遍存在,这些噪声来源广泛,包括了传感器的系统测定的偏误和数据加工过程的偏误。噪声数据移除对于学习问题的影响是多方面的。直接移除噪声数据在可用数据规模较大时是可行的策略,尽管如此,一些信息有益的样本也有可能会被忽略,而且独立同分布的假设在数据被移除之后也不再成立。在数据样本容量较小的情况下,噪声数据的移除可能直接导致模式无法学习,造成了数据资源的浪费。
在机器学习领域中,常见的一类工作是使用带标签数据训练神经网络实现分类、回归或其他目的,这种训练模型学习规律的方法一般称之为监督学习。在监督学习中,训练数据所对应的标签质量对于学习效果至关重要。如果学习时使用的标签数据都是错误的,那么不可能训练出有效的预测模型。同时,深度学习使用的神经网络往往结构复杂,为了得到良好的学习效果,对于带标签的训练数据的数量也有较高要求,即常被提到的大数据或海量数据。给数据打标签这个工作在很多场景下需要人工实现,海量、高质量标签本身费时费力,在经济上相对昂贵。因此,实际应用中的机器学习问题必须面对噪音标签的影响,即我们拿到的每一个带标签数据集都要假定其中是包含噪声的。进一步,由于样本量很大,对于每一个带标签数据集,不可能人工逐个检查并校正标签。鉴于标注噪声的存在直接损害了分类器的可靠性与泛化性能。特别地,以众包(Crowdsourcing)为代表的弱标注技术已经成为大规模数据标注的主流方式,所以容易在专家经验和知识缺乏的情况下,产生错误标注数据的情况。为了消除标签噪声对学习器性能潜在的负面影响,近些年形成了噪声标签学习的相关理论,涌现了一系列弱标注数据降噪的方法,所谓弱标注数据降噪是指对训练集中存在噪声标注的数据进行修复的过程。
现有的处理噪声标注数据的方法是基于滤波算法(Filter-based Method),其核心在于对噪声数据的识别,在学习过程中移除噪声数据,或者修正噪声数据以实现重新标注,然后将标注精炼过的数据集用于学习器的训练,通常比直接在噪声标注数据集上训练得到的模型有更好的泛化能力。一些比较常用的标签噪声识别的算法包括大边距分类器算法,近邻验证算法,委员会投票算法,交叉验证算法和聚类算法。在一些具体任务中,一定的领域知识对于噪声标签数据的识别具有特别效果。在假设误标签样本很可能是支持向量的情况下,Fefilatyev等人利用支持向量机从大规模数据集中检测噪声样本并对这些样本进行修正。其中关于支持向量的是否为噪声样本是通过领域专家进行人工判定和修正的,这种算法以迭代的方式推荐潜在的错误标注的样本,进行修复,直到无法检测到噪声样本为止,所以这是利用主动学习的想法进行检测,可以减少人工干预标签的频率并保持较高的准确性。Nicholson等人设计了两种噪声标签修正的方法,一种是迭代的修正模型,另一种是基于聚类的策略,但是迭代终止条件的制定和聚类簇数目的选择是很难以解决的问题。集成学习的算法在标注去噪任务中也很常见,Brodley等人通过K折交叉验证的方法进行标签的投票,根据投票决议策略,又可分为一致性判别和众数判别,一致性判别即当样本与K个学习器的判别结果都不一致时即认定样本为噪声标注样本,众数判别即当样本与大多数学习器的判别结果(往往超多K/2个学习器)都不一致时即认定样本为噪声标注样本。基于近邻的算法考虑了邻域样本标注信息在标签降噪中的作用,对于每个样本,搜索与之相邻近的K个样本,若该样本与大多数样本的标注都不一致,则将其视为噪声标注的样本,不过,这种降噪的方法在复杂数据或具有复杂决策边界的问题上降噪效果较差。近期效果最好的弱标注数据学习算法是CG Northcutt等人提出的RankPruning算法,这种算法借助了K折交叉验证的思想,可以利用多了逻辑斯蒂回归直接从数据中估计出标注的可信度,不过这种算法通常会丢弃一些置信度较低的样本,并不能实现样本标注的有效修复。
在上述的方法中,往往存在应用场景有限,降噪程度不佳,有的还需要引入专家经验进行判断,存在降噪准确率和降噪效率都不高的缺陷。
发明内容
本发明要解决的技术问题是针对现有降噪方法需要人工经验进行干预,造成降噪准确率和效率较低的问题,提供一种基于正则化标签传播的弱标注数据降噪方法。
为解决上述问题,本发明所采用的技术方案是:
基于正则化标签传播的弱标注数据降噪方法,包括以下步骤:
步骤1:从众包数据平台获取需要的弱标注样本数据集;
步骤2:对弱标注样本数据构造局部邻域结构;
步骤3:求解局部邻域结构的样本近邻赋权相似度矩阵;
步骤4:在弱监督的情况下对局部邻域结构构造基于系统状态一致性的降噪模型;
步骤5:通过基于正则化标签传播方法对降噪模型进行求解,实现对弱标注样本数据集的降噪。
进一步地,所述步骤2构造局部邻域结构的具体方法为:
所述步骤2构造局部邻域结构的具体方法为:
步骤2.1:对弱标注样本数据集中的样本数据xi进行降维,并将降维后的向量作为样本数据的表示特征
Figure GDA0002990253800000031
i表示第i个样本,1≤i≤N,N表示所述弱标注样本数据集中样本的总量;
步骤2.2:计算任意两个样本数据降维后的表示特征
Figure GDA0002990253800000032
的欧式距离dij,得到距离矩阵D=[dij]N*N其中:
Figure GDA0002990253800000033
步骤2.3:设置近邻样本数目k,通过对近邻模型求解,得到邻接矩阵A。
近邻模型为:
Figure GDA0002990253800000034
Figure GDA0002990253800000035
其中:A为邻接矩阵,A=[aij]N*N,aij是0-1变量,表示样本数据i和j是否为k近邻,aij=1时表示样本数据i和j互为k近邻,D=[dij]N*N是两两图像样本表示特征的距离矩阵,k是每个样本数据的近邻样本数目,N表示所述弱标注样本数据集中样本的总量,tr是计算矩阵A*DT的迹。
进一步地,所述步骤2.1中对弱标注的样本数据集进行降维的方法为主成分分析法。
进一步地,步骤3中所述样本近邻赋权相似度矩阵的求解方法为:
步骤3.1:计算任意两个样本数据xi、xj的相似度为
Figure GDA0002990253800000036
得到样本相似度矩阵
Figure GDA0002990253800000037
步骤3.2:利用步骤2.3得到的矩阵A,通过Kronecker积得到基于B-Matching的近邻赋权相似度矩阵K=A⊙K,近邻赋权相似度矩阵K中的元素满足
Figure GDA0002990253800000038
进一步地,步骤4中所述基于系统状态一致性的降噪模型为:
Figure GDA0002990253800000039
其中:Y为含有因噪声存在而被错误标注的观测标签,Y为真实标签向量,α、β为超参数;
Figure GDA00029902538000000310
是对称标准化的样本邻域相似度矩阵,D为对角矩阵,D=diag(dii)N*N,对角元素
Figure GDA00029902538000000311
进一步地,步骤5所述基于正则化标签传播方法进行降噪处理的方法为:
步骤5.1:使用迭代模型(1)对步骤1中所获取的弱标注样本数据集中的原始标签Y(0)进行迭代,
Figure GDA0002990253800000041
其中Y(t)是样本松弛后的软标签,所述松弛是指将标号为{-1,+1}的标签区域放宽到连续区间(-∞,∞),即
Figure GDA0002990253800000042
每个样本
Figure GDA0002990253800000043
在迭代过程中的标签为软标签,取值范围在(-∞,∞),超参数α,α∈(0,1],α是对结构一致性信息诱导的标签信息和原始标签信息的权衡,α越大对应于传播的结果更倾向于与原始标签情况保持越多的一致性,超参数β,β∈(0,1],是正则化因子,即要求传播过程中图像样本的软标签在取值上不宜过大,总样本软标签取值集中于[-1,1]区间中,方差不宜过大;
步骤5.2当||Y(t)-Y(t+1)||2小于设定值时,终止迭代,得到最终的松弛解标签Y(t)
步骤5.3将最后一次迭代的样本软标签Y(t)通过指示函数indmap映射为{-1,+1},即对于样本i
Figure GDA0002990253800000044
得到最终的降噪后的标签集
Figure GDA0002990253800000045
与现有技术相比,本发明所取得的有益效果是:
本发明与别的以单个样本及对应的邻域结构作为弱标注修复的依据不同,通过构造弱标注数据的局部邻域结构,将整个弱标注样本数据集视为系统,从系统一致性的角度提出弱标注数据降噪方法,利用了采样的所有样本和对应的所有邻域结构信息作为支持,给出系统状态一致性降噪模型,当样本标签遭遇噪声污染时,对应的系统能量较高,系统处于不稳定的状态,当系统能量最低时,系统处于稳定的状态,此时系统样本标签遭遇的噪声污染最小,即认为弱标注的样本集被噪声污染的错误标签修复的最好,从而实现图像弱标注数据的降噪,优化图像数据集的标注质量,且在降噪过程中不需要人工经验或专家进行干预,有效提高了降噪准确率和降噪效率。
附图说明
附图1为本发明系统流程图。
具体实施方式
下面通过一个实施例说明使用基于正则化标签传播的弱标注数据降噪方法进行降噪。如附图1所示,
步骤1:从众包数据平台获取需要的弱标注样本数据集;
对于大规模数据标注,往往是通过以亚马逊为代表的众包平台(AmazonMechanical Turk)在互联网上进行数据的分发,通过网络员工进行标注,然后融合多个标注结果给出大规模数据集的最终标注。尽管这种标注方式很好地利用了群体智慧和互联网闲余资源,但是不同的员工的专业领域不同、专家经验缺乏,造成了存在一定比例的数据的错误标注。通过这种非依赖领域专家经验的众包方法可以获取大规模弱标注的数据样本。虽然弱标注数据广泛存在于人工智能的应用中,但是很难通过人工的方式获取并给出真实标注信息的数据集。因此,本实施例中以美国邮政手写数字数据集USPS为例,开展相关的实验。特别地,分别从USPS图像数据集中随机采样400个标签为1和400个标签为7的样本构成实验数据,以噪声率对[ρ01]对这些数据的真实标签进行污染,例如USPS1-7在噪声率对儿[0.1,0.3]的情景下,10%的标签为1的图片被随机误标注为7,30%的标签为7的图片被随机误标注为1。以这种人工引入标注噪声的方式得到USPS1-7弱标注数据
Figure GDA0002990253800000051
其中-1对应于图像标注为1的数据集,-1对应于标注为7的数据集,xi是图形样本i的原始向量特征表示,
Figure GDA0002990253800000052
为弱标注对应的标签,所谓弱标注对应的标签是指该标签有可能标注正确了,也有可能因噪声污染被标注成错误的标签,并开展相关效果的验证。
步骤2:对弱标注图像样本数据构造局部邻域结构;
在USPS1-7弱标注数据集上,
步骤2.1:对弱标注样本数据集中的样本数据xi进行降维,并将降维后的向量作为样本数据的表示特征
Figure GDA0002990253800000055
,i表示第i个样本,1≤i≤N,N表示所述弱标注样本数据集中样本的总量;
本实施例中,通过主成分分析法PCA(principle component analysis)将弱标注的图像样本数据{xi|i=1,2,..800}从256维度降低至86维度,并将降维后的向量作为图像样本数据的表示特征
Figure GDA0002990253800000053
步骤2.2:计算任意两个样本表示特征xi、xj的欧式距离dij得到距离矩阵D=[dij]N*N其中:
Figure GDA0002990253800000054
步骤2.3:设置近邻数目k,通过对B-Matching模型求解,得到邻接矩阵A。
B-Matching近邻模型为:
Figure GDA0002990253800000061
Figure GDA0002990253800000062
其中:A为邻接矩阵,A=[aij]N*N,aij是0-1变量,表示样本数据i和j是否为k近邻,aij=1时表示样本数据i和j互为k近邻,D=[dij]N*N是两两图像样本表示特征的距离矩阵,k是每个样本数据的近邻样本数目,N表示所述弱标注样本数据集中样本的总量,tr是计算矩阵A*DT的迹。
本实施例中,设置近邻样本数目k=10,使用CVXPY工具包求解B-Mtching近邻模型,给出邻接矩阵A作为解。B-Matching近邻模型是通过文献“T.Jebara,J.Wang,and S.-F.Chang,"Graph construction and b-matching for semi-supervised learning."pp.441-448”得到的。
步骤3:求解局部邻域结构的样本近邻赋权相似度矩阵。
步骤3.1:计算任意两个样本数据xi、xj的相似度为
Figure GDA0002990253800000063
得到样本相似度矩阵K
步骤3.2:利用步骤2.3得到的矩阵A,通过Kronecker积得到基于B-Matching的近邻赋权相似度矩阵K=A⊙K,近邻赋权相似度矩阵K中的元素满足
Figure GDA0002990253800000064
步骤4:在弱监督的情况下对局部邻域结构构造基于系统状态一致性的降噪模型;
在物理学的伊辛Ising模型中,用哈密顿量描述系统的自旋一致性。本发明中用哈密顿量(Hamiltonian)描述系统中的邻域标注信息的一致性。考虑标签集
Figure GDA0002990253800000065
Figure GDA0002990253800000066
的二元情况,样本之间的成对一致性可以用潜在真实标签yi*yj的乘法来表征。基于此,给出具有正则项的哈密顿量并表述为:
Figure GDA0002990253800000067
其中,Y为含有因噪声存在而被错误标注的观测标签向量,Y为真实标签向量,α、β为超参数;K为样本相似度矩阵。
对公式(3),我们引入正则项Y的L2范数,并对图拉普拉斯算子(Graph Laplacian)矩阵D-K进行行列变换,得到对称标准化的拉普拉斯(Normalized Symmetric GraphLaplacian)矩阵I-Ksym
Figure GDA0002990253800000071
其中
Figure GDA0002990253800000072
是对称标准化的样本邻域相似度矩阵。
在Ising模型中,认为当系统处于平衡状态时,会发现最小能量的构型。因此,本实施例中,通过求解最小哈密顿能量模型,使系统处于平衡状态,也就最大化地保留了样本数据之间的成对一致性,此时系统样本标签遭遇的噪声污染最小,即认为弱标注的样本集被噪声污染的错误标签修复的最好,因此基于系统状态一致性的降噪模型为:
Figure GDA0002990253800000073
其中,Y为含有因噪声存在而被错误标注的观测标签,Y为真实标签向量,α、β为超参数;
Figure GDA0002990253800000074
表示一种对称标准化的样本邻域相似度矩阵,D为对角矩阵,D=diag(dii)N*N,对角元素
Figure GDA0002990253800000075
步骤5:通过基于正则化标签传播方法对降噪模型进行求解,实现对弱标注样本数据集的降噪。
步骤5.1:使用迭代模型1对原始的弱标注图像数据的标签Y(0)进行迭代,
Figure GDA0002990253800000076
Y(t)是样本松弛后的软标签,所述松弛是指将标号为{-1,+1}的标签区域放宽到连续区间[-∞,∞],即
Figure GDA0002990253800000077
每个样本标签
Figure GDA0002990253800000078
在迭代过程中的标签为软标签,取值范围在(-∞,∞),超参数α,α∈(0,1],α是对结构一致性信息诱导的标签信息和原始标签信息的权衡,α越大对应于传播的结果更倾向于与原始标签情况保持越多的一致性,超参数β,β∈(0,1],是正则化因子,即要求传播过程中图像样本的软标签在取值上不宜过大,总样本软标签取值集中于[-1,1]区间中,方差不宜过大。
本实施例中,取超参数α=0.01,β=0.01,通过公式(2)完成弱标注图像数据集的标注降噪任务。对于新提出的正则化标签传播方法,初始的迭代值Y(0)即是原始的弱标注图像数据的标签,本实施例中,部分噪声污染的原始标签
Figure GDA0002990253800000079
本实施例中,原始标签是指按照不同的噪声率对[ρ01]污染得到的样本标签,这些标签存在一定的噪声。尽管标签是弱监督产生的,存在一定噪声,但大多数标签信息依然是真实可靠的。
步骤5.2:当||Y(t)-Y(t+1)||2小于设定值时,终止迭代,得到最终的松弛解标签Y(t)
本实施例中,设定值取为0.001,即当||Y(t)-Y(t+1)||2<0.001时,终止迭代,得到最终的松弛解标签Y(t)
步骤5.3:将最后一次迭代的样本软标签Y(t)通过指示函数indmap映射为{-1,+1},即对于样本i
Figure GDA0002990253800000081
得到最终的降噪后的标签集
Figure GDA0002990253800000082
通过使用步骤5中基于正则化传播方法对步骤4中的降噪模型进行求解,得到的是具有最小哈密尔顿量的系统能量模型,系统处于稳定的状态,也就是对所获取的弱标注图像样本数据集而言,样本数据集中样本数据之间的成对一致性最好,此时系统样本标签遭遇的噪声污染最小,即认为弱标注的样本集被噪声污染的错误标签修复的最好,从而实现图像弱标注数据的降噪,优化图像数据集的标注质量,且在降噪过程中不需要人工经验或专家进行干预,有效提高了降噪准确率和降噪效率。本发明不同于以往的以单个样本及对应的邻域结构作为弱标注修复的依据,而是从系统的角度,利用了采样的所有样本和对应的所有邻域结构信息作为支持,通过求取最小汉密尔顿量的计算目标,从系统优化的角度设计正则化标签传播算法,实现数据标注的降噪。
本发明与目前的比较优异的标注降噪算法Rank Pruning(RP)算法,Nat13算法、Elk08算法和KNN算法对比,相应的对比算法的运行依赖Rank Pruning算法包,采用默认参数,其中KNN采用sklearn中的默认参数,以弱标注数据为训练样本,然后在同样的弱标注数据上进行预测,将预测结果作为降噪后的标注结果。表1给出了使用本发明中的方法和其他降噪方法的比较结果,可以发现,本发明在原始标注准确率的基础上,对错误标签的修复率很高,其降噪准确性明显提高了很多,同时也优于其他方法。
表1.在数据集USPS1-7上的降噪准确率.其中标签为1和7的图象数据各随机抽取400个样本,所有的结果都是独立十次重复实验的平均值,括号里为方差
Figure GDA0002990253800000091

Claims (4)

1.基于正则化标签传播的弱标注数据降噪方法,其特征在于:包括以下步骤:
步骤1:从众包数据平台获取需要的弱标注样本数据集;
步骤2:对弱标注样本数据构造局部邻域结构;
步骤3:求解局部邻域结构的样本近邻赋权相似度矩阵;
步骤4:在弱监督的情况下对局部邻域结构构造基于系统状态一致性的降噪模型;步骤5:通过基于正则化标签传播方法对降噪模型进行求解,实现对弱标注样本数据集的降噪;
步骤4中所述基于系统状态一致性的降噪模型为:
Figure FDA0002990253790000011
其中:Y为含有因噪声存在而被错误标注的观测标签,Y为真实标签向量,α、β为超参数;
Figure FDA0002990253790000012
是对称标准化的样本邻域相似度矩阵,D为对角矩阵,D=diag(dii)N*N,对角元素
Figure FDA0002990253790000013
K为样本近邻赋权相似度矩阵,kij为样本近邻赋权相似度矩阵K中的元素;
步骤5所述基于正则化标签传播方法对降噪模型进行求解的方法为:
步骤5.1:使用下式(1)对步骤1中所获取的弱标注样本数据集中的原始标签Y(0)进行迭代,
Figure FDA0002990253790000014
其中Y(t)是样本松弛后的软标签,所述松弛是指将标号为{-1,+1}的标签区域放宽到连续区间(-∞,∞),即
Figure FDA0002990253790000015
每个样本
Figure FDA0002990253790000016
在迭代过程中的标签为软标签,取值范围在(-∞,∞),超参数α,α∈(0,1],α是对结构一致性信息诱导的标签信息和原始标签信息的权衡,α越大对应于传播的结果更倾向于与原始标签情况保持越多的一致性,超参数β,β∈(0,1],是正则化因子,即要求传播过程中图像样本的软标签在取值上不宜过大,总样本软标签取值集中于[-1,1]区间中,方差不宜过大;
步骤5.2:当||Y(t)-Y(t+1)||2<0.001小于设定值时,终止迭代,得到最终的松弛解标签Y(t)
步骤5.3:将最后一次迭代的松弛解标签Y(t)通过指示函数indmap映射为{-1,+1},即对于样本i
Figure FDA0002990253790000021
得到最终的降噪后的标签集
Figure FDA0002990253790000022
2.根据权利要求1所述的基于正则化标签传播的弱标注数据降噪方法,其特征在于:所述步骤2构造局部邻域结构的具体方法为:
步骤2.1:对弱标注样本数据集中的样本数据xi进行降维,并将降维后的向量作为样本数据的表示特征
Figure FDA0002990253790000023
i表示第i个样本,1≤i≤N,N表示所述弱标注样本数据集中样本的总量;
步骤2.2:计算任意两个样本数据降维后的表示特征
Figure FDA0002990253790000024
的欧式距离dij,得到距离矩阵D=[dij]N*N其中:
Figure FDA0002990253790000025
步骤2.3:设置样本数据的近邻样本数目k,通过对B-Matching近邻模型求解,得到邻接矩阵A;
B-Matching近邻模型为:
Figure FDA0002990253790000026
Figure FDA0002990253790000027
其中:A为邻接矩阵,A=[aij]N*N,aij是0-1变量,表示样本数据i和j是否为k近邻,aij=1时表示样本数据i和j互为k近邻,D=[dij]N*N是两两样本表示特征的距离矩阵,k是每个样本数据的近邻样本数目,tr是计算矩阵A*DT的迹。
3.根据权利要求2所述的基于正则化标签传播的弱标注数据降噪方法,其特征在于:所述步骤2.1中对弱标注的样本数据集进行降维的方法为主成分分析法。
4.根据权利要求3所述的基于正则化标签传播的弱标注数据降噪方法,其特征在于:步骤3中所述样本近邻赋权相似度矩阵的求解方法为:
步骤3.1:计算任意两个样本数据xi、xj的相似度为
Figure FDA0002990253790000031
得到样本相似度矩阵
Figure FDA0002990253790000032
步骤3.2:利用步骤2.3得到的矩阵A,通过Kronecker积得到基于B-Matching的样本近邻赋权相似度矩阵K=A⊙K,样本近邻赋权相似度矩阵K中的元素满足
Figure FDA0002990253790000033
CN201811430838.9A 2018-11-28 2018-11-28 基于正则化标签传播的弱标注数据降噪方法 Active CN109543693B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811430838.9A CN109543693B (zh) 2018-11-28 2018-11-28 基于正则化标签传播的弱标注数据降噪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811430838.9A CN109543693B (zh) 2018-11-28 2018-11-28 基于正则化标签传播的弱标注数据降噪方法

Publications (2)

Publication Number Publication Date
CN109543693A CN109543693A (zh) 2019-03-29
CN109543693B true CN109543693B (zh) 2021-05-07

Family

ID=65851903

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811430838.9A Active CN109543693B (zh) 2018-11-28 2018-11-28 基于正则化标签传播的弱标注数据降噪方法

Country Status (1)

Country Link
CN (1) CN109543693B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112529024B (zh) * 2019-09-17 2024-09-06 株式会社理光 一种样本数据的生成方法、装置及计算机可读存储介质
CN112801218B (zh) * 2021-03-22 2021-06-18 中国人民解放军国防科技大学 一种基于降噪特征增强的多视角一维距离像融合识别方法
CN113656798B (zh) * 2021-07-09 2023-09-05 北京科技大学 一种面向恶意软件标签翻转攻击的正则化识别方法及装置
CN113516207B (zh) * 2021-09-10 2022-01-25 之江实验室 一种带噪声标签的长尾分布图像分类方法
CN114638322B (zh) * 2022-05-20 2022-09-13 南京大学 开放场景下基于给定描述的全自动目标检测系统和方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105205501A (zh) * 2015-10-04 2015-12-30 北京航空航天大学 一种多分类器联合的弱标注图像对象检测方法
CN105426826A (zh) * 2015-11-09 2016-03-23 张静 一种基于标签噪声纠正的众包标注数据质量提升方法
CN106156805A (zh) * 2016-09-12 2016-11-23 中国石油大学(华东) 一种样本标签缺失数据的分类器训练方法
CN108319938A (zh) * 2017-12-31 2018-07-24 奥瞳系统科技有限公司 用于高性能人脸识别系统的高质量训练数据准备系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11531852B2 (en) * 2016-11-28 2022-12-20 D-Wave Systems Inc. Machine learning systems and methods for training with noisy labels

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105205501A (zh) * 2015-10-04 2015-12-30 北京航空航天大学 一种多分类器联合的弱标注图像对象检测方法
CN105426826A (zh) * 2015-11-09 2016-03-23 张静 一种基于标签噪声纠正的众包标注数据质量提升方法
CN106156805A (zh) * 2016-09-12 2016-11-23 中国石油大学(华东) 一种样本标签缺失数据的分类器训练方法
CN108319938A (zh) * 2017-12-31 2018-07-24 奥瞳系统科技有限公司 用于高性能人脸识别系统的高质量训练数据准备系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Back-End: A Noise Rate Estimation Method in the Presence of Class Conditional Noise;Qi Wang et al.;《ICIT 2017:Proceedings of the 2017 International Conference on Information Technology》;20171231;第318-324页 *
众包中的机器学习问题研究;刘志权;《中国优秀硕士学位论文全文数据库 信息科技辑》;20150615(第6期);第I140-17页 *

Also Published As

Publication number Publication date
CN109543693A (zh) 2019-03-29

Similar Documents

Publication Publication Date Title
CN109543693B (zh) 基于正则化标签传播的弱标注数据降噪方法
Azadi et al. Auxiliary image regularization for deep cnns with noisy labels
Su et al. Interactive cell segmentation based on active and semi-supervised learning
CN111476315B (zh) 一种基于统计相关性与图卷积技术的图像多标签识别方法
CN109086654B (zh) 手写模型训练方法、文本识别方法、装置、设备及介质
CN110188827B (zh) 一种基于卷积神经网络和递归自动编码器模型的场景识别方法
WO2022062419A1 (zh) 基于非督导金字塔相似性学习的目标重识别方法及系统
WO2023201772A1 (zh) 基于迭代域内适应和自训练的跨域遥感图像语义分割方法
CN111241326B (zh) 基于注意力金字塔图网络的图像视觉关系指代定位方法
CN110751027B (zh) 一种基于深度多示例学习的行人重识别方法
CN110443372A (zh) 一种基于熵最小化的迁移学习方法及系统
CN113673482B (zh) 基于动态标签分配的细胞抗核抗体荧光识别方法及系统
CN110008844A (zh) 一种融合slic算法的kcf长期手势跟踪方法
CN111241933A (zh) 一种基于通用对抗扰动的养猪场目标识别方法
CN116051479A (zh) 融合跨域迁移和异常检测的纺织品缺陷识别方法
CN114692732A (zh) 一种在线标签更新的方法、系统、装置及存储介质
CN118152901B (zh) 基于数据驱动的设备故障预测方法及系统
CN110458022A (zh) 一种基于域适应的可自主学习目标检测方法
Wang et al. A novel sparse boosting method for crater detection in the high resolution planetary image
CN108537342A (zh) 一种基于邻居信息的网络表示学习方法及系统
CN109657693B (zh) 一种基于相关熵和迁移学习的分类方法
Shrivastava et al. Dictionary-based multiple instance learning
CN112949590B (zh) 一种跨域行人重识别模型构建方法及构建系统
Hao et al. A Model-Agnostic approach for learning with noisy labels of arbitrary distributions
CN112784927B (zh) 一种基于在线学习的半自动图像标注方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant