CN109543693B

CN109543693B - 基于正则化标签传播的弱标注数据降噪方法

Info

Publication number: CN109543693B
Application number: CN201811430838.9A
Authority: CN
Inventors: 黄金才; 黄红蓝; 冯旸赫; 刘忠; 王�琦; 程光权
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2018-11-28
Filing date: 2018-11-28
Publication date: 2021-05-07
Anticipated expiration: 2038-11-28
Also published as: CN109543693A

Abstract

本发明公开了种基于正则化标签传播的弱标注数据降噪方法，包括以下步骤：1、从众包数据平台获取需要的弱标注样本数据集；2、对弱标注图像样本数据构造局部邻域结构；3、求解局部邻域结构的样本近邻赋权相似度矩阵；4、在弱监督的情况下对局部邻域结构构造基于系统状态一致性的降噪模型；5、通过基于正则化标签传播方法对降噪模型进行求解，实现对弱标注样本数据集的降噪。本发明通过构造弱标注数据的局部邻域结构，将整个弱标注样本数据集视为系统，从系统一致性的角度提出弱标注数据降噪方法，实现了弱标注数据的降噪，优化了样本数据集的标注质量，且在降噪过程中不需要人工经验或专家进行干预，有效提高了降噪准确率和降低效率。

Description

基于正则化标签传播的弱标注数据降噪方法

技术领域

本发明属于数据去噪领域，尤其涉及一种基于正则化标签传播的弱标注数据降噪方法。

背景技术

在大数据背景下，样本的噪声在现实生活、工业生产和工程应用中都普遍存在，这些噪声来源广泛，包括了传感器的系统测定的偏误和数据加工过程的偏误。噪声数据移除对于学习问题的影响是多方面的。直接移除噪声数据在可用数据规模较大时是可行的策略，尽管如此，一些信息有益的样本也有可能会被忽略，而且独立同分布的假设在数据被移除之后也不再成立。在数据样本容量较小的情况下，噪声数据的移除可能直接导致模式无法学习，造成了数据资源的浪费。

在机器学习领域中，常见的一类工作是使用带标签数据训练神经网络实现分类、回归或其他目的，这种训练模型学习规律的方法一般称之为监督学习。在监督学习中，训练数据所对应的标签质量对于学习效果至关重要。如果学习时使用的标签数据都是错误的，那么不可能训练出有效的预测模型。同时，深度学习使用的神经网络往往结构复杂，为了得到良好的学习效果，对于带标签的训练数据的数量也有较高要求，即常被提到的大数据或海量数据。给数据打标签这个工作在很多场景下需要人工实现，海量、高质量标签本身费时费力，在经济上相对昂贵。因此，实际应用中的机器学习问题必须面对噪音标签的影响，即我们拿到的每一个带标签数据集都要假定其中是包含噪声的。进一步，由于样本量很大，对于每一个带标签数据集，不可能人工逐个检查并校正标签。鉴于标注噪声的存在直接损害了分类器的可靠性与泛化性能。特别地，以众包(Crowdsourcing)为代表的弱标注技术已经成为大规模数据标注的主流方式，所以容易在专家经验和知识缺乏的情况下，产生错误标注数据的情况。为了消除标签噪声对学习器性能潜在的负面影响，近些年形成了噪声标签学习的相关理论，涌现了一系列弱标注数据降噪的方法，所谓弱标注数据降噪是指对训练集中存在噪声标注的数据进行修复的过程。

现有的处理噪声标注数据的方法是基于滤波算法(Filter-based Method)，其核心在于对噪声数据的识别，在学习过程中移除噪声数据，或者修正噪声数据以实现重新标注，然后将标注精炼过的数据集用于学习器的训练，通常比直接在噪声标注数据集上训练得到的模型有更好的泛化能力。一些比较常用的标签噪声识别的算法包括大边距分类器算法，近邻验证算法，委员会投票算法，交叉验证算法和聚类算法。在一些具体任务中，一定的领域知识对于噪声标签数据的识别具有特别效果。在假设误标签样本很可能是支持向量的情况下，Fefilatyev等人利用支持向量机从大规模数据集中检测噪声样本并对这些样本进行修正。其中关于支持向量的是否为噪声样本是通过领域专家进行人工判定和修正的，这种算法以迭代的方式推荐潜在的错误标注的样本，进行修复，直到无法检测到噪声样本为止，所以这是利用主动学习的想法进行检测，可以减少人工干预标签的频率并保持较高的准确性。Nicholson等人设计了两种噪声标签修正的方法，一种是迭代的修正模型，另一种是基于聚类的策略，但是迭代终止条件的制定和聚类簇数目的选择是很难以解决的问题。集成学习的算法在标注去噪任务中也很常见，Brodley等人通过K折交叉验证的方法进行标签的投票，根据投票决议策略，又可分为一致性判别和众数判别，一致性判别即当样本与K个学习器的判别结果都不一致时即认定样本为噪声标注样本，众数判别即当样本与大多数学习器的判别结果(往往超多K/2个学习器)都不一致时即认定样本为噪声标注样本。基于近邻的算法考虑了邻域样本标注信息在标签降噪中的作用，对于每个样本，搜索与之相邻近的K个样本，若该样本与大多数样本的标注都不一致，则将其视为噪声标注的样本，不过，这种降噪的方法在复杂数据或具有复杂决策边界的问题上降噪效果较差。近期效果最好的弱标注数据学习算法是CG Northcutt等人提出的RankPruning算法，这种算法借助了K折交叉验证的思想，可以利用多了逻辑斯蒂回归直接从数据中估计出标注的可信度，不过这种算法通常会丢弃一些置信度较低的样本，并不能实现样本标注的有效修复。

在上述的方法中，往往存在应用场景有限，降噪程度不佳，有的还需要引入专家经验进行判断，存在降噪准确率和降噪效率都不高的缺陷。

发明内容

本发明要解决的技术问题是针对现有降噪方法需要人工经验进行干预，造成降噪准确率和效率较低的问题，提供一种基于正则化标签传播的弱标注数据降噪方法。

为解决上述问题，本发明所采用的技术方案是：

基于正则化标签传播的弱标注数据降噪方法，包括以下步骤：

步骤1：从众包数据平台获取需要的弱标注样本数据集；

步骤2：对弱标注样本数据构造局部邻域结构；

步骤3：求解局部邻域结构的样本近邻赋权相似度矩阵；

步骤4：在弱监督的情况下对局部邻域结构构造基于系统状态一致性的降噪模型；

步骤5：通过基于正则化标签传播方法对降噪模型进行求解，实现对弱标注样本数据集的降噪。

进一步地，所述步骤2构造局部邻域结构的具体方法为：

所述步骤2构造局部邻域结构的具体方法为：

步骤2.1：对弱标注样本数据集中的样本数据x_i进行降维，并将降维后的向量作为样本数据的表示特征

i表示第i个样本，1≤i≤N，N表示所述弱标注样本数据集中样本的总量；

步骤2.2：计算任意两个样本数据降维后的表示特征

的欧式距离d_ij，得到距离矩阵D＝[d_ij]_N*N其中：

步骤2.3：设置近邻样本数目k，通过对近邻模型求解，得到邻接矩阵A。

近邻模型为：

其中：A为邻接矩阵，A＝[a_ij]_N*N，a_ij是0-1变量，表示样本数据i和j是否为k近邻，a_ij＝1时表示样本数据i和j互为k近邻,D＝[d_ij]_N*N是两两图像样本表示特征的距离矩阵，k是每个样本数据的近邻样本数目，N表示所述弱标注样本数据集中样本的总量,tr是计算矩阵A*D^T的迹。

进一步地，所述步骤2.1中对弱标注的样本数据集进行降维的方法为主成分分析法。

进一步地，步骤3中所述样本近邻赋权相似度矩阵的求解方法为：

步骤3.1：计算任意两个样本数据x_i、x_j的相似度为

得到样本相似度矩阵

步骤3.2：利用步骤2.3得到的矩阵A，通过Kronecker积得到基于B-Matching的近邻赋权相似度矩阵K＝A⊙K^～，近邻赋权相似度矩阵K中的元素满足

进一步地，步骤4中所述基于系统状态一致性的降噪模型为：

其中：Y^～为含有因噪声存在而被错误标注的观测标签，Y为真实标签向量，α、β为超参数；

是对称标准化的样本邻域相似度矩阵，D^～为对角矩阵，D^～＝diag(d_ii)_N*N，对角元素

进一步地，步骤5所述基于正则化标签传播方法进行降噪处理的方法为：

步骤5.1：使用迭代模型(1)对步骤1中所获取的弱标注样本数据集中的原始标签Y⁽⁰⁾进行迭代，

其中Y^(t)是样本松弛后的软标签，所述松弛是指将标号为{-1，+1}的标签区域放宽到连续区间(-∞,∞),即

每个样本

在迭代过程中的标签为软标签，取值范围在(-∞,∞)，超参数α，α∈(0,1]，α是对结构一致性信息诱导的标签信息和原始标签信息的权衡，α越大对应于传播的结果更倾向于与原始标签情况保持越多的一致性，超参数β，β∈(0,1]，是正则化因子，即要求传播过程中图像样本的软标签在取值上不宜过大，总样本软标签取值集中于[-1,1]区间中，方差不宜过大；

步骤5.2当||Y^(t)-Y^(t+1)||₂小于设定值时，终止迭代，得到最终的松弛解标签Y^(t)，

步骤5.3将最后一次迭代的样本软标签Y^(t)通过指示函数ind_map映射为{-1,+1}，即对于样本i

得到最终的降噪后的标签集

与现有技术相比，本发明所取得的有益效果是：

本发明与别的以单个样本及对应的邻域结构作为弱标注修复的依据不同，通过构造弱标注数据的局部邻域结构，将整个弱标注样本数据集视为系统，从系统一致性的角度提出弱标注数据降噪方法，利用了采样的所有样本和对应的所有邻域结构信息作为支持，给出系统状态一致性降噪模型，当样本标签遭遇噪声污染时，对应的系统能量较高，系统处于不稳定的状态，当系统能量最低时，系统处于稳定的状态，此时系统样本标签遭遇的噪声污染最小，即认为弱标注的样本集被噪声污染的错误标签修复的最好，从而实现图像弱标注数据的降噪，优化图像数据集的标注质量，且在降噪过程中不需要人工经验或专家进行干预，有效提高了降噪准确率和降噪效率。

附图说明

附图1为本发明系统流程图。

具体实施方式

下面通过一个实施例说明使用基于正则化标签传播的弱标注数据降噪方法进行降噪。如附图1所示，

步骤1：从众包数据平台获取需要的弱标注样本数据集；

对于大规模数据标注，往往是通过以亚马逊为代表的众包平台(AmazonMechanical Turk)在互联网上进行数据的分发，通过网络员工进行标注，然后融合多个标注结果给出大规模数据集的最终标注。尽管这种标注方式很好地利用了群体智慧和互联网闲余资源，但是不同的员工的专业领域不同、专家经验缺乏，造成了存在一定比例的数据的错误标注。通过这种非依赖领域专家经验的众包方法可以获取大规模弱标注的数据样本。虽然弱标注数据广泛存在于人工智能的应用中，但是很难通过人工的方式获取并给出真实标注信息的数据集。因此，本实施例中以美国邮政手写数字数据集USPS为例，开展相关的实验。特别地，分别从USPS图像数据集中随机采样400个标签为1和400个标签为7的样本构成实验数据，以噪声率对[ρ₀,ρ₁]对这些数据的真实标签进行污染，例如USPS1-7在噪声率对儿[0.1,0.3]的情景下，10％的标签为1的图片被随机误标注为7，30％的标签为7的图片被随机误标注为1。以这种人工引入标注噪声的方式得到USPS1-7弱标注数据

其中-1对应于图像标注为1的数据集，-1对应于标注为7的数据集，x_i是图形样本i的原始向量特征表示，

为弱标注对应的标签，所谓弱标注对应的标签是指该标签有可能标注正确了，也有可能因噪声污染被标注成错误的标签，并开展相关效果的验证。

步骤2：对弱标注图像样本数据构造局部邻域结构；

在USPS1-7弱标注数据集上，

，i表示第i个样本，1≤i≤N，N表示所述弱标注样本数据集中样本的总量；

本实施例中，通过主成分分析法PCA(principle component analysis)将弱标注的图像样本数据{x_i|i＝1,2,..800}从256维度降低至86维度，并将降维后的向量作为图像样本数据的表示特征

步骤2.2：计算任意两个样本表示特征x_i、x_j的欧式距离d_ij得到距离矩阵D＝[d_ij]_N*N其中：

步骤2.3：设置近邻数目k，通过对B-Matching模型求解，得到邻接矩阵A。

B-Matching近邻模型为：

本实施例中，设置近邻样本数目k＝10，使用CVXPY工具包求解B-Mtching近邻模型，给出邻接矩阵A作为解。B-Matching近邻模型是通过文献“T.Jebara,J.Wang,and S.-F.Chang,"Graph construction and b-matching for semi-supervised learning."pp.441-448”得到的。

步骤3：求解局部邻域结构的样本近邻赋权相似度矩阵。

步骤3.1：计算任意两个样本数据x_i、x_j的相似度为

得到样本相似度矩阵K^～；

在物理学的伊辛Ising模型中，用哈密顿量描述系统的自旋一致性。本发明中用哈密顿量(Hamiltonian)描述系统中的邻域标注信息的一致性。考虑标签集

的二元情况，样本之间的成对一致性可以用潜在真实标签y_i*y_j的乘法来表征。基于此，给出具有正则项的哈密顿量并表述为：

其中，Y^～为含有因噪声存在而被错误标注的观测标签向量，Y为真实标签向量，α、β为超参数；K为样本相似度矩阵。

对公式(3)，我们引入正则项Y的L2范数，并对图拉普拉斯算子(Graph Laplacian)矩阵D-K进行行列变换，得到对称标准化的拉普拉斯(Normalized Symmetric GraphLaplacian)矩阵I-K_sym。

其中

是对称标准化的样本邻域相似度矩阵。

在Ising模型中，认为当系统处于平衡状态时，会发现最小能量的构型。因此，本实施例中，通过求解最小哈密顿能量模型，使系统处于平衡状态，也就最大化地保留了样本数据之间的成对一致性，此时系统样本标签遭遇的噪声污染最小，即认为弱标注的样本集被噪声污染的错误标签修复的最好，因此基于系统状态一致性的降噪模型为：

其中，Y^～为含有因噪声存在而被错误标注的观测标签，Y为真实标签向量，α、β为超参数；

表示一种对称标准化的样本邻域相似度矩阵，D^～为对角矩阵，D^～＝diag(d_ii)_N*N，对角元素

步骤5.1：使用迭代模型1对原始的弱标注图像数据的标签Y⁽⁰⁾进行迭代，

Y^(t)是样本松弛后的软标签，所述松弛是指将标号为{-1，+1}的标签区域放宽到连续区间[-∞,∞],即

每个样本标签

在迭代过程中的标签为软标签，取值范围在(-∞,∞)，超参数α，α∈(0,1]，α是对结构一致性信息诱导的标签信息和原始标签信息的权衡，α越大对应于传播的结果更倾向于与原始标签情况保持越多的一致性，超参数β，β∈(0,1]，是正则化因子，即要求传播过程中图像样本的软标签在取值上不宜过大，总样本软标签取值集中于[-1,1]区间中，方差不宜过大。

本实施例中，取超参数α＝0.01,β＝0.01，通过公式(2)完成弱标注图像数据集的标注降噪任务。对于新提出的正则化标签传播方法，初始的迭代值Y⁽⁰⁾即是原始的弱标注图像数据的标签，本实施例中，部分噪声污染的原始标签

本实施例中，原始标签是指按照不同的噪声率对[ρ₀,ρ₁]污染得到的样本标签，这些标签存在一定的噪声。尽管标签是弱监督产生的，存在一定噪声，但大多数标签信息依然是真实可靠的。

步骤5.2：当||Y^(t)-Y^(t+1)||₂小于设定值时，终止迭代，得到最终的松弛解标签Y^(t)。

本实施例中，设定值取为0.001，即当||Y^(t)-Y^(t+1)||₂＜0.001时，终止迭代，得到最终的松弛解标签Y^(t)。

步骤5.3：将最后一次迭代的样本软标签Y^(t)通过指示函数ind_map映射为{-1,+1}，即对于样本i

得到最终的降噪后的标签集

通过使用步骤5中基于正则化传播方法对步骤4中的降噪模型进行求解，得到的是具有最小哈密尔顿量的系统能量模型，系统处于稳定的状态，也就是对所获取的弱标注图像样本数据集而言，样本数据集中样本数据之间的成对一致性最好，此时系统样本标签遭遇的噪声污染最小，即认为弱标注的样本集被噪声污染的错误标签修复的最好，从而实现图像弱标注数据的降噪，优化图像数据集的标注质量，且在降噪过程中不需要人工经验或专家进行干预，有效提高了降噪准确率和降噪效率。本发明不同于以往的以单个样本及对应的邻域结构作为弱标注修复的依据，而是从系统的角度，利用了采样的所有样本和对应的所有邻域结构信息作为支持，通过求取最小汉密尔顿量的计算目标，从系统优化的角度设计正则化标签传播算法，实现数据标注的降噪。

本发明与目前的比较优异的标注降噪算法Rank Pruning(RP)算法,Nat13算法、Elk08算法和KNN算法对比，相应的对比算法的运行依赖Rank Pruning算法包，采用默认参数，其中KNN采用sklearn中的默认参数，以弱标注数据为训练样本，然后在同样的弱标注数据上进行预测，将预测结果作为降噪后的标注结果。表1给出了使用本发明中的方法和其他降噪方法的比较结果，可以发现，本发明在原始标注准确率的基础上，对错误标签的修复率很高，其降噪准确性明显提高了很多，同时也优于其他方法。

表1.在数据集USPS1-7上的降噪准确率.其中标签为1和7的图象数据各随机抽取400个样本，所有的结果都是独立十次重复实验的平均值，括号里为方差