CN115758223A

CN115758223A - 一种智能数据噪声筛选方法

Info

Publication number: CN115758223A
Application number: CN202211545535.8A
Authority: CN
Inventors: 王进; 陆志; 廖唯皓; 彭云曦; 刘彬; 杜雨露; 朴昌浩
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Qianyi Hesheng Beijing Technology Co ltd; Yami Technology Guangzhou Co ltd
Priority date: 2022-12-05
Filing date: 2022-12-05
Publication date: 2023-03-07
Anticipated expiration: 2042-12-05
Also published as: CN115758223B

Abstract

本发明属于自然语言处理技术领域，具体涉及一种智能数据噪声筛选方法，包括：获取多标记数据，构建真实标记矩阵和含噪标记矩阵；通过真实标记矩阵和含噪标记矩阵构建噪声筛选模型；训练模型，并控制模型复杂度；对模型进行优化，并求解模型的参数，并更新参数得到最优参数，固定最优参数得到最优的噪声筛选模型；将待筛选数据输入最优的噪声筛选模型，得到真实标记数据。本发明利用含噪标记矩阵构建一个多标记分类器和噪声标记检测器，一方面减少冗余标记噪声对模型准确率的负面影响并生成具有区分性的特征信息，另一方面通过减少标记维度来提高模型的训练和预测效率，训练后的偏多标记学习模型对特征噪声和冗余标记噪声都具有更强的鲁棒性。

Description

一种智能数据噪声筛选方法

技术领域

本发明属于自然语言处理技术领域，具体涉及一种智能数据噪声筛选方法。

背景技术

近年来由于互联网技术的迅速发展以及智能手机、数码相机等电子产品普及，催生了一系列社群应用比如微信、微博、抖音等，这些应用的兴起使得人们在日常生产生活中无时无刻不在产生大量的数据，又在不知不觉中快速的传播分享数据，短时间内互联网中的数据量呈现指数爆炸式增长。如何更好利用人们产生的海量数据为人们生活带来更多的便利成为了一个重要且亟待解决的问题。

在偏多标记学习框架中，模型的训练数据集没有被精确标注的，每个示例对应一组候选标记集，候选标记集中有全部相关标记和部分不相关标记，相关标记数量未知但至少有一个。这种利用不完整的监督信息进行训练，得到一个能够预测示例准确的相关标记集合的弱监督学习框架，在当前大量训练集没有被精确标注的情况下相比于传统的多标记学习具有更好的预测能力，因此有着很大的实际研究意义。

现有的偏多标记学习算法不论是基于统一框架的策略还是基于两阶段的策略，在整个算法进行训练过程中都只考虑到了噪声标记的影响，都只是针对消除标记矩阵中噪声影响进行的一系列研究，但是由于一些原因导致数据的特征也有可能存在噪声，会使得提取出来的特征中含有不符合实例内容的部分。如果直接使用没有考虑特征噪声的偏多标记学习算法训练，模型预测的结果肯定会不可避免的降低。

发明内容

为解决上述技术问题，本发明提出一种智能数据噪声筛选方法，包括：

S1：通过数据库获取含真实标记何噪声标记的多标记数据，并构建真实标记矩阵和含噪标记矩阵；

S2：通过真实标记矩阵构建分类器，通过含噪标记矩阵构建噪声检测器，将分类器和噪声标记检测器组合，得到噪声筛选模型；

S3：利用最小平方损失函数训练模型，并使用弗罗贝尼乌斯范数来控制模型复杂度；

S4：利用低秩约束和稀疏约束凸上界迹范数对控制复杂度后的模型进行优化，并求解模型的参数，并更新参数得到最优参数，固定最优参数得到最优的噪声筛选模型；

S5：将待筛选数据输入最优的噪声筛选模型，计算数据的标记置信度，根据标记置信度进行排序选出置信度最高的数据，得到真实标记数据。

优选的，通过真实标记矩阵构建分类器，通过含噪标记矩阵构建噪声检测器，包括：

构建分类器：

Y_g≈WX

受制于rank(W)≤∈

其中，Y_g表示真实标记矩阵；W表示多标记分类器；X表示特征矩阵；rank()表示对多标记分类器引入低质假设来捕获标记相关性；∈表示第一权衡参数；

构建噪声检测器：

Y_n≈SX

受制于card(S)≤σ

其中，Y_n表示噪声标记矩阵，S表示噪声标记检测器；X表示特征矩阵，card()表示对噪声标记检测器引入特征诱导来筛选噪声标记，σ表示第二权衡参数。

优选的，将分类器和噪声标记检测器组合，得到噪声筛选模型，包括：

受制于H＝W+S

rank(W)≤∈

card(S)≤σ

其中，H表示噪声筛选模型；

表示损失函数；λ表示第三权衡参数；R表示用来控制模型的正则项；X表示特征矩阵；Y表示含噪标记矩阵；W表示多标记分类器；S表示噪声标记检测器；card()表示对噪声标记检测器引入特征诱导来筛选噪声标记；σ表示第二权衡参数，rank()表示对多标记分类器引入低质假设来捕获标记相关性；∈表示第一权衡参数。

优选的，所述最小平方损失函数，包括：

其中，L表示最小平方损失函数；Y表示模型训练目标值；f(x)表示模型训练估计值；n表示模型训练轮数。

优选的，利用最小平方损失函数训练模型，并使用弗罗贝尼乌斯范数来控制模型复杂度，包括：

受制于H＝W+S

rank(W)≤∈

card(S)≤σ

其中，H表示噪声筛选模型；Y表示含噪标记矩阵；X表示特征矩阵；W表示多标记分类器；S表示噪声标记检测器；card()表示对噪声标记检测器引入特征诱导来筛选噪声标记；σ表示第二权衡参数；rank()表示对多标记分类器引入低质假设来捕获标记相关性；∈表示第一权衡参数；

表示Frobenius范数来控制模型复杂度；λ表示表示第五权衡参数。

优选的，所述S4具体包括：

S41：利用低秩约束和稀疏约束凸上界迹范数进行模型优化，得到优化后的噪声筛选模型，包括：

受制于H＝W+S

其中，H表示噪声筛选模型；Y表示含噪标记矩阵；X表示特征矩阵；W表示多标记分类器；S表示噪声标记检测器；β表示第三权衡参数；γ表示第四权衡参数；

表示Frobenius范数控制模型复杂度；λ表示第五权衡参数；‖‖_tr表示迹范数；‖‖_l表示l1范数；

S42：使用增强拉格朗日乘子提取优化后的噪声筛选模型的损失函数，包括：

其中，H表示噪声筛选模型；Y表示含噪标记矩阵；X表示特征矩阵；W表示多标记分类器；S表示噪声标记检测器；A表示拉格朗日乘子矩阵；β表示第三权衡参数；γ表示第四权衡参数；

表示Frobenius范数控制模型复杂度；λ表示第五权衡参数；‖‖_tr表示迹范数；‖‖_l表示l1范数；μ表示惩罚参数；

S43：求解模型的参数，并更新参数，得到最优参数，包括：

固定变量W和S，求解变量H：

其中，H表示噪声筛选模型；A表示拉格朗日乘子矩阵；Y表示含噪标记矩阵；X表示特征矩阵；W表示多标记分类器；S表示噪声标记检测器；β表示第三权衡参数；γ表示第四权衡参数；

表示Frobenius范数控制模型复杂度；λ表示第五权衡参数；μ表示惩罚参数。

固定变量H，求解变量W和S：

其中，H表示噪声筛选模型；A表示拉格朗日乘子矩阵；Y表示含噪标记矩阵；X表示特征矩阵；W表示多标记分类器；S表示噪声标记检测器；β表示第三权衡参数；‖‖_tr表示迹范数；γ表示第四权衡参数；‖‖_l表示l1范数；

表示Frobenius范数控制模型复杂度；μ表示惩罚参数；

更新参数：

其中，W_k+1表示多标记分类器W第k+1轮的结果；S_k+1表示噪声标记检测器S在第k+1轮的结果；S_k表示噪声标记检测器S在第k轮的结果；

表示奇异值阈值算子；H_k表示噪声筛选模型H在第k轮的结果；A_k表示拉格朗日乘子矩阵A在第k轮的结果；μ_k表示惩罚参数μ在第k轮的结果；β表示第三权衡参数；γ表示第四权衡参数；

根据最优参数更新噪声筛选模型的损失函数的拉格朗日算子矩阵和惩罚参数，包括：

A_k+1＝A_k+μ(H_k+1-W_k+1-S_k+1)

μ_k+1＝min(μ_max,ρμ_k)

其中，A_k+1表示拉格朗日乘子矩阵A在第k+1轮的结果；μ_k+1表示惩罚参数μ在第k+1轮的结果；A_k表示表示拉格朗日乘子矩阵A在第k轮的结果；S_k+1表示噪声标记检测器S在第k+1轮的结果；W_k+1表示多标记分类器W在第k+1轮的结果；μ_max表示惩罚参数μ的上界值；ρ表示更新参数。

优选的，计算数据的标记置信度，包括：

Y^*＝A_k+1μ_k+1(W^*S^*)

其中，Y^*表示数据的标记置信度，A_k+1表示拉格朗日乘子矩阵A在第k+1轮的结果；μ_k+1表示惩罚参数μ在第k+1轮的结果；W^*表示更新多标记分类器W得到的最优值；S^*表示更新噪声标记检测器S得到的最优值。

本发明的有益效果：本发明基于噪声标记检测，同时复原相关标记的标记信息同时对噪声标记进行检测；一方面，通过对多标记分类器施加低秩约束来捕捉标签之间的相关性；另一方面，通过对噪声标记检测器施加稀疏约束来对特征表示诱导的噪声标记进行建模；利用概率传播的思想，利用相关标记的标记的特征信息与噪声标记之间存在线性相关性，过滤掉特征信息与噪声标记之间的错误信息，以改善概率传播的中的可信度。

附图说明

图1为本发明实施例一提供的一种智能数据噪声筛选方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种智能数据噪声筛选方法，如图1所示，包括：

构建分类器：

Y_g≈WX

受制于rank(W)≤∈

构建噪声检测器：

Y_n≈SX

受制于card(S)≤σ

受制于H＝W+S

rank(W)≤∈

card(S)≤σ

其中，H表示噪声筛选模型；

优选的，所述最小平方损失函数，包括：

其中，L表示最小平方损失函数，Y-f(x)表示残差，整个公式表示残差的平方和；Y表示模型训练目标值；f(x)表示模型训练估计值；n表示模型训练轮数。

受制于H＝W+S

rank(W)≤∈

card(S)≤σ

优选的，所述S4具体包括：

受制于H＝W+S

表示Frobenius范数控制模型复杂度；λ表示第五权衡参数；‖‖_tr表示迹范数；‖‖_l表示l1范数；μ表示惩罚参数。

S43：求解模型的参数，并更新参数，得到最优参数，包括：

固定变量W和S，求解变量H：

则该问题有闭式解：

H_k+1＝(YX^T+μW_k+μS_k+A)(XX^T+λI+μI)^-1

其中，H_k+1表示联合学习模型H在第k+1轮的结果；I是单位矩阵；W_k表示多标记分类器W第k轮的结果；S_k表示噪声标记检测器S在第k轮的结果；λ表示第五权衡参数；μ表示惩罚参数；Y表示含噪标记矩阵；A∈

表示拉格朗日乘子矩阵；X表示特征矩阵；

固定变量H，求解变量W和S：

表示Frobenius范数控制模型复杂度；μ表示惩罚参数；

更新参数：

A_k+1＝A_k+μ(H_k+1-W_k+1-S_k+1)

μ_k+1＝min(μ_max,ρμ_k)

优选的，计算数据的标记置信度，包括：

Y^*＝A_k+1μ_k+1(W^*S^*)

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。