CN110717602B

CN110717602B - 一种基于噪音数据的机器学习模型鲁棒性评估方法

Info

Publication number: CN110717602B
Application number: CN201910952057.4A
Authority: CN
Inventors: 房春荣; 龚爱; 王栋; 陈振宇; 李玉莹
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2019-09-29
Filing date: 2019-09-29
Publication date: 2023-08-29
Anticipated expiration: 2039-09-29
Also published as: CN110717602A

Abstract

本发明提供的是一种基于噪音数据的机器学习模型鲁棒性评估方法，包括原始数据集处理、噪音数据获取、模型训练、模型预测、准确率下降比计算和模型鲁棒性评估。原始数据集处理包括收集百分百标签正确的原始数据集，并采用10次10‑折交叉验证划分原始训练集和原始测试集。噪音数据获取包括在原始训练集的基础上，采用分层抽样方法抽取t′＝|D|·α个数据，并将其标签替换为错误标签，其中α为噪音数据率。模型训练包括基于常见分类算法，并分别输入原始训练集和混有噪音数据的训练集分别构建原始模型和新模型。模型预测包括基于原始测试集，对这原始模型和新模型分别进行准确度评估。准确率下降比计算包括计算新模型较原始模型而言准确率下降的比率。模型鲁棒性评估包括横纵向比较准确率下降的比率的大小，衡量模型鲁棒性强弱，实现了判断模型健壮性的标准。

Description

一种基于噪音数据的机器学习模型鲁棒性评估方法

技术领域

本发明属于机器学习应用领域，特别是涉及到对模型鲁棒性评估。我们通过衡量噪音数据对模型的影响大小，评估了模型的鲁棒性。

背景技术

机器学习是人工智能研究的重要分支，通过组织和拟合参数，进行学习特征的表示。因其较高的泛化能力和效率，被越来越广泛的应用在学术界和工业界。按其学习形式可分为：监督学习，无监督学习和半监督学习。其中，监督学习是机器学习的重要方面，它是已知数据和其对应的标签，训练一个智能算法，将输入数据映射到标签的过程。监督学习问题的数据由输入X和输出标签Y构成，然而有很多输出标签Y是错的。对于标记错误的数据，可能存在于训练集、开发集或者测试集上。

机器学习模型对于训练数据是敏感的，相同结构模型由于训练数据的不同在结果上会存在一定的误差。训练集(training set)误差的主要原因包括做标记的人不小心错误，或按错分类键等随机误差，又或者是做标记的人理解错误导致一直分错类别这样的系统误差。其中，如果是系统误差，则模型无法识别；如果是随机误差，则模型有可能不会因为这些随机误差有很大的变化。变化的大小衡量了模型鲁棒性的强弱，变化越小，则模型的鲁棒性越强。与训练集相比，模型受验证集(validation set)或测试集(testing set)中标记出错的数据影响更大，当分类器的输出和开发集的标签不一致时，有时是因为标签错误，而不是分类器错。如果这些标记错误，严重影响了在开发集上评估算法的能力，而修正错误的标签要花费较高的成本。在实践应用中，多数人只会关注保证验证集和测试集中的标签的准确性，而忽略训练集中的标签。原因主要是验证集和测试集通常比训练集小得多，成本较低；同时，由于模型的具有一定的泛化能力，训练集中存在少量的错误标签对模型的影响相对较小。

由此可见，模型的鲁棒性是衡量一个模型优劣的重要评价指标。目前流行的模型评价指标如精确度、召回率、准确度等多数关注于对正确数据的预测能力，然而在实际应用中，标记错误的数据(噪音数据)是普遍而不可避免的，高质量的模型应该能泛化这种随机误差，并不受异常数据的影响。因此，本文提出了一种基于噪音数据衡量模型鲁棒性的方法，通过引入噪音数据来评估模型的泛化能力，更加全面的对模型做出评价。

发明内容

数据科学社区Kaggle的最新调查显示，机器学习和数据科学研究者在被问到工作中面临的最大障碍时，最常见的回答是“噪音数据”。作为基于大量数据训练的机器学习，对数据质量的要求极高。现代的人工智能系统一般都是通过大量的样本的特征来学习的，属于上述的监督学习，以分类场景为例，即提取样本的特征信息，并给定对应的标签，通过具体的机器学习算法来学习对应输入特征和输出标签的映射关系。如果数据存在错误的标签标记时，系统将会误将对应特征的图片识别为错误输入。当噪音数据在训练集中的比重小于一定阈值时，若模型的鲁棒性足够高，其会忽略这些“异常”(标签错误)的点，依旧拟合于“正常”(标签正确)的点。但当噪音数据的比重大于一定阈值时，模型将会“颠倒黑白”，输出错误预测结果。

实际应用中，噪音数据是不可避免的，这就要求我们的模型具有强健的鲁棒性。其中，评价模型的常见指标如精度、召回率、准确度等都是衡量模型预测性能的基准，而衡量模型对训练数据质量容忍程度的指标却没有被定义过。因此本文通过在训练集中引入噪音数据来衡量模型的鲁棒性，以构建更健壮的模型。

本发明的技术方案为：一种基于噪音数据进行模型鲁棒性评估的方法，其特征是在训练集中引入标签错误的数据，基于准确率较低的训练集训练出新模型，记录新模型较原始模型准确度下降的百分比，衡量模型的鲁棒性。鲁棒性的评估步骤如下：

1.对原始数据集进行建模，得到原始模型的准确度。

(1)原始数据集处理：原始数据为百分百正确标签的数据集D＝{d₁，d₂，...d_d}，其中，划分出的训练集D_t和测试集D_1-t的比例为t∶1-t。

(2)模型训练：将原始训练集代入N个不同的监督学习算法，我们训练出N个不同的预测模型m₁，m₂，m₃...，m_n。

(3)模型预测：基于原始测试集，我们对这N个模型进行准确度评估，得到相应的N个准确率a₁，a₂，a₃，...a_n。

2.对混有噪音数据的训练集合进行建模，得到新模型的准确度。

(1)噪音数据获取：在原始训练集D_t的基础上，我们随机抽取个t′条数据元祖，将其标签换成错误标签，在训练集中引入噪音数据。其中t′＝|D|·α，α我们称之为噪音数据率。原始测试集不变。

(2)模型训练：将混有噪音数据的训练集代入N个原始的监督学习算法，我们训练出N个新的的预测模型m′₁，m′₂，m′₃，...m′_n。

(3)模型预测：基于原始测试集，我们对这N个新模型进行准确度评估，得到相应的N个准确率a′₁，a′₂，a′₃，...a′_n。

3.计算新模型较原始模型而言准确率下降的比率，衡量模型健壮性强弱。

(1)准确率下降比：定义指标为其中Δa_i表示第i个模型结构的准确率下降比。下降比越小代表模型的鲁棒性越强。

(2)评估模型鲁棒性：当噪音数据率α固定时，横向比较不同模型的鲁棒性强度；当某种模型固定时，纵向比较该模型结构在鲁棒性较强的情况下，所能承受的噪音数据率。

进一步，原始数据集处理具体是对训练集和测试集的构造。原始数据集需确保数据标签全部正确，接着采用10次10-折交叉验证法，将数据集D划分为10个子集，其中训练集占9个子集，测试集占1个子集。随机使用不同的划分重复10次，最终的准确度评估结果是这10次10折交叉验证结果的均值。

进一步，噪音数据集处理具体是获取混有噪音数据的训练集。在原始训练集的基础上，我们将抽取t′＝|D|·α个数据，并将其标签替换为错误标签。其中抽样方法采用的是分层抽样法，即，按α比例从不同的类别层中随机抽取样本数据。原始测试集不变，依旧保持数据标签的百分百正确。此外，我们需要保证的是抽取过后的训练集依旧保证保持类平衡要求。

进一步，模型训练中涉及的机器学习方法均为常见分类算法，包括支持向量机，朴素贝叶斯，决策树，K-最近邻，逻辑回归，随机森林以及多层感知器。整个模块包括两大部分。第一部分为基于以上算法，输入原始训练集，分别构建6个原始模型；第二部分为基于以上算法，输入混有噪音数据的训练集，分别构造6个新的模型。

进一步，模型预测中涉及的测试集均为原始测试集，即，百分百标签正确的数据。将这些数据分别输入原始模型和新模型，记录对应的准确度。

进一步，准确率下降比是针对每个模型结构i所对应的原始模型和新模型而言的。假设此时的噪音数据率为α，新模型m′_i的准确度为a′_i，原始模型m_i的准确度为a_i。定义准确率下降比Δa_i为：

由于很多不可控的复杂因素，使得少数模型的a′_i-a_i＜0，即，训练集数据的噪音数据越多，模型准确度越高。在本文中，这种情况暂且不考虑。

进一步，评估模型鲁棒性有两种方式。第一种方式是固定噪音数据率α，横向比较不同模型的准确率下降比，其越小代表模型鲁棒性越强；第二种方式是固定某种模型，纵向比较在不同噪音数据率下，某种模型结构的准确率下降比的变化，找出该模型结构的噪音数据率α在什么区域中，所能维持较高的鲁棒性。

本发明的特点在于：

1.首次引入噪音数据的概念来衡量模型的鲁棒性；

2.将机器学习算法作为鲁棒性分析的模型基准；

3.为模型的鲁棒性定义了一个全新的评价指标。

在训练集中引入噪音数据，使用机器学习算法对其进行建模，利用准确率下降比可衡量模型的鲁棒性。基于以上三点，本发明可以对模型的鲁棒性提供良好的判断标准。为研究者生成模型泛化能力的信息，使得研究者对模型的认知更全面完善。

附图说明

图1为本发明实施流程图

图2为机器学习模型的准确率折线图，其中横坐标为训练集中的噪音数据率，纵坐标为机器学模型的准确度

图3为机器学习模型的准确率下降比柱状图，其中横坐标为训练集中的噪音数据率，纵坐标为机器学习模型的准确率下降比

具体实施方式

以下通过特定的具体的实例说明本发明的实施方式，本领域的技术人员可由本说明书揭露的内容轻易地了解到本发明的其他优点和功效。

如图1所示，本实施例中的基于噪音数据对模型鲁棒性评估的方法，主要包括：

1.对原始数据集进行建模，得到模型的准确度。其中，原始数据为百分百正确标签的数据集，划分训练集和测试集的方法为10次10-折交叉验证。将原始训练集代入N个不同的监督学习算法，我们训练出N个不同的预测模型。基于原始测试集，我们对这N个模型进行准确度评估，得到相应的N个准确率。

2.对噪音数据进行建模，得到新模型的准确度。其中，在原始训练集的基础上，我们随机抽取个t′条数据元祖，将其标签换成错误标签，构成混有噪音数据的训练集。原始测试集不变。将混有噪音数据的训练集代入N个原始的监督学习算法，我们训练出N个新的的预测模型。基于原始测试集，我们对这N个新模型进行准确度评估，得到相应的N个准确率。

在本实施例中，我们首先收集百分百标签正确的原始数据集，并采用10次10-折交叉验证方法划分原始训练集和原始测试集，将原始数据集D划分为10个子集，其中训练集占9个子集，测试集占1个子集。随机使用不同的划分重复10次，最终的准确度评估结果是这10次10折交叉验证结果的均值。

在本实施例中，对混有噪音数据的训练集的构建是在原始训练集的基础上，抽取t′＝|D|·α个数据，并将其标签替换为错误标签。其中α为噪音数据率，抽样方法采用的是分层抽样法，即，按α比例从不同的类别层中随机抽取样本数据。原始测试集不变，依旧保持数据标签的百分百正确。此外，我们需要保证的是抽取过后的训练集依旧保证保持类平衡要求。

在本实施例中，模型构建中涉及的机器学习方法均为常见分类算法，包括支持向量机，朴素贝叶斯，决策树，K-最近邻，逻辑回归，随机森林以及多层感知器。整个模块包括两大部分。第一部分为基于以上算法，输入原始训练集，分别构建6个原始模型，；第二部分为基于以上算法，输入混有噪音数据的训练集，分别构造6个新的模型。

在本实施例中，模型预测中涉及的测试集均为原始测试集，即，百分百标签正确的数据。将这些数据分别输入原始模型和新模型，记录对应的准确度。其中具体步骤与模型训练过程一致，这里不再赘述。

在本实例中，准确率下降比是针对每个模型结构i所对应的原始模型和新模型而言的。假设此时的噪音数据率为α，新模型m′_i的准确度为a′_i，原始模型m_i的准确度为a_i。定义准确率下降比Δa_i为：

其中，存在少数模型的a′_i-a_i＜0，即，训练集数据的噪音数据越多，模型准确度越高。在本文中，这种情况暂且不考虑。

在本实施例中，评估模型鲁棒性有以下两种方式：

1)固定噪音数据率α，横向比较不同模型的准确率下降比，其越小代表模型鲁棒性越强；

2)固定某种模型结构，纵向比较在不同噪音数据率下，某种模型结构的准确率下降比的变化，找出该模型结构的噪音数据率α在什么区域中，所能维持较高的鲁棒性。

综上所述，本发明用于填补了针对模型结构鲁棒性评估技术的空白，为模型的鲁棒性定义了一个全新的评价指标。

Claims

1.一种基于噪音数据的机器学习模型鲁棒性评估方法，其特征在于，所述方法包含以下步骤：

步骤1：对原始数据集D进行划分得到原始训练集D_t和原始测试集D_1-t；

步骤2：将所述原始训练集代入N个不同的监督学习算法，训练出N个不同的原始模型；基于所述原始测试集，对所述N个不同的原始模型进行准确性评估，得到原始准确率；

步骤3：在所述原始训练集中引入噪音数据得到混有噪音数据的训练集，将所述混有噪音数据的训练集代入N个不同的监督学习算法，训练出N个不同的新模型；基于所述原始测试集，对所述N个不同的新模型进行准确性评估，得到新准确率；

步骤4：计算所述新模型较原始模型的准确率下降比，基于所述准确率下降比评估所述模型的鲁棒性。

2.根据权利要求1所述的基于噪音数据的机器学习模型鲁棒性评估方法，其特征在于：在步骤3中，基于分层抽样法构造混有噪音数据的训练集，具体为：在原始训练集D_t的基础上，按α比例从不同的类别层中随机抽取样本数据，获得t′＝|D_t|·α个数据，并将其标签替换为错误标签。

3.根据权利要求1所述的基于噪音数据的机器学习模型鲁棒性评估方法，其特征在于：在步骤4中，所述准确率下降比计算公式为：

其中，a′_i为新模型m′_i的准确率，a_i为原始模型m_i的准确率。