CN111651433A

CN111651433A - 一种样本数据清洗方法及系统

Info

Publication number: CN111651433A
Application number: CN201910239561.XA
Authority: CN
Inventors: 熊杰成
Original assignee: Shanghai Re Sr Information Technology Co ltd
Current assignee: Shanghai Re Sr Information Technology Co ltd
Priority date: 2019-03-27
Filing date: 2019-03-27
Publication date: 2020-09-11
Anticipated expiration: 2039-03-27
Also published as: CN111651433B

Abstract

本发明涉及数据处理领域，公开了一种样本数据清洗方法，所述方法包括：根据神经网络模型，获取测试图片集中的每一张测试图片的多维测试特征向量；获取选取的k张典型图片中的多维参考特征向量；根据K最近邻算法、所述多维测试特征向量和多维参考特征向量，生成正样本测试图片集和负样本测试图片集，并训练得到细粒度二分类器；根据所述细粒度二分类器对待清洗图片数据进行类别预测，获取每一张待清洗图片数据的类别预测的置信度；根据一预设的置信度区间及所述每一张待清洗图片数据的类别预测的置信度，进行样本数据清洗。本发明还公开了一种样本数据清洗系统。根据本发明可以得到改进的正样本测试图片集和样本图片集，提高原始图像数据的准确率。

Description

一种样本数据清洗方法及系统

技术领域

本发明涉及数据处理领域，尤其涉及一种样本数据清洗方法及系统。

背景技术

随着深度学习技术在图像识别领域中取得的突破性进展，目前神经网络已经成为主流的图像识别领域的应用算法。神经网络模型算法的优点在于训练模型时不需要使用任何人工标注的特征,可以自动探索输入变量所隐含的特征，同时网络的权值共享特性，大大降低了模型的复杂度，减少了权值的数量。这些优点在网络的输入是图像时表现的尤为明显，原始图像可以直接作为网络的输入，避免了传统识别算法中复杂的特征提取和数据重建过程。

但是神经网络是一种监督学习算法，需要海量的带有准确标签的图片数据训练才能得到很好的识别准确率。为获取训练神经网络模型所需的大量图像样本数据，最便捷的方式是通过网络获取，采用网络爬虫的方法，网络爬虫能够按照设定的条件将符合该条件的信息从互联网的海量信息中抓取出来，然后进行人工筛选和清洗，带来的问题是，工作量异常巨大，筛选结果主观性较大，筛选结果容易出错，同时，采用错误的图像样本数据集堆神经网络进行训练，会带来错误的分类结果。因此，海量图片数据的清洗成为制约神经网络技术发展的瓶颈性问题。专利申请号为2018107215159一种清洗数据的方法及装置，在数据清洗的过程中，先挑出待清洗数据中大概率确定为正确的数据和错误的数据，中间有一些比较难以确认的数据再进行筛选，再挑选出正样本和负样本。

因此，本发明提出一种自动清洗样本数据的方法，基于K最近邻算法可以获取更好的图片特征提取，得到更优的正样本测试图片集和样本图片集，提高原始图像数据的准确率。

发明内容

本发明的目的在于提供一种样本数据清洗方法及系统，得到更优的正样本测试图片集和样本图片集，实现了自动化清洗数据，。

为实现上述目的，本发明提供了一种样本数据清洗方法，所述方法包括：提供一测试图片集，根据一神经网络模型，对所述测试图集进行训练，获取每一张测试图片所对应的多维测试特征向量；从所述测试图片集中选取k张典型图片，并根据所述神经网络模型，对所述典型图片进行训练，获取每一张典型图片所对应的多维参考特征向量；根据K最近邻算法、所述多维测试特征向量和多维参考特征向量，生成正样本测试图片集和负样本测试图片集；根据所述正样本测试图片集和负样本测试图片集，训练得到细粒度二分类器；根据所述细粒度二分类器对待清洗图片数据进行类别预测，获取每一张待清洗图片数据的类别预测的置信度；根据一预设的置信度区间及所述每一张待清洗图片数据的类别预测的置信度，进行样本数据清洗。基于K最近邻算法可以获取更好的图片特征提取，得到更优的正样本测试图片集和样本图片集，大幅度降低了人工工作量，减少人工筛选的主观性导致数据筛选出错，提高神经网络模型的鲁棒性。

可选的，所述测试图片集获取的步骤包括：利用网络爬虫，获取初始测试图片集；根据一预设的粗粒度二分类器，对所述初始测试图片集进行训练，获取所述测试图片集。通过粗粒度二分类器，对海量的图片数据做初始分类，为后续细粒度分类器的训练提供准确地样本图片数据。

可选的，所述步骤S3包括：将所述多维参考特征向量标记为

其中，k表示典型图片的数量，p表示维数；将所述多维测试特征向量标记为

其中，n表示测试图片的数量，p表示维数；根据欧式距离，分别计算每一张测试图片与每一张典型图片的距离，公式为：

获取每一张测试图片与每一张典型图片的距离中的最小距离，公式为：

d(I_train-i)＝min{d(I_train-i,I_test-1),...d(I_train-i,I_test-k)}；

对所有测试图片的最小距离进行排序，公式为：

d_sorted＝sort{d(I_train-1),d(I_train-2),...d(I_train-n)}；

d_sorted中选择距离最小的N张测试图片构成正样本测试图片集；d_sorted中选择距离最远的M张测试图片构成负样本测试图片集。所述M和N的取值一样，并且所述测试集图片的数量大于2N。根据的K最近邻算法可以获取更好的图片特征提取，得到更优的正样本测试图片集和样本图片集，提高原始图像数据的准确率，为后续细粒度二分类器的提供训练集。

可选的，根据一预设的粗粒度二分类器，对所述待清洗数据进行训练，获取待清洗的初始数据。通过粗粒度二分类器，对海量的图片数据做初始分类，为后续细粒度分类器的训练提供准确地样本图片数据。

可选的，所述步骤S6包括：设置一置信度区间，根据所述每一张待清洗图片数据的类别预测的置信度及所述置信度区间，将所述待清洗图片数据归类到对应的置信度集合。获取置信度等级达到预设等级的置信度集合中的图片数据作为正样本图片数据。通过实时对采集获取的待清洗图片数据进行计算类别预测的置信度，以便根据置信度对图片数据进行清洗，以便得到更准确的图片数据。

本发明还提供一种样本数据清洗系统，所述系统包括：特征向量模块，提供一测试图片集，根据一神经网络模型，对所述测试图集进行训练，获取每一张测试图片所对应的多维测试特征向量，从所述测试图片集中选取k张典型图片，并根据所述神经网络模型，对所述典型图片进行训练，获取每一张典型图片所对应的多维参考特征向量；测试样本模块，用于根据K最近邻算法、所述多维测试特征向量和多维参考特征向量，生成正样本测试图片集和负样本测试图片集；训练模块，用于根据所述正样本测试图片集和负样本测试图片集，训练得到细粒度二分类器；分类模块，用于根据所述细粒度二分类器对待清洗图片数据进行类别预测，获取每一张待清洗图片数据的类别预测的置信度；清洗模块，用于根据一预设的置信度区间及所述每一张待清洗图片数据的类别预测的置信度，进行样本数据清洗。大幅度降低了人工工作量，减少人工筛选的主观性导致数据筛选出错，提高神经网络模型的鲁棒性

可选的，所述特征向量模块还包括：获取单元，用于利用网络爬虫，获取初始测试图片集；粗粒度二分类器单元，用于根据一预设的粗粒度二分类器，对所述初始测试图片集进行训练，获取所述测试图片集。

可选的，所述清洗模块包括：设置单元，用于设置一置信度区间；统计单元，用于根据所述每一张待清洗图片数据的类别预测的置信度及所述置信度区间，将所述待清洗图片数据归类到对应的置信度集；正样本单元，用于获取置信度等级达到预设等级的置信度集合中的图片数据作为正样本图片数据。

与现有技术相比，本发明提供的一种数据清洗方法及系统，所带来的有益效果为：根据K最近邻算法，获取更好的图片特征提取，得到更优的正样本测试图片集和样本图片集，并通过细粒度二分类进行分类，完成对海量数据的清洗，大幅度降低了人工清洗的工作量，实现了自动化清洗工作，减少了人工筛选的主观性导致的数据筛选出错，提高神经网络的鲁棒性。

附图说明

图1为本发明一实施例的样本数据清洗方法的流程示意图；

图2为本发明一实施例的样本数据清洗系统的组成结构示意图。

具体实施方式

以下将结合附图所示的具体实施方式对本发明进行详细描述。在附图中，结构相同的部件以相同数字标号表示，各处结构或功能相似的组件以相似数字标号表示。附图所示的每一组件的尺寸和厚度是任意示出的，本发明并没有限定每个组件的尺寸和厚度。为了使图示更清晰，附图中有些地方适当夸大了部件的厚度。

如图1所示，本发明的一实施例，一种样本数据清洗方法，所述方法包括：

S1、提供一测试图片集，根据一神经网络模型，对所述测试图集进行训练，获取每一张测试图片所对应的多维测试特征向量；

S2、从所述测试图片集中选取k张典型图片，并根据所述神经网络模型，对所述典型图片进行训练，获取每一张典型图片所对应的多维参考特征向量；

S3、根据K最近邻算法、所述多维测试特征向量和多维参考特征向量，生成正样本测试图片集和负样本测试图片集；

S4、根据所述正样本测试图片集和负样本测试图片集，训练得到细粒度二分类器；

S5、根据所述细粒度二分类器对待清洗图片数据进行类别预测，获取每一张待清洗图片数据的类别预测的置信度；

S6、根据一预设的置信度区间及所述每一张待清洗图片数据的类别预测的置信度，进行样本数据清洗。

有的技术方案提出基于聚类算法提供正样本测试图片集和样本图片集，然后通过细粒度分类器进行分类，达到样本数据自动清洗的目的。与之不同的，本发明根据K最近邻算法，生成正样本测试图片集和负样本测试图片集，并对所述正样本测试图片集和负样本测试图片集进行训练，得到细粒度二分类器，根据所述细粒度二分类器对待清洗图片数据进行分类，可以获取更好的图片特征提取，得到更优的正样本测试图片集和样本图片集，减少人工筛选的主观性导致数据筛选出错，提高神经网络模型的鲁棒性。

本发明的一具体实施例，所述测试图片集的获取步骤包括：利用网络爬虫，获取初始测试图片集，根据一预设的粗粒度二分类器，对所述初始测试图片集进行训练，获取所述测试图片集。大量图像样本数据一般是通过网络爬虫获取的方法，网络爬虫能够按照设定的条件将符合该条件的信息从互联网的海量信息中抓取出来，但是网络爬虫获取的图片信息是海量的，而且很多图片信息是不需要的。假设通过网络爬虫获取类别为A类的相关图片数据，爬取结果往往会得到大量非A类的图片数据，因此通过一粗粒度二分类器，对爬虫网络获取的海量图片数据进行初始分类，剔除非A类的图片数据，得到A类的图片数据。根据该技术方案，通过粗粒度二分类器，对海量的图片数据做初始分类，为后续细粒度分类器的训练提供准确地样本图片数据。

根据一神经网络模型，对所述测试图集进行训练，利用神经网络模型进行特征提取，获取每一张测试图片所对应的多维测试特征向量。从所述测试图片集中选取k张典型图片，并根据所述神经网络模型，对所述典型图片进行训练，获取每一张典型图片所对应的多维参考特征向量。典型图片指与真实类别最相似的图片。k一般选择为个位数。

K最近邻算法(k-Nearest Neighbor)，是数据挖掘分类技术中的方法。K最近邻算法，就是说每个样本都可以用它最接近的k个邻居来代表。该方法的思路是：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于一个类别，则样本也属于这个类别。K最近邻算法中，所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的样别来决定待分样本所属的列表。其算法描述为：计算测试数据与各个训练数据之间的距离，按照距离的递增关系进行排讯；选取距离最小的k个点；确定前k个点所在类别的出现频率；返回前k个点中出现频率最高的类别作为测试数据的预测分类。本发明正是基于K最近邻算法，可以获取更好的图片特征提取，得到更优的正样本测试图片集和样本图片集，提高原始图像数据的准确率。

根据K最近邻算法、所述多维测试特征向量和多维参考特征向量，生成正样本测试图片集和负样本测试图片集。具体地，将所述多维参考特征向量标记为

其中，k表示典型图片的数量，p表示维数。将所述多维测试特征向量标记为

其中，n表示测试图片的数量，p表示维数。根据欧式距离，分别计算每一张测试图片与每一张典型图片的距离，公式为：

d(I_train-i)＝min{d(I_train-i,I_test-1),...d(I_train-i,I_test-k)}

对所有测试图片的最小距离进行排序，公式为：

d_sorted＝sort{d(I_train-1),d(I_train-2),...d(I_train-n)}

d_sorted中选择距离最小的N张测试图片构成正样本测试图片集。d_sorted中选择距离最远的M张测试图片构成负样本测试图片集。M和N的取值一样，比如，均取值为100张。并且所述测试集图片的数量大于2N。

根据所述细粒度二分类器对待清洗图片数据进行类别预测，获取每一张待清洗图片数据的类别预测的置信度。本发明的一具体实施例，所述步骤S4包括：根据一预设的粗粒度二分类器，对所述待清洗数据进行训练，获取待清洗的初始数据。根据该技术方案，通过粗粒度二分类器，对海量的图片数据做初始分类，为后续细粒度分类器的训练提供准确地样本图片数据。

具体地，通过训练得到的细粒度二分类器对获取的待清洗图片数据进行筛选分类，通过该细粒度二分类器对每一个待清洗图片数据进行类别预测。本发明一较优的实施例，在上述实施例基础上，通过一预设的粗粒度二分类器，对所述待清洗数据进行训练，获取待清洗的初始数据。训练得到细粒度二分类器后，就将所有的待清洗图片数据输入细粒度二分类器，通过细粒度二分类器对每个待清洗图片数据进行类别预测，得到预测类别对应的置信度，每一个置信度代表的是该待清洗图片数据为该预测类别的概率，置信度越大，这个待清洗图片数据与预测类别相符合的可能性越大。本发明通过实时对采集获取的待清洗图片数据进行计算类别预测的置信度，以便根据置信度对图片数据进行清洗，以便得到更准确的图片数据。

设置一置信度区间；根据所述每一张待清洗图片数据的类别预测的置信度及所述置信度区间，将所述待清洗图片数据归类到对应的置信度集合。获取置信度等级达到预设等级的置信度集合中的图片数据作为正样本图片数据。所述置信度区间可以调节设置。比如，设置一高置信度区间，为0.99，将待清洗图片数据中的置信度高于0.99的图片作为正样本数据，以供人工清洗。当待清洗的图片数据中无法再生成一定比例高置信度区间以上的图片时，将预设的高置信度区间调低，再提供高于该调节后的置信度区间的图片数据，进行人工清洗。将预设的置信度达到预设的置信度区间的图片数据就是与真实类别相似的图片，这些图片数据是用户需求的图片，本发明通过细粒度二分类器对待清洗图片进行分类，减少人工筛选分类的劳动力和主观性，提升筛选分类效率。

如图2所示，一种样本数据清洗系统，所述系统包括：

特征向量模块20，提供一测试图片集，根据一神经网络模型，对所述测试图集进行训练，获取每一张测试图片所对应的多维测试特征向量，从所述测试图片集中选取k张典型图片，并根据所述神经网络模型，对所述典型图片进行训练，获取每一张典型图片所对应的多维参考特征向量；

测试样本模块21，用于根据K最近邻算法、所述多维测试特征向量和多维参考特征向量，生成正样本测试图片集和负样本测试图片集；

训练模块22，用于根据所述正样本测试图片集和负样本测试图片集，训练得到细粒度二分类器；

分类模块23，用于根据所述细粒度二分类器对待清洗图片数据进行类别预；

清洗模块24，用于根据一预设的置信度区间及所述每一张待清洗图片数据的类别预测的置信度，进行样本数据清洗。

特征向量模块提供一测试图片集，提供一测试图片集，根据一神经网络模型，对所述测试图集进行训练，获取每一张测试图片所对应的多维测试特征向量，从所述测试图片集中选取k张典型图片，并根据所述神经网络模型，对所述典型图片进行训练，获取每一张典型图片所对应的多维参考特征向量。k一般选择为个位数。具体地，特征向量模块还包括获取单元和粗粒度二分类器单元。在获取单元中，用于利用网络爬虫，获取初始测试图片集。粗粒度二分类器单元根据一预设的粗粒度二分类器，对所述初始测试图片集进行训练，获取所述测试图片集。通过粗粒度二分类器，对海量的图片数据做初始分类，为后续细粒度分类器的训练提供准确地样本图片数据。

测试样本模块根据K最近邻算法、所述多维测试特征向量和多维参考特征向量，生成正样本测试图片集和负样本测试图片集。根据K最近邻算法、所述多维测试特征向量和多维参考特征向量，生成正样本测试图片集和负样本测试图片集。具体地，将所述多维参考特征向量标记为

d(I_train-i)＝min{d(I_train-i,I_test-1),...d(I_train-i,I_test-k)}

对所有测试图片的最小距离进行排序，公式为：

d_sorted＝sort{d(I_train-1),d(I_train-2),...d(I_train-n)}

训练模块根据所述正样本测试图片集和负样本测试图片集，训练得到细粒度二分类器。

分类模块根据所述细粒度二分类器对待清洗图片数据进行类别预测，获取每一张待清洗图片数据的类别预测的置信度训练得到细粒度二分类器后，就将所有的待清洗图片数据输入细粒度二分类器，通过细粒度二分类器对每个待清洗图片数据进行类别预测，得到预测类别对应的置信度，每一个置信度代表的是该待清洗图片数据的预测类别的概率，置信度越大，这个待清洗图片数据与预测类别相符合的可能性越大，即待清洗图片与正确类别越相似。

清洗模块根据一预设的置信度区间及所述每一张待清洗图片数据的类别预测的置信度，进行样本数据清洗。所述清洗模块包括设置单元、统计单元和正样本单元。设置单元设置一置信度区间。统计单元根据所述每一张待清洗图片数据的类别预测的置信度及所述置信度区间，将所述待清洗图片数据归类到对应的置信度集。正样本单元，用于获取置信度等级达到预设等级的置信度集合中的图片数据作为正样本图片数据。将预设的置信度达到预设的置信度区间的图片数据就是与真实类别相似的图片，这些图片数据是用户需求的图片，本发明通过细粒度二分类器对待清洗图片进行分类，减少人工筛选分类的劳动力和主观性，提升筛选分类效率。

通过该技术方案，基于K最近邻算法可以获取更好的图片特征提取，得到更优的正样本测试图片集和样本图片集，提高原始图像数据的准确率，大幅度降低了人工工作量，减少人工筛选的主观性导致数据筛选出错，提高神经网络模型的鲁棒性。

虽然以上通过附图和实施例对本发明进行了详细描述，但是这样的图示和描述应被理解为是说明性或示例性而非限制性的。本发明并不局限于所公开的实施例。在权利要求中，词语“包括”并不排除其它部件或步骤，并且“一个”或特定“多个”应当被理解为至少一个或至少特定多个。权利要求中的任何参考标记都不应当被理解为对其范围加以限制。通过研习附图、说明书和所附权利要求，针对上述实施例的其它变化形式可以由本领域技术人员在无需创造性劳动即可理解并实施，而这些实施方式仍将落入本发明所附权利要求书的范围之内。

Claims

1.一种样本数据清洗方法，其特征在于，所述方法包括：

2.如权利要求1所述的样本数据清洗方法，其特征在于，所述测试图片集获取的步骤包括：

利用网络爬虫，获取初始测试图片集；

根据一预设的粗粒度二分类器，对所述初始测试图片集进行训练，获取所述测试图片集。

3.如权利要求1所述的样本数据清洗方法，其特征在于，所述步骤S3包括：

将所述多维参考特征向量标记为

其中，k表示典型图片的数量，p表示维数；

将所述多维测试特征向量标记为

其中，n表示测试图片的数量，p表示维数；

根据欧式距离，分别计算每一张测试图片与每一张典型图片的距离，公式为：

d(I_train-i)＝min{d(I_train-i,I_test-1),...d(I_train-i,I_test-k)}；

对所有测试图片的最小距离进行排序，公式为：

d_sorted＝sort{d(I_train-1),d(I_train-2),...d(I_train-n)}；

d_sorted中选择距离最小的N张测试图片构成正样本测试图片集；

d_sorted中选择距离最远的M张测试图片构成负样本测试图片集。

4.如权利要求3所述的样本数据清洗方法，其特征在于，所述步骤S3还包括：所述M和N的取值一样，并且所述测试集图片的数量大于2N。

5.如权利要求1所述的样本数据清洗方法，其特征在于，所述步骤S4还包括：根据一预设的粗粒度二分类器，对所述待清洗数据进行训练，获取待清洗的初始数据。

6.如权利要求1所述的样本数据清洗方法，其特征在于，所述步骤S6包括：

设置一置信度区间；

根据所述每一张待清洗图片数据的类别预测的置信度及所述置信度区间，将所述待清洗图片数据归类到对应的置信度集合。

7.如权利要求6所述的样本数据清洗方法，其特征在于，所述步骤S6包括：

获取置信度等级达到预设等级的置信度集合中的图片数据作为正样本图片数据。

8.一种样本数据清洗系统，其特征在于，所述系统包括：

特征向量模块，提供一测试图片集，根据一神经网络模型，对所述测试图集进行训练，获取每一张测试图片所对应的多维测试特征向量，从所述测试图片集中选取k张典型图片，并根据所述神经网络模型，对所述典型图片进行训练，获取每一张典型图片所对应的多维参考特征向量；

测试样本模块，用于根据K最近邻算法、所述多维测试特征向量和多维参考特征向量，生成正样本测试图片集和负样本测试图片集；

训练模块，用于根据所述正样本测试图片集和负样本测试图片集，训练得到细粒度二分类器；

分类模块，用于根据所述细粒度二分类器对待清洗图片数据进行类别预测，获取每一张待清洗图片数据的类别预测的置信度；

清洗模块，用于根据一预设的置信度区间及所述每一张待清洗图片数据的类别预测的置信度，进行样本数据清洗。

9.如权利要求8所述的样本数据清洗系统，其特征在于，所述特征向量模块还包括：

获取单元，用于利用网络爬虫，获取初始测试图片集；

粗粒度二分类器单元，用于根据一预设的粗粒度二分类器，对所述初始测试图片集进行训练，获取所述测试图片集。

10.如权利要求8所述的样本数据清洗系统，其特征在于，所述清洗模块包括：

设置单元，用于设置一置信度区间；

统计单元，用于根据所述每一张待清洗图片数据的类别预测的置信度及所述置信度区间，将所述待清洗图片数据归类到对应的置信度集；

正样本单元，用于获取置信度等级达到预设等级的置信度集合中的图片数据作为正样本图片数据。