CN109241903B

CN109241903B - 样本数据清洗方法、装置、计算机设备及存储介质

Info

Publication number: CN109241903B
Application number: CN201811004788.8A
Authority: CN
Inventors: 徐玲玲
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-08-30
Filing date: 2018-08-30
Publication date: 2023-08-29
Anticipated expiration: 2038-08-30
Also published as: CN109241903A

Abstract

本发明公开了一种样本数据清洗方法、装置、计算机设备及存储介质，首先获取初始图像集，将初始图像集输入到特征分类模型进行识别，得到特征识别结果。再根据特征识别结果获取初始训练集，初始训练集包括初始训练图像和每一初始训练图像对应的标注数据。通过特征分类模型将初始图像集中符合预定需求的图像数据筛选出来，得到初始训练集，以保证训练数据的数据丰富度。在此基础之上根据标注数据对初始训练图像进行分类，得到分类训练集。并对分类训练集进行数据清洗，得到目标训练集。在保证了训练数据的数据丰富度的基础上，对训练数据进行数据清洗，保证了训练数据的准确性，以进一步提高后续模型训练的精度。

Description

样本数据清洗方法、装置、计算机设备及存储介质

技术领域

本发明涉及数据处理领域，尤其涉及一种样本数据清洗方法、装置、计算机设备及存储介质。

背景技术

随着计算机技术的发展，深度学习在各个领域的应用越来越广泛。而深度学习的训练需要大量训练样本，如果训练样本较少，则效果会差很多。对于训练样本，传统地都是从网络或者第三方数据平台中获取现有的训练样本数据来进行模型的训练。但是对于很多具体的应用场景而言，这些网络或者第三方数据平台中现有的训练样本数据不一定是能够满足实际需求，因此很多样本数据需要手动收集，这导致训练样本数据的获取很不方便。而且由于训练样本的数据量比较大，对应的标注数据往往会存在错误，这也会影响后续训练得到的模型的精度。

发明内容

本发明实施例提供一种样本数据清洗方法、装置、计算机设备及存储介质，以解决训练样本数据精度不高的问题。

一种样本数据清洗方法，包括：

获取初始图像集，将初始图像集输入到特征分类模型进行识别，得到特征识别结果；

根据所述特征识别结果获取初始训练集，所述初始训练集包括初始训练图像和每一初始训练图像对应的标注数据；

根据所述标注数据对所述初始训练图像进行分类，得到分类训练集；

对所述分类训练集进行数据清洗，得到目标训练集。

一种样本数据清洗装置，包括：

特征识别结果获取模块，用于获取初始图像集，将初始图像集输入到特征分类模型进行识别，得到特征识别结果；

初始训练集获取模块，用于根据所述特征识别结果获取初始训练集，所述初始训练集包括初始训练图像和每一初始训练图像对应的标注数据；

分类训练集获取模块，用于根据所述标注数据对所述初始训练图像进行分类，得到分类训练集；

目标训练集获取模块，用于对所述分类训练集进行数据清洗，得到目标训练集。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述样本数据清洗方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述样本数据清洗方法的步骤。

上述样本数据清洗方法、装置、计算机设备及存储介质中，首先获取初始图像集，将初始图像集输入到特征分类模型进行识别，得到特征识别结果。再根据特征识别结果获取初始训练集，初始训练集包括初始训练图像和每一初始训练图像对应的标注数据。通过特征分类模型将初始图像集中符合预定需求的图像数据筛选出来，得到初始训练集，以保证训练数据的数据丰富度。在此基础之上根据标注数据对初始训练图像进行分类，得到分类训练集。并对分类训练集进行数据清洗，得到目标训练集。在保证了训练数据的数据丰富度的基础上，对训练数据进行数据清洗，保证了训练数据的准确性，以进一步提高后续模型训练的精度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中样本数据清洗方法的一应用环境示意图；

图2是本发明一实施例中样本数据清洗方法的一示例图；

图3是本发明一实施例中样本数据清洗方法的另一示例图；

图4是本发明一实施例中样本数据清洗方法的另一示例图；

图5是本发明一实施例中样本数据清洗方法的另一示例图；

图6是本发明一实施例中样本数据清洗方法的另一示例图；

图7是本发明一实施例中样本数据清洗装置的一原理框图；

图8是本发明一实施例中样本数据清洗装置的另一原理框图；

图9是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的样本数据清洗方法，可应用在如图1的应用环境中，其中，客户端(计算机设备)通过网络与服务端进行通信。客户端采集或者获取初始图像集，并将初始图像集发送到服务端，服务端将初始图像集进行处理后最终得到目标训练集。其中，客户端(计算机设备)可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种样本数据清洗方法，以该方法应用在图1中的服务端为例进行说明，包括如下步骤：

S10：获取初始图像集，将初始图像集输入到特征分类模型进行识别，得到特征识别结果。

其中，初始图像集是包括了大量样本图像的数据集，而且初始图像集是已经进行了对应标注的标注数据集，即初始图像集中的每一幅初始样本图像都有对应的标注数据，例如：初始样本图像为人脸图像，人脸图像X、Y和Z的标注数据分别为张三、李四和王五。可以理解地，为了方便后续的模型训练，在初始图像集中，每一个标注数据对应的初始样本图像都是为复数幅的，而且，每一个标注数据对应的初始样本图像数量越多，训练效果对应也会越好，例如标注为张三的人脸图像X为至少两幅。而初始图像集可以从不同的第三方数据平台获取或者直接采用图像采集设备进行采集，这里不做具体限定。

在获取到初始图像集之后，将初始图像集输入到特征分类模型中，得到初始图像集中每一初始样本图像的特征识别结果，特征识别结果用于区分每一初始样本图像属于对应特征中的哪一类别。其中，特征分类模型根据不同的特征需要而进行预先训练得到。示例性地，特征分类模型对应的特征可以为年龄、性别、种族或者动植物类型等，可以视需要而选择，在此不作具体的限定。

在一个具体实施方式中，特征分类模型为年龄识别模型，此时将初始图像集输入到特征分类模型中，得到的特征识别结果用于区分每一初始样本图像属于哪个年龄段。例如，若张三为15岁，而特征识别结果按照年龄段划分为：[0,10]，[11,20]，[21,30]，[31,40]，[41,50]等。此时标注为张三的初始样本图像输入到年龄分类模型之后，得到的特征识别结果即为[11,20]。

S20：根据特征识别结果获取初始训练集，初始训练集包括初始训练图像和每一初始训练图像对应的标注数据。

其中，初始训练集即为根据实际需要而设定的一个训练集，可以从特征分类模型输出的不同特征识别结果中，选取满足需要的特征识别结果对应的图像，组成初始训练集。而初始训练集中包括初始训练图像和每一初始训练图像对应的标注数据。其中，初始训练图像即是初始图像集中特征识别结果符合初始训练集筛选要求的初始样本图像。而每一初始训练图像对应的标注数据是和初始样本图像中原有的标注数据是一致的。

例如，若初始训练集需要的是年龄段为0-20岁之间的人脸图像样本数据，则对应的特征分类模型为年龄识别模型，此时初始训练集为初始图像集中特征识别结果为[0,10]和[11,20]的初始样本图像。具体地年龄段可以根据实际应用需要而设置，在此不做具体限定。

具体地，可以根据实际需要在预先设置好需要获取的特征识别结果之后，根据步骤S20的特征识别结果来筛选出符合要求的初始训练图像以及每一初始训练图像对应的标注数据，组合成初始训练集。

S30：根据标注数据对初始训练图像进行分类，得到分类训练集。

在得到初始训练集之后，对初始训练集中的初始训练图像进行分类，具体地，根据标注数据对初始训练图像进行分类，得到分类训练集。即是将初始训练集中标注数据相同的初始训练图像分到同一类别。

例如，将初始训练图像中的标注数据为张三的都分到同一个类别，将初始训练图像中的标注数据为李四的都分到同一个类别，依次类推。在分类完成之后即得到分类训练集。

S40：对分类训练集进行数据清洗，得到目标训练集。

其中，目标训练集即是最终得到的用于模型训练的图像集。在得到分类训练集之后，还需要对分类训练集中的数据进行进一步的清洗，以保证后续数据处理的精度。由于初始图像集中包括的数据是非常多的，因此在初始图像集中的标注数据很有可能存在误差，例如在标注为张三的初始样本图像中，存在部分图像实际上对应的人物为李四或者王五。如此，就导致分类训练集中的标注数据也会存在错误。此时，就需要把分类训练集中，错误的标注数据清洗掉。

具体地，可以对分类训练集中的每一幅图像进行特征向量提取，然后计算特征向量平均值，再将该初始分类集中的每一幅图像的特征向量和该特征向量平均值求向量距离或者向量相似度，将不符合预定距离或者预定相似度要求的图像筛选出来，完成数据的清洗，得到目标训练集。

在本实施例中，首先获取初始图像集，将初始图像集输入到特征分类模型进行识别，得到特征识别结果。再根据特征识别结果获取初始训练集，初始训练集包括初始训练图像和每一初始训练图像对应的标注数据。通过特征分类模型将初始图像集中符合预定需求的图像数据筛选出来，得到初始训练集，以保证训练数据的数据丰富度。在此基础之上根据标注数据对初始训练图像进行分类，得到分类训练集。并对分类训练集进行数据清洗，得到目标训练集。在保证了训练数据的数据丰富度的基础上，对训练数据进行数据清洗，保证了训练数据的准确性，以进一步提高后续模型训练的精度。

在一实施例中，分类训练集包括N个初始分类集，其中，N为正整数。

其中，初始分类集是指按照不同的标注数据对应的初始训练图像所组成的图像集。可以理解地，N的数值和标注数据的类别数目是相同的。

在这个实施例中，如图3所示，步骤S40中，即对分类训练集进行数据清洗，得到目标训练集，具体包括如下步骤：

S41：提取分类训练集中每一分类训练图像的特征向量，得到每一分类训练图像的初始特征向量。

其中，初始特征向量是指分类训练图像的特征向量，是用于表征当前图像的图像信息特征的向量，例如：基于投影的特征向量(如PCA(Principal Component Analysis，主成分分析)特征向量)、基于方向的特征向量(如HOG(Histogram of Oriented Gradient，梯度方向直方图)特征向量)和基于深度学习的特征向量(如卷积神经网络特征向量)等。特征向量能够以简单的数据表征图像信息，通过提取人脸图像的特征向量可以简化后续的比对过程。

优选地，本实施例中初始特征向量可以为基于深度学习的特征向量。采用深度卷积神经网络进行特征提取，由于深度学习能够自动从人脸图像的数据中学习，因此能够适用多种环境，并且省去了复杂的预处理操作，而基于投影、方向和重心的特征向量往往只能提取一种特征如颜色特征或形状特征等，这些特征很难应用到现实复杂环境。因此，初始特征向量为基于深度学习的特征向量能够提高后续特征向量计算和比对的准确率。

S42：计算每一初始分类集中初始特征向量的平均值，得到每一初始分类集的平均特征向量。

在得到每一初始分类集中所有的初始特征向量之后，计算每一初始分类集中初始特征向量的平均值，得到平均特征向量。具体地，将一个初始分类集中所有的初始特征向量进行求和再取平均值，即得到该初始分类集的平均特征向量。

S43：在每一初始分类集中计算每一分类训练图像的初始特征向量和对应的平均特征向量的向量距离，得到每一分类训练图像的初始向量距离值。

在获取到每一初始分类集中所有的初始特征向量以及对应的平均特征向量之后，计算该初始分类集中每一分类训练图像的初始特征向量和该初始分类集中的平均特征向量的向量距离。可选地，向量距离可以通过欧几里得距离算法、曼哈顿距离算法或者明可夫斯基距离算法来计算。

优选地，可以采用欧几里得距离算法计算每一初始特征向量和平均特征向量的向量距离：

其中，初始向量距离值sim(U,V)^EDG的范围是[0,1]，U为初始特征向量，V为平均特征向量，而x_i为初始特征向量中的向量元素，而y_i为平均特征向量中的向量元素，i为正整数，n代表向量元素的个数，且0<i≤n。初始向量距离值越大说明两个向量距离越相近，则对应的两幅图像之间的相似程度越高。

S44：将不符合预设距离阈值范围的初始向量距离值对应的分类训练图像从该初始分类集中去除。

在得到初始向量距离值之后，将初始分类集中每一分类训练图像的初始向量距离值和预先设置的预设距离阈值范围进行比较，将不符合预设距离阈值范围的初始向量距离值对应的分类训练图像从该初始分类集中去除。具体地，该去除方式可以是将对应地分类训练图像直接进行删除操作，或者将对应地分类训练图像从该初始分类集中提取出来。

例如，采用欧几里得距离算法计算每一初始特征向量和平均特征向量的向量距离，得到每一分类训练图像的初始向量距离值。对应地设置预设距离阈值范围为[0.7,1]。将初始向量距离值不在[0.7,1]这个区间范围内的分类训练图像从该初始分类集中去除。在对每一初始分类集都做完上述步骤之后，即得到目标训练集。目标训练集即为最终的训练数据集，该目标训练集可以保证标注数据的精度。

在这个实施例中，先提取分类训练集中每一分类训练图像的特征向量，得到每一分类训练图像的初始特征向量；计算每一初始分类集中初始特征向量的平均值，得到每一初始分类集的平均特征向量；在每一初始分类集中计算每一分类训练图像的初始特征向量和对应的平均特征向量的向量距离，得到每一分类训练图像的初始向量距离值；将不符合预设距离阈值范围的初始向量距离值对应的分类训练图像从该初始训练集中去除。通过特征向量的比对和筛选，将标注数据有误的分类训练图像从对应的初始训练集中去除，保证了目标训练集中标注数据的精度。

在一实施例中，如图4所示，在将不符合预设距离阈值范围的初始向量距离值对应的分类训练图像从该分类训练集中去除的步骤之后，该样本数据清洗方法还包括如下步骤：

S45：获取不符合预设距离阈值范围的初始向量距离值对应的分类训练图像，组成再分配图像集。

将每一初始分类集中，不符合预设距离阈值范围的向量距离值对应的分类训练图像筛选出来，组成一个再分配图像集。

S46：将再分配图像集中的每一再分配图像的特征向量和每一初始分类集中的平均特征向量进行向量距离的计算，得到每一再分配图像的再分配距离值。

其中，再分配图像即是不符合预设距离阈值范围的初始向量距离值对应的分类训练图像。在该步骤中，将再分配图像集中的每一再分配图像的特征向量一一和每一初始分类集中的平均特征向量进行向量距离的计算，得到每一再分配图像的再分配距离值。例如，若存在50个初始分类集，则再分配图像集中的每一再分配图像的特征向量会和这50个初始分类集的平均特征向量一一进行向量距离的计算，得到50个再分配距离值。

其中，该步骤的向量距离的计算方式和步骤S43类似，在此不再赘述。

S47：将符合预设距离阈值规则的再分配距离值对应的再分配图像分配到对应的初始分类集中。

在计算得到每一再分配图像的再分配距离值之后，判断这些再分配距离值中是否存在符合预设距离阈值规则的再分配距离值，若有，则将该再分配图像分配到对应的初始分类集中。示例性地，可以设定预设距离阈值规则为：对每一再分配图像的再分配距离值按照数值从大到小的顺序进行排序，判断数值最大的再分配距离值是否符合预设距离阈值范围。若符合，则将该再分配图像分配到对应的初始分类集中。

在这个实施方式中，通过对不符合预设距离阈值范围的初始向量距离值对应的分类训练图像进行再分配，避免直接将其删除，在保证训练数据精度的前提下进一步保证了目标训练集数据的丰富度，也可以进一步提高后续进行模型训练的精度。

在一实施例中，如图5所示，在获取初始图像集，将初始图像集输入到特征分类模型，得到特征识别结果的步骤之前，该样本数据清洗方法还包括：

S11：初始化卷积神经网络模型。

其中，其中，卷积神经网络模型是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，常应用于大型图像的处理。卷积神经网络通常包括至少两个非线性可训练的卷积层，至少两个非线性的池化层和至少一个全连接层，即包括至少五个隐含层，此外还包括输入层和输出层。

具体地，初始化卷积神经网络主要是初始化卷积层的卷积核(即权值)和偏置。卷积神经网络模型的权值初始化就是指给卷积神经网络模型中的所有权值赋予一个初始值。如果初始权值处在误差曲面的一个相对平缓的区域时，卷积神经网络模型训练的收敛速度可能会异常缓慢。一般情况下，网络的权值被初始化在一个具有0均值的相对小的区间内均匀分布，比如[-0.30,+0.30]这样的区间内。

S12：在卷积神经网络模型中输入特征样本训练集，计算卷积神经网络模型各层的输出。

其中，特征样本训练集是指预先获取了大量的训练图像，而且每个训练图像都进行了特征的标注。例如，若对应的特征数据为年龄，则按照预先划分的年龄段(例如：[0,10]，[11,20]，[21,30]，[31,40]，[41,50]等)对每一训练图像进行对应年龄段的标注，即得到特征样本训练集。例如：若训练图像A的年龄为15，则对应的人脸图像A的标注数据可以为[11,20]。

在本实施例中，在卷积神经网络模型中输入特征样本训练集，计算卷积神经网络模型各层的输出，各层的输出采用前向传播算法可获取。具体地，神经网络模型可以包括输入层、卷积层、激励层、池化层、全连接层和输出层等层级。可以理解地，卷积神经网络模型各层的输出即是指卷积神经网络模型中的各个层级对应的输出。其中，不同于全连接的神经网络模型，对于局部连接的卷积神经网络模型，还需计算卷积神经网络模型的层级中的卷积层的每一种输出的特征图和池化层的每一种输出的特征图，以对权值进行更新。具体地，对于卷积层的每一种输出的特征图x^j为其中，l是当前层，Mj表示选择的输入特征图组合，/>是输入的第i种特征图即l-1层的输出，/>是l层输入的第i种特征图和输出的第j种特征图之间连接所用的卷积核，/>是第j种特征图层对应的加性偏置，f是激活函数，该激活函数可以是sigmoid、rule、p-rule等激活函数。此外，对于池化层的每一种输出的特征图x_j为/>其中，down表示下采样计算，这里的为第j种特征图l层对应的乘性偏置，b是第j种特征图l层对应的加性偏置。本实施例主要给出卷积神经网络模型中区别于一般全连接的神经网络模型的卷积层和池化层输出，其余各层的输出与一般全连接的神经网络模型计算相同，采用前向传播算法可获取，故不一一举例，以免累赘。

S13：根据各层的输出对卷积神经网络模型各层进行误差反传更新，获取更新后的各层的权值。

步骤S12中，获得的预测值与真实值之间必然存在误差，需要将这个误差信息逐层回传给每一层，让每一层更新它们的权值，才能获得识别效果更好的特征分类模型。本实施例中，根据各层的输出对卷积神经网络模型各层进行误差反传更新，获取更新后的各层的权值，具体包括计算卷积神经网络模型每一层的误差信息，并用梯度下降法更新每一层的权值。其中，梯度下降法更新权值主要是利用误差代价函数对参数的梯度，所以权值更新的目标就是让每一层得到这样的梯度，然后进行更新。

在一具体实施方式中，步骤S13具体包如下步骤：根据第n个误差代价函数的表达式其中n为单个训练样本，在卷积神经网络模型中的目标输出为用/>表示，/>为实际输出，c为实际输出的维度。为了求取单个样本的误差代价函数对参数的偏导，这里定义灵敏度δ为误差对输出的变化率，灵敏度的表达式为其中E为误差代价函数，其中u为u^l＝W^lx^l-1+b^l，l表示当前第l层，W^l表示该层的权值，x^l-1表示该层的输入，b^l表示该层的加性偏置。通过计算灵敏度层回传误差信息即可实现反向传播，其中反向传播的过程是指对卷积神经网络模型各层进行误差反传更新，获取更新后的各层的权值的过程。根据获得的灵敏度，计算误差代价函数对加性偏置b的偏导为即对l层中的灵敏度中所有节点求和，其中(u,v)代表灵敏度矩阵中的元素位置。乘性偏置β与前向传播中当前层的池化层相关，因此先定义/>则计算误差代价函数对乘性偏置β的偏导为/>之后计算误差代价函数对卷积核k的偏导/>这里/>是/>在做卷积时，与k_ij做卷积的每一个特征图中的小块，(u,v)是指小块中心，输出特征图中(u,v)位置的值，是由输入特征图中(u,v)位置的小块和卷积核k_ij卷积所得的值。根据以上公式的运算，可以获得更新后的卷积神经网络模型卷积层的权值。在卷积神经网络模型的训练过程中，还应对池化层进行更新，对于池化层的每一种输出的特征图x_j为/>其中，down表示下采样，这里的β是乘性偏置，b是加性偏置。卷积神经网络模型中池化层灵敏度的计算公式为并且根据δ可求得有误差代价函数对加性偏置b的偏导为/>其中conv2、rot180和full为计算所需的函数，以上公式的其余参数与上述卷积层公式提及的参数含义相同，在此不再详述。根据上述公式，可获取更新后的池化层权值，此外还应对卷积神经网络模型的其他各层(如全连接层)间权值进行更新，该更新过程与一般的全连接神经网络模型的权值更新方法相同，采用后向传播算法更新权值，为避免累赘，在此不一一进行详述。通过对卷积神经网络模型各层进行误差反传更新，获取更新后的各层的权值。

S14：根据更新后的各层的权值，获取特征分类模型。

本实施例中，将获取的更新后的各层的权值，应用到卷积神经网络模型中即可获取特征分类模型。

在本实施例中，采用特征样本训练集对卷积神经网络模型进行训练，获得特征分类模型，更好地保证了后续目标训练集的精度。

在一实施例中，如图6所示，提取分类训练集中每一分类训练图像的特征向量，得到初始特征向量，具体包括如下步骤：

S411：将分类训练图像进行细胞单元的划分，并计算每一细胞单元的像素梯度的幅值和方向。

其中，细胞单元是指将图像进行划分成小的连通区域，而每一个连通区域就叫一个细胞单元。而具体的划分方式可以根据实际需要进行设置，并且不同的细胞单元之间可以重叠也可以不重叠。示例性地，一幅像素大小为48*32的分类训练图像中，设置一个细胞单元的像素大小为6*4，且不同细胞单元之间不重叠，则可以将分类训练图像划分为8个细胞单元。

计算每一细胞单元的像素梯度的幅值和方向具体过程为：首先获取细胞单元中每个像素的梯度，假设像素为(x,y)，其梯度计算公式如下：

其中，G_x(x,y)为像素(x,y)的水平方向梯度，G_y(x,y)为像素(x,y)的垂直方向梯度，H(x,y)为像素(x,y)的灰度值。然后采用以下公式计算该像素的梯度幅值：

其中，G(x,y)为像素梯度的幅值。

最后，采用以下公式计算像素梯度的方向：

其中，α(x,y)为像素梯度的方向的方向角。

S412：根据每一细胞单元的像素梯度的幅值和方向，获取每一细胞单元的梯度直方图。

其中，梯度直方图是指对每一细胞单元的像素梯度的幅值和方向进行统计得到的直方图，用于表征每个细胞单元的梯度信息。具体地，首先将每个细胞单元的梯度方向从0°到180°均匀地分成9个方向块，即0°-20°是第一个方向块，20°-40°第二个方向块，依此类推，160°-180°为第九个方向块。然后判断细胞单元中的像素梯度的方向所在的方向块，并加上该方向块的像素梯度的幅值。例如：一个细胞单元的某一像素的方向落在40°-60°，就将梯度直方图第三个方向上的像素值加上该方向的像素梯度的幅值，从而得到该细胞单元的梯度直方图。

S413：串联每一细胞单元的梯度直方图，得到初始特征向量。

其中，串联是指对各个细胞单元的梯度直方图按照预设顺序将所有梯度直方图合并，从而得到每一分类训练图像的初始特征向量，即HOG特征向量。其中，该预设的顺序可以为自左向右、自上向下或者两者的结合等。

本实施例中，通过将分类训练图像进行细胞单元的划分，然后计算每一细胞单元的梯度直方图，最后将各个细胞单元的梯度直方图进行串联，得到整幅分类训练图像的梯度直方图，即初始特征向量(HOG特征向量)，用于描述分类训练图像的特征向量。HOG特征向量本身关注的是图像梯度特征而不是颜色特征，受光照变化影响不大。提取HOG特征向量能够方便高效地进行特征向量的计算和比对，提高计算精度。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种样本数据清洗装置，该样本数据清洗装置与上述实施例中样本数据清洗方法一一对应。如图7所示，该样本数据清洗装置包括特征识别结果获取模块10、初始训练集获取模块20、分类训练集获取模块30和目标训练集获取模块40。各功能模块详细说明如下：

特征识别结果获取模块10，用于获取初始图像集，将初始图像集输入到特征分类模型进行识别，得到特征识别结果。

初始训练集获取模块20，用于根据特征识别结果获取初始训练集，初始训练集包括初始训练图像和每一初始训练图像对应的标注数据。

分类训练集获取模块30，用于根据标注数据对初始训练图像进行分类，得到分类训练集。

目标训练集获取模块40，用于对分类训练集进行数据清洗，得到目标训练集。

优选地，分类训练集包括N个初始分类集，其中，N为正整数。如图8所示，目标训练集获取模块40包括初始特征向量提取单元41、平均特征向量计算单元42、初始向量距离值获取单元43和图像去除单元44。

初始特征向量提取单元41，用于提取分类训练集中每一分类训练图像的特征向量，得到每一分类训练图像的初始特征向量。

平均特征向量计算单元42，用于计算每一初始分类集中初始特征向量的平均值，得到每一初始分类集的平均特征向量。

初始向量距离值获取单元43，用于在每一初始分类集中计算每一分类训练图像的初始特征向量和对应的平均特征向量的向量距离，得到每一分类训练图像的初始向量距离值。

图像去除单元44，用于将不符合预设距离阈值范围的初始向量距离值对应的分类训练图像从该初始分类集中去除。

优选地，如图8所示，目标训练集获取模块40还包括再分配图像集获取单元45、再分配距离值计算单元46和图像再分配单元47。

再分配图像集获取单元45，用于获取不符合预设距离阈值范围的初始向量距离值对应的分类训练图像，组成再分配图像集。

再分配距离值计算单元46，用于将再分配图像集中的每一再分配图像的特征向量和每一初始分类集中的平均特征向量进行向量距离的计算，得到每一再分配图像的再分配距离值。

图像再分配单元47，用于将符合预设距离阈值规则的再分配距离值对应的再分配图像分配到对应的初始分类集中。

优选地，样本数据清洗装置还包括模型初始化模块、模型计算模块、权值计算模块和模型获取模块。

模型初始化模块，用于初始化卷积神经网络模型。

模型计算模块，用于在卷积神经网络模型中输入特征样本训练集，计算卷积神经网络模型各层的输出。

权值计算模块，用于根据各层的输出对卷积神经网络模型各层进行误差反传更新，获取更新后的各层的权值。

模型获取模块，用于根据更新后的各层的权值，获取特征分类模型。

优选地，初始特征向量提取单元包括细胞单元划分子单元、梯度直方图获取子单元和初始特征向量获取子单元。

细胞单元划分子单元，用于将分类训练图像进行细胞单元的划分，并计算每一细胞单元的像素梯度的幅值和方向。

梯度直方图获取子单元，用于根据每一细胞单元的像素梯度的幅值和方向，获取每一细胞单元的梯度直方图。

初始特征向量获取子单元，用于串联每一细胞单元的梯度直方图，得到初始特征向量。

关于样本数据清洗装置的具体限定可以参见上文中对于样本数据清洗方法的限定，在此不再赘述。上述样本数据清洗装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储在样本数据清洗方法中使用到的各种数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种样本数据清洗方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：

对所述分类训练集进行数据清洗，得到目标训练集。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

对所述分类训练集进行数据清洗，得到目标训练集。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种样本数据清洗方法，其特征在于，包括：

根据所述标注数据对所述初始训练图像进行分类，得到分类训练集，所述分类训练集包括N个初始分类集，其中，N为正整数；对所述分类训练集进行数据清洗，得到目标训练集；所述对所述分类训练集进行数据清洗，得到目标训练集，具体包括：提取所述分类训练集中每一分类训练图像的特征向量，得到每一分类训练图像的初始特征向量，将所述分类训练图像进行细胞单元的划分，并计算每一所述细胞单元的像素梯度的幅值和方向；根据每一所述细胞单元的像素梯度的幅值和方向，获取每一所述细胞单元的梯度直方图；串联每一所述细胞单元的所述梯度直方图，得到所述初始特征向量；计算每一初始分类集中初始特征向量的平均值，得到每一所述初始分类集的平均特征向量；在每一初始分类集中计算每一所述分类训练图像的所述初始特征向量和对应的所述平均特征向量的向量距离，得到每一所述分类训练图像的初始向量距离值；将不符合预设距离阈值范围的所述初始向量距离值对应的分类训练图像从该初始分类集中去除。

2.如权利要求1所述的样本数据清洗方法，其特征在于，在所述将不符合预设距离阈值范围的所述初始向量距离值对应的分类训练图像从该初始分类集中去除的步骤之后，所述样本数据清洗方法还包括：

获取不符合所述预设距离阈值范围的初始向量距离值对应的所述分类训练图像，组成再分配图像集；

将所述再分配图像集中的每一再分配图像的特征向量和每一初始分类集中的平均特征向量进行向量距离的计算，得到每一再分配图像的再分配距离值；

将符合预设距离阈值规则的再分配距离值对应的再分配图像分配到对应的初始分类集中。

3.如权利要求1所述的样本数据清洗方法，其特征在于，在所述获取初始图像集，将初始图像集输入到特征分类模型，得到特征识别结果的步骤之前，所述样本数据清洗方法还包括：

初始化卷积神经网络模型；

在卷积神经网络模型中输入特征样本训练集，计算卷积神经网络模型各层的输出；

根据各层的输出对卷积神经网络模型各层进行误差反传更新，获取更新后的各层的权值；

根据更新后的各层的权值，获取所述特征分类模型。

4.一种样本数据清洗装置，该装置用于实现如权利要求1至3任一项所述样本数据清洗方法，其特征在于，包括：

分类训练集获取模块，用于根据所述标注数据对所述初始训练图像进行分类，得到分类训练集，所述分类训练集包括N个初始分类集，其中，N为正整数；目标训练集获取模块，用于对所述分类训练集进行数据清洗，得到目标训练集；

所述目标训练集获取模块包括：

初始特征向量提取单元，用于提取所述分类训练集中每一分类训练图像的特征向量，得到初始特征向量；

平均特征向量计算单元，用于计算每一初始分类集中初始特征向量的平均值，得到每一所述初始分类集的平均特征向量；

初始向量距离值获取单元，用于在每一初始分类集中计算每一所述分类训练图像的所述初始特征向量和对应的所述平均特征向量的向量距离，得到每一所述分类训练图像的初始向量距离值；

图像去除单元，用于将不符合预设距离阈值范围的所述初始向量距离值对应的分类训练图像从该初始分类集中去除。

5.如权利要求4所述的样本数据清洗装置，其特征在于，所述目标训练集获取模块还包括：

再分配图像集获取单元，用于获取不符合所述预设距离阈值范围的初始向量距离值对应的所述分类训练图像，组成再分配图像集；

再分配距离值计算单元，用于将所述再分配图像集中的每一再分配图像的特征向量和每一初始分类集中的平均特征向量进行向量距离的计算，得到再分配距离值；

图像再分配单元，用于将符合预设距离阈值规则的再分配距离值对应的再分配图像分配到对应的初始分类集中。

6.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至3任一项所述样本数据清洗方法的步骤。

7.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至3任一项所述样本数据清洗方法的步骤。