CN110659700A

CN110659700A - 一种基于knn的图像样本生成方法

Info

Publication number: CN110659700A
Application number: CN201910957405.7A
Authority: CN
Inventors: 赵书朵; 韩旭; 冯冠钦; 周文豪; 马晨鑫; 董双慧
Original assignee: Southwest Petroleum University
Current assignee: Southwest Petroleum University
Priority date: 2019-10-10
Filing date: 2019-10-10
Publication date: 2020-01-07
Anticipated expiration: 2039-10-10
Also published as: CN110659700B

Abstract

本发明提供一种基于KNN的图像样本生成方法，包括以下步骤：(1)按照已知的类别，对采集到的图像数据进行归类，得到不同类别的图像数据集合；(2)对这些类别的图像数据按照定制的标准进行对齐处理；(3)对对齐后的每一类数据进行主成分分析；再对每一个主成分与原数据用KNN求解m维最近距离，其中m的取值范围为(1，n)，n为主成分个数；(4)取最小的m维最近距离对应的m个原数据，并对这m个数据进行加权求和，即得该定制标准下的规则样本数据。本发明可以得到本类质量更好、更具代表性，针对性的图像样本数据，提高了图像样本数据分类器的精度，从而满足算法等其他应用需要。

Description

一种基于KNN的图像样本生成方法

技术领域

本发明涉及一种样本生成方法，具体说是一种基于KNN的图像样本生成方法，属于图像处理技术领域。

背景技术

随着大数据云计算技术的兴起，各种数据的大量建立，造成数据之间的标准不一致，有效数据的评价不一致，导致数据质量参差不齐。现有技术一般依赖业界开源的标准库，对算法的适应性检测较为粗糙，普遍地标准库上算法效果好，实际场景中效果不如人意。比如在人脸图像处理的技术落地方面，通用标准库一般让采集的角度，光照条件，表情变化等趋向一致，而实际情况是角度多变，光照条件多变，表情更是随机。

通常对于一个算法，往往需要大量的人脸图像数据来训练。而大量样本的收集费时费力，还需要人工标注，更重要的是人工标注的好坏将直接影响算法的训练。

对于一些特殊应用，比如单人脸实时识别，高速移动物体的实时识别等，这些对象的图像采集本身就非常困难，样本数量更加有限。

因此需要设计一种方法，能根据有限的样本生成更加标准的样本，再对生成的样本根据现有的样本繁殖技术(例如AAM模型)进行样本繁殖，以生成更多的可用的高质量样本。

发明内容

本发明设计了一种图像样本生成方法，具体说是一种基于KNN的图像样本生成方法，用来得到质量更好，更具有代表性的图像样本数据，从而提高算法落地可能性。

本发明提供的一种样本生成方法，具体说是一种基于KNN的图像样本生成方法，包括以下步骤：

(1)按照已知的类别，对采集到的图像数据进行归类，得到不同类别的图像数据集合；

(2)对这些类别的图像数据按照定制的标准进行对齐处理；

(3)对对齐后的每一类数据进行主成分分析；再对每一个主成分与原数据用KNN求解m维最近距离，其中m的取值范围为(1，n)，n为主成分个数；

(4)取最小的m维最近距离对应的m个原数据，并对这m个数据进行加权求和，即得该定制标准下的规则样本数据。可以根据该规则样本数据进行样本繁殖。

最近距离的维数m取值以及加权求和可为根据实际需要调整，只要不脱离主成分分析和KNN求解最近距离样本的范围。

其中K的取值范围为(1，n)，n为主成分个数。

一般地，KNN中的K既不能取太小值，也不能取太大值。取太小，则结果依赖所取的个别样本，误差影响较大；取太大，则运算量非常大。合适范围的取值视提取任务的量和工程师的经验而定。

本发明提供的一种基于KNN的图像样本生成方法，按照已知的类别，对采集到的图像样本数据进行分类，得到多个类别的样本数据集合；对每个类的数据按照定制要求进行对齐；分别对每类数据进行主成分分析，得到多个主成分组；再对每个组求解m维最近距离，并取最小距离值对应的m个原数据，得到这m个数据的加权和，即为该定制要求下的规则样本数据；最后可以利用AAM等模型来对该类的规则样本数据进行样本繁殖，从而可以得到本类质量更好、更具代表性，针对性的图像样本数据，提高图像样本数据分类器的精度，从而满足算法等其他应用需要。

附图说明

图1为实施例以人脸图像为例的原理流程示意图；

图2为实施例用KNN对原数据和主成分求解m维最近距离的数据，图例中m＝2。

具体实施方式

本发明提供了一种图像样本生成方法，具体说是一种基于KNN的图像样本生成方法，用来得到质量更好，更具有代表性的图像样本数据，从而提高算法落地可能性。

为方便说明本发明实施例，以人脸图像样本数据为例。进一步地，对于其他研究对象的图像样本数据，本发明实施例提供的技术方案同样适用。

下面结合附图对本发明提供的技术方案进行说明。

本发明实施例设计了一种基于KNN的图像样本生成方法，参见图1，首先按照已知的类别，对采集到的图像数据进行归类，得到不同类别的图像数据集合；

对这些类别的图像数据按照定制的标准进行对齐处理；

对对齐后的每一类数据进行主成分分析，假设对某类数据Φ(θ₁，…,θ_n)进行分析，其中θ_i(i＝1,…,n)为本类中的第i个样本；

主成分(PCA)是一种数据集简化手段。将数据按照方差的特性进行排列，主成分即为特征向量，方差大的主成分，对应的特征值就越大，所占权重就相应的更大。对Φ(θ₁，…,θ_n)主成分分析，得到n个主成分Γ(f₁,…,f_n)。

如图2，假设原数据为3维，通过主成分分析可以得到v1,v2,v3这3个主成分向量。

对主成分v1与整个本类的原数据集(这里是x1x2x3O坐标系下的数据)用KNN算法来计算最近距离所对应的原数据(样本)，K取值为1；其他主成分以此类推，示例中m取2，则得到2维最近距离对应的2个原数据。

计算规则样本数据

为方便描述，这里的加权求和简化为求平均。如图2，示例中

即认为S是本类样本数据在该定制要求下的规则数据。

然后按照样本繁殖技术(比如AAM)对S进行繁殖，得到符合定制要求且质量较高的数据。

定制要求包括但不限于本文所述；样本繁殖技术包括但不限于本文所述；

所述m维数的取值以及加权求和的设计方法可以根据实际需要来调整，不必限于本发明的举例。只要不脱离主成分分析和KNN求解最近距离样本的范围，则本发明也意图包含这些变动和变型在内。

Claims

1.一种基于KNN的图像样本生成方法，其特征在于，包括以下步骤：

(2)对这些类别的图像数据按照定制的标准进行对齐处理；

(4)取最小的m维最近距离对应的m个原数据，并对这m个数据进行加权求和，即得该定制标准下的规则样本数据。

2.根据权利要求1所述的一种基于KNN的图像样本生成方法，其特征是：最近距离的维数m取值以及加权求和根据实际需要调整，只要不脱离主成分分析和KNN求解最近距离样本的范围。