CN110689087B

CN110689087B - 一种基于概率似然的图像样本生成方法

Info

Publication number: CN110689087B
Application number: CN201910957276.1A
Authority: CN
Inventors: 赵书朵; 韩旭; 袁杰敏; 阎翔; 冯冠钦
Original assignee: Southwest Petroleum University
Current assignee: Southwest Petroleum University
Priority date: 2019-10-10
Filing date: 2019-10-10
Publication date: 2023-04-18
Anticipated expiration: 2039-10-10
Also published as: CN110689087A

Abstract

本发明提供一种基于概率似然的图像样本生成方法，包括以下步骤：按照已知的类别，对采集到的图像数据进行归类，得到不同类别的图像数据集合；对这些类别的图像数据按照定制的标准进行对齐处理；对对齐后的每一类数据进行主成分分析；再对每一个主成分与原数据按照概率似然求解交叉数据，即得该定制标准下的规则样本数据。本发明提供的方法，用来得到质量更好，更具有代表性的图像样本数据，从而提高算法落地可能性。

Description

一种基于概率似然的图像样本生成方法

技术领域

本发明涉及一种样本生成方法，具体说是一种基于概率似然的图像样本生成方法，属于图像处理技术领域。

背景技术

随着大数据云计算技术的兴起，各种数据的大量建立，造成数据之间的标准不一致，有效数据的评价不一致，导致数据质量参差不齐。

现有技术一般依赖业界开源的标准库，对算法的适应性检测较为粗糙，普遍地标准库上算法效果好，实际场景中效果不如人意。比如在人脸图像处理的技术落地方面，通用标准库一般让采集的角度，光照条件，表情变化等趋向一致，而实际情况是角度多变，光照条件多变，表情更是随机。

通常对于一个算法，往往需要大量的人脸图像数据来训练。而大量样本的收集费时费力，还需要人工标注，更重要的是人工标注的好坏将直接影响算法的训练。

对于一些特殊应用，比如单人脸实时识别，高速移动物体的实时识别等，这些对象的图像采集本身就非常困难，样本数量更加有限。

因此需要设计一种方法，能根据有限的样本生成更加标准的样本，再对生成的样本根据现有的样本繁殖技术(例如AAM模型)进行样本繁殖，以生成更多的可用的高质量样本。

发明内容

本发明提供一种基于概率似然的图像样本生成方法，用来得到质量更好，更具有代表性的图像样本数据，从而提高算法落地可能性。

具体的技术方案为：

一种基于概率似然的图像样本生成方法，包括以下步骤：按照已知的类别，对采集到的图像数据进行归类，得到不同类别的图像数据集合；对这些类别的图像数据按照定制的标准进行对齐处理；对对齐后的每一类数据进行主成分分析；再对每一个主成分与原数据按照概率似然求解交叉数据，即得该定制标准下的规则样本数据。

进一步的，具体的步骤为：

(1)按照已知的类别，对采集到的图像数据进行归类，得到不同类别的图像数据集合；

(2)对这些类别的图像数据按照定制的标准进行对齐处理；

(3)对对齐后的每一类数据进行主成分分析，将主成分所在向量视为数据点，则向量附近的点构成点云数据，从某主成分向量的轴向看这些对应的点云数据，这些数据可以概括为以该主成分向量所在的轴为圆心，半径为可选参数的圆。

(4)假设取邻域半径

为有限值，这些点分布在

的邻域半径范围内。按照概率分布

来分布数据，其中r_i为邻域半径取值，

为最大半径取值，假设g＝0.5，则r_i＝arg(g＝0.5)＝r₁。得到以

为轴心，r₁为邻域半径内的属于

的概率为g＝0.5的属性点。

(5)假设存在另一个主成分

以此类推，得到以

为轴心，r₂为邻域半径内的属于

的概率为g＝0.5的属性点。假设最终相交邻域内的点在椭圆内。

假设最终相交邻域内的点，即这些“相交”的点集，可以唯一地表示某原数据集中某类特征最集中的特征数据。

本发明按照需求可以灵活设置概率值以获取最优的规则数据。

本发明可以获取多组“相交”点集，并加权求和得到所选的规则样本数据。

本发明提供的方法，通过这些数据生成较为整齐的、符合当前设置标准的、质量较高的数据。

附图说明

图1为实施例以人脸图像为例的原理流程示意图；

图2为实施例对原数据进行主成分分析的原理示意图，示意某一个主成分u1。

图3为实施例点云数据分布示意图。

图4为实施例根据概率似然求解“交叉”数据示意图。

具体实施方式

为方便说明本发明实施例，以人脸图像样本数据为例。进一步地，对于其他研究对象的图像样本数据，本发明实施例提供的技术方案同样适用。

下面结合附图对本发明提供的技术方案进行说明。

本发明实施例设计了一种基于概率似然的图像样本生成方法，参见图1，首先按照已知的类别，对采集到的图像数据进行归类，得到不同类别的图像数据集合；

对这些类别的图像数据按照定制的标准进行对齐处理；

对对齐后的每一类数据进行主成分分析，假设对某类数据Φ(θ₁，…,θ_n)进行分析，其中θ_i(i＝1,…,n)为本类中的第i个样本；

主成分(PCA)是一种数据集简化手段。将数据按照方差的特性进行排列，主成分即为特征向量，方差大的主成分，对应的特征值就越大，所占权重就相应的更大。对Φ(θ₁，…,θ_n)主成分分析，得到n个主成分Γ(f₁,…,f_n)。如图2，假设得到u1主成分向量。

u1向量附近的点构成点云数据，从u1主成分向量的轴向看这些点云数据，这些数据可以概括为以u1轴为圆心，半径为可选参数(r1,r2,r3)的圆，参见图3。

假设取邻域半径

为有限值，这些点分布在

的邻域半径范围内。按照概率分布

来分布数据，其中r_i为邻域半径取值，

为轴心，r₁为邻域半径内的属于

的概率为g＝0.5的属性点。

然后，假设存在另一个主成分

以此类推，得到以

为轴心，r₂为邻域半径内的属于

的概率为g＝0.5的属性点。如图4所示，假设最终相交邻域内的点在图中所示椭圆内。

基于概率似然的概率取值以及取值次数可以根据样本数据特征分布和定制要求来灵活变化。只要不脱离主成分分析和概率似然思想的范围，则本发明也意图包含这些变动和变型在内。

Claims

1.一种基于概率似然的图像样本生成方法，其特征在于，包括以下步骤：

(2)对这些类别的图像数据按照定制的标准进行对齐处理；

(3)对对齐后的每一类数据进行主成分分析，将主成分所在向量视为数据点，则向量附近的点构成点云数据，从某主成分向量的轴向看这些对应的点云数据，这些数据可以概括为以该主成分向量所在的轴为圆心，半径为可选参数的圆；

(4)假设取邻域半径

为有限值，这些点分布在

的邻域半径范围内；按照概率分布

来分布数据，其中r_i为邻域半径取值，

为最大半径取值，假设g＝0.5，则r_i＝arg(g＝0.5)＝r₁；得到以

为轴心，r₁为邻域半径内的属于

的概率为g＝0.5的属性点；

(5)假设存在另一个主成分

以此类推，得到以

为轴心，r₂为邻域半径内的属于

的概率为g＝0.5的属性点；假设最终相交邻域内的点在椭圆内；