CN109086657B - 一种基于机器学习的耳朵检测方法、系统及模型 - Google Patents
一种基于机器学习的耳朵检测方法、系统及模型 Download PDFInfo
- Publication number
- CN109086657B CN109086657B CN201810588093.2A CN201810588093A CN109086657B CN 109086657 B CN109086657 B CN 109086657B CN 201810588093 A CN201810588093 A CN 201810588093A CN 109086657 B CN109086657 B CN 109086657B
- Authority
- CN
- China
- Prior art keywords
- image
- ear
- shone
- side face
- classifier
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/285—Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/446—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering using Haar-like filters, e.g. using integral image techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/50—Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/467—Encoded features or binary features, e.g. local binary patterns [LBP]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于机器学习的耳朵检测方法、系统及模型,该方法包括以下步骤:对目标图像进行预处理;在预处理后的目标图像上,采用预设的采样窗口依次滑动选取特征向量;将所选取的特征向量输入到训练好的耳朵检测模型中,筛选出包含耳朵对象的特征向量;根据筛选出的特征向量,对相应位置的采样窗口进行缩放操作,使其精确匹配耳朵对象所在的区域;输出包含耳朵对象的采样窗口的位置和尺寸作为耳朵检测结果;其中所述耳朵检测模型通过对异质集成级联分类器进行训练后获得。本发明可以精确地检测获得目标图像中耳朵对象的位置和尺寸,稳定性高,且检测效率高,可广泛应用于图像处理领域中。
Description
技术领域
本发明涉及图像处理领域,特别是涉及一种基于机器学习的耳朵检测方法、系统及模型。
背景技术
现有的五官检测算法,大都只能对正面人脸照的五官进行识别和分割,而耳朵在正面人脸照片中的特征非常不明显,因此大部分的五官检测算法都忽略了耳朵的检测,但耳朵在生命科学的研究中具有重大的意义,所以很有必要构建有效的耳朵检测模型,通过对人脸的大角度侧脸照进行检测,从而提取耳朵特征。
由于大角度侧脸照的耳朵往往具有复杂的表面纹理信息和局部轮廓信息,同时耳朵的颜色往往与肤色过于接近,现有的五官检测算法由于通常只片面地考虑了一类图像特征例如Haar特征,因此难以精确检测耳朵的位置和尺寸,甚至会错误地把其它对象识别为耳朵,检测精度低。而且现有的五官检测算法通常使用卷积神经网络CNN来训练相应的检测分类器,在训练高分辨率图片时,CNN会因为自身网络结构的复杂而包含大量的模型参数,从而导致巨大的训练代价,同时由于CNN是线性传递的网络结构,所以不适合使用并行化的方法来优化其训练过程,缩短训练周期。
总的来说,现有的耳朵检测算法存在检测精度低、检测效率低等问题。
名词解释
PCA:主成分分析,一种降维方法,通过将一组可能存在相关性的变量转换为一组线性无关的变量,从而去除冗余信息,一般用于筛选特征向量中最具代表性的成分。
HOG:梯度方向直方图,是一种图像像素梯度信息的统计量,包含梯度的强度和方向,因为边缘的梯度变化往往比较明显,所以HOG常用于描述图像的局部形状信息。
LBP:局部二值模式,是一种表示局部像素差异模式的统计量,根据不同的任务需求有不同的算子,常用于描述图像的表面纹理信息。
Haar:一种描述像素区域对比度变化的特征模版,有多套特征模版,常用于区域像素变化比较明显的场景,用于描述图像的局部对比度信息。Haar与级联分类器进行组合被经常用于人脸检测。
逻辑回归:一种广义的线性回归分析模型,在传统线性回归的基础上再做一次非线性变换,使之可以对非线性可分数据的分界面进行拟合,在机器学习中,也把可以训练逻辑回归模型的算法称为逻辑回归。
支持向量机:一种有监督学习模型,它通常会在样本空间中找到一个距离样本点最远的分类超平面,使得该超平面对新数据的抗干扰能力最强,使用核函数后,支持向量机可以拟合任意形状的分类面。
决策树:一种代表对象属性与对象值之间映射关系的预测或分类模型,通过信息熵的计算来产生分支。决策树既可以是二叉树,也可以是多叉树。
Boosting:一种集成学习机制,训练过程中每一轮迭代都会训练一个弱学习器,前面得到的弱学习器的判别结果会影响后续弱学习器的训练,后续的弱学习器会逐渐得到增强,最终,所有的弱学习器通过加权求和的方式集成为一个强学习器。
Bagging:一种集成学习机制,训练过程中将训练多个相互独立的弱学习器,弱学习器的训练互不影响,最终,通过加权投票的方式将所有弱学习器集成为一个强学习器。
Adaboost:一种基于Boosting的集成学习算法,训练过程中后续训练的弱学习器会更关注被前面的弱学习器错判的样本,每个弱学习器的权重都可以自适应调整。弱学习器必须使用样本权重可以调整的机器学习算法。
opencv:一个计算机视觉标准函数库,几乎囊括了计算机视觉领域的所有经典模块,比如:图像预处理、图像特征提取、音频分析、对象检测等等。
sklearn:一个机器学习算法库,囊括了所有的经典机器学习算法,并对大量的分类器和回归器进行了高层封装,用户可以通过最简便的方式调用各种基础机器学习算法。
skimage:sklearn下的一个轻量级图像处理工具包,集合了部分基础的图像处理算法,并对这些算法进行了优化,减轻了运行过程中的系统开销。
Pillow:PIL轻量级图像处理库的兼容版本,支持最新的python 3.x,功能强大,API简单易用。
发明内容
为了解决上述的技术问题,本发明的目的是提供一种基于机器学习的耳朵检测方法、系统及模型。
本发明解决其技术问题所采用的第一技术方案是:
一种基于机器学习的耳朵检测方法,包括以下步骤:
对目标图像进行预处理;
在预处理后的目标图像上,采用预设的采样窗口依次滑动选取特征向量;
将所选取的特征向量输入到训练好的耳朵检测模型中,筛选出包含耳朵对象的特征向量;
根据筛选出的特征向量,对相应位置的采样窗口进行缩放操作,使其精确匹配耳朵对象所在的区域;
输出包含耳朵对象的采样窗口的位置和尺寸作为耳朵检测结果;
其中所述耳朵检测模型通过对异质集成级联分类器进行训练后获得。
进一步,还包括以下步骤:
根据耳朵检测结果,对目标图像进行分割,提取出包含耳朵的检测区域。
进一步,所述对目标图像进行预处理的步骤,其具体为:
依次对目标图像进行压缩、滤波处理以及去均值化处理。
进一步,所述耳朵检测模型,是通过以下步骤进行训练获得:
从图像数据库中分层随机采样,选取若干个图片数量相等的图像子集,其中,每个图像子集中包含相同比例的人物侧脸照和背景照;
针对图像子集中的每张人物侧脸照,为其耳朵对象添加标签并标记耳朵对象所在区域的位置,并对高分辨率侧脸照的耳朵对象之外的区域进行背景重采样后,构造规范图像数据集;
对规范图像数据集进行图像预处理;
对预处理后的规范图像集中的每张图像,分别提取图像的局部形状信息、表面纹理信息和局部对比度信息共三类图像特征后,对应形成规范图像集的三个图像特征集;
将规范图像集的三个图像特征集输入到异质集成级联分类器中,采用多GPU并行和多阶段迁移级联学习的训练方式对异质集成级联分类器进行训练后,获得耳朵检测模型;
其中,所述图像数据库包括预设比例的包含耳朵对象的人物侧脸照以及不包含耳朵对象的背景照,其中,所述人物侧脸照包含普通侧脸照和高分辨率侧脸照;
所述异质集成级联分类器包括三个组成相异的级联分类器,每个级联分类器均通过若干个Adaboost强分类器串接而成,所有Adaboost强分类器均由多个底层弱分类器通过Boosting的方式集成得到,且不同的级联分类器,分别包含不同的底层弱分类器。
进一步,所述对规范图像数据集进行图像预处理的步骤,具体包括:
首先,针对规范图像数据集中的高分辨率侧脸照,采用PCA降维算法针对图像的不同划分区域进行压缩;
其次,对规范图像数据集中的所有图像进行滤波;
最后,对所有图像进行去均值化处理。
进一步,所述局部形状信息通过HOG特征描述,所述表面纹理信息通过等价LBP特征描述,所述局部对比度信息通过Haar特征描述,三类图像特征均通过opencv对应的特征描述器进行提取。
进一步,所述针对图像子集中的每张人物侧脸照,为其耳朵对象添加标签并标记耳朵对象所在区域的位置,并对高分辨率侧脸照的耳朵对象之外的区域进行背景重采样后,构造规范图像数据集的步骤,具体包括:
针对图像子集中的每张人物侧脸照,采用opencv的annotation工具为其耳朵对象添加标签并标记耳朵对象所在区域的位置;
针对耳朵对象数量小于N的高分辨率侧脸照,采用矩形碰撞检测方法进行背景采样、裁剪后,将裁剪获得的背景采样窗口构成背景照;
针对耳朵对象数量大于N的高分辨率侧脸照,将其耳朵对象所在区域进行像素覆盖后,在图像的任意位置进行背景采样、裁剪后,将裁剪获得的背景采样窗口构成背景照;
将包含耳朵对象的人物侧脸照作为积极图像,将背景照作为消极图像,采用opencv的createsamples工具将积极图像和消极图像构造成规范图像数据集;
其中,N为预设的正整数。
进一步,所述采用多GPU并行和多阶段迁移级联学习的训练方式对异质集成级联分类器进行训练的步骤,具体为:
针对异质集成级联分类器的三个级联分类器,采用三个独立的GPU进行并行训练,并在所有级联分类器均完成训练后,通过CPU进行通信,完成Bagging集成操作;
其中,在每个级联分类器的训练过程中,每完成一个阶段的Adaboost强分类器的训练后,将当前训练获得的Adaboost强分类器的结构和参数进行存储,从而当发生故障重新进行训练,或对异质集成级联分类器进行增量学习训练时,直接将所存储的Adaboost强分类器的结构和参数迁移进来后,继续下一步训练。
本发明解决其技术问题所采用的第二技术方案是:
一种基于机器学习的耳朵检测系统,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现所述的一种基于机器学习的耳朵检测方法。
本发明解决其技术问题所采用的第三技术方案是:
一种基于机器学习的耳朵检测模型,所述耳朵检测模型通过以下步骤训练获得:
从图像数据库中分层随机采样,选取若干个图片数量相等的图像子集,其中,每个图像子集中包含相同比例的人物侧脸照和背景照;
针对图像子集中的每张人物侧脸照,为其耳朵对象添加标签并标记耳朵对象所在区域的位置,并对高分辨率侧脸照的耳朵对象之外的区域进行背景重采样后,构造规范图像数据集;
对规范图像数据集进行图像预处理;
对预处理后的规范图像集中的每张图像,分别提取图像的局部形状信息、表面纹理信息和局部对比度信息共三类图像特征后,对应形成规范图像集的三个图像特征集;
将规范图像集的三个图像特征集输入到异质集成级联分类器中,采用多GPU并行和多阶段迁移级联学习的训练方式对异质集成级联分类器进行训练后,获得耳朵检测模型;
其中,所述图像数据库包括预设比例的包含耳朵对象的人物侧脸照以及不包含耳朵对象的背景照,其中,所述人物侧脸照包含普通侧脸照和高分辨率侧脸照;
所述异质集成级联分类器包括三个组成相异的级联分类器,每个级联分类器均通过若干个Adaboost强分类器串接而成,所有Adaboost强分类器均由多个底层弱分类器通过Boosting的方式集成得到,且不同的级联分类器,分别包含不同的底层弱分类器。
本发明的有益效果是:本发明通过对目标图像进行预处理后,在预处理后的目标图像上,采用预设的采样窗口依次滑动选取特征向量,然后将所选取的特征向量输入到训练好的耳朵检测模型中,筛选出包含耳朵对象的特征向量后,根据筛选出的特征向量,对相应位置的采样窗口进行缩放操作,使其精确匹配耳朵对象所在的区域,最后输出包含耳朵对象的采样窗口的位置和尺寸作为耳朵检测结果;其中所述耳朵检测模型通过对异质集成级联分类器进行训练后获得。本发明通过基于异质集成级联分类器训练获得的耳朵检测模型进行耳朵检测,可以精确地检测获得目标图像中耳朵对象的位置和尺寸,稳定性高,且检测效率高。
附图说明
图1是本发明的基于机器学习的耳朵检测方法的具体实施例的流程图;
图2是本发明具体实施例中对高分辨率图像进行背景重采样的两种方式示意图;
图3是本发明具体实施例中异质集成级联分类器的结构示意图;
图4是本发明具体实施例中异质集成级联分类器的训练方式示意图;
图5是本发明的基于机器学习的耳朵检测系统的结构框图。
具体实施方式
方法实施例
参照图1,本实施例提供了一种基于机器学习的耳朵检测方法,包括以下步骤:
S1、对目标图像进行预处理;
S2、在预处理后的目标图像上,采用预设的采样窗口依次滑动选取特征向量;
S3、将所选取的特征向量输入到训练好的耳朵检测模型中,筛选出包含耳朵对象的特征向量;
S4、根据筛选出的特征向量,对相应位置的采样窗口进行缩放操作,使其精确匹配耳朵对象所在的区域;
S5、输出包含耳朵对象的采样窗口的位置和尺寸作为耳朵检测结果;
其中所述耳朵检测模型通过对异质集成级联分类器进行训练后获得。
本方案通过基于异质集成级联分类器训练获得的耳朵检测模型进行耳朵检测,可以精确地检测获得目标图像中耳朵对象的位置和尺寸,稳定性高,且检测效率高。
进一步作为优选的实施方式,还包括以下步骤:
S6、根据耳朵检测结果,对目标图像进行分割,提取出包含耳朵的检测区域。
进一步作为优选的实施方式,所述对目标图像进行预处理的步骤,其具体为:
依次对目标图像进行压缩、滤波处理以及去均值化处理。
对目标图像进行预处理的过程,与下述对规范图像集进行预处理的细节类似,更具体的,首先采用PCA降维算法针对图像的不同划分区域进行压缩,减少冗余像素信息;然后,进行滤波处理,避免耳朵边缘附近的噪声点对后续耳朵轮廓特征的学习、训练造成干扰,最后进行去均值化处理,减少预处理过程中图像矩阵运算的开销。
进一步作为优选的实施方式,所述耳朵检测模型,是通过以下步骤进行训练获得:
S01、从图像数据库中分层随机采样,选取若干个图片数量相等的图像子集,其中,每个图像子集中包含相同比例的人物侧脸照和背景照;
S02、针对图像子集中的每张人物侧脸照,为其耳朵对象添加标签并标记耳朵对象所在区域的位置,并对高分辨率侧脸照的耳朵对象之外的区域进行背景重采样后,构造规范图像数据集;
S03、对规范图像数据集进行图像预处理;
S04、对预处理后的规范图像集中的每张图像,分别提取图像的局部形状信息、表面纹理信息和局部对比度信息共三类图像特征后,对应形成规范图像集的三个图像特征集;
S05、将规范图像集的三个图像特征集输入到异质集成级联分类器中,采用多GPU并行和多阶段迁移级联学习的训练方式对异质集成级联分类器进行训练后,获得耳朵检测模型;
其中,所述图像数据库包括预设比例的包含耳朵对象的人物侧脸照以及不包含耳朵对象的背景照,其中,所述人物侧脸照包含普通侧脸照和高分辨率侧脸照;
所述异质集成级联分类器包括三个组成相异的级联分类器,每个级联分类器均通过若干个Adaboost强分类器串接而成,所有Adaboost强分类器均由多个底层弱分类器通过Boosting的方式集成得到,且不同的级联分类器,分别包含不同的底层弱分类器。具体的,与局部形状信息对应的级联分类器的底层弱分类器为支持向量机的弱分类器,与表面纹理信息对应的的级联分类器的底层弱分类器为逻辑回归的弱分类器,与局部对比度信息对应的级联分类器的底层弱分类器为决策树的弱分类器。
本发明所称高分辨率侧脸照是指分辨率为6000×4000以上的人物侧脸照,通过超高分辨率医学数码摄像设备,在光照条件、拍摄距离一致的前提下,从被拍摄者人脸的不同角度进行拍摄,被拍摄者的左侧脸和右侧脸将拍摄相同数量的照片。所拍摄的照片还会进行前期筛选,一些因被拍摄者身体摇晃或因被拍摄者头发遮住耳朵导致的异常照片会被剔除。被拍摄者包括三个年龄段的人群(青少年、中年、老年),男女比例为1:1。普通侧脸照是指分辨率比高分辨率侧脸照低的人物侧脸照,背景照和普通侧脸照通过爬虫从网上分类抓取大量图片获得。
进一步作为优选的实施方式,所述步骤S03,具体包括:
首先,针对规范图像数据集中的高分辨率侧脸照,采用PCA降维算法针对图像的不同划分区域进行压缩;本处理步骤可减少冗余像素信息;
其次,对规范图像数据集中的所有图像进行滤波;本处理步骤可避免耳朵边缘附近的噪声点对后续耳朵轮廓特征的学习、训练造成干扰;
最后,对所有图像进行去均值化处理,本步骤可以减少预处理过程中图像矩阵运算的开销。
总的来说,通过对规范图像数据集进行预处理后,可以减少冗余信息、噪音信息,提高后续训练学习过程的效率。
对规范图像数据集进行图像预处理的过程中,通过轻量级图像处理库skimage完成。与其它重量级图像处理库相比,skimage耗费更少的系统资源,可以提高处理效率,降低处理成本。
进一步作为优选的实施方式,所述局部形状信息通过HOG特征描述,所述表面纹理信息通过等价LBP特征描述,所述局部对比度信息通过Haar特征描述,三类图像特征均通过opencv对应的特征描述器进行提取。
具体的,HOG特征通过像素的梯度变化,可以很好地捕捉局部区域的边缘。为了获得标准化的HOG特征,在特征提取前,还需要对不同图像的颜色空间进行归一化,本发明统一采用标准RGB颜色空间来提取标准HOG特征。表面纹理信息通过等价LBP特征描述,等价LBP特征使用循环等价模式,在不影响分类性能的前提下,减少了特征数量,降低训练过程中存储与计算的开销。局部对比度信息则通过Haar特征描述,由于耳朵表面的对比度信息较为复杂,所以本发明优选采用四类扩展的Haar-like特征模版来进行特征提取,并通过积分图加速特征计算。三类图像特征均使用opencv对应的特征描述器进行提取,进行HOG特征提取之前,先通过Pillow工具包的像素转换工具实现颜色空间归一化。
因此,本实施例中对应形成标准化HOG特征集、等价LBP特征集、扩展Haar特征集。
进一步作为优选的实施方式,所述步骤S02,具体包括:
针对图像子集中的每张人物侧脸照,采用opencv的annotation工具为其耳朵对象添加标签并标记耳朵对象所在区域的位置;
针对耳朵对象数量小于N的高分辨率侧脸照,采用矩形碰撞检测方法进行背景采样、裁剪后,将裁剪获得的背景采样窗口构成背景照;
针对耳朵对象数量大于N的高分辨率侧脸照,将其耳朵对象所在区域进行像素覆盖后,在图像的任意位置进行背景采样、裁剪后,将裁剪获得的背景采样窗口构成背景照;
将包含耳朵对象的人物侧脸照作为积极图像,将背景照作为消极图像,采用opencv的createsamples工具将积极图像和消极图像构造成规范图像数据集;
其中,N为预设的正整数。
图2展示了步骤S02中,构造规范数据集的过程中,对高分辨率侧脸照进行背景重采样的两种方案。图2中,图片框框内的空白区域表示耳朵对象之外的背景。背景重采样的目的是增加分类器训练时背景照的数量,使得分类器可以学到更多不同种类的背景信息,从而在检测耳朵对象时可以快速地把只包含背景的滑动窗口排除。另外,由于检测时图像中大部分位置都是背景,耳朵对象只在局部区域出现,因此要求图像数据集中包含更多的背景信息,从而降低最终训练得到的耳朵分类器的误识率。本实施例只对尺寸超过6000x4000的高分辨率侧脸照中进行背景重采样,这些侧脸照可能包含一个或多个耳朵对象。对于耳朵对象较少的侧脸照,本发明采用基于矩形碰撞检测机制的背景裁剪技术的方案一完成背景重采样,如图2左图所示,方案一具体如下;根据从添加标签的图像中获取的耳朵对象的位置和尺寸,利用矩形碰撞检测来避免背景采样窗口与耳朵对象区域重叠,即在耳朵对象以外的图像区域完成背景的采样与裁剪,背景采样窗口的尺寸在一定范围内随机选取,同时任意两个背景采样窗口不能完全重叠。对于耳朵对象较多的侧脸照,如果继续基于矩形碰撞检测机制来确定背景采样窗口,效率会比较低,因此采用方案二进行背景重采样:先对耳朵对象所在区域进行像素覆盖,然后在整张侧脸照的任意位置进行背景采样与裁剪。这种方式采样获得的背景采样窗口可能与耳朵对象区域重叠,如图2右图所示。同样为了降低系统开销,背景重采样通过另一个轻量级图像处理库Pillow实现。在背景采样前,首先会根据添加了标签的侧脸图像中的耳朵对象信息来确认需要采用哪种背景采样方案,对于耳朵对象小于N的侧脸照采用方案一,其余侧脸照采用方案二。如果采用方案一,则需要在Pillow背景选取与裁剪工具包中设置碰撞检测参数;如果采用方案二,则需要使用Pillow像素填充函数先对耳朵对象区域进行0像素填充,然后再对背景进行采样与裁剪。其中,N为取值8-12的正整数,优选选择N=10。
进一步作为优选的实施方式,所述步骤S05中,采用多GPU并行和多阶段迁移级联学习的训练方式对异质集成级联分类器进行训练的步骤,具体为:
针对异质集成级联分类器的三个级联分类器,采用三个独立的GPU进行并行训练,并在所有级联分类器均完成训练后,通过CPU进行通信,完成Bagging集成操作;
其中,在每个级联分类器的训练过程中,每完成一个阶段的Adaboost强分类器的训练后,将当前训练获得的Adaboost强分类器的结构和参数进行存储,从而当发生故障重新进行训练,或对异质集成级联分类器进行增量学习训练时,直接将所存储的Adaboost强分类器的结构和参数迁移进来后,继续下一步训练。
通过多GPU并行和多阶段迁移级联学习的训练方式对异质集成级联分类器进行训练,可以缩短训练周期和增强耳朵分类器的扩展能力。具体的,每个级联分类器都被分配至独立的GPU去进行训练,每经过一个周期,都把一个强分类器的结构和模型参数写入硬盘。当发生故障时,算法将从最新的训练阶段开始继续训练,同时,当来了一批新的差异较大的耳朵数据时,可以从当前的耳朵分类器开始进行增量学习,使之可以识别种类更多的耳朵数据。算法还在训练过程中专门设置了校检集,用以避免过拟合,同时在发生欠拟合时,可以及时使用从图像数据库中采样的另一个图像子集进行强化训练,进一步提高耳朵分类器的泛化能力。
图3展示了本发明的异质集成级联分类器的结构。异质集成级联分类器采用了三级集成的机器学习框架,由三个级联分类器组成,每个级联分类器通过若干个Adaboost强分类器串接而成,而所有Adaboost强分类器则由多个弱分类器通过Boosting的方式集成得到。不同的级联分类器组成相异,分别包含不同的底层弱分类器。其中,底层弱分类器为支持向量机的级联分类器专门针对颜色空间标准化的HOG特征集进行训练,因为描述局部形状信息的HOG特征在特征空间中的分布较为密集且分类面较为光滑,更适合使用采用了高斯核的支持向量机对其进行拟合。底层弱分类器为逻辑回归的级联分类器专门针对等价LBP特征集进行训练,因为纹理特征是一种离散特征,分界面较为粗糙且毛刺较多,更适合采用对数变换的逻辑回归进行拟合;底层弱分类器为决策树的级联分类器则根据前人的经验,由于其与Haar特征的结合在人脸检测上取得了巨大的成功,所以它被专门用于对扩展Haar特征集进行训练。底层的弱分类器均通过Adaboost集成学习框架集成为一个强分类器,Adaboost会在每一轮迭代学习一个针对部分错分样本进行拟合的弱分类器,在最终训练结束时,所有学习得到的弱分类器会通过线性加权求和的方式进行集成从而得到一个错分率较小的强分类器。如果只训练一个强分类器仍然容易出现误识现象,因此本方法根据级联分类学习框架,从图像特征集中进行有放回采样,继续训练更多的强分类器,并把这些强分类器级联串接起来,得到分类能力更强的级联分类器。级联分类器可以快速地将背景识别出来,它一般只通过前几个强分类器的判别,即可快速地把不包含耳朵对象的区域筛选掉,这就使得在使用滑动窗口进行对象检测时的效率更高。因为有多个强分类器进行层层判别,所以即便分类器学习了大量的背景模式,其误识率也比单独使用一个强分类器低。现有技术的五官检测算法通常只考虑了对一类图像特征进行训练,只训练一个级联分类器,这仍然存在很大的局限性,比如只考虑了Haar特征的级联分类器会把形状轮廓与耳朵接近的光斑误识为耳朵,而只考虑了HOG特征的级联分类器则会把耳朵的一个局部小区域(比如耳垂)误识为耳朵。因此本发明通过Bagging的方式在级联分类器的基础上再做了一次集成,专门针对三类不同的图像特征训练了三个不同的级联分类器,对图像特征进行了更为全面的学习,然后将这些级联分类器的检测结果通过加权投票的方式进行综合,从而得到一个精准的检测结果。异质集成级联耳朵分类器的各个组成部分均根据sklearn机器学习库的基分类器扩展实现,Adaboost集成学习框架也是从sklearn的Boosting集成学习框架改进而成,另外两级集成架构则由自己实现。
图4中,展示了本发明的多GPU并行和多阶段迁移级联学习的训练方式。由于本发明的三个级联分类器只在训练的最后阶段根据校检集的误识率进行Bagging集成,在前期大部分的训练阶段,各个级联分类器都是独自训练,互不干扰,相互之间也没有任何通信,所以三个级联分类器和相应的特征集可以分配至三个独立的GPU并行训练,当所有级联分类器均完成训练时,最后通过CPU进行通信,完成最终的Bagging集成,并将最终的异质集成级联分类器的模型参数写入硬盘中,得到本发明的训练好的耳朵检测模型。多GPU并行训练大大地缩短了训练周期,使得耳朵检测模型的训练时长控制在可以接受的范围内,它通过opencv提供的并行GPU编程接口实现。另外,因为耳朵监测模型的训练涉及到大量的高分辨率图像,所以训练周期往往较长,在训练过程中很可能出现系统故障甚至硬件故障导致训练中止,此时,一般的机器学习算法会重新开始训练,但由于本发明的分类器模型结构比较复杂且参数较多,如果只是单纯地重新开始训练,会大大提高训练成本。因此,算法在训练过程中采用了多阶段迁移级联学习策略,算法每经过一个阶段的强分类器的训练,都会把当前得到的强分类器的结构和参数写入硬盘,由于三个级联分类器是并行训练的,所以每过一个阶段可能不止一个强分类器的信息被写入硬盘。当故障发生后,因为前面训练得到的结构和参数已被存进硬盘,算法可以把前面各个训练阶段得到的强分类器结构和模型参数迁移进来,从最新的训练阶段开始继续训练,不需要重新进行训练,从而提高了模型训练时的抗故障能力。另外,当耳朵检测模型在差异较大的新数据集上检测能力大幅度下降时,多阶段迁移级联学习策略可以实现对新数据集的增量学习,过去训练所得的模型结构和参数可以直接继承,在对新数据集进行增量训练过程中自动调整,而不需要对模型结构进行手动调整或者对新旧数据集进行完全学习,大大提高了模型的扩展能力。总的来说,本发明的多GPU并行和多阶段迁移级联学习的训练方式可以提高耳朵检测模型的训练效率、稳定性以及扩展能力,降低训练成本。
系统实施例
参照图5,本实施例提供了一种基于机器学习的耳朵检测系统,包括:
至少一个处理器100;
至少一个存储器200,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器100执行,使得所述至少一个处理器100实现所述的一种基于机器学习的耳朵检测方法。
本实施例的基于机器学习的耳朵检测系统,可执行本发明方法实施例所提供的基于机器学习的耳朵检测方法,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
模型实施例
一种基于机器学习的耳朵检测模型,所述耳朵检测模型通过以下步骤训练获得:
从图像数据库中分层随机采样,选取若干个图片数量相等的图像子集,其中,每个图像子集中包含相同比例的人物侧脸照和背景照;
针对图像子集中的每张人物侧脸照,为其耳朵对象添加标签并标记耳朵对象所在区域的位置,并对高分辨率侧脸照的耳朵对象之外的区域进行背景重采样后,构造规范图像数据集;
对规范图像数据集进行图像预处理;
对预处理后的规范图像集中的每张图像,分别提取图像的局部形状信息、表面纹理信息和局部对比度信息共三类图像特征后,对应形成规范图像集的三个图像特征集;
将规范图像集的三个图像特征集输入到异质集成级联分类器中,采用多GPU并行和多阶段迁移级联学习的训练方式对异质集成级联分类器进行训练后,获得耳朵检测模型;
其中,所述图像数据库包括预设比例的包含耳朵对象的人物侧脸照以及不包含耳朵对象的背景照,其中,所述人物侧脸照包含普通侧脸照和高分辨率侧脸照;
所述异质集成级联分类器包括三个组成相异的级联分类器,每个级联分类器均通过若干个Adaboost强分类器串接而成,所有Adaboost强分类器均由多个底层弱分类器通过Boosting的方式集成得到,且不同的级联分类器,分别包含不同的底层弱分类器。
本实施例的基于机器学习的耳朵检测模型,可执行本发明方法实施例所提供的基于机器学习的耳朵检测方法,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换,这些等同的变型或替换均包含在本申请权利要求所限定的范围内。
Claims (9)
1.一种基于机器学习的耳朵检测方法,其特征在于,包括以下步骤:
对目标图像进行预处理;
在预处理后的目标图像上,采用预设的采样窗口依次滑动选取特征向量;
将所选取的特征向量输入到训练好的耳朵检测模型中,筛选出包含耳朵对象的特征向量;
根据筛选出的特征向量,对相应位置的采样窗口进行缩放操作,使其精确匹配耳朵对象所在的区域;
输出包含耳朵对象的采样窗口的位置和尺寸作为耳朵检测结果;
其中所述耳朵检测模型通过以下步骤进行训练获得:
从图像数据库中分层随机采样,选取若干个图片数量相等的图像子集,其中,每个图像子集中包含相同比例的人物侧脸照和背景照;
针对图像子集中的每张人物侧脸照,为其耳朵对象添加标签并标记耳朵对象所在区域的位置,并对高分辨率侧脸照的耳朵对象之外的区域进行背景重采样后,构造规范图像数据集;
对规范图像数据集进行图像预处理;
对预处理后的规范图像集中的每张图像,分别提取图像的局部形状信息、表面纹理信息和局部对比度信息共三类图像特征后,对应形成规范图像集的三个图像特征集;
将规范图像集的三个图像特征集输入到异质集成级联分类器中,采用多GPU并行和多阶段迁移级联学习的训练方式对异质集成级联分类器进行训练后,获得耳朵检测模型;
其中,所述图像数据库包括预设比例的包含耳朵对象的人物侧脸照以及不包含耳朵对象的背景照,其中,所述人物侧脸照包含普通侧脸照和高分辨率侧脸照;
所述异质集成级联分类器包括三个组成相异的级联分类器,每个级联分类器均通过若干个Adaboost强分类器串接而成,所有Adaboost强分类器均由多个底层弱分类器通过Boosting的方式集成得到,且不同的级联分类器,分别包含不同的底层弱分类器。
2.根据权利要求1所述的一种基于机器学习的耳朵检测方法,其特征在于,还包括以下步骤:
根据耳朵检测结果,对目标图像进行分割,提取出包含耳朵的检测区域。
3.根据权利要求1所述的一种基于机器学习的耳朵检测方法,其特征在于,所述对目标图像进行预处理的步骤,其具体为:
依次对目标图像进行压缩、滤波处理以及去均值化处理。
4.根据权利要求1所述的一种基于机器学习的耳朵检测方法,其特征在于,所述对规范图像数据集进行图像预处理的步骤,具体包括:
首先,针对规范图像数据集中的高分辨率侧脸照,采用PCA降维算法针对图像的不同划分区域进行压缩;
其次,对规范图像数据集中的所有图像进行滤波;
最后,对所有图像进行去均值化处理。
5.根据权利要求1所述的一种基于机器学习的耳朵检测方法,其特征在于,所述局部形状信息通过HOG特征描述,所述表面纹理信息通过等价LBP特征描述,所述局部对比度信息通过Haar特征描述,三类图像特征均通过opencv对应的特征描述器进行提取。
6.根据权利要求1所述的一种基于机器学习的耳朵检测方法,其特征在于,所述针对图像子集中的每张人物侧脸照,为其耳朵对象添加标签并标记耳朵对象所在区域的位置,并对高分辨率侧脸照的耳朵对象之外的区域进行背景重采样后,构造规范图像数据集的步骤,具体包括:
针对图像子集中的每张人物侧脸照,采用opencv的annotation工具为其耳朵对象添加标签并标记耳朵对象所在区域的位置;
针对耳朵对象数量小于N的高分辨率侧脸照,采用矩形碰撞检测方法进行背景采样、裁剪后,将裁剪获得的背景采样窗口构成背景照;
针对耳朵对象数量大于N的高分辨率侧脸照,将其耳朵对象所在区域进行像素覆盖后,在图像的任意位置进行背景采样、裁剪后,将裁剪获得的背景采样窗口构成背景照;
将包含耳朵对象的人物侧脸照作为积极图像,将背景照作为消极图像,采用opencv的createsamples工具将积极图像和消极图像构造成规范图像数据集;
其中,N为预设的正整数。
7.根据权利要求1所述的一种基于机器学习的耳朵检测方法,其特征在于,所述采用多GPU并行和多阶段迁移级联学习的训练方式对异质集成级联分类器进行训练的步骤,具体为:
针对异质集成级联分类器的三个级联分类器,采用三个独立的GPU进行并行训练,并在所有级联分类器均完成训练后,通过CPU进行通信,完成Bagging集成操作;
其中,在每个级联分类器的训练过程中,每完成一个阶段的Adaboost强分类器的训练后,将当前训练获得的Adaboost强分类器的结构和参数进行存储,从而当发生故障重新进行训练,或对异质集成级联分类器进行增量学习训练时,直接将所存储的Adaboost强分类器的结构和参数迁移进来后,继续下一步训练。
8.一种基于机器学习的耳朵检测系统,其特征在于,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如权利要求1-7任一项所述的一种基于机器学习的耳朵检测方法。
9.一种基于机器学习的耳朵检测模型,其特征在于,所述耳朵检测模型通过以下步骤训练获得:
从图像数据库中分层随机采样,选取若干个图片数量相等的图像子集,其中,每个图像子集中包含相同比例的人物侧脸照和背景照;
针对图像子集中的每张人物侧脸照,为其耳朵对象添加标签并标记耳朵对象所在区域的位置,并对高分辨率侧脸照的耳朵对象之外的区域进行背景重采样后,构造规范图像数据集;
对规范图像数据集进行图像预处理;
对预处理后的规范图像集中的每张图像,分别提取图像的局部形状信息、表面纹理信息和局部对比度信息共三类图像特征后,对应形成规范图像集的三个图像特征集;
将规范图像集的三个图像特征集输入到异质集成级联分类器中,采用多GPU并行和多阶段迁移级联学习的训练方式对异质集成级联分类器进行训练后,获得耳朵检测模型;
其中,所述图像数据库包括预设比例的包含耳朵对象的人物侧脸照以及不包含耳朵对象的背景照,其中,所述人物侧脸照包含普通侧脸照和高分辨率侧脸照;
所述异质集成级联分类器包括三个组成相异的级联分类器,每个级联分类器均通过若干个Adaboost强分类器串接而成,所有Adaboost强分类器均由多个底层弱分类器通过Boosting的方式集成得到,且不同的级联分类器,分别包含不同的底层弱分类器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810588093.2A CN109086657B (zh) | 2018-06-08 | 2018-06-08 | 一种基于机器学习的耳朵检测方法、系统及模型 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810588093.2A CN109086657B (zh) | 2018-06-08 | 2018-06-08 | 一种基于机器学习的耳朵检测方法、系统及模型 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109086657A CN109086657A (zh) | 2018-12-25 |
CN109086657B true CN109086657B (zh) | 2019-11-01 |
Family
ID=64839793
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810588093.2A Active CN109086657B (zh) | 2018-06-08 | 2018-06-08 | 一种基于机器学习的耳朵检测方法、系统及模型 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109086657B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112233795A (zh) * | 2020-11-19 | 2021-01-15 | 吾征智能技术(北京)有限公司 | 一种基于耳朵纹理特征的疾病预测系统 |
CN113111960B (zh) * | 2021-04-25 | 2024-04-26 | 北京文安智能技术股份有限公司 | 图像处理方法和装置以及目标检测模型的训练方法和系统 |
CN113887428B (zh) | 2021-09-30 | 2022-04-19 | 西安工业大学 | 一种基于上下文信息的深度学习成对模型人耳检测方法 |
CN114399567B (zh) * | 2022-01-11 | 2024-02-20 | 武汉华信联创技术工程有限公司 | 高分辨率格点分布图显示方法及相关设备 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101398893B (zh) * | 2008-10-10 | 2010-09-01 | 北京科技大学 | 一种改进AdaBoost算法的鲁棒人耳检测方法 |
CN101996326A (zh) * | 2009-08-26 | 2011-03-30 | 索尼株式会社 | 多类目标的检测装置及检测方法 |
CN102004924A (zh) * | 2010-11-03 | 2011-04-06 | 无锡中星微电子有限公司 | 一种人头检测系统及方法 |
CN102163281B (zh) * | 2011-04-26 | 2012-08-22 | 哈尔滨工程大学 | 基于AdaBoost框架和头部颜色的实时人体检测方法 |
CN102831447B (zh) * | 2012-08-30 | 2015-01-21 | 北京理工大学 | 多类别面部表情高精度识别方法 |
US9589351B2 (en) * | 2014-09-10 | 2017-03-07 | VISAGE The Global Pet Recognition Company Inc. | System and method for pet face detection |
CN105046282B (zh) * | 2015-08-27 | 2018-10-26 | 哈尔滨工程大学 | 一种基于手形块特征和AdaBoost分类器的手部检测方法 |
CN106570439B (zh) * | 2015-10-09 | 2020-06-19 | 腾讯科技(深圳)有限公司 | 一种车辆检测方法及装置 |
-
2018
- 2018-06-08 CN CN201810588093.2A patent/CN109086657B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN109086657A (zh) | 2018-12-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109086657B (zh) | 一种基于机器学习的耳朵检测方法、系统及模型 | |
CN109697416B (zh) | 一种视频数据处理方法和相关装置 | |
CN107016405B (zh) | 一种基于分级预测卷积神经网络的害虫图像分类方法 | |
Rachmadi et al. | Vehicle color recognition using convolutional neural network | |
CN108520226B (zh) | 一种基于躯体分解和显著性检测的行人重识别方法 | |
CN105095866B (zh) | 一种快速行为识别方法和系统 | |
Cao et al. | Marine animal classification using combined CNN and hand-designed image features | |
Huang et al. | Real-time classification of green coffee beans by using a convolutional neural network | |
CN109886153B (zh) | 一种基于深度卷积神经网络的实时人脸检测方法 | |
CN110929593A (zh) | 一种基于细节辨别区别的实时显著性行人检测方法 | |
CN109190456B (zh) | 基于聚合通道特征和灰度共生矩阵的多特征融合俯视行人检测方法 | |
CN110334703B (zh) | 一种昼夜图像中的船舶检测和识别方法 | |
Yoshihashi et al. | Construction of a bird image dataset for ecological investigations | |
CN110599463A (zh) | 一种基于轻量级联神经网络的舌像检测及定位算法 | |
Diyasa et al. | Multi-face Recognition for the Detection of Prisoners in Jail using a Modified Cascade Classifier and CNN | |
CN111340019A (zh) | 基于Faster R-CNN的粮仓害虫检测方法 | |
CN113450369A (zh) | 一种基于人脸识别技术的课堂分析系统及方法 | |
CN111783681A (zh) | 大规模人脸库识别方法、系统、计算机设备及存储介质 | |
CN112307937A (zh) | 一种基于深度学习的身份证质检方法及系统 | |
Wang et al. | Pig face recognition model based on a cascaded network | |
CN110618129A (zh) | 一种电网线夹自动检测与缺陷识别方法及装置 | |
Abesinghe et al. | Developing A selective tea plucking mechanism using image processing For A drone-based tea harvesting machine | |
CN111860165B (zh) | 一种基于视频流的动态人脸识别方法和装置 | |
Li et al. | Face detection technology based on combining skin color model with improved adaboost algorithm | |
Rao et al. | Convolutional Neural Network Model for Traffic Sign Recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |