CN110363812A

CN110363812A - 一种图像识别方法

Info

Publication number: CN110363812A
Application number: CN201910620339.4A
Authority: CN
Inventors: 常政威; 陈缨; 彭倩; 蒲维; 彭倍; 刘静; 葛森; 刘海龙; 陈凌; 王大兴; 崔弘; 刘曦
Original assignee: SICHUAN ARTIGENT ROBOTICS EQUIPMENT Co Ltd; Electric Power Research Institute of State Grid Sichuan Electric Power Co Ltd
Current assignee: SICHUAN ARTIGENT ROBOTICS EQUIPMENT Co Ltd; Electric Power Research Institute of State Grid Sichuan Electric Power Co Ltd
Priority date: 2019-07-10
Filing date: 2019-07-10
Publication date: 2019-10-22

Abstract

本发明公开了一种图像识别方法，涉及机器人图像识别技术领域，解决人员遮挡和环境背景复杂造成图像识别的准确率普遍较低的问题。本发明所述方法是基于统计学习的人员检测方法对识别目标进行检测，包括以下步骤：步骤1，获取目标图像并将目标图像组成训练样本集；步骤2，对含有识别目标和不含有识别目标的目标图像所组成的训练样本集进行特征提取得到特征集；步骤3，使用分类算法对特征集进行统计学习后得到训练分类器；步骤4，对目标图像进行滑动窗口扫描得到扫描后的图像，用训练分类器对扫描后的图像进行判别后确认是否包含目标得到行人定位。本发明能更好地解决人员遮挡和环境背景复杂难题。

Description

一种图像识别方法

技术领域

本发明涉及机器人图像识别技术领域，具体涉及人员检测识别的一种图像识别方法。

背景技术

在变电站日常运行中变压器温升指标是衡量其带载能力的一项非常重要试验项目,考验变压器设计的结构及冷却系统是否合理。因此对变压器进行温升试验是非常有必要的。配电变压器温升试验主要是检测顶层油温升和高、低压绕组的温升大小是否符合规范或技术协议书的要求。配电变压器温升试验设备在搬入和搬出两个过程均需要有人协助监护叉车搬运设备；在试验进行阶段需要时刻监视试验场地，观察是否有异物进入安全围栏区域，试验线空间位置是否发生较大变化甚至掉落，试验设备温度是否发生较大变化、出现短路电弧，设备、接线冒烟等。由于试验过程比较漫长，长达10几个小时，如果安排专人看守耗时耗力，而且人员难免会在长时间工作压力下产生疲惫、困乏的状态，严重影响试验的安全性。而现有技术中智能安全监督机器人能够通过自主导航定位的方式在试验场地周围进行智能安监巡视，人工智能机器人替代人工进行试验的安全监督，能够有效避免漫长时间中工作人员的困乏、疲惫，也能监测到试验场地中细微的试验接线变化，同时也不惧现场的高压环境，能够节约人力物力，更大限度的保障试验的安全。

目前应用于变电站施工的机器人智能图像识别系统拟采用高分辨率视频传感设备，采用建立姿态特征库的方式，通过基于规则的特征识别方式提取视频源中的姿态特征，然后比对姿态特征库，通过神经卷积网络对视频姿态归类，从而达到识别的目的。但实际使用中，由于人员遮挡和环境背景复杂造成图像识别的准确率普遍较低。

发明内容

本发明目的在于提供一种图像识别方法，解决人员遮挡和环境背景复杂造成图像识别的准确率普遍较低的问题。

本发明通过下述技术方案实现：

一种图像识别方法，所述方法是基于统计学习的人员检测方法对识别目标进行检测，包括以下步骤：

步骤1，获取目标图像并将目标图像组成训练样本集；

步骤2，对含有识别目标和不含有识别目标的目标图像所组成的训练样本集进行特征提取得到特征集；

步骤3，使用分类算法对特征集进行统计学习后得到训练分类器；

步骤4，对目标图像进行滑动窗口扫描得到扫描后的图像，用训练分类器对扫描后的图像进行判别后确认是否包含目标得到行人定位。

经过长期的研究和实践，本申请的发明人发现，目前应用于变电站施工的机器人智能图像识别系统拟采用高分辨率视频传感设备在实际使用中图像识别的准确率普遍较低。本申请提供一种图像识别方法，首先把含有识别目标和不含有识别目标的图片所组成的训练样本集进行特征提取，再使用分类算法对这些特征进行统计学习后得到分类器，然后对输入图像进行滑动窗口扫描，用训练好的分类器进行判别后可确认是否包含目标。把图像中的抽象复杂的高维信息转化为适合计算机处理的低维信息，能更好地解决人员遮挡和环境背景复杂难题。

进一步的，所述方法包括训练过程和检测过程，所述训练过程包括获取训练样本并从训练样本中获取人体正样本和背景负样本，对人体正样本和背景负样本进行特征提取得到特征集，使用分类算法对该特征集进行统计学习后得到训练分类器；所述检测过程包括获取测试样本并测试样本进行图像预处理得到预处理后图像，对预处理后图像进行特征提取得到特征集，使用训练分类器对特征集进行分类器检测以得到行人定位。

进一步的，还包括使用HOG和SVM进行人员检测，所述HOG用于特征提取。

进一步的，所述HOG用于特征提取中包括对输入的视频帧进行灰度化处理、利用Gamma校正法对图片颜色空间进行归一化、计算图像的梯度、Cell单元格分割、构建Cell单元梯度方向直方图、将HOG状态描述器转换为Cell单元直方图所形成的一个向量和形成特征向量。

优选的，SVM的核函数采样线性核函数。

进一步的，还包括从样本集中提取其HOG特征,并给正样本添加标签1，负样本添加标签2以区分；将所得的HOG特征及标签输入到线性SVM中进行第一次训练，生成基本分类器；用基本分类器对负样本进行识别，提取误识别区域，作为新负样本加入到原负样本集，形成最终样本库；对更新后的样本集再次提取HOG特征，添加标签，输入SVM进行二次训练，生成最终分类器，使用最终分类器进行行人定位检测。

本发明具有如下的优点和有益效果：把图像中的抽象复杂的高维信息转化为适合计算机处理的低维信息，能更好地解决人员遮挡和环境背景复杂难题。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。在附图中：

图1为本发明的流程图；

图2为本发明的基于统计学习的人员检测流程图；

图3为本发明的HOG特征计算流程图；

图4为本发明的梯度方向块划分示意图；

图5为本发明的矩形区间示意图；

图6为本发明的环形区间示意图；

图7为本发明的Block与Cell关系示意图；

图8为本发明的线性分类器示意图；

图9为本发明的支持向量示意图；

图10为本发明的线性可分情况下最优分类线示意图；

图11为本发明的线性不可分问题示意图；

图12为本发明的原空间映射到高维特征空间示意图；

图13为本发明的SVM分类器模型流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

在以下描述中，为了提供对本发明的透彻理解阐述了大量特定细节。然而，对于本领域普通技术人员显而易见的是：不必采用这些特定细节来实行本发明。在其他实例中，为了避免混淆本发明，未具体描述公知的结构、电路、材料或方法。

在整个说明书中，对“一个实施例”、“实施例”、“一个示例”或“示例”的提及意味着：结合该实施例或示例描述的特定特征、结构或特性被包含在本发明至少一个实施例中。因此，在整个说明书的各个地方出现的短语“一个实施例”、“实施例”、“一个示例”或“示例”不一定都指同一实施例或示例。此外，可以以任何适当的组合和、或子组合将特定的特征、结构或特性组合在一个或多个实施例或示例中。此外，本领域普通技术人员应当理解，在此提供的示图都是为了说明的目的，并且示图不一定是按比例绘制的。这里使用的术语“和/或”包括一个或多个相关列出的项目的任何和所有组合。

在本发明的描述中，需要理解的是，术语“前”、“后”、“左”、“右”、“上”、“下”、“竖直”、“水平”、“高”、“低”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明保护范围的限制。

实施例1

步骤1，获取目标图像并将目标图像组成训练样本集；

进一步的，还包括使用HOG和SVM进行人员检测，所述HOG用于特征提取。优选SVM的核函数采样线性核函数。进一步的，还包括从样本集中提取其HOG特征,并给正样本添加标签1，负样本添加标签2以区分；将所得的HOG特征及标签输入到线性SVM中进行第一次训练，生成基本分类器；用基本分类器对负样本进行识别，提取误识别区域，作为新负样本加入到原负样本集，形成最终样本库；对更新后的样本集再次提取HOG特征，添加标签，输入SVM进行二次训练，生成最终分类器，使用最终分类器进行行人定位检测。

HOG(Histogram of Oriented Gradient)的中文全称为梯度方向直方图，是一种经典的对形状特征(尤其是人体形状特征)进行描述的方法。HOG特征提取流程图如图3所示。

2005年Dalal和Triggs提出了梯度方向直方图的概念，并将其运用于行人检测。后来HOG方法被改进为共现Co HOG和扩展Co HOG(ECo HOG)。与其它特征算子相比较，HOG有很多适合做人员检测的优点。比如，HOG特征提取是对输入图像的局部单元格上进行一些操作，而不是对图像整体或者大面积进行操作，所以HOG特征具有良好的光学不变形和几何不变性。本申请HOG特征提取算法包括以下步骤；

(1)对输入的视频帧进行灰度化处理。输入的图像是RGB格式，但是计算HOG特征时不需要图片的彩色信息，所以将图像转换为x,y,z(灰度)的三维图像。图像的灰度化还可以减少工作量，便于处理。

(2)利用Gamma校正法对图片颜色空间进行归一化。颜色空间归一化是减小图像光照和图像局部阴影影响的有效办法。实质就是调节图像的对比度。

(3)计算图像的梯度。梯度方向直方图特征提取最重要的是图像梯度的计算，包括图像的横向梯度值和纵向梯度值。首先计算出每个像素的横向梯度值和纵向梯度值，进而计算出每个像素的总梯度值，即像素点的梯度幅值。

图像中某个像素点值为H(x，y)；

横向梯度值的公式为：

G_x(x，y)＝H(x+1，y)-H(x-1，y) (1)；

纵向梯度值的公式为：

G_y(x，y)＝H(x，y+1)-H(x，y-1) (2)；

像素点(x，y)处的梯度幅值的公式为：

梯度方向的公式为：

(4)Cell单元格分割。把图像均匀分割成多个没有交集的Cell单元格，其中每个Cell单元格占8*8个像素大小。Cell单元格为HOG特征检测的最小单位。

(5)构建Cell单元梯度方向直方图。第4步我们已经得到了8*8的Cell单元格，现在将Cell单元格的360°(2π)的梯度方向平均分成12份，即为12个bin块。其中每个bin块占30°。将第3步中每个像素的梯度利用双线性内插法加权投影到属于自己的bin块中，这个加权投影值是第3步中计算得到的梯度幅值。如图4所示为划分的梯度方向块。

(6)由于光照强度和背景环境的影响，梯度强度的变化范围易发生不合理的扩大，因此将空间相邻的数个Cell为一个相对较大的Block块，进而将HOG状态描述器转换为Cell单元直方图所形成的一个向量。当单个Cell单元进行多次向量输出时，均经过由其计算得到的特征描述器。常见的HOG区间描述形式主要包括矩形区间(R-HOG)和环形区间(C-HOG)，如图5和图6所示。

R-HOG区间可以划分为大小均匀的方格块，其主要的参数为：单个Block的Cell组成个数、单个Cell的像素点的组成个数、单个Cell的梯度方向直方图个数。通常认为在检测窗口像素分布为64*128时，对行人进行跟踪检测的规划最优参数为：2×2Cells/Block、8×8Pixels/Cell、9个Cell梯度方向。在上述参数下，共有互不重叠的8×16个Cell，相互重叠的7×15个Block。此时，Cell与Block的关系如图7所示，其中Block1的范围为C1C2、C5C6，同理Block4的范围为C5C6、C9C10。采用R-HOG进行计算时，每个Block均被添加一个高斯空域窗口以进行直方图处理，进而有效降低区域边缘像素点的权重。R-HOG方法是结合了HOG检测算法原理的一种划分方式，计算条件相对简单，并无一定的排序规则。

C-HOG区间的表达存在两种具有本质区别的方式：一种中心细胞被分割，另一种中心细胞无特殊处理。C-HOG区间的描述参数主要有：角度盒子的个数、半径盒子个数、中心盒子的半径、半径的伸展因子。根通常认为在检测窗口像素分布为64*128时，对行人进行跟踪检测的规划最优参数为：4个角度盒子、2个半径盒子、中心盒子半径为4个像素、伸展因子为2。与R-HOG相比，C-HOG不需要对Block添加高斯空域窗口。与基于形状上下文的R-HOG方法仅使用单一局部边缘信息进行计数不同，C-HOG所划分区域中Cell单元存在着大量固定出入口。

(7)形成特征向量(Feature Vector)。在完成将像素梯度信息非线性集中于Cell及将Cell划分为交叠Block后，需要对Block内的Cell梯度信息进行归一化运算，常见的三种归一化运算如公式5、6、7所示：

L1-norm:v→v/||v||₁+ε (6)

式中，v表示能够完整描述一个block区间的全部Cell直方图信息的待归一化处理向量；||v||_k表示v的k阶范数，k的取值为1、2；为保证当||v||_k为0时公式运算的常量参数，其值本身具有相对可忽略的小数量级。将归一化后的所有HOG特征描述符整理组合，形成了该图像的特征向量。

SVM是一种二分类算法，图8是一个在二维空间中的线性分类器，中间的直线是一个完全分离两类样本的分类函数。这一类函数有一个统一的名称为超平面(Hyper Plane)。但很多平面都可以达到超平面的效果，超平面并不是唯一的，而SVM的核心思想便是求最优分类超平面。

令分类函数为f(x)＝ω^Tx+b。如果f(x)＝0，那么x是位于超平面上的点。对于所有满足f(x)<0的点，其对应的y＝-1，而f(x)>0则对应y＝1的数据点，如图9所示。支持向量机是区间值最大化,并在虚线上的点被称为(SupprotVerctor，SV)。

设每一个样本由一个向量和一个标记组成。如下：D_i＝(x_i，y_i)，这里的y_i是分类标记，x_i是文本向量。定义某个样本点到某个超平面的间隔为δ_i＝y_i(w*x_i+b)。

现在把w和b进行一下归一化，即用w/||w||和b/||b||分别代替原来的w和b，那么间隔就可以写成δ_i＝|f(x_i)|/||w||，这一间隔被称为几何间隔(geometricalmargin)，几何间隔表示了点与超平面之间的的欧氏距离。为一个数据点进行的分类，当它的距离越大的时候，分类的准确率就越大。本文的最优分类超平面是要最大化这个距离值，如图10。

几何间隔δ_几何＝|f(x)|/||w|,几何间隔与||w||是成反比的，而且||w||描述的是向量的长度，是非负的，因此，间隔被固定为1，最大化几何间隔与最小化||w||效果是完全相同的。SVM就是要寻求最小的||w||。对于这个目标，有一个与其等价的目标可以替代，那是：min1/2||w||。同时满足条件的公式为:

y_i[(w*x_i)+b]≥1(i＝1,2......l)(l是总的样本数) (8)；

即：

y_i[(w*x_i)+b]-1≥0 (9)；

因此这一问题的数学形式，就是一个带约束的最小值的问题的公式为：

s.t.y_i((w*x_i)+b)-1≥0(i＝1,2......l) (10)；

在这个问题之中，目标函数为w的二次函数，自变量为w，所有的约束条件都是关于w的线性函数。

式子中的a_i是拉格朗日乘子，n是总样本点的个数，y_i是第i个样本的标签，x_i是样本点。则：

对最有分类超平面的求取便变成了对这一内积的求解。

以上都是关于线性可分情况下的SVM讲解，但不是所有的分类情况都是线性可分的，接下来是关于面对线性不可分情况时相应的改进。

支持向量机的精华是非线性的,即支持向量机很好地处理样本数据的线性不可分离的情况。有一种线性不可分问题如图11所示,针对这一问题,根据模式识别理论,将低维空间中的线性不可分离模式映射到高维特征空间。如图12所示,可以实现线性可分。而找到x到y映射方法就是解决这一问题最关键的问题了。

在高维特征空间里的线性函数的公式为：

以一个低维空间里的函数来代替高维空间的函数的公式为：

从以上两个式子可以发现，两个式子中的y，a，b全都是一样的，也就是说，虽然该问题是线性不可分的，但是，凡是要求内积的时候就用你选定的K(x_i，x)来算，就可以硬把它当成是线性问题来进行求解。这里的K(x_i，x)便是核函数。同时，以核函数代替内积运算，不禁找到了低维空间向高维空间映射的问题，也解决了由于维数过高而引发的维数灾难问题。所以核函数如何选择对于分类器的性能有十分重要影响。

核函数的本质可以概括为如下三点：

(1)面对线性不可分情况，通常的做法是将样本特征映射到高维空间。转化为线性可分问题；

(2)映射过程中可能会遇到维度过高的问题；

(3)核函数也是将特征从低维到高维的转换，但避免了直接进行高维空间中的复杂计算，它可以在低维上计算,但本质上可以在高维上显示分类效果，以此方式避免了维度灾难问题。核函数的作用是将低维输入空间的线性不可分问题映射到高维线性空间,使之线性可分。核函数的性质决定了映射空间的性质。SVM常用到的核函数包括以下几种：

(1)线性核函数线

性核函数是最简单的核函数，公式为：

K(x_i,x)＝x_i*x (15)；

该核函数十分简单，主要被用于应对线性可分的情形。它在原始空间中寻找最优线性分类器，在原空间中可以找到最优线性分类器,具有速度快、参数少等优点。它主要用于线性可分离的情况，分类效果非常理想。

(2)多项式核函数

多项式核函数主要适用于正交归一的问题中,公式为:

K(x_i,x)＝(ax^Tx_i+c)^d (16)；

映射的维度会随着参数d的增大而指数倍增长，计算量也会越来越大。而如果d的取值过于大，学习的复杂性也会过高，容易出现过拟合的现象。

(3)高斯核函数

公式为：

K(x_i,x)＝exp(-γ||x-x_i||²) (17)；

另一种表达形式为：

K(x_i,x)＝exp{(||x-x_i||²/(2σ²)} (18)；

高斯核函数面对噪声会有极强的抗干扰的能力，参数δ决定了核函数的作用范围，参数δ越大，作用范围就越小，局部性很强。该参数十分适合于线性不可分的分类问题中。

(4)sigmoid核函数

sigmoid核函数来源于CNN。公式为：

K(x_i,x)＝tanh(ax^Tx_i+c) (19)；

采用Sigmoid函数作为SVM的核函数时，SVM实现的是一种多层感知器的卷积神经网络。选择核函数主要根据以下二点：

(1)是否适合需要的分类情况；

(2)误差最小的即为效果最好的核函数。

每一种核函数都有自己的特点，核函数的选择很大程度上影响着分类器的非线性，即影响着最终结果。本次选用的是线性核函数。生成SVM分类器模型其流程图如图13所示。首先,对于最终形成的样本库中所有的正负样本,提取其HOG特征,并给正样本添加标签1,负样本添加标签-以区分；随后,将所得的HOG特征及标签输入到线性SVM中进行第一次训练，生成基本分类器；接着,用基本分类器对负样本进行识别,提取误识别区域,作为新负样本加入到原负样本集,形成最终样本库；最后,对更新后的样本集再次提取HOG特征,添加标签,输入SVM进行二次训练,生成最终分类器,以进行行人检测。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种图像识别方法，其特征在于，所述方法是基于统计学习的人员检测方法对识别目标进行检测，包括以下步骤：

步骤1，获取目标图像并将目标图像组成训练样本集；

2.根据权利要求1所述的一种图像识别方法，其特征在于，所述方法包括训练过程和检测过程，所述训练过程包括获取训练样本并从训练样本中获取人体正样本和背景负样本，对人体正样本和背景负样本进行特征提取得到特征集，使用分类算法对该特征集进行统计学习后得到训练分类器；所述检测过程包括获取测试样本并测试样本进行图像预处理得到预处理后图像，对预处理后图像进行特征提取得到特征集，使用训练分类器对特征集进行分类器检测以得到行人定位。

3.根据权利要求1所述的一种图像识别方法，其特征在于，还包括使用HOG和SVM进行人员检测，所述HOG用于特征提取。

4.根据权利要求3所述的一种图像识别方法，其特征在于，所述HOG用于特征提取中包括对输入的视频帧进行灰度化处理、利用Gamma校正法对图片颜色空间进行归一化、计算图像的梯度、Cell单元格分割、构建Cell单元梯度方向直方图、将HOG状态描述器转换为Cell单元直方图所形成的一个向量和形成特征向量。

5.根据权利要求3所述的一种图像识别方法，其特征在于，SVM的核函数采样线性核函数。

6.根据权利要求3所述的一种图像识别方法，其特征在于，还包括从样本集中提取其HOG特征,并给正样本添加标签1，负样本添加标签2以区分；将所得的HOG特征及标签输入到线性SVM中进行第一次训练，生成基本分类器；用基本分类器对负样本进行识别，提取误识别区域，作为新负样本加入到原负样本集，形成最终样本库；对更新后的样本集再次提取HOG特征，添加标签，输入SVM进行二次训练，生成最终分类器，使用最终分类器进行行人定位检测。