CN112560870B

CN112560870B - 一种用于水下复杂环境中的图像目标识别方法

Info

Publication number: CN112560870B
Application number: CN202011484533.3A
Authority: CN
Inventors: 徐健; 张高兴; 邢文; 张耕实; 李娟�
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2020-12-15
Filing date: 2020-12-15
Publication date: 2022-04-29
Anticipated expiration: 2040-12-15
Also published as: CN112560870A

Abstract

本发明公开了一种用于水下复杂环境中的图像目标识别方法，包括：步骤1：采用gamma变换对图片进行预处理；步骤2：提取图片方向梯度直方图特征；步骤3：根据图片模糊度进行特征选择；步骤4：使用支持向量机进行训练和测试；步骤5：利用步骤4训练好的支持向量机进行图像识别。本发明可以克服目前水下图像库不多，图片背景复杂，理想的水下图片稀少的困难，降低了在使用支持向量机进行水下图像目标识别对于图像的要求，而且还能保证快速性和准确性，同时降低目标特征维数，避免了在使用机器学习进行目标识别时由于样本数量远小于特征维数造成过拟合，提高了水下目标识别的速度和准确率。

Description

一种用于水下复杂环境中的图像目标识别方法

技术领域

本发明涉及一种用于水下复杂环境中的图像目标识别方法，属于水下图像目标识别领域。

背景技术

水下图像目标识别是图像识别领域的重要分支，具有广阔的应用前景，使用传统机器学习手段进行水下图像目标识别无需大量的学习数据，能很好解决水下图像可用样本数据量不足的问题，但同时也带来了新的困扰，为了能够从少量学习数据中准确的提出目标特征，要求图片中背景、光照等干扰的特征尽可能的少，对图片质量要求较高，否则将会影响图像目标识别的准确率。为了使图像目标识别能克服当前理想目标图像难以获得的困难，能够切合实际环境情况，满足实际应用需求，一种基于机器学习的水下图像目标检测方法必须能够从数量有限而且背景复杂的图片中快速准确的提取出目标特征，确保该方法在非理想情况下的快速性和准确性。

发明内容

针对上述现有技术，本发明要解决的技术问题是提供一种用于水下复杂环境中的图像目标识别方法，根据图片中不同区域模糊度不同的特点，实现从背景复杂的水下图像中快速且准确的提取待识别目标的特征，降低目标特征维数。

为解决上述技术问题，本发明的一种用于水下复杂环境中的图像目标识别方法，包括以下步骤：

步骤1：采用gamma变换对图片进行预处理；

步骤2：提取图片方向梯度直方图特征，具体为：设置滑框Block和单元框Cell的大小和移动步长，先提取Cell内的方向梯度直方图特征，然后组成Block的特征，当Block划过整张图片，把所有Block的特征组合得到图片的方向梯度直方图特征向量；

步骤3：根据图片模糊度进行特征选择，利用拉普拉斯算子计算每一个Block的模糊度，滑框内的每个像素点的二阶导数满足：

其中，f(x,y)表式图片中(x,y)处像素点的灰度值；

求得一个滑框内所有像素点的二阶导数，然后求方差得到每个像素点的模糊度；设置覆盖目标的滑框数量为m，选取模糊度较大的m个模糊度，然后按照每个模糊度对应像素点的滑框编号选取对应的HOG特征子向量并组合成一个一维的特征向量；

步骤4：使用支持向量机进行训练和测试，具体为：首先设置支持向量机的高斯核函数，为参数γ和惩罚系数C赋予初值，然后使用步骤3得到的特征向量进行k-fold交叉折叠训练，对支持向量机参数进行优化，并获得所需要的支持向量；

步骤5：利用步骤4训练好的支持向量机进行图像识别，具体为：待识别图像经过步骤1至步骤3得到对应的特征向量，将特征向量输入步骤4训练得到的支持向量机中，输出识别结果。

本发明还包括：

步骤1中采用gamma变换对水下图片进行预处理具体为：将图片先转化为单通道的灰度图，然后转化为矩阵形式，每一个元素是一个像素的灰度值，计算每个像素的新的灰度值，然后将图像进行还原，新的灰度值满足：

其中，输入量为图片中每一个像素点的灰度值g，γ为固定值。

本发明的有益效果：本发明在使用机器学习对图像中水下目标进行分类和识别时，从图片中提取最有效的特征用于机器学习中，以提高水下目标识别的快速性和准确性。本方法可以从背景复杂的水下图片中很好的提取出待识别目标的特征，然后通过支持向量机(Support Vector Machine,SVM)进行学习，实现目标识别功能。通过本方法可以克服目前水下图像库不多，理想的水下图片稀少的困难，降低了在使用支持向量机进行水下图像目标识别对于图像的要求，而且还能保证快速性和准确性。满足使用光学图像在水下目标识别实际应用中的需求，降低目标特征维数，避免了在使用机器学习进行目标识别时由于特征维数远远大于样本数量造成过拟合，提高了水下目标识别的速度和准确率。

本发明能够从包含有复杂背景的水下目标图像中，提取出低维且有效的方向梯度直方图特征用于多目标识别。该方法使用的目标图像更加符合实际情况，而且能保证快速性和准确性，因此更具有实际运用的意义和价值。此外，本方法使用的特征选择手段降低了使用机器学习进行水下图像目标识别时对图像的质量要求，节省了寻找训练样本的时间，便于提高开发者工作效率。

附图说明

图1是HOG特征与模糊度提取图；

图2是HOG特征选择示意图；

图3是本发明提出的SVM训练方法流程图；

图4是本发明采用SVM进行目标识别的流程图。

具体实施方式

下面结合附图对本发明具体实施方式做进一步说明。

本发明的目的是这样实现的：本方法首先通过对水下图像进行预处理，统一图片的视觉效果，改善了光照不足或光照过量对图片检测带来的不利影响；然后通过提取图像的方向梯度直方图(Histogram of Oriented Gradient,HOG)特征，并根据图像不同区域的模糊程度进行特征的选择和降维；最后，利用获得的特征对多分类支持向量机(SVM)进行训练已得到多类水下图像目标识别所需的特征向量。

由于拍摄的时间、地点、天气以及水深等原因导致的光照条件不同使得水下图片的色温、曝光度以及明暗度差异较大，造成了同一目标可能提取的特征值会有很大的差异，这显然不利于后期支持向量机的训练和识别。由于我们不使用颜色特征，所以本方法首先将RGB图像转化为灰度图像，再使用gamma变换的方式对水下图片进行归一化预处理，经过gamma变换较亮的区域灰度值变小，较暗的区域灰度变大，使得图像整体变亮，使得所有图片的亮度趋于一致，同时也能更好的表现图片中目标的细节特征，且归一化后，利于同一目标的识别。

方向梯度直方图(HOG)在行人检测、面部识别等领域已经有了广泛的应用，而且在图像识别中方向梯度直方图特征结合支持向量机分类器在实际使用中获得了很好的效果，因此，我们选择方向梯度直方图作为水下图像目标识别所是使用的特征，最终得到的是一个1×n维的特征向量，n为特征的个数。对于背景复杂的水下图像，由于使用一般方法得到的方向梯度直方图特征向量包含了许多背景区域的特征，无法准确体现待识别目标，导致支持向量机不能得到准确的支持向量，从而降低准确性。此外，所获取到的特征具有高维数性质，使得过拟合的现象极易发生，直接造成识别准确率急剧下降。为了解决上述问题，我们根据图片中目标区域和背景区域模糊度不一致的特点，提出了一种根据模糊程度进行特征选择的方法。

相机成像时只有焦点处反射的成像光束能汇聚到一点，所以在照片中焦点附近的区域要比其它区域清晰，在进行图像目标识别时，绝大部分图像中目标都在成像的焦点附近，所以目标区域比背景区域更加清晰，即使是拍摄时对焦不准，但由于背景比目标离镜头更远，焦距更大，使目标区域仍然是比背景区域要清晰。我们利用这一特性通过计算不同区域的模糊度来区分目标与背景，根据判断结果选择属于目标区域的方向梯度直方图特征组成向量进行学习。模糊度的计算选用快速简单的拉普拉斯算子与图像进行卷积然后求出方差用来表示图像的模糊程度。拉普拉斯算子是对图像求二阶导，并以此表式灰度的变化剧烈成度，对某一区域内的图像二阶导数求方差，方差越大说明变化越剧烈，图像也就越清晰，方差越小，说明图像越模糊。我们提出的方法是：在利用固定移动步长的滑框时先对其进行编号，然后求解HOG特征向量，同时利用拉普拉斯算子求解出对应滑框内的模糊度，使得每一个滑框内都有一一对应的一组HOG特征与模糊度(见附图1)，然后按照从大到小的顺序将模糊度进行排序，根据图片中目标面积与整张图片面积的比例，设置覆盖目标的滑框数量为m，保留下数值较大的前m个模糊度，并记录下它们的滑框编号，最后在特征向量组中，按照滑框编号选择与之对应的HOG特征，组成一个特征向量。由于每幅图片的m值是相同的，所以每幅图像最后获得的特征向量维数相同，这样保证了这些特征向量用于支持向量机进行训练或测试时不会由于特征维数不同而发生错误。通过利用模糊度进行特征选择，将背景部分的HOG特征都去除掉，减少复杂背景对图像识别的影响，而且这样还能将特征向量的维数降低，防止了过拟合的发生。

最后，利用支持向量机对所获得特征进行训练或者测试，支持向量机选择适用于大部分情况的高斯核函数，以“一对一”的方式实现多分类，“一对一”的多分类方式虽然比“一对多”的方式多使用很多个二分类支持向量机，但是其速度依然可以保证分类的实时性，而且不会出现不可分类的现象。使用k-fold交叉折叠的训练方式，能够在小样本的条件下优化高斯核函数参数γ和惩罚系数C，保证了支持向量机的性能。

结合图3和图4，本方法主要步骤包括：水下目标图像预处理、目标方向梯度直方图特征提取、根据图片模糊度进行特征选择、将特征提供给支持向量机进行训练或者测试。具体如下:

1.对水下图片进行预处理

为了克服光照对于图片造成的干扰和差异，我们采用gamma变换的方式对水下图片进行预处理，如公式1所示

式中输入量为图片中每一个像素点的灰度值g，γ为固定值，实际应用中一般取1/2.2，输出为一个新的灰度值，将一张图像先转化为单通道的灰度图，然后转化为矩阵的形式，每一个元素就是一个像素的灰度值，把图像矩阵中每个元素带入上述公式进行gamma变换后放回原来位置，最后将图像进行还原，通过预处理，更利于提取目标特征。

2.提取图片方向梯度直方图(HOG)特征

与在行人识别中的提取方式不同，由于我们提取特征并不是为了检测目标的位置和数量，所以我们将传统方向梯度直方图特征提取中的滑窗舍去，只保留了滑框Block和单元块Cell两个特征提取结构，一个Cell是由固定数量的像素组成的方块，一个Block是由4个Cell组成的方块(见附图1)，滑框的滑动步长为一个Cell的宽度。先提取Cell内的方向梯度直方图特征，然后组成Block的特征，当Block划过整张图片，把所有Block的特征组合在一起就是图片的方向梯度直方图特征向量。

3.根据图片模糊度进行特征选择

我们所提的方法在计算每一个Block的HOG特征的同时，使用拉普拉斯算子计算了它们的模糊度，如公式2所示：

f(x,y)表式图片中(x,y)处像素点的灰度值，周围像素点灰度值与该点灰度值之差求和等于拉普拉斯算子对该点求二阶导数，按此公式求得一个滑框内所有像素点的二阶导数，然后求方差得到模糊度，模糊度值越大图像越清晰；为了方便后续操作，我们建立一个2维数组M，将模糊度和相对应的滑框编号放入该二维数组之中，M[i][0]存放模糊度，M[i][1]存放对应的滑框编号，完成特征提取后，我们按模糊度从大到小的顺序重新对M内元素进行排列，选取需要的前m个模糊度，然后按照它们的滑框编号选取对应的HOG特征子向量，并将它们组合成一个一维的特征向量(见附图2)。通过以上操作完成特征选择和降维。

4.使用支持向量机进行训练和测试

首先设置支持向量机的高斯核函数，为参数γ和惩罚系数C赋予初值，然后使用提取的样本特征向量进行k-fold交叉折叠训练，对支持向量机参数进行优化，并获得所需要的支持向量。在后续测试或实际使用过程中，将待识别图片按照前三个步骤进行特征提取后直接使用训练好的支持向量机就可进行水下目标的分类识别。

5.使用训练完成的支持向量机进行水下目标识别

在后续测试或实际使用过程中，将待识别图片按照步骤1到步骤3进行特征提取，其中，步骤2和步骤3中的Block和Cell尺寸直接使用训练时的值即可，且移动步长也与训练中设置的值保持一致。最后直接输入使用步骤4训练好的支持向量机，其输出就为本方法所得的目标识别结果。

Claims

1.一种用于水下复杂环境中的图像目标识别方法，其特征在于，包括以下步骤：

步骤1：采用gamma变换对图片进行预处理；

其中，f(x,y)表式图片中(x,y)处像素点的灰度值；

2.根据权利要求1所述的一种用于水下复杂环境中的图像目标识别方法，其特征在于：步骤1所述采用gamma变换对水下图片进行预处理具体为：将图片先转化为单通道的灰度图，然后转化为矩阵形式，每一个元素是一个像素的灰度值，计算每个像素的新的灰度值，然后将图像进行还原，新的灰度值满足：