CN116452667A

CN116452667A - 一种基于图像处理的目标识别与定位方法

Info

Publication number: CN116452667A
Application number: CN202310714118.XA
Authority: CN
Inventors: 张欣; 李虹霖; 王强; 梁天德; 顾良松
Original assignee: Chengdu Realtime Technology Co ltd
Current assignee: Chengdu Realtime Technology Co ltd
Priority date: 2023-06-16
Filing date: 2023-06-16
Publication date: 2023-07-18
Anticipated expiration: 2043-06-16
Also published as: CN116452667B

Abstract

本发明提供了一种基于图像处理的目标识别与定位方法，属于图像处理技术领域，本发明先对图像提取轮廓，一方面减少图像数据，另一方面凸显图像特征，采用滑动窗口对轮廓图像进行扫描，即每个扫描区域对应一个图像区域，提取每一个图像区域的图像特征值，计算图像特征值与目标特征值的相似度，从而找到疑似目标区域，进一步地降低图像数据量，再通过目标识别定位模型对疑似目标区域对应的图像轮廓进行处理，得到目标定位数据。本发明通过不断降低数据量，且找到疑似目标区域，将疑似目标区域对应的图像数据输入到目标识别定位模型中进行处理，提高目标识别与定位精度。

Description

一种基于图像处理的目标识别与定位方法

技术领域

本发明涉及图像处理技术领域，具体而言，涉及一种基于图像处理的目标识别与定位方法。

背景技术

深度学习广泛应用于图像领域，用于对图像提取特征，以及图像上的目标识别与定位。现有图像上的目标识别与定位方法主要采用YOLO神经网络，YOLO神经网络包括：YOLOv1、YOLOv2、YOLOv3、YOLOv4、YOLOv5、YOLOv6和YOLOv7。YOLO神经网络均是直接对原始图像进行处理，由于图像数据庞大，且大多数图像数据不存在目标，采用YOLO神经网络直接进行图像的目标识别与定位，存在图像数据庞大，目标识别与定位精度不高的问题。

发明内容

针对现有技术中的上述不足，本发明提供的一种基于图像处理的目标识别与定位方法解决了现有目标识别与定位方法存在目标识别与定位精度不高的问题。

为了达到上述发明目的，本发明采用的技术方案为：一种基于图像处理的目标识别与定位方法，包括：

S1、对图像提取轮廓，得到轮廓图像；

S2、采用滑动窗口对轮廓图像进行扫描，并对扫描到的区域计算图像特征；

S3、计算图像特征值与目标特征值的相似度；

S4、在相似度高于阈值时，当前滑动窗口所在图像区域存在疑似目标，将存在疑似目标的区域作为疑似目标区域；

S5、采用训练好的目标识别定位模型，对疑似目标区域对应的图像轮廓进行识别，得到目标定位数据。

进一步地，所述S2中滑动窗口的长为，宽为/>，其中，，/>，/>为目标区域的横向最远左像素点的横坐标，/>为目标区域的横向最远左像素点的纵坐标，/>为目标区域的横向最远右像素点的横坐标，/>为目标区域的横向最远右像素点的纵坐标，/>为目标区域的纵向最远上像素点的横坐标，/>为目标区域的纵向最远上像素点的纵坐标，为目标区域的纵向最远下像素点的横坐标，/>为目标区域的纵向最远下像素点的纵坐标，左像素点和右像素点为横向上距离最远的一对像素点，上像素点和下像素点为纵向上距离最远的一对像素点。

上述进一步地方案的有益效果为：本发明中的目标区域为历史图像中的目标，根据目标区域的大小，设定滑动窗口的大小，使得滑动窗口在不断滑动过程中，能在找到相似度较高区域时，在该区域附近滑动，能框住图像中的目标。相似度越高，表示滑动窗口框住的当前轮廓图像中的目标区域越多，将高于阈值的图像区域筛选出来，找到存在疑似目标的区域，从而达到进一步的精简特征，但却不丢失有效信息的作用。

进一步地，所述S3中图像特征值包括：像素子特征值和位置分布子特征值。

进一步地，所述像素子特征值的计算公式为：

其中，为像素子特征值，/>为扫描区域上的第/>个像素点的像素值，/>为扫描区域中心像素点像素值，/>为扫描区域中心像素点的邻域范围内第/>个像素点像素值，/>为扫描区域中心像素点的邻域范围内像素点的数量，/>为扫描区域中像素点的数量，/>为激活函数。

进一步地，所述位置分布子特征值的计算公式为：

其中，为位置分布子特征值，/>为扫描区域上的第/>个像素点的横坐标，/>为扫描区域上的第/>个像素点的纵坐标，/>为扫描区域中心像素点的横坐标，/>为扫描区域中心像素点的纵坐标，/>为扫描区域中像素点的数量，/>为激活函数。

上述进一步地方案的有益效果为：本发明通过像素值分布和像素点的位置分布情况表征图像特征值，本发明以中心像素值和临近像素值作为中心像素点的像素值，减少中心像素点为噪点，从而影响整体的计算结果，以其他像素点距离中心像素值的距离，表征像素值分布情况；本发明通过各像素点的坐标与中心像素点的坐标的距离，表征像素点位置的分布情况。

进一步地，所述计算图像特征值与目标特征值的相似度的公式为：

其中，为相似度，/>为图像特征值中像素子特征值，/>为图像特征值中位置分布子特征值，/>为目标特征值中像素子特征值，/>为目标特征值中位置分布子特征值。

上述进一步地方案的有益效果为：本发明根据图像特征值中一对量与目标特征值中一对量，从而计算出两个维度的相似度。

进一步地，所述S5中目标识别定位模型包括：第一特征提取单元、第二特征提取单元、第一Concat层、第一平均池化层、第二平均池化层、第三特征提取单元、第四特征提取单元、第二Concat层和YOLO神经网络模型；

所述第一特征提取单元的输入端与第二特征提取单元的输入端连接，并作为目标识别定位模型的输入端；所述第一特征提取单元的输出端分别与第一Concat层的输入端和第一平均池化层的输入端连接；所述第二特征提取单元的输出端分别与第一Concat层的输入端和第二平均池化层的输入端连接；所述第一平均池化层的输出端与第三特征提取单元的输入端连接；所述第二平均池化层的输出端与第四特征提取单元的输入端连接；所述第二Concat层的输入端分别与第一Concat层的输出端、第三特征提取单元的输出端和第四特征提取单元的输出端连接，其输出端与YOLO神经网络模型的输入端连接；所述YOLO神经网络模型的输出端作为目标识别定位模型的输出端。

上述进一步地方案的有益效果为：本发明在第一特征提取单元和第二特征提取单元输出端设置第一Concat层，通过第一Concat层将第一特征提取单元和第二特征提取单元输出的特征进行收集，再在第三特征提取单元和第四特征提取单元的输出端设置第二Concat层，将第一Concat层的特征，第三特征提取单元和第四特征提取单元输出的特征进行收集，一方面通过多个特征提取单元对显著特征进行提取，同时也保留下其他非显著特征，最终将特征汇集后输入YOLO神经网络，提高YOLO神经网络提取目标数据的精度。

进一步地，所述第一特征提取单元和第四特征提取单元结构相同，均包括：第一卷积层、第二卷积层、第三卷积层和加法器；

所述第一卷积层的输入端与第二卷积层的输入端连接，并作为第一特征提取单元或第四特征提取单元的输入端；所述第二卷积层的输出端与第三卷积层的输入端连接；所述加法器的输入端分别与第一卷积层的输出端和第三卷积层的输出端连接，其输出端作为第一特征提取单元或第四特征提取单元的输出端。

进一步地，所述第二特征提取单元和第三特征提取单元结构相同，均包括：第四卷积层、第五卷积层、第六卷积层和乘法器；

所述第四卷积层的输入端与第五卷积层的输入端连接，其作为第二特征提取单元或第三特征提取单元的输入端；所述乘法器的输入端分别与第四卷积层的输出端和第五卷积层的输出端连接，其输出端与第六卷积层的输入端连接；所述第六卷积层的输出端作为第二特征提取单元或第三特征提取单元的输出端。

上述进一步地方案的有益效果为：本发明第二特征提取单元和第三特征提取单元结构相同，第一特征提取单元和第四特征提取单元结构相同，因此，将本发明的目标识别定位模型分成左右两部分来看，本发明中每种特征提取单元交错出现，按不同特征提取方式挖掘特征数据，丰富特征数据。

进一步地，所述目标识别定位模型的损失函数为：

其中，为损失函数，/>为目标定位数据中像素点的数量，/>为标签定位数据中像素点的数量，/>为目标定位数据的像素特征值，/>为标签定位数据的像素特征值，/>为目标定位数据中第/>个像素点的像素值，/>为目标定位数据中像素点的数量。

上述进一步地方案的有益效果为：本发明在采用目标识别定位模型时，重点考虑目标识别定位模型提取到的目标定位数据中像素点是否达到标签设定的像素点的数量，以及提取到的目标定位数据中像素点的像素值的分布是否与标签设定的像素值分布一致，在两者都相差较近时，损失函数计算的损失值较小，模型训练达到较优。

本发明实施例的技术方案至少具有如下优点和有益效果：

本发明先对图像提取轮廓，一方面减少图像数据，另一方面凸显图像特征，采用滑动窗口对轮廓图像进行扫描，即每个扫描区域对应一个图像区域，提取每一个图像区域的图像特征值，计算图像特征值与目标特征值的相似度，从而找到疑似目标区域，进一步地降低图像数据量，再通过目标识别定位模型对疑似目标区域对应的图像轮廓进行处理，得到目标定位数据。本发明通过不断降低数据量，且找到疑似目标区域，将疑似目标区域对应的图像数据输入到目标识别定位模型中进行处理，提高目标识别与定位精度。

附图说明

图1为一种基于图像处理的目标识别与定位方法的流程图；

图2为目标识别定位模型的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

如图1所示，一种基于图像处理的目标识别与定位方法，包括：

S1、对图像提取轮廓，得到轮廓图像；

所述S2中滑动窗口的长为，宽为/>，其中，/>，，/>为目标区域的横向最远左像素点的横坐标，/>为目标区域的横向最远左像素点的纵坐标，/>为目标区域的横向最远右像素点的横坐标，/>为目标区域的横向最远右像素点的纵坐标，/>为目标区域的纵向最远上像素点的横坐标，/>为目标区域的纵向最远上像素点的纵坐标，/>为目标区域的纵向最远下像素点的横坐标，/>为目标区域的纵向最远下像素点的纵坐标，左像素点和右像素点为横向上距离最远的一对像素点，上像素点和下像素点为纵向上距离最远的一对像素点。

本发明中的目标区域为历史图像中的目标，根据目标区域的大小，设定滑动窗口的大小，使得滑动窗口在不断滑动过程中，能在找到相似度较高区域时，在该区域附近滑动，能框住图像中的目标。相似度越高，表示滑动窗口框住的当前轮廓图像中的目标区域越多，将高于阈值的图像区域筛选出来，找到存在疑似目标的区域，从而达到进一步的精简特征，但却不丢失有效信息的作用。

本发明中，由于本发明滑动窗口与目标区域大小一致，因此，在找到相似度高于阈值的区域时，可在该区域附近多次滑动，找到相似度最大的区域，将相似度最大的区域作为疑似目标区域，能进一步地提高目标提取精度。

S3、计算图像特征值与目标特征值的相似度；

所述S3中图像特征值包括：像素子特征值和位置分布子特征值。

所述像素子特征值的计算公式为：

所述位置分布子特征值的计算公式为：

本发明通过像素值分布和像素点的位置分布情况表征图像特征值，本发明以中心像素值和临近像素值作为中心像素点的像素值，减少中心像素点为噪点，从而影响整体的计算结果，以其他像素点距离中心像素值的距离，表征像素值分布情况；本发明通过各像素点的坐标与中心像素点的坐标的距离，表征像素点位置的分布情况。

所述计算图像特征值与目标特征值的相似度的公式为：

在本实施例中，为提前根据目标的成像轮廓按本发明所在记载的/>的计算方法计算得到，/>为提前根据目标的成像轮廓按本发明所在记载的/>的计算方法计算得到。

本发明根据图像特征值中一对量与目标特征值中一对量，从而计算出两个维度的相似度。

如图2所示，所述S5中目标识别定位模型包括：第一特征提取单元、第二特征提取单元、第一Concat层、第一平均池化层、第二平均池化层、第三特征提取单元、第四特征提取单元、第二Concat层和YOLO神经网络模型；

本发明在第一特征提取单元和第二特征提取单元输出端设置第一Concat层，通过第一Concat层将第一特征提取单元和第二特征提取单元输出的特征进行收集，再在第三特征提取单元和第四特征提取单元的输出端设置第二Concat层，将第一Concat层的特征，第三特征提取单元和第四特征提取单元输出的特征进行收集，一方面通过多个特征提取单元对显著特征进行提取，同时也保留下其他非显著特征，最终将特征汇集后输入YOLO神经网络，提高YOLO神经网络提取目标数据的精度。

所述第一特征提取单元和第四特征提取单元结构相同，均包括：第一卷积层、第二卷积层、第三卷积层和加法器；

所述第二特征提取单元和第三特征提取单元结构相同，均包括：第四卷积层、第五卷积层、第六卷积层和乘法器；

本发明第二特征提取单元和第三特征提取单元结构相同，第一特征提取单元和第四特征提取单元结构相同，因此，将本发明的目标识别定位模型分成左右两部分来看，本发明中每种特征提取单元交错出现，按不同特征提取方式挖掘特征数据，丰富特征数据。

所述目标识别定位模型的损失函数为：

在本实施例中，标签定位数据的像素特征值为根据标签定位数据按/>的计算方法计算得到。

本发明在采用目标识别定位模型时，重点考虑目标识别定位模型提取到的目标定位数据中像素点是否达到标签设定的像素点的数量，以及提取到的目标定位数据中像素点的像素值的分布是否与标签设定的像素值分布一致，在两者都相差较近时，损失函数计算的损失值较小，模型训练达到较优。

本发明实施例的技术方案至少具有如下优点和有益效果：

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于图像处理的目标识别与定位方法，其特征在于，包括：

S1、对图像提取轮廓，得到轮廓图像；

S3、计算图像特征值与目标特征值的相似度；

2.根据权利要求1所述的基于图像处理的目标识别与定位方法，其特征在于，所述S2中滑动窗口的长为，宽为/>，其中，/>，，/>为目标区域的横向最远左像素点的横坐标，/>为目标区域的横向最远左像素点的纵坐标，/>为目标区域的横向最远右像素点的横坐标，/>为目标区域的横向最远右像素点的纵坐标，/>为目标区域的纵向最远上像素点的横坐标，/>为目标区域的纵向最远上像素点的纵坐标，/>为目标区域的纵向最远下像素点的横坐标，/>为目标区域的纵向最远下像素点的纵坐标，左像素点和右像素点为横向上距离最远的一对像素点，上像素点和下像素点为纵向上距离最远的一对像素点。

3.根据权利要求1所述的基于图像处理的目标识别与定位方法，其特征在于，所述S3中图像特征值包括：像素子特征值和位置分布子特征值。

4.根据权利要求3所述的基于图像处理的目标识别与定位方法，其特征在于，所述像素子特征值的计算公式为：

5.根据权利要求3所述的基于图像处理的目标识别与定位方法，其特征在于，所述位置分布子特征值的计算公式为：

6.根据权利要求3所述的基于图像处理的目标识别与定位方法，其特征在于，所述计算图像特征值与目标特征值的相似度的公式为：

7.根据权利要求1所述的基于图像处理的目标识别与定位方法，其特征在于，所述S5中目标识别定位模型包括：第一特征提取单元、第二特征提取单元、第一Concat层、第一平均池化层、第二平均池化层、第三特征提取单元、第四特征提取单元、第二Concat层和YOLO神经网络模型；

8.根据权利要求7所述的基于图像处理的目标识别与定位方法，其特征在于，所述第一特征提取单元和第四特征提取单元结构相同，均包括：第一卷积层、第二卷积层、第三卷积层和加法器；

9.根据权利要求7所述的基于图像处理的目标识别与定位方法，其特征在于，所述第二特征提取单元和第三特征提取单元结构相同，均包括：第四卷积层、第五卷积层、第六卷积层和乘法器；

10.根据权利要求1所述的基于图像处理的目标识别与定位方法，其特征在于，所述目标识别定位模型的损失函数为：