CN114862913A

CN114862913A - 基于人工智能网络的机器视觉目标定位方法

Info

Publication number: CN114862913A
Application number: CN202210534291.7A
Authority: CN
Inventors: 不公告发明人
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2022-05-15
Filing date: 2022-05-15
Publication date: 2022-08-05

Abstract

本发明属于机器视觉目标定位领域，具体涉及一种适用于复杂场景环境下的基于人工智能网络的机器视觉目标定位方法。包括(1)检测待定位目标，采集目标图像，将采集出的目标图像为样板图像，设样板图像帧作为视频序列的第一帧；(2)采用全卷积网络的孪生网络对样板图像和视频序列进行特征提取；(3)通过候选网络的分类支路和回归支路对提取的特征进行分类回归等。本发明根据目标前几帧视频图像轨迹变化，来预测下一帧目标定位范围的预测策略，以有效地缩小复杂情况下目标定位的范围，减少图像精度、对比度对目标定位造成的错误定位、丢失目标和定位漂移等影响，保证目标定位的鲁棒性。

Description

基于人工智能网络的机器视觉目标定位方法

技术领域

本发明属于机器视觉目标定位领域，具体涉及一种适用于复杂场景环境下的基于人工智能网络的机器视觉目标定位方法。

背景技术

随着国家基础设施建设水平的快速发展，复杂场景对跟踪定位的要求连续提高，人工智能的跟踪定位技术也随之长足发展。目标定位是人工智能机器视觉的重要组成部分，该技术是指利用视频、图像的逻辑信息，对目标的轨迹和轮廓特征信息进行建模，从而对目标定位进行预测和跟踪。随着人工智能机器深度学习在图像和目标检测中的系统化使用，大量使用在目标定位方法中。但是由于图像清晰度、对比度差、背景复杂度等因素，都不利于图像的高清处理，影响了图像特征的提取精度，提升目标定位的难度。所以在此领域为科研人员提出了如何进一步减低计算成本，提升定位精度和鲁棒性的技术问题。

近年来，由于深度特征对目标拥有极强的表征能力，因此在人工智能的目标定位方法中有极大比例是基于深度学习的。专利文献“一种基于图像系统的车辆特征深度学习识别轨迹跟踪方法”对于滤波方法进行了改进，但是有可能带来计算量增大但不能满足实时性需求的风险。专利文献“一种目标识别方法及装置”，涉及到通过深度学习神经网络来确定目标的方法，定位速度较慢，容易发生跟踪漂移。

针对环境复杂，图像清晰度和对比度差，工作时对于遮挡影响较大的问题，需要提出一种适用于复杂场景环境下的基于人工智能网络的机器视觉目标定位方法。

发明内容

本发明的目的在于提供一种解决目标定位正确率低的问题，并且降低定位成本，提高鲁棒性的基于人工智能网络的机器视觉目标定位方法。

本发明的目的是这样实现的，基于人工智能网络的机器视觉目标定位方法，包括如下步骤：

(1)检测待定位目标，采集目标图像，将采集出的目标图像为样板图像，设样板图像帧作为视频序列的第一帧；

(2)采用全卷积网络的孪生网络对样板图像和视频序列进行特征提取；

(3)通过候选网络的分类支路和回归支路对提取的特征进行分类回归；

(4)计算每帧视频序列的定位边界框相似度，根据定位边界框相似度进行排名，通过非极大值抑制得到每帧视频序列最后的定位边界框，如果每一帧视频序列最后的定位边界框的值都大于边界框阈值参数，则判定为定位成功，继续执行步骤(5)；如果每一帧视频序列最后的定位边界框的值中至少有一个小于等于定位边界框阈值，则判定为定位不成功，重新执行步骤(3)；

(5)检测视频序列的编号第G-a帧、第G-a+1帧、…、第G帧的视频序列中相邻两帧的定位边界框，判断定位边界框的几何中心点在xy坐标系下的平均位移变化，预测第G+1帧视频序列相对于第G帧视频序列的移动方向，以第G帧视频序列定位边界框的几何中心点坐标为中心进行放大，形成放大到视频序列的图像尺寸的图，第G帧视频序列图像和大后的图的重叠部分，判定为第G+1帧视频序列的图像的目标定位范围。

所述的孪生网络分为样板支路和检测支路，两个支路的权重参数相同；其中样板支路接收样板图像，输入标记为m；检测支路接收检测序列当前帧的图像，输入标记为k；样板图像和检测序列经过孪生网络后得到孪生网络特征输出为样板图像孪生网络特征输出ι(m)和检测序列孪生网络特征输出ι(k)。

所述的步骤(3)具体包括如下步骤：

(3.1)采用FAST-RCNN的损失函数对候选网络进行训练，分类支路的损失函数采用交叉熵损失函数，回归支路的损失函数采用回归损失函数smooth L1 loss；

(3.1.1)确认候选网络中锚箱的中心点坐标(N_x,N_y)、宽N_w和高N_h；

(3.1.2)确认实际定位边界框的中心点坐标(G_x,G_y)、高G_h和宽G_w；

(3.1.3)计算锚箱与定位边界框的标准化距离：

(3.1.4)构建smooth L1 loss函数：

v∈[0,1,2,3]；

ζ为边界框阈值；

(3.1.5)回归支路的损失函数为：

(3.2)通过训练后的候选网络的两个卷积层将ι(m)扩展为样板图像孪生网络特征输出分类分支ι(m)_cls和样板图像孪生网络特征输出回归分支ι(m)_reg；

(3.3)通过训练后的候选网络的两个卷积层将ι(k)扩展为检测序列孪生网络特征输出分类分支ι(k)_cls和检测序列孪生网络特征输出回归分支ι(k)_reg；

(3.4)确认分类支路的通道向量个数为2X，确认回归支路的通道向量个数为4X；

(3.5)对分类支路进行卷积运算，运算结果为：

(3.6)对回归支路进行卷积运算，运算结果为：

所述步骤(4)具体包括：

(4.1)计算当前视频序列最后的定位边界框的高宽比e，以及上一帧视频序列最后的定位边界框的高宽比e"，确认当前视频序列最后的定位边界框的面积尺寸f和上一帧视频序列最后的定位边界框的面积尺寸f"；

f²＝(G_h+c)(G_w+c)；

(4.2)计算惩罚函数：

(4.3)计算分类支路评价值：

(4.4)计算定位边界框相似度pscore：

pscore＝penalty×score。

所述的步骤(5)包括：

以定位边界框的左上角为原点建立xy坐标轴，记录从第G-a帧开始相邻两帧的定位边界框的几何中心点坐标沿x轴方向的位移变化Δx_j＝[Δx₁,Δx_a]，j∈[1,a]，沿y轴方向位移变化分别为Δy_j＝[Δy₁,Δy_a]，j∈[1,a]，计算x轴方向和y轴方向的平均位移变化：

x轴方向平均位移变化为：

y轴方向平均位移变化为：

arg指的是复数的辐角主值；

当x_p>0，预测第G+1帧位置是x轴正方向；否则，预测第G+1帧位置是x轴负方向；

当x_p>0，预测第G+1帧位置是y轴正方向；否则，预测第G+1帧位置是y轴负方向；

然后以第G帧对应定位边界框的几何中心点坐标为中心向外扩充为第G帧图像大小，第G帧图像和扩充后的图像的重叠部分为第G+1帧目标定位范围。

本发明的有益效果在于：

与现有技术相比，本发明提出了一种适用于复杂环境下的基于人工智能网络的机器视觉目标定位方法。针对目前人工智能连续定位迫切需求，提出基于相似度的评价机制，以判别继续定位的必要性，根据目标前几帧视频图像轨迹变化，来预测下一帧目标定位范围的预测策略，以有效地缩小复杂情况下目标定位的范围，减少图像精度、对比度对目标定位造成的错误定位、丢失目标和定位漂移等影响，保证目标定位的鲁棒性。

附图说明

图1是定位流程图；

图2是定位示意图中第G-2帧的定位结果；

图3是定位示意图中第G-1帧的定位结果；

图4是定位示意图中第G帧的定位结果；

图5是定位示意图中第G+1帧的定位结果；

图6是连续定位图。

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细描述。

图1为定位流程图。首先检测待定位的目标，采集目标图像，将采集出的目标图像为样板图像，将样板图像帧作为视频序列的第一帧，作为样板支路的输入，并将所定位的视频序列逐帧作为检测支路的输入，通过孪生网络提取特征，提取后的特征图作为输入经过两个卷积层扩展成为分类分支和回归分支，进行相似度值得计算，若相似度值大于等于设定阈值参数，则认为定位成功，如果相似度值小于设定的阈值参数，则重新检测目标，且下一帧的定位范围相对于上一帧的定位范围要进行缩小，来提高定位的鲁棒性。本发明包括如下步骤：

1.本发明的区别特征1在于通过候选网络对特征进行分类回归，对定位边界框相似度进行排名，通过前帧图像的趋势变化预判图像的目标定位范围的发明思路，方法与现有技术相比能够效地缩小复杂情况下目标定位的范围。

所述的步骤(3)具体包括如下步骤：

(3.1.3)计算锚箱与定位边界框的标准化距离：

(3.1.4)构建smooth L1 loss函数：

v∈[0,1,2,3]；

ζ为边界框阈值；

(3.1.5)回归支路的损失函数为：

(3.5)对分类支路进行卷积运算，运算结果为：

(3.6)对回归支路进行卷积运算，运算结果为：

所述步骤(4)具体包括：

f²＝(G_h+c)(G_w+c)；

(4.2)计算惩罚函数：

(4.3)计算分类支路评价值：

(4.4)计算定位边界框相似度pscore：

pscore＝penalty×score。

所述的步骤(5)包括：

x轴方向平均位移变化为：

y轴方向平均位移变化为：

arg指的是复数的辐角主值

2.本发明的区别特征2在于使用损失函数对候选网络进行训练，通过孪生网络利用分类支路的损失函数和回归支路的损失函数进行输出，并利用其计算定位边界框相似度并进行目标定位范围的确认。与现有技术相比，其能够进一步提高定位精度并避免环境干扰。

综上，本发明针对目标通过孪生网络对样板图像和定位的视频序列进行逐帧的特征提取，通过候选网络区分目标的环境变化，再对定位框回进行归定位，来提高目标定位的准确率；然后通过相似度比较制度，根据结果判断再次定位的必要性，来实现对移动目标的持续定位。本发明在环境影响较大，图像清晰度和对比度较差等干扰因素下提高目标定位的成功精度，保证了对复杂环境下目标持续长久定位。

实施例1

结合图1，本发明包括：

步骤(1)，特征提取：首先采用目标识别算法检测和识别目标，例如待定位的汽车，将检测到的汽车图像作为样板图像，采用无填充全卷积网络孪生网络对样板图像和视频序列逐帧进行特征提取；孪生网络分为两个支路：样板支路和检测支路；样板支路接收样板图像，输入标记为m；检测支路接收当前帧的图像，输入标记为k。

样板图像孪生网络特征输出ι(m)和检测序列孪生网络特征输出ι(k)为孪生网络特征图的输出，两个网络输入不同，权重参数相同。

步骤(2)分类回归：采用候选网络的两个支路对目标定位进行分类回归。

候选网络选取多个锚箱的锚点进行枚举并共享卷积特征，该方法使本发明获得高精度的同时还提高了时间效率。由于环境分类和定位边界框回归的监测，使候选网络更精确的提取特征。候选网络分为两个支路：分类支路和回归支路。分类支路来区分图片中的环境信息；回归支路进行坐标回归，准确设置定位框的位置和大小。对于分类支路，如果特征图生成X个锚点，在候选网络中通道数上升了2X倍，X＝4。对于回归支路，每个锚点输出边界框的四个坐标点信息，通道数上升了4X倍。通过两个卷积层将样板输出扩展成分类分支和回归分支，检测输出也被两个卷积层扩展成为分类分支和回归分支，对分类支路进行卷积运算，运算结果为：

对回归支路进行卷积运算，运算结果为：

还代表锚点对应原始图像的正激活和负激活；

还代表回归支路的卷积运算结果。采用FAST-RCNN的损失函数对候选网络进行训练，分类支路的损失函数采用交叉熵损失函数，回归支路的损失函数采用回归损失函数smooth L1 loss；对于回归支路的损失函数，首先将锚点的坐标标准化。计算锚箱与定位边界框的标准化距离：

smooth L1 loss函数为：

v∈[0,1,2,3]；

ζ为边界框阈值；

回归支路的损失函数为：

步骤(3)相似度判断：计算当前视频序列最后的定位边界框的高宽比e，以及上一帧视频序列最后的定位边界框的高宽比e"，确认当前视频序列最后的定位边界框的面积尺寸f和上一帧视频序列最后的定位边界框的面积尺寸f"；

f²＝(G_h+c)(G_w+c)

计算惩罚函数：

计算分类支路评价值：

计算定位边界框相似度pscore：

pscore＝penalty×score。

将当前帧的分类支路评价值乘以惩罚函数，对当前帧的生成边界框评估，使用非最大抑制得到当前帧的最终定位边界框。若pscore>0.9，则认为定位成功，无需进行重新跟踪。此机制来判断目标定位是否需要接着进行，以提高跟踪的鲁棒性。

步骤(4)预测定位范围：在目标定位工作时，由于各种因素扰动导致图像质量下降，造成目标丢失、定位漂移、错误定位等情况的发生，为应对这些影响，根据前几帧的定位结果预测下一帧的定位范围，将目标下一帧的轨迹方向设定为与上一帧的运动方向一致，此定位策略可有效地缩小目标定位的范围。

由于定位目标运动的速度变化，帧与帧之间时间间隔很短，因此在图像范围内目标的位置变化会存在惯性效应，本方法根据前几帧对目标定位的结果，判断下一帧目标运动方向。以定位边界框的左上角为原点建立xy坐标轴，记录从第G-a帧开始相邻两帧的定位边界框的几何中心点坐标沿x轴方向的位移变化Δx_j＝[Δx₁,Δx_a]，j∈[1,a]，沿y轴方向位移变化分别为Δy_j＝[Δy₁,Δy_a]，j∈[1,a]，计算x轴方向和y轴方向的平均位移变化：

x轴方向平均位移变化为：

y轴方向平均位移变化为：

arg指的是复数的辐角主值。

图2-5为定位效果示意图。其中图2、图3、图4和图5分别表示第G-2帧、第G-1帧、第G帧和第G+1帧的的定位结果。以视频序列中每一帧图像的左上角为原点建立坐标轴，由此判断在G+1帧时目标的位置在当前第G帧目标位置的左上方。以上一帧定位框的中心点，向外扩充为与当前帧的图像大小，两图重叠部分，即为下一帧目标定位的选择范围。图6为连续跟踪图，进一步表现了本方法在长时连续定位的效果。实验过程中，持续对凸点目标跟踪了300秒，共5700帧图片，其中每秒19帧图片。综上，本发明方法与现有技术相比区别明显，具有实质性的技术效果。

Claims

1.基于人工智能网络的机器视觉目标定位方法，其特征在于，包括如下步骤：

(1)检测待定位目标，采集目标图像，将采集出的目标图像为样板图像，将样板图像帧作为视频序列的第一帧；

2.根据权利要求1所述的基于人工智能网络的机器视觉目标定位方法，其特征在于，所述的孪生网络分为样板支路和检测支路，两个支路的权重参数相同；其中样板支路接收样板图像，输入标记为m；检测支路接收检测序列当前帧的图像，输入标记为k；样板图像和检测序列经过孪生网络后得到孪生网络特征输出为样板图像孪生网络特征输出ι(m)和检测序列孪生网络特征输出ι(k)。

3.根据权利要求1所述的基于人工智能网络的机器视觉目标定位方法，其特征在于，所述的步骤(3)具体包括如下步骤：

(3.5)对分类支路进行卷积运算，运算结果为：