CN115797770A

CN115797770A - 考虑目标相对运动的连续图像目标检测方法、系统及终端

Info

Publication number: CN115797770A
Application number: CN202211557865.9A
Authority: CN
Inventors: 程晗; 陈维义; 李逸源; 傅冰
Original assignee: Naval University of Engineering PLA
Current assignee: Naval University of Engineering PLA
Priority date: 2022-12-06
Filing date: 2022-12-06
Publication date: 2023-03-14

Abstract

本发明属于图像处理技术领域，公开了一种考虑目标相对运动的连续图像目标检测方法、系统及终端，利用图像目标检测器对k时刻的图像进行检测，得到对应检测结果Y_k；对于检测器的检测结果Y_k，将Y_k与算法所得的前一时刻的检测结果

进行时序匹配；依据k时刻图像平均亮度指标g_k估算检测结果可信度参数p_k；分别计算k时刻检测结果的噪声矩阵R(k)和边界框尺寸的预测值b″_k；对k时刻对象的位置进行卡尔曼滤波，对k时刻对象的边界框尺寸进行加权融合估计，形成对k时刻图像检测的结果。本发明能够依据连续图像中的目标检测结果对目标在图像中的运动参数和尺寸变化规律进行估计，为后续目标的定位、实际运动状态估计等提供有效的数据支撑。

Description

考虑目标相对运动的连续图像目标检测方法、系统及终端

技术领域

本发明属于图像处理技术领域，尤其涉及一种考虑目标相对运动的连续图像目标检测方法、系统及终端。

背景技术

目前，作为计算机视觉方面的一项重要分支，图像目标检测与识别对于计算机理解自然场景图像中的隐含层信息具有重要意义，因此也是机器学习领域的一项热门问题。随着2012年Krizhcvsky等人提出的AlexNe算法在图像目标检测与识别问题中的优异表现，以深度卷积神经网络(DCNN)为代表的各类深度学习算法在计算机视觉领域逐渐掀起了一股热潮，随之而来的，是相关技术被广泛应用于公共安全、医疗卫生、安防监控、自动驾驶等多个领域。其中，以YOLO为代表的“一阶段”法利用回归的思想同时完成检测和识别，在实时性和准确性方面都表现出了优异的性能，2022年7月由YOLO官方团队提出的YOLOv7更是以GPU V100上30FPS情况下达到的实时目标检测器最高精度56.8％ AP的水平，其速度和精度在5～160FPS范围内都超过已知的目标检测器。

随着实时目标检测算法性能的不断提升，可以利用该技术在连续图像中进行实时精确目标检测与识别，从而为实现目标跟踪定位以及运动状态估计提供数据支撑。但是在采用深度神经网络对可见光连续图像进行目标检测时，还存在以下缺陷：(1)算法仅针对当前帧图像中的目标进行检测和识别，未考虑历史帧图像中的检测和识别结果，一旦当前图像受到干扰或检测失效，那么就会导致最终的检测失效；(2)算法仅针对图像中目标的位置和边界框的尺寸进行检测，无法对目标在图像中的运动状态以及尺寸参数的变化规律进行估计，所提供的数据对于后续开展目标定位和运动状态估计的支撑效果有限。因此，亟需设计一种新的考虑目标相对运动的连续图像目标检测方法。

通过上述分析，现有技术存在的问题及缺陷为：

(1)仅采用基于深度神经网络的图像目标检测器对连续图像进行目标检测时，检测器仅针对当前帧图像中的目标进行检测和识别，未考虑历史帧图像中的检测和识别结果，一旦当前图像受到干扰或检测失效，那么就会导致最终的检测失效；

(2)现有连续图像目标检测算法或视频图像目标检测算法未考虑目标与观测设备之间的相对运动，更无法考虑到目标相对观测中心的位置变化造成的目标在图像中的尺度变化，在此背景下若简单地依据历史检测结果对当前帧检测结果进行修正，反而会对最终的结果产生负面影响；

(3)现有的基于深度神经网络的连续图像目标检测算法仅对图像中目标的位置和边界框的尺寸进行检测，无法对目标在图像中的运动状态以及尺寸参数的变化规律进行估计，所提供的数据对于后续开展目标定位和运动状态估计的支撑效果有限。

发明内容

针对现有技术存在的问题，本发明提供了一种考虑目标相对运动的连续图像目标检测方法、系统及终端。

本发明是这样实现的，一种考虑目标相对运动的连续图像目标检测方法，考虑目标相对运动的连续图像目标检测方法包括：利用图像目标检测器对k时刻的图像进行检测，得到对应的检测结果Y_k；对于检测器的检测结果Y_k，将Y_k与算法所得的前一时刻的检测结果

进行时序匹配；依据k时刻图像平均亮度指标g_k估算检测结果可信度参数p_k；分别计算k时刻检测结果的噪声矩阵R(k)和边界框尺寸的预测值b_k″；对k时刻对象的位置进行卡尔曼滤波，对k时刻对象的边界框尺寸进行加权融合估计，形成对k时刻图像检测的结果。

进一步，考虑目标相对运动的连续图像目标检测方法包括以下步骤：

步骤一，获取原始检测数据，并进行检测结果的时序匹配；

步骤二，进行对象位置的滤波估计以及对象尺寸参数的预测；

步骤三，进行当前帧检测可信度估计以及图像目标融合检测。

进一步，连续图像目标检测方法具体包括：

步骤①：获取原始检测数据。

在连续拍摄图像中采用YOLOv7算法进行目标检测与识别，得到目标检测结果。

步骤②：检测结果的时序匹配

对于n时刻检测得到的第i个对象的检测结果Y_in，和n+1时刻检测得到的第j个对象的检测结果Y_jn+1，计算两者边界框之间的交并比值IoU_ij，记所有Y_jn+1中令IoU_ij最大的检测结果为Y_imn+1，其对应的IoU值记为IoU_im。

对于每一个Y_in，均进行如下判断：

(1)检测结果的剔除判断

若IoU_im<λ_d，则认为在n+1时刻的检测结果中无法找到与Y_in相匹配的检测结果，将Y_in剔除。

其中，λ_d是依据经验可自由设置的剔值阈值。

(2)检测结果的匹配判断

若Y_in中元素c_in和Y_imn+1中元素c_imn+1满足：

c_in＝c_imn+1

则认为Y_in和Y_imn+1属于同一对象在不同时刻产生的检测结果，将两者相互匹配。

(3)检测对象的漏检判断

若Y_in中元素c_in和Y_imn+1中元素c_imn+1满足：

c_in≠c_imn+1

则认为对象i因遮挡等原因在n+1时刻被漏检，将对象i予以保留。

(4)检测结果的增补判断

在完成匹配判断之后，若存在检测结果Y_jn+1找不到与之匹配的Y_in，考虑到单帧图像可能存在误检的情况，若p_in+1满足阈值条件：

p_in+1≥λ_p

则视检测结果Y_jn+1为n+1时刻新增的对象进行增补。其中λ_p是依据经验自由设置的增补阈值。

步骤③：当前帧检测可信度估计

选取整幅图像的平均亮度值作为衡量光照条件的指标，而对于彩色图像，采用RGB三个分量的加权平均作为计算单个像素亮度值的计算依据：

g(n)＝0.299r(n)+0.578g(n)+0.114b(n)

通过上式得到n时刻图像对应检测结果的平均亮度g(n)。

根据拟合函数

带入g(n)得到与之对应的值p(n)，该参数的大小反应了检测器对该图像中目标检测和识别的准确程度，作为衡量该时刻图像检测可信度的重要依据。

步骤④：对象位置的滤波估计

假设正常光照情况下，图像检测器的mAP指标为P，对于n时刻的目标检测结果，记R(n)满足：

在此基础上，记n时刻某一特定对象在图像中的真实位置坐标为[x_n,y_n]^T，考虑到目标与观测设备之间存在相对运动，记n时刻目标在x方向上的速度和加速度分别为v_xn和a_xn，y方向上的速度和加速度分别为v_yn和a_yn。由于在实际滤波过程中，x、y方向上的运动状态可以分别滤波估计，不失一般性，记目标n时刻在x方向上的运动状态为X_n＝[x_n,v_xn,a_xn]^T，结合目标运动状态的传递规律，得到n时刻和n+1时刻系统状态的传递方程：

X_n+1＝Φ_n,n+1X_n+v(n)

其中，v(n)为n时刻的系统噪声，Φ_n,n+1为系统状态从n时刻到n+1时刻的状态转移矩阵，对于匀加速运动假设，则有：

其中，Δt为系统状态从n时刻转移到n+1时刻之间的时间间隔。

n+1时刻，检测器获得图像目标检测结果后，得到观测目标在图像中坐标的观测信息Z_n+1，该信息与n+1时刻目标的真实运动状态X_n之间满足观测方程：

Z_n+1＝Θ_n+1X_n+r(n+1)

其中，r(n+1)为系统n+1时刻的观测噪声，Θ_n+1为系统n+1时刻的观测矩阵，对于本发明所涉及的情况，Θ_n+1满足：

在构建上述系统方程的基础上，运用卡尔曼滤波理论对目标参数进行滤波估计：

P(n+1|n+1)＝[I-K_n+1Θ_n+1]P(n+1|n)

完成上述操作后，形成对目标运动状态向量的卡尔曼滤波估计，得到n时刻第i个目标位置的估计信息

与

步骤⑤：对象尺寸参数的预测

记n时刻之前20帧图像检测结果的可信度指标为p_n-20、p_n-19、……、p_n-1，取其平均值为衡量边界框尺寸预测结果的可信度指标：

记录从n-20至n-1时刻所得的20组检测结果作为因变量Y＝[b_wn-20,b_wn-18,……,b_wn-1]^T，记n-20至n-1时刻对应时间为自变量X＝[t_n-20,t_n-18,……,t_n-1]^T，将X和Y进行二阶高斯函数拟合，得到b_w随时间的变化函数，记为：

之后将t_n带入上述函数，得到在n-1时刻对n时刻b_w的预测值：

以宽度尺寸为例，记n时刻通过检测器得到的目标边界框宽度为b′_wn，通过拟合函数得到的目标边界框宽度为

取该时刻目标边界框宽度的估计值为上述两者的加权平均：

高度尺寸的计算与宽度类似。

通过上述过程，得到n时刻第i个目标边界框宽度的估计值

和高度的估计值

步骤⑥：结果输出

记处理后的n时刻第i个目标的检测结果满足：

其中，c_in为目标的类型，

为目标检测框在X方向上的坐标，

为目标检测框在Y方向上的坐标，

为检测框的高度，

为检测框的款度。

进一步，步骤一中的原始检测数据获取包括：在连续拍摄图像中采用YOLO算法进行目标检测与识别，得到k时刻的检测结果，记其中第i个对象的检测结果为Y_ik＝[p_ik,c_ik,b_xik,b_yik,b_h _ik,b_wik]^T；其中，p_ik为对象出现在边界框内的置信度，c_ik为检测所得对象的类型编号，b_xik为边界框中心的横坐标，b_yik为边界框中心的纵坐标，b_hik为边界框的高度，b_wik为边界框的宽度。

进一步，步骤一中的检测结果的时序匹配包括：当检测器根据k+1时刻图像得到检测结果后，由于k时刻和k+1时刻的检测结果中对象数量均大于1，故对两次检测结果中的对象采取时序匹配操作：

对于k时刻检测得到的第i个对象的检测结果Y_ik，和k+1时刻检测得到的第j个对象的检测结果Y_jk+1，计算两者边界框之间的IoU值IoU_ij；对于某一Y_ik，记所有Y_jk+1中令IoU_ij最大的检测结果为Y_imk+1，对应的IoU值记为IoU_im。

对于每一个Y_ik，均进行如下判断：

(1)检测结果的剔除判断

若IoU_im<λ_d，则认为在k+1时刻的检测结果中无法找到与Y_ik相匹配的检测结果，将Y_ik剔除；其中，λ_d是依据经验自由设置的剔值阈值。

(2)检测结果的匹配判断

若Y_ik中元素c_ik和Y_imk+1中元素c_imk+1满足：

c_ik＝c_imk+1；

则认为Y_ik和Y_imk+1属于同一对象在不同时刻产生的检测结果，将两者相互匹配。

(3)检测对象的漏检判断

若Y_ik中元素c_ik和Y_imk+1中元素c_imk+1满足：

c_ik≠c_imk+1；

则认为对象i因遮挡等原因在k+1时刻被漏检，将对象i予以保留。

(4)检测结果的增补判断

在完成匹配判断之后，若存在检测结果Y_jk+1找不到与之匹配的Y_ik，考虑到单帧图像可能存在误检的情况，若p_ik+1满足阈值条件：

p_ik+1≥λ_p

则视检测结果Y_jk+1为k+1时刻新增的对象进行增补。其中λ_p是依据经验自由设置的增补阈值。

进一步，步骤二中的对象位置的滤波估计采用经典的卡尔曼滤波实现。

依据标注信息和检测器对训练样本的检测结果，通过数据对比和统计分析得到检测器对任意对象检测结果Y＝[p,c,b_x,b_y,b_h,b_w]^T中参数b_x和b_y的方差统计信息r_bx和r_by。

记n时刻某一特定对象在图像中的真实位置坐标为[x_n,y_n]^T，考虑到目标与观测设备之间存在相对运动，记n时刻目标在x方向上的速度和加速度分别为v_xn和a_xn，y方向上的速度和加速度分别为v_yn和a_yn。由于在实际滤波过程中，x、y方向上的运动状态分别滤波估计，记目标n时刻在x方向上的运动状态为X_n＝[x_n,v_xn,a_xn]^T，结合目标运动状态的传递规律，得到n时刻和n+1时刻系统状态的传递方程：

X_n+1＝Φ_n,n+1X_n+v(n)；

其中，v(n)为n时刻的系统噪声，Φ_n,n+1为系统状态从n时刻到n+1时刻的状态转移矩阵，对于匀加速运动假设，则：

其中，Δt为系统状态从n时刻转移到n+1时刻之间的时间间隔。

n+1时刻，检测器获得图像目标检测结果后，得到观测目标在图像中坐标的观测信息Z_n+1，信息与n+1时刻目标的真实运动状态X_n之间满足观测方程：

Z_n+1＝Θ_n+1X_n+r(n+1)；

其中，r(n+1)为系统n+1时刻的观测噪声，Θ_n+1为系统n+1时刻的观测矩阵，Θ_n+1满足：

在构建系统方程的基础上，运用卡尔曼滤波理论对目标参数进行滤波估计：

P(n+1|n+1)＝[I-K_n+1Θ_n+1]P(n+1|n)。

进一步，步骤二中的对象尺寸参数的预测包括：

分析观测设备对目标的观测信息随着目标运动的变化规律，结合相应的规律依据连续拍摄图像检测结果，形成对后续图像中目标边界框尺寸参数的预测。

选取二阶高斯函数表示目标观测尺寸随时间的变化规律，表达式为：

采用距离当前帧最近的20帧图像中的检测结果作为预测未来帧中目标边界框尺寸的依据，具体操作如下：当在n时刻检测器已经完成对某一时刻图像中的目标检测，采用包含n时刻检测结果在内的20组检测结果来对n+1时刻目标边界框的尺寸参数b_hn+1和b_wn+1进行预测。

针对b_wn+1的预测，记录从n-19至n时刻所得的20组检测结果作为因变量Y＝[b_wn-19,b_wn-18,……,b_wn]^T，记n-19至n时刻对应时间为自变量X＝[t_n-19,t_n-18,……,t_n]^T，将X和Y进行二阶高斯函数拟合，得到b_w随时间的变化函数，记为：

将t_n+1带入b_w随时间的变化函数，得到在n时刻对n+1时刻b_w的预测值：

进一步，步骤三中的当前帧检测可信度估计包括：

分析不同光照条件下图像成像效果的变化对最终检测器的检测效果产生的影响，选取整幅图像的平均亮度值作为衡量光照条件的指标；而对于彩色图像，采用RGB三个分量的加权平均作为计算单个像素亮度值的计算依据：

g＝0.299r+0.578g+0.114b；

通过设计试验记录不同环境亮度条件下检测结果的mAP值，并记录对应条件下的平均亮度值g，确定图像平均亮度值与检测器检测效果之间的影响。

结合参数mAP随g的变化规律对数据进行函数拟合，通过数据拟合后g与mAP之间同样近似服从二阶高斯分布：

对于实际获得的待检测连续图像，当其中n时刻图像的平均亮度值为g_n，带入拟合函数则得到与之对应的值p_n，参数的大小反应检测器对该图像中目标检测和识别的准确程度，故作为衡量n时刻图像检测可信度的重要依据。

进一步，步骤三中的图像目标融合检测包括：根据连续拍摄图像中的已有检测结果完成目标位置的滤波估计、目标边界框尺寸的估计及当前帧检测结果的可信度的估计，综合各种信息对当前图像中目标的位置和尺寸参数进行估计；

(1)对于目标位置的估计

当通过实验统计确定观测设备的噪声矩阵为R，记n时刻通过图像平均亮度参数g_n估算得到检测结果的可信度指标p_n，结合p_k和R得到n时刻检测结果的噪声矩阵R(n)；在正常光照情况下，图像检测器的mAP指标为P，记R(n)满足：

通过调整n时刻的噪声矩阵参数实现考虑目标检测可信度的目标位置滤波估计。

(2)对于目标尺寸的估计

记n时刻之前20帧图像检测结果的可信度指标为p_n-20、p_n-19、……、p_n-1，取平均值为衡量边界框尺寸预测结果的可信度指标：

记n时刻通过检测器得到的目标边界框宽度为b′_wn，通过拟合函数得到的目标边界框宽度为

取n时刻目标边界框宽度的估计值为两者的加权平均：

本发明的另一目的在于提供一种应用所述的考虑目标相对运动的连续图像目标检测方法的考虑目标相对运动的连续图像目标检测系统，考虑目标相对运动的连续图像目标检测系统包括：

原始检测数据获取模块，用于在连续拍摄图像中采用YOLO算法进行目标检测与识别，得到k时刻的检测结果；

检测结果时序匹配模块，用于当检测器根据k+1时刻图像得到检测结果后，对k时刻和k+1时刻的两次检测结果中的对象采取时序匹配操作；

对象位置滤波估计模块，用于采用卡尔曼滤波实现对象位置的滤波估计；

对象尺寸参数预测模块，用于采用包含n时刻检测结果在内的20组检测结果对n+1时刻目标边界框的尺寸参数b_hn+1和b_wn+1进行预测；

当前帧检测可信度估计模块，用于选取整幅图像的平均亮度值作为衡量光照条件的指标，采用RGB三个分量的加权平均计算单个像素亮度值；

图像目标融合检测模块，用于通过调整n时刻的噪声矩阵参数实现考虑目标检测可信度的目标位置滤波估计，通过拟合函数进行目标尺寸估计。

本发明的另一目的在于提供一种计算机设备，计算机设备包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行所述的考虑目标相对运动的连续图像目标检测方法的步骤。

本发明的另一目的在于提供一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行所述的考虑目标相对运动的连续图像目标检测方法的步骤。

本发明的另一目的在于提供一种信息数据处理终端，信息数据处理终端用于实现所述的考虑目标相对运动的连续图像目标检测系统。

结合上述的技术方案和解决的技术问题，本发明所要保护的技术方案所具备的优点及积极效果为：

第一，针对上述现有技术存在的技术问题以及解决该问题的难度，紧密结合本发明的所要保护的技术方案以及研发过程中结果和数据等，详细、深刻地分析本发明技术方案如何解决的技术问题，解决问题之后带来的一些具备创造性的技术效果。具体描述如下：

本发明提供了一种能够依据已有连续拍摄图像中目标检测识别结果对尚未产生的目标检测结果进行预测，并结合新产生的检测识别结果对目标的真实位置和尺寸进行进一步精确估计。本发明提供的考虑目标相对运动的连续图像目标检测方法，根据检测器在已有帧图像中的检测与识别结果，对当前帧图像中目标的位置进行预测；根据检测器在已有帧图像中的检测与识别结果，对当前帧图像中目标的尺寸进行预测；综合考虑当前帧图像中目标的位置和尺寸的预测结果、检测器在当前帧图像中的检测与识别结果以及当前帧图像中目标检测与识别的可信度，对当前帧中目标的准确位置和尺寸进行进一步精确估计。

第二，把技术方案看做一个整体或者从产品的角度，本发明所要保护的技术方案具备的技术效果和优点，具体描述如下：

(1)本发明在现有图像目标检测器的基础上根据连续拍摄图像中的历史结果对目标在图像中的位置和尺寸进行进一步准确估计，从而消除环境光照及障碍物遮挡等因素对检测的影响，提高对图像中目标检测结果的准确性。

(2)本发明所设计的方法能够依据连续图像中的目标检测结果对目标在图像中的运动参数和尺寸变化规律进行估计，相关参数可以为后续开展目标的定位、实际运动状态估计等工作提供有效的数据支撑。

第三，作为本发明的权利要求的创造性辅助证据，本发明的技术方案转化后的预期收益和商业价值为：

本发明的技术方案经转化后可用于安防监控、交通监控等对视频图像目标检测与识别依赖性较高的领域。

若应用于安防监控，相应技术可以有效解决多遮挡、多漏检情况下的目标连续检测、准确定位，并进一步提高对目标边界框检测的精度，作为反映人员、车辆等典型目标外形特征的重要依据；

若应用于交通监控领域，相应技术在有效解决遮挡问题的基础上，能进一步实现对目标运动的检测与估计，从而为交通事故认定、重点目标定位跟踪及目标运动轨迹预测等问题提供重要的数据支撑。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图做简单的介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的考虑目标相对运动的连续图像目标检测方法的流程图；

图2是本发明实施例提供的考虑目标相对运动的连续图像目标检测方法的原理图；

图3是本发明实施例提供的目标观测尺寸随时间变化趋势仿真示意图；

图4是本发明实施例提供的二阶高斯函数仿真数据拟合效果对比图；

图5是本发明实施例提供的试验条件下mAP随g值的变化图；

图6是本发明实施例提供的二阶高斯函数试验数据拟合效果对比图；

图7是本发明实施例提供的试验场景关键帧连续图像；

图8是本发明实施例提供的采用标准模型YOLOv7直接检测的结果；

图9是本发明实施例提供的设计算法处理后的检测结果。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种考虑目标相对运动的连续图像目标检测方法、系统及终端，下面结合附图对本发明作详细的描述。

一、解释说明实施例。为了使本领域技术人员充分了解本发明如何具体实现，该部分是对权利要求技术方案进行展开说明的解释说明实施例。

如图1所示，本发明实施例提供的考虑目标相对运动的连续图像目标检测方法包括以下步骤：

S101，根据检测器在已有帧图像中的检测与识别结果，对当前帧图像中目标的位置进行预测；

S102，根据检测器在已有帧图像中的检测与识别结果，对当前帧图像中目标的尺寸进行预测；

S103，综合考虑当前帧图像中目标的位置和尺寸的预测结果、检测器在当前帧图像中的检测与识别结果以及当前帧图像中目标检测与识别的可信度，对当前帧中目标的位置和尺寸进行精确估计。

在本发明实施例中，连续图像目标检测方法具体包括：

步骤①：获取原始检测数据。

步骤②：检测结果的时序匹配

对于每一个Y_in，均进行如下判断：

(1)检测结果的剔除判断

其中，λ_d是依据经验可自由设置的剔值阈值。

(2)检测结果的匹配判断

若Y_in中元素c_in和Y_imn+1中元素c_imn+1满足：

c_in＝c_imn+1

(3)检测对象的漏检判断

若Y_in中元素c_in和Y_imn+1中元素c_imn+1满足：

c_in≠c_imn+1

(4)检测结果的增补判断

p_in+1≥λ_p

步骤③：当前帧检测可信度估计

g(n)＝0.299r(n)+0.578g(n)+0.114b(n)

通过上式得到n时刻图像对应检测结果的平均亮度g(n)。

根据拟合函数

步骤④：对象位置的滤波估计

X_n+1＝Φ_n,n+1X_n+v(n)

其中，Δt为系统状态从n时刻转移到n+1时刻之间的时间间隔。

Z_n+1＝Θ_n+1X_n+r(n+1)

P(n+1|n+1)＝[I-K_n+1Θ_n+1]P(n+1|n)

与

步骤⑤：对象尺寸参数的预测

之后将t_n带入上述函数，得到在n-1时刻对n时刻b_w的预测值：

取该时刻目标边界框宽度的估计值为上述两者的加权平均：

高度尺寸的计算与宽度类似。

通过上述过程，得到n时刻第i个目标边界框宽度的估计值

和高度的估计值

步骤⑥：结果输出

记处理后的n时刻第i个目标的检测结果满足：

其中，c_in为目标的类型，

为目标检测框在X方向上的坐标，

为目标检测框在Y方向上的坐标，

为检测框的高度，

为检测框的款度。

作为优选实施例，如图2所示，本发明实施例提供的考虑目标相对运动的连续图像目标检测方法具体包括以下步骤：

步骤①：获取原始检测数据。

在连续拍摄图像中采用YOLO算法进行目标检测与识别，得到k时刻的检测结果，记其中第i个对象的检测结果为Y_ik＝[p_ik,c_ik,b_xik,b_yik,b_hik,b_wik]^T，其中，p_ik为对象出现在边界框内的置信度，c_ik为检测所得对象的类型编号，b_xik为边界框中心的横坐标，b_yik为边界框中心的纵坐标，b_hik为边界框的高度，b_wik为边界框的宽度。

步骤②：检测结果的时序匹配

当检测器根据k+1时刻图像得到检测结果后，考虑到k时刻和k+1时刻的检测结果中对象数量都可能大于1，因此需要对两次检测结果中的对象采取时序匹配操作：

对于k时刻检测得到的第i个对象的检测结果Y_ik，和k+1时刻检测得到的第j个对象的检测结果Y_jk+1，计算两者边界框之间的IoU(Intersection over Union)值IoU_ij。对于某一Y_i _k，记所有Y_jk+1中令IoU_ij最大的检测结果为Y_imk+1，其对应的IoU值记为IoU_im。

对于每一个Y_ik，均进行如下判断：

(1)检测结果的剔除判断

若IoU_im<λ_d，则认为在k+1时刻的检测结果中无法找到与Y_ik相匹配的检测结果，将Y_ik剔除。

其中，λ_d是依据经验可自由设置的剔值阈值。

(2)检测结果的匹配判断

若Y_ik中元素c_ik和Y_imk+1中元素c_imk+1满足：

c_ik＝c_imk+1

(3)检测对象的漏检判断

若Y_ik中元素c_ik和Y_imk+1中元素c_imk+1满足：

c_ik≠c_imk+1

(4)检测结果的增补判断

p_ik+1≥λ_p

③对象位置的滤波估计

考虑到本发明的核心内容是在对连续图像采用检测器进行目标检测和识别的基础上对目标的位置和尺寸信息进行进一步精确估计，重点不在于对滤波估计算法本身的改进，因此在对象位置的滤波估计部分采用经典的卡尔曼滤波来实现。

依据已有的标注信息和检测器对训练样本的检测结果，通过数据对比和统计分析可以得到检测器对任意对象检测结果Y＝[p,c,b_x,b_y,b_h,b_w]^T中参数b_x和b_y的方差统计信息r_bx和r_by。

X_n+1＝Φ_n,n+1X_n+v(n)

其中，Δt为系统状态从n时刻转移到n+1时刻之间的时间间隔。

Z_n+1＝Θ_n+1X_n+r(n+1)

P(n+1|n+1)＝[I-K_n+1Θ_n+1]P(n+1|n)

完成上述操作后，形成对目标运动状态向量的卡尔曼滤波估计，即可提高对目标实际坐标的估计精度。

④对象尺寸参数的预测

除了目标的位置以外，目标检测边界框的尺寸参数b_h和b_w也属于图像目部检测工作中的重要参数。为了进一步确保目标检测的精准度，在对对象检测边界框的尺寸参数进行估计时，首先需要研究观测设备对目标的观测信息随着目标运动的变化规律，之后结合相应的规律依据已经产生的连续拍摄图像检测结果，形成对后续图像中目标边界框尺寸参数的预测，作为后续开展目标位置与边界尺寸估计的重要依据。

假设目标相对观测中心匀速运动，通过数值仿真，得到目标的观测尺寸随时间的变化如图3所示。

考虑到上述曲线明显非线性变化，因此采取数据拟合的方法来表示目标匀速运动中观测尺寸随时间的变化。通过测试，发现二阶高斯函数具备较好的拟合效果，其示意图如图4所示。

根据拟合结果，拟合函数的置信度达到99.97％，因此在本发明中选取二阶高斯函数来表示目标观测尺寸随时间的变化规律，其一般表达式为：

由于二阶高斯函数存在6个未知参数，因此在实际操作中通过拟合确定观测尺寸随时间的变化函数时，至少需要依据6组观测数据；与此同时，在拟合计算时也并非采取的数据越多，效果就越好，因为拟合函数是基于目标采取匀速运动的假设下所建立的，若时间跨度过长，目标运动速度发生改变，则该假设就不成立，拟合所得的结果便不再准确。考虑目前大部分视频观测设备的帧率一般在15～60FPS范围，本发明中所提及的方法采用距离当前帧最近的20帧图像中的检测结果作为预测未来帧中目标边界框尺寸的依据。其具体操作如下：

假设在n时刻检测器已经完成了对该时刻图像中的目标检测，接下来将采用包含n时刻检测结果在内的20组检测结果来对n+1时刻目标边界框的尺寸参数b_hn+1和b_wn+1进行预测。以b_wn+1的预测为例：

记录从n-19至n时刻所得的20组检测结果作为因变量Y＝[b_wn-19,b_wn-18,……,b_wn]^T，记n-19至n时刻对应时间为自变量X＝[t_n-19,t_n-18,……,t_n]^T，将X和Y进行二阶高斯函数拟合，得到b_w随时间的变化函数，记为：

之后将t_n+1带入上述函数，得到在n时刻对n+1时刻b_w的预测值：

⑤当前帧检测可信度估计

一般情况下，可见光图像目标检测器的检测效果受到诸如观测设备性能、检测器学习模型结构、训练样本、训练次数、环境光照情况等多种因素的影响，因此很难对目标检测的可信度给出精确的估计。然而，对于已经完成训练的同一个检测器而言，其主要影响因素来源于图像的成像效果本身，而连续观测图像又来自于同一个观测设备，其图像的质量可以认为是恒定的，这样一来影响检测结果可信度的主要因素就成为环境因素。

本发明主要考虑不同光照条件下图像成像效果的变化对最终检测器的检测效果产生的影响，选取整幅图像的平均亮度值作为衡量光照条件的指标，而对于彩色图像，采用RGB三个分量的加权平均作为计算单个像素亮度值的计算依据：

g＝0.299r+0.578g+0.114b

为了确定图像平均亮度值与检测器检测效果之间的影响，通过设计试验记录不同环境亮度条件下检测结果的mAP值，并记录对应条件下的平均亮度值g，所得的结果如图5所示。

结合参数mAP随g的变化规律对上述数据进行函数拟合，通过数据拟合后g与mAP之间同样近似服从二阶高斯分布：

上述函数的拟合结果如图6所示。

根据拟合的结果，拟合函数的置信度达到96.30％。

这样一来，对于实际获得的待检测连续图像，假设其中n时刻图像的平均亮度值为g_n，带入拟合函数则会得到与之对应的值p_n，该参数的大小反应了检测器对该图像中目标检测和识别的准确程度，因此可以作为衡量该时刻图像检测可信度的重要依据。

⑥图像目标融合检测

根据连续拍摄图像中的已有检测结果完成目标位置的滤波估计、目标边界框尺寸的估计以及当前帧检测结果的可信度的估计后，可以综合上述各种信息对当前图像中目标的位置和尺寸参数进行进一步的估计：

(1)对于目标位置的估计

依据卡尔曼滤波原理，衡量不同时刻观测信息的可信程度主要依据观测噪声矩阵R(n)，考虑到正常情况下对于相同的观测设备，其观测噪声矩阵理论上应该恒定，但是由于存在光照程度的影响，其图像的平均亮度会对图像检测器的检测结果产生影响。假设通过实验统计确定观测设备的噪声矩阵为R，同时，记n时刻通过图像平均亮度参数g_n估算得到检测结果的可信度指标p_n，下面需结合p_k和R得到该时刻检测结果的噪声矩阵R(n)：

假设正常光照情况下，图像检测器的mAP指标为P，记R(n)满足：

这样一来，便能通过调整n时刻的噪声矩阵参数来实现考虑目标检测可信度的目标位置滤波估计。

(2)对于目标尺寸的估计

由于n时刻目标检测框边界尺寸的预测结果来源于过去20帧图像的检测结果，该预测结果会受到前20帧图像检测可信度的共同影响。

取该时刻目标边界框宽度的估计值为上述两者的加权平均：

高度尺寸的计算与宽度类似，在此不做赘述。

本发明实施例提供的考虑目标相对运动的连续图像目标检测系统包括：

二、应用实施例。为了证明本发明的技术方案的创造性和技术价值，该部分是对权利要求技术方案进行具体产品上或相关技术上的应用实施例。

下面以一个实际视频图像为对象给出本发明所涉及图像目标检测的实施例：

采用摄像头对试验场景中的目标进行拍摄，成像设备参数如表1所示。

表1成像设备参数表

搭建试验场景，模拟自然场景下连续拍摄的典型场景。为了适配检测器的输入图片尺寸需求，对成像设备所拍摄的视频图像进行适当裁剪，保留分辨率为854×480并完整包含目标场景部分区域作为输入图像目标检测器的原始输入视频。原始图像中关键帧连续图像如图7所示。

将所得到视频输入图像检测器(YOLOv7)，采用标准模型(YOLOv7)进行检测。经过检测，得到对应于关键帧的图像目标检测结果如图8所示。

在此基础上，利用本发明所设计算法对连续拍摄的视频图像进行处理，之后在原始图像中输出目标检测框的位置和目标分类的结果，其中对应于关键帧的检测结果如图9所示。

对比图7-图9三组图像及目标检测结果可知：

1、试验条件下采用YOLOv7算法对视频图像进行检测可以较为准确地检测出图像中的目标，但是在目标相互遮挡、光线条件不稳定等情况下会对部分帧图像中的目标检测结果产生影响，从而降低检测结果的准确性；

2、在采用本发明所设计的算法对检测结果进行处理后，原图像目标检测器检测结果中出现的漏检、分类错误、误检等问题得到了有效的抑制，最终得到的检测结果更接近真实的情况。

根据上述试验条件下的实施例可知，本发明所设计的算法能够对连续拍摄图像目标检测结果进行有效处理，进一步提高目标检测及分类的准确性。

三、实施例相关效果的证据。本发明实施例在研发或者使用过程中取得了一些积极效果，和现有技术相比的确具备很大的优势，下面内容结合试验过程的数据、图表等进行描述。

为了进一步验证算法的有效性，设计试验场景验证不同条件下本发明所设计算法对于连续图像目标检测效果的改进意义：

采用表1所述的成像设备对目标场景进行拍摄，在拍摄过程中通过调整环境光照亮度、目标之间位置关系等方式模拟实际自然场景中环境光照变化、障碍物遮挡等因素对视频图像中目标检测过程的影响。通过拍摄，得到不同情况下包含目标场景的原始视频。

对原始视频内的图像目标进行标注，获得人工标注的标签，作为衡量图像目标检测器的衡量标准。

利用YOLOv7算法对原始视频中的图像目标进行检测，得到图像检测器的检测结果，记录该结果作为对比组的同时，采用本发明所设计的算法基于该结果继续进行处理，得到新的结果。

将处理前的检测结果和处理后的检测结果与人工标注的标签进行对比，衡量两组结果与人工标签之间的差异。

多次重复上述操作，得到处理前与处理后的查准率(precision)、召回率(recall)、平均检索精度(mean average precision,mAP)及平均处理耗时(average time,AT)如表2所示。

表2处理前后检测结果对比

通过试验数据和试验结果可知，本发明所设计的算法能够在原有图像目标检测器的基础上有效降低环境光照变化以及障碍物遮挡等因素对目标检测准确度的影响，并进一步提高连续拍摄图像中的目标检测准确度。

应当注意，本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种考虑目标相对运动的连续图像目标检测方法，其特征在于，考虑目标相对运动的连续图像目标检测方法包括：利用图像目标检测器对k时刻的图像进行检测，得到对应的检测结果Y_k；对于检测器的检测结果Y_k，将Y_k与算法所得的前一时刻的检测结果

2.如权利要求1所述考虑目标相对运动的连续图像目标检测方法，其特征在于，考虑目标相对运动的连续图像目标检测方法包括以下步骤：

步骤一，获取原始检测数据，并进行检测结果的时序匹配；

3.如权利要求2所述考虑目标相对运动的连续图像目标检测方法，其特征在于，步骤一中的原始检测数据获取包括：在连续拍摄图像中采用YOLO算法进行目标检测与识别，得到k时刻的检测结果，记其中第i个对象的检测结果为Y_ik＝[p_ik,c_ik,b_xik,b_yik,b_hik,b_wik]^T；其中，p_ik为对象出现在边界框内的置信度，c_ik为检测所得对象的类型编号，b_xik为边界框中心的横坐标，b_yik为边界框中心的纵坐标，b_hik为边界框的高度，b_wik为边界框的宽度。

4.如权利要求2所述考虑目标相对运动的连续图像目标检测方法，其特征在于，步骤一中的检测结果的时序匹配包括：当检测器根据k+1时刻图像得到检测结果后，由于k时刻和k+1时刻的检测结果中对象数量均大于1，故对两次检测结果中的对象采取时序匹配操作：

对于k时刻检测得到的第i个对象的检测结果Y_ik，和k+1时刻检测得到的第j个对象的检测结果Y_jk+1，计算两者边界框之间的IoU值IoU_ij；对于某一Y_ik，记所有Y_jk+1中令IoU_ij最大的检测结果为Y_imk+1，对应的IoU值记为IoU_im；

对于每一个Y_ik，均进行如下判断：

(1)检测结果的剔除判断

若IoU_im<λ_d，则认为在k+1时刻的检测结果中无法找到与Y_ik相匹配的检测结果，将Y_ik剔除；其中，λ_d是依据经验自由设置的剔值阈值；

(2)检测结果的匹配判断

若Y_ik中元素c_ik和Y_imk+1中元素c_imk+1满足：

c_ik＝c_imk+1；

则认为Y_ik和Y_imk+1属于同一对象在不同时刻产生的检测结果，将两者相互匹配；

(3)检测对象的漏检判断

若Y_ik中元素c_ik和Y_imk+1中元素c_imk+1满足：

c_ik≠c_imk+1；

则认为对象i因遮挡等原因在k+1时刻被漏检，将对象i予以保留；

(4)检测结果的增补判断

在完成匹配判断之后，若存在检测结果Y_jk+1找不到与之匹配的Y_ik，则视为k+1时刻新增的对象进行增补。

5.如权利要求2所述考虑目标相对运动的连续图像目标检测方法，其特征在于，步骤二中的对象位置的滤波估计采用经典的卡尔曼滤波实现；

依据标注信息和检测器对训练样本的检测结果，通过数据对比和统计分析得到检测器对任意对象检测结果Y＝[p,c,b_x,b_y,b_h,b_w]^T中参数b_x和b_y的方差统计信息r_bx和r_by；

记n时刻某一特定对象在图像中的真实位置坐标为[x_n,y_n]^T，考虑到目标与观测设备之间存在相对运动，记n时刻目标在x方向上的速度和加速度分别为v_xn和a_xn，y方向上的速度和加速度分别为v_yn和a_yn；由于在实际滤波过程中，x、y方向上的运动状态分别滤波估计，记目标n时刻在x方向上的运动状态为X_n＝[x_n,v_xn,a_xn]^T，结合目标运动状态的传递规律，得到n时刻和n+1时刻系统状态的传递方程：

X_n+1＝Φ_n,n+1X_n+v(n)；

其中，Δt为系统状态从n时刻转移到n+1时刻之间的时间间隔；

Z_n+1＝Θ_n+1X_n+r(n+1)；

P(n+1|n+1)＝[I-K_n+1Θ_n+1]P(n+1|n)；

步骤二中的对象尺寸参数的预测包括：

分析观测设备对目标的观测信息随着目标运动的变化规律，结合相应的规律依据连续拍摄图像检测结果，形成对后续图像中目标边界框尺寸参数的预测；

采用距离当前帧最近的20帧图像中的检测结果作为预测未来帧中目标边界框尺寸的依据，具体操作如下：当在n时刻检测器已经完成对某一时刻图像中的目标检测，采用包含n时刻检测结果在内的20组检测结果来对n+1时刻目标边界框的尺寸参数b_hn+1和b_wn+1进行预测；

6.如权利要求2所述考虑目标相对运动的连续图像目标检测方法，其特征在于，步骤三中的当前帧检测可信度估计包括：

g＝0.299r+0.578g+0.114b；

通过设计试验记录不同环境亮度条件下检测结果的mAP值，并记录对应条件下的平均亮度值g，确定图像平均亮度值与检测器检测效果之间的影响；

对于实际获得的待检测连续图像，当其中n时刻图像的平均亮度值为g_n，带入拟合函数则得到与之对应的值p_n，参数的大小反应检测器对该图像中目标检测和识别的准确程度，故作为衡量n时刻图像检测可信度的重要依据；

步骤三中的图像目标融合检测包括：根据连续拍摄图像中的已有检测结果完成目标位置的滤波估计、目标边界框尺寸的估计及当前帧检测结果的可信度的估计，综合各种信息对当前图像中目标的位置和尺寸参数进行估计；

(1)对于目标位置的估计

通过调整n时刻的噪声矩阵参数实现考虑目标检测可信度的目标位置滤波估计；

(2)对于目标尺寸的估计

记n时刻通过检测器得到的目标边界框宽度为b′_wn，通过拟合函数得到的目标边界框宽度为b′_w′_n，取n时刻目标边界框宽度的估计值为两者的加权平均：

7.如权利要求1所述考虑目标相对运动的连续图像目标检测方法，其特征在于，所述连续图像目标检测方法具体包括：

步骤①：获取原始检测数据

在连续拍摄图像中采用YOLOv7算法进行目标检测与识别，得到目标检测结果；

步骤②：检测结果的时序匹配

对于n时刻检测得到的第i个对象的检测结果Y_in，和n+1时刻检测得到的第j个对象的检测结果Y_jn+1，计算两者边界框之间的交并比值IoU_ij，记所有Y_jn+1中令IoU_ij最大的检测结果为Y_imn+1，其对应的IoU值记为IoU_im；

对于每一个Y_in，均进行如下判断：

(1)检测结果的剔除判断

若IoU_im<λ_d，则认为在n+1时刻的检测结果中无法找到与Y_in相匹配的检测结果，将Y_in剔除；

其中，λ_d是依据经验可自由设置的剔值阈值；

(2)检测结果的匹配判断

若Y_in中元素c_in和Y_imn+1中元素c_imn+1满足：

c_in＝c_imn+1

则认为Y_in和Y_imn+1属于同一对象在不同时刻产生的检测结果，将两者相互匹配；

(3)检测对象的漏检判断

若Y_in中元素c_in和Y_imn+1中元素c_imn+1满足：

c_in≠c_imn+1

则认为对象i因遮挡等原因在n+1时刻被漏检，将对象i予以保留；

(4)检测结果的增补判断

p_in+1≥λ_p

则视检测结果Y_jn+1为n+1时刻新增的对象进行增补，其中λ_p是依据经验自由设置的增补阈值；

步骤③：当前帧检测可信度估计

g(n)＝0.299r(n)+0.578g(n)+0.114b(n)

通过上式得到n时刻图像对应检测结果的平均亮度g(n)；

根据拟合函数

带入g(n)得到与之对应的值p(n)，该参数的大小反应了检测器对该图像中目标检测和识别的准确程度，作为衡量该时刻图像检测可信度的重要依据；

步骤④：对象位置的滤波估计

在此基础上，记n时刻某一特定对象在图像中的真实位置坐标为[x_n,y_n]^T，记n时刻目标在x方向上的速度和加速度分别为v_xn和a_xn，y方向上的速度和加速度分别为v_yn和a_yn；记目标n时刻在x方向上的运动状态为X_n＝[x_n,v_xn,a_xn]^T，得到n时刻和n+1时刻系统状态的传递方程：

X_n+1＝Φ_n,n+1X_n+v(n)