CN116704268B

CN116704268B - 面向动态变化复杂场景的强鲁棒目标检测方法

Info

Publication number: CN116704268B
Application number: CN202310974647.3A
Authority: CN
Inventors: 许镇义; 谭几方; 康宇; 曹洋
Original assignee: Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Current assignee: Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Priority date: 2023-08-04
Filing date: 2023-08-04
Publication date: 2023-11-10
Anticipated expiration: 2043-08-04
Also published as: CN116704268A

Abstract

本发明公开了面向动态变化复杂场景的强鲁棒目标检测方法，涉及计算机视觉技术领域。具体包括以下步骤：S1、基于目标图像中的前景目标和背景信息，定义背景建模求解优化问题的代价函数；S2、构建连续帧图像中各个像素点在不同时刻的时序关系，并根据所述时序关系对目标背景进行更新；S3、通过有限状态机提取所述连续帧图像的前景掩膜；S4、通过所述前景掩膜对所述目标图像进行切割，获得目标区域，将所述目标区域输入深度卷积神经网络进行特征提取，并完成目标区域检测分类。旨在采用背景剔除方法进行图像识别时，不提高算力，同时提高图像检测在复杂背景下的鲁棒性。

Description

面向动态变化复杂场景的强鲁棒目标检测方法

技术领域

本发明涉及计算机视觉技术领域，特别涉及面向动态变化复杂场景的强鲁棒目标检测方法。

背景技术

近些年，以机器学习和深度学习为基础的计算机视觉技术蓬勃发展开来，这引发了对于图像目标检测的一个新的高潮。

目前图像检测算法主要分为前景目标提取和背景剔除两种方法。前景目标提取的方法主要通过对目标特征的学习或表达实现检测。背景剔除则是针对图像背景建模，然后除去背景。由于前景目标提取的方法主要通过对目标特征的学习或表达实现检测，在复杂场景下，目标前景容易受环境背景干扰，导致出现特征前景和背景相似或前景模糊去除等情况的出现，这使得对图像检测难度更大并对算法要求更高。使得人们对背景剔除来实现图像检测更加青睐。

但现有的背景剔除方法通常采用的是：深度学习和背景建模两种，深度学习的方法显然对于训练集和算力均有较高的要求，而采用背景建模的方法对于边缘模糊，比如气体形变、透明等情况，这类场景挑战比较大。因此采用背景剔除方法进行图像识别时，如何不提高算力，同时提高图像检测在复杂背景下的鲁棒性，成为了亟待解决的技术难题。

发明内容

本发明的主要目的是提供面向动态变化复杂场景的强鲁棒目标检测方法，旨在采用背景剔除方法进行图像识别时，不提高算力，同时提高图像检测在复杂背景下的鲁棒性。

为了实现上述目的，本发明提出面向动态变化复杂场景的强鲁棒目标检测方法，包括以下步骤：

S1：基于目标图像中的前景目标和背景信息，定义背景建模求解优化问题的代价函数；

S2：构建连续帧图像中各个像素点在不同时刻的时序关系，并根据所述时序关系对目标背景进行更新；

S3：通过有限状态机提取所述连续帧图像的前景掩膜；

S4：通过所述前景掩膜对所述目标图像进行切割，获得目标区域，将所述目标区域输入深度卷积神经网络进行特征提取，并完成目标区域检测分类。

在本申请的一实施例中，定义背景建模求解优化问题的代价函数表示如下：

；

其中，，/>表示实数；y表示目标图像，所述y由sobel算子对目标图像分别在横轴和纵轴提取出的梯度和输入灰度图/>级联而成；/>表示目标背景；为目标前景；W表示目标图像的宽度，H表示目标图像的高度，3表示图像的通道数。

在本申请的一实施例中，根据求优化问题的代价函数，定义优化问题，所述优化问题表示如下：

其中，表示第/>个通道；/>为/>在i处展开矩阵；/>为/>的基矩阵；/>为/>系数矩阵；/>为/>的矢量表示；/>为/>的矢量表示；/>为/>的矢量表示；/>为/>的矢量表示；/>为核范数；/>为F范数；/>为1范数；/>和/>为范数权重。

在本申请的一实施例中，所述和/>为范数权重为/>，其中size(.)函数表示取y中高和宽的数值。

在本申请的一实施例中，当所述目标背景不包括凸优化问题时，所述目标背景通过在线随机优化来计算目标背景的最小解。

在本申请的一实施例中，构建所述连续帧图像中各个像素点在不同时刻的时序关系，并根据所述时序关系对矢量函数中的变量进行更新的具体计算过程如下：

定义为目标图像在/>时刻的融合图，则/>在第/>个通道展开的优化系数向量为/>，稀疏向量/>和基矩阵/>，

对更新时的计算公式如下：

其中，为单位矩阵；/>为在/>时刻前N帧的第/>个通道的系数向量；T表示矩阵的转置；

对更新时的计算公式如下：

其中，是1范数的解；

对更新时的计算公式如下：

其中，、/>、、/>均为支持度量。

在本申请的一实施例中，所述支持度量更新的计算公式如下：

其中，更新的顺序为：先固定和/>来更新/>，再利用/>来更新/>。

在本申请的一实施例中，通过有限状态机对提取连续帧图像前景掩膜，具体包括以下步骤：

S31：将三个通道平均整合，并生成前景掩膜，其计算公式如下：

其中，为整合后的背景张量；/>，/>为标准偏差函数；

S32：通过有限状态机融合前后帧掩膜，所述有限状态机表示为：

其中，为双比特码；/>和/>分别表示短时间帧和长时间帧的第/>个像素值。

在本申请的一实施例中，通过前景掩膜对所述目标图像进行切割，获得目标区域，将所述目标区域输入深度卷积神经网络进行特征提取，并完成目标区域检测分类包括以下步骤：

S41：根据中前景掩膜，将白色像素的连接转换为边界框，以定位和裁剪目标图像中目标区域，计算公式如下：

其中，为在/>基础上裁剪出的疑似目标区域，/>为在坐标/>处的像素值；

S42：利用深度卷积神经网络对目标区域进行特征提取，得到第一分辨率的特征图，公式如下：

其中，为学习得到的特征图；/>为深度卷积神经网络；/>为所需训练参数；

S43：将第一分辨率特征图展平，输入到由四层全连接构成的分类器，具体表示如下：

其中，为类别值；/>为全连接，其中/>表示/>将进行缩小2倍操作、/>表示/>将进行扩大2倍操作，/>表示/>将进行压缩到类别个数操作，/>为学习的参数。

在本申请的一实施例中，所述采用ResNet、DarkNet、以及Vgg网络中的至少一个。

采用上述技术方案：通过定义背景建模求解优化问题的代价函数和构建连续帧图像中各个像素点在不同时刻的时序关系，能够更好地对复杂场景中的背景和前景目标进行建模和更新，从而提高目标检测的鲁棒性。通过有限状态机提取连续帧图像的前景掩膜，能够减少光照变化等因素的影响。通过对目标图像进行切割，能够减少遮挡等情况的影响。通过将目标区域输入深度卷积神经网络进行特征提取和目标区域检测分类，能够自动学习目标区域的特征表示，避免了噪声等干扰的影响，从而不提高算力，同时提高图像检测在复杂背景下的鲁棒性。

附图说明

下面结合具体实施例和附图对本发明进行详细的说明，其中：

图1为本发明第一种实施例的结构示意图；

图2为本发明有限状态机工作示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚，以下结合附图和实施例对本发明进行详细的说明。应当理解，以下具体实施例仅用以解释本发明，并不对本发明构成限制。

如图1所示，为了实现上述目的，本发明提出一种面向动态变化复杂场景的强鲁棒目标检测方法，包括以下步骤：

S3：通过有限状态机提取所述连续帧图像的前景掩膜；

具体的，一种面向动态变化复杂场景的强鲁棒目标检测方法，包括以下步骤：

该部分先利用前景检测算法，对目标图像进行前景检测，并将前景目标的位置信息进行记录。对目标图像中的背景进行建模，得到背景估计值。这可以使用一些背景建模算法，例如高斯混合模型（GMM）或自适应背景建模等。根据前景目标和背景信息，定义背景建模求解优化问题的代价函数。这个代价函数可以包括前景目标像素与背景模型之间的差异、背景模型的复杂度以及一些先验信息等。

通过定义合适的代价函数，可以更准确地进行背景建模，从而提高目标检测的准确性和稳定性。

该部分先构建连续帧图像中各个像素点在不同时刻的时序关系，并根据这些时序关系对目标背景进行更新。对于每个像素点，记录其在不同时刻的像素值，并构建出其时序关系。这可以使用一个时序模型来完成，例如自回归模型（AR）或卡尔曼滤波器等。根据像素点的时序关系，可以计算出每个像素点的背景估计值，并将其用于对目标背景的更新。利用背景更新后的背景模型，可以对当前帧中的目标进行检测。这可以通过计算当前帧中每个像素点与其对应的背景估计值之间的差异来实现。如果该差异超过了某个预先设定的阈值，则认为该像素点属于目标。

通过构建时序关系并更新目标背景，可以更准确地检测目标，并且可以适应场景中的变化。

S3：通过有限状态机提取所述连续帧图像的前景掩膜；

该部分通过有限状态机来提取连续帧图像的前景掩膜。首先对状态机进行初始化，设置一些初始参数，例如前景和背景模型的初始值、状态转移的权重等。在状态机的每个状态下，对当前帧图像进行前景背景建模，得到前景和背景的估计值。根据当前帧图像的前景和背景估计值以及前面几帧图像的状态，可以计算出当前帧图像的状态转移概率，并根据这些概率来更新状态机的状态。根据状态机的状态和当前帧图像的前景背景估计值，可以提取出前景掩膜。这可以通过计算当前帧图像中每个像素点与其对应的背景估计值之间的差异来实现。如果该差异超过了某个预先设定的阈值，则认为该像素点属于前景。

通过有限状态机提取前景掩膜，可以更准确地提取出目标区域，减少背景干扰的影响，从而提高目标检测的准确性和稳定性。

该部分通过前景掩膜对目标图像进行切割，获得目标区域，并将目标区域输入深度卷积神经网络进行特征提取和目标区域检测分类。根据前景掩膜，将目标图像中的前景区域切割出来，得到目标区域。将目标区域输入深度卷积神经网络进行特征提取，得到目标区域的特征表示。基于目标区域的特征表示，进行目标检测和分类。

通过对目标区域进行切割和特征提取，可以更准确地表示目标区域的特征信息，从而提高目标检测的准确性和稳定性。同时，通过使用深度卷积神经网络进行特征提取和目标检测分类，可以自动学习目标区域的特征表示，避免了手动提取特征的复杂性和不准确性。

；

具体的，根据目标图像中的前景目标和背景信息，构建背景模型，并将背景模型表示为的形式。对目标图像进行梯度提取和灰度化处理，即使用Sobel算子分别在横轴和纵轴提取出的梯度和输入灰度图/>级联而成，得到目标图像/>。其中，Sobel算子是一种常用的边缘检测算子，用于在图像中检测出边缘。它是一个2x2的矩阵，可以分别在图像的水平和垂直方向上进行卷积计算。

采用上述技术方案：利用Sobel算子对目标图像进行梯度提取，从而可以更好地发现目标图像中的边缘和轮廓，提高目标检测的准确性。通过定义背景建模求解优化问题的代价函数，能够更好地对目标图像中的前景目标和背景信息进行建模和描述，从而提高目标检测的准确性。通过级联Sobel算子和输入灰度图像，能够在不增加额外计算成本的情况下，更好地利用图像中的信息，提高目标检测的准确性

具体的，通过定义目标函数和约束条件，能够更好地对背景建模求解优化问题进行描述和建模，从而提高目标检测的准确性。该算法采用了多通道表示，能够更好地利用图像中的颜色信息，提高目标检测的准确性。通过核范数、F范数和1范数的权重调整，能够更好地平衡模型的复杂度和性能，提高目标检测的准确性和鲁棒性。

具体的，和/>是范数权重，用于对目标函数进行约束。通过设定合适的范数权重，可以更好地保证优化结果的鲁棒性和稳定性，从而提高目标检测的准确性和鲁棒性。

具体来说，和/>的取值是/>，其中size(.)函数表示取y中高和宽的数值。这样做的主要作用是对范数进行归一化，从而可以更好地控制优化过程中的数值范围，避免出现数值不稳定的情况，同时可以更好地平衡各个范数的影响，从而提高优化结果的鲁棒性和稳定性。

采用上述技术方案，将和/>的取值设定为/>，可以自适应地适应不同大小的输入图像，从而更好地适应实际应用场景。同时，这样设定的范数权重可以保证对目标函数进行合适的约束，从而提高目标检测的准确性和鲁棒性。

具体的，当目标背景不包括凸优化问题时，直接使用传统的凸优化方法计算最小解可能会导致计算时间过长或者无法得到最优解。在线随机优化的方法可以在保证一定精度的情况下，通过多次迭代来逐步逼近最优解，从而可以更快地得到最小解，并且可以在计算过程中不断优化和调整计算方法，以适应不同的场景和需求。

采用上述技术方案：可以在不需要事先知道目标背景凸优化问题的情况下，仍然可以有效地计算出目标背景的最小解，从而提高了方法的适用性和鲁棒性。通过在线学习和自适应调整参数等方式来不断优化算法，从而提高了方法的鲁棒性和可靠性。

对更新时的计算公式如下：

其中，是1范数的解；

对更新时的计算公式如下：

其中，、/>、、/>均为支持度量。

采用上述技术方案，可以对连续帧图像中各个像素点在不同时刻的时序关系进行建模，从而更好地适应实际应用场景，并提高目标检测的准确性和鲁棒性。通过对、/>、以及/>的更新，不断优化矢量函数中的变量，从而提高优化结果的鲁棒性和稳定性。

具体的，由于矩阵A和B都是关于的二次型表达式，因此可以利用/>的值来更新这两个矩阵。而在更新/>之前，需要固定/>和/>的值，这是因为这两个变量在/>的更新过程中是常数，可以视为已知量。在固定/>和/>的值后，可以使用/>的值来更新A和B矩阵。更新完成后，再利用A和B的值来更新/>的值。

可以通过将A和B的更新与的更新分离开来，使得优化过程更加清晰和简单。同时，通过在优化过程中不断更新A和B矩阵，可以保证优化结果的准确性和可靠性。

采用上述技术方案，该方法可以通过先固定和/>来更新/>，再利用/>来更新/>，从而实现对目标检测中支持度量的全局优化，提高目标检测的准确性和鲁棒性。

如图2所示，在本申请的一实施例中，通过有限状态机对提取连续帧图像前景掩膜，具体包括以下步骤：

其中，为整合后的背景张量；/>，/>为标准偏差函数；

具体的，在目标检测中，前景掩膜是非常重要的信息，可以帮助我们更准确地检测目标。然而，在连续帧图像中，由于存在噪声和光照变化等因素，前景掩膜往往存在不稳定的问题。通过有限状态机对前景掩膜进行融合，可以将前后帧掩膜进行合并，从而得到更加准确和稳定的前景掩膜。

其通过将连续帧图像的三个通道进行平均整合，得到整合后的背景张量E，并通过计算公式生成前景掩膜M。利用有限状态机对前后帧掩膜进行融合，得到最终的前景掩膜。

有限状态机的表示为，/>为双比特码；/>和/>分别表示短时间帧和长时间帧的第/>个像素值。

具体状态表示如下：

，表示为背景像素；

，表示动态像素，可能是前景运动部分，离前景较远；

，表示候选静止像素，可能是静态前景；

，表示静态像素，可能是目标前景静止部分。

采用上述技术方案，通过使用有限状态机对前后帧掩膜进行融合，可以有效地提取出连续帧图像中的前景信息，并且可以对前景信息进行有效的筛选和过滤，从而提高前景检测的准确性和鲁棒性。同时，通过使用双比特码对前后帧掩膜进行融合，从而有效地降低了存储和计算的复杂度，提高了算法的效率和速度。

具体的，前景掩膜的目标区域检测和分类方法，包括以下步骤：

根据前景掩膜，将白色像素的连接转换为边界框，以定位和裁剪出目标图像中的目标区域。利用深度卷积神经网络对目标区域进行特征提取，得到第一分辨率的特征图。将第一分辨率特征图展平，并输入到由四层全连接构成的分类器，得到目标区域的类别值。本申请中的第一分辨率的特征图为分辨率较低的特征图。

采用上述技术方案，通过前景掩膜对目标图像进行切割，获得目标区域，并且可以对目标区域进行精确的定位和裁剪，从而提高了目标区域检测的准确性和鲁棒性。同时，通过深度卷积神经网络对目标区域进行特征提取，从而提高了目标区域的表征能力和识别准确性。进一步的，通过深度卷积神经网络和全连接层的训练，实现对模型参数的学习和优化，从而提高了模型的泛化能力和适应性。

具体的，ResNet是一种非常流行的深度残差网络，具有非常深的网络结构，可以有效地解决梯度消失和梯度爆炸的问题，从而提高了模型的训练效果和泛化能力。

DarkNet是一种针对物体检测和识别任务设计的深度卷积神经网络，具有轻量级、高效率、准确性高等优点，可以适应不同场景和资源限制的需求。

Vgg网络是一种经典的深度卷积神经网络，具有简单、易于理解、准确性高等优点，可以作为基础网络结构应用于各种计算机视觉任务中。

采用以上任意一种深度卷积神经网络作为的好处在于，可以根据具体任务和资源限制的需求选择适合的网络结构，从而提高算法的效率和准确性。同时，这些网络结构都经过了大量的实验验证和优化，具有非常好的性能和泛化能力，可以为目标检测和分类任务提供良好的实验基础。因此，采用这些深度卷积神经网络作为/>可以提高算法的可靠性、鲁棒性和泛化能力。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是在本发明的发明构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims

1.一种面向动态变化复杂场景的强鲁棒目标检测方法，包括以下步骤：

S2：构建连续帧图像中各个像素点在不同时刻的时序关系，并根据所述时序关系对目标背景进行更新；构建所述连续帧图像中各个像素点在不同时刻的时序关系，并根据所述时序关系对矢量函数中的变量进行更新的具体计算过程如下：

定义y^t为目标图像在t时刻的融合图，则y^t在第i个通道展开的优化系数向量为稀疏向量/>和基矩阵/>

对更新时的计算公式如下：

其中，Ι为单位矩阵；为在t时刻前N帧的第i个通道的系数向量；T表示矩阵的转置；

对更新时的计算公式如下：

其中，是1范数的解；

对更新时的计算公式如下：

其中，j∈[1,rank]、/> 均为支持度量；所述支持度量更新的计算公式如下：

其中，更新的顺序为：先固定和/>来更新/>再利用/>来更新/>

S3：通过有限状态机提取所述连续帧图像的前景掩膜；

通过有限状态机对提取连续帧图像前景掩膜，具体包括以下步骤：

其中，E为整合后的背景张量；β＝0.5σ(E)²，σ(·)为标准偏差函数；

G_k＝M_l(k)M_s(k)

其中，G_k为双比特码；M_s(k)和M_l(k)分别表示短时间帧和长时间帧的第k个像素值；

2.如权利要求1所述的面向动态变化复杂场景的强鲁棒目标检测方法，其特征在于，定义背景建模求解优化问题的代价函数表示如下：

y＝χ+g；

其中，表示实数；y表示目标图像，所述y由sobel算子对目标图像分别在横轴和纵轴提取出的梯度和输入灰度图/>级联而成；χ表示目标背景；ε为目标前景；W表示目标图像的宽度，H表示目标图像的高度，3表示图像的通道数。

3.如权利要求2所述的面向动态变化复杂场景的强鲁棒目标检测方法，其特征在于，根据求优化问题的代价函数，定义优化问题，所述优化问题表示如下：

其中，i表示第i个通道；为χ在i处展开矩阵；/>为X_i的基矩阵；为X_i系数矩阵；e_i为ε的矢量表示；x_i为X_i的矢量表示；y_i为y的矢量表示；r_i为R_i的矢量表示；||·||_*为核范数；/>为F范数；||·||₁为1范数；λ₁和λ₂为范数权重。

4.如权利要求3所述的面向动态变化复杂场景的强鲁棒目标检测方法，其特征在于，所述λ₁和λ₂为范数权重为其中size(.)函数表示取y中高和宽的数值。

5.如权利要求3所述的面向动态变化复杂场景的强鲁棒目标检测方法，其特征在于，当所述目标背景不包括凸优化问题时，所述目标背景通过在线随机优化来计算目标背景的最小解。

6.如权利要求1所述的面向动态变化复杂场景的强鲁棒目标检测方法，其特征在于，通过前景掩膜对所述目标图像进行切割，获得目标区域，将所述目标区域输入深度卷积神经网络进行特征提取，并完成目标区域检测分类包括以下步骤：

S41：根据G中前景掩膜，将白色像素的连接转换为边界框，以定位和裁剪目标图像中目标区域，计算公式如下：

其中，S为在F_ir基础上裁剪出的疑似目标区域，F_ir(h,w)为在坐标(h,w)处的像素值；

F_s＝Conv(S；θ)

其中，F_s为学习得到的特征图；Conv(·)为深度卷积神经网络；θ为所需训练参数；

C＝T_v(T_/2(T_×2(T_/2(F_s；θ₁)；θ₂)；θ₃)；θ₄)

其中，C为类别值；T为全连接，其中/2表示T将进行缩小2倍操作、×2表示T将进行扩大2倍操作，v表示T将进行压缩到类别个数操作，θ为学习的参数。

7.如权利要求6所述的面向动态变化复杂场景的强鲁棒目标检测方法，其特征在于，所述Conv(·)采用ResNet、DarkNet、以及Vgg网络中的至少一个。