CN116935189B

CN116935189B - 一种基于神经网络的伪装目标检测方法、装置及存储介质

Info

Publication number: CN116935189B
Application number: CN202311195784.3A
Authority: CN
Inventors: 李明; 曹海; 李元旭; 吴薇
Original assignee: Beijing Polytechnic Navigation Control Technology Co ltd
Current assignee: Beijing Polytechnic Navigation Control Technology Co ltd
Priority date: 2023-09-15
Filing date: 2023-09-15
Publication date: 2023-12-05
Anticipated expiration: 2043-09-15
Also published as: CN116935189A

Abstract

本发明提出了一种基于神经网络的伪装目标检测方法、装置及存储介质，该方法包括：将连续的两帧侦察视频图像分别进行预处理得到对应的图像向量；将两帧侦察视频图像分别的对应的图像向量使用编码器进行编码后计算两帧图像之间的短期运动相关性信息；将所述短期运动相关性信息输入至训练后的卷积神经网络模型中进行伪装目标对象分割，并进行掩码处理后得到伪装目标对象短期预测的二值化掩码图像预测值；将一段时间内的图像序列与其伪装目标对象短期预测的二值化掩码图像预测值构成的短期预测序列输入至解码器中进行长期一致性优化后输出连续的伪装目标对象检测结果，提高了伪装目标对象的检测准确度。

Description

一种基于神经网络的伪装目标检测方法、装置及存储介质

技术领域

本发明涉及人工智能技术领域，具体涉及一种基于神经网络的伪装目标检测方法、装置及存储介质。

背景技术

在现代战场对抗中，攻防双方越来越多地通过模拟环境背景色彩、纹理与形态等特征来隐藏己方人员和装备，最大程度上加大被对方发现的难度甚至完全避免被发现。随着视觉伪装技术的快速进步，伪装目标在外观上与背景具有极高的相似性，目标边缘往往无缝地混合在背景中，缺乏清晰的边界，从静态侦察图像中有效检测伪装目标非常困难。

当伪装目标在动态视频序列中运动时，通过计算相邻帧之间的相关性使得有效发现目标成为可能，现有技术中，一般通过单应变换或光流法估计目标运动实现目标检测。但由于目标与环境背景具有相似的、重复的纹理特征，检测算法往往需要借助运动线索才能发现两者之间的细微差别。同时，目标与背景之间模糊的边界又容易导致光流法等难以准确估计像素点在相邻帧之间的运动，进一步加大检测误差，造成侦察任务失败。

现有技术中，也有直接采用神经网络识别伪目标的方式，但由于伪装技术的提高，识别误差较大，因此，如何准确的识别伪装目标是一项技术挑战。

发明内容

本发明针对上述现有技术中一个或多个技术缺陷，提出了如下技术方案。

一种基于神经网络的伪装目标检测方法，该方法包括：

预处理步骤，将连续的两帧侦察视频图像分别进行预处理得到对应的图像向量；

相关性计算步骤，将两帧侦察视频图像分别的对应的图像向量使用编码器进行编码后计算两帧图像之间的短期运动相关性信息；

分割步骤，将所述短期运动相关性信息输入至训练后的卷积神经网络模型中进行伪装目标对象分割，并进行掩码处理后得到伪装目标对象短期预测的二值化掩码图像预测值；

预测步骤，将一段时间内的图像序列与其伪装目标对象短期预测的二值化掩码图像预测值构成的短期预测序列输入至解码器中进行长期一致性优化后输出连续的伪装目标对象检测结果。

更进一步地，所述预处理步骤的操作为：对宽为、高为/>的连续两帧侦察视频图像/>和/>，分别将其切分成/>个图像块，/>，然后将得到的图像块进行拉直并线性投影，得到尺寸为/>的图像向量，/>表示图像特征通道维度。

更进一步地，所述相关性计算步骤的操作为：

将连续两帧侦察视频图像和/>对应的图像向量分别输入到Transformer编码器中进行编码，得到两帧图像的特征图像金字塔/>和/>，两个特征图像金字塔相同层的特征图像构成特征图像对/>；

计算各尺度下的特征图像对的短期相关性，并进行归一化得到短期运动相关性信息；

其中，为图像/>的特征图像，/>为图像/>像素点坐标；/>为图像/>的特征图像，/>为图像/>像素点坐标，/>为图像特征通道维度索引。

更进一步地，所述短期的含义为连续两帧图像之间的时间间隔，所述长期的含义为1至T帧图像之间的时间间隔，T大于10。

更进一步地，所述分割步骤中的卷积神经网络采用优化的损失函数进行训练得到，所述优化的损失函数为：

；

其中，为两帧图像带权重的交叉熵损失函数，/>为两帧图像带权重的交并比损失函数。

其中，；

；

其中，和/>分别表示图像在坐标点/>处的预测值和真值，/>表示图像在坐标点/>处的预测值为/>的概率，/>为符号函数，/>坐标点/>处像素的差异度，/>为常量。

更进一步地，所述预测步骤的操作为：将一段时间内的图像序列每一帧/>与其对应的伪装目标对象短期预测的二值化掩码图像预测值构成的短期预测序列/>中的预测值/>进行拼接，然后堆叠每个序列中拼接的帧图像，形成一个4维张量/>，将所述4维张量/>输入Transformer解码器进行长期一致性优化后输出连续的伪装目标对象检测结果，所述伪装目标对象检测结果为预测序列/>。

本发明还提出了一种基于神经网络的伪装目标检测装置，该装置包括：

预处理单元，将连续的两帧侦察视频图像分别进行预处理得到对应的图像向量；

相关性计算单元，将两帧侦察视频图像分别的对应的图像向量使用编码器进行编码后计算两帧图像之间的短期运动相关性信息；

分割单元，将所述短期运动相关性信息输入至训练后的卷积神经网络模型中进行伪装目标对象分割，并进行掩码处理后得到伪装目标对象短期预测的二值化掩码图像预测值；

预测单元，将一段时间内的图像序列与其伪装目标对象短期预测的二值化掩码图像预测值构成的短期预测序列输入至解码器中进行长期一致性优化后输出连续的伪装目标对象检测结果。

更进一步地，所述预处理单元的操作为：对宽为、高为/>的连续两帧侦察视频图像/>和/>，分别将其切分成/>个图像块，/>，然后将得到的图像块进行拉直并线性投影，得到尺寸为/>的图像向量，/>表示图像特征通道维度。

更进一步地，所述相关性计算单元的操作为：

更进一步地，所述分割单元中的卷积神经网络采用优化的损失函数进行训练得到，所述优化的损失函数为：

；

其中，；

；

更进一步地，所述预测单元的操作为：将一段时间内的图像序列每一帧/>与其对应的伪装目标对象短期预测的二值化掩码图像预测值构成的短期预测序列/>中的预测值/>进行拼接，然后堆叠每个序列中拼接的帧图像，形成一个4维张量/>，将所述4维张量/>输入Transformer解码器进行长期一致性优化后输出连续的伪装目标对象检测结果，所述伪装目标对象检测结果为预测序列/>。

本发明还提出了一种计算机可读存储介质，所述存储介质上存储有计算机程序代码，当所述计算机程序代码被计算机执行时执行上述之任一的方法。

本发明的技术效果在于：本发明的一种基于神经网络的伪装目标检测方法、装置及存储介质，该方法包括：预处理步骤S101，将连续的两帧侦察视频图像分别进行预处理得到对应的图像向量；相关性计算步骤S102，将两帧侦察视频图像分别的对应的图像向量使用编码器进行编码后计算两帧图像之间的短期运动相关性信息；分割步骤S103，将所述短期运动相关性信息输入至训练后的卷积神经网络模型中进行伪装目标对象分割，并进行掩码处理后得到伪装目标对象短期预测的二值化掩码图像预测值；预测步骤S104，将一段时间内的图像序列与其伪装目标对象短期预测的二值化掩码图像预测值构成的短期预测序列输入至解码器中进行长期一致性优化后输出连续的伪装目标对象检测结果，解决了现有技术中，由于目标与背景之间模糊的边界又容易导致光流法等难以准确估计像素点在相邻帧之间的运动导致的检测误差大的技术缺陷，本发明中，对伪装目标进行分割的卷积神经网络采用优化的损失函数进行训练得到，所述优化的损失函数基于两帧图像带权重的交叉熵损失函数和基于两帧图像带权重的交并比损失函数构成，即本发明中交叉熵损失函数、交并比损失函数都是基于两帧图像的特征构造的，从而保证训练后的神经网络可以准确的分割出伪装目标，因此，本发明的损失函数的具体构成是本发明的一个重要发明点。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显。

图1是根据本发明的实施例的一种基于神经网络的伪装目标检测方法的流程图。

图2是根据本发明的实施例的一种基于神经网络的伪装目标检测方法装置的结构图。

实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了本发明的一种基于神经网络的伪装目标检测方法，该方法包括：

预处理步骤S101，将连续的两帧侦察视频图像分别进行预处理得到对应的图像向量；

相关性计算步骤S102，将两帧侦察视频图像分别的对应的图像向量使用编码器进行编码后计算两帧图像之间的短期运动相关性信息；

分割步骤S103，将所述短期运动相关性信息输入至训练后的卷积神经网络模型中进行伪装目标对象分割，并进行掩码处理后得到伪装目标对象短期预测的二值化掩码图像预测值；

预测步骤S104，将一段时间内的图像序列与其伪装目标对象短期预测的二值化掩码图像预测值构成的短期预测序列输入至解码器中进行长期一致性优化后输出连续的伪装目标对象检测结果。

本发明中，先将两帧侦察视频图像预处理后得到分别的对应的图像向量，再使用编码器进行编码后计算两帧图像之间的短期运动相关性信息，然后将所述短期运动相关性信息输入至训练后的卷积神经网络模型中进行伪装目标对象分割，并进行掩码处理后得到伪装目标对象短期预测的二值化掩码图像预测值，然后，将一段时间内的图像序列与其伪装目标对象短期预测的二值化掩码图像预测值构成的短期预测序列输入至解码器中进行长期一致性优化后输出连续的伪装目标对象检测结果，即先利用编码器编码目标特征，构建相关性金字塔，检测目标并捕捉目标在相邻帧之间的短期运动信息，同时，将短期预测生成的多步预测序列输入解码器进行长期一致性优化，输出连续的目标检测结果，解决了现有技术中，由于目标与背景之间模糊的边界又容易导致光流法等难以准确估计像素点在相邻帧之间的运动导致的检测误差大的技术缺陷，这是本发明的一个重要发明点。

在一个实施例中，所述预处理步骤S101的操作为：对宽为、高为/>的连续两帧侦察视频图像/>和/>，分别将其切分成/>个图像块，/>，然后将得到的图像块进行拉直并线性投影，得到尺寸为/>的图像向量，/>表示图像特征通道维度，本操作的优点是将图像切成多个图像块并进行拉直并线性投影，由于采用了拉直及线性投影处理，提高了后续图像短期运动相关性信息计算的准确度，从而使得后续的伪装目标对象检测精度，这是本发明的有一个重要发明构思之体现。

在一个实施例中，所述相关性计算步骤S102的操作为：

本发明中，将视频帧对应的图像向量分别输入到Transformer编码器中进行编码，得到两帧图像的特征图像金字塔，将两个特征图像金字塔相同层的特征图像构成特征图像对，计算各尺度下的特征图像对的短期相关性并进行归一化得到短期运动相关性信息，并提出了具体相关性计算公式，从而从连续视频帧中获取准确的短期运动相关性信息，从而有利于发现伪装目标，这是本发明的另一个重要发明点。

本发明中，所述短期的含义为连续两帧图像之间的时间间隔，所述长期的含义为1至T帧图像之间的时间间隔，T大于10。

在一个实时例中，所述分割步骤S103中的卷积神经网络采用优化的损失函数进行训练得到，所述优化的损失函数为：

；

其中，；

；

当然，本发明的损失函数还可以进一步地优化为：

；

其中，、/>为权重值，本发明提出的一种计算为：

；

再次优化的损失函数而不是简单的交叉熵损失函数、交并比损失函数相加，而是给出相应的计算权重，该权重值基于两帧图像之间的关系计算得出，从而更加符合两帧图像的特征，从而提高了短期预测的精度。

本发明中，对伪装目标进行分割的卷积神经网络采用优化的损失函数进行训练得到，所述优化的损失函数基于两帧图像带权重的交叉熵损失函数和基于两帧图像带权重的交并比损失函数构成，即本发明中交叉熵损失函数、交并比损失函数都是基于两帧图像的特征构造的，从而保证训练后的神经网络可以准确的分割出伪装目标，因此，本发明的损失函数的具体构成是本发明的一个重要发明点。

在一个实施例中，所述预测步骤S104的操作为：将一段时间内的图像序列每一帧/>与其对应的伪装目标对象短期预测的二值化掩码图像预测值构成的短期预测序列/>中的预测值/>进行拼接，然后堆叠每个序列中拼接的帧图像，形成一个4维张量/>，将所述4维张量/>输入Transformer解码器进行长期一致性优化后输出连续的伪装目标对象检测结果，所述伪装目标对象检测结果为预测序列/>。

本发明中，将多个短期预测值分别与对应的图像进行拼接后堆叠每个序列中拼接的帧图像，形成一个4维张量，将所述4维张量/>输入Transformer解码器进行长期一致性优化后输出连续的伪装目标对象检测结果，由于在解码器中输入了一个长期的图像序列及对应的预测序列，然后进行长期一致性优化，从而得到了更加准确的预测序列输出，从而提高了伪装目标对象检测结果的准确度，这是本发明的重要发明点之另一。

图2示出了本发明的一种基于神经网络的伪装目标检测装置，该装置包括：

预处理单元201，将连续的两帧侦察视频图像分别进行预处理得到对应的图像向量；

相关性计算单元202，将两帧侦察视频图像分别的对应的图像向量使用编码器进行编码后计算两帧图像之间的短期运动相关性信息；

分割单元203，将所述短期运动相关性信息输入至训练后的卷积神经网络模型中进行伪装目标对象分割，并进行掩码处理后得到伪装目标对象短期预测的二值化掩码图像预测值；

预测单元204，将一段时间内的图像序列与其伪装目标对象短期预测的二值化掩码图像预测值构成的短期预测序列输入至解码器中进行长期一致性优化后输出连续的伪装目标对象检测结果。

在一个实施例中，所述预处理单元201的操作为：对宽为、高为/>的连续两帧侦察视频图像/>和/>，分别将其切分成/>个图像块，/>，然后将得到的图像块进行拉直并线性投影，得到尺寸为/>的图像向量，/>表示图像特征通道维度，本操作的优点是将图像切成多个图像块并进行拉直并线性投影，由于采用了拉直及线性投影处理，提高了后续图像短期运动相关性信息计算的准确度，从而使得后续的伪装目标对象检测精度，这是本发明的有一个重要发明构思之体现。

在一个实施例中，所述相关性计算单元202的操作为：

在一个实时例中，所述分割单元203中的卷积神经网络采用优化的损失函数进行训练得到，所述优化的损失函数为：

；

其中，；

；

当然，本发明的损失函数还可以进一步地优化为：

；

其中，、/>为权重值，本发明提出的一种计算为：

；

在一个实施例中，所述预测单元204的操作为：将一段时间内的图像序列每一帧/>与其对应的伪装目标对象短期预测的二值化掩码图像预测值构成的短期预测序列/>中的预测值/>进行拼接，然后堆叠每个序列中拼接的帧图像，形成一个4维张量/>，将所述4维张量/>输入Transformer解码器进行长期一致性优化后输出连续的伪装目标对象检测结果，所述伪装目标对象检测结果为预测序列/>。

本发明一个实施例中提出了一种计算机存储介质，所述计算机存储介质上存储有计算机程序，当所述计算机存储介质上的计算机程序被处理器执行时实现上述的方法，该计算机存储介质可以是硬盘、DVD、CD、闪存等等存储器。

本发明的为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例或者实施例的某些部分所述的装置。

最后所应说明的是：以上实施例仅以说明而非限制本发明的技术方案，尽管参照上述实施例对本发明进行了详细说明，本领域的普通技术人员应当理解：依然可以对本发明进行修改或者等同替换，而不脱离本发明的精神和范围的任何修改或局部替换，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于神经网络的伪装目标检测方法，其特征在于，该方法包括：

预测步骤，将一段时间内的图像序列与其伪装目标对象短期预测的二值化掩码图像预测值构成的短期预测序列输入至解码器中进行长期一致性优化后输出连续的伪装目标对象检测结果；

其中，所述预处理步骤的操作为：对宽为、高为/>的连续两帧侦察视频图像/>和/>，分别将其切分成/>个图像块，/>，然后将得到的图像块进行拉直并线性投影，得到尺寸为/>的图像向量，/>表示图像特征通道维度；

其中，所述相关性计算步骤的操作为：

其中，为图像/>的特征图像，/>为图像/>像素点坐标；/>为图像的特征图像，/>为图像/>像素点坐标，/>为图像特征通道维度索引。

2.根据权利要求1所述的方法，其特征在于，所述短期的含义为连续两帧图像之间的时间间隔，所述长期的含义为1至T帧图像之间的时间间隔，T大于10。

3.根据权利要求2所述的方法，其特征在于，所述分割步骤中的卷积神经网络采用优化的损失函数进行训练得到，所述优化的损失函数为：

；

其中，为两帧图像带权重的交叉熵损失函数，/>为两帧图像带权重的交并比损失函数；

其中，；

；

其中，和/>分别表示图像在坐标点/>处的预测值和真值，/>表示图像在坐标点/>处的预测值为/>的概率，/>为符号函数，/>表示坐标点/>处像素的差异度，/>为常量；

所述预测步骤的操作为：将一段时间内的图像序列每一帧/>与其对应的伪装目标对象短期预测的二值化掩码图像预测值构成的短期预测序列中的预测值/>进行拼接，然后堆叠每个序列中拼接的帧图像，形成一个4维张量/>，将所述4维张量/>输入Transformer解码器进行长期一致性优化后输出连续的伪装目标对象检测结果，所述伪装目标对象检测结果为预测序列/>。

4.一种基于神经网络的伪装目标检测装置，其特征在于，该装置包括：

预测单元，将一段时间内的图像序列与其伪装目标对象短期预测的二值化掩码图像预测值构成的短期预测序列输入至解码器中进行长期一致性优化后输出连续的伪装目标对象检测结果；

其中，所述预处理单元的操作为：对宽为、高为/>的连续两帧侦察视频图像/>和/>，分别将其切分成/>个图像块，/>，然后将得到的图像块进行拉直并线性投影，得到尺寸为/>的图像向量，/>表示图像特征通道维度；

其中，所述相关性计算单元的操作为：

5.根据权利要求4所述的装置，其特征在于，所述短期的含义为连续两帧图像之间的时间间隔，所述长期的含义为1至T帧图像之间的时间间隔，T大于10。

6.一种计算机可读存储介质，其特征在于，所述存储介质上存储有计算机程序代码，当所述计算机程序代码被计算机执行时执行权利要求1-3项之任一的方法。