CN116935189B - 一种基于神经网络的伪装目标检测方法、装置及存储介质 - Google Patents
一种基于神经网络的伪装目标检测方法、装置及存储介质 Download PDFInfo
- Publication number
- CN116935189B CN116935189B CN202311195784.3A CN202311195784A CN116935189B CN 116935189 B CN116935189 B CN 116935189B CN 202311195784 A CN202311195784 A CN 202311195784A CN 116935189 B CN116935189 B CN 116935189B
- Authority
- CN
- China
- Prior art keywords
- image
- short
- term
- images
- frames
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 42
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 16
- 230000007774 longterm Effects 0.000 claims abstract description 29
- 239000013598 vector Substances 0.000 claims abstract description 26
- 238000000034 method Methods 0.000 claims abstract description 25
- 238000005457 optimization Methods 0.000 claims abstract description 21
- 238000007781 pre-processing Methods 0.000 claims abstract description 19
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 17
- 238000004364 calculation method Methods 0.000 claims description 21
- 230000011218 segmentation Effects 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 4
- 230000000873 masking effect Effects 0.000 claims description 3
- 238000000638 solvent extraction Methods 0.000 claims 1
- 230000006870 function Effects 0.000 description 42
- 230000003287 optical effect Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/10—Image acquisition
- G06V10/16—Image acquisition using multiple overlapping images; Image stitching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明提出了一种基于神经网络的伪装目标检测方法、装置及存储介质,该方法包括:将连续的两帧侦察视频图像分别进行预处理得到对应的图像向量;将两帧侦察视频图像分别的对应的图像向量使用编码器进行编码后计算两帧图像之间的短期运动相关性信息;将所述短期运动相关性信息输入至训练后的卷积神经网络模型中进行伪装目标对象分割,并进行掩码处理后得到伪装目标对象短期预测的二值化掩码图像预测值;将一段时间内的图像序列与其伪装目标对象短期预测的二值化掩码图像预测值构成的短期预测序列输入至解码器中进行长期一致性优化后输出连续的伪装目标对象检测结果,提高了伪装目标对象的检测准确度。
Description
技术领域
本发明涉及人工智能技术领域,具体涉及一种基于神经网络的伪装目标检测方法、装置及存储介质。
背景技术
在现代战场对抗中,攻防双方越来越多地通过模拟环境背景色彩、纹理与形态等特征来隐藏己方人员和装备,最大程度上加大被对方发现的难度甚至完全避免被发现。随着视觉伪装技术的快速进步,伪装目标在外观上与背景具有极高的相似性,目标边缘往往无缝地混合在背景中,缺乏清晰的边界,从静态侦察图像中有效检测伪装目标非常困难。
当伪装目标在动态视频序列中运动时,通过计算相邻帧之间的相关性使得有效发现目标成为可能,现有技术中,一般通过单应变换或光流法估计目标运动实现目标检测。但由于目标与环境背景具有相似的、重复的纹理特征,检测算法往往需要借助运动线索才能发现两者之间的细微差别。同时,目标与背景之间模糊的边界又容易导致光流法等难以准确估计像素点在相邻帧之间的运动,进一步加大检测误差,造成侦察任务失败。
现有技术中,也有直接采用神经网络识别伪目标的方式,但由于伪装技术的提高,识别误差较大,因此,如何准确的识别伪装目标是一项技术挑战。
发明内容
本发明针对上述现有技术中一个或多个技术缺陷,提出了如下技术方案。
一种基于神经网络的伪装目标检测方法,该方法包括:
预处理步骤,将连续的两帧侦察视频图像分别进行预处理得到对应的图像向量;
相关性计算步骤,将两帧侦察视频图像分别的对应的图像向量使用编码器进行编码后计算两帧图像之间的短期运动相关性信息;
分割步骤,将所述短期运动相关性信息输入至训练后的卷积神经网络模型中进行伪装目标对象分割,并进行掩码处理后得到伪装目标对象短期预测的二值化掩码图像预测值;
预测步骤,将一段时间内的图像序列与其伪装目标对象短期预测的二值化掩码图像预测值构成的短期预测序列输入至解码器中进行长期一致性优化后输出连续的伪装目标对象检测结果。
更进一步地,所述预处理步骤的操作为:对宽为、高为/>的连续两帧侦察视频图像/>和/>,分别将其切分成/>个图像块,/>,然后将得到的图像块进行拉直并线性投影,得到尺寸为/>的图像向量,/>表示图像特征通道维度。
更进一步地,所述相关性计算步骤的操作为:
将连续两帧侦察视频图像和/>对应的图像向量分别输入到Transformer编码器中进行编码,得到两帧图像的特征图像金字塔/>和/>,两个特征图像金字塔相同层的特征图像构成特征图像对/>;
计算各尺度下的特征图像对的短期相关性,并进行归一化得到短期运动相关性信息;
其中,为图像/>的特征图像,/>为图像/>像素点坐标;/>为图像/>的特征图像,/>为图像/>像素点坐标,/>为图像特征通道维度索引。
更进一步地,所述短期的含义为连续两帧图像之间的时间间隔,所述长期的含义为1至T帧图像之间的时间间隔,T大于10。
更进一步地,所述分割步骤中的卷积神经网络采用优化的损失函数进行训练得到,所述优化的损失函数为:
;
其中,为两帧图像带权重的交叉熵损失函数,/>为两帧图像带权重的交并比损失函数。
其中,;
;
其中,和/>分别表示图像在坐标点/>处的预测值和真值,/>表示图像在坐标点/>处的预测值为/>的概率,/>为符号函数,/>坐标点/>处像素的差异度,/>为常量。
更进一步地,所述预测步骤的操作为:将一段时间内的图像序列每一帧/>与其对应的伪装目标对象短期预测的二值化掩码图像预测值构成的短期预测序列/>中的预测值/>进行拼接,然后堆叠每个序列中拼接的帧图像,形成一个4维张量/>,将所述4维张量/>输入Transformer解码器进行长期一致性优化后输出连续的伪装目标对象检测结果,所述伪装目标对象检测结果为预测序列/>。
本发明还提出了一种基于神经网络的伪装目标检测装置,该装置包括:
预处理单元,将连续的两帧侦察视频图像分别进行预处理得到对应的图像向量;
相关性计算单元,将两帧侦察视频图像分别的对应的图像向量使用编码器进行编码后计算两帧图像之间的短期运动相关性信息;
分割单元,将所述短期运动相关性信息输入至训练后的卷积神经网络模型中进行伪装目标对象分割,并进行掩码处理后得到伪装目标对象短期预测的二值化掩码图像预测值;
预测单元,将一段时间内的图像序列与其伪装目标对象短期预测的二值化掩码图像预测值构成的短期预测序列输入至解码器中进行长期一致性优化后输出连续的伪装目标对象检测结果。
更进一步地,所述预处理单元的操作为:对宽为、高为/>的连续两帧侦察视频图像/>和/>,分别将其切分成/>个图像块,/>,然后将得到的图像块进行拉直并线性投影,得到尺寸为/>的图像向量,/>表示图像特征通道维度。
更进一步地,所述相关性计算单元的操作为:
将连续两帧侦察视频图像和/>对应的图像向量分别输入到Transformer编码器中进行编码,得到两帧图像的特征图像金字塔/>和/>,两个特征图像金字塔相同层的特征图像构成特征图像对/>;
计算各尺度下的特征图像对的短期相关性,并进行归一化得到短期运动相关性信息;
其中,为图像/>的特征图像,/>为图像/>像素点坐标;/>为图像/>的特征图像,/>为图像/>像素点坐标,/>为图像特征通道维度索引。
更进一步地,所述短期的含义为连续两帧图像之间的时间间隔,所述长期的含义为1至T帧图像之间的时间间隔,T大于10。
更进一步地,所述分割单元中的卷积神经网络采用优化的损失函数进行训练得到,所述优化的损失函数为:
;
其中,为两帧图像带权重的交叉熵损失函数,/>为两帧图像带权重的交并比损失函数。
其中,;
;
其中,和/>分别表示图像在坐标点/>处的预测值和真值,/>表示图像在坐标点/>处的预测值为/>的概率,/>为符号函数,/>坐标点/>处像素的差异度,/>为常量。
更进一步地,所述预测单元的操作为:将一段时间内的图像序列每一帧/>与其对应的伪装目标对象短期预测的二值化掩码图像预测值构成的短期预测序列/>中的预测值/>进行拼接,然后堆叠每个序列中拼接的帧图像,形成一个4维张量/>,将所述4维张量/>输入Transformer解码器进行长期一致性优化后输出连续的伪装目标对象检测结果,所述伪装目标对象检测结果为预测序列/>。
本发明还提出了一种计算机可读存储介质,所述存储介质上存储有计算机程序代码,当所述计算机程序代码被计算机执行时执行上述之任一的方法。
本发明的技术效果在于:本发明的一种基于神经网络的伪装目标检测方法、装置及存储介质,该方法包括:预处理步骤S101,将连续的两帧侦察视频图像分别进行预处理得到对应的图像向量;相关性计算步骤S102,将两帧侦察视频图像分别的对应的图像向量使用编码器进行编码后计算两帧图像之间的短期运动相关性信息;分割步骤S103,将所述短期运动相关性信息输入至训练后的卷积神经网络模型中进行伪装目标对象分割,并进行掩码处理后得到伪装目标对象短期预测的二值化掩码图像预测值;预测步骤S104,将一段时间内的图像序列与其伪装目标对象短期预测的二值化掩码图像预测值构成的短期预测序列输入至解码器中进行长期一致性优化后输出连续的伪装目标对象检测结果,解决了现有技术中,由于目标与背景之间模糊的边界又容易导致光流法等难以准确估计像素点在相邻帧之间的运动导致的检测误差大的技术缺陷,本发明中,对伪装目标进行分割的卷积神经网络采用优化的损失函数进行训练得到,所述优化的损失函数基于两帧图像带权重的交叉熵损失函数和基于两帧图像带权重的交并比损失函数构成,即本发明中交叉熵损失函数、交并比损失函数都是基于两帧图像的特征构造的,从而保证训练后的神经网络可以准确的分割出伪装目标,因此,本发明的损失函数的具体构成是本发明的一个重要发明点。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显。
图1是根据本发明的实施例的一种基于神经网络的伪装目标检测方法的流程图。
图2是根据本发明的实施例的一种基于神经网络的伪装目标检测方法装置的结构图。
实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了本发明的一种基于神经网络的伪装目标检测方法,该方法包括:
预处理步骤S101,将连续的两帧侦察视频图像分别进行预处理得到对应的图像向量;
相关性计算步骤S102,将两帧侦察视频图像分别的对应的图像向量使用编码器进行编码后计算两帧图像之间的短期运动相关性信息;
分割步骤S103,将所述短期运动相关性信息输入至训练后的卷积神经网络模型中进行伪装目标对象分割,并进行掩码处理后得到伪装目标对象短期预测的二值化掩码图像预测值;
预测步骤S104,将一段时间内的图像序列与其伪装目标对象短期预测的二值化掩码图像预测值构成的短期预测序列输入至解码器中进行长期一致性优化后输出连续的伪装目标对象检测结果。
本发明中,先将两帧侦察视频图像预处理后得到分别的对应的图像向量,再使用编码器进行编码后计算两帧图像之间的短期运动相关性信息,然后将所述短期运动相关性信息输入至训练后的卷积神经网络模型中进行伪装目标对象分割,并进行掩码处理后得到伪装目标对象短期预测的二值化掩码图像预测值,然后,将一段时间内的图像序列与其伪装目标对象短期预测的二值化掩码图像预测值构成的短期预测序列输入至解码器中进行长期一致性优化后输出连续的伪装目标对象检测结果,即先利用编码器编码目标特征,构建相关性金字塔,检测目标并捕捉目标在相邻帧之间的短期运动信息,同时,将短期预测生成的多步预测序列输入解码器进行长期一致性优化,输出连续的目标检测结果,解决了现有技术中,由于目标与背景之间模糊的边界又容易导致光流法等难以准确估计像素点在相邻帧之间的运动导致的检测误差大的技术缺陷,这是本发明的一个重要发明点。
在一个实施例中,所述预处理步骤S101的操作为:对宽为、高为/>的连续两帧侦察视频图像/>和/>,分别将其切分成/>个图像块,/>,然后将得到的图像块进行拉直并线性投影,得到尺寸为/>的图像向量,/>表示图像特征通道维度,本操作的优点是将图像切成多个图像块并进行拉直并线性投影,由于采用了拉直及线性投影处理,提高了后续图像短期运动相关性信息计算的准确度,从而使得后续的伪装目标对象检测精度,这是本发明的有一个重要发明构思之体现。
在一个实施例中,所述相关性计算步骤S102的操作为:
将连续两帧侦察视频图像和/>对应的图像向量分别输入到Transformer编码器中进行编码,得到两帧图像的特征图像金字塔/>和/>,两个特征图像金字塔相同层的特征图像构成特征图像对/>;
计算各尺度下的特征图像对的短期相关性,并进行归一化得到短期运动相关性信息;
其中,为图像/>的特征图像,/>为图像/>像素点坐标;/>为图像/>的特征图像,/>为图像/>像素点坐标,/>为图像特征通道维度索引。
本发明中,将视频帧对应的图像向量分别输入到Transformer编码器中进行编码,得到两帧图像的特征图像金字塔,将两个特征图像金字塔相同层的特征图像构成特征图像对,计算各尺度下的特征图像对的短期相关性并进行归一化得到短期运动相关性信息,并提出了具体相关性计算公式,从而从连续视频帧中获取准确的短期运动相关性信息,从而有利于发现伪装目标,这是本发明的另一个重要发明点。
本发明中,所述短期的含义为连续两帧图像之间的时间间隔,所述长期的含义为1至T帧图像之间的时间间隔,T大于10。
在一个实时例中,所述分割步骤S103中的卷积神经网络采用优化的损失函数进行训练得到,所述优化的损失函数为:
;
其中,为两帧图像带权重的交叉熵损失函数,/>为两帧图像带权重的交并比损失函数。
其中,;
;
其中,和/>分别表示图像在坐标点/>处的预测值和真值,/>表示图像在坐标点/>处的预测值为/>的概率,/>为符号函数,/>坐标点/>处像素的差异度,/>为常量。
当然,本发明的损失函数还可以进一步地优化为:
;
其中,、/>为权重值,本发明提出的一种计算为:
;
;
再次优化的损失函数而不是简单的交叉熵损失函数、交并比损失函数相加,而是给出相应的计算权重,该权重值基于两帧图像之间的关系计算得出,从而更加符合两帧图像的特征,从而提高了短期预测的精度。
本发明中,对伪装目标进行分割的卷积神经网络采用优化的损失函数进行训练得到,所述优化的损失函数基于两帧图像带权重的交叉熵损失函数和基于两帧图像带权重的交并比损失函数构成,即本发明中交叉熵损失函数、交并比损失函数都是基于两帧图像的特征构造的,从而保证训练后的神经网络可以准确的分割出伪装目标,因此,本发明的损失函数的具体构成是本发明的一个重要发明点。
在一个实施例中,所述预测步骤S104的操作为:将一段时间内的图像序列每一帧/>与其对应的伪装目标对象短期预测的二值化掩码图像预测值构成的短期预测序列/>中的预测值/>进行拼接,然后堆叠每个序列中拼接的帧图像,形成一个4维张量/>,将所述4维张量/>输入Transformer解码器进行长期一致性优化后输出连续的伪装目标对象检测结果,所述伪装目标对象检测结果为预测序列/>。
本发明中,将多个短期预测值分别与对应的图像进行拼接后堆叠每个序列中拼接的帧图像,形成一个4维张量,将所述4维张量/>输入Transformer解码器进行长期一致性优化后输出连续的伪装目标对象检测结果,由于在解码器中输入了一个长期的图像序列及对应的预测序列,然后进行长期一致性优化,从而得到了更加准确的预测序列输出,从而提高了伪装目标对象检测结果的准确度,这是本发明的重要发明点之另一。
图2示出了本发明的一种基于神经网络的伪装目标检测装置,该装置包括:
预处理单元201,将连续的两帧侦察视频图像分别进行预处理得到对应的图像向量;
相关性计算单元202,将两帧侦察视频图像分别的对应的图像向量使用编码器进行编码后计算两帧图像之间的短期运动相关性信息;
分割单元203,将所述短期运动相关性信息输入至训练后的卷积神经网络模型中进行伪装目标对象分割,并进行掩码处理后得到伪装目标对象短期预测的二值化掩码图像预测值;
预测单元204,将一段时间内的图像序列与其伪装目标对象短期预测的二值化掩码图像预测值构成的短期预测序列输入至解码器中进行长期一致性优化后输出连续的伪装目标对象检测结果。
本发明中,先将两帧侦察视频图像预处理后得到分别的对应的图像向量,再使用编码器进行编码后计算两帧图像之间的短期运动相关性信息,然后将所述短期运动相关性信息输入至训练后的卷积神经网络模型中进行伪装目标对象分割,并进行掩码处理后得到伪装目标对象短期预测的二值化掩码图像预测值,然后,将一段时间内的图像序列与其伪装目标对象短期预测的二值化掩码图像预测值构成的短期预测序列输入至解码器中进行长期一致性优化后输出连续的伪装目标对象检测结果,即先利用编码器编码目标特征,构建相关性金字塔,检测目标并捕捉目标在相邻帧之间的短期运动信息,同时,将短期预测生成的多步预测序列输入解码器进行长期一致性优化,输出连续的目标检测结果,解决了现有技术中,由于目标与背景之间模糊的边界又容易导致光流法等难以准确估计像素点在相邻帧之间的运动导致的检测误差大的技术缺陷,这是本发明的一个重要发明点。
在一个实施例中,所述预处理单元201的操作为:对宽为、高为/>的连续两帧侦察视频图像/>和/>,分别将其切分成/>个图像块,/>,然后将得到的图像块进行拉直并线性投影,得到尺寸为/>的图像向量,/>表示图像特征通道维度,本操作的优点是将图像切成多个图像块并进行拉直并线性投影,由于采用了拉直及线性投影处理,提高了后续图像短期运动相关性信息计算的准确度,从而使得后续的伪装目标对象检测精度,这是本发明的有一个重要发明构思之体现。
在一个实施例中,所述相关性计算单元202的操作为:
将连续两帧侦察视频图像和/>对应的图像向量分别输入到Transformer编码器中进行编码,得到两帧图像的特征图像金字塔/>和/>,两个特征图像金字塔相同层的特征图像构成特征图像对/>;
计算各尺度下的特征图像对的短期相关性,并进行归一化得到短期运动相关性信息;
其中,为图像/>的特征图像,/>为图像/>像素点坐标;/>为图像/>的特征图像,/>为图像/>像素点坐标,/>为图像特征通道维度索引。
本发明中,将视频帧对应的图像向量分别输入到Transformer编码器中进行编码,得到两帧图像的特征图像金字塔,将两个特征图像金字塔相同层的特征图像构成特征图像对,计算各尺度下的特征图像对的短期相关性并进行归一化得到短期运动相关性信息,并提出了具体相关性计算公式,从而从连续视频帧中获取准确的短期运动相关性信息,从而有利于发现伪装目标,这是本发明的另一个重要发明点。
本发明中,所述短期的含义为连续两帧图像之间的时间间隔,所述长期的含义为1至T帧图像之间的时间间隔,T大于10。
在一个实时例中,所述分割单元203中的卷积神经网络采用优化的损失函数进行训练得到,所述优化的损失函数为:
;
其中,为两帧图像带权重的交叉熵损失函数,/>为两帧图像带权重的交并比损失函数。
其中,;
;
其中,和/>分别表示图像在坐标点/>处的预测值和真值,/>表示图像在坐标点/>处的预测值为/>的概率,/>为符号函数,/>坐标点/>处像素的差异度,/>为常量。
当然,本发明的损失函数还可以进一步地优化为:
;
其中,、/>为权重值,本发明提出的一种计算为:
;
;
再次优化的损失函数而不是简单的交叉熵损失函数、交并比损失函数相加,而是给出相应的计算权重,该权重值基于两帧图像之间的关系计算得出,从而更加符合两帧图像的特征,从而提高了短期预测的精度。
本发明中,对伪装目标进行分割的卷积神经网络采用优化的损失函数进行训练得到,所述优化的损失函数基于两帧图像带权重的交叉熵损失函数和基于两帧图像带权重的交并比损失函数构成,即本发明中交叉熵损失函数、交并比损失函数都是基于两帧图像的特征构造的,从而保证训练后的神经网络可以准确的分割出伪装目标,因此,本发明的损失函数的具体构成是本发明的一个重要发明点。
在一个实施例中,所述预测单元204的操作为:将一段时间内的图像序列每一帧/>与其对应的伪装目标对象短期预测的二值化掩码图像预测值构成的短期预测序列/>中的预测值/>进行拼接,然后堆叠每个序列中拼接的帧图像,形成一个4维张量/>,将所述4维张量/>输入Transformer解码器进行长期一致性优化后输出连续的伪装目标对象检测结果,所述伪装目标对象检测结果为预测序列/>。
本发明中,将多个短期预测值分别与对应的图像进行拼接后堆叠每个序列中拼接的帧图像,形成一个4维张量,将所述4维张量/>输入Transformer解码器进行长期一致性优化后输出连续的伪装目标对象检测结果,由于在解码器中输入了一个长期的图像序列及对应的预测序列,然后进行长期一致性优化,从而得到了更加准确的预测序列输出,从而提高了伪装目标对象检测结果的准确度,这是本发明的重要发明点之另一。
本发明一个实施例中提出了一种计算机存储介质,所述计算机存储介质上存储有计算机程序,当所述计算机存储介质上的计算机程序被处理器执行时实现上述的方法,该计算机存储介质可以是硬盘、DVD、CD、闪存等等存储器。
本发明的为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质 中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的装置。
最后所应说明的是:以上实施例仅以说明而非限制本发明的技术方案,尽管参照上述实施例对本发明进行了详细说明,本领域的普通技术人员应当理解:依然可以对本发明进行修改或者等同替换,而不脱离本发明的精神和范围的任何修改或局部替换,其均应涵盖在本发明的权利要求范围当中。
Claims (6)
1.一种基于神经网络的伪装目标检测方法,其特征在于,该方法包括:
预处理步骤,将连续的两帧侦察视频图像分别进行预处理得到对应的图像向量;
相关性计算步骤,将两帧侦察视频图像分别的对应的图像向量使用编码器进行编码后计算两帧图像之间的短期运动相关性信息;
分割步骤,将所述短期运动相关性信息输入至训练后的卷积神经网络模型中进行伪装目标对象分割,并进行掩码处理后得到伪装目标对象短期预测的二值化掩码图像预测值;
预测步骤,将一段时间内的图像序列与其伪装目标对象短期预测的二值化掩码图像预测值构成的短期预测序列输入至解码器中进行长期一致性优化后输出连续的伪装目标对象检测结果;
其中,所述预处理步骤的操作为:对宽为、高为/>的连续两帧侦察视频图像/>和/>,分别将其切分成/>个图像块,/>,然后将得到的图像块进行拉直并线性投影,得到尺寸为/>的图像向量,/>表示图像特征通道维度;
其中,所述相关性计算步骤的操作为:
将连续两帧侦察视频图像和/>对应的图像向量分别输入到Transformer编码器中进行编码,得到两帧图像的特征图像金字塔/>和/>,两个特征图像金字塔相同层的特征图像构成特征图像对/>;
计算各尺度下的特征图像对的短期相关性,并进行归一化得到短期运动相关性信息;
其中,为图像/>的特征图像,/>为图像/>像素点坐标;/>为图像的特征图像,/>为图像/>像素点坐标,/>为图像特征通道维度索引。
2.根据权利要求1所述的方法,其特征在于,所述短期的含义为连续两帧图像之间的时间间隔,所述长期的含义为1至T帧图像之间的时间间隔,T大于10。
3.根据权利要求2所述的方法,其特征在于,所述分割步骤中的卷积神经网络采用优化的损失函数进行训练得到,所述优化的损失函数为:
;
其中,为两帧图像带权重的交叉熵损失函数,/>为两帧图像带权重的交并比损失函数;
其中,;
;
其中,和/>分别表示图像在坐标点/>处的预测值和真值,/>表示图像在坐标点/>处的预测值为/>的概率,/>为符号函数,/>表示坐标点/>处像素的差异度,/>为常量;
所述预测步骤的操作为:将一段时间内的图像序列每一帧/>与其对应的伪装目标对象短期预测的二值化掩码图像预测值构成的短期预测序列中的预测值/>进行拼接,然后堆叠每个序列中拼接的帧图像,形成一个4维张量/>,将所述4维张量/>输入Transformer解码器进行长期一致性优化后输出连续的伪装目标对象检测结果,所述伪装目标对象检测结果为预测序列/>。
4.一种基于神经网络的伪装目标检测装置,其特征在于,该装置包括:
预处理单元,将连续的两帧侦察视频图像分别进行预处理得到对应的图像向量;
相关性计算单元,将两帧侦察视频图像分别的对应的图像向量使用编码器进行编码后计算两帧图像之间的短期运动相关性信息;
分割单元,将所述短期运动相关性信息输入至训练后的卷积神经网络模型中进行伪装目标对象分割,并进行掩码处理后得到伪装目标对象短期预测的二值化掩码图像预测值;
预测单元,将一段时间内的图像序列与其伪装目标对象短期预测的二值化掩码图像预测值构成的短期预测序列输入至解码器中进行长期一致性优化后输出连续的伪装目标对象检测结果;
其中,所述预处理单元的操作为:对宽为、高为/>的连续两帧侦察视频图像/>和/>,分别将其切分成/>个图像块,/>,然后将得到的图像块进行拉直并线性投影,得到尺寸为/>的图像向量,/>表示图像特征通道维度;
其中,所述相关性计算单元的操作为:
将连续两帧侦察视频图像和/>对应的图像向量分别输入到Transformer编码器中进行编码,得到两帧图像的特征图像金字塔/>和/>,两个特征图像金字塔相同层的特征图像构成特征图像对/>;
计算各尺度下的特征图像对的短期相关性,并进行归一化得到短期运动相关性信息;
其中,为图像/>的特征图像,/>为图像/>像素点坐标;/>为图像的特征图像,/>为图像/>像素点坐标,/>为图像特征通道维度索引。
5.根据权利要求4所述的装置,其特征在于,所述短期的含义为连续两帧图像之间的时间间隔,所述长期的含义为1至T帧图像之间的时间间隔,T大于10。
6.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序代码,当所述计算机程序代码被计算机执行时执行权利要求1-3项之任一的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311195784.3A CN116935189B (zh) | 2023-09-15 | 2023-09-15 | 一种基于神经网络的伪装目标检测方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311195784.3A CN116935189B (zh) | 2023-09-15 | 2023-09-15 | 一种基于神经网络的伪装目标检测方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116935189A CN116935189A (zh) | 2023-10-24 |
CN116935189B true CN116935189B (zh) | 2023-12-05 |
Family
ID=88388248
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311195784.3A Active CN116935189B (zh) | 2023-09-15 | 2023-09-15 | 一种基于神经网络的伪装目标检测方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116935189B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109379550A (zh) * | 2018-09-12 | 2019-02-22 | 上海交通大学 | 基于卷积神经网络的视频帧率上变换方法及系统 |
WO2020037965A1 (zh) * | 2018-08-21 | 2020-02-27 | 北京大学深圳研究生院 | 一种用于视频预测的多运动流深度卷积网络模型方法 |
CN113449727A (zh) * | 2021-07-19 | 2021-09-28 | 中国电子科技集团公司第二十八研究所 | 一种基于深度神经网络的伪装目标检测识别方法 |
CN115565108A (zh) * | 2022-10-10 | 2023-01-03 | 许昌学院 | 一种基于解耦自监督的视频伪装和显著性对象检测方法 |
CN115565130A (zh) * | 2022-09-30 | 2023-01-03 | 中国人民解放军国防科技大学 | 一种无人值守系统及其基于光流的监控方法 |
CN115620049A (zh) * | 2022-09-30 | 2023-01-17 | 合肥工业大学 | 一种基于偏振图像线索的伪装目标检测方法及其应用 |
CN116547711A (zh) * | 2020-11-13 | 2023-08-04 | 高通股份有限公司 | 图像分割过程的一致性度量 |
-
2023
- 2023-09-15 CN CN202311195784.3A patent/CN116935189B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020037965A1 (zh) * | 2018-08-21 | 2020-02-27 | 北京大学深圳研究生院 | 一种用于视频预测的多运动流深度卷积网络模型方法 |
CN109379550A (zh) * | 2018-09-12 | 2019-02-22 | 上海交通大学 | 基于卷积神经网络的视频帧率上变换方法及系统 |
CN116547711A (zh) * | 2020-11-13 | 2023-08-04 | 高通股份有限公司 | 图像分割过程的一致性度量 |
CN113449727A (zh) * | 2021-07-19 | 2021-09-28 | 中国电子科技集团公司第二十八研究所 | 一种基于深度神经网络的伪装目标检测识别方法 |
CN115565130A (zh) * | 2022-09-30 | 2023-01-03 | 中国人民解放军国防科技大学 | 一种无人值守系统及其基于光流的监控方法 |
CN115620049A (zh) * | 2022-09-30 | 2023-01-17 | 合肥工业大学 | 一种基于偏振图像线索的伪装目标检测方法及其应用 |
CN115565108A (zh) * | 2022-10-10 | 2023-01-03 | 许昌学院 | 一种基于解耦自监督的视频伪装和显著性对象检测方法 |
Non-Patent Citations (1)
Title |
---|
基于深度卷积长短时神经网络的视频帧预测;张德正;翁理国;夏旻;曹辉;;计算机应用(06);107-112 * |
Also Published As
Publication number | Publication date |
---|---|
CN116935189A (zh) | 2023-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7236545B2 (ja) | ビデオターゲット追跡方法と装置、コンピュータ装置、プログラム | |
CN110097586B (zh) | 一种人脸检测追踪方法及装置 | |
CN113312973B (zh) | 一种手势识别关键点特征提取方法及系统 | |
CN111723634B (zh) | 一种图像检测方法、装置、电子设备及存储介质 | |
CN112801047B (zh) | 缺陷检测方法、装置、电子设备及可读存储介质 | |
CN112036381B (zh) | 视觉跟踪方法、视频监控方法及终端设备 | |
Zhu et al. | HMFCA-Net: Hierarchical multi-frequency based Channel attention net for mobile phone surface defect detection | |
TWI729587B (zh) | 物件定位系統及方法 | |
CN113092807A (zh) | 基于多目标跟踪算法的城市高架道路车辆测速方法 | |
CN116935189B (zh) | 一种基于神经网络的伪装目标检测方法、装置及存储介质 | |
Uskenbayeva et al. | Contour analysis of external images | |
CN115439367A (zh) | 一种图像增强方法、装置、电子设备及存储介质 | |
CN114373071A (zh) | 目标检测方法、装置及电子设备 | |
CN113850750A (zh) | 一种目标轨迹校验的方法、装置、设备及存储介质 | |
Ziomek et al. | Evaluation of interest point detectors in presence of noise | |
Que et al. | Lightweight and Dynamic Deblurring for IoT-Enabled Smart Cameras | |
Rogova et al. | Comprehensive review of state-of-the-art intelligent methods for videosequences analysis | |
Rao et al. | Face Mask Recognition System for Epidemic Prevention and Control Based on Multi-algorithm Fusion | |
KR102527642B1 (ko) | 딥러닝 기반 소형 표적 탐지 시스템 및 방법 | |
CN117037049B (zh) | 基于YOLOv5深度学习的图像内容检测方法及系统 | |
CN111382603B (zh) | 一种轨迹计算装置、方法 | |
CN117911438A (zh) | 基于噪声扰动与结构相似性损失函数的图像分割方法及系统 | |
CN116452634A (zh) | 一种使用全局响应图的一阶段多目标跟踪方法及系统 | |
Pokala et al. | MUSTAN: Multi-scale Temporal Context as Attention for Robust Video Foreground Segmentation | |
Ren et al. | Rlm-tracking: online multi-pedestrian tracking supported by relative location mapping |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |