CN113627245A

CN113627245A - Crts目标检测方法

Info

Publication number: CN113627245A
Application number: CN202110746982.9A
Authority: CN
Inventors: 陈佳; 陈鑫洲; 胡新荣; 何儒汉; 胡浩博
Original assignee: Wuhan Textile University
Current assignee: Wuhan Textile University
Priority date: 2021-07-02
Filing date: 2021-07-02
Publication date: 2021-11-09
Anticipated expiration: 2041-07-02
Also published as: CN113627245B

Abstract

本发明涉及一种CRTS目标检测方法，将热力图预测、宽高预测、中心点预测对应的特征图进行分块以及线性变换向量处理，然后将每个块输入TS解码器进行解码，TS解码器里面空间注意力机制与时间注意力机制进行级联融合，用空间注意力机制提取前后帧图片的空间特征信息，并将每个空间特征的位置生成权重掩码并加权输出到后面时间注意力机制，而权重作为比较基础，在短时间内保存下来；然后用时间注意力机制在前后帧不同的空间权重掩码下进行相似性矩阵以及序列的相关性计算比较，分析出物体遮挡的部分，然后对于物体进行画框处理并输出解码器。使图片提取特征时候更加完整，解决物体遮挡时候目标检测比较难的问题。

Description

CRTS目标检测方法

技术领域

本发明属于目标检测方法，具体涉及一种CRTS目标检测方法。

背景技术

目标检测一直是计算机视觉的基础问题，在深度学习应用到目标检测之前，传统的方法都是区域选择，特征提取，回归分类，在这样环境下就出现两个比较难解决的问题：第一个是选择的区域如何选择，选择策略怎么改进。第二个是特征点提取的鲁棒性不高。往后发展，目标检测主要分为R-CNN的检测和YOLO的检测。从最开始2013发出来的R-CNN为卷积神经处理目标检测的开山之作，先生成候选框，再检测目标，降低了信息冗余程度，极大的提高了检测速度。但是在生成候选框时候会有一定的重叠，会造成重复卷积；为了解决这一问题出现SPP Net，提出了ResNet残差网络。2015年出现Fast R-CNN,将原来的串行结构改成并行结构，较原有R-CNN上速度和精度都提升了；但是这前面的一系列方法在生成候选框时候都是基于cpu计算的，方法在gpu上计算的效率会有损失，以及算力损失，为了解决这一问题，出现了 Faster R-CNN，论文中提出了RPNs概念，利用神经网络自己生成候选框，并在RPNs里面引入anchor概念；2017年出现Mask R-CNN,作者在之前的 Faster R-CNN上改进并使用新的backbone和FPN。此外2015年提出的YOLO 目标检测不一样，先将图片按照固定的尺寸输入卷积神经网络，然后输出结果，但是这样做对于小物体检测不友好，所有出现SSD,在原有YOLO上添加了anchor概念，融合了不同卷积层的特征做出预测。往后YOLO方法出现了很多版本，在目标检测领域大放光彩，2017年出现的YOLO9000；2020年出现的L-YOLO；

在此前的目标检测都是与anchor有关，在2018年ECCV提出了一种新的目标检测方法CornerNet,舍弃了传统的anchor boxes思路，通过 CornerNet模型预测目标边界框的左上角和右下角一对顶点；之后进一步发展出现ExtremeNet，在CornerNet上改进将边缘点检测成最左边最右边最上边最下边的极值点，后续组合不需要隐式学习embeding，直接根据外观特征进行组合；2019年出现CenterNet，直接检测目标的中心点，然后从中心点出发回归wh；同年出现CentererNet-Triplets,整合了CenterNet与 CornerNet的信息，在原有CornerPool上改进提出了Cascade Corner Pool, 增强了点表征力；2020年出现CornerProposal Network(CPN),提出了新颖的anchor-free两阶段框架，通过可能的角点和关键点组合来提取多个候选目标object proposals，然后通过独立分类为每个object分配一个类别标签。同年在多方面改进CornerNet后的CentripetalNet提出了新的角点匹配方式，额外学习一个向心偏移值，偏移值足够小的角点即为匹配，论文提出了十字星变形卷积，最后还增加了实例分割分支，能够将网络扩展到实例分割任务中。同年出现了一种可以进行增量式学习的小样本目标检测方法 ONCE,对比其他小样本目标检测方法，该方法优势在于训练完基础数据集之后，可以直接使用新的小样本数据集进行推断，并且这个过程不会忘记基础数据集的内容。方法采用元学习方式训练编码生成器，针对每个类别的图像输出对应的权重，利用权重完成测试图像的目标检测工作。

现在注意力机制在深度学习很多领域都有所应用，注意力机制是自深度学习快速发展后广泛应用于自然语言处理、统计学习、图像检测,语音识别和计算机等领域的核心技术。专家学者根据对人类注意力的研究,提出了注意力机制,本质上就是对于当前获得的信息做精准处理，只注意自己需要的那一块信息。注意力机制能够以高权重去聚焦重要信息,低权重去忽略不相的信息,并且还可以不断调整权重,使得在不同的情况下也可以选取重要的信息,因此具有更高的可扩展性和鲁棒性。注意力机制第一次提出是在视觉图像领域。1995年，john k,等人提出视觉注意力模型。将传统视觉搜索方法进行优化，通过可选择的调整视觉对网络进行处理，减少了需要处理的样本数据并增加了样本间的特征匹配。此后，在2002年itti l等人提出了视觉注意力机制模型，能够对接受的信息进行特征提取并快速检测各种形状和颜色，但是由于结构简单，无法检测到特征之间的相关性；之后与在1986和1990年提出的循环神经网络的结合下，2014年，谷歌mind团队将RNN 与注意力机制结合提出新的模型。原本注意力机制主要应用在机器翻译上，但是目前随着注意力发展，应用到图像处理方面渐渐多起来，最近2020年 google提出vision transformer(VIT)，VIT能直接利用transformer对图像进行分类，不需要卷积神经网络。

尽管centernet直接检测目标的中心点，然后从中心点回归宽高，增强了中心点特征与宽高特征的联系性，但是他们特征点的表征力不够强，无法解决物体重合时候的特征点联系问题，导致重合物体的检测容易出现检测错误。此外在用到vision transformer解码器时候，需要的数据量大，且在数据量低的时候表现的很不好，此外对于物体遮挡时检测不尽人意，本文提出新的解码器，采用空间注意力机制与时间注意力机制；根据解码时候，级联注意力机制将图片进行分类与预测。

发明内容

本发明的目的就是要提供一种CRTS目标检测方法。

CRTS目标检测方法，包括以下步骤：

步骤1、将视频图像按帧连续输入C-ResNet预测网络框架内，C-ResNet 预测网络框架对视频的每一帧图片进行预测，得到初步特征图；

步骤2、对初步特征图进行三次反卷积上采样操作得到高分辨率特征图；

步骤3、对高分辨率特征图分别进行热力图预测、中心点预测和宽高预测，得到热力图预测特征图、中心点预测特征图和宽高预测特征图；

步骤4、对热力图预测特征图、中心点预测特征图和宽高预测特征图进行分块处理、线性变换展平和嵌入位置信息向量，得到热力图预测特征图、中心点预测特征图和宽高预测特征图分别对应的N个特征向量；

步骤5、将热力图预测特征图、中心点预测特征图和宽高预测特征图分别对应的N个特征向量输入结合时间注意力机制和空间注意力机制的TS解码器；

步骤6、结合时间注意力机制和空间注意力机制的TS解码器对图片中的目标类别进行检测，并判断目标类别的位置是否有遮挡，若无遮挡则直接对目标类别的位置进行检测识别并输出，若有遮挡则分析出物体遮挡的部分后对目标类别的位置进行检测识别并输出。

进一步的，所述C-ResNet预测网络框架包括输入模块和级联模块，所述级联模块包括多个顺次连接的级联单元，所述级联单元包括卷积块和恒等块，每个级联单元均包括一个卷积块和多个恒等块，从前到后的级联单元中恒等块的数量先递增后递减。

进一步的，所述结合时间注意力机制和空间注意力机制的TS解码器的处理步骤为：

步骤5.1、根据热力图预测特征图判断图片包含的对象类别的总体数量；

步骤5.2、将中心点预测特征图和宽高预测特征图对应的N个特征向量分别进行标准化之后，并行输入到空间注意力机制；

步骤5.3、空间注意力机制对中心点预测特征图和宽高预测特征图进行特征提取并叠加，得到输入图片对应的一帧特征图；

步骤5.4、时间注意力机制对特征图进行对比筛选检测，判断目标类别的位置是否有遮挡，若无遮挡则直接对目标类别的位置进行检测识别并输出，若有遮挡则分析出物体遮挡的部分后对目标类别的位置进行检测识别并输出。

进一步的，所述步骤5.3具体包括以下步骤：

步骤5.31、根据热力图预测特征图判断图片包含的对象类别的总体数量；

步骤5.32、将中心点预测特征图和宽高预测特征图对应的N个特征向量分别进行标准化之后，并行输入到空间注意力机制；

步骤5.33、对空间注意力机制的每个通道并行进行全局平均池化以及全局最大池化操作，每个特征图产生两个代表不同信息的特征图，分别为中心点预测特征图对应的A1、A2特征图；宽高预测特征图对应的B1、B2特征图；

步骤5.34、将A1特征图和A2特征图分开，将B1特征图和B2特征图分开，再通过感受野较大的7*7卷积进行特征融合，将A1特征图和A2特征图合并为成A3,将B1特征图和B2特征图合并为B3，之后用Sigmoid分别对 A3和B3生成权重图，再叠加回原始输入的特征图分别成特征图A和特征图 B；

步骤5.35、将特征图A和特征图B进行特征点对应的矩阵相加得到叠加之后的特征图C，输出叠加后的特征图C，此时C为输入图片对应的一帧特征图。

进一步的，所述步骤5.4具体包括以下步骤：

步骤5.41、将空间注意力机制输出的特征图连续输入到时间注意力机制，然后将连续几帧的特征图作为序列F(X)＝f(x₁),f(x₂)，…,f(x_n)，将F(X)输入时间注意力机制，所述时间注意力机制为长短期记忆循环神经网络；

步骤5.42、将F(X)经过时间注意力机制得到的隐藏状态表示为矩阵H＝ [h₁,h₂,…,h_n]，其中h_t表示输入时间注意力机制序列中第t帧的隐藏状态, 计算得到输入时间注意力机制序列中第i帧和第j帧之间的相似性矩阵C_ij， C_ij的公式为：C_ij＝tanh(H^TH)；

步骤5.43、判断C_ij是否大于预设阈值k，若C_ij的值大于或者等于k表示两帧图片并无遮挡，转到步骤5.43，若C_ij的值小于k表示两帧图片之间有遮挡，转到步骤5.44；

步骤5.44、根据步骤5.3处理特征图时保留的位置信息，找到每个类对应的空间区域，将对应的位置进行画框处理；

步骤5.45、根据步骤5.3处理特征图时保留的位置信息，找到每个类别对应的空间区域，在输入图片上将目标类别对应的遮挡位置及未遮挡的位置一起进行画框并输出画框后的图片。

进一步的，所述步骤5.42中，整个序列的相关性特征可以表示为w ＝[w₁,w₂,…,w_t]，其中w_i表示第i帧与整个序列之间的相关性,计算公式为

若w_i大于或等于预设预设阈值v,则判断第i 帧图片属于序列F(X)，若w_i小于设预设阈值v,则判断第i帧图片不属于序列F(X)，直接将第i帧图片删除。

本发明的有益效果为：基础的ResNet当作预测网络时候提取的特征并没有本方法的C-ResNet完整，使用C-ResNet将图片的特征提取的更加完整，使得图片信息更好的还原，此外速度相对基础的ResNet会快一点；由于最近的 vision transformer即便是在检测物体遮挡方便还是有所欠缺，为此，本文发明设计了一种新的解码器，采用空间注意力机制和时间注意力机制；根据解码时候，级联注意力机制将图片进行分类与预测，对于实际环境中的物体遮挡问题检测进一步优化；使得预测目标的类别以及数量更加精准。这样就可以提高方法的实用性，获得实际环境下的强鲁棒性，在之后的各种目标检测实际场景下都发挥很好的作用。

附图说明

图1为本发明的方法流程图；

图2预测网络框架结构示意图；

图3TS解码器处理流程示意图；

图4空间注意力机制处理流程示意图；

图5为时间注意力机制处理流程示意图；

图6为真实场景下对于刀的识别结果示意图。

具体实施方式

以下结合附图和具体实施例对本发明作进一步的详细说明：

本项目的总体技术方案如图1所示，主要分为两个部分，具体如下：

1.对图片预测：首先用残差网络架构对图片进行预测，得到初步特征图，再进行三次反卷积上采样操作得到高分辨率特征图，接下来分别进行热力图预测、中心点预测、宽高预测分别得到不同的特征图；

2.对特征图解码：将第一部分得到的三个特征图转换成矩阵，之后按照位置编码进行线性变换拉伸为张量矩阵，之后输入TS解码器里面进行解码，得到图片的分类和预测。

本发明的一种CRTS的目标检测方法，大致分为两个部分：1.C-ResNet 预测网络；2.TS解码器

一、C-ResNet预测网络框架

C-ResNet框架包含两个基础的块，分别是卷积块以及恒等块，应用残差网络的思想，两个网络类似于小型残差网络。卷积块的输入输出的维度不一样，可以改变预测网络框架的维度；恒等块的输入输出维度一样，可以加深预测网络框架的深度，达到一个好的效果。此外，C-ResNet思想可以防止梯度消失与爆炸问题。

具体预测网络框架如图2所示，主要分为两个部分：第一部分是输入，输入每帧RGB图片大小为512*512。经过卷积网络以及批标准化(也可以称为批处理)操作之后进行ReLU激活函数激活，然后最大池化后得到大小为 128*128*64的特征图；第二部分是卷积块与恒等块的级联，将图像的整体特征信息保留，并输出16*16*2048特征图。

二、热力图、中心点、宽高预测

在预测网络框架之后得到16*16*2948的特征图后进行三次反卷积上采样操作之后得到128*128*64高分辨率特征图，用高分辨率特征图进行热力图、中心点、宽高预测。

(1)热力图预测，用128*128*64特征图进行卷积操作，卷积通道为类别数目大小(即想预测多少类就设置卷积通道数量为多少)。

(2)中心点预测，用128*128*64特征图进行卷积操作，卷积通道为2。

(3)宽高预测，用128*128*64特征图进行卷积操作，卷积通道为2。

三、TS解码器

在进行解码之前，需要对得到的中心点、宽高预测特征图进行处理，对于特征图处理分为三个步骤：(1)分别对中心点，宽高两个特征图进行分块处理。(2)再进行线性变换展平。(3)嵌入位置信息向量。

(1)分块：假设输入解码器的特征图是H*W*C，每个块宽高为(X,X)，则分块数目为：

N＝H*W/(X*X) (1)

其中H为特征图高，W为特征图宽。

(2)线性变换展平：对于分好的每个块进行展平拉伸为一维向量。其中每个向量大小为X*X*C，则此时输入解码器的每个特征图输入变换为 N*(X*X*C)。之后对于每个特征图对应的向量进行线性变换，通过线性变换的全连接层之后，维度被压缩为D。

(3)嵌入位置信息向量：此时在每个特征图被划分成块的时候按照顺序给个位置编号，对于每个位置对应的向量加上一个序列的位置信息P_code，这时候，引入一个c_embedding，热力图预测有多少类，c_embedding就为多少，作为一个可训练的变量替代，用于后面分类。将位置向量以及每个特征图对应的N个向量输入解码器进行图片的预测与分类的解码。TS解码器如图3所示。

TS解码器介绍：解码主要分为四个阶段：(1)先根据热力图判断图片包含多少类别(2)空间注意力机制进行提取阶段。(3)时间注意力机制进行对比筛选检测阶段。(4)将筛选出来的类根据中心点与宽高画出预测框并输出。

(1)根据热力图判断图片包含多少类别，热力图根据真实框的类别数进行设置，对应的特征点里面对应的种类，中心点设置为1，然后这个为1的特征点附近的其他点该种类的值按照高斯分布不断下降。

(2)空间注意力机制进行提取阶段。首先将上述宽高和中心点的特征图对应的N个向量分别进行标准化之后，并行输入到空间注意力机制，因为在输入之前进行全连接层了，维度为D，也就是通道数为D，对于每个通道并行进行全局平均池化以及全局最大池化操作，产生两个代表不同信息的特征图，而中心点以及宽高两种预测对应的信息特征图一起就是四个特征图，即：中心点：A1，A2特征图；宽高：B1,B2特征图，将A1,A2以及B1,B2分开合并后再通过感受野较大的7*7卷积进行特征融合成A3,B3，之后用Si gmoi d 生成权重图叠加回原始输入的特征图成特征图A，B。这时使得热力图里面预测类别的区域得以增强。此时将A与B进行特征点对应的矩阵相加得到叠加之后的特征图C，输出叠加后的特征图C，此时C为一帧对应的特征图，作为后面时间注意力机制的输入。空间注意力机制操作如下图4所示。

(3)时间注意力机制进行对比筛选检测阶段。将空间注意力机制输出的特征图连续几帧作为输入，输入到时间注意力机制，然后将连续几帧的特征图作为函数F(X)＝f(x₁),f(x₂)，…,f(x_n)。随后将F(X)作为时间注意力机制的输入,时间注意力机制为LSTM(长短期记忆循环神经网络)结构，如图 5所示。

在时间注意力机制里面，⊙表示矩阵元素相乘，⊕代表矩阵加法，对应符号的计算公式如下：

其中z^f,zⁱ,z^o是由拼接向量乘以权重矩阵之后经过sigmoid激活函数转换程 0到1之间的数值作为一种门控状态，x是当前状态下的数据的输入，h表示接受到的上一个节点的输入，上标的t以及t-1都是指代时间标量，也就是说第几帧，上面公式里面x^t就是当前状态的输入，h^t-1是上一个状态传递下来的输入，里面W是代表不同门控状态下的相似特征，外面σ是sigmoid激活函数，z是将结果直接通过tanh激活函数转换成-1到1之间的数值。

将F(X)经过时间注意力机制得到的隐藏状态表示为矩阵H＝ [h₁,h₂,…,h_n]，其中h_t表示输入时间注意力机制序列中第t帧的隐藏状态, 计算得到相似性矩阵，公式如下：

C＝tanh(H^TH) (5)

式中,C是帧与帧之间的相似性矩阵。然后,整个序列的相关性特征可以表示为w＝[w₁,w₂,…,w_t]，其中w_i表示第i帧与整个序列之间的相关性,计算公式如下：

式中，C表示输入时间注意力机制序列中第i帧和第j帧之间的相关性， w_i与判别性成正比,判别性更强的帧具有更大的w_i值。对于第i帧，时间注意力表示为T(x_i)＝f(x_i)⊙w_i。为了保留原始信息,将经过时间注意力分支的特征与原始特征相加,故时间注意力特征最终表示为公式7。

T(x_i)＝(1+w_i)⊙f(x_i) (7)

时间注意力机制内部主要为3个阶段：

(a)忘记阶段，这个阶段主要就是对于上个节点传进来的输入进行选择性忘记，记住重要特征。通过图5右侧第一个公式得到z^f作为忘记门控，控制上一个状态c^t-1哪些需要保留以及忘记的部分。

(b)选择记忆阶段，这个阶段对于输入有选择性的保留记忆，主要是对x^t进行选择记忆，当输入内容由前面计算的z表示，选择的门控信号为 zⁱ控制。

(c)输出阶段，这个阶段决定哪些状态被当成当前状态输出，通过z^o进行控制，并最上一个阶段得到的c^o进行tanh激活函数放缩。

(4)画预测框：经过时间注意力机制后进行空间与相似性筛选，在(3) 步骤里面C_ij为第i帧与第j帧的相关性，我们设定一个阈值k。(a)当C_ij的值大于或者等于k表示两帧图片并未遮挡，此时根据之前处理特征图保留的位置信息，找到每个类对应的空间区域，将对应的位置进行画框处理，此外其他类别位置也进行画框，画框：先进行中心点偏移，利用中心点预测对特征点对坐标进行偏移，利用中心点加上和减去wh宽高预测结果除以2得到预测框的左上角和右下角坐标，之后输出带有预测框的图片。(b)当C_ij的值小于k表示两帧图片有部分遮挡，此时根据之前处理特征图保留的位置信息，找到每个类对应的空间区域，将对应的遮挡位置进行画框处理，此外其他类别的位置也进行画框。而在(3)步骤里面的w_i表示第i帧相对整个序列帧的相关特征，我们设定一个阈值v，如果当这个相关特征w_i大于这个等于阈值，那么这一帧图片为这一序列的图片，则继续上述判断遮挡的步骤；如果当wi小于这个阈值，那么这一帧图片不为这个序列的图片，那么此时将其删掉，并回到输入时间注意力机制之前的步骤，将不为此序列的图片排除在序列之外，并将后面的图片继续衔接在序列之后，排除在外的图片的特征图保存另外一个路径下，以供其他时刻需要其他检测使用。

如图6所示为采用本发明的方法再真实场景下对于刀的识别结果示意图。

本说明书未作详细描述的内容属于本领域专业技术人员公知的现有技术。任何基于本发明的技术启示而进行的等效变换，也在本发明的保护范围之内。

Claims

1.CRTS目标检测方法，其特征在于，包括以下步骤：

步骤1、将视频图像按帧连续输入C-ResNet预测网络框架内，C-ResNet预测网络框架对视频的每一帧图片进行预测，得到初步特征图；

2.根据权利要求1所述的CRTS目标检测方法，其特征在于，所述C-ResNet预测网络框架包括输入模块和级联模块，所述级联模块包括多个顺次连接的级联单元，所述级联单元包括卷积块和恒等块，每个级联单元均包括一个卷积块和多个恒等块，从前到后的级联单元中恒等块的数量先递增后递减。

3.根据权利要求2所述的CRTS目标检测方法，其特征在于，所述结合时间注意力机制和空间注意力机制的TS解码器的处理步骤为：

4.根据权利要求3所述的CRTS目标检测方法，其特征在于，所述步骤5.3具体包括以下步骤：

步骤5.34、将A1特征图和A2特征图分开，将B1特征图和B2特征图分开，再通过感受野较大的7*7卷积进行特征融合，将A1特征图和A2特征图合并为成A3,将B1特征图和B2特征图合并为B3，之后用Sigmoid分别对A3和B3生成权重图，再叠加回原始输入的特征图分别成特征图A和特征图B；

5.根据权利要求3所述的CRTS目标检测方法，其特征在于，所述步骤5.4具体包括以下步骤：

步骤5.42、将F(X)经过时间注意力机制得到的隐藏状态表示为矩阵H＝[h₁,h₂,…,h_n]，其中h_t表示输入时间注意力机制序列中第t帧的隐藏状态,计算得到输入时间注意力机制序列中第i帧和第j帧之间的相似性矩阵C_ij，C_ij的公式为：C_ij＝tanh(H^TH)；

6.根据权利要求5所述的CRTS目标检测方法，其特征在于，所述步骤5.42中，整个序列的相关性特征可以表示为w＝[w₁,w₂,…,w_t]，其中w_i表示第i帧与整个序列之间的相关性,计算公式为

若w_i大于或等于预设预设阈值v,则判断第i帧图片属于序列F(X)，若w_i小于设预设阈值v,则判断第i帧图片不属于序列F(X)，直接将第i帧图片删除。