CN115880614B

CN115880614B - 一种宽视场高分辨视频高效智能检测方法及系统

Info

Publication number: CN115880614B
Application number: CN202310062951.0A
Authority: CN
Inventors: 方璐; 郭雨晨; 林浩哲
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2023-01-19
Filing date: 2023-01-19
Publication date: 2023-05-12
Anticipated expiration: 2043-01-19
Also published as: CN115880614A

Abstract

本发明公开了一种宽视场高分辨视频高效智能检测方法及系统，该方法包括：利用宽视场高分辨成像设备生成待检测图像；对待检测图像按照预设像素大小进行分割合并得到第一特征图；利用神经网络的线性层对第一特征图进行线性变换得到第二特征图；基于窗口区域内的抽象特征对第二特征图进行全局特征的抽取融合，以及基于丢弃的第二特征图中预设区域的窗口内特征进行提取融合，以进行目标检测得到待检测图像的目标图像检测结果。本发明可以可以在宽视场高分辨视频中显著的提高目标智能检测的精度和速度。

Description

一种宽视场高分辨视频高效智能检测方法及系统

技术领域

本发明涉及目标检测技术领域，特别是涉及一种宽视场高分辨视频高效智能检测方法及系统。

背景技术

现有的技术包括：使用全局注意力机制实现目标检测。ViT方法通过对图像所有区域之前的注意力信息交互获得高维度特征，但是随着图像分辨率的增加，其计算需求呈现平方级增长，所以当高分辨场景下需要很大的计算能力和计算时间。使用基于窗口的注意力机制实现目标检测。Swin Transformer方法通过将图片分成很多个窗口，并只在窗口内部进行注意力机制的方法有效缓解了计算量，但是当宽视场的场景下，依旧会在背景区域浪费很多算力。

（1）在高分辨率图像上使用密集特征导致检测速度下降。对于目标检测方法来说存在一个检测下限，即待检测物体小于一定像素大小会很难被检测到，一种有效的改进方法是提高图像的分辨率，但是当物体达到一定分辨率后现有的目标检测方法已经可以完成对其检测工作，继续提升分辨率并不会有检测精度上的增加，相反，由于现有检测算法的速度和需要处理的像素正相关，所以更高的分辨率会降低检测的速度，造成检测速度慢且无法实时呈现结果的缺点。

（2）在背景区域使用密集特征导致速度和精度的下降。目标检测方法的目的是获取待处理图像上所有物体的坐标和类别，因此很多无关的内容包括但不仅限于蓝天、地面、墙壁、高楼等物体会造成跟多的错误预测，现有的方法采用密集特征即对所有背景区域同样构建高维度的语义特征，最终不但会导致大量的计算时间浪费，还会导致在背景区域产生的错误预测从而降低检测的精度的缺点。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

本发明的目的在于提供一种能够大幅提高宽视场高分辨图像上的目标智能检测速度和精度的方案，提出一种宽视场高分辨视频高效智能检测方法。

本发明的另一个目的在于提出一种宽视场高分辨视频高效智能检测系统。

为达上述目的，本发明一方面提出一种宽视场高分辨视频高效智能检测方法，包括：

利用宽视场高分辨成像设备生成待检测图像；

对所述待检测图像按照预设像素大小进行分割合并得到第一特征图；其中，所述第一特征图包括第一像素维度和第一分辨率的特征图；

利用神经网络的线性层对所述第一特征图进行线性变换得到第二特征图；其中，所述第二特征图包括第二像素维度和第一分辨率的特征图；

基于窗口区域内的抽象特征对所述第二特征图进行全局特征的抽取融合，以及基于丢弃的所述第二特征图中预设区域的窗口内特征进行提取融合，以进行目标检测得到所述待检测图像的目标图像检测结果。

另外，根据本发明上述实施例的宽视场高分辨视频高效智能检测方法还可以具有以下附加的技术特征：

进一步地，所述利用窗口区域内的抽象特征对所述第二特征图进行全局特征的抽取融合，包括：

对所述第二特征图进行基于窗口的特征稀疏化处理得到第三特征图；

对所述第三特征图进行信息的交互和抽取得到第四特征图；其中，所述第四特征图与所述第三特征图的像素维度和分辨率相同；

对所述第四特征图进行特征反稀疏化操作得到第五特征图；

将所述第五特征图与所述第二特征图进行特征融合得到基于全局注意力的特征图。

进一步地，所述对所述第二特征图进行基于窗口的特征稀疏化处理得到第三特征图，包括：

按照预设模版对所述第二特征图的所有像素进行划分得到多个窗口；

对每个窗口内的所有特征进行融合计算得到所述第三特征图；其中，所述第三特征图包括第二像素维度和第二分辨率的特征图。

进一步地，所述对所述第四特征图进行特征反稀疏化操作得到第五特征图，包括：

利用复制拷贝的方法对所述第四特征图进行复制操作得到每个窗口所包含像素数量的特征；

基于所述每个窗口所包含像素数量的特征得到所述第五特征图；其中，所述第五特征图与所述第二特征图的像素维度和分辨率相同。

进一步地，所述基于丢弃的所述第二特征图中预设区域的窗口内特征进行提取融合，包括：

计算所述第二特征图的所有窗口的重要性得分，根据所述重要性得分按照预设比率丢弃窗口原始特征图，对剩余窗口所有像素进行特征交互和提取得到局部注意力的初始特征图；

按照原空间位置对所述窗口原始特征图和所述初始特征图进行拼接，得到基于局部注意力的特征图。

进一步地，所述方法，还包括：

按照网格对所述基于全局注意力的特征图和所述基于局部注意力的特征图进行划分，将网格内的所有特征进行融合，并利用所述神经网络的线性层对融合后的特征进行映射得到最终融合特征图。

进一步地，所述计算所述第二特征图的所有窗口的重要性得分，包括：

利用基于方差的可学习决策方法，计算所述第二特征图的窗口内的平均特征；

计算所述第二特征图的窗口内每个像素的特征与所述平均特征之间的差异度；

利用所述神经网络的线性层将所述差异度进行线性映射得到一个分值，以通过softmax函数计算所有窗口的重要性得分。

为达上述目的，本发明另一方面提出一种宽视场高分辨视频高效智能检测系统，包括：

图像获取模块，用于利用宽视场高分辨成像设备生成待检测图像；

图像分割模块，用于对所述待检测图像按照预设像素大小进行分割合并得到第一特征图；其中，所述第一特征图包括第一像素维度和第一分辨率的特征图；

线性映射模块，用于利用神经网络的线性层对所述第一特征图进行线性变换得到第二特征图；其中，所述第二特征图包括第二像素维度和第一分辨率的特征图；

目标检测模块，用于基于窗口区域内的抽象特征对所述第二特征图进行全局特征的抽取融合，以及基于丢弃的所述第二特征图中预设区域的窗口内特征进行提取融合，以进行目标检测得到所述待检测图像的目标图像检测结果。

本发明实施例的宽视场高分辨视频高效智能检测方法和系统，可以在宽视场高分辨视频中显著的提高目标智能检测的精度和速度，为更新一代成像系统提供图像内容分析方法。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本发明实施例的宽视场高分辨视频高效智能检测方法的流程图；

图2是根据本发明实施例的宽视场高分辨视频高效智能检测方法的架构图；

图3是根据本发明实施例的利用窗口区域内的抽象特征对第二特征图进行全局特征的抽取融合的流程图；

图4是根据本发明实施例的全局注意力过程基于窗口的特征稀疏化示意图；

图5是根据本发明实施例的基于丢弃的第二特征图中预设区域的窗口内特征进行提取融合流程图；

图6是根据本发明实施例的局部注意力过程的窗口的稀疏化示意图；

图7是根据本发明实施例的宽视场高分辨视频高效智能检测系统的结构图；

图8是根据本发明实施例的目标检测模块示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

下面参照附图描述根据本发明实施例提出的宽视场高分辨视频高效智能检测方法和系统。

图1是本发明实施例的宽视场高分辨视频高效智能检测方法的流程图。

如图1所示，该方法包括但不限于以下步骤：

S1，利用宽视场高分辨成像设备生成待检测图像；

S2，对待检测图像按照预设像素大小进行分割合并得到第一特征图；其中，第一特征图包括第一像素维度和第一分辨率的特征图；

S3，利用神经网络的线性层对第一特征图进行线性变换得到第二特征图；其中，第二特征图包括第二像素维度和第一分辨率的特征图；

S4，基于窗口区域内的抽象特征对第二特征图进行全局特征的抽取融合，以及基于丢弃的第二特征图中预设区域的窗口内特征进行提取融合，以进行目标检测得到待检测图像的目标图像检测结果。

具体地，本发明可以接收由宽视场高分辨成像设备生成的图像，并利用全局-局部交互注意力模块分别处理不同像素大小的物体，从而以高于现有方法的速度生成高质量的特征并进行目标检测。其中全局-局部交互注意力模块包含基于稀疏特征的全局注意力过程和基于稀疏窗口的局部注意力过程。全局注意力过程通过采用窗口区域内的抽象特征进行全局特征交互与抽取来提高目标检测的精度。局部注意力过程通过丢弃不重要区域的窗口内特征交互和提取来提高目标检测的速度。总体的结构图如图2所示：

作为一个实施例，首先将图像每4*4像素进行合并成为一个新的特征，从而使得新的特征图分辨率的长和宽分别降低为原来的1/4，并且新的特征图的每个像素维度从3上升到48。

作为一个实施例，线性特征映射通过使用神经网络的线性层进行映射，将“图像块分割”之后的特征进行线性变换，变换仅针对每个像素为单位进行，映射之后的特征分辨率保持不变，每个像素的维度由49维变成C维。

进一步地，图3为本发明实施例所提供的利用窗口区域内的抽象特征对第二特征图进行全局特征的抽取融合的流程图，如图3所示，包括以下步骤：

S301，对第二特征图进行基于窗口的特征稀疏化处理得到第三特征图；

S302，对第三特征图进行信息的交互和抽取得到第四特征图；其中，第四特征图与第三特征图的像素维度和分辨率相同；

S303，对第四特征图进行特征反稀疏化操作得到第五特征图；

S304，将第五特征图与第二特征图进行特征融合得到基于全局注意力的特征图。

具体地，本发明加入的全局注意力过程，相比于现有方法，该过程使用了稀疏特征，这可以用更快的速度获得更多的信息。

作为一个实施例，全局注意力过程包含以下步骤：

1）基于窗口的特征稀疏化。基于窗口的特征稀疏化如图4所示，本发明将所有像素按照固定模版划分成多个窗口，对每个窗口内的所有特征进行融合计算，获得一个维度保持不变，分辨率为1*1的新特征来代替原有窗口内的所有特征。

在本实施例中，将窗口的大小设置为7，不足构成窗口的部分使用0进行补齐，在进行特征稀疏化之后可以获得每个窗口的特征，等同于整张特征图进行了下采样。特征聚合的方式可以采用均值的方法，包括但不仅限于此。

2）全局注意力信息交互。将所有稀疏化后的特征采用神经网络中的全局注意力机制方法进行信息的交互和抽取获得新的特征，新的特征具有和原特征相同分辨率和维度的特性。

3）特征反稀疏化。将从“全局注意力信息交互”得到的新特征进行反操作，将每个窗口的特征转换成与稀疏化之前相同分辨率的特征。

在本实施例中，采用复制拷贝的方法，将得到的新特征复制成每个窗口所包含像素数量的特征，最终获得与“基于窗口的特征稀疏化”步骤之前相同分辨率与维度的特征。

4）特征融合。将获得的新特征与“基于窗口的特征稀疏化”步骤之间的特征进行融合。

在本实施例中，采用相加的方法将两种特征融合生成新特征。

作为一个实施例，添加局部注意力过程，相比于现有的方法，该步骤使用了稀疏窗口而不是密集窗口，稀疏化可以有效的减少冗余窗口内的计算量，不仅可以提高总体的计算速度，还可以降低在这些区域的错误预测从而提高精度。

进一步地，图5为本发明实施例所提供的，基于丢弃的第二特征图中预设区域的窗口内特征进行提取融合流程图，如图5所示，包括以下步骤：

S501，计算第二特征图的所有窗口的重要性得分，根据重要性得分按照预设比率丢弃窗口原始特征图，对剩余窗口所有像素进行特征交互和提取得到局部注意力的初始特征图；

S502，按照原空间位置对窗口原始特征图和所述初始特征图进行拼接，得到基于局部注意力的特征图。

具体地，局部注意力过程包含如下步骤：

a）窗口的重要性计算。根据窗口来计算每个窗口内部的混乱度打分。在本实施例中，使用了基于方差的可学习决策方法，首先计算窗口内的平均特征，然后计算每个像素的特征与平均特征之间的差异，之后将这个差异值使用神经网络中的线性层进行线性映射成为一个分值，最终通过softmax函数计算所有窗口的重要性得分。

b）窗口的稀疏化。如图6所示，根据上一步骤中计算出的窗口的重要性得分按照固定比率丢弃窗口，在本实施例中，首先将所有窗口的得分从大到小排列，按照每阶段固定保留前70%个高得分窗口来进行丢弃，被设定为“丢弃”的窗口维持原有特征不变，不继续参与接下来的特征提取操作。

c）窗口内的局部注意力信息交互。对“保留”的窗口在窗口内部将所有像素的特征使用局部注意力机制进行特征的交互和提取，从而获得新的特征。

d）特征融合。通过上述步骤可以得到“保留”窗口的新特征和“丢弃”窗口的原始特征，将两种特征按照原空间位置进行拼接，形成新的特征。在本实施例中，将“保留”窗口得到的新特征按照其对应位置，替换初始特征中对应位置的特征从而获得新的特征。

进一步地，本发明将按照网格对上述基于全局注意力的特征图和基于局部注意力的特征图进行划分，将网格内的所有特征进行融合，并利用神经网络的线性层对融合后的特征进行映射得到最终融合特征图。

具体地，将上述经过处理的特征图按照网格进行划分，并将网格内的特征进行合并，最后使用神经网络中的线性层进行映射降低原有的特征维度。本实施例中，使用2*2的网格进行特征划分，经过变换后每个网格内的特征维度为4C维，随后使用线性层将其映射到2C维，从而获得新的特征。

根据本发明实施例的宽视场高分辨视频高效智能检测方法，可以在宽视场高分辨视频中显著的提高目标智能检测的精度和速度，为更新一代成像系统提供图像内容分析方法。

为了实现上述实施例，如图7所示，本实施例中还提供了宽视场高分辨视频高效智能检测系统10，该系统10包括，图像获取模块100、图像分割模块200、线性映射模块300和目标检测模块400。

图像获取模块100，用于利用宽视场高分辨成像设备生成待检测图像；

图像分割模块200，用于对待检测图像按照预设像素大小进行分割合并得到第一特征图；其中，第一特征图包括第一像素维度和第一分辨率的特征图；

线性映射模块300，用于利用神经网络的线性层对第一特征图进行线性变换得到第二特征图；其中，第二特征图包括第二像素维度和第一分辨率的特征图；

目标检测模块400，用于基于窗口区域内的抽象特征对第二特征图进行全局特征的抽取融合，以及基于丢弃的第二特征图中预设区域的窗口内特征进行提取融合，以进行目标检测得到待检测图像的目标图像检测结果。

进一步地，如图8所示，上述目标检测模块400，包括：

稀疏化子单元401，用于对第二特征图进行基于窗口的特征稀疏化处理得到第三特征图；

信息交互子单元402，用于对第三特征图进行信息的交互和抽取得到第四特征图；其中，第四特征图与所述第三特征图的像素维度和分辨率相同；

反稀疏化子单元403，用于对第四特征图进行特征反稀疏化操作得到第五特征图；

特征融合子单元404，用于将第五特征图与第二特征图进行特征融合得到基于全局注意力的特征图。

进一步地，上述稀疏化子单元401，还用于：

按照预设模版对第二特征图的所有像素进行划分得到多个窗口；

对每个窗口内的所有特征进行融合计算得到第三特征图；其中，第三特征图包括第二像素维度和第二分辨率的特征图。

根据本发明实施例的宽视场高分辨视频高效智能检测系统，可以在宽视场高分辨视频中显著的提高目标智能检测的精度和速度，为更新一代成像系统提供图像内容分析方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

Claims

1.一种宽视场高分辨视频高效智能检测方法，其特征在于，包括以下步骤：

利用宽视场高分辨成像设备生成待检测图像；

基于窗口区域内的抽象特征对所述第二特征图进行全局特征的抽取融合，以及基于丢弃的所述第二特征图中预设区域的窗口内特征进行提取融合，以进行目标检测得到所述待检测图像的目标图像检测结果；

利用窗口区域内的抽象特征对所述第二特征图进行全局特征的抽取融合，包括：

对所述第四特征图进行特征反稀疏化操作得到第五特征图；

将所述第五特征图与所述第二特征图进行特征融合得到基于全局注意力的特征图；

所述基于丢弃的所述第二特征图中预设区域的窗口内特征进行提取融合，包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述第二特征图进行基于窗口的特征稀疏化处理得到第三特征图，包括：

3.根据权利要求1所述的方法，其特征在于，所述对所述第四特征图进行特征反稀疏化操作得到第五特征图，包括：

4.根据权利要求1所述的方法，其特征在于，所述方法，还包括：

5.根据权利要求4所述的方法，其特征在于，所述计算所述第二特征图的所有窗口的重要性得分，包括：

利用基于方差的学习决策方法，计算所述第二特征图的窗口内的平均特征；

6.一种宽视场高分辨视频高效智能检测系统，其特征在于，包括：

目标检测模块，用于基于窗口区域内的抽象特征对所述第二特征图进行全局特征的抽取融合，以及基于丢弃的所述第二特征图中预设区域的窗口内特征进行提取融合，以进行目标检测得到所述待检测图像的目标图像检测结果；

所述目标检测模块，包括：

稀疏化子单元，用于对所述第二特征图进行基于窗口的特征稀疏化处理得到第三特征图；

信息交互子单元，用于对所述第三特征图进行信息的交互和抽取得到第四特征图；其中，所述第四特征图与所述第三特征图的像素维度和分辨率相同；

反稀疏化子单元，用于对所述第四特征图进行特征反稀疏化操作得到第五特征图；

特征融合子单元，用于将所述第五特征图与所述第二特征图进行特征融合得到基于全局注意力的特征图；

所述目标检测模块，还用于：

7.根据权利要求6所述的系统，其特征在于，所述稀疏化子单元，还用于：