CN116453020A

CN116453020A - 一种双目识别方法及系统、设备及介质

Info

Publication number: CN116453020A
Application number: CN202310403558.3A
Authority: CN
Inventors: 孟炜; 曾海林; 蒲春瑞; 孟逢春
Original assignee: Beijing Wo Neng Chao Technology Co ltd
Current assignee: Beijing Wo Neng Chao Technology Co ltd
Priority date: 2023-04-14
Filing date: 2023-04-14
Publication date: 2023-07-18

Abstract

本发明实施例公开一种双目识别方法及系统、设备及介质，所述双目识别方法包括利用可见光摄像装置、热红外摄像装置获取观测区域的可见光视频和热红外视频；将所述热红外视频输送至热红外目标检测模型进行实时检测得到第一检测框组，并将所述可见光视频输送至可见光目标检测模型进行实时检测得到第二检测框组；采用多目标跟踪算法模型分别对所述第一检测框组、第二检测框组的目标进行跟踪并确定各目标的优先匹配轨迹；对所述多目标跟踪算法模型的输出进行多帧校验；将通过多帧校验的数据输送至NMS算法模型进行融合，得到融合后观测区域的场景视频。

Description

一种双目识别方法及系统、设备及介质

技术领域

本发明涉及计算机领域。更具体地，涉及一种双目识别方法及系统、设备及介质。

背景技术

当前主要通过可见光成像技术来实现人车识别或通过热红外传感技术实现人车识别，可见光成像技术是通过摄像头来获取可见光图像的技术，热红外成像技术是利用红外传感器采集物体表面的温度分布转换成人眼可见图像的技术，并以不同颜色显示物体表面温度分布；

然而，当目标对象没有明显温差的情况下例如当雨天行人穿雨衣时，人体体温被屏蔽，热红外摄像头无法实现目标探测，无法清晰成像，高温时人体体温和周边环境没有明显差异，热红外摄像头也无法清晰成像；另外，当能见度极低时，如夜市、炫光情况下，可见光摄像头无法清晰呈现目标图像。

因此，亟需一种能够在不同情境下均能实现人车等目标识别的技术。

发明内容

本发明的目的在于提供一种双目识别方法及系统、设备及介质，以解决相关技术存在的问题中的至少一个。

为达到上述目的，本发明采用下述技术方案：

本发明第一方面提供了一种双目识别方法，包括，

获取可见光摄像装置和热红外摄像装置分别采集的观测区域的可见光视频和热红外视频；

将所述热红外视频输送至热红外目标检测模型进行实时检测，得到第一检测框组，并将所述可见光视频输送至可见光目标检测模型进行实时检测得到第二检测框组；

采用多目标跟踪算法模型分别对所述第一检测框组和所述第二检测框组中的目标进行跟踪并确定各目标的优先匹配轨迹；

对所述多目标跟踪算法模型的输出进行多帧校验；

将进行多帧校验后的数据输送至NMS算法模型进行融合，得到融合后的观测区域的场景视频。

在一个具体的实施例中，所述方法还包括，

构建第一YOLOv7模型和第二YOLOv7模型；

分别训练所述第一YOLOv7模型和第二YOLOv7模型以得到热红外目标检测模型和可见光目标检测模型，包括：

建立热红外图像数据集，基于所述热红外图像数据集对第一YOLOv7模型进行训练，热红外目标检测模型；

建立可见光图像数据集，基于所述可见光图像数据集对第二YOLOv7模型进行训练，得到可见光目标检测模型。

在一个具体的实施例中，所述第一YOLOv7模型和第二YOLOv7模型结构相同，

构建第一YOLOv7模型或第二YOLOv7模型包括：

搭建输入层、骨干特征提取模块、头部特征提取模块；

所述骨干特征提取网络包括BConv层、E-ELAN层和MpConv层，

所述头部特征提取网络包括SPP金字塔结构、聚合特征金字塔网络结构和调整模块，所述调整模块包括REPconv结构，用于接收所述聚合特征金字塔网络结构输出的不同尺度的特征并进行通道数调整。

在一个具体的实施例中，所述构建第一YOLOv7模型或第二YOLOv7模型还包括，

构建引导头、辅助头和标签分配模块；

将所述引导头、辅助头和标签分配模块与所述头部特征提取模块相结合。

在一个具体的实施例中，所述分别训练所述第一YOLOv7模型和第二YOLOv7模型以得到热红外目标检测模型和可见光目标检测模型还包括，

采用数增强策略、SAM优化器和Varifocal Loss损失函数辅助所述第一YOLOv7模型和第二YOLOv7模型的训练。

在一个具体的实施例中，采用多目标跟踪算法模型分别对所述第一检测框组、第二检测框组对应目标进行跟踪并确定各目标的优先匹配轨迹包括：

使用卡尔曼过滤波器预测所述第一检测框组中各检测框对应目标的运动状态，得到第一预测框组和第一轨迹特征集，将第一预测框组中的各预测框与所述第一检测框组中对应检测框之间的IOU值作为关联代价，通过匈牙利算法实现数据关联，

并使用卡尔曼过滤波器预测所述第二检测框组中各检测框对应目标的运动状态，得到第二预测框组和第二轨迹特征集，将第二预测框组中的各预测框与所述第二检测框组中对应检测框之间的IOU值作为关联代价，通过匈牙利算法完成数据关联；

通过级联匹配根据各轨迹特征对应的目标丢失次数确定各目标的优先匹配轨迹。

本发明第二方面提供了一种双目人车识别系统，包括，

摄像装置、目标检测模块、跟踪模块、多帧校验模块和融合模块，其中

所述摄像装置包括可见光摄像装置和热红外摄像装置，用于获取观测区域的可见光视频和热红外视频；

所述目标检测模块包括热红外目标检测模块和可见光目标检测模块，其中，

所述热红外目标检测模块，用于接收热红外视频进行实时监测以得到第一检测框组；

所述可见光目标检测模块，用于接收可见光视频进行实时监测以得到第二检测框组；

所述跟踪模块，采用多目标跟踪算法模型，用于分别对所述热红外目标检测模型和可见光目标检测模型中各检测框对应的目标进行跟踪以确定优先匹配轨迹；

所述多帧校验模块，用于对所述跟踪模块的输出进行多帧校验；

所述融合模块，采用NMS算法模型，用于将通过多帧校验的数据进行融合。

在一个具体的实施例中，所述热红外目标检测模块和可见光目标检测模块均基于YOLOv7模型实现，

包括输入层、骨干特征提取模块、头部特征提取模块；

所述骨干特征提取网络包括BConv层、E-ELAN层和MpConv层，

本发明第三方面提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现本发明第一方面提供的方法。

本发明第四方面提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明第一方面提供的方法。

本发明的有益效果如下：

本实施例提供的双目识别方法，分别对观测区域的可见光视频和热红外视频进行目标识别，并通过多目标跟踪算法实现目标跟踪，确定优先匹配轨迹，对多目标跟踪算法的输出进行多帧校验并通过NMS算法进行视频融合，得到最终识别结果，实现了不同环境的人车识别，提高了识别精度，从而提高了司机驾驶的安全性。

附图说明

下面结合附图对本发明的具体实施方式作进一步详细的说明。

图1示出本申请的一个实施例提出的一种双目识别方法的流程图。

图2示出本申请的一个实施例提出的一种YOLOv7模型的结构示意图。

图3示出本申请的一个实施例提出的一种双目人车识别系统的结构示意图。

图4示出本申请一个实施例提出的计算机设备的结构示意图。

具体实施方式

为了更清楚地说明本发明，下面结合实施例和附图对本发明做进一步的说明。附图中相似的部件以相同的附图标记进行表示。本领域技术人员应当理解，下面所具体描述的内容是说明性的而非限制性的，不应以此限制本发明的保护范围。

为解决上述问题的至少一个，本发明提出了一种双目识别方法及系统、设备及介质。下面通过几个具体的实施例对本发明的目标通道自动生成方法进行说明。

本发明的一个实施例提供了一种双目识别方法，如图1所示，所述方法包括：

S10：获取可见光摄像装置和热红外摄像装置分别采集的观测区域的可见光视频和热红外视频；

S20：将所述热红外视频输送至热红外目标检测模型进行实时检测，得到第一检测框组，并将所述可见光视频输送至可见光目标检测模型进行实时检测得到第二检测框组；

S30：采用多目标跟踪(Deepsort)算法模型分别对所述第一检测框组、第二检测框组的目标进行跟踪并确定各目标的优先匹配轨迹；

S40：对所述多目标跟踪算法模型的输出进行多帧校验；

S50：将通过多帧校验的数据输送至NMS算法模型进行融合，得到融合后观测区域的场景视频。

本实施例通过热红外目标检测模型和可见光目标检测模型获得单帧图片的目标识别结果，并通过多目标跟踪算法实现视频时控关联，对所述多目标跟踪算法的输出进行多帧校验，最终通过NMS算法模型将可见光视频对应的通过多帧校验的数据和热红外视频对应的通过多帧校验的数据融合，得到目标观测区域的场景视频，实现了不同环境下的人车识别，提高了识别精度，从而保证了司机驾驶的安全性。

在一个具体的实施例中，所述可见光摄像装置为可见光CCD传感器，所述热红外摄像装置为红外焦平面阵列IRFPA传感器，二者成像视场接近一致从而获得目标观测区域的可见光视频和热红外视频，并完成可见光图像和红外图像的粗配准，通过NMS算法弥补存在的轻微视场误差。

在一个具体的实施例中，所述方法还包括，

S00：构建第一YOLOv7模型和第二YOLOv7模型；

建立热红外图像数据集，基于所述热红外图像数据集对第一YOLOv7模型进行训练、验证和测试；

建立可见光图像数据集，基于所述可见光图像数据集对第二YOLOv7模型进行训练、验证和测试。

本申请采用YOLOv7模型作为目标识别模型，采用模块级重参数化，将一个模块分解为若干等效微观结构，参数转换确保前后一致，提高了目标检测的精度。

在一个具体的实施例中，所述热红外图像数据集包括6万张热红外图像，将上述热红外图像数据集按照8：1：1的比例分为训练集、验证集和测试集，通过所述训练集、验证集和测试集完成对所述第一YOLOv7模型的训练，其中，

训练时的计算机采用Ubuntu 20.04系统，GPU采用NVIDIA GeForce RTX 3090(24G)，处理器采用Intel_Core i9-12900H@5.0GHz 14核，实验环境为python3.7.13、pytorch1.8.0、cuda10.2。

本实施例通过丰富的训练资源使第一YOLOv7模型获取到足够多的信息，提高了热红外目标检测模型的识别精度，且在保证热红外目标检测模型性能的同时，提升了网络推理速度。

在一个具体的实施例中，所述可见光图像数据集为COCO行人检测数据集，将所述COCO行人检测数据集以8:1:1比例划分为训练集、验证集和测试集通过所述训练集、验证集和测试集完成对所述第二YOLOv7模型的训练，其中，

本实施例通过丰富的训练资源使第二YOLOv7模型获取到足够多的信息，提高了可见光目标检测模型的识别精度，且在保证可见光目标检测模型性能的同时，提升了网络推理速度。

如图2所示，为YOLOv7模型的结构示意图，构建第一YOLOv7模型或第二YOLOv7模型包括：

搭建输入层(Input)、骨干特征提取模块(Backbone)10、头部特征提取模块(Head)；

所述输入层用于将输入的图片缩放至固定尺寸，以便满足Backbone的输入尺寸要求。

所述骨干特征提取网络10包括BConv层、E-ELAN层和MpConv层；

在一个具体示例中，所述骨干特征提取网络的结构依次为：第一BConv层，第二BConv层，第三BConv层，第四BConv层，第一E-ELAN层、第一MpConv层，第二E-ELAN层，第二MPConv层、第三E-ELAN层、第三MPConv层和第四E-ELAN层。

其中，所述BConv层由一个二维卷积层、一个Bn层和一个SiLU激活函数构成；所述E-ELAN层为高效层聚合网络，能够在不破坏原始梯度路径的情况下，提升网络的学习能力，还能通过引导不同特征组的计算块学习更多样化的特征；MPConv卷积层在BConv层的基础上增加了Maxpool层，构成上下两个分支，最后使用连接(Concat)操作对上下分支提取到的特征进行融合，以提高网络的特征提取能力。

在一个具体的实施例中，所述头部特征提取网络包括SPP金字塔结构201和聚合特征金字塔结构202。

本实施例中头部特征提取网络使用SPP金字塔结构201，使得头部特征提取网络适用于多尺寸输入，然后采用聚合特征金字塔网络结构202，将底层信息沿着自底向上的路径传递到高层，实现不同层次特征的融合。

在一个具体的示例中，所述头部特征提取网络还包括调整模块，所述调整模块采用REPconv结构，用于接收所述头部特征提取网络输出的不同尺度的特征并进行通道数调整。

构建引导头、辅助头和标签分配模块，

本实施例中的所述引导头负责获取网络的深层信息作为输出，所述辅助头用于获取网络的浅层信息，以检测好的正样本进行匹配，以解决模型随深度降低带来的性能退化，正样本差等问题；所述标签分配模块结合了跨网格预测以及SimOTA策略，在辅助头中使用更大幅度的跨网格预测，从而筛选出更多的正样本以提高召回率。

在一个具体的实施例中，所述第一YOLOv7模型和第二YOLOv7模型的损失函数分为定位损失、置信度损失和分类损失三部分，

其中置信度损失和分类损失采用BCELoss二值交叉熵损失，定位损失采用CIoU损失。

应当说明的是，损失函数的值越小，模型的鲁棒性越大。

通过级联匹配根据各轨迹特征对应的目标丢失的次数确定各目标的优先匹配轨迹。

本实施例通过卡尔曼过滤器获取YOLOv7模型输出的检测框，预测当前位置，获取对应的预测框，通过匈牙利算法完成数据关联实现目标跟踪，并为每个对象分配目标的，实现了多目标跟踪，并通过级联匹配确定各目标的优先匹配轨迹，提高了目标跟踪精度，解决了目标对应的ID频繁切换的问题，并减少了因遮挡导致的目标遗漏问题。

在一个具体的实施例中，通过匈牙利算法实现数据关联包括，计算各目标的运动特征和外观特征以得到代价矩阵并为当前目标分配唯一编码，其中，

所述运动特征为预测框和检测框之间的马氏距离，所述外观特征为轨迹特征集与检测框特征向量的余弦距离，所述代价矩阵为所述运动特征和外观特征的加权求和值。

本发明的第二个实施例提供了一种双目人车识别系统，如图3所示，包括，

所述YOLOv7模型包括输入层、骨干特征提取模块、头部特征提取模块；

所述骨干特征提取网络，包括BConv层、E-ELAN层和MpConv层，

所述头部特征提取网络包括SPP金字塔结构和聚合特征金字塔网络结构；

在一个具体示例中，所述头部特征提取模块还包括调整模块，所述调整模块包括REPconv结构，用于接收所述头部特征提取网络输出的不同尺度的特征并进行通道数调整。

需要说明的是，本实施例提供的所述双目人车识别系统的过程和原理与上述实施例提供的所述双目识别方法的过程和原理类似，相关之处可参考，在此不再赘述。

如图4所示，本发明的第三个实施例提供的一种计算机设备的结构示意图。适于用来实现上述实施例提供的双目识别方法，包括中央处理模块(CPU)，其可以根据存储在只读存储器(ROM)中的程序或者从存储部分加载到随机访问存储器(RAM)中的程序而执行各种适当的动作和处理。在RAM中，还存储有计算机设备操作所需的各种程序和数据。CPU、ROM以及RAM通过总线彼此相连。输入/输入(I/O)接口也连接至总线。

以下部件连接至I/O接口:包括键盘、鼠标等的输入部分；包括诸如液晶显示器(LCD)等以及扬声器等的输出部分；包括硬盘等的存储部分；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分。通信部分经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至I/O接口。可拆卸介质，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器上，以便于从其上读出的计算机程序根据需要被安装入存储部分。

特别地，根据本实施例，上文流程图描述的过程可以被实现为计算机软件程序。例如，本实施例包括一种计算机程序产品，其包括有形地包含在计算机可读介质上的计算机程序，上述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。

本申请的第四个实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现：

在实际应用中，所述计算机可读存储介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述得任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

应当说明的是，附图中的流程图和示意图，图示了本实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或示意图中的每个方框可以代表一个模块、程序段或代码的一部分，上述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，示意图和/或流程图中的每个方框、以及示意和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定，对于本领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动，这里无法对所有的实施方式予以穷举，凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

Claims

1.一种双目识别方法，其特征在于，包括

对所述多目标跟踪算法模型的输出进行多帧校验；

2.根据权利要求1所述的双目识别方法，其特征在于，所述方法还包括，

构建第一YOLOv7模型和第二YOLOv7模型；

3.根据权利要求2所述的双目识别方法，其特征在于，

所述第一YOLOv7模型和第二YOLOv7模型的网络结构相同，

构建第一YOLOv7模型或第二YOLOv7模型包括：

搭建输入层、骨干特征提取模块、头部特征提取模块；

所述骨干特征提取网络包括BConv层、E-ELAN层和MpConv层，

4.根据权利要求3所述的双目识别方法，其特征在于，所述构建第一YOLOv7模型或第二YOLOv7模型还包括，

构建引导头、辅助头和标签分配模块；

5.根据权利要求2所述的双目识别方法，其特征在于，

所述分别训练所述第一YOLOv7模型和第二YOLOv7模型以得到热红外目标检测模型和可见光目标检测模型还包括，

6.根据权利要求1所述的双目识别方法，其特征在于，

采用多目标跟踪算法模型分别对所述第一检测框组、第二检测框组对应目标进行跟踪并确定各目标的优先匹配轨迹包括：

7.一种双目识别系统，其特征在于，包括，

所述摄像装置包括可见光摄像装置和热红外摄像装置，分别用于获取观测区域的可见光视频和热红外视频；

所述目标检测模块包括热红外目标检测模块和可见光目标检测模块，

其中，所述热红外目标检测模块，用于根据热红外目标检测模型对所述热红外视频进行实时监测以得到第一检测框组；

所述可见光目标检测模块，用于根据可见光目标检测模型对所述可见光视频进行实时监测以得到第二检测框组；

所述跟踪模块，用于采用多目标跟踪算法模型分别对所述第一检测框组和所述第二检测框组中的目标进行跟踪并确定各目标的优先匹配轨迹；

所述融合模块，用于采用NMS算法模型将进行多帧校验后的数据进行融合，得到融合后的观测区域的场景视频。

8.根据权利要求7所述的双目识别系统，其特征在于，

所述热红外目标检测模块和可见光目标检测模块均基于YOLOv7模型实现，所述YOLOv7模型包括输入层、骨干特征提取模块和头部特征提取模块；

其中，所述骨干特征提取网络包括BConv层、E-ELAN层和MpConv层，

所述头部特征提取网络包括SPP金字塔结构和聚合特征金字塔网络结构和调整模块，所述调整模块包括RepConv结构，用于接收所述聚合特征金字塔网络结构输出的不同尺度的特征并进行通道数调整。

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-6中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6中任一项所述的方法。