CN116453020A - 一种双目识别方法及系统、设备及介质 - Google Patents
一种双目识别方法及系统、设备及介质 Download PDFInfo
- Publication number
- CN116453020A CN116453020A CN202310403558.3A CN202310403558A CN116453020A CN 116453020 A CN116453020 A CN 116453020A CN 202310403558 A CN202310403558 A CN 202310403558A CN 116453020 A CN116453020 A CN 116453020A
- Authority
- CN
- China
- Prior art keywords
- model
- target
- detection
- module
- visible light
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000001514 detection method Methods 0.000 claims abstract description 123
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 36
- 238000012795 verification Methods 0.000 claims abstract description 25
- 230000004927 fusion Effects 0.000 claims abstract description 12
- 238000000605 extraction Methods 0.000 claims description 35
- 238000012549 training Methods 0.000 claims description 25
- 238000004590 computer program Methods 0.000 claims description 11
- 230000015654 memory Effects 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 9
- 238000012544 monitoring process Methods 0.000 claims description 6
- 238000011897 real-time detection Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 8
- 238000012360 testing method Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000003384 imaging method Methods 0.000 description 3
- 230000036760 body temperature Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000003331 infrared imaging Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/48—Matching video sequences
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Image Processing (AREA)
Abstract
本发明实施例公开一种双目识别方法及系统、设备及介质,所述双目识别方法包括利用可见光摄像装置、热红外摄像装置获取观测区域的可见光视频和热红外视频;将所述热红外视频输送至热红外目标检测模型进行实时检测得到第一检测框组,并将所述可见光视频输送至可见光目标检测模型进行实时检测得到第二检测框组;采用多目标跟踪算法模型分别对所述第一检测框组、第二检测框组的目标进行跟踪并确定各目标的优先匹配轨迹;对所述多目标跟踪算法模型的输出进行多帧校验;将通过多帧校验的数据输送至NMS算法模型进行融合,得到融合后观测区域的场景视频。
Description
技术领域
本发明涉及计算机领域。更具体地,涉及一种双目识别方法及系统、设备及介质。
背景技术
当前主要通过可见光成像技术来实现人车识别或通过热红外传感技术实现人车识别,可见光成像技术是通过摄像头来获取可见光图像的技术,热红外成像技术是利用红外传感器采集物体表面的温度分布转换成人眼可见图像的技术,并以不同颜色显示物体表面温度分布;
然而,当目标对象没有明显温差的情况下例如当雨天行人穿雨衣时,人体体温被屏蔽,热红外摄像头无法实现目标探测,无法清晰成像,高温时人体体温和周边环境没有明显差异,热红外摄像头也无法清晰成像;另外,当能见度极低时,如夜市、炫光情况下,可见光摄像头无法清晰呈现目标图像。
因此,亟需一种能够在不同情境下均能实现人车等目标识别的技术。
发明内容
本发明的目的在于提供一种双目识别方法及系统、设备及介质,以解决相关技术存在的问题中的至少一个。
为达到上述目的,本发明采用下述技术方案:
本发明第一方面提供了一种双目识别方法,包括,
获取可见光摄像装置和热红外摄像装置分别采集的观测区域的可见光视频和热红外视频;
将所述热红外视频输送至热红外目标检测模型进行实时检测,得到第一检测框组,并将所述可见光视频输送至可见光目标检测模型进行实时检测得到第二检测框组;
采用多目标跟踪算法模型分别对所述第一检测框组和所述第二检测框组中的目标进行跟踪并确定各目标的优先匹配轨迹;
对所述多目标跟踪算法模型的输出进行多帧校验;
将进行多帧校验后的数据输送至NMS算法模型进行融合,得到融合后的观测区域的场景视频。
在一个具体的实施例中,所述方法还包括,
构建第一YOLOv7模型和第二YOLOv7模型;
分别训练所述第一YOLOv7模型和第二YOLOv7模型以得到热红外目标检测模型和可见光目标检测模型,包括:
建立热红外图像数据集,基于所述热红外图像数据集对第一YOLOv7模型进行训练,热红外目标检测模型;
建立可见光图像数据集,基于所述可见光图像数据集对第二YOLOv7模型进行训练,得到可见光目标检测模型。
在一个具体的实施例中,所述第一YOLOv7模型和第二YOLOv7模型结构相同,
构建第一YOLOv7模型或第二YOLOv7模型包括:
搭建输入层、骨干特征提取模块、头部特征提取模块;
所述骨干特征提取网络包括BConv层、E-ELAN层和MpConv层,
所述头部特征提取网络包括SPP金字塔结构、聚合特征金字塔网络结构和调整模块,所述调整模块包括REPconv结构,用于接收所述聚合特征金字塔网络结构输出的不同尺度的特征并进行通道数调整。
在一个具体的实施例中,所述构建第一YOLOv7模型或第二YOLOv7模型还包括,
构建引导头、辅助头和标签分配模块;
将所述引导头、辅助头和标签分配模块与所述头部特征提取模块相结合。
在一个具体的实施例中,所述分别训练所述第一YOLOv7模型和第二YOLOv7模型以得到热红外目标检测模型和可见光目标检测模型还包括,
采用数增强策略、SAM优化器和Varifocal Loss损失函数辅助所述第一YOLOv7模型和第二YOLOv7模型的训练。
在一个具体的实施例中,采用多目标跟踪算法模型分别对所述第一检测框组、第二检测框组对应目标进行跟踪并确定各目标的优先匹配轨迹包括:
使用卡尔曼过滤波器预测所述第一检测框组中各检测框对应目标的运动状态,得到第一预测框组和第一轨迹特征集,将第一预测框组中的各预测框与所述第一检测框组中对应检测框之间的IOU值作为关联代价,通过匈牙利算法实现数据关联,
并使用卡尔曼过滤波器预测所述第二检测框组中各检测框对应目标的运动状态,得到第二预测框组和第二轨迹特征集,将第二预测框组中的各预测框与所述第二检测框组中对应检测框之间的IOU值作为关联代价,通过匈牙利算法完成数据关联;
通过级联匹配根据各轨迹特征对应的目标丢失次数确定各目标的优先匹配轨迹。
本发明第二方面提供了一种双目人车识别系统,包括,
摄像装置、目标检测模块、跟踪模块、多帧校验模块和融合模块,其中
所述摄像装置包括可见光摄像装置和热红外摄像装置,用于获取观测区域的可见光视频和热红外视频;
所述目标检测模块包括热红外目标检测模块和可见光目标检测模块,其中,
所述热红外目标检测模块,用于接收热红外视频进行实时监测以得到第一检测框组;
所述可见光目标检测模块,用于接收可见光视频进行实时监测以得到第二检测框组;
所述跟踪模块,采用多目标跟踪算法模型,用于分别对所述热红外目标检测模型和可见光目标检测模型中各检测框对应的目标进行跟踪以确定优先匹配轨迹;
所述多帧校验模块,用于对所述跟踪模块的输出进行多帧校验;
所述融合模块,采用NMS算法模型,用于将通过多帧校验的数据进行融合。
在一个具体的实施例中,所述热红外目标检测模块和可见光目标检测模块均基于YOLOv7模型实现,
包括输入层、骨干特征提取模块、头部特征提取模块;
所述骨干特征提取网络包括BConv层、E-ELAN层和MpConv层,
所述头部特征提取网络包括SPP金字塔结构、聚合特征金字塔网络结构和调整模块,所述调整模块包括REPconv结构,用于接收所述聚合特征金字塔网络结构输出的不同尺度的特征并进行通道数调整。
本发明第三方面提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现本发明第一方面提供的方法。
本发明第四方面提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明第一方面提供的方法。
本发明的有益效果如下:
本实施例提供的双目识别方法,分别对观测区域的可见光视频和热红外视频进行目标识别,并通过多目标跟踪算法实现目标跟踪,确定优先匹配轨迹,对多目标跟踪算法的输出进行多帧校验并通过NMS算法进行视频融合,得到最终识别结果,实现了不同环境的人车识别,提高了识别精度,从而提高了司机驾驶的安全性。
附图说明
下面结合附图对本发明的具体实施方式作进一步详细的说明。
图1示出本申请的一个实施例提出的一种双目识别方法的流程图。
图2示出本申请的一个实施例提出的一种YOLOv7模型的结构示意图。
图3示出本申请的一个实施例提出的一种双目人车识别系统的结构示意图。
图4示出本申请一个实施例提出的计算机设备的结构示意图。
具体实施方式
为了更清楚地说明本发明,下面结合实施例和附图对本发明做进一步的说明。附图中相似的部件以相同的附图标记进行表示。本领域技术人员应当理解,下面所具体描述的内容是说明性的而非限制性的,不应以此限制本发明的保护范围。
为解决上述问题的至少一个,本发明提出了一种双目识别方法及系统、设备及介质。下面通过几个具体的实施例对本发明的目标通道自动生成方法进行说明。
本发明的一个实施例提供了一种双目识别方法,如图1所示,所述方法包括:
S10:获取可见光摄像装置和热红外摄像装置分别采集的观测区域的可见光视频和热红外视频;
S20:将所述热红外视频输送至热红外目标检测模型进行实时检测,得到第一检测框组,并将所述可见光视频输送至可见光目标检测模型进行实时检测得到第二检测框组;
S30:采用多目标跟踪(Deepsort)算法模型分别对所述第一检测框组、第二检测框组的目标进行跟踪并确定各目标的优先匹配轨迹;
S40:对所述多目标跟踪算法模型的输出进行多帧校验;
S50:将通过多帧校验的数据输送至NMS算法模型进行融合,得到融合后观测区域的场景视频。
本实施例通过热红外目标检测模型和可见光目标检测模型获得单帧图片的目标识别结果,并通过多目标跟踪算法实现视频时控关联,对所述多目标跟踪算法的输出进行多帧校验,最终通过NMS算法模型将可见光视频对应的通过多帧校验的数据和热红外视频对应的通过多帧校验的数据融合,得到目标观测区域的场景视频,实现了不同环境下的人车识别,提高了识别精度,从而保证了司机驾驶的安全性。
在一个具体的实施例中,所述可见光摄像装置为可见光CCD传感器,所述热红外摄像装置为红外焦平面阵列IRFPA传感器,二者成像视场接近一致从而获得目标观测区域的可见光视频和热红外视频,并完成可见光图像和红外图像的粗配准,通过NMS算法弥补存在的轻微视场误差。
在一个具体的实施例中,所述方法还包括,
S00:构建第一YOLOv7模型和第二YOLOv7模型;
分别训练所述第一YOLOv7模型和第二YOLOv7模型以得到热红外目标检测模型和可见光目标检测模型,包括:
建立热红外图像数据集,基于所述热红外图像数据集对第一YOLOv7模型进行训练、验证和测试;
建立可见光图像数据集,基于所述可见光图像数据集对第二YOLOv7模型进行训练、验证和测试。
本申请采用YOLOv7模型作为目标识别模型,采用模块级重参数化,将一个模块分解为若干等效微观结构,参数转换确保前后一致,提高了目标检测的精度。
在一个具体的实施例中,所述热红外图像数据集包括6万张热红外图像,将上述热红外图像数据集按照8:1:1的比例分为训练集、验证集和测试集,通过所述训练集、验证集和测试集完成对所述第一YOLOv7模型的训练,其中,
训练时的计算机采用Ubuntu 20.04系统,GPU采用NVIDIA GeForce RTX 3090(24G),处理器采用Intel_Core i9-12900H@5.0GHz 14核,实验环境为python3.7.13、pytorch1.8.0、cuda10.2。
本实施例通过丰富的训练资源使第一YOLOv7模型获取到足够多的信息,提高了热红外目标检测模型的识别精度,且在保证热红外目标检测模型性能的同时,提升了网络推理速度。
在一个具体的实施例中,所述可见光图像数据集为COCO行人检测数据集,将所述COCO行人检测数据集以8:1:1比例划分为训练集、验证集和测试集通过所述训练集、验证集和测试集完成对所述第二YOLOv7模型的训练,其中,
训练时的计算机采用Ubuntu 20.04系统,GPU采用NVIDIA GeForce RTX 3090(24G),处理器采用Intel_Core i9-12900H@5.0GHz 14核,实验环境为python3.7.13、pytorch1.8.0、cuda10.2。
本实施例通过丰富的训练资源使第二YOLOv7模型获取到足够多的信息,提高了可见光目标检测模型的识别精度,且在保证可见光目标检测模型性能的同时,提升了网络推理速度。
在一个具体的实施例中,所述第一YOLOv7模型和第二YOLOv7模型结构相同,
如图2所示,为YOLOv7模型的结构示意图,构建第一YOLOv7模型或第二YOLOv7模型包括:
搭建输入层(Input)、骨干特征提取模块(Backbone)10、头部特征提取模块(Head);
所述输入层用于将输入的图片缩放至固定尺寸,以便满足Backbone的输入尺寸要求。
所述骨干特征提取网络10包括BConv层、E-ELAN层和MpConv层;
在一个具体示例中,所述骨干特征提取网络的结构依次为:第一BConv层,第二BConv层,第三BConv层,第四BConv层,第一E-ELAN层、第一MpConv层,第二E-ELAN层,第二MPConv层、第三E-ELAN层、第三MPConv层和第四E-ELAN层。
其中,所述BConv层由一个二维卷积层、一个Bn层和一个SiLU激活函数构成;所述E-ELAN层为高效层聚合网络,能够在不破坏原始梯度路径的情况下,提升网络的学习能力,还能通过引导不同特征组的计算块学习更多样化的特征;MPConv卷积层在BConv层的基础上增加了Maxpool层,构成上下两个分支,最后使用连接(Concat)操作对上下分支提取到的特征进行融合,以提高网络的特征提取能力。
在一个具体的实施例中,所述头部特征提取网络包括SPP金字塔结构201和聚合特征金字塔结构202。
本实施例中头部特征提取网络使用SPP金字塔结构201,使得头部特征提取网络适用于多尺寸输入,然后采用聚合特征金字塔网络结构202,将底层信息沿着自底向上的路径传递到高层,实现不同层次特征的融合。
在一个具体的示例中,所述头部特征提取网络还包括调整模块,所述调整模块采用REPconv结构,用于接收所述头部特征提取网络输出的不同尺度的特征并进行通道数调整。
在一个具体的实施例中,所述构建第一YOLOv7模型或第二YOLOv7模型还包括,
构建引导头、辅助头和标签分配模块,
将所述引导头、辅助头和标签分配模块与所述头部特征提取模块相结合。
本实施例中的所述引导头负责获取网络的深层信息作为输出,所述辅助头用于获取网络的浅层信息,以检测好的正样本进行匹配,以解决模型随深度降低带来的性能退化,正样本差等问题;所述标签分配模块结合了跨网格预测以及SimOTA策略,在辅助头中使用更大幅度的跨网格预测,从而筛选出更多的正样本以提高召回率。
在一个具体的实施例中,所述第一YOLOv7模型和第二YOLOv7模型的损失函数分为定位损失、置信度损失和分类损失三部分,
其中置信度损失和分类损失采用BCELoss二值交叉熵损失,定位损失采用CIoU损失。
应当说明的是,损失函数的值越小,模型的鲁棒性越大。
在一个具体的实施例中,所述分别训练所述第一YOLOv7模型和第二YOLOv7模型以得到热红外目标检测模型和可见光目标检测模型还包括,
采用数增强策略、SAM优化器和Varifocal Loss损失函数辅助所述第一YOLOv7模型和第二YOLOv7模型的训练。
在一个具体的实施例中,采用多目标跟踪算法模型分别对所述第一检测框组、第二检测框组对应目标进行跟踪并确定各目标的优先匹配轨迹包括:
使用卡尔曼过滤波器预测所述第一检测框组中各检测框对应目标的运动状态,得到第一预测框组和第一轨迹特征集,将第一预测框组中的各预测框与所述第一检测框组中对应检测框之间的IOU值作为关联代价,通过匈牙利算法实现数据关联,
并使用卡尔曼过滤波器预测所述第二检测框组中各检测框对应目标的运动状态,得到第二预测框组和第二轨迹特征集,将第二预测框组中的各预测框与所述第二检测框组中对应检测框之间的IOU值作为关联代价,通过匈牙利算法完成数据关联;
通过级联匹配根据各轨迹特征对应的目标丢失的次数确定各目标的优先匹配轨迹。
本实施例通过卡尔曼过滤器获取YOLOv7模型输出的检测框,预测当前位置,获取对应的预测框,通过匈牙利算法完成数据关联实现目标跟踪,并为每个对象分配目标的,实现了多目标跟踪,并通过级联匹配确定各目标的优先匹配轨迹,提高了目标跟踪精度,解决了目标对应的ID频繁切换的问题,并减少了因遮挡导致的目标遗漏问题。
在一个具体的实施例中,通过匈牙利算法实现数据关联包括,计算各目标的运动特征和外观特征以得到代价矩阵并为当前目标分配唯一编码,其中,
所述运动特征为预测框和检测框之间的马氏距离,所述外观特征为轨迹特征集与检测框特征向量的余弦距离,所述代价矩阵为所述运动特征和外观特征的加权求和值。
本发明的第二个实施例提供了一种双目人车识别系统,如图3所示,包括,
摄像装置、目标检测模块、跟踪模块、多帧校验模块和融合模块,其中
所述摄像装置包括可见光摄像装置和热红外摄像装置,用于获取观测区域的可见光视频和热红外视频;
所述目标检测模块包括热红外目标检测模块和可见光目标检测模块,其中,
所述热红外目标检测模块,用于接收热红外视频进行实时监测以得到第一检测框组;
所述可见光目标检测模块,用于接收可见光视频进行实时监测以得到第二检测框组;
所述跟踪模块,采用多目标跟踪算法模型,用于分别对所述热红外目标检测模型和可见光目标检测模型中各检测框对应的目标进行跟踪以确定优先匹配轨迹;
所述多帧校验模块,用于对所述跟踪模块的输出进行多帧校验;
所述融合模块,采用NMS算法模型,用于将通过多帧校验的数据进行融合。
在一个具体的实施例中,所述热红外目标检测模块和可见光目标检测模块均基于YOLOv7模型实现,
所述YOLOv7模型包括输入层、骨干特征提取模块、头部特征提取模块;
所述骨干特征提取网络,包括BConv层、E-ELAN层和MpConv层,
所述头部特征提取网络包括SPP金字塔结构和聚合特征金字塔网络结构;
在一个具体示例中,所述头部特征提取模块还包括调整模块,所述调整模块包括REPconv结构,用于接收所述头部特征提取网络输出的不同尺度的特征并进行通道数调整。
需要说明的是,本实施例提供的所述双目人车识别系统的过程和原理与上述实施例提供的所述双目识别方法的过程和原理类似,相关之处可参考,在此不再赘述。
如图4所示,本发明的第三个实施例提供的一种计算机设备的结构示意图。适于用来实现上述实施例提供的双目识别方法,包括中央处理模块(CPU),其可以根据存储在只读存储器(ROM)中的程序或者从存储部分加载到随机访问存储器(RAM)中的程序而执行各种适当的动作和处理。在RAM中,还存储有计算机设备操作所需的各种程序和数据。CPU、ROM以及RAM通过总线彼此相连。输入/输入(I/O)接口也连接至总线。
以下部件连接至I/O接口:包括键盘、鼠标等的输入部分;包括诸如液晶显示器(LCD)等以及扬声器等的输出部分;包括硬盘等的存储部分;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分。通信部分经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至I/O接口。可拆卸介质,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器上,以便于从其上读出的计算机程序根据需要被安装入存储部分。
特别地,根据本实施例,上文流程图描述的过程可以被实现为计算机软件程序。例如,本实施例包括一种计算机程序产品,其包括有形地包含在计算机可读介质上的计算机程序,上述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。
本申请的第四个实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现:
在实际应用中,所述计算机可读存储介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述得任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
应当说明的是,附图中的流程图和示意图,图示了本实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或示意图中的每个方框可以代表一个模块、程序段或代码的一部分,上述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,示意图和/或流程图中的每个方框、以及示意和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定,对于本领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动,这里无法对所有的实施方式予以穷举,凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。
Claims (10)
1.一种双目识别方法,其特征在于,包括
获取可见光摄像装置和热红外摄像装置分别采集的观测区域的可见光视频和热红外视频;
将所述热红外视频输送至热红外目标检测模型进行实时检测,得到第一检测框组,并将所述可见光视频输送至可见光目标检测模型进行实时检测得到第二检测框组;
采用多目标跟踪算法模型分别对所述第一检测框组和所述第二检测框组中的目标进行跟踪并确定各目标的优先匹配轨迹;
对所述多目标跟踪算法模型的输出进行多帧校验;
将进行多帧校验后的数据输送至NMS算法模型进行融合,得到融合后的观测区域的场景视频。
2.根据权利要求1所述的双目识别方法,其特征在于,所述方法还包括,
构建第一YOLOv7模型和第二YOLOv7模型;
分别训练所述第一YOLOv7模型和第二YOLOv7模型以得到热红外目标检测模型和可见光目标检测模型,包括:
建立热红外图像数据集,基于所述热红外图像数据集对第一YOLOv7模型进行训练,热红外目标检测模型;
建立可见光图像数据集,基于所述可见光图像数据集对第二YOLOv7模型进行训练,得到可见光目标检测模型。
3.根据权利要求2所述的双目识别方法,其特征在于,
所述第一YOLOv7模型和第二YOLOv7模型的网络结构相同,
构建第一YOLOv7模型或第二YOLOv7模型包括:
搭建输入层、骨干特征提取模块、头部特征提取模块;
所述骨干特征提取网络包括BConv层、E-ELAN层和MpConv层,
所述头部特征提取网络包括SPP金字塔结构、聚合特征金字塔网络结构和调整模块,所述调整模块包括REPconv结构,用于接收所述聚合特征金字塔网络结构输出的不同尺度的特征并进行通道数调整。
4.根据权利要求3所述的双目识别方法,其特征在于,所述构建第一YOLOv7模型或第二YOLOv7模型还包括,
构建引导头、辅助头和标签分配模块;
将所述引导头、辅助头和标签分配模块与所述头部特征提取模块相结合。
5.根据权利要求2所述的双目识别方法,其特征在于,
所述分别训练所述第一YOLOv7模型和第二YOLOv7模型以得到热红外目标检测模型和可见光目标检测模型还包括,
采用数增强策略、SAM优化器和Varifocal Loss损失函数辅助所述第一YOLOv7模型和第二YOLOv7模型的训练。
6.根据权利要求1所述的双目识别方法,其特征在于,
采用多目标跟踪算法模型分别对所述第一检测框组、第二检测框组对应目标进行跟踪并确定各目标的优先匹配轨迹包括:
使用卡尔曼过滤波器预测所述第一检测框组中各检测框对应目标的运动状态,得到第一预测框组和第一轨迹特征集,将第一预测框组中的各预测框与所述第一检测框组中对应检测框之间的IOU值作为关联代价,通过匈牙利算法实现数据关联,
并使用卡尔曼过滤波器预测所述第二检测框组中各检测框对应目标的运动状态,得到第二预测框组和第二轨迹特征集,将第二预测框组中的各预测框与所述第二检测框组中对应检测框之间的IOU值作为关联代价,通过匈牙利算法完成数据关联;
通过级联匹配根据各轨迹特征对应的目标丢失次数确定各目标的优先匹配轨迹。
7.一种双目识别系统,其特征在于,包括,
摄像装置、目标检测模块、跟踪模块、多帧校验模块和融合模块,其中
所述摄像装置包括可见光摄像装置和热红外摄像装置,分别用于获取观测区域的可见光视频和热红外视频;
所述目标检测模块包括热红外目标检测模块和可见光目标检测模块,
其中,所述热红外目标检测模块,用于根据热红外目标检测模型对所述热红外视频进行实时监测以得到第一检测框组;
所述可见光目标检测模块,用于根据可见光目标检测模型对所述可见光视频进行实时监测以得到第二检测框组;
所述跟踪模块,用于采用多目标跟踪算法模型分别对所述第一检测框组和所述第二检测框组中的目标进行跟踪并确定各目标的优先匹配轨迹;
所述多帧校验模块,用于对所述跟踪模块的输出进行多帧校验;
所述融合模块,用于采用NMS算法模型将进行多帧校验后的数据进行融合,得到融合后的观测区域的场景视频。
8.根据权利要求7所述的双目识别系统,其特征在于,
所述热红外目标检测模块和可见光目标检测模块均基于YOLOv7模型实现,所述YOLOv7模型包括输入层、骨干特征提取模块和头部特征提取模块;
其中,所述骨干特征提取网络包括BConv层、E-ELAN层和MpConv层,
所述头部特征提取网络包括SPP金字塔结构和聚合特征金字塔网络结构和调整模块,所述调整模块包括RepConv结构,用于接收所述聚合特征金字塔网络结构输出的不同尺度的特征并进行通道数调整。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310403558.3A CN116453020A (zh) | 2023-04-14 | 2023-04-14 | 一种双目识别方法及系统、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310403558.3A CN116453020A (zh) | 2023-04-14 | 2023-04-14 | 一种双目识别方法及系统、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116453020A true CN116453020A (zh) | 2023-07-18 |
Family
ID=87131684
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310403558.3A Pending CN116453020A (zh) | 2023-04-14 | 2023-04-14 | 一种双目识别方法及系统、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116453020A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117201834A (zh) * | 2023-09-11 | 2023-12-08 | 南京天创电子技术有限公司 | 基于目标检测的实时双光谱融合视频流显示方法及系统 |
-
2023
- 2023-04-14 CN CN202310403558.3A patent/CN116453020A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117201834A (zh) * | 2023-09-11 | 2023-12-08 | 南京天创电子技术有限公司 | 基于目标检测的实时双光谱融合视频流显示方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xu et al. | Cobevt: Cooperative bird's eye view semantic segmentation with sparse transformers | |
Tian et al. | A dual neural network for object detection in UAV images | |
CN110910391B (zh) | 一种双模块神经网络结构视频对象分割方法 | |
CN104378582A (zh) | 一种基于ptz摄像机巡航的智能视频分析系统及方法 | |
CN110781744A (zh) | 一种基于多层次特征融合的小尺度行人检测方法 | |
CN115223130B (zh) | 基于改进YOLOv5的多任务全景驾驶感知方法与系统 | |
Sahu et al. | A dual-channel dehaze-net for single image dehazing in visual Internet of Things using PYNQ-Z2 board | |
CN113963251A (zh) | 一种海洋生物检测方法、系统和设备 | |
Wang et al. | Plug-and-play: Improve depth prediction via sparse data propagation | |
Chen et al. | An attention based YOLOv5 network for small traffic sign recognition | |
CN116453020A (zh) | 一种双目识别方法及系统、设备及介质 | |
Wang et al. | Plug-and-play: Improve depth estimation via sparse data propagation | |
Malav et al. | DHSGAN: An end to end dehazing network for fog and smoke | |
Chen et al. | Contrast limited adaptive histogram equalization for recognizing road marking at night based on YOLO models | |
CN114596548A (zh) | 目标检测方法、装置、计算机设备及计算机可读存储介质 | |
CN114898355A (zh) | 用于自动驾驶的体住运动的自监督学习的方法和系统 | |
CN114677422A (zh) | 深度信息生成方法、图像虚化方法和视频虚化方法 | |
Molina-Cabello et al. | Vehicle type detection by convolutional neural networks | |
Rishika et al. | Real-time vehicle detection and tracking using yolo-based deep sort model: a computer vision application for traffic surveillance | |
Fursa et al. | Worsening perception: Real-time degradation of autonomous vehicle perception performance for simulation of adverse weather conditions | |
CN116912485A (zh) | 一种基于热感图像和可见光图像特征融合的场景语义分割方法 | |
CN113343903B (zh) | 一种自然场景下的车牌识别方法及系统 | |
Zhao et al. | Enhanced densely dehazing network for single image haze removal under railway scenes | |
CN117036658A (zh) | 一种图像处理方法及相关设备 | |
CN112818743B (zh) | 图像识别的方法、装置、电子设备及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |