CN118247495B - 一种多摄像头拼接的高分辨率视频的目标识别方法及装置 - Google Patents
一种多摄像头拼接的高分辨率视频的目标识别方法及装置 Download PDFInfo
- Publication number
- CN118247495B CN118247495B CN202410674751.5A CN202410674751A CN118247495B CN 118247495 B CN118247495 B CN 118247495B CN 202410674751 A CN202410674751 A CN 202410674751A CN 118247495 B CN118247495 B CN 118247495B
- Authority
- CN
- China
- Prior art keywords
- target
- image
- vehicle
- area
- road
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000001514 detection method Methods 0.000 claims abstract description 45
- 238000001914 filtration Methods 0.000 claims abstract description 37
- 230000004927 fusion Effects 0.000 claims abstract description 19
- 238000012545 processing Methods 0.000 claims abstract description 13
- 230000000007 visual effect Effects 0.000 claims description 11
- 230000011218 segmentation Effects 0.000 claims description 8
- 230000008030 elimination Effects 0.000 claims description 6
- 238000003379 elimination reaction Methods 0.000 claims description 6
- 230000003321 amplification Effects 0.000 claims description 5
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 5
- 230000009467 reduction Effects 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 5
- 210000001503 joint Anatomy 0.000 claims description 4
- 230000008569 process Effects 0.000 abstract description 4
- 238000012216 screening Methods 0.000 abstract description 2
- 238000004891 communication Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000010979 ruby Substances 0.000 description 2
- 229910001750 ruby Inorganic materials 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/62—Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/54—Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/08—Detecting or categorising vehicles
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明提供一种多摄像头拼接的高分辨率视频的目标识别方法及装置,所述方法包括:首先,使用Opencv循环读取全景相机中的4K视频流的每一帧图像,将所述图像的识别区域切分为多个小图像;其次,使用YOLOV7微调模型分别识别小图像,获取各个小图像的识别结果并合并到一个数据集中;然后,过滤出4K视频流中道路区域内的车辆目标,筛选后检测目标数据集,将检测后得到的图像进行目标融合与去重;最后,使用卡尔曼滤波算法做目标追踪,输出道路区域内各车辆的位置、类别和置信度信息。本发明旨在改善多摄像头拼接视频图像识别过程中的目标追踪丢失问题,特别是针对使用YOLOV7微调模型在处理高分辨率视频图像时,对数量众多的小型目标识别不足的问题进行优化。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种多摄像头拼接的高分辨率视频的目标识别方法及装置。
背景技术
近年来全国范围内兴起收费站自由流通行改造工程,通过增加ETC预收费、路侧情报板诱导通行等措施,达到车辆能够快速通过收费站的目的。收费站所管理人员为了能了解增加的诱导设备对司机是否起到指引作用,需要全场景实时感知收费站过往车辆行车轨迹、预交易状态、车牌信息等。
为达到这一目的,工程部分在路侧架设高杆,在高杆顶部安装全景相机。全景相机输出的视频是多摄像头拼接的高分辨率视频,视频的分辨率达到4K或者8K;另外视频图像整体有畸变,呈现出鱼眼形状的变形,即两侧画面物体缩小,中间画面物体拉伸变大。
多摄像头拼接的高分辨率视频的车辆目标识别需要解码视频、逐帧识别和跟追,基于深度学习的视觉模型YOLOV7输入图像分辨率需压缩为640X640,对于输入的4K或8K高分辨率图像识别来说,会丢失大量小目标,同时全景相机的图像畸变导致追踪目标丢失率高,无法满足多摄像头拼接的高分辨率视频内全场景目标识别、追踪的要求。
发明内容
针对现有技术中存在的技术问题,本发明提供一种多摄像头拼接的高分辨率视频的目标识别方法及装置,用以解决多摄像头拼接的高分辨率视频识别时丢失大量小目标和追踪丢失问题。
根据本发明的第一方面,本发明提供一种多摄像头拼接的高分辨率视频的目标识别方法,包括以下步骤:
使用Opencv循环读取全景相机中的4K视频流的每一帧图像,将全景相机中所述图像的识别区域切分为多个小图像;
使用YOLOV7微调模型分别识别所述小图像,获取各个小图像的识别结果并合并到一个数据集中;
过滤出4K视频流中道路区域内的车辆目标,并检测目标数据集,将检测后得到的图像进行目标融合与去重;
使用卡尔曼滤波算法做目标追踪,输出道路区域内各车辆的位置、类别和置信度信息。
在上述技术方案的基础上,本发明还可以作出如下改进。
可选的,所述循环读取全景相机中的4K视频流的每一帧图像,将全景相机中所述图像的识别区域切分为多个小图像包括:
使用Opencv读取视频图像中的每一帧数据,将靠近图像边缘的矩形框做放大处理,将图像中间的矩形框做缩小处理;
按照配置的切分区域使用多维数组工具将数据切分生成三个小分辨率的矩形框,
最后,设定矩形框交接处的重叠区域,使多个矩形框区域的并集覆盖图像中道路检测区域。
可选的,所述设定矩形框交接处的重叠区域,使多个矩形框区域的并集覆盖图像中道路检测区域包括:
设定重叠区域宽度大于途经车辆目标宽度的平均值,将重叠区域高度覆盖当前位置道路的宽度;
设定车辆目标在多摄像头拼接的高分辨率视频从左往右行驶或者从右往左行驶,使矩形框的并集区域完全覆盖目标检测车辆行驶道路。
可选的,所述设定车辆目标在多摄像头拼接的高分辨率视频从左往右行驶或者从右往左行驶包括以下步骤:
绘制多边形覆盖图像上需要识别道路的区域;
从车辆行驶的入口开始绘制矩形框,从左往右或从右往左依次绘制矩形框,两两矩形框中间交接位置设置等比例的重叠区域。
可选的,所述使用YOLOV7微调模型分别识别所述小图像包括:
采用小图像采样,使采样的图像样本和图像识别的样本大小一致;在对于大车上拖小车的目标只标注大车整体的目标框;
对于车辆目标出现截断,目标宽度小于目标本身宽度三分之一的车辆不予标注;
将不同小图像的样本微调出不同的模型,降低图像畸变;
最后,识别切分小图像区域内的车辆目标。
可选的,所述获取各个小图像的识别结果并合并到一个数据集中包括:
使用yolov7模型对不同小分辨率矩形框进行识别,输出识别目标的矩形框坐标和置信度数据。
可选的,所述过滤出4K视频流中道路区域内的车辆目标包括:
在图像中道路区域边缘选取关键点,使关键点连接起来形成道路检测区域面,使用卡尔曼滤波算法判断识别目标中心点坐标是否在道路检测区域内,过滤掉区域外的检测目标。
可选的,所述使用卡尔曼滤波算法做目标追踪包括:
设定目标检测框,使用固定目标检测框作为目标坐标输入;
设定滤波算法的参数;所述参数包括:设定达到足够的关联次数、丢失关联和相似度的值。
可选的,所述输出道路区域内各车辆的位置、类别和置信度信息包括:
根据卡尔曼滤波算法融合结果目标追踪,融合图像识别和目标追踪的信息,输出目标跟踪后的数据列表,得到多摄像头拼接的高分辨率视频内的车辆目标的位置、类别和置信度信息。
根据本发明的第二方面,提供一种多摄像头拼接的高分辨率视频的目标识别装置,包括:
视频图像ROI区域内切分模块,用于通过Opencv循环读取全景相机中的4K视频流的每一帧图像,将图像的识别区域切分为多个小图像;
视觉模型目标检测模块,用于使用YOLOV7微调模型分别识别小图像,获取各个小图像的识别结果并合并到一个数据集中;
识别目标融合去重模块,用于过滤出4K视频流中道路区域内的车辆目标,并检测目标数据集,将检测后得到的图像进行目标融合与去重;
融合结果目标跟踪,用于使用卡尔曼滤波算法做目标追踪,输出道路区域内各车辆的位置、类别和置信度信息。
本发明的技术效果和优点:
本发明提供的一种多摄像头拼接的高分辨率视频的目标识别方法及装置,通过将大分辨率图像做切分,使用成熟的实时目标检测模型对切分之后的小图像做识别,最后对分开识别的目标做去重融合;最后,使用卡尔曼滤波算法做目标追踪,输出道路区域内各车辆的位置、类别和置信度信息。本发明旨在改善多摄像头拼接视频图像识别过程中的目标追踪丢失问题,具体用于解决全景相机在读取高分辨率视频流并做图像识别时会丢失大量小目标的技术问题。在使用本发明之前,按照传统的识别方式,直接把高分辨率视频图像通过尺寸变化输入到视觉图像识别模型做目标检测,实际视频图像中目标识别率统计值仅有30%;采用本发明技术之后识别,相同的硬件设备、相同的网络带宽,目标识别率统计值能达到95%以上。
附图说明
图1是本发明实施例提供的多摄像头拼接的高分辨率视频的目标识别方法的步骤流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
针对全景相机输出的视频是多摄像头拼接的高分辨率视频,视频的分辨率达到4K或者8K;基于深度学习的视觉模型YOLOV7输入图像分辨率需压缩为640X640,对于输入的4K或8K高分辨率图像识别来说,会丢失大量小目标。另外视频图像整体有畸变,呈现出鱼眼形状的变形,即两侧画面物体缩小,中间画面物体拉伸变大,导致追踪目标丢失率高的问题。
可以理解的是,基于背景技术中的缺陷,本发明实例提出了一种多摄像头拼接的高分辨率视频的目标识别方法,具体参考如图1所示,所述识别方法包括以下步骤:
步骤一、使用Opencv循环读取多摄像头拼接的高分辨率视频的每一帧图像,将图像的识别区域切分为多个小图像;
需要进行说明的是,Opencv是一个基于Apache2.0许可(开源)发行的跨平台计算机视觉和机器学习软件库,可以运行在Linux、Windows、Android和Mac OS操作系统上。它轻量级而且高效——由一系列 C 函数和少量C++类构成,同时提供了Python、Ruby、MATLAB语言的接口,实现了图像处理和计算机视觉方面的很多通用算法。Opencv用C++语言编写,并支持Windows,Linux,Android和Mac OS,Opencv主要倾向于实时视觉应用,并在可用时利用MMX和SSE指令,也提供对于C#、Ch、Ruby,GO的支持。
在具体实际应用中,多摄像头拼接的高分辨率视频融合多个摄像头各个角度的视频画面信息,具有画面范围广,信息内容全的特征,同时对于视频图像识别带来了挑战;为解决该问题本发明实施例针对视频图像划分多个矩形框识别区域,设定矩形框交接处设定一定范围的重叠区域,使多个矩形框区域的并集覆盖图像中道路检测区域。
具体地,将图像的识别区域切分为多个小图像具体包括:
Opencv读取视频图像中的每一帧数据,将靠近图像边缘的矩形框做放大处理,将图像中间的矩形框做缩小处理;
按照配置的切分区域使用多维数组工具切分生成三个小分辨率的矩形框,设定矩形框交接处的重叠区域,使多个矩形框区域的并集覆盖图像中道路检测区域。
需要进行说明的是,将靠近图像边缘的矩形框做放大处理,靠近图像边缘的车辆目标较小,放大图像能提高YOLOV7微调模型识别目标的召回率;使图像中间的矩形框做缩小处理,图像中间区域的车辆目标在多摄像头拼接画面中表现出较大的拉伸效果,直接使用YOLOV7微调模型识别会出现一个车辆目标识别成多个目标,压缩图像大小再输入模型识别降低错误识别的发生。
其中,设定矩形框交接处有的重叠区域包括:使重叠区域宽度大于途经车辆目标宽度的平均值,减少车辆目标在跨区域识别时产生过多小目标;使重叠区域高度覆盖当前位置道路的宽度。
使多个矩形框区域的并集覆盖图像中道路检测区域包括:使车辆目标在多摄像头拼接的高分辨率视频从左往右行驶或者从右往左行驶,让矩形框的并集区域完全覆盖目标检测车辆行驶道路。
由此,根据视频图像需要识别的区域范围和图像畸变的位置,将图像帧切分成多个识别区域,依据不同区域内识别目标特征不同采样训练视觉模型,各个切分区域相连的部分设置一定比例的重叠。
更进一步地,各个切分区域相连的部分设置一定比例的重叠具体包括以下步骤:
步骤1.1.绘制多边形覆盖图像上需要识别道路区域;
步骤1.2.从车辆行驶的入口开始绘制矩形框,从左往右一次绘制三个矩形框,两两矩形框中间交接位置设置0.2比例的重叠区域。
步骤二、使用YOLOV7微调模型分别识别小图像,获取各个小图像的识别结果并合并到一个数据集中;
需要进行说明的是,YOLOv7是YOLO系列中的新版本,它在网络架构、标签分配策略、训练方法等方面进行了创新和改进,以提高目标检测的准确性和速度。微调(Fine-tuning)是将预训练模型应用于特定任务并调整其参数以适应新数据集的过程。
所述使用YOLOV7微调模型分别识别小图像包括:小图像采样、图像目标标注、YOLOV7预训练模型微调和识别切分小图像区域内的车辆目标四部分;其中,
小图像采样包括:使采样的图像样本和图像识别的样本大小一致,图像在缩放之后图像内的车辆目标产生一定的变化,训练和识别的图像保持一致提高车辆目标识别的召回率;样本的场景包括逆光、顺光、阴天、雨天、雾天、傍晚;
图像目标标注包括:车辆目标标注保证其主体目标的完整性,对于大车上拖小车的目标只标注大车整体的目标框;对于车辆目标出现截断,目标宽度小于目标本身宽度三分之一的车辆不予标注;
YOLOV7预训练模型微调包括:不同小图像的样本微调出不同的模型,降低图像畸变导致目标识别召回率下降。
识别切分小图像区域内的车辆目标包括:按照切分的区域分别使用各自区域样本训练出来的模型做目标检测。
需要进行说明的是,全景相机视频下的目标呈现出中间大两边小的形态,按照切分的区域分别使用各自区域样本训练出来的模型做目标检测,在区域重叠的部分会出现同一目标多次识别,得到的识别框可能是完全重叠,也可能是部分相交,重叠区域的设置需保证相交面积占整个目标的70%以上;在本实施例中,可以采用numpy数据切分小图像区域内的车辆目标从而生成三个小分辨率的图片。numpy是一个python语言的数组处理工具包,可以高性能的处理数组切分、运算等;置信度是机器学习中用于评判结果的数值,数值范围在0到1之间,其中在本系统中数值越大代表模型识别的分类结果越接近真实值。
在本实施例中,对切分的图像进行视觉模型目标检测具体包括以下步骤:
步骤2.1.Opencv读取视频图像中的每一帧数据,按照配置的切分区域使用numpy数据切分生成三个小分辨率的图片;
步骤2.2.使用yolov7模型对三个小分辨率frame进行识别,输出识别目标的矩形框坐标和置信度数据。
步骤三、过滤出4K视频流中道路区域内的车辆目标,筛选后检测目标数据集;将检测后得到的图像进行目标融合与去重;
在本实施例中,所述过滤出4K视频流中道路区域内的车辆目标具体包括:
使用卡尔曼滤波算法过滤出4K视频流中道路区域内的车辆目标;具体为:在图像中道路区域边缘选取关键点,使关键点连接起来为道路检测区域面,判断识别目标中心点坐标是否在道路检测区域内,过滤掉区域外的检测目标。
进一步地,将检测后得到的图像进行目标融合与去重具体包括:
将模型识别出来的目标全部合并,计算各个目标之间的交并比,把重叠区域高的多个识别目标合并为同一目标。模型对于输入的图像输出识别目标的矩形框坐标信息,包括矩形框的左上角坐标和右下角坐标;因为对于大图是分多个区域识别的,所以在重叠区域会出现矩形框重叠的问题,通过遍历矩形框列表,计算各个矩形框和其他矩形框重叠区域占该矩形框的比例,占比高的则视为两个矩形框识别的是同一目标,合并两个矩形框的坐标。
上述技术方案中,把重叠区域高的多个识别目标合并为同一目标具体包括以下步骤:
步骤3.1.把视觉模型识别出来的所有目标obj插入到一个list对象中做合并;
步骤3.2.遍历融合目标list,使用NMS算法对目标中重复对象去重,得到融合后去重的目标list。
步骤四、使用卡尔曼滤波算法做目标追踪,输出道路区域内各车辆的位置、类别和置信度信息。
需要进行说明的是,卡尔曼滤波算法(Kalman Filter)是一种高效的递归滤波器,用于估计动态系统的状态。这种算法由Rudolf E. Kálmán在1960年提出,因此得名。它的核心思想是通过结合系统的动态模型和观测数据来优化状态估计,从而减少噪声对系统性能的影响;
所述使用卡尔曼滤波算法做目标追踪包括以下两方面:
一是设定目标检测框,包括:常规卡尔曼滤波算法使用输入的是目标检测框的坐标信息,对于多摄像头拼接的高分辨率视频图像识别,图像上的目标和实际目标对比表现出较大的图形畸变,导致目标的中心点出现非常规的偏移,造成目标跟踪大概率丢失;本发明提出使用固定目标检测框作为目标坐标输入,极大降低目标跟踪丢失问题;
二是设定滤波算法的参数;包括:设定min_hits=10、max_age=1、iou_thresh=0.1;min_hits参数定义了一个追踪目标需要在连续多少帧中成功匹配(即达到足够的关联次数),才能被认为是一个稳定的追踪目标并输出其追踪结果。这个参数的设置是为了确保追踪目标的可靠性,减少因偶然匹配或噪声引起的错误追踪。本发明中min_hits设置为10,那么一个新检测到的目标需要在连续十帧中成功与追踪目标关联,才能被算法确认并输出其追踪信息。这有助于算法忽略那些可能由于噪声或临时遮挡而偶然出现的检测结果。
max_age参数指定了一个追踪目标在多久没有成功匹配(即丢失关联)后,将其从追踪列表中移除。这个参数的设置是为了处理那些可能已经离开视野或者长时间被遮挡的目标。本发明中max_age设置为1,那么如果一个追踪目标在连续一帧中未能成功匹配,算法将认为该目标已经不再是追踪的一部分,并将其从追踪列表中删除。这有助于维护追踪列表的准确性,避免追踪已经不存在的目标。
iou_thresh是一种评估两个边界框重叠程度的度量方法。在追踪算法中,iou_thresh用于计算检测结果和追踪目标之间的相似度,以确定它们是否应该被认为是同一个目标,本发明中iou_thresh设定为0.1。
所述输出道路区域内各车辆的位置、类别和置信度信息包括:
根据卡尔曼滤波算法融合结果目标追踪,融合图像识别和目标追踪的信息,输出目标跟踪后的数据列表,得到多摄像头拼接的高分辨率视频内的车辆目标的位置、类别、置信度信息,为业务应用起到关键性作用。
上述技术方案中,在融合去重后的目标仅有目标位置和置信度信息,使用卡尔曼滤波算法实现融合结果目标跟踪,结合历史目标识别结果通过卡尔曼滤波算法给定每个目标识别后唯一ID,保证后期车牌号融合匹配使用,最后,输出目标跟踪后的数据列表。
基于上述技术方案,本发明实施例用于解决多摄像头拼接的高分辨率视频图像目标识别、追踪丢失的技术问题,本发明实施例在解决实际问题时规避技术实现上的难点,绕开修改模型结构优化识别率的难题;另辟蹊径,采用分而治之的算法设计策略,将大问题分解为若干个相似的小问题,逐个解决这些小问题,再将小问题的结果合并起来,从而得到原始大问题的解。
在使用本发明之前,按照传统的识别方式,直接把高分辨率视频图像通过尺寸变化输入到视觉图像识别模型做目标检测,实际视频图像中目标识别率统计值仅有30%;采用本发明技术之后识别,相同的硬件设备、相同的网络带宽,目标识别率统计值达到95%以上。
根据本发明的第二方面,本发明实施例提供一种多摄像头拼接的高分辨率视频的目标识别装置,包括:
视频图像ROI区域内切分模块,用于通过Opencv循环读取全景相机中的4K视频流的每一帧图像,将图像的识别区域切分为多个小图像;
视觉模型目标检测模块,用于使用YOLOV7微调模型分别识别小图像,获取各个小图像的识别结果并合并到一个数据集中;
识别目标融合去重模块,用于过滤出4K视频流中道路区域内的车辆目标,并检测目标数据集,将检测后得到的图像进行目标融合与去重;
融合结果目标跟踪模块,用于使用卡尔曼滤波算法做目标追踪,输出道路区域内各车辆的位置、类别和置信度信息。
可以理解的是,本发明提供的一种多摄像头拼接的高分辨率视频的目标识别装置与前述各实施例提供的一种多摄像头拼接的高分辨率视频的目标识别方法相对应,一种多摄像头拼接的高分辨率视频的目标识别装置的相关技术特征可参考一种多摄像头拼接的高分辨率视频的目标识别方法的相关技术特征,在此不再赘述。
另外,本发明实施例还提供了一种电子设备,该电子设备可以包括:处理器(processor)、通信接口(Communications Interface)、存储器(memory)和通信总线,其中,处理器通信接口,存储器通过通信总线完成相互间的通信。处理器可以调用存储器中的逻辑指令,以执行上述所述的一种多摄像头拼接的高分辨率视频的目标识别方法的步骤。
此外,上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行上述实施例或者实施例的某些部分所述的一种多摄像头拼接的高分辨率视频的目标识别方法的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (6)
1.一种多摄像头拼接的高分辨率视频的目标识别方法,其特征在于,所述方法包括以下步骤:
步骤S1.使用Opencv循环读取全景相机中的4K视频流的每一帧图像,将全景相机中所述图像的识别区域切分为多个小图像;包括:
使用Opencv读取视频图像中的每一帧数据,将靠近图像边缘的矩形框做放大处理,将图像中间的矩形框做缩小处理;
按照配置的切分区域使用多维数组工具将数据切分生成多个小分辨率的矩形框;
设定矩形框交接处的重叠区域,使多个矩形框区域的并集覆盖图像中道路检测区域;包括:
设定重叠区域宽度大于途经车辆目标宽度的平均值,将重叠区域高度覆盖当前位置道路的宽度;
设定车辆目标在多摄像头拼接的高分辨率视频从左往右行驶或者从右往左行驶,使矩形框的并集区域完全覆盖目标检测车辆行驶道路;包括:绘制多边形覆盖图像上需要识别道路的区域;从车辆行驶的入口开始绘制矩形框,从左往右或从右往左依次绘制矩形框,两两矩形框中间交接位置设置等比例的重叠区域;
步骤S2.使用YOLOV7微调模型分别识别所述小图像,获取各个小图像的识别结果并合并到一个数据集中;包括:使用YOLOV7模型对不同小分辨率矩形框进行识别,输出识别目标的矩形框坐标和置信度数据;
步骤S3.过滤出4K视频流中道路区域内的车辆目标,并检测目标数据集,将检测后得到的图像进行目标融合与去重;
步骤S4.使用卡尔曼滤波算法做目标追踪,设定目标检测框,使用固定目标检测框作为目标坐标输入,输出道路区域内各车辆的位置、类别和置信度信息。
2.根据权利要求1所述的一种多摄像头拼接的高分辨率视频的目标识别方法,其特征在于,所述使用YOLOV7微调模型分别识别所述小图像包括:
采用小图像采样,使采样的图像样本和图像识别的样本大小一致;在对于大车上拖小车的目标只标注大车整体的目标框;
对于车辆目标出现截断,目标宽度小于目标本身宽度三分之一的车辆不予标注;
将不同小图像的样本微调出不同的模型,降低图像畸变;
最后,识别切分小图像区域内的车辆目标。
3.根据权利要求1所述的一种多摄像头拼接的高分辨率视频的目标识别方法,其特征在于,所述过滤出4K视频流中道路区域内的车辆目标包括:
在图像中道路区域边缘选取关键点,使关键点连接起来形成道路检测区域面,使用卡尔曼滤波算法判断识别目标中心点坐标是否在道路检测区域内,过滤掉区域外的检测目标。
4.根据权利要求1所述的一种多摄像头拼接的高分辨率视频的目标识别方法,其特征在于,所述使用卡尔曼滤波算法做目标追踪包括:
设定滤波算法的参数;所述参数包括:设定达到足够的关联次数、丢失关联和相似度的值。
5.根据权利要求1所述的一种多摄像头拼接的高分辨率视频的目标识别方法,其特征在于,所述输出道路区域内各车辆的位置、类别和置信度信息包括:
根据卡尔曼滤波算法融合结果目标追踪,融合图像识别和目标追踪的信息,输出目标跟踪后的数据列表,得到多摄像头拼接的高分辨率视频内的车辆目标的位置、类别和置信度信息。
6.一种多摄像头拼接的高分辨率视频的目标识别装置,其特征在于,所述装置包括:
视频图像ROI区域内切分模块,用于通过Opencv循环读取全景相机中的4K视频流的每一帧图像,将图像的识别区域切分为多个小图像;包括:
使用Opencv读取视频图像中的每一帧数据,将靠近图像边缘的矩形框做放大处理,将图像中间的矩形框做缩小处理;
按照配置的切分区域使用多维数组工具将数据切分生成多个小分辨率的矩形框;
设定矩形框交接处的重叠区域,使多个矩形框区域的并集覆盖图像中道路检测区域;包括:
设定重叠区域宽度大于途经车辆目标宽度的平均值,将重叠区域高度覆盖当前位置道路的宽度;
设定车辆目标在多摄像头拼接的高分辨率视频从左往右行驶或者从右往左行驶,使矩形框的并集区域完全覆盖目标检测车辆行驶道路;包括:绘制多边形覆盖图像上需要识别道路的区域;从车辆行驶的入口开始绘制矩形框,从左往右或从右往左依次绘制矩形框,两两矩形框中间交接位置设置等比例的重叠区域;
视觉模型目标检测模块,用于使用YOLOV7微调模型分别识别小图像,获取各个小图像的识别结果并合并到一个数据集中;包括:使用YOLOV7模型对不同小分辨率矩形框进行识别,输出识别目标的矩形框坐标和置信度数据;
识别目标融合去重模块,用于过滤出4K视频流中道路区域内的车辆目标,并检测目标数据集,将检测后得到的图像进行目标融合与去重;
融合结果目标跟踪模块,用于使用卡尔曼滤波算法做目标追踪,设定目标检测框,使用固定目标检测框作为目标坐标输入,输出道路区域内各车辆的位置、类别和置信度信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410674751.5A CN118247495B (zh) | 2024-05-29 | 2024-05-29 | 一种多摄像头拼接的高分辨率视频的目标识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410674751.5A CN118247495B (zh) | 2024-05-29 | 2024-05-29 | 一种多摄像头拼接的高分辨率视频的目标识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN118247495A CN118247495A (zh) | 2024-06-25 |
CN118247495B true CN118247495B (zh) | 2024-08-13 |
Family
ID=91562821
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410674751.5A Active CN118247495B (zh) | 2024-05-29 | 2024-05-29 | 一种多摄像头拼接的高分辨率视频的目标识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118247495B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115131760A (zh) * | 2022-07-17 | 2022-09-30 | 西北工业大学 | 一种基于改进特征匹配策略的轻量级车辆追踪方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111133447B (zh) * | 2018-02-18 | 2024-03-19 | 辉达公司 | 适于自主驾驶的对象检测和检测置信度的方法和系统 |
CN108848304B (zh) * | 2018-05-30 | 2020-08-11 | 影石创新科技股份有限公司 | 一种全景视频的目标跟踪方法、装置和全景相机 |
CN110178167B (zh) * | 2018-06-27 | 2022-06-21 | 潍坊学院 | 基于摄像机协同接力的路口违章视频识别方法 |
CN111914664A (zh) * | 2020-07-06 | 2020-11-10 | 同济大学 | 基于重识别的车辆多目标检测和轨迹跟踪方法 |
CN112954443A (zh) * | 2021-03-23 | 2021-06-11 | 影石创新科技股份有限公司 | 全景视频的播放方法、装置、计算机设备和存储介质 |
CN114898326A (zh) * | 2022-03-11 | 2022-08-12 | 武汉理工大学 | 基于深度学习的单行道车辆逆行检测方法、系统及设备 |
CN115032651B (zh) * | 2022-06-06 | 2024-04-09 | 合肥工业大学 | 一种基于激光雷达与机器视觉融合的目标检测方法 |
CN117373108A (zh) * | 2023-04-10 | 2024-01-09 | 长江大学 | 一种基于YOLOv5及改进SORT算法的储粮害虫行为分析方法 |
-
2024
- 2024-05-29 CN CN202410674751.5A patent/CN118247495B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115131760A (zh) * | 2022-07-17 | 2022-09-30 | 西北工业大学 | 一种基于改进特征匹配策略的轻量级车辆追踪方法 |
Also Published As
Publication number | Publication date |
---|---|
CN118247495A (zh) | 2024-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112528878B (zh) | 检测车道线的方法、装置、终端设备及可读存储介质 | |
Greenhalgh et al. | Recognizing text-based traffic signs | |
Mu et al. | Lane detection based on object segmentation and piecewise fitting | |
CN103093201B (zh) | 车标定位识别方法及系统 | |
CN103077407B (zh) | 车标定位识别方法及系统 | |
JP4157620B2 (ja) | 移動物体検出装置及びその方法 | |
CN110956081B (zh) | 车辆与交通标线位置关系的识别方法、装置及存储介质 | |
US20230005278A1 (en) | Lane extraction method using projection transformation of three-dimensional point cloud map | |
CN114998815B (zh) | 一种基于视频分析的交通车辆识别追踪方法及系统 | |
CN114359669A (zh) | 图片分析模型调整方法、装置以及计算机可读存储介质 | |
CN113255444A (zh) | 图像识别模型的训练方法、图像识别方法和装置 | |
CN115880662A (zh) | 利用异类传感器的协同作用进行自主驾驶的3d目标检测方法 | |
CN115100469A (zh) | 一种基于分割算法的目标属性识别方法、训练方法和装置 | |
WO2022121021A1 (zh) | 一种身份证号码检测方法、装置、可读存储介质和终端 | |
CN112700653A (zh) | 一种车辆违法变道的判定方法、装置、设备及存储介质 | |
US20230237811A1 (en) | Object detection and tracking | |
CN118247495B (zh) | 一种多摄像头拼接的高分辨率视频的目标识别方法及装置 | |
CN116071713A (zh) | 斑马线确定方法、装置、电子设备和介质 | |
CN115565155A (zh) | 神经网络模型的训练方法、车辆视图的生成方法和车辆 | |
CN110796684B (zh) | 目标跟踪方法以及相关装置 | |
CN113657277A (zh) | 一种车辆被遮挡状态判断系统及方法 | |
CN110969065B (zh) | 车辆检测方法、装置、前车防撞预警设备及存储介质 | |
CN117934973B (zh) | 智能摄像机图像处理方法、装置、设备及存储介质 | |
TWI807904B (zh) | 深度識別模型訓練方法、圖像深度識別方法及相關設備 | |
Nieto et al. | Constant-time monocular object detection using scene geometry |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |