CN116434056A - 一种基于雷视融合的目标识别方法、系统及电子设备 - Google Patents
一种基于雷视融合的目标识别方法、系统及电子设备 Download PDFInfo
- Publication number
- CN116434056A CN116434056A CN202310188854.6A CN202310188854A CN116434056A CN 116434056 A CN116434056 A CN 116434056A CN 202310188854 A CN202310188854 A CN 202310188854A CN 116434056 A CN116434056 A CN 116434056A
- Authority
- CN
- China
- Prior art keywords
- target
- video
- radar
- recognition
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 70
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000012549 training Methods 0.000 claims abstract description 36
- 238000013528 artificial neural network Methods 0.000 claims abstract description 30
- 238000009432 framing Methods 0.000 claims abstract description 9
- 238000012545 processing Methods 0.000 claims description 12
- 230000009977 dual effect Effects 0.000 claims description 10
- 238000002372 labelling Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 238000001514 detection method Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000013138 pruning Methods 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 3
- 239000007787 solid Substances 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000006698 induction Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013501 data transformation Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/803—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of input or preprocessed data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Radar Systems Or Details Thereof (AREA)
Abstract
本发明提供了一种基于雷视融合的目标识别方法、系统及电子设备,涉及目标识别技术领域。本发明将视频数据进行分帧处理得到视频帧序列输入到视频目标识别模型,得到多个视频识别目标;视频目标识别模型是利用待测路口的历史标注视频数据,对YOLO神经网络进行训练后得到的;根据雷达点云数据确定多个雷达识别目标;利用融合模型,对多个视频识别目标和多个雷达识别目标进行融合,得到待测路口的目标识别结果。本发明通过构建融合模型结合雷达数据和视频数据进行道路目标识别,以提高道路目标识别的精度,进而提高制定道路自适应配时方案的合理性。
Description
技术领域
本发明涉及目标识别技术领域,特别是涉及一种基于雷视融合的目标识别方法、系统及电子设备。
背景技术
随着经济发展,道路上机动车数量愈发增加,道路拥挤程度越来越大,车辆排队时间越来越长,城市交通管理迫切需要一种自适应的信号机配时调节方案,以缓解道路上的车流量不畅的状况。而自适应配时依赖于道路信息感知能力。道路信息感知及时准确地获得当前路口目标及车流量统计信息(比如平均车速、目标车辆位置以及排队长度等)为配时算法提供数据基础和依据。
现有的道路感知方案主要包括地感线圈、毫米波雷达和视频分析等。其中地感线圈安装不便,且感知范围狭小、数据盲区大,其不稳定性并不适用于配时方案;毫米波雷达通过多普勒红移原理来测量目标的位置、角度和速度。但毫米波雷达检测不到静止物体,且无法区分小范围内存在的多个目标;视频分析通过计算机视觉技术分析光学摄像头的视频影像来检测目标及目标种类。但是视频分析中受限于画面的分辨率和主流的深度学习模型对小目标检测效果较差,远距离目标易漏检,或者受外部条件影响较大,在夜晚,雨天,雾霾天气下检测精度也会出现下降,且无法准确获取目标的距离,及速度等信息。
发明内容
本发明的目的是提供一种基于雷视融合的目标识别方法、系统及电子设备,通过结合雷达数据和视频数据进行道路目标识别,以提高道路目标识别的精度,进而提高制定道路自适应配时方案的合理性。
为实现上述目的,本发明提供了如下方案:
一种基于雷视融合的目标识别方法,包括:
获取待测路口的视频数据和雷达点云数据;
将所述视频数据进行分帧处理,得到视频帧序列;
将所述视频帧序列输入到视频目标识别模型,得到多个视频识别目标;所述视频目标识别模型是利用待测路口的历史标注视频数据,对YOLO神经网络进行训练后得到的;
根据所述雷达点云数据确定多个雷达识别目标;
利用融合模型,对多个视频识别目标和多个雷达识别目标进行融合,得到待测路口的目标识别结果;所述融合模型是利用待测路口的历史视频数据和历史雷达点云数据,对多层感知器神经网络进行训练得到的;所述多层感知器神经网络为对偶结构。
可选的,在所述获取待测路口的视频数据和雷达点云数据之前,还包括:
获取待测路口的多个历史视频数据;
将多个所述历史视频数据均进行分帧处理,得到多个历史视频帧序列;
将每个历史视频帧序列中的多个历史视频帧中的目标及目标种类进行标注,得到多个历史标注视频帧序列;
以多个所述历史视频帧序列为输入,以多个历史视频帧中的目标位置及目标种类为输出,对YOLO神经网络进行训练,得到所述视频目标识别模型。
可选的,所述利用融合模型,对多个视频识别目标和多个雷达识别目标进行融合,得到待测路口的目标识别结果,包括:
确定任一雷达识别目标为当前雷达识别目标;
将所述当前雷达识别目标的物理坐标数据输入到所述融合模型,得到所述当前雷达识别目标在视频坐标系下的坐标数据;
根据所述当前雷达识别目标在视频坐标系下的坐标数据,分别计算当前雷达识别目标与每个视频识别目标的欧式距离;
判断最小欧式距离是否小于欧式距离阈值,得到第一判断结果;
若所述第一判断结果为是,则确定当前雷达识别目标为匹配雷达识别目标,确定最小欧式距离对应的视频识别目标为匹配视频识别目标,并判定所述匹配雷达识别目标与所述匹配视频识别目标为同一目标;
若所述第一判断结果为否,则判定当前雷达识别目标为未匹配雷达识别目标。
可选的,在所述确定当前雷达识别目标为匹配雷达识别目标,确定最小欧式距离对应的视频识别目标为匹配视频识别目标,并判定所述匹配雷达识别目标与所述匹配视频识别目标为同一目标之后,还包括:
获取匹配视频识别目标在当前视频帧中所在位置在视频坐标系下的坐标数据为第一坐标;所述当前视频帧为第一帧视频帧之外的任一视频帧;
获取匹配视频识别目标在前一视频帧中所在位置在视频坐标系下的坐标数据为第二坐标;
获取当前视频帧和前一视频帧的时间间隔;
将所述第一坐标输入到所述融合模型中,得到匹配视频识别目标当前时刻在物理坐标系下的坐标数据为第三坐标;
将所述第二坐标输入到所述融合模型中,得到匹配视频识别目标前一时刻在物理坐标系下的坐标数据为第四坐标;
根据所述第三坐标和所述第四坐标,确定匹配视频识别目标在时间间隔下的实际移动距离;
根据所述时间间隔和所述实际移动距离,确定匹配视频识别目标的移动速度。
可选的,在判定当前雷达识别目标为未匹配雷达识别目标之后,还包括:
确定任一未匹配雷达识别目标为当前未匹配雷达识别目标;
利用多目标跟踪器跟踪当前未匹配雷达识别目标,并获取当前时刻后预设时间段内当前未匹配雷达识别目标的出现次数;
判断所述出现次数是否大于出现次数阈值,得到第二判断结果;
若所述第二判断结果为是,则确定当前未匹配雷达识别目标为驶出待测路口的目标;
若所述第二判断结果为否,则确定当前未匹配雷达识别目标为驶入待测路口的目标。
可选的,在确定当前未匹配雷达识别目标为驶出待测路口的目标之后,还包括:
删除驶出待测路口的目标的雷达数据。
可选的,在获取待测路口的视频数据和雷达点云数据之前,还包括:
根据历史视频数据和历史雷达点云数据,确定同一位置在视频坐标系下的坐标数据为第一历史坐标,在物理坐标系下的坐标数据为第二历史坐标;
以第一历史坐标为正向输入,以为第二历史坐标为正向输出,以第二历史坐标为负向输入,以为第一历史坐标为负向输出,对多层感知器神经网络进行训练,得到所述融合模型。
一种基于雷视融合的目标识别系统,包括:
数据获取模块,用于获取待测路口的视频数据和雷达点云数据;
视频帧序列确定模块,用于将所述视频数据进行分帧处理,得到视频帧序列;
视频识别目标确定模块,用于将所述视频帧序列输入到视频目标识别模型,得到多个视频识别目标;所述视频目标识别模型是利用待测路口的历史标注视频数据,对YOLO神经网络进行训练后得到的;
雷达识别目标确定模块,用于根据所述雷达点云数据确定多个雷达识别目标;
目标识别结果确定模块,用于利用融合模型,对多个视频识别目标和多个雷达识别目标进行融合,得到待测路口的目标识别结果;所述融合模型是利用待测路口的历史视频数据和历史雷达点云数据,对多层感知器神经网络进行训练得到的;所述多层感知器神经网络为对偶结构。
一种电子设备,包括存储器及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行权利要求1至7中任一项所述的一种基于雷视融合的目标识别方法。
可选的,所述存储器为可读存储介质。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明提供的基于雷视融合的目标识别方法、系统及电子设备,获取待测路口的视频数据和雷达点云数据;将视频数据进行分帧处理,得到视频帧序列;将视频帧序列输入到视频目标识别模型,得到多个视频识别目标;视频目标识别模型是利用待测路口的历史标注视频数据,对YOLO神经网络进行训练后得到的;根据雷达点云数据确定多个雷达识别目标;利用融合模型,对多个视频识别目标和多个雷达识别目标进行融合,得到待测路口的目标识别结果;融合模型是利用待测路口的历史视频数据和历史雷达点云数据,对多层感知器神经网络进行训练得到的;多层感知器神经网络为对偶结构。本发明通过构建融合模型结合雷达数据和视频数据进行道路目标识别,以提高道路目标识别的精度,进而提高制定道路自适应配时方案的合理性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1中基于雷视融合的目标识别方法流程图;
图2为本发明实施例1中融合模型示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于雷视融合的目标识别方法、系统及电子设备,通过结合雷达数据和视频数据进行道路目标识别,以提高道路目标识别的精度,进而提高制定道路自适应配时方案的合理性。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例1
如图1所示,本实施例提供了一种基于雷视融合的目标识别方法,包括:
步骤101:获取待测路口的视频数据和雷达点云数据;
步骤102:将视频数据进行分帧处理,得到视频帧序列;
步骤103:将视频帧序列输入到视频目标识别模型,得到多个视频识别目标;视频目标识别模型是利用待测路口的历史标注视频数据,对YOLO神经网络进行训练后得到的;
步骤104:根据雷达点云数据确定多个雷达识别目标;
步骤105:利用融合模型,对多个视频识别目标和多个雷达识别目标进行融合,得到待测路口的目标识别结果;融合模型是利用待测路口的历史视频数据和历史雷达点云数据,对多层感知器神经网络进行训练得到的;多层感知器神经网络为对偶结构。
例如步骤105包括:
步骤1051:确定任一雷达识别目标为当前雷达识别目标;
步骤1052:将当前雷达识别目标的物理坐标数据输入到融合模型,得到当前雷达识别目标在视频坐标系下的坐标数据;
步骤1053:根据当前雷达识别目标在视频坐标系下的坐标数据,分别计算当前雷达识别目标与每个视频识别目标的欧式距离;
步骤1054:判断最小欧式距离是否小于欧式距离阈值,得到第一判断结果;若第一判断结果为是,则执行步骤1055,若第一判断结果为否,则执行步骤1056。
步骤1055:确定当前雷达识别目标为匹配雷达识别目标,确定最小欧式距离对应的视频识别目标为匹配视频识别目标,并判定匹配雷达识别目标与匹配视频识别目标为同一目标;
步骤1056:判定当前雷达识别目标为未匹配雷达识别目标。
在步骤1055之后,还包括:步骤1057-步骤10513。
步骤1057:获取匹配视频识别目标在当前视频帧中所在位置在视频坐标系下的坐标数据为第一坐标;所述当前视频帧为第一帧视频帧之外的任一视频帧;
步骤1058:获取匹配视频识别目标在前一视频帧中所在位置在视频坐标系下的坐标数据为第二坐标;
步骤1059:获取当前视频帧和前一视频帧的时间间隔;
步骤10510:将第一坐标输入到融合模型中,得到匹配视频识别目标当前时刻在物理坐标系下的坐标数据为第三坐标;
步骤10511:将第二坐标输入到融合模型中,得到匹配视频识别目标前一时刻在物理坐标系下的坐标数据为第四坐标;
步骤10512:根据第三坐标和第四坐标,确定匹配视频识别目标在时间间隔下的实际移动距离;
步骤10513:根据时间间隔和实际移动距离,确定匹配视频识别目标的移动速度。
在步骤1056之后,还包括:
步骤10514:确定任一未匹配雷达识别目标为当前未匹配雷达识别目标;
步骤10515:利用多目标跟踪器跟踪当前未匹配雷达识别目标,并获取当前时刻后预设时间段内当前未匹配雷达识别目标的出现次数;
步骤10516:判断出现次数是否大于出现次数阈值,得到第二判断结果;若第二判断结果为是,则执行步骤10517-步骤10518;若第二判断结果为否,则执行步骤步骤10519。
步骤10517:若第二判断结果为是,则确定当前未匹配雷达识别目标为驶出待测路口的目标;
步骤10518:删除驶出待测路口的目标的雷达数据。
步骤10519:若第二判断结果为否,则确定当前未匹配雷达识别目标为驶入待测路口的目标。
对于雷达数据变换得到的像素平面多维数据和视频数据进行匹配,基于贪心算法进行目标之间的匹配,判定的依据为最小化雷达坐标转换到像素坐标后(x1,y1)和视频识别结果的像素坐标(x2,y2)的欧式距离d:
对于没有匹配的视频数据中的目标,由于设置了较高的置信度阈值σ和对象条件类别概率θ,模型的预测精确率视为可信的,算法根据融合模型的另一部分补充输出结果的实际位置,实际速度等信息;对于没有匹配的雷达数据中的目标,首先通过多目标跟踪为每一个雷达目标记录一个跟踪id,其次,对于对没有匹配的跟踪id设置一个计数器,当前未匹配目标高于一定次数a时,不统计当前目标。a的大小受目标当前位置和设置的停止线参数影响。在多目标跟踪中,定义了一个状态估计器,在考虑历史状态与观测数据下,以迭代的方式估计当前目标的位置与速度与当前帧观测到目标的位置和速度进行目标间的匹配。
本实施例提供的一种基于雷视融合的目标识别方法中,在步骤101之前,还包括:步骤106-步骤109。
步骤106:获取待测路口的多个历史视频数据;
步骤107:将多个历史视频数据均进行分帧处理,得到多个历史视频帧序列;
步骤108:将每个历史视频帧序列中的多个历史视频帧中的目标及目标种类进行标注,得到多个历史标注视频帧序列;
步骤109:以多个历史视频帧序列为输入,以多个历史视频帧中的目标位置及目标种类为输出,对YOLO神经网络进行训练,得到视频目标识别模型。
具体的视频目标识别模型确定方法如下:
(1)图像的获取及标注:在取得的对应路口视频图像中,运用图像标注工具Labelme对图像中的目标进行标记,标注出目标的类别和位置。目标标签类别如下:轿车、卡车、公交车、工程车、越野车、面包车、自行车、电瓶车、摩托车、行人以及其他目标。标注之后,选定图片的保存路径和标记信息的.xml文件路径,.xml文件里面拥有这标注的类别和坐标等信息。
(2)数据集划分和数据增强:将图像和标记文件划分成训练集和验证集,训练集和验证集分别占80%、20%。将训练数据切割为远中近三部分,分别采用不同的下采样系数区间[1,2.5],[1.5,4],[2,6],区间内服从均匀分布,每一部分图像的下采样系数γ从对应的区间随机抽样,下采样后的图像随机裁剪到320*320后输入到网络。
(3)设置网络模型参数和训练:在YOLO网络模型的配置文件中,根据显卡显存的大小,用户最终呈现的识别效果要求,设置卷积神经网络输入图像的尺寸、识别种类的数量和filters值、迭代次数参数。初始化7个anchorbox,通过在所有的boundingboxes中随机选取7个值作为k个anchorboxes的初始值,聚类分析时选用box与聚类中心A或B的IOU值作为距离指标:
对改进后的YOLO网络结构进行参数设置,将设置好参数后的改进YOLO网络结构放入配置好环境的计算机中,运用训练集和验证集中标记好的图片名进行训练,训练过程中,将测试集中划分好的图片放入计算机中进行测试,得到每一个阶段训练的效果,并设置过程监控map参数实时观察训练的map值,训练结束后保存训练好的网络模型。
(4)剪枝和量化:将训练好的网络模型,通过非结构化剪枝过滤掉一些不重要的神经网络连接,然后再重新训练进行参数微调,不断重复这个过程直到不能够再进行剪枝为止。在剪枝的基础上做进一步的量化,在不同层的网络层的权重间选用k-means聚类,得到k个区间,权重参数都分布在这k个区间中,用对应k个区间的数值来替代原来的权重数据。
此外,本实施例提供的一种基于雷视融合的目标识别方法,在步骤101之前,还包括:步骤1010-步骤1011。
步骤1010:根据历史视频数据和历史雷达点云数据,确定同一位置在视频坐标系下的坐标数据为第一历史坐标,在物理坐标系下的坐标数据为第二历史坐标;
步骤1011:以第一历史坐标为正向输入,以为第二历史坐标为正向输出,以第二历史坐标为负向输入,以为第一历史坐标为负向输出,对多层感知器神经网络进行训练,得到融合模型。
如图2所示,融合模型采用对偶MLP网络,将雷达采集到的目标从雷达采集平面变换到像素平面/>;在训练时,标定最少四个不共线的特征点即可完成标定,特征点的格式为(x,y,u,v),其中x,y为以雷视融合设备实际位置为原点的实际距离,u,v为以图像左下角为原点的图像坐标。
融合模型实质上是一种标定模型,代表着现实中目标物体的位置和其图像像素位置之间的映射关系,这一部分模型有其特殊性,在不同的路口,摄像机坐标系与世界坐标系的相对位置和相对方向都在改变,预训练的模型无法在的不同单应性关系下做出正确的预测。因此把数据的标注和模型的训练放在雷视融合设备上,提出了一种简易、快速的训练框架,在完成对应关系的位置坐标配对后,一个新的匹配当前场景的模型可以在几分钟内用设备上的ARM芯片训练得到。本实施例中融合模型是采用对偶结构,在循环框架下训练得到的。融合模型可以视为两个单独的模型,分别代表着从世界坐标系到像素坐标系的变换和其对偶变换。在没有雷达数据的情况下,由于视频-雷达模型提供的先验数据,可以从Yolo输出的目标x,y坐标得到目标的实际距离u,v,并和上一帧的实际距离、上一帧与当前帧的间隔时间,计算出目标的实际速度。
实施例2
为了执行上述实施例一对应的方法,以实现相应的功能和技术效果,下面提供了一种基于雷视融合的目标识别系统,包括:
数据获取模块,用于获取待测路口的视频数据和雷达点云数据。
视频帧序列确定模块,用于将视频数据进行分帧处理,得到视频帧序列。
视频识别目标确定模块,用于将视频帧序列输入到视频目标识别模型,得到多个视频识别目标;视频目标识别模型是利用待测路口的历史标注视频数据,对YOLO神经网络进行训练后得到的。
雷达识别目标确定模块,用于根据雷达点云数据确定多个雷达识别目标。
目标识别结果确定模块,用于利用融合模型,对多个视频识别目标和多个雷达识别目标进行融合,得到待测路口的目标识别结果;融合模型是利用待测路口的历史视频数据和历史雷达点云数据,对多层感知器神经网络进行训练得到的;多层感知器神经网络为对偶结构。
本实施例提供的基于雷视融合的目标识别系统,能够对雷达和视频两种数据进行分析并自适应融合,获取更准确的多源信息。目标识别系统,包括:毫米波雷达模组、视频输入及采集模块、信号处理模块、传输存储模块;其中,视频输入及采集模块包括互补金属氧化物半导体模组(CMOS,Complementary Metal-Oxide-Semiconductor)、视频处理单元(VPU,Video Processing Unit)解码模组和编码模组,雷达数据通过毫米波雷达模组采集并处理;信号处理模块包括VPU和内置数字信号处理(DSP,Digital Signal Processing)芯片,进阶精简指令集机器(ARM,Advanced RISC Machine)芯片和嵌入式神经网络处理器(NPU,Neural-network Processing Unit)芯片,DSP将VPU解码后的图片进行预处理后输入到NPU芯片,NPU运行两组训练好的深度学习模型,目标检测模型自动提取图片中的目标位置及目标属性,雷视融合模型将数据从雷达平面转换到像素平面;完整的自适应雷视融合算法运行在ARM芯片上,将上述融合后的信息转化为高清视频流,VPU编码模组将所述高清视频流进行H.265(即H.265-HEVC(High Efficiency Video Coding,高效视频编码))或者MPEG4(Moving Picture Experts Group 4,动态图像专家组4)编码通过网络输出;传输及存储模块包括5G模块、SSD模块、SD模块以及所述视频编码器,第五代移动通信技术(5G,5thGeneration Mobile Communication Technology)模块、固态硬盘(SSD,Solid State Disk或Solid State Drive)模块、SD(数据安全,Secure Digital)模块分别通过DSP总线与所述DSP芯片进行双向信号传输,所述高清视频流通过5G模块传送给PC(个人计算机,PersonalComputer)机,所述高清视频流分别通过SSD模块、SD模块存储到SSD固态硬盘、SD卡(数据安全存储卡,Secure Digital Memory Card)上。
VPU、NPU和ARM芯片分别通过各自提供的接口实现相应的功能。VPU通过其内置的图像信号处理(ISP,Image Signal Processing)图像信号处理器调整CMOS模组的采集参数,CMOS模组采集高分辨率图像并传送到VPU解码模组及内置DSP芯片进行图像预处理,NPU运行训练好的深度学习模型,依次进行目标检测、目标识别、场景下的毫米波雷达与光学摄像头的标定,将所述车牌信息转化为高清视频流,VPU视频编码器将所述高清视频流进行H.265或者MPEG4编码通过网络输出;所述高清视频流分别通过SSD模块、SD模块存储到SSD固态硬盘、SD卡上。
本实施例中YOLO架构锚框比例在训练和运行时通过聚类调整为接近车辆及人员的长宽比例和大小;在图像下采样时针对道路的远近采取了不同的下采样系数;修改输出层的结构,调整了目标检测的识别范围;自适应雷视融合算法及程序,对齐雷达和视频流同一时间上的同一帧数据,结合融合模型输出的多源数据,基于目标特征、差值和融合置信度,采用贪心算法判定是否为同一目标物,输出新的含有速度、移动方向、距离和目标特征的视频图像,提高了目标物的识别精度和准度。
实施例3
本实施例提供了一种电子设备,包括存储器及处理器,存储器用于存储计算机程序,处理器运行计算机程序以使电子设备执行实施例1所述的一种基于雷视融合的目标识别方法。其中,存储器为可读存储介质。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种基于雷视融合的目标识别方法,其特征在于,包括:
获取待测路口的视频数据和雷达点云数据;
将所述视频数据进行分帧处理,得到视频帧序列;
将所述视频帧序列输入到视频目标识别模型,得到多个视频识别目标;所述视频目标识别模型是利用待测路口的历史标注视频数据,对YOLO神经网络进行训练后得到的;
根据所述雷达点云数据确定多个雷达识别目标;
利用融合模型,对多个视频识别目标和多个雷达识别目标进行融合,得到待测路口的目标识别结果;所述融合模型是利用待测路口的历史视频数据和历史雷达点云数据,对多层感知器神经网络进行训练得到的;所述多层感知器神经网络为对偶结构。
2.根据权利要求1所述的一种基于雷视融合的目标识别方法,其特征在于,在所述获取待测路口的视频数据和雷达点云数据之前,还包括:
获取待测路口的多个历史视频数据;
将多个所述历史视频数据均进行分帧处理,得到多个历史视频帧序列;
将每个历史视频帧序列中的多个历史视频帧中的目标及目标种类进行标注,得到多个历史标注视频帧序列;
以多个所述历史视频帧序列为输入,以多个历史视频帧中的目标位置及目标种类为输出,对YOLO神经网络进行训练,得到所述视频目标识别模型。
3.根据权利要求1所述的一种基于雷视融合的目标识别方法,其特征在于,所述利用融合模型,对多个视频识别目标和多个雷达识别目标进行融合,得到待测路口的目标识别结果,包括:
确定任一雷达识别目标为当前雷达识别目标;
将所述当前雷达识别目标的物理坐标数据输入到所述融合模型,得到所述当前雷达识别目标在视频坐标系下的坐标数据;
根据所述当前雷达识别目标在视频坐标系下的坐标数据,分别计算当前雷达识别目标与每个视频识别目标的欧式距离;
判断最小欧式距离是否小于欧式距离阈值,得到第一判断结果;
若所述第一判断结果为是,则确定当前雷达识别目标为匹配雷达识别目标,确定最小欧式距离对应的视频识别目标为匹配视频识别目标,并判定所述匹配雷达识别目标与所述匹配视频识别目标为同一目标;
若所述第一判断结果为否,则判定当前雷达识别目标为未匹配雷达识别目标。
4.根据权利要求3所述的一种基于雷视融合的目标识别方法,其特征在于,在所述确定当前雷达识别目标为匹配雷达识别目标,确定最小欧式距离对应的视频识别目标为匹配视频识别目标,并判定所述匹配雷达识别目标与所述匹配视频识别目标为同一目标之后,还包括:
获取匹配视频识别目标在当前视频帧中所在位置在视频坐标系下的坐标数据为第一坐标;所述当前视频帧为第一帧视频帧之外的任一视频帧;
获取匹配视频识别目标在前一视频帧中所在位置在视频坐标系下的坐标数据为第二坐标;
获取当前视频帧和前一视频帧的时间间隔;
将所述第一坐标输入到所述融合模型中,得到匹配视频识别目标当前时刻在物理坐标系下的坐标数据为第三坐标;
将所述第二坐标输入到所述融合模型中,得到匹配视频识别目标前一时刻在物理坐标系下的坐标数据为第四坐标;
根据所述第三坐标和所述第四坐标,确定匹配视频识别目标在时间间隔下的实际移动距离;
根据所述时间间隔和所述实际移动距离,确定匹配视频识别目标的移动速度。
5.根据权利要求4所述的一种基于雷视融合的目标识别方法,其特征在于,在判定当前雷达识别目标为未匹配雷达识别目标之后,还包括:
确定任一未匹配雷达识别目标为当前未匹配雷达识别目标;
利用多目标跟踪器跟踪当前未匹配雷达识别目标,并获取当前时刻后预设时间段内当前未匹配雷达识别目标的出现次数;
判断所述出现次数是否大于出现次数阈值,得到第二判断结果;
若所述第二判断结果为是,则确定当前未匹配雷达识别目标为驶出待测路口的目标;
若所述第二判断结果为否,则确定当前未匹配雷达识别目标为驶入待测路口的目标。
6.根据权利要求5所述的一种基于雷视融合的目标识别方法,其特征在于,在确定当前未匹配雷达识别目标为驶出待测路口的目标之后,还包括:
删除驶出待测路口的目标的雷达数据。
7.根据权利要求5所述的一种基于雷视融合的目标识别方法,其特征在于,在获取待测路口的视频数据和雷达点云数据之前,还包括:
根据历史视频数据和历史雷达点云数据,确定同一位置在视频坐标系下的坐标数据为第一历史坐标,在物理坐标系下的坐标数据为第二历史坐标;
以第一历史坐标为正向输入,以为第二历史坐标为正向输出,以第二历史坐标为负向输入,以为第一历史坐标为负向输出,对多层感知器神经网络进行训练,得到所述融合模型。
8.一种基于雷视融合的目标识别系统,其特征在于,包括:
数据获取模块,用于获取待测路口的视频数据和雷达点云数据;
视频帧序列确定模块,用于将所述视频数据进行分帧处理,得到视频帧序列;
视频识别目标确定模块,用于将所述视频帧序列输入到视频目标识别模型,得到多个视频识别目标;所述视频目标识别模型是利用待测路口的历史标注视频数据,对YOLO神经网络进行训练后得到的;
雷达识别目标确定模块,用于根据所述雷达点云数据确定多个雷达识别目标;
目标识别结果确定模块,用于利用融合模型,对多个视频识别目标和多个雷达识别目标进行融合,得到待测路口的目标识别结果;所述融合模型是利用待测路口的历史视频数据和历史雷达点云数据,对多层感知器神经网络进行训练得到的;所述多层感知器神经网络为对偶结构。
9.一种电子设备,其特征在于,包括存储器及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行权利要求1至7中任一项所述的一种基于雷视融合的目标识别方法。
10.根据权利要求9所述的一种电子设备,其特征在于,所述存储器为可读存储介质。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310188854.6A CN116434056A (zh) | 2023-03-02 | 2023-03-02 | 一种基于雷视融合的目标识别方法、系统及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310188854.6A CN116434056A (zh) | 2023-03-02 | 2023-03-02 | 一种基于雷视融合的目标识别方法、系统及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116434056A true CN116434056A (zh) | 2023-07-14 |
Family
ID=87093298
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310188854.6A Pending CN116434056A (zh) | 2023-03-02 | 2023-03-02 | 一种基于雷视融合的目标识别方法、系统及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116434056A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117269954A (zh) * | 2023-08-28 | 2023-12-22 | 哈尔滨工业大学 | 基于yolo的探地雷达道路多重隐蔽病害实时识别方法 |
-
2023
- 2023-03-02 CN CN202310188854.6A patent/CN116434056A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117269954A (zh) * | 2023-08-28 | 2023-12-22 | 哈尔滨工业大学 | 基于yolo的探地雷达道路多重隐蔽病害实时识别方法 |
CN117269954B (zh) * | 2023-08-28 | 2024-04-16 | 哈尔滨工业大学 | 基于yolo的探地雷达道路多重隐蔽病害实时识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111368687B (zh) | 一种基于目标检测和语义分割的人行道车辆违停检测方法 | |
CN112700470B (zh) | 一种基于交通视频流的目标检测和轨迹提取方法 | |
CN110263706B (zh) | 一种雾霾天气车载视频动态目标检测和识别的方法 | |
Wang et al. | A vision-based video crash detection framework for mixed traffic flow environment considering low-visibility condition | |
CN111814623A (zh) | 一种基于深度神经网络的车辆车道偏离视觉检测方法 | |
CN112257609B (zh) | 一种基于自适应关键点热图的车辆检测方法及装置 | |
CN110738121A (zh) | 一种前方车辆检测方法及检测系统 | |
Lin et al. | A real-time vehicle counting, speed estimation, and classification system based on virtual detection zone and YOLO | |
CN112215306B (zh) | 一种基于单目视觉与毫米波雷达融合的目标检测方法 | |
CN114359181B (zh) | 一种基于图像和点云的智慧交通目标融合检测方法及系统 | |
CN111415533B (zh) | 弯道安全预警监控方法、装置以及系统 | |
CN114495064A (zh) | 一种基于单目深度估计的车辆周围障碍物预警方法 | |
CN112861700B (zh) | 基于DeepLabv3+的车道线网络识别模型建立及车辆速度检测方法 | |
CN111582256A (zh) | 一种基于雷达和视觉信息的停车管理方法及装置 | |
CN113592905B (zh) | 基于单目摄像头的车辆行驶轨迹预测方法 | |
CN113723377A (zh) | 一种基于ld-ssd网络的交通标志检测方法 | |
CN112084928A (zh) | 基于视觉注意力机制和ConvLSTM网络的道路交通事故检测方法 | |
CN116434056A (zh) | 一种基于雷视融合的目标识别方法、系统及电子设备 | |
CN117152513A (zh) | 一种面向夜间场景的车辆边界定位方法 | |
CN115034324A (zh) | 一种多传感器融合感知效能增强方法 | |
CN112085101A (zh) | 一种高性能高可靠的环境融合感知方法及系统 | |
CN111353481A (zh) | 基于激光点云与视频图像的道路障碍物识别方法 | |
Khasanova et al. | Image denoising for video surveillance cameras based on deep learning techniques | |
CN109615874B (zh) | 一种基于格式塔心理学准则的路况分析方法 | |
WO2023108931A1 (zh) | 一种基于视频雷达融合感知的判断车型方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20230823 Address after: Building A6, Intelligent Manufacturing Industrial Park, South Side of Yunzhan Street, Shengle Modern Service Industry Cluster Zone, Helinger County, Hohhot City, Inner Mongolia Autonomous Region, 011500 Applicant after: Zhongshu Xingsheng Technology Co.,Ltd. Address before: Room 303, Building A, No.1 Yingfeng Second Lane, Yanshan, Fangshan District, Beijing, 102599 Applicant before: Lianyi Yunke (Beijing) Technology Co.,Ltd. |
|
TA01 | Transfer of patent application right |