CN112364822A - 一种自动驾驶视频语义分割系统及方法 - Google Patents
一种自动驾驶视频语义分割系统及方法 Download PDFInfo
- Publication number
- CN112364822A CN112364822A CN202011373273.2A CN202011373273A CN112364822A CN 112364822 A CN112364822 A CN 112364822A CN 202011373273 A CN202011373273 A CN 202011373273A CN 112364822 A CN112364822 A CN 112364822A
- Authority
- CN
- China
- Prior art keywords
- video
- semantic segmentation
- automatic driving
- video data
- key frames
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及视频处理技术领域,具体为一种自动驾驶视频语义分割系统及方法,该方法包括S100:获取待处理的视频数据;S200:通过视频稀疏采样算法对待处理的视频数据进行关键帧提取;S300:基于卷积神经网络构建分类模型;S400:通过分类模型对关键帧进行语义识别分类,生成视频数据的语义分割结果;所述S100包括:S101:采集多路视频数据;S102:对多路视频数据进行预处理和数据融合,形成待处理视频数据。本申请的一种自动驾驶视频语义分割系统及方法,能够极大降低非关键帧的计算量,具有更新速度快、算法简单、计算量小、运行速度快、准确度高、适用场景范围广等优点。
Description
技术领域
本发明涉及视频处理技术领域,具体为一种自动驾驶视频语义分割系统及方法。
背景技术
目前自动驾驶领域在实用化方面都取得了突破性的进展,其对于汽车行业甚至是交通运输业有着深远的影响。通过对车载感知视频的分析与处理,即让计算机自动的对入库视频进行分割与组织,通过分析提取必要的信息,输入车辆行为决策系统,实现车辆自动驾驶操作。
视频正常的播放速度是每秒15-30帧,每个待识别对象,都会出现一段时间,对每帧视频图像都进行分析与语义提取,会增加计算量,使得计算机资源的开销相当巨大且没有价值。
发明内容
本发明意在提供一种自动驾驶视频语义分割系统及方法,能够极大降低非关键帧的计算量,运行速度快、准确度高、适用场景范围广。
本申请提供如下技术方案:
一种自动驾驶视频语义分割方法,包括:
S100:获取待处理的视频数据;
S200:通过视频稀疏采样算法对待处理的视频数据进行关键帧提取;
S300:基于卷积神经网络构建分类模型;
S400:通过分类模型对关键帧进行语义识别分类,生成视频数据的语义分割结果。
进一步,所述S100包括:
S101:采集多路视频数据;
S102:对多路视频数据进行预处理和数据融合,形成待处理视频数据。
进一步,所述S200包括:
S201:通过帧差法计算视频数据中相邻两帧图像之间的差异度;
S202:根据差异度将视频数据分割为若干视频段;
S203:从每个视频段中选取若干帧图像作为关键帧。
进一步,所述S203包括:
S2031:从视频段中随机选取第一个关键帧;
S2032:从第一个关键帧开始按照固定的间隔从视频段中选取帧图像作为关键帧。
进一步,所述S201通过对像素的时间差分进行闭值化来提取相邻帧的差异度。
进一步,所述S201包括:
S2011:将相邻帧图像对应像素值相减得到差分图像;
S2012:对差分图像进行二值化;
S2013:根据二值化后的差分图像,计算差异度。
进一步,所述S300包括:
S301:建立卷积神经网络的卷积层、池化层以及全连接层;
S302:构建训练集,通过训练集对卷积神经网络进行训练。
进一步,所述S301包括:
S3011:构建卷积层,卷积层采用同一化核、边缘检测核、均值模糊核、高斯滤波核、图像锐化核以及浮雕核中的一种或多种作为卷积层的特征提取器;
S3012:构建池化层,池化层的池化窗口大小根据输入图片大小以及特征提取器的大小配置,池化算法采用平均值池化、最大值池化或随机池化算法;
S3013:构建全连接层,全连接层使用了Softmax激活函数作为分类器。
进一步,S400包括:
S401:通过分类模型对关键帧进行语义识别,生成各个分类的概率;
S402:根据各个分类的概率,将关键帧语义分类至概率最大的分类中;
S403:根据各个关键帧的语义识别结果,对语义识别结果相同的相邻关键帧的语义识别结果进行融合;
S404:根据各个关键帧的语义识别结果对关键帧对应的视频段进行语义标注,形成语义分割结果。
进一步,本申请还公开了一种自动驾驶视频语义分割系统,该系统使用了上述的自动驾驶视频语义分割方法。
本发明技术方案利用帧差法实现关键帧的提取,在图像序列相邻两帧间采用基于像素的时间差分通过闭值化来提取出图像中的差异度,进而提取关键帧。然后构建卷积神经网络模型架构,采用CNN卷积神经网络识别图像,对关键帧以及对应的视频段进行语义标记,最终实现视频语义分割。本发明技术方案可以大大降低非关键帧的计算量,具有更新速度快、算法简单、计算量小、运行速度快、准确度高、适用场景范围广等优点。
附图说明
图1为本申请一种自动驾驶视频语义分割方法实施例中的流程图。
具体实施方式
下面通过具体实施方式对本申请技术方案进行进一步详细说明:
实施例一
如图1所示,本实施例公开的一种自动驾驶视频语义分割方法,应用于自动驾驶领域,用于对自动驾驶汽车感知摄像头拍摄的视频进行视频语义分割和识别,可以实现对道路检测、行人检测、车辆检测、交通标志检测和交通信号灯检测等五种情况类型的识别。
该方法包括:
S100:获取待处理的视频数据;
S200:通过视频稀疏采样算法对待处理的视频数据进行关键帧提取;
S300:基于卷积神经网络构建分类模型;
S400:通过分类模型对关键帧进行语义识别分类,生成视频数据的语义分割结果。
本实施例中,视频数据由车辆上的多个摄像头拍摄得到,S100包括:
S101:通过车辆摄像头采集多路视频数据;
S102:对多路视频数据进行预处理和数据融合,形成待处理视频数据,预处理包括畸变矫正、色相调整等。
S200包括:
S201:通过帧差法计算视频数据中相邻两帧图像之间的差异度;
S202:根据差异度将视频数据分割为若干视频段;
S203:从每个视频段中选取若干帧图像作为关键帧。本实施中,从视频段中随机选取一个帧作为关键帧。
本实施例中,通过对像素的时间差分进行闭值化来提取相邻帧的差异度。具体的,S201包括:
S2011:将相邻帧图像对应像素值相减得到差分图像;
S2012:对差分图像进行二值化;
S2013:根据二值化后的差分图像,计算差异度,本实施例中,将大于差异大于阈值的像素二值化为黑色,然后根据二值化后图像黑色像素的数量计算差异度。
S300包括:
S301:建立卷积神经网络的卷积层、池化层以及全连接层;
具体包括:
S3011:构建卷积层,卷积层采用同一化核、边缘检测核、均值模糊核、高斯滤波核、图像锐化核以及浮雕核中的一种或多种作为卷积层的特征提取器;
S3012:构建池化层,池化层的池化窗口大小根据输入图片大小以及特征提取器的大小配置,池化算法采用平均值池化、最大值池化或随机池化算法;
S3013:构建全连接层,全连接层使用了Softmax激活函数作为分类器。
S302:构建训练集,通过训练集对卷积神经网络进行训练。
S400包括:
S401:通过分类模型对关键帧进行语义识别,生成各个分类的概率;
S402:根据各个分类的概率,将关键帧语义分类至概率最大的分类中;
S403:根据各个关键帧的语义识别结果,对语义识别结果相同的相邻关键帧的语义识别结果进行融合;
S404:根据各个关键帧的语义识别结果对关键帧对应的视频段进行语义标注,形成语义分割结果。
本实施例中,设置道路检测、行人检测、车辆检测、交通标志检测和交通信号灯检测五种类别的分类,并预先采集上述五类的图片,其中前4种类型图像数据为各70张,交通信号灯对红、绿、黄灯各拍摄70张。使用这些图像训练模型的步骤是:将收集到的图像数据集中的图像数据读取到程序中,图像数据包括图片和图片的标签,并且是它们是一一对应的关系。数据集分为两大类,一种是训练数据集,设置为training文件夹,在里面再分为7个文件夹,包括:道路检测、行人检测、车辆检测、交通标志检测、交通信号红灯、交通信号绿灯、交通信号黄灯,每种类别分别是50张图片,另一种就是测试数据集,设置为test文件夹,test文件夹里是5种类别的相应的图片数据文件夹,每种类别文件夹中有20张图片。已经将图像的数据分成了训练集和测试集。
将图像数据读取到程序中。读取文件夹下的图像数据,将它们读取到images数组中,同时将这些图片的数据所对应的标签读取到labels数组中,并且images和labels中的数据都是一对一的关系。本实施例采用CNN模型对数据集进行训练。CNN模型的前三层是卷积操作,第一层是一个5x5的卷积核,2、3层则用的是3x3的卷积核。卷积操作主要是提取特征,之后再进行分类,将每一个图片变成一个一维向量。进行全连接操作,训练CNN模型并保存图片训练结果。其中训练模型的迭代次数为350次。
本实施中还公开了一种自动驾驶视频语义分割系统,该系统应用于无人驾驶车辆上,使用了本实施例的自动驾驶视频语义分割方法,能够基于自动驾驶汽车采集拍摄的视频数据进行场景语义的识别分析,如道路检测、行人检测、车辆检测、交通标志检测和交通信号灯检测等。
实施例二
本实施例与实施例一的区别在于,本实施例中S203包括:
S2031:从视频段中随机选取第一个关键帧;
S2032:从第一个关键帧开始按照固定的间隔从视频段中选取帧图像作为关键帧。
实施例三
本实施例与实施例一的区别在于,本实施例中S203包括:
S2031:从视频段中选取第一帧作为第一个关键帧;
S2032:逐帧计算每一帧与上一关键帧的差异度,若差异度大于预设值,则选取当前帧为关键帧,直至视频段的帧全部计算完毕。
以上的仅是本发明的实施例,该发明不限于此实施案例涉及的领域,方案中公知的具体结构及特性等常识在此未作过多描述,所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识,能够获知该领域中所有的现有技术,并且具有应用该日期之前常规实验手段的能力,所属领域普通技术人员可以在本申请给出的启示下,结合自身能力完善并实施本方案,一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请的障碍。应当指出,对于本领域的技术人员来说,在不脱离本发明结构的前提下,还可以作出若干变形和改进,这些也应该视为本发明的保护范围,这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准,说明书中的具体实施方式等记载可以用于解释权利要求的内容。
Claims (10)
1.一种自动驾驶视频语义分割方法,其特征在于:包括:
S100:获取待处理的视频数据;
S200:通过视频稀疏采样算法对待处理的视频数据进行关键帧提取;
S300:基于卷积神经网络构建分类模型;
S400:通过分类模型对关键帧进行语义识别分类,生成视频数据的语义分割结果。
2.根据权利要求1所述的一种自动驾驶视频语义分割方法,其特征在于:所述S100包括:
S101:采集多路视频数据;
S102:对多路视频数据进行预处理和数据融合,形成待处理视频数据。
3.根据权利要求2所述的一种自动驾驶视频语义分割方法,其特征在于:所述S200包括:
S201:通过帧差法计算视频数据中相邻两帧图像之间的差异度;
S202:根据差异度将视频数据分割为若干视频段;
S203:从每个视频段中选取若干帧图像作为关键帧。
4.根据权利要求3所述的一种自动驾驶视频语义分割方法,其特征在于:所述S203包括:
S2031:从视频段中随机选取第一个关键帧;
S2032:从第一个关键帧开始按照固定的间隔从视频段中选取帧图像作为关键帧。
5.根据权利要求4所述的一种自动驾驶视频语义分割方法,其特征在于:所述S201通过对像素的时间差分进行闭值化来提取相邻帧的差异度。
6.根据权利要求5所述的一种自动驾驶视频语义分割方法,其特征在于:所述S201包括:
S2011:将相邻帧图像对应像素值相减得到差分图像;
S2012:对差分图像进行二值化;
S2013:根据二值化后的差分图像,计算差异度。
7.根据权利要求6所述的一种自动驾驶视频语义分割方法,其特征在于:所述S300包括:
S301:建立卷积神经网络的卷积层、池化层以及全连接层;
S302:构建训练集,通过训练集对卷积神经网络进行训练。
8.根据权利要求7所述的一种自动驾驶视频语义分割方法,其特征在于:所述S301包括:
S3011:构建卷积层,卷积层采用同一化核、边缘检测核、均值模糊核、高斯滤波核、图像锐化核以及浮雕核中的一种或多种作为卷积层的特征提取器;
S3012:构建池化层,池化层的池化窗口大小根据输入图片大小以及特征提取器的大小配置,池化算法采用平均值池化、最大值池化或随机池化算法;
S3013:构建全连接层,全连接层使用了Softmax激活函数作为分类器。
9.根据权利要求8所述的一种自动驾驶视频语义分割方法,其特征在于:S400包括:
S401:通过分类模型对关键帧进行语义识别,生成各个分类的概率;
S402:根据各个分类的概率,将关键帧语义分类至概率最大的分类中;
S403:根据各个关键帧的语义识别结果,对语义识别结果相同的相邻关键帧的语义识别结果进行融合;
S404:根据各个关键帧的语义识别结果对关键帧对应的视频段进行语义标注,形成语义分割结果。
10.一种自动驾驶视频语义分割系统,其特征在于:使用了如权利要求1-9中任一项所述的自动驾驶视频语义分割方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011373273.2A CN112364822B (zh) | 2020-11-30 | 2020-11-30 | 一种自动驾驶视频语义分割系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011373273.2A CN112364822B (zh) | 2020-11-30 | 2020-11-30 | 一种自动驾驶视频语义分割系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112364822A true CN112364822A (zh) | 2021-02-12 |
CN112364822B CN112364822B (zh) | 2022-08-19 |
Family
ID=74536602
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011373273.2A Active CN112364822B (zh) | 2020-11-30 | 2020-11-30 | 一种自动驾驶视频语义分割系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112364822B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018104563A2 (en) * | 2016-12-09 | 2018-06-14 | Tomtom Global Content B.V. | Method and system for video-based positioning and mapping |
CN109919044A (zh) * | 2019-02-18 | 2019-06-21 | 清华大学 | 基于预测进行特征传播的视频语义分割方法及装置 |
CN110111335A (zh) * | 2019-05-08 | 2019-08-09 | 南昌航空大学 | 一种自适应对抗学习的城市交通场景语义分割方法及系统 |
CN110147763A (zh) * | 2019-05-20 | 2019-08-20 | 哈尔滨工业大学 | 基于卷积神经网络的视频语义分割方法 |
WO2019228211A1 (zh) * | 2018-05-31 | 2019-12-05 | 上海商汤智能科技有限公司 | 基于车道线的智能驾驶控制方法和装置、电子设备 |
CN110796662A (zh) * | 2019-09-11 | 2020-02-14 | 浙江大学 | 一种实时的语义视频分割方法 |
CN110956219A (zh) * | 2019-12-09 | 2020-04-03 | 北京迈格威科技有限公司 | 视频数据的处理方法、装置和电子系统 |
CN111062395A (zh) * | 2019-11-27 | 2020-04-24 | 北京理工大学 | 一种实时的视频语义分割方法 |
CN111523442A (zh) * | 2020-04-21 | 2020-08-11 | 东南大学 | 视频语义分割中的自适应关键帧选择方法 |
-
2020
- 2020-11-30 CN CN202011373273.2A patent/CN112364822B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018104563A2 (en) * | 2016-12-09 | 2018-06-14 | Tomtom Global Content B.V. | Method and system for video-based positioning and mapping |
WO2019228211A1 (zh) * | 2018-05-31 | 2019-12-05 | 上海商汤智能科技有限公司 | 基于车道线的智能驾驶控制方法和装置、电子设备 |
CN109919044A (zh) * | 2019-02-18 | 2019-06-21 | 清华大学 | 基于预测进行特征传播的视频语义分割方法及装置 |
CN110111335A (zh) * | 2019-05-08 | 2019-08-09 | 南昌航空大学 | 一种自适应对抗学习的城市交通场景语义分割方法及系统 |
CN110147763A (zh) * | 2019-05-20 | 2019-08-20 | 哈尔滨工业大学 | 基于卷积神经网络的视频语义分割方法 |
CN110796662A (zh) * | 2019-09-11 | 2020-02-14 | 浙江大学 | 一种实时的语义视频分割方法 |
CN111062395A (zh) * | 2019-11-27 | 2020-04-24 | 北京理工大学 | 一种实时的视频语义分割方法 |
CN110956219A (zh) * | 2019-12-09 | 2020-04-03 | 北京迈格威科技有限公司 | 视频数据的处理方法、装置和电子系统 |
CN111523442A (zh) * | 2020-04-21 | 2020-08-11 | 东南大学 | 视频语义分割中的自适应关键帧选择方法 |
Non-Patent Citations (3)
Title |
---|
WENQI REN等: "Deep Video Dehazing With Semantic Segmentation", 《IEEE TRANSACTIONS ON IMAGE PROCESSING》 * |
樊如愿: "基于深度卷积神经网络的视频语义分割方法研究", 《CNKI优秀硕士学位论文全文库 工程科技Ⅱ辑》 * |
王蒲: "自动驾驶中的视频语义分割技术研究", 《CNKI优秀硕士学位论文全文库 工程科技Ⅱ辑》 * |
Also Published As
Publication number | Publication date |
---|---|
CN112364822B (zh) | 2022-08-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111368687B (zh) | 一种基于目标检测和语义分割的人行道车辆违停检测方法 | |
CN109977812B (zh) | 一种基于深度学习的车载视频目标检测方法 | |
CN108694386B (zh) | 一种基于并联卷积神经网络的车道线检测方法 | |
Abdullah et al. | YOLO-based three-stage network for Bangla license plate recognition in Dhaka metropolitan city | |
CN106600560A (zh) | 一种适用于行车记录仪的图像去雾方法 | |
CN111160205B (zh) | 一种交通场景嵌入式多类目标端对端统一检测方法 | |
CN112990065B (zh) | 一种基于优化的YOLOv5模型的车辆分类检测方法 | |
CN110310241A (zh) | 一种融合深度区域分割的多大气光值交通图像去雾方法 | |
CN113723377A (zh) | 一种基于ld-ssd网络的交通标志检测方法 | |
CN114693924A (zh) | 一种基于多模型融合的道路场景语义分割方法 | |
CN111008574A (zh) | 一种基于形体识别技术的重点人员轨迹分析方法 | |
CN112766056A (zh) | 一种基于深度神经网络的弱光环境车道线检测方法、装置 | |
CN112784834A (zh) | 一种自然场景下的车牌自动识别方法 | |
CN116597270A (zh) | 基于注意力机制集成学习网络的道路损毁目标检测方法 | |
CN114937248A (zh) | 用于跨相机的车辆跟踪方法、装置、电子设备、存储介质 | |
CN114255450A (zh) | 一种基于前向全景图像的近场车辆加塞行为预测方法 | |
CN111160282B (zh) | 一种基于二值化Yolov3网络的红绿灯检测方法 | |
CN112785610B (zh) | 一种融合低层特征的车道线语义分割方法 | |
CN111160274B (zh) | 一种基于二值化Faster RCNN网络的行人检测方法 | |
CN112396637A (zh) | 一种基于3d神经网络的动态行为识别方法及系统 | |
CN112700653A (zh) | 一种车辆违法变道的判定方法、装置、设备及存储介质 | |
CN112364822B (zh) | 一种自动驾驶视频语义分割系统及方法 | |
bin Che Mansor et al. | Emergency vehicle type classification using convolutional neural network | |
CN116977995A (zh) | 一种车载前方车牌识别方法及系统 | |
Zhao et al. | Research on vehicle detection and vehicle type recognition under cloud computer vision |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |