CN110147763B - 基于卷积神经网络的视频语义分割方法 - Google Patents
基于卷积神经网络的视频语义分割方法 Download PDFInfo
- Publication number
- CN110147763B CN110147763B CN201910420733.3A CN201910420733A CN110147763B CN 110147763 B CN110147763 B CN 110147763B CN 201910420733 A CN201910420733 A CN 201910420733A CN 110147763 B CN110147763 B CN 110147763B
- Authority
- CN
- China
- Prior art keywords
- network
- semantic segmentation
- branch
- video semantic
- loss function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
基于卷积神经网络的视频语义分割方法,属于自动驾驶技术领域。为了解决现有自动驾驶领域对实时的目标分割处理速度过慢的问题。本发明将卷积神经网络模型应用到视频语义分割中,并采用注意力机制和深度可分离卷积,构建W形网络,并在W形网络的基础上利用帧间相关信息,结合光流场的特征聚合算法,来实现不同帧之间的特征传播,进一步提升视频语义分割的速度,大大降低分割所需要的时间。本发明用于视频语义分割。
Description
技术领域
本发明属于自动驾驶技术领域,具体涉及自动驾驶过程中目标的实时视频语义分割方法。
背景技术
语义分割就是根据每个像素的语义信息进行分割,同一语义的像素被赋予相同的颜色,既能够分割成不同区域,又能识别出其中的内容,而视频语义分割是指对视频中的每一帧都进行上述的语义分割操作。从20世纪70年代开始,美国、英国、德国等发达国家开始进行无人驾驶汽车的研究,中国从20世纪80年代也开始进行无人驾驶汽车的研究,无人车发展到现在在可行性和实用化方面都取得了突破性的进展,其对于汽车行业甚至是交通运输业有着深远的影响。视觉传感器是无人驾驶环境感知最重要的传感器之一,视觉传感器价格低廉,同时可以获取大量信息。利用视觉传感器可以获取图像信息,图像的语义分割是计算机视觉中重要的基本问题之一,其目的是对图像的每个像素点进行分类,将图像分割为若干个视觉上有意义的或感兴趣的区域,以利于后续的图像分析和视觉理解,这将非常适合自动驾驶的场景,在自动驾驶中,语义分割可以用来识别交通标志,车道线和障碍物,所以利用视觉传感器在对驾驶过程中的场景自动地进行理解和语义分割的研究在学术界,工业界都有着十分重要的意义。
通常来说视觉传感器获取图像视频信号的过程对效率的要求非常高,因为视频的数据量非常庞大,假设一秒钟视频有24帧,则一分钟包含1500帧,相当于一个中型数据库,用传统处理图像的方式处理视频并不合适。该研究领域普遍关注的是分割像素级的准确率,并没有考虑实际运用时候的实时性,但是自动驾驶领域,对紧急情况做出及时的处理至关重要。另一方面在视频信息中,帧与帧之间具有很强时间上下文信息,利用帧与帧间的大量相关信息,一方面可以加速模型,另一方面可以提高模型的精度。
发明内容
本发明的目的为了解决现有自动驾驶领域对实时的目标分割处理速度过慢的缺点,而提出一种基于卷积神经网络的视频语义分割方法。
基于卷积神经网络的视频语义分割方法,包括以下步骤:
步骤一:构建基于注意力机制的W形网络模型,W形网络模型包括两条支路:
一条支路由图像输入经过3次卷积进行下采样得到八分之一原图像精度的特征图;
另外一条支路通过Xception模块或者ResNet模块进行深度下采样,分别得到16倍和32倍下采样特征图,将两个下采样特征图进行通道注意力模型处理后,分别进行2倍、4倍的双线性插值上采样得到两个八分之一原图像精度的特征图;将该支路下的2倍、4倍的双线性插值上采样作为两个子支路,分为记为第2支路和第3支路;
之后所有支路得到的八分之一原图像精度的特征图通过特征拼接、卷积、批标准化、ReLU激活融合后再次经过通过通道注意力模块得到深层特征;然后经过8倍的双线性插值上采样最终得到与原图像尺寸一致的语义分割结果;
步骤二:在W形网络的基础上,利用光流场算法对帧与帧之间的特征进行传播和融合;
步骤三:将选取的数据集中的样本输入到整体网络进行视频语义分割训练和测试,得到训练好的基于卷积神经网络的视频语义分割模型;
利用训练好的基于卷积神经网络的视频语义分割模型进行视频语义分割。
进一步地,所述步骤二中在W形网络的基础上,构建光流场算法对帧与帧之间的特征进行传播和融合的过程如下:
采用深度特征流算法,仅在稀疏的关键帧上运行深度卷积网络,并通过光流场将它们的深度特征图传输到其他帧;
将W形网络分成两部分,一个是前端子网络Wlow,即W形网络的除去最后一层的前层网络;另一个是末端子网络Whigh,即W形网络的最后一层;
在关键帧上运行深度卷积网络,即W形网络,通过输入深层特征,输出语义分割结果;
非关键帧不运行整个深度卷积网络,而是利用当前帧图像和关键帧图像,通过Flownet计算出两帧图像间的光流场信息,然后通过光流场和关键帧提取的特征输入,通过双线性插值输出关键帧传播到当前帧的特征。
进一步地,所述一条支路由图像输入经过3次卷积进行下采样得到八分之一原图像精度的特征图具体过程如下:
图像首先通过conv+bn+relu处理来实现2倍下采样,
然后再通过conv+bn+relu处理实现2倍下采样,得到4倍下采样的特征图;
然后再通过上述操作进行2倍下采样,得到八分之一原图像精度的特征图。
进一步地,所述通道注意力模型如下:
输入特征图经过全局池化和1×1卷积之后变成元素数量为通道数的一维向量,接着经过Batch Norm和Sigmoid激活函数输出数值范围为(0,1)的一维向量,一维向量中的元素对输入特征图进行加权后的输出作为通道注意力模块的最终输出结果。
进一步地,所述进行视频语义分割训练过程中,具体损失函数式如下所示:
其中lp(X;W)为主损失函数,X为主支路经过8倍上采样后得到的最后的分割图像,W为原始真实的参考图像;li(Xi;W)为辅助损失函数,i为第i条支路,i=2、3即表示所述的第2支路和第3支路;Xi为第i条支路经过上采样得到的最后的分割图像;α为权重系数;
主损失函数lp监督整个W形网络模型的输出,两个特殊的辅助损失函数li分别监督提取16倍和32倍下采样整体特征信息的网络的输出,借助参数α以平衡主损失函数和辅助损失函数的权重;
网络的输出结果用Softmax表示,主损失函数和辅助损失函数都使用交叉熵损失函数,如下式所示:
其中N为选取的训练样本的总个数,k代表训练时选取的第k个样本,j为数据集的类别数目;pk表示第k个样本的概率,pk表示第j类的概率。
本发明的有益效果为:
本发明设计了针对视频语义分割的基于注意力机制的U形网络和W形网络,利用该两者模型来实现对图像的语义分割,然后在W形网络的基础上,进一步的利用帧间相关信息,结合光流场的特征聚合算法融合视频序列中不同帧之间的相关性,构建新的光流场模型对数据进行训练,实现视频语义分割的加速,大大降低分割所需要的时间。此方法与原有方法相比,不仅分割精度进一步提高,处理时间也得到大幅度的降低。与目前最先进的视频语义分割方法相比,保持在未大幅度降低分割精度的基准下,进一步的提高分割的实时性和处理速度。
附图说明
图1为基于卷积神经网络的视频语义分割方法原理框图;
图2为通道注意力模块结构图;
图3为基于通道注意力机制的W形网络结构流程图;
图4为基于光流的视频语义分割示意图;
图5(a)是传统的未经过光流场传播的视频分割方法(不区分关键帧和非关键帧),图5(b)显示的为光流场传播的视频分割方法。
具体实施方式
具体实施方式一:结合图1说明本实施方式,
基于卷积神经网络的视频语义分割方法,包括以下步骤:
步骤一:构建基于注意力机制的W形网络模型,整个模型结构由两条支路构成,可以同时识别整体信息和细节信息。
如图3所示,W形网络模型包括两条支路:
一条支路由图像输入经过3次卷积进行下采样得到八分之一原图像精度的特征图,尽可能保留原图的细节信息;
另外一条支路通过Xception模块或者ResNet模块进行深度下采样,扩大感受野,分别得到16倍和32倍下采样特征图,将两个下采样特征图进行通道注意力模型处理后,分别进行2倍、4倍的双线性插值上采样得到两个八分之一原图像精度的特征图;将该支路下的2倍、4倍的双线性插值上采样作为两个子支路,分为记为第2支路和第3支路;
之后所有支路得到的八分之一原图像精度的特征图通过特征拼接、卷积、批标准化、ReLU激活融合后再次经过通过通道注意力模块得到既包含整体信息、又包含细节信息的深层特征;然后经过8倍的双线性插值上采样最终得到与原图像尺寸一致的语义分割结果。
步骤二:在W形网络的基础上,利用光流场算法对帧与帧之间的特征进行传播和融合。此算法采用了深度特征流算法,仅在稀疏的关键帧上运行计算量极大的深度卷积网络,并通过流场将它们的深度特征图传输到其他帧。
步骤三:将选取的数据集中的样本输入到整体网络进行视频语义分割训练和测试,得到训练好的基于卷积神经网络的视频语义分割模型。在本次实验中,选取的对模型进行训练和测试的数据集为Camvid数据集,将数据集随机分为训练集,交叉验证集和测试集,来完成实验的训练和测试。
利用训练好的基于卷积神经网络的视频语义分割模型进行视频语义分割。
本发明主要利用深度卷积神经网络对特征强大的提取能力,设计了针对视频语义分割的基于注意力机制的W形网络,然后在W形网络的基础上,进一步的利用帧间相关信息,结合光流场的特征聚合算法融合视频序列中不同帧之间的相关性,构建新的光流场模型对数据进行训练,实现视频语义分割的加速,大大降低分割所需要的时间。
具体实施方式二:
本实施方式所述步骤二中在W形网络的基础上,构建光流场算法对帧与帧之间的特征进行传播和融合的过程如下:
采用深度特征流算法,该算法结合了特征之间的传播对应关系,仅在稀疏的关键帧上运行计算量极大的深度卷积网络,并通过光流场将它们的深度特征图传输到其他帧。由于光流计算方法对比整个深度卷积网络计算量较少,运行速度较快,所以算法得到了明显的加速。其中光流场的计算也是采用卷积神经网络模型,因此整个框架实现了端到端的训练,进而提高识别精度。由于中间卷积特征图与输入图像拥有相同的空间大小,它们保留了低级图像内容与中高级语义内容之间的空间对应关系,这种对应关系通过空间形变给附近帧之间的特征传播提供了机会,如图4所示。两个中间特征图分别对应“汽车”和“人”。它们在两个相邻帧上是相似的。从关键帧传播到当前帧之后,传播的特征与原始特征相似。
将W形网络分成两部分,一个是前端子网络Wlow,即W形网络的除去最后一层的前层网络;另一个是末端子网络Whigh,即W形网络的最后一层;
更进一步,光流算法的具体流程如图5(b)所示,图5(a)是传统的未经过光流场传播的视频分割方法(不区分关键帧和非关键帧),图5(b)显示的为光流场传播的视频分割方法,如图5(b)中左侧关键帧所示,在关键帧上运行计算量极大的深度卷积网络,即W形网络,其中Wlow是W形网络结构的前端子网络,它的计算量极大,用来提出图像中的深层特征,Whigh是W形网络结构的末端子网络,是一个相对轻型的子网络,通过输入深层特征,输出语义分割结果。图5(b)中的非关键帧不运行整个计算量极大的深度卷积网络,而是利用当前帧图像和关键帧图像,通过Flownet计算出两帧图像间的光流场信息,然后通过光流场和关键帧提取的特征输入,通过双线性插值输出关键帧传播到当前帧的特征。Flownet即帧之间的光流特征对应关系,可以由不同帧之间的特征训练得到。光流场也由网络进行估计时,整个网络架构进行端对端的训练,为识别任务同时优化图像识别网络和光流网络,最后使得识别准确性得到显著提升。
其它步骤及参数与具体实施方式一相同。
具体实施方式三:
本实施方式所述一条支路由图像输入经过3次卷积进行下采样得到八分之一原图像精度的特征图具体过程如下:
图像首先通过conv+bn+relu处理来实现2倍下采样,
然后再通过conv+bn+relu处理实现2倍下采样,得到4倍下采样的特征图;
然后再通过上述操作进行2倍下采样,得到八分之一原图像精度的特征图。
其他步骤和参数与具体实施方式一或二相同。
具体实施方式四:
本实施方式所述通道注意力模型如下:
对于语义分割来讲,不同尺度的特征图有着不同的作用,较低尺度的特征图对目标的类别识别贡献比较大,较高尺度的特征图对目标边缘的细节信息的识别贡献比较大,本发明采用了通道注意力模块,具体框架如图2所示,输入特征图经过全局池化和1×1卷积之后变成元素数量为通道数的一维向量,接着经过Batch Norm和Sigmoid激活函数输出数值范围为(0,1)的一维向量,一维向量中的元素对输入特征图进行加权后的输出作为通道注意力模块的最终输出结果。
其它步骤及参数与具体实施方式一至三之一相同。
具体实施方式五:
本实施方式所述进行视频语义分割训练过程中,由于需要同时提取特征图的整体信息和细节信息,那么我们需要同时对两种信息分别进行训练,需要注意的是反向传播包含三部分,具体损失函数式如下所示:
其中lp(X;W)为主损失函数,X为主支路经过8倍上采样后得到的最后的分割图像,W为原始真实的参考图像;li(Xi;W)为辅助损失函数,i为第i条支路,i=2、3即表示所述的第2支路和第3支路;Xi为第i条支路经过上采样得到的最后的分割图像;α为权重系数;
主损失函数lp监督整个W形网络模型的输出,两个特殊的辅助损失函数li分别监督提取16倍和32倍下采样整体特征信息的网络的输出,借助参数α以平衡主损失函数和辅助损失函数的权重;
网络的输出结果用Softmax表示,主损失函数和辅助损失函数都使用交叉熵损失函数,如下式所示:
其中N为选取的训练样本的总个数,k代表训练时选取的第k个样本,j为数据集的类别数目;pk表示第k个样本的概率,pk表示第j类的概率;
所述步骤三中将选取的数据集中的样本输入到整体网络中进行视频语义分割训练和测试的具体过程如下:
选取的对模型进行训练和测试的数据集为Camvid数据集,数据集图片大小为920×720,在总共的700幅图像中,随机分为训练集,交叉验证集和测试集,其中训练集包含420张图像,交叉验证集和测试集分别包含112和168张图像。除此之外,为了进一步的减少模型计算量,加快实时的分割效率并在原始图像的基础上保证一定的分类精度,图像均为裁剪为512×512尺寸,保留了较大部分的空间信息。在视频分割实验的实验中,常用的评价指标有准确率(Accuracy),精准率(Precision),召回率(Recall),F1值,平均交并比(mIOU),每帧的处理时间(T)。通过网络输出的分割结果图与测试样本本身的标签对比可以计算出整个语义分割系统的分割精度的定量衡量,并且最终的结果可以得出每帧的处理时间。
在视频分割实验的实验中,常用的评价指标有准确率(Accuracy),精准率(Precision),召回率(Recall),F1值,平均交并比(mIOU),每帧的处理时间(T)。各个参数指标的定义分别如下:
TP(True Positive):真实为正类,预测结果为正类。
FP(False Positive):真实为负类,预测结果为正类。
TN(True Negative):真实为负类,预测结果为负类。
FN(False Negative):真实为正类,预测结果为负类。
Accuracy=(TP+TN)/(TP+TN+FP+FN)
Precision=TP/(TP+FP)
Recall=TN/(TP+FN)
F1=2*Precision*Recall/(Precision+Recall)
其它步骤及参数与具体实施方式一至四之一相同。
Claims (4)
1.基于卷积神经网络的视频语义分割方法,其特征在于,包括以下步骤:
步骤一:构建基于注意力机制的W形网络模型,W形网络模型包括两条支路:
一条支路由图像输入经过3次卷积进行下采样得到八分之一原图像精度的特征图;
另外一条支路通过Xception模块或者ResNet模块进行深度下采样,分别得到16倍和32倍下采样特征图,将两个下采样特征图进行通道注意力模型处理后,分别进行2倍、4倍的双线性插值上采样得到两个八分之一原图像精度的特征图;将该支路下的2倍、4倍的双线性插值上采样作为两个子支路,分为记为第2支路和第3支路;
之后所有支路得到的八分之一原图像精度的特征图通过特征拼接、卷积、批标准化、ReLU激活融合后再次通过通道注意力模块得到深层特征;然后经过8倍的双线性插值上采样最终得到与原图像尺寸一致的语义分割结果;
步骤二:在W形网络的基础上,利用光流场算法对帧与帧之间的特征进行传播和融合,过程如下:
采用深度特征流算法,仅在稀疏的关键帧上运行深度卷积网络,并通过光流场将它们的深度特征图传输到其他帧;
将W形网络分成两部分,一个是前端子网络Wlow,即W形网络的除去最后一层的前层网络;另一个是末端子网络Whigh,即W形网络的最后一层;
在关键帧上运行深度卷积网络,即W形网络,通过输入深层特征,输出语义分割结果;
非关键帧不运行整个深度卷积网络,而是利用当前帧图像和关键帧图像,通过Flownet计算出两帧图像间的光流场信息,然后通过光流场和关键帧提取的特征输入,通过双线性插值输出关键帧传播到当前帧的特征;
步骤三:将选取的数据集中的样本输入到整体网络进行视频语义分割训练和测试,得到训练好的基于卷积神经网络的视频语义分割模型;
利用训练好的基于卷积神经网络的视频语义分割模型进行视频语义分割。
2.根据权利要求1所述的基于卷积神经网络的视频语义分割方法,其特征在于,所述一条支路由图像输入经过3次卷积进行下采样得到八分之一原图像精度的特征图具体过程如下:
图像首先通过conv+bn+relu处理来实现2倍下采样,
然后再通过conv+bn+relu处理实现2倍下采样,得到4倍下采样的特征图;
然后再通过上述操作进行2倍下采样,得到八分之一原图像精度的特征图。
3.根据权利要求1所述的基于卷积神经网络的视频语义分割方法,其特征在于,所述通道注意力模型如下:
输入特征图经过全局池化和1×1卷积之后变成元素数量为通道数的一维向量,接着经过Batch Norm和Sigmoid激活函数输出数值范围为(0,1)的一维向量,一维向量中的元素对输入特征图进行加权后的输出作为通道注意力模块的最终输出结果。
4.根据权利要求1所述的基于卷积神经网络的视频语义分割方法,其特征在于,所述进行视频语义分割训练过程中,具体损失函数式如下所示:
其中lp(X;W)为主损失函数,X为主支路经过8倍上采样后得到的最后的分割图像,W为原始真实的参考图像;li(Xi;W)为辅助损失函数,i为第i条支路,i=2、3即表示所述的第2支路和第3支路;Xi为第i条支路经过上采样得到的最后的分割图像;α为权重系数;
主损失函数lp监督整个W形网络模型的输出,两个特殊的辅助损失函数li分别监督提取16倍和32倍下采样整体特征信息的网络的输出,借助参数α以平衡主损失函数和辅助损失函数的权重;
网络的输出结果用Softmax表示,主损失函数和辅助损失函数都使用交叉熵损失函数,如下式所示:
其中N为选取的训练样本的总个数,k代表训练时选取的第k个样本,j为数据集的类别数目;pk表示第k个样本的概率,pj表示第j类的概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910420733.3A CN110147763B (zh) | 2019-05-20 | 2019-05-20 | 基于卷积神经网络的视频语义分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910420733.3A CN110147763B (zh) | 2019-05-20 | 2019-05-20 | 基于卷积神经网络的视频语义分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110147763A CN110147763A (zh) | 2019-08-20 |
CN110147763B true CN110147763B (zh) | 2023-02-24 |
Family
ID=67592303
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910420733.3A Active CN110147763B (zh) | 2019-05-20 | 2019-05-20 | 基于卷积神经网络的视频语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110147763B (zh) |
Families Citing this family (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110765845B (zh) * | 2019-09-04 | 2023-08-22 | 江苏大学 | 一种基于视频的行为识别方法 |
CN112465826B (zh) * | 2019-09-06 | 2023-05-16 | 上海高德威智能交通系统有限公司 | 视频语义分割方法及装置 |
CN110717336A (zh) * | 2019-09-23 | 2020-01-21 | 华南理工大学 | 基于语义相关度预测和注意力解码的场景文本识别方法 |
CN110866938B (zh) * | 2019-11-21 | 2021-04-27 | 北京理工大学 | 一种全自动视频运动目标分割方法 |
CN111062395B (zh) * | 2019-11-27 | 2020-12-18 | 北京理工大学 | 一种实时的视频语义分割方法 |
CN111435437A (zh) * | 2019-12-26 | 2020-07-21 | 珠海大横琴科技发展有限公司 | 一种pcb行人重识别模型训练方法及pcb行人重识别方法 |
CN111191626B (zh) * | 2020-01-02 | 2021-01-01 | 北京航空航天大学 | 一种多类别交通工具的精细识别方法 |
CN111325093A (zh) * | 2020-01-15 | 2020-06-23 | 北京字节跳动网络技术有限公司 | 视频分割方法、装置及电子设备 |
CN111310594B (zh) * | 2020-01-20 | 2023-04-28 | 浙江大学 | 一种基于残差纠正的视频语义分割方法 |
CN111291663B (zh) * | 2020-01-22 | 2023-06-20 | 中山大学 | 一种利用时空信息的快速视频目标物体分割方法 |
CN111462126B (zh) * | 2020-04-08 | 2022-10-11 | 武汉大学 | 一种基于边缘增强的语义图像分割方法及系统 |
CN111462127A (zh) * | 2020-04-20 | 2020-07-28 | 武汉大学 | 一种面向自动驾驶的实时语义分割方法及系统 |
CN111523442B (zh) * | 2020-04-21 | 2023-05-23 | 东南大学 | 视频语义分割中的自适应关键帧选择方法 |
CN111611879A (zh) * | 2020-04-30 | 2020-09-01 | 杭州电子科技大学 | 一种基于空间逐点注意力机制的场景解析方法 |
CN111652081B (zh) * | 2020-05-13 | 2022-08-05 | 电子科技大学 | 一种基于光流特征融合的视频语义分割方法 |
CN111832453B (zh) * | 2020-06-30 | 2023-10-27 | 杭州电子科技大学 | 基于双路深度神经网络的无人驾驶场景实时语义分割方法 |
CN112132884B (zh) * | 2020-09-29 | 2023-05-05 | 中国海洋大学 | 基于平行激光和语义分割的海参长度测量方法及系统 |
CN112364822B (zh) * | 2020-11-30 | 2022-08-19 | 重庆电子工程职业学院 | 一种自动驾驶视频语义分割系统及方法 |
CN112597825A (zh) * | 2020-12-07 | 2021-04-02 | 深延科技(北京)有限公司 | 驾驶场景分割方法、装置、电子设备和存储介质 |
CN112529931B (zh) * | 2020-12-23 | 2024-04-12 | 南京航空航天大学 | 一种前景分割的方法及系统 |
CN112862839B (zh) * | 2021-02-24 | 2022-12-23 | 清华大学 | 一种地图要素语义分割鲁棒性增强方法和系统 |
CN113221951B (zh) * | 2021-04-13 | 2023-02-17 | 天津大学 | 一种基于时域注意力池化网络的动图分类方法及装置 |
CN113473040A (zh) * | 2021-06-29 | 2021-10-01 | 北京紫光展锐通信技术有限公司 | 视频分割方法和设备 |
CN113570607B (zh) * | 2021-06-30 | 2024-02-06 | 北京百度网讯科技有限公司 | 目标分割的方法、装置及电子设备 |
CN113780078B (zh) * | 2021-08-05 | 2024-03-19 | 广州西威科智能科技有限公司 | 无人驾驶视觉导航中故障物快速精准识别方法 |
CN113888758B (zh) * | 2021-09-01 | 2022-05-24 | 北京数美时代科技有限公司 | 一种基于复杂场景中的弯曲文字识别方法和系统 |
CN117438024B (zh) * | 2023-12-15 | 2024-03-08 | 吉林大学 | 急诊病人体征数据的智能采集分析系统及方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107808389A (zh) * | 2017-10-24 | 2018-03-16 | 上海交通大学 | 基于深度学习的无监督视频分割方法 |
CN109101975A (zh) * | 2018-08-20 | 2018-12-28 | 电子科技大学 | 基于全卷积神经网络的图像语义分割方法 |
CN109753913A (zh) * | 2018-12-28 | 2019-05-14 | 东南大学 | 计算高效的多模式视频语义分割方法 |
-
2019
- 2019-05-20 CN CN201910420733.3A patent/CN110147763B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107808389A (zh) * | 2017-10-24 | 2018-03-16 | 上海交通大学 | 基于深度学习的无监督视频分割方法 |
CN109101975A (zh) * | 2018-08-20 | 2018-12-28 | 电子科技大学 | 基于全卷积神经网络的图像语义分割方法 |
CN109753913A (zh) * | 2018-12-28 | 2019-05-14 | 东南大学 | 计算高效的多模式视频语义分割方法 |
Non-Patent Citations (3)
Title |
---|
W-Net: A Deep Model for Fully Unsupervised Image Segmentation;Xide Xia等;《arXiv preprint arXiv:1711.08506》;20171231;第4321-4333页 * |
卷积神经网络在目标检测中的应用综述;于进勇 等;《计算机科学》;20181130;第45卷(第11A期);第17-26页 * |
基于卷积神经网络的语义分割研究;陈智;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190115;第I138-2635页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110147763A (zh) | 2019-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110147763B (zh) | 基于卷积神经网络的视频语义分割方法 | |
CN109993082B (zh) | 卷积神经网络道路场景分类与道路分割方法 | |
CN111598095A (zh) | 一种基于深度学习的城市道路场景语义分割方法 | |
CN113436169B (zh) | 一种基于半监督语义分割的工业设备表面裂纹检测方法及系统 | |
CN113033604B (zh) | 一种基于SF-YOLOv4网络模型的车辆检测方法、系统及存储介质 | |
CN111415533B (zh) | 弯道安全预警监控方法、装置以及系统 | |
CN113139470A (zh) | 一种基于Transformer的玻璃识别方法 | |
CN113688836A (zh) | 一种基于深度学习的实时性道路图像语义分割方法及系统 | |
CN110659601B (zh) | 基于中心点的深度全卷积网络遥感图像密集车辆检测方法 | |
CN116485717B (zh) | 一种基于像素级深度学习的混凝土坝表面裂缝检测方法 | |
CN112633149A (zh) | 一种域自适应雾天图像目标检测方法和装置 | |
CN112990065A (zh) | 一种基于优化的YOLOv5模型的车辆分类检测方法 | |
CN113723377A (zh) | 一种基于ld-ssd网络的交通标志检测方法 | |
CN110276378A (zh) | 基于无人驾驶技术对实例分割的改进方法 | |
CN114913498A (zh) | 一种基于关键点估计的并行多尺度特征聚合车道线检测方法 | |
CN113298817A (zh) | 一种准确率高的遥感图像语义分割方法 | |
CN116071747A (zh) | 一种基于3d点云数据和2d图像数据融合匹配语义分割方法 | |
CN113361528B (zh) | 一种多尺度目标检测方法及系统 | |
CN115115917A (zh) | 基于注意力机制和图像特征融合的3d点云目标检测方法 | |
CN114973199A (zh) | 一种基于卷积神经网络的轨道交通列车障碍物检测方法 | |
CN114495050A (zh) | 一种面向自动驾驶前向视觉检测的多任务集成检测方法 | |
CN111832463A (zh) | 一种基于深度学习的交通标志检测方法 | |
CN116434188A (zh) | 基于improved_yolov5s网络的交通标志检测方法 | |
CN113536973B (zh) | 一种基于显著性的交通标志检测方法 | |
CN112446292B (zh) | 一种2d图像显著目标检测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: He Shengyang Inventor after: Ren Guanghui Inventor after: Fan Ruyuan Inventor after: Xiong Along Inventor after: Wei Junjie Inventor before: Ren Guanghui Inventor before: Fan Ruyuan Inventor before: He Shengyang Inventor before: Xiong Along Inventor before: Wei Junjie |
|
GR01 | Patent grant | ||
GR01 | Patent grant |