CN112396637A - 一种基于3d神经网络的动态行为识别方法及系统 - Google Patents
一种基于3d神经网络的动态行为识别方法及系统 Download PDFInfo
- Publication number
- CN112396637A CN112396637A CN202110069096.7A CN202110069096A CN112396637A CN 112396637 A CN112396637 A CN 112396637A CN 202110069096 A CN202110069096 A CN 202110069096A CN 112396637 A CN112396637 A CN 112396637A
- Authority
- CN
- China
- Prior art keywords
- information
- image
- representing
- neural network
- convolution kernel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 50
- 238000012549 training Methods 0.000 claims abstract description 21
- 238000012545 processing Methods 0.000 claims abstract description 15
- 230000009471 action Effects 0.000 claims abstract description 8
- 108091006146 Channels Proteins 0.000 claims description 48
- 230000006399 behavior Effects 0.000 claims description 46
- 230000006870 function Effects 0.000 claims description 30
- 150000001875 compounds Chemical class 0.000 claims description 23
- 230000008569 process Effects 0.000 claims description 22
- 238000000605 extraction Methods 0.000 claims description 20
- 230000010365 information processing Effects 0.000 claims description 18
- 238000011084 recovery Methods 0.000 claims description 18
- 238000013507 mapping Methods 0.000 claims description 13
- 238000007781 pre-processing Methods 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30248—Vehicle exterior or interior
- G06T2207/30252—Vehicle exterior; Vicinity of vehicle
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明实施例提出了一种基于3D神经网络的动态行为识别方法及系统,包括:步骤一、实时获取行人动态信息;步骤二、构建神经网络,接收步骤一中的动态信息并提取行为特征;步骤三、根据神经网络分配结果,预测行人接下来的动作;步骤四、根据预测结果,发出警示指令,辅助驾驶员做出正确判断。本发明中进行行人动态行为识别的神经网络采用3D神经网络,通过时间维度的引入以及训练集针对错帧的处理,提高行人行为的准确预测,且本发明使用的3D神经网络以普通3D神经网络为基础,并将卷积核拆分为空间域和时间域两种卷积核,同时引入残差网络优化网络结构,达到减少参数设置的目的。
Description
技术领域
本发明涉及一种基于3D神经网络的动态行为识别方法及系统,特别是G06T图像处理或产生技术领域。
背景技术
随着深度学习的兴起,针对真实场景中的目标识别、人体行为分析在图像识别领域有了较大的推广,其中卷积神经网络在图像特征提取上拥有突出的表现。
然而现有技术中,基于卷积神经网络的特征提取都是针对单张图片进行二维图像的卷积操作,而人体行为多为一系列连贯动作,即每相邻视频帧都有动作关联,单一的2D卷积操作忽略了视频流信息,因此在行为识别领域难以达到较高的准确率。
发明内容
发明目的:一个目的是提出一种基于3D神经网络的动态行为识别方法,以解决现有技术存在的上述问题。进一步目的是提出一种基于3D神经网络的动态行为识别系统。本发明实施例在进行行人动态行为预测的过程中,通过对数据集的预先处理和网络识别模型的结构优化,实现预测结果准确率的提升,以及避免信息冗余。
第一方面,提供了一种基于3D神经网络的动态行为识别方法,该方法包括:
实时获取行人动态图像信息;
构建网络识别模型,并利用网络识别模型提取动态图像信息的特征信息;
网络识别模型根据特征信息进行行为预测,并输出预测结果;
车载预警设备根据预测结果,发出警示指令,辅助驾驶员做出判断。
在第一方面的一些可实现方式中,获取行人动态图像信息进一步为:在车辆行驶过程中,通过车载预警设备的车载摄像头实时获取路边行人的动态图像信息,并以视频流的数据格式,发送至网络识别模型进行动态图像信息的特征信息提取。
在第一方面的一些可实现方式中,网络识别模型进一步为在3D神经网络中引入残差网络,其中,3D神经网络中的3D卷积核进一步划分为空间域卷积核、时间域卷积核。其中,空间域卷积核用于获取动态图像信息的空间特征信息;时间域卷积核用于获取动态图像信息的时空特征信息。
在第一方面的一些可实现方式中,残差网络结构为:
在第一方面的一些可实现方式中,提取动态图像信息的特征信息流程进一步为:
网络识别模型接收动态图像信息;其中,动态图像信息具体为连续的视频帧图像;
根据接收到的动态图像信息,对动态图像信息进行图像处理;
网络识别模型的卷积核,对经过图像处理后的动态图像信息进行特征信息的提取。
在第一方面的一些可实现方式中,图像处理进一步为:对所述连续的视频帧图像进行硬连线核处理,且每帧图像提取5个通道的信息,分别为灰度图、横坐标梯度图、纵坐标梯度图、x 方向光流图、y 方向光流图,同时在通道信息提取前进行图像增强操作;
在第一方面的一些可实现方式中,图像增强过程中,通过色彩恢复因子减少因噪声增强呈现动态图像信息局部细节失真的现象,即:
式中,表示图像增强后的输出图像,表示第i个通道的原始动态图像信息,表示第i个通道的中心环绕函数,K表示高斯中心环绕函数的个数,表示常数权重,表示第i个通道的图像,表示颜色空间的映射函数,表示第i个通道的彩色恢复因子,即:
在第一方面的一些可实现方式中,网络识别模型提取动态图像信息的特征信息时,利用卷积层进行提取,即:
式中,表示第i层第j个特征映射中坐标为位置处的卷积结果;表示激活函数;表示特征映射的偏差;表示第层中特征映射的索引;表示第k个特征映射位置在处的值;表示卷积核的宽度;表示卷积核的高度;表示卷积核的深度。
在第一方面的一些可实现方式中,网络识别模型由输入层、3D卷积层、步长为S的3D卷积层和输出层构成;3D卷积层通过卷积核对上一层输出的特征数据做卷积操作并将输出值作为下一层的输入。其中,3D卷积层中引入残差网络用于降低网络识别模型学习的难度,从而优化网络结构,减少参数设置。
在第一方面的一些可实现方式中,为提高所述网络识别模型的训练精度进一步在模型学习训练过程中,对所述动态图像信息的视频帧顺序进行错帧识别。其中,针对错帧识别方式,在训练识别错帧的过程中,构建多分支体系机构,采集N组包含20帧且有序的视频序列,,同时再一次采集一次视频序列用于作为筛选训练,并随机置于所有序列中的任一位置。
第二方面,提供了一种基于3D神经网络的动态行为识别系统,该系统包括:信息采集模块、信息处理模块、信息输出模块、预警警示模块。
在第二方面的一些可实现方式中,信息采集模块用于实时获取行人的动态图像信息;信息处理模块用于对行人的动态图像信息进行图像特征提取以及行为预测;信息输出模块用于输出信息处理模块获得的行为预测结果;预警警示模块包括车载预警设备,用于根据行为预测结果发出对应预测预警警示信息,辅助驾驶员做出正确判断。
在第二方面的一些可实现方式中,信息采集模块包括车载摄像头,其中,车载摄像头内嵌于车载预警设备中,用于在车辆行驶过程中实时获取路边行人的动态图像信息,并以视频流的数据格式,发送至信息处理模块。
在第二方面的一些可实现方式中,信息处理模块包括图像预处理模块、图像特征提取模块、图像分类模块。其中,图像预处理模块进一步对行人的动态图像信息进行硬连线核处理,且每帧图像提取5个通道的信息,分别为灰度图、横坐标梯度图、纵坐标梯度图、x方向光流图、y 方向光流图,同时在通道信息提取前进行图像增强操作。
在第二方面的一些可实现方式中,图像增强过程中,通过色彩恢复因子减少因噪声增强呈现动态图像信息局部细节失真的现象,即:
式中,表示图像增强后的输出图像,表示第i个通道的原始动态图像信息,表示第i个通道的中心环绕函数,K表示高斯中心环绕函数的个数,表示常数权重,表示第i个通道的图像,表示颜色空间的映射函数,表示第i个通道的彩色恢复因子,即:
在第二方面的一些可实现方式中,信息处理模块中的图像特征提取模块用于对行人的动态图像信息进行动态图像特征信息的提取;其中,动态图像信息的特征信息包括空间特征信息、时空特征信息。
在第二方面的一些可实现方式中,提取动态图像信息的特征信息时,利用卷积层进行提取,即:
式中,表示第i层第j个特征映射中坐标为位置处的卷积结果;表示激活函数;表示特征映射的偏差;表示第层中特征映射的索引;表示第k个特征映射位置在处的值;表示卷积核的宽度;表示卷积核的高度;表示卷积核的深度。
在第二方面的一些可实现方式中,卷积层由为3D神经网络中的3D卷积核构成。其中,3D神经网络中的3D卷积核进一步划分为空间域卷积核、时间域卷积核。空间域卷积核用于获取空间特征信息;时间域卷积核用于获取时空特征信息;其中,3D神经网络由输入层、3D卷积层、步长为S的3D卷积层和输出层构成。
在第二方面的一些可实现方式中,3D神经网络进一步在前层网络中引入残差网络;
其中,所述残差网络结构为:
在第二方面的一些可实现方式中,图像分类模块通过所述3D神经网络中的softmax层输出行人接下来发生的行为动作概率,并将概率值最大的结果作为预测结果,传输至所述信息输出模块。
有益效果:本发明提出了一种基于3D神经网络的动态行为识别方法及系统,其中,用于进行行人动态行为识别预测的神经网络采用3D神经网络,该神经网络以普通3D神经网络为基础,并将卷积核拆分为空间域和时间域两种卷积核。一方面,通过时间维度的引入以及模型训练过程中对错帧的学习,提高了模型输出结果的准确性。同时本发明采用训练模型在卷积层中引入残差网络结构,从而达到优化网络结构、减少参数设置的目的。另一方面,用步长为S的卷积层替代池化层,极大程度上有效减少了信息丢失,同时,用卷积层替代全连接层进一步减少了训练的参数,使得模型易于收敛。
附图说明
图1为本发明实施例对行人动态行为识别预测的方法流程框图。
图2为本发明实施例3D卷积核拆分示意图。
图3为本发明实施例残差网络位置示意图。
图4为本发明实施例网络结构示意图。
图5为本发明实施例系统模块框图。
具体实施方式
本发明通过一种基于3D神经网络的动态行为识别方法及系统,实现基于改进3D神经网络的行人动态行为识别及预测,从而辅助驾驶员做出判断的目的。下面通过实施例,并结合附图对本方案做进一步具体说明。
随着生活中监控视频的广泛应用,有效的视频理解技术变得尤为重要,特别是人体行为识别技术。视觉信号不但能够帮助用户观察外部时变信息,例如运动物体的姿态、表情;还能够帮助单个或一组移动物体的意图和心理活动变化。
人体行为识别在显示生活中有着广泛的应用,随着深度学习技术在图像领域的快速发展,相对于传统的基于人工特征方法,采用深度学习方法的模型能够自动地获取有意义的分层特征表示。
申请人认为现有技术中对人体行为识别的特征提取都是针对单张图片进行二维图像的卷积操作,而人体行为多为一系列连贯动作,即每相邻视频帧都有动作关联,单一的2D卷积操作忽略了视频流信息 ,因此在行为识别领域难以达到较高的准确率。同时,因为图像提取过程中,是对视频流的图像处理,当错在视频帧错位情况时,则会极大的降低模型输出结果的精准度,另一方面,在基于3D神经网络模型的训练过程中,由于视频流数据过于庞大,则导致3D卷积核参数设置过多,从而出现训练时间长、调参困难等缺点。
为解决现有技术中存在的缺点,本发明实施例提供了一种基于3D神经网络的动态行为识别方法及系统,下面结合附图对本发明实施例的技术方案进行描述。
如图1所示为本发明实施例对行人动态行为识别预测的方法流程框图,该方法实现的过程具体如下包括:
步骤一、实时获取行人动态图像信息,并对动态图像信息进行预处理。
在一个实施例中,在车辆行驶过程中,通过车载预警设备的车载摄像头实时获取路边行人的动态图像信息,并以视频流的数据格式,发送至网络识别模型进行动态图像信息的特征信息提取。通过视频流的数据分析可以通过一系列连贯动作图像信息,从而更精准的预测动态的行为动作。
在一个实施例中,对动态图像的预处理进一步为首先,提取视频流中预定义数量的图像帧作为特征提取的原始数据;其次,将提取出的图像帧进行尺寸的调整,使得图像帧的大小满足网络识别模型的输入尺寸;从次,将连续的视频帧图像进行硬连线核处理,且每帧图像提取5个通道的信息,分别为灰度图、横坐标梯度图、纵坐标梯度图、x 方向光流图、y方向光流图,同时在通道信息提取前进行图像增强操作;最后,输出处理后的图像帧。
在一个实施例中,图像增强过程中,虽然采用MSR算法在边缘增强、颜色恒常性以及动态范围压缩方面均可以达到平衡,从而达到可以对图像的高保真度进行保持,但是,采用MSR算法在图像增强过程中可能会由于噪声的增加,使图像的局部细节色彩失真,从而导致视觉效果变差,因此本实施例通过引入色彩恢复因子,从而减少因噪声增强呈现动态图像信息局部细节失真的现象,即:
式中,表示图像增强后的输出图像,表示第i个通道的原始动态图像信息,表示第i个通道的中心环绕函数,K表示高斯中心环绕函数的个数,表示常数权重,表示第i个通道的图像,表示颜色空间的映射函数,表示第i个通道的彩色恢复因子,即:
步骤二、构建网络识别模型,并用于提取动态图像信息的特征信息。
在提取动态图像信息的特征信息时,接收经过步骤一预处理后的图像帧,并将其输入构建的网络识别模型中进行动态图像信息的特征信息提取。
在一个实施例中,动态图像信息的特征信息进一步包括空间特征信息、时空特征信息。由于单一的2D卷积操作忽略了视频流信息,识别领域难以达到较高的准确率,因此本实施例采用基于3D卷积核的3D神经网络进行特征信息提取。相比于2D卷积神经网络,3D神经网络在参数卷积核中增加了时间维度,从而呈现模型参数倍数增加的状况,进一步导致训练时间增加和难度提高。针对上述问题,如图2所示,本实施例将3D卷积核拆分为两个卷积核,即空间域卷积核、时间域卷积核,分别从空间域和时间域进行卷积后,再融合相加。其中,空间域卷积核用于获取空间特征信息;时间域卷积核用于获取时空特征信息。为了降低网络识别模型学习的难度,加快网络模型训练和测试的运行速度,本实施例进一步在卷积过程中,引入残差网络结构,即:
式中,表示输入,表示输出,表示待训练的参数集合,表示残差函数;输入通过中间残差函数对权重和偏置参数进行学习,并将输入直接连接到输出形成残差结构。该结构在如图3所示前层网络基础上叠加残差网络,使得网络达到随深度增加而不退化的目的。
在一个实施例中,网络识别模型提取动态图像信息的特征信息时,利用卷积层进行提取,即:
式中,表示第i层第j个特征映射中坐标为位置处的卷积结果;表示激活函数;表示特征映射的偏差;表示第层中特征映射的索引;表示第k个特征映射位置在处的值;表示卷积核的宽度;表示卷积核的高度;表示卷积核的深度。其中,3D神经网络由输入层、3D卷积层、步长为S的3D卷积层和输出层构成,本实施例中如图4所示,通过步长为S的3D卷积层替代传统神经网络中的池化层,可以避免特征提取过程中的信息丢失,同时,利用3D卷积层替代传统网络中的全连接层,也进一步达到了避免信息冗余和训练参数减少的目的。
步骤三、根据特征信息,网络识别模型进行行为预测,并输出预测结果。
在一个实施例中,为了提高网络识别模型对行为预测的准确性,在模型训练过程中,进一步对图像帧出现错帧情况下的识别进行训练。针对错帧识别方式,在训练识别错帧的过程中,构建多分支体系机构,采集N组包含20帧且有序的视频序列,,同时再一次采集一次视频序列用于作为筛选训练,并随机置于所有序列中的任一位置。
对于行为预测的结果通过网络识别模型中的softmax层进行概率计算,根据输出行人接下来发生的行为动作概率,并将概率值最大的结果作为预测结果,传输至步骤四。
步骤四、车载预警设备根据所述预测结果,发出警示指令,辅助驾驶员做出判断。
在一个实施例中,车载预警设备根据步骤三输出的预测结果,判断是否需要发出警示指令,当判断出的行人动作为过马路、闯红灯等可能与本驾驶人员车辆发生危险碰撞行为的时候,发出警示指令,通过语音播报的形式告知驾驶员周边行人会做出动作,从而辅助驾驶员降低危险行为发生的可能性。
图5是本发明实施例提供的系统模块框图,如图5所示该系统包括:信息采集模块、信息处理模块、信息输出模块、预警警示模块。
其中,信息采集模块用于实时获取行人的动态图像信息;信息处理模块用于对行人的动态图像信息进行图像特征提取以及行为预测;信息输出模块用于输出信息处理模块获得的行为预测结果;预警警示模块包括车载预警设备,用于根据行为预测结果发出对应预测预警警示信息,辅助驾驶员做出正确判断。
在一些实施例中,信息采集模块包括车载摄像头,其中,车载摄像头内嵌于车载预警设备中,用于在车辆行驶过程中实时获取路边行人的动态图像信息,并以视频流的数据格式,发送至信息处理模块。
在一些实施例中,信息处理模块包括图像预处理模块、图像特征提取模块、图像分类模块。其中,图像预处理模块进一步对行人的动态图像信息进行硬连线核处理,且每帧图像提取5个通道的信息,分别为灰度图、横坐标梯度图、纵坐标梯度图、x 方向光流图、y 方向光流图,同时在通道信息提取前进行图像增强操作。
在一些实施例中,图像增强过程中,由于仅采用MSR算法会导致由于噪声的增加,使得图像的局部细节色彩失真,导致整体视觉效果变差,因此本实施例通过引入色彩恢复因子,达到减少因噪声增强呈现动态图像信息局部细节失真现象的目的,即:
式中,表示图像增强后的输出图像,表示第i个通道的原始动态图像信息,表示第i个通道的中心环绕函数,K表示高斯中心环绕函数的个数,表示常数权重,表示第i个通道的图像,表示颜色空间的映射函数,表示第i个通道的彩色恢复因子,即:
在一些实施例中,信息处理模块中的图像特征提取模块用于对行人的动态图像信息进行动态图像特征信息的提取;其中,动态图像信息的特征信息包括空间特征信息、时空特征信息。提取动态图像信息的特征信息时,利用卷积层进行提取,即:
式中,表示第i层第j个特征映射中坐标为位置处的卷积结果;表示激活函数;表示特征映射的偏差;表示第层中特征映射的索引;表示第k个特征映射位置在处的值;表示卷积核的宽度;表示卷积核的高度;表示卷积核的深度。
在一些实施例中,卷积层由为3D神经网络中的3D卷积核构成。其中,3D神经网络中的3D卷积核进一步划分为空间域卷积核、时间域卷积核。空间域卷积核用于获取空间特征信息;时间域卷积核用于获取时空特征信息。其中,3D神经网络由输入层、3D卷积层、步长为S的3D卷积层和输出层构成,本实施例中,通过步长为S的3D卷积层替代传统神经网络中的池化层,可以避免特征提取过程中的信息丢失,同时,利用3D卷积层替代传统网络中的全连接层,也进一步达到了避免信息冗余和训练参数减少的目的。
在一些实施例中,3D神经网络进一步在前层网络中引入残差网络;
其中,所述残差网络结构为:
在一些实施例中,图像分类模块通过3D神经网络中的softmax层输出行人接下来发生的行为动作概率,并将概率值最大的结果作为预测结果,传输至所述信息输出模块。
还需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本发明不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
如上所述,尽管参照特定的优选实施例已经表示和表述了本发明,但其不得解释为对本发明自身的限制,比如在其他动态行为识别过程中,亦可采用上述方法,不局限于路边的行人。在不脱离所附权利要求定义的本发明的精神和范围前提下,可对其在形式上和细节上做出各种变化。
Claims (10)
1.一种基于3D神经网络的动态行为识别方法,其特征在于,包括以下步骤:
车载预警设备实时获取行人动态图像信息;
构建网络识别模型;所述网络识别模型用于提取所述动态图像信息的特征信息;
所述网络识别模型根据所述特征信息进行行为预测,并输出预测结果至所述车载预警设备中;
车载预警设备根据所述预测结果,发出警示指令,辅助驾驶员做出判断。
2.根据权利要求1所述的一种基于3D神经网络的动态行为识别方法,其特征在于,所述获取行人动态图像信息进一步为:
在车辆行驶过程中,通过所述车载预警设备的车载摄像头实时获取路边行人的动态图像信息,并以视频流的数据格式,发送至所述网络识别模型进行动态图像信息的特征信息提取;所述动态图像信息的特征信息包括空间特征信息、时空特征信息;
所述网络识别模型进一步为在3D神经网络中引入残差网络,所述3D神经网络中的3D卷积核进一步划分为空间域卷积核、时间域卷积核;所述空间域卷积核用于获取所述空间特征信息;所述时间域卷积核用于获取时空特征信息;所述残差网络结构为:
3.根据权利要求1所述的一种基于3D神经网络的动态行为识别方法,其特征在于,提取所述动态图像信息的特征信息流程进一步为:
所述网络识别模型接收所述动态图像信息,所述动态图像信息进一步为连续的视频帧图像;
根据接收到的动态图像信息,对所述动态图像信息进行图像处理;
所述网络识别模型的卷积核,对经过所述图像处理后的动态图像信息进行所述特征信息的提取。
4. 根据权利要求3所述的一种基于3D神经网络的动态行为识别方法,其特征在于,所述图像处理进一步为:对所述连续的视频帧图像进行硬连线核处理,且每帧图像提取5个通道的信息,分别为灰度图、横坐标梯度图、纵坐标梯度图、x 方向光流图、y 方向光流图,同时在通道信息提取前进行图像增强操作;
其中,在图像增强过程中,通过色彩恢复因子减少因噪声增强呈现动态图像信息局部细节失真的现象,即:
式中,表示图像增强后的输出图像,表示第i个通道的原始动态图像信息,表示第i个通道的中心环绕函数,K表示高斯中心环绕函数的个数,表示常数权重,表示第i个通道的图像,表示颜色空间的映射函数,表示第i个通道的彩色恢复因子,即:
6.根据权利要求1所述的一种基于3D神经网络的动态行为识别方法,其特征在于,所述网络识别模型由输入层、3D卷积层、步长为S的3D卷积层和输出层构成;所述3D卷积层中引入残差网络;所述3D卷积层通过卷积核对上一层输出的特征数据做卷积操作并将输出值作为下一层的输入。
8.一种基于3D神经网络的动态行为识别系统,用于实现权利要求1~7任意一项方法,其特征在于包括:信息采集模块、信息处理模块、信息输出模块、预警警示模块;所述信息采集模块用于实时获取行人的动态图像信息;所述信息处理模块用于对所述行人的动态图像信息进行图像特征提取以及行为预测;所述信息输出模块用于输出所述信息处理模块获得的所述行为预测结果;所述预警警示模块包括车载预警设备,用于根据所述行为预测结果发出对应预测预警警示信息,辅助驾驶员做出正确判断。
9.根据权利要求8所述的一种基于3D神经网络的动态行为识别系统,其特征在于,所述信息采集模块包括车载摄像头,所述车载摄像头内嵌于所述车载预警设备中,用于在车辆行驶过程中实时获取路边行人的动态图像信息,并以视频流的数据格式,发送至所述信息处理模块;
所述信息处理模块包括图像预处理模块、图像特征提取模块、图像分类模块;所述图像预处理模块进一步对所述行人的动态图像信息进行硬连线核处理,且每帧图像提取5个通道的信息,分别为灰度图、横坐标梯度图、纵坐标梯度图、x 方向光流图、y 方向光流图,同时在通道信息提取前进行图像增强操作;其中,在图像增强过程中,通过色彩恢复因子减少因噪声增强呈现动态图像信息局部细节失真的现象,即:
式中,表示图像增强后的输出图像,表示第i个通道的原始动态图像信息,表示第i个通道的中心环绕函数,K表示高斯中心环绕函数的个数,表示常数权重,表示第i个通道的图像,表示颜色空间的映射函数,表示第i个通道的彩色恢复因子,即:
10.根据权利要求8所述的一种基于3D神经网络的动态行为识别系统,其特征在于,所述信息处理模块中的图像特征提取模块用于对所述行人的动态图像信息进行动态图像特征信息的提取;所述动态图像信息的特征信息包括空间特征信息、时空特征信息;其中,提取动态图像信息的特征信息时,利用卷积层进行提取,即:
式中,表示第i层第j个特征映射中坐标为位置处的卷积结果;表示激活函数;表示特征映射的偏差;表示第层中特征映射的索引;表示第k个特征映射位置在处的值;表示卷积核的宽度;表示卷积核的高度;表示卷积核的深度;
所述卷积层由为3D神经网络中的3D卷积核构成;所述3D神经网络中的3D卷积核进一步划分为空间域卷积核、时间域卷积核;所述空间域卷积核用于获取所述空间特征信息;所述时间域卷积核用于获取时空特征信息;所述3D神经网络进一步在前层网络中引入残差网络;所述3D神经网络由输入层、3D卷积层、步长为S的3D卷积层和输出层构成;
其中,所述残差网络结构为:
所述图像分类模块通过所述3D神经网络中的softmax层输出行人接下来发生的行为动作概率,并将概率值最大的结果作为预测结果,传输至所述信息输出模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110069096.7A CN112396637A (zh) | 2021-01-19 | 2021-01-19 | 一种基于3d神经网络的动态行为识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110069096.7A CN112396637A (zh) | 2021-01-19 | 2021-01-19 | 一种基于3d神经网络的动态行为识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112396637A true CN112396637A (zh) | 2021-02-23 |
Family
ID=74625141
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110069096.7A Withdrawn CN112396637A (zh) | 2021-01-19 | 2021-01-19 | 一种基于3d神经网络的动态行为识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112396637A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115512306A (zh) * | 2022-11-15 | 2022-12-23 | 成都睿瞳科技有限责任公司 | 基于图像处理来预警电梯内暴力事件的方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107506740A (zh) * | 2017-09-04 | 2017-12-22 | 北京航空航天大学 | 一种基于三维卷积神经网络和迁移学习模型的人体行为识别方法 |
CN109522874A (zh) * | 2018-12-11 | 2019-03-26 | 中国科学院深圳先进技术研究院 | 人体动作识别方法、装置、终端设备及存储介质 |
CN109635790A (zh) * | 2019-01-28 | 2019-04-16 | 杭州电子科技大学 | 一种基于3d卷积的行人异常行为识别方法 |
-
2021
- 2021-01-19 CN CN202110069096.7A patent/CN112396637A/zh not_active Withdrawn
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107506740A (zh) * | 2017-09-04 | 2017-12-22 | 北京航空航天大学 | 一种基于三维卷积神经网络和迁移学习模型的人体行为识别方法 |
CN109522874A (zh) * | 2018-12-11 | 2019-03-26 | 中国科学院深圳先进技术研究院 | 人体动作识别方法、装置、终端设备及存储介质 |
CN109635790A (zh) * | 2019-01-28 | 2019-04-16 | 杭州电子科技大学 | 一种基于3d卷积的行人异常行为识别方法 |
Non-Patent Citations (3)
Title |
---|
何艳: "基于Retinex图像增强的研究与应用", 《中国优秀硕士学位论文全文数据库》 * |
张小俊等: "基于改进3D卷积神经网络的行为识别", 《计算机集成制造系统》 * |
缪宇杰: "基于深度学习的视频语义描述的研究与实现", 《中国优秀硕士学位论文全文数据库》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115512306A (zh) * | 2022-11-15 | 2022-12-23 | 成都睿瞳科技有限责任公司 | 基于图像处理来预警电梯内暴力事件的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111274976B (zh) | 基于视觉与激光雷达多层次融合的车道检测方法及系统 | |
CN110263706B (zh) | 一种雾霾天气车载视频动态目标检测和识别的方法 | |
CN107133559B (zh) | 基于360度全景的运动物体检测方法 | |
CN111767882A (zh) | 一种基于改进yolo模型的多模态行人检测方法 | |
CN109345547B (zh) | 基于深度学习多任务网络的交通车道线检测方法及装置 | |
CN107133610B (zh) | 一种复杂路况下行车流量视觉检测与计数方法 | |
CN109086803B (zh) | 一种基于深度学习与个性化因子的雾霾能见度检测系统及方法 | |
CN111507275B (zh) | 一种基于深度学习的视频数据时序信息提取方法及装置 | |
CN112365414A (zh) | 一种基于双路残差卷积神经网络的图像去雾方法 | |
CN111582074A (zh) | 一种基于场景深度信息感知的监控视频树叶遮挡检测方法 | |
CN112308005A (zh) | 基于gan的交通视频显著性预测方法 | |
CN113850195B (zh) | 一种基于3d视觉的ai智能物体识别方法 | |
CN112396637A (zh) | 一种基于3d神经网络的动态行为识别方法及系统 | |
CN114218999A (zh) | 一种基于融合图像特征的毫米波雷达目标检测方法及系统 | |
CN113989718A (zh) | 面向雷达信号热图的人体目标检测方法 | |
CN112308887B (zh) | 一种多源图像序列实时配准方法 | |
CN112541930A (zh) | 基于级联式的图像超像素目标行人分割方法 | |
Zhang et al. | Research on the algorithm of license plate recognition based on MPGAN Haze Weather | |
CN110929632A (zh) | 面向复杂场景的车辆目标检测方法及装置 | |
CN116309270A (zh) | 一种基于双目图像的输电线路典型缺陷识别方法 | |
CN113255549B (zh) | 一种狼群围猎行为状态智能识别方法及系统 | |
CN112070048B (zh) | 基于RDSNet的车辆属性识别方法 | |
CN114926456A (zh) | 一种半自动标注和改进深度学习的铁轨异物检测方法 | |
Zhao et al. | Research on vehicle detection and vehicle type recognition under cloud computer vision | |
CN113780109B (zh) | 基于四元数时空卷积神经网络的斑马线检测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210223 |