CN112329689A - 车载环境下基于图卷积神经网络的异常驾驶行为识别方法 - Google Patents
车载环境下基于图卷积神经网络的异常驾驶行为识别方法 Download PDFInfo
- Publication number
- CN112329689A CN112329689A CN202011280953.XA CN202011280953A CN112329689A CN 112329689 A CN112329689 A CN 112329689A CN 202011280953 A CN202011280953 A CN 202011280953A CN 112329689 A CN112329689 A CN 112329689A
- Authority
- CN
- China
- Prior art keywords
- neural network
- time
- space
- network
- abnormal driving
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 49
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 42
- 230000006399 behavior Effects 0.000 claims abstract description 75
- 125000004122 cyclic group Chemical group 0.000 claims abstract description 10
- 239000000284 extract Substances 0.000 claims abstract description 6
- 230000007787 long-term memory Effects 0.000 claims abstract description 5
- 230000006403 short-term memory Effects 0.000 claims abstract description 5
- 230000004927 fusion Effects 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 230000000306 recurrent effect Effects 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 2
- 230000001815 facial effect Effects 0.000 claims description 2
- 210000002478 hand joint Anatomy 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 3
- 238000002474 experimental method Methods 0.000 description 19
- 230000002123 temporal effect Effects 0.000 description 12
- 101100153586 Caenorhabditis elegans top-1 gene Proteins 0.000 description 10
- 101100370075 Mus musculus Top1 gene Proteins 0.000 description 10
- 239000012634 fragment Substances 0.000 description 8
- 230000007246 mechanism Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 230000015654 memory Effects 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 210000004247 hand Anatomy 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 241001282135 Poromitra oscitans Species 0.000 description 3
- 206010048232 Yawning Diseases 0.000 description 3
- 230000009471 action Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000005286 illumination Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000000391 smoking effect Effects 0.000 description 3
- 238000002679 ablation Methods 0.000 description 2
- 239000003651 drinking water Substances 0.000 description 2
- 235000020188 drinking water Nutrition 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 210000001331 nose Anatomy 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 206010000117 Abnormal behaviour Diseases 0.000 description 1
- RTAQQCXQSZGOHL-UHFFFAOYSA-N Titanium Chemical compound [Ti] RTAQQCXQSZGOHL-UHFFFAOYSA-N 0.000 description 1
- 230000000386 athletic effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000035622 drinking Effects 0.000 description 1
- 210000003414 extremity Anatomy 0.000 description 1
- 210000004709 eyebrow Anatomy 0.000 description 1
- 210000000887 face Anatomy 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 210000000707 wrist Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/59—Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
- G06V20/597—Recognising the driver's state or behaviour, e.g. attention or drowsiness
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明提供了一种车载环境下基于图卷积神经网络的异常驾驶行为识别方法,涉及计算机视觉技术领域,能够对人体细微行为和相似性行为做出有效识别,提高异常驾驶行为的识别能力;该方法采用改进型时空卷积网络和新型循环神经网络相结合的方式识别人体行为;改进型时空卷积网络在原有时空卷积网络的基础上进一步增加关节数量来改进空间拓扑图,提取多帧骨架序列片段的时空特征信息,再使用引入了长短期记忆的神经网络提取不同骨架序列片段的时间语义信息,以提取出的所有信息为依据进行驾驶行为的识别。本发明提供的技术方案适用于人体行为识别的过程中。
Description
【技术领域】
本发明涉及计算机视觉技术领域,尤其涉及一种车载环境下基于图卷积神经网络的异常驾驶行为识别方法。
【背景技术】
异常驾驶行为识别对于安全驾驶很重要。影响安全驾驶的主要因素不仅来自车辆外部,还来自车辆内部,尤其是驾驶员的行为。近年来,绝大多数车祸是由异常的驾驶行为引起的。异常驾驶行为识别可以看作是人类行为识别的一个分支。主流的基于RGB视频模型的深度学习网络运动识别方法在视频动作识别中表现良好。基于RGB视频模型的方法TSN(L.Wang,Y.Xiong,Z.Wang,Y.Qiao,D.Lin,X.Tang,and L.Van Gool,“Temporal segmentnetworks:Towards good practices for deep action recognition,”in Europeanconference on computer vision.Springer,2016,pp.20–36.)是一种经典的行为识别方法,主要利用了视频中的外观和光流信息。但是,基于RGB视频模型的方法在车载环境下容易受到车内光照强度的影响,导致识别准确率较低。
基于人体骨架关节点数据的识别方法可以更加关注人体的信息,并且对各种外观和光照的影响不敏感。与基于RGB模型的网络相比,图神经网络可以获得更好的结果,因为人体骨架数据更适合用图结构来表示,而不是伪图像的形式。最近,许多研究已经开始使用图卷积网络来提取人体骨架关节点中的运动信息。STGCN(S.Yan,Y.Xiong,and D.Lin,“Spatial temporal graph convolutional networks for skeleton-based actionrecognition,”in Thirty-second AAAI conference on artificial intelligence,2018.)提出了一种图卷积神经网络同时从空间和时间两个维度来提取多帧人体骨架数据中的运动信息,但是此方法中使用的空间拓扑图仅包含18个关节,因此在识别细微行为时无法提取出具有区别性的空间语义特征;例如“打哈欠”行为,它主要体现在面部表情的微妙变化上,与嘴巴和眼睛附近的关键点变化的相关性更为密切;再例如饮水和吸烟的行为难以区分。此外,图卷积网络很难了解视频中较长帧之间的时间相关性。AGC-LSTM(C.Si,W.Chen,W.Wang,L.Wang,and T.Tan,“An attention enhanced graph convolutionallstm network for skeleton-based action recognition,”in Proceedings of theIEEE Conference on Computer Vision and Pattern Recognition,2019,pp.1227–1236.)使用图卷积网络来提取单个帧的空间语义信息,然后使用循环神经网络来提取多个帧中包含的时间语义信息。然而,这些方法独立地提取空间和时间维度上的特征,因此它们不能有效地表示空间和时间维度上信息之间的相关性。
因此,如何有效地识别微妙的相似行为仍然是一个挑战,有必要研究一种车载环境下基于图卷积神经网络的异常驾驶行为识别方法来应对现有技术的不足,以解决或减轻上述一个或多个问题。
【发明内容】
有鉴于此,本发明提供了一种车载环境下基于图卷积神经网络的异常驾驶行为识别方法,能够对人体细微行为和相似性行为做出有效识别,提高异常驾驶行为的识别能力。
一方面,本发明提供一种车载环境下基于图卷积神经网络的异常驾驶行为识别方法,其特征在于,所述识别方法采用改进型时空卷积网络和新型循环神经网络相结合的方式识别人体行为;改进型时空卷积网络提取多帧骨架序列片段的时间和空间维度特征信息后,再使用新型循环神经网络提取不同骨架序列片段的时间语义信息,以提取出的所有信息为依据进行驾驶行为的识别。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述改进型时空卷积网络在原有时空卷积网络的基础上进一步增加关节数量来改进空间拓扑图,以便提取到更多空间语义信息来识别细微行为;
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述新型循环神经网络为引入了长短期记忆的神经网络,通过改善网络的时间语义特征学习能力来提高相似性行为的识别能力。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述改进型时空卷积网络的关节数量为124个关节。关节数量并非必须124,可以根据实际情况进行不同数量的设定。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述124个关节具体为12个上半身关节、70个面部关节和42个手部关节。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述骨架序列片段由完整的骨架序列划分而成,且划分为相同长度的连续片段,再输入所述改进型时空卷积网络进行特征提取。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,相邻的骨架序列片段包含重叠的部分,以便提高数据复用效率。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述骨架序列为视频各帧的人体各关节的坐标数据。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述改进型时空卷积网络提取出骨架序列片段的时空特征信息后,将时空特征信息输入到所述新型循环神经网络提取不同骨架序列片段的时间语义信息,再将时空特征信息和时间语义信息进行特征融合,得到特征融合数据;所述特征融合数据依次经过全连接层和softmax函数处理后得到最终的行为识别分类信息。全连接层是深度神经网络中的一种特定的网络层名称,全连接层的特点是该层的每一个结点都与上一层的所有结点相连接。
另一方面,本发明提供一种车载环境下基于图卷积神经网络的异常驾驶行为识别系统,其特征在于,所述系统包括:
预处理模块,用于将各帧图片中完整的骨架序列划分为相同长度的连续片段,得到骨架序列片段;
时空卷积网络模块,用于提取骨架序列片段的时空特征信息;
循环神经网络模块,用于针对时空特征信息提取不同骨架序列片段的时间语义信息;
特征融合模块,用于将时空特征信息和时间语义信息进行融合得到特征融合数据;
识别判断模块,用于针对融合数据识别出驾驶行为并分类;
时空卷积网络模块由通过增加关节数量来改进空间拓扑图的时空卷积网络来实现;
循环神经网络模块由引入了长短期记忆的神经网络来实现。
与现有技术相比,本发明可以获得包括以下技术效果:通过本发明提出的针对图卷积网络改进的空间拓扑图结构,可以更好地识别细微的异常驾驶行为;通过引入分割序列片段和LSTM的机制,可以进一步提高深度神经网络判别相似性行为的能力;在收集的异常驾驶行为数据集和Kinetics数据集上的实验表明,本发明提出的方法能够获得明显提升的性能表现,同时具有良好的泛化能力。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有技术效果。
【附图说明】
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明一个实施例提供的端到端的检测网络的整个网络结构示意图;
图2是本发明一个实施例提供的针对图卷积网络改进的空间域拓扑图结构示意图;
图3是本发明一个实施例提供的使用骨架序列数据示意图;
图4是本发明一个实施例提供的收集的异常驾驶行为数据集示意图。
【具体实施方式】
为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
基于人体骨架关节点数据的识别方法可以更加关注人体的信息,并且对各种外观和光照的影响不敏感。与基于RGB模型的网络相比,图神经网络可以获得更好的结果,因为人体骨架数据更适合用图结构来表示,而不是伪图像的形式。最近,许多研究已经开始使用图卷积网络来提取人体骨架关节点中的运动信息。但是这些方法中使用的空间拓扑图仅包含18个关节,因此在识别细微行为,无法提取出具有区别性的空间语义特征。基于这种分析,本发明设计了共包含124个关节的空间拓扑图,其中包含12个上半身关节(12个上半身关节分布在肩部三个、两肘各一个、上半身两侧各三个),70个面部关节(面部关节分布在眉部、眼部、鼻部、唇部和脸型轮廓)和两只手的42个关节(42个关节分布在两只手上,每只手21个关节,分布分布在五指上和掌心),这样可以从由更多关节组成的空间拓扑图中提取更多空间语义信息,以识别细微的行为。另外,传统的图卷积网络很难发现并挖掘视频中较长帧之间的时间相关性。本发明提出的方法结合图卷积网络和长短期记忆网络LSTM的优点,可以通过图卷积网络学习多帧骨架序列片段的时间和空间维度特征信息,然后进一步使用LSTM改进不同骨架序列片段的时间语义表示。
本发明提出的结合图卷积网络和循环神经网络的端到端的异常驾驶行为识别的深度神经网络,它将时空图卷积网络和新型循环神经网络相结合,以解决识别细微和相似异常驾驶行为的挑战。本发明提出的神经网络主要由两个部分组成,即时空图卷积网络部分(GCN网络部分)和神经网络部分(LSTM网络部分)。神经网络结构如图1所示。我们的输入数据是由视频各帧的人体关节坐标组成的骨架序列。骨架数据如图3所示。在将数据输入到GCN图卷积网络部分之前,我们将完整的骨架序列划分为几个相同长度的连续片段。并且相邻的片段将包含重叠的部分,这有助于我们在图卷积操作期间同时高效地复用数据。GCN图卷积网络部分将从时间和空间维度对分割的片段执行图卷积操作,提取出片段骨架序列的时空特征信息。然后,我们将所有片段的特征向量输入到两层LSTM网络中。最后,我们将之前GCN部门提取的不同片段的特征向量与LSTM的输出特征向量连接起来形成融合特征。最后融合特征经过全连接层和softmax函数之后计算出最终的行为识别分类得分。整个模型通过交叉熵损失函数进行端到端训练。本发明主要从空间域和时间域两个方面改进了神经网络结构。在空间域上,以开源的时空图卷积网络STGCN为基础进行了空间拓扑图的改进。在时间域上,通过长短期记忆神经网络LSTM将分割的不同片段连接起来,进一步提高网络对时间信息的学习能力。
(a)GCN图卷积网络空间拓扑图的改进
本发明提出的深度神经网络中的图卷积部分是以开源的时空图卷积网络STGCN为基础进行了空间拓扑图的改进。我们推断,具有更多关节的拓扑图可以学习更多的空间语义信息,这有助于区分细微的行为。本发明设计了共包含124个关节的空间拓扑图,这样就可以从由更多关节组成的空间拓扑图中提取更多空间语义信息,以识别细微的行为。改进的空间拓扑图如图2所示。具体来说,这124个关节由上半身的12个关节,面部的70个关节和42个手的关节组成。通过鼻子和手腕的关节,我们可以将脸,手和四肢连接起来,形成最终的空间拓扑图。在实际的驾驶场景中,下半身在图像中不可见,因此我们丢弃了下半身的关节数据。时间维度上的拓扑图构建方式与以前的方法相同,我们在连续的相邻帧中连接相同部位的关节。
(b)通过分割序列和LSTM机制来学习不同片段之间的时域关联性
长短期记忆网络LSTM已被证明在基于序列数据的模型上具有优势,传统的图卷积网络很难探索学习出视频中较长帧之间的时间相关性。本发明提出的方法结合图卷积网络和长短期记忆网络LSTM的优点,可以在经过图卷积网络学习多帧骨架序列片段的时间和空间维度特征信息后,进一步使用LSTM改进不同骨架序列片段的时间语义特征。
实施例1:
(1)本实施例使用的数据集:
目前用于行为识别的公共数据集主要是关于常见行为的识别,并不完全适合用于异常驾驶行为识别任务。因此,我们收集了专门用于识别异常驾驶行为的数据集。数据集中不同标签的异常驾驶行为如图4所示。其中包括约4850个包含5种异常行为的简短视频。该数据集包括五个标签:“饮水”,“长期闭眼”,“手机通话”,“抽烟”和“打哈欠”。数据集中视频都是红外视频,因为红外视频可以减少不同照明条件的影响。每个视频持续约4秒钟,帧速率为每秒10帧。每个视频的分辨率均为720p。训练集包括4600个视频,其中每个类别中大约有1000个视频。测试集包含250个视频,每个类别中包含50个视频。我们采用了开源的姿势估计算法OpenPose获得这些视频的骨骼数据,该算法可以检测身体躯干、面部以及手部的关节。这些关节点的坐标是由横坐标,纵坐标和置信度得分组成。实验通过计算top-1和top-5分类精度来评估网络识别性能。我们在驾驶数据集上和以前的一些主流方法进行了比较,并通过消融实验验证了本发明提出的网络结构中不同模块的有效性。
此外,我们还在Kinetics数据集上进行了实验。Kinetics人类行为数据集包含从YouTube视频网站中剪辑得到的的大约300,000个短视频。这些视频涵盖了多达400种人类动作类别,包括日常行为,运动行为以及一些复杂的多人游戏行为等。数据集中的每个剪辑视频持续约10秒。Kinetics数据集中视频分辨率为340x256的分辨率,帧率为30FPS,通过使用开源的姿态估计算法OpenPose获取Kinetics数据集的骨架数据。数据集中的关节点坐标由横坐标,纵坐标和置信度得分组成。此外,该骨骼数据集仅包含人体18个关节的骨骼信息。我们使用该数据集作为对比来证明本发明方法的泛化性能,并通过计算top-1和top-5分类精度来评估识别性能。
(2)实验描述
在本发明的实验中,我们使用PyTorch框架作为训练工具,python作为实现语言。本发明中提出的深度神经网络基于开源的MMSkeleton来实现,所有的实验都在装有Linux系统和4块NVIDIA TITAN Xp GPU显卡的服务器上进行。我们基于开源的STGCN网络来改进实现我们的GCN图卷积模块,GCN图卷积网络共包含9个时空图卷积层,每个时空图卷积层是有一个空间图卷积层,一个时间图卷积和一个丢弃层组成,将丢弃率设置为0.5,以避免过度拟合。在每个时空图卷积层之后是批处理归一化层和ReLU层。LSTM网络部分是两层LSTM网络,具有512维向量的中间隐藏层输出。我们使用交叉熵作为损失函数来反向传播梯度。整个网络以端到端的方式训练。
在我们收集的异常驾驶数据集上进行实验时,我们将输入的每个原始骨架序列统一预处理为40帧。然后,我们将其分为三个边界重叠的剪辑,长度为20帧,以进行训练和测试。我们采用SGD优化算法作为优化策略,其中批量大小设置为32。动量设置为0.9,权重衰减设置为0.0001,初始学习率设置为0.1。训练过程在第20轮时结束。在Kinetics数据集上进行实验时,我们从输入骨架序列中随机选择150个连续帧,然后将其划分为三个边界重叠的片段。我们采用SGD优化算法作为优化策略,其中批量大小设置为256。动量设置为0.9,权重衰减设置为0.0001,初始学习率设置为0.1。训练过程在第50轮结束。
(3)实验结果
在我们收集的数据集上的实验表明,与原始的STGCN方法相比,本发明提出的方法top-1分类精确度从75.6%提高到了90.4%,性能提升明显。消融实验表明,当使用本发明提出的改进的空间拓扑图而不是默认的空间拓扑图时,比原始的STGCN方法的识别结果提高了11.3个百分点,其中所有类别的识别准确度均得到了改善,尤其值得注意的是,细微行为“打哈欠”的识别准确度从74%提高到96%。该实验也证明了本发明中改进的空间拓扑图结构的有效性。当引入分割序列和LSTM机制后,实验表明两个相似的动作“饮水”和“抽烟”可达到80%以上的精度,该实验证明了本发明中提出的分割片段并引入LSTM模块的机制是有效的。另外,我们还实验了将40帧序列分为3个重叠的20帧序列片段,在这里我们仅使用图卷积网络的输出进行分类,top-1精确度为80.4%。仅使用LSTM网络部分的输出进行分类,top-1精确度为83.2%。将GCN部分和LSTM部分的输出进行级联形成的融合特征进行最终分类时,top-1精确度为90.4%的最佳结果。此外,我们也尝试将输入序列分割成2个和4个序列片段,实验表明其结果不如分成3个片段的结果好。
在Kinetics数据集上的实验结果表明,本发明提出的方法top-1精确度达到了31.5%、top-5精确度达到了53.7%,结果要优于之前的基于骨架数据的STGCN方法的top-1精确度30.7%、top-5精确度52.8%。此外,我们还实验了将网络分割2个和4个不同数量的片段时的性能。分割2个序列片段时top-1和top-5结果为29.6%、52.5%,分割4个序列片段时top-1和top-5结果为29.9%、51.9%。结果表明,使用3个片段的方法效果最佳。
实验表明,通过本发明提出的改进后的空间拓扑图,我们可以更好地识别细微的异常驾驶行为。此外,通过分割序列片段并引入LSTM的机制,我们可以进一步提高深度神经网络判别相似性行为的能力。在我们收集的用于异常驾驶识别的视频数据集上,本发明提出的方法达到了top-1精确度90.04%的优秀结果。在Kinetics数据集上的实验表明,本发明提出方法也优于之前的基于骨架数据的识别方法,证明了本发明提出的方法具有良好的泛化能力。
本发明提出了一种新颖的循环图卷积网络,它将时空图卷积网络和循环神经网络相结合,以解决识别细微和相似异常驾驶行为的挑战。首先,在处理视频数据后将骨架序列分成相同长度的几个片段。其次,我们使用GCN部分提取不同骨架序列片段的时空特征信息,并设计了改进过的124个关节的空间拓扑图,以替换先前方法中使用的18个关节的空间拓扑图。然后,我们使用LSTM部分来探索隐藏在不同片段之间的更深的时间特征。最后,我们使用通过合并GCN部分和LSTM部分的输出而形成的融合特征对异常驾驶行为进行分类。本发明的优点主要体现在以下三点:
(a)针对车载环境下的的异常驾驶行为识别任务,我们构造了一个新的特殊的人体空间拓扑图,这有助于图卷积网络提取更多的空间语义信息并识别出细微的异常驾驶行为。
(b)我们引入分割骨架序列和长短期记忆神经网络LSTM机制来改善网络的时间语义特征学习能力,这有助于区分具有相似性的异常驾驶行为。
(c)我们收集了车载环境下的车内驾驶员五种异常驾驶行为的视频数据集,用于异常驾驶行为识别任务。不同标签的异常驾驶行为如图4所示。在我们收集的数据集和开源数据集上进行的实验均证明了本发明提出的方法的有效性。
以上对本申请实施例所提供的一种车载环境下基于图卷积神经网络的异常驾驶行为识别方法,进行了详细介绍。以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
如在说明书及权利要求书当中使用了某些词汇来指称特定组件。本领域技术人员应可理解,硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求书并不以名称的差异来作为区分组件的方式,而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求书当中所提及的“包含”、“包括”为一开放式用语,故应解释成“包含/包括但不限定于”。“大致”是指在可接收的误差范围内,本领域技术人员能够在一定误差范围内解决所述技术问题,基本达到所述技术效果。说明书后续描述为实施本申请的较佳实施方式,然所述描述乃以说明本申请的一般原则为目的,并非用以限定本申请的范围。本申请的保护范围当视所附权利要求书所界定者为准。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
上述说明示出并描述了本申请的若干优选实施例,但如前所述,应当理解本申请并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述申请构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本申请的精神和范围,则都应在本申请所附权利要求书的保护范围内。
Claims (10)
1.一种车载环境下基于图卷积神经网络的异常驾驶行为识别方法,其特征在于,所述识别方法的步骤包括:
S1、采用改进型时空卷积网络提取多帧骨架序列片段的时空特征信息;
S2、以时空特征信息为输入,使用新型循环神经网络提取不同骨架序列片段的时间语义信息;
S3、融合时空特征信息和时间语义信息,以融合信息为依据进行驾驶行为的识别;
所述改进型时空卷积网络在现有时空卷积网络的基础上进一步增加关节数量以改进空间拓扑图,用于提高细微行为识别能力。
2.根据权利要求1所述的车载环境下基于图卷积神经网络的异常驾驶行为识别方法,其特征在于,所述新型循环神经网络为引入了长短期记忆的神经网络,通过改善网络的时间语义特征学习能力来提高相似性行为的识别能力。
3.根据权利要求1所述的车载环境下基于图卷积神经网络的异常驾驶行为识别方法,其特征在于,所述改进型时空卷积网络的关节数量为124个关节。
4.根据权利要求3所述的车载环境下基于图卷积神经网络的异常驾驶行为识别方法,其特征在于,所述124个关节具体为12个上半身关节、70个面部关节和42个手部关节。
5.根据权利要求1所述的车载环境下基于图卷积神经网络的异常驾驶行为识别方法,其特征在于,所述骨架序列片段由完整的骨架序列划分而成,且划分为相同长度的连续片段,再输入所述改进型时空卷积网络进行特征提取。
6.根据权利要求5所述的车载环境下基于图卷积神经网络的异常驾驶行为识别方法,其特征在于,相邻的骨架序列片段包含重叠的部分,以便提高数据复用效率。
7.根据权利要求5所述的车载环境下基于图卷积神经网络的异常驾驶行为识别方法,其特征在于,所述骨架序列为视频各帧的人体各关节的坐标数据。
8.根据权利要求1所述的车载环境下基于图卷积神经网络的异常驾驶行为识别方法,其特征在于,所述改进型时空卷积网络提取出骨架序列片段的时空特征信息后,将时空特征信息输入到所述新型循环神经网络提取不同骨架序列片段的时间语义信息,再将时空特征信息和时间语义信息进行特征融合,得到特征融合数据;所述特征融合数据依次经过全连接层和softmax函数处理后得到最终的行为识别分类信息。
9.一种车载环境下基于图卷积神经网络的异常驾驶行为识别系统,其特征在于,所述系统包括:
时空卷积网络模块,用于提取骨架序列片段的时空特征信息;
循环神经网络模块,用于针对时空特征信息提取不同骨架序列片段的时间语义信息;
特征融合模块,用于将时空特征信息和时间语义信息进行融合得到特征融合数据;
识别判断模块,用于针对融合数据识别出驾驶行为并分类;
时空卷积网络模块由通过增加关节数量来改进空间拓扑图的时空卷积网络来实现。
10.根据权利要求9所述的车载环境下基于图卷积神经网络的异常驾驶行为识别系统,其特征在于,所述系统还包括:
预处理模块,用于将各帧图片中完整的骨架序列划分为相同长度的连续片段,得到骨架序列片段,并将得到的骨架序列片段提供给时空卷积网络模块;
所述循环神经网络模块由引入了长短期记忆的神经网络来实现。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011280953.XA CN112329689A (zh) | 2020-11-16 | 2020-11-16 | 车载环境下基于图卷积神经网络的异常驾驶行为识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011280953.XA CN112329689A (zh) | 2020-11-16 | 2020-11-16 | 车载环境下基于图卷积神经网络的异常驾驶行为识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112329689A true CN112329689A (zh) | 2021-02-05 |
Family
ID=74319205
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011280953.XA Pending CN112329689A (zh) | 2020-11-16 | 2020-11-16 | 车载环境下基于图卷积神经网络的异常驾驶行为识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112329689A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115565159A (zh) * | 2022-09-28 | 2023-01-03 | 华中科技大学 | 一种疲劳驾驶检测模型的构建方法及应用 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109376720A (zh) * | 2018-12-19 | 2019-02-22 | 杭州电子科技大学 | 基于关节点时空简单循环网络和注意力机制的动作分类方法 |
CN109858390A (zh) * | 2019-01-10 | 2019-06-07 | 浙江大学 | 基于端到端时空图学习神经网络的人体骨架的行为识别方法 |
CN110427834A (zh) * | 2019-07-10 | 2019-11-08 | 上海工程技术大学 | 一种基于骨架数据的行为识别系统及方法 |
CN110717389A (zh) * | 2019-09-02 | 2020-01-21 | 东南大学 | 基于生成对抗和长短期记忆网络的驾驶员疲劳检测方法 |
US20200089977A1 (en) * | 2018-09-17 | 2020-03-19 | Honda Motor Co., Ltd. | Driver behavior recognition and prediction |
CN111339942A (zh) * | 2020-02-26 | 2020-06-26 | 山东大学 | 基于视点调整的图卷积循环网络骨骼动作识别方法及系统 |
CN111783692A (zh) * | 2020-07-06 | 2020-10-16 | 广东工业大学 | 一种动作识别方法、装置及电子设备和存储介质 |
CN111814719A (zh) * | 2020-07-17 | 2020-10-23 | 江南大学 | 一种基于3d时空图卷积的骨架行为识别方法 |
-
2020
- 2020-11-16 CN CN202011280953.XA patent/CN112329689A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200089977A1 (en) * | 2018-09-17 | 2020-03-19 | Honda Motor Co., Ltd. | Driver behavior recognition and prediction |
CN109376720A (zh) * | 2018-12-19 | 2019-02-22 | 杭州电子科技大学 | 基于关节点时空简单循环网络和注意力机制的动作分类方法 |
CN109858390A (zh) * | 2019-01-10 | 2019-06-07 | 浙江大学 | 基于端到端时空图学习神经网络的人体骨架的行为识别方法 |
CN110427834A (zh) * | 2019-07-10 | 2019-11-08 | 上海工程技术大学 | 一种基于骨架数据的行为识别系统及方法 |
CN110717389A (zh) * | 2019-09-02 | 2020-01-21 | 东南大学 | 基于生成对抗和长短期记忆网络的驾驶员疲劳检测方法 |
CN111339942A (zh) * | 2020-02-26 | 2020-06-26 | 山东大学 | 基于视点调整的图卷积循环网络骨骼动作识别方法及系统 |
CN111783692A (zh) * | 2020-07-06 | 2020-10-16 | 广东工业大学 | 一种动作识别方法、装置及电子设备和存储介质 |
CN111814719A (zh) * | 2020-07-17 | 2020-10-23 | 江南大学 | 一种基于3d时空图卷积的骨架行为识别方法 |
Non-Patent Citations (5)
Title |
---|
SHYERN: ""Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition(ST-GCN)"", pages 1 - 10, Retrieved from the Internet <URL:《https://www.cnblogs.com/shyern/p/11262926.html》> * |
WEI-YI PEI: ""Scene Video Test Tracking With Graph Matching"", 《IEEE ACCESS》, vol. 6, pages 19419 - 19426 * |
WU ZHENG: ""Relational Network for Skeleton-Based Action Recognition"", 《2019 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO(ICME)》, pages 826 - 831 * |
王志华: ""基于时空图卷积神经网络的人体动作识别研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 2020, pages 138 - 1040 * |
陈松路: ""车载图像中车牌与车辆检测方法研究"", 《中国博士学位论文全文数据库 工程科技II辑》, no. 2021, pages 034 - 3 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115565159A (zh) * | 2022-09-28 | 2023-01-03 | 华中科技大学 | 一种疲劳驾驶检测模型的构建方法及应用 |
CN115565159B (zh) * | 2022-09-28 | 2023-03-28 | 华中科技大学 | 一种疲劳驾驶检测模型的构建方法及应用 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Weakly supervised adversarial domain adaptation for semantic segmentation in urban scenes | |
CN109919031B (zh) | 一种基于深度神经网络的人体行为识别方法 | |
CN105844263B (zh) | 共享共同属性的视频对象的概要示图 | |
Yang et al. | Boosting encoded dynamic features for facial expression recognition | |
Wang et al. | Learning multi-granularity temporal characteristics for face anti-spoofing | |
CN107330396A (zh) | 一种基于多属性和多策略融合学习的行人再识别方法 | |
CN112036276B (zh) | 一种人工智能视频问答方法 | |
CN103246891A (zh) | 一种基于Kinect的中国手语识别方法 | |
CN110097029B (zh) | 基于Highway网络多视角步态识别的身份认证方法 | |
CN111694959A (zh) | 基于面部表情和文本信息的网络舆情多模态情感识别方法及系统 | |
Fan et al. | Correlation graph convolutional network for pedestrian attribute recognition | |
CN112381987A (zh) | 基于人脸识别的智能门禁防疫系统 | |
Chen et al. | A pornographic images recognition model based on deep one-class classification with visual attention mechanism | |
CN114299542A (zh) | 一种基于多尺度特征融合的视频行人重识别方法 | |
CN112200176A (zh) | 人脸图像的质量检测方法、系统和计算机设备 | |
CN115861981A (zh) | 基于视频姿态不变性的驾驶员疲劳行为检测方法及系统 | |
CN112329689A (zh) | 车载环境下基于图卷积神经网络的异常驾驶行为识别方法 | |
CN114937298A (zh) | 一种基于特征解耦的微表情识别方法 | |
CN113420697A (zh) | 基于表观和形状特征的换装视频行人重识别方法及系统 | |
Fang et al. | Pedestrian attributes recognition in surveillance scenarios with hierarchical multi-task CNN models | |
Park et al. | Pseudo label rectification via co-teaching and decoupling for multisource domain adaptation in semantic segmentation | |
Sun et al. | Weak supervised learning based abnormal behavior detection | |
CN117149944A (zh) | 一种基于宽时间范畴的多模态情境情感识别方法及系统 | |
Hatay et al. | Learning to detect phone-related pedestrian distracted behaviors with synthetic data | |
WO2023185074A1 (zh) | 一种基于互补时空信息建模的群体行为识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |