CN110119709B - 一种基于时空特性的驾驶员行为识别方法 - Google Patents

一种基于时空特性的驾驶员行为识别方法 Download PDF

Info

Publication number
CN110119709B
CN110119709B CN201910391168.2A CN201910391168A CN110119709B CN 110119709 B CN110119709 B CN 110119709B CN 201910391168 A CN201910391168 A CN 201910391168A CN 110119709 B CN110119709 B CN 110119709B
Authority
CN
China
Prior art keywords
time
space
convolution
network
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910391168.2A
Other languages
English (en)
Other versions
CN110119709A (zh
Inventor
路小波
陆明琦
胡耀聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201910391168.2A priority Critical patent/CN110119709B/zh
Publication of CN110119709A publication Critical patent/CN110119709A/zh
Application granted granted Critical
Publication of CN110119709B publication Critical patent/CN110119709B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/59Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
    • G06V20/597Recognising the driver's state or behaviour, e.g. attention or drowsiness

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明设计了一种基于时空特性的驾驶员行为识别方法,涉及计算机视觉中的行为识别领域。本发明采用批标准化改进三维卷积网络,以提取视频帧中短时空行为特征,再利用卷积长短期记忆单元学习长时空上下文信息。然后将提取的驾驶员行为长时空行为信息输入空间金字塔池化层,得到多尺度的空间特征图。同时在实现特征分类的全连接层中融入dropout思想,提升网络模型的泛化能力。本发明所设计的网络可以高效地提取视频中驾驶员行为的时空特性,进一步提高驾驶员行为识别准确率。发明在交通安全领域有重要的应用价值。

Description

一种基于时空特性的驾驶员行为识别方法
技术领域
本发明涉及图像处理和模式识别领域,特别是涉及一种基于时空特性的驾驶员行为识别方法。
背景技术
近十年来,我国经济总量快速增长,汽车产业蓬勃发展。随着城市化进程进一步加快,以及居民生活水平的显著提高,至2017年底,国内汽车保有量达2.17亿辆,汽车驾驶人达3.42亿人,仅次于美国。伴随汽车数量增长而来的是愈发严峻的交通安全问题,2016年,我国接报的交通事故中涉及人员伤亡达21.3万起,直接财产损失逾12亿。全球范围内据统计每年逾120万人死于交通事故,数百万人受伤、致残,预计该数字至2020年仍将上升。频发的交通事故在导致人员伤亡和财产损失的同时,也引发了不容忽视的社会问题。
为保障交通安全,新交规中已将驾车时接打电话纳入违法处罚项。此外,对行车途中的驾驶员进行视频监控是目前防范人为因素导致事故的重要手段。传统的交通监控为在交通路段安装摄像头,由后台人工监测分析拍摄的路测视频,监管效率低且极耗人力、物力。随着人工智能的发展以及车载摄像头的广泛应用,利用计算机视觉进行智能交通监管的方式准确高效,是交通监管的发展趋势。伴随车载摄像头的普及应用,车载视频监控以实时采集成为可能。通过视频图像识别不良的驾驶员行为,从而加强道路交通的监督管理力度。
发明内容
为了解决以上问题,本发明提供一种基于时空特性的驾驶员行为识别方法,发明中使用的三维卷积和卷积长短期记忆单元可以提取驾驶员行为的时空特性,并在测试阶段实现了准确识别了驾驶员行为,为达此目的,本发明提供一种基于时空特性的驾驶员行为识别方法,包含以下步骤:
步骤1:录制驾驶员行为视频库;
步骤2:构建行为识别网络模型;
步骤3:训练基于时空特性的驾驶员行为识别网络模型;
步骤4:对基于时空特性的驾驶员行为识别网络模型进行测试。
作为本发明进一步改进,所述步骤1具体步骤如下;所有视频均由相同型号的摄像头拍摄,自建样本库模拟驾驶员的行车状态,涵盖正常驾驶、吸烟、接打电话、玩手机、与邻座交谈以及双手脱离方向盘六种行为,同时考虑驾驶舱内光线明暗、驾驶员服饰、摄像头拍摄角度变化相关因素,将拍摄的视频处理为视频帧,每帧图像尺寸缩放为224×224,样本数据集均分为3组子集,每组子集各充当一次测试集,其余两组此时作为训练集,这样训练可得三个模型,将这三个模型最终在测试集上识别准确率的均值作为网络的识别性能参数。
作为本发明进一步改进,所述步骤2具体步骤如下;首先采用三维卷积池化提取驾驶员行为短时空特征,然后通过两级卷积长短期记忆单元子网络获取长时空行为特征,再利用空间金字塔生成多尺度特征图用于最终分类,具体如下:
步骤201:利用三维卷积池化提取驾驶员行为短时空特征,该子网络以维度为224×224×3×16的视频帧作为输入,包含4层三维卷积层、3层三维池化层,最终输出为14×14×256×4的短时空特征图;
三维卷积层1:用64个3×3×3的核去卷积224×224×3×16的输入,再经过BatchNorm层批规范化和ReLU激活得到112×112×64×16的特征;
三维池化层1:经过1×2×2的最大值池化和ReLU激活得到56×56×64×16的特征,只进行空间下采样,在前期尽量保留输入视频的时间信息;
三维卷积层2:用128个3×3×3的核去卷积三维池化层1输出的56×56×64×16的特征,再经过BatchNorm层批规范化和ReLU激活得到56×56×128×16的特征;
三维池化层2:经过2×2×2的最大值池化和ReLU激活得到28×28×128×8的特征,同时进行时间空间下采样,时空特征汇聚;
三维卷积层3a:用256个3×3×3的核去卷积三维池化层2输出的28×28×128×8的特征,得到28×28×256×8的特征;
三维卷积层3b:用256个3×3×3的核去卷积三维卷积层3a输出的28×28×256×8的特征,再经过BatchNorm层批规范化和ReLU激活得到28×28×256×8的特征;
三维池化层3:经过2×2×2的最大值池化和ReLU激活得到14×14×256×4的特征,进一步下采样特征图空间大小,减少高层识别网络参数及计算量;
三次三维池化使得输出特征图空间尺寸缩小为输入的1/8,时间长度缩短为输入序列的1/4;
步骤202:采用卷积长短期记忆单元构建两级子网络络,提取短时空行为特征的上下文信息。卷积长短期记忆单元融合卷积与时间递归两种神经网络思想,处理长期时序信息的同时提取空间特征;
卷积长短期记忆单元内部结构中,it、ot与ft分别为输入、输出门以及遗忘门,ct为记忆细胞cell,xt和ht为当前时刻输入以及隐藏层时刻节点的隐状态
卷积长短期记忆单元工作原理如以下公式:
Figure GDA0003179005710000031
Figure GDA0003179005710000032
Figure GDA0003179005710000033
Figure GDA0003179005710000034
ht=ot*φ(ct) (5)
公式中σ为非线性激活函数sigmoid函数,φ为非线性激活函数tanh函数,*为矩阵对应元素相乘,
Figure GDA0003179005710000035
为卷积运算,输入门it控制当前时刻节点记忆细胞的输入信息量;遗忘门ft控制前一个时刻节点的记忆单元输入至当前时刻节点记忆单元的信息量;输出门ot用于控制当前时刻节点记忆细胞输入至当前时刻节点隐状态ht的信息量;
卷积长短期记忆单元模型的记忆单元计算如公式(4),可知记忆单元线性更新,其通过遗忘门ft约束前一个时间节点的记忆单元的信息输入量,通过输入门it约束新信息的输入量,从而有选择性地传递历史信息;
三维卷积网络提取的短时空行为特征图空间维大小为14×14,时间维长度为4,将其输入两级卷积长短期记忆单元网络中,设置网络的序列长度为4,与输入特征图的时间维保持一致,在两级卷积长短期记忆单元的单元数分别为256和384,由于卷积特性,可认为两级卷积长短期记忆单元的卷积滤波器个数各为256、384,其中卷积核大小为3×3,卷积步长为1×1,U,V和W实现同一时间步的不同输入权值参数共享,即在每时刻接收不同输入执行相同任务,再将其输出输入下一时刻,存储历史信息,两级网络的最终输出维度为[batchsize,14,14,384],其被视为提取了短时空行为特征的上下文信息,故而驾驶员最终的长时空行为特征取自第4个时间步预测输出,时间维长度仅为1;
步骤203:使用空间金字塔池化降维,减少参数,对每帧特征图进行三级金字塔池化,三级池化中池化步长分别为14,7和2,对应的输出尺寸分别为1×1,2×2和7×7;
两级卷积长短期记忆单元网络输出的长时空行为特征图空间尺寸为14×14=196,经空间金字塔池化层池化后,各特征图空间大小仅为49+4+1=54。多级金字塔池化提取的多尺度特征在空间层面上了提高识别精度;
步骤204:使用一层全连接层和一层softmax层完成分类回归,最后的输出为不同驾驶员行为类别的概率,其中全连接层采用dropout,以避免因自建驾驶员行为样本集较小而出现的过拟合问题,即在每次迭代训练中,以p=0.5的概率随机选择部分神经元节点,使之停止参数更新并不参与网络输出。
作为本发明进一步改进,所述步骤3具体步骤如下;利用深度学习开源软件库搭建网络模型,训练过程在相应服务器上运行,使用对应操作系统,使用交叉损失熵函数衡量真实标签和预测结果之间的距离,具体可表示为:
Figure GDA0003179005710000041
其中l表示类别真实值标签,P(j)即softmax层的输出,表示属于第j类别的后验概率,为避免过拟合问题,对网络所有权重进行L2正则化操作:
Figure GDA0003179005710000042
其中,λ为自定义的超参数,n为训练样本数据量。
作为本发明进一步改进,所述步骤4具体步骤如下;给定一段驾驶员识别视频帧,将每帧归一化为224×224的尺寸作为输入,通过网络的前向传播获得测试图像的行为识别结果。
本申请一种基于时空特性的驾驶员行为识别方法,本发明的特点在于:
(1)本发明采用了三维卷积池化提取驾驶员行为的短时空行为特性。
(2)本发明采用了卷积长短期记忆单元提取短时空特征的上下文信息,并通过空间金字塔池化汇聚多尺度特征图,完成分类识别。
附图说明
图1是本发明中不同驾驶员行为的部分样例图片,
图2是本发明中驾驶员行为识别网络结构示意图,
图3是本发明中驾驶员行为短时空特征图,
图4是本发明中ConvLSTM内部结构示意图,
图5是本发明中ConvLSTM按时间序列展开示意图,
图6是本发明中单个ConvLSTM单元示意图,
图7是本发明中空间金字塔图层。
具体实施方式
下面结合附图与具体实施方式对本发明作进一步详细描述:
本发明提供一种基于时空特性的驾驶员行为识别方法,发明中使用的三维卷积和卷积长短期记忆单元可以提取驾驶员行为的时空特性,并在测试阶段实现了准确识别了驾驶员行为。
本发明的具体实施步骤如下:
步骤1:录制驾驶员行为视频库。所有视频均由型号为Logitech C920的摄像头拍摄。自建样本库模拟驾驶员的行车状态,共计3341个视频片段,涵盖正常驾驶、吸烟、接打电话、玩手机、与邻座交谈以及双手脱离方向盘六种行为,同时考虑驾驶舱内光线明暗、驾驶员服饰、摄像头拍摄角度变化等多样性因素,如图1所示。将拍摄的视频处理为视频帧,每帧图像尺寸缩放为224×224。样本数据集均分为3组子集,每组子集各充当一次测试集,其余两组此时作为训练集,这样训练可得三个模型,将这三个模型最终在测试集上识别准确率的均值作为网络的识别性能参数。
步骤2:构建行为识别网络模型。首先采用三维卷积池化提取驾驶员行为短时空特征,然后通过两级卷积长短期记忆单元(ConvLSTM)子网络获取长时空行为特征,再利用空间金字塔生成多尺度特征图用于最终分类,如图2所示。具体如下:
步骤201:利用三维卷积池化提取驾驶员行为短时空特征。该子网络以维度为224×224×3×16的视频帧作为输入,包含4层三维卷积层、3层三维池化层,最终输出为14×14×256×4的短时空特征图。
三维卷积层1:用64个3×3×3的核去卷积224×224×3×16的输入,再经过BatchNorm层批规范化和ReLU激活得到112×112×64×16的特征。
三维池化层1:经过1×2×2的最大值池化和ReLU激活得到56×56×64×16的特征,只进行空间下采样,在前期尽量保留输入视频的时间信息。
三维卷积层2:用128个3×3×3的核去卷积三维池化层1输出的56×56×64×16的特征,再经过BatchNorm层批规范化和ReLU激活得到56×56×128×16的特征。
三维池化层2:经过2×2×2的最大值池化和ReLU激活得到28×28×128×8的特征,同时进行时间空间下采样,时空特征汇聚。
三维卷积层3a:用256个3×3×3的核去卷积三维池化层2输出的28×28×128×8的特征,得到28×28×256×8的特征。
三维卷积层3b:用256个3×3×3的核去卷积三维卷积层3a输出的28×28×256×8的特征,再经过BatchNorm层批规范化和ReLU激活得到28×28×256×8的特征。
三维池化层3:经过2×2×2的最大值池化和ReLU激活得到14×14×256×4的特征,进一步下采样特征图空间大小,减少高层识别网络参数及计算量。
三次三维池化使得输出特征图空间尺寸缩小为输入的1/8,时间长度缩短为输入序列的1/4,所得的驾驶员行为短时空特征图如图3所示。
步骤202:采用卷积长短期记忆单元构建两级子网络络,提取短时空行为特征的上下文信息。卷积长短期记忆单元融合卷积与时间递归两种神经网络思想,处理长期时序信息的同时提取空间特征;
卷积长短期记忆单元内部结构中,it、ot与ft分别为输入、输出门以及遗忘门,ct为记忆细胞cell,xt和ht为当前时刻输入以及隐藏层时刻节点的隐状态
卷积长短期记忆单元工作原理如以下公式:
Figure GDA0003179005710000061
Figure GDA0003179005710000062
Figure GDA0003179005710000063
Figure GDA0003179005710000064
ht=ot*φ(ct) (5)
公式中σ为非线性激活函数sigmoid函数,φ为非线性激活函数tanh函数,*为矩阵对应元素相乘,
Figure GDA0003179005710000065
为卷积运算,输入门it控制当前时刻节点记忆细胞的输入信息量;遗忘门ft控制前一个时刻节点的记忆单元输入至当前时刻节点记忆单元的信息量;输出门ot用于控制当前时刻节点记忆细胞输入至当前时刻节点隐状态ht的信息量;ConvLSTM的记忆单元计算如公式(4),可知记忆单元线性更新,其通过遗忘门ft约束前一个时间节点的记忆单元的信息输入量,通过输入门it约束新信息的输入量,从而有选择性地传递历史信息;
三维卷积网络提取的短时空行为特征图空间维大小为14×14,时间维长度为4,将其输入两级ConvLSTM网络中,设置网络的序列长度为4,与输入特征图的时间维保持一致,如图5所示。在两级ConvLSTM的单元数分别为256和384,单个结构如图6所示。由于卷积特性,可认为两级ConvLSTM的卷积滤波器个数各为256、384,其中卷积核大小为3×3,卷积步长为1×1。U,V和W实现同一时间步的不同输入权值参数共享,即在每时刻接收不同输入执行相同任务,再将其输出输入下一时刻,存储历史信息。两级网络的最终输出维度为[batchsize,14,14,384],其被视为提取了短时空行为特征的上下文信息,故而驾驶员最终的长时空行为特征取自第4个时间步预测输出,时间维长度仅为l。
步骤203:使用空间金字塔池化(SPP)降维,减少参数。对每帧特征图进行三级金字塔池化,如图7所示,三级池化参数如表1所示。
表1三级空间金字塔池化参数
Figure GDA0003179005710000066
Figure GDA0003179005710000071
两级ConvLSTM网络输出的长时空行为特征图空间尺寸为14×14=196,经空间金字塔池化层池化后,各特征图空间大小仅为49+4+1=54。多级金字塔池化提取的多尺度特征在空间层面上了提高识别精度。
步骤204:使用一层全连接层和一层softmax层完成分类回归,最后的输出为不同驾驶员行为类别的概率。其中全连接层采用dropout,以避免因自建驾驶员行为样本集较小而出现的过拟合问题。即在每次迭代训练中,以p=0.5的概率随机选择部分神经元节点,使之停止参数更新并不参与网络输出,减轻了非关键特征的影响,极大提高了网络的鲁棒性与泛化能力。
步骤3:训练基于时空特性的驾驶员行为识别网络模型。利用深度学习开源软件库Tensorflow搭建网络模型,训练过程在Intel Core I7服务器上运行,使用NVIDIATITAN XGPU,Ubuntu 16.04操作系统。使用交叉损失熵函数衡量真实标签和预测结果之间的距离,具体可表示为:
Figure GDA0003179005710000072
其中l表示类别真实值标签,P(j)即softmax层的输出,表示属于第j类别的后验概率,为避免过拟合问题,对网络所有权重进行L2正则化操作:
Figure GDA0003179005710000073
其中,λ为自定义的超参数,n为训练样本数据量。L2正则化遵循“奥卡姆剃刀”思想,使得权重值尽量减小,降低了网络模型对已知的训练数据的描述依赖性,提高泛化能力。
步骤4:对基于时空特性的驾驶员行为识别网络模型进行测试。给定一段驾驶员识别视频帧,将每帧归一化为224×224的尺寸作为输入,通过网络的前向传播获得测试图像的行为识别结果。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作任何其他形式的限制,而依据本发明的技术实质所作的任何修改或等同变化,仍属于本发明所要求保护的范围。

Claims (1)

1.一种基于时空特性的驾驶员行为识别方法,其特征在于:包含以下步骤:
步骤1:录制驾驶员行为视频库;
所述步骤1具体步骤如下;所有视频均由相同型号的摄像头拍摄,自建样本库模拟驾驶员的行车状态,涵盖正常驾驶、吸烟、接打电话、玩手机、与邻座交谈以及双手脱离方向盘六种行为,同时考虑驾驶舱内光线明暗、驾驶员服饰、摄像头拍摄角度变化相关因素,将拍摄的视频处理为视频帧,每帧图像尺寸缩放为224×224,样本数据集均分为3组子集,每组子集各充当一次测试集,其余两组此时作为训练集,这样训练可得三个模型,将这三个模型最终在测试集上识别准确率的均值作为网络的识别性能参数;
步骤2:构建行为识别网络模型;
所述步骤2具体步骤如下;首先采用三维卷积池化提取驾驶员行为短时空特征,然后通过两级卷积长短期记忆单元子网络获取长时空行为特征,再利用空间金字塔生成多尺度特征图用于最终分类,具体如下:
步骤201:利用三维卷积池化提取驾驶员行为短时空特征,子网络以维度为224×224×3×16的视频帧作为输入,包含4层三维卷积层、3层三维池化层,最终输出为14×14×256×4的短时空特征图;
三维卷积层1:用64个3×3×3的核去卷积224×224×3×16的输入,再经过BatchNorm层批规范化和ReLU激活得到112×112×64×16的特征;
三维池化层1:经过1×2×2的最大值池化和ReLU激活得到56×56×64×16的特征,只进行空间下采样,在前期尽量保留输入视频的时间信息;
三维卷积层2:用128个3×3×3的核去卷积三维池化层1输出的56×56×64×16的特征,再经过BatchNorm层批规范化和ReLU激活得到56×56×128×16的特征;
三维池化层2:经过2×2×2的最大值池化和ReLU激活得到28×28×128×8的特征,同时进行时间空间下采样,时空特征汇聚;
三维卷积层3_a:用256个3×3×3的核去卷积三维池化层2输出的28×28×128×8的特征,得到28×28×256×8的特征;
三维卷积层3_b:用256个3×3×3的核去卷积三维卷积层3_a输出的28×28×256×8的特征,再经过BatchNorm层批规范化和ReLU激活得到28×28×256×8的特征;
三维池化层3:经过2×2×2的最大值池化和ReLU激活得到14×14×256×4的特征,进一步下采样特征图空间大小,减少高层识别网络参数及计算量;
三次三维池化使得输出特征图空间尺寸缩小为输入的1/8,时间长度缩短为输入序列的1/4;
步骤202:采用卷积长短期记忆单元构建两级子网络,提取短时空行为特征的上下文信息,卷积长短期记忆单元融合卷积与时间递归两种神经网络思想,处理长期时序信息的同时提取空间特征;
卷积长短期记忆单元内部结构中,it、ot与ft分别为输入、输出门以及遗忘门,ct为记忆细胞cell,xt和ht为当前时刻输入以及隐藏层时刻节点的隐状态
卷积长短期记忆单元工作原理如以下公式:
Figure FDA0003179005700000021
Figure FDA0003179005700000022
Figure FDA0003179005700000023
Figure FDA0003179005700000024
ht=ot*φ(ct) (5)
公式中σ为非线性激活函数sigmoid函数,φ为非线性激活函数tanh函数,*为矩阵对应元素相乘,
Figure FDA0003179005700000025
为卷积运算,输入门it控制当前时刻节点记忆细胞的输入信息量;遗忘门ft控制前一个时刻节点的记忆单元输入至当前时刻节点记忆单元的信息量;输出门ot用于控制当前时刻节点记忆细胞输入至当前时刻节点隐状态ht的信息量;
卷积长短期记忆单元模型的记忆单元计算如公式(4),可知记忆单元线性更新,其通过遗忘门ft约束前一个时间节点的记忆单元的信息输入量,通过输入门it约束新信息的输入量,从而有选择性地传递历史信息;
三维卷积网络提取的短时空行为特征图空间维大小为14×14,时间维长度为4,将其输入两级卷积长短期记忆单元网络中,设置网络的序列长度为4,与输入特征图的时间维保持一致,在两级卷积长短期记忆单元的单元数分别为256和384,由于卷积特性,可认为两级卷积长短期记忆单元的卷积滤波器个数各为256、384,其中卷积核大小为3×3,卷积步长为1×1,U,V和W实现同一时间步的不同输入权值参数共享,即在每时刻接收不同输入执行相同任务,再将其输出输入下一时刻,存储历史信息,两级网络的最终输出维度为[batchsize,14,14,384],其被视为提取了短时空行为特征的上下文信息,故而驾驶员最终的长时空行为特征取自第4个时间步预测输出,时间维长度仅为1;
步骤203:使用空间金字塔池化降维,减少参数,对每帧特征图进行三级金字塔池化,三级池化中池化步长分别为14,7和2,对应的输出尺寸分别为1×1,2×2和7×7;
两级卷积长短期记忆单元网络输出的长时空行为特征图空间尺寸为14×14=196,经空间金字塔池化层池化后,各特征图空间大小仅为49+4+1=54,多级金字塔池化提取的多尺度特征在空间层面上了提高识别精度;
步骤204:使用一层全连接层和一层softmax层完成分类回归,最后的输出为不同驾驶员行为类别的概率,其中全连接层采用dropout,以避免因自建驾驶员行为样本集较小而出现的过拟合问题,即在每次迭代训练中,以p=0.5的概率随机选择部分神经元节点,使之停止参数更新并不参与网络输出;
步骤3:训练基于时空特性的驾驶员行为识别网络模型;
所述步骤3具体步骤如下;利用深度学习开源软件库搭建网络模型,训练过程在相应服务器上运行,使用对应操作系统,使用交叉损失熵函数衡量真实标签和预测结果之间的距离,具体可表示为:
Figure FDA0003179005700000031
其中l表示类别真实值标签,P(j)即softmax层的输出,表示属于第j类别的后验概率,为避免过拟合问题,对网络所有权重进行L2正则化操作:
Figure FDA0003179005700000032
其中,λ为自定义的超参数,n为训练样本数据量;
步骤4:对基于时空特性的驾驶员行为识别网络模型进行测试;
所述步骤4具体步骤如下;给定一段驾驶员识别视频帧,将每帧归一化为224×224的尺寸作为输入,通过网络的前向传播获得测试图像的行为识别结果。
CN201910391168.2A 2019-05-11 2019-05-11 一种基于时空特性的驾驶员行为识别方法 Active CN110119709B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910391168.2A CN110119709B (zh) 2019-05-11 2019-05-11 一种基于时空特性的驾驶员行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910391168.2A CN110119709B (zh) 2019-05-11 2019-05-11 一种基于时空特性的驾驶员行为识别方法

Publications (2)

Publication Number Publication Date
CN110119709A CN110119709A (zh) 2019-08-13
CN110119709B true CN110119709B (zh) 2021-11-05

Family

ID=67522181

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910391168.2A Active CN110119709B (zh) 2019-05-11 2019-05-11 一种基于时空特性的驾驶员行为识别方法

Country Status (1)

Country Link
CN (1) CN110119709B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110929559A (zh) * 2019-10-10 2020-03-27 北京理工大学 一种时空序列数据存储与特征提取的方法及系统
CN111476119B (zh) * 2020-03-26 2021-05-04 长江大学 一种基于时空上下文的昆虫行为识别方法及装置
CN111695435B (zh) * 2020-05-19 2022-04-29 东南大学 基于深度混合编解码神经网络的驾驶员行为识别方法
CN111865849B (zh) * 2020-06-30 2021-08-06 中国兵器科学研究院 一种信号调制的方法、装置和服务器
CN111986668B (zh) * 2020-08-20 2021-05-11 深圳市一本电子有限公司 使用车载充电器的ai语音智能控制物联网方法
CN112185543A (zh) * 2020-09-04 2021-01-05 南京信息工程大学 一种医疗感应数据流分类模型的构建方法
CN112464831B (zh) * 2020-12-01 2021-07-30 马上消费金融股份有限公司 视频分类方法、视频分类模型的训练方法及相关设备
CN112633264B (zh) * 2021-03-11 2021-06-15 深圳市安软科技股份有限公司 一种车辆属性识别方法、装置、电子设备及存储介质
CN112906631B (zh) * 2021-03-17 2022-07-29 南京邮电大学 一种基于视频的危险驾驶行为检测方法和检测系统
CN113065650B (zh) * 2021-04-02 2023-11-17 中山大学 一种基于长期记忆学习的多通道神经网络实例分隔方法
CN113361362A (zh) * 2021-05-31 2021-09-07 中国农业大学 农民劳作行为识别方法、装置、电子设备及存储介质
CN113647962B (zh) * 2021-08-20 2023-09-22 天津大学 基于深度学习集成模型的癫痫定位与发作预测方法
CN115909291B (zh) * 2022-11-07 2023-08-25 江西航盛电子科技有限公司 基于车辆数据的驾驶员驾驶状态监测系统及其方法
CN116631050B (zh) * 2023-04-20 2024-02-13 北京电信易通信息技术股份有限公司 一种面向智能视频会议的用户行为识别方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103106394A (zh) * 2012-12-24 2013-05-15 厦门大学深圳研究院 一种视频监控中的人体行为识别方法
CN106611169A (zh) * 2016-12-31 2017-05-03 中国科学技术大学 一种基于深度学习的危险驾驶行为实时检测方法
CN109615064A (zh) * 2018-12-07 2019-04-12 电子科技大学 一种基于时空特征融合递归神经网络的智能车端到端决策方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103106394A (zh) * 2012-12-24 2013-05-15 厦门大学深圳研究院 一种视频监控中的人体行为识别方法
CN106611169A (zh) * 2016-12-31 2017-05-03 中国科学技术大学 一种基于深度学习的危险驾驶行为实时检测方法
CN109615064A (zh) * 2018-12-07 2019-04-12 电子科技大学 一种基于时空特征融合递归神经网络的智能车端到端决策方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Spatial-temporal Fusion Convolutional Neural Network for Simulated Driving Behavior Recognition;Yaocong Hu等;《2018 15th International Conference on Control, Automation, Robotics and Vision (ICARCV)》;20181121;第1271-1277页 *
基于复合时空特征的人体行为识别方法;秦华标等;《计算机辅助设计与图形学学报》;20140831;第26卷(第8期);第1320-1325页 *

Also Published As

Publication number Publication date
CN110119709A (zh) 2019-08-13

Similar Documents

Publication Publication Date Title
CN110119709B (zh) 一种基于时空特性的驾驶员行为识别方法
CN108133188B (zh) 一种基于运动历史图像与卷积神经网络的行为识别方法
WO2021043193A1 (zh) 神经网络结构的搜索方法、图像处理方法和装置
CN109389244B (zh) 一种基于gru的多因素感知短期景区内游客人数预测方法
CN111858989B (zh) 一种基于注意力机制的脉冲卷积神经网络的图像分类方法
CN107533669B (zh) 滤波器特异性作为用于神经网络的训练准则
CN110751067B (zh) 一种结合生物形态神经元模型的动态表情识别方法
CN111160217B (zh) 一种行人重识别系统对抗样本生成方法及系统
CN110570035B (zh) 同时建模时空依赖性和每日流量相关性的人流量预测系统
WO2022007867A1 (zh) 神经网络的构建方法和装置
CN109522925A (zh) 一种图像识别方法、装置和存储介质
US20230215166A1 (en) Few-shot urban remote sensing image information extraction method based on meta learning and attention
JP2022547460A (ja) コンピュートインメモリアレイの列しきい値を調整することによってxnor等価演算を実施すること
US10777259B1 (en) Static random-access memory (SRAM) for in-memory computing
CN110991349B (zh) 一种基于度量学习的轻量级车辆属性识别方法
CN112487954B (zh) 一种面向平面交叉口的行人过街行为预测方法
CN112766280A (zh) 一种基于图卷积的遥感图像道路提取方法
CN112534445A (zh) 具有数量被减少的参数的神经网络
US11223782B2 (en) Video processing using a spectral decomposition layer
CN113947182A (zh) 基于双阶段堆叠图卷积网络的交通流预测模型构建方法
CN112766283A (zh) 一种基于多尺度卷积网络的两相流流型识别方法
CN114078243A (zh) 基于循环图卷积网络的驾驶员驾驶行为识别方法及系统
CN113553918B (zh) 一种基于脉冲主动学习的机打发票字符识别方法
CN113177528B (zh) 基于多任务学习策略训练网络模型的车牌识别方法及系统
CN112862084B (zh) 基于深度迁移融合学习的交通流量预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant