CN112329684A - 一种基于注视检测和交通场景识别的行人穿越马路意图识别方法 - Google Patents
一种基于注视检测和交通场景识别的行人穿越马路意图识别方法 Download PDFInfo
- Publication number
- CN112329684A CN112329684A CN202011276599.3A CN202011276599A CN112329684A CN 112329684 A CN112329684 A CN 112329684A CN 202011276599 A CN202011276599 A CN 202011276599A CN 112329684 A CN112329684 A CN 112329684A
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- traffic scene
- neural network
- convolutional neural
- crossing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000001514 detection method Methods 0.000 title claims abstract description 22
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 53
- 238000012545 processing Methods 0.000 claims abstract description 15
- 238000012549 training Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 16
- 230000008859 change Effects 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 238000013461 design Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 claims description 3
- 230000033001 locomotion Effects 0.000 abstract description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000010606 normalization Methods 0.000 description 8
- 238000011176 pooling Methods 0.000 description 8
- 230000009467 reduction Effects 0.000 description 8
- 230000006399 behavior Effects 0.000 description 6
- 241000283070 Equus zebra Species 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 241000287181 Sturnus vulgaris Species 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000002790 cross-validation Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Image Analysis (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明涉及一种基于注视检测和交通场景识别的行人穿越马路意图识别方法,首先通过faster‑RCNN进行行人检测,进一步利用行人的运动信息搜索感兴趣目标,提取感兴趣目标的运动序列和局部交通场景序列;其次通过头部检测器检测感兴趣目标序列中的头部位置,并采用残差卷积神经网络来判断头部朝向,进而检测行人是否注视来车,同时提取头部朝向特征;然后通过卷积神经网络分类器对行人所处的局部交通场景进行多标签分类,并提取局部交通场景特征;最后利用全连接层处理拼接后的头部朝向特征与局部交通场景特征,实行对行人穿越/不穿越结果的识别。本发明使用多任务学习模式,可实现端到端地完成注视/非注视识别、穿越/不穿越识别以及交通场景分类。
Description
技术领域
本发明涉及智能交通技术领域,具体涉及行人检测与分析领域,尤其是一种基于注视检测和交通场景识别的行人穿越马路意图识别方法。
背景技术
随着计算机视觉、传感器技术以及控制理论的不断发展,无人车得到了广泛的关注,具有光明的应用前景。无人车可以给人们的生活带来便利,但是,无人车在顺利运行的过程中需要保证其它道路使用者的权利,尤其是行人的安全。为了更好地保护行人,无人车需要理解行人的行为,并据此调整本身的策略。在行人的诸多行为中,行人穿越马路最为频繁,且与行人安全高度相关。人类驾驶员可以快速地判断行人是否有穿越马路的意图,但是无人车仍然难以在高效通行和保证行人安全两者间达到较好的平衡。
行人穿越马路受多种因素影响,通常分为外部因素(交通场景的布局、交通流量以及天气情况等)和内部因素(性别、年龄、时间压力等)。由于行人的行为具有随机性,无论是机器或者人类,都无法完全准确地预测行人是否会穿越马路。但是,行人的一些行为揭示了其有较强的可能会进行穿越,譬如行人注视着来车,试图与司机进行眼神交流;同时,行人所处的交通场景也对其是否穿越马路有较大的影响,譬如在红绿灯路口或者斑马线路口,行人有大概率会穿越马路。
利用计算机视觉技术,研究者可以检测到行人,并进而检测到行人的头部区域,并通过设计分类器来检测行人是否注视着来车,据此判断行人是否具有穿越马路的意图。同时,利用计算机视觉技术可以较好地感知行人所处的交通环境,譬如:使用语义分割可以得到当前交通场景每个像素点的意义,使用目标检测可以得知当前场景中是否存在红绿灯、斑马线等标志物,使用分类器可以直接将当前交通场景分为指定的类别。
发明内容
本发明要解决的技术问题是:为了克服现有技术中之不足,本发明提供一种基于注视检测和交通场景识别的行人穿越马路意图识别方法,以其能够结合行人是否注意来车以及行人周围交通场景的信息来综合判断行人是否有穿越马路的意图,从而提高无人车对行人的保护能力。
本发明解决其技术问题所采用的技术方案是:一种基于注视检测和交通场景识别的行人穿越马路意图识别方法,包括以下步骤:
S1、基于运动目标检测算法检测行人并根据其运动信息确定感兴趣目标,提取感兴趣目标序列及其局部交通场景信息;
S2、利用残差卷积神经网络搭建感兴趣行人头部朝向分类器判断行人是否注视来车,并提取行人的头部朝向特征;
S3、利用卷积神经网络搭建感兴趣行人的局部交通场景分类器识别行人所处的场景,并提取局部交通场景特征;
S4、融合头部朝向特征与局部交通场景特征学习感兴趣行人的穿越/不穿越分类器,并在多任务学习框架下同时优化三个分类器。
进一步,所述步骤S1具体包括:
(1)、行人检测。
首先对输入图像序列进行处理,提取其中的感兴趣行人,即马路边有潜在穿越可能的行人。使用Faster-RCNN目标检测器检测输入图像序列每一帧的行人,记录行人在每一帧的位置信息,并将连续帧内所有行人的位置变化信息送到下一步进行感兴趣目标搜索。
(2)、感兴趣目标搜索。
得到某段时间范围内所有行人的位置变化信息后,根据该信息确定感兴趣目标。所述的感兴趣目标定义为在路边等待、有穿越倾向的行人。根据行人检测得到的每个行人的轨迹信息,令Dm和Dl分别表示轨迹内每两个时间点的平均位置变化和首尾两个时间点的位置变化,将Dm和Dl与预先通过经验设定的阈值Tm和Tl进行比较,如果小于阈值,则表示这个行人在该时间范围内静止或指发生了轻微位置变化,认为该人为感兴趣目标;如果大于阈值,则表示这个行人处于持续移动过程中,为非感兴趣目标。对于感兴趣目标,保存其在一定时间范围内的运动序列(该序列每一帧为检测到的感兴趣行人区域)以及局部交通场景序列(将检测到的感兴趣行人区域放大指定倍数后得到)。
所述步骤S2具体包括:
(1)、头部检测器的设计。
得到感兴趣目标序列后,需要进一步检测目标的头部区域,用于后续注视/非注视分类器的训练。对于任意感兴趣目标的最小外接矩形框,根据经验信息将最小外接矩形框的上1/3部分作为扫描区域;由于此区域背景简单,可使用YOLOv3目标检测器检测行人头部区域,以减小算法的时间开销。
(2)、残差卷积神经网络的搭建。
通过检测行人是否注视来车作为判断行人是否穿越马路的主要因素,为了检测行人是否注视来车,搭建基于残差卷积神经网络的注视/非注视分类器。所述注视/非注视分类器采用34层的残差卷积神经网络,网络由若干基本模块组成。对于任意基本模块,假设输入信号为X,首先经过F(F表示卷积滤波器数目,每个基本模块有不同的F)个3×3的卷积滤波器进行处理,然后接上批量标准化(BatchNorm)层以及线性整流函数(Rectified LinearUnit,ReLU)层进行归一化和激活操作,接着再使用F个3×3的卷积滤波器进行处理,输出的结果通过BatchNorm层归一化处理后,和基本模块的输入X进行逐元素相加操作以实现残差连接,相加后的结果经过ReLU层激活后输出。在定义了基本模块的前提下,34层的残差三维卷积神经网络结构如下:首先对输入信号使用64个3×3的三维卷积滤波器进行卷积处理,然后经过3×3的最大池化;输出的信号送入第二个数据处理组块,该组块由3个基本模块串联组成,滤波器数目F等于64;然后信号送入第三、四、五个数据处理组块,这些组块分别由4、6、3个基本模块串联组成,基本模块包含的滤波器数目分别为128、256、512;最后对第五个数据处理组块输出的特征图使用自适应平均池化得到512维的头部朝向特征。
(3)、行人注视/非注视分类器学习。
使用残差卷积神经网络可以提取感兴趣行人的头部朝向特征fa,定义如下:
fa=Φ(p,Wa)
其中,fa表示残差卷积神经网络提取出的行人头部朝向特征,Ф表示残差卷积神经网络,Wa表示残差神经网络的可学习参数,p表示YOLOv3目标检测器检检测到的头部区域信息。
头部朝向特征fa一方面用来与局部交通场景特征进行融合,预测行人的穿越/不穿越意图,另一方面连接全连接(Fully connected layer,FC)层进行降维,从而得到反映行人注视/非注视的二维向量。本发明设计了三层FC层,实现了头部朝向特征fa的降维:512->256->64->2,最后使用二分类交叉熵损失函数训练行人注视/非注视分类器,损失函数L1如下所示:
L1=Lbinary_cross_entropy(Fa(fa,Wfa),Ya)
其中,Fa表示用来降维的FC层,Wfa表示FC层的可学习参数,Ya表示训练样本的真实标签(注视/非注视)。
所述步骤S3具体包括:
(1)、卷积神经网络的搭建。
通过识别局部交通场景作为判断行人是否穿越马路的辅助因素,所述局部交通场景包括六个典型交通场景,分别是:斑马线场景、红绿灯场景、行人标志场景、停车场场景、停止符号场景以及正常行驶场景,其中前五种场景揭示了行人有较大概率会穿越马路。由于多个场景可能共存(场景中包含斑马线和红绿灯),搭建出基于卷积神经网络的局部交通场景多标签分类器。
该多标签分类器采用5层的卷积神经网络,其中前四层分别包含一个卷积层和一个下采样层,卷积层采用3×3的滤波器,然后接上BatchNorm层以及ReLU层进行归一化和激活操作,下采样通过步长为2的2×2最大池化操作实现;最后一层仅包含3×3滤波器的卷积层,并通过自适应最大池化将卷积层输出的特征图转换成局部交通场景特征fp;每一层滤波器数目的设计遵循减少特征图分辨率的情况下增加特征通道数的原则,5层的卷积神经网络每一层的特征通道数目分别为32、64、128、256、512,最终向量fp的维度是512。
(2)、局部交通场景分类器设计。
使用卷积神经网络可以提取局部交通场景特征fp,定义如下:
fp=Ψ(P,Wp)
其中,fp表示卷积神经网络提取出的局部交通场景特征,Ψ表示卷积神经网络,Wp表示卷积神经网络的可学习参数,P表示感兴趣目标周围的局部交通场景。
局部交通场景特征fp一方面用来与头部朝向特征进行融合,预测行人的穿越/不穿越意图,另一方面需连接FC层进行降维,从而得到代表需要识别的6种交通场景的六维向量,其中向量的某一位为1表示当前存在该场景,否则该位为0。采用三层FC层,实现局部交通场景特征fp的降维:512->256->64->6,最后使用多类别交叉熵损失函数训练局部交通场景多类别分类器,损失函数L2如下式所示:
L2=Lcategorical_cross_entropy(Fp(fp,Wfp),Yp)
其中,Fp表示所使用的三层FC层,Wfp表示FC层的可学习参数,Yp表示样本的真实标签(包含的典型场景)。
所述步骤4)具体包括:
(1)、融合注视识别与交通场景分类的行人穿越马路意图识别。
搭建残差卷积神经网络从感兴趣行人的头部区域中提取头部朝向特征fa,搭建卷积神经网络从感兴趣行人的周围交通场景中提取局部交通场景特征fp,进一步可以融合这两个特征,得到能够综合反映行人穿越意图的特征并据此判断行人是否会进行穿越。
采用直接拼接的方式融合上述fa与fp,并使用一个全连接层FC将融合后的特征映射成包含两个神经元的向量,最后通过二分类交叉熵损失函数训练穿越/不穿越分类器,损失函数L3如下式所示:
L3=Lbinary_cross_entropy(F(fa,fp,Wf),Yc)
其中,其中,F表示所使用的全连接层FC,Wf表示全连接网络FC的可学习参数,Yc表示样本的真实标签(穿越/不穿越)。
为了实现整体框架的端到端训练并且充分利用不同分类器训练过程中的互补性,更好地进行特征提取,采用多任务学习方式同时对所设计的三个分类器进行优化,整体框架的损失函数的定义如下:
LOSS=λ1·L1+λ2·L2+λ3·L3
其中,λ1、λ2、λ3分别表示L1、L2、L3的权重,可以通过交叉验证试验性地选择λ1、λ2、λ3的取值。
本发明的有益效果是:
(1)、利用faster-RCNN进行行人检测,进一步利用检测到行人的运动信息来确定感兴趣目标,大大提高了行人穿越马路意图识别算法的效率;
(2)、利用残差卷积神经网络识别感兴趣行人是否注视来车,可以有效判断行人是否有穿越马路的倾向;
(3)、通过识别感兴趣行人周围的交通场景要素,可以有效改善利用行为识别行人穿越马路意图的准确性。
附图说明
下面结合附图和实施例对本发明进一步说明。
图1是本发明的系统流程图。
图2是本发明中提出的用于提取头部朝向特征的残差卷积神经网络示意图。
图3是本发明中提出的用于提取局部交通场景特征的卷积神经网络示意图。
图4是本发明中提出的结合头部朝向特征与局部交通场景特征进行行人穿越意图识别的示意图。
具体实施方式
现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图,仅以示意方式说明本发明的基本结构,因此其仅显示与本发明有关的构成。
如图1所示,一种基于注视检测和交通场景识别的行人穿越马路意图识别方法,该方法综合考虑了行人是否注视来车以及行人所处的交通环境这两个影响行人是否穿越马路的因素,通过faster-RCNN进行行人检测,进一步利用行人的运动信息搜索感兴趣目标,提取感兴趣目标的运动序列以及周围交通场景序列;训练了YOLOv3检测器用于检测感兴趣行人的头部区域,基于残差卷积神经网络搭建了行人的注视/非注视分类器,得到行人的面部朝向分类结果(分为注视/非注视两类)以及头部朝向特征;定义了斑马线场景、红绿灯场景、行人标志场景、停车场场景、停止符号场景以及正常行驶场景,基于卷积神经网络搭建了局部交通场景识别分类器,得到行人当前所处的交通场景情况以及局部交通场景特征;最后将头部朝向特征和局部交通场景特征进行融合,利用全连接层将融合后的特征降维,用降维后的特征训练穿越/不穿越分类器。考虑到三种分类器的内在关联,在多任务学习框架下同时对三个分类器进行训练,得到了更加准确地行人穿越/不穿越识别结果。
本发明的具体操作步骤如下:
1)、基于faster-RCNN的行人检测。
首先对输入图像序列进行处理,提取其中的感兴趣行人,即马路边有潜在穿越可能的行人;然后使用Faster-RCNN目标检测器检测输入图像序列每一帧的行人,记录行人在每一帧的位置信息,并将连续帧内所有行人的位置变化信息送到下一步进行感兴趣目标搜索。
2)、基于目标运动轨迹的感兴趣目标搜索。
得到某段时间范围内所有行人的位置变化信息后,根据该信息确定感兴趣目标。所述的感兴趣目标定义为在路边等待、有穿越倾向的行人,根据行人检测得到的每个行人的轨迹信息,令Dm和Dl分别表示轨迹内每两个时间点的平均位置变化和首尾两个时间点的位置变化,将Dm和Dl与预先通过经验设定的阈值Tm和Tl进行比较,如果小于阈值,则表示这个行人在该时间范围内静止或指发生了轻微位置变化,认为该人为感兴趣目标;如果大于阈值,则表示这个行人处于持续移动过程中,为非感兴趣目标。对于感兴趣目标,保存其在一定时间范围内的运动序列(该序列每一帧为检测到的感兴趣行人区域)以及局部交通场景序列(将检测到的感兴趣行人区域放大指定倍数后得到)。
3)、头部检测器的设计。
通过步骤2)得到感兴趣目标序列后,需要进一步检测目标的头部区域,用于后续注视/非注视分类器的训练。对于任意感兴趣目标的最小外接矩形框,根据经验信息将最小外接矩形框的上1/3部分作为扫描区域;由于此区域背景简单,因此采用YOLOv3目标检测器检测行人头部区域,以减小算法的时间开销。
图2给出了用于提取头部朝向特征的残差卷积神经网络示意图。
4)、残差卷积神经网络的搭建。
通过检测行人是否注视来车作为判断行人是否穿越马路的主要因素,为了检测行人是否注视来车,搭建了基于残差卷积神经网络的注视/非注视分类器。采用34层的残差卷积神经网络,网络由若干基本模块组成,对于任意基本模块,假设输入信号为X,首先经过F(F表示卷积滤波器数目,每个基本模块有不同的F)个3×3的卷积滤波器进行处理,然后接上批量标准化(BatchNorm)层以及线性整流函数(Rectified Linear Unit,ReLU)层进行归一化和激活操作,接着再使用F个3×3的卷积滤波器进行处理,输出的结果通过BatchNorm层归一化处理后,和基本模块的输入X进行逐元素相加操作以实现残差连接,相加后的结果经过ReLU层激活后输出。在定义了基本模块的前提下,34层的残差三维卷积神经网络结构如下:首先对输入信号使用64个3×3的三维卷积滤波器进行卷积处理,然后经过3×3的最大池化;输出的信号送入第二个数据处理组块,该组块由3个基本模块串联组成,滤波器数目F等于64;然后信号送入第三、四、五个数据处理组块,这些组块分别由4、6、3个基本模块串联组成,基本模块包含的滤波器数目分别为128、256、512;最后对第五个数据处理组块输出的特征图使用自适应平均池化得到512维的头部朝向特征。
5)、行人注视/非注视分类器学习。
使用残差卷积神经网络提取感兴趣行人的头部朝向特征fa,定义如下:
fa=Φ(p,Wa)
其中,fa表示残差卷积神经网络提取出的行人头部朝向特征,Ф表示残差卷积神经网络,Wa表示残差神经网络的可学习参数,p表示YOLOv3目标检测器检检测到的头部区域信息。
头部朝向特征fa一方面用来与局部交通场景特征进行融合,预测行人的穿越/不穿越意图,另一方面连接全连接(Fully connected layer,FC)层进行降维,从而得到反映行人注视/非注视的二维向量。采用三层FC层,实现头部朝向特征fa的降维:512->256->64->2,最后使用二分类交叉熵损失函数训练行人注视/非注视分类器,损失函数L1如下式所示:
L1=Lbinary_cross_entropy(Fa(fa,Wfa),Ya)
其中,Fa表示用来降维的FC层,Wfa表示FC层的可学习参数,Ya表示训练样本的真实标签(注视/非注视)。
图3给出了用于提取局部交通场景特征的卷积神经网络示意图。
6)、卷积神经网络的搭建。
通过识别局部交通场景作为判断行人是否穿越马路的辅助因素,所述局部交通场景包括六个典型交通场景,分别是:斑马线场景、红绿灯场景、行人标志场景、停车场场景、停止符号场景以及正常行驶场景,其中前五种场景揭示了行人有较大概率会穿越马路。由于多个场景可能共存(场景中包含斑马线和红绿灯),因此搭建了基于卷积神经网络的局部交通场景多标签分类器,并采用5层的卷积神经网络,其中前四层分别包含一个卷积层和一个下采样层,卷积层采用3×3的滤波器,然后接上BatchNorm层以及ReLU层进行归一化和激活操作,下采样通过步长为2的2×2最大池化操作实现;最后一层仅包含3×3滤波器的卷积层,并通过自适应最大池化将卷积层输出的特征图转换成局部交通场景特征fp;每一层滤波器数目的设计遵循减少特征图分辨率的情况下增加特征通道数的原则,5层的卷积神经网络每一层的特征通道数目分别为32、64、128、256、512,最终向量fp的维度是512。
7)、局部交通场景分类器设计。
使用卷积神经网络可以提取局部交通场景特征fp,定义如下:
fp=Ψ(P,Wp)
其中,fp表示卷积神经网络提取出的局部交通场景特征,Ψ表示卷积神经网络,Wp表示卷积神经网络的可学习参数,P表示感兴趣目标周围的局部交通场景。
局部交通场景特征fp一方面用来与头部朝向特征进行融合,预测行人的穿越/不穿越意图,另一方面需连接FC层进行降维,从而得到代表本发明需要识别的6种交通场景的六维向量,其中向量的某一位为1表示当前存在该场景,否则该位为0。本实施例采用三层FC层,实现局部交通场景特征fp的降维:512->256->64->6,最后使用多类别交叉熵损失函数训练局部交通场景多类别分类器,损失函数L2如下所示:
L2=Lcategorical_cross_entropy(Fp(fp,Wfp),Yp)
其中,Fp表示所使用的三层FC层,Wfp表示FC层的可学习参数,Yp表示样本的真实标签(包含的典型场景)。
图4给出了结合头部朝向特征与局部交通场景特征进行行人穿越意图识别的示意图。
8)、融合注视识别与交通场景分类的行人穿越马路意图识别。
通过搭建残差卷积神经网络从感兴趣行人的头部区域中提取头部朝向特征fa,通过搭建卷积神经网络从感兴趣行人的周围交通场景中提取局部交通场景特征fp,进一步可以融合这两个特征,得到能够综合反映行人穿越意图的特征并据此判断行人是否会进行穿越。
采用直接拼接的方式融合fa与fp,并使用一个全连接层FC将融合后的特征映射成包含两个神经元的向量,最后通过二分类交叉熵损失函数训练穿越/不穿越分类器,损失函数L3如下所示:
L3=Lbinary_cross_entropy(F(fa,fp,Wf),Yc)
其中,其中,F表示所使用的全连接层FC,Wf表示全连接网络FC的可学习参数,Yc表示样本的真实标签(穿越/不穿越)。
为了实现整体框架的端到端训练并且充分利用不同分类器训练过程中的互补性,更好地进行特征提取,采用多任务学习方式同时对所设计的三个分类器进行优化,整体框架的损失函数的定义如下:
LOSS=λ1·L1+λ2·L2+λ3·L3
其中,λ1、λ2、λ3分别表示L1、L2、L3的权重,可以通过交叉验证试验性地选择λ1、λ2、λ3的取值。
本发明借鉴了卷积神经网络在目标分类上的成功,设计了三个分类器,分别用来分类行人的注视/非注视行为、当前所属的交通场景以及穿越/不穿越意图,并可在多任务学习框架下同时学习三个分类器,可以得到更加准确的分类效果,提高了识别行人穿越意图的准确性。
以上述依据本发明的理想实施例为启示,通过上述的说明内容,相关工作人员完全可以在不偏离本项发明技术思想的范围内,进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定其技术性范围。
Claims (5)
1.一种基于注视检测和交通场景识别的行人穿越马路意图识别方法,其特征是:具有以下步骤:
S1、基于运动目标检测的感兴趣目标搜索;
S2、基于残差卷积神经网络的行人注视/非注视识别;
S3、基于卷积神经网络的局部交通场景识别;
S4、基于多任务学习框架的行人穿越/不穿越结果识别。
2.如权利要求1所述的基于注视检测和交通场景识别的行人穿越马路意图识别方法,其特征是:所述的步骤S1中,具体包括:
(1)、行人检测:首先要对输入图像序列进行处理,提取其中的感兴趣行人,即马路边有潜在穿越可能的行人;
(2)、感兴趣目标搜索:得到某段时间范围内所有行人的位置变化信息后,根据该信息确定感兴趣目标。
3.如权利要求1所述的基于注视检测和交通场景识别的行人穿越马路意图识别方法,其特征是:所述的步骤S2中,具体包括:
(1)、头部检测器的设计:对得到的感兴趣目标序列,进一步检测目标的头部区域,用于后续注视/非注视分类器的训练;
(2)、残差卷积神经网络的搭建:通过搭建基于残差卷积神经网络的注视/非注视分类器来检测行人是否注视来车,作为判断行人是否穿越马路的主要因素;
(3)、行人注视/非注视分类器学习:使用残差卷积神经网络提取感兴趣行人的头部朝向特征fa,定义如下:
fa=Φ(p,Wa)
上式中,fa表示残差卷积神经网络提取出的行人头部朝向特征,Ф表示残差卷积神经网络,Wa表示残差神经网络的可学习参数,p表示目标检测器检检测到的头部区域信息。
4.如权利要求1所述的基于注视检测和交通场景识别的行人穿越马路意图识别方法,其特征是:所述的步骤S3中,具体包括:
(1)、卷积神经网络的搭建:通过识别局部交通场景作为判断行人是否穿越马路的辅助因素,搭建出基于卷积神经网络的局部交通场景多标签分类器;
(2)、局部交通场景分类器设计:使用卷积神经网络可以提取局部交通场景特征fp,定义如下:
fp=Ψ(P,Wp)
其中,fp表示卷积神经网络提取出的局部交通场景特征,Ψ表示卷积神经网络,Wp表示卷积神经网络的可学习参数,P表示感兴趣目标周围的局部交通场景。
5.如权利要求1所述的基于注视检测和交通场景识别的行人穿越马路意图识别方法,其特征是:所述的步骤S4中,具体包括:
(1)、融合注视识别与交通场景分类的行人穿越马路意图识别:通过搭建残差卷积神经网络从感兴趣行人的头部区域中提取头部朝向特征fa,通过搭建卷积神经网络从感兴趣行人的周围交通场景中提取局部交通场景特征fp,进一步可以融合这两个特征,得到能够综合反映行人穿越意图的特征并据此判断行人是否会进行穿越;
(2)、采用直接拼接的方式融合fa与fp,并使用一个全连接层FC将融合后的特征映射成包含两个神经元的向量,最后通过二分类交叉熵损失函数训练穿越/不穿越分类器,损失函数L3如下式所示:
L3=Lbinary_cross_entropy(F(fa,fp,Wf),Yc)
其中,其中,F表示所使用的全连接层FC,Wf表示全连接网络FC的可学习参数,Yc表示样本的真实标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011276599.3A CN112329684B (zh) | 2020-11-16 | 2020-11-16 | 一种基于注视检测和交通场景识别的行人穿越马路意图识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011276599.3A CN112329684B (zh) | 2020-11-16 | 2020-11-16 | 一种基于注视检测和交通场景识别的行人穿越马路意图识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112329684A true CN112329684A (zh) | 2021-02-05 |
CN112329684B CN112329684B (zh) | 2024-04-30 |
Family
ID=74317429
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011276599.3A Active CN112329684B (zh) | 2020-11-16 | 2020-11-16 | 一种基于注视检测和交通场景识别的行人穿越马路意图识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112329684B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113111824A (zh) * | 2021-04-22 | 2021-07-13 | 青岛图灵科技有限公司 | 一种基于视频分析的行人穿越马路实时识别方法 |
CN113392725A (zh) * | 2021-05-26 | 2021-09-14 | 苏州易航远智智能科技有限公司 | 基于视频数据的行人过街意图识别方法 |
CN113744524A (zh) * | 2021-08-16 | 2021-12-03 | 武汉理工大学 | 一种基于车辆间协同计算通信的行人意图预测方法及系统 |
CN113808099A (zh) * | 2021-09-11 | 2021-12-17 | 苏州兆能视觉科技有限公司 | 一种铝材表面缺陷检测装置与方法 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060177097A1 (en) * | 2002-06-14 | 2006-08-10 | Kikuo Fujimura | Pedestrian detection and tracking with night vision |
CN105930830A (zh) * | 2016-05-18 | 2016-09-07 | 大连理工大学 | 一种基于卷积神经网络的路面交通标志识别方法 |
CN107423679A (zh) * | 2017-05-31 | 2017-12-01 | 深圳市鸿逸达科技有限公司 | 一种行人意图检测方法和系统 |
CN108154110A (zh) * | 2017-12-22 | 2018-06-12 | 任俊芬 | 一种基于深度学习人头检测的密集人流量统计方法 |
CN108447305A (zh) * | 2018-04-21 | 2018-08-24 | 上海交通大学 | 一种新交规下礼让行人预警方法及预警系统 |
CN108537264A (zh) * | 2018-03-30 | 2018-09-14 | 西安电子科技大学 | 基于深度学习的异源图像匹配方法 |
CN109712388A (zh) * | 2019-01-24 | 2019-05-03 | 华南理工大学 | 一种非机动车或行人的过街意图检测系统及方法 |
US20190213887A1 (en) * | 2016-07-07 | 2019-07-11 | Denso Corporation | Pedestrian detection apparatus and pedestrian detection method |
CN110096965A (zh) * | 2019-04-09 | 2019-08-06 | 华东师范大学 | 一种基于头部姿态的人脸识别方法 |
DE102018104270A1 (de) * | 2018-02-26 | 2019-08-29 | Connaught Electronics Ltd. | Verfahren zum Vorhersagen des Verhaltens mindestens eines Fußgängers |
CN110414365A (zh) * | 2019-07-03 | 2019-11-05 | 上海交通大学 | 基于社会力模型的过街行人轨迹预测方法、系统及介质 |
CN110570670A (zh) * | 2019-10-16 | 2019-12-13 | 公安部交通管理科学研究所 | 基于视频行人检测的路段行人过街信号系统及方法 |
WO2020127689A1 (de) * | 2018-12-20 | 2020-06-25 | Robert Bosch Gmbh | VERFAHREN ZUM AUTOMATISIERTEN STEUERN EINES FAHRZEUGS AN EINEM FUßGÄNGERÜBERWEG, STEUERGERÄT |
US20200250553A1 (en) * | 2017-11-15 | 2020-08-06 | Mitsubishi Electric Corporation | Out-of-vehicle communication device, out-of-vehicle communication method, information processing device, and computer readable medium |
CN111860269A (zh) * | 2020-07-13 | 2020-10-30 | 南京航空航天大学 | 一种多特征融合的串联rnn结构及行人预测方法 |
-
2020
- 2020-11-16 CN CN202011276599.3A patent/CN112329684B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060177097A1 (en) * | 2002-06-14 | 2006-08-10 | Kikuo Fujimura | Pedestrian detection and tracking with night vision |
CN105930830A (zh) * | 2016-05-18 | 2016-09-07 | 大连理工大学 | 一种基于卷积神经网络的路面交通标志识别方法 |
US20190213887A1 (en) * | 2016-07-07 | 2019-07-11 | Denso Corporation | Pedestrian detection apparatus and pedestrian detection method |
CN107423679A (zh) * | 2017-05-31 | 2017-12-01 | 深圳市鸿逸达科技有限公司 | 一种行人意图检测方法和系统 |
US20200250553A1 (en) * | 2017-11-15 | 2020-08-06 | Mitsubishi Electric Corporation | Out-of-vehicle communication device, out-of-vehicle communication method, information processing device, and computer readable medium |
CN108154110A (zh) * | 2017-12-22 | 2018-06-12 | 任俊芬 | 一种基于深度学习人头检测的密集人流量统计方法 |
DE102018104270A1 (de) * | 2018-02-26 | 2019-08-29 | Connaught Electronics Ltd. | Verfahren zum Vorhersagen des Verhaltens mindestens eines Fußgängers |
CN108537264A (zh) * | 2018-03-30 | 2018-09-14 | 西安电子科技大学 | 基于深度学习的异源图像匹配方法 |
CN108447305A (zh) * | 2018-04-21 | 2018-08-24 | 上海交通大学 | 一种新交规下礼让行人预警方法及预警系统 |
WO2020127689A1 (de) * | 2018-12-20 | 2020-06-25 | Robert Bosch Gmbh | VERFAHREN ZUM AUTOMATISIERTEN STEUERN EINES FAHRZEUGS AN EINEM FUßGÄNGERÜBERWEG, STEUERGERÄT |
CN109712388A (zh) * | 2019-01-24 | 2019-05-03 | 华南理工大学 | 一种非机动车或行人的过街意图检测系统及方法 |
CN110096965A (zh) * | 2019-04-09 | 2019-08-06 | 华东师范大学 | 一种基于头部姿态的人脸识别方法 |
CN110414365A (zh) * | 2019-07-03 | 2019-11-05 | 上海交通大学 | 基于社会力模型的过街行人轨迹预测方法、系统及介质 |
CN110570670A (zh) * | 2019-10-16 | 2019-12-13 | 公安部交通管理科学研究所 | 基于视频行人检测的路段行人过街信号系统及方法 |
CN111860269A (zh) * | 2020-07-13 | 2020-10-30 | 南京航空航天大学 | 一种多特征融合的串联rnn结构及行人预测方法 |
Non-Patent Citations (4)
Title |
---|
杨京帅;任书杭;马志政;王浩;罗钿;: "道路交通碰撞事故致因建模与影响因素试验分析", 东南大学学报(自然科学版), no. 05, 20 September 2015 (2015-09-20) * |
杨京帅;李秀丽;任书杭;王婷;高扬;: "驾驶人危险感知影响因素建模与试验", 长安大学学报(自然科学版), no. 05, 15 September 2015 (2015-09-15) * |
郭赟;张剑妹;连玮;: "基于头部姿态的学习注意力判别研究", 科学技术与工程, no. 14, 18 May 2020 (2020-05-18) * |
鹿天然;于凤芹;陈莹;: "有效视频帧时间序池化的人体行为识别算法", 计算机工程, no. 12, 15 December 2018 (2018-12-15) * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113111824A (zh) * | 2021-04-22 | 2021-07-13 | 青岛图灵科技有限公司 | 一种基于视频分析的行人穿越马路实时识别方法 |
CN113392725A (zh) * | 2021-05-26 | 2021-09-14 | 苏州易航远智智能科技有限公司 | 基于视频数据的行人过街意图识别方法 |
CN113392725B (zh) * | 2021-05-26 | 2022-10-18 | 苏州易航远智智能科技有限公司 | 基于视频数据的行人过街意图识别方法 |
CN113744524A (zh) * | 2021-08-16 | 2021-12-03 | 武汉理工大学 | 一种基于车辆间协同计算通信的行人意图预测方法及系统 |
CN113808099A (zh) * | 2021-09-11 | 2021-12-17 | 苏州兆能视觉科技有限公司 | 一种铝材表面缺陷检测装置与方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112329684B (zh) | 2024-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112329684B (zh) | 一种基于注视检测和交通场景识别的行人穿越马路意图识别方法 | |
Hasegawa et al. | Robust Japanese road sign detection and recognition in complex scenes using convolutional neural networks | |
Sirohi et al. | Convolutional neural networks for 5G-enabled intelligent transportation system: A systematic review | |
CN110263786B (zh) | 一种基于特征维度融合的道路多目标识别系统及方法 | |
CN112339773B (zh) | 一种基于单目视觉的非主动车道偏离预警方法及系统 | |
CN112329682B (zh) | 一种基于穿越动作和交通场景上下文因素的行人穿越马路意图识别方法 | |
CN111507160B (zh) | 集成从执行协同驾驶的车辆获取的行驶图像的方法及装置 | |
KR20200003349A (ko) | 교통 표지판 인식 시스템 및 방법 | |
Muthalagu et al. | Vehicle lane markings segmentation and keypoint determination using deep convolutional neural networks | |
Sayeed et al. | Bangladeshi traffic sign recognition and classification using cnn with different kinds of transfer learning through a new (btsrb) dataset | |
Gautam et al. | Image-based automatic traffic lights detection system for autonomous cars: a review | |
Greer et al. | Robust traffic light detection using salience-sensitive loss: Computational framework and evaluations | |
Aldoski et al. | Impact of traffic sign diversity on autonomous vehicles: a literature review | |
Barshooi et al. | Nighttime Driver Behavior Prediction Using Taillight Signal Recognition via CNN-SVM Classifier | |
Yamamoto et al. | Identifying near-miss traffic incidents in event recorder data | |
Zakaria et al. | Gradient-based edge effects on lane marking detection using a deep learning-based approach | |
CN113392812B (zh) | 基于深度神经网络的道路车道线检测方法及系统 | |
Choda et al. | A critical survey on real-time traffic sign recognition by using cnn machine learning algorithm | |
Priya et al. | Vehicle Detection in Autonomous Vehicles Using Computer Vision Check for updates | |
CN112818858A (zh) | 一种基于双通路视觉机制的雨天交通视频显著性检测方法 | |
Moorthy et al. | Real time image and video semantic segmentation for self-driving cars | |
Anitha et al. | MNNP: Design and Development of Traffic Sign Identification and Recognition System to Support Smart Vehicles using Modified Neural Network Principles | |
Keshav et al. | Robust Drive Controlling System Based on Road Sign Detection for Low-Resolution Images | |
Michalewicz | AI-Driven Systems for Autonomous Vehicle Road Sign Detection and Classification | |
Ramzi et al. | Road obstacle detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |