CN112329684B - 一种基于注视检测和交通场景识别的行人穿越马路意图识别方法 - Google Patents

一种基于注视检测和交通场景识别的行人穿越马路意图识别方法 Download PDF

Info

Publication number
CN112329684B
CN112329684B CN202011276599.3A CN202011276599A CN112329684B CN 112329684 B CN112329684 B CN 112329684B CN 202011276599 A CN202011276599 A CN 202011276599A CN 112329684 B CN112329684 B CN 112329684B
Authority
CN
China
Prior art keywords
pedestrian
traffic scene
neural network
pedestrians
crossing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011276599.3A
Other languages
English (en)
Other versions
CN112329684A (zh
Inventor
杨彪
王狄
徐黎明
陈阳
吕继东
毕卉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changzhou University
Original Assignee
Changzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changzhou University filed Critical Changzhou University
Priority to CN202011276599.3A priority Critical patent/CN112329684B/zh
Publication of CN112329684A publication Critical patent/CN112329684A/zh
Application granted granted Critical
Publication of CN112329684B publication Critical patent/CN112329684B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]

Abstract

本发明涉及一种基于注视检测和交通场景识别的行人穿越马路意图识别方法,首先通过faster‑RCNN进行行人检测,进一步利用行人的运动信息搜索感兴趣目标,提取感兴趣目标的运动序列和局部交通场景序列;其次通过头部检测器检测感兴趣目标序列中的头部位置,并采用残差卷积神经网络来判断头部朝向,进而检测行人是否注视来车,同时提取头部朝向特征;然后通过卷积神经网络分类器对行人所处的局部交通场景进行多标签分类,并提取局部交通场景特征;最后利用全连接层处理拼接后的头部朝向特征与局部交通场景特征,实行对行人穿越/不穿越结果的识别。本发明使用多任务学习模式,可实现端到端地完成注视/非注视识别、穿越/不穿越识别以及交通场景分类。

Description

一种基于注视检测和交通场景识别的行人穿越马路意图识别 方法
技术领域
本发明涉及智能交通技术领域,具体涉及行人检测与分析领域,尤其是一种基于注视检测和交通场景识别的行人穿越马路意图识别方法。
背景技术
随着计算机视觉、传感器技术以及控制理论的不断发展,无人车得到了广泛的关注,具有光明的应用前景。无人车可以给人们的生活带来便利,但是,无人车在顺利运行的过程中需要保证其它道路使用者的权利,尤其是行人的安全。为了更好地保护行人,无人车需要理解行人的行为,并据此调整本身的策略。在行人的诸多行为中,行人穿越马路最为频繁,且与行人安全高度相关。人类驾驶员可以快速地判断行人是否有穿越马路的意图,但是无人车仍然难以在高效通行和保证行人安全两者间达到较好的平衡。
行人穿越马路受多种因素影响,通常分为外部因素(交通场景的布局、交通流量以及天气情况等)和内部因素(性别、年龄、时间压力等)。由于行人的行为具有随机性,无论是机器或者人类,都无法完全准确地预测行人是否会穿越马路。但是,行人的一些行为揭示了其有较强的可能会进行穿越,譬如行人注视着来车,试图与司机进行眼神交流;同时,行人所处的交通场景也对其是否穿越马路有较大的影响,譬如在红绿灯路口或者斑马线路口,行人有大概率会穿越马路。
利用计算机视觉技术,研究者可以检测到行人,并进而检测到行人的头部区域,并通过设计分类器来检测行人是否注视着来车,据此判断行人是否具有穿越马路的意图。同时,利用计算机视觉技术可以较好地感知行人所处的交通环境,譬如:使用语义分割可以得到当前交通场景每个像素点的意义,使用目标检测可以得知当前场景中是否存在红绿灯、斑马线等标志物,使用分类器可以直接将当前交通场景分为指定的类别。
发明内容
本发明要解决的技术问题是:为了克服现有技术中之不足,本发明提供一种基于注视检测和交通场景识别的行人穿越马路意图识别方法,以其能够结合行人是否注意来车以及行人周围交通场景的信息来综合判断行人是否有穿越马路的意图,从而提高无人车对行人的保护能力。
本发明解决其技术问题所采用的技术方案是:一种基于注视检测和交通场景识别的行人穿越马路意图识别方法,包括以下步骤:
S1、基于运动目标检测算法检测行人并根据其运动信息确定感兴趣目标,提取感兴趣目标序列及其局部交通场景信息;
S2、利用残差卷积神经网络搭建感兴趣行人头部朝向分类器判断行人是否注视来车,并提取行人的头部朝向特征;
S3、利用卷积神经网络搭建感兴趣行人的局部交通场景分类器识别行人所处的场景,并提取局部交通场景特征;
S4、融合头部朝向特征与局部交通场景特征学习感兴趣行人的穿越/不穿越分类器,并在多任务学习框架下同时优化三个分类器。
进一步,所述步骤S1具体包括:
(1)、行人检测。
首先对输入图像序列进行处理,提取其中的感兴趣行人,即马路边有潜在穿越可能的行人。使用Faster-RCNN目标检测器检测输入图像序列每一帧的行人,记录行人在每一帧的位置信息,并将连续帧内所有行人的位置变化信息送到下一步进行感兴趣目标搜索。
(2)、感兴趣目标搜索。
得到某段时间范围内所有行人的位置变化信息后,根据该信息确定感兴趣目标。所述的感兴趣目标定义为在路边等待、有穿越倾向的行人。根据行人检测得到的每个行人的轨迹信息,令Dm和Dl分别表示轨迹内每两个时间点的平均位置变化和首尾两个时间点的位置变化,将Dm和Dl与预先通过经验设定的阈值Tm和Tl进行比较,如果小于阈值,则表示这个行人在该时间范围内静止或指发生了轻微位置变化,认为该人为感兴趣目标;如果大于阈值,则表示这个行人处于持续移动过程中,为非感兴趣目标。对于感兴趣目标,保存其在一定时间范围内的运动序列(该序列每一帧为检测到的感兴趣行人区域)以及局部交通场景序列(将检测到的感兴趣行人区域放大指定倍数后得到)。
所述步骤S2具体包括:
(1)、头部检测器的设计。
得到感兴趣目标序列后,需要进一步检测目标的头部区域,用于后续注视/非注视分类器的训练。对于任意感兴趣目标的最小外接矩形框,根据经验信息将最小外接矩形框的上1/3部分作为扫描区域;由于此区域背景简单,可使用YOLOv3目标检测器检测行人头部区域,以减小算法的时间开销。
(2)、残差卷积神经网络的搭建。
通过检测行人是否注视来车作为判断行人是否穿越马路的主要因素,为了检测行人是否注视来车,搭建基于残差卷积神经网络的注视/非注视分类器。所述注视/非注视分类器采用34层的残差卷积神经网络,网络由若干基本模块组成。对于任意基本模块,假设输入信号为X,首先经过F(F表示卷积滤波器数目,每个基本模块有不同的F)个3×3的卷积滤波器进行处理,然后接上批量标准化(BatchNorm)层以及线性整流函数(Rectified LinearUnit,ReLU)层进行归一化和激活操作,接着再使用F个3×3的卷积滤波器进行处理,输出的结果通过BatchNorm层归一化处理后,和基本模块的输入X进行逐元素相加操作以实现残差连接,相加后的结果经过ReLU层激活后输出。在定义了基本模块的前提下,34层的残差三维卷积神经网络结构如下:首先对输入信号使用64个3×3的三维卷积滤波器进行卷积处理,然后经过3×3的最大池化;输出的信号送入第二个数据处理组块,该组块由3个基本模块串联组成,滤波器数目F等于64;然后信号送入第三、四、五个数据处理组块,这些组块分别由4、6、3个基本模块串联组成,基本模块包含的滤波器数目分别为128、256、512;最后对第五个数据处理组块输出的特征图使用自适应平均池化得到512维的头部朝向特征。
(3)、行人注视/非注视分类器学习。
使用残差卷积神经网络可以提取感兴趣行人的头部朝向特征fa,定义如下:
fa=Φ(p,Wa)
其中,fa表示残差卷积神经网络提取出的行人头部朝向特征,Ф表示残差卷积神经网络,Wa表示残差神经网络的可学习参数,p表示YOLOv3目标检测器检检测到的头部区域信息。
头部朝向特征fa一方面用来与局部交通场景特征进行融合,预测行人的穿越/不穿越意图,另一方面连接全连接(Fully connected layer,FC)层进行降维,从而得到反映行人注视/非注视的二维向量。本发明设计了三层FC层,实现了头部朝向特征fa的降维:512->256->64->2,最后使用二分类交叉熵损失函数训练行人注视/非注视分类器,损失函数L1如下所示:
L1=Lbinary_cross_entropy(Fa(fa,Wfa),Ya)
其中,Fa表示用来降维的FC层,Wfa表示FC层的可学习参数,Ya表示训练样本的真实标签(注视/非注视)。
所述步骤S3具体包括:
(1)、卷积神经网络的搭建。
通过识别局部交通场景作为判断行人是否穿越马路的辅助因素,所述局部交通场景包括六个典型交通场景,分别是:斑马线场景、红绿灯场景、行人标志场景、停车场场景、停止符号场景以及正常行驶场景,其中前五种场景揭示了行人有较大概率会穿越马路。由于多个场景可能共存(场景中包含斑马线和红绿灯),搭建出基于卷积神经网络的局部交通场景多标签分类器。
该多标签分类器采用5层的卷积神经网络,其中前四层分别包含一个卷积层和一个下采样层,卷积层采用3×3的滤波器,然后接上BatchNorm层以及ReLU层进行归一化和激活操作,下采样通过步长为2的2×2最大池化操作实现;最后一层仅包含3×3滤波器的卷积层,并通过自适应最大池化将卷积层输出的特征图转换成局部交通场景特征fp;每一层滤波器数目的设计遵循减少特征图分辨率的情况下增加特征通道数的原则,5层的卷积神经网络每一层的特征通道数目分别为32、64、128、256、512,最终向量fp的维度是512。
(2)、局部交通场景分类器设计。
使用卷积神经网络可以提取局部交通场景特征fp,定义如下:
fp=Ψ(P,Wp)
其中,fp表示卷积神经网络提取出的局部交通场景特征,Ψ表示卷积神经网络,Wp表示卷积神经网络的可学习参数,P表示感兴趣目标周围的局部交通场景。
局部交通场景特征fp一方面用来与头部朝向特征进行融合,预测行人的穿越/不穿越意图,另一方面需连接FC层进行降维,从而得到代表需要识别的6种交通场景的六维向量,其中向量的某一位为1表示当前存在该场景,否则该位为0。采用三层FC层,实现局部交通场景特征fp的降维:512->256->64->6,最后使用多类别交叉熵损失函数训练局部交通场景多类别分类器,损失函数L2如下式所示:
L2=Lcategorical_cross_entropy(Fp(fp,Wfp),Yp)
其中,Fp表示所使用的三层FC层,Wfp表示FC层的可学习参数,Yp表示样本的真实标签(包含的典型场景)。
所述步骤4)具体包括:
(1)、融合注视识别与交通场景分类的行人穿越马路意图识别。
搭建残差卷积神经网络从感兴趣行人的头部区域中提取头部朝向特征fa,搭建卷积神经网络从感兴趣行人的周围交通场景中提取局部交通场景特征fp,进一步可以融合这两个特征,得到能够综合反映行人穿越意图的特征并据此判断行人是否会进行穿越。
采用直接拼接的方式融合上述fa与fp,并使用一个全连接层FC将融合后的特征映射成包含两个神经元的向量,最后通过二分类交叉熵损失函数训练穿越/不穿越分类器,损失函数L3如下式所示:
L3=Lbinary_cross_entropy(F(fa,fp,Wf),Yc)
其中,其中,F表示所使用的全连接层FC,Wf表示全连接网络FC的可学习参数,Yc表示样本的真实标签(穿越/不穿越)。
为了实现整体框架的端到端训练并且充分利用不同分类器训练过程中的互补性,更好地进行特征提取,采用多任务学习方式同时对所设计的三个分类器进行优化,整体框架的损失函数的定义如下:
LOSS=λ1·L12·L23·L3
其中,λ1、λ2、λ3分别表示L1、L2、L3的权重,可以通过交叉验证试验性地选择λ1、λ2、λ3的取值。
本发明的有益效果是:
(1)、利用faster-RCNN进行行人检测,进一步利用检测到行人的运动信息来确定感兴趣目标,大大提高了行人穿越马路意图识别算法的效率;
(2)、利用残差卷积神经网络识别感兴趣行人是否注视来车,可以有效判断行人是否有穿越马路的倾向;
(3)、通过识别感兴趣行人周围的交通场景要素,可以有效改善利用行为识别行人穿越马路意图的准确性。
附图说明
下面结合附图和实施例对本发明进一步说明。
图1是本发明的系统流程图。
图2是本发明中提出的用于提取头部朝向特征的残差卷积神经网络示意图。
图3是本发明中提出的用于提取局部交通场景特征的卷积神经网络示意图。
图4是本发明中提出的结合头部朝向特征与局部交通场景特征进行行人穿越意图识别的示意图。
具体实施方式
现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图,仅以示意方式说明本发明的基本结构,因此其仅显示与本发明有关的构成。
如图1所示,一种基于注视检测和交通场景识别的行人穿越马路意图识别方法,该方法综合考虑了行人是否注视来车以及行人所处的交通环境这两个影响行人是否穿越马路的因素,通过faster-RCNN进行行人检测,进一步利用行人的运动信息搜索感兴趣目标,提取感兴趣目标的运动序列以及周围交通场景序列;训练了YOLOv3检测器用于检测感兴趣行人的头部区域,基于残差卷积神经网络搭建了行人的注视/非注视分类器,得到行人的面部朝向分类结果(分为注视/非注视两类)以及头部朝向特征;定义了斑马线场景、红绿灯场景、行人标志场景、停车场场景、停止符号场景以及正常行驶场景,基于卷积神经网络搭建了局部交通场景识别分类器,得到行人当前所处的交通场景情况以及局部交通场景特征;最后将头部朝向特征和局部交通场景特征进行融合,利用全连接层将融合后的特征降维,用降维后的特征训练穿越/不穿越分类器。考虑到三种分类器的内在关联,在多任务学习框架下同时对三个分类器进行训练,得到了更加准确地行人穿越/不穿越识别结果。
本发明的具体操作步骤如下:
1)、基于faster-RCNN的行人检测。
首先对输入图像序列进行处理,提取其中的感兴趣行人,即马路边有潜在穿越可能的行人;然后使用Faster-RCNN目标检测器检测输入图像序列每一帧的行人,记录行人在每一帧的位置信息,并将连续帧内所有行人的位置变化信息送到下一步进行感兴趣目标搜索。
2)、基于目标运动轨迹的感兴趣目标搜索。
得到某段时间范围内所有行人的位置变化信息后,根据该信息确定感兴趣目标。所述的感兴趣目标定义为在路边等待、有穿越倾向的行人,根据行人检测得到的每个行人的轨迹信息,令Dm和Dl分别表示轨迹内每两个时间点的平均位置变化和首尾两个时间点的位置变化,将Dm和Dl与预先通过经验设定的阈值Tm和Tl进行比较,如果小于阈值,则表示这个行人在该时间范围内静止或指发生了轻微位置变化,认为该人为感兴趣目标;如果大于阈值,则表示这个行人处于持续移动过程中,为非感兴趣目标。对于感兴趣目标,保存其在一定时间范围内的运动序列(该序列每一帧为检测到的感兴趣行人区域)以及局部交通场景序列(将检测到的感兴趣行人区域放大指定倍数后得到)。
3)、头部检测器的设计。
通过步骤2)得到感兴趣目标序列后,需要进一步检测目标的头部区域,用于后续注视/非注视分类器的训练。对于任意感兴趣目标的最小外接矩形框,根据经验信息将最小外接矩形框的上1/3部分作为扫描区域;由于此区域背景简单,因此采用YOLOv3目标检测器检测行人头部区域,以减小算法的时间开销。
图2给出了用于提取头部朝向特征的残差卷积神经网络示意图。
4)、残差卷积神经网络的搭建。
通过检测行人是否注视来车作为判断行人是否穿越马路的主要因素,为了检测行人是否注视来车,搭建了基于残差卷积神经网络的注视/非注视分类器。采用34层的残差卷积神经网络,网络由若干基本模块组成,对于任意基本模块,假设输入信号为X,首先经过F(F表示卷积滤波器数目,每个基本模块有不同的F)个3×3的卷积滤波器进行处理,然后接上批量标准化(BatchNorm)层以及线性整流函数(Rectified Linear Unit,ReLU)层进行归一化和激活操作,接着再使用F个3×3的卷积滤波器进行处理,输出的结果通过BatchNorm层归一化处理后,和基本模块的输入X进行逐元素相加操作以实现残差连接,相加后的结果经过ReLU层激活后输出。在定义了基本模块的前提下,34层的残差三维卷积神经网络结构如下:首先对输入信号使用64个3×3的三维卷积滤波器进行卷积处理,然后经过3×3的最大池化;输出的信号送入第二个数据处理组块,该组块由3个基本模块串联组成,滤波器数目F等于64;然后信号送入第三、四、五个数据处理组块,这些组块分别由4、6、3个基本模块串联组成,基本模块包含的滤波器数目分别为128、256、512;最后对第五个数据处理组块输出的特征图使用自适应平均池化得到512维的头部朝向特征。
5)、行人注视/非注视分类器学习。
使用残差卷积神经网络提取感兴趣行人的头部朝向特征fa,定义如下:
fa=Φ(p,Wa)
其中,fa表示残差卷积神经网络提取出的行人头部朝向特征,Ф表示残差卷积神经网络,Wa表示残差神经网络的可学习参数,p表示YOLOv3目标检测器检检测到的头部区域信息。
头部朝向特征fa一方面用来与局部交通场景特征进行融合,预测行人的穿越/不穿越意图,另一方面连接全连接(Fully connected layer,FC)层进行降维,从而得到反映行人注视/非注视的二维向量。采用三层FC层,实现头部朝向特征fa的降维:512->256->64->2,最后使用二分类交叉熵损失函数训练行人注视/非注视分类器,损失函数L1如下式所示:
L1=Lbinary_cross_entropy(Fa(fa,Wfa),Ya)
其中,Fa表示用来降维的FC层,Wfa表示FC层的可学习参数,Ya表示训练样本的真实标签(注视/非注视)。
图3给出了用于提取局部交通场景特征的卷积神经网络示意图。
6)、卷积神经网络的搭建。
通过识别局部交通场景作为判断行人是否穿越马路的辅助因素,所述局部交通场景包括六个典型交通场景,分别是:斑马线场景、红绿灯场景、行人标志场景、停车场场景、停止符号场景以及正常行驶场景,其中前五种场景揭示了行人有较大概率会穿越马路。由于多个场景可能共存(场景中包含斑马线和红绿灯),因此搭建了基于卷积神经网络的局部交通场景多标签分类器,并采用5层的卷积神经网络,其中前四层分别包含一个卷积层和一个下采样层,卷积层采用3×3的滤波器,然后接上BatchNorm层以及ReLU层进行归一化和激活操作,下采样通过步长为2的2×2最大池化操作实现;最后一层仅包含3×3滤波器的卷积层,并通过自适应最大池化将卷积层输出的特征图转换成局部交通场景特征fp;每一层滤波器数目的设计遵循减少特征图分辨率的情况下增加特征通道数的原则,5层的卷积神经网络每一层的特征通道数目分别为32、64、128、256、512,最终向量fp的维度是512。
7)、局部交通场景分类器设计。
使用卷积神经网络可以提取局部交通场景特征fp,定义如下:
fp=Ψ(P,Wp)
其中,fp表示卷积神经网络提取出的局部交通场景特征,Ψ表示卷积神经网络,Wp表示卷积神经网络的可学习参数,P表示感兴趣目标周围的局部交通场景。
局部交通场景特征fp一方面用来与头部朝向特征进行融合,预测行人的穿越/不穿越意图,另一方面需连接FC层进行降维,从而得到代表本发明需要识别的6种交通场景的六维向量,其中向量的某一位为1表示当前存在该场景,否则该位为0。本实施例采用三层FC层,实现局部交通场景特征fp的降维:512->256->64->6,最后使用多类别交叉熵损失函数训练局部交通场景多类别分类器,损失函数L2如下所示:
L2=Lcategorical_cross_entropy(Fp(fp,Wfp),Yp)
其中,Fp表示所使用的三层FC层,Wfp表示FC层的可学习参数,Yp表示样本的真实标签(包含的典型场景)。
图4给出了结合头部朝向特征与局部交通场景特征进行行人穿越意图识别的示意图。
8)、融合注视识别与交通场景分类的行人穿越马路意图识别。
通过搭建残差卷积神经网络从感兴趣行人的头部区域中提取头部朝向特征fa,通过搭建卷积神经网络从感兴趣行人的周围交通场景中提取局部交通场景特征fp,进一步可以融合这两个特征,得到能够综合反映行人穿越意图的特征并据此判断行人是否会进行穿越。
采用直接拼接的方式融合fa与fp,并使用一个全连接层FC将融合后的特征映射成包含两个神经元的向量,最后通过二分类交叉熵损失函数训练穿越/不穿越分类器,损失函数L3如下所示:
L3=Lbinary_cross_entropy(F(fa,fp,Wf),Yc)
其中,其中,F表示所使用的全连接层FC,Wf表示全连接网络FC的可学习参数,Yc表示样本的真实标签(穿越/不穿越)。
为了实现整体框架的端到端训练并且充分利用不同分类器训练过程中的互补性,更好地进行特征提取,采用多任务学习方式同时对所设计的三个分类器进行优化,整体框架的损失函数的定义如下:
LOSS=λ1·L12·L23·L3
其中,λ1、λ2、λ3分别表示L1、L2、L3的权重,可以通过交叉验证试验性地选择λ1、λ2、λ3的取值。
本发明借鉴了卷积神经网络在目标分类上的成功,设计了三个分类器,分别用来分类行人的注视/非注视行为、当前所属的交通场景以及穿越/不穿越意图,并可在多任务学习框架下同时学习三个分类器,可以得到更加准确的分类效果,提高了识别行人穿越意图的准确性。
以上述依据本发明的理想实施例为启示,通过上述的说明内容,相关工作人员完全可以在不偏离本项发明技术思想的范围内,进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定其技术性范围。

Claims (3)

1.一种基于注视检测和交通场景识别的行人穿越马路意图识别方法,其特征是:具有以下步骤:
S1、基于运动目标检测的感兴趣目标搜索;具体包括:
(1)、行人检测:首先要对输入图像序列进行处理,提取其中的感兴趣行人,即马路边有潜在穿越可能的行人;然后使用Faster-RCNN目标检测器检测输入图像序列每一帧的行人,记录行人在每一帧的位置信息,并将连续帧内所有行人的位置变化信息送到下一步进行感兴趣目标搜索;
(2)、感兴趣目标搜索:得到某段时间范围内所有行人的位置变化信息后,根据该信息确定感兴趣目标;
S2、基于残差卷积神经网络的行人注视/非注视识别;具体包括:
(1)、头部检测器的设计:对得到的感兴趣目标序列,进一步检测目标的头部区域,用于后续注视/非注视分类器的训练;
(2)、残差卷积神经网络的搭建:通过搭建基于残差卷积神经网络的注视/非注视分类器来检测行人是否注视来车,作为判断行人是否穿越马路的主要因素;
(3)、行人注视/非注视分类器学习:使用残差卷积神经网络提取感兴趣行人的头部朝向特征fa,定义如下:
fa=Φ(p,Wa)
上式中,fa表示残差卷积神经网络提取出的行人头部朝向特征,Ф表示残差卷积神经网络,Wa表示残差神经网络的可学习参数,p表示目标检测器检测到的头部区域信息;
头部朝向特征fa一方面用来与局部交通场景特征进行融合,预测行人的穿越/不穿越意图,另一方面连接全连接(Fully connected layer,FC)层进行降维,从而得到反映行人注视/非注视的二维向量;采用三层FC层,实现头部朝向特征fa的降维:512->256->64->2,最后使用二分类交叉熵损失函数训练行人注视/非注视分类器,损失函数L1如下式所示:
L1=Lbinary_cross_entropy(Fa(fa,Wfa),Ya)
其中,Fa表示用来降维的FC层,Wfa表示FC层的可学习参数,Ya表示训练样本的真实标签;
S3、基于卷积神经网络的局部交通场景识别;
S4、基于多任务学习框架的行人穿越/不穿越结果识别。
2.如权利要求1所述的基于注视检测和交通场景识别的行人穿越马路意图识别方法,其特征是:所述的步骤S3中,具体包括:
(1)、卷积神经网络的搭建:通过识别局部交通场景作为判断行人是否穿越马路的辅助因素,搭建出基于卷积神经网络的局部交通场景多标签分类器;
(2)、局部交通场景分类器设计:使用卷积神经网络可以提取局部交通场景特征fp,定义如下:
fp=Ψ(P,Wp)
其中,fp表示卷积神经网络提取出的局部交通场景特征,Ψ表示卷积神经网络,Wp表示卷积神经网络的可学习参数,P表示感兴趣目标周围的局部交通场景。
3.如权利要求1所述的基于注视检测和交通场景识别的行人穿越马路意图识别方法,其特征是:所述的步骤S4中,具体包括:
(1)、融合注视识别与交通场景分类的行人穿越马路意图识别:通过搭建残差卷积神经网络从感兴趣行人的头部区域中提取头部朝向特征fa,通过搭建卷积神经网络从感兴趣行人的周围交通场景中提取局部交通场景特征fp,进一步可以融合这两个特征,得到能够综合反映行人穿越意图的特征并据此判断行人是否会进行穿越;
(2)、采用直接拼接的方式融合fa与fp,并使用一个全连接层FC将融合后的特征映射成包含两个神经元的向量,最后通过二分类交叉熵损失函数训练穿越/不穿越分类器,损失函数L3如下式所示:
L3=Lbinary_cross_entropy(F(fa,fp,Wf),Yc)
其中,其中,F表示所使用的全连接层FC,Wf表示全连接网络FC的可学习参数,Yc表示样本的真实标签。
CN202011276599.3A 2020-11-16 2020-11-16 一种基于注视检测和交通场景识别的行人穿越马路意图识别方法 Active CN112329684B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011276599.3A CN112329684B (zh) 2020-11-16 2020-11-16 一种基于注视检测和交通场景识别的行人穿越马路意图识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011276599.3A CN112329684B (zh) 2020-11-16 2020-11-16 一种基于注视检测和交通场景识别的行人穿越马路意图识别方法

Publications (2)

Publication Number Publication Date
CN112329684A CN112329684A (zh) 2021-02-05
CN112329684B true CN112329684B (zh) 2024-04-30

Family

ID=74317429

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011276599.3A Active CN112329684B (zh) 2020-11-16 2020-11-16 一种基于注视检测和交通场景识别的行人穿越马路意图识别方法

Country Status (1)

Country Link
CN (1) CN112329684B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113111824B (zh) * 2021-04-22 2022-12-13 青岛图灵科技有限公司 一种基于视频分析的行人穿越马路实时识别方法
CN113392725B (zh) * 2021-05-26 2022-10-18 苏州易航远智智能科技有限公司 基于视频数据的行人过街意图识别方法
CN113744524B (zh) * 2021-08-16 2023-04-18 武汉理工大学 一种基于车辆间协同计算通信的行人意图预测方法及系统
CN113808099A (zh) * 2021-09-11 2021-12-17 苏州兆能视觉科技有限公司 一种铝材表面缺陷检测装置与方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105930830A (zh) * 2016-05-18 2016-09-07 大连理工大学 一种基于卷积神经网络的路面交通标志识别方法
CN107423679A (zh) * 2017-05-31 2017-12-01 深圳市鸿逸达科技有限公司 一种行人意图检测方法和系统
CN108154110A (zh) * 2017-12-22 2018-06-12 任俊芬 一种基于深度学习人头检测的密集人流量统计方法
CN108447305A (zh) * 2018-04-21 2018-08-24 上海交通大学 一种新交规下礼让行人预警方法及预警系统
CN108537264A (zh) * 2018-03-30 2018-09-14 西安电子科技大学 基于深度学习的异源图像匹配方法
CN109712388A (zh) * 2019-01-24 2019-05-03 华南理工大学 一种非机动车或行人的过街意图检测系统及方法
CN110096965A (zh) * 2019-04-09 2019-08-06 华东师范大学 一种基于头部姿态的人脸识别方法
DE102018104270A1 (de) * 2018-02-26 2019-08-29 Connaught Electronics Ltd. Verfahren zum Vorhersagen des Verhaltens mindestens eines Fußgängers
CN110414365A (zh) * 2019-07-03 2019-11-05 上海交通大学 基于社会力模型的过街行人轨迹预测方法、系统及介质
CN110570670A (zh) * 2019-10-16 2019-12-13 公安部交通管理科学研究所 基于视频行人检测的路段行人过街信号系统及方法
WO2020127689A1 (de) * 2018-12-20 2020-06-25 Robert Bosch Gmbh VERFAHREN ZUM AUTOMATISIERTEN STEUERN EINES FAHRZEUGS AN EINEM FUßGÄNGERÜBERWEG, STEUERGERÄT
CN111860269A (zh) * 2020-07-13 2020-10-30 南京航空航天大学 一种多特征融合的串联rnn结构及行人预测方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004029659A2 (en) * 2002-06-14 2004-04-08 Honda Giken Kogyo Kabushiki Kaisha Pedestrian detection and tracking with night vision
JP6617651B2 (ja) * 2016-07-07 2019-12-11 株式会社デンソー 歩行者検出装置、歩行者検出方法
WO2019097595A1 (ja) * 2017-11-15 2019-05-23 三菱電機株式会社 車外コミュニケーション装置、車外コミュニケーション方法、情報処理装置、及び車外コミュニケーションプログラム

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105930830A (zh) * 2016-05-18 2016-09-07 大连理工大学 一种基于卷积神经网络的路面交通标志识别方法
CN107423679A (zh) * 2017-05-31 2017-12-01 深圳市鸿逸达科技有限公司 一种行人意图检测方法和系统
CN108154110A (zh) * 2017-12-22 2018-06-12 任俊芬 一种基于深度学习人头检测的密集人流量统计方法
DE102018104270A1 (de) * 2018-02-26 2019-08-29 Connaught Electronics Ltd. Verfahren zum Vorhersagen des Verhaltens mindestens eines Fußgängers
CN108537264A (zh) * 2018-03-30 2018-09-14 西安电子科技大学 基于深度学习的异源图像匹配方法
CN108447305A (zh) * 2018-04-21 2018-08-24 上海交通大学 一种新交规下礼让行人预警方法及预警系统
WO2020127689A1 (de) * 2018-12-20 2020-06-25 Robert Bosch Gmbh VERFAHREN ZUM AUTOMATISIERTEN STEUERN EINES FAHRZEUGS AN EINEM FUßGÄNGERÜBERWEG, STEUERGERÄT
CN109712388A (zh) * 2019-01-24 2019-05-03 华南理工大学 一种非机动车或行人的过街意图检测系统及方法
CN110096965A (zh) * 2019-04-09 2019-08-06 华东师范大学 一种基于头部姿态的人脸识别方法
CN110414365A (zh) * 2019-07-03 2019-11-05 上海交通大学 基于社会力模型的过街行人轨迹预测方法、系统及介质
CN110570670A (zh) * 2019-10-16 2019-12-13 公安部交通管理科学研究所 基于视频行人检测的路段行人过街信号系统及方法
CN111860269A (zh) * 2020-07-13 2020-10-30 南京航空航天大学 一种多特征融合的串联rnn结构及行人预测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
基于头部姿态的学习注意力判别研究;郭赟;张剑妹;连玮;;科学技术与工程;20200518(14);全文 *
有效视频帧时间序池化的人体行为识别算法;鹿天然;于凤芹;陈莹;;计算机工程;20181215(12);全文 *
道路交通碰撞事故致因建模与影响因素试验分析;杨京帅;任书杭;马志政;王浩;罗钿;;东南大学学报(自然科学版);20150920(05);全文 *
驾驶人危险感知影响因素建模与试验;杨京帅;李秀丽;任书杭;王婷;高扬;;长安大学学报(自然科学版);20150915(05);全文 *

Also Published As

Publication number Publication date
CN112329684A (zh) 2021-02-05

Similar Documents

Publication Publication Date Title
CN112329684B (zh) 一种基于注视检测和交通场景识别的行人穿越马路意图识别方法
Rasouli et al. Are they going to cross? a benchmark dataset and baseline for pedestrian crosswalk behavior
Hasegawa et al. Robust Japanese road sign detection and recognition in complex scenes using convolutional neural networks
CN112329682B (zh) 一种基于穿越动作和交通场景上下文因素的行人穿越马路意图识别方法
Hechri et al. Automatic detection and recognition of road sign for driver assistance system
CN112339773B (zh) 一种基于单目视觉的非主动车道偏离预警方法及系统
Nowosielski et al. Embedded night-vision system for pedestrian detection
Riaz et al. YOLO based recognition method for automatic license plate recognition
Peng et al. Real-time illegal parking detection algorithm in urban environments
Santos et al. Car recognition based on back lights and rear view features
Aldoski et al. Impact of Traffic Sign Diversity on Autonomous Vehicles: A Literature Review
Yamamoto et al. Identifying near-miss traffic incidents in event recorder data
Phu et al. Traffic sign recognition system using feature points
Zaman et al. A CNN-based path trajectory prediction approach with safety constraints
Al Khafaji et al. Traffic Signs Detection and Recognition Using A combination of YOLO and CNN
CN113850112A (zh) 基于孪生神经网络的路况识别方法和系统
Ding et al. A comprehensive approach for road marking detection and recognition
Sukhwani et al. Monocular vision based road marking recognition for driver assistance and safety
Agarwal et al. The Enhancement in Road Safety using Different Image Detection and Recognition Techniques:-A State of Art
Loungani et al. Vision Based Vehicle-Pedestrian Detection and Warning System
Anitha et al. MNNP: Design and Development of Traffic Sign Identification and Recognition System to Support Smart Vehicles using Modified Neural Network Principles
Gao et al. Research on detection method of traffic anomaly based on improved YOLOv3
Kumar et al. Neural network based smart vision system for driver assistance in extracting traffic signposts
Al Mamun et al. A deep learning approach for lane marking detection applying encode-decode instant segmentation network
Yang Using a Complete Convolutional Network for the Detection and Recognition of Symbolic Traffic Signs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant