CN116824541A - 基于双通道的行人过街意向预测方法、模型及装置 - Google Patents
基于双通道的行人过街意向预测方法、模型及装置 Download PDFInfo
- Publication number
- CN116824541A CN116824541A CN202310597833.XA CN202310597833A CN116824541A CN 116824541 A CN116824541 A CN 116824541A CN 202310597833 A CN202310597833 A CN 202310597833A CN 116824541 A CN116824541 A CN 116824541A
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- extracting
- pedestrian crossing
- space
- traffic scene
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000003993 interaction Effects 0.000 claims abstract description 50
- 230000003044 adaptive effect Effects 0.000 claims abstract description 13
- 238000000605 extraction Methods 0.000 claims abstract description 13
- 238000011176 pooling Methods 0.000 claims abstract description 13
- 230000006399 behavior Effects 0.000 claims description 43
- 230000006870 function Effects 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 10
- 230000002452 interceptive effect Effects 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 9
- 230000007246 mechanism Effects 0.000 claims description 9
- 230000000007 visual effect Effects 0.000 claims description 8
- 230000004927 fusion Effects 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 230000002123 temporal effect Effects 0.000 claims description 3
- 230000004931 aggregating effect Effects 0.000 claims description 2
- 230000009977 dual effect Effects 0.000 claims 1
- 230000009471 action Effects 0.000 description 18
- 238000012360 testing method Methods 0.000 description 5
- NIGWMJHCCYYCSF-UHFFFAOYSA-N Fenclonine Chemical compound OC(=O)C(N)CC1=CC=C(Cl)C=C1 NIGWMJHCCYYCSF-UHFFFAOYSA-N 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000004451 qualitative analysis Methods 0.000 description 3
- 230000003542 behavioural effect Effects 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 230000000875 corresponding effect Effects 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Psychiatry (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明涉及一种基于双通道的行人过街意向预测方法、模型及装置,方法包括:获取与行人过街相关的观察帧;利用姿态估计提取算法SimCC从所述观察帧中提取目标行人的行人骨架信息X;从所述行人骨架信息X中提取时空行为特征Ks;从所述观察帧的最后一帧图片中提取与目标行人有关的交通场景对象交互关系特征Us;利用自适应平均池化层AAP深度融合所述时空行为特征Ks和所述交通场景对象交互关系特征Us,实现鲁棒的行人过街意图预测。本发明可以准确预测行人的过街意图。
Description
技术领域
本发明涉及过街意向预测领域,具体涉及一种基于双通道的行人过街意向预测方法。
背景技术
人车交互是智能交通领域的热点问题,有效的人车交互可以预防人车冲突,保障交通参与者的安全。在复杂城市道路中,特别是在没有十字路口的道路两侧,车辆在行驶中面对行人突发性行为无法及时做到科学决策。同时,行人在过街过程中遇到突发状况,会在极短的时间内改变原来的行为动作和运动方向,导致过街行为复杂和难以预测。如果驾驶员错误判断行人过街行为,将会造成交通拥堵与财产损失,甚至威胁行人生命。
因此,准确预测行人的过街意图,并辅助驾驶员进行减速和制动,可以保障行人安全,并提供更舒适的驾乘体验。亟需设计一种可以准确预测行人过街意图的方法。
发明内容
本发明要解决的技术问题是克服现有技术的缺陷,提供一种基于双通道的行人过街意向预测方法,它可以准确预测行人的过街意图。
为了解决上述技术问题,本发明的技术方案是:一种基于双通道的行人过街意向预测方法,包括:
获取与行人过街相关的观察帧;
利用姿态估计提取算法SimCC从所述观察帧中提取目标行人的行人骨架信息X;
从所述行人骨架信息X中提取时空行为特征Ks;
从所述观察帧的最后一帧图片中提取与目标行人有关的交通场景对象交互关系特征Us;
利用自适应平均池化层AAP深度融合所述时空行为特征Ks和所述交通场景对象交互关系特征Us,实现鲁棒的行人过街意图预测。
进一步,所述从所述行人骨架信息X中提取时空行为特征Ks,包括:
利用两层多尺度图卷积层MS_GCL依次提取,得到时空行为特征Ks。
进一步,每层多尺度图卷积层MS_GCL的提取过程包括:
利用多尺度通道细化图卷积层MCR_GCL自输入信息中提取空间特性;
利用多尺度时间卷积层MS_TCL丰富所述空间特性的时域信息。
进一步,所述利用多尺度通道细化图卷积层MCR_GCL自输入信息中提取空间特性,包括:
先参数化一个共享邻接矩阵作为所有通道的先验空间矩阵,并提供关节点之间的固有空间属性;
再通过多尺度细化的动态共享邻接矩阵D学习不同运动模式中不同通道的关节点之间的空间特征;
最后将每个通道的空间特征和特征变换后的输入数据T(X)特征聚合;
具体公式为:
fMCR_GCL为多尺度通道细化图卷积层MCR_GCL的输出,表示多尺度通道细化图卷积层MCR_GCL权重,λ表示可训练参数,σ为sigmoid()函数。
进一步,多尺度时间卷积层MS_TCL的计算公式为:
其中,Wi TCL表示多尺度时间卷积层MS_TCL权重。
进一步,所述从所述观察帧的最后一帧图片中提取与目标行人有关的交通场景对象交互关系特征Us,包括:
先利用特征金字塔提取观察帧的最后一帧图片的图像特征;
然后利用属性网络根据图像特征中每个被检测对象O的视觉特征提取属性特征
再利用交互关系融合函数Ui,j(·)以任两个对象Oi和Oj的属性特征Ai和Aj作为输入,输出关系特征其中,
Ri,j(Ai,Aj)=ReLU(WiAi+WjAj)-(WiAi-WjAj)⊙(WiAi-WjAj)
表示Oi、Oj目标对象的特征空间映射;
最后将所有关系特征Ri,j(Ai,Aj)聚合,生成对象交互关系特征
具体公式为:
表示交互关系融合器,fij表示Oi、Oj目标对象类别之间的关系分布向量,m表示对象O的个数。
进一步,所述利用自适应平均池化层AAP深度融合所述时空行为特征Ks和所述交通场景对象交互关系特征Us,实现鲁棒的行人过街意图预测,包括:
先利用自适应平均池化层AAP池化交通场景对象交互关系特征Us,并用sigmoid()规范化;
然后通过注意力机制关注时空行为特征Ks,使时空行为特征Ks具有更大的权重;
再基于所述注意力机制的输出结果,融合所述交通场景对象交互关系特征Us和所述时空行为特征Ks,得到融合特征其中,
最后采用全连接层预测目标行人的过街意图YP;其中,
设阈值为0.5,经过离散化处理,将PP映射为YP;
SiLU(·)表示激活函数,Att(·)表示基于注意力的变换函数,Wa表示可学习的注意力权重,Linear(·)用于分类输出有过街/无过街意图概率。
SiLU(·)表示激活函数,Att(·)表示基于注意力的变换函数,Wa表示可学习的注意力权重,Linear(·)用于分类输出有过街/无过街意图标签。
本发明还提供了一种基于双通道的行人过街意向预测模型,用于实现基于双通道的行人过街意向预测方法。
进一步,模型在训练过程中采用损失函数Loss;其中,
Loss=-YT·log(PP)-(1-YT)·log(1-PP)
YT表示行人样本S的真实标签,PP表示模型的行人过街意图预测概率。
本发明还提供了一种基于双通道的行人过街意向预测装置,其特征在于,
包括:
获取模块,用于获取与行人过街相关的观察帧;
姿态估计提取模块,用于利用姿态估计提取算法SimCC从所述观察帧中提取目标行人的行人骨架信息X;
行人动作编码模块,用于从所述行人骨架信息X中提取时空行为特征Ks;
交通场景对象交互模块,用于从所述观察帧的最后一帧图片中提取与目标行人有关的交通场景对象交互关系特征Us;
意图预测模块,用于利用自适应平均池化层AAP深度融合所述时空行为特征Ks和所述交通场景对象交互关系特征Us,实现鲁棒的行人过街意图预测。
采用上述技术方案后,本发明具有以下有益效果:
(1)本发明将行人的时空行为特征与交通场景对象交互关系特征相结合,实现行人过街意图的准确预测;
(2)针对低分辨率图像下行人骨架不完备、图卷积网络结构单一的问题,利用人体关节点向量表征方法和多尺度图卷积层MS_GCL,分别学习不同通道之间骨架相对位置信息和时间变化信息,实现在低分辨率图像中学习行人不同运动模式的动作特征,缓解了低分辨率图像对动作识别的挑战;
(3)针对场景理解表面化的问题,在局部上下文和全局语义图基础上,建立目标行人和相关交通对象的交互,深入理解交通场景中高级语义线索,提高了行人过街意图准确率。
附图说明
图1为本发明的基于双通道的行人过街意向预测模型的结构图;
图2为数据集行人样本采样图;
图3为JAAD和PIE数据集中四个复杂交通环境下的行人姿态估计结果;
图4为本发明中的模型、PCPA和Pedestrian Graph Plus三个模型在JAAD和PIE数据集的定性结果。
具体实施方式
为了使本发明的内容更容易被清楚地理解,下面根据具体实施例并结合附图,对本发明作进一步详细的说明。
实施例一
如图1所示,一种基于双通道的行人过街意向预测方法,包括:
获取与行人过街相关的观察帧;
利用姿态估计提取算法SimCC从所述观察帧中提取目标行人的行人骨架信息X;
从所述行人骨架信息X中提取时空行为特征Ks;
从所述观察帧的最后一帧图片中提取与目标行人有关的交通场景对象交互关系特征Us;
利用自适应平均池化层AAP深度融合所述时空行为特征Ks和所述交通场景对象交互关系特征Us,实现鲁棒的行人过街意图预测。
如图1所示,F1…Fn是观察帧中的图片,Fn是输入图片最后一帧,P1…Pt是经过SimCC后提取的关键点信息,即行人骨架信息X。
估计行人姿态是过街意图预测的基础,行人骨架是对姿态最确切的描述。能否在动态环境和复杂背景下准确识别行人骨架,不仅影响行人动作识别结果,还影响后续行人过街意图的预测。然而,复杂交通场景由于人数众多,传统热图方法存在开销大、推理时间长等问题。此外,时间、天气、光线和距离等外界环境因素也会对姿态估计结果产生影响。在恶劣天气环境中和较远的目标行人检测过程中,低分辨率图像会影响姿态估计性能。传统的低分辨率图像处理方法如上采样的计算效率有限,准确度低。因此,有必要对上述恶劣环境下的行人姿态准确估计展开研究。除了准确估计姿态,行人动作编码方法也至关重要。基于姿态估计的动作编码的可靠性极大地影响预测行人过街意图的准确率。基于骨架的动作识别方法对复杂交通场景和动态行人特征有很强的学习能力。然而,传统的动作识别方法中,递归神经网络学习时域信息,忽略了空间关系;卷积神经网络提取空间特征,但存在鲁棒性差、泛化性能不足。图卷积网络在基于骨架的动作识别上取得了显著效果,如ST-GCN基于人体骨架序列构建时空图,自适应图卷积网络通过注意力机制灵活学习动作信息。但是,由于行人的动作模式复杂多样,共享拓扑难以学习不同动作模式下关节之间的多样关系。通过参数化多通道图卷积网络可以独立建模不同动作的骨架信息,但是存在参数开销大、推理时间长的不足。因此,实时、动态、有效的动作编码仍然是具有挑战性的任务。本实施例将行人的时空行为特征与交通场景对象交互关系特征相结合,来准确预测行人的过街意图,并引入AAP层,融合时空动作特征和场景对象交互特征,准确预测行人的过街意图。
在一个实施例中,如图1所示,所述从所述行人骨架信息X中提取时空行为特征Ks,包括:
利用两层多尺度图卷积层MS_GCL依次提取,得到时空行为特征Ks。
行人产生过街意图的同时会呈现相应动作,如转头、转身、抬脚和注视等。准确捕捉行人的动作信息,能够提升过街意图预测的准确性。行人骨架作为姿态的紧凑表示,可以将行人骨架视为图结构数据G=(V,E)。其中,V={v1,v2,...,vN}为N个关节点集合,E={eij|i=1,2,...N,j=1,2,...,N,i≠j}为关节点之间的躯干集合。在此基础上,本实施例利用两层多尺度图卷积层MS_GCL,可以减少计算量,减少时空开销,从而提高行人时空动作编码的准确性。
为了缓解低分辨率图像对动作识别的挑战,本实施例采用人体关键点向量表示,并引入多尺度图卷积层(MS-GCL)从骨架中提取深度时空信息,从而在低分辨率图像中学习不同行人的动作特征。针对交通对象之间交互信息的瓶颈,提出了通过建立目标行人与场景中相关交通对象之间的交互,实现对与穿越意图相关的更高层次语义元素的深入理解。
其中,每层MS_GCL包含一个多尺度通道细化图卷积层MCR_GCL和一个多尺度时间卷积层MS_TCL,每层多尺度图卷积层MS_GCL的提取过程包括:
利用多尺度通道细化图卷积层MCR_GCL自输入信息中提取空间特性;
利用多尺度时间卷积层MS_TCL丰富所述空间特性的时域信息。
针对自适应图卷积网络结构单一、参数化的多通道图卷积信息冗余的问题,如图1所示,所述利用多尺度通道细化图卷积层MCR_GCL自输入信息中提取空间特性,包括:
先参数化一个共享邻接矩阵作为所有通道的先验空间矩阵,并提供一般关节点之间的固有空间属性;
再通过多尺度细化的动态共享邻接矩阵D学习不同运动模式中不同通道的关节点之间的空间特征;
最后将每个通道的空间特征和特征变换后的输入数据T(X)特征聚合,从而更好地学习行人的多类别动作模式;其中,
具体公式为:
fMCR_GCL为多尺度通道细化图卷积层MCR_GCL的输出,表示多尺度通道细化图卷积层MCR_GCL权重,λ表示可训练参数,σ为sigmoid()函数。
多尺度时间卷积层MS_TCL的计算公式为:
其中,Wi TCL表示多尺度时间卷积层MS_TCL权重。
如图1所示,每层MS_GCL中,MCR_GCL的输出经BN+ReLU操作后,作为MS_TCL的输入,BN(Batch Normalization)和ReLU(Rectified Linear Unit)可以相互搭配使用来提高神经网络的性能,BN可以使得ReLU的输入更加稳定,从而提高ReLU的表达能力和泛化能力。
如图1所示,对每层MS_GCL的输出进行Sum+ReLU操作,这是一种残差连接方式,用于深度神经网络中的跨层连接,用于提高网络的性能和稳定性。
探索交通场景对象交互关系对于理解交通场景意义重大,可以辅助行人动作特征更好地预测过街意图。为此,本实施例利用IRN对场景对象交互关系进行建模。首先,利用Faster R-CNN提取输入图像特征。接着,利用关系特征提取器提取每个交通对象边框中的视觉特征。最后,通过关系特征提取器根据成对边框和对应的视觉特征提取成对交通对象交互关系特征。如图1所示,具体过程如下:
先利用特征金字塔提取观察帧的最后一帧图片的图像特征;
然后利用属性网络根据图像特征中每个被检测对象O的视觉特征提取属性特征
再利用交互关系融合函数Ui,j(·)以任两个对象Oi和Oj的属性特征Ai和Aj作为输入,输出关系特征其中,
Ri,j(Ai,Aj)=ReLU(WiAi+WjAj)-(WiAi-WjAj)⊙(WiAi-WjAj)
表示Oi、Oj目标对象的特征空间映射;
最后将所有关系特征Ri,j(Ai,Aj)聚合,生成对象交互关系特征
具体公式为:
表示交互关系融合器,fij表示Oi、Oj目标对象类别之间的关系分布向量,m表示对象O的个数。
在一个实施例中,如图1所示,所述利用自适应平均池化层AAP深度融合所述时空行为特征Ks和所述交通场景对象交互关系特征Us,实现鲁棒的行人过街意图预测,包括:
先利用自适应平均池化层AAP池化交通场景对象交互关系特征Us,使池化后的Us和Ks有相同的通道结构,并用sigmoid()规范化;AAP可以将任意大小的特征图转换为固定大小的向量,从而减少全连接层的参数数量,避免过拟合,并提高网络的泛化能力;
然后通过注意力机制关注时空行为特征Ks,使时空行为特征Ks具有更大的权重;
再基于所述注意力机制的输出结果,融合所述交通场景对象交互关系特征Us和所述时空行为特征Ks,得到融合特征其中,
意力机制的输出结果是一组权重,用于表示输入序列中每个元素的重要程度。这些权重可以用于对输入序列进行加权平均,从而获取一个表示输入序列的向量。
最后采用全连接层预测目标行人的过街意图YP;其中,
设阈值为0.5,经过离散化处理,将PP映射为YP;
SiLU(·)表示激活函数,Att(·)表示基于注意力的变换函数,Wa表示可学习的注意力权重,Linear(·)用于分类输出有过街/无过街意图概率。
本实施例为了平衡双通道融合编码特征M,引入了一个注意机制来突出动作特征KS对预测行人过街意图的影响。为防止过拟合,将dropout设置为0.5,并采用全连通层来预测行人S的过街意图。
实施例二
如图1所示,一种基于双通道的行人过街意向预测模型,用于实现实施例一所述的基于双通道的行人过街意向预测方法。
具体来说,基于双通道的行人过街意向预测模型是预先被训练过的,学习行人样本在过街事件Event之前帧的姿态和交通场景对象的交互关系特征,预测行人在过街事件Event时刻是否有过街的意图。
其中,该模型在训练过程中采用损失函数Loss;
Loss=-YT·log(PP)-(1-YT)·log(1-PP)
YT表示行人样本S的真实标签,PP表示模型的行人过街意图预测概率。
行人过街意图预测是一种有过街意图(C)和无过街意图(NC)的二元分类任务。本实施例引用二元交叉熵损失函数评估模型的性能,并辅助行人动作特征和交通场景对象交互关系特征任务。
实施例三
一种基于双通道的行人过街意向预测装置,包括:
获取模块,用于获取与行人过街相关的观察帧;
姿态估计提取模块,用于利用姿态估计提取算法SimCC从所述观察帧中提取目标行人的行人骨架信息X;
行人动作编码模块,用于从所述行人骨架信息X中提取时空行为特征Ks;
交通场景对象交互模块,用于从所述观察帧的最后一帧图片中提取与目标行人有关的交通场景对象交互关系特征Us;
意图预测模块,用于利用自适应平均池化层AAP深度融合所述时空行为特征Ks和所述交通场景对象交互关系特征Us,实现鲁棒的行人过街意图预测。
下面结合具体的数据集,介绍对实施例二中的模型进行训练、测试及验证的过程。
一、实验数据集
(1)JAAD:JAAD数据集研究日常城市环境中自动驾驶背景下行人和驾驶员的行为和其他因素对他们的影响。为此,JAAD数据集提供了从240多个小时的驾驶镜头中裁剪了346个视频剪辑,每个视频时长5~10秒并且包含丰富的行人属性、外观和行为标签。JAAD数据集还包含带有行人行为标签数据集JAAD_beh、多个地点各种天气(如多云、晴朗和雨雪等)和行人遮挡比例标签,反应真实的驾驶情景。
(2)PIE:PIE数据集与JAAD数据集类似,同样研究交通场景中行人的行为。PIE数据集提供了加拿大多伦多晴朗天气连续六小时多的驾驶镜头。与JAAD数据集不同的是,PIE数据集不包含恶劣天气的驾驶镜头,提供了OBD传感器的自运动车辆信息标签,提供了交通对象属性的同时,补充了交通对象的位置边框信息。
二、数据预处理
JAAD和PIE数据集使用Benchmark相同的数据划分。在JAAD数据集中,将323个视频分割为177、117和29个视频进行训练、测试和验证。为了满足行人观测样本长度,根据行人样本长度能否满足观测帧和TTE筛选行人有效样本,JAAD_all中行人有效样本数量为783人、612人和115人。JAAD_beh中行人有效样本数量为194人、22人和171人。在PIE数据集中,set 01、set 02、set06作为训练集,set 03作为测试集,set 04和set 05作为验证集。PIE中有效行人样本为795人、222人和636人。
如图2所示,事件Event定义为区分行人有过街意图样本(C)和行人无过街意图样本(NC)标志。行人有过街意图样本以过街行为起始帧为Event,行人无过街意图样本以行人可观测帧最后一帧为Event。为了短时预警路边行人突发性过街行为和学习行人行为动作,TTE(Time to Event)设置为1~2s(30–60帧)。每个行人观测样本长度为16帧,在TTE内重叠采样,JAAD和PIE的样本重叠采样率分别为0.8和0.6。
行人观测样本数据格式为(T,N,C)。其中,T表示行人观测帧长度,N表示行人关节点数量,C表示(x,y,d,sc)的关节点维度。其中,x和y表示关节点的2D坐标,d表示关节点深度,sc表示关节点置信度。为了在复杂交通场景中理解行人姿态信息,本发明利用SimCC提取行人骨架数据,并引入在KITTI数据集上预训练的R-MSFM单目深度估计器,提取观测序列每一帧行人骨架的深度信息。此外,在对行人骨架预处理时,添加了基于MLP的人体姿态预测模块。通过学习行人观测序列,预测行人未来30帧姿态[Pn+1,nn+2,...,Pn+30],提升行人过街意图预测模型的性能。交通场景对象交互关系特征辅助行人动作信息,更深层理解场景高级语义信息。本发明使用观测帧最后一帧作为交通场景,提取交通对象交互关系特征。PIE数据集提供了每一帧中交通对象(Traffic Light、Vehicle、Sign、Crosswalk、Transitstation和Pedestrian)的边框坐标。与PIE数据集不同,JAAD数据集只提供场景中是否有交通对象的数量标签,并没有交通对象的位置信息。为此,本发明引入Fast-RCNN检测交通对象目标,并根据行人边框中心选取距离最近、交互频繁的4个交通对象进行交互关系建模。
三、评价指标
意图预测模块是一个二分类意图预测模型,行人过街意图有两个标签:C表示有过街意图,NC表示没有过街意图。对于数据集样本不平衡的问题,本发明按照Benchmark中平衡数据方法,通过镜像翻转和随机删除增强数据。对于增强后的数据,将额外比较每个标签的Precision、Recall、Accuracy、F1 score和ROC_AUC评估分类器的性能。这些评价指标可以用真阳性(TP)、伪阳性(FP)、真阴性(TN)和伪阴性(FN)表示:
四、实验设置
本发明所采用的实验平台搭载了一块英伟达Nvidia 3090显卡和一块英特尔I7CPU,实验环境为Ubuntu 18.04系统、Pytorch框架。本发明使用Adamw优化器训练网络,每次训练批次大小为128,训练epoch为30。JAAD的初始学习率为0.005,PIE的初始学习率为0.003,使用CosineAnnealingLR学习策略,学习率以正弦规律变化进行训练。此外,为了防止过拟合和加速网络收敛,本发明对关节点数据标准化处理。关节点2D坐标分别除以输入图片的像素1920和1080。同时,在STORNet网络中,对观测帧最后一帧交通场景图逐通道归一化,均值为[102.9801,115.9465,122.7717],标准差为[1.0,1.0,1.0]。此外,为了获得用于训练和测试的可重复结果,seed设置为42。
五、对比试验
本发明使用行人过街意图预测基准对不同过街意图预测模型进行对比实验。表1展示了JAAD和PIE数据集上的对比结果。行人过街意图预测主流方法有三种类型的趋势,卷积模型、循环模型和图卷积模型。ATGC和ConvLSTM是较早提出来用卷积模型实现过街意图预测任务,使用卷积神经网络分析场景和预测行人的过街行为。循环模型对连续视频帧的视觉特征之间的依赖关系进行建模,如SingleRNN、MultiRNN、StackedRNN、HierarchicalRNN和SFRNN将图像堆栈作为输入,并使用堆叠RNN逐层融合视觉特征,提升行人过街意图预测性能。3D卷积模型能够捕获时序上的信息,如C3D、I3D和PCPA将视频作为输入,使用3D卷积分支编码视觉信息,并使用RNN分支并行处理数据集提供的外观特征。图卷积模型建模图的结构属性和节点特征信息,如Pedestrian Graph+引入图卷积网络建模行人姿态数据,并使用卷积模块处理图像和车辆速度。DPCIAN具有场景对象交互模块和动作编码模块的模型,PIE数据集在结果上得到了极大的提高。Acc和F1提高了2%。尽管,JAAD数据集没有提供交通对象边框坐标,而是通过Fast-RCNN检测定位,无法准确得到交通对象的属性和位置信息。而且,JAAD驾驶环境更为复杂,雨雪、黑夜等场景能见度低。场景对象交互模块难以获取影响行人过街的交互信息。但是,DPCIAN也能捕获高级交互语义感知,能够获得比属性语义感知相比更好的效果。JAAD_all数据集在Acc上提升了3%。JAAD_beh数据集在Acc上提升了1%,在F1上提升了2%,其他指标与SOTA模型不相上下。
表1对比实验
六、姿态估计定性分析
图3为JAAD和PIE数据集中四个复杂交通环境下的行人姿态估计结果。为了公平比较SimCC和Alphapose,本发明将行人关节点数量统一设置为17,去除Alphapose中对行人过街动作影响最小的两个脸部关节点。同时,为了更好的学习行人动作信息,本发明区分行人四肢。其中,每个样本中右臂骨架为橙色、左臂骨架为黄色、右腿骨架为浅蓝色、左腿骨架为深蓝色。图3(a)和3(b)样本部分帧中的行人被其他交通对象(如行人、车辆)遮挡,但SimCC不管是在晴天还是雨天,骨架契合度仍能取得不错的效果。图3(c)和3(d)中,骨架信息提取受到雨雪、日出前等昏暗环境影响,SimCC对关键点采用向量表征方式,将每个像素均匀地划分为多个区域,两个昏暗环境样本的骨架契合度比Alphapose分别高4.1%和11.2%。通过姿态估计定性分析,SimCC能够对目标对象较远、天气恶劣导致低分辨率的场景进行精确的估计行人姿态,为动作编码模块提供有效行人姿态信息。
七、意图预测定性分析
图4为本发明中的模型、PCPA和Pedestrian Graph Plus三个模型在JAAD和PIE数据集的定性结果。图中用红色边框标注每个样本的目标行人,用红色字体表示真实标签和真实标签一致的预测结果,用蓝色字体表示与真实标签不一致的预测结果。在提供的行人样本中,本发明中的模型能够准确地预测行人的过街意图。但是,本发明和PedestrianGraph Plus在一些样本中出现了预测误差。通过分析样本观测序列,从行人动作信息和场景信息两个方面将原因归纳以下几点。(1)图4(a)、图4(b)、图4(c)和图4(e)样本所示,在雨雪、大雾和夜晚等复杂天气的交通场景中,本发明中的模型和Pedestrian Graph Plus的行人姿态估计和动作编码性能明显下降。然而,本发明中行人动作编码模块在低分辨率场景中提供有效行人动作时空特征,提升行人动作编码能力。(2)一些特殊的行人样本中,如图4(b)和图4(c)中行人距离道路远,虽有过街动作,却没有过街意图,本发明中交通场景对象交互关系模块对全局交通对象进行建模,提供交通对象相对位置信息,辅助行人动作编码模块补全场景理解,减少远距离行人过街意图预测误差。(3)图4(b)为无关行人样本,在大部分情况下无关行人不会影响自动驾驶汽车的正常行驶,但无关行人本身具有穿越意图,而且无关行人作为智慧交通场景的主要参与者,将影响其他行人的过街意图。本发明以道路安全为准则,对场景对象交互关系进行建模,提升行人过街意图预测准确率的同时,也提升了道路安全。
以上述依据本发明的理想实施例为启示,通过上述的说明内容,相关工作人员完全可以在不偏离本项发明技术思想的范围内,进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定其技术性范围。
Claims (10)
1.一种基于双通道的行人过街意向预测方法,其特征在于,
包括:
获取与行人过街相关的观察帧;
利用姿态估计提取算法SimCC从所述观察帧中提取目标行人的行人骨架信息X;
从所述行人骨架信息X中提取时空行为特征Ks;
从所述观察帧的最后一帧图片中提取与目标行人有关的交通场景对象交互关系特征Us;
利用自适应平均池化层AAP深度融合所述时空行为特征Ks和所述交通场景对象交互关系特征Us,实现鲁棒的行人过街意图预测。
2.根据权利要求1所述的基于双通道的行人过街意向预测方法,其特征在于,
所述从所述行人骨架信息X中提取时空行为特征Ks,包括:
利用两层多尺度图卷积层MS_GCL依次提取,得到时空行为特征Ks。
3.根据权利要求2所述的基于双通道的行人过街意向预测方法,其特征在于,
每层多尺度图卷积层MS_GCL的提取过程包括:
利用多尺度通道细化图卷积层MCR_GCL自输入信息中提取空间特性;
利用多尺度时间卷积层MS_TCL丰富所述空间特性的时域信息。
4.根据权利要求3所述的基于双通道的行人过街意向预测方法,其特征在于,
所述利用多尺度通道细化图卷积层MCR_GCL自输入信息中提取空间特性,包括:
先参数化一个共享邻接矩阵作为所有通道的先验空间矩阵,并提供关节点之间的固有空间属性;
再通过多尺度细化的动态共享邻接矩阵D学习不同运动模式中不同通道的关节点之间的空间特征;
最后将每个通道的空间特征和特征变换后的输入数据T(X)特征聚合;
具体公式为:
fMCR_GCL为多尺度通道细化图卷积层MCR_GCL的输出,表示多尺度通道细化图卷积层MCR_GCL权重,λ表示可训练参数,σ为sigmoid()函数。
5.根据权利要求4所述的基于双通道的行人过街意向预测方法,其特征在于,
多尺度时间卷积层MS_TCL的计算公式为:
其中,Wi TCL表示多尺度时间卷积层MS_TCL权重。
6.根据权利要求1所述的基于双通道的行人过街意向预测方法,其特征在于,
所述从所述观察帧的最后一帧图片中提取与目标行人有关的交通场景对象交互关系特征Us,包括:
先利用特征金字塔提取观察帧的最后一帧图片的图像特征;
然后利用属性网络根据图像特征中每个被检测对象O的视觉特征提取属性特征
再利用交互关系融合函数Ui,j(·)以任两个对象Oi和Oj的属性特征Ai和Aj作为输入,输出关系特征其中,
Ri,j(Ai,Aj)=ReLU(WiAi+WjAj)-(WiAi-WjAj)⊙(WiAi-WjAj)
表示Oi、Oj目标对象的特征空间映射;
最后将所有关系特征Ri,j(Ai,Aj)聚合,生成对象交互关系特征
具体公式为:
表示交互关系融合器,fij表示Oi、Oj目标对象类别之间的关系分布向量,m表示对象O的个数。
7.根据权利要求1所述的基于双通道的行人过街意向预测方法,其特征在于,
所述利用自适应平均池化层AAP深度融合所述时空行为特征Ks和所述交通场景对象交互关系特征Us,实现鲁棒的行人过街意图预测,包括:
先利用自适应平均池化层AAP池化交通场景对象交互关系特征Us,并用sigmoid()规范化;
然后通过注意力机制关注时空行为特征Ks,使时空行为特征Ks具有更大的权重;
再基于所述注意力机制的输出结果,融合所述交通场景对象交互关系特征Us和所述时空行为特征Ks,得到融合特征其中,
最后采用全连接层预测目标行人的过街意图YP;其中,
设阈值为0.5,经过离散化处理,将PP映射为YP;
SiLU(·)表示激活函数,Att(·)表示基于注意力的变换函数,Wa表示可学习的注意力权重,Linear(·)用于分类输出有过街/无过街意图概率。
8.一种基于双通道的行人过街意向预测模型,其特征在于,
用于实现权利要1-7任一项所述的基于双通道的行人过街意向预测方法。
9.根据权利要求8所述的基于双通道的行人过街意向预测模型,其特征在于,
其在训练过程中采用损失函数Loss;其中,
Loss=-YT·log(PP)-(1-YT)·log(1-PP)
YT表示行人样本S的真实标签,PP表示模型的行人过街意图预测概率。
10.一种基于双通道的行人过街意向预测装置,其特征在于,
包括:
获取模块,用于获取与行人过街相关的观察帧;
姿态估计提取模块,用于利用姿态估计提取算法SimCC从所述观察帧中提取目标行人的行人骨架信息X;
行人动作编码模块,用于从所述行人骨架信息X中提取时空行为特征Ks;
交通场景对象交互模块,用于从所述观察帧的最后一帧图片中提取与目标行人有关的交通场景对象交互关系特征Us;
意图预测模块,用于利用自适应平均池化层AAP深度融合所述时空行为特征Ks和所述交通场景对象交互关系特征Us,实现鲁棒的行人过街意图预测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310597833.XA CN116824541A (zh) | 2023-05-25 | 2023-05-25 | 基于双通道的行人过街意向预测方法、模型及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310597833.XA CN116824541A (zh) | 2023-05-25 | 2023-05-25 | 基于双通道的行人过街意向预测方法、模型及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116824541A true CN116824541A (zh) | 2023-09-29 |
Family
ID=88115798
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310597833.XA Pending CN116824541A (zh) | 2023-05-25 | 2023-05-25 | 基于双通道的行人过街意向预测方法、模型及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116824541A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117746524A (zh) * | 2023-12-08 | 2024-03-22 | 中北大学 | 一种基于slam和人群异常行为识别的安防巡检系统和方法 |
-
2023
- 2023-05-25 CN CN202310597833.XA patent/CN116824541A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117746524A (zh) * | 2023-12-08 | 2024-03-22 | 中北大学 | 一种基于slam和人群异常行为识别的安防巡检系统和方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Singh et al. | Deep spatio-temporal representation for detection of road accidents using stacked autoencoder | |
Zheng et al. | A novel background subtraction algorithm based on parallel vision and Bayesian GANs | |
US9224046B2 (en) | Multi-view object detection using appearance model transfer from similar scenes | |
Lin et al. | A Real‐Time Vehicle Counting, Speed Estimation, and Classification System Based on Virtual Detection Zone and YOLO | |
Piccoli et al. | Fussi-net: Fusion of spatio-temporal skeletons for intention prediction network | |
Jain et al. | Performance analysis of object detection and tracking algorithms for traffic surveillance applications using neural networks | |
Cho et al. | Semantic segmentation with low light images by modified CycleGAN-based image enhancement | |
Razi et al. | Deep learning serves traffic safety analysis: A forward‐looking review | |
CN111402632A (zh) | 一种交叉口行人运动轨迹的风险预测方法 | |
Cao et al. | Learning spatial-temporal representation for smoke vehicle detection | |
CN116824541A (zh) | 基于双通道的行人过街意向预测方法、模型及装置 | |
Kaur et al. | A systematic review of object detection from images using deep learning | |
Wang et al. | Intelligent railway foreign object detection: A semi-supervised convolutional autoencoder based method | |
Bourja et al. | Real time vehicle detection, tracking, and inter-vehicle distance estimation based on stereovision and deep learning using YOLOv3 | |
Tran et al. | UIT-ADrone: A novel drone dataset for traffic anomaly detection | |
CN114596548A (zh) | 目标检测方法、装置、计算机设备及计算机可读存储介质 | |
CN114677618A (zh) | 事故检测方法、装置、电子设备和存储介质 | |
Mukhopadhyay et al. | A hybrid lane detection model for wild road conditions | |
CN117475355A (zh) | 基于监控视频的安全预警方法及装置、设备、存储介质 | |
Yang et al. | DPCIAN: A novel dual-channel pedestrian crossing intention anticipation network | |
Smitha et al. | Optimal feed forward neural network based automatic moving vehicle detection system in traffic surveillance system | |
Ghosh et al. | Pedestrian counting using deep models trained on synthetically generated images | |
Li et al. | Pedestrian Motion Path Detection Method Based on Deep Learning and Foreground Detection | |
Khosla et al. | Automated scene understanding via fusion of image and object features | |
Xie et al. | Semantic Segmentation Algorithm for Night Traffic Scene Based on Visible and Infrared Images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |