CN114120439A - 一种智能汽车自车视角下的行人意图多任务识别及轨迹预测方法 - Google Patents
一种智能汽车自车视角下的行人意图多任务识别及轨迹预测方法 Download PDFInfo
- Publication number
- CN114120439A CN114120439A CN202111186928.XA CN202111186928A CN114120439A CN 114120439 A CN114120439 A CN 114120439A CN 202111186928 A CN202111186928 A CN 202111186928A CN 114120439 A CN114120439 A CN 114120439A
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- information
- intention
- time
- visual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 230000000007 visual effect Effects 0.000 claims abstract description 61
- 230000009471 action Effects 0.000 claims abstract description 21
- 238000013528 artificial neural network Methods 0.000 claims abstract description 8
- 230000006399 behavior Effects 0.000 claims description 24
- 230000033001 locomotion Effects 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 17
- 230000011218 segmentation Effects 0.000 claims description 17
- 230000004927 fusion Effects 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 14
- 230000005021 gait Effects 0.000 claims description 10
- 238000001514 detection method Methods 0.000 claims description 7
- 210000003127 knee Anatomy 0.000 claims description 7
- 210000003423 ankle Anatomy 0.000 claims description 6
- 238000003062 neural network model Methods 0.000 claims description 6
- 230000008447 perception Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 210000005069 ears Anatomy 0.000 claims description 5
- 230000007613 environmental effect Effects 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 4
- 238000013527 convolutional neural network Methods 0.000 claims description 4
- 210000001508 eye Anatomy 0.000 claims description 4
- 210000003128 head Anatomy 0.000 claims description 4
- 210000002414 leg Anatomy 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 4
- 230000003993 interaction Effects 0.000 claims description 3
- 210000000988 bone and bone Anatomy 0.000 claims description 2
- 210000003414 extremity Anatomy 0.000 claims description 2
- 238000002372 labelling Methods 0.000 claims description 2
- 230000001144 postural effect Effects 0.000 claims description 2
- 230000000295 complement effect Effects 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 5
- 210000001331 nose Anatomy 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 210000002832 shoulder Anatomy 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000007500 overflow downdraw method Methods 0.000 description 2
- 206010039203 Road traffic accident Diseases 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 210000002683 foot Anatomy 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 210000001624 hip Anatomy 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Human Resources & Organizations (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种智能汽车自车视角下的行人意图多任务识别及轨迹预测方法,根据环境中捕获的不同时空上下文信息,包括视觉特征信息和非视觉特征信息共5种信息,并通过一种新型的神经网络架构,使用混合方法,利用前馈网络和循环架构对各信息源进行联合视觉空间和动态推理,融合T时刻历史m个时步的视觉信息和非视觉信息,对行人在时间T处的当前状态或动作进行分类、预测未来的穿越意图、在T时间输出动作和意图概率,该模型同时还预测时间T至时间T+n的轨迹。本发明全面考虑行人所处交通环境的全局时空上下文信息,包含视觉和非视觉的五种信息源,提高行人穿越意图预测的准确性,具有占内存量少、推理速度快、关联任务性能互补等优点。
Description
技术领域
本发明属于智能驾驶技术领域,尤其涉及一种智能汽车自车视角下的行人意图多任 务识别及轨迹预测方法。
背景技术
道路使用者的行为识别与意图预测一直以来都是城市环境中智能驾驶系统面临的 一个非常具有挑战性的问题。在当前混合交通环境条件下,行人在道路交通系统中由于缺乏相应的保护设备而成为道路交通参与者中的弱势群体,智能驾驶汽车利用自主式或网联式感知方式,在实现周边感知范围内行人目标识别的基础上,针对其穿越意图和未 来运动轨迹进行预测,从而辅助智能汽车进行智能决策和路径规划,对于行人保护和汽 车行驶安全具有十分重要的意义。研究表明,行人的穿越意图受到外部环境因素(如交 通场景布局、天气状况、与其他代理的交互关系等)、内部因素(如行人的性别、年龄、 情绪)以及动态因素(如速度、轨迹和预期目标)等多种因素的影响。近年来,已经提 出了许多深度学习架构,它们利用各种数据模态,例如视觉特征、行人动态、姿态、自 我运动等,以预测行人未来的穿越意图。但是这些方法很难兼顾时空上下文信息,也鲜 少聚焦不同类型信息之间的融合。
随着基于视觉的智能驾驶感知算法的迅速发展,前置摄像头等视觉传感器因输出信 息丰富、可扩展性高和性价比高等优势,被广泛应用于计算机视觉领域和图像感知领域, 单目摄像头更是成为了智能汽车的标配,因此,基于第一人称单目摄像头的感知算法研 究具有广阔的应用前景。在预测行人的穿越意图方面,现有的方法主要依据行人穿越前的早期动作或历史轨迹。相较于汽车运动,行人运动具有更大自由度、随机性和不可预 测性,这使得其基于动作识别的意图预测难度极大,骨架特征作为一种细粒度特征在动 作识别方面很具优势,基于准确的骨架特征,可以通过定义特定的姿势来识别行人的穿 越意图,但只有行人被很好地观察到时才能提取这种细粒度的特征。基于历史轨迹的意 图预测方法侧重于考虑行人的动态因素,现有的行人轨迹预测方法如动态贝叶斯网络、 递归贝叶斯滤波器和多层感知器,大多是结合动态系统的方法,泛化性能不佳。后来一 些基于深度学习和强化学习的方法也被用于轨迹预测以及基于历史轨迹的意图识别,但 这些方法基本都是基于俯视视角的,因为要克服汽车运动过程中不断变化的相机视点、 遮挡和其他动态场景,想要在自车视角下利用历史轨迹,预测行人的未来轨迹以及穿越 意图仍然具有挑战性。
发明内容
为了解决现有的行人穿越意图识别方法所存在的缺陷,本发明提出了一种智能汽车 自车视角下的行人意图多任务识别及轨迹预测方法,它通过从环境中捕获的不同时空上 下文信息,并最终通过一种新型的神经网络架构融合T时刻历史m个时步的视觉信息 和非视觉信息,对行人在时间T处的当前状态或动作进行分类、预测未来的穿越意图、 在T时间输出动作和意图概率,该模型同时还预测时间T至时间T+n的轨迹。该方法 全面考虑了行人所处交通环境的全局时空上下文信息,输入包含视觉和非视觉的五种信 息源,以提高行人穿越意图预测的准确性。同时采用一种新型的神经网络架构,使用混 合方法,利用前馈网络和循环架构对各信息源进行联合视觉空间和动态推理,从而更好 地融合不同类型的特征,此外,该多任务学习模型同时实现对行人穿越意图和未来运动 轨迹的预测,具有占用内存量少、推理速度快、关联任务性能互补等优点。
预测行人的穿越意图是一个多模态时空问题,为了更好地利用环境信息,本发明联 合预测行人的穿越意图以及视频序列中的轨迹,从环境中捕获不同时空上下文信息,最终通过融合T时刻历史m个时步的视觉信息和非视觉信息来识别当前动作并预测行人 的穿越意图以及行人未来n个时步的运动轨迹。
本方法所涉及的信息源不仅包含环境语义等视觉特征,还包括车辆状态等非视觉信 息。其中视觉特征的来源分别是:观察到的行人周围的局部环境上下文信息由语义分割掩码表示的全局环境上下文信息 Cg={ct-m,ct -m+1,...,ct}。非视觉特征的来源分别是:行人的姿态关键点信息由人体边界框表示的行人的位置轨迹信息 自我车辆的运动速度信息S={st-m,st-m+1,...,st}。
为了更好地利用环境上下文信息,本发明采用了一种新型神经网络框架及混合融合方法来融合行为信息和环境上下文信息,其中包括种视觉信息和非视觉信息之间的融合。视觉信息包含由连续视频帧经感知主干网络处理而得的语义地图和每个行人的周围的局部环境信息,语义地图包含有道路、车辆、行人、人行道、交通标志这5个类别, 分别由不同的二进制掩码表示,行人的局部环境上下文信息则是对输入的连续视频帧, 按照二维边界框经一定比例扩大后的框图裁剪而得的连续RGB图像序列,主要表示行 人的外观特征。本方法同时关注输入信息源的空间特征和时间特征,并引入了注意力模 块以更好地学习序列特征,空间特征由二维卷积神经网络获取,时间特征则由长短时记 忆网络获得。视觉信息之间的融合涉及一种后融合技术,经融合后的视觉信息被送入 LSTM中提取以时间上的关联信息,其输出被馈送到注意力模块以获得最终视觉特征。
关于非视觉信息的融合,本发明采用一种分层融合的方式,根据信息的复杂度和抽 象度将行人的二维姿态关键点信息、行人的二维边界框信息以及自我车辆的车速信息融 合在一起。行人的二维边界框信息由边界框左上角和右下角的坐标表示,表征行人的位置轨迹信息。行人的二维姿态关键点信息由经AlphaPose姿态估计算法处理而得的人体 17个关键点坐标表示,表征行人的动作信息,车辆的自我车速信息可以从车速度传感 器中直接获取,它表征车辆的自我运动信息。这里同样引入了LSTM和序列注意力模 块,融合后得到的最终非视觉特征与最终视觉特征经融合后被连接以馈入注意力模块, 然后应用全连接层来进行最终预测。
本发明将行人的穿越意图预测被表述为一个与五个信息输入源相关的优化问题,即 P(At+n|Cli,Pi,Li,Cg,S),其优化目标是在未来的某个时间,估计视频中部分行人穿越 意图的概率At+n∈{0,1},同时,该模型识别行人的动作并预测其未来的运动轨迹。本发 明所涉及的行人行为类别包括步态、注意、方向和分心,行人的行为预测作为本方法 的任务之一的同时也是进行最终的行人意图预测的输入之一。动作预测主要依据人体骨 骼关键点坐标,本方法根据各动作类别相关的关键点部位将关键点分为上、中、下三个 区域,对应地将其标记为a、b、c,分别用于识别方向和注意、分心以及步态。a区包 括头部——眼睛、鼻子、耳朵和肩膀处的编号为0-6的7个关节点坐标,b区包括手部、 肘部和肩部编号为5-10的6个关节点坐标,c区包括髋部、膝盖以及脚部编号为11-16 的6个关节点坐标。训练前的动作识别模型中生成所有的行为状态(步态、注意力、分 心)和方向值,将连同自车车速、2D边界框以及交通环境场景上下文信息输入到一个 SVM模型中,对人是否会在车辆前面穿越进行分类,模型在T时间输出动作和意图概 率。行人的位置由行人边界框的中心坐标表示,行人的轨迹预测模块基于目标检测和目 标跟踪模块所提供的各目标行人轨迹的历史信息,预测输出未来的运动轨迹。
本发明的有益效果:
(1)本发明针对城市交通环境,提出了一种新型的多任务视角的神经网络架构来同时实现行人的穿越意图和未来运动轨迹的预测,有利于推动智能汽车高级辅助驾驶在路径规划和智能决策方面的发展,有益于减少城市交通环境下交通事故的发生。
(2)本发明所述方法充分考虑行人所处交通环境的全局时空上下文信息,输入包含视觉和非视觉的五种信息源,尤其纳入了以语义分割掩码表示的全局环境上下文信息,考虑到了更加全面的特征输入,以提高行人穿越意图预测的准确性。
(3)本方法提出一种新颖的混合融合方法来融合视觉特征和非视觉特征,其中非视觉特征之间采用了分层融合的方式。此外,在融合的过程中引入LSTM和注意力模 块以更好地学习序列特征。
(4)相比于其他单任务模型,本方法所提出的多任务学习模型具有如下几个优点:由于多个任务共享一个模型,占用内存量会大幅度减少;多个任务一次前向计算得出结果,推理速度增加;动作识别的结果同时也是意图预测的输入之一,两关联任务通过共 享信息,相互补充,可以提升彼此的性能表现。
(5)本方法所涉及的原始输入可以从车载摄像头和车速传感器中获取,结合高效的检测、跟踪和姿态估计算法,可以集成面向行人的“检测-跟踪-预测”一体化感知系统,输出的未来轨迹可服务于自车轨迹规划,具有较高的实用和市场价值。
(6)该方法不仅仅限于结构化道路或交叉路口,还适用于其他城市环境,如停车场或广场。
附图说明
图1行人穿越意图多任务识别及轨迹预测方法整体流程图;
图2行人穿越意图多任务识别及轨迹预测的神经网络模型结构图;
图3用于行人行为及意图预测任务的原理示意图。
具体实施方式
下面结合附图对本发明作进一步说明。
本发明提出一种多任务视角的行人穿越意图及轨迹预测方法,其实施过程如附图1 所示,具体包括以下步骤:
步骤1:输入信息的获取
如附图2所示,本发明所采用的输入信息包括全局场景上下文信息Cg、目标行人的局部场景上下文信息Cli、目标行人的关键点信息Pi、车辆的自我车速信息S和行人 的2D边界框位置轨迹Li。
全局上下文信息Cg={ct-m,ct-m+1,...,ct}可以提供解释道路与道路使用者或道路使 用者之间的多重交互的视觉特征,ct-m是指T时刻向前数历史m个时步的T-m时刻的 全局上下文信息,即T-m时刻图像帧的语义分割掩码。由于所使用的JAAD数据集不 提供语义掩码的注释地面实况,该模型使用在Cityscapes数据集上预训练的DeepLabV3 模型来提取语义分割掩码来表示全局上下文信息,语义掩码通过将与对象关联的所有像 素标记为像素值来对图像中的不同对象进行分类和定位。本方法涉及的场景语义分割掩 码有5个类别(道路、车辆、行人、人行道、交通标志),所有输入帧的语义分割经 二进制编码后被缩放为[224,224]像素的大小,这与局部场景上下文相同。
局部场景上下文信息可以提供目标行人的视觉特征,可以 捕捉行人及其周围环境的外观变化,由目标行人周围大小为[224,224]像素的RGB图 像序列组成,是指T时刻向前数历史m个时步的T-m时刻的局部上下文信息,即 T-m时刻,在目标行人所在图像帧中,通过放大行人边界框提取到的行人周围的区域(图 像信息)。通过放大相应的2D边界框来提取每个行人周围的区域,然后调整缩放边 界框的尺寸,使其宽度与其高度相匹配。Cli可以通过检测和跟踪算法(例如YOLOV5+ Deepsort)来提取,本发明使用JAAD数据集进行训练时直接使用数据集中提供的地面 实况作为局部场景上下文信息Cli。
行人的姿势关键点可以描述目标行人的详细运动,表示为其中是包含17个姿势关节点的2维坐标的34维向量,即行人移动时每一帧的姿势信息可以通过姿态估计算法来获取,由于应用的JAAD数据集不提供地面真实的行人骨骼关键点,本 发明采用预训练的AlphaPose来提取行人的骨骼关键点。
动作预测主要依据人体骨骼关键点坐标,如附图3所示,本方法根据各动作类别相关的关键点部位将关键点分为上、中、下三个区域,对应地将其标记为a、b、c,分别 用于识别方向和注意、分心以及步态。其中,a区包括头部——眼睛、鼻子、耳朵和肩 膀处的编号为0-6的7个关节点坐标,b区包括行人的手部、肘部和肩部序号为5-10的 6个关键点,c区包括人体下半身的腿、膝盖和脚踝处编号为11-16的6个关键点。
行人的2D边界框位置轨迹Li可以表示目标行人在图像中的位置变化,表示为由目标行人的边界框位置坐标组成,具体表示为左上角和右下 角坐标,即该特征量可以通过检测和跟踪算法(例如 YOLOV5+Deepsort)来提取,本发明使用JAAD数据集进行训练时直接使用数据集中 提供的地面实况得到Li。
自我车辆速度S是影响行人穿越决策的主要因素。它可以直接从自我车辆的系统中读取。由于数据集包含自我车辆速度的注释,本发明直接使用车速的地面实况标签作 为S。
步骤2:特征融合
本发明所提出的新型多任务视角的神经网络架构的结构图如附图2所示,该多任务 学习模型由CNN模块、RNN模块、注意力模块和特征融合模块组成。本发明使用在ImageNet数据集上预训练的VGG19模型构建的CNN模块提取输入信息的视觉特征, 用LSTM来构建RNN模块提取时序特征。
在处理视觉图像特征,也即全局场景上下文信息和局部场景上下文信息时,本发明 使用的特征提取网络基于VGG19,输入图像特征大小为Batch×N×360×640×3。来自感知主干的场景语义分割掩码有5个类别(道路、汽车、行人、人行道、交通标志)用 于该模型。然后对分割掩码进行二进制编码以产生形状为H×W×classes的语义特征, 其中类别数为5。语义分割模型输出分辨率为512×1024的掩码。然后将其重新整形 为360×640的分辨率,因此序列的二进制编码后输入场景特征的形状为Batch×N ×360×640×5。在通过模型进行处理之前,此输入用于计算沿时间轴的平均掩码。然 后使用2D卷积和最大池化层进行编码,然后是全连接层。同理,姿势特征的输入大 小为Batch×N×17×3。姿态输入首先通过一个2D卷积层进行处理,然后将2D卷积 层的输出输入到堆叠的LSTM编码器,最后通过全连接层进行处理,边界框特征的输 入大小为Batch×N×1×4,自我车速的输入大小为Batch×N×1×1,
使用两组Conv2D+Pooling层分别对输入的语义掩码信息和局部图像信息进行编码, 然后采用一种后期融合技术,将语义掩码和图像序列编码后的输出在空间上连接到一起, 融合Conv层经一个2D卷积层处理后的输出被送入LSTM中得到融合后的视觉特征, 再经过一个注意力模块得到最终的视觉特征。
在处理非视觉特征也即2D姿势关键点特征、2D边界框位置轨迹信息和车速信息,这些非视觉特征经2D卷积层编码后的输出,被送入LSTM并分层融合得到融合后的非 视觉特征。首先,连续行人2D位置轨迹(检测框)Li被馈送到LSTM编码器进行编码, 其第一阶段的输出与自车车速S连接后被馈送到另一LSTM编码器中,之后,第二阶 段的输出与连续行人姿势关键点Pi连接,并被馈送到最终的LSTM的编码器中,最终 的编码器输出被馈送到注意力模块以得到最终的非视觉特征。
最终的视觉特征和最终的非视觉特征经混合融合后被连接并馈送到注意力模块,然 后应用全连接层来对行人的行为和穿越意图进行最终预测。
通过引入注意力模块,可以选择性的关注部分特征,用于更好的学习序列特征,序列特征(例如基于RNN的编码器的输出)表示为隐藏状态序列h={h1,h2,...,he},注 意力权重计算为:
其中Ws是权重矩阵,这样的注意力权重在最终隐藏状态he与每个先前的源隐藏状态之间进行权衡同样的, 为源隐 藏状态经过每层神经网络更新后的隐藏状态。注意力模块的输出向量生成为 Vattention=tanh(Wc[hc;he]),其中Wc是权重矩阵,hc是所有注意力加权隐藏状态的总和,
步骤3:行人行为与意图预测
如附图2所示,模型最后通过具有全连接层的单独分支对融合后的特征进行处理以 预测动作和穿越意图。穿越意图预测任务的主要目标是预测场景中的人是否会穿过车辆 前方,本发明使用从时间1到T的全局上下文信息、局部上下文信息、训练前的动作 识别模型中生成所有的行为状态(步态、注意力、分心)和方向值、自车的车速和2D 边界框作为模型的输入,拟合了一个支持向量模型,对人是否会在车辆前面穿越进行分 类,模型在T时间输出动作和意图概率。
如表1所示,在本发明中,对行人行为和穿越意图的正式定义如下:
表1.行人动作及意图分类标签
附图3展示了用于行人行为及穿越意图预测的示意图,如附图3所示,行人的行为识别任务主要依赖于行人的骨骼关键点特征,在该多任务学习模型中,T时刻的行人行 为识别任务的结果将作为行人穿越意图预测任务的输入之一被送入预测穿越意图的 SVM网络。给定视频序列和自车车速信息,模型在T时间输出动作和意图概率,然后 使用来自每个任务的softmax概率来计算特定的动作/行为损失值:
模型最后使用以下各个交叉熵损失的加权总和,联合训练所有分类任务:
Lact=ω1Lgait+ω2Lattn+ω3Lornt+ω4Ldist+ω5Lcrossing (3)
Lact为各个分类任务联合训练总的损失,Lgait为步态分类任务的训练损失函数,Lattn为注意力分类任务的训练损失函数,Lornt为方向分类任务的训练损失函数,Ldist为分心分类任务的训练损失函数,Lcrossing为穿越意图分类任务的训练损失函数,相应的, ω1、ω2、ω3、ω4、ω5为各个分类任务对应损失函数的权重值。
步态识别任务是预测场景中的人是走路还是站立。为了确定行人的步态,本发明使 用人体下半身的腿、膝盖和脚踝处编号为11-16的6个关键点(如图3中c所示),计 算特征(d1,d2,θ1,θ2,x,y),其中d1和d2分别是左右脚踝和膝盖之间的距离,θ1和θ2是四 肢之间的角度,x和y是行人的臀部中心坐标。本发明将特征堆叠为N的序列观察长度, 以便捕获特征在时间上的变化。采用一维Resnet-10模型针对该二元分类任务进行训练, 并优化交叉熵损失函数。
行人的注意力和方向识别这两个任务就是要识别行人是否直接看着车辆以及人相 对于视角的姿势方向,这里主要关注行人上半身的关键点,即头部——眼睛、鼻子、耳朵和肩膀处的编号为0-6的7个关节点坐标(如图3中a所示)。考虑到这两个任务的 识别结果都是由人的脸和肩膀的共同特征决定,所以对注意力(二元分类任务)和方向 (多元分类任务)这两个不同的任务,采用加权交叉熵损失函数联合训练具有一维卷积 的Resnet10模型。
分心识别任务是一个用于确定行人是否正在打电话的二元分类任务,这里主要关注 行人手部、肘部和肩部序号为5-10的6个关键点(如图3中b所示)。在检测到手机 的情况下,计算特征(θl,θr,θlr,hands,θlr,upper),其中θl和θr是每只手的下臂和上二头肌之 间的角度,θlr,hands和θlr,upper是左手和右手之间的角度和左右两二头肌之间的角度。这里 将该任务处理为一个使用具有径向基函数(RBF)内核的支持向量分类器(SVC)的二元分 类任务。
步骤4:轨迹预测
目标行人的轨迹预测任务与行为识别和意图预测是同时进行的,进行行人的运动轨 迹预测需要基于感知主干网络提供的连续多帧中各目标行人的历史轨迹等信息,这里主 要用到行人的边界框历史轨迹信息,输入历史一段时间内的边界框位置序列,输出行人未来边界框的位置中心坐标,而预测输出各目标行人的未来运动轨迹,进而为智能车辆 的决策服务。
针对轨迹预测任务,使用专注于行人边界框特征的LSTM编码器-解码器结构。编码的输入与内部状态一起传递到LSTM解码器堆栈,并以像素为单位输出未来边界框 的中心位置。给定从时间1到T的边界框序列,模型预测从时间T到T+n的未来边界 框中心。该回归任务经过训练以优化均方误差(MSE)损失函数:
其中λreg为正则化系数。
联合优化为分类和回归损失Lact和Ltraj的加权和的总损失函数。
Lfin=Lact+Ltraj
上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明, 它们并非用以限制本发明的保护范围,凡未脱离本发明技术所创的等效方式或变更均应 包含在本发明的保护范围之内。
Claims (10)
1.一种智能汽车自车视角下的行人意图多任务识别及轨迹预测方法,其特征在于,根据环境中捕获的不同时空上下文信息,包括视觉特征信息和非视觉特征信息,通过神经网络模型融合T时刻历史m个时步的视觉特征信息和非视觉特征信息,对行人在时间T处的当前状态或行为进行识别分类,预测未来的穿越意图、在时间T输出动作和意图概率,同时预测时间T至时间T+n的轨迹。
3.根据权利要求2所述的一种智能汽车自车视角下的行人意图多任务识别及轨迹预测方法,其特征在于,所述全局上下文信息Cg={ct-m,ct-m+1,...,ct}用于提供解释道路与道路使用者或道路使用者之间的多重交互的视觉特征;针对所使用的JAAD数据集不提供语义掩码的注释地面实况,由神经网络模型使用在Cityscapes数据集上预训练的DeepLabV3模型来提取语义分割掩码来表示全局上下文信息,语义掩码通过将与对象关联的所有像素标记为像素值来对图像中的不同对象进行分类和定位,所包含的场景语义分割掩码有5个类别,分别是道路、车辆、行人、人行道、交通标志,所有输入帧的语义分割经二进制编码后被缩放为[224,224]像素的大小。
5.根据权利要求2所述的一种智能汽车自车视角下的行人意图多任务识别及轨迹预测方法,其特征在于,所述行人的姿势关键点用于描述目标行人的详细动作,,其中pi是包含17个姿势关节的2维坐标的34维向量,即行人移动时每一帧的姿势信息可以通过姿态估计算法来获取,采用预训练的AlphaPose来提取行人的骨骼关键点,作为姿势关键点;
行人动作预测依据人体骨骼关键点坐标,根据各动作类别相关的关键点部位将关键点分为上、中、下三个区域,对应地标记为a、b、c,分别用于识别方向和注意、分心以及步态,其中,a区包括头部的眼睛、鼻子、耳朵和肩膀处的7个关节点坐标,b区包括行人的手部、肘部和肩部的6个关键点,c区包括人体下半身的腿、膝盖和脚踝处的6个关键点。
7.根据权利要求2所述的一种智能汽车自车视角下的行人意图多任务识别及轨迹预测方法,其特征在于,所述运动速度信息S={st-m,st-m+1,...,st}直接从自车系统中读取,训练数据集中包含自车速度的注释,此时可直接使用车速的地面实况标签作为运动速度信息S。
8.根据权利要求1所述的一种智能汽车自车视角下的行人意图多任务识别及轨迹预测方法,其特征在于,所述神经网络模型包括CNN模块、RNN模块、注意力模块和特征融合模块,该神经网络模型融合T时刻历史m个时步的视觉特征信息和非视觉特征信息的方法如下:
在处理视觉特征信息时:基于VGG19,输入图像特征大小为Batch×N×360×640×3,将来自感知主干的场景语义分割掩码的5个类别用于该模型,所述5个类别是道路、汽车、行人、人行道、交通标志;然后对分割掩码进行二进制编码以产生形状为H×W×classes的语义特征,其中类别数为5;语义分割部分输出分辨率为512×1024的掩码;然后将语义分割部分的输出结果重新整形为360×640的分辨率,因此序列的二进制编码后输入场景特征的形状为Batch×N×360×640×5;在输入模型之前,此输入用于计算沿时间轴的平均掩码,然后使用2D卷积和最大池化层进行编码,然后是全连接层;同理,姿势特征的输入大小为Batch×N×17×3,姿态输入首先通过一个2D卷积层进行处理,然后将2D卷积层的输出输入到堆叠的LSTM编码器,最后通过全连接层进行处理,边界框特征的输入大小为Batch×N×1×4,自车速的输入大小为Batch×N×1×1;
使用两组Conv2D+Pooling层分别对输入的语义掩码信息和局部环境上下文信息进行编码,然后采用后期融合技术,将语义掩码和图像序列编码后的输出在空间上连接到一起,融合Conv层经一个2D卷积层处理后的输出被送入LSTM中得到融合后的视觉特征,再经过一个注意力模块得到最终的视觉特征;
在处理非视觉特征信息时:所述非视觉特征经2D卷积层编码后的输出,被送入LSTM并分层融合得到融合后的非视觉特征;首先,连续行人2D位置轨迹Li被馈送到LSTM编码器进行编码,其第一阶段的输出与自车车速S连接后被馈送到另一LSTM编码器中,之后,第二阶段的输出与连续行人姿势关键点Pi连接,并被馈送到最终的LSTM的编码器中,最终的编码器输出被馈送到注意力模块以得到最终的非视觉特征;
最终的视觉特征和最终的非视觉特征经混合融合后被连接并馈送到注意力模块,然后通过全连接层来对行人的行为和穿越意图进行最终预测;
其中,所述注意力模块用于选择性的关注部分特征,实现更好的学习序列特征,序列特征表示为隐藏状态h={h1,h2,...,he},注意力权重计算为:
9.根据权利要求1所述的一种智能汽车自车视角下的行人意图多任务识别及轨迹预测方法,其特征在于,对行人行为和穿越意图的定义如表1:
表1.行人动作及意图分类标签
所述行人的行为识别借助于行人的骨骼关键点特征实现,使用多任务学习模型识别,将T时刻的行人行为识别任务的结果将送入预测穿越意图的SVM网络,给定视频序列和自车车速信息,模型在T时间输出行为和意图概率,然后使用来自每个任务的softmax概率计算特定的动作或行为损失值:
SVM网络模型最后使用以下各个交叉熵损失的加权总和,联合训练所有分类任务:
Lact=ω1Lgait+ω2Lattn+ω3Lornt+ω4Ldist+ω5Lcrossing (3)
针对步态识别:使用人体下半身的腿、膝盖和脚踝处的6个关键点,计算特征(d1,d2,θ1,θ2,x,y),其中d1和d2分别是左右脚踝和膝盖之间的距离,θ1和θ2是四肢之间的角度,x和y是行人的臀部中心坐标,将特征堆叠为N的序列观察长度,以便捕获特征在时间上的变化,采用一维Resnet-10模型针对该二元分类任务进行训练,并优化交叉熵损失函数;
针对行人的注意力和方向识别:关注行人上半身的关键点,即头部——眼睛、鼻子、耳朵和肩膀处的7个关节点坐标,考虑到这两个任务的识别结果都是由人的脸和肩膀的共同特征决定,采用加权交叉熵损失函数联合训练具有一维卷积的Resnet10模型;
针对分心识别:关注行人手部、肘部和肩部的6个关键点,计算特征(θl,θr,θlr,hands,θlr,upper),其中θl和θr是每只手的下臂和上二头肌之间的角度,θlr,hands和θlr,upper是左手和右手之间的角度和左右两二头肌之间的角度。这里将该任务处理为一个使用具有径向基函数内核的支持向量分类器的二元分类任务。
10.根据权利要求1所述的一种智能汽车自车视角下的行人意图多任务识别及轨迹预测方法,其特征在于,行人在时间T至时间T+n的轨迹预测:基于感知主干网络提供的连续多帧中各目标行人的历史轨迹等信息,即行人的边界框历史轨迹信息,输入历史一段时间内的边界框位置序列,输出行人未来边界框的位置中心坐标,进而预测输出各目标行人的未来运动轨迹;具体地:
使用专注于行人边界框特征的LSTM编码器-解码器结构,编码的输入与内部状态一起传递到LSTM解码器堆栈,并以像素为单位输出未来边界框的中心位置,给定从时间1到T的边界框序列,模型预测从时间T到T+n的未来边界框中心,该回归任务经过训练以优化均方误差(MSE)损失函数:
联合优化损失函数为分类和回归损失Lact和Ltraj的加权和的总损失函数:
Lfin=Lact+Ltraj。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111186928.XA CN114120439A (zh) | 2021-10-12 | 2021-10-12 | 一种智能汽车自车视角下的行人意图多任务识别及轨迹预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111186928.XA CN114120439A (zh) | 2021-10-12 | 2021-10-12 | 一种智能汽车自车视角下的行人意图多任务识别及轨迹预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114120439A true CN114120439A (zh) | 2022-03-01 |
Family
ID=80441790
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111186928.XA Pending CN114120439A (zh) | 2021-10-12 | 2021-10-12 | 一种智能汽车自车视角下的行人意图多任务识别及轨迹预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114120439A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114639125A (zh) * | 2022-03-29 | 2022-06-17 | 北京易航远智科技有限公司 | 基于视频图像的行人意图预测方法、装置及电子设备 |
CN114781652A (zh) * | 2022-06-21 | 2022-07-22 | 济南大学 | 一种基于多模态强化学习的人机协同框架 |
CN114970819A (zh) * | 2022-05-26 | 2022-08-30 | 哈尔滨工业大学 | 一种基于意图推理与深度强化学习的移动目标搜索跟踪方法及系统 |
CN115147817A (zh) * | 2022-06-17 | 2022-10-04 | 淮阴工学院 | 一种姿态引导的实例感知网络的驾驶员分心行为识别方法 |
CN115690892A (zh) * | 2023-01-03 | 2023-02-03 | 京东方艺云(杭州)科技有限公司 | 一种眯眼识别方法、装置、电子设备及存储介质 |
CN115690924A (zh) * | 2022-12-30 | 2023-02-03 | 北京理工大学深圳汽车研究院(电动车辆国家工程实验室深圳研究院) | 一种用于无人车的潜在用户识别方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111046919A (zh) * | 2019-11-21 | 2020-04-21 | 南京航空航天大学 | 一种融合行为意图的周围动态车辆轨迹预测系统及方法 |
CN111523378A (zh) * | 2020-03-11 | 2020-08-11 | 浙江工业大学 | 一种基于深度学习的人体行为预测方法 |
CN111860269A (zh) * | 2020-07-13 | 2020-10-30 | 南京航空航天大学 | 一种多特征融合的串联rnn结构及行人预测方法 |
-
2021
- 2021-10-12 CN CN202111186928.XA patent/CN114120439A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111046919A (zh) * | 2019-11-21 | 2020-04-21 | 南京航空航天大学 | 一种融合行为意图的周围动态车辆轨迹预测系统及方法 |
CN111523378A (zh) * | 2020-03-11 | 2020-08-11 | 浙江工业大学 | 一种基于深度学习的人体行为预测方法 |
CN111860269A (zh) * | 2020-07-13 | 2020-10-30 | 南京航空航天大学 | 一种多特征融合的串联rnn结构及行人预测方法 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114639125A (zh) * | 2022-03-29 | 2022-06-17 | 北京易航远智科技有限公司 | 基于视频图像的行人意图预测方法、装置及电子设备 |
CN114639125B (zh) * | 2022-03-29 | 2022-09-16 | 北京易航远智科技有限公司 | 基于视频图像的行人意图预测方法、装置及电子设备 |
CN114970819A (zh) * | 2022-05-26 | 2022-08-30 | 哈尔滨工业大学 | 一种基于意图推理与深度强化学习的移动目标搜索跟踪方法及系统 |
CN114970819B (zh) * | 2022-05-26 | 2024-05-03 | 哈尔滨工业大学 | 一种基于意图推理与深度强化学习的移动目标搜索跟踪方法及系统 |
CN115147817A (zh) * | 2022-06-17 | 2022-10-04 | 淮阴工学院 | 一种姿态引导的实例感知网络的驾驶员分心行为识别方法 |
CN115147817B (zh) * | 2022-06-17 | 2023-06-20 | 淮阴工学院 | 一种姿态引导的实例感知网络的驾驶员分心行为识别方法 |
CN114781652A (zh) * | 2022-06-21 | 2022-07-22 | 济南大学 | 一种基于多模态强化学习的人机协同框架 |
CN114781652B (zh) * | 2022-06-21 | 2022-10-14 | 济南大学 | 一种基于多模态强化学习的人机协同框架 |
CN115690924A (zh) * | 2022-12-30 | 2023-02-03 | 北京理工大学深圳汽车研究院(电动车辆国家工程实验室深圳研究院) | 一种用于无人车的潜在用户识别方法和装置 |
CN115690892A (zh) * | 2023-01-03 | 2023-02-03 | 京东方艺云(杭州)科技有限公司 | 一种眯眼识别方法、装置、电子设备及存储介质 |
CN115690892B (zh) * | 2023-01-03 | 2023-06-13 | 京东方艺云(杭州)科技有限公司 | 一种眯眼识别方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ko et al. | Key points estimation and point instance segmentation approach for lane detection | |
CN114120439A (zh) | 一种智能汽车自车视角下的行人意图多任务识别及轨迹预测方法 | |
WO2020244653A1 (zh) | 物体识别方法及装置 | |
Yang et al. | Crossing or not? Context-based recognition of pedestrian crossing intention in the urban environment | |
Rasouli et al. | Bifold and semantic reasoning for pedestrian behavior prediction | |
Peng et al. | MASS: Multi-attentional semantic segmentation of LiDAR data for dense top-view understanding | |
Lorenzo et al. | Rnn-based pedestrian crossing prediction using activity and pose-related features | |
CN111860269B (zh) | 一种多特征融合的串联rnn结构及行人预测方法 | |
He et al. | Rail transit obstacle detection based on improved CNN | |
Shao et al. | Reasonnet: End-to-end driving with temporal and global reasoning | |
Hua et al. | Small obstacle avoidance based on RGB-D semantic segmentation | |
Sharma et al. | Pedestrian intention prediction for autonomous vehicles: A comprehensive survey | |
Ranga et al. | Vrunet: Multi-task learning model for intent prediction of vulnerable road users | |
Dewangan et al. | Towards the design of vision-based intelligent vehicle system: methodologies and challenges | |
Wang et al. | Simultaneous detection and tracking using deep learning and integrated channel feature for ambint traffic light recognition | |
Saravanarajan et al. | Car crash detection using ensemble deep learning | |
Salzmann et al. | Robots that can see: Leveraging human pose for trajectory prediction | |
Yang et al. | DPCIAN: A novel dual-channel pedestrian crossing intention anticipation network | |
Hayakawa et al. | Recognition and 3d localization of pedestrian actions from monocular video | |
Zhang et al. | DNet-CNet: A novel cascaded deep network for real-time lane detection and classification | |
Li et al. | GRAN: graph recurrent attention network for pedestrian orientation classification | |
CN114972182A (zh) | 一种物体检测方法及其装置 | |
Jiang et al. | Two-stream 3D MobileNetV3 for pedestrians intent prediction based on monocular camera | |
Pai et al. | Forward Collision Warning and Lane-mark Recognition Systems Based on Deep Learning. | |
Dong | Pedestrian Cross Forecasting with Hybrid Feature Fusion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |