CN114898293A - 一种面向自动驾驶汽车的过街行人群体多模态轨迹预测方法 - Google Patents
一种面向自动驾驶汽车的过街行人群体多模态轨迹预测方法 Download PDFInfo
- Publication number
- CN114898293A CN114898293A CN202210550072.8A CN202210550072A CN114898293A CN 114898293 A CN114898293 A CN 114898293A CN 202210550072 A CN202210550072 A CN 202210550072A CN 114898293 A CN114898293 A CN 114898293A
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- vehicle
- time
- information
- interaction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000003997 social interaction Effects 0.000 claims abstract description 51
- 230000003993 interaction Effects 0.000 claims abstract description 40
- 238000001514 detection method Methods 0.000 claims abstract description 10
- 230000002452 interceptive effect Effects 0.000 claims abstract description 9
- 238000004364 calculation method Methods 0.000 claims abstract description 8
- 238000010586 diagram Methods 0.000 claims abstract description 7
- 238000000605 extraction Methods 0.000 claims abstract description 7
- 230000033001 locomotion Effects 0.000 claims description 14
- 238000013527 convolutional neural network Methods 0.000 claims description 13
- 238000011176 pooling Methods 0.000 claims description 10
- 239000013598 vector Substances 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 9
- 230000008859 change Effects 0.000 claims description 8
- 238000005192 partition Methods 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 5
- 230000005484 gravity Effects 0.000 claims description 5
- 241000283070 Equus zebra Species 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims 1
- 230000006399 behavior Effects 0.000 description 15
- 238000005516 engineering process Methods 0.000 description 5
- 230000035772 mutation Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000008846 dynamic interplay Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 241000158728 Meliaceae Species 0.000 description 1
- 230000002567 autonomic effect Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006854 communication Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/53—Recognition of crowd images, e.g. recognition of crowd congestion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
- G06V10/765—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/54—Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明公开了一种面向自动驾驶汽车的过街行人群体多模态轨迹预测方法,依据自动驾驶车获取的多源信息构建人车社会交互图;基于人车社会交互图,运用图团体检测算法实现行人结伴识别;运用朴素贝叶斯模型实现行人从众识别与人车交互识别,完成人车时空信息的社会交互标签嵌入,确定行人的不同交互方式与交互对象;基于输入信息与交互标签,经由多模态轨迹预测模块,计算未来短期行人及行人群体轨迹;基于未来短时轨迹,更新未来人车时空状态信息;储存未来短时轨迹,拼接为长时轨迹序列。本发明在轨迹短时预测中,加入了对过街场景语义信息的特征提取,更适用于泛化要求高、场景复杂、计算实时性强的自动驾驶应用场景。
Description
技术领域
本发明属于自动驾驶决策算法领域,具体涉及一种面向自动驾驶汽车过街行人群体多模态轨迹预测方法。
背景技术
自动驾驶是新一轮科技革命与交通运输融合发展的高地。近几年,自动驾驶汽车技术发展迅速,许多科技公司推出的自动驾驶方案(特斯拉FSD、百度Apollo、小马智行等)正向高级别的自动驾驶迈进。但与此同时,人们仍然对自动驾驶车辆的安全存在很大的质疑。过街行人轨迹预测是自动驾驶技术中的重要组成部分和研究领域。提高过街行人群体轨迹预测的准确性,将更有效地保证自动驾驶汽车在行驶中的安全性,减少交通参与者的生命财产损失。
行人过街是行人行为的一个特殊场景。该场景中,不但需考虑行人间的交互还要关注行人与车辆的博弈。此外,过街的环境因素也远比人行道内部复杂。因此近年来,交互感知和多模态对于轨迹预测的重要性已被关注。现有长时轨迹预测方法主要为直接预测或仅简单迭代预测。但行人行为具有突变性与高频性,将人与车的动态博弈以及行人轨迹的突变特性纳入模型对于提升轨迹预测的精度至关重要,但现有研究不够深入。现有的自动驾驶决策模块虽能实现行人的意图识别和轨迹预测,但因缺乏对行人决策机理和社会交互的解析,无法从行为随机的人群行为中足够精准地判断其意图与趋势,以至于在面对复杂的人群过街交通场景时轨迹预测精确度不足。现有的深度学习模型极大地提升了轨迹预测的精度,但行人过街轨迹预测的研究大多针对单人单车交互场景,学者们回避了路权模糊、多人多车的复杂交通场景,忽视了行人与其他交通主体的社会交互因素。行人行为的随机性与社会性,极大地增加了真实场景下行人行为的可预测难度,使得考虑行为心理、社会交互等复杂因素的轨迹预测研究仍处于探索阶段。
发明内容
本发明目的在于提供一种面向自动驾驶汽车的过街行人群体多模态轨迹预测方法,可避免传统的行人轨迹单模态预测造成的过街行人群体轨迹预测精度低以及无法预测可能产生的过街行为突变的问题。
为实现上述目的,本发明所采用的技术方案如下:一种面向自动驾驶汽车的过街行人群体多模态轨迹预测方法,包括以下步骤:
步骤1、依据自动驾驶车获取的多源信息构建人车社会交互图,所述多源信息包括自动驾驶车路径规划信息、人车时空状态信息以及行人过街意图信息;
步骤2、基于人车社会交互图,运用图团体检测算法实现行人结伴识别;
步骤3、运用朴素贝叶斯模型实现行人从众识别与人车交互识别,完成人车时空信息的社会交互标签嵌入,确定行人的不同交互方式与交互对象;
步骤4、基于输入信息与交互标签,经由多模态轨迹预测模块,计算未来短期行人及行人群体轨迹;
步骤5、基于未来短时轨迹,更新未来人车时空状态信息;储存未来短时轨迹,拼接为长时轨迹序列,为每个行人的未来轨迹提出多模式解决方案。
优选地,所述人车空间关系信息包括:自动驾驶汽车的绝对位置、行人的绝对位置、邻车绝对位置;所述自动驾驶车路径规划信息为基于使用道路中心线作为参考线,使用参考线的切线向量和法线向量建立坐标系后基于行车自动驾驶初始激活状态建立相应的初始运动轨迹规划;所述行人过街意图信息包括基于隐马尔可夫行人过街意图识别模型确定检测到的行人过街状态Si,S1为过街,S2为等待过街,S3为非过街。
优选地,步骤2基于人车社会交互图,运用图团体检测算法实现行人结伴识别,具体步骤为:
步骤2-1、将检测到的过街行人视为节点并根据相互之间的欧式距离创建邻接矩阵;
步骤2-2、将每个节点自己的独自构成一个聚类,计算整个网络的模块性M,
步骤2-3、计算任意两个聚类进行融合后造成的模块性改变ΔM;
步骤2-4、取ΔM出现了最大增长的两个聚类进行实际融合;为这个聚类计算新的模块性M,并记录下来;
步骤2-5、重复第2-3步和第2-4步,每一次都融合一对聚类,得到ΔM的最大增益,记录新的聚类模式及其相应的模块性M,衡量结伴划分质量,通过迭代寻找最优结伴划分;
步骤2-6、基于划分结果合并结伴的行人组合,更新社会交互图。
优选地,模块性M的计算公式如下:
其中,L表示社会交互图包含的边数量,N表示定点数量,kikj表示各人、车的度,Aij表示两交通主体间的欧式距离,ci,cj表示行人结伴聚类情况,δ为kronecker函数,两个参数相等则返回1,不等则返回0;所以如果顶点i,j属于同一聚类,则δ(ci,cj)返回1,不属于同一聚类则δ(ci,cj)返回0。
优选地,运用朴素贝叶斯分类器筛选出从众行人和与车辆有交互的行人,具体为:
步骤3-1、假设每个被检测到的行人具有n项属性特征,分别为f1,f2,f3,f4,……,fN,同时各属性特征之间保持相互独立,集合F={f1,f2,f3,f4……fN}表示属性特征集合;
步骤3-2、将人群划分为m个类别,分别为c1,c2,c3,……,cM,集合C={c1,c2,c3……cM}表示从属类别集合;
步骤3-3、通过样本中已知类别的行人的先验概率p(F|c),根据未知类别行人的属性特征集合F,利用贝叶斯公式计算行人的后验概率p(c|F),选择具有最大后验概率的类作为其所属的类别,筛选出从众行人和与车辆有交互的行人;
步骤3-4、采用相同方法将过街行人群体划分为2个类别分别为c4:与车辆有交互者;c5:与车辆无交互者;
步骤3-5、输出具有人-人结伴、从众标签及人车交互标签的人车时空信息。
优选地,利用贝叶斯公式计算出行人的后验概率的公式表达如下:
式中,p(F|c)为已知类别的行人的先验概率,p(F)为特征集合F的全概率,p(c)为某个行人为c类别的概率,p(fN|c)为类别为c的行人具有fN特征的概率。
优选地,所述多模态轨迹预测模块包括CNN场景模块、轨迹预测模块、社会交互模块以及轨迹输出模块,由CNN场景模块提供场景语义信息,轨迹预测模块结合上层场景语义信息对行人过街运动趋势编码,通过社会交互模块对行人过街运动趋势赋予社交特征,由轨迹输出模块输出多模态行人短时轨迹预测结果。
优选地,由多模态轨迹预测模块,计算未来短期行人及行人群体轨迹的具体过程为:
步骤4-1、通过CNN场景模块提供场景语义信息,具体为:基于对自动驾驶车行车图像分割及坐标转换后的图像数据,运用卷积神经网络,经卷积层与池化层联合特征提取,对机动车道、非机动车道、人行道、斑马线及障碍区域进行像素级编码,获得场景语义信息;
步骤4-2、以LSTM为模型骨架,建立轨迹预测模型;以社会交互图中各智能团体为单位,基于自动驾驶车目标检测及跟踪获取的行人历史轨迹数据,运用长短时记忆网络,经记忆单元与门控单元实现时间序列间的信息共享与传递,结合上层场景语义信息,编码行人过街趋势信息;
步骤4-3、通过社会交互模块对行人过街运动趋势赋予社交特征;
步骤4-4、基于上层网络提取的空间语义信息、过街趋势信息以及社会交互信息,经混合密度网络,计算未来可能的多种轨迹范围,并以此生成多模态轨迹,同时基于高斯混合模型实现轨迹概率的输出。
本发明与现有技术相比,其显著优点在于:
(1)本发明还原行人过街决策过程,创新地设计了一种迭代框架,优化了更新信息与更新方式,将长时预测任务拆分为不断迭代、同步更新的若干时序短时预测。
(2)本发明动态迭代不仅更新人车短时未来轨迹信息,还考虑将群体行为规律融入社会交互标签,更好应对行人因社会关系变化产生的轨迹突变现象,在更新方式上,改进Social机制,实现行人群体过街特征在结构内的同步交流与更新,从而减小计算冗余、提高预测精度。
(3)本发明在轨迹短时预测中,加入了对过街场景语义信息的特征提取,更适用于泛化要求高、场景复杂、计算实时性强的自动驾驶应用场景。
下面结合附图和具体实施方式对本发明做进一步的说明。
附图说明
图1为本发明的基于自动驾驶汽车的基于自动驾驶汽车过街行人群体多模态轨迹预测方法步骤流程图。
图2为本发明的实施例中多模态轨迹预测模块逻辑框架。
图3为本发明的实施例中社会交互识别模块逻辑框架示意图。
图4为本发明的实施例中动态迭代的行人长时轨迹预测框架示意图。
具体实施方式
本发明的构思为:一种面向自动驾驶汽车过街行人群体多模态轨迹预测方法,考虑人-人、人-车的多样社会交互属性及高频动态交互特性,构建由社会交互识别模块与多模态轨迹预测模块组成的行人轨迹预测迭代框架,实现对行人群体过街的多模态轨迹预测,提供一种高可靠性和准确性的过街行人群体可能的轨迹预测结果,为自动驾驶车辆决策模块与路径规划模块提供精确的数据基础,进一步提高自动驾驶的智能度、提升乘坐舒适性与安全性,推动自动驾驶技术进步
作为一种实施例,一种面向自动驾驶汽车过街行人群体多模态轨迹预测方法,包括以下步骤:
步骤1、依据自动驾驶车获取的多源信息,包括自动驾驶车路径规划信息,人车时空状态信息,行人过街意图信息初步构建人车社会交互图,具体步骤为:
所述人车空间关系信息包括:自动驾驶汽车的绝对位置、行人的绝对位置、邻车绝对位置。
所述自动驾驶车路径规划信息为基于使用道路中心线作为参考线,使用参考线的切线向量和法线向量建立坐标系后基于行车自动驾驶初始激活状态建立相应的初始运动轨迹规划。
所述行人过街意图信息包括基于隐马尔可夫行人过街意图识别模型确定检测到的行人过街状态Si,S1为过街,S2为等待过街,S3为非过街。
步骤2、基于人车社会交互图,运用图团体检测算法实现行人结伴识别,具体步骤为:
步骤2-1、将检测到的具有过街意图的行人视为节点并根据相互之间的欧式距离创建邻接矩阵。
步骤2-2、将每个节点独自构成一个聚类,然后计算整个网络的模块性M,M的计算公式如下:
其中,L表示社会交互图包含的边数量,N表示定点数量,k表示各人、车的度,Aij表示两交通主体间的欧式距离,ci,cj表示行人结伴聚类情况,δ为kronecker函数。两个参数相等则返回1,不等则返回0。所以如果顶点i,j属于同一聚类,则δ(ci,cj)返回1,不属于同一聚类则δ(ci,cj)返回0。
步骤2-3、计算任意两个聚类进行融合后造成的模块性改变ΔM。
步骤2-4、取ΔM出现了最大增长的两个聚类进行实际融合。然后为这个聚类计算新的模块性M,并记录下来。
步骤2-5、不断重复第2-3步和第2-4步,每一次都融合一对聚类,得到ΔM的最大增益,然后记录新的聚类模式及其相应的模块性M,衡量结伴划分质量,通过迭代寻找最优结伴划分。
步骤2-6、基于划分结果合并结伴的行人组合,更新社会交互图,降低预测目标总数,减少轨迹预测的算力消耗。
步骤3、运用朴素贝叶斯分类器筛选出从众行人和与车辆有交互的行人。在模型训练阶段,基于广泛人-车交互数据,分析行人从众行为特征与人车交互特征。制定各交互行为的判别依据与规范,设计交叉验证,确保行人从众与人车交互标签的合理性。模型应用阶段,基于行人意图信息、人-车时空图关系,将行人与车辆间的拓扑关系转化为包含度、权与意图的节点属性,运用贝叶斯定理计算各交互的概率,实现从众标签以及人车交互标签的分类,具体步骤为:
步骤3-1、假设每个被检测到的行人具有n项属性特征,用集合F={f1,f2,f3,f4……fn},同时各属性特征fn之间保持相互独立。
步骤3-2、将过街行人群体划分为2个类别,分别为c1:领导者;c2:跟随者;c3:自主者。
步骤3-3、通过样本中已知领导者、跟随者和自主者的先验概率p(F|c),根据未知类别行人的属性特征集合F,利用贝叶斯公式计算出行人的后验概率p(c|F),即该个体属于某一类别的概率,选择具有最大后验概率的类作为其所属的类别,筛选出领导者、跟随者和自主者。算法的公式表达如下:
步骤3-4、采用相同方法将过街行人群体划分为2个类别分别为c4:与车辆有交互者;c5:与车辆无交互者。
步骤3-5、输出具有人-人结伴、从众标签及人车交互标签的人车时空信息。
步骤4、基于深度学习技术,建立多人并行预测且考虑社会交互信息的轨迹预测模型,基于输入信息与交互标签,经由多模态轨迹预测模块,计算未来短期行人及行人群体轨迹,该模块由四个子模块组成,先由CNN场景模块提供场景语义信息,接着轨迹预测模块结合该上层场景语义信息对行人过街运动趋势编码,然后通过社会交互模块对行人过街运动趋势赋予社交特征,最后由轨迹输出模块输出多模态行人短时轨迹预测结果。具体步骤为:
步骤4-1、通过CNN场景模块提供场景语义信息,赋予模型基于场景特征推测及优化轨迹走向的能力。基于对自动驾驶车行车视频数据的图像分割及坐标转换,运用卷积神经网络,经卷积层与池化层联合特征提取,对机动车道、非机动车道、人行道、斑马线及障碍区域进行像素级编码,获得场景语义信息。
步骤4-2、以LSTM为模型骨架,建立轨迹预测模型,赋予模型基于行人历史轨迹信息学习时序特征的能力。以社会交互图中各智能团体为单位,基于自动驾驶车目标检测及跟踪获取的行人历史轨迹数据,运用长短时记忆网络,经记忆单元与门控单元实现时间序列间的信息共享与传递,结合上层场景语义信息,进一步编码行人过街趋势信息,针对附有跟随者标签的行人运动趋势由避免与他人碰撞改为趋向领导者。
步骤4-3、通过社会交互模块模块为各子模型间提供信息共享手段,赋予模型基于社会交互标签及他人轨迹特征学习交互特征的能力。
其中表示第i个人在t时刻的社交隐藏层,即第i个人在t时刻邻居t-1时刻的隐藏层;第i个人在t-1时刻的隐藏层;Ni表示第i个人邻居的集合;1mn[x,y]为指示函数检查x,y是否在m×n的网格中;表示第j个人和第i个人横坐标位置;表示第j个人和第i个人纵坐标位置;si表示第i个人的结伴人群集合。
步骤4-3-2、对具有人车交互标签的行人构建人车交互输入,用表示第j辆车对第i个人的影响程度,定义第i个人周围p×q的矩形框范围内的人为其邻车。若汽车与行人之间的距离变小,邻车的池化层比重将会变大,若汽车与行人之间距离变远,邻车的池化层比重将会变小。该变化通过方向注意系数来确定:
行人在不同方向上的注意力,以改变不同“邻居”池化层的权重。
其中a表示第i个人对邻车的排斥幅度。
步骤4-3-4、对第i个人下一时间步的位置进行估计:
其中Li(We,Wt,Wρ)表示第i个人的损失函数。
步骤4-4、通过混合密度网络(MDN)为每个行人的未来轨迹提出多模式解决方案,赋予模型多模态结果输出的能力。基于上层网络提取的空间语义信息、过街趋势信息以及社会交互信息,经混合密度网络(MDN),计算未来可能的多种轨迹范围,并以此生成短时多模态轨迹,同时基于高斯混合模型实现轨迹概率的输出。
步骤5、通过高频的信息获取、交互理解和决策生成,基于生成的行人群体短时轨迹,更新自动驾驶路径规划信息、行人意图信息、环境语义及人车时空状态感知信息,在动态交互的轨迹预测迭代框架内不断迭代更新社会交互识别模块与短时轨迹预测模块,实现社会交互行为的动态建模。通过储存的未来短时轨迹,拼接为长时轨迹序列,实现5s长时轨迹的精准预测。
综上所述,本发明提出的一种基于自动驾驶汽车的过街行人群体多模态轨迹预测方法,通过综合编码场景语义、历史轨迹及社会交互信息,实现群体行人的同时多模态轨迹输出。相较于GAN、Transformer等大型轨迹预测模型,减小了预测不同步带来的计算冗余和误差;相较于其他LSTM模型,优化了社会交互因素的编码方式,加入了对过街场景语义信息的特征提取,更适用于泛化要求高、场景复杂、计算实时性强的自动驾驶应用场景。
本发明根据过街意图识别结果,构建行人过街人车交互图。运用图团体检测技术,分析行人的运动时空一致性,识别个体与子群(结伴行人),并重构交互图。依据社会影响理论,分析个体与子群过街的从众行为,运用朴素贝叶斯模型实现领导者、跟随者、自主者及其从属关系的从众识别。人-车社会交互关系辨识,依据朴素贝叶斯模型,筛选与各过街行人存在交互的车辆,提取车辆影响下的行人过街轨迹决策特征。接着基于社会交互识别模块,解析结伴、从众标识以及多车交互下的优先交互策略。依据交互行为和场景语义信息的数据特点,综合CNN卷积神经网络的空间特征提取能力、LSTM长短时记忆网络对于时间特征的分析能力,以及Social机制对于多智能体交互影响的建模能力,提出知识与数据双驱动的多模态轨迹预测模块。模块以深度学习Social-LSTM为骨架,嵌入交互信息与场景信息,挖掘人-人、人-车、人-环境对行人轨迹的影响与内在联系。采用动态交互的轨迹预测迭代框架。在框架内不断迭代更新社会交互识别模块与短时轨迹预测模块,实现社会交互行为的动态建模、长时轨迹的精准预测和行人决策突变的提前预知。进一步添加运动学约束,考虑行人轨迹预测的多样性,结合混合密度网络,实现过街行人群体未来的多模态轨迹预测。进一步提高自动驾驶的智能度、提升乘坐舒适性与安全性。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。
Claims (9)
1.一种面向自动驾驶汽车的过街行人群体多模态轨迹预测方法,其特征在于,包括以下步骤:
步骤1、依据自动驾驶车获取的多源信息构建人车社会交互图,所述多源信息包括自动驾驶车路径规划信息、人车时空状态信息以及行人过街意图信息;
步骤2、基于人车社会交互图,运用图团体检测算法实现行人结伴识别;
步骤3、运用朴素贝叶斯模型实现行人从众识别与人车交互识别,完成人车时空信息的社会交互标签嵌入,确定行人的不同交互方式与交互对象;
步骤4、基于输入信息与交互标签,经由多模态轨迹预测模块,计算未来短期行人及行人群体轨迹;
步骤5、基于未来短时轨迹,更新未来人车时空状态信息;储存未来短时轨迹,拼接为长时轨迹序列。
2.根据权利要求1所述的面向自动驾驶汽车的过街行人群体多模态轨迹预测方法,其特征在于,所述人车空间关系信息包括:自动驾驶汽车的绝对位置、行人的绝对位置、邻车绝对位置;所述自动驾驶车路径规划信息为基于使用道路中心线作为参考线,使用参考线的切线向量和法线向量建立坐标系后基于行车自动驾驶初始激活状态建立相应的初始运动轨迹规划;所述行人过街意图信息包括基于隐马尔可夫行人过街意图识别模型确定检测到的行人过街状态Si,S1为过街,S2为等待过街,S3为非过街。
3.根据权利要求1所述的面向自动驾驶汽车的过街行人群体多模态轨迹预测方法,其特征在于,步骤2基于人车社会交互图,运用图团体检测算法实现行人结伴识别,具体步骤为:
步骤2-1、将检测到的过街行人视为节点并根据相互之间的欧式距离创建邻接矩阵;
步骤2-2、将每个节点自己的独自构成一个聚类,计算整个网络的模块性M,
步骤2-3、计算任意两个聚类进行融合后造成的模块性改变ΔM;
步骤2-4、取ΔM出现了最大增长的两个聚类进行实际融合;为这个聚类计算新的模块性M,并记录下来;
步骤2-5、重复第2-3步和第2-4步,每一次都融合一对聚类,得到ΔM的最大增益,记录新的聚类模式及其相应的模块性M,衡量结伴划分质量,通过迭代寻找最优结伴划分;
步骤2-6、基于划分结果合并结伴的行人组合,更新社会交互图。
5.根据权利要求1所述的基于自动驾驶汽车的过街行人群体多模态轨迹预测方法,其特征在于,运用朴素贝叶斯分类器筛选出从众行人和与车辆有交互的行人,具体为:
步骤3-1、假设每个被检测到的行人具有n项属性特征,分别为f1,f2,f3,f4,……,fN,同时各属性特征之间保持相互独立,集合F={f1,f2,f3,f4……fN}表示属性特征集合;
步骤3-2、将人群划分为m个类别,分别为c1,c2,c3,……,cM,集合C={c1,c2,c3……cM}表示从属类别集合;
步骤3-3、通过样本中已知类别的行人的先验概率p(F|c),根据未知类别行人的属性特征集合F,利用贝叶斯公式计算行人的后验概率p(c|F),选择具有最大后验概率的类作为其所属的类别,筛选出从众行人和与车辆有交互的行人;
步骤3-4、采用相同方法将过街行人群体划分为2个类别分别为c4:与车辆有交互者;c5:与车辆无交互者;
步骤3-5、输出具有人-人结伴、从众标签及人车交互标签的人车时空信息。
7.根据权利要求1所述的面向自动驾驶汽车的过街行人群体多模态轨迹预测方法,其特征在于,所述多模态轨迹预测模块包括CNN场景模块、轨迹预测模块、社会交互模块以及轨迹输出模块,由CNN场景模块提供场景语义信息,轨迹预测模块结合上层场景语义信息对行人过街运动趋势编码,通过社会交互模块对行人过街运动趋势赋予社交特征,由轨迹输出模块输出多模态行人短时轨迹预测结果。
8.根据权利要求1或7所述的面向自动驾驶汽车的过街行人群体多模态轨迹预测方法,其特征在于,由多模态轨迹预测模块,计算未来短期行人及行人群体轨迹的具体过程为:
步骤4-1、通过CNN场景模块提供场景语义信息,具体为:基于对自动驾驶车行车图像分割及坐标转换后的图像数据,运用卷积神经网络,经卷积层与池化层联合特征提取,对机动车道、非机动车道、人行道、斑马线及障碍区域进行像素级编码,获得场景语义信息;
步骤4-2、以LSTM为模型骨架,建立轨迹预测模型;以社会交互图中各智能团体为单位,基于自动驾驶车目标检测及跟踪获取的行人历史轨迹数据,运用长短时记忆网络,经记忆单元与门控单元实现时间序列间的信息共享与传递,结合上层场景语义信息,编码行人过街趋势信息;
步骤4-3、通过社会交互模块对行人过街运动趋势赋予社交特征;
步骤4-4、基于上层网络提取的空间语义信息、过街趋势信息以及社会交互信息,经混合密度网络,计算未来可能的多种轨迹范围,并以此生成多模态轨迹,同时基于高斯混合模型实现轨迹概率的输出。
9.根据权利要求8所述的面向自动驾驶汽车的过街行人群体多模态轨迹预测方法,其特征在于,通过社会交互模块对行人过街运动趋势赋予社交特征的具体步骤为:
其中,表示第i个人在t时刻的社交隐藏层,即第i个人在t时刻邻居t-1时刻的隐藏层;第i个人在t-1时刻的隐藏层;Ni表示第i个人邻居的集合;1mn[x,y]为指示函数检查x,y是否在m×n的网格中;cell mn表示第i个人周围m×n的矩形范围;表示第j个人和第i个人横坐标位置;表示第j个人和第i个人纵坐标位置;si表示第i个人的结伴人群集合。
步骤4-3-2、构建人车交互输入,用表示第j辆车对第i个人的影响程度,定义第i个人周围p×q的矩形框范围内的人为其邻车;若汽车与行人之间的距离变小,邻车的池化层比重将会变大,若汽车与行人之间距离变远,邻车的池化层比重将会变小;该变化通过计方向注意系数来确定:
行人在不同方向上的注意力,以改变不同邻居池化层的权重:
其中a表示第i个人对邻车的排斥幅度:
步骤4-3-4、对第i个人下一时间步的位置进行估计:
其中Li(We,Wt,Wρ)表示第i个人的损失函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210550072.8A CN114898293A (zh) | 2022-05-20 | 2022-05-20 | 一种面向自动驾驶汽车的过街行人群体多模态轨迹预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210550072.8A CN114898293A (zh) | 2022-05-20 | 2022-05-20 | 一种面向自动驾驶汽车的过街行人群体多模态轨迹预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114898293A true CN114898293A (zh) | 2022-08-12 |
Family
ID=82724352
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210550072.8A Pending CN114898293A (zh) | 2022-05-20 | 2022-05-20 | 一种面向自动驾驶汽车的过街行人群体多模态轨迹预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114898293A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115239767A (zh) * | 2022-09-22 | 2022-10-25 | 北京工业大学 | 动态客流行为态势预测方法、系统、存储介质及设备 |
CN115366920A (zh) * | 2022-08-31 | 2022-11-22 | 阿波罗智能技术(北京)有限公司 | 用于自动驾驶车辆的决策方法及装置、设备和介质 |
CN116456048A (zh) * | 2023-06-19 | 2023-07-18 | 中汽信息科技(天津)有限公司 | 一种基于场景适配的汽车影像记录方法及系统 |
CN117010265A (zh) * | 2023-04-14 | 2023-11-07 | 北京百度网讯科技有限公司 | 能够进行自然语言交互的自动驾驶模型及其训练方法 |
-
2022
- 2022-05-20 CN CN202210550072.8A patent/CN114898293A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115366920A (zh) * | 2022-08-31 | 2022-11-22 | 阿波罗智能技术(北京)有限公司 | 用于自动驾驶车辆的决策方法及装置、设备和介质 |
CN115239767A (zh) * | 2022-09-22 | 2022-10-25 | 北京工业大学 | 动态客流行为态势预测方法、系统、存储介质及设备 |
CN117010265A (zh) * | 2023-04-14 | 2023-11-07 | 北京百度网讯科技有限公司 | 能够进行自然语言交互的自动驾驶模型及其训练方法 |
CN116456048A (zh) * | 2023-06-19 | 2023-07-18 | 中汽信息科技(天津)有限公司 | 一种基于场景适配的汽车影像记录方法及系统 |
CN116456048B (zh) * | 2023-06-19 | 2023-08-18 | 中汽信息科技(天津)有限公司 | 一种基于场景适配的汽车影像记录方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Huang et al. | A survey on trajectory-prediction methods for autonomous driving | |
Mozaffari et al. | Deep learning-based vehicle behavior prediction for autonomous driving applications: A review | |
CN114898293A (zh) | 一种面向自动驾驶汽车的过街行人群体多模态轨迹预测方法 | |
Lui et al. | Modelling of destinations for data-driven pedestrian trajectory prediction in public buildings | |
Choi et al. | Drogon: A causal reasoning framework for future trajectory forecast | |
Karle et al. | Scenario understanding and motion prediction for autonomous vehicles—review and comparison | |
CN113362368B (zh) | 一种基于多层次时空图神经网络的人群轨迹预测方法 | |
Zhang et al. | A systematic solution of human driving behavior modeling and simulation for automated vehicle studies | |
Shin et al. | Incremental deep learning for robust object detection in unknown cluttered environments | |
Song et al. | Classifying 3D objects in LiDAR point clouds with a back-propagation neural network | |
Anzalone et al. | An end-to-end curriculum learning approach for autonomous driving scenarios | |
CN111027627A (zh) | 一种基于多层感知机的振动信息地形分类识别方法 | |
CN114155270A (zh) | 行人轨迹预测方法、装置、设备及存储介质 | |
Hu et al. | Holistic transformer: A joint neural network for trajectory prediction and decision-making of autonomous vehicles | |
Kawasaki et al. | Multimodal trajectory predictions for autonomous driving without a detailed prior map | |
Zhou et al. | Spatiotemporal attention-based pedestrian trajectory prediction considering traffic-actor interaction | |
Boulton et al. | Motion prediction using trajectory sets and self-driving domain knowledge | |
Huang et al. | Diversity-aware vehicle motion prediction via latent semantic sampling | |
Bharilya et al. | Machine learning for autonomous vehicle's trajectory prediction: A comprehensive survey, challenges, and future research directions | |
Chen et al. | CAE‐GAN: A hybrid model for vehicle trajectory prediction | |
Zuo et al. | Trajectory prediction network of autonomous vehicles with fusion of historical interactive features | |
Xiao et al. | Parking prediction in smart cities: A survey | |
Xie et al. | A cognition‐inspired trajectory prediction method for vehicles in interactive scenarios | |
Zhang et al. | ForceFormer: exploring social force and transformer for pedestrian trajectory prediction | |
Wei et al. | How do we move: Modeling human movement with system dynamics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |