CN109117701B - 基于图卷积的行人意图识别方法 - Google Patents

基于图卷积的行人意图识别方法 Download PDF

Info

Publication number
CN109117701B
CN109117701B CN201810568305.0A CN201810568305A CN109117701B CN 109117701 B CN109117701 B CN 109117701B CN 201810568305 A CN201810568305 A CN 201810568305A CN 109117701 B CN109117701 B CN 109117701B
Authority
CN
China
Prior art keywords
pedestrian
key point
intention
graph convolution
human body
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810568305.0A
Other languages
English (en)
Other versions
CN109117701A (zh
Inventor
秦文虎
张哲�
孙立博
张仕超
王昭东
尚昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201810568305.0A priority Critical patent/CN109117701B/zh
Publication of CN109117701A publication Critical patent/CN109117701A/zh
Application granted granted Critical
Publication of CN109117701B publication Critical patent/CN109117701B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Traffic Control Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于图卷积的行人意图识别方法,通过安装在车辆上的前视相机系统拍摄道路环境视频图像;对图像进行行人检测和行人人体关键点信息提取,并基于图论的方法构造邻接矩阵表示行人人体关键点的连接信息;通过图卷积算法从人体关键点的坐标信息和邻接矩阵表示中提取底层特征,并将底层特征通过深度卷积神经网络和深度循环神经网络进行高层次特征提取和时序分析;选择合适的损失函数,基于通过人工标注方法构建的行人意图数据集,对前述模型参数进行优化训练,实现对行人行为意图的分类识别。本发明有效利用了行人人体关键点信息这一高层次语义特征,使得汽车高级驾驶辅助系统具有理解行人行为意图的能力。

Description

基于图卷积的行人意图识别方法
技术领域
本发明涉及一种基于图卷积的行人意图识别技术,属于高级汽车驾驶员辅助技术领域。
背景技术
行人检测功能是高级汽车驾驶员辅助系统ADAS(Advanced Driver AssistanceSystem)的一项重要功能。现有的行人检测系统利用雷达或相机来检测行人位置,当检测到行驶路线上有行人时,及时减速刹车减少事故伤害和避免事故发生。
车载相机系统拍摄的车辆行驶环境的图像和视频,包含了行人、环境的相关信息,但目前的行人检测系统由于算法的限制,不能从高抽象层次对环境和行人行为进行理解。
中国专利申请公布号CN107406071A的专利公开了一种基于图像的行人识别装置,该装置可检测车辆周围行人,并根据行人运动与否进行碰撞预警,但其模型较为简单,仅能判断行人位置和通过前后时间对比,判断行人是否移动,不能进行细粒度的行人意图识别。
发明内容
发明目的:本发明的目的在于解决现有的基于图像的行人识别装置及其方法模型较为简单,仅能判断行人位置和通过前后时间对比,判断行人是否移动,不能进行细粒度的行人意图识别的问题。
技术方案:为实现上述目的,本发明提供以下技术方案:
一种基于图卷积的行人意图识别方法,包括以下步骤:
1)通过安装在车辆上的前视相机系统拍摄道路环境视频图像;
2)对图像进行行人检测和行人人体关键点信息提取,并基于图论的方法构造邻接矩阵表示行人人体关键点的连接信息;
3)通过图卷积算法从人体关键点的坐标信息和邻接矩阵表示中提取底层特征,并将底层特征通过深度卷积神经网络和深度循环神经网络进行高层次特征提取和时序分析;
4)选择合适的损失函数,基于通过人工标注方法构建的行人意图数据集,对前述模型参数进行优化训练,实现对行人行为意图的分类识别。
进一步地,所述步骤2)中,行人检测和行人人体关键点信息提取采用Mask RCNN的算法和预训练模型,该算法可识别18个行人关键点坐标信息,并输出每个关键点识别的置信度。
关键点共18个,分别为鼻子,脖子,左眼,右眼,左耳,右耳,左肩,右键,左肘,右肘,左腕,右腕,左髋,右髋,左膝,右膝,左踝和右踝;关键点信息包括每个关键点的二维坐标信息和识别的准确率,每个关键点用(x,y,c)表示,其中x和y分别表示横纵坐标,c表示该关键点预测的准确率,其中0≤x≤1280,0≤y≤720,0≤c≤1;x,y∈Z,c∈R。每个视频片段的特定行人的关键点信息S表示为(T,3,18)维度的张量,其中T为视频片段的帧数。
进一步地,所述步骤4)中,行人意图类别包括启动、停止、行走和转向等类别。
将行人意图类别:启动,停止,行走,转向;分别用0,1,2,3表示,用人工标注的方法,对采集的数据的每一帧进行标注;
进一步地,所述步骤3)中,图卷积算法主要包括当前关键点的邻居关键点分区算法和卷积特征提取算法两部分,分区算法采用空间分区法,即根据当前关键点和邻居关键点距离人体重心距离的远近关系对比,将当前关键点和邻居关键点分为3组。
进一步地,所述步骤3)中,卷积神经网络采用标准卷积后接批归一化层和激活层的扩展结构;循环神经网络采用长短期记忆网络。
进一步地,损失函数使用交叉熵损失函数,训练的方法采用随机梯度下降法。
有益效果:本发明与现有技术相比:本发明中不仅从视频中识别出行人所在的位置,还对行人身体的各个关键点位置进行检测,使用图模型表示人体各关键点的连接关系和坐标信息,通过图卷积算法从人体关键点图结构模型中提取行人运动与行为特征,再通过深度卷积神经网络和深度循环神经网络进行行人运动与行为特征的空间与时间关系的分析,进而细粒度地进行行人目前的行走状态识别并判断行人行动的意图。可以有效提高汽车高级驾驶辅助系统对行人行为意图的理解能力,有效保护行人安全,提高汽车主动安全性能。
附图说明
图1为本发明人体关键点示意图;
图2为本发明行人意图识别模型结构图;
图3为本发明行人意图识别流程图。
具体实施方式
为使本发明的目的、技术方案更加清晰明白,下面结合附图和具体实施方式对本发明作进一步详细说明。
一种基于图卷积的行人意图识别方法,包括以下步骤:
1)通过安装在车辆上的前视相机系统拍摄道路环境视频图像;
2)对图像进行行人检测和行人人体关键点信息提取,并基于图论的方法构造邻接矩阵表示行人人体关键点的连接信息;
3)通过图卷积算法从人体关键点的坐标信息和邻接矩阵表示中提取底层特征,并将底层特征通过深度卷积神经网络和深度循环神经网络进行高层次特征提取和时序分析;
4)选择合适的损失函数,基于通过人工标注方法构建的行人意图数据集,对前述模型参数进行优化训练,实现对行人行为意图的分类识别。
步骤2)中,行人检测和行人人体关键点信息提取采用Mask RCNN的算法和预训练模型,该算法可识别18个行人关键点坐标信息,并输出每个关键点识别的置信度。
步骤4)中,行人意图类别包括启动、停止、行走和转向等类别。
步骤3)中,图卷积算法主要包括当前关键点的邻居关键点分区算法和卷积特征提取算法两部分,分区算法采用空间分区法,即根据当前关键点和邻居关键点距离人体重心距离的远近关系对比,将当前关键点和邻居关键点分为3组。
步骤3)中,卷积神经网络采用标准卷积后接批归一化层和激活层的扩展结构;循环神经网络采用长短期记忆网络。
损失函数使用交叉熵损失函数,训练的方法采用随机梯度下降法。
实施例
如图1至图3所示,本发明使用的前视相机采集的视频数据参数为1280×720@60FPS,视频帧为彩色图像,包含RGB三通道色彩信息,用(1280,720,3)维度的张量表示,张量中每个元素为整数,取值范围为[0,255];
应用论文Mask RCNN方法,从视频帧图像中提取出人体的关键点信息,所识别的人体关键点如图1所示,关键点共18个,分别为鼻子,脖子,左眼,右眼,左耳,右耳,左肩,右键,左肘,右肘,左腕,右腕,左髋,右髋,左膝,右膝,左踝和右踝;关键点信息包括每个关键点的二维坐标信息和识别的准确率,每个关键点用(x,y,c)表示,其中x和y分别表示横纵坐标,c表示该关键点预测的准确率,其中0≤x≤1280,0≤y≤720,0≤c≤1;x,y∈Z,c∈R。每个视频片段的特定行人的关键点信息S表示为(T,3,18)维度的张量,其中T为视频片段的帧数。
将行人意图类别(启动,停止,行走,转向)分别用(0,1,2,3)表示,用人工标注的方法,对采集的数据的每一帧进行标注;
得到行人关键点和意图标签数据集,按7:3的比例随机分为训练集和测试集。
关键点图结构的矩阵表示与分区方法。对于关键点vj,当关键点vi与其有直接连接关系时,距离d为1,记其距离为1的邻接节点的集合为N1(j)={vi|d(vi,vj)≤1};取第2,7,8,13,14关键点的坐标取平均记作人体重心g;对于关键点vj,其到重心g的欧氏距离记为rj,对于其邻接点vi∈N1(j),到重心g的欧氏距离记为ri,根据距离关系将vi分到分区parti中。
Figure BDA0001685099370000041
对于分区到0,1,2的三种情况,分别构造邻接阵A0,A1,A2,使得
Figure BDA0001685099370000042
其中,Am(i,j)表示矩阵Am的i行j列元素,m∈{0,1,2}。
计算Am每列的和为sm,更新Am为规范化后的邻接阵,Am=diag(sm)-1·Am
图卷积实现。构建一维卷积层,记为gcn,gcn的输入通道数为3,输出通道数为64,卷积核大小为1×1,步长为1,gcn的输入为S[t]·Am,其中S[t],t∈[1,T]为视频片段某帧的关键点信息,维度为(3,18),输出为维度(64,18)的特征FT(grpah)m,即FT(grpah)m=gcn(S[t]·Am)。对FT(grpah)m求和得到FT(grpah)=∑mFT(grpah)m。将批归一化算法和ReLU激活函数依次作用在FT(grpah),得到图卷积提取的特征,记为FT(gcn)。
构建9层CNN网络,每层的具体参数为:
(1)Conv1d(64,64,1,1)+BatchNorm1d(64)+ReLU
(2)Conv1d(64,64,1,1)+BatchNorm1d(64)+ReLU
(3)Conv1d(64,64,1,1)+BatchNorm1d(64)+ReLU
(4)Conv1d(64,128,1,1)+BatchNorm1d(128)+ReLU
(5)Conv1d(128,128,1,1)+BatchNorm1d(128)+ReLU
(6)Conv1d(128,128,1,1)+BatchNorm1d(128)+ReLU
(7)Conv1d(128,256,1,1)+BatchNorm1d(256)+ReLU
(8)Conv1d(256,256,1,1)+BatchNorm1d(256)+ReLU
(9)Conv1d(256,256,1,1)+BatchNorm1d(256)+ReLU
(10)AvgPool1d
其中,Conv1d表示一维卷积,其四个参数的含义分别为输入通道数,输出通道数,卷积核大小,卷积步长;BatchNorm1d为一维批归一化;ReLU为非线性激活函数;AvgPool1d为一维平均池化,本例中,其输入为维度(256,18)的矩阵,输出为维度(256)的向量。这些算法都是通用标准算法,其算法细节此处不再赘述。
FT(gcn)通过上述模型进行特征提取后,得到维度(256)的特征FT(cnn)。
构建3层深度循环神经网络模型,每层的具体参数为:
(1)LSTM(256,128)
(2)LSTM(128,128)
(3)LSTM(128,64)
(4)Softmax(64,4)
其中,LSTM表示长短时记忆单元,其两个参数的含义是输入通道数和输出通道数;Softmax为归一化指数函数,其两个参数是输出通道数和输出通道数。这些算法都是通用标准算法,其算法细节此处不再赘述。
上述模型输入是FT(cnn),输出维度(4)的行人意图标签
Figure BDA0001685099370000061
Figure BDA0001685099370000062
表示行人意图属于各类别的概率,取概率最大的作为行人意图的识别结果。
基于步骤A中构建的数据集,将行人关键点信息和行人意图标签的训练集输入模型,使用交叉熵损失函数和随机梯度下降法训练上述网络。
在模型训练过程中,以模型在测试集的代价函数输出结果和精确度为评估指标,当代价函数结果不再降低时,停止训练,保存模型参数。

Claims (6)

1.一种基于图卷积的行人意图识别方法,其特征在于,包括以下步骤:
1)通过安装在车辆上的前视相机系统拍摄道路环境视频图像;
2)对图像进行行人检测和行人人体关键点信息提取,并基于图论的方法构造邻接矩阵表示行人人体关键点的连接信息;
3)通过图卷积算法从人体关键点的坐标信息和邻接矩阵表示中提取底层特征,并将底层特征通过深度卷积神经网络模型和深度循环神经网络模型进行高层次特征提取和时序分析;
4)选择损失函数,并基于通过人工标注方法构建的行人意图数据集,对步骤3)中的模型参数进行优化训练,实现对行人行为意图的分类识别。
2.根据权利要求1所述的基于图卷积的行人意图识别方法,其特征在于,所述步骤2)中,行人检测和行人人体关键点信息提取采用Mask RCNN的算法和预训练模型,该算法可识别18个行人关键点坐标信息,并输出每个关键点识别的置信度。
3.根据权利要求1所述的基于图卷积的行人意图识别方法,其特征在于,所述步骤4)中,行人意图类别包括启动、停止、行走和转向等类别。
4.根据权利要求1所述的基于图卷积的行人意图识别方法,其特征在于,所述步骤3)中,图卷积算法主要包括当前关键点的邻居关键点分区算法和卷积特征提取算法两部分,分区算法采用空间分区法,即根据当前关键点和邻居关键点距离人体重心距离的远近关系对比,将当前关键点和邻居关键点分为3组。
5.根据权利要求1所述的基于图卷积的行人意图识别方法,其特征在于,所述步骤3)中,卷积神经网络采用标准卷积后接批归一化层和激活层的扩展结构;循环神经网络采用长短期记忆网络。
6.根据权利要求1所述的基于图卷积的行人意图识别方法,其特征在于,所述步骤4)中,损失函数使用交叉熵损失函数,训练的方法采用随机梯度下降法。
CN201810568305.0A 2018-06-05 2018-06-05 基于图卷积的行人意图识别方法 Active CN109117701B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810568305.0A CN109117701B (zh) 2018-06-05 2018-06-05 基于图卷积的行人意图识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810568305.0A CN109117701B (zh) 2018-06-05 2018-06-05 基于图卷积的行人意图识别方法

Publications (2)

Publication Number Publication Date
CN109117701A CN109117701A (zh) 2019-01-01
CN109117701B true CN109117701B (zh) 2022-01-28

Family

ID=64822775

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810568305.0A Active CN109117701B (zh) 2018-06-05 2018-06-05 基于图卷积的行人意图识别方法

Country Status (1)

Country Link
CN (1) CN109117701B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109858428B (zh) * 2019-01-28 2021-08-17 四川大学 基于机器学习和深度学习的ana荧光片自动识别方法
CN109785643B (zh) * 2019-03-08 2020-09-18 百度在线网络技术(北京)有限公司 交通灯调节的方法、装置、存储介质和终端设备
CN109977912B (zh) * 2019-04-08 2021-04-16 北京环境特性研究所 视频人体关键点检测方法、装置、计算机设备和存储介质
CN110245581B (zh) * 2019-05-25 2023-04-07 天津大学 一种基于深度学习和距离-多普勒序列的人体行为识别方法
CN110276777B (zh) * 2019-06-26 2022-03-22 山东浪潮科学研究院有限公司 一种基于深度图学习的图像分割方法及装置
CN110321833B (zh) * 2019-06-28 2022-05-20 南京邮电大学 基于卷积神经网络和循环神经网络的人体行为识别方法
CN110929841B (zh) * 2019-10-11 2023-04-18 浙江大学城市学院 基于增强意图的循环神经网络模型预测行人轨迹的方法
CN111062311B (zh) * 2019-12-13 2023-05-23 东南大学 一种基于深度级可分离卷积网络的行人手势识别与交互方法
CN111241937A (zh) * 2019-12-31 2020-06-05 的卢技术有限公司 一种基于深度学习的行人攻击车辆意图识别方法及系统
CN113536857A (zh) * 2020-04-20 2021-10-22 深圳绿米联创科技有限公司 目标动作识别方法、装置、服务器及存储介质
CN112249021B (zh) * 2020-10-14 2022-06-24 广州汽车集团股份有限公司 一种道路行人碰撞风险预测方法及其系统
CN112435503B (zh) * 2020-10-30 2022-02-15 江苏大学 一种辨识高危行人意图的智能汽车主动避撞方法
CN112711032B (zh) * 2020-12-07 2022-05-13 中国人民解放军海军航空大学 一种基于图数据和gcn的雷达目标检测方法及系统
CN112906545B (zh) * 2021-02-07 2023-05-05 广东省科学院智能制造研究所 一种针对多人场景的实时动作识别方法及系统
CN112818942B (zh) * 2021-03-05 2022-11-18 清华大学 一种车辆行驶过程中行人动作识别方法和系统
CN113378657B (zh) * 2021-05-24 2024-03-01 汇纳科技股份有限公司 行人组群关系识别方法、装置及系统
CN113305858B (zh) * 2021-06-07 2022-05-03 仲恺农业工程学院 一种清除原水管道中贝类的视觉机器人方法及其装置
CN113989495B (zh) * 2021-11-17 2024-04-26 大连理工大学 一种基于视觉的行人召车行为识别方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933412A (zh) * 2015-06-16 2015-09-23 电子科技大学 中高密度人群的异常状态检测方法
CN107798653A (zh) * 2017-09-20 2018-03-13 北京三快在线科技有限公司 一种图像处理的方法和一种装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3454698B1 (en) * 2016-05-09 2024-04-17 Grabango Co. System and method for computer vision driven applications within an environment
US10282621B2 (en) * 2016-07-09 2019-05-07 Grabango Co. Remote state following device

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933412A (zh) * 2015-06-16 2015-09-23 电子科技大学 中高密度人群的异常状态检测方法
CN107798653A (zh) * 2017-09-20 2018-03-13 北京三快在线科技有限公司 一种图像处理的方法和一种装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Mask R-CNN;Kaiming He;《2017 IEEE International Conference on Computer Vision》;20171231;2980-2988页 *
图神经网络回归的人脸超分辨率重建;呼延康;《软件学报》;20171201;914-925页 *
基于机器视觉的人体动作目标检测;刘昌鑫;《工业控制计算机》;20161231;109-111页 *

Also Published As

Publication number Publication date
CN109117701A (zh) 2019-01-01

Similar Documents

Publication Publication Date Title
CN109117701B (zh) 基于图卷积的行人意图识别方法
US10902615B2 (en) Hybrid and self-aware long-term object tracking
Mou et al. A relation-augmented fully convolutional network for semantic segmentation in aerial scenes
CN110020651B (zh) 基于深度学习网络的车牌检测定位方法
Nguyen et al. Learning framework for robust obstacle detection, recognition, and tracking
US9373038B2 (en) Apparatus and methods for temporal proximity detection
Sivaraman et al. A general active-learning framework for on-road vehicle recognition and tracking
CN111767882A (zh) 一种基于改进yolo模型的多模态行人检测方法
Dai et al. Multi-task faster R-CNN for nighttime pedestrian detection and distance estimation
Hoang et al. Enhanced detection and recognition of road markings based on adaptive region of interest and deep learning
CN110263786B (zh) 一种基于特征维度融合的道路多目标识别系统及方法
JP2016062610A (ja) 特徴モデル生成方法及び特徴モデル生成装置
Khan et al. A deep survey on supervised learning based human detection and activity classification methods
US20230070439A1 (en) Managing occlusion in siamese tracking using structured dropouts
Said et al. Pedestrian detection for advanced driver assistance systems using deep learning algorithms
Zang et al. Traffic lane detection using fully convolutional neural network
Cao et al. Learning spatial-temporal representation for smoke vehicle detection
Rajesh et al. Coherence vector of oriented gradients for traffic sign recognition using neural networks
Chen et al. Vehicle type classification based on convolutional neural network
Zheng et al. Dim target detection method based on deep learning in complex traffic environment
Ma et al. Deconvolution Feature Fusion for traffic signs detection in 5G driven unmanned vehicle
Nawaratne et al. A generative latent space approach for real-time road surveillance in smart cities
Bikmullina et al. Stand for development of tasks of detection and recognition of objects on image
Hassan et al. An empirical analysis of deep learning architectures for vehicle make and model recognition
Antonio et al. Pedestrians' detection methods in video images: A literature review

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant