发明内容
本发明的目的是提供基于注意力机制多视角自适应网络的交警手势识别方法,以解决现有技术中存在的技术问题,能够检测出多视角下的交警骨架节点的特征数据,还能够使用注意力机制增强有效节点数据的权重,采用自适应网络层级结构融合多视角时空特征数据,提高交警手势识别方法的鲁棒性,解决了无人驾驶车辆与交警无法“交流”的问题。
为实现上述目的,本发明提供了如下方案:本发明提供基于注意力机制多视角自适应网络的交警手势识别方法,包括如下步骤:
步骤S1、采集交警手势的视频数据,基于所述视频数据提取交警的骨架节点数据,建立骨架节点数据集;
步骤S2、构建多视角自适应子网络,采用多视角自适应子网络获取观测视角坐标系,在观测视角坐标系下对骨架节点数据进行向量表示;
步骤S3、基于注意力机制,将所述骨架节点的特征向量构建为图网络数据结构,使用挤压和激励SE模块对图网络数据结构中的骨架节点进行特征增强;
步骤S4、基于特征增强后的骨架节点,使用时空图卷积网络ST-GCN提取交警手势的时空特征信息,并基于交警手势的时空特征信息进行交警手势识别。
优选地,所述步骤S1具体包括如下步骤:
步骤S1.1、在真实道路场景下,采集交警手势的标准化视频数据,并对所采集的视频数据进行尺度归一化处理,得到大小和分辨率统一的交警手势视频数据;
步骤S1.2、基于尺度归一化处理后的交警手势视频数据使用Openpose算法提取交警的骨架节点数据;
步骤S1.3、基于交警的骨架节点数据,建立自有的骨架节点数据集。
优选地,所述步骤S2具体包括如下步骤:
步骤S2.1、构建多视角自适应子网络;
步骤S2.2、基于骨架节点数据集建立训练集数据;
步骤S2.3、使用步骤S2.2建立的训练集数据对所述多视角自适应子网络进行训练,更新网络权重值,获得最优观测视角坐标系,在最优观测视角坐标系下对骨架节点数据进行向量表示。
优选地,所述步骤S2.1中,所述多视角自适应子网络包括一层LSTM层、一层全连接层。
优选地,所述训练集数据的数据形式为(N,T,C),其中:N为视频个数,T为通道数,表示视频帧数,C为交警的骨架节点数据。
优选地,所述步骤S3中,所述图网络数据结构为(T×H×W)矩阵;(H,W)为骨架图的关联矩阵,H为关联矩阵的高,W为关联矩阵的宽,T为通道数,表示视频帧数。
优选地,所述步骤S3中,所述SE模块包括两部分:挤压模块和激励模块;所述激励模块包含两个全连接层,一个Relu激活层和一个sigmoid函数层。
优选地,所述步骤S4具体包括如下步骤:
步骤S4.1、构建一个(N,C,T,V,M)的多维矩阵作为ST-GCN模型的输入,提取交警手势的时空特征;其中:N为视频个数,C为骨架节点数据,T为通道数,V表示视频数据中所采集的关节的数量,M表示视频数据单帧图像中的交警数;
步骤4.2、基于交警手势的时空特征,通过softmax分类函数计算交警手势类别的置信度,得到交警手势类别的预测值,基于交警手势类别的预测值、标签值,通过最小化损失函数得到交警手势识别结果。
本发明公开了以下技术效果:
(1)本发明基于多视角自适应网络模型获取观测视角坐标系,能够实现端到端的模型训练,自动提取平移和旋转矩阵参数,自动调整观察坐标系,增强时空特征信息,有效提高了交警手势的识别精度;
(2)本发明基于注意力机制的处理流程,完善时空特征权重分配机制,对骨架节点进行特征增强,减少无效特征信息的干扰,增强有效特征的表征能力,降低计算复杂度,提高交警手势识别的速度;同时,基于特征增强后的骨架节点,使用时空图卷积网络ST-GCN提取交警手势的时空特征信息,进行交警手势识别,有效提高了交警手势的识别精度,解决了无人驾驶车辆与交警无法“交流”的问题。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
参照图1-2所示,本实施例提供基于注意力机制多视角自适应网络的交警手势识别方法,包括如下步骤:
步骤S1、采集交警手势的视频数据,基于所述视频数据提取交警的骨架节点数据,建立骨架节点数据集;具体包括如下步骤:
步骤S1.1、在真实道路场景下,采集交警手势的标准化视频数据,并对所采集的视频数据进行尺度归一化处理,得到大小和分辨率统一的交警手势视频数据;本实施例中,视频数据的分辨率为840×840像素,视频数据的格式为AVI视频格式;基于视频数据采集过程中的人员、光线、服饰、角度、天气、距离、场景因素,本实施例共采集24530个视频数据。
步骤S1.2、基于尺度归一化处理后的交警手势视频数据使用Openpose算法提取交警的骨架节点数据;本实施例中,单个交警的骨架包括18个关键节点,每个节点数据的表示形式为(x,y,acc),其中,x,y分别为节点的x轴、y轴坐标,acc为置信度,使用Openpose算法提取交警的骨架节点如图3所示。
步骤S1.3、基于交警的骨架节点数据,建立自有的骨架节点数据集。
步骤S2、构建多视角自适应子网络,采用多视角自适应子网络获取观测视角坐标系,在观测视角坐标系下对骨架节点数据进行向量表示;具体包括:
步骤S2.1、构建多视角自适应子网络,所述多视角自适应子网络包括一层LSTM层、一层全连接层。
步骤S2.2、基于骨架节点数据集建立训练集数据;本实施例中,所述训练集数据的数据形式为(N,T,C),适用于自适应子网络的训练,其中:N为视频个数,T为通道数,表示视频帧数,C为步骤S1.2中所提取的交警的骨架节点数据。
步骤S2.3、使用步骤S2.2建立的训练集数据对所述多视角自适应子网络进行训练,更新网络权重值,获得最优观测视角坐标系,在最优观测视角坐标系下对骨架节点数据进行向量表示。本实施例中,通过所述多视角自适应子网络网络权重值的更新,对每一帧骨架数据进行距离调整和角度旋转,寻找最优的观测视角坐标系,所述多视角自适应子网络的输出值为最优观测视角坐标系下的骨架节点特征向量;不同观测视角坐标系下的骨架图如图4所示。
步骤S3、基于注意力机制,将所述骨架节点的特征向量构建为图网络数据结构,使用SE(Sequeeze-and-Excitation,挤压和激励)模块对图网络数据结构中的骨架节点进行特征增强;通过注意力机制重新分配骨架节点的权重,增强有效骨架节点的权重,实现骨架节点的特征增强,能够有效增强骨架节点之间的关联特征权重,减少无效特征。
所述图网络数据结构为(T×H×W)矩阵;(H,W)为骨架图的关联矩阵,H为关联矩阵的高度,W为关联矩阵的宽度,T为通道数,表示视频帧数;
所述SE模块包括两部分:挤压(Sequeeze)模块和激励(Excitation)模块;其中,挤压模块对骨架节点的特征数据求全局平均值,得到特征全局信息,压缩成一个通道描述符,激励模块获取通道依赖性,其包含两个全连接层,一个Relu激活层和一个sigmoid函数层。
对图网络数据结构中的骨架节点进行特征增强的方法,具体包括:
步骤S3.1、使用SE模块中的卷积算子对所述图网络数据结构中的骨架节点特征向量进行全局平均池化操作,并将池化后的数据维度进行压缩,由(T×H×W)压缩至(T×1×1);全局平均池化操作如下式所示:
式中,(H×W)为骨架图的关联矩阵;T为通道数,表示视频帧数;Fsq(uT)表示一个通道中特征向量编码的全局平均值,uT(i,j)表示关联矩阵中第j行、第i列特征向量的编码。
其中,uT通过卷积滤波器的参数集合vT(待学习参数)与图网络数据结构(T×H×W)矩阵的乘积的和得到,如下式所示:
式中,uT表示特征向量的编码,X表示图网络数据结构(T×H×W)矩阵,xS表示X中第s个通道的关联矩阵。
步骤S3.2、通过两层全连接层依次得到从(T/r×1×1)到(T×1×1)维的数据特征;具体为:
全局池化后(T×1×1)维的数据特征经过第一层全连接层后为(T/r×1×1)维,其中,r为缩放参数,目的是为了减少通道参数,降低计算量,本实施例中,r=16;(T/r×1×1)维的数据特征经过第二层全连接层后为(T×1×1)维。
步骤S3.3、通过Sigmoid激活函数将全连接层得到的数据特征限制到[0,1]的范围,并作为权重与原始图网络数据结构的(T×H×W)矩阵相乘,实现骨架节点权重的重新分配,完成图网络数据结构中骨架节点的特征增强,输出特征数据维度设置为(T×H×W)。
步骤S4、基于特征增强后的骨架节点,使用时空图卷积网络ST-GCN提取交警手势的时空特征信息,并基于交警手势的时空特征信息进行交警手势识别;本实施例中,获取的交警手势的时空特征维度大小为1×1×256。
进行交警手势识别的具体方法包括:
步骤S4.1、构建一个(N,C,T,V,M)的多维矩阵作为ST-GCN模型的输入,提取交警手势的时空特征,其中:N为视频个数,本实施例中N为256;C为骨架节点数据,是一个三维的空间坐标,包含横坐标,纵坐标,置信度3个特征;V表示视频数据中所采集的关节的数量,本实施例中,V为18;M表示视频数据单帧图像中的交警数,本实施例中,只针对交警手势的识别,M为1。
步骤4.2、基于交警手势的时空特征,通过softmax分类函数计算交警手势类别的置信度,得到交警手势类别的预测值,基于交警手势类别的预测值、标签值,通过最小化损失函数得到交警手势识别结果,如下式所示:
其中,class是交警手势类别的标签值;x是交警手势类别的预测值,
是对待识别数据的标签值取指数,
是对第j个待识别数据的预测值取指数;采用对数损失函数,能够进一步扩大其区分度。
以上所述的实施例仅是对本发明的优选方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。