CN111091044A

CN111091044A - 一种面向网约车的车内危险场景识别方法

Info

Publication number: CN111091044A
Application number: CN201911022238.3A
Authority: CN
Inventors: 梁超; 张玥; 邹珺明; 王晓
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2019-10-25
Filing date: 2019-10-25
Publication date: 2020-05-01
Anticipated expiration: 2039-10-25
Also published as: CN111091044B

Abstract

本发明公开了一种面向网约车的车内危险场景识别方法，分别从视频数据中提取出人体骨骼关键点作为姿态特征，从音频数据中提取filter bank语音特征后，最后通过设计一种基于模态注意力机制的多模态融合模型将上述特征融合并进行时序分析，具体为：通过预设模态注意力模型，计算出每种模态特征的当前时刻的模态注意力，再根据模态特征当前时刻的模态注意力和对应的模态原始特征，获得融合特征，最后，将融合特征输入时序模型，得到输出结果)，解决了运用单一技术进行分析时识别不够准确的技术问题，实现对车内危险场景的准确识别。

Description

一种面向网约车的车内危险场景识别方法

技术领域

本发明涉及计算机视觉和多模态分析技术领域，具体涉及一种面向网约车的车内危险场景识别方法。

背景技术

近年来出租车上发生的抢劫案、滴滴打车上发生的“空姐遇害案”等一系列公共事件表明，网约车业务中存在着不容忽视的安全问题，亟需一种可以实时检测网约车内危险场景的场景识别技术。

网约车内典型的危险场景包括殴打、辱骂、抢方向盘等。这些场景主要由司机与乘客的行为来识别，而姿态和言语是判断行为的主要特征。

本申请发明人在实施本发明的过程中，发现现有技术的方法，至少存在如下技术问题：

目前的行为识别、人体骨骼关键点识别及语音识别技术虽已较为成熟，但都无法直接运用于车内场景：(1)行为识别技术大都面向较为开阔的场景中的完整人体，有的甚至得利用深度相机，而车内空间狭小，监控画面中只能显示人体上半身，且网约车司机不太可能在车内安装昂贵的深度相机；(2)人体骨骼关键点位置信息难以区分某些相似度高而含义不同的动作，比如后排乘客晕倒时骨骼关键点的位置信息很可能与其倒下休息时骨骼关键点的位置信息高度相似；(3)语音识别技术无法判别声音来源，车载广播播放的内容可能会对结果造成一定的影响；(4)多人场景下不是所有特征都能对场景判别起到同等的作用，比如当司机与副驾驶乘客起肢体冲突时，后排乘客身上的姿态特征就属于冗余信息，所以必须有侧重地选用特征进行分析。

由此可知，现有技术中的方法存在识别准确性不高的技术问题。

发明内容

有鉴于此，本发明提供了一种面向网约车的车内危险场景识别方法，用以解决或者至少部分解决现有技术中的方法存在的识别准确性不高的技术问题。

为了解决上述技术问题，本发明提供了一种面向网约车的车内危险场景识别方法，包括：

步骤S1：从采集的视频数据中提取出人体骨骼关键点作为姿态特征，其中，每个人对应一组姿态特征；

步骤S2：对采集的音频数据进行重采样后，提取出语音特征；

步骤S3：将提取出的各组姿态特征和一组语音特征分别当作一种模态特征，输入预设模态注意力模型，计算出每种模态特征的当前时刻的模态注意力，根据模态特征当前时刻的模态注意力和对应的模态原始特征，获得融合特征，其中，与当前时刻的模态注意力对应的模态原始特征为当前时刻的姿态特征或者语音特征；

步骤S4：将融合特征作为当前时刻的场景特征输入时序模型，进行危险场景识别，输出识别结果。

在一种实施方式中，步骤S1具体包括：

步骤S1.1：将采集的视频数据转换为视频帧序列；

步骤S1.2：利用预设工具从视频帧中提取每个人的骨骼关键点坐标作为姿态特征，并按照车内人数将所有的姿态特征对应分成若干组姿态特征。

在一种实施方式中，步骤S1.2具体包括：

步骤S1.2.1：将每帧图像依次利用LightweightOpenPose模型处理得到所有人体关键点坐标，并从所有人体关键点坐标中筛选出14个人体上半身骨骼关键点坐标，其中，14个人体上半身骨骼关键点坐标为左腕，右腕，左肘，右肘，左肩，右肩，左腰，右腰，脖子，鼻子，左眼，右眼，左耳，右耳，每个坐标均为2维向量；

步骤S1.2.2：将所述14个人体上半身骨骼关键点坐标进行拼接，得到每个人对应的一组28维的姿态特征。

在一种实施方式中，步骤S2具体包括：

步骤S2.1：利用预设程序对音频数据进行重采样，使音频数据的帧率与视频数据的帧率保持相同；

步骤S2.2：将重采样后的音频数据通过预加重、分帧、加窗、傅里叶变换、Mel滤波和归一化处理，提取出滤波器组语音特征。

在一种实施方式中，步骤S2.2具体包括：

对音频数据进行预加重处理后，根据重采样后的音频采样点个数和采样率，对音频数据进行分帧，然后进行加窗和傅里叶变换，最后根据视频特征维度设置相应数量的滤波器进行Mel滤波并进行归一化处理，得到姿态特征维度相同的音频特征。

在一种实施方式中，步骤S3具体包括：

步骤S3.1：将提取出的各组姿态特征和一组语音特征分别当作一种模态特征，输入预设模态注意力模型，计算出每种模态特征的当前时刻的模态注意力，预设模态注意力模型包括一层LSTM和一层单节点输出层，模态特征的当前时刻的模态注意力的计算方式为：

其中，

表示第m个模态在t时刻的模态注意力，

表示第m个模态在t时刻结合历史特征得到的特征向量，W和b表示单节点输出层的参数，

表示sigmoid函数；

步骤S3.2：根据模态特征当前时刻的模态注意力计算模态特征的模态注意力权重：

其中，

表示第m个模态在t时刻的模态注意力权重，M表示模态的总数量，exp表示以自然常数e为底的指数函数；

步骤S3.3：根据模态原始特征和模态注意力权重，求得每个模态特征的结果，再将每个模态特征的结果相加，获得融合特征：

其中，

表示t时刻所有模态的融合特征，

表示第m个模态在t时刻的原始特征。

在一种实施方式中，步骤S4中的时序模型由多层LSTM和一层两结点输出层组成，识别结果分为两类，分别为属于危险场景的类别和不属于危险场景的类别。

在一种实施方式中，步骤S4具体包括：

将步骤S3中预设模态注意力模型与时序模型进行级联，将预设模态注意力模型每输出一个融合特征，都将作为当前时刻的特征输入时序模型，获得实时识别结果，其中，时序模型的数学表达式为：

其中，被判为危险场景的概率的计算公式为公式(5)：

得到的场景标签由公式(6)描述：

上述公式中，

分别表示危险场景和非危险场景下的危险程度,

表示最后一层LSTM的输出参数，W和b表示两结点输出层的参数，

表示融合特征，

表示被判为危险场景的概率，l_t表示t时刻的场景标签，取值范围为{Y，N}，Y表示属于危险场景，N表示不属于危险场景。

本申请实施例中的上述一个或多个技术方案，至少具有如下一种或多种技术效果：

本发明提供的一种面向网约车的车内危险场景识别方法，分别从视频数据中提取出人体骨骼关键点作为姿态特征，从音频数据中提取filterbank语音特征后，最后通过设计一种基于模态注意力机制的多模态融合模型将上述特征融合并进行时序分析(基于模态注意力机制的多模态融合模型即预设模态注意力模型与时序模型的结合，通过预设模态注意力模型，计算出每种模态特征的当前时刻的模态注意力，再根据模态特征当前时刻的模态注意力和对应的模态原始特征，获得融合特征，最后，将融合特征输入时序模型，得到输出结果)，解决了运用单一技术进行分析时识别不够准确的技术问题，实现对车内危险场景的准确识别。

进一步地，采用轻量级的LightweightOpenPose模型提取人体骨骼关键点特征，可以满足在车内嵌入式设备上实时检测危险场景的需求。

进一步地，引入模态注意力机制，将提取到的姿态特征和语音特征作为模态特征后，按权重相加，有效地控制了特征维度，并提升了识别效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种面向网约车的车内危险场景识别方法的流程示意图；

图2为本发明实施例中特征提取与融合分析网络示意图。

具体实施方式

本发明的目的在于针对现有技术中的方法识别不准确的技术问题，提供一种面向网约车的车内危险场景识别方法，从而达到提高识别有效性和准确性的目的。

为达到上述目的，本发明的主要构思如下：

首先从采集的视频数据中提取出人体骨骼关键点作为姿态特征，然后，对采集的音频数据进行重采样后，提取出语音特征；接着通过预设模态注意力模型，计算出每种模态特征的当前时刻的模态注意力，根据模态特征当前时刻的模态注意力和对应的模态原始特征，获得融合特征；最后，将融合特征作为当前时刻的场景特征输入时序模型，进行危险场景识别，输出识别结果。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施例提供了一种面向网约车的车内危险场景识别方法，请参见图1，该方法包括：

步骤S1：从采集的视频数据中提取出人体骨骼关键点作为姿态特征，其中，每个人对应一组姿态特征。

在一种实施方式中，步骤S1具体包括：

步骤S1.1：将采集的视频数据转换为视频帧序列；

具体来说，从视频帧序列中逐个对每帧视频进行特征提取，预设工具可以是现有的特征提取工具。姿态特征可以用向量表示，可以根据车内人数将所有的姿态特征对应分成若干组特征向量，通过上述处理，每个人均对应一组特征向量。

在一种实施方式中，步骤S1.2具体包括：

具体来说，可以通过人体姿态估计的深度学习模型进行姿态特征提取，其中LightweightOpenPose模型为一个轻量级的模型，每个人对应一组姿态特征，这组姿态特征的维度为28维。

步骤S2：对采集的音频数据进行重采样后，提取出语音特征。

在一种实施方式中，步骤S2具体包括：

具体来说，预设程序可以是音频处理程序，例如FFmpeg，一般来说，音频帧率高于视频帧率，需要对音频进行降采样，从而保证音频数据的帧率与视频数据的帧率相同。然后通过滤波器组提取出FilterBank语音特征，Mel滤波可以通过梅尔滤波器组来实现。其中，在进行Mel滤波操作时，将滤波器数量设为28。这样得到的音频特征与视觉特征可以一一对应，且维度相同。

在一种实施方式中，步骤S2.2具体包括：

步骤S3：将提取出的各组姿态特征和一组语音特征分别当作一种模态特征，输入预设模态注意力模型，计算出每种模态特征的当前时刻的模态注意力，根据模态特征当前时刻的模态注意力和对应的模态原始特征，获得融合特征，其中，与当前时刻的模态注意力对应的模态原始特征为当前时刻的姿态特征或者语音特征。

举例来说，如果车内有n个人，则将得到n个视频特征(即姿态特征)；与此同时，从音频数据中中可以提取出1组音频特征，这n个视频特征和1个音频特征将分别被看作一个模态特征，则共有n+1个模态特征。模态原始特征即为原始的姿态特征或者音频特征。

在一种实施方式中，步骤S3具体包括：

其中，

表示第m个模态在t时刻的模态注意力，

表示第m个模态在t时刻结合历史特征得到的特征向量，W和b表示单节点输出层的参数；

表示sigmoid函数。

其中，

其中，

表示t时刻所有模态的融合特征，

表示第m个模态在t时刻的原始特征。

具体来说，可以预先设置不同模态对应的模态注意力模型，当将模态特征输入预设模态注意力模型后，则可以得到与模态特征对应的模态注意力，t时刻模态m输入的特征为

即模态原始特征，

表示第m个模态在t时刻结合历史特征得到的特征向量，表示模态注意力既与当前时刻的输入相关，又与历史记录有关。每个模态特征的结果即模态原始特征与模态注意力权重相乘的结果。

需要说明的是，公式(3)m表示某个特定的模态，大写M表示模态总数，包括音频特征模态和每个人所对应的姿态特征模态。如果车内有n个人，则M＝1(音频)+n(姿态)。

在本实施方式中，公式(2)即为softmax操作，exp表示以自然常数e为底的指数函数，例如：

表示

具体请参见图2，为本发明特征提取与融合分析网络示意图。

在一种实施方式中，步骤S4具体包括：

其中，被判为危险场景的概率的计算公式为公式(5)：

得到的场景标签由公式(6)描述：

上述公式中，

分别表示危险场景和非危险场景下的危险程度,

表示融合特征，

具体来说，

表示最后一层即第L层LSTM的输出参数，LSTM的层数可以根据需要进行设置。输出层节点的数量也可以根据需要进行设置，模态注意力模型中为单节点输出层，其相当于一个线性回归函数，用于预测模态注意力的值；本步骤中的两节点输出层则用于分类，一个结点表示“属于危险场景”，另一个结点表示“不属于危险场景”。

与现有技术相比，本发明具有以下优点和有益效果：

(1)选用轻量级的LightweightOpenPose模型提取人体骨骼关键点特征，满足在车内嵌入式设备上实时检测危险场景的需求；

(2)引入模态注意力机制，将提取到的特征按权重相加，有效地控制了特征维度并提升了识别效率。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种面向网约车的车内危险场景识别方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，步骤S1具体包括：

步骤S1.1：将采集的视频数据转换为视频帧序列；

3.如权利要求2所述的方法，其特征在于，步骤S1.2具体包括：

步骤S1.2.1：将每帧图像依次利用Lightweight OpenPose模型处理得到所有人体关键点坐标，并从所有人体关键点坐标中筛选出14个人体上半身骨骼关键点坐标，其中，14个人体上半身骨骼关键点坐标为左腕，右腕，左肘，右肘，左肩，右肩，左腰，右腰，脖子，鼻子，左眼，右眼，左耳，右耳，每个坐标均为2维向量；

4.如权利要求1所述的方法，其特征在于，步骤S2具体包括：

5.如权利要求4所述的方法，其特征在于，步骤S2.2具体包括：

6.如权利要求1所述的方法，其特征在于，步骤S3具体包括：