CN117113231A

CN117113231A - 基于移动终端的多模态低头族危险环境感知与预警方法

Info

Publication number: CN117113231A
Application number: CN202311022203.6A
Authority: CN
Inventors: 王晗; 吉翔; 金磊; 何欣樾; 闫苏园; 季钰姣; 邓丽云
Original assignee: Nantong University
Current assignee: Nantong University
Priority date: 2023-08-14
Filing date: 2023-08-14
Publication date: 2023-11-24

Abstract

本发明公开一种基于移动终端的多模态低头族危险环境感知与预警方法，包括以下步骤：步骤1：构建基于并行LSTM‑CNN网络的用户运动状态分类模块，对手机用户的当前运动状态进行识别；步骤2：利用单目摄像机采集图像，估计单目图像深度信息；面向彩色图像序列和深度图的深度信息，预测视角扩展图像；步骤3：分析步骤1的运动状态识别结果，构建基于YOLOv5轻型网络的危险环境检测模块，对危险环境进行识别；步骤4：构建基于决策树模型的低头族危险状态判定模块，对低头族当前的危险状态进行分类；步骤5：设计手机端用户界面，建立听觉‑视觉立体式预警方式。本发明能够在低头族使用手机时进行危险预警，有效降低事故发生率。

Description

基于移动终端的多模态低头族危险环境感知与预警方法

技术领域

本发明涉及一种基于移动终端的多模态低头族危险环境感知与预警方法，属于多传感器数据融合技术领域。

背景技术

随着互联网和现代通信技术的快速发展，智能手机逐渐成为人们日常生活中不可缺失的一部分。然而，“机不离手”也成为了一个普遍的社会现象。很多人长时间低头看手机，往往忽略了周围环境，这不仅容易引起各种健康问题，而且存在很大的安全隐患。例如在上下楼时玩手机容易造成摔倒，在过马路时玩手机则会酿成交通事故。

当前的移动终端在上述危险场景使用时也并没有预警措施，无法给予使用者足够的安全警示，极易养成用户的侥幸、依赖心理，甚至对自己的危险行为毫不在意。目前，未有面向极易发生危险情况的环境检测系统，而能够对行人行走状态进行可能性检测的软件也寥寥无几，且设计角度单一。大多都是斑马线的检测或者是跑步及静止的判别。而综合性更高的行为检测以及行走环境检测也更是未经面世。故需要设计一种新方法从而能够实时监控，能够做到高效及时的获取周边环境并进行检测判断，且检测效率高达90％及以上。而且能够做到声音预警，提醒人们注意周边环境以避免危险状况的发生

发明内容

针对上述现有技术存在的问题，本发明提供一种基于移动终端的多模态低头族危险环境感知与预警方法，利用手机自带传感器，在不添加任何其他设备的情况下，实时检测用户的行为状态和所处环境状况；并根据传感器检测数据建立“低头族”危险预警系统，通过文字和语音提示进一步加强用户对行走环境的注意力，有效降低事故发生率，保障用户的安全。

为了实现上述目的，本发明采用的技术方案是：一种基于移动终端的多模态低头族危险环境感知与预警方法，其特征在于，包括以下步骤：

步骤1：利用手机内置加速度传感器，采集三方向加速度时间序列数据；面向三个方向加速度时间序列数据，提取加速度状态特征，构建基于并行LSTM-CNN网络的用户运动状态分类(手持手机慢行、手机揣兜慢行、手机静放、慢行看手机、上下楼梯看手机、静止看手机)模块，对手机用户的当前运动状态进行识别；

步骤2：利用单目摄像机采集图像，估计单目图像深度信息；面向彩色图像序列和深度图的深度信息，预测视角扩展图像；

步骤3：分析步骤1的运动状态识别结果，当用户处于非静止状态时，开启手机后视摄像头，采集用户周围环境图像数据；面向用户周围环境图像数据，构建基于YOLOv5轻型网络的危险环境检测模块，对手机用户周边潜在的危险环境(斑马线、楼梯区域、湿滑路面、低照明)进行识别；

步骤4：面向步骤1、步骤3输出的手机用户运动状态识别结果、周围危险环境识别结果，构建基于决策树模型的低头族危险状态判定模块，对低头族当前的危险状态进行分类；

步骤5：面向实时的手机用户运动状态识别结果、用户周围危险环境识别结果、低头族危险状态判定结果，设计手机端用户界面，建立听觉-视觉立体式预警方式。

进一步的，所述步骤1具体为：

步骤11：面向手机内置重力加速度传感器，以20Hz为采样频率采集13位不同用户在手持手机慢行、手机揣兜慢行、手机静放、慢行看手机、上下楼梯看手机、静止看手机六种状态下的加速度时间序列数据，每种状态采集10s的数据；

步骤12：按照不同用户和状态对采集的数据进行标号；用a、b、c、d、e、f、g、h、i、j、k、l、m分别表示13个不同用户，用1、2、3、4、5、6分别表示手持手机慢行、手机揣兜慢行、手机静放、慢行看手机、上下楼梯看手机、静止看手机六种状态，具体表示为：

其中，表示a用户在手持手机慢行状态下，重力加速度传感器采集的x、y、z三轴加速度时间序列数据，/>X₂₀₀＝{x₁，x₂，...X₂₀₀}，Y₂₀₀＝{y₁，y₂，...y₂₀₀}，Z₂₀₀＝{z₁，z₂，...z₂₀₀}；

步骤13：面向x、y、z三轴加速度输入数据，手动提取统计学特征T_imput，包括每种状态下的平均值：μ_x，μ_y，μ_z，方差：σ_x，σ_y，σ_z以及两轴之间的皮尔逊相关系数：ρ_xy，ρ_xz，ρ_yz。其中，皮尔逊相关系数的计算公式如下：

步骤14：将x、y、z三轴加速度数据按时间进行叠加，生成信号图像，然后将二维离散傅里叶变换(DFT)应用于信号图像，并选择其幅度作为活动图像F_imput。其中，二维离散傅里叶变换的公式如下所示：

步骤15：以重力加速度传感器原始采集数据S_input、统计量T_imput、频率图像F_imput为输入数据，构建基于LSTM-CNN的用户状态识别网络，通过DWConv深度卷积模块提取数据特征，利用最大池化层和下采样层增强模型的鲁棒性并减少过拟合的风险。

进一步的，所述步骤2具体为：

步骤21：首先，利用基于拉普拉斯金字塔的解码器结构对单目图像进行深度估计，精确地解释编码特征与最终输出之间的关系；输入的彩色图像的拉普拉斯残差为L_k，具体表示为：

L_k＝I_k-U_p(I_k+1),k＝1,2,3,4 (4)

其中，k为拉普拉斯金字塔中的水平指数，I_k是通过对原始输入图像进行下采样得到的，U_p表示上采样函数；

第k个金字塔层获得的深度残差为R_k，具体表示为：

R_k＝B_k([x_k,L_k,U_p(R_k+1)])+L_k,k＝1,2,3,4 (5)

其中，[x_k,L_k,U_p(R_k+1)]为串联，B_k由堆叠的卷积块组成；

从拉普拉斯金字塔的最高层开始逐步重建深度图，具体表示为：

D_k＝R_k+U_p(D_k+1),k＝1,2,3,4 (6)；

步骤22：然后，使用标准的全卷积架构分别在两个独立的流中预测单个图像的预测像素深度和法线贴图；在每个平面上，给定所需的相对姿态，即3D旋转和平移，以及相机的内在参数，可以从其深度和法线计算出一个单应性，对m个不同的平面建模，将输入图像分割成m个区域；使用VGG的前4个卷积模块从输入图像和种子区域掩码中应用反向扭曲过程在新视图中预测m个平面区域掩码，将这些分割掩码和相对姿态结合，产生各自的单应性变换，并根据扭曲的输入图像组合生成新的视图。

进一步的，所述步骤3具体为：

步骤31：首先，构建pytorch框架下的YOLOv5s 6.0轻量化目标检测网络，该网络由四个模块组成：Input(输入端)模块、Backbone网络(主干网络)模块、Neck网络(颈部网络)模块和Head(预测端)模块；

步骤32：然后，自制stage(楼梯)、wetroad(湿滑路面)、zcrossing(斑马线)、night(夜晚)四类图像数据集，数量分别为2500张、1500张、1500张、1500张，另外还有1000张负样本，对数据集以7:2:1的比例划分为训练集、验证集和测试集；

步骤33：用labelImg工具对四类图像的训练集进行手动标记，接着进行200轮训练生成best.pt模型，并通过验证集和测试集数据检验训练生成的模型效果。

进一步的，所述Input(输入端)模块包括Mosaic数据增强、自适应锚框计算、图片尺寸处理三部分；输入的图像标准尺寸为640×640×3，经过Mosaic数据增强将数据集中的任意四张图片进行随机缩放、裁剪、排布的方式进行拼接，再通过自适应描框计算，YOLOv5s设定的初始描框为[70,28,74,100,88,213]、[147,67,181,106,189,303]、[261,132,513,281,544,395]，网络在训练的时候，根据初始描框来进行输出预测框，然后与真实框groundtruth相比对，根据两者计算的差值进行反向更新，从而反复迭代更新网络参数；

所述Backbone网络(主干网络)模块由1个Fcous结构、5个Conv模块、21个C3模块、1个SPPF模块构成。Focus结构将640×640×3的图像输入，采用切片操作，先变成320×320×12的特征图，再经过3×3的卷积操作，输出通道32，最终变成320×320×32的特征图；Conv模块包括卷积(Conv2d)、Batch Normalization和激活函数(SiLU)；C3模块包含了3个标准卷积层以及多个Bottleneck模块；SPPF模块采用多个小尺寸池化核级联代替SPP模块中单个大尺寸池化核；

所述Neck网络(颈部网络)模块由FPN+PAN的网络结构构成，从上到下的FPN结构通过上采样操作来处理信息传递过程，以得到预测的特征图；从下到上的特征金字塔应用在PAN结构中；

所述Head(预测端)模块由4个Conv模块、2个nn.Upsample模块、4个Concat(拼接层)模块、12个C3模块、1个Detect模块构成，其主要负责对骨干网络提取的特征图进行多尺度目标检测。

进一步的，所述步骤4具体为：

步骤41：首先，确定输入数据的三个特征：用户是否正在运动、用户是否正在玩手机、用户是否处于危险环境，根据这些特征来建立决策树模型；

步骤42：然后，选择“用户是否正在运动”作为决策树的根节点，该特征能够尽可能最好分类手机用户是否处于危险状态；

步骤43：最后，计算“用户是否正在玩手机”、“用户是否处于危险环境”两个特征的Gini系数，确定决策树模型的内部节点和叶子节点；Gini系数的计算公式如下：

其中，p_k表示某一类别的发生概率。

进一步的，所述步骤5具体为：

用户界面分为上、下两个部分；下边实时检测用户的活动状态，并显示手持手机慢行、手机揣兜慢行、手机静放、慢行看手机、上下楼梯看手机、静止看手机六种情况的x、y、z三轴重力加速度传感器检测的实时数据；界面上边实时显示用户所处的环境，同时对用户的危险状态进行判定，当检测到用户在楼梯、斑马线、黑夜、湿滑路面等危险环境中使用手机时，通过字样显示和语音播报的形式向低头族提供预警。

本发明的有益效果是：本发明研发了基于移动终端的多模态低头族危险环境感知系统方法。通过实时监控行走的环境，并根据加速度传感器检测数据进行状态判别，并综合性的得出状态结果可能性，及时发出预警。同时，本发明不仅能够实时监控，能够做到高效及时的获取周边环境并进行检测判断，且检测效率高达90％及以上，而且能够做到声音预警，提醒人们注意周边环境以避免危险状况的发生。

附图说明

图1为本发明提出的一种基于移动终端的多模态低头族危险环境感知与预警方法的步骤示意图；

图2为本发明提出的六种手机用户运动状态下手机内置加速度传感器采集的三轴加速度时间序列实例图；

图3为本发明提出的频率空间生成活动图像的过程图；

图4为本发明提出的基于LSTM-CNN的手机用户运动状态检测网络结构图；

图5为本发明提出的基于LSTM-CNN手机用户运动状态检测网络模型训练和测试的准确率以及损失曲线图；

图6为本发明提出的基于单目图像序列的图像视角扩展过程图；

图7为本发明提出的基于YOLOv5轻型网络的危险场景检测模块网络架构图；

图8为本发明提出的基于决策树的低头族危险状态判定模型图；；

图9为本发明提出的用户界面设计和听觉-视觉立体式预警设计图

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面通过附图及实施例，对本发明进行进一步详细说明。但是应该理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限制本发明的范围。

除非另有定义，本文所使用的所有的技术术语和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同，本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

如图1所示，一种基于移动终端的多模态低头族危险环境感知与预警方法，包括如下步骤：

步骤1：利用手机内置加速度传感器，采集三方向加速度时间序列数据；面向三个方向加速度时间序列数据，提取加速度状态特征，构建基于并行LSTM-CNN网络的用户运动状态分类模块，对手机用户的当前运动状态进行识别；其具体内容为：

首先，面向手机内置重力加速度传感器，以20Hz为采样频率采集13位不同用户在手持手机慢行、手机揣兜慢行、手机静放、慢行看手机、上下楼梯看手机、静止看手机六种状态下的加速度时间序列数据。每种状态采集10s的数据。如图2所示为六种状态下的数据采集实例。

接着，按照不同用户和状态对采集的数据进行标号。用a、b、c、d、e、f、g、h、i、j、k、l、m分别表示13个不同用户，用1、2、3、4、5、6分别表示手持手机慢行、手机揣兜慢行、手机静放、慢行看手机、上下楼梯看手机、静止看手机六种状态，具体表示为：

其中，表示a用户在手持手机慢行状态下，重力加速度传感器采集的x、y、z三轴加速度时间序列数据，/>X₂₀₀＝{x₁,x₂,…x₂₀₀}，Y₂₀₀＝{y₁,y₂,y₂₀₀}，Z₂₀₀＝{z₁,z₂,…z₂₀₀}。

然后，面向x、y、z三轴加速度输入数据，手动提取统计学特征T_imput，包括每种状态下的平均值：μ_x，μ_y，μ_z，方差：σ_x，σ_y，σ_z以及两轴之间的皮尔逊相关系数：ρ_xy，ρ_xz，ρ_yz。其中，皮尔逊相关系数的计算公式如下：

接着，将x、y、z三轴加速度数据按时间进行叠加，生成信号图像，然后将二维离散傅里叶变换(DFT)应用于信号图像，并选择其幅度作为我们的活动图像F_imput，过程如图3所示。其中，二维离散傅里叶变换的公式如下所示：

最后，以重力加速度传感器原始采集数据S_input、统计量T_imput、频率图像F_imput为输入数据，构建基于LSTM-CNN的用户状态识别网络，通过DWConv深度卷积模块提取数据特征，利用最大池化层和下采样层增强模型的鲁棒性并减少过拟合的风险。网络结构如图4所示。

步骤2：利用单目摄像机采集图像，估计单目图像深度信息；面向彩色图像序列和深度图的深度信息，预测视角扩展图像；其具体内容为：

首先，利用基于拉普拉斯金字塔的解码器结构对单目图像进行深度估计，精确地解释编码特征与最终输出之间的关系。输入的彩色图像的拉普拉斯残差为L_k，具体表示为：

L_k＝I_k-U_p(I_k+1),k＝1,2,3,4 (4)

其中，k为拉普拉斯金字塔中的水平指数。I_k是通过对原始输入图像进行下采样得到的，U_p表示上采样函数。

第k个金字塔层获得的深度残差为R_k，具体表示为：

R_k＝B_k([x_k，L_k，U_p(R_k+1)])+L_k，k＝1，2，3，4 (5)

其中，[x_k，L_k，U_p(R_k+1)]为串联。B_k由堆叠的卷积块组成。

D_k＝R_k+U_p(D_k+1)，k＝1，2，3，4 (6)

然后，使用标准的全卷积架构分别在两个独立的流中预测单个图像的预测像素深度和法线贴图，如图6所示。

在每个平面上，给定所需的相对姿态，即3D旋转和平移，以及相机的内在参数，可以从其深度和法线计算出一个单应性，对m个不同的平面建模，将输入图像分割成m个区域。使用VGG的前4个卷积模块从输入图像和种子区域掩码中应用反向扭曲过程在新视图中预测m个平面区域掩码。将这些分割掩码和相对姿态结合，产生各自的单应性变换，并根据扭曲的输入图像组合生成新的视图。

步骤3：分析步骤1的运动状态识别结果，当用户处于非静止状态时，开启手机后视摄像头，采集用户周围环境图像数据；面向用户周围环境图像数据，构建基于YOLOv5轻型网络的危险环境检测模块，对手机用户周边潜在的危险环境(斑马线、楼梯区域、湿滑路面、低照明)进行识别；其具体内容为：

首先，构建pytorch框架下的YOLOv5s 6.0轻量化目标检测网络，该网络由四个模块组成：Input(输入端)模块、Backbone网络(主干网络)模块、Neck网络(颈部网络)模块和Head(预测端)模块，如图7所示；

其中，Input模块包括Mosaic数据增强、自适应锚框计算、图片尺寸处理三部分。输入的图像标准尺寸为640×640×3，经过Mosaic数据增强将数据集中的任意四张图片进行随机缩放、裁剪、排布的方式进行拼接，再通过自适应描框计算，YOLOv5s设定的初始描框为[70,28,74,100,88,213]、[147,67,181,106,189,303]、[261,132,513,281,544,395]，网络在训练的时候，根据初始描框来进行输出预测框，然后与真实框groundtruth相比对，根据两者计算的差值进行反向更新，从而反复迭代更新网络参数。

Backbone网络模块由1个Fcous结构、5个Conv模块、21个C3模块、1个SPPF模块构成。Focus结构将640×640×3的图像输入，采用切片操作，先变成320×320×12的特征图，再经过3×3的卷积操作，输出通道32，最终变成320×320×32的特征图。Conv模块包括卷积(Conv2d)、Batch Normalization和激活函数(SiLU)。C3模块包含了3个标准卷积层以及多个Bottleneck模块。SPPF模块采用多个小尺寸池化核级联代替SPP模块中单个大尺寸池化核。

Neck网络模块由FPN+PAN的网络结构构成，从上到下的FPN结构通过上采样操作来处理信息传递过程，以得到预测的特征图。从下到上的特征金字塔应用在PAN结构中。

Head模块由4个Conv模块、2个nn.Upsample模块、4个Concat(拼接层)模块、12个C3模块、1个Detect模块构成，其主要负责对骨干网络提取的特征图进行多尺度目标检测。

然后，自制stage(楼梯)、wetroad(湿滑路面)、zcrossing(斑马线)、night(夜晚)四类图像数据集。数量分别为2500张、1500张、1500张、1500张，另外还有1000张负样本，对数据集以7:2:1的比例划分为训练集、验证集和测试集。用labelImg工具对四类图像的训练集进行手动标记，接着进行200轮训练生成best.pt模型，并通过验证集和测试集数据检验训练生成的模型效果。

步骤4：面向步骤1、步骤3输出的手机用户运动状态识别结果、周围危险环境识别结果，构建基于决策树模型的低头族危险状态判定模块，对低头族当前的危险状态进行分类；其具体内容为：

首先，确定输入数据的三个特征：用户是否正在运动、用户是否正在玩手机、用户是否处于危险环境，根据这些特征来建立决策树模型。

然后，选择“用户是否正在运动”作为决策树的根节点，该特征能够尽可能最好分类手机用户是否处于危险状态。

最后，计算“用户是否正在玩手机”、“用户是否处于危险环境”两个特征的Gini系数，确定决策树模型的内部节点和叶子节点，构建如图8所示的决策树模型。Gini系数的计算公式如下：

其中，p_k表示某一类别的发生概率。

步骤5：面向实时的手机用户运动状态识别结果、用户周围危险环境识别结果、低头族危险状态判定结果，设计手机端用户界面，建立听觉-视觉立体式预警方式；其具体内容为：

用户界面分为上、下两个部分，如图9所示。下边实时检测用户的活动状态，并显示手持手机慢行、手机揣兜慢行、手机静放、慢行看手机、上下楼梯看手机、静止看手机六种情况的x、y、z三轴重力加速度传感器检测的实时数据；界面上边实时显示用户所处的环境，同时对用户的危险状态进行判定，当检测到用户在楼梯、斑马线、黑夜、湿滑路面等危险环境中使用手机时，通过字样显示和语音播报的形式向低头族提供预警。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换或改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于移动终端的多模态低头族危险环境感知与预警方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于移动终端的多模态低头族危险环境感知与预警方法，其特征在于，所述步骤1具体为：

步骤13：面向x、y、z三轴加速度输入数据，手动提取统计学特征T_imput，包括每种状态下的平均值：μ_x，μ_y，μ_z，方差：σ_x，σ_y，σ_z以及两轴之间的皮尔逊相关系数：ρ_xy，ρ_xz，ρ_yz；其中，皮尔逊相关系数的计算公式如下：

步骤14：将x、y、z三轴加速度数据按时间进行叠加，生成信号图像，然后将二维离散傅里叶变换(DFT)应用于信号图像，并选择其幅度作为活动图像F_imput；其中，二维离散傅里叶变换的公式如下所示：

3.根据权利要求1所述的一种基于移动终端的多模态低头族危险环境感知与预警方法，其特征在于，所述步骤2具体为：

L_k＝I_k-U_p(I_k+1)，k＝1，2，3，4 (4)

第k个金字塔层获得的深度残差为R_k，具体表示为：

R_k＝B_k([x_k，L_k，U_P(R_k+1)])+L_k，k＝1，2，3，4 (5)

其中，[x_k，L_k，U_p(R_k+1)]为串联，B_k由堆叠的卷积块组成；

D_k＝R_k+U_P(D_k+1)，k＝1，2，3，4(6)；

4.根据权利要求1所述的一种基于移动终端的多模态低头族危险环境感知与预警方法，其特征在于，所述步骤3具体为：

5.根据权利要求4所述的一种基于移动终端的多模态低头族危险环境感知与预警方法，其特征在于，所述Input(输入端)模块包括Mosaic数据增强、自适应锚框计算、图片尺寸处理三部分；输入的图像标准尺寸为640×640×3，经过Mosaic数据增强将数据集中的任意四张图片进行随机缩放、裁剪、排布的方式进行拼接，再通过自适应描框计算，YOLOv5s设定的初始描框为[70,28,74,100,88,213]、[147,67,181,106,189,303]、[261,132,513,281,544,395]，网络在训练的时候，根据初始描框来进行输出预测框，然后与真实框groundtruth相比对，根据两者计算的差值进行反向更新，从而反复迭代更新网络参数；

所述Backbone网络(主干网络)模块由1个Fcous结构、5个Conv模块、21个C3模块、1个SPPF模块构成；Focus结构将640×640×3的图像输入，采用切片操作，先变成320×320×12的特征图，再经过3×3的卷积操作，输出通道32，最终变成320×320×32的特征图；Conv模块包括卷积(Conv2d)、Batch Normalization和激活函数(SiLU)；C3模块包含了3个标准卷积层以及多个Bottleneck模块；SPPF模块采用多个小尺寸池化核级联代替SPP模块中单个大尺寸池化核；

6.根据权利要求1所述的一种基于移动终端的多模态低头族危险环境感知与预警方法，其特征在于，所述步骤4具体为：

其中，p_k表示某一类别的发生概率。

7.根据权利要求1所述的一种基于移动终端的多模态低头族危险环境感知与预警方法，其特征在于，所述步骤5具体为：