CN117113231A - 基于移动终端的多模态低头族危险环境感知与预警方法 - Google Patents

基于移动终端的多模态低头族危险环境感知与预警方法 Download PDF

Info

Publication number
CN117113231A
CN117113231A CN202311022203.6A CN202311022203A CN117113231A CN 117113231 A CN117113231 A CN 117113231A CN 202311022203 A CN202311022203 A CN 202311022203A CN 117113231 A CN117113231 A CN 117113231A
Authority
CN
China
Prior art keywords
mobile phone
user
image
data
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311022203.6A
Other languages
English (en)
Inventor
王晗
吉翔
金磊
何欣樾
闫苏园
季钰姣
邓丽云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nantong University
Original Assignee
Nantong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nantong University filed Critical Nantong University
Priority to CN202311022203.6A priority Critical patent/CN117113231A/zh
Publication of CN117113231A publication Critical patent/CN117113231A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/10Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 by using measurements of speed or acceleration
    • G01C21/12Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 by using measurements of speed or acceleration executed aboard the object being navigated; Dead reckoning
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01PMEASURING LINEAR OR ANGULAR SPEED, ACCELERATION, DECELERATION, OR SHOCK; INDICATING PRESENCE, ABSENCE, OR DIRECTION, OF MOVEMENT
    • G01P15/00Measuring acceleration; Measuring deceleration; Measuring shock, i.e. sudden change of acceleration
    • G01P15/18Measuring acceleration; Measuring deceleration; Measuring shock, i.e. sudden change of acceleration in two or more dimensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B21/00Alarms responsive to a single specified undesired or abnormal condition and not otherwise provided for
    • G08B21/02Alarms for ensuring the safety of persons
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Business, Economics & Management (AREA)
  • Emergency Management (AREA)
  • Automation & Control Theory (AREA)
  • Alarm Systems (AREA)

Abstract

本发明公开一种基于移动终端的多模态低头族危险环境感知与预警方法,包括以下步骤:步骤1:构建基于并行LSTM‑CNN网络的用户运动状态分类模块,对手机用户的当前运动状态进行识别;步骤2:利用单目摄像机采集图像,估计单目图像深度信息;面向彩色图像序列和深度图的深度信息,预测视角扩展图像;步骤3:分析步骤1的运动状态识别结果,构建基于YOLOv5轻型网络的危险环境检测模块,对危险环境进行识别;步骤4:构建基于决策树模型的低头族危险状态判定模块,对低头族当前的危险状态进行分类;步骤5:设计手机端用户界面,建立听觉‑视觉立体式预警方式。本发明能够在低头族使用手机时进行危险预警,有效降低事故发生率。

Description

基于移动终端的多模态低头族危险环境感知与预警方法
技术领域
本发明涉及一种基于移动终端的多模态低头族危险环境感知与预警方法,属于多传感器数据融合技术领域。
背景技术
随着互联网和现代通信技术的快速发展,智能手机逐渐成为人们日常生活中不可缺失的一部分。然而,“机不离手”也成为了一个普遍的社会现象。很多人长时间低头看手机,往往忽略了周围环境,这不仅容易引起各种健康问题,而且存在很大的安全隐患。例如在上下楼时玩手机容易造成摔倒,在过马路时玩手机则会酿成交通事故。
当前的移动终端在上述危险场景使用时也并没有预警措施,无法给予使用者足够的安全警示,极易养成用户的侥幸、依赖心理,甚至对自己的危险行为毫不在意。目前,未有面向极易发生危险情况的环境检测系统,而能够对行人行走状态进行可能性检测的软件也寥寥无几,且设计角度单一。大多都是斑马线的检测或者是跑步及静止的判别。而综合性更高的行为检测以及行走环境检测也更是未经面世。故需要设计一种新方法从而能够实时监控,能够做到高效及时的获取周边环境并进行检测判断,且检测效率高达90%及以上。而且能够做到声音预警,提醒人们注意周边环境以避免危险状况的发生
发明内容
针对上述现有技术存在的问题,本发明提供一种基于移动终端的多模态低头族危险环境感知与预警方法,利用手机自带传感器,在不添加任何其他设备的情况下,实时检测用户的行为状态和所处环境状况;并根据传感器检测数据建立“低头族”危险预警系统,通过文字和语音提示进一步加强用户对行走环境的注意力,有效降低事故发生率,保障用户的安全。
为了实现上述目的,本发明采用的技术方案是:一种基于移动终端的多模态低头族危险环境感知与预警方法,其特征在于,包括以下步骤:
步骤1:利用手机内置加速度传感器,采集三方向加速度时间序列数据;面向三个方向加速度时间序列数据,提取加速度状态特征,构建基于并行LSTM-CNN网络的用户运动状态分类(手持手机慢行、手机揣兜慢行、手机静放、慢行看手机、上下楼梯看手机、静止看手机)模块,对手机用户的当前运动状态进行识别;
步骤2:利用单目摄像机采集图像,估计单目图像深度信息;面向彩色图像序列和深度图的深度信息,预测视角扩展图像;
步骤3:分析步骤1的运动状态识别结果,当用户处于非静止状态时,开启手机后视摄像头,采集用户周围环境图像数据;面向用户周围环境图像数据,构建基于YOLOv5轻型网络的危险环境检测模块,对手机用户周边潜在的危险环境(斑马线、楼梯区域、湿滑路面、低照明)进行识别;
步骤4:面向步骤1、步骤3输出的手机用户运动状态识别结果、周围危险环境识别结果,构建基于决策树模型的低头族危险状态判定模块,对低头族当前的危险状态进行分类;
步骤5:面向实时的手机用户运动状态识别结果、用户周围危险环境识别结果、低头族危险状态判定结果,设计手机端用户界面,建立听觉-视觉立体式预警方式。
进一步的,所述步骤1具体为:
步骤11:面向手机内置重力加速度传感器,以20Hz为采样频率采集13位不同用户在手持手机慢行、手机揣兜慢行、手机静放、慢行看手机、上下楼梯看手机、静止看手机六种状态下的加速度时间序列数据,每种状态采集10s的数据;
步骤12:按照不同用户和状态对采集的数据进行标号;用a、b、c、d、e、f、g、h、i、j、k、l、m分别表示13个不同用户,用1、2、3、4、5、6分别表示手持手机慢行、手机揣兜慢行、手机静放、慢行看手机、上下楼梯看手机、静止看手机六种状态,具体表示为:
其中,表示a用户在手持手机慢行状态下,重力加速度传感器采集的x、y、z三轴加速度时间序列数据,/>X200={x1,x2,...X200},Y200={y1,y2,...y200},Z200={z1,z2,...z200};
步骤13:面向x、y、z三轴加速度输入数据,手动提取统计学特征Timput,包括每种状态下的平均值:μx,μy,μz,方差:σx,σy,σz以及两轴之间的皮尔逊相关系数:ρxy,ρxz,ρyz。其中,皮尔逊相关系数的计算公式如下:
步骤14:将x、y、z三轴加速度数据按时间进行叠加,生成信号图像,然后将二维离散傅里叶变换(DFT)应用于信号图像,并选择其幅度作为活动图像Fimput。其中,二维离散傅里叶变换的公式如下所示:
步骤15:以重力加速度传感器原始采集数据Sinput、统计量Timput、频率图像Fimput为输入数据,构建基于LSTM-CNN的用户状态识别网络,通过DWConv深度卷积模块提取数据特征,利用最大池化层和下采样层增强模型的鲁棒性并减少过拟合的风险。
进一步的,所述步骤2具体为:
步骤21:首先,利用基于拉普拉斯金字塔的解码器结构对单目图像进行深度估计,精确地解释编码特征与最终输出之间的关系;输入的彩色图像的拉普拉斯残差为Lk,具体表示为:
Lk=Ik-Up(Ik+1),k=1,2,3,4 (4)
其中,k为拉普拉斯金字塔中的水平指数,Ik是通过对原始输入图像进行下采样得到的,Up表示上采样函数;
第k个金字塔层获得的深度残差为Rk,具体表示为:
Rk=Bk([xk,Lk,Up(Rk+1)])+Lk,k=1,2,3,4 (5)
其中,[xk,Lk,Up(Rk+1)]为串联,Bk由堆叠的卷积块组成;
从拉普拉斯金字塔的最高层开始逐步重建深度图,具体表示为:
Dk=Rk+Up(Dk+1),k=1,2,3,4 (6);
步骤22:然后,使用标准的全卷积架构分别在两个独立的流中预测单个图像的预测像素深度和法线贴图;在每个平面上,给定所需的相对姿态,即3D旋转和平移,以及相机的内在参数,可以从其深度和法线计算出一个单应性,对m个不同的平面建模,将输入图像分割成m个区域;使用VGG的前4个卷积模块从输入图像和种子区域掩码中应用反向扭曲过程在新视图中预测m个平面区域掩码,将这些分割掩码和相对姿态结合,产生各自的单应性变换,并根据扭曲的输入图像组合生成新的视图。
进一步的,所述步骤3具体为:
步骤31:首先,构建pytorch框架下的YOLOv5s 6.0轻量化目标检测网络,该网络由四个模块组成:Input(输入端)模块、Backbone网络(主干网络)模块、Neck网络(颈部网络)模块和Head(预测端)模块;
步骤32:然后,自制stage(楼梯)、wetroad(湿滑路面)、zcrossing(斑马线)、night(夜晚)四类图像数据集,数量分别为2500张、1500张、1500张、1500张,另外还有1000张负样本,对数据集以7:2:1的比例划分为训练集、验证集和测试集;
步骤33:用labelImg工具对四类图像的训练集进行手动标记,接着进行200轮训练生成best.pt模型,并通过验证集和测试集数据检验训练生成的模型效果。
进一步的,所述Input(输入端)模块包括Mosaic数据增强、自适应锚框计算、图片尺寸处理三部分;输入的图像标准尺寸为640×640×3,经过Mosaic数据增强将数据集中的任意四张图片进行随机缩放、裁剪、排布的方式进行拼接,再通过自适应描框计算,YOLOv5s设定的初始描框为[70,28,74,100,88,213]、[147,67,181,106,189,303]、[261,132,513,281,544,395],网络在训练的时候,根据初始描框来进行输出预测框,然后与真实框groundtruth相比对,根据两者计算的差值进行反向更新,从而反复迭代更新网络参数;
所述Backbone网络(主干网络)模块由1个Fcous结构、5个Conv模块、21个C3模块、1个SPPF模块构成。Focus结构将640×640×3的图像输入,采用切片操作,先变成320×320×12的特征图,再经过3×3的卷积操作,输出通道32,最终变成320×320×32的特征图;Conv模块包括卷积(Conv2d)、Batch Normalization和激活函数(SiLU);C3模块包含了3个标准卷积层以及多个Bottleneck模块;SPPF模块采用多个小尺寸池化核级联代替SPP模块中单个大尺寸池化核;
所述Neck网络(颈部网络)模块由FPN+PAN的网络结构构成,从上到下的FPN结构通过上采样操作来处理信息传递过程,以得到预测的特征图;从下到上的特征金字塔应用在PAN结构中;
所述Head(预测端)模块由4个Conv模块、2个nn.Upsample模块、4个Concat(拼接层)模块、12个C3模块、1个Detect模块构成,其主要负责对骨干网络提取的特征图进行多尺度目标检测。
进一步的,所述步骤4具体为:
步骤41:首先,确定输入数据的三个特征:用户是否正在运动、用户是否正在玩手机、用户是否处于危险环境,根据这些特征来建立决策树模型;
步骤42:然后,选择“用户是否正在运动”作为决策树的根节点,该特征能够尽可能最好分类手机用户是否处于危险状态;
步骤43:最后,计算“用户是否正在玩手机”、“用户是否处于危险环境”两个特征的Gini系数,确定决策树模型的内部节点和叶子节点;Gini系数的计算公式如下:
其中,pk表示某一类别的发生概率。
进一步的,所述步骤5具体为:
用户界面分为上、下两个部分;下边实时检测用户的活动状态,并显示手持手机慢行、手机揣兜慢行、手机静放、慢行看手机、上下楼梯看手机、静止看手机六种情况的x、y、z三轴重力加速度传感器检测的实时数据;界面上边实时显示用户所处的环境,同时对用户的危险状态进行判定,当检测到用户在楼梯、斑马线、黑夜、湿滑路面等危险环境中使用手机时,通过字样显示和语音播报的形式向低头族提供预警。
本发明的有益效果是:本发明研发了基于移动终端的多模态低头族危险环境感知系统方法。通过实时监控行走的环境,并根据加速度传感器检测数据进行状态判别,并综合性的得出状态结果可能性,及时发出预警。同时,本发明不仅能够实时监控,能够做到高效及时的获取周边环境并进行检测判断,且检测效率高达90%及以上,而且能够做到声音预警,提醒人们注意周边环境以避免危险状况的发生。
附图说明
图1为本发明提出的一种基于移动终端的多模态低头族危险环境感知与预警方法的步骤示意图;
图2为本发明提出的六种手机用户运动状态下手机内置加速度传感器采集的三轴加速度时间序列实例图;
图3为本发明提出的频率空间生成活动图像的过程图;
图4为本发明提出的基于LSTM-CNN的手机用户运动状态检测网络结构图;
图5为本发明提出的基于LSTM-CNN手机用户运动状态检测网络模型训练和测试的准确率以及损失曲线图;
图6为本发明提出的基于单目图像序列的图像视角扩展过程图;
图7为本发明提出的基于YOLOv5轻型网络的危险场景检测模块网络架构图;
图8为本发明提出的基于决策树的低头族危险状态判定模型图;;
图9为本发明提出的用户界面设计和听觉-视觉立体式预警设计图
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面通过附图及实施例,对本发明进行进一步详细说明。但是应该理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限制本发明的范围。
除非另有定义,本文所使用的所有的技术术语和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同,本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
如图1所示,一种基于移动终端的多模态低头族危险环境感知与预警方法,包括如下步骤:
步骤1:利用手机内置加速度传感器,采集三方向加速度时间序列数据;面向三个方向加速度时间序列数据,提取加速度状态特征,构建基于并行LSTM-CNN网络的用户运动状态分类模块,对手机用户的当前运动状态进行识别;其具体内容为:
首先,面向手机内置重力加速度传感器,以20Hz为采样频率采集13位不同用户在手持手机慢行、手机揣兜慢行、手机静放、慢行看手机、上下楼梯看手机、静止看手机六种状态下的加速度时间序列数据。每种状态采集10s的数据。如图2所示为六种状态下的数据采集实例。
接着,按照不同用户和状态对采集的数据进行标号。用a、b、c、d、e、f、g、h、i、j、k、l、m分别表示13个不同用户,用1、2、3、4、5、6分别表示手持手机慢行、手机揣兜慢行、手机静放、慢行看手机、上下楼梯看手机、静止看手机六种状态,具体表示为:
其中,表示a用户在手持手机慢行状态下,重力加速度传感器采集的x、y、z三轴加速度时间序列数据,/>X200={x1,x2,…x200},Y200={y1,y2,y200},Z200={z1,z2,…z200}。
然后,面向x、y、z三轴加速度输入数据,手动提取统计学特征Timput,包括每种状态下的平均值:μx,μy,μz,方差:σx,σy,σz以及两轴之间的皮尔逊相关系数:ρxy,ρxz,ρyz。其中,皮尔逊相关系数的计算公式如下:
接着,将x、y、z三轴加速度数据按时间进行叠加,生成信号图像,然后将二维离散傅里叶变换(DFT)应用于信号图像,并选择其幅度作为我们的活动图像Fimput,过程如图3所示。其中,二维离散傅里叶变换的公式如下所示:
最后,以重力加速度传感器原始采集数据Sinput、统计量Timput、频率图像Fimput为输入数据,构建基于LSTM-CNN的用户状态识别网络,通过DWConv深度卷积模块提取数据特征,利用最大池化层和下采样层增强模型的鲁棒性并减少过拟合的风险。网络结构如图4所示。
步骤2:利用单目摄像机采集图像,估计单目图像深度信息;面向彩色图像序列和深度图的深度信息,预测视角扩展图像;其具体内容为:
首先,利用基于拉普拉斯金字塔的解码器结构对单目图像进行深度估计,精确地解释编码特征与最终输出之间的关系。输入的彩色图像的拉普拉斯残差为Lk,具体表示为:
Lk=Ik-Up(Ik+1),k=1,2,3,4 (4)
其中,k为拉普拉斯金字塔中的水平指数。Ik是通过对原始输入图像进行下采样得到的,Up表示上采样函数。
第k个金字塔层获得的深度残差为Rk,具体表示为:
Rk=Bk([xk,Lk,Up(Rk+1)])+Lk,k=1,2,3,4 (5)
其中,[xk,Lk,Up(Rk+1)]为串联。Bk由堆叠的卷积块组成。
从拉普拉斯金字塔的最高层开始逐步重建深度图,具体表示为:
Dk=Rk+Up(Dk+1),k=1,2,3,4 (6)
然后,使用标准的全卷积架构分别在两个独立的流中预测单个图像的预测像素深度和法线贴图,如图6所示。
在每个平面上,给定所需的相对姿态,即3D旋转和平移,以及相机的内在参数,可以从其深度和法线计算出一个单应性,对m个不同的平面建模,将输入图像分割成m个区域。使用VGG的前4个卷积模块从输入图像和种子区域掩码中应用反向扭曲过程在新视图中预测m个平面区域掩码。将这些分割掩码和相对姿态结合,产生各自的单应性变换,并根据扭曲的输入图像组合生成新的视图。
步骤3:分析步骤1的运动状态识别结果,当用户处于非静止状态时,开启手机后视摄像头,采集用户周围环境图像数据;面向用户周围环境图像数据,构建基于YOLOv5轻型网络的危险环境检测模块,对手机用户周边潜在的危险环境(斑马线、楼梯区域、湿滑路面、低照明)进行识别;其具体内容为:
首先,构建pytorch框架下的YOLOv5s 6.0轻量化目标检测网络,该网络由四个模块组成:Input(输入端)模块、Backbone网络(主干网络)模块、Neck网络(颈部网络)模块和Head(预测端)模块,如图7所示;
其中,Input模块包括Mosaic数据增强、自适应锚框计算、图片尺寸处理三部分。输入的图像标准尺寸为640×640×3,经过Mosaic数据增强将数据集中的任意四张图片进行随机缩放、裁剪、排布的方式进行拼接,再通过自适应描框计算,YOLOv5s设定的初始描框为[70,28,74,100,88,213]、[147,67,181,106,189,303]、[261,132,513,281,544,395],网络在训练的时候,根据初始描框来进行输出预测框,然后与真实框groundtruth相比对,根据两者计算的差值进行反向更新,从而反复迭代更新网络参数。
Backbone网络模块由1个Fcous结构、5个Conv模块、21个C3模块、1个SPPF模块构成。Focus结构将640×640×3的图像输入,采用切片操作,先变成320×320×12的特征图,再经过3×3的卷积操作,输出通道32,最终变成320×320×32的特征图。Conv模块包括卷积(Conv2d)、Batch Normalization和激活函数(SiLU)。C3模块包含了3个标准卷积层以及多个Bottleneck模块。SPPF模块采用多个小尺寸池化核级联代替SPP模块中单个大尺寸池化核。
Neck网络模块由FPN+PAN的网络结构构成,从上到下的FPN结构通过上采样操作来处理信息传递过程,以得到预测的特征图。从下到上的特征金字塔应用在PAN结构中。
Head模块由4个Conv模块、2个nn.Upsample模块、4个Concat(拼接层)模块、12个C3模块、1个Detect模块构成,其主要负责对骨干网络提取的特征图进行多尺度目标检测。
然后,自制stage(楼梯)、wetroad(湿滑路面)、zcrossing(斑马线)、night(夜晚)四类图像数据集。数量分别为2500张、1500张、1500张、1500张,另外还有1000张负样本,对数据集以7:2:1的比例划分为训练集、验证集和测试集。用labelImg工具对四类图像的训练集进行手动标记,接着进行200轮训练生成best.pt模型,并通过验证集和测试集数据检验训练生成的模型效果。
步骤4:面向步骤1、步骤3输出的手机用户运动状态识别结果、周围危险环境识别结果,构建基于决策树模型的低头族危险状态判定模块,对低头族当前的危险状态进行分类;其具体内容为:
首先,确定输入数据的三个特征:用户是否正在运动、用户是否正在玩手机、用户是否处于危险环境,根据这些特征来建立决策树模型。
然后,选择“用户是否正在运动”作为决策树的根节点,该特征能够尽可能最好分类手机用户是否处于危险状态。
最后,计算“用户是否正在玩手机”、“用户是否处于危险环境”两个特征的Gini系数,确定决策树模型的内部节点和叶子节点,构建如图8所示的决策树模型。Gini系数的计算公式如下:
其中,pk表示某一类别的发生概率。
步骤5:面向实时的手机用户运动状态识别结果、用户周围危险环境识别结果、低头族危险状态判定结果,设计手机端用户界面,建立听觉-视觉立体式预警方式;其具体内容为:
用户界面分为上、下两个部分,如图9所示。下边实时检测用户的活动状态,并显示手持手机慢行、手机揣兜慢行、手机静放、慢行看手机、上下楼梯看手机、静止看手机六种情况的x、y、z三轴重力加速度传感器检测的实时数据;界面上边实时显示用户所处的环境,同时对用户的危险状态进行判定,当检测到用户在楼梯、斑马线、黑夜、湿滑路面等危险环境中使用手机时,通过字样显示和语音播报的形式向低头族提供预警。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换或改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于移动终端的多模态低头族危险环境感知与预警方法,其特征在于,包括以下步骤:
步骤1:利用手机内置加速度传感器,采集三方向加速度时间序列数据;面向三个方向加速度时间序列数据,提取加速度状态特征,构建基于并行LSTM-CNN网络的用户运动状态分类(手持手机慢行、手机揣兜慢行、手机静放、慢行看手机、上下楼梯看手机、静止看手机)模块,对手机用户的当前运动状态进行识别;
步骤2:利用单目摄像机采集图像,估计单目图像深度信息;面向彩色图像序列和深度图的深度信息,预测视角扩展图像;
步骤3:分析步骤1的运动状态识别结果,当用户处于非静止状态时,开启手机后视摄像头,采集用户周围环境图像数据;面向用户周围环境图像数据,构建基于YOLOv5轻型网络的危险环境检测模块,对手机用户周边潜在的危险环境(斑马线、楼梯区域、湿滑路面、低照明)进行识别;
步骤4:面向步骤1、步骤3输出的手机用户运动状态识别结果、周围危险环境识别结果,构建基于决策树模型的低头族危险状态判定模块,对低头族当前的危险状态进行分类;
步骤5:面向实时的手机用户运动状态识别结果、用户周围危险环境识别结果、低头族危险状态判定结果,设计手机端用户界面,建立听觉-视觉立体式预警方式。
2.根据权利要求1所述的一种基于移动终端的多模态低头族危险环境感知与预警方法,其特征在于,所述步骤1具体为:
步骤11:面向手机内置重力加速度传感器,以20Hz为采样频率采集13位不同用户在手持手机慢行、手机揣兜慢行、手机静放、慢行看手机、上下楼梯看手机、静止看手机六种状态下的加速度时间序列数据,每种状态采集10s的数据;
步骤12:按照不同用户和状态对采集的数据进行标号;用a、b、c、d、e、f、g、h、i、j、k、l、m分别表示13个不同用户,用1、2、3、4、5、6分别表示手持手机慢行、手机揣兜慢行、手机静放、慢行看手机、上下楼梯看手机、静止看手机六种状态,具体表示为:
其中,表示a用户在手持手机慢行状态下,重力加速度传感器采集的x、y、z三轴加速度时间序列数据,/>X200={x1,x2,...x200},Y200={y1,y2,...y200},Z200={z1,z2,...z200};
步骤13:面向x、y、z三轴加速度输入数据,手动提取统计学特征Timput,包括每种状态下的平均值:μx,μy,μz,方差:σx,σy,σz以及两轴之间的皮尔逊相关系数:ρxy,ρxz,ρyz;其中,皮尔逊相关系数的计算公式如下:
步骤14:将x、y、z三轴加速度数据按时间进行叠加,生成信号图像,然后将二维离散傅里叶变换(DFT)应用于信号图像,并选择其幅度作为活动图像Fimput;其中,二维离散傅里叶变换的公式如下所示:
步骤15:以重力加速度传感器原始采集数据Sinput、统计量Timput、频率图像Fimput为输入数据,构建基于LSTM-CNN的用户状态识别网络,通过DWConv深度卷积模块提取数据特征,利用最大池化层和下采样层增强模型的鲁棒性并减少过拟合的风险。
3.根据权利要求1所述的一种基于移动终端的多模态低头族危险环境感知与预警方法,其特征在于,所述步骤2具体为:
步骤21:首先,利用基于拉普拉斯金字塔的解码器结构对单目图像进行深度估计,精确地解释编码特征与最终输出之间的关系;输入的彩色图像的拉普拉斯残差为Lk,具体表示为:
Lk=Ik-Up(Ik+1),k=1,2,3,4 (4)
其中,k为拉普拉斯金字塔中的水平指数,Ik是通过对原始输入图像进行下采样得到的,Up表示上采样函数;
第k个金字塔层获得的深度残差为Rk,具体表示为:
Rk=Bk([xk,Lk,UP(Rk+1)])+Lk,k=1,2,3,4 (5)
其中,[xk,Lk,Up(Rk+1)]为串联,Bk由堆叠的卷积块组成;
从拉普拉斯金字塔的最高层开始逐步重建深度图,具体表示为:
Dk=Rk+UP(Dk+1),k=1,2,3,4(6);
步骤22:然后,使用标准的全卷积架构分别在两个独立的流中预测单个图像的预测像素深度和法线贴图;在每个平面上,给定所需的相对姿态,即3D旋转和平移,以及相机的内在参数,可以从其深度和法线计算出一个单应性,对m个不同的平面建模,将输入图像分割成m个区域;使用VGG的前4个卷积模块从输入图像和种子区域掩码中应用反向扭曲过程在新视图中预测m个平面区域掩码,将这些分割掩码和相对姿态结合,产生各自的单应性变换,并根据扭曲的输入图像组合生成新的视图。
4.根据权利要求1所述的一种基于移动终端的多模态低头族危险环境感知与预警方法,其特征在于,所述步骤3具体为:
步骤31:首先,构建pytorch框架下的YOLOv5s 6.0轻量化目标检测网络,该网络由四个模块组成:Input(输入端)模块、Backbone网络(主干网络)模块、Neck网络(颈部网络)模块和Head(预测端)模块;
步骤32:然后,自制stage(楼梯)、wetroad(湿滑路面)、zcrossing(斑马线)、night(夜晚)四类图像数据集,数量分别为2500张、1500张、1500张、1500张,另外还有1000张负样本,对数据集以7:2:1的比例划分为训练集、验证集和测试集;
步骤33:用labelImg工具对四类图像的训练集进行手动标记,接着进行200轮训练生成best.pt模型,并通过验证集和测试集数据检验训练生成的模型效果。
5.根据权利要求4所述的一种基于移动终端的多模态低头族危险环境感知与预警方法,其特征在于,所述Input(输入端)模块包括Mosaic数据增强、自适应锚框计算、图片尺寸处理三部分;输入的图像标准尺寸为640×640×3,经过Mosaic数据增强将数据集中的任意四张图片进行随机缩放、裁剪、排布的方式进行拼接,再通过自适应描框计算,YOLOv5s设定的初始描框为[70,28,74,100,88,213]、[147,67,181,106,189,303]、[261,132,513,281,544,395],网络在训练的时候,根据初始描框来进行输出预测框,然后与真实框groundtruth相比对,根据两者计算的差值进行反向更新,从而反复迭代更新网络参数;
所述Backbone网络(主干网络)模块由1个Fcous结构、5个Conv模块、21个C3模块、1个SPPF模块构成;Focus结构将640×640×3的图像输入,采用切片操作,先变成320×320×12的特征图,再经过3×3的卷积操作,输出通道32,最终变成320×320×32的特征图;Conv模块包括卷积(Conv2d)、Batch Normalization和激活函数(SiLU);C3模块包含了3个标准卷积层以及多个Bottleneck模块;SPPF模块采用多个小尺寸池化核级联代替SPP模块中单个大尺寸池化核;
所述Neck网络(颈部网络)模块由FPN+PAN的网络结构构成,从上到下的FPN结构通过上采样操作来处理信息传递过程,以得到预测的特征图;从下到上的特征金字塔应用在PAN结构中;
所述Head(预测端)模块由4个Conv模块、2个nn.Upsample模块、4个Concat(拼接层)模块、12个C3模块、1个Detect模块构成,其主要负责对骨干网络提取的特征图进行多尺度目标检测。
6.根据权利要求1所述的一种基于移动终端的多模态低头族危险环境感知与预警方法,其特征在于,所述步骤4具体为:
步骤41:首先,确定输入数据的三个特征:用户是否正在运动、用户是否正在玩手机、用户是否处于危险环境,根据这些特征来建立决策树模型;
步骤42:然后,选择“用户是否正在运动”作为决策树的根节点,该特征能够尽可能最好分类手机用户是否处于危险状态;
步骤43:最后,计算“用户是否正在玩手机”、“用户是否处于危险环境”两个特征的Gini系数,确定决策树模型的内部节点和叶子节点;Gini系数的计算公式如下:
其中,pk表示某一类别的发生概率。
7.根据权利要求1所述的一种基于移动终端的多模态低头族危险环境感知与预警方法,其特征在于,所述步骤5具体为:
用户界面分为上、下两个部分;下边实时检测用户的活动状态,并显示手持手机慢行、手机揣兜慢行、手机静放、慢行看手机、上下楼梯看手机、静止看手机六种情况的x、y、z三轴重力加速度传感器检测的实时数据;界面上边实时显示用户所处的环境,同时对用户的危险状态进行判定,当检测到用户在楼梯、斑马线、黑夜、湿滑路面等危险环境中使用手机时,通过字样显示和语音播报的形式向低头族提供预警。
CN202311022203.6A 2023-08-14 2023-08-14 基于移动终端的多模态低头族危险环境感知与预警方法 Pending CN117113231A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311022203.6A CN117113231A (zh) 2023-08-14 2023-08-14 基于移动终端的多模态低头族危险环境感知与预警方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311022203.6A CN117113231A (zh) 2023-08-14 2023-08-14 基于移动终端的多模态低头族危险环境感知与预警方法

Publications (1)

Publication Number Publication Date
CN117113231A true CN117113231A (zh) 2023-11-24

Family

ID=88806724

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311022203.6A Pending CN117113231A (zh) 2023-08-14 2023-08-14 基于移动终端的多模态低头族危险环境感知与预警方法

Country Status (1)

Country Link
CN (1) CN117113231A (zh)

Similar Documents

Publication Publication Date Title
CN109784186B (zh) 一种行人重识别方法、装置、电子设备及计算机可读存储介质
CN107944450B (zh) 一种车牌识别方法及装置
CN106650740B (zh) 一种车牌识别方法及终端
CN105574550A (zh) 一种车辆识别方法及装置
Cheng et al. Smoke detection and trend prediction method based on Deeplabv3+ and generative adversarial network
CN112581409B (zh) 一种基于端到端的多重信息蒸馏网络的图像去雾方法
CN114049356B (zh) 一种结构表观裂缝检测方法、装置及系统
CN115424171A (zh) 火焰和烟雾检测方法、装置和存储介质
CN111091044A (zh) 一种面向网约车的车内危险场景识别方法
CN110188828A (zh) 一种基于虚拟样本集成学习的图像来源鉴别方法
CN112132205A (zh) 一种基于卷积神经网络的遥感图像分类方法
CN114529462A (zh) 一种基于改进YOLO V3-Tiny的毫米波图像目标检测方法及系统
CN116824335A (zh) 一种基于YOLOv5改进算法的火灾预警方法及系统
CN116071315A (zh) 一种基于机器视觉的产品可视缺陷检测方法及系统
CN114662605A (zh) 基于改进的YOLOv5模型的火焰检测方法
CN114359733A (zh) 一种基于视觉的烟雾火情的检测方法及系统
CN111178370B (zh) 车辆检索方法及相关装置
CN112633179A (zh) 基于视频分析的农贸市场过道物体占道检测方法
CN116580326A (zh) 一种航空环境安全风险防控检测及预警系统
CN116704324A (zh) 基于水下图像的目标检测方法、系统、设备以及存储介质
CN117113231A (zh) 基于移动终端的多模态低头族危险环境感知与预警方法
CN111797849A (zh) 用户活动识别方法、装置、存储介质及电子设备
CN113408571B (zh) 一种基于模型蒸馏的图像分类方法、装置、存储介质及终端
CN113011506B (zh) 一种基于深度重分形频谱网络的纹理图像分类方法
CN114005140A (zh) 一种人员识别方法、装置、设备、行人监控系统及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination