CN113688740A - 一种基于多传感器融合视觉的室内姿势检测方法 - Google Patents

一种基于多传感器融合视觉的室内姿势检测方法 Download PDF

Info

Publication number
CN113688740A
CN113688740A CN202110984742.2A CN202110984742A CN113688740A CN 113688740 A CN113688740 A CN 113688740A CN 202110984742 A CN202110984742 A CN 202110984742A CN 113688740 A CN113688740 A CN 113688740A
Authority
CN
China
Prior art keywords
patient
data
network
frame
box
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110984742.2A
Other languages
English (en)
Other versions
CN113688740B (zh
Inventor
张立国
耿星硕
金梅
王磊
章玉鹏
张升
杨红光
薛静芳
李佳庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yanshan University
Original Assignee
Yanshan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yanshan University filed Critical Yanshan University
Priority to CN202110984742.2A priority Critical patent/CN113688740B/zh
Publication of CN113688740A publication Critical patent/CN113688740A/zh
Application granted granted Critical
Publication of CN113688740B publication Critical patent/CN113688740B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及图像处理技术领域,具体涉及一种基于多传感器融合视觉的室内姿势检测方法,包括如下步骤:S1,搭建和训练网络模型;S2,获取实时采集的视频数据和腰带式辅助检测设备的辅助检测参数;S3,将数据输入网络模型获取检测结果,通过卡尔曼滤波器和匈牙利指派算法跟踪患者;S4,将处理之后包含box和检测结果的视频实时同步上传网络中,一旦患者出现跌倒的情况及时发送警报;本发明结合数据融合、监督学习和深度学习方法,对患者的位置、与姿势进行实时跟踪检测和通知,并可短时间内对病人下一个姿势进行预测,实现对病人的跟踪和姿势进行检测。

Description

一种基于多传感器融合视觉的室内姿势检测方法
技术领域
本发明涉及图像处理技术领域,具体涉及一种基于多传感器融合视觉的室内姿势检测方法。
背景技术
患者在病房中因为身体病痛原因或者药物原因,导致行动不便,长期卧躺无力,必要行动容易跌倒。现病房内患者跌倒检测问题,一直是业界忽视的忽视的问题,各医院设置陪床随护家属,并未高效、有针对性的解决此问题。患者由于病痛失去行动能力,病重着一旦跌倒很难凭借自已的能力站起来,如在病房内意外摔倒,陪护人员、医护人员没及时发现处理,很可能导致患者病情加重,后果不堪设想,尤其是对没有随护家属、病重患者是老年人等,此问题不容小视,各个病房时常发生。
在传统的基于视觉的人体跌倒检测方法中存在如下问题:不能区分跌倒后的姿势和躺在床上的姿势;跌倒时和正常动作之间存在交集时,单纯的视觉不能有效的将这些相似的动作识别出来;为解决此问题,本发明设计一种基于多传感器融合视觉的室内姿势检测方法,该设计结合数据融合、机器视觉、监督学习和深度学习方法,对患者的位置、与姿态进行实时跟踪检测和通知,并对短时间内患者下一个姿态进行预测。
发明内容
针对上述的缺陷,本发明通过视觉和多传感器融合的方法,对患者进行检测跟踪,并识别患者的姿势,当患者跌倒时及时发出警告并通知医护人员或护工,保证患者及时获得帮助,同时提高医护人员的工作效率,缓解医护人员短缺的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于多传感器融合视觉的室内姿势检测方法,包括如下步骤:
S1,搭建和训练网络模型;
S2,获取实时采集的视频数据和腰带式辅助检测设备的辅助检测参数;
S3,将数据输入网络模型获取检测结果,通过卡尔曼滤波器和匈牙利指派算法跟踪患者;
S4,将处理之后包含box和检测结果的视频实时同步上传网络中,一旦患者出现跌倒的情况及时发送警报。
本发明技术方案的进一步改进在于:S1中包括如下步骤:
S11,数据集制作:数据集的制作中数据采集分为两部分:一部分是图像的采集,另一部分是腰带式辅助检测装置的数据采集;两部分数据的采集是在同时记录,即在拍照瞬间记录腰带式辅助检测装置的输出值,偏移x,y,z轴的角度和垂直地面的加速度,使用labelImg工具给图片标上标签,并生成xml文件,将腰带式辅助检测装置的输出值,偏离x,y,z的角度和垂直于地面加速度添加到xml文件中,每一张图片一个xml文件,数据集中一共有5个分类:站立、行走、下蹲、躺下和跌倒,数据集中包含光照充足时的RGB图像,和光照昏暗时的红外图像,实时识别和跟踪患者并收集数据;
S12,搭建网络模型;对图像分类和检测,采用DarkNet53作为backbone对图像进行特征提取,使用改进后的特征金字塔结构得到的3个输出特征层,分别对3个输出层进行处理,从而实现多尺寸特征图检测,随着图像卷积计算次数越来越多,网络变得更深,图像的特征会越来越抽象,细节信息丢失就会变多,改进后的特征金字塔添加注意力机制,使用浅层的特征来影响深层的特征层,使得抽象的特征能够更多的注意患者所在的特征层通道上,这样可以使用更多的细节信息来提高检测精度,改进后的特征金字塔结构在特征提取时使用深度可分离卷积,可减少参数个数,提高网络速度;改进后的注意力机制,Input1是浅层特征维度是batch_size,c,h,w,通过卷积、池化、两个全连接层之后生成一个维度为batch_size,2c,1,1的权重向量;Input2是深层特征维度是batch_size,2c,h/2,w/2,会和浅层特征生成的权重向量相乘,每个通道与相应通道的数据相乘,得到新的特征层维度为batch_size,2c,h/2,w/2;网络最终输出3个不同尺度的特征层,每个特征层每个都包括预测边界框的坐标修正参数信息、类别置信度、类别和概率,通过解码计算获得图像的最终的预测结果,预测结果包括检测出的患者的Bounding box坐标、患者的姿势类别和概率,特征金字塔输出的修正参数包括边界框的中心点的坐标和宽高,网络会为每一个框预测4个参数tx、ty、tw、th,如位移是(cx,cy),且对应的先验框的宽和高为Pw、ph,则网络的预测值bx、by、bw、bh为:
bx=σ(tx)+cx (1)
by=σ(ty)+cy (2)
Figure BDA0003230321150000031
Figure BDA0003230321150000032
将特征层中的类别置信度,经过sigmoid函数转换输出,sigmoid函数会将输入x转化到01范围内;后将预测框与真实框的重合程度较高的框的值设为1,将重合程度较低的框的值设为0;sigmoid函数的公式如下:
Figure BDA0003230321150000033
对于腰带式辅助检测装置输出的数据进行分类训练的模型是使用普通的多分类逻辑回归,输入是y=[y1,y2,y3,y4],输出是5个分类,类别是站立、行走、下蹲、躺下和跌倒;
S13,开始训练模型,加载数据集及数据集的处理:对模型的训练,使用公开数据集对图像部分的模型进行整体训练,然后冻结backbone部分之后,使用自己制作的数据集对图像部分的模型中的特征金字塔部分和多分类逻辑回归分类网络进行训练,数据集处理主要是将xml文件中的信息读取出来,并对图片进行标准化和尺寸变换;获取多分类逻辑回归的输出,将多分类逻辑回归的输出作为图像计算损失时的权重,图像识别的网络模型首先会对图像进行识别得出分类,对相似类别不能很好地识别,引进5个辅助参数,多分类逻辑回归模型获得的是5个类别的概率,将概率处理后和图像识别的网络输出的概率进行融合得到最终的预测类别结果,该过程有利于区分相似动作;
S14,计算训练损失,反向传播,更新梯度,获得最优权重:使用的损失函数分别是Bounding box的坐标回归参数和类别的损失函数时使用的是二值交叉熵计算损失,公式如下:
BCELoss=ytlogyp-(1-yt)log(1-logyp) (6)
姿势类别的置信度损失计算公式如下:
Figure BDA0003230321150000041
Loss=ytlog(yp)-(1-yt)log(1-log(yp) (8)
其中,yt表示真实值,yp表示预测值,ylog是多分类逻辑回归的预测概率,ylog作为超参数使用;最终的损失为位置损失Bounding box的损失loss1上述公式6、置信度损失loss2上述公式8、图片识别的类别损失loss3上述公式6和多分类逻辑回归分类损失loss4上述公式6的总和,得如下公式:
Loss=loss1+loss2+loss3+loss4 (9)
通过对该损失反向传播,不断迭代,最终得到一个最优的网络模型的权重;将多分类回归的预测概率ylog进行
Figure BDA0003230321150000042
将小数变成大于1的数值,再和图像识别网络获得的类别相乘可以将相似的动作区分开,再对结果取sigmoid将概率变成小数,最后取概率最大的值。
本发明技术方案的进一步改进在于:S2中,采集视频数据的摄像头设置在可观测整个病房的位置上,保证患者只要在屋内就可以别检测到,腰带式辅助检测装置将获取的数据发送到主机上,在主机上先对视频数据和传感器数据进行匹配,视频数据的每一帧都有对应的传感器数据。
本发明技术方案的进一步改进在于:S3中,将上述S2中,获取的视频数据和腰带检测到的数据分别输入至各自的网络模型中,将多分类逻辑回归模型的输出作为图像模型的输出中类别概率的引入参数,通过上述公式7将两个模型预测的类别输出融合到一起,并获得最大的姿势类别概率。在视频图像第一帧进来时,已检测到的患者初始化并创建跟踪器,并对患者的姿势进行标注,后面帧进来时,先到卡尔曼滤波器中得到由前面帧预测的box和分类结果和协方差预测,求跟踪器所有患者状态预测与本帧检测的box的CIOU,通过匈牙利指派算法得到CIOU最大的唯一匹配的数据关联部分,再去掉匹配值小于iou_threshold的匹配对,用本帧中匹配到的患者检测box去更新卡尔曼跟踪器,计算卡尔曼增益、状态更新和协方差更新,并将状态更新值输出,作为本帧的跟踪box,对于本帧中没有匹配到的患者重新初始化跟踪器,其中,卡尔曼跟踪器联合了历史跟踪记录,调节历史box与本帧box的残差,更好的跟踪患者和预测患者的下一个姿势。
本发明技术方案的进一步改进在于:S4中,通过上述S1至S3数据的处理,将包含患者位置和姿态的视频和腰带的数据同步到网络中,一旦患者出现跌倒,会通过网络发出警报,通知医护人员尽快来救助。
与现有技术相比,本发明提供一种基于多传感器融合视觉的室内姿势检测方法有益效果如下:
1.本发明提供一种基于多传感器融合视觉的室内姿势检测方法,该方法利用数据增强方法,在制作数据集时对目标进行一些遮挡,可有效的减少了模型的过拟合,能有效的对未知环境表现出一定的适应能力,使用注意力机制,进一步提高了检测分类精度,降低了误报率,使用深度可分离卷积减少参数数目提高模型的检测速度。
2.本发明提供一种基于多传感器融合视觉的室内姿势检测方法,该方法通过视觉和多传感器融合的方法,对患者进行检测跟踪,并识别患者的姿势,当患者跌倒时及时发出警告并通知医护人员或护工,保证患者及时获得帮助,同时提高医护人员的工作效率,缓解医护人员短缺。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种基于多传感器融合视觉的室内姿势检测方法流程图。
图2为图1中S1的流程图。
图3为图1的图像识别网络模型示意图。
图4为图1的网络模型中使用的SE注意力机制示意图。
图5为图1的网络模型训练模型示意图。
图6为图1中的坐标轴方向示意图。
具体实施方式
下面将通过具体实施方式对本发明的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图与具体实施方式对本发明做更为详细的说明:
本发明提供一种基于多传感器融合视觉的室内姿势检测方法,通过视觉和多传感器融合的方法对目标进行检测跟踪,并识别目标的姿势,当目标跌倒时及时发出警告并通知医护人员,保证目标及时获得帮助。
如图1所示,基于多传感器融合视觉的室内姿势检测方法,具体实施步骤如下:
S1:搭建和训练网络模型;
S2:获取摄像头的视频数据,获取腰带式辅助检测设备获得辅助检测参数;
S3:将数据作为输入输入进网络模型获取检测结果,并通过卡尔曼滤波器和匈牙利指派算法跟踪目标;
S4:将处理之后包含box和检测结果的视频实时同步至网络上,一旦患者出现跌倒的情况及时发送警报;
通过以上四个步骤就可以完成对患者的姿势检测和跟踪,并将最终结果同步至网络上,一旦目标出现意外跌倒,立即发出警报通知医护人员前来搭救。
本实施例中,基于多传感器融合视觉的室内姿势检测方法,收集数据的设备为:摄像头:可输出RGB图像和红外图像,和腰带式姿势辅助检测装置;摄像头在光照情况良好的情况下输出RGB图像,在光照昏暗时输出红外图像;腰带式辅助检测装置主要是由陀螺仪和加速度传感器构成,还有蓝牙信息通信模块,可以通过蓝牙将数据传送到主机上。腰带式辅助检测装置坐标轴规定是如图5所示,x轴正向是表示人向前运动的方向,y轴正向是表示横向向左运动,z轴正向是表示向上运动方向。陀螺仪可以检测到人体运动偏离规定的坐标方向的角度,加速度传感器可以测量目标各个方向的加速度变化对加速度求和之后取向下(指向地心)的加速度的分量。设计腰带式辅助检测装置使用嵌入式设备选择STM32单片机来进行开发,通过传感器:陀螺仪和加速度传感器分别获得人体的xyz三轴角速度和向下的加速度,对角速度求积分后会得到人体偏离xyz三个坐标轴的角度,最后的输出结果是y=[y1,y2,y3,y4],y1是偏离x轴的角度,y2是偏离y轴的角度,y3是偏离z轴的角度,y4是目标向下的加速度,通过蓝牙模块将输出结果传至电脑上,这个电脑和当前检测的目标的视频获取的摄像头连接。设计的时候,使用软件程序使得视频数据和传感器获得的数据保证在每分钟次数一致,保证每一帧图片都会有一组传感器数据。
如图2所示,为S1中,搭建和训练网络模型,实施的具体步骤包括如下:
S11,数据集制作,数据集的制作中数据采集分为两部分:一部分是图像的采集,另一部分是腰带式辅助检测装置的数据采集。两部分数据的采集是在同时记录,即在拍照瞬间记录腰带式辅助检测装置的输出值——偏移xyz轴的角度和加速度。使用labelImg工具给图片标上标签,并生成xml文件,将腰带式辅助检测装置的输出——偏离xyz的角度和目标的加速度添加到xml文件中,每一张图片一个xml文件。数据及分类一共有5个分类:站立、行走、下蹲、躺下和跌倒。数据集不仅要包含光照充足时的RGB图像,也要包含光照昏暗时的红外图像。这样可以保障在夜晚也可以很好地识别和跟踪目标,保证目标的安全;
S12,对图片的分类和检测使用的网络模型如图3所示,使用DarkNet53作为backbone对图片进行特征提取,使用改进后的特征金字塔结构得到的3个输出特征层,分别对3个输出层进行处理,从而实现多尺寸特征图检测。随着图像卷积计算次数越来越多,网络变得更深,图像的特征会越来越抽象,细节信息丢失就会变多。改进后的特征金字塔添加注意力机制,使用浅层的特征来影响深层的特征层,使得抽象的特征能够更多的注意在目标所在的特征层通道上,这样可以使用更多的细节信息来提高检测精度。改进后的特征金字塔结构在特征提取时使用深度可分离卷积,可以减少参数个数,提高网络速度,注意力机制具体参阅图4,图4是改进后的注意力机制,Input1是浅层特征维度是[batch_size,c,h,w],通过卷积、池化、两个全连接层之后生成一个维度为[batch_size,2c,1,1]的权重向量;Input2是深层特征维度是[batch_size,2c,h/2,w/2],会和浅层特征生成的权重向量相乘(每个通道与相应通道的数据相乘),最终得到为的新的特征层维度为[batch_size,2c,h/2,w/2],网络最终输出有3个不同尺度的特征层,每个特征层都包括预测边界框的坐标修正参数信息、类别置信度、类别和概率,通过解码计算获得图像的最终的预测结果,预测结果包括检测出的目标的Bounding box坐标、目标的姿势类别和概率。特征金字塔输出的修正参数包括边界框的中心点的坐标和宽高,网络会为每一个框预测4个参数:tx、ty、tw、th,如果如图5所示,目标框距离图像左上角的位移是(cx,cy),且对应的先验框的宽和高为pw、ph,则网络的预测值bx、by、bw、bh为:
bx=σ(tx)+cx (1)
by=σ(ty)+cy (2)
Figure BDA0003230321150000091
Figure BDA0003230321150000092
将特征层中的类别置信度,经过sigmoid函数转换输出,sigmoid函数会将输入x转化到01范围内;后将预测框与真实框的重合程度较高的框的值设为1,即这个框是正样本yt=1;将重合程度较低的框的值设为0,这个框是负样本yt=0;sigmoid函数的公式如下:
Figure BDA0003230321150000093
对于腰带式辅助检测装置输出的数据进行分类训练的模型是使用普通的多分类逻辑回归,输入是y=[y1,y2,y3,y4],输出是5分类,类别是站立、行走、下蹲、躺下和跌倒;
S13,开始训练模型,对模型的训练是分为两个步骤,首先使用的公开数据集对图像部分的模型进行整体训练,然后冻结backbone部分之后,使用自己制作的数据集对图像部分的模型中的特征金字塔部分和多分类逻辑回归分类网络进行训练。数据集处理主要是将xml文件中的信息读取出来,并对图片进行标准化和尺寸变换;训练的流程图如图5所示,首先是先获取逻辑回归的输出,将逻辑回归的输出作为图像计算损失时的权重。图像识别的网络模型首先会对图像进行识别得出分类,因为对相似类别不能很好地识别,所以引进5个辅助参数,逻辑回归模型获得的是5个概率,将概率处理后和图像识别的网络输出的概率进行融合得到最终的预测类别结果。这个过程主要是为了区别相似动作。
S14,使用的损失函数分别是Bounding box的坐标回归参数和类别的损失函数时使用的是二值交叉熵计算损失,公式如下:
BCELoss=ytlogyp-(1-yt)log(1-logyp) (6)
姿势类别的置信度损失计算公式如下:
Figure BDA0003230321150000101
Loss=ytlog(yp)-(1-yt)log(1-log(yp) (8)
其中yt表示真实值,yp表示预测值,ylog是多分类回归的预测概率,ylog作为超参数使用。最终的损失为位置损失(Bounding box的损失)loss1(公式(6))、置信度损失loss2(公式(8))、图片识别的类别损失loss3(公式(6))和多分类逻辑回归分类损失loss4(公式(6))的总和,得公式如下:
Loss=loss1+loss2+loss3+loss4 (9)
通过对该损失反向传播,不断迭代,最终得到一个最优的网络模型的权重。
将多分类回归的预测概率ylog进行
Figure BDA0003230321150000102
将小数变成大于1的数值,再和图像识别网络获得的类别相乘可以将相似的动作区分开。再对结果取sigmoid将概率变成小数,最后取概率最大的值。
在S2中,将摄像机放置在可以观测整个病房的位置上,可以保证目标只要在屋内就可以别检测到。腰带式辅助检测装置将获取的数据发送到主机上,在主机上先对视频数据和传感器数据进行匹配,视频数据的每一帧都有对应的传感器数据;
S3中,将S2获取的视频数据和腰带检测到的数据作为输入分别输入进各自的网络模型中,在视频图像第一帧进来时,已检测到的目标初始化并创建跟踪器,并对目标的姿势进行标注,后面帧进来时,先到卡尔曼滤波器中得到由前面帧预测的box和分类结果和协方差预测,求跟踪器所有目标状态预测与本帧检测的box的CIOU,通过匈牙利指派算法得到CIOU最大的唯一匹配(数据关联部分),再去掉匹配值小于iou_threshold的匹配对。用本帧中匹配到的目标检测box去更新卡尔曼跟踪器,计算卡尔曼增益、状态更新和协方差更新,并将状态更新值输出,作为本帧的跟踪box。对于本帧中没有匹配到的目标重新初始化跟踪器。其中,卡尔曼跟踪器联合了历史跟踪记录,调节历史box与本帧box的残差,更好的跟踪目标和预测目标的下一个姿势;
S4中,将包含目标位置和姿态的视频和腰带的数据同步到网络,一旦患者出现跌倒,会通过网络发出警报,通知医护人员前来救助。
以上所述的实施例仅仅是对本发明的优选实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明装置权利要求书确定的保护范围内。

Claims (5)

1.一种基于多传感器融合视觉的室内姿势检测方法,其特征在于,包括如下步骤:
S1,搭建和训练网络模型;
S2,获取实时采集的视频数据和腰带式辅助检测设备的辅助检测参数;
S3,将数据输入网络模型获取检测结果,通过卡尔曼滤波器和匈牙利指派算法跟踪患者;
S4,将处理之后包含box和检测结果的视频实时同步上传网络中,一旦患者出现跌倒的情况及时发送警报。
2.根据权利要求1所述一种基于多传感器融合视觉的室内姿势检测方法,其特征在于:S1中包括如下步骤:
S11,数据集制作:数据集的制作中数据采集分为两部分:一部分是图像的采集,另一部分是腰带式辅助检测装置的数据采集;两部分数据的采集是在同时记录的,即在拍照瞬间记录腰带式辅助检测装置的输出值,偏移x,y,z轴的角度和垂直地面的加速度,使用labelImg工具给图片标上标签,并生成xml文件,将腰带式辅助检测装置的输出值,偏离x,y,z的角度和垂直地面的加速度添加到xml文件中,每一张图片一个xml文件,数据集中一共有5个分类:站立、行走、下蹲、躺下和跌倒,数据集中包含光照充足时的RGB图像,和光照昏暗时的红外图像,这样训练出来的网络模型可以在光照昏暗条件下很好的实时识别和跟踪患者并收集数据;
S12,搭建网络模型;对图像分类和检测,采用DarkNet53作为backbone对图像进行特征提取,使用改进后的特征金字塔结构得到的3个不同尺度的输出特征层,分别对3个输出层进行处理,从而实现多尺寸特征图检测,随着图像卷积计算次数越来越多,网络变得更深,图像的特征会越来越抽象,细节信息丢失就会变多,改进后的特征金字塔添加注意力机制,使用浅层的特征来影响深层的特征层,使得抽象的特征能够更多的注意患者所在的特征层通道上,这样可以使用更多的细节信息来提高检测精度,改进后的特征金字塔结构在特征提取时使用深度可分离卷积,可减少参数个数,提高网络速度;改进后的注意力机制,Input1是浅层特征维度是batcn_size,c,h,w,通过卷积、池化、两个全连接层之后生成一个维度为batcn_size,2c,1,1的权重向量;Input2是深层特征维度是batcn_size,2c,h/2,w/2,会和浅层特征生成的权重向量相乘,每个通道与相应通道的数据相乘,得到新的特征层维度为batcn_size,2c,h/2,w/2;网络最终输出3个不同尺度的特征层,每个特征层都包括预测边界框的坐标修正参数信息、类别置信度、类别和概率,通过解码计算获得图像的最终的预测结果,预测结果包括检测出的患者的Bounding box坐标、患者的姿势类别和概率,特征金字塔输出的修正参数包括边界框的中心点的坐标和宽高,网络会为每一个框预测4个参数tx、ty、tw、th,如果真实框距离图像左上角的位移是cx,cy,且对应的先验框的宽和高为pw、ph,则网络的预测值bx、by、bw、bh为:
bx=σ(tx)+cx (1)
by=σ(ty)+cy (2)
Figure FDA0003230321140000021
Figure FDA0003230321140000022
将特征层中的类别置信度,经过sigmoid函数转换输出,sigmoid函数会将输入x转化到0-1范围内;后将预测框与真实框的重合程度较高的框的值设为1,即这个框是正样本yt=1;将重合程度较低的框的值设为0,这个框是负样本yt=0;sigmoid函数的公式如下:
Figure FDA0003230321140000023
对于腰带式辅助检测装置输出的数据进行分类训练的模型是使用普通的多分类逻辑回归,输入是y=[y1,y2,y3,y4],输出是5分类,类别是站立、行走、下蹲、躺下和跌倒;
S13,开始训练模型,加载数据集及数据集的处理:对模型的训练,使用公开数据集对图像部分的模型进行整体训练,然后冻结backbone部分之后,使用自己制作的数据集对图像部分的模型中的特征金字塔部分和多分类逻辑回归分类网络进行训练,数据集处理主要是将xml文件中的信息读取出来,并对图片进行标准化和尺寸变换;获取多分类逻辑回归的输出,将多分类逻辑回归的输出作为图像计算损失时的权重,图像识别的网络模型首先会对图像进行识别得出分类,由于对相似类别不能很好地识别,引进逻辑回归的输出作为5个辅助参数,多分类逻辑回归模型获得的是5个类别的概率,将概率处理后和图像识别的网络输出的概率进行融合得到最终的预测类别结果,该过程有利于识别相似动作;
S14,计算训练损失,反向传播,更新梯度,获得最优权重:使用的损失函数分别是Bounding box的坐标回归参数和类别的损失函数时使用的是二值交叉熵计算损失,公式如下:
BCELoss=ytlogyp-(1-yt)log(1-logyp) (6)
姿势类别的置信度损失计算公式如下:
Figure FDA0003230321140000031
Loss=ytlog(yp)-(1-yt)log(1-log(yp) (8)
其中,yt表示真实值,yp表示预测值,ylog是逻辑回归输出的预测概率,ylog作为超参数使用;最终的损失为位置损失Bounding box的损失loss1上述公式6、置信度损失loss2上述公式8、图片识别的类别损失loss3上述公式6和多分类逻辑回归分类损失loss4上述公式6的总和,得如下公式:
Loss=loss1+loss2+loss3+loss4 (9)通过对该损失反向传播,不断迭代,最终得到一个最优的网络模型的权重;将逻辑回归的预测概率ylog进行
Figure FDA0003230321140000041
将小数变成大于1的数值,再和图像识别网络获得的类别相乘可以将相似的动作区分开,再对结果取sigmoid将概率变成小数,最后取概率最大的值。
3.根据权利要求1所述一种基于多传感器融合视觉的室内姿势检测方法,其特征在于:S2中,采集视频数据的摄像头设置在可观测整个病房的位置上,保证患者只要在屋内就可以别检测到,腰带式辅助检测装置将获取的数据发送到主机上,在主机上先对视频数据和传感器数据进行匹配,视频数据的每一帧都有对应的传感器数据。
4.根据权利要求1所述一种基于多传感器融合视觉的室内姿势检测方法,其特征在于:S3中,将上述S2中,获取的视频数据和腰带检测到的数据分别输入至各自的网络模型中,在视频图像第一帧进来时,已检测到的患者初始化并创建跟踪器,并对患者的姿势进行标注,后面帧进来时,先到卡尔曼滤波器中得到由前面帧预测的box和分类结果和协方差预测,求跟踪器所有患者状态预测与本帧检测的box的CIOU,通过匈牙利指派算法得到CIOU最大的唯一匹配的数据关联部分,再去掉匹配值小于iou_threshold的匹配对,用本帧中匹配到的患者检测box去更新卡尔曼跟踪器,计算卡尔曼增益、状态更新和协方差更新,并将状态更新值输出,作为本帧的跟踪box,对于本帧中没有匹配到的患者重新初始化跟踪器,其中,卡尔曼跟踪器联合了历史跟踪记录,调节历史box与本帧box的残差,更好的跟踪患者和预测患者的下一个姿势。
5.根据权利要求1所述一种基于多传感器融合视觉的室内姿势检测方法,其特征在于:S4中,通过上述S1至S3数据的处理,将包含患者位置和姿态的视频和腰带的数据同步到网络中,一旦患者出现跌倒,会通过网络发出警报,通知医护人员尽快开进行救助。
CN202110984742.2A 2021-08-26 2021-08-26 一种基于多传感器融合视觉的室内姿势检测方法 Active CN113688740B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110984742.2A CN113688740B (zh) 2021-08-26 2021-08-26 一种基于多传感器融合视觉的室内姿势检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110984742.2A CN113688740B (zh) 2021-08-26 2021-08-26 一种基于多传感器融合视觉的室内姿势检测方法

Publications (2)

Publication Number Publication Date
CN113688740A true CN113688740A (zh) 2021-11-23
CN113688740B CN113688740B (zh) 2024-02-27

Family

ID=78582757

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110984742.2A Active CN113688740B (zh) 2021-08-26 2021-08-26 一种基于多传感器融合视觉的室内姿势检测方法

Country Status (1)

Country Link
CN (1) CN113688740B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116013548A (zh) * 2022-12-08 2023-04-25 广州视声健康科技有限公司 基于计算机视觉的智慧病房监测方法和装置
CN116469040A (zh) * 2023-06-12 2023-07-21 南昌大学 一种基于视频和传感器感知融合的橄榄球员跟踪方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109472226A (zh) * 2018-10-29 2019-03-15 上海交通大学 一种基于深度学习的睡觉行为检测方法
US20200211154A1 (en) * 2018-12-30 2020-07-02 Altumview Systems Inc. Method and system for privacy-preserving fall detection
WO2020155873A1 (zh) * 2019-02-02 2020-08-06 福州大学 一种基于深度表观特征和自适应聚合网络的多人脸跟踪方法
WO2020181685A1 (zh) * 2019-03-12 2020-09-17 南京邮电大学 一种基于深度学习的车载视频目标检测方法
WO2021114766A1 (zh) * 2019-12-09 2021-06-17 深圳市鸿逸达科技有限公司 一种基于深度数据的人员行为模式分析方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109472226A (zh) * 2018-10-29 2019-03-15 上海交通大学 一种基于深度学习的睡觉行为检测方法
US20200211154A1 (en) * 2018-12-30 2020-07-02 Altumview Systems Inc. Method and system for privacy-preserving fall detection
WO2020155873A1 (zh) * 2019-02-02 2020-08-06 福州大学 一种基于深度表观特征和自适应聚合网络的多人脸跟踪方法
WO2020181685A1 (zh) * 2019-03-12 2020-09-17 南京邮电大学 一种基于深度学习的车载视频目标检测方法
WO2021114766A1 (zh) * 2019-12-09 2021-06-17 深圳市鸿逸达科技有限公司 一种基于深度数据的人员行为模式分析方法和系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116013548A (zh) * 2022-12-08 2023-04-25 广州视声健康科技有限公司 基于计算机视觉的智慧病房监测方法和装置
CN116013548B (zh) * 2022-12-08 2024-04-09 广州视声健康科技有限公司 基于计算机视觉的智慧病房监测方法和装置
CN116469040A (zh) * 2023-06-12 2023-07-21 南昌大学 一种基于视频和传感器感知融合的橄榄球员跟踪方法
CN116469040B (zh) * 2023-06-12 2023-08-29 南昌大学 一种基于视频和传感器感知融合的橄榄球员跟踪方法

Also Published As

Publication number Publication date
CN113688740B (zh) 2024-02-27

Similar Documents

Publication Publication Date Title
Dhiman et al. A review of state-of-the-art techniques for abnormal human activity recognition
Gupta et al. A survey on human activity recognition and classification
Shojaei-Hashemi et al. Video-based human fall detection in smart homes using deep learning
Yadav et al. ARFDNet: An efficient activity recognition & fall detection system using latent feature pooling
TWI362632B (zh)
Abobakr et al. Rgb-d fall detection via deep residual convolutional lstm networks
Akhund et al. IoT based low-cost robotic agent design for disabled and Covid-19 virus affected people
CN111507176B (zh) 姿势估计装置、行动估计装置、记录介质、姿势估计方法
CN110666791B (zh) 一种基于深度学习的rgbd机器人看护系统及方法
CN113688740B (zh) 一种基于多传感器融合视觉的室内姿势检测方法
Seredin et al. A skeleton features-based fall detection using Microsoft Kinect v2 with one class-classifier outlier removal
Liu et al. An analysis of segmentation approaches and window sizes in wearable-based critical fall detection systems with machine learning models
Jansi et al. Detection of fall for the elderly in an indoor environment using a tri-axial accelerometer and Kinect depth data
Divya et al. Smart healthcare system-a brain-like computing approach for analyzing the performance of detectron2 and PoseNet models for anomalous action detection in aged people with movement impairments
Kepski et al. Event‐driven system for fall detection using body‐worn accelerometer and depth sensor
CN114469076A (zh) 一种融合身份特征的独居老人跌倒识别方法及系统
Seredin et al. The study of skeleton description reduction in the human fall-detection task
CN113229807A (zh) 人体康复评估装置、方法、电子设备及存储介质
CN115346272A (zh) 基于深度图像序列的实时摔倒检测方法
Liu et al. Automatic fall risk detection based on imbalanced data
Bandini et al. A wearable vision-based system for detecting hand-object interactions in individuals with cervical spinal cord injury: First results in the home environment
Uslu et al. Human activity monitoring with wearable sensors and hybrid classifiers
CN115019220A (zh) 一种基于深度学习的姿态追踪方法及系统
Zhu et al. Realtime human daily activity recognition through fusion of motion and location data
CN114373142A (zh) 基于深度学习的行人跌倒检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant