CN113688740B

CN113688740B - 一种基于多传感器融合视觉的室内姿势检测方法

Info

Publication number: CN113688740B
Application number: CN202110984742.2A
Authority: CN
Inventors: 张立国; 耿星硕; 金梅; 王磊; 章玉鹏; 张升; 杨红光; 薛静芳; 李佳庆
Original assignee: Yanshan University
Current assignee: Yanshan University
Priority date: 2021-08-26
Filing date: 2021-08-26
Publication date: 2024-02-27
Anticipated expiration: 2041-08-26
Also published as: CN113688740A

Abstract

本发明涉及图像处理技术领域，具体涉及一种基于多传感器融合视觉的室内姿势检测方法，包括如下步骤：S1，搭建和训练网络模型；S2，获取实时采集的视频数据和腰带式辅助检测设备的辅助检测参数；S3，将数据输入网络模型获取检测结果，通过卡尔曼滤波器和匈牙利指派算法跟踪患者；S4，将处理之后包含box和检测结果的视频实时同步上传网络中，一旦患者出现跌倒的情况及时发送警报；本发明结合数据融合、监督学习和深度学习方法，对患者的位置、与姿势进行实时跟踪检测和通知，并可短时间内对病人下一个姿势进行预测，实现对病人的跟踪和姿势进行检测。

Description

一种基于多传感器融合视觉的室内姿势检测方法

技术领域

本发明涉及图像处理技术领域，具体涉及一种基于多传感器融合视觉的室内姿势检测方法。

背景技术

患者在病房中因为身体病痛原因或者药物原因，导致行动不便，长期卧躺无力，必要行动容易跌倒。现病房内患者跌倒检测问题，一直是业界忽视的忽视的问题，各医院设置陪床随护家属，并未高效、有针对性的解决此问题。患者由于病痛失去行动能力，病重着一旦跌倒很难凭借自已的能力站起来，如在病房内意外摔倒，陪护人员、医护人员没及时发现处理，很可能导致患者病情加重，后果不堪设想，尤其是对没有随护家属、病重患者是老年人等，此问题不容小视，各个病房时常发生。

在传统的基于视觉的人体跌倒检测方法中存在如下问题：不能区分跌倒后的姿势和躺在床上的姿势；跌倒时和正常动作之间存在交集时，单纯的视觉不能有效的将这些相似的动作识别出来；为解决此问题，本发明设计一种基于多传感器融合视觉的室内姿势检测方法，该设计结合数据融合、机器视觉、监督学习和深度学习方法，对患者的位置、与姿态进行实时跟踪检测和通知，并对短时间内患者下一个姿态进行预测。

发明内容

针对上述的缺陷，本发明通过视觉和多传感器融合的方法，对患者进行检测跟踪，并识别患者的姿势，当患者跌倒时及时发出警告并通知医护人员或护工，保证患者及时获得帮助，同时提高医护人员的工作效率，缓解医护人员短缺的问题。

为实现上述目的，本发明提供如下技术方案：

一种基于多传感器融合视觉的室内姿势检测方法，包括如下步骤：

S1，搭建和训练网络模型；

S2，获取实时采集的视频数据和腰带式辅助检测设备的辅助检测参数；

S3，将数据输入网络模型获取检测结果，通过卡尔曼滤波器和匈牙利指派算法跟踪患者；

S4，将处理之后包含box和检测结果的视频实时同步上传网络中，一旦患者出现跌倒的情况及时发送警报。

本发明技术方案的进一步改进在于：S1中包括如下步骤：

S11，数据集制作：数据集的制作中数据采集分为两部分：一部分是图像的采集，另一部分是腰带式辅助检测装置的数据采集；两部分数据的采集是在同时记录，即在拍照瞬间记录腰带式辅助检测装置的输出值，偏移x，y，z轴的角度和垂直地面的加速度，使用labelImg工具给图片标上标签，并生成xml文件，将腰带式辅助检测装置的输出值，偏离x，y，z的角度和垂直于地面加速度添加到xml文件中，每一张图片一个xml文件，数据集中一共有5个分类：站立、行走、下蹲、躺下和跌倒，数据集中包含光照充足时的RGB图像，和光照昏暗时的红外图像，实时识别和跟踪患者并收集数据；

S12，搭建网络模型；对图像分类和检测，采用DarkNet53作为backbone对图像进行特征提取，使用改进后的特征金字塔结构得到的3个输出特征层，分别对3个输出层进行处理，从而实现多尺寸特征图检测，随着图像卷积计算次数越来越多，网络变得更深，图像的特征会越来越抽象，细节信息丢失就会变多，改进后的特征金字塔添加注意力机制，使用浅层的特征来影响深层的特征层，使得抽象的特征能够更多的注意患者所在的特征层通道上，这样可以使用更多的细节信息来提高检测精度，改进后的特征金字塔结构在特征提取时使用深度可分离卷积，可减少参数个数，提高网络速度；改进后的注意力机制，Input1是浅层特征维度是batch_size，c，h，w，通过卷积、池化、两个全连接层之后生成一个维度为batch_size，2c，1，1的权重向量；Input2是深层特征维度是batch_size，2c，h/2，w/2，会和浅层特征生成的权重向量相乘，每个通道与相应通道的数据相乘，得到新的特征层维度为batch_size，2c，h/2，w/2；网络最终输出3个不同尺度的特征层，每个特征层每个都包括预测边界框的坐标修正参数信息、类别置信度、类别和概率，通过解码计算获得图像的最终的预测结果，预测结果包括检测出的患者的Bounding box坐标、患者的姿势类别和概率，特征金字塔输出的修正参数包括边界框的中心点的坐标和宽高，网络会为每一个框预测4个参数t_x、t_y、t_w、t_h，如位移是(c_x，c_y)，且对应的先验框的宽和高为P_w、p_h，则网络的预测值b_x、b_y、b_w、b_h为：

b_x＝σ(t_x)+c_x (1)

b_y＝σ(t_y)+c_y (2)

将特征层中的类别置信度，经过sigmoid函数转换输出，sigmoid函数会将输入x转化到01范围内；后将预测框与真实框的重合程度较高的框的值设为1，将重合程度较低的框的值设为0；sigmoid函数的公式如下：

对于腰带式辅助检测装置输出的数据进行分类训练的模型是使用普通的多分类逻辑回归，输入是y＝[y1，y2，y3，y4]，输出是5个分类，类别是站立、行走、下蹲、躺下和跌倒；

S13，开始训练模型，加载数据集及数据集的处理：对模型的训练，使用公开数据集对图像部分的模型进行整体训练，然后冻结backbone部分之后，使用自己制作的数据集对图像部分的模型中的特征金字塔部分和多分类逻辑回归分类网络进行训练，数据集处理主要是将xml文件中的信息读取出来，并对图片进行标准化和尺寸变换；获取多分类逻辑回归的输出，将多分类逻辑回归的输出作为图像计算损失时的权重，图像识别的网络模型首先会对图像进行识别得出分类，对相似类别不能很好地识别，引进5个辅助参数，多分类逻辑回归模型获得的是5个类别的概率，将概率处理后和图像识别的网络输出的概率进行融合得到最终的预测类别结果，该过程有利于区分相似动作；

S14，计算训练损失，反向传播，更新梯度，获得最优权重：使用的损失函数分别是Bounding box的坐标回归参数和类别的损失函数时使用的是二值交叉熵计算损失，公式如下：

BCELoss＝y_tlogy_p-(1-y_t)log(1-logy_p) (6)

姿势类别的置信度损失计算公式如下：

Loss＝y_tlog(y_p)-(1-y_t)log(1-log(y_p) (8)

其中，y_t表示真实值，y_p表示预测值，y_log是多分类逻辑回归的预测概率，y_log作为超参数使用；最终的损失为位置损失Bounding box的损失loss1上述公式6、置信度损失loss2上述公式8、图片识别的类别损失loss3上述公式6和多分类逻辑回归分类损失loss4上述公式6的总和，得如下公式：

Loss＝loss1+loss2+loss3+loss4 (9)

通过对该损失反向传播，不断迭代，最终得到一个最优的网络模型的权重；将多分类回归的预测概率y_log进行将小数变成大于1的数值，再和图像识别网络获得的类别相乘可以将相似的动作区分开，再对结果取sigmoid将概率变成小数，最后取概率最大的值。

本发明技术方案的进一步改进在于：S2中，采集视频数据的摄像头设置在可观测整个病房的位置上，保证患者只要在屋内就可以别检测到，腰带式辅助检测装置将获取的数据发送到主机上，在主机上先对视频数据和传感器数据进行匹配，视频数据的每一帧都有对应的传感器数据。

本发明技术方案的进一步改进在于：S3中，将上述S2中，获取的视频数据和腰带检测到的数据分别输入至各自的网络模型中，将多分类逻辑回归模型的输出作为图像模型的输出中类别概率的引入参数，通过上述公式7将两个模型预测的类别输出融合到一起，并获得最大的姿势类别概率。在视频图像第一帧进来时，已检测到的患者初始化并创建跟踪器，并对患者的姿势进行标注，后面帧进来时，先到卡尔曼滤波器中得到由前面帧预测的box和分类结果和协方差预测，求跟踪器所有患者状态预测与本帧检测的box的CIOU，通过匈牙利指派算法得到CIOU最大的唯一匹配的数据关联部分，再去掉匹配值小于iou_threshold的匹配对，用本帧中匹配到的患者检测box去更新卡尔曼跟踪器，计算卡尔曼增益、状态更新和协方差更新，并将状态更新值输出，作为本帧的跟踪box，对于本帧中没有匹配到的患者重新初始化跟踪器，其中，卡尔曼跟踪器联合了历史跟踪记录，调节历史box与本帧box的残差，更好的跟踪患者和预测患者的下一个姿势。

本发明技术方案的进一步改进在于：S4中，通过上述S1至S3数据的处理，将包含患者位置和姿态的视频和腰带的数据同步到网络中，一旦患者出现跌倒，会通过网络发出警报，通知医护人员尽快来救助。

与现有技术相比，本发明提供一种基于多传感器融合视觉的室内姿势检测方法有益效果如下：

1.本发明提供一种基于多传感器融合视觉的室内姿势检测方法，该方法利用数据增强方法，在制作数据集时对目标进行一些遮挡，可有效的减少了模型的过拟合，能有效的对未知环境表现出一定的适应能力，使用注意力机制，进一步提高了检测分类精度，降低了误报率，使用深度可分离卷积减少参数数目提高模型的检测速度。

2.本发明提供一种基于多传感器融合视觉的室内姿势检测方法，该方法通过视觉和多传感器融合的方法，对患者进行检测跟踪，并识别患者的姿势，当患者跌倒时及时发出警告并通知医护人员或护工，保证患者及时获得帮助，同时提高医护人员的工作效率，缓解医护人员短缺。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种基于多传感器融合视觉的室内姿势检测方法流程图。

图2为图1中S1的流程图。

图3为图1的图像识别网络模型示意图。

图4为图1的网络模型中使用的SE注意力机制示意图。

图5为图1的网络模型训练模型示意图。

图6为图1中的坐标轴方向示意图。

具体实施方式

下面将通过具体实施方式对本发明的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图与具体实施方式对本发明做更为详细的说明：

本发明提供一种基于多传感器融合视觉的室内姿势检测方法，通过视觉和多传感器融合的方法对目标进行检测跟踪，并识别目标的姿势，当目标跌倒时及时发出警告并通知医护人员，保证目标及时获得帮助。

如图1所示，基于多传感器融合视觉的室内姿势检测方法，具体实施步骤如下：

S1：搭建和训练网络模型；

S2：获取摄像头的视频数据，获取腰带式辅助检测设备获得辅助检测参数；

S3：将数据作为输入输入进网络模型获取检测结果，并通过卡尔曼滤波器和匈牙利指派算法跟踪目标；

S4：将处理之后包含box和检测结果的视频实时同步至网络上，一旦患者出现跌倒的情况及时发送警报；

通过以上四个步骤就可以完成对患者的姿势检测和跟踪，并将最终结果同步至网络上，一旦目标出现意外跌倒，立即发出警报通知医护人员前来搭救。

本实施例中，基于多传感器融合视觉的室内姿势检测方法，收集数据的设备为：摄像头：可输出RGB图像和红外图像，和腰带式姿势辅助检测装置；摄像头在光照情况良好的情况下输出RGB图像，在光照昏暗时输出红外图像；腰带式辅助检测装置主要是由陀螺仪和加速度传感器构成，还有蓝牙信息通信模块，可以通过蓝牙将数据传送到主机上。腰带式辅助检测装置坐标轴规定是如图5所示，x轴正向是表示人向前运动的方向，y轴正向是表示横向向左运动，z轴正向是表示向上运动方向。陀螺仪可以检测到人体运动偏离规定的坐标方向的角度，加速度传感器可以测量目标各个方向的加速度变化对加速度求和之后取向下(指向地心)的加速度的分量。设计腰带式辅助检测装置使用嵌入式设备选择STM32单片机来进行开发，通过传感器：陀螺仪和加速度传感器分别获得人体的xyz三轴角速度和向下的加速度，对角速度求积分后会得到人体偏离xyz三个坐标轴的角度，最后的输出结果是y＝[y1，y2，y3，y4]，y1是偏离x轴的角度，y2是偏离y轴的角度，y3是偏离z轴的角度，y4是目标向下的加速度，通过蓝牙模块将输出结果传至电脑上，这个电脑和当前检测的目标的视频获取的摄像头连接。设计的时候，使用软件程序使得视频数据和传感器获得的数据保证在每分钟次数一致，保证每一帧图片都会有一组传感器数据。

如图2所示，为S1中，搭建和训练网络模型，实施的具体步骤包括如下：

S11，数据集制作，数据集的制作中数据采集分为两部分：一部分是图像的采集，另一部分是腰带式辅助检测装置的数据采集。两部分数据的采集是在同时记录，即在拍照瞬间记录腰带式辅助检测装置的输出值——偏移xyz轴的角度和加速度。使用labelImg工具给图片标上标签，并生成xml文件，将腰带式辅助检测装置的输出——偏离xyz的角度和目标的加速度添加到xml文件中，每一张图片一个xml文件。数据及分类一共有5个分类：站立、行走、下蹲、躺下和跌倒。数据集不仅要包含光照充足时的RGB图像，也要包含光照昏暗时的红外图像。这样可以保障在夜晚也可以很好地识别和跟踪目标，保证目标的安全；

S12，对图片的分类和检测使用的网络模型如图3所示，使用DarkNet53作为backbone对图片进行特征提取，使用改进后的特征金字塔结构得到的3个输出特征层，分别对3个输出层进行处理，从而实现多尺寸特征图检测。随着图像卷积计算次数越来越多，网络变得更深，图像的特征会越来越抽象，细节信息丢失就会变多。改进后的特征金字塔添加注意力机制，使用浅层的特征来影响深层的特征层，使得抽象的特征能够更多的注意在目标所在的特征层通道上，这样可以使用更多的细节信息来提高检测精度。改进后的特征金字塔结构在特征提取时使用深度可分离卷积，可以减少参数个数，提高网络速度，注意力机制具体参阅图4，图4是改进后的注意力机制，Input1是浅层特征维度是[batch_size，c，h，w]，通过卷积、池化、两个全连接层之后生成一个维度为[batch_size，2c，1，1]的权重向量；Input2是深层特征维度是[batch_size，2c，h/2，w/2]，会和浅层特征生成的权重向量相乘(每个通道与相应通道的数据相乘)，最终得到为的新的特征层维度为[batch_size，2c，h/2，w/2]，网络最终输出有3个不同尺度的特征层，每个特征层都包括预测边界框的坐标修正参数信息、类别置信度、类别和概率，通过解码计算获得图像的最终的预测结果，预测结果包括检测出的目标的Bounding box坐标、目标的姿势类别和概率。特征金字塔输出的修正参数包括边界框的中心点的坐标和宽高，网络会为每一个框预测4个参数：t_x、t_y、t_w、t_h，如果如图5所示，目标框距离图像左上角的位移是(c_x，c_y)，且对应的先验框的宽和高为p_w、p_h，则网络的预测值b_x、b_y、b_w、b_h为：

b_x＝σ(t_x)+c_x (1)

b_y＝σ(t_y)+c_y (2)

将特征层中的类别置信度，经过sigmoid函数转换输出，sigmoid函数会将输入x转化到01范围内；后将预测框与真实框的重合程度较高的框的值设为1，即这个框是正样本y_t＝1；将重合程度较低的框的值设为0，这个框是负样本y_t＝0；sigmoid函数的公式如下：

对于腰带式辅助检测装置输出的数据进行分类训练的模型是使用普通的多分类逻辑回归，输入是y＝[y1，y2，y3，y4]，输出是5分类，类别是站立、行走、下蹲、躺下和跌倒；

S13，开始训练模型，对模型的训练是分为两个步骤，首先使用的公开数据集对图像部分的模型进行整体训练，然后冻结backbone部分之后，使用自己制作的数据集对图像部分的模型中的特征金字塔部分和多分类逻辑回归分类网络进行训练。数据集处理主要是将xml文件中的信息读取出来，并对图片进行标准化和尺寸变换；训练的流程图如图5所示，首先是先获取逻辑回归的输出，将逻辑回归的输出作为图像计算损失时的权重。图像识别的网络模型首先会对图像进行识别得出分类，因为对相似类别不能很好地识别，所以引进5个辅助参数，逻辑回归模型获得的是5个概率，将概率处理后和图像识别的网络输出的概率进行融合得到最终的预测类别结果。这个过程主要是为了区别相似动作。

S14，使用的损失函数分别是Bounding box的坐标回归参数和类别的损失函数时使用的是二值交叉熵计算损失，公式如下：

BCELoss＝y_tlogy_p-(1-y_t)log(1-logy_p) (6)

姿势类别的置信度损失计算公式如下：

Loss＝y_tlog(y_p)-(1-y_t)log(1-log(y_p) (8)

其中y_t表示真实值，y_p表示预测值，y_log是多分类回归的预测概率，y_log作为超参数使用。最终的损失为位置损失(Bounding box的损失)loss1(公式(6))、置信度损失loss2(公式(8))、图片识别的类别损失loss3(公式(6))和多分类逻辑回归分类损失loss4(公式(6))的总和，得公式如下：

Loss＝loss1+loss2+loss3+loss4 (9)

通过对该损失反向传播，不断迭代，最终得到一个最优的网络模型的权重。

将多分类回归的预测概率y_log进行将小数变成大于1的数值，再和图像识别网络获得的类别相乘可以将相似的动作区分开。再对结果取sigmoid将概率变成小数，最后取概率最大的值。

在S2中，将摄像机放置在可以观测整个病房的位置上，可以保证目标只要在屋内就可以别检测到。腰带式辅助检测装置将获取的数据发送到主机上，在主机上先对视频数据和传感器数据进行匹配，视频数据的每一帧都有对应的传感器数据；

S3中，将S2获取的视频数据和腰带检测到的数据作为输入分别输入进各自的网络模型中，在视频图像第一帧进来时，已检测到的目标初始化并创建跟踪器，并对目标的姿势进行标注，后面帧进来时，先到卡尔曼滤波器中得到由前面帧预测的box和分类结果和协方差预测，求跟踪器所有目标状态预测与本帧检测的box的CIOU，通过匈牙利指派算法得到CIOU最大的唯一匹配(数据关联部分)，再去掉匹配值小于iou_threshold的匹配对。用本帧中匹配到的目标检测box去更新卡尔曼跟踪器，计算卡尔曼增益、状态更新和协方差更新，并将状态更新值输出，作为本帧的跟踪box。对于本帧中没有匹配到的目标重新初始化跟踪器。其中，卡尔曼跟踪器联合了历史跟踪记录，调节历史box与本帧box的残差，更好的跟踪目标和预测目标的下一个姿势；

S4中，将包含目标位置和姿态的视频和腰带的数据同步到网络，一旦患者出现跌倒，会通过网络发出警报，通知医护人员前来救助。

以上所述的实施例仅仅是对本发明的优选实施方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明装置权利要求书确定的保护范围内。

Claims

1.一种基于多传感器融合视觉的室内姿势检测方法，其特征在于，包括如下步骤：

S1，搭建和训练网络模型；

S1中包括如下步骤：

S11，数据集制作：数据集的制作中数据采集分为两部分：一部分是图像的采集，另一部分是腰带式辅助检测装置的数据采集；两部分数据的采集是在同时记录的，即在拍照瞬间记录腰带式辅助检测装置的输出值，偏移x，y，z轴的角度和垂直地面的加速度，使用labelImg工具给图片标上标签，并生成xml文件，将腰带式辅助检测装置的输出值，偏离x，y，z的角度和垂直地面的加速度添加到xml文件中，每一张图片一个xml文件，数据集中一共有5个分类：站立、行走、下蹲、躺下和跌倒，数据集中包含光照充足时的RGB图像，和光照昏暗时的红外图像，这样训练出来的网络模型在光照昏暗条件下很好的实时识别和跟踪患者并收集数据；

S12，搭建网络模型；对图像分类和检测，采用DarkNet53作为backbone对图像进行特征提取，使用改进后的特征金字塔结构得到的3个不同尺度的输出特征层，分别对3个输出层进行处理，从而实现多尺寸特征图检测，随着图像卷积计算次数越来越多，网络变得更深，图像的特征会越来越抽象，细节信息丢失就会变多，改进后的特征金字塔添加注意力机制，使用浅层的特征来影响深层的特征层，使得抽象的特征能够更多的注意患者所在的特征层通道上，这样使用更多的细节信息来提高检测精度，改进后的特征金字塔结构在特征提取时使用深度可分离卷积，可减少参数个数，提高网络速度；改进后的注意力机制，Input1是浅层特征维度是batch_size,c,h,w，通过卷积、池化、两个全连接层之后生成一个维度为batch_size,2c,1,1的权重向量；Input2是深层特征维度是batch_size,2c,h/2,w/2，会和浅层特征生成的权重向量相乘，每个通道与相应通道的数据相乘，得到新的特征层维度为batch_size,2c,h/2,w/2；网络最终输出3个不同尺度的特征层，每个特征层都包括预测边界框的坐标修正参数信息、类别置信度、类别和概率，通过解码计算获得图像的最终的预测结果，预测结果包括检测出的患者的Bounding box坐标、患者的姿势类别和概率，特征金字塔输出的修正参数包括边界框的中心点的坐标和宽高，网络会为每一个框预测4个参数t_x、t_y、t_w、t_h，如果真实框距离图像左上角的位移是c_x，c_y，且对应的先验框的宽和高为p_w、p_h，则网络的预测值b_x、b_y、b_w、b_h为：

b_x＝σ(t_x)+c_x (1)

b_y＝σ(t_y)+c_y (2)

将特征层中的类别置信度，经过sigmoid函数转换输出，sigmoid函数会将输入x转化到0-1范围内；后将预测框与真实框的重合程度较高的框的值设为1，即这个框是正样本y_t＝1；将重合程度较低的框的值设为0，这个框是负样本y_t＝0；sigmoid函数的公式如下：

对于腰带式辅助检测装置输出的数据进行分类训练的模型是使用普通的多分类逻辑回归，输入是y＝[y1,y2,y3,y4]，输出是5分类，类别是站立、行走、下蹲、躺下和跌倒；

S13，开始训练模型，加载数据集及数据集的处理：对模型的训练，使用公开数据集对图像部分的模型进行整体训练，然后冻结backbone部分之后，使用自己制作的数据集对图像部分的模型中的特征金字塔部分和多分类逻辑回归分类网络进行训练，数据集处理是将xml文件中的信息读取出来，并对图片进行标准化和尺寸变换；获取多分类逻辑回归的输出，将多分类逻辑回归的输出作为图像计算损失时的权重，图像识别的网络模型首先会对图像进行识别得出分类，由于对相似类别不能很好地识别，引进逻辑回归的输出作为5个辅助参数，多分类逻辑回归模型获得的是5个类别的概率，将概率处理后和图像识别的网络输出的概率进行融合得到最终的预测类别结果，该过程有利于识别相似动作；

S14，计算训练损失，反向传播，更新梯度，获得最优权重:使用的损失函数分别是Bounding box的坐标回归参数和类别的损失函数时使用的是二值交叉熵计算损失，公式如下：

BCELoss＝y_tlogy_p-(1-y_t)log(1-logy_p) (6)

姿势类别的置信度损失计算公式如下：

Loss＝y_tlog(y_p)-(1-y_t)log(1-log(y_p) (8)

其中,y_t表示真实值，y_p表示预测值，y_log是逻辑回归输出的预测概率，y_log作为超参数使用；最终的损失为位置损失Bounding box的损失loss1上述公式6、置信度损失loss2上述公式8、图片识别的类别损失loss3上述公式6和多分类逻辑回归分类损失loss4上述公式6的总和，得如下公式：

Loss＝loss1+loss2+loss3+loss4 (9)

通过对该损失反向传播，不断迭代，最终得到一个最优的网络模型的权重；将逻辑回归的预测概率y_log进行将小数变成大于1的数值，再和图像识别网络获得的类别相乘将相似的动作区分开，再对结果取sigmoid将概率变成小数，最后取概率最大的值；S2，获取实时采集的视频数据和腰带式辅助检测设备的辅助检测参数；

2.根据权利要求1所述一种基于多传感器融合视觉的室内姿势检测方法，其特征在于：S2中，采集视频数据的摄像头设置在可观测整个病房的位置上，保证患者只要在屋内就能够被检测到，腰带式辅助检测装置将获取的数据发送到主机上，在主机上先对视频数据和传感器数据进行匹配，视频数据的每一帧都有对应的传感器数据。

3.根据权利要求1所述一种基于多传感器融合视觉的室内姿势检测方法，其特征在于：S3中，将上述S2中，获取的视频数据和腰带检测到的数据分别输入至各自的网络模型中，在视频图像第一帧进来时，已检测到的患者初始化并创建跟踪器，并对患者的姿势进行标注，后面帧进来时，先到卡尔曼滤波器中得到由前面帧预测的box和分类结果和协方差预测，求跟踪器所有患者状态预测与本帧检测的box的CIOU，通过匈牙利指派算法得到CIOU最大的唯一匹配的数据关联部分，再去掉匹配值小于iou_threshold的匹配对，用本帧中匹配到的患者检测box去更新卡尔曼跟踪器，计算卡尔曼增益、状态更新和协方差更新，并将状态更新值输出，作为本帧的跟踪box，对于本帧中没有匹配到的患者重新初始化跟踪器，其中，卡尔曼跟踪器联合了历史跟踪记录，调节历史box与本帧box的残差，更好的跟踪患者和预测患者的下一个姿势。

4.根据权利要求1所述一种基于多传感器融合视觉的室内姿势检测方法，其特征在于：S4中，通过上述S1至S3数据的处理，将包含患者位置和姿态的视频和腰带的数据同步到网络中，一旦患者出现跌倒，会通过网络发出警报，通知医护人员尽快开进行救助。