CN115359557A

CN115359557A - 一种基于Transformer的跌倒检测方法与系统

Info

Publication number: CN115359557A
Application number: CN202210980536.9A
Authority: CN
Inventors: 李彬; 李江娇; 高梦奇; 刘丽霞; 张友梅; 张明亮; 张瑜
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2022-08-16
Filing date: 2022-08-16
Publication date: 2022-11-18

Abstract

本发明提供一种基于Transformer的跌倒检测方法与系统，涉及人工智能技术领域，该方法包括：获取包括连续的多帧图像的图像序列，并将多帧图像中的最后一帧图像所对应的标签作为该图像序列的分类标签；对图像序列中的多帧图像进行预处理，得到预设维度的特征图；将特征图进行拉直操作，并与分类标签一起输入至预先构建的倒三角网络中，对所述倒三角网络输出得到的空间特征进行特征融合，组成新的分类标签；根据新的分类标签提取多帧图像之间的时间特征，使用全连接网络进行分类，完成跌倒检测的二分类。这样，通过提取连续的多帧图像之间的空间特征和时间特征，并使用全连接网络进行分类，可以增强对人跌倒事件的识别能力，提高跌倒检测结果的正确率。

Description

一种基于Transformer的跌倒检测方法与系统

技术领域

本发明属于人工智能技术领域，尤其涉及一种基于Transformer的跌倒检测方法与系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成已经成为本领域一般技术人员所公知的现有技术。

在影响老年人日常安全的诸多问题中，跌倒已成为老年人受伤死亡的主要原因之一。如果尽早应对老年人跌倒问题，就能减少严重的后果，相应的跌倒检测和救援服务能够尽可能地确保老年人口的安全，因此，开发智能检测与防护系统已经成为人们关注的焦点。

近年来，机器学习和深度学习算法被广泛应用于跌倒检测领域。在深度学习中，现有的跌倒检测方法可以总结为三类：基于穿戴式传感器、基于环境和基于计算机视觉的跌倒检测系统。

其中，基于穿戴式传感器的跌倒检测方法通常使用加速度传感器和压力传感器获取人体速度等特征来检测跌倒，如2022年发表在《Microprocessors and Microsystems》104514-104521页的论文名称为《A hardware framework for fall detection usinginertial sensors and compressed sensing》(《一种使用惯性传感器和压缩传感的跌倒检测硬件框架》)提出了一种基于加速度计和陀螺仪获取数据的跌倒检测硬件框架；2022年发表在《Biomedical Signal Processing and Control》103355-103363页的论文名称为《Applying deep learning technology for automatic fall detection using mobilesensors》(《使用深度学习和移动传感器进行自动跌倒检测》)提出了一种跌倒检测方法，该方法通过智能手机和智能手表中的加速度计、陀螺仪和方位传感器获取数据；2021年发表在《Measurement》108258-108267页的论文名称为《Killer heuristic optimizedconvolution neural network-based fall detection with wearable IoT sensordevices》(《使用可穿戴物联网传感器设备的基于杀手启发式优化卷积神经网络的跌倒检测方法》)使用磁力计、陀螺仪和加速度计组成的可穿戴式传感器装备获取数据，应用AlexNet卷积网络进行跌倒检测，但是基于穿戴式传感器的方法通常需要长时间佩戴，舒适性较差且容易遗忘，因此研究人员提出了更方便的基于环境的跌倒检测方法。

基于环境的跌倒检测方法使用在环境中布置的传感器(红外、超声等其他非视觉传感器)获取数据来进行跌倒检测，如2022年发表在《Measurement》110870-110879页的论文名称为《Fall detection system based on infrared array sensor and multi-dimensional feature fusion》(《基于红外阵列传感器和多维特征融合的跌倒检测系统》)通过红外传感器进行数据采集，有效地扩大了探测面积，提高了跌倒检测方法的精度；2021年发表在《IEEE Sensors Journal》16969-16978页的论文名称为《Elderly falldetection with vital signs monitoring using CW Doppler radar》(《使用CW多普勒雷达监测生命体征的老年人跌倒检测》)提出了一种基于多普勒雷达的低成本、高精度的跌倒检测系统，但是基于环境的跌倒检测方法成本高，受外界干扰大，因此研究人员提出了更高效，成本较低的基于计算机视觉的方法。

基于计算机视觉的方法通常通过分析视频或图像来检测跌倒事件，如2022年发表在《Journal of Visual Communication and Image Representation》103407-103419页的论文名称为《Fall detection using body geometry and human pose estimation invideo sequences》(《在视频序列中使用身体几何和人体姿态估计进行跌倒检测》)提出了一种跌倒检测方法，提取在视频序列的不同帧的人体几何形状特征；2022年发表在《Procedia Computer Science》676-681页的论文名称为《Person Fall Detection SystemBased on Video Stream Analysis》(《基于视频流分析的人员跌倒检测系统》)提出了一种基于姿态估计和LSTM的跌倒检测方法，提取在视频流中的关键点和时间特征。

但是现存的基于计算机视觉的跌倒检测方法的缺点是误检率较高，正确率较低。因此，如何提供一种基于计算机视觉的正确率较高的跌倒检测系统，是目前亟需解决的问题。

发明内容

为了解决上述问题，本发明提供一种基于Transformer的跌倒检测方法与系统，通过提取连续的多帧图像之间的空间特征和时间特征，使用全连接网络进行分类，以增强对人跌倒事件的识别能力，提高跌倒检测结果的正确率。

为了实现上述目的，本发明主要包括以下几个方面：

第一方面，本发明实施例提供一种基于Transformer的跌倒检测方法，包括：

获取包括连续的多帧图像的图像序列，并将多帧图像中的最后一帧图像所对应的标签作为该图像序列的分类标签；

对所述图像序列中的多帧图像进行预处理，得到预设维度的特征图；

将所述特征图进行拉直操作，并与所述分类标签一起输入至预先构建的倒三角网络中，对所述倒三角网络输出得到的空间特征进行特征融合，组成新的分类标签；其中，所述倒三角网络包括两个前后连接的Pooling-Transformer网络，在Transformer编码模块里的多头注意力机制和多层感知机之间，加入了池化操作，得到所述Pooling-Transformer网络；

根据新的分类标签提取多帧图像之间的时间特征，使用全连接网络进行分类，完成跌倒检测的二分类。

在一种可能的实施方式中，所述对图像序列中的多帧图像进行预处理，得到预设维度的特征图，包括：

对所述图像序列中的多帧图像进行层归一化处理之后，利用预先构建的图像缩减模块将多帧图像分别转化为预设维度的特征图；所述图像缩减模块包括两个卷积层和两个池化层，每一个卷积和池化操作，都将图像的宽高缩减为原来的二分之一，通道数变为原来的二倍。

在一种可能的实施方式中，通过以下方式对特征图进行拉直操作：

将特征图按照预设大小进行分块，然后与通道数进行维度合并，得到特定维度的图像张量；对所述图像张量进行编码，并在该图像张量上加入位置编码，然后进行维度合并，得到拉平后的图像张量。

在一种可能的实施方式中，将拉平后的图像张量和分类标签进行拼接后输入至倒三角网络中，经过两个前后连接的Pooling-Transformer网络，输出得到多帧图像的空间特征。

在一种可能的实施方式中，在Pooling-Transformer网络中，将多头注意力机制输出的图像张量设为X，将图像张量X的维度进行重塑，然后通过平均池化操作和最大池化操作将图像张量X的宽高变为原来的二分之一，将平均池化和最大池化的结果在通道维度上进行拼接，通道数变为了原来的二倍，最后再一次进行重塑，完成拉直操作。

在一种可能的实施方式中，将倒三角网络的输出空间特征分离为图像张量和分类标签；将所分离的图像张量重塑为四个维度，并在其通道维度上进行全局平均池化操作，将通道维度缩减为1维，从而将四维图像张量降维成了三维张量；

降维成三维张量之后，将分离为图像张量和分类标签在宽高维度上进行拼接，然后在拼接的维度上进行一次全局池化操作，得到新的分类标签。

在一种可能的实施方式中，将新的分类标签输入Transformer编码模块中，在多帧图像之间进行多头自注意力机制的运算，然后经过多层感知机模块，得到多帧图像之间的时间特征。

第二方面，本发明实施例还提供一种基于Transformer的跌倒检测系统，包括：

获取模块，用于获取包括连续的多帧图像的图像序列，并将多帧图像中的最后一帧图像所对应的标签作为该图像序列的分类标签；

预处理模块，用于对所述图像序列中的多帧图像进行预处理，得到预设维度的特征图；

特征融合模块，用于将所述特征图进行拉直操作，并与所述分类标签一起输入至预先构建的倒三角网络中，对所述倒三角网络输出得到的空间特征进行特征融合，组成新的分类标签；其中，所述倒三角网络包括两个前后连接的Pooling-Transformer网络，在Transformer编码模块里的多头注意力机制和多层感知机之间，加入了池化操作，得到所述Pooling-Transformer网络；

跌倒检测模块，用于根据新的分类标签提取多帧图像之间的时间特征，使用全连接网络进行分类，完成跌倒检测的二分类。

第三方面，本发明实施例提供一种计算机设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如上述第一方面和第一方面任一种可能的实施方式中所述的基于Transformer的跌倒检测方法的步骤。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如上述第一方面和第一方面任一种可能的实施方式中所述的基于Transformer的跌倒检测方法的步骤。

基于上述技术方案，本发明具有以下有益效果：

1、考虑到跌倒是一个过程，单独的一帧图像难以识别跌倒，本发明通过获取包括连续的多帧图像的图像序列，并提取多帧图像之间的空间特征和时间特征，并使用全连接网络进行分类，可以增强对人跌倒事件的识别能力，提高跌倒检测结果的正确率。

2、本发明通过划分图像序列的维度，使用基于卷积神经网络构建的图像缩减模块对输入的图像序列的宽高进行尺寸缩减，可以减少计算的复杂度；然后，将输出的特征图进行拉直操作，结合位置编码和分类标签一起输入倒三角网络进行空间特征的提取；对倒三角网络输出的张量和分类标签进行特征融合，组成新的分类标签；最后，将新的分类标签输入Transformer编码结构，进行时间特征的提取，使用全连接网络进行分类，可以充分利用图像序列和分类标签的特征，准确地检测跌倒行为，且检测速度快、实时性好。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例一中所提供的基于Transformer的跌倒检测方法的流程示意图之一；

图2是本发明实施例一中所提供的基于Transformer的跌倒检测方法的流程示意图之二；

图3是本发明实施例一中所提供的基于卷积神经网络的图像缩减模块的结构示意图；

图4是本发明实施例一中所提供的倒三角网络和Pooling-Transformer模块的结构示意图；

图5是本发明实施例一中所提供的Transformer中池化操作的流程图；

图6是本发明实施例一中所提供的特征融合的流程图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

如图1所示，本发明实施例提供一种基于Transformer的跌倒检测方法，具体包括以下步骤：

S101：获取包括连续的多帧图像的图像序列，并将多帧图像中的最后一帧图像所对应的标签作为该图像序列的分类标签。

在具体实施中，由于跌倒是一个过程，单独的一帧图像难以识别跌倒，因此，本实施例将包括连续的多帧图像的图像序列作为一个样本，图像序列的长度可以根据实际需要设定，如将前后连续的7帧图像作为一个样本。每个样本的维度为7×3×480×640，其中，7代表图像的帧数，3代表通道数，480和640分别代表图像的宽和高，这种数据划分方式可以让网络通过提取时间特征，以提高跌倒识别的准确率。

S102：对所述图像序列中的多帧图像进行预处理，得到预设维度的特征图。

作为一可选实施方式，如图2所示，将图像序列输入基于卷积神经网络的图像缩减模块，对图像尺寸进行缩减，得到预设维度的特征图。具体地，使用如下方法对样本进行层归一化处理：

其中，T是样本，μ代表层归一化数据的均值，σ代表层归一化数据的方差，ε是为防止分母出现零所增加的常数，γ和β为模型的学习参数，分别取1和0，T′是经层归一化处理之后的样本。

为了降低模型的计算量，设计了一个图像缩减模块。图像缩减模块由两个卷积层和两个池化层组成，它的具体结构如图3所示。每一个卷积和池化操作，都将图像的宽高缩减为原来的二分之一，通道数变为原来的二倍。图像数据分别经过卷积，ReLU激活函数和平均池化操作，计算过程如下：

z＝avg(ReLU(C_3×3T′))；

其中，avg表示平均池化操作，ReLU表示ReLU激活函数，C_3×3表示的3×3卷积操作，z表示图像序列经过第一次卷积池化操作后的输出。

样本T′经过图像缩减模块后，变为大小为7×12×120×160的特征。从而达到对输入图像序列的宽高进行尺寸缩减的目的，进而减少网络的参数量，减小计算复杂度。

S103：将所述特征图进行拉直操作，并与所述分类标签一起输入至预先构建的倒三角网络中，对所述倒三角网络输出得到的空间特征进行特征融合，组成新的分类标签；其中，所述倒三角网络包括两个前后连接的Pooling-Transformer网络，在Transformer编码模块里的多头注意力机制和多层感知机之间，加入了池化操作，得到所述Pooling-Transformer网络。

在具体实施中，卷积网络中的池化层可以缩减特征图的宽和高，从而减小模型计算量，并且让特征图具有平移不变性、旋转不变性和尺度不变性。受卷积网络的启发，本实施例在原始的Transformer中加入池化结构，让Transformer可以在不同维度的张量上进行特征提取，从而减少计算量。

具体地，将图像缩减模块输出的特征图z′＝{z′₁,z′₂,…,z′₇}按照p×p的大小进行分块，可以得到(120/p)×(160/p)＝H×W个分块。然后将通道数跟p×p进行维度合并，得到F×N×C维度的图像张量，其中，F为帧数，N＝(H×W)并称之为宽高维度，C＝(p×p×c)并称之为通道维度。将图像张量进行编码，并在此张量上加入位置编码从而保留位置信息。然后，将F和C两个维度合并，从而将张量拉平。将分类标签和拉平后的图像张量拼接后形成的X_p输入至倒三角网络中。

在原始Transformer编码模块里的多头注意力机制和多层感知机之间，加入了池化操作，提出了改进的Transformer编码结构，并将它命名为Pooling-Transformer，具体结构如图4所示。将多头注意力机制模块输出的图像张量设为X，然后进行Transformer中的池化操作。先将图像张量X的维度进行重塑，然后通过平均池化操作和最大池化操作将张量的宽高变为原来的二分之一，然后将平均池化和最大池化的结果在通道维度上进行拼接，通道数变为了原来的二倍，最后再一次进行重塑，完成拉直操作，上述操作表达如下式所示：

X′＝RS₂(concat(avg(RS₁(X)),max(RS₁(X))))；

其中，RS₁，RS₂代表重塑操作，max表示最大池化。将分类标签输入全连接网络，使得分类标签与X′的宽高维度保持一致，上述具体操作如图5所示。

将两个Pooling-Transformer进行前后连接，每个Pooling-Transformer输出张量的宽高维度都变为输入张量的四分之一，通道维度变为原来的二倍，因此张量逐渐变得窄高，整体看起来像一个“倒三角”的结构，因此，将堆叠起的两个Pooling-Transformer网络称为倒三角网络。

通过上述的基于Poling-Transformer的倒三角网络，既减少了网络计算量，也完成了对特征图的空间特征提取。

分类标签经过Transformer编码结构后，与各个图像块之间进行了注意力计算，实现了特征交互，且维度较小，因此基于Transformer的分类网络通常都使用分类标签进行后续操作或直接进行分类。但是只使用分类标签进行分类太过局限，分类标签融合的特征可能不够全面，因此，本实施例提出了一种特征融合的方法，得到新的分类标签，用于后续特征提取操作。

将倒三角网络的输出X″_p分离为图像张量X_T和分类标签X_C，然后将图像张量X_T重塑为四个维度，并在其通道维度上进行全局平均池化操作，将通道维度缩减为1维，从而将四维图像张量降维成了三维张量，过程如下式所示：

X′_T＝gavg(RS₃(X_T))；

其中，RS₃代表重塑操作，gavg表示全局平均池化。降为三维张量后，图像张量与分类标签的维度完全一致。将图像张量和分类标签在宽高维度上进行拼接，然后在拼接的维度上进行一次全局池化操作，整个过程如图6所示，上述操作表达如下式所示：

X′_C＝gavg(concat(X_C,X′_T))；

经过以上操作，完成了图像张量和分类标签的特征融合，融合成了新的分类标签，用新的分类标签进行接下来的特征提取和分类的操作。

S104：根据新的分类标签提取多帧图像之间的时间特征，使用全连接网络进行分类，完成跌倒检测的二分类。

在具体实施中，将新的分类标签X′_C输入Transformer编码模块，在图像帧之间进行多头自注意力机制的运算，然后经过多层感知机模块，完成对图像的时间特征提取。

在新的分类标签经过Transformer编码模块后，将带有时空特征的分类标签输入全连接层，完成对跌倒检测的二分类，即区分跌倒或正常行为。为了防止模型过拟合，提高模型的泛化能力，在全连接层之后加入了随机失活层，随机失活率设置为0.3。

图像经过卷积网络实现宽高尺寸缩减，经过倒三角网络和原始Transformer编码模块完成时空特征的提取，最后经过分类网络，得到图像序列属于每个类的概率，从而完成对跌倒和正常的分类，实现跌倒检测。

实施例二

本发明实施例还提供一种基于Transformer的跌倒检测系统，包括：

本实施例提供的基于Transformer的跌倒检测系统用于实现前述的基于Transformer的跌倒检测方法，因此基于Transformer的跌倒检测系统的具体实施方式可见前文中的基于Transformer的跌倒检测方法的实施例部分，在此不再进行赘述。

实施例三

本发明实施例还提供一种计算机设备，包括处理器、存储器和总线。

所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时，可以执行如上述图1和2所示方法实施例中的基于Transformer的跌倒检测方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

实施例四

基于同一发明构思，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述方法实施例中所述的基于Transformer的跌倒检测方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于Transformer的跌倒检测方法，其特征在于，包括：

2.如权利要求1所述的基于Transformer的跌倒检测方法，其特征在于，所述对图像序列中的多帧图像进行预处理，得到预设维度的特征图，包括：

3.如权利要求2所述的基于Transformer的跌倒检测方法，其特征在于，通过以下方式对特征图进行拉直操作：

4.如权利要求3所述的基于Transformer的跌倒检测方法，其特征在于，将拉平后的图像张量和分类标签进行拼接后输入至倒三角网络中，经过两个前后连接的Pooling-Transformer网络，输出得到多帧图像的空间特征。

5.如权利要求4所述的基于Transformer的跌倒检测方法，其特征在于，在Pooling-Transformer网络中，将多头注意力机制输出的图像张量设为X，将图像张量X的维度进行重塑，然后通过平均池化操作和最大池化操作将图像张量X的宽高变为原来的二分之一，将平均池化和最大池化的结果在通道维度上进行拼接，通道数变为了原来的二倍，最后再一次进行重塑，完成拉直操作。

6.如权利要求5所述的基于Transformer的跌倒检测方法，其特征在于，将倒三角网络的输出空间特征分离为图像张量和分类标签；将所分离的图像张量重塑为四个维度，并在其通道维度上进行全局平均池化操作，将通道维度缩减为1维，从而将四维图像张量降维成了三维张量；

7.如权利要求1所述的基于Transformer的跌倒检测方法，其特征在于，将新的分类标签输入Transformer编码模块中，在多帧图像之间进行多头自注意力机制的运算，然后经过多层感知机模块，得到多帧图像之间的时间特征。

8.一种基于Transformer的跌倒检测系统，其特征在于，包括：

9.一种计算机设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至7任一项所述的基于Transformer的跌倒检测方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至7任一项所述的基于Transformer的跌倒检测方法的步骤。