CN111539377A

CN111539377A - 基于视频的人体运动障碍检测方法、装置及设备

Info

Publication number: CN111539377A
Application number: CN202010392031.1A
Authority: CN
Inventors: 周泓; 杨诚
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-05-11
Filing date: 2020-05-11
Publication date: 2020-08-14

Abstract

本公开提供一种基于视频的人体运动障碍检测方法、装置及设备。该方法包括：获取预设人体目标的运动视频，通过预先训练好的人体姿态估计模型对运动视频进行检测，得到人体目标的姿态信息，通过预先训练好的运动障碍检测模型对姿态信息进行检测，得到人体目标的运动障碍检测结果。本公开的方法，提高了人体运动障碍检测的准确度，降低了人体运动障碍检测的操作复杂度和硬件成本。

Description

基于视频的人体运动障碍检测方法、装置及设备

技术领域

本公开涉及视频处理技术领域，尤其涉及一种基于视频的人体运动障碍检测方法、装置及设备。

背景技术

近年来，社会人口老龄化问题日益突出，帕金森综合征作为老年人的三大疾病之一，对老年人生活影响甚大。据统计，我国帕金森病患者数量增长迅速且总数目庞大，每年花费数亿元医疗和护理费用。

帕金森病的起病隐匿且早期诊断困难，大多依靠患者及其家属自行察觉，在确诊时很多患者已经错过最佳治疗时间，因此，如何快捷且准确地实现帕金森病的早期诊断具有非常重大的社会与经济意义。

鉴于帕金森病早期患者表现出运动功能衰退症状，可通过检测用户是否存在运动障碍来初步筛选用户是否可能患有帕金森病。目前，通常依赖独立的可穿戴式设备对用户的足部或者手部进行运动障碍检测，操作复杂且成本较高，运动障碍检测的准确度也有待提高。

发明内容

本公开提供一种基于视频的人体运动障碍检测方法、装置及设备，用以解决人体运动障碍检测操作复杂、成本较高且检测准确度不高的问题。

一方面，本发明提供一种基于视频的人体运动障碍检测方法，包括：

获取预设人体目标的运动视频；

通过预先训练好的人体姿态估计模型对所述运动视频进行检测，得到所述人体目标的姿态信息；

通过预先训练好的运动障碍检测模型对所述姿态信息进行检测，得到所述人体目标的运动障碍检测结果。

在一个可选的实施方式中，所述通过预先训练好的人体姿态估计模型对所述运动视频进行检测，包括：

对所述运动视频进行采样，得到视频图像序列；

通过所述人体姿态估计模型对所述视频图像序列中每个视频图像进行检测，得到所述人体目标的姿态信息。

在一个可选的实施方式中，所述人体目标的姿态信息包括所述每个视频图像中各个预设人体关键点的图像位置；所述通过所述人体姿态估计模型对所述视频图像序列中每个视频图像进行检测，包括：

通过所述人体姿态估计模型对所述视频图像进行关键点检测，得到所述视频图像上各个所述人体关键点的图像位置；

根据每个所述视频图像上各个所述人体关键点的图像位置，得到所述人体目标的姿态矩阵。

在一个可选的实施方式中，所述人体姿态估计模型包括预设关键点数量个输出通道，所述关键点数量为所述人体关键点的总数量；所述通过所述人体姿态估计模型对所述视频图像进行关键点检测，包括：

通过所述人体姿态估计模型对所述视频图像进行关键点检测，得到所述预设关键点数量个热力图，所述热力图中各图像点的元素值为各所述图像点是所述人体关键点的概率值；

在所述预设关键点数量个热力图中，得到所述视频图像中各个所述人体关键点的图像位置。

在一个可选的实施方式中，所述人体姿态估计模型为预设的沙漏网络。

在一个可选的实施方式中，所述运动障碍检测模型的模型组成包括长短时记忆网络和分类器。

在一个可选的实施方式中，所述分类器包括全连接层；所述通过预先训练好的运动障碍检测模型对所述姿态信息进行检测，包括：

将所述姿态信息输入所述运动障碍检测模型，得到所述人体目标是否存在运动障碍的检测结果。

另一方面，本公开提供一种基于视频的人体运动障碍检测装置，包括：

获取模块，用于获取预设人体目标的运动视频；

姿态检测模块，用于通过预先训练好的人体姿态估计模型对所述运动视频进行检测，得到所述人体目标的姿态信息；以及

运动障碍检测模块，用于通过预先训练好的运动障碍检测模型对所述姿态信息进行检测，得到所述人体目标的运动障碍检测结果。

另一方面，本公开提供一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述所述方法及任一可行实施方式所述方法的步骤。

另一方面，本公开提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述所述方法及任一可行实施方式所述方法的步骤。

本公开提供的基于视频的人体运动障碍检测方法、装置及设备，通过预先训练好的人体姿态估计模型，对人体目标的运动视频进行检测，得到人体目标的姿态信息，通过预先训练好的运动障碍检测模型，对姿态信息进行检测，得到人体目标的运动障碍检测结果，从而结合人体姿态估计模型和运动障碍检测模型，提高人体运动障碍检测的准确度，且只需要输入人体目标的运动视频即可得到相应的检测结果，降低了人体运动障碍检测的操作复杂度和硬件成本。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1为一个实施例中基于视频的人体运动障碍检测方法的流程示意图；

图2为另一个实施例中基于视频的人体运动障碍检测方法的流程示意图；

图3为一个实施例中运动障碍检测模型的结构示意图；

图4为一个实施例中运动障碍检测模型内长短时记忆网络中处理组件的运算示意图；

图5为一个实施例中基于视频的人体运动障碍检测装置的结构示意图；

图6为一个实施例中电子设备的结构示意图。

通过上述附图，已示出本公开明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围，而是通过参考特定实施例为本领域技术人员说明本公开的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开提供的基于视频的人体运动障碍检测方法，可以应用于配置有处理器的终端设备上，例如计算机、平板电脑、手机，也可以应用于服务器上。其中，服务器可以为单个的服务器，也可以多个服务器构成的服务器群。

下面以具体地实施例对本公开的技术方案以及本公开的技术方案如何解决现有技术中的人体运动障碍检测方式操作复杂、硬件成本较高、且叫测准确度有待提高的技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本公开的实施例进行描述。

在一个实施例中，如图1所示，提供了一种基于视频的人体运动障碍检测方法，包括以下步骤：

步骤S101，获取预设人体目标的运动视频。

具体的，预设的人体目标为当前人体运动障碍检测的检测对象。在获取人体目标的运动视频时，可接收用户输入的人体目标的运动视频，还可接收摄像设备发送的人体目标的运动视频，还可接收用户输入的人体目标的身份信息，在预先采集的运动视频库中查找该身份信息对应的运动视频。身份信息可包括姓名、年龄、身份ID(例如身份证号、或者预先为每个人员设置唯一的身份ID)中的一项或多项。

具体的，人体目标的运动视频可为人体目标连续移动的视频，还可为人体目标执行一个或多个连续动作的视频。例如，人体目标的运动视频为人体目标走路、慢跑或者跳跃的视频，又如，人体目标的运动视频为人体目标倒茶或者打扫的视频。

步骤S102，通过预先训练好的人体姿态估计模型对运动视频进行检测，得到人体目标的姿态信息。

具体的，人体姿态估计模型为预先训练好的神经网络模型。可将运动视频中的视频图像输入训练好的人体姿态估计模型，由人体姿态估计模型对各个视频图像进行姿态检测，得到各个视频图像上人体目标的姿态信息，由各个视频图像上人体目标的姿态信息构成运动视频中人体目标的姿态信息。

在一个可行的实施方式中，姿态信息包括各个预设人体关键点的图像位置，从而通过各个人体关键点的图像位置形象地表示人体目标的姿态，有效地提高了人体姿态检测的准确度。

在一个可行的实施方式中，预设人体关键点包括人体的左右脚踝、左右膝盖、左右髋关节、骨盆、胸腔、上颈部、头顶、左右手腕、左右手肘和左右肩膀，从而通过设置较为全面的人体关键点，有效地提高了人体姿态检测的准确度。

步骤S103，通过预先训练好的运动障碍检测模型对姿态信息进行检测，得到人体目标的运动障碍检测结果。

具体的，运动障碍检测模型为预先训练好的神经网络模型，用于基于人体目标的姿态信息检测得到人体目标的运动障碍检测结果。将人体姿态估计模型检测出的人体目标的姿态信息输入训练好的运动障碍检测模型，得到人体目标的运动障碍检测结果，运动障碍检测结果为人体目标是否存在运动障碍的检测结果。其中，运动障碍是指人体运动不顺畅，例如肢体震颤、肢体运动不协调、肢体运动不平衡导致容易跌倒等。

在一个实施例中，如图2所示，提供了一种基于视频的人体运动障碍检测方法，包括以下步骤：

步骤S201，获取预设人体目标的运动视频。

具体的，步骤S201的详细内容可参照步骤S101的具体描述，不再赘述。

在一个可行的实施方式中，在通过摄像设备预先采集人体目标的运动视频、或者通过摄像设备实时采集人体目标的运动视频时，所采集的运动视频的数量为一个或多个，每个运动视频的采集时长一致、每秒的图像帧数一致、且视频分辨率一致，从而保持各个运动视频的数据一致性，便于提高后续的人体姿态估计模型的姿态检测效果。

作为示例地，每个运动视频的采集时长可为10分钟，每秒的图像帧数可为30帧，分辨率可为720P或1080P，视频格式可为mp4(还可为avi，mkv等视频格式)。

步骤S202，对运动视频进行采样，得到视频图像序列。

具体的，每隔预设时长对运动视频进行一次采样，每次采样得到运动视频中的视频图像，在结束采样时，由采样得到的多个视频图像按照拍摄时间排序，得到运动视频对应的视频图像序列。

作为示例地，当预设时长为0.2秒时，每秒可在运动视频中采样得到5个视频图像，当运动视频的时长为1分钟时，则可得到由300个视频图像构成的视频图像序列。

在一个可行的实施方式中，得到视频图像序列后，对视频图像序列中的每个视频图像进行处理，使得视频图像序列中的每个视频图像的图像分辨率相同，从而有效提高后续姿态检测的准确度。

步骤S203，通过预先训练好的人体姿态估计模型对视频图像序列中每个视频图像进行检测，得到人体目标的姿态信息。

具体的，将视频图像序列中的每个视频图像依次输入人体姿态估计模型，通过人体姿态估计模型对每个视频图像进行关键点检测，得到每个视频图像上各个人体关键点的图像位置，由每个视频图像上各个人体关键点的图像位置，构成运动视频中人体目标的姿态信息。

具体的，在由每个视频图像上各个人体关键点的图像位置，构成运动视频中人体目标的姿态信息时，将每个视频图像上各个人体关键点的图像位置保存为姿态矩阵，以通过矩阵这种数据结构来表示人体目标的姿态信息，便于后续的运动障碍检测模型处理。

具体的，姿态矩阵可表示为：

M＝[A₁,A₂,L,A_i,L,A_n]^T，其中，A_i＝[x₁,y₁,x₂,y₂,L,x_k,y_k]，M为姿态矩阵，A_i表示在第i个视频图像中检测得到的各个人体关键点的图像位置，n为视频图像序列中的图像数量，1≤i≤n，x_k、y_k分别表示第k个人体关键点的图像位置的横坐标和纵坐标，k为预设的关键点数量，在A_i中人体关键点的数量和人体关键点之间的顺序是预先固定的。

在一个可行的实施方式中，预设的关键点数量为16，包括人体的左右脚踝、左右膝盖、左右髋关节、骨盆、胸腔、上颈部、头顶、左右手腕、左右手肘和左右肩膀，从而通过设置较为全面的人体关键点，有效地提高了人体姿态检测的准确度。

步骤S204，通过预先训练好的运动障碍检测模型对姿态信息进行检测，得到人体目标的运动障碍检测结果。

具体的，步骤S204的详细内容可参照步骤S104的具体描述，不再赘述。

在一个可行的实施方式中，人体姿态估计模型为堆叠沙漏网络，堆叠沙漏网络的卷积层包括下采样层、上采样层和输出层。视频图像在人体姿态估计模型中，先连续经过第一预设数量个下采样层，通过这些卷积层依次提取视频图像的图像特征，再连续经过第二预设数量个上采样层，以恢复图像，通过输出层输出各个人体关键点的图像位置。第一预设数量大于第二预设数量。

具体的，在人体姿态估计模型中，上采样层的输入数据为上一卷积层的输出数据加上与该上采样层呈镜像对称的下采样层的输出数据，从而在上采样过程中加入下采样提取的特征数据，提高人体姿态估计准确度。其中，第一个下采样层与倒数第一个上采样层呈镜像对称，第二个下采样层与倒数第二个上采样层呈镜像对称，依次类推。

具体的，在人体姿态估计模型中，输出层有预设关键点数量个输出通道，预设关键点数量即预设的人体关键点的总数量，每个输出通道输出视频图像对应的一个热力图，在热力图中各图像点的元素值，对应表示各元素点为人体关键点的概率，对于每个热力图，分别获取元素值最高的图像点，该图像点即为视频图像中的一个人体关键点，依此可得到关键点数量个人体关键点。

在一个可行的实施方式中，运动障碍检测模型的模型组成包括长短时记忆网络和分类器，将人体估计模型检测得到的姿态数据输入运动障碍检测模型中，先通过长短时记忆网络对姿态数据进行处理，在将长短时记忆网络的输出结果输入分类器，得到人体目标是否存在运动障碍的检测结果，从而通过长短时记忆网络提高运动障碍检测准确度。

具体的，由于运动视频中人体目标的姿态数据中包括人体目标在每个视频图像中的姿态数据，即人体目标在每个视频图像中各人体关键点的图像位置，在将人体目标的姿态数据输入长短时记忆网络时，将每个视频图像的姿态数据输入长短时记忆网络，通过长短时记忆网络能够充分考虑到视频图像之间的时间顺序，有效地提高运动障碍检测准确度。

在一个可行的实施方式中，图3为运动障碍检测模型的结构示意图，A为长短时记忆网络中的处理组件，x₀、x₁、x₂、L、x_t表示0至t时刻的输入，在此可将视频图像序列中每个视频图像的姿态数据从x₀、x₁、x₂、L、x_t处依次输入，经过处理组件A的处理后，得到输出h₀、h₁、h₂、L、h_t，将最后一个时刻(即t时刻)的输出输入由全连接层FC₁和全连接层FC₂构成的分类器中。处理组件A可参照现有长短时记忆网络中的运算过程。

在一个可行的实施方式中，图4为处理组件A的运算示意图，在图4中，C_t为第t时刻的单元状态，X表示相乘，tanh是双曲正切函数，σ表示激活函数，激活函数可采用Sigmoid函数。处理组件A的运算公式可表示为：

C_t＝σ(Z_t)×C_t-1+σ(Z_t)×tanh(Z_t)，h_t＝σ(Z_t)×tanh(C_t)；

其中，Z_t＝W_xx_t+W_hh_t-1+b，σ(Z_t)＝sigmoid(Z_t)，W_x、W_h为长短时记忆网络中待训练的权重参数，b为预设的常数。

在一个可行的实施方式中，可通过预先采集的训练数据对人体姿态估计模型、运动障碍检测模型进行有监督训练，训练数据中包括标记了是否存在运动障碍的图像序列，且图像序列中每个图像都标记了各个人体关键点，有监督训练的算法可采用反向传播算法，从而通过对人体姿态估计模型和运动障碍检测模型进行有监督训练，得到能够检测人体姿态的人体姿态估计模型和能够检测是否存在运动障碍的运动障碍检测模型的。

应该理解的是，虽然图1-2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1-2中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图5所示，提供了一种基于视频的人体运动障碍检测装置500，包括：获取模块501、姿态检测模块502和运动障碍检测模块503，其中：

获取模块501，用于获取预设人体目标的运动视频；

姿态检测模块502，用于通过预先训练好的人体姿态估计模型对运动视频进行检测，得到人体目标的姿态信息；以及

运动障碍检测模块503，用于通过预先训练好的运动障碍检测模型对姿态信息进行检测，得到人体目标的运动障碍检测结果。

在一个可行的实施方式中，姿态检测模块502具体用于：

对运动视频进行采样，得到视频图像序列；

通过人体姿态估计模型对视频图像序列中每个视频图像进行检测，得到人体目标的姿态信息。

在一个可行的实施方式中，人体目标的姿态信息包括每个视频图像中各个预设人体关键点的图像位置；姿态检测模块502，具体用于：

通过人体姿态估计模型对视频图像进行关键点检测，得到视频图像上各个人体关键点的图像位置；

根据每个视频图像上各个人体关键点的图像位置，得到人体目标的姿态矩阵。

在一个可行的实施方式中，人体姿态估计模型包括预设关键点数量个输出通道，关键点数量为人体关键点的总数量；姿态检测模块502，具体用于：

通过人体姿态估计模型对视频图像进行关键点检测，得到预设关键点数量个热力图，热力图中各图像点的元素值为各图像点是所述人体关键点的概率值。

在预设关键点数量个热力图中，得到视频图像中各个人体关键点的图像位置。

在一个可行的实施方式中，人体姿态估计模型为预设的沙漏网络。

在一个可行的实施方式中，运动障碍检测模型的模型组成包括长短时记忆网络和分类器。

在一个可行的实施方式中，分类器包括全连接网络层；运动障碍检测模块503，具体用于：

将姿态信息输入运动障碍检测模型，得到人体目标是否存在运动障碍的检测结果。

关于基于视频的人体运动障碍检测装置的具体限定可以参见上文中对于基于视频的人体运动障碍检测方法的限定，在此不再赘述。上述基于视频的人体运动障碍检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

图6为本公开实施例提供的一种电子设备的结构示意图。如图6所示，该终端设备可以包括：处理器601和存储器602，所述存储器601用于存储计算机执行指令，所述处理器602执行所述计算机程序时实现如上述任一所示实施例的方案。

上述的处理器601可以是通用处理器，包括中央处理器CPU、网络处理器(networkprocessor，NP)等；还可以是数字信号处理器DSP、专用集成电路ASIC、现场可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。上述存储器502可能包含随机存取存储器(random access memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述方法实施例及其各可行实施方式中的各步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于视频的人体运动障碍检测方法，其特征在于，所述方法包括：

获取预设人体目标的运动视频；

2.根据权利要求1所述的方法，其特征在于，所述通过预先训练好的人体姿态估计模型对所述运动视频进行检测，包括：

对所述运动视频进行采样，得到视频图像序列；

3.根据权利要求2所述的方法，其特征在于，所述人体目标的姿态信息包括所述每个视频图像中各个预设人体关键点的图像位置；所述通过所述人体姿态估计模型对所述视频图像序列中每个视频图像进行检测，包括：

4.根据权利要求3所述的方法，其特征在于，所述人体姿态估计模型包括预设关键点数量个输出通道，所述关键点数量为所述人体关键点的总数量；所述通过所述人体姿态估计模型对所述视频图像进行关键点检测，包括：

5.根据权利要求1～4任一项所述的方法，其特征在于，所述人体姿态估计模型为预设的沙漏网络。

6.根据权利要求1所述的方法，其特征在于，所述运动障碍检测模型的模型组成包括长短时记忆网络和分类器。

7.根据权利要求6所述的方法，其特征在于，所述分类器包括全连接网络层；所述通过预先训练好的运动障碍检测模型对所述姿态信息进行检测，包括：

8.一种基于视频的人体运动障碍检测装置，其特征在于，所述装置包括：

获取模块，用于获取预设人体目标的运动视频；

9.一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述方法的步骤。