CN117115926B

CN117115926B - 一种基于实时图像处理的人体动作标准判定方法及装置

Info

Publication number: CN117115926B
Application number: CN202311384470.8A
Authority: CN
Inventors: 岳昊嵩; 王亚龙
Original assignee: Tianjin Dashu Intelligent Technology Co ltd
Current assignee: Tianjin Dashu Intelligent Technology Co ltd
Priority date: 2023-10-25
Filing date: 2023-10-25
Publication date: 2024-02-06
Anticipated expiration: 2043-10-25
Also published as: CN117115926A

Abstract

本发明提供了一种基于实时图像处理的人体动作标准判定方法及装置，利用图像采集单元采集包含人体动作的连续的图像数据，处理单元根据连续的图像数据分析人体动作，得出分析结果，其中：在利用图像采集单元采集包含人体动作的连续的图像数据时，若存在采集画面的场地光照不均匀、明暗区域对比度过大的问题，采用基于深度学习的高动态范围成像方法进行处理，得到明暗均匀的高质量图像。本发明所述的一种基于实时图像处理的人体动作标准判定方法及装置，将关键点坐标作为参考，融合姿态分析和图像处理手段，提高了系统的精度和稳定性。

Description

一种基于实时图像处理的人体动作标准判定方法及装置

技术领域

本发明属于图像处理技术领域，尤其是涉及一种基于实时图像处理的人体动作标准判定方法及装置。

背景技术

如今，摄像机等图像采集设备被广泛的应用到针对多种运动项目的判定过程中，例如包括计数类（如跳绳）、测距类（如跳远）和计时类（如跑步）等；

但是在实际使用过程中，由于采集的环境不同等因素，导致人体关键点提取算法得到的关键点坐标含有大量噪声，容易受到测试环境的影响，且存在误检测的情况，因此直接用关键点坐标进行起跳和落地瞬间的判定以及成绩的计算，存在精度低、稳定性差的确定。

发明内容

有鉴于此，本发明旨在提出一种基于实时图像处理的人体动作标准判定方法及装置，以至少解决背景技术中的至少一个问题。

为达到上述目的，本发明的技术方案是这样实现的：

一种基于实时图像处理的人体动作标准判定方法，利用图像采集单元采集包含人体动作的连续的图像数据，处理单元根据连续的图像数据分析人体动作，得出分析结果，其中：

在利用图像采集单元采集包含人体动作的连续的图像数据时，若采集环境存在光照不均匀、明暗区域对比度过大的问题，采用基于深度学习的高动态范围成像方法进行处理，得到明暗均匀的高质量图像；

针对采集的图像数据，利用基于卷积神经网络的人体检测算法，检测出画面中的多个人体，并将整个图像分割成仅包含一个人体的图像块，从而实现多人同时处理；

针对得到的若干包含单个人体的图像块，采用预置的基于深度学习的人体关键点提取算法对每个分割的图像块进行处理，提取人体三维关键点信息，再对关键点坐标进行滤波处理。

进一步的，所述在利用图像采集单元采集包含人体动作的连续的图像数据时，若存在采集画面的场地光照不均匀、明暗区域对比度过大的问题，采用基于深度学习的高动态范围成像方法进行处理，得到明暗均匀的高质量图像，具体包括：

首先，利用编码器网络对输入的原始彩色图像进行转换，得到图像空间上下文的紧凑特征表示；

然后，利用在对数域中运行的HDR解码器网络对编码后的特征进行处理，得到重建的HDR图像；

编码器网络包括若干卷积层和最大池化层，解码器网络使用反卷积层实现双线性上采样，编码器和解码器之间添加了若干跳跃连接，用于在编码器和解码器中的高层和低层特征之间传输数据，避免高分辨率图像细节信息的丢失。

进一步的，所述针对采集的图像数据，利用基于卷积神经网络的人体检测算法，检测出画面中的多个人体，并将整个图像分割成仅包含一个人体的图像块，从而实现多人同时处理，具体包括：

对摄像机采集的原始彩色图像进行归一化和像素转换预处理；

针对预处理后的图像，利用多个卷积层和池化层提取图像的多尺度特征，从而检测图像中不同大小的目标；该方法引入了一个全局增强模块来融合轻量级网络中的全局视觉线索，然后从局部特征匹配任务的角度，通过新的深度增强学习方案对网络进行优化，从而将图像全局信息融入不同尺度的局部特征中。

使用全连接层将提取的多尺度特征映射成包含人体的边界框和对应的预测概率；

针对得到的预测概率，使用非极大值抑制方法来去除重叠的且概率较小的预测结果；

使用最终保留下来的边界框对原始图像进行分割，得到若干包含单个人体的图像块。

进一步的，所述针对得到的若干包含单个人体的图像块，采用预置的基于深度学习的人体关键点提取算法对每个分割的图像块进行处理，提取人体三维关键点信息，再对关键点坐标进行滤波处理，具体包括：

首先，将得到的每一个图像块进行不同尺度的缩放，得到若干不同尺寸的图像，将这些不同尺寸的图像输入前馈神经网络进而生成不同尺寸的特征图；

其次，使用最近邻插值法依次将上一层的特征图上采样到下一层特征图的大小并进行加权融合，从而将不同尺度的特征图结合，得到结合后的特征图；

再次，针对结合后的特征图，使用包含多个卷积层的金字塔形状的多分支结构，从不同的层次上提取各种尺度的特征，得到包含不同层次的特征图；

再次，将包含不同层次的特征图在通道维度上进行堆叠，以增加特征图的深度，从而让网络学习不同空间位置的特征，并将它们在同一层级上进行融合，并处理得到每个关键点的热力图；

最后，针对得到的热力图，从连续的图像帧中提取的每一个关键点坐标保存在一个数组中，在分析当前帧的关键点坐标时，从数组中提取出若干个相邻的关键点，并采用中值滤波的方法得到最终的关键点坐标。

进一步的，在需要测量人体移动距离或需要测量人体移动指定距离所用时间时，执行下述步骤：

首先，通过图像采集单元将采集的连续两帧图像作差，并进行二值化操作，得到二值化差值图像；

其次，利用预设的投影变换矩阵将采集的原始图像和二值化差值图像中的标准参考物变换到俯视视角，其中利用俯视的原始图像进行动作回放与检验，利用俯视的差值图像判断人体是否触发预警条件；

再次，跟踪人体关键点的相对位置坐标，以及关键点所形成的角度，找到测试者的接触设定位置瞬间，用该时刻的图像分析测试者的落地动作，用离开设定位置和接触设定位置之间的图像分析人体的运动过程。

进一步的，本方案公开了一种基于实时图像处理的人体动作标准判定装置，用于执行一种基于实时图像处理的人体动作标准判定方法。

进一步的，本方案公开了一种电子设备，包括处理器以及与处理器通信连接，且用于存储所述处理器可执行指令的存储器，所述处理器用于执行一种基于实时图像处理的人体动作标准判定方法。

进一步的，本方案公开了一种服务器，包括至少一个处理器，以及与所述处理器通信连接的存储器，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述处理器执行，以使所述至少一个处理器执行一种基于实时图像处理的人体动作标准判定方法。

进一步的，本方案公开了一种计算机可读取存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现一种基于实时图像处理的人体动作标准判定方法。

相对于现有技术，本发明所述的一种基于实时图像处理的人体动作标准判定方法及装置具有以下优势：

（1）本发明所述的一种基于实时图像处理的人体动作标准判定方法及装置，将关键点坐标作为参考，融合姿态分析和图像处理手段，提高了系统的精度和稳定性。

（2）本发明所述的一种基于实时图像处理的人体动作标准判定方法及装置，针对部分场地光照不均匀、明暗区域对比度过大的问题，采用基于深度学习的高动态范围成像方法进行处理，得到明暗均匀的高质量图像；采用基于卷积神经网络的人体检测算法，检测出画面中的多个人体，并将整个图像分割成仅包含一个人体的图像块，从而实现多人同时处理。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以通过具体情况理解上述术语在本发明中的具体含义。

下面将结合实施例来详细说明本发明。

本申请设计了一种基于实时图像处理的人体动作标准判定系统，可用于多种运动项目的判定，包括计数类（如跳绳）、测距类（如跳远）和计时类（如跑步）等。系统具有自学习、使用便捷、测量精度高等特点，可用于多种运动项目的自动测量与记录，并可以对测试者的动作进行技术数据分析。可广泛应用于体育运动项目的测试、健身锻炼指导、病人运动康复等领域。

该系统由一个主机、一台或多台摄像机、外部标准参考物等组成。若是计数类或测距类项目，需要一台摄像机；若是计时类项目，需要多台摄像机，用来检测起点、终点、过程点等。外部标准参考物在特定项目中使用，如在立定跳远和仰卧起坐等项目中可以使用测试垫，也可以利用测试场地上画的测试线。主机与摄像机之间可采用有线或无线连接，也可以采用将二者集成在一起的嵌入式设备；摄像机可以固定在三脚架上，也可以根据实际测试场地条件进行固定；外部标准参考物放置于摄像机的视野中偏下的位置，参考物应完整地出现在相机视野中，且其长边尽量与图像水平方向平行。

摄像机用于拍摄测试的全过程，并得到连续的图像序列。主机用于处理图像序列，得到测试数据，并分析测试者的动作，给出分析结果。

在搭建系统时，首先采用标准图像板对摄像机的内部参数和畸变系数进行标定，利用该参数可以对采集的图像进行去畸变处理，进而提高测量的精度。在放置外部标准参考物时，时刻查看摄像机采集的实时图像，调整摄像机与标准参考物的位置，使得标准参考物完整地出现在相机视野中靠下的位置，并尽量保证标准参考物长边与图像的水平方向平行，以提高测量的精度。可令算法在实时采集的图像中画一条水平线，以辅助标准参考物的摆放。摆放妥当后，算法可自动识别出标准参考物的标准点在图像中的位置，也可以采用人工点击鼠标的方式确定标准参考物标准点的位置。利用该位置坐标，可以得到一个投影变换矩阵：

用于将摄像机采集的斜视图像变换成俯视，从而方便后续的测量。变换公式如下：

其中[u,v]为原图中的像素点，[x,y]是变换后的像素点。

针对计数类运动项目的测量，本系统采用自学习的方法实现，因此在实际测试前需要进行训练。例如针对仰卧起坐项目，采集大量坐起和躺下两种状态的图像；针对引体向上项目，采集上杠和手臂伸直两种状态的图像。利用卷积神经网络提取图像中的三维人体骨架关键点，形成特征向量并转换为适合 k-NN分类器的数据，并使用这些数据形成训练集，完成分类算法的训练。

在实际测量时，具体步骤如下：

1）摄像机实时采集测试过程中的图像数据，主机算法处于待机模式；

2）测试者来到相机前方进行人脸识别，或者采用IC卡、二维码等其他方式识别身份，识别到身份后系统进入唤醒模式，并执行以下步骤；

3）根据测试场地的光照强度，自动调整摄像机的曝光时间；根据相机标定结果对图像进行去畸变处理，再进行高斯平滑滤掉传感器的观测噪声；

4）针对部分场地光照不均匀、明暗区域对比度过大的问题，采用基于深度学习的高动态范围成像（High Dynamic Range, HDR）方法进行处理，得到明暗均匀的高质量图像；具体来说，用一个编码器网络对输入的原始彩色图像进行转换，得到图像空间上下文的紧凑特征表示；用一个在对数域中运行的HDR解码器网络对编码后的特征进行处理，得到重建的HDR图像。编码器网络由若干卷积层和最大池化层构成，解码器网络使用反卷积层实现双线性上采样，编码器和解码器之间添加了若干跳跃连接，用于在编码器和解码器中的高层和低层特征之间传输数据，避免高分辨率图像细节信息的丢失。

5）采用基于卷积神经网络的人体检测算法，检测出画面中的多个人体，并将整个图像分割成仅包含一个人体的图像块，从而实现多人同时处理；具体来说，对摄像机采集的原始彩色图像进行归一化和像素转换等预处理；利用多个卷积层和池化层提取图像的多尺度特征，从而检测图像中不同大小的目标；使用全连接层将提取的特征图映射成包含人体的边界框和对应的预测概率；使用非极大值抑制方法来去除重叠的且概率较小的预测结果；使用最终保留下来的边界框对原始图像进行分割，得到若干包含单个人体的图像块。

6）采用预置的基于深度学习的人体关键点提取算法对每个分割的图像块进行处理，提取人体三维关键点信息，再对关键点坐标进行滤波处理；具体来说，将前一个步骤中得到的每一个图像块通过一个前馈过程生成不同尺寸的特征图；使用一个自顶向下的上采样模块将这些特征图结合起来；使用一个包含多个卷积层的金字塔形状的多分支结构，从不同的层次上提取各种尺度的特征；将不同尺寸的特征图拼接在一起，并处理得到每个关键点的热力图。将从连续的图像帧中提取的每一个关键点坐标保存在一个数组中，在分析当前帧的关键点坐标时，从数组中提取出若干个相邻的关键点，并采用中值滤波的方法得到最终的关键点坐标。

7）通过人体关键点坐标，判断测试者是否进入测试区；测试者可通过举起手臂等姿态与主机进行动作指令的交互，也可以通过语音的方式与主机进行交互；

8）主机发出准备动作指令，对于计时类项目以及需要限定时间的计数类项目，在发出开始指令后开始计时；

9）对于计数类项目，采用训练好的分类器对摄像机采集的实时图像进行分类，监测到一个完整的动作后计数值加一；

对于测距类和计时类项目，继续执行以下步骤：

10）将摄像机采集的每一帧图像与第一帧图像做差，并进行二值化操作，得到二值化差值图像；

11）利用系统搭建时得到的投影变换矩阵，将摄像机采集的原始图像和二值化差值图像中的起跑线、起跳线等标准参考物变换到俯视视角，其中俯视的原始图像可用于动作回放与检验，俯视的差值图像用于判断测试者是否踩线或抢跑犯规；

12）截取俯视的二值化插值图像中起跳线或起跑线附近的图像区域，进行是否踩线或抢跑的判断；可进行形态学操作，并提取连通区域，以减少噪声的影响；若检测到踩线或抢跑，进行声音提醒；

13）对于计时类项目，对终点处摄像机采集的图像同样进行步骤10-12的处理，判断测试者是否超过终点线，并记录相应赛道的测试结果；

对于测距类项目（如跳远），继续执行以下步骤：

14）通过分析人体关键点的相对位置坐标，以及关键点所形成的角度，找到测试者的起跳瞬间，用该时刻的图像分析测试者的起跳动作，且在此之后不再判断是否踩线；

15）跟踪人体关键点的相对位置坐标，以及关键点所形成的角度，找到测试者的落地瞬间，用该时刻的图像分析测试者的落地动作，用起跳和落地之间的图像分析测试者的跳跃过程；

16）在落地瞬间，提取俯视的二值化差值图像中测试者脚周围的图像区域，找到距离起跳线最近的像素点，通过俯视图与真实标准参考物的比例关系即可换算出测试者的跳远数据，而不需要进行三维坐标的计算；将该点变换回原图，并在原图上画出与起跳线平行的直线，从而更直观地展示测试结果；

17）在检测到测试者落地后，再持续监测2秒钟，判断测试者是否存在撤步或跌倒等情况，若出现该情况则更新跳远数据，否则直接播报跳远成绩；

18）测试者向前走出测试垫，完成测试，并可查看动作回放及动作分析报告。

19）系统保存测试数据，完整视频、关键帧、错误帧数据、技术动作数据等。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于实时图像处理的人体动作标准判定方法，其特征在于：

利用图像采集单元采集包含人体动作的连续的图像数据；

利用处理单元根据连续的图像数据分析人体动作，得出分析结果；

其中，在利用图像采集单元采集包含人体动作的连续的图像数据时，若采集环境存在光照不均匀、明暗区域对比度大的问题，采用基于深度学习的高动态范围成像方法进行处理，得到明暗均匀的高质量图像；

针对得到的若干包含单个人体的图像块，采用预置的基于深度学习的人体关键点提取算法对每个分割的图像块进行处理，提取人体三维关键点信息，再对关键点坐标进行滤波处理；

在需要测量人体移动距离或需要测量人体移动指定距离所用时间时，执行下述步骤：

首先，通过图像采集单元将采集的连续两帧图像转换成灰度图并作差，再进行二值化操作，得到二值化差值图像；

最后，跟踪人体关键点的相对位置坐标，以及关键点所形成的角度，找到测试者的接触设定位置瞬间，用该时刻的图像分析测试者的落地动作，用离开设定位置和接触设定位置之间的图像分析人体的运动过程。

2.根据权利要求1所述的一种基于实时图像处理的人体动作标准判定方法，其特征在于，所述在利用图像采集单元采集包含人体动作的连续的图像数据时，若存在采集画面的场地光照不均匀、明暗区域对比度大的问题，采用基于深度学习的高动态范围成像方法进行处理，得到明暗均匀的高质量图像，具体包括：

然后，利用在对数域中运行的HDR解码器网络对编码后的紧凑特征表示进行处理，得到重建的HDR图像；

其中，编码器网络包括若干卷积层和最大池化层，解码器网络使用反卷积层实现双线性上采样，在编码器和解码器之间添加了若干跳跃连接，用于在编码器和解码器中的高层和低层特征之间传输数据，避免高分辨率图像细节信息的丢失。

3.根据权利要求2所述的一种基于实时图像处理的人体动作标准判定方法，其特征在于，所述针对采集的图像数据，利用基于卷积神经网络的人体检测算法，检测出画面中的多个人体，并将整个图像分割成仅包含一个人体的图像块，从而实现多人同时处理，具体包括：

针对预处理后的图像，利用多个卷积层和池化层提取图像的多尺度特征，从而检测图像中不同大小的目标；

4.根据权利要求3所述的一种基于实时图像处理的人体动作标准判定方法，其特征在于，所述针对得到的若干包含单个人体的图像块，采用预置的基于深度学习的人体关键点提取算法对每个分割的图像块进行处理，提取人体三维关键点信息，再对关键点坐标进行滤波处理，具体包括：

5.一种基于实时图像处理的人体动作标准判定装置，其特征在于：用于执行权利要求1-4任一所述的一种基于实时图像处理的人体动作标准判定方法。

6.一种电子设备，包括处理器以及与处理器通信连接，且用于存储所述处理器可执行指令的存储器，其特征在于：所述处理器用于执行上述权利要求1-4任一所述的一种基于实时图像处理的人体动作标准判定方法。

7.一种服务器，其特征在于：包括至少一个处理器，以及与所述处理器通信连接的存储器，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述处理器执行，以使所述至少一个处理器执行如权利要求1-4任一所述的一种基于实时图像处理的人体动作标准判定方法。

8.一种计算机可读取存储介质，存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现权利要求1-4任一所述的一种基于实时图像处理的人体动作标准判定方法。