CN112163479A

CN112163479A - 动作检测方法、装置、计算机设备和计算机可读存储介质

Info

Publication number: CN112163479A
Application number: CN202010972532.7A
Authority: CN
Inventors: 张波; 王雷; 祁雷; 冯武
Original assignee: Guangzhou Huaduo Network Technology Co Ltd
Current assignee: Guangzhou Cubesili Information Technology Co Ltd
Priority date: 2020-09-16
Filing date: 2020-09-16
Publication date: 2021-01-01

Abstract

本申请涉及一种动作检测方法、装置、计算机设备和计算机可读存储介质。方法包括：获取目标主播的第一直播图像，并根据第一直播图像，获取第一直播图像中目标主播的各关键点的关键点坐标；根据各关键点坐标，检测目标主播针对预设动作的动作幅度是否大于第一幅度阈值；若动作幅度大于第一幅度阈值，则确定目标主播开始预设动作，并根据目标主播的至少一个第二直播图像，检测目标主播是否结束预设动作，第一直播图像和至少一个第二直播图像在时序上依次相邻；若目标主播结束预设动作，则确定目标主播完成一次预设动作。采用本方法能够对目标主播完成的有效动作进行准确检测。

Description

动作检测方法、装置、计算机设备和计算机可读存储介质

技术领域

本申请涉及互联网技术领域，特别是涉及一种动作检测方法、装置、计算机设备和计算机可读存储介质。

背景技术

随着计算机设备的普及以及网络的发展，依托于互联网的网络直播在人们的日常生活中已经越来越常见了。连麦是网络直播的一种重要形式，通过连麦，不同的主播可以进行互动，连麦界面可以同时展示不同主播分别对应的主播间画面，以供观众进行观看。

在主播连麦的过程中，主播之间可以通过才艺PK等互动方式来提升直播的趣味性。主播在互动的过程中，可能需要进行动作互动，如眨眼、扭腰等动作，根据主播完成的有效动作的次数，可以给主播折算相应的PK分数。

因此，如何对主播完成的有效动作进行准确检测，成为目前亟待解决的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够对目标主播完成的有效动作进行准确检测的动作检测方法、装置、计算机设备和计算机可读存储介质。

第一方面，本申请实施例提供一种动作检测方法，所述方法包括：

获取目标主播的第一直播图像，并根据所述第一直播图像，获取所述第一直播图像中所述目标主播的各关键点的关键点坐标；

根据各所述关键点坐标，检测所述目标主播针对预设动作的动作幅度是否大于第一幅度阈值；

若所述动作幅度大于所述第一幅度阈值，则确定所述目标主播开始所述预设动作，并根据所述目标主播的至少一个第二直播图像，检测所述目标主播是否结束所述预设动作，所述第一直播图像和所述至少一个第二直播图像在时序上依次相邻；

若所述目标主播结束所述预设动作，则确定所述目标主播完成一次所述预设动作。

在一个实施例中，所述根据所述目标主播的至少一个第二直播图像，检测所述目标主播是否结束所述预设动作，包括：

按照各所述第二直播图像从前到后的时序顺序，依次检测各所述第二直播图像中所述目标主播针对所述预设动作的动作幅度是否小于第二幅度阈值，所述第二幅度阈值小于所述第一幅度阈值；

若检测到目标第二直播图像中，所述目标主播针对所述预设动作的动作幅度小于所述第二幅度阈值，则确定所述目标主播结束所述预设动作。

在一个实施例中，所述根据各所述关键点坐标，检测所述目标主播针对预设动作的动作幅度是否大于第一幅度阈值，包括：

根据各所述关键点坐标，获取所述第一直播图像中所述目标主播的身体中轴线和竖直方向的夹角角度值；

若所述夹角角度值的绝对值大于预设角度阈值，则确定所述目标主播针对所述预设动作的动作幅度大于所述第一幅度阈值。

在一个实施例中，各所述关键点坐标包括左肩关键点坐标、右肩关键点坐标、左腰关键点坐标和右腰关键点坐标，所述根据各所述关键点坐标，获取所述第一直播图像中所述目标主播的身体中轴线和竖直方向的夹角角度值，包括：

根据所述左肩关键点坐标和所述右肩关键点坐标，获取第一中点坐标；

根据所述左腰关键点坐标和所述右腰关键点坐标，获取第二中点坐标；

根据所述第一中点坐标和所述第二中点坐标，计算所述第一直播图像中所述目标主播的身体中轴线和竖直方向的夹角角度值。

在一个实施例中，所述根据所述第一直播图像，获取所述第一直播图像中所述目标主播的各关键点的关键点坐标，包括：

获取所述目标人像与所述第一直播图像对应的目标位置框坐标；

根据所述目标位置框坐标，从所述第一直播图像中截取目标图像；

将所述目标图像输入至姿态估计模型中，得到各所述关键点的热力图；

根据各所述关键点的热力图，获取各所述关键点的关键点坐标。

在一个实施例中，所述获取所述目标人像与所述第一直播图像对应的目标位置框坐标，包括：

获取人像检测位置框坐标，所述人像检测位置框坐标是采用人像检测模型从所述第一直播图像之前的目标直播图像中，检测到的所述目标人像对应的位置框坐标；

按照预设的放大比例，对所述人像检测位置框坐标进行放大，得到所述目标位置框坐标。

在一个实施例中，所述根据各所述关键点的热力图，获取各所述关键点的关键点坐标，包括：

对于每个所述关键点的热力图，根据所述热力图获取所述关键点在所述目标图像中的目标坐标；

根据所述目标图像在所述第一直播图像中的位置和所述关键点在所述目标图像中的目标坐标，获取所述关键点在所述第一直播图像中的关键点坐标。

在一个实施例中，所述将所述目标图像输入至姿态估计模型中，得到各所述关键点的热力图，包括：

将所述目标图像输入至仿射变换模型中，得到所述目标图像对应的仿射变换参数；

采用所述仿射变换参数对所述目标图像进行仿射变换，得到校正后的图像；

将所述校正后的图像输入至所述姿态估计模型中，得到各所述关键点的热力图。

对于每个所述关键点的热力图，根据所述热力图获取所述关键点在所述校正后的图像中的校正坐标；

根据所述仿射变换参数，对所述校正坐标进行逆变换，得到所述关键点在所述目标图像中的目标坐标；

在一个实施例中，所述方法还包括：

检测所述目标图像与前一帧截取图像之间的相似度，所述前一帧截取图像是从所述第一直播图像之前的第三直播图像中截取的与所述目标人像对应的图像，所述第三直播图像与所述第一目标图像在时序上相邻；

若所述目标图像与所述前一帧截取图像之间的相似度小于相似度阈值，则执行所述将所述目标图像输入至姿态估计模型中，得到各所述关键点的热力图的步骤。

在一个实施例中，所述检测所述目标图像与前一帧截取图像之间的相似度，包括：

对所述目标图像进行哈希处理，得到第一哈希值；

对所述前一帧截取图像进行哈希处理，得到第二哈希值；

计算所述第一哈希值和所述第二哈希值的差值绝对值；

若所述差值绝对值大于差值阈值，则确定所述目标图像与所述前一帧截取图像之间的相似度小于所述相似度阈值；

若所述差值绝对值小于或者等于所述差值阈值，则确定所述目标图像与所述前一帧截取图像的相似度大于或者等于所述相似度阈值。

在一个实施例中，所述检测所述目标图像与前一帧截取图像之间的相似度之后，所述方法还包括：

若所述目标图像与所述前一帧截取图像之间的相似度大于或者等于所述相似度阈值，则将所述第三直播图像中所述目标主播的各关键点的关键点坐标确定为所述第一直播图像中所述目标主播的各关键点的关键点坐标。

在一个实施例中，所述方法还包括：

获取样本目标图像；

对所述样本目标图像进行仿射变换，得到对偶样本图像；

根据所述样本目标图像和所述对偶样本图像，训练初始姿态估计模型，得到所述姿态估计模型；

其中，在一次中间迭代过程中，将所述样本目标图像和所述对偶样本图像输入至中间姿态估计模型中，得到所述样本目标图像对应的第一预测关键点坐标和所述对偶样本图像对应的第二预测关键点坐标；对所述第一预测关键点坐标进行仿射变换，得到校正预测点坐标；根据所述第二预测关键点坐标和所述校正预测点坐标计算当前迭代过程对应的损失值；根据所述损失值调整所述中间姿态估计模型的模型参数。

第二方面，本申请实施例提供一种动作检测装置，所述装置包括：

获取模块，用于获取目标主播的第一直播图像，并根据所述第一直播图像，获取所述第一直播图像中所述目标主播的各关键点的关键点坐标；

第一检测模块，用于根据各所述关键点坐标，检测所述目标主播针对预设动作的动作幅度是否大于第一幅度阈值；

第二检测模块，用于若所述动作幅度大于所述第一幅度阈值，则确定所述目标主播开始所述预设动作，并根据所述目标主播的至少一个第二直播图像，检测所述目标主播是否结束所述预设动作，所述第一直播图像和所述至少一个第二直播图像在时序上依次相邻；

确定模块，用于若所述目标主播结束所述预设动作，则确定所述目标主播完成一次所述预设动作。

第三方面，本申请实施例提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面的方法的步骤。

第四方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面的方法的步骤。

本申请实施例提供的技术方案带来的有益效果至少包括：

通过获取目标主播的第一直播图像，并根据第一直播图像，获取第一直播图像中目标主播的各关键点的关键点坐标，接着，根据各关键点坐标，检测目标主播针对预设动作的动作幅度是否大于第一幅度阈值，若该动作幅度大于第一幅度阈值，则确定目标主播开始预设动作，而后，根据目标主播的至少一个第二直播图像，检测目标主播是否结束预设动作；这样，在动作幅度较大的情况下，才确定目标主播开始预设动作，而当目标主播发生小幅度的人体运动时并不认为目标主播开始预设动作，若目标主播结束预设动作，则确定目标主播完成一次有效的预设动作，实现了对目标主播的预设动作的有效检测。

附图说明

图1为一种示例性的连麦界面的示意图；

图2为一个实施例中动作检测方法的流程示意图；

图3为一种示例性的人像的关键点的示意图；

图4为一个实施例中步骤202的流程示意图；

图5为一种示例性的第一直播图像中目标主播扭腰动作以及对应各关键点的示意图；

图6为一种示例性的目标第二直播图像中目标主播扭腰动作以及对应各关键点的示意图；

图7为一个实施例中终端根据第一直播图像获取第一直播图像中目标主播的各关键点的关键点坐标的流程示意图；

图8为一种示例性的姿态估计模型的网络结构示意图；

图9为一个实施例中步骤703的流程示意图；

图10为一个实施例中步骤704的流程示意图；

图11为一个实施例中终端基于目标图像与前一帧截取图像之间的相似度获取第一直播图像中目标主播的各关键点的关键点坐标的流程示意图；

图12为一个实施例中姿态估计模型的训练过程示意图；

图13为一个实施例中动作检测装置的结构框图；

图14为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

随着计算机设备的普及以及网络的发展，依托于互联网的网络直播在人们的日常生活中已经越来越常见了。连麦是网络直播的一种重要形式，通过连麦，不同的主播可以进行互动，主播所持有的终端和观众所持有的终端的连麦界面中可以同时展示不同主播分别对应的主播间画面。

例如，参见图1，其为一种示例性的连麦界面的示意图。图1所示的连麦界面包括左右两个主播间画面，连麦界面左侧的主播间画面为第一主播的画面，连麦界面右侧的主播间画面为第二主播的画面。在第一主播和第二主播连麦的过程中，第一主播和第二主播可以通过才艺PK等互动方式来提升直播的趣味性，在互动的过程中，第一主播和第二主播可能需要进行动作互动，例如，第一主播和/或第二主播进行眨眼、扭腰等动作。

以第一主播进行扭腰动作为例，第一主播所持有的终端需要根据第一主播完成的有效扭腰动作的次数，折算相应的PK分数增加至第一主播的PK得分中，这就需要第一主播所持有的终端对第一主播完成的有效扭腰动作进行准确检测。因此，如何对主播完成的有效动作进行准确检测，成为目前亟待解决的问题。

鉴于此，本申请实施例提供了一种动作检测方法，在该动作检测方法中，通过获取目标主播的第一直播图像，并根据第一直播图像，获取第一直播图像中目标主播的各关键点的关键点坐标，接着，根据各关键点坐标，检测目标主播针对预设动作的动作幅度是否大于第一幅度阈值，若该动作幅度大于第一幅度阈值，则确定目标主播开始预设动作，而后，根据目标主播的至少一个第二直播图像，检测目标主播是否结束预设动作；这样，在动作幅度较大的情况下，才确定目标主播开始预设动作，而当目标主播发生小幅度的人体运动时并不认为目标主播开始预设动作，若目标主播结束预设动作，则确定目标主播完成一次有效的预设动作，实现了对目标主播的预设动作的有效检测。

本申请提供的动作检测方法，可以应用于任意一个主播(下文称其为目标主播)的终端中。终端可以是个人计算机、笔记本电脑、媒体播放器、智能电视、智能手机、平板电脑和便携式可穿戴设备等，本申请实施例对终端的类型也不作具体限定。

在一个实施例中，如图2所示，提供了一种动作检测方法，包括以下步骤：

步骤201，获取目标主播的第一直播图像，并根据第一直播图像，获取第一直播图像中目标主播的各关键点的关键点坐标。

本申请实施例中，目标主播通过终端进行网络直播时，终端可以拍摄目标主播得到目标主播的直播视频。终端需要对目标主播进行动作检测时，则从直播视频中抽取当前时刻对应的视频帧，终端则获取到目标主播的第一直播图像。

终端进行动作检测的时机，可以是接收到目标主播输入的指令，如动作计数指令、动作计分指令后，则执行动作检测的过程。终端进行动作检测的时机还可以是在检测到触发事件后则执行动作检测的过程，触发事件例如：在目标主播进行主播连麦、与其他主播PK的过程中，若终端检测到目标主播的PK得分落后，则执行动作检测的过程，在该种应用场景中，终端检测到目标主播的PK得分落后，终端还可以在目标主播的主播间画面中展示运动特效提示目标主播进行预设动作，然后执行动作检测的过程。本实施例对终端进行动作检测的时机不做限制。

终端根据第一直播图像，获取第一直播图像中目标主播的各关键点的关键点坐标。关键点又称关节点或者骨架点，一个完整人像包括人体骨架的25个关键点，参见图3，图3为一种示例性的一个完整人像的关键点的示意图。如图3所示，25个关键点包括：鼻子0、脖子1、右肩2、右手肘3、右手腕4、左肩5、左手肘6、左手腕7、骶骨8、右腰9、右膝盖10、右脚踝11、左腰12、左膝盖13、左脚踝14、右眼15、左眼16、右耳17、左耳18、左脚趾一19、左脚趾二20、左脚跟21、右脚趾一22、右脚趾二23、右脚跟24。

本申请实施例中，终端获取的第一直播图像中目标主播的各关键点的关键点坐标，可以是上述25个关键点中部分关键点的坐标或者全部关键点的坐标，在此不做具体限制。

作为一种实施方式，终端可以通过基于神经网络的姿态估计模型对第一直播图像进行特征提取以及各关键点的关键点坐标的确定。在另一种实施方式中，终端还可以将第一直播图像之前相邻的直播图像中的各关键点的关键点坐标确定为第一直播图像中目标主播的各关键点的关键点坐标，在此不做具体限制。

步骤202，根据各关键点坐标，检测目标主播针对预设动作的动作幅度是否大于第一幅度阈值。

目标主播不同的动作幅度，第一直播图像中目标主播的各关键点的关键点坐标也不同，因此，终端根据第一直播图像中目标主播的各关键点的关键点坐标，可以确定目标主播针对预设动作的动作幅度的大小。

以预设动作是扭腰为例，终端根据各关键点坐标，计算目标主播的身体中轴线和竖直方向的夹角，该夹角越大，则表征目标主播的扭腰动作的幅度越大；以深蹲动作为例，终端根据各关键点坐标，计算目标主播的膝盖关键点和脚踝关键点的距离，距离越近，则表征目标主播的深蹲动作的幅度越大，等等，根据角度、距离等参数，终端可以量化目标主播针对预设动作的动作幅度的大小。

终端检测目标主播针对预设动作的动作幅度是否大于第一幅度阈值，例如，若通过角度量化动作幅度，终端则检测夹角角度值的绝对值是否大于预设角度阈值，以此来确定目标主播针对预设动作的动作幅度是否大于第一幅度阈值；若通过关键点之间的距离量化动作幅度，终端则检测计算的距离的绝对值是否大于预设距离阈值，以此来确定目标主播针对预设动作的动作幅度是否大于第一幅度阈值。

步骤203，若动作幅度大于第一幅度阈值，则确定目标主播开始预设动作，并根据目标主播的至少一个第二直播图像，检测目标主播是否结束预设动作。

终端若检测到动作幅度大于第一幅度阈值，则确定目标主播开始预设动作。而若终端检测到动作幅度小于或者等于第一幅度阈值，则确定目标主播未开始预设动作，终端则可以获取第一直播图像之后相邻的直播图像继续检测目标主播是否开始预设动作。

终端检测到目标主播开始预设动作后，根据目标主播的至少一个第二直播图像，检测目标主播是否结束预设动作，该第一直播图像和至少一个第二直播图像在时序上依次相邻。

例如，至少一个第二直播图像包括第二直播图像1、第二直播图像2、第二直播图像3......第二直播图像n，第一直播图像、第二直播图像1、第二直播图像2、第二直播图像3......第二直播图像n为目标主播的直播视频中连续的视频帧。终端从第一直播图像中检测到目标主播开始预设动作后，则从第一直播图像之后相邻的第二直播图像1中检测目标主播是否结束预设动作，若未结束，终端则继续从该第二直播图像1之后相邻的第二直播图像2中检测目标主播是否结束预设动作，以此类推。

在一种可能的实施方式中，终端根据目标主播的至少一个第二直播图像，检测目标主播是否结束预设动作的过程，可以通过执行如下步骤A11和步骤A12实现：

步骤A11，按照各第二直播图像从前到后的时序顺序，依次检测各第二直播图像中目标主播针对预设动作的动作幅度是否小于第二幅度阈值。

本申请实施例中，与上述终端根据各关键点坐标，检测目标主播针对预设动作的动作幅度是否大于第一幅度阈值的过程类似，终端可以根据各关键点对应的角度、距离等参数，量化第二直播图像中目标主播针对预设动作的动作幅度的大小。

终端基于第二直播图像量化目标主播针对预设动作的动作幅度的大小后，终端检测第二直播图像中目标主播针对预设动作的动作幅度是否小于第二幅度阈值，第二幅度阈值小于第一幅度阈值。

步骤A12，若检测到目标第二直播图像中，目标主播针对预设动作的动作幅度小于第二幅度阈值，则确定目标主播结束预设动作。

终端在依次检测第二直播图像的过程中，若从某个第二直播图像(即目标第二直播图像)中，检测到目标主播针对预设动作的动作幅度小于第二幅度阈值，则表征目标主播的动作幅度由第一直播图像中的大幅度变的比较小了，从而确定目标主播结束预设动作。

步骤204，若目标主播结束预设动作，则确定目标主播完成一次预设动作。

终端通过执行步骤203的步骤，若在某个第二直播图像中检测到目标主播结束预设动作，终端则确定目标主播完成一次预设动作。这样，终端则完成目标主播的一次预设动作的有效检测。

在一种可能的实施方式中，终端可以继续检测第一直播图像之后相邻的直播图像中目标主播是否开始预设动作，这样，实现预设动作的计数，或者，终端还可以根据目标主播的预设动作的累计次数，计算该预设动作的累计次数折算相应的PK分数，等等。

例如，在目标主播进行主播连麦，与其他主播PK的过程中，若终端检测到目标主播的PK得分落后(例如接收到服务器发送的得分落后的通知)，终端则可以在目标主播的主播间画面中展示运动特效提示目标主播进行预设动作，终端执行上述动作检测的过程，对目标主播完成的有效的预设动作进行计数，并根据预设动作的累计次数折算相应的PK分数累积到目标主播的PK分数中，帮助目标主播缩小甚至赶超PK分数差距，提升连麦PK活动的可玩性和趣味性。

上述实施例通过获取目标主播的第一直播图像，并根据第一直播图像，获取第一直播图像中目标主播的各关键点的关键点坐标，接着，根据各关键点坐标，检测目标主播针对预设动作的动作幅度是否大于第一幅度阈值，若该动作幅度大于第一幅度阈值，则确定目标主播开始预设动作，而后，根据目标主播的至少一个第二直播图像，检测目标主播是否结束预设动作；这样，在动作幅度较大的情况下，才确定目标主播开始预设动作，而当目标主播发生小幅度的人体运动时并不认为目标主播开始预设动作，若目标主播结束预设动作，则确定目标主播完成一次有效的预设动作，实现了对目标主播的预设动作的有效检测。

在一个实施例中，基于上述图2所示的实施例，参见图4，本实施例涉及的是终端如何根据各关键点坐标，检测目标主播针对预设动作的动作幅度是否大于第一幅度阈值的过程。如图4所示，步骤202可以包括步骤2021和步骤2022：

步骤2021，根据各关键点坐标，获取第一直播图像中目标主播的身体中轴线和竖直方向的夹角角度值。

本实施例中，以预设动作是扭腰动作为例，终端具体根据目标主播的身体中轴线和竖直方向的夹角角度值，量化第一直播图像中目标主播针对预设动作的动作幅度的大小。

终端根据各关键点坐标，获取第一直播图像中目标主播的身体中轴线和竖直方向的夹角角度值，该夹角角度值表征了目标主播的身体中轴线偏离竖直方向的程度，该夹角角度值越大，表征目标主播的身体中轴线偏离竖直方向的程度越大，即目标主播进行扭腰动作的动作幅度越大。

在步骤2021一种可能的实施方式中，各关键点坐标包括左肩关键点坐标、右肩关键点坐标、左腰关键点坐标和右腰关键点坐标，终端可以通过执行如下步骤A21、步骤A22和步骤A23实现步骤2021的过程：

步骤A21，根据左肩关键点坐标和右肩关键点坐标，获取第一中点坐标。

终端根据左肩关键点坐标和右肩关键点坐标，计算左肩关键点和右肩关键点之间的中点的坐标，即第一中点坐标。

步骤A22，根据左腰关键点坐标和右腰关键点坐标，获取第二中点坐标。

终端根据左腰关键点坐标和右腰关键点坐标，计算左腰关键点和右腰关键点之间的中点的坐标，即第二中点坐标。

步骤A23，根据第一中点坐标和第二中点坐标，计算第一直播图像中目标主播的身体中轴线和竖直方向的夹角角度值。

第一中点坐标和第二中点坐标之间的连线即为目标主播的身体中轴线，终端根据第一中点坐标和第二中点坐标，计算第一直播图像中目标主播的身体中轴线和竖直方向的夹角角度值。

参见图5，图5为一种示例性的第一直播图像中目标主播扭腰动作以及对应各关键点的示意图。如图5所示，区域1为目标主播扭腰动作的示意图，区域2为区域1对应的各关键点的示意图。

目标主播的左肩关键点坐标为

右肩关键点坐标为

左肩关键点和右肩关键点之间的中点的坐标，即第一中点坐标为

目标主播的左腰关键点坐标为

右腰关键点坐标为

左腰关键点和右腰关键点之间的中点的坐标，即第二中点坐标为

终端可以采用如下公式1计算第一直播图像中目标主播的身体中轴线和竖直方向的夹角θ的夹角角度值：

其中，

由此，终端计算得到第一直播图像中目标主播的身体中轴线和竖直方向的夹角角度值。

步骤2022，若夹角角度值的绝对值大于预设角度阈值，则确定目标主播针对预设动作的动作幅度大于第一幅度阈值。

终端若检测到夹角角度值的绝对值大于预设角度阈值，则确定目标主播针对预设动作的动作幅度大于第一幅度阈值，即目标主播针对预设动作的动作幅度较大，该预设角度阈值在实施时可以自行设置，例如，预设角度阈值的取值范围为8～15。

终端确定目标主播针对预设动作的动作幅度大于第一幅度阈值，终端则确定目标主播开始预设动作，并根据目标主播的至少一个第二直播图像，检测目标主播是否结束预设动作。

在一种可能的实施方式中，参见图6，图6为一种示例性的目标第二直播图像中目标主播扭腰动作以及对应各关键点的示意图。与图5类似，如图6所示，区域1为目标主播扭腰动作的示意图，区域2为区域1对应的各关键点的示意图。

终端根据目标第二直播图像中左肩关键点坐标和右肩关键点坐标，获取第一中点坐标，终端根据目标第二直播图像中左腰关键点坐标和右腰关键点坐标，获取第二中点坐标，接着，终端根据目标第二直播图像中第一中点坐标和第二中点坐标，计算目标第二直播图像中目标主播的身体中轴线和竖直方向的夹角角度值，终端计算目标第二直播图像中目标主播的身体中轴线和竖直方向的夹角角度值的过程和上述步骤2021的过程类似，在此不再赘述。

由此，终端通过上述步骤，检测到目标第二直播图像中目标主播的身体中轴线和竖直方向的夹角角度值小于或者等于目标角度阈值，则确定目标主播针对预设动作的动作幅度小于第二幅度阈值，从而确定目标主播结束预设动作，确定目标主播完成一次预设动作，这样，实现了对目标主播的预设动作的有效检测。

在一个实施例中，在上述图2所示实施例的基础上，参见图7，本实施例涉及的是终端如何根据第一直播图像，获取第一直播图像中目标主播的各关键点的关键点坐标的过程。如图7所示，该过程包括步骤701、步骤702、步骤703和步骤704：

步骤701，获取目标人像与第一直播图像对应的目标位置框坐标。

本申请实施例中，终端获取目标人像与第一直播图像对应的目标位置框坐标，可以是将第一直播图像输入至人像检测模型中，得到目标人像与第一直播图像对应的目标位置框坐标。

在步骤701另一种可能的实施方式中，终端可以通过执行如下步骤A31和步骤A32实现步骤701的过程：

A31，获取人像检测位置框坐标。

其中，人像检测位置框坐标可以是终端采用人像检测模型从第一直播图像之前的目标直播图像中，检测到的目标人像对应的位置框坐标。

A32，按照预设的放大比例，对人像检测位置框坐标进行放大，得到目标位置框坐标。

也即，终端采用人像检测模型对目标直播图像进行人像检测，得到目标人像在该目标直播图像中对应的人像检测位置框坐标，终端获取该人像检测位置框坐标，并按照预设的放大比例，对人像检测位置框坐标进行放大，得到目标位置框坐标，例如，终端对人像检测位置框坐标放大1.1～1.3倍，则得到目标位置框坐标。作为一种实施方式，目标直播图像和第一直播图像之间间隔的直播图像帧数可以在5～15之间。

本申请实施例中，终端在进行动作检测时，需要从直播图像中截取目标主播的人像区域，终端对每一帧的直播图像进行检测时，可以每间隔预设帧数，利用人像检测模型检测一次人像检测位置框坐标，预设帧数例如可以是5～15帧。例如，终端可以采用人像检测模型检测第1帧的直播图像中的人像检测位置框坐标、采用人像检测模型检测第11帧的直播图像中的人像检测位置框坐标、采用人像检测模型检测第21帧的直播图像中的人像检测位置框坐标，等等，这样终端可以按照预设的放大比例，对第1帧的直播图像中的人像检测位置框坐标进行放大，得到第2帧～第9帧的人像检测位置框坐标，即目标位置框坐标；同样地，终端可以按照预设的放大比例，对第11帧的直播图像中的人像检测位置框坐标进行放大，得到第12帧～第19帧的人像检测位置框坐标，以此类推。

这样，终端则不必对每帧的直播图像均进行人像检测，大大降低了终端的计算量，提升了终端动作检测的效率。

本申请实施例中，人像检测模型是对以MnasNet作为骨干网络、yolov3作为检测框架的机器学习模型进行通道裁剪后训练产生的，通道裁剪有利于降低人像检测模型的检测计算量，节约终端的计算资源。

该人像检测模型对应的9个anchors的长宽数值，可以是终端首先对人像检测模型的所有训练样本图像，按人像检测模型的输入尺寸缩放后得到多个真实人像位置框，接着，终端采用KMeans聚类算法对该多个真实人像位置框的尺寸进行聚类得到的，从而有利于提升人像检测模型的准确性。

步骤702，根据目标位置框坐标，从第一直播图像中截取目标图像。

步骤703，将目标图像输入至姿态估计模型中，得到各关键点的热力图。

终端根据目标位置框坐标，从第一直播图像中截取目标图像，接着，终端将目标图像输入至姿态估计模型中，得到各关键点的热力图。

本申请实施例中，姿态估计模型可以是利用以Resnet18+FPN为基础，裁剪后的神经网络模型。

参见图8，图8为一种示例性的姿态估计模型的网络结构示意图。

如图8所示，该示例性的姿态估计模型为two-Stage(两阶段)的模型，每个Stage均为Resnet18+FPN的框架，标号①的网络层为卷积层1(conv1)，标号②的网络层为卷积层2(conv1)，标号③的网络层为卷积层3(conv3)，标号④的网络层为沙漏型卷积层(Bottleneck conv)，标号⑤的网络层为上采样层(Upsample),标号⑥的网络层为posehead层。

终端将目标图像从Stage1输入至姿态估计模型中，姿态估计模型将Stage2的最后一层特征图通过可分离卷积层映射得到各关键点的热力图。

在其它实施例中，姿态估计模型也可以包括比二更多或者更少的Stage，在此不做具体限制。

步骤704，根据各关键点的热力图，获取各关键点的关键点坐标。

终端将目标图像输入至姿态估计模型中，得到各关键点的热力图后，终端根据各关键点的热力图，获取各关键点的关键点坐标，每个关键点对应一个热力图。

在步骤704一种可能的实施方式中，终端可以执行如下步骤A41和步骤A42实现步骤704的过程：

步骤A41，对于每个关键点的热力图，根据热力图获取关键点在目标图像中的目标坐标。

终端对于一个关键点的热力图，终端采用soft-argmax算法回归得到归一化的该关键点的目标坐标。通过采用soft-argmax算法，可以提升目标坐标的准确性。

步骤A42，根据目标图像在第一直播图像中的位置和关键点在目标图像中的目标坐标，获取关键点在第一直播图像中的关键点坐标。

目标坐标为关键点在目标图像中的坐标，终端根据目标图像在第一直播图像中的位置和关键点在目标图像中的目标坐标，获取关键点在第一直播图像中的关键点坐标。

作为一种实施方式，终端确定目标图像在第一直播图像中的位置，从而得到目标图像在第一直播图像中的左上角的坐标，终端对关键点在目标图像中的目标坐标累加该左上角的坐标，则得到第一直播图像中的关键点坐标。

本申请实施例中，终端通过获取目标人像与第一直播图像对应的目标位置框坐标；根据目标位置框坐标，从第一直播图像中截取目标图像；将目标图像输入至姿态估计模型中，得到各关键点的热力图，由于姿态估计模型是利用以Resnet18+FPN为基础裁剪后的神经网络模型，从而可以降低终端的计算资源的占用，提升终端获取各关键点的关键点坐标的速度，提升终端动作检测的速度，另外，由于对计算资源的需求量小，因此，即使终端的CPU性能较差，也能实现快速的动作检测，提升动作检测的实时性。

在一个实施例中，在步骤703另一种可能的实施方式中，参见图9，终端还可以通过执行图9所示的步骤7031、步骤7032和步骤7033实现步骤703的过程：

步骤7031，将目标图像输入至仿射变换模型中，得到目标图像对应的仿射变换参数。

本申请实施例中，为了避免目标位置框坐标存在误差，终端对截取的目标图像进行校正，以此提升关键点坐标的准确性。

终端将目标图像输入至仿射变换模型中，得到目标图像对应的仿射变换参数。本申请实施例中，仿射变换模型可以包括依次连接的多个普通卷积层，例如，10个3x3的卷积层，每个卷积层后面依次连接有归一化BN层和ReLU激活层，最后再连接2个1x1的卷积层，最后一层卷积层的输出通道数为6，终端将目标图像输入至仿射变换模型中，得到目标图像对应的仿射变换参数，仿射变换参数为6个参数，表征平移、旋转、放缩、剪切、反射等参数。

终端根据该仿射变换参数，即可对目标图像进行校正，以使目标主播的人像处于目标图像的中间位置，提升动作检测的准确性。

步骤7032，采用仿射变换参数对目标图像进行仿射变换，得到校正后的图像。

步骤7033，将校正后的图像输入至姿态估计模型中，得到各关键点的热力图。

终端采用仿射变换参数对目标图像进行仿射变换，得到校正后的图像，然后，终端再将校正后的图像输入至姿态估计模型中，得到各关键点的热力图。

由于目标图像经过了仿射变换，因此，对于基于步骤7033的热力图得到的关键点在校正后的图像中的校正坐标，终端需要进行与仿射变换对应的逆变换，才能将关键点在校正后的图像中的校正坐标转化为关键点在第一直播图像中的关键点坐标。

在步骤704一种可能的方式中，在图9所示的实施例的基础上，参见图10，步骤704可以包括如图10所示的步骤7041、步骤7042和步骤7043：

步骤7041，对于每个关键点的热力图，根据热力图获取关键点在校正后的图像中的校正坐标。

对于每个关键点的热力图，终端根据热力图获取关键点在校正后的图像中的校正坐标的过程与步骤A41类似，终端对于一个关键点的热力图，终端采用soft-argmax算法回归得到归一化的该关键点在校正后的图像中的校正坐标。

步骤7042，根据仿射变换参数，对校正坐标进行逆变换，得到关键点在目标图像中的目标坐标。

终端根据仿射变换参数，对校正坐标进行坐标逆变换，得到关键点在目标图像中的目标坐标。

步骤7043，根据目标图像在第一直播图像中的位置和关键点在目标图像中的目标坐标，获取关键点在第一直播图像中的关键点坐标。

终端确定目标图像在第一直播图像中的位置，从而得到目标图像在第一直播图像中的左上角的坐标，终端对关键点在目标图像中的目标坐标加上该左上角的坐标，则得到第一直播图像中的关键点坐标。

本申请实施例中，通过采用仿射变换参数对目标图像进行校正，避免了由于目标位置框坐标存在误差导致的提取的关键点坐标产生误差的情况，从而影响了终端的动作检测的准确性，终端根据该仿射变换参数，对目标图像进行校正，以使目标主播的人像处于目标图像的中间位置，从而提升了动作检测的准确性。

在一个实施例中，基于上述图7所示的实施例，参见图11，本实施例涉及的是终端基于目标图像与前一帧截取图像之间的相似度获取第一直播图像中目标主播的各关键点的关键点坐标的过程。如图11所示，该过程包括步骤801、步骤802和步骤803：

步骤801，检测目标图像与前一帧截取图像之间的相似度。

前一帧截取图像是从第一直播图像之前的第三直播图像中截取的与目标人像对应的图像，第三直播图像与第一目标图像在时序上相邻。

终端获取目标主播的第一直播图像，然后获取目标人像与第一直播图像对应的目标位置框坐标，并根据目标位置框坐标，从第一直播图像中截取目标图像。终端检测目标图像与前一帧截取图像之间的相似度，该前一帧截取图像是终端从第一直播图像之前相邻的第三直播图像中根据目标人像对应的人像检测位置框坐标截取得到的。

在一种可能的实施方式中，步骤804可以包括如下步骤A51，步骤A52、步骤A53、步骤A54以及步骤A55：

步骤A51，对目标图像进行哈希处理，得到第一哈希值。

步骤A52，对前一帧截取图像进行哈希处理，得到第二哈希值。

步骤A53，计算第一哈希值和第二哈希值的差值绝对值。

步骤A54，若差值绝对值大于差值阈值，则目标图像与前一帧截取图像之间的相似度小于相似度阈值。

步骤A55，若差值绝对值小于或者等于差值阈值，则确定目标图像与前一帧截取图像的相似度大于或者等于相似度阈值。

本申请实施例中，终端可以采用差异哈希算法，对目标图像进行哈希处理，得到第一哈希值，以及对前一帧截取图像进行哈希处理，得到第二哈希值，终端计算第一哈希值和第二哈希值的差值绝对值，若差值绝对值大于差值阈值，终端则确定目标图像与前一帧截取图像之间的相似度小于相似度阈值，即目标图像和前一帧截取图像的相似度较小；若差值绝对值小于或者等于差值阈值，终端则确定目标图像与前一帧截取图像的相似度大于或者等于相似度阈值，即目标图像和前一帧截取图像的相似度较大，目标图像和前一帧截取图像高度相似。

步骤802，若目标图像与前一帧截取图像之间的相似度小于相似度阈值，则执行将目标图像输入至姿态估计模型中，得到各关键点的热力图的步骤。

若目标图像与前一帧截取图像之间的相似度小于相似度阈值，则表征目标图像和前一帧截取图像的相似度较小，因此，前一帧截取图像的关键点坐标对目标图像不具有参考性，终端则将根据图7所示的实施例，终端将目标图像输入至姿态估计模型中，得到各关键点的热力图，根据各关键点的热力图，获取各关键点的关键点坐标。

步骤803，若目标图像与前一帧截取图像之间的相似度大于或者等于相似度阈值，则将第三直播图像中目标主播的各关键点的关键点坐标确定为第一直播图像中目标主播的各关键点的关键点坐标。

若目标图像与前一帧截取图像之间的相似度大于或者等于相似度阈值，则表征目标图像和前一帧截取图像高度相似，从而终端确定第一直播图像的各关键点位置和上一帧保持不变，即和第三直播图像中的关键点位置保持不变。因此，终端则将第三直播图像中目标主播的各关键点的关键点坐标确定为第一直播图像中目标主播的各关键点的关键点坐标，这样，终端不必再重新计算第一直播图像中目标主播的各关键点的关键点坐标，进一步减小了终端的数据计算量，提升终端获取各关键点的关键点坐标的速度，提升终端动作检测的速度。

在一个实施例中，基于上述图7所示的实施例，参见图12，本实施例涉及的是姿态估计模型的训练过程。如图12所示，该过程包括步骤901、步骤902和步骤903：

步骤901，获取样本目标图像。

步骤902，对样本目标图像进行仿射变换，得到对偶样本图像。

步骤903，根据样本目标图像和对偶样本图像，训练初始姿态估计模型，得到姿态估计模型。

本申请实施例中，为了提升训练样本的丰富性，终端对获取的样本目标图像进行仿射变换，得到对偶样本图像。终端根据样本目标图像和对偶样本图像，训练初始姿态估计模型，得到姿态估计模型，这样，姿态估计模型在训练过程中可以学习到经过仿射变换后的图像的特征，从而在姿态估计模型的应用过程中，能够对存在平移、缩放或旋转等小幅度范围内的抖动的直播图像具有很好的鲁棒性。

在姿态估计模型的训练过程中，在一次中间迭代过程中，将样本目标图像和对偶样本图像输入至中间姿态估计模型中，得到样本目标图像对应的第一预测关键点坐标和对偶样本图像对应的第二预测关键点坐标；对第一预测关键点坐标进行仿射变换，得到校正预测点坐标；根据第二预测关键点坐标和校正预测点坐标计算当前迭代过程对应的损失值；根据损失值调整中间姿态估计模型的模型参数。

本申请实施例中，为了在姿态估计模型的训练过程中进行学习约束，让姿态估计模型学习到更多的训练样本图像的平移、缩放或旋转等小幅度范围内的抖动的特征，在姿态估计模型的损失函数loss_total中加入仿射变换一致性损失函数loss_aff，loss_aff是终端根据第二预测关键点坐标和校正预测点坐标得到的。

例如，样本目标图像为I_a，I_a对应的人像的各关键点的关键点坐标为(x_a1,y_a1),(x_a2,y_a2),...,(x_aK,y_aK)，其中，K为关键点的个数。终端根据仿射变换矩阵对样本目标图像为I_a进行仿射变换后得到对偶样本图像I_b，I_b的各关键点的关键点坐标为(x_b1,y_b1),(x_b2,y_b2),...,(x_bK,y_bK)，仿射变换矩阵为

终端将样本目标图像I_a输入中间姿态估计模型，I_a经过中间姿态估计模型预测得到的第一预测关键点坐标为(x′_a1,y′_a1),(x′_a2,y′_a2),...,(x′_aK,y′_aK)，终端采用仿射变换矩阵，根据如下所示的公式2对第一预测关键点坐标仿射变换后得到的校正预测点坐标为(x″_b1,y″_b1),(x″_b2,y″_b2),...,(x″_bK,y″_bK)：

终端将对偶样本图像I_b输入中间姿态估计模型，I_b经过中间姿态估计模型预测得到的第二预测关键点坐标为(x′_b1,y′_b1),(x′_b2,y′_b2),...,(x′_bK,y′_bK)。仿射变换一致性损失函数loss_aff为：

姿态估计模型的损失函数loss_total的表达式为：

loss_total＝λ_a*loss_aff+loss_a+loss_b+loss_ma+loss_mb

其中，λ_a为仿射变换一致性损失函数的权重，取值范围为1～10；loss_a、loss_bmb分别为样本目标图像I_a和对偶样本图像I_b的实际的关键点坐标和预测关键点坐标在图8所示的Stage 1中的欧式距离损失函数，loss_ma、loss_mb为样本目标图像I_a和对偶样本图像I_b的实际的关键点坐标和预测关键点坐标在图8所示的Stage2中的OHKM(Online Hard KeypointsMining)距离损失函数。

以样本目标图像I_a的OHKM距离损失函数loss_ma为例，终端首先将样本目标图像I_a各实际的关键点坐标和预测关键点坐标之间的欧式距离按大小降序排序，终端选择排序后的欧式距离最大的前σ个欧式距离参与OHKM距离计算，σ取值范围为0.25*M*K～M*K，其中，K为关键点的个数，M训练样本集的大小，取值范围为32～256。

这样，终端根据loss_total表达式计算当前迭代过程对应的损失值，并根据损失值调整中间姿态估计模型的模型参数，反复迭代训练至模型收敛得到姿态估计模型。

由此，终端将目标图像输入至姿态估计模型中，则可以得到各关键点的热力图，终端根据各关键点的热力图，获取各关键点的关键点坐标，由于姿态估计模型在训练过程中采用仿射变换一致性损失函数进行学习约束，这样姿态估计模型能够充分学习样本图像的平移、缩放或旋转等小幅度范围内的抖动，有利于提升姿态估计模型的预测准确性，提升各关键点的关键点坐标的准确性，根据各关键点的关键点坐标对目标主播针对预设动作的动作幅度进行检测，从而实现针对目标主播的有效的预设动作的准确检测。

应该理解的是，虽然上述的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图13所示，提供了一种动作检测装置，包括：

获取模块10，用于获取目标主播的第一直播图像，并根据所述第一直播图像，获取所述第一直播图像中所述目标主播的各关键点的关键点坐标；

第一检测模块20，用于根据各所述关键点坐标，检测所述目标主播针对预设动作的动作幅度是否大于第一幅度阈值；

第二检测模块30，用于若所述动作幅度大于所述第一幅度阈值，则确定所述目标主播开始所述预设动作，并根据所述目标主播的至少一个第二直播图像，检测所述目标主播是否结束所述预设动作，所述第一直播图像和所述至少一个第二直播图像在时序上依次相邻；

确定模块40，用于若所述目标主播结束所述预设动作，则确定所述目标主播完成一次所述预设动作。

可选地，所述第二检测模块30包括：

第一检测单元，按照各所述第二直播图像从前到后的时序顺序，依次检测各所述第二直播图像中所述目标主播针对所述预设动作的动作幅度是否小于第二幅度阈值，所述第二幅度阈值小于所述第一幅度阈值；

第一确定单元，若检测到目标第二直播图像中，所述目标主播针对所述预设动作的动作幅度小于所述第二幅度阈值，则确定所述目标主播结束所述预设动作。

可选地，所述第一检测模块20包括：

第一获取单元，用于根据各所述关键点坐标，获取所述第一直播图像中所述目标主播的身体中轴线和竖直方向的夹角角度值；

第二确定单元，用于若所述夹角角度值的绝对值大于预设角度阈值，则确定所述目标主播针对所述预设动作的动作幅度大于所述第一幅度阈值。

可选地，各所述关键点坐标包括左肩关键点坐标、右肩关键点坐标、左腰关键点坐标和右腰关键点坐标，所述获取单元具体用于根据所述左肩关键点坐标和所述右肩关键点坐标，获取第一中点坐标；根据所述左腰关键点坐标和所述右腰关键点坐标，获取第二中点坐标；根据所述第一中点坐标和所述第二中点坐标，计算所述第一直播图像中所述目标主播的身体中轴线和竖直方向的夹角角度值。

可选地，所述获取模块10包括：

第二获取单元，用于获取所述目标人像与所述第一直播图像对应的目标位置框坐标；

截取单元，用于根据所述目标位置框坐标，从所述第一直播图像中截取目标图像；

预测单元，用于将所述目标图像输入至姿态估计模型中，得到各所述关键点的热力图；

第三获取单元，用于根据各所述关键点的热力图，获取各所述关键点的关键点坐标。

可选地，第二获取单元具体用于获取人像检测位置框坐标，所述人像检测位置框坐标是采用人像检测模型从所述第一直播图像之前的目标直播图像中，检测到的所述目标人像对应的位置框坐标；按照预设的放大比例，对所述人像检测位置框坐标进行放大，得到所述目标位置框坐标。

可选地，第三获取单元具体用于对于每个所述关键点的热力图，根据所述热力图获取所述关键点在所述目标图像中的目标坐标；根据所述目标图像在所述第一直播图像中的位置和所述关键点在所述目标图像中的目标坐标，获取所述关键点在所述第一直播图像中的关键点坐标。

可选地，所述预测单元具体用于将所述目标图像输入至仿射变换模型中，得到所述目标图像对应的仿射变换参数；采用所述仿射变换参数对所述目标图像进行仿射变换，得到校正后的图像；将所述校正后的图像输入至所述姿态估计模型中，得到各所述关键点的热力图。

可选地，所述第三获取单元具体用于对于每个所述关键点的热力图，根据所述热力图获取所述关键点在所述校正后的图像中的校正坐标；根据所述仿射变换参数，对所述校正坐标进行逆变换，得到所述关键点在所述目标图像中的目标坐标；根据所述目标图像在所述第一直播图像中的位置和所述关键点在所述目标图像中的目标坐标，获取所述关键点在所述第一直播图像中的关键点坐标。

可选地，所述装置还包括：

第三检测模块，用于检测所述目标图像与前一帧截取图像之间的相似度，所述前一帧截取图像是从所述第一直播图像之前的第三直播图像中截取的与所述目标人像对应的图像，所述第三直播图像与所述第一目标图像在时序上相邻；

执行模块，用于若所述目标图像与所述前一帧截取图像之间的相似度小于相似度阈值，则执行所述将所述目标图像输入至姿态估计模型中，得到各所述关键点的热力图的步骤。

可选地，所述第三检测模块包括：

第一处理单元，用于对所述目标图像进行哈希处理，得到第一哈希值；

第二处理单元，用于对所述前一帧截取图像进行哈希处理，得到第二哈希值；

计算单元，用于计算所述第一哈希值和所述第二哈希值的差值绝对值；

第三确定单元，用于若所述差值绝对值大于差值阈值，则确定所述目标图像与所述前一帧截取图像之间的相似度小于所述相似度阈值；

第四确定单元，用于若所述差值绝对值小于或者等于所述差值阈值，则确定所述目标图像与所述前一帧截取图像的相似度大于或者等于所述相似度阈值。

可选地，所述装置还包括：

确定模块，用于若所述目标图像与所述前一帧截取图像之间的相似度大于或者等于所述相似度阈值，则将所述第三直播图像中所述目标主播的各关键点的关键点坐标确定为所述第一直播图像中所述目标主播的各关键点的关键点坐标。

可选地，所述装置还包括：

样本获取模块，用于获取样本目标图像；

仿射变换模块，用于对所述样本目标图像进行仿射变换，得到对偶样本图像；

训练模块，用于根据所述样本目标图像和所述对偶样本图像，训练初始姿态估计模型，得到所述姿态估计模型；

关于动作检测装置的具体限定可以参见上文中对于动作检测方法的限定，在此不再赘述。上述动作检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图14所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种动作检测方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图14中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

在一个实施例中，各所述关键点坐标包括左肩关键点坐标、右肩关键点坐标、左腰关键点坐标和右腰关键点坐标，处理器执行计算机程序时还实现以下步骤：

对所述目标图像进行哈希处理，得到第一哈希值；

对所述前一帧截取图像进行哈希处理，得到第二哈希值；

计算所述第一哈希值和所述第二哈希值的差值绝对值；

获取样本目标图像；

对所述样本目标图像进行仿射变换，得到对偶样本图像；

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

在一个实施例中，各所述关键点坐标包括左肩关键点坐标、右肩关键点坐标、左腰关键点坐标和右腰关键点坐标，计算机程序被处理器执行时还实现以下步骤：

对所述目标图像进行哈希处理，得到第一哈希值；

对所述前一帧截取图像进行哈希处理，得到第二哈希值；

计算所述第一哈希值和所述第二哈希值的差值绝对值；

获取样本目标图像；

对所述样本目标图像进行仿射变换，得到对偶样本图像；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种动作检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述目标主播的至少一个第二直播图像，检测所述目标主播是否结束所述预设动作，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据各所述关键点坐标，检测所述目标主播针对预设动作的动作幅度是否大于第一幅度阈值，包括：

4.根据权利要求3所述的方法，其特征在于，各所述关键点坐标包括左肩关键点坐标、右肩关键点坐标、左腰关键点坐标和右腰关键点坐标，所述根据各所述关键点坐标，获取所述第一直播图像中所述目标主播的身体中轴线和竖直方向的夹角角度值，包括：

5.根据权利要求1-4任一项所述的方法，其特征在于，所述根据所述第一直播图像，获取所述第一直播图像中所述目标主播的各关键点的关键点坐标，包括：

6.根据权利要求5所述的方法，其特征在于，所述获取所述目标人像与所述第一直播图像对应的目标位置框坐标，包括：

7.根据权利要求5所述的方法，其特征在于，所述根据各所述关键点的热力图，获取各所述关键点的关键点坐标，包括：

8.根据权利要求5所述的方法，其特征在于，所述将所述目标图像输入至姿态估计模型中，得到各所述关键点的热力图，包括：

9.根据权利要求8所述的方法，其特征在于，所述根据各所述关键点的热力图，获取各所述关键点的关键点坐标，包括：

10.根据权利要求5所述的方法，其特征在于，所述方法还包括：

11.根据权利要求10所述的方法，其特征在于，所述检测所述目标图像与前一帧截取图像之间的相似度，包括：

对所述目标图像进行哈希处理，得到第一哈希值；

对所述前一帧截取图像进行哈希处理，得到第二哈希值；

计算所述第一哈希值和所述第二哈希值的差值绝对值；

12.根据权利要求10所述的方法，其特征在于，所述检测所述目标图像与前一帧截取图像之间的相似度之后，所述方法还包括：

13.根据权利要求5所述的方法，其特征在于，所述方法还包括：

获取样本目标图像；

对所述样本目标图像进行仿射变换，得到对偶样本图像；

14.一种动作检测装置，其特征在于，所述装置包括：

15.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至13中任一项所述的方法的步骤。

16.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至13中任一项所述的方法的步骤。