CN116229568A

CN116229568A - 直播视频手势检测方法、装置、设备及介质

Info

Publication number: CN116229568A
Application number: CN202310077855.3A
Authority: CN
Inventors: 熊浩; 张涛; 陈增海
Original assignee: Guangzhou Cubesili Information Technology Co Ltd
Current assignee: Guangzhou Cubesili Information Technology Co Ltd
Priority date: 2023-01-18
Filing date: 2023-01-18
Publication date: 2023-06-06

Abstract

本申请涉及网络直播技术领域中一种直播视频手势检测方法、装置、设备及介质，所述方法包括如下步骤：获取直播视频流中的当前图像帧；基于当前图像帧进行人脸目标检测，当检测到人脸位置信息时，根据所述人脸位置信息估计出人手高频活动区域，获取所述人手高频活动区域的图像作为待检图像；当未检测到所述人脸位置信息时，将当前图像帧作为待检图像；基于所述待检图像进行人手目标检测确定出所述当前图像帧相对应的人手区域图像；根据所述当前图像帧的所述人手区域图像确定出其对应的手势类别。本申请能够提高人手检测的准确率及召回率，优化手势识别，解决由于直播场景复杂且人手过小而容易出现遗漏检测或将背景相似图像误检测的问题。

Description

直播视频手势检测方法、装置、设备及介质

技术领域

本申请涉及网络直播技术领域，尤其涉及一种直播视频手势检测方法、装置、设备及介质。

背景技术

网络直播场景中，主播用户向直播间推送视频流，实现才艺展示、信息分享、知识教育等应用目的，使主播用户通过这些活动参与社会劳动获取收益，促进整体社会效益。

网络直播中手势识别不仅应用于和观众互动，还有其他多种应用。根据不同的手势，产生不同的特效，主播利用手势表达自己的意愿与观众互动，可以做一个特定手势进行表示，这样有利于提高观众观看网络直播的热情，主播也能获得一定的打赏收益，而且利用手势进行信息展示也是一个很好的应用，例如，主播做一个特定手势，屏幕就出现了某种信息，可起到信息传递的作用。

目前常用的手势识别方法，多数是基于人手检测结合手势分类的方法，由于直播过程中场景丰富，受背景及人物动作复杂等多种因素影响，其直播场景复杂且人手过小而容易出现遗漏检测或将背景相似图像误检测等问题。

发明内容

本申请的目的在于解决上述问题而提供一种直播视频手势检测方法、相应的装置、电子设备及计算机可读存储介质。

为满足本申请的各个目的，本申请采用如下技术方案：

适应本申请的目的之一而提出的一种直播视频手势检测方法，包括如下步骤：

获取直播视频流中的当前图像帧；

基于当前图像帧进行人脸目标检测，当检测到人脸位置信息时，根据所述人脸位置信息估计出人手高频活动区域，获取所述人手高频活动区域的图像作为待检图像；当未检测到所述人脸位置信息时，将当前图像帧作为待检图像；

基于所述待检图像进行人手目标检测确定出所述当前图像帧相对应的人手区域图像；

根据所述当前图像帧的所述人手区域图像确定出其对应的手势类别。

可选地，所述基于当前图像帧进行人脸目标检测的步骤之前，包括如下步骤：

获取当前图像帧的前一图像帧相对应的人手位置信息，根据该人手位置信息从所述当前图像帧中裁剪获得人手区域图像；

计算所述当前图像帧的人手区域图像与前一图像帧的人手区域图像的图像相似度，当所述图像相似度达到预设的相似度阈值时，将前一图像帧相对应的人手位置信息作为当前图像帧相对应的人手位置信息，跳转执行根据所述当前图像帧的所述人手区域图像确定出其对应的手势类别的步骤；

当所述图像相似度未达到所述相似度阈值时，继续执行所述基于当前图像帧进行人脸目标检测的步骤。

可选地，所述计算所述当前图像帧的人手区域图像与前一图像帧的人手区域图像的图像相似度的步骤，包括如下步骤：

分别对所述当前图像帧及其前一图像帧进行图像预处理；

应用感知哈希算法计算所述当前图像帧和所述前一图像帧各自的哈希值；

计算所述当前图像帧和所述前一图像帧各自的哈希值之间的数据距离作为所述图像相似度。

可选地，所述基于所述当前图像帧进行人脸目标检测的步骤，包括如下步骤：对所述当前图像帧进行人脸目标检测以获得一个或多个人脸位置信息；

根据各个所述人脸位置信息综合确定出所述人手高频活动区域。

可选地，所述根据各个所述人脸位置信息综合确定出所述人手高频活动区域的步骤，包括如下步骤：

根据所述各个人脸位置信息计算出所述各个选择框的中心点坐标、长度及宽度，所述人脸位置信息表示为相应人脸的选择框在所述当前图像帧中的坐标位置；

基于各个选择框的中心点坐标、长度、高度的均值确定出平均位置信息；

以所述平均位置信息的中心点坐标为基础，应用相应预设参数调节所述平均位置信息中的长度和高度，确定出调整后的位置信息以表示所述人手高频活动区域。

可选地，所述基于所述待检图像进行人手目标检测确定出所述当前图像帧相对应的人手区域图像的步骤，包括如下步骤：

基于所述待检图像进行人手目标检测,确定出所述当前图像帧的人手位置信息；

根据所述人手位置信息从所述待检图像中裁剪，获得所述当前图像帧相对应的人手区域图像。

可选地，所述根据所述当前图像帧的所述人手区域图像确定出其对应的手势类别的步骤之后，包括如下步骤：

触发所述手势类别相对应的特效控制指令；

响应于所述特效控制指令，获得相应的动画特效；

将所述动画特效中的各个图像帧对应添加到所述当前图像帧及其之后的图像帧中；

将所述直播视频流推送到直播间。

适应本申请的目的之一而提供的一种直播视频手势检测装置，包括：

图像获取模块，设置为获取直播视频流中的当前图像帧；

人手高频活动区域确定模块，设置为基于当前图像帧进行人脸目标检测，当检测到人脸位置信息时，根据所述人脸位置信息估计出人手高频活动区域，获取所述人手高频活动区域的图像作为待检图像；当未检测到所述人脸位置信息时，将当前图像帧作为待检图像；

人手区域确定模块，设置为基于所述待检图像进行人手目标检测确定出所述当前图像帧相对应的人手区域图像；

手势类别确定模块，设置为根据所述当前图像帧的所述人手区域图像确定出其对应的手势类别。

适应本申请的目的之一而提供的一种电子设备，包括中央处理器和存储器，所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行本申请一种直播视频手势检测方法的步骤。

适应本申请的另一目的而提供的一种计算机可读存储介质，其以计算机可读指令的形式存储有依据所述直播视频手势检测方法所实现的计算机程序，该计算机程序被计算机调用运行时，执行相应的方法所包括的步骤。

相对于现有技术，本申请针对由于直播场景复杂且人手过小而容易出现遗漏检测或将背景相似图像误检测等问题，在直播视频流图像中检测人脸信息，基于人脸信息与人手之间的空间位置关系，估计出人手高频检出区域，由于人脸信息因为人脸形变较小，其肢体位置相对固定，画面可辨识度高等优点，其准确率及召回率均较高，因此可信度高，而基于人体结构，人手与人脸的相对位置比较固定，基于人手与人脸的相对位置确定人手高频活动区域，在人手高频活动区域中进行人手目标检测，从而得到其对应的手势类别，提高了人手检测的准确率及召回率，优化了手势识别效果且解决了直播过程中，由于直播场景复杂且人手过小而容易出现遗漏检测，或将背景相似图像误检测为人手等问题，其在舞蹈直播、户外直播等较复杂的背景下优化效果明显，并且本申请无额外的运算消耗，整体方案耗时与常用方案一致。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请网络直播场景中网络直播服务所采用的示例性的网络架构；

图2为本申请实施例中的直播视频手势检测方法的流程示意图；

图3为本申请实施例中判断是否进行人脸目标检测的流程示意图；

图4为本申请实施例中计算当前图像帧的人手区域图像与前一图像帧的人手区域图像的图像相似度的流程示意图；

图5为本申请实施例中基于当前图像帧进行人脸目标检测的流程示意图；

图6为本申请实施例中根据各个人脸位置信息综合确定出人手高频活动区域的流程示意图；

图7为本申请实施例中基于待检图像进行人手目标检测确定出当前图像帧相对应的人手区域图像的流程示意图；

图8为本申请实施例中触发手势动画特效的流程示意图；

图9为本申请实施例中单人网络直播场景中手势检测的效果图；

图10为本申请实施例中多人网络直播场景中手势检测的效果图；

图11为本申请的直播视频手势检测装置的原理框图；

图12为本申请所采用的一种计算机设备的结构示意图。

具体实施方式

本申请所称的“服务器”，同理也可扩展到适用于服务集群的情况。依据本领域技术人员所理解的网络部署原理，所述各服务器应是逻辑上的划分，在物理空间上，这些服务器既可以是互相独立但可通过接口调用的，也可以是集成到一台物理计算机或一套计算机机群的。本领域技术人员应当理解这一变通，而不应以此约束本申请的网络部署方式的实施方式。

本领域技术人员对此应当知晓：本申请的各种方法，虽然基于相同的概念而进行描述而使其彼此间呈现共通性，但是，除非特别说明，否则这些方法都是可以独立执行的。同理，对于本申请所揭示的各个实施例而言，均基于同一发明构思而提出，因此，对于相同表述的概念，以及尽管概念表述不同但仅是为了方便而适当变换的概念，应被等同理解。

本申请即将揭示的各个实施例，除非明文指出彼此之间的相互排斥关系，否则，各个实施例所涉的相关技术特征可以交叉结合而灵活构造出新的实施例，只要这种结合不背离本申请的创造精神且可满足现有技术中的需求或解决现有技术中的某方面的不足即可。对此变通，本领域技术人员应当知晓。

请参阅图1，本申请一种示例性的应用场景所采用的网络架构，包括终端设备80、媒体服务器81和应用服务器82。所述应用服务器82可用于部署网络直播服务。所述媒体服务器81或所述终端设备80可运行根据本申请直播视频手势检测方法编程实现的计算机程序产品，通过该产品的运行实施该方法的各个步骤，实现对直播视频流中的人物的手势识别。所述终端设备80可供主播用户或观众用户登入由所述网络直播服务所支持的网络直播间。所述主播用户可以通过其终端设备80中的摄像单元获取录像作为直播视频流提交到所述媒体服务器，所述观众用户可以通过其终端设备80接收媒体服务器推送的直播视频流并播放显示。

在参考以上示例性场景的基础上，请参阅图2，本申请的直播视频手势检测方法在其一个实施例中，包括如下步骤：

步骤S10、获取直播视频流中的当前图像帧；

需要通过本申请的技术方案进行手势检测的图片，可以视为本申请的所述图像帧。所述图像帧的类型及来源，根据实际应用场景而定，例如：在图像美化处理的应用场景中，所述图像帧可以是用户指定的一张静态图片；在网络直播处理的场景中，所述图像帧可以是主播用户提交的直播视频流中的图像帧；在从终端设备的摄像单元所获取的预览视频流需要进行手势检测的场景中，所述图像帧可以是所述预览视频流中的图像帧。诸如此类，视具体应用场景不同，可以按需确定所述的图像帧。

在一个实施例中，当直播间的主播用户启动网络直播后，可以实施舞蹈、唱歌、演讲、健身教练等直播活动，由其终端设备的摄像单元录制相应的视频流提交给媒体服务器。所述媒体服务器获得所述视频流之后，先对其进行解码，由此可以获得视频流中的各个图像帧。可以根据实施需要，对其中每个图像帧都应用本申请各实施例的处理过程。当基于一个图像帧应用本申请各实施例的步骤时进行相应的处理时，该图像帧即可视为正在处理的当前图像帧。

同理，在其他实例中，对图像帧进行图像识别也可以发生在网络直播场景的终端设备处，例如主播用户的终端设备或观众用户的终端设备，对于主播用户侧来说，可以直接从其预览视频流相对应的图像空间中获取当前图像帧进行处理；对于观众用户侧来说，则通常是在从媒体服务器拉流，获得直播视频流进行解码后再获取当前图像帧进行处理。

步骤S20、基于当前图像帧进行人脸目标检测，当检测到人脸位置信息时，根据所述人脸位置信息估计出人手高频活动区域，获取所述人手高频活动区域的图像作为待检图像；当未检测到所述人脸位置信息时，将当前图像帧作为待检图像；

在复杂的直播场景，直播视频流的图像帧中可能同时存在多个人物，例如，多个人物同时进行舞蹈、唱歌、演讲、健身教练等直播活动，这对准确检测出人手动作形态提出了挑战。

人脸或人手目标检测可以基于目标检测模型实施，通过目标检测模型对当前图像帧实施目标检测，确定出其中的人脸内容相对应的人脸位置信息、人手内容相对应的人手位置信息。

所述目标检测模型可从Yolo系列模型、SSD系列模型中选型，此类模型能够对图像进行相应的目标检测，获得检测目标所在的图像区域的位置信息，例如所述人脸位置信息和人手位置信息，通常，所述位置信息以一个矩形框坐标进行表示，例如表示为(x0,y0,x1,y1)，其中，(x0,y0)指示矩形框的左上角坐标，(x1，y1)指示矩形框的右下角坐标，由此可以确定出相应的目标所在的图像区域。

所述目标检测模型事先借助相应的训练样本进行迭代训练至收敛后投入使用。在训练过程中，由该模型推理出训练样本的预测结果，其中包含目标对象及其所属类别等，采用预设的交叉熵损失函数，根据所述训练样本的监督标签计算出所述目标检测模型预测结果的交叉熵损失值，当确定所述交叉熵损失值小于预设阈值时，即可确认所述目标检测模型已经达到收敛状态，可以终止对其训练。当确定所述交叉熵损失值超过预设阈值时，表明所述目标检测模型尚未达到收敛状态，这种情况下，可以根据所述交叉熵损失值对所述目标检测模型实施梯度更新，通过反向传播修正模型训练架构中各个层的权重参数，然后，继续获取其他训练样本启动下一次迭代训练，以此类推，直接根据相应的训练样本对应的交叉熵损失值确认出所述目标检测模型已经达到收敛状态为止即可。

网络直播实时性要求较高，而Yolo模型具有检测速度快等优点，本申请以Yolo模型为例，并不对本申请构成限定，对直播视频流中的图像帧进行人脸目标检测，首先获取直播视频流中的图像帧作为当前图像帧，将所述当前图像帧输入至训练好的Yolo模型，从而得到所述当前图像帧的人脸位置信息。实际上也就确定了人物的头部在当前图像帧中的位置信息。

由于网络直播这种具体场景中，镜头前的人物的人体头部与手部的高频活动区域之间存在一定的相对位置关系，例如，为了表示出某种手势，通常是在头部的下方做出手势，由此可见，以人脸位置信息为基准，可以利用人脸也即头部与人手高频活动区域之间的相对位置关系，进一步确定出所述人手高频活动区域。

根据人脸位置信息确定人手高频活动区域的方式，可以通过对所述人脸位置信息相对应的矩形框进行平移和尺寸调整来实施，例如将其调整到大致处于人脸位置信息相对应的矩形框的下方的区域，便可获得所述人手高频活动区域。至于基于所述人脸位置信息相对应的矩形框进行平衡和尺寸调整的幅度，可通过预设参数来实施调整，这样运算量较低，执行效率更高。

根据人脸位置信息确定出人手高频活动区域后，为方便后续进行手势检测，可根据该人手高频活动区域从当前图像帧中裁剪出相对应的活动区域图像，以便作为手势检测所需的待检图像。

在一些实施例中，还可以根据实际需要对该人手区域图像做进一步的图像增强处理，例如使用超分辨率增强模型对其进行放大，以使人手图像内容更为清晰以提升检测准确率等。

当借助目标检测模型未能从当前图像帧中检测出人脸位置信息，或者虽然检测出人脸位置信息，但其相对应的置信度未能达到判定是否构成相应的目标对象即人脸的预设阈值时，这种情况可能是因为人物害羞、隐私之类的个人因素在直播过程中没有露脸，因此无法检测到人脸目标，当未检测到人脸目标时，可直接将直播视频流中的当前图像帧作为待检图像，以便对所述待检图像进行人手目标检测。

在未能从当前图像帧中检测到人脸的情况下，通过目标检测模型直接对直播视频流中的当前图像帧进行人手目标检测，可以起到补强的作用，以免过于依赖直播人物在镜头前的露脸，使各种依赖于手势识别的业务逻辑能够更顺利更稳定的持续执行。

步骤S30、基于所述待检图像进行人手目标检测确定出所述当前图像帧相对应的人手区域图像；

在确定了所述待检图像后，无论该待检图像是在当前图像帧存在人脸时根据人脸位置信息确定出的人手高频活动区域相对应的活动区域图像，还是当前图像帧不存在人脸时以当前图像帧作为待检图像，均可借助目标检测模型对该待检图像进行相应的人手目标检测。在进行人手目标检测时所使用的目标检测模型，与在进行人脸目标检测时所使用的目标检测模型，既可以是同一模型，也可以是分别独立训练的不同模型，其训练过程同理。

利用所述目标检测模型对所述待检图像进行检测后，模型预测出存在于所述待检图像中的人手相对应的区域，即人手区域，该人手区域在本实施例中可以是整个或整副手掌部位相对应的区域，该人手区域同理也表示为一个矩形框的坐标。当同一人物两只手相分离时，模型可以分别给出两只手掌相对应的矩形框，当同一人物两只手放在一起时，也可只检出包含两只手掌的单个矩形框。

根据以上说明可知，所述矩形框的坐标，实际上便是人手位置信息，根据这个人手位置信息，可以在所述待检图像中对应裁剪出人手区域图像，这个人手区域图像便是主要包含人物的手掌内容的图像。

步骤S40、根据所述当前图像帧的所述人手区域图像确定出其对应的手势类别。

手势类别可以按需定义，例如，可以是单手比心、剪刀手或单手比数字6等不同手势动作，当然，还可以是双手比心之类的其他更复杂的手势动作，本申请对于手势类别的确定可以借助手势分类模型来实施检测。

所述手势分类模型可以通过一个图像特征提取器后接一个分类器来实现，对所述手势分类模型实施训练时，输入是含有手部内容的样本图像，图像特征提取器提取出该样本图像的深层语义信息，通过分类器中的全连接层将其映射到预设的分类空间，该分类空间对应各种预设手势动作设置相应的手势类别，从而，各个手势类别均能获得相应的分类概率，其中分类概率最高的手势类别，即是对应该样本图像预测出的手势类别。手势分类模型预测出属于哪种手势类别后，再用一个标签(指示真实的手势类别)去计算预测出的手势类别的交叉熵损失，获得损失值，利用损失值监督模型的权重更新，迭代训练到收敛后，就可以用来为图像预测它的手势类别。

不难理解，手势分类模型经过训练能够精准地识别给定的图像中的人手内容所表示的手势类别，因而，将所述人手区域图像输入所述手势分类模型后，便可获得所述人手区域图像相对应的手势类别，也就确定了当前图像帧中存在的手势类别。

确定出所述手势类别后，可以触发相应的手势指令，例如触发在直播间中播放所述手势类别相对应的特效，触发展示某种宣传信息等等，其应用较为灵活，可由本领域技术人员在本申请各实施例的基础上扩展实施。

根据以上实施例可知，由于直播场景复杂且人手过小而容易出现遗漏检测或将背景相似图像误检测，在直播视频流图像中检测人脸信息估计出人手高频检出区域，由于人脸信息因为人脸形变较小，其肢体位置相对固定，画面可辨识度高等优点，其准确率及召回率均较高，因此可信度高，而基于人本身的身体结构，人手与人脸的相对位置比较固定，基于人手与人脸的相对位置确定人手高频活动区域，在人手高频活动区域中进行人手目标检测，从而得到其对应的手势类别，提高了人手检测的准确率及召回率，优化了手势识别且解决了直播过程中由于直播场景复杂且人手过小而容易出现遗漏检测或将背景相似图像误检测为人手的问题，其在舞蹈直播、户外直播等较复杂的背景下优化效果明显，并且本申请无额外的运算消耗，整体方案耗时与常用方案一致；当未检测到人脸信息时，直接将直播视频流中的当前图像帧作为待检图像，对所述待检图像进行人手目标检测确定相应的人手区域图像，根据人手区域图像得到其对应的手势类别。

在本申请任意实施例的基础上，请参阅图3，所述基于当前图像帧进行人脸目标检测的步骤之前，包括如下步骤：

步骤S100、获取当前图像帧的前一图像帧相对应的人手位置信息，根据该人手位置信息从所述当前图像帧中裁剪获得人手区域图像；

在处理直播视频流时，其中的各个图像帧，陆续以当前图像帧的身份进行人手目标检测，因而，每个图像帧都能获得相对应的人手位置信息，不难理解，时序上连续的前后两个图像帧之间，其人手位置信息的变动幅度相对较小，因而，可以利用这种关系来进一步提升和优化本申请的实现逻辑。

为了减少不必要的运算，可以通过所述当前图像帧与所述当前图像帧的前一图像帧相对应的人手位置信息进行相似度对比，不难理解，如果所述当前图像帧与所述当前图像帧的前一图像帧相对应的人手位置信息变化不大，就没有进行下一步处理的必要，将前一图像帧相对应的人手位置信息作为当前图像帧相对应的人手位置信息，然后根据该人手位置信息，从当前图像帧中确定相应的矩形框所在的位置，将这个矩形框的图像内容裁剪出来作为当前图像帧的人手区域图像。

步骤S200、计算所述当前图像帧的人手区域图像与前一图像帧的人手区域图像的图像相似度，当所述图像相似度达到预设的相似度阈值时，将前一图像帧相对应的人手位置信息作为当前图像帧相对应的人手位置信息，跳转执行根据所述当前图像帧的所述人手区域图像确定出其对应的手势类别的步骤；

经过以上过程，基于前一图像帧的人手位置信息，既能获得前一图像帧相对应的人手区域图像，又能获得当前图像帧相对应的人手区域图像，基于这两个人手区域图像，可以进行图像相似度的比较，判断两者存在较大的变动，以便因应处理。

计算当前图像帧、前一图像帧各自的人手区域图像之间的图像相似度的方式可以采用多种已知方式实施，例如，计算两者图像特征向量之间的数据距离、计算两者的感知哈希值之间的数据距离等，其中数据距离算法可选余弦距离算法、欧氏距离算法、皮尔逊相关系数算法、杰卡德系数算法等任意一项，可灵活确定，以便计算出两者之间的图像相似度，然后，采用一个预设阈值来衡量两者是否构成足够相似，当所述图像相似度高于所述预设的相似度阈值时，表明两者足够相似，便无需再对当前图像帧执行人脸检测，而是利用根据前一图像帧的人手位置信息确定的人手区域图像，直接执行根据所述当前图像帧的所述人手区域图像确定出其对应的手势类别的步骤即可。

步骤S300、当所述图像相似度未达到所述相似度阈值时，继续执行所述基于当前图像帧进行人脸目标检测的步骤。

所述当前图像帧的人手区域图像与前一图像帧的人手区域图像的图像相似度未达到预设的相似度阈值时，表明前后图像帧之间的手部动作发生了较大幅度的变动，因而，需要继续执行所述基于当前图像帧进行人脸目标检测的步骤，通过直播视频流中检测人脸信息估计出人手高频检出区域，再根据人手高频检出区域确定相应的人手区域图像得到其对应的手势类别，由于人脸信息因为人脸形变较小，其肢体位置相对固定，画面可辨识度高等优点，其准确率及召回率均较高，因此可信度高。

以上实施例通过利用前后两个图像帧之间的人手图像变动幅度的差异信息，例如，某些情况下，当主播在直播中与观众互动时，其表现的手势在多个图像帧中可能保持一段时间不动，针对这此情况下所体现出的差异信息，对人手检测的实施过程进行灵活的变动处理，可以减少此类情况下的计算量，减轻负责执行的计算机设备的运算压力，提升人手检测效率。

在本申请任意实施例的基础上，请参阅图4，所述计算所述当前图像帧的人手区域图像与前一图像帧的人手区域图像的图像相似度的步骤，包括如下步骤：

步骤S2001、分别对所述当前图像帧及其前一图像帧进行图像预处理；

由于所述当前图像帧与所述前一图像帧的图像尺寸、图像色彩等可能不一致，因此需要进行预处理。

一种实施例中，可以将当前图像帧和前一图像帧均变换到特定的尺寸。另一实施例中，可以将当前图像帧和前一图像帧都进行二值化处理变成灰度图，以便减小运算量。诸如此类，均可按需优化。

步骤S2003、应用感知哈希算法计算所述当前图像帧和所述前一图像帧各自的哈希值；

计算所述当前图像帧与所述前一图像帧的图像相似度可以采用感知哈希算法，首先获取所述当前图像帧与所述前一图像帧，相当于矩阵；将所述当前图像帧与所述前一图像帧转换成灰度图像；将所述灰度图像缩放到一定尺寸并剔除多余的图片细节；计算当前图像帧和前一图像帧各自的矩阵之间的二维离散余弦变换，经过二维离散余弦变换后的所述灰度图像保持所述一定尺寸；截取矩阵左上角部分并计算所述左上角部分矩阵的均值；遍历所述矩阵计算出所述当前图像帧和所述前一图像帧各自的hash指纹图，所述hash指纹图可表示为一串32位、64位、128位的二进制的哈希值。

步骤S2005、计算所述当前图像帧和所述前一图像帧各自的哈希值之间的数据距离作为所述图像相似度。

计算所述当前图像帧和所述前一图像帧各自的哈希值之间的汉明距离，根据所述汉明距离得到所述图像相似度，若所述汉明距离达到预设的相似度阈值,则当前图像帧的人手区域图像与前一图像帧的人手区域图像相似度较高，将所述前一图像帧相对应的人手位置信息作为所述当前图像帧相对应的人手位置信息，将所述前一图像帧相对应的手势类别作为所述当前图像帧的手势类别。

可以看出，利用感知哈希算法来先将当前图像帧及其前一图像帧的转换为对应的二进制哈希值，再利用二进制哈希值适于采用汉明距离计算的优势，可以迅速判断当前图像帧与前一图像帧是否构成相似，运算效率更高，对于网络直播这种实时性要求较高的场景，更能体现效率优势。

在本申请任意实施例的基础上，请参阅图5，所述基于所述当前图像帧进行人脸目标检测的步骤，包括如下步骤：

步骤S201、对所述当前图像帧进行人脸目标检测以获得一个或多个人脸位置信息；

在采用目标检测模型对当前图像帧实施人脸目标检测时，当多个人物入镜时，一般会相应检测出各个人物相对应的人脸位置信息，因而，可能存在一个或多个人脸位置信息。

步骤S203、根据各个所述人脸位置信息综合确定出所述人手高频活动区域。

本实施例中，考虑到直播过程中除了主播之外，可能存在其他人员，相应的视频流中的图像帧的图像内容也变得复杂，对所述图像帧可以通过所述目标检测模型进行人脸目标检测以获得一个或多个人脸位置信息，根据各个人脸位置信息综合确定出所述人手高频活动区域，根据所述人手高频活动区域确定出所述当前图像帧相对应的人手区域图像，以便根据所述当前图像帧的所述人手区域图像确定出其对应的手势类别。例如，通常入镜的多个人物高度不会相差太大，各个人脸位置信息中，最低高度应是确定的，因而可以参照这个最低高度来确定人手高频活动区域，当然，这种确定方式仅为示例，实际可灵活调节，不受此限。

在本申请任意实施例的基础上，请参阅6，所述根据各个所述人脸位置信息综合确定出所述人手高频活动区域的步骤，包括如下步骤：

步骤S205、根据所述各个人脸位置信息计算出所述各个选择框的中心点坐标、长度及宽度，所述人脸位置信息表示为相应人脸的选择框在所述当前图像帧中的坐标位置；

本实施例中，所述人脸位置信息表现为人脸框，所述人脸位置信息如前所述通常以左上角和右下角的坐标来表示，因而实际上包含了各个人脸框中心点、人脸框长度、人脸框高度等信息的表示，具体来说，根据人脸框左上角坐标、人脸框右下角坐标可以计算出人脸框长度、高度以及中心点。

具体地，首先，从直播视频流中获取当前视频帧，对处理过程中的视频帧进行编号，所述当前视频帧编号为i；

其次，对各个人脸框进行编号，编号从0开始，依次递增，检测出各个人脸框左上角坐标为(x_i0,y_i0)，人脸框右下角坐标为(x_i1,y_i1)，根据各个人脸框左上角坐标和右下角坐标得出各个人脸框中心点坐标为

人脸框长度为L_ix＝x_i1-x_i0以及人脸框高度为L_iy＝y_i1-y_i0。/>

步骤S207、基于各个选择框的中心点坐标、长度、高度的均值确定出平均位置信息；

具体地，基于上述实施例中各个人脸框中心点坐标(x_ic,y_ic)、人脸框长度L_ix、人脸框高度L_iy计算出各个人脸框中心点坐标的均值(x_c,y_c)、人脸框长度的均值L_x、人脸框高度的均值L_y确定出各个人脸框的平均位置信息，各个人脸框中心点坐标的均值

人脸框长度的均值/>

以及人脸框高度的均值

步骤S209、以所述平均位置信息的中心点坐标为基础，应用相应预设参数调节所述平均位置信息中的长度和高度，确定出调整后的位置信息以表示所述人手高频活动区域。

具体地，根据上述各个人脸框中心点的均值(x_c,y_c)、人脸框长度的均值L_x及人脸框高度的均值L_y并设定四个参数l、t、r、b，计算出所述人手高频活动区域左上角坐标(x'₀,y'₀)＝(x_c-l*L_x,y_c-t*L_y)、所述人手高频活动区域右下角坐标(x'₁,y'₁)＝(x_c+r*L_x,y_c+b*L_y)，四个参数l、t、r、b可根据实际情况设定，在本实施例中，可以取l＝3、t＝1、r＝3、b＝4.5；根据所述人手高频活动区域左上角坐标(x'₀,y'₀)和所述人手高频活动区域右下角(x'₁,y'₁)坐标得到人手高频活动区域。

不难理解，中心点坐标的均值起到定位的作用，而人脸框长度的均值和人脸框高度的均值，起到衡量人脸在当前视频图的画幅中所占的范围的作用在某种程度上反映着镜头的景深，因而，具有用于确定人手高频活动区域的综合指示作用。以这些均值为基础，结合预设参数来设定人手高频活动区域，更为实际意义，而对应左上角两个坐标、右下角两个坐标分别设置相应的参数l、t、r、b，可以体现更灵活的调节效果，这些参数的具体取值可由本领域技术人员按照人手高频活动区域与人脸之间的相对位置关系按需设定。

考虑到短时间内的人手运动轨迹变动可能不大，经过以上过程确定出的人手高频活动区域可以在当前图像帧之后的多个图像中沿用，但是，在一个实施例中，若当前图像帧距离上一次确定出人手高频活动区域的图像帧的帧数超过预的帧间间隔数量，表明人手高频活动区域的沿用时间太长，继续沿用将可能导致检测结果不准确，因而，需要从所述步骤S10重新开始检测，所述帧间间隔数量可以由本领域技术人员灵活设定，例如可以是在5到15帧之间任意取值，当然也可结合实际帧率来设定，以沿用所述人手高频活动区域的时长不超过预设时长为准最佳。

以上实施例，给出确定人手高频活动区域的实施方式，可以看出，按照该方式确定人手高频活动区域，不仅能够参照人脸在当前图像帧中的大致占比来确定，而且还提供了多样化的调参方式，适于结合更多的下游业务，为基于手势识别的下游业务提供更为丰富的开发手段，以便开发出更为丰富的直播活样态。

在本申请任意实施例的基础上，请参阅图7，所述基于所述待检图像进行人手目标检测确定出所述当前图像帧相对应的人手区域图像的步骤，包括如下步骤：

步骤S301、基于所述待检图像进行人手目标检测,确定出所述当前图像帧的人手位置信息；

本实施例中，所述待检图像包括直播视频流的当前图像帧的所述人手高频活动区域图像或直播视频流的当前图像帧，当网络直播视频中存在人脸信息时，基于人脸信息预测出人手高频活动区域，再对所述人手高频活动区域的图像进行人手目标检测，可以提升人手检测的准确率及召回率；直播过程中可能存在主播没有露脸的情况，这时候网络直播视频流的当前图像帧不存在人脸信息时，这时直接应用目标检测模型对直播视频流的当前图像帧进行人手目标检测，确定人手位置信息。

步骤S303、根据所述人手位置信息从所述待检图像中裁剪，获得所述当前图像帧相对应的人手区域图像。

为了更好地适用所述手势分类模型，准确地提取并识别直播视频流的当前图像帧中的手势，需要根据所述人手位置信息从所述待检图像中裁剪获得所述当前图像帧相对应的人手区域图像，在裁剪过程中可以进一步包括对所述待检图像进行预处理、边缘检测和轮廓勾勒、目标轮廓提取等过程。

可见，在精准定位的人手高频活动区域的图像的基础上进行人手目标检测，确定出人手所在位置相对应的人手位置信息，根据人手位置信息进行图像裁剪获得相应的人手区域图像，更为精准高效。

在本申请任意实施例的基础上，请参阅图8，所述根据所述当前图像帧的所述人手区域图像确定出其对应的手势类别的步骤之后，包括如下步骤：

步骤S401、触发所述手势类别相对应的特效控制指令；

当从当前图像帧中识别出手势类别时，可以触发特效控制指令，例如，在网络直播中，主播的手势类别可以是单手比心、剪刀手或单手比6等手势，当主播做出单手比心、剪刀手或单手比6等手势时，触发所述手势类别相对应的特效控制指令。

步骤S403、响应于所述特效控制指令，获得相应的动画特效；

响应于所述特效控制指令，可以从特效数据库中查询与该手势类别相对应的动画特效，比如当检测出相应的手势类别是表示“666”的手势动作时，可以获取该手势动作相对应的“666”的动画特效。

步骤S405、将所述动画特效中的各个图像帧对应添加到所述当前图像帧及其之后的图像帧中；

所述动画特效一般可以解析为多个图像帧，可以通过将这些图像帧按时序关系添加到当前图像帧及其之后的图像帧中，来实现将所述动画特效合成到直播视频流中，得到所述动画特效的播放与用户的手势动作保持同步的效果。

步骤S407、将所述直播视频流推送到直播间。

合成了所述动画特效的直播视频流，便可进一步编码推送至直播间中，观众用户的终端设备接收该直播视频流进行播放时，便可呈现看到相应的手势动作和动画特效。

根据以上关于利用手势动作添加动画特效的实施例可以看出，只有内容的创新才能吸引观众，其核心是主播与观众互动，简单的才艺表演内容给直播带来的流量微乎其微，而观众最在意的是“存在感”，观众一般情况下不满足于打赏后平台系统出现的动画特效，他们需要主播的及时反馈，比心、抱拳、爱心、剪刀手等都是主播们经常使用的互动小动作，可以增加主播的互动性及直播间的气氛，但由于直播场景复杂且人手过小而容易出现遗漏检测或将背景相似图像误检测，通过直播视频流中检测人脸信息估计出人手高频检出区域，由于人脸信息因为人脸形变较小，其肢体位置相对固定、画面可辨识度高等优点，其准确率及召回率均较高，因此可信度高，再根据人手高频检出区域确定相应的人手区域图像得到其对应的手势类别，提升了人手检测的准确率及召回率，优化了手势识别，直播平台就能把众多的线下综艺节目搬到线上来，例如主播与主播之间的划拳游戏，看手势猜数字等多种应用，这样使直播内容更加的丰富精彩。

请参阅图9，在本申请任意实施例的基础上，对直播视频手势检测的实现过程和效果如下：在单人网络直播的场景中，通过所述直播视频手势检测方法进行手势检测，根据所述目标检测模型检测到人脸框b，获取人脸框b的中心点坐标、人脸框b的长度及人脸框b的高度，根据人脸框b的中心点坐标、人脸框b的长度及人脸框b的高度确定出人手高频活动区域a，对人手高频活动区域a进行人手目标检测，所述人手目标检测可以通过所述目标检测模型，根据人手目标检测得到人手区域图像c和人手区域图像d，根据人手区域图像c和人手区域图像d确定出其对应的手势类别，首先获取人手区域图像c和人手区域图像d，将人手区域图像c和人手区域图像d输入到所述手势分类模型中，实时识别人手区域图像c和人手区域图像d得到如图9“握拳”和“竖起大拇指”的手势。

请参阅图10，在多人网络直播的场景中，通过所述直播视频手势检测方法进行手势检测，根据所述目标检测模型检测到人脸框g和人脸框h，获取人脸框g和人脸框h的中心点坐标、人脸框g和人脸框h的长度及人脸框g和人脸框h的高度，根据人脸框g和人脸框h的中心点坐标、人脸框g和人脸框h的长度及人脸框g和人脸框h的高度计算出人脸框g和人脸框h中心点坐标的均值、人脸框g和人脸框h长度的均值、人脸框g和人脸框h高度的均值,根据人脸框g和人脸框h中心点坐标的均值、人脸框g和人脸框h长度的均值、人脸框g和人脸框h高度的均值确定人手高频活动区域e左上角坐标和人手高频活动区域e右下角坐标，根据人手高频活动区域e的左上角坐标和右下角坐标从而确定出人手高频活动区域e，对人手高频活动区域e进行人手目标检测，所述人手目标检测可以通过所述目标检测模型，根据人手目标检测得到人手区域图像f，根据人手区域图像f确定出其对应的手势类别，首先获取人手区域图像f，将人手区域图像f输入到所述手势分类模型中，实时识别人手区域图像f得到如图10“竖起大拇指”的手势。

可见，由于人脸信息因为人脸形变较小，其肢体位置相对固定，画面可辨识度高等优点，其准确率及召回率均较高，因此可信度高，而基于人本身的身体结构，人手与人脸的相对位置比较固定，基于人手与人脸的相对位置确定人手高频活动区域，在人手高频活动区域中进行人手目标检测，从而得到手势类别，提升了人手检测的准确率及召回率，优化了手势识别且解决了直播过程中由于直播场景复杂且人手过小而容易出现遗漏检测或将背景相似图像误检测为人手的问题，其在舞蹈直播、户外直播等较复杂的背景下优化效果明显。

请参阅图11，适应本申请的目的之一而提供的一种直播视频手势检测装置，包括图像获取模块1100、人手高频活动区域确定模块1200、人手区域确定模块1300、手势类别确定模块1400。其中，图像获取模块1100，设置为获取直播视频流中的当前图像帧；人手高频活动区域确定模块1200，设置为基于当前图像帧进行人脸目标检测，当检测到人脸位置信息时，根据所述人脸位置信息估计出人手高频活动区域，获取所述人手高频活动区域的图像作为待检图像；当未检测到所述人脸位置信息时，将当前图像帧作为待检图像；人手区域确定模块1300，设置为基于所述待检图像进行人手目标检测确定出所述当前图像帧相对应的人手区域图像；手势类别确定模块1400，设置为根据所述当前图像帧的所述人手区域图像确定出其对应的手势类别。

在本申请任意实施例的基础上，本申请的直播视频手势检测装置，还包括：人手区域图像确定模块，设置为获取当前图像帧的前一图像帧相对应的人手位置信息，根据该人手位置信息从所述当前图像帧中裁剪获得人手区域图像；图像相似度确定模块，设置为计算所述当前图像帧的人手区域图像与前一图像帧的人手区域图像的图像相似度，当所述图像相似度达到预设的相似度阈值时，将前一图像帧相对应的人手位置信息作为当前图像帧相对应的人手位置信息，跳转执行所述手势类别确定模块；当所述图像相似度未达到所述相似度阈值时，继续执行所述人手高频活动区域确定模块。

在本申请任意实施例的基础上，所述图像相似度确定模块，包括：图像预处理单元，设置为分别对所述当前图像帧及其前一图像帧进行图像预处理；计算单元，设置为应用感知哈希算法计算所述当前图像帧和所述前一图像帧各自的哈希值及计算所述当前图像帧和所述前一图像帧各自的哈希值之间的数据距离作为所述图像相似度。

在本申请任意实施例的基础上，所述人手高频活动区域确定模块，包括：人脸目标检测单元，设置为对所述当前图像帧进行人脸目标检测以获得一个或多个人脸位置信息；处理单元，设置为根据各个所述人脸位置信息综合确定出所述人手高频活动区域。

在本申请任意实施例的基础上，所述人手高频活动区域确定模块，还包括：人脸中心坐标确定单元，设置为根据所述各个人脸位置信息计算出所述各个选择框的中心点坐标、长度及宽度，所述人脸位置信息表示为相应人脸的选择框在所述当前图像帧中的坐标位置；人脸平均位置确定单元，设置为基于各个选择框的中心点坐标、长度、高度的均值确定出平均位置信息，以所述平均位置信息的中心点坐标为基础，应用相应预设参数调节所述平均位置信息中的长度和高度，确定出调整后的位置信息以表示所述人手高频活动区域。

在本申请任意实施例的基础上，所述人手区域确定模块，还包括：人手位置信息确定单元，设置为基于所述待检图像进行人手目标检测,确定出所述当前图像帧的人手位置信息；裁剪单元，设置为根据所述人手位置信息从所述待检图像中裁剪，获得所述当前图像帧相对应的人手区域图像。

在本申请任意实施例的基础上，本申请的直播视频手势检测装置，还包括：效触发模块，设置为触发所述手势类别相对应的特效控制指令；特效响应模块，设置为响应于所述特效控制指令，获得相应的动画特效及将所述动画特效中的各个图像帧对应添加到所述当前图像帧及其之后的图像帧中；推送模块，设置为将所述直播视频流推送到直播间。

为解决上述技术问题，本申请的另一实施例还提供一种电子设备，所述电子设备可由计算机设备实现，如图12所示，计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、计算机可读存储介质、存储器和网络接口。其中，该计算机设备的计算机可读存储介质存储有操作系统、数据库和计算机可读指令，数据库中可存储有控件信息序列，该计算机可读指令被处理器执行时，可使得处理器实现一种人体关键点检测方法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行本申请的人体关键点检测方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解，图12中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本实施方式中处理器用于执行图11中的各个模块及其子模块的具体功能，存储器存储有执行上述模块或子模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有本申请的人体关键点检测装置中执行所有模块/子模块所需的程序代码及数据，服务器能够调用服务器的程序代码及数据执行所有子模块的功能。

本申请还提供一种存储有计算机可读指令的存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行本申请任一实施例的人体关键点检测方法的步骤。

本申请还提供一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被一个或多个处理器执行时实现本申请任一实施例所述方法的步骤。

所述计算机程序产品包括基于数字人的虚拟直播系统，具体地，当主播用户从其终端设备80访问所述应用服务器82提供的网络直播服务，进入相应的直播间后，可以开启网络直播录像功能，开始向媒体服务器推送网络直播视频流，媒体服务器可以根据对所述网络直播视频流中的当前图像帧进行人脸目标检测，获得各个相应的人脸位置信息后，根据各个所述人脸位置信息估计出人手高频活动区域，根据所述人手高频活动区域确定出所述当前图像帧相对应的人手区域图像，驱动数字人根据所述人手区域图像生成相应的手势类别；当未检测所述当前图像帧中的所述人脸位置信息时，直接根据所述当前图像帧确定相对应的人手区域图像，驱动数字人根据所述人手区域图像识别相应的手势类别，手势类别可以是单手比心、剪刀手或单手比6等手势，当主播做出单手比心、剪刀手或单手比6等手势类别时，触发所述手势类别相对应的特效控制指令，响应于所述特效控制指令，获得相应的动画特效，比如“666”的动画特效或“萌萌哒”的声音特效，将所述动画特效中的各个图像帧对应添加到所述当前图像帧及其之后的图像帧中，由媒体服务器将该直播视频流推送至所述主播用户的直播间，以便各个观众用户能够接收到并播放包含有所述数字人图像的直播视频流，由于所述数字人的动作受控于所述主播用户提交的直播视频流中图像帧，因而，实际上是使用数字人替换主播用户的原人实施网络直播，提供了基于数字人的虚拟直播服务。

本领域普通技术人员可以理解实现本申请上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等计算机可读存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

Claims

1.一种直播视频手势检测方法，其特征在于，包括如下步骤：

获取直播视频流中的当前图像帧；

2.根据权利要求1所述的直播视频手势检测方法，其特征在于，所述基于当前图像帧进行人脸目标检测的步骤之前，包括如下步骤：

3.根据权利要求2所述的直播视频手势检测方法，其特征在于，所述计算所述当前图像帧的人手区域图像与前一图像帧的人手区域图像的图像相似度的步骤，包括如下步骤：

分别对所述当前图像帧及其前一图像帧进行图像预处理；

4.根据权利要求1所述的直播视频手势检测方法，其特征在于，所述基于所述当前图像帧进行人脸目标检测的步骤，包括如下步骤：

对所述当前图像帧进行人脸目标检测以获得一个或多个人脸位置信息；

5.根据权利要求4所述的直播视频手势检测方法，其特征在于，所述根据各个所述人脸位置信息综合确定出所述人手高频活动区域的步骤，包括如下步骤：

6.根据权利要求1所述的直播视频手势检测方法，其特征在于，所述基于所述待检图像进行人手目标检测确定出所述当前图像帧相对应的人手区域图像的步骤，包括如下步骤：

7.根据权利要求1至6中任意一项所述的直播视频手势检测方法，其特征在于，所述根据所述当前图像帧的所述人手区域图像确定出其对应的手势类别的步骤之后，包括如下步骤：

触发所述手势类别相对应的特效控制指令；

响应于所述特效控制指令，获得相应的动画特效；

将所述直播视频流推送到直播间。

8.一种直播视频手势检测装置，其特征在于，包括：

图像获取模块，设置为获取直播视频流中的当前图像帧；

9.一种电子设备，包括中央处理器和存储器，其特征在于，所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行如权利要求1至7中任意一项所述的方法的步骤。

10.一种计算机可读存储介质，其特征在于，其以计算机可读指令的形式存储有依据权利要求1至7中任意一项所述的方法所实现的计算机程序，该计算机程序被计算机调用运行时，执行相应的方法所包括的步骤。