CN115171217B

CN115171217B - 一种动态背景下的动作识别方法及系统

Info

Publication number: CN115171217B
Application number: CN202210889465.1A
Authority: CN
Inventors: 袁潮; 请求不公布姓名; 温建伟; 李营
Original assignee: Beijing Zhuohe Technology Co Ltd
Current assignee: Beijing Zhuohe Technology Co Ltd
Priority date: 2022-07-27
Filing date: 2022-07-27
Publication date: 2023-03-03
Anticipated expiration: 2042-07-27
Also published as: CN115171217A

Abstract

本申请提供的一种动态背景下的动作识别方法及系统，具体应用于动作识别领域，包括获取视频数据中连续两帧的图像数据；其中视频数据包括动态背景和待检测目标；根据图像检测模型得到待检测目标在连续两帧的轮廓信息；确定待检测目标的在任一帧的变化信息、未覆盖区域及穿着类型；基于此确定待检测目标连续两帧中的动作特征，得到动作识别结果。由此降低动态背景对动作识别的影响，提高动作识别的效率和准确性。

Description

一种动态背景下的动作识别方法及系统

技术领域

本申请涉及动作识别领域，更具体地，涉及一种动态背景下的动作识别方法及系统。

背景技术

互联网时代下，随着技术的提升和用户行为的转变，企业和个人逐渐通过视频化的方式实现营销，尤其是直播类的视频传播，具有显著实时性和互动性的特点，能够实现主播和观众之间的实时互动和交流，同时，从观众本身的习惯而言，以直播为代表的视频内容形式近年来出现了大幅度的增长，代表观众流量和渗透率的加强，因此提供针对观众需要的标准化直播是市场的主流趋势，其中直播环境和直播内容是当前市场重点关注的对象。

现有技术中，通常采用捕捉技术捕捉人体动作，实现动作识别，然而直播形式存在多样化的特点，例如户外直播，镜头中的主播和背景均处于移动状态时，由于动态背景的影响，很难针对性地识别出主播的动作，因此如何降低动态背景对动作识别的影响，优化直播环境和直播内容，是一项亟待解决的技术问题。

发明内容

本发明实施例的目的在于提供一种动态背景下的动作识别方法及系统，引入轮廓和穿着两个参数提取动态背景下的动作特征，由此降低动态背景对动作识别的影响，提高动作识别的效率和准确性，进而优化直播环境和直播内容。具体技术方案如下：

在本发明实施例的第一方面，提供一种动态背景下的动作识别方法，该方法包括：采集视频数据；所述视频数据包括动态背景和待检测目标；获取所述视频数据中连续两帧的图像数据；将所述连续两帧的图像数据输入图像检测模型，分别得到所述待检测目标在所述连续两帧的轮廓信息；根据所述连续两帧的轮廓信息之间的变化，得到任一帧的变化信息；根据所述轮廓信息，确定所述待检测目标的未覆盖区域；判断所述未覆盖区域是否符合预设条件，若是，则确定所述待检测目标的穿着类型；根据所述穿着类型和所述任一帧的变化信息，得到所述连续两帧的动作特征；根据所述动作特征，得到动作识别结果。

可选地，所述根据所述连续两帧的轮廓信息之间的变化，得到任一帧的变化信息，包括：根据任一帧的轮廓信息和该帧前一帧的轮廓信息，确定所述待检测目标的第一面积和第二面积；确定所述连续两帧的轮廓信息的重叠面积；计算所述连续两帧的轮廓信息之间的面偏移量和点偏移量；根据所述面偏移量和所述点偏移量，确定任一帧的变化信息。

可选地，所述计算所述连续两帧的轮廓信息之间的点偏移量和面偏移量，包括：根据所述重叠面积、所述第一面积和所述第二面积，计算面偏移量，公式如下：

其中，S₁表示第一面积，S₂表示第二面积，S_c表示重叠面积；提取所述轮廓信息中的多个骨骼点；计算所述多个骨骼点的点偏移量，公式如下：

其中，n表示共有n个骨骼点，(x_i,k+1,y_i,k+1)表示第i个骨骼点在第k+1帧对应的坐标，(x_i,k,y_i,k)表示第i个骨骼点在第k帧对应的坐标。

可选地，所述未覆盖区域包括颈部、肘部、腿部以及臀部等。

可选地，所述判断所述未覆盖区域是否符合预设条件，若是，则确定所述待检测目标的穿着类型，包括：计算所述未覆盖区域与所述第一面积之间的比值；若所述未覆盖区域不包含预设区域且所述比值小于预设阈值，则确定所述待检测目标的穿着类型；反之，停止识别。

可选地，所述根据所述穿着类型和所述任一帧的变化信息，得到所述连续两帧的动作特征，包括：预设动作数据库；所述动作数据库中存储预设穿着类型和标准变化数据的对应关系；将所述穿着类型与所述预设动作数据库中的预设穿着类型匹配，确定对应的标准变化数据；将所述标准变化数据与所述任一帧的变化信息匹配，得到多个动作特征。

可选地，所述根据所述动作特征，得到动作识别结果，包括：将所述动作特征输入动作识别模型，得到动作识别结果。

可选地，所述采集视频数据之前，还包括：获取训练图像数据；将所述训练图像数据输入图像检测模型，得到训练好的图像检测模型。

在本发明实施例的又一方面，提供一种动态背景下的动作识别系统，该系统包括：视频采集模块，用于采集视频数据；所述视频数据包括动态背景和待检测目标；图像获取模块，用于获取所述视频数据中连续两帧的图像数据；轮廓检测模块，用于将所述连续两帧的图像数据输入图像检测模型，分别得到所述待检测目标在所述连续两帧的轮廓信息；变化信息获取模块，用于根据所述连续两帧的轮廓信息之间的变化，得到任一帧的变化信息；穿着检测模块，用于根据所述轮廓信息，确定所述待检测目标的未覆盖区域；判断所述未覆盖区域是否符合预设条件，若是，则确定所述待检测目标的穿着类型；动作识别模块，用于根据所述穿着类型和所述任一帧的变化信息，得到所述连续两帧的动作特征；根据所述动作特征，得到动作识别结果。

可选地，所述变化信息获取模块进一步用于：根据任一帧的轮廓信息和该帧前一帧的轮廓信息，确定所述待检测目标的第一面积和第二面积；确定所述连续两帧的轮廓信息的重叠面积；计算所述连续两帧的轮廓信息之间的面偏移量和点偏移量；根据所述面偏移量和所述点偏移量，确定任一帧的变化信息。

可选地，所述动作识别模块进一步用于：将所述动作特征输入动作识别模型，得到动作识别结果。

可选地，该系统还包括模型训练模块，用于获取训练图像数据；将所述训练图像数据输入图像检测模型，得到训练好的图像检测模型。

有益效果：

本发明首先采集视频数据，该视频数据包括动态背景和待检测目标；获取其中连续两帧的图像数据；连续两帧的图像数据输入图像检测模型，分别得到待检测目标在所述连续两帧的轮廓信息；根据连续两帧的轮廓信息之间的变化，得到任一帧的变化信息；根据轮廓信息，确定待检测目标的未覆盖区域；判断所述未覆盖区域是否符合预设条件，若是，则确定待检测目标的穿着类型；预设动作数据库；动作数据库中存储预设穿着类型和标准变化数据的对应关系；将穿着类型与预设动作数据库中的预设穿着类型匹配，确定对应的标准变化数据；将标准变化数据与任一帧的变化信息匹配，得到多个动作特征；根据动作特征，得到动作识别结果。由此降低动态背景对动作识别的影响，提高动作识别的效率和准确性，进而优化直播环境和直播内容。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种动态背景下的动作识别方法的流程示意图；

图2是本申请实施例提供的一种动态背景下的动作识别系统的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供了一种动态背景下的动作识别方法及系统，包括获取视频数据中连续两帧的图像数据；其中视频数据包括动态背景和待检测目标；将连续两帧的图像数据输入图像检测模型，分别得到所述待检测目标在所述连续两帧的轮廓信息；根据连续两帧的轮廓信息之间的变化，得到任一帧的变化信息；并确定所述待检测目标的未覆盖区域；若未覆盖区域符合预设条件，则确定待检测目标的穿着类型；进而得到所述连续两帧的动作特征；根据动作特征，得到动作识别结果。由此降低动态背景对动作识别的影响，提高动作识别的效率和准确性。

该动态背景下的动作识别方法和系统，具体可以集成在电子设备中，该电子设备可以为终端、服务器等设备。其中，终端可以为光场摄像机、车载相机、手机、平板电脑、智能蓝牙设备、笔记本电脑、或者个人电脑(Personal Computer，PC)等设备；服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群。

可以理解的是，本实施例的该动态背景下的动作识别方法和系统可以是在终端上执行的，也可以是在服务器上执行，还可以由终端和服务器共同执行的。以上举例不应理解为对本申请的限制。

图1示出了本申请实施例提供的动态背景下的动作识别方法的流程示意图，请参考图1，具体包括如下步骤：

S110、采集视频数据。

具体地，所述视频数据可以包括动态背景和待检测目标。

其中，计算机装置接收移动摄像头采集的视频数据，所述视频数据可以通过第五代移动通讯技术进行传输，也可以通过wifi网络进行传输。

例如，在户外直播中，待检测目标是主播，所述移动摄像头位于主播的正前方，用于拍摄主播和户外景象，并将拍摄到的具有动态背景和待检测目标的视频数据发送给计算机装置。

S120、获取所述视频数据中连续两帧的图像数据。

其中，每隔一预设时间，可以重新获取所述移动摄像头采集的视频数据。

S130、将所述连续两帧的图像数据输入图像检测模型，分别得到所述待检测目标在所述连续两帧的轮廓信息。

可选地，提取图像数据中的面积和长宽比等参数，利用神经网络将目标划分为人、车、动物和风景等类别，由此提取出人体图像，将该人体图像数据作为图像检测模型的输入。

其中，图像检测模型可以是snakes模型，snakes模型是一条可变性的参数曲线及对应的能量函数，以最小化能量目标函数为目标，控制参数曲线变形，具有最小能量的闭合曲线就是待检测目标的轮廓。

S140、根据所述连续两帧的轮廓信息之间的变化，得到任一帧的变化信息。

在一种实施方式中，步骤S140可以具体包括以下步骤：

S141、根据任一帧的轮廓信息和该帧前一帧的轮廓信息，确定所述待检测目标的第一面积和第二面积。

其中，根据轮廓信息计算连续两帧中待检测目标的投影面积；例如，待检测目标是主播，则计算该主播每一帧的投影面积。

S142、确定所述连续两帧的轮廓信息的重叠面积。

其中，重叠面积是指待检测目标投影面的重叠面积。

S143、计算所述连续两帧的轮廓信息之间的面偏移量和点偏移量。

可选地，根据所述重叠面积、所述第一面积和所述第二面积，计算面偏移量，公式如下：

其中，S₁表示第一面积，S₂表示第二面积，S_c表示重叠面积。

进一步地，提取所述轮廓信息中的多个骨骼点，计算所述多个骨骼点的点偏移量，公式如下：

S144、根据所述面偏移量和所述点偏移量，确定任一帧的变化信息。

其中，变化信息可以是移动信息或偏移信息，具体地，将面偏移量和点偏移量进行归一化处理后，确定任一帧的变化信息。

进一步地，还可以通过帧间差分法确定任一帧的变化信息。

S150、根据所述轮廓信息，确定所述待检测目标的未覆盖区域。

其中，未覆盖区域包括颈部、肘部、腿部以及臀部等。

S160、若所述未覆盖区域符合预设条件，则确定所述待检测目标的穿着类型。

其中，预设条件可以是未覆盖区域与所述第一面积之间的比值，具体地，计算所述未覆盖区域与所述第一面积之间的比值；若所述未覆盖区域不包含预设区域且所述比值小于预设阈值，则确定所述待检测目标的穿着类型；反之，停止识别。

其中，预设条件还可以是未覆盖区域是否包括敏感部位，具体地，预先确定敏感部位，及其对应的敏感骨骼点；提取轮廓信息中的多个骨骼点，判断所述多个骨骼点中的敏感骨骼点是否被覆盖，若存在未覆盖的骨骼点，则所述未覆盖区域不符合预设条件。

进一步地，可以同时将未覆盖区域与所述第一面积之间的比值和未覆盖区域是否包括敏感部位作为预设条件，进而确定待检测目标的穿着类型。

其中，穿着类型可以是汉服、泳装、瑜伽服等。

S170、根据所述穿着类型和所述任一帧的变化信息，得到所述连续两帧的动作特征。

在一种实施方式中，步骤S170可以具体包括以下步骤：

S171、预设动作数据库。

其中，动作数据库中存储预设穿着类型和标准变化数据的对应关系。例如，穿着类型是瑜伽服，则其对应的标准变化数据包括双臂向上举过头顶、头向后仰、双手胸前合十等。

S172、将所述穿着类型与所述预设动作数据库中的预设穿着类型匹配，确定对应的标准变化数据。

S173、将所述标准变化数据与所述任一帧的变化信息匹配，得到多个动作特征。

S180、根据所述动作特征，得到动作识别结果。

具体地，将所述动作特征输入动作识别模型，得到动作识别结果。其中动作识别模型可以是TSN模型。

进一步地，在执行上述步骤之前，还可以获取训练图像数据；将所述训练图像数据输入图像检测模型，得到训练好的图像检测模型。

该实施方式引入轮廓和穿着两个参数提取动态背景下的动作特征，由此降低动态背景对动作识别的影响，提高动作识别的效率和准确性，进而优化直播环境和直播内容。

为实现上述方法类实施例，本实施例还提供一种动态背景下的动作识别系统，如图2所示，包括：

视频采集模块210，用于采集视频数据；所述视频数据包括动态背景和待检测目标。

图像获取模块220，用于获取所述视频数据中连续两帧的图像数据。

轮廓检测模块230，用于将所述连续两帧的图像数据输入图像检测模型，分别得到所述待检测目标在所述连续两帧的轮廓信息。

变化信息获取模块240，用于根据所述连续两帧的轮廓信息之间的变化，得到任一帧的变化信息。

穿着检测模块250，用于根据所述轮廓信息，确定所述待检测目标的未覆盖区域；判断所述未覆盖区域是否符合预设条件，若是，则确定所述待检测目标的穿着类型。

动作识别模块260，用于根据所述穿着类型和所述任一帧的变化信息，得到所述连续两帧的动作特征；根据所述动作特征，得到动作识别结果。

可选地，所述变化信息获取模块240进一步用于：根据任一帧的轮廓信息和该帧前一帧的轮廓信息，确定所述待检测目标的第一面积和第二面积；确定所述连续两帧的轮廓信息的重叠面积；计算所述连续两帧的轮廓信息之间的面偏移量和点偏移量；根据所述面偏移量和所述点偏移量，确定任一帧的变化信息。

可选地，所述动作识别模块260进一步用于：将所述动作特征输入动作识别模型，得到动作识别结果。

可选地，该系统还包括模型训练模块270，用于获取训练图像数据；将所述训练图像数据输入图像检测模型，得到训练好的图像检测模型。

由此该系统将连续两帧的图像数据输入图像检测模型，分别得到待检测目标在所述连续两帧的轮廓信息；根据连续两帧的轮廓信息之间的变化，得到任一帧的变化信息；根据轮廓信息，确定待检测目标的未覆盖区域；判断所述未覆盖区域是否符合预设条件，若是，则确定待检测目标的穿着类型；预设动作数据库；动作数据库中存储预设穿着类型和标准变化数据的对应关系；将穿着类型与预设动作数据库中的预设穿着类型匹配，确定对应的标准变化数据；将标准变化数据与任一帧的变化信息匹配，得到多个动作特征；根据动作特征，得到动作识别结果。由此降低动态背景对动作识别的影响，提高动作识别的效率和准确性，进而优化直播环境和直播内容。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置中模块/单元/子单元/组件的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请提供的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种动态背景下的动作识别方法，其特征在于，该方法包括：

采集视频数据；所述视频数据包括动态背景和待检测目标；

获取所述视频数据中连续两帧的图像数据；

将所述连续两帧的图像数据输入图像检测模型，分别得到所述待检测目标在所述连续两帧的轮廓信息；

根据所述连续两帧的轮廓信息之间的变化，得到任一帧的变化信息；

根据所述轮廓信息，确定所述待检测目标的未覆盖区域；

判断所述未覆盖区域是否符合预设条件，若是，则确定所述待检测目标的穿着类型；

根据所述穿着类型和所述任一帧的变化信息，得到所述连续两帧的动作特征；

根据所述动作特征，得到动作识别结果。

2.根据权利要求1所述的动态背景下的动作识别方法，其特征在于，所述根据所述连续两帧的轮廓信息之间的变化，得到任一帧的变化信息，包括：

根据任一帧的轮廓信息和该帧前一帧的轮廓信息，确定所述待检测目标的第一面积和第二面积；

确定所述连续两帧的轮廓信息的重叠面积；

计算所述连续两帧的轮廓信息之间的面偏移量和点偏移量；

根据所述面偏移量和所述点偏移量，确定任一帧的变化信息。

3.根据权利要求2所述的动态背景下的动作识别方法，其特征在于，所述计算所述连续两帧的轮廓信息之间的点偏移量和面偏移量，包括：

根据所述重叠面积、所述第一面积和所述第二面积，计算面偏移量，公式如下：

其中，S₁表示第一面积，S₂表示第二面积，S_c表示重叠面积；

提取所述轮廓信息中的多个骨骼点；

计算所述多个骨骼点的点偏移量，公式如下：

4.根据权利要求2所述的动态背景下的动作识别方法，其特征在于，所述未覆盖区域包括颈部、肘部、腿部以及臀部等。

5.根据权利要求4所述的动态背景下的动作识别方法，其特征在于，所述判断所述未覆盖区域是否符合预设条件，若是，则确定所述待检测目标的穿着类型，包括：

计算所述未覆盖区域与所述第一面积之间的比值；

若所述未覆盖区域不包含预设区域且所述比值小于预设阈值，则确定所述待检测目标的穿着类型；

反之，停止识别。

6.根据权利要求1所述的动态背景下的动作识别方法，其特征在于，所述根据所述穿着类型和所述任一帧的变化信息，得到所述连续两帧的动作特征，包括：

预设动作数据库；所述动作数据库中存储预设穿着类型和标准变化数据的对应关系；

将所述穿着类型与所述预设动作数据库中的预设穿着类型匹配，确定对应的标准变化数据；

将所述标准变化数据与所述任一帧的变化信息匹配，得到多个动作特征。

7.根据权利要求1所述的动态背景下的动作识别方法，其特征在于，所述根据所述动作特征，得到动作识别结果，包括：

将所述动作特征输入动作识别模型，得到动作识别结果。

8.根据权利要求1所述的动态背景下的动作识别方法，其特征在于，所述采集视频数据之前，还包括：

获取训练图像数据；

将所述训练图像数据输入图像检测模型，得到训练好的图像检测模型。

9.一种动态背景下的动作识别系统，其特征在于，该系统包括：

视频采集模块，用于采集视频数据；所述视频数据包括动态背景和待检测目标；

图像获取模块，用于获取所述视频数据中连续两帧的图像数据；

轮廓检测模块，用于将所述连续两帧的图像数据输入图像检测模型，分别得到所述待检测目标在所述连续两帧的轮廓信息；

变化信息获取模块，用于根据所述连续两帧的轮廓信息之间的变化，得到任一帧的变化信息；

穿着检测模块，用于根据所述轮廓信息，确定所述待检测目标的未覆盖区域；

动作识别模块，用于根据所述穿着类型和所述任一帧的变化信息，得到所述连续两帧的动作特征；

根据所述动作特征，得到动作识别结果。

10.根据权利要求9所述的动态背景下的动作识别系统，其特征在于，所述变化信息获取模块进一步用于：

确定所述连续两帧的轮廓信息的重叠面积；

计算所述连续两帧的轮廓信息之间的面偏移量和点偏移量；