CN112131995A

CN112131995A - 一种动作分类方法、装置、计算设备、以及存储介质

Info

Publication number: CN112131995A
Application number: CN202010976727.9A
Authority: CN
Inventors: 彭浩
Original assignee: Beijing Moviebook Technology Corp ltd
Current assignee: Beijing Moviebook Technology Corp ltd
Priority date: 2020-09-16
Filing date: 2020-09-16
Publication date: 2020-12-25

Abstract

本申请公开了一种动作分类方法、装置、计算设备、以及存储介质。所述方法包括：利用卷积神经网络对输入的视频图像提取特征数据；选择时域最优深层特征数据；计算损失差异；将所述时域最优深层特征数据与损失差异共同反馈到所述卷积神经网络的训练过程中；使用完成训练的卷积神经网络对视频中运动员的动作进行分类。所述装置包括提取模块、选择模块、计算模块、训练模块和分类模块。所述计算设备包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序，所述处理器执行所述计算机程序时实现本申请所述的方法。所述存储介质内存储有计算机程序，所述计算机程序在由处理器执行时实现本申请所述的方法。

Description

一种动作分类方法、装置、计算设备、以及存储介质

技术领域

本申请涉及图像处理中的动作分类领域，特别是涉及动作分类方法、装置、计算设备、以及存储介质。

背景技术

比赛视频中运动员动作分类是视频理解领域的热点研究问题，随着神经网络对平面二维图像的处理能力逐步提升，对于具有时间维度的三维图像——视频数据的理解与运用等相关研究也被众多学者所关注。基于神经网络的动作分类方法主要有三个主流方向：(1)利用3D或2+1D等不同卷积核构成结构各异的卷积神经网络，能够直接对视频数据进行时域信息的特征提取与学习，所得模型的实时性较好；(2)将比赛视频中运动员的动态骨骼关键点作为神经网络输入数据的方法，由此训练出的模型能够学习到骨骼关键点的运动规则，进而将运动员的动作进行分类，该方法拥有较好的稳健性，但是处理运动员骨骼关键点所耗费的时间成本较高；(3)双流网络将光流法与神经网络相结合，把原始图像数据与图像光流信息作为两组数据流输入同一网络的不同分支中，进行并行的训练与学习，最后融合两个分支的决策来得出动作的分类结果，是各主流方法中准确最高的一种。

上述方法所用算法并没有充分理解到视频数据中的时域信息。双流网络凭借光流法而得出高准确度模型的原因在于图像光流信息对目标轮廓不变性的良好保持，而不是光流法能完全代表目标的运动特性。卷积神经网络在训练过程中，容易侧重于学习数据中物体、场景等静态信息，在对视频数据进行时域卷积时，网络难以自主地将理解运动信息作为学习的主要目的，导致模型在进行视频分类时更多的以场景信息作为分类判断依据。

发明内容

本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。

根据本申请的一个方面，提供了一种基于卷积神经网络的视频中运动员动作分类方法，所述方法包括：

利用卷积神经网络对输入的视频图像提取特征数据；

各卷积层中，将与所述卷积神经网络输入层原始视频数据的时域信息差异最小的卷积层所学特征的时域信息所对应的时域特征数据选为时域最优深层特征数据；

计算损失差异；

将所述时域最优深层特征数据与损失差异共同反馈到所述卷积神经网络的训练过程中；

使用完成训练的卷积神经网络对视频中运动员的动作进行分类。

可选地，所述的各卷积层中，将与所述卷积神经网络输入层原始视频数据的时域信息差异最小的卷积层所学特征的时域信息所对应的时域特征数据选为时域最优深层特征数据包括：

计算每个卷积层特征数据的帧间差值，得到各卷积层的时域特征数据集合；

计算所述卷积神经网络输入层原始视频数据的帧间差值，得原始数据时域信息集合；

分别计算所述各卷积层的时域特征数据集合与所述原始数据时域信息集合的差异，将最小差异值所对应的时域特征数据集合中的时域特征数据选为时域最优深层特征数据。

可选地，所述的卷积神经网络为拥有深层的3D残差卷积神经网络。

本申请的动作分类方法，由于将深层的时域差异与损失差异相联合，共同为网络的梯度下降提供有效参考，因此能够改善网络对于时域信息的学习理解与运用能力，提升网络模型在视频行人动作分类上的准确性。本申请利用残差函数解决了深神经网络的退化问题，适用于图像理解领域中的各种学习任务。

根据本申请的另一个方面，提供了一种动作分类装置，所述装置包括：

提取模块，其配置成利用卷积神经网络对输入的视频图像提取特征数据；

选择模块，其配置成各卷积层中，将与所述卷积神经网络输入层原始视频数据的时域信息差异最小的卷积层所学特征的时域信息所对应的时域特征数据选为时域最优深层特征数据；

计算模块，其配置成计算损失差异；

训练模块，其配置成将所述时域最优深层特征数据与损失差异共同反馈到所述卷积神经网络的训练过程中；和

分类模块，其配置成使用完成训练的卷积神经网络对视频中运动员的动作进行分类。

可选地，所述的选择模块包括：

第一计算子模块，其配置成计算每个卷积层特征数据的帧间差值，得到各卷积层的时域特征数据集合；

第二计算子模块，其配置成计算所述卷积神经网络输入层原始视频数据的帧间差值，得原始数据时域信息集合；和

第三计算子模块，其配置成分别计算所述各卷积层的时域特征数据集合与所述原始数据时域信息集合的差异，将最小差异值所对应的时域特征数据集合中的时域特征数据选为时域最优深层特征数据。

本申请的动作分类装置，由于将深层的时域差异与损失差异相联合，共同为网络的梯度下降提供有效参考，因此能够改善网络对于时域信息的学习理解与运用能力，提升网络模型在视频行人动作分类上的准确性。本申请利用残差函数解决了深神经网络的退化问题，适用于图像理解领域中的各种学习任务。

根据本申请的第三个方面，提供了一种计算设备，包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序，其中，所述处理器执行所述计算机程序时实现本申请所述的方法。

根据本申请的第四个方面，提供了一种存储介质，优选为非易失性可读存储介质，其内存储有计算机程序，所述计算机程序在由处理器执行时实现本申请所述的方法。

根据下文结合附图对本申请的具体实施例的详细描述，本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。

附图说明

后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解，这些附图未必是按比例绘制的。附图中：

图1是根据本申请一个实施例的一种动作分类方法的示意性流程图；

图2是图1中步骤S2的示意性流程图；

图3是根据本申请一个实施例的一种动作分类装置的示意性结构框图；

图4是根据本申请一个实施例的一种计算设备的示意性结构框图；

图5是根据本申请一个实施例的一种存储介质的示意性结构框图。

具体实施方式

为使网络模型对时域信息的理解能力能够在循环训练的过程中不断提高，本申请实施例将深层特征数据的时域差异与损失差异结合，用联合差异共同对网络参数的梯度更新进行引导，使两种差异在训练的过程中都能得到降低。时域差异的降低代表着各卷积层对时域信息学习能力的增强，网络中所理解到的特征能更加逼近输入数据中的时域动作关联信息，使模型的性能得到改进。

图1是根据本申请一个实施例的一种动作分类方法的示意性流程图。所述动作方法特别适用于视频中运动员的动作分类。所述方法一般性地可包括：

步骤S1、利用拥有深层的3D残差卷积神经网络对输入的视频图像提取特征数据，利用卷积层筛选深层特征数据，能够对视频的时域信息进行稳健的表达；

步骤S2、各卷积层中，将与所述卷积神经网络输入层原始视频数据的时域信息差异最小的卷积层所学特征的时域信息所对应的时域特征数据选为时域最优深层特征数据；

步骤S3、利用损失函数计算损失差异；

步骤S4、将所述时域最优深层特征数据与损失差异共同反馈到所述卷积神经网络的训练过程中；

步骤S5、使用完成训练的卷积神经网络对视频中运动员的动作进行分类。

本实施例的联合计算首先需要对各卷积层所学特征的时域信息与输入层原始数据的时域信息进行相似度计算，通过相似度对比来选定一组特征数据，接着计算选定特征与原始数据的时域信息差异，将计算结果与损失差异联合，共同反馈到网络的训练中。

为了保证联合差异对网络的反馈能够切实改进网络的性能，提升模型对时域信息的学习与理解能力，需要使时域差异的计算结果能有效反映出网络对时域信息的理解程度，为此，本方法的首要任务就是确保从各卷积层中筛选出的深层特征数据能够对时域信息进行稳健的表达。

残差网络拥有相当多数量卷积层的特性，能够为算法提供更全面的选择，可以从深层的网络中更有对比性的选取时域表达能力最优的卷积层作为后续差异计算的特征数据。时域表达能力最优的目的，是为了使后续计算的结果能够有效地体现卷积层所学特征数据与输入层原始数据的时域信息差异，反映出网络对时域信息的学习能力以及理解力上的不足。为此本环节需要对特征数据严格筛选，确保所得的时域差异不会被特征数据中其他类如物体、场景等非时域信息干扰。

图2是图1中步骤S2的示意性流程图。作为本申请的优选实施例，所述步骤S2具体可以包括：

步骤S21、计算每个卷积层特征数据的帧间差值，得到各卷积层的时域特征数据集合；

步骤S22、计算所述卷积神经网络输入层原始视频数据的帧间差值，得原始数据时域信息集合；

步骤S23、分别计算所述各卷积层的时域特征数据集合与所述原始数据时域信息集合的差异，将最小差异值所对应的时域特征数据集合中的时域特征数据选为时域最优深层特征数据。

所述步骤S2利用相似度对比来选取时域最优深层特征数据，即计算出各个卷积层特征数据的时域信息集合与输入层原始数据的时域信息集合之间的相似程度，把相似程度的高低等价于该卷积层对时域信息理解能力的强弱，从各个卷积层中选择理解能力最强的卷积层数据作为时域最优深层特征数据。

本实施例所述的方法在降低损失差异的同时把深层卷积所学特征与输入层原始数据之间的时域信息差异作为降低目标，以此提升卷积层对时域信息的学习能力，改进了网络模型对时域信息的理解能力。

图3是根据本申请一个实施例的一种动作分类装置的示意性结构框图，所述装置一般性地可包括：

提取模块1，其配置成利用卷积神经网络对输入的视频图像提取特征数据；

选择模块2，其配置成各卷积层中，将与所述卷积神经网络输入层原始视频数据的时域信息差异最小的卷积层所学特征的时域信息所对应的时域特征数据选为时域最优深层特征数据；

计算模块3，其配置成计算损失差异；

训练模块4，其配置成将所述时域最优深层特征数据与损失差异共同反馈到所述卷积神经网络的训练过程中；和

分类模块5，其配置成使用完成训练的卷积神经网络对视频中运动员的动作进行分类。

作为本申请的优选实施例，所述的卷积神经网络为拥有深层的3D残差卷积神经网络。

作为本申请的优选实施例，所述的选择模块2可以包括：

第一计算子模块21，其配置成计算每个卷积层特征数据的帧间差值，得到各卷积层的时域特征数据集合；

第二计算子模块22，其配置成计算所述卷积神经网络输入层原始视频数据的帧间差值，得原始数据时域信息集合；和

第三计算子模块23，其配置成分别计算所述各卷积层的时域特征数据集合与所述原始数据时域信息集合的差异，将最小差异值所对应的时域特征数据集合中的时域特征数据选为时域最优深层特征数据。

本申请实施例的动作分类装置能够按照本申请实施例的动作分类方法的步骤对视频中运动员的动作进行分类。

本申请实施例还提供了一种计算设备，参照图4，该计算设备包括存储器1120、处理器1110和存储在所述存储器1120内并能由所述处理器1110运行的计算机程序，该计算机程序存储于存储器1120中的用于程序代码的空间1130，该计算机程序在由处理器1110执行时实现用于执行任一项根据本发明的方法步骤1131。

本申请实施例还提供了一种计算机可读的存储介质。参照图5，该存储介质包括用于程序代码的存储单元，该存储单元设置有用于执行根据本发明的方法步骤的程序1131′，该程序被处理器执行。

本申请实施例还提供了一种包含指令的计算机程序产品。当该计算机程序产品在计算机上运行时，使得计算机执行根据本发明的方法步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、获取其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成，所述的程序可以存储于计算机可读存储介质中，所述存储介质是非短暂性(英文：non-transitory)介质，例如随机存取存储器，只读存储器，快闪存储器，硬盘，固态硬盘，磁带(英文：magnetic tape)，软盘(英文：floppy disk)，光盘(英文：optical disc)及其任意组合。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于卷积神经网络的视频中运动员动作分类方法，包括：

利用卷积神经网络对输入的视频图像提取特征数据；

计算损失差异；

2.根据权利要求1所述的方法，其特征在于，所述的各卷积层中，将与所述卷积神经网络输入层原始视频数据的时域信息差异最小的卷积层所学特征的时域信息所对应的时域特征数据选为时域最优深层特征数据包括：

3.根据权利要求1或2所述的方法，其特征在于，所述的卷积神经网络为拥有深层的3D残差卷积神经网络。

4.一种动作分类装置，包括：

计算模块，其配置成计算损失差异；

5.根据权利要求4所述的装置，其特征在于，所述的选择模块包括：

6.根据权利要求4或5所述的装置，其特征在于，所述的卷积神经网络为拥有深层的3D残差卷积神经网络。

7.一种计算设备，包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如权利要求1-3中任一项所述的方法。

8.一种存储介质，优选为非易失性可读存储介质，其内存储有计算机程序，所述计算机程序在由处理器执行时实现如权利要求1-3中任一项所述的方法。