CN111784121B

CN111784121B - 基于不确定性分数分布学习的动作质量评价方法

Info

Publication number: CN111784121B
Application number: CN202010535420.5A
Authority: CN
Inventors: 周杰; 鲁继文; 于旭敏; 倪赞林; 唐彦嵩
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2020-06-12
Filing date: 2020-06-12
Publication date: 2022-08-09
Anticipated expiration: 2040-06-12
Also published as: CN111784121A

Abstract

本发明公开了一种基于不确定性分数分布学习的动作质量评价方法，包括：以分数标签为均值，生成高斯分布作为监督信号；将动作视频送入到3D神经网络中来预测分数标签；通过优化预测分数标签和监督信号之间的KL散度来优化网络；将测试视频输入优化后的预测视频分数模型中，选取概率值最大的分数作为最终预测分数。该方法可以更好的描述动作质量分数的概率，解决解决动作质量评价分数标签中的歧义性问题。

Description

基于不确定性分数分布学习的动作质量评价方法

技术领域

本发明涉及计算机视觉及深度学习技术领域，特别涉及一种基于不确定性分数分布学习的动作质量评价方法。

背景技术

人体动作质量评价旨在评价一个人完成一样特定动作的质量好坏。由于它在体育视频处理，医疗看护等多方面的应用潜力，它成为了计算机视觉领域一个新兴并且引人关注的话题。相比于关注于分类的传统动作识别问题，动作行为评价更具有挑战，因为它需要处理类间距极小的视频。

在过去的一些年中，有一些面向动作质量评价的方法被提出。然而，相关技术中对于任何的动作，都只是将动作质量评价认为是一种简单的回归问题来预测视频的分数。由于需要处理的视频往往各不相同，现有动作质量评价问题的性能尚有较大的局限性。

上述做法性能受限的根本原因是因为忽略了动作分数标签中的歧义性，而这是动作质量评价的核心问题之一。该歧义性是由于实际情况下动作标签的生成方式造成的。如图1 所示，对于跳水运动，当运动员完成了难度系数为3.8的动作之后，7个评委给出了他们的分数{9.0,8.5,9.0,8.0,9.0,8.5,9.0}。当去掉两个最高分和两个最低分之后，最终的分数可以由如下的方式计算而得:

s_final＝(9.0+9.0+8.5)×3.8＝100.70

而该计算方式说明了最终分数由于由不同评分打分，而会存在的歧义性。更进一步，每个评委的主观评价同样也可能会给最终的分数带来不确定性。除了跳水运动，该现象在其他运动(比如体操、高山滑雪等)的评价中也广泛存在，使得鲁棒的动作质量评价变得尤为困难。因此，针对标签的歧义性来设计一个鲁棒的模型显得尤为重要。

另外，在现有的绝大多数的动作质量评价工作中，网络是基于单个分数的监督信息来设计和优化的。然而，在很多的体育比赛(例如跳水，花样滑冰等)中，最后的分数是基于多个评委的打分和特定的计算规则得到的。例如在最近公开MTL-AQA数据集中，每个评委的原始得分和动作的难度系数(DD)都可以得到。因此，亟待一种对多个评委的打分和特定计算规则的动作质量评价方法。

关于动作质量评价的任务，比较主流的数据集有AQA-7数据集、MTL-AQA数据集等。给定一系列的视频，常用的评价指标之一是Spearman等级相关性(范围从-1到1，越高越好)，其相关性定义为:

其中，p和q分别代表预测的动作得分序列和真实的动作得分序列。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的目的在于提出一种基于不确定性分数分布学习的动作质量评价方法，该方法提升了动作质量评价准确率的准确度，增强了动作质量评价模型的鲁棒性。

为达到上述目的，本发明实施例提出了基于不确定性分数分布学习的动作质量评价方法，包括以下步骤：获取输入视频的单个分数标签或多个分数标签；若为所述单个分数标签，则执行单通道的分数分布学习，生成高斯分布；将所述输入视频输入I3D主干网络中，生成预测分数分布；计算所述高斯分布和所述预测分数分布之间的KL散度，通过所述KL 散度优化预测视频分数模型；将测试视频输入优化后的预测视频分数模型中，选取概率值最大的分数作为最终预测分数；若为所述多个分数标签，则执行多通道的分数分布学习，将所述K个动作标签升序排列，生成K个高斯分布，其中，K为正整数；将所述输入视频输入I3D主干网络中，得到所述输入视频的N个片段特征；将所述N个片段特征输入到预设K个通道模型中，生成K个预测分数分布；计算所述K个高斯分布和所述K个预测分数分布的损失函数，通过所述损失函数优化预设K个通道模型；将多个测试视频输入优化后的预设K个通道模型中，得到K个最终预测分数。

本发明实施例的基于不确定性分数分布学习的动作质量评价方法，解决现有的动作质量评价技术中存在的标签歧义性问题，通过将原始的单个分数标签建模成一个高斯分布，或者将多个分数标签建模为多个高斯分布，使得网络能够学习到鲁棒性更强的信息，进行更加高效精准的动作质量评价。

另外，根据本发明上述实施例的基于不确定性分数分布学习的动作质量评价方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述单通道的分数分布学习的高斯分布g(c)为：

其中，s为分数标签的均值，σ为分数标签的标准差，c为分数序列。

进一步地，在本发明的一个实施例中，所述将所述输入视频输入I3D主干网络中，生成预测分数分布，进一步包括：将所述输入视频输入I3D主干网络中，提取所述输入视频的多个片段特征；在全连接层中，将所述多个片段特征映射成多个预测分数；对所述多个预测分数进行时域平均池化，通过softmax层生成所述预测分数分布。

进一步地，在本发明的一个实施例中，所述计算所述高斯分布和所述预测分数分布之间的KL散度，进一步包括：归一化处理所述高斯分布，得到分数分布；处理所述分数分布与所述预测分数分布，得到所述KL散度。

进一步地，在本发明的一个实施例中，计算所述KL(Kullback-Leible)散度的公式为：

其中，p(c_i)为所述分数分布，s_pre(c_i)为所述预测分数分布。

进一步地，在本发明的一个实施例中，所述K个预测分数分布为：

其中，

为K个预测分数分布，φ_k为K个通道，f_N为N个片段特征。

进一步地，在本发明的一个实施例中，所述损失函数的计算公式为：

其中，J_multi为损失函数，

为K个高斯分布，

为K个预测分数分布。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为跳水运动评分的常见处理方法的示意图；

图2为根据本发明一个实施例的基于不确定性分数分布学习的动作质量评价方法的流程图；

图3为根据本发明一个实施例的单通道动作质量评价方法流程图；

图4为根据本发明一个实施例的多通道动作质量评价方法流程图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的基于不确定性分数分布学习的动作质量评价方法。

图2是本发明一个实施例的基于不确定性分数分布学习的动作质量评价方法的流程图。

如图2所示，该基于不确定性分数分布学习的动作质量评价方法包括以下步骤：

需要说明的是，如图3所示，对于一个给定的L帧输入视频

采用滑动窗口将它分割为N段有重合的片段。每个片段中，有M张连续的视频帧。接下来，将 M张连续的视频帧送入到接着三个全连接层的I3D网络中，并得到了N个特征 {f₁，f₂，...f_N}。不同视频片段之间的网络权重是共享的。

在步骤S1中，获取输入视频的单个分数标签或多个分数标签。

在步骤S2中若为单个分数标签，则执行单通道的分数分布学习，生成高斯分布。

具体地，如图1左上方所示，若给定一个分数标签为s的视频，则执行单通道的分数分布学习，首先生成一个均值为s、标准差为σ的高斯分布：

进一步地，将分数区间平均离散化为如下的分数序列c＝[c₁,c₂,…c_m]，并采用 g(c)＝[g(c₁),g(c₂),...,g(c_m)]的一个向量来描述其中每一个分数的程度。进而最终的分数分布标签P(c)＝[p(c₁),p(c₂),...,p(c_m)]可以由如下的归一化过程得到：

在步骤S3中，将输入视频输入I3D主干网络中，生成预测分数分布。

进一步地，在本发明的一个实施例中，步骤S3包括：将输入视频输入I3D主干网络中，提取输入视频的多个片段特征；在全连接层中，将多个片段特征映射成多个预测分数；对多个预测分数进行时域平均池化，通过softmax层生成预测分数分布。

具体地，为学习生成的分数分布标签P(c)，将N个学习的特征{f₁,f₂,...,f_N}映射到N 个预测的分数{s₁,s₂,...,s_N}，其中s_i与P(c)的维度相同。然后，对

进行时域平均池化，得到s。在s通过softmax激活函数，得到预测分数分布

在步骤S4中，计算高斯分布和预测分数分布之间的KL散度，通过KL散度优化预测视频分数模型。

其中，计算高斯分布(分数分布标签)和预测分数分布之间的KL散度公式为：

其中，p(c_i)为分数分布，s_pre(c_i)为预测分数分布。

在步骤S5中，将测试视频输入优化后的预测视频分数模型中，选取概率值最大的分数作为最终预测分数。

也就是说，步骤S5为单通道分数分布的测试阶段，将视频送入在训练过程中优化好的模型，得到对应的预测分数分布s_pre。选择其中概率值最大的分数作为最后预测到的分数：

在步骤S6中，若为多个分数标签，则执行多通道的分数分布学习，将K个动作标签升序排列，生成K个高斯分布，其中，K为正整数。

需要说明的是，如图4所示，对每个单一的通道，采用和USDL方法相同的流程。对于不同的通道而言，全连接层是分开训练的，但I3D的网络骨架可以共享权重。

具体地，如图1右上方所示，当获得更细粒度的分数标注时，在训练阶段，预设K个不同评委的分数

对这些分数按照升序排列，以表示不同评委的严苛程度，并利用公式(1)计算生成K个高斯分布

在步骤S7中，将输入视频输入I3D主干网络中，得到输入视频的N个片段特征。

在步骤S8中，将N个片段特征输入到预设K个通道模型中，生成K个预测分数分布。

具体地，如图4所示，将输入视频送入一个I3D的模型骨架中，并得到N个特征 {f₁,f₂,...f_N}。再将N个特征输入到K个子网络中，以得到K个最终预测的分布

在步骤S9中，计算K个高斯分布和K个预测分数分布的损失函数，通过损失函数优化预设K个通道模型。

其中，总的损失函数可以按照如下方式进行计算：

其中，J_multi为损失函数，

为K个高斯分布，

为K个预测分数分布。

在步骤S10中，将多个测试视频输入优化后的预设K个通道模型中，得到K个最终预测分数。

也就是说，步骤S10为测试阶段，将每一个测试视频送入到训练好的多通道模型中，以得到最终的K个预测分数

根据跳水运动的特有规则，可以按照如下方式得到最终分数：

其中，U代表着1,2,...,k的一个子集(比如，对于跳水比赛而言，需要去掉两个最高分和两个最低分)，DD代表在运动员做动作之前事先公布的难度系数。事实上，即使DD在测试的阶段没有直接给出，也可以采用和之前类似的方式来训练一个单通道模型来预测它，然后将预测的DD直接用于公式(7)中。

根据本发明实施例提出的基于不确定性分数分布学习的动作质量评价方法，在单个分数标注给出的情况下，将分数标签建模为一个高斯分布，训练网络优化输入视频的预测分布与这个高斯分布之间的KL散度，提升了动作质量评价准确率的准确度；在多个分数标注标签给出的情况下，将分数建模为多个高斯分布，采用类似的方法对网络进行优化，并在训练阶段根据实际规则对多个预测分数进行融合，充分探索不同的成分为最终结果的影响，增强了动作质量评价模型的鲁棒性。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。