CN111784121B - 基于不确定性分数分布学习的动作质量评价方法 - Google Patents
基于不确定性分数分布学习的动作质量评价方法 Download PDFInfo
- Publication number
- CN111784121B CN111784121B CN202010535420.5A CN202010535420A CN111784121B CN 111784121 B CN111784121 B CN 111784121B CN 202010535420 A CN202010535420 A CN 202010535420A CN 111784121 B CN111784121 B CN 111784121B
- Authority
- CN
- China
- Prior art keywords
- score
- distribution
- prediction
- fraction
- quality evaluation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/23—Recognition of whole body movements, e.g. for sport training
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Economics (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Strategic Management (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Entrepreneurship & Innovation (AREA)
- Biomedical Technology (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Quality & Reliability (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Game Theory and Decision Science (AREA)
- Evolutionary Biology (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Bioinformatics & Computational Biology (AREA)
- Tourism & Hospitality (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- General Business, Economics & Management (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于不确定性分数分布学习的动作质量评价方法,包括:以分数标签为均值,生成高斯分布作为监督信号;将动作视频送入到3D神经网络中来预测分数标签;通过优化预测分数标签和监督信号之间的KL散度来优化网络;将测试视频输入优化后的预测视频分数模型中,选取概率值最大的分数作为最终预测分数。该方法可以更好的描述动作质量分数的概率,解决解决动作质量评价分数标签中的歧义性问题。
Description
技术领域
本发明涉及计算机视觉及深度学习技术领域,特别涉及一种基于不确定性分数分布学习的动作质量评价方法。
背景技术
人体动作质量评价旨在评价一个人完成一样特定动作的质量好坏。由于它在体育视频处理,医疗看护等多方面的应用潜力,它成为了计算机视觉领域一个新兴并且引人关注的话题。相比于关注于分类的传统动作识别问题,动作行为评价更具有挑战,因为它需要处理类间距极小的视频。
在过去的一些年中,有一些面向动作质量评价的方法被提出。然而,相关技术中对于任何的动作,都只是将动作质量评价认为是一种简单的回归问题来预测视频的分数。由于需要处理的视频往往各不相同,现有动作质量评价问题的性能尚有较大的局限性。
上述做法性能受限的根本原因是因为忽略了动作分数标签中的歧义性,而这是动作质量评价的核心问题之一。该歧义性是由于实际情况下动作标签的生成方式造成的。如图1 所示,对于跳水运动,当运动员完成了难度系数为3.8的动作之后,7个评委给出了他们的分数{9.0,8.5,9.0,8.0,9.0,8.5,9.0}。当去掉两个最高分和两个最低分之后,最终的分数可以由如下的方式计算而得:
sfinal=(9.0+9.0+8.5)×3.8=100.70
而该计算方式说明了最终分数由于由不同评分打分,而会存在的歧义性。更进一步,每个评委的主观评价同样也可能会给最终的分数带来不确定性。除了跳水运动,该现象在其他运动(比如体操、高山滑雪等)的评价中也广泛存在,使得鲁棒的动作质量评价变得尤为困难。因此,针对标签的歧义性来设计一个鲁棒的模型显得尤为重要。
另外,在现有的绝大多数的动作质量评价工作中,网络是基于单个分数的监督信息来设计和优化的。然而,在很多的体育比赛(例如跳水,花样滑冰等)中,最后的分数是基于多个评委的打分和特定的计算规则得到的。例如在最近公开MTL-AQA数据集中,每个评委的原始得分和动作的难度系数(DD)都可以得到。因此,亟待一种对多个评委的打分和特定计算规则的动作质量评价方法。
关于动作质量评价的任务,比较主流的数据集有AQA-7数据集、MTL-AQA数据集等。给定一系列的视频,常用的评价指标之一是Spearman等级相关性(范围从-1到1,越高越好),其相关性定义为:
其中,p和q分别代表预测的动作得分序列和真实的动作得分序列。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的目的在于提出一种基于不确定性分数分布学习的动作质量评价方法,该方法提升了动作质量评价准确率的准确度,增强了动作质量评价模型的鲁棒性。
为达到上述目的,本发明实施例提出了基于不确定性分数分布学习的动作质量评价方法,包括以下步骤:获取输入视频的单个分数标签或多个分数标签;若为所述单个分数标签,则执行单通道的分数分布学习,生成高斯分布;将所述输入视频输入I3D主干网络中,生成预测分数分布;计算所述高斯分布和所述预测分数分布之间的KL散度,通过所述KL 散度优化预测视频分数模型;将测试视频输入优化后的预测视频分数模型中,选取概率值最大的分数作为最终预测分数;若为所述多个分数标签,则执行多通道的分数分布学习,将所述K个动作标签升序排列,生成K个高斯分布,其中,K为正整数;将所述输入视频输入I3D主干网络中,得到所述输入视频的N个片段特征;将所述N个片段特征输入到预设K个通道模型中,生成K个预测分数分布;计算所述K个高斯分布和所述K个预测分数分布的损失函数,通过所述损失函数优化预设K个通道模型;将多个测试视频输入优化后的预设K个通道模型中,得到K个最终预测分数。
本发明实施例的基于不确定性分数分布学习的动作质量评价方法,解决现有的动作质量评价技术中存在的标签歧义性问题,通过将原始的单个分数标签建模成一个高斯分布,或者将多个分数标签建模为多个高斯分布,使得网络能够学习到鲁棒性更强的信息,进行更加高效精准的动作质量评价。
另外,根据本发明上述实施例的基于不确定性分数分布学习的动作质量评价方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述单通道的分数分布学习的高斯分布g(c)为:
其中,s为分数标签的均值,σ为分数标签的标准差,c为分数序列。
进一步地,在本发明的一个实施例中,所述将所述输入视频输入I3D主干网络中,生成预测分数分布,进一步包括:将所述输入视频输入I3D主干网络中,提取所述输入视频的多个片段特征;在全连接层中,将所述多个片段特征映射成多个预测分数;对所述多个预测分数进行时域平均池化,通过softmax层生成所述预测分数分布。
进一步地,在本发明的一个实施例中,所述计算所述高斯分布和所述预测分数分布之间的KL散度,进一步包括:归一化处理所述高斯分布,得到分数分布;处理所述分数分布与所述预测分数分布,得到所述KL散度。
进一步地,在本发明的一个实施例中,计算所述KL(Kullback-Leible)散度的公式为:
其中,p(ci)为所述分数分布,spre(ci)为所述预测分数分布。
进一步地,在本发明的一个实施例中,所述K个预测分数分布为:
进一步地,在本发明的一个实施例中,所述损失函数的计算公式为:
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为跳水运动评分的常见处理方法的示意图;
图2为根据本发明一个实施例的基于不确定性分数分布学习的动作质量评价方法的流程图;
图3为根据本发明一个实施例的单通道动作质量评价方法流程图;
图4为根据本发明一个实施例的多通道动作质量评价方法流程图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参照附图描述根据本发明实施例提出的基于不确定性分数分布学习的动作质量评价方法。
图2是本发明一个实施例的基于不确定性分数分布学习的动作质量评价方法的流程图。
如图2所示,该基于不确定性分数分布学习的动作质量评价方法包括以下步骤:
需要说明的是,如图3所示,对于一个给定的L帧输入视频采用滑动窗口将它分割为N段有重合的片段。每个片段中,有M张连续的视频帧。接下来,将 M张连续的视频帧送入到接着三个全连接层的I3D网络中,并得到了N个特征 {f1,f2,...fN}。不同视频片段之间的网络权重是共享的。
在步骤S1中,获取输入视频的单个分数标签或多个分数标签。
在步骤S2中若为单个分数标签,则执行单通道的分数分布学习,生成高斯分布。
具体地,如图1左上方所示,若给定一个分数标签为s的视频,则执行单通道的分数分布学习,首先生成一个均值为s、标准差为σ的高斯分布:
进一步地,将分数区间平均离散化为如下的分数序列c=[c1,c2,…cm],并采用 g(c)=[g(c1),g(c2),...,g(cm)]的一个向量来描述其中每一个分数的程度。进而最终的分数分布标签P(c)=[p(c1),p(c2),...,p(cm)]可以由如下的归一化过程得到:
在步骤S3中,将输入视频输入I3D主干网络中,生成预测分数分布。
进一步地,在本发明的一个实施例中,步骤S3包括:将输入视频输入I3D主干网络中,提取输入视频的多个片段特征;在全连接层中,将多个片段特征映射成多个预测分数;对多个预测分数进行时域平均池化,通过softmax层生成预测分数分布。
具体地,为学习生成的分数分布标签P(c),将N个学习的特征{f1,f2,...,fN}映射到N 个预测的分数{s1,s2,...,sN},其中si与P(c)的维度相同。然后,对进行时域平均池化,得到s。在s通过softmax激活函数,得到预测分数分布
在步骤S4中,计算高斯分布和预测分数分布之间的KL散度,通过KL散度优化预测视频分数模型。
其中,计算高斯分布(分数分布标签)和预测分数分布之间的KL散度公式为:
其中,p(ci)为分数分布,spre(ci)为预测分数分布。
在步骤S5中,将测试视频输入优化后的预测视频分数模型中,选取概率值最大的分数作为最终预测分数。
也就是说,步骤S5为单通道分数分布的测试阶段,将视频送入在训练过程中优化好的模型,得到对应的预测分数分布spre。选择其中概率值最大的分数作为最后预测到的分数:
在步骤S6中,若为多个分数标签,则执行多通道的分数分布学习,将K个动作标签升序排列,生成K个高斯分布,其中,K为正整数。
需要说明的是,如图4所示,对每个单一的通道,采用和USDL方法相同的流程。对于不同的通道而言,全连接层是分开训练的,但I3D的网络骨架可以共享权重。
在步骤S7中,将输入视频输入I3D主干网络中,得到输入视频的N个片段特征。
在步骤S8中,将N个片段特征输入到预设K个通道模型中,生成K个预测分数分布。
在步骤S9中,计算K个高斯分布和K个预测分数分布的损失函数,通过损失函数优化预设K个通道模型。
其中,总的损失函数可以按照如下方式进行计算:
在步骤S10中,将多个测试视频输入优化后的预设K个通道模型中,得到K个最终预测分数。
其中,U代表着1,2,...,k的一个子集(比如,对于跳水比赛而言,需要去掉两个最高分和两个最低分),DD代表在运动员做动作之前事先公布的难度系数。事实上,即使DD在测试的阶段没有直接给出,也可以采用和之前类似的方式来训练一个单通道模型来预测它,然后将预测的DD直接用于公式(7)中。
根据本发明实施例提出的基于不确定性分数分布学习的动作质量评价方法,在单个分数标注给出的情况下,将分数标签建模为一个高斯分布,训练网络优化输入视频的预测分布与这个高斯分布之间的KL散度,提升了动作质量评价准确率的准确度;在多个分数标注标签给出的情况下,将分数建模为多个高斯分布,采用类似的方法对网络进行优化,并在训练阶段根据实际规则对多个预测分数进行融合,充分探索不同的成分为最终结果的影响,增强了动作质量评价模型的鲁棒性。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (5)
1.一种基于不确定性分数分布学习的动作质量评价方法,其特征在于,包括以下步骤:
获取输入视频的单个分数标签或多个分数标签;
若为所述单个分数标签,则执行单通道的分数分布学习,生成高斯分布;
将所述输入视频输入I3D主干网络中,生成预测分数分布,所述将所述输入视频输入I3D主干网络中,生成预测分数分布,进一步包括:
将所述输入视频输入I3D主干网络中,提取所述输入视频的多个片段特征;
在全连接层中,将所述多个片段特征映射成多个预测分数;
对所述多个预测分数进行时域平均池化,通过softmax层生成所述预测分数分布;
计算所述高斯分布和所述预测分数分布之间的KL散度,通过所述KL散度优化预测视频分数模型,所述预测视频分数模型包括所述I3D主干网络和所述全连接层;
将测试视频输入优化后的预测视频分数模型中,选取概率值最大的分数作为最终预测分数;
若为所述多个分数标签,则执行多通道的分数分布学习,将K个动作标签升序排列,生成K个高斯分布,其中,K为正整数;
将所述输入视频输入所述I3D主干网络中,得到所述输入视频的N个片段特征,其中,N为正整数;
将所述N个片段特征输入到预设K个通道模型中,生成K个预测分数分布;
计算所述K个高斯分布和所述K个预测分数分布的损失函数,通过所述损失函数优化预设K个通道模型,所述损失函数的计算公式为:
将多个测试视频输入优化后的预设K个通道模型中,得到K个最终预测分数。
3.根据权利要求1所述的基于不确定性分数分布学习的动作质量评价方法,其特征在于,所述计算所述高斯分布和所述预测分数分布之间的KL散度,进一步包括:
归一化处理所述高斯分布,得到分数分布;
处理所述分数分布与所述预测分数分布,得到所述KL散度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010535420.5A CN111784121B (zh) | 2020-06-12 | 2020-06-12 | 基于不确定性分数分布学习的动作质量评价方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010535420.5A CN111784121B (zh) | 2020-06-12 | 2020-06-12 | 基于不确定性分数分布学习的动作质量评价方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111784121A CN111784121A (zh) | 2020-10-16 |
CN111784121B true CN111784121B (zh) | 2022-08-09 |
Family
ID=72756169
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010535420.5A Active CN111784121B (zh) | 2020-06-12 | 2020-06-12 | 基于不确定性分数分布学习的动作质量评价方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111784121B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112329571B (zh) * | 2020-10-27 | 2022-12-16 | 同济大学 | 一种基于姿态质量评估的自适应人体姿态优化方法 |
CN112733796B (zh) * | 2021-01-22 | 2023-12-05 | 华侨大学 | 一种体育运动质量的评估方法、装置、设备,存储介质 |
CN113255489B (zh) * | 2021-05-13 | 2024-04-16 | 东南大学 | 一种基于标记分布学习的多模态跳水赛事智能评估方法 |
CN113506328A (zh) * | 2021-07-16 | 2021-10-15 | 北京地平线信息技术有限公司 | 视线估计模型的生成方法和装置、视线估计方法和装置 |
CN113642513B (zh) * | 2021-08-30 | 2022-11-18 | 东南大学 | 一种基于自注意力及标记分布学习的动作质量评估方法 |
CN114821812B (zh) * | 2022-06-24 | 2022-09-13 | 西南石油大学 | 一种基于深度学习的花样滑冰选手骨骼点动作识别方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109685087A (zh) * | 2017-10-18 | 2019-04-26 | 富士通株式会社 | 信息处理方法和装置以及信息检测方法和装置 |
CN110222977A (zh) * | 2019-06-03 | 2019-09-10 | 张学志 | 一种基于计算机视觉的动作体育评分方法与装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9830529B2 (en) * | 2016-04-26 | 2017-11-28 | Xerox Corporation | End-to-end saliency mapping via probability distribution prediction |
-
2020
- 2020-06-12 CN CN202010535420.5A patent/CN111784121B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109685087A (zh) * | 2017-10-18 | 2019-04-26 | 富士通株式会社 | 信息处理方法和装置以及信息检测方法和装置 |
CN110222977A (zh) * | 2019-06-03 | 2019-09-10 | 张学志 | 一种基于计算机视觉的动作体育评分方法与装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111784121A (zh) | 2020-10-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111784121B (zh) | 基于不确定性分数分布学习的动作质量评价方法 | |
CN108776796B (zh) | 一种基于全局时空注意力模型的动作识别方法 | |
CN112800292B (zh) | 一种基于模态特定和共享特征学习的跨模态检索方法 | |
CN109299657B (zh) | 基于语义注意力保留机制的群体行为识别方法及装置 | |
CN107256221A (zh) | 基于多特征融合的视频描述方法 | |
CN110135459B (zh) | 一种基于双三元组深度度量学习网络的零样本分类方法 | |
KR102190325B1 (ko) | 얼굴 이미지들로부터의 질적인 특성의 평가를 위한 컴퓨터-구현된 연산 디바이스를 구축하기 위한 방법 | |
CN105635727B (zh) | 基于成对比较的图像主观质量的评价方法和装置 | |
CN109299380A (zh) | 在线教育平台中基于多维特征的习题个性化推荐方法 | |
CN108874960A (zh) | 一种在线学习中基于降噪自编码器混合模型的课程视频推荐算法 | |
CN110866134B (zh) | 一种面向图像检索的分布一致性保持度量学习方法 | |
CN114596467A (zh) | 基于证据深度学习的多模态影像分类方法 | |
CN111477328B (zh) | 一种非接触式的心理状态预测方法 | |
CN116049557A (zh) | 一种基于多模态预训练模型的教育资源推荐方法 | |
CN115205930A (zh) | 一种基于决策融合的多模态情感分类方法 | |
CN111144462A (zh) | 一种雷达信号的未知个体识别方法及装置 | |
He et al. | Automatic coding of open-ended questions into multiple classes: Whether and how to use double coded data | |
CN113282840A (zh) | 一种训练采集综合管理平台 | |
CN113868597B (zh) | 一种用于年龄估计的回归公平性度量方法 | |
CN115565639A (zh) | 一种锻炼心率的预测方法、装置以及设备 | |
CN114519092A (zh) | 一种面向中文领域大规模复杂关系数据集构建框架 | |
CN111859947B (zh) | 一种文本处理装置、方法、电子设备及存储介质 | |
CN112153370B (zh) | 基于群敏感对比回归的视频动作质量评价方法及系统 | |
CN112288145A (zh) | 基于多视角认知诊断的学生成绩预测方法 | |
Kulakou | Exploration of time-series models on time series data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |