CN109063568B - 一种基于深度学习的花样滑冰视频自动打分的方法 - Google Patents

一种基于深度学习的花样滑冰视频自动打分的方法 Download PDF

Info

Publication number
CN109063568B
CN109063568B CN201810721097.3A CN201810721097A CN109063568B CN 109063568 B CN109063568 B CN 109063568B CN 201810721097 A CN201810721097 A CN 201810721097A CN 109063568 B CN109063568 B CN 109063568B
Authority
CN
China
Prior art keywords
video
neural network
skating
lstm
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810721097.3A
Other languages
English (en)
Other versions
CN109063568A (zh
Inventor
付彦伟
徐程明
姜育刚
薛向阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN201810721097.3A priority Critical patent/CN109063568B/zh
Publication of CN109063568A publication Critical patent/CN109063568A/zh
Application granted granted Critical
Publication of CN109063568B publication Critical patent/CN109063568B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度学习的花样滑冰视频自动打分的方法。本发明根据花样滑冰运动的技术总分(TES)与节目内容分(PCS)的定义以及针对的不同方面,基于深度学习的思想提出了自注意力机制的局部信息提取模块以及多尺度卷积神经网络的全局信息提取模块,并且联合这两个模块提出了基于视频片段级特征的花样滑冰视频自动打分的方法。该方法具有精度高、鲁棒性好等优点,不仅适用于花样滑冰运动,也适用于依据技术动作和整体表现进行打分的其他运动。

Description

一种基于深度学习的花样滑冰视频自动打分的方法
技术领域
本发明属于计算机视频分析技术领域,具体涉及一种基于深度学习的花样滑冰视频自动打分的方法。
背景技术
视频已经成为人类生活中必不可少的一个组成部分。在包括安防、机器人、娱乐等众多领域,视频以其所能传递的丰富信息为人类提供便捷的服务,而视频的实用性使得录制、观看及传播越来越广泛。伴随着视频推广,对大量视频进行观看分析所需要消耗的人力与物力也成为了棘手的问题。针对这个问题,一个有效的解决方法就是利用机器代替人,自动提取视频中有用的信息进行分析。因此,视频理解已经成为计算机视觉中一个受到较多关注的主题,而视频打分则是视频理解中比较具体的一个方向。
针对花样滑冰运动视频的打分,一般在花样滑冰比赛中,裁判会根据选手的表现打出分数,最终分数有两个重要的组成部分,一个是技术总分(TES),这个分数主要侧重每一项花样滑冰的技术动作要素,另一个分数是节目内容分(PCS),这个分数与技术总分中没有涵盖的细节和节目的艺术表现方面有关。
近年来机器学习方法在视频分析领域应用愈加广泛,但是在视频打分特别是花样滑冰运动视频打分上的应用较少且效果差。公开的可供训练模型的相关数据集较少,且只包含了少量的视频。
文[1]提出了通过离散余弦变换(DCT)的方法获得人体姿势特征作为视频的高级特征,并且使用支持向量回归(SVR)的方法进行分数的预测。该方法计算姿势特征的过程较为复杂,计算速度慢且精确度低。
文[2]提出了通过预训练的三维卷积神经网络(C3D)提取视频特征序列,以对整个序列平均的形式获得视频级的特征,并且通过支持向量回归(SVR)进行分数的预测。该方法虽然使用了深度神经网络的结构,但是没有充分利用视频中的信息,得到的视频特征不足以对两种分数分别进行精确的预测,因此精确度低。
发明内容
为了克服现有技术的不足,本发明提出了一种基于深度学习的花样滑冰视频自动打分的方法。本发明通过收集正规赛事的花样滑冰视频以及职业裁判的打分作为标注,考虑每个视频中对两个不同分数做出贡献的具体部分,训练了一个深度神经网络模型,同时采用了多层的全连接神经网络模型取代支持向量回归模型,因此本发明方法在分数预测的精度上更胜一筹,并且在速度上比传统的特征计算过程更快。
本发明设计了基于自注意力机制的深度网络模型来学习获得视频中关键的技术动作,并且设计了多尺度的卷积神经网络同时学习获得视频中的全局和局部信息。几种不同程度的信息最后使用文[3]提出的长短时记忆网络(LSTM)与多个非线性变换层组合得到更完善的视频表征。在使用长短时记忆网络(LSTM)时,本发明方法采用了可跳跃式的模型,同时学习获取序列信息与对是否跳过当前时间输入进行决策。这样生成的表征既包含了预测技术总分(TES)需要的关键技术动作的信息,同时包含了预测节目内容分(PCS)需要的整体表现的信息。本发明的技术方案具体介绍如下。
一种基于深度学习的花样滑冰视频自动打分的方法,具体步骤如下:
步骤1:收集来自不同选手和不同高等级赛事的花样滑冰视频数据,然后对于每个视频,标注出裁判的专业打分;
步骤2:对收集到的视频进行预处理并提取低阶特征序列;
步骤3:构建基于自注意力模块和多尺度卷积模块的深度神经网络对视频的特征序列进行处理获得更高阶、更全面的视频表征;其中:基于自注意模块的深度神经网络使用2层全连接层和非线性层得到不同时间的注意力权重,并对特征序列得到更短的加权和序列,使用长短时记忆网络LSTM处理序列;基于多尺度卷积模块的深度神经网络使用卷积核大小为2和4的1维卷积提取序列中的局部信息,使用可跳跃的长短时记忆网络skip-LSTM处理两个序列,使用卷积核大小为8的1维卷积提取序列中的全局信息,使用长短时记忆网络LSTM处理序列;
步骤4:构建预测分数用的深度神经网络模型;
步骤5:构建损失函数;
步骤6:训练深度神经网络模型,训练完成之后,对于要打分的一个花样滑冰视频,通过抽帧、提取低阶特征序列、输入深度神经网络模型的方式得到预测的技术总分TES和节目内容分PCS。
本发明中,步骤2中,对视频以16帧组成一个片段,相邻片段重复8帧,使用预训练的C3D模型对每个片段提取特征。
本发明中,步骤3中,可跳跃的长短时记忆网络LSTM在传统LSTM[6]]基础上增加了涉及更新的门限函数ut,具体更新公式如下:
Figure GDA0002677274800000031
it,ft,ot=σ(Wxxt+Whht-1+b)
gt=tanh(Wxgxt+Whght-1+bg)
ct=ft⊙ct-1+ut·it⊙gt
ht=((1-ut)·ot+ut·ot-1)⊙tanh(ct)
Figure GDA0002677274800000032
Figure GDA0002677274800000033
其中:Wx,Wh,Wxg,Whg,Wp为可学习权重,b,bg为可学习偏置,fbinary为舍入函数,tanh为双曲正切函数,σ为Sigmoid函数,min为二元最小值函数,⊙为逐项乘积,ut,it,ft,ot分别为LSTM单元中控制状态更新、信息输入、信息丢弃、信息输出的门限,其形式为各项元素在[0,1]中的向量。
本发明中,步骤4中,神经网络模型包括自注意力模块和多尺度卷积模块输出的每个信息分支中各自的1层全连接层和非线性层,以及连接后的2层全连接层和非线性层。
本发明中,步骤5中,使用预测分数与实际分数的平均平方误差构建损失函数。
本发明中,步骤6中,训练深度神经网络模型时,利用反向传播的算法,优化深度神经网络模型中的参数。
和现有技术相比,本发明的有益效果在于:
1.使用自注意力机制进行视频分析,从视频中获取关键技术动作信息的同时,除此之外对多尺度卷积神经网络输出使用可跳跃的LSTM模型,减少了LSTM模型的输入序列长度,一定程度上使得训练更加快速、稳定。
2.使用多层非线性神经网络对不同信息进行整合,使得整个模型能够端到端地训练。
附图说明
图1是本发明提出的花样滑冰视频打分系统图。
图2是本发明提出的花样滑冰视频打分算法流程图。
图3是本发明设计的双模块深度神经网络的结构示意图。
具体实施方式
下面结合附图和实施例对本发明的技术方案进行详细阐述。
图1为本发明的花样滑冰视频打分方法采用的系统的图。该系统100包括媒体数据101,计算设备110和展示设备191。媒体数据101可以是视频内容,即连续的视频帧,如电视节目、电影等。媒体数据101可以通过传统的广播电视、有线电视、因特网(Internet) 传播。在某些实现中,媒体数据101还可以是包含花样滑冰识别的其他类图像数据。
计算设备110是处理媒体数据101的计算设备,主要包括计算机处理器120,内存130。处理器120是一个用于计算设备110的硬件处理器,如中央处理器CPU,图形计算处理器(Graphical Process Unit)。内存130是一个非易失的存储设备,用于储存计算机代码用于处理器120的计算过程,同时,内存130也会存储各类中间数据、及参数。内存130包括花样滑冰数据集135及其相关数据、可执行代码140。可执行代码140包括一至多个软件模块,用于执行计算机处理器120的计算。如图1所示,可执行代码140包括媒体数据解析模块141,M-LSTM模块143,S-LSTM模块144和特征融合模块147
媒体数据解析模块141,是处理媒体数据101的代码模块,可以对视频内容进行解码、抽帧、提取特征序列。在某些视线中,媒体数据解析模块141还可以对包含花样滑冰的图像数据提取特征。
M-LSTM模块143,用于从媒体数据解析模块141得到的数据中提取全局信息,即从花样滑冰视频数据中提取整体表现相关的信息,同时提取局部信息以补全S-LSTM模块144得到的信息。
S-LSTM模块144,用于从媒体数据解析模块141得到的数据中提取局部信息,即从花样滑冰视频数据中提取关键技术动作相关的信息。
特征融合模块147,是用于整合M-LSTM模块143和S-LSTM模块144得到的信息,并对分数进行预测。
展示设备191是适合播放媒体数据101和显示计算设备110 输出的预测分数的设备,可以是电脑、电视或者移动设备;展示设备191播放媒体数据101和显示计算设备110 输出的预测分数即为展示195。
实施例1
步骤1.对花样滑冰视频进行收集与标注。在收集视频时,应首先确保来自不同比赛的视频评分标准是一样的,为此,我们只收集近5年的相关视频;同时从正规的高级别花样滑冰赛事,例如国际滑冰联盟花样滑冰大奖赛日本站(NHK),中国杯世界花样滑冰大奖赛(CoC)等一系列赛事中选取不同选手比赛视频。每个视频对应九名裁判的打分。最后得到的500个视频包含来自20个国家的149位不同的选手。在此基础上我们收集每个视频对应的技术总分(TES)与节目内容分(PCS);
步骤2.对收集到的视频进行预处理并提取低阶特征序列。由于以整个视频作为深度神经网络的输入较为复杂,一般以图像序列的形式进行输入。因此,本发明对视频进行解码与抽帧,得到每个视频的一系列静态帧。首先本发明使用ffmpeg等工具对视频进行解码与抽帧,由于花样滑冰视频中的动作较快,使用每秒25帧作为帧率。对得到的帧采用预训练好的文[4]中的三维卷积神经网络模型(C3D)提取特征,以每16帧作为一个片段,相邻片段间有8帧的重叠。将每个片段作为C3D模型的输入,分别得到4096维的特征,最后组成一个特征序列,作为视频的低阶特征F=(f1,f2,…,fT),其中元素ft表示第t个片段得到的4096维的向量。
步骤3.构建双模块的深度神经网络对视频的特征序列进行处理获得更高阶、更全面的视频表征。第一个模块是基于自注意力机制的深度网络模型,我们设计了一个两层的感知机获得视频特征(片段)序列中不同时间的注意力权重A=Softmax(Ws2tanh2(Ws1FT)),其中FT为矩阵F的转置矩阵,Softmax为Softmax函数,Ws1,Ws2分别是维度为4096×d1与 d1×d2的可学习参数矩阵,d1,d2为可调整超参数,其中d2为意图从视频序列中抽出的关键片段个数。之后,对特征序列进行加权和,获得更短的序列M=A·F,其中⊙表示逐项乘积。这个序列被作为一个长短时记忆网络(LSTM)的输入,以此获得有关所有关键技术动作的信息。我们使用LSTM模型最后时刻的输出作为这个模块的输出。另一个模块是多尺度卷积神经网络模型,我们设计了三个尺度的一维卷积神经网络,小尺度卷积被用来提取局部信息,补足前一模块可能存在的信息缺失,大尺度卷积被用来提取全局信息,帮助模型理解视频中的整体表现。不同尺度的网络输出分别输入三个LSTM模型进行序列处理。对两个小尺度卷积网络的输出,其中冗余信息较多,不符合我们对其功能的需求,因此我们设计了可跳跃的LSTM模型以替代传统的LSTM模型,用来舍弃冗余信息。传统的LSTM 更新公式如下:
it,ft,ot=σ(Wxxt+Whht-1+b)
gt=tanh(Wxgxt+Whght-1+bg)
ct=ft⊙ct-1+it⊙g
ht=ot⊙tanh(ct)
其中Wx,Wh,Wxg,Whg为可学习权重,b,bg为可学习偏置,tanh为双曲正切函数,σ为Sigmoid 函数,⊙为逐项乘积,it,ft,ot分别为LSTM单元中控制信息输入、信息丢弃、信息输出的门限,其形式为各项元素在[0,1]中的向量。
可跳跃的LSTM模型在传统LSTM基础上增加了涉及更新的门限函数ut,具体更新公式如下:
Figure GDA0002677274800000061
it,ft,ot=σ(Wxxt+Whht-1+b)
gt=tanh(Wxgxt+Whght-1+bg)
ct=ft⊙ct-1+ut·it⊙gt
ht=((1-ut)·ot+ut·ot-1)⊙tanh(ct)
Figure GDA0002677274800000062
Figure GDA0002677274800000063
其中Wx,Wh,Wxg,Whg,Wp为可学习权重,b,bg为可学习偏置,fbinary为舍入函数,tanh为双曲正切函数,σ为Sigmoid函数,min为二元最小值函数,⊙为逐项乘积,ut,it,ft,ot分别为LSTM单元中控制状态更新、信息输入、信息丢弃、信息输出的门限,其形式为各项元素在[0,1]中的向量。门限函数ut帮助模型丢滑冰过程中一些过渡性的片段输入,从而减少序列长度,加快训练。我们使用三个LSTM模型最后时刻的输出作为这个模块的输出。
步骤4.构建预测分数用的神经网络模型。对每个模块的输出,一共有4个分支,我们对每个分支先设计了一层的全连接网络配合ReLU激活函数进行非线性变换并减少特征维度,之后将4个分支的输出进行连接,并输入到另一个两层的全连接网络,得到最后的预测分数。
步骤5.构建损失函数。我们使用预测分数与实际分数的平均平方误差(MeanSquare Error)作为整个网络的目标函数。这个目标函数可以有效地表示模型的预测能力和实际结果的差距。
步骤6.训练神经网络模型。在训练用的视频数据以及标注准备完成后,使用这些数据进行模型的训练。我们采用Adam优化器对网络进行训练,初始学习率lr=0.0005,系数betas=(0.9,0.999),权重衰减系数为0.00001。网络一共训练大约200轮直至收敛。
我们使用Fis-V数据集中的400个视频进行训练,另外100个视频进行测试,测试结果为预测TES分数与实际TES分数之间的平均平方误差为17.76,Spearman相关系数为0.64,测试结果为预测PCS分数与实际PCS分数之间的平均平方误差为7.87,Spearman 相关系数为0.78。
参考文献
[1]Pirsiavash H,Vondrick C,Torralba A.Assessing the quality ofactions[C]//European Conference on Computer Vision.Springer,Cham,2014:556-571.
[2]Parmar P,Morris B T.Learning to score olympic events[C]//ComputerVision and Pattern Recognition Workshops(CVPRW),2017IEEE Conference on.IEEE,2017:76-84.
[3]Hochreiter S,Schmidhuber J.Long short-term memory[J].Neuralcomputation,1997,9(8): 1735-1780.
[4]Tran D,Bourdev L,Fergus R,et al.Learning spatiotemporal featureswith 3d convolutional networks[C]//Computer Vision(ICCV),2015IEEEInternational Conference on.IEEE, 2015:4489-4497.
[5]Kingma D P,Ba J.Adam:A method for stochastic optimization[J].arXivpreprint arXiv:1412.6980,2014.
[6]Víctor Campos,Brendan Jou,Xavier Giró-i Nieto,Jordi Torres,andShih-Fu
[7]Chang.Skip rnn:Learning to skip state updates in recurrent neuralnetworks.
[8]ICLR,2018.

Claims (5)

1.一种基于深度学习的花样滑冰视频自动打分的方法,其特征在于,具体步骤如下:
步骤1:收集来自不同选手和不同高等级赛事的花样滑冰视频数据,然后对于每个视频,标注出裁判的专业打分;
步骤2:对收集到的视频进行预处理并提取低阶特征序列;
步骤3:构建基于自注意力模块和多尺度卷积模块的深度神经网络对视频的特征序列进行处理获得更高阶、更全面的视频表征;其中:基于自注意模块的深度神经网络使用2层全连接层和非线性层得到不同时间的注意力权重,并对特征序列得到更短的加权和序列,使用长短时记忆网络LSTM处理序列;基于多尺度卷积模块的深度神经网络使用卷积核大小为2和4的1维卷积提取序列中的局部信息,使用可跳跃的长短时记忆网络skip-LSTM处理两个序列,使用卷积核大小为8的1维卷积提取序列中的全局信息,使用长短时记忆网络LSTM处理序列;
步骤4:构建预测分数用的深度神经网络模型;
步骤5:构建损失函数;
步骤6:训练深度神经网络模型,训练完成之后,对于要打分的一个花样滑冰视频,通过抽帧、提取低阶特征序列、输入深度神经网络模型的方式得到预测的技术总分TES和节目内容分PCS;其中:
步骤3中,可跳跃的长短时记忆网络LSTM在传统LSTM基础上增加了涉及更新的门限函数ut,具体更新公式如下:
Figure FDA0002677274790000011
it,ft,ot=σ(Wxxt+Whht-1+b)
gt=tanh(Wxgxt+Whght-1+bg)
ct=ft⊙ct-1+ut·it⊙gt
ht=((1-ut)·ot+ut·ot-1)⊙tanh(ct)
Figure FDA0002677274790000012
Figure FDA0002677274790000013
其中:Wx,Wh,Wxg,Whg,Wp为可学习权重,b,bg为可学习偏置,fbinary为舍入函数,tanh为双曲正切函数,σ为Sigmoid函数,min为二元最小值函数,⊙为逐项乘积,ut,it,ft,ot分别为LSTM单元中控制状态更新、信息输入、信息丢弃、信息输出的门限,其形式为各项元素在[0,1]中的向量。
2.根据权利要求1所述的方法,其特征在于,步骤2中,对视频以16帧组成一个片段,相邻片段重复8帧,使用预训练的C3D模型对每个片段提取特征。
3.根据权利要求1所述的方法,其特征在于,步骤4中,神经网络模型包括自注意力模块和多尺度卷积模块输出的每个信息分支中各自的1层全连接层和非线性层,以及连接后的2层全连接层和非线性层。
4.根据权利要求1所述的方法,其特征在于,步骤5中,使用预测分数与实际分数的平均平方误差构建损失函数。
5.根据权利要求1所述的方法,其特征在于,步骤6中,训练深度神经网络模型时,利用反向传播的算法,优化深度神经网络模型中的参数。
CN201810721097.3A 2018-07-04 2018-07-04 一种基于深度学习的花样滑冰视频自动打分的方法 Active CN109063568B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810721097.3A CN109063568B (zh) 2018-07-04 2018-07-04 一种基于深度学习的花样滑冰视频自动打分的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810721097.3A CN109063568B (zh) 2018-07-04 2018-07-04 一种基于深度学习的花样滑冰视频自动打分的方法

Publications (2)

Publication Number Publication Date
CN109063568A CN109063568A (zh) 2018-12-21
CN109063568B true CN109063568B (zh) 2020-12-22

Family

ID=64818558

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810721097.3A Active CN109063568B (zh) 2018-07-04 2018-07-04 一种基于深度学习的花样滑冰视频自动打分的方法

Country Status (1)

Country Link
CN (1) CN109063568B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109903099B (zh) * 2019-03-12 2021-03-23 合肥工业大学 用于评分预测的模型构建方法和系统
CN110162777B (zh) * 2019-04-01 2020-05-19 广东外语外贸大学 一种看图写作型作文自动评分方法和系统
CN110222770B (zh) * 2019-06-10 2023-06-02 成都澳海川科技有限公司 一种基于组合关系注意力网络的视觉问答方法
CN110355608B (zh) * 2019-07-18 2020-11-24 浙江大学 基于自注意力机制与深度学习的刀具磨损量预测方法
CN110516611B (zh) * 2019-08-28 2022-03-01 中科人工智能创新技术研究院(青岛)有限公司 一种自闭症检测系统及自闭症检测装置
CN111314665A (zh) * 2020-03-07 2020-06-19 上海中科教育装备集团有限公司 一种视频事后评分的关键视频段提取系统及方法
CN111368810B (zh) * 2020-05-26 2020-08-25 西南交通大学 基于人体及骨骼关键点识别的仰卧起坐检测系统及方法
CN111862144A (zh) * 2020-07-01 2020-10-30 睿视智觉(厦门)科技有限公司 一种确定物体移动轨迹分数的方法及装置
CN111914731B (zh) * 2020-07-28 2024-01-23 上海电力大学 一种基于自注意力机制的多模态lstm的视频动作预测方法
CN113343774B (zh) * 2021-05-13 2022-11-01 东南大学 一种细粒度的工程力学跳水动作模拟与评估方法
CN114821812B (zh) * 2022-06-24 2022-09-13 西南石油大学 一种基于深度学习的花样滑冰选手骨骼点动作识别方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160099010A1 (en) * 2014-10-03 2016-04-07 Google Inc. Convolutional, long short-term memory, fully connected deep neural networks
CN106203283A (zh) * 2016-06-30 2016-12-07 重庆理工大学 基于三维卷积深度神经网络和深度视频的动作识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160099010A1 (en) * 2014-10-03 2016-04-07 Google Inc. Convolutional, long short-term memory, fully connected deep neural networks
CN106203283A (zh) * 2016-06-30 2016-12-07 重庆理工大学 基于三维卷积深度神经网络和深度视频的动作识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Learning To Score Olympic Events;Paritosh Parmar 等;《2017 IEEE Conference on Computer Vision and Pattern》;20170824;第76-84页 *
基于注意力LSTM和多任务学习的远场语音识别;张宇 等;《清华大学学报(自然科学版)》;20180331;第58卷(第3期);第249-253页 *

Also Published As

Publication number Publication date
CN109063568A (zh) 2018-12-21

Similar Documents

Publication Publication Date Title
CN109063568B (zh) 一种基于深度学习的花样滑冰视频自动打分的方法
Wu et al. Godiva: Generating open-domain videos from natural descriptions
Mao et al. History repeats itself: Human motion prediction via motion attention
US11055537B2 (en) Systems and methods for determining actions depicted in media contents based on attention weights of media content frames
CN109101896A (zh) 一种基于时空融合特征和注意力机制的视频行为识别方法
CN110348364B (zh) 一种无监督聚类与时空域深度网络相结合的篮球视频群体行为识别方法
CN111241394B (zh) 数据处理方法、装置、计算机可读存储介质及电子设备
Cai et al. Deep historical long short-term memory network for action recognition
US20230353828A1 (en) Model-based data processing method and apparatus
CN110575663B (zh) 一种基于人工智能的体育辅助训练方法
CN112527993B (zh) 一种跨媒体层次化深度视频问答推理框架
CN114202061A (zh) 基于生成对抗网络模型及深度强化学习的物品推荐方法、电子设备及介质
Hu et al. Video2vec: Learning semantic spatio-temporal embeddings for video representation
Yan et al. Video-text pre-training with learned regions
Zhao et al. A survey of deep learning in sports applications: Perception, comprehension, and decision
Muhammad et al. AI-Driven Salient Soccer Events Recognition Framework for Next-Generation IoT-Enabled Environments
Ahmad et al. Optimized deep learning-based cricket activity focused network and medium scale benchmark
CN113297487A (zh) 一种基于注意力机制增强门控循环单元的序列推荐系统及方法
Ariyaratne et al. Meta-heuristics meet sports: a systematic review from the viewpoint of nature inspired algorithms
Wang et al. Shuttleset22: Benchmarking stroke forecasting with stroke-level badminton dataset
Zahan et al. Learning sparse temporal video mapping for action quality assessment in floor gymnastics
CN116189047A (zh) 一种基于多模态信息聚合的短视频分类方法
Lou et al. Content-based effectiveness prediction of video advertisements
CN112801076B (zh) 基于自注意力机制的电子商务视频高光检测方法及系统
Bastan et al. NTU ROSE Lab at TRECVID 2018: Ad-hoc Video Search and Video to Text.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant