CN112131995A - 一种动作分类方法、装置、计算设备、以及存储介质 - Google Patents
一种动作分类方法、装置、计算设备、以及存储介质 Download PDFInfo
- Publication number
- CN112131995A CN112131995A CN202010976727.9A CN202010976727A CN112131995A CN 112131995 A CN112131995 A CN 112131995A CN 202010976727 A CN202010976727 A CN 202010976727A CN 112131995 A CN112131995 A CN 112131995A
- Authority
- CN
- China
- Prior art keywords
- time domain
- neural network
- convolutional neural
- data
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 230000009471 action Effects 0.000 title claims abstract description 19
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 47
- 238000004364 calculation method Methods 0.000 claims abstract description 17
- 238000012549 training Methods 0.000 claims abstract description 16
- 238000004590 computer program Methods 0.000 claims abstract description 15
- 230000008569 process Effects 0.000 claims abstract description 10
- 238000000605 extraction Methods 0.000 claims abstract description 5
- 230000003287 optical effect Effects 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000015556 catabolic process Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000010473 stable expression Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种动作分类方法、装置、计算设备、以及存储介质。所述方法包括:利用卷积神经网络对输入的视频图像提取特征数据;选择时域最优深层特征数据;计算损失差异;将所述时域最优深层特征数据与损失差异共同反馈到所述卷积神经网络的训练过程中;使用完成训练的卷积神经网络对视频中运动员的动作进行分类。所述装置包括提取模块、选择模块、计算模块、训练模块和分类模块。所述计算设备包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序,所述处理器执行所述计算机程序时实现本申请所述的方法。所述存储介质内存储有计算机程序,所述计算机程序在由处理器执行时实现本申请所述的方法。
Description
技术领域
本申请涉及图像处理中的动作分类领域,特别是涉及动作分类方法、装置、计算设备、以及存储介质。
背景技术
比赛视频中运动员动作分类是视频理解领域的热点研究问题,随着神经网络对平面二维图像的处理能力逐步提升,对于具有时间维度的三维图像——视频数据的理解与运用等相关研究也被众多学者所关注。基于神经网络的动作分类方法主要有三个主流方向:(1)利用3D或2+1D等不同卷积核构成结构各异的卷积神经网络,能够直接对视频数据进行时域信息的特征提取与学习,所得模型的实时性较好;(2)将比赛视频中运动员的动态骨骼关键点作为神经网络输入数据的方法,由此训练出的模型能够学习到骨骼关键点的运动规则,进而将运动员的动作进行分类,该方法拥有较好的稳健性,但是处理运动员骨骼关键点所耗费的时间成本较高;(3)双流网络将光流法与神经网络相结合,把原始图像数据与图像光流信息作为两组数据流输入同一网络的不同分支中,进行并行的训练与学习,最后融合两个分支的决策来得出动作的分类结果,是各主流方法中准确最高的一种。
上述方法所用算法并没有充分理解到视频数据中的时域信息。双流网络凭借光流法而得出高准确度模型的原因在于图像光流信息对目标轮廓不变性的良好保持,而不是光流法能完全代表目标的运动特性。卷积神经网络在训练过程中,容易侧重于学习数据中物体、场景等静态信息,在对视频数据进行时域卷积时,网络难以自主地将理解运动信息作为学习的主要目的,导致模型在进行视频分类时更多的以场景信息作为分类判断依据。
发明内容
本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。
根据本申请的一个方面,提供了一种基于卷积神经网络的视频中运动员动作分类方法,所述方法包括:
利用卷积神经网络对输入的视频图像提取特征数据;
各卷积层中,将与所述卷积神经网络输入层原始视频数据的时域信息差异最小的卷积层所学特征的时域信息所对应的时域特征数据选为时域最优深层特征数据;
计算损失差异;
将所述时域最优深层特征数据与损失差异共同反馈到所述卷积神经网络的训练过程中;
使用完成训练的卷积神经网络对视频中运动员的动作进行分类。
可选地,所述的各卷积层中,将与所述卷积神经网络输入层原始视频数据的时域信息差异最小的卷积层所学特征的时域信息所对应的时域特征数据选为时域最优深层特征数据包括:
计算每个卷积层特征数据的帧间差值,得到各卷积层的时域特征数据集合;
计算所述卷积神经网络输入层原始视频数据的帧间差值,得原始数据时域信息集合;
分别计算所述各卷积层的时域特征数据集合与所述原始数据时域信息集合的差异,将最小差异值所对应的时域特征数据集合中的时域特征数据选为时域最优深层特征数据。
可选地,所述的卷积神经网络为拥有深层的3D残差卷积神经网络。
本申请的动作分类方法,由于将深层的时域差异与损失差异相联合,共同为网络的梯度下降提供有效参考,因此能够改善网络对于时域信息的学习理解与运用能力,提升网络模型在视频行人动作分类上的准确性。本申请利用残差函数解决了深神经网络的退化问题,适用于图像理解领域中的各种学习任务。
根据本申请的另一个方面,提供了一种动作分类装置,所述装置包括:
提取模块,其配置成利用卷积神经网络对输入的视频图像提取特征数据;
选择模块,其配置成各卷积层中,将与所述卷积神经网络输入层原始视频数据的时域信息差异最小的卷积层所学特征的时域信息所对应的时域特征数据选为时域最优深层特征数据;
计算模块,其配置成计算损失差异;
训练模块,其配置成将所述时域最优深层特征数据与损失差异共同反馈到所述卷积神经网络的训练过程中;和
分类模块,其配置成使用完成训练的卷积神经网络对视频中运动员的动作进行分类。
可选地,所述的选择模块包括:
第一计算子模块,其配置成计算每个卷积层特征数据的帧间差值,得到各卷积层的时域特征数据集合;
第二计算子模块,其配置成计算所述卷积神经网络输入层原始视频数据的帧间差值,得原始数据时域信息集合;和
第三计算子模块,其配置成分别计算所述各卷积层的时域特征数据集合与所述原始数据时域信息集合的差异,将最小差异值所对应的时域特征数据集合中的时域特征数据选为时域最优深层特征数据。
可选地,所述的卷积神经网络为拥有深层的3D残差卷积神经网络。
本申请的动作分类装置,由于将深层的时域差异与损失差异相联合,共同为网络的梯度下降提供有效参考,因此能够改善网络对于时域信息的学习理解与运用能力,提升网络模型在视频行人动作分类上的准确性。本申请利用残差函数解决了深神经网络的退化问题,适用于图像理解领域中的各种学习任务。
根据本申请的第三个方面,提供了一种计算设备,包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序,其中,所述处理器执行所述计算机程序时实现本申请所述的方法。
根据本申请的第四个方面,提供了一种存储介质,优选为非易失性可读存储介质,其内存储有计算机程序,所述计算机程序在由处理器执行时实现本申请所述的方法。
根据下文结合附图对本申请的具体实施例的详细描述,本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。
附图说明
后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解,这些附图未必是按比例绘制的。附图中:
图1是根据本申请一个实施例的一种动作分类方法的示意性流程图;
图2是图1中步骤S2的示意性流程图;
图3是根据本申请一个实施例的一种动作分类装置的示意性结构框图;
图4是根据本申请一个实施例的一种计算设备的示意性结构框图;
图5是根据本申请一个实施例的一种存储介质的示意性结构框图。
具体实施方式
为使网络模型对时域信息的理解能力能够在循环训练的过程中不断提高,本申请实施例将深层特征数据的时域差异与损失差异结合,用联合差异共同对网络参数的梯度更新进行引导,使两种差异在训练的过程中都能得到降低。时域差异的降低代表着各卷积层对时域信息学习能力的增强,网络中所理解到的特征能更加逼近输入数据中的时域动作关联信息,使模型的性能得到改进。
图1是根据本申请一个实施例的一种动作分类方法的示意性流程图。所述动作方法特别适用于视频中运动员的动作分类。所述方法一般性地可包括:
步骤S1、利用拥有深层的3D残差卷积神经网络对输入的视频图像提取特征数据,利用卷积层筛选深层特征数据,能够对视频的时域信息进行稳健的表达;
步骤S2、各卷积层中,将与所述卷积神经网络输入层原始视频数据的时域信息差异最小的卷积层所学特征的时域信息所对应的时域特征数据选为时域最优深层特征数据;
步骤S3、利用损失函数计算损失差异;
步骤S4、将所述时域最优深层特征数据与损失差异共同反馈到所述卷积神经网络的训练过程中;
步骤S5、使用完成训练的卷积神经网络对视频中运动员的动作进行分类。
本实施例的联合计算首先需要对各卷积层所学特征的时域信息与输入层原始数据的时域信息进行相似度计算,通过相似度对比来选定一组特征数据,接着计算选定特征与原始数据的时域信息差异,将计算结果与损失差异联合,共同反馈到网络的训练中。
为了保证联合差异对网络的反馈能够切实改进网络的性能,提升模型对时域信息的学习与理解能力,需要使时域差异的计算结果能有效反映出网络对时域信息的理解程度,为此,本方法的首要任务就是确保从各卷积层中筛选出的深层特征数据能够对时域信息进行稳健的表达。
残差网络拥有相当多数量卷积层的特性,能够为算法提供更全面的选择,可以从深层的网络中更有对比性的选取时域表达能力最优的卷积层作为后续差异计算的特征数据。时域表达能力最优的目的,是为了使后续计算的结果能够有效地体现卷积层所学特征数据与输入层原始数据的时域信息差异,反映出网络对时域信息的学习能力以及理解力上的不足。为此本环节需要对特征数据严格筛选,确保所得的时域差异不会被特征数据中其他类如物体、场景等非时域信息干扰。
图2是图1中步骤S2的示意性流程图。作为本申请的优选实施例,所述步骤S2具体可以包括:
步骤S21、计算每个卷积层特征数据的帧间差值,得到各卷积层的时域特征数据集合;
步骤S22、计算所述卷积神经网络输入层原始视频数据的帧间差值,得原始数据时域信息集合;
步骤S23、分别计算所述各卷积层的时域特征数据集合与所述原始数据时域信息集合的差异,将最小差异值所对应的时域特征数据集合中的时域特征数据选为时域最优深层特征数据。
所述步骤S2利用相似度对比来选取时域最优深层特征数据,即计算出各个卷积层特征数据的时域信息集合与输入层原始数据的时域信息集合之间的相似程度,把相似程度的高低等价于该卷积层对时域信息理解能力的强弱,从各个卷积层中选择理解能力最强的卷积层数据作为时域最优深层特征数据。
本实施例所述的方法在降低损失差异的同时把深层卷积所学特征与输入层原始数据之间的时域信息差异作为降低目标,以此提升卷积层对时域信息的学习能力,改进了网络模型对时域信息的理解能力。
图3是根据本申请一个实施例的一种动作分类装置的示意性结构框图,所述装置一般性地可包括:
提取模块1,其配置成利用卷积神经网络对输入的视频图像提取特征数据;
选择模块2,其配置成各卷积层中,将与所述卷积神经网络输入层原始视频数据的时域信息差异最小的卷积层所学特征的时域信息所对应的时域特征数据选为时域最优深层特征数据;
计算模块3,其配置成计算损失差异;
训练模块4,其配置成将所述时域最优深层特征数据与损失差异共同反馈到所述卷积神经网络的训练过程中;和
分类模块5,其配置成使用完成训练的卷积神经网络对视频中运动员的动作进行分类。
作为本申请的优选实施例,所述的卷积神经网络为拥有深层的3D残差卷积神经网络。
作为本申请的优选实施例,所述的选择模块2可以包括:
第一计算子模块21,其配置成计算每个卷积层特征数据的帧间差值,得到各卷积层的时域特征数据集合;
第二计算子模块22,其配置成计算所述卷积神经网络输入层原始视频数据的帧间差值,得原始数据时域信息集合;和
第三计算子模块23,其配置成分别计算所述各卷积层的时域特征数据集合与所述原始数据时域信息集合的差异,将最小差异值所对应的时域特征数据集合中的时域特征数据选为时域最优深层特征数据。
本申请实施例的动作分类装置能够按照本申请实施例的动作分类方法的步骤对视频中运动员的动作进行分类。
本申请实施例还提供了一种计算设备,参照图4,该计算设备包括存储器1120、处理器1110和存储在所述存储器1120内并能由所述处理器1110运行的计算机程序,该计算机程序存储于存储器1120中的用于程序代码的空间1130,该计算机程序在由处理器1110执行时实现用于执行任一项根据本发明的方法步骤1131。
本申请实施例还提供了一种计算机可读的存储介质。参照图5,该存储介质包括用于程序代码的存储单元,该存储单元设置有用于执行根据本发明的方法步骤的程序1131′,该程序被处理器执行。
本申请实施例还提供了一种包含指令的计算机程序产品。当该计算机程序产品在计算机上运行时,使得计算机执行根据本发明的方法步骤。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、获取其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成,所述的程序可以存储于计算机可读存储介质中,所述存储介质是非短暂性(英文:non-transitory)介质,例如随机存取存储器,只读存储器,快闪存储器,硬盘,固态硬盘,磁带(英文:magnetic tape),软盘(英文:floppy disk),光盘(英文:optical disc)及其任意组合。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。
Claims (8)
1.一种基于卷积神经网络的视频中运动员动作分类方法,包括:
利用卷积神经网络对输入的视频图像提取特征数据;
各卷积层中,将与所述卷积神经网络输入层原始视频数据的时域信息差异最小的卷积层所学特征的时域信息所对应的时域特征数据选为时域最优深层特征数据;
计算损失差异;
将所述时域最优深层特征数据与损失差异共同反馈到所述卷积神经网络的训练过程中;
使用完成训练的卷积神经网络对视频中运动员的动作进行分类。
2.根据权利要求1所述的方法,其特征在于,所述的各卷积层中,将与所述卷积神经网络输入层原始视频数据的时域信息差异最小的卷积层所学特征的时域信息所对应的时域特征数据选为时域最优深层特征数据包括:
计算每个卷积层特征数据的帧间差值,得到各卷积层的时域特征数据集合;
计算所述卷积神经网络输入层原始视频数据的帧间差值,得原始数据时域信息集合;
分别计算所述各卷积层的时域特征数据集合与所述原始数据时域信息集合的差异,将最小差异值所对应的时域特征数据集合中的时域特征数据选为时域最优深层特征数据。
3.根据权利要求1或2所述的方法,其特征在于,所述的卷积神经网络为拥有深层的3D残差卷积神经网络。
4.一种动作分类装置,包括:
提取模块,其配置成利用卷积神经网络对输入的视频图像提取特征数据;
选择模块,其配置成各卷积层中,将与所述卷积神经网络输入层原始视频数据的时域信息差异最小的卷积层所学特征的时域信息所对应的时域特征数据选为时域最优深层特征数据;
计算模块,其配置成计算损失差异;
训练模块,其配置成将所述时域最优深层特征数据与损失差异共同反馈到所述卷积神经网络的训练过程中;和
分类模块,其配置成使用完成训练的卷积神经网络对视频中运动员的动作进行分类。
5.根据权利要求4所述的装置,其特征在于,所述的选择模块包括:
第一计算子模块,其配置成计算每个卷积层特征数据的帧间差值,得到各卷积层的时域特征数据集合;
第二计算子模块,其配置成计算所述卷积神经网络输入层原始视频数据的帧间差值,得原始数据时域信息集合;和
第三计算子模块,其配置成分别计算所述各卷积层的时域特征数据集合与所述原始数据时域信息集合的差异,将最小差异值所对应的时域特征数据集合中的时域特征数据选为时域最优深层特征数据。
6.根据权利要求4或5所述的装置,其特征在于,所述的卷积神经网络为拥有深层的3D残差卷积神经网络。
7.一种计算设备,包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如权利要求1-3中任一项所述的方法。
8.一种存储介质,优选为非易失性可读存储介质,其内存储有计算机程序,所述计算机程序在由处理器执行时实现如权利要求1-3中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010976727.9A CN112131995A (zh) | 2020-09-16 | 2020-09-16 | 一种动作分类方法、装置、计算设备、以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010976727.9A CN112131995A (zh) | 2020-09-16 | 2020-09-16 | 一种动作分类方法、装置、计算设备、以及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112131995A true CN112131995A (zh) | 2020-12-25 |
Family
ID=73845939
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010976727.9A Pending CN112131995A (zh) | 2020-09-16 | 2020-09-16 | 一种动作分类方法、装置、计算设备、以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112131995A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113821947A (zh) * | 2021-07-29 | 2021-12-21 | 清华大学 | 基于循环卷积神经网络的时域有限差分快速求解方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109284720A (zh) * | 2018-09-28 | 2019-01-29 | 大连民族大学 | 度量视频连续帧与其卷积特征图间差异在视频行为识别中的应用 |
CN110070067A (zh) * | 2019-04-29 | 2019-07-30 | 北京金山云网络技术有限公司 | 视频分类方法及其模型的训练方法、装置和电子设备 |
CN110458038A (zh) * | 2019-07-19 | 2019-11-15 | 天津理工大学 | 基于双链深度双流网络的小数据跨域动作识别方法 |
US20200057935A1 (en) * | 2017-03-23 | 2020-02-20 | Peking University Shenzhen Graduate School | Video action detection method based on convolutional neural network |
CN110866458A (zh) * | 2019-10-28 | 2020-03-06 | 北京影谱科技股份有限公司 | 基于三维卷积神经网络的多人动作检测与识别方法与装置 |
-
2020
- 2020-09-16 CN CN202010976727.9A patent/CN112131995A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200057935A1 (en) * | 2017-03-23 | 2020-02-20 | Peking University Shenzhen Graduate School | Video action detection method based on convolutional neural network |
CN109284720A (zh) * | 2018-09-28 | 2019-01-29 | 大连民族大学 | 度量视频连续帧与其卷积特征图间差异在视频行为识别中的应用 |
CN110070067A (zh) * | 2019-04-29 | 2019-07-30 | 北京金山云网络技术有限公司 | 视频分类方法及其模型的训练方法、装置和电子设备 |
CN110458038A (zh) * | 2019-07-19 | 2019-11-15 | 天津理工大学 | 基于双链深度双流网络的小数据跨域动作识别方法 |
CN110866458A (zh) * | 2019-10-28 | 2020-03-06 | 北京影谱科技股份有限公司 | 基于三维卷积神经网络的多人动作检测与识别方法与装置 |
Non-Patent Citations (3)
Title |
---|
JIAWEI CHEN 等: "Residual Frames with Efficient Pseudo-3D CNN for Human Action Recognition", 《ARXIV》, pages 1 - 5 * |
KUN LIU 等: "T-C3D: Temporal Convolutional 3D Network for Real-Time Action Recognition", 《THIRTY-SECOND AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE》, vol. 32, no. 1, pages 7138 - 7145 * |
陈思宇 等: "一种3D残差神经网络视频行人动作分类改进方法", 《大连民族大学学报》, vol. 21, no. 3, pages 225 - 229 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113821947A (zh) * | 2021-07-29 | 2021-12-21 | 清华大学 | 基于循环卷积神经网络的时域有限差分快速求解方法 |
CN113821947B (zh) * | 2021-07-29 | 2022-09-30 | 清华大学 | 基于循环卷积神经网络的时域有限差分快速求解方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108140032B (zh) | 用于自动视频概括的设备和方法 | |
CN112052787A (zh) | 基于人工智能的目标检测方法、装置及电子设备 | |
Ma et al. | Salient object detection via multiple instance joint re-learning | |
CN111695421B (zh) | 图像识别方法、装置及电子设备 | |
CN108876813B (zh) | 用于视频中物体检测的图像处理方法、装置及设备 | |
CN111626956B (zh) | 图像去模糊方法和装置 | |
Kim et al. | Multiple level feature-based universal blind image quality assessment model | |
CN108805151B (zh) | 一种基于深度相似性网络的图像分类方法 | |
Wang et al. | Uncertainty-dtw for time series and sequences | |
CN112418195B (zh) | 一种人脸关键点检测方法、装置、电子设备及存储介质 | |
CN112749726B (zh) | 目标检测模型的训练方法、装置、计算机设备和存储介质 | |
CN112561028A (zh) | 训练神经网络模型的方法、数据处理的方法及装置 | |
WO2021144943A1 (ja) | 制御方法、情報処理装置および制御プログラム | |
CN112200041A (zh) | 视频动作识别方法、装置、存储介质与电子设备 | |
CN111046847A (zh) | 一种视频处理方法、装置、电子设备以及介质 | |
CN111027412A (zh) | 一种人体关键点识别方法、装置及电子设备 | |
CN112562072A (zh) | 一种动作重定向方法、装置、设备及存储介质 | |
CN111242176B (zh) | 计算机视觉任务的处理方法、装置及电子系统 | |
Liu et al. | A novel spatiotemporal attention enhanced discriminative network for video salient object detection | |
CN110135428A (zh) | 图像分割处理方法和装置 | |
CN112966754B (zh) | 样本筛选方法、样本筛选装置及终端设备 | |
CN112149602B (zh) | 动作计数方法、装置、电子设备及存储介质 | |
CN112131995A (zh) | 一种动作分类方法、装置、计算设备、以及存储介质 | |
CN111753590A (zh) | 一种行为识别方法、装置及电子设备 | |
JP2017059193A (ja) | 時系列画像補完装置、時系列画像生成方法、時系列画像補完装置用プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |