CN110188668A - 一种面向小样本视频动作分类的方法 - Google Patents
一种面向小样本视频动作分类的方法 Download PDFInfo
- Publication number
- CN110188668A CN110188668A CN201910453199.6A CN201910453199A CN110188668A CN 110188668 A CN110188668 A CN 110188668A CN 201910453199 A CN201910453199 A CN 201910453199A CN 110188668 A CN110188668 A CN 110188668A
- Authority
- CN
- China
- Prior art keywords
- video
- frame
- classification
- small sample
- actions
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000012549 training Methods 0.000 claims abstract description 52
- 238000012360 testing method Methods 0.000 claims abstract description 49
- 239000000523 sample Substances 0.000 claims description 47
- 230000002708 enhancing effect Effects 0.000 claims description 15
- 239000000284 extract Substances 0.000 claims description 7
- 230000003993 interaction Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000003062 neural network model Methods 0.000 claims description 3
- 230000015572 biosynthetic process Effects 0.000 claims description 2
- 238000013136 deep learning model Methods 0.000 claims description 2
- 239000012634 fragment Substances 0.000 claims description 2
- 238000005070 sampling Methods 0.000 claims description 2
- 238000003786 synthesis reaction Methods 0.000 claims description 2
- 238000012512 characterization method Methods 0.000 claims 1
- 210000004218 nerve net Anatomy 0.000 claims 1
- 238000013528 artificial neural network Methods 0.000 abstract description 5
- 238000004422 calculation algorithm Methods 0.000 abstract description 2
- 238000002474 experimental method Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 8
- 230000000875 corresponding effect Effects 0.000 description 4
- 150000001875 compounds Chemical class 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000010187 selection method Methods 0.000 description 2
- 244000061458 Solanum melongena Species 0.000 description 1
- HUTDUHSNJYTCAR-UHFFFAOYSA-N ancymidol Chemical compound C1=CC(OC)=CC=C1C(O)(C=1C=NC=NC=1)C1CC1 HUTDUHSNJYTCAR-UHFFFAOYSA-N 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 239000011800 void material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/23—Recognition of whole body movements, e.g. for sport training
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明属于计算机技术领域,具体涉及面向小样本视频动作分类的方法。本发明针对现有小样本视频动作分类的设定存在训练集与测试集类别交叉的问题,提出基于智能人体的小样本视频识别新模式,利用3D智能虚拟人体与虚拟环境交互的方式生成相同动作的大量虚拟视频,为深度神经网络提供训练样本;此外,还提出基于视频段替换的数据增强方法,通过用语义相近的视频片段替换原视频中某个片段的方法扩充有限的数据集。实验表明该方法对于小样本视频动作识别能起到很大的促进作用,且具有较好的鲁棒性与较强的算法可移植性。
Description
技术领域
本发明属于计算机技术领域,具体涉及小样本视频动作分类的方法。
背景技术
随着深度学习的快速发展,计算机视觉领域的诸多任务都得到了不错的成效。视频动作识别也逐渐成为国内外研究人员专注的热点研究问题,目前已经出现了很多能够在现有视频动作识别数据集上达到较高识别度的模型,但是它们大多都依赖大量人工标注过的数据。在实际应用中,更多的是待预测的视频只有一个或者少数几个标注样本的情况。小样本视频动作识别研究的就是如何在标注数据极少的情况下让网络模型拥有快速学习视频特征表示进而进行动作识别的能力。
现有的小样本视频动作识别是用类别无交叉的训练数据去迁移到测试数据上,但相对于视频数据而言,尽管训练数据与测试数据的类别标签不同,依然很难保证测试数据中的动作片段没有出现在训练视频中。因此本发明针对性地提出用为真实世界的测试视频合成动作类别相同的虚拟视频作为训练集的方式,来避免这一问题,从而让模型能够从相同类别的虚拟视频中学习识别现实视频中动作的能力。此外,由于测试阶段每个样本都只有极少数的标注样本,如何让模型具备快速识别这些全新的没有见过的视频也是本发明要解决的主要问题。
近年来,也有相关研究工作尝试解决此类问题。
文[1]提出了将样本特征映射到一个特征空间然后用特征最近邻的方法确定预测样本的标签。该方法主要面向图像领域,没有利用视频的时序信息。
文[2]提出了用元学习的方法来训练网络模型,并设计了一种能够将变长的视频帧编码成固定大小特征空间的方法来利用视频之间的时序信息。但是这种使用所有视频帧信息的方法会在提升性能的同时极大得增加计算性能。
发明内容
本发明的目的在于提供一种具有好的鲁棒性、强的算法可移植性的面向小样本视频动作分类的方法。
本发明提出的面向小样本视频动作分类的方法,主要考虑到现在视频领域小样本动作识别的设定存在训练集与测试集类别交叉的问题,提出一种设定,在该设定下训练集与测试集的类别集合是相同的,训练集是由3D智能人体与虚拟环境生成的虚拟视频,而测试集是真实世界的视频,这就可以让深度学习模型通过学习合成的虚拟视频更好地识别真实测试视频。此外,考虑到小样本动作识别测试阶段的视频只有1个或少数几个标注数据,本发明针对性地提出视频片段替换的数据增强方法来扩充原来数量有限的数据集,从而更好地进行小样本视频动作识别分类器的学习。具体的步骤如下:
(1)利用现有游戏引擎中的视觉脚本来编程控制3D智能人体和虚拟环境;
(2)定义3D智能人体与虚拟环境进行特定动作的交互,摄像头记录视频获取到虚拟训练集;
(3)为每个训练集中的类别挑选m个视频,并将其分成长度为lseg的视频片段,构成备选视频片段池,其中m的大小权衡扩充效果与计算时间确定,一般可以取5-20;lseg可表示为t,取值不宜太大,建议小于或等于以免破坏原视频的语义信息,通常取t=1、2或3;
(4)生成增强训练集:为训练集中的每个视频在每隔lframe帧处进行一次视频片段的替换操作,在备选视频片段池中选择语义距离最相近的视频片段进行替换,得到增强后的训练集;这里,lframe可表示为2p,通常取p=4、5、6或7;
(5)依次用原有的视频数据集与增强后的视频数据集训练和微调用于提取视频特征的ResNet-50神经网络模型[3];
(6)测试阶段按照n-way-k-shot[4]的设定,在测试集中随机选择n个类别,然后为每个类别选择k个带标注信息的样本作为支持集,并额外选择1个属于这n个类别但不属于支持集的视频作为测试视频;
(7)为n*k个支持集视频中的每个视频取中间的lframe帧,并为这lframe帧视频在每个lseg帧处都进行数据增强的操作,加上原视频最终获取到容量为的扩充支持集;
(8)为包含个视频的支持集和1个测试视频用步骤(5)训练好的ResNet-50神经网络模型提取视频的特征,用ProtoNet小样本分类器[5]将属于同一个类别的视频特征取平均作为这个类别的中心,得到n个类中心,对测试视频计算其到n个类中心的欧几里得距离,取距离最小的类作为这个测试视频的预测结果;
(9)重复s次步骤(7)-(8),并用平均预测准确度作为模型最终的评价指标,其中为了保证结果的可靠性,s的取值应大于2000,且重复次数越多,得到的结果越具有可信度。
与现有方法不同,本发明针对现实视频动作识别中存在训练集与测试集类别交叉的问题,提出一种训练集与测试集动作类别集合一致,但训练集为虚拟视频,而测试集为真实世界的视频的全新的小样本视频动作识别的设定,为小样本视频动作识别提供一种新的思路。在虚拟视频的生成方法上,本发明利用3D智能虚拟人体与3D虚拟环境交互的方式生成相同动作的大量虚拟视频,用于为深度神经网络提供训练样本。在解决小样本视频动作分类中测试视频只有一个或少数几个标注样本的难点上,本发明还提出了一种基于视频段替换的数据增强方法,通过用语义相近的视频片段替换原视频中某个片段的方法扩充有限的数据集。基于以上改进,本系统提出的利用虚拟视频与视频段替换进行小样本视频动作识别的方法更具真实系统的实用性。实验验证该方法对于小样本视频动作识别能起到很大的促进作用,且能够方便地移植到现有的方法中。
本发明的创新之处在于:
1、本发明第一次将3D智能虚拟人体与虚拟环境的交互用于为小样本视频识别生成训练数据,从而提出基于智能人体训练数据的小样本视频动作识别任务。在该任务中训练数据与测试数据拥有相同的动作类别,但前者是生成的虚拟训练视频,而后者是真实的测试视频,任务的目的是让神经网络从虚拟视频中学习到动作特性,从而能够快速识别新的真实世界的视频动作;
2、针对小样本视频动作识别中带标注数据非常有限的特性,提出基于用语义信息相近的视频片段来替换原视频中的某一段视频片段的视频数据增强方法。该方法简单有效,能够在保持视频动作类别不发生改变的情况下合成新的视频数据。从而有助于小样本视频动作识别分类器的学习,能很好地提升识别性能且该方法可以迁移应用到其他的小样本视频动作识别的模型与方法中。
附图说明
图1是本发明提出的基于智能人体的小样本视频动作识别设定与经典识别的对比图。
图2是本发明的真实测试视频与对应生成的虚拟训练视频数据示意图。
图3是本发明提出的基于视频片段替换的视频数据增强方法示意图。
图4是本发明提出的语义相近视频片段选择方法示意图。
图5为本发明方法流程图示。
具体实施方式
下面通过具体实施例和附图进一步描述本发明。
图1展示出本发明提出的基于智能人体的小样本视频动作识别设定与经典识别的对比图。其中黑色的表示真实世界的视频,紫红色的表示虚拟世界的视频。经典的小样本视频动作识别是从真实的训练集视频迁移到不同动作的真实测试集视频;我们提出的小样本视频动作识别是从基于智能人体生成的虚拟训练集视频迁移到具有相同动作的真实测试集视频。
图2展示出本发明真实测试视频与对应生成的虚拟训练视频数据示意图。其中真实测试视频来源于包含真实人类动作例如挥手、街舞、扔球,而虚拟的训练数据是用3D智能虚拟人体和虚拟环境交互的方式生成的具有相应动作的虚拟视频。
图3展示出本发明基于视频片段替换的视频数据增强方法示意图。其中给定一个动作类别为y的待增强视频,用语义相近的lseg帧视频片段替换其中的某lseg帧视频片段,然后得到增强后的视频,该视频保持动作类别y不变。
图4展示出本发明语义相近视频片段选择方法示意图。对于一个待增强视频中的各个视频片段与视频片段池中的片段,都用ResNet-50神经网络提取视频片段特征。然后对于视频片段池中的每个片段Gk都为其计算到待增强视频的各个片段的距离,具体计算方法为用滑动窗口的方式计算两两之间的欧几里德距离,得到语义距离分值。然后在此基础上为了保证生成视频时序上的平整性,应用卷积核为进行卷积操作[λ1,λ2,λ1]得到新的语义+时序分值。为所有的视频片段池中的视频进行一次相同操作即可得到分值矩阵。对于待增强视频中的某一段,从视频片段池中选择分值最小的一段进行替换。
具体步骤如下:
步骤1.为测试视频生成对应动作的虚拟训练数据。利用现有游戏产业中的UnrealEngine4游戏引擎构建一套具有3D智能虚拟人体与虚拟环境的仿真环境。利用Blueprint脚本编程自动控制虚拟世界,具体表现为定义智能人体的动作、外表、摄像头的角度,虚拟环境的场景(室内、街道、自然环境)等,然后智能人体在虚拟环境中重复进行动作的交互,摄像头记录人体与虚拟环境交互的过程,一个时间周期的过程被保存下来作为一段虚拟视频。智能人体在下一个周期随机出现在虚拟世界的下一个场景进行动作的交互,同样用摄像头记录该过程,不断重复,得到具有多样性的虚拟训练数据。
步骤2.生成备选视频片段池。给定训练集数据Dbase,先从中为每个类随机挑选出m个视频作为备选视频,每个视频随机取连续的lframe帧。然后将这些lframe帧的备选视频分成长度为lseg的视频片段,即每个视频都能得到个视频片段,这些视频片段共同构成用于增强训练集和测试集的备选视频片段池Gpool。
步骤3.生成增强训练集对于训练集Dbase中的每个视频,为了保证模型训练时每次随机采样出来的lframe帧视频有且仅有一段被替换的lseg帧视频片段,对原视频中每隔lframe帧的位置进行一次视频段替换的增强操作。具体的视频段替换增强方法为如附图4所示,将待增强的视频Vprobe等分成长度为lseg的视频片段,然后与视频片段池Gpool中的视频一起,都用神经网络提取视频片段特征。具体特征提取的方法为用在ImageNet上预训练过的ResNet-50模型提取每帧图像的特征表示,然后取lseg帧图像特征的平均作为该lseg帧片段的特征。对于视频片段池中的每个片段Gk都为其计算其特征到待增强视频Vprobe的各个片段特征的距离,如图所示用滑动窗口的方式计算两两之间的欧几里德距离,得到语义距离分值[yk,1,yk,2,yk,3…,yk,m]。然后在此基础上为了保证生成视频时序上的平整性,应用卷积核为进行卷积操作[λ1,λ2,λ1]得到新的语义+时序分值[y′k,1,y′k,2,y′k,3…,y′k,m]。为所有的视频片段池Gpool中的视频都进行一次相同的操作,就可以得到最后的分值矩阵。对于待增强视频Vprobe中的某一段,从视频片段池Gpool中选择分值最小的一段进行替换,就可以得到对应的生成视频Vsyn,其类别可以等同于Vprobe的类别。
步骤4.用原始训练集Dbase和增强后的训练集微调视频特征提取器。本发明采用在ImageNet上预训练过的ResNet-50作为基础的特征提取网络,在此基础上用原始训练集与增强后的训练集对网络参数进行进一步的训练和微调。提取视频特征的方法与步骤3中提取视频片段的方法类似,取图像帧特征的平均作为视频特征。我们采用SGD优化器对网络进行训练,批处理视频数量为6。首先,在Dbase数据集上设置网络最后一个全连接层的学习率为0.001,前面的网络层学习率为0.0001,进行6轮的训练,该过程的目的是希望网络模型能够从ImageNet上学习到的参数基础上更加地拟合到现有训练数据集上,学习训练视频的特征;其次,在数据集上,将各层的学习率设置为原来的1/10,然后也用相同的优化器进行6轮的训练,该过程的目的是希望网络模型具备学习用我们的段替换方法生成的新视频的能力。
步骤5.网络测试阶段n-way-k-shot数据获取及处理。本发明采用n-way-k-shot的评价方法,该方法即指每次在测试集中随机选择n个类别,并为这n个类别随机选择k个样本,构成n*k个测试集中的支持集,然后再额外选择1个属于这n个类别的视频作为测试视频。然后对n*k个支持集中的视频用步骤3所述的方法进行数据的增强,与增强训练集不同的是为了最大限度的增强支持集数据,对lframe帧视频的每个lseg帧片段都分别进行一次段替换的增强操作,这样得到包含视频数量为的增强支持集。然后对支持集中的所有视频和1个测试视频用步骤4训练得到的视频特征提取器提取视频特征。
步骤6.网络测试阶段获取模型的识别准确度。本发明采用ProtoNet方法作为小样本视频动作识别分类器。首先将增强数据集中属于相同类别的视频特征取平均作为这个类别的中心,作为n个类中心。然后对测试视频计算其到这n个类中心的欧几里得距离,取距离最小的类作为这个视频的预测结果。
步骤7.重复s次步骤5-6,用这s次的平均预测准确度作为模型最终的评价指标。本发明的方法按照文[6]中的训练集与测试集的划分方法在Kinetics数据集上进行实验,实验结果表明只有测试视频只有一个标注数据时能达到67.8%的准确率,比目前最好的文[6]提高了7.3%,在测试数据有5个标注数据的情况下达到了85%的准确率,达到目前最高水平。
参考文献
【1】
riolVinyals,CharlesBlundell,TimothyLillicrap,KorayKavukcuoglu,andDaanWierstra.
2016.MatchingNetworksforOneShotLearning.InNIPS.
【2】Linchao Zhu and Yi Yang.2018.Compound Memory Networks for Few-shotVideoClassification.InECCV.751–766.
【3】He,K.,Zhang,X.,Ren,S.and Sun,J.,2016.Deep residual learning forimage recognition.In Proceedings of the IEEE conference on computer visionand pattern recognition(pp.770-778).
【4】Ravi,S.and Larochelle,H.,2016.Optimization as a model for few-shotlearning.
【5】JakeSnell,KevinSwersky,andRichardS.Zemeln.2017.Prototypicalnetworks forfew-shotlearning.InNIPS.
【6】Zhu,L.and Yang,Y.,2018.Compound Memory Networks for Few-shot VideoClassification.In Proceedings of the European Conference on Computer Vision(ECCV)(pp.751-766)。
Claims (6)
1.一种面向小样本视频动作分类的方法,其特征在于,设定训练集与测试集的类别集合相同,训练集是由3D智能人体与虚拟环境生成的虚拟视频,测试集是真实世界的视频;让深度学习模型通过学习合成的虚拟视频更好地识别真实测试视频;具体的步骤如下:
(1)利用现有游戏引擎中的视觉脚本来编程控制3D智能人体和虚拟环境;
(2)定义3D智能人体与虚拟环境进行特定动作的交互,摄像头记录视频获取到虚拟训练集;
(3)生成备选视频片段池:为每个训练集中的类别挑选m个视频,并将其分成长度为lseg的视频片段,构成备选视频片段池,其中m的大小权衡扩充效果与计算时间而确定;
(4)生成增强训练集:为训练集中的每个视频在每隔lframe帧处进行一次视频片段的替换操作,在备选视频片段池中选择语义距离最相近的视频片段进行替换,得到增强后的训练集;
(5)依次用原有的视频数据集与增强后的视频数据集训练和微调用于提取视频特征的ResNet-50神经网络模型;
(6)测试阶段按照n-way-k-shot的设定,在测试集中随机选择n个类别,然后为每个类别选择k个带标注信息的样本作为支持集,并额外选择1个属于这n个类别但不属于支持集的视频作为测试视频;
(7)为n*k个支持集视频中的每个视频取中间的lframe帧,并为这lframe帧视频在每个lseg帧处都进行数据增强的操作,加上原视频最终获取到容量为的扩充支持集;
(8)为包含个视频的支持集和1个测试视频用步骤(5)训练好的ResNet-50提取视频的特征,用ProtoNet小样本分类器将属于同一个类别的视频特征取平均作为这个类别的中心,得到n个类中心,对测试视频计算其到n个类中心的欧几里得距离,取距离最小的类作为这个测试视频的预测结果;
(9)重复s次步骤(7)-(8),并用平均预测准确度作为模型最终的评价指标。
2.根据权利要求1所述的面向小样本视频动作分类的方法,其特征在于,步骤(3)中,所述生成备选视频片段池的流程为:
记训练集数据为Dbase,先从中为每个类随机挑选出m个视频作为备选视频,每个视频随机取连续的lframe帧;然后将这些lframe帧的备选视频分成长度为lseg的视频片段,即每个视频都能得到个视频片段,这些视频片段共同构成用于增强训练集和测试集的备选视频片段池Gpool。
3.根据权利要求1或2所述的面向小样本视频动作分类的方法,其特征在于,步骤(4)中,所述生成增强训练集的流程为:对于训练集Dbase中的每个视频,为了保证模型训练时每次随机采样出来的lframe帧视频有且仅有一段被替换的lseg帧视频片段,对原视频中每隔lframe帧的位置进行一次视频段替换的增强操作;所述视频段替换增强操作,是将待增强的视频Vprobe等分成长度为lseg的视频片段,然后与视频片段池Gpool中的视频一起,都用神经网络提取视频片段特征;视频片段的特征提取方法采用在ImageNet上预训练过的ResNet-50模型提取每帧图像的特征表示,然后取lseg帧图像特征的平均作为该lseg帧片段的特征;对于视频片段池中的每个片段Gk,为其计算其特征到待增强视频Vprobe的各个片段特征的距离,得到语义距离分值[yk,1,yk,2,yk,3…,yk,m];然后在此基础上为了保证生成视频时序上的平整性,应用卷积核为进行卷积操作[λ1,λ2,λ1],得到新的语义+时序分值[y′k,1,y′k,2,y′k,3…,y′k,m];为所有的视频片段池Gpool中的视频都进行一次相同的操作,得到最后的分值矩阵;对于待增强视频Vprobe中的某一段,从视频片段池Gpool中选择分值最小的一段进行替换,得到对应的生成视频Vsyn,其类别等同于Vprobe的类别。
4.根据权利要求1所述的面向小样本视频动作分类的方法,其特征在于,步骤(3)中,m取5-20;lseg取值小于或等于
5.根据权利要求1所述的面向小样本视频动作分类的方法,其特征在于,步骤(4)中,视频的间隔帧数lframe表示为2p,取p=4、5、6或7。
6.根据权利要求1所述的面向小样本视频动作分类的方法,其特征在于,步骤(9)中,重复次数s大于2000。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910453199.6A CN110188668B (zh) | 2019-05-28 | 2019-05-28 | 一种面向小样本视频动作分类的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910453199.6A CN110188668B (zh) | 2019-05-28 | 2019-05-28 | 一种面向小样本视频动作分类的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110188668A true CN110188668A (zh) | 2019-08-30 |
CN110188668B CN110188668B (zh) | 2020-09-25 |
Family
ID=67718293
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910453199.6A Expired - Fee Related CN110188668B (zh) | 2019-05-28 | 2019-05-28 | 一种面向小样本视频动作分类的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110188668B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110853131A (zh) * | 2019-09-30 | 2020-02-28 | 西安交通大学 | 一种用于行为识别的虚拟视频数据生成方法 |
CN112269930A (zh) * | 2020-10-26 | 2021-01-26 | 北京百度网讯科技有限公司 | 建立区域热度预测模型、区域热度预测的方法及装置 |
CN112308952A (zh) * | 2020-10-15 | 2021-02-02 | 复旦大学 | 模仿给定视频中人物动作的3d角色动作生成系统和方法 |
CN112560556A (zh) * | 2019-09-25 | 2021-03-26 | 杭州海康威视数字技术股份有限公司 | 动作行为图像生成方法、装置、设备及存储介质 |
CN113469142A (zh) * | 2021-03-12 | 2021-10-01 | 山西长河科技股份有限公司 | 一种监控视频时空信息融合的分类方法、装置及终端 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101158883A (zh) * | 2007-10-09 | 2008-04-09 | 深圳先进技术研究院 | 一种基于计算机视觉的虚拟体育系统及其实现方法 |
US20080182647A1 (en) * | 2007-01-26 | 2008-07-31 | Cyberview Technology, Inc. | 3D rendering of 2D legacy game assets |
CN102668548A (zh) * | 2009-12-17 | 2012-09-12 | 佳能株式会社 | 视频信息处理方法和视频信息处理设备 |
CN104331442A (zh) * | 2014-10-24 | 2015-02-04 | 华为技术有限公司 | 视频分类方法和装置 |
WO2018102918A1 (en) * | 2016-12-05 | 2018-06-14 | Avigilon Corporation | System and method for cnn layer sharing |
CN108960059A (zh) * | 2018-06-01 | 2018-12-07 | 众安信息技术服务有限公司 | 一种视频动作识别方法及装置 |
-
2019
- 2019-05-28 CN CN201910453199.6A patent/CN110188668B/zh not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080182647A1 (en) * | 2007-01-26 | 2008-07-31 | Cyberview Technology, Inc. | 3D rendering of 2D legacy game assets |
CN101158883A (zh) * | 2007-10-09 | 2008-04-09 | 深圳先进技术研究院 | 一种基于计算机视觉的虚拟体育系统及其实现方法 |
CN102668548A (zh) * | 2009-12-17 | 2012-09-12 | 佳能株式会社 | 视频信息处理方法和视频信息处理设备 |
CN104331442A (zh) * | 2014-10-24 | 2015-02-04 | 华为技术有限公司 | 视频分类方法和装置 |
WO2018102918A1 (en) * | 2016-12-05 | 2018-06-14 | Avigilon Corporation | System and method for cnn layer sharing |
CN108960059A (zh) * | 2018-06-01 | 2018-12-07 | 众安信息技术服务有限公司 | 一种视频动作识别方法及装置 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112560556A (zh) * | 2019-09-25 | 2021-03-26 | 杭州海康威视数字技术股份有限公司 | 动作行为图像生成方法、装置、设备及存储介质 |
CN110853131A (zh) * | 2019-09-30 | 2020-02-28 | 西安交通大学 | 一种用于行为识别的虚拟视频数据生成方法 |
CN112308952A (zh) * | 2020-10-15 | 2021-02-02 | 复旦大学 | 模仿给定视频中人物动作的3d角色动作生成系统和方法 |
CN112308952B (zh) * | 2020-10-15 | 2022-11-18 | 复旦大学 | 模仿给定视频中人物动作的3d角色动作生成系统和方法 |
CN112269930A (zh) * | 2020-10-26 | 2021-01-26 | 北京百度网讯科技有限公司 | 建立区域热度预测模型、区域热度预测的方法及装置 |
CN112269930B (zh) * | 2020-10-26 | 2023-10-24 | 北京百度网讯科技有限公司 | 建立区域热度预测模型、区域热度预测的方法及装置 |
CN113469142A (zh) * | 2021-03-12 | 2021-10-01 | 山西长河科技股份有限公司 | 一种监控视频时空信息融合的分类方法、装置及终端 |
Also Published As
Publication number | Publication date |
---|---|
CN110188668B (zh) | 2020-09-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110188668A (zh) | 一种面向小样本视频动作分类的方法 | |
Wang et al. | Pixel-wise crowd understanding via synthetic data | |
Peng et al. | Visda: The visual domain adaptation challenge | |
CN110414377B (zh) | 一种基于尺度注意力网络的遥感图像场景分类方法 | |
Liu et al. | Learning human pose models from synthesized data for robust RGB-D action recognition | |
CN108399380A (zh) | 一种基于三维卷积和Faster RCNN的视频动作检测方法 | |
CN109919122A (zh) | 一种基于3d人体关键点的时序行为检测方法 | |
Feichtenhofer et al. | What have we learned from deep representations for action recognition? | |
Lin et al. | Learning modal-invariant and temporal-memory for video-based visible-infrared person re-identification | |
CN109376603A (zh) | 一种视频识别方法、装置、计算机设备及存储介质 | |
CN103116766B (zh) | 一种基于增量神经网络和子图编码的图像分类方法 | |
CN105160310A (zh) | 基于3d卷积神经网络的人体行为识别方法 | |
CN114241422B (zh) | 一种基于ESRGAN和改进YOLOv5s的学生课堂行为检测方法 | |
Cao et al. | Adversarial learning with local coordinate coding | |
CN104408760B (zh) | 一种基于双目视觉的高精度虚拟装配系统算法 | |
CN107463954B (zh) | 一种模糊异谱图像的模板匹配识别方法 | |
CN113239801B (zh) | 基于多尺度特征学习和多级域对齐的跨域动作识别方法 | |
CN104200203B (zh) | 一种基于动作字典学习的人体动作检测方法 | |
CN109460734A (zh) | 基于层次动态深度投影差值图像表示的视频行为识别方法及系统 | |
CN106156798B (zh) | 基于环形空间金字塔和多核学习的场景图像分类方法 | |
CN105574545B (zh) | 街道环境图像多视角语义切割方法及装置 | |
Liu et al. | Spatial pyramid block for oracle bone inscription detection | |
CN104616005A (zh) | 一种领域自适应的人脸表情分析方法 | |
CN113807176A (zh) | 一种基于多知识融合的小样本视频行为识别方法 | |
Jin et al. | Cvt-assd: convolutional vision-transformer based attentive single shot multibox detector |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200925 |