CN107862376A - 一种基于双流神经网络的人体图像动作识别方法 - Google Patents
一种基于双流神经网络的人体图像动作识别方法 Download PDFInfo
- Publication number
- CN107862376A CN107862376A CN201711038331.4A CN201711038331A CN107862376A CN 107862376 A CN107862376 A CN 107862376A CN 201711038331 A CN201711038331 A CN 201711038331A CN 107862376 A CN107862376 A CN 107862376A
- Authority
- CN
- China
- Prior art keywords
- neural network
- information
- video
- spatial
- temporal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000009471 action Effects 0.000 title claims abstract description 38
- 230000007935 neutral effect Effects 0.000 title 1
- 238000013528 artificial neural network Methods 0.000 claims description 141
- 230000003287 optical effect Effects 0.000 claims description 42
- 230000002123 temporal effect Effects 0.000 claims description 40
- 239000013598 vector Substances 0.000 claims description 23
- 238000012549 training Methods 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 16
- 238000012360 testing method Methods 0.000 claims description 15
- 238000010586 diagram Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 2
- 150000001875 compounds Chemical class 0.000 abstract 1
- 230000002035 prolonged effect Effects 0.000 abstract 1
- 230000004927 fusion Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 235000019580 granularity Nutrition 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/23—Recognition of whole body movements, e.g. for sport training
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- Psychiatry (AREA)
- Multimedia (AREA)
- Social Psychology (AREA)
- Image Analysis (AREA)
Abstract
本发明提供的方法能够从多层次出发,提取不同粒度的RGB信息和光流图信息,对于同样一段视频,本发明提供的方法可以提取到更多的视频信息用于训练。因此相比传统模型,可以更好地处理长时间的复杂动作,对于RGB人体动作识别整体而言,本发明提供的方法能够更好地提高识别准确率。
Description
技术领域
本发明涉及计算机视觉技术领域,更具体地,涉及一种基于双流神经网络的人体图像动作识别方法。
背景技术
图像识别一直是计算机视觉中的热门研究领域,而其中的RGB人体图像动作识别,由于容易过拟合、可用于训练模型的代表性数据集较少等原因,一直是研究的重点课题。
由于单个RGB图像的识别准确率一直难以提升,因此[1]提出了一种新的神经网络模型来进行识别。该模型由两个神经网络组成,第一个为空间神经网络,输入数据为传统的单个RGB图像,第二个为时间神经网络,输入数据为与第一个网络RGB图像对应的光流图,光流图是由两张相邻时刻的RGB图像合成得到,通过计算两张图之间像素点的变化,可以得到一张含有变化信息的光流图,因此光流图可以用来记录时间信息,从而被用于时间神经网络。因此[1]通过两个网络,可以同时得到时间与空间信息,在最后将两者融合并做出最终预测,从而可以更准确地对RGB图像进行识别。接下来在[2]中,对于网络的融合进行了改进。在传统的双流神经网络[1]中,两个神经网络的融合是在最后的输出层,而[2]提出一种新模型,在两个网络的处理过程中就进行融合,经过实验这一方法确实会有更高的准确率。在上述两个模型的处理过程中,对于网络的输入始终仅限于某张图片及其对应的光流图,但并没有考虑更长时间范围内的输入,为了解决这一问题,[3]提出了一种新的模型训练方法,在此方法中,训练网络时的输入不再是单个的RGB图片及其对应的光流图,而是将整个视频切分成帧,设一共有n帧,即n张RGB图片,那么将整个视频分成3段,每段含n/3张图片,从每段中提取一张图片,然后将3段的提取内容结合在一起,再输入到网络中训练模型。由于是从整体的视频帧里提取数据,因此特征会带有全局性,能更好地用于动作识别。
对于传统的双流神经网络,缺点在于虽然模型考虑了时间特征,但此特征仅限于一小段时间以内,但很多人体动作,比如双杠,撑杆跳等,均是由一系列复杂的动作组合而成,如果仅考虑一小段时间,那么可能会仅识别到如挥手,抬腿等基本动作,而错过了真正的动作。而在之后的网络层中间融合的模型也依然没解决该问题。对于[3]提出的算法——时间分割网络(TSN),为全局信息提供了一种新的提取方法,但它的局限性在于,将视频切分后,仅从每一段提取一张图片,得到的信息太过单薄,对于复杂动作而言,可能仍然无法得到足够的时间信息,用来识别当前动作。
[1]Simonyan,Karen,and Andrew Zisserman."Two-stream convolutionalnetworks for action recognition in videos."Advances in neural informationprocessing systems.2014.
[2]Feichtenhofer,Christoph,Axel Pinz,and Andrew Zisserman."Convolutional two-stream network fusion for video action recognition."Proceedings of the IEEE Conference on Computer Vision and PatternRecognition.2016.
[3]Wang,Limin,et al."Temporal segment networks:Towards good practicesfor deep action recognition."European Conference on Computer Vision.SpringerInternational Publishing,2016.
发明内容
本发明针对现有技术无法提取足够的时间信息来进行动作识别的技术缺陷,提供了一种基于双流神经网络的人体图像动作识别方法,该方法能够提取不同粒度的时间段的信息,因此相比传统模型,可以更好地处理长时间的复杂动作,对于RGB人体动作识别整体而言,本发明提供的方法能够更好地提高识别准确率。
为实现以上发明目的,采用的技术方案是:
一种基于双流神经网络的人体图像动作识别方法,包括以下步骤:
S1.构建时间神经网络和空间神经网络;
S2.为时间神经网络和空间神经网络准备足够多的训练视频,然后从训练视频中提取信息对时间神经网络、空间神经网络进行训练,提取信息的步骤如下:
S21.设对视频帧分段的次数为k,k的初始值为1;
S22.将训练视频的视频帧划分为多段,然后分别采集多段视频帧的RGB信息和光流图信息;
S23.令k=k+1然后对每段视频帧执行步骤S22的处理,直至k>a,a为设定的视频分段的次数阈值;
S24.将步骤S2采集的RGB信息输入至空间神经网络中对空间神经网络进行训练,而将步骤S2采集的光流图信息输入至时间神经网络中对时间神经网络进行训练;
S3.分别计算时间神经网络和空间神经网络的损失函数数值,然后判断时间神经网络和空间神经网络的损失函数数值是否小于设定的阈值,若是则结束对时间神经网络和空间神经网络的训练,否则基于时间神经网络和空间神经网络的损失函数数值对时间神经网络和空间神经网络的参数进行迭代更新,然后重复步骤S2对时间神经网络和空间神经网络的训练;
S4.对于测试视频,将其按照步骤S21~S23进行信息的提取,然后将提取的测试视频的RGB信息和光流图信息分别输入至空间神经网络、时间神经网络中,将空间神经网络、时间神经网络的输出融合后得到动作识别结果。
优选地,所述视频帧的光流图信息由视频帧及与视频帧相邻的另一视频帧确定,设视频帧t上的一个像素点为(u,v),则将其移动至视频帧t+1上对应位置的光流向量表示为dt(u,v),视频帧t上的每一个像素点均对应着一个光流向量,通过提取所有像素点的光流向量,即可得到一张与视频帧t对应的光流图。
优选地,所述a设为2。
优选地,所述测试视频提取的RGB信息表示如下:{{S11,S12,……,S1m},{S21,S22,……,S2m},…,{Sn1,Sn2,……,Snm}},其中Sij表示第一次划分的第i段里,再次划分后第j段提取的RGB信息,所述训练视频/测试视频提取的光流图信息表示如下:{{S′11,S′12,……,S′1m},{S′21,S′22,……,S′2m},…,{S′n1,S′n2,……,S′nm}},S′ij表示第一次划分的第i段里,再次划分后第j段提取的光流图信息,则步骤S4将提取的测试视频的RGB信息和光流图信息分别输入至空间神经网络、时间神经网络中,空间神经网络、时间神经网络的输出Prediction1(V)、Prediction2(V′)表示如下:
Prediction1(V)
=H1(G(F1(S1,S11,S12,……,S1m),……,Fn(SN,Sn1,Sn2,……,Snm)))
Prediction2(V′)
=H2(G(F1(S′1,S′11,S′12,……,S′1m),……,Fn(SN,S′n1,S′n2,……,S′nm)))
Fi函数表示在第一次划分中,将第i段提取的信息S1或S′1融合起来,并加入第i段自身再次划分提取的信息;函数G将各段的信息整合堆叠,形成统一的输入形式,最终输入到空间神经网络或时间神经网络中,函数H1和H2分别代表空间与时间神经网络的网络内计算过程。
优选地,所述将空间神经网络、时间神经网络的输出进行融合的具体过程如下:
Prediction(V)=Fu(Prediction1(V),Prediction2(V′))。
优选地,所述步骤S4对时间神经网络和空间神经网络的参数进行迭代更新的具体过程如下:
L(y,H1)和L(y,H2)分别表示空间神经网络与时间神经网络的损失函数,y表示一组向量[0,0,....0,1,0,....,0],当预测类别与真实类别一致时,yi=1,否则为0;H1表示空间神经网络的输出向量,其中H1i表示输出向量关于第i个动作的输出;H2表示时间神经网络的输出向量,H2i其中输出向量关于第i个动作的输出;N代表视频一共有多少种类别。
与现有技术相比,本发明的有益效果是:
本发明提供的方法能够从多层次出发,提取不同粒度的RGB信息和光流图信息,对于同样一段视频,本发明提供的方法可以提取到更多的视频信息用于训练。因此相比传统模型,可以更好地处理长时间的复杂动作,对于RGB人体动作识别整体而言,本发明提供的方法能够更好地提高识别准确率。
附图说明
图1为提取信息的步骤示意图。
图2为提取光流图信息的示意图。
图3为本发明提供的方法与传统的双流神经网络、时间分割网络的对比图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
以下结合附图和实施例对本发明做进一步的阐述。
实施例1
本发明涉及一种基于双流神经网络的人体图像动作识别方法,包括以下步骤:
S1.构建时间神经网络和空间神经网络;
S2.为时间神经网络和空间神经网络准备足够多的训练视频,然后从训练视频中提取信息对时间神经网络、空间神经网络进行训练,如图1所示,提取信息的步骤如下:
S21.设对视频帧分段的次数为k,k的初始值为1;
S22.将训练视频的视频帧划分为3段,然后分别采集多段视频帧的RGB信息和光流图信息;
S23.令k=k+1然后对每段视频帧执行步骤S22的处理,将每段视频帧再次划分为2段,然后分别采集各段视频帧的RGB信息和光流图信息;
S24.将步骤S2采集的RGB信息输入至空间神经网络中对空间神经网络进行训练,而将步骤S2采集的光流图信息输入至时间神经网络中对时间神经网络进行训练;
S3.分别计算时间神经网络和空间神经网络的损失函数数值,然后判断时间神经网络和空间神经网络的损失函数数值是否小于设定的阈值,若是则结束对时间神经网络和空间神经网络的训练,否则基于时间神经网络和空间神经网络的损失函数数值对时间神经网络和空间神经网络的参数进行迭代更新,然后重复步骤S2对时间神经网络和空间神经网络的训练;
S4.对于测试视频,将其按照步骤S21~S23进行信息的提取,然后将提取的测试视频的RGB信息和光流图信息分别输入至空间神经网络、时间神经网络中,将空间神经网络、时间神经网络的输出融合后得到动作识别结果。
在具体的实施过程中,所述视频帧的光流图信息由视频帧及与视频帧相邻的另一视频帧确定,设视频帧t上的一个像素点为(u,v),则将其移动至视频帧t+1上对应位置的光流向量表示为dt(u,v),视频帧t上的每一个像素点均对应着一个光流向量,通过提取所有像素点的光流向量,即可得到一张与视频帧t对应的光流图。具体如图2所示。
在具体的实施过程中,,所述测试视频提取的RGB信息表示如下:{{S11,S12,……,S1m},{S21,S22,……,S2m},…,{Sn1,Sn2,……,Snm}},其中Sij表示第一次划分的第i段里,再次划分后第j段提取的RGB信息,所述训练视频/测试视频提取的光流图信息表示如下:{{S′11,S′12,……,S′1m},{S′21,S′22,……,S′2m},…,{S′n1,S′n2,……,S′nm}},S′ij表示第一次划分的第i段里,再次划分后第j段提取的光流图信息,则步骤S4将提取的测试视频的RGB信息和光流图信息分别输入至空间神经网络、时间神经网络中,空间神经网络、时间神经网络的输出Prediction1(V)、Prediction2(V′)表示如下:
Prediction1(V)
=H1(G(F1(S1,S11,S12,……,S1m),……,Fn(SN,Sn1,Sn2,……,Snm)))
Prediction2(V′)
=H2(G(F1(S′1,S′11,S′12,……,S′1m),……,Fn(SN,S′n1,S′n2,……,S′nm)))
Fi函数表示在第一次划分中,将第i段提取的信息S1或S′1融合起来,并加入第i段自身再次划分提取的信息;函数G将各段的信息整合堆叠,形成统一的输入形式,最终输入到空间神经网络或时间神经网络中,函数H1和H2分别代表空间与时间神经网络的网络内计算过程。
在具体的实施过程中,,所述将空间神经网络、时间神经网络的输出进行融合的具体过程如下:
Prediction(V)=Fu(Prediction1(V),Prediction2(V′))。
在具体的实施过程中,,所述步骤S4对时间神经网络和空间神经网络的参数进行迭代更新的具体过程如下:
L(y,H1)和L(y,H2)分别表示空间神经网络与时间神经网络的损失函数,y表示一组向量[0,0,....0,1,0,....,0],当预测类别与真实类别一致时,yi=1,否则为0;H1表示空间神经网络的输出向量,其中H1i表示输出向量关于第i个动作的输出,可以简单理解为,当前待预测视频是第i个动作的可能性;H2表示时间神经网络的输出向量,H2i其中输出向量关于第i个动作的输出;其中N代表视频一共有多少种类别。
与传统的双流神经网络不同,本发明提供的方法更加重视从全局角度获取信息,而相比时间分割网络,本发明提供的方法又更加注重对于信息提取的层次。如图3所示。
对于传统的双流神经网络,由于提取信息仅限于视频的一小部分及其对应的一小截光流信息,因此训练模型时的输入信息较为局限。而时间分割网络中,虽然输入信息是根据全视频的长度来采样,但由于提取较为稀疏,因此对于复杂视频,将会遗漏部分信息。而本发明提供的方法具有多层次识别的能力,更进一步地,还可以根据视频类型的不同,定制出不同的网络模型,因此,本发明提供的方法可以极大地提高人体图像识别的准确率。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (6)
1.一种基于双流神经网络的人体图像动作识别方法,其特征在于:包括以下步骤:
S1.构建时间神经网络和空间神经网络;
S2.为时间神经网络和空间神经网络准备足够多的训练视频,然后从训练视频中提取信息对时间神经网络、空间神经网络进行训练,提取信息的步骤如下:
S21.设对视频帧分段的次数为k,k的初始值为1;
S22.将训练视频的视频帧划分为多段,然后分别采集多段视频帧的RGB信息和光流图信息;
S23.令k=k+1然后对每段视频帧执行步骤S22的处理,直至k>a,a为设定的视频分段的次数阈值;
S24.将步骤S2采集的RGB信息输入至空间神经网络中对空间神经网络进行训练,而将步骤S2采集的光流图信息输入至时间神经网络中对时间神经网络进行训练;
S3.分别计算时间神经网络和空间神经网络的损失函数数值,然后判断时间神经网络和空间神经网络的损失函数数值是否小于设定的阈值,若是则结束对时间神经网络和空间神经网络的训练,否则基于时间神经网络和空间神经网络的损失函数数值对时间神经网络和空间神经网络的参数进行迭代更新,然后重复步骤S2对时间神经网络和空间神经网络的训练;
S4.对于测试视频,将其按照步骤S21~S23进行信息的提取,然后将提取的测试视频的RGB信息和光流图信息分别输入至空间神经网络、时间神经网络中,将空间神经网络、时间神经网络的输出融合后得到动作识别结果。
2.根据权利要求1所述的基于双流神经网络的人体图像动作识别方法,其特征在于:所述视频帧的光流图信息由视频帧及与视频帧相邻的另一视频帧确定,设视频帧t上的一个像素点为(u,v),则将其移动至视频帧t+1上对应位置的光流向量表示为dt(u,v),视频帧t上的每一个像素点均对应着一个光流向量,通过提取所有像素点的光流向量,即可得到一张与视频帧t对应的光流图。
3.根据权利要求1所述的基于双流神经网络的人体图像动作识别方法,其特征在于:所述a设为2。
4.根据权利要求3所述的基于双流神经网络的人体图像动作识别方法,其特征在于:所述测试视频提取的RGB信息表示如下:{{S11,S12,……,S1m},{S21,S22,……,S2m},…,{Sn1,Sn2,……,Snm}},其中Sij表示第一次划分的第i段里,再次划分后第j段提取的RGB信息,所述训练视频/测试视频提取的光流图信息表示如下:{{S′11,S′12,……,S′1m},{S′21,S′22,……,S′2m},…,{S′n1,S′n2,……,S′nm}},S′ij表示第一次划分的第i段里,再次划分后第j段提取的光流图信息,则步骤S4将提取的测试视频的RGB信息和光流图信息分别输入至空间神经网络、时间神经网络中,空间神经网络、时间神经网络的输出Prediction1(V)、Prediction2(V′)表示如下:
Prediction1(V)
=H1(G(F1(S1,S11,S12,……,S1m),……,Fn(SN,Sn1,Sn2,……,Snm)))
Prediction2(V′)
=H2(G(F1(S′1,S′11,S′12,……,S′1m),……,Fn(SN,S′n1,S′n2,……,S′nm)))
Fi函数表示在第一次划分中,将第i段提取的信息S1或S′1融合起来,并加入第i段自身再次划分提取的信息;函数G将各段的信息整合堆叠,形成统一的输入形式,最终输入到空间神经网络或时间神经网络中,函数H1和H2分别代表空间与时间神经网络的网络内计算过程。
5.根据权利要求4所述的基于双流神经网络的人体图像动作识别方法,其特征在于:所述将空间神经网络、时间神经网络的输出进行融合的具体过程如下:
Prediction(V)=Fu(Prediction1(V),Prediction2(V′))。
6.根据权利要求1~5任一项所述的基于双流神经网络的人体图像动作识别方法,其特征在于:所述步骤S4对时间神经网络和空间神经网络的参数进行迭代更新的具体过程如下:
<mrow>
<mi>L</mi>
<mrow>
<mo>(</mo>
<mi>y</mi>
<mo>,</mo>
<msub>
<mi>H</mi>
<mn>1</mn>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mo>-</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>N</mi>
</munderover>
<msub>
<mi>y</mi>
<mi>i</mi>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>H</mi>
<mrow>
<mn>1</mn>
<mi>i</mi>
</mrow>
</msub>
<mo>-</mo>
<mi>log</mi>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>N</mi>
</munderover>
<msub>
<mi>expH</mi>
<mrow>
<mn>1</mn>
<mi>j</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mi>L</mi>
<mrow>
<mo>(</mo>
<mi>y</mi>
<mo>,</mo>
<msub>
<mi>H</mi>
<mn>2</mn>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mo>-</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>N</mi>
</munderover>
<msub>
<mi>y</mi>
<mi>i</mi>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>H</mi>
<mrow>
<mn>2</mn>
<mi>i</mi>
</mrow>
</msub>
<mo>-</mo>
<mi>log</mi>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>N</mi>
</munderover>
<msub>
<mi>expH</mi>
<mrow>
<mn>2</mn>
<mi>j</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
</mrow>
L(y,H1)和L(y,H2)分别表示空间神经网络与时间神经网络的损失函数,y表示一组向量[0,0,....0,1,0,....,0],当预测类别与真实类别一致时,yi=1,否则为0;H1表示空间神经网络的输出向量,其中H1i表示输出向量关于第i个动作的输出;H2表示时间神经网络的输出向量,H2i其中输出向量关于第i个动作的输出;N代表视频一共有多少种类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711038331.4A CN107862376A (zh) | 2017-10-30 | 2017-10-30 | 一种基于双流神经网络的人体图像动作识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711038331.4A CN107862376A (zh) | 2017-10-30 | 2017-10-30 | 一种基于双流神经网络的人体图像动作识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107862376A true CN107862376A (zh) | 2018-03-30 |
Family
ID=61696545
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711038331.4A Pending CN107862376A (zh) | 2017-10-30 | 2017-10-30 | 一种基于双流神经网络的人体图像动作识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107862376A (zh) |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108629326A (zh) * | 2018-05-14 | 2018-10-09 | 中国科学院自动化研究所 | 目标体的动作行为识别方法及装置 |
CN109255284A (zh) * | 2018-07-10 | 2019-01-22 | 西安理工大学 | 一种基于运动轨迹的3d卷积神经网络的行为识别方法 |
CN109271889A (zh) * | 2018-08-29 | 2019-01-25 | 中山大学 | 一种基于双层lstm神经网络的动作识别方法 |
CN109359598A (zh) * | 2018-10-18 | 2019-02-19 | 中国科学院空间应用工程与技术中心 | 一种识别光学遥感图像道路的y型神经网络系统及方法 |
CN109492129A (zh) * | 2018-10-26 | 2019-03-19 | 武汉理工大学 | 一种基于双流神经网络的相似视频搜索方法和系统 |
CN109583334A (zh) * | 2018-11-16 | 2019-04-05 | 中山大学 | 一种基于时空关联神经网络的动作识别方法及其系统 |
CN109635712A (zh) * | 2018-12-07 | 2019-04-16 | 杭州电子科技大学 | 基于同构网络的自发微表情种类判别方法 |
CN109858462A (zh) * | 2019-02-21 | 2019-06-07 | 武汉纺织大学 | 一种基于卷积神经网络的织物识别方法及系统 |
CN109886225A (zh) * | 2019-02-27 | 2019-06-14 | 浙江理工大学 | 一种基于深度学习的图像手势动作在线检测与识别方法 |
CN109902547A (zh) * | 2018-05-29 | 2019-06-18 | 华为技术有限公司 | 动作识别方法和装置 |
CN109977904A (zh) * | 2019-04-04 | 2019-07-05 | 成都信息工程大学 | 一种基于深度学习的轻量型的人体动作识别方法 |
CN110110812A (zh) * | 2019-05-20 | 2019-08-09 | 江西理工大学 | 一种用于视频动作识别的串流深度网络模型 |
CN110110648A (zh) * | 2019-04-30 | 2019-08-09 | 北京航空航天大学 | 基于视觉感知与人工智能的动作提名方法 |
CN110399789A (zh) * | 2019-06-14 | 2019-11-01 | 佳都新太科技股份有限公司 | 行人重识别方法、模型构建方法、装置、设备和存储介质 |
CN110458038A (zh) * | 2019-07-19 | 2019-11-15 | 天津理工大学 | 基于双链深度双流网络的小数据跨域动作识别方法 |
CN111325253A (zh) * | 2020-02-12 | 2020-06-23 | 杭州涂鸦信息技术有限公司 | 一种基于深度学习的双流法行为识别方法及系统 |
CN111723243A (zh) * | 2020-06-15 | 2020-09-29 | 南京领行科技股份有限公司 | 一种动作片段检测方法、装置、设备及介质 |
WO2020228811A1 (en) * | 2019-05-15 | 2020-11-19 | Huawei Technologies Co., Ltd. | Adaptive action recognizer for video |
CN112257526A (zh) * | 2020-10-10 | 2021-01-22 | 中国科学院深圳先进技术研究院 | 一种基于特征交互学习的动作识别方法及终端设备 |
CN112906516A (zh) * | 2021-02-04 | 2021-06-04 | 四川望村网络科技有限公司 | 一种基于深度学习的暴力行为识别方法,存储装置及服务器 |
CN113139467A (zh) * | 2021-04-23 | 2021-07-20 | 西安交通大学 | 基于分级式结构的细粒度视频动作识别方法 |
CN114863370A (zh) * | 2022-07-08 | 2022-08-05 | 合肥中科类脑智能技术有限公司 | 一种复杂场景高空抛物识别方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101753853A (zh) * | 2009-05-13 | 2010-06-23 | 中国科学院自动化研究所 | 一种视频场景分割的融合方法 |
CN106815579A (zh) * | 2017-01-22 | 2017-06-09 | 深圳市唯特视科技有限公司 | 一种基于多区域双流卷积神经网络模型的动作检测方法 |
-
2017
- 2017-10-30 CN CN201711038331.4A patent/CN107862376A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101753853A (zh) * | 2009-05-13 | 2010-06-23 | 中国科学院自动化研究所 | 一种视频场景分割的融合方法 |
CN106815579A (zh) * | 2017-01-22 | 2017-06-09 | 深圳市唯特视科技有限公司 | 一种基于多区域双流卷积神经网络模型的动作检测方法 |
Non-Patent Citations (4)
Title |
---|
LIMIN W.等: "Temporal Segment Networks: Towards Good Practices for Deep Action Recognition", 《SPRINGER INTERNATIONAL PUBLISHING AG 2016》 * |
YING Z.等: "Breaking video into pieces for action recognition", 《MULTIMEDIA TOOLS AND APPLICATIONS》 * |
袁智 等: "一种基于双流卷积神经网络跌倒识别方法", 《河南师范大学学报(自然科学版)》 * |
雷帮军 等: "《视频目标跟踪系统分步详解》", 31 December 2015, 北京:国防工业出版社 * |
Cited By (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108629326A (zh) * | 2018-05-14 | 2018-10-09 | 中国科学院自动化研究所 | 目标体的动作行为识别方法及装置 |
CN109902547A (zh) * | 2018-05-29 | 2019-06-18 | 华为技术有限公司 | 动作识别方法和装置 |
US11704938B2 (en) | 2018-05-29 | 2023-07-18 | Huawei Technologies Co., Ltd. | Action recognition method and apparatus |
US11392801B2 (en) | 2018-05-29 | 2022-07-19 | Huawei Technologies Co., Ltd. | Action recognition method and apparatus |
CN109255284A (zh) * | 2018-07-10 | 2019-01-22 | 西安理工大学 | 一种基于运动轨迹的3d卷积神经网络的行为识别方法 |
CN109271889A (zh) * | 2018-08-29 | 2019-01-25 | 中山大学 | 一种基于双层lstm神经网络的动作识别方法 |
CN109271889B (zh) * | 2018-08-29 | 2021-10-08 | 中山大学 | 一种基于双层lstm神经网络的动作识别方法 |
CN109359598A (zh) * | 2018-10-18 | 2019-02-19 | 中国科学院空间应用工程与技术中心 | 一种识别光学遥感图像道路的y型神经网络系统及方法 |
CN109492129B (zh) * | 2018-10-26 | 2020-08-07 | 武汉理工大学 | 一种基于双流神经网络的相似视频搜索方法和系统 |
CN109492129A (zh) * | 2018-10-26 | 2019-03-19 | 武汉理工大学 | 一种基于双流神经网络的相似视频搜索方法和系统 |
CN109583334A (zh) * | 2018-11-16 | 2019-04-05 | 中山大学 | 一种基于时空关联神经网络的动作识别方法及其系统 |
CN109635712A (zh) * | 2018-12-07 | 2019-04-16 | 杭州电子科技大学 | 基于同构网络的自发微表情种类判别方法 |
CN109635712B (zh) * | 2018-12-07 | 2021-02-05 | 杭州电子科技大学 | 基于同构网络的自发微表情种类判别方法 |
CN109858462A (zh) * | 2019-02-21 | 2019-06-07 | 武汉纺织大学 | 一种基于卷积神经网络的织物识别方法及系统 |
CN109886225A (zh) * | 2019-02-27 | 2019-06-14 | 浙江理工大学 | 一种基于深度学习的图像手势动作在线检测与识别方法 |
CN109886225B (zh) * | 2019-02-27 | 2020-09-15 | 浙江理工大学 | 一种基于深度学习的图像手势动作在线检测与识别方法 |
CN109977904A (zh) * | 2019-04-04 | 2019-07-05 | 成都信息工程大学 | 一种基于深度学习的轻量型的人体动作识别方法 |
CN110110648A (zh) * | 2019-04-30 | 2019-08-09 | 北京航空航天大学 | 基于视觉感知与人工智能的动作提名方法 |
WO2020228811A1 (en) * | 2019-05-15 | 2020-11-19 | Huawei Technologies Co., Ltd. | Adaptive action recognizer for video |
US11669743B2 (en) | 2019-05-15 | 2023-06-06 | Huawei Technologies Co., Ltd. | Adaptive action recognizer for video |
CN110110812A (zh) * | 2019-05-20 | 2019-08-09 | 江西理工大学 | 一种用于视频动作识别的串流深度网络模型 |
CN110110812B (zh) * | 2019-05-20 | 2022-08-19 | 江西理工大学 | 一种用于视频动作识别的串流深度网络模型构建方法 |
CN110399789A (zh) * | 2019-06-14 | 2019-11-01 | 佳都新太科技股份有限公司 | 行人重识别方法、模型构建方法、装置、设备和存储介质 |
CN110458038A (zh) * | 2019-07-19 | 2019-11-15 | 天津理工大学 | 基于双链深度双流网络的小数据跨域动作识别方法 |
CN111325253A (zh) * | 2020-02-12 | 2020-06-23 | 杭州涂鸦信息技术有限公司 | 一种基于深度学习的双流法行为识别方法及系统 |
CN111325253B (zh) * | 2020-02-12 | 2023-05-05 | 杭州涂鸦信息技术有限公司 | 一种基于深度学习的双流法行为识别方法及系统 |
CN111723243B (zh) * | 2020-06-15 | 2022-06-07 | 南京领行科技股份有限公司 | 一种动作片段检测方法、装置、设备及介质 |
CN111723243A (zh) * | 2020-06-15 | 2020-09-29 | 南京领行科技股份有限公司 | 一种动作片段检测方法、装置、设备及介质 |
CN112257526A (zh) * | 2020-10-10 | 2021-01-22 | 中国科学院深圳先进技术研究院 | 一种基于特征交互学习的动作识别方法及终端设备 |
CN112257526B (zh) * | 2020-10-10 | 2023-06-20 | 中国科学院深圳先进技术研究院 | 一种基于特征交互学习的动作识别方法及终端设备 |
CN112906516A (zh) * | 2021-02-04 | 2021-06-04 | 四川望村网络科技有限公司 | 一种基于深度学习的暴力行为识别方法,存储装置及服务器 |
CN113139467A (zh) * | 2021-04-23 | 2021-07-20 | 西安交通大学 | 基于分级式结构的细粒度视频动作识别方法 |
CN114863370A (zh) * | 2022-07-08 | 2022-08-05 | 合肥中科类脑智能技术有限公司 | 一种复杂场景高空抛物识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107862376A (zh) | 一种基于双流神经网络的人体图像动作识别方法 | |
CN106709461B (zh) | 基于视频的行为识别方法及装置 | |
CN108932693B (zh) | 基于人脸几何信息的人脸编辑补全方法及装置 | |
CN108960059A (zh) | 一种视频动作识别方法及装置 | |
CN113205595B (zh) | 一种3d人体姿态估计模型的构建方法及其应用 | |
CN107862275A (zh) | 人体行为识别模型及其构建方法和人体行为识别方法 | |
CN113239801B (zh) | 基于多尺度特征学习和多级域对齐的跨域动作识别方法 | |
CN108830170B (zh) | 一种基于分层特征表示的端到端目标跟踪方法 | |
CN111062410B (zh) | 基于深度学习的星型信息桥气象预测方法 | |
CN109934846A (zh) | 基于时间和空间网络的深度集成目标跟踪方法 | |
CN110168572A (zh) | 信息处理方法、信息处理装置、计算机可读存储介质 | |
KR20220116270A (ko) | 학습 처리 장치 및 방법 | |
CN116091551B (zh) | 一种基于多模态融合的目标检索跟踪方法及系统 | |
CN112200096B (zh) | 基于压缩视频实现实时异常行为识别的方法、装置及其存储介质 | |
CN109753984A (zh) | 视频分类方法、装置和计算机可读存储介质 | |
CN112418032A (zh) | 一种人体行为识别方法、装置、电子设备及存储介质 | |
CN111652231B (zh) | 一种基于特征自适应选择的铸件缺陷语义分割方法 | |
CN115018039A (zh) | 一种神经网络蒸馏方法、目标检测方法以及装置 | |
CN113822790A (zh) | 一种图像处理方法、装置、设备及计算机可读存储介质 | |
CN116977674A (zh) | 图像匹配方法、相关设备、存储介质及程序产品 | |
CN111738092A (zh) | 一种基于深度学习的恢复被遮挡人体姿态序列方法 | |
CN110807380A (zh) | 一种人体关键点检测方法及装置 | |
Leng et al. | Augmented two stream network for robust action recognition adaptive to various action videos | |
CN112528077B (zh) | 基于视频嵌入的视频人脸检索方法及系统 | |
Luo et al. | An modified video stream classification method which fuses three-dimensional convolutional neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180330 |
|
RJ01 | Rejection of invention patent application after publication |