CN108921047B - 一种基于跨层融合的多模型投票均值动作识别方法 - Google Patents
一种基于跨层融合的多模型投票均值动作识别方法 Download PDFInfo
- Publication number
- CN108921047B CN108921047B CN201810598988.4A CN201810598988A CN108921047B CN 108921047 B CN108921047 B CN 108921047B CN 201810598988 A CN201810598988 A CN 201810598988A CN 108921047 B CN108921047 B CN 108921047B
- Authority
- CN
- China
- Prior art keywords
- model
- video
- voting
- approximate
- video data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
- G06V20/42—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
一种基于跨层融合的多模型投票均值动作识别方法,通过改进动作识别模型,借助多种参数设置,构建多模型投票均值的动作识别系统。利用近似排序池化方法,聚集视频中的运动信息生成一张RGB图像即近似动态图像。对近似动态图像进行水平翻转操作,使得视频数据量翻倍。将视频数据输入到卷积神经网络模型前,对模型进行改进。同时,在将卷积神经网络模型提取到的卷积特征输入全连接层前,对卷积特征进行水平翻转操作,直接增加卷积特征的数据量。多次设置多个不同的参数对模型进行训练,得到多个不同的预训练模型,采用集成学习的思想,构造多模型投票均值的识别系统。本发明多模型投票均值系统可增强系统的鲁棒性,进一步提高识别率。在工程领域中具有现实的应用价值。
Description
技术领域
本发明属于计算机视觉领域,涉及动作类视频的预处理、动作识别模型的改进、多个动作动作识别模型的融合以及动作识别。
背景技术
作为计算机视觉中的重要分支,动作识别主要是采用一系列方法识别视频中的某一动作。目前,对动作识别的研究及应用发展较快,特别是传统的动作识别方法经过几十年的发展,变得更加成熟。比较经典的传统方法可大致分为以下几类:流形学习法、轨迹法和重叠法。而在近些年借助硬件GPU等的快速发展,深度动作识别取得了飞快的发展。比较著名的用于动作识别的模型有AlexNet模型、VGGNet模型、Google Inception Net模型以及ResNet模型,等等。当今许多更高效率的动作识别系统及其应用正在研究和不断探索中。
相对于传统的动作识别方法,基于跨层融合的多模型投票动作识别方法中的动作识别模型是深度动作模型,更适合用于提取更有效的人体动作的特征,并且提取的动作特征泛化能力强、更加有利于识别视频中的动作。相对于深度模型相比,本发明的跨层融合模型可保证特征在传输过程完整性,即通过跨层融合结构识别前面层的特征直接传输到后面去。此外,在动作识别中,单个动作识别模型的识别率对动作的预处理比较敏感,预处理结果细微的差异或者动作类模糊等等,其动作的识别准确率也会相差甚远,特别是动作类间相似性较高的动作如快跑和慢跑。而基于跨层融合的多模型投票动作识别方法由于是融合了多个动作识别模型,识别的准确率是多个模型的平均值,因此多模型具有较强的鲁棒性。
发明内容
本发明的目的是提出跨层融合的多模型投票系统的动作识别设计方法。
本发明通过近似排序池化的方法,将视频压缩成一张RGB图像即近似动态图像,该方法可有效压缩视频数据,减少冗余的视频数据。为避免过度压缩视频数据,并增加卷积神经网络模型训练的数据量,对近似动态图像进行水平翻转操作。同时为增加动作识别模型中全连接层训练的数据量,对模型提取到的卷积特征进行水平翻转,使得全连接的参数可得到充分的训练,为便于描述称此模型为无融合模型。在无融合模型的基础上,参考残差网络模型的等值映射结构,构造跨层融合模型。采用三种视频数据划分方式以及两种生成近似动态图像的顺序在无融合模型以及跨层融合模型上分别进行训练,得到多个不同的分类器。通过集成的思想将所有分类器进行融合,构成多模型投票的动作识别系统。事实上,多模型投票的识别系统比其它单个动作识别系统鲁棒性更强,更具有现实意义,因此其具有重要的实际应用价值。
本发明通过以下技术方案实现的。
本发明所述的一种基于跨层融合的多模型投票均值动作识别方法,包括以下步骤:
步骤(1):在排序池化操作的基础上,构建近似排序池化的方法聚集视频中的动作信息,生成近似动态图像;
步骤(2):对近似动态图像进行水平翻转操作,使得图像的数据量翻倍;
步骤(3):在动态网络模型的基础上,对卷积神经网络提取到的动作特征进行水平翻转操作,使得可区别的动作特征数据量翻倍,为便于区分,将此模型定义为无融合模型;
步骤(4):对无融合模型添加跨层融合结构,即将模型第二层的输出与模型第五层的输出进行融合,构建跨层融合模型;
步骤(5):采用三种数据划分方式以及两种生成近似动态图像的顺序在无融合模型以及跨层融合模型上分别进行训练,得到多个不同的分类器;
步骤(6):采用集成学习的思想将多个已训练好的动作模型进行融合,同时借助投票的方法,构成多模型投票均值的动作识别系统;
步骤(7):随机抽取验证集中的视频数据,按照步骤(1)的方法生成近似动态图像,并将近似动态图像输入到多模型投票均值的识别系统中,即可得到动作类的识别准确率。
所述的近似排序池化是指通过视频的编码函数聚集一段视频中的运动信息。由于相同的动作视频都可用同一个函数近似表示,因此我们可以通过一个函数来表示一类动作。这个函数可聚集视频中的运动信息,将这些运动信息映射到一张RGB图像即可得到动态图像。鉴于卷积神经网络模型中具有大量的归一化操作,因此加快视频的预处理,不对运动信息进行归一化,即可得到近似动态图像。
所述三种数据划分方式是指将训练集中的视频数据按照不重叠的方式进行划分,例如:某一动作类有十五个视频数据,第一种数据划分方式是将前十个视频数据当作训练集,后五个视频数据用作验证集;第二种数据划分方式是前五个和后五个视频数据用作训练集,中间五个视频数据用作验证集;第三种数据划分方式是将后十个视频数据用作训练集,前五个视频数据用作验证集。
所述的两种生成近似动态图像的顺序是指在将视频帧聚集成近似动态图像时,可以按视频帧的顺序输入,也可以将视频帧按反序输入,这两种方式都可生成近似动态图像,而且生成的近似动态图像都不一样。
更进一步地,本发明所述的跨层融合的多模型投票均值动作识别系统方法,其具体步骤如下:
(S1):近似动态图像设计。
在排序池化的基础上:
通过优化式(2)学习一个参数向量d*来表示视频信息,其中S(t|d)=dT·Vt用于计算视频第t帧的得分,即用向量d与到t时刻为止的动作特征向量平均值Vt的点积作为It的得分。
学习到的最优参数向量d*包含了可对视频帧进行排序的信息,同时也聚集了视频帧中所有的运动信息,因此d*可看作是视频的描述符。向量d*具有与每帧特征向量相同的维度,可以看成是一个特征图像,称为视频的动态图像。虽然借助现代高性能的计算机可进行精确的动态图像运算,但会导致程序的运行时间长且内存消耗大。Bilen等人对排序池化操作进行优化,提出近似排序池化方法,该方法可有效地加快视频动态图像的生成。近似排序池化操作是利用式(2)梯度优化的第一步实现的。设初始通过应用一次梯度下降得到
可得
其中βt是尺度系数,由推导可知βt=2t-N-1。
αt=2(N-t+1)-(N+1)(HN-Ht-1) (6)
通过式(5)构建了一个产生近似动态图像的系统,对其进行分析,并通过Matlab数值仿真,确定近似动态图像的有效性。
(S2):近似动态图像水平翻转,在(S1)基础上对近似动态图像进行水平翻转操作。该方法直接增加近似动态图像的数据量,使得卷积神经网络模型的参数可得到充分训练。
(S3):无融合模型。
对卷积神经网络模型提取到的卷积特征信息进行水平翻转操作,为便于描述将此模型称为无融合模型。该方法直接增加具有动作可区别性的动作特征信息。
(S4):设计跨层融合模型。
若卷积神经网络模型的中间层的某一个输入数据是x,期望的输出结果是H(x),如果直接将输入的数据x传到输出作为一个新的初始结果,此时需要学习训练的目标就是F(x)=H(x)-x。即不再学习一个完整的输出H(x),而是学习模型的输出与输入的差H(x)-x。因此这里提出跨层融合模型的融合方法如下:
依据卷积网络模型提取到的特征可视化分析方法可知,网络模型的前两层卷积层可提取到的特征主要为颜色和边缘等最底层的特征信息,而第三个卷积层提取到的特征以纹理特征信息为主,第四个卷积层提取的特征开始比较有可区别性,第五层提取到特征最完整,而且是比较关键的判别性特征。依据网络模型各层提取到的特征信息的特点,为解决深度卷积神经网络模型传输过程中的特征损失问题,因而将第二个卷积层的输出特征与第五个卷积层的输出特征相融合,保证特征信息的完整性。鉴于相融合的两张特征图含有的特征信息不一样,对特征图融合的权重问题进行了实验分析和探讨。
(S5):多模型参数设计。
设计模型训练的参数图。对同一个模型框架采用多种不同的训练数据训练即可得到多种不同的模型。通过采用三种视频数据划分方式以及两种生成近似动态图像的顺序在无融合模型以及跨层融合模型上分别进行训练,可得到多个不同的分类器。
(S6)多模型投票识别系统及仿真实验。
对(S5)中的多个不同的分类器采用集成的思想,并借助投票的策略进行融合,构成多模型投票的动作识别系统。
通过随机抽取验证集中的视频数据通过(S1)生成近似动态图像以及(S2)进行水平翻转后,输入到多模型中进行动作识别。
有益效果
本发明中的基于跨层融合的多模型投票动作识别方法,其中添加了第二层和第五层融合结构的跨层融合模型与原模型相比,可以有效地降低模型特征在网络模型中传输时的损失问题,保证特征的完整性,而且跨层融合模型中在预处理前和全连接层分别对生成的近似动态图像和提取到的特征信息进行水平翻转操作,直接增加了图像的数据量和有效特征的数据量,有利于提高模型的动作识别率,特别是增加有效可区别的特征信息的数据量直接降低了模型的过拟合现象;而多模型投票的方法可以集成多个动作识别模型,通过多个模型计算同一个动作类的识别率,降低深度学习中单一动作识别模型识别率的随机性,因此多模型的动作识别模型分类更加可靠且具有更强的鲁棒性,识别率比其它动作识别方法如基于时间流和空间流的双流网络模型更加优越。
附图说明
图1为本发明多模型投票均值识别的流程图。
图2为本发明无融合模型框架图。
图3为本发明跨层融合模型框架图。
图4为本发明多模型参数生成图。
图5为本发明多模型投票均值识别框架图。
图6为本发明多种融合权重准确率对比图。
图7为本发明UCF101数据集中五类经典近似动态图像图。
图8为本发明近似动态图像正反序对比图。
具体实施方式
以下将结合附图对本发明作进一步详细描述,本发明的多模型投票均值识别的流程图如图1所示。
1:近似动态图像设计。
在近似动态图像公式基础上,选取一段长为100帧的转呼啦圈的动作视频,部分参数:T=100,t=10,其余皆选择为0,则近似动态图像公式变为:
依据式(7)以及上述参数,借助Matlab进行编程,可得这段视频总共可生成10张转呼啦圈动作的近似动态图像。部分经典动作类的近似动态图像如图7所示。
2.近似动态图像水平翻转。
对生成的10张转呼啦圈动作的近似动态图像进行水平翻转操作,即在Matlab中,借助fliplr()函数可对转呼啦圈动作近似动态图像进行水平翻转操作,如图8所示。翻转前后该视频总共可得20张不同的转呼啦圈动作近似动态图像。
3.无融合模型设计。
翻转前后的转呼啦圈动作近似动态图像经过卷积神经网络模型的卷积层后,可提取到具有动作区分性的动作特征信息。这些动作特征信息数据量较少,而动作识别网络模型的参数主要集中在全连接层,因此为使全连接层参数可得到充分训练,本发明在将转呼啦圈动作特征信息输入到全连接层前对其进行水平翻转操作,即在模型最后的一个卷积层与第一个全连接层之间添加一个水平翻转的结构。为便于描述,本发明将此模型结构称为无融合模型,如图2所示。同样,借助fliplr()函数对转呼啦圈动作特征信息进行水平翻转操作。
4.跨层融合模型设计。
在无融合模型中,将无融合模型的第二个卷积层的输出特征与第五个卷积层的输出特征相融合,即第五层最终的输出特征信息为第二层特征信息与第五层特征信息的融合,融合后的特征信息继续向后传输识别。为便于描述,此模型为融合模型,如图3所示。由于每个卷积层输出的特征信息不一样,为得到更好的识别效果,图6对跨层融合的权重参数进行了探讨。
5.多模型参数设计。
在训练模型阶段,采用三种视频数据划分方式以及两种生成近似动态图像的顺序在无融合模型以及跨层融合模型上分别进行训练,得到12个不同的分类器,如图4所示。
6.多模型投票识别系统鲁棒性分析。
将步骤2中的20张转呼啦圈动作近似动态图像输入到多模型投票系统中进行系统鲁棒性分析,多模型如图5所示。比较多种模型的平均动作识别准确率,如表1所示。
表1三种相似框架模型转呼啦圈动作平均识别率
模型 | 动态网络 | 跨层融合 | 多模型 |
平均识别率 | 70.9% | 83.03% | 83.87% |
由于本发明所选取的转呼啦圈动作视频数据是随机抽取的,故理论上证明多模型动作识别系统鲁棒性较好。
在表1中的转呼啦圈动作的实验结果是经过多次实验得到的,因此多次实验结果表明,本发明的跨层融合模型能很好地将前面层的特征信息直接传输到后面去,保证特征信息在传输过程的完整性;本发明的多模型投票的动作识别系统比跨层融合模型的识别准确率好,高0.84%。即通过多模型的投票机制不仅可以克服多个模型的随机性,在一定程度上保证动作的识别率。
Claims (2)
1.一种基于跨层融合的多模型投票均值动作识别方法,包括以下步骤:
步骤(1):在排序池化操作的基础上,构建近似排序池化的方法聚集视频中的动作信息,生成近似动态图像;
步骤(2):对近似动态图像进行水平翻转操作,使得图像的数据量翻倍;
步骤(3):在动态网络模型的基础上,对卷积神经网络提取到的动作特征进行水平翻转操作,使得可区别的动作特征数据量翻倍,为便于区分,将此模型定义为无融合模型;
步骤(4):对无融合模型添加跨层融合结构,即将模型第二层的输出与模型第五层的输出进行融合,构建跨层融合模型;
步骤(5):采用三种数据划分方式以及两种生成近似动态图像的顺序在无融合模型以及跨层融合模型上分别进行训练,得到多个不同的分类器;
步骤(6):采用集成学习的思想将多个已训练好的动作模型进行融合,同时借助投票的方法,构成多模型投票均值的动作识别系统;
步骤(7):随机抽取验证集中的视频数据,按照步骤(1)的方法生成近似动态图像,并将近似动态图像输入到多模型投票均值的识别系统中,即可得到动作类的识别准确率;
所述三种数据划分方式是指将训练集中的视频数据按照不重叠的方式进行划分,某一动作类有十五个视频数据,第一种数据划分方式是将前十个视频数据当作训练集,后五个视频数据用作验证集;第二种数据划分方式是前五个和后五个视频数据用作训练集,中间五个视频数据用作验证集;第三种数据划分方式是将后十个视频数据用作训练集,前五个视频数据用作验证集;
所述的两种生成近似动态图像的顺序是指在将视频帧聚集成近似动态图像时,按视频帧的顺序输入,将视频帧按反序输入,这两种方式都可生成近似动态图像,而且生成的近似动态图像都不一样。
2.如权利要求1所述的一种基于跨层融合的多模型投票均值动作识别方法,其特征在于:所述的近似排序池化是指通过视频的编码函数聚集一段视频中的运动信息;由于相同的动作视频都可用同一个函数近似表示,因此我们可以通过一个函数来表示一类动作;这个函数可聚集视频中的运动信息,将这些运动信息映射到一张RGB图像即可得到动态图像,鉴于卷积神经网络模型中具有大量的归一化操作,因此加快视频的预处理,不对运动信息进行归一化,即可得到近似动态图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810598988.4A CN108921047B (zh) | 2018-06-12 | 2018-06-12 | 一种基于跨层融合的多模型投票均值动作识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810598988.4A CN108921047B (zh) | 2018-06-12 | 2018-06-12 | 一种基于跨层融合的多模型投票均值动作识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108921047A CN108921047A (zh) | 2018-11-30 |
CN108921047B true CN108921047B (zh) | 2021-11-26 |
Family
ID=64418843
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810598988.4A Active CN108921047B (zh) | 2018-06-12 | 2018-06-12 | 一种基于跨层融合的多模型投票均值动作识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108921047B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110019953B (zh) * | 2019-04-16 | 2021-03-30 | 中国科学院国家空间科学中心 | 一种有效载荷图像数据实时快视系统 |
CN110070041A (zh) * | 2019-04-23 | 2019-07-30 | 江西理工大学 | 一种时空压缩激励残差乘法网络的视频动作识别方法 |
CN110084201B (zh) * | 2019-04-29 | 2022-09-13 | 福州大学 | 一种监控场景下基于特定目标跟踪的卷积神经网络的人体动作识别方法 |
CN110633630B (zh) * | 2019-08-05 | 2022-02-01 | 中国科学院深圳先进技术研究院 | 一种行为识别方法、装置及终端设备 |
CN111178405A (zh) * | 2019-12-18 | 2020-05-19 | 浙江工业大学 | 一种融合多种神经网络的相似物体识别方法 |
CN112257612B (zh) * | 2020-10-23 | 2023-06-02 | 华侨大学 | 一种基于边缘智能的无人机视频帧过滤方法及装置 |
CN114359677B (zh) * | 2021-12-30 | 2024-08-09 | 北京超维景生物科技有限公司 | 处理图像序列的方法及装置 |
CN117437392B (zh) * | 2023-12-15 | 2024-03-26 | 杭州锐健医疗科技有限公司 | 交叉韧带止点标记及其模型训练的方法和关节镜系统 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1525146A (zh) * | 2003-02-28 | 2004-09-01 | �ٹ��� | 选择分类器属性类型的系统或方法 |
CN103221977A (zh) * | 2010-12-09 | 2013-07-24 | 松下电器产业株式会社 | 姿势状态估计装置及姿势状态估计方法 |
CN105654037A (zh) * | 2015-12-21 | 2016-06-08 | 浙江大学 | 一种基于深度学习和特征图像的肌电信号手势识别方法 |
CN105678222A (zh) * | 2015-12-29 | 2016-06-15 | 浙江大学 | 一种基于移动设备的人体行为识别方法 |
CN105844204A (zh) * | 2015-01-14 | 2016-08-10 | 北京三星通信技术研究有限公司 | 人体行为识别方法和装置 |
CN106096565A (zh) * | 2016-06-16 | 2016-11-09 | 山东大学 | 基于传感网络的移动机器人与静态传感器的任务协作方法 |
CN106407905A (zh) * | 2016-08-31 | 2017-02-15 | 电子科技大学 | 基于机器学习的无线感知动作识别方法 |
CN106845351A (zh) * | 2016-05-13 | 2017-06-13 | 苏州大学 | 一种用于视频的基于双向长短时记忆单元的行为识别方法 |
CN107430660A (zh) * | 2015-03-18 | 2017-12-01 | 高通股份有限公司 | 用于表征设备行为的自动化匿名众包的方法和系统 |
CN107506712A (zh) * | 2017-08-15 | 2017-12-22 | 成都考拉悠然科技有限公司 | 一种基于3d深度卷积网络的人类行为识别的方法 |
CN107851434A (zh) * | 2015-05-26 | 2018-03-27 | 鲁汶大学 | 使用自适应增量学习方法的语音识别系统和方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8873813B2 (en) * | 2012-09-17 | 2014-10-28 | Z Advanced Computing, Inc. | Application of Z-webs and Z-factors to analytics, search engine, learning, recognition, natural language, and other utilities |
US11269891B2 (en) * | 2014-08-21 | 2022-03-08 | Affectomatics Ltd. | Crowd-based scores for experiences from measurements of affective response |
-
2018
- 2018-06-12 CN CN201810598988.4A patent/CN108921047B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1525146A (zh) * | 2003-02-28 | 2004-09-01 | �ٹ��� | 选择分类器属性类型的系统或方法 |
CN103221977A (zh) * | 2010-12-09 | 2013-07-24 | 松下电器产业株式会社 | 姿势状态估计装置及姿势状态估计方法 |
CN105844204A (zh) * | 2015-01-14 | 2016-08-10 | 北京三星通信技术研究有限公司 | 人体行为识别方法和装置 |
CN107430660A (zh) * | 2015-03-18 | 2017-12-01 | 高通股份有限公司 | 用于表征设备行为的自动化匿名众包的方法和系统 |
CN107851434A (zh) * | 2015-05-26 | 2018-03-27 | 鲁汶大学 | 使用自适应增量学习方法的语音识别系统和方法 |
CN105654037A (zh) * | 2015-12-21 | 2016-06-08 | 浙江大学 | 一种基于深度学习和特征图像的肌电信号手势识别方法 |
CN105678222A (zh) * | 2015-12-29 | 2016-06-15 | 浙江大学 | 一种基于移动设备的人体行为识别方法 |
CN106845351A (zh) * | 2016-05-13 | 2017-06-13 | 苏州大学 | 一种用于视频的基于双向长短时记忆单元的行为识别方法 |
CN106096565A (zh) * | 2016-06-16 | 2016-11-09 | 山东大学 | 基于传感网络的移动机器人与静态传感器的任务协作方法 |
CN106407905A (zh) * | 2016-08-31 | 2017-02-15 | 电子科技大学 | 基于机器学习的无线感知动作识别方法 |
CN107506712A (zh) * | 2017-08-15 | 2017-12-22 | 成都考拉悠然科技有限公司 | 一种基于3d深度卷积网络的人类行为识别的方法 |
Non-Patent Citations (6)
Title |
---|
"Dynamic Image Networks for Action Recognition";Bilen H 等;《 Computer Vision and Pattern Recognition》;20161212;3034-3042 * |
"Multimodal Multi-Stream Deep Learning for Egocentric Activity Recognition";Sibo Song等;《 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 》;20160601;24-31 * |
"动作切分和流形度量学习的视频动作识别";罗会兰 等;《中国图象图形学报》;20170816;第22卷(第8期) * |
"基于视频流的人体行为识别方法研究";迟元峰;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180215;I138-2374 * |
"复杂场景监控视频事件检测";王梦来;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180315(第(2018)03期);I138-1700 * |
"视频中的目标跟踪算法研究";钟睿;《中国优秀硕士学位论文全文数据库 信息科技辑》;20150715(第7期);I138-1118 * |
Also Published As
Publication number | Publication date |
---|---|
CN108921047A (zh) | 2018-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108921047B (zh) | 一种基于跨层融合的多模型投票均值动作识别方法 | |
CN110516536B (zh) | 一种基于时序类别激活图互补的弱监督视频行为检测方法 | |
CN110837836B (zh) | 基于最大化置信度的半监督语义分割方法 | |
Khowaja et al. | Semantic image networks for human action recognition | |
CN110378208B (zh) | 一种基于深度残差网络的行为识别方法 | |
CN111209962B (zh) | 一种联合热图特征回归的基于cnn特征提取网络的联合图像分类方法 | |
CN109063719B (zh) | 一种联合结构相似性和类信息的图像分类方法 | |
Simon et al. | Generalized orderless pooling performs implicit salient matching | |
CN108304573A (zh) | 基于卷积神经网络和监督核哈希的目标检索方法 | |
CN113989890A (zh) | 基于多通道融合和轻量级神经网络的人脸表情识别方法 | |
CN103065158A (zh) | 基于相对梯度的isa模型的行为识别方法 | |
CN116610778A (zh) | 基于跨模态全局与局部注意力机制的双向图文匹配方法 | |
CN113920516B (zh) | 一种基于孪生神经网络的书法字骨架匹配方法及系统 | |
Lin et al. | Feature correlation-steered capsule network for object detection | |
CN110704665A (zh) | 一种基于视觉注意力机制的图像特征表达方法及系统 | |
CN113408418A (zh) | 一种书法字体与文字内容同步识别方法及系统 | |
Xu et al. | Dilated convolution capsule network for apple leaf disease identification | |
CN116503959B (zh) | 基于不确定性感知的弱监督时序动作定位方法及系统 | |
CN113221683A (zh) | 教学场景下基于cnn模型的表情识别方法 | |
Montalbo | Automating mosquito taxonomy by compressing and enhancing a feature fused EfficientNet with knowledge distillation and a novel residual skip block | |
Qiu | Convolutional neural network based age estimation from facial image and depth prediction from single image | |
CN114677704B (zh) | 一种基于三维卷积的时空特征多层次融合的行为识别方法 | |
Zhou et al. | A multidimensional feature fusion network based on MGSE and TAAC for video-based human action recognition | |
TWI722383B (zh) | 應用於深度學習之預特徵萃取方法 | |
Ngan et al. | Closing the Neural-Symbolic Cycle: Knowledge Extraction, User Intervention and Distillation from Convolutional Neural Networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |