CN110263666B - 一种基于非对称多流的动作检测方法 - Google Patents
一种基于非对称多流的动作检测方法 Download PDFInfo
- Publication number
- CN110263666B CN110263666B CN201910458481.3A CN201910458481A CN110263666B CN 110263666 B CN110263666 B CN 110263666B CN 201910458481 A CN201910458481 A CN 201910458481A CN 110263666 B CN110263666 B CN 110263666B
- Authority
- CN
- China
- Prior art keywords
- flow
- network
- information
- stream
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000009471 action Effects 0.000 title claims abstract description 99
- 238000001514 detection method Methods 0.000 title claims abstract description 28
- 230000003287 optical effect Effects 0.000 claims abstract description 83
- 239000013598 vector Substances 0.000 claims abstract description 58
- 238000012549 training Methods 0.000 claims abstract description 41
- 230000033001 locomotion Effects 0.000 claims abstract description 31
- 230000003334 potential effect Effects 0.000 claims abstract description 13
- 238000000034 method Methods 0.000 claims description 64
- 230000009467 reduction Effects 0.000 claims description 32
- 230000003044 adaptive effect Effects 0.000 claims description 27
- 230000004927 fusion Effects 0.000 claims description 21
- 238000013528 artificial neural network Methods 0.000 claims description 20
- 238000005070 sampling Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 10
- 238000013527 convolutional neural network Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 5
- 241000271935 Bitis Species 0.000 claims description 3
- 238000005520 cutting process Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims description 2
- 230000006872 improvement Effects 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于非对称多流的动作检测方法,包括以下步骤:从先验视频中提取RGB图像和光流,训练获得训练好的RGB图像单流网络和光流单流网络;提取先验视频中每帧的图像流特征信息和光流特征信息,结合动作标签,训练非对称双流网络;通过训练好的RGB图像单流网络和光流单流网络,分别提取待检测的目标视频中每帧的图像流特征信息和光流特征信息,获得目标视频的段特征并输入训练好的非对称双流网络,计算获得视频分类向量;从视频分类向量中选择出潜在动作,获得潜在动作的动作识别序列;通过动作识别序列完成动作的检测。本发明的动作检测方法,考虑到了图像流和光流之间的不对称性,可提升动作识别和动作检测的准确率。
Description
技术领域
本发明属于计算机视觉与模式识别技术领域,特别涉及一种基于非对称多流的动作检测方法。
背景技术
对视频动作的发现和分割是视频处理领域中重要的研究内容,被广泛运用在动作追踪和发现中,具有很大的理论研究价值和实际应用价值。其中,利用弱监督数据实现的动作检测方法只需要少量人工标注就可以获得很好的性能。弱监督实现的动作检测方法从视频级别的标签进行建模,通过注意力机制判断视频帧是否包含动作。
为了对帧建模,大多数方法首先对视频序列进行处理,提取图像流和光流并融合,接着利用视频标签训练,再根据视频帧对网络逐帧进行激活判别。在弱监督动作检测方法中,传统的双流结合方式将双流看作是对称的,带来了很强的过拟合,无法准确定位动作。
发明内容
本发明的目的在于提供一种基于非对称多流的动作检测方法,以解决上述存在的一个或多个技术问题。本发明的动作检测方法,考虑到了图像流和光流之间的不对称性,可提升动作识别和动作检测的准确率。
为达到上述目的,本发明采用以下技术方案:
一种基于非对称多流的动作检测方法,包括以下步骤:
步骤1,采集若干已标注视频标签的先验视频,从先验视频的帧信息中提取RGB图像和光流;通过提取的RGB图像并结合视频标签训练卷积神经网络,获得训练好的RGB图像单流网络;通过提取的光流并结合视频标签训练卷积神经网络,获得训练好的光流单流网络;
步骤2,通过步骤1获得的训练好的RGB图像单流网络和光流单流网络,分别提取步骤1采集的先验视频中每帧的图像流特征信息和光流特征信息;
步骤3,根据步骤2提取的图像流特征信息和光流特征信息,并结合动作标签,训练非对称双流网络,最终获得训练好的非对称双流网络;其中,非对称双流网络训练的过程包括:将图像流特征信息和光流特征信息结合作为输入,输出多流分类结果和多流注意力权重,加权多流分类结果获得视频分类向量,最小化非对称双流网络的损失函数;
步骤4,通过步骤1获得的训练好的RGB图像单流网络和光流单流网络,分别提取待检测的目标视频中每帧的图像流特征信息和光流特征信息;
步骤5,根据步骤4提取的图像流特征信息和光流特征信息,获得目标视频的段特征;将目标视频的段特征输入步骤3获得的训练好的非对称双流网络,输出段分类向量和段注意力权重;根据段分类向量和段注意力权重计算获得视频分类向量;
步骤6,从步骤5获得的视频分类向量中选择置信度大于预设值的动作作为潜在动作;其中,对于潜在动作a,从步骤5中获得的段分类向量中抽取潜在动作a的分类权重,获得潜在动作a的动作识别序列;通过潜在动作a的动作识别序列完成动作a的检测。
本发明的进一步改进在于,步骤3的非对称双流网络训练的过程中,图像流和光流信息结合的方式为:将光流特征信息作为主信息流;
将图像流特征信息和光流特征信息进行降维与融合后,作为辅助信息流;
将主信息流与辅助信息流拼合获得双流特征信息。
本发明的进一步改进在于,步骤6中还包括:使用阈值将获得的动作识别序列中的误动作剔除,获得剔除误动作后的动作识别序列;对剔除误动作后的动作识别序列进行最近邻插值,获得与目标视频帧数一一对应的激活序列;根据激活序列提取获得动作片段和动作片段置信度。
本发明的进一步改进在于,步骤6中使用的阈值为经验值或自适应阈值;
其中,自适应阈值在非对称双流网络训练时统计,具体步骤包括:
预设自适应阈值比例为pth,pth表示自适应阈值所对应的分位数,分位数为小于1大于0的小数;
本发明的进一步改进在于,步骤3中,非对称双流网络的训练过程包括:
对输入的多流信息非对称降维和融合,所述多流信息包括主信息流和辅助信息流;其中,非对称降维表示不同流信息降维比例不同,融合指使用相加、拼接或神经网络合并特征向量;
使用分类神经网络处理融合了非对称双流信息的特征向量,输出对应输入特征的分类向量x和注意力权重λ;
通过softmax方法对分类向量和注意力权重归一化;通过对来自视频中多个的分类向量和注意力权重进行加权求和,获得视频分类向量。
本发明的进一步改进在于,步骤3中,
获得辅助信息流的步骤包括:将输入的光流特征和图像流特征降维,使用全连接或双线性神经网络融合降维的光流特征和特性特征;
另外,辅助信息流降维比例大于主信息流的降维比例;辅助信息流降维比例大于0且小于1/4。
本发明的进一步改进在于,非对称双流网络包括:
降维网络,用于对输入特征进行降维;
分类网络,用于输出对应帧的多流分类向量和多流注意力权重;
融合网络,用于融合光流特征和图像流特征,以及用于融合主信息流和辅助信息流;其中,融合方式包括使用双线性网络或相加或向量拼接的方法。
本发明的进一步改进在于,非对称双流网络中,
降维网络为一层或多层全连接网络,通过改变全连接网络的输出维度,降级输出向量的维度;
分类网络为一层或多层全连接网络;
融合网络的输入向量和合并向量使用一层或多层全连接层对信息进行转换、增维和降维,用于使融合的信息具有更高非线性性;
其中,双线性网络和全连接层包括归一化函数,对应的双线性或线性变换,以及对应的非线性函数。
本发明的进一步改进在于,步骤3中在训练非对称多流网络前还包括:将步骤2获得的图像流特征信息和光流特征信息分段及采样,获得段特征;将视频包含的动作标注在段特征上获得训练数据;
采用降维网络对特征进行降维,获得降维后的图像流特征信息和光流特征信息;其中,对于图像流和光流,主信息流和辅助信息流,降维比例;
将降维后的或原始(降维比例为0)光流特征信息作为主数据流;
将降维后的图像流特征信息和降维后的光流特征信息输入融合网络融合,例如使用双线性神经网络作为融合网络,输出降维后的双流特征信息;将双流特征信息作为辅助特征流;
将双流特征信息与降维后的光流特征信息拼接获得非对称多流网络的特征信息。
本发明的进一步改进在于,步骤1具体包括:
步骤1.1,确定需要识别的动作列表,收集包含目标动作相关的先验视频数据;将先验视频切割成视频频段,标记视频片段中出现的动作;将视频片段转换为图像信息和光流信息,对视频片段采样,获得用于训练单流网络的图像信息和光流信息;其中,每个视频频段至少出现一个动作;
步骤1.2,将步骤1.1采样获得图像信息和光流信息分别输入卷积神经网络,训练获得RGB图像单流网络和单流网络;其中,卷积神经网络的训练过程包括:输出分类向量和注意力权重标量,使用softmax方法对注意力加权输出分类结果;用交叉熵作为损失函数计算权重的梯度,通过梯度下降方法优化神经网络参数,最小化期望误差。
与现有技术相比,本发明具有以下有益效果:
本发明的基于非对称多流的动作检测方法,利用弱监督训练对视频动作发现和分割,即使用视频级别的标签训练模型来拟合动作序列;使用深度神经网络模型对动作序列建模,输出动作发现序列,可提升动作识别和动作检测的准确率,同时具有较高的可靠性和鲁棒性。
本发明采用的非对称多流结合方法考虑到了图像流和光流之间的不对称性,在对实际视频序列建模时,能够保证图像流和光流都对建模产生正面效益;使用双线性函数等进行双流融合和建模,考虑到了双流间的相互作用和流本身的信息,可大大提升动作识别和动作检测的准确率,并使得注意力权重更加可靠。
本发明的双流结合方法使用神经网络实现,不需要手工设计权重参数,并可以通过梯度下降快速优化。
本发明输出动作激活序列作为动作发现序列,可进一步提升动作识别和动作检测的准确率。
目前的弱监督方法往往设计大量经验参数,使得模型对数据敏感,在实际环境中不可靠,这是由于传统的方法要求对不同的先验数据手工设计,如阈值、多流权重等超参数,使得不同数据源的数据难以结合,这使得模型不稳定、鲁棒性弱。本发明采用自适应阈值方法来简化训练流程;通过自适应阈值,本发明的方法较容易被运用到新收集的数据中,能够大大简化建模的流程;在流程简化的同时,本发明具有较高鲁棒性,在处理未知数据时十分稳定。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面对实施例或现有技术描述中所需要使用的附图做简单的介绍;显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的一种基于非对称多流的动作检测方法的流程示意框图;
图2为本发明实施例的一种基于非对称多流的动作检测方法中非对称双流网络流程示意框图;
图3为本发明实施例的一种基于非对称多流的动作检测方法进一步细化后的流程示意框图;
图4为本发明实施例的一种基于非对称多流的动作检测方法对于不同流模型的对比示意图。
具体实施方式
为使本发明实施例的目的、技术效果及技术方案更加清楚,下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述;显然,所描述的实施例是本发明一部分实施例。基于本发明公开的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的其它实施例,都应属于本发明保护的范围。
请参阅图1,本发明实施例的一种基于非对称多流和自适应阈值的动作检测方法,包括以下步骤:
(1)使用预收集的先验视频序列,已知视频包含的动作;从视频中提取RGB图像和光流,利用视频标签建立视频标签向量;对视频帧抽样,用单流神经网络建模,最小化注意力加权的分类结果,获得训练好的动作识别单流神经网络;利用单流神经网络模型提取先验视频的图像流和光流特征,训练非对称双流神经网络,处理提取的图像流和光流特征,记录自适应注意力阈值并最小化注意力加权分类结果。
(2)使用训练好的动作识别单流神经网络和非对称多流神经网络,完成目标视频的动作检测。首先对目标视频帧取样,提取视频每帧的图像和光流;抽样并利用单流网络提取抽样帧的图像流和光流特征,合并提取的图像流和光流特征,使用非对称双流网络提取识别序列每段的分类向量和注意力权重,有xt,λt=F(qt),其中,xt为第t帧所有动作类别的分类向量,λt为这一帧的注意力权重;利用每段的分类向量和注意力权重,计算视频的分类向量,从中选择置信度大于0.1的动作类别;针对这些动作类别,抽取他们的段分类向量,获得原始动作识别序列;使用阈值方法和自适应阈值排除原始动作识别序列中的误动作。然后对动作识别序列进行最近邻插值,获得与待测试视频帧数一一对应的激活序列;利用现有检测和分割方法根据激活序列提取动作片段和动作片段置信度,完成检测与切割。
本发明的非对称多流结合方法,通过设计统一的网络,使用双线性连接融合双流数据,将来自于图像流和光流的信息通过神经网络结合。本发明提出的自适应阈值利用先验视频数据计算,可以自动生成阈值,分辨视频中的无效帧,对于单流或多流具有较高鲁棒性。本发明将多流结合和动态阈值方法统一在了同一个框架下,可以使用统一的网络和方法来学习不同来源的先验视频数据,并应用在未知视频上,生成位置视频的动作识别序列。
请参阅图1和图2,步骤(1)中所述神经网络训练具体包括以下步骤:
1)先验数据的收集和处理:确定需要识别的动作列表,收集包含目标动作相关的视频数据,切割收集的原始视频,生成10-30秒的动作片段,使得每个动作片段至少出现一个动作,标记视频片段中出现的动作,标注方式为0,1向量,即长度为总类别数的向量其中包含动作对应的类别为0,非包含动作对应的类别为1;从视频中取样,将动作片段转换为多帧图像信息和光流信息;对动作片段采样,采样的结果包含m帧RGB图像信息和m帧光流信息,采样的数据用于训练单流网络。
2)训练单流网络:训练用于视频分类的卷积神经网络,利用采样的图像信息和光流信息分别训练图像网络和光流网络;单流网络Fb使用卷积神经网络结构,分别输入采样的图像信息和光流信息;网络一次接受m帧图像信息的输入,输出m组分类向量和注意力权重标量其中xt为动作维度维向量,表示了第t帧不同动作发生可能性的置信度,λt表示了第t帧动作得置信度,使用softmax方法对注意力加权输出分类结果,即其中y为对视频包含动作可能性的置信度,对y使用softmax方法归一化;用交叉熵作为损失函数ls,其中ls=∑log(y)l,l为视频标签向量,计算网络权重的梯度,通过梯度下降方法优化神经网络参数,最小化期望误差;获得训练好的单流网络,固定网络权重,迁移网络,提取网络中倒数第二层作为输出,并将其作为需要的单流网络,给定每帧的图像xr或光流xf,网络输出每一帧的图像特征qr,注意力权重λr,光流网络同理,有qr,λr=Fr(xr),qf,λf=Ff(xf)。
3)双流网络的采样:对于训练好的单流网络和先验动作视频,先利用单流网络逐帧抽取特征;对先验视频片段利用单流网络提取特征,获得特征序列从特征序列中取样,取样方式为:先将视频分为7段,每一段中随机取样3份,将3份特征求平均,获得取样后的特征序列最后将视频包含的动作标注在取样的数据上,获得一份训练数据;每次训练的数据都按照以上方法从随机动作片段中生成。
4)训练非对称多流网络:对特征序列Q,对其中包含的每一段的特征qr和qf,非对称多流网络融合并提取多流信息;其中,使用光流特征作为主要数据流,将其他特征作为辅助数据流;辅助信息流由光流特征和图像特征降维并融合而来,其输入为图像流和光流的特征qr和qf,输出为混合特征qm;辅助信息流使用一层或多次全连接层降维,以一层全连接层为例:使用全连接网络降维图像和光流特征,使得其中σ是ReLU非线性函数,Wr和Wf是可学习权重;辅助信息流的融合部分使用拼接、相加或双线性层,其中,以使用双线性神经网络对降维后的特征进行融合为例,融合的辅助信息流特征其中σ为ReLU非线性函数,Wb为双线性网络权重,其中qm为双线性网络的输出;已获得的辅助信息流特征,融合主信息流和辅助信息流,融合方式为相加、拼接或使用双线性网络,其中,主信息流可以不降维,直接使用提取的光流特征;以拼接方法进行融合为例:将辅助信息流特征qm和主信息流特征(提取的光流特征)qf拼接,获得非对称多流网络的特征,输入分类网络;其中分类网络使用一层或多次全连接层,分类网络输出对应帧的多流分类向量xt和多流注意力权重λt,当使用一层全连接层时,以多流分类向量为例,可以写为x=Wm,xqm+Wf,xqf,λ=Wm,λqm+Wf,λqf,其中,可以将Wf,x和Wf,λ初始化为单流光流网络全连接层的权重;给定包含7组特征的训练数据和标签l,利用softmax方法加权分类结果,最小化损失函数;取经过softmax之后的多流分类结果和注意力权重作为输出,即对s使用softmax方法归一化;利用交叉熵误差损失ls,其中ls=∑log();将训练好的非对称双流网络记为网络F,网络接受段特征输入q={qr,qf},输出段分类向量x和注意力权重λ。
5)在训练时统计注意力权重:对特征序列Q,定义自适应阈值比例pth,他代表自适应阈值所对应的分位数(小于1大于0的小数),他的比例一般大于视频中动作出现的比例;对于每个数据集,我们认为存在一个最优阈值比例,它生成的自适应阈值对各种模型均有效;给定视频信息序列和网络F,在上一步训练的每轮迭代时,统计注意力权重序列其中λt为序列中得第t位;对序列K重新排序,使得λi<λj,i<j,其中i,j为排序后的序号,λi,λj为排序后序号i,j对应的元素;取其中序号比例对应注意力权重为该序列的自适应权重,即取排在第[m*pth]位的权重为自适应权重,其中[]代表取整;使用滑动平均值方法求得预收集得先验视频动作的自适应阈值,其中,每处理一组视频序列X,新的自适应阈值观测值同时,历史统计的自适应阈值其初始化为0,令滑动平均比例为γ,有其中,为新的历史自适应阈值统计值,一般设为0.9;取最终的历史自适应阈值统计值作为需要的自适应阈值。
步骤(2)检测目标视频并生成动作识别序列具体包括以下步骤:
1)视频的预处理和取样:对目标视频V,首先逐帧提取图像和光流;每15帧,随机取3帧利用单流网络计算特征,获得视频特征序列对每15帧内的3帧,对特征取平均,获得视频每段的特征序列,使用训练的双流网络提取序列中每段的分类向量和注意力权重,利用段分类向量和注意力权重计算视频分类向量s;
2)生成识别序列:对分类向量序列,注意力权重序列和视频分类向量s,对动作a,若满足sa>0.1,将动作a标记为潜在动作;从每个段分类向量中抽取动作a对应的动作权重获得原始动作识别序列利用统计的自适应阈值,将段注意力权重小于自适应阈值的段对应的动作权重设为0,有
3)对动作识别序列的差值和分割:目标视频指定动作的动作识别序列pa,首先对其进行最近邻插值,使得插值之后的动作识别序列和原始视频呈逐帧对应关系,其中下标表示t最近邻在动作识别序列中对应的序号;使用现有方法分割动作,例如仅取相邻的激活值大于0的片段为动作,向量片段激活值的平均值作为动作片段置信度。
请参阅图4,图4展示了本发明的自适应阈值方法对图像流、光流和混合流的效果,从图中可以看出,不同流的最佳阈值都落在本发明的自适应阈值附近,体现了本发明的自适应阈值方法极佳的准确性和鲁棒性。配合各类已有后处理方法,本发明在两个广泛应用的数据源(Thumos14和ActivityNet1.2)上都取得了最好的成绩。即使使用简单的后处理方法,仅仅取相邻激活段作为动作对象,本发明在高IoU下也取得了极佳的精度。通过上述实验体现出了本发明的高性能和高可靠性。
综上所述,本发明的动作检测方法可用于弱监督视频动作发现和分割。本发明提出了非对称多流结合方法和自适应阈值方法,并与传统的弱监督动作识别方法相结合。本发明的方法提出了非对称多流结合方法,通过设计独特的双流集合网络,利用双线性连接融合双流数据,将来自于图像流和光流的信息通过神经网络结合。本发明的方法提出了自适应阈值利用先验视频数据计算,可以自动生成阈值,分辨视频中的无效帧,对于单流或多流具有较高鲁棒性。本发明将多流结合和动态阈值方法统一在了同一个框架下,可以使用统一的网络和方法来学习不同来源的先验视频数据,并应用在未知视频上,生成动作识别序列。本发明具有高自动化,高鲁棒性的特点,对数据不敏感,可靠性强,适合适用于真实生产环境。
以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员依然可以对本发明的具体实施方式进行修改或者等同替换,这些未脱离本发明精神和范围的任何修改或者等同替换,均在申请待批的本发明的权利要求保护范围之内。
Claims (8)
1.一种基于非对称多流的动作检测方法,其特征在于,包括以下步骤:
步骤1,采集若干已标注视频标签的先验视频,从先验视频的帧信息中提取RGB图像和光流;通过提取的RGB图像并结合视频标签训练卷积神经网络,获得训练好的RGB图像单流网络;通过提取的光流并结合视频标签训练卷积神经网络,获得训练好的光流单流网络;
步骤2,通过步骤1获得的训练好的RGB图像单流网络和光流单流网络,分别提取步骤1采集的先验视频中每帧的图像流特征信息和光流特征信息;
步骤3,根据步骤2提取的图像流特征信息和光流特征信息,并结合动作标签,训练非对称双流网络,最终获得训练好的非对称双流网络;其中,非对称双流网络训练的过程包括:将图像流特征信息和光流特征信息结合作为输入,输出多流分类结果和多流注意力权重,加权多流分类结果获得视频分类向量,最小化非对称双流网络的损失函数;
步骤4,通过步骤1获得的训练好的RGB图像单流网络和光流单流网络,分别提取待检测的目标视频中每帧的图像流特征信息和光流特征信息;
步骤5,根据步骤4提取的图像流特征信息和光流特征信息,获得目标视频的段特征;将目标视频的段特征输入步骤3获得的训练好的非对称双流网络,输出段分类向量和段注意力权重;根据段分类向量和段注意力权重计算获得视频分类向量;
步骤6,从步骤5获得的视频分类向量中选择置信度大于预设值的动作作为潜在动作;其中,对于潜在动作a,从步骤5中获得的段分类向量中抽取潜在动作a的分类权重,获得潜在动作a的动作识别序列;通过潜在动作a的动作识别序列完成动作a的检测;
其中,步骤3的非对称双流网络训练的过程中,图像流和光流信息结合的方式为:将光流特征信息作为主信息流;将图像流特征信息和光流特征信息进行降维与融合后,作为辅助信息流;将主信息流与辅助信息流拼合获得双流特征信息;
步骤3中,非对称双流网络的训练过程包括:
对输入的多流信息非对称降维和融合,所述多流信息包括主信息流和辅助信息流;其中,非对称降维表示不同流信息降维比例不同,融合指使用相加、拼接或神经网络合并特征向量;
使用分类神经网络处理融合了非对称双流信息的特征向量,输出对应输入特征的分类向量x和注意力权重λ;
通过softmax方法对分类向量和注意力权重归一化;通过对来自视频中多个的分类向量和注意力权重进行加权求和,获得视频分类向量。
2.根据权利要求1所述的一种基于非对称多流的动作检测方法,其特征在于,步骤6中还包括:使用阈值将获得的动作识别序列中的误动作剔除,获得剔除误动作后的动作识别序列;对剔除误动作后的动作识别序列进行最近邻插值,获得与目标视频帧数一一对应的激活序列;根据激活序列提取获得动作片段和动作片段置信度。
4.根据权利要求1所述的一种基于非对称多流的动作检测方法,其特征在于,步骤3中,
获得辅助信息流的步骤包括:将输入的光流特征和图像流特征降维,使用全连接或双线性神经网络融合降维的光流特征和特性特征;
另外,辅助信息流降维比例大于主信息流的降维比例;辅助信息流降维比例大于0且小于1/4。
5.根据权利要求1所述的一种基于非对称多流的动作检测方法,其特征在于,非对称双流网络包括:
降维网络,用于对输入特征进行降维;
分类网络,用于输出对应帧的多流分类向量和多流注意力权重;
融合网络,用于融合光流特征和图像流特征,以及用于融合主信息流和辅助信息流;其中,融合方式包括使用双线性网络或相加或向量拼接的方法。
6.根据权利要求5所述的一种基于非对称多流的动作检测方法,其特征在于,非对称双流网络中,
降维网络为一层或多层全连接网络,通过改变全连接网络的输出维度,降级输出向量的维度;
分类网络为一层或多层全连接网络;
融合网络的输入向量和合并向量使用一层或多层全连接层对信息进行转换、增维和降维,用于使融合的信息具有更高非线性性;
其中,双线性网络和全连接层包括归一化函数,对应的双线性或线性变换,以及对应的非线性函数。
7.根据权利要求1所述的一种基于非对称多流的动作检测方法,其特征在于,步骤3中在训练非对称多流网络前还包括:将步骤2获得的图像流特征信息和光流特征信息分段及采样,获得段特征;将视频包含的动作标注在段特征上获得训练数据;
采用降维网络对特征进行降维,获得降维后的图像流特征信息和光流特征信息;其中,对于图像流和光流,降维比例不同;
将降维后或原始的光流特征信息作为主数据流;
将降维后的图像流特征信息和降维后的光流特征信息输入融合网络,融合网络输出双流特征信息;将双流特征信息作为辅助特征流;
将双流特征信息与降维后的光流特征信息拼接获得非对称多流网络的特征信息。
8.根据权利要求1所述的一种基于非对称多流的动作检测方法,其特征在于,步骤1具体包括:
步骤1.1,确定需要识别的动作列表,收集包含目标动作相关的先验视频数据;将先验视频切割成视频频段,标记视频片段中出现的动作;将视频片段转换为图像信息和光流信息,对视频片段采样,获得用于训练单流网络的图像信息和光流信息;其中,每个视频频段至少出现一个动作;
步骤1.2,将步骤1.1采样获得图像信息和光流信息分别输入卷积神经网络,训练获得RGB图像单流网络和单流网络;其中,卷积神经网络的训练过程包括:输出分类向量和注意力权重标量,使用softmax方法对注意力加权输出分类结果;用交叉熵作为损失函数计算权重的梯度,通过梯度下降方法优化神经网络参数,最小化期望误差。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910458481.3A CN110263666B (zh) | 2019-05-29 | 2019-05-29 | 一种基于非对称多流的动作检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910458481.3A CN110263666B (zh) | 2019-05-29 | 2019-05-29 | 一种基于非对称多流的动作检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110263666A CN110263666A (zh) | 2019-09-20 |
CN110263666B true CN110263666B (zh) | 2021-01-19 |
Family
ID=67915829
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910458481.3A Active CN110263666B (zh) | 2019-05-29 | 2019-05-29 | 一种基于非对称多流的动作检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110263666B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110866938B (zh) * | 2019-11-21 | 2021-04-27 | 北京理工大学 | 一种全自动视频运动目标分割方法 |
CN110942037A (zh) * | 2019-11-29 | 2020-03-31 | 河海大学 | 一种用于视频分析中的动作识别方法 |
CN113836969A (zh) * | 2020-06-23 | 2021-12-24 | 山西农业大学 | 一种基于双流的异常事件检测方法 |
CN111914644B (zh) * | 2020-06-30 | 2022-12-09 | 西安交通大学 | 一种基于双模态协同的弱监督时序动作定位方法及系统 |
CN111709410B (zh) * | 2020-08-20 | 2020-12-01 | 深兰人工智能芯片研究院(江苏)有限公司 | 一种强动态视频的行为识别方法 |
CN112489092B (zh) * | 2020-12-09 | 2023-10-31 | 浙江中控技术股份有限公司 | 细粒度工业运动模态分类方法、存储介质、设备和装置 |
CN112464856B (zh) * | 2020-12-09 | 2023-06-13 | 成都华栖云科技有限公司 | 基于人体骨骼关键点的视频流动作检测方法 |
CN112800941B (zh) * | 2021-01-26 | 2023-06-06 | 中科人工智能创新技术研究院(青岛)有限公司 | 基于非对称辅助信息嵌入网络的人脸反欺诈方法及系统 |
CN113298013A (zh) * | 2021-06-08 | 2021-08-24 | Tcl通讯(宁波)有限公司 | 运动动作矫正方法、装置、存储介质及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10089743B1 (en) * | 2017-10-05 | 2018-10-02 | StradVision, Inc. | Method for segmenting an image and device using the same |
CN109190482A (zh) * | 2018-08-06 | 2019-01-11 | 北京奇艺世纪科技有限公司 | 多标签视频分类方法及系统、系统训练方法及装置 |
CN109389055A (zh) * | 2018-09-21 | 2019-02-26 | 西安电子科技大学 | 基于混合卷积和注意力机制的视频分类方法 |
CN109460707A (zh) * | 2018-10-08 | 2019-03-12 | 华南理工大学 | 一种基于深度神经网络的多模态动作识别方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180181864A1 (en) * | 2016-12-27 | 2018-06-28 | Texas Instruments Incorporated | Sparsified Training of Convolutional Neural Networks |
CN109558811B (zh) * | 2018-11-12 | 2023-04-07 | 中山大学 | 一种基于运动前景关注及非监督的关键帧提取的动作识别方法 |
-
2019
- 2019-05-29 CN CN201910458481.3A patent/CN110263666B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10089743B1 (en) * | 2017-10-05 | 2018-10-02 | StradVision, Inc. | Method for segmenting an image and device using the same |
CN109190482A (zh) * | 2018-08-06 | 2019-01-11 | 北京奇艺世纪科技有限公司 | 多标签视频分类方法及系统、系统训练方法及装置 |
CN109389055A (zh) * | 2018-09-21 | 2019-02-26 | 西安电子科技大学 | 基于混合卷积和注意力机制的视频分类方法 |
CN109460707A (zh) * | 2018-10-08 | 2019-03-12 | 华南理工大学 | 一种基于深度神经网络的多模态动作识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110263666A (zh) | 2019-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110263666B (zh) | 一种基于非对称多流的动作检测方法 | |
CN110111366B (zh) | 一种基于多级损失量的端到端光流估计方法 | |
CN110458216B (zh) | 基于条件生成对抗网络的图像风格迁移方法 | |
CN111144376B (zh) | 视频目标检测特征提取方法 | |
JP2019091443A (ja) | オープンセット認識方法と装置及びコンピュータ可読記憶媒体 | |
CN104504366A (zh) | 基于光流特征的笑脸识别系统及方法 | |
CN110827265B (zh) | 基于深度学习的图片异常检测方法 | |
CN112784929B (zh) | 一种基于双元组扩充的小样本图像分类方法及装置 | |
CN108520215B (zh) | 基于多尺度联合特征编码器的单样本人脸识别方法 | |
CN111259735B (zh) | 基于多级预测特征增强卷积神经网络的单人姿态估计方法 | |
CN108898269A (zh) | 基于度量的电力图像环境影响评估方法 | |
CN110880010A (zh) | 基于卷积神经网络的视觉slam闭环检测算法 | |
CN112507778B (zh) | 一种基于线特征的改进词袋模型的回环检测方法 | |
CN112215079B (zh) | 一种全局多阶段目标跟踪方法 | |
CN115511012B (zh) | 一种最大熵约束的类别软标签识别训练方法 | |
CN116206327A (zh) | 一种基于在线知识蒸馏的图像分类方法 | |
CN111696136A (zh) | 一种基于编解码结构的目标跟踪方法 | |
CN115797827A (zh) | 一种基于双流网络架构的ViT的人体行为识别方法 | |
CN115810127A (zh) | 基于监督和自监督联合对比学习的小样本图像分类方法 | |
CN111723852A (zh) | 针对目标检测网络的鲁棒训练方法 | |
CN114821299A (zh) | 一种遥感图像变化检测方法 | |
CN112613474B (zh) | 一种行人重识别的方法和装置 | |
CN113658206A (zh) | 一种植物叶片分割方法 | |
CN113378620A (zh) | 监控视频噪声环境下跨摄像头行人重识别方法 | |
CN112927236A (zh) | 一种基于通道注意力和自监督约束的服装解析方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |