CN107423725A - 一种基于混合时间卷积和循环网络的视频动作分割方法 - Google Patents

一种基于混合时间卷积和循环网络的视频动作分割方法 Download PDF

Info

Publication number
CN107423725A
CN107423725A CN201710686863.2A CN201710686863A CN107423725A CN 107423725 A CN107423725 A CN 107423725A CN 201710686863 A CN201710686863 A CN 201710686863A CN 107423725 A CN107423725 A CN 107423725A
Authority
CN
China
Prior art keywords
mrow
layer
network
decoder
long
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201710686863.2A
Other languages
English (en)
Inventor
夏春秋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Vision Technology Co Ltd
Original Assignee
Shenzhen Vision Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Vision Technology Co Ltd filed Critical Shenzhen Vision Technology Co Ltd
Priority to CN201710686863.2A priority Critical patent/CN107423725A/zh
Publication of CN107423725A publication Critical patent/CN107423725A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明中提出的一种基于混合时间卷积和循环网络的视频动作分割方法,其主要内容包括:模型结构、模型迁移变异和模型参数设置,其过程为,首先设计由卷积层、激活函数和池化层组成的编码器、由上采样层和长短期记忆网络组成的解码器和Sofmax分类器,原始视频帧信号经过编码器的处理得到中间层结果,该结果再作为解码器的输入经过处理后输送到分类器就行视频动作的分割识别与分类。本发明可以处理不同压缩程度的视频信号,提供一个混合时间网络来解决视频动作分割,提高了动作内容识别精度与效率。

Description

一种基于混合时间卷积和循环网络的视频动作分割方法
技术领域
本发明涉及视频分割领域,尤其是涉及了一种基于混合时间卷积和循环网络的视频动作分割方法。
背景技术
视频动作分割与分析,是计算机视觉研究领域中一个重要课题,同时也是了解人类活动的重大进展之一,由此在近年来引起广泛关注。它是一个体现机器学习高阶理解能力的任务,目标在于学习并且确定在视频中进行的人类活动或者动作是哪一类型,具有何种属性。一种成熟并且易于实现的视频动作分割识别方法,将在监控、分析和交互控制三方面发挥潜在巨大应用价值。在监控方面,可在硬件自启动的条件下生成自动监控功能,学习并理解特定区域人群的大范围活动,如地铁、机场、公共广场、游泳池等,主要分析有无异常举动如公共区域恶意歹徒实施袭击前的动作或者不适人群在运动过程中的不正常举动比如溺水。而在分析方面,主要在医疗领域和体育运动领域具有较高研究价值,如分析病人的行为举止可帮助矫正正常的肢体活动、定位并理解运动员的动作如短跑、跳水等项目,可科学延长运动员体育生涯或提高其性能表现。最后在交互控制方面,在新兴工业界引起极大兴趣,如自动驾驶、智能家居、智能办公领域都有迅猛发展的势头。
动作分割至今仍然是一个具有挑战性的问题。由于任务中涉复杂的时空关系、远不止三维空间的信息量、长时间的动作含义难以理解等因素影响,难以针对性地使用网络对未明参数进行求解,同时视频动作的像素不限定、活动范围未定和局部感知区域分辨率未定等硬件条件也会对动作分析带来困难。
本发明提出了一种基于混合时间卷积和长短期记忆网络处理图像特征的新框架。设计由卷积层、激活函数和池化层组成的编码器、由上采样层和长短期记忆网络组成的解码器和Sofmax分类器,原始视频帧信号经过编码器的处理得到中间层结果,该结果再作为解码器的输入经过处理后输送到分类器就行视频动作的分割识别与分类。本发明可以处理不同压缩程度的视频信号,提供一个混合时间网络来解决视频动作分割,提高了动作内容识别精度与效率。
发明内容
针对解决在不同压缩程度视频中提取动作分析的问题,本发明的目的在于提供一种基于混合时间卷积和循环网络的视频动作分割方法,提出了一种基于混合时间卷积和长短期记忆网络处理图像特征的新框架。
为解决上述问题,本发明提供一种基于混合时间卷积和循环网络的视频动作分割方法,其主要内容包括:
(一)模型结构;
(二)模型迁移变异;
(三)模型参数设置。
其中,所述的模型结构,包括网络架构和动作分类。
所述的网络架构,由输入、编码器LE、中间层Lmid、解码器LD和分类器组成:其中,输入层接收原始视频帧数据流信号,经过由卷积层和池化层组成的模块处理后输出中间信号;循环网络接收中间信号作为该层输入,经过由上采样层和长短期记忆网络层组成的模块后输出待分类信号;待分类信号经过最后的Softmax分类器得到输出分类结果;具体地,令Xt表示在时间戳t时的输入向量,视频动作的分类标签分别为真实类(用1表示)和其他类(用0表示),且对于没有预训练的视频帧则标以标签背景类;编码器和解码器都由K层组成,K为超参数,由数据库中视频数据的尺寸和出现频次决定,一般设置为2。
所述的编码器,由一个一维卷积网络、一个非线性激活函数E=f(·)和一个最大值池化层组成:具体地,每一个编码层中卷积滤波器的个数用Fi表示,则滤波器集合为且其对应的偏差向量为由此,当上一层编码层中的池化层输出结果E(i-1)后,当前层的激活值为:
其中,*表示一维卷积运算,同时,E(0)=(X1,...,XT)是指输入视频帧级特征向量集合。
所述的解码器,由一个上采样层和两个长短期记忆网络层组成:具体地,1)输入到解码器的向量为最后一层激活值E(i)经过池化层得到的中间层Lmid结果;2)循环网络中使用隐藏状态的表征h=(h1,h2,...,ht)来将输入向量x=(x1,x,...,xt)映射到输出序列y=(y1,y2,...,yt);3)在长短期记忆网络中,该隐藏状态由以下公式更新:
it=σ(Wxixt+Whiht-1+bi),
ft=σ(Wxfxt+Whfht-1+bf),
ot=σ(Wxoxt+Whoht-1+bo),
gt=tanh(Wxcxt+Whcht-1+bc),
ct=ftct-1+itgt
ht=ot tanh(ct) (2)
其中,σ(·)是sigmoid激活函数,tanh(·)是双曲线正切函数,it、ft、ot、和ct分别是输入门、遗忘门、输出门和记忆单元激活向量。
所述的动作分类,在本网络中,利用已更新的隐藏状态Hi作为每个解码层的输出:具体地,用Hi表示在单层长短期记忆网络中的隐藏状态数目,则每个时间戳上在输出端由于长短期记忆网络的前向与后向运算,该输出端维度为2Hi,因此到最后一层的解码层的输出时,得到一个2HK维度的向量Dt;最后,利用跨时间段连接的Softmax分类器来计算在每个时间戳t上选取一个状态c作为该视频帧的动作分类的概率:
其中,是c类在时间t上的输出概率向量,Dt是解码器在时间t上的输出值,Wd是权重矩阵,bd是偏置项。
所述的模型迁移变异,为适应不同特点的视频帧输入数据流,基于本网络作相应的改动,分别为一般模型和变异模型。
所述的一般模型,对每一层编码器使用混合时间卷积核,对每一层解码器使用双层长短期记忆网络;具体地,是使用不同的混合时间卷积核对局部动作变化编码,使用不同的长短期记忆网络对序列解码并从中学习不同层次的长期动作依赖集。
所述的变异模型,对不同的视频帧数据流,分别生成两种网络,具体为:1)高阶网络,仅对中间层Lmid使用长短期记忆网络,但同时对编码器和解码器使用混合时间卷积核,此网络用于对抽象级特征建模,尤其是视频信息高度压缩且标签信息并不明确时使用;2)低阶网络,仅对解码器的最后一层使用长短期记忆网络,但对编码器所有层和解码器除最后一层外所有层都是用混合时间卷积核,此网络用于低阶信息处理,尤其是信息较低程度被压缩时使用。
所述的模型参数设置,在编码器阶段,最大值池化层的宽度设置为2,其中每一层使用(32+32i)个卷积滤波器;在解码器阶段,上采样层操作为将原有数据重复两遍,每个长短期记忆网络层的隐藏状态数设置为2Hi;最后,使用正则化修正线性单元作为所有混合时间卷积层的激活函数,具体为:
其中,∈=10-5
附图说明
图1是本发明一种基于混合时间卷积和循环网络的视频动作分割方法的系统流程图。
图2是本发明一种基于混合时间卷积和循环网络的视频动作分割方法的分析结果比较图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本发明作进一步详细说明。
图1是本发明一种基于混合时间卷积和循环网络的视频动作分割方法的系统流程图。主要包括数据输入;模型结构;模型迁移变异;模型参数设置。
其中,模型结构,包括网络架构和动作分类。
网络架构,由输入、编码器LE、中间层Lmid、解码器LD和分类器组成:其中,输入层接收原始视频帧数据流信号,经过由卷积层和池化层组成的模块处理后输出中间信号;循环网络接收中间信号作为该层输入,经过由上采样层和长短期记忆网络层组成的模块后输出待分类信号;待分类信号经过最后的Softmax分类器得到输出分类结果;具体地,令Xt表示在时间戳t时的输入向量,视频动作的分类标签分别为真实类(用1表示)和其他类(用0表示),且对于没有预训练的视频帧则标以标签背景类;编码器和解码器都由K层组成,K为超参数,由数据库中视频数据的尺寸和出现频次决定,一般设置为2。
编码器,由一个一维卷积网络、一个非线性激活函数E=f(·)和一个最大值池化层组成:具体地,每一个编码层中卷积滤波器的个数用Fi表示,则滤波器集合为且其对应的偏差向量为由此,当上一层编码层中的池化层输出结果E(i-1)后,当前层的激活值为:
其中,*表示一维卷积运算,同时,E(0)=(X1,…,XT)是指输入视频帧级特征向量集合。
解码器,由一个上采样层和两个长短期记忆网络层组成:具体地,1)输入到解码器的向量为最后一层激活值E(i)经过池化层得到的中间层Lmid结果;2)循环网络中使用隐藏状态的表征h=(h1,h2,…,ht)来将输入向量x=(x1,x,…,xt)映射到输出序列y=(y1,y2,…,yt);3)在长短期记忆网络中,该隐藏状态由以下公式更新:
it=σ(Wxixt+Whiht-1+bi),
ft=σ(Wxfxt+Whfht-1+bf),
ot=σ(Wxoxt+Whoht-1+bo),
gt=tanh(Wxcxt+Whcht-1+bc),
ct=ftct-1+itgt
ht=ot tanh(ct) (2)
其中,σ(·)是sigmoid激活函数,tanh(·)是双曲线正切函数,it、ft、ot、和ct分别是输入门、遗忘门、输出门和记忆单元激活向量。
动作分类,在本网络中,利用已更新的隐藏状态Hi作为每个解码层的输出:具体地,用Hi表示在单层长短期记忆网络中的隐藏状态数目,则每个时间戳上在输出端由于长短期记忆网络的前向与后向运算,该输出端维度为2Hi,因此到最后一层的解码层的输出时,得到一个2HK维度的向量Dt;最后,利用跨时间段连接的Softmax分类器来计算在每个时间戳t上选取一个状态c作为该视频帧的动作分类的概率:
其中,是c类在时间t上的输出概率向量,Dt是解码器在时间t上的输出值,Wd是权重矩阵,bd是偏置项。
模型迁移变异,为适应不同特点的视频帧输入数据流,基于本网络作相应的改动,分别为一般模型和变异模型。
一般模型,对每一层编码器使用混合时间卷积核,对每一层解码器使用双层长短期记忆网络;具体地,是使用不同的混合时间卷积核对局部动作变化编码,使用不同的长短期记忆网络对序列解码并从中学习不同层次的长期动作依赖集。
变异模型,对不同的视频帧数据流,分别生成两种网络,具体为:1)高阶网络,仅对中间层Lmid使用长短期记忆网络,但同时对编码器和解码器使用混合时间卷积核,此网络用于对抽象级特征建模,尤其是视频信息高度压缩且标签信息并不明确时使用;2)低阶网络,仅对解码器的最后一层使用长短期记忆网络,但对编码器所有层和解码器除最后一层外所有层都是用混合时间卷积核,此网络用于低阶信息处理,尤其是信息较低程度被压缩时使用。
模型参数设置,在编码器阶段,最大值池化层的宽度设置为2,其中每一层使用(32+32i)个卷积滤波器;在解码器阶段,上采样层操作为将原有数据重复两遍,每个长短期记忆网络层的隐藏状态数设置为2Hi;最后,使用正则化修正线性单元作为所有混合时间卷积层的激活函数,具体为:
其中,∈=10-5
图2是本发明一种基于混合时间卷积和循环网络的视频动作分割方法的分析结果比较图。如图所示,可以观察到在削黄瓜并且把黄瓜放进碗里的两个动作中,业界最好的方法时间卷积网络都判断错误,只有本文的方法判断准确,并且在整段视频动作分析的正确率中,本文方法也是比其他方法要提高10个百分点以上。
对于本领域技术人员,本发明不限制于上述实施例的细节,在不背离本发明的精神和范围的情况下,能够以其他具体形式实现本发明。此外,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围,这些改进和变型也应视为本发明的保护范围。因此,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims (10)

1.一种基于混合时间卷积和循环网络的视频动作分割方法,其特征在于,主要包括模型结构(一);模型迁移变异(二);模型参数设置(三)。
2.基于权利要求书1所述的模型结构(一),其特征在于,包括网络架构和动作分类。
3.基于权利要求书2所述的网络架构,其特征在于,由输入、编码器LE、中间层Lmid、解码器LD和分类器组成:其中,输入层接收原始视频帧数据流信号,经过由卷积层和池化层组成的模块处理后输出中间信号;循环网络接收中间信号作为该层输入,经过由上采样层和长短期记忆网络层组成的模块后输出待分类信号;待分类信号经过最后的Softmax分类器得到输出分类结果;具体地,令Xt表示在时间戳t时的输入向量,视频动作的分类标签分别为真实类(用1表示)和其他类(用0表示),且对于没有预训练的视频帧则标以标签背景类;编码器和解码器都由K层组成,K为超参数,由数据库中视频数据的尺寸和出现频次决定,一般设置为2。
4.基于权利要求书3所述的编码器,其特征在于,由一个一维卷积网络、一个非线性激活函数E=f(·)和一个最大值池化层组成:具体地,每一个编码层中卷积滤波器的个数用Fi表示,则滤波器集合为且其对应的偏差向量为由此,当上一层编码层中的池化层输出结果E(i-1)后,当前层的激活值为:
<mrow> <msup> <mi>E</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>=</mo> <mi>f</mi> <mrow> <mo>(</mo> <msubsup> <mi>W</mi> <mi>E</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msubsup> <mo>*</mo> <msup> <mi>E</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> </msup> <mo>+</mo> <msubsup> <mi>b</mi> <mi>E</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msubsup> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>
其中,*表示一维卷积运算,同时,E(0)=(X1,…,XT)是指输入视频帧级特征向量集合。
5.基于权利要求书3所述的解码器,其特征在于,由一个上采样层和两个长短期记忆网络层组成:具体地,1)输入到解码器的向量为最后一层激活值E(i)经过池化层得到的中间层Lmid结果;2)循环网络中使用隐藏状态的表征h=(h1,h2,…,ht)来将输入向量x=(x1,x,…,xt)映射到输出序列y=(y1,y2,…,yt);3)在长短期记忆网络中,该隐藏状态由以下公式更新:
it=σ(Wxixt+Whiht-1+bi),
ft=σ(Wxfxt+Whfht-1+bf),
ot=σ(Wxoxt+Whoht-1+bo),
gt=tanh(Wxcxt+Whcht-1+bc),
ct=ftct-1+itgt,
ht=ottanh(ct) (2)
其中,σ(·)是sigmoid激活函数,tanh(·)是双曲线正切函数,it、ft、ot、和ct分别是输入门、遗忘门、输出门和记忆单元激活向量。
6.基于权利要求书2所述的动作分类,其特征在于,在本网络中,利用已更新的隐藏状态Hi作为每个解码层的输出:具体地,用Hi表示在单层长短期记忆网络中的隐藏状态数目,则每个时间戳上在输出端由于长短期记忆网络的前向与后向运算,该输出端维度为2Hi,因此到最后一层的解码层的输出时,得到一个2HK维度的向量Dt;最后,利用跨时间段连接的Softmax分类器来计算在每个时间戳t上选取一个状态c作为该视频帧的动作分类的概率:
<mrow> <msub> <mover> <mi>Y</mi> <mo>^</mo> </mover> <mi>t</mi> </msub> <mo>=</mo> <mi>s</mi> <mi>o</mi> <mi>f</mi> <mi>t</mi> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mrow> <mo>(</mo> <msub> <mi>W</mi> <mi>d</mi> </msub> <msub> <mi>D</mi> <mi>t</mi> </msub> <mo>+</mo> <msub> <mi>b</mi> <mi>d</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>
其中,是c类在时间t上的输出概率向量,Dt是解码器在时间t上的输出值,Wd是权重矩阵,bd是偏置项。
7.基于权利要求书的1所述的模型迁移变异(一),其特征在于,为适应不同特点的视频帧输入数据流,基于本网络作相应的改动,分别为一般模型和变异模型。
8.基于权利要求书7所述的一般模型,其特征在于,对每一层编码器使用混合时间卷积核,对每一层解码器使用双层长短期记忆网络;具体地,是使用不同的混合时间卷积核对局部动作变化编码,使用不同的长短期记忆网络对序列解码并从中学习不同层次的长期动作依赖集。
9.基于权利要求书7所述的变异模型,其特征在于,对不同的视频帧数据流,分别生成两种网络,具体为:1)高阶网络,仅对中间层Lmid使用长短期记忆网络,但同时对编码器和解码器使用混合时间卷积核,此网络用于对抽象级特征建模,尤其是视频信息高度压缩且标签信息并不明确时使用;2)低阶网络,仅对解码器的最后一层使用长短期记忆网络,但对编码器所有层和解码器除最后一层外所有层都是用混合时间卷积核,此网络用于低阶信息处理,尤其是信息较低程度被压缩时使用。
10.基于权利要求书1所述的模型参数设置(三),其特征在于,在编码器阶段,最大值池化层的宽度设置为2,其中每一层使用(32+32i)个卷积滤波器;在解码器阶段,上采样层操作为将原有数据重复两遍,每个长短期记忆网络层的隐藏状态数设置为2Hi;最后,使用正则化修正线性单元作为所有混合时间卷积层的激活函数,具体为:
<mrow> <mi>N</mi> <mi>o</mi> <mi>r</mi> <mi>m</mi> <mo>.</mo> <mi>Re</mi> <mi>L</mi> <mi>U</mi> <mrow> <mo>(</mo> <mo>&amp;CenterDot;</mo> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>Re</mi> <mi>L</mi> <mi>U</mi> <mrow> <mo>(</mo> <mo>&amp;CenterDot;</mo> <mo>)</mo> </mrow> </mrow> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mrow> <mo>(</mo> <mi>Re</mi> <mi>L</mi> <mi>U</mi> <mo>(</mo> <mo>&amp;CenterDot;</mo> <mo>)</mo> <mo>)</mo> </mrow> <mo>+</mo> <mo>&amp;Element;</mo> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>
其中,∈=10-5
CN201710686863.2A 2017-08-11 2017-08-11 一种基于混合时间卷积和循环网络的视频动作分割方法 Withdrawn CN107423725A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710686863.2A CN107423725A (zh) 2017-08-11 2017-08-11 一种基于混合时间卷积和循环网络的视频动作分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710686863.2A CN107423725A (zh) 2017-08-11 2017-08-11 一种基于混合时间卷积和循环网络的视频动作分割方法

Publications (1)

Publication Number Publication Date
CN107423725A true CN107423725A (zh) 2017-12-01

Family

ID=60437949

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710686863.2A Withdrawn CN107423725A (zh) 2017-08-11 2017-08-11 一种基于混合时间卷积和循环网络的视频动作分割方法

Country Status (1)

Country Link
CN (1) CN107423725A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108288032A (zh) * 2018-01-08 2018-07-17 深圳市腾讯计算机系统有限公司 动作特征获取方法、装置及存储介质
CN108629768A (zh) * 2018-04-29 2018-10-09 山东省计算中心(国家超级计算济南中心) 一种食管病理图像中上皮组织的分割方法
CN109189989A (zh) * 2018-07-23 2019-01-11 北京市商汤科技开发有限公司 一种视频描述方法及装置、计算机设备和存储介质
CN110232412A (zh) * 2019-05-30 2019-09-13 清华大学 一种基于多模态深度学习的人体步态预测方法
CN111246217A (zh) * 2020-01-19 2020-06-05 中国石油大学(华东) 基于八度卷积的压缩视频动作识别方法
CN111259919A (zh) * 2018-11-30 2020-06-09 杭州海康威视数字技术股份有限公司 一种视频分类方法、装置及设备、存储介质
CN112106073A (zh) * 2018-05-09 2020-12-18 渊慧科技有限公司 使用网格代码执行导航任务
CN112528780A (zh) * 2019-12-06 2021-03-19 百度(美国)有限责任公司 通过混合时域自适应的视频动作分割

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LI DING等: "TricorNet: A Hybrid Temporal Convolutional and Recurrent Network for Video Action Segmentation", 《网页在线公开:HTTPS://ARXIV.ORG/ABS/1705.07818V1》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108288032A (zh) * 2018-01-08 2018-07-17 深圳市腾讯计算机系统有限公司 动作特征获取方法、装置及存储介质
CN108629768A (zh) * 2018-04-29 2018-10-09 山东省计算中心(国家超级计算济南中心) 一种食管病理图像中上皮组织的分割方法
CN108629768B (zh) * 2018-04-29 2022-01-21 山东省计算中心(国家超级计算济南中心) 一种食管病理图像中上皮组织的分割方法
CN112106073A (zh) * 2018-05-09 2020-12-18 渊慧科技有限公司 使用网格代码执行导航任务
CN109189989B (zh) * 2018-07-23 2020-11-03 北京市商汤科技开发有限公司 一种视频描述方法及装置、计算机设备和存储介质
CN109189989A (zh) * 2018-07-23 2019-01-11 北京市商汤科技开发有限公司 一种视频描述方法及装置、计算机设备和存储介质
CN111259919A (zh) * 2018-11-30 2020-06-09 杭州海康威视数字技术股份有限公司 一种视频分类方法、装置及设备、存储介质
CN111259919B (zh) * 2018-11-30 2024-01-23 杭州海康威视数字技术股份有限公司 一种视频分类方法、装置及设备、存储介质
CN110232412A (zh) * 2019-05-30 2019-09-13 清华大学 一种基于多模态深度学习的人体步态预测方法
CN112528780A (zh) * 2019-12-06 2021-03-19 百度(美国)有限责任公司 通过混合时域自适应的视频动作分割
CN112528780B (zh) * 2019-12-06 2023-11-21 百度(美国)有限责任公司 通过混合时域自适应的视频动作分割
CN111246217A (zh) * 2020-01-19 2020-06-05 中国石油大学(华东) 基于八度卷积的压缩视频动作识别方法
CN111246217B (zh) * 2020-01-19 2022-02-01 中国石油大学(华东) 基于八度卷积的压缩视频动作识别方法

Similar Documents

Publication Publication Date Title
CN107423725A (zh) 一种基于混合时间卷积和循环网络的视频动作分割方法
US10503978B2 (en) Spatio-temporal interaction network for learning object interactions
CN110059772B (zh) 基于多尺度解码网络的遥感图像语义分割方法
US11657230B2 (en) Referring image segmentation
Wang et al. Designing deep networks for surface normal estimation
CN110309732B (zh) 基于骨架视频的行为识别方法
Ding et al. Tricornet: A hybrid temporal convolutional and recurrent network for video action segmentation
CN104268594B (zh) 一种视频异常事件检测方法及装置
CN110084228A (zh) 一种基于双流卷积神经网络的危险行为自动识别方法
CN104281853A (zh) 一种基于3d卷积神经网络的行为识别方法
CN107330357A (zh) 基于深度神经网络的视觉slam闭环检测方法
CN106845471A (zh) 一种基于生成对抗网络的视觉显著性预测方法
CN110378208B (zh) 一种基于深度残差网络的行为识别方法
Gao et al. Prediff: Precipitation nowcasting with latent diffusion models
CN109117774B (zh) 一种基于稀疏编码的多视角视频异常检测方法
CN103854014A (zh) 一种基于上下文稀疏表示的恐怖视频识别方法及装置
CN109348211A (zh) 一种视频帧内帧间编码的通用信息隐藏检测方法
CN112801068B (zh) 一种视频多目标跟踪与分割系统和方法
CN110827265A (zh) 基于深度学习的图片异常检测方法
CN107506792A (zh) 一种半监督的显著对象检测方法
CN111626296B (zh) 基于深度神经网络的医学图像分割系统及方法、终端
Dastbaravardeh et al. Channel Attention‐Based Approach with Autoencoder Network for Human Action Recognition in Low‐Resolution Frames
Yi et al. Steel Strip Defect Sample Generation Method Based on Fusible Feature GAN Model under Few Samples
Wang et al. Anomaly detection with dual-stream memory network
EP4318409A1 (en) Method for video-based patch-wise vector quantized autoencoder codebook learning for video anomaly detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20171201