CN106815579A - 一种基于多区域双流卷积神经网络模型的动作检测方法 - Google Patents

一种基于多区域双流卷积神经网络模型的动作检测方法 Download PDF

Info

Publication number
CN106815579A
CN106815579A CN201710053337.2A CN201710053337A CN106815579A CN 106815579 A CN106815579 A CN 106815579A CN 201710053337 A CN201710053337 A CN 201710053337A CN 106815579 A CN106815579 A CN 106815579A
Authority
CN
China
Prior art keywords
cnn
region
multizone
frame
double fluid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201710053337.2A
Other languages
English (en)
Inventor
夏春秋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Vision Technology Co Ltd
Original Assignee
Shenzhen Vision Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Vision Technology Co Ltd filed Critical Shenzhen Vision Technology Co Ltd
Priority to CN201710053337.2A priority Critical patent/CN106815579A/zh
Publication of CN106815579A publication Critical patent/CN106815579A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明中提出的一种基于多区域双流卷积神经网络模型的动作检测方法,其主要内容包括:端到端双流更快基于区域的卷积神经网络(R‑CNN)、多区域双流更快R‑CNN、连接和时间定位,其过程为,双流更快R‑CNN采用RGB帧和若干光流图,使用卷积和最大池层来处理,卷积层馈送到域建议网络和兴趣区域池层;多区域双流更快R‑CNN在区域建议网络和RoI池层间嵌入多区域生成层;应用链接和最大子阵列算法的时域定位,计算动作所有链接分数后确定最优路径获得视频级动作检测。本发明多个帧上叠加光流可显著提高帧级动作检测;在快R‑CNN模型增加对身体的各部分的补充信息;能够去除背景杂波,减小光照、遮挡的影响,提高检测效率。

Description

一种基于多区域双流卷积神经网络模型的动作检测方法
技术领域
本发明涉及动作检测领域,尤其是涉及了一种基于多区域双流卷积神经网络模型的动作检测方法。
背景技术
随着科技水平的逐步提高,动作检测领域的发展越来越受到关注。视频中的动作的检测识别具有广泛的应用,例如监视,人机交互和基于内容的检索。在工业、医疗、军事和生活等,也需要用到人体动作检测装置来进行模拟训练。在动作检测领域中,帧级动作检测的质量直接影响视频中的动作检测的质量,光照、遮挡等对检测也会产生影响,因此,消除无关影响,提高动作检测的质量至关重要。
本发明提出了一种基于多区域双流卷积神经网络模型的动作检测方法,本文提出的双流更快R-CNN采用RGB帧和若干光流图,使用几个卷积和最大池层来处理,最后卷积层被馈送到域建议网络和兴趣区域(RoI)池层;多区域双流更快R-CNN通过在区域建议网络和RoI池层之间嵌入多区域生成层而建立在双流更快R-CNN上;应用链接和基于最大子阵列算法的时域定位,在计算动作的所有链接分数之后确定最优路径来获得视频级动作检测。本发明中多个帧上叠加光流可以显著提高帧级动作检测;而且在快R-CNN模型,增加了对身体的各部分的补充信息;还能够去除背景杂波,减小了光照、遮挡等对检测的影响,提高了检测效率。
发明内容
针对光照、遮挡等对检测会产生影响的问题,本发明的目的在于提供一种基于多区域双流卷积神经网络模型的动作检测方法,本文提出的双流更快R-CNN采用RGB帧和若干光流图,使用几个卷积和最大池层来处理,最后卷积层被馈送到域建议网络和兴趣区域(RoI)池层;多区域双流更快R-CNN通过在区域建议网络和RoI池层之间嵌入多区域生成层而建立在双流更快R-CNN上;应用链接和基于最大子阵列算法的时域定位,在计算动作的所有链接分数之后确定最优路径来获得视频级动作检测。
为解决上述问题,本发明提供一种基于多区域双流卷积神经网络模型的动作检测方法,其主要内容包括:
(一)端到端双流更快基于区域的卷积神经网络(R-CNN);
(二)多区域双流更快基于区域的卷积神经网络(R-CNN);
(三)连接和时间定位。
其中,所述的多区域双流R-CNN模型的动作检测,充分利用了三种最新方法,即更快R-CNN,具有光流叠加的双流CNN和多区域CNN。
其中,所述的动作检测方法,动作检测是基于帧级的,包括帧级动作建议和动作表示;提出双流CNN的动作分类和多区域CNNs的动作表示,堆叠多帧光流用于更快的R-CNN模型,显著地改善了运动R-CNN;为外观和运动R-CNN选择多个身体区域(即上身,下身和边界区域),提高了基于帧的动作检测性能。
其中,所述的端到端双流更快基于区域的卷积神经网络(R-CNN),包括训练和测试、评估动作建议;双流更快R-CNN(TS R-CNN)采用RGB帧ft和为帧ft及其相邻帧提取的若干光流图(在时间t之前取得一半帧,之后取其一半),网络使用几个卷积和最大池层来处理,独立于外观和运动流;对于每个流,最后的卷积层被馈送到外观或运动区域建议网络和兴趣区域(RoI)池层。
进一步地,所述的ROI融合层,合并了外观和运动区域建议网络(RPN)建议;外观和运动感兴趣区域汇聚层分别采用H×W网格,把所有的RoI进行最大化池;每个流的定长,这些特征向量送入序列的全连接层,最后分为Softmax层和包围盒的回归;两个流的最终检测结果通过结合Softmax分数获得最佳性能。
进一步地,所述的训练和测试,分别训练每个双流更快R-CNN;对于两个流,重新调整在ImageNet数据集上预训练的VGG-16模型;通过堆叠x分量,y分量和流的幅度,将一帧光流数据变换成三通道图像;在多个光流图的情况下,其中输入通道号与VGG-16网的不同,多次复制第一层的VGG-16滤波器;使用中间框架的地面实况边界框进行训练;
为了测试,通过添加RoI融合层,将学习的外观和运动R-CNN模型结合到一个模型中,然后将帧流对放到端对端模型中,并将来自两个流的Softmax分数平均为最终动作区域检测分数;边界框回归被应用于每个流相应的RoI,这些框连接最后检测结果。
进一步地,所述的评估动作建议,选择性搜索(SS)通过使用具有来自颜色、纹理和框大小的特征自下而上分组方案来生成区域;保持默认设置并获得2000个建议;基于完全包含在边界框中的轮廓的数量指示对象的观察来获得边框(EB);
RPN方法首先为每个具有多个比例和比例的像素生成几个锚定框,然后使用学习的特征对其进行评分和回归;对于训练RPN,对于与地面实况框具有高IoU重叠的锚获得正的物体标签;保留RPN的300个建议,并使用具有600像素的固定最小边的一个尺度。
其中,所述的多区域双流更快基于区域的卷积神经网络(R-CNN),多区域双流更快基于区域的卷积神经网络(MR-TS R-CNN)架构,通过在RPN和RoI池层之间嵌入多区域生成层而建立在双流更快R-CNN上;给定来自外观RPN和运动RPN的建议,多区域层为每个RPN建议生成4个RoI;
原始区域是原始RPN建议;沿着该通道的网络被引导以捕获整个动作区域;网络与TS R-CNN完全相同;边界框回归仅适用于此通道;“上半部”和“下半部”区域是RPN建议的上半部和下半部;由于在动作视频中大多是对称的垂直结构的身体部位,只使用上/下半部分区;基于这些部分的网络不仅是鲁棒性,而且对于身体部位特征占优势的动作类别也更具辨别性;
“边界”区域是原始建议周围的矩形环,给定一个RPN建议,通过将建议缩放0.8倍,外框按1.5倍生成边框区域的内框,对于外观流,沿着该通道的网络预期共同捕获人类和附近物体的外观边界,这可能有助于动作识别;对于运动流,该通道具有高概率聚焦。
进一步地,所述的训练,为了训练其他区域的双流网络,对每个区域分别调整原始区域的网络;特别地,仅调整完全连接的层,x所有卷积层以及RPN,以确保所有区域网络共享相同的建议;关于“边界”区域两流网络,引入了一个掩模支持的RoI池层,将内部框中的激活设置为零;在训练区域网络之后,通过进一步训练,基于多区域两流网络的Softmax层的另一个Softmax层,多区域R-CNN共享所有的转换层。
其中,所述的连接和时间定位,为了实现视频级检测,应用链接和基于最大子阵列算法的时域定位;
给定两个区域Rt和Rt+1连续帧t和t+1,定义的链接分数为一个动作类c
sc(Rt,Rt+1)={sc(Rt)+sc(Rt+1)+βov(Rt,Rt+1)·ψ(ov)} (1)
其中,sc(Ri)是Ri区域的等级分数,ov这两个区域的重叠,β是一个标量,ψ(ov)是一个定义的阈值函数如果ov大于τ,则ψ(ov)=1,否则ψ(ov)=0;
在计算动作的所有链接分数之后,通过使用维特比算法迭代地确定最优路径来获得视频级动作检测;通过得到视频级别的行动检测
为了确定视频轨道内的动作检测的时间范围,应用具有多个时间尺度和步长的滑动窗口方法;依赖一个有效的最大子阵列方法:
给定一个视频电平检测目标是找到一个检测帧s到帧e,满足以下目标,
其中,L(s,e)是磁道长度和Lc是训练集上c类的平均持续时间;通过以下三个步骤近似地解决这个目标:
1)通过使用Kadane的算法从所有帧级动作分数减去视频长度动作分数
2)减去的数组的最大子阵列;
3)将最佳范围扩展或缩短至Lc
对于每个视频长度动作检测,只保持最佳程度作为时空检测;注意,三个步骤启发式是公式(2)的近似,并且步骤3)将从步骤2)的最佳管的长度设置为平均长度,以避免退化解。
附图说明
图1是本发明一种基于多区域双流卷积神经网络模型的动作检测方法的系统流程图。
图2是本发明一种基于多区域双流卷积神经网络模型的动作检测方法的端到端双流更快基于区域的卷积神经网络。
图3是本发明一种基于多区域双流卷积神经网络模型的动作检测方法的多区域双流更快基于区域的卷积神经网络。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本发明作进一步详细说明。
图1是本发明一种基于多区域双流卷积神经网络模型的动作检测方法的系统流程图。主要包括包括:端到端双流更快基于区域的卷积神经网络、多区域双流更快基于区域的卷积神经网络、连接和时间定位。
其中,多区域双流R-CNN模型的动作检测,充分利用了三种最新方法,即更快R-CNN,具有光流叠加的双流CNN和多区域CNN。
其中,动作检测方法,动作检测是基于帧级的,包括帧级动作建议和动作表示;提出双流CNN的动作分类和多区域CNNs的动作表示,堆叠多帧光流用于更快的R-CNN模型,显著地改善了运动R-CNN;为外观和运动R-CNN选择多个身体区域(即上身,下身和边界区域),提高了基于帧的动作检测性能。
其中,连接和时间定位,为了实现视频级检测,应用链接和基于最大子阵列算法的时域定位;
给定两个区域Rt和Rt+1连续帧t和t+1,定义的链接分数为一个动作类c
sc(Rt,Rt+1)={sc(Rt)+sc(Rt+1)+βov(Rt,Rt+1)·ψ(ov)} (1)
其中,sc(Ri)是Ri区域的等级分数,ov这两个区域的重叠,β是一个标量,ψ(ov)是一个定义的阈值函数如果ov大于τ,则ψ(ov)=1,否则ψ(ov)=0;
在计算动作的所有链接分数之后,通过使用维特比算法迭代地确定最优路径来获得视频级动作检测;通过得到视频级别的行动检测
为了确定视频轨道内的动作检测的时间范围,应用具有多个时间尺度和步长的滑动窗口方法;依赖一个有效的最大子阵列方法:
给定一个视频电平检测目标是找到一个检测帧s到帧e,满足以下目标,
其中,L(s,e)是磁道长度和Lc是训练集上c类的平均持续时间;通过以下三个步骤近似地解决这个目标:
1)通过使用Kadane的算法从所有帧级动作分数减去视频长度动作分数
2)减去的数组的最大子阵列;
3)将最佳范围扩展或缩短至Lc
对于每个视频长度动作检测,只保持最佳程度作为时空检测;注意,三个步骤启发式是公式(2)的近似,并且步骤3)将从步骤2)的最佳管的长度设置为平均长度,以避免退化解。
图2是本发明一种基于多区域双流卷积神经网络模型的动作检测方法的端到端双流更快基于区域的卷积神经网络。包括训练和测试、评估动作建议;双流更快R-CNN(TS R-CNN)采用RGB帧ft和为帧ft及其相邻帧提取的若干光流图(在时间t之前取得一半帧,之后取其一半),网络使用几个卷积和最大池层来处理,独立于外观和运动流;对于每个流,最后的卷积层被馈送到外观或运动区域建议网络和兴趣区域(RoI)池层。
ROI融合层合并了外观和运动区域建议网络(RPN)建议;外观和运动感兴趣区域汇聚层分别采用H×W网格,把所有的RoI进行最大化池;每个流的定长,这些特征向量送入序列的全连接层,最后分为Softmax层和包围盒的回归;两个流的最终检测结果通过结合Softmax分数获得最佳性能。
进一步地,训练和测试,分别训练每个双流更快R-CNN;对于两个流,重新调整在ImageNet数据集上预训练的VGG-16模型;通过堆叠x分量,y分量和流的幅度,将一帧光流数据变换成三通道图像;在多个光流图的情况下,其中输入通道号与VGG-16网的不同,多次复制第一层的VGG-16滤波器;使用中间框架的地面实况边界框进行训练;
为了测试,通过添加RoI融合层,将学习的外观和运动R-CNN模型结合到一个模型中,然后将帧流对放到端对端模型中,并将来自两个流的Softmax分数平均为最终动作区域检测分数;边界框回归被应用于每个流相应的RoI,这些框连接最后检测结果。
进一步地,评估动作建议,选择性搜索(SS)通过使用具有来自颜色、纹理和框大小的特征自下而上分组方案来生成区域;保持默认设置并获得2000个建议;基于完全包含在边界框中的轮廓的数量指示对象的观察来获得边框(EB);
RPN方法首先为每个具有多个比例和比例的像素生成几个锚定框,然后使用学习的特征对其进行评分和回归;对于训练RPN,对于与地面实况框具有高IoU重叠的锚获得正的物体标签;保留RPN的300个建议,并使用具有600像素的固定最小边的一个尺度。
图3是本发明一种基于多区域双流卷积神经网络模型的动作检测方法的多区域双流更快基于区域的卷积神经网络。多区域双流更快基于区域的卷积神经网络(MR-TS R-CNN)架构,通过在RPN和RoI池层之间嵌入多区域生成层而建立在双流更快R-CNN上;给定来自外观RPN和运动RPN的建议,多区域层为每个RPN建议生成4个RoI;
原始区域是原始RPN建议;沿着该通道的网络被引导以捕获整个动作区域;网络与TS R-CNN完全相同;边界框回归仅适用于此通道;“上半部”和“下半部”区域是RPN建议的上半部和下半部;由于在动作视频中大多是对称的垂直结构的身体部位,只使用上/下半部分区;基于这些部分的网络不仅是鲁棒性,而且对于身体部位特征占优势的动作类别也更具辨别性;
“边界”区域是原始建议周围的矩形环,给定一个RPN建议,通过将建议缩放0.8倍,外框按1.5倍生成边框区域的内框,对于外观流,沿着该通道的网络预期共同捕获人类和附近物体的外观边界,这可能有助于动作识别;对于运动流,该通道具有高概率聚焦。
进一步地,训练,为了训练其他区域的双流网络,对每个区域分别调整原始区域的网络;特别地,仅调整完全连接的层,x所有卷积层以及RPN,以确保所有区域网络共享相同的建议;关于“边界”区域两流网络,引入了一个掩模支持的RoI池层,将内部框中的激活设置为零;在训练区域网络之后,通过进一步训练,基于多区域两流网络的Softmax层的另一个Softmax层,多区域R-CNN共享所有的转换层。
对于本领域技术人员,本发明不限制于上述实施例的细节,在不背离本发明的精神和范围的情况下,能够以其他具体形式实现本发明。此外,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围,这些改进和变型也应视为本发明的保护范围。因此,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims (10)

1.一种基于多区域双流卷积神经网络模型的动作检测方法,其特征在于,主要包括端到端双流更快基于区域的卷积神经网络(R-CNN)(一);多区域双流更快基于区域的卷积神经网络(R-CNN)(二);连接和时间定位(三)。
2.基于权利要求书1所述的多区域双流R-CNN模型的动作检测,其特征在于,充分利用了三种最新方法,即更快R-CNN,具有光流叠加的双流CNN和多区域CNN。
3.基于权利要求书1所述的动作检测方法,其特征在于,动作检测是基于帧级的,包括帧级动作建议和动作表示;提出双流CNN的动作分类和多区域CNNs的动作表示,堆叠多帧光流用于更快的R-CNN模型,显著地改善了运动R-CNN;为外观和运动R-CNN选择多个身体区域(即上身,下身和边界区域),提高了基于帧的动作检测性能。
4.基于权利要求书1所述的端到端双流更快基于区域的卷积神经网络(R-CNN)(一),其特征在于,包括训练和测试、评估动作建议;双流更快R-CNN(TS R-CNN)采用RGB帧ft和为帧ft及其相邻帧提取的若干光流图(在时间t之前取得一半帧,之后取其一半),网络使用几个卷积和最大池层来处理,独立于外观和运动流;对于每个流,最后的卷积层被馈送到外观或运动区域建议网络和兴趣区域(RoI)池层。
5.基于权利要求书4所述的ROI融合层,其特征在于,ROI融合层合并了外观和运动区域建议网络(RPN)建议;外观和运动感兴趣区域汇聚层分别采用H×W网格,把所有的RoI进行最大化池;每个流的定长,这些特征向量送入序列的全连接层,最后分为Softmax层和包围盒的回归;两个流的最终检测结果通过结合Softmax分数获得最佳性能。
6.基于权利要求书4所述的训练和测试,其特征在于,分别训练每个双流更快R-CNN;对于两个流,重新调整在ImageNet数据集上预训练的VGG-16模型;通过堆叠x分量,y分量和流的幅度,将一帧光流数据变换成三通道图像;在多个光流图的情况下,其中输入通道号与VGG-16网的不同,多次复制第一层的VGG-16滤波器;使用中间框架的地面实况边界框进行训练;
为了测试,通过添加RoI融合层,将学习的外观和运动R-CNN模型结合到一个模型中,然后将帧流对放到端对端模型中,并将来自两个流的Softmax分数平均为最终动作区域检测分数;边界框回归被应用于每个流相应的RoI,这些框连接最后检测结果。
7.基于权利要求书4所述的评估动作建议,其特征在于,选择性搜索(SS)通过使用具有来自颜色、纹理和框大小的特征自下而上分组方案来生成区域;保持默认设置并获得2000个建议;基于完全包含在边界框中的轮廓的数量指示对象的观察来获得边框(EB);
RPN方法首先为每个具有多个比例和比例的像素生成几个锚定框,然后使用学习的特征对其进行评分和回归;对于训练RPN,对于与地面实况框具有高IoU重叠的锚获得正的物体标签;保留RPN的300个建议,并使用具有600像素的固定最小边的一个尺度。
8.基于权利要求书1所述的多区域双流更快基于区域的卷积神经网络(R-CNN)(二),其特征在于,多区域双流更快基于区域的卷积神经网络(MR-TS R-CNN)架构,通过在RPN和RoI池层之间嵌入多区域生成层而建立在双流更快R-CNN上;给定来自外观RPN和运动RPN的建议,多区域层为每个RPN建议生成4个RoI;
原始区域是原始RPN建议;沿着该通道的网络被引导以捕获整个动作区域;网络与TSR-CNN完全相同;边界框回归仅适用于此通道;“上半部”和“下半部”区域是RPN建议的上半部和下半部;由于在动作视频中大多是对称的垂直结构的身体部位,只使用上/下半部分区;基于这些部分的网络不仅是鲁棒性,而且对于身体部位特征占优势的动作类别也更具辨别性;
“边界”区域是原始建议周围的矩形环,给定一个RPN建议,通过将建议缩放0.8倍,外框按1.5倍生成边框区域的内框,对于外观流,沿着该通道的网络预期共同捕获人类和附近物体的外观边界,这可能有助于动作识别;对于运动流,该通道具有高概率聚焦。
9.基于权利要求书8所述的训练,其特征在于,为了训练其他区域的双流网络,对每个区域分别调整原始区域的网络;特别地,仅调整完全连接的层,x所有卷积层以及RPN,以确保所有区域网络共享相同的建议;关于“边界”区域两流网络,引入了一个掩模支持的RoI池层,将内部框中的激活设置为零;在训练区域网络之后,通过进一步训练,基于多区域两流网络的Softmax层的另一个Softmax层,多区域R-CNN共享所有的转换层。
10.基于权利要求书1所述的连接和时间定位(三),其特征在于,为了实现视频级检测,应用链接和基于最大子阵列算法的时域定位;
给定两个区域Rt和Rt+1连续帧t和t+1,定义的链接分数为一个动作类c
sc(Rt,Rt+1)={sc(Rt)+sc(Rt+1)+βov(Rt,Rt+1)·ψ(ov)} (1)
其中,sc(Ri)是Ri区域的等级分数,ov这两个区域的重叠,β是一个标量,ψ(ov)是一个定义的阈值函数如果ov大于τ,则ψ(ov)=1,否则ψ(ov)=0;
在计算动作的所有链接分数之后,通过使用维特比算法迭代地确定最优路径来获得视频级动作检测;通过得到视频级别的行动检测
为了确定视频轨道内的动作检测的时间范围,应用具有多个时间尺度和步长的滑动窗口方法;依赖一个有效的最大子阵列方法:
给定一个视频电平检测目标是找到一个检测帧s到帧e,满足以下目标,
其中,L(s,e)是磁道长度和Lc是训练集上c类的平均持续时间;通过以下三个步骤近似地解决这个目标:
1)通过使用Kadane的算法从所有帧级动作分数减去视频长度动作分数
2)减去的数组的最大子阵列;
3)将最佳范围扩展或缩短至Lc
对于每个视频长度动作检测,只保持最佳程度作为时空检测;注意,三个步骤启发式是公式(2)的近似,并且步骤3)将从步骤2)的最佳管的长度设置为平均长度,以避免退化解。
CN201710053337.2A 2017-01-22 2017-01-22 一种基于多区域双流卷积神经网络模型的动作检测方法 Withdrawn CN106815579A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710053337.2A CN106815579A (zh) 2017-01-22 2017-01-22 一种基于多区域双流卷积神经网络模型的动作检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710053337.2A CN106815579A (zh) 2017-01-22 2017-01-22 一种基于多区域双流卷积神经网络模型的动作检测方法

Publications (1)

Publication Number Publication Date
CN106815579A true CN106815579A (zh) 2017-06-09

Family

ID=59111243

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710053337.2A Withdrawn CN106815579A (zh) 2017-01-22 2017-01-22 一种基于多区域双流卷积神经网络模型的动作检测方法

Country Status (1)

Country Link
CN (1) CN106815579A (zh)

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107481263A (zh) * 2017-08-10 2017-12-15 上海体育学院 乒乓球目标跟踪方法、装置、存储介质和计算机设备
CN107609635A (zh) * 2017-08-28 2018-01-19 哈尔滨工业大学深圳研究生院 一种基于物体检测与光流计算的物体物理速度估计方法
CN107862376A (zh) * 2017-10-30 2018-03-30 中山大学 一种基于双流神经网络的人体图像动作识别方法
CN107886120A (zh) * 2017-11-03 2018-04-06 北京清瑞维航技术发展有限公司 用于目标检测跟踪的方法和装置
CN108038543A (zh) * 2017-10-24 2018-05-15 华南师范大学 期望与反期望深度学习方法和神经网络系统
CN108259893A (zh) * 2018-03-22 2018-07-06 天津大学 基于双流卷积神经网络的虚拟现实视频质量评价方法
CN108334901A (zh) * 2018-01-30 2018-07-27 福州大学 一种结合显著性区域的卷积神经网络的花卉图像分类方法
CN108391121A (zh) * 2018-04-24 2018-08-10 中国科学技术大学 一种基于深度神经网络的无参考立体图像质量评价方法
CN108681695A (zh) * 2018-04-26 2018-10-19 北京市商汤科技开发有限公司 视频动作识别方法及装置、电子设备和存储介质
CN109003267A (zh) * 2017-08-09 2018-12-14 深圳科亚医疗科技有限公司 从3d图像自动检测目标对象的计算机实现方法和系统
CN109376747A (zh) * 2018-12-11 2019-02-22 北京工业大学 一种基于双流卷积神经网络的视频火焰检测方法
CN109409306A (zh) * 2018-11-02 2019-03-01 深圳龙岗智能视听研究院 一种基于深度强化学习的主动式视频行为检测系统及其方法
CN109492580A (zh) * 2018-11-08 2019-03-19 北方工业大学 一种基于全卷积网络的领域显著性参照的多尺寸航拍图像定位方法
CN109558805A (zh) * 2018-11-06 2019-04-02 南京邮电大学 基于多层深度特征的人体行为识别方法
CN109670523A (zh) * 2017-10-13 2019-04-23 斯特拉德视觉公司 用包括跟踪网的卷积神经网络获取与图像中的对象对应的边界框的方法和使用其的计算装置
CN109685037A (zh) * 2019-01-08 2019-04-26 北京汉王智远科技有限公司 一种实时动作识别方法、装置及电子设备
CN109766856A (zh) * 2019-01-16 2019-05-17 华南农业大学 一种双流RGB-D Faster R-CNN识别哺乳母猪姿态的方法
CN109815802A (zh) * 2018-12-18 2019-05-28 中国海洋大学 一种基于卷积神经网络的监控视频车辆检测与识别方法
CN109886225A (zh) * 2019-02-27 2019-06-14 浙江理工大学 一种基于深度学习的图像手势动作在线检测与识别方法
CN109961034A (zh) * 2019-03-18 2019-07-02 西安电子科技大学 基于卷积门控循环神经单元的视频目标检测方法
CN110070052A (zh) * 2019-04-24 2019-07-30 广东工业大学 一种基于人类演示视频的机器人控制方法、装置和设备
CN110084228A (zh) * 2019-06-25 2019-08-02 江苏德劭信息科技有限公司 一种基于双流卷积神经网络的危险行为自动识别方法
CN110458038A (zh) * 2019-07-19 2019-11-15 天津理工大学 基于双链深度双流网络的小数据跨域动作识别方法
CN110532960A (zh) * 2019-08-30 2019-12-03 西安交通大学 一种基于图神经网络的目标辅助的动作识别方法
CN111027448A (zh) * 2019-12-04 2020-04-17 成都考拉悠然科技有限公司 一种基于时域推理图的视频行为类别识别方法
CN111325253A (zh) * 2020-02-12 2020-06-23 杭州涂鸦信息技术有限公司 一种基于深度学习的双流法行为识别方法及系统
CN111401253A (zh) * 2020-03-17 2020-07-10 吉林建筑大学 一种基于深度学习的目标检测方法
CN111444889A (zh) * 2020-04-30 2020-07-24 南京大学 基于多级条件影响的卷积神经网络的细粒度动作检测方法
CN112135344A (zh) * 2020-09-11 2020-12-25 南京邮电大学 一种基于csi和dcnn的无设备目标定位方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
XIAOJIANG PENG等: ""Multi-region two-stream R-CNN for action detection"", 《网页在线公开:HTTPS://HAL.INRIA.FR/HAL-01349107》 *

Cited By (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109003267B (zh) * 2017-08-09 2021-07-30 深圳科亚医疗科技有限公司 从3d图像自动检测目标对象的计算机实现方法和系统
CN109003267A (zh) * 2017-08-09 2018-12-14 深圳科亚医疗科技有限公司 从3d图像自动检测目标对象的计算机实现方法和系统
CN107481263B (zh) * 2017-08-10 2020-05-19 上海体育学院 乒乓球目标跟踪方法、装置、存储介质和计算机设备
CN107481263A (zh) * 2017-08-10 2017-12-15 上海体育学院 乒乓球目标跟踪方法、装置、存储介质和计算机设备
CN107609635A (zh) * 2017-08-28 2018-01-19 哈尔滨工业大学深圳研究生院 一种基于物体检测与光流计算的物体物理速度估计方法
CN109670523A (zh) * 2017-10-13 2019-04-23 斯特拉德视觉公司 用包括跟踪网的卷积神经网络获取与图像中的对象对应的边界框的方法和使用其的计算装置
CN109670523B (zh) * 2017-10-13 2024-01-09 斯特拉德视觉公司 用包括跟踪网的卷积神经网络获取与图像中的对象对应的边界框的方法和使用其的计算装置
CN108038543A (zh) * 2017-10-24 2018-05-15 华南师范大学 期望与反期望深度学习方法和神经网络系统
CN108038543B (zh) * 2017-10-24 2021-01-22 华南师范大学 期望与反期望深度学习方法和神经网络系统
CN107862376A (zh) * 2017-10-30 2018-03-30 中山大学 一种基于双流神经网络的人体图像动作识别方法
CN107886120A (zh) * 2017-11-03 2018-04-06 北京清瑞维航技术发展有限公司 用于目标检测跟踪的方法和装置
CN108334901A (zh) * 2018-01-30 2018-07-27 福州大学 一种结合显著性区域的卷积神经网络的花卉图像分类方法
CN108259893A (zh) * 2018-03-22 2018-07-06 天津大学 基于双流卷积神经网络的虚拟现实视频质量评价方法
CN108259893B (zh) * 2018-03-22 2020-08-18 天津大学 基于双流卷积神经网络的虚拟现实视频质量评价方法
CN108391121B (zh) * 2018-04-24 2020-10-27 中国科学技术大学 一种基于深度神经网络的无参考立体图像质量评价方法
CN108391121A (zh) * 2018-04-24 2018-08-10 中国科学技术大学 一种基于深度神经网络的无参考立体图像质量评价方法
CN108681695A (zh) * 2018-04-26 2018-10-19 北京市商汤科技开发有限公司 视频动作识别方法及装置、电子设备和存储介质
CN109409306A (zh) * 2018-11-02 2019-03-01 深圳龙岗智能视听研究院 一种基于深度强化学习的主动式视频行为检测系统及其方法
CN109409306B (zh) * 2018-11-02 2021-11-23 深圳龙岗智能视听研究院 一种基于深度强化学习的主动式视频行为检测系统及其方法
CN109558805A (zh) * 2018-11-06 2019-04-02 南京邮电大学 基于多层深度特征的人体行为识别方法
CN109492580A (zh) * 2018-11-08 2019-03-19 北方工业大学 一种基于全卷积网络的领域显著性参照的多尺寸航拍图像定位方法
CN109376747A (zh) * 2018-12-11 2019-02-22 北京工业大学 一种基于双流卷积神经网络的视频火焰检测方法
CN109815802A (zh) * 2018-12-18 2019-05-28 中国海洋大学 一种基于卷积神经网络的监控视频车辆检测与识别方法
CN109685037A (zh) * 2019-01-08 2019-04-26 北京汉王智远科技有限公司 一种实时动作识别方法、装置及电子设备
CN109766856B (zh) * 2019-01-16 2022-11-15 华南农业大学 一种双流RGB-D Faster R-CNN识别哺乳母猪姿态的方法
CN109766856A (zh) * 2019-01-16 2019-05-17 华南农业大学 一种双流RGB-D Faster R-CNN识别哺乳母猪姿态的方法
CN109886225B (zh) * 2019-02-27 2020-09-15 浙江理工大学 一种基于深度学习的图像手势动作在线检测与识别方法
CN109886225A (zh) * 2019-02-27 2019-06-14 浙江理工大学 一种基于深度学习的图像手势动作在线检测与识别方法
CN109961034B (zh) * 2019-03-18 2022-12-06 西安电子科技大学 基于卷积门控循环神经单元的视频目标检测方法
CN109961034A (zh) * 2019-03-18 2019-07-02 西安电子科技大学 基于卷积门控循环神经单元的视频目标检测方法
CN110070052A (zh) * 2019-04-24 2019-07-30 广东工业大学 一种基于人类演示视频的机器人控制方法、装置和设备
CN110084228A (zh) * 2019-06-25 2019-08-02 江苏德劭信息科技有限公司 一种基于双流卷积神经网络的危险行为自动识别方法
CN110458038A (zh) * 2019-07-19 2019-11-15 天津理工大学 基于双链深度双流网络的小数据跨域动作识别方法
CN110532960B (zh) * 2019-08-30 2022-02-11 西安交通大学 一种基于图神经网络的目标辅助的动作识别方法
CN110532960A (zh) * 2019-08-30 2019-12-03 西安交通大学 一种基于图神经网络的目标辅助的动作识别方法
CN111027448A (zh) * 2019-12-04 2020-04-17 成都考拉悠然科技有限公司 一种基于时域推理图的视频行为类别识别方法
CN111325253A (zh) * 2020-02-12 2020-06-23 杭州涂鸦信息技术有限公司 一种基于深度学习的双流法行为识别方法及系统
CN111325253B (zh) * 2020-02-12 2023-05-05 杭州涂鸦信息技术有限公司 一种基于深度学习的双流法行为识别方法及系统
CN111401253A (zh) * 2020-03-17 2020-07-10 吉林建筑大学 一种基于深度学习的目标检测方法
CN111401253B (zh) * 2020-03-17 2022-09-13 吉林建筑大学 一种基于深度学习的目标检测方法
CN111444889A (zh) * 2020-04-30 2020-07-24 南京大学 基于多级条件影响的卷积神经网络的细粒度动作检测方法
CN112135344A (zh) * 2020-09-11 2020-12-25 南京邮电大学 一种基于csi和dcnn的无设备目标定位方法

Similar Documents

Publication Publication Date Title
CN106815579A (zh) 一种基于多区域双流卷积神经网络模型的动作检测方法
Luc et al. Semantic segmentation using adversarial networks
Venkataramanan et al. Plant disease detection and classification using deep neural networks
Bakkay et al. BSCGAN: Deep background subtraction with conditional generative adversarial networks
US11804074B2 (en) Method for recognizing facial expressions based on adversarial elimination
CN106845499A (zh) 一种基于自然语言语义的图像目标检测方法
CN107251059A (zh) 用于深度学习的稀疏推理模块
Saleem et al. A performance-optimized deep learning-based plant disease detection approach for horticultural crops of New Zealand
Masurekar et al. Real time object detection using YOLOv3
CN109598735A (zh) 使用马尔科夫链跟踪和分割图像中的目标对象的方法以及使用该方法的设备
CN104217214A (zh) 基于可配置卷积神经网络的rgb-d人物行为识别方法
CN108320306B (zh) 融合tld和kcf的视频目标跟踪方法
CN113239801B (zh) 基于多尺度特征学习和多级域对齐的跨域动作识别方法
CN105469359A (zh) 基于局部约束低秩表示的人脸超分辨率重建方法
CN110263855B (zh) 一种利用共基胶囊投影进行图像分类的方法
CN110956158A (zh) 一种基于教师学生学习框架的遮挡行人再标识方法
CN114419413A (zh) 感受野自适应的变电站绝缘子缺陷检测神经网络构建方法
Li et al. Playing against deep-neural-network-based object detectors: A novel bidirectional adversarial attack approach
Jin et al. Cvt-assd: convolutional vision-transformer based attentive single shot multibox detector
CN113657414A (zh) 一种物体识别方法
Shi Object detection algorithms: a comparison
CN113902044B (zh) 一种基于轻量级yolov3的图像目标提取方法
Yao et al. Weakly supervised learning for point cloud semantic segmentation with dual teacher
CN112070075B (zh) 一种基于协同回归的人体检测方法
Nam et al. A novel unsupervised domain adaption method for depth-guided semantic segmentation using coarse-to-fine alignment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20170609