CN110991219B - 一种基于双路3d卷积网络的行为识别方法 - Google Patents

一种基于双路3d卷积网络的行为识别方法 Download PDF

Info

Publication number
CN110991219B
CN110991219B CN201910964765.XA CN201910964765A CN110991219B CN 110991219 B CN110991219 B CN 110991219B CN 201910964765 A CN201910964765 A CN 201910964765A CN 110991219 B CN110991219 B CN 110991219B
Authority
CN
China
Prior art keywords
layer
features
convolution
output
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910964765.XA
Other languages
English (en)
Other versions
CN110991219A (zh
Inventor
路小波
姜胜芹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201910964765.XA priority Critical patent/CN110991219B/zh
Publication of CN110991219A publication Critical patent/CN110991219A/zh
Application granted granted Critical
Publication of CN110991219B publication Critical patent/CN110991219B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明设计了一种基于双路3D卷积网络的行为识别方法,本发明主要由3D卷积和伪3D卷积堆叠而成,包括时空降采样模块、细分支、粗分支和侧边连接等四个模块。该网络通过一个共享的时空降采样模块,为两个分支提供低层的时空基元信息。细分支是由三个3D卷积块组成的,其中每个卷积块包含两个卷积层。粗分支是从所有的输入视频帧中学习时空特征。同时采用侧边连接以融合两个分支的特征。本发明参数少、准确率高、速度快,可用于手机、录像机、监控摄像头等设备所拍摄视频的分类,在家庭、公共场所等场景中有着重要的应用价值。

Description

一种基于双路3D卷积网络的行为识别方法
技术领域
本发明涉及一种基于双路3D卷积网络的行为识别方法,属于图像处理和模式识别技术领域。
背景技术
行为识别是一个非常实用的任务,在生产生活中均具有广泛的应用前景,如视频监控、人机交互和医疗监控等。随着图像技术的发展,对于动作识别技术的要求也越来越高。与此同时,随着移动技术和互联网技术的发展,视频的数量以爆炸性的速度在增长,例如,2017年2月,每分钟就有400小时的新视频上传到YouTube。另外,众多的住宅区和商场等场所拥有多路视频监控系统,从这些系统获取的视频常被用于安全、商业等分析。如果基于传统实时技术来完成这样的任务,就意味着需要更多的计算资源,远远不能满足实际需求,因此亟待开发一种推理速度快、计算资源消耗低的行为识别方法。
发明内容
为了解决上述问题,本发明设计了一种基于双路3D卷积网络的行为识别方法,该方法采用一种轻量化策略对3D网络进行设计,构建快速的行为识别方法。
为了达到上述目的,本发明提供如下技术方案:
一种基于双路3D卷积网络的行为识别方法,所述方法包括下列步骤:
步骤1:制作训练和测试数据集;搜集行为识别相关的数据库,将数据库中视频序列进行处理,用于模型的训练,其具体包括:
步骤101:若数据库没有包含训练集和测试集,将数据库中每个行为类别的视频序列按照4比1的比例,将数据库分为训练集和测试集。若训练集有k个样本,则记Strain={x1,x2,...,xk}为训练集,对于第m个样本,xm={Vm;lm},其中Vm表示视频序列,lm表示该视频的标签。那么测试集有个样本,记Stest={x1,x2,...,xh}为测试集。若数据库已包含训练集和测试集,转至步骤 102;
步骤102:将数据库中的每个视频序列解码成若干张图片,将图片的分辨率统一调整为256×310,按时间顺序依次编号,记为000001.jpg, 00002.jpg,…,同时保存到本地文件夹中。若该视频序列有r帧,那么对于第 m个样本,xm={v1,v2,...,vr;lm},其中vi表示第i个图片;
步骤2:在训练过程中,对数据进行处理和扩增,其具体包括:
步骤201:从视频中随机抽取32个连续视频帧作为网络输入,如视频序列有n帧,但不足32帧,则将前32-n作为补足序列添加到第n帧之后。
步骤202:从五个图片的空间位置(即四个角和一个中心)随机剪切一个224×224×32网络输入的张量;
步骤3:建立深度网络模型,模型由4个模块组成,包括时空降采样模块、细分支、粗分支和侧边连接;由步骤202获得张量,输入到时空降采样模块,该模块获得的特征分别输入到细分支和粗分支,而后融合到一起经过 1×1×1的卷积之后,给出最终的分类结果;
步骤4:将数据送入网络,对网络的参数进行训练;
步骤5:对于步骤4中的模型进行测试,其具体包括:
步骤501:若测试的视频序列不足32帧,则将视频序列经过步骤201补足视频序列,而后输入到网络模型,输出的结果作为最终的输出。若大于等于32帧,跳转到步骤502;
步骤502:若视频序列大于等于32帧,则将视频按照每32帧一个视频片段,依次输入到网络中,将输出的结果求和,选择求和后输出概率最大的类别作为网络的最终结果输出。
作为本发明的一种改进,所述步骤3中深度网络模型结构如下:
卷积层1:用32个步长为2×2×2的3×7×7卷积核去卷积224×224×3×32 的输入,再经过BN层和ReLU层,得到112×112×32×16的特征;
卷积层2:用32个3×3×3卷积核去卷积卷积层1输出的112×112×32×16 特征,再经过BN层和ReLU层,得到112×112×32×16的特征;
卷积层3:用32个3×3×3卷积核去卷积卷积层2输出的112×112×32×16 特征,再经过BN层和ReLU层,得到112×112×32×16的特征;
池化层1:将卷积层3输出的112×112×32×16的特征结果,经过2×2×2 的3D最大池化层后,得到56×56×32×8的特征;
卷积层4:用64个3×3×3卷积核去卷积池化层1输出的56×56×32×8特征,再经过BN层和ReLU层,得到56×56×64×8的特征;
卷积层5:用64个3×3×3卷积核去卷积卷积层4输出的56×56×32×8特征,再经过BN层和ReLU层,得到56×56×64×8的特征;
池化层2:将卷积层5输出的56×56×64×8的特征结果,经过2×2×2的 3D最大池化层后,得到28×28×64×4的特征;
卷积层6:用128个3×3×3卷积核去卷积池化层2输出的28×28×128×4 特征,再经过BN层和ReLU层,得到28×28×128×4的特征;
卷积层7:用128个3×3×3卷积核去卷积卷积层7输出的28×28×128×4 特征,再经过BN层和ReLU层,得到28×28×128×4的特征;
池化层3:将卷积层7输出的28×28×128×4的特征结果,经过2×2×2的 3D最大池化层后,得到14×14×128×2的特征;
卷积层8:用256个3×3×3卷积核去卷积池化层3输出的14×14×128×2 特征,再经过BN层和ReLU层,得到14×14×256×2的特征;
卷积层9:用256个3×3×3卷积核去卷积卷积层8输出的14×14×256×2 特征,再经过BN层和ReLU层,得到14×14×256×2的特征;
池化层4:将卷积层9输出的14×14×256×2的特征结果,经过1×1×1的 3D自适应平均池化层后,得到1×1×256×1的特征;
卷积10:用64个步长为4×1×1的4×1×1卷积核去卷积卷积层3输出的 112×112×32×16特征,再经过BN层和ReLU层,得到112×112×32×4的特征。
池化层10_1:将卷积层10输出的112×112×32×4的特征结果,经过步长为1×2×2的1×2×2 3D最大池化层后,得到56×56×32×4的特征。
卷积10_2:用64个1×3×3的卷积核去卷积池化层10_1输出的56×56×32×4特征,再经过BN层和ReLU层,得到56×56×64×4的特征。
卷积10_3:用64个1×3×3的卷积核去卷积卷积层10_2输出的 56×56×3×2特征,再经过BN层和ReLU层,得到56×56×64×4的特征。
卷积层11:用64个步长为2×1×1的2×1×1卷积核去卷积卷积层5输出的56×56×64×8特征,再经过BN层和ReLU层,得到56×56×64×4的特征。
聚集层1:将卷积10_3的输出和卷积层11的输出,沿着通道维级联,得到56×56×128×4的特征。
池化层12:将聚集层1输出的56×56×128×4的特征结果,经过步长为 1×2×2的1×2×2 3D最大池化层后,得到28×28×128×4的特征。
卷积12_1:用128个1×3×3的卷积核去卷积池化层12输出的 28×28×12×8特征,再经过BN层和ReLU层,得到28×28×128×4的特征。
卷积12_2:用128个1×3×3的卷积核去卷积卷积层12_1输出的 28×28×128×特征,再经过BN层和ReLU层,得到28×28×128×4的特征。
卷积层13:用128个1×1×1的卷积核去卷积卷积层7输出的 28×28×128×4特征,再经过BN层和ReLU层,得到28×28×128×4的特征。
聚集层2:将卷积12_2的输出和卷积层13的输出,沿着通道维级联,得到28×28×256×4的特征。
池化层14:将聚集层2输出的28×28×256×4的特征结果,经过步长为 1×2×2的1×2×2 3D最大池化层后,得到14×14×256×4的特征。
卷积14_1:用128个1×3×3的卷积核去卷积池化层14输出的 14×14×25×6特征,再经过BN层和ReLU层,得到14×14×256×4的特征。
卷积14_2:用128个1×3×3的卷积核去卷积卷积层14_1输出的 14×14×256×特征,再经过BN层和ReLU层,得到14×14×256×4的特征。
池化层14_3:将卷积层14_2输出的14×14×256×4的特征结果,经过 1×1×1的3D自适应平均池化层后,得到1×1×256×1的特征。
聚集层3:将池化层4的输出和池化层14_3的输出,沿着通道维级联,得到1×1×512×1的特征。
卷积层15:用1个1×1×1的卷积核去卷积聚集层3输出的1×1×512×1特征,得到1×1×512×1的特征。
变换层1:将卷积层15的输出1×1×512×1,转换为512维的特征向量作为网络的输出。
作为本发明的一种改进,所述步骤4中,将数据送入网络,对网络的参数进行训练,具体如下:
步骤401:将步骤202生成的数据,输入到步骤3所设计的网络模型中;
步骤402:学习网络的参数。记步骤3中深度网络模型的参数为θnet,网络的输出为Prnet。在给定的监督信号下,利用交叉熵损失函数对网络进行学习:
步骤403:通过随机梯度下降法(SGD)对网络进行训练。经过训练一定的次数之后,将模型的参数保存。
与现有技术相比,本发明具有如下优点和有益效果:
(1)本发明中的网络设计了互补的两个分支,分别为粗分支和细分支,以帮助网络学习不同的时空信息,从而实现鲁棒的行为识别。
(2)本发明构建了一个轻量化的3D网络模型,用于快速行为识别。该网络在单个GTX 1080Ti上可对大小为112×112×3的图片,实现4559帧每秒的速度进行识别。
附图说明
图1是本发明中卷积网络模型框架图。
具体实施方式
下面结合具体实施例和说明附图对本发明作进一步说明,应当理解,此处所描述的优先实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例1:参见图1,一种基于双路3D卷积网络的行为识别方法,所述方法包括下列步骤:
步骤1:制作训练和测试数据集。搜集行为识别相关的数据库,将数据库中视频序列进行处理,用于模型的训练,其具体包括:
步骤101:若数据库没有包含训练集和测试集,将数据库中每个行为类别的视频序列按照4比1的比例,将数据库分为训练集和测试集。若训练集有k个样本,则记Strain={x1,x2,...,xk}为训练集,对于第m个样本,xm={Vm;lm},其中Vm表示视频序列,lm表示该视频的标签。那么测试集有个样本,记Stest={x1,x2,...,xh}为测试集。若数据库已包含训练集和测试集,转至步骤 102。
步骤102:将数据库中的每个视频序列解码成若干张图片,将图片的分辨率统一调整为256×310,按时间顺序依次编号,记为000001.jpg, 00002.jpg,…,同时保存到本地文件夹中。若该视频序列有r帧,那么对于第 m个样本,xm={v1,v2,...,vr;lm},其中vi表示第i个图片;
步骤2:在训练过程中,对数据进行处理和扩增,其具体包括:
步骤201:从视频中随机抽取32个连续视频帧作为网络输入,如视频序列有n帧,但不足32帧,则将前32-n作为补足序列添加到第n帧之后。
步骤202:从五个图片的空间位置(即四个角和一个中心)随机剪切一个224×224×32网络输入的张量;
步骤3:建立深度网络模型,模型由4个模块组成,包括时空降采样模块、细分支、粗分支和侧边连接。由步骤202获得张量,输入到时空降采样模块,该模块获得的特征分别输入到细分支和粗分支,而后融合到一起经过 1×1×1的卷积之后,给出最终的分类结果,如图1所示。
步骤4:将数据送入网络,对网络的参数进行训练。
步骤5:对于步骤4中的模型进行测试,其具体包括:
步骤501:若测试的视频序列不足32帧,则将视频序列经过步骤201补足视频序列,而后输入到网络模型,输出的结果作为最终的输出。若大于等于32帧,跳转到步骤502。
步骤502:若视频序列大于等于32帧,则将视频按照每32帧一个视频片段,依次输入到网络中,将输出的结果求和,选择求和后输出概率最大的类别作为网络的最终结果输出。
其中,所述步骤3中深度网络模型结构如下:
卷积层1:用32个步长为2×2×2的3×7×7卷积核去卷积224×224×3×32 的输入,再经过BN层和ReLU层,得到112×112×32×16的特征。
卷积层2:用32个3×3×3卷积核去卷积卷积层1输出的112×112×32×16 特征,再经过BN层和ReLU层,得到112×112×32×16的特征。
卷积层3:用32个3×3×3卷积核去卷积卷积层2输出的112×112×32×16 特征,再经过BN层和ReLU层,得到112×112×32×16的特征。
池化层1:将卷积层3输出的112×112×32×16的特征结果,经过2×2×2 的3D最大池化层后,得到56×56×32×8的特征。
卷积层4:用64个3×3×3卷积核去卷积池化层1输出的56×56×32×8特征,再经过BN层和ReLU层,得到56×56×64×8的特征。
卷积层5:用64个3×3×3卷积核去卷积卷积层4输出的56×56×32×8特征,再经过BN层和ReLU层,得到56×56×64×8的特征。
池化层2:将卷积层5输出的56×56×64×8的特征结果,经过2×2×2的 3D最大池化层后,得到28×28×64×4的特征。
卷积层6:用128个3×3×3卷积核去卷积池化层2输出的28×28×128×4 特征,再经过BN层和ReLU层,得到28×28×128×4的特征。
卷积层7:用128个3×3×3卷积核去卷积卷积层7输出的28×28×128×4 特征,再经过BN层和ReLU层,得到28×28×128×4的特征。
池化层3:将卷积层7输出的28×28×128×4的特征结果,经过2×2×2的 3D最大池化层后,得到14×14×128×2的特征。
卷积层8:用256个3×3×3卷积核去卷积池化层3输出的14×14×128×2 特征,再经过BN层和ReLU层,得到14×14×256×2的特征。
卷积层9:用256个3×3×3卷积核去卷积卷积层8输出的14×14×256×2 特征,再经过BN层和ReLU层,得到14×14×256×2的特征。
池化层4:将卷积层9输出的14×14×256×2的特征结果,经过1×1×1的 3D自适应平均池化层后,得到1×1×256×1的特征。
卷积10:用64个步长为4×1×1的4×1×1卷积核去卷积卷积层3输出的 112×112×32×16特征,再经过BN层和ReLU层,得到112×112×32×4的特征。
池化层10_1:将卷积层10输出的112×112×32×4的特征结果,经过步长为1×2×2的1×2×2 3D最大池化层后,得到56×56×32×4的特征。
卷积10_2:用64个1×3×3的卷积核去卷积池化层10_1输出的 56×56×3×2特征,再经过BN层和ReLU层,得到56×56×64×4的特征。
卷积10_3:用64个1×3×3的卷积核去卷积卷积层10_2输出的 56×56×3×2特征,再经过BN层和ReLU层,得到56×56×64×4的特征。
卷积层11:用64个步长为2×1×1的2×1×1卷积核去卷积卷积层5输出的56×56×64×8特征,再经过BN层和ReLU层,得到56×56×64×4的特征。
聚集层1:将卷积10_3的输出和卷积层11的输出,沿着通道维级联,得到56×56×128×4的特征。
池化层12:将聚集层1输出的56×56×128×4的特征结果,经过步长为 1×2×2的1×2×2 3D最大池化层后,得到28×28×128×4的特征。
卷积12_1:用128个1×3×3的卷积核去卷积池化层12输出的 28×28×12×8特征,再经过BN层和ReLU层,得到28×28×128×4的特征。
卷积12_2:用128个1×3×3的卷积核去卷积卷积层12_1输出的 28×28×128×特征,再经过BN层和ReLU层,得到28×28×128×4的特征。
卷积层13:用128个1×1×1的卷积核去卷积卷积层7输出的 28×28×128×4特征,再经过BN层和ReLU层,得到28×28×128×4的特征。
聚集层2:将卷积12_2的输出和卷积层13的输出,沿着通道维级联,得到28×28×256×4的特征。
池化层14:将聚集层2输出的28×28×256×4的特征结果,经过步长为 1×2×2的1×2×2 3D最大池化层后,得到14×14×256×4的特征。
卷积14_1:用128个1×3×3的卷积核去卷积池化层14输出的 14×14×256×4特征,再经过BN层和ReLU层,得到14×14×256×4的特征。
卷积14_2:用128个1×3×3的卷积核去卷积卷积层14_1输出的 14×14×256×特征,再经过BN层和ReLU层,得到14×14×256×4的特征。
池化层14_3:将卷积层14_2输出的14×14×256×4的特征结果,经过 1×1×1的3D自适应平均池化层后,得到1×1×256×1的特征。
聚集层3:将池化层4的输出和池化层14_3的输出,沿着通道维级联,得到1×1×512×1的特征。
卷积层15:用1个1×1×1的卷积核去卷积聚集层3输出的1×1×512×1特征,得到1×1×512×1的特征。
变换层1:将卷积层15的输出1×1×512×1,转换为512维的特征向量作为网络的输出。
其中,所述步骤4中,将数据送入网络,对网络的参数进行训练。
步骤401:将步骤202生成的数据,输入到步骤3所设计的网络模型中。
步骤402:学习网络的参数。记步骤3中深度网络模型的参数为θnet,网络的输出为Prnet。在给定的监督信号下,利用交叉熵损失函数对网络进行学习:
步骤403:通过随机梯度下降法(SGD)对网络进行训练。经过训练一定的次数之后,将模型的参数保存。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (4)

1.一种基于双路3D卷积网络的行为识别方法,其特征在于,所述方法包括下列步骤:
步骤1:制作训练和测试数据集;搜集行为识别相关的数据库,将数据库中视频序列进行处理,用于模型的训练,
步骤2:在训练过程中,对数据进行处理和扩增,
所述步骤2:在训练过程中,对数据进行处理和扩增,其具体包括:
步骤201:从视频中随机抽取32个连续视频帧作为网络输入,设视频序列有n帧,但不足32帧,则将前32-n作为补足序列添加到第n帧之后;
步骤202:从五个图片的空间位置即四个角和一个中心随机剪切一个224×224×32网络输入的张量;
步骤3:建立深度网络模型,模型由4个模块组成,包括时空降采样模块、细分支、粗分支和侧边连接;由步骤202获得张量,输入到时空降采样模块,该模块获得的特征分别输入到细分支和粗分支,而后融合到一起经过1×1×1的卷积之后,给出最终的分类结果;
所述步骤3中深度网络模型结构如下:
卷积层1:用32个步长为2×2×2的3×7×7卷积核去卷积224×224×3×32的输入,再经过BN层和ReLU层,得到112×112×32×16的特征;
卷积层2:用32个3×3×3卷积核去卷积卷积层1输出的112×112×32×16特征,再经过BN层和ReLU层,得到112×112×32×16的特征;
卷积层3:用32个3×3×3卷积核去卷积卷积层2输出的112×112×32×16特征,再经过BN层和ReLU层,得到112×112×32×16的特征;
池化层1:将卷积层3输出的112×112×32×16的特征结果,经过2×2×2的3D最大池化层后,得到56×56×32×8的特征;
卷积层4:用64个3×3×3卷积核去卷积池化层1输出的56×56×32×8特征,再经过BN层和ReLU层,得到56×56×64×8的特征;
卷积层5:用64个3×3×3卷积核去卷积卷积层4输出的56×56×32×8特征,再经过BN层和ReLU层,得到56×56×64×8的特征;
池化层2:将卷积层5输出的56×56×64×8的特征结果,经过2×2×2的3D最大池化层后,得到28×28×64×4的特征;
卷积层6:用128个3×3×3卷积核去卷积池化层2输出的28×28×128×4特征,再经过BN层和ReLU层,得到28×28×128×4的特征;
卷积层7:用128个3×3×3卷积核去卷积卷积层7输出的28×28×128×4特征,再经过BN层和ReLU层,得到28×28×128×4的特征;
池化层3:将卷积层7输出的28×28×128×4的特征结果,经过2×2×2的3D最大池化层后,得到14×14×128×2的特征;
卷积层8:用256个3×3×3卷积核去卷积池化层3输出的14×14×128×2特征,再经过BN层和ReLU层,得到14×14×256×2的特征;
卷积层9:用256个3×3×3卷积核去卷积卷积层8输出的14×14×256×2特征,再经过BN层和ReLU层,得到14×14×256×2的特征;
池化层4:将卷积层9输出的14×14×256×2的特征结果,经过1×1×1的3D自适应平均池化层后,得到1×1×256×1的特征;
卷积10:用64个步长为4×1×1的4×1×1卷积核去卷积卷积层3输出的112×112×32×16特征,再经过BN层和ReLU层,得到112×112×32×4的特征;
池化层10_1:将卷积层10输出的112×112×32×4的特征结果,经过步长为1×2×2的1×2×2 3D最大池化层后,得到56×56×32×4的特征;
卷积10_2:用64个1×3×3的卷积核去卷积池化层10_1输出的56×56×32×4特征,再经过BN层和ReLU层,得到56×56×64×4的特征;
卷积10_3:用64个1×3×3的卷积核去卷积卷积层10_2输出的56×56×32×4特征,再经过BN层和ReLU层,得到56×56×64×4的特征;
卷积层11:用64个步长为2×1×1的2×1×1卷积核去卷积卷积层5输出的56×56×64×8特征,再经过BN层和ReLU层,得到56×56×64×4的特征;
聚集层1:将卷积10_3的输出和卷积层11的输出,沿着通道维级联,得到56×56×128×4的特征;
池化层12:将聚集层1输出的56×56×128×4的特征结果,经过步长为1×2×2的1×2×2 3D最大池化层后,得到28×28×128×4的特征;
卷积12_1:用128个1×3×3的卷积核去卷积池化层12输出的28×28×128×4特征,再经过BN层和ReLU层,得到28×28×128×4的特征;
卷积12_2:用128个1×3×3的卷积核去卷积卷积层12_1输出的28×28×128×4特征,再经过BN层和ReLU层,得到28×28×128×4的特征;
卷积层13:用128个1×1×1的卷积核去卷积卷积层7输出的28×28×128×4特征,再经过BN层和ReLU层,得到28×28×128×4的特征;
聚集层2:将卷积12_2的输出和卷积层13的输出,沿着通道维级联,得到28×28×256×4的特征;
池化层14:将聚集层2输出的28×28×256×4的特征结果,经过步长为1×2×2的1×2×2 3D最大池化层后,得到14×14×256×4的特征;
卷积14_1:用128个1×3×3的卷积核去卷积池化层14输出的14×14×256×4特征,再经过BN层和ReLU层,得到14×14×256×4的特征;
卷积14_2:用128个1×3×3的卷积核去卷积卷积层14_1输出的14×14×256×4特征,再经过BN层和ReLU层,得到14×14×256×4的特征;
池化层14_3:将卷积层14_2输出的14×14×256×4的特征结果,经过1×1×1的3D自适应平均池化层后,得到1×1×256×1的特征;
聚集层3:将池化层4的输出和池化层14_3的输出,沿着通道维级联,得到1×1×512×1的特征;
卷积层15:用1个1×1×1的卷积核去卷积聚集层3输出的1×1×512×1特征,得到1×1×512×1的特征;
变换层1:将卷积层15的输出1×1×512×1,转换为512维的特征向量作为网络的输出;
步骤4:将数据送入网络,对网络的参数进行训练;
步骤5:对于步骤4中的模型进行测试。
2.根据权利要求1所述的基于双路3D卷积网络的行为识别方法,其特征在于,
所述步骤1:制作训练和测试数据集;搜集行为识别相关的数据库,将数据库中视频序列进行处理,用于模型的训练,其具体包括:
步骤101:若数据库没有包含训练集和测试集,将数据库中每个行为类别的视频序列按照4比1的比例,将数据库分为训练集和测试集,若训练集有k个样本,则记Strain={x1,x2,...,xk}为训练集,对于第m个样本,xm={Vm;lm},其中Vm表示视频序列,lm表示该视频的标签;那么测试集有个样本,记Stest={x1,x2,...,xh}为测试集;若数据库已包含训练集和测试集,转至步骤102;
步骤102:将数据库中的每个视频序列解码成若干张图片,将图片的分辨率统一调整为256×310,按时间顺序依次编号,记为000001.jpg,00002.jpg,…,同时保存到本地文件夹中;若该视频序列有r帧,那么对于第m个样本,xm={v1,v2,...,vr;lm},其中vi表示第i个图片。
3.根据权利要求1所述的基于双路3D卷积网络的行为识别方法,其特征在于,步骤4中,将数据送入网络,对网络的参数进行训练;具体如下:
步骤401:将步骤202生成的数据,输入到步骤3所设计的网络模型中,
步骤402:学习网络的参数,记步骤3中深度网络模型的参数为θnet,网络的输出为Prnet,在给定的监督信号下,利用交叉熵损失函数对网络进行学习:
步骤403:通过随机梯度下降法(SGD)对网络进行训练,经过训练一定的次数之后,将模型的参数保存。
4.根据权利要求1所述的基于双路3D卷积网络的行为识别方法,其特征在于,步骤5:对于步骤4中的模型进行测试,其具体包括:
步骤501:若测试的视频序列不足32帧,则将视频序列经过步骤201补足视频序列,而后输入到网络模型,输出的结果作为最终的输出,若大于等于32帧,跳转到步骤502;
步骤502:若视频序列大于等于32帧,则将视频按照每32帧一个视频片段,依次输入到网络中,将输出的结果求和,选择求和后输出概率最大的类别作为网络的最终结果输出。
CN201910964765.XA 2019-10-11 2019-10-11 一种基于双路3d卷积网络的行为识别方法 Active CN110991219B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910964765.XA CN110991219B (zh) 2019-10-11 2019-10-11 一种基于双路3d卷积网络的行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910964765.XA CN110991219B (zh) 2019-10-11 2019-10-11 一种基于双路3d卷积网络的行为识别方法

Publications (2)

Publication Number Publication Date
CN110991219A CN110991219A (zh) 2020-04-10
CN110991219B true CN110991219B (zh) 2024-02-06

Family

ID=70081875

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910964765.XA Active CN110991219B (zh) 2019-10-11 2019-10-11 一种基于双路3d卷积网络的行为识别方法

Country Status (1)

Country Link
CN (1) CN110991219B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112185543A (zh) * 2020-09-04 2021-01-05 南京信息工程大学 一种医疗感应数据流分类模型的构建方法
CN113343786B (zh) * 2021-05-20 2022-05-17 武汉大学 基于深度学习的轻量化视频动作识别方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018171109A1 (zh) * 2017-03-23 2018-09-27 北京大学深圳研究生院 基于卷积神经网络的视频动作检测方法
CN108875674A (zh) * 2018-06-29 2018-11-23 东南大学 一种基于多列融合卷积神经网络的驾驶员行为识别方法
CN109784150A (zh) * 2018-12-06 2019-05-21 东南大学 基于多任务时空卷积神经网络的视频驾驶员行为识别方法
CN109829443A (zh) * 2019-02-23 2019-05-31 重庆邮电大学 基于图像增强与3d卷积神经网络的视频行为识别方法
CN110059582A (zh) * 2019-03-28 2019-07-26 东南大学 基于多尺度注意力卷积神经网络的驾驶员行为识别方法
CN110210439A (zh) * 2019-06-10 2019-09-06 西北工业大学 基于轻量化三维卷积网络的行为识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018171109A1 (zh) * 2017-03-23 2018-09-27 北京大学深圳研究生院 基于卷积神经网络的视频动作检测方法
CN108875674A (zh) * 2018-06-29 2018-11-23 东南大学 一种基于多列融合卷积神经网络的驾驶员行为识别方法
CN109784150A (zh) * 2018-12-06 2019-05-21 东南大学 基于多任务时空卷积神经网络的视频驾驶员行为识别方法
CN109829443A (zh) * 2019-02-23 2019-05-31 重庆邮电大学 基于图像增强与3d卷积神经网络的视频行为识别方法
CN110059582A (zh) * 2019-03-28 2019-07-26 东南大学 基于多尺度注意力卷积神经网络的驾驶员行为识别方法
CN110210439A (zh) * 2019-06-10 2019-09-06 西北工业大学 基于轻量化三维卷积网络的行为识别方法

Also Published As

Publication number Publication date
CN110991219A (zh) 2020-04-10

Similar Documents

Publication Publication Date Title
CN113936339B (zh) 基于双通道交叉注意力机制的打架识别方法和装置
Li et al. No-reference image quality assessment with deep convolutional neural networks
Girisha et al. Uvid-net: Enhanced semantic segmentation of uav aerial videos by embedding temporal information
CN111507275B (zh) 一种基于深度学习的视频数据时序信息提取方法及装置
CN109993269A (zh) 基于注意力机制的单张图像人群计数方法
CN110991219B (zh) 一种基于双路3d卷积网络的行为识别方法
CN112818969A (zh) 一种基于知识蒸馏的人脸姿态估计方法及系统
CN114898284B (zh) 一种基于特征金字塔局部差异注意力机制的人群计数方法
CN111046757A (zh) 人脸画像生成模型的训练方法、装置及相关设备
CN111160378A (zh) 基于单张图像的多任务增强的深度估计系统
Wang A survey on IQA
CN110503014B (zh) 基于多尺度掩码感知回馈卷积神经网络的人数统计方法
CN115908896A (zh) 基于带自注意力机制脉冲神经网络的图片识别系统
Wu et al. Cross-fiber spatial-temporal co-enhanced networks for video action recognition
CN117830788A (zh) 一种多源信息融合的图像目标检测方法
CN114022878A (zh) 一种基于改进YOLOv5的串型番茄实时检测方法
CN113255464A (zh) 一种飞机动作识别方法及系统
CN112560668A (zh) 一种基于场景先验知识的人体行为识别方法
CN112418229A (zh) 一种基于深度学习的无人船海上场景图像实时分割方法
CN109558819B (zh) 一种用于遥感图像目标检测的深度网络轻量化方法
CN116311504A (zh) 一种小样本行为识别方法、系统及设备
CN116229323A (zh) 一种基于改进的深度残差网络的人体行为识别方法
CN111144220A (zh) 适于大数据的人员检测方法、装置、设备和介质
Cai et al. DCASE2023 task1 submission: Device simulation and time-frequency separable convolution for acoustic scene classification
CN113205078B (zh) 基于多分支递进强化注意力人群计数方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant