CN110991219B - 一种基于双路3d卷积网络的行为识别方法 - Google Patents
一种基于双路3d卷积网络的行为识别方法 Download PDFInfo
- Publication number
- CN110991219B CN110991219B CN201910964765.XA CN201910964765A CN110991219B CN 110991219 B CN110991219 B CN 110991219B CN 201910964765 A CN201910964765 A CN 201910964765A CN 110991219 B CN110991219 B CN 110991219B
- Authority
- CN
- China
- Prior art keywords
- layer
- features
- convolution
- output
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000011176 pooling Methods 0.000 claims description 63
- 238000012549 training Methods 0.000 claims description 34
- 238000012360 testing method Methods 0.000 claims description 26
- 230000002776 aggregation Effects 0.000 claims description 14
- 238000004220 aggregation Methods 0.000 claims description 14
- 238000012935 Averaging Methods 0.000 claims description 6
- 230000003044 adaptive effect Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 230000000295 complement effect Effects 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 230000009191 jumping Effects 0.000 claims description 2
- 238000005070 sampling Methods 0.000 claims description 2
- 238000011478 gradient descent method Methods 0.000 claims 1
- 230000001502 supplementing effect Effects 0.000 claims 1
- 238000013461 design Methods 0.000 abstract description 4
- 238000012544 monitoring process Methods 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 description 5
- 230000006978 adaptation Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Evolutionary Biology (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明设计了一种基于双路3D卷积网络的行为识别方法,本发明主要由3D卷积和伪3D卷积堆叠而成,包括时空降采样模块、细分支、粗分支和侧边连接等四个模块。该网络通过一个共享的时空降采样模块,为两个分支提供低层的时空基元信息。细分支是由三个3D卷积块组成的,其中每个卷积块包含两个卷积层。粗分支是从所有的输入视频帧中学习时空特征。同时采用侧边连接以融合两个分支的特征。本发明参数少、准确率高、速度快,可用于手机、录像机、监控摄像头等设备所拍摄视频的分类,在家庭、公共场所等场景中有着重要的应用价值。
Description
技术领域
本发明涉及一种基于双路3D卷积网络的行为识别方法,属于图像处理和模式识别技术领域。
背景技术
行为识别是一个非常实用的任务,在生产生活中均具有广泛的应用前景,如视频监控、人机交互和医疗监控等。随着图像技术的发展,对于动作识别技术的要求也越来越高。与此同时,随着移动技术和互联网技术的发展,视频的数量以爆炸性的速度在增长,例如,2017年2月,每分钟就有400小时的新视频上传到YouTube。另外,众多的住宅区和商场等场所拥有多路视频监控系统,从这些系统获取的视频常被用于安全、商业等分析。如果基于传统实时技术来完成这样的任务,就意味着需要更多的计算资源,远远不能满足实际需求,因此亟待开发一种推理速度快、计算资源消耗低的行为识别方法。
发明内容
为了解决上述问题,本发明设计了一种基于双路3D卷积网络的行为识别方法,该方法采用一种轻量化策略对3D网络进行设计,构建快速的行为识别方法。
为了达到上述目的,本发明提供如下技术方案:
一种基于双路3D卷积网络的行为识别方法,所述方法包括下列步骤:
步骤1:制作训练和测试数据集;搜集行为识别相关的数据库,将数据库中视频序列进行处理,用于模型的训练,其具体包括:
步骤101:若数据库没有包含训练集和测试集,将数据库中每个行为类别的视频序列按照4比1的比例,将数据库分为训练集和测试集。若训练集有k个样本,则记Strain={x1,x2,...,xk}为训练集,对于第m个样本,xm={Vm;lm},其中Vm表示视频序列,lm表示该视频的标签。那么测试集有个样本,记Stest={x1,x2,...,xh}为测试集。若数据库已包含训练集和测试集,转至步骤 102;
步骤102:将数据库中的每个视频序列解码成若干张图片,将图片的分辨率统一调整为256×310,按时间顺序依次编号,记为000001.jpg, 00002.jpg,…,同时保存到本地文件夹中。若该视频序列有r帧,那么对于第 m个样本,xm={v1,v2,...,vr;lm},其中vi表示第i个图片;
步骤2:在训练过程中,对数据进行处理和扩增,其具体包括:
步骤201:从视频中随机抽取32个连续视频帧作为网络输入,如视频序列有n帧,但不足32帧,则将前32-n作为补足序列添加到第n帧之后。
步骤202:从五个图片的空间位置(即四个角和一个中心)随机剪切一个224×224×32网络输入的张量;
步骤3:建立深度网络模型,模型由4个模块组成,包括时空降采样模块、细分支、粗分支和侧边连接;由步骤202获得张量,输入到时空降采样模块,该模块获得的特征分别输入到细分支和粗分支,而后融合到一起经过 1×1×1的卷积之后,给出最终的分类结果;
步骤4:将数据送入网络,对网络的参数进行训练;
步骤5:对于步骤4中的模型进行测试,其具体包括:
步骤501:若测试的视频序列不足32帧,则将视频序列经过步骤201补足视频序列,而后输入到网络模型,输出的结果作为最终的输出。若大于等于32帧,跳转到步骤502;
步骤502:若视频序列大于等于32帧,则将视频按照每32帧一个视频片段,依次输入到网络中,将输出的结果求和,选择求和后输出概率最大的类别作为网络的最终结果输出。
作为本发明的一种改进,所述步骤3中深度网络模型结构如下:
卷积层1:用32个步长为2×2×2的3×7×7卷积核去卷积224×224×3×32 的输入,再经过BN层和ReLU层,得到112×112×32×16的特征;
卷积层2:用32个3×3×3卷积核去卷积卷积层1输出的112×112×32×16 特征,再经过BN层和ReLU层,得到112×112×32×16的特征;
卷积层3:用32个3×3×3卷积核去卷积卷积层2输出的112×112×32×16 特征,再经过BN层和ReLU层,得到112×112×32×16的特征;
池化层1:将卷积层3输出的112×112×32×16的特征结果,经过2×2×2 的3D最大池化层后,得到56×56×32×8的特征;
卷积层4:用64个3×3×3卷积核去卷积池化层1输出的56×56×32×8特征,再经过BN层和ReLU层,得到56×56×64×8的特征;
卷积层5:用64个3×3×3卷积核去卷积卷积层4输出的56×56×32×8特征,再经过BN层和ReLU层,得到56×56×64×8的特征;
池化层2:将卷积层5输出的56×56×64×8的特征结果,经过2×2×2的 3D最大池化层后,得到28×28×64×4的特征;
卷积层6:用128个3×3×3卷积核去卷积池化层2输出的28×28×128×4 特征,再经过BN层和ReLU层,得到28×28×128×4的特征;
卷积层7:用128个3×3×3卷积核去卷积卷积层7输出的28×28×128×4 特征,再经过BN层和ReLU层,得到28×28×128×4的特征;
池化层3:将卷积层7输出的28×28×128×4的特征结果,经过2×2×2的 3D最大池化层后,得到14×14×128×2的特征;
卷积层8:用256个3×3×3卷积核去卷积池化层3输出的14×14×128×2 特征,再经过BN层和ReLU层,得到14×14×256×2的特征;
卷积层9:用256个3×3×3卷积核去卷积卷积层8输出的14×14×256×2 特征,再经过BN层和ReLU层,得到14×14×256×2的特征;
池化层4:将卷积层9输出的14×14×256×2的特征结果,经过1×1×1的 3D自适应平均池化层后,得到1×1×256×1的特征;
卷积10:用64个步长为4×1×1的4×1×1卷积核去卷积卷积层3输出的 112×112×32×16特征,再经过BN层和ReLU层,得到112×112×32×4的特征。
池化层10_1:将卷积层10输出的112×112×32×4的特征结果,经过步长为1×2×2的1×2×2 3D最大池化层后,得到56×56×32×4的特征。
卷积10_2:用64个1×3×3的卷积核去卷积池化层10_1输出的56×56×32×4特征,再经过BN层和ReLU层,得到56×56×64×4的特征。
卷积10_3:用64个1×3×3的卷积核去卷积卷积层10_2输出的 56×56×3×2特征,再经过BN层和ReLU层,得到56×56×64×4的特征。
卷积层11:用64个步长为2×1×1的2×1×1卷积核去卷积卷积层5输出的56×56×64×8特征,再经过BN层和ReLU层,得到56×56×64×4的特征。
聚集层1:将卷积10_3的输出和卷积层11的输出,沿着通道维级联,得到56×56×128×4的特征。
池化层12:将聚集层1输出的56×56×128×4的特征结果,经过步长为 1×2×2的1×2×2 3D最大池化层后,得到28×28×128×4的特征。
卷积12_1:用128个1×3×3的卷积核去卷积池化层12输出的 28×28×12×8特征,再经过BN层和ReLU层,得到28×28×128×4的特征。
卷积12_2:用128个1×3×3的卷积核去卷积卷积层12_1输出的 28×28×128×特征,再经过BN层和ReLU层,得到28×28×128×4的特征。
卷积层13:用128个1×1×1的卷积核去卷积卷积层7输出的 28×28×128×4特征,再经过BN层和ReLU层,得到28×28×128×4的特征。
聚集层2:将卷积12_2的输出和卷积层13的输出,沿着通道维级联,得到28×28×256×4的特征。
池化层14:将聚集层2输出的28×28×256×4的特征结果,经过步长为 1×2×2的1×2×2 3D最大池化层后,得到14×14×256×4的特征。
卷积14_1:用128个1×3×3的卷积核去卷积池化层14输出的 14×14×25×6特征,再经过BN层和ReLU层,得到14×14×256×4的特征。
卷积14_2:用128个1×3×3的卷积核去卷积卷积层14_1输出的 14×14×256×特征,再经过BN层和ReLU层,得到14×14×256×4的特征。
池化层14_3:将卷积层14_2输出的14×14×256×4的特征结果,经过 1×1×1的3D自适应平均池化层后,得到1×1×256×1的特征。
聚集层3:将池化层4的输出和池化层14_3的输出,沿着通道维级联,得到1×1×512×1的特征。
卷积层15:用1个1×1×1的卷积核去卷积聚集层3输出的1×1×512×1特征,得到1×1×512×1的特征。
变换层1:将卷积层15的输出1×1×512×1,转换为512维的特征向量作为网络的输出。
作为本发明的一种改进,所述步骤4中,将数据送入网络,对网络的参数进行训练,具体如下:
步骤401:将步骤202生成的数据,输入到步骤3所设计的网络模型中;
步骤402:学习网络的参数。记步骤3中深度网络模型的参数为θnet,网络的输出为Prnet。在给定的监督信号下,利用交叉熵损失函数对网络进行学习:
步骤403:通过随机梯度下降法(SGD)对网络进行训练。经过训练一定的次数之后,将模型的参数保存。
与现有技术相比,本发明具有如下优点和有益效果:
(1)本发明中的网络设计了互补的两个分支,分别为粗分支和细分支,以帮助网络学习不同的时空信息,从而实现鲁棒的行为识别。
(2)本发明构建了一个轻量化的3D网络模型,用于快速行为识别。该网络在单个GTX 1080Ti上可对大小为112×112×3的图片,实现4559帧每秒的速度进行识别。
附图说明
图1是本发明中卷积网络模型框架图。
具体实施方式
下面结合具体实施例和说明附图对本发明作进一步说明,应当理解,此处所描述的优先实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例1:参见图1,一种基于双路3D卷积网络的行为识别方法,所述方法包括下列步骤:
步骤1:制作训练和测试数据集。搜集行为识别相关的数据库,将数据库中视频序列进行处理,用于模型的训练,其具体包括:
步骤101:若数据库没有包含训练集和测试集,将数据库中每个行为类别的视频序列按照4比1的比例,将数据库分为训练集和测试集。若训练集有k个样本,则记Strain={x1,x2,...,xk}为训练集,对于第m个样本,xm={Vm;lm},其中Vm表示视频序列,lm表示该视频的标签。那么测试集有个样本,记Stest={x1,x2,...,xh}为测试集。若数据库已包含训练集和测试集,转至步骤 102。
步骤102:将数据库中的每个视频序列解码成若干张图片,将图片的分辨率统一调整为256×310,按时间顺序依次编号,记为000001.jpg, 00002.jpg,…,同时保存到本地文件夹中。若该视频序列有r帧,那么对于第 m个样本,xm={v1,v2,...,vr;lm},其中vi表示第i个图片;
步骤2:在训练过程中,对数据进行处理和扩增,其具体包括:
步骤201:从视频中随机抽取32个连续视频帧作为网络输入,如视频序列有n帧,但不足32帧,则将前32-n作为补足序列添加到第n帧之后。
步骤202:从五个图片的空间位置(即四个角和一个中心)随机剪切一个224×224×32网络输入的张量;
步骤3:建立深度网络模型,模型由4个模块组成,包括时空降采样模块、细分支、粗分支和侧边连接。由步骤202获得张量,输入到时空降采样模块,该模块获得的特征分别输入到细分支和粗分支,而后融合到一起经过 1×1×1的卷积之后,给出最终的分类结果,如图1所示。
步骤4:将数据送入网络,对网络的参数进行训练。
步骤5:对于步骤4中的模型进行测试,其具体包括:
步骤501:若测试的视频序列不足32帧,则将视频序列经过步骤201补足视频序列,而后输入到网络模型,输出的结果作为最终的输出。若大于等于32帧,跳转到步骤502。
步骤502:若视频序列大于等于32帧,则将视频按照每32帧一个视频片段,依次输入到网络中,将输出的结果求和,选择求和后输出概率最大的类别作为网络的最终结果输出。
其中,所述步骤3中深度网络模型结构如下:
卷积层1:用32个步长为2×2×2的3×7×7卷积核去卷积224×224×3×32 的输入,再经过BN层和ReLU层,得到112×112×32×16的特征。
卷积层2:用32个3×3×3卷积核去卷积卷积层1输出的112×112×32×16 特征,再经过BN层和ReLU层,得到112×112×32×16的特征。
卷积层3:用32个3×3×3卷积核去卷积卷积层2输出的112×112×32×16 特征,再经过BN层和ReLU层,得到112×112×32×16的特征。
池化层1:将卷积层3输出的112×112×32×16的特征结果,经过2×2×2 的3D最大池化层后,得到56×56×32×8的特征。
卷积层4:用64个3×3×3卷积核去卷积池化层1输出的56×56×32×8特征,再经过BN层和ReLU层,得到56×56×64×8的特征。
卷积层5:用64个3×3×3卷积核去卷积卷积层4输出的56×56×32×8特征,再经过BN层和ReLU层,得到56×56×64×8的特征。
池化层2:将卷积层5输出的56×56×64×8的特征结果,经过2×2×2的 3D最大池化层后,得到28×28×64×4的特征。
卷积层6:用128个3×3×3卷积核去卷积池化层2输出的28×28×128×4 特征,再经过BN层和ReLU层,得到28×28×128×4的特征。
卷积层7:用128个3×3×3卷积核去卷积卷积层7输出的28×28×128×4 特征,再经过BN层和ReLU层,得到28×28×128×4的特征。
池化层3:将卷积层7输出的28×28×128×4的特征结果,经过2×2×2的 3D最大池化层后,得到14×14×128×2的特征。
卷积层8:用256个3×3×3卷积核去卷积池化层3输出的14×14×128×2 特征,再经过BN层和ReLU层,得到14×14×256×2的特征。
卷积层9:用256个3×3×3卷积核去卷积卷积层8输出的14×14×256×2 特征,再经过BN层和ReLU层,得到14×14×256×2的特征。
池化层4:将卷积层9输出的14×14×256×2的特征结果,经过1×1×1的 3D自适应平均池化层后,得到1×1×256×1的特征。
卷积10:用64个步长为4×1×1的4×1×1卷积核去卷积卷积层3输出的 112×112×32×16特征,再经过BN层和ReLU层,得到112×112×32×4的特征。
池化层10_1:将卷积层10输出的112×112×32×4的特征结果,经过步长为1×2×2的1×2×2 3D最大池化层后,得到56×56×32×4的特征。
卷积10_2:用64个1×3×3的卷积核去卷积池化层10_1输出的 56×56×3×2特征,再经过BN层和ReLU层,得到56×56×64×4的特征。
卷积10_3:用64个1×3×3的卷积核去卷积卷积层10_2输出的 56×56×3×2特征,再经过BN层和ReLU层,得到56×56×64×4的特征。
卷积层11:用64个步长为2×1×1的2×1×1卷积核去卷积卷积层5输出的56×56×64×8特征,再经过BN层和ReLU层,得到56×56×64×4的特征。
聚集层1:将卷积10_3的输出和卷积层11的输出,沿着通道维级联,得到56×56×128×4的特征。
池化层12:将聚集层1输出的56×56×128×4的特征结果,经过步长为 1×2×2的1×2×2 3D最大池化层后,得到28×28×128×4的特征。
卷积12_1:用128个1×3×3的卷积核去卷积池化层12输出的 28×28×12×8特征,再经过BN层和ReLU层,得到28×28×128×4的特征。
卷积12_2:用128个1×3×3的卷积核去卷积卷积层12_1输出的 28×28×128×特征,再经过BN层和ReLU层,得到28×28×128×4的特征。
卷积层13:用128个1×1×1的卷积核去卷积卷积层7输出的 28×28×128×4特征,再经过BN层和ReLU层,得到28×28×128×4的特征。
聚集层2:将卷积12_2的输出和卷积层13的输出,沿着通道维级联,得到28×28×256×4的特征。
池化层14:将聚集层2输出的28×28×256×4的特征结果,经过步长为 1×2×2的1×2×2 3D最大池化层后,得到14×14×256×4的特征。
卷积14_1:用128个1×3×3的卷积核去卷积池化层14输出的 14×14×256×4特征,再经过BN层和ReLU层,得到14×14×256×4的特征。
卷积14_2:用128个1×3×3的卷积核去卷积卷积层14_1输出的 14×14×256×特征,再经过BN层和ReLU层,得到14×14×256×4的特征。
池化层14_3:将卷积层14_2输出的14×14×256×4的特征结果,经过 1×1×1的3D自适应平均池化层后,得到1×1×256×1的特征。
聚集层3:将池化层4的输出和池化层14_3的输出,沿着通道维级联,得到1×1×512×1的特征。
卷积层15:用1个1×1×1的卷积核去卷积聚集层3输出的1×1×512×1特征,得到1×1×512×1的特征。
变换层1:将卷积层15的输出1×1×512×1,转换为512维的特征向量作为网络的输出。
其中,所述步骤4中,将数据送入网络,对网络的参数进行训练。
步骤401:将步骤202生成的数据,输入到步骤3所设计的网络模型中。
步骤402:学习网络的参数。记步骤3中深度网络模型的参数为θnet,网络的输出为Prnet。在给定的监督信号下,利用交叉熵损失函数对网络进行学习:
步骤403:通过随机梯度下降法(SGD)对网络进行训练。经过训练一定的次数之后,将模型的参数保存。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (4)
1.一种基于双路3D卷积网络的行为识别方法,其特征在于,所述方法包括下列步骤:
步骤1:制作训练和测试数据集;搜集行为识别相关的数据库,将数据库中视频序列进行处理,用于模型的训练,
步骤2:在训练过程中,对数据进行处理和扩增,
所述步骤2:在训练过程中,对数据进行处理和扩增,其具体包括:
步骤201:从视频中随机抽取32个连续视频帧作为网络输入,设视频序列有n帧,但不足32帧,则将前32-n作为补足序列添加到第n帧之后;
步骤202:从五个图片的空间位置即四个角和一个中心随机剪切一个224×224×32网络输入的张量;
步骤3:建立深度网络模型,模型由4个模块组成,包括时空降采样模块、细分支、粗分支和侧边连接;由步骤202获得张量,输入到时空降采样模块,该模块获得的特征分别输入到细分支和粗分支,而后融合到一起经过1×1×1的卷积之后,给出最终的分类结果;
所述步骤3中深度网络模型结构如下:
卷积层1:用32个步长为2×2×2的3×7×7卷积核去卷积224×224×3×32的输入,再经过BN层和ReLU层,得到112×112×32×16的特征;
卷积层2:用32个3×3×3卷积核去卷积卷积层1输出的112×112×32×16特征,再经过BN层和ReLU层,得到112×112×32×16的特征;
卷积层3:用32个3×3×3卷积核去卷积卷积层2输出的112×112×32×16特征,再经过BN层和ReLU层,得到112×112×32×16的特征;
池化层1:将卷积层3输出的112×112×32×16的特征结果,经过2×2×2的3D最大池化层后,得到56×56×32×8的特征;
卷积层4:用64个3×3×3卷积核去卷积池化层1输出的56×56×32×8特征,再经过BN层和ReLU层,得到56×56×64×8的特征;
卷积层5:用64个3×3×3卷积核去卷积卷积层4输出的56×56×32×8特征,再经过BN层和ReLU层,得到56×56×64×8的特征;
池化层2:将卷积层5输出的56×56×64×8的特征结果,经过2×2×2的3D最大池化层后,得到28×28×64×4的特征;
卷积层6:用128个3×3×3卷积核去卷积池化层2输出的28×28×128×4特征,再经过BN层和ReLU层,得到28×28×128×4的特征;
卷积层7:用128个3×3×3卷积核去卷积卷积层7输出的28×28×128×4特征,再经过BN层和ReLU层,得到28×28×128×4的特征;
池化层3:将卷积层7输出的28×28×128×4的特征结果,经过2×2×2的3D最大池化层后,得到14×14×128×2的特征;
卷积层8:用256个3×3×3卷积核去卷积池化层3输出的14×14×128×2特征,再经过BN层和ReLU层,得到14×14×256×2的特征;
卷积层9:用256个3×3×3卷积核去卷积卷积层8输出的14×14×256×2特征,再经过BN层和ReLU层,得到14×14×256×2的特征;
池化层4:将卷积层9输出的14×14×256×2的特征结果,经过1×1×1的3D自适应平均池化层后,得到1×1×256×1的特征;
卷积10:用64个步长为4×1×1的4×1×1卷积核去卷积卷积层3输出的112×112×32×16特征,再经过BN层和ReLU层,得到112×112×32×4的特征;
池化层10_1:将卷积层10输出的112×112×32×4的特征结果,经过步长为1×2×2的1×2×2 3D最大池化层后,得到56×56×32×4的特征;
卷积10_2:用64个1×3×3的卷积核去卷积池化层10_1输出的56×56×32×4特征,再经过BN层和ReLU层,得到56×56×64×4的特征;
卷积10_3:用64个1×3×3的卷积核去卷积卷积层10_2输出的56×56×32×4特征,再经过BN层和ReLU层,得到56×56×64×4的特征;
卷积层11:用64个步长为2×1×1的2×1×1卷积核去卷积卷积层5输出的56×56×64×8特征,再经过BN层和ReLU层,得到56×56×64×4的特征;
聚集层1:将卷积10_3的输出和卷积层11的输出,沿着通道维级联,得到56×56×128×4的特征;
池化层12:将聚集层1输出的56×56×128×4的特征结果,经过步长为1×2×2的1×2×2 3D最大池化层后,得到28×28×128×4的特征;
卷积12_1:用128个1×3×3的卷积核去卷积池化层12输出的28×28×128×4特征,再经过BN层和ReLU层,得到28×28×128×4的特征;
卷积12_2:用128个1×3×3的卷积核去卷积卷积层12_1输出的28×28×128×4特征,再经过BN层和ReLU层,得到28×28×128×4的特征;
卷积层13:用128个1×1×1的卷积核去卷积卷积层7输出的28×28×128×4特征,再经过BN层和ReLU层,得到28×28×128×4的特征;
聚集层2:将卷积12_2的输出和卷积层13的输出,沿着通道维级联,得到28×28×256×4的特征;
池化层14:将聚集层2输出的28×28×256×4的特征结果,经过步长为1×2×2的1×2×2 3D最大池化层后,得到14×14×256×4的特征;
卷积14_1:用128个1×3×3的卷积核去卷积池化层14输出的14×14×256×4特征,再经过BN层和ReLU层,得到14×14×256×4的特征;
卷积14_2:用128个1×3×3的卷积核去卷积卷积层14_1输出的14×14×256×4特征,再经过BN层和ReLU层,得到14×14×256×4的特征;
池化层14_3:将卷积层14_2输出的14×14×256×4的特征结果,经过1×1×1的3D自适应平均池化层后,得到1×1×256×1的特征;
聚集层3:将池化层4的输出和池化层14_3的输出,沿着通道维级联,得到1×1×512×1的特征;
卷积层15:用1个1×1×1的卷积核去卷积聚集层3输出的1×1×512×1特征,得到1×1×512×1的特征;
变换层1:将卷积层15的输出1×1×512×1,转换为512维的特征向量作为网络的输出;
步骤4:将数据送入网络,对网络的参数进行训练;
步骤5:对于步骤4中的模型进行测试。
2.根据权利要求1所述的基于双路3D卷积网络的行为识别方法,其特征在于,
所述步骤1:制作训练和测试数据集;搜集行为识别相关的数据库,将数据库中视频序列进行处理,用于模型的训练,其具体包括:
步骤101:若数据库没有包含训练集和测试集,将数据库中每个行为类别的视频序列按照4比1的比例,将数据库分为训练集和测试集,若训练集有k个样本,则记Strain={x1,x2,...,xk}为训练集,对于第m个样本,xm={Vm;lm},其中Vm表示视频序列,lm表示该视频的标签;那么测试集有个样本,记Stest={x1,x2,...,xh}为测试集;若数据库已包含训练集和测试集,转至步骤102;
步骤102:将数据库中的每个视频序列解码成若干张图片,将图片的分辨率统一调整为256×310,按时间顺序依次编号,记为000001.jpg,00002.jpg,…,同时保存到本地文件夹中;若该视频序列有r帧,那么对于第m个样本,xm={v1,v2,...,vr;lm},其中vi表示第i个图片。
3.根据权利要求1所述的基于双路3D卷积网络的行为识别方法,其特征在于,步骤4中,将数据送入网络,对网络的参数进行训练;具体如下:
步骤401:将步骤202生成的数据,输入到步骤3所设计的网络模型中,
步骤402:学习网络的参数,记步骤3中深度网络模型的参数为θnet,网络的输出为Prnet,在给定的监督信号下,利用交叉熵损失函数对网络进行学习:
步骤403:通过随机梯度下降法(SGD)对网络进行训练,经过训练一定的次数之后,将模型的参数保存。
4.根据权利要求1所述的基于双路3D卷积网络的行为识别方法,其特征在于,步骤5:对于步骤4中的模型进行测试,其具体包括:
步骤501:若测试的视频序列不足32帧,则将视频序列经过步骤201补足视频序列,而后输入到网络模型,输出的结果作为最终的输出,若大于等于32帧,跳转到步骤502;
步骤502:若视频序列大于等于32帧,则将视频按照每32帧一个视频片段,依次输入到网络中,将输出的结果求和,选择求和后输出概率最大的类别作为网络的最终结果输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910964765.XA CN110991219B (zh) | 2019-10-11 | 2019-10-11 | 一种基于双路3d卷积网络的行为识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910964765.XA CN110991219B (zh) | 2019-10-11 | 2019-10-11 | 一种基于双路3d卷积网络的行为识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110991219A CN110991219A (zh) | 2020-04-10 |
CN110991219B true CN110991219B (zh) | 2024-02-06 |
Family
ID=70081875
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910964765.XA Active CN110991219B (zh) | 2019-10-11 | 2019-10-11 | 一种基于双路3d卷积网络的行为识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110991219B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112185543A (zh) * | 2020-09-04 | 2021-01-05 | 南京信息工程大学 | 一种医疗感应数据流分类模型的构建方法 |
CN113343786B (zh) * | 2021-05-20 | 2022-05-17 | 武汉大学 | 基于深度学习的轻量化视频动作识别方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018171109A1 (zh) * | 2017-03-23 | 2018-09-27 | 北京大学深圳研究生院 | 基于卷积神经网络的视频动作检测方法 |
CN108875674A (zh) * | 2018-06-29 | 2018-11-23 | 东南大学 | 一种基于多列融合卷积神经网络的驾驶员行为识别方法 |
CN109784150A (zh) * | 2018-12-06 | 2019-05-21 | 东南大学 | 基于多任务时空卷积神经网络的视频驾驶员行为识别方法 |
CN109829443A (zh) * | 2019-02-23 | 2019-05-31 | 重庆邮电大学 | 基于图像增强与3d卷积神经网络的视频行为识别方法 |
CN110059582A (zh) * | 2019-03-28 | 2019-07-26 | 东南大学 | 基于多尺度注意力卷积神经网络的驾驶员行为识别方法 |
CN110210439A (zh) * | 2019-06-10 | 2019-09-06 | 西北工业大学 | 基于轻量化三维卷积网络的行为识别方法 |
-
2019
- 2019-10-11 CN CN201910964765.XA patent/CN110991219B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018171109A1 (zh) * | 2017-03-23 | 2018-09-27 | 北京大学深圳研究生院 | 基于卷积神经网络的视频动作检测方法 |
CN108875674A (zh) * | 2018-06-29 | 2018-11-23 | 东南大学 | 一种基于多列融合卷积神经网络的驾驶员行为识别方法 |
CN109784150A (zh) * | 2018-12-06 | 2019-05-21 | 东南大学 | 基于多任务时空卷积神经网络的视频驾驶员行为识别方法 |
CN109829443A (zh) * | 2019-02-23 | 2019-05-31 | 重庆邮电大学 | 基于图像增强与3d卷积神经网络的视频行为识别方法 |
CN110059582A (zh) * | 2019-03-28 | 2019-07-26 | 东南大学 | 基于多尺度注意力卷积神经网络的驾驶员行为识别方法 |
CN110210439A (zh) * | 2019-06-10 | 2019-09-06 | 西北工业大学 | 基于轻量化三维卷积网络的行为识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110991219A (zh) | 2020-04-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113936339B (zh) | 基于双通道交叉注意力机制的打架识别方法和装置 | |
Li et al. | No-reference image quality assessment with deep convolutional neural networks | |
Girisha et al. | Uvid-net: Enhanced semantic segmentation of uav aerial videos by embedding temporal information | |
CN111507275B (zh) | 一种基于深度学习的视频数据时序信息提取方法及装置 | |
CN109993269A (zh) | 基于注意力机制的单张图像人群计数方法 | |
CN110991219B (zh) | 一种基于双路3d卷积网络的行为识别方法 | |
CN112818969A (zh) | 一种基于知识蒸馏的人脸姿态估计方法及系统 | |
CN114898284B (zh) | 一种基于特征金字塔局部差异注意力机制的人群计数方法 | |
CN111046757A (zh) | 人脸画像生成模型的训练方法、装置及相关设备 | |
CN111160378A (zh) | 基于单张图像的多任务增强的深度估计系统 | |
Wang | A survey on IQA | |
CN110503014B (zh) | 基于多尺度掩码感知回馈卷积神经网络的人数统计方法 | |
CN115908896A (zh) | 基于带自注意力机制脉冲神经网络的图片识别系统 | |
Wu et al. | Cross-fiber spatial-temporal co-enhanced networks for video action recognition | |
CN117830788A (zh) | 一种多源信息融合的图像目标检测方法 | |
CN114022878A (zh) | 一种基于改进YOLOv5的串型番茄实时检测方法 | |
CN113255464A (zh) | 一种飞机动作识别方法及系统 | |
CN112560668A (zh) | 一种基于场景先验知识的人体行为识别方法 | |
CN112418229A (zh) | 一种基于深度学习的无人船海上场景图像实时分割方法 | |
CN109558819B (zh) | 一种用于遥感图像目标检测的深度网络轻量化方法 | |
CN116311504A (zh) | 一种小样本行为识别方法、系统及设备 | |
CN116229323A (zh) | 一种基于改进的深度残差网络的人体行为识别方法 | |
CN111144220A (zh) | 适于大数据的人员检测方法、装置、设备和介质 | |
Cai et al. | DCASE2023 task1 submission: Device simulation and time-frequency separable convolution for acoustic scene classification | |
CN113205078B (zh) | 基于多分支递进强化注意力人群计数方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |