CN113158760A - 一种基于多层次标签的弱监督特定行为识别系统 - Google Patents
一种基于多层次标签的弱监督特定行为识别系统 Download PDFInfo
- Publication number
- CN113158760A CN113158760A CN202110193170.6A CN202110193170A CN113158760A CN 113158760 A CN113158760 A CN 113158760A CN 202110193170 A CN202110193170 A CN 202110193170A CN 113158760 A CN113158760 A CN 113158760A
- Authority
- CN
- China
- Prior art keywords
- video
- image
- module
- network
- specific behavior
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 24
- 238000001514 detection method Methods 0.000 claims abstract description 11
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 230000006399 behavior Effects 0.000 claims description 37
- 238000000034 method Methods 0.000 claims description 20
- 238000000605 extraction Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 8
- 230000009471 action Effects 0.000 claims description 6
- 230000002779 inactivation Effects 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 238000002156 mixing Methods 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 2
- 230000010365 information processing Effects 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims 1
- 238000004364 calculation method Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000009849 deactivation Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4007—Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
- G06T2207/20132—Image cropping
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于多层次标签的弱监督特定行为识别系统,包括:检测信息获取单元、信息存储单元和特定行为识别单元;所述检测信息获取单元用于通过摄像装置进行视频数据采集,并将获取的待识别的特定行为视频图像数据进行预处理后存储至所述信息存储单元;所述信息存储单元用于存储系统采集的视频数据及运行参数,所述信息存储单元包括标签知识库、训练集数据库和视频缓存模块;所述特定行为识别单元用于对预处理后的图像数据进行识别,利用基于弱监督的方式通过卷积神经网络对图像特征进行提取,并与多路子网络相结合得到一个分类网络模型,进行特定行为分类识别,本发明可对输入图像并行运算且计算效率较高。
Description
技术领域
本发明涉及图像识别技术领域,尤其涉及到一种基于多层次标签的弱监督特定行为识别系统。
背景技术
强监督学习,一般要对图像进行目标级或者语义级的标记来获取监督信息,处理图像较多时,存在标记困难的问题。而弱监督学习所采用的图像级标签只标注了图像中存在哪些类别的物体,对于存在的物体在图像中的位置信息则没有任何标注。但在弱监督学习条件下,学习模型难以直接定位目标在图像中的区域,现有的弱监督学习方法大概包括以下两类:一个是通过目标性算法等方式获取候选框,并通过对这些候选框对应的图像区域进行分类,获取图像中包含的所有物体的类别信息;而另一个则是通过循环神经网络递进地获取图像中的区域特征,进而得到分类结果。前者获取目标候选框的代价大,且分类过程中存在大量冗余计算;而后者时序递进的方法导致无法进行高效的并行运算,计算效率较低。
综上所述,提供一种可并行运算、计算效率高且可有效规避计算冗余的基于多层次标签的弱监督特定行为识别系统,是本领域技术人员急需解决的问题。
发明内容
本方案针对上文提到的问题和需求,提出一种基于多层次标签的弱监督特定行为识别系统,其由于采取了如下技术方案而能够解决上述技术问题。
为实现上述目的,本发明提供如下技术方案:一种基于多层次标签的弱监督特定行为识别系统,包括:检测信息获取单元、信息存储单元和特定行为识别单元;
所述检测信息获取单元用于通过摄像装置进行视频数据采集,所述检测信息获取单元包括视频获取模块、自动控制模块和自动补偿模块,所述视频获取模块用于获取待识别的特定行为视频图像数据并进行预处理,将预处理后的视频图像数据存储至所述信息存储单元,所述自动控制模块用于控制视频获取动作的起始,所述自动补偿模块用于在视频采集过程中进行自动调焦和光线补偿;
所述信息存储单元用于存储系统采集的视频数据及运行参数,所述信息存储单元包括标签知识库、训练集数据库和视频缓存模块,所述标签知识库用于存储标签数据,所述训练集数据库用于存储识别网络的训练数据,所述视频缓存模块用于存储预处理后的视频图像数据;
所述特定行为识别单元用于对预处理后的图像数据进行识别,所述特定行为识别单元包括训练数据生成模块、特征提取模块、分类选择模块和识别模块,所述训练数据生成模块用于对训练数据进行预处理,所述特征提取模块采用卷积神经网络进行图像特征提取,所述分类选择模块用于将所述特征提取模块输出的特征图进行随机失活正则化后进行分类输出,利用训练集数据库中的样本数据进行训练得到一个分类网络模型,所述识别模块用于将待识别的特定行为视频图像数据输入所述分类网络模型进行特定行为识别。
进一步地,所述视频获取模块用于通过摄像装置获取视频数据,并将包含T个帧的未剪切视频图像数据划分成视频集合其中,N是视频片段的个数,ci=(ai,bi)表示第i个视频片段的起止时间,将N个视频片段分别进行分帧处理,每个视频片段得到K帧动作图像。
进一步地,所述训练数据生成模块首先对训练集数据库中的训练样本图像根据公式进行标准化处理,其中,I为图像矩阵,μ表示图像的均值,Var(I)表示图像的标准方差,并将所有图像都缩放到相同的尺寸,然后对样本图像进行多样化处理平衡过拟合问题,最后对图像进行灰度化、二值化、锐化和去离散噪声处理。
更进一步地,所述对样本图像进行多样化处理包括:首先对样本中的图像以的概率进行随机反转,并对图像进行随机裁剪,从图像中裁剪一个大小为原图像之间,长宽比在3:4到4:3 之间的图像块,然后通过双线性插值的方法将所述图像块缩放为大小相同的图像作为随机裁剪后的图像,将随机反转和随机裁剪后的图像与未处理样本图像进行混合形成新的训练集。
更进一步地,将所述新的训练集中的样本图像输入所述特征提取模块,所述特征提取模块采用预训练好的ResNet卷积神经网络主干网络提取出图像特征信息,并将输出的特征信息进行随机失活正则化处理后传输至所述分类选择模块,所述分类选择模块包括多路支路网络,每路网络分别判断某一特定行为类别是否存在于图像中;
所述ResNet卷积神经网络主干网络包括ResNet卷积神经网络去除全局池化层和全连接层以外的结构;
所述每路网络包括一个通道注意信息获取层,所述通道注意信息获取层中所有特征均直接共连用于完整地获取所有特征的上下文信息,将所述ResNet卷积神经网络主干网络输出的特征输入所述通道注意信息获取层后,获取每个支路网络的通道注意信息,并将所述通道注意信息作为通道上的权重与所述ResNet卷积神经网络主干网络输出的最后一层特征相乘,获得对应支路网络在通道注意机制下的特征图,对经过通道注意加权后的特征进行全局平均池化操作,再通过一个全连接层以及Sigmoid函数得到一个预测值,所述预测值为对应支路上对应的类别在多标签图像中存在的概率;
所述通道注意信息获取层采用两层全连接层结构。
更进一步地,所述ResNet卷积神经网络主干网络和所述多路支路网络组成的分类网络模型采用二值交叉熵作为损失函数,对模型进行训练。
更进一步地,所述识别模块将所述N个视频片段分组输入训练好的分类网络进行识别,并根据识别结果对特定行为进行差异化报警,所述差异化报警包括两种报警模式,所述两种报警模式分别为单一报警模式和并行报警模式,所述单一报警模式仅对识别的结果属于哪种特定行为进行报警提醒,所述并行报警模式对各对应支路上对应的类别在多标签图像中存在的概率均进行输出提醒。
从上述的技术方案可以看出,本发明的有益效果是:本发明利用基于弱监督的方式通过卷积神经网络对图像特征进行提取,并与多路子网络相结合得到一个分类识别网络模型,其可对图像特征进行并行运算、计算效率高且可有效规避计算冗余,适应性较好。
除了上面所描述的目的、特征和优点之外,下文中将结合附图对实施本发明的最优实施例进行更详尽的描述,以便能容易地理解本发明的特征和优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下文将对本发明实施例或现有技术描述中所需要使用的附图作简单地介绍,其中,附图仅仅用于展示本发明的一些实施例,而非将本发明的全部实施例限制于此。
图1为本发明一种基于多层次标签的弱监督特定行为识别系统的步骤示意图。
图2为本实施例中待识别视频图像数据预处理过程的步骤示意图。
图3为本实施例中训练数据处理过程的步骤示意图。
图4为本实施例中分类网络模型的组成结构示意图。
具体实施方式
为了使得本发明的技术方案的目的、技术方案和优点更加清楚,下文中将结合本发明具体实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。附图中相同的附图标记代表相同的部件。需要说明的是,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
在许多重要场景下,需要对人的特定行为进行判别,判定其是否合法,或者在形体考试等情况下,需要多动作的一致性进行判定,本发明提供了一种可进行并行运算、计算效率高且可有效规避计算冗余,适应性较好的基于多层次标签的弱监督特定行为识别系统。如图1至图4所示,该系统包括:检测信息获取单元、信息存储单元和特定行为识别单元;所述检测信息获取单元用于通过摄像装置进行视频数据采集,所述检测信息获取单元包括视频获取模块、自动控制模块和自动补偿模块,所述视频获取模块用于获取待识别的特定行为视频图像数据并进行预处理,将预处理后的视频图像数据存储至所述信息存储单元,所述自动控制模块用于控制视频获取动作的起始,方便对视频进行控制,可根据用户需求对视频采集过程进行智能控制,所述自动补偿模块用于在视频采集过程中进行自动调焦和光线补偿,保证获取图像的质量。其中,如图2所示,所述预处理的过程如下:a.所述视频获取模块通过摄像装置获取视频数据,并将包含T个帧的未剪切视频图像数据划分成视频集合其中,N是视频片段的个数,ci=(ai,bi)表示第i个视频片段的起止时间;b.生成视频集合C的过程是将一个长视频分成N个等长的视频片段,即c.将N个视频片段分别进行分帧处理,每个视频片段得到K帧动作图像。
在本系统中,所述信息存储单元用于存储系统采集的视频数据及运行参数,所述信息存储单元包括标签知识库、训练集数据库和视频缓存模块,所述标签知识库用于存储标签数据,所述训练集数据库用于存储识别网络的训练数据,所述视频缓存模块用于存储预处理后的视频图像数据。
对特定行为图像进行识别需要训练一个图像分类识别模型对待识别图像的特征进行提取和分类识别,而本系统中的所述特定行为识别单元用于对预处理后的图像数据进行识别,所述特定行为识别单元包括训练数据生成模块、特征提取模块、分类选择模块和识别模块,所述训练数据生成模块用于对训练数据进行预处理,所述特征提取模块基于弱监督的方式采用卷积神经网络进行图像特征提取,所述分类选择模块用于将所述特征提取模块输出的特征图进行随机失活正则化后进行分类输出,利用训练集数据库中的样本数据进行训练得到一个分类网络模型,所述识别模块用于将待识别的特定行为视频图像数据输入所述分类网络模型进行特定行为识别,并根据识别结果对特定行为进行差异化报警,所述差异化报警包括两种报警模式,所述两种报警模式分别为单一报警模式和并行报警模式,所述单一报警模式仅对识别的结果属于哪种特定行为进行报警提醒,所述并行报警模式对各对应支路上对应的类别在多标签图像中存在的概率均进行输出提醒。
如图3所示,训练数据处理过程如下:a.所述训练数据生成模块首先对训练集数据库中的训练样本图像根据公式进行标准化处理,其中,I为图像矩阵,μ表示图像的均值,Var(I)表示图像的标准方差;b.将所有图像都缩放到相同的尺寸然后对样本图像进行多样化处理平衡过拟合问题,最后对图像进行灰度化、二值化、锐化和去离散噪声处理;c.而所述对样本图像进行多样化处理过程包括:首先对样本中的图像以的概率进行随机反转,并对图像进行随机裁剪,从图像中裁剪一个大小为原图像之间,长宽比在3:4到4:3之间的图像块;d.然后通过双线性插值的方法将所述图像块缩放为大小相同的图像作为随机裁剪后的图像,将随机反转和随机裁剪后的图像与未处理样本图像进行混合形成新的训练集。在得到新的训练集后,用其来进行训练可以提高训练样本的利用率,并且还能很好的提高学习网络的适应性。
网络训练阶段:将所述新的训练集中经过处理的样本图像输入所述特征提取模块,所述特征提取模块采用预训练好的ResNet卷积神经网络主干网络提取出图像特征信息,ResNet网络模型包括两部分,主模型部分和子模型部分,子模型部分实现由多个残差单元组成的一个layer,主模型将最开始的卷积池化和最后的池化全连接以及中间的多个拥有不同参数的layer组合起来,以形成 ResNet网络。本实施例中,如图4所示,采用ResNet34卷积神经网络主干网络进行图像特征提取,并将其输出的特征信息进行随机失活正则化处理后传输至所述分类选择模块,所述分类选择模块包括多路支路网络,每路网络分别用于判断某一特定行为类别是否存在于图像中;
所述ResNet34卷积神经网络主干网络包括ResNet34卷积神经网络去除全局池化层和全连接层以外的结构;
所述每路网络包括一个通道注意信息获取层,所述通道注意信息获取层中所有特征均直接共连用于完整地获取所有特征的上下文信息,所述通道注意信息获取层采用两层全连接层结构,本实施例采用的通道注意信息获取层与所述SENet网络结构中的两层全连接层结构相同,使用两个全连接层可以限制模型复杂度,增加泛化。然后将所述ResNet34卷积神经网络主干网络输出的特征输入所述通道注意信息获取层后,获取每个支路网络的通道注意信息,并将所述通道注意信息作为通道上的权重与所述ResNet34卷积神经网络主干网络输出的最后一层特征相乘,获得对应支路网络在通道注意机制下的特征图,对经过通道注意加权后的特征进行全局平均池化操作,再通过一个一层全连接层以及Sigmoid函数得到一个预测值,所述预测值为对应支路上对应的类别在多标签图像中存在的概率。所述ResNet34卷积神经网络主干网络和所述多路支路网络组成的分类网络模型采用二值交叉熵作为损失函数,对模型进行训练,所述损失函数根据公式 进行计算,表示第i各特定行为类别的预测值,该值的取值范围为0-1,yi表示该样本中是否含有第i个类别,如果是则该值取1否则取0,N表示数据集中所有标注的类型的数目。当得到训练好的分类网络模型后,所述识别模块将处理好的待识别图像即所述N个视频片段中的图像数据分组输入训练好的分类网络进行识别,并得到最终特定行为识别结果。本发明既保留了卷积神经网络的端到端且可进行并行化运算,还提高了网络的识别性能。且其具有易于扩展的特点,适应性高,对于新增的物体类别,该网络可以很好地延续先前的学习结果,快速地完成新物体的分类。
应当说明的是,本发明所述的实施方式仅仅是实现本发明的优选方式,对属于本发明整体构思,而仅仅是显而易见的改动,均应属于本发明的保护范围之内。
Claims (8)
1.一种基于多层次标签的弱监督特定行为识别系统,其特征在于,包括:检测信息获取单元、信息存储单元和特定行为识别单元;
所述检测信息获取单元用于通过摄像装置进行视频数据采集,所述检测信息获取单元包括视频获取模块、自动控制模块和自动补偿模块,所述视频获取模块用于获取待识别的特定行为视频图像数据并进行预处理,将预处理后的视频图像数据存储至所述信息存储单元,所述自动控制模块用于控制视频获取动作的起始,所述自动补偿模块用于在视频采集过程中进行自动调焦和光线补偿;
所述信息存储单元用于存储系统采集的视频数据及运行参数,所述信息存储单元包括标签知识库、训练集数据库和视频缓存模块,所述标签知识库用于存储标签数据,所述训练集数据库用于存储识别网络的训练数据,所述视频缓存模块用于存储预处理后的视频图像数据;
所述特定行为识别单元用于对预处理后的图像数据进行识别,所述特定行为识别单元包括训练数据生成模块、特征提取模块、分类选择模块和识别模块,所述训练数据生成模块用于对训练数据进行预处理,所述特征提取模块采用卷积神经网络进行图像特征提取,所述分类选择模块用于将所述特征提取模块输出的特征图进行随机失活正则化后进行分类输出,利用训练集数据库中的样本数据进行训练得到一个分类网络模型,所述识别模块用于将待识别的特定行为视频图像数据输入所述分类网络模型进行特定行为识别。
6.如权利要求5所述的基于多层次标签的弱监督特定行为识别系统,其特征在于,将所述新的训练集中经过处理的样本图像输入所述特征提取模块,所述特征提取模块采用预训练好的ResNet卷积神经网络主干网络提取出图像特征信息,并将输出的特征信息进行随机失活正则化处理后传输至所述分类选择模块,所述分类选择模块包括多路支路网络,每路网络分别判断某一特定行为类别是否存在于图像中;
所述ResNet卷积神经网络主干网络包括ResNet卷积神经网络去除全局池化层和全连接层以外的结构;
所述每路网络包括一个通道注意信息获取层,所述通道注意信息获取层中所有特征均直接共连用于完整地获取所有特征的上下文信息,将所述ResNet卷积神经网络主干网络输出的特征输入所述通道注意信息获取层后,获取每个支路网络的通道注意信息,并将所述通道注意信息作为通道上的权重与所述ResNet卷积神经网络主干网络输出的最后一层特征相乘,获得对应支路网络在通道注意机制下的特征图,对经过通道注意加权后的特征进行全局平均池化操作,再通过一个一层全连接层以及Sigmoid函数得到一个预测值,所述预测值为对应支路上对应的类别在多标签图像中存在的概率;
所述通道注意信息获取层采用两层全连接层结构。
7.如权利要求6所述的基于多层次标签的弱监督特定行为识别系统,其特征在于,所述ResNet卷积神经网络主干网络和所述多路支路网络组成的分类网络模型采用二值交叉熵作为损失函数,对模型进行训练。
8.如权利要求7所述的基于多层次标签的弱监督特定行为识别系统,其特征在于,所述识别模块将所述N个视频片段分组输入训练好的分类网络进行识别,并根据识别结果对特定行为进行差异化报警,所述差异化报警包括两种报警模式,所述两种报警模式分别为单一报警模式和并行报警模式,所述单一报警模式仅对识别的结果属于哪种特定行为进行报警提醒,所述并行报警模式对各对应支路上对应的类别在多标签图像中存在的概率均进行输出提醒。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110193170.6A CN113158760B (zh) | 2021-02-20 | 2021-02-20 | 一种基于多层次标签的弱监督特定行为识别系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110193170.6A CN113158760B (zh) | 2021-02-20 | 2021-02-20 | 一种基于多层次标签的弱监督特定行为识别系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113158760A true CN113158760A (zh) | 2021-07-23 |
CN113158760B CN113158760B (zh) | 2023-08-15 |
Family
ID=76883410
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110193170.6A Active CN113158760B (zh) | 2021-02-20 | 2021-02-20 | 一种基于多层次标签的弱监督特定行为识别系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113158760B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019136946A1 (zh) * | 2018-01-15 | 2019-07-18 | 中山大学 | 基于深度学习的弱监督显著性物体检测的方法及系统 |
CN110569901A (zh) * | 2019-09-05 | 2019-12-13 | 北京工业大学 | 一种基于通道选择的对抗消除弱监督目标检测方法 |
-
2021
- 2021-02-20 CN CN202110193170.6A patent/CN113158760B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019136946A1 (zh) * | 2018-01-15 | 2019-07-18 | 中山大学 | 基于深度学习的弱监督显著性物体检测的方法及系统 |
CN110569901A (zh) * | 2019-09-05 | 2019-12-13 | 北京工业大学 | 一种基于通道选择的对抗消除弱监督目标检测方法 |
Non-Patent Citations (1)
Title |
---|
朱阳光;刘瑞敏;黄琼桃;: "基于深度神经网络的弱监督信息细粒度图像识别", 电子测量与仪器学报, no. 02 * |
Also Published As
Publication number | Publication date |
---|---|
CN113158760B (zh) | 2023-08-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111639692B (zh) | 一种基于注意力机制的阴影检测方法 | |
Lin et al. | Bmn: Boundary-matching network for temporal action proposal generation | |
CN111259786B (zh) | 一种基于视频的外观和运动信息同步增强的行人重识别方法 | |
Bartz et al. | STN-OCR: A single neural network for text detection and text recognition | |
CN112818931A (zh) | 基于多粒度深度特征融合的多尺度行人重识别方法 | |
CN108537119B (zh) | 一种小样本视频识别方法 | |
Rahmon et al. | Motion U-Net: Multi-cue encoder-decoder network for motion segmentation | |
CN110414367B (zh) | 一种基于gan和ssn的时序行为检测方法 | |
CN113158815B (zh) | 一种无监督行人重识别方法、系统及计算机可读介质 | |
CN111950497A (zh) | 一种基于多任务学习模型的ai换脸视频检测方法 | |
CN113591674B (zh) | 一种面向实时视频流的边缘环境行为识别系统 | |
CN111126401A (zh) | 一种基于上下文信息的车牌字符识别方法 | |
CN114283350A (zh) | 视觉模型训练和视频处理方法、装置、设备及存储介质 | |
CN115731422A (zh) | 多标签分类模型的训练方法、分类方法及装置 | |
US20230154139A1 (en) | Systems and methods for contrastive pretraining with video tracking supervision | |
CN113393385B (zh) | 基于多尺度融合的无监督去雨方法、系统、装置及介质 | |
CN114996495A (zh) | 一种基于多原型和迭代增强的单样本图像分割方法及装置 | |
CN113449676A (zh) | 一种基于双路互促进解纠缠学习的行人重识别方法 | |
CN112613474A (zh) | 一种行人重识别的方法和装置 | |
CN116704433A (zh) | 基于上下文感知关系预测编码的自监督群体行为识别方法 | |
CN113158760A (zh) | 一种基于多层次标签的弱监督特定行为识别系统 | |
CN116091763A (zh) | 苹果叶部病害图像语义分割系统及分割方法、设备和介质 | |
CN114972964A (zh) | 一种基于对比学习的域适应物体检测方法及装置 | |
CN113378598A (zh) | 一种基于深度学习的动态条码检测方法 | |
Ajith et al. | Road Accident Detection from CCTV Footages using Deep Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |