CN113158760A - 一种基于多层次标签的弱监督特定行为识别系统 - Google Patents

一种基于多层次标签的弱监督特定行为识别系统 Download PDF

Info

Publication number
CN113158760A
CN113158760A CN202110193170.6A CN202110193170A CN113158760A CN 113158760 A CN113158760 A CN 113158760A CN 202110193170 A CN202110193170 A CN 202110193170A CN 113158760 A CN113158760 A CN 113158760A
Authority
CN
China
Prior art keywords
video
image
module
network
specific behavior
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110193170.6A
Other languages
English (en)
Other versions
CN113158760B (zh
Inventor
赵丽
张笑钦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wenzhou University
Original Assignee
Wenzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wenzhou University filed Critical Wenzhou University
Priority to CN202110193170.6A priority Critical patent/CN113158760B/zh
Publication of CN113158760A publication Critical patent/CN113158760A/zh
Application granted granted Critical
Publication of CN113158760B publication Critical patent/CN113158760B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4007Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20132Image cropping
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于多层次标签的弱监督特定行为识别系统,包括:检测信息获取单元、信息存储单元和特定行为识别单元;所述检测信息获取单元用于通过摄像装置进行视频数据采集,并将获取的待识别的特定行为视频图像数据进行预处理后存储至所述信息存储单元;所述信息存储单元用于存储系统采集的视频数据及运行参数,所述信息存储单元包括标签知识库、训练集数据库和视频缓存模块;所述特定行为识别单元用于对预处理后的图像数据进行识别,利用基于弱监督的方式通过卷积神经网络对图像特征进行提取,并与多路子网络相结合得到一个分类网络模型,进行特定行为分类识别,本发明可对输入图像并行运算且计算效率较高。

Description

一种基于多层次标签的弱监督特定行为识别系统
技术领域
本发明涉及图像识别技术领域,尤其涉及到一种基于多层次标签的弱监督特定行为识别系统。
背景技术
强监督学习,一般要对图像进行目标级或者语义级的标记来获取监督信息,处理图像较多时,存在标记困难的问题。而弱监督学习所采用的图像级标签只标注了图像中存在哪些类别的物体,对于存在的物体在图像中的位置信息则没有任何标注。但在弱监督学习条件下,学习模型难以直接定位目标在图像中的区域,现有的弱监督学习方法大概包括以下两类:一个是通过目标性算法等方式获取候选框,并通过对这些候选框对应的图像区域进行分类,获取图像中包含的所有物体的类别信息;而另一个则是通过循环神经网络递进地获取图像中的区域特征,进而得到分类结果。前者获取目标候选框的代价大,且分类过程中存在大量冗余计算;而后者时序递进的方法导致无法进行高效的并行运算,计算效率较低。
综上所述,提供一种可并行运算、计算效率高且可有效规避计算冗余的基于多层次标签的弱监督特定行为识别系统,是本领域技术人员急需解决的问题。
发明内容
本方案针对上文提到的问题和需求,提出一种基于多层次标签的弱监督特定行为识别系统,其由于采取了如下技术方案而能够解决上述技术问题。
为实现上述目的,本发明提供如下技术方案:一种基于多层次标签的弱监督特定行为识别系统,包括:检测信息获取单元、信息存储单元和特定行为识别单元;
所述检测信息获取单元用于通过摄像装置进行视频数据采集,所述检测信息获取单元包括视频获取模块、自动控制模块和自动补偿模块,所述视频获取模块用于获取待识别的特定行为视频图像数据并进行预处理,将预处理后的视频图像数据存储至所述信息存储单元,所述自动控制模块用于控制视频获取动作的起始,所述自动补偿模块用于在视频采集过程中进行自动调焦和光线补偿;
所述信息存储单元用于存储系统采集的视频数据及运行参数,所述信息存储单元包括标签知识库、训练集数据库和视频缓存模块,所述标签知识库用于存储标签数据,所述训练集数据库用于存储识别网络的训练数据,所述视频缓存模块用于存储预处理后的视频图像数据;
所述特定行为识别单元用于对预处理后的图像数据进行识别,所述特定行为识别单元包括训练数据生成模块、特征提取模块、分类选择模块和识别模块,所述训练数据生成模块用于对训练数据进行预处理,所述特征提取模块采用卷积神经网络进行图像特征提取,所述分类选择模块用于将所述特征提取模块输出的特征图进行随机失活正则化后进行分类输出,利用训练集数据库中的样本数据进行训练得到一个分类网络模型,所述识别模块用于将待识别的特定行为视频图像数据输入所述分类网络模型进行特定行为识别。
进一步地,所述视频获取模块用于通过摄像装置获取视频数据,并将包含T个帧的未剪切视频图像数据划分成视频集合
Figure RE-GDA0003102253520000021
其中,N是视频片段的个数,ci=(ai,bi)表示第i个视频片段的起止时间,将N个视频片段分别进行分帧处理,每个视频片段得到K帧动作图像。
更进一步地,生成视频集合C包括:将一个长视频分成N个等长的视频片段,即
Figure RE-GDA0003102253520000022
进一步地,所述训练数据生成模块首先对训练集数据库中的训练样本图像根据公式
Figure RE-GDA0003102253520000031
进行标准化处理,其中,I为图像矩阵,μ表示图像的均值,Var(I)表示图像的标准方差,并将所有图像都缩放到相同的尺寸,然后对样本图像进行多样化处理平衡过拟合问题,最后对图像进行灰度化、二值化、锐化和去离散噪声处理。
更进一步地,所述对样本图像进行多样化处理包括:首先对样本中的图像以
Figure RE-GDA0003102253520000032
的概率进行随机反转,并对图像进行随机裁剪,从图像中裁剪一个大小为原图像
Figure RE-GDA0003102253520000033
之间,长宽比在3:4到4:3 之间的图像块,然后通过双线性插值的方法将所述图像块缩放为大小相同的图像作为随机裁剪后的图像,将随机反转和随机裁剪后的图像与未处理样本图像进行混合形成新的训练集。
更进一步地,将所述新的训练集中的样本图像输入所述特征提取模块,所述特征提取模块采用预训练好的ResNet卷积神经网络主干网络提取出图像特征信息,并将输出的特征信息进行随机失活正则化处理后传输至所述分类选择模块,所述分类选择模块包括多路支路网络,每路网络分别判断某一特定行为类别是否存在于图像中;
所述ResNet卷积神经网络主干网络包括ResNet卷积神经网络去除全局池化层和全连接层以外的结构;
所述每路网络包括一个通道注意信息获取层,所述通道注意信息获取层中所有特征均直接共连用于完整地获取所有特征的上下文信息,将所述ResNet卷积神经网络主干网络输出的特征输入所述通道注意信息获取层后,获取每个支路网络的通道注意信息,并将所述通道注意信息作为通道上的权重与所述ResNet卷积神经网络主干网络输出的最后一层特征相乘,获得对应支路网络在通道注意机制下的特征图,对经过通道注意加权后的特征进行全局平均池化操作,再通过一个全连接层以及Sigmoid函数得到一个预测值,所述预测值为对应支路上对应的类别在多标签图像中存在的概率;
所述通道注意信息获取层采用两层全连接层结构。
更进一步地,所述ResNet卷积神经网络主干网络和所述多路支路网络组成的分类网络模型采用二值交叉熵作为损失函数,对模型进行训练。
更进一步地,所述识别模块将所述N个视频片段分组输入训练好的分类网络进行识别,并根据识别结果对特定行为进行差异化报警,所述差异化报警包括两种报警模式,所述两种报警模式分别为单一报警模式和并行报警模式,所述单一报警模式仅对识别的结果属于哪种特定行为进行报警提醒,所述并行报警模式对各对应支路上对应的类别在多标签图像中存在的概率均进行输出提醒。
从上述的技术方案可以看出,本发明的有益效果是:本发明利用基于弱监督的方式通过卷积神经网络对图像特征进行提取,并与多路子网络相结合得到一个分类识别网络模型,其可对图像特征进行并行运算、计算效率高且可有效规避计算冗余,适应性较好。
除了上面所描述的目的、特征和优点之外,下文中将结合附图对实施本发明的最优实施例进行更详尽的描述,以便能容易地理解本发明的特征和优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下文将对本发明实施例或现有技术描述中所需要使用的附图作简单地介绍,其中,附图仅仅用于展示本发明的一些实施例,而非将本发明的全部实施例限制于此。
图1为本发明一种基于多层次标签的弱监督特定行为识别系统的步骤示意图。
图2为本实施例中待识别视频图像数据预处理过程的步骤示意图。
图3为本实施例中训练数据处理过程的步骤示意图。
图4为本实施例中分类网络模型的组成结构示意图。
具体实施方式
为了使得本发明的技术方案的目的、技术方案和优点更加清楚,下文中将结合本发明具体实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。附图中相同的附图标记代表相同的部件。需要说明的是,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
在许多重要场景下,需要对人的特定行为进行判别,判定其是否合法,或者在形体考试等情况下,需要多动作的一致性进行判定,本发明提供了一种可进行并行运算、计算效率高且可有效规避计算冗余,适应性较好的基于多层次标签的弱监督特定行为识别系统。如图1至图4所示,该系统包括:检测信息获取单元、信息存储单元和特定行为识别单元;所述检测信息获取单元用于通过摄像装置进行视频数据采集,所述检测信息获取单元包括视频获取模块、自动控制模块和自动补偿模块,所述视频获取模块用于获取待识别的特定行为视频图像数据并进行预处理,将预处理后的视频图像数据存储至所述信息存储单元,所述自动控制模块用于控制视频获取动作的起始,方便对视频进行控制,可根据用户需求对视频采集过程进行智能控制,所述自动补偿模块用于在视频采集过程中进行自动调焦和光线补偿,保证获取图像的质量。其中,如图2所示,所述预处理的过程如下:a.所述视频获取模块通过摄像装置获取视频数据,并将包含T个帧的未剪切视频图像数据划分成视频集合
Figure RE-GDA0003102253520000051
其中,N是视频片段的个数,ci=(ai,bi)表示第i个视频片段的起止时间;b.生成视频集合C的过程是将一个长视频分成N个等长的视频片段,即
Figure RE-GDA0003102253520000061
c.将N个视频片段分别进行分帧处理,每个视频片段得到K帧动作图像。
在本系统中,所述信息存储单元用于存储系统采集的视频数据及运行参数,所述信息存储单元包括标签知识库、训练集数据库和视频缓存模块,所述标签知识库用于存储标签数据,所述训练集数据库用于存储识别网络的训练数据,所述视频缓存模块用于存储预处理后的视频图像数据。
对特定行为图像进行识别需要训练一个图像分类识别模型对待识别图像的特征进行提取和分类识别,而本系统中的所述特定行为识别单元用于对预处理后的图像数据进行识别,所述特定行为识别单元包括训练数据生成模块、特征提取模块、分类选择模块和识别模块,所述训练数据生成模块用于对训练数据进行预处理,所述特征提取模块基于弱监督的方式采用卷积神经网络进行图像特征提取,所述分类选择模块用于将所述特征提取模块输出的特征图进行随机失活正则化后进行分类输出,利用训练集数据库中的样本数据进行训练得到一个分类网络模型,所述识别模块用于将待识别的特定行为视频图像数据输入所述分类网络模型进行特定行为识别,并根据识别结果对特定行为进行差异化报警,所述差异化报警包括两种报警模式,所述两种报警模式分别为单一报警模式和并行报警模式,所述单一报警模式仅对识别的结果属于哪种特定行为进行报警提醒,所述并行报警模式对各对应支路上对应的类别在多标签图像中存在的概率均进行输出提醒。
如图3所示,训练数据处理过程如下:a.所述训练数据生成模块首先对训练集数据库中的训练样本图像根据公式
Figure RE-GDA0003102253520000062
进行标准化处理,其中,I为图像矩阵,μ表示图像的均值,Var(I)表示图像的标准方差;b.将所有图像都缩放到相同的尺寸然后对样本图像进行多样化处理平衡过拟合问题,最后对图像进行灰度化、二值化、锐化和去离散噪声处理;c.而所述对样本图像进行多样化处理过程包括:首先对样本中的图像以
Figure RE-GDA0003102253520000071
的概率进行随机反转,并对图像进行随机裁剪,从图像中裁剪一个大小为原图像
Figure RE-GDA0003102253520000072
之间,长宽比在3:4到4:3之间的图像块;d.然后通过双线性插值的方法将所述图像块缩放为大小相同的图像作为随机裁剪后的图像,将随机反转和随机裁剪后的图像与未处理样本图像进行混合形成新的训练集。在得到新的训练集后,用其来进行训练可以提高训练样本的利用率,并且还能很好的提高学习网络的适应性。
网络训练阶段:将所述新的训练集中经过处理的样本图像输入所述特征提取模块,所述特征提取模块采用预训练好的ResNet卷积神经网络主干网络提取出图像特征信息,ResNet网络模型包括两部分,主模型部分和子模型部分,子模型部分实现由多个残差单元组成的一个layer,主模型将最开始的卷积池化和最后的池化全连接以及中间的多个拥有不同参数的layer组合起来,以形成 ResNet网络。本实施例中,如图4所示,采用ResNet34卷积神经网络主干网络进行图像特征提取,并将其输出的特征信息进行随机失活正则化处理后传输至所述分类选择模块,所述分类选择模块包括多路支路网络,每路网络分别用于判断某一特定行为类别是否存在于图像中;
所述ResNet34卷积神经网络主干网络包括ResNet34卷积神经网络去除全局池化层和全连接层以外的结构;
所述每路网络包括一个通道注意信息获取层,所述通道注意信息获取层中所有特征均直接共连用于完整地获取所有特征的上下文信息,所述通道注意信息获取层采用两层全连接层结构,本实施例采用的通道注意信息获取层与所述SENet网络结构中的两层全连接层结构相同,使用两个全连接层可以限制模型复杂度,增加泛化。然后将所述ResNet34卷积神经网络主干网络输出的特征输入所述通道注意信息获取层后,获取每个支路网络的通道注意信息,并将所述通道注意信息作为通道上的权重与所述ResNet34卷积神经网络主干网络输出的最后一层特征相乘,获得对应支路网络在通道注意机制下的特征图,对经过通道注意加权后的特征进行全局平均池化操作,再通过一个一层全连接层以及Sigmoid函数得到一个预测值,所述预测值为对应支路上对应的类别在多标签图像中存在的概率。所述ResNet34卷积神经网络主干网络和所述多路支路网络组成的分类网络模型采用二值交叉熵作为损失函数,对模型进行训练,所述损失函数根据公式
Figure RE-GDA0003102253520000081
Figure RE-GDA0003102253520000082
进行计算,
Figure RE-GDA0003102253520000083
表示第i各特定行为类别的预测值,该值的取值范围为0-1,yi表示该样本中是否含有第i个类别,如果是则该值取1否则取0,N表示数据集中所有标注的类型的数目。当得到训练好的分类网络模型后,所述识别模块将处理好的待识别图像即所述N个视频片段中的图像数据分组输入训练好的分类网络进行识别,并得到最终特定行为识别结果。本发明既保留了卷积神经网络的端到端且可进行并行化运算,还提高了网络的识别性能。且其具有易于扩展的特点,适应性高,对于新增的物体类别,该网络可以很好地延续先前的学习结果,快速地完成新物体的分类。
应当说明的是,本发明所述的实施方式仅仅是实现本发明的优选方式,对属于本发明整体构思,而仅仅是显而易见的改动,均应属于本发明的保护范围之内。

Claims (8)

1.一种基于多层次标签的弱监督特定行为识别系统,其特征在于,包括:检测信息获取单元、信息存储单元和特定行为识别单元;
所述检测信息获取单元用于通过摄像装置进行视频数据采集,所述检测信息获取单元包括视频获取模块、自动控制模块和自动补偿模块,所述视频获取模块用于获取待识别的特定行为视频图像数据并进行预处理,将预处理后的视频图像数据存储至所述信息存储单元,所述自动控制模块用于控制视频获取动作的起始,所述自动补偿模块用于在视频采集过程中进行自动调焦和光线补偿;
所述信息存储单元用于存储系统采集的视频数据及运行参数,所述信息存储单元包括标签知识库、训练集数据库和视频缓存模块,所述标签知识库用于存储标签数据,所述训练集数据库用于存储识别网络的训练数据,所述视频缓存模块用于存储预处理后的视频图像数据;
所述特定行为识别单元用于对预处理后的图像数据进行识别,所述特定行为识别单元包括训练数据生成模块、特征提取模块、分类选择模块和识别模块,所述训练数据生成模块用于对训练数据进行预处理,所述特征提取模块采用卷积神经网络进行图像特征提取,所述分类选择模块用于将所述特征提取模块输出的特征图进行随机失活正则化后进行分类输出,利用训练集数据库中的样本数据进行训练得到一个分类网络模型,所述识别模块用于将待识别的特定行为视频图像数据输入所述分类网络模型进行特定行为识别。
2.如权利要求1所述的基于多层次标签的弱监督特定行为识别系统,其特征在于,所述视频获取模块用于通过摄像装置获取视频数据,并将包含T个帧的未剪切视频图像数据划分成视频集合
Figure FDA0002945959060000011
其中,N是视频片段的个数,ci=(ai,bi)表示第i个视频片段的起止时间,将N个视频片段分别进行分帧处理,每个视频片段得到K帧动作图像。
3.如权利要求2所述的基于多层次标签的弱监督特定行为识别系统,其特征在于,生成视频集合C包括:将一个长视频分成N个等长的视频片段,即
Figure FDA0002945959060000021
4.如权利要求1所述的基于多层次标签的弱监督特定行为识别系统,其特征在于,所述训练数据生成模块首先对训练集数据库中的训练样本图像根据公式
Figure FDA0002945959060000022
进行标准化处理,其中,I为图像矩阵,μ表示图像的均值,Var(I)表示图像的标准方差,并将所有图像都缩放到相同的尺寸,然后对样本图像进行多样化处理平衡过拟合问题,最后对图像进行灰度化、二值化、锐化和去离散噪声处理。
5.如权利要求4所述的基于多层次标签的弱监督特定行为识别系统,其特征在于,所述对样本图像进行多样化处理包括:首先对样本中的图像以
Figure FDA0002945959060000023
的概率进行随机反转,并对图像进行随机裁剪,从图像中裁剪一个大小为原图像
Figure FDA0002945959060000024
之间,长宽比在3:4到4:3之间的图像块,然后通过双线性插值的方法将所述图像块缩放为大小相同的图像作为随机裁剪后的图像,将随机反转和随机裁剪后的图像与未处理样本图像进行混合形成新的训练集。
6.如权利要求5所述的基于多层次标签的弱监督特定行为识别系统,其特征在于,将所述新的训练集中经过处理的样本图像输入所述特征提取模块,所述特征提取模块采用预训练好的ResNet卷积神经网络主干网络提取出图像特征信息,并将输出的特征信息进行随机失活正则化处理后传输至所述分类选择模块,所述分类选择模块包括多路支路网络,每路网络分别判断某一特定行为类别是否存在于图像中;
所述ResNet卷积神经网络主干网络包括ResNet卷积神经网络去除全局池化层和全连接层以外的结构;
所述每路网络包括一个通道注意信息获取层,所述通道注意信息获取层中所有特征均直接共连用于完整地获取所有特征的上下文信息,将所述ResNet卷积神经网络主干网络输出的特征输入所述通道注意信息获取层后,获取每个支路网络的通道注意信息,并将所述通道注意信息作为通道上的权重与所述ResNet卷积神经网络主干网络输出的最后一层特征相乘,获得对应支路网络在通道注意机制下的特征图,对经过通道注意加权后的特征进行全局平均池化操作,再通过一个一层全连接层以及Sigmoid函数得到一个预测值,所述预测值为对应支路上对应的类别在多标签图像中存在的概率;
所述通道注意信息获取层采用两层全连接层结构。
7.如权利要求6所述的基于多层次标签的弱监督特定行为识别系统,其特征在于,所述ResNet卷积神经网络主干网络和所述多路支路网络组成的分类网络模型采用二值交叉熵作为损失函数,对模型进行训练。
8.如权利要求7所述的基于多层次标签的弱监督特定行为识别系统,其特征在于,所述识别模块将所述N个视频片段分组输入训练好的分类网络进行识别,并根据识别结果对特定行为进行差异化报警,所述差异化报警包括两种报警模式,所述两种报警模式分别为单一报警模式和并行报警模式,所述单一报警模式仅对识别的结果属于哪种特定行为进行报警提醒,所述并行报警模式对各对应支路上对应的类别在多标签图像中存在的概率均进行输出提醒。
CN202110193170.6A 2021-02-20 2021-02-20 一种基于多层次标签的弱监督特定行为识别系统 Active CN113158760B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110193170.6A CN113158760B (zh) 2021-02-20 2021-02-20 一种基于多层次标签的弱监督特定行为识别系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110193170.6A CN113158760B (zh) 2021-02-20 2021-02-20 一种基于多层次标签的弱监督特定行为识别系统

Publications (2)

Publication Number Publication Date
CN113158760A true CN113158760A (zh) 2021-07-23
CN113158760B CN113158760B (zh) 2023-08-15

Family

ID=76883410

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110193170.6A Active CN113158760B (zh) 2021-02-20 2021-02-20 一种基于多层次标签的弱监督特定行为识别系统

Country Status (1)

Country Link
CN (1) CN113158760B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019136946A1 (zh) * 2018-01-15 2019-07-18 中山大学 基于深度学习的弱监督显著性物体检测的方法及系统
CN110569901A (zh) * 2019-09-05 2019-12-13 北京工业大学 一种基于通道选择的对抗消除弱监督目标检测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019136946A1 (zh) * 2018-01-15 2019-07-18 中山大学 基于深度学习的弱监督显著性物体检测的方法及系统
CN110569901A (zh) * 2019-09-05 2019-12-13 北京工业大学 一种基于通道选择的对抗消除弱监督目标检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
朱阳光;刘瑞敏;黄琼桃;: "基于深度神经网络的弱监督信息细粒度图像识别", 电子测量与仪器学报, no. 02 *

Also Published As

Publication number Publication date
CN113158760B (zh) 2023-08-15

Similar Documents

Publication Publication Date Title
CN111639692B (zh) 一种基于注意力机制的阴影检测方法
Lin et al. Bmn: Boundary-matching network for temporal action proposal generation
CN111259786B (zh) 一种基于视频的外观和运动信息同步增强的行人重识别方法
Bartz et al. STN-OCR: A single neural network for text detection and text recognition
CN112818931A (zh) 基于多粒度深度特征融合的多尺度行人重识别方法
CN108537119B (zh) 一种小样本视频识别方法
Rahmon et al. Motion U-Net: Multi-cue encoder-decoder network for motion segmentation
CN110414367B (zh) 一种基于gan和ssn的时序行为检测方法
CN113158815B (zh) 一种无监督行人重识别方法、系统及计算机可读介质
CN111950497A (zh) 一种基于多任务学习模型的ai换脸视频检测方法
CN113591674B (zh) 一种面向实时视频流的边缘环境行为识别系统
CN111126401A (zh) 一种基于上下文信息的车牌字符识别方法
CN114283350A (zh) 视觉模型训练和视频处理方法、装置、设备及存储介质
CN115731422A (zh) 多标签分类模型的训练方法、分类方法及装置
US20230154139A1 (en) Systems and methods for contrastive pretraining with video tracking supervision
CN113393385B (zh) 基于多尺度融合的无监督去雨方法、系统、装置及介质
CN114996495A (zh) 一种基于多原型和迭代增强的单样本图像分割方法及装置
CN113449676A (zh) 一种基于双路互促进解纠缠学习的行人重识别方法
CN112613474A (zh) 一种行人重识别的方法和装置
CN116704433A (zh) 基于上下文感知关系预测编码的自监督群体行为识别方法
CN113158760A (zh) 一种基于多层次标签的弱监督特定行为识别系统
CN116091763A (zh) 苹果叶部病害图像语义分割系统及分割方法、设备和介质
CN114972964A (zh) 一种基于对比学习的域适应物体检测方法及装置
CN113378598A (zh) 一种基于深度学习的动态条码检测方法
Ajith et al. Road Accident Detection from CCTV Footages using Deep Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant