CN113706436A - 一种基于自监督生成对抗学习背景建模的目标检测方法 - Google Patents
一种基于自监督生成对抗学习背景建模的目标检测方法 Download PDFInfo
- Publication number
- CN113706436A CN113706436A CN202010427544.1A CN202010427544A CN113706436A CN 113706436 A CN113706436 A CN 113706436A CN 202010427544 A CN202010427544 A CN 202010427544A CN 113706436 A CN113706436 A CN 113706436A
- Authority
- CN
- China
- Prior art keywords
- background
- supervision
- generation
- image
- foreground
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 39
- 230000003042 antagnostic effect Effects 0.000 title description 5
- 238000012549 training Methods 0.000 claims abstract description 27
- 238000000034 method Methods 0.000 claims abstract description 21
- 238000013528 artificial neural network Methods 0.000 claims abstract description 4
- 238000013527 convolutional neural network Methods 0.000 claims description 9
- 238000012544 monitoring process Methods 0.000 claims description 4
- 230000003068 static effect Effects 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 6
- 238000011161 development Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011410 subtraction method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
大多数前景目标检测的场景中,背景都有相对固定的模式。亮度的变化、背景的动态化、摄像机的移动等都给目标检测算法带来了不少困难。基于此,本发明提出一种基于自监督生成对抗学习进行背景建模的目标检测方法,能够有效地克服上述困难应用于真实环境中。首先,该方法采用图像自动补全的自监督方法形成训练数据,使用生成对抗神经网络进行自监督对抗学习,构建一个背景重建模型。其次,通过训练一个卷积神网络,利用原始图像与经过背景模型重建图像的差异进行前景目标的检测。本发明提出的方法可以应用于静止摄像头和移动摄像头拍摄的内容,具有广泛的使用场景和实际应用价值。
Description
技术领域
本发明属于数字图像处理技术领域,尤其是一种实现图像或视频中前景目标检测的方法。
背景技术
图像中前景目标检测是进行目标识别和跟踪的基础,广泛应用于视频监控、居家监护、野外环境监察等众多领域。前景目标检测一般有三类方法,即帧差法、背景减和直接目标检测。其中背景减方法的基本思想是首先建立一个背景模型,然后用当前图像减去背景图像就得到前景目标。
经过几十年的发展,特别是随着2012年以来深度学习的发展,前景目标检测技术取得了很大的进步。卷积神经网络在前景目标检测中与传统的基于多特征或多线索策略的无监督方法相比,表现出了较大的性能提升。但是当前的前景目标检测技术仍然面临很大的挑战。亮度的变化、背景的动态化、摄像机的移动等都给目标检测算法带来不小的困难。比如当前在静态摄像机拍摄的视频上能取得最优效果的基于卷积神经网络的方法,当应用到移动摄像机拍摄的视频上时却存在很大的困难。
本发明提出一种基于自监督生成对抗学习进行背景建模的方法以解决前景目标检测中的亮度变化、背景动态化和摄像机移动等困难。
发明内容
在前景目标检测的很多场景中,摄像头都安装在一个固定的位置或者安装位置所在的工作环境是一个相对稳定的环境,因此背景有相对固定的模式。本发明试图使用背景图像构建一个背景模型,使之可以捕获图像背景中的对象特征,以及各对象之间的语义关系。使用该背景模型对输入图像进行重建,如果输入图像中只有背景信息,那么该模型就能很好地重建输入图像,如果输入图像中存在前景目标,那么重建结果将与原始图像存在较大的差异。基于原始图像与经过背景模型重建图像的差异分析,我们就能够进行前景目标的检测。此时,动态背景、亮度变化、摄像机移动等长期存在于前景目标检测领域的挑战都可以迎刃而解。
有鉴于此,本发明的目的在于克服现有技术的不足,提出一种基于自监督生成对抗学习背景建模的目标检测方法。首先,采用图像自动补全的自监督方法形成训练数据,使用生成对抗神经网络进行自监督对抗学习,对环境中背景图像包含的各个对象及其相互之间的语义信息建立背景模型;其次,训练一个新的卷积神经网络学习前景目标的检测标准,其输入使用原始图像以及该图像经过背景模型重建的图像;最终,通过以上两个步骤,得到适用于背景模式相对固定的环境中的前景目标检测方法。
为了实现上述目的,本发明采用如下技术方案:
一种基于自监督生成对抗学习背景建模的目标检测方法,包括以下步骤:
步骤1、利用环境中的摄像头采集图像,并进行前景目标标注得到对应标签,构建数据集S;
步骤2、从数据集S中选择只含有背景信息图像的数据子集Sb;
步骤3、构建由生成网络G和判别网络D组成的生成对抗网络,采用自监督和对抗学习的方法使用数据集Sb进行训练;训练完成后的生成网络G就是背景模型;
步骤4、构建卷积神经网络Mobj,使用数据集S和S经过生成网络G后的输出Sg一起作为Mobj的输入,采用有监督的学习方法对Mobj进行训练,监督信号就是S中的标签;训练完成后的Mobj作为前景目标推理模型。
步骤5、进行前景目标检测,即将当前图像Io以及将其输入生成网络G得到的输出Ig一起作为前景目标推理模型Mobj的输入,则Mobj的输出即为前景检测结果。
进一步,所述步骤1中的数据集S,每个样本由图像和对应的前景目标掩膜标签组成,前景目标掩膜标签是与原图像相同大小的二值图像,前景目标的像素标注为1,背景像素标注为0。
进一步,所述步骤3中的生成对抗网络训练时,不使用数据集Sb中的标签信息,而是使用图像Io裁剪掉一个随机位置、随机大小的区域后得到的图像Ic,将Io作为Ic的标签,这是一种图像自动补全的自监督学习;与通常的生成网络不同,这里生成网络G的输入没有随机信号z,而只使用Ic作为输入,其学习目标是使得其输出Ig能够与原始图像Io相同;判断网络D的目标是区分开Ig和Io;生成对抗网络训练时用平方损失函数和对抗损失函数;这种自监督生成对抗学习能够帮助模型更好地学习环境中的对象以及对象之间的语义信息;
进一步,所述步骤4中卷积神经网络Mobj的训练采用交叉熵损失函数;Io经过背景模型重建得到Ig,原Io中的背景部分会得到很好的重建,但前景部分则不会,因此通过Ig与Io的差异分析就可以判断前景和背景,通过对Mobj的训练能够得到一个更准确的判断标准。
本发明的优点和积极效果是:
1、本发明设计合理,采用自监督生成对抗学习进行背景建模,能够很好地帮助背景模型捕捉到环境中的对象以及对象之间的语义信息,从而通过比较原图与该图经过背景模型重建的图像的差异得到前景区域;该方法很好地利用了深度卷积神经网络的表达能力,将环境中动态背景、亮度变化等拟合到背景模型当中,减少了环境对目标检测的影响。
2、本发明提出了一种两阶段的前景目标检测训练方法,第一个阶段基于图像重建进行背景建模,第二个阶段使用第一阶段的背景建模结果进行前景目标检测标准的学习。背景建模采用自监督的方法减少了对大规模标记数据的依赖,可以利用尽量多的无标签数据进行大数据学习,提高背景建模的效果。
3、本发明提供了一种静止摄像头和移动摄像头拍摄的视频内容均能使用的前景目标检测方法,具有广泛的使用场景和实际应用价值。
附图说明
图1为本发明中基于自监督生成对抗学习背景建模的目标检测方法框架示意图;
具体实施方式
以下结合附图对本发明实施例做进一步详述。
一种基于自监督生成对抗学习背景建模的目标检测方法,包括以下步骤:
步骤1、利用环境中的摄像头采集图像,并进行前景目标标注得到对应标签,构建数据集S。
每个样本由图像和对应的前景目标掩膜标签组成,前景目标掩膜标签是与原图像相同大小的二值图像,前景目标的像素标注为1,背景像素标注为0。
步骤2、从数据集S中选择只含有背景信息图像的数据子集Sb。
步骤3、构建由生成网络G和判别网络D组成的生成对抗网络,采用自监督和对抗学习的方法使用数据集Sb进行训练;训练完成后的生成网络G就是背景模型。
生成对抗网络训练时,不使用数据集Sb中的标签信息,而是使用图像Io裁剪掉一个随机位置、随机大小的区域后得到的图像Ic,将Io作为Ic的标签,这是一种图像自动补全的自监督学习;与通常的生成网络不同,这里生成网络G的输入没有随机信号z,而只使用Ic作为输入,其学习目标是使得其输出Ig能够与原始图像Io相同;判断网络D的目标是区分开Ig和Io;生成对抗网络训练时用平方损失函数和对抗损失函数;这种自监督生成对抗学习能够帮助模型更好地学习环境中的对象以及对象之间的语义信息。
步骤4、构建卷积神经网络Mobj,使用数据集S和S经过生成网络G后的输出Sg一起作为Mobj的输入,采用有监督的学习方法对Mobj进行训练,监督信号就是S中的标签;训练完成后的Mobj作为前景目标推理模型。
卷积神经网络Mobj的训练采用交叉熵损失函数;Io经过背景模型重建得到Ig,原Io中的背景部分会得到很好的重建,但前景部分则不会,因此通过Ig与Io的差异分析就可以判断前景和背景,通过对Mobj的训练能够得到一个更准确的判断标准。
步骤5、进行前景目标检测,即将当前图像Io以及将其输入生成网络G得到的输出Ig一起作为前景目标推理模型Mobj的输入,则Mobj的输出即为前景检测结果。
需要强调的是,本发明所述的实施例是说明性的,而不是限定性的,因此本发明包括并不限于具体实施方式中所述的实施例,凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式,同样属于本发明保护的范围。
Claims (3)
1.一种基于自监督生成对抗学习背景建模的目标检测方法,其特征在于包括以下步骤:
步骤1、利用环境中的摄像头采集图像,并进行前景目标标注得到对应标签,构建数据集S;
步骤2、从数据集S中选择只含有背景信息图像的数据子集Sb;
步骤3、构建由生成网络G和判别网络D组成的生成对抗网络,采用自监督和对抗学习的方法使用数据集Sb进行训练;训练完成后的生成网络G就是背景模型;
步骤4、构建卷积神经网络Mobj,使用数据集S和S经过生成网络G后的输出Sg一起作为Mobj的输入,采用有监督的学习方法对Mobj进行训练,监督信号就是S中的标签;训练完成后的Mobj作为前景目标推理模型。
步骤5、进行前景目标检测,即将当前图像Io以及将其输入生成网络G得到的输出Ig一起作为前景目标推理模型Mobj的输入,则Mobj的输出即为前景检测结果。
2.根据权利要求1所述的一种基于自监督生成对抗学习背景建模的目标检测方法,其特征在于:采用图像自动补全的自监督方法形成训练数据,使用生成对抗神经网络进行自监督对抗学习建立背景重建模型,能很好捕捉环境里背景图像中各对象及其相互之间的语义信息。
3.根据权利要求1所述的一种基于自监督生成对抗学习背景建模的目标检测方法,其特征在于:采用两阶段的前景目标检测训练方法,第一个阶段基于图像重建进行背景建模,第二个阶段使用第一阶段的背景建模结果进行前景目标检测标准的学习。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010427544.1A CN113706436A (zh) | 2020-05-20 | 2020-05-20 | 一种基于自监督生成对抗学习背景建模的目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010427544.1A CN113706436A (zh) | 2020-05-20 | 2020-05-20 | 一种基于自监督生成对抗学习背景建模的目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113706436A true CN113706436A (zh) | 2021-11-26 |
Family
ID=78645360
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010427544.1A Pending CN113706436A (zh) | 2020-05-20 | 2020-05-20 | 一种基于自监督生成对抗学习背景建模的目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113706436A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117576490A (zh) * | 2024-01-16 | 2024-02-20 | 口碑(上海)信息技术有限公司 | 一种后厨环境检测方法和装置、存储介质和电子设备 |
-
2020
- 2020-05-20 CN CN202010427544.1A patent/CN113706436A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117576490A (zh) * | 2024-01-16 | 2024-02-20 | 口碑(上海)信息技术有限公司 | 一种后厨环境检测方法和装置、存储介质和电子设备 |
CN117576490B (zh) * | 2024-01-16 | 2024-04-05 | 口碑(上海)信息技术有限公司 | 一种后厨环境检测方法和装置、存储介质和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yeh et al. | Lightweight deep neural network for joint learning of underwater object detection and color conversion | |
Li et al. | Contour knowledge transfer for salient object detection | |
CN111401384B (zh) | 一种变电设备缺陷图像匹配方法 | |
Chen et al. | Learning linear regression via single-convolutional layer for visual object tracking | |
Chen et al. | End-to-end learning of object motion estimation from retinal events for event-based object tracking | |
Anvari et al. | Dehaze-GLCGAN: unpaired single image de-hazing via adversarial training | |
CN113609896A (zh) | 基于对偶相关注意力的对象级遥感变化检测方法及系统 | |
CN112801019B (zh) | 基于合成数据消除无监督车辆再识别偏差的方法及系统 | |
Deng et al. | Learning from images: A distillation learning framework for event cameras | |
Han et al. | A method based on multi-convolution layers joint and generative adversarial networks for vehicle detection | |
Yang et al. | Robust real-time visual object tracking via multi-scale fully convolutional Siamese networks | |
CN114926826A (zh) | 场景文本检测系统 | |
CN112633100B (zh) | 行为识别方法、装置、电子设备和存储介质 | |
Lu et al. | Label-efficient video object segmentation with motion clues | |
CN113706436A (zh) | 一种基于自监督生成对抗学习背景建模的目标检测方法 | |
Zhang | [Retracted] Sports Action Recognition Based on Particle Swarm Optimization Neural Networks | |
CN115063724A (zh) | 一种果树田垄的识别方法及电子设备 | |
Shen et al. | BSH-Det3D: Improving 3D Object Detection with BEV Shape Heatmap | |
Xuan et al. | Maskvo: Self-supervised visual odometry with a learnable dynamic mask | |
KR102576747B1 (ko) | 심층신경망을 기반으로 하는 객체 검출기의 지역 최적화를 위한 시스템 및 이를 위한 로컬 데이터베이스 생성 방법 | |
CN111860229A (zh) | 异常行为智能识别方法及其装置和存储介质 | |
Du et al. | Multi-angle face detection based on improved RFCN algorithm using multi-scale training | |
Lin et al. | E2PNet: Event to Point Cloud Registration with Spatio-Temporal Representation Learning | |
Ren et al. | EMF-Net: An edge-guided multi-feature fusion network for text manipulation detection | |
CN117809169B (zh) | 一种小样本水下声呐图像分类方法及其模型搭建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20211126 |
|
WD01 | Invention patent application deemed withdrawn after publication |