CN115187950B - 用于深度学习图像数据增强的新型平衡掩码二次采样方法 - Google Patents

用于深度学习图像数据增强的新型平衡掩码二次采样方法 Download PDF

Info

Publication number
CN115187950B
CN115187950B CN202211107032.2A CN202211107032A CN115187950B CN 115187950 B CN115187950 B CN 115187950B CN 202211107032 A CN202211107032 A CN 202211107032A CN 115187950 B CN115187950 B CN 115187950B
Authority
CN
China
Prior art keywords
mask
matrix
generating
feature map
balanced
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211107032.2A
Other languages
English (en)
Other versions
CN115187950A (zh
Inventor
王智灵
龚殿城
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Zhongke Xingchi Automatic Driving Technology Co ltd
Original Assignee
Anhui Zhongke Xingchi Autonomous Driving Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Zhongke Xingchi Autonomous Driving Technology Co ltd filed Critical Anhui Zhongke Xingchi Autonomous Driving Technology Co ltd
Priority to CN202211107032.2A priority Critical patent/CN115187950B/zh
Publication of CN115187950A publication Critical patent/CN115187950A/zh
Application granted granted Critical
Publication of CN115187950B publication Critical patent/CN115187950B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种用于深度学习图像数据增强的新型平衡掩码二次采样方法,该方法将特征图上待删除块中的元素在删除和保留之间取得合理的平衡。包括如下步骤:S1:获得原始数据的特征图。S2:生成基础掩码M1,M1的生成方式采用已有方法。S3:生成平衡掩码M2,平衡掩码M2的设计采用两种形式。第一种是创建一个和M1等尺寸的矩阵M2,矩阵内均匀分布若干矩形块,矩形内的元素为1,其余为0。M2内矩形块的分布,可通过矩形块的长度、宽度、水平、竖直间隔距离改变。第二种是创建一个和M1等尺寸的矩阵M2,矩阵内的每个元素服从概率为p的伯努利分布。S4:生成最终掩码M=1‑M1×M2。S5:将掩码M应用到特征图上。

Description

用于深度学习图像数据增强的新型平衡掩码二次采样方法
技术领域
本发明涉及深度学习图像数据处理领域,具体地说是一种用于深度学习图像数据增强的新型平衡掩码二次采样方法。本发明可以广泛的应用于自动驾驶、工业自动化等多个领域。
背景技术
深度学习被广泛的应用于自动驾驶、工业自动化等多个领域,基于视觉信息的目标识别就是其中一种典型工况。视觉信息虽然容易受到外界环境如雨、雪、灰尘等的干扰,但是成本低廉,技术上相对比较成熟。基于视觉信息的目标识别方案往往需要大量的数据做基础。一般来说,数据量越大,神经网络可以学习的越好。但是现实中数据量的基数往往都不会很大,因此直接送到神经网络进行训练学习可能会导致过拟合现象,即在训练集上表现得很好,在测试集上表现的很差。
当数据集的大小有限时,现有的解决方案通常通过一些数据增强方法和正则化缓解神经网络过拟合的问题。比如随机在图上添加噪声以盖住部分目标特征,随机删除特征图上的块,从而迫使神经网络学习目标的其他特征,提高神经网络的鲁棒性。但是,这种随机性可能会由于过度删除一个或几个块以及上下文信息而导致剩余的语意信息不足以支撑目标识别,从而导致模型的性能不升反降。
发明内容
有鉴于此,本发明提供了一种用于深度学习图像数据增强的新型平衡掩码二次采样方法,既可以通过屏蔽特征图上部分特征迫使神经网络学习目标的其他特征,又能避免因过度删除一个或几个块以及上下文信息而导致目标的语意信息被完全删除的情况,起到提高模型鲁棒性、准确性的作用。
为了实现上述目的,本发明采用如下技术方案:
一种用于深度学习图像数据增强的新型平衡掩码二次采样方法,其特征在于,包括如下步骤:
S1:获取神经网络卷积之后得到的特征图FR∈n×c×h×w,n为特征图的数量,c为特征图的通道维度,h、w分别为特征图的高度、宽度,R为实数域;
S2:生成基础掩码M1,M1的生成方式为:在和特征图等尺寸的空白矩阵上随机生成种子点,以种子点为中心填充一个正方形,正方形内的元素填充为1,其余元素填充为0;
S3:生成平衡掩码M2
S4:生成最终掩码M,M=1-M1×M2,通过平衡掩码二次采样方法将特征图上待删除块中的元素在删除和保留之间取得合理的平衡;
S5:将掩码M应用到特征图上,F=F×M。
进一步的,所述步骤S3中所述的平衡掩码的生成方式有两种:
方式一:创建一个和M1等尺寸的矩阵,矩阵内均匀分布若干个小矩形块,矩形内的元素为1,其余为0,矩阵内矩形块的分布,通过每个矩形块的长度、宽度、水平间隔距离、竖直间隔距离改变;
方式二:创建一个和M1等尺寸的矩阵,矩阵内的每个元素服从概率为p的伯努利分布。
与现有技术相比,本发明的技术方案所带来的有益效果是:
本发明提供了一种用于深度学习训练数据增强的新型平衡掩码二次采样方法。在现阶段已有方法生成的基础掩码之上添加一个平衡掩码,既可以通过屏蔽特征图上部分特征迫使神经网络学习目标的其他特征,又能避免因过度删除一个或几个块以及上下文信息而导致目标的语意信息被完全删除的情况,起到提高模型鲁棒性、准确性的作用。同时,本发明提出的平衡掩码设计十分巧妙,不受具体模型的约束,可以轻松的移植到其他模型中,因此适用范围很广。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见的,此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。
图1为应用本发明的平衡掩码(一);
图2为应用本发明的平衡掩码(二);
图3为本发明的算法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
参见图1所示,本发明实施例1提供了一种用于深度学习训练数据增强的新型平衡掩码二次采样方法,图1中的原始图像数据为无人驾驶车辆在路上采集得到,经过预处理操作后变成分辨率为224×224的三通道RGB图像,包括如下步骤:
S1:获取神经网络卷积之后得到的特征图FR∈n×c×h×w(n为16,c为64,h、w分别为112、112),R为实数域;
S2:生成基础掩码M1。M1的生成方式可以采用DropBlock。即在和特征图等尺寸的空白矩阵上随机生成种子点,以种子点为中心填充一个5×5的正方形。正方形内的元素填充为1,其余元素填充为0;
S3:生成平衡掩码M2。创建一个和M1等尺寸的矩阵,在矩阵上均匀分布着大小为2×2的小正方形,小正方形与边缘、小正方形与小正方形的水平间隔距离、垂直间隔距离分别为1。小正方形内的元素置为1,其余为0,得到平衡掩码M2
S4:生成最终掩码M,M=1-M1×M2。利用平衡掩码M2对基础掩码M1再次取样,即可达到待删除块中的元素在删除和保留之间取得合理的平衡的效果;
S5:将掩码M应用到特征图上,F=F×M。
图1中的(c)和(d)均为实际基础掩码M1和平衡掩码M2的部分截图。
M2内矩形块的分布,可以通过每个矩形块的长度、宽度、水平间隔距离、竖直间隔距离改变。
实施例2
参见图2所示,本发明实施例2提供了一种用于深度学习训练数据增强的新型平衡掩码二次采样方法,图2中的原始图像数据来自KITTI 2D目标检测数据集,包括如下步骤:
S1:获取神经网络卷积之后得到的特征图FR∈n×c×h×w (n为16,c为64,h、w分别为224、224);
S2:生成基础掩码M1。M1的生成方式可以采用DropBlock。即在和特征图等尺寸的空白矩阵上随机生成种子点,以种子点为中心填充一个5×5的正方形。正方形内的元素填充为1,其余元素填充为0;
S3:生成平衡掩码M2,创建一个和M1等尺寸的矩阵,矩阵内的每个元素服从概率为0.25的伯努利分布;
S4:生成最终掩码M,M=1-M1×M2。利用平衡掩码M2对基础掩码M1再次取样,即可达到待删除块中的元素在删除和保留之间取得合理的平衡的效果;
S5:将掩码M应用到特征图上,F=F×M。
图2中的(c)和(d)均为实际基础掩码M1和平衡掩码M2的部分截图。
在实施例2中,在YOLOV5S模型上,对KITTI 2D数据集进行迭代100轮,采用本发明的数据增强方法,相比DropBlock实现了2%的mAP提升。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (1)

1.一种用于深度学习图像数据增强的新型平衡掩码二次采样方法,其特征在于,包括如下步骤:
S1:获取神经网络卷积之后得到的特征图FR∈n×c×h×w,n为特征图的数量,c为特征图的通道维度,h、w分别为特征图的高度、宽度,R为实数域;
S2:生成基础掩码M1,M1的生成方式为:在和特征图等尺寸的空白矩阵上随机生成种子点,以种子点为中心填充一个正方形,正方形内的元素填充为1,其余元素填充为0;
S3:生成平衡掩码M2
S4:生成最终掩码M,M=1-M1×M2,通过平衡掩码二次采样方法将特征图上待删除块中的元素在删除和保留之间取得合理的平衡;
S5:将掩码M应用到特征图上,F=F×M;
步骤S3中所述的平衡掩码M2的生成方式有两种:
方式一:创建一个和M1等尺寸的矩阵,矩阵内均匀分布若干个小矩形块,矩形内的元素为1,其余为0,矩阵内矩形块的分布,通过每个矩形块的长度、宽度、水平间隔距离、竖直间隔距离改变;
方式二:创建一个和M1等尺寸的矩阵,矩阵内的每个元素服从概率为p的伯努利分布。
CN202211107032.2A 2022-09-13 2022-09-13 用于深度学习图像数据增强的新型平衡掩码二次采样方法 Active CN115187950B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211107032.2A CN115187950B (zh) 2022-09-13 2022-09-13 用于深度学习图像数据增强的新型平衡掩码二次采样方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211107032.2A CN115187950B (zh) 2022-09-13 2022-09-13 用于深度学习图像数据增强的新型平衡掩码二次采样方法

Publications (2)

Publication Number Publication Date
CN115187950A CN115187950A (zh) 2022-10-14
CN115187950B true CN115187950B (zh) 2022-11-22

Family

ID=83524759

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211107032.2A Active CN115187950B (zh) 2022-09-13 2022-09-13 用于深度学习图像数据增强的新型平衡掩码二次采样方法

Country Status (1)

Country Link
CN (1) CN115187950B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110210482A (zh) * 2019-06-05 2019-09-06 中国科学技术大学 改进类别不平衡的目标检测方法
CN111950699A (zh) * 2020-07-03 2020-11-17 清华大学深圳国际研究生院 一种基于特征空间相关性的神经网络正则化方法
CN112967355A (zh) * 2021-03-05 2021-06-15 北京百度网讯科技有限公司 图像填充方法及装置、电子设备和介质
CN113222874A (zh) * 2021-06-01 2021-08-06 平安科技(深圳)有限公司 应用于目标检测的数据增强方法、装置、设备及存储介质
CN114022759A (zh) * 2021-09-30 2022-02-08 北京临近空间飞行器系统工程研究所 一种融合神经网络时空特性的空域有限像素目标检测系统及方法
CN114241377A (zh) * 2021-12-16 2022-03-25 海南大学 基于改进yolox的船舶目标检测方法、装置、设备及介质
CN114758153A (zh) * 2022-04-29 2022-07-15 西安交通大学 一种基于显著性保持的数据增强方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021030629A1 (en) * 2019-08-14 2021-02-18 Genentech, Inc. Three dimensional object segmentation of medical images localized with object detection
US11501415B2 (en) * 2019-11-15 2022-11-15 Huawei Technologies Co. Ltd. Method and system for high-resolution image inpainting
WO2021178909A1 (en) * 2020-03-05 2021-09-10 Waymo Llc Learning point cloud augmentation policies

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110210482A (zh) * 2019-06-05 2019-09-06 中国科学技术大学 改进类别不平衡的目标检测方法
CN111950699A (zh) * 2020-07-03 2020-11-17 清华大学深圳国际研究生院 一种基于特征空间相关性的神经网络正则化方法
CN112967355A (zh) * 2021-03-05 2021-06-15 北京百度网讯科技有限公司 图像填充方法及装置、电子设备和介质
CN113222874A (zh) * 2021-06-01 2021-08-06 平安科技(深圳)有限公司 应用于目标检测的数据增强方法、装置、设备及存储介质
CN114022759A (zh) * 2021-09-30 2022-02-08 北京临近空间飞行器系统工程研究所 一种融合神经网络时空特性的空域有限像素目标检测系统及方法
CN114241377A (zh) * 2021-12-16 2022-03-25 海南大学 基于改进yolox的船舶目标检测方法、装置、设备及介质
CN114758153A (zh) * 2022-04-29 2022-07-15 西安交通大学 一种基于显著性保持的数据增强方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A Fast and High-Performance Object Proposal Method for Vison Sensors: Application to Object Detection;Zhiling Wang;《IEEE Sensors Journal》;20220228;第22卷(第10期);第9543-9557页 *
多模态人体行为识别技术研究;冯银付;《中国优秀博士论文电子期刊》;20160101;I138-69 *

Also Published As

Publication number Publication date
CN115187950A (zh) 2022-10-14

Similar Documents

Publication Publication Date Title
TWI665639B (zh) 圖像篡改檢測方法及裝置
US10635935B2 (en) Generating training images for machine learning-based objection recognition systems
CN109583483B (zh) 一种基于卷积神经网络的目标检测方法和系统
CN113674140B (zh) 一种物理对抗样本生成方法及系统
CN106960427A (zh) 二维码图像处理的方法和装置
CN111753828A (zh) 一种基于深度卷积神经网络的自然场景水平文字检测方法
CN104023230A (zh) 一种基于梯度关联性的无参考图像质量评价方法
KR20200091783A (ko) 모바일 장치 또는 소형 네트워크에 적용 가능한 하드웨어를 최적화하는데 사용될 수 있는 roi를 풀링하기 위하여, 마스킹 파라미터를 이용하는 방법 및 장치, 그리고 이를 이용한 테스트 방법 및 테스트 장치
KR20200093417A (ko) 극한 상황에서 폴트 톨러런스 및 플럭츄에이션 로버스트를 향상시키기 위해, 지터링이 일어난 이미지를 안정화하는 프로세스에서 생성된 와핑된 이미지에 발생된 왜곡을, GAN(Generative Adversarial Network)을 이용하여 줄이기 위한 학습 방법 및 학습 장치
CN114419468A (zh) 一种结合注意力机制和空间特征融合算法的水田分割方法
CN110363837B (zh) 游戏中纹理图像的处理方法及装置、电子设备、存储介质
CN115187950B (zh) 用于深度学习图像数据增强的新型平衡掩码二次采样方法
CN110659702A (zh) 基于生成式对抗网络模型书法字帖评价系统及方法
CN108596840B (zh) 一种用于深度学习评定血管网络发育水平的数据集增强方法
Chrysovalantis et al. Building footprint extraction from historic maps utilizing automatic vectorisation methods in open source GIS software
CN117746015A (zh) 小目标检测模型训练方法、小目标检测方法及相关设备
CN115937302A (zh) 结合边缘保持的高光谱图像亚像元定位方法
CN108416815A (zh) 大气光值的测定方法、设备及计算机可读存储介质
CN114332567A (zh) 训练样本的获取方法、装置、计算机设备及存储介质
CN114548405A (zh) 基于ViT的深度学习神经网络数据增强方法
CN113315995A (zh) 提高视频质量的方法、装置、可读存储介质及电子设备
CN112907605B (zh) 用于实例分割的数据增强方法
CN117764988B (zh) 基于异核卷积多感受野网络的道路裂缝检测方法及系统
CN112837388B (zh) 多光源图片生成方法
CN116503464B (zh) 基于遥感图像的农田建筑物高度预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: Room 3201, Building A1, Phase I, Zhong'an Chuanggu Science and Technology Park, No. 900 Wangjiang West Road, Hefei High tech Zone, China (Anhui) Free Trade Pilot Zone, Hefei City, Anhui Province, 230031

Patentee after: Anhui Zhongke Xingchi Automatic Driving Technology Co.,Ltd.

Address before: 3201, Building A1, Phase I, Zhong'an Chuanggu Science Park, No. 900, Wangjiang West Road, High tech Zone, Hefei, Anhui Province, 230031

Patentee before: Anhui Zhongke Xingchi Autonomous Driving Technology Co.,Ltd.

CP03 Change of name, title or address