CN115187950B - 用于深度学习图像数据增强的新型平衡掩码二次采样方法 - Google Patents
用于深度学习图像数据增强的新型平衡掩码二次采样方法 Download PDFInfo
- Publication number
- CN115187950B CN115187950B CN202211107032.2A CN202211107032A CN115187950B CN 115187950 B CN115187950 B CN 115187950B CN 202211107032 A CN202211107032 A CN 202211107032A CN 115187950 B CN115187950 B CN 115187950B
- Authority
- CN
- China
- Prior art keywords
- mask
- matrix
- generating
- feature map
- balanced
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种用于深度学习图像数据增强的新型平衡掩码二次采样方法,该方法将特征图上待删除块中的元素在删除和保留之间取得合理的平衡。包括如下步骤:S1:获得原始数据的特征图。S2:生成基础掩码M1,M1的生成方式采用已有方法。S3:生成平衡掩码M2,平衡掩码M2的设计采用两种形式。第一种是创建一个和M1等尺寸的矩阵M2,矩阵内均匀分布若干矩形块,矩形内的元素为1,其余为0。M2内矩形块的分布,可通过矩形块的长度、宽度、水平、竖直间隔距离改变。第二种是创建一个和M1等尺寸的矩阵M2,矩阵内的每个元素服从概率为p的伯努利分布。S4:生成最终掩码M=1‑M1×M2。S5:将掩码M应用到特征图上。
Description
技术领域
本发明涉及深度学习图像数据处理领域,具体地说是一种用于深度学习图像数据增强的新型平衡掩码二次采样方法。本发明可以广泛的应用于自动驾驶、工业自动化等多个领域。
背景技术
深度学习被广泛的应用于自动驾驶、工业自动化等多个领域,基于视觉信息的目标识别就是其中一种典型工况。视觉信息虽然容易受到外界环境如雨、雪、灰尘等的干扰,但是成本低廉,技术上相对比较成熟。基于视觉信息的目标识别方案往往需要大量的数据做基础。一般来说,数据量越大,神经网络可以学习的越好。但是现实中数据量的基数往往都不会很大,因此直接送到神经网络进行训练学习可能会导致过拟合现象,即在训练集上表现得很好,在测试集上表现的很差。
当数据集的大小有限时,现有的解决方案通常通过一些数据增强方法和正则化缓解神经网络过拟合的问题。比如随机在图上添加噪声以盖住部分目标特征,随机删除特征图上的块,从而迫使神经网络学习目标的其他特征,提高神经网络的鲁棒性。但是,这种随机性可能会由于过度删除一个或几个块以及上下文信息而导致剩余的语意信息不足以支撑目标识别,从而导致模型的性能不升反降。
发明内容
有鉴于此,本发明提供了一种用于深度学习图像数据增强的新型平衡掩码二次采样方法,既可以通过屏蔽特征图上部分特征迫使神经网络学习目标的其他特征,又能避免因过度删除一个或几个块以及上下文信息而导致目标的语意信息被完全删除的情况,起到提高模型鲁棒性、准确性的作用。
为了实现上述目的,本发明采用如下技术方案:
一种用于深度学习图像数据增强的新型平衡掩码二次采样方法,其特征在于,包括如下步骤:
S1:获取神经网络卷积之后得到的特征图FR∈n×c×h×w,n为特征图的数量,c为特征图的通道维度,h、w分别为特征图的高度、宽度,R为实数域;
S2:生成基础掩码M1,M1的生成方式为:在和特征图等尺寸的空白矩阵上随机生成种子点,以种子点为中心填充一个正方形,正方形内的元素填充为1,其余元素填充为0;
S3:生成平衡掩码M2;
S4:生成最终掩码M,M=1-M1×M2,通过平衡掩码二次采样方法将特征图上待删除块中的元素在删除和保留之间取得合理的平衡;
S5:将掩码M应用到特征图上,F=F×M。
进一步的,所述步骤S3中所述的平衡掩码的生成方式有两种:
方式一:创建一个和M1等尺寸的矩阵,矩阵内均匀分布若干个小矩形块,矩形内的元素为1,其余为0,矩阵内矩形块的分布,通过每个矩形块的长度、宽度、水平间隔距离、竖直间隔距离改变;
方式二:创建一个和M1等尺寸的矩阵,矩阵内的每个元素服从概率为p的伯努利分布。
与现有技术相比,本发明的技术方案所带来的有益效果是:
本发明提供了一种用于深度学习训练数据增强的新型平衡掩码二次采样方法。在现阶段已有方法生成的基础掩码之上添加一个平衡掩码,既可以通过屏蔽特征图上部分特征迫使神经网络学习目标的其他特征,又能避免因过度删除一个或几个块以及上下文信息而导致目标的语意信息被完全删除的情况,起到提高模型鲁棒性、准确性的作用。同时,本发明提出的平衡掩码设计十分巧妙,不受具体模型的约束,可以轻松的移植到其他模型中,因此适用范围很广。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见的,此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。
图1为应用本发明的平衡掩码(一);
图2为应用本发明的平衡掩码(二);
图3为本发明的算法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
参见图1所示,本发明实施例1提供了一种用于深度学习训练数据增强的新型平衡掩码二次采样方法,图1中的原始图像数据为无人驾驶车辆在路上采集得到,经过预处理操作后变成分辨率为224×224的三通道RGB图像,包括如下步骤:
S1:获取神经网络卷积之后得到的特征图FR∈n×c×h×w(n为16,c为64,h、w分别为112、112),R为实数域;
S2:生成基础掩码M1。M1的生成方式可以采用DropBlock。即在和特征图等尺寸的空白矩阵上随机生成种子点,以种子点为中心填充一个5×5的正方形。正方形内的元素填充为1,其余元素填充为0;
S3:生成平衡掩码M2。创建一个和M1等尺寸的矩阵,在矩阵上均匀分布着大小为2×2的小正方形,小正方形与边缘、小正方形与小正方形的水平间隔距离、垂直间隔距离分别为1。小正方形内的元素置为1,其余为0,得到平衡掩码M2;
S4:生成最终掩码M,M=1-M1×M2。利用平衡掩码M2对基础掩码M1再次取样,即可达到待删除块中的元素在删除和保留之间取得合理的平衡的效果;
S5:将掩码M应用到特征图上,F=F×M。
图1中的(c)和(d)均为实际基础掩码M1和平衡掩码M2的部分截图。
M2内矩形块的分布,可以通过每个矩形块的长度、宽度、水平间隔距离、竖直间隔距离改变。
实施例2
参见图2所示,本发明实施例2提供了一种用于深度学习训练数据增强的新型平衡掩码二次采样方法,图2中的原始图像数据来自KITTI 2D目标检测数据集,包括如下步骤:
S1:获取神经网络卷积之后得到的特征图FR∈n×c×h×w ;(n为16,c为64,h、w分别为224、224);
S2:生成基础掩码M1。M1的生成方式可以采用DropBlock。即在和特征图等尺寸的空白矩阵上随机生成种子点,以种子点为中心填充一个5×5的正方形。正方形内的元素填充为1,其余元素填充为0;
S3:生成平衡掩码M2,创建一个和M1等尺寸的矩阵,矩阵内的每个元素服从概率为0.25的伯努利分布;
S4:生成最终掩码M,M=1-M1×M2。利用平衡掩码M2对基础掩码M1再次取样,即可达到待删除块中的元素在删除和保留之间取得合理的平衡的效果;
S5:将掩码M应用到特征图上,F=F×M。
图2中的(c)和(d)均为实际基础掩码M1和平衡掩码M2的部分截图。
在实施例2中,在YOLOV5S模型上,对KITTI 2D数据集进行迭代100轮,采用本发明的数据增强方法,相比DropBlock实现了2%的mAP提升。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (1)
1.一种用于深度学习图像数据增强的新型平衡掩码二次采样方法,其特征在于,包括如下步骤:
S1:获取神经网络卷积之后得到的特征图FR∈n×c×h×w,n为特征图的数量,c为特征图的通道维度,h、w分别为特征图的高度、宽度,R为实数域;
S2:生成基础掩码M1,M1的生成方式为:在和特征图等尺寸的空白矩阵上随机生成种子点,以种子点为中心填充一个正方形,正方形内的元素填充为1,其余元素填充为0;
S3:生成平衡掩码M2;
S4:生成最终掩码M,M=1-M1×M2,通过平衡掩码二次采样方法将特征图上待删除块中的元素在删除和保留之间取得合理的平衡;
S5:将掩码M应用到特征图上,F=F×M;
步骤S3中所述的平衡掩码M2的生成方式有两种:
方式一:创建一个和M1等尺寸的矩阵,矩阵内均匀分布若干个小矩形块,矩形内的元素为1,其余为0,矩阵内矩形块的分布,通过每个矩形块的长度、宽度、水平间隔距离、竖直间隔距离改变;
方式二:创建一个和M1等尺寸的矩阵,矩阵内的每个元素服从概率为p的伯努利分布。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211107032.2A CN115187950B (zh) | 2022-09-13 | 2022-09-13 | 用于深度学习图像数据增强的新型平衡掩码二次采样方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211107032.2A CN115187950B (zh) | 2022-09-13 | 2022-09-13 | 用于深度学习图像数据增强的新型平衡掩码二次采样方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115187950A CN115187950A (zh) | 2022-10-14 |
CN115187950B true CN115187950B (zh) | 2022-11-22 |
Family
ID=83524759
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211107032.2A Active CN115187950B (zh) | 2022-09-13 | 2022-09-13 | 用于深度学习图像数据增强的新型平衡掩码二次采样方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115187950B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110210482A (zh) * | 2019-06-05 | 2019-09-06 | 中国科学技术大学 | 改进类别不平衡的目标检测方法 |
CN111950699A (zh) * | 2020-07-03 | 2020-11-17 | 清华大学深圳国际研究生院 | 一种基于特征空间相关性的神经网络正则化方法 |
CN112967355A (zh) * | 2021-03-05 | 2021-06-15 | 北京百度网讯科技有限公司 | 图像填充方法及装置、电子设备和介质 |
CN113222874A (zh) * | 2021-06-01 | 2021-08-06 | 平安科技(深圳)有限公司 | 应用于目标检测的数据增强方法、装置、设备及存储介质 |
CN114022759A (zh) * | 2021-09-30 | 2022-02-08 | 北京临近空间飞行器系统工程研究所 | 一种融合神经网络时空特性的空域有限像素目标检测系统及方法 |
CN114241377A (zh) * | 2021-12-16 | 2022-03-25 | 海南大学 | 基于改进yolox的船舶目标检测方法、装置、设备及介质 |
CN114758153A (zh) * | 2022-04-29 | 2022-07-15 | 西安交通大学 | 一种基于显著性保持的数据增强方法及系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114503159A (zh) * | 2019-08-14 | 2022-05-13 | 豪夫迈·罗氏有限公司 | 通过对象检测定位的医学图像的三维对象分割 |
US11501415B2 (en) * | 2019-11-15 | 2022-11-15 | Huawei Technologies Co. Ltd. | Method and system for high-resolution image inpainting |
WO2021178909A1 (en) * | 2020-03-05 | 2021-09-10 | Waymo Llc | Learning point cloud augmentation policies |
-
2022
- 2022-09-13 CN CN202211107032.2A patent/CN115187950B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110210482A (zh) * | 2019-06-05 | 2019-09-06 | 中国科学技术大学 | 改进类别不平衡的目标检测方法 |
CN111950699A (zh) * | 2020-07-03 | 2020-11-17 | 清华大学深圳国际研究生院 | 一种基于特征空间相关性的神经网络正则化方法 |
CN112967355A (zh) * | 2021-03-05 | 2021-06-15 | 北京百度网讯科技有限公司 | 图像填充方法及装置、电子设备和介质 |
CN113222874A (zh) * | 2021-06-01 | 2021-08-06 | 平安科技(深圳)有限公司 | 应用于目标检测的数据增强方法、装置、设备及存储介质 |
CN114022759A (zh) * | 2021-09-30 | 2022-02-08 | 北京临近空间飞行器系统工程研究所 | 一种融合神经网络时空特性的空域有限像素目标检测系统及方法 |
CN114241377A (zh) * | 2021-12-16 | 2022-03-25 | 海南大学 | 基于改进yolox的船舶目标检测方法、装置、设备及介质 |
CN114758153A (zh) * | 2022-04-29 | 2022-07-15 | 西安交通大学 | 一种基于显著性保持的数据增强方法及系统 |
Non-Patent Citations (2)
Title |
---|
A Fast and High-Performance Object Proposal Method for Vison Sensors: Application to Object Detection;Zhiling Wang;《IEEE Sensors Journal》;20220228;第22卷(第10期);第9543-9557页 * |
多模态人体行为识别技术研究;冯银付;《中国优秀博士论文电子期刊》;20160101;I138-69 * |
Also Published As
Publication number | Publication date |
---|---|
CN115187950A (zh) | 2022-10-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110136170B (zh) | 一种基于卷积神经网络的遥感影像建筑物变化检测方法 | |
US10635935B2 (en) | Generating training images for machine learning-based objection recognition systems | |
CN109583483B (zh) | 一种基于卷积神经网络的目标检测方法和系统 | |
CN113674140B (zh) | 一种物理对抗样本生成方法及系统 | |
CN106960427A (zh) | 二维码图像处理的方法和装置 | |
CN111753828A (zh) | 一种基于深度卷积神经网络的自然场景水平文字检测方法 | |
CN109948593A (zh) | 基于结合全局密度特征的mcnn人群计数方法 | |
KR20200091783A (ko) | 모바일 장치 또는 소형 네트워크에 적용 가능한 하드웨어를 최적화하는데 사용될 수 있는 roi를 풀링하기 위하여, 마스킹 파라미터를 이용하는 방법 및 장치, 그리고 이를 이용한 테스트 방법 및 테스트 장치 | |
JP2020119555A (ja) | 極限状況においてフォールトトレランス及びフラクチュエーションロバスト性を向上させるために、ジッタリングが起きたイメージを安定化させるプロセスで生成されたワーピングされたイメージに発生した歪曲を、ganを利用して減らすための学習方法及び学習装置、そしてそれを利用したテスト方法及びテスト装置 | |
CN112580662A (zh) | 一种基于图像特征识别鱼体方向的方法及系统 | |
CN114419468A (zh) | 一种结合注意力机制和空间特征融合算法的水田分割方法 | |
CN115358952B (zh) | 一种基于元学习的图像增强方法、系统、设备和存储介质 | |
CN113034511A (zh) | 基于高分辨率遥感影像与深度学习的乡村建筑识别算法 | |
CN107749048A (zh) | 图像矫正系统及方法、色盲图像矫正系统及方法 | |
CN114359269A (zh) | 基于神经网络的虚拟食品盒缺陷生成方法及系统 | |
CN115187950B (zh) | 用于深度学习图像数据增强的新型平衡掩码二次采样方法 | |
Chrysovalantis et al. | Building footprint extraction from historic maps utilizing automatic vectorisation methods in open source GIS software | |
CN117746015A (zh) | 小目标检测模型训练方法、小目标检测方法及相关设备 | |
CN116912484A (zh) | 图像语义分割方法、装置、电子设备和可读存储介质 | |
CN114332567A (zh) | 训练样本的获取方法、装置、计算机设备及存储介质 | |
CN114548405A (zh) | 基于ViT的深度学习神经网络数据增强方法 | |
CN113315995A (zh) | 提高视频质量的方法、装置、可读存储介质及电子设备 | |
CN112907605B (zh) | 用于实例分割的数据增强方法 | |
CN112837388B (zh) | 多光源图片生成方法 | |
CN118262252B (zh) | 高低压中心识别方法、系统、介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address |
Address after: Room 3201, Building A1, Phase I, Zhong'an Chuanggu Science and Technology Park, No. 900 Wangjiang West Road, Hefei High tech Zone, China (Anhui) Free Trade Pilot Zone, Hefei City, Anhui Province, 230031 Patentee after: Anhui Zhongke Xingchi Automatic Driving Technology Co.,Ltd. Address before: 3201, Building A1, Phase I, Zhong'an Chuanggu Science Park, No. 900, Wangjiang West Road, High tech Zone, Hefei, Anhui Province, 230031 Patentee before: Anhui Zhongke Xingchi Autonomous Driving Technology Co.,Ltd. |
|
CP03 | Change of name, title or address |