CN116109475A - 图像数据增强方法、计算机设备和计算机可读介质 - Google Patents
图像数据增强方法、计算机设备和计算机可读介质 Download PDFInfo
- Publication number
- CN116109475A CN116109475A CN202310117378.9A CN202310117378A CN116109475A CN 116109475 A CN116109475 A CN 116109475A CN 202310117378 A CN202310117378 A CN 202310117378A CN 116109475 A CN116109475 A CN 116109475A
- Authority
- CN
- China
- Prior art keywords
- image
- frame
- disturbance
- preset
- annotation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000012545 processing Methods 0.000 claims abstract description 31
- 238000012549 training Methods 0.000 claims abstract description 18
- 238000002372 labelling Methods 0.000 claims description 60
- 238000003860 storage Methods 0.000 claims description 11
- 238000004380 ashing Methods 0.000 claims description 5
- 238000005520 cutting process Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 238000001514 detection method Methods 0.000 abstract description 22
- 239000011435 rock Substances 0.000 description 22
- 239000004575 stone Substances 0.000 description 20
- 230000008569 process Effects 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000002708 enhancing effect Effects 0.000 description 5
- 238000012544 monitoring process Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000009545 invasion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/04—Context-preserving transformations, e.g. by using an importance map
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/54—Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Processing (AREA)
Abstract
本公开提供一种图像数据增强方法,获取指定区域的包含预设异物的初始图像,在初始图像中对预设异物进行标注,得到与预设异物对应的第一标注框;根据预设的扰动参数和膨胀参数对第一标注框进行数据增强处理,生成第二标注框;根据包括第二标注框的图像生成第一样本图像,并根据前景图像生成第二样本图像;本公开实施例利用扰动参数进行标注框的扰动处理,以及利用膨胀参数进行标注框的膨胀处理,实现数据增强,扩充目标网络模型的训练数据的正样本,解决数据集样本较少的问题,提高目标网络训练模型时的泛化性及检测准确度。本公开还提供一种计算机设备和计算机可读介质。
Description
技术领域
本公开涉及图像处理技术领域,具体涉及一种图像数据增强方法、计算机设备和计算机可读介质。
背景技术
在铁路运输中,经常会出现货物坠落、滑坡、落石、行人穿越、甚至人为放置等情况,落石滑坡严重影响着铁路的行车安全,尤其是在高铁上,一个小的危险岩石都有可能导致列车的损毁。由于落石具有很大程度上的突发性,单凭人工定期巡查检测难以对其进行快速、有效和准确地检测。因此,在长度距离的高速铁路轨道结构中全天候防外物入侵的安全防范工作中,提高其预警能力和应急保障能力,防范各种潜在的安全事故具有十分重要的意义。
将高速铁路轨道作为检测背景,其周围环境容易受到很大程度上受到自然光线的影响,自然光线又因为时间、方向和天气等因素不断发生变化。为了防止负重时轨道和枕木陷入地面,会选择在高速铁轨上铺上碎石。因此在对落石进行检测时,怎么将碎石和落石进行区分降低误检率是需要去解决的难点。
目标检测算法一般是建立在人工制作的特征和浅层可训练的架构上的通过构建复杂的集成,将多个低级图像特征与来自目标检测器和场景分类器的低层次特征和高层次特征结合起来。传统的目标检测算法存在以下问题:用于高速铁路轨道中落石检测所用到的数据收集困难,因此面临着数据集样本较少的问题,利用小样本训练的模型很容易陷入对小样本的过拟合以及对目标任务的欠拟合。
发明内容
本公开提供一种图像数据增强方法、计算机设备和计算机可读介质。
第一方面,本公开实施例提供一种图像数据增强方法,包括:
获取指定区域的包含预设异物的初始图像,在所述初始图像中对所述预设异物进行标注,得到与所述预设异物对应的第一标注框;
根据预设的扰动参数和膨胀参数对所述第一标注框进行数据增强处理,生成第二标注框;
根据包括所述第二标注框的图像生成第一样本图像,并根据前景图像生成第二样本图像,所述第一样本图像和所述第二样本图像为目标网络模型的训练数据。
又一方面,本公开实施例还提供一种计算机设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如前所述的图像数据增强方法。
又一方面,本公开实施例还提供一种计算机可读介质,其上存储有计算机程序,其中,所述程序被执行时实现如前所述的图像数据增强方法。
本公开实施例提供的图像数据增强方法,获取指定区域的包含预设异物的初始图像,在初始图像中对预设异物进行标注,得到与预设异物对应的第一标注框;根据预设的扰动参数和膨胀参数对第一标注框进行数据增强处理,生成第二标注框;根据包括第二标注框的图像生成第一样本图像,并根据前景图像生成第二样本图像;本公开实施例利用扰动参数进行标注框的扰动处理,以及利用膨胀参数进行标注框的膨胀处理,实现数据增强,扩充目标网络模型的训练数据的正样本,解决数据集样本较少的问题,提高目标网络训练模型时的泛化性及检测准确度。
附图说明
图1为本公开实施例的图像数据增强方法的流程示意图一;
图2为本公开实施例提供的生成第二标注框的流程示意图;
图3为本公开实施例提供的确定第一标注框的中心点坐标的示意图;
图4为本公开实施例提供的生成各次扰动对应的第三标注框的示意图;
图5为本公开实施例提供的对第三标注框进行膨胀处理的示意图;
图6为本公开实施例提供的图像数据增强方法的流程示意图二;
图7为本公开实施例提供的图像数据增强方法的流程示意图三;
图8为本公开实施例提供的裁剪第二标注框的示意图。
具体实施方式
在下文中将参考附图更充分地描述示例实施例,但是所述示例实施例可以以不同形式来体现且不应当被解释为限于本文阐述的实施例。反之,提供这些实施例的目的在于使本公开透彻和完整,并将使本领域技术人员充分理解本公开的范围。
如本文所使用的,术语“和/或”包括一个或多个相关列举条目的任何和所有组合。
本文所使用的术语仅用于描述特定实施例,且不意欲限制本公开。如本文所使用的,单数形式“一个”和“该”也意欲包括复数形式,除非上下文另外清楚指出。还将理解的是,当本说明书中使用术语“包括”和/或“由……制成”时,指定存在所述特征、整体、步骤、操作、元件和/或组件,但不排除存在或添加一个或多个其他特征、整体、步骤、操作、元件、组件和/或其群组。
本文所述实施例可借助本公开的理想示意图而参考平面图和/或截面图进行描述。因此,可根据制造技术和/或容限来修改示例图示。因此,实施例不限于附图中所示的实施例,而是包括基于制造工艺而形成的配置的修改。因此,附图中例示的区具有示意性属性,并且图中所示区的形状例示了元件的区的具体形状,但并不旨在是限制性的。
除非另外限定,否则本文所用的所有术语(包括技术和科学术语)的含义与本领域普通技术人员通常理解的含义相同。还将理解,诸如那些在常用字典中限定的那些术语应当被解释为具有与其在相关技术以及本公开的背景下的含义一致的含义,且将不解释为具有理想化或过度形式上的含义,除非本文明确如此限定。
本公开实施例提供一种图像数据增强方法,如图1所示,所述图像数据增强方法包括以下步骤:
步骤S11,获取指定区域的包含预设异物的初始图像,在初始图像中对预设异物进行标注,得到与预设异物对应的第一标注框。
在本公开实施例中,异物包括但不限于落石,指定区域是指包括落石的高速铁轨区域。
在本步骤中,通过高速铁轨区域内固定位置、固定角度同步读取实时监控视频,每隔5秒截取视频图像,存入同一个文件夹中;对文件夹中含有落石等异物的图像进行标注,采用统一的标注原则,按照对角线方向标注最小外接矩形框(例如从左上角到右下角);对得到的标注Json文件设置“l abe l=‘Rock’”进行标签筛选,以便对含有落石的高速铁轨图像进行下一步的操作。
步骤S12,根据预设的扰动参数和膨胀参数对第一标注框进行数据增强处理,生成第二标注框。
在本步骤中,对第一标注框进行扰动处理和膨胀处理,实现数据增强,从而根据一个第一标注框生成多个第二标注框。
步骤S13,根据包括第二标注框的图像生成第一样本图像,并根据前景图像生成第二样本图像,第一样本图像和第二样本图像为目标网络模型的训练数据。
第一样本图像为包括异物的图像,是目标网络模型的正样本训练数据,第二样本图像为不包括异物的图像,是目标网络模型的负样本训练数据。在本公开实施例中,目标网络模型为孪生网络模型。
在一些实施例中,所述根据前景图像生成第二样本图像,包括:获取前景图像,并将前景图像缩放为预设大小,得到第二样本图像。孪生网络模型的输入数据大小为105*105像素。
基于随机抖动和膨胀生成目标网络模型的正样本,并采用前景算法生成负样本,确保了正负样本输入到孪生网络时模型的鲁棒性和泛化性。
本公开实施例提供的图像数据增强方法,获取指定区域的包含预设异物的初始图像,在初始图像中对预设异物进行标注,得到与预设异物对应的第一标注框;根据预设的扰动参数和膨胀参数对第一标注框进行数据增强处理,生成第二标注框;根据包括第二标注框的图像生成第一样本图像,并根据前景图像生成第二样本图像;本公开实施例利用扰动参数进行标注框的扰动处理,以及利用膨胀参数进行标注框的膨胀处理,实现数据增强,扩充目标网络模型的训练数据的正样本,解决数据集样本较少的问题,提高目标网络训练模型时的泛化性及检测准确度。
传统的数据增强方法包括几何变换法,旋转、扭曲、平移等,如果采用旋转方式对异物的第一标注框进行数据增强,可能会导致旋转后的标注框不能准确表示异物的最小外接矩形框,旋转后的标注框可能不再等价于原来的矩形框,并且进行旋转、平移等操作时,如果旋转角度和平移位移较大,黑边会更大,影响数据的关键特征。
为了解决上述问题,本公开实施例利用扰动处理和膨胀处理实现数据增强。在一些实施例中,如图2所示,所述根据预设的扰动参数和膨胀参数对第一标注框进行数据增强处理,生成第二标注框(即步骤S12),包括以下步骤:
步骤S121,确定第一标注框的中心点坐标。
获取第一标注框对角线两个顶点的坐标,例如左上角坐标和右下角坐标,结合两个顶点坐标计算出标注框中心点坐标。
如图3所示,第一标注框左上角的坐标为a(x1,y1),右下角的坐标为a(x2,y2),中心点P(x,y)的计算公式(1)如下:
其中,P(x,y)表示第一标注框中心点的坐标,a(y1,y1)和b(x2,y2)分别表示第一标注框左上角和右下角的坐标。
确定中心点坐标可以确保标注的异物在扰动过程中不会丢失,保证正样本的正确构建。需要说明的是,在计算中心点坐标时,为了确保正确性,需要提高容错率,即判断两个顶点坐标应满足x1<x2,y1>y2,减少人工错误标注。
步骤S122,根据第一标注框的中心点坐标和预设的扰动参数,生成第三标注框。
在本步骤中,如图4所示,对第一标注框进行扰动处理,可以得到多个第三标注框。
步骤S123,针对每个第三标注框,根据膨胀参数对第三标注框的长度和宽度进行膨胀处理,得到第二标注框。
如图5所示,对抖动生成的每个第三标注框进行膨胀处理,改变第三标注框的大小,得到对应的第二标注框。
在一些实施例中,扰动参数可以包括扰动方向参数(m)、扰动幅值参数(n)和扰动次数(i)。所述根据第一标注框的中心点坐标和预设的扰动参数,生成第三标注框(即步骤S122),包括以下步骤:
步骤S1221,根据扰动方向参数、扰动幅值参数、扰动次数以及随机生成的扰动幅度范围参数,计算各次扰动对应的扰动值。
根据第一标注框的中心点坐标设定抖动参数,抖动参数确保抖动的方向和幅度,根据获取的正样本总数设置抖动次数以保证训练数据量。
利用以下公式(2)计算各次扰动对应的扰动值:
其中,Ri表示各次扰动对应的扰动值;i表示扰动次数的标识,这里设置i=(1,2,…,n),n为扰动次数,n表示扩充得到的正样本数量;αi为扰动幅度范围参数,用于确保扰动的幅度范围,αi可以取(0,1)中的任意数,不同的扰动次数下,αi的取值不同;m为扰动方向参数,表示扰动的幅度方向,m根据裁剪的样本大小确定,m的取值范围为(0,1);n为扰动幅值参数,表示扰动幅度大小,n的取值范围为(0,1)。
步骤S1222,根据第一标注框的中心点坐标和各次扰动对应的扰动值,生成各次扰动对应的第三标注框。
根据第一标注框的中心点坐标和各次扰动对应的扰动值确定各次扰动对应的第三标注框的中心点坐标,第三标注框的大小与第一标注框的大小相同。
第一标注框的长度和宽度可以根据第一标注框的中心点坐标计算得到,在生成第三标注框之后,可以对各第三标注框的长度和宽度进行膨胀处理。
在异物检测中,如果要增强数据,并不是直接增强图像可以,而是要考虑到图像扭曲后框的位置和大小。因此,为了让同一个位置的异物可以在保留原有信息的基础上,随机生成更多的正样本,对异物的标注框先进行膨胀处理后再进行裁剪。
在一些实施例中,膨胀参数包括第一膨胀系数和第二膨胀系数,所述根据膨胀参数对第三标注框的长度和宽度进行膨胀处理,得到第二标注框(即步骤S123),包括以下步骤:
步骤S1231,在预设范围内随机选择第一膨胀系数和第二膨胀系数。
设置第一膨胀系数和第二膨胀系数的主要目的是为了对图像进行不同方式的裁剪,让异物以不同的实例出现在生成图像后的不同位置,这同样能够降低目标模型对目标位置的敏感性。需要说明的是,第三标注框的长度和宽度不是等比例膨胀,而是独立地随机膨胀。
步骤S1232,根据第一膨胀系数对第三标注框的长度进行第一膨胀处理,得到第二标注框的长度。
步骤S1233,根据第二膨胀系数对第三标注框的宽度进行第二膨胀处理,得到第二标注框的宽度。
第二标注框的长度和宽度可以根据以下公式(3)计算得到:
其中,A、B分别为第二标注框的长度和宽度,β、γ分别为第一膨胀系数和第二膨胀系数,a、b分别为第三标注框的长度和宽度。
由于前景图像收集极其困难,本公开实施例在保证已有的前景图像的基础上进行扩充负样本数量,可以利用帧差法进行前景检测,生成差分热图,得到目标网络模型的负样本训练数据。
因此,在一些实施例中,如图6所示,在初始图像中对预设异物进行标注,得到与预设异物对应的第一标注框(即步骤S11)之后,所述图像数据增强方法还可以包括以下步骤:
步骤S21,从各初始图像中随机选择第一初始图像和第二初始图像。
第一初始图像和第二初始图像均为包括异物的图像。
步骤S22,根据预设权重、第一初始图像的第一标注框和第二初始图像的第一标注框确定差分热图,并将差分热图作为第二样本图像。
在本步骤中,可以根据预设权重、第一初始图像的第一标注框内的像素值和第二初始图像的第一标注框内的像素值确定差分热图,差分热图即为扩充的目标网络模型的负样本。
生成差分热图不但可以扩充目标网络模型的负样本的特征维度,而且还可以提高网络训练的敏感性。增强后的样本和原来的样本之间存在强关联关系,更准确地说,增强后的数据集是原来整体样本分布的子分布,通过扩展原数据集的样本分布空间,可以使网络捕捉到额外的信息,保证训练的网络模型能够提高泛化能力,避免产生过拟合。
在一些实施例中,如图7所示,在从各初始图像中随机选择第一初始图像和第二初始图像(即步骤S21)之后、根据预设权重、第一初始图像的第一标注框和第二初始图像的第一标注框确定差分热图(即步骤S22)之前,所述图像数据增强方法还可以包括以下步骤:
步骤S21’,将第一初始图像和第二初始图像缩放为预设大小。
在本步骤中将第一初始图像和第二初始图像统一缩放成适合输入目标网络模型的大小,在本实施例中,将第一初始图像和第二初始图像缩放为105*105像素。
步骤22’,对缩放后的第一初始图像和缩放后的第二初始图像进行灰化处理,得到第一目标图像和第二目标图像。
相应的,所述根据预设权重、第一初始图像的第一标注框和第二初始图像的第一标注框确定差分热图(即步骤S22),包括以下步骤:根据预设权重、第一目标图像的第一标注框和第二目标图像的第一标注框确定差分热图。
在一些实施例中,所述根据预设权重、第一目标图像的第一标注框和第二目标图像的第一标注框确定差分热图(即步骤S22),包括以下步骤:
步骤S221,计算预设权重与第一目标图像的第一标注框内各第一像素值的第一乘积,以及,计算预设权重与第二目标图像的第一目标区域内各第二像素值的第二乘积,第一目标区域为第二目标图像中与第一目标图像的第一标注框对应的区域。
步骤S222,计算预设权重与锁定第二目标图像的第一标注框内各第三像素值的第三乘积,以及,技术预设权重与第一目标图像的第二目标区域内各第四像素值的第四乘积,第二目标区域为第一目标图像中与第二目标图像的第一标注框对应的区域。
步骤S223,计算第一乘积与第二乘积之差的第一绝对值,以及计算第三乘积与第四乘积之差的第二绝对值。
步骤S224,根据第一绝对值和第二绝对值确定差分热图。
在高速铁轨区域内含有落石的初始图像中,随机选择两张图像,即第一目标图像和第二目标图像,每个图像均包括落石的第一标注框,对于每个标注的落石,第一标注框的位置信息和中心点坐标都是已知的,为了让两张随机落石图像在构建负样本过程中保留有用的信息,为第一目标图像和第二目标图像赋予权重ω,根据权重和上述两张图像中落石区域内的像素值根据以下公式(4)计算差分热图:
分别记为fm(x,y),fn(x,y),将两张随机选取的图像对应的像素值进行相减,并取绝对值,得到差分热图d(x,y),其计算公式(4)为:
其中,fm(x,y)是针对第一目标图像中落石区域(即第一区域)的像素值,fn(x,y)为第二目标图像中与第一目标图像中落石区域对应区域的像素值,按照上述公式(4)可以计算得到第一区域的差分热图。同理,针对第二目标图像中落石区域(即第二区域),同样按照上述公式(4)计算得到第二区域的差分热图,由此可以根据第一区域的差分热图和第二区域的差分热图得到最终的差分热图,并将最终的差分热图作为目标网络模型的负样本。
由于目标网络模型的负样本中包括了利用前景算法和帧差法得到的差分热图,因此基于孪生网络的落石检测系统训练数据增强方法确保了正负样本输入到孪生网络时模型的鲁棒性和泛化性。
在一些实施例中,在根据预设的扰动参数和膨胀参数对第一标注框进行数据增强处理,生成第二标注框(即步骤S12)之后,根据包括第二标注框的图像生成第一样本图像(步骤S13)之前,所述图像数据增强方法还包括以下步骤:
步骤S13’,在第二标注框超过所属图像的边界的情况下,根据所述图像的边界裁剪第二标注框,得到更新后的第二标注框。
相应的,所述根据包括第二标注框的图像生成第一样本图像(即步骤S13),包括以下步骤:根据包括更新后的第二标注框生的图像成第一样本图像。在一些实施例中,所述根据包括更新后的第二标注框生的图像成第一样本图像,包括:将包括更新后的第二标注框的图像缩放为预设大小。
图8为本公开实施例提供的裁剪第二标注框的示意图,如图8所示,在高速铁轨区域中,落石位置具有随机性,而实时监控画面的位置和角度固定不变,因此会存在落石恰好落在监控画面(即初始图像)的边缘地带,将超出图像边界的第二标注框裁剪掉(图8中阴影部分),也就是说,将第二标注框的相应边缘平移至图像边界位置(如图8中黑线),保留剩余的第二标注框,得到更新后的第二标注框。通过对标注框进行剪裁,确保可以得到有效数据。
需要说明的是,也可以对超出图像边界的第一标注框裁剪掉,将第二标注框的相应边缘平移至图像边界位置,保留剩余的第一标注框,得到更新后的第一标注框,这样,可以在一定程度上避免经过抖动和膨胀处理之后的标注框完全超出图像边界。
需要说明的是,在生成差分热图的过程中,如果缩放后的图像中的标注框超出图像边界,也需要对超出边界的标注框进行裁剪。因此,在将第一初始图像和第二初始图像缩放为预设大小(即步骤S21’)之后、对缩放后的第一初始图像和缩放后的第二初始图像进行灰化处理,得到第一目标图像和第二目标图像(即步骤22’)之前,所述图像数据增强方法还包括以下步骤:
在缩放后的第一初始图像中的第一标注框超过缩放后的第一初始图像的边界的情况下,根据缩放后的第一初始图像的边界裁剪缩放后的第一初始图像中的第一标注框,得到第一更新标注框以及包括第一更新标注框的第一缩放初始图像;和/或,
在缩放后的第二初始图像中的第一标注框超过缩放后的第二初始图像的边界的情况下,根据缩放后的第二初始图像的边界裁剪所述缩放后的第二初始图像中的第一标注框,得到第二更新标注框以及包括第二更新标注框的第二缩放初始图像。
所述对缩放后的第一初始图像和缩放后的第二初始图像进行灰化处理,得到第一目标图像和第二目标图像(即步骤22’),包括:对第一缩放初始图像和第二缩放初始图像进行灰化处理,得到第一目标图像和第二目标图像。
在落石检测中,在环境复杂且目标较小的情况下存在样本难收集、数量少的问题,以及传统的目标检测算法存在弊端,为了保证检测目标的关键特征不会被破坏,本公开实施例提出一种图像数据增强方法,用于对孪生网络的落石实时检测系统中训练数据增强。
首先,获得高速铁轨区域内含有落石等异物的初始图像,并对图像范围内所有异物进行标注,计算标注框的中心点,设置扰动参数和膨胀参数进行数据预处理。利用孪生网络的双输入构建正负样本,负样本可以利用前景图片构建负样本,还可以进一步使用帧差法构建热图扩充负样本,以解决负样本难收集的问题,实现落石实时监测。通过对原始图像进行数据增强,消除因为少样本对异物检测的影响,从而提高网络训练模型时的泛化性及检测准确度。
本公开实施例可以快速对正负样本进行扩充,无需繁杂的算法,同时保留了目标检测的关键特征,增加了数据的多样性,丰富了生成图像的背景,在监控视频图像中将落石的形状、轮廓、颜色以及落石由于光照产生的阴影充分提取,如若存在不含有落石的背景图像时,将其作为负样本。另一个负样本的来源是将不同形状、位置的落石图像互为对比,利用帧差法生成新的负样本,由此可以不必获取落石的前景图像,降低了负样本的收集难度,增强了落石形状特征之间的特征,同时也减小了石头形状、颜色及是否有阴影等特征对落石检测结果的影响。将利用本公开实施例的图像数据增强方法增强后的训练数据输入到孪生网络模型中,可以有效地避免过拟合,提升了孪生网络模型的鲁棒性,降低落石检测的误检率。
本公开实施例可以充分提取落石的外观形状、颜色以及是否存在阴影等特征,几乎包含了在高速铁轨区域内落石可能会出现的各种形态,利用孪生网络对输入的正样本和负样本进行识别,不需要传统的特征匹配方式,可以更真实地还原出落石实时检测时的情景,提高了算法的鲁棒性。
本公开实施例还提供了一种计算机设备,该计算机设备包括:一个或多个处理器以及存储装置;其中,存储装置上存储有一个或多个程序,当上述一个或多个程序被上述一个或多个处理器执行时,使得上述一个或多个处理器实现如前述各实施例所提供的图像数据增强方法。
本公开实施例还提供了一种计算机可读介质,其上存储有计算机程序,其中,该计算机程序被执行时实现如前述各实施例所提供的图像数据增强方法。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
本文已经公开了示例实施例,并且虽然采用了具体术语,但它们仅用于并仅应当被解释为一般说明性含义,并且不用于限制的目的。在一些实例中,对本领域技术人员显而易见的是,除非另外明确指出,否则可单独使用与特定实施例相结合描述的特征、特性和/或元素,或可与其他实施例相结合描述的特征、特性和/或元件组合使用。因此,本领域技术人员将理解,在不脱离由所附的权利要求阐明的本发明的范围的情况下,可进行各种形式和细节上的改变。
Claims (10)
1.一种图像数据增强方法,其特征在于,包括:
获取指定区域的包含预设异物的初始图像,在所述初始图像中对所述预设异物进行标注,得到与所述预设异物对应的第一标注框;
根据预设的扰动参数和膨胀参数对所述第一标注框进行数据增强处理,生成第二标注框;
根据包括所述第二标注框的图像生成第一样本图像,并根据前景图像生成第二样本图像,所述第一样本图像和所述第二样本图像为目标网络模型的训练数据。
2.如权利要求1所述的方法,其特征在于,所述根据预设的扰动参数和膨胀参数对所述第一标注框进行数据增强处理,生成第二标注框,包括:
确定所述第一标注框的中心点坐标;
根据所述第一标注框的中心点坐标和预设的扰动参数,生成第三标注框;
针对每个所述第三标注框,根据膨胀参数对所述第三标注框的长度和宽度进行膨胀处理,得到第二标注框。
3.如权利要求2所述的方法,其特征在于,所述扰动参数包括扰动方向参数、扰动幅值参数和扰动次数,所述根据所述第一标注框的中心点坐标和预设的扰动参数,生成第三标注框,包括:
根据所述扰动方向参数、扰动幅值参数、扰动次数以及随机生成的扰动幅度范围参数,计算各次扰动对应的扰动值;
根据所述第一标注框的中心点坐标和所述各次扰动对应的扰动值,生成各次扰动对应的第三标注框。
4.如权利要求2所述的方法,其特征在于,所述膨胀参数包括第一膨胀系数和第二膨胀系数,所述根据膨胀参数对所述第三标注框的长度和宽度进行膨胀处理,得到第二标注框,包括:
在预设范围内随机选择第一膨胀系数和第二膨胀系数;
根据所述第一膨胀系数对所述第三标注框的长度进行第一膨胀处理,得到第二标注框的长度;
根据所述第二膨胀系数对所述第三标注框的宽度进行第二膨胀处理,得到第二标注框的宽度。
5.如权利要求1所述的方法,其特征在于,在所述初始图像中对所述预设异物进行标注,得到与所述预设异物对应的第一标注框之后,所述方法还包括:
从各所述初始图像中随机选择第一初始图像和第二初始图像;
根据预设权重、所述第一初始图像的第一标注框和所述第二初始图像的第一标注框确定差分热图,并将所述差分热图作为所述第二样本图像。
6.如权利要求5所述的方法,其特征在于,在从各所述初始图像中随机选择第一初始图像和第二初始图像之后、根据预设权重、所述第一初始图像的第一标注框和所述第二初始图像的第一标注框确定差分热图之前,所述方法还包括:
将所述第一初始图像和所述第二初始图像缩放为预设大小;
对缩放后的第一初始图像和缩放后的第二初始图像进行灰化处理,得到第一目标图像和第二目标图像;
所述根据预设权重、所述第一初始图像的第一标注框和所述第二初始图像的第一标注框确定差分热图,包括:
根据预设权重、所述第一目标图像的第一标注框和所述第二目标图像的第一标注框确定差分热图。
7.如权利要求6所述的方法,其特征在于,所述根据预设权重、所述第一目标图像的第一标注框和所述第二目标图像的第一标注框确定差分热图,包括:
计算所述预设权重与所述第一目标图像的第一标注框内各第一像素值的第一乘积,以及,计算所述预设权重与所述第二目标图像的第一目标区域内各第二像素值的第二乘积,所述第一目标区域为所述第二目标图像中与所述第一目标图像的第一标注框对应的区域;
计算所述预设权重与锁定第二目标图像的第一标注框内各第三像素值的第三乘积,以及,极速三所述预设权重与所述第一目标图像的第二目标区域内各第四像素值的第四乘积,所述第二目标区域为所述第一目标图像中与所述第二目标图像的第一标注框对应的区域;
计算所述第一乘积与所述第二乘积之差的第一绝对值,以及计算所述第三乘积与所述第四乘积之差的第二绝对值;
根据所述第一绝对值和所述第二绝对值确定差分热图。
8.如权利要求1-7任一项所述的方法,其特征在于,在根据预设的扰动参数和膨胀参数对所述第一标注框进行数据增强处理,生成第二标注框之后,根据包括所述第二标注框的图像生成第一样本图像之前,所述方法还包括:
在所述第二标注框超过所属图像的边界的情况下,根据所述图像的边界裁剪所述第二标注框,得到更新后的第二标注框;
所述根据包括所述第二标注框的图像生成第一样本图像,包括:根据包括所述更新后的第二标注框生的图像成第一样本图像。
9.一种计算机设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-8任一项所述的图像数据增强方法。
10.一种计算机可读介质,其上存储有计算机程序,其中,所述程序被执行时实现如权利要求1-8任一项所述的图像数据增强方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310117378.9A CN116109475A (zh) | 2023-02-09 | 2023-02-09 | 图像数据增强方法、计算机设备和计算机可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310117378.9A CN116109475A (zh) | 2023-02-09 | 2023-02-09 | 图像数据增强方法、计算机设备和计算机可读介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116109475A true CN116109475A (zh) | 2023-05-12 |
Family
ID=86265300
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310117378.9A Pending CN116109475A (zh) | 2023-02-09 | 2023-02-09 | 图像数据增强方法、计算机设备和计算机可读介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116109475A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117218707A (zh) * | 2023-10-07 | 2023-12-12 | 南京信息工程大学 | 一种基于积极扰动的Deepfake人脸检测方法 |
-
2023
- 2023-02-09 CN CN202310117378.9A patent/CN116109475A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117218707A (zh) * | 2023-10-07 | 2023-12-12 | 南京信息工程大学 | 一种基于积极扰动的Deepfake人脸检测方法 |
CN117218707B (zh) * | 2023-10-07 | 2024-04-16 | 南京信息工程大学 | 一种基于积极扰动的Deepfake人脸检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Moya et al. | 3D gray level co-occurrence matrix and its application to identifying collapsed buildings | |
Zhou et al. | Object-based land cover classification of shaded areas in high spatial resolution imagery of urban areas: A comparison study | |
Guan et al. | Iterative tensor voting for pavement crack extraction using mobile laser scanning data | |
Chen et al. | A practical trial of landslide detection from single-temporal Landsat8 images using contour-based proposals and random forest: A case study of national Nepal | |
Serna et al. | Detection, segmentation and classification of 3D urban objects using mathematical morphology and supervised learning | |
Liu et al. | Automated extraction of coastline from satellite imagery by integrating Canny edge detection and locally adaptive thresholding methods | |
RU2484531C2 (ru) | Устройство обработки видеоинформации системы охранной сигнализации | |
Soilán et al. | Automatic extraction of road features in urban environments using dense ALS data | |
CN111626170B (zh) | 一种铁路边坡落石侵限检测的图像识别方法 | |
Munawar et al. | Mining multispectral aerial images for automatic detection of strategic bridge locations for disaster relief missions | |
CN114419616A (zh) | 一种异物识别方法、装置、设备及存储介质 | |
Han et al. | Noncontact detection of earthquake-induced landslides by an enhanced image binarization method incorporating with Monte-Carlo simulation | |
Li et al. | Sleep gesture detection in classroom monitor system | |
CN116109475A (zh) | 图像数据增强方法、计算机设备和计算机可读介质 | |
Ruban et al. | The method for selecting the urban infrastructure objects contours | |
Hordiiuk et al. | Neural network and local laplace filter methods applied to very high resolution remote sensing imagery in urban damage detection | |
Weidner et al. | Classifying rock slope materials in photogrammetric point clouds using robust color and geometric features | |
Mahrooghy et al. | A machine learning framework for detecting landslides on earthen levees using spaceborne SAR imagery | |
Joshi et al. | Damage identification and assessment using image processing on post-disaster satellite imagery | |
Abujayyab et al. | Integrating object-based and pixel-based segmentation for building footprint extraction from satellite images | |
CN117294818A (zh) | 一种用于机场施工的工地全景监控方法 | |
Sofina et al. | Object-based change detection using high-resolution remotely sensed data and GIS | |
Yao et al. | 3D object-based classification for vehicle extraction from airborne LiDAR data by combining point shape information with spatial edge | |
Liu et al. | An automatic method for road centerline extraction from post-earthquake aerial images | |
You et al. | Rapid traffic sign damage inspection in natural scenes using mobile laser scanning data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |