CN112967187B - 用于目标检测的方法和装置 - Google Patents
用于目标检测的方法和装置 Download PDFInfo
- Publication number
- CN112967187B CN112967187B CN202110213746.0A CN202110213746A CN112967187B CN 112967187 B CN112967187 B CN 112967187B CN 202110213746 A CN202110213746 A CN 202110213746A CN 112967187 B CN112967187 B CN 112967187B
- Authority
- CN
- China
- Prior art keywords
- training image
- image
- initial training
- areas
- size
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 103
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000012549 training Methods 0.000 claims abstract description 242
- 238000004590 computer program Methods 0.000 claims description 14
- 238000002372 labelling Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 239000012141 concentrate Substances 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/32—Indexing scheme for image data processing or generation, in general involving image mosaicing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
Abstract
一种用于目标检测的方法和装置,该方法包括:获取空白图像,将所述空白图像划分为多个区域,所述多个区域中至少两个区域具有不同的尺寸,并且所述多个区域中包括尺寸小于预设阈值的区域;获取初始训练图像,在所述空白图像的每个所述区域内放置初始训练图像以得到拼接训练图像,所述放置包括:将所述初始训练图像的尺寸缩放为与所述区域的尺寸相同,并将缩放后的训练图像放置在所述区域内,其中至少两个不同尺寸的区域内放置有同一初始训练图像缩放后的训练图像;输出所述拼接训练图像,以用于训练目标检测模型。本申请的方案增强了用于目标检测的训练数据,使得训练出的目标检测模型能够高精度地检测多尺度目标对象和小尺寸目标对象。
Description
技术领域
本申请涉及目标检测技术领域,更具体地涉及一种用于目标检测的方法和装置。
背景技术
目标检测是计算机视觉和数字图像处理的一个热门方向,广泛应用于机器人导航、智能视频监控、工业检测、航空航天等诸多领域。目标检测通常需要训练模型,根据训练好的模型进行目标检测,训练过程中采用的训练数据影响最终得到的目标检测模型的精度。
目前,有的训练好的模型存在过拟合的问题,即模型在训练集上有很好的表现,而在实际场景中表现很差。过拟合主要是由训练数据的数据量小,模型复杂等原因造成。数据增强可以防止模型过拟合,在不增加模型大小及推理时间的前提下显著提升目标检测的精度。
常见的用于目标检测的训练数据增强方式有:图像翻转、图像旋转、亮暗变化、模糊增强、随机擦除、MixUp、CutMix、马赛克数据增强等等。但这些常用的数据增强方法对于小目标及具有较大尺度变化的目标检测效果提升并不明显。因此,小目标对象及目标对象多尺度的变化是目标检测的难点,需要一种方法来提高小目标对象及多尺度目标对象的检测精度。
发明内容
根据本申请一方面,提供了一种用于目标检测的方法,所述方法包括:获取空白图像,将所述空白图像划分为多个区域,所述多个区域中至少两个区域具有不同的尺寸,并且所述多个区域中包括尺寸小于预设阈值的区域;获取初始训练图像,在所述空白图像的每个所述区域内放置初始训练图像以得到拼接训练图像,所述放置包括:将所述初始训练图像的尺寸缩放为与所述区域的尺寸相同,并将缩放后的训练图像放置在所述区域内,其中至少两个不同尺寸的区域内放置有同一初始训练图像缩放后的训练图像;输出所述拼接训练图像,以用于训练目标检测模型。
在本申请的一个实施例中,对于放置有同一初始训练图像缩放后的训练图像的区域中的至少一个区域,所述放置还包括:将所述初始训练图像翻转后再进行所述缩放;或者将所述初始训练图像进行所述缩放后再进行翻转,并将翻转后的训练图像放置在所述区域内。
在本申请的一个实施例中,所述初始训练图像为经标注的训练图像,所述放置还包括:使所述初始训练图像中的标注的尺寸随着所述初始训练图像的尺寸的缩放而缩放;或者将所述初始训练图像的尺寸进行缩放后,对所述初始训练图像中的标注的尺寸和/或位置进行相应地修改,以使得所述初始训练图像中的目标对象被正确地标注。
在本申请的一个实施例中,所述初始训练图像为未经标注的训练图像,所述方法还包括:在输出所述拼接训练图像之后,对所述拼接训练图像中的目标对象进行标注,以用于基于经标注的拼接训练图像训练目标检测模型。
在本申请的一个实施例中,对于放置有同一初始训练图像缩放后的训练图像的区域,包括以下中的至少一项:至少两个区域具有相同的水平尺寸和不同的垂直尺寸;至少两个区域具有不同的水平尺寸和相同的垂直尺寸;至少两个区域具有不同的水平尺寸和不同的垂直尺寸。
在本申请的一个实施例中,所述尺寸小于预设阈值的区域,包括:水平尺寸小于第一预设阈值并且垂直尺寸小于第二预设阈值的区域。
在本申请的一个实施例中,所述多个区域中包括至少两个尺寸小于所述预设阈值的区域,所述至少两个尺寸小于所述预设阈值的区域放置有不同初始训练图像缩放后的训练图像。
在本申请的一个实施例中,所述尺寸小于预设阈值的区域中,至少两个区域具有相同的尺寸,至少两个区域具有不同的尺寸。
在本申请的一个实施例中,所述多个区域的部分区域为第一目标区域,所述多个区域的其余区域为第二目标区域,所述第一目标区域中的各区域用于放置同一初始训练图像缩放后的训练图像,所述第二目标区域中的各区域为尺寸小于所述预设阈值的区域,所述第二目标区域中的各区域用于放置不同初始训练图像缩放后的训练图像。
在本申请的一个实施例中,所述方法还包括:基于所述拼接训练图像训练目标检测模型,得到训练好的目标检测模型。
在本申请的一个实施例中,所述方法还包括:获取输入图像,基于所述训练好的目标检测模型对所述输入图像进行目标检测,得到目标检测结果。
根据本申请另一方面,提供了一种用于目标检测的装置,所述装置包括存储器和处理器,所述存储器上存储有由所述处理器运行的计算机程序,所述计算机程序在被所述处理器运行时,使得所述处理器执行如上述用于目标检测的方法。
根据本申请实施例的用于目标检测的方法和装置将多尺度同一目标对象和小尺寸目标对象集中于同一训练图像中,增强了用于目标检测的训练数据,使得能够基于经增强的训练数据训练目标检测模型,训练出的目标检测模型能够较高精度地检测多尺度目标对象和小尺寸目标对象。
附图说明
通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1示出用于实现根据本发明实施例的用于目标检测的方法和装置的示例电子设备的示意性框图。
图2示出根据本申请实施例的用于目标检测的方法的示意性流程图。
图3示出根据本申请实施例的用于目标检测的方法中将空白图像划分为多个区域的示例图。
图4示出根据本申请实施例的用于目标检测的方法中将空白图像的各区域上放置初始训练图像的示例图。
图5示出根据本申请实施例的用于目标检测的装置的示意性框图。
具体实施方式
为了使得本申请的目的、技术方案和优点更为明显,下面将参照附图详细描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。基于本申请中描述的本申请实施例,本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本申请的保护范围之内。
首先,参照图1来描述用于实现本发明实施例的用于目标检测的方法和装置的示例电子设备100。
如图1所示,电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入装置106以及输出装置108,这些组件通过总线系统110和/或其它形式的连接机构(未示出)互连。应当注意,图1所示的电子设备100的组件和结构只是示例性的,而非限制性的,根据需要,所述电子设备也可以具有其他组件和结构。
所述处理器102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元,并且可以控制所述电子设备100中的其它组件以执行期望的功能。
所述存储装置104可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器102可以运行所述程序指令,以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据,例如所述应用程序使用和/或产生的各种数据等。
所述输入装置106可以是用户用来输入指令的装置,并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。此外,所述输入装置106也可以是任何接收信息的接口。
所述输出装置108可以向外部(例如用户)输出各种信息(例如图像或声音),并且可以包括显示器、扬声器等中的一个或多个。此外,所述输出装置108也可以是任何其他具备输出功能的设备。
示例性地,用于实现根据本发明实施例的用于目标检测的方法和装置的示例电子设备可以被实现诸如智能手机、平板电脑、摄像头等终端。
下面,将参考图2描述根据本申请实施例的用于目标检测的方法200。如图2所示,用于目标检测的方法200可以包括如下步骤:
在步骤S210,获取空白图像,将所述空白图像划分为多个区域,所述多个区域中至少两个区域具有不同的尺寸,并且所述多个区域中包括尺寸小于预设阈值的区域。
在步骤S220,获取初始训练图像,在所述空白图像的每个所述区域内放置初始训练图像以得到拼接训练图像,所述放置包括:将所述初始训练图像的尺寸缩放为与所述区域的尺寸相同,并将缩放后的训练图像放置在所述区域内,其中至少两个不同尺寸的区域内放置有同一初始训练图像缩放后的训练图像。
在步骤S230,输出所述拼接训练图像,以用于训练目标检测模型。
在本申请的实施例中,首先获取空白图像,并将空白图像划分为多个区域,在划分的区域中,包括至少两个尺寸不同的区域,还包括尺寸小于预设阈值的区域。其中,至少两个尺寸不同的区域可以用于放置同一初始训练图像,由于初始训练图像在放置在每个区域中时都是先将尺寸缩放为与所放置区域的尺寸相同再进行放置(应理解,如果某初始训练图像的尺寸刚好与其将放置在内的区域的尺寸相同,则无需缩放而是直接放置,总之是要将初始训练图像与区域对齐放置),因而同一初始训练图像放置在至少两个不同的区域可以实现同一图像(拼接训练图像)中包括多尺度的同一目标。类似地,由于初始训练图像在放置在每个区域中时都是先将尺寸缩放为与所放置区域的尺寸相同再进行放置,因而放置在尺寸小于预设阈值(该阈值可根据需要而设置,例如根据需要检测的小目标对象的尺寸而设置)的区域中的初始训练图像必然是尺寸较小的图像,图像的尺寸小,则其中包含的目标对象的尺寸也一般是小的,这样,为最终得到的拼接训练图像中包含小目标对象提供了可能。因此,根据本申请实施例的用于目标检测的方法可以得到这样的训练数据——同时包含多尺度目标对象和小目标对象的拼接训练图像,该拼接训练图像相对于初始训练图像得到数据增强,基于此类拼接训练图像训练得到的目标检测模型不会增加模型的复杂度及推理时间,且使训练出来的模型具有较好的多尺度目标对象及小目标对象检测的能力。
在本申请的进一步的实施例中,对于放置有同一初始训练图像缩放后的训练图像的区域中的至少一个区域,步骤S220中的放置还可以包括:将所述初始训练图像翻转后再进行所述缩放;或者将所述初始训练图像进行所述缩放后再进行翻转,并将翻转后的训练图像放置在所述区域内。在该实施例中,在将初始训练图像放置在区域内时,不仅将其尺寸缩放至与区域的尺寸相同,还对图像进行了翻转操作,例如水平翻转、垂直翻转等(其中缩放与翻转这两个操作的顺序是任意的,不限的,可以先翻转再缩放,也可以先缩放再翻转),这使得最终得到的拼接训练图像中,不仅包括多个尺度的同一目标对象,还包括该目标对象的变形(诸如因水平翻转而得到该目标对象的镜像对象等),这可以进一步增强拼接训练图像训练目标检测模型的能力,使得训练好的目标检测模型对多尺度目标对象的检测的鲁棒性更强。应理解,除了对初始训练图像进行翻转操作之外,也可以对其进行诸如旋转、亮度变化等其他处理或者这些处理的组合,这些都可以进一步增强拼接训练图像训练目标检测模型的能力,使得训练好的目标检测模型对多尺度目标对象的检测的鲁棒性更强。
在本申请的一个实施例中,在步骤S220所获取的初始训练图像可以是经标注的训练图像,基于此,步骤S220中的放置还可以包括:使所述初始训练图像中的标注的尺寸随着所述初始训练图像的尺寸的缩放而缩放;或者将所述初始训练图像的尺寸进行缩放后,对所述初始训练图像中的标注的尺寸和/或位置进行相应地修改,以使得所述初始训练图像中的目标对象被正确地标注。在该实施例中,初始训练图像是已经过标注的训练图像,也就是说,初始训练图像中的目标对象已经被标注出来,因此,在将初始训练图像放置在空白图像的某区域内时,可以进行设置,诸如将标注与初始训练图像进行组合,使得标注的尺寸随着初始训练图像的尺寸的缩放而缩放;或者,也可以在初始训练图像的尺寸被缩放后,对初始训练图像中的标注的尺寸和/或位置进行相应地修改;无论哪种方式,都是为了保证经过缩放后初始训练图像中的标注仍然是正确的标注(即标注的目标对象的位置是正确的)。在该实施例中,由于初始训练图像中已经包含标注,因此最终得到的拼接训练图像也是包含标注的,可直接基于这样的拼接训练图像训练目标检测模型。
在本申请的另一个实施例中,在步骤S220所获取的初始训练图像可以是未经标注的训练图像,基于此,方法200还可以包括如下步骤(未示出):在输出所述拼接训练图像之后,对所述拼接训练图像中的目标对象进行标注,以用于基于经标注的拼接训练图像训练目标检测模型。在该实施例中,初始训练图像是未经过标注的训练图像,也就是说,初始训练图像中的目标对象未被标注出来,因此,在将初始训练图像放置在空白图像的某区域内时,可以仅对初始训练图像的尺寸进行修改(初始训练图像与其将放置区域尺寸不同时)即可,以使得初始训练图像与区域对齐。这样,空白图像中各区域被放置初始训练图像后,得到的拼接训练图像是未经标注的,为了训练目标检测模型,可以自动或者人工对拼接训练图像中所包括的目标对象进行标注,基于经标注的拼接训练图像,可以训练目标检测模型。
在本申请的实施例中,对于放置有同一初始训练图像缩放后的训练图像的区域,包括以下中的至少一项:至少两个区域具有相同的水平尺寸和不同的垂直尺寸;至少两个区域具有不同的水平尺寸和相同的垂直尺寸;至少两个区域具有不同的水平尺寸和不同的垂直尺寸。在该实施例中,同一初始训练图像被缩放为不同的尺寸放置到空白图像中不同尺寸的区域里,这些不同尺寸的区域中,包括水平尺寸不同的区域、垂直尺寸不同的区域、或水平尺寸垂直尺寸均不同的区域,这样的区域划分方式使得同一目标对象的多尺度划分方式更为精细,能够进一步增强拼接训练图像训练目标检测模型的能力,使得训练好的目标检测模型对多尺度目标对象的检测的鲁棒性更强。
在本申请的实施例中,空白图像被划分的区域中尺寸小于预设阈值的区域可以包括水平尺寸小于第一预设阈值并且垂直尺寸小于第二预设阈值的区域。在该实施例中,可以通过定义第一预设阈值和第二预设阈值的大小来确定空白图像中用于放置包含小目标对象的初始训练图像的区域的尺寸,当然,第一预设阈值和第二预设阈值这两者的数值本身可以根据要检测到小目标对象的尺寸和/或该小目标对象所在的初始训练图像的尺寸来确定。
在本申请的实施例中,空白图像被划分的区域中可以至少包括两个尺寸小于预设阈值的区域,该至少两个尺寸小于预设阈值的区域可以放置有不同初始训练图像缩放后的训练图像。在该实施例中,包括不止一个尺寸小于预设阈值的区域,每个区域放置不同的初始训练图像,使得最终得到的拼接训练图像包括不同的小目标对象,并且各小目标对象的尺寸也是不同的,这可以进一步增强拼接训练图像训练目标检测模型的能力,使得训练好的目标检测模型对小目标对象的检测的鲁棒性更强。
在本申请的实施例中,空白图像被划分的尺寸小于预设阈值的区域中,至少两个区域具有相同的尺寸,至少两个区域具有不同的尺寸。在该实施例中,包括不止一个尺寸小于预设阈值的区域,这些区域当中有的区域的尺寸相同,有的区域的尺寸不同,因此放置在各区域中的初始训练图像的尺寸也有相同的和不同的,使得初始训练图像中的小目标对象的大小也有相同的和不同,这可以进一步增强拼接训练图像训练目标检测模型的能力,使得训练好的目标检测模型对小目标对象的检测的鲁棒性更强。
在本申请的实施例中,可以将空白图像中被划分的多个区域中,部分区域可以定义为第一目标区域,其余区域定义为第二目标区域,其中第一目标区域中的各区域用于放置同一初始训练图像缩放后的训练图像,第二目标区域中的各区域为尺寸小于所述预设阈值的区域,第二目标区域中的各区域用于放置不同初始训练图像缩放后的训练图像。在该实施例中,将放置多尺度目标对象的区域称为第一目标区域,将放置小目标对象的区域称为第二目标区域,这更加明确了最终得到的拼接训练图像中包含的对象——多尺度同一目标对象以及小目标对象。此外,每个放置小目标对象的区域放置的小目标对象来自于不同的初始训练图像,即拼接训练图像中包括不同的小目标对象,可以进一步增强拼接训练图像训练目标检测模型的能力,使得训练好的目标检测模型对小目标对象的检测的鲁棒性更强。
以上结合不同实施例描述了空白图像被划分成的区域的情况以及各区域中放置的初始训练图像的情况。下面结合图3和图4描述一个具体的示例。
图3示出了根据本申请实施例的用于目标检测的方法中将空白图像划分为多个区域的示例图。如图3所示,空白图像被划分为13个区域,这13个区域分别用A、B、C、D、E、F、G、H、I、J、K、L和M来标记。在图3所示的示例中,区域A的尺寸为320*240(在本申请的实施例中,一个区域的尺寸的单位可以是长度单位,也可以是像素数),区域B的尺寸为192*144,区域C的尺寸为128*96,区域D的尺寸为192*240,区域E的尺寸为128*120,区域F的尺寸为128*120,区域G的尺寸为160*144,区域H的尺寸为160*144,区域I的尺寸为128*144,区域J的尺寸为128*96,区域K的尺寸为128*96,区域L的尺寸为128*96,区域M的尺寸为128*96。如图3所示的,空白图像被划分的区域中,包含尺寸不同的区域,也包含尺寸较小的区域(诸如区域J、K、L、M、C、E、F、I、G等等)。其中,尺寸不同的若干区域可以用于放置同一初始训练图像缩放后的训练图像,尺寸较小的区域可以用于放置相同或者不同初始训练图像缩放后的训练图像。下面结合图4来示例性地描述。
图4示出了根据本申请实施例的用于目标检测的方法中将空白图像的各区域上放置初始训练图像的示例图。如图4所示,获取若干初始训练图像,将其放置在图3所示的空白图像被划分的各区域内。如图3和图4所示的,图3中所示的区域A、B、C和D被放置了同一初始训练图像被缩放后的图像(此处的缩放比例可以为1,即不缩放,图像尺寸与区域尺寸相同;也可以小于1或大于1,即图像尺寸与区域尺寸不同),这使得拼接训练图像中包含多尺度同一目标对象。其中,区域D处放置的图像还是经翻转的图像(如前文所述的,这可以进一步增强拼接训练图像训练目标检测模型的能力)。对于图3中所示的除区域A、B、C和D以外的区域,均被放置了不同的初始训练图像,而且由于这些区域的尺寸较小,所放置的初始训练图像中包含的目标对象的尺寸也较小,这使得拼接训练图像中包含小目标对象。图4中还示出了目标对象的标注——人脸包围盒。基于这样的拼接训练图像,可以训练出能够较高精度地检测多尺度人脸和小尺寸人脸的人脸检测模型。
以上示例性地示出了根据本申请实施例的用于目标检测的方法。基于上面的描述,根据本申请实施例的用于目标检测的方法将多尺度同一目标对象和小尺寸目标对象(即小目标对象)集中于同一训练图像中,增强了用于目标检测的训练数据,使得能够基于经增强的训练数据训练目标检测模型,训练出的目标检测模型能够较高精度地检测多尺度目标对象和小尺寸目标对象。
下面结合图5描述本申请另一方面提供的用于目标检测的装置。图5示出了根据本申请实施例的用于目标检测的装置500的示意性框图。如图5所示,根据本申请实施例的用于目标检测的装置500可以包括存储器510和处理器520,存储器510存储有由处理器520运行的计算机程序,所述计算机程序在被处理器520运行时,使得处理器520执行前文所述的根据本申请实施例的用于目标检测的方法。本领域技术人员可以结合前文所述的内容理解根据本申请实施例的用于目标检测的装置的具体操作,为了简洁,此处不再赘述具体的细节,仅描述处理器520的一些主要操作。
在本申请的一个实施例中,所述计算机程序在被处理器520运行时,使得处理器520执行如下步骤:获取空白图像,将所述空白图像划分为多个区域,所述多个区域中至少两个区域具有不同的尺寸,并且所述多个区域中包括尺寸小于预设阈值的区域;获取初始训练图像,在所述空白图像的每个所述区域内放置初始训练图像以得到拼接训练图像,所述放置包括:将所述初始训练图像的尺寸缩放为与所述区域的尺寸相同,并将缩放后的训练图像放置在所述区域内,其中至少两个不同尺寸的区域内放置有同一初始训练图像缩放后的训练图像;输出所述拼接训练图像,以用于训练目标检测模型。
在本申请的一个实施例中,对于放置有同一初始训练图像缩放后的训练图像的区域中的至少一个区域,所述计算机程序在被处理器520运行时,使得处理器520执行的所述放置还包括:将所述初始训练图像翻转后再进行所述缩放;或者将所述初始训练图像进行所述缩放后再进行翻转,并将翻转后的训练图像放置在所述区域内。
在本申请的一个实施例中,所述初始训练图像为经标注的训练图像,所述计算机程序在被处理器520运行时,使得处理器520执行的所述放置还包括:使所述初始训练图像中的标注的尺寸随着所述初始训练图像的尺寸的缩放而缩放;或者将所述初始训练图像的尺寸进行缩放后,对所述初始训练图像中的标注的尺寸和/或位置进行相应地修改,以使得所述初始训练图像中的目标对象被正确地标注。
在本申请的一个实施例中,所述初始训练图像为未经标注的训练图像,所述计算机程序在被处理器520运行时,还使得处理器520执行如下步骤:在输出所述拼接训练图像之后,对所述拼接训练图像中的目标对象进行标注,以用于基于经标注的拼接训练图像训练目标检测模型。
在本申请的一个实施例中,对于放置有同一初始训练图像缩放后的训练图像的区域,包括以下中的至少一项:至少两个区域具有相同的水平尺寸和不同的垂直尺寸;至少两个区域具有不同的水平尺寸和相同的垂直尺寸;至少两个区域具有不同的水平尺寸和不同的垂直尺寸。
在本申请的一个实施例中,所述尺寸小于预设阈值的区域,包括:水平尺寸小于第一预设阈值并且垂直尺寸小于第二预设阈值的区域。
在本申请的一个实施例中,所述多个区域中包括至少两个尺寸小于所述预设阈值的区域,所述至少两个尺寸小于所述预设阈值的区域放置有不同初始训练图像缩放后的训练图像。
在本申请的一个实施例中,所述尺寸小于预设阈值的区域中,至少两个区域具有相同的尺寸,至少两个区域具有不同的尺寸。
在本申请的一个实施例中,所述多个区域的部分区域为第一目标区域,所述多个区域的其余区域为第二目标区域,所述第一目标区域中的各区域用于放置同一初始训练图像缩放后的训练图像,所述第二目标区域中的各区域为尺寸小于所述预设阈值的区域,所述第二目标区域中的各区域用于放置不同初始训练图像缩放后的训练图像。
在本申请的一个实施例中,所述计算机程序在被处理器520运行时,还使得处理器520执行如下步骤:基于所述拼接训练图像训练目标检测模型,得到训练好的目标检测模型。
在本申请的一个实施例中,所述计算机程序在被处理器520运行时,还使得处理器520执行如下步骤:获取输入图像,基于所述训练好的目标检测模型对所述输入图像进行目标检测,得到目标检测结果。
此外,根据本申请实施例,还提供了一种存储介质,在所述存储介质上存储了程序指令,在所述程序指令被计算机或处理器运行时用于执行本申请实施例的用于目标检测的方法的相应步骤。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。所述计算机可读存储介质可以是一个或多个计算机可读存储介质的任意组合。
基于上面的描述,根据本申请实施例的用于目标检测的方法和装置将多尺度同一目标对象和小尺寸目标对象集中于同一训练图像中,增强了用于目标检测的训练数据,使得能够基于经增强的训练数据训练目标检测模型,训练出的目标检测模型能够较高精度地检测多尺度目标对象和小尺寸目标对象。
尽管这里已经参考附图描述了示例实施例,应理解上述示例实施例仅仅是示例性的,并且不意图将本申请的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改,而不偏离本申请的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本申请的范围之内。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个设备,或一些特征可以忽略,或不执行。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本申请并帮助理解各个发明方面中的一个或多个,在对本申请的示例性实施例的描述中,本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该本申请的方法解释成反映如下意图:即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如相应的权利要求书所反映的那样,其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本申请的单独实施例。
本领域的技术人员可以理解,除了特征之间相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本申请的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的一些模块的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如,计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
以上所述,仅为本申请的具体实施方式或对具体实施方式的说明,本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。本申请的保护范围应以权利要求的保护范围为准。
Claims (11)
1.一种用于目标检测的方法,所述方法包括:
获取空白图像,将所述空白图像划分为多个区域,所述多个区域中至少两个区域具有不同的尺寸,并且所述多个区域中包括尺寸小于预设阈值的区域,所述多个区域的部分区域为第一目标区域,所述多个区域的其余区域为第二目标区域,所述第一目标区域中的各区域用于放置同一初始训练图像缩放后的训练图像,所述第二目标区域中的各区域为尺寸小于所述预设阈值的区域,所述第二目标区域中的各区域用于放置不同初始训练图像缩放后的训练图像,所述预设阈值是根据需要检测的小目标对象的尺寸而设置的;
获取初始训练图像,在所述空白图像的每个所述区域内放置初始训练图像以得到拼接训练图像,所述放置包括:将所述初始训练图像的尺寸缩放为与所述区域的尺寸相同,并将缩放后的训练图像放置在所述区域内,其中至少两个不同尺寸的区域内放置有同一初始训练图像缩放后的训练图像;
输出所述拼接训练图像,以用于训练目标检测模型。
2.根据权利要求1所述的方法,其特征在于,对于放置有同一初始训练图像缩放后的训练图像的区域中的至少一个区域,所述放置还包括:
将所述初始训练图像翻转后再进行所述缩放;或者
将所述初始训练图像进行所述缩放后再进行翻转,并将翻转后的训练图像放置在所述区域内。
3.根据权利要求1所述的方法,其特征在于,所述初始训练图像为经标注的训练图像,所述放置还包括:
使所述初始训练图像中的标注的尺寸随着所述初始训练图像的尺寸的缩放而缩放;或者
将所述初始训练图像的尺寸进行缩放后,对所述初始训练图像中的标注的尺寸和/或位置进行相应地修改,以使得所述初始训练图像中的目标对象被正确地标注。
4.根据权利要求1所述的方法,其特征在于,所述初始训练图像为未经标注的训练图像,所述方法还包括:
在输出所述拼接训练图像之后,对所述拼接训练图像中的目标对象进行标注,以用于基于经标注的拼接训练图像训练目标检测模型。
5.根据权利要求1所述的方法,其特征在于,对于放置有同一初始训练图像缩放后的训练图像的区域,包括以下中的至少一项:
至少两个区域具有相同的水平尺寸和不同的垂直尺寸;
至少两个区域具有不同的水平尺寸和相同的垂直尺寸;
至少两个区域具有不同的水平尺寸和不同的垂直尺寸。
6.根据权利要求1所述的方法,其特征在于,所述尺寸小于预设阈值的区域,包括:
水平尺寸小于第一预设阈值并且垂直尺寸小于第二预设阈值的区域。
7.根据权利要求1所述的方法,其特征在于,所述多个区域中包括至少两个尺寸小于所述预设阈值的区域,所述至少两个尺寸小于所述预设阈值的区域放置有不同初始训练图像缩放后的训练图像。
8.根据权利要求1所述的方法,其特征在于,所述尺寸小于预设阈值的区域中,至少两个区域具有相同的尺寸,至少两个区域具有不同的尺寸。
9.根据权利要求1-8中的任一项所述的方法,其特征在于,所述方法还包括:
基于所述拼接训练图像训练目标检测模型,得到训练好的目标检测模型。
10.根据权利要求9所述的方法,其特征在于,所述方法还包括:
获取输入图像,基于所述训练好的目标检测模型对所述输入图像进行目标检测,得到目标检测结果。
11.一种用于目标检测的装置,其特征在于,所述装置包括存储器和处理器,所述存储器上存储有由所述处理器运行的计算机程序,所述计算机程序在被所述处理器运行时,使得所述处理器执行如权利要求1-10中的任一项所述的用于目标检测的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110213746.0A CN112967187B (zh) | 2021-02-25 | 2021-02-25 | 用于目标检测的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110213746.0A CN112967187B (zh) | 2021-02-25 | 2021-02-25 | 用于目标检测的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112967187A CN112967187A (zh) | 2021-06-15 |
CN112967187B true CN112967187B (zh) | 2024-05-31 |
Family
ID=76275738
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110213746.0A Active CN112967187B (zh) | 2021-02-25 | 2021-02-25 | 用于目标检测的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112967187B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108875732A (zh) * | 2018-01-11 | 2018-11-23 | 北京旷视科技有限公司 | 模型训练与实例分割方法、装置和系统及存储介质 |
CN110033481A (zh) * | 2018-01-10 | 2019-07-19 | 北京三星通信技术研究有限公司 | 用于进行图像处理的方法和设备 |
WO2019154383A1 (zh) * | 2018-02-06 | 2019-08-15 | 同方威视技术股份有限公司 | 刀具检测方法及装置 |
CN111079627A (zh) * | 2019-12-12 | 2020-04-28 | 哈尔滨市科佳通用机电股份有限公司 | 一种铁路货车制动梁梁体折断故障图像识别方法 |
CN111260561A (zh) * | 2020-02-18 | 2020-06-09 | 中国科学院光电技术研究所 | 一种可用于掩模版缺陷检测的快速多图拼接方法 |
CN111476292A (zh) * | 2020-04-03 | 2020-07-31 | 北京全景德康医学影像诊断中心有限公司 | 医学图像分类处理人工智能的小样本元学习训练方法 |
CN111598863A (zh) * | 2020-05-13 | 2020-08-28 | 北京阿丘机器人科技有限公司 | 缺陷检测方法、装置、设备及可读存储介质 |
CN111814820A (zh) * | 2020-05-18 | 2020-10-23 | 北京迈格威科技有限公司 | 图像处理方法及装置 |
CN111951189A (zh) * | 2020-08-13 | 2020-11-17 | 神思电子技术股份有限公司 | 一种多尺度纹理随机化的数据增强方法 |
CN112102261A (zh) * | 2020-08-28 | 2020-12-18 | 国网甘肃省电力公司电力科学研究院 | 一种基于多尺度生成对抗网络的篡改图像检测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3608828A1 (de) * | 2018-08-09 | 2020-02-12 | Olympus Soft Imaging Solutions GmbH | Verfahren zur bereitstellung eines auswertungsmittels für wenigstens ein optisches anwendungssystem einer mikroskopischen anwendungstechnologie |
-
2021
- 2021-02-25 CN CN202110213746.0A patent/CN112967187B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110033481A (zh) * | 2018-01-10 | 2019-07-19 | 北京三星通信技术研究有限公司 | 用于进行图像处理的方法和设备 |
CN108875732A (zh) * | 2018-01-11 | 2018-11-23 | 北京旷视科技有限公司 | 模型训练与实例分割方法、装置和系统及存储介质 |
WO2019154383A1 (zh) * | 2018-02-06 | 2019-08-15 | 同方威视技术股份有限公司 | 刀具检测方法及装置 |
CN111079627A (zh) * | 2019-12-12 | 2020-04-28 | 哈尔滨市科佳通用机电股份有限公司 | 一种铁路货车制动梁梁体折断故障图像识别方法 |
CN111260561A (zh) * | 2020-02-18 | 2020-06-09 | 中国科学院光电技术研究所 | 一种可用于掩模版缺陷检测的快速多图拼接方法 |
CN111476292A (zh) * | 2020-04-03 | 2020-07-31 | 北京全景德康医学影像诊断中心有限公司 | 医学图像分类处理人工智能的小样本元学习训练方法 |
CN111598863A (zh) * | 2020-05-13 | 2020-08-28 | 北京阿丘机器人科技有限公司 | 缺陷检测方法、装置、设备及可读存储介质 |
CN111814820A (zh) * | 2020-05-18 | 2020-10-23 | 北京迈格威科技有限公司 | 图像处理方法及装置 |
CN111951189A (zh) * | 2020-08-13 | 2020-11-17 | 神思电子技术股份有限公司 | 一种多尺度纹理随机化的数据增强方法 |
CN112102261A (zh) * | 2020-08-28 | 2020-12-18 | 国网甘肃省电力公司电力科学研究院 | 一种基于多尺度生成对抗网络的篡改图像检测方法 |
Non-Patent Citations (5)
Title |
---|
Augmentation for small object detection;Mate Kisantal;arxiv;第1-15页 * |
Stitcher: Feedback-driven Data Provider for Object Detectio;Yukang Chen;arxiv;全文 * |
YOLOv4: Optimal Speed and Accuracy of Object Detection;Alexey Bochkovskiy;arxiv;全文 * |
多尺度特征融合与极限学习机结合的交通标志识别;马永杰;程时升;马芸婷;陈敏;;液晶与显示(第06期);全文 * |
多尺度目标检测的深度学习研究综述;陈科圻;《软件学报》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112967187A (zh) | 2021-06-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI709919B (zh) | 車險圖像處理方法、裝置、伺服器及系統 | |
CN106650662B (zh) | 目标对象遮挡检测方法及装置 | |
CN108875531B (zh) | 人脸检测方法、装置、系统及计算机存储介质 | |
CN109215037B (zh) | 目标图像分割方法、装置及终端设备 | |
CN111860489A (zh) | 一种证件图像校正方法、装置、设备及存储介质 | |
CN106650743B (zh) | 图像强反光检测方法和装置 | |
CN111290684B (zh) | 图像显示方法、图像显示装置及终端设备 | |
CN113627428A (zh) | 文档图像矫正方法、装置、存储介质及智能终端设备 | |
CN111340640A (zh) | 一种保险理赔材料审核方法、装置和设备 | |
CN109816650B (zh) | 一种基于二维dsa图像的目标区域识别方法及其系统 | |
CN112767354A (zh) | 基于图像分割的缺陷检测方法、装置、设备及存储介质 | |
CN112634201A (zh) | 目标检测方法、装置和电子设备 | |
CN112541394A (zh) | 黑眼圈及鼻炎识别方法、系统及计算机介质 | |
Bilgin et al. | Road sign recognition system on Raspberry Pi | |
CN110796130A (zh) | 用于文字识别的方法、装置及计算机存储介质 | |
CN111368902A (zh) | 一种数据标注的方法及装置 | |
CN111695405B (zh) | 一种狗脸特征点的检测方法、装置、系统及存储介质 | |
CN114495146A (zh) | 图像文本检测方法、装置、计算机设备及存储介质 | |
CN112533060B (zh) | 一种视频处理方法及装置 | |
CN113936288A (zh) | 倾斜文本方向分类方法、装置、终端设备和可读存储介质 | |
CN112967187B (zh) | 用于目标检测的方法和装置 | |
CN110222576B (zh) | 拳击动作识别方法、装置和电子设备 | |
CN108776959B (zh) | 图像处理方法、装置及终端设备 | |
CN111680680A (zh) | 一种目标码定位方法、装置、电子设备及存储介质 | |
Kulyukin et al. | An algorithm for mobile vision-based localization of skewed nutrition labels that maximizes specificity |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |