CN111488930B - 分类网络的训练方法、目标检测方法、装置和电子设备 - Google Patents
分类网络的训练方法、目标检测方法、装置和电子设备 Download PDFInfo
- Publication number
- CN111488930B CN111488930B CN202010275696.4A CN202010275696A CN111488930B CN 111488930 B CN111488930 B CN 111488930B CN 202010275696 A CN202010275696 A CN 202010275696A CN 111488930 B CN111488930 B CN 111488930B
- Authority
- CN
- China
- Prior art keywords
- image
- segmented
- images
- spliced
- type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 83
- 238000012549 training Methods 0.000 title claims abstract description 62
- 238000001514 detection method Methods 0.000 title claims abstract description 60
- 239000013598 vector Substances 0.000 claims description 74
- 238000012545 processing Methods 0.000 claims description 72
- 230000015654 memory Effects 0.000 claims description 36
- 238000012512 characterization method Methods 0.000 claims description 16
- 238000003709 image segmentation Methods 0.000 claims description 13
- 238000012935 Averaging Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 7
- 239000000758 substrate Substances 0.000 claims 1
- 238000002372 labelling Methods 0.000 description 16
- 230000001360 synchronised effect Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 241000282326 Felis catus Species 0.000 description 6
- 230000005291 magnetic effect Effects 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 4
- 230000003068 static effect Effects 0.000 description 4
- 241000282472 Canis lupus familiaris Species 0.000 description 3
- 235000019800 disodium phosphate Nutrition 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 230000003321 amplification Effects 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000005294 ferromagnetic effect Effects 0.000 description 1
- 238000005429 filling process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000004549 pulsed laser deposition Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例公开了一种分类网络的训练方法、目标检测方法、装置和电子设备。所述方法包括:获得多个分割图像,每个分割图像中包含一种类别的对象;每个分割图像从原始图像中分割得到;从所述多个分割图像中选取N个分割图像进行拼接,得到拼接图像;N为预设正整数;利用所述拼接图像对分类网络进行训练。
Description
技术领域
本发明涉及计算机应用技术领域,具体涉及一种分类网络的训练方法、目标检测方法、装置和电子设备。
背景技术
目标检测网络可通过迁移一个分类任务的预训练模型,在检测框架上进行微调。预训练模型需要在ImageNet数据集上进行训练,过程繁琐,且需要较长的训练时间,需要消耗较大的计算资源。
发明内容
为解决现有存在的技术问题,本发明实施例提供一种分类网络的训练方法、目标检测方法、装置和电子设备。
为达到上述目的,本发明实施例的技术方案是这样实现的:
第一方面,本发明实施例提供了一种分类网络的训练方法,所述方法包括:
获得多个分割图像,每个分割图像中包含一种类别的对象;每个分割图像从原始图像中分割得到;
从所述多个分割图像中选取N个分割图像进行拼接,得到拼接图像;N为预设正整数;
利用所述拼接图像对分类网络进行训练。
上述方案中,所述获得多个分割图像,包括:
获得多个原始图像;各个原始图像中包括对应于预设类别的至少一个对象标注框;
基于各个原始图像中的对象标注框进行图像分割,得到分割图像。
上述方案中,所述基于各个原始图像中的对象标注框进行图像分割,得到分割图像,包括:
扩大原始图像中的对象标注框,基于扩大后的对象标注框进行图像分割,得到分割图像。
上述方案中,所述从所述多个分割图像中选取N个分割图像进行拼接,得到拼接图像,包括:
获得拼图模板,所述拼图模板中包括N个区域;
按照各个区域的宽度和高度的比例关系从所述多个分割图像中分别选取与各个区域对应分割图像,并按照所述拼图模板中所述N个区域的部署位置将选取的N个分割图像进行拼接,得到拼接图像。
上述方案中,所述按照各个区域的宽度和高度的比例关系从所述多个分割图像中分别选取与各个区域对应分割图像,包括:
分别确定各个区域的宽度和高度的比例关系,基于所述比例关系分别确定各个区域的类型;所述类型为第一类型、第二类型或第三类型;所述第一类型表征区域的宽度和高度的比值大于等于第一阈值小于等于第二阈值;所述第二类型表征区域的宽度和高度的比值大于所述第二阈值;所述第三类型表征区域的宽度和高度的比值小于所述第一阈值;
将所述多个分割图像按照所述第一类型、所述第二类型和所述第三类型进行分类,获得分别对应于所述第一类型、所述第二类型和所述第三类型的分割图像分组;
分别基于各个区域的类型、从与所述类型对应的分割图像分组中选取分割图像。
上述方案中,所述按照所述拼图模板中所述N个区域的部署位置将选取的N个分割图像进行拼接,得到拼接图像,包括:
按照所述拼图模板中所述N个区域的部署位置确定各个分割图像的位置;
将相邻两个分割图像之间的空白区域进行填充处理,得到拼接图像。
上述方案中,所述利用所述拼接图像对分类网络进行训练,包括:
基于所述分类网络对所述拼接图像进行处理,获得所述拼接图像对应的特征图,以及基于所述特征图获得所述拼接图像中的各个分割图像对应的第一标签向量;一个分割图像对应的第一标签向量表征所述分割图像中包含的对象分别属于多个预设类别的预测概率;
将所述特征图通过所述分类网络进行反向传播处理,获得反向传播处理结果;
基于所述反向传播处理结果得到所述拼接图像中的各个分割图像对应的第一标签;一个分割图像对应的第一标签表征所述分割图像中包含的对象属于各个选定类别的概率,其中,所述选定类别为所述拼接图像中的N个分割图像中的对象所属类别;
基于所述第一标签向量和所述第一标签调整所述分类网络的网络参数。
上述方案中,所述将所述特征图通过所述分类网络的进行反向传播处理,获得反向传播处理结果,包括:
分别将所述特征图中的各个像素点的梯度值置为特定值,得到各个变换后的特征图;
将各个变换后的特征图分别通过所述分类网络进行反向传播处理,获得所述反向传播处理结果;所述反向传播处理结果表征所述拼接图像中的各个像素点的梯度值;
所述基于所述反向传播处理结果得到所述拼接图像中的各个分割图像对应的第一标签,包括:
基于各个分割图像中的各个像素点的梯度值得到各个像素点对应的分类标签;其中,每个像素点对应的分类标签表征所述像素点属于各个选定类别的概率;
基于各个分割图像中的各个像素点对应的分类标签确定各个分割图像对应的第一标签。
上述方案中,所述基于所述特征图获得所述拼接图像中的各个分割图像对应的第一标签向量,包括:
基于所述特征图获得所述拼接图像中的各个分割图像中的各个像素点对应的权值向量;其中,每个像素点对应的权值向量表征所述像素点属于多个预设类别的预测概率;
基于各个分割图像中的各个像素点对应的权值向量获得各个分割图像对应的第一标签向量;
所述基于所述第一标签向量和所述第一标签调整所述分类网络的网络参数,包括:
基于各个分割图像中的各个像素点对应的所述权值向量和所述分类标签确定第一损失值,将各个分割图像中的各个像素点对应的所述第一损失值进行平均,得到各个分割图像对应的第一平均损失值;
将所述拼接图像中的各个分割图像对应的所述第一平均损失值进行平均,得到第二平均损失值;
基于所述第二平均损失值调整所述分类网络的网络参数。
第二方面,本发明实施例还提供了一种目标检测方法,所述方法包括:
利用目标检测网络对待检测图像进行目标检测,输出所述待检测图像中的目标对象的类别和位置信息;所述目标检测网络中包括采用本发明实施例第一方面所述方法训练的分类网络。
第三方面,本发明实施例还提供了一种分类网络的训练装置,所述装置包括:获取单元、拼接单元和训练单元;其中,
所述获取单元,用于获得多个分割图像,每个分割图像中包含一种类别的对象;每个分割图像从原始图像中分割得到;
所述拼接单元,用于从所述多个分割图像中选取N个分割图像进行拼接,得到拼接图像;N为预设正整数;
所述训练单元,用于利用所述拼接图像对分类网络进行训练。
上述方案中,所述获取单元,用于获得多个原始图像;各个原始图像中包括对应于预设类别的至少一个对象标注框;基于各个原始图像中的对象标注框进行图像分割,得到分割图像。
上述方案中,所述获取单元,用于扩大原始图像中的对象标注框,基于扩大后的对象标注框进行图像分割,得到分割图像。
上述方案中,所述拼接单元,用于获得拼图模板,所述拼图模板中包括N个区域;按照各个区域的宽度和高度的比例关系从所述多个分割图像中分别选取与各个区域对应分割图像,并按照所述拼图模板中所述N个区域的部署位置将选取的N个分割图像进行拼接,得到拼接图像。
上述方案中,所述拼接单元,用于分别确定各个区域的宽度和高度的比例关系,基于所述比例关系分别确定各个区域的类型;所述类型为第一类型、第二类型或第三类型;所述第一类型表征区域的宽度和高度的比值大于或等于第一阈值小于或等于第二阈值;所述第二类型表征区域的宽度和高度的比值大于所述第二阈值;所述第三类型表征区域的宽度和高度的比值小于所述第一阈值;将所述多个分割图像按照所述第一类型、所述第二类型和所述第三类型进行分类,获得分别对应于所述第一类型、所述第二类型和所述第三类型的分割图像分组;分别基于各个区域的类型、从与所述类型对应的分割图像分组中选取分割图像。
上述方案中,所述拼接单元,用于按照所述拼图模板中所述N个区域的部署位置确定各个分割图像的位置;将相邻两个分割图像之间的空白区域进行填充处理,得到拼接图像。
上述方案中,所述训练单元,用于基于所述分类网络对所述拼接图像进行处理,获得所述拼接图像对应的特征图,以及基于所述特征图获得所述拼接图像中的各个分割图像对应的第一标签向量;一个分割图像对应的第一标签向量表征所述分割图像中包含的对象分别属于多个预设类别的预测概率;还用于将所述特征图通过所述分类网络进行反向传播处理,获得反向传播处理结果;基于所述反向传播处理结果得到所述拼接图像中的各个分割图像对应的第一标签;一个分割图像对应的第一标签表征所述分割图像中包含的对象属于各个选定类别的概率,其中,所述选定类别为所述拼接图像中的N个分割图像中的对象所属类别;基于所述第一标签向量和所述第一标签调整所述分类网络的网络参数。
上述方案中,所述训练单元,用于分别将所述特征图中的各个像素点的梯度值置为特定值,得到各个变换后的特征图;将各个变换后的特征图分别通过所述分类网络进行反向传播处理,获得所述反向传播处理结果;所述反向传播处理结果表征所述拼接图像中的各个像素点的梯度值;还用于基于各个分割图像中的各个像素点的梯度值得到各个像素点对应的分类标签;其中,每个像素点对应的分类标签表征所述像素点属于各个选定类别的概率;基于各个分割图像中的各个像素点对应的分类标签确定各个分割图像对应的第一标签。
上述方案中,所述训练单元,用于基于所述特征图获得所述拼接图像中的各个分割图像中的各个像素点对应的权值向量;其中,每个像素点对应的权值向量表征所述像素点属于多个预设类别的预测概率;基于各个分割图像中的各个像素点对应的权值向量获得各个分割图像对应的第一标签向量;还用于基于各个分割图像中的各个像素点对应的所述权值向量和所述分类标签确定第一损失值,将各个分割图像中的各个像素点对应的所述第一损失值进行平均,得到各个分割图像对应的第一平均损失值;将所述拼接图像中的各个分割图像对应的所述第一平均损失值进行平均,得到第二平均损失值;基于所述第二平均损失值调整所述分类网络的网络参数。
第四方面,本发明实施例还提供了一种目标检测装置,所述装置包括:检测单元和输出单元;其中,
所述检测单元,用于利用目标检测网络对待检测图像进行目标检测;所述目标检测网络中包括采用本发明实施例第一方面所述方法训练的分类网络;
所述输出单元,用于基于所述检测单元的检测结果输出所述待检测图像中的目标对象的类别和位置信息。
第五方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明实施例第一方面或第二方面所述方法的步骤。
第六方面,本发明实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现本发明实施例第一方面或第二方面所述方法的步骤。
本发明实施例提供的分类网络的训练方法、目标检测方法、装置和电子设备,所述方法包括:获得多个分割图像,每个分割图像中包含一种类别的对象;每个分割图像从原始图像中分割得到;从所述多个分割图像中选取N个分割图像进行拼接,得到拼接图像;N为预设正整数;利用所述拼接图像对分类网络进行训练。采用本发明实施例的技术方案,通过对原始图像中的数据进行分割,将分割后的N个分割图像拼接在一起作为拼接图像,将拼接图像作为训练分类网络的样本图像,相比于直接利用ImageNet数据集中的图像对分类网络进行训练,本实施例的技术方案能够大大缩短训练时长,节省计算资源。
附图说明
图1为本发明实施例的分类网络的训练方法的流程示意图;
图2为本发明实施例的分类网络的训练方法中的获得分割图像的示意图;
图3为本发明实施例的分类网络的训练方法中的拼图模板和对应的拼接图像的示意图;
图4为本发明实施例的分类网络的训练方法中获得第一标签向量和第一标签的示意图;
图5为本发明实施例的分类网络的训练装置的组成结构示意图;
图6为本发明实施例的电子设备的硬件组成结构示意图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步详细的说明。
本发明实施例提供了一种分类网络的训练方法。图1为本发明实施例的分类网络的训练方法的流程示意图;如图1所示,所述方法包括:
步骤101:获得多个分割图像,每个分割图像中包含一种类别的对象;每个分割图像从原始图像中分割得到;
步骤102:从所述多个分割图像中选取N个分割图像进行拼接,得到拼接图像;N为预设正整数;
步骤103:利用所述拼接图像对分类网络进行训练。
本实施例中,可预先定义预设数量个类别,例如可预先定义80个类别,类别例如可包括例如猫、狗等动物、各种类型的车辆、各种类型的物品等等,本实施例中对类别不做限定。进一步从多个原始图像中分割出满足上述定义的类别的分割图像,使得每个分割图像中包含一种类别的对象。本实施例中可采用任意数据集,例如可采用ImageNet数据集,数据集中可包括海量原始图像,从各个原始图像中分割出满足上述定义的类别的图像作为分割图像。示例性的,若某个原始图像中具有猫、人以及作为背景的其他物品,假定预先定义的类别中包括猫类别,则可从该原始图像中分割出仅包括猫的图像。
在本发明的一些可选实施例中,所述获得多个分割图像,包括:获得多个原始图像;各个原始图像中包括对应于预设类别的至少一个对象标注框;基于各个原始图像中的对象标注框进行图像分割,得到分割图像。
本实施例中,各个原始图像中包括对应于预设类别的至少一个对象标注框,如图2所示。在一些实施方式中,各个原始图像中包括的对象标注框可通过人工的方式手动标注。可以理解,可采用人工方式对图像中的对象进行筛选,在确定图像中的对象的类别为预先定义的类别后,则可通过手动标定的方式在图像中添加对象标注框,使得对象标注框中仅包括该对象,例如可通过一矩形框标注该对象。在另一些实施方式中,也可通过检测算法对各图像进行处理,得到包含有对应于预设类别的至少一个对象标注框的原始图像。其中,以对象标注框为矩形框为例,该矩形框可以是能够将对象包含的最小矩形框。
需要说明的是,本实施例中的对象标注框内的对象,可以是原始图像中的前景图像中的对象,也可以是原始图像中的背景图像中的对象。
在本发明的一些可选实施例中,所述基于各个原始图像中的对象标注框进行图像分割,得到分割图像,包括:扩大原始图像中的对象标注框,基于扩大后的对象标注框进行图像分割,得到分割图像。
本实施例中,可对各个对象标注框进行放大处理,这样可以使得获得的分割图像中能够包含对象的周围环境信息。以对象标注框为矩形框为例,对象标注框的宽度和高度可通过W和H表示,则可以按照比例对宽度和/或高度进行放大处理,例如将高度放大H/2,使得放大处理后的高度为3H/2;又例如将宽度放大W/2,使得放大处理后的高度为3W/2,本实施例中对上述放大比例不做具体限定。其中,放大处理可针对高度和/或宽度进行放大处理,本实施例中可依据需求预先配置。其中,放大处理可针对一侧方向进行放大处理,例如针对高度方向,可向上对高度进行放大处理,也可向下对高度进行放大处理,以将高度放大H/2为例,则可向上或向下延伸H/2;或者,放大处理也可针对两侧方向进行放大处理,例如针对高度方向,可向上以及向下均进行放大处理,以将高度放大H/2为例,则可向上以及向下延伸H/4,使得高度整体放大了H/2。
通过对对象标注框的扩大处理,使对象标注框内包含了较多的背景元素,也即使分割图像中除了包含对象之外也包含了较多的背景元素,其目的在于在使训练后的分类网络更适用于检测场景。
可以理解,通过步骤101的处理,原始图像的数量较多且场景丰富,则可获得满足预先定义的类别的分割图像。在原始图像的尺寸统一的情况下,可得到具有各种尺寸的分割图像,且分割图像的尺寸通常小于原始图像的尺寸。其中,各个分割图像中可具有一种类别的完整对象或部分对象;在分割图像中包括一种类别的部分对象的情况下,该对象可能出于被其他物体遮挡的情况从而仅能呈现部分对象;或者,该对象可能位于原始图像的边缘且仅具有部分对象,使获得的分割图像呈现部分对象。
本实施例中,从获得的多个分割图像中选取N个分割图像进行拼接,生成拼接图像。其中,N个分割图像之间平铺排列,任意两个分割图像之间互不重叠。其中,拼接图像的尺寸为预先定义的尺寸,例如,拼接图像的尺寸为224*224。则在预先定义的尺寸的范围内,将选取的N个分割图像按照预设规则平铺排列,使之形成一个拼接图像。可以理解,拼接图像作为用于训练分类网络的样本图像。本实施例中对拼接图像的尺寸不做限定。
本实施例中,可采用随机方式从多个分割图像中选取N个分割图像进行拼接。可以理解,选取的N个分割图像中包含的对象所属的类别可以完全相同、部分相同或者各不相同。
在本发明的一些可选实施例中,所述从所述多个分割图像中选取N个分割图像进行拼接,得到拼接图像,包括:获得拼图模板,所述拼图模板中包括N个区域;按照各个区域的宽度和高度的比例关系从所述多个分割图像中分别选取与各个区域对应分割图像,并按照所述拼图模板中所述N个区域的部署位置将选取的N个分割图像进行拼接,得到拼接图像。
本实施例中,可预先设置一个或多个拼图模板,拼图模板中可预先划分N个区域,可按照各个区域的形状从多个分割图像中选取分割图像,以得到拼接图像。为了保证拼接图像中的区域不被浪费,各个区域的形状可与分割图像的形状匹配一致。示例性的,通常情况下,分割图像为矩形,则各个区域的形状也可以为矩形。
在本发明的一些可选实施例中,所述按照各个区域的宽度和高度的比例关系从所述多个分割图像中分别选取与各个区域对应分割图像,包括:分别确定各个区域的宽度和高度的比例关系,基于所述比例关系分别确定各个区域的类型;所述类型为第一类型、第二类型或第三类型;所述第一类型表征区域的宽度和高度的比值大于等于第一阈值小于等于第二阈值;所述第二类型表征区域的宽度和高度的比值大于所述第二阈值;所述第三类型表征区域的宽度和高度的比值小于所述第一阈值;将所述多个分割图像按照所述第一类型、所述第二类型和所述第三类型进行分类,获得分别对应于所述第一类型、所述第二类型和所述第三类型的分割图像分组;分别基于各个区域的类型、从与所述类型对应的分割图像分组中选取分割图像。
在一些可选实施例中,所述第一阈值可以是0.5,所述第二阈值可以是1.5。示例性的,所述第一类型表征的宽度和高度的比值可以是1,也即第一类型的区域呈正方形,或者在其他示例中,第一类型的区域呈近似正方形。
本实施例中,可基于宽度和高度的比例不同分为三种类型:第一类型是宽度和高度近似相等的矩形(即近似正方形),第二类型是宽度大于高度的矩形,第三类型是宽度小于高度的矩形。本实施例中可针对多个分割图像按照上述第一类型、第二类型和第三类型进行分类,筛选出满足第一类型(即近似正方形)的多个分割图像,组成第一类型的分割图像分组,筛选出满足第二类型的多个分割图像,组成第二类型的分割图像分组,筛选出满足第三类型的多个分割图像,组成第三类型的分割图像分组。若拼图模板中包括满足上述第一类型、第二类型和第三类型中的至少一种类型的区域,则从对应类型的分割图像分组中选择分割图像,将选择出的分割图像上设置在对应类型的区域中。
作为一种示例,若拼图模板的形状为正方形,拼图模板中划分为四个区域,每个区域均是第一类型的区域,即每个区域均是近似正方形。则从第一类型的分割图像分组中选取四个分割图像,分别将每个分割图像设置在各个区域中,生成拼接图像,
作为另一种示例,如图3所示,若拼图模板的形状为正方形,拼图模板中划分为四个区域,分别记为区域R1、区域R2、区域R3和区域R4,可以看出,区域R1和区域R4为第一类型的区域,区域R2为第二类型的区域,区域R3为第三类型的区域。则从第一类型的分割图像分组中选取两个分割图像,分别将选取的两个分割图像设置在区域R1和区域R4;将从第二类型的分割图像分组中选取一个分割图像,将选取的分割图像设置在区域R2;将从第三类型的分割图像分组中选取一个分割图像,将选取的分割图像设置在区域R3。
其中,由于分割图像的尺寸各异,则在一种实施方式中,可对分割图像的尺寸进行标准化处理。示例性的,按照拼图模板中各个区域的尺寸对各个分割图像的尺寸进行标准化处理。如图3所示的拼图模板,则针对第一类型的区域,可按照区域R1和区域R4的尺寸对第一类型的分割图像的尺寸进行缩小或放大处理,使缩小或放大后的第一类型的分割图像设置在区域R1或区域R4后,第一类型的分割图像完全包含在区域R1或区域R4的范围内,不会超过区域R1或区域R4的范围。同理,针对第二类型的区域,可按照区域R2的宽度和高度的比例以及区域R2的尺寸,对第二类型的分割图像的尺寸进行缩小或放大处理,使缩小或放大后的第二类型的分割图像设置在区域R2后,第二类型的分割图像完全包含在区域R2内,不会超过区域R2的范围;针对第三类型的区域,可按照区域R3的宽度和高度的比例以及区域R3的尺寸,对第三类型的分割图像的尺寸进行缩小或放大处理,使缩小或放大后的第三类型的分割图像设置在区域R3后,第三类型的分割图像完全包含在区域R3内,不会超过区域R3的范围。
其中,需要说明的是,对分割图像的尺寸进行缩小或放大处理,是在不改变分割图像的宽度和高度的比例的前提下进行缩小或放大处理,即对分割图像的缩放处理不会对分割图像的内容带来形变。
在另一种实施方式中,在从多个分割图像中选取分割图像的过程中,一方面可基于各个区域的类型、从与所述类型对应的分割图像分组中选取分割图像,另一方面也可基于各个区域的尺寸,从与所述类型对应的分割图像分组中选取分割图像中选择与该区域的尺寸最相似的图像。
在本发明的一些可选实施例中,所述按照所述拼图模板中所述N个区域的部署位置将选取的N个分割图像进行拼接,得到拼接图像,包括:按照所述拼图模板中所述N个区域的部署位置确定各个分割图像的位置;将相邻两个分割图像之间的空白区域进行填充处理,得到拼接图像。
本实施例中,由于分割图像的宽度和高度的比值可能会与拼图模板中的区域的宽度和高度的比值不完全相同,因此即使将分割图像的尺寸进行缩小或放大处理、并将分割图像设置在对应的区域内后,分割图像很可能不能完全覆盖对应区域,使得区域内存在一定的空白区域。在这种情况下,如果不进行相应处理,则会使拼接图像中存在一定的空白区域。基于此,本实施例中通过对相邻两个分割图像之间的空白区域进行填充处理,例如可通过预设像素值填充空白区域,得到拼接图像。在一些可选实施例中,可在空白区域中填充黑色,得到拼接图像,如图3所示。
本实施例中,将拼接图像作为分类网络的样本图像,以对分类网络进行训练。
在本发明的一些可选实施例中,所述利用所述拼接图像对分类网络进行训练,包括:基于所述分类网络对所述拼接图像进行处理,获得所述拼接图像对应的特征图,以及基于所述特征图获得所述拼接图像中的各个分割图像对应的第一标签向量;一个分割图像对应的第一标签向量表征所述分割图像中包含的对象分别属于多个预设类别的预测概率;将所述特征图通过所述分类网络进行反向传播处理,获得反向传播处理结果;基于所述反向传播处理结果得到所述拼接图像中的各个分割图像对应的第一标签;一个分割图像对应的第一标签表征所述分割图像中包含的对象属于各个选定类别的概率,其中,所述选定类别为所述拼接图像中的N个分割图像中的对象所属类别;基于所述第一标签向量和所述第一标签调整所述分类网络的网络参数。
通常情况下,通过分类网络对图像进行处理,得到图像中的对象对应的分类标签,该分类标签表明对象属于哪一种分类,例如,输出的分类标签可表明对象是猫、狗、或者其他的类别。而我们发现,输出的每个像素的感受野可以近乎覆盖图像全图,因此使用一个分类标签是不合理的。因此本实施例中,通过将拼接图像输入至分类网络,输出对应于拼接图像中各个分割图像对应的第一标签向量;所述第一标签向量中包括分割图像中包含的对象分别属于多个预设类别的预测概率。
示例性的,如图4所示,输入至分类网络的拼接图像中包括四个分割图像,各个分割图像中包含的对象依次是狗、摩托车、牙刷和猫,则通过分类网络输出的第一标签向量表示每个分割图像中的对象属于多个预设类别的预测概率。实际应用中,若以预设类别的数量为80为例,则针对每个分割图像,均输出一个80维度的第一标签向量,其中,第一标签向量中对应于各个预设类别的预测概率的和为1。
在本发明的一些可选实施例中,所述基于所述特征图获得所述拼接图像中的各个分割图像对应的第一标签向量,包括:基于所述特征图获得所述拼接图像中的各个分割图像中的各个像素点对应的权值向量;其中,每个像素点对应的权值向量表征所述像素点属于多个预设类别的预测概率;基于各个分割图像中的各个像素点对应的权值向量获得各个分割图像对应的第一标签向量。
本实施例中,分类网络中至少包括卷积层,通过卷积层对拼接图像进行卷积处理,得到拼接图像对应的特征图;再通过分类网络中的其他网络层对特征图进行处理,得到特征图中各个像素点对应的权值向量,基于各个像素点对应的权值向量得到各个分割图像对应的第一标签向量。
其中,权值向量中的维度数量与预先定义的类别数量相同。例如,预先定义了80个类别,则权值向量中可包括80个维度,每个维度对应一个类别。则各个像素点对应的权值向量中各维度的数据之和为1。进一步基于各个分割图像中包含的像素点对应的权值向量确定各个分割图像对应的第一标签向量。示例性的,可对分割图像中包含的像素点对应的权值向量进行最大池化或者平均池化处理,得到分割图像对应的第一标签向量。
可选地,分类网络中用于进行特征提取的卷积层的数量可以是多个,则上述特征图可以是基于多个卷积层得到的多个特征图中的最后一个特征图;也即通过分类网络中的其他网络层对上述最后一个特征图进行处理,进而得到各个分割图像对应的第一标签向量。
在本发明的一些可选实施例中,所述将所述特征图通过所述分类网络进行反向传播处理,获得反向传播处理结果,包括:分别将所述特征图中的各个像素点的梯度值置为特定值,得到各个变换后的特征图;将各个变换后的特征图分别通过所述分类网络进行反向传播处理,获得所述反向传播处理结果;所述反向传播处理结果表征所述拼接图像中的各个像素点的梯度值;
所述基于所述反向传播处理结果得到所述拼接图像中的各个分割图像对应的第一标签,包括:基于各个分割图像中的各个像素点的梯度值得到各个像素点对应的分类标签;其中,每个像素点对应的分类标签表征所述像素点属于各个选定类别的概率;基于各个分割图像中的各个像素点对应的分类标签确定各个分割图像对应的第一标签。
本实施例中通过反向传播处理方式,将特征图(例如上述最后一个特征图)通过分类网络进行反向传播处理,基于反向传播处理结果得到各个分割图像对应的第一标签。其中,所述第一标签可以理解为通过反向传播方式得到的所述分割图像中包含的对象属于各个选定类别的概率,其中,选定类别为所述拼接图像中的N个分割图像中的对象所属类别。
实际应用中,特征图的尺寸与拼接图像的尺寸不同。例如,特征图的尺寸为7*7,拼接图像的尺寸224×224;则将7*7的特征图通过反向传播的处理方式得到作为原始图像的拼接图像的过程中,相当于特征图中的1个像素点对应于拼接图像中的32个像素点,也即通过反向传播的处理方式得到的反向传播处理结果能够体现出特征图中的各个像素点对原始图像上的32个像素点的贡献,从而可基于拼接图像中的各分割图像所在区域中的各个像素点对应于特征图中为其做出贡献的像素点,得到各个分割图像对应的第一标签。
可以理解,特征图中的一个像素点映射到拼接图像的32个像素点,可分布在拼接图像的各个分割图像所在区域;由此可见,针对拼接图像中的分割图像中的所有像素点,为其做出贡献的特征图中的像素点可能来自特征图中与各分割图像对应的各个区域。基于此,针对拼接图像中各个分割图像,可确定与分割图像中的各个像素点具有映射关系的特征图中的像素点,统计分割图像中对应于特征图中属于同一区域的像素点的数量,其中,各个区域内的对象实际为一种类别的对象;基于分别属于同一区域的像素点的数量和所属分割图像中的像素点的总数量确定第一标签。例如,采用图3中所示的拼图模板所示为例,以分割区域为R1区域为例,分割图像的像素点数量例如为32×32,其中,假设615个像素点映射到特征图中的对应于R1所在区域,205个像素点映射到特征图中的对应于R2所在区域,103个像素点映射到特征图中的对应于R3所在区域,103个像素点映射到特征图中的对应于R4所在区域,则上述分割图像中的对象属于R1所在区域中的对象所属类别的概率可以是615/1024=0.6;同理,上述分割图像中的对象属于R2所在区域中的对象所属类别的概率可以是0.2,上述分割图像中的对象属于R3所在区域中的对象所属类别的概率可以是0.1,上述分割图像中的对象属于R4所在区域中的对象所属类别的概率可以是0.1。
本实施例中,依次将特征图中的每个像素点的梯度值置为特定值,所述特定值例如为1,得到变换后的特征图;将各个变换后的特征图分别通过分类网络进行反向传播处理。例如将特征图中第一行第一列的像素点的梯度值置为特定值,其他像素点的梯度值不变或者置为0,将变换后的特征图通过分类网络进行反向传播处理,得到与拼接图像的尺寸一致的特定图像;再将特定图中的第一行第二列的像素点的梯度值置为特定值,其他像素点的梯度值不变或者置为0,将变换后的特征图通过分类网络进行反向传播处理,得到与拼接图像的尺寸一致的特定图像;以此类推,将上述得到的各个特定图像进行叠加处理,即将各个特定图像中对应于相同像素点的数值进行叠加,叠加处理的结果表征拼接图像的各个像素点的梯度(或导数);进一步基于表征拼接图像的各个像素点的梯度(或导数)得到分割图像对应的第一标签。
本实施例中,可基于通过分类网络输出的第一标签向量以及通过分类网络的反向传播得到第一标签确定损失值,基于损失值调整所述分类网络的网络参数。可选地,可基于第一标签向量和第一标签计算交叉熵损失,将计算的交叉熵损失作为上述损失值。
在本发明的一些可选实施例中,所述基于所述第一标签向量和所述第一标签确定损失值,包括:基于各个分割图像中的各个像素点对应的所述权值向量和所述分类标签确定第一损失值,将各个分割图像中的各个像素点对应的所述第一损失值进行平均,得到各个分割图像对应的第一平均损失值;将所述拼接图像中的各个分割图像对应的所述第一平均损失值进行平均,得到第二平均损失值;基于所述第二平均损失值调整所述分类网络的网络参数。
本实施例中,针对拼接图像中的每个像素点,均可基于得到的第一标签向量和第一标签确定第一损失值。示例性的,针对每个像素点,可基于得到的第一标签向量和第一标签计算交叉熵损失,作为上述第一损失值。则针对一个分割图像,将该分割图像中的所有像素点的第一损失值进行平均处理,得到第一平均损失值;再对拼接图像中的各个分割图像对应的第一平均损失值进行平均处理,得到第二平均损失值,最终基于上述第二平均损失值调整所述分类网络的网络参数。
采用本发明实施例的技术方案,一方面,通过对原始图像中的数据进行分割,将分割后的N个分割图像拼接在一起作为拼接图像,将拼接图像作为训练分类网络的样本图像,相比于直接利用ImageNet数据集中的图像对分类网络进行训练,本实施例的技术方案能够大大缩短训练时长,节省计算资源;另一方面,通过本发明实施例中的第一标签向量表示对象所属类别,即输出分割图像中包含的对象分别属于多个预设类别的预测概率,实现了较细粒度的自适应分类,从而使得分类网络具有较佳的性能。
本发明实施例还提供了一种目标检测方法。所述方法包括:利用目标检测网络对待检测图像进行目标检测,输出所述待检测图像中的目标对象的类别和位置信息;所述目标检测网络中包括采用本发明上述实施例所述方法训练的分类网络。
本实施例中,可将训练好的分类网络应用于目标检测网络中。可选的,在应用目标检测网络进行目标检测过程中,目标检测网络可包括分类网络和检测网络(检测头);可将待检测的图像先通过分类网络进行处理,得到待检测的图像中的对象对应的第一标签向量,将第一标签向量作为检测网络初始权重;进一步再通过检测网络对待检测的图像进行目标检测。相比于常规的包含有预训练模型(即分类网络)的目标检测网络,本实施例中一方面通过拼接图像作为用于训练分类网络的样本图像,并且通过第一标签向量表示分割图像中的对象分别属于多个预设类别的概率,这种预训练方式相比于常规预训练模型(即分类网络)的训练方式节省了75%的计算资源。
本发明实施例还提供了一种分类网络的训练装置。图5为本发明实施例的分类网络的训练装置的组成结构示意图;如图5所示,所述装置包括:获取单元21、拼接单元22和训练单元23;其中,
所述获取单元21,用于获得多个分割图像,每个分割图像中包含一种类别的对象;每个分割图像从原始图像中分割得到;
所述拼接单元22,用于从所述多个分割图像中选取N个分割图像进行拼接,得到拼接图像;N为预设正整数;
所述训练单元23,用于利用所述拼接图像对分类网络进行训练。
在本发明的一些可选实施例中,所述获取单元21,用于获得多个原始图像;各个原始图像中包括对应于预设类别的至少一个对象标注框;基于各个原始图像中的对象标注框进行图像分割,得到分割图像。
在本发明的一些可选实施例中,所述获取单元21,用于扩大原始图像中的对象标注框,基于扩大后的对象标注框进行图像分割,得到分割图像。
在本发明的一些可选实施例中,所述拼接单元22,用于获得拼图模板,所述拼图模板中包括N个区域;按照各个区域的宽度和高度的比例关系从所述多个分割图像中分别选取与各个区域对应分割图像,并按照所述拼图模板中所述N个区域的部署位置将选取的N个分割图像进行拼接,得到拼接图像。
在本发明的一些可选实施例中,所述拼接单元22,用于分别确定各个区域的宽度和高度的比例关系,基于所述比例关系分别确定各个区域的类型;所述类型为第一类型、第二类型或第三类型;所述第一类型表征区域的宽度和高度的比值大于或等于第一阈值小于或等于第二阈值;所述第二类型表征区域的宽度和高度的比值大于所述第二阈值;所述第三类型表征区域的宽度和高度的比值小于所述第一阈值;将所述多个分割图像按照所述第一类型、所述第二类型和所述第三类型进行分类,获得分别对应于所述第一类型、所述第二类型和所述第三类型的分割图像分组;分别基于各个区域的类型、从与所述类型对应的分割图像分组中选取分割图像。
在本发明的一些可选实施例中,所述拼接单元22,用于按照所述拼图模板中所述N个区域的部署位置确定各个分割图像的位置;将相邻两个分割图像之间的空白区域进行填充处理,得到拼接图像。
在本发明的一些可选实施例中,所述训练单元23,用于基于所述分类网络对所述拼接图像进行处理,获得所述拼接图像对应的特征图,以及基于所述特征图获得所述拼接图像中的各个分割图像对应的第一标签向量;一个分割图像对应的第一标签向量表征所述分割图像中包含的对象分别属于多个预设类别的预测概率;还用于将所述特征图通过所述分类网络进行反向传播处理,获得反向传播处理结果;基于所述反向传播处理结果得到所述拼接图像中的各个分割图像对应的第一标签;一个分割图像对应的第一标签表征所述分割图像中包含的对象属于各个选定类别的概率,其中,所述选定类别为所述拼接图像中的N个分割图像中的对象所属类别;基于所述第一标签向量和所述第一标签调整所述分类网络的网络参数。
在本发明的一些可选实施例中,所述训练单元23,用于分别将所述特征图中的各个像素点的梯度值置为特定值,得到各个变换后的特征图;将各个变换后的特征图分别通过所述分类网络进行反向传播处理,获得所述反向传播处理结果;所述反向传播处理结果表征所述拼接图像中的各个像素点的梯度值;还用于基于各个分割图像中的各个像素点的梯度值得到各个像素点对应的分类标签;其中,每个像素点对应的分类标签表征所述像素点属于各个选定类别的概率;基于各个分割图像中的各个像素点对应的分类标签确定各个分割图像对应的第一标签。
在本发明的一些可选实施例中,所述训练单元23,用于基于所述特征图获得所述拼接图像中的各个分割图像中的各个像素点对应的权值向量;其中,每个像素点对应的权值向量表征所述像素点属于多个预设类别的预测概率;基于各个分割图像中的各个像素点对应的权值向量获得各个分割图像对应的第一标签向量;还用于基于各个分割图像中的各个像素点对应的所述权值向量和所述分类标签确定第一损失值,将各个分割图像中的各个像素点对应的所述第一损失值进行平均,得到各个分割图像对应的第一平均损失值;将所述拼接图像中的各个分割图像对应的所述第一平均损失值进行平均,得到第二平均损失值;基于所述第二平均损失值调整所述分类网络的网络参数。
本发明实施例中,所述分类网络的训练装置中的获取单元21、拼接单元22和训练单元23,在实际应用中均可由中央处理器(CPU,Central Processing Unit)、数字信号处理器(DSP,Digital Signal Processor)、微控制单元(MCU,Microcontroller Unit)或可编程门阵列(FPGA,Field-Programmable Gate Array)实现。
需要说明的是:上述实施例提供的分类网络的训练装置在进行分类网络的训练时,仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述处理分配由不同的程序模块完成,即将装置的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分处理。另外,上述实施例提供的分类网络的训练装置与分类网络的训练方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本发明实施例还提供了一种目标检测装置,所述装置包括:检测单元和输出单元;其中,
所述检测单元,用于利用目标检测网络对待检测图像进行目标检测;所述目标检测网络中包括采用本发明实施例第一方面所述方法训练的分类网络;
所述输出单元,用于基于所述检测单元的检测结果输出所述待检测图像中的目标对象的类别和位置信息。
需要说明的是:上述实施例提供的目标检测装置在进行目标检测时,仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述处理分配由不同的程序模块完成,即将装置的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分处理。另外,上述实施例提供的目标检测装置与目标检测方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本发明实施例还提供了一种电子设备。图6为本发明实施例的电子设备的硬件组成结构示意图,如图6所示,电子设备30包括存储器32、处理器31及存储在存储器32上并可在处理器31上运行的计算机程序,所述处理器31执行所述程序时实现本发明实施例所述网络训练方法的步骤。
可选地,电子设备30中的各个组件可通过总线系统33耦合在一起。可理解,总线系统33用于实现这些组件之间的连接通信。总线系统33除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图6中将各种总线都标为总线系统33。
可以理解,存储器32可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM,ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,Random AccessMemory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM,SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM,SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本发明实施例描述的存储器32旨在包括但不限于这些和任意其它适合类型的存储器。
上述本发明实施例揭示的方法可以应用于处理器31中,或者由处理器31实现。处理器31可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器31中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器31可以是通用处理器、DSP,或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器31可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器32,处理器31读取存储器32中的信息,结合其硬件完成前述方法的步骤。
在示例性实施例中,电子设备30可以被一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)、通用处理器、控制器、微控制器(MCU,Micro Controller Unit)、微处理器(Microprocessor)、或其他电子元件实现,用于执行前述方法。
在示例性实施例中,本发明实施例还提供了一种计算机可读存储介质,例如包括计算机程序的存储器32,上述计算机程序可由电子设备30的处理器31执行,以完成前述方法所述步骤。计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明实施例所述网络训练方法的步骤。
本申请所提供的几个方法实施例中所揭露的方法,在不冲突的情况下可以任意组合,得到新的方法实施例。
本申请所提供的几个产品实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的产品实施例。
本申请所提供的几个方法或设备实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的方法实施例或设备实施例。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (13)
1.一种分类网络的训练方法,其特征在于,所述方法包括:
获得多个分割图像,每个分割图像中包含一种类别的对象;每个分割图像从原始图像中分割得到;
从所述多个分割图像中选取N个分割图像进行拼接,得到拼接图像;N为预设正整数;
利用所述拼接图像对分类网络进行训练;
其中,所述利用所述拼接图像对分类网络进行训练,包括:
基于所述分类网络对所述拼接图像进行处理,获得所述拼接图像对应的特征图,以及基于所述特征图获得所述拼接图像中的各个分割图像对应的第一标签向量;一个分割图像对应的第一标签向量表征所述分割图像中包含的对象分别属于多个预设类别的预测概率;
将所述特征图通过所述分类网络进行反向传播处理,获得反向传播处理结果;
基于所述反向传播处理结果得到所述拼接图像中的各个分割图像对应的第一标签;一个分割图像对应的第一标签表征所述分割图像中包含的对象属于各个选定类别的概率,其中,所述选定类别为所述拼接图像中的N个分割图像中的对象所属类别;
基于所述第一标签向量和所述第一标签调整所述分类网络的网络参数;
所述将所述特征图通过所述分类网络进行反向传播处理,获得反向传播处理结果,包括:
将所述特征图中的各个像素点的梯度值置为特定值,得到变换后的特征图;
将所述变换后的特征图通过所述分类网络进行反向传播处理,获得所述反向传播处理结果;所述反向传播处理结果表征所述拼接图像中的各个像素点的梯度值。
2.根据权利要求1所述的方法,其特征在于,所述获得多个分割图像,包括:
获得多个原始图像;各个原始图像中包括对应于预设类别的至少一个对象标注框;
基于各个原始图像中的对象标注框进行图像分割,得到分割图像。
3.根据权利要求2所述的方法,其特征在于,所述基于各个原始图像中的对象标注框进行图像分割,得到分割图像,包括:
扩大原始图像中的对象标注框,基于扩大后的对象标注框进行图像分割,得到分割图像。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述从所述多个分割图像中选取N个分割图像进行拼接,得到拼接图像,包括:
获得拼图模板,所述拼图模板中包括N个区域;
按照各个区域的宽度和高度的比例关系从所述多个分割图像中分别选取与各个区域对应分割图像,并按照所述拼图模板中所述N个区域的部署位置将选取的N个分割图像进行拼接,得到拼接图像。
5.根据权利要求4所述的方法,其特征在于,所述按照各个区域的宽度和高度的比例关系从所述多个分割图像中分别选取与各个区域对应分割图像,包括:
分别确定各个区域的宽度和高度的比例关系,基于所述比例关系分别确定各个区域的类型;所述类型为第一类型、第二类型或第三类型;所述第一类型表征区域的宽度和高度的比值大于等于第一阈值小于等于第二阈值;所述第二类型表征区域的宽度和高度的比值大于所述第二阈值;所述第三类型表征区域的宽度和高度的比值小于所述第一阈值;
将所述多个分割图像按照所述第一类型、所述第二类型和所述第三类型进行分类,获得分别对应于所述第一类型、所述第二类型和所述第三类型的分割图像分组;
分别基于各个区域的类型、从与所述类型对应的分割图像分组中选取分割图像。
6.根据权利要求4所述的方法,其特征在于,所述按照所述拼图模板中所述N个区域的部署位置将选取的N个分割图像进行拼接,得到拼接图像,包括:
按照所述拼图模板中所述N个区域的部署位置确定各个分割图像的位置;
将相邻两个分割图像之间的空白区域进行填充处理,得到拼接图像。
7.根据权利要求1所述的方法,其特征在于,
所述基于所述反向传播处理结果得到所述拼接图像中的各个分割图像对应的第一标签,包括:
基于各个分割图像中的各个像素点的梯度值得到各个像素点对应的分类标签;其中,每个像素点对应的分类标签表征所述像素点属于各个选定类别的概率;
基于各个分割图像中的各个像素点对应的分类标签确定各个分割图像对应的第一标签。
8.根据权利要求7所述的方法,其特征在于,所述基于所述特征图获得所述拼接图像中的各个分割图像对应的第一标签向量,包括:
基于所述特征图获得所述拼接图像中的各个分割图像中的各个像素点对应的权值向量;其中,每个像素点对应的权值向量表征所述像素点属于多个预设类别的预测概率;
基于各个分割图像中的各个像素点对应的权值向量获得各个分割图像对应的第一标签向量;
所述基于所述第一标签向量和所述第一标签调整所述分类网络的网络参数,包括:
基于各个分割图像中的各个像素点对应的所述权值向量和所述分类标签确定第一损失值,将各个分割图像中的各个像素点对应的所述第一损失值进行平均,得到各个分割图像对应的第一平均损失值;
将所述拼接图像中的各个分割图像对应的所述第一平均损失值进行平均,得到第二平均损失值;
基于所述第二平均损失值调整所述分类网络的网络参数。
9.一种目标检测方法,其特征在于,所述方法包括:
利用目标检测网络对待检测图像进行目标检测,输出所述待检测图像中的目标对象的类别和位置信息;所述目标检测网络中包括采用权利要求1-8任一项所述方法训练的分类网络。
10.一种分类网络的训练装置,其特征在于,所述装置包括:获取单元、拼接单元和训练单元;其中,
所述获取单元,用于获得多个分割图像,每个分割图像中包含一种类别的对象;每个分割图像从原始图像中分割得到;
所述拼接单元,用于从所述多个分割图像中选取N个分割图像进行拼接,得到拼接图像;N为预设正整数;
所述训练单元,用于利用所述拼接图像对分类网络进行训练;
所述训练单元,还用于基于所述分类网络对所述拼接图像进行处理,获得所述拼接图像对应的特征图,以及基于所述特征图获得所述拼接图像中的各个分割图像对应的第一标签向量;一个分割图像对应的第一标签向量表征所述分割图像中包含的对象分别属于多个预设类别的预测概率;将所述特征图通过所述分类网络进行反向传播处理,获得反向传播处理结果;基于所述反向传播处理结果得到所述拼接图像中的各个分割图像对应的第一标签;一个分割图像对应的第一标签表征所述分割图像中包含的对象属于各个选定类别的概率,其中,所述选定类别为所述拼接图像中的N个分割图像中的对象所属类别;基于所述第一标签向量和所述第一标签调整所述分类网络的网络参数;
所述训练单元,还用于将所述特征图中的各个像素点的梯度值置为特定值,得到变换后的特征图;将所述变换后的特征图通过所述分类网络进行反向传播处理,获得所述反向传播处理结果;所述反向传播处理结果表征所述拼接图像中的各个像素点的梯度值。
11.一种目标检测装置,其特征在于,所述装置包括:检测单元和输出单元;其中,所述检测单元,用于利用目标检测网络对待检测图像进行目标检测;所述目标检测网络中包括采用权利要求1-8任一所述方法训练的分类网络;
所述输出单元,用于基于所述检测单元的检测结果输出所述待检测图像中的目标对象的类别和位置信息。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至8任一项所述方法的步骤;或者,该程序被处理器执行时实现权利要求9所述方法的步骤。
13.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至8任一项所述方法的步骤;或者,所述处理器执行所述程序时实现权利要求9所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010275696.4A CN111488930B (zh) | 2020-04-09 | 2020-04-09 | 分类网络的训练方法、目标检测方法、装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010275696.4A CN111488930B (zh) | 2020-04-09 | 2020-04-09 | 分类网络的训练方法、目标检测方法、装置和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111488930A CN111488930A (zh) | 2020-08-04 |
CN111488930B true CN111488930B (zh) | 2024-05-24 |
Family
ID=71794618
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010275696.4A Active CN111488930B (zh) | 2020-04-09 | 2020-04-09 | 分类网络的训练方法、目标检测方法、装置和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111488930B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112037174B (zh) * | 2020-08-05 | 2024-03-01 | 湖南自兴智慧医疗科技有限公司 | 染色体异常检测方法、装置、设备及计算机可读存储介质 |
CN112015966A (zh) * | 2020-10-19 | 2020-12-01 | 北京神州泰岳智能数据技术有限公司 | 一种图像搜索方法、装置、电子设备及存储介质 |
CN112734641B (zh) * | 2020-12-31 | 2024-05-31 | 百果园技术(新加坡)有限公司 | 目标检测模型的训练方法、装置、计算机设备及介质 |
CN113486835B (zh) * | 2021-07-19 | 2024-06-28 | 黑芝麻智能科技有限公司 | 安全带检测方法、装置、计算机设备和存储介质 |
CN114462526B (zh) * | 2022-01-28 | 2024-07-30 | 腾讯科技(深圳)有限公司 | 一种分类模型训练方法、装置、计算机设备及存储介质 |
CN114820319A (zh) * | 2022-04-29 | 2022-07-29 | 深圳市商汤科技有限公司 | 一种图像处理方法、装置、电子设备以及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110135514A (zh) * | 2019-05-22 | 2019-08-16 | 国信优易数据有限公司 | 一种工件分类方法、装置、设备及介质 |
CN110443862A (zh) * | 2019-06-28 | 2019-11-12 | 中国地质科学院矿产资源研究所 | 基于无人机的岩性填图方法及系统、电子设备 |
CN110689481A (zh) * | 2019-01-17 | 2020-01-14 | 成都通甲优博科技有限责任公司 | 车辆种类识别方法及装置 |
CN110781948A (zh) * | 2019-10-22 | 2020-02-11 | 北京市商汤科技开发有限公司 | 图像处理方法、装置、设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10579897B2 (en) * | 2017-10-02 | 2020-03-03 | Xnor.ai Inc. | Image based object detection |
-
2020
- 2020-04-09 CN CN202010275696.4A patent/CN111488930B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110689481A (zh) * | 2019-01-17 | 2020-01-14 | 成都通甲优博科技有限责任公司 | 车辆种类识别方法及装置 |
CN110135514A (zh) * | 2019-05-22 | 2019-08-16 | 国信优易数据有限公司 | 一种工件分类方法、装置、设备及介质 |
CN110443862A (zh) * | 2019-06-28 | 2019-11-12 | 中国地质科学院矿产资源研究所 | 基于无人机的岩性填图方法及系统、电子设备 |
CN110781948A (zh) * | 2019-10-22 | 2020-02-11 | 北京市商汤科技开发有限公司 | 图像处理方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111488930A (zh) | 2020-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111488930B (zh) | 分类网络的训练方法、目标检测方法、装置和电子设备 | |
EP3620981B1 (en) | Object detection method, device, apparatus and computer-readable storage medium | |
US10410353B2 (en) | Multi-label semantic boundary detection system | |
US20190347767A1 (en) | Image processing method and device | |
CN109886928B (zh) | 一种目标细胞标记方法、装置、存储介质及终端设备 | |
WO2022105608A1 (zh) | 一种快速人脸密度预测和人脸检测方法、装置、电子设备及存储介质 | |
CN111091123A (zh) | 文本区域检测方法及设备 | |
CN112465909B (zh) | 基于卷积神经网络的类激活映射目标定位方法及系统 | |
CN112991349B (zh) | 图像处理方法、装置、设备和存储介质 | |
CN112200189B (zh) | 基于SPP-YOLOv3的车型识别方法、装置及计算机可读存储介质 | |
CN112419214A (zh) | 一种标注图像生成方法、装置、可读存储介质及终端设备 | |
CN110569379A (zh) | 一种汽车配件图片数据集制作方法 | |
CN109389659A (zh) | Ppt中数学公式的渲染方法、装置、存储介质及终端设备 | |
CN112101139B (zh) | 人形检测方法、装置、设备及存储介质 | |
CN113744280A (zh) | 图像处理方法、装置、设备及介质 | |
CN116912791A (zh) | 目标检测方法、装置、计算机设备和存储介质 | |
US20240233325A9 (en) | Method for classifying images and electronic device | |
CN116543257A (zh) | 目标检测模型的训练方法、装置、计算机设备和存储介质 | |
US10832076B2 (en) | Method and image processing entity for applying a convolutional neural network to an image | |
CN114066958A (zh) | 目标的深度信息预测方法和装置、电子设备和存储介质 | |
CN113780116A (zh) | 发票分类方法、装置、计算机设备和存储介质 | |
KR20210087494A (ko) | 인체 방향 검출 방법, 장치, 전자 기기 및 컴퓨터 저장 매체 | |
CN112633134A (zh) | 基于图像识别的车内人脸识别方法、装置及介质 | |
CN112084364A (zh) | 对象分析方法、局部图像搜索方法、设备及存储介质 | |
CN115439846B (zh) | 图像的分割方法、装置、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |