CN112101205A - 基于多任务网络的训练方法和装置 - Google Patents
基于多任务网络的训练方法和装置 Download PDFInfo
- Publication number
- CN112101205A CN112101205A CN202010965688.2A CN202010965688A CN112101205A CN 112101205 A CN112101205 A CN 112101205A CN 202010965688 A CN202010965688 A CN 202010965688A CN 112101205 A CN112101205 A CN 112101205A
- Authority
- CN
- China
- Prior art keywords
- segmentation
- network
- training
- resolution
- detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 166
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000011218 segmentation Effects 0.000 claims abstract description 180
- 238000001514 detection method Methods 0.000 claims abstract description 135
- 238000004364 calculation method Methods 0.000 claims abstract description 30
- 238000005070 sampling Methods 0.000 claims abstract description 14
- 230000006870 function Effects 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 6
- 238000012935 Averaging Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004575 stone Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Evolutionary Biology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于多任务网络的训练方法和装置,多任务网络包括检测网络和分割网络,方法包括:将多个训练样本输入检测网络,对检测网络进行训练,确定检测网络在训练完成时的训练参数和每个训练样本对应的多种第一分辨率的特征图;将每个训练样本对应的多种第一分辨率的特征图输入分割网络进行卷积计算、上采样操作,确定每个第二分辨率对应的分割特征图,直至以每个第二分辨率对应的分割特征图与对应训练样本中的分割标记作为输入的分割网络的损失函数的曲线趋于收敛,通过分别训练检测网络和分割网络,并对参与分割网络训练的特征进行丰富,在不损失检测样本的精度的情况下,获得较为精确的分割结果,节省成本。
Description
技术领域
本发明涉及神经网络训练的技术领域,尤其是涉及一种基于多任务网络的训练方法和装置。
背景技术
随着自动驾驶技术的发展,目标物自动识别成为自动驾驶的关键,当前一般应用同步训练的检测网络和分割网络对目标物进行自动识别。
经发明人研究知晓,当前通过具有检测标记和分割标记的训练样本同时训练检测和分割网络,由于分割标记样本的成本较高,一般参与网络训练的具有分割标记样本的数量较为有限。因此,当仅有检测标记的检测样本的数量级较大时,该训练模型无法在不损失检测样本的精度的情况下,获得较为精确的分割结果。
发明内容
有鉴于此,本发明的目的在于提供一种基于多任务网络的训练方法和装置,通过分别训练检测网络和分割网络,并对参与分割网络训练的特征进行丰富,在不损失检测样本的精度的情况下,获得较为精确的分割结果,节省成本。
第一方面,实施例提供一种基于多任务网络的训练方法,所述多任务网络包括检测网络和分割网络,所述方法包括:
将多个训练样本输入检测网络,对所述检测网络进行训练,确定所述检测网络在训练完成时的训练参数和每个训练样本对应的多种第一分辨率的特征图,其中,所述训练样本包括检测标记和分割标记,所述特征图携带有目标物的检测类别标签;
将所述每个训练样本对应的多种第一分辨率的特征图输入所述分割网络进行卷积计算、上采样操作,确定每个第二分辨率对应的分割特征图,直至以所述每个第二分辨率对应的分割特征图与对应所述训练样本中的分割标记作为输入的所述分割网络的损失函数的曲线趋于收敛,所述第二分辨率基于所述第一分辨率进行确定,所述分割特征图携带有所述目标物的分割类别标签,所述分割网络的训练参数基于所述检测网络的训练参数进行确定。
在可选的实施方式中,所述方法还包括:
基于所述检测类别标签和所述分割类别标签对所述目标物进行识别。
在可选的实施方式中,所述方法还包括:
基于每个分割特征图中每个分割类别的像素数量确定所述每个分割类别引入的权重;
根据所述权重平均化所述每个第二分辨率对应的分割特征图的像素数量。
在可选的实施方式中,所述检测网络确定的特征图包括尺寸为所述训练样本的1/8、第一分辨率为80*45的特征图、尺寸为所述训练样本的1/16、第一分辨率为40*23的特征图和尺寸为所述训练样本的1/32、第一分辨率为20*12的特征图。
在可选的实施方式中,将所述每个训练样本对应的多种第一分辨率的特征图输入所述分割网络进行卷积计算、上采样操作,确定每个第二分辨率对应的分割特征图的步骤,包括:
对所述检测网络确定的第一分辨率为20*12的分割特征图进行卷积计算、上采样操作,得到第二分辨率为40*23的分割特征图;
将所述检测网络确定的第一分辨率为40*23的分割特征图进行卷积计算,并与所述第二分辨率为40*23的分割特征图与进行元素加和,再进行上采样操作,得到第二分辨率为80*45的分割特征图;
将所述检测网络确定的第一分辨率为80*45的分割特征图进行卷积计算,并与所述第二分辨率为80*45的分割特征图与进行元素加和,再进行上采样操作,得到第二分辨率为160*90的分割特征图;
对所述第二分辨率为160*90的分割特征图进行上采样操作,得到第二分辨率为320*180的分割特征图。
在可选的实施方式中,所述训练样本包括多种不同的采集环境类型、驾驶环境类型和数据集采集类型。
在可选的实施方式中,所述检测样本包括拼接图像,所述拼接图像为四路鱼眼摄像头采集的图像或平面图像。
第二方面,实施例提供一种基于多任务网络的训练装置,所述多任务网络包括检测网络和分割网络,所述装置包括:
检测网络训练模块,将多个训练样本输入检测网络,对所述检测网络进行训练,确定所述检测网络在训练完成时的训练参数和每个训练样本对应的多种第一分辨率的特征图,其中,所述训练样本包括检测标记和分割标记,所述特征图携带有目标物的检测类别标签;
分割网络训练模块,将所述每个训练样本对应的多种第一分辨率的特征图输入所述分割网络进行卷积计算、上采样操作,确定每个第二分辨率对应的分割特征图,直至以所述每个第二分辨率对应的分割特征图与对应所述训练样本中的分割标记作为输入的所述分割网络的损失函数的曲线趋于收敛,所述第二分辨率基于所述第一分辨率进行确定,所述分割特征图携带有所述目标物的分割类别标签,所述分割网络的训练参数基于所述检测网络的训练参数进行确定。
第三方面,实施例提供一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述前述实施方式任一项所述的方法的步骤。
第四方面,实施例提供一种机器可读存储介质,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被处理器调用和执行时,机器可执行指令促使处理器实现前述实施方式任一项所述的方法的步骤。
本发明实施例提供的一种基于多任务网络的训练方法和装置,对检测网络和分割网络进行分来训练,先训练检测网络,将多个带有检测标记和分割标记的训练样本输入检测网络中,对检测网络进行训练,并基于训练完成的训练参数确定分割网络。将训练完成的检测网络得到的每个训练样本得到对应的多种第一分辨率的特征图进行存储,分割网络调用该特征图进行分割训练,将该经检测网络丰富化处理的多种第一分辨率的特征图输入分割网络进行卷积计算、双线性插值和上采样一系列操作,得到多个第二分辨率的分割特征图,将每个第二分辨率的分割特征图与其对应的训练样本中的分割标记进行比对,直至其差值满足阈值,即差值收敛。
本公开的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本公开的上述技术即可得知。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于多任务网络的训练方法流程图;
图2为本发明实施例提供的一种分割网络训练示意图;
图3为本发明实施例提供的一种拼接图像示意图;
图4为本发明实施例提供的一种分割特征图的示意图;
图5为本发明实施例提供的一种基于多任务网络的训练装置的功能模块图;
图6为本发明实施例提供的一种电子设备的硬件架构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
当前用于自动驾驶领域对目标物自动识别的多任务网络,一般包括检测网络和分割网络,通过对检测网络和分割网络的同步训练,达到能够对目标物的类型进行自动识别,并识别出车辆自动驾驶的可行驶区域。由于获得带有分割标记的分割样本的经济成本较高,因此,一般用于分割网络训练的分割样本较为有限。当对检测网络的检测精度要求不高时,参与训练的带有检测标记的检测样本数量与分割样本的数量级不会相差很大,此时,同步训练后的多任务网络检测和分割的结果能够满足要求,并能够对目标物以及可行驶区域等进行较为准确的识别。
但随着自动驾驶领域的飞速发展,当前对检测网络的检测精度要求也日益提高,进而由于检测样本的成本相对较低,能够提供较大数量级的检测样本用于训练,此时,检测样本和分割样本在数量级上相差较大,当前通过检测网络和分割网络同步训练的多任务网络无法在不损失检测样本的精度的前提下,具有较好的分割效果。
此外,由于现阶段的多任务网络的分割类别较多,如果要得到较好的分割结果,就需要分割网络的计算量很大,但是目前的汽车上的硬件设备计算能力有限,无法实时的进行目标检测和语义分割。
基于此,本发明实施例提供的一种基于多任务网络的训练方法和装置,通过分别训练检测网络和分割网络,并对参与分割网络训练的特征进行丰富,在不损失检测样本的精度的情况下,获得较为精确的分割结果,节省成本。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种基于多任务网络的训练方法进行详细介绍,其中,多任务网络模型指具有多种功能、能够执行多种任务的网络模型,本发明实施例中的多任务网络包括检测网络和分割网络,能够进行目标物的类别检测和图像分割。
图1为本发明实施例提供的一种基于多任务网络的训练方法流程图。
如图1所示,该方法包括以下步骤:
步骤S102,将多个训练样本输入检测网络,对所述检测网络进行训练,确定所述检测网络在训练完成时的训练参数和每个训练样本对应的多种第一分辨率的特征图,其中,所述训练样本包括检测标记和分割标记,所述特征图携带有目标物的检测类别标签;
步骤S104,将所述每个训练样本对应的多种第一分辨率的特征图输入所述分割网络进行卷积计算和上采样操作,确定每个第二分辨率对应的分割特征图,直至以所述每个第二分辨率对应的分割特征图与对应所述训练样本中的分割标记作为输入的所述分割网络的损失函数的曲线趋于收敛,所述第二分辨率基于所述第一分辨率进行确定,所述分割特征图携带有所述目标物的分割类别标签,所述分割网络的训练参数基于所述检测网络的训练参数进行确定。
在实际应用的优选实施例中,对检测网络和分割网络进行分开训练,先训练检测网络,将多个带有检测标记和分割标记的训练样本输入检测网络中,对检测网络进行训练,并基于训练完成的训练参数确定分割网络的训练参数。将训练完成的检测网络得到的每个训练样本得到对应的多种第一分辨率的特征图进行存储,分割网络调用该特征图进行分割训练,将该经检测网络丰富化处理的多种第一分辨率的特征图输入分割网络进行卷积计算、上采样一系列操作,得到多个第二分辨率的分割特征图,将每个第二分辨率的分割特征图与其对应的训练样本中的分割标记输入损失函数,直至损失函数曲线收敛,此时分割网络也训练完成。
可以理解的是,本发明实施例提供的方法减少了参与分割的类别,即只针对可行驶区域、车道线和路沿石等类别,从而可以大大减少分割网络分支的计算量,进而实现在汽车的硬件设备上的实时目标检测和语义分割。
其中,上采样操作包括双线性插值操作。
需要说明的是,本发明实施例中的分割网络使用tf.losses.softmax_cross_entropy的损失函数,并不局限于此,仅为一种示例。分割网络会得到多个第二分辨率的分割特征图,但经过多次实验观察,损失函数曲线的趋势基本一致,没有出现过其中一个分割特征图与分割标记作为输入的损失函数曲线收敛,其余分割特征图与分割标记作为输入的损失函数曲线还没有收敛的情况,如果出现这种情况的话可以增加网络迭代的次数,直至各个分割特征图与分割标记作为输入的损失函数曲线全部收敛。
作为一种可选的实施例,训练检测网络的过程包括:将多个带有检测标记和分割标记的训练样本输入检测网络中,经过对训练样本进行卷积、元素加和等操作,得到六种分辨率的特征图,将每种分辨率的特征图与其对应的训练样本中的检测标记输入损失函数,直至损失函数曲线收敛,此时检测网络训练完成。其中,本发明实施例中的检测网络采用目标检测架构(Single Shot Multi Box Detector,SSD),可调用Tensor Flow ObjectDetection API训练的模型作为预训练模型。
例如,输入的训练样本为分辨率640*360并包括有检测标记和分割标记的图片,经过检测网络的计算之后,得到了分辨率为80*45、40*23、20*12、10*6、5*3、3*2、2*1等多种特征图。为了在不增加分割成本的基础上,保证不损失检测精度和分割效果,发明人经过实验结果选取分辨率为80*45、40*23、20*12的特征图进行上采样和元素加和,即将分辨率为20*12的特征图存储,并进行上采样,得到分辨率为40*23的特征图,将该分辨率为40*23的特征图与原分辨率为40*23的特征图进行元素加和,进行存储,并基于该元素加和后的分辨率为40*23的特征图进行上采样,得到分辨率为80*45的特征图,将该分辨率为80*45的特征图与原分辨率为80*45的特征图进行元素加和,进行存储。综上,经过检测网络对相对于传统的分割样本进行丰富化的操作,得到保存于存储模块的分辨率为20*12的特征图、分辨率为40*23的特征图和分辨率为80*45的特征图,分割网络调用上述丰富后的特征图进行分割操作。因此,在可选的实施例中,所述检测网络确定的特征图包括尺寸为所述训练样本的1/8、第一分辨率为80*45的特征图、尺寸为所述训练样本的1/16、第一分辨率为40*23的特征图和尺寸为所述训练样本的1/32、第一分辨率为20*12的特征图。
需要说明的是,传统的多任务网络的具有分割标记的样本数量较少,如满足本申请实施例要求的训练样本为300张,即分割网络的输入的分割样本数量即为300张,而通过本发明实施例应用后,300张训练样本经过检测网络的丰富,分割网络的输入特征图数量可达到300*3,即每张训练样本对应三张可用于分割输入的特征图。由于不同尺寸(不同分辨率)的特征图,可提取的图像特征并不同,在当前多任务网络的体积较小的情况下,可对分割网络输入三个尺寸分辨率不同的特征图,以使得分割网络能够得到更精确的分割结果,因此,解决上述问题。
可以理解的是,训练参数包括训练完成后的检测网络中的卷积核中的参数,分割网络固定该训练参数,再进行分割网络的训练等操作。
在可选的实施例中,如图2所示,步骤S104还可由以下步骤实现,包括:
步骤1.1),对所述检测网络确定的第一分辨率为20*12的分割特征图进行卷积计算、上采样操作,得到第二分辨率为40*23的分割特征图;
步骤1.2),将所述检测网络确定的第一分辨率为40*23的分割特征图进行卷积计算,并与所述第二分辨率为40*23的分割特征图与进行元素加和,再进行上采样操作,得到第二分辨率为80*45的分割特征图;
步骤1.3),将所述检测网络确定的第一分辨率为80*45的分割特征图进行卷积计算,并与所述第二分辨率为80*45的分割特征图与进行元素加和,再进行上采样操作,得到第二分辨率为160*90的分割特征图;
步骤1.4),对所述第二分辨率为160*90的分割特征图进行上采样操作,得到第二分辨率为320*180的分割特征图。
其中,分割网络在检测网络SSD架构的基础上分别对尺寸为1/32、1/16、1/8的特征图进行卷积计算和上采样,同时采用跳跃连接从低层提取高分辨率图像,分别得到第二分辨率为40*23、80*45、160*90、320*180的分割特征图。
在可选的实施例中,通过本发明实施例提供的方法训练的多任务网络,可用于对自动驾驶领域的目标物类别和可行驶区域等进行识别,检测网络可检测出车辆、车轮、人、禁止停车、锥形交通路标、示警桩、车位锁开启、车位锁关闭等目标物类别,切割网络可分割出可行驶区域、车道线等行驶区域类别,便于车辆自动驾驶,本发明实施例还包括以下步骤:
步骤2.1),基于所述检测类别标签和所述分割类别标签对所述目标物进行识别。
例如,基于训练好的多任务网络,输入包括待检测目标物的图片,能够得到包括上述各个目标物类别以及行驶区域类别的概率值,并将概率值最大的目标物类别作为目标物的类别,再根据分割特征图中每个像素点对应的行驶区域类别的概率值确定该像素点隶属的行驶区域类别,以便车辆控制系统对分割特征图进行识别,控制车辆自动行驶于可行驶区域并避开障碍物。
在实际应用的优选实施例中,本发明实施例还可用于将上述检测出目标物类别和分割出行驶区域类别的图片作为训练样本输入到多任务网络中,对该多任务网络进行矫正。
在可选的实施例中,为了使分割样本的各个类别之间的像素数量更加平衡像素数量,所述方法还包括:
步骤3.1),基于每个分割特征图中每个分割类别的像素数量确定所述每个分割类别引入的权重;
步骤3.2),根据所述权重平均化所述每个第二分辨率对应的分割特征图的像素数量。
例如,将300*4张分割特征图中每个分割类别的像素数量求和(车道线类别的像素数量求和、可行驶区域类别的像素数量求和),基于此,确定每个分割类别需要引入的权重,使得该权重对分割特征图中每个分割类别的像素数量进行均衡。
在可选的实施例中,所述训练样本包括多种不同的采集环境类型、驾驶环境类型和数据集采集类型。
其中,采集环境类型、驾驶环境类型包括国内环境、国外环境等等,数据集采集类型包括平面图像以及鱼眼图像等类型,如,平面图像的视角为100度,鱼眼图像的视角为190度。
在可选的实施例中,为了保证多任务网络的训练速度以及识别检测速度,所述检测样本包括拼接图像,所述拼接图像为四路鱼眼摄像头采集的图像或平面图像,图3中为一种拼接图像的示范例。本发明实施例提供的多任务网络基于该拼接图像能够得到如图4所示的分割特征图,该分割特征图对应于图3的拼接图像。
例如,训练样本原图的分辨率为640*360,4张训练样本原图若不进行拼接,检测和分割过程均需要40秒,而若将上述4张训练样本原图进行拼接后得到分辨率为320*180的图像,在检测和分割过程中仅需要10秒,进一步节省了检测、分割过程的时间成本。
作为本发明实施例中一种可选的实施方式,还可实现通过相差较大的数量级的仅有检测标记的训练样本以及仅有分割标记的训练样本,进行多任务网络训练过程,将多个带有检测标记的训练样本输入多任务网络,对其中检测网络进行训练,得到训练完成的检测网络的训练参数;然后将多个带有分割标记的训练样本输入多任务网络,对其中分割网络进行训练,并基于检测网络的训练参数来确定分割网络的训练参数。
如图5所示,实施例提供一种基于多任务网络的训练装置500,所述多任务网络包括检测网络和分割网络,所述装置包括:
检测网络训练模块501,将多个训练样本输入检测网络,对所述检测网络进行训练,确定所述检测网络在训练完成时的训练参数和每个训练样本对应的多种第一分辨率的特征图,其中,所述训练样本包括检测标记和分割标记,所述特征图携带有目标物的检测类别标签;
分割网络训练模块502,将所述每个训练样本对应的多种第一分辨率的特征图输入所述分割网络进行卷积计算、上采样操作,确定每个第二分辨率对应的分割特征图,直至以所述每个第二分辨率对应的分割特征图与对应所述训练样本中的分割标记作为输入的所述分割网络的损失函数的曲线趋于收敛,所述第二分辨率基于所述第一分辨率进行确定,所述分割特征图携带有所述目标物的分割类别标签,所述分割网络的训练参数基于所述检测网络的训练参数进行确定。
在可选的实施例中,所述装置还包括识别模块,基于所述检测类别标签和所述分割类别标签对所述目标物进行识别。
在可选的实施例中,所述装置还包括像素平均模块,基于每个分割特征图中每个分割类别的像素数量确定所述每个分割类别引入的权重;根据所述权重平均化所述每个第二分辨率对应的分割特征图的像素数量。
在可选的实施例中,所述检测网络确定的特征图包括尺寸为所述训练样本的1/8、第一分辨率为80*45的特征图、尺寸为所述训练样本的1/16、第一分辨率为40*23的特征图和尺寸为所述训练样本的1/32、第一分辨率为20*12的特征图。
在可选的实施例中,分割网络训练模块,对所述检测网络确定的第一分辨率为20*12的分割特征图进行卷积计算、上采样操作,得到第二分辨率为40*23的分割特征图;将所述检测网络确定的第一分辨率为40*23的分割特征图进行卷积计算,并与所述第二分辨率为40*23的分割特征图与进行元素加和,再进行上采样操作,得到第二分辨率为80*45的分割特征图;将所述检测网络确定的第一分辨率为80*45的分割特征图进行卷积计算,并与所述第二分辨率为80*45的分割特征图与进行元素加和,再进行上采样操作,得到第二分辨率为160*90的分割特征图;对所述第二分辨率为160*90的分割特征图进行上采样操作,得到第二分辨率为320*180的分割特征图。
在可选的实施例中,所述训练样本包括多种不同的采集环境类型、驾驶环境类型和数据集采集类型。
在可选的实施例中,所述检测样本包括拼接图像,所述拼接图像为四路鱼眼摄像头采集的图像或平面图像。
图6为本发明实施例提供的电子设备600的硬件架构示意图。参见图6所示,该电子设备600包括:机器可读存储介质601和处理器602,还可以包括非易失性存储介质603、通信接口604和总线605;其中,机器可读存储介质601、处理器602、非易失性存储介质603和通信接口604通过总线605完成相互间的通信。处理器602通过读取并执行机器可读存储介质601中基于多任务网络的训练的机器可执行指令,可执行上文实施例描述基于多任务网络的训练方法。
本文中提到的机器可读存储介质可以是任何电子、磁性、光学或其它物理存储装置,可以包含或存储信息,如可执行指令、数据,等等。例如,机器可读存储介质可以是:RAM(Radom Access Memory,随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、任何类型的存储盘(如光盘、dvd等),或者类似的存储介质,或者它们的组合。
非易失性介质可以是非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、任何类型的存储盘(如光盘、dvd等),或者类似的非易失性存储介质,或者它们的组合。
可以理解的是,本实施例中的各功能模块的具体操作方法可参照上述方法实施例中相应步骤的详细描述,在此不再重复赘述。
本发明实施例所提供计算机可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序代码被执行时可实现上述任一实施例所述的基于多任务网络的训练方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种基于多任务网络的训练方法,其特征在于,所述多任务网络包括检测网络和分割网络,所述方法包括:
将多个训练样本输入检测网络,对所述检测网络进行训练,确定所述检测网络在训练完成时的训练参数和每个训练样本对应的多种第一分辨率的特征图,其中,所述训练样本包括检测标记和分割标记,所述特征图携带有目标物的检测类别标签;
将所述每个训练样本对应的多种第一分辨率的特征图输入所述分割网络进行卷积计算、上采样操作,确定每个第二分辨率对应的分割特征图,直至以所述每个第二分辨率对应的分割特征图与对应所述训练样本中的分割标记作为输入的所述分割网络的损失函数的曲线趋于收敛,所述第二分辨率基于所述第一分辨率进行确定,所述分割特征图携带有所述目标物的分割类别标签,所述分割网络的训练参数基于所述检测网络的训练参数进行确定。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于所述检测类别标签和所述分割类别标签对所述目标物进行识别。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于每个分割特征图中每个分割类别的像素数量确定所述每个分割类别引入的权重;
根据所述权重平均化所述每个第二分辨率对应的分割特征图的像素数量。
4.根据权利要求1所述的方法,其特征在于,所述检测网络确定的特征图包括尺寸为所述训练样本的1/8、第一分辨率为80*45的特征图、尺寸为所述训练样本的1/16、第一分辨率为40*23的特征图和尺寸为所述训练样本的1/32、第一分辨率为20*12的特征图。
5.根据权利要求4所述的方法,其特征在于,将所述每个训练样本对应的多种第一分辨率的特征图输入所述分割网络进行卷积计算、上采样操作,确定每个第二分辨率对应的分割特征图的步骤,包括:
对所述检测网络确定的第一分辨率为20*12的分割特征图进行卷积计算、上采样操作,得到第二分辨率为40*23的分割特征图;
将所述检测网络确定的第一分辨率为40*23的分割特征图进行卷积计算,并与所述第二分辨率为40*23的分割特征图与进行元素加和,再进行上采样操作,得到第二分辨率为80*45的分割特征图;
将所述检测网络确定的第一分辨率为80*45的分割特征图进行卷积计算,并与所述第二分辨率为80*45的分割特征图与进行元素加和,再进行上采样操作,得到第二分辨率为160*90的分割特征图;
对所述第二分辨率为160*90的分割特征图进行上采样操作,得到第二分辨率为320*180的分割特征图。
6.根据权利要求1所述的方法,其特征在于,所述训练样本包括多种不同的采集环境类型、驾驶环境类型和数据集采集类型。
7.根据权利要求1所述的方法,其特征在于,所述训练样本包括拼接图像,所述拼接图像为四路鱼眼摄像头采集的图像或平面图像。
8.一种基于多任务网络的训练装置,其特征在于,所述多任务网络包括检测网络和分割网络,所述装置包括:
检测网络训练模块,将多个训练样本输入检测网络,对所述检测网络进行训练,确定所述检测网络在训练完成时的训练参数和每个训练样本对应的多种第一分辨率的特征图,其中,所述训练样本包括检测标记和分割标记,所述特征图携带有目标物的检测类别标签;
分割网络训练模块,将所述每个训练样本对应的多种第一分辨率的特征图输入所述分割网络进行卷积计算、上采样操作,确定每个第二分辨率对应的分割特征图,直至以所述每个第二分辨率对应的分割特征图与对应所述训练样本中的分割标记作为输入的所述分割网络的损失函数的曲线趋于收敛,所述第二分辨率基于所述第一分辨率进行确定,所述分割特征图携带有所述目标物的分割类别标签,所述分割网络的训练参数基于所述检测网络的训练参数进行确定。
9.一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至7任一项所述的方法的步骤。
10.一种机器可读存储介质,其特征在于,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被处理器调用和执行时,机器可执行指令促使处理器实现权利要求1至7任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010965688.2A CN112101205B (zh) | 2020-09-15 | 2020-09-15 | 基于多任务网络的训练方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010965688.2A CN112101205B (zh) | 2020-09-15 | 2020-09-15 | 基于多任务网络的训练方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112101205A true CN112101205A (zh) | 2020-12-18 |
CN112101205B CN112101205B (zh) | 2024-08-16 |
Family
ID=73758569
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010965688.2A Active CN112101205B (zh) | 2020-09-15 | 2020-09-15 | 基于多任务网络的训练方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112101205B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113780476A (zh) * | 2021-10-09 | 2021-12-10 | 中国铁建重工集团股份有限公司 | 一种岩渣特征检测模型训练方法、装置、设备及介质 |
CN113850195A (zh) * | 2021-09-27 | 2021-12-28 | 杭州东信北邮信息技术有限公司 | 一种基于3d视觉的ai智能物体识别方法 |
CN115470873A (zh) * | 2022-11-14 | 2022-12-13 | 中国人民解放军国防科技大学 | 一种雷达辐射源识别方法与系统 |
CN115797632A (zh) * | 2022-12-01 | 2023-03-14 | 北京科技大学 | 一种基于多任务学习的图像分割方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108304765A (zh) * | 2017-12-11 | 2018-07-20 | 中国科学院自动化研究所 | 用于人脸关键点定位与语义分割的多任务检测装置 |
CN108985269A (zh) * | 2018-08-16 | 2018-12-11 | 东南大学 | 基于卷积和空洞卷积结构的融合网络驾驶环境感知模型 |
CN108985250A (zh) * | 2018-07-27 | 2018-12-11 | 大连理工大学 | 一种基于多任务网络的交通场景解析方法 |
US20190050981A1 (en) * | 2017-08-09 | 2019-02-14 | Shenzhen Keya Medical Technology Corporation | System and method for automatically detecting a target object from a 3d image |
CN109919218A (zh) * | 2019-02-28 | 2019-06-21 | 上海交通大学 | 混合连接的多任务fcn模型系统 |
CN109993726A (zh) * | 2019-02-21 | 2019-07-09 | 上海联影智能医疗科技有限公司 | 医学图像的检测方法、装置、设备和存储介质 |
CN110930409A (zh) * | 2019-10-18 | 2020-03-27 | 电子科技大学 | 一种基于深度学习的盐体语义分割方法及语义分割模型 |
CN111292330A (zh) * | 2020-02-07 | 2020-06-16 | 北京工业大学 | 基于编解码器的图像语义分割方法及装置 |
CN111310574A (zh) * | 2020-01-17 | 2020-06-19 | 清华大学 | 一种车载视觉实时多目标多任务联合感知方法和装置 |
-
2020
- 2020-09-15 CN CN202010965688.2A patent/CN112101205B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190050981A1 (en) * | 2017-08-09 | 2019-02-14 | Shenzhen Keya Medical Technology Corporation | System and method for automatically detecting a target object from a 3d image |
CN108304765A (zh) * | 2017-12-11 | 2018-07-20 | 中国科学院自动化研究所 | 用于人脸关键点定位与语义分割的多任务检测装置 |
CN108985250A (zh) * | 2018-07-27 | 2018-12-11 | 大连理工大学 | 一种基于多任务网络的交通场景解析方法 |
CN108985269A (zh) * | 2018-08-16 | 2018-12-11 | 东南大学 | 基于卷积和空洞卷积结构的融合网络驾驶环境感知模型 |
CN109993726A (zh) * | 2019-02-21 | 2019-07-09 | 上海联影智能医疗科技有限公司 | 医学图像的检测方法、装置、设备和存储介质 |
CN109919218A (zh) * | 2019-02-28 | 2019-06-21 | 上海交通大学 | 混合连接的多任务fcn模型系统 |
CN110930409A (zh) * | 2019-10-18 | 2020-03-27 | 电子科技大学 | 一种基于深度学习的盐体语义分割方法及语义分割模型 |
CN111310574A (zh) * | 2020-01-17 | 2020-06-19 | 清华大学 | 一种车载视觉实时多目标多任务联合感知方法和装置 |
CN111292330A (zh) * | 2020-02-07 | 2020-06-16 | 北京工业大学 | 基于编解码器的图像语义分割方法及装置 |
Non-Patent Citations (4)
Title |
---|
JIFENG DAI 等: "Instance-aware Semantic Segmentation via Multi-task Network Cascades", 《2016 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》, 12 December 2016 (2016-12-12), pages 3150 - 3158 * |
MIQUEL MART´ 等: "A multitask deep learning model for real-time deployment in embedded systems", 《ARXIV》, 31 October 2017 (2017-10-31), pages 1 - 2 * |
杨曰凯: "基于多任务网络的智能车辆环境感知方法研究", 《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》, no. 2, 15 February 2020 (2020-02-15), pages 035 - 420 * |
王培森: "基于注意力机制的图像分类深度学习方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 1, 15 January 2019 (2019-01-15), pages 138 - 2489 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113850195A (zh) * | 2021-09-27 | 2021-12-28 | 杭州东信北邮信息技术有限公司 | 一种基于3d视觉的ai智能物体识别方法 |
CN113850195B (zh) * | 2021-09-27 | 2024-05-28 | 新讯数字科技(杭州)有限公司 | 一种基于3d视觉的ai智能物体识别方法 |
CN113780476A (zh) * | 2021-10-09 | 2021-12-10 | 中国铁建重工集团股份有限公司 | 一种岩渣特征检测模型训练方法、装置、设备及介质 |
CN115470873A (zh) * | 2022-11-14 | 2022-12-13 | 中国人民解放军国防科技大学 | 一种雷达辐射源识别方法与系统 |
CN115797632A (zh) * | 2022-12-01 | 2023-03-14 | 北京科技大学 | 一种基于多任务学习的图像分割方法 |
CN115797632B (zh) * | 2022-12-01 | 2024-02-09 | 北京科技大学 | 一种基于多任务学习的图像分割方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112101205B (zh) | 2024-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10429193B2 (en) | Method and apparatus for generating high precision map | |
CN112101205A (zh) | 基于多任务网络的训练方法和装置 | |
US11790499B2 (en) | Certificate image extraction method and terminal device | |
CN109974733A (zh) | 用于ar导航的poi显示方法、装置、终端和介质 | |
Hua et al. | Extended guided filtering for depth map upsampling | |
CN113628180B (zh) | 一种基于语义分割网络的遥感建筑物检测方法及系统 | |
CN113901961B (zh) | 车位检测方法、装置、设备及存储介质 | |
CN111723805A (zh) | 一种信号灯的前景区域识别方法及相关装置 | |
CN114898321A (zh) | 道路可行驶区域检测方法、装置、设备、介质及系统 | |
CN116403127A (zh) | 一种无人机航拍图像目标检测方法、装置和存储介质 | |
CN114820679A (zh) | 图像标注方法、装置、电子设备和存储介质 | |
CN112784639A (zh) | 路口检测、神经网络训练及智能行驶方法、装置和设备 | |
CN114120260B (zh) | 可行驶区域识别方法及其系统、计算机设备、存储介质 | |
CN113704276A (zh) | 地图更新方法、装置、电子设备及计算机可读存储介质 | |
CN111860084B (zh) | 图像特征的匹配、定位方法及装置、定位系统 | |
CN112444251B (zh) | 车辆行车位置确定方法、装置、存储介质及计算机设备 | |
CN115937205A (zh) | 表面缺陷瓷砖图像生成方法、装置、设备及存储介质 | |
CN116580230A (zh) | 一种目标检测方法及一种分类模型的训练方法 | |
CN116452977A (zh) | 一种无人艇平台海面船只检测方法、系统及设备 | |
CN115618602A (zh) | 一种车道级场景仿真方法及系统 | |
CN116188587A (zh) | 定位方法、装置及车辆 | |
CN112348044A (zh) | 车牌检测方法、装置及设备 | |
CN109934169A (zh) | 一种车道线识别方法及装置 | |
CN117893990B (zh) | 道路标志检测方法、装置和计算机设备 | |
CN117727019A (zh) | 一种车牌属性识别方法、装置和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |