CN106845549A

CN106845549A - 一种基于多任务学习的场景与目标识别的方法及装置

Info

Publication number: CN106845549A
Application number: CN201710054400.4A
Authority: CN
Inventors: 王志鹏; 周文明; 马佳丽
Original assignee: Zhuhai Xi Yue Information Technology Co Ltd
Current assignee: Zhuhai Xi Yue Information Technology Co Ltd
Priority date: 2017-01-22
Filing date: 2017-01-22
Publication date: 2017-06-13
Anticipated expiration: 2037-01-22
Also published as: CN106845549B

Abstract

本发明涉及一种基于多任务学习的场景与目标识别的方法及装置，该方法包括：采集包含不同场景、目标的图片为图像样本数据；对图像样本数据进行手动标签标记，得到目标类别标签及场景类别标签；构建多层卷积神经网络模型，进行网络初始化；采用图像样本数据及对应的目标类别标签，对构建好的模型进行预训练，直至收敛，得到目标识别模型；基于多任务学习技术，在目标识别模型的特定层加入网络分支，并随机初始化，得到多任务网络；采用图像样本数据及对应的场景类别标签、目标类别标签，对多任务网络进行再训练，直至收敛，得到多任务学习模型；输入新的图像数据至多任务学习模型，得到图像的场景及目标识别的分类结果。它提升单任务识别精度。

Description

一种基于多任务学习的场景与目标识别的方法及装置

技术领域

本发明涉及视觉、图像识别与深度学习领域的结合，特别涉及一种基于多任务学习的场景与目标识别的方法及装置。

背景技术

随着深度学习的兴起，越来越多的技术采用深度学习来实现图片或视频流的图像识别。相比于传统方法，深度学习避免了手动参数调节与人工特征选择的复杂性，通过搭建深层网络模型，对数据进行多层分析和抽象化特征提取，其具有高准确性、高可靠性、高适应性的特点。常见的图像识别应用涵盖了动作识别、人脸识别、目标识别、场景识别等。其中，目标识别与场景识别作为图像检索、图像分类、场景理解、环境感知的基础，在模式识别、机器学习等领域发挥着重要作用。

目标识别提取图像不同区域的局部特征，识别图像中物体位置及具体类别信息，与物体出现的场景环境无直接关系；场景识别通过挖掘图像中的场景特征，自动判别图像所隶属的场景类别，其识别结果不涉及具体的目标。由于场景类别是由图片中的目标、背景环境、空间布局等定义，图片中包含的目标信息可以为场景识别提供一定的依据，如床与卧室、树木与森林存在着很强的相关性，可以作为特定场景的特征。现有的场景识别按照其对目标信息的利用程度可以分为以下两类：

1)基于目标的场景识别

基于目标的场景识别级联目标识别与场景分类两个步骤。首先针对图像进行目标检测及类别识别，通过构建场景与目标类别之间的关键字匹配库，对目标识别的结果进行关联匹配，从而实现目标所隶属场景类别的划分。基于目标的场景识别可以有效利用目前发展较为成熟的目标识别技术及目标与场景之间的关联关系。然而，目标识别的引入和关键字匹配库的人工构建也为识别带来了二次误差，且识别到的目标与场景所属类别不一定完全相关，某些场景可能并不存在特征目标。因此，完全依赖目标类别的场景识别应用范围小，其准确率难以得到保证。

2)基于整体的场景识别

基于整体的场景识别将整副图像作为一个整体直接进行判定，通过提取图像的特征(如颜色、纹理等传统的图像特征，或基于深度学习提取的抽象特征)来获取整幅图像的特征向量，进而实现场景的识别分类。然而，由于场景与目标、背景环境、空间布局等多层信息相关，同一类别的场景特征具有很强的变化性，而不同类别的场景特征可能存在相似点相互重叠，从而为精准识别带来了极大的挑战。目前，采用前沿深度学习技术的基于整体的场景识别也只能达到50％左右的top-1准确率，难以在实际应用中发挥有效作用。

发明内容

基于现有技术存在的瓶颈问题，本发明提供了一种基于多任务学习的场景与目标识别的方法及装置，通过构建单个深度模型实现目标与场景的一体化高精度识别。

本发明的技术方案是：一种基于多任务学习的场景与目标识别的方法，其特征是：该方法包括如下步骤：

步骤S1：采集包含不同场景、目标的图片为图像样本数据；

步骤S2：对图像样本数据进行手动标签标记，得到目标类别标签及场景类别标签；

步骤S3：构建多层卷积神经网络模型，进行网络初始化；

步骤S4：采用图像样本数据及对应的目标类别标签，对构建好的模型进行预训练，直至收敛，得到目标识别模型；

步骤S5：基于多任务学习技术，在目标识别模型的特定层加入网络分支，并随机初始化，得到多任务网络；

步骤S6：采用图像样本数据及对应的场景类别标签、目标类别标签，对多任务网络进行再训练，直至收敛，得到多任务学习模型；

步骤S7：输入新的图像数据至多任务学习模型，得到图像的场景及目标识别的分类结果。

所述步骤S1，包括如下步骤：

步骤S11：图像采集步骤，利用摄像头、网络资源采集不同场景、目标的图像数据；

步骤S12：图像筛选步骤，对所述的图像数据进行二次筛选，去除图片质量及画面内容不合要求的图像数据，剩余图像的图像数据作为图像样本数据。

所述步骤S2，包括如下步骤：

步骤S21：目标类别标记，为每副图像标记N_ob个目标类别标签，存储为长度为N_ob的多值向量，所述N_ob≥80；

步骤S22：场景类别标记，为每幅图像标记N_se个场景类别标签，存储为长度为N_se的单值向量；所述N_se≥20。

所述步骤S3具体为卷积神经网络模型搭建及卷积神经网络模型初始化；

所述卷积神经网络模型包括：一个输入数据层、O_con个卷积层、O_pool个池化层、O_fc个全连接层；其中，每层卷积层包含卷积核，第i个卷积层包含okn_i个卷积核，卷积核的大小为oks_i*oks_i,步长为okb_i；每层池化层采用最大池化法，池化核的大小为ops_i*ops_i,步长为opb_i；所述输入数据层的神经元个数为图像3个通道的像素点数；所述全连接层的最后一层输出的神经元数量N_ob为识别的目标总类别数；所述卷积神经网络模型初始化采用随机初始化法；

所述卷积神经网络包括：

输入数据层，输入RGB三通道彩色图像，图像尺寸为Width*Height；

第一卷积层OC1，包含okn_1个卷积核，卷积核的大小为oks_1*oks_1，步长为okb_1，零填充参数设为1，采用ReLU激活函数；

第二卷积层OC2，包含okn_2个卷积核，卷积核的大小为oks_2*oks_2，步长为okb_2，零填充参数设为1，采用ReLU激活函数；

第一池化层OP1，采用最大池化法，池化核的大小为ops_1*ops_1,步长为opb_1；

第三卷积层OC3，包含okn_3个卷积核，卷积核的大小为oks_3*oks_3，步长为okb_3，零填充参数设为1，采用ReLU激活函数；

第四卷积层OC4，包含okn_4个卷积核，卷积核的大小为oks_4*oks_4，步长为okb_4，零填充参数设为1，采用ReLU激活函数；

第二池化层OP2，采用最大池化法，池化核的大小为ops_2*ops_2,步长为opb_2；

第五卷积层OC5，包含okn_5个卷积核，卷积核的大小为oks_5*oks_5，步长为okb_5，零填充参数设为1，采用ReLU激活函数；

第六卷积层OC6，包含okn_6个卷积核，卷积核的大小为oks_6*oks_6，步长为okb_6，零填充参数设为1，采用ReLU激活函数；

第七卷积层OC7，包含okn_7个卷积核，卷积核的大小为oks_7*oks_7，步长为okb_7，零填充参数设为1，采用ReLU激活函数；

第三池化层OP3，采用最大池化法，池化核的大小为ops_3*ops_3,步长为opb_3；

第八卷积层OC8，包含okn_8个卷积核，卷积核的大小为oks_8*oks_8，步长为okb_8，零填充参数设为1，采用ReLU激活函数；

第九卷积层OC9，包含okn_9个卷积核，卷积核的大小为oks_9*oks_9，步长为okb_9，零填充参数设为1，采用ReLU激活函数；

第十卷积层OC10，包含okn_10个卷积核，卷积核的大小为oks_10*oks_10，步长为okb_10，零填充参数设为1，采用ReLU激活函数；

第四池化层OP4，采用最大池化法，池化核的大小为ops_4*ops_4,步长为opb_4；

第十一卷积层OC11，包含okn_11个卷积核，卷积核的大小为oks_11*oks_11，步长为okb_11，零填充参数设为1，采用ReLU激活函数；

第十二卷积层OC12，包含okn_12个卷积核，卷积核的大小为oks_12*oks_12，步长为okb_12，零填充参数设为1，采用ReLU激活函数；

第十三卷积层OC13，包含okn_13个卷积核，卷积核的大小为oks_13*oks_13，步长为okb_13，零填充参数设为1，采用ReLU激活函数；

第五池化层OP5，采用最大池化法，池化核的大小为ops_5*ops_5,步长为opb_5。

第一全连接层OF1，包含of_1个神经元，采用ReLU激活函数，采用dropout机制，dropout比例设置为of_d1；

第二全连接层OF2，包含of_2个神经元，采用ReLU激活函数，采用dropout机制，dropout比例设置为of_d2；

第三全连接层OF3，包含N_ob个神经元，采用softmax函数，输出为N_ob个目标类别对应的概率值O；

其中，所述O_con∈[10,20],O_pool∈[2,8],O_fc∈[1,5]，okn_i∈[64,512]，oks_i∈[1,9]且为奇数，okb_i∈[1,5]且okb_i≦oks_i，ops_i∈[1,5]，opb_i∈[1,5]且opb_i≦ops_i；Width和Height分别为输入图像的宽度和高度，Width∈[50,1680]，Height∈[50,1050]，of_1∈[1024,4096]，of_d1∈[0,1]，of_2∈[1024,4096]，of_d2∈[0,1]。

所述步骤S4，包括如下步骤：

步骤S41：预训练参数设置步骤，使用随机梯度下降法进行网络训练，其学习速率设置为lr，动量项设置为mo，学习速率的衰减系数设置为dc；其中，lr设为0.01，mo设为0.9，dc设为10；

步骤S42：模型预训练步骤，用所述的预训练参数，采用图像样本数据及目标类别标签对卷积神经网络进行预训练，直至收敛，得到目标识别模型。

所述步骤S5，包括如下步骤：

步骤S51：添加网络分支，在目标识别模型的第一池化层OP1，第二池化层OP2，第三池化层OP3，第十卷积层OC10的输出之后添加新的网络分支；

步骤S52：网络分支初始化，对添加的新的网络分支中的参数进行初始化，采用随机初始化策略。

所述步骤S6，包括如下步骤：

步骤S61：再训练参数设置，使用随机梯度下降法进行网络训练，其学习速率设置为lr_n，动量项设置为mo_n，学习速率的衰减系数设置为dc_n，训练所用的代价函数L融合了目标与场景两个任务的误差；其中，lr_n设为0.01，mo_n设为0.9，dc_n设为10；

步骤S62：模型再训练步骤，用所述的再训练参数，采用图像样本数据及所有类别标签对卷积神经网络进行再训练，直至收敛，得到训练好的多任务学习模型。

所述代价函数L为场景识别的交叉熵代价函数L_o与目标识别的交叉熵代价函数L_s之和，其公式如下，其中O_i为目标识别的真实标签，p_oi为目标识别的softmax输出概率值，S_i为场景识别的真实标签，p_si为场景识别的softmax输出概率值：

所述步骤S7，包括如下步骤：

步骤S71：输入新的图像数据至多任务学习模型；

步骤S72：输出场景与目标识别的分类结果，场景识别结果为长度为N_se的向量p_S,目标识别结果为长度为N_ob的向量p_O。

一种基于多任务学习的场景与目标识别的装置，其特征是：该装置包括：

图像采集模块，用于利用摄像头、网络资源采集不同场景、目标的图像数据；

图像筛选模块，用于对所述的图像数据进行二次筛选，去除图片质量及画面内容不合要求的图像数据，剩余的图像作为图像样本数据；

图像标记模块，用于对所述的图像样本数据进行手动标签标记，生成目标类别标签及场景类别标签；

多层卷积神经网络模型生成模块，用于构建多层卷积神经网络模型，并对网络参数进行随机初始化；

目标识别预训练模块，用于采用所述图像筛选模块的图像样本数据及所述图像标记模块产生的目标类别标签，对所述多层卷积神经网络模型生成模块构建好的模型进行预训练，得到目标识别模型；

多任务网络分支添加模块，用于基于多任务学习技术，在目标识别模型的特定层加入网络分支，并随机初始化，得到多任务网络；

多任务再训练模块，用于采用图像样本数据及所述图像标记模块产生的场景类别标签、目标类别标签，对所述多任务网络分支添加模块产生的多任务网络进行再训练，直至收敛，得到多任务学习模型；

场景与目标识别输出模块，用于输入新的图像至所述多任务再训练模块训练好的多任务网络，得到图像的场景及目标识别的分类结果。

本发明的有益效果是：本发明可对图片或视频流中的图像数据进行场景、目标一体化识别分类，有效利用两者之间的关联信息，提高场景与目标识别的准确率。

本发明相比于现有的场景识别与目标识别的技术，本发明具有以下几个优点：

1、本发明融合场景识别与目标识别两个任务，可以同时实现图像隶属场景与目标类别的一体化识别。

2、本发明引入多任务学习技术，作为一种正则化手段，可以同时提升目标识别、场景识别的单任务识别精度。

3、本发明在目标识别模型的基础上添加不同层的网络分支，共享的部分网络权值可以有效利用场景与目标之间的关联信息，实现目标识别与场景识别之间的迁移学习，保证了识别的性能。

附图说明

图1是本发明基于多任务学习的场景与目标识别的方法的流程图；

图2是本发明卷积神经网络的模型图；

图3是本发明多任务学习卷积神经网络的模型图；

图4本发明实施例提供的基于多任务学习的场景与目标识别的装置的框架图。

图中，1、图像采集模块；2、图像筛选模块；3、图像标记模块；4、多层卷积神经网络模型生成模块；5、目标识别预训练模块；6、多任务网络分支添加模块；7、多任务再训练模块；8、场景与目标识别输出模块。

具体实施方式

为使本技术领域的人员更好地理解本发明实施例中的技术方案，并使本发明实施例的上述目的、特征和优点能够更加清晰易懂，下面结合附图对本发明实施例中技术方案作进一步详细的说明。所说明的实施例仅用于说明本发明的技术方案，并未限定本发明。

实施例1

如图1所示，一种基于多任务学习的场景与目标识别的方法，该方法包括如下步骤：

步骤S1：采集包含不同场景、目标的图片为图像样本数据；

步骤S3：构建多层卷积神经网络模型，进行网络初始化；

实施例2

步骤S1：采集包含不同场景、目标的图片为图像样本数据；包括如下步骤：

步骤S12：图像筛选步骤，对所述的图像数据进行二次筛选，去除图片质量及画面内容不合要求的图像数据，剩余图像的图像数据作为图像样本数据。剩余图像≥3000张。优选地，剩余图像≥20000张。

步骤S2：对图像样本数据进行手动标签标记，得到目标类别标签及场景类别标签；包括如下步骤：

步骤S21：目标类别标记，为每副图像标记N_ob个目标类别标签，存储为长度为N_ob的多值向量，所述N_ob≥80；优选地，N_ob设为1000；

步骤S22：场景类别标记，为每幅图像标记N_se个场景类别标签，存储为长度为N_se的单值向量；所述N_se≥20；优选地，N_se设为100。

步骤S3：构建多层卷积神经网络模型，进行网络初始化；具体为卷积神经网络模型搭建及卷积神经网络模型初始化；

其中，所述O_con∈[10,20],O_pool∈[2,8],O_fc∈[1,5]，okn_i∈[64,512]，oks_i∈[1,9]且为奇数，okb_i∈[1,5]且okb_i≦oks_i，ops_i∈[1,5]，opb_i∈[1,5]且opb_i≦ops_i。

如图2所示，所述卷积神经网络包括：

第五池化层OP5，采用最大池化法，池化核的大小为ops_5*ops_5,步长为opb_5；

第三全连接层OF3，包含N_ob个神经元，采用softmax函数，输出为N_ob个目标类别对应的概率值O。

其中，Width和Height分别为输入图像的宽度和高度，Width∈[50,1680]，Height∈[50,1050]，优选地，Width设为224，Height设为224。优选地，okn_1设为64，oks_1设为3，okb_1设为1。okn_2设为64，oks_2设为3，okb_2设为1。ops_1设为2，opb_1设为2。okn_3设为128，oks_3设为3，okb_3设为1。okn_4设为128，oks_4设为3，okb_2设为1。ops_2设为2，opb_2设为2。okn_5设为256，oks_5设为3，okb_5设为1。okn_6设为256，oks_6设为3，okb_6设为1。okn_7设为256，oks_7设为3，okb_7设为1。ops_3设为2，opb_3设为2。okn_8设为512，oks_8设为3，okb_8设为1。okn_9设为512，oks_9设为3，okb_9设为1。okn_10设为512，oks_10设为3，okb_10设为1。ops_4设为2，opb_4设为2。okn_11设为512，oks_11设为3，okb_11设为1。okn_12设为512，oks_12设为3，okb_12设为1。okn_13设为512，oks_13设为3，okb_13设为1。ops_5设为2，opb_5设为2。of_1∈[1024,4096]，优选地，of_1设为4096。of_d1∈[0,1]，优选地，of_d1设为0.5。of_2∈[1024,4096]，优选地，of_2设为4096。of_d2∈[0,1]，优选地，of_d2设为0.5。

所述池化层中的最大池化法可以替换为平均池化法。

所述卷积层中的ReLU激活函数可以替换为LReLU，PReLU。

步骤S4：采用图像样本数据及对应的目标类别标签，对构建好的模型进行预训练，直至收敛，得到目标识别模型；包括如下步骤：

步骤S5：基于多任务学习技术，在目标识别模型的特定层加入网络分支，并随机初始化，得到多任务网络；包括如下步骤：

如图3所示，所述新的网络分支包括：

第一新卷积层SC1，添加在第一池化层OP1之后，包含skn_1个卷积核，卷积核的大小为sks_1*sks_1，步长为skb_1，零填充参数设为1，采用ReLU激活函数；

第一新池化层SP1，添加在第一新卷积层SC1之后，采用最大池化法，池化核的大小为sps_1*sps_1,步长为spb_1；

第二新卷积层SC2，添加在第二池化层OP2之后，包含skn_2个卷积核，卷积核的大小为sks_2*sks_2，步长为skb_2，零填充参数设为1，采用ReLU激活函数；

第三新卷积层SC3，添加在第一新池化层SP1、第二新卷积层SC2、第三池化层OP3、第十卷积层OC10之后，包含skn_3个卷积核，卷积核的大小为sks_3*sks_3，步长为skb_3，零填充参数设为1，采用ReLU激活函数；

第一新全连接层SF1，添加在第三新卷积层SC3之后，包含sf_1个神经元，采用ReLU激活函数；

第二新全连接层SF2，添加在第一新全连接层SF1之后，包含sf_2个神经元，采用ReLU激活函数；

第三新全连接层SF3，添加在第二新全连接层SF2之后，包含N_se个神经元，采用softmax函数，输出为N_se个场景类别对应的概率值S。

其中，所述skn_i∈[64,256]，(i＝1,2,3)。sks_i∈[1,7]，(i＝1,2,3)。skb_i∈[1,5]，(i＝1,2,3)。优选地，skn_1设为128，sks_设为3，skb_1设为2。sps_1∈[1,5]，spb_1∈[1,5]。优选地，sps_1设为2，spb_1设为2。优选地，skn_2设为128，sks_2设为3，skb_2设为2。skn_3设为512，sks_3设为1，skb_3设为1。sf_1∈[512,4096]。优选地，sf_1设为2048。sf_2∈[512,4096]。优选地，sf_2设为512。

所述新池化层中的最大池化法可以替换为平均池化法。

所述新卷积层中的ReLU激活函数可以替换为LReLU，PReLU等。

步骤S6：采用图像样本数据及对应的场景类别标签、目标类别标签，对多任务网络进行再训练，直至收敛，得到多任务学习模型；所述步骤S6，包括如下步骤：

所述代价函数L为场景识别的softmax代价函数Lo与目标识别的softmax代价函数Ls之和，其公式如下，其中O_i为目标识别的真实标签，p_oi为目标识别的softmax输出概率值，S_i为场景识别的真实标签，p_si为场景识别的softmax输出概率值：

步骤S62：模型再训练步骤，用所述的再训练参数，采用图像样本数据及所有类别标签对卷积神经网络进行再训练，直至收敛，得到训练好的多任务学习模型。所有类别标签是指目标类别标签和场景类别标签。

步骤S7：输入新的图像数据至多任务学习模型，得到图像的场景及目标识别的分类结果；包括如下步骤：

步骤S71：输入新的图像数据至多任务学习模型；

步骤S72：输出场景与目标识别的分类结果，场景识别结果为长度为N_se的向量S,目标识别结果为长度为N_ob的向量O。

如图4所示，一种基于多任务学习的场景与目标识别的装置，其特征是：该装置包括：

图像采集模块1，用于利用摄像头、网络资源采集不同场景、目标的图像数据；

图像筛选模块2，用于对所述的图像数据进行二次筛选，去除图片质量及画面内容不合要求的图像数据，剩余图像的图像数据作为图像样本数据；

图像标记模块3，用于对所述的图像样本数据进行手动标签标记，生成目标类别标签及场景类别标签；其中：图像标记模块3包括：目标类别标记模块和场景类别标记模块；

目标类别标记模块用于为每副图像标记N_ob个目标类别标签，存储为长度为N_ob的多值向量。所述N_ob≥80。优选地，N_ob设为1000；

场景类别标记模块，为每幅图像标记N_se个场景类别标签，存储为长度为N_se的单值向量。所述N_se≥20。优选地，N_se设为100。

多层卷积神经网络模型生成模块4，用于构建多层卷积神经网络模型，并对网络参数进行随机初始化；

多层卷积神经网络模型生成模块4包括：卷积神经网络模型搭建模块及卷积神经网络模型初始化模块；

目标识别预训练模块5，用于采用所述图像筛选模块的图像样本数据及所述图像标记模块产生的目标类别标签，对所述多层卷积神经网络模型生成模块构建好的模型进行预训练，得到目标识别模型；目标识别预训练模块5包括：预训练参数设置模块和模型预训练模块。其中，预训练参数设置模块，用于设定预训练过程中的参数值，使用随机梯度下降法进行网络训练；模型预训练模块，用于基于预训练参数设置模块设定的预训练参数，采用图像样本数据及目标类别标签对卷积神经网络进行预训练，直至收敛。

多任务网络分支添加模块6，用于基于多任务学习技术，在目标识别模型的特定层加入网络分支，并随机初始化，得到多任务网络；多任务网络分支添加模块6包括网络分支添加模块和网络分支初始化模块；

网络分支添加模块，用于在预训练模型的第一池化层OP1，第二池化层OP2，第三池化层OP3，第十卷积层OC10的输出之后添加新的网络分支；

网络分支初始化模块，用于对添加的新的网络分支中的参数进行初始化，采用随机初始化策略。

多任务再训练模块7，用于采用图像样本数据及所述图像标记模块产生的场景类别标签、目标类别标签，对所述多任务网络分支添加模块产生的多任务网络进行再训练，直至收敛，得到多任务学习模型；多任务再训练模块7包括：再训练参数设置模块和模型再训练模块；

再训练参数设置模块，用于设定再训练过程中的参数值，使用随机梯度下降法进行网络训练，其学习速率设置为lr_n，动量项设置为mo_n，学习速率的衰减系数设置为dc_n，训练所用的代价函数融合了目标与场景两个任务的误差。其中，lr_n设为0.01，mo_n设为0.9，dc_n设为10；

模型再训练模块，用于基于再训练参数设置模块设定的再训练参数，采用图像样本数据及所有类别标签对卷积神经网络进行再训练，直至收敛，得到训练好的多任务学习模型。

场景与目标识别输出模块8，用于输入新的图像至所述多任务再训练模块训练好的多任务网络，得到图像的场景及目标识别的分类结果。场景与目标识别输出模块8包括：图像输入模块和识别结果输出模块。

图像输入模块，用于输入新的图像数据至多任务学习模型，新图像格式可是JPEG，RMP等，不做限定；

识别结果输出模块，用于输出场景及目标识别的分类结果，场景识别结果为长度为N_se的向量p_S,目标识别结果为为长度为N_ob的向量p_O。

与现有的场景识别与目标识别的技术相比，本发明通过构建单个深度模型实现目标与场景的一体化高精度识别。本发明引入了多任务学习技术，既可以作为一种正则化手段，提升单任务识别的精度，又可以隐式利用目标识别的结果及二者之间的关联信息，通过在目标识别模型的基础上构建不同层的网络分支，有效整合全局及局部的多层次、多维度特征，实现多任务之间的迁移学习，从而同时解决场景与目标识别问题，实现高精度、一体化的识别。

实施例没有详细叙述的部件和结构及模块均属本行业的公知部件和常用结构或常用手段，这里不一一叙述。

Claims

1.一种基于多任务学习的场景与目标识别的方法，其特征是：该方法包括如下步骤：

步骤S1：采集包含不同场景、目标的图片为图像样本数据；

步骤S3：构建多层卷积神经网络模型，进行网络初始化；

2.根据权利要求1所述的一种基于多任务学习的场景与目标识别的方法，其特征是：所述步骤S1，包括如下步骤：

3.根据权利要求1所述的一种基于多任务学习的场景与目标识别的方法，其特征是：所述步骤S2，包括如下步骤：

4.根据权利要求1所述的一种基于多任务学习的场景与目标识别的方法，其特征是：所述步骤S3具体为卷积神经网络模型搭建及卷积神经网络模型初始化；

所述卷积神经网络包括：

5.根据权利要求1所述的一种基于多任务学习的场景与目标识别的方法，其特征是：所述步骤S4，包括如下步骤：

6.根据权利要求1所述的一种基于多任务学习的场景与目标识别的方法，其特征是：所述步骤S5，包括如下步骤：

7.根据权利要求1所述的一种基于多任务学习的场景与目标识别的方法，其特征是：所述步骤S6，包括如下步骤：

8.根据权利要求7所述的一种基于多任务学习的场景与目标识别的方法，其特征是：所述代价函数L为场景识别的softmax代价函数Lo与目标识别的softmax代价函数Ls之和，其公式如下，其中O_i为目标识别的真实标签，p_oi为目标识别的softmax输出概率值，S_i为场景识别的真实标签，p_si为场景识别的softmax输出概率值：

L = L_{o} + L_{s} = Σ_{i = 1}^{N_o b} - O_{i} \log (p_{o i}) + Σ_{i = 1}^{N_s e} - S_{i} \log (p_{s i})

9.根据权利要求1所述的一种基于多任务学习的场景与目标识别的方法，其特征是：所述步骤S7，包括如下步骤：

步骤S71：输入新的图像数据至多任务学习模型；

10.一种基于多任务学习的场景与目标识别的装置，其特征是：该装置包括：

图像采集模块(1)，用于利用摄像头、网络资源采集不同场景、目标的图像数据；

图像筛选模块(2)，用于对所述的图像数据进行二次筛选，去除图片质量及画面内容不合要求的图像数据，剩余图像的图像数据作为图像样本数据；

图像标记模块(3)，用于对所述的图像样本数据进行手动标签标记，生成目标类别标签及场景类别标签；

多层卷积神经网络模型生成模块(4)，用于构建多层卷积神经网络模型，并对网络参数进行随机初始化；

目标识别预训练模块(5)，用于采用所述图像筛选模块的图像样本数据及所述图像标记模块产生的目标类别标签，对所述多层卷积神经网络模型生成模块构建好的模型进行预训练，得到目标识别模型；

多任务网络分支添加模块(6)，用于基于多任务学习技术，在目标识别模型的特定层加入网络分支，并随机初始化，得到多任务网络；

多任务再训练模块(7)，用于采用图像样本数据及所述图像标记模块产生的场景类别标签、目标类别标签，对所述多任务网络分支添加模块产生的多任务网络进行再训练，直至收敛，得到多任务学习模型；

场景与目标识别输出模块(8)，用于输入新的图像至所述多任务再训练模块训练好的多任务网络，得到图像的场景及目标识别的分类结果。