CN106845549A - 一种基于多任务学习的场景与目标识别的方法及装置 - Google Patents
一种基于多任务学习的场景与目标识别的方法及装置 Download PDFInfo
- Publication number
- CN106845549A CN106845549A CN201710054400.4A CN201710054400A CN106845549A CN 106845549 A CN106845549 A CN 106845549A CN 201710054400 A CN201710054400 A CN 201710054400A CN 106845549 A CN106845549 A CN 106845549A
- Authority
- CN
- China
- Prior art keywords
- oks
- target
- convolution kernel
- scene
- length
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/192—Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
- G06V30/194—References adjustable by an adaptive method, e.g. learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于多任务学习的场景与目标识别的方法及装置,该方法包括:采集包含不同场景、目标的图片为图像样本数据;对图像样本数据进行手动标签标记,得到目标类别标签及场景类别标签;构建多层卷积神经网络模型,进行网络初始化;采用图像样本数据及对应的目标类别标签,对构建好的模型进行预训练,直至收敛,得到目标识别模型;基于多任务学习技术,在目标识别模型的特定层加入网络分支,并随机初始化,得到多任务网络;采用图像样本数据及对应的场景类别标签、目标类别标签,对多任务网络进行再训练,直至收敛,得到多任务学习模型;输入新的图像数据至多任务学习模型,得到图像的场景及目标识别的分类结果。它提升单任务识别精度。
Description
技术领域
本发明涉及视觉、图像识别与深度学习领域的结合,特别涉及一种基于多任务学习的场景与目标识别的方法及装置。
背景技术
随着深度学习的兴起,越来越多的技术采用深度学习来实现图片或视频流的图像识别。相比于传统方法,深度学习避免了手动参数调节与人工特征选择的复杂性,通过搭建深层网络模型,对数据进行多层分析和抽象化特征提取,其具有高准确性、高可靠性、高适应性的特点。常见的图像识别应用涵盖了动作识别、人脸识别、目标识别、场景识别等。其中,目标识别与场景识别作为图像检索、图像分类、场景理解、环境感知的基础,在模式识别、机器学习等领域发挥着重要作用。
目标识别提取图像不同区域的局部特征,识别图像中物体位置及具体类别信息,与物体出现的场景环境无直接关系;场景识别通过挖掘图像中的场景特征,自动判别图像所隶属的场景类别,其识别结果不涉及具体的目标。由于场景类别是由图片中的目标、背景环境、空间布局等定义,图片中包含的目标信息可以为场景识别提供一定的依据,如床与卧室、树木与森林存在着很强的相关性,可以作为特定场景的特征。现有的场景识别按照其对目标信息的利用程度可以分为以下两类:
1)基于目标的场景识别
基于目标的场景识别级联目标识别与场景分类两个步骤。首先针对图像进行目标检测及类别识别,通过构建场景与目标类别之间的关键字匹配库,对目标识别的结果进行关联匹配,从而实现目标所隶属场景类别的划分。基于目标的场景识别可以有效利用目前发展较为成熟的目标识别技术及目标与场景之间的关联关系。然而,目标识别的引入和关键字匹配库的人工构建也为识别带来了二次误差,且识别到的目标与场景所属类别不一定完全相关,某些场景可能并不存在特征目标。因此,完全依赖目标类别的场景识别应用范围小,其准确率难以得到保证。
2)基于整体的场景识别
基于整体的场景识别将整副图像作为一个整体直接进行判定,通过提取图像的特征(如颜色、纹理等传统的图像特征,或基于深度学习提取的抽象特征)来获取整幅图像的特征向量,进而实现场景的识别分类。然而,由于场景与目标、背景环境、空间布局等多层信息相关,同一类别的场景特征具有很强的变化性,而不同类别的场景特征可能存在相似点相互重叠,从而为精准识别带来了极大的挑战。目前,采用前沿深度学习技术的基于整体的场景识别也只能达到50%左右的top-1准确率,难以在实际应用中发挥有效作用。
发明内容
基于现有技术存在的瓶颈问题,本发明提供了一种基于多任务学习的场景与目标识别的方法及装置,通过构建单个深度模型实现目标与场景的一体化高精度识别。
本发明的技术方案是:一种基于多任务学习的场景与目标识别的方法,其特征是:该方法包括如下步骤:
步骤S1:采集包含不同场景、目标的图片为图像样本数据;
步骤S2:对图像样本数据进行手动标签标记,得到目标类别标签及场景类别标签;
步骤S3:构建多层卷积神经网络模型,进行网络初始化;
步骤S4:采用图像样本数据及对应的目标类别标签,对构建好的模型进行预训练,直至收敛,得到目标识别模型;
步骤S5:基于多任务学习技术,在目标识别模型的特定层加入网络分支,并随机初始化,得到多任务网络;
步骤S6:采用图像样本数据及对应的场景类别标签、目标类别标签,对多任务网络进行再训练,直至收敛,得到多任务学习模型;
步骤S7:输入新的图像数据至多任务学习模型,得到图像的场景及目标识别的分类结果。
所述步骤S1,包括如下步骤:
步骤S11:图像采集步骤,利用摄像头、网络资源采集不同场景、目标的图像数据;
步骤S12:图像筛选步骤,对所述的图像数据进行二次筛选,去除图片质量及画面内容不合要求的图像数据,剩余图像的图像数据作为图像样本数据。
所述步骤S2,包括如下步骤:
步骤S21:目标类别标记,为每副图像标记N_ob个目标类别标签,存储为长度为N_ob的多值向量,所述N_ob≥80;
步骤S22:场景类别标记,为每幅图像标记N_se个场景类别标签,存储为长度为N_se的单值向量;所述N_se≥20。
所述步骤S3具体为卷积神经网络模型搭建及卷积神经网络模型初始化;
所述卷积神经网络模型包括:一个输入数据层、O_con个卷积层、O_pool个池化层、O_fc个全连接层;其中,每层卷积层包含卷积核,第i个卷积层包含okn_i个卷积核,卷积核的大小为oks_i*oks_i,步长为okb_i;每层池化层采用最大池化法,池化核的大小为ops_i*ops_i,步长为opb_i;所述输入数据层的神经元个数为图像3个通道的像素点数;所述全连接层的最后一层输出的神经元数量N_ob为识别的目标总类别数;所述卷积神经网络模型初始化采用随机初始化法;
所述卷积神经网络包括:
输入数据层,输入RGB三通道彩色图像,图像尺寸为Width*Height;
第一卷积层OC1,包含okn_1个卷积核,卷积核的大小为oks_1*oks_1,步长为okb_1,零填充参数设为1,采用ReLU激活函数;
第二卷积层OC2,包含okn_2个卷积核,卷积核的大小为oks_2*oks_2,步长为okb_2,零填充参数设为1,采用ReLU激活函数;
第一池化层OP1,采用最大池化法,池化核的大小为ops_1*ops_1,步长为opb_1;
第三卷积层OC3,包含okn_3个卷积核,卷积核的大小为oks_3*oks_3,步长为okb_3,零填充参数设为1,采用ReLU激活函数;
第四卷积层OC4,包含okn_4个卷积核,卷积核的大小为oks_4*oks_4,步长为okb_4,零填充参数设为1,采用ReLU激活函数;
第二池化层OP2,采用最大池化法,池化核的大小为ops_2*ops_2,步长为opb_2;
第五卷积层OC5,包含okn_5个卷积核,卷积核的大小为oks_5*oks_5,步长为okb_5,零填充参数设为1,采用ReLU激活函数;
第六卷积层OC6,包含okn_6个卷积核,卷积核的大小为oks_6*oks_6,步长为okb_6,零填充参数设为1,采用ReLU激活函数;
第七卷积层OC7,包含okn_7个卷积核,卷积核的大小为oks_7*oks_7,步长为okb_7,零填充参数设为1,采用ReLU激活函数;
第三池化层OP3,采用最大池化法,池化核的大小为ops_3*ops_3,步长为opb_3;
第八卷积层OC8,包含okn_8个卷积核,卷积核的大小为oks_8*oks_8,步长为okb_8,零填充参数设为1,采用ReLU激活函数;
第九卷积层OC9,包含okn_9个卷积核,卷积核的大小为oks_9*oks_9,步长为okb_9,零填充参数设为1,采用ReLU激活函数;
第十卷积层OC10,包含okn_10个卷积核,卷积核的大小为oks_10*oks_10,步长为okb_10,零填充参数设为1,采用ReLU激活函数;
第四池化层OP4,采用最大池化法,池化核的大小为ops_4*ops_4,步长为opb_4;
第十一卷积层OC11,包含okn_11个卷积核,卷积核的大小为oks_11*oks_11,步长为okb_11,零填充参数设为1,采用ReLU激活函数;
第十二卷积层OC12,包含okn_12个卷积核,卷积核的大小为oks_12*oks_12,步长为okb_12,零填充参数设为1,采用ReLU激活函数;
第十三卷积层OC13,包含okn_13个卷积核,卷积核的大小为oks_13*oks_13,步长为okb_13,零填充参数设为1,采用ReLU激活函数;
第五池化层OP5,采用最大池化法,池化核的大小为ops_5*ops_5,步长为opb_5。
第一全连接层OF1,包含of_1个神经元,采用ReLU激活函数,采用dropout机制,dropout比例设置为of_d1;
第二全连接层OF2,包含of_2个神经元,采用ReLU激活函数,采用dropout机制,dropout比例设置为of_d2;
第三全连接层OF3,包含N_ob个神经元,采用softmax函数,输出为N_ob个目标类别对应的概率值O;
其中,所述O_con∈[10,20],O_pool∈[2,8],O_fc∈[1,5],okn_i∈[64,512],oks_i∈[1,9]且为奇数,okb_i∈[1,5]且okb_i≦oks_i,ops_i∈[1,5],opb_i∈[1,5]且opb_i≦ops_i;Width和Height分别为输入图像的宽度和高度,Width∈[50,1680],Height∈[50,1050],of_1∈[1024,4096],of_d1∈[0,1],of_2∈[1024,4096],of_d2∈[0,1]。
所述步骤S4,包括如下步骤:
步骤S41:预训练参数设置步骤,使用随机梯度下降法进行网络训练,其学习速率设置为lr,动量项设置为mo,学习速率的衰减系数设置为dc;其中,lr设为0.01,mo设为0.9,dc设为10;
步骤S42:模型预训练步骤,用所述的预训练参数,采用图像样本数据及目标类别标签对卷积神经网络进行预训练,直至收敛,得到目标识别模型。
所述步骤S5,包括如下步骤:
步骤S51:添加网络分支,在目标识别模型的第一池化层OP1,第二池化层OP2,第三池化层OP3,第十卷积层OC10的输出之后添加新的网络分支;
步骤S52:网络分支初始化,对添加的新的网络分支中的参数进行初始化,采用随机初始化策略。
所述步骤S6,包括如下步骤:
步骤S61:再训练参数设置,使用随机梯度下降法进行网络训练,其学习速率设置为lr_n,动量项设置为mo_n,学习速率的衰减系数设置为dc_n,训练所用的代价函数L融合了目标与场景两个任务的误差;其中,lr_n设为0.01,mo_n设为0.9,dc_n设为10;
步骤S62:模型再训练步骤,用所述的再训练参数,采用图像样本数据及所有类别标签对卷积神经网络进行再训练,直至收敛,得到训练好的多任务学习模型。
所述代价函数L为场景识别的交叉熵代价函数Lo与目标识别的交叉熵代价函数Ls之和,其公式如下,其中Oi为目标识别的真实标签,poi为目标识别的softmax输出概率值,Si为场景识别的真实标签,psi为场景识别的softmax输出概率值:
所述步骤S7,包括如下步骤:
步骤S71:输入新的图像数据至多任务学习模型;
步骤S72:输出场景与目标识别的分类结果,场景识别结果为长度为N_se的向量pS,目标识别结果为长度为N_ob的向量pO。
一种基于多任务学习的场景与目标识别的装置,其特征是:该装置包括:
图像采集模块,用于利用摄像头、网络资源采集不同场景、目标的图像数据;
图像筛选模块,用于对所述的图像数据进行二次筛选,去除图片质量及画面内容不合要求的图像数据,剩余的图像作为图像样本数据;
图像标记模块,用于对所述的图像样本数据进行手动标签标记,生成目标类别标签及场景类别标签;
多层卷积神经网络模型生成模块,用于构建多层卷积神经网络模型,并对网络参数进行随机初始化;
目标识别预训练模块,用于采用所述图像筛选模块的图像样本数据及所述图像标记模块产生的目标类别标签,对所述多层卷积神经网络模型生成模块构建好的模型进行预训练,得到目标识别模型;
多任务网络分支添加模块,用于基于多任务学习技术,在目标识别模型的特定层加入网络分支,并随机初始化,得到多任务网络;
多任务再训练模块,用于采用图像样本数据及所述图像标记模块产生的场景类别标签、目标类别标签,对所述多任务网络分支添加模块产生的多任务网络进行再训练,直至收敛,得到多任务学习模型;
场景与目标识别输出模块,用于输入新的图像至所述多任务再训练模块训练好的多任务网络,得到图像的场景及目标识别的分类结果。
本发明的有益效果是:本发明可对图片或视频流中的图像数据进行场景、目标一体化识别分类,有效利用两者之间的关联信息,提高场景与目标识别的准确率。
本发明相比于现有的场景识别与目标识别的技术,本发明具有以下几个优点:
1、本发明融合场景识别与目标识别两个任务,可以同时实现图像隶属场景与目标类别的一体化识别。
2、本发明引入多任务学习技术,作为一种正则化手段,可以同时提升目标识别、场景识别的单任务识别精度。
3、本发明在目标识别模型的基础上添加不同层的网络分支,共享的部分网络权值可以有效利用场景与目标之间的关联信息,实现目标识别与场景识别之间的迁移学习,保证了识别的性能。
附图说明
图1是本发明基于多任务学习的场景与目标识别的方法的流程图;
图2是本发明卷积神经网络的模型图;
图3是本发明多任务学习卷积神经网络的模型图;
图4本发明实施例提供的基于多任务学习的场景与目标识别的装置的框架图。
图中,1、图像采集模块;2、图像筛选模块;3、图像标记模块;4、多层卷积神经网络模型生成模块;5、目标识别预训练模块;6、多任务网络分支添加模块;7、多任务再训练模块;8、场景与目标识别输出模块。
具体实施方式
为使本技术领域的人员更好地理解本发明实施例中的技术方案,并使本发明实施例的上述目的、特征和优点能够更加清晰易懂,下面结合附图对本发明实施例中技术方案作进一步详细的说明。所说明的实施例仅用于说明本发明的技术方案,并未限定本发明。
实施例1
如图1所示,一种基于多任务学习的场景与目标识别的方法,该方法包括如下步骤:
步骤S1:采集包含不同场景、目标的图片为图像样本数据;
步骤S2:对图像样本数据进行手动标签标记,得到目标类别标签及场景类别标签;
步骤S3:构建多层卷积神经网络模型,进行网络初始化;
步骤S4:采用图像样本数据及对应的目标类别标签,对构建好的模型进行预训练,直至收敛,得到目标识别模型;
步骤S5:基于多任务学习技术,在目标识别模型的特定层加入网络分支,并随机初始化,得到多任务网络;
步骤S6:采用图像样本数据及对应的场景类别标签、目标类别标签,对多任务网络进行再训练,直至收敛,得到多任务学习模型;
步骤S7:输入新的图像数据至多任务学习模型,得到图像的场景及目标识别的分类结果。
实施例2
如图1所示,一种基于多任务学习的场景与目标识别的方法,该方法包括如下步骤:
步骤S1:采集包含不同场景、目标的图片为图像样本数据;包括如下步骤:
步骤S11:图像采集步骤,利用摄像头、网络资源采集不同场景、目标的图像数据;
步骤S12:图像筛选步骤,对所述的图像数据进行二次筛选,去除图片质量及画面内容不合要求的图像数据,剩余图像的图像数据作为图像样本数据。剩余图像≥3000张。优选地,剩余图像≥20000张。
步骤S2:对图像样本数据进行手动标签标记,得到目标类别标签及场景类别标签;包括如下步骤:
步骤S21:目标类别标记,为每副图像标记N_ob个目标类别标签,存储为长度为N_ob的多值向量,所述N_ob≥80;优选地,N_ob设为1000;
步骤S22:场景类别标记,为每幅图像标记N_se个场景类别标签,存储为长度为N_se的单值向量;所述N_se≥20;优选地,N_se设为100。
步骤S3:构建多层卷积神经网络模型,进行网络初始化;具体为卷积神经网络模型搭建及卷积神经网络模型初始化;
所述卷积神经网络模型包括:一个输入数据层、O_con个卷积层、O_pool个池化层、O_fc个全连接层;其中,每层卷积层包含卷积核,第i个卷积层包含okn_i个卷积核,卷积核的大小为oks_i*oks_i,步长为okb_i;每层池化层采用最大池化法,池化核的大小为ops_i*ops_i,步长为opb_i;所述输入数据层的神经元个数为图像3个通道的像素点数;所述全连接层的最后一层输出的神经元数量N_ob为识别的目标总类别数;所述卷积神经网络模型初始化采用随机初始化法;
其中,所述O_con∈[10,20],O_pool∈[2,8],O_fc∈[1,5],okn_i∈[64,512],oks_i∈[1,9]且为奇数,okb_i∈[1,5]且okb_i≦oks_i,ops_i∈[1,5],opb_i∈[1,5]且opb_i≦ops_i。
如图2所示,所述卷积神经网络包括:
输入数据层,输入RGB三通道彩色图像,图像尺寸为Width*Height;
第一卷积层OC1,包含okn_1个卷积核,卷积核的大小为oks_1*oks_1,步长为okb_1,零填充参数设为1,采用ReLU激活函数;
第二卷积层OC2,包含okn_2个卷积核,卷积核的大小为oks_2*oks_2,步长为okb_2,零填充参数设为1,采用ReLU激活函数;
第一池化层OP1,采用最大池化法,池化核的大小为ops_1*ops_1,步长为opb_1;
第三卷积层OC3,包含okn_3个卷积核,卷积核的大小为oks_3*oks_3,步长为okb_3,零填充参数设为1,采用ReLU激活函数;
第四卷积层OC4,包含okn_4个卷积核,卷积核的大小为oks_4*oks_4,步长为okb_4,零填充参数设为1,采用ReLU激活函数;
第二池化层OP2,采用最大池化法,池化核的大小为ops_2*ops_2,步长为opb_2;
第五卷积层OC5,包含okn_5个卷积核,卷积核的大小为oks_5*oks_5,步长为okb_5,零填充参数设为1,采用ReLU激活函数;
第六卷积层OC6,包含okn_6个卷积核,卷积核的大小为oks_6*oks_6,步长为okb_6,零填充参数设为1,采用ReLU激活函数;
第七卷积层OC7,包含okn_7个卷积核,卷积核的大小为oks_7*oks_7,步长为okb_7,零填充参数设为1,采用ReLU激活函数;
第三池化层OP3,采用最大池化法,池化核的大小为ops_3*ops_3,步长为opb_3;
第八卷积层OC8,包含okn_8个卷积核,卷积核的大小为oks_8*oks_8,步长为okb_8,零填充参数设为1,采用ReLU激活函数;
第九卷积层OC9,包含okn_9个卷积核,卷积核的大小为oks_9*oks_9,步长为okb_9,零填充参数设为1,采用ReLU激活函数;
第十卷积层OC10,包含okn_10个卷积核,卷积核的大小为oks_10*oks_10,步长为okb_10,零填充参数设为1,采用ReLU激活函数;
第四池化层OP4,采用最大池化法,池化核的大小为ops_4*ops_4,步长为opb_4;
第十一卷积层OC11,包含okn_11个卷积核,卷积核的大小为oks_11*oks_11,步长为okb_11,零填充参数设为1,采用ReLU激活函数;
第十二卷积层OC12,包含okn_12个卷积核,卷积核的大小为oks_12*oks_12,步长为okb_12,零填充参数设为1,采用ReLU激活函数;
第十三卷积层OC13,包含okn_13个卷积核,卷积核的大小为oks_13*oks_13,步长为okb_13,零填充参数设为1,采用ReLU激活函数;
第五池化层OP5,采用最大池化法,池化核的大小为ops_5*ops_5,步长为opb_5;
第一全连接层OF1,包含of_1个神经元,采用ReLU激活函数,采用dropout机制,dropout比例设置为of_d1;
第二全连接层OF2,包含of_2个神经元,采用ReLU激活函数,采用dropout机制,dropout比例设置为of_d2;
第三全连接层OF3,包含N_ob个神经元,采用softmax函数,输出为N_ob个目标类别对应的概率值O。
其中,Width和Height分别为输入图像的宽度和高度,Width∈[50,1680],Height∈[50,1050],优选地,Width设为224,Height设为224。优选地,okn_1设为64,oks_1设为3,okb_1设为1。okn_2设为64,oks_2设为3,okb_2设为1。ops_1设为2,opb_1设为2。okn_3设为128,oks_3设为3,okb_3设为1。okn_4设为128,oks_4设为3,okb_2设为1。ops_2设为2,opb_2设为2。okn_5设为256,oks_5设为3,okb_5设为1。okn_6设为256,oks_6设为3,okb_6设为1。okn_7设为256,oks_7设为3,okb_7设为1。ops_3设为2,opb_3设为2。okn_8设为512,oks_8设为3,okb_8设为1。okn_9设为512,oks_9设为3,okb_9设为1。okn_10设为512,oks_10设为3,okb_10设为1。ops_4设为2,opb_4设为2。okn_11设为512,oks_11设为3,okb_11设为1。okn_12设为512,oks_12设为3,okb_12设为1。okn_13设为512,oks_13设为3,okb_13设为1。ops_5设为2,opb_5设为2。of_1∈[1024,4096],优选地,of_1设为4096。of_d1∈[0,1],优选地,of_d1设为0.5。of_2∈[1024,4096],优选地,of_2设为4096。of_d2∈[0,1],优选地,of_d2设为0.5。
所述池化层中的最大池化法可以替换为平均池化法。
所述卷积层中的ReLU激活函数可以替换为LReLU,PReLU。
步骤S4:采用图像样本数据及对应的目标类别标签,对构建好的模型进行预训练,直至收敛,得到目标识别模型;包括如下步骤:
步骤S41:预训练参数设置步骤,使用随机梯度下降法进行网络训练,其学习速率设置为lr,动量项设置为mo,学习速率的衰减系数设置为dc;其中,lr设为0.01,mo设为0.9,dc设为10;
步骤S42:模型预训练步骤,用所述的预训练参数,采用图像样本数据及目标类别标签对卷积神经网络进行预训练,直至收敛,得到目标识别模型。
步骤S5:基于多任务学习技术,在目标识别模型的特定层加入网络分支,并随机初始化,得到多任务网络;包括如下步骤:
步骤S51:添加网络分支,在目标识别模型的第一池化层OP1,第二池化层OP2,第三池化层OP3,第十卷积层OC10的输出之后添加新的网络分支;
步骤S52:网络分支初始化,对添加的新的网络分支中的参数进行初始化,采用随机初始化策略。
如图3所示,所述新的网络分支包括:
第一新卷积层SC1,添加在第一池化层OP1之后,包含skn_1个卷积核,卷积核的大小为sks_1*sks_1,步长为skb_1,零填充参数设为1,采用ReLU激活函数;
第一新池化层SP1,添加在第一新卷积层SC1之后,采用最大池化法,池化核的大小为sps_1*sps_1,步长为spb_1;
第二新卷积层SC2,添加在第二池化层OP2之后,包含skn_2个卷积核,卷积核的大小为sks_2*sks_2,步长为skb_2,零填充参数设为1,采用ReLU激活函数;
第三新卷积层SC3,添加在第一新池化层SP1、第二新卷积层SC2、第三池化层OP3、第十卷积层OC10之后,包含skn_3个卷积核,卷积核的大小为sks_3*sks_3,步长为skb_3,零填充参数设为1,采用ReLU激活函数;
第一新全连接层SF1,添加在第三新卷积层SC3之后,包含sf_1个神经元,采用ReLU激活函数;
第二新全连接层SF2,添加在第一新全连接层SF1之后,包含sf_2个神经元,采用ReLU激活函数;
第三新全连接层SF3,添加在第二新全连接层SF2之后,包含N_se个神经元,采用softmax函数,输出为N_se个场景类别对应的概率值S。
其中,所述skn_i∈[64,256],(i=1,2,3)。sks_i∈[1,7],(i=1,2,3)。skb_i∈[1,5],(i=1,2,3)。优选地,skn_1设为128,sks_设为3,skb_1设为2。sps_1∈[1,5],spb_1∈[1,5]。优选地,sps_1设为2,spb_1设为2。优选地,skn_2设为128,sks_2设为3,skb_2设为2。skn_3设为512,sks_3设为1,skb_3设为1。sf_1∈[512,4096]。优选地,sf_1设为2048。sf_2∈[512,4096]。优选地,sf_2设为512。
所述新池化层中的最大池化法可以替换为平均池化法。
所述新卷积层中的ReLU激活函数可以替换为LReLU,PReLU等。
步骤S6:采用图像样本数据及对应的场景类别标签、目标类别标签,对多任务网络进行再训练,直至收敛,得到多任务学习模型;所述步骤S6,包括如下步骤:
步骤S61:再训练参数设置,使用随机梯度下降法进行网络训练,其学习速率设置为lr_n,动量项设置为mo_n,学习速率的衰减系数设置为dc_n,训练所用的代价函数L融合了目标与场景两个任务的误差;其中,lr_n设为0.01,mo_n设为0.9,dc_n设为10;
所述代价函数L为场景识别的softmax代价函数Lo与目标识别的softmax代价函数Ls之和,其公式如下,其中Oi为目标识别的真实标签,poi为目标识别的softmax输出概率值,Si为场景识别的真实标签,psi为场景识别的softmax输出概率值:
步骤S62:模型再训练步骤,用所述的再训练参数,采用图像样本数据及所有类别标签对卷积神经网络进行再训练,直至收敛,得到训练好的多任务学习模型。所有类别标签是指目标类别标签和场景类别标签。
步骤S7:输入新的图像数据至多任务学习模型,得到图像的场景及目标识别的分类结果;包括如下步骤:
步骤S71:输入新的图像数据至多任务学习模型;
步骤S72:输出场景与目标识别的分类结果,场景识别结果为长度为N_se的向量S,目标识别结果为长度为N_ob的向量O。
如图4所示,一种基于多任务学习的场景与目标识别的装置,其特征是:该装置包括:
图像采集模块1,用于利用摄像头、网络资源采集不同场景、目标的图像数据;
图像筛选模块2,用于对所述的图像数据进行二次筛选,去除图片质量及画面内容不合要求的图像数据,剩余图像的图像数据作为图像样本数据;
图像标记模块3,用于对所述的图像样本数据进行手动标签标记,生成目标类别标签及场景类别标签;其中:图像标记模块3包括:目标类别标记模块和场景类别标记模块;
目标类别标记模块用于为每副图像标记N_ob个目标类别标签,存储为长度为N_ob的多值向量。所述N_ob≥80。优选地,N_ob设为1000;
场景类别标记模块,为每幅图像标记N_se个场景类别标签,存储为长度为N_se的单值向量。所述N_se≥20。优选地,N_se设为100。
多层卷积神经网络模型生成模块4,用于构建多层卷积神经网络模型,并对网络参数进行随机初始化;
多层卷积神经网络模型生成模块4包括:卷积神经网络模型搭建模块及卷积神经网络模型初始化模块;
目标识别预训练模块5,用于采用所述图像筛选模块的图像样本数据及所述图像标记模块产生的目标类别标签,对所述多层卷积神经网络模型生成模块构建好的模型进行预训练,得到目标识别模型;目标识别预训练模块5包括:预训练参数设置模块和模型预训练模块。其中,预训练参数设置模块,用于设定预训练过程中的参数值,使用随机梯度下降法进行网络训练;模型预训练模块,用于基于预训练参数设置模块设定的预训练参数,采用图像样本数据及目标类别标签对卷积神经网络进行预训练,直至收敛。
多任务网络分支添加模块6,用于基于多任务学习技术,在目标识别模型的特定层加入网络分支,并随机初始化,得到多任务网络;多任务网络分支添加模块6包括网络分支添加模块和网络分支初始化模块;
网络分支添加模块,用于在预训练模型的第一池化层OP1,第二池化层OP2,第三池化层OP3,第十卷积层OC10的输出之后添加新的网络分支;
网络分支初始化模块,用于对添加的新的网络分支中的参数进行初始化,采用随机初始化策略。
多任务再训练模块7,用于采用图像样本数据及所述图像标记模块产生的场景类别标签、目标类别标签,对所述多任务网络分支添加模块产生的多任务网络进行再训练,直至收敛,得到多任务学习模型;多任务再训练模块7包括:再训练参数设置模块和模型再训练模块;
再训练参数设置模块,用于设定再训练过程中的参数值,使用随机梯度下降法进行网络训练,其学习速率设置为lr_n,动量项设置为mo_n,学习速率的衰减系数设置为dc_n,训练所用的代价函数融合了目标与场景两个任务的误差。其中,lr_n设为0.01,mo_n设为0.9,dc_n设为10;
模型再训练模块,用于基于再训练参数设置模块设定的再训练参数,采用图像样本数据及所有类别标签对卷积神经网络进行再训练,直至收敛,得到训练好的多任务学习模型。
场景与目标识别输出模块8,用于输入新的图像至所述多任务再训练模块训练好的多任务网络,得到图像的场景及目标识别的分类结果。场景与目标识别输出模块8包括:图像输入模块和识别结果输出模块。
图像输入模块,用于输入新的图像数据至多任务学习模型,新图像格式可是JPEG,RMP等,不做限定;
识别结果输出模块,用于输出场景及目标识别的分类结果,场景识别结果为长度为N_se的向量pS,目标识别结果为为长度为N_ob的向量pO。
与现有的场景识别与目标识别的技术相比,本发明通过构建单个深度模型实现目标与场景的一体化高精度识别。本发明引入了多任务学习技术,既可以作为一种正则化手段,提升单任务识别的精度,又可以隐式利用目标识别的结果及二者之间的关联信息,通过在目标识别模型的基础上构建不同层的网络分支,有效整合全局及局部的多层次、多维度特征,实现多任务之间的迁移学习,从而同时解决场景与目标识别问题,实现高精度、一体化的识别。
实施例没有详细叙述的部件和结构及模块均属本行业的公知部件和常用结构或常用手段,这里不一一叙述。
Claims (10)
1.一种基于多任务学习的场景与目标识别的方法,其特征是:该方法包括如下步骤:
步骤S1:采集包含不同场景、目标的图片为图像样本数据;
步骤S2:对图像样本数据进行手动标签标记,得到目标类别标签及场景类别标签;
步骤S3:构建多层卷积神经网络模型,进行网络初始化;
步骤S4:采用图像样本数据及对应的目标类别标签,对构建好的模型进行预训练,直至收敛,得到目标识别模型;
步骤S5:基于多任务学习技术,在目标识别模型的特定层加入网络分支,并随机初始化,得到多任务网络;
步骤S6:采用图像样本数据及对应的场景类别标签、目标类别标签,对多任务网络进行再训练,直至收敛,得到多任务学习模型;
步骤S7:输入新的图像数据至多任务学习模型,得到图像的场景及目标识别的分类结果。
2.根据权利要求1所述的一种基于多任务学习的场景与目标识别的方法,其特征是:所述步骤S1,包括如下步骤:
步骤S11:图像采集步骤,利用摄像头、网络资源采集不同场景、目标的图像数据;
步骤S12:图像筛选步骤,对所述的图像数据进行二次筛选,去除图片质量及画面内容不合要求的图像数据,剩余图像的图像数据作为图像样本数据。
3.根据权利要求1所述的一种基于多任务学习的场景与目标识别的方法,其特征是:所述步骤S2,包括如下步骤:
步骤S21:目标类别标记,为每副图像标记N_ob个目标类别标签,存储为长度为N_ob的多值向量,所述N_ob≥80;
步骤S22:场景类别标记,为每幅图像标记N_se个场景类别标签,存储为长度为N_se的单值向量;所述N_se≥20。
4.根据权利要求1所述的一种基于多任务学习的场景与目标识别的方法,其特征是:所述步骤S3具体为卷积神经网络模型搭建及卷积神经网络模型初始化;
所述卷积神经网络模型包括:一个输入数据层、O_con个卷积层、O_pool个池化层、O_fc个全连接层;其中,每层卷积层包含卷积核,第i个卷积层包含okn_i个卷积核,卷积核的大小为oks_i*oks_i,步长为okb_i;每层池化层采用最大池化法,池化核的大小为ops_i*ops_i,步长为opb_i;所述输入数据层的神经元个数为图像3个通道的像素点数;所述全连接层的最后一层输出的神经元数量N_ob为识别的目标总类别数;所述卷积神经网络模型初始化采用随机初始化法;
所述卷积神经网络包括:
输入数据层,输入RGB三通道彩色图像,图像尺寸为Width*Height;
第一卷积层OC1,包含okn_1个卷积核,卷积核的大小为oks_1*oks_1,步长为okb_1,零填充参数设为1,采用ReLU激活函数;
第二卷积层OC2,包含okn_2个卷积核,卷积核的大小为oks_2*oks_2,步长为okb_2,零填充参数设为1,采用ReLU激活函数;
第一池化层OP1,采用最大池化法,池化核的大小为ops_1*ops_1,步长为opb_1;
第三卷积层OC3,包含okn_3个卷积核,卷积核的大小为oks_3*oks_3,步长为okb_3,零填充参数设为1,采用ReLU激活函数;
第四卷积层OC4,包含okn_4个卷积核,卷积核的大小为oks_4*oks_4,步长为okb_4,零填充参数设为1,采用ReLU激活函数;
第二池化层OP2,采用最大池化法,池化核的大小为ops_2*ops_2,步长为opb_2;
第五卷积层OC5,包含okn_5个卷积核,卷积核的大小为oks_5*oks_5,步长为okb_5,零填充参数设为1,采用ReLU激活函数;
第六卷积层OC6,包含okn_6个卷积核,卷积核的大小为oks_6*oks_6,步长为okb_6,零填充参数设为1,采用ReLU激活函数;
第七卷积层OC7,包含okn_7个卷积核,卷积核的大小为oks_7*oks_7,步长为okb_7,零填充参数设为1,采用ReLU激活函数;
第三池化层OP3,采用最大池化法,池化核的大小为ops_3*ops_3,步长为opb_3;
第八卷积层OC8,包含okn_8个卷积核,卷积核的大小为oks_8*oks_8,步长为okb_8,零填充参数设为1,采用ReLU激活函数;
第九卷积层OC9,包含okn_9个卷积核,卷积核的大小为oks_9*oks_9,步长为okb_9,零填充参数设为1,采用ReLU激活函数;
第十卷积层OC10,包含okn_10个卷积核,卷积核的大小为oks_10*oks_10,步长为okb_10,零填充参数设为1,采用ReLU激活函数;
第四池化层OP4,采用最大池化法,池化核的大小为ops_4*ops_4,步长为opb_4;
第十一卷积层OC11,包含okn_11个卷积核,卷积核的大小为oks_11*oks_11,步长为okb_11,零填充参数设为1,采用ReLU激活函数;
第十二卷积层OC12,包含okn_12个卷积核,卷积核的大小为oks_12*oks_12,步长为okb_12,零填充参数设为1,采用ReLU激活函数;
第十三卷积层OC13,包含okn_13个卷积核,卷积核的大小为oks_13*oks_13,步长为okb_13,零填充参数设为1,采用ReLU激活函数;
第五池化层OP5,采用最大池化法,池化核的大小为ops_5*ops_5,步长为opb_5;
第一全连接层OF1,包含of_1个神经元,采用ReLU激活函数,采用dropout机制,dropout比例设置为of_d1;
第二全连接层OF2,包含of_2个神经元,采用ReLU激活函数,采用dropout机制,dropout比例设置为of_d2;
第三全连接层OF3,包含N_ob个神经元,采用softmax函数,输出为N_ob个目标类别对应的概率值O;
其中,所述O_con∈[10,20],O_pool∈[2,8],O_fc∈[1,5],okn_i∈[64,512],oks_i∈[1,9]且为奇数,okb_i∈[1,5]且okb_i≦oks_i,ops_i∈[1,5],opb_i∈[1,5]且opb_i≦ops_i;Width和Height分别为输入图像的宽度和高度,Width∈[50,1680],Height∈[50,1050],of_1∈[1024,4096],of_d1∈[0,1],of_2∈[1024,4096],of_d2∈[0,1]。
5.根据权利要求1所述的一种基于多任务学习的场景与目标识别的方法,其特征是:所述步骤S4,包括如下步骤:
步骤S41:预训练参数设置步骤,使用随机梯度下降法进行网络训练,其学习速率设置为lr,动量项设置为mo,学习速率的衰减系数设置为dc;其中,lr设为0.01,mo设为0.9,dc设为10;
步骤S42:模型预训练步骤,用所述的预训练参数,采用图像样本数据及目标类别标签对卷积神经网络进行预训练,直至收敛,得到目标识别模型。
6.根据权利要求1所述的一种基于多任务学习的场景与目标识别的方法,其特征是:所述步骤S5,包括如下步骤:
步骤S51:添加网络分支,在目标识别模型的第一池化层OP1,第二池化层OP2,第三池化层OP3,第十卷积层OC10的输出之后添加新的网络分支;
步骤S52:网络分支初始化,对添加的新的网络分支中的参数进行初始化,采用随机初始化策略。
7.根据权利要求1所述的一种基于多任务学习的场景与目标识别的方法,其特征是:所述步骤S6,包括如下步骤:
步骤S61:再训练参数设置,使用随机梯度下降法进行网络训练,其学习速率设置为lr_n,动量项设置为mo_n,学习速率的衰减系数设置为dc_n,训练所用的代价函数L融合了目标与场景两个任务的误差;其中,lr_n设为0.01,mo_n设为0.9,dc_n设为10;
步骤S62:模型再训练步骤,用所述的再训练参数,采用图像样本数据及所有类别标签对卷积神经网络进行再训练,直至收敛,得到训练好的多任务学习模型。
8.根据权利要求7所述的一种基于多任务学习的场景与目标识别的方法,其特征是:所述代价函数L为场景识别的softmax代价函数Lo与目标识别的softmax代价函数Ls之和,其公式如下,其中Oi为目标识别的真实标签,poi为目标识别的softmax输出概率值,Si为场景识别的真实标签,psi为场景识别的softmax输出概率值:
9.根据权利要求1所述的一种基于多任务学习的场景与目标识别的方法,其特征是:所述步骤S7,包括如下步骤:
步骤S71:输入新的图像数据至多任务学习模型;
步骤S72:输出场景与目标识别的分类结果,场景识别结果为长度为N_se的向量pS,目标识别结果为长度为N_ob的向量pO。
10.一种基于多任务学习的场景与目标识别的装置,其特征是:该装置包括:
图像采集模块(1),用于利用摄像头、网络资源采集不同场景、目标的图像数据;
图像筛选模块(2),用于对所述的图像数据进行二次筛选,去除图片质量及画面内容不合要求的图像数据,剩余图像的图像数据作为图像样本数据;
图像标记模块(3),用于对所述的图像样本数据进行手动标签标记,生成目标类别标签及场景类别标签;
多层卷积神经网络模型生成模块(4),用于构建多层卷积神经网络模型,并对网络参数进行随机初始化;
目标识别预训练模块(5),用于采用所述图像筛选模块的图像样本数据及所述图像标记模块产生的目标类别标签,对所述多层卷积神经网络模型生成模块构建好的模型进行预训练,得到目标识别模型;
多任务网络分支添加模块(6),用于基于多任务学习技术,在目标识别模型的特定层加入网络分支,并随机初始化,得到多任务网络;
多任务再训练模块(7),用于采用图像样本数据及所述图像标记模块产生的场景类别标签、目标类别标签,对所述多任务网络分支添加模块产生的多任务网络进行再训练,直至收敛,得到多任务学习模型;
场景与目标识别输出模块(8),用于输入新的图像至所述多任务再训练模块训练好的多任务网络,得到图像的场景及目标识别的分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710054400.4A CN106845549B (zh) | 2017-01-22 | 2017-01-22 | 一种基于多任务学习的场景与目标识别的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710054400.4A CN106845549B (zh) | 2017-01-22 | 2017-01-22 | 一种基于多任务学习的场景与目标识别的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106845549A true CN106845549A (zh) | 2017-06-13 |
CN106845549B CN106845549B (zh) | 2020-08-21 |
Family
ID=59119606
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710054400.4A Expired - Fee Related CN106845549B (zh) | 2017-01-22 | 2017-01-22 | 一种基于多任务学习的场景与目标识别的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106845549B (zh) |
Cited By (55)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107316035A (zh) * | 2017-08-07 | 2017-11-03 | 北京中星微电子有限公司 | 基于深度学习神经网络的对象识别方法及装置 |
CN107527031A (zh) * | 2017-08-22 | 2017-12-29 | 电子科技大学 | 一种基于ssd的室内目标检测方法 |
CN107545241A (zh) * | 2017-07-19 | 2018-01-05 | 百度在线网络技术(北京)有限公司 | 神经网络模型训练及活体检测方法、装置及存储介质 |
CN107622498A (zh) * | 2017-09-29 | 2018-01-23 | 北京奇虎科技有限公司 | 基于场景分割的图像穿越处理方法、装置及计算设备 |
CN107679552A (zh) * | 2017-09-11 | 2018-02-09 | 北京飞搜科技有限公司 | 一种基于多分支训练的场景分类方法以及系统 |
CN107808150A (zh) * | 2017-11-20 | 2018-03-16 | 珠海习悦信息技术有限公司 | 人体视频动作识别方法、装置、存储介质及处理器 |
CN107832804A (zh) * | 2017-10-30 | 2018-03-23 | 上海寒武纪信息科技有限公司 | 一种信息处理方法及相关产品 |
CN108236784A (zh) * | 2018-01-22 | 2018-07-03 | 腾讯科技(深圳)有限公司 | 模型的训练方法和装置、存储介质、电子装置 |
CN108257129A (zh) * | 2018-01-30 | 2018-07-06 | 浙江大学 | 基于多模态检测网络的宫颈活检区域辅助识别方法及装置 |
CN108304821A (zh) * | 2018-02-14 | 2018-07-20 | 广东欧珀移动通信有限公司 | 图像识别方法及装置、图像获取方法及设备、计算机设备及非易失性计算机可读存储介质 |
CN108596818A (zh) * | 2017-12-22 | 2018-09-28 | 华南理工大学 | 一种基于多任务学习卷积神经网络的图像隐写分析方法 |
CN108665065A (zh) * | 2018-04-25 | 2018-10-16 | 清华大学 | 任务数据的处理方法、装置、设备和存储介质 |
CN108664986A (zh) * | 2018-01-16 | 2018-10-16 | 北京工商大学 | 基于lp范数正则化的多任务学习图像分类方法及系统 |
CN108681752A (zh) * | 2018-05-28 | 2018-10-19 | 电子科技大学 | 一种基于深度学习的图像场景标注方法 |
CN108764370A (zh) * | 2018-06-08 | 2018-11-06 | Oppo广东移动通信有限公司 | 图像处理方法、装置、计算机可读存储介质和计算机设备 |
CN108764208A (zh) * | 2018-06-08 | 2018-11-06 | Oppo广东移动通信有限公司 | 图像处理方法和装置、存储介质、电子设备 |
CN108805103A (zh) * | 2018-06-29 | 2018-11-13 | Oppo广东移动通信有限公司 | 图像处理方法和装置、电子设备、计算机可读存储介质 |
CN108804658A (zh) * | 2018-06-08 | 2018-11-13 | Oppo广东移动通信有限公司 | 图像处理方法和装置、存储介质、电子设备 |
CN108875821A (zh) * | 2018-06-08 | 2018-11-23 | Oppo广东移动通信有限公司 | 分类模型的训练方法和装置、移动终端、可读存储介质 |
CN108875777A (zh) * | 2018-05-03 | 2018-11-23 | 浙江大学 | 基于双路神经网络的纺织面料中纤维种类及混纺比例识别方法 |
CN108961302A (zh) * | 2018-07-16 | 2018-12-07 | Oppo广东移动通信有限公司 | 图像处理方法、装置、移动终端及计算机可读存储介质 |
CN108965609A (zh) * | 2018-08-31 | 2018-12-07 | 南京宽塔信息技术有限公司 | 移动终端应用场景的识别方法和装置 |
CN109002752A (zh) * | 2018-01-08 | 2018-12-14 | 北京图示科技发展有限公司 | 一种基于深度学习的复杂公共场景快速行人检测方法 |
CN109035147A (zh) * | 2018-08-10 | 2018-12-18 | Oppo广东移动通信有限公司 | 图像处理方法及装置、电子装置、存储介质和计算机设备 |
CN109214286A (zh) * | 2018-08-01 | 2019-01-15 | 中国计量大学 | 基于深度神经网络多层特征融合的人脸识别方法 |
CN109522949A (zh) * | 2018-11-07 | 2019-03-26 | 北京交通大学 | 目标识别模型建立方法及装置 |
EP3477555A1 (en) * | 2017-10-31 | 2019-05-01 | General Electric Company | Multi-task feature selection neural networks |
CN109740656A (zh) * | 2018-12-26 | 2019-05-10 | 华侨大学 | 一种基于卷积神经网络的矿石分选方法 |
CN109784159A (zh) * | 2018-12-11 | 2019-05-21 | 北京航空航天大学 | 场景图像的处理方法、装置及系统 |
CN109791625A (zh) * | 2016-07-29 | 2019-05-21 | Ntech实验室有限责任公司 | 使用人工神经网络进行面部识别 |
CN109784487A (zh) * | 2017-11-15 | 2019-05-21 | 富士通株式会社 | 用于事件检测的深度学习网络、该网络的训练装置及方法 |
WO2019157690A1 (zh) * | 2018-02-14 | 2019-08-22 | 深圳市大疆创新科技有限公司 | 自动抓拍方法及装置、无人机及存储介质 |
CN110288019A (zh) * | 2019-06-21 | 2019-09-27 | 北京百度网讯科技有限公司 | 图像标注方法、装置和存储介质 |
WO2019210737A1 (zh) * | 2018-05-04 | 2019-11-07 | 上海商汤智能科技有限公司 | 对象预测方法及装置、电子设备和存储介质 |
CN110443286A (zh) * | 2019-07-18 | 2019-11-12 | 广州华多网络科技有限公司 | 神经网络模型的训练方法、图像识别方法以及装置 |
CN110580487A (zh) * | 2018-06-08 | 2019-12-17 | Oppo广东移动通信有限公司 | 神经网络的训练方法、构建方法、图像处理方法和装置 |
CN110598746A (zh) * | 2019-08-13 | 2019-12-20 | 武汉大学 | 一种基于ode求解器自适应的场景分类方法 |
WO2020001082A1 (zh) * | 2018-06-30 | 2020-01-02 | 东南大学 | 一种基于迁移学习的人脸属性分析方法 |
CN110717366A (zh) * | 2018-07-13 | 2020-01-21 | 杭州海康威视数字技术股份有限公司 | 文本信息的识别方法、装置、设备及存储介质 |
CN110738225A (zh) * | 2018-07-19 | 2020-01-31 | 杭州海康威视数字技术股份有限公司 | 图像识别方法及装置 |
CN111012261A (zh) * | 2019-11-18 | 2020-04-17 | 深圳市杉川机器人有限公司 | 基于场景识别的清扫方法、系统、扫地设备及存储介质 |
CN111222454A (zh) * | 2020-01-03 | 2020-06-02 | 暗物智能科技(广州)有限公司 | 训练多任务目标检测模型、多任务目标检测的方法及系统 |
WO2020124453A1 (zh) * | 2018-12-19 | 2020-06-25 | 深圳市欢太科技有限公司 | 信息自动回复的方法及相关装置 |
CN111553283A (zh) * | 2020-04-29 | 2020-08-18 | 北京百度网讯科技有限公司 | 用于生成模型的方法及装置 |
CN111611972A (zh) * | 2020-06-01 | 2020-09-01 | 南京信息工程大学 | 基于多视图多任务集成学习的作物叶片种类识别方法 |
CN111950630A (zh) * | 2020-08-12 | 2020-11-17 | 深圳市烨嘉为技术有限公司 | 基于两阶段迁移学习的小样本工业产品缺陷分类方法 |
CN112101255A (zh) * | 2020-09-21 | 2020-12-18 | 哈尔滨工业大学(深圳) | 一种基于深度学习模型的特定动作识别方法及系统 |
US10964004B2 (en) | 2017-12-25 | 2021-03-30 | Utechzone Co., Ltd. | Automated optical inspection method using deep learning and apparatus, computer program for performing the method, computer-readable storage medium storing the computer program, and deep learning system thereof |
CN112861926A (zh) * | 2021-01-18 | 2021-05-28 | 平安科技(深圳)有限公司 | 耦合的多任务特征提取方法、装置、电子设备及存储介质 |
CN113408424A (zh) * | 2021-06-21 | 2021-09-17 | 平安科技(深圳)有限公司 | 用品识别方法、装置、电子设备及存储介质 |
CN113822935A (zh) * | 2021-09-14 | 2021-12-21 | 南京邮电大学 | 基于pix2pix的多图像定位方法 |
CN114037024A (zh) * | 2022-01-07 | 2022-02-11 | 心鉴智控(深圳)科技有限公司 | 一种基于多任务神经网络数据识别系统及方法 |
CN114565897A (zh) * | 2022-01-19 | 2022-05-31 | 北京深睿博联科技有限责任公司 | 一种红绿灯路口导盲方法及装置 |
US11775812B2 (en) * | 2018-11-30 | 2023-10-03 | Samsung Electronics Co., Ltd. | Multi-task based lifelong learning |
US11990137B2 (en) | 2018-09-13 | 2024-05-21 | Shanghai Cambricon Information Technology Co., Ltd. | Image retouching method and terminal device |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104598898A (zh) * | 2015-02-13 | 2015-05-06 | 合肥工业大学 | 一种基于多任务拓扑学习的航拍图像快速识别系统及其快速识别方法 |
US20150248586A1 (en) * | 2014-03-03 | 2015-09-03 | Xerox Corporation | Self-learning object detectors for unlabeled videos using multi-task learning |
-
2017
- 2017-01-22 CN CN201710054400.4A patent/CN106845549B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150248586A1 (en) * | 2014-03-03 | 2015-09-03 | Xerox Corporation | Self-learning object detectors for unlabeled videos using multi-task learning |
CN104598898A (zh) * | 2015-02-13 | 2015-05-06 | 合肥工业大学 | 一种基于多任务拓扑学习的航拍图像快速识别系统及其快速识别方法 |
Non-Patent Citations (3)
Title |
---|
JAWADUL H. BAPPY ET.AL: "Online Adaptation for Joint Scene and Object Classification", 《SPRINGER INTERNATIONAL PUBLISHING AG 2016》 * |
JIAN YAO ET.AL: "Describing the Scene as a Whole: Joint Object Detection, Scene Classification and Semantic Segmentation", 《2012 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 * |
MARVIN TEICHMANN ET.AL: "MultiNet: Real-time Joint Semantic Reasoning for Autonomous Driving", 《ARXIV:1612.07695V1 [CS.CV]》 * |
Cited By (85)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109791625A (zh) * | 2016-07-29 | 2019-05-21 | Ntech实验室有限责任公司 | 使用人工神经网络进行面部识别 |
CN107545241A (zh) * | 2017-07-19 | 2018-01-05 | 百度在线网络技术(北京)有限公司 | 神经网络模型训练及活体检测方法、装置及存储介质 |
US11610394B2 (en) | 2017-07-19 | 2023-03-21 | Baidu Online Network Technology (Beijing) Co., Ltd. | Neural network model training method and apparatus, living body detecting method and apparatus, device and storage medium |
CN107316035A (zh) * | 2017-08-07 | 2017-11-03 | 北京中星微电子有限公司 | 基于深度学习神经网络的对象识别方法及装置 |
CN107527031A (zh) * | 2017-08-22 | 2017-12-29 | 电子科技大学 | 一种基于ssd的室内目标检测方法 |
CN107679552A (zh) * | 2017-09-11 | 2018-02-09 | 北京飞搜科技有限公司 | 一种基于多分支训练的场景分类方法以及系统 |
CN107622498A (zh) * | 2017-09-29 | 2018-01-23 | 北京奇虎科技有限公司 | 基于场景分割的图像穿越处理方法、装置及计算设备 |
CN107622498B (zh) * | 2017-09-29 | 2021-06-04 | 北京奇虎科技有限公司 | 基于场景分割的图像穿越处理方法、装置及计算设备 |
CN107832804A (zh) * | 2017-10-30 | 2018-03-23 | 上海寒武纪信息科技有限公司 | 一种信息处理方法及相关产品 |
US11762631B2 (en) | 2017-10-30 | 2023-09-19 | Shanghai Cambricon Information Technology Co., Ltd. | Information processing method and terminal device |
US11922132B2 (en) | 2017-10-30 | 2024-03-05 | Shanghai Cambricon Information Technology Co., Ltd. | Information processing method and terminal device |
EP3477555A1 (en) * | 2017-10-31 | 2019-05-01 | General Electric Company | Multi-task feature selection neural networks |
CN109784487A (zh) * | 2017-11-15 | 2019-05-21 | 富士通株式会社 | 用于事件检测的深度学习网络、该网络的训练装置及方法 |
CN109784487B (zh) * | 2017-11-15 | 2023-04-28 | 富士通株式会社 | 用于事件检测的深度学习网络、该网络的训练装置及方法 |
CN107808150A (zh) * | 2017-11-20 | 2018-03-16 | 珠海习悦信息技术有限公司 | 人体视频动作识别方法、装置、存储介质及处理器 |
CN108596818B (zh) * | 2017-12-22 | 2021-10-26 | 华南理工大学 | 一种基于多任务学习卷积神经网络的图像隐写分析方法 |
CN108596818A (zh) * | 2017-12-22 | 2018-09-28 | 华南理工大学 | 一种基于多任务学习卷积神经网络的图像隐写分析方法 |
US10964004B2 (en) | 2017-12-25 | 2021-03-30 | Utechzone Co., Ltd. | Automated optical inspection method using deep learning and apparatus, computer program for performing the method, computer-readable storage medium storing the computer program, and deep learning system thereof |
CN109002752A (zh) * | 2018-01-08 | 2018-12-14 | 北京图示科技发展有限公司 | 一种基于深度学习的复杂公共场景快速行人检测方法 |
CN108664986B (zh) * | 2018-01-16 | 2020-09-04 | 北京工商大学 | 基于lp范数正则化的多任务学习图像分类方法及系统 |
CN108664986A (zh) * | 2018-01-16 | 2018-10-16 | 北京工商大学 | 基于lp范数正则化的多任务学习图像分类方法及系统 |
CN108236784B (zh) * | 2018-01-22 | 2021-09-24 | 腾讯科技(深圳)有限公司 | 模型的训练方法和装置、存储介质、电子装置 |
CN108236784A (zh) * | 2018-01-22 | 2018-07-03 | 腾讯科技(深圳)有限公司 | 模型的训练方法和装置、存储介质、电子装置 |
CN108257129A (zh) * | 2018-01-30 | 2018-07-06 | 浙江大学 | 基于多模态检测网络的宫颈活检区域辅助识别方法及装置 |
CN108257129B (zh) * | 2018-01-30 | 2020-12-29 | 浙江大学 | 基于多模态检测网络的宫颈活检区域辅助识别方法及装置 |
CN108304821B (zh) * | 2018-02-14 | 2020-12-18 | Oppo广东移动通信有限公司 | 图像识别方法及装置、图像获取方法及设备、计算机设备及非易失性计算机可读存储介质 |
CN108304821A (zh) * | 2018-02-14 | 2018-07-20 | 广东欧珀移动通信有限公司 | 图像识别方法及装置、图像获取方法及设备、计算机设备及非易失性计算机可读存储介质 |
WO2019157690A1 (zh) * | 2018-02-14 | 2019-08-22 | 深圳市大疆创新科技有限公司 | 自动抓拍方法及装置、无人机及存储介质 |
CN108665065B (zh) * | 2018-04-25 | 2020-08-04 | 清华大学 | 任务数据的处理方法、装置、设备和存储介质 |
CN108665065A (zh) * | 2018-04-25 | 2018-10-16 | 清华大学 | 任务数据的处理方法、装置、设备和存储介质 |
CN108875777A (zh) * | 2018-05-03 | 2018-11-23 | 浙江大学 | 基于双路神经网络的纺织面料中纤维种类及混纺比例识别方法 |
CN108875777B (zh) * | 2018-05-03 | 2022-03-15 | 浙江大学 | 基于双路神经网络的纺织面料中纤维种类及混纺比例识别方法 |
WO2019210737A1 (zh) * | 2018-05-04 | 2019-11-07 | 上海商汤智能科技有限公司 | 对象预测方法及装置、电子设备和存储介质 |
US11593596B2 (en) | 2018-05-04 | 2023-02-28 | Shanghai Sense Time Intelligent Technology Co., Ltd. | Object prediction method and apparatus, and storage medium |
CN108681752B (zh) * | 2018-05-28 | 2023-08-15 | 电子科技大学 | 一种基于深度学习的图像场景标注方法 |
CN108681752A (zh) * | 2018-05-28 | 2018-10-19 | 电子科技大学 | 一种基于深度学习的图像场景标注方法 |
CN108764370A (zh) * | 2018-06-08 | 2018-11-06 | Oppo广东移动通信有限公司 | 图像处理方法、装置、计算机可读存储介质和计算机设备 |
WO2019233394A1 (zh) * | 2018-06-08 | 2019-12-12 | Oppo广东移动通信有限公司 | 图像处理方法和装置、存储介质、电子设备 |
CN108764370B (zh) * | 2018-06-08 | 2021-03-12 | Oppo广东移动通信有限公司 | 图像处理方法、装置、计算机可读存储介质和计算机设备 |
US11138478B2 (en) | 2018-06-08 | 2021-10-05 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Method and apparatus for training, classification model, mobile terminal, and readable storage medium |
CN108764208B (zh) * | 2018-06-08 | 2021-06-08 | Oppo广东移动通信有限公司 | 图像处理方法和装置、存储介质、电子设备 |
CN108764208A (zh) * | 2018-06-08 | 2018-11-06 | Oppo广东移动通信有限公司 | 图像处理方法和装置、存储介质、电子设备 |
CN110580487A (zh) * | 2018-06-08 | 2019-12-17 | Oppo广东移动通信有限公司 | 神经网络的训练方法、构建方法、图像处理方法和装置 |
CN108804658A (zh) * | 2018-06-08 | 2018-11-13 | Oppo广东移动通信有限公司 | 图像处理方法和装置、存储介质、电子设备 |
CN108875821A (zh) * | 2018-06-08 | 2018-11-23 | Oppo广东移动通信有限公司 | 分类模型的训练方法和装置、移动终端、可读存储介质 |
CN108805103A (zh) * | 2018-06-29 | 2018-11-13 | Oppo广东移动通信有限公司 | 图像处理方法和装置、电子设备、计算机可读存储介质 |
WO2020001082A1 (zh) * | 2018-06-30 | 2020-01-02 | 东南大学 | 一种基于迁移学习的人脸属性分析方法 |
CN110717366A (zh) * | 2018-07-13 | 2020-01-21 | 杭州海康威视数字技术股份有限公司 | 文本信息的识别方法、装置、设备及存储介质 |
CN108961302A (zh) * | 2018-07-16 | 2018-12-07 | Oppo广东移动通信有限公司 | 图像处理方法、装置、移动终端及计算机可读存储介质 |
CN110738225A (zh) * | 2018-07-19 | 2020-01-31 | 杭州海康威视数字技术股份有限公司 | 图像识别方法及装置 |
CN109214286A (zh) * | 2018-08-01 | 2019-01-15 | 中国计量大学 | 基于深度神经网络多层特征融合的人脸识别方法 |
CN109035147A (zh) * | 2018-08-10 | 2018-12-18 | Oppo广东移动通信有限公司 | 图像处理方法及装置、电子装置、存储介质和计算机设备 |
CN109035147B (zh) * | 2018-08-10 | 2023-12-12 | Oppo广东移动通信有限公司 | 图像处理方法及装置、电子装置、存储介质和计算机设备 |
CN108965609A (zh) * | 2018-08-31 | 2018-12-07 | 南京宽塔信息技术有限公司 | 移动终端应用场景的识别方法和装置 |
US11990137B2 (en) | 2018-09-13 | 2024-05-21 | Shanghai Cambricon Information Technology Co., Ltd. | Image retouching method and terminal device |
US11996105B2 (en) | 2018-09-13 | 2024-05-28 | Shanghai Cambricon Information Technology Co., Ltd. | Information processing method and terminal device |
CN109522949A (zh) * | 2018-11-07 | 2019-03-26 | 北京交通大学 | 目标识别模型建立方法及装置 |
US11775812B2 (en) * | 2018-11-30 | 2023-10-03 | Samsung Electronics Co., Ltd. | Multi-task based lifelong learning |
CN109784159A (zh) * | 2018-12-11 | 2019-05-21 | 北京航空航天大学 | 场景图像的处理方法、装置及系统 |
CN113039758A (zh) * | 2018-12-19 | 2021-06-25 | 深圳市欢太科技有限公司 | 信息自动回复的方法及相关装置 |
WO2020124453A1 (zh) * | 2018-12-19 | 2020-06-25 | 深圳市欢太科技有限公司 | 信息自动回复的方法及相关装置 |
CN109740656A (zh) * | 2018-12-26 | 2019-05-10 | 华侨大学 | 一种基于卷积神经网络的矿石分选方法 |
CN110288019A (zh) * | 2019-06-21 | 2019-09-27 | 北京百度网讯科技有限公司 | 图像标注方法、装置和存储介质 |
CN110443286B (zh) * | 2019-07-18 | 2024-06-04 | 广州方硅信息技术有限公司 | 神经网络模型的训练方法、图像识别方法以及装置 |
CN110443286A (zh) * | 2019-07-18 | 2019-11-12 | 广州华多网络科技有限公司 | 神经网络模型的训练方法、图像识别方法以及装置 |
CN110598746A (zh) * | 2019-08-13 | 2019-12-20 | 武汉大学 | 一种基于ode求解器自适应的场景分类方法 |
CN111012261A (zh) * | 2019-11-18 | 2020-04-17 | 深圳市杉川机器人有限公司 | 基于场景识别的清扫方法、系统、扫地设备及存储介质 |
CN111222454A (zh) * | 2020-01-03 | 2020-06-02 | 暗物智能科技(广州)有限公司 | 训练多任务目标检测模型、多任务目标检测的方法及系统 |
CN111222454B (zh) * | 2020-01-03 | 2023-04-07 | 暗物智能科技(广州)有限公司 | 训练多任务目标检测模型、多任务目标检测的方法及系统 |
CN111553283A (zh) * | 2020-04-29 | 2020-08-18 | 北京百度网讯科技有限公司 | 用于生成模型的方法及装置 |
CN111553283B (zh) * | 2020-04-29 | 2023-08-25 | 北京百度网讯科技有限公司 | 用于生成模型的方法及装置 |
CN111611972A (zh) * | 2020-06-01 | 2020-09-01 | 南京信息工程大学 | 基于多视图多任务集成学习的作物叶片种类识别方法 |
CN111611972B (zh) * | 2020-06-01 | 2024-01-05 | 南京信息工程大学 | 基于多视图多任务集成学习的作物叶片种类识别方法 |
CN111950630A (zh) * | 2020-08-12 | 2020-11-17 | 深圳市烨嘉为技术有限公司 | 基于两阶段迁移学习的小样本工业产品缺陷分类方法 |
CN111950630B (zh) * | 2020-08-12 | 2022-08-02 | 深圳市烨嘉为技术有限公司 | 基于两阶段迁移学习的小样本工业产品缺陷分类方法 |
CN112101255A (zh) * | 2020-09-21 | 2020-12-18 | 哈尔滨工业大学(深圳) | 一种基于深度学习模型的特定动作识别方法及系统 |
CN112101255B (zh) * | 2020-09-21 | 2023-06-27 | 哈尔滨工业大学(深圳) | 一种基于深度学习模型的特定动作识别方法及系统 |
CN112861926A (zh) * | 2021-01-18 | 2021-05-28 | 平安科技(深圳)有限公司 | 耦合的多任务特征提取方法、装置、电子设备及存储介质 |
CN112861926B (zh) * | 2021-01-18 | 2023-10-31 | 平安科技(深圳)有限公司 | 耦合的多任务特征提取方法、装置、电子设备及存储介质 |
CN113408424A (zh) * | 2021-06-21 | 2021-09-17 | 平安科技(深圳)有限公司 | 用品识别方法、装置、电子设备及存储介质 |
CN113408424B (zh) * | 2021-06-21 | 2024-05-10 | 平安科技(深圳)有限公司 | 用品识别方法、装置、电子设备及存储介质 |
CN113822935B (zh) * | 2021-09-14 | 2024-02-06 | 南京邮电大学 | 基于pix2pix的多图像定位方法 |
CN113822935A (zh) * | 2021-09-14 | 2021-12-21 | 南京邮电大学 | 基于pix2pix的多图像定位方法 |
CN114037024A (zh) * | 2022-01-07 | 2022-02-11 | 心鉴智控(深圳)科技有限公司 | 一种基于多任务神经网络数据识别系统及方法 |
CN114565897A (zh) * | 2022-01-19 | 2022-05-31 | 北京深睿博联科技有限责任公司 | 一种红绿灯路口导盲方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN106845549B (zh) | 2020-08-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106845549A (zh) | 一种基于多任务学习的场景与目标识别的方法及装置 | |
Anwar et al. | Image colorization: A survey and dataset | |
CN109360171A (zh) | 一种基于神经网络的视频图像实时去模糊方法 | |
CN107506740A (zh) | 一种基于三维卷积神经网络和迁移学习模型的人体行为识别方法 | |
CN107808132A (zh) | 一种融合主题模型的场景图像分类方法 | |
Zhang et al. | Curriculum-style local-to-global adaptation for cross-domain remote sensing image segmentation | |
CN106372581A (zh) | 构建及训练人脸识别特征提取网络的方法 | |
CN107784654A (zh) | 图像分割方法、装置及全卷积网络系统 | |
CN107742107A (zh) | 人脸图像分类方法、装置及服务器 | |
CN108256426A (zh) | 一种基于卷积神经网络的人脸表情识别方法 | |
CN107808129A (zh) | 一种基于单个卷积神经网络的面部多特征点定位方法 | |
CN109657715B (zh) | 一种语义分割方法、装置、设备及介质 | |
CN107527044A (zh) | 一种基于搜索的多张车牌清晰化方法及装置 | |
CN108830185B (zh) | 基于多任务联合学习的行为识别及定位方法 | |
CN107273870A (zh) | 一种监控场景下融合上下文信息的行人位置检测方法 | |
CN109919085B (zh) | 基于轻量型卷积神经网络的人人交互行为识别方法 | |
CN107944459A (zh) | 一种rgb‑d物体识别方法 | |
CN107092883A (zh) | 物体识别追踪方法 | |
CN108460399A (zh) | 一种儿童积木搭建辅助方法及系统 | |
CN110781962B (zh) | 基于轻量级卷积神经网络的目标检测方法 | |
CN111833360B (zh) | 一种图像处理方法、装置、设备以及计算机可读存储介质 | |
CN104298974A (zh) | 一种基于深度视频序列的人体行为识别方法 | |
CN110008819A (zh) | 一种基于图卷积神经网络的人脸表情识别方法 | |
CN113449691A (zh) | 一种基于非局部注意力机制的人形识别系统及方法 | |
CN109766918A (zh) | 基于多层次上下文信息融合的显著性物体检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200821 Termination date: 20210122 |