CN106599773A - 用于智能驾驶的深度学习图像识别方法、系统及终端设备 - Google Patents

用于智能驾驶的深度学习图像识别方法、系统及终端设备 Download PDF

Info

Publication number
CN106599773A
CN106599773A CN201610929312.XA CN201610929312A CN106599773A CN 106599773 A CN106599773 A CN 106599773A CN 201610929312 A CN201610929312 A CN 201610929312A CN 106599773 A CN106599773 A CN 106599773A
Authority
CN
China
Prior art keywords
convolution
network
default
feature
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610929312.XA
Other languages
English (en)
Other versions
CN106599773B (zh
Inventor
马惠敏
陈晓智
童仁玲
唐锐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zongmu Technology (shanghai) Ltd By Share Ltd
Tsinghua University
Original Assignee
Zongmu Technology (shanghai) Ltd By Share Ltd
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zongmu Technology (shanghai) Ltd By Share Ltd, Tsinghua University filed Critical Zongmu Technology (shanghai) Ltd By Share Ltd
Priority to CN201610929312.XA priority Critical patent/CN106599773B/zh
Publication of CN106599773A publication Critical patent/CN106599773A/zh
Application granted granted Critical
Publication of CN106599773B publication Critical patent/CN106599773B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06KRECOGNITION OF DATA; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K9/00Methods or arrangements for reading or recognising printed or written characters or for recognising patterns, e.g. fingerprints
    • G06K9/00624Recognising scenes, i.e. recognition of a whole field of perception; recognising scene-specific objects
    • G06K9/00791Recognising scenes perceived from the perspective of a land vehicle, e.g. recognising lanes, obstacles or traffic signs on road scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06KRECOGNITION OF DATA; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K9/00Methods or arrangements for reading or recognising printed or written characters or for recognising patterns, e.g. fingerprints
    • G06K9/62Methods or arrangements for recognition using electronic means
    • G06K9/6267Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computer systems based on biological models
    • G06N3/02Computer systems based on biological models using neural network models
    • G06N3/04Architectures, e.g. interconnection topology
    • G06N3/0454Architectures, e.g. interconnection topology using a combination of multiple neural nets

Abstract

本发明提供一种用于智能驾驶的深度学习图像检测识别方法、系统及终端设备,该系统包括:共享卷积网络,区域分割网络,目标识别网络;所述区域分割网络基于共享卷积网络提取的特征图进行区域分类处理,所述目标识别网络基于共享卷积网络提取的特征图进行目标识别定位处理;利用所述区域分割网络获得的区域分割结果和所述目标识别网络获得的目标识别结果监督所述共享卷积网络,完成所述区域分割网络和所述目标识别网络的共享学习。本发明在多任务学习上具有明显的速度优势,相对于单独学习两个独立的网络,具有耗时少,效率高的特点;此外,本发明还有效的规避了卷积层重复运算的问题,可以完成多任务的检测和识别。

Description

用于智能驾驶的深度学习图像识别方法、系统及终端设备
技术领域
[0001] 本发明属于图像处理领域,涉及一种图像检测识别方法,特别是涉及一种用于智 能驾驶的深度学习图像识别方法、系统及终端设备。
背景技术
[0002] 在智能车辆领域,关于目标定位和识别,现有的方法主要有两种,一种是基于传统 的神经网络训练分类器实现;另一种是基于人工提取灰度图像特征输入多类支持向量机的 识别算法实现。传统的神经网络分类器在检测和识别两个任务上需要训练两个网络,计算 成本高;而人工特征提取的方式局限性较大,其中决策参数的选取是一种启发式的方法,如 果经验值的选择不合适,会直接影响识别结果;而且多类支持向量机的方法在参数选择上 难以取到最优值,进行预测时计算量相对较大。
发明内容
[0003] 鉴于以上所述现有技术的缺点,本发明的目的在于提供一种用于智能驾驶的深度 学习图像识别方法、系统及终端设备,用于解决现有目标识别方法计算成本高、特征提取局 限性大,或/和参数选取难以达到最优值影响识别结果的问题。
[0004] 为实现上述目的及其他相关目的,本发明提供一种用于智能驾驶的深度学习图像 识别方法,所述用于智能驾驶的深度学习图像识别方法包括:利用共享卷积网络基于N个预 设卷积核对图像进行第一预设网络深度的卷积相关处理,提取出所述图像的N个共享特征 图的共享特征提取步骤;N为大于或等于1的正整数;利用区域分割网络基于第二预设卷积 核对每个所述共享特征图进行第二预设网络深度的卷积相关处理,获得与每个所述共享特 征图对应的M个第二特征图,并将所述M个第二特征图中的每个像素做softmax处理,选取M 个第二特征图中相同位置像素的分数最高像素的区域分类ID作为对应共享特征图的相同 位置像素的类别标签的区域分割步骤;M为大于1的正整数;M是区域分类的类别总数;利用 目标识别网络基于第三预设卷积核对每个所述共享特征图进行第三预设网络深度的卷积 处理,获得与每个所述共享特征图对应的2K个第三特征图,利用softmax处理方法从所述2K 个第三特征图中选取分数靠前的L个第三特征图的前景目标选取步骤;K为大于1的正整数; L为小于K的正整数;利用所述目标识别网络基于第四预设卷积核对每个所述共享特征图进 行第四预设网络深度的卷积相关处理,获得与每个所述共享特征图对应的P个第四特征图, 结合所述L个第三特征图的坐标信息获得P个目标分类特征图和4P个坐标特征图,并利用 softmax处理方法获得所述共享特征图中的目标分类结果和目标精确定位的目标识别定位 步骤;P为大于1的正整数;利用所述区域分割网络获得的区域分割结果和所述目标识别网 络获得的目标识别结果监督所述共享卷积网络,完成所述区域分割网络和所述目标识别网 络的共享学习的共享学习步骤。
[0005] 于本发明的一实施例中,所述共享特征提取步骤中,所述第一预设网络深度为卷 积相关处理的层数;第一预设网络深度的各所述卷积相关处理层均包括至少一卷积非线性 组或/和至少一池化层;所述卷积线性组包括一卷积层和一非线性层的联合;所述卷积层基 于N个预设卷积核对图像进行卷积处理获得N个卷积特征图;所述非线性层对所述N个卷积 特征图进行处理后获得N个非线性特征图;所述池化层对所述N个非线性特征图进行处理后 获得N个池化特征图。
[0006] 于本发明的一实施例中,所述区域分割步骤中,所述第二预设网络深度为卷积相 关处理的层数;第二预设网络深度的卷积相关处理层包括至少一卷积非线性组和一 softmax层;所述卷积线性组包括一卷积层和一非线性层的联合;与所述softmax层直接相 连的卷积非线性组中的卷积层基于M个预设卷积核对图像进行卷积处理获得M个卷积特征 图;与所述softmax层直接相连的卷积非线性组中的非线性层对所述M个卷积特征图进行处 理后获得M个非线性特征图;所述sof tmax层对M个非线性特征图进行sof tmax处理,获得M个 第二特征图中相同位置像素的分数最高像素的区域分类ID作为对应共享特征图的相同位 置像素的类别标签;所述区域分类为对图像中的物体的分类,包括天空,道路,植被,树木, 红绿灯,或/和建筑物。
[0007] 于本发明的一实施例中,所述前景目标选取步骤中,所述第三预设网络深度为卷 积处理的层数;第三预设网络深度的卷积处理层包括至少一卷积层和一 SOf tmax层;所述至 少一卷积层基于预设卷积核对图像进行卷积处理获得2K个卷积特征图;所述softmax层对 所述2K个卷积特征图进行处理获得分数靠前的L个卷积特征图。
[0008] 于本发明的一实施例中,所述目标识别定位步骤中,所述第四预设网络深度为卷 积相关处理的层数;第四预设网络深度的卷积相关处理层包括至少一卷积层,2个池化层和 2个softmax层;所述至少一卷积层基于预设卷积核对图像进行卷积处理获得P个卷积特征 图;2个池化层分别对所述P个目标分类特征图和4P个坐标特征图进行处理获得P维分类向 量和4P维坐标向量;2个sof tmax层分别对所述P维分类向量和4P维坐标向量进行处理获得 最后的目标分类结果和目标精确定位;所述目标分类结果包括行人,骑手,汽车,巴士,卡 车,火车,摩托车,或/和自行车。
[0009] 于本发明的一实施例中,所述用于智能驾驶的深度学习图像识别方法还包括:在 所述共享特征提取步骤前实施的图像数据增强步骤,具体包括:对输入的图像进行增强变 换处理,增加输入图像数据的量;所述增强变换处理的方式包括对源图像进行一种或多种 组合几何变换。
[0010] 本发明还提供一种用于智能驾驶的深度学习图像识别系统,所述用于智能驾驶的 深度学习图像识别系统包括:共享卷积网络,基于N个预设卷积核对图像进行第一预设网络 深度的卷积相关处理,提取出所述图像的N个共享特征图;N为大于或等于1的正整数;区域 分割网络,与所述共享卷积网络相连,基于第二预设卷积核对每个所述共享特征图进行第 二预设网络深度的卷积相关处理,获得与每个所述共享特征图对应的M个第二特征图,并将 所述M个第二特征图中的每个像素做sof tmax处理,选取M个第二特征图中相同位置像素的 分数最高像素的区域分类ID作为对应共享特征图的相同位置像素的类别标签的区域分割 步骤;M为大于1的正整数;M是区域分类的类别总数;目标识别网络,与所述共享卷积网络相 连,基于第三预设卷积核对每个所述共享特征图进行第三预设网络深度的卷积处理,获得 与每个所述共享特征图对应的2K个第三特征图,利用sof tmax处理方法从所述2K个第三特 征图中选取分数靠前的L个第三特征图;K为大于1的正整数;L为小于K的正整数;所述目标 识别网络基于第四预设卷积核对每个所述共享特征图进行第四预设网络深度的卷积相关 处理,获得与每个所述共享特征图对应的P个第四特征图,结合所述L个第三特征图的坐标 信息获得P个目标分类特征图和4P个坐标特征图,并利用softmax处理方法获得所述共享特 征图中的目标分类结果和目标精确定位;P为大于1的正整数;利用所述区域分割网络获得 的区域分割结果和所述目标识别网络获得的目标识别结果监督所述共享卷积网络,完成所 述区域分割网络和所述目标识别网络的共享学习。
[0011] 于本发明的一实施例中,所述共享卷积网络中的所述第一预设网络深度为卷积相 关处理的层数;所述第一预设网络深度的各所述卷积相关处理层均包括至少一卷积非线性 组或/和至少一池化层;所述卷积线性组包括一卷积层和一非线性层的联合;所述卷积层基 于N个预设卷积核对图像进行卷积处理获得N个卷积特征图;所述非线性层对所述N个卷积 特征图进行处理后获得N个非线性特征图;所述池化层对所述N个非线性特征图进行处理后 获得N个池化特征图。
[0012] 于本发明的一实施例中,所述区域分割网络中的所述第二预设网络深度为卷积相 关处理的层数;所述第二预设网络深度的卷积相关处理层包括至少一卷积非线性组和一 softmax层;所述卷积线性组包括一卷积层和一非线性层的联合;与所述softmax层直接相 连的卷积非线性组中的卷积层基于M个预设卷积核对图像进行卷积处理获得M个卷积特征 图;与所述softmax层直接相连的卷积非线性组中的非线性层对所述M个卷积特征图进行处 理后获得M个非线性特征图;所述sof tmax层对M个非线性特征图进行sof tmax处理,获得M个 第二特征图中相同位置像素的分数最高像素的区域分类ID作为对应共享特征图的相同位 置像素的类别标签;所述区域分类为对图像中的物体的分类,包括天空,道路,植被,树木, 红绿灯,或/和建筑物。
[0013] 于本发明的一实施例中,所述目标识别网络中的所述第三预设网络深度为卷积处 理的层数;所述第三预设网络深度的卷积处理层包括至少一卷积层和一 SOf tmax层;所述至 少一卷积层基于预设卷积核对图像进行卷积处理获得2K个卷积特征图;所述softmax层对 所述2K个卷积特征图进行处理获得分数靠前的L个卷积特征图;所述目标识别网络中的所 述第四预设网络深度为卷积相关处理的层数;所述第四预设网络深度的卷积相关处理层包 括至少一卷积层,2个池化层和2个softmax层;所述至少一卷积层基于预设卷积核对图像进 行卷积处理获得P个卷积特征图;2个池化层分别对所述P个目标分类特征图和4P个坐标特 征图进行处理获得P维分类向量和4P维坐标向量;2个softmax层分别对所述P维分类向量和 4P维坐标向量进行处理获得最后的目标分类结果和目标精确定位;所述目标分类结果包括 行人,骑手,汽车,巴士,卡车,火车,摩托车,或/和自行车。
[0014] 本发明还提供一种终端设备,所述终端设备包括所述的用于智能驾驶的深度学习 图像识别系统训练生成的图像检测识别模型;所述图像检测识别模型包括:共享卷积网络, 基于N个预设卷积核对图像进行第一预设网络深度的卷积相关处理,提取出所述图像的N个 共享特征图;N为大于或等于1的正整数;区域分割网络,与所述共享卷积网络相连,基于第 二预设卷积核对每个所述共享特征图进行第二预设网络深度的卷积相关处理,获得与每个 所述共享特征图对应的M个第二特征图,并将所述M个第二特征图中的每个像素做softmax 处理,选取M个第二特征图中相同位置像素的分数最高像素的区域分类ID作为对应共享特 征图的相同位置像素的类别标签的区域分割步骤;M为大于1的正整数;M是区域分类的类别 总数;目标识别网络,与所述共享卷积网络相连,基于第三预设卷积核对每个所述共享特征 图进行第三预设网络深度的卷积处理,获得与每个所述共享特征图对应的2K个第三特征 图,利用softmax处理方法从所述2K个第三特征图中选取分数靠前的L个第三特征图;K为大 于1的正整数;L为小于K的正整数;所述目标识别网络基于第四预设卷积核对每个所述共享 特征图进行第四预设网络深度的卷积相关处理,获得与每个所述共享特征图对应的P个第 四特征图,结合所述L个第三特征图的坐标信息获得P个目标分类特征图和4P个坐标特征 图,并利用sof tmax处理方法获得所述共享特征图中的目标分类结果和目标精确定位;P为 大于1的正整数。
[0015] 于本发明的一实施例中,所述终端设备包括车辆、飞行器、照相机、摄像机、或/和 图像处理设备。
[0016] 如上所述,本发明的用于智能驾驶的深度学习图像识别方法、系统及终端设备,具 有以下有益效果:
[0017] 本发明将共享性深度学习网络作为一种提取特征的手段,在处理多任务学习时, 它比传统的卷积神经网络具有更小更精的优势,它不仅继承了原有网络中的权值共享,同 时还共享了部分网络结构和模型,不仅仅保留了单层网络的准确率,还大大减少了计算成 本,在多任务学习上具有明显的速度优势,相对于单独学习两个独立的网络,具有耗时少, 效率高的特点;此外,本发明还有效的规避了卷积层重复运算的问题,可以完成多任务的检 测和识别。
附图说明
[0018] 图1显示为本发明实施例所述的用于智能驾驶的深度学习图像识别方法的一种实 现流程示意图。
[0019] 图2显示为本发明实施例所述的共享卷积网络的一种实现结构示意图。
[0020] 图3显示为本发明实施例所述的区域分割网络的一种实现结构示意图。
[0021] 图4显示为本发明实施例所述的目标识别网络的一种实现结构示意图。
[0022]图5显示为本发明实施例所述的用于智能驾驶的深度学习图像识别系统的一种实 现结构示意图。
[0023]图6显示为本发明实施例所述的终端设备的一种实现结构示意图。
[0024] 元件标号说明
[0025] 500 用于智能驾驶的深度学习图像识别系统
[0026] 502 图像数据增强模块
[0027] 504,604 共享卷积网络
[0028] 506,606 区域分割网络
[0029] 508,608 目标识别网络
[0030] 600 图像检测识别模型
[0031] S102 ~SllO 步骤
具体实施方式
[0032] 以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书 所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实 施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离 本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施 例中的特征可以相互组合。
[0033] 需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构 想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸 绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也 可能更为复杂。
[0034] 为了使本发明之叙述更加详尽与完备,可参照附图及以下所述之各种实施例。但 所提供之实施例并非用以限制本发明所涵盖的范围;步骤的描述亦非用以限制其执行之顺 序,任何由重新组合,所产生具有均等功效的装置,皆为本发明所涵盖的范围。
[0035] 于实施方式与申请专利范围中,除非内文中对于冠词有所特别限定,否则「一」与「 该」可泛指单一个或复数个。将进一步理解的是,本文中所使用的「包含」、「包括」、「具有」及 相似词汇,指明其所记载的特征、区域、整数、步骤、操作、组件与/或组件,但不排除其所述 或额外的其一个或多个其它特征、区域、整数、步骤、操作、组件、组件,与/或其中之群组。
[0036] 关于本文中所使用的「网络」泛指具有结构关系、组成关系、连接关系、通信关系、 运算关系、或逻辑关系的实体元件或抽象元件的关系组合,不局限于实际的通信网络。
[0037] 本发明可应用于智能车辆领域中的制造行业,用于智能车辆采集的道路环境的自 动定位和识别。道路坏境主要由背景、树木、可行驶路面、道路交通标线、车辆和行人组成。
[0038] 本发明可以基于机器视觉的道路识别与目标检测为研究对象,采用图像识别技 术,对采集的道路图像进行处理,自动识别出道路上的目标车辆行人及道路状况等信息。本 发明可在车辆自动驾驶系统中提供道路感知信息,在车辆道路安全防范及智能驾驶上起到 很大的推进作用。
[0039] 深度学习属于人工智能领域,是机器学习研究中的一个新的领域,其动机在于建 立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和 文本的检测分割及识别。
[0040] 本发明提供一种用于智能驾驶的深度学习图像识别方法,其通过深度学习网络共 享的方法,先对整张输入图像进行卷积计算,得到卷积网络特征图,然后根据检测和识别这 两个不同的任务将计算得到的特征图分配到不同的浅层网络中,完成各自的学习任务。
[0041] 请参阅图1,本发明实施例提供一种用于智能驾驶的深度学习图像识别方法,包 括:
[0042] S102,对输入的图像进行增强变换处理,增加输入图像数据的量的图像数据增强 步骤;所述增强变换处理的方式包括对源图像进行一种或多种组合几何变换。
[0043] 数据增强变换是通过在源数据上做几何变换,使用一种或多种组合数据增强变换 来增加输入数据的量。使得数据不同的任务背景下,更具有丰富性。典型的增强变换有:旋 转,镜像,对比度变换,平移变换等等。在送入训练网络前,可以通过一系列变换操作达到预 期的数据丰富目的,给网络提供更充足的可用样本。
[0044] S104,利用共享卷积网络基于N个预设卷积核对图像进行第一预设网络深度的卷 积相关处理,提取出所述图像的N个共享特征图的共享特征提取步骤;N为大于或等于1的正 整数。
[0045] 进一步,在所述共享特征提取步骤S104中,所述第一预设网络深度为卷积相关处 理的层数;第一预设网络深度的各所述卷积相关处理层均包括至少一卷积非线性组或/和 至少一池化层;所述卷积线性组包括一卷积层和一非线性层的联合;所述卷积层基于N个预 设卷积核对大小为W X H的图像进行卷积处理获得N个大小为W X H的卷积特征图;所述非线 性层对所述N个卷积特征图进行处理后获得N个大小为WXH的非线性特征图;所述池化层对 所述N个非线性特征图进行处理后获得N个大小为W/2XH/2的池化特征图。
[0046] 本发明中,当卷积或池化处理的步长为1时,对大小为WXH的图像卷积或池化处理 后得到的图像大小仍为WXH;当卷积或池化处理的步长为2时,对大小为WXH的图像卷积或 池化处理后得到的图像大小为W/2XH/2;以此类推;本发明的列举的实施例多数采用的步 长为1,偶尔采用的步长为2,实际应用中可以采用任何合适长度的步长,本发明的保护范围 不限于本发明实施例列举的步长的设置。
[0047] 例如,参见图2所示,共享卷积网络由13个卷积层,13个非线性层,4个池化层组成。 输入图片的大小为WXHXC,一般输入图像为RGB图像,即C = 3。其中,共享卷积网络具有5层 卷积相关处理层;第一层卷积相关处理层包括:2个卷积非线性组(卷积层Cl j,非线性层 Rl_l,卷积层Cl_2,非线性层Rl_2)和1个池化层(Pl);第二层卷积相关处理层包括:2个卷积 非线性组(卷积层C2_l,非线性层R2_l,卷积层C2_2,非线性层R2_2)和1个池化层(P2);第三 层卷积相关处理层包括:3个卷积非线性组(卷积层C3_l,非线性层R3 j,卷积层C3_2,非线 性层R3_2,卷积层C3_3,非线性层R3_3)和1个池化层(P3);第四层卷积相关处理层包括:3个 卷积非线性组(卷积层C4_l,非线性层R4 j,卷积层C4_2,非线性层R4_2,卷积层C4_3,非线 性层R4_3)和1个池化层(P4);第五层卷积相关处理层包括:3个卷积非线性组(卷积层C5_l, 非线性层R5 j,卷积层C5_2,非线性层R5_2,卷积层C5_3,非线性层R5_3)。图像通过第一个 卷积层Cl_l时,由N (可根据需要灵活设置)个3 X 3的卷积核进行卷积,滑动步长为1个像素, 输出的特征图个数(N)为64;64张卷积特征图经过第一个非线性层Rl_l (非线性层是将卷积 特征图上所有小于0阈值的像素点置0,大于等于0的像素点不做处理,保证输出的特征图的 像素值都是正值),得到64张 WXH大小的卷积特征图;再通过第二个卷积层Cl_2时,由3X3 的卷积核进行卷积,滑动步长为1个像素,输出的特征图个数(N)为64,64张卷积特征图经过 第二个非线性层Rl_2得到64张 WXH大小的卷积特征图,再经过第一个池化层Pl,以求最大 值的方式池化,池化范围大小可以是3X3,滑动步长为2,输出的为64个(W/2) X (H/2)大小 的特征图。以此类推,经过上述所有层的网络运算后获得512个(W/16) X (H/16)大小的特征 图,作为共享卷积网络的最终输出结果。
[0048] S106,利用区域分割网络基于第二预设卷积核对每个所述共享特征图进行第二预 设网络深度的卷积相关处理,获得与每个所述共享特征图对应的M个第二特征图,并将所述 M个第二特征图中的每个像素做sof tmax处理,选取M个第二特征图中相同位置像素的分数 最高像素的区域分类ID作为对应共享特征图的相同位置像素的类别标签的区域分割步骤; M为大于1的正整数。M也是区域分类的类别总数。
[0049] 进一步,在所述区域分割步骤S106中,所述第二预设网络深度为卷积相关处理的 层数;第二预设网络深度的卷积相关处理层包括至少一卷积非线性组和一 sof tmax层;所述 卷积线性组包括一卷积层和一非线性层的联合;与所述sof tmax层直接相连的卷积非线性 组中的卷积层基于M个预设卷积核对大小为W X H的图像进行卷积处理获得M个大小为W X H 的卷积特征图;与所述sof tmax层直接相连的卷积非线性组中的非线性层对所述M个卷积特 征图进行处理后获得M个大小为W X H的非线性特征图;所述softmax层对M个非线性特征图 进行softmax处理,获得M个第二特征图中相同位置像素的分数最高像素的区域分类ID作为 对应共享特征图的相同位置像素的类别标签;所述区域分类为对图像中的物体的分类,包 括天空,道路,植被,树木,红绿灯,或/和建筑物。
[0050] 本发明中,M也是区域分类的类别总数。每一层的卷积非线性组中的卷积层所选取 的卷积核数都可以根据实际需要进行设置,即各层的卷积非线性组中的卷积层所选取的卷 积核数可以相同,也可以不同;但是,在进入softmax层之前的最后一层卷积非线性组中的 卷积层所选取的卷积核数必须是M,即必须是区域分类的类别总数。其他步骤中的卷积层的 卷积核数(即卷积核的个数)也是类似的设置原理。
[0051] 例如,参见图3所示,区域分割网络由9个卷积层和9个非线性变换层和一个 softmax层组成,每个卷积层后面跟着一个非线性变换层,可对1个共享特征图计算得到M个 第二特征图,其中,M为第二预设卷积核的个数。将所述M个第二特征图中的每个像素做 softmax处理,1个共享特征图中的每个像素的位置即可对应M个softmax值(又可称分数), 从M个sof tmax值中按排序法找到sof tmax值最高的像素所对应的区域分类ID作为该共享特 征图当前像素的类别标签。至此,对整张共享特征图完成了图像的分割任务。其中,区域分 割的类别包括天空,道路,植被,树木,红绿灯,或/和建筑物等物体的整体图像分割。
[0052] Softmax的处理的方式ί
Figure CN106599773AD00121
,M为区域分 割的类别总数,为大于1的正整数;M个第二特征图中相同位置像素对应的特征值构成了 M维 特征向量Zj = {ζι,Ζ2,…,zm},Zi表示第i个第二特征图中相同位置像素对应的特征值;i = 1, 2,…Μ; δ」为某像素对应的第j个S0f tmax值;
[0053] S108,利用目标识别网络基于第三预设卷积核对每个所述共享特征图进行第三预 设网络深度的卷积处理,获得与每个所述共享特征图对应的2K个第三特征图,利用softmax 处理方法从所述2K个第三特征图中选取分数靠前的L个第三特征图的前景目标选取步骤;K 为大于1的正整数;L为小于K的正整数;
[0054]利用所述目标识别网络基于第四预设卷积核对每个所述共享特征图进行第四预 设网络深度的卷积相关处理,获得与每个所述共享特征图对应的P个第四特征图,结合所述 L个第三特征图的坐标信息获得P个目标分类特征图和4P个坐标特征图,并利用softmax处 理方法获得所述共享特征图中的目标分类结果和目标精确定位的目标识别定位步骤;P为 大于1的正整数。
[0055] 进一步,在所述前景目标选取步骤S108中,所述第三预设网络深度为卷积处理的 层数;第三预设网络深度的卷积处理层包括至少一卷积层和一 sof tmax层;所述至少一卷积 层基于预设卷积核对大小为W X H的图像进行卷积处理获得2K个大小为W X H的卷积特征图; 所述softmax层对所述2K个大小为W/2XH/2的卷积特征图进行处理获得分数靠前的L个卷 积特征图。
[0056] 所述第四预设网络深度为卷积相关处理的层数;第四预设网络深度的卷积相关处 理层包括至少一卷积层,2个池化层和2个softmax层;所述至少一卷积层基于预设卷积核对 大小为WXH的图像进行卷积处理获得P个大小为WXH的卷积特征图;2个池化层分别对所述 P个目标分类特征图和4P个坐标特征图进行处理获得P维分类向量和4P维坐标向量;2个 sof tmax层分别对所述P维分类向量和4P维坐标向量进行处理获得最后的目标分类结果和 目标精确定位;所述目标分类包括行人,骑手,汽车,巴士,卡车,火车,摩托车,或/和自行 车。
[0057] 例如,参见图4所示,目标识别网络由背景/前景的提取和目标的分类、定位两个步 骤完成,由6个卷积层,2个池化层和3个softmax层组成。其中,背景/前景的提取由目标识别 网络的分支一(卷积层C6 j,卷积层C6_2,卷积层C6_3,softmax层SI)完成,目标的分类、定 位由目标识别网络的分支二(卷积层C7_l,卷积层C7_2a,卷积层C7_2b,池化层P5,池化层 P6,sof tmax层S2,sof tmax层S3)完成。目标识别网络首先将共享卷积网络输出的共享特征 图作为该网络的输入,分别进入分支一和分支二,其中共享卷积网络的输出进入分支一后, 经过3个卷积层06^,06_2,06_3获得待定候选框21(个(1/2)\〇1/2)大小的特征图(即第三 特征图),这里的参数2指的是前景和背景,再通过softmax层Sl获得分数(即softmax值)靠 前的L个第三特征图(候选框)作为前景候选框等待下一步进行目标精确定位和类别识别。 而共享卷积网络的输出进入分支二后,经过三个卷积层07^,07_2 &,07_213获得第四特征 图,此时再结合上述L个第三特征图(候选框)的坐标信息获得P个目标分类特征图和4P个坐 标特征图,将P个目标分类特征图经池化层P5处理后获得P维分类向量,将4P个坐标特征图 经池化层P6处理后获得4P维坐标向量,再将P维分类向量送入softmax层S2进行处理获得目 标分类结果,将4P维坐标向量送入softmax层S3进行处理获得目标精确定位。至此完成了目 标的精确定位和识别。
[0058] S110,利用所述区域分割网络获得的区域分割结果和所述目标识别网络获得的目 标识别结果监督所述共享卷积网络,完成所述区域分割网络和所述目标识别网络的共享学 习的共享学习步骤。
[0059] 本发明提出了基于网络共享的道路检测(区域分割)和目标识别综合应用的深度 学习算法。在整个道路检测和目标识别过程中,深度学习网络根据最后的标注结果迭代训 练出网络模型,在迭代训练的过程中,道路分割网络和目标检测识别网络会同时对它们共 享的学习网络进行监督,保证两个学习任务的收敛和测试性能。
[0060] 本发明请实施例可以使用现有的深度网络训练工具进行模型训练,例如:caffe ( http://caffe.berkeleyvision.org/),使用过程中可通过定义solver文件给出训练的策 略参数。其中关键的参数包括,基础学习率(base_lr),学习率衰减方式(lr_p 〇licy),学习 率变化的比率(gamma)等,基础学习率的范围可以为0.0001~0.1,经验值一般选取0.1,学 习率衰减方式一般选取"step",即每训练N批次全部训练样本,base_lr衰减一次,衰减的系 数则为学习变化的比率gamma,学习变化的比率范围可以为0~1,经验值一般选取0.9。
[0061] 本发明所述的用于智能驾驶的深度学习图像识别方法的保护范围不限于本实施 例列举的步骤执行顺序,凡是根据本发明的原理所做的现有技术的步骤增减、步骤替换所 实现的方案都包括在本发明的保护范围内。
[0062] 本发明还提供一种用于智能驾驶的深度学习图像识别系统,所述用于智能驾驶的 深度学习图像识别系统可以实现本发明所述的用于智能驾驶的深度学习图像识别方法,但 本发明所述的用于智能驾驶的深度学习图像识别方法的实现装置包括但不限于本实施例 列举的用于智能驾驶的深度学习图像识别系统的结构,凡是根据本发明的原理所做的现有 技术的结构变形和替换,都包括在本发明的保护范围内。
[0063] 参见图5所示,本发明实施例提供一种用于智能驾驶的深度学习图像识别系统 500,针对道路驾驶场景图像,包括:图像数据增强模块502,共享卷积网络504,区域分割网 络506,或/和目标识别网络508,实现分割与识别的统一网络架构。
[0064] 所述图像数据增强模块502对输入的图像进行增强变换处理,增加输入图像数据 的量;所述增强变换处理的方式包括旋转、镜像、对比度变换、或/和平移变换等。
[0065] 所述共享卷积网络504基于N个预设卷积核对图像进行第一预设网络深度的卷积 相关处理,提取出所述图像的N个共享特征图;N为大于或等于1的正整数。
[0066] 进一步,所述共享卷积网络504中的所述第一预设网络深度为卷积相关处理的层 数;所述第一预设网络深度的各所述卷积相关处理层均包括至少一卷积非线性组或/和至 少一池化层;所述卷积线性组包括一卷积层和一非线性层的联合;所述卷积层基于N个预设 卷积核对大小为W X H的图像进行卷积处理获得N个大小为W X H的卷积特征图;所述非线性 层对所述N个卷积特征图进行处理后获得N个大小为WXH的非线性特征图;所述池化层对所 述N个非线性特征图进行处理后获得N个大小为W/2XH/2的池化特征图。
[0067] 所述区域分割网络506与所述共享卷积网络504相连,基于第二预设卷积核对每个 所述共享特征图进行第二预设网络深度的卷积相关处理,获得与每个所述共享特征图对应 的M个第二特征图,并将所述M个第二特征图中的每个像素做softmax处理,选取M个第二特 征图中相同位置像素的分数最高像素的区域分类ID作为对应共享特征图的相同位置像素 的类别标签;M为大于1的正整数;M也是区域分类的类别总数。
[0068] 进一步,所述区域分割网络506中的所述第二预设网络深度为卷积相关处理的层 数;所述第二预设网络深度的卷积相关处理层包括至少一卷积非线性组和一 sof tmax层;所 述卷积线性组包括一卷积层和一非线性层的联合;与所述sof tmax层直接相连的卷积非线 性组中的卷积层基于M个预设卷积核对大小为W X H的图像进行卷积处理获得M个大小为W X H的卷积特征图;与所述sof tmax层直接相连的卷积非线性组中的非线性层对所述M个卷积 特征图进行处理后获得M个大小为W X H的非线性特征图;所述sof tmax层对M个非线性特征 图进行softmax处理,获得M个第二特征图中相同位置像素的分数最高像素的区域分类ID作 为对应共享特征图的相同位置像素的类别标签;所述区域分类为对图像中的物体的分类, 包括天空,道路,植被,树木,红绿灯,或/和建筑物。本发明中,M也是区域分类的类别总数。 每一层的卷积非线性组中的卷积层所选取的卷积核数都可以根据实际需要进行设置,即各 层的卷积非线性组中的卷积层所选取的卷积核数可以相同,也可以不同;但是,在进入 softmax层之前的最后一层卷积非线性组中的卷积层所选取的卷积核数必须是M,即必须是 区域分类的类别总数。其他步骤中的卷积层的卷积核数(即卷积核的个数)也是类似的设置 原理。
[0069] 所述目标识别网络508与所述共享卷积网络504相连,基于第三预设卷积核对每个 所述共享特征图进行第三预设网络深度的卷积处理,获得与每个所述共享特征图对应的2K 个第三特征图,利用softmax处理方法从所述2K个第三特征图中选取分数靠前的L个第三特 征图;K为大于1的正整数;L为小于K的正整数。
[0070] 所述目标识别网络508基于第四预设卷积核对每个所述共享特征图进行第四预设 网络深度的卷积相关处理,获得与每个所述共享特征图对应的P个第四特征图,结合所述L 个第三特征图的坐标信息获得P个目标分类特征图和4P个坐标特征图,并利用softmax处理 方法获得所述共享特征图中的目标分类结果和目标精确定位;P为大于1的正整数。
[0071] 进一步,所述目标识别网络508中的所述第三预设网络深度为卷积处理的层数;所 述第三预设网络深度的卷积处理层包括至少一卷积层和一 softmax层;所述至少一卷积层 基于预设卷积核对大小为W X H的图像进行卷积处理获得2K个大小为W X H的卷积特征图;所 述softmax层对所述2K个大小为W X H的卷积特征图进行处理获得分数靠前的L个卷积特征 图。
[0072] 所述目标识别网络中的所述第四预设网络深度为卷积相关处理的层数;所述第四 预设网络深度的卷积相关处理层包括至少一卷积层,2个池化层和2个softmax层;所述至少 一卷积层基于预设卷积核对大小为WXH的图像进行卷积处理获得P个大小为W/2XH/2的卷 积特征图;2个池化层分别对所述P个目标分类特征图和4P个坐标特征图进行处理获得P维 分类向量和4P维坐标向量;2个softmax层分别对所述P维分类向量和4P维坐标向量进行处 理获得最后的目标分类结果和目标精确定位;所述目标分类结果包括行人,骑手,汽车,巴 士,卡车,火车,摩托车,或/和自行车。
[0073]利用所述区域分割网络获得的区域分割结果和所述目标识别网络获得的目标识 别结果监督所述共享卷积网络,完成所述区域分割网络和所述目标识别网络在统一网络架 构下的共享学习。本发明提出了基于网络共享的道路检测(区域分割)和目标识别综合应用 的深度学习算法。在整个道路检测和目标识别过程中,深度学习网络根据最后的标注结果 迭代训练出网络模型,在迭代训练的过程中,道路分割网络和目标检测识别网络会同时对 它们共享的学习网络进行监督,保证两个学习任务的收敛和测试性能。
[0074] 本发明将共享性深度学习网络作为一种提取特征的手段,在处理多任务学习时, 它比传统的卷积神经网络具有更小更精的优势,它不仅继承了原有网络中的权值共享,同 时还共享了部分网络结构和模型,不仅仅保留了单层网络的准确率,还大大减少了计算成 本,在多任务学习上具有明显的速度优势,相对于单独学习两个独立的网络,具有耗时少, 效率高的特点。本发明有效的规避了卷积层重复运算的问题,可以完成多任务的检测和识 别。
[0075] 参见图6所示,本发明实施例还提供一种终端设备,所述终端设备包括所述用于智 能驾驶的深度学习图像识别系统500 (或用于智能驾驶的深度学习图像识别方法)训练生成 的图像检测识别模型600。所述图像检测识别模型600包括:共享卷积网络604,区域分割网 络606,或/和目标识别网络608。所述终端设备包括可用于智能驾驶的车辆、飞行器、照相 机、摄像机、或/和图像处理设备等任意类型的需要加载使用所述图像检测识别模型600的 设备。
[0076] 所述共享卷积网络604基于N个预设卷积核对图像进行第一预设网络深度的卷积 相关处理,提取出所述图像的N个共享特征图;N为大于或等于1的正整数。
[0077] 进一步,所述共享卷积网络604中的所述第一预设网络深度为卷积相关处理的层 数;所述第一预设网络深度的各所述卷积相关处理层均包括至少一卷积非线性组或/和至 少一池化层;所述卷积线性组包括一卷积层和一非线性层的联合;所述卷积层基于N个预设 卷积核对大小为W X H的图像进行卷积处理获得N个大小为W X H的卷积特征图;所述非线性 层对所述N个卷积特征图进行处理后获得N个大小为WXH的非线性特征图;所述池化层对所 述N个非线性特征图进行处理后获得N个大小为W/2XH/2的池化特征图。
[0078] 所述区域分割网络606与所述共享卷积网络604相连,基于第二预设卷积核对每个 所述共享特征图进行第二预设网络深度的卷积相关处理,获得与每个所述共享特征图对应 的M个第二特征图,并将所述M个第二特征图中的每个像素做softmax处理,选取M个第二特 征图中相同位置像素的分数最高像素的区域分类ID作为对应共享特征图的相同位置像素 的类别标签;M为大于1的正整数。M也是区域分类的类别总数。
[0079] 进一步,所述区域分割网络606中的所述第二预设网络深度为卷积相关处理的层 数;所述第二预设网络深度的卷积相关处理层包括至少一卷积非线性组和一 sof tmax层;所 述卷积线性组包括一卷积层和一非线性层的联合;与所述sof tmax层直接相连的卷积非线 性组中的卷积层基于M个预设卷积核对大小为W X H的图像进行卷积处理获得M个大小为W X H的卷积特征图;与所述sof tmax层直接相连的卷积非线性组中的非线性层对所述M个卷积 特征图进行处理后获得M个大小为W X H的非线性特征图;所述sof tmax层对M个非线性特征 图进行softmax处理,获得M个第二特征图中相同位置像素的分数最高像素的区域分类ID作 为对应共享特征图的相同位置像素的类别标签;所述区域分类为对图像中的物体的分类, 包括天空,道路,植被,树木,红绿灯,或/和建筑物。
[0080] 所述目标识别网络608与所述共享卷积网络604相连,基于第三预设卷积核对每个 所述共享特征图进行第三预设网络深度的卷积处理,获得与每个所述共享特征图对应的2K 个第三特征图,利用softmax处理方法从所述2K个第三特征图中选取分数靠前的L个第三特 征图;K为大于1的正整数;L为小于K的正整数。
[0081] 所述目标识别网络608基于第四预设卷积核对每个所述共享特征图进行第四预设 网络深度的卷积相关处理,获得与每个所述共享特征图对应的P个第四特征图,结合所述L 个第三特征图的坐标信息获得P个目标分类特征图和4P个坐标特征图,并利用softmax处理 方法获得所述共享特征图中的目标分类结果和目标精确定位;P为大于1的正整数。
[0082] 进一步,所述目标识别网络608中的所述第三预设网络深度为卷积处理的层数;所 述第三预设网络深度的卷积处理层包括至少一卷积层和一 sof tmax层;所述至少一卷积层 基于预设卷积核对大小为W X H的图像进行卷积处理获得2K个大小为W X H的卷积特征图;所 述softmax层对所述2K个大小为W/2XH/2的卷积特征图进行处理获得分数靠前的L个卷积 特征图。
[0083] 所述目标识别网络中的所述第四预设网络深度为卷积相关处理的层数;所述第四 预设网络深度的卷积相关处理层包括至少一卷积层,2个池化层和2个sof tmax层;所述至少 一卷积层基于预设卷积核对大小为W X H的图像进行卷积处理获得P个大小为W X H的卷积特 征图;2个池化层分别对所述P个目标分类特征图和4P个坐标特征图进行处理获得P维分类 向量和4P维坐标向量;2个sof tmax层分别对所述P维分类向量和4P维坐标向量进行处理获 得最后的目标分类结果和目标精确定位;所述目标分类结果包括行人,骑手,汽车,巴士,卡 车,火车,摩托车,或/和自行车。
[0084]利用本发明对采集的道路进行处理,自动识别背景、树木、可行驶路面、道路交通 标线、车辆和行人,经验证能够取得非常理想的检测识别准确率。
[0085]综上所述,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。 [0086]上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟 悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因 此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完 成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (12)

1. 一种用于智能驾驶的深度学习图像识别方法,其特征在于,所述用于智能驾驶的深 度学习图像识别方法包括: 利用共享卷积网络基于N个预设卷积核对图像进行第一预设网络深度的卷积相关处 理,提取出所述图像的N个共享特征图的共享特征提取步骤;N为大于或等于1的正整数; 利用区域分割网络基于第二预设卷积核对每个所述共享特征图进行第二预设网络深 度的卷积相关处理,获得与每个所述共享特征图对应的Μ个第二特征图,并将所述Μ个第二 特征图中的每个像素做softmax处理,选取Μ个第二特征图中相同位置像素的分数最高像素 的区域分类ID作为对应共享特征图的相同位置像素的类别标签的区域分割步骤;Μ为大于1 的正整数;Μ是区域分类的类别总数; 利用目标识别网络基于第三预设卷积核对每个所述共享特征图进行第三预设网络深 度的卷积处理,获得与每个所述共享特征图对应的2Κ个第三特征图,利用softmax处理方法 从所述2K个第三特征图中选取分数靠前的L个第三特征图的前景目标选取步骤;K为大于1 的正整数;L为小于K的正整数; 利用所述目标识别网络基于第四预设卷积核对每个所述共享特征图进行第四预设网 络深度的卷积相关处理,获得与每个所述共享特征图对应的P个第四特征图,结合所述L个 第三特征图的坐标信息获得P个目标分类特征图和4P个坐标特征图,并利用softmax处理方 法获得所述共享特征图中的目标分类结果和目标精确定位的目标识别定位步骤;P为大于1 的正整数; 利用所述区域分割网络获得的区域分割结果和所述目标识别网络获得的目标识别结 果监督所述共享卷积网络,完成所述区域分割网络和所述目标识别网络的共享学习的共享 学习步骤。
2. 根据权利要求1所述的用于智能驾驶的深度学习图像识别方法,其特征在于:所述共 享特征提取步骤中,所述第一预设网络深度为卷积相关处理的层数;第一预设网络深度的 各所述卷积相关处理层均包括至少一卷积非线性组或/和至少一池化层;所述卷积线性组 包括一卷积层和一非线性层的联合;所述卷积层基于N个预设卷积核对图像进行卷积处理 获得N个卷积特征图;所述非线性层对所述N个卷积特征图进行处理后获得N个非线性特征 图;所述池化层对所述N个非线性特征图进行处理后获得N个池化特征图。
3. 根据权利要求1所述的用于智能驾驶的深度学习图像识别方法,其特征在于:所述区 域分割步骤中,所述第二预设网络深度为卷积相关处理的层数;第二预设网络深度的卷积 相关处理层包括至少一卷积非线性组和一 softmax层;所述卷积线性组包括一卷积层和一 非线性层的联合;与所述softmax层直接相连的卷积非线性组中的卷积层基于Μ个预设卷积 核对图像进行卷积处理获得Μ个卷积特征图;与所述softmax层直接相连的卷积非线性组中 的非线性层对所述Μ个卷积特征图进行处理后获得Μ个非线性特征图;所述softmax层对Μ个 非线性特征图进行softmax处理,获得Μ个第二特征图中相同位置像素的分数最高像素的区 域分类ID作为对应共享特征图的相同位置像素的类别标签;所述区域分类为对图像中的物 体的分类,包括天空,道路,植被,树木,红绿灯,或/和建筑物。
4. 根据权利要求1所述的用于智能驾驶的深度学习图像识别方法,其特征在于:所述前 景目标选取步骤中,所述第三预设网络深度为卷积处理的层数;第三预设网络深度的卷积 处理层包括至少一卷积层和一 softmax层;所述至少一卷积层基于预设卷积核对图像进行 卷积处理获得2K个卷积特征图;所述softmax层对所述2K个卷积特征图进行处理获得分数 靠前的L个卷积特征图。
5. 根据权利要求1所述的用于智能驾驶的深度学习图像识别方法,其特征在于:所述目 标识别定位步骤中,所述第四预设网络深度为卷积相关处理的层数;第四预设网络深度的 卷积相关处理层包括至少一卷积层,2个池化层和2个softmax层;所述至少一卷积层基于预 设卷积核对图像进行卷积处理获得P个卷积特征图;2个池化层分别对所述P个目标分类特 征图和4P个坐标特征图进行处理获得P维分类向量和4P维坐标向量;2个softmax层分别对 所述P维分类向量和4P维坐标向量进行处理获得最后的目标分类结果和目标精确定位;所 述目标分类结果包括行人,骑手,汽车,巴士,卡车,火车,摩托车,或/和自行车。
6. 根据权利要求1所述的用于智能驾驶的深度学习图像识别方法,其特征在于,所述用 于智能驾驶的深度学习图像检测识别方法还包括: 在所述共享特征提取步骤前实施的图像数据增强步骤,具体包括:对输入的图像进行 增强变换处理,增加输入图像数据的量;所述增强变换处理的方式包括对源图像进行一种 或多种组合几何变换。
7. -种用于智能驾驶的深度学习图像识别系统,其特征在于,所述用于智能驾驶的深 度学习图像识别系统包括: 共享卷积网络,基于N个预设卷积核对图像进行第一预设网络深度的卷积相关处理,提 取出所述图像的N个共享特征图;N为大于或等于1的正整数; 区域分割网络,与所述共享卷积网络相连,基于第二预设卷积核对每个所述共享特征 图进行第二预设网络深度的卷积相关处理,获得与每个所述共享特征图对应的Μ个第二特 征图,并将所述Μ个第二特征图中的每个像素做softmax处理,选取Μ个第二特征图中相同位 置像素的分数最高像素的区域分类ID作为对应共享特征图的相同位置像素的类别标签的 区域分割步骤;Μ为大于1的正整数;Μ是区域分类的类别总数; 目标识别网络,与所述共享卷积网络相连,基于第三预设卷积核对每个所述共享特征 图进行第三预设网络深度的卷积处理,获得与每个所述共享特征图对应的2Κ个第三特征 图,利用softmax处理方法从所述2Κ个第三特征图中选取分数靠前的L个第三特征图;Κ为大 于1的正整数;L为小于K的正整数; 所述目标识别网络基于第四预设卷积核对每个所述共享特征图进行第四预设网络深 度的卷积相关处理,获得与每个所述共享特征图对应的P个第四特征图,结合所述L个第三 特征图的坐标信息获得P个目标分类特征图和4P个坐标特征图,并利用softmax处理方法获 得所述共享特征图中的目标分类结果和目标精确定位;P为大于1的正整数; 利用所述区域分割网络获得的区域分割结果和所述目标识别网络获得的目标识别结 果监督所述共享卷积网络,完成所述区域分割网络和所述目标识别网络的共享学习。
8. 根据权利要求7所述的用于智能驾驶的深度学习图像识别系统,其特征在于:所述共 享卷积网络中的所述第一预设网络深度为卷积相关处理的层数;所述第一预设网络深度的 各所述卷积相关处理层均包括至少一卷积非线性组或/和至少一池化层;所述卷积线性组 包括一卷积层和一非线性层的联合;所述卷积层基于N个预设卷积核对图像进行卷积处理 获得N个卷积特征图;所述非线性层对所述N个卷积特征图进行处理后获得N个非线性特征 图;所述池化层对所述N个非线性特征图进行处理后获得N个池化特征图。
9. 根据权利要求7所述的用于智能驾驶的深度学习图像识别系统,其特征在于:所述区 域分割网络中的所述第二预设网络深度为卷积相关处理的层数;所述第二预设网络深度的 卷积相关处理层包括至少一卷积非线性组和一 softmax层;所述卷积线性组包括一卷积层 和一非线性层的联合;与所述softmax层直接相连的卷积非线性组中的卷积层基于Μ个预设 卷积核对图像进行卷积处理获得Μ个卷积特征图;与所述softmax层直接相连的卷积非线性 组中的非线性层对所述Μ个卷积特征图进行处理后获得Μ个非线性特征图;所述softmax层 对Μ个非线性特征图进行softmax处理,获得Μ个第二特征图中相同位置像素的分数最高像 素的区域分类ID作为对应共享特征图的相同位置像素的类别标签;所述区域分类为对图像 中的物体的分类,包括天空,道路,植被,树木,红绿灯,或/和建筑物。
10. 根据权利要求7所述的用于智能驾驶的深度学习图像识别系统,其特征在于:所述 目标识别网络中的所述第三预设网络深度为卷积处理的层数;所述第三预设网络深度的卷 积处理层包括至少一卷积层和一 softmax层;所述至少一卷积层基于预设卷积核对图像进 行卷积处理获得2K个卷积特征图;所述softmax层对所述2K个卷积特征图进行处理获得分 数靠前的L个卷积特征图; 所述目标识别网络中的所述第四预设网络深度为卷积相关处理的层数;所述第四预设 网络深度的卷积相关处理层包括至少一卷积层,2个池化层和2个softmax层;所述至少一卷 积层基于预设卷积核对图像进行卷积处理获得P个卷积特征图;2个池化层分别对所述P个 目标分类特征图和4P个坐标特征图进行处理获得P维分类向量和4P维坐标向量;2个 softmax层分别对所述P维分类向量和4P维坐标向量进行处理获得最后的目标分类结果和 目标精确定位;所述目标分类结果包括行人,骑手,汽车,巴士,卡车,火车,摩托车,或/和自 行车。
11. 一种终端设备,其特征在于,所述终端设备包括权利要求7至10任意一项所述的用 于智能驾驶的深度学习图像识别系统训练生成的图像检测识别模型;所述图像检测识别模 型包括: 共享卷积网络,基于N个预设卷积核对图像进行第一预设网络深度的卷积相关处理,提 取出所述图像的N个共享特征图;N为大于或等于1的正整数; 区域分割网络,与所述共享卷积网络相连,基于第二预设卷积核对每个所述共享特征 图进行第二预设网络深度的卷积相关处理,获得与每个所述共享特征图对应的Μ个第二特 征图,并将所述Μ个第二特征图中的每个像素做softmax处理,选取Μ个第二特征图中相同位 置像素的分数最高像素的区域分类ID作为对应共享特征图的相同位置像素的类别标签的 区域分割步骤;Μ为大于1的正整数;Μ是区域分类的类别总数; 目标识别网络,与所述共享卷积网络相连,基于第三预设卷积核对每个所述共享特征 图进行第三预设网络深度的卷积处理,获得与每个所述共享特征图对应的2Κ个第三特征 图,利用softmax处理方法从所述2Κ个第三特征图中选取分数靠前的L个第三特征图;Κ为大 于1的正整数;L为小于K的正整数;所述目标识别网络基于第四预设卷积核对每个所述共享 特征图进行第四预设网络深度的卷积相关处理,获得与每个所述共享特征图对应的P个第 四特征图,结合所述L个第三特征图的坐标信息获得P个目标分类特征图和4P个坐标特征 图,并利用softmax处理方法获得所述共享特征图中的目标分类结果和目标精确定位;P为 大于1的正整数。
12.根据权利要求11所述的终端设备,其特征在于:所述终端设备包括车辆、飞行器、照 相机、摄像机、或/和图像处理设备。
CN201610929312.XA 2016-10-31 2016-10-31 用于智能驾驶的深度学习图像识别方法、系统及终端设备 Active CN106599773B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610929312.XA CN106599773B (zh) 2016-10-31 2016-10-31 用于智能驾驶的深度学习图像识别方法、系统及终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610929312.XA CN106599773B (zh) 2016-10-31 2016-10-31 用于智能驾驶的深度学习图像识别方法、系统及终端设备

Publications (2)

Publication Number Publication Date
CN106599773A true CN106599773A (zh) 2017-04-26
CN106599773B CN106599773B (zh) 2019-12-24

Family

ID=58555745

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610929312.XA Active CN106599773B (zh) 2016-10-31 2016-10-31 用于智能驾驶的深度学习图像识别方法、系统及终端设备

Country Status (1)

Country Link
CN (1) CN106599773B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107194612A (zh) * 2017-06-20 2017-09-22 清华大学 一种基于深度强化学习的列车运行调度方法及系统
CN107563357A (zh) * 2017-09-29 2018-01-09 北京奇虎科技有限公司 基于场景分割的直播服饰装扮推荐方法、装置及计算设备
CN107610146A (zh) * 2017-09-29 2018-01-19 北京奇虎科技有限公司 图像场景分割方法、装置、计算设备及计算机存储介质
CN107609483A (zh) * 2017-08-15 2018-01-19 中国科学院自动化研究所 面向驾驶辅助系统的危险目标检测方法、装置
CN107622498A (zh) * 2017-09-29 2018-01-23 北京奇虎科技有限公司 基于场景分割的图像穿越处理方法、装置及计算设备
CN107729929A (zh) * 2017-09-30 2018-02-23 百度在线网络技术(北京)有限公司 用于获取信息的方法及装置
CN108021933A (zh) * 2017-11-23 2018-05-11 深圳市华尊科技股份有限公司 神经网络识别模型及识别方法
CN108182428A (zh) * 2018-01-31 2018-06-19 福州大学 前车状态识别和车辆跟随的方法
CN108399398A (zh) * 2018-03-22 2018-08-14 武汉云衡智能科技有限公司 一种基于深度学习的无人驾驶汽车障碍物识别检测方法
CN109325385A (zh) * 2017-07-31 2019-02-12 株式会社理光 目标检测和区域分割方法、装置和计算机可读存储介质
CN109389046A (zh) * 2018-09-11 2019-02-26 昆山星际舟智能科技有限公司 用于自动驾驶的全天候物体识别与车道线检测方法
CN109388135A (zh) * 2017-08-14 2019-02-26 通用汽车环球科技运作有限责任公司 使用深度时空学习的自主操作
CN109657522A (zh) * 2017-10-10 2019-04-19 北京京东尚科信息技术有限公司 检测可行驶区域的方法和装置
CN109727188A (zh) * 2017-10-31 2019-05-07 比亚迪股份有限公司 图像处理方法及其装置、安全驾驶方法及其装置
CN109993082A (zh) * 2019-03-20 2019-07-09 上海理工大学 卷积神经网络道路场景分类与道路分割方法
CN110378278A (zh) * 2019-07-16 2019-10-25 北京地平线机器人技术研发有限公司 神经网络的训练方法、对象搜索方法、装置以及电子设备
CN110705134A (zh) * 2019-12-13 2020-01-17 中智行科技有限公司 行驶测试方法、装置、设备及计算机可读存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030028359A1 (en) * 2001-03-15 2003-02-06 Julian Eggert Simulation of convolutional network behavior and visualizing internal states of a network
US20140005907A1 (en) * 2012-06-29 2014-01-02 Magna Electronics Inc. Vision-based adaptive cruise control system
CN103810287A (zh) * 2014-02-25 2014-05-21 西安电子科技大学 基于有监督共享组件主题模型的图像分类方法
CN105701510A (zh) * 2016-01-13 2016-06-22 清华大学 一种基于共享模型空间学习的零镜头图像分类方法
CN105956532A (zh) * 2016-04-25 2016-09-21 大连理工大学 一种基于多尺度卷积神经网络的交通场景分类方法
CN105956626A (zh) * 2016-05-12 2016-09-21 成都新舟锐视科技有限公司 基于深度学习的对车牌位置不敏感的车牌识别方法
CN105975915A (zh) * 2016-04-28 2016-09-28 大连理工大学 一种基于多任务卷积神经网络的前方车辆参数识别方法
CN106022232A (zh) * 2016-05-12 2016-10-12 成都新舟锐视科技有限公司 基于深度学习的车牌检测方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030028359A1 (en) * 2001-03-15 2003-02-06 Julian Eggert Simulation of convolutional network behavior and visualizing internal states of a network
US20140005907A1 (en) * 2012-06-29 2014-01-02 Magna Electronics Inc. Vision-based adaptive cruise control system
CN103810287A (zh) * 2014-02-25 2014-05-21 西安电子科技大学 基于有监督共享组件主题模型的图像分类方法
CN105701510A (zh) * 2016-01-13 2016-06-22 清华大学 一种基于共享模型空间学习的零镜头图像分类方法
CN105956532A (zh) * 2016-04-25 2016-09-21 大连理工大学 一种基于多尺度卷积神经网络的交通场景分类方法
CN105975915A (zh) * 2016-04-28 2016-09-28 大连理工大学 一种基于多任务卷积神经网络的前方车辆参数识别方法
CN105956626A (zh) * 2016-05-12 2016-09-21 成都新舟锐视科技有限公司 基于深度学习的对车牌位置不敏感的车牌识别方法
CN106022232A (zh) * 2016-05-12 2016-10-12 成都新舟锐视科技有限公司 基于深度学习的车牌检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
GIRSHICKR.: "Fast R-CNN", 《PROCEEDINGSOF PROCEEDINGSOF THEIEEEINTERNATIONALCONFERENCEONCOMPUTERVISION》 *
任少卿: "基于特征共享的高效物体检测", 《中国博士学位论文全文数据库 信息科技辑》 *
樊磊: "《多媒体与教学》", 31 July 1997, 人民邮电出版社 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107194612B (zh) * 2017-06-20 2020-10-13 清华大学 一种基于深度强化学习的列车运行调度方法及系统
CN107194612A (zh) * 2017-06-20 2017-09-22 清华大学 一种基于深度强化学习的列车运行调度方法及系统
CN109325385A (zh) * 2017-07-31 2019-02-12 株式会社理光 目标检测和区域分割方法、装置和计算机可读存储介质
CN109388135A (zh) * 2017-08-14 2019-02-26 通用汽车环球科技运作有限责任公司 使用深度时空学习的自主操作
CN107609483A (zh) * 2017-08-15 2018-01-19 中国科学院自动化研究所 面向驾驶辅助系统的危险目标检测方法、装置
CN107610146A (zh) * 2017-09-29 2018-01-19 北京奇虎科技有限公司 图像场景分割方法、装置、计算设备及计算机存储介质
CN107563357B (zh) * 2017-09-29 2021-06-04 北京奇虎科技有限公司 基于场景分割的直播服饰装扮推荐方法、装置及计算设备
CN107610146B (zh) * 2017-09-29 2021-02-23 北京奇虎科技有限公司 图像场景分割方法、装置、电子设备及计算机存储介质
CN107563357A (zh) * 2017-09-29 2018-01-09 北京奇虎科技有限公司 基于场景分割的直播服饰装扮推荐方法、装置及计算设备
CN107622498A (zh) * 2017-09-29 2018-01-23 北京奇虎科技有限公司 基于场景分割的图像穿越处理方法、装置及计算设备
CN107622498B (zh) * 2017-09-29 2021-06-04 北京奇虎科技有限公司 基于场景分割的图像穿越处理方法、装置及计算设备
CN107729929B (zh) * 2017-09-30 2021-03-19 百度在线网络技术(北京)有限公司 用于获取信息的方法及装置
CN107729929A (zh) * 2017-09-30 2018-02-23 百度在线网络技术(北京)有限公司 用于获取信息的方法及装置
CN109657522A (zh) * 2017-10-10 2019-04-19 北京京东尚科信息技术有限公司 检测可行驶区域的方法和装置
CN109727188A (zh) * 2017-10-31 2019-05-07 比亚迪股份有限公司 图像处理方法及其装置、安全驾驶方法及其装置
CN108021933B (zh) * 2017-11-23 2020-06-05 深圳市华尊科技股份有限公司 神经网络识别装置及识别方法
CN108021933A (zh) * 2017-11-23 2018-05-11 深圳市华尊科技股份有限公司 神经网络识别模型及识别方法
CN108182428A (zh) * 2018-01-31 2018-06-19 福州大学 前车状态识别和车辆跟随的方法
CN108399398A (zh) * 2018-03-22 2018-08-14 武汉云衡智能科技有限公司 一种基于深度学习的无人驾驶汽车障碍物识别检测方法
CN109389046A (zh) * 2018-09-11 2019-02-26 昆山星际舟智能科技有限公司 用于自动驾驶的全天候物体识别与车道线检测方法
CN109993082A (zh) * 2019-03-20 2019-07-09 上海理工大学 卷积神经网络道路场景分类与道路分割方法
CN110378278A (zh) * 2019-07-16 2019-10-25 北京地平线机器人技术研发有限公司 神经网络的训练方法、对象搜索方法、装置以及电子设备
CN110705134A (zh) * 2019-12-13 2020-01-17 中智行科技有限公司 行驶测试方法、装置、设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN106599773B (zh) 2019-12-24

Similar Documents

Publication Publication Date Title
CN106599773A (zh) 用于智能驾驶的深度学习图像识别方法、系统及终端设备
CN106504233A (zh) 基于Faster R‑CNN的无人机巡检图像电力小部件识别方法及系统
CN106372648A (zh) 基于多特征融合卷积神经网络的浮游生物图像分类方法
CN108780508A (zh) 用于归一化图像的系统和方法
CN104517103A (zh) 一种基于深度神经网络的交通标志分类方法
CN105956626A (zh) 基于深度学习的对车牌位置不敏感的车牌识别方法
CN107871134A (zh) 一种人脸检测方法及装置
CN104462494B (zh) 一种基于无监督特征学习的遥感图像检索方法及系统
CN107527007A (zh) 用于检测关注对象的图像处理系统
CN105955708A (zh) 一种基于深度卷积神经网络的体育视频镜头分类方法
CN108647585A (zh) 一种基于多尺度循环注意力网络的交通标识符检测方法
CN107330453A (zh) 基于分步识别和融合关键部位检测的色情图像识别方法
CN107392130A (zh) 基于阈值自适应和卷积神经网络的多光谱图像分类方法
CN110235146A (zh) 用于检测图像中的感兴趣对象的方法和装置
CN109086668B (zh) 基于多尺度生成对抗网络的无人机遥感影像道路信息提取方法
CN108776777A (zh) 一种基于Faster RCNN的遥感影像对象间空间关系的识别方法
CN106934355A (zh) 基于深度卷积神经网络的车内手检测方法
CN106651887A (zh) 一种基于卷积神经网络的图像像素分类方法
CN106326932A (zh) 一种基于神经网络的电力巡线图像自动识别方法、装置
CN107909084A (zh) 一种基于卷积‑线性回归网络的雾霾浓度预测方法
CN104008374B (zh) 一种矿井图像中基于条件随机场的矿工检测方法
CN108830199A (zh) 识别交通灯信号的方法、装置、可读介质及电子设备
CN108198202A (zh) 一种基于光流和神经网络的视频内容检测方法
CN106295645B (zh) 一种车牌字符识别方法和装置
CN103793054B (zh) 一种模拟陈述性记忆过程的动作识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant