CN111047630B - 神经网络和基于神经网络的目标检测及深度预测方法 - Google Patents
神经网络和基于神经网络的目标检测及深度预测方法 Download PDFInfo
- Publication number
- CN111047630B CN111047630B CN201911106727.7A CN201911106727A CN111047630B CN 111047630 B CN111047630 B CN 111047630B CN 201911106727 A CN201911106727 A CN 201911106727A CN 111047630 B CN111047630 B CN 111047630B
- Authority
- CN
- China
- Prior art keywords
- composite layer
- layer
- receptive field
- network
- target detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 210
- 238000000034 method Methods 0.000 title claims abstract description 72
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 59
- 238000010586 diagram Methods 0.000 claims abstract description 19
- 238000007781 pre-processing Methods 0.000 claims abstract description 12
- 239000002131 composite material Substances 0.000 claims description 165
- 230000006870 function Effects 0.000 claims description 36
- 238000012545 processing Methods 0.000 claims description 30
- 238000011176 pooling Methods 0.000 claims description 25
- 230000008569 process Effects 0.000 claims description 24
- 230000015654 memory Effects 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 6
- 230000000007 visual effect Effects 0.000 claims description 6
- 238000011161 development Methods 0.000 abstract description 4
- 238000012549 training Methods 0.000 description 9
- 238000013135 deep learning Methods 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 7
- 230000008901 benefit Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000011022 operating instruction Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 102100034112 Alkyldihydroxyacetonephosphate synthase, peroxisomal Human genes 0.000 description 1
- 101000799143 Homo sapiens Alkyldihydroxyacetonephosphate synthase, peroxisomal Proteins 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000000848 angular dependent Auger electron spectroscopy Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/30—Determination of transform parameters for the alignment of images, i.e. image registration
- G06T7/33—Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20016—Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20228—Disparity calculation for image-based rendering
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本申请提供的一种神经网络和基于神经网络的目标检测及深度预测方法,所述神经网络包括:深度预测子网络、及目标检测子网络;所述深度预测子网络根据原始图像进行预处理以提取特征图,并将浅层特征图和深层特征图进行拼接,再通过深度预测输出多个不同尺度的视差图,据以得到深度图;所述目标检测子网络根据部分所述特征图通过感受野模块以进行多维度信息的目标检测;通过所述深度预测子网络与所述目标检测子网络结合实现单一网络,以同时输出所述深度图及目标检测结果。本申请通过单目视觉提供了精准且高效的FCW方案,能够为市面上绝大多数的汽车厂商所搭配,从而推进自动驾驶产业,发展前景巨大。
Description
技术领域
本发明涉及神经网络技术领域,特别是涉及一种神经网络和基于神经网络的目标检测及 深度预测方法。
背景技术
作为深度预测的技术,以自动驾驶领域为例,国内外使用的大多数深度预测是基于LiDAR激光雷达的。尤其以Velodyne的激光雷达为主。激光雷达有预测深度准确、时效快等特点。 其误差在cm级别。通过激光雷达扫描得到的点云数据,可以构建当前的一定范围的深度图 像。另外也可以使用毫米波雷达,利用毫米波反射特性直接得到附近物体的深度信息。
此外还可以通过双目摄像头系统,左右视图之间通过SAD/BM/SGBM/GC等算法找到相 应的关键点,并将关键点之间的x轴,y轴的差值进行计算,以获得视差图。再通过视差图disparitymap与实际深度图depthmap以及摄像头焦距f和双目系统之间的基线差b之间的关 系,最终得到深度图片。另外在近几年,通过监督学习/半监督学习/无监督学习等深度学习的 方式可以从单目图片得到最终的深度图片也开始逐渐流行。
而作为目标检测技术,目前最常用的主要分别有基于onestage的SSD,YOLO以及centernet和cornernet等,和基于twostage的RCNN,Fast/erRCNN,RetinaNet和其变体等。这些目标检测有的利用了先验框priorboxes以及特征图featuremap与原图之间的对应关系。 这些目标检测结果是输出目标检测的boundingboxes以及其对应的类别和置信度。
对于深度预测而言,大部分的传统深度预测需要利用双目系统,并且进行特征点的提取 和匹配,对于计算量而言较为复杂,实时性不高。而目前最为流行用于深度检测的激光雷达 的缺点也很显著,一般普通的激光雷达如Velodyne 16线雷达需要7000美金才能购买到,Velodyne 64线雷达则高达7万美金,甚至比一辆汽车更贵。另外基于帧差法的TOF室内的效 果较好,而室外的效果则较差。对于目标检测而言,大多数的目标检测是针对于输出boundingboxes以及其对应的类别和置信度。
目前一些知名厂商使用LiDAR来获取附近的三维信息,然而作为消费者来说,无法承担LiDAR的高额价格,这会减缓自动驾驶的推进。而作为单目视觉而言,其传统的方式无法快 速的得到精准的深度信息,并且无论单目视觉还是双目视觉,传统方式都会遇到计算量过大 而实时性下降的情况,亦或者是深度的预测不准确的情况。虽然目前的目标检测以及深度预 测方面都有所发展。
但是目前还未有一个基于神经网络,深度学习的方式通过单目视觉将目标检测和深度预 测结合起来,即实现一个网络完成两个任务,并且能够很好地协同。
发明内容
鉴于以上所述现有技术的缺点,本申请的目的在于提供一种神经网络和基于神经网络的 目标检测及深度预测方法,以解决上述至少一个问题。
为实现上述目的及其他相关目的,本申请提供一种基于神经网络的目标检测及深度预测 方法,所述神经网络包括:深度预测子网络、及目标检测子网络;所述深度预测子网络根据 原始图像进行预处理以提取特征图,并将浅层特征图和深层特征图进行拼接,再通过深度预测输出多个不同尺度的视差图,据以得到深度图;所述目标检测子网络根据部分所述特征图 通过感受野模块以进行多维度信息的目标检测;通过所述深度预测子网络与所述目标检测子 网络结合实现单一网络,以同时输出所述深度图及目标检测结果。
于本申请的一实施例中,所述深度预测子网络采用ResNet为骨架网络,并由编码部分与 解码部分构成U型网络结构。
于本申请的一实施例中,所述编码部分依次包括:第一卷积层、池化层、第二卷积层、 第三卷积层、第四卷积层、及第五卷积层。
于本申请的一实施例中,所述解码部分采用特征金字塔结构,其依次包括:第六复合层、 第五复合层、第四复合层、第三复合层、第二复合层、及第一复合层;其中,所述第六复合 层由所述第五卷积层经上采样并结合所述第四卷积层构成;所述第五复合层由所述第六复合层经上采样并结合所述第三卷积层构成;所述第四复合层由所述第五复合层经上采样并结合 所述第二卷积层构成;所述第四复合层通过深度预测输出第一视差图;所述第三复合层由所 述第四复合层经上采样并结合所述池化层、及所述第一视差图构成;所述第三复合层通过深 度预测输出第二视差图;所述第二复合层由所述第三复合层经上采样并结合所述第一卷积层、及所述第二视差图构成;所述第二复合层通过深度预测输出第三视差图;所述第一复合层由 所述第二复合层经上采样并结合所述第三视差图构成;所述第一复合层通过深度预测输出第 四视差图。
于本申请的一实施例中,所述视差图为两个通道的视差图,第一通道的特征图表示左视 差图,第二通道的特征图表示右视差图。
于本申请的一实施例中,所述通过深度预测输出多个不同尺度的视差图,据以得到深度 图,包括:通过所述左视差图与所述右视差图的关系,以及所述原始图像的左右图之间的关 系来计算损失函数;通过所述视差图以及采集所述原始图像的摄像头参数,得到表征目标物体深度值的所述深度图。
于本申请的一实施例中,所述目标检测子网络采用SSD目标检测框架,通过增加感受野 模块以增强目标检测,检测部分采用先验检测框。
于本申请的一实施例中,所述感受野模块能够模仿人的视觉特点,对不同大小的特征查 看幅度不同。
于本申请的一实施例中,所述编码部分依次包括:第一卷积层、池化层、第二卷积层、 第三卷积层、第四卷积层、及第五卷积层;所述感受野部分包括:第一感受野块、第二感受 野块、第三感受野块、第四感受野块、第五感受野块、第六感受野块、及第七感受野块;其中,所述第一感受野块采用所述第二卷积层输出的特征图进行处理并输出至所述检测部分进 行一维度的目标检测;所述第二感受野块采用所述第三卷积层输出的特征图进行处理并输出 至所述检测部分进行一维度的目标检测,以实现所述深度预测子网络与所述目标检测子网络 的结合。
于本申请的一实施例中,所述第三感受野块至第七感受野块分别采用各自前一感受野块 处理后的特征图进行处理并输出至所述检测部分进行一维度的目标检测。
于本申请的一实施例中,所述目标检测子网络根据部分所述特征图通过感受野模块以进 行多维度信息的目标检测,包括:所述目标检测部分将先验检测框和groundtruth进行计算,得到的结果作为正负样本,并分别对所述先验检测框的坐标回归函数的计算、以及所述先验 检测框的类别损失函数的计算;其中,坐标回归函数为L1Smooth回归;类别损失函数为softmax损失函数。
于本申请的一实施例中,在得到所述深度图及目标检测结果后,在所述深度图的目标框 中平均五个点计算深度平均值,代表其物体的最终的深度信息。
为实现上述目的及其他相关目的,本申请提供一种神经网络,包括:深度预测子网络, 用于根据原始图像进行预处理以提取特征图,并将浅层特征图和深层特征图进行拼接,再通 过深度预测输出多个不同尺度的视差图,据以得到深度图;目标检测子网络,用于根据部分所述特征图通过感受野模块以进行多维度信息的目标检测。
于本申请的一实施例中,所述深度预测子网络采用ResNet为骨架网络,并由编码部分与 解码部分构成U型网络结构。
于本申请的一实施例中,所述编码部分依次包括:第一卷积层、池化层、第二卷积层、 第三卷积层、第四卷积层、及第五卷积层。
于本申请的一实施例中,所述解码部分采用特征金字塔结构,其依次包括:第六复合层、 第五复合层、第四复合层、第三复合层、第二复合层、及第一复合层;其中,所述第六复合 层由所述第五卷积层经上采样并结合所述第四卷积层构成;所述第五复合层由所述第六复合层经上采样并结合所述第三卷积层构成;所述第四复合层由所述第五复合层经上采样并结合 所述第二卷积层构成;所述第四复合层通过深度预测输出第一视差图;所述第三复合层由所 述第四复合层经上采样并结合所述池化层、及所述第一视差图构成;所述第三复合层通过深 度预测输出第二视差图;所述第二复合层由所述第三复合层经上采样并结合所述第一卷积层、及所述第二视差图构成;所述第二复合层通过深度预测输出第三视差图;所述第一复合层由 所述第二复合层经上采样并结合所述第三视差图构成;所述第一复合层通过深度预测输出第 四视差图。
于本申请的一实施例中,所述第一视差图至第四视差图均为两个通道的视差图,第一通 道的特征图表示左视差图,第二通道的特征图表示右视差图。
于本申请的一实施例中,所述目标检测子网络采用SSD目标检测框架,通过增加感受野 部分以增强目标检测,检测部分采用先验检测框。
于本申请的一实施例中,所述目标检测子网络采用SSD目标检测框架,通过增加感受野 模块以增强目标检测,检测部分采用先验检测框。
于本申请的一实施例中,所述感受野模块能够模仿人的视觉特点,对不同大小的特征查 看幅度不同。
于本申请的一实施例中,所述感受野模块依次包括:第一卷积层、池化层、第二卷积层、 第三卷积层、第四卷积层、及第五卷积层;所述感受野部分包括:第一感受野块、第二感受 野块、第三感受野块、第四感受野块、第五感受野块、第六感受野块、及第七感受野块;其中,所述第一感受野块采用所述第二卷积层输出的特征图进行处理并输出至所述检测部分进 行一维度的目标检测;所述第二感受野块采用所述第三卷积层输出的特征图进行处理并输出 至所述检测部分进行一维度的目标检测,以实现所述深度预测子网络与所述目标检测子网络 的结合。
于本申请的一实施例中,所述第三感受野块至第七感受野块分别采用各自前一感受野块 处理后的特征图进行处理并输出至所述检测部分进行一维度的目标检测。
为实现上述目的及其他相关目的,本申请提供一种电子装置,所述装置包括:网络模块, 用于根据原始图像进行预处理以提取特征图,并将浅层特征图和深层特征图进行拼接,再通 过深度预测输出多个不同尺度的视差图,据以得到深度图;根据部分所述特征图通过感受野模块以进行多维度信息的目标检测;处理模块,用于通过所述深度预测子网络与所述目标检 测子网络结合实现单一网络,以同时输出所述深度图及目标检测结果。
为实现上述目的及其他相关目的,本申请提供一种计算机系统,所述设备包括:存储器、 及处理器;所述存储器用于存储计算机指令;所述处理器运行计算机指令实现如上所述的方 法。
为实现上述目的及其他相关目的,本申请提供一种计算机存储介质,存储有计算机程序, 所述计算机程序被运行时执行如上所述的方法。
综上所述,本申请提供一种神经网络和基于神经网络的目标检测及深度预测方法,所述 神经网络包括:深度预测子网络、及目标检测子网络;所述深度预测子网络根据原始图像进 行预处理以提取特征图,并将浅层特征图和深层特征图进行拼接,再通过深度预测输出多个不同尺度的视差图,据以得到深度图;所述目标检测子网络根据部分所述特征图通过感受野 模块以进行多维度信息的目标检测;通过所述深度预测子网络与所述目标检测子网络结合实 现单一网络,以同时输出所述深度图及目标检测结果。
具有以下有益效果:
通过单目视觉提供了精准且高效的FCW方案,能够为市面上绝大多数的汽车厂商所搭 配,从而推进自动驾驶产业,发展前景巨大。
附图说明
图1显示为本申请于一实施例中的神经网络的连接示意图。
图2显示为本申请于一实施例中的基于神经网络的目标检测及深度预测方法的流程示意 图。
图3显示为本申请于一实施例中的计算深度平均值的模型示意图。
图4显示为本申请于一实施例中的电子装置的模块示意图。
图5显示为本申请于一实施例中的计算机系统的结构示意图。
具体实施方式
以下通过特定的具体实例说明本申请的实施方式,本领域技术人员可由本说明书所揭露 的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加 以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本申请的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,本申请中的实施例及实施例中 的特征可以相互组合。
下面以附图为参考,针对本申请的实施例进行详细说明,以便本申请所属技术领域的技 术人员能够容易地实施。本申请可以以多种不同形态体现,并不限定于此处说明的实施例。
为了明确说明本申请,省略与说明无关的部件,对于通篇说明书中相同或类似的构成要 素,赋予了相同的参照符号。
在通篇说明书中,当说某部件与另一部件“连接”时,这不仅包括“直接连接”的情形,也包括在其中间把其它元件置于其间而“间接连接”的情形。另外,当说某种部件“包括”某种构成要素时,只要没有特别相反的记载,则并非将其它构成要素排除在外,而是意味着可以还包括其它构成要素。
当说某部件在另一部件“之上”时,这可以是直接在另一部件之上,但也可以在其之间 伴随着其它部件。当对照地说某部件“直接”在另一部件“之上”时,其之间不伴随其它部 件。
虽然在一些实例中术语第一、第二等在本文中用来描述各种元件,但是这些元件不应当 被这些术语限制。这些术语仅用来将一个元件与另一个元件进行区分。例如,第一接口及第 二接口等描述。再者,如同在本文中所使用的,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文中有相反的指示。应当进一步理解,术语“包含”、“包括”表明存 在所述的特征、步骤、操作、元件、组件、项目、种类、和/或组,但不排除一个或多个其他特征、步骤、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术 语“或”和“和/或”被解释为包括性的,或意味着任一个或任何组合。因此,“A、B或C” 或者“A、B和/或C”意味着“以下任一个:A;B;C;A和B;A和C;B和C;A、B和 C”。仅当元件、功能、步骤或操作的组合在某些方式下内在地互相排斥时,才会出现该定义的例外。
此处使用的专业术语只用于言及特定实施例,并非意在限定本申请。此处使用的单数形 态,只要语句未明确表示出与之相反的意义,那么还包括复数形态。在说明书中使用的“包 括”的意义是把特定特性、区域、整数、步骤、作业、要素及/或成份具体化,并非排除其它 特性、区域、整数、步骤、作业、要素及/或成份的存在或附加。
表示“下”、“上”等相对空间的术语可以为了更容易地说明在附图中图示的一部件相对 于另一部件的关系而使用。这种术语是指,不仅是在附图中所指的意义,还包括使用中的装 置的其它意义或作业。例如,如果翻转附图中的装置,曾说明为在其它部件“下”的某部件则说明为在其它部件“上”。因此,所谓“下”的示例性术语,全部包括上与下方。装置可以 旋转90°或其它角度,代表相对空间的术语也据此来解释。
深度预测是计算机视觉长期以来需要处理的问题。它可以广泛的应用于场景解析,自动 驾驶等领域。深度预测最主要的目的是根据立体图片对来找到每一个像素点所对应的深度。 传统方式多使用人工处理的特征来匹配深度,如SAD算法,BM算法,SGBM算法以及GC 算法。以及基于帧差法的深度预测TOF。另外如Eigen et al.,Godart et al.他们在近期CVPR 上展示了基于深度学习能够将图片的信息转换成深度信息,并且准确度较高。
另外一点,目标检测。从2012年Alexnet大放异彩开始,基于卷积神经网络,深度学习 的目标检测就呈现出爆炸式的发展。传统的目标检测主要是使用Sliding Window,Haar特征 提取,SIFT等方式来进行检测。而近期由于GPU的增强以及AI芯片的产生,使得目标检测 重心放在了深度学习上。近期分为两派的One Stage目标检测(SSD,YOLO等)以及TwoStage 目标检测(RCNN,Fast/erRCNN,RetinaNet等)令目标检测识别率达到了空前的高度。在 COCO数据集上能够达到40mAP的准确度。
基于时下最热门的深度学习来进行研发。本申请采用了诸如RFBNet当前最优秀的目标 检测架构,并且结合了深度预测网络Monodepth,结合两者的优势特点,将其构建成了一个 全新的神经网络。该神经网络ObjectdetectionandDepthestimationNetwork可称ODNet,其完美 的将目标检测以及预测该目标的深度的任务通过一个神经网络所完成。在应用方面,通过检 测到的物体及其深度来可以判断目前车辆属于安全距离还是需要进行制动且提醒。
如图1所示,展示为本申请于一实施例中的神经网络的连接示意图。如图所示,所述神 经网络包括:深度预测子网络、及目标检测子网络。
深度预测子网络
如图1所示,ODNet神经网络的下半部分为所述深度预测子网络,其用于根据原始图像 进行预处理以提取特征图,并将浅层特征图和深层特征图进行拼接,再通过深度预测输出多 个不同尺度的视差图,据以得到深度图。
于一些实施例中,所述深度预测子网络采用ResNet为骨架网络,并由编码部分与解码部 分构成U型网络结构。
于一些实施例中,所述编码部分依次包括:第一卷积层C1、池化层P、第二卷积层C2、 第三卷积层C3、第四卷积层C4、及第五卷积层C5。
具体来说,所述第一卷积层C1的卷积核大小为7×7,步数为2,通道数为64,以原始图像为输入;其中,所述原始图像的大小为512×512.
所述池化层P的卷积核大小为3×3,步数为2,通道数为64,以经第一卷积层C1卷积处理后提取的特征图为输入;
所述第二卷积层C2的卷积核大小为3×3,步数为2,通道数为256,以经池化层P池化 处理后提取的特征图为输入;
所述第三卷积层C3的卷积核大小为3×3,步数为2,通道数为512,以经第二卷积层C2卷积处理后提取的特征图为输入;
所述第四卷积层C4的卷积核大小为3×3,步数为2,通道数为1024,以经第三卷积层 C3卷积处理后提取的特征图为输入;
所述第五卷积层C5的卷积核大小为3×3,步数为2,通道数为2048,以经第四卷积层 C4卷积处理后提取的特征图为输入。
需要说明的是,所述编码部分中各层所提取出的特征图为本申请中所述的浅层特征图, 而所述解码部分中各层所提取出的特征图为本申请中所述的深层特征图。
于一些实施例中,所述解码部分采用特征金字塔结构,其依次包括:第六复合层M6、第 五复合层M5、第四复合层M4、第三复合层M3、第二复合层M2、及第一复合层M1;
其中,所述第六复合层M6由所述第五卷积层C5经上采样并结合所述第四卷积层C4构 成;
优选地,所述第六复合层M6的卷积核大小为3×3,步数为2,通道数为512+1024,以第五卷积层C5上采样处理后提取的特征图与第四卷积层C4卷积处理后提取的特征图的拼接 为输入。
进一步地,所述第五卷积层C5上采样处理过程为:先进行2倍上采样,其中上采样过 程实际为一个简单的双线性插值+卷积+batchnorm+elu的操作,以下上采样过程同理。然后将 原本第五卷积层C5的2048个通道变成512个通道,并且输出的特征图尺寸为输入特征图大 小的两倍。其中,batchnorm是深度网络中经常用到的加速神经网络训练,加速收敛速度及稳 定性的算法,可以说是目前深度网络必不可少的一部分。
本申请将浅层特征图和深层的特征图进行拼接,再进行上采样,可以使得网络的特征表达能力更具有鲁棒性。
另外,所述第六复合层M6对拼接特征图的处理实际上是一个卷积+batchnorm+elu激活 的操作,其对应的额输入通道为1536(512+1024),输出通道为256,输入特征图和输出特 征图大小相同。以下各复合层对拼接特征图的处理同理。
所述第五复合层M5由所述第六复合层M6经上采样并结合所述第三卷积层C3构成。
优选地,所述第五复合层M5的卷积核大小为3×3,步数为2,通道数为256+512,以第六复合层M6对拼接特征图的处理后提取的特征图与第三卷积层C3卷积处理后提取的特征 图的拼接为输入。
所述第四复合层M4由所述第五复合层M5经上采样并结合所述第二卷积层C2构成,所 述第四复合层M4通过深度预测输出第一视差图disp1。
优选地,所述第四复合层M4的卷积核大小为3×3,步数为2,通道数为128+256,以第五复合层M5对拼接特征图的处理后提取的特征图与第二卷积层C2卷积处理后提取的特征 图的拼接为输入。同时,所述第四复合层M4还输出第一视差图disp1。
优选地,所述第一视差图disp1的卷积核大小为3×3,步数为1,通道数为2,并且所述 第一视差图disp1的图片大小为所述原始图片的1/8。
所述第三复合层M3由所述第四复合层M4经上采样并结合所述池化层P、及所述第一视 差图disp1构成,所述第三复合层M3通过深度预测输出第二视差图disp2。
优选地,所述第三复合层M3的卷积核大小为3×3,步数为2,通道数为64+64+2,以第四复合层M4对拼接特征图的处理后提取的特征图与池化层P池化处理后提取的特征图、以及第一视差图disp1的拼接为输入。同时,所述第三复合层M3还输出第二视差图disp2。
优选地,所述第二视差图disp2的卷积核大小为3×3,步数为1,通道数为2,并且所述 第二视差图disp2的图片大小为所述原始图片的1/4。
所述第二复合层M2由所述第三复合层M3经上采样并结合所述第一卷积层C1、及所述 第二视差图disp2构成,所述第二复合层M2通过深度预测输出第三视差图disp3。
优选地,所述第二复合层M2的卷积核大小为3×3,步数为2,通道数为32+64+2,以第三复合层M3对拼接特征图的处理后提取的特征图与第一卷积层C1卷积处理后提取的特征 图、以及第二视差图disp2的拼接为输入。同时,所述第二复合层M2还输出第三视差图disp3。
优选地,所述第三视差图disp3的卷积核大小为3×3,步数为1,通道数为2,并且所述 第三视差图disp3的图片大小为所述原始图片的1/2。
所述第一复合层M1由所述第二复合层M2经上采样并结合所述第三视差图disp3构成, 所述第一复合层M1通过深度预测输出第四视差图disp4。
优选地,所述第一复合层M1的卷积核大小为3×3,步数为2,通道数为16+2,以第二复合层M2对拼接特征图的处理后提取的特征图与第三视差图disp3的拼接为输入。同时,所述第一复合层M1还输出第四视差图disp4。
优选地,所述第四视差图disp4的卷积核大小为3×3,步数为1,通道数为2,并且所述 第四视差图disp4的图片大小为所述原始图片的大小。
于一些实施例中,所述第一视差图disp1至第四视差图disp4均为两个通道的视差图,第 一通道的特征图表示左视差图,第二通道的特征图表示右视差图。
在一些可实现的实施例中,所述第一视差图disp1至第四视差图disp4均为两个通道的视 差图,第一个通道的特征图代表左视差图,第二个通道的特征图代表右视差图。进一步地, 通过左右视差图的关系,以及原本的左右图之间的关系来计算损失函数。最后,通过推理得 到的视差图以及采集原始图像的摄像头的参数,就可以得到实际的物体和摄像头之间的距离。
目标检测子网络
如图1所示,ODNet神经网络的上半部分所述目标检测子网络,其用于根据部分所述特 征图通过感受野模块以进行多维度信息的目标检测。
于一些实施例中,所述目标检测子网络采用SSD目标检测框架,通过增加感受野模块 (RFB)以增强目标检测,检测部分采用先验检测框。
在本实施例中,所述检测部分采用了先验box,也称之为Priors。
于一些实施例中,所述感受野模块能够模仿人的视觉特点,对不同大小的特征查看幅度 不同。
具体来说,感受野模块(RFB)模仿了人的视觉特点,细微特征仔细的看,中等特征则 会跳着看,而较大的特征跳的幅度会更大。那么就需要用扩张卷积来实现像人眼特征一致的 观察方式。
于一些实施例中,所述编码部分依次包括:第一卷积层C1、池化层P、第二卷积层C2、 第三卷积层C3、第四卷积层C4、及第五卷积层C5;所述感受野部分包括:第一感受野块RFB1、第二感受野块RFB2、第三感受野块RFB3、第四感受野块RFB4、第五感受野块RFB5、 第六感受野块RFB6、及第七感受野块RFB7;
其中,所述第一感受野块RFB1采用所述第二卷积层C2输出的特征图进行处理并输出至 所述检测部分进行一维度的目标检测;所述第二感受野块RFB2采用所述第三卷积层C3输出 的特征图进行处理并输出至所述检测部分进行一维度的目标检测,以实现所述深度预测子网 络与所述目标检测子网络的结合。
具体来说,所述第一感受野块RFB1为RFBRFB_a型,所述第二感受野块RFB2至所述第七感受野块RFB7为RFBRFB_b型。
于一些实施例中,所述第三感受野块RFB3至第七感受野块RFB7分别采用各自前一感 受野块处理后的特征图进行处理并输出至所述检测部分进行一维度的目标检测。即感受野块 RFBRFB_b使用在右侧的每一个需要检测物体之前卷积层部分。
需说明的是,本申请中所述ODNet神经网络为了将两者结合,于是在左侧深度预测网络 的所述第二卷积层C2和第三卷积层C3将目标检测网络结合。最终可实现单一网络,输入为单一图片,同时输出深度图以及目标检测结果。
综上,本申请所提出的ODNet神经网络通过感知人眼系统,改变了在目标检测时的单一 感受野的问题。在同一个特征图下,有不同的感受野来获取不同维度的信息。并且ODNet神 经网络中的骨架网络为ResNet,该网络易于训练,可广泛用于目标检测和深度预测的网络中。 该网络结合了两者的优点,可以同时检测到目标物体以及其深度。通过检测到的物体及其深度来判断目前车辆属于安全距离还是需要进行制动且提醒。本申请通过单目视觉提供了精准 且高效的FCW方案,能够为市面上绝大多数的汽车厂商所搭配,从而推进自动驾驶产业, 发展前景巨大。
如图2所示,展示为本申请于一实施例中基于神经网络的目标检测及深度预测方法的流程示意图。其中,本申请所基于的神经网络为如图1所示的神经网络,所述申请网络包括: 深度预测子网络、及目标检测子网络。如图所示,所述方法包括:
步骤S201:所述深度预测子网络根据原始图像进行预处理以提取特征图,并将浅层特征 图和深层特征图进行拼接,再通过深度预测输出多个不同尺度的视差图,据以得到深度图。
需说明的是,本方法所基于的所述神经网络的具体结构已在图1中进行了充分的说明个, 这里将不再着重赘述,仅对基于该神经网络的方法方面进行说明。
于一些实施例中,所述通过深度预测输出多个不同尺度的视差图,据以得到深度图,包 括:
A、通过所述左视差图与所述右视差图的关系,以及所述原始图像的左右图之间的关系 来计算损失函数;
B、通过所述视差图以及采集所述原始图像的摄像头参数,得到表征目标物体深度值的 所述深度图。
在上述实施例中,根据如图1所述的神经网络中的说明可知,本方法所基于的神经网络 供形成4个视差图,因为本申请有四个视角的视差图片,所以将这个损失函数进行相加得到 深度预测的总的损失函数,其表示为:
其中,Cap是重建图片中像素之间的损失,Cds是视差图平滑的损失,Clr是左右视差图片 一致性的损失。
为了平滑视差图,也就是让视差图的值差距不大,从而让视差图平滑损失函数由偏微分 组成。其中,是对l(eft)左视差图d位于坐标(i,j)求x的偏导,/>是对l(eft)左原图I位 于坐标(i,j)求x的偏导,以此类推。
因为深度预测网络会输出两张二维的视差图。通过左右视差图应该一致的原理,对左右 视差图每个像素的值进行约束。
步骤S202:所述目标检测子网络根据部分所述特征图通过感受野模块以进行多维度信息 的目标检测;
需说明的是,此步骤S202并非在步骤S201全部完成后才进行,而是当所述深度预测子 网中的第二卷积层和第三卷积层在分别卷积出后提取出特征图后,所述步骤S202便可以开始 进行。
所述目标检测子网络根据部分所述特征图通过感受野模块以进行多维度信息的目标检测, 包括:
于一些实施例中,所述目标检测部分将先验检测框和groundtruth进行计算,得到的结果 作为正负样本,并分别对所述先验检测框的坐标回归函数的计算、以及所述先验检测框的类 别损失函数的计算;其中,坐标回归函数为L1Smooth回归;类别损失函数为softmax损失函数。
在上述实施例中,对于目标检测,我们分为目标的边框的损失函数和目标类别的损失函 数,其表示为:
其中,Lconf为类别的损失函数,Lloc为目标边框的损失函数。α通常为1。
作为目标边框损失函数,使用的是L1Smooth损失函数,cx,cy,w,h分别为边框中心点的x 值y值以及边框的宽和高。
对于目标类别的损失函数,则为多类别softmax损失函数,其表示为:
步骤S203:通过所述深度预测子网络与所述目标检测子网络结合实现单一网络,以同时 输出所述深度图及目标检测结果。
于一些实施例中,在得到所述深度图及目标检测结果后,在所述深度图的目标框中平均 五个点计算深度平均值,代表其物体的最终的深度信息。具体图图3所示。
综上所述,ODNet神经网络优势在于适用广泛,不仅能够用在ADAS系统中,还能够用 在无人机上,并且在经过训练之后,能够甚至搭载在手机上。此外,ODNet在经过大量数据 进行训练之后,可以只需要对其进行输入一张图片,它能够通过单一的图片推断出物体的位 置,并用框圈出位置,显示其类别以及置信度,而且还能够预测那个物体距离自身的距离。这一段训练过程可以在本地进行训练,用户所拍摄下来的每一对左右视图经过打上目标的标 签后就可以用来训练。训练所需要的数据集易于获取。
本申请所述的ODNet神经网络及基于神经网络的目标检测及深度预测方法的创新点在于:
1)利用了时下最流行的深度学习方法。与传统的方式相比,准确率提高。
2)根据人眼的特点,将特征图的获取分为细、中、粗三部分,让特征图表征的特征能够 更好的得到表达。在目标识别的领域有广泛的应用。
3)使用了基于SSD目标检测的结构,将其结构中的原有骨架(VGG)更改为ResNet骨架,从而减少了网络的参数,并且增强了网络的特征表达。
4)在更改为ResNet骨架后,SSD结构的检测层从原本的Conv3层变成了现在的Conv2 层,检测的次数也因输入图片的大小为512x512而增加到了7次。使得网络检测目标的准确 度提升。
5)在深度检测方面,也将VGG骨干网络更改为ResNet网络,并且去除了ResNet网络的最后三层(Average-pooling,100d-fc以及最后的softmax)。
6)利用了图像金字塔的结构,将浅层的特征足但语义低的特征图,和深层特征少而语义 强的特征图结合。提高了深度预测网络的预测准确度。
7)使用双线性插值(Bilinear),反卷积(Deconvolution)等方式来做上采样,提高网 络的鲁棒性。
8)损失函数利用了输出的左视差图和右视差图之间的关联性,以及其视差图之间的梯度 关系来约束网络的到的视差图。以及利用了左右原图之间的结构关系,用SSIM(structuralsimilarityindex)算法判断图片之间的相似度。
9)在训练环节,无须获取groudtruth的深度信息,从而不需要购买昂贵的激光雷达LiDAR 系统。此外在目标检测方面仅需要将训练的左图打上标签并且画出框就可以。训练素材易于 获取。
10)仅使用单目图片完成目标的检测以及对其的深度的预测。
另外,根据Paper《Digging Into Self-Supervised Monocular DepthEstimation》,“Train” 一栏中,D代表使用到了KITTI的Velodyne的深度点云数据来训练网络。D*代表使用了辅 助Velodyne深度点云数据,S代表使用了立体视觉图片对,M代表使用了单目视觉图片。另 外AbsRel,SqRel,RMSE以及RMSElog中的数值越小越好。后三列的数值则越大代表深度 预测的准确率越高。
表1多种方法在不同数据集下的测试结果
从表中可以看出,ODNet在多数数值都领先于时下的深度学习的预测深度的网络。此外 ODNet神经网络还具有目标检测的能力。使用KITTI数据集进行测试能够达到汽车的准确率 (AP)为0.969,行人的准确率为0.783,骑行者的准确率为0.911,平均的综合mAP在0.888。
如图4所示,展示为本申请于一实施例中电子装置的模块示意图。如图所示,所述装置 400包括:
网络模块401,用于根据原始图像进行预处理以提取特征图,并将浅层特征图和深层特 征图进行拼接,再通过深度预测输出多个不同尺度的视差图,据以得到深度图;根据部分所 述特征图通过感受野模块以进行多维度信息的目标检测;
处理模块402,用于通过所述深度预测子网络与所述目标检测子网络结合实现单一网络, 以同时输出所述深度图及目标检测结果。
需要说明的是,上述装置各模块/单元之间的信息交互、执行过程等内容,由于与本申请 所述方法实施例基于同一构思,其带来的技术效果与本申请方法实施例相同,具体内容可参 见本申请前述所示的方法实施例中的叙述。
还需要说明的是,应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际 实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些单元可以全部以 软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。
例如,处理模块402可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片 中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个 处理元件调用并执行以上处理模块402的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具 有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件 中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个 或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微 处理器(digital signal processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代 码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(Central Processing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统 (system-on-a-chip,简称SOC)的形式实现。
如图5所示,展示为本申请于实施例中的计算机设备的结构示意图。如图所示,所述计 算机设备500包括:存储器501、及处理器502;所述存储器501用于存储计算机指令;所述 处理器502运行计算机指令实现如图2所述的方法。
在一些实施例中,所述计算机设备500中的所述存储器501的数量均可以是一或多个, 所述处理器502的数量均可以是一或多个,而图5中均以一个为例。
于本申请一实施例中,所述计算机设备500中的处理器502会按照如图2所述的步骤, 将一个或多个以应用程序的进程对应的指令加载到存储器501中,并由处理器502来运行存 储在存储器502中的应用程序,从而实现如图2所述的方法。
所述存储器501可以包括随机存取存储器(Random Access Memory,简称RAM),也可以 包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。所述存储器501存储 有操作系统和操作指令、可执行模块或者数据结构,或者它们的子集,或者它们的扩展集, 其中,操作指令可包括各种操作指令,用于实现各种操作。操作系统可包括各种系统程序,用于实现各种基础业务以及处理基于硬件的任务。
所述处理器502可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、 网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、分 立门或者晶体管逻辑器件、分立硬件组件等。
在一些具体的应用中,所述计算机设备500的各个组件通过总线系统耦合在一起,其中总线系统除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为 了清除说明起见,在图5中将各种总线都成为总线系统。
于本申请的一实施例中,本申请提供一种计算机可读存储介质,其上存储有计算机程序, 该程序被处理器执行时实现如图1所述的船舶外板展开计算方法。
所述计算机可读存储介质优选为非易失性计算机存储介质。
本领域普通技术人员可以理解:实现上述系统及各单元功能的实施例可以通过计算机程 序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执 行时,执行包括上述系统及各单元功能的实施例;而前述的存储介质包括:ROM、RAM、磁 碟或者光盘等各种可以存储程序代码的介质。
另外需说明的是,上述实施例中的系统、计算机设备等的实现,所涉及的计算机程序皆 可以装载在计算机可读存储介质,所计算机可读存储介质可以是可以保持和存储由指令执行 设备使用的指令的有形设备。计算机可读存储介质例如可以是、但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机 可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储 器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存 储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、 机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组 合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自 由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、 或者通过电线传输的电信号。
综上所述,本申请提供的一种神经网络和基于神经网络的目标检测及深度预测方法,所 述神经网络包括:深度预测子网络、及目标检测子网络;所述深度预测子网络根据原始图像 进行预处理以提取特征图,并将浅层特征图和深层特征图进行拼接,再通过深度预测输出多个不同尺度的视差图,据以得到深度图;所述目标检测子网络根据部分所述特征图通过感受 野模块以进行多维度信息的目标检测;通过所述深度预测子网络与所述目标检测子网络结合 实现单一网络,以同时输出所述深度图及目标检测结果。
本申请有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本申请的原理及其功效,而非用于限制本发明。任何熟悉此技 术的人士皆可在不违背本申请的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡 所属技术领域中包含通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本申请的权利要求所涵盖。
Claims (22)
1.一种基于神经网络的目标检测及深度预测方法,其特征在于,所述神经网络包括:深度预测子网络、及目标检测子网络;
所述深度预测子网络根据原始图像进行预处理以提取特征图,并将浅层特征图和深层特征图进行拼接,再通过深度预测输出多个不同尺度的视差图,据以得到深度图;所述深度预测子网络采用ResNet为骨架网络,并由编码部分与解码部分构成U型网络结构;所述编码部分依次包括:第一卷积层、池化层、第二卷积层、第三卷积层、第四卷积层、及第五卷积层;所述解码部分采用特征金字塔结构,其依次包括:第六复合层、第五复合层、第四复合层、第三复合层、第二复合层、及第一复合层;其中,所述第六复合层由所述第五卷积层经上采样并结合所述第四卷积层构成;所述第五复合层由所述第六复合层经上采样并结合所述第三卷积层构成;所述第四复合层由所述第五复合层经上采样并结合所述第二卷积层构成;所述第四复合层通过深度预测输出第一视差图;所述第三复合层由所述第四复合层经上采样并结合所述池化层、及所述第一视差图构成;所述第三复合层通过深度预测输出第二视差图;所述第二复合层由所述第三复合层经上采样并结合所述第一卷积层、及所述第二视差图构成;所述第二复合层通过深度预测输出第三视差图;所述第一复合层由所述第二复合层经上采样并结合所述第三视差图构成;所述第一复合层通过深度预测输出第四视差图;
所述目标检测子网络根据部分所述特征图通过感受野模块以进行多维度信息的目标检测;所述目标检测子网络采用SSD目标检测框架,通过增加感受野模块以增强目标检测,检测部分采用先验检测框;所述感受野部分包括:第一感受野块、第二感受野块、第三感受野块、第四感受野块、第五感受野块、第六感受野块、及第七感受野块;其中,所述第一感受野块采用所述第二卷积层输出的特征图进行处理并输出至所述检测部分进行一维度的目标检测;所述第二感受野块采用所述第三卷积层输出的特征图进行处理并输出至所述检测部分进行一维度的目标检测,以实现所述深度预测子网络与所述目标检测子网络的结合;
通过所述深度预测子网络与所述目标检测子网络结合实现单一网络,以同时输出所述深度图及目标检测结果。
2.根据权利要求1所述的方法,其特征在于,所述视差图为两个通道的视差图,第一通道的特征图表示左视差图,第二通道的特征图表示右视差图。
3.根据权利要求2所述的方法,其特征在于,所述通过深度预测输出多个不同尺度的视差图,据以得到深度图,包括:
通过所述左视差图与所述右视差图的关系,以及所述原始图像的左右图之间的关系来计算损失函数;
通过所述视差图以及采集所述原始图像的摄像头参数,得到表征目标物体深度值的所述深度图。
4.根据权利要求1所述的方法,其特征在于,所述目标检测子网络采用SSD目标检测框架,通过增加感受野模块以增强目标检测,检测部分采用先验检测框。
5.根据权利要求4所述的方法,其特征在于,所述感受野模块能够模仿人的视觉特点,对不同大小的特征查看幅度不同。
6.根据权利要求4所述的方法,其特征在于,所述编码部分依次包括:第一卷积层、池化层、第二卷积层、第三卷积层、第四卷积层、及第五卷积层;
所述感受野部分包括:第一感受野块、第二感受野块、第三感受野块、第四感受野块、第五感受野块、第六感受野块、及第七感受野块;
其中,所述第一感受野块采用所述第二卷积层输出的特征图进行处理并输出至所述检测部分进行一维度的目标检测;所述第二感受野块采用所述第三卷积层输出的特征图进行处理并输出至所述检测部分进行一维度的目标检测,以实现所述深度预测子网络与所述目标检测子网络的结合。
7.根据权利要求6所述的方法,其特征在于,所述第三感受野块至第七感受野块分别采用各自前一感受野块处理后的特征图进行处理并输出至所述检测部分进行一维度的目标检测。
8.根据权利要求1所述的方法,其特征在于,所述目标检测子网络根据部分所述特征图通过感受野模块以进行多维度信息的目标检测,包括:
所述目标检测部分将先验检测框和groundtruth进行计算,得到的结果作为正负样本,并分别对所述先验检测框的坐标回归函数的计算、以及所述先验检测框的类别损失函数的计算;其中,坐标回归函数为L1Smooth回归;类别损失函数为softmax损失函数。
9.根据权利要求1所述的方法,其特征在于,在得到所述深度图及目标检测结果后,在所述深度图的目标框中平均五个点计算深度平均值,代表其物体的最终的深度信息。
10.一种神经网络,其特征在于,包括:
深度预测子网络,用于根据原始图像进行预处理以提取特征图,并将浅层特征图和深层特征图进行拼接,再通过深度预测输出多个不同尺度的视差图,据以得到深度图;所述深度预测子网络采用ResNet为骨架网络,并由编码部分与解码部分构成U型网络结构;所述编码部分依次包括:第一卷积层、池化层、第二卷积层、第三卷积层、第四卷积层、及第五卷积层;所述解码部分采用特征金字塔结构,其依次包括:第六复合层、第五复合层、第四复合层、第三复合层、第二复合层、及第一复合层;其中,所述第六复合层由所述第五卷积层经上采样并结合所述第四卷积层构成;所述第五复合层由所述第六复合层经上采样并结合所述第三卷积层构成;所述第四复合层由所述第五复合层经上采样并结合所述第二卷积层构成;所述第四复合层通过深度预测输出第一视差图;所述第三复合层由所述第四复合层经上采样并结合所述池化层、及所述第一视差图构成;所述第三复合层通过深度预测输出第二视差图;所述第二复合层由所述第三复合层经上采样并结合所述第一卷积层、及所述第二视差图构成;所述第二复合层通过深度预测输出第三视差图;所述第一复合层由所述第二复合层经上采样并结合所述第三视差图构成;所述第一复合层通过深度预测输出第四视差图;
目标检测子网络,用于根据部分所述特征图通过感受野模块以进行多维度信息的目标检测;所述目标检测子网络采用SSD目标检测框架,通过增加感受野模块以增强目标检测,检测部分采用先验检测框;所述感受野部分包括:第一感受野块、第二感受野块、第三感受野块、第四感受野块、第五感受野块、第六感受野块、及第七感受野块;其中,所述第一感受野块采用所述第二卷积层输出的特征图进行处理并输出至所述检测部分进行一维度的目标检测;所述第二感受野块采用所述第三卷积层输出的特征图进行处理并输出至所述检测部分进行一维度的目标检测,以实现所述深度预测子网络与所述目标检测子网络的结合。
11.根据权利要求10所述的神经网络,其特征在于,所述深度预测子网络采用ResNet为骨架网络,并由编码部分与解码部分构成U型网络结构。
12.根据权利要求11所述的神经网络,其特征在于,所述编码部分依次包括:第一卷积层、池化层、第二卷积层、第三卷积层、第四卷积层、及第五卷积层。
13.根据权利要求12所述的神经网络,其特征在于,所述解码部分采用特征金字塔结构,其依次包括:第六复合层、第五复合层、第四复合层、第三复合层、第二复合层、及第一复合层;
其中,所述第六复合层由所述第五卷积层经上采样并结合所述第四卷积层构成;
所述第五复合层由所述第六复合层经上采样并结合所述第三卷积层构成;
所述第四复合层由所述第五复合层经上采样并结合所述第二卷积层构成;所述第四复合层通过深度预测输出第一视差图;
所述第三复合层由所述第四复合层经上采样并结合所述池化层、及所述第一视差图构成;所述第三复合层通过深度预测输出第二视差图;
所述第二复合层由所述第三复合层经上采样并结合所述第一卷积层、及所述第二视差图构成;所述第二复合层通过深度预测输出第三视差图;
所述第一复合层由所述第二复合层经上采样并结合所述第三视差图构成;所述第一复合层通过深度预测输出第四视差图。
14.根据权利要求13所述的神经网络,其特征在于,所述第一视差图至第四视差图均为两个通道的视差图,第一通道的特征图表示左视差图,第二通道的特征图表示右视差图。
15.根据权利要求10所述的神经网络,其特征在于,所述目标检测子网络采用SSD目标检测框架,通过增加感受野部分以增强目标检测,检测部分采用先验检测框。
16.根据权利要求15所述的神经网络,其特征在于,所述目标检测子网络采用SSD目标检测框架,通过增加感受野模块以增强目标检测,检测部分采用先验检测框。
17.根据权利要求15所述的神经网络,其特征在于,所述感受野模块能够模仿人的视觉特点,对不同大小的特征查看幅度不同。
18.根据权利要求15所述的神经网络,其特征在于,所述感受野模块依次包括:第一卷积层、池化层、第二卷积层、第三卷积层、第四卷积层、及第五卷积层;所述感受野部分包括:第一感受野块、第二感受野块、第三感受野块、第四感受野块、第五感受野块、第六感受野块、及第七感受野块;
其中,所述第一感受野块采用所述第二卷积层输出的特征图进行处理并输出至所述检测部分进行一维度的目标检测;所述第二感受野块采用所述第三卷积层输出的特征图进行处理并输出至所述检测部分进行一维度的目标检测,以实现所述深度预测子网络与所述目标检测子网络的结合。
19.根据权利要求18所述的神经网络,其特征在于,所述第三感受野块至第七感受野块分别采用各自前一感受野块处理后的特征图进行处理并输出至所述检测部分进行一维度的目标检测。
20.一种电子装置,其特征在于,所述装置包括:
网络模块,用于根据原始图像进行预处理以提取特征图,并将浅层特征图和深层特征图进行拼接,再通过深度预测输出多个不同尺度的视差图,据以得到深度图;根据部分所述特征图通过感受野模块以进行多维度信息的目标检测;
处理模块,用于通过所述深度预测子网络与所述目标检测子网络结合实现单一网络,以同时输出所述深度图及目标检测结果;
所述深度预测子网络采用ResNet为骨架网络,并由编码部分与解码部分构成U型网络结构;所述编码部分依次包括:第一卷积层、池化层、第二卷积层、第三卷积层、第四卷积层、及第五卷积层;所述解码部分采用特征金字塔结构,其依次包括:第六复合层、第五复合层、第四复合层、第三复合层、第二复合层、及第一复合层;其中,所述第六复合层由所述第五卷积层经上采样并结合所述第四卷积层构成;所述第五复合层由所述第六复合层经上采样并结合所述第三卷积层构成;所述第四复合层由所述第五复合层经上采样并结合所述第二卷积层构成;所述第四复合层通过深度预测输出第一视差图;
所述第三复合层由所述第四复合层经上采样并结合所述池化层、及所述第一视差图构成;所述第三复合层通过深度预测输出第二视差图;所述第二复合层由所述第三复合层经上采样并结合所述第一卷积层、及所述第二视差图构成;所述第二复合层通过深度预测输出第三视差图;所述第一复合层由所述第二复合层经上采样并结合所述第三视差图构成;所述第一复合层通过深度预测输出第四视差图;
所述目标检测子网络采用SSD目标检测框架,通过增加感受野模块以增强目标检测,检测部分采用先验检测框;所述感受野部分包括:第一感受野块、第二感受野块、第三感受野块、第四感受野块、第五感受野块、第六感受野块、及第七感受野块;其中,所述第一感受野块采用所述第二卷积层输出的特征图进行处理并输出至所述检测部分进行一维度的目标检测;所述第二感受野块采用所述第三卷积层输出的特征图进行处理并输出至所述检测部分进行一维度的目标检测,以实现所述深度预测子网络与所述目标检测子网络的结合。
21.一种计算机设备,其特征在于,所述设备包括:存储器、及处理器;所述存储器用于存储计算机指令;所述处理器运行计算机指令实现如权利要求1至9中任意一项所述的方法。
22.一种计算机存储介质,其特征在于,存储有计算机程序,所述计算机程序被运行时执行如权利要求1至9中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911106727.7A CN111047630B (zh) | 2019-11-13 | 2019-11-13 | 神经网络和基于神经网络的目标检测及深度预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911106727.7A CN111047630B (zh) | 2019-11-13 | 2019-11-13 | 神经网络和基于神经网络的目标检测及深度预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111047630A CN111047630A (zh) | 2020-04-21 |
CN111047630B true CN111047630B (zh) | 2023-06-13 |
Family
ID=70232095
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911106727.7A Active CN111047630B (zh) | 2019-11-13 | 2019-11-13 | 神经网络和基于神经网络的目标检测及深度预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111047630B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111723687A (zh) * | 2020-06-02 | 2020-09-29 | 北京的卢深视科技有限公司 | 基于神经网路的人体动作识别方法和装置 |
CN112446292B (zh) * | 2020-10-28 | 2023-04-28 | 山东大学 | 一种2d图像显著目标检测方法及系统 |
CN112464822B (zh) * | 2020-11-30 | 2024-06-11 | 深圳市捷顺科技实业股份有限公司 | 一种基于特征增强的头盔佩戴检测方法及系统 |
CN113160219B (zh) * | 2021-05-12 | 2023-02-07 | 北京交通大学 | 用于无人机遥感图像的实时铁路场景解析方法 |
CN113689372B (zh) * | 2021-08-26 | 2023-09-26 | 北京字节跳动网络技术有限公司 | 图像处理方法、设备、存储介质及程序产品 |
CN114612770B (zh) * | 2022-03-21 | 2024-02-20 | 贵州大学 | 基于卷积神经网络的物品检测方法 |
CN117692341A (zh) * | 2023-07-28 | 2024-03-12 | 荣耀终端有限公司 | 一种网络的获取方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019020075A1 (zh) * | 2017-07-28 | 2019-01-31 | 北京市商汤科技开发有限公司 | 图像处理方法、装置、存储介质、计算机程序和电子设备 |
CN109522966A (zh) * | 2018-11-28 | 2019-03-26 | 中山大学 | 一种基于密集连接卷积神经网络的目标检测方法 |
CN110163246A (zh) * | 2019-04-08 | 2019-08-23 | 杭州电子科技大学 | 基于卷积神经网络的单目光场图像无监督深度估计方法 |
CN110287849A (zh) * | 2019-06-20 | 2019-09-27 | 北京工业大学 | 一种适用于树莓派的轻量化深度网络图像目标检测方法 |
CN110298266A (zh) * | 2019-06-10 | 2019-10-01 | 天津大学 | 基于多尺度感受野特征融合的深度神经网络目标检测方法 |
CN110310317A (zh) * | 2019-06-28 | 2019-10-08 | 西北工业大学 | 一种基于深度学习的单目视觉场景深度估计的方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106157307B (zh) * | 2016-06-27 | 2018-09-11 | 浙江工商大学 | 一种基于多尺度cnn和连续crf的单目图像深度估计方法 |
GB2553782B (en) * | 2016-09-12 | 2021-10-20 | Niantic Inc | Predicting depth from image data using a statistical model |
-
2019
- 2019-11-13 CN CN201911106727.7A patent/CN111047630B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019020075A1 (zh) * | 2017-07-28 | 2019-01-31 | 北京市商汤科技开发有限公司 | 图像处理方法、装置、存储介质、计算机程序和电子设备 |
CN109522966A (zh) * | 2018-11-28 | 2019-03-26 | 中山大学 | 一种基于密集连接卷积神经网络的目标检测方法 |
CN110163246A (zh) * | 2019-04-08 | 2019-08-23 | 杭州电子科技大学 | 基于卷积神经网络的单目光场图像无监督深度估计方法 |
CN110298266A (zh) * | 2019-06-10 | 2019-10-01 | 天津大学 | 基于多尺度感受野特征融合的深度神经网络目标检测方法 |
CN110287849A (zh) * | 2019-06-20 | 2019-09-27 | 北京工业大学 | 一种适用于树莓派的轻量化深度网络图像目标检测方法 |
CN110310317A (zh) * | 2019-06-28 | 2019-10-08 | 西北工业大学 | 一种基于深度学习的单目视觉场景深度估计的方法 |
Non-Patent Citations (1)
Title |
---|
赵庆北 ; 元昌安 ; .基于深度学习的MSSD目标检测方法.企业科技与发展.2018,(05),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111047630A (zh) | 2020-04-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111047630B (zh) | 神经网络和基于神经网络的目标检测及深度预测方法 | |
CN107730503B (zh) | 三维特征嵌入的图像对象部件级语义分割方法与装置 | |
CN109683699B (zh) | 基于深度学习实现增强现实的方法、装置及移动终端 | |
US11348270B2 (en) | Method for stereo matching using end-to-end convolutional neural network | |
CN111480169B (zh) | 用于模式识别的方法、系统和装置 | |
CN111583097A (zh) | 图像处理方法、装置、电子设备及计算机可读存储介质 | |
CN110473137A (zh) | 图像处理方法和装置 | |
CN111160214A (zh) | 一种基于数据融合的3d目标检测方法 | |
CN113807361B (zh) | 神经网络、目标检测方法、神经网络训练方法及相关产品 | |
CN112508989B (zh) | 一种图像处理方法、装置、服务器以及介质 | |
GB2587248A (en) | Analysing objects in a set of frames | |
CN114299405A (zh) | 一种无人机图像实时目标检测方法 | |
US20230281830A1 (en) | Optical flow techniques and systems for accurate identification and tracking of moving objects | |
CN113066018A (zh) | 一种图像增强方法及相关装置 | |
CN112348056A (zh) | 点云数据分类方法、装置、设备及可读存储介质 | |
CN113592015B (zh) | 定位以及训练特征匹配网络的方法和装置 | |
US20240193788A1 (en) | Method, device, computer system for detecting pedestrian based on 3d point clouds | |
Kniaz et al. | Deep learning a single photo voxel model prediction from real and synthetic images | |
CN115862012A (zh) | 点云数据语义分割方法、装置、电子设备及存储介质 | |
CN115731542A (zh) | 一种多模态弱监督三维目标检测方法、系统及设备 | |
CN116883770A (zh) | 深度估计模型的训练方法、装置、电子设备及存储介质 | |
CN114549825A (zh) | 目标检测方法、装置、电子设备与存储介质 | |
CN109961083A (zh) | 用于将卷积神经网络应用于图像的方法和图像处理实体 | |
CN116612287B (zh) | 图像识别方法、装置、计算机设备和存储介质 | |
CN112819880B (zh) | 三维物体检测方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: Neural networks and neural network-based object detection and deep prediction methods Granted publication date: 20230613 Pledgee: Ningbo Yinsheng Investment Co.,Ltd. Pledgor: XINQIYUAN (SHANGHAI) SEMICONDUCTOR TECHNOLOGY Co.,Ltd. Registration number: Y2024980014581 |
|
PE01 | Entry into force of the registration of the contract for pledge of patent right |