CN111091593B - 图像处理方法、装置、电子设备及存储介质 - Google Patents
图像处理方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN111091593B CN111091593B CN201811244684.4A CN201811244684A CN111091593B CN 111091593 B CN111091593 B CN 111091593B CN 201811244684 A CN201811244684 A CN 201811244684A CN 111091593 B CN111091593 B CN 111091593B
- Authority
- CN
- China
- Prior art keywords
- image
- convolution
- processed
- preprocessed
- depth prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 18
- 238000012545 processing Methods 0.000 claims abstract description 54
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 39
- 238000000034 method Methods 0.000 claims abstract description 34
- 238000005070 sampling Methods 0.000 claims abstract description 23
- 238000007781 pre-processing Methods 0.000 claims abstract description 22
- 230000006870 function Effects 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 10
- 238000011176 pooling Methods 0.000 claims description 8
- 230000003213 activating effect Effects 0.000 claims 2
- 230000007613 environmental effect Effects 0.000 abstract description 7
- 238000010586 diagram Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 10
- 238000010606 normalization Methods 0.000 description 8
- 230000004913 activation Effects 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 239000000047 product Substances 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000007670 refining Methods 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003702 image correction Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
一种图像处理方法、装置、电子设备及存储介质,其中,所述方法包括:通过单摄像头获取待处理图像;对所述待处理图像进行预处理,获得预处理图像;基于预先训练好的卷积神经网络模型,对所述预处理图像进行下采样操作,获得特征图像;对所述特征图像进行上采样操作,获得深度预测图像。本发明还提供一种图像处理装置、电子设备及存储介质。本发明能够通过单摄像头来进行环境景深预测,同时,提高环境景深预测的准确率和速率。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种图像处理方法、装置、电子设备及存储介质。
背景技术
随着人工智能技术的发展与进步,环境景深预测技术已经大量应用于许多前沿科技之中,例如:自动驾驶,二维场景的三维重建等,环境景深预测技术是许多科研、商业产品的基础之一。
传统的环境景深预测方法是通过双目摄像头模仿人的左右眼对同一个场景拍摄两张不同角度的照片。由于不同角度拍摄的照片中对同一个物体存在差异,这个差异叫做“视差”。通常,视差越小,则代表这个物体离摄像头的距离越近,反之,视差越大,则代表这个物体离摄像头的距离越远。而这个过程通常需要相机标定、图像矫正、立体匹配等过程,计算量比较大,同时,传统的环境景深预测多是基于双摄像头、多摄像头或者是激光测距,这就带来了系统成本高、对系统计算能力要求高、无法做到小型化等问题。
发明内容
鉴于以上内容,有必要提供一种图像处理方法、装置、电子设备及存储介质,能够通过单摄像头来进行环境景深预测,同时,提高环境景深预测的准确率和速率。
一种图像处理方法,所述方法包括:
通过单摄像头获取待处理图像;
对所述待处理图像进行预处理,获得预处理图像;
基于预先训练好的卷积神经网络模型,对所述预处理图像进行下采样操作,获得特征图像;
对所述特征图像进行上采样操作,获得深度预测图像。
在一种可能的实现方式中,所述对所述待处理图像进行预处理,获得预处理图像之后,所述方法还包括:
获取预设的精度值;
根据所述精度值,确定执行所述下采样操作的第一操作次数;
所述基于预先训练好的卷积神经网络模型,对所述预处理图像进行下采样操作,获得特征图像包括:
基于预先训练好的卷积神经网络模型,按照所述第一操作次数,对所述预处理图像进行下采样操作,获得特征图像。
在一种可能的实现方式中,所述方法还包括:
获取预设的图像处理速度;
根据所述图像处理速度,确定执行所述上采样操作的第二操作次数;
所述对所述特征图像进行上采样操作,获得深度预测图像包括:
按照所述第二操作次数,对所述特征图像进行上采样操作,获得深度预测图像。
在一种可能的实现方式中,所述下采样操作包括归一化处理、卷积操作、激活函数处理以及池化操作,所述上采样操作包括卷积操作。
在一种可能的实现方式中,所述深度预测图像为灰度图像,所述深度预测图像上,每个像素点的灰度值用于反映所述像素点的深度预测值。
在一种可能的实现方式中,所述通过单摄像头获取待处理图像包括:
通过单摄像头获取图像;
判断所述图像是否为单张图像;
若所述图像为单张图像,则将所述图像确定为待处理图像。
在一种可能的实现方式中,所述方法还包括:
若所述图像为视频流,则对所述视频流进行抽帧处理,获得多张帧图像;
将每张所述帧图像确定为待处理图像。
一种图像处理装置,所述图像处理装置包括:
获取模块,用于通过单摄像头获取待处理图像;
预处理模块,用于对所述待处理图像进行预处理,获得预处理图像;
第一操作模块,用于基于预先训练好的卷积神经网络模型,对所述预处理图像进行下采样操作,获得特征图像;
第二操作模块,用于对所述特征图像进行上采样操作,获得深度预测图像。
一种电子设备,所述电子设备包括处理器和存储器,所述处理器用于执行存储器中存储的计算机程序以实现所述的图像处理方法。
一种计算机可读存储介质,所述计算机可读存储介质存储有至少一个指令,所述至少一个指令被处理器执行时实现所述的图像处理方法。
由以上技术方案,本发明中,可以通过单摄像头获取待处理图像;进一步地,对所述待处理图像进行预处理,获得预处理图像;更进一步地,基于预先训练好的卷积神经网络模型,对所述预处理图像进行下采样操作,获得特征图像;对所述特征图像进行上采样操作,获得深度预测图像。可见,本发明中,采用的是单摄像头来获取待处理图像,成本较低,同时对计算能力要求不高,只需要将待处理图像送入预先训练好的卷积神经网络模型中,即可进行环境景深预测,最终生成深度预测图像,此外,还提高了环境景深预测的准确率和速率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1是本发明公开的一种图像处理方法的较佳实施例的流程图。
图2是本发明公开的一种卷积神经网络模型的结构图;
图3是本发明公开的一种下采样操作的结构示意图。
图4是本发明公开的一种上采样操作的结构示意图。
图5是本发明公开的一种图像处理装置的较佳实施例的功能模块图。
图6是本发明实现图像处理方法的较佳实施例的电子设备的结构示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明实施例的图像处理方法可以应用在电子设备中,也可以应用在电子设备和通过网络与所述电子设备进行连接的服务器所构成的硬件环境中,由服务器和电子设备共同执行。网络包括但不限于:广域网、城域网或局域网。
其中,所述电子设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、可编程门阵列(Field—Programmable GateArray,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述电子设备包括但不限于任何一种可与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、个人数字助理(Personal Digital Assistant,PDA)、交互式网络电视(Internet ProtocolTelevision,IPTV)、智能式穿戴式设备等。
请参见图1,图1是本发明公开的一种图像处理方法的较佳实施例的流程图。其中,根据不同的需求,该流程图中步骤的顺序可以改变,某些步骤可以省略。
S11、电子设备通过单摄像头获取待处理图像。
其中,该单摄像头为能拍摄RGB图像的摄像头。
其中,所述待处理图像的尺寸可以为480*640。
在一种可能的实现方式中,所述通过单摄像头获取待处理图像包括:
通过单摄像头获取图像;
判断所述图像是否为单张图像;
若所述图像为单张图像,则将所述图像确定为待处理图像。
在一种可能的实现方式中,所述方法还包括:
若所述图像为视频流,则对所述视频流进行抽帧处理,获得多张帧图像;
将每张所述帧图像确定为待处理图像。
本发明实施例中,进行预处理的图像只能是单张的图像,因而,该待处理图像只能是单张的图像。而单摄像对场景进行拍摄,获得的图像可以是由单摄像头直接拍摄得到的单张的图像,也可以是由单摄像头录制的视频流经过抽帧处理获得的图像。故电子设备在通过单摄像头获取图像之后,需要先判断所述图像是否为单张图像,如果检测到所述图像为单张图像,则电子设备可以将所述图像确定为待处理图像。
反之,如果检测到所述图像为视频流,则电子设备需要对所述视频流进行抽帧处理,获得多张帧图像,进而将每张所述帧图像确定为待处理图像。具体的,可以在设定的时间间隔下,每隔固定的帧数抽取视频流中的某一帧,该某一帧的图像即可作为待处理图像。
S12、电子设备对所述待处理图像进行预处理,获得预处理图像。
具体的,预处理可以是对所述待处理图像进行缩放大小调整,将所述待处理图像缩放、扩大到尺寸为224*320的图像。
S13、电子设备基于预先训练好的卷积神经网络模型,对所述预处理图像进行下采样操作,获得特征图像。
请一并参见图2,图2是本发明公开的一种卷积神经网络模型的结构图。如图2所示,电子设备获得预处理图像后,即可将该预处理图像送入卷积神经网络模型。从图2中可以看出,预处理图像进入卷积神经网络模型后,依次进行下采样操作和上采样操作,即可最后生成深度预测图像。其中,下采样操作主要是为了提取所述预处理图像的特征,上采样操作主要是为了在尽可能保存特征信息的过程中恢复图像尺寸。
可选的,图2中,在进行上采样操作后,还可以执行一些优化操作,比如卷积操作、归一化处理等,这样就可以获得最优的深度预测图像。
作为一种可选的实施方式,所述步骤S12对所述待处理图像进行预处理,获得预处理图像之后,所述方法还包括:
获取预设的精度值;
根据所述精度值,确定执行所述下采样操作的第一操作次数;
所述步骤S13基于预先训练好的卷积神经网络模型,对所述预处理图像进行下采样操作,获得特征图像包括:
基于预先训练好的卷积神经网络模型,按照所述第一操作次数,对所述预处理图像进行下采样操作,获得特征图像。
在该可选的实施方式中,可以预先设定一个精度值,该精度值可以用于衡量预测的物体与摄像头的距离与实际的物体与摄像头的距离之间的误差,精度值越小,表明二者之间的误差越小,反之,精度值越大,表明二者之间的误差越大。而精度值往往与下采样的操作次数有关,故可以根据预设的精度值来确定执行所述下采样操作的第一操作次数。根据多次试验,当下采样的操作次数为5次时,精度值最佳。
请一并参见图3,图3是本发明公开的一种下采样操作的结构示意图。如图3所示,所述下采样操作可以包括归一化处理、卷积操作、激活函数处理以及池化操作。其中,图3中的卷积a,卷积b,卷积c,卷积d以及卷积e,分别代表不同卷积核的卷积操作。
其中,“归一化处理”表示对输入的预处理图像进行归一化处理,这可以加快网络整体的速度;“卷积操作”的作用是为了提取所述预处理图像的特征,“激活函数”为卷积神经网络的神经元上运行的函数,主要负责给输入的预处理图像增加入一些非线性的元素,以提高网络性能。“池化”主要的作用是去除冗余信息,以进一步提取特征信息。
其中,提取的图像特征包括可以包括但不限于物体的轮廓、纹理信息,物体与物体之间的边缘信息以及物体在环境之间的位置信息等。
其中,在进行下采样操作的过程中,图像的尺寸会发生变化,最终生成的特征图像的尺寸为输入的预处理图像的1/32。
需要说明的是,图像的尺寸是可以人为设定的,具体的数值并没有很严格的要求。这个尺寸是依据多次试验所设定的,在一定程度上既可以满足减少图像尺寸变化带来的图像损失,也可以因为尺寸减小而加快深度预测的速度。
S14、电子设备对所述特征图像进行上采样操作,获得深度预测图像。
其中,所述深度预测图像为灰度图像,表现为物体由远及近灰度逐渐增加,离镜头越远的物体,其灰度值越小,反之,离镜头越近的物体,其灰度值越大。
所述深度预测图像上,每个像素点的灰度值用于反映所述像素点的深度预测值。其中,可以预先建立灰度值与深度预测值的对应关系,在确定深度预测图像的灰度值后,即可通过查询该灰度值与深度预测值的对应关系,确定该深度预测图像的深度预测值。
其中,最终生成的深度预测图像的尺寸可以为112*160。
作为一种可选的实施方式,所述方法还包括:
获取预设的图像处理速度;
根据所述图像处理速度,确定执行所述上采样操作的第二操作次数;
所述步骤S14对所述特征图像进行上采样操作,获得深度预测图像包括:
按照所述第二操作次数,对所述特征图像进行上采样操作,获得深度预测图像。
在该可选的实施方式中,可以预先设定一个图像处理速度,该图像处理速度可以用于衡量将预处理图像送入卷积神经网络模型后,对预处理图像的处理速度。而图像处理速度往往与上采样的操作次数有关,故可以根据预设的图像处理速度来确定执行所述上采样操作的第一操作次数。根据多次试验,当上采样的操作次数为4次时,图像处理速度最佳。
请一并参见图4,图4是本发明公开的一种上采样操作的结构示意图。如图4所示,所述上采样操作可以包括卷积操作。其中,图4中的卷积f,卷积g,卷积h,卷积i以及卷积j,分别代表不同卷积核的卷积操作。
图4中,主要是通过卷积操作,对提取到的特征图像与最后需要生成的深度预测图像进行匹配,同时,对特征图像中每个像素点进行映射,即赋予每个像素点对应的深度预测值。
此外,图4中,还可以在生成深度预测图像的过程中,添加在下采样操作中提取到的中间特征信息,这在一定程度上可以弥补在下采样操作中损失的图像特征信息,以提高深度预测的精度。其中,中间特征信息也是特征图像的一种。不过相比于特征图像,该中间特征信息提取到的特征不够完全,包含有一些冗余的特征图像的信息,因为该中间特征信息是经过少次数的下采样操作得到的不够精炼的特征图像。可以将下采样操作理解为对预处理图像进行精炼,这样经过多次下采样操作得到的特征图像便是最纯粹的信息。但是,与此同时,最后的特征图像或多或少会损失一些有用的信息,因此,可以使用中间特征信息来对损失的部分进行补充。
作为一种可选的实施方式,所述方法还包括:
若所述待处理图像是通过对视频流进行处理获得的帧图像,则将每个深度预测图像进行整合,获得最终深度预测图像。
在该可选的实施方式中,卷积神经网络模型只能针对单张的图像进行处理,如果单摄像头获得的是视频流,则需要将视频流做抽帧处理,获得多张帧图像,再送入卷积神经网络模型中进行处理,这样,可以获得多个深度预测图像,进一步地,还需要将该多个深度预测图像进行整合,获得最终深度预测图像。
在图1所描述的方法流程中,可以通过单摄像头获取待处理图像;进一步地,对所述待处理图像进行预处理,获得预处理图像;更进一步地,基于预先训练好的卷积神经网络模型,对所述预处理图像进行下采样操作,获得特征图像;对所述特征图像进行上采样操作,获得深度预测图像。可见,本发明中,采用的是单摄像头来获取待处理图像,成本较低,同时对计算能力要求不高,只需要将待处理图像送入预先训练好的卷积神经网络模型中,即可进行环境景深预测,最终生成深度预测图像,此外,还提高了环境景深预测的准确率和速率。
以上所述,仅是本发明的具体实施方式,但本发明的保护范围并不局限于此,对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出改进,但这些均属于本发明的保护范围。
请参见图5,图5是本发明公开的一种图像处理装置的较佳实施例的功能模块图。
在一些实施例中,所述图像处理装置运行于电子设备中。所述图像处理装置可以包括多个由程序代码段所组成的功能模块。所述图像处理装置中的各个程序段的程序代码可以存储于存储器中,并由至少一个处理器所执行,以执行图1所描述的图像处理方法中的部分或全部步骤。
本实施例中,所述图像处理装置根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:获取模块201、预处理模块202、第一操作模块203及第二操作模块204。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。在一些实施例中,关于各模块的功能将在后续的实施例中详述。
获取模块201,用于通过单摄像头获取待处理图像;
其中,该单摄像头为能拍摄RGB图像的摄像头。
其中,所述待处理图像的尺寸可以为480*640。
在一种可能的实现方式中,所述获取模块201通过单摄像头获取待处理图像包括:
通过单摄像头获取图像;
判断所述图像是否为单张图像;
若所述图像为单张图像,则将所述图像确定为待处理图像。
在一种可能的实现方式中,所述获取模块201通过单摄像头获取待处理图像还包括:
若所述图像为视频流,则对所述视频流进行抽帧处理,获得多张帧图像;
将每张所述帧图像确定为待处理图像。
本发明实施例中,进行预处理的图像只能是单张的图像,因而,该待处理图像只能是单张的图像。而单摄像对场景进行拍摄,获得的图像可以是由单摄像头直接拍摄得到的单张的图像,也可以是由单摄像头录制的视频流经过抽帧处理获得的图像。故电子设备在通过单摄像头获取图像之后,需要先判断所述图像是否为单张图像,如果检测到所述图像为单张图像,则电子设备可以将所述图像确定为待处理图像。
反之,如果检测到所述图像为视频流,则电子设备需要对所述视频流进行抽帧处理,获得多张帧图像,进而将每张所述帧图像确定为待处理图像。具体的,可以在设定的时间间隔下,每隔固定的帧数抽取视频流中的某一帧,该某一帧的图像即可作为待处理图像。
预处理模块202,用于对所述待处理图像进行预处理,获得预处理图像;
具体的,预处理可以是对所述待处理图像进行缩放大小调整,将所述待处理图像缩放、扩大到尺寸为224*320的图像。
第一操作模块203,用于基于预先训练好的卷积神经网络模型,对所述预处理图像进行下采样操作,获得特征图像;
请一并参见图2,图2是本发明公开的一种卷积神经网络模型的结构图。如图2所示,电子设备获得预处理图像后,即可将该预处理图像送入卷积神经网络模型。从图2中可以看出,预处理图像进入卷积神经网络模型后,依次进行下采样操作和上采样操作,即可最后生成深度预测图像。其中,下采样操作主要是为了提取所述预处理图像的特征,上采样操作主要是为了在尽可能保存特征信息的过程中恢复图像尺寸。
可选的,图2中,在进行上采样操作后,还可以执行一些优化操作,比如卷积操作、归一化处理等,这样就可以获得最优的深度预测图像。
作为一种可选的实施方式,所述获取模块201,还用于获取预设的精度值;
图5所述的图像处理装置还包括:
确定模块,用于根据所述精度值,确定执行所述下采样操作的第一操作次数;
所述第一操作模块203基于预先训练好的卷积神经网络模型,对所述预处理图像进行下采样操作,获得特征图像包括:
基于预先训练好的卷积神经网络模型,按照所述第一操作次数,对所述预处理图像进行下采样操作,获得特征图像。
在该可选的实施方式中,可以预先设定一个精度值,该精度值可以用于衡量预测的物体与摄像头的距离与实际的物体与摄像头的距离之间的误差,精度值越小,表明二者之间的误差越小,反之,精度值越大,表明二者之间的误差越大。而精度值往往与下采样的操作次数有关,故可以根据预设的精度值来确定执行所述下采样操作的第一操作次数。根据多次试验,当下采样的操作次数为5次时,精度值最佳。
请一并参见图3,图3是本发明公开的一种下采样操作的结构示意图。如图3所示,所述下采样操作可以包括归一化处理、卷积操作、激活函数处理以及池化操作。其中,图3中的卷积a,卷积b,卷积c,卷积d以及卷积e,分别代表不同卷积核的卷积操作。
其中,“归一化处理”表示对输入的预处理图像进行归一化处理,这可以加快网络整体的速度;“卷积操作”的作用是为了提取所述预处理图像的特征,“激活函数”为卷积神经网络的神经元上运行的函数,主要负责给输入的预处理图像增加入一些非线性的元素,以提高网络性能。“池化”主要的作用是去除冗余信息,以进一步提取特征信息。
其中,提取的图像特征包括可以包括但不限于物体的轮廓、纹理信息,物体与物体之间的边缘信息以及物体在环境之间的位置信息等。
其中,在进行下采样操作的过程中,图像的尺寸会发生变化,最终生成的特征图像的尺寸为输入的预处理图像的1/32。
需要说明的是,图像的尺寸是可以人为设定的,具体的数值并没有很严格的要求。这个尺寸是依据多次试验所设定的,在一定程度上既可以满足减少图像尺寸变化带来的图像损失,也可以因为尺寸减小而加快深度预测的速度。
第二操作模块204,用于对所述特征图像进行上采样操作,获得深度预测图像。
其中,所述深度预测图像为灰度图像,表现为物体由远及近灰度逐渐增加,离镜头越远的物体,其灰度值越小,反之,离镜头越近的物体,其灰度值越大。
所述深度预测图像上,每个像素点的灰度值用于反映所述像素点的深度预测值。其中,可以预先建立灰度值与深度预测值的对应关系,在确定深度预测图像的灰度值后,即可通过查询该灰度值与深度预测值的对应关系,确定该深度预测图像的深度预测值。
其中,最终生成的深度预测图像的尺寸可以为112*160。
作为一种可选的实施方式,所述获取模块201,还用于获取预设的图像处理速度;
所述确定模块,还用于根据所述图像处理速度,确定执行所述上采样操作的第二操作次数;
所述第二操作模块204对所述特征图像进行上采样操作,获得深度预测图像包括:
按照所述第二操作次数,对所述特征图像进行上采样操作,获得深度预测图像。
在该可选的实施方式中,可以预先设定一个图像处理速度,该图像处理速度可以用于衡量将预处理图像送入卷积神经网络模型后,对预处理图像的处理速度。而图像处理速度往往与上采样的操作次数有关,故可以根据预设的图像处理速度来确定执行所述上采样操作的第一操作次数。根据多次试验,当上采样的操作次数为4次时,图像处理速度最佳。
请一并参见图4,图4是本发明公开的一种上采样操作的结构示意图。如图4所示,所述上采样操作可以包括卷积操作。其中,图4中的卷积f,卷积g,卷积h,卷积i以及卷积j,分别代表不同卷积核的卷积操作。
图4中,主要是通过卷积操作,对提取到的特征图像与最后需要生成的深度预测图像进行匹配,同时,对特征图像中每个像素点进行映射,即赋予每个像素点对应的深度预测值。
此外,图4中,还可以在生成深度预测图像的过程中,添加在下采样操作中提取到的中间特征信息,这在一定程度上可以弥补在下采样操作中损失的图像特征信息,以提高深度预测的精度。其中,中间特征信息也是特征图像的一种。不过相比于特征图像,该中间特征信息提取到的特征不够完全,包含有一些冗余的特征图像的信息,因为该中间特征信息是经过少次数的下采样操作得到的不够精炼的特征图像。可以将下采样操作理解为对预处理图像进行精炼,这样经过多次下采样操作得到的特征图像便是最纯粹的信息。但是,与此同时,最后的特征图像或多或少会损失一些有用的信息,因此,可以使用中间特征信息来对损失的部分进行补充。
在图5所描述的图像处理装置中,可以通过单摄像头获取待处理图像;进一步地,对所述待处理图像进行预处理,获得预处理图像;更进一步地,基于预先训练好的卷积神经网络模型,对所述预处理图像进行下采样操作,获得特征图像;对所述特征图像进行上采样操作,获得深度预测图像。可见,本发明中,采用的是单摄像头来获取待处理图像,成本较低,同时对计算能力要求不高,只需要将待处理图像送入预先训练好的卷积神经网络模型中,即可进行环境景深预测,最终生成深度预测图像,此外,还提高了环境景深预测的准确率和速率。
如图6所示,图6是本发明实现图像处理方法的较佳实施例的电子设备的结构示意图。所述电子设备6包括存储器61、至少一个处理器62、存储在所述存储器61中并可在所述至少一个处理器62上运行的计算机程序63及至少一条通讯总线64。
本领域技术人员可以理解,图6所示的示意图仅仅是所述电子设备6的示例,并不构成对所述电子设备6的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述电子设备6还可以包括输入输出设备、网络接入设备、总线等。
所述电子设备6还包括但不限于任何一种可与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、个人数字助理(Personal Digital Assistant,PDA)、游戏机、交互式网络电视(InternetProtocol Television,IPTV)、智能式穿戴式设备等。所述电子设备6所处的网络包括但不限于互联网、广域网、城域网、局域网、虚拟专用网络(Virtual Private Network,VPN)等。
所述至少一个处理器62可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。该处理器62可以是微处理器或者该处理器62也可以是任何常规的处理器等,所述处理器62是所述电子设备6的控制中心,利用各种接口和线路连接整个电子设备6的各个部分。
所述存储器61可用于存储所述计算机程序63和/或模块/单元,所述处理器62通过运行或执行存储在所述存储器61内的计算机程序和/或模块/单元,以及调用存储在存储器61内的数据,实现所述电子设备6的各种功能。所述存储器61可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备6的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器61可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
结合图1,所述电子设备6中的所述存储器61存储多个指令以实现一种图像处理方法,所述处理器62可执行所述多个指令从而实现:
通过单摄像头获取待处理图像;
对所述待处理图像进行预处理,获得预处理图像;
基于预先训练好的卷积神经网络模型,对所述预处理图像进行下采样操作,获得特征图像;
对所述特征图像进行上采样操作,获得深度预测图像。
在一种可选的实施方式中,所述对所述待处理图像进行预处理,获得预处理图像之后,所述处理器62可执行所述多个指令从而实现:
获取预设的精度值;
根据所述精度值,确定执行所述下采样操作的第一操作次数;
所述基于预先训练好的卷积神经网络模型,对所述预处理图像进行下采样操作,获得特征图像包括:
按照所述第一操作次数,基于预先训练好的卷积神经网络模型,对所述预处理图像进行下采样操作,获得特征图像。
在一种可选的实施方式中,所述处理器62可执行所述多个指令从而实现:
获取预设的图像处理速度;
根据所述图像处理速度,确定执行所述上采样操作的第二操作次数;
所述对所述特征图像进行上采样操作,获得深度预测图像包括:
按照所述第二操作次数,对所述特征图像进行上采样操作,获得深度预测图像。
在一种可选的实施方式中,所述下采样操作包括归一化处理、卷积操作、激活函数处理以及池化操作,所述上采样操作包括卷积操作。
在一种可选的实施方式中,所述深度预测图像为灰度图像,所述深度预测图像上,每个像素点的灰度值用于反映所述像素点的深度预测值。
在一种可选的实施方式中,所述处理器62可执行所述多个指令从而实现:
所述通过单摄像头获取待处理图像包括:
通过单摄像头获取图像;
判断所述图像是否为单张图像;
若所述图像为单张图像,则将所述图像确定为待处理图像。
在一种可选的实施方式中,所述处理器62可执行所述多个指令从而实现:
若所述图像为视频流,则对所述视频流进行抽帧处理,获得多张帧图像;
将每张所述帧图像确定为待处理图像。
具体地,所述处理器62对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
在图6所描述的电子设备6中,可以通过单摄像头获取待处理图像;进一步地,对所述待处理图像进行预处理,获得预处理图像;更进一步地,基于预先训练好的卷积神经网络模型,对所述预处理图像进行下采样操作,获得特征图像;对所述特征图像进行上采样操作,获得深度预测图像。可见,本发明中,采用的是单摄像头来获取待处理图像,成本较低,同时对计算能力要求不高,只需要将待处理图像送入预先训练好的卷积神经网络模型中,即可进行环境景深预测,最终生成深度预测图像,此外,还提高了环境景深预测的准确率和速率。
所述电子设备6集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (9)
1.一种图像处理方法,其特征在于,所述方法包括:
通过单摄像头获取待处理图像;
对所述待处理图像进行预处理,获得预处理图像;
基于预先训练好的卷积神经网络模型,对所述预处理图像进行下采样操作,获得特征图像,包括:基于所述预先训练好的卷积神经网络模型中不同的并联网络层对所述预处理图像分别进行操作,对所述不同的并联网络层得到的图像进行相加,得到所述特征图像,所述不同的并联网络层包括一并联支路及另一并联支路,其中,一并联支路为:归一化、卷积a、卷积b、卷积c 与池化的串联结构,另一并联支路为:卷积d、激活函数、卷积e 与池化的串联结构;
对所述特征图像进行上采样操作,获得深度预测图像,包括:将所述特征图像分别输入四个卷积进行不同的卷积操作,对所述卷积操作得到的图像进行相加,得到求和,获取所述预处理图像进行下采样操作时所得到的中间特征信息,将所述求和及所述中间特征信息输入卷积j进行卷积处理,得到所述深度预测图像,所述四个卷积包括卷积f、卷积g、卷积h和卷积i。
2.根据权利要求1所述的方法,其特征在于,所述对所述待处理图像进行预处理,获得预处理图像之后,所述方法还包括:
获取预设的精度值;
根据所述精度值,确定执行所述下采样操作的第一操作次数;
所述基于预先训练好的卷积神经网络模型,对所述预处理图像进行下采样操作,获得特征图像包括:
基于预先训练好的卷积神经网络模型,按照所述第一操作次数,对所述预处理图像进行下采样操作,获得特征图像。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
获取预设的图像处理速度;
根据所述图像处理速度,确定执行所述上采样操作的第二操作次数;
所述对所述特征图像进行上采样操作,获得深度预测图像包括:
按照所述第二操作次数,对所述特征图像进行上采样操作,获得深度预测图像。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述深度预测图像为灰度图像,所述深度预测图像上,每个像素点的灰度值用于反映所述像素点的深度预测值。
5.根据权利要求1至3任一项所述的方法,其特征在于,所述通过单摄像头获取待处理图像包括:
通过单摄像头获取图像;
判断所述图像是否为单张图像;
若所述图像为单张图像,则将所述图像确定为待处理图像。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
若所述图像为视频流,则对所述视频流进行抽帧处理,获得多张帧图像;
将每张所述帧图像确定为待处理图像。
7.一种图像处理装置,其特征在于,所述装置包括:
获取模块,用于通过单摄像头获取待处理图像;
预处理模块,用于对所述待处理图像进行预处理,获得预处理图像;
第一操作模块,用于基于预先训练好的卷积神经网络模型,对所述预处理图像进行下采样操作,获得特征图像,包括:基于所述预先训练好的卷积神经网络模型中不同的并联网络层对所述预处理图像分别进行操作,对所述不同的并联网络层得到的图像进行相加,得到所述特征图像,所述不同的并联网络层包括一并联支路及另一并联支路,其中,一并联支路为:归一化、卷积a、卷积b、卷积c 与池化的串联结构,另一并联支路为:卷积d、激活函数、卷积e与池化的串联结构;
第二操作模块,用于对所述特征图像进行上采样操作,获得深度预测图像,包括:将所述特征图像分别输入四个卷积进行不同的卷积操作,对所述卷积操作得到的图像进行相加,得到求和,获取所述预处理图像进行下采样操作时所得到的中间特征信息,将所述求和及所述中间特征信息输入卷积j进行卷积处理,得到所述深度预测图像,所述四个卷积包括卷积f、卷积g、卷积h和卷积i。
8.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述处理器用于执行存储器中存储的计算机程序以实现如权利要求1至6中任意一项所述的图像处理方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有至少一个指令,所述至少一个指令被处理器执行时实现如权利要求1至6任意一项所述的图像处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811244684.4A CN111091593B (zh) | 2018-10-24 | 2018-10-24 | 图像处理方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811244684.4A CN111091593B (zh) | 2018-10-24 | 2018-10-24 | 图像处理方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111091593A CN111091593A (zh) | 2020-05-01 |
CN111091593B true CN111091593B (zh) | 2024-03-22 |
Family
ID=70391558
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811244684.4A Active CN111091593B (zh) | 2018-10-24 | 2018-10-24 | 图像处理方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111091593B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106934397A (zh) * | 2017-03-13 | 2017-07-07 | 北京市商汤科技开发有限公司 | 图像处理方法、装置及电子设备 |
CN106981080A (zh) * | 2017-02-24 | 2017-07-25 | 东华大学 | 基于红外图像和雷达数据的夜间无人车场景深度估计方法 |
CN107578436A (zh) * | 2017-08-02 | 2018-01-12 | 南京邮电大学 | 一种基于全卷积神经网络fcn的单目图像深度估计方法 |
CN107767413A (zh) * | 2017-09-20 | 2018-03-06 | 华南理工大学 | 一种基于卷积神经网络的图像深度估计方法 |
CN107948529A (zh) * | 2017-12-28 | 2018-04-20 | 北京麒麟合盛网络技术有限公司 | 图像处理方法及装置 |
CN108062763A (zh) * | 2017-12-29 | 2018-05-22 | 纳恩博(北京)科技有限公司 | 目标跟踪方法及装置、存储介质 |
CN108229497A (zh) * | 2017-07-28 | 2018-06-29 | 北京市商汤科技开发有限公司 | 图像处理方法、装置、存储介质、计算机程序和电子设备 |
CN108304821A (zh) * | 2018-02-14 | 2018-07-20 | 广东欧珀移动通信有限公司 | 图像识别方法及装置、图像获取方法及设备、计算机设备及非易失性计算机可读存储介质 |
CN108520535A (zh) * | 2018-03-26 | 2018-09-11 | 天津大学 | 基于深度恢复信息的物体分类方法 |
-
2018
- 2018-10-24 CN CN201811244684.4A patent/CN111091593B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106981080A (zh) * | 2017-02-24 | 2017-07-25 | 东华大学 | 基于红外图像和雷达数据的夜间无人车场景深度估计方法 |
CN106934397A (zh) * | 2017-03-13 | 2017-07-07 | 北京市商汤科技开发有限公司 | 图像处理方法、装置及电子设备 |
CN108229497A (zh) * | 2017-07-28 | 2018-06-29 | 北京市商汤科技开发有限公司 | 图像处理方法、装置、存储介质、计算机程序和电子设备 |
CN107578436A (zh) * | 2017-08-02 | 2018-01-12 | 南京邮电大学 | 一种基于全卷积神经网络fcn的单目图像深度估计方法 |
CN107767413A (zh) * | 2017-09-20 | 2018-03-06 | 华南理工大学 | 一种基于卷积神经网络的图像深度估计方法 |
CN107948529A (zh) * | 2017-12-28 | 2018-04-20 | 北京麒麟合盛网络技术有限公司 | 图像处理方法及装置 |
CN108062763A (zh) * | 2017-12-29 | 2018-05-22 | 纳恩博(北京)科技有限公司 | 目标跟踪方法及装置、存储介质 |
CN108304821A (zh) * | 2018-02-14 | 2018-07-20 | 广东欧珀移动通信有限公司 | 图像识别方法及装置、图像获取方法及设备、计算机设备及非易失性计算机可读存储介质 |
CN108520535A (zh) * | 2018-03-26 | 2018-09-11 | 天津大学 | 基于深度恢复信息的物体分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111091593A (zh) | 2020-05-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110874594B (zh) | 基于语义分割网络的人体外表损伤检测方法及相关设备 | |
CN111340077B (zh) | 基于注意力机制的视差图获取方法和装置 | |
CN109840477B (zh) | 基于特征变换的受遮挡人脸识别方法及装置 | |
CN109766925B (zh) | 特征融合方法、装置、电子设备及存储介质 | |
WO2020215644A1 (zh) | 视频图像处理方法及装置 | |
CN113807451B (zh) | 全景图像特征点匹配模型的训练方法、装置以及服务器 | |
CN111079764A (zh) | 一种基于深度学习的低照度车牌图像识别方法及装置 | |
CN110781770B (zh) | 基于人脸识别的活体检测方法、装置及设备 | |
CN111161299B (zh) | 影像分割方法、存储介质及电子装置 | |
KR102628115B1 (ko) | 영상 처리 방법, 장치, 기록 매체 및 전자 장치 | |
CN114612987A (zh) | 一种表情识别方法及装置 | |
CN111833360A (zh) | 一种图像处理方法、装置、设备以及计算机可读存储介质 | |
CN112509144A (zh) | 人脸图像处理方法、装置、电子设备及存储介质 | |
CN114330565A (zh) | 一种人脸识别方法及装置 | |
CN110827341A (zh) | 一种图片深度估计方法、装置和存储介质 | |
CN113920023A (zh) | 图像处理方法及装置、计算机可读介质和电子设备 | |
CN113658050A (zh) | 一种图像的去噪方法、去噪装置、移动终端及存储介质 | |
CN111091593B (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN113724176B (zh) | 一种多摄像头动作捕捉无缝衔接方法、装置、终端及介质 | |
CN110969651B (zh) | 3d景深估计方法、装置及终端设备 | |
CN112950641B (zh) | 图像处理方法及装置、计算机可读存储介质和电子设备 | |
CN115220574A (zh) | 位姿确定方法及装置、计算机可读存储介质和电子设备 | |
CN112087556B (zh) | 一种暗光成像方法、装置、可读存储介质及终端设备 | |
CN112288748B (zh) | 一种语义分割网络训练、图像语义分割方法及装置 | |
CN113160942A (zh) | 影像数据质量评估方法、装置、终端设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |