CN108875751B - 图像处理方法和装置、神经网络的训练方法、存储介质 - Google Patents

图像处理方法和装置、神经网络的训练方法、存储介质 Download PDF

Info

Publication number
CN108875751B
CN108875751B CN201711064141.XA CN201711064141A CN108875751B CN 108875751 B CN108875751 B CN 108875751B CN 201711064141 A CN201711064141 A CN 201711064141A CN 108875751 B CN108875751 B CN 108875751B
Authority
CN
China
Prior art keywords
layer
deconvolution
channel compression
convolution
convolution calculation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711064141.XA
Other languages
English (en)
Other versions
CN108875751A (zh
Inventor
彭超
俞刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kuangshi Technology Co Ltd
Beijing Megvii Technology Co Ltd
Original Assignee
Beijing Kuangshi Technology Co Ltd
Beijing Megvii Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kuangshi Technology Co Ltd, Beijing Megvii Technology Co Ltd filed Critical Beijing Kuangshi Technology Co Ltd
Priority to CN201711064141.XA priority Critical patent/CN108875751B/zh
Publication of CN108875751A publication Critical patent/CN108875751A/zh
Application granted granted Critical
Publication of CN108875751B publication Critical patent/CN108875751B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

一种基于神经网络的图像处理方法和装置、用于图像处理的神经网络的训练方法以及计算机可读存储介质。所述神经网络包括依次连接的卷积计算层组、通道压缩层组、反卷积计算层组。所述图像处理方法包括:利用所述卷积计算层组对输入图像执行卷积处理以得到所述输入图像的特征图;利用所述通道压缩层组对所述输入图像的特征图执行通道压缩处理以得到所述输入图像的中间分数图;以及利用所述反卷积计算层组对所述输入图像的中间分数图进行反卷积处理以得到所述输入图像的目标分数图。

Description

图像处理方法和装置、神经网络的训练方法、存储介质
技术领域
本公开涉及图像处理领域,更具体地,本公开涉及一种基于神经网络的图像处理方法和装置、用于图像处理的神经网络的训练方法以及计算机可读存储介质。
背景技术
数字抠像可以包括图像抠像和视频抠像。图像抠像又可以看作是视频抠像的基础。视频抠像用于提取视频中的感兴趣物体,并将提取的物体合成到新的场景中,得到一段具有特殊效果的视频。视频抠像技术可以广泛应用于影视制作、远程视频会议、虚拟现实、增强现实、数字家庭娱乐等方面。视频抠像可以将实际拍摄的景物与电脑制作的虚拟场景完美的结合起来,从而给观众呈现更加震撼的视觉冲击效果。视频抠像技术可以用于对视频中的人物进行实时人形抠像。人形抠像技术能够智能识别非纯色复杂背景下的人物,从而人形抠像技术在视频直播、照片合成、相片处理和娱乐特效处理等领域有着广泛的应用。
目前,由于系统的设计结构等因素,人形抠像系统往往不能做到实时处理。随着直播用户群的扩大,离线或半实时处理的人形抠像系统已经不能满足视频直播领域的需求。
发明内容
鉴于上述问题而提出了本公开的相关内容。本公开的实施例提供了一种基于神经网络的图像处理方法和装置、用于图像处理的神经网络的训练方法以及计算机可读存储介质。
本公开至少一实施例提供一种基于神经网络的图像处理方法,其中,所述神经网络包括依次连接的卷积计算层组、通道压缩层组、反卷积计算层组,所述图像处理方法包括:利用所述卷积计算层组对输入图像执行卷积处理以得到所述输入图像的特征图;利用所述通道压缩层组对所述输入图像的特征图执行通道压缩处理以得到所述输入图像的中间分数图;以及利用所述反卷积计算层组对所述输入图像的中间分数图进行反卷积处理以得到所述输入图像的目标分数图。
例如,在本公开一实施例提供的图像处理方法中,所述通道压缩层组中的每个通道压缩层包括第一通道压缩子层和第二通道压缩子层,所述第一通道压缩子层用于压缩所述卷积计算层组中对应的卷积计算层输出的特征图的通道,所述第二通道压缩子层用于对所述第一通道压缩子层的输出执行卷积计算。
例如,在本公开一实施例提供的图像处理方法中,所述第一通道压缩子层包括至少一个1×1卷积核。
例如,在本公开一实施例提供的图像处理方法中,所述第二通道压缩子层包括至少一个3×3卷积核、5×5卷积核或7×7卷积核。
例如,在本公开一实施例提供的图像处理方法中,所述通道压缩层组包括第一通道压缩层和第二通道压缩层,所述卷积计算层组包括第一卷积计算层和第二卷积计算层,所述反卷积计算层组包括第一反卷积层和第二反卷积层,所述反卷积计算层组还包括第一求和层,所述第一反卷积层与所述第一卷积计算层相对应,所述第二反卷积层与所述第二卷积计算层相对应,所述第一通道压缩层与所述第一卷积计算层连接,所述第二通道压缩层与所述第二卷积计算层连接,所述方法包括:利用所述第一卷积计算层对所述输入图像执行卷积处理以得到第一特征图;利用所述第一通道压缩层对所述第一特征图执行通道压缩处理以得到第一中间分数图;利用所述第二卷积计算层对所述第一特征图执行卷积处理以得到第二特征图;利用所述第二通道压缩层对所述第二特征图执行通道压缩处理以得到第二中间分数图;利用所述第二反卷积层对所述第二中间分数图进行反卷积处理以得到第一分数图;利用所述第一求和层对所述第一分数图和所述第一中间分数图执行求和处理以得到第一融合图;利用所述第一反卷积层对所述第一融合图执行反卷积处理以得到所述输入图像的目标分数图。
例如,在本公开一实施例提供的图像处理方法中,所述通道压缩层组包括第一通道压缩层、第二通道压缩层和第三通道压缩层,所述卷积计算层组包括第一卷积计算层、第二卷积计算层和第三卷积计算层,所述反卷积计算层组包括第一反卷积层、第二反卷积层和第三反卷积层,所述反卷积计算层组还包括第一求和层和第二求和层,所述第一反卷积层与所述第一卷积计算层相对应,所述第二反卷积层与所述第二卷积计算层相对应,所述第三反卷积层与所述第三卷积计算层相对应,所述第一通道压缩层与所述第一卷积计算层连接,所述第二通道压缩层与所述第二卷积计算层连接,所述第三通道压缩层与所述第三卷积计算层连接,所述方法包括:利用所述第一卷积计算层对所述输入图像执行卷积处理以得到第一特征图;利用所述第一通道压缩层对所述第一特征图执行通道压缩处理以得到第一中间分数图;利用所述第二卷积计算层对所述第一特征图执行卷积处理以得到第二特征图;利用所述第二通道压缩层对所述第二特征图执行通道压缩处理以得到第二中间分数图;利用所述第三卷积计算层对所述第二特征图执行卷积处理以得到第三特征图;利用所述第三通道压缩层对所述第三特征图执行通道压缩处理以得到第三中间分数图;利用所述第三反卷积层对所述第三中间分数图执行反卷积处理以得到第二分数图;利用所述第二求和层对所述第二分数图和所述第二中间分数图执行求和处理以得到第二融合图;利用所述第二反卷积层对所述第二融合图执行反卷积处理以得到第一分数图;利用所述第一求和层对所述第一分数图和所述第一中间分数图执行求和处理以得到第一融合图;利用所述第一反卷积层对所述第一融合图执行反卷积处理以得到所述输入图像的目标分数图。
例如,在本公开一实施例提供的图像处理方法中,所述卷积计算层组中的每个卷积计算层包括卷积子层和下采样子层,所述卷积子层用于提取所述输入图像的特征信息以得到特征表示;所述下采样子层用于对所述特征表示执行下采样处理以得到所述输入图像的特征图。
例如,在本公开一实施例提供的图像处理方法中,所述神经网络为全卷积神经网络。
本公开至少一实施例还提供一种用于图像处理的神经网络的训练方法,其中,所述神经网络包括依次连接的卷积计算层组、通道压缩层组、反卷积计算层组,所述训练方法包括:利用所述卷积计算层组对训练图像执行卷积处理以得到所述训练图像的特征图;利用所述通道压缩层组对所述训练图像的特征图执行通道压缩处理以得到所述训练图像的中间训练分数图;利用所述反卷积计算层组对所述训练图像的中间训练分数图进行反卷积处理以得到所述训练图像的训练分数图;根据所述训练图像的训练分数图调整所述神经网络的参数;以及在所述神经网络的损失函数满足预定条件时,获得训练好的所述神经网络,在所述神经网络的损失函数不满足预定条件时,继续输入所述训练图像以重复执行上述训练过程。
本公开至少一实施例还提供一种图像处理装置,其包括:存储器和处理器。存储器用于存储非暂时性计算机可读指令;处理器用于运行所述非暂时性计算机可读指令,所述非暂时性计算机可读指令被所述处理器运行时可以执行根据上述任一所述的图像处理方法。
本公开至少一实施例还提供一种计算机可读存储介质,用于存储非暂时性计算机可读指令,当所述非暂时性计算机可读指令由计算机执行时可以执行上述任一所述的图像处理方法。
要理解的是,前面的一般描述和下面的详细描述两者都是示例性的,并且意图在于提供要求保护的技术的进一步说明。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例的附图作简单地介绍,显而易见地,下面描述中的附图仅仅涉及本公开的一些实施例,而非对本公开的限制。
图1为本公开一实施例提供的一种神经网络的示意性框图;
图2为本公开一实施例提供的一种基于神经网络的图像处理方法的示意性流程图;
图3A为本公开一实施例提供的一种神经网络的结构示意图;
图3B为本公开一实施例提供的另一种神经网络的结构示意图;
图4为图3A所示的神经网络中的第一通道压缩层的结构示意图;
图5A为本公开一实施例提供的一幅输入图像的示意图;
图5B为图5A所示的输入图像的目标分数图的示意图;
图6为本公开一实施例提供的又一种神经网络的结构示意图;
图7为本公开一实施例提供的再一种神经网络的结构示意图;
图8为本公开一实施例提供的一种用于图像处理的神经网络的训练方法的流程图;
图9为本公开一实施例提供的一种图像处理装置的示意性框图;
图10为本公开另一实施例提供的一种图像处理装置的示意性框图;以及
图11为本公开一实施例提供的一种计算机可读存储介质的示意图。
具体实施方式
为了使得本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例的附图,对本公开实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。基于所描述的本公开的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
除非另外定义,本公开使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。
本公开的实施例涉及基于神经网络的图像处理方法和装置、用于图像处理的神经网络的训练方法以及计算机可读存储介质。
例如,利用神经网络进行图像分割处理可以分为两个阶段,即训练阶段和图像分割阶段。训练阶段是指首先需要利用训练图像(集)对神经网络进行训练,以调整神经网络的参数;图像分割阶段是指利用训练好的神经网络对待进行图像分割处理的图像进行语义分割。
下面结合附图详细描述本公开的几个实施例,但是本公开并不限于这些具体的实施例。
图1示出了本公开一实施例提供的一种神经网络的示意性框图。图2示出了本公开一实施例提供的一种基于神经网络的图像处理方法的示意性流程图。
首先,参照图1和图2描述本公开实施例提供的基于神经网络的图像处理方法,即神经网络的图像分割阶段。在图像分割阶段,本公开实施例提供的图像处理方法包括利用神经网络对输入图像执行图像分割处理以获得输入图像的目标分数图。
例如,如图1所示,神经网络10可以包括依次连接的卷积计算层组100、通道压缩层组200、反卷积计算层组300。例如,在本公开实施例中,图像分割处理包括但不限于卷积处理、通道压缩处理和反卷积处理。卷积计算层组100被配置为执行卷积处理,通道压缩层组200被配置为执行通道压缩处理,反卷积计算层组300被配置为执行反卷积处理。由此,如图2所示,本公开实施例提供的基于神经网络的图像处理方法包括以下步骤:
步骤S10:获取输入图像;
步骤S20:利用卷积计算层组对输入图像执行卷积处理以得到输入图像的特征图;
步骤S30:利用通道压缩层组对输入图像的特征图执行通道压缩处理以得到输入图像的中间分数图;以及
步骤S40:利用反卷积计算层组对输入图像的中间分数图进行反卷积处理以得到输入图像的目标分数图。
本公开实施例提供的图像处理方法通过通道压缩层组压缩特征图的通道,从而减少神经网络的计算量,在不降低图像分割精度的前提下,提升神经网络的计算速度,提高图像处理的效率,实现实时分割图像,尤其是用于视频的实时分割图像。
例如,在一个示例中,神经网络10可以为卷积神经网络(CNN),例如全卷积神经网络(FCN)。该卷积神经网络的初始参数可以进行随机初始化,也可以利用之前已经训练好的网络(如VGG、ResNet等)进行初始化。
例如,在步骤S10中,输入图像可以包括静态图像或者视频图像中的一帧。输入图像可以通过图像获取装置获取。图像获取装置可以包括智能手机的摄像头、平板电脑的摄像头、个人计算机的摄像头、数码照相机的镜头、监控摄像头或者网络摄像头等;或者,该摄像头可以是用于拍摄可见光或红外光的图像的摄像头。在本公开的一个实施例中,可以在直播场景中配置能够获取直播场景的视频数据的摄像头作为图像获取装置。图像处理装置可以包括神经网络,从而图像处理装置可以接收输入图像,并利用神经网络对输入图像执行图像分割处理以获得输入图像的目标分数图。
例如,图像获取装置可以与图像处理装置中的其他模块或组件在物理上位于同一位置甚至位于同一机壳内部。图像获取装置例如可以为图像处理装置上配置的摄像头。图像处理装置中的其他模块或组件经由内部总线接收从图像获取装置处发送的输入图像。又例如,图像获取装置也可以与图像处理装置在物理位置上分离配置。图像获取装置和图像处理装置之间可以通过有线或者无线方式进行通信。也就是说,可以通过有线或无线的方式将输入图像从图像获取装置传输至图像处理装置。
例如,在步骤S10中,图像获取装置可以直接采集输入图像。图像获取装置也可以直接接收从外部传输的用于图像分割的输入图像。
例如,在本公开的一个实施例中,输入图像可以是图像获取装置采集到的原始图像,也可以是对原始图像进行预处理之后获得的图像。预处理可以包括但不限于对原始图像进行缩放、伽玛(Gamma)校正、图像增强或降噪滤波等处理。
例如,输入图像可以为彩色图像,也可以为灰度图像;可以是带有深度信息的图像或不带深度信息的图像。
例如,在一个示例中,本公开实施例提供的图像处理方法可以应用于视频直播领域。根据实时视频直播的需求,可以采用一些轻量级的神经网络模型(例如,移动视觉神经网络(MobileNets:Efficient Convolutional Neural Networks for Mobile VisionApplications)等),配合全卷积神经网络(例如,Fully Convolutional Models forSemantic Segmentation 8,简写为FCN-8)的结构作为本公开实施例的神经网络10的基础框架。
图3A为本公开一实施例提供的一种神经网络的结构示意图,图3B为本公开一实施例提供的另一种神经网络的结构示意图。图3A和图3B所示的神经网络仅为示例性的,而非限制性的。本公开实施例提供的神经网络还可以具有其他结构,对此不作限制。
例如,卷积计算层组100可以包括依次连接的多个卷积计算层。通道压缩层组200可以包括依次连接的多个通道压缩层。反卷积计算层组300可以包括依次连接的多个反卷积层。多个卷积计算层可以与多个通道压缩层一一对应连接,多个卷积计算层可以与多个反卷积层一一对应。
例如,如图3A所示,在一个示例中,卷积计算层组100可以包括第一卷积计算层C1;通道压缩层组200可以包括第一通道压缩层U1;反卷积计算层组300可以包括第一反卷积层D1。第一通道压缩层U1与第一卷积计算层C1连接。也就是说,第一通道压缩层U1可以接收第一卷积计算层C1的输出,并对第一卷积计算层C1的输出执行通道压缩处理。第一反卷积层D1与第一通道压缩层U1连接,从而第一反卷积层D1可以对第一通道压缩层U1的输出执行反卷积操作。第一反卷积层D1与第一卷积计算层C1相对应。
例如,神经网络10还可以包括输入层(未示出)。在步骤S20中,输入图像可以经由输入层输入到卷积计算层组100。
例如,在图3A所示的示例中,步骤S20可以包括:经由输入层将输入图像输入至第一卷积计算层C1;利用第一卷积计算层C1对输入图像执行卷积处理,以产生并输出第一特征图F1至第一通道压缩层U1。步骤S30可以包括:利用第一通道压缩层U1对第一卷积计算层C1输出的第一特征图F1执行通道压缩处理以得到第一中间分数图MS1。步骤S40可以包括:利用第一反卷积层D1对第一中间分数图MS1进行反卷积处理以得到输入图像的目标分数图IS。
例如,通道压缩层组200中的每个通道压缩层可以包括多个通道压缩子层。在一个示例中,通道压缩层组200中的每个通道压缩层可以包括第一通道压缩子层和第二通道压缩子层。第一通道压缩子层用于对卷积计算层组100中对应的卷积计算层输出的特征图执行通道压缩处理,第二通道压缩子层用于对第一通道压缩子层的输出执行卷积计算。
图4为图3A所示的神经网络中的第一通道压缩层的结构示意图。
以下参考图4对通道压缩处理进行详细描述。如图4所示,第一通道压缩层U1可以包括第一通道压缩子层US1和第二通道压缩子层US2。从而,在图3A所示的示例中,步骤S30可以包括:利用第一通道压缩子层US1压缩第一特征图F1的通道,以得到第一特征图F1的第一中间特征图MF1;以及利用第二通道压缩子层US2对第一中间特征图MF1执行卷积计算,以得到第一中间分数图MS1。
例如,第一通道压缩子层US1可以包括至少一个第一卷积核,第一卷积核用于压缩第一特征图F1的通道数。从而,第一通道压缩子层US1提高神经网络10的计算速度,以适应实时图像分割。第二通道压缩子层US2可以包括至少一个第二卷积核,第二卷积核用于增大第一特征图F1的感受野,较大的感受野可以更广泛地提取出良好的特征图,以提升图像分割的精度。由此,通道压缩层组200可以在保证图像分割的精确度的前提下,提高神经网络的计算速度,实现实时分割视频图像。
例如,第一卷积核可以为1×1卷积核。第二卷积核可以为3×3卷积核、5×5卷积核或7×7卷积核等。
例如,第一特征图F1的通道的数量可以为X1,第一中间特征图MF1的通道的数量可以为X2,X1和X2均为正整数,且X1大于X2。例如,X2可以为不大于10的正整数。也就是说,第一通道压缩子层US1可以将第一中间特征图MF1的通道的数量压缩到10以内,以减少后续处理的计算量。在一个示例中,X2可以为1,从而第一中间特征图MF1仅包括一个通道。
例如,第一中间分数图MS1的通道的数量可以为X3,X3也为正整数。X2和X3可以相同,也就是说,第一中间分数图MS1的通道的数量和第一中间特征图MF1的通道的数量可以相同。
例如,第一中间特征图MF1的通道的数量与第一通道压缩层U1的第一通道压缩子层US1的第一卷积核的数量相同。第一中间分数图MS1的通道的数量与第一通道压缩层U1的第二通道压缩子层US2的第二卷积核的数量相同。例如,在一个示例中,第一通道压缩层U1的第一通道压缩子层US1包括一个第一卷积核。第一通道压缩层U1的第二通道压缩子层US2包括一个第二卷积核。由此,第一中间特征图MF1的通道的数量为1,第一中间分数图MS1的通道的数量也为1。但不限于此,根据实际需求,第一中间特征图MF1的通道的数量还可以为10,第一中间分数图MS1的通道的数量还可以为3。本公开对此不作限制。
例如,第一中间特征图MF1和第一特征图F1的尺寸相同。第一中间分数图MS1和第一特征图F1的尺寸也相同。在一个示例中,第一特征图F1的尺寸为256×256,第一中间特征图MF1的尺寸也为256×256,第一中间分数图MS1的尺寸也为256×256。但不限于此,第一特征图F1、第一中间特征图MF1和第一中间分数图MS1的尺寸还可以均为128×128。本公开对此不作具体限制。
例如,反卷积计算层组300可以通过反卷积实现上采样。如图3A所示,第一反卷积层D1被配置为通过反卷积算法对第一中间分数图MS1执行上采样以得到输入图像的目标分数图IS。第一反卷积层D1用于增加第一中间分数图MS1的各个维度的值,从而增加第一中间分数图MS1的数据量。此外,第一反卷积层D1还可以采用插值算法等算法实现上采样。
例如,卷积计算层组100中的每个卷积计算层包括卷积子层和下采样子层。卷积子层用于提取输入图像的特征信息以得到特征表示;下采样子层用于对特征表示执行下采样处理以得到输入图像的特征图。
例如,如图3A所示,在一个示例中,第一卷积计算层C1可以包括卷积子层CS1和下采样子层CP1。卷积子层CS1用于提取输入图像的特征信息以得到特征表示;下采样子层CP1用于对特征表示执行下采样处理以得到第一特征图F1。
例如,下采样子层CP1可以为池化层。一方面,池化层可以用于缩减输入图像的规模,简化计算的复杂度,在一定程度上减小过拟合的现象;另一方面,池化层也可以进行特征压缩,提取输入图像的主要特征。池化层能够减少特征图的尺寸,但不改变特征图的通道的数量。例如,一个尺寸为12×12的输入图像,通过6×6的下采样因子对其进行下采样,那么可以得到尺寸为2×2的输出图像,这意味着输入图像上的36个像素合并为输出图像中的1个像素。根据实际需要,每个卷积计算层还可以包括一个归一化子层,即每个卷积计算层的处理过程还可以包括归一化处理(LCN,local constant normalization)等。
例如,下采样子层CP1可以采用最大值合并(max pooling)、平均值合并(averagepooling)、随机合并、欠采样(decimation,例如选择固定的像素)、解复用输出(demuxout,将输入图像拆分为多个更小的图像)等下采样方法实现下采样处理。
例如,下采样子层CP1还可以为卷积层,从而下采样子层CP1可以利用卷积计算实现下采样。
例如,卷积计算层组100中的卷积计算层可以比通道压缩层组200中的通道压缩层多。例如,如图3B所示,在一个示例中,卷积计算层组100可以包括依次连接的第一卷积计算层C1、第二卷积计算层C2、第三卷积计算层C3、第四卷积计算层C4和第五卷积计算层C5。卷积计算层组100中的每个卷积计算层接收相邻上一卷积计算层输出的特征图并执行卷积处理,从而产生并输出新的特征图。
容易理解的是,卷积计算层组100中的卷积计算层的数量和连接方式不限于图3A和3B所示。卷积计算层组100可以包括更多层卷积计算层,例如10层卷积计算层等。
例如,低层级的卷积计算层用于提取输入图像的低阶特征(例如,点、边缘、线条和角部等特征);随着层次的增加,高层级的卷积计算层可以从低阶特征中迭代提取输入图像的高阶特征(例如,直线、拐弯、三角形等特征)。高阶特征可以由低阶特征组合得到。如图3B所示,第一卷积计算层C1可以仅提取低阶特征;在逐步变化之后,第五卷积计算层C5可以提取高阶特征。
例如,如图3B所示,第一卷积计算层C1用于对输入图像执行卷积处理以得到第一特征图F1。第二卷积计算层C2用于接收第一特征图F1,并对第一特征图F1执行卷积处理以得到第二特征图F2。第三卷积计算层C3用于接收第二特征图F2,并对第二特征图F2执行卷积处理以得到第三特征图F3。第四卷积计算层C4用于接收第三特征图F3,并对第三特征图F3执行卷积处理以得到第四特征图F4。第五卷积计算层C5用于接收第四特征图F4,并对第四特征图F4执行卷积处理以得到第五特征图F5。
例如,与图3A所示的示例相同,在图3B所示的示例中,通道压缩层组200可以包括第一通道压缩层U1,反卷积计算层组300可以包括第一反卷积层D1。而图3B所示的示例与图3A所示的示例的不同之处在于:第一通道压缩层U1与第五卷积计算层C5连接。从而第一通道压缩层U1可以接收第五特征图F5,并对第五特征图F5执行通道压缩处理以得到第一中间分数图MS1。第一反卷积层D1与第一通道压缩层U1连接,从而第一反卷积层D1可以接收第一中间分数图MS1,并对第一中间分数图MS1执行反卷积处理以得到输入图像的目标分数图IS。
需要说明的是,在图3B所示的示例中,第一通道压缩层U1与卷积计算层组100中的第五卷积计算层C5相对应,但不限于此,第一通道压缩层U1也可以与卷积计算层组100中的第二卷积计算层C2、第三卷积计算层C3或第四卷积计算层C4相对应,也就是说,第一通道压缩层U1可以对第二特征图F2、第三特征图F3或第四特征图F4进行处理。
例如,在一个示例中,每个卷积计算层均包括一个卷积子层和一个下采样子层。在卷积计算层组100中,下采样子层的数量和卷积子层的数量相同。如图3B所示,第一卷积计算层C1包括卷积子层CS1和下采样子层CP1,第二卷积计算层C2包括卷积子层CS2和下采样子层CP2。第三卷积计算层C3包括卷积子层CS3和下采样子层CP3,第四卷积计算层C4包括卷积子层CS4和下采样子层CP4,第五卷积计算层C5包括卷积子层CS5和下采样子层CP5。
例如,第一特征图F1、第二特征图F2、第三特征图F3、第四特征图F4和第五特征图F5的尺寸依次减小。例如,在一个示例中,第一卷积计算层C1中的下采样子层CP1的下采样因子为2×2,从而可以将第一特征图F1中的四个像素结合得到第二特征图F2中的一个像素。相比于第一特征图F1,第二特征图F2的通道的数量没有改变,但是第二特征图F2的尺寸减少相应倍数(例如,四倍)。在一个示例中,若第一特征图F1的尺寸为256×256,且卷积核的移动步长为1的情况下(下同),第一特征图F1的通道的数量为X1,则第二特征图F2的尺寸为128×128,第二特征图F2的通道的数量为X1。以此类推,若每个卷积计算层中的下采样子层的下采样因子均为2×2,则第三特征图F3的尺寸可以为64×64,第四特征图F4的尺寸可以为32×32,第五特征图F5的尺寸可以为16×16,第三特征图F3、第四特征图F4和第五特征图F5的通道的数量均为X1。
需要说明的是,每个卷积计算层中的下采样子层的下采样因子还可以为其他值,例如3×3,卷积核的移动步长也可以取除1之外的其他数值。输入图像的各特征图(例如,第一特征图F1、第二特征图F2、第三特征图F3、第四特征图F4和第五特征图F5)的通道的数量也可以各不相同或者部分相同。本公开对比不作限制。
例如,在本公开实施例中,分数图(例如,第一中间分数图MS1和输入图像的目标分数图IS)中每个像素点的值表示其属于不同类别的物体的概率。对于人形抠像,在输入图像的目标分数图IS中,若某个像素点的值为0.8,即表示该像素点属于人形的概率为0.8,属于背景的概率为0.2。在一个示例中,对于单类物体分割,则输入图像的目标分数图IS可以仅包括单个通道。例如,若需要对输入图像进行人形抠图,即从输入图像中分割出人物的形状,则输入图像的目标分数图IS可以仅包括一个通道。在另一个示例中,对于多类物体分割,则输入图像的目标分数图IS可以包括多个通道。例如,若需要对输入图像中进行人物、车辆、背景分别进行分类,则输入图像的目标分数图IS可以包括三个通道。
例如,图5A为一幅输入图像的示意图,图5B为图5A所示的输入图像经过神经网络进行图像分割处理后得到的目标分数图IS。图5B中黑色部分表示背景区域,灰色部分表示抠图区域。
例如,在一个示例中,若输入图像的目标分数图IS与输入图像的尺寸不相同,则神经网络10还可以包括上采样层。从而,在步骤S40后,本公开实施例提供的图像处理方法还可以包括利用上采样层对输入图像的目标分数图IS执行上采样处理以得到输入图像的概率图。输入图像的概率图和输入图像具有相同的尺寸。例如,若输入图像的尺寸为512×512,则输入图像的概率图的尺寸也为512×512。
例如,在另一个示例中,若输入图像的目标分数图IS与输入图像的尺寸相同,则输入图像的目标分数图IS可以经由神经网络10的输出层直接输出以作为输入图像的概率图。例如,第一反卷积层D1与第一卷积计算层C1相对应可以表示第一反卷积层D1的上采样因子与第一卷积计算层C1中的下采样子层CP1的下采样因子相对应,也就是说,若下采样子层CP1的下采样因子为1/Y,则第一反卷积层D1的上采样因子为Y,从而输入图像的目标分数图IS和输入图像的尺寸相同。Y为正整数。
需要说明的是,输入图像的概率图中每个像素点的值也表示其属于不同类别的物体的概率。也就是说,目标分数图IS中每个像素点的值和概率图中每个像素点的值均表示表示该像素点属于不同类别的概率,目标分数图IS和概率图的不同之处在于其尺寸可能不相同。
图6为本公开一实施例提供的又一种神经网络的结构示意图。
例如,如图6所示,在另一个示例中,卷积计算层组100包括第一卷积计算层C1和第二卷积计算层C2,通道压缩层组100包括第一通道压缩层U1和第二通道压缩层U2。反卷积计算层组300包括第一反卷积层D1和第二反卷积层D2。反卷积计算层组300还可以包括第一求和层Q1。
例如,第一反卷积层D1与第一卷积计算层C1相对应,第二反卷积层D2与第二卷积计算层C2相对应。第二反卷积层D2与第二通道压缩层U2连接。第一求和层Q1分别与第一通道压缩层U1和第一反卷积层D1连接。第一通道压缩层U1与第一卷积计算层C1连接,第二通道压缩层U2与第二卷积计算层C2连接。
例如,在图6所示的示例中,步骤S20可以包括:经由输入层将输入图像输入至第一卷积计算层C1;利用第一卷积计算层C1对输入图像执行卷积处理以产生第一特征图F1,并将第一特征图F1分别输出至第二卷积计算层C2和第一通道压缩层U1;利用第二卷积计算层C2对第一特征图F1执行卷积处理以得到第二特征图F2,并将第二特征图F2输出至第二通道压缩层U2。
步骤S30可以包括:利用第一通道压缩层U1对第一特征图F1执行通道压缩处理以得到第一中间分数图MS1,并将第一中间分数图MS1输出至第一求和层S1;利用第二通道压缩层U2对第二特征图F2执行通道压缩处理以得到第二中间分数图MS2,并将第二中间分数图MS2输出至第二反卷积层D2。
步骤S40可以包括:利用第二反卷积层D2对第二中间分数图MS2进行反卷积处理以得到第一分数图S1,并将第一分数图S1输出至第一求和层Q1;利用第一求和层Q1对第一分数图S1和第一中间分数图MS1执行求和处理以得到第一融合图Y1,并将第一融合图Y1输出至第一反卷积层D1;利用第一反卷积层D1对第一融合图Y1执行反卷积处理以得到输入图像的目标分数图IS。
例如,“求和处理”表示对第一分数图S1和第一中间分数图MS1中对应的像素点的值进行相加求和处理。
例如,第二中间分数图MS2和第二特征图F2具有相同的尺寸。第一中间分数图MS1、第一分数图S1、第一融合图Y1和第一特征图F1具有相同的尺寸。
图7为本公开一实施例提供的再一种神经网络的结构示意图。
例如,如图7所示,在又一个示例中,卷积计算层组100包括第一卷积计算层C1、第二卷积计算层C2和第三卷积计算层C3,通道压缩层组100包括第一通道压缩层U1、第二通道压缩层U2和第三通道压缩层U3。反卷积计算层组300包括第一反卷积层D1、第二反卷积层D2和第三反卷积层D3。反卷积计算层组300还可以包括第一求和层Q1和第二求和层Q2。
例如,第一反卷积层D1与第一卷积计算层C1相对应,第二反卷积层D2与第二卷积计算层C2相对应,第三反卷积层D3与第三卷积计算层C3相对应。第三反卷积层D3与第三通道压缩层U3连接。第二求和层Q2分别与第二通道压缩层U2、第二反卷积层D2和第三反卷积层D3连接,第一求和层Q1分别与第一通道压缩层U1、第一反卷积层D1和第二反卷积层D2连接。第一通道压缩层U1与第一卷积计算层C1连接,第二通道压缩层U2与第二卷积计算层C2连接,第三通道压缩层U3与第三卷积计算层C3连接。
例如,在图7所示的示例中,步骤S20可以包括:经由输入层将输入图像输入至第一卷积计算层C1;利用第一卷积计算层C1对输入图像执行卷积处理以产生第一特征图F1,并将第一特征图F1分别输出至第二卷积计算层C2和第一通道压缩层U1;利用第二卷积计算层C1对第一特征图F1执行卷积处理以得到第二特征图F2,并将第二特征图F2分别输出至第三卷积计算层C3和第二通道压缩层U2;利用第三卷积计算层C3对第二特征图F2执行卷积处理以得到第三特征图F3,并将第三特征图F3输出至第三通道压缩层U3。
步骤S30可以包括:利用第一通道压缩层U1对第一特征图F1执行通道压缩处理以得到第一中间分数图MS1,并将第一中间分数图MS1输出至第一求和层S1;利用第二通道压缩层U2对第二特征图F2执行通道压缩处理以得到第二中间分数图MS2,并将第二中间分数图MS2输出至第二求和层Q2;利用第三通道压缩层U3对第三特征图F3执行通道压缩处理以得到第三中间分数图MS3,并将第三中间分数图MS3输出至第三反卷积层D3。
步骤S40可以包括:利用第三反卷积层D3对第三中间分数图MS3执行反卷积处理以得到第二分数图S2,并将第二分数图S2输出至第二求和层Q2;利用第二求和层Q2对第二分数图S2和第二中间分数图MS2执行求和处理以得到第二融合图Y2,并将第二融合图Y2输出至第二反卷积层D2;利用第二反卷积层D2对第二融合图Y2执行反卷积处理以得到第一分数图S1,并将第一分数图S1输出至第一求和层Q1;利用第一求和层Q1对第一分数图S1和第一中间分数图MS1执行求和处理以得到第一融合图Y1,并将第一融合图Y1输出至第一反卷积层D1;利用第一反卷积层D1对第一融合图Y1执行反卷积处理以得到输入图像的目标分数图IS。
例如,第三中间分数图MS3和第三特征图F3具有相同的尺寸,第二中间分数图MS2、第二分数图S2、第二融合图Y2和第二特征图F2具有相同的尺寸,第一中间分数图MS1、第一分数图S1、第一融合图Y1和第一特征图F1具有相同的尺寸。
需要说明的是,在图6和图7所示的示例中,关于第一特征图F1、第二特征图F2和第三特征图F3可以参考上述图3B所示的示例中的相关描述,在此不再赘述。
与图3B所示的示例类似,在图6所示的示例中,第一卷积计算层C1可以包括卷积子层CS1和下采样子层PC1,第二卷积计算层C2可以包括卷积子层CS2和下采样子层PC2。在图7所示的示例中,第一卷积计算层C1可以包括卷积子层CS1和下采样子层PC1,第二卷积计算层C2可以包括卷积子层CS2和下采样子层PC2,第三卷积计算层C3可以包括卷积子层CS3和下采样子层CP3。卷积计算层组100可以包括更多层的卷积计算层,例如,在图6所示的示例中,卷积计算层组100还包括第三卷积计算层C3、第四卷积计算层C4和第五卷积计算层C5,且第一通道压缩层U1可以与第四卷积计算层C4连接,第二通道压缩层U2可以与第五卷积计算层C5连接,在图7所示的示例中,卷积计算层组100还包括第四卷积计算层C4和第五卷积计算层C5,且第一通道压缩层U1可以与第三卷积计算层C3连接,第二通道压缩层U2可以与第四卷积计算层C4连接,第三通道压缩层U3可以与第五卷积计算层C5连接。本公开对此不作限制。
需要说明的是,本公开实施例对卷积计算层组100中的卷积计算层的数量、通道压缩层组200中的通道压缩层的数量、反卷积计算层组300中的反卷积层和求和层的数量不作限制。
以上,通过参照图1至图7描述了根据本公开一实施例的图像处理方法。如上所述,本公开一实施例的图像处理方法通过通道压缩层组对输入图像的特征图进行通道压缩处理,从而减少神经网络的计算量,扩大感受野,在不降低图像分割精度的前提下,提升神经网络的计算速度,提高图像处理的效率,实现实时图像分割。
图8为本公开一实施例提供的一种用于图像处理的神经网络的训练方法的流程图。
例如,神经网络包括依次连接的卷积计算层组、通道压缩层组、反卷积计算层组。如图8所示,本公开实施例提供的神经网络的训练方法可以包括以下步骤:
步骤S50:获取训练图像;
步骤S51:利用卷积计算层组对训练图像执行卷积处理以得到训练图像的特征图;
步骤S52:利用通道压缩层组对训练图像的特征图执行通道压缩处理以得到训练图像的中间训练分数图;
步骤S53:利用反卷积计算层组对训练图像的中间训练分数图进行反卷积处理以得到训练图像的训练分数图;
步骤S54:根据训练图像的训练分数图调整神经网络的参数;
步骤S55:判断神经网络的损失函数是否满足预定条件;
在神经网络的损失函数满足预定条件时,执行步骤S56,即获得训练好的神经网络;
在神经网络的损失函数不满足预定条件时,返回到步骤S50,即继续输入训练图像以重复执行上述训练过程。
例如,在一个示例中,预定条件对应于在输入一定训练图像下神经网络的损失函数的最小化。在另一个示例中,预定条件为神经网络的训练次数或训练周期达到预定数目,该预定数目可以为上百万,只要训练图像集合足够大。
例如,步骤S54可以包括:将训练图像的训练分数图转换为训练图像的训练概率图;获取训练图像的目标概率图;根据训练图像的训练概率图和训练图像的目标概率图调整神经网络的参数。
例如,损失函数表示训练图像的训练概率图与训练图像的目标概率图之间的差异。
例如,步骤S50的相关处理过程可以参考图1所示的示例中的步骤S10。
例如,在一个实施例中,卷积计算层组包括第一卷积计算层;通道压缩层组包括第一通道压缩层;反卷积计算层组包括第一反卷积层。
由此,步骤S51可以包括:经由输入层将训练图像输入至第一卷积计算层;利用第一卷积计算层对训练图像执行卷积处理,以产生并输出第一训练特征图至第一通道压缩层。步骤S52可以包括:利用第一通道压缩层对第一训练特征图执行通道压缩处理以得到第一中间训练分数图。步骤S53可以包括:利用第一反卷积层对第一中间训练分数图进行反卷积处理以得到输入图像的训练分数图。
例如,在另一个实施例中,卷积计算层组包括第一卷积计算层和第二卷积计算层,通道压缩层组包括第一通道压缩层和第二通道压缩层。反卷积计算层组包括第一反卷积层和第二反卷积层。反卷积计算层组还可以包括第一求和层。
由此,步骤S51可以包括:经由输入层将训练图像输入至第一卷积计算层;利用第一卷积计算层对训练图像执行卷积处理以产生第一训练特征图,并将第一训练特征图输出至第二卷积计算层和第一通道压缩层;利用第二卷积计算层对第一训练特征图执行卷积处理以得到第二训练特征图,并将第二训练特征图输出至第二通道压缩层。
步骤S52可以包括:利用第一通道压缩层对的第一训练特征图执行通道压缩处理以得到第一中间训练分数图,并将第一中间训练分数图输出至第一求和层;利用第二通道压缩层对第二训练特征图执行通道压缩处理以得到第二中间训练分数图,并将第二中间分数图输出至第二反卷积层。
步骤S53可以包括:利用第二反卷积层对第二中间训练分数图进行反卷积处理以得到第一训练分数图,并将第一训练分数图输出至第一求和层;利用第一求和层对第一训练分数图和第一中间训练分数图执行求和处理以得到第一训练融合图,并将第一训练融合图输出至第一反卷积层;利用第一反卷积层对第一训练融合图执行反卷积处理以得到输入图像的训练分数图。
例如,在又一个实施例中,卷积计算层组包括第一卷积计算层、第二卷积计算层和第三卷积计算层,通道压缩层组包括第一通道压缩层、第二通道压缩层和第三通道压缩层。反卷积计算层组包括第一反卷积层、第二反卷积层和第三反卷积层。反卷积计算层组还包括第一求和层和第二求和层。
由此,步骤S51可以包括:经由输入层将训练图像输入至第一卷积计算层;利用第一卷积计算层对训练图像执行卷积处理以产生第一训练特征图,并将第一训练特征图分别输出至第二卷积计算层和第一通道压缩层;利用第二卷积计算层对第一训练特征图执行卷积处理以得到第二训练特征图,并将第二训练特征图分别输出至第三卷积计算层和第二通道压缩层;利用第三卷积计算层对第二训练特征图执行卷积处理以得到第三训练特征图,并将第三训练特征图输出至第三通道压缩层。
步骤S52可以包括:利用第一通道压缩层对的第一训练特征图执行通道压缩处理以得到第一中间训练分数图,并将第一中间训练分数图输出至第一求和层;利用第二通道压缩层对第二训练特征图执行通道压缩处理以得到第二中间训练分数图,并将第二中间训练分数图输出至第二求和层;利用第三通道压缩层对第三训练特征图执行通道压缩处理以得到第三中间训练分数图,并将第三中间训练分数图输出至第三反卷积层。
步骤S40可以包括:利用第三反卷积层对第三训练中间分数图执行反卷积处理以得到第二训练分数图,并将第二训练分数图输出至第二求和层;利用第二求和层对第二训练分数图和第二中间训练分数图执行求和处理以得到第二训练融合图,并将第二训练融合图输出至第二反卷积层;利用第二反卷积层对第二训练融合图执行反卷积处理以得到第一训练分数图,并将第一训练分数图输出至第一求和层;利用第一求和层对第一训练分数图和第一中间训练分数图执行求和处理以得到第一训练融合图,并将第一训练融合图输出至第一反卷积层;利用第一反卷积层对第一训练融合图执行反卷积处理以得到输入图像的训练分数图。
需要说明的是,关于图像处理的详细过程可以参考上述图像处理方法的实施例中的相关说明。
图9为本公开一实施例提供的一种图像处理装置的示意性框图。如图9所示,图像处理装置70包括图像获取模块705和图像处理模块710。这些组件通过总线系统和/或其它形式的连接机构(未示出)互连。应当注意,图9所示的图像处理装置70的组件和结构只是示例性的,而非限制性的,根据需要,图像处理装置70也可以具有其他组件和结构。
例如,图像获取模块705用于获取输入图像。图像处理模块710用于利用神经网络7105对输入图像执行图像分割处理。神经网络7105包括依次连接的卷积计算层组、通道压缩层组和反卷积计算层组。图像处理模块710具体用于:利用卷积计算层组对输入图像执行卷积处理以得到输入图像的特征图;利用通道压缩层组对输入图像的特征图执行通道压缩处理以得到输入图像的中间分数图;以及利用反卷积计算层组对输入图像的中间分数图进行反卷积处理以得到输入图像的目标分数图。
例如,图像获取模块705可以包括一个或多个摄像头。
例如,图像获取模块705可以包括硬件、软件、固件以及它们的任意可行的组合。
例如,图像获取模块705可以经由有线或者无线方式将输入图像传输至图像处理模块710。
例如,通道压缩层组中的每个通道压缩层包括第一通道压缩子层和第二通道压缩子层。第一通道压缩子层用于压缩卷积计算层组中对应的卷积计算层输出的特征图的通道,第二通道压缩子层用于对第一通道压缩子层的输出执行卷积计算。
例如,在一个实施例中,卷积计算层组包括第一卷积计算层;通道压缩层组包括第一通道压缩层;反卷积计算层组包括第一反卷积层。图像处理模块710用于:利用第一卷积计算层对输入图像执行卷积处理,以产生并输出第一特征图至第一通道压缩层;利用第一通道压缩层对第一特征图执行通道压缩处理以得到第一中间分数图;以及利用第一反卷积层对第一中间分数图进行反卷积处理以得到输入图像的目标分数图。
例如,在另一个实施例中,通道压缩层组包括第一通道压缩层和第二通道压缩层,卷积计算层组包括第一卷积计算层和第二卷积计算层,反卷积计算层组包括第一反卷积层和第二反卷积层,反卷积计算层组还包括第一求和层。图像处理模块710用于:利用第一卷积计算层对输入图像执行卷积处理以得到第一特征图,利用第一通道压缩层对第一特征图执行通道压缩处理以得到第一中间分数图;利用第二卷积计算层对第一特征图执行卷积处理以得到第二特征图;利用第二通道压缩层对第二特征图执行通道压缩处理以得到第二中间分数图;利用第二反卷积层对第二中间分数图进行反卷积处理以得到第一分数图;利用第一求和层对第一分数图和第一中间分数图执行求和处理以得到第一融合图;利用第一反卷积层对第一融合图执行反卷积处理以得到输入图像的目标分数图。
例如,在又一个实施例中,通道压缩层组包括第一通道压缩层、第二通道压缩层和第三通道压缩层,卷积计算层组包括第一卷积计算层、第二卷积计算层和第三卷积计算层,反卷积计算层组包括第一反卷积层、第二反卷积层和第三反卷积层。反卷积计算层组还包括第一求和层和第二求和层。图像处理模块710用于:利用第一卷积计算层对输入图像执行卷积处理以得到第一特征图;利用第一通道压缩层对第一特征图执行通道压缩处理以得到第一中间分数图;利用第二卷积计算层对第一特征图执行卷积处理以得到第二特征图;利用第二通道压缩层对第二特征图执行通道压缩处理以得到第二中间分数图;利用第三卷积计算层对第二特征图执行卷积处理以得到第三特征图;利用第三通道压缩层对第三特征图执行通道压缩处理以得到第三中间分数图;利用第三反卷积层对第三中间分数图执行反卷积处理以得到第二分数图;利用第二求和层对第二分数图和第二中间分数图执行求和处理以得到第二融合图;利用第二反卷积层对第二融合图执行反卷积处理以得到第一分数图;利用第一求和层对第一分数图和第一中间分数图执行求和处理以得到第一融合图;以及利用第一反卷积层对第一融合图执行反卷积处理以得到输入图像的目标分数图。
图10为本公开另一实施例提供的一种图像处理装置的示意性框图。如图10所示,图像处理装置80可以包括存储器805和处理器810。存储器805用于存储非暂时性计算机可读指令;处理器810用于运行所述非暂时性计算机可读指令,所述非暂时性计算机可读指令被处理器810运行时可以执行根据上文所述的图像处理方法中的一个或多个步骤。该图像处理装置可以实现为多种形式,包括但不限于单机、局域网服务器、云服务器等。
例如,处理器810可以是中央处理单元(CPU)、图形处理单元(GPU)、张量处理单元(TPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元,并且可以控制图像处理装置80中的其它组件以执行期望的功能。
例如,存储器805可以通过计算机可读存储介质实现,包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个非暂时性计算机可读指令,处理器810可以运行所述非暂时性计算机可读指令,以实现图像处理装置80的各种功能。存储器805还可以用于存储计算机可读指令运行需要的数据或产生的数据。
例如,关于通过图像处理装置80进行图像处理的过程的详细说明可以参考图像处理方法的实施例中的相关描述,重复之处不再赘述。
图11为本公开一实施例提供的一种计算机可读存储介质的示意图。例如,如图11所示,在计算机可读存储介质900上可以存储一个或多个非暂时性计算机可读指令901。例如,当所述非暂时性计算机可读指令901由计算机执行时可以执行根据上文所述的图像处理方法中的一个或多个步骤。又例如,当所述非暂时性计算机可读指令901由计算机执行时还可以执行根据上文所述的图像处理的神经网络的训练方法中的一个或多个步骤。
例如,该计算机可读存储介质900可以应用于上述图像处理装置中,例如,其可以为图10所示的实施例中的图像处理装置80的存储器805。
例如,关于计算机可读存储介质900的说明可以参考图像处理装置80的实施例中对于存储器805的描述,重复之处不再赘述。
本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。
以上,参照附图描述了基于神经网络的图像处理方法和装置、用于图像处理的神经网络的训练方法以及计算机可读存储介质,其通过神经网络中的通道压缩层组对输入图像的特征图进行通道压缩处理,从而减少神经网络的计算量,扩大感受野,在不降低图像分割精度的前提下,提升神经网络的计算速度,提高图像处理的效率,实现实时图像分割,提升用户体验。
以上所述仅为本公开的具体实施方式,但本公开的保护范围并不局限于此,本公开的保护范围应以所述权利要求的保护范围为准。

Claims (12)

1.一种基于神经网络的图像处理方法,其中,所述神经网络包括依次连接的卷积计算层组、通道压缩层组、反卷积计算层组,
所述图像处理方法包括:
利用所述卷积计算层组对输入图像执行卷积处理以得到所述输入图像的特征图;
利用所述通道压缩层组对所述输入图像的特征图执行通道压缩处理以减少所述输入图像的特征图的通道数,以得到所述输入图像的中间分数图,其中,所述输入图像的特征图的通道数多于所述输入图像的中间分数图的通道数;以及
利用所述反卷积计算层组直接对所述输入图像的中间分数图进行反卷积处理以得到所述输入图像的目标分数图,
其中,所述通道压缩层组包括第一通道压缩层和第二通道压缩层,所述卷积计算层组包括第一卷积计算层和第二卷积计算层,所述反卷积计算层组包括第一反卷积层和第二反卷积层,所述反卷积计算层组还包括第一求和层,
所述第一反卷积层与所述第一卷积计算层相对应,所述第二反卷积层与所述第二卷积计算层相对应,所述第一通道压缩层与所述第一卷积计算层连接,所述第二通道压缩层与所述第二卷积计算层连接;
所述第一卷积计算层用于接收所述输入图像,所述第一卷积计算层的输出被输入至所述第一通道压缩层和所述第二卷积计算层,所述第二卷积计算层的输出被输入至所述第二通道压缩层,所述第二通道压缩层的输出被输入至所述第二反卷积层,所述第一通道压缩层的输出和所述第二反卷积层的输出被输入至所述第一求和层,所述第一求和层的输出被输入至所述第一反卷积层。
2.根据权利要求1所述的图像处理方法,其中,所述通道压缩层组中的每个通道压缩层包括第一通道压缩子层和第二通道压缩子层,
所述第一通道压缩子层用于压缩所述卷积计算层组中对应的卷积计算层输出的特征图的通道,所述第二通道压缩子层用于对所述第一通道压缩子层的输出执行卷积计算。
3.根据权利要求2所述的图像处理方法,其中,所述第一通道压缩子层包括至少一个1×1卷积核。
4.根据权利要求2所述的图像处理方法,其中,所述第二通道压缩子层包括至少一个3×3卷积核、5×5卷积核或7×7卷积核。
5.根据权利要求1所述的图像处理方法,其中,
所述图像处理方法包括:
利用所述第一卷积计算层对所述输入图像执行卷积处理以得到第一特征图;
利用所述第二卷积计算层对所述第一特征图执行卷积处理以得到第二特征图;
利用所述第一通道压缩层对所述第一特征图执行通道压缩处理以得到第一中间分数图;
利用所述第二通道压缩层对所述第二特征图执行通道压缩处理以得到第二中间分数图;
利用所述第二反卷积层对所述第二中间分数图进行反卷积处理以得到第一分数图;
利用所述第一求和层对所述第一分数图和所述第一中间分数图执行求和处理以得到第一融合图;
利用所述第一反卷积层对所述第一融合图执行反卷积处理以得到所述输入图像的目标分数图。
6.一种基于神经网络的图像处理方法,其中,所述神经网络包括依次连接的卷积计算层组、通道压缩层组、反卷积计算层组,
所述图像处理方法包括:
利用所述卷积计算层组对输入图像执行卷积处理以得到所述输入图像的特征图;
利用所述通道压缩层组对所述输入图像的特征图执行通道压缩处理以减少所述输入图像的特征图的通道数,以得到所述输入图像的中间分数图,其中,所述输入图像的特征图的通道数多于所述输入图像的中间分数图的通道数;以及
利用所述反卷积计算层组直接对所述输入图像的中间分数图进行反卷积处理以得到所述输入图像的目标分数图,
其中,所述通道压缩层组包括第一通道压缩层、第二通道压缩层和第三通道压缩层,所述卷积计算层组包括第一卷积计算层、第二卷积计算层和第三卷积计算层,所述反卷积计算层组包括第一反卷积层、第二反卷积层和第三反卷积层,所述反卷积计算层组还包括第一求和层和第二求和层,
所述第一反卷积层与所述第一卷积计算层相对应,所述第二反卷积层与所述第二卷积计算层相对应,所述第三反卷积层与所述第三卷积计算层相对应,所述第一通道压缩层与所述第一卷积计算层连接,所述第二通道压缩层与所述第二卷积计算层连接,所述第三通道压缩层与所述第三卷积计算层连接,
所述第一卷积计算层用于接收所述输入图像,所述第一卷积计算层的输出被输入至所述第一通道压缩层和所述第二卷积计算层,所述第二卷积计算层的输出被输入至所述第二通道压缩层和所述第三卷积计算层,所述第三卷积计算层的输出被输入至所述第三通道压缩层,所述第三通道压缩层的输出被输入至所述第三反卷积层,所述第三反卷积层的输出和所述第二通道压缩层的输出被输入至所述第二求和层,所述第二求和层的输出被输入至所述第二反卷积层,所述第二反卷积层的输出和所述第一通道压缩层的输出被输入至所述第一求和层,所述第一求和层的输出被输入至所述第一反卷积层。
7.根据权利要求6所述的图像处理方法,其中,所述图像处理方法包括:
利用所述第一卷积计算层对所述输入图像执行卷积处理以得到第一特征图;
利用所述第一通道压缩层对所述第一特征图执行通道压缩处理以得到第一中间分数图;
利用所述第二卷积计算层对所述第一特征图执行卷积处理以得到第二特征图;
利用所述第二通道压缩层对所述第二特征图执行通道压缩处理以得到第二中间分数图;
利用所述第三卷积计算层对所述第二特征图执行卷积处理以得到第三特征图;
利用所述第三通道压缩层对所述第三特征图执行通道压缩处理以得到第三中间分数图;
利用所述第三反卷积层对所述第三中间分数图执行反卷积处理以得到第二分数图;
利用所述第二求和层对所述第二分数图和所述第二中间分数图执行求和处理以得到第二融合图;
利用所述第二反卷积层对所述第二融合图执行反卷积处理以得到第一分数图;
利用所述第一求和层对所述第一分数图和所述第一中间分数图执行求和处理以得到第一融合图;
利用所述第一反卷积层对所述第一融合图执行反卷积处理以得到所述输入图像的目标分数图。
8.根据权利要求1-7任一项所述的图像处理方法,其中,所述卷积计算层组中的每个卷积计算层包括卷积子层和下采样子层,
所述卷积子层用于提取所述输入图像的特征信息以得到特征表示;
所述下采样子层用于对所述特征表示执行下采样处理以得到所述输入图像的特征图。
9.根据权利要求1-7任一项所述的图像处理方法,其中,所述神经网络为全卷积神经网络。
10.一种用于图像处理的神经网络的训练方法,其中,所述神经网络包括依次连接的卷积计算层组、通道压缩层组、反卷积计算层组,
所述训练方法包括:
利用所述卷积计算层组对训练图像执行卷积处理以得到所述训练图像的特征图;
利用所述通道压缩层组对所述训练图像的特征图执行通道压缩处理以减少所述训练图像的特征图的通道数,以得到所述训练图像的中间训练分数图,其中,所述训练图像的特征图的通道数多于所述训练图像的中间训练分数图的通道数;
利用所述反卷积计算层组直接对所述训练图像的中间训练分数图进行反卷积处理以得到所述训练图像的训练分数图;
根据所述训练图像的训练分数图调整所述神经网络的参数;以及
在所述神经网络的损失函数满足预定条件时,获得训练好的所述神经网络,在所述神经网络的损失函数不满足预定条件时,继续输入所述训练图像以重复执行上述训练过程,
其中,所述通道压缩层组包括第一通道压缩层和第二通道压缩层,所述卷积计算层组包括第一卷积计算层和第二卷积计算层,所述反卷积计算层组包括第一反卷积层和第二反卷积层,所述反卷积计算层组还包括第一求和层,
所述第一反卷积层与所述第一卷积计算层相对应,所述第二反卷积层与所述第二卷积计算层相对应,所述第一通道压缩层与所述第一卷积计算层连接,所述第二通道压缩层与所述第二卷积计算层连接,
所述第一卷积计算层用于接收所述输入图像,所述第一卷积计算层的输出被输入至所述第一通道压缩层和所述第二卷积计算层,所述第二卷积计算层的输出被输入至所述第二通道压缩层,所述第二通道压缩层的输出被输入至所述第二反卷积层,所述第一通道压缩层的输出和所述第二反卷积层的输出被输入至所述第一求和层,所述第一求和层的输出被输入至所述第一反卷积层。
11.一种图像处理装置,包括:
存储器,用于存储非暂时性计算机可读指令;以及
处理器,用于运行所述非暂时性计算机可读指令,所述非暂时性计算机可读指令被所述处理器运行时可以执行根据权利要求1-9任一所述的图像处理方法。
12.一种计算机可读存储介质,用于存储非暂时性计算机可读指令,当所述非暂时性计算机可读指令由计算机执行时可以执行根据权利要求1-9任一所述的图像处理方法。
CN201711064141.XA 2017-11-02 2017-11-02 图像处理方法和装置、神经网络的训练方法、存储介质 Active CN108875751B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711064141.XA CN108875751B (zh) 2017-11-02 2017-11-02 图像处理方法和装置、神经网络的训练方法、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711064141.XA CN108875751B (zh) 2017-11-02 2017-11-02 图像处理方法和装置、神经网络的训练方法、存储介质

Publications (2)

Publication Number Publication Date
CN108875751A CN108875751A (zh) 2018-11-23
CN108875751B true CN108875751B (zh) 2021-03-02

Family

ID=64325527

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711064141.XA Active CN108875751B (zh) 2017-11-02 2017-11-02 图像处理方法和装置、神经网络的训练方法、存储介质

Country Status (1)

Country Link
CN (1) CN108875751B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110211017B (zh) * 2019-05-15 2023-12-19 北京字节跳动网络技术有限公司 图像处理方法、装置及电子设备
CN110197459B (zh) * 2019-05-15 2023-04-07 北京字节跳动网络技术有限公司 图像风格化生成方法、装置及电子设备
CN110189246B (zh) * 2019-05-15 2023-02-28 北京字节跳动网络技术有限公司 图像风格化生成方法、装置及电子设备
CN111953888B (zh) * 2019-05-16 2021-12-24 武汉Tcl集团工业研究院有限公司 暗光成像方法、装置、计算机可读存储介质及终端设备
WO2021237513A1 (zh) * 2020-05-27 2021-12-02 深圳市大疆创新科技有限公司 数据压缩存储的系统、方法、处理器及计算机存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104809426A (zh) * 2014-01-27 2015-07-29 日本电气株式会社 卷积神经网络的训练方法、目标识别方法及装置
CN106651877A (zh) * 2016-12-20 2017-05-10 北京旷视科技有限公司 实例分割方法及装置
CN107122796A (zh) * 2017-04-01 2017-09-01 中国科学院空间应用工程与技术中心 一种基于多分支网络融合模型的光学遥感图像分类方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9965705B2 (en) * 2015-11-03 2018-05-08 Baidu Usa Llc Systems and methods for attention-based configurable convolutional neural networks (ABC-CNN) for visual question answering
CN106897673B (zh) * 2017-01-20 2020-02-21 南京邮电大学 一种基于retinex算法和卷积神经网络的行人再识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104809426A (zh) * 2014-01-27 2015-07-29 日本电气株式会社 卷积神经网络的训练方法、目标识别方法及装置
CN106651877A (zh) * 2016-12-20 2017-05-10 北京旷视科技有限公司 实例分割方法及装置
CN107122796A (zh) * 2017-04-01 2017-09-01 中国科学院空间应用工程与技术中心 一种基于多分支网络融合模型的光学遥感图像分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《基于深度学习和渲染数据的目标对象抠取》;徐化永;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170915(第9期);I138-281:第16-18页的3.3节、图3-1 *

Also Published As

Publication number Publication date
CN108875751A (zh) 2018-11-23

Similar Documents

Publication Publication Date Title
CN108875751B (zh) 图像处理方法和装置、神经网络的训练方法、存储介质
CN108875900B (zh) 视频图像处理方法和装置、神经网络训练方法、存储介质
US20220222776A1 (en) Multi-Stage Multi-Reference Bootstrapping for Video Super-Resolution
CN113034358B (zh) 一种超分辨率图像处理方法以及相关装置
WO2020108009A1 (en) Method, system, and computer-readable medium for improving quality of low-light images
CN110533594B (zh) 模型训练方法、图像重建方法、存储介质及相关设备
CN112602088B (zh) 提高弱光图像的质量的方法、系统和计算机可读介质
CN112889069B (zh) 用于提高低照度图像质量的方法、系统和计算机可读介质
CN109493297B (zh) 低质量人脸图像增强方法、系统、设备及存储介质
CN109389667B (zh) 一种基于深度学习的高效全局光照明绘制方法
WO2022116988A1 (zh) 图像处理方法、装置、设备和存储介质
CN110958469A (zh) 视频处理方法、装置、电子设备及存储介质
CN108665415B (zh) 基于深度学习的图像质量提升方法及其装置
WO2022151661A1 (zh) 一种三维重建方法、装置、设备及存储介质
CN111833360B (zh) 一种图像处理方法、装置、设备以及计算机可读存储介质
CN111079864A (zh) 一种基于优化视频关键帧提取的短视频分类方法及系统
JP2023502653A (ja) 人工知能ニューラルネットワークの推論または訓練に対する、故意に歪みを制御する撮像装置の利用
CN114627034A (zh) 一种图像增强方法、图像增强模型的训练方法及相关设备
CN114641790A (zh) 红外图像的超分辨率的处理方法及系统
CN110503002B (zh) 一种人脸检测方法和存储介质
CN113989460B (zh) 用于增强现实场景的实时天空替换特效控制方法及装置
CN115294055A (zh) 图像处理方法、装置、电子设备和可读存储介质
CN110717913B (zh) 一种图像分割方法及装置
CN111861877A (zh) 视频超分变率的方法和装置
Kim et al. Light field angular super-resolution using convolutional neural network with residual network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant