CN108921225A - 一种图像处理方法及装置、计算机设备和存储介质 - Google Patents

一种图像处理方法及装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN108921225A
CN108921225A CN201810753708.2A CN201810753708A CN108921225A CN 108921225 A CN108921225 A CN 108921225A CN 201810753708 A CN201810753708 A CN 201810753708A CN 108921225 A CN108921225 A CN 108921225A
Authority
CN
China
Prior art keywords
feature
section
resolution
segment
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810753708.2A
Other languages
English (en)
Other versions
CN108921225B (zh
Inventor
孙书洋
庞江淼
石建萍
伊帅
欧阳万里
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Sensetime Technology Co Ltd
Original Assignee
Shenzhen Sensetime Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Sensetime Technology Co Ltd filed Critical Shenzhen Sensetime Technology Co Ltd
Priority to CN201810753708.2A priority Critical patent/CN108921225B/zh
Publication of CN108921225A publication Critical patent/CN108921225A/zh
Application granted granted Critical
Publication of CN108921225B publication Critical patent/CN108921225B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例提供一种图像处理方法及装置、计算机设备和存储介质,其中,首先,获取待处理图像;然后,将所述待处理图像输入,经过训练得到的神经网络模型,得到所述待处理图像的处理结果,其中,所述神经网络模型是通过将所述神经网络的不同的段输出的具有第一分辨率的特征进行合并,将合并后的特征作为所述不同的段对应的具有第二分辨率的段的输入,进行训练得到的;最后,输出所述待处理图像的处理结果。

Description

一种图像处理方法及装置、计算机设备和存储介质
技术领域
本发明实施例涉及卷积神经网络领域,涉及但不限于一种图像处理方法及装置、计算机设备和存储介质。
背景技术
卷积神经网络的设计是所有深度学习相关方法的基础工作。一个好的神经网络结构可以用于提高几乎所有深度学习任务的效果。在相关技术中的绝大多数网络结构都是为了特定任务(比如,图像分类,图像分割,图像检测等)设计的,然而,这些网络结构的设计形式各异,目前尚不能统一。一般来说,目前常用的图像分割和图像检测的网络结构都是采用为图像分类任务设计的网络作为骨干,但是这样的骨干在设计之初并未考虑图像检测及分割方面的任务特性。对于图像分割及图像检测而言,需要让网络结构能够有效提取并保留像素级或者区域级的相关信息,而显然,目前为了分类任务设计的网络之中的持续下采样(Down-Sampling)的特性无法满足对不同分辨率的特征进行足够的优化,从而无法实现以更为理想的准确率对图像进行分割或者检测。
发明内容
有鉴于此,本发明实施例提供一种图像处理方法及装置、计算机设备和存储介质。
本发明实施例的技术方案是这样实现的:
本发明实施例提供一种图像处理方法,所述方法包括:
获取待处理图像;
将所述待处理图像输入,经过训练得到的神经网络模型,得到所述待处理图像的处理结果,其中,所述神经网络模型是通过将所述神经网络的不同的段输出的具有第一分辨率的特征进行合并,将合并后的特征作为所述不同的段对应的具有第二分辨率的段的输入,进行训练得到的;其中,所述不同的段中每一段均包含M个不同的分辨率,M为大于等于2的整数;
输出所述待处理图像的处理结果。
在本发明实施例中,所述神经网络包括依次连接且互不重叠的段集合,所述段集合包括第1段至N段,N为大于等于2的整数;所述不同的段为所述段集合中均具有所述第一分辨率且互不相同的段,所述具有第二分辨率的段为所述段集合中的具有所述第二分辨率的段。
在本发明实施例中,N=3,所述神经网络包括依次连接且互不重叠的第一段、第二段和第三段。
在本发明实施例中,所述神经网络模型的训练过程,包括:
获取待处理的训练样本;
将所述训练样本输入所述神经网络的第一段,得到经过所述第一段处理后,输出的所述训练样本的第一特征图;
将所述第一特征图输入所述神经网络的第二段,得到经过所述第二段处理后输出的第二特征图;
将所述第一特征图中特征的分辨率与所述第二特征图中特征的分辨率相同的特征进行合并,得到第一合并特征;
将所述第一合并特征作为所述第三段的输入,得到经过所述第三段处理后输出的所述训练样本对应的训练结果;
根据所述训练结果完成对所述神经网络模型的训练。
在本发明实施例中,所述段集合中每一段均至少包括两个不同的层;
对应地,所述神经网络模型是通过将所述段集合中所述不同的段内具有第一分辨率的最后一层输出的特征进行合并,将合并后的特征输入所述不同的段对应的段中具有第二分辨率的第一层,进行训练得到的。
在本发明实施例中,所述将所述训练样本输入所述神经网络的第一段,得到经过所述第一段处理后,输出的所述训练样本的第一特征图,包括:
将所述训练样本输入所述第一段的卷积层,得到所述训练样本对应的第一卷积结果;
将所述第一卷积结果输入所述第一段的卷积层相应的池化层,得到并输出所述训练样本的第一特征图。
在本发明实施例中,所述将所述第一特征图输入所述神经网络的第二段,得到经过所述第二段处理后输出的第二特征图,包括:
将所述第一特征图输入所述第二段的上采样层,得到第一上采样结果;
将所述第一上采样结果输入所述上采样层相应的卷积层,得到并输出所述第二特征图。
在本发明实施例中,所述将所述第一特征图输入所述第二段的上采样层,得到第一上采样结果,包括:
按照预设比例对所述第二段中输入的通道进行合并,输出合并后的通道;
在所述合并后的通道上将所述第一特征图输入所述第二段的上采样层,得到所述第一上采样结果。
在本发明实施例中,所述神经网络模型的训练过程中,在将所述第一上采样结果输入所述上采样层相应的卷积层,得到并输出所述第二特征图,包括:
将所述第一特征图中具有第一分辨率的特征与所述第二特征图中具有第一分辨率的特征进行合并,得到第二合并特征;
将所述第二合并特征输入所述第二特征图中的特征相应的具有第二同分辨率的上采样层,得到第二上采样结果;
将所述第二上采样结果输入所述具有第二分辨率的上采样层相应的卷积层,得到并输出更新的第二特征图。
在本发明实施例中,所述将所述第一合并特征作为所述第三段的输入,得到经过所述第三段处理后输出的所述训练样本对应的训练结果,包括:
将所述第一合并特征输入所述第三段的卷积层,得到第二卷积结果;
将所述第二卷积结果输入所述卷积层相应的池化层,得到并输出所述第三特征图;
将所述第三特征图确定为所述训练结果。
在本发明实施例中,所述将所述第一合并特征作为所述第三段的输入,得到经过所述第三段处理后输出的所述训练样本对应的训练结果,包括:
将所述更新的第二特征图中具有第一分辨率的特征与所述第三段的池化层输出的具有所述第一分辨率的特征进行合并;
将合并后的特征作为所述池化层对应的具有第二分辨率的卷积层的输入,得到第三卷积结果;
将所述第三卷积结果输入所述具有第二分辨率的卷积层对应的池化层,得到并输出更新的第三特征图;
将所述更新的第三特征图确定为所述训练结果。
在本发明实施例中,所述第二段的卷积层和所述第三段的卷积层均不包含孤立卷积。
本发明实施例一种图像处理装置,所述装置包括:第一获取模块、第一处理模块和第一输出模块,其中:
所述第一获取模块,用于获取待处理图像;
所述第一处理模块,用于将所述待处理图像输入,经过训练得到的神经网络模型,得到所述待处理图像的处理结果,其中,所述神经网络模型是通过将所述神经网络的不同的段输出的具有第一分辨率的特征进行合并,将合并后的特征作为所述不同的段对应的具有第二分辨率的段的输入,进行训练得到的;其中,所述不同的段中每一段均包含M个不同的分辨率,M为大于等于2的整数;
所述第一输出模块,用于输出所述待处理图像的处理结果。
在本发明实施例中,所述神经网络包括依次连接且互不重叠的段集合,所述段集合包括第1段至N段,N为大于等于2的整数;所述不同的段为所述段集合中均具有所述第一分辨率且互不相同的段,所述具有第二分辨率的段为所述段集合中的具有所述第二分辨率的段。
在本发明实施例中,N=3,所述神经网络包括依次连接且互不重叠的第一段、第二段和第三段。
在本发明实施例中,所述装置还包括第一训练模块,用于训练所述神经网络模型,所述第一训练模块包括:
第一获取子模块,用于获取待处理的训练样本;
第一处理子模块,用于将所述训练样本输入所述神经网络的第一段,得到经过所述第一段处理后,输出的所述训练样本的第一特征图;
第二处理子模块,用于将所述第一特征图输入所述神经网络的第二段,得到经过所述第二段处理后输出的第二特征图;
第一合并子模块,用于将所述第一特征图中特征的分辨率与所述第二特征图中特征的分辨率相同的特征进行合并,得到第一合并特征;
第三处理子模块,用于将所述第一合并特征作为所述第三段的输入,得到经过所述第三段处理后输出的所述训练样本对应的训练结果;
第一训练子模块,用于根据所述训练结果完成对所述神经网络模型的训练。
在本发明实施例中,所述段集合中每一段均至少包括两个不同的层;
对应地,所述神经网络模型是通过将所述段集合中所述不同的段内具有第一分辨率的最后一层输出的特征进行合并,将合并后的特征输入所述不同的段对应的段中具有第二分辨率的第一层,进行训练得到的。
在本发明实施例中,所述第一处理子模块,包括:
第一卷积单元,用于将所述训练样本输入所述第一段的卷积层,得到所述训练样本对应的第一卷积结果;
第一池化单元,用于将所述第一卷积结果输入所述第一段的卷积层相应的池化层,得到并输出所述训练样本的第一特征图。
在本发明实施例中,所述第二处理子模块,包括:
第一上采样单元,用于将所述第一特征图输入所述第二段的上采样层,得到第一上采样结果;
第二卷积单元,用于将所述第一上采样结果输入所述上采样层相应的卷积层,得到并输出所述第二特征图。
在本发明实施例中,所述第一上采样单元,包括:
第一合并子单元,用于按照预设比例对所述第二段中输入的通道进行合并,输出合并后的通道;
第一上采样子单元,用于在所述合并后的通道上将所述第一特征图输入所述第二段的上采样层,得到所述第一上采样结果。
在本发明实施例中,所述第二处理子模块,包括:
第一合并单元,用于将所述第一特征图中具有第一分辨率的特征与所述第二特征图中具有第一分辨率的特征进行合并,得到第二合并特征;
第二采样单元,用于将所述第二合并特征输入所述第二特征图中的特征相应的具有第二同分辨率的上采样层,得到第二上采样结果;
第二卷积单元,用于将所述第二上采样结果输入所述具有第二分辨率的上采样层相应的卷积层,得到并输出更新的第二特征图。
在本发明实施例中,所述第三处理子模块,包括:
第三卷积单元,用于将所述第一合并特征输入所述第三段的卷积层,得到第二卷积结果;
第二池化单元,用于将所述第二卷积结果输入所述卷积层相应的池化层,得到并输出所述第三特征图;
第一确定单元,用于将所述第三特征图确定为所述训练结果。
在本发明实施例中,所述第三处理子模块,包括:
第二合并单元,用于将所述更新的第二特征图中具有第一分辨率的特征与所述第三段的池化层输出的具有所述第一分辨率的特征进行合并;
第四卷积单元,用于将合并后的特征作为所述池化层对应的具有第二分辨率的卷积层的输入,得到第三卷积结果;
第三池化单元,用于将所述第三卷积结果输入所述具有第二分辨率的卷积层对应的池化层,得到并输出更新的第三特征图;
第二确定单元,用于将所述更新的第三特征图确定为所述训练结果。
在本发明实施例中,所述第二段的卷积层和所述第三段的卷积层均不包含孤立卷积。
本发明实施例提供一种计算机存储介质,所述计算机存储介质上存储有计算机可执行指令,该计算机可执行指令被执行后,能够实现本发明实施例提供的图像处理方法中的步骤。
本发明实施例提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器上存储有计算机可执行指令,所述处理器运行所述存储器上的计算机可执行指令时可实现本发明实施例提供的图像处理方法中的步骤。
本发明实施例提供一种图像处理方法及装置、计算机设备和存储介质,其中,首先,获取待处理图像;其次,将所述待处理图像输入,经过训练得到的神经网络模型,得到所述待处理图像的处理结果,其中,所述神经网络模型是通过将所述神经网络的不同的段输出的具有第一分辨率的特征进行合并,将合并后的特征作为所述不同的段对应的具有第二分辨率的段的输入,进行训练得到的;其中,所述不同的段中每一段均包含M个不同的分辨率,M为大于等于2的整数;最后,输出所述待处理图像的处理结果;如此,通过将不同段内输出的分辨率相同的特征进行合并,作为下一个分辨率的输入,从而能够对不同分辨率的特征均进行处理,进而有效的提高了图像处理的正确率。
附图说明
图1A为本发明实施例网络架构的组成结构示意图
图1B为本发明实施例图像处理方法的实现流程示意图;
图1C为本发明实施例实现图像处理方法的网络架构图;
图1D为本发明实施例又一实现图像处理方法的网络架构图;
图2为本发明实施例图像处理方法的又一实现流程示意图;
图3为本发明实施例鱼型网络的网络架构示意图;
图4A为本发明实施例两个分辨率不同的特征之间的鱼型网络各个部分的相互作用的结构示意图;
图4B为本实施例对特征进行上采样的流程示意图;
图4C为本实施例对特征进行下采样的流程示意图;
图5为本发明实施例基于验证集ImageNet的不同网络下错误率的仿真结果图;
图6为本发明实施例图像处理装置的组成结构示意图;
图7为本发明实施例计算机设备的组成结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对发明的具体技术方案做进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
本实施例先提供一种网络架构,图1A为本发明实施例网络架构的组成结构示意图,如图1A所示,该网络架构包括两个或多个计算机设备11至1N和服务器31,其中计算机设备11至1N与服务器31之间通过网络21进行交互。计算机设备在实现的过程中可以为各种类型的具有信息处理能力的计算设备,例如所述计算机设备可以包括手机、平板电脑、台式机、个人数字助理、导航仪、数字电话、电视机等。
本实施例提出一种图像处理方法,能够有效解决目前为了分类任务设计的网络之中的持续下采样的特性无法满足这一要求的问题,该方法应用于计算机设备,该方法所实现的功能可以通过计算机设备中的处理器调用程序代码来实现,当然程序代码可以保存在计算机存储介质中,可见,该计算机设备至少包括处理器和存储介质。
本实施例提供一种图像处理方法,图1B为本发明实施例图像处理方法的实现流程示意图,如图1B所示,所述方法包括以下步骤:
步骤S101,获取待处理图像。
这里,所述待处理图像,可以是待检测的图像,还可以是待分割的图像等;所述步骤S101可以是由计算机设备实现的,进一步地,所述计算机设备可以是智能终端,例如可以是移动电话(手机)、平板电脑、笔记本电脑等具有无线通信能力的移动终端设备,还可以是台式计算机等不便移动的智能终端设备。所述计算机设备用于进行图像处理。
在本实施例中,所述待处理图像可以是外观复杂的图像,还可以是外观简单的图像。
步骤S102,将所述待处理图像输入,经过训练得到的神经网络模型,得到所述待处理图像的处理结果。
这里,所述步骤S102可以是由计算机设备实现的。所述神经网络模型是通过将所述神经网络的不同的段输出的具有第一分辨率的特征进行合并,将合并后的特征作为所述不同的段对应的具有第二分辨率的段的输入,进行训练得到的;所述不同的段中每一段均包含M个不同的分辨率,M为大于等于2的整数。即所述神经网络模块是通过将所述神经网络的卷积层输出的特征图中的具有第一分辨率的特征与池化层输出特征图中具有第一分辨率的特征进行合并;将合并后的特征作为所述卷积层对应的下一层的输入或所述池化层对应的下一层的输入(即具有第二分辨率的层)。也就是说,神经网络模型通过将所述神经网络的卷积层输出的特征的分辨率与池化层输出的特征分辨率相同的特征进行合并,将合并后的特征作为所述卷积层的下一层的输入或所述池化层的下一层的输入,进行训练得到的。所述神经网络包括依次连接且互不重叠的段集合,所述段集合包括第1段至N段,N为大于等于2的整数;所述不同的段为所述段集合中均具有所述第一分辨率且互不相同的段,所述具有第二分辨率的段为所述段集合中的具有所述第二分辨率的段。
在一种实施例中,所述神经网络模型可以为鱼型网络,该鱼型网络包括第一段、第二段和第三段(即分别对应为鱼尾、鱼身和鱼头),所述第一段、第二段和第三段均至少包括两个不同的层,且所述第一段、所述第二段和所述第三段互不重叠。在第二段中,将第一段(鱼尾)的池化层的输出的特征的分辨率与第二段(鱼身)的卷积层的输出的特征的分辨率相同的特征(即具有第一分辨率的特征)进行合并,然后输入到第二段的该合并特征对应的下一层(即具有第二分辨率的层)。在第三段(鱼头)中,将第一段(鱼尾)的池化层的输出的特征的分辨率与第二段(鱼身)的卷积层的输出的特征的分辨率相同的特征进行合并,然后输入到第二段的该合并特征对应的下一层;第三段还包括将第二段的卷积层的输出的特征的分辨率与第三段的池化层输出的特征的分辨率相同的特征进行合并,作为该合并特征对应的下一层的输入。
步骤S103,输出所述待处理图像的处理结果。
这里,所述步骤S103可以是由计算机设备实现的。
在实际实现过程中,所述计算机设备输出所述待处理图像的分析结果可以是在自身显示屏上输出所述待处理图像,还可以是所述计算机设备将所述分析结果输出至其他设备,也就是发送给其他设备,例如所述其他设备可以是用户的智能终端上。
在本发明实施例提供的一种图像处理方法中,通过将不同段内具有相同分辨率的特征进行合并,作为下一个分辨率对应的层的输入,如此,第一段内的高分辨的特征可以通过这样合并特征的方式到达该神经网络的第三段,从而就可以实现对不同分辨率特征均能够进行优化,从而有效的提高了图像处理的正确率。
在实现的过程中,经过训练的神经网络模型可以在计算机设备的本地,也可以是在服务器端。
当经过训练的神经网络模型在计算机设备本地时,可以是计算机设备安装客户端的时候,即安装了经过训练的神经网络模型,这样,参见图1C所示,计算机设备通过步骤S101获取待处理图像,然后通过步骤S102获得待处理图像的处理结果,最后通过步骤S103输出处理结果。从以上过程可以看出,计算机设备在安装完客户端之后,上述的步骤S101至步骤S103都在计算机设备本地执行,最后,计算机设备将得到处理结果输出给用户。
在其他实施例中,经过训练的神经网络模型也可以位于服务器端,参见图1D所示,这样计算机设备将输入图像发送给服务器,这样服务器接收计算机设备发送的输入图像,这样服务器实现了步骤S201,换句话说,如果上述的方法是在服务器端实现,那么步骤S201,包括:服务器接收计算机设备发送的输入图像,即服务器确定待处理的图像,然后服务器通过步骤S202获得所述待处理图像的输出结果,最后通过步骤S203获得输出的处理结果;从以上过程可以看出,上述的步骤S201至步骤S203都在服务器端执行,最后服务器还可以将处理结果发送给计算机设备,这样计算机设备接收到处理结果后,输出处理结果给用户。本实施例中,计算机设备在安装完客户端之后,用户上传用户的待处理图像,以及接收服务器发送的待处理图像,并将处理结果输出给用户。
在其他实施例中,所述神经网络模型的训练过程,包括以下步骤:
步骤S131,获取待处理的训练样本。
步骤S132,将所述训练样本输入所述神经网络的第一段,得到经过所述第一段处理后,输出的所述训练样本的第一特征图。
步骤S133,将所述第一特征图输入所述神经网络的第二段,得到经过所述第二段处理后输出的第二特征图。
步骤S134,将所述第一特征图中特征的分辨率与第二特征图中特征的分辨率相同的特征进行合并,得到第一合并特征。
步骤S135,将所述第一合并特征作为所述第三段的输入,得到经过所述第三段处理后输出的所述训练样本对应的训练结果。
步骤S136,根据所述训练结果完成对所述神经网络模型的训练。
在本实施例中,将第一段的输出作为第二段的输入,然后将第二段的输出中特征分辨率与第一段的输出中特征分辨率相同的特征合并,作为第三段的输入,然后对于训练结果采用交叉熵损失函数对该神经网络模型进行校对,即用交叉熵损失函数计算所述训练结果的随机记录下降,然后将这个训练结果回馈到神经网络的每一层,以改变每一层的参数,比如权重等,从而完成对神经网络模型的训练。
本实施例提供一种图像处理方法,图2为本发明实施例图像处理方法的又一实现流程示意图,如图2所示,所述方法包括以下步骤:
步骤S201,获取待处理的训练样本。
这里,所述训练样本可以各种类型的大量的图像。
步骤S202,将所述训练样本输入所述第一段的卷积层,得到所述训练样本对应的第一卷积结果。
这里,所述第一段(即鱼尾)中包含多个分辨率,而且每个分辨率下均至少包括两层(池化层和卷积层)。将训练样本输入到神经网络中,该训练样本先经过第一段的卷积层,在经过第一段的池化层;该神经网络的第一段可以是残差网络(ResNet)。
步骤S203,将所述第一卷积结果输入所述第一段的卷积层相应的池化层,得到并输出所述训练样本的第一特征图。
步骤S204,按照预设比例对所述第二段中输入的通道进行合并,输出合并后的通道。
这里,所述预设比例可以是根据自身需要来设定的,比如,将预设比例设定为二分之一,加入输入是10个通道,按照二分之一的比例将通道两两合并,输出就是5个通道,这节省了计算和参数大小,连接到前一级的通道数量变得很小。
步骤S205,在所述合并后的通道上将所述第一特征图输入所述第二段的上采样层,得到所述第一上采样结果。
这里,将第一段最后一层的输出,输入到第二段的最前面的上采样层。
步骤S206,将所述第一上采样结果输入所述上采样层相应的卷积层,得到并输出所述第二特征图。
这里,在第二段中包含多个不同的分辨率,每个分辨率下均包含至少两层,即当有特征输入到一个分辨率的对应的两层时,要先对该特征进行上采样,然后再对采样结果进行卷积。
步骤S207,将所述第一特征图中具有第一分辨率的特征与第二特征图中具有所述第一分辨率的特征进行合并,得到第一合并特征。
这里,将第一段的具有第一分辨率下的池化层输出的特征与第二段中具有第一分辨率的卷积层输出的特征进行合并,得到第一合并特征。比如,将鱼尾的分辨率为14×14的池化层输出的特征与鱼身的分辨率为14×14的卷积层输出的特征进行合并,作为鱼头第一层(卷积层)的输入。
步骤S208,将所述第一合并特征输入所述第三段的卷积层,得到第二卷积结果。
这里,所述第三段的卷积层可以理解为第三段中(即鱼头)中与鱼身连接处的分辨率对应的第一层(卷积层);如此,将第一段和第二段内的相同分辨率的特征通过残差模块合并之后,作为第三段的输入。
步骤S209,将所述第二卷积结果输入所述卷积层相应的池化层,得到并输出所述第三特征图。
步骤S210,将所述第三特征图确定为所述训练结果。
这里,当合并特征被第三段处理之后,输出训练样本对应的训练结果,然后采用交叉熵损失函数对神经网络中的每一层进行调整,完成整个神经网络模型的训练。
在本发明实施例中,通过将不同段内相同分辨率的特征进行合并,作为下一个分辨率的输入,高分辨率的特征能够直接连接到整个网络的最后一层,从而缓解了在神经网络中梯度消失的问题。
在其他实施例中,在所述步骤S206,“将所述第一上采样结果输入所述上采样层相应的卷积层,得到并输出所述第二特征图”之后,所述神经网络模型的训练过程中,在将所述第一上采样结果输入所述上采样层相应的卷积层,得到并输出所述第二特征图,包括以下步骤:
步骤S261,将所述第一特征图中具有第一分辨率的特征与所述第二特征图中具有第一分辨率的特征进行合并,得到第二合并特征。
这里,将第一段中不同分辨率下输出层(即池化层)对应的输出特征的分辨率与第二段中同一分辨率下输出层(卷积层)输出的特征通过残差模块进行合并,将合并的特征输入第二段中该分辨率对应的下一个分辨率的上采样层;这样,就使得在整个神经网络(即鱼型网络)的不同段的特征可以输入到相同分辨率下的其他段内。
步骤S262,将所述第二合并特征输入所述第二特征图中的特征相应的具有第二同分辨率的上采样层,得到第二上采样结果。
步骤S263,将所述第二上采样结果输入所述具有第二分辨率的上采样层相应的卷积层,得到并输出更新的第二特征图。
这里,所述更新的第二特征图中包括了,对于合并特征处理后,卷积层输出的特征。
在本实施例中,在第二段中,当对第一段最后一层输出的特征进行先上采样,再卷积处理之后,还要将第一段中输出的特征中分辨率与第二段输出的特征中分辨率相同的特征,作为第二段的下一个分辨率的第一层(上采样层)的输入。然后,在下一个分辨率中,对合并的特征进行先上采样再卷积的处理,最终得到更新的第二特征图,如此,利用残差模块,将不同段内相同分辨率的特征进行合并,并优化该合并特征,从而使不同深度下的特征被作为同一层的输入而相互优化,使得深层及浅层的特征能够更好的沟通及融合。
在其他实施例中,在步骤S209,“将所述第二卷积结果输入所述卷积层相应的池化层,得到并输出所述第三特征图”之后,将所述第一合并特征作为所述第三段的输入,得到经过所述第三段处理后输出的所述训练样本对应的训练结果,包括以下步骤:
步骤S291,将所述更新的第二特征图中具有第一分辨率的特征与所述第三段的池化层输出的具有所述第一分辨率的特征进行合并。
步骤S292,将合并后的特征作为所述池化层对应的具有第二分辨率的卷积层的输入,得到第三卷积结果。
步骤S293,将所述第三卷积结果输入所述具有第二分辨率的卷积层对应的池化层,得到并输出更新的第三特征图。
这里,当将第二段中输出的特征与第一特征图中分辨率预该特征相同的特征进行合并,作为第三段预第二段连接处第一层的输入之后,经过卷积层和池化层处理后,得到一个输出特征,该输出特征与更新的第二特征图中与该输出特征分辨率相同的特征进行合并,作为该输出特征对应的下一个分辨率的池化层的输入,再经过该池化层对应的卷积层进行处理,以此类推,得到更新的第三特征图。
步骤S294,将所述更新的第三特征图确定为所述训练结果。
在本实施例中,是在第三段内(即鱼头这一段内),将鱼头自身的输出特征与鱼身的输出特征进行合并,作为鱼头下一个分辨率的输入,如此,在鱼头处高分辨率的特征能够直接连接到整个网络的最后一层,将浅层的浅层的特征可以和深层的特征直接相连,缓解了梯度消失的问题,从而使得深层梯度可以被更有效地回传。
本发明实施例提供一种图像处理方法,对于图像级,区域级和像素级任务设计的卷积神经网络(Convolutional Neural Network,CNN)在网络结构上开始出现不同。用于图像分类的网络使用连续的下采样来获得低分辨率的深度特征。但是,低分辨率的特征不适合像素级或区域级任务。然而,直接使用高分辨率浅层特征来进行区域和像素级别的任务并不适用。为了获得高分辨率的更深层特征,用于像素级任务的众所周知的网络结构使用U-Net或沙漏状网络。最近关于物体检测等区域级任务的工作也使用带有上采样机制的网络,以便可以用相对较高分辨率的特征描述小物体。
在区域级和像素级任务使用高分辨率特性的成功推动下,本实施例给出了了一种鱼型网络(FishNet),该鱼型网络使高分辨率的特征能够包含高级语义信息。这样,从图像分类中预先训练的特征对于区域和像素级任务更加友好。
深度CNN架构的设计是深度学习中的一项根本性但具有挑战性的任务。具有更好设计的网络提取更好的功能,这可以提高许多其他任务的性能。由AlexNet实现的图像处理挑战ILSVRC的显着改进象征着计算机视觉深度学习的新时代。但是,由于梯度消失的问题,此时的网络仍然不能太深。最近,通过将跳过连接引入网络,大大缓解了消失梯度的问题。然而,在所有这些设计用于图像分类的网络中,高分辨率的特征是由浅层接收场所提取的,缺乏只能在更深层获得的高层语义含义。本实施例提供的鱼型网络是第一个提取具有高级语义含义的高分辨率深度特征,同时提高图像分类准确率。
不同分辨率或深度的特征可以使用超列,加法和残差块进行组合。超列网络直接连接不同层次的特征进行分割和定位。然而,来自深层和浅层的特征不用于彼此优化。添加只能混合不同抽象层次的特征,但不能保留或细化两者。卷积之后的卷积与加法类似。当残差模块,也有加法,用于组合要素时,相关技术中对于具有预定义的目标进行细化。如果跳跃图层用于深度特征,那么浅度特征仅用于提炼深度特征。在这种情况下,在残差块之后,浅层的特征被丢弃。总而言之相关技术中的添加和残差块不会保留浅层和深层的特征,而本实施例的设计将保留并优化它们。
由于计算机视觉中还有许多其他任务,例如对象检测,分割,需要大量特征映射来保持分辨率,所以有必要对网络应用上采样方法。这种机制通常包括具有非常不同深度的特征之间的通信。但是,在相关技术中都没有被证明对图像分类任务有效。虽然试图保持高分辨率的特征的映射,但是相关技术的体系结构仍然在不同分辨率的特征之间的使用卷积。此外,在相关技术中没有提供上采样路径来实现具有更大语义含义的高分辨率特征。相关技术的网络将多尺度机制引入其架构的目的是进行预算预测。然而,这样的设计在图像分类的准确性方面没有显示出改善。本实施例的FishNet是第一个显示U-Net结构可以有效进行图像分类的产品。此外,本实施例最终任务保留和提炼了浅层和深层功能,这在现有的采样或相关技术的网络中是无法实现的。
在相关技术中有些方法使用特征间的消息传递进行分割,姿态估计和目标检测等。但是这些设计基于骨干网络,而本实施例的FishNet是与这些相关技术中的方法互补的骨干网络。
残差网络(ResNet)的基本构建块称为残差块。具有身份映射的残差块可以表述为如公式(1)所示:
xl+1=xl+F(xl,Wl) (1);
其中xl表示层L上的残差块的输入特征,且F(xl,Wl)表示具有输入xl和参数Wl的残差函数。将所有残差块的堆栈视为与阶段相同的分辨率。因此,公式(2)可以表示为:
在公式(2)中,xl,s表示阶段s的第l层的特征;Ls表示阶段s中堆叠的残差块的数量,用于确保的梯度可以直接传播到x0,s中的L表示损失函数;表示阶段s的第Ls层的特征,在本实施例中认为具有不同分辨率的特征具有不同的阶段。在原始的ResNet中,不同分辨率的特征在通道数量上不同。因此,在下采样之前需要一个转换函数h(·)来改变通道的数量:
在公式(3)中,σ(·)是激活函数。λs表示滤波器,表示阶段s的过渡层的偏差。符号表示卷积。由于特征对应的通道的数量和特征对应的通道的数量是不同的,所以身份映射是不适用的。
孤立卷积(Isolated convolution,I-conv)是公式(3)中的卷积,没有身份映射或堆叠连接。如相关技术中的实验所分析和验证的那样,希望将来自深层的梯度直接传输到浅层。具有身份映射的残差块和具有连接的密集块便于这种直接梯度传播。如果存在孤立卷积,则深层的梯度不能直接传输到浅层。然而,在ResNet中具有不同分辨率的特征与在相邻密集块之间的I-conv阻碍了直接梯度传播。由于ResNet和密集连接卷积网络(DenseNet)中均仍然有I-conv,输出的梯度不能直接传播到浅层。虽然可逆下采样通过使用当前阶段的所有特征为下一阶段避免了I-conv的问题,但是随着阶段的身份(IDentity,ID)增加,I-conv将指数级地增加参数的数量。基于现有网络中I-conv的梯度传播问题,本实施例提出了一个新的架构,即FishNet来解决这个问题。
图3为本发明实施例鱼型网络的网络架构示意图,如图3所示,整个鱼型网络分为三部分:鱼尾31,鱼身32和鱼头33(即第一段、第二段和第三段);311表示鱼尾的特征;321表示鱼身的特征,331表示鱼头的特征,334表示合并的特征(即鱼尾的特征中分辨率与鱼身的特征中分辨率相同的特征进行合并);特征341表示鱼尾的特征中分辨率与鱼身的最后一层输出的特征的分辨率相同的特征进行合并得到的特征,342表示鱼身的特征中分辨率与鱼头特征的分辨率相同的特征进行合并得到的特征。鱼尾是传统的CNN网络,例如ResNet,随着CNN中层数的逐渐加深,最终结果得到的特征逐渐变小。鱼身部分有多个个上采样优化块,用于优化鱼尾和鱼身的特征。鱼头有几个降取样和优化块,用于保存和优化鱼尾,鱼身和鱼头的特征。鱼头最后一个卷积层的细化特征被用于最后的任务。
在本实施例中阶段是具有相同分辨率的残差块或卷积块。根据输出特征的分辨率,FishNet中的每个部分可以分成几个阶段。随着分辨率变小,阶段ID变得更高。例如,输出的分辨率为56×56和28×28的块分别位于FishNet的所有三个部分的阶段1和阶段2。
图4A为本发明实施例两个分辨率不同的特征之间的鱼型网络各个部分的相互作用的结构示意图,如图4A所示,鱼尾40可视为一个残差网络,鱼尾40的特征需要经过多个残差块,然后通过转移模块401传送到鱼身41。在图4A中的鱼身41通过级联来保留鱼尾40的特征和鱼身41前一阶段的特征;402表示通道数为C1,分辨率为2W×2H的特征,403表示通道数为C2,分辨率为W×H的特征。
在鱼身41中,首先将通道数为C3,分辨率为W×H的特征410通过固定连接46与特征403进行连接,得到特征411,特征411的通道数为C2+C3;其次,对特征411经过UR模块45进行上采样得到特征412,特征412的通道数为(其中,k为通道合并的比例),分辨率为2W×2H;再次,将特征412通过固定连接46与特征402进行连接,得到特征413,最后对特征413在进行上采样等操作。
在鱼头42中,首先,将通道数为C4,分辨率为2W×2H的特征420通过固定连接46与特征413相连接,得到特征421,(其中,特征421的通道数为分辨率为2W×2H);其次,对特征421进行经过DR模块44进行下采样(即将特征421经过鱼头的池化层),得到通道数为分辨率为W×H特征422;再次,将特征422通过固定连接46与特征411进行连接,得到特征423(其中,特征423的通道数为分辨率为W×H);最后,对特征423继续进行下采样等处理。
图4B为本实施例对特征进行上采样的流程示意图,如图4B所示,所述上采样过程为:首先,对通道数为C,分辨率为W×H的特征431分为通道数为C2的特征432和通道数为C3的特征433;其次,分别对特征432和特征433进行上采样,得到特征434和特征435;再次,将特征435与特征434进行合并,得到特征436,且特征436的通道数为最后,将特征436与输入的分辨率为2W×2H的特征437进行合并。
图4C为本实施例对特征进行下采样的流程示意图,如图4C所示,所述上采样过程为:首先,对通道数为C,分辨率为2W×2H的特征441进行下采样,得到通道数为C,分辨率为W×H的特征442;其次,将特征442分为通道数为C4的特征443、通道数为C2的特征444和通道数为C3的特征445;其次,分别对特征443、特征444和特征445进行残差处理,得到特征446;最后,将特征442与特征446进行合并输入到该鱼型网络的下一层。
在本实施例的FishNet中,有两种用于上采样或下采样和特征优化的块:上采样优化块(Up-sampling&Refinement block,UR-block)和下采样优化块(Down-sampling&Refinement block,DR-block)。
UR块可以表示如下:
在公式(4)中,分别表示尾部和鱼身的在阶段s上最后一层的输出特征;s∈{1,2,…,min(Nt-1,Nb-1)};concat(·)表示将特征进行连接;Nt和Nb分别表示鱼尾和鱼身部分的阶段数;T表示鱼尾和鱼身之间的传输块,这可以通过残差块来实现。表示T的参数。分别表示对进行优化得到的特征,分别可以表示为:
其中,up(·)表示上采样函数。M表示从特征和特征中提取消息的函数。分别是在阶段s中,对鱼尾的特征和鱼身的特征进行上采样的参数。类似于公式(1)中的残差函数F,M(·)表示由具有3个卷积层的瓶颈残差单元实现的函数。通道减少函数可以表示为:
其中,x={x(1),x(2),…x(Cin)}表示函数r(x)中输入通道为Cin的特征的映射,并且表示函数r(x)中输入通道为Cout的特征的映射;(即预设比例),因此在本实施例按照预设比例合并通道,可以是得通道数量减少为原有通道数的1/K。比如,输入的通道数为10,在进行上采样时,将通道两两合并(即预设比例为2),那么输出的通道数为5;如此,使得为了节省计算和参数大小,连接到前一级的通道数量变得很小。
在鱼头中的的DR块与UR块是相似的。首先,本实施例使用2×2最大池化在DR块中进行下采样。其次,在DR块中,UR块中的通道减少功能未被使用,使得当前阶段的梯度可以直接传送到前一阶段的参数。本实施例从尾部和鱼身将具有相同分辨率的特征堆叠连接到鱼头。这样,整个网络的每个阶段的特征都可以通过跳过卷积层和最大池化层直接连接到最后一层。
通过鱼型设计的鱼身和鱼头,鱼尾和鱼身各个阶段的特征在鱼头连接起来。在本实施例提供的鱼头中的卷积层中不包含I-conv。鱼头中的层由级联层,卷积层与身份映射层和最大池化层组成。在本实施例提供的FishNet中,鱼头的卷积层中不包含I-conv;而且在鱼身和鱼头中输出特征的分辨率与下一层输入的特征的分辨率相同的特征进行合并,形成一个合并层,使得高分辨率的特征可以直接连接到该网络的最后一层,从而缓解了梯度消失的问题。
使用步长为2进行下采样,内核大小设置为2×2,以避免像素之间的重叠。消融研究将显示网络中不同类型的内核大小的影响。为了避免I-conv的问题,应该避免上采样方法中的加权反卷积。为了简单起见,本实施例选择最近邻插值进行上采样。由于上采样操作会以较低的分辨率稀释输入特征,因此本实施例在优化块中应用扩张卷积。
对于图像分类,本实施例在由1000个类组成的图像网络2012(ImageNet 2012)分类数据集上评估本实施例提出的网络。该数据集具有120万个用于训练的图像,以及50,000个用于验证的图像(由ImageNet-1k val表示)。基于流行的深度学习框架(PyTorch)实现FishNet;在训练的过程中,将图像裁剪为224×224的分辨率,批量大小为256,并选择随机梯度下降(Stochastic Gradient Descent,SGD)作为训练优化器,基本学习率设置为0.1。重量衰减和动量分别为10-4和0.9。本实施例训练网络90个时期,学习率每30个时期减少10倍。归一化过程通过首先将每个像素的值转换为区间[0,1],然后分别减去平均值和RGB各通道的方差。本实施例按照相关技术中使用的增强方式(随机裁剪,水平翻转和标准色彩增强)进行公平比较。本实施例中的所有实验均通过ImageNet验证数据集上的单一因素验证过程进行评估。即,从输入图像的中心裁剪尺寸为224×224的图像区域,其中较短边被调整为256。该224×224图像区域是网络的输入。FishNet是一个框架,没有指定构建块。对于本实施例中的实验结果,FishNet使用带有标识映射的残差块作为基本构建块,FishNeXt使用具有标识映射和分组的残差块作为构建块。
图5为本发明实施例基于验证集ImageNet的不同网络下错误率的仿真结果图,从图5所示,曲线51表示采用本实施例的FishNet在验证集ImageNe上的错误率曲线;曲线52表示采用本实施例的Densenet在验证集ImageNe上的错误率曲线;曲线53表示采用本实施例的ResNet在验证集ImageNe上的错误率曲线;从图5可以看出,当FishNet的网络使用预先激活的ResNet作为FishNet的尾部时,FishNet的性能比ResNet和DenseNet、FishNet与ResNet更好。
为公平比较,重新实施ResNet并给出图5中的ResNet-50和ResNet-101的结果。报告的带身份映射的ResNet-50和ResNet-101的单个物体的结果高于相关技术中的结果,因为选择预激活的残差块作为本实施例基本构建块。与ResNet相比,FishNet的错误率显着降低。FishNet-188(21.98%,25.9M)的参数数量接近ResNet-50(23.78%,25.5M),能够超越ResNet-101(22.30%,44.5M)的性能。
DenseNet通过连接迭代地聚合具有相同分辨率的特征,然后通过过渡层减小每个密集块之间的尺寸。根据图5的实验结果,DenseNet能够使用更少的参数来超越ResNet的准确性。由于FishNet保留了更多元化的特征,更好地处理了梯度传播问题,因此FishNet能够实现比DenseNet更好的性能。
FishNet的架构可以与其他类型的设计相结合,例如ResNeXt采用的通道式分组。通过简单地将每个特征按频道划分为32个组,基于ResNet的FishNet可以很容易地构建成基于ResNeXt242的网络,即FishNeXt。我们构建了一个具有2600万参数的紧凑型FishNeXt-188。FishNeXt-188的参数数量接近ResNeXt-50。表1为使用ImageNet-1k验证集进行分类的错误率,从表1可以看出,FishNeXt-188与ResNeXt相比,错误率可以降低0.8%。
表1使用ImageNet-1k验证集进行分类的错误率
表2基于FishNet-188使用ImageNet-1k验证集在不同下采样方法下分类的错误率
在本实施例中,步长为2的下采样可以通过,步长为2、平均池化和最大池化的3×3卷积来实现;其中,最大池化的内核大小为2×2和3×3,平均池化内核大小为2×2。表2为基于FishNet-188使用ImageNet-1k验证集在不同下采样方法下分类的错误率,从表2可以看出,采用最大池化的内核为2×2时,得到的错误率性能优于采用最大池化的内核为3×3或平均池化的内核大小为2×2对应的错误率性能;另外,最大池化内核大小为3×3的对应的性能比最大池化大小为2×2对应的性能差,因为结构信息可能受到内核为3×3的最大池化的影响,3×3的内核具有重叠的池化窗口,扩张卷积等。当在鱼身上使用扩张的内核进行上采样时,基于FishNet-188错误率降低0.18%。然而,如果扩张卷积被用于鱼身和鱼头,与未引入扩张卷积的模型相比,则绝对误差率增加0.1%。本实施例用两个残差块代替第一个分辨率为7×7的卷积层,这将错误率减少了0.13%。
本实施例评估了FishNet在最具挑战性的数据集(MS COCO)上的对象检测和实例分割的泛化能力。为了公平比较,除了网络骨干之外,本实施例的所有模型都使用相同的设置。数据集和度量MS COCO是目标检测和实例分割最具挑战性的数据集之一。有80个带边界框注释和像素级实例掩码注释的类。它包括118k个用于训练的图像(train-2017)和5k个用于验证的图像(val-2017)。我们在train-2017上训练我们的模型,并报告val-2017的结果。本实施例使用标准评估指标(COCO)平均精度(Average Precision,AP)评估所有模型,其中,APS,APM,APL分别表示不同尺度的AP。
表3基于不同方法MS COCO val-2017检测图像和分割图像的平均精度
在本实施例中重新实施基于相关技术中PyTorch的特征金字塔网络(FeaturePyramid Networks,FPN)和Mask R-CNN,而且表3为基于不同方法MS COCO val-2017检测图像和分割图像的平均精度,其中,APs和APd分别表示分割图像的平均精度和检测图像的平均精度。从表2可以看出,重新实施的结果接近Detectron报告的结果。借助FishNet,在16个图形处理器(Graphics Processing Unit,GPU)上对所有网络进行了培训,批量为16个(每个GPU一个),时间为32个时期。将随机梯度下降(Stochastic Gradient Descent,SGD)用作训练优化器,学习率为0.02,在20个时期和28个时期减少10个。由于最小批量规模很小,网络中的批量标准化层在整个培训过程中都是固定的。预热训练过程适用于1个时期,在前2个时期梯度被限制在最大超参数5.0以下,以处理初始训练阶段的巨大梯度。卷积分辨率224×224的权重都是固定的。我们使用一个重量衰减为0.0001,动量为0.9。网络经过端到端的培训和测试方式。实验中使用的所有其他超参数均遵循中的规定。
本实施例在val-2017上报告使用FPN与FishNet-188进行检测的结果进行比较。FPN中的自上而下的通路和侧向连接附着在鱼头上。如表3所示,FishNet-188获得ResNet-50的绝对AP增加2.6%,ResNeXt-50的绝对AP增加1.3%。
与FPN中采用的方法类似,本实施例将FishNet插入到Mask R-CNN中以进行同时分割和检测。如表3所示,对于实例分段任务,与ResNet-50和ResNeXt-50相比,实现了2.3%和1.3%的绝对AP增益。而且,当网络以这种多任务方式进行训练时,对象检测的性能可能会更好。通过将FishNet插入MaskR-CNN,与ResNet-50和ResNeXt-50相比,观察到绝对AP的改善分别为2.8%和1.5%。
在本实施例中FishNet-188不使用通道分组,并且FishNet-188的参数数量接近于ResNet-50和ResNeXt-50的参数数量。与ResNeXt-50相比,FishNet-188仅将绝对误差率降低0.2%。对于图像分类,与ResNeXt-50相比,FishNet-188将目标检测和实例分割的绝对AP分别提高了1.3%和1.5%。这表明FishNet提供的功能对于区域级的目标检测任务和像素级的分割任务更为有效。
在本实施例中,用FishNet来统一为不同的层上的对象处理任务而设计的架构优势。特征保存和细化的设计不仅有助于处理直接梯度传播的问题,而且对像素级和区域级任务也很有帮助。实验结果证明并验证了本实施例的鱼型网络在图像分类和图像分割方面都获得了巨大的改进。
本发明实施例提供一种图像处理装置,图6为本发明实施例图像处理组成结构示意图,如图6所示,所述图像处理装置600包括:第一获取模块601、第一处理模块602和第一输出模块603,其中:
所述第一获取模块601,用于获取待处理图像;
所述第一处理模块602,用于将所述待处理图像输入,经过训练得到的神经网络模型,得到所述待处理图像的处理结果,其中,所述神经网络模型是通过将所述神经网络的不同的段输出的具有第一分辨率的特征进行合并,将合并后的特征作为所述不同的段对应的具有第二分辨率的段的输入,进行训练得到的;其中,所述不同的段中每一段均包含M个不同的分辨率,M为大于等于2的整数;
所述第一输出模块603,用于输出所述待处理图像的处理结果。
在本发明实施例中,所述神经网络包括依次连接且互不重叠的段集合,所述段集合包括第1段至N段,N为大于等于2的整数;所述不同的段为所述段集合中均具有所述第一分辨率且互不相同的段,所述具有第二分辨率的段为所述段集合中的具有所述第二分辨率的段。
在本发明实施例中,N=3,所述神经网络包括依次连接且互不重叠的第一段、第二段和第三段。
在本发明实施例中,所述装置还包括第一训练模块,用于训练所述神经网络模型,所述第一训练模块包括:
第一获取子模块,用于获取待处理的训练样本;
第一处理子模块,用于将所述训练样本输入所述神经网络的第一段,得到经过所述第一段处理后,输出的所述训练样本的第一特征图;
第二处理子模块,用于将所述第一特征图输入所述神经网络的第二段,得到经过所述第二段处理后输出的第二特征图;
第一合并子模块,用于将所述第一特征图中具有第一分辨率的特征与第二特征图中具有所述第一分辨率的特征进行合并,得到第一合并特征;
第三处理子模块,用于将所述第一合并特征作为所述第三段的输入,得到经过所述第三段处理后输出的所述训练样本对应的训练结果;
第一训练子模块,用于根据所述训练结果完成对所述神经网络模型的训练。
在本发明实施例中,所述段集合中每一段均至少包括两个不同的层;
对应地,所述神经网络模型是通过将所述段集合中所述不同的段内具有第一分辨率的最后一层输出的特征进行合并,将合并后的特征输入所述不同的段对应的段中具有第二分辨率的第一层,进行训练得到的。
在本发明实施例中,所述第一处理子模块,包括:
第一卷积单元,用于将所述训练样本输入所述第一段的卷积层,得到所述训练样本对应的第一卷积结果;
第一池化单元,用于将所述第一卷积结果输入所述第一段的卷积层相应的池化层,得到并输出所述训练样本的第一特征图。
在本发明实施例中,所述第二处理子模块,包括:
第一上采样单元,用于将所述第一特征图输入所述第二段的上采样层,得到第一上采样结果;
第二卷积单元,用于将所述第一上采样结果输入所述上采样层相应的卷积层,得到并输出所述第二特征图。
在本发明实施例中,所述第一上采样单元,包括:
第一合并子单元,用于按照预设比例对所述第二段中输入的通道进行合并,输出合并后的通道;
第一上采样子单元,用于在所述合并后的通道上将所述第一特征图输入所述第二段的上采样层,得到所述第一上采样结果。
在本发明实施例中,所述第二处理子模块,包括:
第一合并单元,用于将所述第一特征图中具有第一分辨率的特征与所述第二特征图中具有第一分辨率的特征进行合并,得到第二合并特征;
第二采样单元,用于将所述第二合并特征输入所述第二特征图中的特征相应的具有第二同分辨率的上采样层,得到第二上采样结果;
第二卷积单元,用于将所述第二上采样结果输入所述具有第二分辨率的上采样层相应的卷积层,得到并输出更新的第二特征图。
在本发明实施例中,所述第三处理子模块,包括:
第三卷积单元,用于将所述第一合并特征输入所述第三段的卷积层,得到第二卷积结果;
第二池化单元,用于将所述第二卷积结果输入所述卷积层相应的池化层,得到并输出所述第三特征图;
第一确定单元,用于将所述第三特征图确定为所述训练结果。
在本发明实施例中,所述第三处理子模块,包括:
第二合并单元,用于将所述更新的第二特征图中具有第一分辨率的特征与所述第三段的池化层输出的具有所述第一分辨率的特征进行合并;
第四卷积单元,用于将合并后的特征作为所述池化层对应的具有第二分辨率的卷积层的输入,得到第三卷积结果;
第三池化单元,用于将所述第三卷积结果输入所述具有第二分辨率的卷积层对应的池化层,得到并输出更新的第三特征图;
第二确定单元,用于将所述更新的第三特征图确定为所述训练结果。
需要说明的是,以上装置实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本发明装置实施例中未披露的技术细节,请参照本发明方法实施例的描述而理解。
需要说明的是,本发明实施例中,如果以软件功能模块的形式实现上述的图像处理方法,并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是终端、服务器等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本发明实施例不限制于任何特定的硬件和软件结合。
对应地,本发明实施例再提供一种计算机程序产品,所述计算机程序产品包括计算机可执行指令,该计算机可执行指令被执行后,能够实现本发明实施例提供的图像处理方法中的步骤。
相应的,本发明实施例再提供一种计算机存储介质,所述计算机存储介质上存储有计算机可执行指令,所述该计算机可执行指令被处理器执行时实现上述实施例提供的图像处理方法的步骤。
相应的,本发明实施例提供一种计算机设备,图7为本发明实施例计算机设备的组成结构示意图,如图7所示,所述设备700包括:一个处理器701、至少一个通信总线702、用户接口703、至少一个外部通信接口704和存储器705。其中,通信总线702配置为实现这些组件之间的连接通信。其中,用户接口703可以包括显示屏,外部通信接口704可以包括标准的有线接口和无线接口。其中所述处理器701,配置为执行存储器中图像处理程序,以实现上述实施例提供的图像处理方法的步骤。
以上即时计算机设备和存储介质实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本发明即时通讯设备和存储介质实施例中未披露的技术细节,请参照本发明方法实施例的描述而理解。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本发明的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种图像处理方法,其特征在于,所述方法包括:
获取待处理图像;
将所述待处理图像输入,经过训练得到的神经网络模型,得到所述待处理图像的处理结果,其中,所述神经网络模型是通过将所述神经网络的不同的段输出的具有第一分辨率的特征进行合并,将合并后的特征作为所述不同的段对应的具有第二分辨率的段的输入,进行训练得到的;所述不同的段中每一段均包含M个不同的分辨率,M为大于等于2的整数;
输出所述待处理图像的处理结果。
2.根据权利要求1所述的方法,其特征在于,所述神经网络包括依次连接且互不重叠的段集合,所述段集合包括第1段至N段,N为大于等于2的整数;所述不同的段为所述段集合中均具有所述第一分辨率且互不相同的段,所述具有第二分辨率的段为所述段集合中的具有所述第二分辨率的段。
3.根据权利要求2所述的方法,其特征在于,N=3,所述神经网络包括依次连接且互不重叠的第一段、第二段和第三段。
4.根据权利要求3所述的方法,其特征在于,所述段集合中每一段均至少包括两个不同的层;
对应地,所述神经网络模型是通过将所述段集合中所述不同的段内具有第一分辨率的最后一层输出的特征进行合并,将合并后的特征输入所述不同的段对应的段中具有第二分辨率的第一层,进行训练得到的。
5.根据权利要求3所述的方法,其特征在于,所述神经网络模型的训练过程,包括:
获取待处理的训练样本;
将所述训练样本输入所述神经网络的第一段,得到经过所述第一段处理后,输出的所述训练样本的第一特征图;
将所述第一特征图输入所述神经网络的第二段,得到经过所述第二段处理后输出的第二特征图;
将所述第一特征图中特征的分辨率与第二特征图中特征的分辨率相同的特征进行合并,得到第一合并特征;
将所述第一合并特征作为所述第三段的输入,得到经过所述第三段处理后输出的所述训练样本对应的训练结果;
根据所述训练结果完成对所述神经网络模型的训练。
6.根据权利要求5所述的方法,其特征在于,所述将所述训练样本输入所述神经网络的第一段,得到经过所述第一段处理后,输出的所述训练样本的第一特征图,包括:
将所述训练样本输入所述第一段的卷积层,得到所述训练样本对应的第一卷积结果;
将所述第一卷积结果输入所述第一段的卷积层相应的池化层,得到并输出所述训练样本的第一特征图。
7.根据权利要求5或6所述的方法,其特征在于,所述将所述第一特征图输入所述神经网络的第二段,得到经过所述第二段处理后输出的第二特征图,包括:
将所述第一特征图输入所述第二段的上采样层,得到第一上采样结果;
将所述第一上采样结果输入所述上采样层相应的卷积层,得到并输出所述第二特征图。
8.一种图像处理装置,其特征在于,所述装置包括:第一获取模块、第一处理模块和第一输出模块,其中:
所述第一获取模块,用于获取待处理图像;
所述第一处理模块,用于将所述待处理图像输入,经过训练得到的神经网络模型,得到所述待处理图像的处理结果,其中,所述神经网络模型是通过将所述神经网络的不同的段输出的具有第一分辨率的特征进行合并,将合并后的特征作为所述不同的段对应的具有第二分辨率的段的输入,进行训练得到的;其中,所述不同的段中每一段均包含M个不同的分辨率,M为大于等于2的整数;
所述第一输出模块,用于输出所述待处理图像的处理结果。
9.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机可执行指令,该计算机可执行指令被执行后,能够实现权利要求1至7任一项所述的方法步骤。
10.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器上存储有计算机可执行指令,所述处理器运行所述存储器上的计算机可执行指令时可实现权利要求1至7任一项所述的方法步骤。
CN201810753708.2A 2018-07-10 2018-07-10 一种图像处理方法及装置、计算机设备和存储介质 Active CN108921225B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810753708.2A CN108921225B (zh) 2018-07-10 2018-07-10 一种图像处理方法及装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810753708.2A CN108921225B (zh) 2018-07-10 2018-07-10 一种图像处理方法及装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN108921225A true CN108921225A (zh) 2018-11-30
CN108921225B CN108921225B (zh) 2022-06-24

Family

ID=64412023

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810753708.2A Active CN108921225B (zh) 2018-07-10 2018-07-10 一种图像处理方法及装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN108921225B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109711326A (zh) * 2018-12-25 2019-05-03 云南大学 一种基于浅层残差网络的视频目标检测方法
CN109766887A (zh) * 2019-01-16 2019-05-17 中国科学院光电技术研究所 一种基于级联沙漏神经网络的多目标检测方法
CN109784293A (zh) * 2019-01-24 2019-05-21 苏州科达科技股份有限公司 多类目标对象检测方法、装置、电子设备、存储介质
CN109859190A (zh) * 2019-01-31 2019-06-07 北京工业大学 一种基于深度学习的目标区域检测方法
CN109934095A (zh) * 2019-01-22 2019-06-25 中交信息技术国家工程实验室有限公司 一种基于深度学习的遥感图像水体提取方法及系统
CN110189293A (zh) * 2019-04-15 2019-08-30 广州锟元方青医疗科技有限公司 细胞图像处理方法、装置、存储介质及计算机设备
CN110210672A (zh) * 2019-06-04 2019-09-06 北京百度网讯科技有限公司 用电量预测的方法和装置、电子设备、计算机可读介质
CN110276316A (zh) * 2019-06-26 2019-09-24 电子科技大学 一种基于深度学习的人体关键点检测方法
CN110689551A (zh) * 2019-10-14 2020-01-14 慧影医疗科技(北京)有限公司 四肢骨分割方法、装置、电子设备及可读存储介质
CN110889453A (zh) * 2019-11-28 2020-03-17 华南理工大学 目标检测与追踪方法、装置、系统、介质和设备
CN111340750A (zh) * 2018-12-18 2020-06-26 詹宝珠 卷积神经网络分析方法与电子装置
CN111598876A (zh) * 2020-05-18 2020-08-28 北京小白世纪网络科技有限公司 甲状腺结节自动识别模型构建方法、系统及设备
CN111860276A (zh) * 2020-07-14 2020-10-30 咪咕文化科技有限公司 人体关键点检测方法、装置、网络设备及存储介质
CN114612456A (zh) * 2022-03-21 2022-06-10 北京科技大学 一种基于深度学习的钢坯自动语义分割识别方法
CN114782406A (zh) * 2022-05-21 2022-07-22 上海贝特威自动化科技有限公司 一种基于resnext50深度分割网络的汽车涂胶视觉检测方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106951875A (zh) * 2017-03-24 2017-07-14 深圳市唯特视科技有限公司 一种基于二进制卷积的人体姿态估计和人脸对齐的方法
CN107392254A (zh) * 2017-07-28 2017-11-24 深圳市唯特视科技有限公司 一种通过联合嵌入从像素中构造图像的语义分割方法
US9984325B1 (en) * 2017-10-04 2018-05-29 StradVision, Inc. Learning method and learning device for improving performance of CNN by using feature upsampling networks, and testing method and testing device using the same
CN108205803A (zh) * 2017-07-19 2018-06-26 北京市商汤科技开发有限公司 图像处理方法、神经网络模型的训练方法及装置
CN108229497A (zh) * 2017-07-28 2018-06-29 北京市商汤科技开发有限公司 图像处理方法、装置、存储介质、计算机程序和电子设备
CN108230235A (zh) * 2017-07-28 2018-06-29 北京市商汤科技开发有限公司 一种视差图生成系统、方法及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106951875A (zh) * 2017-03-24 2017-07-14 深圳市唯特视科技有限公司 一种基于二进制卷积的人体姿态估计和人脸对齐的方法
CN108205803A (zh) * 2017-07-19 2018-06-26 北京市商汤科技开发有限公司 图像处理方法、神经网络模型的训练方法及装置
CN107392254A (zh) * 2017-07-28 2017-11-24 深圳市唯特视科技有限公司 一种通过联合嵌入从像素中构造图像的语义分割方法
CN108229497A (zh) * 2017-07-28 2018-06-29 北京市商汤科技开发有限公司 图像处理方法、装置、存储介质、计算机程序和电子设备
CN108230235A (zh) * 2017-07-28 2018-06-29 北京市商汤科技开发有限公司 一种视差图生成系统、方法及存储介质
US9984325B1 (en) * 2017-10-04 2018-05-29 StradVision, Inc. Learning method and learning device for improving performance of CNN by using feature upsampling networks, and testing method and testing device using the same

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ALEJANDRO NEWELL(B), KAIYU YANG, AND JIA DENG: "Stacked Hourglass Networks for Human Pose Estimation", 《COMPUTER VISION - ECCV 2016》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111340750A (zh) * 2018-12-18 2020-06-26 詹宝珠 卷积神经网络分析方法与电子装置
CN111340750B (zh) * 2018-12-18 2023-08-08 詹宝珠 卷积神经网络分析方法与电子装置
CN109711326A (zh) * 2018-12-25 2019-05-03 云南大学 一种基于浅层残差网络的视频目标检测方法
CN109766887A (zh) * 2019-01-16 2019-05-17 中国科学院光电技术研究所 一种基于级联沙漏神经网络的多目标检测方法
CN109766887B (zh) * 2019-01-16 2022-11-11 中国科学院光电技术研究所 一种基于级联沙漏神经网络的多目标检测方法
CN109934095A (zh) * 2019-01-22 2019-06-25 中交信息技术国家工程实验室有限公司 一种基于深度学习的遥感图像水体提取方法及系统
CN109784293A (zh) * 2019-01-24 2019-05-21 苏州科达科技股份有限公司 多类目标对象检测方法、装置、电子设备、存储介质
CN109859190A (zh) * 2019-01-31 2019-06-07 北京工业大学 一种基于深度学习的目标区域检测方法
CN110189293A (zh) * 2019-04-15 2019-08-30 广州锟元方青医疗科技有限公司 细胞图像处理方法、装置、存储介质及计算机设备
CN110210672A (zh) * 2019-06-04 2019-09-06 北京百度网讯科技有限公司 用电量预测的方法和装置、电子设备、计算机可读介质
CN110276316B (zh) * 2019-06-26 2022-05-24 电子科技大学 一种基于深度学习的人体关键点检测方法
CN110276316A (zh) * 2019-06-26 2019-09-24 电子科技大学 一种基于深度学习的人体关键点检测方法
CN110689551A (zh) * 2019-10-14 2020-01-14 慧影医疗科技(北京)有限公司 四肢骨分割方法、装置、电子设备及可读存储介质
CN110689551B (zh) * 2019-10-14 2020-07-17 慧影医疗科技(北京)有限公司 四肢骨分割方法、装置、电子设备及可读存储介质
CN110889453A (zh) * 2019-11-28 2020-03-17 华南理工大学 目标检测与追踪方法、装置、系统、介质和设备
CN111598876A (zh) * 2020-05-18 2020-08-28 北京小白世纪网络科技有限公司 甲状腺结节自动识别模型构建方法、系统及设备
CN111860276A (zh) * 2020-07-14 2020-10-30 咪咕文化科技有限公司 人体关键点检测方法、装置、网络设备及存储介质
CN111860276B (zh) * 2020-07-14 2023-04-11 咪咕文化科技有限公司 人体关键点检测方法、装置、网络设备及存储介质
CN114612456A (zh) * 2022-03-21 2022-06-10 北京科技大学 一种基于深度学习的钢坯自动语义分割识别方法
CN114782406A (zh) * 2022-05-21 2022-07-22 上海贝特威自动化科技有限公司 一种基于resnext50深度分割网络的汽车涂胶视觉检测方法

Also Published As

Publication number Publication date
CN108921225B (zh) 2022-06-24

Similar Documents

Publication Publication Date Title
CN108921225A (zh) 一种图像处理方法及装置、计算机设备和存储介质
US11537873B2 (en) Processing method and system for convolutional neural network, and storage medium
US20210248355A1 (en) Face key point detection method and apparatus, storage medium, and electronic device
CN105069825B (zh) 基于深度置信网络的图像超分辨率重建方法
CN109635883A (zh) 基于深度堆叠网络的结构信息指导的中文字库生成方法
CN110378338A (zh) 一种文本识别方法、装置、电子设备和存储介质
CN111858954A (zh) 面向任务的文本生成图像网络模型
CN110188239A (zh) 一种基于跨模态注意力机制的双流视频分类方法和装置
CN105678292A (zh) 基于卷积及递归神经网络的复杂光学文字序列识别系统
US11887217B2 (en) Text editing of digital images
CN110378348A (zh) 视频实例分割方法、设备及计算机可读存储介质
CN109325589A (zh) 卷积计算方法及装置
CN108550132B (zh) 一种图像协同显著目标检测方法
CN110136067B (zh) 一种针对超分辨率b超影像的实时影像生成方法
CN109902809A (zh) 一种利用生成对抗网络辅助语义分割模型
CN110008961A (zh) 文字实时识别方法、装置、计算机设备及存储介质
CN109658330A (zh) 一种发色调整方法及装置
CN107506792A (zh) 一种半监督的显著对象检测方法
CN109816659A (zh) 图像分割方法、装置及系统
CN109255382A (zh) 用于图片匹配定位的神经网络系统,方法及装置
He et al. Localized text-to-image generation for free via cross attention control
CN115222581A (zh) 图像生成方法、模型训练方法、相关装置及电子设备
Ma et al. Relative-position embedding based spatially and temporally decoupled Transformer for action recognition
CN101650824A (zh) 基于共形能量的内容敏感图像缩放方法
JP7195220B2 (ja) 学習装置、学習装置の作動方法、および学習装置の作動プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant