CN112580660B - 图像处理方法、装置、计算机设备和可读存储介质 - Google Patents

图像处理方法、装置、计算机设备和可读存储介质 Download PDF

Info

Publication number
CN112580660B
CN112580660B CN202011286685.2A CN202011286685A CN112580660B CN 112580660 B CN112580660 B CN 112580660B CN 202011286685 A CN202011286685 A CN 202011286685A CN 112580660 B CN112580660 B CN 112580660B
Authority
CN
China
Prior art keywords
neural network
convolutional neural
image
layer
convolutional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011286685.2A
Other languages
English (en)
Other versions
CN112580660A (zh
Inventor
于丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Wingtech Information Technology Co Ltd
Original Assignee
Shanghai Wingtech Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Wingtech Information Technology Co Ltd filed Critical Shanghai Wingtech Information Technology Co Ltd
Priority to CN202011286685.2A priority Critical patent/CN112580660B/zh
Publication of CN112580660A publication Critical patent/CN112580660A/zh
Application granted granted Critical
Publication of CN112580660B publication Critical patent/CN112580660B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及图像处理技术领域,提供了一种图像处理方法、装置、计算机设备和可读存储介质。所述方法包括:获取待检测目标的图像;将所述图像输入至卷积神经网络模型,以获取多个图像特征;将所述多个图像特征输入至金字塔池化层,得到尺寸相同的多个目标图像特征;将所述多个目标图像特征输入至全连接层,以获取目标图像。采用本方法能够利用卷积神经网络模型获取多个图像特征,进而利用图像特征获取目标图像,实现对待检测目标进行图像检测的目的。

Description

图像处理方法、装置、计算机设备和可读存储介质
技术领域
本申请涉及图像处理技术领域,特别是涉及一种图像处理方法、装置、计算机设备和可读存储介质。
背景技术
卷积神经网络是一类包含卷积计算且具有深度结构的前馈神经网络,是深度学习的代表算法之一。卷积神经网络具有表征学习能力,能够按其阶层结构对输入信息进行平移不变分类,因此,也被成为“平移不变人工神经网络”。
相关技术中,通常利用卷积神经网络进行图像检测来对工业产品进行质量检测,但是,相关技术中的卷积神经网络通常无法达到工业化应用的需求,因此需要改进。
发明内容
基于此,有必要针对上述技术问题,提供一种能够利用卷积神经网络模型实现对待检测目标进行图像检测的目的,提高检测速度的图像处理方法、装置、计算机设备和计算机可读存储介质。
本申请实施例提供了一种图像处理方法,所述方法包括:获取待检测目标的图像;将所述图像输入至卷积神经网络模型,以获取多个图像特征;将所述多个图像特征输入至金字塔池化层,得到尺寸相同的多个目标图像特征;将所述多个目标图像特征输入至全连接层,以获取目标图像。
在一个实施例中,所述卷积神经网络模型包括一个或多个依次相连的卷积神经网络单元;所述将所述图像输入至卷积神经网络模型,以获取多个图像特征,包括:获取图像信息数据;通过所述卷积神经网络子单元对所述图像信息数据进行特征提取,以获取所述多个图像特征;其中,在第一卷积神经网络单元中,所述图像信息数据为所述待检测目标的图像,在第i卷积神经网络单元中,所述图像信息数据为前一卷积神经网络单元获取到的所述多个图像特征,i为大于1的正整数。
在一个实施例中,每个所述卷积神经网络单元包括至少两个并联的卷积神经网络子单元,所述通过所述卷积神经网络单元对所述图像信息数据进行特征提取,以获取多个图像特征,包括:将所述图像信息数据分别输入至所述至少两个并联的卷积神经网络子单元,以获取每个所述卷积神经网络子单元输出的第一特征数据;将每个所述卷积神经网络子单元输出的第一特征数据与输入至当前所述卷积神经网络单元的所述图像信息数据进行数据融合,以获取当前所述卷积神经网络单元输出的所述多个图像特征。
在一个实施例中,所述卷积神经网络子单元包括至少两条并联的深度可分卷积支路,每条所述深度可分卷积支路串联有不同数量的可分卷积层,所述方法还包括:将所述图像信息数据分别输入至每个所述卷积神经网络子单元的每条所述深度可分卷积支路,得到多个第三特征数据;将属于同一所述卷积神经网络子单元的所述多个第三特征数据进行数据融合,以获取当前卷积神经网络子单元输出的第一特征数据。
在一个实施例中,每个所述卷积神经网络子单元还包括中间层结构,所述方法还包括:将每个所述卷积神经网络子单元输出的第一特征数据输入至所述中间层,得到第二特征数据;将所述第一特征数据和所述第二特征数据进行数据融合,得到更新后的所述第一特征数据。
在一个实施例中,所述中间层包括池化层、自定义层和第一激活层,所述自定义层包括卷积层、归一化层和第二激活层中的至少一个。
在一个实施例中,所述将每个所述卷积神经网络子单元输出的第一特征数据与输入至当前所述卷积神经网络单元的所述图像信息数据进行数据融合,以获取当前所述卷积神经网络单元输出的所述多个图像特征,包括:获取数据融合得到的多个中间图像特征;将所述多个中间图像特征输入拼接层,得到拼接后的全局图像特征;将所述全局图像特征输入至卷积层,通过所述卷积层对所述全局图像特征进行降维处理,得到与输入当前所述卷积神经网络单元的所述图像信息数据维度相同的所述多个图像特征。
本申请实施例提供了一种图像处理装置,所述装置包括:获取模块,用于获取待检测目标的原始图像;卷积神经网络模块,用于将所述图像输入至卷积神经网络模型;池化模块,用于将所述多个图像特征输入至金字塔池化层,得到尺寸相同的多个目标图像特征;拼接模块,用于将所述多个目标图像特征输入至全连接层,以获取所述图像的分类检测结果。
本申请实施例提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现本申请任意实施例所提供的图像处理方法的步骤。
本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本申请任意实施例所提供的图像处理方法的步骤。
本申请实施例所提供的图像处理方法、装置、计算机设备和计算机可读存储介质,能够利用卷积神经网络模型获取多个图像特征,然后利用金字塔池化层对多个图像特征进行池化操作,得到多个尺寸相同的目标图像特征,利用全连接层将多个尺寸相同的目标图像特征进行拼接,得到目标图像。从而实现对待检测目标的图像的处理,通过卷积神经网络模型有效提高对待检测目标的图像的处理速度和效果,通过金字塔池化层进一步提高图像处理过程的鲁棒性。
附图说明
图1为一个实施例中图像处理方法的应用场景图;
图2为一个实施例中图像处理方法的流程示意图;
图3为一个实施例中步骤102的流程示意图;
图4为另一个实施例中图像处理方法的流程示意图;
图5为另一个实施例中图像处理方法的流程示意图;
图6为又一个实施例中图像处理方法的流程示意图;
图7为再一个实施例中图像处理方法的流程示意图;
图8为一个实现本申请图像处理方法的模型结构示意图;
图9为一个实施例中图像处理装置的结构框图;
图10为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的图像处理方法,可以应用于如图1所示的应用环境中。该图像处理方法应用于图像处理系统中。该图像处理系统可包括图像采集装置1和终端2。其中,图像采集装置1与终端2通过网络进行通信。图像采集装置1用于拍摄待检测目标的图像,然后通过网络通信将待检测目标的图像发送至终端2,终端2获取待检测目标的图像后,利用卷积神经网络模型、金字塔池化层和全连接层依次对待检测目标的图像进行处理,以获得目标图像。其中,终端2也可为服务器终端,具体可根据计算机算力进行实际部署,本申请在此不做具体限定。
在一个实施例中,如图2所示,提供了一种图像处理方法,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例中,该方法包括以下步骤:
步骤101,获取待检测目标的图像。
需要说明的是,待检测目标可为工业化生产的产品,例如移动终端的摄像头。随着科技的发展,人们更加注重产品的质量,在生产完成或在生产过程中的每一环节结束,均可对当前生产的产品进行检测,以尽早将不良产品和/或瑕疵产品进行剔除,避免流入市场,影响用户体验。
举例来说,当前移动终端上通常设置有至少一个摄像头,在制作摄像头时,需要通过胶水将滤色片胶在镜头上,有时镜筒上胶水过多超出了预设范围,将会影响到摄像头本身的成像,破坏了光学系统。因此,在对镜筒进行胶装后,需要对镜头进行检测,来确定胶装后的镜头是否为良品,即,将生产的用于移动终端的摄像头作为待检测目标,然后通过图像采集装置对摄像头进行拍照,得到待检测目标的图像。
可选的,可在当前生产线的末端设置图像采集装置,以在该生产流水线结束时能够及时采集到待检测目标的图像,从而有效提高图像采集效率,避免漏检。应当理解的是,图像采集装置可将采集到的待检测目标的图像发送至用于对待检测目标的图像进行图像处理的终端中,也就是说,终端可通过与图像采集装置的通信实现获取待检测目标的图像的步骤。
步骤102,将图像输入至卷积神经网络模型,以获取多个图像特征。
需要说明的是,卷积神经网络模型能够利用其中的卷积结构对图像进行特征提取,其中,特征提取可根据卷积神经网络模型训练时的提取规则和类型对图像中的信息有针对性的进行提取。
步骤103,将多个图像特征输入至金字塔池化层,得到尺寸相同的目标图像特征。
需要说明的是,金字塔池化层(Spatial Pyramid Pooling Layer,SPP_layer)能够产生固定大小的维度输出,而不关心输入图像的尺寸或比例,对物体形变具有较好的鲁棒性,能够避免因图片缩放造成的形变对网络准确度的影响。也就是说,通过金字塔池化层能够将利用卷积神经网络模型获取到的多个图像特征拼接成固定长度的目标图像特征,在便于后接的全连接层对目标图像拼接的同时提高图像特征数据的鲁棒性。
步骤104,将多个目标图像特征输入至全连接层,以获取目标图像。
需要说明的是,全连接层能够将金字塔池化层得到的目标图像特征进行拼接,以得到通过卷积神经网络模型提取的全部图像特征,以便于在目标检测时对全连接层得到的图像特征进行识别,并根据识别结果进行分类,达到目标检测的目的。
具体而言,可利用设置于生产线末端的图像采集装置拍摄采集待检测目标的图像,然后将采集到的待检测目标的图像发送至执行本申请提出的图像处理方法的终端中,终端通过与图像采集装置的通信获取待检测目标的图像,然后将待检测目标的图像输入至卷积神经网络模型中,以利用卷积神经网络模型对待检测目标的图像进行特征提取,得到多个图像特征,然后将多个图像特征输入至金字塔池化层,以利用金字塔池化层的池化作用将多个图像特征转化为尺寸相同的目标图像特征,再将多个目标图像特征输入至全连接层,以通过全连接层将多个尺寸相同的目标图像特征进行拼接,得到目标图像。其中,终端还可进一步根据目标图像进行目标检测,例如从目标图像中提取异常特征信息来确定待检测产品是否具有异常、瑕疵等。
由此,本申请实施例提出一种图像处理方法,利用卷积神经网络模型获取多个图像特征,然后利用金字塔池化层对多个图像特征进行池化操作,得到多个尺寸相同的目标图像特征,利用全连接层将多个尺寸相同的目标图像特征进行拼接,得到目标图像。从而实现对待检测目标的图像的处理,通过卷积神经网络模型有效提高对待检测目标的图像的处理速度和效果,通过金字塔池化层进一步提高图像处理过程的鲁棒性。
进一步地,本申请提出的卷积神经网络模型、金字塔池化层和全连接层能够组成卷积深度学习模型,在使用本方法前,可利用训练样本集对卷积深度学习模型进行训练,并将训练好的卷积深度学习模型存储在终端设备中,以在获取到待检测目标的图像后利用卷积深度学习模型进行图像处理。其中,制作训练样本集的过程包括:采集样本目标清晰的样本图片,将样本图片中的待检测区域标出并打好标签,即,进行标注,存为xml文件。其中,在人工打标签时,可根据深度模型的训练需求针对不同的特征进行标注,例如,不同方向、不同频率的纹理特征等。由于工业级项目中样本采集较为困难,样本量严重不足,需要进行一定扩充,因此,还可对标注好的样本进行镜像、对比度调整、锐化、图像增强等图像处理方法来扩充样本数量,从而获得更优质的训练样本集。
需要说明的是,本申请涉及的卷积神经网络模型包括N个卷积神经网络单元,N为正整数,当N大于1时,第一卷积神经网络单元至第N卷积神经网络单元依次连接。
还需要说明的是,本申请提出的卷积神经网络模型能够通过依次连接(串联连接)的多个卷积神经网络单元有效增加网络深度,从而得到更细致、深层的图像特征,进而提高卷积神经网络模型表达特征的能力,以适应复杂的检测任务。
作为一个可行实施例,如图3所示,步骤102,将图像输入至卷积神经网络模型,以获取多个图像特征,可包括:
步骤201,获取图像信息数据。
其中,在第一卷积神经网络单元中,图像信息数据为待检测目标的图像,在第i卷积神经网络单元中,图像信息数据为前一卷积神经网络单元获取到的多个图像特征,i为大于1且小于等于N的正整数。
步骤202,通过卷积神经网络子单元对图像信息数据进行特征提取,以获取多个图像特征。
也就是说,由于卷积神经网络模型中串联有N个卷积神经网络单元,在待检测目标的图像输入至卷积神经网络中时,可直接输入至第一卷积神经网络单元,经过第一卷积神经网络单元的提取生成中间图像特征,然后将第一卷积神经网络单元提取得到的中间图像特征输入至与第一卷积神经网络单元相连的第二卷积神经网络单元,以此类推,直至第N卷积神经网络单元。
进一步地,本申请涉及的卷积神经网络模型中每个卷积神经网络单元包括至少两个并联的卷积神经网络子单元,以通过每个卷积神经网络单元中并联的卷积神经网络子单元,让每一层(每个卷积神经网络单元)能够提取到更加丰富的特征,比如不同方向、不同频率的纹理特征等。
其中,卷积神经网络模型中卷积神经网络单元的个数和每个卷积神经网络单元中卷积神经网络子单元的个数可根据工业应用场景中服务器和/或终端的算力和精度需求进行配置,本申请在此不做限定。
作为一个可行实施例,如图4和图8所示,步骤102,通过卷积神经网络子单元对图像信息数据进行特征提取,以获取多个图像特征,可包括:
步骤301,将图像信息数据分别输入至至少两个并联的卷积神经网络子单元,以获取每个卷积神经网络子单元输出的第一特征数据。
步骤302,将每个卷积神经网络子单元输出的第一特征数据与输入至当前卷积神经网络单元的图像信息数据进行数据融合,以获取当前卷积神经网络单元输出的多个图像特征。
也就是说,在一个卷积神经网络单元中,可同时通过并联的两个卷积神经网络子单元进行图像特征提取,以获得每个卷积神经网络子单元输出的第一特征数据,此时,能够通过多个卷积神经网络子单元得到丰富的特征数据,有效提升卷积神经网络模型的性能;同时,本申请还通过将每个卷积神经网络子单元输出的第一特征数据与输入至当前卷积神经网络单元的图像信息数据进行融合,从而充分利用了前一卷积神经网络单元(或待检测目标的图像)的特征,提高了特征利用率,降低了一个卷积神经网络单元的宽度,即,一个卷积神经网络单元中卷积神经网络子单元的个数。
进一步地,卷积神经网络子单元包括至少两条并联的深度可分卷积支路,每条深度可分卷积支路串联有不同数量的可分卷积层。
也就是说,每条深度可分卷积支路串联有一定数量的深度可分卷积核,每条深度可分卷积支路上串联的深度可分卷积核的数量不同。
举例来说,如图8所示,卷积神经网络子单元中包含两个输入支路,其中一个输入支路中串联有两个深度可分卷积核,另一个输入支路中有一个深度可分卷积核。
由此,本申请能够通过具有不同数量的深度可分卷积支路进一步丰富提取到的特征,达到增加卷积神经网络宽度的效果,从而提高卷积神经网络模型的准确度。
具体地,如图5所示,对于每个卷积神经网络子单元,还包括:
步骤401,将图像信息数据分别输入至每个卷积神经网络子单元的每条深度可分卷积支路,得到多个第三特征数据。
步骤402,将属于同一卷积神经网络子单元的多个第三特征数据进行数据融合,以获取当前卷积神经网络子单元输出的第一特征数据。
其中,深度可分卷积(Depthwise Separable Convolution)是由深度卷积(depthwise convolution)和逐点卷积(pointwise convolution)组合而成,该结构和常规卷积操作类似,可用来提取特征,但相比于常规卷积操作,其参数量和运算成本较低。
其中,深度卷积可由3*3深度卷积核、归一化层和第二激活层组成,逐点卷积可由1*1逐点卷积核、归一化层和第二激活层组成。
由此,本申请利用深度可分卷积替代传统卷积神经网络,能够在不影响准确率的基础上,有效降低参数量提高运算速度,降低成本。
更进一步地,每个卷积神经网络子单元还包括中间层结构,如图6所示,还包括:
步骤501,将每个卷积神经网络子单元输出的第一特征数据输入至中间层,得到第二特征数据。
步骤502,将第一特征数据和第二特征数据进行数据融合,得到更新后的第一特征数据。
需要说明的是,中间层可包括池化层、自定义层和第一激活层,其中,自定义层包括卷积层、归一化层和第二激活层中的至少一个。
其中,池化层可采用全局池化GlobalPooling。
其中,归一化层能够模仿生物神经系统的侧抑制机制,对局部神经元的活动创建竞争机制,使得响应比较大的值相对更大,能够提高卷积神经网络模型的泛化能力。
其中,中间层具有的第二激活层和自定义层的第一激活层使用的激活函数可不同,在本申请实施例中,中间层的激活层使用的激活函数可为sofmax函数,而自定义层使用的激活函数的激活层可为线性整流函数(Rectified Linear Unit,ReLU)。
也就是说,本申请在利用深度可分卷积获取到第一特征数据后,将第一特征数据划分为两部分,一部分继续经过中间层的处理生成第二特征数据,另一部分无需经过中间层的处理,然后将第一特征数据和第二特征数据进行特征合并,获取到当前卷积神经网络子单元的中间图像特征。应当理解的是,对第一特征数据的划分可为将第一特征数据平分为两部分,也可两部分均包含全部的第一特征数据。
由此,本申请通过将第一特征数据和第二特征数据进行合并,可使得卷积神经网络子单元能够充分利用第一特征数据和第二特征数据,从而提高卷积神经网络子单元对图像特征的利用率。
其中,数据特征合并可为对特征向量的加操作,也可为本领域技术人员能够使用的其他操作,在此不做限定。
应当理解的是,本申请通过对卷积神经网络子单元不同层的输出结果进行特征合并,能够有效提高特征数据的利用率,从而可有效减少并联的卷积神经网络子单元的个数,降低卷积神经网络的模型的宽度,进而降低对终端和/或服务器的算力要求。
作为一个可行实施例,如图7所示,在利用并联的卷积神经网络子单元对图像信息数据进行特征提取,以获取中间图像特征之后,还包括:
步骤601,获取数据融合得到的多个中间图像特征。
步骤602,将多个中间图像特征输入至拼接层,得到拼接后的全局图像特征。
步骤603,将全局图像特征输入至卷积层,通过卷积层对全局图像特征进行降维处理,得到与输入当前卷积神经网络单元的图像信息数据维度相同的多个图像特征。
也就是说,在一个卷积神经网络单元中并联的多个卷积神经网络子单元分别获取到中间图像特征后,可利用拼接层对得到的多个中间图像特征进行拼接,以生成拼接后的全局图像特征,然后通过1*1卷积核对全局图像特征进行降维,有效减少下一卷积神经网络单元的计算量。
具体地,如图8所示,卷积神经网络模型20包括两个卷积神经网络单元,第一卷积神经网络单元21和第二卷积神经网络单元22,每个卷积神经网络单元包括两个卷积神经网络子单元,以第一卷积神经网络单元21为例包括卷积神经网络子单元211和卷积神经网络子单元212,每个卷积神经网络子单元的结构相同,即,具有两条深度可分卷积支路,一条深度可分卷积支路具有一个深度可分卷积,另一条深度可分卷积支路具有两个深度可分卷积,自定义层包括3*3卷积核、归一化层和第一激活层中的至少一个。第一卷积神经网络单元21之后和第二卷积神经网络单元22之后均设置有拼接层和1*1卷积核,第二卷积神经网络单元22之后还包括自定义层,然后设置有金字塔池化层和全连接层。
应当理解的是,对于卷积神经网络模型而言,串联的卷积神经网络单元越多,所使用的参数量越大,对终端和/或服务器的算力要求越高,因此,通过1*1卷积核对前层得到的中间图像特征进行降维,能够进一步降低当前层的计算量,提高卷积神经网络模型整体的运算速度。
综上所述,本申请实施例提出的图像处理方法,利用卷积神经网络模型获取多个图像特征,然后利用金字塔池化层对多个图像特征进行池化操作,得到多个尺寸相同的目标图像特征,利用全连接层将多个尺寸相同的目标图像特征进行拼接,得到目标图像。从而实现对待检测目标的图像的处理,通过卷积神经网络模型有效提高对待检测目标的图像的处理速度和效果,通过金字塔池化层进一步提高图像处理过程的鲁棒性。应该理解的是,虽然图2-8的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1-7中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
为了实现上述目的,本申请提出一种图像处理装置。
在一个实施例中,如图9所示,提供了一种图像处理装置10,包括:获取模块11、卷积神经网络模块12、池化模块13和全连接模块14,其中:
获取模块11,用于获取待检测目标的原始图像。
卷积神经网络模块12,用于将图像输入至卷积神经网络模型,以获取多个图像特征。
池化模块13,用于将多个图像特征输入至金字塔池化层,得到尺寸相同的多个目标图像特征。
拼接模块14,用于将多个目标图像特征输入至全连接层,以获取目标图像。
在一些实施例中,卷积神经网络模型包括一个或多个依次相连的卷积神经网络单元;卷积神经网络模块12,还用于:获取图像信息数据;通过卷积神经网络单元对图像信息数据进行特征提取,以获取多个图像特征;其中,在第一卷积神经网络单元中,图像信息数据为待检测目标的图像,在第i卷积神经网络单元中,图像信息数据为前一卷积神经网络单元获取到的多个图像特征,i为大于1的正整数。
在一些实施例中,每个卷积神经网络单元包括至少两个并联的卷积神经网络子单元,卷积神经网络模块12,还用于:将图像信息数据分别输入至至少两个并联的卷积神经网络子单元,以获取每个卷积神经网络子单元输出的第一特征数据;将每个卷积神经网络子单元输出的第一特征数据与输入至当前卷积神经网络单元的图像信息数据进行数据融合,以获取当前卷积神经网络单元输出的多个图像特征。
在一些实施例中,卷积神经网络子单元包括至少两条并联的深度可分卷积支路,每条深度可分卷积支路串联有不同数量的可分卷积层,卷积神经网络模块12,还用于:将图像信息数据分别输入至每个卷积神经网络子单元的每条深度可分卷积支路,得到多个第三特征数据;将属于同一卷积神经网络子单元的多个第三特征数据进行数据融合,以获取当前卷积神经网络子单元输出的第一特征数据。
在一些实施例中,每个卷积神经网络子单元还包括中间层结构,卷积神经网络模块12,还用于:将每个卷积神经网络子单元输出的第一特征数据输入至中间层,得到第二特征数据;将第一特征数据和第二特征数据进行数据融合,得到更新后的第一特征数据。
在一些实施例中,中间层包括池化层、自定义层和第一激活层,自定义层包括卷积层、归一化层和第二激活层中的至少一个。
在一些实施例中,卷积神经网络模块12,还用于:获取数据融合得到的多个中间图像特征;将多个中间图像特征输入拼接层,得到拼接后的全局图像特征;将全局图像特征输入至卷积层,通过卷积层对全局图像特征进行降维处理,得到与输入当前卷积神经网络单元的图像信息数据维度相同的多个图像特征。
综上所述,本申请实施例提出的图像处理方法,利用卷积神经网络模型获取多个图像特征,然后利用金字塔池化层对多个图像特征进行池化操作,得到多个尺寸相同的目标图像特征,利用全连接层将多个尺寸相同的目标图像特征进行拼接,得到目标图像。从而实现对待检测目标的图像的处理,通过卷积神经网络模型有效提高对待检测目标的图像的处理速度和效果,通过金字塔池化层进一步提高图像处理过程的鲁棒性。关于图像处理装置的具体限定可以参见上文中对于图像处理方法的限定,在此不再赘述。上述图像处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、近场通信(NFC)或其他技术实现。该计算机程序被处理器执行时以实现一种图像处理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的图像处理装置可以实现为一种计算机程序的形式,计算机程序可在如图10所示的计算机设备上运行。计算机设备的存储器中可存储组成该图像处理装置的各个程序模块,比如,图9所示的获取模块11、卷积神经网络模块12、池化模块13和拼接模块14。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的图像处理方法中的步骤。
例如,图10所示的计算机设备可以通过如图9所示的图像处理装置中的获取模块11获取待检测目标的原始图像。计算机设备可通过卷积神经网络模块12将所述图像输入至卷积神经网络模型,以获取多个图像特征,其中,所述卷积神经网络模型包括N个卷积神经网络单元,N为正整数,当N大于1时,第一卷积神经网络单元至第N卷积神经网络单元依次连接,每个所述卷积神经网络单元包括至少两个并联的卷积神经网络子单元。计算机设备可通过池化模块13将多个所述图像特征输入至金字塔池化层,以获取尺寸相同的目标图像特征。计算机设备可通过拼接模块将所述目标图像特征输入至全连接层,以获取所述图像的分类检测结果。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,比如静态随机存取存储器(Static Random Access Memory,SRAM)和动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (8)

1.一种图像处理方法,所述方法包括:
获取待检测目标的图像;
将所述图像输入至卷积神经网络模型,以获取多个图像特征,其中,所述卷积神经网络模型包括一个或多个依次相连的卷积神经网络单元,每个所述卷积神经网络单元包括至少两个并联的卷积神经网络子单元,所述卷积神经网络子单元包括至少两条并联的深度可分卷积支路,每条所述深度可分卷积支路串联有不同数量的可分卷积层,每个所述卷积神经网络子单元还包括中间层结构,所述中间层包括池化层、自定义层和第一激活层,所述自定义层包括卷积层、归一化层和第二激活层中的至少一个,将每个所述卷积神经网络子单元输出的第一特征数据输入至所述中间层,得到第二特征数据,将所述第一特征数据和所述第二特征数据进行数据融合,得到更新后的所述第一特征数据;
将所述多个图像特征输入至金字塔池化层,得到尺寸相同的多个目标图像特征;
将所述多个目标图像特征输入至全连接层,以获取目标图像。
2.根据权利要求1所述的图像处理方法,其特征在于,所述卷积神经网络模型包括一个或多个依次相连的卷积神经网络单元;所述将所述图像输入至卷积神经网络模型,以获取多个图像特征,包括:
获取图像信息数据;
通过所述卷积神经网络单元对所述图像信息数据进行特征提取,以获取所述多个图像特征;
其中,在第一卷积神经网络单元中,所述图像信息数据为所述待检测目标的图像,在第i卷积神经网络单元中,所述图像信息数据为前一卷积神经网络单元获取到的所述多个图像特征,i为大于1的正整数。
3.根据权利要求2所述的图像处理方法,其特征在于,每个所述卷积神经网络单元包括至少两个并联的卷积神经网络子单元,所述通过所述卷积神经网络单元对所述图像信息数据进行特征提取,以获取多个图像特征,包括:
将所述图像信息数据分别输入至所述至少两个并联的卷积神经网络子单元,以获取每个所述卷积神经网络子单元输出的第一特征数据;
将每个所述卷积神经网络子单元输出的第一特征数据与输入至当前所述卷积神经网络单元的所述图像信息数据进行数据融合,以获取当前所述卷积神经网络单元输出的所述多个图像特征。
4.根据权利要求3所述的图像处理方法,其特征在于,所述卷积神经网络子单元包括至少两条并联的深度可分卷积支路,每条所述深度可分卷积支路串联有不同数量的可分卷积层,所述方法还包括:
将所述图像信息数据分别输入至每个所述卷积神经网络子单元的每条所述深度可分卷积支路,得到多个第三特征数据;
将属于同一所述卷积神经网络子单元的所述多个第三特征数据进行数据融合,以获取当前卷积神经网络子单元输出的第一特征数据。
5.根据权利要求3所述的图像处理方法,其特征在于,所述将每个所述卷积神经网络子单元输出的第一特征数据与输入至当前所述卷积神经网络单元的所述图像信息数据进行数据融合,以获取当前所述卷积神经网络单元输出的所述多个图像特征,包括:
获取数据融合得到的多个中间图像特征;
将所述多个中间图像特征输入拼接层,得到拼接后的全局图像特征;
将所述全局图像特征输入至卷积层,通过所述卷积层对所述全局图像特征进行降维处理,得到与输入当前所述卷积神经网络单元的所述图像信息数据维度相同的所述多个图像特征。
6.一种图像处理装置,其特征在于,所述装置包括:
获取模块,用于获取待检测目标的原始图像;
卷积神经网络模块,用于将所述图像输入至卷积神经网络模型,其中,所述卷积神经网络模型包括一个或多个依次相连的卷积神经网络单元,每个所述卷积神经网络单元包括至少两个并联的卷积神经网络子单元,所述卷积神经网络子单元包括至少两条并联的深度可分卷积支路,每条所述深度可分卷积支路串联有不同数量的可分卷积层,每个所述卷积神经网络子单元还包括中间层结构,所述中间层包括池化层、自定义层和第一激活层,所述自定义层包括卷积层、归一化层和第二激活层中的至少一个,将每个所述卷积神经网络子单元输出的第一特征数据输入至所述中间层,得到第二特征数据,将所述第一特征数据和所述第二特征数据进行数据融合,得到更新后的所述第一特征数据;
池化模块,用于将多个图像特征输入至金字塔池化层,得到尺寸相同的多个目标图像特征;
拼接模块,用于将所述多个目标图像特征输入至全连接层,以获取所述图像的分类检测结果。
7.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述的图像处理方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的图像处理方法的步骤。
CN202011286685.2A 2020-11-17 2020-11-17 图像处理方法、装置、计算机设备和可读存储介质 Active CN112580660B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011286685.2A CN112580660B (zh) 2020-11-17 2020-11-17 图像处理方法、装置、计算机设备和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011286685.2A CN112580660B (zh) 2020-11-17 2020-11-17 图像处理方法、装置、计算机设备和可读存储介质

Publications (2)

Publication Number Publication Date
CN112580660A CN112580660A (zh) 2021-03-30
CN112580660B true CN112580660B (zh) 2023-03-24

Family

ID=75122732

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011286685.2A Active CN112580660B (zh) 2020-11-17 2020-11-17 图像处理方法、装置、计算机设备和可读存储介质

Country Status (1)

Country Link
CN (1) CN112580660B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113095211B (zh) * 2021-04-08 2023-08-25 第六镜科技(成都)有限公司 一种图像处理方法、系统及电子设备
CN113538516B (zh) * 2021-07-19 2024-04-16 中国兵器工业计算机应用技术研究所 基于记忆信息的目标对象跟踪方法、装置及电子设备
CN114004731B (zh) * 2021-09-30 2023-11-07 苏州浪潮智能科技有限公司 一种基于卷积神经网络的图像处理方法、装置及相关设备
CN113869292B (zh) * 2021-12-02 2022-03-01 智道网联科技(北京)有限公司 用于自动驾驶的目标检测方法、装置及设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109828251A (zh) * 2019-03-07 2019-05-31 中国人民解放军海军航空大学 基于特征金字塔轻量卷积神经网络的雷达目标识别方法
CN110136136A (zh) * 2019-05-27 2019-08-16 北京达佳互联信息技术有限公司 场景分割方法、装置、计算机设备及存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902693A (zh) * 2019-02-16 2019-06-18 太原理工大学 一种基于多注意力空间金字塔特征图像识别方法
CN110263644B (zh) * 2019-05-21 2021-08-10 华南师范大学 基于三胞胎网络的遥感图像分类方法、系统、设备及介质
CN110245664A (zh) * 2019-06-26 2019-09-17 深兰科技(上海)有限公司 车牌识别方法
CN110533631B (zh) * 2019-07-15 2023-07-04 西安电子科技大学 基于金字塔池化孪生网络的sar图像变化检测方法
CN110569905B (zh) * 2019-09-10 2023-04-14 中电鸿信信息科技有限公司 基于生成对抗网络和注意力网络的细粒度图像分类方法
CN110930320B (zh) * 2019-11-06 2022-08-16 南京邮电大学 一种基于轻量化卷积神经网络的图像去雾方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109828251A (zh) * 2019-03-07 2019-05-31 中国人民解放军海军航空大学 基于特征金字塔轻量卷积神经网络的雷达目标识别方法
CN110136136A (zh) * 2019-05-27 2019-08-16 北京达佳互联信息技术有限公司 场景分割方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN112580660A (zh) 2021-03-30

Similar Documents

Publication Publication Date Title
CN112580660B (zh) 图像处理方法、装置、计算机设备和可读存储介质
CN109543627B (zh) 一种判断驾驶行为类别的方法、装置、及计算机设备
CN110941986B (zh) 活体检测模型的训练方法、装置、计算机设备和存储介质
Zhang et al. Ensnet: Ensconce text in the wild
WO2020228446A1 (zh) 模型训练方法、装置、终端及存储介质
CN111754396B (zh) 脸部图像处理方法、装置、计算机设备和存储介质
CN109948733B (zh) 消化道内窥镜图像的多分类方法、分类装置及存储介质
WO2019200735A1 (zh) 牲畜特征向量的提取方法、装置、计算机设备和存储介质
CN110555481A (zh) 一种人像风格识别方法、装置和计算机可读存储介质
CN110287836B (zh) 图像分类方法、装置、计算机设备和存储介质
CN111368672A (zh) 一种用于遗传病面部识别模型的构建方法及装置
CN112418195B (zh) 一种人脸关键点检测方法、装置、电子设备及存储介质
CN110059666B (zh) 一种注意力检测方法及装置
CN113869282B (zh) 人脸识别方法、超分模型训练方法及相关设备
CN111160096A (zh) 禽蛋异常的识别方法、装置及系统、存储介质、电子装置
CN114092678A (zh) 图像处理方法、装置、电子设备及存储介质
CN113034514A (zh) 天空区域分割方法、装置、计算机设备和存储介质
CN109977875A (zh) 基于深度学习的手势识别方法及设备
CN111507288A (zh) 图像检测方法、装置、计算机设备和存储介质
CN114078127B (zh) 物件的缺陷检测及计数方法、装置、设备和存储介质
CN111931679A (zh) 动作识别方法、装置、设备及存储介质
CN114519863A (zh) 人体重识别方法、人体重识别装置、计算机设备及介质
CN115115552B (zh) 图像矫正模型训练及图像矫正方法、装置和计算机设备
CN110781739B (zh) 提取行人特征的方法、装置、计算机设备和存储介质
CN113256556A (zh) 一种图像选择方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant