CN113516148A - 基于人工智能的图像处理方法、装置、设备及存储介质 - Google Patents

基于人工智能的图像处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113516148A
CN113516148A CN202011574403.9A CN202011574403A CN113516148A CN 113516148 A CN113516148 A CN 113516148A CN 202011574403 A CN202011574403 A CN 202011574403A CN 113516148 A CN113516148 A CN 113516148A
Authority
CN
China
Prior art keywords
feature
image
convolutional neural
classified
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011574403.9A
Other languages
English (en)
Inventor
杨天舒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202011574403.9A priority Critical patent/CN113516148A/zh
Publication of CN113516148A publication Critical patent/CN113516148A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例提供了一种基于人工智能的图像处理方法、装置、设备及存储介质,涉及人工智能技术领域。其中,该方法包括:获取待分类图像;基于多个卷积神经网络对所述待分类图像进行特征提取,得到多个特征图;对所述多个特征图中的每个所述特征图分别进行池化处理,得到多个特征向量,所述多个特征向量中每个特征向量的维度由每个所述特征向量对应的卷积神经网络的通道数确定;对所述多个特征向量进行融合处理,得到融合后的特征向量,所述融合后的特征向量的维度由所述多个特征图的通道数之和确定;根据所述融合后的特征向量对所述待分类图像进行分类处理,得到对所述待分类图像的分类结果。采用本申请,可以提升对图像分类的准确度。

Description

基于人工智能的图像处理方法、装置、设备及存储介质
技术领域
本申请涉及人工智能技术领域,尤其涉及一种基于人工智能的图像处理方法、装置、设备及存储介质。
背景技术
随着越来越多图像的产生,为了方便对这些图像的管理,会对这些图像进行分类。通常来说,会选择由卷积层、池化层、全连接层构建的卷积神经网络模型等模型来实现图像分类。发明人发现,这种图像分类方式往往需要在对图像执行尺寸调整或图像截取等预处理操作后,才能通过所述的卷积神经网络模型分类。然而,这种丢失部分图像信息或改变图像本身的性质来进行图像分类的方式,降低了图像分类准确度。
发明内容
本申请实施例提供了一种基于人工智能的图像处理方法、装置、设备及存储介质,可以提升图像分类的准确度。
第一方面,本申请实施例提供了一种基于人工智能的图像处理方法,包括:
获取待分类图像;
基于多个卷积神经网络对所述待分类图像进行特征提取,得到多个特征图;
对所述多个特征图中的每个所述特征图分别进行池化处理,得到多个特征向量,所述多个特征向量中每个特征向量的维度由每个所述特征向量对应的卷积神经网络的通道数确定;
对所述多个特征向量进行融合处理,得到融合后的特征向量,所述融合后的特征向量的维度由所述多个特征图的通道数之和确定;
根据所述融合后的特征向量对所述待分类图像进行分类处理,得到对所述待分类图像的分类结果。
第二方面,本申请实施例提供了一种基于人工智能的图像处理装置,包括:
获取模块,用于获取待分类图像;
处理模块,用于基于多个卷积神经网络对所述待分类图像进行特征提取,得到多个特征图,并对所述多个特征图中的每个所述特征图分别进行池化处理,得到多个特征向量,所述多个特征向量中每个特征向量的维度由每个所述特征向量对应的卷积神经网络的通道数确定;
所述处理模块,还用于对所述多个特征向量进行融合处理,得到融合后的特征向量,并根据所述融合后的特征向量对所述待分类图像进行分类处理,得到对所述待分类图像的分类结果,所述融合后的特征向量的维度由所述多个特征图的通道数之和确定。
第三方面,本申请实施例提供了一种计算机设备,包括处理器和存储器;其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如第一方面所述的方法。
第四方面,本申请实施例提供了一种计算机存储介质,所述计算机存储介质中存储有程序指令,所述程序指令被执行时,用于实现如第一方面所述的方法。
综上所述,计算机设备可基于多个卷积神经网络对待分类图像进行特征提取,得到多个特征图,并对多个特征图中的每个特征图分别进行池化处理,得到多个特征向量,多个特征向量中每个特征向量的维度由每个特征向量对应的卷积神经网络的通道数确定;计算机设备对多个特征向量进行融合处理,得到融合后的特征向量,融合后的特征向量的维度由多个特征图的通道数之和确定;计算机设备根据融合后的特征向量对待分类图像进行分类处理,得到对待分类图像的分类结果,相较于现有技术需将图像进行裁剪或尺寸调整后再输入到模型进行分类识别的方法,本申请实施例基于多个卷积神经网络得到多个特征图后,对特征图进行池化处理,可得到维度由各卷积神经网络的通道数确定的特征向量,与待分类图像本身的尺寸大小无关,因此根据融合后的特征向量进行分类时,不受待分类图像本身尺寸的影响,故本申请实施例采用的图像处理方法无需对图像进行裁剪或尺寸调整等预处理操作便能实现图像分类,因此,相较于现有技术因执行这些预处理操作,导致图像信息丢失或图像本身的性质变化,进而导致图像分类准确度较低,本申请能够提升图像分类的准确度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本申请实施例提供的一种图像变形的示意图;
图1b是本申请实施例提供的一种图像位移的示意图;
图1c是本申请实施例提供的一种变形位移分类模型的结构示意图;
图1d是本申请实施例提供的一种压缩和激励单元的结构示意图;
图1e是本申请实施例基于图1c提供的另一种变形位移分类模型的结构示意图;
图2是本申请实施例提供的一种基于人工智能的图像处理方法的流程示意图;
图3是本申请实施例提供的另一种基于人工智能的图像处理方法的流程示意图;
图4是本申请实施例提供的一种图像压字的示意图;
图5是本申请实施例提供的一种基于人工智能的图像处理装置的结构示意图;
图6是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
本申请提供了一种基于人工智能的图像处理方案,该图像处理方案可具体涉及计算机视觉技术中图像处理技术。在本申请中,该图像处理方案具体为:基于多个卷积神经网络对待分类图像进行特征提取,得到多个特征图,并对多个特征图中的每个特征图分别进行池化处理,得到多个特征向量,多个特征向量中每个特征向量的维度由每个特征向量对应的卷积神经网络的通道数确定;对多个特征向量进行融合处理,得到融合后的特征向量,融合后的特征向量的维度由多个特征图的通道数之和确定,并根据融合后的特征向量对待分类图像进行分类处理,得到对待分类图像的分类结果。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
计算机视觉技术(Computer Vision,CV)是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、基于人工智能的图像处理、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。本申请实施例所述的图像处理方案可具体涉及图像处理技术中的图像分类技术。
本申请实施例提及的图像处理方案可运用在计算机设备中,该计算机设备可以是终端,也可以是服务器,或者也可以是用于图像分类确定的其他设备,本申请不做限定。可选的,此处的终端可以包括但不限于:智能手机、平板电脑、膝上计算机以及台式电脑等等。在一个应用场景中,该计算机设备可设置于后台系统,如短视频平台等需要进行图像处理的后台系统中。该图像处理方案用于图像分类,具体可用于判断图像是否失真,如判断图像是否变形移位等。例如,对于短视频平台的后台系统,用户在上传短视频至该后台系统过程中,一般会选取一张图像作为短视频的封面图。在这个过程中,用户一般会对图像进行二次创作。用户在将图像上传到后台系统后,后台系统会审核并存储用户上传的封面图。后台系统审核用户上传的图像的过程中可以执行前述提及的图像处理方案,以获得图像的变形位移信息,以作为后台信息存储或进一步判断是否拒绝处理图像或进一步判断是否拒绝上传短视频。其中,拒绝处理图像或拒绝上传短视频可以是在确定图像不满足平台审核要求时执行的。例如,该平台审核要求可以为图像正常,如图像无变形位移。其中,所述的后台系统可以实现图像信息,如变形位移信息等信息的录入,以及图像等数据的发布等功能。在上述过程中,后台系统应用前述提及的图像处理方案,能够高效地判断图像是否存在变形位移,过程中无需人工干预,为后台系统录入图像信息提供了便利,节约了人力成本。
其中,后台系统获取图像的变形位移信息的过程主要考虑两个问题,一方面,图像是否由于二次创作导致图像变形,如导致图像主体,如图像人物或图像背景在观感上存在明显拉伸变形;另一方面,图像是否由于二次创作导致图像截断,如导致图像主体,如图像人物或图像背景截断。例如,对于人物图像,若过度拉伸图像人物的身体,则会导致图像人物的身体出现明显拉伸变形,参见图1a。再如,对于人物图像,若过度对图像人物进行移位,则会导致人物图像仅剩头部照或半身照,参见图1b。
其中,对图像的变形位移判断(即判断是否变形位移)主要通过人脸检测(人体检测)评价图像是否存在变形位移。由于人一般是图像中的主体,该方法一般通过搭建卷积神经网络模型,将人脸图像或者人体图像裁出,并将裁出的图像放入搭建的卷积神经模型中训练,从而利用训练后的卷积神经网络模型判断人体或人脸是否存在变形位移,以实现判断图像是否存在变形位移的过程。这种方式对真实的业务场景中的适应度较低。这是因为在真实的业务场景中,图像主体不一定为人物,并且即使为人物,有可能也会出现过度拉伸导致裁出的图像变形位移,进而导致无法检测到人脸或人体,故很难判断图像是否变形位移。并且,该方式会丢失图像的边界信息,影响模型的正常判断,对图像变形位移判断的准确度较低。
此外,对图像的变形位移的判断还可以直接使用卷积神经网络判断图像是否存在变形位移,这种方法一般通过搭建resnet或googlenet等常用的卷积神经网络模型,将已经标注好的图像数据放入模型中训练,最终用训练好的模型判断图像是否存在变形位移。然而,这种方法会一般需要固定尺寸的图像作为模型输入,获取固定尺寸的图像的方法一般为根据图像中心剪裁出固定尺寸的图像,或直接对图像进行大小调整。由此可见,该方式没有考虑到任务的特殊性,会干预图像本身的性质,进而导致模型的判断结果与实际结果有较大偏差,对图像变形位移判断的准确度较低。并且,裁剪出固定尺寸的图像也会丢失边界信息。
根据上述描述的内容可知,在变形位移判断等分类场景中由于一些深度学习模型只能处理剪裁出的人脸图像或人体图像,当分类的图像主体并非为人脸或人体时,这种分类方法对这些业务场景中的适应度较低,较难实现对这种业务场景下的图像进行分类。并且由于一些深度学习模型只能接收固定尺寸的图像作为模型输入,即便图像本身没问题,但对不符合尺寸要求的图像执行调整大小resize等操作后,图像虽然变为适应于这类深度学习模型能够接收的固定尺寸的图像,但是这种操作干预了图像本身的性质,这种分类方法会导致模型的判断结果与实际结果出现较大偏差。可见,前述提及的方式对图像变形位移判断的准确度都较低。
而,本申请所描述的图像处理方案可以对任一尺寸的原图进行特征提取,池化处理、特征融合等,实现对原图的分类。该图像处理方案能够结合不同业务场景的需求给出更适用于不同业务场景的图像分类方法,比如可以对人,可以对物等对象进行识别。并且,在该图像处理方案中,图像在进入模型之前无需进行裁剪、改变图像尺寸等预处理过程,能够最大程度的保留原图中的信息,然后在此基础上进行分类,提升了图像分类的准确度。
在一个实施例中,本申请实施例所描述的图像处理方案中的部分操作或全部操作可由分类模型执行。例如,分类模型可以根据融合后的特征向量对待分类图像进行分类处理,得到对待分类图像的分类结果。再如,分类模型可以接收任一尺寸的原图作为模型输入,并经由目标层、全连接层等网络层处理,得到对图像的分类结果。在这个过程中,分类模型可以模拟感官对图像打出分类标签,如在对图像进行变形位移分类时,可以模拟感官打出正常,变形,位移三个类别的标签。和一般方法相比,本申请实施例所述的图像处理方案可以将原图直接作为模型输入,并进一步利用模型进行分类处理,如判断图像是否存在变形位移。其中,所述的目标层可以包括压缩和激励单元,或还可以在此基础上包括降采样层。在一个实施例中,本申请实施例所指的卷积神经网络可以为压缩和激励单元包括的卷积神经网络。下面以目标层包括压缩和激励单元以及降采样层来阐述本申请实施例提及的分类模型的结构。
在一个实施例中,本申请实施例提及的分类模型可以包括多个目标层、多个第一池化层、第一全连接层。其中,目标层由压缩和激励单元senet_block以及降采样Down_sampling层构成。在一个实施例中,senet_block还可以写为SENet block或se_block。其中,se的英文全称为squeeze-and-excitation,中文释义为压缩和激励。senet和SENet,对应的英文全称为squeeze-and-excitation networks,中文释义为压缩和激励网络。其中,压缩和激励单元还可以称为挤压和激励单元。Down_sampling还可以写为down_sampling或down sampling。其中,多个目标层可以顺序连接,每个目标层后可以连接一个第一池化层。多个第一池化层可以共同连接着一个第一全连接层。
参见图1c,图1c所示的分类模型包括了4个目标层、4个第一池化层、一个第一全连接层FC_1。这4个目标层包括目标层1、目标层2、目标层3和目标层4。目标层1中的压缩和激励单元与目标层1中的降采样层连接。目标层1中的降采样层与目标层2中的压缩和激励单元连接,目标层2中的压缩和激励单元与目标层2中的降采样层连接。目标层2中的降采样层与目标层3中的压缩和激励单元连接,目标层3中的压缩和激励单元与目标层3中的降采样层连接。目标层3中的降采样层与目标层4中的压缩和激励单元连接,目标层4中的压缩和激励单元与目标层4中的降采样层连接。每个目标层后接着一个第一池化层,这4个第一池化层共同连接着一个FC_1。
其中,本申请实施例提及的压缩和激励单元,用于对输入该目标层的特征图进行压缩和激励处理等处理,即执行SE操作等操作。在一个实施例中,压缩和激励单元的卷积层可以为包括大小为5*5,3*3和1*1的卷积核中的至少一种的卷积层,该卷积层即为本申请实施例提及的卷积神经网络。压缩和激励单元的结构可以参见图1d。如图1d,Ftr是卷积过程,X和U(图未示)分别是Ftr对应的输入(C1xHxW)和输出(C2xHxW)。对U先做全局平均池化处理(图中的Fsq(.),即表示压缩Squeeze过程),输出的1x1xC2数据再经过两级全连接层处理(图中的Fex(.),即表示激励Excitation过程),最后用分类sigmoid函数获得在[0,1]之间的权重,把这个值乘到U的C2个通道的特征上,得到
Figure BDA0002861199180000071
(C2xHxW)。这种结构可以让提取的特征指向性更强。
其中,本申请实施例提及的降采样层,用于对输入该降采样层的特征图进行降采样处理。在一个实施例中,降采样层可以是步长为2的卷积层或池化层。降采样层的主要目的是为了降维,提升模型的鲁棒性。
其中,本申请实施例提及的第一池化层,用于对输入该第一池化层的特征图进行池化处理,即执行池化操作。
其中,本申请实施例提及的第一全连接层,用于根据输入的特征向量进行分类处理。
在一个实施例中,该分类模型的结构还可以包括卷积层、第二池化层、特征丢弃层与第二全连接层。第二池化层分别与卷积层以及各目标层中排在第一位的目标层连接。特征丢弃层分别与第一全连接层以及第二全连接层连接。
参见图1e,相较于图1c,图1e还包括卷积层、第二池化层、特征丢弃层与第二全连接层FC_2。第二池化层分别与卷积层以及目标层1连接。特征丢弃层分别与FC_1以及FC_2连接。
其中,本申请实施例提及的卷积层,用于对输入的图像进行卷积处理,即执行卷积操作。
其中,本申请实施例提及的第二池化层,用于对输入的特征图进行池化处理,即执行池化操作。
其中,本申请实施例提及的特征丢弃层,用于对输入的特征向量计算得到输出的特征向量。本申请实施例提及的特征丢弃层即为dropout层。dropout层在模型训练阶段使用可以防止模型过拟合。dropout层在模型训练阶段可以让某些神经元以一定概率停止工作。
其中,本申请实施例提及的第二全连接层,用于根据输入的特征向量进行分类处理。
下面以图1e为例,简要阐述对利用分类模型对待分类图像进行分类处理的过程。参见图1e,图像在进入分类模型后,首先经过卷积层和第二池化层处理。然后,将第二池化层的输出作为目标层1的输入,经过目标层1计算得到特征图。一方面,可将目标层1计算得到的特征图作为下一个压缩和激励单元的输入。另一方面,可对目标层1计算得到的特征图进行池化处理,如自适应池化处理,这个过程可通过与目标层1的降采样层连接的第一池化层实现。例如,目标层1计算得到的特征图的维数是(w_1,h_1,c_1),c_1是分类模型在第一个压缩和激励单元(目标层1包括的压缩和激励单元)的卷积层中设定的通道数(这个通道数即为该卷积层包括的卷积核的数量),该通道数是固定的,不会因为输入的特征图的不同而变化。虽然w_1和h_1不同,但经过第一个压缩和激励单元的卷积层和第一个降采样层(目标层1包括的降采样层)后,再通过自适应池化处理后,可得到维数固定为(c_1,1)的特征向量,即得到第一特征向量。若第二个压缩和激励单元的卷积层设定的通道数、第三个压缩和激励单元中的卷积层设定的通道数、第四个压缩和激励单元中的卷积层设定的通道数,分别为c_2,c_3,c_4,则目标层1后面的各目标层计算得到的各特征图的维数依次为(w_2,h_2,c_2),(w_3,h_3,c_3)和(w_4,h_4,c_4)。由于输入分类模型的图像的尺寸一般不固定,所以w_2,h_2,w_3,h_3,w_4,h_4一般也不固定,但各压缩和激励单元的卷积层设定的通道数是固定的,所以c_2,c_3,c_4固定。在对目标层1后面的各目标层计算得到的特征图进行池化处理后,可以得到维数固定为(c_2,1),(c_3,1)和(c_4,1)的特征向量。接着可以对上述得到的4个特征向量进行融合处理,得到的维数为(c_1+c_2+c_3+c_4,1)的特征向量,该特征向量即为融合后的特征向量,此时特征向量的维数固定。该融合后的特征向量在经过Fc_1和Fc_2后便可得到对待分类图像的分类结果。或,该融合后的特征向量在经过Fc_1和特征丢弃层后,再经过Fc_2便可得到对待分类图像的分类结果。
本申请实施例通过不同的目标层可以得到不同大小的特征图,基于卷积神经网络的特性,通过每一个目标层学到的特征图具有局部不变性,最终将使模型学习到与分类相关的稳定的图像特征和有意义的语义特征,接着将这些特征图转化为特征向量后进行融合,最后经过全连接层给出对图像的分类结果以及置信度。例如,本申请实施例提及的分类结果可以包括正常、变形、位移。
在一个实施例中,本申请实施例提及的分类模型可以利用多个第一样本图像对初始的网络模型训练得到。其中,初始的网络模型的结构为图1c所示的结构或图1e所示的结构,在此不做赘述。具体地,本申请实施例提及的分类模型可以利用多个第一样本图像以及每个第一样本图像对应的标注数据对初始的网络模型训练得到。每个第一样本图像对应的标注数据为该第一样本图像的分类标签,如为指示该第一样本图像是否变形位移的标签。本申请实施例基于图像本身的性质以及实际的业务需求,可以对各个类别,如正常、变形、位移三个类别分别制定量化标准,从而得到第一样本图像的分类标签,以实现对第一样本图像的标注。
在一个实施例中,由于网络模型的输入是任意尺寸的图像,对于这样的网络模型,如果训练时batch_size等于1,就会影响训练速度以及训练精度。其中,batch_size表示一次训练时选取的第一样本图像的数量。故本申请在训练初始的网络模型前,计算机设备可以根据多个第一样本图像中每个样本图像的尺寸对多个第一样本图像进行聚类,得到多类第一样本图像;计算机设备将多类第一样本图像之后每类第一样本图像的尺寸调整为该类第一样本图像的类中心的尺寸,得到每类第一样本图像对应的训练集,并利用每类第一样本图像对应的训练集对初始的网络模型进行训练,得到分类模型。在上述聚类过程中,计算机设备可以将尺寸相似的第一样本图像归为一类。之后,服务器可以将每一类统一调整成同一尺寸。在一个实施例中,计算机设备可以限制每类第一样本图像中各第一样本图像的长宽总和的差值小于某个阈值。本申请实施例中,在固定尺寸size并确定batch_size后,可以将相同size的第一样本图像组成为一个训练集batch,以对初始的网络模型进行训练,这样训练batch_size不等于1,既提升了训练速度,也提升了训练精度。
在一个实施例中,在训练初始的网络模型的过程中,可以将交叉熵函数作为该初始的网络模型的损失函数loss,并采用反向传播算法对该初始的网络模型的参数进行更新,从而得到训练后的网络模型作为分类模型。
基于前述提及基于人工智能的图像处理方案,本申请实施例还提供了一种图像识别方法,参见图2。该方法可以应用于前述提及的计算机设备。具体地,该方法可以包括:
S201、获取待分类图像。
S202、基于多个卷积神经网络对所述待分类图像进行特征提取,得到多个特征图。
本申请实施例所述的特征提取可以是通过对应的特征提取算法实现的。或,本申请实施例所述的卷积神经网络可以为压缩和激励单元的卷积神经网络,本申请所述的特征提取还可以是通过该压缩和激励单元实现的。所述压缩和激励单元用于基于所述卷积神经网络对输入特征进行特征提取,该输入特征包括该多个特征图中的各特征图和该待分类图像中的至少一个。对应的,在采用压缩和激励单元进行特征提取时,特征提取可以包括压缩和激励处理。在一个实施例中,该压缩和激励单元,可以为前述提及的分类模型中的压缩和激励单元。
在一个实施例中,计算机设备可以在基于多个卷积神经网络对所述待分类图像进行特征提取,得到多个特征图之前,对该待分类图像进行卷积处理,得到卷积处理后的特征图。相应地,计算机设备基于多个卷积神经网络对所述待分类图像进行特征提取可以为计算机设备基于多个卷积神经网络对卷积处理后的特征图进行特征提取。在一个实施例中,计算机设备可以在基于多个卷积神经网络对所述待分类图像进行特征提取,得到多个特征图之前,利用卷积层对该待分类图像进行卷积处理,得到卷积处理后的特征图。在一个实施例中,此处卷积层可以为分类模型中位于第一个卷积神经网络之前的卷积层,例如,参见图1c,此处的卷积层可以为分类模型中位于第一个压缩和激励单元(目标层1包括的压缩和激励单元)之前的卷积层。
在一个实施例中,计算机设备在基于多个卷积神经网络对所述待分类图像进行特征提取,得到多个特征图之前,还可以对该待分类图像进行卷积处理,得到卷积处理后的特征图,并对该卷积处理后的特征图进行池化处理,得到池化处理后的特征图。相应地,计算机设备基于多个卷积神经网络对所述待分类图像进行特征提取可以为计算机设备基于多个卷积神经网络对池化处理后的特征图进行特征提取。卷积、池化处理可以提取待分类图像的特征,并对特征进行降维处理,不仅可以减少后续处理过程的计算量,还可以使得分类过程更加关注全局特征而非局部特征。在一个实施例中,计算机设备对该卷积处理后的特征图进行池化处理,得到池化处理后的特征图的过程可以为:计算机设备利用池化层对该卷积处理后的特征图进行池化处理,得到池化处理后的特征图。在一个实施例中,此处的池化层可以为前述提及的分类模型的第二池化层,参见图1c的第二池化层。
在一个实施例中,各个卷积神经网络可以依次连接,假设多个卷积神经网络的数量为N个,其中,N为大于1的正整数;计算机设备基于多个卷积神经网络对该待分类图像进行特征提取,得到多个特征图的过程可以如下:计算机设备基于第一个卷积神经网络,对该待分类图像进行特征提取,得到第一个特征图,并将该第一个特征图作为第二个卷积神经网络的输入;…基于第N个卷积神经网络,对第N-1个卷积神经网络输出的第N-1个特征图进行特征提取,得到第N个特征图,该多个特征图包括该N个卷积神经网络输出的N个特征图。所指的第一个卷积神经网络即为排在第一位的卷积神经网络,所指的第N个卷积神经网络即为排在第N位的卷积神经网络。
例如,在N为4时,计算机设备基于第一个卷积神经网络,对待分类图像进行特征提取,得到第一个特征图,并将第一个特征图作为第二个卷积神经网络的输入,基于第二个卷积神经网络,对第一个特征图进行特征提取,得到第二个特征图。计算机设备将第二个特征图作为第三个卷积神经网络的输入,基于第三个卷积神经网络,对第二个特征图进行特征提取,得到第三个特征图。计算机设备将第三个特征图作为第四个卷积神经网络的输入,基于第四个卷积神经网络,对第三个特征图进行特征提取,得到第四个特征图,至此,计算机设备便得到了4个特征图。
在一个实施例中,各个卷积神经网络可以依次连接,假设多个卷积神经网络为N个,其中,N为正整数,N为大于1的正整数;及算你就设备基于多个卷积神经网络对该待分类图像进行特征提取,得到多个特征图的方式具体为:计算机设备基于第一个卷积神经网络,对该待分类图像进行特征提取,得到第一个特征图,并对该第一个特征图进行降采样处理,得到降采样处理后的第一个特征图,并将该降采样处理后的第一个特征图作为该第二个卷积神经网络的输入;…计算机设备基于第N个卷积神经网络,对降采样处理后的第N-1个特征图进行特征提取,得到第N个特征图,并对该第N个特征图进行降采样处理,得到降采样处理后的第N个特征图;获取降采样处理后的N个特征图作为该多个特征图。
例如,在N为4时,计算机设备基于第一个卷积神经网络,对待分类图像进行特征提取,得到第一个特征图,并对第一个特征图进行降采样处理,得到降采样处理后的第一个特征图以作为第二个卷积神经网络的输入。计算机设备基于第二个卷积神经网络,对降采样处理后的第一个特征图进行特征提取,得到第二个特征图。计算机设备对第二个特征图进行降采样处理,得到降采样处理后的第二个特征图以作为第三个卷积神经网络的输入。计算机设备基于第三个卷积神经网络,对降维处理后的第二个特征图进行特征提取,得到第三个特征图。计算机设备对第三特征图进行降维处理,并讲降维处理的第三特征图以作为第四个卷积神经网络的输入,基于第四个卷积神经网络,对降维处理的第三个特征图进行特征提取,得到第四个特征图,并对第四个特征图进行降维处理,得到降维处理后的第四个特征图,至此,计算机设备便可以讲降维处理后的4个特征图,确定为最终得到的4个特征图。
在一个实施例中,相邻的两个卷积神经网络之间连接有降采样层。相应地,计算机设备可以利用第一个降采样层对该第一个特征图进行降采样处理,得到降采样处理后的第一个特征图。计算机设备还可以利用第N个降采样层对第N个特征图进行降采样处理,得到降采样处理后的第N个特征图。在一个实施例中,所述的降维层可以为前述提及的分类模型的降维层。在一个实施例中,计算机设备基于第一个卷积神经网络,对所述待分类图像进行特征提取,得到第一个特征图的过程可以为计算机设备基于第一个卷积神经网络,对卷积处理后的特征图进行特征提取,得到第一个特征图,或可以位计算机设备基于第一个卷积神经网络,对池化处理后的特征图进行特征提取,得到第一个特征图。
S203、对所述多个特征图中的每个所述特征图分别进行池化处理,得到多个特征向量,所述多个特征向量中每个特征向量的维度由每个所述特征向量对应的卷积神经网络的通道数确定。
一般来讲全连接层只能对固定维度的特征向量进行处理,因此现有技术包括卷积层、池化层、全连接层的卷积神经网络模型只能对固定尺寸的图像进行处理,而本方案的分类模型可以接收尺寸不固定的任一图像,并通过一系列处理使第一全连接层能够获得固定维度的向量,从而实现图像分类的过程,
本申请实施例中,计算机设备对所述多个特征图中的每个特征图分别进行池化处理的方式可以为如下:计算机设备可以利用池化函数对多个特征图中的每个所述特征图分别进行池化处理,得到多个特征向量。本申请实施例得到的多个特征向量的维数与对应的特征图的尺寸无关,仅与对应的特征图的维数中的通道数有关。
在一个实施例中,计算机设备对所述多个特征图中的每个特征分别进行池化处理的方式还可以如下:计算机设备将多个特征图中的每个特征图分别输入一池化层,并利用多个池化层对输入该池化层的特征图进行池化处理,得到多个特征向量。在一个实施例中,此处的池化层可以为分类模型中的第一池化层,可以参见图1c的第一池化层。
在一个实施例中,多个卷积神经网络中每一个卷积神经网络可以连接一个池化层,或每一个降维层可以连接一个池化层。在一个实施例中,在卷积神经网络为压缩和激励单元包括的卷积神经网络的情况下,每一个压缩和激励单元可以连接一个池化层。计算机设备可以将多个特征图输入对应的池化层,并利用该池化层对输入该池化层的特征图进行池化处理,得到多个特征向量,此处的多个特征向量可以包括每个池化层输出的特征向量。
以图1c为例,计算机设备可以将目标层1计算得到的特征图(即降维处理后的第一个特征图)输入目标层1对应的第一池化层,得到第一个特征向量。将目标层2计算得到的特征图(即降维处理后的第二个特征图)输入目标层2对应的第一池化层,得到第二个特征向量。计算机设备还可以将目标层3计算得到的特征图(即降维处理后的第三个特征图)输入目标层3对应的第一池化层,得到第三个特征向量。将目标层4计算得到的特征图(即降维处理后的第四个特征图)输入目标层4对应的第一池化层,得到第四个特征向量。至此,计算机设备可以得到各个第一池化层输出的得到多个特征向量,此处可以得到4个特征向量。
在一个实施例中,步骤S203的池化处理可以包括自适应池化处理。用于对特征向量进行池化处理的池化层,如第一池化层可以为自适应池化Adaptive Pool层。相应地,对特征向量进行池化处理,可以是对特征向量进行自适应池化处理。该自适应池化处理可以为自适应平均池化处理或自适应最大池化处理。通过自适应池化层进行池化处理,相较于其它的池化层,自适应池化层进行池化处理,使得对特征图的处理效率更高,并且能够提升对待分类图像的分类准确率。该自适应池化层在此处为自适应降采样层,该层可以将通道数相同的任何尺度的特征图转化成相同维度的特征向量,这可以让分类模型将任意尺度的待分类图像作为模型输入。通过上述过程对特征图进行自适应降采样后,可以得到维数是(k,1)的特征向量(k与通道数有关)。
以图1c为例,假设目标层1获得的特征图的维数为(w_1,h_1,c_1),于是通过自适应池化层对特征图进行池化处理得到的特征向量的维数为(c_1,1),该特征向量是一个c_1×1维的列向量。假设目标层2获得的特征图的维数为(w_2,h_2,c_2),于是通过自适应池化层对特征图进行池化处理得到的特征向量的维数为(c_2,1),该特征向量是一个c_2×1维的列向量。假设目标层3获得的特征图的维数为(w_3,h_3,c_3),于是通过自适应池化层对特征图进行池化处理得到的特征向量的维数为(c_3,1),该特征向量是一个c_3×1维的列向量。假设目标层4获得的特征图的维数为(w_4,h_4,c_4),于是通过自适应池化层对特征图进行池化处理得到的特征向量的维数为(c_4,1),该特征向量是一个c_4×1维的列向量。其中,上述的w表示特征图的宽,h表示特征图的高,c表示特征图的通道数。
S204、对所述多个特征向量进行融合处理,得到融合后的特征向量,所述融合后的特征向量的维度由所述多个特征图的通道数之和确定。
S205、根据所述融合后的特征向量进行分类处理,得到对待分类图像的变形位移分类结果。
本申请实施例中,计算机设备对多个特征向量进行融合处理,得到融合后的特征向量,并根据所述融合后的特征向量进行分类处理,得到对待分类图像的分类结果,该融合后的特征向量的维度由所述多个特征图的通道数之和确定。
在一个实施例中,计算机设备根据对多个特征变量进行融合处理,得到融合后的特征向量的方式可以如下:计算机设备按照多个特征向量中每个特征向量的目标维度,对多个特征向量拼接处理,得到融合后的特征向量。该拼接处理的过程可为合并concat处理的过程。以图1c为例,多个特征向量包括维数分别为(c_1,1)、(c_2,1)、(c_3,1)、(c_4,1)的特征向量时,可以按照每个特征向量的第二个维度,也就是1(表示1列),来拼接多个特征向量,得到维数为(c_1+c_2+c_3+c_4,1)的特征向量作为融合后的特征向量,该融合后的特征向量是一个c_1+c_2+c_3+c_4×1维的列向量。
在一个实施例中,计算机设备可以对多个特征向量进行融合处理,得到融合后的特征向量的过程可利用分类模型执行。
在一个实施例中,计算机设备根据融合后的特征向量对待分类图像进行分类处理,得到对待分类图像的分类结果,可以为计算机设备利用全连接层根据融合后的特征向量对待分类图像进行分类处理,得到对待分类图像的分类结果。在一个实施例中,全连接层可以包括前述提及的分类模型的全连接层,参见图1c的FC_1。
可见,图2所示的实施例中,计算机设备可基于多个卷积神经网络对待分类图像进行特征提取,得到多个特征图,并对多个特征图中的每个特征图分别进行池化处理,得到多个特征向量,多个特征向量中每个特征向量的维度由每个特征向量对应的卷积神经网络的通道数确定;计算机设备对多个特征向量进行融合处理,得到融合后的特征向量,融合后的特征向量的维度由多个特征图的通道数之和确定;计算机设备根据融合后的特征向量对待分类图像进行分类处理,得到对待分类图像的分类结果,该过程提升了图像分类的准确度。
请参阅图3,为本申请实施例提供的另一种基于人工智能的图像处理方法的流程示意图。该图像处理方法可应用于前述提及的计算机设备。相较于图2实施例,图3实施例通过步骤S305和步骤S306描述了具体如何根据对融合后的特征向量进行降维处理后分类的过程。具体地,该方法可以包括以下步骤:
S301、获取待分类图像。
S302、基于多个卷积神经网络对所述待分类图像进行特征提取,得到多个特征图。
S303、对所述多个特征图中的每个所述特征图分别进行池化处理,得到多个特征向量,所述多个特征向量中每个特征向量的维度由每个所述特征向量对应的卷积神经网络的通道数确定。
S304、对所述多个特征向量进行融合处理,得到融合后的特征向量,所述融合后的特征向量的维度由所述多个特征图的通道数之和确定。
其中,步骤S301-步骤S304可参见图2实施例中的步骤S201-步骤S204,本申请实施例在此不做赘述。
S305、对所述融合后的特征向量进行降维处理,获得目标特征向量。
本申请实施例中,计算机设备可以调用预设降维方法对融合后的特征向量进行降维处理,例如,该降维方法可以为主成分分析方法、线性判别分析方法、局部保持投影方法或判别局部保持投影方法。
在一个实施例中,计算机设备还可以计算机设备利用第一全连接层对融合后的特征向量进行降维处理,得到目标特征向量,或利用第一全连接层以及特征丢弃层根据融合后的特征向量,获得目标特征向量。在一个实施例中,第一全连接层可以为前述提及的分类模型中的第一全连接层,参见图1e所示的FC_1。在一个实施例中,特征丢弃层可以参见前述提及的分类模型中的特征丢弃层,参见图1e所示的特征丢弃层。
其中,第一全连接层与特征丢弃层连接。在步骤S305中,计算机设备具体可以将融合后的特征向量输入第一全连接层,并将第一全连接层的输出作为特征丢弃层的输入,由特征丢弃层根据输入得到目标特征向量。以图1d为例,计算机设备可以将融合后的特征向量输入FC_1,并将FC_1的输出作为dropout层的输入,由特征丢弃层根据输入得到目标特征向量。
S306、根据所述目标特征向量对所述待分类图像进行分类处理,得到对所述待分类图像的分类结果。
本申请实施例中,计算机设备可以根据目标特征向量对待分类图像进行分类处理,得到对待分类图像的分类结果。在一个实施例中,计算机设备可以利用第二全连接层对所述目标特征向量进行分类处理。第二全连接层可以为前述提及的分类模型中的第二全连接层,参见图1e所示的FC_2。
在一个实施例中,特征丢弃层可以与第二全连接层连接。在步骤S306中,计算机设备可以将目标特征向量输入第二全连接层,并通过第二全连接层对目标特征向量进行分类处理,得到对该图像的分类结果。以图1e为例,计算机设备可以将目标特征向量输入FC_2,并由FC_2对目标特征向量进行分类处理,得到对该图像的分类结果。
进一步地,考虑到一些导致分类模型无法正确识别图像是否变形位移的情况,例如一些模型在拉伸移位后,仍然被识别为无的图像。发明人发现,在实际的业务场景中,正常的图片较多,训练样本分布一般与实际样本分布为同分布,故训练样本中标签为正常类的样本居多,训练时会产生样本分布不均匀的情况。在模型训练完成后,通过将大量测试样本放入模型中进行测试,发现分类模型针对一些特殊的图像,如一些存在压字情况的图像或贴图不完整的图像召回率较低,这就意味着类别为正常的图像中存在这类特殊的图像。这类特殊的图像不易通过模型识别其正确的类别。为了解决该问题,计算机设备还可引入检测模型,用以辅助判断图像是否分类正确,从而进一步提升图像判断准确度。下面对计算机设备具体如何引入检测模型的其中两种方式进行介绍。
方式一、计算机设备可利用检测模型对待分类图像进行检测,得到对该待分类图像的检测结果,并利用该检测结果以及该分类结果获得对待分类图像的判别结果。计算机设备可以通过用户终端输出该判别结果。所述的判别结果为指示待分类图像是否正确的判别结果。对应地,前述提及的信息可以为该判别结果。在一个实施例中,计算机设备可以在该待分类图像为包括目标编辑对象的图像时,执行方式一所述的步骤。相应地,计算机设备可利用检测模型对待分类图像进行检测可以为计算机设备利用检测模型对目标编辑对象进行异常检测。目标编辑对象为文字或贴图等对象进行检测。方式二,计算机设备可利用检测模型对待分类图像进行检测,并得到对该待分类图像的检测结果。计算机设备可以通过用户终端输出该检测结果,或可以通过用户终端输出该检测结果以及该分类结果。在一个实施例中,对于方式二,计算机设备还可在分类结果为指示待分类图像不存在的分类结果时执行方式二所述的操作。对应地,前述提及的分类信息可以为分类结果和/或检测结果。在一个实施例中,计算机设备可以在该待分类图像为包括目标编辑对象的图像时,执行方式二所述的步骤。相应地,计算机设备可利用检测模型对待分类图像进行检测可以为计算机设备利用检测模型对目标编辑对象进行异常检测。需要说明的是,在完成对待分类图像进行分类后,也可以称该待分类图像为已分类图像。
在一个实施例中,前述提及的检测模型可以根据初始的目标检测模型训练得到,该目标检测模型可以为yolo模型等模型。具体地,该检测模型具体可以利用多个第二样本图像对初始的目标检测模型训练得到。更具体地,该检测模型可以利用多个第二样本图像以及每个第二样本图像对应的标注数据对初始的目标检测模型训练得到。在一个实施例中,第二样本图像可以为前述提及的第一样本图像,也可以不为。
在一个实施例中,上述提及的检测模型可以为压字检测模型,上述异常检测可以为压字检测,上述提及的检测结果可以为压字检测结果,计算机设备具体可以利用压字检测模型对待分类图像进行压字检测,得到压字检测结果。该压字检测结果可以为指示该待分类图像是否存在压字情况的检测结果,若压字,则文本异常,若未压字,则文本正常。其中,压字检测模型训练所用到的标注数据可为指示对应第二样本图像是否存在压字情况的标签。压字指图像不包括字体(对于本应该包括字体的图像而言)或不包括完整的字体。在一个实施例中,所指的不包括完整字体可以为图像顶端不包括完整字体或图像底端不包括完整字体。例如,在通过对图4所示的图像进行压字检测后,可以得到指示图4所示的图像存在压字情况的检测结果。
在一个实施例中,在前述提及的方式一中,在检测模型为压字检测模型,检测结果为压字检测结果时,计算机设备可以在该压字检测结果为指示该待分类图像不存在压字情况的检测结果且该分类结果为指示该待分类图像正常的分类结果时,将该分类结果确定为对待分类图像的判别结果。此时,便可以通过压字检测模型更加确定该分类结果的正确性。
在一个实施例中,在前述提及的方式一中,计算机设备还可以在该压字检测结果为指示该待分类图像存在压字情况的检测结果且分类结果为指示该图像待分类图像不正常(如变形或位移)的分类结果时,将该分类结果确定为对待分类图像的判别结果。一般在这种情况下,便可以通过压字检测模型更加确定分类结果的正确性。
在一个实施例中,在前述提及的方式一中,计算机设备还可以在该压字检测结果为指示待分类图像存在压字情况的检测结果且该分类结果为指示待分类图像正常的分类结果时,将指示待分类图像不正常(如变形或位移)的分类结果确定为对待分类图像的判别结果。或,计算机设备还可以在该压字检测结果为指示待分类图像存在压字情况的检测结果且该分类结果为指示该待分类图像正常的分类结果时,确定历史经由分类模型确定为正常的图像中被判别为图像的比例,当该比例大于预设比例时,将指示待分类图像不正常(如变形或位移)的分类结果确定为对待分类图像的判别结果。
可见,图3所示的实施例中,计算机设备在得到融合后的特征向量后,可以对该融合后的特征向量进行降维处理,得到目标特征向量,并对该目标特征向量进行分类处理,得到对该待分类图像的分类结果,该过程可以使得通过第一全连接层对融合后的特征向量进行降维后再进行分类处理,能够提升后续分类处理的效率。
请参阅图5,为本申请实施例提供的一种基于人工智能的图像处理装置的结构示意图,该装置可以应用于前述提及的计算机设备。具体地,该装置可以包括:
获取模块501,用于获取待分类图像。
处理模块502,用于基于多个卷积神经网络对所述待分类图像进行特征提取,得到多个特征图,并对所述多个特征图中的每个所述特征图分别进行池化处理,得到多个特征向量,所述多个特征向量中每个特征向量的维度由每个所述特征向量对应的卷积神经网络的通道数确定。
处理模块502,还用于对所述多个特征向量进行融合处理,得到融合后的特征向量,并根据所述融合后的特征向量对所述待分类图像进行分类处理,得到对所述待分类图像的分类结果,所述融合后的特征向量的维度由所述多个特征图的通道数之和确定。
在一种可选的实施方式中,所述多个卷积神经网络中各卷积神经网络依次连接,所述多个卷积神经网络的数量为N个,其中,N为大于1的正整数;处理模块502基于多个卷积神经网络对所述待分类图像进行特征提取,得到多个特征图,具体为基于第一个卷积神经网络,对所述待分类图像进行特征提取,得到第一个特征图,并将所述第一个特征图作为第二个卷积神经网络的输入;…基于第N个卷积神经网络,对第N-1个卷积神经网络输出的第N-1个特征图进行特征提取,得到第N个特征图,所述多个特征图包括所述N个卷积神经网络输出的N个特征图。
在一种可选的实施方式中,所述多个卷积神经网络中各卷积神经网络依次连接,所述多个卷积神经网络为N个,其中,N为正整数,N为大于1的正整数;处理模块502基于多个卷积神经网络对所述待分类图像进行特征提取,得到多个特征图,具体为基于第一个卷积神经网络,对所述待分类图像进行特征提取,得到第一个特征图;对所述第一个特征图进行降采样处理,得到降采样处理后的第一个特征图,并将所述降采样处理后的第一个特征图作为所述第二个卷积神经网络的输入;…基于第N个卷积神经网络,对降采样处理后的第N-1个特征图进行特征提取,得到第N个特征图;对所述第N个特征图进行降采样处理,得到降采样处理后的第N个特征图;获取降采样处理后的N个特征图作为所述多个特征图。
在一种可选的实施方式中,多个卷积神经网络中各卷积神经网络的通道数不完全相同。
在一种可选的实施方式中,所述卷积神经网络为压缩和激励单元下的卷积神经网络,所述压缩和激励单元用于基于所述卷积神经网络对输入特征进行特征提取,所述输入特征包括所述多个特征图中的各特征图和所述待分类图像中的至少一个。
在一种可选的实施方式中,处理模块502,还用于根据多个第一样本图像中每个样本图像的尺寸,对所述多个第一样本图像进行聚类,得到多类第一样本图像;将所述多类第一样本图像中每类第一样本图像的尺寸调整为该类第一样本图像的类中心的尺寸,得到每类第一样本图像对应的训练集;利用每类第一样本图像对应的训练集对初始的网络模型进行训练,得到分类模型。
在一种可选的实施方式中,处理模块502根据所述融合后的特征向量对所述待分类图像进行分类处理,得到对所述待分类图像的分类结果,具体为利用所述分类模型根据所述融合后的特征向量对所述待分类图像进行分类处理,得到对所述待分类图像的分类结果。
在一种可选的实施方式中,处理模块502,还用于在所述待分类图像为包括目标编辑对象的图像时,利用检测模型对所述待分类图像进行异常检测,得到检测结果;其中,所述检测结果为指示所述目标编辑对象是否异常的检测结果;所述检测模型是利用多个第二样本图像对初始的目标检测模型训练得到的,所述检测结果用于判断所述分类结果的正确性。
可见,图5所示的实施例中,图像处理装置可基于多个卷积神经网络对待分类图像进行特征提取,得到多个特征图,并对多个特征图中的每个特征图分别进行池化处理,得到多个特征向量,多个特征向量中每个特征向量的维度由每个特征向量对应的卷积神经网络的通道数确定;图像处理装置对多个特征向量进行融合处理,得到融合后的特征向量,融合后的特征向量的维度由多个特征图的通道数之和确定;图像处理装置根据融合后的特征向量对待分类图像进行分类处理,得到对待分类图像的分类结果,该过程提升了图像分类的准确度。
请参阅图6,为本申请实施例提供的一种计算机设备的结构示意图。如图5所示的本实施例中的计算机设备可以包括:一个或多个处理器601和存储器602。上述处理器601和存储器602通过总线或其他方式连接。存储器602可用于存储计算机程序,所述计算机程序包括程序指令,处理器601用于执行所述存储器602存储的程序指令,以实现上述涉及的各种方法。
所述存储器602可以包括易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器602也可以包括非易失性存储器(non-volatilememory),例如快闪存储器(flash memory),固态硬盘(solid-state drive,SSD)等;所述存储器602还可以包括上述种类的存储器的组合。
在一个实施例中,处理器601可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器,即微处理器或者任何常规的处理器。该存储器602可以包括只读存储器和随机存取存储器。因此,在此对于处理器601和存储器602不作限定。
可选的,该计算机设备还可以包括输入设备和/或输出设备。该输入设备可以是标准的有线或无线通信接口,或还可以为键盘、触摸屏、接收器等。该输出设备可以是标准的有线或无线通信接口,或还可以为显示器、扬声器、发射器等。
具体地,处理器601可调用所述存储器602中存储的程序指令,执行以下步骤:
获取待分类图像;
基于多个卷积神经网络对所述待分类图像进行特征提取,得到多个特征图;
对所述多个特征图中的每个所述特征图分别进行池化处理,得到多个特征向量,所述多个特征向量中每个特征向量的维度由每个所述特征向量对应的卷积神经网络的通道数确定;
对所述多个特征向量进行融合处理,得到融合后的特征向量,所述融合后的特征向量的维度由所述多个特征图的通道数之和确定;
根据所述融合后的特征向量对所述待分类图像进行分类处理,得到对所述待分类图像的分类结果。
在一个实施例中,所述多个卷积神经网络中各卷积神经网络依次连接,所述多个卷积神经网络的数量为N个,其中,N为大于1的正整数;在基于多个卷积神经网络对所述待分类图像进行特征提取,得到多个特征图时,处理器601可调用所述存储器602中存储的程序指令,执行以下步骤:
基于第一个卷积神经网络,对所述待分类图像进行特征提取,得到第一个特征图,并将所述第一个特征图作为第二个卷积神经网络的输入;
基于第N个卷积神经网络,对第N-1个卷积神经网络输出的第N-1个特征图进行特征提取,得到第N个特征图,所述多个特征图包括所述N个卷积神经网络输出的N个特征图。
在一个实施例中,所述多个卷积神经网络中各卷积神经网络依次连接,所述多个卷积神经网络为N个,其中,N为正整数,N为大于1的正整数;在基于多个卷积神经网络对所述待分类图像进行特征提取,得到多个特征图时,处理器601可调用所述存储器602中存储的程序指令,执行以下步骤:
基于第一个卷积神经网络,对所述待分类图像进行特征提取,得到第一个特征图;
对所述第一个特征图进行降采样处理,得到降采样处理后的第一个特征图,并将所述降采样处理后的第一个特征图作为所述第二个卷积神经网络的输入;
基于第N个卷积神经网络,对降采样处理后的第N-1个特征图进行特征提取,得到第N个特征图;
对所述第N个特征图进行降采样处理,得到降采样处理后的第N个特征图;
获取降采样处理后的N个特征图作为所述多个特征图。
在一个实施例中,所述多个卷积神经网络中各卷积神经网络的通道数不完全相同。
在一个实施例中,所述卷积神经网络为压缩和激励单元下的卷积神经网络,所述压缩和激励单元用于基于所述卷积神经网络对输入特征进行特征提取,所述输入特征包括所述多个特征图中的各特征图和所述待分类图像中的至少一个。
在一个实施例中,处理器601还可调用所述存储器602中存储的程序指令,执行以下步骤:
根据多个第一样本图像中每个样本图像的尺寸,对所述多个第一样本图像进行聚类,得到多类第一样本图像;
将所述多类第一样本图像中每类第一样本图像的尺寸调整为该类第一样本图像的类中心的尺寸,得到每类第一样本图像对应的训练集;
利用每类第一样本图像对应的训练集对初始的网络模型进行训练,得到分类模型。
在一个实施例中,在根据所述融合后的特征向量对所述待分类图像进行分类处理,得到对所述待分类图像的分类结果时,处理器601可调用所述存储器602中存储的程序指令,执行以下步骤:
利用所述分类模型根据所述融合后的特征向量对所述待分类图像进行分类处理,得到对所述待分类图像的分类结果。
在一个实施例中,处理器601还可调用所述存储器602中存储的程序指令,执行以下步骤:在所述待分类图像为包括目标编辑对象的图像时,利用检测模型对所述待分类图像进行异常检测,得到检测结果;
其中,所述检测结果为指示所述目标编辑对象是否异常的检测结果;所述检测模型是利用多个第二样本图像对初始的目标检测模型训练得到的,所述检测结果用于判断所述分类结果的正确性。
需要说明的是,上述描述的计算机设备和单元的具体工作过程,可以参考前述各个实施例中的相关描述,在此不再赘述。
本发明实施例中还提供一种计算机(可读)存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时,可执行上述方法实施例中所执行的部分或全部步骤。可选的,该计算机存储介质可以是易失性的,也可以是非易失性的。
本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括程序指令,该程序指令可存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该程序指令,处理器执行该程序指令,使得该计算机执行上述数据展示方法中所执行的部分或全部步骤,这里不再赘述。
在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机存储介质中,该计算机存储介质可以为计算机可读存储介质,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所揭露的仅为本申请的部分实施例而已,当然不能以此来限定本申请之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本申请权利要求所作的等同变化,仍属于本申请所涵盖的范围。

Claims (10)

1.一种基于人工智能的图像处理方法,其特征在于,包括:
获取待分类图像;
基于多个卷积神经网络对所述待分类图像进行特征提取,得到多个特征图;
对所述多个特征图中的每个所述特征图分别进行池化处理,得到多个特征向量,所述多个特征向量中每个特征向量的维度由每个所述特征向量对应的卷积神经网络的通道数确定;
对所述多个特征向量进行融合处理,得到融合后的特征向量,所述融合后的特征向量的维度由所述多个特征图的通道数之和确定;
根据所述融合后的特征向量对所述待分类图像进行分类处理,得到对所述待分类图像的分类结果。
2.根据权利要求1所述的方法,其特征在于,所述多个卷积神经网络中各卷积神经网络依次连接,所述多个卷积神经网络的数量为N个,其中,N为大于1的正整数;所述基于多个卷积神经网络对所述待分类图像进行特征提取,得到多个特征图,包括:
基于第一个卷积神经网络,对所述待分类图像进行特征提取,得到第一个特征图,并将所述第一个特征图作为第二个卷积神经网络的输入;
基于第N个卷积神经网络,对第N-1个卷积神经网络输出的第N-1个特征图进行特征提取,得到第N个特征图,所述多个特征图包括所述N个卷积神经网络输出的N个特征图。
3.根据权利要求1所述的方法,其特征在于,所述多个卷积神经网络中各卷积神经网络依次连接,所述多个卷积神经网络为N个,其中,N为正整数,N为大于1的正整数;所述基于多个卷积神经网络对所述待分类图像进行特征提取,得到多个特征图,包括:
基于第一个卷积神经网络,对所述待分类图像进行特征提取,得到第一个特征图;
对所述第一个特征图进行降采样处理,得到降采样处理后的第一个特征图,并将所述降采样处理后的第一个特征图作为所述第二个卷积神经网络的输入;
基于第N个卷积神经网络,对降采样处理后的第N-1个特征图进行特征提取,得到第N个特征图;
对所述第N个特征图进行降采样处理,得到降采样处理后的第N个特征图;
获取降采样处理后的N个特征图作为所述多个特征图。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述多个卷积神经网络中各卷积神经网络的通道数不完全相同。
5.根据权利要求1-3任一项所述的方法,其特征在于,所述卷积神经网络为压缩和激励单元下的卷积神经网络,所述压缩和激励单元用于基于所述卷积神经网络对输入特征进行特征提取,所述输入特征包括所述多个特征图中的各特征图和所述待分类图像中的至少一个。
6.根据权利要求1-3任一项所述的方法,其特征在于,所述方法还包括:
根据多个第一样本图像中每个样本图像的尺寸,对所述多个第一样本图像进行聚类,得到多类第一样本图像;
将所述多类第一样本图像中每类第一样本图像的尺寸调整为该类第一样本图像的类中心的尺寸,得到每类第一样本图像对应的训练集;
利用每类第一样本图像对应的训练集对初始的网络模型进行训练,得到分类模型;
所述根据所述融合后的特征向量对所述待分类图像进行分类处理,得到对所述待分类图像的分类结果,包括:
利用所述分类模型根据所述融合后的特征向量对所述待分类图像进行分类处理,得到对所述待分类图像的分类结果。
7.根据权利要求1-3任一项所述的方法,其特征在于,所述方法还包括;
在所述待分类图像为包括目标编辑对象的图像时,利用检测模型对所述待分类图像进行异常检测,得到检测结果;
其中,所述检测结果为指示所述目标编辑对象是否异常的检测结果;所述检测模型是利用多个第二样本图像对初始的目标检测模型训练得到的,所述检测结果用于判断所述分类结果的正确性。
8.一种基于人工智能的图像处理装置,其特征在于,包括:
获取模块,用于获取待分类图像;
处理模块,用于基于多个卷积神经网络对所述待分类图像进行特征提取,得到多个特征图,并对所述多个特征图中的每个所述特征图分别进行池化处理,得到多个特征向量,所述多个特征向量中每个特征向量的维度由每个所述特征向量对应的卷积神经网络的通道数确定;
所述处理模块,还用于对所述多个特征向量进行融合处理,得到融合后的特征向量,并根据所述融合后的特征向量对所述待分类图像进行分类处理,得到对所述待分类图像的分类结果,所述融合后的特征向量的维度由所述多个特征图的通道数之和确定。
9.一种计算机设备,其特征在于,包括处理器和存储器;其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-7任一项所述的方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质中存储有程序指令,所述程序指令被执行时,用于实现如权利要求1-7任一项所述的方法。
CN202011574403.9A 2020-12-25 2020-12-25 基于人工智能的图像处理方法、装置、设备及存储介质 Pending CN113516148A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011574403.9A CN113516148A (zh) 2020-12-25 2020-12-25 基于人工智能的图像处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011574403.9A CN113516148A (zh) 2020-12-25 2020-12-25 基于人工智能的图像处理方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN113516148A true CN113516148A (zh) 2021-10-19

Family

ID=78060698

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011574403.9A Pending CN113516148A (zh) 2020-12-25 2020-12-25 基于人工智能的图像处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113516148A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114445667A (zh) * 2022-01-28 2022-05-06 北京百度网讯科技有限公司 图像检测方法和用于训练图像检测模型的方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114445667A (zh) * 2022-01-28 2022-05-06 北京百度网讯科技有限公司 图像检测方法和用于训练图像检测模型的方法

Similar Documents

Publication Publication Date Title
KR102591961B1 (ko) 모델 트레이닝 방법 및 장치, 및 이를 위한 단말 및 저장 매체
CN111488826B (zh) 一种文本识别方法、装置、电子设备和存储介质
US20210192747A1 (en) Portrait Segmentation Method, Model Training Method and Electronic Device
CN111950424B (zh) 一种视频数据处理方法、装置、计算机及可读存储介质
CN112801146B (zh) 一种目标检测方法及系统
WO2021042505A1 (zh) 基于文字识别技术的笔记生成方法、装置和计算机设备
CN112085088A (zh) 图像处理方法、装置、设备及存储介质
CN112836702B (zh) 一种基于多尺度特征提取的文本识别方法
CN113435330B (zh) 基于视频的微表情识别方法、装置、设备及存储介质
CN112989085A (zh) 图像处理方法、装置、计算机设备及存储介质
CN112966626A (zh) 人脸识别方法和装置
CN113516146A (zh) 一种数据分类方法、计算机及可读存储介质
CN113111880A (zh) 证件图像校正方法、装置、电子设备及存储介质
CN112232336A (zh) 一种证件识别方法、装置、设备及存储介质
CN115797731A (zh) 目标检测模型训练方法、检测方法、终端设备及存储介质
CN114005019A (zh) 一种翻拍图像识别方法及其相关设备
CN114529750A (zh) 图像分类方法、装置、设备及存储介质
CN111242114B (zh) 文字识别方法及装置
CN113516148A (zh) 基于人工智能的图像处理方法、装置、设备及存储介质
CN115471901B (zh) 基于生成对抗网络的多姿态人脸正面化方法及系统
CN112016592A (zh) 基于交叉领域类别感知的领域适应语义分割方法及装置
CN111767919A (zh) 一种多层双向特征提取与融合的目标检测方法
CN115880702A (zh) 数据处理方法、装置、设备、程序产品及存储介质
WO2023173546A1 (zh) 文本识别模型的训练方法、装置、计算机设备及存储介质
CN116363656A (zh) 包含多行文本的图像识别方法、装置及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination