CN113516665A - 图像分割模型的训练方法、图像分割方法、装置、设备 - Google Patents
图像分割模型的训练方法、图像分割方法、装置、设备 Download PDFInfo
- Publication number
- CN113516665A CN113516665A CN202011487554.0A CN202011487554A CN113516665A CN 113516665 A CN113516665 A CN 113516665A CN 202011487554 A CN202011487554 A CN 202011487554A CN 113516665 A CN113516665 A CN 113516665A
- Authority
- CN
- China
- Prior art keywords
- image
- scale
- sample
- class activation
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003709 image segmentation Methods 0.000 title claims abstract description 231
- 238000012549 training Methods 0.000 title claims abstract description 122
- 238000000034 method Methods 0.000 title claims abstract description 118
- 230000004913 activation Effects 0.000 claims abstract description 275
- 230000011218 segmentation Effects 0.000 claims abstract description 213
- 238000000605 extraction Methods 0.000 claims abstract description 32
- 238000013145 classification model Methods 0.000 claims description 120
- 238000003860 storage Methods 0.000 claims description 29
- 230000003902 lesion Effects 0.000 claims description 22
- 239000013598 vector Substances 0.000 description 229
- 238000009826 distribution Methods 0.000 description 110
- 230000006870 function Effects 0.000 description 63
- 238000012545 processing Methods 0.000 description 34
- 230000000875 corresponding effect Effects 0.000 description 22
- 238000010586 diagram Methods 0.000 description 19
- 238000005516 engineering process Methods 0.000 description 17
- 238000004364 calculation method Methods 0.000 description 14
- 230000008859 change Effects 0.000 description 14
- 238000005457 optimization Methods 0.000 description 14
- 230000002093 peripheral effect Effects 0.000 description 10
- 238000005070 sampling Methods 0.000 description 10
- 230000001133 acceleration Effects 0.000 description 9
- 238000013473 artificial intelligence Methods 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 8
- 230000009467 reduction Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000006116 polymerization reaction Methods 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 3
- 230000002596 correlated effect Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 210000000887 face Anatomy 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 241000282472 Canis lupus familiaris Species 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 239000000919 ceramic Substances 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000011478 gradient descent method Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000013341 scale-up Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/149—Segmentation; Edge detection involving deformable models, e.g. active contour models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种图像分割模型的训练方法、图像分割方法、装置、设备,涉及图像分割领域。该方法包括:对样本图像和尺度图像进行特征提取,得到样本图像的样本图像特征和尺度图像的尺度图像特征;计算类激活图得到样本图像的样本类激活图和尺度图像的尺度类激活图;调用解码器对样本图像特征进行解码得到样本图像的样本分割结果,调用解码器对尺度图像特征进行解码得到尺度图像的尺度分割结果;基于样本类激活图、样本分割结果、尺度类激活图和尺度分割结果计算类激活图损失和尺度损失;基于类激活图损失和尺度损失训练解码器。该方法提高图像分割的精度。
Description
技术领域
本申请涉及图像分割领域,特别涉及一种图像分割模型的训练方法、图像分割方法、装置、设备。
背景技术
图像分割是指根据灰度、彩色、空间纹理、几何形状等特征把图像划分成若干个互不相交的区域,使得这些特征在同一区域内表现出一致性或相似性,而在不同区域间表现出明显的不同。简单的说就是在一副图像中,把前景目标从背景中分离出来。
相关技术中,采用阈值法进行图像分割。阈值法的基本思想是基于图像的灰度特征来计算一个或多个灰度阈值,并将图像中每个像素的灰度值与阈值作比较,最后将像素根据比较结果分到合适的类别中。因此,该方法最为关键的一步就是按照某个准则函数来求解最佳灰度阈值。
相关技术中的方法,需要目标具有明显的边缘或灰度差异,且只能基于图像像素值这种浅层特征进行目标判定,精度较低。
发明内容
本申请实施例提供了一种图像分割模型的训练方法、图像分割方法、装置、设备,可以提高图像分割的精度。所述技术方案如下。
根据本申请的一方面,提供了一种图像分割模型的训练方法,所述图像分割模型包括编码器和解码器,所述方法包括:
调用所述编码器对样本图像和尺度图像进行特征提取,得到所述样本图像的样本图像特征和所述尺度图像的尺度图像特征,所述尺度图像包括:放大所述样本图像得到的图像,或,缩小所述样本图像得到的图像中的至少一种;
基于所述样本图像特征计算类激活图得到所述样本图像的样本类激活图,基于所述尺度图像特征计算所述类激活图得到所述尺度图像的尺度类激活图;所述类激活图用于表示图像中各个像素点对所述图像的分类结果的影响程度;
调用所述解码器对所述样本图像特征进行解码得到所述样本图像的样本分割结果,调用所述解码器对所述尺度图像特征进行解码得到所述尺度图像的尺度分割结果;所述样本分割结果包括所述样本图像中各个像素点的分类概率值;
基于所述样本类激活图、所述样本分割结果、所述尺度类激活图和所述尺度分割结果计算类激活图损失,基于所述样本分割结果和所述尺度分割结果计算尺度损失;所述类激活图损失用于训练所述解码器使所述样本分割结果靠近所述样本类激活图,使所述尺度分割结果靠近所述尺度类激活图;所述尺度损失用于训练所述解码器使所述样本分割结果靠近所述尺度分割结果;
基于所述类激活图损失和所述尺度损失训练所述解码器。
根据本申请的另一方面,提供了一种图像分割模型的训练装置,所述图像分割模型包括编码器和解码器,所述装置包括:
编码模块,用于调用所述编码器对样本图像和尺度图像进行特征提取,得到所述样本图像的样本图像特征和所述尺度图像的尺度图像特征,所述尺度图像包括:放大所述样本图像得到的图像,或,缩小所述样本图像得到的图像中的至少一种;
类激活图模块,用于基于所述样本图像特征计算类激活图得到所述样本图像的样本类激活图,基于所述尺度图像特征计算所述类激活图得到所述尺度图像的尺度类激活图;所述类激活图用于表示图像中各个像素点对所述图像的分类结果的影响程度;
解码模块,用于调用所述解码器对所述样本图像特征进行解码得到所述样本图像的样本分割结果,调用所述解码器对所述尺度图像特征进行解码得到所述尺度图像的尺度分割结果;所述样本分割结果包括所述样本图像中各个像素点的分类概率值;
损失模块,用于基于所述样本类激活图、所述样本分割结果、所述尺度类激活图和所述尺度分割结果计算类激活图损失,基于所述样本分割结果和所述尺度分割结果计算尺度损失;所述类激活图损失用于训练所述解码器使所述样本分割结果靠近所述样本类激活图,使所述尺度分割结果靠近所述尺度类激活图;所述尺度损失用于训练所述解码器使所述样本分割结果靠近所述尺度分割结果;
训练模块,用于基于所述类激活图损失和所述尺度损失训练所述解码器。
根据本申请的另一方面,提供了一种图像分割方法,所述方法包括:
获取输入图像;
调用编码器对输入图像进行特征提取,得到所述输入图像的输入图像特征;
调用解码器对所述输入图像特征进行解码,得到所述输入图像的图像分割结果,所述解码器是根据类激活图损失和尺度损失训练得到的,所述类激活图损失用于训练所述解码器输出靠近类激活图的分割结果,所述类激活图用于表示图像中各个像素点对所述图像的分类结果的影响程度,所述尺度损失用于训练所述解码器对图像内容相同、尺度不同的多个图像输出相近的分割结果。
根据本申请的另一方面,提供了一种图像分割装置,所述装置包括:
获取模块,用于获取输入图像;
特征提取模块,用于调用编码器对输入图像进行特征提取,得到所述输入图像的输入图像特征;
图像分割模块,用于调用解码器对所述输入图像特征进行解码,得到所述输入图像的图像分割结果,所述解码器是根据类激活图损失和尺度损失训练得到的,所述类激活图损失用于训练所述解码器输出靠近类激活图的分割结果,所述类激活图用于表示图像中各个像素点对所述图像的分类结果的影响程度,所述尺度损失用于训练所述解码器对图像内容相同、尺度不同的多个图像输出相近的分割结果。
根据本申请的另一方面,提供了一种计算机设备,所述计算机设备包括:处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上方面所述的图像分割模型的训练方法或图像分割方法。
根据本申请的另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上方面所述的图像分割模型的训练方法或图像分割方法。
根据本公开实施例的另一个方面,提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述可选实现方式中提供的图像分割模型的训练方法或图像分割方法。
本申请实施例提供的技术方案带来的有益效果至少包括如下的有益效果。
基于同一张图片,进行缩放后,其图像分割结果不应该改变的思想,使用样本图像和样本图像缩放后得到的尺度图像,分别输入编码器和解码器进行图像分割,得到两个图像的图像分割结果,基于两个图像分割结果可以计算得到在尺度损失,利用尺度损失来训练编码器,使两个图像分割结果相逼近,保证图像尺寸改变后图像分割结果不变。基于编码器输出的图像特征,分别计算两个图像的类激活图像,由于类激活图体现了进行图像分类所依据的主要像素点,因此,图像分割结果应该贴近类激活图,使用图像的分割结果和图像的类激活图计算类激活图损失,利用类激活图损失来训练编码器,最终使编码器输出的图像分割结果能够在靠近类激活图的同时,保证图像缩放后得到的图像分割结果不变。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个示例性实施例提供的计算机设备的框图;
图2是本申请另一个示例性实施例提供的图像分割模型的训练方法的方法流程图;
图3是本申请另一个示例性实施例提供的图像分割模型的训练方法的方法流程图;
图4是本申请另一个示例性实施例提供的图像分类模型的训练方法的方法流程图;
图5是本申请另一个示例性实施例提供的图像分类模型的训练方法的示意图;
图6是本申请另一个示例性实施例提供的图像分割模型的训练方法的示意图;
图7是本申请另一个示例性实施例提供的图像分割方法的方法流程图;
图8是本申请另一个示例性实施例提供的图像分割模型的训练装置的框图;
图9是本申请另一个示例性实施例提供的图像分割装置的框图;
图10是本申请另一个示例性实施例提供的服务器的结构示意图;
图11是本申请另一个示例性实施例提供的终端的框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
计算机视觉技术(Computer Vision,CV)是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR(Optical Character Recognition,光学字符识别)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术(three-Dimensional,三维)、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
图1示出了本申请一个示例性实施例提供的计算机设备101的示意图,该计算机设备101可以是终端或服务器。
终端可以包括智能手机、笔记本电脑、台式电脑、平板电脑、智能音箱、智能机器人中的至少一种。在一种可选的实现方式中,终端上安装有支持图像分割功能的客户端,例如,支持图像分割功能的客户端可以是图像处理应用程序,或,视频处理应用程序的客户端。例如,图像处理应用程序中提供了图像分割功能,用于智能识别图像中的人脸区域,以便自动对人脸区域进行图像优化。或者,视频处理应用程序中提供了目标批量修改功能,用于智能识别视频每帧图像中的目标(人、植物、动物、物品等),对每帧图像中的目标进行统一地图像处理,例如,调整色彩、亮度、饱和度等。
示例性的,终端上存储有图像分割模型,当客户端需要使用图像分割功能时,客户端可以调用图像分割模型完成图像分割。例如,当用户需要对目标图像进行图像优化时,客户端调用图像分割模型对目标图像进行图像分割,得到目标图像中的目标区域,对目标区域进行自动优化。
终端与服务器之间通过有线或者无线网络相互连接。
示例性的,本申请提供的方法可以由终端上的客户端来执行,也可以由服务器来执行。即,图像分割模型的训练可以是由客户端完成,也可以是由服务器完成。示例性的,图像分割模型训练完成后的应用阶段,可以由客户端调用本地存储的图像分割模型进行图像分割;也可以由客户端向服务器发送图像分割请求,由服务器调用图像分割模型进行图像分割;还可以是在服务器需要对接收到的图像进行图像分割时,调用图像分割模型进行图像分割。
终端包括第一存储器和第一处理器。第一存储器中存储有图像分割模型;上述图像分割模型被第一处理器调用执行以实现本申请提供的图像分割模型的训练方法。第一存储器可以包括但不限于以下几种:随机存取存储器(Random Access Memory,RAM)、只读存储器(Read Only Memory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM)、以及电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)。
第一处理器可以是一个或者多个集成电路芯片组成。可选地,第一处理器可以是通用处理器,比如,中央处理器(Central Processing Unit,CPU)或者网络处理器(NetworkProcessor,NP)。可选地,第一处理器可以通过运行程序或代码来实现本申请提供的图像分割模型的训练方法。
服务器包括第二存储器和第二处理器。第二存储器中存储有图像分割模型,上述图像分割模型被第二处理器调用来实现本申请提供的图像分割模型的训练方法。示例性的,服务器接收并存储终端发送的用户数据,基于用户数据来对信息对象进行标注。可选地,第二存储器可以包括但不限于以下几种:RAM、ROM、PROM、EPROM、EEPROM。可选地,第二处理器可以是通用处理器,比如,CPU或者NP。
示例性的,客户端或服务器中存储的图像分割模型包括编码器102和解码器103。
示例性的,计算机设备调用解码器103对样本图像X和尺度图像R(X)进行特征提取得到样本图像X的样本图像特征和尺度图像R(X)的尺度图像特征,尺度图像R(X)为对样本图像X进行上采样得到的图像;即,尺度图像R(X)的尺寸为样本图像X二倍。
基于样本图像特征计算类激活图104得到样本图像的样本类激活图,基于尺度图像特征计算类激活图104得到尺度图像的尺度类激活图;类激活图104用于表示图像中各个像素点对图像的分类结果的影响程度;
调用解码器103对样本图像特征进行解码得到样本图像的样本分割结果,调用解码器对尺度图像特征进行解码得到尺度图像的尺度分割结果;样本分割结果包括样本图像中各个像素点的分类概率值;
基于样本类激活图、样本分割结果、尺度类激活图和尺度分割结果计算损失Lseg,损失Lseg包括类激活图损失和尺度损失;类激活图损失用于训练解码器使样本分割结果靠近样本类激活图,使尺度分割结果靠近尺度类激活图;尺度损失用于训练解码器使样本分割结果靠近尺度分割结果;
基于类激活图损失和尺度损失训练解码器103。
图2示出了本申请一个示例性实施例提供的图像分割模型的训练方法的流程图。该方法可以由计算机设备来执行,例如,如图1所示的计算机设备来执行。方法包括如下步骤。
步骤201,调用编码器对样本图像和尺度图像进行特征提取,得到样本图像的样本图像特征和尺度图像的尺度图像特征,尺度图像包括:放大样本图像得到的图像,或,缩小样本图像得到的图像中的至少一种。
示例性的,图像分割模型包括编码器和解码器。图像分割模型用于对输入的图像进行分割得到图像上分类目标所在的区域。图像分割模型可以用于识别至少一种分类目标,例如,图像分割模型可以用于识别图像中猫、狗、人所在的像素点。
示例性的,当图像风格模型用于分割图像上N个分类目标时,图像分割模型根据输入的图像可以输出图像上每个像素点属于N个分类目标的N个概率值,则可以得到图像属于N个分类目标的N个分类概率图,第i个分类概率图上每个像素点的像素值为该像素点属于第i个分类目标的概率值,其中N为正整数,i为不大于N的正整数。
示例性的,根据图像的N个分类概率图可以确定图像上每个像素点所属的分类目标,例如,将一个像素点的N个概率值中概率值最大的分类目标确定为该像素点所属的分类目标,例如,一个像素点属于猫的概率值是0.1,属于狗的概率值是0.2,属于人的概率值是0.7,则这个像素点所属的分类目标是人。示例性的,图像分割模型的输出可以是图像的分类目标图,分类目标图上每个像素点的取值代表该像素点所属的分类目标。因此,分类目标图上可以看出各个分类目标所在的位置(像素点)。
综上,图像分割模型输出的分割结果可以是上述的N个分类概率图也可以是上述的分类目标图。
由于对于一张图像,放大或缩小该图像,并不会改变图像中分类目标的位置分布,因此,放大或缩小的图像其图像分割结果应该与原图像是相同的(分割结果缩放到同一尺度)。因此,本实施例提供的方法基于这一思想,来训练图像分割网络,使图像分割网络对原图和缩放图输出的分割结果相逼近。
因此,在获取图像分割模型的训练样本时,需要获取样本图像、以及与样本图像对应的尺度图像,尺度图像包括放大的样本图像或缩小的样本图像中的至少一种。示例性的,对样本图像进行放大的方式可以是上采样,对样本图像进行缩小的方式可以是下采样。
即,一组训练样本包括以下三种组合方式中的至少一种:
1)样本图像、对样本图像进行上采样得到的放大尺度图像;
2)样本图像、对样本图像进行下采样得到的缩小尺度图像;
3)样本图像、对样本图像进行上采样得到的放大尺度图像和对样本图像进行下采样得到的缩小尺度图像。
示例性的,本实施例的方法步骤仅以一组训练样本为例对本申请提供的图像分割模型的训练方法进行说明,基于本实施例提供的方法,可以采用多组训练样本对图像分割模型进行迭代训练。
示例性的,在获取样本图像和尺度图像后,分别将样本图像和尺度图像输入编码器,进行特征提取,得到样本图像的样本图像特征和尺度图像的尺度图像特征。
示例性的,本实施例所采用的编码器是已经经过训练,具有较高特征提取能力的编码器,在本实施例的训练方法中只对图像分割模型的解码器进行了训练,并不会训练编码器。该编码器可以使用任意已经训练好的图像分类模型中的编码器。图像分类模型用于根据输入的图像输出该图像所属的分类目标。示例性的,图像分类模型所识别的分类目标与图像分割模型所识别的分类目标相同,即,图像分类模型也是用于识别N个分类目标的。
示例性的,编码器为卷积神经网络(Convolutional Neural Networks,CNN),其具体的网络结构可以根据图像大小进行调整。
步骤202,基于样本图像特征计算类激活图得到样本图像的样本类激活图,基于尺度图像特征计算类激活图得到尺度图像的尺度类激活图;类激活图用于表示图像中各个像素点对图像的分类结果的影响程度。
示例性的,由于编码器是采用了已经训练好的图像分类模型中的编码器,编码器所提取出的图像特征中已经具有对该图像进行分类的特征信息,因此,基于编码器输出的图像特征计算类激活图,就可以得到图像分类模型对图像进行分类时所依据的像素点。使用类激活图来训练解码器,使解码器输出的图像分割结果贴近类激活图。
步骤203,调用解码器对样本图像特征进行解码得到样本图像的样本分割结果,调用解码器对尺度图像特征进行解码得到尺度图像的尺度分割结果;样本分割结果包括样本图像中各个像素点的分类概率值。
示例性的,解码器用于对编码器输出的图像特征进行解码得到分割结果。
示例性的,解码器由多层卷积神经网络组成。通常,解码器采用与编码器互逆的网络结构。例如,编码器包括四个卷积块,每个卷积块由两个卷积层组成,其中卷积核大小均为3*3,在每个卷积块之后,编码器接入一个核大小为2*2的池化层,将卷积块输出的图像特征变为原来的1/2,对应地解码器也可以包括四个卷积块,每个卷积块由两个卷积层组成,其中卷积核大小均为3*3,在每个卷积块之前,解码器接入一个上采样层,将图像特征的尺寸变为原来的两倍,如此,输入编码器的图像大小与解码器输出的图像大小相同。
步骤204,基于样本类激活图、样本分割结果、尺度类激活图和尺度分割结果计算类激活图损失,基于样本分割结果和尺度分割结果计算尺度损失;类激活图损失用于训练解码器使样本分割结果靠近样本类激活图,使尺度分割结果靠近尺度类激活图;尺度损失用于训练解码器使样本分割结果靠近尺度分割结果。
示例性的,基于上述使分割结果逼近类激活图的思路,计算类激活图和分割结果的类激活图损失。基于上述尺度改变后图像的分割结果不变的思路,计算样本分割结果和尺度分割结果的尺度损失。
步骤205,基于类激活图损失和尺度损失训练解码器。
示例性的,基于上述的类激活图损失以及尺度损失训练解码器,使解码器基于类激活图输出分割结果,并使解码器的输出结果保证尺度改变后图像的分割结果不变。
综上所述,本实施例提供的方法,基于同一张图片,进行缩放后,其图像分割结果不应该改变的思想,使用样本图像和样本图像缩放后得到的尺度图像,分别输入编码器和解码器进行图像分割,得到两个图像的图像分割结果,基于两个图像分割结果可以计算得到在尺度损失,利用尺度损失来训练编码器,使两个图像分割结果相逼近,保证图像尺寸改变后图像分割结果不变。基于编码器输出的图像特征,分别计算两个图像的类激活图像,由于类激活图体现了进行图像分类所依据的主要像素点,因此,图像分割结果应该贴近类激活图,使用图像的分割结果和图像的类激活图计算类激活图损失,利用类激活图损失来训练编码器,最终使编码器输出的图像分割结果能够在靠近类激活图的同时,保证图像缩放后得到的图像分割结果不变。
示例性的,给出一种计算类激活图和损失的示例性实施例。
图3示出了本申请一个示例性实施例提供的图像分割模型的训练方法的流程图。该方法可以由计算机设备来执行,例如,如图1所示的终端或服务器来执行。在图2所示的示例性实施例的基础上,步骤202之前还包括步骤301,步骤202还包括步骤2021,步骤204还包括步骤2041至步骤2043,步骤205还包括步骤2051至步骤2052。
步骤301,调用全连接层对样本图像特征进行分类预测得到样本图像的样本分类结果;调用全连接层对尺度图像特征进行分类预测得到尺度图像的尺度分类结果。
示例性的,图像分割模型还包括经过预训练的全连接层。
示例性的,图2所示的实施例中步骤201所提到的图像分类模型中还包括了全连接层,即,图像分类模型包括编码器和全连接层,图像输入编码器进行特征提取后,经过全连接层得到分类结果。图像分割模型还采用了图像分类模型的全连接层,根据编码器输出的图像特征分别输出样本图像和尺度图像的分类结果。
示例性的,以图像分割模型和图像分类模型是用于识别N个分类目标的模型,则分类结果为图像属于N个分类目标的N个概率值组成的向量。
步骤2021,基于样本图像特征和样本分类结果计算得到样本图像的样本类激活图;基于尺度图像特征和尺度分类结果计算得到尺度图像的尺度类激活图。
示例性的,类激活图的计算公式为:
示例性的,当图像分割模型用于识别N个分类目标时,根据上述计算公式可以计算得到图像在N个分类目标的N个类激活图,第i个类激活图用于表示图像中各个像素点对图像被分为第i个分类目标的影响程度。
即,样本类激活图包括了样本图像在N个分类目标的N个类激活图;尺度类激活图包括了尺度图像在N个分类目标的N个类激活图。
步骤2041,基于样本类激活图和样本分割结果计算样本类激活图损失。
示例性的,根据样本分割结果与样本类激活图的误差计算得到样本类激活图损失。示例性的,将样本类激活图和样本分割结果的交叉熵确定为样本类激活图损失。
样本类激活图损失的计算公式如下:
Lseg,1=-y1log(s1)
其中,Lseg,1为样本类激活图损失,y1为样本类激活图,s1为样本分割结果。
示例性的,类激活图与分割结果的尺寸不同,还需要将类激活图上采样至与分割结果相同的尺寸,然后根据上述公式进行类激活图损失的计算。由于分割结果的尺寸与输入图像分割模型的原图像的尺寸相同,即,样本分割结果的尺寸与样本图像的尺寸相同。而类激活图是基于编码器输出的图像特征计算得到的,类激活图的尺寸与编码器输出的图像特征的尺寸相同,而图像特征的尺寸小于原图像,因此,类激活图的尺寸小于分割结果。对此,需要对类激活图进行上采样,放大至分割结果的尺寸,然后使用放大后的类激活图代入上述公式进行类激活图损失的计算。
示例性的,上述式子是图像分割网络的分类目标为1个时的样本类激活图损失的计算公式,当图像分割网络的分类目标为N个时,样本类激活图损失的计算公式为:
其中,Lseg,1为样本类激活图损失,y1i为第i个分类目标的样本类激活图,s1i为第i个分类目标的样本分割结果。
步骤2042,基于尺度类激活图和尺度分割结果计算尺度类激活图损失。
示例性的,根据尺度分割结果与尺度类激活图的误差计算得到尺度类激活图损失。示例性的,将尺度类激活图和尺度分割结果的交叉熵确定为尺度类激活图损失。
尺度类激活图损失的计算公式如下:
Lseg,2=-y2log(s2)
其中,Lseg,2为尺度类激活图损失,y2为尺度类激活图,s2为尺度分割结果。
示例性的,上述式子是图像分割网络的分类目标为1个时的尺度类激活图损失的计算公式,当图像分割网络的分类目标为N个时,尺度类激活图损失的计算公式为:
其中,Lseg,2为尺度类激活图损失,y2i为第i个分类目标的尺度类激活图,s2i为第i个分类目标的尺度分割结果。
示例性的,当尺度图像只包括缩小尺度图像和放大尺度图像中的一种时,可以采用上述公式计算尺度类激活图损失。当尺度图像包括缩小尺度图像和放大尺度图像两个尺度图像时,则尺度类激活图损失包括缩小尺度类激活图损失和放大尺度类激活图损失。则分别利用上述公式计算出缩小尺度图像的缩小尺度类激活图损失Lseg,2.1,和放大尺度图像的放大尺度类激活图损失Lseg,2.2。
步骤2043,基于样本分割结果和尺度分割结果计算尺度损失。
示例性的,由于样本图像和尺度图像的大小不同,则输出的样本分割结果和尺度分割结果的大小也不同,因此,为了比较二者的差异,需要将样本分割结果和尺度分割结果缩放至同一尺寸。示例性的,由于编码器和解码器的结构是对应则,则输出的分割结果和输入的图像尺寸相同,因此,按照样本图像和尺度图像的尺度关系,将样本分割结果和尺度分割结果缩放至同一尺度。
即,计算机设备根据样本图像和尺度图像的尺度关系,将样本分割结果缩放至与尺度分割结果相同的尺寸,得到缩放后的样本分割结果;根据尺度分割结果与缩放后的样本分割结果的误差计算尺度损失。
例如,尺度图像是对样本图像进行上采样,放大至两倍后获得的图像。则将样本分割结果进行上采样,放大至两倍后获得缩放后的样本分割结果。
示例性的,计算尺度分割结果与缩放后的样本分割结果的第一矩阵差,将第一矩阵差的2范数确定为尺度损失。
尺度损失的计算公式可以是:
Lseg,3=‖s2-R(s1)‖2
其中,Lseg,3为尺度损失,s2为尺度分割结果,s1为样本分割结果,R(s1)为缩放后的样本分割结果。
示例性的,上述式子是图像分割网络的分类目标为1个时的尺度损失的计算公式,当图像分割网络的分类目标为N个时,尺度损失的计算公式为:
其中,Lseg,3为尺度损失,s2i为第i个分类目标的尺度分割结果,s1i为第i个分类目标的样本分割结果,R(s1i)为第i个分类目标的缩放后的样本分割结果。
示例性的,当尺度图像只包括缩小尺度图像和放大尺度图像中的一种时,可以采用上述公式计算尺度损失。当尺度图像包括缩小尺度图像和放大尺度图像两个尺度图像时,则尺度损失的计算公式为:
Lseg,3=‖s4-R4(s1)‖2+‖s5-R5(s1)‖2
其中,Lseg,3为尺度损失,s4为缩小尺度图像的缩小尺度分割结果,s5为放大尺度图像的放大尺度分割结果,s1为样本分割结果,R4(s1)为按照缩小尺度图像与样本图像的尺度关系缩小后的样本分割结果,R5(s1)为按照放大尺度图像与样本图像的尺度关系放大后的样本分割结果。
示例性的,上述式子是图像分割网络的分类目标为1个时的尺度损失的计算公式,当图像分割网络的分类目标为N个时,尺度损失的计算公式为:
其中,Lseg,3为尺度损失,s4i为缩小尺度图像在第i个分类目标的缩小尺度分割结果,s5i为放大尺度图像在第i个分类目标的放大尺度分割结果,s1i为第i个分类目标的样本分割结果;R4(s1i)为第i个分类目标的样本分割结果,按照缩小尺度图像与样本图像的尺度关系缩小后的样本分割结果;R5(s1i)为第i个分类目标的样本分割结果,按照放大尺度图像与样本图像的尺度关系放大后的样本分割结果。
步骤2051,计算样本类激活图损失、尺度类激活图损失和尺度损失的加权和。
示例性的,Lseg,1和Lseg,2代表约束解码器输出的分割结果向对应的类激活图靠近。Lseg,3代表图像经过尺度变换后得到的分割结果,应该与原图像的分割结果经过相同的尺度变换后保持一致。
基于上述三种损失(样本类激活图损失、尺度类激活图损失和尺度损失),计算总损失:
Lseg=Lseg,1+Lseg,2+λLseg,3
其中,Lseg为总损失,Lseg,1为样本类激活图损失,Lseg,2为尺度类激活图损失,Lseg,3为尺度损失,λ为尺度损失的权重。
示例性的,样本类激活图损失的权重为1、尺度类激活图损失的权重为1、尺度损失的权重为2,即,λ=2。
示例性的,当尺度图像只包括缩小尺度图像和放大尺度图像中的一种时,可以采用上述公式计算总损失。当尺度图像包括缩小尺度图像和放大尺度图像两个尺度图像时,则尺度类激活图损失包括缩小尺度类激活图损失和放大尺度类激活图损失。则总损失为:
Lseg=Lseg,1+Lseg,2.1+Lseg,2.2+λLseg,3
其中,Lseg为总损失,Lseg,1为样本类激活图损失,Lseg,2.1为缩小尺度类激活图损失,Lsag,2.2为放大尺度类激活图损失,Lseg,3为尺度损失,λ为尺度损失的权重。
步骤2052,根据加权和训练解码器。
示例性的,根据计算出的加权和(总损失)训练解码器,约束分割结果向类激活图靠近,约束相同图像不同尺寸的分割结果保持一致。
示例性的,在完成对图像分割模型的训练后,可以利用图像分割模型进行图像分割。
即,计算机设备调用图像分割模型对输入图像进行图像分割,得到图像分割结果,图像分割模型包括编码器和解码器。
例如,调用编码器对输入图像进行特征提取,得到输入图像的输入图像特征;调用解码器对输入图像特征进行解码,得到输入图像的图像分割结果。
综上所述,本实施例提供的方法,通过使用预先训练好的图像分类模型的编码器进行特征提取,使编码器输出的图像特征具有分类所需的特征信息,使用图像分类模型的全连接层输出图像的分类结果,然后利用分类结果和图像特征求出图像的类激活图。虽然类激活图也可以输出为一种图像分割结果,但由于图像尺度变化会极大地影响类激活图,而正常来说尺度的变化不会影响图像的分割结果,因此,基于尺度不变性的思路,引入同一张图像的两种尺度,用两种尺度的两个分割结果的误差训练解码器,使解码器能够在准确进行图像分割的同时,保证尺度变换后分割结果不变。
示例性的,图像分割模型中的编码器和全连接层使用了已经训练好的图像分类模型的编码器和全连接层。示例性的,假设图像分类模型中的编码器为分类编码器,全连接层为分类全连接层,在图像分割模型的初始化阶段,计算机设备根据已训练完毕的图像分类模型中分类编码器的参数,设置编码器的参数,图像分类模型与图像分割模型的分类目标相同;根据已训练完毕的图像分类模型中分类全连接层的参数,设置全连接层的参数,图像分类模型用于根据输入的图像输出分类结果。
给出一种训练图像分类模型的示例性实施例。
图4示出了本申请一个示例性实施例提供的图像分割模型的训练方法的流程图。该方法可以由计算机设备来执行,例如,如图1所示的终端或服务器来执行。该方法包括以下步骤。
步骤401,获取数据样本。
步骤402,调用分类编码器和分类全连接层对数据样本进行特征提取和分类,得到数据样本的分类向量,确定数据样本和分类向量的相关性;分类向量包括类别向量和类内风格向量。
计算机设备获取数据样本集。数据样本集中包括数据样本。数据样本为图像。计算机设备中预先建立了图像分类模型,图像分类模型包括编码器以及连接在编码器之后的全连接层。图像分类模型可以采用多种神经网络。例如,图像分类模型可以采用卷积神经网络,其卷积块可以根据图像大小进行调整。图像越大,卷积块相应的越大。如,对于32*32的图像,可以采用2个卷积块,对于96*96的图像,可以采用4个卷积块。
计算机设备将数据样本输入至图像分类模型,图像分类模型的编码器对数据样本进行特征提取得到样本特征,全连接层根据样本特征输出数据样本的分类向量。分类向量包含类别向量以及类内风格向量。其中,类别向量中的元素为该数据样本属于各分类目标的概率。类内风格向量描述了数据样本的类内风格信息。计算机设备可以利用其它网络模型对图像分类模型进行训练。其中,计算机设备可以利用判别器确定数据样本和分类向量的相关性(数据样本与根据数据样本得到的分类向量相对应),利用评价器确定分类向量服从于先验分布的评分值。计算机设备对图像分类模型进行训练的整体网络结构图,可以如图5所示。
判别器501是由多个全连接层组成的深度神经网络。例如,可以是由三个或三个以上的全连接层组成的深度神经网络。
评价器502是由多个全连接层组成的深度神经网络。可以是由三个或三个以上的全连接层组成的深度神经网络。
判别器501可以判断数据样本与分类向量之间是否相关,以此对数据样本与分类向量之间的互信息进行最大化。计算机设备可以将数据样本和提取到的分类向量同时输入至判别器501。其中,数据样本中包括第一样本和第二样本。当输入至判别器501的数据样本为第一样本,提取到的分类向量来源于第二样本,且第一样本与第二样本不同时,则第一样本与该分类向量是负样本,判别器501判断两者不相关。当输入至判别器501的数据样本为第一样本,提取到的分类向量来源于第一样本,则第一样本与提取到的分类向量是正样本,判别器501判断两者相关。在图5中,鞋子图像503可以作为第一样本,衣服图像504可以作为第二样本,编码器和全连接层根据输入的第一样本得到第一分类向量,根据输入的第二样本得到第二分类向量。第一样本与第一分类向量相关,第一样本与第二分类向量不相关。当判别器501能够正确地判断数据样本与分类向量是否相关时,说明分类向量中蕴含了与数据样本相关的信息,从而能够达到最大化互信息的目的。
步骤403,对类别向量引入类别先验分布,对类内风格向量引入类内风格先验分布,以确定分类向量服从于先验分布的评分值。
评价器为分类向量引入先验分布。评价器也是由多个全连接层组成的深度神经网络。可以是由三个或三个以上的全连接层组成的深度神经网络。
先验分布包括类别先验分布和类内风格先验分布。类别先验分布可以简称为类别分布,类内风格先验分布可以是高斯分布。评价器为类别向量zc引入类别分布为类内风格向量zs引入高斯分布由此可以将类别向量与类内风格向量进行有效解耦。
当分类向量服从先验分布时,使得输出的类别特征部分为独热向量,可以直接利用独热向量中数值最大的元素来代表数据样本的类别,避免还需要进行下一步分类操作。同时,还可以防止数据样本只被聚到1类或几类中,能够保证聚成所需的类别数,如聚到10类。
步骤404,至少根据相关性和评分值训练图像分类模型。
计算机设备可以利用数据样本和分类向量的相关性、分类向量服从于先验分布的评分值对图像分类模型的网络参数进行反向优化。其中,可以采用反向传播法对图像分类模型中各网络参数进行优化。例如,反向传播法可以采用基于Adam的梯度下降法。对图像分类模型进行反向优化时,可以对图像分类模型、判别器以及评价器的网络参数进行权重更新。训练时,学习率为0.0001,控制损失函数收敛的参数β1设为0.5,β2设为0.9。批大小(batch size)设为64。在反向优化过程中,可以每次利用同一批次的数据样本对评价器、图像分类模型和判别器交替进行优化。当评价器的损失函数开始收敛时,说明图像分类模型学习到的分类向量已经靠近先验分布,可以停止训练。
在一个实施例中,图像分类模型的训练方法还包括:对数据样本进行增强处理,通过图像分类模型,映射得到增强后的分类向量;增强后的分类向量包括增强后的类别向量和增强后的类内风格向量;确定类别向量和增强后的类别向量的类别特征差异;至少根据相关性和评分值训练图像分类模型包括:根据相关性、类别特征差异和评分值训练图像分类模型。
计算机设备将数据样本输入图像分类模型,经过编码器和全连接层得到对应的分类向量。分类向量包括类别向量和类内风格向量。其中,类别向量是经过Softmax函数激活后的向量,该向量中的元素表示数据样本属于各分类目标的概率,向量维度设为分类目标的数量。类内风格向量为线性激活后的向量。该向量描述了数据样本的类内风格信息,向量维度可以是预设数量,例如可以是50。示例性的,类内风格信息是指,对于属于同一分类目标的多个图像,图像与图像间存在的风格上的差异信息。类别向量与类内风格向量经过不同的激励后,得到的数值不同,但部分信息可能混在一起。通过对类别向量引入类别先验分布,对类内风格向量引入类内风格先验分布,可以将类别向量与类内风格向量进行有效解耦。
由于同一类数据样本会存在不同的风格,风格的改变不会改变数据样本所属的分类目标的。即,基于特定的数据增强不会改变数据样本所属的分类目标这一现象,本实施例中,通过对数据样本进行数据增强处理,通过训练使得增强后的分类向量不会发生变化。计算机设备对数据样本进行增强处理,增强处理包括对图像进行随机裁剪、随机水平翻转、颜色抖动和随机组合颜色通道等。将增强处理后的数据样本输入至图像分类模型,经过编码器和全连接层得到增强后的分类向量。计算机设备在分类向量中提取类别向量,在增强后的分类向量中提取增强后的类别向量,将类别向量与增强后的类别向量输入至评价器,通过评价器识别类别向量与增强后的类别向量之间的类别特征差异。其中,类别向量的向量中的元素是数据样本属于各分类目标的概率值。类别向量与增强后的类别向量之间的类别特征差异可以通过散度来进行衡量。
计算机设备可以利用数据样本和分类向量的相关性、分类向量服从于先验分布的评分值以及类别向量和增强后的类别向量的类别特征差异对图像分类模型的网络参数进行反向优化。在网络的反向传播过程中,使用梯度下降更新图像分类模型、判别器和评价器的网络参数对应的权重值。由此能够使得图像分类模型学习到分类向量与数据样本相关,学习到类别向量可以代表数据样本的分类目标,学习到类内风格向量可以代表同一类数据样本的区别。经过数据增强处理后的,数据样本的类别向量保持不变,即数据样本的风格可能会发生一定变化,但仍然属于同一类别。而且,由于引入了先验分布的约束,可以使得类别向量尽量贴近独热向量,即大部分元素的数值接近0,只有一个元素的值接近1,从而能够根据类别向量直接确定数据样本对应的分类目标。
在一个实施例中,数据样本包括第一样本和第二样本;确定数据样本和分类向量的相关性包括:获取第一样本,利用第一样本的分类向量与第一样本向量进行拼接,生成拼接后的第一样本向量(正样本);利用第二样本的分类向量与第一样本向量进行拼接,生成拼接后的第二样本向量(负样本);训练判别器根据第一样本向量输出“相关”结果,根据第二样本向量输出“不相关”结果。数据样本中包括第一样本和第二样本,其中,第一样本与第二样本可以完全不同,也可以相同。第一样本输入图像分类模型,映射得到与第一样本对应的第一分类向量。第二样本输入图像分类模型,映射得到与第二样本对应的第二分类向量。第一分类向量与第二分类向量都可以是多维向量,例如50维。计算机设备将第一样本转换为第一样本向量。计算机设备将第一分类向量与第一样本向量进行拼接,生成拼接后的第一样本向量。拼接的方式可以是在第一分类向量后添加第一样本向量,也可以在第一样本向量之后添加第一分类向量。计算机设备可以采用上述拼接方式将第二分类向量与第一样向量进行拼接,生成拼接后的第二样本向量。将拼接后的第一样本向量输入判别器,判别器若判断二者相关,则输出1,若判断两者不相关,输出0;将拼接后的第二样本向量输入判别器,判别器若判断二者相关,则输出1,若判断两者不相关,输出0。当判别器能够正确判断数据样本与分类向量之间是否相关时,说明分类向量中蕴含了与数据样本相关的信息,达到最大化互信息的目的,由此能够使得图像分类模型学习到的分类向量与数据样本相关。
在一个实施例中,对类别向量引入类别先验分布,对类内风格向量引入类内风格先验分布,以确定分类向量服从于先验分布的评分值包括:通过评价器对类别向量引入类别先验分布,得到类别向量的类别分布结果;通过评价器对类内风格向量引入类内风格先验分布,得到类内风格向量的类内风格先验分布结果;通过评价器对类别分布结果以及类内风格先验分布结果进行评分,得到分类向量服从于先验分布的评分值。
评价器为分类向量引入先验分布。先验分布包括类别先验分布和类内风格先验分布。类别先验分布可以简称为类别分布,类内风格先验分布可以是高斯分布。类别分布可以是其中,为类别向量的分布,Cat为类别分布,是独热向量,K为分类目标数,P为K的倒数。类内风格向量可以是 为类内风格向量的分布,N为高斯分布,σ为标准差,σ可以是预设数值,如0.1。
计算机设备将类别向量与类内风格向量同时输入至评价器,评价器分别输出类别向量对应的类别分布结果以及类内风格向量对应的高斯分布结果。其中,类别分布结果可以是类别向量,类别向量可以是独热向量。高斯分布结果可以是风格向量。
在一个实施例中,通过评价器对类别分布结果以及类内风格先验分布结果进行评分包括:对类别向量的类别分布向量与类内风格向量的高斯分布向量进行拼接,生成先验分布向量;通过评价器对先验分布向量进行评分,得到分类向量服从于先验分布的评分值。
计算机设备将类别结果与高斯分布结果进行拼接,即将相应的类别向量与风格向量进行拼接。拼接方式可以是在类别向量的最后一个元素之后添加风格向量的元素。也可以是在类别向量的最后一个元素之后添加风格向量的元素。评价器对拼接后的向量进行评分,得到相应分数,该分数为分类向量服从于先验分布的概率。概率越高,说明分类向量越服从于先验分布。分类向量服从先验分布时,可以使得输出的类别向量尽量接近独热向量,由此可以直接利用独热向量中数值最大的元素代表数据样本的类别,避免还需要进行下一步分类操作。此外,在服从先验分布时,可以防止数据样本只被分到一类或者几类中,从而能保证将数据样本分到想要的分类目标中。
在一个实施例中,图像分类模型的训练方法还包括:通过判别器确定数据样本和分类向量的相关性;通过评价器确定分类向量服从于先验分布的评分值;至少根据相关性和评分值训练图像分类模型包括:至少根据相关性和评分值对图像分类模型、判别器和评价器进行交替优化。
通过判别器识别数据样本和分类向量之间的相关性。判别器识别数据样本和分类向量之间相关性的损失函数,可以称为互信息损失函数。判别器可以通过互信息损失函数进行训练。互信息损失函数可以采用如下表示:
其中,X为数据样本,Z为分类向量,S为sigmoid函数,E表示期望,D为判别器,用于判断X和Z是否相关,Q(Z|X)为图像分类模型映射得到的Z的后验分布;PX为输入图像的先验分布,为Z的聚合后验分布,表示X、Z服从Q(Z|X)PX(X)的数学期望。当X与Z为正样本时,当X与Z为负样本时,
通过互信息损失函数对判别器进行训练的过程中,损失函数值越小,相关性判断越准确,反向优化时,对判别器网络中的每一层权重的影响就越小。当判别器能够正确判断数据样本与特征之间是否相关时,说明特征中蕴含了与数据样本相关的信息,达到最大化互信息的目的。
类别向量与增强后的类别向量之间的类别特征差异可以通过散度来进行衡量。散度可以是KL散度。相应的损失函数可以称为类别差异损失函数,采用如下公式:
LAug=KL(Q(Zc|X)||Q(Zc|T(X)))
其中,KL为KL散度,Q为图像分类模型,Zc为类别向量,X为数据样本,T为数据增强,Q(Zc|X)为Zc的聚合后验分布,Q(Zc|T(X))为增强后的分类向量的后验分布。
类别差异损失函数的函数值越小,类别向量与增强后的类别向量之间的类别特征差异越小,相应的,数据样本在经过数据增强处理后,类别向量发生变化的几率就越小。
通过评价器对分类向量服从于先验分布进行评分。为分类向量引入先验分布的损失函数,可以称为先验分布损失函数。其中,可以分别针对图像分类模型和评价器定义不同的先验分布损失函数。通过先验分布损失函数可以使得图像分类模型映射的分类向量尽量贴近先验分布。图像分类模型的先验分布损失函数可以如下:
评价器的先验分布损失函数可以如下所示:
其中,C为评价器,PZ为先验分布,为从先验分布PZ和聚合后验分布QZ采样的特征对连线上的特征,为梯度惩罚项,用于让评价器C满足Lipschitz约束,让其评价的得分,即服从先验分布的概率变化不会过于剧烈,λ为梯度惩罚项系数,设为10。
在一个实施例中,可以将互信息损失函数、类别差异损失函数、图像分类模型的先验分布损失函数,作为子损失函数来定义图像分类模型的总损失函数。每个子损失函数可以分别具有对应的权重。可以利用互信息损失函数以及其对应的权重定义判别器的总损失函数。可以利用评价器的先验分布损失函数及其权重定义评价器的总损失函数。
图像分类模型的总损失函数如下:
判别器的总损失函数如下:
判别器的总损失函数如下:
LD=βMILMI;
评价器的总损失函数如下:
其中,LQ为图像分类模型的总损失函数。LMI为互信息损失函数,LAug为类别差异损失函数,为图像分类模型的先验分布损失函数,βMI为LMI的权重,βAug为LAug的权重,βAdv为的权重。βMI、βAdv可以设置为相应的固定值,例如,βMI设为0.5,βAdv设为1。βAug与数据样本的数据集相关,可以通过以下方式设置。具体的,计算机设备可以通过对分类向量进行非线性降维处理,生成相应的可视化降维图,根据可视化降维图选择类别差异损失函数的权重。可视化降维图,是将高维数据降维到低维数据后的结果,使得该结果是可视化的。低维比如二维或三维。例如,可以采用t-SNE对分类向量进行非线性降维处理,根据处理结果生成可视化降维图,即t-SNE图。在t-SNE图中,数据样本会进行分类,形成分类簇,在βAug的值较低时,各数据样本的分类簇较为分散,随着βAug的值升高,得到特征趋向于聚合,分类簇甚至会出现重叠。不同的数据类型的数据集,所分类的结果不同。以数据样本为图像为例,在βAug=2时,t-SNE图中的分类簇无重叠。在βAug=3时,t-SNE图中的分类簇出现重叠。由此可以在2和3之间选择分类簇物重叠的最大值,作为βAug的值,由此可以使得图像分类模型总损失函数更准确,从而使得训练后的图像分类模型的分类结果更准确。
在图像分类模型的训练可以采用反向优化的方式进行。在进行反向优化时,可以对评价器、图像分类模型和判别器交替进行优化。其中,首先优化评价器,然后优化图像分类模型和判别器。具体的,首先利用评价器的总损失函数反向优化评价器,使其对服从先验分布的分类向量的概率接近1,对不服从先验分布的分类向量的概率接近0。然后再利用图像分类模型的总损失函数反向优化图像分类模型,以及利用判别器的总损失函数反向优化判别器,使得图像分类模型输出的分类向量尽量获得高分,即分类向量服从先验分布的概率尽可能高,重复这样的交替优化过程,使得图像分类模型输出的分类向量获取高分,即分类向量服从先验分布的概率接近1,从而服从先验分布。
在其中一个实施例中,至少根据相关性和评分值对图像分类模型、判别器和评价器进行交替优化包括:先根据评分值对评价器的网络参数进行至少一次优化;再至少根据相关性和评分值对图像分类模型的网络参数进行优化,及根据相关性对判别器的网络参数进行优化。
具体的,由于数据样本的数量较多,不能一次性将所有的数据样本都输入图像分类模型进行训练。在反向优化时,可以将数据样本随机分成多批,每一批次采用固定数量的数据样本,也可以称为批次样本。例如,批次样本可以设定为64个数据样本,即批大小(batch size)设为64。
训练时,计算机设备确定分类向量服从于先验分布的评分值,确定数据样本和分类向量的相关性。对图像分类模型、判别器和评价器进行交替优化时,更新各网络参数对应的权重。首先根据分类向量服从于先验分布的评分值和评价器的总损失函数对评价器的网络参数进行至少一次优化之后,再根据数据样本和分类向量的相关性、分类向量服从于先验分布的评分值、类别特征差异和图像分类模型的总损失函数对图像分类模型的网络参数进行优化,及根据数据样本和分类向量的相关性和判别器的总损失函数对判别器的网络参数进行优化。例如,首先对评价器进行4次优化之后,再对图像分类模型和判别器进行1次优化。对图像分类模型和判别器进行反向优化时,可以先后进行反向优化,也可以同时进行反向优化。
对评价器进行反向优化时,对于先验分布的输入,其输出越接近于1时,损失函数值越小,反向传播时,对参数的变化越小,对于数据样本的输入,其输出越接近于0,损失函数越小,反向传播时,对参数的变化越小。对图像分类模型进行反向优化时,数据样本的输入,其输出越接近于1,损失函数值越小,反向传播时,对参数的变化越小。对图像分类模型进行反向优化时不考虑先验分布。在图像分类模型进行反向优化时,可以由评价器的总损失函数指示当前图像分类模型学习的特征分布与先验分布之间的差异,当评价器的总损失函数开始收敛时,说明图像分类模型学习到的特征分布已经靠近先验分布,可以停止训练。
综上所述,本实施例提供的方法,对于分类业务中分类对象的数据样本,不需要执行额外的分类算法,也无需生成真实图像与原图图像进行比对,通过确定数据样本与分类向量之间的相关性,以及对类别向量引入类别先验分布,对样类内风格向量引入类内风格先验分布,以确定分类向量服从于先验分布的评分值,由此利用相关性和评分对图像分类模型进行训练,可以有效改善图像分类模型对分类向量的学习。由于图像分类模型学习到的特征分布靠近先验分布,并且对类别向量与类内风格向量进行有效解耦,由此根据类别向量即可得到数据样本对应的分类目标。从而实现了在无需人工标注的情况下有效提高数据分类的精度。进而实现了图像分割网络在无需人工标注的情况下的有效训练。
示例性的,如图6所述,给出了一种应用本申请提供的图像分割模型的训练方法训练图像分割模型的示意图。
图6中的编码器102采用了图4所示的实施例中图像分类模型的编码器,在图像分割模型的训练阶段,编码器102后还接有全连接层(图中未示出)。
在训练时,首先获取样本图像x1,对于样本图像x1,对其进行上采样(一般将长宽扩增为以前的2倍),得到尺度图像x2=R(x1)。
将样本图像x1、尺度图像x2各自输入到编码器中,编码器输出样本图像x1的样本图像特征和尺度图像x2的尺度图像特征。
将样本图像特征输入全连接层输出样本分类结果,将尺度图像特征输入全连接层输出尺度分类结果。
基于样本分类结果和样本图像特征,按照类激活图的计算公式,计算样本图像的样本类激活图C1。基于尺度分类结果和尺度图像特征,按照类激活图的计算公式,计算尺度图像的尺度类激活图C2。
将样本图像特征输入解码器103得到样本分割结果s1。将尺度图像特征输入解码器103得到尺度分割结果s2。
引入两种约束,一是分割结果应该尽量贴近类激活图,二是在尺度变换后分割出的目标区域(分类目标所在的区域)经过同样的尺度变换应该保持一致。基于这种思路,基于样本类激活图和样本分割结果计算样本类激活图损失;基于尺度类激活图和尺度分割结果计算尺度类激活图损失;基于样本分割结果和尺度分割结果计算尺度损失。计算样本类激活图损失、尺度类激活图损失和尺度损失的加权和得到总损失Lseg。
根据总损失Lseg,通过反向传播法(back propagation)优化解码器中的网络参数。优化方法使用基于Adam的梯度下降法,学习率为0.0001,Adam的参数一阶矩估计的指数衰减率β1设为0.5,二阶矩估计的指数衰减率β2设为0.9。如前文所述,先优化图像分类模型,再将编码器部分固定,迁移到图像分割模型中,再对图像分割模型的解码器部分进行优化。
示例性的,在训练得到图像分割模型后,给出一种使用训练好的图像分割模型进行图像分割的示例性实施例。
图7示出了本申请一个示例性实施例提供的图像分割方法的流程图。该方法可以由计算机设备来执行,例如,如图1所示的终端或服务器来执行。示例性的,执行图像分割模型的训练方法的计算机设备,与,执行图像分割方法的计算机设备,可以是同一个计算机设备,也可以是不同的计算机设备。该方法包括以下步骤。
步骤701,获取输入图像。
示例性的,输入图像可以是任意的、需要进行图像分割的图像。
例如,当图像分割模型被训练为用于分割图像中的人脸,则输入图像可以是包含人脸的图像;当图像分割模型被训练为用于分割图像中的病灶,则输入图像可以是包含病灶的图像。当然,输入图像中也可以并不包含图像分割模型的分类目标,即,输入图像中也可以不包含人脸,或,不包含病灶。
步骤702,调用编码器对输入图像进行特征提取,得到输入图像的输入图像特征。
示例性的,编码器是上述任意实施例中所提到的图像分割模型中的编码器。
示例性的,根据图像分割模型的分类目标的不同,编码器的来源也不同。当图像分割模型的分类目标是人脸时,编码器的参数是根据人脸分类模型的分类编码器的参数设置的,人脸分类模型用于识别输入的图像是否包含人脸。
当图像分割模型的分类目标是病灶时,编码器的参数是根据病灶分类模型的分类编码器的参数设置的,病灶分类模型用于识别输入的图像是否包含病灶。
使用图像分类模型的分类编码器来设置图像分割模型的编码器,则图像分割模型的编码器能够准确提取图像在分类任务上的特征,由于图像分割的分类目标与图像分类的分类目标相同,则图像分割模型可以根据提取的特征进行准确的图像分割,既简化了图像分割模型的训练过程,又提升了图像分割模型的分割准确度。
步骤703,调用解码器对输入图像特征进行解码,得到输入图像的图像分割结果,解码器是根据类激活图损失和尺度损失训练得到的,类激活图损失用于训练解码器输出靠近类激活图的分割结果,类激活图用于表示图像中各个像素点对图像的分类结果的影响程度,尺度损失用于训练解码器对图像内容相同、尺度不同的多个图像输出相近的分割结果。
示例性的,解码器是上述任意实施例中所提到的图像分割模型中的解码器。解码器的训练方法可以参照上述实施例。
编码器输出的分割结果包括输入图像中各个像素点属于各个分类目标的概率值,或,编码器输出的分割结果包括输入图像中各个像素点所属的分类目标。
例如,当图像分割模型的分类目标是人脸时,图像分割结果包括输入图像中各个像素点为人脸的概率值,或,图像分割结果包括输入图像中各个像素点是否为人脸。
例如,当图像分割模型的分类目标是病灶时,图像分割结果包括输入图像中各个像素点为病灶的概率值,或,图像分割结果包括输入图像中各个像素点是否为病灶。
综上所述,本实施例提供的方法,通过使用训练好的图像分割模型对输入图像进行图像分割,用神经网络对输入的图像进行特征提取和图像分割,可以基于图像的深层特征来分割图像,提高了图像分割的准确度。并且,由于图像分割模型的解码器基于尺度不变性进行了训练,使图像分割模型对图像内容相同但尺度不同的多个图像输出相近的图像分割结果,更贴近图像分割的实际情况,进一步提高了图像分割的准确度。
示例性的,本申请提供的图像分割模型可以在多种应用场景中用于对图像中的不同分类目标进行图像分割。以上述提到的人脸识别和病灶识别的应用场景为例,本申请还给出针对这两个应用场景训练对应的图像分割模型的示例性实施例。
示例性的,给出一种使用本申请提供的图像分割模型的训练方法,训练用于分割图像中的人脸区域的图像分割模型的示例性实施例。
首先,训练用于识别人脸的图像分类模型,图像分类模型包括分类编码器和分类全连接层。图像分类模型用于聚类,即,将输入的多个图像聚为包含人脸的一类和不包含人脸的一类。
第一步,获取数据样本。
第二步,调用分类编码器和分类全连接层对数据样本进行特征提取和分类,得到数据样本的分类向量,确定数据样本与分类向量的相关性。其中,分类向量包括类别向量和类内风格向量,类别向量用于描述输入的图像中是否包含人脸。
第三步,对类别向量引入类别先验分布,对类内风格向量引入雷内风格先验分布,以确定分类向量服从于先验分布的评分值。
第四步,至少根据相关性和评分值训练图像分类模型。
然后,基于已训练完毕的图像分类模型训练图像分割模型,图像分割模型在训练阶段包括编码器、全连接层和解码器,图像分割模型在应用阶段包括编码器和解码器。
第一步,根据分类编码器的参数初始化编码器,根据分类全连接层的参数初始化全连接层,即,编码器和全连接层可以准确对输入的图像进行分类,识别图像中是否包含人脸。
第二步,获取训练数据集,训练数据集中包括至少一组样本图像和尺度图像,样本图像是包括或不包括人脸的图像,尺度图像是对样本图像进行上采样得到的图像,尺度图像的尺寸是样本图像的二倍。
第三步,调用编码器对样本图像进行特征提取得到样本图像特征,调用全连接层对样本图像特征进行分类得到样本图像的样本分类结果,样本分类结果包括样本图像包括人脸的概率值。调用编码器对尺度图像进行特征提取得到尺度图像特征,调用全连接层对尺度图像特征进行分类得到尺度图像的尺度分类结果,尺度分类结果包括尺度图像包括人脸的概率值。
第四步,调用解码器对样本图像特征进行解码得到样本图像的样本分割结果,样本分割结果包括样本图像中每个像素点为人脸的概率值。调用解码器对尺度图像特征进行解码得到尺度图像的尺度分割结果,尺度分割结果包括尺度图像中每个像素点为人脸的概率值。
第五步,根据样本图像特征和样本分类结果计算样本图像的样本类激活图。根据尺度图像特征和尺度分类结果计算尺度图像的尺度类激活图。
第六步,计算样本类激活图和样本分割结果的样本类激活图损失,计算尺度类激活图和尺度分割结果的尺度类激活图损失,计算样本分割结果和尺度分割结果的尺度损失。计算样本类激活图损失、尺度类激活图损失和尺度损失的加权和,得到总损失。
第七步,根据总损失训练解码器。
第八步,重复第三步至第七步,迭代训练解码器,得到最终的图像分割模型。
第九步,使用训练好的图像分割模型分割图像中的人脸区域。
示例性的,给出一种使用本申请提供的图像分割模型的训练方法,训练用于分割图像中的病灶区域的图像分割模型的示例性实施例。
首先,训练用于识别病灶的图像分类模型,图像分类模型包括分类编码器和分类全连接层。图像分类模型用于聚类,即,将输入的多个图像聚为包含病灶的一类和不包含病灶的一类。示例性的,图像分类模型还可以用于识别具体的几种病灶,例如,用于将输入的多种图像聚类为病灶一、病灶二、病灶三和正常。
第一步,获取数据样本。
第二步,调用分类编码器和分类全连接层对数据样本进行特征提取和分类,得到数据样本的分类向量,确定数据样本与分类向量的相关性。其中,分类向量包括类别向量和类内风格向量,类别向量用于描述输入的图像中是否包含病灶,或,用于描述输入的图像属于各类病灶的概率值。
第三步,对类别向量引入类别先验分布,对类内风格向量引入雷内风格先验分布,以确定分类向量服从于先验分布的评分值。
第四步,至少根据相关性和评分值训练图像分类模型。
然后,基于已训练完毕的图像分类模型训练图像分割模型,图像分割模型在训练阶段包括编码器、全连接层和解码器,图像分割模型在应用阶段包括编码器和解码器。
第一步,根据分类编码器的参数初始化编码器,根据分类全连接层的参数初始化全连接层,即,编码器和全连接层可以准确对输入的图像进行分类,识别图像中是否包含病灶,或,识别图像属于哪一类病灶。
第二步,获取训练数据集,训练数据集中包括至少一组样本图像和尺度图像,样本图像是包括或不包括病灶的图像,尺度图像是对样本图像进行上采样得到的图像,尺度图像的尺寸是样本图像的二倍。
第三步,调用编码器对样本图像进行特征提取得到样本图像特征,调用全连接层对样本图像特征进行分类得到样本图像的样本分类结果,样本分类结果包括样本图像包括病灶区域的概率值,或,样本分类结果包括样本图像属于每一类病灶的概率值。调用编码器对尺度图像进行特征提取得到尺度图像特征,调用全连接层对尺度图像特征进行分类得到尺度图像的尺度分类结果,尺度分类结果包括尺度图像包括病灶的概率值,或,尺度分类结果包括尺度图像属于每一类病灶的概率值。
第四步,调用解码器对样本图像特征进行解码得到样本图像的样本分割结果,样本分割结果包括样本图像中每个像素点为病灶的概率值,或,样本分割结果包括样本图像中每个像素点属于每个病灶的概率值。调用解码器对尺度图像特征进行解码得到尺度图像的尺度分割结果,尺度分割结果包括尺度图像中每个像素点为病灶的概率值,或,尺度分割结果包括尺度图像中每个像素点属于每个病灶的概率值。
第五步,根据样本图像特征和样本分类结果计算样本图像的样本类激活图。根据尺度图像特征和尺度分类结果计算尺度图像的尺度类激活图。
第六步,计算样本类激活图和样本分割结果的样本类激活图损失,计算尺度类激活图和尺度分割结果的尺度类激活图损失,计算样本分割结果和尺度分割结果的尺度损失。计算样本类激活图损失、尺度类激活图损失和尺度损失的加权和,得到总损失。
第七步,根据总损失训练解码器。
第八步,重复第三步至第七步,迭代训练解码器,得到最终的图像分割模型。
第九步,使用训练好的图像分割模型分割图像中的病灶区域。
以下为本申请的装置实施例,对于装置实施例中未详细描述的细节,可以结合参考上述方法实施例中相应的记载,本文不再赘述。
图8示出了本申请的一个示例性实施例提供的图像分割模型的训练装置的结构示意图。该装置可以通过软件、硬件或者两者的结合实现成为计算机设备的全部或一部分,所述图像分割模型包括编码器和解码器,该装置包括:
编码模块601,用于调用所述编码器对样本图像和尺度图像进行特征提取,得到所述样本图像的样本图像特征和所述尺度图像的尺度图像特征,所述尺度图像包括:放大所述样本图像得到的图像,或,缩小所述样本图像得到的图像中的至少一种;
类激活图模块602,用于基于所述样本图像特征计算类激活图得到所述样本图像的样本类激活图,基于所述尺度图像特征计算所述类激活图得到所述尺度图像的尺度类激活图;所述类激活图用于表示图像中各个像素点对所述图像的分类结果的影响程度;
解码模块603,用于调用所述解码器对所述样本图像特征进行解码得到所述样本图像的样本分割结果,调用所述解码器对所述尺度图像特征进行解码得到所述尺度图像的尺度分割结果;所述样本分割结果包括所述样本图像中各个像素点的分类概率值;
损失模块604,用于基于所述样本类激活图、所述样本分割结果、所述尺度类激活图和所述尺度分割结果计算类激活图损失,基于所述样本分割结果和所述尺度分割结果计算尺度损失;所述类激活图损失用于训练所述解码器使所述样本分割结果靠近所述样本类激活图,使所述尺度分割结果靠近所述尺度类激活图;所述尺度损失用于训练所述解码器使所述样本分割结果靠近所述尺度分割结果;
训练模块605,用于基于所述类激活图损失和所述尺度损失训练所述解码器。
在一种可选的实施例中,所述类激活图损失包括样本类激活图损失和尺度类激活图损失;
所述损失模块604,用于基于所述样本类激活图和所述样本分割结果计算所述样本类激活图损失;
所述损失模块604,用于基于所述尺度类激活图和所述尺度分割结果计算所述尺度类激活图损失;
所述损失模块604,用于基于所述样本分割结果和所述尺度分割结果计算所述尺度损失。
在一种可选的实施例中,所述损失模块604,用于根据所述样本图像和所述尺度图像的尺度关系,将所述样本分割结果缩放至与所述尺度分割结果相同的尺寸,得到缩放后的样本分割结果;
所述损失模块604,用于基于所述尺度分割结果与所述缩放后的样本分割结果的误差,计算所述尺度损失。
在一种可选的实施例中,所述损失模块604,用于计算所述尺度分割结果与所述缩放后的样本分割结果的第一矩阵差,将所述第一矩阵差的2范数确定为所述尺度损失。
在一种可选的实施例中,所述损失模块604,用于将所述样本类激活图和所述样本分割结果的交叉熵确定为所述样本类激活图损失;
所述损失模块604,用于将所述尺度类激活图和所述尺度分割结果的交叉熵确定为所述尺度类激活图损失。
在一种可选的实施例中,所述损失模块604,用于计算所述样本类激活图损失、所述尺度类激活图损失和所述尺度损失的加权和;
所述训练模块605,用于根据所述加权和训练所述解码器。
在一种可选的实施例中,所述图像分割模型还包括经过预训练的全连接层;所述装置还包括:
分类模块606,用于调用所述全连接层对所述样本图像特征进行分类预测得到所述样本图像的样本分类结果;调用所述全连接层对所述尺度图像特征进行分类预测得到所述尺度图像的尺度分类结果;
所述类激活图模块602,用于基于所述样本图像特征和所述样本分类结果计算得到所述样本图像的所述样本类激活图;
所述类激活图模块602,用于基于所述尺度图像特征和所述尺度分类结果计算得到所述尺度图像的所述尺度类激活图。
在一种可选的实施例中,所述编码器是经过预训练的编码器;所述装置还包括:
初始化模块607,用于根据已训练完毕的图像分类模型中分类编码器的参数,设置所述编码器的参数,所述图像分类模型与所述图像分割模型的分类目标相同。
在一种可选的实施例中,所述装置还包括:
初始化模块607,用于根据已训练完毕的图像分类模型中分类全连接层的参数,设置所述全连接层的参数,所述图像分类模型与所述图像分割模型的分类目标相同。
在一种可选的实施例中,所述图像分类模型包括所述分类编码器和分类全连接层;所述装置还包括:
分类训练模块608,用于获取数据样本;调用所述分类编码器和所述分类全连接层对所述数据样本进行特征提取和分类,得到所述数据样本的分类向量,确定所述数据样本和所述分类向量的相关性;所述分类向量包括类别向量和类内风格向量;对所述类别向量引入类别先验分布,对所述类内风格向量引入类内风格先验分布,以确定所述分类向量服从于先验分布的评分值;至少根据所述相关性和所述评分值训练所述图像分类模型。
图9示出了本申请的一个示例性实施例提供的图像分割装置的结构示意图。该装置可以通过软件、硬件或者两者的结合实现成为计算机设备的全部或一部分,所述图像分割模型包括编码器和解码器,该装置包括:
获取模块1001,用于获取输入图像;
特征提取模块1002,用于调用编码器对输入图像进行特征提取,得到所述输入图像的输入图像特征;
图像分割模块1003,用于调用解码器对所述输入图像特征进行解码,得到所述输入图像的图像分割结果,所述解码器是根据类激活图损失和尺度损失训练得到的,所述类激活图损失用于训练所述解码器输出靠近类激活图的分割结果,所述类激活图用于表示图像中各个像素点对所述图像的分类结果的影响程度,所述尺度损失用于训练所述解码器对图像内容相同、尺度不同的多个图像输出相近的分割结果。
在一种可选的实施例中,所述编码器的参数是根据人脸分类模型的分类编码器的参数设置的,所述人脸分类模型用于识别输入的图像是否包含人脸;
所述图像分割结果包括所述输入图像中各个像素点为人脸的概率值。
在一种可选的实施例中,所述编码器的参数是根据病灶分类模型的分类编码器的参数设置的,所述病灶分类模型用于识别输入的图像是否包含病灶;
所述图像分割结果包括所述输入图像中各个像素点为病灶的概率值。
图10是本申请一个实施例提供的服务器的结构示意图。具体来讲:服务器800包括中央处理单元(英文:Central Processing Unit,简称:CPU)801、包括随机存取存储器(英文:Random Access Memory,简称:RAM)802和只读存储器(英文:Read-Only Memory,简称:ROM)803的系统存储器804,以及连接系统存储器804和中央处理单元801的系统总线805。服务器800还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)806,和用于存储操作系统813、应用程序814和其他程序模块815的大容量存储设备807。
基本输入/输出系统806包括有用于显示信息的显示器808和用于用户帐号输入信息的诸如鼠标、键盘之类的输入设备809。其中显示器808和输入设备809都通过连接到系统总线805的输入/输出控制器810连接到中央处理单元801。基本输入/输出系统806还可以包括输入/输出控制器810以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入/输出控制器810还提供输出到显示屏、打印机或其他类型的输出设备。
大容量存储设备807通过连接到系统总线805的大容量存储控制器(未示出)连接到中央处理单元801。大容量存储设备807及其相关联的计算机
可读介质为服务器800提供非易失性存储。也就是说,大容量存储设备807可以包括诸如硬盘或者只读光盘(英文:Compact Disc Read-Only Memory,简称:CD-ROM)驱动器之类的计算机可读介质(未示出)。
不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(英文:Erasable Programmable Read-Only Memory,简称:EPROM)、电可擦除可编程只读存储器(英文:Electrically Erasable Programmable Read-Only Memory,简称:EEPROM)、闪存或其他固态存储其技术,CD-ROM、数字通用光盘(英文:Digital Versatile Disc,简称:DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器804和大容量存储设备807可以统称为存储器。
根据本申请的各种实施例,服务器800还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器800可以通过连接在系统总线805上的网络接口单元811连接到网络812,或者说,也可以使用网络接口单元811来连接到其他类型的网络或远程计算机系统(未示出)。
本申请还提供了一种终端,该终端包括处理器和存储器,存储器中存储有至少一条指令,至少一条指令由处理器加载并执行以实现上述各个方法实施例提供的图像分割模型的训练方法或图像分割方法。需要说明的是,该终端可以是如下图11所提供的终端。
图11示出了本申请一个示例性实施例提供的终端900的结构框图。该终端900可以是:智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio LayerIV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端900还可能被称为用户帐号设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,终端900包括有:处理器901和存储器902。
处理器901可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器901可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器901也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器901可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器901还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器902可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器902还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器902中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器901所执行以实现本申请中方法实施例提供的图像分割模型的训练方法或图像分割方法。
在一些实施例中,终端900还可选包括有:外围设备接口903和至少一个外围设备。处理器901、存储器902和外围设备接口903之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口903相连。具体地,外围设备包括:射频电路904、显示屏905、摄像头组件906、音频电路907、定位组件908和电源909中的至少一种。
外围设备接口903可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器901和存储器902。在一些实施例中,处理器901、存储器902和外围设备接口903被集成在同一芯片或电路板上;在一些其他实施例中,处理器901、存储器902和外围设备接口903中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路904用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路904通过电磁信号与通信网络以及其他通信设备进行通信。射频电路904将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。示例性的,射频电路904包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户帐号身份模块卡等等。射频电路904可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路904还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏905用于显示UI(User Interface,用户帐号界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏905是触摸显示屏时,显示屏905还具有采集在显示屏905的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器901进行处理。此时,显示屏905还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏905可以为一个,设置终端900的前面板;在另一些实施例中,显示屏905可以为至少两个,分别设置在终端900的不同表面或呈折叠设计;在再一些实施例中,显示屏905可以是柔性显示屏,设置在终端900的弯曲表面上或折叠面上。甚至,显示屏905还可以设置成非矩形的不规则图形,也即异形屏。显示屏905可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件906用于采集图像或视频。示例性的,摄像头组件906包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件906还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路907可以包括麦克风和扬声器。麦克风用于采集用户帐号及环境的声波,并将声波转换为电信号输入至处理器901进行处理,或者输入至射频电路904以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端900的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器901或射频电路904的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路907还可以包括耳机插孔。
定位组件908用于定位终端900的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件908可以是基于美国的GPS(GlobalPositioning System,全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。
电源909用于为终端900中的各个组件进行供电。电源909可以是交流电、直流电、一次性电池或可充电电池。当电源909包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端900还包括有一个或多个传感器910。该一个或多个传感器910包括但不限于:加速度传感器911、陀螺仪传感器912、压力传感器913、指纹传感器914、光学传感器915以及接近传感器916。
加速度传感器911可以检测以终端900建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器911可以用于检测重力加速度在三个坐标轴上的分量。处理器901可以根据加速度传感器911采集的重力加速度信号,控制显示屏905以横向视图或纵向视图进行用户帐号界面的显示。加速度传感器911还可以用于游戏或者用户帐号的运动数据的采集。
陀螺仪传感器912可以检测终端900的机体方向及转动角度,陀螺仪传感器912可以与加速度传感器911协同采集用户帐号对终端900的3D动作。处理器901根据陀螺仪传感器912采集的数据,可以实现如下功能:动作感应(比如根据用户帐号的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器913可以设置在终端900的侧边框和/或显示屏905的下层。当压力传感器913设置在终端900的侧边框时,可以检测用户帐号对终端900的握持信号,由处理器901根据压力传感器913采集的握持信号进行左右手识别或快捷操作。当压力传感器913设置在显示屏905的下层时,由处理器901根据用户帐号对显示屏905的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器914用于采集用户帐号的指纹,由处理器901根据指纹传感器914采集到的指纹识别用户帐号的身份,或者,由指纹传感器914根据采集到的指纹识别用户帐号的身份。在识别出用户帐号的身份为可信身份时,由处理器901授权该用户帐号执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器914可以被设置终端900的正面、背面或侧面。当终端900上设置有物理按键或厂商Logo时,指纹传感器914可以与物理按键或厂商Logo集成在一起。
光学传感器915用于采集环境光强度。在一个实施例中,处理器901可以根据光学传感器915采集的环境光强度,控制显示屏905的显示亮度。具体地,当环境光强度较高时,调高显示屏905的显示亮度;当环境光强度较低时,调低显示屏905的显示亮度。在另一个实施例中,处理器901还可以根据光学传感器915采集的环境光强度,动态调整摄像头组件906的拍摄参数。
接近传感器916,也称距离传感器,通常设置在终端900的前面板。接近传感器916用于采集用户帐号与终端900的正面之间的距离。在一个实施例中,当接近传感器916检测到用户帐号与终端900的正面之间的距离逐渐变小时,由处理器901控制显示屏905从亮屏状态切换为息屏状态;当接近传感器916检测到用户帐号与终端900的正面之间的距离逐渐变大时,由处理器901控制显示屏905从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图11中示出的结构并不构成对终端900的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
所述存储器还包括一个或者一个以上的程序,所述一个或者一个以上程序存储于存储器中,所述一个或者一个以上程序包含用于进行本申请实施例提供的图像分割模型的训练方法或图像分割方法。
本申请还提供一种计算机设备,该计算机设备包括:处理器和存储器,该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的图像分割模型的训练方法或图像分割方法。
本申请还提供一种计算机可读存储介质,该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的图像分割模型的训练方法或图像分割方法。
本申请还提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述可选实现方式中提供的图像分割模型的训练方法或图像分割方法。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (15)
1.一种图像分割模型的训练方法,其特征在于,所述图像分割模型包括编码器和解码器,所述方法包括:
调用所述编码器对样本图像和尺度图像进行特征提取,得到所述样本图像的样本图像特征和所述尺度图像的尺度图像特征,所述尺度图像包括:放大所述样本图像得到的图像,或,缩小所述样本图像得到的图像中的至少一种;
基于所述样本图像特征计算类激活图得到所述样本图像的样本类激活图,基于所述尺度图像特征计算所述类激活图得到所述尺度图像的尺度类激活图;所述类激活图用于表示图像中各个像素点对所述图像的分类结果的影响程度;
调用所述解码器对所述样本图像特征进行解码得到所述样本图像的样本分割结果,调用所述解码器对所述尺度图像特征进行解码得到所述尺度图像的尺度分割结果;所述样本分割结果包括所述样本图像中各个像素点的分类概率值;
基于所述样本类激活图、所述样本分割结果、所述尺度类激活图和所述尺度分割结果计算类激活图损失,基于所述样本分割结果和所述尺度分割结果计算尺度损失;所述类激活图损失用于训练所述解码器使所述样本分割结果靠近所述样本类激活图,使所述尺度分割结果靠近所述尺度类激活图;所述尺度损失用于训练所述解码器使所述样本分割结果靠近所述尺度分割结果;
基于所述类激活图损失和所述尺度损失训练所述解码器。
2.根据权利要求1所述的方法,其特征在于,所述类激活图损失包括样本类激活图损失和尺度类激活图损失;
所述基于所述样本类激活图、所述样本分割结果、所述尺度类激活图和所述尺度分割结果计算类激活图损失,基于所述样本分割结果和所述尺度分割结果计算尺度损失,包括:
基于所述样本类激活图和所述样本分割结果计算所述样本类激活图损失;
基于所述尺度类激活图和所述尺度分割结果计算所述尺度类激活图损失;
基于所述样本分割结果和所述尺度分割结果计算所述尺度损失。
3.根据权利要求2所述的方法,其特征在于,所述基于所述样本分割结果和所述尺度分割结果计算所述尺度损失,包括:
根据所述样本图像和所述尺度图像的尺度关系,将所述样本分割结果缩放至与所述尺度分割结果相同的尺寸,得到缩放后的样本分割结果;
基于所述尺度分割结果与所述缩放后的样本分割结果的误差,计算所述尺度损失。
4.根据权利要求2所述的方法,其特征在于,所述基于所述样本类激活图和所述样本分割结果计算所述样本类激活图损失,包括:
将所述样本类激活图和所述样本分割结果的交叉熵确定为所述样本类激活图损失;
所述基于所述尺度类激活图和所述尺度分割结果计算所述尺度类激活图损失,包括:
将所述尺度类激活图和所述尺度分割结果的交叉熵确定为所述尺度类激活图损失。
5.根据权利要求2至4任一所述的方法,其特征在于,所述基于所述类激活图损失和所述尺度损失训练所述解码器,包括:
计算所述样本类激活图损失、所述尺度类激活图损失和所述尺度损失的加权和;
根据所述加权和训练所述解码器。
6.根据权利要求1至4任一所述的方法,其特征在于,所述图像分割模型还包括经过预训练的全连接层;所述方法还包括:
调用所述全连接层对所述样本图像特征进行分类预测得到所述样本图像的样本分类结果;调用所述全连接层对所述尺度图像特征进行分类预测得到所述尺度图像的尺度分类结果;
所述基于所述样本图像特征和所述尺度图像特征计算类激活图,得到所述样本图像的样本类激活图和所述尺度图像的尺度类激活图,包括:
基于所述样本图像特征和所述样本分类结果计算得到所述样本图像的所述样本类激活图;
基于所述尺度图像特征和所述尺度分类结果计算得到所述尺度图像的所述尺度类激活图。
7.根据权利要求1至4任一所述的方法,其特征在于,所述编码器是经过预训练的编码器;所述调用编码器对样本图像和尺度图像进行特征提取之前,还包括:
根据已训练完毕的图像分类模型中分类编码器的参数,设置所述编码器的参数,所述图像分类模型与所述图像分割模型的分类目标相同。
8.根据权利要求6所述的方法,其特征在于,所述方法还包括:
根据已训练完毕的图像分类模型中分类全连接层的参数,设置所述全连接层的参数,所述图像分类模型与所述图像分割模型的分类目标相同。
9.一种图像分割方法,其特征在于,所述方法包括:
获取输入图像;
调用编码器对输入图像进行特征提取,得到所述输入图像的输入图像特征;
调用解码器对所述输入图像特征进行解码,得到所述输入图像的图像分割结果,所述解码器是根据类激活图损失和尺度损失训练得到的,所述类激活图损失用于训练所述解码器输出靠近类激活图的分割结果,所述类激活图用于表示图像中各个像素点对所述图像的分类结果的影响程度,所述尺度损失用于训练所述解码器对图像内容相同、尺度不同的多个图像输出相近的分割结果。
10.根据权利要求9所述的方法,其特征在于,所述编码器的参数是根据人脸分类模型的分类编码器的参数设置的,所述人脸分类模型用于识别输入的图像是否包含人脸;
所述图像分割结果包括所述输入图像中各个像素点为人脸的概率值。
11.根据权利要求9所述的方法,其特征在于,所述编码器的参数是根据病灶分类模型的分类编码器的参数设置的,所述病灶分类模型用于识别输入的图像是否包含病灶;
所述图像分割结果包括所述输入图像中各个像素点为病灶的概率值。
12.一种图像分割模型的训练装置,其特征在于,所述图像分割模型包括编码器和解码器,所述装置包括:
编码模块,用于调用所述编码器对样本图像和尺度图像进行特征提取,得到所述样本图像的样本图像特征和所述尺度图像的尺度图像特征,所述尺度图像包括:放大所述样本图像得到的图像,或,缩小所述样本图像得到的图像中的至少一种;
类激活图模块,用于基于所述样本图像特征计算类激活图得到所述样本图像的样本类激活图,基于所述尺度图像特征计算所述类激活图得到所述尺度图像的尺度类激活图;所述类激活图用于表示图像中各个像素点对所述图像的分类结果的影响程度;
解码模块,用于调用所述解码器对所述样本图像特征进行解码得到所述样本图像的样本分割结果,调用所述解码器对所述尺度图像特征进行解码得到所述尺度图像的尺度分割结果;所述样本分割结果包括所述样本图像中各个像素点的分类概率值;
损失模块,用于基于所述样本类激活图、所述样本分割结果、所述尺度类激活图和所述尺度分割结果计算类激活图损失,基于所述样本分割结果和所述尺度分割结果计算尺度损失;所述类激活图损失用于训练所述解码器使所述样本分割结果靠近所述样本类激活图,使所述尺度分割结果靠近所述尺度类激活图;所述尺度损失用于训练所述解码器使所述样本分割结果靠近所述尺度分割结果;
训练模块,用于基于所述类激活图损失和所述尺度损失训练所述解码器。
13.一种图像分割装置,其特征在于,所述装置包括:
获取模块,用于获取输入图像;
特征提取模块,用于调用编码器对输入图像进行特征提取,得到所述输入图像的输入图像特征;
图像分割模块,用于调用解码器对所述输入图像特征进行解码,得到所述输入图像的图像分割结果,所述解码器是根据类激活图损失和尺度损失训练得到的,所述类激活图损失用于训练所述解码器输出靠近类激活图的分割结果,所述类激活图用于表示图像中各个像素点对所述图像的分类结果的影响程度,所述尺度损失用于训练所述解码器对图像内容相同、尺度不同的多个图像输出相近的分割结果。
14.一种计算机设备,所述计算机设备包括:处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行,以实现如权利要求1至8任一项所述的图像分割模型的训练方法,或实现如权利要求9至11任一项所述的图像分割方法。
15.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行,以实现如权利要求1至8任一项所述的图像分割模型的训练方法,或实现如权利要求9至11任一项所述的图像分割方法。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011487554.0A CN113516665A (zh) | 2020-12-16 | 2020-12-16 | 图像分割模型的训练方法、图像分割方法、装置、设备 |
EP21905262.8A EP4220555A4 (en) | 2020-12-16 | 2021-10-18 | TRAINING METHOD AND APPARATUS FOR IMAGE SEGMENTATION MODEL, IMAGE SEGMENTATION METHOD AND APPARATUS, AND DEVICE |
PCT/CN2021/124337 WO2022127333A1 (zh) | 2020-12-16 | 2021-10-18 | 图像分割模型的训练方法、图像分割方法、装置、设备 |
US17/955,726 US20230021551A1 (en) | 2020-12-16 | 2022-09-29 | Using training images and scaled training images to train an image segmentation model |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011487554.0A CN113516665A (zh) | 2020-12-16 | 2020-12-16 | 图像分割模型的训练方法、图像分割方法、装置、设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113516665A true CN113516665A (zh) | 2021-10-19 |
Family
ID=78060679
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011487554.0A Pending CN113516665A (zh) | 2020-12-16 | 2020-12-16 | 图像分割模型的训练方法、图像分割方法、装置、设备 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20230021551A1 (zh) |
EP (1) | EP4220555A4 (zh) |
CN (1) | CN113516665A (zh) |
WO (1) | WO2022127333A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114862740A (zh) * | 2021-01-18 | 2022-08-05 | 富泰华工业(深圳)有限公司 | 瑕疵检测方法、装置、电子设备及计算机可读存储介质 |
CN115147526B (zh) * | 2022-06-30 | 2023-09-26 | 北京百度网讯科技有限公司 | 服饰生成模型的训练、生成服饰图像的方法和装置 |
CN118427395B (zh) * | 2024-06-25 | 2024-08-30 | 腾讯科技(深圳)有限公司 | 内容检索方法、装置、设备、存储介质及程序产品 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10424064B2 (en) * | 2016-10-18 | 2019-09-24 | Adobe Inc. | Instance-level semantic segmentation system |
CN110543911B (zh) * | 2019-08-31 | 2022-12-16 | 华南理工大学 | 一种结合分类任务的弱监督目标分割方法 |
CN111401247B (zh) * | 2020-03-17 | 2023-07-28 | 杭州小影创新科技股份有限公司 | 一种基于级联卷积神经网络的人像分割方法 |
CN111582175B (zh) * | 2020-05-09 | 2023-07-21 | 中南大学 | 一种共享多尺度对抗特征的高分遥感影像语义分割方法 |
-
2020
- 2020-12-16 CN CN202011487554.0A patent/CN113516665A/zh active Pending
-
2021
- 2021-10-18 EP EP21905262.8A patent/EP4220555A4/en active Pending
- 2021-10-18 WO PCT/CN2021/124337 patent/WO2022127333A1/zh unknown
-
2022
- 2022-09-29 US US17/955,726 patent/US20230021551A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
EP4220555A1 (en) | 2023-08-02 |
US20230021551A1 (en) | 2023-01-26 |
EP4220555A4 (en) | 2024-03-20 |
WO2022127333A1 (zh) | 2022-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111476306B (zh) | 基于人工智能的物体检测方法、装置、设备及存储介质 | |
CN110348543B (zh) | 眼底图像识别方法、装置、计算机设备及存储介质 | |
CN111091132B (zh) | 基于人工智能的图像识别方法、装置、计算机设备及介质 | |
WO2020224479A1 (zh) | 目标的位置获取方法、装置、计算机设备及存储介质 | |
CN111325726A (zh) | 模型训练方法、图像处理方法、装置、设备及存储介质 | |
CN110555839A (zh) | 缺陷检测识别方法、装置、计算机设备及存储介质 | |
CN110135336B (zh) | 行人生成模型的训练方法、装置及存储介质 | |
CN111243668B (zh) | 分子结合位点检测方法、装置、电子设备及存储介质 | |
CN112036331B (zh) | 活体检测模型的训练方法、装置、设备及存储介质 | |
CN110807361A (zh) | 人体识别方法、装置、计算机设备及存储介质 | |
CN113076814B (zh) | 文本区域的确定方法、装置、设备及可读存储介质 | |
CN111091166A (zh) | 图像处理模型训练方法、图像处理方法、设备及存储介质 | |
CN112749613B (zh) | 视频数据处理方法、装置、计算机设备及存储介质 | |
CN113516665A (zh) | 图像分割模型的训练方法、图像分割方法、装置、设备 | |
CN111192262A (zh) | 基于人工智能的产品缺陷分类方法、装置、设备及介质 | |
CN114332530A (zh) | 图像分类方法、装置、计算机设备及存储介质 | |
CN111062981A (zh) | 图像处理方法、装置及存储介质 | |
CN111368116B (zh) | 图像分类方法、装置、计算机设备及存储介质 | |
CN111860485A (zh) | 图像识别模型的训练方法、图像的识别方法、装置、设备 | |
CN114359225B (zh) | 图像检测方法、装置、计算机设备及存储介质 | |
CN112115900B (zh) | 图像处理方法、装置、设备及存储介质 | |
CN113705302A (zh) | 图像生成模型的训练方法、装置、计算机设备及存储介质 | |
CN111738365B (zh) | 图像分类模型训练方法、装置、计算机设备及存储介质 | |
CN114283299A (zh) | 图像聚类方法、装置、计算机设备及存储介质 | |
CN114511864B (zh) | 文本信息提取方法、目标模型的获取方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40054012 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |