CN112580567B - 一种模型获取方法、模型获取装置及智能设备 - Google Patents
一种模型获取方法、模型获取装置及智能设备 Download PDFInfo
- Publication number
- CN112580567B CN112580567B CN202011567053.3A CN202011567053A CN112580567B CN 112580567 B CN112580567 B CN 112580567B CN 202011567053 A CN202011567053 A CN 202011567053A CN 112580567 B CN112580567 B CN 112580567B
- Authority
- CN
- China
- Prior art keywords
- segmentation
- decoder
- sample image
- trained
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 230000011218 segmentation Effects 0.000 claims abstract description 146
- 238000000605 extraction Methods 0.000 claims abstract description 87
- 238000003708 edge detection Methods 0.000 claims abstract description 61
- 230000008569 process Effects 0.000 claims description 31
- 238000004590 computer program Methods 0.000 claims description 19
- 238000007781 pre-processing Methods 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 8
- 230000003993 interaction Effects 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 5
- 238000003709 image segmentation Methods 0.000 abstract description 37
- 238000012549 training Methods 0.000 description 23
- 238000005457 optimization Methods 0.000 description 7
- 238000011176 pooling Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本申请公开了一种模型获取方法、模型获取装置、智能设备及计算机可读存储介质。其中,该方法包括:通过待训练的特征提取编码器对样本图像进行编码;分别通过待训练的边缘检测解码器及待训练的人像分割解码器对编码结果进行解码,得到边缘检测解码器所输出的样本图像的边缘结果,以及人像分割解码器所输出的样本图像的分割结果;基于边缘结果、分割结果及样本图像计算总损失;根据总损失,对边缘检测解码器、人像分割解码器及特征提取编码器进行优化,在总损失达到收敛后,获得由已训练的特征提取编码器及已训练的人像分割解码所构成的已训练的人像分割模型。通过本申请方案,可使得人像分割模型的人像分割结果更为精准。
Description
技术领域
本申请属于图像处理技术领域,尤其涉及一种模型获取方法、模型获取装置、智能设备及计算机可读存储介质。
背景技术
近年来,随着人工智能(Artificial Intelligence,AI)的快速发展,许多基于AI的应用被开发了出来。这些AI应用可部署于机器人中,通过AI算法与用户进行互动。在AI应用与用户进行交互的过程中,对用户进行精准的人像分割就显得尤为重要。
目前常见的基于全卷积神经网络(fully connected network,FCN)的人像分割算法,通常能够大致分割出人像的轮廓。但是由于用户在与AI应用进行交互的过程中,用户所处的环境是千变万化的;在用户和环境差别不是很大时,这些人像分割算法不能较好的分割出人像的轮廓,容易导致最终的人像分割效果较差。
发明内容
本申请提供了一种模型获取方法、模型获取装置、智能设备及计算机可读存储介质,可使得人像分割模型的人像分割结果更为精准。
第一方面,本申请提供了一种模型获取方法,包括:
通过待训练的特征提取编码器对样本图像进行编码;
分别通过待训练的边缘检测解码器及待训练的人像分割解码器对编码结果进行解码,得到上述边缘检测解码器所输出的上述样本图像的边缘结果,以及,上述人像分割解码器所输出的上述样本图像的分割结果;
基于上述边缘结果、上述分割结果及上述样本图像计算上述边缘检测解码器、上述人像分割解码器及上述特征提取编码器的总损失;
若上述总损失未达到收敛,则根据上述总损失对上述边缘检测解码器、人像分割解码器及特征提取编码器进行优化,并返回执行上述通过待训练的特征提取编码器对样本图像进行编码的步骤及后续步骤,直至上述总损失达到收敛后,获得已训练的人像分割模型,其中,上述已训练的人像分割模型由已训练的特征提取编码器及已训练的人像分割解码器而构成。
第二方面,本申请提供了一种模型获取装置,包括:
编码单元,用于通过待训练的特征提取编码器对样本图像进行编码;
解码单元,用于分别通过待训练的边缘检测解码器及待训练的人像分割解码器对编码结果进行解码,得到上述边缘检测解码器所输出的上述样本图像的边缘结果,以及,上述人像分割解码器所输出的上述样本图像的分割结果;
计算单元,用于基于上述边缘结果、上述分割结果及上述样本图像计算上述边缘检测解码器、上述人像分割解码器及上述特征提取编码器的总损失;
优化单元,用于若上述总损失未达到收敛,则根据上述总损失对上述边缘检测解码器、人像分割解码器及特征提取编码器进行优化,并再次触发上述编码单元的运行;
获取单元,用于在上述总损失达到收敛后,获得已训练的人像分割模型,其中,上述已训练的人像分割模型由已训练的特征提取编码器及已训练的人像分割解码器而构成。
第三方面,本申请提供了一种智能设备,上述智能设备包括存储器、处理器以及存储在上述存储器中并可在上述处理器上运行的计算机程序,上述处理器执行上述计算机程序时实现如上述第一方面的方法的步骤。
第四方面,本申请提供了一种计算机可读存储介质,上述计算机可读存储介质存储有计算机程序,上述计算机程序被处理器执行时实现如上述第一方面的方法的步骤。
第五方面,本申请提供了一种计算机程序产品,上述计算机程序产品包括计算机程序,上述计算机程序被一个或多个处理器执行时实现如上述第一方面的方法的步骤。
本申请与现有技术相比存在的有益效果是:在训练人像分割模型所使用的特征提取编码器及人像分割解码器时,还加入了另一解码器,也即边缘检测编码器,使得在训练的过程中,由人像分割解码器对特征提取编码器的编码结果进行解码后得到样本图像的分割结果,由边缘检测解码器对特征提取编码器的编码结果进行解码后得到样本图像的边缘结果,并通过分割结果、边缘结果及样本图像计算得到边缘检测解码器、人像分割解码器及特征提取编码器的总损失,最终基于该总损失实现对边缘检测解码器、人像分割解码器及特征提取编码器的联合优化,以使得最后获得的人像分割模型的人像分割结果更为精准。可以理解的是,上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的模型获取方法的实现流程示意图;
图2是本申请实施例提供的训练框架示例图;
图3是本申请实施例提供的已训练的人像分割模型的结构示意图;
图4是本申请实施例提供的模型获取装置的结构框图;
图5是本申请实施例提供的智能设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
为了说明本申请所提出的技术方案,下面通过具体实施例来进行说明。
下面对本申请实施例提供的一种模型获取方法进行描述。请参阅图1,该模型获取方法包括:
步骤101,通过待训练的特征提取编码器对样本图像进行编码。
在本申请实施例中,人像分割模型由两部分组成:一部分为特征提取编码器,一部分为人像分割解码器。其中,当一图像被输入至该特征提取编码器时,该特征提取编码器可以通过其内部的卷积层及池化层对该图像进行特征提取操作,最终可得到该图像特征的高维特征。在这里,高维特征是一个较为宽泛的代号,下面对该高维特征进行简单说明:
假定输入至特征提取编码器的图像的长宽为480*480,该图像包括R、G及B三个通道,则该图像可以使用一个三维的数组480*480*3来表示,当然,也可以用matlab或者它可视化的工具展示该图像。该图像被输入至特征提取编码器后,经过该特征提取编码器内部的一系列卷积层及池化层,用于表示该图像的数组已经变成了H*W*N,其中,H表示图像经过卷积-池化后的特征高度,W表示图像经过卷积-池化后的特征宽度,N表示图像经过卷积-池化后的特征维度,这时候的N已经不是3了。因此,这些经过特征提取编码器中卷积-池化操作所得到的信息,已经无法再用常规的方法表示,可统一叫做高维特征。
由此,针对样本集中的任一样本图像,可以将该样本图像输入至待训练的特征提取编码器中,由该待训练的特征提取编码器对该样本图像进行编码,也即提取样本图像的高维特征。需要注意的是,样本集中的每张样本图像都应包含有人像,且每张样本图像都已预先标注好标签,包括边缘标签及分割标签。其中,边缘标签标注的是人像边缘的信息,分割标签标注的是人像区域的信息。
在一些实施例中,智能设备可先对样本图像进行预处理,然后通过待训练的特征提取编码器对预处理后的上述样本图像进行编码。其中,上述预处理操作主要包括:尺寸调整处理,以及归一化处理。
对于尺寸调整处理来说,智能设备可先检测样本图像的尺寸,若该尺寸与预设尺寸不匹配,则可对该样本图像的尺寸进行调整,使得调整后的样本图像的尺寸与预设尺寸相匹配。需要注意的是,特征提取编码器对输入自身的图像的尺寸有限制,则预设尺寸具体也取决于特征提取编码器对输入自身的图像的尺寸的限制。举例来说,特征提取编码器限制了输入自身的图像的尺寸为480*480,则预设尺寸即为480*480。通常来说,样本图像的尺寸会是大于或等于该预设尺寸的,因而,在样本图像的尺寸大于该预设尺寸的情况下,可以对样本图像进行裁剪,使得裁剪后的样本图像的中心与裁剪前的样本图像的中心保持相同,但尺寸变更为预设尺寸。
对于归一化处理来说,智能设备可针对样本图像的每个像素点,获取该像素点在各个颜色通道(例如R、G及B通道)下的原始像素值,然后分别将该像素点在各个颜色通道下的原始像素值映射至预设范围内,得到该像素点在各个颜色通道下的归一化像素值。其中,原始像素值的取值范围为0-255,而上述预设范围为0-1,也即归一化像素值的最小值为0,最大值为1。针对每个颜色通道,可以先获取该样本图像在该颜色通道下的最大原始像素值及最小原始像素值,然后计算该像素点在该颜色通道下的原始像素值与该最小原始像素值的像素差值,最后将该像素差值与该最大原始像素值的比值确定为该像素点在该颜色通道下的归一化像素值。举例来说,在R通道下,假定样本图像中某一像素点的原始像素值为100,且该样本图像在R通道下的最大原始像素值为200,最小原始像素值为50,则该像素点的归一化像素值=(100-50)/200=0.2。
步骤102,分别通过待训练的边缘检测解码器及待训练的人像分割解码器对编码结果进行解码,得到上述边缘检测解码器所输出的上述样本图像的边缘结果,以及,上述人像分割解码器所输出的上述样本图像的分割结果。
在本申请实施例中,请参阅图2,在训练过程中,特征提取编码器的编码结果(也即样本图像的高维特征F)不仅会被输入至待训练的边缘检测解码器中,而且还会被输入至待训练的人像分割解码器中;由此,可获得边缘检测解码器对编码结果进行解码后所输出的样本图像的边缘结果,还可获得人像分割解码器对编码结果进行解码后所输出的样本图像的分割结果。该边缘检测解码器及人像分割解码器均由卷积层及反卷积层而构成,当然,边缘检测解码器的参数与人像分割解码器的参数存在区别,使得边缘检测解码器专注于通过解码操作获得边缘结果,而人像分割解码器专注于通过解码操作获得分割结果。
步骤103,基于上述边缘结果、上述分割结果及上述样本图像计算上述边缘检测解码器、上述人像分割解码器及上述特征提取编码器的总损失。
在本申请实施例中,可通过边缘结果、分割结果及已标注了标签的样本图像计算获得边缘检测解码器、人像分割解码器及特征提取编码器的总损失。示例性地,通过图2可以看出,边缘结果只和特征提取编码器及边缘检测解码器相关,分割结果只和特征提取编码器及人像分割解码器相关;因而,智能设备可基于边缘结果及边缘标签,计算边缘损失;可基于分割结果及分割标签,计算分割损失。具体地,边缘损失及分割损失均为交叉熵损失。
仅作为示例,可以记该总损失为Losstotal,边缘损失为Loss1,分割损失为Loss2,则Losstotal=Loss1+Loss2。
步骤104,检测上述总损失是否达到收敛,若是,则执行步骤105,若否,则执行步骤106。
在本申请实施例中,通常认为,训练完成的标志为总损失达到收敛,因而在每次计算得到了总损失后,都可对该次所计算到的总损失是否达到收敛进行判断,并基于此确定对人像分割模型的训练是否完成。若总损失已达到收敛,则确定对人像分割模型的训练已完成,此时可执行步骤105;反之,若总损失未达到收敛,则确定对人像分割模型的训练未完成,此时可执行步骤106,继续进行训练。
步骤105,获得已训练的人像分割模型。
在本申请实施例中,如图3所示,已训练的人像分割模型由已训练的特征提取编码器及已训练的人像分割解码器而构成。也即,边缘检测解码器在训练完成后会被丢弃,不再使用。
步骤106,根据上述总损失,对上述边缘检测解码器、上述人像分割解码器及上述特征提取编码器进行优化,并在优化后返回执行步骤101。
在本申请实施例中,在总损失未达到收敛时,智能设备会根据本次计算所得的总损失,使用随机梯度下降(stochastic gradient descent,SGD)优化算法进行反向传播,对边缘检测解码器、人像分割解码器及特征提取编码器进行联合优化,调整边缘检测解码器、人像分割解码器及特征提取编码器所使用的参数。在本次优化后,智能设备将返回执行步骤101,也即重新选定一张样本图像来进行下一次训练。
在一些实施例中,在获取到已训练的人像分割模型后,智能设备即可开始应用该人像分割模型。在应用过程中,特征提取编码器及人像分割解码器所作的操作与训练过程基本相同,只是特征提取编码器的输入由样本图像变为了应用过程中智能设备所实时采集到的待分割图像。下面对该应用过程进行简单说明:先通过智能设备的摄像头采集待分割图像,然后将该待分割图像输入至已训练的人像分割模型,即可得到已训练的人像分割模型根据该待分割图像所输出的人像分割结果,最后将该人像分割结果传输至预设应用,以指示该预设应用基于该人像分割结果执行后续的人机交互逻辑,完成预设应用所请求的人机交互操作。需要注意的是,与训练过程类似,可以是在对待分割图像进行预处理(包括尺寸调整处理及归一化处理)后,再将预处理后的待分割图像输入至已训练的人像分割模型中,该预处理的过程可参照前文步骤101中的说明,此处不再赘述。
由上可见,通过本申请实施例,在训练人像分割模型所使用的特征提取编码器及人像分割解码器时,还加入了另一解码器,也即边缘检测编码器,使得在训练的过程中,由人像分割解码器对特征提取编码器的编码结果进行解码后得到样本图像的分割结果,由边缘检测解码器对特征提取编码器的编码结果进行解码后得到样本图像的边缘结果,并通过分割结果、边缘结果及样本图像计算得到边缘检测解码器、人像分割解码器及特征提取编码器的总损失,最终基于该总损失实现对边缘检测解码器、人像分割解码器及特征提取编码器的联合优化。由于在训练过程中,有边缘部分对编码器进行指导,也即人像分割模型在迭代的过程中也会考虑到待分割的人像的边缘信息,因此,两部分一起训练能够使得人像分割模型能够更好地分割出人像区域,使得其人像分割结果更为精准。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
对应于前文所提出的模型获取方法,本申请实施例提供了一种模型获取装置,上述模型获取装置可集成于智能设备。请参阅图4,本申请实施例中的模型获取装置400包括训练模块,该训练模块包括:
编码单元401,用于通过待训练的特征提取编码器对样本图像进行编码;
解码单元402,用于分别通过待训练的边缘检测解码器及待训练的人像分割解码器对编码结果进行解码,得到上述边缘检测解码器所输出的上述样本图像的边缘结果,以及,上述人像分割解码器所输出的上述样本图像的分割结果;
计算单元403,用于基于上述边缘结果、上述分割结果及上述样本图像计算上述边缘检测解码器、上述人像分割解码器及上述特征提取编码器的总损失;
优化单元404,用于若上述总损失未达到收敛,则根据上述总损失对上述边缘检测解码器、人像分割解码器及特征提取编码器进行优化,并再次触发上述编码单元401的运行;
获取单元405,用于在上述总损失达到收敛后,获得已训练的人像分割模型,其中,上述已训练的人像分割模型由已训练的特征提取编码器及已训练的人像分割解码器而构成。
可选地,上述编码单元401,包括:
预处理子单元,用于对上述样本图像进行预处理;
编码子单元,用于通过待训练的特征提取编码器对预处理后的上述样本图像进行编码。
可选地,上述预处理包括尺寸调整处理;相应地,上述预处理子单元,包括:
尺寸检测子单元,用于检测上述样本图像的尺寸;
尺寸调整子单元,用于若上述尺寸与预设尺寸不匹配,则对上述样本图像的尺寸进行调整,使得调整后的上述样本图像的尺寸与上述预设尺寸相匹配,其中,上述预设尺寸基于上述特征提取编码器而确定。
可选地,上述预处理包括归一化处理;相应地,上述预处理子单元,包括:
像素值获取子单元,用于针对上述样本图像的每个像素点,获取上述像素点在各个颜色通道下的原始像素值;
像素值归一化子单元,用于分别将上述像素点在各个颜色通道下的原始像素值映射至预设范围内,得到上述像素点在各个颜色通道下的归一化像素值。
可选地,上述像素值归一化子单元,包括:
参数获取子单元,用于针对每个颜色通道,获取上述样本图像在上述颜色通道下的最大原始像素值及最小原始像素值;
像素差值计算子单元,用于计算上述像素点在上述颜色通道下的原始像素值与上述最小原始像素值的像素差值;
归一化像素值确定子单元,用于将上述像素差值与上述最大原始像素值的比值确定为上述像素点在上述颜色通道下的归一化像素值。
可选地,上述样本图像预先标注有边缘标签及分割标签,上述计算单元403,包括:
边缘损失计算子单元,用于基于上述边缘结果及上述边缘标签,计算边缘损失;
分割损失计算子单元,用于基于上述分割结果及上述分割标签,计算分割损失;
总损失确定子单元,用于将上述边缘损失及分割损失之和确定为上述总损失。
可选地,上述模型获取装置4还包括应用模块,上述应用模块包括:
采集单元,用于采集待分割图像;
分割单元,用于将上述待分割图像输入至上述已训练的人像分割模型,得到人像分割结果;
传输单元,用于将上述人像分割结果传输至预设应用,以指示上述预设应用基于上述人像分割结果进行人机交互操作。
由上可见,通过本申请实施例,在训练人像分割模型所使用的特征提取编码器及人像分割解码器时,还加入了另一解码器,也即边缘检测编码器,使得在训练的过程中,由人像分割解码器对特征提取编码器的编码结果进行解码后得到样本图像的分割结果,由边缘检测解码器对特征提取编码器的编码结果进行解码后得到样本图像的边缘结果,并通过分割结果、边缘结果及样本图像计算得到边缘检测解码器、人像分割解码器及特征提取编码器的总损失,最终基于该总损失实现对边缘检测解码器、人像分割解码器及特征提取编码器的联合优化。由于在训练过程中,有边缘部分对编码器进行指导,也即人像分割模型在迭代的过程中也会考虑到待分割的人像的边缘信息,因此,两部分一起训练能够使得人像分割模型能够更好地分割出人像区域,使得其人像分割结果更为精准。
本申请实施例还提供了一种智能设备,请参阅图5,本申请实施例中的智能设备5包括:存储器501,一个或多个处理器502(图5中仅示出一个)及存储在存储器501上并可在处理器上运行的计算机程序。其中:存储器501用于存储软件程序以及单元,处理器502通过运行存储在存储器501的软件程序以及单元,从而执行各种功能应用以及数据处理,以获取上述预设事件对应的资源。具体地,处理器502通过运行存储在存储器501的上述计算机程序时实现以下步骤:
通过待训练的特征提取编码器对样本图像进行编码;
分别通过待训练的边缘检测解码器及待训练的人像分割解码器对编码结果进行解码,得到上述边缘检测解码器所输出的上述样本图像的边缘结果,以及,上述人像分割解码器所输出的上述样本图像的分割结果;
基于上述边缘结果、上述分割结果及上述样本图像计算上述边缘检测解码器、上述人像分割解码器及上述特征提取编码器的总损失;
若上述总损失未达到收敛,则根据上述总损失对上述边缘检测解码器、人像分割解码器及特征提取编码器进行优化,并返回执行上述通过待训练的特征提取编码器对样本图像进行编码的步骤及后续步骤,直至上述总损失达到收敛后,获得已训练的人像分割模型,其中,上述已训练的人像分割模型由已训练的特征提取编码器及已训练的人像分割解码器而构成。
假设上述为第一种可能的实施方式,则在第一种可能的实施方式作为基础而提供的第二种可能的实施方式中,上述通过待训练的特征提取编码器对样本图像进行编码,包括:
对上述样本图像进行预处理;
通过待训练的特征提取编码器对预处理后的上述样本图像进行编码。
在上述第二种可能的实施方式作为基础而提供的第三种可能的实施方式中,上述预处理包括尺寸调整处理;相应地,上述对上述样本图像进行预处理,包括:
检测上述样本图像的尺寸;
若上述尺寸与预设尺寸不匹配,则对上述样本图像的尺寸进行调整,使得调整后的上述样本图像的尺寸与上述预设尺寸相匹配,其中,上述预设尺寸基于上述特征提取编码器而确定。
在上述第二种可能的实施方式作为基础而提供的第四种可能的实施方式中,上述预处理包括归一化处理;相应地,上述对上述样本图像进行预处理,包括:
针对上述样本图像的每个像素点,获取上述像素点在各个颜色通道下的原始像素值;
分别将上述像素点在各个颜色通道下的原始像素值映射至预设范围内,得到上述像素点在各个颜色通道下的归一化像素值。
在上述第四种可能的实施方式作为基础而提供的第五种可能的实施方式中,上述分别将上述像素点在各个颜色通道下的原始像素值映射至预设范围内,得到上述像素点在各个颜色通道下的归一化像素值,包括:
针对每个颜色通道,获取上述样本图像在上述颜色通道下的最大原始像素值及最小原始像素值;
计算上述像素点在上述颜色通道下的原始像素值与上述最小原始像素值的像素差值;
将上述像素差值与上述最大原始像素值的比值确定为上述像素点在上述颜色通道下的归一化像素值。
在上述第一种可能的实施方式作为基础而提供的第六种可能的实施方式中,上述样本图像预先标注有边缘标签及分割标签,上述基于上述边缘结果、上述分割结果及上述样本图像计算上述边缘检测解码器、上述人像分割解码器及上述特征提取编码器的总损失,包括:
基于上述边缘结果及上述边缘标签,计算边缘损失;
基于上述分割结果及上述分割标签,计算分割损失;
将上述边缘损失及分割损失之和确定为上述总损失。
在上述第一种可能的实施方式作为基础而提供的第七种可能的实施方式中,在上述获得已训练的人像分割模型之后,处理器502通过运行存储在存储器501的上述计算机程序时还实现以下步骤:
采集待分割图像;
将上述待分割图像输入至上述已训练的人像分割模型,得到人像分割结果;
将上述人像分割结果传输至预设应用,以指示上述预设应用基于上述人像分割结果进行人机交互操作。
应当理解,在本申请实施例中,所称处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器501可以包括只读存储器和随机存取存储器,并向处理器502提供指令和数据。存储器501的一部分或全部还可以包括非易失性随机存取存储器。例如,存储器501还可以存储设备类别的信息。
由上可见,通过本申请实施例,在训练人像分割模型所使用的特征提取编码器及人像分割解码器时,还加入了另一解码器,也即边缘检测编码器,使得在训练的过程中,由人像分割解码器对特征提取编码器的编码结果进行解码后得到样本图像的分割结果,由边缘检测解码器对特征提取编码器的编码结果进行解码后得到样本图像的边缘结果,并通过分割结果、边缘结果及样本图像计算得到边缘检测解码器、人像分割解码器及特征提取编码器的总损失,最终基于该总损失实现对边缘检测解码器、人像分割解码器及特征提取编码器的联合优化。由于在训练过程中,有边缘部分对编码器进行指导,也即人像分割模型在迭代的过程中也会考虑到待分割的人像的边缘信息,因此,两部分一起训练能够使得人像分割模型能够更好地分割出人像区域,使得其人像分割结果更为精准。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将上述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者外部设备软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,上述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关联的硬件来完成,上述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,上述计算机程序包括计算机程序代码,上述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。上述计算机可读存储介质可以包括:能够携带上述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机可读存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,上述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读存储介质不包括是电载波信号和电信信号。
以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种模型获取方法,其特征在于,包括:
通过待训练的特征提取编码器对样本图像进行编码;
分别通过待训练的边缘检测解码器及待训练的人像分割解码器对编码结果进行解码,得到所述边缘检测解码器所输出的所述样本图像的边缘结果,以及,所述人像分割解码器所输出的所述样本图像的分割结果;
基于所述边缘结果、所述分割结果及所述样本图像计算所述边缘检测解码器、所述人像分割解码器及所述特征提取编码器的总损失;
若所述总损失未达到收敛,则根据所述总损失对所述边缘检测解码器、人像分割解码器及特征提取编码器进行优化,并返回执行所述通过待训练的特征提取编码器对样本图像进行编码的步骤及后续步骤,直至所述总损失达到收敛后,将所述边缘检测解码器丢弃,获得已训练的人像分割模型,其中,所述已训练的人像分割模型由已训练的特征提取编码器及已训练的人像分割解码器而构成。
2.如权利要求1所述的模型获取方法,其特征在于,所述通过待训练的特征提取编码器对样本图像进行编码,包括:
对所述样本图像进行预处理;
通过待训练的特征提取编码器对预处理后的所述样本图像进行编码。
3.如权利要求2所述的模型获取方法,其特征在于,所述预处理包括尺寸调整处理;相应地,所述对所述样本图像进行预处理,包括:
检测所述样本图像的尺寸;
若所述尺寸与预设尺寸不匹配,则对所述样本图像的尺寸进行调整,使得调整后的所述样本图像的尺寸与所述预设尺寸相匹配,其中,所述预设尺寸基于所述特征提取编码器而确定。
4.如权利要求2所述的模型获取方法,其特征在于,所述预处理包括归一化处理;相应地,所述对所述样本图像进行预处理,包括:
针对所述样本图像的每个像素点,获取所述像素点在各个颜色通道下的原始像素值;
分别将所述像素点在各个颜色通道下的原始像素值映射至预设范围内,得到所述像素点在各个颜色通道下的归一化像素值。
5.如权利要求4所述的模型获取方法,其特征在于,所述分别将所述像素点在各个颜色通道下的原始像素值映射至预设范围内,得到所述像素点在各个颜色通道下的归一化像素值,包括:
针对每个颜色通道,获取所述样本图像在所述颜色通道下的最大原始像素值及最小原始像素值;
计算所述像素点在所述颜色通道下的原始像素值与所述最小原始像素值的像素差值;
将所述像素差值与所述最大原始像素值的比值确定为所述像素点在所述颜色通道下的归一化像素值。
6.如权利要求1所述的模型获取方法,其特征在于,所述样本图像预先标注有边缘标签及分割标签,所述基于所述边缘结果、所述分割结果及所述样本图像计算所述边缘检测解码器、所述人像分割解码器及所述特征提取编码器的总损失,包括:
基于所述边缘结果及所述边缘标签,计算边缘损失;
基于所述分割结果及所述分割标签,计算分割损失;
将所述边缘损失及分割损失之和确定为所述总损失。
7.如权利要求1至6任一项所述的模型获取方法,其特征在于,在所述获得已训练的人像分割模型之后,所述模型获取方法还包括:
采集待分割图像;
将所述待分割图像输入至所述已训练的人像分割模型,得到人像分割结果;
将所述人像分割结果传输至预设应用,以指示所述预设应用基于所述人像分割结果进行人机交互操作。
8.一种模型获取装置,其特征在于,包括:
编码单元,用于通过待训练的特征提取编码器对样本图像进行编码;
解码单元,用于分别通过待训练的边缘检测解码器及待训练的人像分割解码器对编码结果进行解码,得到所述边缘检测解码器所输出的所述样本图像的边缘结果,以及,所述人像分割解码器所输出的所述样本图像的分割结果;
计算单元,用于基于所述边缘结果、所述分割结果及所述样本图像计算所述边缘检测解码器、所述人像分割解码器及所述特征提取编码器的总损失;
优化单元,用于若所述总损失未达到收敛,则根据所述总损失对所述边缘检测解码器、人像分割解码器及特征提取编码器进行优化,并再次触发所述编码单元的运行;
获取单元,用于在所述总损失达到收敛后,将所述边缘检测解码器丢弃,获得已训练的人像分割模型,其中,所述已训练的人像分割模型由已训练的特征提取编码器及已训练的人像分割解码器而构成。
9.一种智能设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011567053.3A CN112580567B (zh) | 2020-12-25 | 2020-12-25 | 一种模型获取方法、模型获取装置及智能设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011567053.3A CN112580567B (zh) | 2020-12-25 | 2020-12-25 | 一种模型获取方法、模型获取装置及智能设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112580567A CN112580567A (zh) | 2021-03-30 |
CN112580567B true CN112580567B (zh) | 2024-04-16 |
Family
ID=75139789
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011567053.3A Active CN112580567B (zh) | 2020-12-25 | 2020-12-25 | 一种模型获取方法、模型获取装置及智能设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112580567B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113240021B (zh) * | 2021-05-19 | 2021-12-10 | 推想医疗科技股份有限公司 | 一种筛选目标样本的方法、装置、设备及存储介质 |
CN114187318B (zh) * | 2021-12-10 | 2023-05-05 | 北京百度网讯科技有限公司 | 图像分割的方法、装置、电子设备以及存储介质 |
CN115619933A (zh) * | 2022-10-20 | 2023-01-17 | 百果园技术(新加坡)有限公司 | 基于遮挡分割的三维人脸重建方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110517278A (zh) * | 2019-08-07 | 2019-11-29 | 北京旷视科技有限公司 | 图像分割和图像分割网络的训练方法、装置和计算机设备 |
CN110660066A (zh) * | 2019-09-29 | 2020-01-07 | Oppo广东移动通信有限公司 | 网络的训练方法、图像处理方法、网络、终端设备及介质 |
CN111445493A (zh) * | 2020-03-27 | 2020-07-24 | 北京市商汤科技开发有限公司 | 图像处理方法及装置、电子设备和存储介质 |
CN111612807A (zh) * | 2020-05-15 | 2020-09-01 | 北京工业大学 | 一种基于尺度和边缘信息的小目标图像分割方法 |
CN111862127A (zh) * | 2020-07-23 | 2020-10-30 | Oppo广东移动通信有限公司 | 图像处理方法、装置、存储介质及电子设备 |
CN111932546A (zh) * | 2020-08-20 | 2020-11-13 | 展讯通信(上海)有限公司 | 图像分割模型训练方法、图像分割方法、装置、设备及介质 |
-
2020
- 2020-12-25 CN CN202011567053.3A patent/CN112580567B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110517278A (zh) * | 2019-08-07 | 2019-11-29 | 北京旷视科技有限公司 | 图像分割和图像分割网络的训练方法、装置和计算机设备 |
CN110660066A (zh) * | 2019-09-29 | 2020-01-07 | Oppo广东移动通信有限公司 | 网络的训练方法、图像处理方法、网络、终端设备及介质 |
CN111445493A (zh) * | 2020-03-27 | 2020-07-24 | 北京市商汤科技开发有限公司 | 图像处理方法及装置、电子设备和存储介质 |
CN111612807A (zh) * | 2020-05-15 | 2020-09-01 | 北京工业大学 | 一种基于尺度和边缘信息的小目标图像分割方法 |
CN111862127A (zh) * | 2020-07-23 | 2020-10-30 | Oppo广东移动通信有限公司 | 图像处理方法、装置、存储介质及电子设备 |
CN111932546A (zh) * | 2020-08-20 | 2020-11-13 | 展讯通信(上海)有限公司 | 图像分割模型训练方法、图像分割方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112580567A (zh) | 2021-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112580567B (zh) | 一种模型获取方法、模型获取装置及智能设备 | |
CN108171701B (zh) | 基于u网络和对抗学习的显著性检测方法 | |
CN109816011A (zh) | 生成人像分割模型的方法和视频关键帧提取方法 | |
CN111950723B (zh) | 神经网络模型训练方法、图像处理方法、装置及终端设备 | |
CN115661144B (zh) | 基于可变形U-Net的自适应医学图像分割方法 | |
CN111950453A (zh) | 一种基于选择性注意力机制的任意形状文本识别方法 | |
CN113159056A (zh) | 图像分割方法、装置、设备及存储介质 | |
CN109658330A (zh) | 一种发色调整方法及装置 | |
CN110619334B (zh) | 基于深度学习的人像分割方法、架构及相关装置 | |
CN114943876A (zh) | 一种多级语义融合的云和云影检测方法、设备及存储介质 | |
CN116469100A (zh) | 一种基于Transformer的双波段图像语义分割方法 | |
CN114612987A (zh) | 一种表情识别方法及装置 | |
CN116542991A (zh) | 一种用于裂缝图像分割的网络架构及其训练方法和分割方法 | |
CN117292020B (zh) | 图像生成方法、装置、电子设备及存储介质 | |
CN113971732A (zh) | 小目标检测方法、装置、可读存储介质及电子设备 | |
CN116796287A (zh) | 图文理解模型的预训练方法、装置、设备及存储介质 | |
CN112084874B (zh) | 一种物体检测方法、装置及终端设备 | |
CN113139617B (zh) | 一种输电线路自主定位方法、装置及终端设备 | |
CN112950652A (zh) | 机器人及其手部图像分割方法和装置 | |
CN113392902A (zh) | 数据集处理方法、装置、存储介质及电子设备 | |
CN113610856A (zh) | 训练图像分割模型和图像分割的方法和装置 | |
CN113554719A (zh) | 一种图像编码方法、解码方法、存储介质及终端设备 | |
CN112613376B (zh) | 重识别方法及装置,电子设备 | |
CN116152441B (zh) | 一种基于深度先验的多分辨率U-net曲面重建方法 | |
CN116382859A (zh) | 任务处理方法、设备、存储介质以及计算机程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |