CN113538480A - 图像分割处理方法、装置、计算机设备和存储介质 - Google Patents

图像分割处理方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN113538480A
CN113538480A CN202011477949.2A CN202011477949A CN113538480A CN 113538480 A CN113538480 A CN 113538480A CN 202011477949 A CN202011477949 A CN 202011477949A CN 113538480 A CN113538480 A CN 113538480A
Authority
CN
China
Prior art keywords
image
segmentation
model
error
trained
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011477949.2A
Other languages
English (en)
Inventor
姚亮
邰颖
汪铖杰
李季檩
黄飞跃
黄小明
冯云龙
朱俊伟
储文青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202011477949.2A priority Critical patent/CN113538480A/zh
Publication of CN113538480A publication Critical patent/CN113538480A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Abstract

本申请涉及一种图像分割处理方法、装置、计算机设备和存储介质,包括:获取样本图像;通过至少两个已训练的指导模型,分别对样本图像中的目标对象进行图像分割处理,得到各指导模型对应的第一分割结果;通过待训练的图像分割模型,对样本图像中的目标对象进行图像分割处理,得到第二分割结果;根据第二分割结果与第一分割结果之间的差异,确定蒸馏误差;根据第二分割结果中的边缘预测结果与第一分割结果中的边缘预测结果之间的差异,确定边缘误差;根据蒸馏误差以及边缘误差,调整图像分割模型的模型参数并继续进行蒸馏训练,直至满足训练停止条件,得到训练好的图像分割模型。采用本方法能够有效保证图像分割的处理效率的同时提高精准度。

Description

图像分割处理方法、装置、计算机设备和存储介质
技术领域
本申请涉及图像处理技术领域,特别是涉及一种图像分割处理方法、装置、计算机设备和存储介质。
背景技术
随着人工智能技术研究和进步,人工智能技术在图像处理领域广泛应用。图像分割是图像识别和计算机视觉至关重要的预处理,能够有效用于辅助各种场景图像中的图像分类、物体检测、物体跟踪等任务。随着深度学习的发展,出现了各种采用深度学习方式训练神经网络模型,以进行图像分割处理。
然而,目前在图像分割等图像处理应用中,使用的神经网络模型通常依赖于大量的标注训练数据和庞大的模型参数量,因而伴随着巨大的计算复杂度。难以在保证图像分割精准度的同时,保证图像分割的处理效率,导致在处理能力相对较小的设备上的处理效率较低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够有效保证图像分割精准度的同时,有效提高图像分割的处理效率的图像分割处理方法、装置、计算机设备和存储介质。
一种图像分割处理方法,所述方法包括:
获取样本图像;
在每轮蒸馏训练中,通过至少两个已训练的指导模型,分别对所述样本图像中的目标对象进行图像分割处理,得到各所述指导模型对应的第一分割结果;
通过待训练的图像分割模型,对所述样本图像中的所述目标对象进行图像分割处理,得到第二分割结果;所述图像分割模型的模型参数少于所述指导模型的模型参数;
根据所述第二分割结果与第一分割结果之间的差异,确定蒸馏误差;
根据所述第二分割结果中的边缘预测结果与第一分割结果中的边缘预测结果之间的差异,确定边缘误差;
根据所述蒸馏误差以及所述边缘误差,调整所述图像分割模型的模型参数并继续进行蒸馏训练,直至满足训练停止条件,得到训练好的图像分割模型。
一种图像分割处理装置,所述装置包括:
数据获取模块,用于获取样本图像;
第一分割处理模块,用于在每轮蒸馏训练中,通过至少两个已训练的指导模型,分别对所述样本图像中的目标对象进行图像分割处理,得到各所述指导模型对应的第一分割结果;
第二分割处理模块,用于通过待训练的图像分割模型,对所述样本图像中的所述目标对象进行图像分割处理,得到第二分割结果;所述图像分割模型的模型参数少于所述指导模型的模型参数;
误差确定模块,用于根据所述第二分割结果与第一分割结果的差异,确定蒸馏误差;根据所述第二分割结果中的边缘预测结果与第一分割结果中的边缘预测结果之间的差异,确定边缘误差;
参数调整模块,用于根据所述蒸馏误差以及所述边缘误差,调整所述图像分割模型的模型参数并继续进行蒸馏训练,直至满足训练停止条件,得到训练好的图像分割模型。
在一个实施例中,所述误差确定模块还用于根据所述第二分割结果中的像素信息与第一分割结果中的像素信息之间的差异,确定像素误差;所述参数调整模块还用于根据所述蒸馏误差、所述像素误差以及所述边缘误差,调整所述图像分割模型的模型参数并继续进行蒸馏训练,直至满足训练停止条件,得到训练好的图像分割模型。
在一个实施例中,所述样本图像包括未标注的样本图像和携带标注标签的样本图像;所述误差确定模块还用于针对未标注的样本图像,执行所述根据所述第二分割结果中的边缘预测结果与第一分割结果中的边缘预测结果之间的差异,确定边缘误差的步骤、以及根据所述第二分割结果中的像素信息与第一分割结果中的像素信息之间的差异,确定像素误差的步骤;针对标注的样本图像,根据所述第二分割结果中的边缘预测结果与所述标注标签中的边缘标签之间的差异,确定边缘误差;针对标注的样本图像,根据所述第二分割结果中的像素信息与所述标注标签所标注像素的像素信息之间的差异,确定像素误差。
在一个实施例中,所述参数调整模块还用于将所述蒸馏误差、所述像素误差以及所述边缘误差融合,得到目标误差值;根据所述目标误差值,调整所述图像分割模型的模型参数并继续进行蒸馏训练,直至满足训练停止条件,得到训练好的图像分割模型。
在一个实施例中,所述指导模型包括网络结构不同的第一指导模型和第二指导模型;所述第一分割处理模块还用于通过已训练的第一指导模型,对所述样本图像中的目标对象进行图像分割处理,得到所述第一指导模型对应的分割结果;通过已训练的第二指导模型,对所述样本图像中的所述目标对象进行图像分割处理,得到所述第二指导模型对应的分割结果;将所述第一指导模型对应的分割结果与所述第二指导模型对应的分割结果进行融合,得到第一分割结果。
在一个实施例中,所述图像分割模型包括编码层、解码层和融合层,所述编码层和所述解码层包括可分离卷积网络;所述第二分割处理模块还用于将所述样本图像输入至所述图像分割模型,通过所述编码层,对所述样本图像进行特征提取和可分离卷积处理,得到第一多尺度特征图;通过所述解码层,对所述第一多尺度特征图进行反卷积处理,得到第二多尺度特征;通过所述融合层,将所述第一多尺度特征图和所述第二多尺度特征图融合,得到样本图像语义特征,根据所述样本图像语义特征确定所述目标对象的像素点以及轮廓边缘,并根据所述像素点以及所述轮廓边缘输出第二分割结果。
在一个实施例中,所述图像分割处理装置还包括指导模型的训练模块,用于获取样本图像,所述样本图像携带标注标签;将所述样本图像输入至待训练的指导模型,通过待训练的指导模型,对所述样本图像中的目标对象进行图像分割处理,得到样本分割结果;根据所述样本分割结果中的像素信息与所述标注标签所标注像素的像素信息之间的差异,确定像素误差;根据所述样本分割结果中的边缘预测结果与所述标注标签的边缘标签之间的差异,确定边缘误差;根据所述像素误差和所述边缘误差,调整所述指导模型的模型参数并继续进行迭代训练,直至满足训练停止条件,得到训练好的指导模型。
在一个实施例中,所述数据获取模块还用于获取初始样本图像;分别按照不同类型的图像比例,对所述初始样本图像进行填充;对填充后的样本图像进行归一化处理,得到预处理后的样本图像。
在一个实施例中,所述图像分割处理装置还包括图像分割处理模块,用于获取待分割图像,将所述待分割图像输入至经过训练的图像分割模型;通过所述图像分割模型的编码层,对所述待分割图像进行特征提取和可分离卷积处理,得到第一多尺度特征图;通过所述图像分割模型的解码层,对所述第一多尺度特征图进行反卷积处理,得到第二多尺度特征;通过所述图像分割模型的融合层,将所述第一多尺度特征图和所述第二多尺度特征图融合,得到图像语义特征;根据所述图像语义特征确定所述目标对象的像素点以及轮廓边缘,并根据所述像素点以及所述轮廓边缘,得到所述待分割图像的分割结果。
在一个实施例中,所述待分割图像为连续的视频帧,所述待分割图像的分割结果包括各所述视频帧对应的初始分割结果;所述图像分割处理模块还用于获取当前视频帧的初始分割结果,以及所述当前视频帧之前的预设数量视频帧对应的初始分割结果;根据所述预设数量视频帧对应的初始分割结果,对所述当前视频帧的初始分割结果进行平滑滤波处理,得到所述当前视频帧对应的目标分割结果。
在一个实施例中,所述待分割图像的分割结果包括所述目标对象的区域和背景区域;所述图像分割处理模块还用于获取虚拟背景;将所述待分割图像中的所述背景区域替换为所述虚拟背景图,生成背景替换后的图像。
在一个实施例中,所述待分割图像为连续的视频帧,所述目标对象为人物;所述待分割图像的分割结果包括各所述视频帧中人物区域和背景区域;所述图像分割处理模块还用于将各所述视频帧中的所述背景区域替换为所述虚拟背景图,生成背景替换后的连续的视频帧。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取样本图像;
在每轮蒸馏训练中,通过至少两个已训练的指导模型,分别对所述样本图像中的目标对象进行图像分割处理,得到各所述指导模型对应的第一分割结果;
通过待训练的图像分割模型,对所述样本图像中的所述目标对象进行图像分割处理,得到第二分割结果;所述图像分割模型的模型参数少于所述指导模型的模型参数;
根据所述第二分割结果与第一分割结果之间的差异,确定蒸馏误差;
根据所述第二分割结果中的边缘预测结果与第一分割结果中的边缘预测结果之间的差异,确定边缘误差;
根据所述蒸馏误差以及所述边缘误差,调整所述图像分割模型的模型参数并继续进行蒸馏训练,直至满足训练停止条件,得到训练好的图像分割模型。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取样本图像;
在每轮蒸馏训练中,通过至少两个已训练的指导模型,分别对所述样本图像中的目标对象进行图像分割处理,得到各所述指导模型对应的第一分割结果;
通过待训练的图像分割模型,对所述样本图像中的所述目标对象进行图像分割处理,得到第二分割结果;所述图像分割模型的模型参数少于所述指导模型的模型参数;
根据所述第二分割结果与第一分割结果之间的差异,确定蒸馏误差;
根据所述第二分割结果中的边缘预测结果与第一分割结果中的边缘预测结果之间的差异,确定边缘误差;
根据所述蒸馏误差以及所述边缘误差,调整所述图像分割模型的模型参数并继续进行蒸馏训练,直至满足训练停止条件,得到训练好的图像分割模型。
一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括计算机指令,所述计算机指令存储在计算机可读存储介质中;所述计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令,所述处理器执行所述计算机指令时实现以下步骤:
获取样本图像;
在每轮蒸馏训练中,通过至少两个已训练的指导模型,分别对所述样本图像中的目标对象进行图像分割处理,得到各所述指导模型对应的第一分割结果;
通过待训练的图像分割模型,对所述样本图像中的所述目标对象进行图像分割处理,得到第二分割结果;所述图像分割模型的模型参数少于所述指导模型的模型参数;
根据所述第二分割结果与第一分割结果之间的差异,确定蒸馏误差;
根据所述第二分割结果中的边缘预测结果与第一分割结果中的边缘预测结果之间的差异,确定边缘误差;
根据所述蒸馏误差以及所述边缘误差,调整所述图像分割模型的模型参数并继续进行蒸馏训练,直至满足训练停止条件,得到训练好的图像分割模型。
上述图像分割处理方法、装置、计算机设备和存储介质,获取样本图像后,在每轮蒸馏训练中,通过至少两个已训练的指导模型,分别对样本图像中的目标对象进行图像分割处理,得到各指导模型对应的第一分割结果;通过待训练的图像分割模型,对样本图像中的目标对象进行图像分割处理,得到第二分割结果;然后根据第二分割结果与第一分割结果之间的差异,确定蒸馏误差;根据第二分割结果中的边缘预测结果与第一分割结果中的边缘预测结果之间的差异,确定边缘误差,由此在蒸馏训练中有效地引入了边缘误差进行监督训练。进而根据蒸馏误差以及边缘误差,调整图像分割模型的模型参数并继续进行蒸馏训练,直至满足训练停止条件,得到训练好的图像分割模型。由于图像分割模型是模型参数少于指导模型的轻量级模型,通过已训练的图像分割准确度较高的多个指导模型,对样本图像进行图像分割处理,进而根据第一分割结果和第二分割结果所确定的蒸馏误差和边缘误差,对待训练的轻量级图像分割模型进行蒸馏训练,能够有效提高轻量级的图像分割模型的精度。由此可以有效训练得到图像分割的处理效率较高和精准度较高的轻量级图像分割模型。
附图说明
图1为一个实施例中图像分割处理方法的应用环境图;
图2为一个实施例中图像分割处理方法的流程示意图;
图3为另一个实施例中图像分割处理方法的流程示意图;
图4为一个实施例中利用多指导模型进行蒸馏训练的流程图;
图5为一个实施例中图像分割模型的结构示意图;
图6为一个实施例中指导模型的训练步骤的流程示意图;
图7为一个实施例中另一种图像分割处理方法的流程示意图;
图8为一个实施例中待分割图像的示意图;
图9为一个实施例中待分割图像对应的分割结果的示意图;
图10为一个实施例中又一种图像分割处理方法的流程示意图;
图11为一个实施例中虚拟背景的设置界面的示意图;
图12为一个实施例中图像分割处理装置的结构框图;
图13为另一个实施例中图像分割处理装置的结构框图;
图14为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的图像分割方法,可以应用于计算机设备中。计算机设备可以为终端或服务器。可以理解的是,本申请提供的图像分割处理方法可以应用于终端,也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。
本申请提供的图像分割处理方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。其中,终端102可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。服务器104可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端102以及服务器104可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
其中,云计算(cloud computing)是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。作为云计算的基础能力提供商,会建立云计算资源池(简称云平台,一般称为IaaS(Infrastructure as a Service,基础设施即服务)平台,在资源池中部署多种类型的虚拟资源,供外部客户选择使用。
具体地,终端102采集样本图像后,将样本图像上传至服务器104。服务器104获取样本图像后,在每轮蒸馏训练中,通过至少两个已训练的指导模型,分别对样本图像中的目标对象进行图像分割处理,得到各指导模型对应的第一分割结果;通过待训练的图像分割模型,对样本图像中的目标对象进行图像分割处理,得到第二分割结果;根据第二分割结果与第一分割结果之间的差异,确定蒸馏误差;根据第二分割结果中的边缘预测结果与第一分割结果中的边缘预测结果之间的差异,确定边缘误差。进而根据蒸馏误差以及边缘误差,调整图像分割模型的模型参数并继续进行蒸馏训练,直至满足训练停止条件,得到训练好的图像分割模型。
可以理解,本申请各实施例中的图像分割方法,采用人工智能技术中的计算机视觉技术以及机器学习技术等,能够有效实现自动检测并分割出三维图像中的目标对象。人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。可以理解,本申请正是使用计算机视觉技术,从图像中检测并分割出目标对象。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。可以理解,在本申请一些实施例中使用到的语义分割网络和实例分割网络,就是使用机器学习技术训练得到的,基于该机器学习技术训练得到的指导模型和图像分割模型,能够更加准确地从图像中分割出目标对象对应的分割结果。
在一个实施例中,如图2所示,提供了一种图像分割处理方法,以该方法应用于计算机设备为例进行说明,该计算机设备具体可以是图1中的终端或服务器,可以理解的是,该方法还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例中,该方法包括以下步骤:
S202,获取样本图像。
在计算机视觉领域,图像分割是指把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程,也就是将数字图像细分为多个图像子区域,即像素的集合,也被称作超像素的过程。
其中,目标对象是指图像中需要分割出来的物体对象,也就是针对目标对象,对图像数据进行对象图像分割,用于定位图像中目标对象对应的物体和边界,例如可以用线、曲线等表示。例如,目标对象可以是图像中的人物、人脸、车辆或医学影像中的医学检测对象等,在此不做限定。
可以理解,样本图像,是作为模型训练样本数据的图像,样本图像中包括了未标注的样本图像,也就是没有预先标注用于监督训练的标记标签。样本图像具体可以是包括目标对象的图像。其中,样本图像可以直接从互联网获取或从存储器读取,或者通过拍摄装置所采集的图像作为样本图像。在其中一个实施例中,样本图像中同时包括人工采集和从公开数据集或有授权的网站上爬取获得的图像。
计算机设备首先获取未标注的样本图像,然后利用获取的样本图像对待训练的图像分割模型进行训练。
S204,在每轮蒸馏训练中,通过至少两个已训练的指导模型,分别对样本图像中的目标对象进行图像分割处理,得到各指导模型对应的第一分割结果。
可以理解,蒸馏训练,也即模型蒸馏,是指将训练好的精准度较高的复杂模型所学习到的知识迁移到一个结构更简单的网络模型中,或者通过简单的网络模型去学习复杂模型中知识。例如,复杂模型通常被称为教师模型,简单模型通常被称为学生模型,以利用教师模型指导训练学生模型。
其中,指导模型是已经训练好的图像分割准确性高的机器学习模型,指导模型用于对待训练的图像分割模型进行指导训练。具体的,指导模型也可以是一种具有图像分割处理功能的图像分割模型。例如,指导模型可以为采用基于HRNet-OCR(HighResolutionNet+Object Contextual Representation,高分辨率网络结合上下文表示)、EPSPanopticDeep-Lab(Efficient Panoptic Segmentation Panoptic DeepLab,高效全景分割全景深度网络)、MaskRCNN(基于掩膜的卷积区域神经网络)等深度卷积网络的机器学习模型。
计算机设备获取样本图像后,获取至少两个已训练的指导模型,以利用至少两个已训练的指导模型对待训练的图像分割模型进行蒸馏训练。其中,至少两个已训练的指导模型,是具分别不同的有结构差异的多个指导模型。可以理解,多个是指两个或两个以上。
在每轮蒸馏训练中,计算机设备首先将样本图像分别输入至少两个已训练的指导模型,通过至少两个已训练的指导模型,分别对样本图像中的目标对象进行图像分割处理,得到各指导模型对应的第一分割结果。
具体地,通过各指导模型中的各网络层对样本图像进行特征提取和卷积处理,以提取出样本图像的样本图像语义特征,根据样本图像语义特征确定属于目标对象的像素点以及轮廓边缘,并根据目标对象的像素点以及轮廓边缘,输出第一分割结果。
可以理解的是,第一分割结果中不仅包括了针对目标对象的预测结果,还包括了对针目标对象的轮廓边缘的边缘预测结果。其中,分割结果可以为经过图像分割处理后样本图像对应的掩膜图,具体可以为二值化Mask掩膜图。其中包括目标对象的像素区域,即前景区域,以及除目标对象的像素区域以外的背景区域。
在其中一个实施例中,分割结果中还可以包括对目标对象的轮廓边缘进行分割后的掩膜图。
可以理解的是,各指导模型对应的第一分割结果,可以包括每个指导模型分别对应的分割结果,也可以是通过对每个指导模型对应的分割结果融合生成的。
S206,通过待训练的图像分割模型,对样本图像中的目标对象进行图像分割处理,得到第二分割结果;图像分割模型的模型参数少于指导模型的模型参数。
其中,待训练的图像分割模型的模型参数少于指导模型的模型参数,也就是待训练的图像分割模型相较于指导模型而言,是模型的通道数量和模型深度更少的轻量级模型。由此使得图像分割模型能够在处理性能较小的移动设备上更加高效地处理图像分割任务,能够有效满足对于图像分割处理的实时性要求。
例如,图像分割模型可以为采用基于Unet(U型结构网络)、ResNet(残差网络)、RPN(Region Proposal Network,区域生成网络)、FasterRCNN(Faster Region ConvolutionalNeural Networks,深度学习的目标检测网络)等神经网络的机器学习模型。
在每轮蒸馏训练中,计算机设备同时还将样本图像输入至待训练的图像分割模型,通过待训练的图像分割模型,对样本图像中的目标对象进行图像分割处理,得到第二分割结果。
具体地,可以通过图像分割模型中的各网络层对样本图像进行特征提取和卷积处理,以提取出样本图像的样本图像语义特征,根据样本图像语义特征确定属于目标对象的像素点以及轮廓边缘,并根据目标对象的像素点以及轮廓边缘,输出第二分割结果。同样的,第二分割结果中也不仅包括了针对目标对象的预测结果,还包括了对针目标对象的轮廓边缘的边缘预测结果。
S208,根据第二分割结果与第一分割结果之间的差异,确定蒸馏误差。
其中,蒸馏误差,是指第二分割结果中的针对样本图像中属于目标对象的像素点的预测概率,与第一分割结果中的针对样本图像中属于目标对象的像素点的预测概率之间的误差。
计算机设备通过各指导模型对样本图像进行图像分割处理,得到对应的第一分割结果,以及通过待训练的图像分割模型对样本图像进行图像分割处理,得到对应的第二分割结果后。计算机设备则根据第二分割结果与第一分割结果中针对目标对象的预测概率之间的差异,确定指导模型与待训练的图像分割模型之间的蒸馏误差。
S210,根据第二分割结果中的边缘预测结果与第一分割结果中的边缘预测结果之间的差异,确定边缘误差。
其中,边缘误差,是第二分割结果中针对目标对象的边缘预测结果,与第一分割结果中针对目标对象的边缘预测结果之间的误差。
计算机设备获得各指导模型对应的第一分割结果,以及第二分割结果后,同时还根据第二分割结果中针对目标对象的边缘预测结果,与第一分割结果中针对目标对象的边缘预测结果之间的差异,确定指导模型与待训练的图像分割模型之间的边缘误差。
S212,根据蒸馏误差以及边缘误差,调整图像分割模型的模型参数并继续进行蒸馏训练,直至满足训练停止条件,得到训练好的图像分割模型。
可以理解,训练图像分割模型的过程中,需要对图像分割模型进行多轮迭代蒸馏训练。每轮的迭代蒸馏训练是通过调整本轮的初始图像分割模型的模型参数,来使得模型逐步收敛,以得到最终的图像分割模型。其中,本轮是进行模型训练的当前轮次。
其中,训练停止条件是指满足模型训练的结束条件,例如训练停止条件可以是达到预设的迭代次数,也可以是调整参数后的图像分割模型的图像分割处理性能的指标达到预设指标。例如,预设指标可以包括整体像素精确率、目标对象的像素区域的交并比、边缘像素精确率以及边缘像素区域的交并比等。
具体地,计算机设备确定出本轮中各指导模型与待训练的图像分割模型之间的蒸馏误差和边缘误差后,进而根据蒸馏误差以及边缘误差,调整图像分割模型的模型参数并继续进行蒸馏训练。使得待训练的图像分割模型根据蒸馏误差以及边缘误差,朝着减少蒸馏误差和边缘误差的方向,不断调整图像分割模型的模型参数。使得图像分割模型不断向指导模型学习,从而使图像分割模型的图像分割处理能力和分割精准度接近于指导模型。
当本轮未满足训练停止条件时,则进入下一轮蒸馏训练,继续通过至少两个指导模型和待训练的图像分割模型对样本图像进行图像分割处理。进而根据下一轮得到的蒸馏误差以及边缘误差,调整图像分割模型的模型参数,以进行迭代蒸馏训练。当满足训练停止条件时,则停止迭代训练,从而得到训练好的图像分割模型。
在其中一个实施例中,在蒸馏训练的过程中或训练完成之后,还可以对图像分割模型进行测试。具体地,计算机设备获取测试图像,通过当前的图像分割模型对测试图像中的目标对象进行图像分割处理,得到测试分割结果。测试分割结果为二值化掩膜图。计算机设备则根据预设指标,如整体像素精确率、目标对象的像素区域的交并比、边缘像素精确率以及边缘像素区域的交并比等,对当前的图像分割模型的性能进行测试,以根据测试结果不断对图像分割模型的结构进行优化和迭代训练,以提升图像分割模型的性能和精度。
可以理解,训练完成的图像分割模型是一种具有对图像进行图像分割能力的机器学习模型,可应用于对图像进行图像分割处理,以分割出图像中的目标对象和背景。
上述图像分割处理方法中,获取样本图像后,在每轮蒸馏训练中,通过至少两个已训练的指导模型,分别对样本图像中的目标对象进行图像分割处理,得到各指导模型对应的第一分割结果;通过待训练的图像分割模型,对样本图像中的目标对象进行图像分割处理,得到第二分割结果。然后根据第二分割结果与第一分割结果之间的差异,确定蒸馏误差;根据第二分割结果中的边缘预测结果与第一分割结果中的边缘预测结果之间的差异,确定边缘误差,由此在蒸馏训练中有效地引入了边缘误差进行监督训练。进而根据蒸馏误差以及边缘误差,调整图像分割模型的模型参数并继续进行蒸馏训练,直至满足训练停止条件,得到训练好的图像分割模型。由于图像分割模型是模型参数少于指导模型的轻量级模型,通过已训练的图像分割准确度较高的多个指导模型,对样本图像进行图像分割处理,进而根据第一分割结果和第二分割结果所确定的蒸馏误差和边缘误差对待训练的轻量级图像分割模型进行蒸馏训练,能够有效提高轻量级图像分割模型的精度。由此可以有效训练得到能够保证图像分割精准度的同时,有效提高图像分割的处理效率的轻量级图像分割。
在一个实施例中,上述图像分割处理方法,还包括:根据第二分割结果中的像素信息与第一分割结果中的像素信息之间的差异,确定像素误差;
根据蒸馏误差以及边缘误差,调整图像分割模型的模型参数并继续进行蒸馏训练,直至满足训练停止条件,得到训练好的图像分割模型,包括:根据蒸馏误差、像素误差以及边缘误差,调整图像分割模型的模型参数并继续进行蒸馏训练,直至满足训练停止条件,得到训练好的图像分割模型。
可以理解,像素误差,是指各图像中的像素信息之间的像素差异。本实施例中的像素误差是指第二分割结果中的像素信息与第一分割结果中的像素信息之间的像素差异。
其中,像素信息可以包括二值化像素值和各像素点或像素区域对应的像素特征。因此,像素误差可以包括各像素点的二值化像素值误差,以及像素特征误差。具体地,蒸馏误差可以采用KLLoss(Kullback-Leibler divergence Loss,相对熵损失)函数计算分类损失得到,即比较第二预测结果中对样本图像中各像素的预测类别概率,与第一预测结果中对样本图像中各像素的预测类别概率之间的分类损失,确定待训练的图像分割模型与指导模型之间的蒸馏误差。
其中,像素误差可以包括各像素点的二值化像素值误差,以及各像素点或像素区域对应的像素特征误差。具体地,二值化像素值误差可以采用CrossEntropyLoss(交叉熵损失)函数计算得到,即比较第二预测结果中的像素信息中各像素点的二值化像素值,与第二分割结果中的像素信息中各像素点的二值化像素值之间的差异,或与标注标签所标注的像素信息中各像素点的二值化像素值之间的差异,确定二值化像素值误差。
像素特征误差可以采用Affinity Loss(亲和力损失)函数计算得到,即通过比较第二预测结果中的像素信息中各像素点或像素区域对应的像素特征,与第二分割结果中的像素信息中各像素点或像素区域对应的像素特征之间的差异,或与标注标签所标注的像素信息中或像素区域对应的像素特征之间的差异,确定像素误差。
进一步地,边缘误差可以采用Edge Loss(亲和力损失)函数计算得到,即通过比较第二预测结果中针对目标对象的边缘预测结果,与第一分割结果中针对目标对象的边缘预测结果之间的差异,或与标注标签中的边缘标签之间的差异,确定边缘误差。
具体地,计算机设备获得各指导模型对应的第一分割结果,以及第二分割结果后,根据第二分割结果与第一分割结果中针对目标对象的预测概率之间的差异,确定蒸馏误差;以及根据第二分割结果中针对目标对象的边缘预测结果,与第一分割结果中针对目标对象的边缘预测结果之间的差异,确定边缘误差。同时计算机设备还根据第二分割结果中的像素信息,与第一分割结果中的像素信息之间的差异,确定指导模型与待训练的图像分割模型之间的像素误差。
计算机设备进而根据所确定的蒸馏误差、像素误差以及边缘误差,调整图像分割模型的模型参数并继续进行蒸馏训练,直至满足训练停止条件,得到训练好的图像分割模型。
具体地,蒸馏误差可以采用KLLoss(Kullback-Leibler divergence Loss,相对熵损失)函数计算分类损失得到,即比较第二预测结果中对样本图像中各像素的预测类别概率,与第一预测结果中对样本图像中各像素的预测类别概率之间的分类损失,确定待训练的图像分割模型与指导模型之间的蒸馏误差。
其中,像素误差可以包括各像素点的二值化像素值误差,以及各像素点或像素区域对应的像素特征误差。具体地,二值化像素值误差可以采用CrossEntropyLoss(交叉熵损失)函数计算得到,即比较第二预测结果中的像素信息中各像素点的二值化像素值,与第二分割结果中的像素信息中各像素点的二值化像素值之间的差异,或与标注标签所标注的像素信息中各像素点的二值化像素值之间的差异,确定二值化像素值误差。
像素特征误差可以采用Affinity Loss(亲和力损失)函数计算得到,即通过比较第二预测结果中的像素信息中各像素点或像素区域对应的像素特征,与第二分割结果中的像素信息中各像素点或像素区域对应的像素特征之间的差异,或与标注标签所标注的像素信息中或像素区域对应的像素特征之间的差异,确定像素误差。
进一步地,边缘误差可以采用Edge Loss(亲和力损失)函数计算得到,即通过比较第二预测结果中针对目标对象的边缘预测结果,与第一分割结果中针对目标对象的边缘预测结果之间的差异,或与标注标签中的边缘标签之间的差异,确定边缘误差。
本实施例中,通过在蒸馏训练的过程中,分别确定指导模型与待训练的图像分割模型之间的蒸馏误差、像素误差以及边缘误差,使得待训练的图像分割模型根据蒸馏误差、像素误差以及边缘误差不断学习指导模型中的知识,由此能够有效提高图像分割模型的精准度。
在一个实施例中,如图3所示,提供了另一种图像分割出来方法,包括以下步骤:
S302,获取样本图像;样本图像包括未标注的样本图像和携带标注标签的样本图像。
S304,在每轮蒸馏训练中,通过至少两个已训练的指导模型,分别对样本图像中的目标对象进行图像分割处理,得到各指导模型对应的第一分割结果。
S306,通过待训练的图像分割模型,对样本图像中的目标对象进行图像分割处理,得到第二分割结果;图像分割模型的模型参数少于指导模型的模型参数。
S308,根据第二分割结果与第一分割结果之间的差异,确定蒸馏误差。
S310,针对未标注的样本图像,根据第二分割结果中的边缘预测结果与第一分割结果中的边缘预测结果之间的差异,确定边缘误差;根据第二分割结果中的像素信息与第一分割结果中的像素信息之间的差异,确定像素误差。
S312,针对标注的样本图像,根据第二分割结果中的边缘预测结果与标注标签中的边缘标签之间的差异,确定边缘误差;根据第二分割结果中的像素信息与标注标签所标注像素的像素信息之间的差异,确定像素误差。
S314,根据蒸馏误差、像素误差以及边缘误差,调整图像分割模型的模型参数并继续进行蒸馏训练,直至满足训练停止条件,得到训练好的图像分割模型。
可以理解,样本图像中包括一部分未标注的样本图像,还包括一部分携带标注标签的样本图像。其中,标注标签是针对样本图像中的目标对象所标记的标签,用于与图像分割模型的输出结果进行差异比较,以用于对图像分割模型进行调参等处理。标注标签,具体可以是由人工标注生成。
可以理解的是,标注标签中不仅可以包括针对目标对象标注的像素信息,还可以包括对针目标对象的轮廓边缘的边缘标签。
在其中一个实施例中,样本图像包括预设比例的未标注的样本图像和携带标注标签的已标注的样本图像。其中,未标注的样本图像的数量多于已标注的样本图像。例如,预设比例可以为5:1,比如未标注的样本图像的数量为50万张,已标注的样本图像的数量为10万张。由此能够有效减少标注样本图像的资源消耗,同时加入部分已标注的样本图像,能够有效提高训练图像分割模型的精准度。
计算机设备获取样本图像后,然后在每轮蒸馏训练中,通过至少两个已训练的指导模型,分别对样本图像中的目标对象进行图像分割处理,得到各指导模型对应的第一分割结果;通过待训练的图像分割模型,对样本图像中的目标对象进行图像分割处理,得到第二分割结果。进而根据第二分割结果与第一分割结果中针对目标对象的预测概率之间的差异,确定指导模型与待训练的图像分割模型之间的蒸馏误差。
进一步地,针对未标注的样本图像,根据第二分割结果中的边缘预测结果与第一分割结果中的边缘预测结果之间的差异,确定边缘误差;根据第二分割结果中的像素信息与第一分割结果中的像素信息之间的差异,确定像素误差。
针对标注的样本图像,则是根据第二分割结果中的边缘预测结果与标注标签中的边缘标签之间的差异,确定边缘误差;根据第二分割结果中的像素信息与标注标签所标注像素的像素信息之间的差异,确定像素误差。
计算机设备进而根据所确定的蒸馏误差、像素误差以及边缘误差,调整图像分割模型的模型参数并继续进行蒸馏训练,直至满足训练停止条件,得到训练好的图像分割模型。
本实施例中,通过获取较多部分的未标注的样本图像和少部分已标注的样本图像,有效减少了标注样本图像的资源消耗的同时,能够有效提高训练图像分割模型的精准度。并且在蒸馏训练的过程中,针对未标注的样本图像和已标注的样本图像,分别确定相应的像素误差以及边缘误差,使得待训练的图像分割模型根据所确定的蒸馏误差、像素误差以及边缘误差不断学习指导模型中的知识,由此能够有效提高图像分割模型的精准度。
在一个实施例中,根据蒸馏误差、像素误差以及边缘误差,调整图像分割模型的模型参数并继续进行蒸馏训练,直至满足训练停止条件,得到训练好的图像分割模型,包括:将蒸馏误差、像素误差以及边缘误差融合,得到目标误差值;根据目标误差值,调整所图像分割模型的模型参数并继续进行蒸馏训练,直至满足训练停止条件,得到训练好的图像分割模型。
可以理解,计算机设备分别确定出蒸馏误差、像素误差以及边缘误差后,还可以将蒸馏误差、像素误差以及边缘误差融合。具体地,可以直接将蒸馏误差、像素误差以及边缘误差进行累加得到目标误差值。还可以对蒸馏误差、像素误差以及边缘误差进行加权求和,生成目标误差值。计算机设备进而目标误差值,调整所图像分割模型的模型参数并继续进行蒸馏训练,直至满足训练停止条件,得到训练好的图像分割模型。
在一个实施例中,指导模型包括网络结构不同的第一指导模型和第二指导模型;通过至少两个已训练的指导模型,分别对样本图像中的目标对象进行图像分割处理,得到各指导模型对应的第一分割结果,包括:通过已训练的第一指导模型,对样本图像中的目标对象进行图像分割处理,得到第一指导模型对应的分割结果;通过已训练的第二指导模型,对样本图像中的目标对象进行图像分割处理,得到第二指导模型对应的分割结果;将第一指导模型对应的分割结果与第二指导模型对应的分割结果进行融合,得到第一分割结果。
其中,指导模型包括网络结构不同的第一指导模型和第二指导模型。例如,第一指导模型可以为采用基于HRNet-OCR网络的机器学习模型;第二指导模型可以为采用基于EPSPanoptic Deep-Lab网络的机器学习模型。
计算机设备获取样本图像后,在每轮蒸馏训练中,将样本图像分别输入至已训练的第一指导模型和第二指导模型,然后通过第一指导模型,对样本图像中的目标对象进行图像分割处理,得到第一指导模型对应的分割结果。通过第二指导模型,对样本图像中的目标对象进行图像分割处理,得到第二指导模型对应的分割结果。
计算机设备进而将第一指导模型对应的分割结果与第二指导模型对应的分割结果进行融合,具体地,对第一指导模型和第二指导模型分别对应的分割结果进行平均融合,比如对两个指导模型的分割结果进行加权平均,从而得到一个融合后的分割结果。融合后的分割结果即为第一分割结果。
计算机设备同时还通过待训练的图像分割模型,对样本图像中的目标对象进行图像分割处理,得到第二分割结果。根据第二分割结果与第一分割结果之间的差异,确定蒸馏误差;根据第二分割结果中的边缘预测结果与第一分割结果中的边缘预测结果之间的差异,确定边缘误差。进而根据蒸馏误差以及边缘误差,调整图像分割模型的模型参数并继续进行蒸馏训练,直至满足训练停止条件,得到训练好的图像分割模型。
可以理解,本实施例中的指导模型的数量为两个。在一些其他的实施例中,指导模型的数量还可以为两个以上,且均为网络结构不同的指导模型。
例如,如图4所示,为一个实施例中利用多指导模型进行蒸馏训练的流程图。参照图4,指导模型41包括多个,比如三个以上,即包括指导模型1、指导模型2...指导模型N。待训练的图像分割模型为42。以待分割的目标对象为人物为例,在每轮蒸馏训练中,分别将样本图像40输入至已训练的多个指导模型,以及待训练的图像分割模型。然后每个指导模型分别对样本图像40中的目标对象进行图像分割处理,得到各个指导模型分别对应的分割结果。即图4中,指导模型1输出的分割结果为4101,指导模型2输出的分割结果为4102,指导模型N输出的分割结果为4103,然后将分割结果4101、分割结果4102以及分割结果4103进行融合,得到融合后的第一分割结果4104。此外,通过待训练的图像分割模型42,对样本图像40中的目标对象进行图像分割处理,得到第二分割结果4201。
计算机设备则根据第二分割结果4201与融合后的第一分割结果4104之间的差异,确定蒸馏误差。以及根据第二分割结果4201中的边缘预测结果与第一分割结果4104中的边缘预测结果之间的差异,确定边缘误差;根据第二分割结果4201中的像素信息与第一分割结果4104中的像素信息之间的差异,确定像素误差。针对标注的样本图像,则根第二分割结果4201中的边缘预测结果与标注标签401中的边缘标签之间的差异,确定边缘误差;根据第二分割结果4201中的像素信息与标注标签401所标注像素的像素信息之间的差异,确定像素误差。
计算机设备进而根据蒸馏误差以及边缘误差,调整图像分割模型的模型参数并继续进行蒸馏训练,直至满足训练停止条件,得到训练好的图像分割模型。由于各个指导模型在网络结构上存在差异性,因此能够实现将各个指导模型的分割结果进行互补,其融合结果效果大于单个指导模型的效果,由此能够更加有效地训练出精准度较高的图像分割模型。
在一个实施例中,图像分割模型包括编码层、解码层和融合层,编码层和解码层包括可分离卷积网络;通过待训练的图像分割模型,对样本图像中的目标对象进行图像分割处理,得到第二分割结果,包括:将样本图像输入至图像分割模型,通过编码层,对样本图像进行特征提取和可分离卷积处理,得到第一多尺度特征图;通过解码层,对第一多尺度特征图进行反卷积处理,得到第二多尺度特征;通过融合层,将第一多尺度特征图和第二多尺度特征图融合,得到样本图像语义特征,根据样本图像语义特征确定目标对象的像素点以及轮廓边缘,并根据像素点以及轮廓边缘输出第二分割结果。
可以理解,图像分割模型采用包括编码层、解码层和融合层的网络结构。例如,如图5所示,为一个实施例中图像分割模型的结构示意图。图像分割模型包括编码层502、解码层504和融合层506。其中,编码层502和解码层504中包括可分离卷积网络,也就是图像分割模型采用的是基于分离卷积网络的机器学习模型。具体可以采用Depth-wise SeparableConvolutions(深度可分离卷积网络)。采用可分离卷积网络,相较于传统的卷积网络,能够有效减少图像分割模型的通道数量以及模型深度,由此能够得到模型参数较少的轻量级的图像分割模型。其中,样本图像50即为图像分割模型的输入图像。以样本图像50中待分割的目标对象为人物为例,将样本图像50输入至图像分割模型后,通过图像分割模型的编码层502、解码层504和融合层506对样本图像中的人物进行图像分割处理后,分别输出针对人物的边缘分割结果5001,以及目标对象分割结果5002。其中,边缘分割结果5001包括针对人物的边缘轮廓区域的边缘分割结果掩膜图,目标对象分割结果5002包括属于人物的像素区域的分割结果掩膜图。
具体地,图像分割模型的编码层502中可以包括多个深度可分离卷积网络,用于对输入的样本图像进行卷积处理、池化处理以及降采样处理,以提取样本图像的多个尺度的特征。
图像分割模型的解码层504也包括多个深度可分离卷积网络,用于对输入进行反卷积、池化处理以及上采样处理。通过采用编码-解码的网络结构,能够精准有效地提取图像层级的图像语义特征。
图像分割模型的融合层506用于对编码层和解码层输出的结果进行融合,得到样本图像的最终的样本图像语义特征,并输出最终的分割结果。
具体地,计算机设备通过待训练的图像分割模型对样本图像进行图像分割处理的过程中,首先将样本图像输入至图像分割模型,通过编码层中的各深度可分离卷积网络,对样本图像进行下采样处理,得到对应的特征图。然后对相应的特征增图进行特征提取和可分离卷积处理,以获得高层次的局部特征,得到多个尺度的特征图和对应的局部特征,即生成第一多尺度特征图。
进一步将编码层输出的第一多尺度特征图以及对应的局部特征输入至解码层,其中,同时还利用下采样的池化索引作为上采样的指导,将编码层部分的特征跳跃连接到解码层,进而通过解码层对第一多尺度特征图和对应的局部特征进行反卷积处理,得到第二多尺度特征。
进而通过图像分割模型的融合层,将第一多尺度特征图和第二多尺度特征图融合,得到样本图像语义特征,由此能够有效地根据样本图像语义特征确定目标对象的像素点以及轮廓边缘,并根据目标对象的像素点以及轮廓边缘输出第二分割结果。
本实施例中,通过采用可分离卷积网络的编码-解码的网络结构,能够有效减少图像分割模型的模型通道数量和模型参数。由此在蒸馏训练的过程中,能够有效地训练得到分割精准度较高的轻量级的图像分割模型。
在一个实施例中,如图6所示,指导模型的训练步骤,包括:
S602,获取样本图像,样本图像携带标注标签。
S604,将样本图像输入至待训练的指导模型,通过待训练的指导模型,对样本图像中的目标对象进行图像分割处理,得到样本分割结果。
S606,根据样本分割结果中的像素信息与标注标签所标注像素的像素信息之间的差异,确定像素误差。
S608,根据样本分割结果中的边缘预测结果与标注标签的边缘标签之间的差异,确定边缘误差。
S610,根据像素误差和边缘误差,调整指导模型的模型参数并继续进行迭代训练,直至满足训练停止条件,得到训练好的指导模型。
其中,样本图像为训练指导模型的训练样本数据,训练样本数据均为携带标注标签的样本图像,标注标签是针对样本图像中的目标对象所标记的标签。标注标签中包括所标注像素的像素信息以及边缘标签。
在蒸馏训练图像分割模型之前,预先训练至少两个指导模型。其中,指导模型的训练过程可以为第一阶段的模型训练,图像分割模型的蒸馏训练过程为第二阶段的模型训练。可以理解,在第一阶段的模型训练过程中,可以同时训练至少两个指导模型。例如,可以利用相同的样本图像,同时训练多个指导模型。在其中一个实施例中,还可以采用多GPU(Graphics Processing Unit,图形处理器)分布式的方式,同时高效地训练多个指导模型。
具体地,计算机获取样本图像后,将样本图像输入至待训练的指导模型,通过待训练的指导模型中各个网络层对样本图像进行特征提取,以提取样本图像对应的样本图像语义特征,以根据样本图像语义特征确定样本图像中属于目标对象的像素点以及轮廓边缘,并根据目标对象的像素点以及轮廓边缘,输出样本分割结果。其中,样本分割结果中包括基于特征提取得到的像素信息,以及对目标对象的边缘预测结果。
计算机设备得到样本分割结果后,则根据样本分割结果中的像素信息与标注标签所标注像素的像素信息之间的差异,确定像素误差。同时还根据样本分割结果中的边缘预测结果与标注标签的边缘标签之间的差异,确定边缘误差。
计算机设备进而根据像素误差和边缘误差,调整指导模型的模型参数并继续进行迭代训练,直至满足训练停止条件,得到训练好的指导模型。其中,样本分割结果与标注标签的差异也可以采用损失函数来衡量,例如可以选择交叉熵损失函数等函数、平均绝对值损失函数、平滑平均绝对误差等作为损失函数。例如,还可以通过Adam(Adaptive momentestimation,自适应矩估计)算法对指导模型的模型参数进行更新,一直迭代训练到模型收敛得到训练好的大模型参数。训练条件是结束网络模型训练的条件。训练停止条件可以是达到预设的迭代次数,或者是调整参数后的指导模型的图像分割性能指标达到预设指标。
本实施例中,对样本图像中目标对象对应的像素和轮廓边缘进行预测训练,并根据样本分割结果与标注标签的差异,计算像素误差的同时,还引入了边缘误差进行监督训练,逐步调整实例分割网络的参数。由此在参数调整过程中,经过多次特征提取和特征增强,使得指导模型能够有效获得深层次的图像特征,由此能够训练得到针对目标对象的分割准确度较高的指导模型。
在一个实施例中,获取样本图像,包括:获取初始样本图像;分别按照不同类型的图像比例,对初始样本图像进行填充;对填充后的样本图像进行归一化处理,得到预处理后的样本图像。
可以理解,在利用样本图像进行模型蒸馏训练之前,还可以对获取的初始样本图像进行预处理。其中,不同类型的图像比例,可以是图像的宽高比不一致。例如,不同类型的图像比例,可以包括横屏类型的图像比例和竖屏类型的图像比例,即横屏比例和竖屏比例。比如,通常横屏比例为16:9,竖屏比例通常为9:16。
计算机设备首先按照不同类型的图像比例,对初始样本图像进行填充。具体地,将样本图像扩充为对应的图像比例,对于扩充后空白的区域,则填充预设的像素值,如填充像素值0。进一步地,对初始样本图像进行填充后,还将填充后的初始样本图像缩小至预设的图像尺寸。例如,针对横屏比例的样本图像则缩小至288*160;对于竖屏比例的样本图像则缩小至160*288。由此能够有效保持图像宽高比一致,从而能够有效防止图像宽高扰动带来的干扰。
计算机设备进一步对比例缩小后的样本图像进行归一化处理,例如将样本图像的图像像素值归一化到[-1,1]。进而得到预处理后的样本图像。
在其中一个实施例中,待训练的图像分割模型中还可以包括分别针对横屏比例的模型通道和针对竖屏比例的模型通道,使得图像分割模型能够分别适应于不同类型的图像比例,都能够精准地实现图像分割处理。
在一个实施例中,在得到训练好的图像分割模型之后,则可以对训练好的图像分割模型进行应用。具体地,计算机可以获取待分割图像,将待分割图像输入至经过训练的图像分割模型,通过图像分割模型对待分割图像中的目标对象进行图像分割处理,以得到待分割图像中目标对象的分割结果。
在一个实施例中,如图7所示,在得到训练好的图像分割模型之后,还提供了另一种图像分割处理方法,包括以下步骤:
S702,获取待分割图像,将待分割图像输入至经过训练的图像分割模型。
S704,通过图像分割模型的编码层,对待分割图像进行特征提取和可分离卷积处理,得到第一多尺度特征图。
S706,通过图像分割模型的解码层,对第一多尺度特征图进行反卷积处理,得到第二多尺度特征。
S708,通过图像分割模型的融合层,将第一多尺度特征图和第二多尺度特征图融合,得到图像语义特征。
S710,根据图像语义特征确定目标对象的像素点以及轮廓边缘,并根据像素点以及轮廓边缘,得到待分割图像的分割结果。
可以理解,待分割图像是指需要进行图像分割处理的未经过标注的图像。待分割图像可以包括但不限于通过摄像装置实时采集的图像、网络通信中传输的图像以及从网络获取的图像。
计算机设备通过利用样本图像对图像分割模型进行迭代蒸馏训练,得到训练好的具有图像分割精准度较高的图像分割模型后,则可以直接利用预训练后的图像分割模型对待分割图像进行图像分割处理。
其中,图像分割模型是基于分离卷积网络的机器学习模型,图像分割模型包括编码层、解码层和融合层。
具体地,计算机设备获取待分割图像后,则将待分割图像输入至经过训练的图像分割模型。首先通过图像分割模型的编码层中的各深度可分离卷积网络,对待分割图像进行下采样处理,得到对应的特征图。然后对相应的特征增图进行特征提取和可分离卷积处理,以获得高层次的局部特征,得到多个尺度的特征图和对应的局部特征,获得第一多尺度特征图。
进一步将编码层输出的第一多尺度特征图以及对应的局部特征输入至解码层,其中,同时还利用下采样的池化索引作为上采样的指导,将编码层部分的特征跳跃连接到解码层,进而通过解码层对第一多尺度特征图和对应的局部特征进行反卷积处理,获得第二多尺度特征。
然后通过图像分割模型的融合层,将第一多尺度特征图和第二多尺度特征图融合,得到图像语义特征,进而根据图像语义特征确定目标对象的像素点以及轮廓边缘,并根据目标对象的像素点以及轮廓边缘输出待分割图像的分割结果。其中,分割结果可以为经过图像分割处理后样本图像对应的掩膜图,具体可以为二值化掩膜图。
其中,分割结果包括目标对象的像素区域,即前景区域,以及除目标对象的像素区域以外的背景区域。例如,得到的分割结果掩膜图可以采用二值化像素值0和1标记目标对象的分割结果,即对目标对象的像素区域中的像素点的像素值标记为1,对背景区域中的像素点的像素值标记为0。
例如,如图8所示,为一个实施例中的待分割图像的示意图。可以看出,图8中包括人物以及原始的背景区域。已目标对象为图像中的人物为例,通过经过训练的图像分割模型对图8所示的待分割图像,针对图像中的人物进行图像分割处理后,得到的分割结果如图9所示,图9即为待分割图像对应的分割结果的示意图。图9所示的分割结果为像素二值化处理后的人物区域与背景区域分离的分割结果掩膜图。
在其中一个实施例中,分割结果中还可以包括对目标对象的轮廓边缘进行分割后的掩膜图。也就是分割结果可包括两张分割结果掩膜图,即针对目标对象的像素区域与背景区域分离的分割结果掩膜图,以及针对目标对象的轮廓边缘的分割结果掩膜图。其中,轮廓边缘的分割结果掩膜图中,对目标对象的轮廓边缘区域中的像素点的像素值标记为1,对除轮廓边缘区域以外的区域中的像素点的像素值标记为0。
进一步地,计算机设备对图像分割模型输出的分割结果掩膜图还原到原图像尺寸大小,即待分割图像的原图像大小。然后对分割结果掩膜图中针对目标对象的区域进行连通域处理,例如若分割结果掩膜图中存在多个较小面积的连通域,则被认为是离群点而去除,以得到待分割图像最终的分割结果。
本实施例中,由于经过训练的图像分割模型是模型通道数量和模型参数较少的图像分割准确度较高的轻量级模型,由此能够高效地对待分割图像进行图像分割处理,同时还能够有效保证图像分割精准度。
在一个实施例中,如图10所示,在得到训练好的图像分割模型之后,还提供了又一种图像分割处理方法,包括以下步骤:
S1002,获取连续的视频帧,将连续的视频帧输入至经过训练的图像分割模型。
S1004,通过图像分割模型的编码层,对各视频帧进行特征提取和可分离卷积处理,得到第一多尺度特征图。
S1006,通过图像分割模型的解码层,对第一多尺度特征图进行反卷积处理,得到第二多尺度特征。
S1008,通过图像分割模型的融合层,将第一多尺度特征图和第二多尺度特征图融合,得到图像语义特征。
S1010,根据图像语义特征确定目标对象的像素点以及轮廓边缘,并根据像素点以及轮廓边缘,得到各视频帧对应的初始分割结果。
S1012,获取当前视频帧的初始分割结果,以及当前视频帧之前的预设数量视频帧对应的初始分割结果。
S1014,根据预设数量视频帧对应的初始分割结果,对当前视频帧的初始分割结果进行平滑滤波处理,得到当前视频帧对应的目标分割结果。
其中,待分割图像还可以为连续的视频帧,连续的视频帧是指按照一定的帧率采集的连续的画面图像。连续的视频帧可以是从视频中获取的,视频包括一系列连续的画面图像,即视频帧。可以理解,也就是还可以通过已训练的图像分割模型对视频进行图像分割处理。
计算机设备获取的连续的视频帧后,按照帧间序列,将连续的视频帧分别输入至经过训练的图像分割模型。然后通过图像分割模型分别对连续的视频帧进行图像分割处理。具体地,通过图像分割模型的编码层,对各视频帧进行特征提取和可分离卷积处理,得到第一多尺度特征图。进而通过图像分割模型的解码层,对第一多尺度特征图进行反卷积处理,得到第二多尺度特征。最后通过图像分割模型的融合层,将第一多尺度特征图和第二多尺度特征图融合,得到图像语义特征。进而根据图像语义特征确定目标对象的像素点以及轮廓边缘,并根据像素点以及轮廓边缘,输出各视频帧对应的初始分割结果。
其中,当前视频帧可以是当前正在处理的这一系列连续的视频帧中的任一帧。在其中一个实施例中,当前视频帧可以是连续的视频帧中除第一帧外的任一帧。可以理解,当前视频帧之前的预设数量视频帧,即为当前视频帧之前的相邻预设数量的视频帧。
各视频帧对应的初始分割结果中,包括针对目标对象进行过图像分割后的与各视频帧对应的掩膜图。
计算机设备通过经过训练的图像分割模型分别对连续的视频帧进行图像分割处理,输出各视频帧对应的初始分割结果后。还分别对当前处理的每一帧当前视频帧,获取当前视频帧的初始分割结果,以及当前视频帧之前的预设数量视频帧对应的初始分割结果。
其中,视频帧对应的初始分割结果,为经过图像分割处理后的分割结果掩膜图,具体可以为二值化掩膜图,包括目标对象的像素区域,即前景区域,以及除目标对象的像素区域以外的背景区域。
计算机设备进而根据预设数量视频帧对应的分割结果掩膜图,对当前视频帧的分割结果掩膜图进行平滑滤波处理,得到当前视频帧对应的目标分割结果。例如,可以利用当前视频的前面4帧视频帧对应的分割结果掩膜图,以及当前视频帧的分割结果掩膜图,一起进行平滑滤波处理,从而得到当前视频帧的目标分割结果。
本实施例中,通过结合前序帧的分割结果信息对在后当前视频帧进行平滑滤波处理,能够有效地结合前序帧的分割结果作为参考,从而能够有效提高对连续的视频帧进行图像分割处理的精准度。
在一个实施例中,待分割图像的分割结果包括目标对象的区域和背景区域;上述图像分割处理方法还包括:获取虚拟背景;将待分割图像中的背景区域替换为虚拟背景图,生成背景替换后的图像。
其中,虚拟背景是指可以用于编辑的背景图像,也就是用于衬托前景的背景图层,是一张独立的图片不与前景图片或图像相连。可以理解,虚拟背景是区别于待分割图像,且不属于待分割图像中的像素的背景图像。
计算机设备通过经过训练的图像分割模型,对待分割图像进行图像分割处理,得到目标对象对应的前景区域与背景区域分离的分割结果后。计算机设备还可以进一步对背景区域进行替换。
具体地,计算机设备获取虚拟背景,该虚拟背景可以是预先设定的,也可以是用户所选择的。计算机设备进而将待分割图像中的背景区域替换为虚拟背景图,从而得到背景替换后的图像。
本实施例中,通过经过训练的图像分割模型,能够精准地分割出原始图像中目标对象对应的前景区域与背景区域,进而能够更加精准地对背景区域进行替换。
在一个实施例中,待分割图像为连续的视频帧,目标对象为人物;待分割图像的分割结果包括各视频帧中人物区域和背景区域;将待分割图像中的背景区域替换为虚拟背景图,生成背景替换后的图像,包括:将各视频帧中的背景区域替换为虚拟背景图,生成背景替换后的连续的视频帧。
其中,待分割图像可以为连续的视频帧,待分割的目标对象具体可以为人物。可以理解,待分割图像的分割结果包括目标对象对应的前景区域与背景区域分离的掩膜图,即各视频帧的分割结果则包括各视频帧中人物区域与背景区域分离的掩膜图。
计算机设备得到各视频帧的分割结果后,还可以对连续的视频帧进行背景替换。具体地,计算机设备获取虚拟背景,然后分别将每一帧视频帧中的背景区域替换为虚拟背景图,从而得到背景替换后的连续的视频帧。
本实施例中,由于经过训练的图像分割模型是模型通道数量和模型参数较少的图像分割准确度较高的轻量级模型,由此能够高效地对连续的视频帧进行图像分割处理,在保证图像分割精准度的同时,同时还能够有效保证图像分割的处理效率。
在一个具体的应用场景中,在移动终端中部署经过训练的图像分割模型,具体的,移动终端中可以安装有具有图像处理功能的应用程序,该应用程序中部署了经过训练的图像分割模型。
移动终端可以通过运行移动终端中该具有图像处理功能的应用程序,以对待分割图像进行图像分割处理,以及实现其他的图像处理功能。具体地,用户首先通过移动终端获取待分割图像,例如,该待分割图像可以是通过移动终端的摄像装置实时采集得到的,也可以是从移动终端本地读取的,还可以是通过网络实时获取的,比如通信网络中传输的图像。
移动终端进而将待分割图像输入至经过训练的图像分割模型,通过图像分割模型对待分割图像中的目标对象进行图像分割处理,以得到待分割图像中目标对象的分割结果。例如,目标对象可以为人物或人脸等。本实施例中的目标对象为人物,通过图像分割模型对待分割图像进行图像分割处理,识别图像中人体的完整轮廓,并与背景区域进行分割,输出人物区域与背景区域分离的分割结果掩膜图。例如,分割结果掩膜图可以包括人物区域的前景人物图和灰度背景区域图。
其中,移动终端的应用程序中包括各种虚拟背景素材。用户还可以通过移动终端选择虚拟背景素材对图像分割后的背景区域进行替换。进一步地,用户还可以获取自定义的虚拟背景,已通过移动终端对图像分割后的背景区域进行替换,从而将原始图像中的人物区域与所选择的虚拟背景进行图像合成。
在其他的实施例中,目标对象还可以为人脸。通过图像分割模型对待分割图像进行图像分割处理,识别图像中的人脸中的五官轮廓,并与背景区域进行分割。得到人脸区域与背景区域分离的分割结果掩膜图。用户终端进而可以根据用户所选择的背景特性,对背景区域进行替换,从而可以生成合成的表情图像,以生成自定义的表情图像。
在另一个具体的应用场景中,上述图像分割处理方法还可以应用于移动终端中的实时视频流的场景。移动终端中可以安装有具有图像处理功能和通信功能的应用程序,该应用程序中可以部署有经过训练的图像分割模型,也可以离线调用部署有经过训练的图像分割模型的SDK(Software Development Kit,软件开发工具包)。
移动终端运行具有图像处理功能的应用程序的过程中,可以实时采集视频流,并通过经过训练的图像分割模型识别各视频帧中的人像区域与背景区域。
具体地,应用程序可以为线上会议应用,即视频会议软件等。连续的视频帧则为视频会议中实时采集的视频流。移动终端的视频会议软件中包括虚拟背景的设置功能,用户可以在虚拟背景的设置界面选择开启或关闭虚拟背景功能,还可以选择虚拟背景的素材,例如预设的虚拟滤镜如背景虚化,或虚拟背景图像。进一步地,用户还可以选择自定义的虚拟背景图像。移动终端则根据用户所选择的虚拟背景,将实时采集的连续的视频帧输入至经过训练的图像分割模型。通过该图像分割模型,对连续的视频帧中的人像进行图像分割处理,输出各视频帧中人像区域与背景区域分离的分割结果掩膜图,进而将背景区域替换为虚拟背景。合成背景替换后的图像帧之后再输出并进行显式。
如图11所示,为一个实施例中虚拟背景的设置界面的示意图。设置界面包括设置栏区域1101,其中包括“常规设置”、“视频”、“音频”以及“背景替换”等选项。当背景替换选项1101a被选中后,则显示背景替换预览区域1102以及虚拟背景选择区域1103。其中,通过在设置界面的设置栏区域1101中选中背景替换选项1101a后,则在虚拟背景选择区域1103展示虚拟背景设置选项和虚拟背景素材。其中,虚拟背景设置选项包括“视频滤镜效果”和“我有绿布”,虚拟背景素材包括背景虚化、虚拟背景1-虚拟背景6等。用户进而可以在虚拟背景选择区域1103设置虚拟背景设置选项和选择虚拟背景素材。当用户选择虚拟背景后,则在背景替换预览区域1102显示对当前采集的图像或视频帧进行背景替换后的效果。相较于图8中具有真实背景的原始的待分割图像,图11中背景替换为虚拟背景后的图像或视频帧隐藏了真实背景,提高了安全性。
进一步地,对于采用固定绿幕背景的场景,即采集视频帧之前在拍摄现场预先布置固定绿色背景。移动终端可以采用预先建立的绿幕分割模型,对实时采集的视频通过绿幕分割模型进行图像分割处理,由此能够获得更加准确精细的图像分割结果。虚拟背景的设置界面中还可以包括绿幕选择的选项,即“我有绿幕”。当用户采集的视频的现场布置了绿幕背景,则可以选中“我有绿幕”对应的虚拟背景设置选项,以采用不同的分割模型对视频帧进行图像分割处理,以实现更精准的分割效果。
在其他的实施例中,上述图像分割处理方法还可以应用于移动终端中具有视频直播功能和短视频编辑的应用程序,以通过应用程序中部署的或调用的经过训练的图像分割模型,对视频直播中连续的视频帧,或段视频中连续的视频帧中的人像进行图像分割处理,以识别各视频帧中人像区域与背景区域,并利用虚拟背景对背景区域进行背景替换。
在另一个实施例中,利用经过训练的图像分割模型针对不同应用场景打包生成相应的应用软件包,并部署至设定的云服务平台。例如,云服务平台中可以部署人像分割场景、自定义人像分割场景、人像分割SDK场景以及视频人像分割场景等应用场景分别对应的应用软件包。用户可以通过对应的移动终端,从云服务平台调用相应场景对应的应用软件包,使得移动终端通过应用软件包中的图像分割模型进行图像分割处理。从而能够实现在不同应用场景中,采用经过训练的图像分割模型对应的应用软件包进行图像分割处理,进而能够有效保证图像分割的处理效率的同时提高精准度。
其中,人像分割场景对应的应用软件包,能够提供识别图片中人物的完整轮廓,与背景进行分割的功能。通过软件包中的图像分割模型进行人像分割处理后,返回灰度图和前景人像图。分割处理后得到的灰度图和前景人像图,可以进一步应用于照片合成等场景。
自定义人像分割场景对应的应用软件包中的图像分割模型,能够将图片的人脸中五官轮廓与背景分割开来,还可以对单张人像图片中的头发、五官、服饰等进行分割处理。其中,分割处理后得到的人脸中五官轮廓,可以进一步应用于趣味表情制作、人像美颜处理等场景。
人像分割SDK场景对应的应用软件包中的图像分割模型,能够在实时视频流场景中离线调用人像分割SDK,将视频流中的人像与背景分割开来。其中,分割处理后的人像和背景,可以适用于短视频、视频直播以及线上会议等场景的背景替换。
视频人像分割场景对应的应用软件包中的图像分割模型,能够针对移动终端上传至云服务平台中的视频,将视频中的人像与背景分割开来,得到人像分处理割后的视频并返回给移动终端,以实现对视频中的人像进行分割。其中,人像分处理割后得到的视频,可以进一步用于视频剪辑制作、影视背景替换等场景。通过在不同应用场景采用经过训练的图像分割模型进行图像分割处理,能够有效保证图像分割的处理效率的同时提高精准度。
应该理解的是,虽然图2、3、6、7、10的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2、3、6、7、10中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图12所示,提供了一种图像分割处理装置1200,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:数据获取模块1202、第一分割处理模块1204、第二分割处理模块1206、误差确定模块1208和参数调整模块1210,其中:
数据获取模块1202,用于获取样本图像。
第一分割处理模块1204,用于在每轮蒸馏训练中,通过至少两个已训练的指导模型,分别对样本图像中的目标对象进行图像分割处理,得到各指导模型对应的第一分割结果。
第二分割处理模块1206,用于通过待训练的图像分割模型,对样本图像中的目标对象进行图像分割处理,得到第二分割结果;图像分割模型的模型参数少于指导模型的模型参数。
误差确定模块1208,用于根据第二分割结果与第一分割结果的差异,确定蒸馏误差;根据第二分割结果中的边缘预测结果与第一分割结果中的边缘预测结果之间的差异,确定边缘误差。
参数调整模块1210,用于根据蒸馏误差以及边缘误差,调整图像分割模型的模型参数并继续进行蒸馏训练,直至满足训练停止条件,得到训练好的图像分割模型。
在一个实施例中,误差确定模块1208还用于根据第二分割结果中的像素信息与第一分割结果中的像素信息之间的差异,确定像素误差;参数调整模块还用于根据蒸馏误差、像素误差以及边缘误差,调整图像分割模型的模型参数并继续进行蒸馏训练,直至满足训练停止条件,得到训练好的图像分割模型。
在一个实施例中,样本图像还包括携带标注标签的样本图像;误差确定模块1208还用于针对未标注的样本图像,执行根据第二分割结果中的边缘预测结果与第一分割结果中的边缘预测结果之间的差异,确定边缘误差的步骤、以及根据第二分割结果中的像素信息与第一分割结果中的像素信息之间的差异,确定像素误差的步骤;针对标注的样本图像,根据第二分割结果中的边缘预测结果与标注标签中的边缘标签之间的差异,确定边缘误差;针对标注的样本图像,根据第二分割结果中的像素信息与标注标签所标注像素的像素信息之间的差异,确定像素误差。
在一个实施例中,参数调整模块1210还用于将蒸馏误差、像素误差以及边缘误差融合,得到目标误差值;根据目标误差值,调整图像分割模型的模型参数并继续进行蒸馏训练,直至满足训练停止条件,得到训练好的图像分割模型。
在一个实施例中,指导模型包括网络结构不同的第一指导模型和第二指导模型;第一分割处理模块1204还用于通过已训练的第一指导模型,对样本图像中的目标对象进行图像分割处理,得到第一指导模型对应的分割结果;通过已训练的第二指导模型,对样本图像中的目标对象进行图像分割处理,得到第二指导模型对应的分割结果;将第一指导模型对应的分割结果与第二指导模型对应的分割结果进行融合,得到第一分割结果。
在一个实施例中,图像分割模型包括编码层、解码层和融合层,编码层和解码层包括可分离卷积网络;第二分割处理模块1206还用于将样本图像输入至图像分割模型,通过编码层,对样本图像进行特征提取和可分离卷积处理,得到第一多尺度特征图;通过解码层,对第一多尺度特征图进行反卷积处理,得到第二多尺度特征;通过融合层,将第一多尺度特征图和第二多尺度特征图融合,得到样本图像语义特征,根据样本图像语义特征确定目标对象的像素点以及轮廓边缘,并根据像素点以及轮廓边缘输出第二分割结果。
在一个实施例中,上述图像分割处理装置还包括指导模型训练模块1201,用于获取样本图像,样本图像携带标注标签;将样本图像输入至待训练的指导模型,通过待训练的指导模型,对样本图像中的目标对象进行图像分割处理,得到样本分割结果;根据样本分割结果中的像素信息与标注标签所标注像素的像素信息之间的差异,确定像素误差;根据样本分割结果中的边缘预测结果与标注标签的边缘标签之间的差异,确定边缘误差;根据像素误差和边缘误差,调整指导模型的模型参数并继续进行迭代训练,直至满足训练停止条件,得到训练好的指导模型。
在一个实施例中,数据获取模块1202还用于获取初始样本图像;分别按照不同类型的图像比例,对初始样本图像进行填充;对填充后的样本图像进行归一化处理,得到预处理后的样本图像。
在一个实施例中,如图13所示,上述图像分割处理装置1200还包括图像分割处理模块1212,用于获取待分割图像,将待分割图像输入至经过训练的图像分割模型;通过图像分割模型的编码层,对待分割图像进行特征提取和可分离卷积处理,得到第一多尺度特征图;通过图像分割模型的解码层,对第一多尺度特征图进行反卷积处理,得到第二多尺度特征;通过图像分割模型的融合层,将第一多尺度特征图和第二多尺度特征图融合,得到图像语义特征;根据图像语义特征确定目标对象的像素点以及轮廓边缘,并根据像素点以及轮廓边缘,得到待分割图像的分割结果。
在一个实施例中,待分割图像为连续的视频帧,待分割图像的分割结果包括各视频帧对应的初始分割结果;图像分割处理模块1212还用于获取当前视频帧的初始分割结果,以及当前视频帧之前的预设数量视频帧对应的初始分割结果;根据预设数量视频帧对应的初始分割结果,对当前视频帧的初始分割结果进行平滑滤波处理,得到当前视频帧对应的目标分割结果。
在一个实施例中,待分割图像的分割结果包括目标对象的区域和背景区域;图像分割处理模块1212还用于获取虚拟背景;将待分割图像中的背景区域替换为虚拟背景图,生成背景替换后的图像。
在一个实施例中,待分割图像为连续的视频帧,目标对象为人物;待分割图像的分割结果包括各视频帧中人物区域和背景区域;图像分割处理模块1212还用于将各视频帧中的背景区域替换为虚拟背景图,生成背景替换后的连续的视频帧。
关于图像分割处理装置的具体限定可以参见上文中对于图像分割处理方法的限定,在此不再赘述。上述图像分割处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,也可以是服务器,其内部结构图可以如图14所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种图像分割处理方法。
本领域技术人员可以理解,图14中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (15)

1.一种图像分割处理方法,其特征在于,所述方法包括:
获取样本图像;
在每轮蒸馏训练中,通过至少两个已训练的指导模型,分别对所述样本图像中的目标对象进行图像分割处理,得到各所述指导模型对应的第一分割结果;
通过待训练的图像分割模型,对所述样本图像中的所述目标对象进行图像分割处理,得到第二分割结果;所述图像分割模型的模型参数少于所述指导模型的模型参数;
根据所述第二分割结果与第一分割结果之间的差异,确定蒸馏误差;
根据所述第二分割结果中的边缘预测结果与第一分割结果中的边缘预测结果之间的差异,确定边缘误差;
根据所述蒸馏误差以及所述边缘误差,调整所述图像分割模型的模型参数并继续进行蒸馏训练,直至满足训练停止条件,得到训练好的图像分割模型。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述第二分割结果中的像素信息与第一分割结果中的像素信息之间的差异,确定像素误差;
所述根据所述蒸馏误差以及所述边缘误差,调整所述图像分割模型的模型参数并继续进行蒸馏训练,直至满足训练停止条件,得到训练好的图像分割模型,包括:
根据所述蒸馏误差、所述像素误差以及所述边缘误差,调整所述图像分割模型的模型参数并继续进行蒸馏训练,直至满足训练停止条件,得到训练好的图像分割模型。
3.根据权利要求2所述的方法,其特征在于,所述样本图像包括未标注的样本图像和携带标注标签的样本图像;所述方法还包括:
针对未标注的样本图像,执行所述根据所述第二分割结果中的边缘预测结果与第一分割结果中的边缘预测结果之间的差异,确定边缘误差的步骤、以及根据所述第二分割结果中的像素信息与第一分割结果中的像素信息之间的差异,确定像素误差的步骤;
针对标注的样本图像,根据所述第二分割结果中的边缘预测结果与所述标注标签中的边缘标签之间的差异,确定边缘误差;
针对标注的样本图像,根据所述第二分割结果中的像素信息与所述标注标签所标注像素的像素信息之间的差异,确定像素误差。
4.根据权利要求2所述的方法,其特征在于,所述根据所述蒸馏误差、所述像素误差以及所述边缘误差,调整所述图像分割模型的模型参数并继续进行蒸馏训练,直至满足训练停止条件,得到训练好的图像分割模型,包括:
将所述蒸馏误差、所述像素误差以及所述边缘误差融合,得到目标误差值;
根据所述目标误差值,调整所述图像分割模型的模型参数并继续进行蒸馏训练,直至满足训练停止条件,得到训练好的图像分割模型。
5.根据权利要求1所述的方法,其特征在于,所述指导模型包括网络结构不同的第一指导模型和第二指导模型;所述通过至少两个已训练的指导模型,分别对所述样本图像中的目标对象进行图像分割处理,得到各所述指导模型对应的第一分割结果,包括:
通过已训练的第一指导模型,对所述样本图像中的目标对象进行图像分割处理,得到所述第一指导模型对应的分割结果;
通过已训练的第二指导模型,对所述样本图像中的所述目标对象进行图像分割处理,得到所述第二指导模型对应的分割结果;
将所述第一指导模型对应的分割结果与所述第二指导模型对应的分割结果进行融合,得到第一分割结果。
6.根据权利要求1所述的方法,其特征在于,所述图像分割模型包括编码层、解码层和融合层,所述编码层和所述解码层包括可分离卷积网络;所述通过待训练的图像分割模型,对所述样本图像中的所述目标对象进行图像分割处理,得到第二分割结果,包括:
将所述样本图像输入至所述图像分割模型,通过所述编码层,对所述样本图像进行特征提取和可分离卷积处理,得到第一多尺度特征图;
通过所述解码层,对所述第一多尺度特征图进行反卷积处理,得到第二多尺度特征;
通过所述融合层,将所述第一多尺度特征图和所述第二多尺度特征图融合,得到样本图像语义特征,根据所述样本图像语义特征确定所述目标对象的像素点以及轮廓边缘,并根据所述像素点以及所述轮廓边缘输出第二分割结果。
7.根据权利要求1所述的方法,其特征在于,所述指导模型的训练步骤,包括:
获取样本图像,所述样本图像携带标注标签;
将所述样本图像输入至待训练的指导模型,通过待训练的指导模型,对所述样本图像中的目标对象进行图像分割处理,得到样本分割结果;
根据所述样本分割结果中的像素信息与所述标注标签所标注像素的像素信息之间的差异,确定像素误差;
根据所述样本分割结果中的边缘预测结果与所述标注标签的边缘标签之间的差异,确定边缘误差;
根据所述像素误差和所述边缘误差,调整所述指导模型的模型参数并继续进行迭代训练,直至满足训练停止条件,得到训练好的指导模型。
8.根据权利要求1所述的方法,其特征在于,所述获取样本图像,包括:
获取初始样本图像;
分别按照不同类型的图像比例,对所述初始样本图像进行填充;
对填充后的样本图像进行归一化处理,得到预处理后的样本图像。
9.根据权利要求1至8任意一项所述的方法,其特征在于,在所述得到训练好的图像分割模型之后,所述方法还包括:
获取待分割图像,将所述待分割图像输入至经过训练的图像分割模型;
通过所述图像分割模型的编码层,对所述待分割图像进行特征提取和可分离卷积处理,得到第一多尺度特征图;
通过所述图像分割模型的解码层,对所述第一多尺度特征图进行反卷积处理,得到第二多尺度特征;
通过所述图像分割模型的融合层,将所述第一多尺度特征图和所述第二多尺度特征图融合,得到图像语义特征;
根据所述图像语义特征确定所述目标对象的像素点以及轮廓边缘,并根据所述像素点以及所述轮廓边缘,得到所述待分割图像的分割结果。
10.根据权利要求9所述的方法,其特征在于,所述待分割图像为连续的视频帧,所述待分割图像的分割结果包括各所述视频帧对应的初始分割结果;
所述方法还包括:
获取当前视频帧的初始分割结果,以及所述当前视频帧之前的预设数量视频帧对应的初始分割结果;
根据所述预设数量视频帧对应的初始分割结果,对所述当前视频帧的初始分割结果进行平滑滤波处理,得到所述当前视频帧对应的目标分割结果。
11.根据权利要求9所述的方法,其特征在于,所述待分割图像的分割结果包括所述目标对象的区域和背景区域;所述方法还包括:
获取虚拟背景;
将所述待分割图像中的所述背景区域替换为所述虚拟背景图,生成背景替换后的图像。
12.根据权利要求11所述的方法,其特征在于,所述待分割图像为连续的视频帧,所述目标对象为人物;所述待分割图像的分割结果包括各所述视频帧中人物区域和背景区域;
所述将所述待分割图像中的所述背景区域替换为所述虚拟背景图,生成背景替换后的图像,包括:
将各所述视频帧中的所述背景区域替换为所述虚拟背景图,生成背景替换后的连续的视频帧。
13.一种图像分割处理装置,其特征在于,所述装置包括:
数据获取模块,用于获取样本图像;
第一分割处理模块,用于在每轮蒸馏训练中,通过至少两个已训练的指导模型,分别对所述样本图像中的目标对象进行图像分割处理,得到各所述指导模型对应的第一分割结果;
第二分割处理模块,用于通过待训练的图像分割模型,对所述样本图像中的所述目标对象进行图像分割处理,得到第二分割结果;所述图像分割模型的模型参数少于所述指导模型的模型参数;
误差确定模块,用于根据所述第二分割结果与第一分割结果的差异,确定蒸馏误差;根据所述第二分割结果中的边缘预测结果与第一分割结果中的边缘预测结果之间的差异,确定边缘误差;
参数调整模块,用于根据所述蒸馏误差以及所述边缘误差,调整所述图像分割模型的模型参数并继续进行蒸馏训练,直至满足训练停止条件,得到训练好的图像分割模型。
14.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述的方法的步骤。
15.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。
CN202011477949.2A 2020-12-15 2020-12-15 图像分割处理方法、装置、计算机设备和存储介质 Pending CN113538480A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011477949.2A CN113538480A (zh) 2020-12-15 2020-12-15 图像分割处理方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011477949.2A CN113538480A (zh) 2020-12-15 2020-12-15 图像分割处理方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN113538480A true CN113538480A (zh) 2021-10-22

Family

ID=78124203

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011477949.2A Pending CN113538480A (zh) 2020-12-15 2020-12-15 图像分割处理方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN113538480A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114067119A (zh) * 2022-01-17 2022-02-18 深圳市海清视讯科技有限公司 全景分割模型的训练方法、全景分割方法及装置
CN114267062A (zh) * 2021-12-07 2022-04-01 北京的卢深视科技有限公司 模型训练方法、电子设备和计算机可读存储介质
CN114820685A (zh) * 2022-04-24 2022-07-29 清华大学 独立图层生成对抗网络的生成方法及装置
CN115018857A (zh) * 2022-08-10 2022-09-06 南昌昂坤半导体设备有限公司 图像分割方法、装置、计算机可读存储介质及计算机设备
CN115908464A (zh) * 2023-01-09 2023-04-04 智慧眼科技股份有限公司 一种舌体图像分割方法及系统
CN116091675A (zh) * 2023-04-06 2023-05-09 腾讯科技(深圳)有限公司 一种图像处理方法、装置、设备及存储介质
WO2023092959A1 (zh) * 2021-11-23 2023-06-01 上海商汤智能科技有限公司 图像分割方法及其模型的训练方法及相关装置、电子设备
WO2023207389A1 (zh) * 2022-04-29 2023-11-02 腾讯科技(深圳)有限公司 数据处理方法、装置、程序产品、计算机设备和介质
CN117132607A (zh) * 2023-10-27 2023-11-28 腾讯科技(深圳)有限公司 图像分割模型处理方法、装置、计算机设备和存储介质

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023092959A1 (zh) * 2021-11-23 2023-06-01 上海商汤智能科技有限公司 图像分割方法及其模型的训练方法及相关装置、电子设备
CN114267062B (zh) * 2021-12-07 2022-12-16 合肥的卢深视科技有限公司 人脸解析模型的训练方法、电子设备和存储介质
CN114267062A (zh) * 2021-12-07 2022-04-01 北京的卢深视科技有限公司 模型训练方法、电子设备和计算机可读存储介质
CN114067119B (zh) * 2022-01-17 2022-05-24 深圳市海清视讯科技有限公司 全景分割模型的训练方法、全景分割方法及装置
CN114067119A (zh) * 2022-01-17 2022-02-18 深圳市海清视讯科技有限公司 全景分割模型的训练方法、全景分割方法及装置
CN114820685A (zh) * 2022-04-24 2022-07-29 清华大学 独立图层生成对抗网络的生成方法及装置
CN114820685B (zh) * 2022-04-24 2023-01-31 清华大学 独立图层生成对抗网络的生成方法及装置
WO2023207389A1 (zh) * 2022-04-29 2023-11-02 腾讯科技(深圳)有限公司 数据处理方法、装置、程序产品、计算机设备和介质
CN115018857B (zh) * 2022-08-10 2022-11-11 南昌昂坤半导体设备有限公司 图像分割方法、装置、计算机可读存储介质及计算机设备
CN115018857A (zh) * 2022-08-10 2022-09-06 南昌昂坤半导体设备有限公司 图像分割方法、装置、计算机可读存储介质及计算机设备
CN115908464A (zh) * 2023-01-09 2023-04-04 智慧眼科技股份有限公司 一种舌体图像分割方法及系统
CN116091675A (zh) * 2023-04-06 2023-05-09 腾讯科技(深圳)有限公司 一种图像处理方法、装置、设备及存储介质
CN116091675B (zh) * 2023-04-06 2023-06-30 腾讯科技(深圳)有限公司 一种图像处理方法、装置、设备及存储介质
CN117132607A (zh) * 2023-10-27 2023-11-28 腾讯科技(深圳)有限公司 图像分割模型处理方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
CN113538480A (zh) 图像分割处理方法、装置、计算机设备和存储介质
Xiong et al. Learning to generate time-lapse videos using multi-stage dynamic generative adversarial networks
CN110188760B (zh) 一种图像处理模型训练方法、图像处理方法及电子设备
Fischer et al. Flownet: Learning optical flow with convolutional networks
CN111369581A (zh) 图像处理方法、装置、设备及存储介质
CN111784623A (zh) 图像处理方法、装置、计算机设备和存储介质
CN111738280A (zh) 一种图像识别方法、装置、设备及可读存储介质
CN115761222B (zh) 图像分割方法、遥感图像分割方法以及装置
CN115205150A (zh) 图像的去模糊方法、装置、设备、介质及计算机程序产品
CN113269722A (zh) 生成对抗网络的训练方法、及高分辨率图像重建方法
CN114339409A (zh) 视频处理方法、装置、计算机设备及存储介质
CN111833360B (zh) 一种图像处理方法、装置、设备以及计算机可读存储介质
CN114022497A (zh) 一种图像处理方法及装置
CN116977674A (zh) 图像匹配方法、相关设备、存储介质及程序产品
CN112101344A (zh) 一种视频文本跟踪方法及装置
Lu et al. A video prediction method based on optical flow estimation and pixel generation
CN114283352A (zh) 一种视频语义分割装置、训练方法以及视频语义分割方法
CN111741329B (zh) 一种视频处理方法、装置、设备及存储介质
Zhang et al. Video extrapolation in space and time
CN113570509A (zh) 数据处理方法以及计算机设备
CN117095019A (zh) 一种图像分割方法及相关装置
CN113706550A (zh) 图像场景识别和模型训练方法、装置和计算机设备
CN116415019A (zh) 虚拟现实vr图像识别方法及装置、电子设备、存储介质
CN115115972A (zh) 视频处理方法、装置、计算机设备、介质及程序产品
CN114494302A (zh) 图像处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40052861

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination