CN116310315A - 抠图方法、装置、电子设备以及存储介质 - Google Patents

抠图方法、装置、电子设备以及存储介质 Download PDF

Info

Publication number
CN116310315A
CN116310315A CN202310100371.6A CN202310100371A CN116310315A CN 116310315 A CN116310315 A CN 116310315A CN 202310100371 A CN202310100371 A CN 202310100371A CN 116310315 A CN116310315 A CN 116310315A
Authority
CN
China
Prior art keywords
image
scratched
matting
sub
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310100371.6A
Other languages
English (en)
Inventor
王凡祎
张严浩
冯天鹏
李森
张济智
朱莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jinsheng Communication Technology Co ltd
Original Assignee
Shanghai Jinsheng Communication Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jinsheng Communication Technology Co ltd filed Critical Shanghai Jinsheng Communication Technology Co ltd
Priority to CN202310100371.6A priority Critical patent/CN116310315A/zh
Publication of CN116310315A publication Critical patent/CN116310315A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种抠图方法、装置、电子设备以及存储介质,涉及计算机技术领域。该方法包括:获取待抠图图像;将待抠图图像输入目标检测模型,获得目标检测模型输出的从待抠图图像中确定的待抠图子图像,以及待抠图子图像对应的类别置信度;若类别置信度大于或等于置信度阈值,则将待抠图子图像输入已训练的抠图模型,获得已训练的抠图模型输出的与待抠图子图像对应的目标掩膜图像;基于待抠图子图像以及目标掩膜图像,获得抠图图像。本申请通过在抠图前使用目标检测模型获取待抠图子图像,并且利用已训练的抠图模型对待抠图子图像进行抠图,提高了抠图的质量,也提高了用户的体验感。

Description

抠图方法、装置、电子设备以及存储介质
技术领域
本申请涉及计算机技术领域,更具体地,涉及一种抠图方法、装置、电子设备以及存储介质。
背景技术
随着科学技术的进步,图像处理技术得到了迅猛的发展。相关技术中,提出了通过分离图像或者视频中的前景与背景画面,实现高精度的前景提取与虚拟背景替换工作的数字图像抠图技术。然而相关技术中由于开源的抠图算法模型体量庞大且通用性和鲁棒性欠佳,利用开源的抠图算法抠图存在用户体验感不佳的问题。
发明内容
鉴于上述问题,本申请提出了一种抠图方法、装置、电子设备以及存储介质,可以通过在抠图前使用目标检测模型获取待抠图子图像,并且利用已训练的抠图模型对待抠图子图像进行抠图,提高了抠图的质量,也提高了用户的体验感。
第一方面,本申请实施例提供了一种抠图方法,所述方法包括:获取待抠图图像;将所述待抠图图像输入目标检测模型,获得所述目标检测模型输出的从所述待抠图图像中确定的待抠图子图像,以及所述待抠图子图像对应的类别置信度;若所述类别置信度大于或等于置信度阈值,则将所述待抠图子图像输入已训练的抠图模型,获得所述已训练的抠图模型输出的与所述待抠图子图像对应的目标掩膜图像;基于所述待抠图子图像以及所述目标掩膜图像,获得抠图图像。
第二方面,本申请实施例提供了一种抠图装置,所述装置包括:待抠图图像获取模块、待抠图子图像获得模块、目标掩膜图像获得模块以及抠图图像获得模块。其中。待抠图图像获取模块,用于获取待抠图图像;待抠图子图像获得模块,用于将所述待抠图图像输入目标检测模型,获得所述目标检测模型输出的从所述待抠图图像中确定的待抠图子图像,以及所述待抠图子图像对应的类别置信度;目标掩膜图像获得模块,用于若所述类别置信度大于或等于置信度阈值,则将所述待抠图子图像输入已训练的抠图模型,获得所述已训练的抠图模型输出的与所述待抠图子图像对应的目标掩膜图像;抠图图像获得模块,用于基于所述待抠图子图像以及所述目标掩膜图像,获得抠图图像。
第三方面,本申请实施例提供了一种电子设备,包括存储器和处理器,所述存储器耦接到所述处理器,所述存储器存储指令,当所述指令由所述处理器执行时所述处理器执行上述方法。
第四方面,本申请实施例提供了一种计算机可读取存储介质,所述计算机可读取存储介质中存储有程序代码,所述程序代码可被处理器调用执行上述方法。
本申请实施例提供的抠图方法,通过获取待抠图图像;将待抠图图像输入目标检测模型,获得目标检测模型输出的从待抠图图像中确定的待抠图子图像,以及待抠图子图像对应的类别置信度;若类别置信度大于或等于置信度阈值,则将待抠图子图像输入已训练的抠图模型,获得已训练的抠图模型输出的与待抠图子图像对应的目标掩膜图像;基于待抠图子图像以及目标掩膜图像,获得抠图图像,进而通过在抠图前使用目标检测模型获取待抠图子图像,并且利用已训练的抠图模型对待抠图子图像进行抠图,提高了抠图的质量,也提高了用户的体验感。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1示出了本申请一实施例提供的抠图方法的流程示意图;
图2示出了本申请实施例提供的待抠图图像的示意图;
图3示出了本申请一实施例提供的待抠图子图像的示意图;
图4示出了本申请一实施例提供的待抠图图像的示意图;
图5示出了本申请一实施例提供的待抠图子图像的示意图;
图6示出了本申请一实施例提供的待抠图子图像的示意图;
图7示出了本申请一实施例提供的目标掩膜图像的示意图;
图8示出了本申请一实施例提供的抠图图像的示意图;
图9示出了本申请一实施例提供的抠图方法的流程示意图;
图10示出了本申请一实施例提供的待抠图子图像的示意图;
图11示出了本申请一实施例提供的初始抠图模型抠图的流程示意图;
图12示出了本申请一实施例提供的拖拽抠图图像的示意图;
图13示出了本申请一实施例提供的抠图方法的流程示意图;
图14示出了本申请一实施例提供的抠图装置的结构框图;
图15示出了本申请实施例用于执行根据本申请实施例的抠图方法的电子设备的框图;
图16示出了本申请实施例的用于保存或者携带实现根据本申请实施例的抠图方法的程序代码的存储单元。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
随着图像处理技术的发展,相关技术中出现了大量开源的抠图算法,如,百度paddlle开源的抠图(Matting)算法等,而开源的抠图算法模型体量庞大,难以符合端侧应用的需求。另外,相关技术中存在的单主体抠图技术,针对图像中存在多个主体时,存在抠图效果不佳的问题。
因此,相关技术中,开源的抠图算法由于通用性和性能鲁棒性不佳、抠图主体单一以及模型体量大,存在不符合端侧应用需求,用户体验感不佳的问题。
针对上述问题,发明人经过长期的研究发现,并提出了本申请实施例提供的抠图方法、装置、电子设备以及存储介质,通过在抠图前使用目标检测模型获取待抠图子图像,并且利用已训练的抠图模型对待抠图子图像进行抠图,提高了抠图的质量,也提高了用户的体验感。其中,具体的抠图方法在后续的实施例中进行详细的说明。
请参阅图1,图1示出了本申请一实施例提供的抠图方法的流程示意图。该抠图方法通过在抠图前使用目标检测模型获取待抠图子图像,并且利用已训练的抠图模型对待抠图子图像进行抠图,提高了抠图的质量,也提高了用户的体验感。在具体的实施例中,该抠图方法可以应用于如图14所示的抠图装置200以及配置有抠图装置200的电子设备100(图15)。下面将以电子设备为例,说明本实施例的具体流程,当然,可以理解的,本实施例所应用的电子设备可以包括智能手机、平板电脑、穿戴式电子设备等,在此不做限定。下面将针对图1所示的流程进行详细的阐述,所述抠图方法具体可以包括以下步骤:
步骤S110:获取待抠图图像。
在一些实施方式中,电子设备中可以预先存储有待抠图图像,电子设备也可以通过无线通信技术(如,蓝牙、WiFi、zigbEE等无线技术)从相关联的云端或电子设备获取待抠图图像,电子设备还可以通过串口通信接口(如,串行外设接口等)从相关联的电子设备获得待抠图图像。
示例性的,电子设备可以包括摄像头,进一步的,电子设备中的处理器可以获取摄像头采集的图像作为待抠图图像。
其中,待抠图图像可以是包括主体的彩色图像,也可以是包括主体的黑白图像,还可以是包括主体的灰度图像,在此不作限定。其中,待抠图图像包括的主体可以是人物、动物、家具、建筑、花草等;其中,待抠图图像中包括的主体可以是一个或者多个,在此不作限定。
步骤S120:将所述待抠图图像输入目标检测模型,获得所述目标检测模型输出的从所述待抠图图像中确定的待抠图子图像,以及所述待抠图子图像对应的类别置信度。
在一些实施方式中,电子设备中可以预先设置有目标检测模型,电子设备也可以通过无线通信技术从相关联的云端或电子设备获得目标检测模型,电子设备还可以通过串口通信接口从相关联的电子设备获得目标检测模型。其中,目标检测模型可以用于检测待抠图图像中包括的主体,可以是开源且轻量的目标检测模型,如,YOLOX-L模型、YOLOv4-CSP模型、YOLOv5-L模型、YOLOX-Tiny模型、YOLOX-Nano模型等。
进一步的,电子设备获得待抠图图像后,可以将待抠图图像输入目标检测模型,获得目标检测模型输出的从待抠图图像中确定的待抠图子图像,以及待抠图子图像对应的类别置信度。其中,待抠图图像输入目标检测模型后,目标检测模型可以检测出待抠图图像中包括的主体,进一步的,目标检测模型可以输出对待抠图图像中主体检测的包括主体的检测框、主体的类别、主体的类别置信度信息等。
示例性的,请参阅图2以及图3。目标检测模型为开源的性能顶尖的轻量化YOLOX-Tiny模型,可以快速检测出图像中的目标主体,还可以在图像中存在多个主体的情况下,检测出图像中各主体,并输出各主体的检测框坐标像素信息,如图2中检测框左上角、右下角坐标所示,主体1左上角(x0,y0)、右下角(x1,y1),主体2左上角(x2,y2)、右下角(x3,y3)。其中,目标检测模型也可以输出各主体的类别,如图3中图像上方所示,左侧图识别为人,右侧图识别为狗;目标检测模型还可以输出各主体的类别置信度信息,如图3中左侧图识别为人的概率为86%,右侧图识别为狗的概率为97%。
可以理解的是,使用通用的轻量的目标检测模型对待抠图图像进行处理获得包括主体的待抠图子图像,可以对包括多主体的待抠图图像进行主体确定,进而进行多主体的抠图,提高了抠图算法在端侧的适用性,提升了用户的体验感。
在一些实施方式中,电子设备获得基于目标检测模型输出的待抠图图像中包括的主体的检测框、主体的类别、主体的类别置信度信息后,可以基于各主体的检测框信息将各主体分离,获得从待抠图图像中确定的各主体对应待抠图子图像,以及该待抠图子图像对应的类别置信度。
在一些实施方式中,待抠图图像中可以包括多个主体,对应的基于目标检测模型从待抠图图像中确定的待抠图子图像的可以包括多张,对应的目标检测模型可以输出各待抠图子图像对应的类别置信度。示例性的,请参阅图4和图5,图4示出了待抠图图像的示意图,图5示出了待抠图子图像的示意图。其中,将待抠图图像输入目标检测模型后,可以获得目标检测模型输出的从待抠图图像中确定的待抠图子图像1以及待抠图子图像2。
其中,针对图5中待抠图子图像1,目标检测模型可以输出一个对应主体的人的类别,还可以输出一个对应人类别的类别置信度,也即类别的概率值;针对待抠图子图像2,目标检测模型可以输出一个对应主体的狗的类别,还可以输出一个对应狗类别的类别置信度;其中,类别置信度取值范围为[0,1]。
步骤S130:若所述类别置信度大于或等于置信度阈值,则将所述待抠图子图像输入已训练的抠图模型,获得所述已训练的抠图模型输出的与所述待抠图子图像对应的目标掩膜图像。
在一些实施方式中,电子设备中可以预先设置有置信度阈值,如,0.7、0.75、0.8等,在此不作限定。其中,置信度阈值可以是通过第三方实验数据获得的,也可是通过用户自主设置的,在此不作限定。
其中,置信度阈值可以作为判断是否对待抠图子图像进行进一步的抠图操作的判断依据。在一些实施方式中,电子设备获得从待抠图图像中确定的待抠图子图像,以及该待抠图子图像对应的类别置信度后,可以将待抠图子图像对应的类别置信度与置信度阈值作比较,并根据待抠图子图像对应的类别置信度与置信度阈值比较的结果,确定是否对待抠图子图像进行抠图操作。
示例性的,若待抠图子图像的类别置信度大于或等于置信度阈值,则确定对该待抠图子图像进行进一步的抠图操作。其中,对待抠图子图像进行进一步的抠图操作可以是,将待抠图子图像输入已训练的抠图模型,获得已训练的抠图模型输出的与待抠图子图像对应的目标掩膜图像。
其中,电子设备中可以预先设置有已训练的抠图模型,如,DEEp Image Matting算法、MODNet算法、Background Matting&V2、RVM等模型。其中,该已训练的抠图模型可以是端到端的通用Matting算法,在不存在用户提供的任何交互式输入时,可以对输入的图像进行高精度(如,发丝级别)提取,分割出图像中主体的掩膜图像,还可以在端到端训练获得。
示例性的,请参阅图6和图7,图6示出了本申请一实施例提供的待抠图子图像,图7示出了本申请一实施例提供的目标掩膜图像。其中,电子设备可以在获得如图6所示的待抠图子图像以及该待抠图子图像对应的类别置信度后,将该待抠图子图像对应的类别置信度与置信度阈值比较,若该类别置信度大于或等于置信度阈值,则将该待抠图子图像输入已训练的抠图模型,获得已训练的抠图模型输出的与该待抠图子图像对应的目标掩膜图像,如图7所示。
在一些实施方式中,若待抠图子图像的类别置信度小于置信度阈值,则确定不对该待抠图子图像进行进一步的抠图操作,进一步的,电子设备还可以生成用于提示该待抠图子图像抠图失败的提示信息。其中,该提示信息可以是指示灯提示信息、语音提示信息、界面显示信息等。
示例性的,电子设备可以包括显示屏,该显示屏可以显示待抠图图像、待抠图子图像、显示抠图结果等。其中,电子设备若确定待抠图子图像的类别置信度小于置信度阈值,则不对该待抠图子图像进行进一步的抠图操作,电子设备可以生成包括抠图失败的文字提示信息,并显示在该待抠图子图像上,也可以将包括抠图失败的文字提示信息显示在待抠图图像中对应待抠图子图像的位置,在此不作限定。
步骤S140:基于所述待抠图子图像以及所述目标掩膜图像,获得抠图图像。
在一些实施方式中,电子设备获得待抠图子图像以及该待抠图子图像对应的目标掩膜图像后,可以基于该待抠图子图像以及该目标掩膜图像,获得抠图图像。
示例性的,请参阅图8,其示出了本申请一实施例提供的抠图图像。其中,电子设备可以将待抠图子图像按通道(如,红通道R、绿通道G以及蓝通道B)和目标掩膜图像的通道(如,透明度通道A)进行连接,得到4通道(R/G/B/A)的主体和背景分离的图像,也即抠图图像。
本申请一实施例提供的抠图方法,通过获取待抠图图像;将待抠图图像输入目标检测模型,获得目标检测模型输出的从待抠图图像中确定的待抠图子图像,以及待抠图子图像对应的类别置信度;若类别置信度大于或等于置信度阈值,则将待抠图子图像输入已训练的抠图模型,获得已训练的抠图模型输出的与待抠图子图像对应的目标掩膜图像;基于待抠图子图像以及目标掩膜图像,获得抠图图像,进而通过在抠图前使用目标检测模型获取待抠图子图像,并且利用已训练的抠图模型对待抠图子图像进行抠图,提高了抠图的质量,也提高了用户的体验感。
请参阅图9,图9示出了本申请一实施例提供的抠图方法的流程示意图。该方法应用于上述电子设备,下面将针对图9所示的流程进行详细的阐述,所述抠图方法具体可以包括以下步骤:
步骤S210:获取待抠图图像。
具体的关于步骤S210的描述请参阅前文对步骤S110的描述,在此不再详细描述。
步骤S220:将所述待抠图图像输入目标检测模型,获得所述目标检测模型输出的从所述待抠图图像中确定的待抠图子图像,以及所述待抠图子图像对应的类别置信度。
在一些实施方式中,电子设备获得待抠图图像后,可以将待抠图图像输入目标检测模型,获得目标检测模型输出的从待抠图图像中确定的待抠图子图像,以及该待抠图子图像对应的类别置信度。其中,待抠图图像中可以包括一个主体,也可以包括多个主体;目标检测模型可以输出从待抠图图像中确定的各主体对应的待抠图子图像,以及各待抠图子图像对应的主体的类别置信度;目标检测模型也可以从待抠图图像中确定一主体作为目标主体,并输出目标主体对应的待抠图子图像,以及待抠图子图像对应的目标主体的类别置信度;目标检测模型也可以输出从待抠图图像中确定多个主体对应的待抠图子图像,以及待抠图子图像对应的多个主体中各主体的类别置信度。
在一些实施方式中,电子设备获得待抠图图像后,若电子设备接收到抠图指令,电子设备可以将待抠图图像输入目标检测模型,获得目标检测模型输出的从待抠图图像中确定的待抠图子图像,以及待抠图子图像对应的类别置信度。
作为一种实施方式,抠图图像指令可以是电子设备从相关联的电子设备或者云端获得的。
作为另一种实施方式,电子设备可以包括拾音设备,进一步的,电子设备可以对拾音设备采集的音频进行分析、语义提取、关键词提取等确定电子设备是否接收到抠图指令。示例性的,电子设备基于拾音设备采集的音频确定音频中存在关键词“抠图”,则确定电子设备获得抠图指令,则可以对待抠图图像进行抠图处理。
作为再一种实施方式,电子设备可以包括显示屏,电子设备获得待抠图图像后,可以将待抠图图像在显示屏上显示,进一步的,电子设备可以通过检测显示屏的按压状态,或者检测电子设备包括的按键的按压状态,确定电子设备是是否接收到抠图指令。
示例性的,请参阅图10,其示出了本申请一实施例提供的待抠图子图像的示意图。电子设备显示待抠图图像后,可以检测显示屏的按压状态,若检测到显示屏持续被按压的时间大于或等于预设时间长度,则确定接收到抠图指令,电子设备可以将该待抠图图像输入目标检测模型,获得目标检测模型输出的从待抠图图像中确定的待抠图子图像,以及待抠图子图像对应的类别置信度。其中,图10中圆点为透明圆点代表电子设备检测到的显示屏被按压的位置,虚线框为目标检测模型输出的待抠图子图像。
在一些实施方式中,待抠图图像中可以包括多个主体,进一步的,步骤S220可以包括步骤S221-步骤S223。
步骤S221:获取抠图指令。
在一些实施方式中,电子设备可以从相关联的云端或电子设备获得抠图图像,也可以通过检测电子设备包括的其他硬件或软件的状态,获得抠图指令。其中,抠图指令可以是电平信号、数字信号、光信号等,可以用于指示电子设备对待抠图图像进行抠图处理的指令。
步骤S222:基于所述抠图指令从所述多个主体中确定目标主体。
在一些实施方式中,电子设备获得的待抠图图像中包括多个主体,电子设备可以基于获得的抠图指令从多个主体中确定目标主体。其中,基于抠图指令从多个主体中确定的目标主体可以是一个或多个,在此不作限定。
示例性的,请再次参阅图10,电子设备包括显示屏,电子设备获得待抠图图像后,可以将待抠图图像在显示屏上显示,并检测显示屏的按压状态,若检测到显示屏持续被按压的时间大于或等于预设时间长度,则确定接收到抠图指令,进一步的,电子设备可以确定显示屏被按压的位置对应的待抠图图像中的主体作为目标主体。
步骤S223:将所述待抠图图像输入所述目标检测模型,获得所述目标检测模型输出的与所述目标主体对应的从所述待抠图图像中确定的待抠图子图像,以及所述待抠图子图像对应的类别置信度。
在一些实施方式中,电子设备可以将待抠图图像输入目标检测模型,获得目标检测模型输出的与目标主体对应的从待抠图图像中确定的待抠图子图像,以及待抠图子图像对应的类别置信度。
示例性的,请再次参阅图10,电子设备可以将待抠图图像输入目标检测模型,获得目标检测模型输出的与目标主体(被按压的位置对应的待抠图图像中的主体)对应的从待抠图图像中确定的待抠图子图像(虚线框所示),以及待抠图子图像对应的类别置信度。
在一些实施方式中,步骤S220可以包括步骤S224-步骤S225。
步骤S224:将所述待抠图图像输入所述目标检测模型,获得所述目标检测模型输出的从所述待抠图图像中确定的目标检测框,以及所述目标检测框对应的类别置信度。
在一些实施方式中,电子设备可以将待抠图图像输入目标检测模型,目标检测模型可以检测待抠图图像中的各主体,并输出各主体的目标检测框的坐标像素信息、各主体对应的类别、各主体的类别置信度等信息。进而在对待抠图图像抠图前,利用目标检测模型对待抠图图像中的多个主体进行分割,以方便后续对多个主体的抠图,降低了电子设备的计算压力,提高了用户额体验感。
在一些实施方式中,电子设备获得待抠图图像,并基于抠图指令从待抠图图像中包括的多个主体中确定目标主体后,可以将待抠图图像输入目标检测模型,目标检测模型可以检测待抠图图像中的目标主体,并输出目标主体的目标检测框的坐标像素信息、目标主体对应的类别以及目标主体的类别置信度。
步骤S225:基于所述目标检测框以及所述目标检测框对应的类别置信度,获得所述待抠图子图像以及所述待抠图子图像对应的类别置信度。
在一些实施方式中,电子设备获得目标检测模型输出的从待抠图图像中确定的目标检测框、目标检测框的类别以及目标检测框对应的类别置信度后,可以基于目标检测框以及目标检测框对应的类别置信度,获得待抠图子图像以及待抠图子图像对应的类别置信度。也即,电子设备可以基于目标检测框将待抠图图像进行分离,获得目标抠图检测框对应的主体的待抠图子图像。
步骤S230:若所述类别置信度大于或等于置信度阈值,则将所述待抠图子图像输入已训练的抠图模型,获得所述已训练的抠图模型输出的与所述待抠图子图像对应的目标掩膜图像。
在一些实施方式中,电子设备中可以预先设置有已训练的抠图模型,也可以从相关联的云端或电子设备获得已训练的抠图模型,进一步的,电子设备确定待抠图子图像的类别置信度大于或等于置信度阈值后,可以将待抠图子图像输入已训练的抠图模型,获得已训练的抠图模型输出的与待抠图子图像对应的目标掩膜图像。
在一些实施方式中,步骤S230之前可以包括步骤S231-步骤S232。
步骤S231:获取样本数据集,其中,所述样本数据集中包括多张图像以及各所述图像对应的掩膜图像标签。
在一些实施方式中,电子设备中可以预先设置有样本数据集,也可以从相关联的云端或电子设备获得样本数据集,其中,样本数据集中可以包括多张图像以及各图像对应的掩膜图像标签。
示例性的,样本数据集可以是由总量20万余张的通用抠图图像(如,人物、动物、家具、建筑、花草等图像),以及各图像对应的掩膜图像标签组成的数据集。可以理解的是,样本数据集可以用于训练初始抠图模型获得已训练的抠图图像。
步骤S232:基于所述多张图像以及各所述图像对应的掩膜图像标签训练初始抠图模型,获得所述已训练的抠图模型。
在一些实施方式中,电子设备可以基于样本数据包括多张图像以及各图像对应的掩膜图像标签训练初始抠图模型,获得已训练的抠图模型。其中,电子设备中可以预先设置有初始抠图模型,也可以从相关联的云端或电子设备获得。其中,初始抠图模型可以是DEEpImage Matting算法、MODNet算法、Background Matting&V2、RVM等模型,在此不作限定;其中,初始抠图模型也可以是将编解码结构结合跳跃连续操作设计的端到端的轻量抠图算法。
在一些实施方式中,初始抠图模型中可以包括至少三个编码层以及对应至少三个编码层的至少三个解码层,进一步的,步骤S232可以包括步骤S321-步骤S324。
步骤S321:将各所述图像输入所述初始抠图模型,通过所述至少三个编码层对各所述图像进行编码处理,获得各所述图像的至少三个特征信息。
在一些实施方式中,初始抠图模型中可以包括少三个编码层以及对应至少三个编码层的至少三个解码层。电子设备基于多张图像以及各图像对应的掩膜图像标签训练初始抠图模型,获得已训练的抠图模型的过程中,可以将各图像输入初始抠图模型,通过初始抠图模型中包括的至少三个编码层对各图像进行编码处理,获得各图像的至少三个特征信息。
其中,编码层可以是Mobilenat V1网络、Mobilenat V2网络、Mobilenat V3网络等;解码层可以是LEDNET、sub-net网络等,在此不作限定。
步骤S322:通过所述至少三个解码层,对各所述图像的至少三个特征信息进行解码处理,获得各所述图像对应的训练掩膜图像。
在一些实施方式中,电子设备获得各图像的至少三个特征信息后,可以通过初始抠图模型中包括的对应至少三个编码层的至少三个解码层,对各图像的至少三个特征信息进行解码处理,获得各图像对应的训练掩膜图像。
在一些实施方式中,步骤S322可以包括步骤S3221-步骤S3222。
步骤S3221:对各所述图像的至少三个特征信息进行融合处理,获得各所述图像的融合特征信息。
在一些实施方式中,电子设备获得各图像的至少三个特征信息后,可以对各图像的至少三个特征信息进行融合处理,获得各图像的融合特征信息;其中,融合处理可以是将特征信息相加、拼接等操作,在此不作限定。
步骤S3222:通过所述至少三个解码层,对各所述图像的融合特征信息进行解码处理,获得各所述图像对应的训练掩膜图像。
进一步的,电子设备获得各图像的融合特征信息后,可以通过至少三个解码层,对各图像的融合特征信息进行解码处理,获得各图像对应的训练掩膜图像。
步骤S323:获取各所述图像对应的掩膜图像标签与各所述图像对应的训练掩膜图像的损失值。
在一些实施方式中,电子设备获得各图像对应的掩膜图像标签后,可以获取各图像对应的掩膜图像标签与各图像对应的训练掩膜图像的损失值。其中,电子设备可以基于损失函数(如,铰链损失函数、交叉熵损失函数、指数损失函数等)计算各图像对应的掩膜图像标签与各图像对应的训练掩膜图像的损失值。
步骤S324:基于所述损失值更新所述初始抠图模型的参数,直至各所述图像对应的掩膜图像标签与各所述图像的训练掩膜图像的损失值小于损失阈值时,获得所述已训练的抠图模型。
在一些实施方式中,电子设备获得各图像对应的掩膜图像标签与各图像对应的训练掩膜图像的损失值后,可以基于该损失值更新初始抠图模型的参数,并返回执行将图像输入初始抠图模型,通过至少三个编码层对各图像进行编码处理,获得各图像的至少三个特征信息,通过至少三个解码层,对各图像的至少三个特征信息进行解码处理,获得各图像对应的训练掩膜图像,获取各图像对应的掩膜图像标签与各图像对应的训练掩膜图像的损失值,基于该损失值更新初始抠图模型的参数,直至各图像对应的掩膜图像标签与各图像的训练掩膜图像的损失值小于损失阈值时,获得已训练的抠图模型。
示例性的,请参阅图11,其示出了本申请一实施例提供的初始抠图模型的网络框架图。其中,初始抠图模型中包括6层下采样(编码层)和6层上采样(解码层),人像灰度图像I输入初始抠图模型后,初始抠图模型可以对人像灰度图像I进行三层下采样操作,并将提取的图像特征输入对应的解码层1,用于补充由于多层编解码造成的信息损失。从第四层下采样到第五层下采样层,三类信息被送入对应的解码层2,一类是第四层编码层网络提取的图像特征信息,一类是解码层3解码出的图像特征信息,一类是第五层编码层网络提取的相对高层的图像特征信息与第四层编码层网络提取的图像特征信息的融合信息。
其中,融合信息是通过将第五层编码网络提取的图像特征信息通过1×1卷积层之后,再通过解码层4(上采样层)得到的图像特征信息与第四层编码网络提取的图像特征信息进行相加,并在相加之后在通过1×1卷积层得到。
其中,第六层下采样层为最后一层编码层,可以将第六层编码层网络提取到的图像特征信息与通过1×1卷积层提取的图像特征信息相加输入对应的解码层5。
其中,电子设备可以将各图像输入初始抠图模型,通过6个编码层对各图像进行编码处理,获得各图像的至少6个特征信息,并通过6个解码层,对各图像的6个特征信息进行解码处理,获得各图像对应的训练掩膜图像(人像alpha模板M)。
其中,1×1卷积层可以帮助网络更好的学子特征通道间的信息,可以理解的是,卷积层的大小可以是1×1、3×3、5×5等,在此不作限定。
示例性的,解码层的结构,可以如图11右下角所示,其中,32、64、256对应为解码层网络的通道数。
可以理解的是,轻量的端到端的已训练的抠图模型可以在图像的每个像素上集成粗略的语义和细节结果,精细分割图像,生成发丝级别的主体alpha模板M,在保证模型轻量化的同时,获取图像的整体信息以及精细的边缘信息,可以学习图像的高质量细节,最大程度提升模型生成的alpha模板M的精度,进而获得已训练的抠图模型。其中,高精度且轻量化的已训练的抠图模型,保证了分割出的掩膜图像的质量,为端侧部署该已训练的抠图模型提供了可能性。
步骤S240:基于所述待抠图子图像以及所述目标掩膜图像,获得抠图图像。
具体的关于步骤S240的描述请参阅前文对步骤S140的描述,在此不再详细描述。
步骤S250:若所述抠图图像的短边的像素小于或等于第一像素阈值,则基于第一超分辨率放大所述抠图图像,获得目标抠图图像。
在一些实施方式中,电子设备获得抠图图像后,可以将抠图图像的短边的像素与第一像素阈值比较。其中,电子设备中可以预先设置有第一像素阈值,抠图图像的短边的像素与第一像素阈值比较的结果,可以作为判断是否利用第一超分辨率放大抠图图像的判断依据。
示例性的,若抠图图像的短边的像素小于或等于第一像素阈值,电子设备则可以基于第一超分辨率放大抠图图像,获得目标抠图图像。
其中,电子设备中可以预先设置有超分算法(超分辨算法),如,IMDN算法、SRCNN算法、DCSCN算法、SRDenseNet算法、SRGAN算法等。示例性的,电子设备包括的软件开发工具包中可以包括开源的轻量超分算法IMDN,电子设备的获得抠图图像后,可以将抠图图像的短边的像素与第一像素阈值比较,并在确定抠图图像的短边的像素小于或等于第一像素阈值后,基于第一超分辨率以及IMDN算法放大该抠图图像,获得目标抠图图像。进一步的,电子设备可以将目标抠图图像进行显示。
可以理解的是,将抠图图像无损放大可以提高抠图图像局部细节的显示效果,提高用户的体验感。
在一些实施方式中,步骤S240之后还可以包括步骤S260。
步骤S260:若所述抠图图像的短边的像素小于或等于第二像素阈值且大于所述第一像素阈值,则基于第二超分辨率放大所述抠图图像,获得目标抠图图像,其中,所述第一像素阈值小于所述第二像素阈值,所述第一超分辨率大于所述第二超分辨率。
在一些实施方式中,电子设备获得抠图图像后,可以将抠图图像的短边的像素与第一像素阈值以及第二像素阈值比较。其中,电子设备中可以预先设置有第一像素阈值以及第二像素阈值,抠图图像的短边的像素与第一像素阈值以及第二像素阈值比较的结果,可以作为判断是否利用第二超分辨率放大抠图图像的判断依据。其中,第一像素阈值小于第二像素阈值,第一超分辨率大于第二超分辨率。
示例性的,若抠图图像的短边的像素小于或等于第二像素阈值且大于第一像素阈值,则可以基于第二超分辨率放大抠图图像,获得目标抠图图像。
示例性的,电子设备包括的软件开发工具包中可以包括开源的轻量超分算法IMDN,电子设备的获得抠图图像后,将抠图图像的短边的像素与第一像素阈值以及第二像素阈值比较,并在抠图图像的短边的像素小于或等于第二像素阈值且大于第一像素阈值后,基于第二超分辨率以及IMDN算法放大该抠图图像,获得目标抠图图像。进一步的,电子设备可以将目标抠图图像进行显示。
可以理解的是,结合轻量图像超分辨技术,将抠出的低分辨抠图图像进行无损放大,可以提高抠图图像局部细节的显示效果,提高用户的体验感。另外,根据抠图图像的短边的像素与第一像素阈值以及第二像素阈值比较的结果确定用相对合适的超分辨率放大抠图图像,提高了抠图图像局部细节显示的清晰度与平滑度。
在一些实施方式中,步骤S240之后还可以包括步骤S270。
步骤S270:若所述抠图图像的短边的像素大于所述第二像素阈值,则确定所述抠图图像作为目标抠图图像。
在一些实施方式中,电子设备获得抠图图像后,可以将抠图图像的短边的像素与第二像素阈值比较。其中,抠图图像的短边的像素与第二像素阈值比较的结果,可以作为判断是否确定抠图图像作为目标抠图图像的判断依据。
示例性的,若抠图图像的短边的像素大于第二像素阈值,则可以确定抠图图像作为目标抠图图像。
示例性的,电子设备包括的软件开发工具包中可以包括开源的轻量超分算法IMDN,电子设备的获得抠图图像后,将抠图图像的短边的像素与第二像素阈值比较,并在抠图图像的短边的像素大于第二像素阈值时,确定抠图图像作为目标抠图图像。进一步的,电子设备可以将目标抠图图像进行显示。
可以理解的是,根据抠图图像的短边的像素与第二像素阈值比较的结果确定,是否将抠图图像作为目标抠图图像,减小了电子设备的功耗,保证了目标抠图图像的清晰度、真实的尺寸大小,可以提高目标图像的显示效果,提高用户的体验感。
在一些实施方式中,在步骤S240之后,本申请实施例提供的抠图方法还可以包括步骤S280。
步骤S280:响应作用于所述抠图图像的拖拽操作,将所述抠图图像移动至目标位置。
在一些实施方式中,电子设备可以包括交互操作系统。其中,电子设备获得抠图图像后可以将抠图图像进行显示,进一步的,电子设备可以基于该交互操作系统获得作用于抠图图像的拖拽操作,并响应作用于抠图图像的拖拽操作,将抠图图像移动至目标位置。
示例性的,请参阅图12,其示出了本申请一实施例提供的抠图图像拖拽的示意图。其中,电子设备包括的交互操作系统可以实现单指选中拖拽图像的功能。其中,电子设备获得抠图图像后,可以检测作用于抠图图像的拖拽操作,如,显示屏的按压状态以及按压位置,并响应作用于抠图图像的拖拽操作,将抠图图像移动至目标位置,如,检测到显示屏按压位置的连续变化则可以确定存在作用于抠图图像的拖拽操作,则可以根据显示屏按压位置的变化移动抠图图像至目标位置。其中,目标位置对应的圆点为透明圆代表显示屏按压位置最终到达的位置,也即移动抠图图像到达的目标位置。
在一些实施方式中,在步骤S240之后,本申请实施例提供的抠图方法还可以包括步骤S290。
步骤S290:响应作用于所述抠图图像的缩放操作,将所述抠图图像缩放至目标大小。
在一些实施方式中,电子设备可以包括交互操作系统。其中,电子设备获得抠图图像后可以将抠图图像进行显示,进一步的,电子设备可以基于该交互操作系统获得作用于抠图图像的缩放操作,并响应作用于抠图图像的缩放操作,将抠图图像缩放至目标大小。
示例性的,电子设备包括的交互操作系统可以实现两指缩放图像的功能。其中,电子设备获得抠图图像后,可以检测作用于抠图图像的缩放操作,如,检测显示屏是否存在双重按压状态且按压位置发生变化,若存在则确定存在作用于抠图图像的缩放操作,并响应该缩放操作,将抠图图像缩放至目标大小。
在一些实施方式中,本申请实施例提供的抠图算法可以应用于搭载智慧相册平台,可以选中相册中的相片作为待抠图图像,并从该相片中拖出对目标主体抠图的抠图图像,并通过缩放将抠图图像调整至合适大小,进行二次创作,如,制作表情包、将人像主体拖到爱豆照片上实现PS合成等。其中,搭载智慧相册平台可以离线运行抠图算法,也可以在线运行抠图算法,在此不作限定。
其中,基于开源轻量目标检测模型和轻量已训练的抠图模型,进行高精度且对于端侧友好的主体抠图功能;另外,结合轻量图像超分辨技术,将抠出的低分辨抠图图像进行无损放大以及结合交互操作系统实现丝滑的图像缩放和拖曳功能,进而为娱乐创作用户提供全新的功能享受,提高了用户的体验感。
可以理解的是,电子设备也可以在获得目标抠图像后,响应于作用于目标抠图图像的缩放操作,将抠图图像缩放至目标大小,还可以响应作用于抠图图像的拖拽操作,将抠图图像移动至目标位置,进而实现丝滑的图像缩放和拖拽功能。
示例性的,请参阅图13,其示出了本申请一实施例提供的抠图算法的流程示意图。其中,电子设备获得待抠图图像后,可以将待抠图图像输入目标检测模型,获得目标检测模型输出的从待抠图图像中确定的目标检测框、目标检测框对应的类别以及目标检测框对应的类别置信度。进一步的,电子设备可以根据目标检测框以及目标检测框对应的类别置信度获得待抠图子图像,以及待抠图子图像对应的类别置信度;进一步的,电子设备可以将待抠图子图像对应的类别置信度与置信度阈值(如,0.7)比较。若该类别直线度大于或等于置信度阈值,则将待抠图子图像输入已训练的抠图模型,获得已训练的抠图模型输出的与待抠图子图像对应的目标掩膜图像。若该类别直线度小于置信度阈值,则不对该待抠图子图像进行抠图处理。
进一步的,电子设备可以基于待抠图子图像以及目标掩膜图像,获得抠图图像。进一步的,电子设备可以将抠图图像的短边的像素与第一像素阈值(如,50像素)以及第二像素阈值(如,100像素)比较。若抠图图像的短边的像素小于或等于100像素且大于50像素,则利用通用轻量超分模型基于第二超分辨率(如,2倍超分)放大该抠图图像,获得目标抠图像;若抠图图像的短边的像素小于或等于50像素,则利用通用轻量超分模型基于第一超分辨率(如,4倍超分)放大该抠图图像,获得目标抠图图像;若抠图图像的短边的像素大于100像素,则确定该抠图图像作为目标抠图图像。
进一步的,电子设备获得目标抠图图像后,可以响应于作用于目标抠图图像的拖拽操作,将抠图图像移动至目标位置,也可以响应作用于抠图图像的缩放操作,将抠图图像缩放至目标大小。进而通过结合轻量目标检测模型和通用抠图模型对待抠图图像包括的主体进行交互性的无损拖拽缩放,提高了抠图的效果和通用性,并且轻量的模型支持移动端的部署,提高了抠图的实用性,也提高了用户体验感。
本申请一实施例提供的抠图方法,相较于图1所示的抠图方法,本实施例还若抠图图像的短边的像素小于或等于第一像素阈值,则基于第一超分辨率放大抠图图像,获得目标抠图图像;或者若抠图图像的短边的像素小于或等于第二像素阈值且大于第一像素阈值,则基于第二超分辨率放大抠图图像,获得目标抠图图像;或者若抠图图像的短边的像素大于第二像素阈值,则确定抠图图像作为目标抠图图像,进而通过在抠图前使用目标检测模型获取待抠图子图像,并且利用已训练的抠图模型进行抠图,提高抠图的质量,并对抠图图像进行无损缩放以及丝滑的拖拽,提高了用户的体验感。
请参阅图14,图14示出了本申请一实施例提供的抠图装置的模块框图。该抠图装置200应用于上述电子设备。下面将针对图14所示的流程进行详细的阐述,所述抠图装置200包括:待抠图图像获取模块210、待抠图子图像获得模块220、目标掩膜图像获得模块230以及抠图图像获得模块240,其中:
待抠图图像获取模块210,用于获取待抠图图像。
待抠图子图像获得模块220,用于将所述待抠图图像输入目标检测模型,获得所述目标检测模型输出的从所述待抠图图像中确定的待抠图子图像,以及所述待抠图子图像对应的类别置信度。
目标掩膜图像获得模块230,用于若所述类别置信度大于或等于置信度阈值,则将所述待抠图子图像输入已训练的抠图模型,获得所述已训练的抠图模型输出的与所述待抠图子图像对应的目标掩膜图像。
抠图图像获得模块240,用于基于所述待抠图子图像以及所述目标掩膜图像,获得抠图图像。
进一步地,在所述基于所述待抠图子图像以及所述目标掩膜图像,获得抠图图像之后,所述抠图装置200还可以包括:第一图像处理、第二图像处理模块或者第三图像处理模块,其中:
第一图像处理模块,用于若所述抠图图像的短边的像素小于或等于第一像素阈值,则基于第一超分辨率放大所述抠图图像,获得目标抠图图像。
第二图像处理模块,用于若所述抠图图像的短边的像素小于或等于第二像素阈值且大于所述第一像素阈值,则基于第二超分辨率放大所述抠图图像,获得目标抠图图像,其中,所述第一像素阈值小于所述第二像素阈值,所述第一超分辨率大于所述第二超分辨率。
第二图像处理模块,用于若所述抠图图像的短边的像素大于所述第二像素阈值,则确定所述抠图图像作为目标抠图图像。
进一步地,所述待抠图图像中包括多个主体,所述待抠图子图像获得模块230可以包括:抠图指令获取模块、目标主体确定模块以及待抠图子图像获得子模块,其中:
抠图指令获取模块,用于获取抠图指令。
目标主体确定模块,用于基于所述抠图指令从所述多个主体中确定目标主体。
待抠图子图像获得子模,用于将所述待抠图图像输入所述目标检测模型,获得所述目标检测模型输出的与所述目标主体对应的从所述待抠图图像中确定的待抠图子图像,以及所述待抠图子图像对应的类别置信度。
进一步地,所述待抠图子图像获得模块230还可以包括:目标检测框获得单元以及待抠图子图像获得单元,其中:
目标检测框获得单元,用于将所述待抠图图像输入所述目标检测模型,获得所述目标检测模型输出的从所述待抠图图像中确定的目标检测框,以及所述目标检测框对应的类别置信度。
待抠图子图像获得单元,用于基于所述目标检测框以及所述目标检测框对应的类别置信度,获得所述待抠图子图像以及所述待抠图子图像对应的类别置信度。
进一步地,在所述若所述类别置信度大于或等于置信度阈值,则将所述待抠图子图像输入已训练的抠图模型,获得所述已训练的抠图模型输出的目标掩膜图像之前,所述抠图装置200还可以包括:样本数据获取模块以及模型训练模块,其中:
样本数据获取模块,用于获取样本数据集,其中,所述样本数据集中包括多张图像以及各所述图像对应的掩膜图像标签。
模型训练模块,用于基于所述多张图像以及各所述图像对应的掩膜图像标签训练初始抠图模型,获得所述已训练的抠图模型。
进一步地,所述初始抠图模型中包括至少三个编码层以及对应所述至少三个编码层的至少三个解码层,所述模型训练模块可以包括:特征信息获得单元、训练掩膜图像获得单元、掩膜图像损失值获得单元以及模型训练单元,其中:
特征信息获得单元,用于将各所述图像输入所述初始抠图模型,通过所述至少三个编码层对各所述图像进行编码处理,获得各所述图像的至少三个特征信息。
训练掩膜图像获得单元,用于对各所述图像的至少三个特征信息进行解码处理,获得各所述图像对应的训练掩膜图像。
掩膜图像损失值获得单元,用于获取各所述图像对应的掩膜图像标签与各所述图像对应的训练掩膜图像的损失值。
模型训练单元,用于基于所述损失值更新所述初始抠图模型的参数,直至各所述图像对应的掩膜图像标签与各所述图像的训练掩膜图像的损失值小于损失阈值时,获得所述已训练的抠图模型。
进一步地,训练掩膜图像获得单元可以包括:特征信息融合单元以及训练掩膜图像获得子单元,其中:
特征信息融合单元,用于对各所述图像的至少三个特征信息进行融合处理,获得各所述图像的融合特征信息。
训练掩膜图像获得子单元,用于通过所述至少三个解码层,对各所述图像的融合特征信息进行解码处理,获得各所述图像对应的训练掩膜图像。
进一步地,所述抠图装置200还可以包括:图像拖拽模块,其中:
图像拖拽模块,用于响应作用于所述抠图图像的拖拽操作,将所述抠图图像移动至目标位置。
进一步地,所述抠图装置200还可以包括:图像缩放模块,其中:
图像缩放模块,用于响应作用于所述抠图图像的缩放操作,将所述抠图图像缩放至目标大小。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,模块相互之间的耦合可以是电性,机械或其它形式的耦合。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
请参阅图15,其示出了本申请实施例提供的一种电子设备的结构框图。该电子设备100可以是智能手机、平板电脑、电子书等能够运行应用程序的电子设备。本申请中的电子设备100可以包括一个或多个如下部件:处理器110、存储器120以及一个或多个应用程序,其中一个或多个应用程序可以被存储在存储器120中并被配置为由一个或多个处理器110执行,一个或多个程序配置用于执行如前述方法实施例所描述的方法。
其中,处理器110可以包括一个或者多个处理核。处理器110利用各种接口和线路连接整个电子设备100内的各个部分,通过运行或执行存储在存储器120内的指令、程序、代码集或指令集,以及调用存储在存储器120内的数据,执行电子设备100的各种功能和处理数据。可选地,处理器110可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(ProgrammableLogic Array,PLA)中的至少一种硬件形式来实现。处理器110可集成中央处理器(CentralProcessing Unit,CPU)、图形处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责待显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器110中,单独通过一块通信芯片进行实现。
存储器120可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。存储器120可用于存储指令、程序、代码、代码集或指令集。存储器120可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备100在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。
请参阅图16,其示出了本申请实施例提供的一种计算机可读取存储介质的结构框图。该计算机可读取介质300中存储有程序代码,所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。
计算机可读取存储介质300可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地,计算机可读取存储介质300包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读取存储介质300具有执行上述方法中的任何方法步骤的程序代码310的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码310可以例如以适当形式进行压缩。
综上所述,本申请实施例提供的抠图方法、装置、电子设备以及存储介质,通过获取待抠图图像;将待抠图图像输入目标检测模型,获得目标检测模型输出的从待抠图图像中确定的待抠图子图像,以及待抠图子图像对应的类别置信度;若类别置信度大于或等于置信度阈值,则将待抠图子图像输入已训练的抠图模型,获得已训练的抠图模型输出的与待抠图子图像对应的目标掩膜图像;基于待抠图子图像以及目标掩膜图像,获得抠图图像,进而通过在抠图前使用目标检测模型获取待抠图子图像,并且利用已训练的抠图模型进行抠图,提高抠图的质量,也提高了用户的体验感。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (12)

1.一种抠图方法,其特征在于,所述方法包括:
获取待抠图图像;
将所述待抠图图像输入目标检测模型,获得所述目标检测模型输出的从所述待抠图图像中确定的待抠图子图像,以及所述待抠图子图像对应的类别置信度;
若所述类别置信度大于或等于置信度阈值,则将所述待抠图子图像输入已训练的抠图模型,获得所述已训练的抠图模型输出的与所述待抠图子图像对应的目标掩膜图像;
基于所述待抠图子图像以及所述目标掩膜图像,获得抠图图像。
2.根据权利要求1所述的方法,其特征在于,在所述基于所述待抠图子图像以及所述目标掩膜图像,获得抠图图像之后,还包括:
若所述抠图图像的短边的像素小于或等于第一像素阈值,则基于第一超分辨率放大所述抠图图像,获得目标抠图图像;或者
若所述抠图图像的短边的像素小于或等于第二像素阈值且大于所述第一像素阈值,则基于第二超分辨率放大所述抠图图像,获得目标抠图图像,其中,所述第一像素阈值小于所述第二像素阈值,所述第一超分辨率大于所述第二超分辨率;或者
若所述抠图图像的短边的像素大于所述第二像素阈值,则确定所述抠图图像作为目标抠图图像。
3.根据权利要求1所述的方法,其特征在于,所述待抠图图像中包括多个主体,所述将所述待抠图图像输入目标检测模型,获得所述目标检测模型输出的从所述待抠图图像中确定的待抠图子图像,以及所述待抠图子图像对应的类别置信度,包括:
获取抠图指令;
基于所述抠图指令从所述多个主体中确定目标主体;
将所述待抠图图像输入所述目标检测模型,获得所述目标检测模型输出的与所述目标主体对应的从所述待抠图图像中确定的待抠图子图像,以及所述待抠图子图像对应的类别置信度。
4.根据权利要求1所述的方法,其特征在于,所述将所述待抠图图像输入目标检测模型,获得所述目标检测模型输出的从所述待抠图图像中确定的待抠图子图像,以及所述待抠图子图像对应的类别置信度,包括:
将所述待抠图图像输入所述目标检测模型,获得所述目标检测模型输出的从所述待抠图图像中确定的目标检测框,以及所述目标检测框对应的类别置信度;
基于所述目标检测框以及所述目标检测框对应的类别置信度,获得所述待抠图子图像以及所述待抠图子图像对应的类别置信度。
5.根据权利要求1所述的方法,其特征在于,在所述若所述类别置信度大于或等于置信度阈值,则将所述待抠图子图像输入已训练的抠图模型,获得所述已训练的抠图模型输出的目标掩膜图像之前,还包括:
获取样本数据集,其中,所述样本数据集中包括多张图像以及各所述图像对应的掩膜图像标签;
基于所述多张图像以及各所述图像对应的掩膜图像标签训练初始抠图模型,获得所述已训练的抠图模型。
6.根据权利要求5所述的方法,其特征在于,所述初始抠图模型中包括至少三个编码层以及对应所述至少三个编码层的至少三个解码层,所述基于所述多张图像以及各所述图像对应的掩膜图像标签训练初始抠图模型,获得所述已训练的抠图模型,包括:
将各所述图像输入所述初始抠图模型,通过所述至少三个编码层对各所述图像进行编码处理,获得各所述图像的至少三个特征信息;
通过所述至少三个解码层,对各所述图像的至少三个特征信息进行解码处理,获得各所述图像对应的训练掩膜图像;
获取各所述图像对应的掩膜图像标签与各所述图像对应的训练掩膜图像的损失值;
基于所述损失值更新所述初始抠图模型的参数,直至各所述图像对应的掩膜图像标签与各所述图像的训练掩膜图像的损失值小于损失阈值时,获得所述已训练的抠图模型。
7.根据权利要求6所述的方法,其特征在于,所述通过所述至少三个解码层,对各所述图像的至少三个特征信息进行解码处理,获得各所述图像对应的训练掩膜图像,包括:
对各所述图像的至少三个特征信息进行融合处理,获得各所述图像的融合特征信息;
通过所述至少三个解码层,对各所述图像的融合特征信息进行解码处理,获得各所述图像对应的训练掩膜图像。
8.根据权利要求1-7任一项所述的方法,其特征在于,在所述基于所述待抠图子图像以及所述目标掩膜图像,获得抠图图像之后,还包括:
响应作用于所述抠图图像的拖拽操作,将所述抠图图像移动至目标位置。
9.根据权利要求1-7任一项所述的方法,其特征在于,在所述基于所述待抠图子图像以及所述目标掩膜图像,获得抠图图像之后,还包括:
响应作用于所述抠图图像的缩放操作,将所述抠图图像缩放至目标大小。
10.一种抠图装置,其特征在于,所述装置包括:
待抠图图像获取模块,用于获取待抠图图像;
待抠图子图像获得模块,用于将所述待抠图图像输入目标检测模型,获得所述目标检测模型输出的从所述待抠图图像中确定的待抠图子图像,以及所述待抠图子图像对应的类别置信度;
目标掩膜图像获得模块,用于若所述类别置信度大于或等于置信度阈值,则将所述待抠图子图像输入已训练的抠图模型,获得所述已训练的抠图模型输出的与所述待抠图子图像对应的目标掩膜图像;
抠图图像获得模块,用于基于所述待抠图子图像以及所述目标掩膜图像,获得抠图图像。
11.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行如权利要求1-9任一项所述的方法。
12.一种计算机可读取存储介质,其特征在于,所述计算机可读取存储介质中存储有程序代码,所述程序代码可被处理器调用执行如权利要求1-9任一项所述的方法。
CN202310100371.6A 2023-02-07 2023-02-07 抠图方法、装置、电子设备以及存储介质 Pending CN116310315A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310100371.6A CN116310315A (zh) 2023-02-07 2023-02-07 抠图方法、装置、电子设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310100371.6A CN116310315A (zh) 2023-02-07 2023-02-07 抠图方法、装置、电子设备以及存储介质

Publications (1)

Publication Number Publication Date
CN116310315A true CN116310315A (zh) 2023-06-23

Family

ID=86795130

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310100371.6A Pending CN116310315A (zh) 2023-02-07 2023-02-07 抠图方法、装置、电子设备以及存储介质

Country Status (1)

Country Link
CN (1) CN116310315A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117218456A (zh) * 2023-11-07 2023-12-12 杭州灵西机器人智能科技有限公司 一种图像标注方法、系统、电子设备和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117218456A (zh) * 2023-11-07 2023-12-12 杭州灵西机器人智能科技有限公司 一种图像标注方法、系统、电子设备和存储介质
CN117218456B (zh) * 2023-11-07 2024-02-02 杭州灵西机器人智能科技有限公司 一种图像标注方法、系统、电子设备和存储介质

Similar Documents

Publication Publication Date Title
JP7238139B2 (ja) 人工知能による画像領域の認識方法、モデルのトレーニング方法、画像処理機器、端末機器、サーバー、コンピュータ機器及びコンピュータプログラム
WO2021103698A1 (zh) 换脸方法、装置、电子设备及存储介质
CN109635621B (zh) 用于第一人称视角中基于深度学习识别手势的系统和方法
CN110610510B (zh) 目标跟踪方法、装置、电子设备及存储介质
CN112232425B (zh) 图像处理方法、装置、存储介质及电子设备
WO2022001623A1 (zh) 基于人工智能的图像处理方法、装置、设备及存储介质
JP6595714B2 (ja) 動的な効果を有する2次元コード画像を生成するための方法および装置
CN112860888B (zh) 一种基于注意力机制的双模态情感分析方法
CN112258404B (zh) 图像处理方法、装置、电子设备和存储介质
CN111192190B (zh) 消除图像水印的方法、装置及电子设备
CN111950570B (zh) 目标图像提取方法、神经网络训练方法及装置
CN113343958B (zh) 一种文本识别方法、装置、设备及介质
CN114022887B (zh) 文本识别模型训练及文本识别方法、装置、电子设备
CN113569840A (zh) 基于自注意力机制的表单识别方法、装置及存储介质
CN112632244A (zh) 一种人机通话的优化方法、装置、计算机设备及存储介质
JP6989450B2 (ja) 画像解析装置、画像解析方法及びプログラム
WO2018120082A1 (en) Apparatus, method and computer program product for deep learning
CN116310315A (zh) 抠图方法、装置、电子设备以及存储介质
CN111507279B (zh) 一种基于UNet++网络的掌纹识别方法
CN110197459B (zh) 图像风格化生成方法、装置及电子设备
WO2022127865A1 (zh) 视频处理方法、装置、电子设备及存储介质
WO2023272495A1 (zh) 徽标标注方法及装置、徽标检测模型更新方法及系统、存储介质
CN113808151A (zh) 直播图像的弱语义轮廓检测方法、装置、设备及存储介质
WO2020124390A1 (zh) 一种面部属性的识别方法及电子设备
CN111583352A (zh) 一种用于移动终端的风格化图标智能生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination