CN113034648A - 图像处理方法、装置、设备和存储介质 - Google Patents

图像处理方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN113034648A
CN113034648A CN202110487813.8A CN202110487813A CN113034648A CN 113034648 A CN113034648 A CN 113034648A CN 202110487813 A CN202110487813 A CN 202110487813A CN 113034648 A CN113034648 A CN 113034648A
Authority
CN
China
Prior art keywords
foreground
mask
training
background
processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110487813.8A
Other languages
English (en)
Inventor
杜绪晗
张启军
刘鑫
焦少慧
程京
吴泽寰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing ByteDance Network Technology Co Ltd
Original Assignee
Beijing ByteDance Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing ByteDance Network Technology Co Ltd filed Critical Beijing ByteDance Network Technology Co Ltd
Priority to CN202110487813.8A priority Critical patent/CN113034648A/zh
Publication of CN113034648A publication Critical patent/CN113034648A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种图像处理方法、装置、设备和存储介质。其中,图像处理方法包括:获取当前视频流,当前视频流包括至少一帧包含目标对象图像的待处理视频帧;将待处理视频帧输入至蒙版处理模型中以得到前景蒙版,前景蒙版对应目标对象图像,蒙版处理模型用于通过背景解码子单元和前景解码子单元分别输出待处理视频帧的前景特征图和背景特征图,根据前景特征图和背景特征图确定前景蒙版;根据前景蒙版对待处理视频帧进行背景替换以更新当前视频流中的待处理视频帧;将更新后的当前视频流发送至服务端,以由服务端下发至目标用户端。本公开实施例提供的图像处理方法解决了现有技术的前景人像确定方法所确定的前景人像质量较低的问题。

Description

图像处理方法、装置、设备和存储介质
技术领域
本公开实施例涉及计算机数据处理技术,尤其涉及一种图像处理方法、装置、设备和存储介质。
背景技术
随着直播的流行,人像背景替换的需求越来越大。人像背景替换是指从含有人像的自然图像或视频中精确地确定出前景人像,并将其与预设的背景图像融合起来。以生鲜货品的直播带货为例,可以通过人像背景替换,将主播与展示生鲜货品生产环境的视频融合在一起,这样既能增加直播的多样性和真实性,又能使观众看到主播的人像,从而提升观众购买相关货品的欲望。因此,要进行人像背景替换就要先从含有人像的自然图像或视频中精确地确定出前景人像。
现有前景人像确定方法主要包括语义分割和人像抠图,前者的缺点是边缘缺失严重,粒度较粗;后者虽然人像边缘细节保留的较好,但整体性较差。由此可见,现有技术的前景人像确定方法所确定的前景人像的质量较低,通常无法满足人们的审美要求。
发明内容
本公开实施例提供一种图像处理方法、装置、设备和存储介质,以解决现有技术的前景人像确定方法所确定的前景人像质量较低的问题。
第一方面,本公开实施例提供了一种图像处理方法,包括:
获取当前视频流,所述当前视频流包括至少一帧包含目标对象图像的待处理视频帧;
将所述待处理视频帧输入至蒙版处理模型中以得到前景蒙版,所述前景蒙版对应所述目标对象图像,所述蒙版处理模型用于通过背景解码子单元和前景解码子单元分别输出所述待处理视频帧的前景特征图和背景特征图,以及根据所述前景特征图和背景特征图确定所述前景蒙版;
根据所述前景蒙版对所述待处理视频帧进行背景替换以更新所述当前视频流中的待处理视频帧;
将更新后的当前视频流发送至服务端,以由服务端下发至目标用户端。
第二方面,本公开实施例还提供了一种图像处理装置,包括:
视频获取模块,用于获取当前视频流,所述当前视频流包括至少一帧包含目标对象图像的待处理视频帧;
蒙版模块,用于将所述待处理视频帧输入至蒙版处理模型中以得到前景蒙版,所述前景蒙版对应所述目标对象图像,所述蒙版处理模型用于通过背景解码子单元和前景解码子单元分别输出所述待处理视频帧的前景特征图和背景特征图,以及根据所述前景特征图和背景特征图确定所述前景蒙版;
背景替换模块,用于根据所述前景蒙版对所述待处理视频帧进行背景替换以更新所述当前视频流中的待处理视频帧;
输出模块,用于将更新后的当前视频流发送至服务端,以由服务端下发至目标用户端。
第三方面,本公开实施例还提供了一种电子设备,所述电子设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如任一本公开实施例所述的图像处理方法。
第四方面,本公开实施例还提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如任一本公开实施例所述的图像处理方法。
本公开实施例提供的图像处理方法的技术方案,由于蒙版处理模型是通过背景解码子单元和前景解码子单元分别输出待处理视频帧的前景特征图和背景特征图,并根据该前景特征图和背景特征图确定待处理视频帧的前景蒙版的,因此可以减少前景特征图或背景特征图的误差对前景蒙版质量的影响,有助于提高前景蒙版的质量,因此通过该蒙版处理模型确定出的待处理视频帧的前景蒙版具有较高的蒙版质量,那么根据该前景蒙版对当前视频流中的待处理视频帧进行背景替换,可以使更新后的当前视频流具有较高质量的目标对象图像,满足用户对目标对象图像的审美需求。
附图说明
结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。
图1示出了本公开实施例一提供的图像处理方法流程图;
图2示出了本公开实施例一提供的前景蒙版的示意图;
图3示出了本公开实施例一提供的已训练的蒙版处理模型的示意图;
图4示出了本公开实施例一提供的直播视频流的处理示意图;
图5示出了本公开实施例二提供的图像处理装置的框图示意图;
图6示出了本公开实施例三提供的蒙版处理模型训练方法流程图;
图7A示出了本公开实施例三提供的前景训练模板示意图;
图7B示出了本公开实施例三提供的边缘提取模板示意图;
图8示出了本公开实施例四提供的又一蒙版处理模型训练方法流程图;
图9示出了本公开实施例五提供的蒙版处理模型训练装置的框图示意图;
图10示出了本公开实施例六提供的电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
实施例一
图1示出了本公开实施例一提供的图像处理方法流程图,本公开实施例可适用于通过前景蒙版处理模型确定当前直播视频流中待处理视频帧的前景蒙版,并根据该前景蒙版完成待处理视频帧的背景替换的情况,该方法通常由直播客户端的电子设备实现,具体可通过配置在电子设备中的软件和/或硬件来实施。其中,该电子设备为计算机、手机、掌上电脑等可用于图像处理的设备。
如图1所示,本公开实施例中提供的图像处理方法,包括如下步骤:
S101、获取当前视频流,该当前视频流包括至少一帧包含目标对象图像的待处理视频帧。
其中,待处理视频帧优选为直播视频帧图像,另外,本公开实施例不对待处理视频帧的格式进行限定,只要是现有图像格式即可,比如RGB格式。
其中,目标对象是指需要进行背景替换的对象,可以是人像,也可以是动物图像、物品图像等。实际使用时,用户可以根据具体情况进行选择。
S102、将待处理视频帧输入至蒙版处理模型中以得到前景蒙版,该前景蒙版对应目标对象图像,蒙版处理模型用于通过背景解码子单元和前景解码子单元分别输出待处理视频帧的前景特征图和背景特征图,以及根据前景特征图和背景特征图确定前景蒙版。
其中,前景蒙版是指待处理视频帧的透明度,通常用alpha表示,是由一个与图像大小相同、从0到1之间的浮点值构成的矩阵。用于限定目标对象在待处理视频帧中的位置范围,如图2所示。
其中,蒙版处理模型包括编码单元、解码单元和输出单元;编码单元用于从待处理视频帧提取编码特征;解码单元包括并行的前景解码子单元和背景解码子单元,前景解码子单元用于根据编码特征重构待处理视频帧的前景特征图,背景解码子单元用于根据编码特征重构待处理视频帧的背景特征图;输出单元用于根据前景特征图和背景特征图确定前景蒙版。
其中,编码单元优选基于卷积神经网络(CNN)、残差网络(ResNet)、密集卷积网络(DenseNeT)或MobileNet等网络结构来进行图像特征的提取。
其中,前景解码子单元和背景解码子单元的结构相同,权重各自独立且不共享。而且无论是前景解码子单元,还是背景解码子单元,其用于语义分割的第一反向特征提取层的数量与用于抠图的第二反向特征提取层的数量优选相同。
其中,语义分割(Semantic Segmentatiaon)是在像素级别上的分类,属于同一类的像素都要被归为一类,因此语义分割是从像素级别来理解图像的。
其中,抠图是用于预测图像的透明度,从而使图像的前景和背景分离,是一个回归问题。任一图像可通过以下公式表示:
image=fg×alpha+bg×(1-alpha)
其中,image为目标图像,fg为目标图像的前景,bg为目标图像的背景,alpha为目标图像的前景蒙版。
在一个公开实施例中,如图3所示,前景解码子单元和背景解码子单元均包括两个用于语义分割的第一反向特征提取层,以从相应特征图中提取目标对象的轮廓,以及连接在该两个用于语义分割的第一反向特征提取层后面的两个用于抠图的第二反向特征提取层,该第二反向特征提取层用于对携带有目标对象轮廓信息的特征图进行抠图,以获取目标对象的细节信息,从而使第二反向特征提取层输出的特征图在保留目标对象图像整体性信息的同时,还包含目标对象的边缘细节信息。
对于前景解码子单元来说,如图3所示,标识为F8和F4的反向特征提取层均为用于语义分割的第一反向特征提取层;标识为F2和F的反向特征提取层均为用于抠图的第二反向特征提取层;具体地,标识为F8的第一反向特征提取层用于将所接收的特征图上采样至原图大小的1/8,并对其进行语义分割以得到第一分割特征图,然后经过一个1×1的卷积层,将该第一分割特征图的通道数转换成1,格式变为(1,H/8,W/8);相应的,标识为F4的第一反向特征提取层用于将所接收的第一分割特征图上采样至原图大小的1/4,并对其进行语义分割以得到第二分割特征图,然后经过一个1×1的卷积层,将该第二分割特征图的通道数转换成1,格式变为(1,H/4,W/4);标识为F2的第二反向特征提取层用于将所接收的第二分割特征图上采样至原图大小的1/2,并对其进行人像抠图以得到第一抠图特征图,然后经过一个1×1的卷积层,将该第一抠图特征图的通道数转换成1,格式变为(1,H/2,W/2);标识为F的第二反向特征提取层用于将所接收的第一抠图特征图上采样至原图大小,并对其进行人像抠图以得到前景特征图,然后经过一个1×1的卷积层,将该前景特征图的通道数转换成1,格式变为(1,H,W)。
需要说明的是,由于前景解码子单元与背景解码子单元的结构相同,因此本公开实施例在此不对背景解码子单元的组成进行详细地说明。
其中,输出单元用于通过拼接子单元对前景解码子单元输出的前景特征图和背景解码子单元输出的背景特征图进行拼接以得到前景权重;然后根据该前景权重、前景特征图和背景特征图确定前景蒙版。相较于仅根据前景特征图或背景特征图确定前景蒙版来说,减少了前景特征图或背景特征图的误差对前景蒙版质量的影响,有助于提高前景蒙版的质量。本公开实施例中,根据该前景权重、前景特征图和背景特征图确定前景蒙版的公式如下:
alpha=beta×F+(1-beta)×(1-B)
其中,F为前景特征图,B为背景特征图,beta为前景权重。
在一些公开实施例中,拼接子单元在完成拼接解码子单元输出的前景特征图和背景解码子单元输出的背景特征图的拼接之后,将拼接结果依次输入至少两个卷积层,比如三个卷积层,且最后一个卷积层为1×1的卷积层,从而使输出的前景蒙版格式为(1,H,W)。
在一些公开实施例中,该蒙版处理模型还包括设置于编码单元和解码单元之间的空洞空间卷积池化金子塔(Atrous Spatial Pyramid Pooling,简称ASPP)单元,该ASPP单元用于根据编码单元提取的图像特征以不同采样率的空洞卷积进行并行采样,以捕捉待处理视频帧的上下文。
S103、根据前景蒙版对待处理视频帧进行背景替换以更新当前视频流中的待处理视频帧。
确定出待处理视频帧的前景蒙版之后,根据该前景蒙版对待处理视频帧进行背景替换,以更新待处理视频帧,从而更新当前视频流。
在一些公开实施例中,确定用户在背景替换模板库中选择的背景替换模板,或者接收用户上传的背景替换模板,然后根据该背景替换模板和该前景蒙版对待处理视频帧进行背景替换,以更新待处理视频帧,从而更新当前视频流。
S104、将更新后的当前视频流发送至服务端,以由服务端下发至目标用户端。
将更新后的当前视频流发送至服务端,以由服务端将当前视频流发送至目标用户端。可以理解的是,服务端的视频处理对象不仅仅包括当前视频流,也包括其他客户端上传的视频流,因此服务端会将各个客户端上传的视频流进行合流以生成视频合流数据(参见图4),然后根据用户端的播放请求将视频合流数据中的相应视频流发送至对应用户端。
本公开实施例提供的图像处理方法的技术方案,由于蒙版处理模型是通过背景解码子单元和前景解码子单元分别输出待处理视频帧的前景特征图和背景特征图,并根据该前景特征图和背景特征图确定待处理视频帧的前景蒙版的,通过前景特征图和背景特征图确定该待处理视频帧的前景蒙版,可以减少前景特征图或背景特征图的误差对前景蒙版质量的影响,有助于提高前景蒙版的质量,因此通过该蒙版处理模型确定出的待处理视频帧的前景蒙版具有较高的蒙版质量,那么根据该前景蒙版对当前视频流中的待处理视频帧进行背景替换,可以使更新后的当前视频流具有较高质量的目标对象图像,满足用户对目标对象图像的审美需求。
实施例二
图5示出了本公开实施例提供的图像处理装置的框图示意图,本公开实施例通常配置在电子设备中,并通过软件或硬件实现,可实现上述公开实施例提供的图像处理方法。
如图5所示,本公开实施例提供的图像处理装置,包括:
视频获取模块21,用于获取当前视频流,所述当前视频流包括至少一帧包含目标对象图像的待处理视频帧;
蒙版模块22,用于将所述待处理视频帧输入至蒙版处理模型中以得到前景蒙版,所述前景蒙版对应所述目标对象图像,所述蒙版处理模型用于通过并行的背景解码子单元和前景解码子单元分别输出前景特征图和背景特征图,以及根据所述前景特征图和背景特征图确定所述前景蒙版;
背景替换模块23,用于根据所述前景蒙版对所述待处理视频帧进行背景替换以更新所述当前视频流中的待处理视频帧;
输出模块24,用于将更新后的当前视频流发送至服务端,以由服务端下发至目标用户端。
可选地,背景替换模块用于接收用户上传的背景替换模板或者确定用户在背景替换模板库中选择的背景替换模板;根据所述背景替换模板和所述前景蒙版对所述待处理视频帧进行背景替换以更新所述当前视频流中的待处理视频帧。
可选地,蒙版处理模型包括编码单元、解码单元和输出单元;所述编码单元用于从所述待处理视频帧提取编码特征;所述解码单元包括并行的前景解码子单元和背景解码子单元,所述前景解码子单元用于根据所述编码特征重构所述待处理视频帧的前景特征图,所述背景解码子单元用于根据所述编码特征重构所述待处理视频帧的背景特征图;所述输出单元用于根据所述前景特征图和所述背景特征图确定所述前景蒙版。
可选地,前景解码子单元和背景解码子单元分别包含顺序连接的至少一个用于语义分割的第一反向特征提取层以及至少一个用于抠图的第二反向特征提取层。
可选地,在一个解码子单元中,第一反向特征提取层的数量与第二反向特征提取层的数量相同。
可选地,输出单元用于对前景特征图和背景特征图进行拼接以得到前景权重,以及根据前景特征图、背景特征图以及前景权重确定前景蒙版。
可选地,输出单元具体用于按照如下公式确定前景蒙版:
alpha=beta×F+(1-beta)×(1-B)
其中,alpha为前景蒙版,beta为前景权重,F为前景特征图,B为背景特征图。
本公开实施例提供的图像处理装置的技术方案,由于蒙版处理模型是通过背景解码子单元和前景解码子单元分别输出待处理视频帧的前景特征图和背景特征图,并根据该前景特征图和背景特征图确定待处理视频帧的前景蒙版的,因此可以减少前景特征图或背景特征图的误差对前景蒙版质量的影响,有助于提高前景蒙版的质量,因此通过该蒙版处理模型确定出的待处理视频帧的前景蒙版具有较高的蒙版质量,那么根据该前景蒙版对当前视频流中的待处理视频帧进行背景替换,可以使更新后的当前视频流具有较高质量的目标对象图像,满足用户对目标对象图像的审美需求。
本公开实施例提供的图像处理装置,与上述公开实施例提供的图像处理方法属于同一发明构思,未在本公开实施例中详尽描述的技术细节可参见上述公开实施例,并且本公开实施例与上述公开实施例具有相同的有益效果。
实施例三
图6示出了本公开实施例提供的模型训练方法流程图。前述实施例所述的蒙版处理模型基于本公开实施例所述的模型训练方法训练而成,该方法通常由电子设备实现,具体可通过配置在电子设备中的软件和/或硬件来实施。其中,本公开实施例中的电子设备优选为计算机设备。
如图6所示,本公开实施例中提供的蒙版处理模型训练方法,包括如下步骤:
S301、获取训练样本集合,其中,训练样本集合中的训练样本包括模板图像和包含目标对象图像的待处理视频帧,模板图像包括对应前景蒙版的前景训练模板以及与前景训练模板对应的背景训练模板。
在一个公开实施例中,训练样本集合的获取方法包括:获取包含目标对象图像的待处理视频帧和对应前景蒙版的前景训练模板的样本集合;对前景训练模板进行取反处理,以生成与前景训练模板对应的背景训练模板;将背景训练模板添加至训练样本集合,以更新训练样本集合。示例性的,在获取到对应前景蒙版的前景训练模板时,对该前景训练模板进行取反处理,以生成与该前景训练模板对应的背景训练模板,将该背景训练模板添加至训练样本集合中,并令该前景训练模板和背景训练模板的非零像素值均大于预设阈值,比如0.05,以更新训练样本集合。
其中,前景训练模板的格式为(1,H,W),是与待处理视频帧对应的前景蒙版,或者是与待处理视频帧对应的图像掩模。其中,图像掩模的像素值非0即1。
S302、将训练样本集合中的训练样本输入待训练的蒙版处理模型进行训练,并基于设定损失函数进行模型参数优化以生成蒙版处理模型。
其中,蒙版处理模型包括编码单元、解码单元和输出单元;编码单元用于从待处理视频帧提取编码特征;解码单元包括并行的前景解码子单元和背景解码子单元,前景解码子单元用于根据编码特征重构待处理视频帧的前景特征图,背景解码子单元用于根据编码特征重构待处理视频帧的背景特征图;输出单元用于根据该前景特征图和该背景特征图确定前景蒙版;前景训练模板为训练前景解码子单元的目标结果图像,背景训练模板为训练背景解码子单元的目标结果图像。
为了提高前景特征图和背景特征图的重构效果,本公开实施例的前景解码子单元和背景解码子单元分别包含顺序连接的至少一个用于语义分割的第一反向特征提取层以及至少一个用于抠图的第二反向特征提取层。可以理解的是,通过用于语义分割的第一方向特征提取层可以从对应特征图中提取目标对象图像的轮廓信息,通过用于抠图的第二反向特征提取层可以从携带有目标对象图像的轮廓信息的对应特征图中提取目标对象图像的细节信息,从而提高相应特征图的重构效果,使其在包含目标对象图像整体性信息的同时,还包含目标对象的边缘细节信息,而相应特征图重构效果的提高可以显著提高前景蒙版的准确性。进一步的,先确定目标对象的轮廓信息,再确定目标对象的细节信息,可以减小第二反向特征提取层的图像处理运算量,而图像处理运算量的减少可以提高第二反向特征提取层的图像处理速度,因此本公开实施例可以在保证较高的图像处理速度的情况下,通过提高前景特征图和背景特征图的重构效果,提高前景蒙版的图像质量。
本公开实施例中,前景解码子单元包含的用于语义分割的第一方向特征提取层优选与用于抠图的第二方向特征提取层的数量相同。
在一个公开实施例中,前景解码子单元和背景解码子单元均包括两个用于语义分割的第一反向特征提取层,以从相应特征图中提取目标对象的轮廓,以及连接在该两个用于语义分割的第一反向特征提取层后面的两个用于抠图的第二反向特征提取层,该反向特征提取层用于对携带有目标对象轮廓信息的特征图进行抠图,以获取目标对象的细节信息。
对于前景解码子单元来说,如图3所示,标识为F8和标识为F4的第一反向特征提取层均为用于语义分割的第一反向特征提取层;标识分别为F2和F的反向特征提取层为用于抠图的第二反向特征提取层;具体地,标识为F8的第一反向特征提取层用于将所接收的特征图上采样至原图大小的1/8,并对其进行语义分割以得到第一分割特征图,然后经过一个1×1的卷积层,将该第一分割特征图的通道数转换成1,格式变为(1,H/8,W/8);相应的,标识为F4的第一反向特征提取层用于将所接收的第一分割特征图上采样至原图大小的1/4,并对其进行语义分割以得到第二分割特征图,然后经过一个1×1的卷积层,将该第二分割特征图的通道数转换成1,格式变为(1,H/4,W/4);标识为F2的第二反向特征提取层用于将所接收的第二分割特征图上采样至原图大小的1/2,并对其进行人像抠图以得到第一抠图特征图,然后经过一个1×1的卷积层,将该第一抠图特征图的通道数转换成1,格式变为(1,H/2,W/2);标识为F的第二反向特征提取层用于将所接收的特征图上采样至原图大小,并对其进行人像抠图以得到前景特征图,然后经过一个1×1的卷积层,将该前景特征图的通道数转换成1,格式变为(1,H,W)。
需要说明的是,由于前景解码子单元与背景解码子单元的结构相同,因此本公开实施例在此不对背景解码子单元进行详细地说明。
其中,用于语义分割的第一反向特征提取层使用的设定损失函数为二分类交叉熵损失函数;用于抠图的第二反向特征提取层使用的设定损失函数为最小绝对值偏差。
在蒙版处理模型的训练过程中,因为希望蒙版处理模型的输出尽可能地接近用户所需的目标值,所以会比较网络的当前输出值和目标值,再根据两者之间的差异情况来更新模型每一层网络的权重向量(当然,模型的各层网络会被预先配置好相关参数)。比如,如果模型的预测值偏高了,就调整模型相应网络部分的权重向量,让模型的预测值低一些;如果模型的预测值偏低了,同样调整模型相应网络部分的权重向量,让模型预测值高一些,这样不断地调整,直至模型的预测值与目标值之间的差异在预设误差阈值范围内。由于预测值与目标值的比较方法会随着各网络部分用途的不同而不同,因此需要根据不同网络部分的用途选择合适的损失函数,以衡量预测值与目标值之间的差异程度。
本公开实施例采用交叉熵损失函数来衡量用于语义分割的第一反向特征提取层的预测值与目标值之间的差异程度。其中,交叉熵损失函数用于度量目标值与预测值两个概率分布间的差异性信息,交叉熵越小,说明两者之间越接近,N个样本的交叉熵损失函数公式如下:
Figure BDA0003051177300000151
其中,y(i)为目标值,
Figure BDA0003051177300000152
为预测值。
本公开实施例采用最小绝对值偏差来衡量用于抠图的第二反向特征提取层的预测值与目标值之间的差异程度。其中,最小绝对值偏差又称为L1范数损失函数,简称L1损失函数。它是将目标值与预测值的绝对差值的总和最小化,具体公式如下:
Figure BDA0003051177300000161
其中,y(i)为目标值,
Figure BDA0003051177300000162
为预测值。
为了提高蒙版处理模型的细节学习效果,本公开实施例获取的训练样本集合在包含待处理视频帧、前景训练模板和背景训练模板的同时,还包含边缘提取模板。相应的,模型的参数优化过程还包括:确定边缘提取模板所限定的第二反向特征提取层输出的当前特征图与对应训练模板的差值图像范围,以作为目标边缘图像;根据该目标边缘图像的像素均值和当前特征图对应的最小绝对值偏差的计算结果,对当前蒙版处理模型进行参数优化。
其中,边缘提取模板的获取方法包括:对前景训练模板(参见图7A)分别进行膨胀处理和腐蚀处理,将膨胀处理结果和腐蚀处理结果的差值图像作为边缘提取模板(参见图7B),并将该边缘提取模板添加至训练样本集合中,以更新训练样本集合。
示例性的,如图3所示,确定标识为F2的第二反向特征提取层输出的当前特征图与前景训练模板的差值图像,以及将该边缘提取模板在该差值图像中所限定的图像范围作为目标边缘图像;确定目标边缘图像的像素均值,并根据该像素均值和当前的特征图对应的最小绝对值偏差的计算结果对当前的蒙版处理模型进行参数优化,以提高蒙版处理模型输出的前景蒙版的边缘提取效果。其中,该像素均值可通过以下公式确定:
wights_l1_M=mean(|M-fg_alpha_gt|×|edge_region)
其中,M为第二反向特征提取层输出的当前特征图像,fg_alpha_gt为前景训练模板,edge_region为边缘提取模板。
为了提高前景蒙版的平滑性和连续性,本公开实施例在基于设定损失函数进行模型参数优化的过程中,还包括:计算第二反向特征提取层输出的当前特征图与对应训练模板在至少一个方向上的梯度差值;根据该至少一个方向上的梯度差值与对应的最小绝对值偏差的计算结果对当前的蒙版处理模型进行参数优化。
示例性的,如图3所示,计算标识为B2的第二方向特征提取层输出的当前特征图与背景训练模板在x、y和xy方向上的梯度差值,并根据该三个方向上的梯度差值,与对应的最小绝对值偏差的计算结果对当前的蒙版处理模型进行参数优化,以提高蒙版处理模型的各层网络的参数优化速度和优化质量,以及对应的前景蒙版的平滑性和连续性。其中,该三个方向上的梯度差值的计算公式如下:
Figure BDA0003051177300000171
其中,M为第二反向特征提取层当前输出的特征图,bg_alpha_gt为背景训练模板。
在一个公开实施例中,在蒙版处理模型的训练过程中,同时根据当前特征图的最小绝对值偏差的计算结果、目标边缘图像的像素均值以及该当前特征图与对应训练模板在至少一个方向上的梯度差值,对当前的蒙版处理模型进行参数优化。
本公开实施例提供的蒙版处理模型训练方法的技术方案,相较于现有技术,基于设定的损失函数进行模型参数优化,以提高并行的前景解码子单元和背景解码子单元预测相应前景特征图和背景特征图的能力,从而提高输出单元根据前景特征图和背景特征图预测前景蒙版的能力,从而使蒙版处理模型在训练完毕之后,能够准确提取待处理视频帧中的目标对象图像的前景蒙版。
实施例四
本公开实施例在上述公开实施例的基础上,对基于设定损失函数进行模型参数步骤进行了优化,与上述公开实施例提出的蒙版处理模型训练方法属于同一发明构思,未在本公开实施例中详尽描述的技术细节可参见上述公开实施例。
相应的,如图8所示,蒙版处理模型训练方法的步骤包括:
S401、获取训练样本集合,其中,训练样本集合中的训练样本包括模板图像和包含目标对象图像的待处理视频帧,模板图像包括对应前景蒙版的前景训练模板以及与前景训练模板对应的背景训练模板。
S401、将训练样本集合中的训练样本输入待训练的蒙版处理模型进行训练,并基于设定损失函数进行模型参数优化以生成蒙版处理模型,其中模型参数包括输出单元的网络参数。
其中,输出单元用于对前景特征图和背景特征图进行拼接以得到前景权重,以及根据前景特征图、背景特征图以及前景权重确定前景蒙版,具体计算公式如下:
alpha=beta×F+(1-beta)×(1-B)
其中,F为前景特征图,B为背景特征图,beta为前景权重。
本公开实施例在基于设定损失函数进行模型参数优化的过程中,还包括,在输出单元根据前景特征图、背景特征图和前景权重确定完当前前景蒙版时,对前景训练模板和当前前景蒙版执行最小绝对值偏差处理,并根据最小绝对值偏差的处理结果调整模型参数。有助于提高输出单元根据前景特征图和背景特征图确定的前景权重的准确性,以及根据前景特征图、背景特征图和前景权重确定的前景蒙版的准确性。
在另一公开实施例中,基于设定损失函数进行模型参数优化的过程中,包括:确定边缘提取模板所限定的当前前景蒙版与前景训练模板的差值图像范围,以作为目标边缘图像;根据该目标边缘图像的像素均值与当前的最小绝对值偏差的计算结果对当前的蒙版处理模型进行参数优化。
示例性的,确定当前前景蒙版与前景训练模板的差值图像,以及边缘提取模板限定的该差值图像的有效图像范围以作为目标边缘图像,根据该目标边缘图像的像素均值与当前的最小绝对值偏差的计算结果对当前的蒙版处理模型进行参数优化。有助于提高蒙版处理模型输出的前景蒙版的边缘细节效果,从而提高对待处理视频帧的目标对象的边缘处理效果。该目标边缘图像的确定方法包括:
wights_l1_alpha=mean(|alpha-fg_alpha_gt|×|edge_region)
其中,alpha为输出单元输出的当前前景蒙版,fg_alpha_gt为前景训练模板。
在另一公开实施例中,基于设定损失函数进行模型参数优化的过程中,包括:计算当前前景蒙版与前景训练模板在至少一个方向上的梯度差值;根据该至少一个方向上的梯度差值处理结果与当前的最小绝对值偏差损失函数的计算结果对当前的蒙版处理模型进行参数优化。
示例性的,计算当前前景蒙版与前景训练模板在x、y和xy方向上的梯度差值,并根据该三个方向上的梯度差值、目标边缘图像的像素均值与对应的最小绝对值偏差的计算结果对当前的蒙版处理模型进行参数优化。其中,该三个方向上的梯度差值的计算公式如下:
Figure BDA0003051177300000201
其中,alpha为当前前景蒙版,fg_alpha_gt为前景训练模板。
本发明公开实施例提供的蒙版处理模型训练方法,根据最小绝对值偏差的计算结果来调整蒙版处理模型的输出单元的参数,以提高输出单元设根据前景特征图、背景特征图和前景权重预测前景蒙版的能力,从而提高其所预测的前景蒙版的质量。
实施例五
图9示出了本公开实施例四提供的蒙版处理模型训练装置的框图示意图,本公开实施例通常配置在电子设备中,并通过软件或硬件实现,可实现上述公开实施例提供的蒙版处理模型训练方法。
如图9所示,本公开实施例提供的蒙版处理模型训练装置,包括:
样本获取模块51,用于获取训练样本集合,其中,训练样本集合中的训练样本包括模板图像和包含目标对象图像的待处理视频帧,模板图像包括前景训练模板以及与前景训练模板对应的背景训练模板;
训练模块52,用于将训练样本集合中的训练样本输入待训练的蒙版处理模型进行训练,并基于设定损失函数进行模型参数优化;其中,蒙版处理模型包括编码单元、解码单元和输出单元;编码单元用于从待处理视频帧提取编码特征;解码单元包括前景解码子单元和背景解码子单元,前景解码子单元用于根据编码特征重构待处理视频帧的前景特征图,背景解码子单元用于根据编码特征重构待处理视频帧的背景特征图;输出单元用于根据前景特征图和背景特征图确定前景蒙版;前景训练模板为训练前景解码子单元的目标结果图像,背景训练模板为训练背景解码子单元的目标结果图像。
优选地,前景解码子单元和背景解码子单元分别包含顺序连接的至少一个用于语义分割的第一反向特征提取层以及至少一个用于抠图的第二反向特征提取层。
优选地,在一个解码子单元中,第一反向特征提取层的数量与第二反向特征提取层的数量相同。
优选地,用于语义分割的第一反向特征提取层使用的设定损失函数为二分类交叉熵损失函数;用于抠图的第二反向特征提取层使用的设定损失函数为最小绝对值偏差损失函数。
优选地,样本获取模块用于获取包含目标对象图像的待处理视频帧和对应前景蒙版的前景训练模板的样本集合;将前景训练模板进行取反处理,以生成与前景训练模板对应的背景训练模板;将背景训练模板添加至训练样本集合,以更新训练样本集合。
优选地,确定第二反向特征提取层输出的当前特征图与对应训练模板的差值图像,以及边缘提取模板所限定的该差值图像的目标图像范围,以作为目标边缘图像;根据该目标边缘图像的像素均值和当前特征图对应的最小绝对值偏差的计算结果对当前的蒙版处理模型进行参数优化以生成所述蒙版处理模型。
优选地,训练模块52还用于计算第二反向特征提取层输出的当前特征图与对应训练模板在至少一个方向上的梯度差值;根据该至少一个方向上的梯度差值与对应的最小绝对值偏差的计算结果对当前的蒙版处理模型进行参数优化以生成蒙版处理模型。
可选地,训练模块52还用于在根据前景特征图、背景特征图和前景权重确定完当前前景蒙版时,对前景训练模板和当前前景蒙版执行最小绝对值偏差处理,并根据最小绝对值偏差的处理结果对当前的蒙版处理模型进行参数优化。
可选地,训练模块52还用于确定当前前景蒙版与前景训练模板的差值图像,以及边缘提取模板所限定的差值图像的目标图像范围,以作为目标边缘图像;根据该目标边缘图像的像素均值与当前的最小绝对值偏差的计算结果对当前的蒙版处理模型进行参数优化。
可选地,训练模块52还用于计算当前前景蒙版与所述前景训练模板在至少一个方向上的梯度差值;根据该至少一个方向上的梯度差值与当前的最小绝对值偏差的计算结果对当前的蒙版处理模型进行参数优化以生成蒙版处理模型。
本公开实施例提供的蒙版处理模型训练装置的技术方案,通过样本获取模块获取训练样本集合,通过训练模块基于设定的损失函数进行模型参数优化,以提高前景解码子单元和背景解码子单元预测相应前景特征图和背景特征图的能力,从而提高输出单元根据前景特征图和背景特征图预测前景蒙版的能力,从而使蒙版处理模型在训练完毕之后,能够准确地从待处理视频帧中提取对应目标对象图像的前景蒙版。
实施例六
图10示出了本公开实施例六提供的电子设备的结构示意图。本公开实施例中的电子设备可以包括处理装置(例如中央处理器、图形处理器等)601,其可以根据存储在只读存储器(Read-Only Memory,ROM)602中的程序或者从存储装置608加载到随机访问存储器(Random Access Memory,RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有电子设备600操作所需的各种程序和数据。处理装置601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
通常,以下装置可以连接至I/O接口605:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风等的输入装置606;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置607;包括例如磁带、硬盘等的存储装置608;以及通信装置609。通信装置609可以允许电子设备600与其他设备进行无线或有线通信以交换数据。虽然图10示出了具有各种装置的电子设备600,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序商品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置609从网络上被下载和安装,或者从存储装置608被安装,或者从ROM 602被安装。在该计算机程序被处理装置601执行时,执行本公开实施例方法限定的上述功能。
本公开实施例提供的电子设备与上述公开实施例提供的图像处理方法属于同一发明构思,未在本公开实施例中详尽描述的技术细节可参见上述公开实施例,并且本公开实施例与上述公开实施例具有相同的有益效果。
实施例七
本公开实施例七提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述公开实施例所提供的图像处理方法。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
在一些实施方式中,客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:
获取当前视频流,所述当前视频流包括至少一帧包含目标对象图像的待处理视频帧;
将所述待处理视频帧输入至蒙版处理模型中以得到前景蒙版,所述前景蒙版对应所述目标对象图像,所述蒙版处理模型用于通过背景解码子单元和前景解码子单元分别输出所述待处理视频帧的前景特征图和背景特征图,以及根据所述前景特征图和背景特征图确定所述前景蒙版;
根据所述前景蒙版对所述待处理视频帧进行背景替换以更新所述当前视频流中的待处理视频帧;
将更新后的当前视频流发送至服务端,以由服务端下发至目标用户端。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定,例如,第一获取单元还可以被描述为“获取至少两个网际协议地址的单元”。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
根据本公开的一个或多个实施例,【示例一】提供了一种图像处理方法,包括:
获取当前视频流,所述当前视频流包括至少一帧包含目标对象图像的待处理视频帧;
将所述待处理视频帧输入至蒙版处理模型中以得到前景蒙版,所述前景蒙版对应所述目标对象图像,所述蒙版处理模型用于通过背景解码子单元和前景解码子单元分别输出所述待处理视频帧的前景特征图和背景特征图,以及根据所述前景特征图和背景特征图确定所述前景蒙版;
根据所述前景蒙版对所述待处理视频帧进行背景替换以更新所述当前视频流中的待处理视频帧;
将更新后的当前视频流发送至服务端,以由服务端下发至目标用户端。
根据本公开的一个或多个实施例,【示例二】提供了一种图像处理方法,在根据所述前景蒙版对所述待处理视频帧进行背景替换以更新所述当前视频流中的待处理视频帧之前,还包括:
接收用户上传的背景替换模板或者确定用户在背景替换模板库中选择的背景替换模板;
根据所述背景替换模板和所述前景蒙版对所述待处理视频帧进行背景替换以更新所述当前视频流中的待处理视频帧。
根据本公开的一个或多个实施例,【示例三】提供了一种图像处理方法,所述蒙版处理模型包括编码单元、解码单元和输出单元;所述编码单元用于从所述待处理视频帧提取编码特征;所述解码单元包括并行的前景解码子单元和背景解码子单元,所述前景解码子单元用于根据所述编码特征重构所述待处理视频帧的前景特征图,所述背景解码子单元用于根据所述编码特征重构所述待处理视频帧的背景特征图;所述输出单元用于根据所述前景特征图和所述背景特征图确定所述前景蒙版。
根据本公开的一个或多个实施例,【示例四】提供了一种图像处理方法,还包括:所述前景解码子单元和所述背景解码子单元分别包含顺序连接的至少一个用于语义分割的第一反向特征提取层以及至少一个用于抠图的第二反向特征提取层。
根据本公开的一个或多个实施例,【示例五】提供了一种图像处理方法,还包括:在一个解码子单元中,第一反向特征提取层的数量与第二反向特征提取层的数量相同。
根据本公开的一个或多个实施例,【示例六】提供了一种图像处理方法,还包括:所述输出单元用于对所述前景特征图和所述背景特征图进行拼接以得到前景权重,以及根据所述前景特征图、所述背景特征图以及所述前景权重确定所述前景蒙版。
根据本公开的一个或多个实施例,【示例七】提供了一种图像处理方法,还包括:所述输出单元具体用于按照如下公式确定所述前景蒙版:
alpha=beta×F+(1-beta)×(1-B)
其中,alpha为前景蒙版,beta为前景权重,F为前景特征图,B为背景特征图。
根据本公开的一个或多个实施例,【示例八】提供了一种图像处理方法,还包括:所述蒙版处理模型由待训练的蒙版处理模型经以下训练方法训练而成,该训练方法包括:
获取训练样本集合,其中,所述训练样本集合中的训练样本包括模板图像和包含目标对象图像的待处理图像待处理视频帧,所述模板图像包括对应前景蒙版的前景训练模板以及与所述前景训练模板对应的背景训练模板;
将所述训练样本集合中的训练样本输入待训练的蒙版处理模型进行训练,并基于设定损失函数进行模型参数优化以生成所述蒙版处理模型。
根据本公开的一个或多个实施例,【示例九】提供了一种图像处理方法,包括:
在所述待训练的蒙版处理模型中,用于语义分割的第一反向特征提取层使用的设定损失函数为二分类交叉熵损失函数;用于抠图的第二反向特征提取层使用的设定损失函数为最小绝对值偏差。
根据本公开的一个或多个实施例,【示例十】提供了一种图像处理方法,包括:训练样本集合的获取方法包括:
获取包含目标对象图像的待处理视频帧和对应前景蒙版的前景训练模板的样本集合;
将所述前景训练模板进行取反处理,以生成与所述前景训练模板对应的背景训练模板;
将所述背景训练模板添加至所述训练样本集合,以更新所述训练样本集合。
根据本公开的一个或多个实施例,【示例十一】提供了一种图像处理方法,还包括:
对所述前景训练模板分别进行膨胀处理和腐蚀处理,将膨胀处理结果与腐蚀处理结果的差值图像作为边缘提取模板,并将该边缘提取模板添加至所述训练样本集合中;
所述将所述训练样本集合中的训练样本输入待训练的蒙版处理模型进行训练,并基于设定损失函数进行模型参数优化以生成所述蒙版处理模型,包括:
确定所述第二反向特征提取层输出的当前特征图与对应训练模板的差值图像,以及所述边缘提取模板所限定的该差值图像的目标图像范围,以作为目标边缘图像;
根据该目标边缘图像的像素均值和当前特征图对应的最小绝对值偏差的计算结果,对当前蒙版处理模型进行参数优化以生成所述蒙版处理模型。
根据本公开的一个或多个实施例,【示例十二】提供了一种图像处理方法,还包括:
将所述训练样本输入待训练的蒙版处理模型进行训练,并基于设定损失函数进行模型参数优化以生成蒙版处理模型,还包括:
计算所述第二反向特征提取层输出的当前特征图与对应训练模板在至少一个方向上的梯度差值;
根据该至少一个方向上的梯度差值与对应的最小绝对值偏差的计算结果对当前的蒙版处理模型进行参数优化以生成蒙版处理模型。
根据本公开的一个或多个实施例,【示例十三】提供了一种图像处理方法,还包括:
所述将所述训练样本集合中的训练样本输入待训练的蒙版处理模型进行训练,并基于设定损失函数进行模型参数优化以生成所述蒙版处理模型,包括:在根据所述前景特征图、所述背景特征图和所述前景权重确定完当前前景蒙版时,对所述前景训练模板和所述当前前景蒙版执行最小绝对值偏差处理;
根据最小绝对值偏差的处理结果对当前的蒙版处理模型进行参数优化以生成蒙版处理模型。
根据本公开的一个或多个实施例,【示例十四】提供了一种图像处理方法,还包括:
所述将所述训练样本集合中的训练样本输入待训练的蒙版处理模型进行训练,并基于设定损失函数进行模型参数优化以生成所述蒙版处理模型,还包括:
确定当前前景蒙版与所述前景训练模板的差值图像,以及所述边缘提取模板所限定的所述差值图像的目标图像范围,以作为目标边缘图像;
根据该目标边缘图像的像素均值与当前的最小绝对值偏差的计算结果对当前的蒙版处理模型进行参数优化以生成蒙版处理模型。
根据本公开的一个或多个实施例,【示例十五】提供了一种图像处理方法,还包括:
所述将所述训练样本集合中的训练样本输入待训练的蒙版处理模型进行训练,并基于设定损失函数进行模型参数优化以生成蒙版处理模型,还包括:
计算当前前景蒙版与所述前景训练模板在至少一个方向上的梯度差值;
根据该至少一个方向上的梯度差值与当前的最小绝对值偏差的计算结果对当前的蒙版处理模型进行参数优化以生成蒙版处理模型。
根据本公开的一个或多个实施例,【示例十六】提供了一种图像处理装置,包括:
视频获取模块,用于获取当前视频流,所述当前视频流包括至少一帧包含目标对象图像的待处理视频帧;
蒙版模块,用于将所述待处理视频帧输入至蒙版处理模型中以得到前景蒙版,所述前景蒙版对应所述目标对象图像,所述蒙版处理模型用于通过背景解码子单元和前景解码子单元分别输出所述待处理视频帧的前景特征图和背景特征图,以及根据所述前景特征图和背景特征图确定所述前景蒙版;
背景替换模块,用于根据所述前景蒙版对所述待处理视频帧进行背景替换以更新所述当前视频流中的待处理视频帧;
输出模块,用于将更新后的当前视频流发送至服务端,以由服务端下发至目标用户端。
根据本公开的一个或多个实施例,【示例十七】提供了一种电子设备,该电子设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述示例所述的图像处理方法。
根据本公开的一个或多个实施例,【示例十八】提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述示例所述的图像处理方法。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims (18)

1.一种图像处理方法,其特征在于,包括:
获取当前视频流,所述当前视频流包括至少一帧包含目标对象图像的待处理视频帧;
将所述待处理视频帧输入至蒙版处理模型中以得到前景蒙版,所述前景蒙版对应所述目标对象图像,所述蒙版处理模型用于通过背景解码子单元和前景解码子单元分别输出所述待处理视频帧的前景特征图和背景特征图,以及根据所述前景特征图和背景特征图确定所述前景蒙版;
根据所述前景蒙版对所述待处理视频帧进行背景替换以更新所述当前视频流中的待处理视频帧;
将更新后的当前视频流发送至服务端,以由服务端下发至目标用户端。
2.根据权利要求1所述的方法,其特征在于,在根据所述前景蒙版对所述待处理视频帧进行背景替换以更新所述当前视频流中的待处理视频帧之前,还包括:
接收用户上传的背景替换模板或者确定用户在背景替换模板库中选择的背景替换模板;
根据所述背景替换模板和所述前景蒙版对所述待处理视频帧进行背景替换以更新所述当前视频流中的待处理视频帧。
3.根据权利要求1所述的方法,其特征在于,所述蒙版处理模型包括编码单元、解码单元和输出单元;所述编码单元用于从所述待处理视频帧提取编码特征;所述解码单元包括并行的前景解码子单元和背景解码子单元,所述前景解码子单元用于根据所述编码特征重构所述待处理视频帧的前景特征图,所述背景解码子单元用于根据所述编码特征重构所述待处理视频帧的背景特征图;所述输出单元用于根据所述前景特征图和所述背景特征图确定所述前景蒙版。
4.根据权利要求1所述的方法,其特征在于,所述前景解码子单元和所述背景解码子单元分别包含顺序连接的至少一个用于语义分割的第一反向特征提取层以及至少一个用于抠图的第二反向特征提取层。
5.根据权利要求4所述的方法,其特征在于,在一个解码子单元中,第一反向特征提取层的数量与第二反向特征提取层的数量相同。
6.根据权利要求1所述的方法,其特征在于,所述输出单元用于对所述前景特征图和所述背景特征图进行拼接以得到前景权重,以及根据所述前景特征图、所述背景特征图以及所述前景权重确定所述前景蒙版。
7.根据权利要求6所述的方法,其特征在于,所述输出单元具体用于按照如下公式确定所述前景蒙版:
alpha=beta×F+(1-beta)×(1-B)
其中,alpha为前景蒙版,beta为前景权重,F为前景特征图,B为背景特征图。
8.根据权利要求6所述的方法,其特征在于,所述蒙版处理模型由待训练的蒙版处理模型经以下训练方法训练而成,该训练方法包括:
获取训练样本集合,其中,所述训练样本集合中的训练样本包括模板图像和包含目标对象图像的待处理视频帧,所述模板图像包括对应前景蒙版的前景训练模板以及与所述前景训练模板对应的背景训练模板;
将所述训练样本集合中的训练样本输入待训练的蒙版处理模型进行训练,并基于设定损失函数进行模型参数优化以生成所述蒙版处理模型。
9.根据权利要求8所述的方法,其特征在于,
在所述待训练的蒙版处理模型中,用于语义分割的第一反向特征提取层使用的设定损失函数为二分类交叉熵损失函数;用于抠图的第二反向特征提取层使用的设定损失函数为最小绝对值偏差。
10.根据权利要求8所述的方法,其特征在于,训练样本集合的获取方法包括:
获取包含目标对象图像的待处理视频帧和对应前景蒙版的前景训练模板的样本集合;
将所述前景训练模板进行取反处理,以生成与所述前景训练模板对应的背景训练模板;
将所述背景训练模板添加至所述训练样本集合,以更新所述训练样本集合。
11.根据权利要求9所述的方法,其特征在于,还包括:
对所述前景训练模板分别进行膨胀处理和腐蚀处理,将膨胀处理结果与腐蚀处理结果的差值图像作为边缘提取模板,并将该边缘提取模板添加至所述训练样本集合中;
所述将所述训练样本集合中的训练样本输入待训练的蒙版处理模型进行训练,并基于设定损失函数进行模型参数优化以生成所述蒙版处理模型,包括:
确定所述第二反向特征提取层输出的当前特征图与对应训练模板的差值图像,以及所述边缘提取模板所限定的该差值图像的目标图像范围,以作为目标边缘图像;
根据该目标边缘图像的像素均值和当前特征图对应的最小绝对值偏差的计算结果,对当前蒙版处理模型进行参数优化以生成所述蒙版处理模型。
12.根据权利要求11所述的方法,其特征在于,所述将所述训练样本集合中的训练样本输入待训练的蒙版处理模型进行训练,并基于设定损失函数进行模型参数优化以生成所述蒙版处理模型,还包括:
计算所述第二反向特征提取层输出的当前特征图与对应训练模板在至少一个方向上的梯度差值;
根据该至少一个方向上的梯度差值与对应的最小绝对值偏差的计算结果对当前的蒙版处理模型进行参数优化以生成蒙版处理模型。
13.根据权利要求11所述的方法,其特征在于,所述将所述训练样本集合中的训练样本输入待训练的蒙版处理模型进行训练,并基于设定损失函数进行模型参数优化以生成所述蒙版处理模型,包括:
在根据所述前景特征图、所述背景特征图和所述前景权重确定完当前前景蒙版时,对所述前景训练模板和所述当前前景蒙版执行最小绝对值偏差处理;
根据最小绝对值偏差的处理结果对当前的蒙版处理模型进行参数优化以生成蒙版处理模型。
14.根据权利要求13所述的方法,其特征在于,所述将所述训练样本集合中的训练样本输入待训练的蒙版处理模型进行训练,并基于设定损失函数进行模型参数优化以生成所述蒙版处理模型,还包括:
确定当前前景蒙版与所述前景训练模板的差值图像,以及所述边缘提取模板所限定的所述差值图像的目标图像范围,以作为目标边缘图像;
根据该目标边缘图像的像素均值与当前的最小绝对值偏差的计算结果对当前的蒙版处理模型进行参数优化以生成蒙版处理模型。
15.根据权利要求13或14所述的方法,其特征在于,所述将所述训练样本集合中的训练样本输入待训练的蒙版处理模型进行训练,并基于设定损失函数进行模型参数优化以生成蒙版处理模型,还包括:
计算当前前景蒙版与所述前景训练模板在至少一个方向上的梯度差值;
根据该至少一个方向上的梯度差值与当前的最小绝对值偏差的计算结果对当前的蒙版处理模型进行参数优化以生成蒙版处理模型。
16.一种图像处理装置,其特征在于,包括:
视频获取模块,用于获取当前视频流,所述当前视频流包括至少一帧包含目标对象图像的待处理视频帧;
蒙版模块,用于将所述待处理视频帧输入至蒙版处理模型中以得到前景蒙版,所述前景蒙版对应所述目标对象图像,所述蒙版处理模型用于通过背景解码子单元和前景解码子单元分别输出所述待处理视频帧的前景特征图和背景特征图,以及根据所述前景特征图和背景特征图确定所述前景蒙版;
背景替换模块,用于根据所述前景蒙版对所述待处理视频帧进行背景替换以更新所述当前视频流中的待处理视频帧;
输出模块,用于将更新后的当前视频流发送至服务端,以由服务端下发至目标用户端。
17.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-15中任一所述的图像处理方法。
18.一种计算机存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-15中任一所述的图像处理方法。
CN202110487813.8A 2021-04-30 2021-04-30 图像处理方法、装置、设备和存储介质 Pending CN113034648A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110487813.8A CN113034648A (zh) 2021-04-30 2021-04-30 图像处理方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110487813.8A CN113034648A (zh) 2021-04-30 2021-04-30 图像处理方法、装置、设备和存储介质

Publications (1)

Publication Number Publication Date
CN113034648A true CN113034648A (zh) 2021-06-25

Family

ID=76454996

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110487813.8A Pending CN113034648A (zh) 2021-04-30 2021-04-30 图像处理方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN113034648A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113409188A (zh) * 2021-06-30 2021-09-17 中国工商银行股份有限公司 一种图像背景替换方法、系统、电子设备及存储介质
CN113689372A (zh) * 2021-08-26 2021-11-23 北京字节跳动网络技术有限公司 图像处理方法、设备、存储介质及程序产品
CN115018734A (zh) * 2022-07-15 2022-09-06 北京百度网讯科技有限公司 视频修复方法和视频修复模型的训练方法、装置
WO2023179360A1 (zh) * 2022-03-24 2023-09-28 北京字跳网络技术有限公司 视频处理方法、装置、电子设备及存储介质
CN117853738A (zh) * 2024-03-06 2024-04-09 贵州健易测科技有限公司 一种用于对茶叶分级的图像处理方法及设备

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108961279A (zh) * 2018-06-28 2018-12-07 Oppo(重庆)智能科技有限公司 图像处理方法、装置及移动终端
CN109035253A (zh) * 2018-07-04 2018-12-18 长沙全度影像科技有限公司 一种语义分割信息指导的深度学习自动图像抠图方法
CN109377445A (zh) * 2018-10-12 2019-02-22 北京旷视科技有限公司 模型训练方法、替换图像背景的方法、装置和电子系统
CN111161277A (zh) * 2019-12-12 2020-05-15 中山大学 一种基于深度学习的自然图像抠图方法
CN111179282A (zh) * 2019-12-27 2020-05-19 Oppo广东移动通信有限公司 图像处理方法、图像处理装置、存储介质与电子设备
CN111292337A (zh) * 2020-01-21 2020-06-16 广州虎牙科技有限公司 图像背景替换方法、装置、设备及存储介质
CN111311629A (zh) * 2020-02-21 2020-06-19 京东方科技集团股份有限公司 图像处理方法、图像处理装置及设备
CN111507994A (zh) * 2020-04-24 2020-08-07 Oppo广东移动通信有限公司 一种人像提取方法、人像提取装置及移动终端
CN111899266A (zh) * 2020-07-17 2020-11-06 深圳奥比中光科技有限公司 一种基于rgbd相机的抠图方法及系统
CN111951154A (zh) * 2020-08-14 2020-11-17 中国工商银行股份有限公司 包含背景和介质的图片的生成方法及装置
CN112258436A (zh) * 2020-10-21 2021-01-22 华为技术有限公司 图像处理模型的训练方法、装置、图像处理方法及模型
CN112396610A (zh) * 2019-08-12 2021-02-23 阿里巴巴集团控股有限公司 一种图像处理方法、计算机设备、存储介质
CN112446380A (zh) * 2019-09-02 2021-03-05 华为技术有限公司 图像处理方法和装置
CN112492323A (zh) * 2019-09-12 2021-03-12 上海哔哩哔哩科技有限公司 直播蒙版的生成方法、可读存储介质及计算机设备

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108961279A (zh) * 2018-06-28 2018-12-07 Oppo(重庆)智能科技有限公司 图像处理方法、装置及移动终端
CN109035253A (zh) * 2018-07-04 2018-12-18 长沙全度影像科技有限公司 一种语义分割信息指导的深度学习自动图像抠图方法
CN109377445A (zh) * 2018-10-12 2019-02-22 北京旷视科技有限公司 模型训练方法、替换图像背景的方法、装置和电子系统
CN112396610A (zh) * 2019-08-12 2021-02-23 阿里巴巴集团控股有限公司 一种图像处理方法、计算机设备、存储介质
CN112446380A (zh) * 2019-09-02 2021-03-05 华为技术有限公司 图像处理方法和装置
CN112492323A (zh) * 2019-09-12 2021-03-12 上海哔哩哔哩科技有限公司 直播蒙版的生成方法、可读存储介质及计算机设备
CN111161277A (zh) * 2019-12-12 2020-05-15 中山大学 一种基于深度学习的自然图像抠图方法
CN111179282A (zh) * 2019-12-27 2020-05-19 Oppo广东移动通信有限公司 图像处理方法、图像处理装置、存储介质与电子设备
CN111292337A (zh) * 2020-01-21 2020-06-16 广州虎牙科技有限公司 图像背景替换方法、装置、设备及存储介质
CN111311629A (zh) * 2020-02-21 2020-06-19 京东方科技集团股份有限公司 图像处理方法、图像处理装置及设备
CN111507994A (zh) * 2020-04-24 2020-08-07 Oppo广东移动通信有限公司 一种人像提取方法、人像提取装置及移动终端
CN111899266A (zh) * 2020-07-17 2020-11-06 深圳奥比中光科技有限公司 一种基于rgbd相机的抠图方法及系统
CN111951154A (zh) * 2020-08-14 2020-11-17 中国工商银行股份有限公司 包含背景和介质的图片的生成方法及装置
CN112258436A (zh) * 2020-10-21 2021-01-22 华为技术有限公司 图像处理模型的训练方法、装置、图像处理方法及模型

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113409188A (zh) * 2021-06-30 2021-09-17 中国工商银行股份有限公司 一种图像背景替换方法、系统、电子设备及存储介质
CN113689372A (zh) * 2021-08-26 2021-11-23 北京字节跳动网络技术有限公司 图像处理方法、设备、存储介质及程序产品
CN113689372B (zh) * 2021-08-26 2023-09-26 北京字节跳动网络技术有限公司 图像处理方法、设备、存储介质及程序产品
WO2023179360A1 (zh) * 2022-03-24 2023-09-28 北京字跳网络技术有限公司 视频处理方法、装置、电子设备及存储介质
CN115018734A (zh) * 2022-07-15 2022-09-06 北京百度网讯科技有限公司 视频修复方法和视频修复模型的训练方法、装置
CN115018734B (zh) * 2022-07-15 2023-10-13 北京百度网讯科技有限公司 视频修复方法和视频修复模型的训练方法、装置
CN117853738A (zh) * 2024-03-06 2024-04-09 贵州健易测科技有限公司 一种用于对茶叶分级的图像处理方法及设备
CN117853738B (zh) * 2024-03-06 2024-05-10 贵州健易测科技有限公司 一种用于对茶叶分级的图像处理方法及设备

Similar Documents

Publication Publication Date Title
CN113034648A (zh) 图像处理方法、装置、设备和存储介质
CN110021052B (zh) 用于生成眼底图像生成模型的方法和装置
CN110413812B (zh) 神经网络模型的训练方法、装置、电子设备及存储介质
CN113689372B (zh) 图像处理方法、设备、存储介质及程序产品
CN111784712B (zh) 图像处理方法、装置、设备和计算机可读介质
CN111414879A (zh) 人脸遮挡程度识别方法、装置、电子设备及可读存储介质
CN112381717A (zh) 图像处理方法、模型训练方法、装置、介质及设备
CN112330788A (zh) 图像处理方法、装置、可读介质及电子设备
CN115965840A (zh) 图像风格迁移和模型训练方法、装置、设备和介质
CN113449070A (zh) 多模态数据检索方法、装置、介质及电子设备
CN114299088A (zh) 图像处理方法及装置
CN114257815A (zh) 一种视频转码方法、装置、服务器和介质
CN113469295A (zh) 生成模型的训练方法、息肉识别方法、装置、介质及设备
CN111967397A (zh) 人脸影像处理方法和装置、存储介质和电子设备
CN110009101B (zh) 用于生成量化神经网络的方法和装置
CN114937192A (zh) 图像处理方法、装置、电子设备及存储介质
CN114581336A (zh) 图像修复方法、装置、设备、介质及产品
CN111669476B (zh) 水印处理方法、装置、电子设备和介质
WO2023179291A1 (zh) 图像修复方法、装置、设备、介质及产品
CN110689478A (zh) 图像风格化处理方法、装置、电子设备及可读介质
CN112070888B (zh) 图像生成方法、装置、设备和计算机可读介质
CN115760607A (zh) 图像修复方法、装置、可读介质以及电子设备
CN114187557A (zh) 确定关键帧的方法、装置、可读介质及电子设备
CN115829827A (zh) 人脸图像处理方法、装置、设备及介质
CN113066166A (zh) 图像处理方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination