CN113012169A - 一种基于非局部注意力机制的全自动抠图方法 - Google Patents

一种基于非局部注意力机制的全自动抠图方法 Download PDF

Info

Publication number
CN113012169A
CN113012169A CN202110316720.9A CN202110316720A CN113012169A CN 113012169 A CN113012169 A CN 113012169A CN 202110316720 A CN202110316720 A CN 202110316720A CN 113012169 A CN113012169 A CN 113012169A
Authority
CN
China
Prior art keywords
picture
transparency mask
loss function
training
ternary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110316720.9A
Other languages
English (en)
Other versions
CN113012169B (zh
Inventor
周余洪泽
周立广
林天麟
徐扬生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Artificial Intelligence and Robotics
Chinese University of Hong Kong CUHK
Original Assignee
Shenzhen Institute of Artificial Intelligence and Robotics
Chinese University of Hong Kong CUHK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Artificial Intelligence and Robotics, Chinese University of Hong Kong CUHK filed Critical Shenzhen Institute of Artificial Intelligence and Robotics
Priority to CN202110316720.9A priority Critical patent/CN113012169B/zh
Publication of CN113012169A publication Critical patent/CN113012169A/zh
Application granted granted Critical
Publication of CN113012169B publication Critical patent/CN113012169B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4007Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20132Image cropping
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于非局部注意力机制的全自动抠图方法,所述方法包括:获取三通道的RGB图片和两通道的软前景区域分割图片;将所述RGB图片和所述软前景区域分割图片输入到训练好的三元图生成网络得到三元图;将所述RGB图片和所述三元图输入到训练好的基于非局部注意力机制的抠图网络,得到粗糙透明度遮罩;将所述粗糙透明度遮罩输入到预设的完善模块,得到目标透明度遮罩。本发明实施例通过采用训练好的三元图生成网络,能自动生成三元图;通过采用训练好的基于非局部注意力机制的抠图网络提高了抠图的精度。

Description

一种基于非局部注意力机制的全自动抠图方法
技术领域
本发明涉及计算机视觉技术领域,尤其涉及的是一种基于非局部注意力机制的全自动抠图方法。
背景技术
随着人工智能的发展,基于AI人工智能的在线图片编辑如抠图、改图、修图等越来越普遍,基于抠图的深度学习算法也被陆续提出,但是现有的抠图算法存在一些问题,要么对于带有影子或者有复杂光照环境的图片表现不鲁棒,要么不满足实际需要。此外,如果语义分割的质量很差,生成的三元图的质量会很低,进而产生连锁反应,导致基于深度学习产生的抠图效果较差。
因此,现有技术还有待改进和发展。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种基于非局部注意力机制的全自动抠图方法,旨在解决现有技术中抠图算法存在一些问题,要么对于带有影子或者有复杂光照环境的图片表现不鲁棒,要么不满足实际需要。此外,如果语义分割的质量很差,生成的三元图的质量会很低,进而产生连锁反应,导致基于深度学习产生的抠图效果较差的问题。
本发明解决问题所采用的技术方案如下:
第一方面,本发明实施例提供一种基于非局部注意力机制的全自动抠图方法,其中,所述方法包括:
获取三通道的RGB图片和两通道的软前景区域分割图片;
将所述RGB图片和所述软前景区域分割图片输入到训练好的三元图生成网络得到三元图;
将所述RGB图片和所述三元图输入到训练好的基于非局部注意力机制的抠图网络,得到粗糙透明度遮罩;
将所述粗糙透明度遮罩输入到预设的完善模块,得到目标透明度遮罩。
在一种实现方式中,其中,所述三元图生成网络的训练过程具体为:
将第一训练数据中的软区域分割训练图片和训练RGB图片输入到预设的第一初始网络,以得到预测三元图;其中,所述第一训练数据包括真实三元图、软区域分割训练图片和训练RGB图片;
根据所述真实三元图和所述预测三元图调整所述第一初始网络的参数,并继续执行将第一训练数据中的软区域分割训练图片输入到预设的第一初始网络,以得到预测三元图的步骤,直至满足预设训练条件,以得到训练好的三元图生成网络。
在一种实现方式中,其中,所述第一训练数据的生成方式为:
获取第一真实透明度遮罩;
对所述第一真实透明度遮罩的前景区域和背景区域进行随机腐蚀得到真实三元图;
对所述真实三元图的前景区域和第一未知区域进行随机腐蚀和膨胀,得到中间三元图;其中,所述未知区域为靠近前景区域和背景区域的边界区域;
对所述中间三元图进行随机高斯模糊处理得到软区域分割训练图片;
获取第一原始图片并对所述第一原始图片进行随机裁剪和尺寸变换,得到训练RGB图片;
将所述训练RGB图片、所述真实三元图和所述软区域分割训练图片组成第一训练数据。
在一种实现方式中,其中,所述基于非局部注意力机制的抠图网络的训练过程具体为:
将第二训练数据中的第二原始图片和训练三元图输入到预设的第二初始网络,以得到预测透明度遮罩;其中,所述第二训练数据包括第二原始图片、训练三元图和第二真实透明度遮罩;
根据所述预测透明度遮罩和所述第二真实透明度遮罩,得到总损失函数;
根据所述总损失函数调整所述第二初始网络的参数,并继续执行将第二训练数据中的第二原始图片和训练三元图输入到预设的第二初始网络,以得到预测透明度遮罩的步骤,直至满足预设训练条件,以得到训练好的基于非局部注意力机制的抠图网络。
在一种实现方式中,其中,所述根据所述预测透明度遮罩和所述第二真实透明度遮罩,得到损失函数包括:
根据所述预测透明度遮罩和所述第二真实透明度遮罩,得到第一损失函数;
根据所述目标透明度遮罩和所述第二真实透明度遮罩,得到第二损失函数;
将所述第一损失函数加上所述第二损失函数,得到总损失函数。
在一种实现方式中,其中,所述根据所述预测透明度遮罩和所述第二真实透明度遮罩,得到第一损失函数包括:
获取第二未知区域和难样本区域;其中,所述难样本区域为包含难样本的区域;
求解所述预测透明度遮罩和所述第二真实透明度遮罩的绝对差,得到第一绝对差值;
根据所述第二未知区域和所述第一绝对差值,得到第一普通样本损失函数;
根据所述难样本区域和所述第一绝对差值,得到第一难样本损失函数;
将所述第一普通样本损失函数加上所述第一难样本损失函数,得到第一损失函数。
在一种实现方式中,其中,所述根据所述目标透明度遮罩和所述第二真实透明度遮罩,得到第二损失函数包括:
求解所述目标透明度遮罩和所述第二真实透明度遮罩的绝对差,得到第二绝对差值;
根据所述第二未知区域和所述第二绝对差值,得到第二普通样本损失函数;
根据所述难样本区域和所述第二绝对差值,得到第二难样本损失函数;
将所述第二普通样本损失函数加上所述第二难样本损失函数,得到第二损失函数。
在一种实现方式中,其中,所述三元图生成网络和所述基于非局部注意力机制的抠图网络训练结束后还包括:
将所述三元图生成网络和所述基于非局部注意力机制的抠图网络进行融合,生成第三初始网络;
根据预设的测试集,对所述第三初始网络进行测试。
第二方面,本发明实施例还提供一种基于非局部注意力机制的全自动抠图装置,其中,所述装置包括:
RGB图片和软前景区域分割图片获取单元,用于获取三通道的RGB图片和两通道的软前景区域分割图片;
三元图获取单元,用于将所述RGB图片和所述软前景区域分割图片输入到训练好的三元图生成网络得到三元图;
粗糙透明度遮罩获取单元,用于将所述RGB图片和所述三元图输入到训练好的基于非局部注意力机制的抠图网络,得到粗糙透明度遮罩;
目标透明度遮罩获取单元,用于将所述粗糙透明度遮罩输入到预设的完善模块,得到目标透明度遮罩。
第三方面,本发明实施例还提供一种智能终端,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于执行如上述任意一项所述的基于非局部注意力机制的全自动抠图方法。
第四方面,本发明实施例还提供一种非临时性计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如上述中任意一项所述的基于非局部注意力机制的全自动抠图方法。
本发明的有益效果:本发明实施例首先获取三通道的RGB图片和两通道的软前景区域分割图片;然后将所述RGB图片和所述软前景区域分割图片输入到训练好的三元图生成网络得到三元图;接着将所述RGB图片和所述三元图输入到训练好的基于非局部注意力机制的抠图网络,得到粗糙透明度遮罩,最后将所述粗糙透明度遮罩输入到预设的完善模块,得到目标透明度遮罩;可见,本发明实施例通过采用训练好的三元图生成网络,能自动生成三元图;通过采用训练好的基于非局部注意力机制的抠图网络提高了抠图的精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于非局部注意力机制的全自动抠图方法流程示意图。
图2为本发明实施例提供的三元图生成网络的结构示意图。
图3为本发明实施例提供的基于非局部注意力机制的抠图网络的结构示意图。
图4为本发明实施例提供的基于非局部注意力机制的全自动抠图的整体流水线图。
图5为本发明实施例提供的基于非局部注意力机制的全自动抠图装置的原理框图。
图6为本发明实施例提供的智能终端的内部结构原理框图。
具体实施方式
本发明公开了一种基于非局部注意力机制的全自动抠图方法、智能终端、存储介质,为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
由于现有技术中,基于深度学习的抠图方法,大致有三类输入:三元图输入、背景图输入、原图片输入,除了将三元图作为输入图片的其他抠图方法,Cho等人将深度学习应用到抠图任务之后,Xu等人提出来一个全面的抠图合成数据集,及其基准方法,推动了抠图的研究进展。Lutz等人将对抗生成网络引入到抠图任务中。Lu等人和Tang等人也提出了表现优秀的网络结构。之后,带有语意引导的注意力机制的先进方法被提出,其不仅模拟了基于传播的传统方法的信息流,还以图片修复的视角来看待抠图问题。近几年,一种原图加背景图片作为输入的抠图方法被提出,但是它对于带有影子或者有复杂光照环境的图片表现得不鲁棒,对于只有原图片作为输入的抠图,其结果往往不能满足实际需要。另外,尽管需要三元图的抠图方法已十分准确,手工制作三元图是十分麻烦的。一种通用且简单的自动三元图生成方法是使用语义分割模型得到粗糙的前景区域再对图片进行腐蚀和膨胀得到。对于这种方式,语义分割的质量对于生成的三元图质量有着极大的影响,就像三元图的质量对于最后抠图质量的影响一样。也即现有抠图算法存在一些问题,要么对于带有影子或者有复杂光照环境的图片表现不鲁棒,要么不满足实际需要。此外,如果语义分割的质量很差,生成的三元图的质量会很低,进而产生连锁反应,导致基于深度学习产生的抠图效果较差的问题。
为了解决现有技术的问题,减少这种连锁反应带来的消极影响并实现自动抠图,本实施例提供了一种基于非局部注意力机制的全自动抠图方法,通过采用训练好的三元图生成网络,能自动生成三元图;通过采用训练好的基于非局部注意力机制的抠图网络提高了抠图的精度。具体实施时,首先获取三通道的RGB图片和两通道的软前景区域分割图片;然后将所述RGB图片和所述软前景区域分割图片输入到训练好的三元图生成网络得到三元图;接着将所述RGB图片和所述三元图输入到训练好的基于非局部注意力机制的抠图网络,得到粗糙透明度遮罩,最后将所述粗糙透明度遮罩输入到预设的完善模块,得到目标透明度遮罩。
示例性方法
本实施例提供一种基于非局部注意力机制的全自动抠图方法,该方法可以应用于计算机视觉的智能终端。具体如图1所示,所述方法包括:
步骤S100、获取三通道的RGB图片和两通道的软前景区域分割图片;
具体地,由于现有技术手工制作三元图费时费力和完全无额外输入的抠图方法不准确的缺点,本发明实施例通过基于深度学习的三元图生成网络来自动生成三元图,这样,就可以通过直接接收三通道的RGB图片和两通道的软前景区域分割图片就可以得到抠图结果,使得三元图的生成自动化。
得到三通道的RGB图片和两通道的软前景区域分割图片之后,就可以执行如图1所示的如下步骤:S200、将所述RGB图片和所述软前景区域分割图片输入到训练好的三元图生成网络得到三元图;
具体地,训练好的三元图生成网络可以被用于自动生成三元图,从而省去手工制作三元图的步骤,提高工作效率,节省人力,这样就可以直接将所述RGB图片和所述软前景区域分割图片输入到训练好的三元图生成网络,从而自动生成三元图。三元图生成网络也称为Net-T网络,参见如图2所示,三元图估计被看作是3各类别的语义分割,也即,Net-T网络输出的是3个通道的特征图,彪了每个像素属于每一类的概率,Net-T网络输入的是裁剪过的3通道的RGB图片和2通道独热向量的软前景区域分割,这两部分连接成5通道的输入。在Net-T网络中,通过改变Deeplabv3作为编码器,也即改变Deeplabv3的输入通道数,编码器位于ASPP(语义分割)之前,并使用预训练的好的ResNet-50的conv_1(卷积)的前两个通道的权重作为2通道分割的权重,解码器则是自己设计的,其位置位于ASPP(语义分割)之后,在解码器之后是dropout层,其中,dropout层的参数为0.5,从ResNet-50输出的是低层次特征图和中层次特征图,底层次特征图和中层次特征图丰富了解码的过程,使得三元图生成网络不仅包含高级语义信息好包括原图片信息。从dropout层输出的是高层次特征图,然后将低层次特征图、中层次特征图和高层次特征图进行参数为4的双线性插值的上采样,并进行全连接,最后进行分类,分类操作包含了3x3卷积*2,参数为4的上采样,1x1卷积,在一种实现方式中,将参数为4的上采样和1x1卷积进行位置调换,使得分类更加细粒度。
相应的,所述三元图生成网络的训练过程具体为:将第一训练数据中的软区域分割训练图片和训练RGB图片输入到预设的第一初始网络,以得到预测三元图;其中,所述第一训练数据包括真实三元图、软区域分割训练图片和训练RGB图片;根据所述真实三元图和所述预测三元图调整所述第一初始网络的参数,并继续执行将第一训练数据中的软区域分割训练图片输入到预设的第一初始网络,以得到预测三元图的步骤,直至满足预设训练条件,以得到训练好的三元图生成网络。
具体地,第一训练数据包括真实三元图、软区域分割训练图片和训练RGB图片;相应的,所述第一训练数据的生成方式为:获取第一真实透明度遮罩;对所述第一真实透明度遮罩的前景区域和背景区域进行随机腐蚀得到真实三元图;对所述真实三元图的前景区域和第一未知区域进行随机腐蚀和膨胀,得到中间三元图;其中,所述未知区域为靠近前景区域和背景区域的边界区域;对所述中间三元图进行随机高斯模糊处理得到软区域分割训练图片;获取第一原始图片并对所述第一原始图片进行随机裁剪和尺寸变换,得到训练RGB图片;将所述训练RGB图片、所述真实三元图和所述软区域分割训练图片组成第一训练数据。
在本实施例的一种实现方式中,先获取第一真实透明度遮罩,对所述第一真实透明度遮罩的前景区域和背景区域进行1-29像素范围的随机腐蚀,得到真实三元图;然后对所述真实三元图的前景区域和第一未知区域先后进行1-59像素范围的随机腐蚀和膨胀得到中间三元图,其中,所述未知区域为靠近前景区域和背景区域的边界区域;再对所述中间三元图进行一个随机模糊处理得到软区域分割训练图片。此外,获取第一原始图片,并对所述第一原始图片进行随机裁剪,然后将尺寸变换到512x512像素图片,得到训练RGB图片。在上述过程中,采用的都是对第一原始图片和第一真实透明度遮罩进行相同的随机仿射变换。第一训练数据包括上述训练RGB图片、所述真实三元图和所述软区域分割训练图片。
将第一训练数据中的软区域分割训练图片和训练RGB图片输入到预设的第一初始网络,以得到预测三元图之后,根据所述真实三元图和所述预测三元图得到损失函数,在本实施例中,损失函数采用交叉熵损失函数。根据损失损失函数调整所述第一初始网络的参数,并继续执行将第一训练数据中的软区域分割训练图片输入到预设的第一初始网络,以得到预测三元图的步骤,这个过程是多次循环操作的过程,只有当损失函数的值满足预设阈值或者当训练次数达到预设次数阈值时,则停止训练,此时得到训练好的三元图生成网络。在本实施例中,采用的训练批次Batch size是10,迭代次数为129300次,学习率被初始化为0.001并随着迭代次数改变。
得到粗糙透明度遮罩后,就可以采用如图1所示的如下步骤:S300、将所述RGB图片和所述三元图输入到训练好的基于非局部注意力机制的抠图网络,得到粗糙透明度遮罩。
具体地,受到注意力机制在计算机视觉任务中的广泛应用,本发明实施例将非局部注意力机制引入到U-Net的编码器,也即生成基于非局部注意力机制的抠图网络Net-M,其中,U-Net是比较早的使用全卷积网络进行语义分割的算法之一。在图片特征的长距离语义依赖的引导下,进行透明度的全局特征增强。如图3所示的基于非局部注意力机制的抠图网络,图中
Figure BDA0002986781240000101
为矩阵相乘即点积,
Figure BDA0002986781240000102
为元素对应相加,不同于使用未知区域和图片特征变形的卷积核之间的卷积来模拟相似度计算,本发明实施例采用在变换后的图片特征空间的嵌入式点积中进行范围调整的softmax来计算相似性,其中,softmax是逻辑回归模型,对于诸如MNIST手写数字分类等问题是很有用的,是有监督的。在本发明实施例的一种实现方式中,采用计算的像素与像素之间的关系来对原透明度特征A进行重建得到A′,具体计算公式如下:
Figure BDA0002986781240000111
Figure BDA0002986781240000112
Figure BDA0002986781240000113
clip(x)=min(max(x,0.1),10)
上式中,I指图片特征图,Ix,y是I中(x,y)位置的像素值,g′(·)和φ′(·)指嵌入式线性变换和下采样的操作,d是指原图片特征的维度,U是指未知区域,K=I-U,W是学习到的权重矩阵。由于点积计算带来的高计算代价的缺点,本发明实施例采用步卷积来减小特征维度,步卷积相比于池化和差值变形能够保持更少的信息丢失,其中步卷积是当stride>1时的strideconv(卷积),步卷积相比于池化和差值变形能够保持更少的信息丢失。减小维度比率r在实验中设为4。Dropout层用来防止过拟合,残差相加能够使训练稳定。这样,将所述RGB图片和所述三元图输入到训练好的基于非局部注意力机制的抠图网络,就可以得到粗糙透明度遮罩。为了得到训练好的基于非局部注意力机制的抠图网络,需要提前训练基于非局部注意力机制的抠图网络,相应的,所述基于非局部注意力机制的抠图网络的训练过程具体为:将第二训练数据中的第二原始图片和训练三元图输入到预设的第二初始网络,以得到预测透明度遮罩;其中,所述第二训练数据包括第二原始图片、训练三元图和第二真实透明度遮罩;根据所述预测透明度遮罩和所述第二真实透明度遮罩,得到总损失函数;根据所述总损失函数调整所述第二初始网络的参数,并继续执行将第二训练数据中的第二原始图片和训练三元图输入到预设的第二初始网络,以得到预测透明度遮罩的步骤,直至满足预设训练条件,以得到训练好的基于非局部注意力机制的抠图网络。
具体地,先将第二训练数据中的第二原始图片和训练三元图输入到预设的第二初始网络,就可以得到预测透明度遮罩,根据所述预测透明度遮罩和所述第二真实透明度遮罩,得到总损失函数。相应的,所述根据所述预测透明度遮罩和所述第二真实透明度遮罩,得到总损失函数具体包括:根据所述预测透明度遮罩和所述第二真实透明度遮罩,得到第一损失函数;
在本实施例的一种实现方式中,所述根据所述预测透明度遮罩和所述第二真实透明度遮罩,得到第一损失函数包括如下步骤:获取第二未知区域和难样本区域;其中,所述难样本区域为包含难样本的区域;求解所述预测透明度遮罩和所述第二真实透明度遮罩的绝对差,得到第一绝对差值;根据所述第二未知区域和所述第一绝对差值,得到第一普通样本损失函数;根据所述难样本区域和所述第一绝对差值,得到第一难样本损失函数;将所述第一普通样本损失函数加上所述第一难样本损失函数,得到第一损失函数。
具体地,获取第二未知区域
Figure BDA0002986781240000121
和难样本区域
Figure BDA0002986781240000126
其中,所述难样本区域
Figure BDA0002986781240000123
为包含难样本的区域,在本实施例中,受到物体检测中在线难样本挖掘算法和视频修复任务中难流动样本挖掘的启发,本发明将未知区域中的所有像素值进行降序排序,再选择前百分值p的像素作为难样本,比如p可以取值为50,
Figure BDA0002986781240000124
指含有难样本的区域。求解在位置i处的所述预测透明度遮罩
Figure BDA0002986781240000125
和在位置i处的所述第二真实透明度遮罩αi的绝对差,得到第一绝对差值,然后,根据所述第二未知区域和所述第一绝对差值,得到第一普通样本损失函数,如:
Figure BDA0002986781240000131
根据所述难样本区域
Figure BDA0002986781240000132
印所述第一绝对差值,得到第一难样本损失函数,如:
Figure BDA0002986781240000133
Figure BDA0002986781240000134
将所述第一普通样本损失函数加上所述第一难样本损失函数,得到第一损失函数,如第一损失函数Lcoarse_α=Lalpha1+Lhard1
得到第一损失函数后,还需要得到第二损失函数,相应的,所述根据所述目标透明度遮罩和所述第二真实透明度遮罩,得到第二损失函数包括如下步骤:求解所述目标透明度遮罩和所述第二真实透明度遮罩的绝对差,得到第二绝对差值;根据所述第二未知区域和所述第二绝对差值,得到第二普通样本损失函数;根据所述难样本区域和所述第二绝对差值,得到第二难样本损失函数;将所述第二普通样本损失函数加上所述第二难样本损失函数,得到第二损失函数。
具体地,求解在位置i处的所述目标透明度遮罩
Figure BDA0002986781240000135
和在位置i处的所述第二真实透明度遮罩αi的绝对差,得到第二绝对差值,根据所述第二未知区域
Figure BDA0002986781240000136
和所述第二绝对差值,得到第二普通样本损失函数
Figure BDA0002986781240000137
Figure BDA0002986781240000138
根据所述难样本区域
Figure BDA00029867812400001310
和所述第二绝对差值,得到第二难样本损失函数
Figure BDA0002986781240000139
将所述第二普通样本损失函数加上所述第二难样本损失函数,得到第二损失函数,如:第二损失函数Lrefined_α=Lalpha2+Lhard2。得到第一损失函数和第二损失函数后,将所述第一损失函数加上所述第二损失函数,得到总损失函数,例如:总损失函数L=Lcoarse_α+Lrefined_α
得到总损失函数后,根据所述总损失函数调整所述第二初始网络的参数,并继续执行将第二训练数据中的第二原始图片和训练三元图输入到预设的第二初始网络,以得到预测透明度遮罩的步骤,这个过程是多次循环操作的过程,只有当损失函数的值满足预设阈值或者当训练次数达到预设次数阈值时,则停止训练,此时得到训练好的基于非局部注意力机制的抠图网络。在本实施例中,使用GCA-Matting的训练数据处理方式,Net-M使用的训练批次Batchsize批次为20,进行400000次迭代,并使用总损失函数L=Lcoarse_α+Lrefined_α进行训练,使用Adam优化器,其中,β1=0.5,β2=0.999。学习率被初始化为0.0004并使用预热和余弦衰变技术。
在本发明实施例的另一种实现方式中,所述三元图生成网络和所述基于非局部注意力机制的抠图网络训练结束后还包括如下步骤:将所述三元图生成网络和所述基于非局部注意力机制的抠图网络进行融合,生成第三初始网络;根据预设的测试集,对所述第三初始网络进行测试。
具体地,如图4所示,将所述三元图生成网络和所述基于非局部注意力机制的抠图网络进行融合之后,生成第三初始网络,利用Composition-1k测试集,Distinctions-646测试集和alphamatting.com测试集对所述第三初始网络进行测试时,将所述三元图生成网络Net-T输出的三元图作为所述基于非局部注意力机制的抠图网络Net-M的输入,对所述三元图的前景和未知区域进行20个像素的腐蚀,再进行一个高斯模糊得到腐蚀高斯值,根据所述腐蚀高斯值对所述基于非局部注意力机制的抠图网络Net-M输出的粗糙透明度遮罩进行前景和背景的重置得到最终的透明度遮罩。
通过训练好的基于非局部注意力机制的抠图网络,得到粗糙透明度遮罩后,就可以执行如图1所示的如下步骤:S400、将所述粗糙透明度遮罩输入到预设的完善模块,得到目标透明度遮罩。
具体地,完善模块(Refinement)技术已经被应用在显著物体检测和语义分割中,具有良好的改良效果。显著物体检测是只有图片输入的粗糙透明度遮罩预测,而抠图算法是两类别的语义分割的回归版本。基于以上的思想,本发明实施例在基于非局部注意力机制的抠图网络中引入完善模块通过计算目标透明度遮罩αrefined和粗糙透明度遮罩αcoarse之间的透明度残差αresidual,来得到目标透明度遮罩:αrefined=αcoarseresidual
示例性设备
如图5中所示,本发明实施例提供一种基于非局部注意力机制的全自动抠图装置,该装置包括RGB图片和软前景区域分割图片获取单元501,三元图获取单元502,粗糙透明度遮罩获取单元503,目标透明度遮罩获取单元504,其中:RGB图片和软前景区域分割图片获取单元501,用于获取三通道的RGB图片和两通道的软前景区域分割图片;
三元图获取单元502,用于将所述RGB图片和所述软前景区域分割图片输入到训练好的三元图生成网络得到三元图;
粗糙透明度遮罩获取单元503,用于将所述RGB图片和所述三元图输入到训练好的基于非局部注意力机制的抠图网络,得到粗糙透明度遮罩;
目标透明度遮罩获取单元504,用于将所述粗糙透明度遮罩输入到预设的完善模块,得到目标透明度遮罩。
基于上述实施例,本发明还提供了一种智能终端,其原理框图可以如图6所示。该智能终端包括通过系统总线连接的处理器、存储器、网络接口、显示屏、温度传感器。其中,该智能终端的处理器用于提供计算和控制能力。该智能终端的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该智能终端的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于非局部注意力机制的全自动抠图方法。该智能终端的显示屏可以是液晶显示屏或者电子墨水显示屏,该智能终端的温度传感器是预先在智能终端内部设置,用于检测内部设备的运行温度。
本领域技术人员可以理解,图6中的原理图,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的智能终端的限定,具体的智能终端可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种智能终端,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取三通道的RGB图片和两通道的软前景区域分割图片;
将所述RGB图片和所述软前景区域分割图片输入到训练好的三元图生成网络得到三元图;
将所述RGB图片和所述三元图输入到训练好的基于非局部注意力机制的抠图网络,得到粗糙透明度遮罩;
将所述粗糙透明度遮罩输入到预设的完善模块,得到目标透明度遮罩。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
综上所述,本发明公开了一种基于非局部注意力机制的全自动抠图方法、智能终端、存储介质,所述方法包括:
获取三通道的RGB图片和两通道的软前景区域分割图片;将所述RGB图片和所述软前景区域分割图片输入到训练好的三元图生成网络得到三元图;将所述RGB图片和所述三元图输入到训练好的基于非局部注意力机制的抠图网络,得到粗糙透明度遮罩;将所述粗糙透明度遮罩输入到预设的完善模块,得到目标透明度遮罩。本发明实施例通过采用训练好的三元图生成网络,能自动生成三元图;通过采用训练好的基于非局部注意力机制的抠图网络提高了抠图的精度。
基于上述实施例,本发明公开了一种基于非局部注意力机制的全自动抠图方法,应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (10)

1.一种基于非局部注意力机制的全自动抠图方法,其特征在于,所述方法包括:
获取三通道的RGB图片和两通道的软前景区域分割图片;
将所述RGB图片和所述软前景区域分割图片输入到训练好的三元图生成网络得到三元图;
将所述RGB图片和所述三元图输入到训练好的基于非局部注意力机制的抠图网络,得到粗糙透明度遮罩;
将所述粗糙透明度遮罩输入到预设的完善模块,得到目标透明度遮罩。
2.根据权利要求1所述的基于非局部注意力机制的全自动抠图方法,其特征在于,所述三元图生成网络的训练过程具体为:
将第一训练数据中的软区域分割训练图片和训练RGB图片输入到预设的第一初始网络,以得到预测三元图;其中,所述第一训练数据包括真实三元图、软区域分割训练图片和训练RGB图片;
根据所述真实三元图和所述预测三元图调整所述第一初始网络的参数,并继续执行将第一训练数据中的软区域分割训练图片输入到预设的第一初始网络,以得到预测三元图的步骤,直至满足预设训练条件,以得到训练好的三元图生成网络。
3.根据权利要求2所述的基于非局部注意力机制的全自动抠图方法,其特征在于,所述第一训练数据的生成方式为:
获取第一真实透明度遮罩;
对所述第一真实透明度遮罩的前景区域和背景区域进行随机腐蚀得到真实三元图;
对所述真实三元图的前景区域和第一未知区域进行随机腐蚀和膨胀,得到中间三元图;其中,所述未知区域为靠近前景区域和背景区域的边界区域;
对所述中间三元图进行随机高斯模糊处理得到软区域分割训练图片;
获取第一原始图片并对所述第一原始图片进行随机裁剪和尺寸变换,得到训练RGB图片;
将所述训练RGB图片、所述真实三元图和所述软区域分割训练图片组成第一训练数据。
4.根据权利要求1所述的基于非局部注意力机制的全自动抠图方法,其特征在于,所述基于非局部注意力机制的抠图网络的训练过程具体为:
将第二训练数据中的第二原始图片和训练三元图输入到预设的第二初始网络,以得到预测透明度遮罩;其中,所述第二训练数据包括第二原始图片、训练三元图和第二真实透明度遮罩;
根据所述预测透明度遮罩和所述第二真实透明度遮罩,得到总损失函数;
根据所述总损失函数调整所述第二初始网络的参数,并继续执行将第二训练数据中的第二原始图片和训练三元图输入到预设的第二初始网络,以得到预测透明度遮罩的步骤,直至满足预设训练条件,以得到训练好的基于非局部注意力机制的抠图网络。
5.根据权利要求4所述的基于非局部注意力机制的全自动抠图方法,其特征在于,所述根据所述预测透明度遮罩和所述第二真实透明度遮罩,得到损失函数包括:
根据所述预测透明度遮罩和所述第二真实透明度遮罩,得到第一损失函数;
根据所述目标透明度遮罩和所述第二真实透明度遮罩,得到第二损失函数;
将所述第一损失函数加上所述第二损失函数,得到总损失函数。
6.根据权利要求5所述的基于非局部注意力机制的全自动抠图方法,其特征在于,所述根据所述预测透明度遮罩和所述第二真实透明度遮罩,得到第一损失函数包括:
获取第二未知区域和难样本区域;其中,所述难样本区域为包含难样本的区域;
求解所述预测透明度遮罩和所述第二真实透明度遮罩的绝对差,得到第一绝对差值;
根据所述第二未知区域和所述第一绝对差值,得到第一普通样本损失函数;
根据所述难样本区域和所述第一绝对差值,得到第一难样本损失函数;
将所述第一普通样本损失函数加上所述第一难样本损失函数,得到第一损失函数。
7.根据权利要求6所述的基于非局部注意力机制的全自动抠图方法,其特征在于,所述根据所述目标透明度遮罩和所述第二真实透明度遮罩,得到第二损失函数包括:
求解所述目标透明度遮罩和所述第二真实透明度遮罩的绝对差,得到第二绝对差值;
根据所述第二未知区域和所述第二绝对差值,得到第二普通样本损失函数;
根据所述难样本区域和所述第二绝对差值,得到第二难样本损失函数;
将所述第二普通样本损失函数加上所述第二难样本损失函数,得到第二损失函数。
8.根据权利要求7所述的基于非局部注意力机制的全自动抠图方法,其特征在于,所述三元图生成网络和所述基于非局部注意力机制的抠图网络训练结束后还包括:
将所述三元图生成网络和所述基于非局部注意力机制的抠图网络进行融合,生成第三初始网络;
根据预设的测试集,对所述第三初始网络进行测试。
9.一种智能终端,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于执行如权利要求1-8中任意一项所述的方法。
10.一种非临时性计算机可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1-8中任意一项所述的方法。
CN202110316720.9A 2021-03-22 2021-03-22 一种基于非局部注意力机制的全自动抠图方法 Active CN113012169B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110316720.9A CN113012169B (zh) 2021-03-22 2021-03-22 一种基于非局部注意力机制的全自动抠图方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110316720.9A CN113012169B (zh) 2021-03-22 2021-03-22 一种基于非局部注意力机制的全自动抠图方法

Publications (2)

Publication Number Publication Date
CN113012169A true CN113012169A (zh) 2021-06-22
CN113012169B CN113012169B (zh) 2023-07-07

Family

ID=76406710

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110316720.9A Active CN113012169B (zh) 2021-03-22 2021-03-22 一种基于非局部注意力机制的全自动抠图方法

Country Status (1)

Country Link
CN (1) CN113012169B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113421276A (zh) * 2021-07-02 2021-09-21 深圳大学 一种图像处理方法、装置及存储介质
CN113592074A (zh) * 2021-07-28 2021-11-02 北京世纪好未来教育科技有限公司 一种训练方法、生成方法及装置、电子设备
CN113592843A (zh) * 2021-08-09 2021-11-02 北京联合大学 基于改进的U-Net眼底视网膜血管图像分割方法及装置
CN113838084A (zh) * 2021-09-26 2021-12-24 上海大学 基于编解码器网络和引导图的抠图方法
CN118470048A (zh) * 2024-07-08 2024-08-09 江西师范大学 一种实时反馈的交互式树木图像抠图方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110197490A (zh) * 2019-04-15 2019-09-03 广州像素数据技术股份有限公司 基于深度学习的人像自动抠图方法
CN110322468A (zh) * 2019-06-04 2019-10-11 广东工业大学 一种图像自动编辑方法
US20200175729A1 (en) * 2018-12-04 2020-06-04 Nhn Corporation Deep learning based virtual hair dyeing method and method for providing virual hair dyeing service using the same
CN111754517A (zh) * 2019-03-26 2020-10-09 奥多比公司 使用神经网络的交互式图像抠图
CN111784564A (zh) * 2020-06-30 2020-10-16 稿定(厦门)科技有限公司 自动抠图方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200175729A1 (en) * 2018-12-04 2020-06-04 Nhn Corporation Deep learning based virtual hair dyeing method and method for providing virual hair dyeing service using the same
CN111754517A (zh) * 2019-03-26 2020-10-09 奥多比公司 使用神经网络的交互式图像抠图
CN110197490A (zh) * 2019-04-15 2019-09-03 广州像素数据技术股份有限公司 基于深度学习的人像自动抠图方法
CN110322468A (zh) * 2019-06-04 2019-10-11 广东工业大学 一种图像自动编辑方法
CN111784564A (zh) * 2020-06-30 2020-10-16 稿定(厦门)科技有限公司 自动抠图方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
楼珊珊: "基于Kinect的抠像算法研究与应用", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
楼珊珊: "基于Kinect的抠像算法研究与应用", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 4, 15 April 2018 (2018-04-15), pages 138 - 2420 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113421276A (zh) * 2021-07-02 2021-09-21 深圳大学 一种图像处理方法、装置及存储介质
CN113592074A (zh) * 2021-07-28 2021-11-02 北京世纪好未来教育科技有限公司 一种训练方法、生成方法及装置、电子设备
CN113592074B (zh) * 2021-07-28 2023-12-12 北京世纪好未来教育科技有限公司 一种训练方法、生成方法及装置、电子设备
CN113592843A (zh) * 2021-08-09 2021-11-02 北京联合大学 基于改进的U-Net眼底视网膜血管图像分割方法及装置
CN113592843B (zh) * 2021-08-09 2023-06-23 北京联合大学 基于改进的U-Net眼底视网膜血管图像分割方法及装置
CN113838084A (zh) * 2021-09-26 2021-12-24 上海大学 基于编解码器网络和引导图的抠图方法
CN118470048A (zh) * 2024-07-08 2024-08-09 江西师范大学 一种实时反馈的交互式树木图像抠图方法
CN118470048B (zh) * 2024-07-08 2024-09-24 江西师范大学 一种实时反馈的交互式树木图像抠图方法

Also Published As

Publication number Publication date
CN113012169B (zh) 2023-07-07

Similar Documents

Publication Publication Date Title
CN113012169A (zh) 一种基于非局部注意力机制的全自动抠图方法
WO2020238560A1 (zh) 视频目标跟踪方法、装置、计算机设备及存储介质
Kumar et al. Videoflow: A flow-based generative model for video
CN111080628B (zh) 图像篡改检测方法、装置、计算机设备和存储介质
CN111260055B (zh) 基于三维图像识别的模型训练方法、存储介质和设备
CN110910391B (zh) 一种双模块神经网络结构视频对象分割方法
WO2019057169A1 (zh) 文本检测方法、存储介质和计算机设备
Dubes et al. Random field models in image analysis
CN107689052B (zh) 基于多模型融合和结构化深度特征的视觉目标跟踪方法
CN112001399B (zh) 基于局部特征显著化的图像场景分类方法和装置
CN113421276B (zh) 一种图像处理方法、装置及存储介质
CN111161249A (zh) 一种基于域适应的无监督医学图像分割方法
CN117253044B (zh) 一种基于半监督交互学习的农田遥感图像分割方法
CN116596966A (zh) 一种基于注意力和特征融合的分割与跟踪方法
Tang et al. A Siamese network-based tracking framework for hyperspectral video
CN116563230A (zh) 焊缝缺陷识别方法及系统
CN116385466A (zh) 一种基于边界框弱标注的图像中目标分割方法及系统
Li et al. Dmhomo: Learning homography with diffusion models
CN116704208B (zh) 基于特征关系的局部可解释方法
CN113436224A (zh) 一种基于显式构图规则建模的智能图像裁剪方法及装置
Liu et al. GCCNet: Grouped channel composition network for scene text detection
CN117011640A (zh) 基于伪标签滤波的模型蒸馏实时目标检测方法及装置
CN116486304A (zh) 一种基于超声视频的关键帧提取方法及相关设备
Wang et al. PPTtrack: Pyramid pooling based Transformer backbone for visual tracking
CN112529081B (zh) 基于高效注意力校准的实时语义分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant