CN114299101A - 图像的目标区域获取方法、装置、设备、介质和程序产品 - Google Patents

图像的目标区域获取方法、装置、设备、介质和程序产品 Download PDF

Info

Publication number
CN114299101A
CN114299101A CN202111272694.0A CN202111272694A CN114299101A CN 114299101 A CN114299101 A CN 114299101A CN 202111272694 A CN202111272694 A CN 202111272694A CN 114299101 A CN114299101 A CN 114299101A
Authority
CN
China
Prior art keywords
foreground
original image
region
mask
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111272694.0A
Other languages
English (en)
Inventor
王涛
彭瑾龙
罗泽坤
王亚彪
汪铖杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202111272694.0A priority Critical patent/CN114299101A/zh
Publication of CN114299101A publication Critical patent/CN114299101A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本申请涉及一种图像的目标区域获取方法、装置、设备、介质和程序产品。所述方法涉及人工智能,包括:获取原始图像,并对原始图像进行特征提取和卷积处理,提取原始图像的前景掩膜,对前景掩膜进行膨胀腐蚀处理,确定前景掩摸中的前背景交界区域。根据各类区域对应的像素点值,对前背景交界区域和前景掩膜的各像素点进行赋值,得到原始图像的三色图,对三色图和原始图像,进行编码和解码处理,获得原始图像的前景不透明度通道数据。基于前景不透明度通道数据和原始图像,确定得到所需的目标区域。采用本方法无需人工手动提前进行标注,减少三色图生成过程中存在的误差数据,提升确定出的目标区域的精准确度,以及图像中目标区域的获取工作效率。

Description

图像的目标区域获取方法、装置、设备、介质和程序产品
技术领域
本申请涉及人工智能技术领域,特别是涉及一种图像的目标区域获取方法、 装置、设备、介质和程序产品。
背景技术
随着人工智能技术的发展,以及各类图像处理应用程序的广泛使用,出现了 将不同图像中的部分图像进行提取、调整以及添加的抠图算法。其中,抠图算法 可在给定的图像中提取图像前景,并获得前景的不透明度(即alpha通道),方便 后续的图像处理。
传统的抠图算法,主要是采用三色图和原始图像作为输入,利用编解码结构 和注意力机制来生成不透明度机制。其中,在三色图中,用黑色表示确定的背景 区域,白色表示确定的前景区域,灰色表示背景和前景之间的不确定区域。但传 统的抠图算法需要人工对图像进行标定,即人工对待处理图像进行三色标定,得 到对应的三色图,并输入人工标定的三色图和原始图像,才能到相应的抠图结果。
因此,传统的抠图算法处理过程中,仍然存在较多标注操作失误或者标注错 漏的情况,容易导致最后得到的抠图结果精准确度无法满足实际需求,需要重复 进行图像处理的问题,进而图像处理、获取的效率仍然较为低下。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提升图像处理和获取的工 作效率的图像的目标区域获取方法、装置、设备、介质和程序产品。
一种图像的目标区域获取方法,所述方法包括:
获取原始图像,并对所述原始图像进行特征提取和卷积处理,提取所述原始 图像的前景掩膜;
对所述前景掩膜进行膨胀腐蚀处理,确定所述前景掩摸中的前背景交界区 域;
根据各类区域对应的像素点值,对所述前背景交界区域和所述前景掩膜的 各像素点进行赋值各类区域,得到所述原始图像的三色图,其中所述各类区域对 应的像素点值不同;
对所述三色图和所述原始图像,进行编码和解码处理,获得所述原始图像的 前景不透明度通道数据;
基于所述前景不透明度通道数据和所述原始图像,确定得到所需的目标区 域。
一种图像的目标区域获取装置,所述装置包括:
前景掩膜提取模块,用于获取原始图像,并对所述原始图像进行特征提取和 卷积处理,提取所述原始图像的前景掩膜;
前背景交界区域确定模块,用于对所述前景掩膜进行膨胀腐蚀处理,确定所 述前景掩摸中的前背景交界区域;
三色图生成模块,用于根据各类区域对应的像素点值,对所述前背景交界区 域和所述前景掩膜的各像素点进行赋值,得到所述原始图像的三色图,其中所述 各类区域对应的像素点值不同;
前景不透明度通道数据获取模块,用于对所述三色图和所述原始图像,进行 编码和解码处理,获得所述原始图像的前景不透明度通道数据;
目标区域确定模块,用于基于所述前景不透明度通道数据和所述原始图像, 确定得到所需的目标区域。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所 述处理器执行所述计算机程序时实现以下步骤:
获取原始图像,并对所述原始图像进行特征提取和卷积处理,提取所述原始 图像的前景掩膜;
对所述前景掩膜进行膨胀腐蚀处理,确定所述前景掩摸中的前背景交界区 域;
根据各类区域对应的像素点值,对所述前背景交界区域和所述前景掩膜的 各像素点进行赋值,得到所述原始图像的三色图,其中所述各类区域对应的像素 点值不同;
对所述三色图和所述原始图像,进行编码和解码处理,获得所述原始图像的 前景不透明度通道数据;
基于所述前景不透明度通道数据和所述原始图像,确定得到所需的目标区 域。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理 器执行时实现以下步骤:
获取原始图像,并对所述原始图像进行特征提取和卷积处理,提取所述原始 图像的前景掩膜;
对所述前景掩膜进行膨胀腐蚀处理,确定所述前景掩摸中的前背景交界区 域;
根据各类区域对应的像素点值,对所述前背景交界区域和所述前景掩膜的 各像素点进行赋值各类区域,得到所述原始图像的三色图,其中所述各类区域对 应的像素点值不同;
对所述三色图和所述原始图像,进行编码和解码处理,获得所述原始图像的 前景不透明度通道数据;
基于所述前景不透明度通道数据和所述原始图像,确定得到所需的目标区 域。
一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实 现以下步骤:
获取原始图像,并对所述原始图像进行特征提取和卷积处理,提取所述原始 图像的前景掩膜;
对所述前景掩膜进行膨胀腐蚀处理,确定所述前景掩摸中的前背景交界区 域;
根据各类区域对应的像素点值,对所述前背景交界区域和所述前景掩膜的 各像素点进行赋值各类区域,得到所述原始图像的三色图,其中所述各类区域对 应的像素点值不同;
对所述三色图和所述原始图像,进行编码和解码处理,获得所述原始图像的 前景不透明度通道数据;
基于所述前景不透明度通道数据和所述原始图像,确定得到所需的目标区 域。
上述图像的目标区域获取方法、装置、设备、介质和程序产品中,通过获取 原始图像,对原始图像进行特征提取和卷积处理,以提取原始图像的前景掩膜, 进而对前景掩膜进行膨胀腐蚀处理,确定前景掩摸中的前背景交界区域。根据各 类区域对应的像素点值对前背景交界区域和前景掩膜的各像素点进行赋值,可 直接得到原始图像的三色图,而无需人工手动提前进行标注,减少标注失误或者 错漏的情况,减少三色图生成过程中存在的误差数据。通过对三色图和原始图像, 进行编码和解码处理,可生成得到原始图像的前景不透明度通道数据,进而可在 减少人工标注导致的误差数据的基础上,基于前景不透明度通道数据和原始图 像,确定得到所需的目标区域,使得最后确定出的目标区域的精准确度更加满足 实际需求,避免重复进行图像处理操作,进一步提升图像处理、获取的工作效率。
附图说明
图1为一个实施例中图像的目标区域获取方法的应用环境图;
图2为一个实施例中图像的目标区域获取方法的流程示意图;
图3为一个实施例中图像的目标区域获取方法的实际应用场景示意图;
图4为一个实施例中确定前景掩膜中的前背景交界区域的流程示意图;
图5为一个实施例中提取原始图像的前景掩膜的流程示意图;
图6为一个实施例获得原始图像的前景不透明度通道数据的流程示意图;
图7为一个实施例中图像的目标区域获取装置的结构框图;
图8为一个实施例中图像的目标区域获取系统的架构示意图;
图9为一个实施例中图像的目标区域获取系统的抠图模块的架构示意图;
图10为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施 例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以 解释本申请,并不用于限定本申请。
本申请实施例提供的目标区域获取方法涉及人工智能,其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、 技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了 解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机 器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、 推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层 面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工 智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体 化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语 言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器 “看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、 跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察 或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技 术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉 技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、 视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强 现实、同步定位与地图构建、自动驾驶、智慧交通等技术,还包括常见的人脸识 别、指纹识别等生物特征识别技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计 学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或 实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不 断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途 径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网 络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用, 例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾 驶、自动驾驶、无人机、机器人、智能医疗、智能客服、车联网、自动驾驶、智 慧交通等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发 挥越来越重要的价值。
本申请实施例提供的目标区域获取方法涉及人工智能的计算机视觉以及机 器学习等技术,具体通过如下实施例进行说明:
本申请提供的目标区域获取方法,可以应用于如图1所示的应用环境中。 其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务 器104需要处理的数据,且数据存储系统可以集成在服务器104上,也可以放 在云上或其他网络服务器上。服务器104通过获取终端102本地存储的原始图 像,或从服务器104自身的云端存储中获取原始图像,并对原始图像进行特征 提取和卷积处理,以提取原始图像的前景掩膜。服务器104通过前景掩膜进行 膨胀腐蚀处理,确定前景掩摸中的前背景交界区域,并根据各类区域对应的像素 点值,对前背景交界区域和前景掩膜的各像素点进行赋值,得到原始图像的三色图。其中,各类区域对应的像素点值不同。服务器104进一步地通过对三色图和 原始图像,进行编码和解码处理,获得原始图像的前景不透明度通道数据,进而 基于前景不透明度通道数据和原始图像,确定得到所需的目标区域,同时服务器 104还可将所确定得到的目标区域反馈至终端102进行展示,或将所提取的目标 区域进行进一步图像处理或和待播放视频等进行合成后,在终端102进行展示。 其中,终端102可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音 箱、智能手表、车载终端、智能电视等,但并不局限于此。服务器104可以是独 立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统, 还可以是提供云计算服务的云服务器。终端102以及服务器104可以通过有线 或无线通信方式进行直接或间接地连接,本申请在此不做限制。
在一个实施例中,如图2所示,提供了一种图像的目标区域获取方法,以该 方法应用于图1中的服务器为例进行说明,该图像的目标区域获取方法,具体 包括以下步骤:
步骤S202,获取原始图像,并对原始图像进行特征提取和卷积处理,提取 原始图像的前景掩膜。
具体地,在本实施例中,具体是采用基于条件卷积的实例分割算法(即 CondInst)提取得到原始图像的前景掩膜。具体来说,通过获取原始图像,并对 原始图像进行特征提取,生成对应的图像特征。其中,具体可以是将原始图像输 入骨架网络ResNet50(层数为50的基础卷积神经网络)进行特征提取,以生成 对应的图像特征。进一步将图像特征进行特征金字塔处理,生成不同尺度的特征 图,以及不同尺寸的目标对象。其中,出于对所生成的特征图的精度要求,以及 生成特征图的速度要求,具体可以采用层数至少为3层的特征金字塔,对图像 特征进行处理,以生成得到多尺度的特征图。
其中,针对每个尺度的特征图的目标对象,需要调用共享检测头进检测,以 检测得到不同目标对象的类别信息,并根据预设动态卷积控制头获取得到不同 尺度的特征图对应的条件卷积参数,进而将获取得到的条件卷积参数确定为全 卷积分割头的网络参数。其中,共享检测头的作用在于进行类别信息获取处理, 在本实施例中,具体可以采用5个共享检测头进行类别信息检测。
进一步地,通过获取不同目标对象对应的相对位置坐标信息,并将各相对位 置坐标信息堆叠至对应尺度的特征图上,得到全卷积分割头的输入数据,进而基 于全卷积分割头和对应的网络参数,对输入数据进行卷积处理,生成得到原始图 像的前景掩膜。
举例来说,以对于每个目标对象对应的中心位置为(x,y)为例,通过提取动态 卷积控制头所输出的(x,y)位置的向量作为全卷积分割头的网络参数,继而将 每个目标对象所在的具体位置的坐标减去该中心位置(x,y),可得到相应的相对位 置坐标,通过将相对位置坐标与对应尺度的特征图进行叠加,得到全卷积分割头 的输入数据。
其中,具体是利用全卷积分割头对输入数据进行卷积处理,以得到原始图像 的前景掩膜。其中,采用基于条件卷积的实例分割算法提取得到的前景掩膜包括 0和255两种值,分别对应黑色和白色,同时黑色对应背景区域,白色则对应前 景区域。
步骤S204,对前景掩膜进行膨胀腐蚀处理,确定前景掩摸中的前背景交界 区域。
具体地,通过对前景掩膜进行膨胀处理,以对前景掩膜的边缘区域进行生长, 得到处理后的第一掩膜数据,并对前景掩膜进行腐蚀处理,以对前景掩膜的边缘 区域进行消融,得到处理后的第二掩膜数据。进而根据第一掩膜数据和第二掩膜 数据,确定得到对应的前背景交界区域。
其中,由于采用基于条件卷积的实例分割算法,所提取得到的前景掩膜包括 0和255两种值,即仅对应黑白两色,得到的分割结果较为粗糙,导致所确定出 的目标区域的精确度较为低下,进而需要对得到的前景掩膜进行膨胀处理和腐 蚀处理,以确定前背景交接区域。
进一步地,首先通过对前景掩膜进行膨胀处理,以对前景掩膜的边缘区域进 行生长,将边缘区域的像素点的像素点值设置为255,得到处理后的第一掩膜数 据。其次,对前景掩膜进行腐蚀处理,以对前景掩膜的边缘区域进行消融,将边 缘区域的像素点的像素点值设置为0,得到处理后的第二掩膜数据。进而根据第 一掩膜数据和第二掩膜数据,确定得到前背景交界区域。
其中,前背景交界区域所包括的像素点在第一掩膜数据中的像素点值为255, 而前背景交界区域所包括的像素点在第二掩膜数据中的像素点值为0。
步骤S206,根据各类区域对应的像素点值,对前背景交界区域和前景掩膜 的各像素点进行赋值,得到原始图像的三色图,各类区域对应的像素点值不同。
具体地,本实施例中,调整后的前景掩膜具体对应包括前背景交界区域、前 景区域以及背景区域的三色图。其中,不同区域对应不同像素点值,需要对前背 景交界区域和前景掩膜的各像素点分别赋值各类区域对应的像素点值,以得到 原始图像的三色图。
其中,前背景交界区域包括的各像素点的像素点值为128,对应灰色,进而 得到的原始图像的三色图即为包括黑色的背景区域、灰色的前背景交界区域、以 及白色的前景区域。而各类区域对应的像素点值可以包括前背景交界区域对应 的第一预设区域赋值数据,与前景掩膜的背景区域对应的第二预设区域赋值数 据,以及与前景掩膜的前景区域对应的第三预设区域赋值数据。
在一个实施例中,通过获取与前背景交界区域对应的第一预设区域赋值数 据,与前景掩膜的背景区域对应的第二预设区域赋值数据,以及与前景掩膜的前 景区域对应的第三预设区域赋值数据。进而从第一掩膜数据和第二掩膜数据中, 筛选得到像素点值符合前背景交界条件的第一类像素点,符合背景条件的第二 类像素点,以及符合前景条件的第三类像素点。
进一步地,根据第一预设区域赋值数据对第一类像素点进行赋值,根据第二 预设区域赋值数据对第一类像素点以及第二类像素点进行赋值,以及根据第三 预设区域赋值数据对第一类像素点以及第二类像素点进行赋值,生成得到原始 图像的三色图。
具体地,第一预设区域赋值数据即为与灰色对应的像素点值128,即通过将 从第一掩膜数据和第二掩膜数据中,筛选得到像素点值符合前背景交界条件的 第一类像素点进行赋值,具体来说是将第一掩膜数据中像素点值为255的像素 点、第二掩膜数据中像素点值为0的像素点,确定为第一类像素点,并将第一类 像素点赋值为128,可得到赋值后的前背景交界区域。
同样地,第二预设区域赋值数据即为与黑色对应的像素点值0,即通过对从 第一掩膜数据和第二掩膜数据中,筛选得到像素点值符合背景条件的第二类像 素点进行赋值,具体来说,是将第一掩膜数据、第二掩膜数据中除去符合前背景 交界条件的第一类像素点后,像素点值符合背景条件的第二类像素点进行赋值, 将第二类像素点赋值成0,即得到调整后的背景区域。
其中,第三预设区域赋值数据即为与白色对应的像素点值255,即通过对从 第一掩膜数据和第二掩膜数据中,筛选得到像素点值符合前景条件的第三类像 素点进行赋值,具体来说,是将第一掩膜数据、第二掩膜数据中除去符合前背景 交界条件的第一类像素点后,像素点值符合前景条件的第三类像素点进行赋值, 将第三类像素点赋值成255,即得到调整后的前景区域。
进一步地,根据赋值后的前背景交界区域、调整后的前景区域和背景区域, 可生成得到原始图像的三色图。
在一个实施例中,具体采用以下公式(1)至(3),生成得到原始图像的三 色图Mtrimap(x,y):
Figure BDA0003328417650000091
Figure BDA0003328417650000092
Figure BDA0003328417650000093
其中,Md(x,y)对前景掩膜进行膨胀操作得到的第一掩膜数据,即取x,y为 某个像素点,|x-x*|<r,|y-y*|<r为该像素点r范围内的领域,在邻域内对 前景掩膜M取max。同样地,Me(x,y)表示对前景掩膜进行腐蚀操作得到的第二 掩膜数据,即取x,y为某个像素点,|x-x*|<r,|y-y*|<r为该像素点r范围 内的领域,在邻域内对前景掩膜M取min。
进一步地,Mtrimap(x,y)包括255、128以及0三种取值,其中,255对应前 景区域,即第一掩膜数据和第二掩膜数据中像素点值为255的像素点对应的区 域,0对应背景区域,即第一掩膜数据和第二掩膜数据中像素点值为0的像素点 对应的区域,而128则对应前背景交界区域,即第一掩膜数据中像素点值为255 的像素点,以及第二掩膜数据中像素点值为0的像素点对应的区域。
步骤S208,对三色图和原始图像,进行编码和解码处理,获得原始图像的 前景不透明度通道数据。
具体地,本实施例中具体采用GCA-Matting算法(即携带guided contextualattention(引导性自注意力机制)的抠图算法),实现对三色图和原始图像的编码、 解码处理,以输出得到原始图像的前景不透明度通道数据。
其中,GCA-Matting算法的网络主体部分为UNet(深度学习分割网络)结 构,通过将三色图和原始图像作为UNet结构的输入数据,一次经过编码和解码, 最后输出得到原始图像的前景不透明度通道数据(即alpha通道数据)。其中, 编解码部分增加跳跃连接进行通道拼接,融合多尺度信息从而提高精度,在引导 性自注意力机制模块中低层次的特征被用于alpha特征传导的指引,并将具有相 似外观的已知区域特征传导到未知区域上,从而实现从三色图的已知区域推断 前背景交界区域的alpha通道值。
进一步地,通过将原始图像划分为已知区域与未知区域,并将与所已知区域 对应的特征流划分成特征块,具体是通过3x3的patch(块)进行划分,之后将 特征块转换为卷积核,根据卷积核与未知区域进行卷积处理与激活处理,进而获 取每个已知patch所指导未知区域的注意力系数。
同样地,对三色图对应的特征流也进行相同的划分,得到相应的特征块,同 样需要将对三色图进行划分得到的特征块转换成为卷积核,再通过注意力系数 和卷积核对三色图对应的特征流进行反卷积处理,以实现将未知区域就在三色 图对应的特征流组成的特征图上进行重现,即将已知区域的三色图对应的特征 流传递至未知区域对应的特征块上,得到增强后的未知区域。
步骤S210,基于前景不透明度通道数据和原始图像,确定得到所需的目标 区域。
具体地,通过将前景不透明度通道数据和原始图像进行相乘,即生成得到所 需的目标区域。
进一步地,在本实施例中,目标区域为原始图像中抽取得到的前景区域,具 体来说,通过将视频中即原始图像中的前景物体进行抠图,以得到相应的前景不 透明度通道数据,继而在此基础上,将广告数据和前景不透明度通道数据进行合 成,以实现视频AR(增强现实技术)广告数据植入,同时不对视频的原始图像 中的前景区域造成影响。
在一个实施例中,如图3所示,提供了一种图像的目标区域获取方法的实 际应用场景参照图3可知,通过对图3中的图(a)进行分割以得到图(b),进 一步对图(b)进行膨胀腐蚀处理,生成得到如图(c)所示的三色图,基于图(c) 所示的三色图进一步进行抠图处理,获取得到如图(d)所示的前景不透明度通 道数据,最终通过对图(a)中的背景区域进行广告数据植入,再将植入广告后 的背景区域和图(d)中所示的前景不透明度通道数据进行合成,得到如图(e) 所示的更新后的图像数据。
其中,由于是对图(a)中的背景区域进行广告数据植入,而前景区域已成 功提取出来,后续再进行合成,进而最终得到的图(e)不存在对前景区域造成 影响的情况。其中,参照图3可知,针对图3中的图(a)而言,可标注出进行 前景区域提取和广告数据植入处理之前的需要进行替换的背景区域,经过图像 分割、膨胀腐蚀处理、抠图处理(即前景区域提取处理)以及广告数据植入处理 后,得到图(e)。其中,图(e)中也对背景区域进行替换后的内容进行了标注, 图(a)和图(e)的区别在于背景区域的广告植入数据不同。
上述图像的目标区域获取方法中,通过获取原始图像,对原始图像进行特征 提取和卷积处理,以提取原始图像的前景掩膜,进而对前景掩膜进行膨胀腐蚀处 理,确定前景掩摸中的前背景交界区域。通过对前背景交界区域和前景掩膜的各 像素点分别赋值各类区域对应的像素点值,可直接得到原始图像的三色图,而无 需人工手动提前进行标注,减少标注失误或者错漏的情况,减少三色图生成过程 中存在的误差数据。通过对三色图和原始图像,进行编码和解码处理,可生成得 到原始图像的前景不透明度通道数据,进而可在减少人工标注导致的误差数据 的基础上,基于前景不透明度通道数据和原始图像,确定得到所需的目标区域, 使得最后确定出的目标区域的精准确度更加满足实际需求,避免重复进行图像 处理操作,进一步提升图像处理、获取的工作效率。
在一个实施例中,如图4所示,确定前景掩膜中的前背景交界区域的步骤, 即对前景掩膜进行膨胀腐蚀处理,确定前景掩膜中的前背景交界区域,具体包括:
步骤S402,对前景掩膜进行膨胀处理,以对前景掩膜的边缘区域进行生长, 得到处理后的第一掩膜数据。
具体地,通过对前景掩膜进行膨胀处理,以对前景掩膜的边缘区域进行生长, 即将边缘区域的像素点的像素点值设置为255,得到处理后的第一掩膜数据。其 中,第一掩膜数据中包括有像素点值为0和255的像素点,且经过膨胀处理的 边沿区域的像素点的像素点值全部为255。
其中,由于本实施例中具体是采用基于条件卷积的实例分割算法,对原始图 像进行特征提取和卷积处理,得到原始图像的前景掩膜,所提取得到的前景掩膜 包括0和255两种值,即仅对应黑白两色,得到的分割结果较为粗糙,导致所 确定出的目标区域的精确度较为低下,进而需要对得到的前景掩膜进行膨胀处 理和腐蚀处理,以确定前背景交接区域。
步骤S404,对前景掩膜进行腐蚀处理,以对前景掩膜的边缘区域进行消融, 得到处理后的第二掩膜数据。
具体地,通过对前景掩膜进行腐蚀处理,以对前景掩膜的边缘区域进行消融, 即将边缘区域的像素点的像素点值设置为0,得到处理后的第二掩膜数据。其中, 第二掩膜数据中,同样包括有像素点值为0和255的像素点,且经过腐蚀处理 的边沿区域的像素点的像素点值全部为0。
步骤S406,根据第一掩膜数据和第二掩膜数据,确定得到对应的前背景交 界区域。
具体地,通过从第一掩膜数据和第二掩膜数据中,筛选得到像素点值符合前 背景交界条件的第一类像素点,并根据第一类像素点,确定得到对应的前背景交 界区域。
其中,符合前背景交界条件的像素点值的像素点,包括第一掩膜数据中经过 膨胀处理的像素点值为255的边缘区域的各像素点,以及第二掩膜数据中经过 腐蚀处理的像素点值为0的边缘区域的各像素点。
进一步地,根据第一掩膜数据中经过膨胀处理的像素点值为255的边缘区 域的各像素点,以及第二掩膜数据中经过腐蚀处理的像素点值为0的边缘区域 的各像素点,得到第一类像素点,进而根据第一类像素点所属的区域,确定得到 对应的前背景交界区域。
本实施例中,通过对前景掩膜进行膨胀处理,以对前景掩膜的边缘区域进行 生长,得到处理后的第一掩膜数据,并对前景掩膜进行腐蚀处理,以对前景掩膜 的边缘区域进行消融,得到处理后的第二掩膜数据,进而根据第一掩膜数据和第 二掩膜数据,来确定得到对应的前背景交界区域。实现了对特征提取和卷积处理 的前景掩膜,进行进一步膨胀腐蚀处理,确定出所需的前背景交界区域,以确定 出需要关注的目标区域的主体区域和需要抠图的边缘区域,进而提升所确定出 的目标区域的精度。
在一个实施例中,如图5所示,提取原始图像的前景掩膜的步骤,即对原始 图像进行特征提取和卷积处理,提取原始图像的前景掩膜的步骤,具体包括:
步骤S502,对原始图像进行特征提取,生成对应图像特征。
具体地,本实施中是采用基于条件卷积的实例分割算法(即CondInst)提取 得到原始图像的前景掩膜。具体来说,通过获取原始图像,并对原始图像进行特 征提取,生成对应的图像特征。其中,具体可以是将原始图像输入骨架网络 ResNet50(层数为50的基础卷积神经网络)进行特征提取,以生成对应的图像 特征。
步骤S504,基于图像特征进行特征金字塔处理,生成不同尺度的特征图和 目标对象。
具体地,基于提取得到的图像特征进行特征金字塔处理,具体可以是采用3 层的特征金字塔进行处理,以满足实际应用场景下对所生成的特征图的精度要 求,和生成特征图的速度要求,进而生成不同尺度的特征图以及不同尺寸的目标 对象。
步骤S506,调用预设共享检测头,检测得到与不同尺度的特征图所对应的 目标对象的类别信息。
具体地,针对每个尺度的特征图的目标对象,需要调用共享检测头进检测, 以检测得到不同目标对象的类别信息。其中,共享检测头的作用在于进行类别信 息的获取处理,在本实施例中,具体可以采用5个共享检测头进行类别信息检 测。
步骤S508,根据预设动态卷积控制头和不同尺度的特征图,确定得到各特 征图对应的条件卷积参数,并将条件卷积参数确定为全卷积分割头的网络参数。
具体地,通过调用预设动态卷积控制头,以通过预设动态卷积控制头获取得 到不同尺度的特征图对应的条件卷积参数,其中,条件卷积参数为表示为通过预 设动态卷积控制头输入的特征图的向量参数。
进一步地,通过将所确定得到的条件卷及参数,确定为全卷积分割头的网络 参数。其中,全卷积分割头即为Mask FCN Head,用于实现卷积操作,得到所有 前景实例的掩膜信息。
步骤S510,获取不同目标对象对应的相对位置坐标信息,并将各相对位置 坐标信息堆叠至对应尺度的特征图上,得到全卷积分割头的输入数据。
具体地,通过获取不同目标对象对应的相对位置坐标信息,并将各相对位置 坐标信息堆叠至对应尺度的特征图上,举例来说,以对于每个目标对象对应的中 心位置为(x,y)为例,通过提取动态卷积控制头所输出的(x,y)位置的向量作为全 卷积分割头的网络参数,继而将每个目标对象所在的具体位置的坐标减去该中 心位置(x,y),可得到相应的相对位置坐标,通过将相对位置坐标与对应尺度的特 征图进行叠加,得到全卷积分割头的输入数据。
步骤S512,基于全卷积分割头和对应的网络参数,对输入数据进行卷积处 理,生成得到原始图像的前景掩膜。
具体地,利用全卷积分割头以及对应网络函数,对输入数据进行卷积处理, 以得到原始图像的前景掩膜。其中,采用基于条件卷积的实例分割算法提取得到 的前景掩膜包括0和255两种值,分别对应黑色和白色,同时黑色对应背景区 域,白色则对应前景区域。
在一个实施例中,对于基于条件卷积的实例分割算法的训练过程,具体如下:
采用检测损失函数和分割损失函数,对基于条件卷积的实例分割算法进行 训练。
其中,检测损失函数为Lfcos,采用FCOS算法(Fully Convolutional One-StageObject Detection,即一阶全卷积目标检测算法)中的已有检测损失函数,而分割 损失函数为Lmask则由不同尺度的特征图和对应的动态卷积参数按如下公式(4) 进行解码掩膜计算得到:
Figure BDA0003328417650000141
其中,Lmask为分割损失函数,θx,y为动态卷积控制头预测得到的动态卷积 参数,
Figure BDA0003328417650000142
中的Npos为进行实例分割得到目标对象数量,Ldice为dice(相似度) 损失函数,
Figure BDA0003328417650000143
为在基础卷积网络输出Fx,y的基础上叠加了位置编码通道的特征 图,
Figure BDA0003328417650000144
表示根据动态卷积参数对全卷积分割头(即Mask FCN Head)的网络参数进行幅值后,利用赋值后的全卷积分割头进行卷积处理,
Figure BDA0003328417650000145
则为预先进行人工标注得到的目标对象,可以理解为实际目标对象。
本实施例中,通过对原始图像进行特征提取,生成对应图像特征并基于图像 特征进行特征金字塔处理,以生成不同尺度的特征图和目标对象。进一步通过调 用预设共享检测头,检测得到与不同尺度的特征图所对应的目标对象的类别信 息,以及根据预设动态卷积控制头和不同尺度的特征图,确定得到各特征图对应 的条件卷积参数,并将条件卷积参数确定为全卷积分割头的网络参数。进一步获 取不同目标对象对应的相对位置坐标信息,并将各相对位置坐标信息堆叠至对 应尺度的特征图上,得到全卷积分割头的输入数据,进而基于全卷积分割头和对 应的网络参数,对输入数据进行卷积处理,生成得到原始图像的前景掩膜。实现 了对原始图像的特征提取和卷积处理,得到所需的前景掩膜,以便后续进一步对 前景掩膜进行处理,生成得到进行目标区域获取所需的三色图,而无需人工进行三色图的标注,减少标注失误或者错漏的情况,减少三色图生成过程中存在的误 差数据,减少目标区域获取过程中的重复操作,进一步提升图像处理、获取的工 作效率。
在一个实施例中,如图6所示,获得原始图像的前景不透明度通道数据的 步骤,即对三色图和原始图像,进行编码和解码处理,获得原始图像的前景不透 明度通道数据的步骤,具体包括:
步骤S602,将原始图像划分成为已知区域和未知区域,并将与所已知区域 对应的特征流划分成第一特征块。
具体地,通过将原始图像划分为已知区域和未知区域,并采用3x3的patch (块)对已知区域进行划分,将与已知区域对应的特征流划分为第一特征块。
步骤S604,将第一特征块转换成第一卷积核,并根据第一卷积核对未知区 域进行卷积处理和激活处理,得到各已知区域对相应未知区域进行指导的注意 力系数。
具体地,通过将第一特征块转换成第一卷积核,并根据第一卷积核,对未知 区域进行卷积处理以及激活处理(即sigmod处理),得到所有已知区域块(三色 图的0和255部分)对前背景交界区域(三色图的128部分)的相关系数,即确 定为各已知区域对相应未知区域进行指导的注意力系数。
步骤S606,将与三色图对应的特征流划分成第二特征块,并将第二特征块 转换成第二卷积核。
具体地,针对与三色图对应的特征流,同样需要进行特征划分,划分得到对 应的第二特征块,并将第二特征块转换成第二卷积核。其中第二卷积核用于实现 对特征流的反卷积处理。
步骤S608,根据注意力系数和第二卷积核,对三色图对应的特征流进行反 卷积处理,以将已知区域的三色图对应的特征流传递至未知区域对应的特征块 上,得到增强后的未知区域。
具体地,通过获取已知区域对相应未知区域进行指导的注意力系数,并根据 注意力系数以及第二卷积核,对对三色图对应的特征流进行反卷积处理,将已知 区域的三色图对应的特征流传递至未知区域对应的特征块上,即实现未知区域 在三色图上进行重现,并将与原来的三色图的特征流进行融合,进而得到增强后 的未知区域。其中,在将未知区域与原来的三色图的特征流进行融合,得到增强 后的未知区域后,可继续向下传递训练,即将进一步实现对其他未知区域的识别 和处理。
步骤S610,根据三色图的已知区域的特征流,预测得到增强后的未知区域 对应的前景不透明度通道数据。
具体地,通过将具有相似外观的已知区域的特征流传递至未知区域上,得到 增强后的未知区域后,进一步根据三色图的已知区域的特征流,对增强后的未知 区域进行前景不透明度通道数据的预测和推断,最后得知三色图中前背景交界 区域的不透明通道数据,即alpha通道值。
在一个实施例中,基于条件卷积的实例分割算法所提取的原始图像的前景 掩膜,不仅可以作为携带引导性自注意力机制的抠图算法网络的输入,还可以添 加至引导性自注意力机制中,以使得抠图算法网络更关注边界区域,忽视分割掩 膜以外的冗余信息,并引导对于前景不透明通道(即alpha通道)的学习。
本实施例中,通过将原始图像划分成为已知区域和未知区域,并将与所已知 区域对应的特征流划分成第一特征块,并将第一特征块转换成第一卷积核,根据 第一卷积核对未知区域进行卷积处理和激活处理,得到各已知区域对相应未知 区域进行指导的注意力系数。通过将与三色图对应的特征流划分成第二特征块, 并将第二特征块转换成第二卷积核,进而根据注意力系数和第二卷积核,对三色 图对应的特征流进行反卷积处理,以将已知区域的三色图对应的特征流传递至 未知区域对应的特征块上,得到增强后的未知区域。最终根据三色图的已知区域 的特征流,预测得到增强后的未知区域对应的前景不透明度通道数据。实现了可 直接对原始图像和三色图进行特征划分、卷积以及反卷积处理,生成得到前景不 透明度通道数据,以便后续根据前景不透明通道数据以及原始图像确定出所要 关注的目标区域,使得最后确定出的目标区域的精准确度更加满足实际需求,避 免重复进行图像处理操作,进一步提升图像处理、获取的工作效率。
在一个实施例中,提供了一种图像的目标区域获取方法,该方法具体包括以 下步骤:
1)获取原始图像,并对原始图像进行特征提取,生成对应图像特征。
2)基于图像特征进行特征金字塔处理,生成不同尺度的特征图和目标对象。
3)调用预设共享检测头,检测得到与不同尺度的特征图所对应的目标对象 的类别信息。
4)根据预设动态卷积控制头和不同尺度的特征图,确定得到各特征图对应 的条件卷积参数,并将条件卷积参数确定为全卷积分割头的网络参数。
5)获取不同目标对象对应的相对位置坐标信息,并将各相对位置坐标信息 堆叠至对应尺度的特征图上,得到全卷积分割头的输入数据。
6)基于全卷积分割头和对应的网络参数,对输入数据进行卷积处理,生成 得到原始图像的前景掩膜。
7)对前景掩膜进行膨胀处理,以对前景掩膜的边缘区域进行生长,得到处 理后的第一掩膜数据。
8)对前景掩膜进行腐蚀处理,以对前景掩膜的边缘区域进行消融,得到处 理后的第二掩膜数据。
9)从第一掩膜数据和第二掩膜数据中,筛选得到像素点值符合前背景交界 条件的第一类像素点。
10)根据第一类像素点,确定得到对应的前背景交界区域。
11)获取与前背景交界区域对应的第一预设区域赋值数据,与前景掩膜的背 景区域对应的第二预设区域赋值数据,以及与前景掩膜的前景区域对应的第三 预设区域赋值数据。
12)从将第一掩膜数据和第二掩膜数据中,筛选得到像素点值符合背景条件 的第二类像素点,以及像素点值符合前景条件的第三类像素点。
13)根据第一预设区域赋值数据对第一类像素点进行赋值,根据第二预设区 域赋值数据对第一类像素点以及第二类像素点进行赋值,以及根据第三预设区 域赋值数据对第一类像素点以及第二类像素点进行赋值,生成得到原始图像的 三色图。
14)将原始图像划分成为已知区域和未知区域,并将与所已知区域对应的特 征流划分成第一特征块。
15)将第一特征块转换成第一卷积核,并根据第一卷积核对未知区域进行卷 积处理和激活处理,得到各已知区域对相应未知区域进行指导的注意力系数。
16)将与三色图对应的特征流划分成第二特征块,并将第二特征块转换成第 二卷积核。
17)根据注意力系数和第二卷积核,对三色图对应的特征流进行反卷积处理, 以将已知区域的三色图对应的特征流传递至未知区域对应的特征块上,得到增 强后的未知区域。
18)根据三色图的已知区域的特征流,预测得到增强后的未知区域对应的前 景不透明度通道数据。
19)基于前景不透明度通道数据和原始图像,确定得到所需的目标区域。
上述图像的目标区域获取方法,通过获取原始图像,对原始图像进行特征提 取和卷积处理,以提取原始图像的前景掩膜,进而对前景掩膜进行膨胀腐蚀处理, 确定前景掩摸中的前背景交界区域。通过对前背景交界区域和前景掩膜的各像 素点分别赋值各类区域对应的像素点值,可直接得到原始图像的三色图,而无需 人工手动提前进行标注,减少标注失误或者错漏的情况,减少三色图生成过程中 存在的误差数据。通过对三色图和原始图像,进行编码和解码处理,可生成得到 原始图像的前景不透明度通道数据,进而可在减少人工标注导致的误差数据的 基础上,基于前景不透明度通道数据和原始图像,确定得到所需的目标区域,使 得最后确定出的目标区域的精准确度更加满足实际需求,避免重复进行图像处 理操作,进一步提升图像处理、获取的工作效率。
应该理解的是,虽然上述实施例涉及的各流程图中的各个步骤按照箭头的 指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本 文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其 它的顺序执行。而且,上述实施例涉及的各流程图中的至少一部分步骤可以包括 多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而 是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行, 而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交 替地执行。
在一个实施例中,如图7所示,提供了一种图像的目标区域获取装置,该装 置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分, 该装置具体包括:前景掩膜提取模块702、前背景交界区域确定模块704、三色 图生成模块706、前景不透明度通道数据获取模块708以及目标区域确定模块 710,其中:
前景掩膜提取模块702,用于获取原始图像,并对原始图像进行特征提取和 卷积处理,提取原始图像的前景掩膜。
前背景交界区域确定模块704,用于对前景掩膜进行膨胀腐蚀处理,确定前 景掩摸中的前背景交界区域。
三色图生成模块706,用于根据各类区域对应的像素点值,对前背景交界区 域和前景掩膜的各像素点进行赋值,得到原始图像的三色图,各类区域对应的像 素点值不同。
前景不透明度通道数据获取模块708,用于对三色图和原始图像,进行编码 和解码处理,获得原始图像的前景不透明度通道数据。
目标区域确定模块710,用于基于前景不透明度通道数据和原始图像,确定 得到所需的目标区域。
上述图像的目标区域获取装置中,通过获取原始图像,对原始图像进行特征 提取和卷积处理,以提取原始图像的前景掩膜,进而对前景掩膜进行膨胀腐蚀处 理,确定前景掩摸中的前背景交界区域。通过根据各类区域对应的像素点值,对 前背景交界区域和前景掩膜的各像素点进行赋值,可直接得到原始图像的三色 图,而无需人工手动提前进行标注,减少标注失误或者错漏的情况,减少三色图 生成过程中存在的误差数据。通过对三色图和原始图像,进行编码和解码处理, 可生成得到原始图像的前景不透明度通道数据,进而可在减少人工标注导致的 误差数据的基础上,基于前景不透明度通道数据和原始图像,确定得到所需的目 标区域,使得最后确定出的目标区域的精准确度更加满足实际需求,避免重复进 行图像处理操作,进一步提升图像处理、获取的工作效率。
在一个实施例中,前背景交界区域确定模块还用于:
对前景掩膜进行膨胀处理,以对前景掩膜的边缘区域进行生长,得到处理后 的第一掩膜数据;对前景掩膜进行腐蚀处理,以对前景掩膜的边缘区域进行消融, 得到处理后的第二掩膜数据;根据第一掩膜数据和第二掩膜数据,确定得到对应 的前背景交界区域。
在一个实施例中,前背景交界区域确定模块还用于:
从第一掩膜数据和第二掩膜数据中,筛选得到像素点值符合前背景交界条 件的第一类像素点;根据第一类像素点,确定得到对应的前背景交界区域。
在一个实施例中,三色图生成模块,还用于:
获取与前背景交界区域对应的第一预设区域赋值数据,与前景掩膜的背景 区域对应的第二预设区域赋值数据,以及与前景掩膜的前景区域对应的第三预 设区域赋值数据;从将第一掩膜数据和第二掩膜数据中,筛选得到像素点值符合 背景条件的第二类像素点,以及像素点值符合前景条件的第三类像素点;根据第 一预设区域赋值数据对第一类像素点进行赋值,根据第二预设区域赋值数据对 第一类像素点以及第二类像素点进行赋值,以及根据第三预设区域赋值数据对 第一类像素点以及第二类像素点进行赋值,生成得到原始图像的三色图。
在一个实施例中,前景掩膜提取模块还用于:
对原始图像进行特征提取,生成对应图像特征;基于图像特征进行特征金字 塔处理,生成不同尺度的特征图和目标对象;调用预设共享检测头,检测得到与 不同尺度的特征图所对应的目标对象的类别信息;根据预设动态卷积控制头和 不同尺度的特征图,确定得到各特征图对应的条件卷积参数,并将条件卷积参数 确定为全卷积分割头的网络参数;获取不同目标对象对应的相对位置坐标信息, 并将各相对位置坐标信息堆叠至对应尺度的特征图上,得到全卷积分割头的输 入数据;基于全卷积分割头和对应的网络参数,对输入数据进行卷积处理,生成 得到原始图像的前景掩膜。
在一个实施例中,前景不透明度通道数据获取模块,还用于:
将原始图像划分成为已知区域和未知区域,并将与所已知区域对应的特征 流划分成第一特征块;将第一特征块转换成第一卷积核,并根据第一卷积核对未 知区域进行卷积处理和激活处理,得到各已知区域对相应未知区域进行指导的 注意力系数;将与三色图对应的特征流划分成第二特征块,并将第二特征块转换 成第二卷积核;根据注意力系数和第二卷积核,对三色图对应的特征流进行反卷 积处理,以将已知区域的三色图对应的特征流传递至未知区域对应的特征块上, 得到增强后的未知区域;根据三色图的已知区域的特征流,预测得到增强后的未 知区域对应的前景不透明度通道数据。
关于图像的目标区域获取装置的具体限定可以参见上文中对于图像的目标 区域获取方法的限定,在此不再赘述。上述图像的目标区域获取装置中的各个模 块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌 于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中 的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,如图8所示,提供了一种图像的目标区域获取系统,参照 图8可知,该图像的目标区域获取系统具体包括实例分割模块802、三色图生成 模块804以及抠图模块806,其中:
针对实例分割模块802:参照图8可知,实例分割模块通过对原始图像进行 特征提取和卷积处理,提取得到原始图像的前景掩膜。具体来说,实例分割模块 是采用基于条件卷积的实例分割算法实现前景掩膜的提取,基于条件卷积的实 例分割算法设置有如图8所示的包括C3、C4以及C5的3层特征金字塔,通过 将图像特征进行特征金字塔处理,生成不同尺度的特征图,以及不同尺寸的目标 对象,进一步通过如图8中所示的P3至P7对应的5个共享检测头,检测得到 不同尺度的特征图对应的目标对象的类别信息,并进一步对类别信息进行分类, 确定不同目标对应所属的类别。
进一步地,针对不同尺度的特征图,还需调用动态卷积控制头,通过动态卷 积控制头获取得到不同尺度的特征图对应的条件卷积参数,进而将获取得到的 条件卷积参数确定为全卷积分割头的网络参数。
其中,针对如图8所示的Fmask,则是通过P3经过卷积处理得到,主要是 将P3的256通道下降到8个通道,得到降维后的特征图。通过获取不同目标对 象对应的相对位置坐标信息,并将相对位置坐标信息和Fmask(降维后的特征 图)进行堆叠,得到如图8所示的全卷积分割头的输入数据。进一步基于全卷积 分割头和对应的网络参数,对输入数据进行卷积处理,生成得到原始图像的前景 掩膜。
针对三色图生成模块804:实例分割模块802中采用基于条件卷积的实例分 割算法提取得到的前景掩膜包括0和255两种值,分别对应黑色和白色,同时 黑色对应背景区域,白色则对应前景区域,但得到的分割结果较为粗糙,导致所 确定出的目标区域的精确度较为低下,进而需要通过三色图生成模块804实现 对得到的前景掩膜进行膨胀处理和腐蚀处理,以确定前背景交接区域。
具体来说,参照图8可知,通过对前景掩膜进行膨胀处理,以对前景掩膜的 边缘区域进行生长,将边缘区域的像素点的像素点值设置为255,得到处理后的 第一掩膜数据。其次,对前景掩膜进行腐蚀处理,以对前景掩膜的边缘区域进行 消融,将边缘区域的像素点的像素点值设置为0,得到处理后的第二掩膜数据。 进而根据第一掩膜数据和第二掩膜数据,确定得到前背景交界区域。其中,前背 景交界区域所包括的像素点在第一掩膜数据中的像素点值为255,而前背景交界 区域所包括的像素点在第二掩膜数据中的像素点值为0。
进一步地,在确定出前背景交界区域后,根据各类区域对应的像素点值,对 前背景交界区域和前景掩膜的各像素点进行赋值,得到原始图像的三色图。
针对抠图模块806:具体采用GCA-Matting算法(即携带guided contextualattention(引导性自注意力机制)的抠图算法),即GCA Net,实现对三色图和原 始图像的编码、解码处理,以输出得到原始图像的前景不透明度通道数据。
具体地,GCA Net的网络主体部分为UNet(深度学习分割网络)结构,通 过将三色图和原始图像作为UNet结构的输入数据,一次经过编码和解码,最后 输出得到原始图像的前景不透明度通道数据(即alpha通道数据)。其中,编解 码部分增加跳跃连接进行通道拼接,融合多尺度信息从而提高精度,在引导性自 注意力机制模块中低层次的特征被用于alpha特征传导的指引,并将具有相似外 观的已知区域特征传导到未知区域上,从而实现从三色图的已知区域推断前背 景交界区域的alpha通道值。
在一个实施例中,如图9,提供了一种图像的目标区域获取系统的抠图模块, 参照图9可知,抠图模块的实现,具体包括原始图像处理部分和三色图处理部 分,其中:
针对第一部分,即原始图像处理部分:将输入的原始图像90划分成为已知 区域901和未知区域902,并与所已知区域对应的特征流划分成第一特征块,将 第一特征块转换成第一卷积核903,根据第一卷积核903对未知区域902进行卷 积处理和激活处理,得到各已知区域对相应未知区域进行指导的注意力系数904。
针对第二部分,即三色图处理部分:首先将与三色图92对应的特征流划分 成第二特征块,并将第二特征块转换成第二卷积核920,根据注意力系数904和 第二卷积核920,对三色图92对应的特征流进行反卷积处理,以将已知区域的 三色图对应的特征流传递至未知区域对应的特征块上,得到增强后的未知区域 922。进而可根据三色图的已知区域的特征流,预测得到增强后的未知区域对应 的前景不透明度通道数据94,并输出前景不透明度通道数据。
上述图像的目标区域获取系统中,无需人工手动提前进行标注,可直接得到 原始图像的三色图,减少标注失误或者错漏的情况,减少三色图生成过程中存在 的误差数据,而基于前景不透明度通道数据和原始图像,确定得到所需的目标区 域,使得最后确定出的目标区域的精准确度更加满足实际需求,避免重复进行图 像处理操作,进一步提升图像中目标区域的获取操作的工作效率。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其 内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、 存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该 计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存 储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作 系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储前景掩膜、 三色图、前景不透明度通道数据以及目标区域等数据。该计算机设备的网络接口 用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一 种图像的目标区域获取方法。
本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关 的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定, 具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件, 或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器 中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的 步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该 计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序 产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质 中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行 该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程, 是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非 易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法 的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库 或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易 失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、 光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器 (Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、 石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式, 比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机 存取存储器(DynamicRandom Access Memory,DRAM)等。本申请所提供的各 实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。 非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供 的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字 信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实 施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的 组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并 不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技 术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些 都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种图像的目标区域获取方法,其特征在于,所述方法包括:
获取原始图像,并对所述原始图像进行特征提取和卷积处理,提取所述原始图像的前景掩膜;
对所述前景掩膜进行膨胀腐蚀处理,确定所述前景掩摸中的前背景交界区域;
根据各类区域对应的像素点值,对所述前背景交界区域和所述前景掩膜的各像素点进行赋值,得到所述原始图像的三色图,其中所述各类区域对应的像素点值不同;
对所述三色图和所述原始图像,进行编码和解码处理,获得所述原始图像的前景不透明度通道数据;
基于所述前景不透明度通道数据和所述原始图像,确定得到所需的目标区域。
2.根据权利要求1所述的方法,其特征在于,所述对所述前景掩膜进行膨胀腐蚀处理,确定所述前景掩膜中的前背景交界区域,包括:
对所述前景掩膜进行膨胀处理,以对所述前景掩膜的边缘区域进行生长,得到处理后的第一掩膜数据;
对所述前景掩膜进行腐蚀处理,以对所述前景掩膜的边缘区域进行消融,得到处理后的第二掩膜数据;
根据所述第一掩膜数据和所述第二掩膜数据,确定得到对应的前背景交界区域。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一掩膜数据和所述第二掩膜数据,确定得到对应的前背景交界区域,包括:
从所述第一掩膜数据和所述第二掩膜数据中,筛选得到所述像素点值符合前背景交界条件的第一类像素点;
根据所述第一类像素点,确定得到对应的前背景交界区域。
4.根据权利要求3所述的方法,其特征在于,所述像素点值包括第一预设区域赋值数据、第二预设区域赋值数据以及第三预设区域赋值数据;所述根据各类区域对应的像素点值,对所述前背景交界区域和所述前景掩膜的各像素点进行赋值,得到所述原始图像的三色图,包括:
获取与所述前背景交界区域对应的第一预设区域赋值数据,与所述前景掩膜的背景区域对应的第二预设区域赋值数据,以及与所述前景掩膜的前景区域对应的第三预设区域赋值数据;
从将所述第一掩膜数据和所述第二掩膜数据中,筛选得到像素点值符合背景条件的第二类像素点,以及像素点值符合前景条件的第三类像素点;
根据所述第一预设区域赋值数据对所述第一类像素点进行赋值,根据所述第二预设区域赋值数据对所述第一类像素点以及第二类像素点进行赋值,以及根据所述第三预设区域赋值数据对所述第一类像素点以及第二类像素点进行赋值,生成得到所述原始图像的三色图。
5.根据权利要求1至4任意一项所述的方法,其特征在于,对所述原始图像进行特征提取和卷积处理,提取所述原始图像的前景掩膜,包括:
对所述原始图像进行特征提取,生成对应图像特征;
基于所述图像特征进行特征金字塔处理,生成不同尺度的特征图和目标对象;
调用预设共享检测头,检测得到与不同尺度的特征图所对应的目标对象的类别信息;
根据预设动态卷积控制头和不同尺度的特征图,确定得到各所述特征图对应的条件卷积参数,并将所述条件卷积参数确定为全卷积分割头的网络参数;
获取不同目标对象对应的相对位置坐标信息,并将各所述相对位置坐标信息堆叠至对应尺度的特征图上,得到全卷积分割头的输入数据;
基于所述全卷积分割头和对应的网络参数,对所述输入数据进行卷积处理,生成得到所述原始图像的前景掩膜。
6.根据权利要求1至4任意一项所述的方法,其特征在于,所述对所述三色图和所述原始图像,进行编码和解码处理,获得所述原始图像的前景不透明度通道数据,包括:
将所述原始图像划分成为已知区域和未知区域,并将与所已知区域对应的特征流划分成第一特征块;
将所述第一特征块转换成第一卷积核,并根据所述第一卷积核对所述未知区域进行卷积处理和激活处理,得到各所述已知区域对相应未知区域进行指导的注意力系数;
将与所述三色图对应的特征流划分成第二特征块,并将所述第二特征块转换成第二卷积核;
根据所述注意力系数和所述第二卷积核,对所述三色图对应的特征流进行反卷积处理,以将所述已知区域的三色图对应的特征流传递至所述未知区域对应的特征块上,得到增强后的未知区域;
根据所述三色图的已知区域的特征流,预测得到增强后的所述未知区域对应的前景不透明度通道数据。
7.一种图像的目标区域获取装置,其特征在于,所述装置包括:
前景掩膜提取模块,用于获取原始图像,并对所述原始图像进行特征提取和卷积处理,提取所述原始图像的前景掩膜;
前背景交界区域确定模块,用于对所述前景掩膜进行膨胀腐蚀处理,确定所述前景掩摸中的前背景交界区域;
三色图生成模块,用于根据各类区域对应的像素点值,对所述前背景交界区域和所述前景掩膜的各像素点进行赋值,得到所述原始图像的三色图,其中所述各类区域对应的像素点值不同;
前景不透明度通道数据获取模块,用于对所述三色图和所述原始图像,进行编码和解码处理,获得所述原始图像的前景不透明度通道数据;
目标区域确定模块,用于基于所述前景不透明度通道数据和所述原始图像,确定得到所需的目标区域。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
9.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6任一项所述的方法的步骤。
CN202111272694.0A 2021-10-29 2021-10-29 图像的目标区域获取方法、装置、设备、介质和程序产品 Pending CN114299101A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111272694.0A CN114299101A (zh) 2021-10-29 2021-10-29 图像的目标区域获取方法、装置、设备、介质和程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111272694.0A CN114299101A (zh) 2021-10-29 2021-10-29 图像的目标区域获取方法、装置、设备、介质和程序产品

Publications (1)

Publication Number Publication Date
CN114299101A true CN114299101A (zh) 2022-04-08

Family

ID=80964278

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111272694.0A Pending CN114299101A (zh) 2021-10-29 2021-10-29 图像的目标区域获取方法、装置、设备、介质和程序产品

Country Status (1)

Country Link
CN (1) CN114299101A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116013095A (zh) * 2023-03-24 2023-04-25 中国科学技术大学先进技术研究院 红绿灯时间动态控制方法、装置、设备及可读存储介质
CN117218456A (zh) * 2023-11-07 2023-12-12 杭州灵西机器人智能科技有限公司 一种图像标注方法、系统、电子设备和存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116013095A (zh) * 2023-03-24 2023-04-25 中国科学技术大学先进技术研究院 红绿灯时间动态控制方法、装置、设备及可读存储介质
CN117218456A (zh) * 2023-11-07 2023-12-12 杭州灵西机器人智能科技有限公司 一种图像标注方法、系统、电子设备和存储介质
CN117218456B (zh) * 2023-11-07 2024-02-02 杭州灵西机器人智能科技有限公司 一种图像标注方法、系统、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN110443842B (zh) 基于视角融合的深度图预测方法
Guo et al. Scene-driven multitask parallel attention network for building extraction in high-resolution remote sensing images
CN109816012B (zh) 一种融合上下文信息的多尺度目标检测方法
CN112766244B (zh) 目标对象检测方法、装置、计算机设备和存储介质
CN107945204B (zh) 一种基于生成对抗网络的像素级人像抠图方法
CN111814794B (zh) 文本检测方法、装置、电子设备及存储介质
CN110110755B (zh) 基于ptgan区域差距与多重分支的行人重识别检测方法及装置
CN114549913B (zh) 一种语义分割方法、装置、计算机设备和存储介质
CN114299101A (zh) 图像的目标区域获取方法、装置、设备、介质和程序产品
CN111860138A (zh) 基于全融合网络的三维点云语义分割方法及系统
CN111768415A (zh) 一种无量化池化的图像实例分割方法
CN110659664A (zh) 一种基于ssd的高精度识别小物体的方法
CN112085835B (zh) 三维卡通人脸生成方法、装置、电子设备及存储介质
CN117078790B (zh) 图像生成方法、装置、计算机设备和存储介质
CN111723660A (zh) 一种用于长形地面目标检测网络的检测方法
CN112884758A (zh) 一种基于风格迁移方法的缺陷绝缘子样本生成方法及系统
CN114419406A (zh) 图像变化检测方法、训练方法、装置和计算机设备
CN114519819B (zh) 一种基于全局上下文感知的遥感图像目标检测方法
JP2023131117A (ja) 結合感知モデルのトレーニング、結合感知方法、装置、機器および媒体
CN115713632A (zh) 一种基于多尺度注意力机制的特征提取方法及装置
CN116596966A (zh) 一种基于注意力和特征融合的分割与跟踪方法
Li et al. Self-supervised coarse-to-fine monocular depth estimation using a lightweight attention module
CN112990356B (zh) 一种视频实例分割系统和方法
CN111914809A (zh) 目标对象定位方法、图像处理方法、装置和计算机设备
Yu et al. MagConv: Mask-guided convolution for image inpainting

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination