CN112330709A - 一种前景图像提取方法、装置、可读存储介质及终端设备 - Google Patents
一种前景图像提取方法、装置、可读存储介质及终端设备 Download PDFInfo
- Publication number
- CN112330709A CN112330709A CN202011181373.5A CN202011181373A CN112330709A CN 112330709 A CN112330709 A CN 112330709A CN 202011181373 A CN202011181373 A CN 202011181373A CN 112330709 A CN112330709 A CN 112330709A
- Authority
- CN
- China
- Prior art keywords
- image
- foreground
- foreground image
- training
- depth
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 106
- 238000012549 training Methods 0.000 claims abstract description 127
- 238000012545 processing Methods 0.000 claims abstract description 36
- 230000001360 synchronised effect Effects 0.000 claims abstract description 23
- 238000003062 neural network model Methods 0.000 claims abstract description 11
- 238000004590 computer program Methods 0.000 claims description 20
- 238000013507 mapping Methods 0.000 claims description 17
- 238000013140 knowledge distillation Methods 0.000 claims description 13
- 230000004927 fusion Effects 0.000 claims description 8
- 238000000034 method Methods 0.000 abstract description 46
- 230000008569 process Effects 0.000 description 24
- 230000006870 function Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000004044 response Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 239000003086 colorant Substances 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration by the use of more than one image, e.g. averaging, subtraction
-
- G06T5/70—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30204—Marker
Abstract
本申请属于数字图像处理领域,尤其涉及一种前景图像提取方法、装置、计算机可读存储介质及终端设备。所述方法包括:获取包含前景的深度图像,以及与所述深度图像基于时间戳同步的彩色图像;将所述深度图像和所述彩色图像融合生成RGBD图像;使用前景图像提取模型对所述RGBD图像进行处理,提取所述RGBD图像中的前景图像;所述前景图像提取模型为由预设的训练数据集训练得到的神经网络模型。通过本申请,将深度图像和彩色图像融合生成RGBD图像,即在彩色信息的基础上还增加了对于深度信息的考虑,而前景图像提取模型能够结合这两种信息进行前景图像提取,即使当前景和后景色差较小时,也可以根据深度信息提取到准确的前景图像。
Description
技术领域
本申请属于数字图像处理领域,尤其涉及一种前景图像提取方法、装置、计算机可读存储介质及终端设备。
背景技术
现有技术在进行前景图像提取时,一般是基于前景与背景之间的色差来实现对两者的区分,但当两者颜色相近,色差较小时,则难以对前景与背景进行有效区分,无法提取到准确的前景图像。
发明内容
有鉴于此,本申请实施例提供了一种前景图像提取方法、装置、计算机可读存储介质及终端设备,以解决现有的前景图像提取方法在前景与背景颜色相近,色差较小时,难以对两者进行有效区分,无法提取到准确的前景图像的问题。
本申请实施例的第一方面提供了一种前景图像提取方法,可以包括:
获取包含前景的深度图像,以及与所述深度图像基于时间戳同步的彩色图像;
将所述深度图像和所述彩色图像融合生成RGBD图像;
使用前景图像提取模型对所述RGBD图像进行处理,提取所述RGBD图像中的前景图像;所述前景图像提取模型为由预设的训练数据集训练得到的神经网络模型。
进一步地,所述获取包含前景的深度图像,以及与所述深度图像基于时间戳同步的彩色图像,可以包括:
采集包含前景的深度图像序列帧和彩色图像序列帧;
对所述深度图像序列帧和所述彩色图像序列帧进行时间戳标记;
从所述深度图像序列帧中提取所述深度图像,并从所述彩色图像序列帧中提取与所述深度图像基于时间戳同步的所述彩色图像。
进一步地,所述将所述深度图像和所述彩色图像融合生成RGBD图像,可以包括:
对齐所述深度图像和所述彩色图像,建立所述深度图像和所述彩色图像之间的像素点映射关系;
根据所述像素点映射关系对所述深度图像的像素点进行插值处理,得到插值后的深度图像;
根据所述像素点映射关系将所述插值后的深度图像和所述彩色图像逐像素进行融合,生成所述RGBD图像。
进一步地,在使用预训练的前景图像提取模型对所述RGBD图像进行处理,提取所述RGBD图像中的前景图像之前,还可以包括:
构建所述训练数据集;所述训练数据集中包括若干训练样本,每个训练样本均包括一帧RGBD输入图像和一帧与该RGBD输入图像对应的预期输出前景图像;
使用所述训练数据集对初始的前景图像提取模型进行训练,直至满足预设的训练条件,以得到已训练的前景图像提取模型。
进一步地,所述使用所述训练数据集对初始的前景图像提取模型进行训练,可以包括:
针对所述训练数据集中的每个训练样本,使用所述前景图像提取模型对该训练样本中的RGBD输入图像进行处理,得到实际输出前景图像;
根据该训练样本中的预期输出前景图像和所述实际输出前景图像计算训练损失值;
根据所述训练损失值对所述前景图像提取模型的模型参数进行调整。
进一步地,所述根据该训练样本中的预期输出前景图像和所述实际输出前景图像计算训练损失值,可以包括:
计算所述预期输出前景图像和所述实际输出前景图像之间的平方误差,并将该平方误差确定为所述训练损失值。
进一步地,在得到已训练的前景图像提取模型之后,还可以包括:
对所述前景图像提取模型进行知识蒸馏,得到知识蒸馏后的前景图像提取模型。
本申请实施例的第二方面提供了一种前景图像提取装置,可以包括:
图像获取模块,用于获取包含前景的深度图像,以及与所述深度图像基于时间戳同步的彩色图像;
图像融合模块,用于将所述深度图像和所述彩色图像融合生成RGBD图像;
图像处理模块,用于使用前景图像提取模型对所述RGBD图像进行处理,提取所述RGBD图像中的前景图像;所述前景图像提取模型为由预设的训练数据集训练得到的神经网络模型。
进一步地,所述图像获取模块可以包括:
图像采集单元,用于采集包含前景的深度图像序列帧和彩色图像序列帧;
标记单元,用于对所述深度图像序列帧和所述彩色图像序列帧进行时间戳标记;
图像提取单元,用于从所述深度图像序列帧中提取所述深度图像,并从所述彩色图像序列帧中提取与所述深度图像基于时间戳同步的所述彩色图像。
进一步地,所述图像融合模块可以包括:
图像对齐单元,用于对齐所述深度图像和所述彩色图像,建立所述深度图像和所述彩色图像之间的像素点映射关系;
插值处理单元,用于根据所述像素点映射关系对所述深度图像的像素点进行插值处理,得到插值后的深度图像;
图像融合单元,用于根据所述像素点映射关系将所述插值后的深度图像和所述彩色图像逐像素进行融合,生成所述RGBD图像。
进一步地,所述前景图像提取装置还可以包括:
训练数据集构建模块,用于构建所述训练数据集;所述训练数据集中包括若干训练样本,每个训练样本均包括一帧RGBD输入图像和一帧与该RGBD输入图像对应的预期输出前景图像;
模型训练模块,用于使用所述训练数据集对初始的前景图像提取模型进行训练,直至满足预设的训练条件,以得到已训练的前景图像提取模型。
进一步地,所述模型训练模块可以包括:
样本处理单元,用于针对所述训练数据集中的每个训练样本,使用所述前景图像提取模型对该训练样本中的RGBD输入图像进行处理,得到实际输出前景图像;
训练损失计算单元,用于根据该训练样本中的预期输出前景图像和所述实际输出前景图像计算训练损失值;
模型参数调整单元,用于根据所述训练损失值对所述前景图像提取模型的模型参数进行调整。
进一步地,所述训练损失计算单元具体用于计算所述预期输出前景图像和所述实际输出前景图像之间的平方误差,并将该平方误差确定为所述训练损失值。
进一步地,所述前景图像提取装置还可以包括:
知识蒸馏模块,用于对所述前景图像提取模型进行知识蒸馏,得到知识蒸馏后的前景图像提取模型。
本申请实施例的第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述任一种前景图像提取方法的步骤。
本申请实施例的第四方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一种前景图像提取方法的步骤。
本申请实施例的第五方面提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行上述任一种前景图像提取方法的步骤。
本申请实施例与现有技术相比存在的有益效果是:本申请实施例获取包含前景的深度图像,以及与所述深度图像基于时间戳同步的彩色图像;将所述深度图像和所述彩色图像融合生成RGBD图像;使用前景图像提取模型对所述RGBD图像进行处理,提取所述RGBD图像中的前景图像;所述前景图像提取模型为由预设的训练数据集训练得到的神经网络模型。通过本申请实施例,将深度图像和彩色图像融合生成RGBD图像,即在彩色信息的基础上还增加了对于深度信息的考虑,而经过预先训练得到的前景图像提取模型能够结合这两种信息进行前景图像提取,即使当前景和后景颜色相近,色差较小时,也可以根据深度信息提取到准确的前景图像。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本申请中一种前景图像提取方法的一个实施例流程图;
图2为获取包含前景的深度图像,以及与深度图像基于时间戳同步的彩色图像的示意流程图;
图3为将深度图像和彩色图像融合生成RGBD图像
图4为本申请中一种前景图像提取装置的一个实施例结构图;
图5为本申请中一种终端设备的示意框图。
具体实施方式
为使得本申请的发明目的、特征、优点能够更加的明显和易懂,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本申请一部分实施例,而非全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本申请的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
图1示出了本申请提供的一种前景图像提取方法的一个实施例流程图,该方法可以应用于各种终端设备中,用于对图像进行前景提取。请参阅图1,该方法可以包括如下过程:
步骤S101、获取包含前景的深度图像,以及与所述深度图像基于时间戳同步的彩色图像。
如图2所示,步骤S101具体可以包括如下过程:
步骤S1011、采集包含前景的深度图像序列帧和彩色图像序列帧。
在本申请实施例中,可以使用预设的图像采集单元来进行图像序列帧的采集,所述图像采集单元可以包括深度相机和彩色相机,以分别用于采集深度图像序列帧和彩色图像序列帧。其中,所述深度相机可以为基于结构光、双目、飞行时间算法(Time of flight,TOF)等技术的深度相机;所述彩色相机可以为RGB相机。所述彩色相机与所述深度相机可以分别独立设置,也可将所述彩色相机集成于所述深度相机中。优选地,所述图像采集单元为基于结构光技术的深度相机,具体包括:结构光投影模组,用于投射结构光图像;结构光接收模组,用于采集上述结构光图像;彩色相机模组,用于采集彩色图像。
步骤S1012、对所述深度图像序列帧和所述彩色图像序列帧进行时间戳标记。
在本申请实施例中,可以使用预设的标记单元来进行时间戳的标记,具体的时间戳标记方法可以根据实际情况进行设置,包括但不限于基于系统的时钟标记,或基于模组硬件的时钟标记等。可以理解的是,还可以采用其他类型的时间戳标记方法,本申请实施例对此不作具体限定。
步骤S1013、从所述深度图像序列帧中提取所述深度图像,并从所述彩色图像序列帧中提取与所述深度图像基于时间戳同步的所述彩色图像。
容易理解地,所述深度图像和所述彩色图像为在同一时刻采集到的图像,基于这两种类型的图像,可以融合得到这一时刻的三维立体图像,也即RGBD图像。
优选地,在将两者进行图像融合之前,还可以使用预设的图像预处理单元对所述深度图像和所述彩色图像进行噪声滤波,从而得到去除噪声后的深度图像和彩色图像。
步骤S102、将所述深度图像和所述彩色图像融合生成RGBD图像。
如图3所示,步骤S102具体可以包括如下过程:
步骤S1021、对齐所述深度图像和所述彩色图像,建立所述深度图像和所述彩色图像之间的像素点映射关系。
在本申请实施例中,可以基于深度相机和彩色相机的预设参数,对齐边角等特征点,从而实现这两种图像的对齐。在两者对齐之后,则可建立所述深度图像和所述彩色图像之间的像素点映射关系,其中,所述深度图像的一个像素点可以对应于所述彩色图像的一个或多个像素点。
步骤S1022、根据所述像素点映射关系对所述深度图像的像素点进行插值处理,得到插值后的深度图像。
对于所述深度图像的每个像素点而言,如果该像素点仅对应于所述彩色图像的一个像素点,则无需对该像素点进行插值处理;如果该像素点对应于所述彩色图像的两个或更多的像素点,则需要对该像素点进行亚像素插值处理,以建立所述深度图像和所述彩色图像之间像素点一一对应的映射关系。具体的亚像素插值方法可以根据实际情况进行设置,包括但不限于快速双线性插值法、双三次样条插值法等。可以理解的是,还可以采用其他类型的亚像素插值方法,本申请实施例对此不作具体限定。
步骤S1023、根据所述像素点映射关系将所述插值后的深度图像和所述彩色图像逐像素进行融合,生成所述RGBD图像。
完成插值处理后,所述深度图像和所述彩色图像之间即建立起了像素点一一对应的关系,将所述深度图像中各像素的深度值和所述彩色图像对应的各像素的纹理信息进行融合,即可生成深度信息和彩色信息融合的RGBD图像。
步骤S103、使用前景图像提取模型对所述RGBD图像进行处理,提取所述RGBD图像中的前景图像。
所述前景图像提取模型为由预设的训练数据集训练得到的任意一种神经网络模型,包括但不限于卷积神经网络(Convolutional Neural Networks,CNN)、深度卷积神经网络(Deep Convolutional Neural Networks,DCNN)、逆向图网络(Inverse GraphicsNetworks,IGN)、生成式对抗网络(Generative Adversarial Networks,GAN)、循环神经网络(Recurrent Neural Networks,RNN)、深度残差网络(Deep Residual Networks,DRN)、支持向量机(Support Vector Machines,SVM)以及其它的神经网络模型。
优选地,在本申请实施例的一种具体实现中,所述前景图像提取模型的架构可以包括三个模块:输入特征提取模块,混合特征提取模块和输出预测模块。其中,所述输入特征提取模块用于对每个输入进行单独的特征提取,获取每一种输入所特有的信息;所述混合特征提取模块用于将之前获取的独立特征进行融合,综合前景,背景,分割信息判断前景和背景的边缘区域;所述输出模块用于输出蒙版图和边缘色彩图,蒙版图用于提前景,边缘色彩图用于优化前景的边缘,使其具有更柔和的过度区域。
为了提高所述前景图像提取模型区分任意情况下前景背景的能力,在使用所述前景图像提取模型之前,需要首先构建对其进行训练的训练数据集,然后使用所述训练数据集对初始的前景图像提取模型进行训练,直至满足预设的训练条件,以得到已训练的前景图像提取模型。
所述训练数据集中包括若干训练样本,每个训练样本均包括一帧RGBD输入图像和一帧与该RGBD输入图像对应的预期输出前景图像。例如,可以采用随机抽样的前景图像和背景图像,将其合成为RGBD输入图像,则组成该RGBD输入图像的这一前景图像即为与该RGBD输入图像对应的预期输出前景图像。
在训练的过程中,可以针对所述训练数据集中的每个训练样本,使用所述前景图像提取模型对该训练样本中的RGBD输入图像进行处理,得到实际输出前景图像,然后根据该训练样本中的预期输出前景图像和所述实际输出前景图像计算训练损失值。所述训练损失值的具体计算方式可以根据实际情况进行设置,在本申请实施例的一种具体实现中,可以计算所述预期输出前景图像和所述实际输出前景图像之间的平方误差,并将该平方误差确定为所述训练损失值。
在计算得到所述训练损失值之后,则可以根据所述训练损失值对所述前景图像提取模型的模型参数进行调整。
在本申请实施例中,假设所述前景图像提取模型的模型参数为W1,将所述训练损失值反向传播修改所述前景图像提取模型的模型参数W1,得到修改后的模型参数W2。修改参数之后再继续执行下一次的训练过程,在该次训练过程中,重新计算得到训练损失值,将该训练损失值反向传播修改所述前景图像提取模型的模型参数W2,得到修改后的模型参数W3,……,以此类推,不断重复以上过程,每次训练过程均可对模型参数进行修改,直至满足预设的训练条件,其中,所述训练条件可以是训练次数达到预设的次数阈值,所述次数阈值可以根据实际情况进行设置,例如,可以将其设置为数千、数万、数十万甚至更大的数值;所述训练条件也可以是所述前景图像提取模型收敛;由于可能出现训练次数还未达到所述次数阈值,但所述前景图像提取模型已经收敛,可能导致重复不必要的工作;或者所述前景图像提取模型始终无法收敛,可能导致无限循环,无法结束训练的过程,基于上述两种情况,所述训练条件还可以是训练次数达到所述次数阈值或所述前景图像提取模型收敛。当满足所述训练条件,即可得到已训练的前景图像提取模型。
进一步地,为了进一步提高模型对真实场景的适用性,在得到已训练的前景图像提取模型之后,还可以对所述前景图像提取模型进行知识蒸馏,得到知识蒸馏后的前景图像提取模型。在知识蒸馏过程中,以训练得到的前景图像提取模型作为教师模型,以另一个随机初始化的神经网络模型为学生模型,以真实数据为学习对象。学生模型通过学习教师模型产生的软目标来提升在真实数据集上的预测能力,能够达到更好的预测精度。
综上所述,本申请实施例获取包含前景的深度图像,以及与所述深度图像基于时间戳同步的彩色图像;将所述深度图像和所述彩色图像融合生成RGBD图像;使用前景图像提取模型对所述RGBD图像进行处理,提取所述RGBD图像中的前景图像;所述前景图像提取模型为由预设的训练数据集训练得到的神经网络模型。通过本申请实施例,将深度图像和彩色图像融合生成RGBD图像,即在彩色信息的基础上还增加了对于深度信息的考虑,而经过预先训练得到的前景图像提取模型能够结合这两种信息进行前景图像提取,即使当前景和后景颜色相近,色差较小时,也可以根据深度信息提取到准确的前景图像。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
对应于上文实施例所述的一种前景图像提取方法,图4示出了本申请实施例提供的一种前景图像提取装置的一个实施例结构图。
本实施例中,一种前景图像提取装置可以包括:
图像获取模块401,用于获取包含前景的深度图像,以及与所述深度图像基于时间戳同步的彩色图像;
图像融合模块402,用于将所述深度图像和所述彩色图像融合生成RGBD图像;
图像处理模块403,用于使用前景图像提取模型对所述RGBD图像进行处理,提取所述RGBD图像中的前景图像;所述前景图像提取模型为由预设的训练数据集训练得到的神经网络模型。
进一步地,所述图像获取模块可以包括:
图像采集单元,用于采集包含前景的深度图像序列帧和彩色图像序列帧;
标记单元,用于对所述深度图像序列帧和所述彩色图像序列帧进行时间戳标记;
图像提取单元,用于从所述深度图像序列帧中提取所述深度图像,并从所述彩色图像序列帧中提取与所述深度图像基于时间戳同步的所述彩色图像。
进一步地,所述图像融合模块可以包括:
图像对齐单元,用于对齐所述深度图像和所述彩色图像,建立所述深度图像和所述彩色图像之间的像素点映射关系;
插值处理单元,用于根据所述像素点映射关系对所述深度图像的像素点进行插值处理,得到插值后的深度图像;
图像融合单元,用于根据所述像素点映射关系将所述插值后的深度图像和所述彩色图像逐像素进行融合,生成所述RGBD图像。
进一步地,所述前景图像提取装置还可以包括:
训练数据集构建模块,用于构建所述训练数据集;所述训练数据集中包括若干训练样本,每个训练样本均包括一帧RGBD输入图像和一帧与该RGBD输入图像对应的预期输出前景图像;
模型训练模块,用于使用所述训练数据集对初始的前景图像提取模型进行训练,直至满足预设的训练条件,以得到已训练的前景图像提取模型。
进一步地,所述模型训练模块可以包括:
样本处理单元,用于针对所述训练数据集中的每个训练样本,使用所述前景图像提取模型对该训练样本中的RGBD输入图像进行处理,得到实际输出前景图像;
训练损失计算单元,用于根据该训练样本中的预期输出前景图像和所述实际输出前景图像计算训练损失值;
模型参数调整单元,用于根据所述训练损失值对所述前景图像提取模型的模型参数进行调整。
进一步地,所述训练损失计算单元具体用于计算所述预期输出前景图像和所述实际输出前景图像之间的平方误差,并将该平方误差确定为所述训练损失值。
进一步地,所述前景图像提取装置还可以包括:
知识蒸馏模块,用于对所述前景图像提取模型进行知识蒸馏,得到知识蒸馏后的前景图像提取模型。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置,模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
图5示出了本申请实施例提供的一种终端设备的示意框图,为了便于说明,仅示出了与本申请实施例相关的部分。
如图5所示,该实施例的终端设备5包括:处理器50、存储器51以及存储在所述存储器51中并可在所述处理器50上运行的计算机程序52。所述处理器50执行所述计算机程序52时实现上述各个前景图像提取方法实施例中的步骤,例如图1所示的步骤S101至步骤S103。或者,所述处理器50执行所述计算机程序52时实现上述各装置实施例中各模块/单元的功能,例如图4所示模块401至模块403的功能。
示例性的,所述计算机程序52可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器51中,并由所述处理器50执行,以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序52在所述终端设备5中的执行过程。
所述终端设备5可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。本领域技术人员可以理解,图5仅仅是终端设备5的示例,并不构成对终端设备5的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备5还可以包括输入输出设备、网络接入设备、总线等。
所述处理器50可以是通过现场可编程门阵列(Field-Programmable Gate Array,FPGA)技术、数字信号处理(Digital Signal Processing,DSP)技术、以及图像信号处理(ImageSignal Processing,ISP)技术等实现的处理器。该处理器可以为任一类型的可编程主控芯片,或包括一个或多个微处理器,比如一个或多个“通用”微处理器、一个或多个专用微处理器和/或专用微处理器(ASIC),或者这些处理组件的组合,例如,处理器可包括一个或多个指令集(例如,RISC)处理器、以及图形处理器(GPU)、视频处理器、音频处理器和/或相关的芯片集。
所述存储器51可以是所述终端设备5的内部存储单元,例如终端设备5的硬盘或内存。所述存储器51也可以是所述终端设备5的外部存储设备,例如所述终端设备5上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器51还可以既包括所述终端设备5的内部存储单元也包括外部存储设备。所述存储器51用于存储所述计算机程序以及所述终端设备5所需的其它程序和数据。所述存储器51还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质可以由任何类型的易失性或非易失性存储设备、或者它们的组合来实现。其中,非易失性存储器可以是只读存储器(Read Only Memory,ROM)、可编程只读存储器(PROM,Programmable Read-Only Memory,PROM)、可擦除可编程只读存储器(ErasableProgrammable Read-Only Memory,EPROM)、电可擦除可编程只读存储器(ElectricallyErasable Programmable Read-Only Memory,EEPROM)、磁性随机存取存储器(FerromagneticRandom Access Memory,FRAM)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(Compact Disc Read-Only Memory,CD-ROM);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static Random Access Memory,SRAM)、同步静态随机存取存储器(SynchronousStatic Random Access Memory,SSRAM)、动态随机存取存储器(DynamicRandom AccessMemory,DRAM)、同步动态随机存取存储器(Synchronous Dynamic RandomAccessMemory,SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataRateSynchronous Dynamic Random Access Memory,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced Synchronous Dynamic Random Access Memory,ESDRAM)、同步连接动态随机存取存储器(SyncLink Dynamic Random Access Memory,SLDRAM)、直接内存总线随机存取存储器(Direct Rambus Random Access Memory,DRRAM)。本申请实施例描述的计算机可读存储介质旨在包括但不限于这些和任意其它适合类型的存储器。
可以理解的是,以上内容是结合具体/优选的实施方式对本申请所作的进一步详细说明,不能认定本申请的具体实施只局限于这些说明。对于本申请所属技术领域的普通技术人员来说,在不脱离本申请构思的前提下,其还可以对这些已描述的实施方式做出若干替代或变型,而这些替代或变型方式都应当视为属于本申请的保护范围。在本说明书的描述中,参考术语“一种实施例”、“一些实施例”、“优选实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。
在本说明书中,对上述术语的示意性表述不必针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。尽管已经详细描述了本申请的实施例及其优点,但应当理解,在不脱离由所附权利要求限定的范围的情况下,可以在本文中进行各种改变、替换和变更。
此外,本申请的范围不旨在限于说明书中所述的过程、机器、物质组成、手段、方法和步骤的特定实施例。本领域普通技术人员将容易理解,可以利用执行与本文所述相应实施例基本相同功能或获得与本文所述实施例基本相同结果的目前存在的或稍后要开发的上述披露的过程、机器、物质组成、手段、方法或步骤。因此,所附权利要求旨在将这些过程、机器、物质组成、手段、方法或步骤包含在其范围内。
Claims (10)
1.一种前景图像提取方法,其特征在于,包括:
获取包含前景的深度图像,以及与所述深度图像基于时间戳同步的彩色图像;
将所述深度图像和所述彩色图像融合生成RGBD图像;
使用前景图像提取模型对所述RGBD图像进行处理,提取所述RGBD图像中的前景图像;所述前景图像提取模型为由预设的训练数据集训练得到的神经网络模型。
2.根据权利要求1所述的前景图像提取方法,其特征在于,所述获取包含前景的深度图像,以及与所述深度图像基于时间戳同步的彩色图像,包括:
采集包含前景的深度图像序列帧和彩色图像序列帧;
对所述深度图像序列帧和所述彩色图像序列帧进行时间戳标记;
从所述深度图像序列帧中提取所述深度图像,并从所述彩色图像序列帧中提取与所述深度图像基于时间戳同步的所述彩色图像。
3.根据权利要求1所述的前景图像提取方法,其特征在于,所述将所述深度图像和所述彩色图像融合生成RGBD图像,包括:
对齐所述深度图像和所述彩色图像,建立所述深度图像和所述彩色图像之间的像素点映射关系;
根据所述像素点映射关系对所述深度图像的像素点进行插值处理,得到插值后的深度图像;
根据所述像素点映射关系将所述插值后的深度图像和所述彩色图像逐像素进行融合,生成所述RGBD图像。
4.根据权利要求1所述的前景图像提取方法,其特征在于,在使用预训练的前景图像提取模型对所述RGBD图像进行处理,提取所述RGBD图像中的前景图像之前,还包括:
构建所述训练数据集;所述训练数据集中包括若干训练样本,每个训练样本均包括一帧RGBD输入图像和一帧与该RGBD输入图像对应的预期输出前景图像;
使用所述训练数据集对初始的前景图像提取模型进行训练,直至满足预设的训练条件,以得到已训练的前景图像提取模型。
5.根据权利要求4所述的前景图像提取方法,其特征在于,所述使用所述训练数据集对初始的前景图像提取模型进行训练,包括:
针对所述训练数据集中的每个训练样本,使用所述前景图像提取模型对该训练样本中的RGBD输入图像进行处理,得到实际输出前景图像;
根据该训练样本中的预期输出前景图像和所述实际输出前景图像计算训练损失值;
根据所述训练损失值对所述前景图像提取模型的模型参数进行调整。
6.根据权利要求5所述的前景图像提取方法,其特征在于,所述根据该训练样本中的预期输出前景图像和所述实际输出前景图像计算训练损失值,包括:
计算所述预期输出前景图像和所述实际输出前景图像之间的平方误差,并将该平方误差确定为所述训练损失值。
7.根据权利要求4至6中任一项所述的前景图像提取方法,其特征在于,在得到已训练的前景图像提取模型之后,还包括:
对所述前景图像提取模型进行知识蒸馏,得到知识蒸馏后的前景图像提取模型。
8.一种前景图像提取装置,其特征在于,包括:
图像获取模块,用于获取包含前景的深度图像,以及与所述深度图像基于时间戳同步的彩色图像;
图像融合模块,用于将所述深度图像和所述彩色图像融合生成RGBD图像;
图像处理模块,用于使用前景图像提取模型对所述RGBD图像进行处理,提取所述RGBD图像中的前景图像;所述前景图像提取模型为由预设的训练数据集训练得到的神经网络模型。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的前景图像提取方法的步骤。
10.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的前景图像提取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011181373.5A CN112330709A (zh) | 2020-10-29 | 2020-10-29 | 一种前景图像提取方法、装置、可读存储介质及终端设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011181373.5A CN112330709A (zh) | 2020-10-29 | 2020-10-29 | 一种前景图像提取方法、装置、可读存储介质及终端设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112330709A true CN112330709A (zh) | 2021-02-05 |
Family
ID=74296707
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011181373.5A Pending CN112330709A (zh) | 2020-10-29 | 2020-10-29 | 一种前景图像提取方法、装置、可读存储介质及终端设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112330709A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113139983A (zh) * | 2021-05-17 | 2021-07-20 | 北京华捷艾米科技有限公司 | 一种基于rgbd的人像分割方法及装置 |
CN113255915A (zh) * | 2021-05-20 | 2021-08-13 | 深圳思谋信息科技有限公司 | 基于结构化实例图的知识蒸馏方法、装置、设备和介质 |
CN113344942A (zh) * | 2021-05-21 | 2021-09-03 | 深圳瀚维智能医疗科技有限公司 | 人体按摩区域分割方法、装置、系统及计算机存储介质 |
CN114359123A (zh) * | 2022-01-12 | 2022-04-15 | 广东汇天航空航天科技有限公司 | 一种图像处理方法和装置 |
CN115223022A (zh) * | 2022-09-15 | 2022-10-21 | 平安银行股份有限公司 | 一种图像处理方法、装置、存储介质及设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107403430A (zh) * | 2017-06-15 | 2017-11-28 | 中山大学 | 一种rgbd图像语义分割方法 |
CN108665475A (zh) * | 2018-05-15 | 2018-10-16 | 北京市商汤科技开发有限公司 | 神经网络训练、图像处理方法、装置、存储介质和电子设备 |
CN111179340A (zh) * | 2019-12-30 | 2020-05-19 | 苏宁云计算有限公司 | 一种物体的定位方法、装置及计算机系统 |
CN111179276A (zh) * | 2018-11-12 | 2020-05-19 | 北京京东尚科信息技术有限公司 | 一种图像处理方法和装置 |
CN111190981A (zh) * | 2019-12-25 | 2020-05-22 | 中国科学院上海微系统与信息技术研究所 | 一种三维语义地图的构建方法、装置、电子设备及存储介质 |
CN111652884A (zh) * | 2020-04-24 | 2020-09-11 | 深圳奥比中光科技有限公司 | 基于3d摄像头的人像分割方法及系统 |
CN111798456A (zh) * | 2020-05-26 | 2020-10-20 | 苏宁云计算有限公司 | 一种实例分割模型的训练方法、装置、实例分割方法 |
-
2020
- 2020-10-29 CN CN202011181373.5A patent/CN112330709A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107403430A (zh) * | 2017-06-15 | 2017-11-28 | 中山大学 | 一种rgbd图像语义分割方法 |
CN108665475A (zh) * | 2018-05-15 | 2018-10-16 | 北京市商汤科技开发有限公司 | 神经网络训练、图像处理方法、装置、存储介质和电子设备 |
CN111179276A (zh) * | 2018-11-12 | 2020-05-19 | 北京京东尚科信息技术有限公司 | 一种图像处理方法和装置 |
CN111190981A (zh) * | 2019-12-25 | 2020-05-22 | 中国科学院上海微系统与信息技术研究所 | 一种三维语义地图的构建方法、装置、电子设备及存储介质 |
CN111179340A (zh) * | 2019-12-30 | 2020-05-19 | 苏宁云计算有限公司 | 一种物体的定位方法、装置及计算机系统 |
CN111652884A (zh) * | 2020-04-24 | 2020-09-11 | 深圳奥比中光科技有限公司 | 基于3d摄像头的人像分割方法及系统 |
CN111798456A (zh) * | 2020-05-26 | 2020-10-20 | 苏宁云计算有限公司 | 一种实例分割模型的训练方法、装置、实例分割方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113139983A (zh) * | 2021-05-17 | 2021-07-20 | 北京华捷艾米科技有限公司 | 一种基于rgbd的人像分割方法及装置 |
CN113255915A (zh) * | 2021-05-20 | 2021-08-13 | 深圳思谋信息科技有限公司 | 基于结构化实例图的知识蒸馏方法、装置、设备和介质 |
CN113344942A (zh) * | 2021-05-21 | 2021-09-03 | 深圳瀚维智能医疗科技有限公司 | 人体按摩区域分割方法、装置、系统及计算机存储介质 |
CN113344942B (zh) * | 2021-05-21 | 2024-04-02 | 深圳瀚维智能医疗科技有限公司 | 人体按摩区域分割方法、装置、系统及计算机存储介质 |
CN114359123A (zh) * | 2022-01-12 | 2022-04-15 | 广东汇天航空航天科技有限公司 | 一种图像处理方法和装置 |
CN115223022A (zh) * | 2022-09-15 | 2022-10-21 | 平安银行股份有限公司 | 一种图像处理方法、装置、存储介质及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112330709A (zh) | 一种前景图像提取方法、装置、可读存储介质及终端设备 | |
US10726304B2 (en) | Refining synthetic data with a generative adversarial network using auxiliary inputs | |
CN109887003B (zh) | 一种用于进行三维跟踪初始化的方法与设备 | |
CN109525786B (zh) | 视频处理方法、装置、终端设备及存储介质 | |
CN101610425A (zh) | 一种评测立体图像质量的方法和装置 | |
CN110619334B (zh) | 基于深度学习的人像分割方法、架构及相关装置 | |
CN113112542A (zh) | 一种视觉定位方法、装置、电子设备及存储介质 | |
CN110599586A (zh) | 一种半稠密场景重建方法、装置、电子设备及存储介质 | |
CN111161348B (zh) | 一种基于单目相机的物体位姿估计方法、装置及设备 | |
CN113240031B (zh) | 全景图像特征点匹配模型的训练方法、装置以及服务器 | |
US20190311524A1 (en) | Method and apparatus for real-time virtual viewpoint synthesis | |
CN114359048A (zh) | 图像的数据增强方法、装置、终端设备及存储介质 | |
CN112529006B (zh) | 全景图片的检测方法、装置、终端及存储介质 | |
Wang et al. | A multi-scale attentive recurrent network for image dehazing | |
CN116962612A (zh) | 应用于仿真系统的视频处理方法、装置、设备及存储介质 | |
CN116630768A (zh) | 目标检测方法和装置、电子设备及存储介质 | |
CN112102205B (zh) | 图像去模糊方法、装置、电子设备及存储介质 | |
CN114743150A (zh) | 目标跟踪方法、装置、电子设备及存储介质 | |
CN114723883A (zh) | 一种三维场景重建方法、装置、设备及存储介质 | |
Kim et al. | Vision-based all-in-one solution for augmented reality and its storytelling applications | |
CN111435448A (zh) | 图像显著性物体检测方法、装置、设备及介质 | |
CN114842287B (zh) | 深度引导变形器的单目三维目标检测模型训练方法及装置 | |
CN112967398B (zh) | 一种三维数据重建方法、装置及电子设备 | |
Li et al. | Improving PMVS algorithm for 3D scene reconstruction from sparse stereo pairs | |
EP3929866A2 (en) | Inpainting method and apparatus for human image, and electronic device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |