CN113362365A - 视频处理方法、系统、装置及介质 - Google Patents
视频处理方法、系统、装置及介质 Download PDFInfo
- Publication number
- CN113362365A CN113362365A CN202110674087.0A CN202110674087A CN113362365A CN 113362365 A CN113362365 A CN 113362365A CN 202110674087 A CN202110674087 A CN 202110674087A CN 113362365 A CN113362365 A CN 113362365A
- Authority
- CN
- China
- Prior art keywords
- image
- result
- distribution map
- background
- foreground
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 46
- 238000003709 image segmentation Methods 0.000 claims abstract description 68
- 238000012545 processing Methods 0.000 claims abstract description 44
- 238000000034 method Methods 0.000 claims abstract description 38
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 8
- 238000010586 diagram Methods 0.000 claims description 27
- 230000015572 biosynthetic process Effects 0.000 claims description 17
- 238000003786 synthesis reaction Methods 0.000 claims description 17
- 230000000877 morphologic effect Effects 0.000 claims description 12
- 238000012805 post-processing Methods 0.000 claims description 10
- 230000010365 information processing Effects 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 abstract description 8
- 238000005516 engineering process Methods 0.000 abstract description 4
- 238000000605 extraction Methods 0.000 abstract description 3
- 238000004422 calculation algorithm Methods 0.000 description 16
- 230000000694 effects Effects 0.000 description 7
- 238000004590 computer program Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000010339 dilation Effects 0.000 description 2
- 230000003628 erosive effect Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000005260 corrosion Methods 0.000 description 1
- 230000007797 corrosion Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003711 image thresholding Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/136—Segmentation; Edge detection involving thresholding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
- G06T2207/20132—Image cropping
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及视频处理技术领域,具体涉及一种视频处理方法、系统、装置及介质。本申请旨在解决现有的抠图方法存在的限制大、提取范围小的问题。为此目的,本申请的视频处理方法包括:获取目标背景图、视频中的图像帧和与图像帧对应的深度分布图;对图像帧进行分割,以获得图像分割结果;对深度分布图进行阈值化操作,以获得分布图阈值化结果;基于图像分割结果和分布图阈值化结果,确定前背景分布图;基于图像帧、目标背景图和前背景分布图进行合成,以获得最终图像;输出最终图像。本方法实现了在无绿幕情况下进行实时抠图的需求,并通过引入深度分布图来进行前背景分割,避开了较为复杂的前背景判断问题,实现对图像帧中非人像物体的准确提取。
Description
技术领域
本发明涉及视频处理技术领域,具体涉及一种视频处理方法、系统、装置及介质。
背景技术
随着视频处理技术的发展,网络直播活动越来越流行。在直播场景中,出于隐私考虑,视频主播经常希望能够将画面中自己身后的真实背景画面更换为虚拟背景,以获得更好的直播效果。
然而,目前的视频抠像算法多数基于绿幕实现,这种方法多应用于影视行业,并且抠像精度较佳,但是这要求主播在直播时需要使用纯绿色幕布搭建纯色背景,对直播环境存在较大的限制。
现有技术中也存在无绿幕抠图工具,这种工具多数基于图像分割算法实现,仅能较为准确地提取视频画面中的人像部分,对其他部分,如商品、桌子等需要包含在直播内容中的目标则无法提取,导致在多数直播场景中无法应用该技术。
相应地,本领域需要一种新的视频处理方法来解决上述问题。
发明内容
为了解决现有技术中的上述至少一个问题,即为了解决现有的抠图方法存在的限制大、提取范围小的问题,本申请提供了一种视频处理方法,包括:
获取目标背景图、所述视频中的图像帧和与所述图像帧对应的深度分布图;
对所述图像帧进行分割,以获得图像分割结果;
对所述深度分布图进行阈值化操作,以获得分布图阈值化结果;
基于所述图像分割结果和所述分布图阈值化结果,确定前背景分布图;
基于所述图像帧、所述目标背景图和所述前背景分布图进行合成,以获得最终图像;
输出所述最终图像。
在上述视频处理方法的优选技术方案中,在“对所述图像帧进行分割,以获得图像分割结果”的步骤之后,所述视频处理方法还包括:
基于所述图像帧和所述图像分割结果进行精细化抠图,以获得精细化抠图结果;
“基于所述图像分割结果和所述分布图阈值化结果,确定前背景分布图”的步骤进一步包括:
将所述精细化抠图结果与所述分布图阈值化结果进行叠加,获得所述前背景分布图。
在上述视频处理方法的优选技术方案中,“对所述深度分布图进行阈值化操作”的步骤进一步包括:
获取所述深度分布图中每个像素点的深度值;
比较每个所述深度值与深度阈值的大小;
将小于等于所述深度阈值的像素点设置为第一阈值;
将大于所述深度阈值的像素点设置为第二阈值。
在上述视频处理方法的优选技术方案中,在“基于所述图像分割结果和所述分布图阈值化结果,确定前背景分布图”的步骤之后,所述视频处理方法还包括:
对所述前背景分布图进行空洞填补和/或形态学处理。
在上述视频处理方法的优选技术方案中,“基于所述图像帧、所述目标背景图和所述前背景分布图进行合成,以获得最终图像”的步骤进一步包括:
采用下述公式所示的方法计算合成结果:
O=M×I+(1-M)×B
其中,O为所述合成结果;M为所述前背景分布图;I为所述图像帧;B为所述目标背景图。
本申请还提供了一种视频处理系统,包括:
图像获取模块,其被配置成获取目标背景图、所述视频中的图像帧和与所述图像帧对应的深度分布图;
图像分割模块,其被配置成对所述图像帧进行分割,以获得图像分割结果;
深度信息处理模块,其被配置成对所述深度分布图进行阈值化操作,以获得分布图阈值化结果;
前背景分布图生成模块,其被配置成基于所述图像分割结果和所述分布图阈值化结果,确定前背景分布图;
图像合成模块,其被配置成基于所述图像帧、所述目标背景图和所述前背景分布图进行合成,以获得最终图像;
结果输出模块,其被配置成输出所述最终图像。
在上述视频处理系统的优选技术方案中,所述视频处理系统还包括:
精细化抠图模块,其被配置成在所述图像分割模块对所述图像帧进行分割,以获得图像分割结果之后,基于所述图像帧和所述图像分割结果进行精细化抠图,以获得精细化抠图结果;
所述前背景分布图生成模块进一步被配置成通过如下方式来基于所述图像分割结果和所述分布图阈值化结果,确定前背景分布图:
将所述精细化抠图结果与所述分布图阈值化结果进行叠加,获得所述前背景分布图。
在上述视频处理系统的优选技术方案中,所述视频处理系统还包括:
后处理模块,其被配置成在所述前背景分布图生成模块基于所述图像分割结果和所述分布图阈值化结果,确定前背景分布图之后,对所述前背景分布图进行空洞填补和/或形态学处理。
在上述视频处理系统的优选技术方案中,所述图像合成模块进一步被配置成通过如下方式来基于所述图像帧、所述目标背景图和所述前背景分布图进行合成,以获得最终图像:
采用下述公式所示的方法计算合成结果:
O=M×I+(1-M)×B
其中,O为所述合成结果;M为所述前背景分布图;I为所述图像帧;B为所述目标背景图。
本申请还提供了一种处理装置,包括:
处理器;
存储器,所述存储器适于存储多条程序代码,所述程序代码适于由所述处理器加载并运行以执行上述优选技术方案中任一项所述的视频处理方法。
本申请还提供了一种计算机可读存储介质,其中存储有多条程序代码,所述程序代码适于由处理器加载并运行以执行上述优选技术方案中任一项所述的视频处理方法。
需要说明的是,在本申请的优选技术方案中,视频处理方法包括:获取目标背景图、视频中的图像帧和与图像帧对应的深度分布图;对图像帧进行分割,以获得图像分割结果;对深度分布图进行阈值化操作,以获得分布图阈值化结果;基于图像分割结果和分布图阈值化结果,确定前背景分布图;基于图像帧、目标背景图和前背景分布图进行合成,以获得最终图像;输出最终图像。
本方法实现了在无绿幕的直播场景下进行实时抠图的需求,并且通过引入深度分布图来进行前背景分割,避开了较为复杂的前背景判断问题,能够实现对图像帧中非人像物体的准确提取。
进一步地,本申请通过对人像区域进行精细化抠图,能够确保人像细节,使得最终生成的合成图像更加真实、自然。
附图说明
下面参照附图并结合视频直播来描述本申请的视频处理方法、系统、装置及介质。本领域技术人员可以理解,除了视频直播外,本申请还可以适用于其他任何需要进行视频背景替换的场景。
附图中:
图1为本申请的视频处理方法的流程图;
图2A为本申请的视频处理方法的图像分割过程的示例图 (一);
图2B为本申请的视频处理方法的图像分割过程的示例图 (二);
图2C为本申请的视频处理方法的图像分割过程的示例图 (三);
图3为本申请的视频处理系统的结构框图;
图4为本申请的视频处理方法的一种可能的实施过程图。
附图标记列表
1、视频处理系统;11、图像获取模块;12、图像分割模块; 13、精细化抠图模块;14、深度信息处理模块;15、前背景分布图生成模块;16、后处理模块;17、图像合成模块;18、结果输出模块。
具体实施方式
下面参照附图来描述本申请的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本申请的技术原理,并非旨在限制本申请的保护范围。
在本发明的描述中,“模块”、“处理器”可以包括硬件、软件或者两者的组合。一个模块可以包括硬件电路,各种合适的感应器,通信端口,存储器,也可以包括软件部分,比如程序代码,也可以是软件和硬件的组合。处理器可以是中央处理器、微处理器、图像处理器、数字信号处理器或者其他任何合适的处理器。处理器具有数据和/或信号处理功能。处理器可以以软件方式实现、硬件方式实现或者二者结合方式实现。非暂时性的计算机可读存储介质包括任何合适的可存储程序代码的介质,比如磁碟、硬盘、光碟、闪存、只读存储器、随机存取存储器等等。术语“A和/或B”表示所有可能的A与B的组合,比如只是A、只是B或者A和B。术语“至少一个A或B”或者“A和B中的至少一个”含义与“A和/或B”类似,可以包括只是A、只是B或者A和B。单数形式的术语“一个”、“这个”也可以包含复数形式。
首先参照图1至图2C,并结合视频直播来对本申请的视频处理方法进行描述。其中,图1为本申请的视频处理方法的流程图;图 2A为本申请的视频处理方法的图像分割过程的示例图(一);图2B为本申请的视频处理方法的图像分割过程的示例图(二);图2C为本申请的视频处理方法的图像分割过程的示例图(三)。
如图1所示,为了解决现有的抠图方法存在的限制大、提取范围小的问题,本申请提供一种视频处理方法,该方法整体可以基于 OpenCV库执行,主要包括如下步骤:
S101、获取目标背景图、视频中的图像帧和与图像帧对应的深度分布图;
一种实施方式中,可以使用ToF摄像头对直播图像进行采集,并从ToF摄像头采集的直播视频流中捕获图像帧和图像帧对应的深度分布图。例如,将ToF摄像头获取到的视频数据转化为8位3通道的 RGB图像帧和16位单通道的深度分布图。目标背景图为主播想要将实际背景替换成的虚拟背景,该目标背景图可以是实时获取的,如通过摄像头实时获取的产品的拍摄图,当然目标背景图也可以是预先存储的,如预先存储在电脑、U盘中的图片或照片等,在本方法执行时自动提取或由主播选取。在获取到图像帧和目标背景图后,可以对二者进行预处理,以便满足后续处理需要。如将目标背景图像调整为与图像帧大小一致,然后将图像帧、目标背景图像进行格式转化,并进行归一化处理等。
需要说明的是,ToF(Time of Flight,飞行测距),是一种深度信息测量技术方案,由红外光投射器和接收模组构成。投射器向外投射红外光,红外光遇到被测物体后反射,并被接收模组接收,通过记录红外光从发射到被接收的时间,能够计算出被照物体深度信息最终完成3D建模。
一种可替换的实施方式中,除采用ToF摄像头外,视频流的获取还可以采用3D结构光(Structured-light)摄像头以及双目视觉 (Stereo)摄像头等,使用这些摄像头也都能够达到相似的效果。
S103、对图像帧进行分割,以获得图像分割结果。
一种实施方式中,可以采用图像分割模型实现对图像帧的分割。较为优选地,图像分割模型基于深度学习算法训练而成,深度学习算法包括但不限于Yolact++、PortraitNet和Deeplabv3+等。模型运行时,将原图像帧作为输入端输入图像分割模型,模型的输出端将输出分割结果以区分视频背景区域和人像区域。由于图像帧中主播是最重要的部分,不容许出现缺失,因此首先需要对图像帧进行图像分割,将RGB图像划分为背景区域和人像区域,并提取分割结果中属于人像的部分设置为1,其余部分设置为背景值0。
当然,划分背景区域和人像区域时的具体赋值并未唯一,本领域技术人员可以根据需要对具体赋值进行调整。例如将属于人像的部分设置为0,而属于背景的部分设置为1等。
一种可能的实施方式中,在步骤S103之后,视频处理方法还包括:基于图像帧和图像分割结果进行精细化抠图,以获得精细化抠图结果。具体地,直接使用图像分割结果往往会出现较多的细节缺失和噪声,例如头发、手指等部位。为获得更好的直播效果,本方法中采用精细化抠图模型对图像分割结果进行优化,较为优选地,精细化抠图模型同样可以基于深度学习算法训练而成,其中算法包括但不限于 Background Matting网络,Deep ImageMatting网络。
模型运行时,将原图像帧和图像分割结果作为输入端输入精细化抠图模型,模型的输出端将输出精细化抠图结果。参照图2A-图2C,图2A-图2C示出了图像分割和精细化抠图的过程实例,其中图2A为原图像帧,图2B为图像分割模型输出的图像分割结果,图2C为精细化抠图模型输出的精细化抠图结果,对比图2B和图2C可知,精细化抠图模型输出的结果保留了更多的细节。
根据输入的图像帧以及图像分割模型生成的图像分割结果,利用基于深度学习算法训练而成的精细化抠图模型进行精细化抠图,本申请能够实现对人像的精细化分割,使得最终的分割结果能够保留更多的人像细节,如发型、手指效果等,使得最终生成的合成图像更加真实、自然。
S105、对深度分布图进行阈值化操作,以获得分布图阈值化结果。
一种实施方式中,采用固定距离对深度分布图采用二值化操作。具体地,步骤S105具体包括:获取深度分布图中每个像素点的深度值;比较每个深度值与深度阈值的大小;将小于等于深度阈值的像素点设置为第一阈值;将大于深度阈值的像素点设置为第二阈值。具体地,实际直播过程中,主播通常坐在椅子上,并且其前面通常会摆放有桌子,桌子上除直播设备外,还会摆放商品等物品,在ToF摄像头固定好后,可以测量出ToF摄像头与主播之间的距离,如1-1.5m。然后根据距离换算得到深度分布图中的深度阈值,并根据深度阈值对ToF摄像头采集到的深度分布图进行二值化处理,当分布图中的像素点的深度值高于阈值,即超出设定距离的位置,则设置为0,而分布图中的像素点的深度值低于阈值的位置,则设置为1。最后得到深度分布二值图,即分布图阈值化结果。
通过引入深度分布图来进行前背景分割,避开了较为复杂的前背景判断问题,能够实现对图像帧中非人像物体如商品、桌子、椅背等的准确提取。
一种可替换的实施方式中,也可采用动态阈值进行深度分布图的值化操作,例如采集人脸或其他位置关键点上的深度值作为阈值,对深度分布图中的像素进行二值化处理,这样处理的好处是可避免主播因超出距离范围而在最终输出结果上消失的问题。
需要说明的是,上述虽然是结合第一阈值为1、第二阈值为 0进行介绍的,但显然本领域技术人员可以对其进行调整,只要能区分出第一阈值和第二阈值即可。例如还可以把第一阈值设置为0,第二阈值设置为1等。
S107、基于图像分割结果和分布图阈值化结果,确定前背景分布图。
一种实施方式中,将精细化抠图结果与分布图阈值化结果进行叠加,获得前背景分布图。具体地,根据步骤S103中获得的精细化抠图结果以及步骤S105中深度分布二值图,对二者进行或运算,得到综合人像与深度的前背景分布图,并转化为0-1的二值格式的分布图。
一种可能的实施方式中,步骤S107之后,视频处理方法还包括:
对前背景分布图进行后处理,其中,后处理包括但不限于空洞填补、形态学处理等。步骤S107中得到的前背景分布图上往往存在较多噪声点和内部空洞区域。为此,需要对其进行后处理,本申请中,后处理算法包括空洞填补算法和形态学处理两部分。其中,空洞填补算法步骤大致如下:定位图像上每个0点;对每个0点,计算以该点位中心的k*k区域内非0点的个数;若区域内非0点个数过半,则将该0点处的像素值置为1。
形态学处理包括膨胀、腐蚀和高斯滤波,目的是为了减少边缘溢色以及对边缘部分进行平滑处理。形态学处理中的膨胀算法与空洞填补算法此类似,在此不再赘述,区别是空洞填补算法不会造成边缘上较为明显的前景溢出,仅对内部空洞进行填补操作。腐蚀和高斯滤波的具体算法均为本领域的常用算法,本申请中不再赘述。
通过对前背景分布图进行空洞填补与形态学处理,能够得到取值范围为0-1的透明度分布图。空洞填补能够有效减少因深度摄像头误差而导致的闪烁和前景内部空洞现象,形态学处理能够减少物体轮廓边缘的锯齿和溢色等现象,从而获得更好的表现效果。
S109、基于图像帧、目标背景图和前背景分布图进行合成,以获得最终图像。
一种实施方式中,采用下述公式所示的方法计算合成结果:
O=M×I+(1-M)×B (1)
公式(1)中,O为合成结果;M为前背景分布图;I为图像帧;B为目标背景图。经过公式(1)的计算后,将图像帧中前背景分布图部分的像素与目标背景图中刨除前背景分布图部分的像素进行合成,得到最终图像。
S111、输出最终图像。
一种实施方式中,对得到的最终图像经过格式调整后输出到视频流中。其中,格式调整包括通道数、位数和大小等。
综上,本方法实现了在无绿幕的直播场景下进行实时抠图的需求,并且通过引入深度分布图来进行前背景分割,避开了较为复杂的前背景判断问题,能够实现对图像帧中非人像物体的准确提取。进一步地,本申请通过对人像区域进行精细化抠图,能够确保人像细节,使得最终生成的合成图像更加真实、自然。
下面参照图3,对本申请的视频处理系统进行介绍。其中,图3为本申请的视频处理系统的结构框图。
如图3所示,本申请的视频处理系统1主要包括图像获取模块11、图像分割模块12、精细化抠图模块13、深度信息处理模块14、前背景分布图生成模块15、后处理模块16、图像合成模块17和结果输出模块18。图像获取模块11被配置成获取目标背景图、视频中的图像帧和与图像帧对应的深度分布图。图像分割模块12被配置成对图像帧进行分割,以获得图像分割结果。精细化抠图模块13被配置成在图像分割模块12对图像帧进行分割,以获得图像分割结果之后,基于图像帧和图像分割结果进行精细化抠图,以获得精细化抠图结果。深度信息处理模块 14被配置成对深度分布图进行阈值化操作,以获得分布图阈值化结果。前背景分布图生成模块15被配置成基于图像分割结果和分布图阈值化结果,确定前背景分布图。后处理模块16被配置成在前背景分布图生成模块15基于人像区域和前背景区域,确定前背景分布图之后,对前背景分布图进行空洞填补和/或形态学处理。图像合成模块17被配置成基于图像帧、目标背景图和前背景分布图进行合成,以获得最终图像。结果输出模块18被配置成输出最终图像。在一种实施方式中,具体实现功能的描述可以参见步骤S101-步骤S111。
一种可能的实施方式中,前背景分布图生成模块15进一步被配置成通过如下方式来基于图像分割结果和分布图阈值化结果,确定前背景分布图:将精细化抠图结果与分布图阈值化结果进行叠加,获得前背景分布图。具体实现功能的描述可参见上述步骤S107。
一种可能的实施方式中,深度信息处理模块14进一步被配置成通过如下方式来对深度分布图进行阈值化操作:获取深度分布图中每个像素点的深度值;比较每个深度值与深度阈值的大小;将小于等于深度阈值的像素点设置为第一阈值;将大于深度阈值的像素点设置为第二阈值。具体实现功能的描述可参见上述步骤S105。
一种可能的实施方式中,图像合成模块17进一步被配置成通过如下方式来基于图像帧、目标背景图和前背景分布图进行合成,以获得最终图像:采用下述公式所示的方法计算合成结果:
O=M×I+(1-M)×B (1)
公式(1)中,O为合成结果;M为前背景分布图;I为图像帧;B为目标背景图。具体实现功能的描述可参见上述步骤S109。
上述视频处理系统以用于执行上述视频处理方法实施例,两者的技术原理、所解决的技术问题及产生的技术效果相似,本技术领域技术人员可以清楚地了解到,为了描述的方便和简洁,视频处理系统的具体工作过程及有关说明,可以参考视频处理方法的实施例所描述的内容,此处不再赘述。
应该理解的是,由于各个模块的设定仅仅是为了说明本发明的装置的功能单元,这些模块对应的物理器件可以是处理器本身,或者处理器中软件的一部分,硬件的一部分,或者软件和硬件结合的一部分。因此,图中的各个模块的数量仅仅是示意性的。
本领域技术人员能够理解的是,可以对装置中的各个模块进行适应性地拆分或合并。对具体模块的这种拆分或合并并不会导致技术方案偏离本发明的原理,因此,拆分或合并之后的技术方案都将落入本发明的保护范围内。
下面参照图4,对本申请的一种可能的实施方式中视频处理的过程进行介绍。其中,图4为本申请的视频处理方法的一种可能的实施过程图。
如图4所示,本申请的视频处理方法的一种可能的实施过程包括:
步骤S201,获取RGB目标背景图像、通过ToF深度摄像头获取直播视频流,并将获取到的视频数据转化为8位3通道的RGB图像帧与16位单通道的深度分布图。
步骤S203,对RGB图像帧和目标背景图预处理。将目标背景图像调整为与图像帧大小一致,随后将图像帧与目标背景图像转化格式,并进行归一化处理。
步骤S205,深度分布图二值化。根据深度阈值,对ToF深度摄像头采集到的深度分布图进行阈值化处理,高于深度阈值的像素点设置为0,低于深度阈值的像素点设置为1,获得深度分布二值图。
步骤S207,图像分割。采用基于深度学习算法训练的图像分割模型对图像帧进行图像分割,提取分割结果中属于人像的部分设置为1,其余部分设置为背景值0,得到图像分割结果。
步骤S209,精细化抠图。采用基于深度学习算法训练的精细化抠图模型对图像分割结果进行优化,获得精细化抠图结果。
步骤S211,结果合并。根据步骤S203中获得的深度分布二值图,以及步骤S209中得到的精细化抠图结果,对二者进行或运算,得到综合人像与深度的前背景分布图,并转化为0-1的二值格式,得到前背景二值化分布图。
步骤S213,后处理。步骤S211中得到的前背景的二值化分布图进行空洞填补和形态学处理。形态学处理包括膨胀、腐蚀和高斯滤波。
步骤S215,计算合成结果。根据输入的图像帧、步骤S213 得到的后处理的二值化分布图以及目标背景图像,利用公式O=M× I+(1-M)×B计算最终的合成结果,得到最终图像。公式中,O为合成结果;M为前背景分布图;I为图像帧;B为目标背景图。
步骤S217,结果输出。将计算得到的最终图像,调整格式后输出到视频流中。
需要指出的是,上述实施例中虽然将各个步骤按照上述先后次序的方式进行了描述,但是本领域技术人员可以理解,为了实现本实施例的效果,不同的步骤之间不必按照这样的次序执行,其可以同时(并行)执行或以颠倒的次序执行,这些简单的变化都在本发明的保护范围之内。例如,上述步骤S205与步骤S207之间还可以同时执行或者颠倒次序执行等。
本领域技术人员能够理解的是,本发明实现上述一实施例的方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存取存储器、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器 (DSP)来实现根据本发明实施例的服务器、客户机中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,PC程序和PC程序产品)。这样的实现本发明的程序可以存储在PC可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
进一步,本发明还提供了一种计算机可读存储介质。在根据本发明的一个计算机可读存储介质实施例中,计算机可读存储介质可以被配置成存储执行上述方法实施例的视频处理方法,该程序可以由处理器加载并运行以实现上述视频处理方法。为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。该计算机可读存储介质可以是包括各种电子设备形成的存储装置设备,可选的,本发明实施例中计算机可读存储介质是非暂时性的计算机可读存储介质。
进一步,本发明还提供了一种计算机装置。在根据本发明的一个计算机装置实施例中,计算机装置包括处理器和存储器,存储器可以被配置成存储执行上述方法实施例的视频处理方法的程序,处理器可以被配置成用于执行存储器中的程序,该程序包括但不限于执行上述方法实施例的视频处理方法的程序。为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。该计算机装置可以是包括各种电子设备形成的装置设备。
至此,已经结合附图所示的优选实施方式描述了本申请的技术方案,但是,本领域技术人员容易理解的是,本申请的保护范围显然不局限于这些具体实施方式。在不偏离本申请的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本申请的保护范围之内。
Claims (11)
1.一种视频处理方法,其特征在于,包括:
获取目标背景图、所述视频中的图像帧和与所述图像帧对应的深度分布图;
对所述图像帧进行分割,以获得图像分割结果;
对所述深度分布图进行阈值化操作,以获得分布图阈值化结果;
基于所述图像分割结果和所述分布图阈值化结果,确定前背景分布图;
基于所述图像帧、所述目标背景图和所述前背景分布图进行合成,以获得最终图像;
输出所述最终图像。
2.根据权利要求1所述的视频处理方法,其特征在于,在“对所述图像帧进行分割,以获得图像分割结果”的步骤之后,所述视频处理方法还包括:
基于所述图像帧和所述图像分割结果进行精细化抠图,以获得精细化抠图结果;
“基于所述图像分割结果和所述分布图阈值化结果,确定前背景分布图”的步骤进一步包括:
将所述精细化抠图结果与所述分布图阈值化结果进行叠加,获得所述前背景分布图。
3.根据权利要求1所述的视频处理方法,其特征在于,“对所述深度分布图进行阈值化操作”的步骤进一步包括:
获取所述深度分布图中每个像素点的深度值;
比较每个所述深度值与深度阈值的大小;
将小于等于所述深度阈值的像素点设置为第一阈值;
将大于所述深度阈值的像素点设置为第二阈值。
4.根据权利要求1所述的视频处理方法,其特征在于,在“基于所述图像分割结果和所述分布图阈值化结果,确定前背景分布图”的步骤之后,所述视频处理方法还包括:
对所述前背景分布图进行空洞填补和/或形态学处理。
5.根据权利要求1所述的视频处理方法,其特征在于,“基于所述图像帧、所述目标背景图和所述前背景分布图进行合成,以获得最终图像”的步骤进一步包括:
采用下述公式所示的方法计算合成结果:
O=M×I+(1-M)×B
其中,O为所述合成结果;M为所述前背景分布图;I为所述图像帧;B为所述目标背景图。
6.一种视频处理系统,其特征在于,包括:
图像获取模块,其被配置成获取目标背景图、所述视频中的图像帧和与所述图像帧对应的深度分布图;
图像分割模块,其被配置成对所述图像帧进行分割,以获得图像分割结果;
深度信息处理模块,其被配置成对所述深度分布图进行阈值化操作,以获得分布图阈值化结果;
前背景分布图生成模块,其被配置成基于所述图像分割结果和所述分布图阈值化结果,确定前背景分布图;
图像合成模块,其被配置成基于所述图像帧、所述目标背景图和所述前背景分布图进行合成,以获得最终图像;
结果输出模块,其被配置成输出所述最终图像。
7.根据权利要求6所述的视频处理系统,其特征在于,所述视频处理系统还包括:
精细化抠图模块,其被配置成在所述图像分割模块对所述图像帧进行分割,以获得图像分割结果之后,基于所述图像帧和所述图像分割结果进行精细化抠图,以获得精细化抠图结果;
所述前背景分布图生成模块进一步被配置成通过如下方式来基于所述图像分割结果和所述分布图阈值化结果,确定前背景分布图:
将所述精细化抠图结果与所述分布图阈值化结果进行叠加,获得所述前背景分布图。
8.根据权利要求6所述的视频处理系统,其特征在于,所述视频处理系统还包括:
后处理模块,其被配置成在所述前背景分布图生成模块基于所述图像分割结果和所述分布图阈值化结果,确定前背景分布图图之后,对所述前背景分布图进行空洞填补和/或形态学处理。
9.根据权利要求6所述的视频处理系统,其特征在于,所述图像合成模块进一步被配置成通过如下方式来基于所述图像帧、所述目标背景图和所述前背景分布图进行合成,以获得最终图像:
采用下述公式所示的方法计算合成结果:
O=M×I+(1-M)×B
其中,O为所述合成结果;M为所述前背景分布图;I为所述图像帧;B为所述目标背景图。
10.一种处理装置,其特征在于,包括:
处理器;
存储器,所述存储器适于存储多条程序代码,所述程序代码适于由所述处理器加载并运行以执行权利要求1至5中任一项所述的视频处理方法。
11.一种计算机可读存储介质,其中存储有多条程序代码,其特征在于,所述程序代码适于由处理器加载并运行以执行权利要求1至5中任一项所述的视频处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110674087.0A CN113362365A (zh) | 2021-06-17 | 2021-06-17 | 视频处理方法、系统、装置及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110674087.0A CN113362365A (zh) | 2021-06-17 | 2021-06-17 | 视频处理方法、系统、装置及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113362365A true CN113362365A (zh) | 2021-09-07 |
Family
ID=77534868
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110674087.0A Pending CN113362365A (zh) | 2021-06-17 | 2021-06-17 | 视频处理方法、系统、装置及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113362365A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113837979A (zh) * | 2021-09-28 | 2021-12-24 | 北京奇艺世纪科技有限公司 | 直播图像合成方法、装置、终端设备以及可读存储介质 |
CN113963000A (zh) * | 2021-10-21 | 2022-01-21 | 北京字节跳动网络技术有限公司 | 图像分割方法、装置、电子设备及程序产品 |
CN114040129A (zh) * | 2021-11-30 | 2022-02-11 | 北京字节跳动网络技术有限公司 | 视频生成方法、装置、设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170372479A1 (en) * | 2016-06-23 | 2017-12-28 | Intel Corporation | Segmentation of objects in videos using color and depth information |
CN110930296A (zh) * | 2019-11-20 | 2020-03-27 | Oppo广东移动通信有限公司 | 图像处理方法、装置、设备及存储介质 |
CN111462164A (zh) * | 2020-03-12 | 2020-07-28 | 深圳奥比中光科技有限公司 | 一种前景分割方法以及基于图像合成的数据增强方法 |
CN112241960A (zh) * | 2020-10-01 | 2021-01-19 | 深圳奥比中光科技有限公司 | 一种基于深度信息的抠图方法及系统 |
CN112702615A (zh) * | 2020-11-27 | 2021-04-23 | 深圳市创成微电子有限公司 | 一种网络直播音视频处理方法及系统 |
CN112884776A (zh) * | 2021-01-22 | 2021-06-01 | 浙江大学 | 一种基于合成数据集增广的深度学习抠图方法 |
-
2021
- 2021-06-17 CN CN202110674087.0A patent/CN113362365A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170372479A1 (en) * | 2016-06-23 | 2017-12-28 | Intel Corporation | Segmentation of objects in videos using color and depth information |
CN110930296A (zh) * | 2019-11-20 | 2020-03-27 | Oppo广东移动通信有限公司 | 图像处理方法、装置、设备及存储介质 |
CN111462164A (zh) * | 2020-03-12 | 2020-07-28 | 深圳奥比中光科技有限公司 | 一种前景分割方法以及基于图像合成的数据增强方法 |
CN112241960A (zh) * | 2020-10-01 | 2021-01-19 | 深圳奥比中光科技有限公司 | 一种基于深度信息的抠图方法及系统 |
CN112702615A (zh) * | 2020-11-27 | 2021-04-23 | 深圳市创成微电子有限公司 | 一种网络直播音视频处理方法及系统 |
CN112884776A (zh) * | 2021-01-22 | 2021-06-01 | 浙江大学 | 一种基于合成数据集增广的深度学习抠图方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113837979A (zh) * | 2021-09-28 | 2021-12-24 | 北京奇艺世纪科技有限公司 | 直播图像合成方法、装置、终端设备以及可读存储介质 |
CN113837979B (zh) * | 2021-09-28 | 2024-03-29 | 北京奇艺世纪科技有限公司 | 直播图像合成方法、装置、终端设备以及可读存储介质 |
CN113963000A (zh) * | 2021-10-21 | 2022-01-21 | 北京字节跳动网络技术有限公司 | 图像分割方法、装置、电子设备及程序产品 |
CN113963000B (zh) * | 2021-10-21 | 2024-03-15 | 抖音视界有限公司 | 图像分割方法、装置、电子设备及程序产品 |
CN114040129A (zh) * | 2021-11-30 | 2022-02-11 | 北京字节跳动网络技术有限公司 | 视频生成方法、装置、设备及存储介质 |
CN114040129B (zh) * | 2021-11-30 | 2023-12-05 | 北京字节跳动网络技术有限公司 | 视频生成方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10937167B2 (en) | Automated generation of pre-labeled training data | |
US11983893B2 (en) | Systems and methods for hybrid depth regularization | |
CN113362365A (zh) | 视频处理方法、系统、装置及介质 | |
KR101940718B1 (ko) | Rgb-d 영상 기반 사람 영역 추출 장치 및 그 방법 | |
Gvili et al. | Depth keying | |
Wang et al. | Automatic natural video matting with depth | |
RU2426172C1 (ru) | Способ и система выделения данных об изображении объекта переднего плана на основе данных о цвете и глубине | |
JP4440681B2 (ja) | 様式化された画像を生成するための方法 | |
EP3794552A1 (en) | Motion compensation of geometry information | |
CN110599486A (zh) | 一种视频抄袭的检测方法及系统 | |
EP2463821A1 (en) | Method and system for segmenting an image | |
WO2017078847A1 (en) | Fusion of panoramic background images using color and depth data | |
JP2002216129A (ja) | 顔領域検出装置およびその方法並びにコンピュータ読み取り可能な記録媒体 | |
CN110276831B (zh) | 三维模型的建构方法和装置、设备、计算机可读存储介质 | |
KR20110119933A (ko) | 스테레오 카메라를 이용한 영상인식장치 및 방법 | |
CN106156691B (zh) | 复杂背景图像的处理方法及其装置 | |
CN116012232A (zh) | 图像处理方法、装置及存储介质、电子设备 | |
WO2019200785A1 (zh) | 快速手部跟踪方法、装置、终端及存储介质 | |
KR102327304B1 (ko) | 깊이영상 카메라로부터 획득된 3d 영상의 품질 향상 방법 | |
CN116612263B (zh) | 一种感知潜视觉合成一致性动态拟合的方法及装置 | |
KR101913623B1 (ko) | 촬영 이미지를 이용한 3차원 광고 생성 방법 | |
JP2000348173A (ja) | 唇抽出方法 | |
Ma et al. | Automatic video object segmentation using depth information and an active contour model | |
CA3204378A1 (en) | Method of training a neural network configured for converting 2d images into 3d models | |
JP2022147713A (ja) | 画像生成装置、学習装置、及び、画像生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |