CN110136163B - 手部运动模糊自动抠图及在人体软分割和背景更换的应用 - Google Patents

手部运动模糊自动抠图及在人体软分割和背景更换的应用 Download PDF

Info

Publication number
CN110136163B
CN110136163B CN201910356476.1A CN201910356476A CN110136163B CN 110136163 B CN110136163 B CN 110136163B CN 201910356476 A CN201910356476 A CN 201910356476A CN 110136163 B CN110136163 B CN 110136163B
Authority
CN
China
Prior art keywords
hand
image
matting
motion blur
human body
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910356476.1A
Other languages
English (en)
Other versions
CN110136163A (zh
Inventor
赵晓梅
吴毅红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201910356476.1A priority Critical patent/CN110136163B/zh
Publication of CN110136163A publication Critical patent/CN110136163A/zh
Application granted granted Critical
Publication of CN110136163B publication Critical patent/CN110136163B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/04Context-preserving transformations, e.g. by using an importance map
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/50Lighting effects
    • G06T15/503Blending, e.g. for anti-aliasing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/215Motion-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Graphics (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于图像识别、分割、抠图、虚拟数据生成领域,具体涉及了手部运动模糊自动抠图及在人体软分割和背景更换的应用,旨在解决运动模糊手部自动抠图效果不好及无法获得大量带标注运动模糊抠图训练数据的问题。本发明方法包括:采用手部运动模糊自动抠图网络对获取的运动模糊的手部图像进行自动抠图,获得手部抠图alpha结果图并输出;其中,手部运动模糊自动抠图网络的训练样本通过虚拟图像生成方法获得。本发明一方面在图像中人的手部存在严重运动模糊时,仍可以精确抠出人体并切换背景,带给用户极好的沉浸式体验;另一方面,虚拟运动模糊手部图片生成方法可以短时间内生成大量虚拟数据,有效解决训练样本不足、真值标注困难等问题。

Description

手部运动模糊自动抠图及在人体软分割和背景更换的应用
技术领域
本发明属于图像识别、分割、抠图、虚拟数据生成领域,具体涉及了手部运动模糊自动抠图及在人体软分割和背景更换的应用。
背景技术
现如今,越来越多人喜欢使用视频来进行交流,比如:视频聊天、视频会议、在线课堂等等。人体分割技术可以帮助人们对视频中的背景进行更换,从而使视频交流更加生动有趣,也使用户具有更好的沉浸式体验。另外,精确的人体分割对于进一步进行人体行为分析也具有重要意义。然而,现有分割方法主要针对清晰图像,而人们在使用视频进行交流时,经常会使用手势语言,此时,手部运动迅速,进而造成运动模糊。精确的手部分割对于人体分割至关重要,因为人的手势语言是人体最频繁使用的肢体语言。不良的手部分割会大大降低人们在使用背景更换时的真实感,也会严重影响进一步的人体行为分析。
然而,经典的分割方法无法处理运动模糊的前景。若想将图像中运动模糊的前景分离出来,需要使用抠图方法。但是,现有绝大多数针对运动模糊的抠图方法需要与用户交互,并且需要用户具有一定专业操作知识,耗费大量人力处理数据。而基于深度学习的抠图算法中,目前没有针对运动模糊的图像进行抠图的相关算法。若使用通用深度学习抠图算法进行运动模糊图像的抠图则会因缺乏大量的相关训练数据而导致抠图效果较差。
发明内容
为了解决现有技术中的上述问题,即运动模糊手部抠图效果不好以及无法获得大量带标注训练数据的问题,本发明提供了一种手部运动模糊自动抠图方法,包括:
步骤S10,获取运动模糊的手部图像作为输入图像;
步骤S20,基于所述输入图像,通过手部运动模糊自动抠图网络,获取手部抠图alpha结果图;所述手部运动模糊自动抠图网络为基于卷积神经网络构建并训练的用于对手部运动模糊图像自动进行手部抠图的网络;
步骤S30,将获取的手部抠图alpha结果图输出;
其中,所述手部运动模糊自动抠图网络,其训练方法为:
步骤B10,获取手部运动模糊图像集及其对应的真值标注图像集作为训练图像集;
步骤B20,随机选取所述手部运动模糊图像集中一个图像,通过手部运动模糊自动抠图网络,获取运动模糊的手部抠图alpha结果图;
步骤B30,将所述手部抠图alpha结果图与其对应的真值标注图进行对比计算总损失函数值,并采用误差反传的方法更新所述手部运动模糊自动抠图网络的权重;
步骤B40,重复执行步骤B20-步骤B30,直至达到预设的训练结束条件,获得训练好的手部运动模糊自动抠图网络。
在一些优选的实施例中,步骤B10中“手部运动模糊图像集及其对应的真值标注图像集”采用虚拟图像生成方法获得,该方法为:
步骤B101,获取包含手和手臂的图像,生成对应的二值掩膜图;
步骤B102,基于所述二值掩膜图,使用与手部运动旋转关节边缘相切的圆圈标注所述手部运动旋转关节;
步骤B103,以标注手部运动旋转关节的圆圈为中心,将手和手臂相应部位旋转预设的角度N次,获得N幅虚拟手部图像以及N幅虚拟手部图像对应的掩膜图;
步骤B104,将所述N幅虚拟手部图像叠加,记做图像SumI;将所述N幅虚拟手部图像对应的掩膜图叠加,记做图像SumM
步骤B105,基于所述图像SumI、图像SumM,计算虚拟运动模糊手部前景图像F:
Figure GDA0002807605580000031
以及对应的抠图真值标注图α:
Figure GDA0002807605580000032
步骤B106,将所述虚拟运动模糊手部前景图像F与获取的虚拟背景B叠加,获得手部运动模糊图像。
在一些优选的实施例中,所述总损失函数为:
Figure GDA0002807605580000033
其中,
Figure GDA0002807605580000034
为损失函数值;
Figure GDA0002807605580000035
为alpha损失函数;
Figure GDA0002807605580000036
为合成损失函数;ωα、ωI为超参数,代表alpha损失、合成损失在总损失中的权重。
在一些优选的实施例中,所述alpha损失函数为:
Figure GDA0002807605580000037
其中,
Figure GDA0002807605580000038
分别表示第i个像素位置抠图alpha结果图、抠图真值标注图的像素值,M代表图像中像素的总个数。
在一些优选的实施例中,所述合成损失函数为:
Figure GDA0002807605580000039
其中,
Figure GDA00028076055800000310
分别表示第i个像素位置依据抠图alpha结果图得到的合成图像、依据抠图真值标注图得到的合成图像的像素值,M代表图像中像素的总个数。
在一些优选的实施例中,所述依据抠图alpha结果图得到的合成图像、所述依据抠图真值标注图得到的合成图像,其获取方法分别为:
Ip=αp·F+(1-αp)·B
Ig=αg·F+(1-αg)·B
其中,Ip、Ig分别代表依据抠图alpha结果图得到的合成图像、依据抠图真值标注图得到的合成图像,αp、αg分别表示抠图alpha结果图、对应抠图真值标注图;F代表虚拟背景,B代表虚拟前景。
本发明的另一方面,提出了一种手部运动模糊自动抠图方法在视频人体软分割和背景更换的应用,基于上述的手部运动模糊抠图方法,获得运动模糊的手部抠图,并执行以下步骤:
步骤G10,获取人体视频RGB图像作为输入图像;
步骤G20,基于所述输入图像,通过人体分割网络,提取人体分割掩膜,并基于所述人体分割掩膜与所述输入图像,获得人体分割RGB结果图;
步骤G30,融合所述人体分割掩膜与所述运动模糊的手部抠图alpha结果图,获得人体软分割结果图;融合所述人体分割RGB结果图与所述运动模糊的手部抠图RGB结果图,获得人体软分割彩色图像;所述手部抠图RGB结果图通过输入图像和手部抠图alpha结果图计算得到;
步骤G40,基于所述人体软分割结果图与所述人体软分割彩色图像,以及输入的背景数据库中的背景图像,获得替换背景后的新图像。
本发明的第三方面,提出了一种手部运动模糊自动抠图系统,包括输入模块、运动模糊抠图模块、输出模块;
所述输入模块,配置为获取运动模糊的手部图像作为输入图像并输入;
所述运动模糊抠图模块,配置为基于输入图像,通过手部运动模糊自动抠图网络,获取手部抠图alpha结果图;
所述输出模块,配置为将获取的手部抠图alpha结果图输出;
其中,所述运动模糊抠图模块,包括虚拟训练图像生成模块、损失计算与权重更新模块、循环模块;
所述虚拟训练图像生成模块,配置为通过虚拟图像生成的方法获得训练集图像;
所述损失计算与权重更新模块,配置为基于训练集图像计算损失函数并更新运动模糊抠图模块的权重;
所述循环模块,配置为基于训练集图像中随机一个图像控制损失计算与权重更新模块重复进行损失计算与权重更新,直至达到预设的训练结束条件。
本发明的第四方面,提出了一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的手部运动模糊自动抠图方法。
本发明的第五方面,提出了一种处理装置,包括处理器、存储装置;所述处理器,适于执行各条程序;所述存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的手部运动模糊自动抠图方法。
本发明的有益效果:
(1)本发明手部运动模糊自动抠图方法有效克服现有人体分割算法在运动模糊的人手位置分割效果不好的问题,在人手部存在严重运动模糊时,仍然可以精确抠出人体并切换背景,带给用户极好的沉浸式体验。
(2)本发明提出的虚拟手部运动模糊图片生成方法可以短时间内生成大量虚拟数据,有效解决训练样本不足、真值标注困难等问题。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本发明手部运动模糊自动抠图方法的流程示意图;
图2是本发明手部运动模糊自动抠图方法一种实施例的运动模糊手部虚拟图片生成流程示意图;
图3是本发明手部运动模糊自动抠图方法一种实施例的选取不同的虚拟时间段产生不同虚拟运动模糊手部图片示意图;
图4是本发明手部运动模糊自动抠图方法一种实施例的在视频中融合人体分割结果最终实现人体软分割和背景更换的流程示意图;
图5是本发明手部运动模糊自动抠图方法一种实施例的运动模糊抠图网络结构示意图;
图6是本发明手部运动模糊自动抠图方法一种实施例的在虚拟数据上的抠图结果示例图;
图7是本发明手部运动模糊自动抠图方法一种实施例的在真实视频中与人体分割结果融合实现人体软分割并进行背景更换的输出结果示例图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
本发明的一种手部运动模糊自动抠图方法,包括:
步骤S10,获取运动模糊的手部图像作为输入图像;
步骤S20,基于所述输入图像,通过手部运动模糊自动抠图网络,获取手部抠图alpha结果图;所述手部运动模糊自动抠图网络为基于卷积神经网络构建并训练的用于对运动模糊图像自动进行手部抠图的网络;
步骤S30,将获取的手部抠图alpha结果图输出;
其中,所述手部运动模糊自动抠图网络,其训练方法为:
步骤B10,获取手部运动模糊图像集及其对应的真值标注图像集作为训练图像集;
步骤B20,随机选取所述手部运动模糊图像集中一个图像,通过手部运动模糊自动抠图网络,获取运动模糊的手部抠图alpha结果图;
步骤B30,将所述手部抠图alpha结果图与其对应的真值标注图进行对比计算总损失函数值,并采用误差反传的方法更新所述手部运动模糊自动抠图网络的权重;
步骤B40,重复执行步骤B20-步骤B30,直至达到预设的训练结束条件,获得训练好的手部运动模糊自动抠图网络。
为了更清晰地对本发明手部运动模糊自动抠图方法进行说明,下面结合图1对本发明方法实施例中各步骤展开详述。
本发明一种实施例的手部运动模糊自动抠图方法,包括步骤S10-步骤S30,各步骤详细描述如下:
步骤S10,获取运动模糊的手部图像作为输入图像。
在摄像时相机和被摄物之间有相对运动而造成的图像模糊称为运动模糊(或者说动态模糊),所得到图像中的景物和/或人物等往往会模糊不清,我们称之为运动模糊图像。
步骤S20,基于所述输入图像,通过手部运动模糊自动抠图网络,获取手部抠图alpha结果图;所述手部运动模糊自动抠图网络为基于卷积神经网络构建并训练的用于对运动模糊图像自动进行手部抠图的网络。
精确的手部图像分割对于人体分割技术十分重要,然而,视频图像中,手部经常存在严重的运动模糊,在运动模糊处,极难得到精确的分割结果。
本发明中针对运动模糊的手部自动抠图方法以卷积神经网络为基础,采用大量的运动模糊图像及其对应的真值标注图像作为训练集,训练好的手部运动模糊自动抠图网络,在手部存在严重运动模糊时,仍然可以精确抠出手部,为下一步进行人体软分割及背景更换打下基础,可以带给用户极好的沉浸式体验。
手部运动模糊自动抠图网络,其训练方法为:
步骤B10,获取手部运动模糊图像集及其对应的真值标注图像集作为训练图像集。
网络训练所需的大量带标注的训练数据,很难通过对真实的运动模糊图片进行真值标注得到,因而,本发明提供一种虚拟图像生成方法,用于生成手部运动模糊自动抠图网络训练的运动模糊手部图片和对应的真值标注图。
步骤B10中“手部运动模糊图像集及其对应的真值标注图像集”采用虚拟图像生成的方法获得,该方法为:
虚拟运动模糊手部图像生成基于的预设条件:在一次相机曝光过程中,人的手指保持相同姿态,人手部的运动仅由旋转腕关节、肘关节、肩关节造成,以旋转腕关节为例详细说明虚拟图像生成方法。
如图2所示,为本发明手部运动模糊自动抠图方法一种实施例的运动模糊手部虚拟图片生成流程示意图:Step1代表获取包含手和手臂的图像,生成对应的二值掩膜图;Step2代表通过与手部运动旋转关节边缘相切的圆圈标注所述手部运动旋转关节;Step3代表以标注手部运动旋转关节的圆圈为中心,将手和手臂相应部位旋转预设的角度N次,获得N幅虚拟手部图像以及N幅虚拟手部图像对应的掩膜图;Step4代表将所述N幅虚拟手部图像叠加,记做图像SumI,将所述N幅虚拟手部图像对应的掩膜图叠加,记做图像SumM;Step5代表计算虚拟运动模糊手部前景图像F以及对应的抠图真值标注图α;Step6代表将虚拟运动模糊手部前景图像F与获取的虚拟背景B叠加,获得手部运动模糊图像I。
步骤B101,获取包含手和手臂的图像,生成对应的二值掩膜图。本发明一个实施例中,采用人机交互的方式,通过美图秀秀软件将手和手臂分割出来,并生成对应的二值掩膜图。
步骤B102,基于所述二值掩膜图,通过与手部运动旋转关节边缘相切的圆圈标注所述手部运动旋转关节。
本发明一个实施例中,采用一个小圆圈对步骤B101获得的二值掩膜图中的手腕进行标注,圆圈与手腕部的边缘相切。当图片中的腕关节不可见时,可以依靠经验对手腕位置进行估计。
步骤B103,以标注手部运动旋转关节的圆圈为中心,将手和手臂相应部位旋转预设的角度N次,获得N幅虚拟手部图像以及N幅虚拟手部图像对应的掩膜图。
本发明一个实施例中,设定旋转角度为θ,设定虚拟时间段[tstart,tend],设定旋转时间间隔为
Figure GDA0002807605580000091
在虚拟时间段内,每间隔
Figure GDA0002807605580000092
旋转一次,共旋转N次,时间t和旋转角度θ的关系符合预设的映射关系:θ=f(t),映射关系f()可以任意设置,比如,可以设置为线性函数、对数函数、sigmoid函数等等。
步骤B104,将所述N幅虚拟手部图像叠加,记做图像SumI;将所述N幅虚拟手部图像对应的掩膜图叠加,记做图像SumM
步骤B105,基于所述图像SumI、图像SumM,计算虚拟运动模糊手部前景图像F以及对应的抠图真值标注图α,分别如式(1)和式(2)所示:
Figure GDA0002807605580000101
Figure GDA0002807605580000102
若在步骤B103中,采用不同的映射函数f()或选取不同的虚拟时间段,在步骤B105后将得到不同的虚拟运动模糊图像。如图3所示,为本发明手部运动模糊自动抠图方法一种实施例的选取不同的虚拟时间段产生不同虚拟运动模糊手部图片示意图,其中,映射函数为:
Figure GDA0002807605580000103
不同的大括号代表选取的不同虚拟时间段,对应生成的手部运动模糊虚拟图像也不同,图3中所示虚拟运动模糊图像为α·F。
步骤B106,将所述虚拟运动模糊手部前景图像F与获取的虚拟背景B叠加,获得手部运动模糊图像I,如式(3)所示:
I=α·F+(1-α)·B 式(3)
本发明一个实施例中,虚拟背景B取自COCO数据集。
步骤B20,随机选取所述手部运动模糊图像集中一个图像,通过手部运动模糊自动抠图网络,获取运动模糊的手部抠图alpha结果图。
当人手在相机面前快速运动,以至于相机曝光时间内人手有明显的位移,相机捕获的人手图片中将存在运动模糊。此时图片中位置i处的像素Ii由人手前景颜色Fi和背景颜色Bi组合而成,如式(4)所示:
Ii=αi·Fi+(1-αi)·Bii∈[0,1] 式(4)
手部运动模糊自动抠图网络的目标输出就是由αi构成的α,即手部抠图alpha结果图。
本发明一个实施例中,手部运动模糊自动抠图网络以基于卷积神经网络的编码-解码网络为基础,其中编码网络使用Xception网络,解码网络包括依次进行的3步双线性差值上采样,每步上采样结果与编码网络中对应尺寸的底层特征并联并送入接下来的卷积层中处理。如图5所示,为本发明手部运动模糊自动抠图方法一种实施例的运动模糊抠图网络结构示意图,其中:Input代表输入的待抠图的图像;0.5x、4x、2x分别代表将特征图尺寸变为原尺寸的0.5倍、4倍、2倍大小;Skip connection代表跨层链接,即将编码网络中的底层特征图并入解码网络中;Output代表获取的手部抠图alpha结果图。
步骤B30,将所述手部抠图alpha结果图与其对应的真值标注图进行对比计算总损失函数值,并采用误差反传的方法更新所述手部运动模糊自动抠图网络的权重。
总损失函数,如式(5)所示:
Figure GDA0002807605580000111
其中,
Figure GDA0002807605580000112
为损失函数值;
Figure GDA0002807605580000113
为alpha损失函数;
Figure GDA0002807605580000114
为合成损失函数;ωα、ωI为超参数,代表alpha损失、合成损失在总损失中的权重。
alpha损失函数,如式(6)所示:
Figure GDA0002807605580000115
其中,
Figure GDA0002807605580000121
分别表示第i个像素位置抠图alpha结果图、抠图真值标注图的像素值,M代表图像中像素的总个数。
合成损失函数,如式(7)所示:
Figure GDA0002807605580000122
其中,
Figure GDA0002807605580000123
分别表示第i个像素位置依据抠图alpha结果图得到的合成图像、依据抠图真值标注图得到的合成图像的像素值,M代表图像中像素的总个数。
依据抠图alpha结果图得到的合成图像、依据抠图真值标注图得到的合成图像,其获取方法分别如式(8)和式(9)所示:
Ip=αp·F+(1-αp)·B 式(8)
Ig=αg·F+(1-αg)·B 式(9)
其中,Ip、Ig分别代表依据抠图alpha结果图得到的合成图像、依据抠图真值标注图得到的合成图像;αp、αg分别表示抠图alpha结果图、对应真值标注图;F代表虚拟背景;B代表虚拟前景。
步骤B40,重复执行步骤B20-步骤B30,直至达到预设的训练结束条件,获得训练好的手部运动模糊自动抠图网络。
该训练好的网络可以实现运动模糊手部的自动抠图。
步骤S30,将获取的手部抠图alpha结果图输出。
图4中(a)→(d)→(g)的过程为对视频帧图像中运动模糊的手部进行抠图。
本发明一个实施例中,输出的手部抠图alpha结果图αp如图4(d)所示,接下来基于手部抠图alpha结果图αp计算手部抠图RGB结果图ARGB,输出结果如图4(g)所示,图像中第i个像素计算方法如式(10)所示:
Figure GDA0002807605580000131
其中,Ii为当前帧图像中第i个像素的像素值,Bi为背景图像B中第i个像素的像素值。背景图片如图4(f)所示,由与当前帧中手具有不同位置的相邻帧得到,满足条件的相邻帧如图4中(e)所示。
本发明第二实施例的手部运动模糊自动抠图方法在视频人体软分割和背景更换的应用,基于上述的手部运动模糊自动抠图方法,获得运动模糊的手部抠图alpha结果图和RGB结果图,并执行以下步骤:
如图4所示,为本发明手部运动模糊自动抠图方法一种实施例的在视频中实现人体软分割和背景更换的流程示意图,包括:对视频帧中运动模糊的手进行自动抠图、对视频帧中的人体进行分割、融合运动模糊手部的抠图结果和人体的分割结果构成人体软分割结果、背景更换。Segmentation network代表人体分割网络,Matting network代表本发明的手部运动模糊自动抠图网络。
步骤G10,获取人体视频RGB图像作为输入图像。
本发明一个实施例中,对于视频帧图像中的人体进行分割。
步骤G20,基于所述输入图像,通过人体分割网络,提取人体分割掩膜,并基于所述人体分割掩膜与所述输入图像,获得人体分割RGB结果图。
如图4中(a)→(b)→(c)的过程,为视频帧图像人体分割过程。本发明一个实施例中,采用改进的分割网络Deeplab V3+进行人体分割。现有的Deeplab V3+解码网络中有两步上采样的过程,其中,仅在第一步上采样后通过跨层连接引入底层特征,本发明改进的Deeplab V3+采用三步上采样,并在每一步上采样后引入底层特征,有利于获得更加准确的分割边界。
人体分割网络以RGB图像I作为输入,输出人体分割掩膜结果hM,如图4中(b)所示。由输入图像I和人体分割掩膜结果hM计算人体分割RGB结果图HRGB,如图4中(c)所示,其计算方法如式(11)所示:
HRGB=I·hM 式(11)
步骤G30,融合所述人体分割掩膜与所述运动模糊的手部抠图alpha结果图,获得人体软分割结果图;融合所述人体分割RGB结果图与所述运动模糊的手部抠图RGB结果图,获得人体软分割彩色图像;所述手部抠图RGB结果图通过输入图像和手部抠图alpha结果图计算得到。
如图4中(b)&(d)→(h)和(c)&(g)→(i)的过程,为融合运动模糊的手部抠图结果和人体分割结果构成人体软分割结果的过程。
本发明实施例中,人体软分割结果由两部分构成:一是人体软分割的结果图SM,一是人体软分割的彩色图像SI
人体软分割的结果SM,如图4中(h)所示,第i个像素值计算方法如式(12)所示:
Figure GDA0002807605580000141
其中,
Figure GDA0002807605580000142
表示第i个像素处运动模糊的手部抠图alpha结果图αp中的值,为属于[0,1]之间的小数;
Figure GDA0002807605580000143
表示第i个像素处人体分割掩膜hM中的值,为0或1的二值数。
人体软分割的彩色图像SI,如图4中(i)所示,第i个像素值计算方法如式(13)所示,其中:
Figure GDA0002807605580000144
表示抠图RGB结果图中第i个像素的值,
Figure GDA0002807605580000145
表示人体分割RGB结果图中第i个像素的值。
Figure GDA0002807605580000151
步骤G40,基于所述人体软分割结果图与所述人体软分割彩色图像,以及输入的背景数据库中的背景图像,获得更换背景后的新图像。
如图4中(h)&(i)&(j)→(k)的过程所示,为背景更换过程。用Bnew表示新的背景图片,如图4中(j)所示;Inew表示更换背景后的新的图片,如图4中(k)所示。Inew计算方法如式(14)所示:
Inew=SI+(1-SM)·Bnew 式(14)
如图6所示,为本发明手部运动模糊自动抠图方法一种实施例的在虚拟数据上的抠图结果示例图,对比图6第二行中抠图的真值标注图和第三行中的抠图alpha结果图,可见,本发明中运动模糊自动抠图方法在虚拟运动模糊的手部图片中具有良好的抠图效果。
如图7所示,为本发明手部运动模糊自动抠图方法一种实施例的在真实视频中与人体分割结果融合生成人体软分割并进行背景更换的输出结果示例图,第一列为真实视频帧图像,第二列为人体分割掩膜结果hM,第三列为运动模糊的手部抠图alpha结果图αp,第四列为人体软分割结果SM,第五列为人体软分割彩色输出结果SI,第六列为更换背景后的输出图像,可见,本发明公开的方法,在运动模糊的人手位置,可以精确抠出前景并与背景自然融合,能够带给用户很高的真实感。
本发明第三实施例的手部运动模糊自动抠图系统,包括输入模块、运动模糊抠图模块、输出模块;
所述输入模块,配置为获取运动模糊的手部图像作为输入图像并输入;
所述运动模糊抠图模块,配置为基于输入图像,通过手部运动模糊自动抠图网络,获取手部抠图alpha结果图;
所述输出模块,配置为将获取的手部抠图alpha结果图输出;
其中,所述运动模糊抠图模块,包括虚拟训练图像生成模块、损失计算与权重更新模块、循环模块;
所述虚拟训练图像生成模块,配置为通过虚拟图像生成的方法获得训练集图像;
所述损失计算与权重更新模块,配置为,基于训练集图像计算损失函数并更新运动模糊抠图模块的权重;
所述循环模块,配置为基于训练集图像中随机一个图像控制损失计算与权重更新模块重复进行损失计算与权重更新,直至达到预设的训练结束条件。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的手部运动模糊自动抠图系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
本发明第四实施例的一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的手部运动模糊自动抠图方法。
本发明第五实施例的一种处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的手部运动模糊自动抠图方法。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (10)

1.一种手部运动模糊自动抠图方法,其特征在于,包括:
步骤S10,获取运动模糊的手部图像作为输入图像;
步骤S20,基于所述输入图像,通过手部运动模糊自动抠图网络,获取手部抠图alpha结果图;所述手部运动模糊自动抠图网络为基于卷积神经网络构建并训练的用于对运动模糊图像自动进行手部抠图的网络;
步骤S30,将获取的手部抠图alpha结果图输出;
其中,所述手部运动模糊自动抠图网络,其训练方法为:
步骤B10,获取手部运动模糊图像集及其对应的真值标注图像集作为训练图像集;
步骤B20,随机选取所述手部运动模糊图像集中一个图像,通过手部运动模糊自动抠图网络,获取运动模糊的手部抠图alpha结果图;
步骤B30,将所述手部抠图alpha结果图与其对应的真值标注图进行对比计算总损失函数值,并采用误差反传的方法更新所述手部运动模糊自动抠图网络的权重;
步骤B40,重复执行步骤B20-步骤B30,直至达到预设的训练结束条件,获得训练好的手部运动模糊自动抠图网络。
2.根据权利要求1所述的手部运动模糊自动抠图方法,其特征在于,步骤B10中“手部运动模糊图像集及其对应的真值标注图像集”采用虚拟图像生成的方法获得,该方法为:
步骤B101,获取包含手和手臂的图像,生成对应的二值掩膜图;
步骤B102,基于所述二值掩膜图,通过与手部运动旋转关节边缘相切的圆圈标注所述手部运动旋转关节;
步骤B103,以标注手部运动旋转关节的圆圈为中心,将手和手臂相应部位旋转预设的角度N次,获得N幅虚拟手部图像以及N幅虚拟手部图像对应的掩膜图;
步骤B104,将所述N幅虚拟手部图像叠加,记做图像SumI;将所述N幅虚拟手部图像对应的掩膜图叠加,记做图像SumM
步骤B105,基于所述图像SumI、图像SumM,计算虚拟运动模糊手部前景图像F:
Figure FDA0002807605570000021
以及对应的抠图真值标注图α:
Figure FDA0002807605570000022
步骤B106,将所述虚拟运动手部前景图像F与输入的虚拟背景B叠加,获得手部运动模糊图像。
3.根据权利要求1所述的手部运动模糊自动抠图方法,其特征在于,所述总损失函数为:
Figure FDA0002807605570000023
其中,
Figure FDA0002807605570000024
为损失函数值;
Figure FDA0002807605570000025
为alpha损失函数;
Figure FDA0002807605570000026
为合成损失函数;ωα、ωI为超参数,代表alpha损失、合成损失在总损失中的权重。
4.根据权利要求3所述的手部运动模糊自动抠图方法,其特征在于,所述alpha损失函数为:
Figure FDA0002807605570000027
其中,
Figure FDA0002807605570000028
分别表示第i个像素位置抠图alpha结果图、抠图真值标注图的像素值,M代表图像中像素的总个数。
5.根据权利要求3所述的手部运动模糊自动抠图方法,其特征在于,所述合成损失函数为:
Figure FDA0002807605570000029
其中,
Figure FDA0002807605570000031
分别表示第i个像素位置依据抠图alpha结果图得到的合成图像、依据抠图真值标注图得到的合成图像的像素值,M代表图像中像素的总个数。
6.根据权利要求5所述的手部运动模糊自动抠图方法,其特征在于,所述依据抠图alpha结果图得到的合成图像、所述依据抠图真值标注图得到的合成图像,其获取方法分别为:
Ip=αp·F+(1-αp)·B
Ig=αg·F+(1-αg)·B
其中,Ip、Ig分别代表依据抠图alpha结果图得到的合成图像、依据抠图真值标注图得到的合成图像;αp、αg分别表示抠图alpha结果图、对应真值标注图;F代表虚拟背景;B代表虚拟前景。
7.一种手部运动模糊自动抠图方法在视频人体软分割和背景更换的应用方法,其特征在于,基于权利要求1-6任一项所述的手部运动模糊自动抠图方法,获得运动模糊的手部抠图alpha结果图,并执行以下步骤:
步骤G10,获取人体视频RGB图像作为输入图像;
步骤G20,基于所述输入图像,通过人体分割网络,提取人体分割掩膜,并基于所述人体分割掩膜与所述输入图像,获得人体分割的RGB结果图像;
步骤G30,融合所述人体分割掩膜与所述运动模糊的手部抠图alpha结果图,获得人体软分割结果图;融合所述人体分割的RGB结果图与所述运动模糊的手部抠图RGB结果图,获得人体软分割彩色图像;所述手部抠图RGB结果图通过输入图像和手部抠图alpha结果图计算得到;
步骤G40,基于所述人体软分割结果图与所述人体软分割彩色图像,以及输入的背景数据库中的背景图像,获得更换背景后的新图像。
8.一种手部运动模糊自动抠图系统,其特征在于,包括输入模块、运动模糊抠图模块、输出模块;
所述输入模块,配置为获取运动模糊的手部图像作为输入图像并输入;
所述运动模糊抠图模块,配置为基于输入图像,通过手部运动模糊自动抠图网络,获取手部抠图alpha结果图;
所述输出模块,配置为将获取的手部抠图alpha结果图输出;
其中,所述运动模糊抠图模块,包括虚拟训练图像生成模块、损失计算与权重更新模块、循环模块;
所述虚拟训练图像生成模块,配置为通过虚拟图像生成的方法获得训练集图像;
所述损失计算与权重更新模块,配置为,基于训练集图像计算损失函数并更新运动模糊抠图模块的权重;
所述循环模块,配置为基于训练集图像中随机一个图像控制损失计算与权重更新模块重复进行损失计算与权重更新,直至达到预设的训练结束条件。
9.一种存储装置,其中存储有多条程序,其特征在于,所述程序适于由处理器加载并执行以实现权利要求1-6任一项所述的手部运动模糊自动抠图方法。
10.一种处理装置,包括
处理器,适于执行各条程序;以及
存储装置,适于存储多条程序;
其特征在于,所述程序适于由处理器加载并执行以实现:
权利要求1-6任一项所述的手部运动模糊自动抠图方法。
CN201910356476.1A 2019-04-29 2019-04-29 手部运动模糊自动抠图及在人体软分割和背景更换的应用 Active CN110136163B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910356476.1A CN110136163B (zh) 2019-04-29 2019-04-29 手部运动模糊自动抠图及在人体软分割和背景更换的应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910356476.1A CN110136163B (zh) 2019-04-29 2019-04-29 手部运动模糊自动抠图及在人体软分割和背景更换的应用

Publications (2)

Publication Number Publication Date
CN110136163A CN110136163A (zh) 2019-08-16
CN110136163B true CN110136163B (zh) 2021-02-12

Family

ID=67575737

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910356476.1A Active CN110136163B (zh) 2019-04-29 2019-04-29 手部运动模糊自动抠图及在人体软分割和背景更换的应用

Country Status (1)

Country Link
CN (1) CN110136163B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110992395B (zh) * 2019-11-01 2023-08-18 北京达佳互联信息技术有限公司 图像训练样本的生成方法及装置、运动跟踪方法及装置
CN111951154B (zh) * 2020-08-14 2023-11-21 中国工商银行股份有限公司 包含背景和介质的图片的生成方法及装置
CN113538456B (zh) * 2021-06-22 2022-03-18 复旦大学 基于gan网络的图像软分割及背景替换系统
CN113436097B (zh) * 2021-06-24 2022-08-02 湖南快乐阳光互动娱乐传媒有限公司 一种视频抠图方法、装置、存储介质和设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009025992A2 (en) * 2007-08-17 2009-02-26 Microsoft Corporation Efficient text input for game controllers and handheld devices
CN103679154A (zh) * 2013-12-26 2014-03-26 中国科学院自动化研究所 基于深度图像的三维手势动作的识别方法
CN105847674A (zh) * 2016-03-25 2016-08-10 维沃移动通信有限公司 一种基于移动终端的预览图像处理方法及移动终端
CN108447064A (zh) * 2018-02-28 2018-08-24 苏宁易购集团股份有限公司 一种图片处理方法及装置
CN109145922A (zh) * 2018-09-10 2019-01-04 成都品果科技有限公司 一种自动抠图系统
CN109658413A (zh) * 2018-12-12 2019-04-19 深圳前海达闼云端智能科技有限公司 一种机器人目标物体抓取位置检测的方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101765019B (zh) * 2008-12-25 2012-07-18 北京大学 一种用于运动模糊和光照变化图像的立体匹配方法
CN107230182B (zh) * 2017-08-03 2021-11-09 腾讯科技(深圳)有限公司 一种图像的处理方法、装置以及存储介质
CN108198128B (zh) * 2017-12-12 2021-12-03 北京美摄网络科技有限公司 一种alpha通道边界腐蚀的方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009025992A2 (en) * 2007-08-17 2009-02-26 Microsoft Corporation Efficient text input for game controllers and handheld devices
CN103679154A (zh) * 2013-12-26 2014-03-26 中国科学院自动化研究所 基于深度图像的三维手势动作的识别方法
CN105847674A (zh) * 2016-03-25 2016-08-10 维沃移动通信有限公司 一种基于移动终端的预览图像处理方法及移动终端
CN108447064A (zh) * 2018-02-28 2018-08-24 苏宁易购集团股份有限公司 一种图片处理方法及装置
CN109145922A (zh) * 2018-09-10 2019-01-04 成都品果科技有限公司 一种自动抠图系统
CN109658413A (zh) * 2018-12-12 2019-04-19 深圳前海达闼云端智能科技有限公司 一种机器人目标物体抓取位置检测的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Alpha Matting of Motion-Blurred Objects in Bracket Sequence Images;Heesoo Myeong等;《ECCV 2014: Computer Vision-ECCV 2014》;20141231;第125-139页 *

Also Published As

Publication number Publication date
CN110136163A (zh) 2019-08-16

Similar Documents

Publication Publication Date Title
CN110136163B (zh) 手部运动模糊自动抠图及在人体软分割和背景更换的应用
Zhang et al. Cross-modality discrepant interaction network for RGB-D salient object detection
Zhu et al. A benchmark for edge-preserving image smoothing
Fang et al. Demo2vec: Reasoning object affordances from online videos
Kemelmacher-Shlizerman et al. Exploring photobios
CN112308763A (zh) 利用具有双流编码器架构的神经网络来生成合成数字图像
CN110660017A (zh) 一种基于三维姿态识别的舞谱记录与演示方法
CN111199531A (zh) 基于泊松图像融合及图像风格化的交互式数据扩展方法
WO2019235192A1 (ja) 領域抽出モデル学習装置、領域抽出モデル学習方法、プログラム
Beyeler OpenCV with Python blueprints
CN111626284A (zh) 一种手写字体去除的方法、装置、电子设备和存储介质
CN112529913A (zh) 图像分割模型训练方法、图像处理方法及装置
CN113052755A (zh) 一种基于深度学习的高分辨率图像智能化抠图方法
Zhou et al. FSAD-Net: Feedback spatial attention dehazing network
CN114529639A (zh) 一种生成虚拟形象动画的方法、装置、设备及存储介质
CN112634282A (zh) 图像处理方法、装置以及电子设备
CN112070181B (zh) 一种基于图像流的协同检测方法及装置、存储介质
CN112613374A (zh) 人脸可见区域解析与分割方法、人脸上妆方法及移动终端
Rigaki et al. An approach towards artistic visualizations of human motion in static media inspired by the visual arts
Jin et al. Automatic and real-time green screen keying
Wang et al. Action snapshot with single pose and viewpoint
CN115836319A (zh) 图像处理方法及装置
Lin et al. CG animation creator: auto-rendering of motion stick figure based on conditional adversarial learning
Olshevsky et al. Realistic Occlusion of Virtual Objects Using Three-Dimensional Hand Model
Gui et al. DLP-GAN: learning to draw modern Chinese landscape photos with generative adversarial network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant