CN105243670A - 一种稀疏和低秩联合表达的视频前景对象精准提取方法 - Google Patents

一种稀疏和低秩联合表达的视频前景对象精准提取方法 Download PDF

Info

Publication number
CN105243670A
CN105243670A CN201510695505.9A CN201510695505A CN105243670A CN 105243670 A CN105243670 A CN 105243670A CN 201510695505 A CN201510695505 A CN 201510695505A CN 105243670 A CN105243670 A CN 105243670A
Authority
CN
China
Prior art keywords
dictionary
input video
pixel
points
pixel points
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510695505.9A
Other languages
English (en)
Other versions
CN105243670B (zh
Inventor
陈小武
邹冬青
曹光英
王小刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN201510695505.9A priority Critical patent/CN105243670B/zh
Publication of CN105243670A publication Critical patent/CN105243670A/zh
Priority to US15/182,459 priority patent/US10235571B2/en
Application granted granted Critical
Publication of CN105243670B publication Critical patent/CN105243670B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2134Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on separation criteria, e.g. independent component analysis
    • G06F18/21345Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on separation criteria, e.g. independent component analysis enforcing sparsity or involving a domain transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/28Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/40Software arrangements specially adapted for pattern recognition, e.g. user interfaces or toolboxes therefor
    • G06F18/41Interactive pattern learning with a human teacher
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/772Determining representative reference patterns, e.g. averaging or distorting patterns; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/778Active pattern-learning, e.g. online learning of image or video features
    • G06V10/7784Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors
    • G06V10/7788Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors the supervisor being a human, e.g. interactive learning with a human teacher
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20072Graph-based image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20092Interactive image processing based on input by user
    • G06T2207/20104Interactive definition of region of interest [ROI]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明提供一种稀疏和低秩联合表达的视频前景对象精准提取方法,该方法首先选取输入视频中能够代表视频特征的帧作为关键帧,然后根据关键帧中的已知像素点训练出字典,接着根据字典获取满足低秩、稀疏和非负约束的重构系数,并根据重构系数建立输入视频中每个像素之间的非局部关系矩阵,同时建立多帧之间的拉普拉斯矩阵,再根据输入视频的已知像素点的α值和字典中样本点的α值、非局部关系矩阵和拉普拉斯矩阵,获取输入视频的视频掩像,最后根据视频掩像提取出输入视频的前景对象,保证了视频掩像在时域上的一致性,提高了提取的前景对象的质量。

Description

一种稀疏和低秩联合表达的视频前景对象精准提取方法
技术领域
本发明涉及图像处理技术,尤其涉及一种稀疏和低秩联合表达的视频前景对象精准提取方法。
背景技术
视频前景对象精准提取旨在视频中提取出移动的前景物体,并且能够保证良好的时域一致性。视频前景对象精准提取作为计算机视觉领域的重要技术问题,在毛发建模、去雾等方面具有广泛的应用,近几年有不少提取方法也相继被提出,以实现在复杂的视频图像中提取高质量的前景对象。
随着稀疏表达已经被广泛地应用于人脸识别、图像分类、图像修复和视频去噪等领域,Jubin等人提出了基于稀疏表达的图像前景物体精准提取的方法,该方法用整个视频的前景像素点重构原图像,根据稀疏表达系数矩阵中每个像素点相应系数的和来估计像素点的不透明度α(alpha)值。该方法能够自动选取合适的样本点来重构原图像,但是其不能保证具有相似特征的像素点的α值相近,从而不能保证视频掩像(alphamatte)的时域一致性,且只采用前景像素点作为字典,表达能力差,从而导致采用该方法提取的前景对象质量不高。
X.Chen和Q.Chen等人提出了引入非局部先验的方法来获取视频掩像,通过构建视频掩像的非局部结构来提高提取质量。该方法在实现时,对每个像素点都直接选取固定数量的样本点来重构该像素点,但是样本点选取少了会导致遗漏掉好的样本点,样本点选取多了会导致噪声,并且很难为具备相似特征的像素点构建一致的非局部结构,这样可能会导致视频掩像时域上的不一致,从而采用该方法提取的背景对象质量不高。
上述两种方法,在进行视频前景对象提取时,都具有诸多缺点而导致提取的背景对象质量不高,因此,有必要提出一种新的方案来提高提取的前景对象的质量。
发明内容
针对现有技术的上述缺陷,本发明提供一种稀疏和低秩联合表达的视频前景对象精准提取方法,用于提高提取的前景对象的质量。
本发明提供一种稀疏和低秩联合表达的视频前景对象精准提取方法,包括:
确定输入视频中的已知像素点和未知像素点,设置已知像素点的不透明度α值,并选取输入视频中能够代表视频特征的帧作为关键帧,其中已知像素点包括前景像素点和背景像素点;根据关键帧中的已知像素点训练出字典,并设置字典中样本点的α值,字典包括前景字典和背景字典;根据字典获取输入视频关于字典的重构系数,并根据重构系数建立输入视频中每个像素之间的非局部关系矩阵,其中,重构系数满足低秩、稀疏和非负;建立多帧之间的拉普拉斯矩阵;根据输入视频的已知像素点的α值和字典中样本点的α值、非局部关系矩阵和拉普拉斯矩阵,获取输入视频的视频掩像;根据视频掩像提取出输入视频的前景对象。
在本发明的一实施例中,确定输入视频中的已知像素点和未知像素点,具体包括:
采用画笔式交互标记确定输入视频中的已知像素点和未知像素点,或者,根据输入视频的三分图确定输入视频中的已知像素点和未知像素点。
在本发明的一实施例中,设置已知像素点的不透明度α值,具体包括:
将已知的前景像素点的α值设置为1,将已知的背景像素点的α值设置为0。
在本发明的一实施例中,根据关键帧中的已知像素训练出字典,具体包括:
根据最小化以下能量方程(1)训练出字典:
argmin ( D , Z ) Σ i , j ( | | X ^ - D Z | | F 2 + | | X ^ i - D i Z i | | F 2 + Σ j ≠ i | | D j Z i j | | F 2 ) - - - ( 1 )
其中,表示关键帧中的已知像素点,分别表示关键帧中已知的前景像素点和背景像素点;D={Df,Db}表示训练出的字典,Df和Db分别表示前景字典和背景字典;Z={Zf,Zb}表示已知像素点关于字典D的重构系数,表示前景点关于字典D的重构系数,表示背景点关于字典D的构造矩阵的系数,表示已知点关于子字典Dj的重构系数。
在本发明的一实施例中,根据字典获取输入视频关于字典的重构系数,具体包括:
根据最小化以下能量方程(2)获取输入视频关于字典的重构系数:
m i n Σ i n ( | | X i - DW i | | 0 + | | W i | | 0 ) + | | W | | * ∀ p , q , ( w i ) p , q ∈ W i , s . t . ( w i ) p , q > = 0. - - - ( 2 )
其中,X={X1,…,Xn},n表示输入视频共n帧,Xi表示第i帧的RGBXY特征,||·||*表示核范数,为矩阵奇异值的和,||·||0表示零范数,为非零元素的个数,m表示每一帧中共m个像素点,t表示字典D共有t个样本点,(wi)q,p表示第i帧中第p个像素点对字典中第q个样本点的重构系数。
在本发明的一实施例中,根据重构系数建立输入视频中每个像素之间的非局部关系矩阵,具体包括:
根据公式(3)建立非局部关系矩阵:
m i n Σ i n Σ j m ( α i j - α D w i j ) 2 - - - ( 3 )
其中αij表示第i帧中第j个像素点的α值,m表示每一帧中像素点的数量,αD={αfb}表示字典D中所有样本点的α值,αf=1表示前景字典中的样本点的α值,αb=0表示背景字典中的样本点的α值,wij=[(wi)1,j,...,(wi)t,j]表示第i帧中第j个像素点对字典D的重构系数。
在本发明的一实施例中,建立多帧之间的拉普拉斯矩阵,具体包括:
根据公式(4)建立多帧之间的拉普拉斯矩阵:
其中,表示拉普拉斯矩阵,δ控制局部平滑的强度,k表示一帧中窗口的个数,ck表示第k个窗口,Ci表示第i个像素点的颜色值,μk和Σk分别表示窗口中的颜色均值和方差,ò为正规系数,d×m2为窗口的尺寸,表示选取相邻d帧,每帧取m2窗口内的像素点作为邻居,I表示单位矩阵。
在本发明的一实施例中,将正规系数ò设置为10-5,m设置为3,d设置为2。
在本发明的一实施例中,根据输入视频的已知像素点的α值和字典中样本点α值、非局部关系矩阵和拉普拉斯矩阵,获取输入视频的视频掩像,具体包括:
根据公式(5)获取输入视频中每个未知像素点的α值:
E = λ Σ s ∈ S ( α s - g s ) 2 + Σ i = 1 n Σ j = 1 m ( α i j - α D w i j ) 2 + Σ i = 1 n Σ j = 1 m ( Σ ( k ∈ N j W j t m l a p ( α i j - α k ) ) 2 - - - ( 5 )
其中,S表示输入视频的已知像素点的α值和字典中样本点α值构成的集合,Nj为像素点j在d×m2的窗口中的邻接点,gs=1表示集合S中的像素点s为前景像素点,gs=0表示集合S中的像素点s为背景像素点;
根据输入视频的已知像素点的α值和未知像素点的α值获取输入视频的视频掩像。
本实施例提供的稀疏和低秩联合表达的视频前景对象精准提取方法,根据选取的关键帧中已知的前景像素点和背景像素点训练出具有较强表达性的字典;然后根据该字典获取满足低秩、稀疏和非负约束的重构系数,根据重构系数建立输入视频中每个像素之间的非局部关系矩阵,同时建立多帧之间的拉普拉斯矩阵,从而保证了获取的输入视频的视频掩像的时域一致性和局部光滑性,进而使得根据该视频掩像提取的输入视频的前景对象的质量也得到了有效的提高。
附图说明
图1为本发明提供的视频前景对象提取方法实施例一的流程示意图;
图2为本发明中多帧之间的拉普拉斯矩阵的构建图;
图3为本发明提供的视频前景对象提取方法实施例二的流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明提供的视频前景对象提取方法实施例一的流程示意图,本方法的执行主体可以是计算机等处理设备,如图1所示,本实施例提供的方法包括:
S101、确定输入视频中的已知像素点和未知像素点,设置已知像素点的不透明度α值,并选取输入视频中能够代表视频特征的帧作为关键帧。
具体的,已知像素点包括前景像素点和背景像素点,前景像素点就是需要提取出的图像内容所在区域中的像素,背景像素点就是不需要提取的图像内容所在区域中的像素;已知像素点就是根据输入视频可以明确确定属于前景图像或背景图像的像素点,未知像素点就是前景图像和背景图像交叉难以区别的区域中的像素。
在确定已知像素点和未知像素点时,可以采用画笔式交互标记确定输入视频中的已知像素点和未知像素点,例如:采用画笔标记视频图像中的前景像素和背景像素,其中,用白色画笔覆盖的像素点为已知的前景像素点,用黑色画笔覆盖的像素点为已知的背景像素点;其他未用画笔做标记的像素点为未知像素点。
或者,也可以根据输入视频的三分图确定输入视频中的已知像素点和未知像素点,具体的,可以提供与输入视频相同尺寸的黑白灰三分图,白色区域所对应的像素点为已知的前景像素点,黑色区域所对应的像素点为已知的背景像素点,灰色区域所对应的像素点为未知像素点。
需要说明的是,在确定输入视频中的已知像素点和未知像素点时,可以根据实际情况对全部输入视频采用上述方式进行处理,也可以只对部分输入视频进行处理,其他未确定已知像素点的视频图像中的所有像素点均确定为未知像素点。
在确定完设置输入视频中的已知像素点后,可以对已知像素点的不透明度α值进行设置,将需要提取出的前景像素点的α值设置为较大的值,将不需要提取出的背景像素点的α值设置为较小的值。优选的,本实施例中,将已知的前景像素点的α值设置为最大值1,将已知的背景像素点的α值设置为最小值0。
另外,整个输入视频的数据量较大,本实施例中,选取输入视频中能够代表视频特征的帧作为关键帧来训练字典,以减少计算量。在选取关键帧时,可以每隔若干帧图像选取一帧图像,将选取的几帧图像作为关键帧;也可以在变化较大的视频段多选取几帧图像,在变化较小的视频段少选取几帧图像作为关键帧,具体都可根据情况任意选择,只要能够代表视频特征即可。
S102、根据关键帧中的已知像素点训练出字典,并设置字典中样本点的α值。
获取关键帧之后,即可根据关键帧中的已知像素点训练出字典,字典包括前景字典和背景字典,其特征空间为包括RGBXY特征值在内的五维特征空间,其中RGB是像素点的RGB颜色值,XY是像素点在图像中的坐标位置。字典的训练过程可转化为最小化以下能量方程:
argmin ( D , Z ) Σ i , j ( | | X ^ - D Z | | F 2 + | | X ^ i - D i Z i | | F 2 + Σ j ≠ i | | D j Z i j | | F 2 ) - - - ( 1 )
其中,表示关键帧中的已知像素点,分别表示关键帧中已知的前景像素点和背景像素点;D={Df,Db}表示训练的字典,Df和Db分别表示前景字典和背景字典;Z={Zf,Zb}表示已知像素点关于字典D的重构系数,表示前景点关于字典D的重构系数,表示背景点关于字典D的构造矩阵的系数,表示已知点关于子字典Dj的重构系数。
上述公式(1)中,第一项表示该字典能够重构所有已知的像素点,从而能够保证该字典具有较强的表达能力;第二项表示字典Di能够重构出已知像素点Xi,即前景像素点能够由前景字典重构出来并且背景像素点能够由背景字典重构出来;第三项约束已知像素点Xi关于字典Dj的重构系数要接近于0,即前景点对前景字典有响应但对背景字典几乎没有响应,并且背景点对背景点有响应但是对前景字典几乎没有响应,前景字典和背景字典有较强的区分性,也就是说,前景点是由前景字典重构出来的但不能由背景字典重构出来,背景点是由背景字典重构出来但不能由前景字典重构出来。
对于字典中各样本点的α值,可将前景字典中样本点的α值设置为1,将背景字典中样本点的α值设置为0。
S103、根据字典获取输入视频关于字典的重构系数,并根据重构系数建立输入视频中每个像素之间的非局部关系矩阵。
由于不同视频帧的描述的相同物体的像素点来自于一个完全相同的特征子空间,所以每一个像素点都能够由特征子空间中的元素通过线性组合表达出来,进而整个视频可以由字典通过低秩稀疏的表达矩阵(即下述的重构系数矩阵)重构出来。对于整个输入视频,其中的每个像素点关于字典D都有一个重构系数,整个输入视频的重构系数可以表示为:
对整个输入视频的重构系数的求解过程可归结为最小化以下能量方程:
m i n Σ i n ( | | X i - DW i | | 0 + | | W i | | 0 ) + | | W | | * ∀ p , q , ( w i ) p , q ∈ W i , s . t . ( w i ) p , q > = 0. - - - ( 2 )
其中,X={X1,…,Xn},n表示输入视频共n帧,Xi表示第i帧的RGBXY特征,||·||*表示核范数,为矩阵奇异值的和,用于约束重构系数低秩,||·||0表示零范数,为非零元素的个数,用于约束重构系数稀疏,m表示每一帧中共m个像素点,t表示字典D共有t个样本点,(wi)q,p表示第i帧中第p个像素点对字典中第q个样本点的重构系数。
在上述公式(2)中,稀疏约束能够保证视频中的每个像素点能够由字典中的几个元素重构出来,低秩约束能够保证视频掩像时域上的一致性。具体的,低秩约束能够保证一帧中具有相似特征的像素点能够由字典中相同的元素重构出来,这样便保证了视频掩像在空间上的一致性;低秩约束还能够保证连续视频中具有相似特征的像素点也能够由字典中的相同元素重构出来,这样便保证了视频掩像在时间上的一致性。优选的,低秩要求W的秩远小于它的行数和列数,稀疏要求W中的0的数量超过50%。
在求解出输入视频的重构系数之后,可以根据重构系数建立输入视频中每个像素之间的非局部关系矩阵:
m i n Σ i n Σ j m ( α i j - α D w i j ) 2 - - - ( 3 )
其中αij表示第i帧中第j个像素点的α值,m表示每一帧中像素点的数量,αD={αfb}表示字典D中所有样本点的α值,αf=1表示前景字典中的样本点的α值,αb=0表示背景字典中的样本点的α值,wij=[(wi)1,j,...,(wi)t,j]表示第i帧中第j个像素点对字典D的重构系数。
上述求解的重构系数满足低秩和稀疏约束,从而根据该重构系数构建的非局部关系矩阵能够保证视频掩像在非局部关系上的时域一致性。
S104、建立多帧之间的拉普拉斯矩阵。
在建立非局部关系的同时,可以通过建立帧间的拉普拉斯矩阵来保证视频掩像在局部关系上的时域一致性。具体可以根据公式(4)建立多帧之间的拉普拉斯矩阵
其中,δ控制局部平滑的强度,k表示一帧中窗口的个数,ck表示第k个窗口,Ci表示第i个像素点的颜色值,μk和Σk分别表示窗口中的颜色均值和方差,ò为正规系数,d×m2为窗口的尺寸,表示选取相邻d帧,每帧取m2窗口内的像素点作为邻居,I表示单位矩阵。
上述拉普拉斯矩阵由单帧图像扩展到多帧图像,除了考虑在本帧中邻域窗口内的像素点外,还会考虑相邻视频帧间邻域窗口内的像素点,由这些像素点共同作为邻居构建该点的颜色线模型,从而既能够增强视频掩像的局部光滑性,还能够增强相邻帧的视频掩像的时域一致性。
优选的,在上述公式(4)中,将正规系数ò设置为10-5,m设置为3,d设置为2。图2为本发明中多帧之间的拉普拉斯矩阵的构建图,如图2所示,图中说明了构建两帧拉普拉斯矩阵的方法。对于当前帧的像素点j来说,不仅要考虑本帧中3×3的窗口内的像素点,还要考虑相邻帧中3×3的窗口内的像素点,这两部分像素点共同构成像素j的邻居,然后构建拉普拉斯矩阵。
需要说明的是,步骤S103和步骤S104之间没有严格的时序关系,步骤S104也可以在步骤S103之前执行,还可以与步骤S103同时执行。
S105、根据输入视频的已知像素点的α值和字典中样本点的α值、非局部关系矩阵和拉普拉斯矩阵,获取输入视频的视频掩像。
根据S101中确定的所有已知像素点的α值、S102中训练出的字典中各样本点的α值、S103中建立的非局部关系矩阵和S104中建立的拉普拉斯矩阵,可以构建连续多帧中所有像素点额能量方程,通过最小化能量方程可以解得每一个像素点属于前景的概率(即α值),从而得到视频掩像。
具体的,可以根据公式(5)构建能量方程:
E = λ Σ s ∈ S ( α s - g s ) 2 + Σ i = 1 n Σ j = 1 m ( α i j - α D w i j ) 2 + Σ i = 1 n Σ j = 1 m ( Σ ( k ∈ N j W j t m l a p ( α i j - α k ) ) 2 - - - ( 5 )
其中,S表示输入视频的已知像素点的α值和字典中样本点α值构成的集合,Nj为像素点j在d×m2的窗口中的邻接点,gs=1表示集合S中的像素点s为前景像素点,gs=0表示集合S中的像素点s为背景像素点。
在根据上述公式(5)求得输入视频中未知像素点的α值后,再结合输入视频的已知像素点的α值,即可获取输入视频的视频掩像。
对于上述公式(5)的求解,具体可以通过以下方式实现:
上述能量方程E用矩阵形式可以表示为:
E=(α-G)TΛ(α-G)+αTLα(6)
其中Λ为对角线矩阵,如果像素点s属于集合S则设Λss为很大的常数,例如200,否则设为0,G是一个向量,其值在步骤S102中确定的α值,如果像素点s属于已知的前景像素点则设Gs为1,否则设为0, L = L D - W - W T L u , 其中W是输入视频关于字典D的重构系数矩阵,LD=W*WT,Lu对角线是每一帧的多帧拉普拉斯矩阵,即Lu=diag(W1 mlap;...;Wn mlap),上述能量方程的矩阵形式表示(6)是关于α的二次方程,可通过求解下列线性方程最小化α值:
(Λ+L)α=ΛG(7)
上述方程是一个稀疏线性方程组,可以通过预处理共轭梯度方法求解一个全局最优的闭合解。
S106、根据视频掩像提取出输入视频的前景对象。
对于输入视频X,其每个像素点Xi都是由前景图像的颜色Fi和背景图像的颜色Bi线性组合而成的,即Xi=Fi×αi+Bi×(1-αi),因此将上述获取的视频掩像中各像素点的α值与输入视频中各像素点进行点乘,即可提取出输入视频的前景对象,具体用公式可以表示为:
C=X×α(7)
其中C表示提取后的视频图像,X表示输入视频,α表示与输入视频对应的视频掩像中各像素点的α值。
现有的基于稀疏表达的图像前景物体精准提取的方法,只采用前景像素点重构原图像,不能保证视频掩像的时域一致性,且只采用前景像素点作为字典,表达能力差,导致采用该方法提取的前景对象质量不高;而相比该方法,本实施例中通过低秩约束和多帧之间的拉普拉斯矩阵来保证具有相似特征的像素点具有相似的α值,从而保证了视频掩像的时域一致性,并且用来训练字典的已知像素点包括背景像素点和前景像素点,构造出的前景字典和背景字典具有较强的区分性,表达能力强,有效的提高了提取的前景对象的质量,此外本实施例中只采用关键帧中的像素点训练字典,计算量小。现有的引入非局部先验的方法来获取视频掩像的方法,选取固定数量的样本点来重构原图像,很难为具备相似特征的像素点构建一致的非局部结构,从而可能会导致视频掩像时域上的不一致,采用该方法提取的前景对象质量不高;而本实施例提供的方法,首先根据已知像素点构造出前景字典和背景字典,然后在求解重构系数时通过稀疏约束来自动选取字典中的样本点,并且通过低秩约束和多帧之间的拉普拉斯矩阵来保证具有相似特征的像素点具有相似的α值,从而保证了视频掩像的时域一致性,进而有效的提高了提取的前景对象的质量。
本实施例提供的方法,经过多次实验,在处理物体快速运动时留下的残影问题、半透明物体的边缘和不同的半透明度、以及拓扑结构变化很大的物体时,都具有很大的优势,可广泛应用到影视节目制作等图像处理领域。
本实施例提供的稀疏和低秩联合表达的视频前景对象精准提取方法,根据选取的关键帧中已知的前景像素点和背景像素点训练出具有较强表达能力和区分性的字典;然后根据该字典获取满足低秩、稀疏和非负约束的重构系数,根据重构系数建立输入视频中每个像素之间的非局部关系矩阵,同时建立多帧之间的拉普拉斯矩阵,从而保证了获取的输入视频的视频掩像的时域一致性和局部光滑性,进而使得根据该视频掩像提取的输入视频的前景对象的质量也得到了有效的提高。
图3为本发明提供的视频前景对象提取方法实施例二的流程示意图,本实施例主要是对上述步骤S103中获取输入视频关于字典的重构系数的详细步骤进行说明。在上述实施例的基础上,如图3所示,本实施例中,步骤S103根据字典获取输入视频关于字典的重构系数,具体包括:
S201、将公式(2)等价转化为公式(8):
m i n Σ i n ( | | W i | | 1 + λ | | E i | | 1 ) + γ | | W | | * s . t . X i = D i S i + E i ; W = J i ; W = S i ; W i = T i , T i > = 0. - - - ( 8 )
其中,Xi表示第i帧的RGBXY特征,λ和γ表示平衡系数,S1,…,Sn,…,J1,…,Jn,…,T1,…,Tn为辅助变量。
S202、将公式(3)等价转化为公式(9):
m i n ( &gamma; | | W | | * + &Sigma; i n ( | | J i | | 1 + &lambda; | | E i | | 1 ) + &Sigma; i n ( < A i , W i - J i > + < Y i , X i - D i S i - E i > + < V i , W i - S i > + < U i , W i - T i > + &mu; 2 | | X i - D i S i - E i | | F 2 + &mu; 2 | | W i - J i | | F 2 + &mu; 2 | | W i - S i | | F 2 + &mu; 2 | | W i - T i | | F 2 ) ) - - - ( 9 )
其中,Ei为对第i帧的重构误差,A1,…,An,…,Y1,…,Yn,…,V1,…,Vn,U1,…,Un为是拉格朗日乘子。
S203、采用交替方向法(alternatingdirectionmethod,ADM)求解公式(9)。
ADM算法也就是增广拉格朗日乘子法(inexactaugmentedLagrangemultiplierMethod;inexactALM),该ADM算法主要采用迭代求解方法,输入变量有n帧视频X、字典D和平衡系数λ、γ。具体的步骤如下:
首先进行初始化A=U=V=Y=0,S=T=J=0,μ=10-6,然后开始迭代过程:
1、固定其他变量,更新Ji,具体采用的公式为:
J i = argmin J i 1 &mu; | | J i | | 1 + 1 2 | | J i - ( W i + A i &mu; ) | | F 2 .
2、固定其他变量,更新Si,具体采用的公式为:
S i = ( D T D + I ) - 1 ( D T ( X i - E i ) + W i + ( D T Y i + V i ) &mu; ) &CenterDot;
3、固定其他变量,更新Ti,具体采用的公式为:
T i = W i + U i &mu; , T i = m a x ( T i , 0 ) &CenterDot;
4、固定其他变量,更新W,具体采用的公式为:
W i = argmin W &gamma; 2 &mu; | | W | | * + 1 2 | | W - M | | F 2 .
其中,M=[F1,F2,…,Fn], F i = 1 3 ( J i + S i + T i = ( A i + V i + U i ) &mu; ) .
5、固定其他变量,更新重构误差Ei,具体采用的公式为:
E i = argmin E i &lambda; &mu; | | E i | | 1 + 1 2 | | E i - ( X i - DS i + Y i &mu; ) | | F 2 .
6、更新每个拉格朗日乘子Ai,Yi,Vi,具体采用的公式为:
Ai=Ai+μ(Wi-Ji),Yi=Yi+μ(Xi-DSi-Ei),
Vi=Vi+μ(Wi-Si),Ui=Ui+μ(Wi-Ti).
7、更新μ,具体采用的公式为:
μ=min(1.1μ,1010).(ρ=1.9).
8、检查收敛条件是否达到,即Xi-DSi-Ei→0,Wi-Ji→0,Wi-Si→0andWi-Ti→0,如果不收敛则继续迭代,直到收敛或者达到最大的迭代次数。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (9)

1.一种稀疏和低秩联合表达的视频前景对象精准提取方法,其特征在于,包括:
确定输入视频中的已知像素点和未知像素点,设置所述已知像素点的不透明度α值,并选取输入视频中能够代表视频特征的帧作为关键帧,其中所述已知像素点包括前景像素点和背景像素点;
根据所述关键帧中的已知像素点训练出字典,并设置所述字典中样本点的α值,所述字典包括前景字典和背景字典;
根据所述字典获取所述输入视频关于所述字典的重构系数,并根据所述重构系数建立所述输入视频中每个像素之间的非局部关系矩阵,其中,所述重构系数满足低秩、稀疏和非负;
建立多帧之间的拉普拉斯矩阵;
根据所述输入视频的已知像素点的α值和所述字典中样本点的α值、所述非局部关系矩阵和所述拉普拉斯矩阵,获取所述输入视频的视频掩像;
根据所述视频掩像提取出所述输入视频的前景对象。
2.根据权利要求1所述的方法,其特征在于,所述确定输入视频中的已知像素点和未知像素点,具体包括:
采用画笔式交互标记确定输入视频中的已知像素点和未知像素点,
或者,根据输入视频的三分图确定输入视频中的已知像素点和未知像素点。
3.根据权利要求1所述的方法,其特征在于,所述设置所述已知像素点的不透明度α值,具体包括:
将已知的前景像素点的α值设置为1,将已知的背景像素点的α值设置为0。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述根据所述关键帧中的已知像素训练出字典,具体包括:
根据最小化以下能量方程(1)训练出字典:
argmin ( D , Z ) &Sigma; i , j ( | | X ^ - D Z | | F 2 + | | X ^ i - D i Z i | | F 2 + &Sigma; j &NotEqual; i | | D j Z i j | | F 2 ) - - - ( 1 )
其中,表示关键帧中的已知像素点,分别表示关键帧中已知的前景像素点和背景像素点;D={Df,Db}表示训练出的字典,Df和Db分别表示前景字典和背景字典;Z={Zf,Zb}表示已知像素点关于字典D的重构系数,表示前景点关于字典D的重构系数,表示背景点关于字典D的构造矩阵的系数,表示已知点关于子字典Dj的重构系数。
5.根据权利要求4所述的方法,其特征在于,所述根据所述字典获取所述输入视频关于所述字典的重构系数,具体包括:
根据最小化以下能量方程(2)获取所述输入视频关于所述字典的重构系数:
m i n &Sigma; i n ( | | X i - DW i | | 0 + | | W i | | 0 ) + | | W | | * &ForAll; p , q , ( w i ) p , q &Element; W i , s . t . ( w i ) p , q > = 0. - - - ( 2 )
其中,X={X1,…,Xn},n表示输入视频共n帧,Xi表示第i帧的RGBXY特征,||·||*表示核范数,为矩阵奇异值的和,||·||0表示零范数,为非零元素的个数,m表示每一帧中共m个像素点,t表示字典D共有t个样本点,(wi)q,p表示第i帧中第p个像素点对字典中第q个样本点的重构系数。
6.根据权利要求5所述的方法,其特征在于,根据所述重构系数建立所述输入视频中每个像素之间的非局部关系矩阵,具体包括:
根据公式(3)建立所述非局部关系矩阵:
m i n &Sigma; i n &Sigma; j m ( &alpha; i j - &alpha; D w i j ) 2 - - - ( 3 )
其中αij表示第i帧中第j个像素点的α值,m表示每一帧中像素点的数量,αD={αfb}表示字典D中所有样本点的α值,αf=1表示前景字典中的样本点的α值,αb=0表示背景字典中的样本点的α值,wij=[(wi)1,j,...,(wi)t,j]表示第i帧中第j个像素点对字典D的重构系数。
7.根据权利要求6所述的方法,其特征在于,所述建立多帧之间的拉普拉斯矩阵,具体包括:
根据公式(4)建立多帧之间的拉普拉斯矩阵:
其中,表示拉普拉斯矩阵,δ控制局部平滑的强度,k表示一帧中窗口的个数,ck表示第k个窗口,Ci表示第i个像素点的颜色值,μk和Σk分别表示窗口中的颜色均值和方差,ò为正规系数,d×m2为窗口的尺寸,表示选取相邻d帧,每帧取m2窗口内的像素点作为邻居,I表示单位矩阵。
8.根据权利要求7所述的方法,其特征在于,将正规系数ò设置为10-5,m设置为3,d设置为2。
9.根据权利要求7所述的方法,其特征在于,所述根据所述输入视频的已知像素点的α值和所述字典中样本点α值、所述非局部关系矩阵和所述拉普拉斯矩阵,获取所述输入视频的视频掩像,具体包括:
根据公式(5)获取所述输入视频中每个未知像素点的α值:
E = &lambda; &Sigma; s &Element; S ( &alpha; s - g s ) 2 + &Sigma; i = 1 n &Sigma; j = 1 m ( &alpha; i j - &alpha; D w i j ) 2 + &Sigma; i = 1 n &Sigma; j = 1 m ( &Sigma; ( k &Element; N j W j t m l a p ( &alpha; i j - &alpha; k ) ) 2 - - - ( 5 )
其中,S表示输入视频的已知像素点的α值和字典中样本点α值构成的集合,Nj为像素点j在d×m2的窗口中的邻接点,gs=1表示集合S中的像素点s为前景像素点,gs=0表示集合S中的像素点s为背景像素点;
根据所述输入视频的已知像素点的α值和未知像素点的α值获取所述输入视频的视频掩像。
CN201510695505.9A 2015-10-23 2015-10-23 一种稀疏和低秩联合表达的视频前景对象精准提取方法 Active CN105243670B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201510695505.9A CN105243670B (zh) 2015-10-23 2015-10-23 一种稀疏和低秩联合表达的视频前景对象精准提取方法
US15/182,459 US10235571B2 (en) 2015-10-23 2016-06-14 Method for video matting via sparse and low-rank representation

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510695505.9A CN105243670B (zh) 2015-10-23 2015-10-23 一种稀疏和低秩联合表达的视频前景对象精准提取方法

Publications (2)

Publication Number Publication Date
CN105243670A true CN105243670A (zh) 2016-01-13
CN105243670B CN105243670B (zh) 2018-04-06

Family

ID=55041302

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510695505.9A Active CN105243670B (zh) 2015-10-23 2015-10-23 一种稀疏和低秩联合表达的视频前景对象精准提取方法

Country Status (2)

Country Link
US (1) US10235571B2 (zh)
CN (1) CN105243670B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105976395A (zh) * 2016-04-27 2016-09-28 宁波大学 一种基于稀疏表示的视频目标跟踪方法
CN108965885A (zh) * 2018-06-04 2018-12-07 陕西师范大学 一种基于帧压缩测量的视频在线重建与移动目标检测方法
CN108961299A (zh) * 2017-05-18 2018-12-07 北京金山云网络技术有限公司 一种前景图像获得方法及装置

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3376467B1 (en) * 2017-03-14 2020-04-22 Altostratus Capital LLC Generation of alpha masks of video frames
CN108171216A (zh) * 2018-01-22 2018-06-15 扬州大学 一种用于人脸识别的稀疏噪声矩阵分解方法
CN108764177B (zh) * 2018-05-31 2021-08-27 安徽大学 一种基于低秩分解和表示联合学习的运动目标检测方法
US11657322B2 (en) * 2018-08-30 2023-05-23 Nec Corporation Method and system for scalable multi-task learning with convex clustering
US10803627B2 (en) 2018-09-20 2020-10-13 At&T Intellectual Property I, L.P. Enabling secure video sharing by exploiting data sparsity
CN110335288A (zh) * 2018-09-26 2019-10-15 惠州学院 一种视频前景目标提取方法及装置
CN111327946A (zh) * 2018-12-17 2020-06-23 中移(杭州)信息技术有限公司 视频质量评价和特征字典的训练方法、装置和介质
CN110490894B (zh) * 2019-08-09 2022-08-02 南京邮电大学 基于改进的低秩稀疏分解的视频前背景分离方法
CN110570376B (zh) * 2019-09-10 2022-05-20 广州工程技术职业学院 一种图像去雨方法、装置、设备和计算机可读存储介质
CN113298730B (zh) * 2021-05-24 2022-11-01 中国科学院长春光学精密机械与物理研究所 一种基于图像分解的去雾复原方法
US20230044969A1 (en) * 2021-08-06 2023-02-09 Lemon Inc. Video matting
CN114827714B (zh) * 2022-04-11 2023-11-21 咪咕文化科技有限公司 基于视频指纹的视频还原方法、终端设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102542571A (zh) * 2010-12-17 2012-07-04 中国移动通信集团广东有限公司 一种运动目标检测方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8175384B1 (en) * 2008-03-17 2012-05-08 Adobe Systems Incorporated Method and apparatus for discriminative alpha matting

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102542571A (zh) * 2010-12-17 2012-07-04 中国移动通信集团广东有限公司 一种运动目标检测方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DINGZEYU LI等: "Motion-Aware KNN Laplacian for Video Matting", 《2013 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION》 *
吴峰: "基于字典学习的运动目标检测", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105976395A (zh) * 2016-04-27 2016-09-28 宁波大学 一种基于稀疏表示的视频目标跟踪方法
CN105976395B (zh) * 2016-04-27 2018-11-09 宁波大学 一种基于稀疏表示的视频目标跟踪方法
CN108961299A (zh) * 2017-05-18 2018-12-07 北京金山云网络技术有限公司 一种前景图像获得方法及装置
CN108961299B (zh) * 2017-05-18 2021-03-02 北京金山云网络技术有限公司 一种前景图像获得方法及装置
CN108965885A (zh) * 2018-06-04 2018-12-07 陕西师范大学 一种基于帧压缩测量的视频在线重建与移动目标检测方法
CN108965885B (zh) * 2018-06-04 2020-11-10 陕西师范大学 一种基于帧压缩测量的视频在线重建与移动目标检测方法

Also Published As

Publication number Publication date
CN105243670B (zh) 2018-04-06
US10235571B2 (en) 2019-03-19
US20170116481A1 (en) 2017-04-27

Similar Documents

Publication Publication Date Title
CN105243670B (zh) 一种稀疏和低秩联合表达的视频前景对象精准提取方法
Liu et al. Attribute-aware face aging with wavelet-based generative adversarial networks
Ji et al. A non-convex tensor rank approximation for tensor completion
Huang et al. Bidirectional recurrent convolutional networks for multi-frame super-resolution
CN103093444B (zh) 基于自相似性和结构信息约束的图像超分辨重建方法
CN109685045B (zh) 一种运动目标视频跟踪方法及系统
CN105046672A (zh) 一种图像超分辨率重建方法
CN104008538A (zh) 基于单张图像超分辨率方法
CN104463843B (zh) 安卓系统的交互式图像分割方法
CN111046868B (zh) 基于矩阵低秩稀疏分解的目标显著性检测方法
CN102420985B (zh) 一种多视点视频对象提取方法
CN109919871A (zh) 基于图像和模糊核混合约束的模糊核估计方法
Zheng et al. Spatial-spectral-temporal connective tensor network decomposition for thick cloud removal
CN105260995B (zh) 一种图像修复与去噪方法及系统
Liu et al. Automatic motion capture data denoising via filtered subspace clustering and low rank matrix approximation
CN104657951A (zh) 图像乘性噪声移除方法
CN105550989A (zh) 基于非局部高斯过程回归的图像超分辨方法
CN112862838A (zh) 基于用户实时点击交互的自然图像抠图方法
Su et al. Fast hyperspectral image denoising and destriping method based on graph Laplacian regularization
Sun et al. Mixed noise removal for hyperspectral images based on global tensor low-rankness and nonlocal SVD-aided group sparsity
Han et al. Normalization of face illumination with photorealistic texture via deep image prior synthesis
CN109741258B (zh) 基于重建的图像超分辨率方法
CN113516604B (zh) 图像修复方法
Wang et al. Uneven image dehazing by heterogeneous twin network
CN106815844A (zh) 一种基于流形学习的抠图方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant