CN105741269A - 视频切割的方法及装置 - Google Patents

视频切割的方法及装置 Download PDF

Info

Publication number
CN105741269A
CN105741269A CN201610046722.XA CN201610046722A CN105741269A CN 105741269 A CN105741269 A CN 105741269A CN 201610046722 A CN201610046722 A CN 201610046722A CN 105741269 A CN105741269 A CN 105741269A
Authority
CN
China
Prior art keywords
target object
video
border
cutting
object region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610046722.XA
Other languages
English (en)
Inventor
陈世峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN201610046722.XA priority Critical patent/CN105741269A/zh
Publication of CN105741269A publication Critical patent/CN105741269A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Abstract

本发明适用于视频切割领域,提供了一种视频切割的方法及装置,所述方法包括:切割视频中第一帧图像的目标物体,所述视频包括至少一帧图像;学习第一帧图像切割的目标物体区域、非目标物体区域以及边界的统计特性,所述边界的统计特性为目标物体区域与非目标物体区域的边界的统计特性;结合所述边界的统计特性,多重参考模型将学习的上一帧图像切割的目标物体区域、非目标物体区域自动传递到视频中的当前帧,以确定当前帧的目标物体区域、非目标物体区域以及边界的统计特性,进而根据当前帧的目标物体区域切割出目标物体,重复该步骤,直到完成对视频的切割。通过上述方法能够提高视频切割的便利性及准确性。

Description

视频切割的方法及装置
技术领域
本发明实施例属于视频切割领域,尤其涉及一种视频切割的方法及装置。
背景技术
图像分割,是指利用图像的颜色、灰度、边缘、纹理等空间信息对图像进行分割。常见的分割模式有:根据时间段分割视频、根据容量分割视频、指定起始时间和转换终止容量转换,将视频平均分割成多段等等。
现有的视频分割算法中,需要给定一些已知的信息,例如视频的背景模型、一些帧的标注结果、或者大量的训练数据。但由于现有的视频分割算法中,通常都假设或者隐含以下假设:背景静止、相机静止、或者前景需要运动,而这些假设在很多的时候并不满足,因此难以得到较好的分割结果。
发明内容
本发明实施例提供了一种视频切割的方法及装置,旨在解决现有方法需要设定一定条件才能实现视频的切割,从而导致切割效果较差的问题。
本发明实施例是这样实现的,一种视频切割的方法,所述方法包括:
切割视频中第一帧图像的目标物体,所述视频包括至少一帧图像;
学习第一帧图像切割的目标物体区域、非目标物体区域以及边界的统计特性,所述边界的统计特性为目标物体区域与非目标物体区域的边界的统计特性;
结合所述边界的统计特性,多重参考模型将学习的上一帧图像切割的目标物体区域、非目标物体区域自动传递到视频中的当前帧,以确定当前帧的目标物体区域、非目标物体区域以及边界的统计特性,进而根据当前帧的目标物体区域切割出目标物体,重复该步骤,直到完成对视频的切割。
本发明实施例的另一目的在于提供一种视频切割的装置,所述装置包括:
第一帧目标物体切割单元,用于切割视频中第一帧图像的目标物体,所述视频包括至少一帧图像;
上一帧统计特性学习单元,用于学习第一帧图像切割的目标物体区域、非目标物体区域以及边界的统计特性,所述边界的统计特性为目标物体区域与非目标物体区域的边界的统计特性;
当前帧统计特性确定单元,用于结合所述边界的统计特性,多重参考模型将学习的上一帧图像切割的目标物体区域、非目标物体区域自动传递到视频中的当前帧,以确定当前帧的目标物体区域、非目标物体区域以及边界的统计特性,进而根据当前帧的目标物体区域切割出目标物体,重复该步骤,直到完成对视频的切割。
在本发明实施例中,由于对视频进行切割时,是通过切割视频中第一帧图像的目标物体,再通过学习第一帧图像的目标物体区域、非目标物体区域以及边界的统计特性,并将上一帧的学习结果传递至当前帧,因此,无需参考背景区域,即无需假设背景静止也能够切割出视频中各个帧的目标物体,从而提高视频切割的便利性及准确性。
附图说明
图1是本发明第一实施例提供的一种视频切割的方法的流程图;
图2是本发明第一实施例提供的切割的目标物体的示意图;
图3是本发明第二实施例提供的一种视频切割的装置的结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例中,切割视频中第一帧图像的目标物体,所述视频包括至少一帧图像,学习第一帧图像切割的目标物体区域、非目标物体区域以及边界的统计特性,所述边界的统计特性为目标物体区域与非目标物体区域的边界的统计特性,结合所述边界的统计特性,多重参考模型将学习的上一帧图像切割的目标物体区域、非目标物体区域自动传递到视频中的当前帧,以确定当前帧的目标物体区域、非目标物体区域以及边界的统计特性,进而根据当前帧的目标物体区域切割出目标物体,重复该步骤,直到完成对视频的切割。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
实施例一:
图1示出了本发明第一实施例提供的一种视频切割的方法的流程图,详述如下:
步骤S11,切割视频中第一帧图像的目标物体,所述视频包括至少一帧图像。
该步骤中,由于视频的第一帧图像可能包括多个物体,因此,需要先确定多个物体哪个是目标物体,再利用图形切割算法简单交互地切割出该第一帧图像中的目标物体。
步骤S12,学习第一帧图像切割的目标物体区域、非目标物体区域以及边界的统计特性,所述边界的统计特性为目标物体区域与非目标物体区域的边界的统计特性。
该步骤中,基于第一帧图像的切割结果,学习出目标物体区域、非目标物体区域以及边界的统计特性。
步骤S13,结合所述边界的统计特性,多重参考模型将学习的上一帧图像切割的目标物体区域、非目标物体区域自动传递到视频中的当前帧,以实现对视频的切割。
可选地,所述结合所述边界的统计特性,多重参考模型将学习的上一帧图像切割的目标物体区域、非目标物体区域自动传递到视频中的当前帧,以实现对视频的切割,具体包括:
结合所述边界的统计特性以及多重参考模型确定能量函数;确定所述能量函数的最小值,以确定当前帧的目标物体区域、非目标物体区域以及边界的统计特性,进而根据当前帧的目标物体区域切割出目标物体,重复该步骤,直到完成对视频的切割。
进一步地,采用多重参考(MRF)模型,上述能量函数为: E ( r ) = Σ i ∈ I ( E 1 ( r i ) + λΣ j ∈ N i E 2 ( r i , r j ) ) , 其中Ni是像素i的邻域,其包括空间领域与时间邻域(分别记为Ns和Nt),对于每个像素,采用多个空间邻域和多个时间邻域,比如采用8个空间邻域和18个时间邻域,以提高计算的精确度,r={ri}i∈I为根据视频的亮度或色彩进行切割的结果,I为视频图像的像素结合,ri是像素i的标注,其值为-1或+1,且在ri=+1代表像素i属于目标物体区域,ri=-1代表像素i属于非目标物体区域;
E1(ri)是似然项,表示像素i给定标签ri的惩罚值,为了提升算法的目标物体与背景的区分能力,似然项定义如下:E1(ri)=-(log(p(ci|ri))+log(p(ei|ri))),其中ci是像素i的色彩(或者亮度),ei是以像素i为中心的图像块中所有像素的色彩值,p(ci|ri)和p(ei|ri)表示一个概率值,p(ci|ri)通过YUV色彩空间的直方图查表求得,p(ei|ri)通过以下方法求得,首先,提取第一帧的分割结果中的目标物体区域与非目标物体区域的所有图像块,分别对目标物体区域与非目标物体区域的所有图像块做K-means聚类,取类中心,分别得到K个目标物体码字与K个目标物体码字: p ( e i | r i ) = max k { exp ( - 1 2 ( e i - e ^ k r i ) T ( Σ k r i ) - 1 ( e i - e ^ k r i ) ) ( 2 π ) D / 2 | Σ k r i | 1 / 2 } , 其中,为对上一帧的目标物体区域的所有图像块做K-means聚类得到的第K个目标物体码字,为对上一帧的非目标物体区域的所有图像块做K-means聚类得到的第K个非目标物体码字,是均值为的第K个类的协方差矩阵,D是的维度;
λ是一个模型参数,可根据实际情况进行设定;
E2(ri,rj)是先验项,表示相邻像素i和j分别给定标签ri和rj的惩罚值,先验项包括三个部分:对比度项边界项和时域项
先验项定义为:其中,对比度项在对比度项中,i与j是空间邻域内的像素对,α与σ是控制参数,α采用随机至少10张以上(如100张)图的分割结果求得,σ自动设置为σ=2<||ci-cj||>,其中<·>是针对整个图像的均值操作;边界项Hij=max{Hr(ci,cj),Hg(ci,cj),Hb(ci,cj)},Hr,Hg,Hb分别对应R、G、B色彩通道的直方图,α'=α,σ'=Np,Np是从初始结果选择的像素对的数目;时域项不同的是时域项中i与j是时间邻域内的像素对。
根据上述的能量函数,可知,当最小化能量函数时,得到最终的最佳标注,这里的标注为像素的标注。由于像素在标注值为+1时代表像素属于目标物体区域,为-1时代表像素属于非目标物体区域,因此通过确定最佳标注即可确定目标物体区域,进而根据确定的目标物体区域分割出目标物体。
可选地,在所述结合所述边界的统计特性,多重参考模型将学习的上一帧图像切割的目标物体区域、非目标物体区域自动传递到视频中的当前帧,以确定当前帧的目标物体区域、非目标物体区域以及边界的统计特性,进而根据当前帧的目标物体区域切割出目标物体,重复该步骤,直到完成对视频的切割之后,包括:
显示切割的目标物体。具体地,可显示视频序列帧中被切割的多个目标物体。如图2所示,两个图的左侧都为原图,右侧无背景,只有人物的为切割的目标物体。
本发明第一实施例中,切割视频中第一帧图像的目标物体,所述视频包括至少一帧图像,学习第一帧图像切割的目标物体区域、非目标物体区域以及边界的统计特性,所述边界的统计特性为目标物体区域与非目标物体区域的边界的统计特性,结合所述边界的统计特性,多重参考模型将学习的上一帧图像切割的目标物体区域、非目标物体区域自动传递到视频中的当前帧,以确定当前帧的目标物体区域、非目标物体区域以及边界的统计特性,进而根据当前帧的目标物体区域切割出目标物体,重复该步骤,直到完成对视频的切割。由于对视频进行切割时,是通过切割视频中第一帧图像的目标物体,再通过学习第一帧图像的目标物体区域、非目标物体区域以及边界的统计特性,并将上一帧的学习结果传递至当前帧,因此,无需参考背景区域,即无需假设背景静止也能够切割出视频中各个帧的目标物体,从而提高视频切割的便利性及准确性。
应理解,在本发明实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
实施例二:
图3示出了本发明第二实施例提供的一种视频切割的装置的结构图,该视频切割的装置应用于智能终端中,该智能终端可以包括经无线接入网RAN与一个或多个核心网进行通信的用户设备,该用户设备可以是移动电话(或称为“蜂窝”电话)、具有移动设备的计算机等,例如,用户设备还可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置,它们与无线接入网交换语音和/或数据。又例如,该移动设备可以包括智能手机、平板电脑、个人数字助理PDA、销售终端POS或车载电脑等。为了便于说明,仅示出了与本发明实施例相关的部分。
该视频切割的装置包括:第一帧目标物体切割单元31、上一帧统计特性学习单元32、当前帧统计特性确定单元33。其中:
第一帧目标物体切割单元31,用于切割视频中第一帧图像的目标物体,所述视频包括至少一帧图像。
由于视频的第一帧图像可能包括多个物体,因此,需要先确定多个物体哪个是目标物体,再利用图形切割算法简单交互地切割出该第一帧图像中的目标物体。
上一帧统计特性学习单元32,用于学习第一帧图像切割的目标物体区域、非目标物体区域以及边界的统计特性,所述边界的统计特性为目标物体区域与非目标物体区域的边界的统计特性。
当前帧统计特性确定单元33,用于结合所述边界的统计特性,多重参考模型将学习的上一帧图像切割的目标物体区域、非目标物体区域自动传递到视频中的当前帧,以确定当前帧的目标物体区域、非目标物体区域以及边界的统计特性,进而根据当前帧的目标物体区域切割出目标物体,重复该步骤,直到完成对视频的切割。
可选地,所述当前帧统计特性确定单元33包括:
能量函数确定模块,用于结合所述边界的统计特性以及多重参考模型确定能量函数。
当前帧目标物体区域确定模块,用于确定所述能量函数的最小值,以确定当前帧的目标物体区域、非目标物体区域以及边界的统计特性,进而根据当前帧的目标物体区域切割出目标物体,重复该步骤,直到完成对视频的切割。
进一步地,上述能量函数为: E ( r ) = &Sigma; i &Element; I ( E 1 ( r i ) + &lambda;&Sigma; j &Element; N i E 2 ( r i , r j ) ) , 其中Ni是像素i的邻域,其包括空间领域与时间邻域(分别记为Ns和Nt),对于每个像素,采用多个空间邻域和多个时间邻域,比如采用8个空间邻域和18个时间邻域,以提高计算的精确度,r={ri}i∈I为视频切割的结果,I为视频图像的像素结合,ri是像素i的标注,其值为-1或+1,且在ri=+1代表像素i属于目标物体区域,ri=-1代表像素i属于非目标物体区域;
E1(ri)是似然项,表示像素i给定标签ri的惩罚值,为了提升算法的目标物体与背景的区分能力,似然项定义如下:E1(ri)=-(log(p(ci|ri))+log(p(ei|ri))),其中ci是像素i的色彩,ei是以像素i为中心的图像块中所有像素的色彩值,p(ci|ri)通过YUV色彩空间的直方图查表求得,p(ei|ri)通过以下方法求得,首先,提取第一帧的分割结果中的目标物体区域与非目标物体区域的所有图像块,分别对目标物体区域与非目标物体区域的所有图像块做K-means聚类,取类中心,分别得到K个目标物体码字与K个目标物体码字: p ( e i | r i ) = max k { exp ( - 1 2 ( e i - e ^ k r i ) T ( &Sigma; k r i ) - 1 ( e i - e ^ k r i ) ) ( 2 &pi; ) D / 2 | &Sigma; k r i | 1 / 2 } , 其中,为对上一帧的目标物体区域的所有图像块做K-means聚类得到的第K个目标物体码字,为对上一帧的非目标物体区域的所有图像块做K-means聚类得到的第K个非目标物体码字,是均值为的第K个类的协方差矩阵,D是的维度;
λ是一个模型参数;
E2(ri,rj)是先验项,表示相邻像素i和j分别给定标签ri和rj的惩罚值,先验项包括三个部分:对比度项边界项和时域项
E 2 ( r i , r j ) = &phi; i j c + &phi; i j b + &phi; i j t , 其中,对比度项 &phi; i j c = &alpha; &CenterDot; exp ( - | | c i - c j | | &sigma; ) &CenterDot; | r i - r j | , 在对比度项中,i与j是空间邻域内的像素对,α与σ是控制参数,α采用随机至少10张以上图的分割结果求得,σ自动设置为σ=2<||ci-cj||>,其中<·>是针对整个图像的均值操作;边界项Hij=max{Hr(ci,cj),Hg(ci,cj),Hb(ci,cj)},Hr,Hg,Hb分别对应R、G、B色彩通道的直方图,α'=α,σ'=Np,Np是从初始结果选择的像素对的数目;时域项不同的是时域项中i与j是时间邻域内的像素对。
可选地,所述视频切割的装置包括:
切割目标物体显示单元,用于显示切割的目标物体。具体地,可显示视频序列帧中被切割的多个目标物体。
本发明第二实施例中,由于对视频进行切割时,是通过切割视频中第一帧图像的目标物体,再通过学习第一帧图像的目标物体区域、非目标物体区域以及边界的统计特性,并将上一帧的学习结果传递至当前帧,因此,无需参考背景区域,即无需假设背景静止也能够切割出视频中各个帧的目标物体,从而提高视频切割的便利性及准确性。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (8)

1.一种视频切割的方法,其特征在于,所述方法包括:
切割视频中第一帧图像的目标物体,所述视频包括至少一帧图像;
学习第一帧图像切割的目标物体区域、非目标物体区域以及边界的统计特性,所述边界的统计特性为目标物体区域与非目标物体区域的边界的统计特性;
结合所述边界的统计特性,多重参考模型将学习的上一帧图像切割的目标物体区域、非目标物体区域自动传递到视频中的当前帧,以确定当前帧的目标物体区域、非目标物体区域以及边界的统计特性,进而根据当前帧的目标物体区域切割出目标物体,重复该步骤,直到完成对视频的切割。
2.根据权利要求1所述的方法,其特征在于,所述结合所述边界的统计特性,多重参考模型将学习的上一帧图像切割的目标物体区域、非目标物体区域自动传递到视频中的当前帧,以确定当前帧的目标物体区域、非目标物体区域以及边界的统计特性,进而根据当前帧的目标物体区域切割出目标物体,重复该步骤,直到完成对视频的切割,具体包括:
结合所述边界的统计特性以及多重参考模型确定能量函数;
确定所述能量函数的最小值,以确定当前帧的目标物体区域、非目标物体区域以及边界的统计特性,进而根据当前帧的目标物体区域切割出目标物体,重复该步骤,直到完成对视频的切割。
3.根据权利要求1所述的方法,其特征在于,所述能量函数为: E ( r ) = &Sigma; i &Element; I ( E 1 ( r i ) + &lambda;&Sigma; j &Element; N i E 2 ( r i , r j ) ) , 其中Ni是像素i的邻域,r={ri}i∈I为视频切割的结果,I为视频图像的像素结合,ri是像素i的标注,其值为-1或+1,且在ri=+1代表像素i属于目标物体区域,ri=-1代表像素i属于非目标物体区域;
E1(ri)是似然项,表示像素i给定标签ri的惩罚值,E1(ri)=-(log(p(ci|ri))+log(p(ei|ri))),其中ci是像素i的色彩,ei是以像素i为中心的图像块中所有像素的色彩值,p(ci|ri)通过YUV色彩空间的直方图查表求得, p ( e i | r i ) = max k { exp ( - 1 2 ( e i - e ^ k r i ) T ( &Sigma; k r i ) - 1 ( e i - e ^ k r i ) ) ( 2 &pi; ) D / 2 | &Sigma; k r i | 1 / 2 } , 其中,为对上一帧的目标物体区域的所有图像块做K-means聚类得到的第K个目标物体码字,为对上一帧的非目标物体区域的所有图像块做K-means聚类得到的第K个非目标物体码字,是均值为的第K个类的协方差矩阵,D是的维度;
λ是一个模型参数;
E2(ri,rj)是先验项,表示相邻像素i和j分别给定标签ri和rj的惩罚值,先验项包括三个部分:对比度项边界项和时域项
E 2 ( r i , r j ) = &phi; i j c + &phi; i j b + &phi; i j t , 其中,对比度项 &phi; i j c = &alpha; &CenterDot; exp ( - | | c i - c j | | &sigma; ) &CenterDot; | r i - r j | , 在对比度项中,i与j是空间邻域内的像素对,α与σ是控制参数,α采用随机至少10张以上图的分割结果求得,σ自动设置为σ=2<||ci-cj||>,其中<·>是针对整个图像的均值操作;边界项Hij=max{Hr(ci,cj),Hg(ci,cj),Hb(ci,cj)},Hr,Hg,Hb分别对应R、G、B色彩通道的直方图,α'=α,σ'=Np,Np是从初始结果选择的像素对的数目;时域项不同的是时域项中i与j是时间邻域内的像素对。
4.根据权利要求1所述的方法,其特征在于,在所述结合所述边界的统计特性,多重参考模型将学习的上一帧图像切割的目标物体区域、非目标物体区域自动传递到视频中的当前帧,以确定当前帧的目标物体区域、非目标物体区域以及边界的统计特性,进而根据当前帧的目标物体区域切割出目标物体,重复该步骤,直到完成对视频的切割之后,包括:
显示切割的目标物体。
5.一种视频切割的装置,其特征在于,所述装置包括:
第一帧目标物体切割单元,用于切割视频中第一帧图像的目标物体,所述视频包括至少一帧图像;
上一帧统计特性学习单元,用于学习第一帧图像切割的目标物体区域、非目标物体区域以及边界的统计特性,所述边界的统计特性为目标物体区域与非目标物体区域的边界的统计特性;
当前帧统计特性确定单元,用于结合所述边界的统计特性,多重参考模型将学习的上一帧图像切割的目标物体区域、非目标物体区域自动传递到视频中的当前帧,以确定当前帧的目标物体区域、非目标物体区域以及边界的统计特性,进而根据当前帧的目标物体区域切割出目标物体,重复该步骤,直到完成对视频的切割。
6.根据权利要求5所述的装置,其特征在于,所述当前帧统计特性确定单元包括:
能量函数确定模块,用于结合所述边界的统计特性以及多重参考模型确定能量函数;
当前帧目标物体区域确定模块,用于确定所述能量函数的最小值,以确定当前帧的目标物体区域、非目标物体区域以及边界的统计特性,进而根据当前帧的目标物体区域切割出目标物体,重复该步骤,直到完成对视频的切割。
7.根据权利要求5所述的装置,其特征在于,所述能量函数为: E ( r ) = &Sigma; i &Element; I ( E 1 ( r i ) + &lambda;&Sigma; j &Element; N i E 2 ( r i , r j ) ) , 其中Ni是像素i的邻域,r={ri}i∈I为视频切割的结果,I为视频图像的像素结合,ri是像素i的标注,其值为-1或+1,且在ri=+1代表像素i属于目标物体区域,ri=-1代表像素i属于非目标物体区域;
E1(ri)是似然项,表示像素i给定标签ri的惩罚值,E1(ri)=-(log(p(ci|ri))+log(p(ei|ri))),其中ci是像素i的色彩,ei是以像素i为中心的图像块中所有像素的色彩值,p(ci|ri)通过YUV色彩空间的直方图查表求得, p ( e i | r i ) = max k { exp ( - 1 2 ( e i - e ^ k r i ) T ( &Sigma; k r i ) - 1 ( e i - e ^ k r i ) ) ( 2 &pi; ) D / 2 | &Sigma; k r i | 1 / 2 } , 其中,为对上一帧的目标物体区域的所有图像块做K-means聚类得到的第K个目标物体码字,为对上一帧的非目标物体区域的所有图像块做K-means聚类得到的第K个非目标物体码字,是均值为的第K个类的协方差矩阵,D是的维度;
λ是一个模型参数;
E2(ri,rj)是先验项,表示相邻像素i和j分别给定标签ri和rj的惩罚值,先验项包括三个部分:对比度项边界项和时域项
E 2 ( r i , r j ) = &phi; i j c + &phi; i j b + &phi; i j t , 其中,对比度项 &phi; i j c = &alpha; &CenterDot; exp ( - | | c i - c j | | &sigma; ) &CenterDot; | r i - r j | , 在对比度项中,i与j是空间邻域内的像素对,α与σ是控制参数,α采用随机至少10张以上图的分割结果求得,σ自动设置为σ=2<||ci-cj||>,其中<·>是针对整个图像的均值操作;边界项Hij=max{Hr(ci,cj),Hg(ci,cj),Hb(ci,cj)},Hr,Hg,Hb分别对应R、G、B色彩通道的直方图,α'=α,σ'=Np,Np是从初始结果选择的像素对的数目;时域项不同的是时域项中i与j是时间邻域内的像素对。
8.根据权利要求5所述的装置,其特征在于,所述装置包括:
切割目标物体显示单元,用于显示切割的目标物体。
CN201610046722.XA 2016-01-25 2016-01-25 视频切割的方法及装置 Pending CN105741269A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610046722.XA CN105741269A (zh) 2016-01-25 2016-01-25 视频切割的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610046722.XA CN105741269A (zh) 2016-01-25 2016-01-25 视频切割的方法及装置

Publications (1)

Publication Number Publication Date
CN105741269A true CN105741269A (zh) 2016-07-06

Family

ID=56246507

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610046722.XA Pending CN105741269A (zh) 2016-01-25 2016-01-25 视频切割的方法及装置

Country Status (1)

Country Link
CN (1) CN105741269A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108596940A (zh) * 2018-04-12 2018-09-28 北京京东尚科信息技术有限公司 一种视频分割方法和装置
WO2019080685A1 (zh) * 2017-10-24 2019-05-02 北京京东尚科信息技术有限公司 视频图像分割方法及装置、存储介质、电子设备
CN112085025A (zh) * 2019-06-14 2020-12-15 阿里巴巴集团控股有限公司 物体分割方法、装置、设备
CN113838057A (zh) * 2021-09-24 2021-12-24 刘文平 高分sar图像分割计算性能和精度优化方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101017573A (zh) * 2007-02-09 2007-08-15 南京大学 一种基于视频监控的运动目标检测与识别方法
CN102665062A (zh) * 2012-03-16 2012-09-12 华为技术有限公司 一种使视频中目标物体图像稳定的方法及装置
US20130136299A1 (en) * 2011-11-30 2013-05-30 Samsung Electronics Co., Ltd. Method and apparatus for recovering depth information of image

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101017573A (zh) * 2007-02-09 2007-08-15 南京大学 一种基于视频监控的运动目标检测与识别方法
US20130136299A1 (en) * 2011-11-30 2013-05-30 Samsung Electronics Co., Ltd. Method and apparatus for recovering depth information of image
CN102665062A (zh) * 2012-03-16 2012-09-12 华为技术有限公司 一种使视频中目标物体图像稳定的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SHIFENG CHEN等: "Learning Boundary and Appearance for Video Object Cutout", 《IEEE SIGNAL PROCESSING LETTERS》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019080685A1 (zh) * 2017-10-24 2019-05-02 北京京东尚科信息技术有限公司 视频图像分割方法及装置、存储介质、电子设备
US11227393B2 (en) 2017-10-24 2022-01-18 Beijing Jingdong Shangke Information Technology Co., Ltd. Video image segmentation method and apparatus, storage medium and electronic device
CN108596940A (zh) * 2018-04-12 2018-09-28 北京京东尚科信息技术有限公司 一种视频分割方法和装置
CN108596940B (zh) * 2018-04-12 2021-03-30 北京京东尚科信息技术有限公司 一种视频分割方法和装置
CN112085025A (zh) * 2019-06-14 2020-12-15 阿里巴巴集团控股有限公司 物体分割方法、装置、设备
CN112085025B (zh) * 2019-06-14 2024-01-16 阿里巴巴集团控股有限公司 物体分割方法、装置、设备
CN113838057A (zh) * 2021-09-24 2021-12-24 刘文平 高分sar图像分割计算性能和精度优化方法

Similar Documents

Publication Publication Date Title
CN111192292B (zh) 基于注意力机制与孪生网络的目标跟踪方法及相关设备
CN107103326B (zh) 基于超像素聚类的协同显著性检测方法
US20160070976A1 (en) Image processing apparatus, image processing method, and recording medium
CN105741269A (zh) 视频切割的方法及装置
CN110189333B (zh) 一种图片语义分割半自动标注方法及装置
CN110879960B (zh) 生成卷积神经网络学习用图像数据集的方法及计算装置
WO2022127912A1 (en) Image segmentation method, network training method, electronic equipment and storage medium
EP3836083B1 (en) Disparity estimation system and method, electronic device and computer program product
CN103582900A (zh) 用于对3d内容进行重定目标的方法和设备
US20230169332A1 (en) Method and system for machine learning from imbalanced data with noisy labels
US10037480B2 (en) Method for improving classification results of a classifier
CN111126401A (zh) 一种基于上下文信息的车牌字符识别方法
US8526674B2 (en) Motion-based, multi-stage video segmentation with motion boundary refinement
CN112866797B (zh) 一种视频处理方法、装置、电子设备及存储介质
Sharjeel et al. Real time drone detection by moving camera using COROLA and CNN algorithm
US20230072445A1 (en) Self-supervised video representation learning by exploring spatiotemporal continuity
Li et al. Saliency detection via alternative optimization adaptive influence matrix model
CN105469088B (zh) 一种适用于目标识别的物体预测区域优化方法
CN112380978B (zh) 基于关键点定位的多人脸检测方法、系统及存储介质
CN103065315B (zh) 一种多图谱融合方法、系统及医疗设备
Zhou et al. Semantic image segmentation using low-level features and contextual cues
CN106056575B (zh) 一种基于似物性推荐算法的图像匹配方法
US20130182946A1 (en) Methods and system for analyzing and rating images for personalization
Nguyen et al. As-similar-as-possible saliency fusion
CN115082840A (zh) 基于数据组合和通道相关性的动作视频分类方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160706

RJ01 Rejection of invention patent application after publication