CN103067646A - 运动特征提取方法和装置,以及视频处理装置 - Google Patents
运动特征提取方法和装置,以及视频处理装置 Download PDFInfo
- Publication number
- CN103067646A CN103067646A CN 201110335227 CN201110335227A CN103067646A CN 103067646 A CN103067646 A CN 103067646A CN 201110335227 CN201110335227 CN 201110335227 CN 201110335227 A CN201110335227 A CN 201110335227A CN 103067646 A CN103067646 A CN 103067646A
- Authority
- CN
- China
- Prior art keywords
- motion vector
- subregion
- histogram
- motion
- input picture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开一种运动特征提取方法和装置,以及一种视频处理装置。所述运动特征提取方法包括:将输入图像划分为多个子区域,所述多个子区域形成嵌套的“回”字形结构;从所述多个子区域构造子区域金字塔,所述金字塔包含一层或多层子区域;生成金字塔的每层中的每个子区域的运动矢量直方图;以及将金字塔的各个层中的子区域的运动矢量直方图拼接,得到拼接的运动矢量直方图,作为输入图像的运动特征。
Description
技术领域
本发明总体上涉及计算机视觉领域,更具体而言,涉及一种运动特征提取方法和装置以及一种视频处理装置。
背景技术
视频的运动信息是通过分析同一视频中不同帧之间的物体的相对位移得到的关于视频中物体的运动、镜头变化以及整个画面的移动等信息。作为视频中的重要信息,运动信息在计算机视觉领域的视频分类、视频检索、视频分段、运动物体检测、事件检测、镜头边界检测等问题中发挥着重要作用,有着广泛的应用。
如何提取较高层次的运动特征,以便更加准确全面地描述视频的运动内容,对于后续的视频分析、检测等有着重要影响。
美国专利公开US 7,852,938B2提出了一种对运动矢量处理的方法。在所述方法中,建立运动矢量金字塔,金字塔的上一层的较大块尺寸的运动矢量由相邻下一层的较小块尺寸的运动矢量合并而成,由此得到基于不同块尺寸的运动矢量。但是此方法未对帧内不同区域进行区分。
Xavier Gibert,Huiping Li和David Doermann的“Sports video classification using HMMS”,Proceedings of International Conference on Multimedia & Expo,pp.345-348,2003中公开了一种通过统计运动矢量直方图来生成运动特征向量的方法。但此方法仅在整个帧的范围内统计直方图,得到的结果缺乏对帧内局部运动信息的描述。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详 细描述的前序。
本发明的一个目的是提出一种运动特征提取方法和装置,以克服现有技术中的上述缺陷中的至少一种。本发明的另一目的是提出一种视频处理装置,以利用通过本发明的运动特征提取装置提取的视频中每一帧的运动特征对视频进行处理。
根据本发明的一个方面,提供了一种运动特征提取方法,包括:将输入图像划分为多个子区域,所述多个子区域形成嵌套的“回”字形结构;从所述多个子区域构造子区域金字塔,所述金字塔包含一层或多层子区域;生成金字塔的每层中的每个子区域的运动矢量直方图;以及将金字塔的各个层中的子区域的运动矢量直方图拼接,得到拼接的运动矢量直方图,作为输入图像的运动特征。
根据本发明的另一方面,提供了一种运动特征提取装置,包括:子区域划分部件,用于将输入图像划分为多个子区域,所述多个子区域形成嵌套的“回”字形结构;金字塔构造部件,用于从所述多个子区域构造子区域金字塔,所述金字塔包含一层或多层子区域;直方图生成部件,用于生成金字塔的每层中的每个子区域的运动矢量直方图;以及直方图拼接部件,用于将金字塔的各个层中的子区域的运动矢量直方图拼接,得到拼接的运动矢量直方图,作为输入图像的运动特征。
根据本发明的另一方面,提供了一种视频处理装置,包括:运动特征提取部件,用于提取待处理视频中的每一帧输入图像的运动特征;以及视频处理部件,用于利用每一帧的运动特征对视频进行处理,其中,所述运动特征提取部件包括:子区域划分部件,用于将输入图像划分为多个子区域,所述多个子区域形成嵌套的“回”字形结构;金字塔构造部件,用于从所述多个子区域构造子区域金字塔,所述金字塔包含一层或多层子区域;直方图生成部件,用于生成所述金字塔的每层中的每个子区域的运动矢量直方图,以及直方图拼接部件,用于将所述金字塔的各个层中的子区域的运动矢量直方图拼接,得到拼接的运动矢量直方图,作为所述输入图像的运动特征。
使用根据本发明的以上方面的方法和装置提取出的运动特征能够准确、全面地描述输入图像内局部及整体的运动信息,同时能够区分处理输入图像中前景和背景的运动信息。
附图说明
本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中:
图1示出根据本发明的一个实施例的运动特征提取方法的示意性流程图;
图2示出根据本发明的一个实施例的子区域划分示例;
图3示出根据本发明的一个实施例的子区域金字塔构造示例;
图4示出金字塔的各个层中的每个子区域的运动矢量直方图示例;
图5示出将图4的各个层中的子区域的运动矢量直方图拼接的示例;
图6示出根据本发明的另一个实施例的运动特征提取方法的示意性流程图;
图7a示出子区域中的块的运动矢量示例;
图7b示出将图7a中的子区域中的各块的运动矢量划分到不同方向上的示例;
图7c示出通过合计图7b中的运动矢量得到的示意性运动矢量直方图;
图8示出根据本发明的另一实施例的运动矢量提取方法的流程图;
图9示出根据本发明的一个实施例的视频处理方法的示意性流程图;
图10示出根据本发明的一个实施例的运动特征提取装置的示意性框图;
图11示出根据本发明的一个实施例的金字塔构造部件的示意性框图;
图12示出根据本发明的另一个实施例的运动特征提取装置的示意性框图;
图13示出根据本发明的一个实施例的直方图生成部件的示意性框图;
图14示出根据本发明的另一个实施例的运动特征提取装置的示意性框图;
图15示出根据本发明的一个实施例的视频处理装置的示意性框图;以及
图16示出可以实现本公开的实施例/示例的计算机的结构的示例性框图。
具体实施方式
下面将参照附图来说明本发明的实施例。在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。应当注意,为了清楚的目的,附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。
鉴于现有技术的上述情形,本申请的发明人构思了一种运动特征提取方法和装置,以便从输入图像中提取运动特征。本申请的发明人还构思了一种视频处理方法和装置。在本公开中,输入图像可以是诸如图片的静止图像或诸如视频帧的动态图像。另外,在实际应用中,本发明的方法和装置往往应用于一组输入图像,该组输入图像是按时间顺序拍摄的多个静止图像,或者是一段视频中的多帧动态图像。
以下,将以下面的顺序来描述示例性实施例。
1.运动特征提取方法
2.视频处理方法
3.运动特征提取装置
4.视频处理装置
5.可实施本公开的方法/装置的计算机结构
<1.运动特征提取方法>
下面将参考图1-8详细描述根据本发明实施例的运动特征提取方法。
图1示出根据本发明的一个实施例的运动特征提取方法的示意性流程图。如图1所示,首先,在步骤S110中,将输入图像划分为多个子区域。在本发明的实施例中,划分出的多个子区域形成嵌套的“回”字形结 构。“回”字形结构的子区域划分,能够突出画面的中心区域,也就是大多数视频中拍摄对象集中出现的区域,从而可以对输入图像中前景和背景中出现的运动分别进行统计。
为了说明而不是限制,以下给出一个具体的划分步骤示例。首先,在输入图像的中心取一个矩形区域;然后,将此矩形区域的边缘与输入图像的边缘之间的环形区域分割n-1个环形子区域,由此划分出的n个子区域形成嵌套的“回”字形结构,n为大于1的自然数。为了均匀划分,在其他示例中,可以使划分出的各个环形区域的横向宽度或纵向宽度相等。
为方便理解,图2示出将输入图像划分为多个子区域的图案示例。在图2中,输入图像被划分为4个子区域1,2,3和4。为了方便观看和说明,采用了白色和暗色来区分不同的子区域。其中,子区域1由输入图像中心的白色矩形区域表示,子区域2由围绕子区域1的暗色环形区域表示,子区域3由围绕子区域2的白色环形区域表示,子区域4由围绕子区域3的暗色环形区域表示。这四个子区域形成嵌套的“回”字形结构。
返回到图1,在步骤S120中,从所述多个子区域构造子区域金字塔。所述金字塔可以包含一层或多层子区域。
作为一个具体实施例,可以采用以下步骤来构造子区域金字塔:
(1)以从输入图像划分的多个子区域作为金字塔的最下层子区域;以及
(2)通过将下一层的相邻两个或更多个子区域合并以形成金字塔中相邻上一层的子区域,自下向上逐一生成金字塔的其他层子区域。
例如,假设在以上的步骤S110中将输入图像划分为n个子区域,则在构造金字塔时,可以以这n个子区域作为金字塔的最下层子区域;将所述n个子区域中相邻的每两个或多个子区域合并,形成 个新的子区域,作为金字塔的在自下向上方向上的第2层子区域。这里,符号 表示向上取整。依此方法循环操作,直至合并得到的子区域是整个输入图像。由此,得到包含K层子区域的金字塔,金字塔的在自下到上方向上的第k层包含 个子区域,其中,1≤k≤K,
在上述示例中,金字塔的最上层子区域是输入图像。应当理解,在其他示例中,金字塔的最上层也可以包含多个子区域,也就是子区域的合并操作并不一定循环至得到的子区域是整个输入图像。
另外,在另一个示例中,也可以仅采用从输入图像划分的多个子区域 来作为金字塔的一层子区域,而不进行子区域的合并。也就是说,本公开中的金字塔可以包含一层子区域,也可以包含多层子区域。
为方便理解,图3示出根据本发明的一个实施例的子区域金字塔构造示例。在该示例中,输入图像被划分为4个子区域1,2,3和4。这4个子区域作为金字塔的第一层子区域。然后,通过将这4个子区域中的相邻子区域1和2合并,生成第二层的子区域5,相邻子区域3和4合并,生成第二层的子区域6。最后,将第二层的相邻子区域5和6合并,生成第三层即该金字塔的最高层的子区域7。最高层的子区域7实际上是整个输入图像。
返回到图1,在步骤S120中构造出子区域金字塔之后,在步骤S130中,生成金字塔的每层中的每个子区域的运动矢量直方图。然后在步骤S140中,将金字塔的各个层中的子区域的运动矢量直方图拼接,得到拼接的运动矢量直方图,作为输入图像的运动特征。拼接是指将各个子区域的运动矢量直方图直接连接在一起。每个子区域的运动矢量直方图在拼接得到的运动矢量直方图中保持完整。这样拼接出的运动矢量直方图包含不同粒度的子区域的运动信息,能够准确、全面地描述输入图像内局部及整体的运动信息。
为方便理解,图4示出金字塔的各层中每个子区域的运动矢量直方图示例,图5示出将图4的各层中的子区域的运动矢量直方图拼接的示例。在图5的拼接图中,按照从金字塔的下层到上层、从输入图像的中心到外围的顺序来拼接图4中的各层中的子区域的运动矢量直方图。这种顺序只是示例而不是限制。可以采用各种适当的预定顺序来拼接运动矢量直方图。
本领域技术人员可以采用现有的任何适当的方法来生成金字塔的每层中的每个子区域的运动矢量直方图。为说明目的,以下结合图6来描述根据本发明的一个实施例的运动矢量直方图生成方法。
图6示出根据本发明的另一个实施例的运动特征提取方法的示意性流程图。与图1的实施例相比,在图6的实施例中,增加了步骤S610和S620,并对生成运动矢量直方图的步骤(S650)进行了进一步限定。
在步骤S610中,将输入图像划分成相等大小的多个块(block)。每个块包含相同数目的像素。这种预定大小的像素块也称为宏块(macro block)。
在步骤S620中,计算每个块的运动矢量。本领域技术人员可以采用现有的任何适当的方法来计算块的运动矢量。例如,对于输入图像中的一个块,可以确定当前帧中该块的中心位置相对于参考帧中的匹配误差最小的块的中心位置的偏移矢量,作为当前帧中该块的运动矢量。其中,运动矢量搜索方法,即在参考帧中寻找匹配误差最小的块的位置的方法,可以采用遍历搜索法,也可以采用快速搜索法(如菱形搜索法)。块匹配误差可以采用误差平方和(Sum of Square Difference,SSD)或误差绝对值和(Sum of Absolute Difference,SAD)。
在步骤S650中,生成所述金字塔的每层中的每个子区域的运动矢量直方图包括:针对每个子区域按方向合计所述子区域中的块的运动矢量的模长,由此生成以方向为维度的所述子区域的运动矢量直方图。所述方向可以是输入图像所在的平面内的任何预定方向。例如,所述方向可以是上、下、左、右、左上、左下、右上、右下等8个方向,或者可以是以更细或更粗粒度划分的其他方向。按方向合计运动矢量的模长,就是合计每个方向上的运动矢量的模长。
考虑到各个子区域所包含的块的数目可能不同,优选地,可以在针对每个子区域按方向合计该子区域中的块的运动矢量的模长之前,将该子区域中每个块的运动矢量的模长归一化。也就是说,将子区域中每个块的运动矢量的模长除以该子区域中的块的总数。或者,也可以在针对每个子区域按方向合计该子区域中的块的运动矢量的模长之后,将每个合计的模长归一化。也就是说,将每个合计的模长除以该子区域中的块的总数。这样,得到的拼接的运动矢量直方图能够更准确地反映图像中各个区域的运动信息。
作为一个具体实施例,利用极坐标系来合计子区域中的块的运动矢量的模长。平面直角坐标系中任意一点(x,y)的位置在极坐标系中可以用一条线段的长度(在极坐标中也称为幅度)ρ和该线段与横轴正方向的夹角θ,即(ρ,θ),来表示。在极坐标系中,可以更方便地按方向合计运动矢量。在该具体实施例中,可以通过以下步骤来按方向合计子区域中的块的运动矢量的模长:
(1)将子区域中的所有块的运动矢量由平面直角坐标系变换到极坐标系中;
(2)将每个块的运动矢量按角度映射到多个角度范围之一上,每个角度范围对应于一个方向;以及
(3)合计映射到每个方向上的运动矢量的幅度。
为方便理解,图7a示出子区域中的块的运动矢量示例;图7b示出将图7a中的子区域中的块的运动矢量划分到不同方向上的示例;图7c示出通过合计图7b中的运动矢量得到的运动矢量直方图。在图7b的示例中,将图7a中的运动矢量变换到极坐标系中。可以看到,图7a中的运动矢量变换到极坐标后,在图7b中分布在不同的角度范围内。图7b中示出的角度范围是将360°分成8个角度范围,如0°-45°,45°-90°等。每个角度范围对应于一个方向。角度范围可以根据实际情况任意确定,而不限于图7b中的示例。图7c示出通过在7b示出的8个角度范围所对应的8个方向上合计运动矢量得到的直方图。
返回到图6,图6中的步骤S630、S640和S660分别与图1中的步骤S110、S120和S140相同,这里不再赘述。
应当理解,在图6中,步骤S610和S620在步骤S630之前,但这不是必须的。只要保证步骤S610和S620在步骤S650之前即可。
另外,应当理解,在步骤S630中将输入图像划分为多个子区域时,优选地,每个块都完整地属于一个子区域,而不会被划分到相邻的两个子区域中。这样有利于提高后续的运动矢量直方图的准确度。
图8示出根据本发明的另一实施例的运动矢量提取方法的流程图。与图1的实施例相比,在图8的实施例中,增加了步骤S840。在步骤S840中,对金字塔的至少一层中的各个子区域的运动矢量直方图赋予不同的权重。通过对不同子区域的直方图赋予以不同权重的方法来突出某些子区域的运动特征的重要性。由于大多数视频中拍摄对象集中出现画面的中心区域,因此,优选地,在从输入图像的中心到外围的方向上对金字塔的所述至少一层中的各个子区域的运动矢量直方图施以递减的权重。应当理解,尽管在图8的实施例中,在将金字塔的各个层中的子区域的运动矢量直方图拼接之前对子区域的运动矢量直方图进行加权,但是在其他实施例中,也可以直接对拼接后的运动矢量直方图中与特定子区域相对应的运动矢量直方图进行加权。
图8中的其他步骤S810、S820、S830和S850分别与图1中的步骤S110、S120、S130和S140相同,这里不再赘述。
<2.视频处理方法>
根据本发明的上述实施例的运动特征提取方法提取出的运动特征是 较高层次的运动特征。这种运动特征可以很好地用于后续的视频处理中。
图9示出根据本发明的一个实施例的视频处理方法的示意性流程图。如图9所示,在步骤S910中,提取待处理视频中的每一帧输入图像的运动特征。这里,可以将视频中的每一帧作为输入图像,使用根据本发明实施例的运动特征提取方法来提取每一帧的运动特征。然后,在步骤S920中,利用每一帧的运动特征对视频进行处理。
作为示例,对视频的处理可以包括以下中的至少一种:视频分类、视频检索、视频分段、运动物体检测、事件检测、以及镜头边界检测。本领域技术人员能够了解,所提取的运动特征可以适当地应用于其他视频处理中,这里不一一列举。
为方便理解,下面以视频分类为例,描述利用根据本发明实施例提取的运动特征进行视频处理的具体过程。给定任一视频,首先读取该视频中每一帧的数据,再使用根据本发明上述实施例的运动特征提取方法来提取每一帧的运动特征。由此,视频中的每一帧都可以由作为运动特征的拼接的运动矢量直方图来描述其运动信息。通过统计该视频中各帧的所述运动特征的分布,即可描述该视频的运动特性。例如,可对各帧的运动特征应用Bag-of-Words算法。将各帧的所述运动特征(拼接的运动矢量直方图)聚类为N个集合,每个集合内的运动特征由一个“词”(word)表示,从而实现运动特征向“词”的映射。统计该视频内“词”的分布直方图,从而可以用词的分布直方图描述该视频的运动信息。接着,可以采用分类方法,比如支持向量机(SVM)、Adaboost、聚类、随机森林(Random forest)等,对多个视频的直方图进行分类操作,从而实现对视频的基于运动特征的分类。
以下再以视频分段为例,描述利用根据本发明实施例提取的运动特征进行视频处理的具体过程。首先,使用根据本发明的上述实施例的运动特征提取方法来提取视频中每一帧的运动特征,即拼接的运动矢量直方图。然后,对各帧的所述运动特征进行聚类,运动特征相似的帧聚为一类。根据聚类结果以及各帧的时序关系,可以将视频分为多个段。这时,还可以进一步将过短的段合并到临近段中,以达到去噪的目的。这样,根据视频的运动特征,可以将视频分为多个段落。
应当理解,在实际应用中,为了使得同一视频中的各个帧或多个视频的运动特征具有更好的可比性,优选地,在针对同一视频中的各个帧或多个视频的各个帧所使用的运动特征提取方法中,子区域的划分方式以及金 字塔的构造方式是相同的。
本领域技术人员在上述说明的指引下可以用各种不同的手段来实施不同的视频处理,这里不再赘述。
<3.运动特征提取装置>
以下结合图10-14描述根据本发明实施例的运动特征提取装置。
图10示出根据本发明的一个实施例的运动特征提取装置的示意性框图。所述运动特征提取装置可以用于从输入图像中提取运动特征。其中,为了简明起见仅仅示出了与本发明密切相关的部分。运动特征提取装置1000包括:子区域划分部件1010、金字塔构造部件1020、直方图生成部件1030和直方图拼接部件1040。
在一个实施例中,子区域划分部件1010可以用于将输入图像划分为多个子区域,所述多个子区域形成嵌套的“回”字形结构。金字塔构造部件1020可以用于从由输入图像划分出的多个子区域构造子区域金字塔,所述金字塔包含一层或多层子区域。直方图生成部件1030可以用于生成金字塔的每层中的每个子区域的运动矢量直方图。直方图拼接部件1040可以用于将金字塔的各个层中的子区域的运动矢量直方图拼接,得到拼接的运动矢量直方图,作为输入图像的运动特征。
作为示例而不是限制,图11示出根据本发明的一个实施例的金字塔构造部件的示意性框图。在该实施例中,金字塔构造部件1020包括最下层确定部件1110和其他层生成部件1120。最下层确定部件1110可以用于以从输入图像划分的多个子区域作为金字塔的最下层子区域。其他层生成部件1120可以用于通过将下一层的相邻两个或更多个子区域合并以形成金字塔中相邻上一层的子区域,自下向上逐一生成金字塔的其他层子区域。在金字塔只包括一层子区域的情况下,金字塔构造部件1020可以不包括其他层生成部件1120。
图12示出根据本发明的另一个实施例的运动特征提取装置的示意性框图。在该实施例中,运动特征提取装置1200包括子区域划分部件1210、金字塔构造部件1220、直方图生成部件1230、直方图拼接部件1240、块划分部件1250和运动矢量计算部件1260。块划分部件1250可以用于将输入图像划分为相等大小的多个块。运动矢量计算部件1260可以用于计算输入图像中的每个块的运动矢量。直方图生成部件1230可以用于针对金字塔的每层中的每个子区域按方向合计所述子区域中的块的运动矢量 的模长,由此生成以方向为维度的所述子区域的运动矢量直方图。运动特征提取装置1200中的其他部件的功能与图10中的运动特征提取装置1000中的对应部件的功能相同,这里不再重复。
作为示例而不是限制,图13示出根据本发明的一个实施例的直方图生成部件1200的示意性框图。使用该实施例中的直方图生成部件,可以在极坐标系中合计子区域中的块的运动矢量。在该实施例中,直方图生成部件1200包括坐标变换部件1310、运动矢量映射部件1320和模长合计部件1330。坐标变换部件1310可以用于将金字塔的一个层中的每个子区域中的所有块的运动矢量由平面直角坐标系变换到极坐标系中。运动矢量映射部件1320可以用于将每个块的运动矢量按角度映射到多个角度范围之一上,每个角度范围对应于一个方向。模长合计部件1330可以用于合计映射到每个方向上的运动矢量的幅度。
图14示出根据本发明的另一个实施例的运动特征提取装置的示意性框图。在该实施例中考虑了对输入图像的不同子区域的运动特征直方图进行加权,以突出特定子区域。运动特征提取装置1400包括子区域划分部件1410、金字塔构造部件1420、直方图生成部件1430、直方图拼接部件1440和加权部件1450。其中,加权部件1450可以用于在直方图拼接部件1440将金字塔的各个层中的子区域的运动矢量直方图拼接之前,针对金字塔中的至少一层,在从输入图像的中心到外围的方向上对所述至少一层中的各个子区域的运动矢量直方图施以递减的权重。运动特征提取装置1400中的其他部件的功能与图10中的运动特征提取装置1000中的对应部件的功能相同,这里不再重复。
关于根据本发明上述实施例的运动特征提取装置中每个部件的更多详细操作,可以参考以上对根据本发明实施例的运动特征提取方法的描述,这里不再重复。
在根据本发明实施例的运动特征提取方法和装置中,采用逐层外扩的“回”字形结构的子区域划分,能够突出画面的中心区域,也就是大多数视频中拍摄对象集中出现的区域,从而可以对输入图像中前景和背景中出现的运动分别进行统计。另外,通过从多个子区域构造子区域金字塔,并将金字塔的各个层中的子区域的运动矢量直方图拼接,能够准确、全面地描述输入图像内局部及整体的运动信息。
<4.视频处理装置>
图15示出根据本发明的一个实施例的视频处理装置的示意性框图。其中,视频处理装置1500包括运动特征提取部件1510和视频处理部件1520。运动特征提取部件1510可以用于提取待处理视频中的每一帧输入图像的运动特征。视频处理部件1520可以用于利用每一帧的运动特征对视频进行处理。这里,运动特征提取部件1510可以使用根据本发明上述实施例的任一运动特征提取装置来实施。
根据本发明的一个实施例,视频处理部件1520进行的处理包括以下中的至少一种:视频分类、视频检索、视频分段、运动物体检测、事件检测、以及镜头边界检测。
关于根据本发明上述实施例的视频处理装置中每个部件的更多详细操作,可以参考以上对根据本发明实施例的视频处理方法的描述,这里不再重复。
<5.可实施本公开的方法/装置的计算机结构>
应当理解,根据本发明实施例的各个装置中各个组成模块、单元可以通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知,在此不再赘述。在通过软件或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等。
图16示出可以实现本公开的实施例/示例的计算机的结构的示例性框图。在图16中,中央处理单元(CPU)1601根据只读存储器(ROM)1602中存储的程序或从存储部分1608加载到随机存取存储器(RAM)1603的程序执行各种处理。在RAM 1603中,还根据需要存储当CPU 1601执行各种处理等等时所需的数据。CPU 1601、ROM 1602和RAM 1603经由总线1604彼此连接。输入/输出接口1605也连接到总线1604。
下述部件连接到输入/输出接口1605:输入部分1606(包括键盘、鼠标等等)、输出部分1607(包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分1608(包括硬盘等)、通信部分1609(包括网络接口卡比如LAN卡、调制解调器等)。通信部分1609经由网络比如因特网执行通信处理。根据需要,驱动器1610也可连接到输入/输出接口1605。可拆卸介质1611比如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器1610上,使得从中读出的计算机程序根据需要被安装到存储部分1608中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质1611安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图16所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质1611。可拆卸介质1611的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 1602、存储部分1608中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
本发明还提出一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时,可执行上述根据本发明实施例的运动特征提取方法。
相应地,用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。
在上面对本发明具体实施例的描述中,针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
此外,本发明的方法不限于按照说明书中描述的时间顺序来执行,也可以按照其他的时间顺序地、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。
以上虽然结合附图详细描述了本发明的实施例,但是应当明白,上面所描述的实施方式只是用于说明本发明,而并不构成对本发明的限制。对于本领域的技术人员来说,可以对上述实施方式做出各种修改和变更而没有背离本发明的实质和范围。因此,本发明的范围仅由所附的权利要求及其等效含义来限定。
Claims (16)
1.一种运动特征提取方法,包括:
将输入图像划分为多个子区域,所述多个子区域形成嵌套的“回”字形结构;
从所述多个子区域构造子区域金字塔,所述金字塔包含一层或多层子区域;
生成所述金字塔的每层中的每个子区域的运动矢量直方图;以及
将所述金字塔的各个层中的子区域的运动矢量直方图拼接,得到拼接的运动矢量直方图,作为所述输入图像的运动特征。
2.根据权利要求1的运动特征提取方法,其中,从所述多个子区域构造子区域金字塔包括:
以从所述输入图像划分的所述多个子区域作为所述金字塔的最下层子区域;以及
通过将下一层的相邻两个或更多个子区域合并以形成金字塔中相邻上一层的子区域,自下向上逐一生成所述金字塔的其他层子区域。
3.根据权利要求1或2的运动特征提取方法,还包括:
将所述输入图像划分为相等大小的多个块;以及
计算所述输入图像中的每个块的运动矢量,以及
其中,生成所述金字塔的每层中的每个子区域的运动矢量直方图包括:针对每个子区域按方向合计所述子区域中的块的运动矢量的模长,由此生成以方向为维度的所述子区域的运动矢量直方图。
4.根据权利要求3的运动特征提取方法,其中,按方向合计所述子区域中的块的运动矢量的模长包括:
将所述子区域中的所有块的运动矢量由平面直角坐标系变换到极坐标系中;
将每个块的运动矢量按角度映射到多个角度范围之一上,每个角度范围对应于一个方向;以及
合计映射到每个方向上的运动矢量的幅度。
5.根据权利要求1或2的运动特征提取方法,其中,在将所述金字塔的各个层中的子区域的运动矢量直方图拼接之前,所述方法还包括:
针对所述金字塔中的至少一层,在从所述输入图像的中心到外围的方向上对所述层中的各个子区域的运动矢量直方图施以递减的权重。
6.一种运动特征提取装置,包括:
子区域划分部件,用于将输入图像划分为多个子区域,所述多个子区域形成嵌套的“回”字形结构;
金字塔构造部件,用于从所述多个子区域构造子区域金字塔,所述金字塔包含一层或多层子区域;
直方图生成部件,用于生成所述金字塔的每层中的每个子区域的运动矢量直方图;以及
直方图拼接部件,用于将所述金字塔的各个层中的子区域的运动矢量直方图拼接,得到拼接的运动矢量直方图,作为所述输入图像的运动特征。
7.根据权利要求6的运动特征提取装置,其中,所述金字塔构造部件包括:
最下层确定部件,用于以从所述输入图像划分的所述多个子区域作为所述金字塔的最下层子区域;以及
其他层生成部件,用于通过将下一层的相邻两个或更多个子区域合并以形成金字塔中相邻上一层的子区域,自下向上逐一生成所述金字塔的其他层子区域。
8.根据权利要求6或7的运动特征提取装置,还包括:
块划分部件,用于所述输入图像划分为相等大小的多个块;以及
运动矢量计算部件,用于计算所述输入图像中的每个块的运动矢量,以及
其中,所述直方图生成部件进一步用于针对所述金字塔的每层中的每个子区域按方向合计所述子区域中的块的运动矢量的模长,由此生成以方向为维度的所述子区域的运动矢量直方图。
9.根据权利要求8的运动特征提取装置,其中,所述直方图生成部件包括:
坐标变换部件,用于将每个子区域中的所有块的运动矢量由平面直角坐标系变换到极坐标系中;
运动矢量映射部件,用于将每个块的运动矢量按角度映射到多个角度范围之一上,每个角度范围对应于一个方向;以及
模长合计部件,用于合计映射到每个方向上的运动矢量的幅度。
10.根据权利要求6或7的运动特征提取装置,还包括:
加权部件,用于在所述直方图拼接部件将所述金字塔的各个层中的子区域的运动矢量直方图拼接之前,针对所述金字塔中的至少一层,在从所述输入图像的中心到外围的方向上对所述层中的各个子区域的运动矢量直方图施以递减的权重。
11.一种视频处理装置,包括:
运动特征提取部件,用于提取待处理视频中的每一帧输入图像的运动特征;以及
视频处理部件,用于利用所述每一帧的运动特征对所述视频进行处理,
其中,所述运动特征提取部件包括:
子区域划分部件,用于将输入图像划分为多个子区域,所述多个
子区域形成嵌套的“回”字形结构,
金字塔构造部件,用于从所述多个子区域构造子区域金字塔,所
述金字塔包含一层或多层子区域,
直方图生成部件,用于生成所述金字塔的每层中的每个子区域的运动矢量直方图,以及
直方图拼接部件,用于将所述金字塔的各个层中的子区域的运动矢量直方图拼接,得到拼接的运动矢量直方图,作为所述输入图像的运动特征。
12.根据权利要求11的视频处理装置,其中,所述处理包括以下中的至少一种:视频分类、视频检索、视频分段、运动物体检测、事件检测、以及镜头边界检测。
13.根据权利要求11的视频处理装置,其中,所述金字塔构造部件包括:
最下层确定部件,用于以从所述输入图像划分的所述多个子区域作为所述金字塔的最下层子区域;以及
其他层生成部件,用于通过将下一层的相邻两个或更多个子区域合并以形成金字塔中相邻上一层的子区域,自下向上逐一生成所述金字塔的其他层子区域。
14.根据权利要求11至13中的任一项的视频处理装置,所述运动特征提取部件还包括:
块划分部件,用于所述输入图像划分为相等大小的多个块;以及
运动矢量计算部件,用于计算所述输入图像中的每个块的运动矢量,以及
其中,所述直方图生成部件进一步用于针对所述金字塔的每层中的每个子区域按方向合计所述子区域中的块的运动矢量的模长,由此生成以方向为维度的所述子区域的运动矢量直方图。
15.根据权利要求14的视频处理装置,其中,所述直方图生成部件包括:
坐标变换部件,用于将每个子区域中的所有块的运动矢量由平面直角坐标系变换到极坐标系中;
运动矢量映射部件,用于将每个块的运动矢量按角度映射到多个角度范围之一上,每个角度范围对应于一个方向;以及
模长合计部件,用于合计映射到每个方向上的运动矢量的幅度。
16.根据权利要求11至13中任一项的视频处理装置,所述运动特征提取部件还包括:
加权部件,用于在所述直方图拼接部件将所述金字塔的各个层中的子区域的运动矢量直方图拼接之前,针对所述金字塔中的至少一层,在从所述输入图像的中心到外围的方向上对所述层中的各个子区域的运动矢量直方图施以递减的权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201110335227 CN103067646A (zh) | 2011-10-21 | 2011-10-21 | 运动特征提取方法和装置,以及视频处理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201110335227 CN103067646A (zh) | 2011-10-21 | 2011-10-21 | 运动特征提取方法和装置,以及视频处理装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103067646A true CN103067646A (zh) | 2013-04-24 |
Family
ID=48110092
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201110335227 Pending CN103067646A (zh) | 2011-10-21 | 2011-10-21 | 运动特征提取方法和装置,以及视频处理装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103067646A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103297657A (zh) * | 2013-05-14 | 2013-09-11 | 李小林 | 一种基于gpu的视频稳定方法 |
CN104966305A (zh) * | 2015-06-12 | 2015-10-07 | 上海交通大学 | 基于运动矢量划分的前景检测方法 |
CN105338362A (zh) * | 2014-05-26 | 2016-02-17 | 富士通株式会社 | 运动目标检测方法和运动目标检测装置 |
CN105957103A (zh) * | 2016-04-20 | 2016-09-21 | 国网福建省电力有限公司 | 一种基于视觉的运动特征提取方法 |
CN109331389A (zh) * | 2018-11-12 | 2019-02-15 | 重庆知遨科技有限公司 | 一种基于多传感器融合的消防机器人动作实时监测方法 |
CN109447030A (zh) * | 2018-11-12 | 2019-03-08 | 重庆知遨科技有限公司 | 一种用于火灾场景的消防机器人动作实时指导算法 |
CN110348364A (zh) * | 2019-07-05 | 2019-10-18 | 北京工业大学 | 一种无监督聚类与时空域深度网络相结合的篮球视频群体行为识别方法 |
CN111126300A (zh) * | 2019-12-25 | 2020-05-08 | 成都极米科技股份有限公司 | 一种人体图像检测方法、装置和电子设备及可读存储介质 |
-
2011
- 2011-10-21 CN CN 201110335227 patent/CN103067646A/zh active Pending
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103297657A (zh) * | 2013-05-14 | 2013-09-11 | 李小林 | 一种基于gpu的视频稳定方法 |
CN103297657B (zh) * | 2013-05-14 | 2016-08-10 | 李小林 | 一种基于gpu的视频稳定方法 |
CN105338362A (zh) * | 2014-05-26 | 2016-02-17 | 富士通株式会社 | 运动目标检测方法和运动目标检测装置 |
CN105338362B (zh) * | 2014-05-26 | 2018-10-19 | 富士通株式会社 | 运动目标检测方法和运动目标检测装置 |
CN104966305A (zh) * | 2015-06-12 | 2015-10-07 | 上海交通大学 | 基于运动矢量划分的前景检测方法 |
CN104966305B (zh) * | 2015-06-12 | 2017-12-15 | 上海交通大学 | 基于运动矢量划分的前景检测方法 |
CN105957103B (zh) * | 2016-04-20 | 2018-09-18 | 国网福建省电力有限公司 | 一种基于视觉的运动特征提取方法 |
CN105957103A (zh) * | 2016-04-20 | 2016-09-21 | 国网福建省电力有限公司 | 一种基于视觉的运动特征提取方法 |
CN109331389A (zh) * | 2018-11-12 | 2019-02-15 | 重庆知遨科技有限公司 | 一种基于多传感器融合的消防机器人动作实时监测方法 |
CN109447030A (zh) * | 2018-11-12 | 2019-03-08 | 重庆知遨科技有限公司 | 一种用于火灾场景的消防机器人动作实时指导算法 |
CN110348364A (zh) * | 2019-07-05 | 2019-10-18 | 北京工业大学 | 一种无监督聚类与时空域深度网络相结合的篮球视频群体行为识别方法 |
CN110348364B (zh) * | 2019-07-05 | 2021-07-02 | 北京工业大学 | 一种无监督聚类与时空域深度网络相结合的篮球视频群体行为识别方法 |
CN111126300A (zh) * | 2019-12-25 | 2020-05-08 | 成都极米科技股份有限公司 | 一种人体图像检测方法、装置和电子设备及可读存储介质 |
CN111126300B (zh) * | 2019-12-25 | 2023-09-08 | 成都极米科技股份有限公司 | 一种人体图像检测方法、装置和电子设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103067646A (zh) | 运动特征提取方法和装置,以及视频处理装置 | |
CN109117848B (zh) | 一种文本行字符识别方法、装置、介质和电子设备 | |
TWI773189B (zh) | 基於人工智慧的物體檢測方法、裝置、設備及儲存媒體 | |
CN109753885B (zh) | 一种目标检测方法、装置以及行人检测方法、系统 | |
CN108304835A (zh) | 文字检测方法和装置 | |
CN105868758A (zh) | 图像中文本区域检测方法、装置及电子设备 | |
US11255678B2 (en) | Classifying entities in digital maps using discrete non-trace positioning data | |
CN104778697A (zh) | 基于快速定位图像尺度和区域的三维跟踪方法及系统 | |
CN109598185A (zh) | 图像识别翻译方法、装置、设备及可读存储介质 | |
CN103745197A (zh) | 一种车牌检测方法及装置 | |
CN103065118A (zh) | 图像模糊检测方法和装置 | |
Perreault et al. | Centerpoly: Real-time instance segmentation using bounding polygons | |
CN111652144A (zh) | 基于目标区域融合的题目分割方法、装置、设备和介质 | |
Turk et al. | Computer vision for mobile augmented reality | |
CN113704276A (zh) | 地图更新方法、装置、电子设备及计算机可读存储介质 | |
CN103765477A (zh) | 通过图形匹配和环形检测而用自动模型初始化进行线跟踪 | |
CN111062262B (zh) | 发票识别方法以及发票识别装置 | |
CN103136536A (zh) | 对象检测系统和方法、图像的特征提取方法 | |
CN113591433A (zh) | 一种文本排版方法、装置、存储介质及计算机设备 | |
CN113537187A (zh) | 文本识别方法、装置、电子设备及可读存储介质 | |
CN111741329A (zh) | 一种视频处理方法、装置、设备及存储介质 | |
CN116543397A (zh) | 一种文本相似度计算方法、装置、电子设备及存储介质 | |
CN110782390A (zh) | 图像的矫正处理方法及装置、电子设备 | |
US20180061078A1 (en) | Image processing device, image processing method, and non-transitory computer-readable recording medium | |
CN114359352A (zh) | 图像处理方法、装置、设备、存储介质及计算机程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20130424 |