CN103947192A

CN103947192A - 视频分析编码

Info

Publication number: CN103947192A
Application number: CN201180074847.9A
Authority: CN
Inventors: S·A·克瑞格
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2011-11-14
Filing date: 2011-11-14
Publication date: 2014-07-23
Also published as: KR20140075791A; KR101668930B1; EP2781085A4; US20130265490A1; EP2781085A1; WO2013074060A1

Abstract

编码的媒体文件或流可包括视频分析数据。这里数据可包括关于在媒体中描述的对象的信息。

Description

视频分析编码

背景

这涉及编码视频分析结果。

视频分析是对一般来自视频的成像场景的分析，以便获得关于这些视频场景中描述的对象的信息。视频分析的例子包括其中识别视频中的人或对象的监视视频分析、脸部和对象识别系统以及通过使用电子技术分析视频跟踪对象(例如高速公路上的汽车)的跟踪系统。

附图简述

图1是根据本发明的一个实施例的系统架构；

图2是根据一个实施例示出于图1的视频分析引擎的电路描述；

图3是根据本发明的一个实施例的视频捕捉的流程图；

图4是根据一个实施例的二维矩阵存储器的流程图；

图5是根据一个实施例的分析辅助编码的流程图；

图6是标识媒体帧类型的索引方法的描述；

图7是描述媒体帧类型的交织方法的描述；以及

图8是本发明一个实施例的流程图。

详细描述

根据一些实施例，作为视频分析的结果获得的信息可使用可重复编码格式被编码。结果，视频分析信息可连同编码的媒体文件或流一起被存储。这可通过预处理媒体实现多种视频分析解决方案，以允许应用集中于场景内的对象的分析，而不是分段和标识场景中的对象。常见的对象可包括脸、人、汽车、家具和设施，这里仅提到了一些例子。

示例性应用包括智能媒体浏览器(viewer)，这些浏览器标识和描述图像场景中的对象、用于旅游或购物的智能旅游指南系统、用于监视和安全应用的场景分析系统、汽车旅游和指南系统、对于屏幕上每个玩家具有丰富元数据覆盖的身临其境体育赛事媒体，由此实现对于多个对象的细粒度元数据的交互性控制。

参见图1，计算机系统10可以是多种计算机系统中的任何一种，包括使用视频分析的那些系统，例如视频监视和视频会议应用以及不使用视频分析的实施例。系统10可以是台式计算机、服务器、膝上计算机、移动互联网设备或蜂窝电话，这里仅提到了一些例子。

系统10可具有耦合至系统总线14的一个或多个主机中央处理单元12。系统存储器22可耦合至系统总线14。尽管给出了主机系统架构的一个例子，然而本发明无论如何不仅限于任何特定的系统结构。

系统总线14可耦合至总线接口16，进而耦合至传统总线18。在一个实施例中，可使用高速外设部件互连(PCIe)总线，但本发明无论如何不仅限于任何特定总线。

视频分析引擎20可经由总线18耦合至主机。在一个实施例中，视频分析引擎可以是提供编码和视频分析两者的单个集成电路。在一个实施例中，集成电路可使用嵌入式动态随机存取存储器(EDRAM)技术。在另一实施例中，视频分析引擎可使用嵌入式处理器和软件或固件。然而，在一些实施例中，可省去编码或视频分析。另外，在一些实施例中，引擎20可包括存储器控制器，该存储器控制器控制板上集成的二维矩阵存储器并提供与外部存储器的通信。

因此，在图1所示的实施例中，视频分析引擎20与本地动态随机存取存储器(DRAM)19通信。具体地说，视频分析引擎20可包括用于访问存储器19的存储器控制器。替代地，引擎20可使用系统存储器22并可包括与系统存储器的直接连接。

一个或多个相机24也可耦合至视频分析引擎20。在一些实施例中，在标清格式下可接收高达四个同时视频输入。在一些实施例中，可在三个输入上提供一个高清输入并可在第四输入上提供一个标清。在其它实施例中，可提供更多或更少的高清输入并可提供更多或更少的标清输入。作为一个例子，三个输入中的每一个可接收十位高清输入数据，例如R、G和B输入或Y、U和V输入，每个输入在独立的十位输入线上。

图2中示出的视频分析引擎20的一个实施例在一实施例中被描述为在页的顶部具有四个相机通道输入。四个输入可通过视频捕捉接口26接收。视频捕捉接口26可以以相机输入或其它视频信息的形式接收多个同时视频输入，包括电视输入、数字录像机输入或媒体播放机输入，这里仅提到了一些例子。

视频捕捉接口自动地捕捉和复制每个输入帧。输入帧的一个副本被提供给VAFF单元66而其它副本可被提供给VEFF单元68。VEFF单元58负责将视频存储在外部存储器(例如图1所示的存储器22)上。外部存储器在一个实施例中可耦合至芯片上系统存储器控制器/仲裁器50。在一些实施例中，外部存储器上的存储可能是出于视频编码的目的。具体地，如果一个副本被存储到外部存储器上，则它可由视频编码器32访问，从而以期望的格式对信息进行编码。在一些实施例中，多种格式可用并且系统可选择最期望的具体编码格式。

如前所述，在一些情形下，可利用视频分析来提高由视频编码器32实现的编码过程的效率。一旦对多个帧进行编码，可经由PCI高速总线36将这些帧提供给主机系统。

同时，输入视频帧的其它副本被存储在二维矩阵或主存储器28上。VAFF可同时处理和传输所有四个输入视频通道。VAFF可包括四个复制单元以处理和传输视频。存储器28的视频的传输可使用多路复用。由于视频回描时间(retrace time)的固有延迟，在一些实施例中，多通道的传输可实时地完成。

在主存储器上的存储可选择地以非线性或线性方式实现。传统地，指定对交叉寻址线上的一个或多个位置进行线性寻址以访问存储器位置。在一些情形下，寻址线(例如字线或位线)可被指定并可指示沿该字线或位线的范围，以使寻址的存储器线的一部分可以自动方式被连续地存储。

相比而言，在二维或非线性寻址中，行线和列线两者可在一个操作中被访问。操作可指定存储器矩阵中的最初点，例如两个寻址线(例如行或列线)的交叉点。然后提供存储器尺寸或其它定界符以指示矩阵在二维上的范围，例如沿行线和列线。一旦指定了最初点，可通过自动递增可寻址位置来自动存储整个矩阵。换句话说，在最初点之后，不需要回到主机设备或其它设备来确定存储存储器矩阵的后继部分的地址。二维存储器免除了生成地址的任务，或基本完全消除该任务。结果，在一些实施例中，既可减少需要的带宽又可减少访问时间。

基本上，可反过来完成相同的操作以读取二维存储器矩阵。替代地，二维存储器矩阵也可使用传统线性寻址来访问。

尽管给出一个例子，其中存储器矩阵的尺寸是指定的，然而也可提供其它定界符，包括二维中每个维度的范围(即沿字和位线)。二维存储器较为有利地是静止和移动图像、图形以及具有二维数据的其它应用。

信息可沿二维或一个维度存储在存储器28中。在一个实施例中，一维和二维之间的转换可在硬件中在飞行中(on the fly)自动地发生。

由此，参见图3，视频捕捉系统20可以硬件、软件和/或固件来实现。在一些情形下，硬件实施例可能是有利的，因为它们能胜任更高的速度。

如方框72所示，可从一个或多个通道接收视频帧。然后复制视频帧，如方框74指示的那样。接着，视频帧的一个副本被存储在外部存储器中以进行编码，如方框76指示的那样。另一副本被存储在内部或主存储器28以实现分析目的，如方框78指示的那样。

接下去参见二维矩阵序列80，如图4所示，序列可以软件、固件或硬件实现。同样，在使用硬件实施例中可以存在速度优势。

一开始，在菱形框82的核实确定是否已接收到存储命令。传统地，这些命令可从主机系统接收，尤其是从其中央处理单元12接收。那些命令可通过派遣单元34接收，该派遣单元34随后将该命令提供给引擎20用于实现该命令的适当单元。在一些实施例中，当命令已被实现时，派遣单元向主机系统回报。

如果牵涉到一存储命令，如菱形框82中确定的，则可接收最初存储器位置和二维尺寸信息，如方框84所示那样。然后将信息存储在适当的二维矩阵中，如方框86所示那样。最初位置可例如定义矩阵的左上角。存储操作可自动地寻找存储器20中为实现操作所需尺寸的矩阵。在一些实施例中，一旦提供了存储器中的最初点，操作可自动地存储矩阵的后继部分而不需要附加的寻址计算。

相反，如果如菱形框88判断的那样牵涉到读访问，则最初位置和二维尺寸信息被接收，如方框90指示的那样。然后读取指定的矩阵，如方框92指示的那样。同样，访问可以自动方式完成，其中可对最初点进行访问，正如传统线性寻址中会做的那样，并随后自动地确定剩下的地址而不必以传统方式回去并计算地址。

最终，如果如框94确定的那样已从主机接收到移动命令，则接收最初位置和二维尺寸信息，如方框96指示的那样，并且自动实现移动命令，如方框98指示的那样。同样，可通过指定开始位置并提供尺寸信息而使信息的矩阵自动从一个位置移动至另一位置。

回来参见图2，视频分析单元42可通过像素流水线单元44耦合至系统的其余部分。该单元44可包括执行来自派遣单元34的命令的状态机。典型地，这些命令来源于主机并通过派遣单元来实现。可基于应用包括多种不同的分析单元。在一个实施例中，可包括卷积单元46以自动提供卷积。

卷积命令可既包括命令又包括指定掩码、基准或内核的自变量，由此一个捕捉的图像中的特征可与存储器28中的基准二维图像进行比较。该命令可包括指定在哪里存储卷积结果的目的地。

在一些情形下，每个视频分析单元可以是硬件加速器。“硬件加速器”，旨在指一种硬件设备，它比运行在中央处理单元上的软件更快地执行功能。

在一个实施例中，每个视频分析单元可以是状态机，该状态机由专门针对该单元的特定功能的专用硬件来执行。结果，这些单元可以相对快的方式执行。另外，对于由视频分析单元实现的每个操作只需要一个时钟循环，因为所需要的全部仅仅是告诉硬件加速器执行任务并提供该任务的自变量，并在随后可实现操作序列而无需来自任何处理器(包括主机处理器)的进一步控制。

在一些实施例中，其它视频分析单元可包括：质心单元48，该质心单元48以自动方式计算质心；直方图单元50，它以自动方式确定直方图；以及扩大(dilate)/销蚀(erode)单元52。

扩大/销蚀单元52可负责以自动方式增加或减小给定图像的分辨率。当然，除非信息已是可用的，否则不可能增加分辨率，但是在一些情形下，在较高分辨率下接收的帧可以较低的分辨率被处理。结果，帧可以在较高分辨率下可用并可通过扩大/销蚀单元52转化成较高的分辨率。

矩阵的存储器转换(MTMO)单元54负责实现移动指令，如之前描述的那样。在一些实施例中，可提供算术单元56和布尔单元58。即便这些相同单元可结合中央处理单元或业已存在的协处理器而可用，然而将它们设置在引擎20板上可能是有利的，因为它们在芯片上的出现可减少从引擎20至主机并返回的众多数据传递操作的需要。此外，通过使它们在引擎20板上，在一些实施例中可使用二维或矩阵主存储器。

可提供提取单元60以从图像获取向量。可使用查找表单元62来查找特定类型的信息以观察它是否已被存储。例如，查找表单元可用来查找已存储的直方图。最后，当图像对于特定任务具有过高的分辨率时使用子采样单元64。图像可被子采样以降低其分辨率。

在一些实施例中，也可提供其它组件，包括：I₂C接口38，用以与相机配置命令接口；以及通用输入/输出设备40，其连接至所有对应的模块以接收通用输入和输出并用于与调试相结合(在一些实施例中)。

最后，参见图5，在一些实施例中可实现分析辅助编码机制100。该机制可用软件、固件和/或硬件来实现。然而，硬件实施例可能更快。分析辅助编码可使用分析能力以确定视频信息(如果有的话)的给定帧的什么部分应当被编码。结果，一些部分或帧在一些实施例中可能不需要被编码，并且作为一个结果，速度和带宽得以增加。

在一些实施例中，被编码或不被编码的内容可以视情形而定，并且可以在飞行中确定，例如基于可用的电池电力、用户选择以及可用带宽，这里仅提到的一些例子。更具体地，可在现有帧上相对于后继帧进行图像或帧分析，以确定是否整个帧需要被编码或者是否只需要对帧的一部分进行编码。这种分析法辅助编码与传统的基于运动估计的编码正相反，所述传统的基于运动估计的编码仅仅确定是否包括运动向量，但仍然是对每帧和逐帧编码的。

在本发明的一些实施例中，连续帧以选择性为基础或在帧内的选定区域上或者被编码或者不被编码，基于这些区域内的运动范围，可以被编码或者根本不被编码。然后，告知解码系统多少帧被编码或不被编码，并可根据需要简单地复制帧。

参见图5，如方框102指示的，在一开始可对第一帧或第一组帧完全地编码，以便确定基础或参考。然后，菱形框104处的核实确定是否应当提供分析辅助编码。如果不使用分析辅助编码，则编码以传统方式继续。

如果如菱形框104确定的那样提供分析辅助编码，则确定阈值，如方框106所示。阈值可以是固定的或者是适应性的，这取决于诸如可用电池电力、可用带宽或用户选择之类的非运动因素，这里仅提到的一些例子。接着，在方框108，现有帧和后继帧被分析以确定是否超出阈值的运动存在，且如果存在，则判断它是否能被隔离在特定区域。为此，可利用多个分析单元，包括但不限于卷积单元、销蚀/扩大单元、子采样单元和查找单元。具体地说，图像或帧可针对阈值以上的运动而被分析，相对于之前和/或之后的帧分析而被分析。

然后，如方框110所示，可定位具有超出阈值的运动的区域。在一个实施例中，只有那些区域可被编码，如方框112所示。在一些情形下，给定帧上根本没有任何区域可被编码并可简单地记录这个结果以便在解码时简单地对该帧进行复制。一般来说，编码器在头部或其它位置提供信息，所述信息关于对什么帧编码以及这些帧是否仅一部分被编码。编码部分的地址在一些实施例中可以最初点和矩阵尺寸的形式提供。

图3、图4和图5是可以硬件实现的流程图。它们也可以软件或固件实现，在这种情形下它们可体现在非临时计算机可读介质中，例如光、磁或半导体存储器。非临时介质存储指令以供处理器执行。这种处理器或控制器的例子可包括分析引擎20，并且合适的非临时介质可包括主存储器28和外部存储器22，这是两个例子。

编/解码(CODEC)格式包括一组编码的图像帧，例如I-帧、P-帧、B-帧。编码的主要目的是压缩媒体并且仅对媒体中从帧至帧变化的部分进行编码。媒体被编码并存储在文件中，或跨网络传送并被解码以在显示设备处呈现。

视频分析信息以若干元帧(meta-frame)体现，例如：

V-模式：用于选择视频分析度量以及如何编码它们的规则。

O-帧：在场景中找到的对象加上它们的对象描述符。

T-帧：跟踪帧之间的Δ的对象。

M-帧：对象元数据，例如人名、位置(地址、GPS坐标)等。

L-帧：关于在媒体中已被标识和跟踪的所有对象的概要信息日志(在编码流、文本日志格式结尾处的可选项)。

V-帧定义哪些度量应当被编码。V帧可用在视频编码时间以确定使用哪些帧，例如O-帧、T-帧、M-帧或L-帧以及这些特定帧的内容。由此，V-帧方案实现各种编码概况，这些编码概况确定什么信息包含在该编码格式中，从而对不同的对象(一般例如脸、人形、汽车等)可以有不同的概况。

V-帧可指定0-帧、T-帧、M-帧或L-帧的任何属性。换句话说，V-帧方案标识帧内可能包含些什么以及期望什么在编码的媒体流中。

由于V-帧方案基于所需详细程度为度量定义了各自的概况，因此新的度量可被添加到编码格式中以创建附加概况并定义特定类型帧(例如O-帧、L-帧等)的附加度量。

在一个实施例中，O-帧可包括多个对象度量，例如用于标识该帧的参考号以及关于场景描述些什么的描述性文本。另外，O-帧可包括对于场景中找到的每个对象的对象标识符。对于帧内的对象的各个特征可提供任何对象描述符，例如像素区、周缘、质心、穿过质心至周缘的最长轴和最短轴、边界框、多边形轮廓、傅立叶描述符、平均颜色、形态孔的数目、色谱、灰度值的直方图、颜色强度的直方图、纹理度量以及定向边缘度量，这里给出了一些例子。

复合对象关联也可以对象列表的形式被包括在O-帧中，这些对象可在复合对象中关联在一起，例如在道路场景中，该场景可包括汽车、道路以及标志或描绘的脸，所述描绘的脸可包括使用其相应对象标识符的眼镜、鼻子、脸颊、下巴、耳朵等。在脸部描述的情形下，可为眼镜、鼻子、脸颊、下巴、耳朵、头冠等提供二维或三维上的脸部特征位置点，它们可被存储为二维或三维点的阵列。对于诸如汽车、家具、人、设施、植物、动物等东西而言，O-帧也可包括图像帧内的对象特征位置点。对象的二维网眼(mesh)描述可标识脸、人、车等等。对于三维网眼标识符也可这么做。

对于对象可在O帧中提供背景和前景分段以确定哪些对象是背景并且是不感兴趣的以及哪些对象是前景并且是感兴趣的。

T-帧可用来跟踪或记录帧之间对象的移动。具体地说，T-帧可用来跟踪之前已在O-帧中编码的对象的运动。例如，O-帧可通过给定的对象对脸部描述符进行编码，并且之后的T-帧可记录场景中脸部对象的跟踪和移动。

在一些实施例中，跟踪机制可包括：参考帧，它是被T-帧参考的O-帧标识符；以及对象标识符，它是被跟踪的对象标识符。在T-帧中可以有多个对象标识符。随后，对于一个实施例中每个被跟踪的对象标识符来说，可提供置信因子、跟踪度量以及跟踪计数。置信因子可指示相信对象的标识多么准确地使用浮点数(例如0..1.0)或文本字符串(例如高、中或低)。跟踪度量可指示对象是否出现在当前帧内，T-帧记录被跟踪的度量，例如质心或其它唯一度量，或者为跟踪目的一起使用以增加置信度的若干度量的组合。跟踪计数可包括含该对象的连续帧的累积计数或者含该对象的帧的帧序列号的列表。

M-帧可包括关于场景或场景中的对象的元数据。例如，体育比赛媒体M-帧可包括每个运动员的统计、名字、队伍、身高、重量、得分细节等元数据。例如，M-帧元数据可包括个人或专业数据、每个帧的全球定位系统(GPS)坐标、地址、相机的罗盘角、日时和日期、海拔和温度、每个对象或人的名字以及V-方案中定义的其它信息。

L-帧是日志帧并可位于编码的视频流中的任何位置。然而，典型地，它们可位于每个文件或流的结尾。L-帧包含关于所跟踪目标的概要日志，并可包括类似每个观察对象的流逝时间的信息、其中对象可见的帧的数目以及帧内每个跟踪对象的相对运动检测器。L-帧可包含特定上下文中的有用的信息。在安全和监视应用中，L-帧可包括关于某人已多长时间地游荡在给定区域和这人是否是累犯的信息。

由此，参见图8，根据一个实施例，编码序列120可实现在软件、固件和/或硬件中。在软件和固件实施例中，序列120可使用存储在非临时计算机可读介质(例如磁、光或半导体存储设备)中的计算机执行指令来实现。

序列通过标识分析类型开始，如方框122所示。例如，脸部分析可以是一种类型，而用于管理交通的高速公路上的汽车的分析是另一类型。然后，可选择用于V-方案的特定概况，如方框24所示。该概况随后被纳入到V-帧中，如方框26所示。最后，如V-帧指定的那样，填充O-帧、T-帧、M-帧和L-帧，如方框128所示。

本文中所描述的图形处理技术可在各种硬件体系结构中实现。例如，图形功能可被集成在芯片组中。替代地，可使用分立的图形处理器。作为又一实施例，图形功能可使用软件或固件由包括多核处理器的通用处理器实现。

在本说明书通篇中对“一个实施例”或“一实施例”的引用意味着结合该实施例描述的特定特征、结构或特性包括在本发明包含的至少一个实现中。因此，短语“一个实施例”或“在一实施例中”的出现不一定指代同一实施例。此外，特定特征、结构或特性可按照与所说明的特定实施例不同的其他适当形式来创立，而且所有此类形式可包含在本申请的权利要求中。

虽然已经关于有限个实施例描述了本发明，但本领域技术人员将会理解从中得出的多种修改和变化。所附权利要求旨在覆盖落入本发明的真实精神和范围中的所有这些修改和变化。

Claims

1.一种方法，包括：

与编码的媒体关联地存储关于媒体的视频分析的信息。

2.如权利要求1所述的方法，其特征在于，包括提供帧以指示什么类型的视频分析信息与所述编码的媒体一起被包括。

3.如权利要求2所述的方法，其特征在于，包括提供多个可选的分析类型以编码。

4.如权利要求1所述的方法，其特征在于，包括提供帧以标识所述编码的媒体中的对象。

5.如权利要求4所述的方法，其特征在于，提供帧以标识对象包括标识编码的媒体的帧，标识所述编码的媒体帧内的对象，以及提供给出关于标识的对象的信息的描述符。

6.如权利要求1所述的方法，其特征在于，包括提供帧以指示所述媒体中被跟踪的对象的移动。

7.如权利要求6所述的方法，其特征在于，包括提供置信指示符以指示多么确定是对所述媒体中的对象的标识。

8.如权利要求6所述的方法，其特征在于，提供帧以指示移动包括：指示编码的媒体的帧；通过标识符标识对象；指示其中描述对象的帧的跟踪度量和计数。

9.如权利要求1所述的方法，其特征在于，提供与所述媒体中描述的对象有关的元数据的帧。

10.如权利要求9所述的方法，其特征在于，提供元数据的帧包括提供元数据以允许用户在浏览编码帧的同时寻找更多与编码的帧中描述的对象有关的信息。

11.如权利要求1所述的方法，其特征在于，包括提供具有分析概要信息的帧。

12.一种存储指令的非临时计算机可读介质，所述指令使计算机：

与编码的媒体关联地存储关于媒体的视频分析的数据。

13.如权利要求12所述的介质，其特征在于，还存储指令以提供帧以指示什么类型的视频分析信息与所述编码的媒体一起被包括。

14.如权利要求13所述的介质，其特征在于，还存储指令用以提供多个可选的分析类型以编码。

15.如权利要求12所述的介质，其特征在于，还存储指令用以提供所述分析信息中的帧以标识所述编码的媒体中的对象。

16.如权利要求12所述的介质，其特征在于，还存储指令用以为帧提供编码的媒体以指示所述媒体中被跟踪的对象的移动。

17.如权利要求12所述的介质，其特征在于，还存储指令用以提供与关于所述媒体中描述的对象的元数据的视频分析有关的信息的帧。

18.如权利要求12所述的介质，其特征在于，还存储指令用以提供关联于所述编码的媒体存储的分析信息的概要。

19.如权利要求16所述的介质，其特征在于，还包括存储指令用以提供置信指示符以指示多么确定是对所述媒体中的对象的标识。

20.一种编码器，包括：

处理器，用于存储编码的媒体连同所述编码的媒体的视频分析信息；以及

耦合至所述处理器的存储器。

21.如权利要求20所述的编码器，其特征在于，所述处理器提供视频分析信息，所述视频分析信息指示所述编码的媒体中包括什么类型的视频分析信息。

22.如权利要求21所述的编码器，其特征在于，所述处理器提供多个可选的分析类型以编码。

23.如权利要求20所述的编码器，其特征在于，所述处理器提供帧以标识所述编码的媒体中的对象。

24.如权利要求20所述的编码器，其特征在于，所述处理器提供帧以指示所述媒体中被跟踪的对象的移动。

25.如权利要求24所述的编码器，其特征在于，所述处理器提供置信指示符，所述置信指示符指示多么确定是对所述媒体中的对象的标识。

26.如权利要求20所述的编码器，其特征在于，所述处理器提供与所述媒体中描述的对象有关的元数据的帧。

27.如权利要求20所述的编码器，其特征在于，所述处理器提供具有分析概要信息的帧。

28.如权利要求20所述的编码器，其特征在于，所述处理器提供指示什么类型的视频分析信息与所述编码的媒体一起被包括的帧、指示所述编码的媒体中的对象的帧、指示所述媒体中被跟踪的对象的移动的帧、指示与所述媒体中描述的对象有关的元数据的帧以及具有每个所述分析帧的分析概要信息的帧。