CN102714729A

CN102714729A - 用于视频内容分析的系统和方法

Info

Publication number: CN102714729A
Application number: CN2010800619967A
Authority: CN
Inventors: F·施; 金明; 吴琦; F·尤; 鲍铠
Original assignee: Intersil Inc
Current assignee: Intersil Corp; Intersil Americas LLC
Priority date: 2010-09-02
Filing date: 2010-09-02
Publication date: 2012-10-03
Anticipated expiration: 2030-09-02
Also published as: WO2012027893A1; CN102714729B

Abstract

描述的视频分析系统和方法一般包括视频编码器，该视频编码器作用以从视频帧产生宏块视频分析元数据(VAMD)。功能块接收VAMD和视频帧的经编码版本并被配置成使用VAMD和经编码的视频帧产生与该帧关联的视频分析信息。下游解码器可使用VAMD来获得与该帧关联的全局运动矢量，检测和跟踪该帧内的物体的运动并监视该帧内提供或发现的一条线。可使用VAMD中的信息来检测该直线被移动物体横越过并对横越次数进行计数，并且该直线可以是描绘在经编码帧内被监视的区域的多边形的一部分。VAMD可包括宏块级和视频帧级信息。

Description

用于视频内容分析的系统和方法

关联申请的交叉引用

本申请涉及名为“Video Classification Systems and Methods(视频分类系统和方法)”、“Rho-Domain Metrics(RHO域量度)”以及“Video Analytics forSecurity Systems and Methods(安全系统和方法的视频分析)”的同时提交申请，这些文件援引包含于此。

附图说明

图1是示出描述根据本发明某些方面的系统架构的图。

图2是示出在本发明的某些实施例中采用的处理系统的简化方框示意图。

具体实施方式

现在参照附图对本发明的实施例进行详细描述，附图作为解说性实例给出以使本领域内技术人员能实现本发明。尤其，下面的附图和实例不旨在将本发明的范围限制在一个实施例中，相反其它实施例通过互换所描述或解说的要素中的一些或全部也是可能的。在任何适宜情形下，可贯穿所有附图使用相同的附图标记来表示相同或相似的部件。在这些实施例的某些要素可使用已知组件来部分或完全地实现的情形下，只对那些已知组件中对理解本发明而言必需的那些部分进行描述，并且省去对这些已知组件的其它部分的详细描述以不至混淆本发明。在本说明书中，示出单数组件的实施例不被认为仅限于此；相反，本发明旨在涵盖包括多个相同组件的其它实施例，反之亦然，除非本文明确声明其它情形。另外，申请人不打算将说明书或权利要求书中的任何术语解释成不常见或特殊的含义，除非明确声称如此。此外，本发明涵盖在这里作为示例给出的组件的当前已知和将来得知的等效物。

本发明的某些实施例提供用于视频内容分析(也称视频分析学(VA))的系统和方法。VA利于视频分析并允许检测和确定时间事件，该时间事件不基于或限于单个图像。VA可用于很宽范围的领域，包括娱乐、看护、零售、汽车、运输、家庭自动化(住宅)、安全和保安。与VA关联的算法在多种计算平台中可实现为软件，所述计算平台包括通用机、移动计算设备、智能电话、游戏设备、嵌入式系统，和/或专用于视频处理单元的硬件。根据本发明的某些方面，硬件和软件的组合可用于VA系统中以提高VA准确性、速度和扩展性。

图1是示出可用于执行某些VA功能的系统架构的简化实例的示图。在该例中，编码器100执行基于宏块（“MB”）的视频编码处理。编码器100一般以硬件提供，该硬件可包括处理器存储和如下面结合图2更详细描述的其它组件。编码器可包括可调整和/或可配置的市面上有售的硬件编码芯片，例如Intersil Techwell以商标TW5864提供的芯片。根据本发明的某些方面，编码器100被调整和/或配置成对每个处理的MB产生一个视频分析元数据102(VAMD)包。VAMD 102可包括非零计数、MB类型、运动矢量、在DCT变换后选择的DC/AC系数、在对每个MB进行运动估计后的绝对值之和(SAD)，诸如此类。编码器100可在VAMD 102中提供视频帧级信息。在帧级处，VAMD 102可包括AD运动标志、在A/D视频前端生成的基于块的运动指标等。VAMD 102可被保存和/或集中在存储中，所述存储可由编码器100或另一处理设备维持。

VAMD 102可通过硬件编码模块100或通信耦合至编码模块100的另一处理器传输至一个或多个处理模块110-114，以供进一步视频分析处理。可使用硬件和软件组件的任意适宜组合来执行进一步处理。尽管图1中描述了体现为软件组件的处理模块110-114，然而从处理模块110-114中的至少一部分以硬件形式体现的那些实施例可以预想到某些优势，所述硬件可包括定序器、控制器、定制逻辑器件以及包括一个或多个嵌入式处理器和/或数字信号处理器的可定制器件。硬件形式的处理模块110-110的嵌入部分的优势包括加速处理、专用优化、改善的成本和尺寸效率、提高的安全性和更为可靠。在图示实例中，视频分析处理包括用于运动检测、视线检测、虚拟计数、运动跟踪、基于运动的物体分割等的硬件/软件组合。

在某些实施例中，全球运动矢量处理器112可从VAMD 102产生。全球运动矢量可用于电子图像稳定120、视频马赛克121、背景重构122等。其它处理器可从VAMD 102提取信息，包括用于检测运动矢量110、计算视线和产生关联于视线111的警报、使用视频113测量物体的速度以及跟踪物体114的运动的处理器。

因此，本发明的某些实施例提供硬件和软件共存的视频分析系统，这类系统使用VAMD 102作为共用接口。VAMD 102可包括例如ADMotionflag的帧级和例如运动矢量、MB类型等的MB级信息两者，从而有效地协助用于视频安全性分析应用的处理模块。

根据本发明某些方面的系统和方法提供优于传统像素域AV算法的显著优势。例如，某些实施例与传统系统相比需要更少的存储器带宽。传统VA算法一般使用基于像素域的技术，这项技术工作在需要大量存储器进行处理的像素水平。例如，为了处理D1视频(对PAL来说704×576或对NTSC来说704×480)，即使在只需要亮度信息的情形下，也需要704×576字节的存储器带宽来处理每个帧。然而，在本发明的某些实施例中，大多数VAMD是基于MB的——这取决于感兴趣的视频分析算法——并仅有(704×576)/256MB。结果，本发明对于同样的VA功能需要低于存储器带宽的量级次。存储器带宽节约能显著地增加VA处理的信道数。

某些实施例提供使用容易获得的VAMD实现低成本VA的系统和方法。当通过视频压缩(例如H-264编码)对视频作预处理时，VAMD是前端视频压缩(编码)的副产品。获得VAMD的成本非常低，并且VAMD的可用性对于分析功能而言是非常有价值的。例如，许多VA算法需要运动信息来检测和跟踪运动物体。执行运动估计以获得局部运动矢量是计算上非常复杂的过程。在本发明的某些实施例中，视频编码器对基于可应用视频标准的每个4×4或8×8框可产生子像素粒度的运动矢量，并可将某些过滤操作应用于局部运动矢量以产生每MB的一个运动矢量作为VAMD的一部分。

本发明的某些实施例获得改善的软件VA效率。在软件视频分析模块中，可从VAMD提取运动矢量，而不是从暂存器计算运动矢量。可应用某些先进的过滤操作以产生所需的运动信息以利于运动检测、虚拟线警报和计数。这允许将处理器应用于更先进的分析功能而不是采集原始的运动数据。另外，使用例如ASIC、PLD、PGA、FPGA、定序器和控制器的可配置硬件系统将更容易执行某些运动检测处理。此外，在每MB的运动矢量上运算能极大地改善VA效率，允许同时针对多个信道的更先进的算法和VA。

相比传统运动矢量协助的方法，本发明的某些实施例采集专门VAMD信息以提高VA效率和准确性。某些实施例可提高VA准确性，使其优于例如Hisilicon Hi 3520设备的传统设备，该传统设备从硬件编码模块提供每MB的运动矢量和模式判断SAD信息。然而，对MV和SAD信息的约束也具有某些曲线。例如，在P帧中，新出现物体的边缘通常被编码为具有零值运动矢量和不确定SAD值的I-型MB，背景MB具有零运动矢量和非常小的SAD值。因此，MV和SAD的使用只使得从背景中区别出新的运动物体变得困难。在本发明的某些实施例中，VAMD包括MV信息和非零系数(NZ)、MB类型和其它DC/AC信息，并且通过检查MB类型、MV和NZ信息，容易将新出现的物体从背景中区别出来。此外，大多数视频内容具有一些背景噪声，已知这会产生不规则运动矢量和SAD以供运动估计算法使用。使用来自VAMD的NZ和DC值，可实现用于视频分析算法的噪声下降。

本发明的某些实施例利于使用先进的VA算法，传输带宽和增加的计算复杂性的平衡。一些VA算法，例如基于运动的物体分割、运动物体跟踪和全球运动估计需要比由MV和SAD提供的更多的信息。本发明的某些实施例以可定制和可配置格式提供附加的信息。用户可确定将什么信息纳入VAMD以通过区分硬件和软件模块之间的功能而平衡传输带宽并支持增加的软件计算复杂性。

算法比较

本发明的某些实施例可改善存储器和传输带宽利用。传统VA算法利用像素域技术。一般来说，对于D1视频应用，需要从编码模块将704×576字节/帧的数据传输至分析模块。该带宽需要经常使视频分析设备限于一次仅对一个信道进行处理，这增加了产品成本。在本发明的一示例性实施例中，使用前述TW 5864设备，每MB的4字节VAMD产生自编码模块，得到在传统系统中处理D1视频所需的总存储器带宽的1/64的等同物。降低的带宽需求使得本发明的实施例同时处理用于视频分析的16个信道，这对于像素域的实现来说是不可能的任务。

本发明的某些实施例提高了运动检测准确性。运动检测采用多种算法来自动检测移动物体，例如进入预定报警区域的人、动物或车辆。传统系统的问题包括在处理改变光照条件时的像素域算法困难。在荧光灯或微光环境下，背景像素值可能显著地变化，并且在没有运动、NZ或DC信息的益处的情况下，像素域算法一般具有大的误报警率。

使用仅对MV和SAD信息作出响应的算法的系统也具有严重的问题。在P帧中新出现的物体经常被编码为具有零运动矢量的I型MB并也具有非常小的SAD值。没有MB类型和NZ信息的话，运动检测灵敏性低和/或误报警率高。如同在频繁照明状态改变的环境下的像素域算法，MV和SAD两者对视频分析应用而言均为不准确的量度。

相比而言，根据本发明某些方面构建的某些系统采用基于建议的VAMD的算法。MV、NZ、DC信息容易访问并被处理以准确地检测进入报警区域的移动物体。与像素域和仅MV/SAD算法相反，NZ和DC信息有益于克服照明变化状态。

系统描述

现在转向图2，本发明的某些实施例采用一种处理系统，该处理系统包括部署成执行前述某些步骤的至少一个计算系统20。计算系统20可以是市面上有售的系统，该系统执行市面上有售的操作系统，例如Microsoft

UNIX或其变化形式、实时操作系统和/或私用操作系统。可调整、配置和/或设计计算系统的架构以整合入处理系统中、内嵌到图像捕捉系统、通信设备和/或图形处理系统中的一个或多个中。在一个实例中，计算系统20包括总线202和/或在处理器之间通信的其它机构，不管这些处理器是与计算系统20一体的(例如204、205)还是位于不同位置，也可能与计算系统200物理上分离。一般来说，处理器204和/或205包括CISC或RISC计算处理器和/或一个或多个数字信号处理器。在一些实施例中，处理器204和/或205可嵌入到定制设备中和/或可作为可配置定序器执行。设备驱动器203可提供输出信号，该输出信号用来控制内部和外部组件并在处理器204、205之间通信。

计算系统20一般也包括存储器206，该存储器206可包括随机存取存储器(RAM)、静态存储器、高速缓存、闪存以及可耦合至总线202的任何其它适当类型的存储设备中的一个或多个。存储器206可用于存储指令和数据，该指令和数据可使处理器204、205中的一个或多个执行所需的进程。可使用主存储器206以存储暂时和/或临时数据，例如在由处理器204或205执行指令期间产生和/或使用的变量和中间信息。计算系统20一般还包括非易失性存储，例如只读存储器(ROM)208、闪存、存储卡或其它；非易失性存储可连接至总线202，但也可等同地使用高速通用串行总线(USB)、火线或耦合于总线202的其它这类总线连接。非易失性存储可用于存储配置和其它信息，包括由处理器204和/或205执行的指令。非易失性存储也可包括海量存储设备210，例如磁盘、光盘、闪存盘，所述海量存储设备210可直接或间接地耦合至总线202并用来存储拟由处理器204和/或205执行的指令以及其它信息。

在一些实施例中，计算系统20可通信地耦合至例如LCD平板显示器的显示系统212，该显示系统212包括触摸屏显示器、场致发光显示器、等离子显示器、阴极射线管或能被配置和调整以接收信息并将信息显示给计算系统20的使用者的其它显示设备。一般来说，设备驱动器203可包括显示驱动器、图形适配器和/或其它模块，它们维持显示器的数字表示并将数字表示转换成用于驱动显示系统212的信号。显示系统212也可包括逻辑和软件以从由系统200提供的信号产生显示。在这一方面，显示器212被提供作为远程终端或提供在不同计算系统20上的一段上。输入设备214一般在本地提供或通过远程系统提供，并一般提供字母数字输入以及光标控制216输入，例如鼠标、跟踪球等。要理解，可将该输入和输出提供给无线设备，所述无线设备例如是PDA、便笺式电脑或适当配备以显示图像并提供用户输入的其它系统。

根据本发明的一个实施例，发明的所述部分可通过计算系统20实现。处理器204执行一个或多个指令序列。例如，在从例如存储设备210的计算机可读介质接收之后，可将这些指令存储在主存储器206中。包含在主存储器206中的指令序列的执行使处理器204执行根据本发明某些方面的进程步骤。在某些实施例中，可通过执行特殊功能的嵌入式计算系统提供功能，其中嵌入式系统采用定制的硬件和软件组合来执行一组预定任务。因此，本发明的实施例不仅限于硬件电路和软件的任何特定组合。

术语“计算机可读介质”用来定义任何介质，这些介质可存储指令和其它数据并将它们提供给处理器204和/或205，尤其是在指令由处理器204和/或205和/或处理系统的其它周边设备执行的情形下。这些介质可包括非易失性存储、易失性存储和传输媒体。非易失性存储可体现在例如光盘或磁盘的介质上，包括DVD、CD-ROM和蓝光盘。存储可在本地提供或物理上接近于处理器204和205，或一般通过使用网络连接远程地提供。非易失性存储可从计算系统204移去，例如在蓝光盘、DVD或CD存储或者可使用包括USB等标准接口轻易地连接至计算机或与计算机断开的存储卡或记忆棒的例子。因此，计算机可读介质可包括软盘、柔性盘、硬盘、磁带、任何其它磁性介质、CD-ROM、DVD、蓝光盘、任何其它光学介质、穿孔卡片、纸带、具有孔图案的任何其它物理介质、RAM、PROM、EPROM、FLASH/EEPROM、任何其它存储器芯片或磁带盒，或者计算机可从中读取内容的任意其它介质。

传输媒体可用来连接处理系统的部件和/或计算系统20的组件。该媒体可包括双绞线、同轴电缆、铜线和光纤。传输媒体也可包括无线媒体，例如无线电波、声波和光波。在特定射频(RF)下，可使用光纤和红外(IR)数据通信。

各种形式的计算机可读媒体可参与提供指令和数据以供处理器204和/或205执行。例如，最初可从远程计算机的磁盘检索指令并在网络或调制解调器上将指令传输至计算系统20。指令可选择地在执行前或执行期间存储在不同的存储或存储的不同部分中。

计算系统20可包括通信接口218，该通信接口218在可包括局域网222、广域网或两者的某些组合的网络220上提供双向数据通信。例如，综合业务数字网(ISDN)可结合局域网(LAN)使用。在另一例子中，LAN可包括无线链路。网络链路220一般提供通过一个或多个网络至其它数据设备的数据通信。例如，网络链路220可提供通过局域网222至主计算机224或至例如互联网228的广域网的连接。局域网222和互联网228两者均可使用携带数字数据流的电信号、电磁信号或光信号。

计算系统20可使用一个或多个网络来发送消息和数据，包括程序码和其它信息。在互联网示例中，服务器230可通过互联网228发送对应用程序的请求码，并可作为响应接收下载的应用，该下载的应用提供或增加如前面示例中描述的那些功能性模块。接收的码可由处理器204和/或205执行。

本发明某些方面的附加说明

本发明的前述说明是解说性而非限定性的。例如，本领域内技术人员应当理解，本发明可通过前述功能和能力的各种组合来实现，并可包括比前述更少或更多的部件。下面进一步阐述本发明的某些附加的方面和特征，并且这些附加的方面和特征可使用前面更详细描述的功能和组件来获得，如本领域内技术人员在受到本公开教示后所能理解的那样。

本发明的某些实施例提供视频分析系统和方法。一些这样的实施例包括可操作以产生来自视频帧的宏块视频分析元数据(VAMD)的视频编码器。一些这样的实施例包括一个或多个模块，所述模块接收VAMD和视频帧的编码版本并被配置成使用VAMD和经编码的视频帧产生与帧关联的视频分析信息。在一些这样的实施例中，一个或多个模块从VAMD中提取与经编码的帧关联的全局运动矢量。在一些这样的实施例中，一个或多个模块检测编码帧内的物体相对于前一编码帧的运动。在一些这样的实施例中，一个或多个模块跟踪编码帧内的物体和后继的编码帧。

在一些这样的实施例中，一个或多个模块监视编码帧内的一条直线。在一些这样的实施例中，一个或多个模块对该直线被多个连续编码帧内观察到的一个或多个移动物体横越的次数进行计数。在一些这样的实施例中，当移动物体在多个连续编码帧中的一个帧内横越过该直线时，一个或多个模块产生警报。在一些这样的实施例中，该直线是在编码帧内可观察到的实体线。在一些这样的实施例中，该直线是在编码帧内可识别的虚线。在一些这样的实施例中，该直线是描绘出在编码帧内可观察到的区域的多边形中的多条直线中的一条。

在一些这样的实施例中，VAMD包括非零计数、宏块类型、运动矢量、在DCT变换后选择的DC/AC系数、在对每个宏块作运动估计后的绝对值之和中的一个或多个。在一些这样的实施例中，VAMD包括视频帧级信息，该视频帧级信息包括AD运动标志以及在模-数前端产生的基于块的运动指标。

本发明的某些实施例提供视频分析系统和方法。这些实施例中的一些包括对视频帧内的多个宏块进行编码的同时产生宏块视频分析元数据(VAMD)。这些实施例中的一些包括将帧的经编码版本传递给视频解码器并传递与该帧内的多个宏块对应的至少一部分VAMD。在一些这样的实施例中，与视频解码器通信耦合的处理器使用VAMD以使用VAMD和经编码的视频帧产生与该帧关联的视频分析信息。

在一些这样的实施例中，视频分析信息包括全局运动矢量。在一些这样的实施例中，处理器使用视频分析信息检测和跟踪物体的运动。在一些这样的实施例中，处理器使用视频分析信息检测和监视移动物体对帧内标识出的直线的横越。在一些这样的实施例中，该直线是描绘出帧内可观察到的区域的多边形的多条直线中的一条。

本发明的某些实施例提供视频分析系统和方法。在一些这样的实施例中，这些方法实现在视频解码器系统的一个或多个处理器中，这一个或多个处理器配置成执行一个或多个计算机程序模块。在一些这样的实施例中，该方法包括在一个或多个处理器上执行一个或多个程序模块，这一个或多个程序模块配置成使解码器接收经编码的视频帧和在对该视频帧内的多个宏块编码期间产生的宏块视频分析元数据(VAMD)。在一些这样的实施例中，该方法包括在一个或多个处理器上执行一个或多个程序模块，这一个或多个程序模块配置成使处理器使用VAMD产生与从编码帧解码的图像关联的视频分析信息。在一些这样的实施例中，视频分析信息包括全局运动矢量。在一些这样的实施例中，处理器使用视频分析信息检测和跟踪物体的运动。在一些这样的实施例中，处理器使用视频分析信息检测和监视帧内标识出的一条直线被移动物体横越过。

尽管已参照特定示例性实施例对本发明进行了描述，然而本领域内普通技术人员当然知道可对这些实施例作出各种修改和变化而不脱离本发明较宽的精神和范围。因此，说明书和附图被认为是解说性而非限制性意义。

Claims

1.一种视频分析系统，包括：

视频编码器，所述视频编码器作用以从视频帧产生宏块视频分析元数据(VAMD)；

一个或多个模块，所述模块接收VAMD和所述视频帧的编码版本并配置成使用所述VAMD和经编码的视频帧产生与所述帧关联的视频分析信息。

2.如权利要求1所述的系统，其特征在于，所述一个或多个模块从VAMD提取与所述经编码的帧关联的全局运动矢量。

3.如权利要求1或2所述的系统，其特征在于，所述一个或多个模块检测所述经编码帧内的物体相对于前一经编码帧的运动。

4.如权利要求3所述的系统，其特征在于，所述一个或多个模块跟踪所述经编码帧和后继的经编码帧内中的物体。

5.如权利要求1-4中任何一项所述的系统，其特征在于，所述一个或多个模块监视所述经编码帧内的直线。

6.如权利要求5所述的系统，其特征在于，所述一个或多个模块对所述直线被多个连续的经编码帧内可观察到的一个或多个移动物体横越的次数进行计数。

7.如权利要求5所述的系统，其特征在于，当移动物体在多个连续的经编码帧中的一个帧内越过所述直线时，所述一个或多个模块产生警报。

8.如权利要求5-7中任何一项所述的系统，其特征在于，所述直线是在所述经编码帧内可观察到的实体线。

9.如权利要求5-7中任何一项所述的系统，其特征在于，所述直线是在所述经编码帧内标识出的虚线。

10.如权利要求8或9中任何一项所述的系统，其特征在于，所述直线是描绘出在编码帧内可观察到的区域的多边形中的多条直线中的一条。

11.如权利要求1-10中任何一项所述的系统，其特征在于，所述VAMD包括非零计数、宏块类型、运动矢量、在DCT变换后选择的DC/AC系数、在对每个宏块作运动估计后的绝对值之和中的一个或多个。

12.如权利要求1-11中任何一项所述的系统，其特征在于，所述VAMD包括视频帧级信息，所述视频帧级信息包括AD监视标志以及在模-数前端产生的基于块的运动指标。

13.一种视频分析方法，包括：

在对视频帧内的多个宏块编码的同时产生宏块视频分析元数据(VAMD)；以及

将帧的经编码版本传递给视频解码器并传递与所述帧内的多个宏块对应的至少一部分VAMD，其中与所述视频解码器通信耦合的处理器使用VAMD以使用VAMD和经编码的视频帧产生与所述帧关联的视频分析信息。

14.如权利要求13所述的方法，其特征在于，所述视频分析信息包括全局运动矢量。

15.如权利要求13或14所述的方法，其特征在于，所述处理器使用所述视频分析信息检测和跟踪物体的运动。

16.如权利要求13-15中任何一项所述的方法，其特征在于，所述处理器使用所述视频分析信息检测和监视所述帧内标识出的直线被移动物体横越过。

17.如权利要求13-16中任何一项所述的方法，其特征在于，所述直线是描绘出帧内可观察到的区域的多边形的多条直线中的一条。

18.一种视频分析方法，其特征在于，所述方法实现在视频解码系统的一个或多个处理器中，所述一个或多个处理器配置成执行一个或多个计算机程序模块，所述方法包括：

在一个或多个处理器上执行一个或多个程序模块，所述程序模块配置成使所述解码器接收经编码的视频帧和宏块视频分析元数据(VAMD)，所述宏块视频分析元数据(VAMD)是在对所述视频帧内的多个宏块进行编码期间产生的；以及

在一个或多个处理器上执行一个或多个程序模块，所述一个或多个程序模块配置成使所述处理器使用VAMD产生与从所述经编码的帧解码的图像关联的视频分析信息。

19.如权利要求18所述的方法，其特征在于，所述视频分析信息包括全局运动矢量，并且所述处理器使用所述视频分析信息来检测和跟踪物体的运动。

20.如权利要求13-15中的任一项所述的方法，其特征在于，所述处理器使用视频分析信息检测和监视帧内标识出的一条直线被移动物体横越过。