CN106162196B

CN106162196B - 一种面向智能分析的视频编码系统及方法

Info

Publication number: CN106162196B
Application number: CN201610674319.1A
Authority: CN
Inventors: 张韵东; 卢京辉; 孙晓伟
Original assignee: Guangdong Vimicro Electronic Co ltd
Current assignee: Guangdong Vimicro Electronic Co ltd
Priority date: 2016-08-16
Filing date: 2016-08-16
Publication date: 2020-07-14
Anticipated expiration: 2036-08-16
Also published as: CN106162196A

Abstract

本发明提供了一种面向智能分析的视频编码系统，包括：运动搜索装置，用于运动搜索并捕捉相邻帧间的运动向量数据，并进行输出；智能分析处理器，用于获取相邻帧间的运动向量数据，完成视频内容的智能分析工作。本发明还提供了一种相应的面向智能分析的视频编码方法。本发明提供的面向智能分析的视频编码系统，其运动搜索装置获得的运动向量数据传输给智能分析处理器，使智能分析处理器在此基础上即可完成智能分析工作；本发明提供的面向智能分析的视频编码方法，使得智能分析处理器无需进行运动搜索即可获得运动向量，节省了大量运算。

Description

一种面向智能分析的视频编码系统及方法

技术领域

本发明涉及视频编码技术领域，具体涉及一种视频编码系统及方法。

背景技术

随着数字化时代的到来，智能监控系统已广泛应用于商场、银行、医院、宾馆、住宅区等场所，实现了对视频画面的实时智能监控。在视频监控应用中，用户可以在系统中设置智能分析装置，通过其对采集的被监控区域的视频源进行智能视频分析，来完成一些异常事件、运动目标或者特殊目标等检测(如逆行检测、入侵检测、徘徊检测、非法停车检测、人脸识别、遗弃物检测等)并及时报警。

视频源由视频图像序列构成，视频序列被划分为不同的GOP(视频图像组)，在GOP中，可以由I帧、P帧和B帧三种不同的视频图像帧构成，其中，I帧为帧内编码帧，它不需要参考其他帧，其视频图像通过本帧内的图像信息进行压缩编码，所占数据的信息量比较大；P帧和B帧均为帧间预测帧，其中，P帧为前向预测编码帧，它采用运动补偿方法，参考前面最靠近它的I帧或P帧进行预测编码，其压缩比较高，B帧为双向预测编码帧，参考前面的I帧或P帧和后面的P帧进行预测编码，其压缩比最高。

帧间预测通过运动补偿技术对视频源进行压缩编码，其关键就在于如何通过运动搜索寻找匹配块，即在参考帧一定区域内进行搜索，为当前帧中的宏块寻找与之最匹配的宏块进行预测，则当前帧中的宏块位置与参考帧中的宏块位置差为运动向量，这个运动向量是智能分析的重要数据来源。现有技术中的智能分析处理器与运动搜索装置相互独立，运动搜索装置通过运动搜索获得的运动向量数据仅供编码器使用不做其他用途，智能分析处理器如需运动向量数据只能在其内部重新计算，而通过运动搜索获得运动向量需耗费大量运算。

发明内容

有鉴于此，本发明实施例提供了一种面向智能分析的视频编码系统，其运动搜索装置捕捉到的运动向量数据可供智能分析处理器使用，使智能分析处理器无需进行运动搜索计算即可获得运动向量；本发明实施例还提供了一种面向智能分析的视频编码方法，避免了智能分析处理器为获得运动向量重新进行运动搜索计算，解决了其资源耗费巨大的技术问题。

本发明一实施例提供的一种面向智能分析的视频编码系统，包括：运动搜索装置，用于运动搜索并捕捉相邻帧间的运动向量数据，并进行输出；智能分析处理器，用于获取相邻帧间的运动向量数据，完成视频内容的智能分析工作；

其中，所述面向智能分析的视频编码系统，进一步包括视频编码器，用于对源视频进行视频编码，计算相邻帧间的运动向量数据；

其中，所述运动向量数据包括P帧和/或B帧各宏块的初始运动向量；

其中，所述初始运动向量为运动搜索装置捕捉到的当前帧中的宏块与其在参考帧中最相似宏块之间的位移矢量；

其中，所述宏块的划分模式包括运动搜索中使用的划分模式；

其中，所述运动搜索中使用的划分模式为动态划分模式；

其中，所述智能分析处理器的功能通过神经网络处理、图像分析或者机器视觉实现。

本发明一实施例提供的一种面向智能分析的视频编码方法，包括：运动搜索并捕捉相邻帧间的运动向量数据，并进行输出；获取相邻帧间的运动向量数据，完成视频内容的智能分析工作；

其中，所述面向智能分析的视频编码方法，进一步包括：

对源视频进行视频编码，计算相邻帧间的运动向量数据。

本发明实施例提供的面向智能分析的视频编码系统，其运动搜索装置获得的运动向量数据传输给智能分析处理器，使智能分析处理器在此基础上即可完成智能分析工作；本发明实施例提供的面向智能分析的视频编码方法，使得智能分析处理器无需进行运动搜索即可获得运动向量，节省了大量运算。

附图说明

图1所示为本发明一实施例提供的一种面向智能分析的视频编码系统的结构示意图。

图2所示为本发明一实施例提供的一种面向智能分析的视频编码方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。图纸中的步骤编号仅用于作为该步骤的附图标记，不表示执行顺序。

图1所示为本发明一实施例提供的一种面向智能分析的视频编码系统的结构示意图。如图1所示，该面向智能分析的视频编码系统，包括：

运动搜索装置1，用于运动搜索并捕捉相邻帧间的运动向量数据，并进行输出；

智能分析处理器2，用于获取相邻帧间的运动向量数据，完成视频内容的智能分析工作。即：智能分析处理器2无需重新计算或者运动搜索即可通过运动搜索装置1获得运动向量数据，并根据此数据完成如前景区域、背景区域等信息的分析、分离以及分析结果的输出，相关的视频编码/解码设备再根据输出结果的不同可能采取不同策略进行图像压缩、图像重建等后续编码或解码程序，其中视频的前景区域是相对于视频的背景区域而言的，它根据用户的不同需求而做不同设定，例如，如果用户感兴趣的对象是运动的物体，则在视频画面中运动的物体即为前景区域。

在本发明一实施例中，智能分析处理器2的功能可通过神经网络处理、图像分析或者机器视觉实现，本发明对此不做具体限定。

本发明另一实施例提供的一种面向智能分析的视频编码系统，进一步包括视频编码器，用于对源视频进行视频编码，计算相邻帧间的运动向量数据。

因为智能分析处理器2以帧间预测帧的信息为基础进行智能分析工作，而视频编码器对参考帧以宏块为单位进行编码，则相邻帧间宏块的运动向量是智能分析的重要数据来源。帧间预测帧包括P帧和B帧两种，在本发明一实施例中，运动搜索装置1传输给智能分析处理器2的运动向量数据包括P帧和/或B帧各宏块的初始运动向量。

在本发明一实施例中，初始运动向量为运动搜索装置1捕捉到的当前帧中的宏块与其在参考帧中最相似宏块之间的位移矢量，而不是视频编码器最终采用的经RDO(码率与失真度优化函数)计算后的运动矢量。运动搜索装置1在参考帧内可以搜索捕捉到与当前宏块最匹配的宏块(称为预测宏块)，预测宏块与当前宏块间的位移为运动向量，它们之间的像素差值为残差，则当前帧中的宏块可以用一个残差和一对运动向量来表示。我们可以理解，残差值越小，失真度越小，而运动向量越小，需要的压缩编码的比特数越小，即与当前宏块最匹配的预测宏块可能处于相对较远的位置，也就是其对应的运动向量可能相对较大，需要较大的比特数进行编码处理及存储工作，在后续实际的编码工作中我们往往会综合考虑运动向量和残差值对当前帧的影响，通过RDO计算选取RDO最小的搜索数据进行编码利用，这通常是以图像的失真度为代价的。而本发明中运动搜索装置1提供给智能分析处理器2的运动向量数据主要供智能分析处理器2进行智能分析利用，选取初始运动向量进行传输更利于智能分析处理器2进行客观分析，进而输出更为精确的分析结果。

在本发明一实施例中，运动搜索的模式可以选择精确度最高的全局搜索模式，可以选择典型的三步法、新三步法、非对称六边形搜索模式，也可以选择菱形搜索模式、矩形搜索模式、十字搜索模式、迭代搜索模式中的一种或多种方法组合的搜索模式，用户可根据自己的不同需求而选定，本发明对此不做具体限定。

在本发明一实施例中，宏块的划分模式包括其运动搜索过程中使用的各种划分模式。本领域的技术人员可以理解，运动搜索中需要将图像以宏块或者编码树为单位划分成多种子块进行子块匹配预测，而宏块/编码树的划分包括多种模式，例如，可划分为64*64、16*16、8*8或者4*4等平方形式的子块，也可利用四叉树结构划分为64*32、32*16、16*8、8*4等非平方形式的子块。总之，宏块/编码树被划分成的子块越小，运动搜索能够匹配到参考帧中的图像越精确，而运动搜索装置1传输给智能分析处理器2的运动向量包括各种划分模式下的运动向量。

在本发明一实施例中，运动搜索中使用的划分模式为动态划分模式，即：在运动搜索中，各个宏块/编码树的划分模式是动态适配划分的，既可能被划分为64*64、16*16、8*8、4*4等模式，也可能被划分为64*32、32*16、16*8、8*4等模式，还可能被划分为未来编码标准所列的其他模式，本发明对此不做具体限定。

本发明实施例还提供了一种面向智能分析的视频编码方法，包括：

步骤101：运动搜索并捕捉相邻帧间的运动向量数据，并进行输出；

步骤102：获取相邻帧间的运动向量数据，完成视频内容的智能分析工作。

本发明另一实施例提供的一种面向智能分析的视频编码方法，进一步包括：

步骤103：对源视频进行视频编码，计算相邻帧间的运动向量数据。

在本发明一实施例中，运动向量数据包括P帧和/或B帧各宏块的初始运动向量，该初始运动向量为运动搜索捕捉到的当前帧中的宏块与其在参考帧中最相似宏块之间的位移矢量。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种面向智能分析的视频编码系统，其特征在于，包括：

运动搜索装置，用于运动搜索并捕捉原始视频序列的相邻帧间的初始运动向量数据，并进行输出，其中，所述初始运动向量为运动搜索装置捕捉到的当前帧中的宏块与其在参考帧中最相似宏块之间的位移矢量；

智能分析处理器，用于获取相邻帧间的初始运动向量数据，完成视频内容的前景区域和背景区域的智能分析工作；

视频编码器，用于根据智能分析结果的不同，采取不同策略对源视频进行视频编码，计算相邻帧间的初始运动向量数据。

2.根据权利要求1所述的面向智能分析的视频编码系统，其特征在于，所述初始运动向量数据包括P帧和/或B帧各宏块的初始运动向量。

3.根据权利要求2所述的面向智能分析的视频编码系统，其特征在于，所述宏块的划分模式包括运动搜索中使用的划分模式。

4.根据权利要求3所述的面向智能分析的视频编码系统，其特征在于，所述运动搜索中使用的划分模式为动态划分模式。

5.根据权利要求1所述的面向智能分析的视频编码系统，其特征在于，所述智能分析处理器的功能通过神经网络处理、图像分析或者机器视觉实现。

6.一种面向智能分析的视频编码方法，其特征在于，包括：

运动搜索并捕捉原始视频序列的相邻帧间的初始运动向量数据，并进行输出，其中，所述初始运动向量为运动搜索装置捕捉到的当前帧中的宏块与其在参考帧中最相似宏块之间的位移矢量；

获取相邻帧间的初始运动向量数据，完成视频内容的前景区域和背景区域的智能分析工作；

根据智能分析结果的不同，采取不同策略对源视频进行视频编码，计算相邻帧间的初始运动向量数据。