CN112907617A

CN112907617A - 一种视频处理方法及其装置

Info

Publication number: CN112907617A
Application number: CN202110129029.XA
Authority: CN
Inventors: 陈文明; 邓高锋; 张世明; 吕周谨; 倪世坤
Original assignee: Shenzhen Emeet Tech Co ltd
Current assignee: Shenzhen Emeet Tech Co ltd
Priority date: 2021-01-29
Filing date: 2021-01-29
Publication date: 2021-06-04
Anticipated expiration: 2041-01-29
Also published as: CN112907617B; WO2022160748A1

Abstract

一种视频处理方法及装置。该方法包括：获取视频传感器捕捉的传感器帧，所述传感器帧为视频传感器捕捉到的整个帧的图像框；检测出所述传感器帧中的目标框，所述目标框为传感器帧中的人体图像框和/或包含人体的图像框；根据所述目标框确定视野框；其中，所述视野框为包括所有所述目标框的图像框；确定所有可决定所述视野框的边界的所述目标框，并确定所有可决定所述视野框的边界的所述目标框是否都静止；当确定所有可决定所述视野框的边界的所述目标框都静止时，输出所述视野框。该方案可实现对会场中与会人员进行自动的、实时的追踪。

Description

一种视频处理方法及其装置

技术领域

本发明涉及视频处理技术领域，尤其涉及一种人像追踪的视频处理技术领域。

背景技术

在科技迅速发展的今天，人们通过音视频终端在网络上进行远程交流的会议模式，已十分常见。通过都是通过摄像头获取一方会场的视频图像，从传出给另一方会场，并在另一方会场的显示装置上显示出来。

但若参会时，与会人员仅占据会场空间的一部分，则需要该会场的摄像装置对与会人员进行自动追踪并对焦，否则，在另一方会场显示的画面中，该方与会人员不在画面中间，空余空间占据了画面使得与会人员的画面变小。如此，则不利于双方与会人员进行交流。

在现有的音视频通话产品中，有采用控制电机的方式来进行自动对焦的，但这类产品有时会出错，比如：把焦点对在前景或背景而不是拍摄对象上，或者锁定在其他事物上，若遇到光线暗淡，也会对自动对焦产生很大影响。并且，自动对焦需要一定的时间，其时延比较大，实时性相对较弱。还有的产品则采用硬件转轴来控制镜头的转向，如：加入连接传感器、警报器、云台以及镜头控制器等实现搜索和目标锁定，但在会议场景下，若使用镜头控制器等方式来控制镜头的转向，与会人员为了会场中拍摄的视频效果最佳，会一直在关注摄像头的方向，不利于会议进展。

发明内容

本申请提供一种可以在会场中自动追踪与会人员的视频处理方法及其装置。

本申请提供以下技术方案：

一方面，提供一种视频处理方法，其包括：获取视频传感器捕捉的传感器帧，所述传感器帧为视频传感器捕捉到的整个帧的图像框；检测出所述传感器帧中的目标框，所述目标框为传感器帧中的人体图像框和/或包含人体的图像框；根据所述目标框确定视野框；其中，所述视野框为包括所有所述目标框的图像框；确定所有可决定所述视野框的边界的所述目标框，并确定所有可决定所述视野框的边界的所述目标框是否都静止；当确定所有可决定所述视野框的边界的所述目标框都静止时，输出所述视野框。

又一方面，提供一种视频处理装置，其包括：视频获取单元，用于获取视频传感器捕捉的传感器帧，所述传感器帧为视频传感器捕捉到的整个帧的图像框；人形捕获单元，用于检测出所述传感器帧中的目标框，所述目标框为传感器帧中的人体图像框和/ 或包含人体的图像框；视频检测单元，用于根据所述目标框确定视野框；确定所有可决定所述视野框的边界的所述目标框，并确定所有可决定所述视野框的边界的所述目标框是否都静止；其中，所述视野框为包括所有所述目标框的图像框；图像处理单元，当确定所有可决定所述视野框的边界的所述目标框都静止时，输出所述视野框。

本申请的有益效果在于，通过传感器获取完整图像，并对传感器帧中的人体进行检测确定需要显示给用户观看的图像范围，即视野框。当确定会场中对输出的目标框有影响的人都已处于静止状态时，就该视野框输出并显示出来。由于，是对每一帧传感器帧都会需要进行实时监测的，因此，可以实时的捕捉到会场与会人员的位置变化，当目标框的移动影响到视野框的边界时，根据本申请的方案，则会重新计算新的视野框并输出，由此，可对会场中与会人员进行自动的、实时的追踪。

附图说明

图1为本申请实施方式应用的系统架构图。

图2为本申请实施方式一提供的一种视频处理方法的流程图。

图3为本申请实施方式一中根据目标框确定视野框具体步骤的流程图。

图4为本申请实施方式一中对所有目标框进行上下扩充的示意图。

图5为本申请实施方式一中视野框的示意图。

图6为本申请实施方式一中确定可决定视野框的边界的目标框的流程图。

图7为本申请实施方式一中对传感器帧进行裁剪获得视野框的示意图。

图8为本申请实施方式一中对视频图像进行平滑处理的示意图。

图9为本申请实施方式二提供的一种视频处理装置的方框示意图。

图10本申请实施方式三提供的一种视频处理装置的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施方式，对本申请进行进一步详细说明。应当理解，此处所描述的实施方式仅用以解释本申请，并不用于限定本申请。但是，本申请可以以多种不同的形式来实现，并不限于本文所描述的实施方式。相反地，提供这些实施方式的目的是使对本发明的公开内容的理解更加透彻全面。

除非另有定义，本文所实用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施方式的目的，不是旨在限制本申请。

应理解，本文中术语“系统”或“网络”在本文中常被可互换使用。本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A 和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

本申请实施例可以应用于各种摄像装置或系统中，例如：摄像装置、网络摄像装置，音视频会议的会议终端，具体用于何种装置或系统，本申请实施方式对此不做限定。

请参看图1，其示出了本申请实施方式应用的系统架构图100。该系统架构100包括：摄像装置110、主处理装置120以及显示装置130。该摄像装置110、该主处理装置 120以及该显示装置130之间可以通过电连接、网络连接、通信连接等方式之一进行通信连接。其中，该摄像装置110包括视频传感器，用于获取传感器帧，所述主处理装置 120对所述传感器帧进行处理后，将视野框发送给该显示装置130进行显示。

其中，摄像装置110、主处理装置120以及显示装置130可以是三个相互独立的硬件实体；或者，也可以是摄像装置110与主处理装置120是设置于同一个硬件实体中，例如摄像设备中除了包含视频传感器，还包括对视频图像进行处理的装置；又或者，也可以是该主处理装置120与该显示装置130是设置于同一个硬件实体中，例如，在该显示装置130中除了包括显示器，还包括对视频图像进行处理的装置，摄像装置110将获取的视野框发送给该显示装置130，该显示装置130对该视野框进行处理之后，再由显示器显示出来。具体的，摄像装置110可以是摄像头，显示装置130可以是显示器、投影仪、电脑屏幕等，主处理装置120则可以是内置于摄像装置110、显示装置130内部的处理装置，也可以是一个独立的处理装置，如分别可以与这项装置110与显示装置130 进行通信的电脑或其他电子设备，如移动智能电子设备。

在会议场景下，开会的场所是固定的，在中小型会场中，摄像头使用一个高清的广角镜头即可获取整个会场范围内的图像。因此，摄像头可以实时捕捉到每个与会人员。以下，在本申请中将视频传感器捕捉到的整个帧的图像框称之为传感器帧，将传感器帧中的人体图像框和/或包含人体的图像框称之为目标框，将包括所有所述目标框的图像框称之为视野框。以下将通过具体的实施方式对本申请的技术方案进行阐述。

实施方式一

请参看图2，为本申请实施方式一提供的一种视频处理方法。该方法可以应用于具有视频处理能力的摄像装置110中，可以应用于具有视频处理能力的显示装置130中，还可以应用于独立的主处理装置120中。该视频处理方法包括：

S210，获取视频传感器捕捉的传感器帧，所述传感器帧为视频传感器捕捉到的整个帧的图像框；可选的，获取的是高清广角摄像头捕捉的传感帧，如摄像头中的镜头部分采用4K的镜头(500万像素或500万像素以上)，且为广角镜头，以便于在多人会议场景中容纳有更多的参会者时，也能保证将所有的与会者都纳入到镜头的可视范围中，同时也能保证视频的清晰度；摄像头中的传感器(Sensor)主要是将所述镜头接收的光信号转成电信号后，再该电信号(即视频信号)以实时图像帧传给主处理装置120；

S220，检测出所述传感器帧中的目标框，所述目标框为传感器帧中的人体图像框和/或包含人体的图像框；可选的，检测出人体的方法包括但不限于人脸检测，上半身检测，下半身检测，人体姿态估计(SPPE，DensePose)等方法；需说明的是，本申请中所称人体可以是包含人的全部形体，也可以是指全部形体中的一部分，如脸部或者上半身；

S230，根据所述目标框确定视野框；其中，所述视野框为包括所有所述目标框的图像框；

S240，确定所有可决定所述视野框的边界的所述目标框，并确定所有可决定所述视野框的边界的所述目标框是否都静止；

S250，当确定所有可决定所述视野框的边界的所述目标框都静止时，输出所述视野框。可选的，输出后，可在运行本方法的装置上直接显示该视野框，也可以是通过无线或有限传输的方式，输出给其他显示设备显示该视野框。

请参看图3，可选的，S230，根据所述目标框确定视野框，包括：

S231，对所有所述目标框上下各扩充一定比例的高度；

请参看图4，对所有目标框上下个扩充一定比例的高度，如e*H，e为比例系数， H为对应目标框的高度；

S232，确定一个能将所有扩充后的所述目标框都包含进去的最小框，为所述视野框；

请参看图5，画出一个能将所有扩充后的目标框都包括进去的最小框View_O。

可选的，在上述步骤S231与S232的基础上，确定了需要显示给用户观看的范围，但是，此时的视野框可能还不符合显示的尺寸大小，或者，不符合显示的长款比例等要求。还可进一步的对视野框进行调凭证。因此，S230，根据所述目标框确定视野框，还可包括以下调整方式一和/或调整方式二。

请继续查看图3，调整方式一：对视野框的尺寸大小进行调整。即，步骤S230，还包括：

S233，若所述视野框的四个顶点坐标超出了视野框的最大边界坐标，则以所述最大边界坐标替代所述视野框的四个顶点坐标；和/或，

S234，若所述视野框的高度值小于所述视野框的最小高度值，则调整所述视野框的高度值为所述视野框的最小高度值；和/或，

S235，若所述视野框的宽度值小于所述视野框的最小宽度值，则调整所述视野框的宽度值为所述视野框的最小宽度值。

举例说明，预设视野框的最大值为View_max和最小宽、高分别为W_min，H_min。其中，View_max一般预定义为sensor原图的大小，W_min，H_min根据需要放大的sensor原图局部区域设定，W_min，H_min设定的越小，则可放大的局部区域就越小。则视野框的坐标不能越出View_max，且宽/高数值不能小于W_min/H_min，对最小框View_O越界或者不足的坐标进行修正。经过坐标修正后得到的视野框记为View_F。

具体修正规则如下：

View_O框的4点坐标都必须在View_max坐标范围内，对于超出最大边界的坐标以最大边界坐标代替。

View_O的宽/高数值都必须大于等于W_min/H_min，如View_O的宽/高不足W_min/H_min，则将View_O的宽/高补足到W_min/H_min。

可选的，步骤S234具体包括：将所述视野框的最小高度值与所述视野框的高度值的差值的二分之一各补充到所述视野框的上下边界，若补充之后的所述视野框的上边界或者下边界超出了所述视野框的最大边界，则将超出所述最大边界的坐标以最大边界坐标代替，同时将超出所述最大边界的数值补充至对面的边界。

可选的，步骤S235具体包括：将所述视野框的最小宽度值与所述视野框的宽度值的差值的二分之一各补充到所述视野框的左右边界，若补充之后的所述视野框的左边界或右边界超出了所述视野框的最大边界，则将超出所述最大边界的坐标以所述最大边界的坐标代替，同时将超出所述最大边界的数值补充至对面的边界。

请继续查看图3，调整方式二：对视野框的长宽比例进行调整。即，步骤S230还包括：

S236，根据当前视频分辨率的宽高比例，调整所述视野框的宽度值和/或高度值。经过S236步骤调整后得到的视野框记为View，在较佳实施例中，此视野框即为输出并显示给用户的视野框。

在本申请的具体实施方式中，上述对视野框的调整方式一与调整方式二可选择其一使用，也可以两种调整方式均使用，先用调整方式一调整大小，再用调整方式二调整长宽比例。

将上述步骤S231至S236的步骤总结为一个视野框计算函数：

其中，Rect^ti为ti时刻检测到的目标框集合。

请参看图6，可选的，S240中，确定所述可决定所述视野框的边界的所述目标框，具体包括：

S2411，根据所有的目标框计算得到第一视野框；

S2412，删除一个所述目标框；

S2413，根据剩余的所述目标框计算得到第二视野框；

S2414，当所述第一视野框与所述第二视野框不相等时，确定删除的所述目标框为所述可决定所述视野框的边界的目标框。所谓的第一视野框与第二视野框相等，是第一视野框的边界坐标与第二视野框的边界坐标相同或相近；所谓的第一视野框与第二视野框不相等，是第一视野框的边界坐标与第二视野框的边界坐标中至少有一个不相同。

具体的，以下将结合所述视野框计算函数阐述，S2411至S2414是如何确定一个目标是否可以决定所述视野框的边界的：

j∈1,2...n^ti

其中，在ti时刻监测到的目标框Rect^ti中去掉一个框rect_j，得到一个新的集合

以

作为依据，计算出一个视野框

如果

则说明目标框rect_j不会影响到视野框的计算结果，反之如果

则说明目标框rect_j会决定视野框的边界坐标的判定。取Rect^ti中所有会决定视野框的判定的目标框，得到DecistionRect^ti。DecistionRect^ti就是在ti时刻，可决定视野框View边界的目标框集合。可选的，S240中，确定所有可决定所述视野框的边界的所述目标框都静止，具体包括：

S242，若每一所述可决定所述视野框的边界的目标框在预设时间间隔内的运动因子均小于预设阈值，则确定所有可决定所述视野框的边界的所述目标框都为静止状态。

在本申请的具体实施方式中，确定目标框的运动因子Factor₁₂的方式如下：

检测单元接收传感器传输的一个传感器帧后，会对该传感器帧进行实时检测。首先检测出人体，框出包含该人体的目标框，此处称之为目标框1，假定传感器帧左上角为坐标原点(0,0)，计算出目标框1的中心点C1坐标为(x1,y1),宽度W1，高度H1，并将保存该结果。

接下来，检测单元接收到该传感器传输的下一帧传感器帧后，同样，也会对该下一帧传感器帧进行实时检测。用同样的方法框出包含人体的目标框2，保存目标框2的中心点C2坐标(x2,y2),长度W2，高度H2。

然后按照下面步骤(1)至(5)计算运动因子：

(1)计算中心点的欧式距离的平方：L_c＝(x₂-x₁)²+(y₂-y₁)²

(2)计算目标框1面积S₁＝W₁*H₁

(3)计算目标框2面积S₂＝W₂*H₂

(4)考虑目标框1和目标框2大小不一样，计算宽差值和高差值的乘积的绝对值

M＝|(W₁-W₂)*(H₁-H₂)|

(5)计算目标框1和目标框2的运动因子Facter₁₂＝(L_c+M)/(S₁+S₂)。

需说明的是，在本申请的具体实施方式中，仅仅只需检测出来是一个人体即可，并不需要根据图像来精确到是哪个具体的人，但可以根据该人体的目标框在限定时间范围内移动的距离，确定是否为同一个人。

以上是计算两个传感器帧(可以是当前帧与上一帧，或，当前帧与下一帧)之间的运动因子Factor₁₂。当确定一定时间内T1的运动因子在一预设的阈值范围内(如小于或等于该阈值)时，则确定该目标框为静止；当确定一定时间内T1的运动因子超出(如大于)该阈值时，则确定该目标框为运动状态。其中，运动因子的阈值可以取0.5，此为一经验值，不同条件下会有所差别。T1取值范围为0秒～10秒，如果需要一直对焦到当前正在运动的人，只要T1足够小即可。

可选的，还可根据所述视野框对图像进行裁剪和/或缩放，故，请参看图7，S250 具体可包括：

S251，当确定所有可决定所述视野框的边界的所述目标框都静止时，根据所述视野框View对所述传感器帧进行裁剪和/或缩放，并输出所述裁剪和/或缩放的所述视野框View_out。可选的，是通过调用ISP(Image Signal Processor，图像信号处理器)芯片对传感器帧进行裁剪和缩放。

如图7所示，在传感器帧上按视野框View的坐标进行裁剪，然后将裁剪出的视野框缩放到当前视频输出分辨率的大小(如1080P、720P)，最终输出得到用户看到的图像View_out。使用ISP芯片处理裁剪缩放过程，相较于用软件算法处理可以节省50％左右的CPU，大幅度的提高芯片性能。

可选的，由于当前的视野框，与经过S230和S240步骤计算之后的视频的视野框，在坐标上会存在一定的差异，因此，还可对输出的视频图像进行平滑处理，故，S250 具体还可包括：

S252，当确定所有可决定所述视野框的边界的所述目标框都静止时，计算目标视野框与当前视野框之间的差值坐标；

S253，根据预设的每帧图像的视野框的最大移动步长，计算所述从所述当前视野框移动到所述目标视野框的移动步数；

S254，根据所述移动步数逐帧更新视野框直至达到所述目标视野框。

请参见图8，对上述视频图像平滑过程进行举例说明。假设当前视野框为View_cur，经过S231至236的计算，得出目标视野框为View_dst。其中当前视野框与目标视野框之间的所需要移动的距离为：View_dist＝View_dst-View_cur。

为使用户看到平滑的图像，每帧图像的视野框按照一个固定的步长进行移动，以避免移动过快。假设视野框坐标值移动最大步长为step_max，当前视野框与目标视野框的坐标差值为View_dist＝(x₀,y₀,x₁,y₁)，则移动步数为：

MoveNum＝max{x₀,y₀,x₁,y₁}/step_max。

按照如下步骤逐帧更新View_cur，直到到达目标视野框View_dist：

While View_cur≠View_dst:

View_step＝View_dist/MoveNum

View_cur←View_cur+View_step

即，当View_cur与View_dst的坐标不重合时，就移动View_cur，每次更新的视野框为View_step，直至当前视野框View_cur达到目标视野框View_dst。

上述S2502中的裁剪和/或缩放处理与视频图像的平滑处理，在实际应用中，可以一并采用，例如先进行裁剪和/或缩放处理，再进行视频图像的平滑处理。

本申请的具体实施方式一，通过传感器获取的整个会场的画面，并对传感器帧中的人体进行检测确定需要显示给用户观看的图像范围。并根据比对每一帧传感器帧中同一目标框的位置变化，确定该图框框是否处于静止状态。当确定会场中对输出的目标框有影响的人都已处于静止状态时，就将包含所有人体的画面的视野框输出并显示出来。由于，是对每一帧传感器帧都会需要进行实时监测的，因此，即使在与会人员都落座之后，如因某种原因，与会人员的位置发生了改变，如：与会人员原本坐得很紧凑，后来变为做得很松散，或者，所有的与会人员从会场的中间位置移动到会场的一侧位置，即，与会人员在会场中占据的位置空间发生了变化，那么根据本申请的具体实施方一所阐述的视频处理方法，可以实时的捕捉到这一变化，待与会人员重新落座之后，重新计算新的视野框，输出并显示给用户观看。由于，上述方法无需控制摄像头转动，或重新对焦，仅仅只是对传感器捕捉到的传感器帧重新进行计算获得新的视野框，输出并显示给用户观看即可，由此，可以达到对会场中与会人员进行自动的、实时的追踪。并且，使用该方法的装置还可以因此是即插即用的设备。

实施方式二

请参看图9，为本申请实施方式二提供的一种视频处理装置300，该视频处理装置包括：

视频获取单元310，用于获取视频传感器捕捉的传感器帧，所述传感器帧为视频传感器捕捉到的整个帧的图像框；可选的，视频获取单元310获取的是高清广角摄像头捕捉的传感帧；

人形捕获单元320，用于检测出所述传感器帧中的目标框，所述目标框为传感器帧中的人体图像框和/或包含人体的图像框；

视频检测单元330，用于根据所述目标框确定视野框；确定所有可决定所述视野框的边界的所述目标框，并确定所有可决定所述视野框的边界的所述目标框是否都静止；其中，所述视野框为包括所有所述目标框的图像框；

图像处理单元340，当确定所有可决定所述视野框的边界的所述目标框都静止时，输出所述视野框。

可选的，所述视频检测单元330，具体用于当确定所述目标框都静止时，对所有所述目标框上下各扩充一定比例的高度；以及，确定一个能将所有扩充后的所述目标框都包含进去的最小框，为所述视野框。所述目标框上下各扩充一定比例的高度的具体方式请参见实施方式一中S231的内容，在此不做赘述。

可选的，所述视频检测单元330，还用于若所述视野框的四个顶点坐标超出了视野框的最大边界坐标，则以所述最大边界坐标替代所述视野框的四个顶点坐标；和/或，若所述视野框的高度值小于所述视野框的最小高度值，则调整所述视野框的高度值为所述视野框的最小高度值；和/或，若所述视野框的宽度值小于所述视野框的最小宽度值，则调整所述视野框的宽度值为所述视野框的最小宽度值。

可选的，所述视频检测单元330，具体用于：

若所述视野框的高度值小于所述视野框的最小高度值，将所述视野框的最小宽度值与所述视野框的宽度值的差值的二分之一各补充到所述视野框的左右边界，若补充之后的所述视野框的左边界或右边界超出了所述视野框的最大边界，则将超出所述最大边界的坐标以所述最大边界的坐标代替，同时将超出所述最大边界的数值补充至对面的边界；和/或，

若所述视野框的宽度值小于所述视野框的最小宽度值，将所述视野框的最小高度值与所述视野框的高度值的差值的二分之一各补充到所述视野框的上下边界，若补充之后的所述视野框的上边界或者下边界超出了所述视野框的最大边界，则将超出所述最大边界的坐标以最大边界坐标代替，同时将超出所述最大边界的数值补充至对面的边界。

可选的，其中，所述视频检测单元330，还用于根据当前视频分辨率的宽高比例，调整所述视野框的宽度值和/或高度值。

实施方式二中对视野框的进行调整的具体示例请参见实施方式一中S231至236中的详细描述，在此不做重复赘述。

可选的，所述视频检测单元330，用于确定所述可决定所述视野框的边界的所述目标框，包括：

所述视频检测单元330，具体用于根据所有的目标框计算得到第一视野框；删除一个所述目标框；根据剩余的所述目标框计算得到第二视野框；当所述第一视野框与所述第二视野框不相等时，确定删除的所述目标框为所述可决定所述视野框的边界的目标框。具体的，所述检测单元330是如何通过计算确定某一目标框是否为可以确定视野框边界的目标框，请参看实施方式一中的描述，在此不做重复赘述。

可选的，其中，所述视频检测单元330，用于确定所有可决定所述视野框的边界的所述目标框都静止，包括：

所述视频检测单元330，具体用于当每一所述可决定所述视野框的边界的目标框在预设时间间隔内的运动因子均小于预设阈值时，则确定所有可决定所述视野框的边界的所述目标框都为静止状态。具体的，所述视频检测单元330是如何通过计算确定某一目标框是否处于静止状态的，请参看实施方式一中的具体描述，在此不做重复赘述。

可选的，其中，所述图像处理单元340，具体用于当确定所有可决定所述视野框的边界的所述目标框都静止时，根据所述视野框对所述传感器帧进行裁剪和/或缩放，并输出所述视野框。具体的，

可选的，其中，所述图像处理单元340，具体用于当确定所有可决定所述视野框的边界的所述目标框都静止时，根据所述视野框对所述传感器帧进行裁剪和/或缩放；并计算目标视野框与当前视野框之间的差值坐标；根据预设的每帧图像的视野框的最大移动步长，计算所述从所述当前视野框移动到所述目标视野框的移动步数；根据所述移动步数逐帧更新视野框直至达到所述目标视野框。具体的，所述图像处理单元340是如何逐步更新当前视野框直至达到目标视野框的，请参看实施方式一中的S252至S254中的举例，在此不做重复赘述。

该视频处理装置300以是内置有视频处理功能的摄像装置，如图1中摄像装置110与主处理装置120的结合；也可以是内置有视频处理功能的显示装置(如电脑或智能电子设备)，如图1中主处理装置120与显示装置130的结合；也可以是一个在硬件上独立的电子装置。在本申请中不做限定。

本实施方式二中有不详尽之处，请参见上述实施方式一中相同或对应的部分，在此不做重复赘述。

实施方式三

请参看图10，本申请实施方式三提供的一种视频处理装置400的结构示意图。该视频处理装置400包括：处理器410、存储器420以及通信接口430。处理器410、存储器420与通信接口430之间通过总线系统实现相互的通信连接。

该处理器410可以是一个独立的元器件，也可以是多个处理元件的统称。例如，可以是CPU，也可以是ASIC，或者被配置成实施以上方法的一个或多个集成电路，如至少一个微处理器DSP，或至少一个可编程门这列FPGA等。存储器420为一计算机可读存储介质，其上存储可在处理器410上运行的程序。

处理器410调用存储器420中的程序，执行上述实施方式一提供的一种视频处理方法，并通过通信接口430将处理器410获得的结果，通过无线或有线的方式，传输给其他装置。

可选的，该视频处理装置400还可包括摄像头440。该摄像头440获取传感器帧，并将其发送给所述处理410，所述处理器410调取该存储器420中的程序，执行上述实施方式一提供的一种视频处理方法，对该传感器帧进行处理，并通过通信接口430将结果，通过无线或有线的方式，传输给其他装置。

本实施方式三中有不详尽之处，请参见上述实施方式一中相同或对应的部分，在此不做重复赘述。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本申请具体实施方式所描述的功能可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以是由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成。软件模块可以被存放于计算机可读存储介质中，所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，数字视频光盘(Digital Video Disc，DVD))、或者半导体介质(例如，固态硬盘(Solid StateDisk，SSD))等。所述计算机可读存储介质包括但不限于随机存取存储器(Random AccessMemory，RAM)、闪存、只读存储器(Read Only Memory， ROM)、可擦除可编程只读存储器(Erasable Programmable ROM，EPROM)、电可擦可编程只读存储器(Electrically EPROM，EEPROM)、寄存器、硬盘、移动硬盘、只读光盘(CD-ROM)或者本领域熟知的任何其它形式的存储介质。一种示例性的计算机可读存储介质耦合至处理器，从而使处理器能够从该计算机可读存储介质读取信息，且可向该计算机可读存储介质写入信息。当然，计算机可读存储介质也可以是处理器的组成部分。处理器和计算机可读存储介质可以位于ASIC中。另外，该ASIC可以位于接入网设备、目标网络设备或核心网设备中。当然，处理器和计算机可读存储介质也可以作为分立组件存在于接入网设备、目标网络设备或核心网设备中。当使用软件实现时，也可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机或芯片上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请具体实施方式所述的流程或功能，该芯片可包含有处理器。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机程序指令可以存储在上述计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(Digital Subscriber Line，DSL)) 或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。

上述实施方式说明但并不限制本发明，本领域的技术人员能在权利要求的范围内设计出多个可代替实例。所属领域的技术人员应该意识到，本申请并不局限于上面已经描述并在附图中示出的精确结构，对在没有违反如所附权利要求书所定义的本发明的范围之内，可对具体实现方案做出适当的调整、修改、、等同替换、改进等。因此，凡依据本发明的构思和原则，所做的任意修改和变化，均在所附权利要求书所定义的本发明的范围之内。

Claims

1.一种视频处理方法，其特征在于，所述方法包括：

获取视频传感器捕捉的传感器帧，所述传感器帧为视频传感器捕捉到的整个帧的图像框；

检测出所述传感器帧中的目标框，所述目标框为传感器帧中的人体图像框和/或包含人体的图像框；

根据所述目标框确定视野框；其中，所述视野框为包括所有所述目标框的图像框；

确定所有可决定所述视野框的边界的所述目标框，并确定所有可决定所述视野框的边界的所述目标框是否都静止；

当确定所有可决定所述视野框的边界的所述目标框都静止时，输出所述视野框。

2.如权利要求1所述的方法，其中，所述根据所述目标框确定视野框，包括：

对所有所述目标框上下各扩充一定比例的高度；

确定一个能将所有扩充后的所述目标框都包含进去的最小框，为所述视野框。

3.如权利要求2所述的方法，其中，所述根据所述目标框确定视野框，还包括：

若所述视野框的四个顶点坐标超出了视野框的最大边界坐标，则以所述最大边界坐标替代所述视野框的四个顶点坐标；和/或，

若所述视野框的高度值小于所述视野框的最小高度值，则调整所述视野框的高度值为所述视野框的最小高度值；和/或，

若所述视野框的宽度值小于所述视野框的最小宽度值，则调整所述视野框的宽度值为所述视野框的最小宽度值。

4.如权利要求3所述的方法，其中：

所述调整所述视野框的宽度值为所述视野框的最小宽度值，包括：将所述视野框的最小宽度值与所述视野框的宽度值的差值的二分之一各补充到所述视野框的左右边界，若补充之后的所述视野框的左边界或右边界超出了所述视野框的最大边界，则将超出所述最大边界的坐标以所述最大边界的坐标代替，同时将超出所述最大边界的数值补充至对面的边界；和/或，

所述调整所述视野框的高度值为所述视野框的最小高度值，包括：将所述视野框的最小高度值与所述视野框的高度值的差值的二分之一各补充到所述视野框的上下边界，若补充之后的所述视野框的上边界或者下边界超出了所述视野框的最大边界，则将超出所述最大边界的坐标以最大边界坐标代替，同时将超出所述最大边界的数值补充至对面的边界。

5.如权利要求2至4中任意一项所述的方法，其中，所述根据所述目标框确定视野框，还包括：

根据当前视频分辨率的宽高比例，调整所述视野框的宽度值和/或高度值。

6.如权利要求1所述的方法，其中，所述确定所述可决定所述视野框的边界的所述目标框，包括：

根据所有的目标框计算得到第一视野框；

删除一个所述目标框；

根据剩余的所述目标框计算得到第二视野框；

当所述第一视野框与所述第二视野框不相等时，确定删除的所述目标框为所述可决定所述视野框的边界的目标框。

7.如权利要求1至4以及6中任意一项所述的方法，其中，所述确定所有可决定所述视野框的边界的所述目标框都静止，包括：

若每一所述可决定所述视野框的边界的目标框在预设时间间隔内的运动因子均小于预设阈值，则确定所有可决定所述视野框的边界的所述目标框都为静止状态。

8.如权利要求1至4以及6中任意一项所述的方法，其中，当确定所有可决定所述视野框的边界的所述目标框都静止时，输出所述视野框，包括：

当确定所有可决定所述视野框的边界的所述目标框都静止时，根据所述视野框对所述传感器帧进行裁剪和/或缩放，并输出所述裁剪和/或缩放的所述视野框。

9.如权利要求1至4以及6中任意一项所述的方法，其中，当确定所有可决定所述视野框的边界的所述目标框都静止时，输出所述视野框，包括：

当确定所有可决定所述视野框的边界的所述目标框都静止时，计算目标视野框与当前视野框之间的差值坐标；

根据预设的每帧图像的视野框的最大移动步长，计算所述从所述当前视野框移动到所述目标视野框的移动步数；

根据所述移动步数逐帧更新视野框直至达到所述目标视野框。

10.一种视频处理装置，其中，所述装置包括：

视频获取单元，用于获取视频传感器捕捉的传感器帧，所述传感器帧为视频传感器捕捉到的整个帧的图像框；

人形捕获单元，用于检测出所述传感器帧中的目标框，所述目标框为传感器帧中的人体图像框和/或包含人体的图像框；

视频检测单元，用于根据所述目标框确定视野框；确定所有可决定所述视野框的边界的所述目标框，并确定所有可决定所述视野框的边界的所述目标框是否都静止；其中，所述视野框为包括所有所述目标框的图像框；

图像处理单元，当确定所有可决定所述视野框的边界的所述目标框都静止时，输出所述视野框。

11.如权利要求10所述的装置，其中，所述视频检测单元，具体用于当确定所述目标框都静止时，对所有所述目标框上下各扩充一定比例的高度；以及，确定一个能将所有扩充后的所述目标框都包含进去的最小框，为所述视野框。

12.如权利要求11所述的装置，其中，所述视频检测单元，还用于若所述视野框的四个顶点坐标超出了视野框的最大边界坐标，则以所述最大边界坐标替代所述视野框的四个顶点坐标；和/或，若所述视野框的高度值小于所述视野框的最小高度值，则调整所述视野框的高度值为所述视野框的最小高度值；和/或，若所述视野框的宽度值小于所述视野框的最小宽度值，则调整所述视野框的宽度值为所述视野框的最小宽度值。

13.如权利要求12所述的装置，其中，所述视频检测单元，具体用于：

14.如权利要求11至13中任意一项所述的装置，其中，所述视频检测单元，还用于根据当前视频分辨率的宽高比例，调整所述视野框的宽度值和/或高度值。

15.如权利要求10所述的装置，其中，所述视频检测单元，用于确定所述可决定所述视野框的边界的所述目标框，包括：

所述视频检测单元，具体用于根据所有的目标框计算得到第一视野框；删除一个所述目标框；根据剩余的所述目标框计算得到第二视野框；当所述第一视野框与所述第二视野框不相等时，确定删除的所述目标框为所述可决定所述视野框的边界的目标框。

16.如权利要求10至13以及15中任意一项所述的装置，其中，所述视频检测单元，用于确定所有可决定所述视野框的边界的所述目标框都静止，包括：

所述视频检测单元，具体用于当每一所述可决定所述视野框的边界的目标框在预设时间间隔内的运动因子均小于预设阈值时，确定所有可决定所述视野框的边界的所述目标框都为静止状态。

17.如权利要求10至13以及15中任意一项所述的装置，其中，所述图像处理单元，具体用于当确定所有可决定所述视野框的边界的所述目标框都静止时，根据所述视野框对所述传感器帧进行裁剪和/或缩放，并输出所述视野框。

18.如权利要求17所述的装置，其中，所述图像处理单元，具体用于当确定所有可决定所述视野框的边界的所述目标框都静止时，根据所述视野框对所述传感器帧进行裁剪和/或缩放；并计算目标视野框与当前视野框之间的差值坐标；根据预设的每帧图像的视野框的最大移动步长，计算所述从所述当前视野框移动到所述目标视野框的移动步数；根据所述移动步数逐帧更新视野框直至达到所述目标视野框。