CN114979759A

CN114979759A - 用于对视频进行取景的方法和系统

Info

Publication number: CN114979759A
Application number: CN202210169459.9A
Authority: CN
Inventors: 莫滕·斯米特·普罗斯霍夫斯基; 关穗坤; 尼黑特·拉金德拉·塞韦; 奥朗则布·卡恩
Original assignee: GN Audio AS
Current assignee: GN Audio AS
Priority date: 2021-02-24
Filing date: 2022-02-23
Publication date: 2022-08-30
Also published as: US12014562B2; US20220269882A1; EP4050888A1

Abstract

本申请涉及一种用于对视频进行取景的方法和系统。对于视频应用，公开了一种用于从当前ROI动态切换到目标ROI的方法，其中，目标ROI仅包括活动说话者。有利地，如果目标ROI裁剪非说话者，则目标ROI扩展，以包括非说话者。从当前ROI到目标ROI的过渡可以基于切换过渡技术或平滑过渡技术来实现。切换过渡技术在单个间隔内实现从当前ROI到达目标ROI的变化，而平滑过渡技术在多个间隔内实现变化，其中，所需总变化的百分比被分配给每个间隔。还公开了一种用于实现上述方法的系统。

Description

用于对视频进行取景的方法和系统

技术领域

本发明的实施例通常涉及视频处理。

背景技术

对应于正在成像的场景的视频可以包括多个对象，并非所有这些对象都是观众感兴趣的。在大视野(FOV)拍摄的视频尤其如此。例如，考虑一个大会议室，大约有12个人员围坐在桌旁。在这种情况下，FOV可以覆盖全部12个人员，但是可能需要将视野缩小到选定的感兴趣区域(ROI)，例如，仅对应于那些积极发言的会议参与者。

发明内容

根据本发明的第一方面，提供了一种用于对视频进行取景的方法，包括：关联对应于被成像场景的视频的当前感兴趣区域(ROI)；

检测场景中的说话者；

执行重新取景操作，包括动态计算目标感兴趣区域(ROI)，其中，基于场景中的活动说话者生成目标ROI；并且

基于切换过渡技术和平滑过渡技术中的一个，从当前ROI过渡到目标ROI。

还提供了一种用于实现上述方法的系统。

根据下面的书面描述，本发明的其他方面将变得显而易见。

附图说明

图1示出了根据本发明一个实施例的用于对视频进行取景的视听装置的高级框图。

图2示出了根据本发明一个实施例的对象过滤的操作流程图。

图3示出了根据本发明一个实施例的视频取景操作的流程图。

图4示出了根据本发明一个实施例的平滑过渡到目标感兴趣区域的操作流程图。

图5示出了根据本发明一个实施例的用于实现平滑过渡到目标ROI帧的技术。

图6A至图6D示出了根据本发明一个实施例的虚拟导演如何对与视频会议相关的视频进行取景(注意，人脸模糊，以保护视频中的人员的隐私)。

具体实施方式

在以下描述中，出于解释的目的，阐述了许多具体细节，以便提供对本发明的透彻理解。在本说明书中提到“一个实施例”或“实施例”，意味着结合该实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。在说明书中不同地方出现的短语“在一个实施例中”不一定都指同一实施例，也不是与其他实施例相互排斥的单独或替代实施例。此外，描述了可由一些实施例展示而不由其他实施例展示的各种特征。类似地，描述了各种要求，这些要求可能是一些实施例的要求，但不是其他实施例的要求。

此外，尽管为了说明的目的，以下描述包含许多细节，但是本领域的任何技术人员将会理解，对所述细节的许多变化和/或改变都在本发明的范围内。类似地，尽管本发明的许多特征是根据彼此或者彼此结合来描述的，但是本领域技术人员将会理解，这些特征中的许多特征可以独立于其他特征来提供。因此，本发明的这种描述是在不丧失本发明的一般性并且不对本发明施加限制的情况下提出的。

虚拟导演

本发明的实施例公开了一种包括虚拟导演组件的音频/视觉(AV)装置，该虚拟导演组件被配置为识别AV装置的视野中的说话者，并且以类似于人类导演进行的方式来将所述说话者取景。有利地，虚拟导演组件以自然的方式跟踪说话者，并基于视觉和音频提示持续监视谁在说话。

在一个实施例中，虚拟导演可以使用处理视频的人工智能(AI)算法来相对于相机定位视频中的人员。AI算法也可以用于音频，以确定说话者相对于AV装置的麦克风的方位位置。

具有虚拟导演组件的AV装置

附图的图1示出了包括虚拟导演模块102的AV装置100，虚拟导演模块可以实现为软件/固件模块。根据不同的实施例，AV装置100可以包括相机104(其具有视频和音频捕捉能力)、视频条(具有视频捕捉和音频捕捉和回放设施的相机)或一体机(具有相机、音频捕捉和回放以及运行通用通信(UC)客户端的计算单元的装置)。

AV装置100包括相机104，相机可以是产生全景或大FOV视频108的单镜头或多镜头系统。AV装置100还包括内置麦克风阵列106。

大FOV或全景视频108被馈送到人员位置检测器110，该检测器检测相机104视野中的人员的位置。人员位置检测器110可以执行各种技术，包括基于人工智能和机器学习(AI/ML)的技术或基于传统数字信号处理(DSP)的技术来计算人员的位置。音频到达方向(DOA)模块112使用来自麦克风阵列106的音频信号来确定当前活动的说话者在相机104的视野中的位置。模块112还可以使用AI/ML技术或传统的基于DSP的技术来计算DOA。人员位置和DOA信息与视频一起被馈送到虚拟导演模块102。虚拟导演模块102然后确定将呈现给UC客户端114的最佳视图，如稍后将描述的，UC客户端被配置为例如通过通用串行总线(USB)或有线/无线接口从视频中接受精选视频。在一些实施例中，UC客户端114可以内置于AV装置100中。

在一些实施例中，虚拟导演102输出的精选视频可以在被发送到UC客户端114之前在相机流水线116中进一步处理。

相机104的视频帧速率可以是每秒30帧(对应于每帧之间的33毫秒)，以每秒10帧(对应于检测之间的100毫秒)进行检测，并且帧尺寸可以是3840×1080像素。

附图的图2示出了根据本发明的一个实施例的由虚拟导演102执行的操作的流程图，以产生精选视频。参考图2，对象过滤器子块200负责使用来自模块110的人员检测器信息和来自模块112的DOA信息来跟踪人员。子块200输出视频中人员的边界框列表。对象过滤器子块200可以被配置为执行基于启发式的技术来执行以下操作：

(a)基于视频检测和VAD(语音活动检测)的虚假音频方向过滤。基于音频，模块200被配置为使用VAD算法来检测声音是否属于人声。因此，将忽略非人类的声音和其他噪音。

(b)基于启发法过滤假阳性人员检测，包括但不限于框尺寸、框移动。在一个实施例中，框大小由人员与相机104的距离决定。例如，在一个实施例中，最大距离的使用情况被选择为离相机18英尺，最小距离被选择为离相机3英尺，结果是将忽略站在这个范围之外的人员。这也决定了将被接受的框的尺寸和将被忽略的尺寸。在一个实施例中，通过找出在相机框架中特定距离处的人脸/身体的尺寸来确定框的尺寸。另一种消除假阳性的技术是检测人脸矩形在图像中的位置，如果人脸矩形被确定为低于某个高度阈值，则将其消除。例如，对于1080像素的帧高度(顶部为0)，如果人脸矩形的y位置高于1000像素，则拒绝人脸矩形。

(c)基于框跟踪过滤假阴性人脸/身体检测，允许框在帧之间消失。通常，边界框(人员)的移动在帧之间是最小的，即，边界框的运动在100毫秒的检测间隔内没有太大变化，因此可以通过基于其中心与新边界框的列表匹配(与最近的中心匹配)来跟踪框。对于不匹配的框，不会立即移除，而只会在一秒钟后移除(可配置持续时间)。

(d)在某些情况下，对假阴性人员检测的过滤可以基于两次成功的人脸/身体检测之间缺失的人脸/身体的颜色特征。

在一个实施例中，为了执行上述进一步的技术，对象过滤器200还包括包含对象跟踪块202的子块，其中，对视频中检测到的人员执行对象跟踪。人员检测模块118可以被配置为执行深度学习技术来识别被成像场景中的人员。人员检测模块118的第一输出包括基于卷积神经网络(CNN)特征生成的多个人员边界框。该输出由附图标记204表示，并用作对象跟踪块202的输入。

在一个实施例中，对象跟踪块202可以被配置为分别跟踪人员的人脸和身体。对于人脸跟踪，跟踪人脸边界框，而对于身体跟踪，跟踪身体边界框。

对象过滤器子块200还包括框206，其中，执行活动说话者确定过程，以基于从音频DOA检测模块116接收的DOA信息来确定视频中的当前活动说话者。在一个实施例中，为了便于确定当前活动的说话者，模块116可以被配置为向模块206输出DOA向量。

如果被标记为活动说话者的人员不再是活动说话者，则这个人员被放在过去说话者列表上，在框208处更新该列表。

如前所述，虚拟导演102通过动态取景场景的选定部分来生成精选视频。例如，在会议的上下文中，虚拟导演102将仅动态地取景那些当前被标记为活动说话者的说话者。因此，在一个实施例中，虚拟导演102包括目标ROI计算器，其被配置为基于由对象过滤器200产生的边界框来计算仅包含活动说话者的目标感兴趣区域(ROI)。在一个实施例中，ROI计算器输出ROI区域，作为当前或下一个目标。

在一个实施例中，目标ROI计算算法的输入包括说话者框列表和人员框列表。框表示为左上角(x0，y0)和右下角(x1，y1)。现在将描述ROI计算算法的几个方面：

(a)该算法将向所有框添加填充(例如，宽度的30％和高度的10％)，以说明人员的肩膀的宽度。

(b)该算法基于说话者框列表中最左边和最右边的x坐标来识别缩放和平移值(或等效地，ROI的宽度和中心)。

(c)算法调整宽度，直到选定的ROI没有穿过身体边界框。这确保了最终视图不会裁剪人员。

(d)该算法使用最上面的y坐标来识别倾斜值。通过将这个最上面的y值与先前的值进行比较，如果差值大于某个阈值(例如，200个像素)，则算法将认为它在y位置上有显著的变化。同样，该算法将当前的ROI中心和宽度与以前的ROI中心和宽度进行比较，并将其分为四个类别中的一个：放大、缩小、左移和右移，然后对于每个类别，如果宽度的变化大于某个阈值(例如，200各像素，每个类别可以有自己的阈值)，则该算法将认为它在平移方面有显著变化。

(e)最后，如果平移有显著变化，则算法将检查现在和上次缩放和平移调整之间的时间差。如果自上次缩放和平移调整以来的时间都大于N秒(例如，5秒)，则算法将更新缩放和平移值，作为新的ROI缩放和平移目标。类似地，如果倾斜改变了我们的显著性，并且自上次倾斜调整以来的时间大于N秒(例如，4秒)，则算法将更新新的ROI的倾斜目标。

牢记前述内容，附图的图3示出了根据本发明的一个实施例的由目标ROI计算器执行的操作的流程图。参考图3，在框300，基于从DOA检测模块116接收的活动说话者边界框的坐标来设置目标ROI。在框302，进行检查，以确定目标ROI是否裁剪人员。如果ROI没有裁剪人员，则控制转到框304，在框中检测到键入的平移变化。通常，平移改变可以从包括以下类型的组中选择：放大；缩小；左移；右移。

框308检查平移量是否显著，并且框310检查平移变化是否在最后N秒内发生。只有当平移变化被认为不显著，并且在最后N秒内没有发生平移变化时，框312才执行，其中，更新平移目标，并且控制传递到虚拟导演取景块314。

对于ROI不裁剪人员的情况，来自框302的控制也转到框316，在框316中确定倾斜的变化是否被认为是显著的。对于认为倾斜变化不显著的情况，控制转到框318，在框318进行检查，以查看倾斜变化是否在最后N秒内没有发生。如果在最后N秒内倾斜没有变化，则控制转到框320，在框320中更新倾斜目标。

如果在框302确定ROI裁剪人员，则执行框322，其中，被裁剪的边界框被添加到目标ROI，并且控制返回到框300。

在一个实施例中，虚拟导演102包括取景模块，该取景模块被配置为对由ROI计算器产生的ROI进行取景。有利地，所述取景块可以被配置为基于说话者活动来生成从一个ROI到另一个ROI的平滑或切换过渡。根据一个实施例的取景模块的功能能力包括：

(a)确保在最终输出中不剪裁人员的身体和人脸的计算。这是通过目标ROI计算算法来确保的，当在活动的说话者上取景时，确保不会剪辑其他人员，否则这些人员也会包括在取景中。

(b)通过首先缩小以包括前一个和当前说话者，然后缩小回当前说话者，在多个说话者之间进行自适应过渡。这是由对象过滤器确保的，不会立即从列表中移除先前的活动说话者框，直到经过特定时间(例如，7秒)。因此，在说话者过渡期间，旧的和新的活动说话者都将由对象过滤算法呈现。

(c)在改变视图时结合使用平滑过渡和即时过渡。

(d)连续性编辑在取景和过渡中的应用。

在一个实施例中，取景块利用被配置为基于当前ROI和目标ROI之间的差异来控制取景的技术，从而确保从当前ROI切换到目标ROI时的最佳用户体验。控制取景的一个方面包括确保上次ROI变化和当前ROI变化之间经过的时间不会超过最小阈值时间，例如，5秒。如果自上次更新ROI以来的时间大于最小阈值时间，并且有新的目标ROI准备好，则确定当前ROI(应该已经达到与先前的目标ROI相同)和新的目标ROI之间的重叠，以查看重叠是否大。例如，在一个实施例中，确定当前ROI和目标ROI之间的联合交集(IoU)。如果IoU大于某个阈值(例如，70％)，则这意味着重叠很大，这意味着当前ROI和目标ROI彼此接近。对于这种情况，取景技术/算法将使用平滑过渡，包括使用当前ROI和目标ROI之间的中间帧来到达新的目标ROI。对于当前ROI和目标ROI不接近的情况，取景算法瞬间切换到目标ROI，也就是说，不使用中间帧来到达新的目标ROI。

现在转到附图的图4，示出了根据一个实施例的上述取景技术的流程图。如图所示，在框400，进行检查，以确定自上次ROI目标变化发生以来是否经过了最小时间。如上所述，最小时间可以是5秒。对于还没有经过最小时间的情况，控制转到框400，在框400，取景块继续接收新的目标ROI坐标，并且重复框400的检查。

如果在框400确定最小时间确实已经过去，则控制转到框404，在框404进行检查，以确定当前ROI和目标ROI之间的重叠是否大。如上所述，如果重叠不大，则在框406执行切换过渡技术，否则在框408执行平滑过渡技术。

在一个实施例中，用于实现到目标ROI帧的平滑过渡的技术可以包括根据附图的图5中概述的步骤，以非线性方式在当前ROI帧和目标ROI帧之间生成一系列中间帧。参考图5，在框500，确定将用于从当前ROI到目标ROI的过渡的多个间隔I。在框502，当前ROI帧和目标ROI帧之间的总变化C的百分比被分配给每个间隔I。例如，如果使用两个间隔，则80％的变化可以被分配给第一间隔，20％的变化被分配给剩余间隔，从而使得总过渡是非线性的。在框504，然后基于I和C的值生成所需的中间帧。

有利地，本文公开的技术可以用于基于活动的说话者动态计算目标ROI，例如，视频会议，并且以提供最佳用户体验的方式过渡到所述目标ROI。例如，考虑附图的图6A中所示的输入视频600。视频600示出了视频会议，其中，可以看到分别标记为A、B和C的说话者。每个说话者具有根据本文公开的技术生成的人脸边界框和身体边界框。如果说话者B和C是活动的，则虚拟导演102将生成附图的图6B中所示的优化的ROI视图602，其中，在放大视图中仅看到说话者B和C。

现在考虑附图的图6D中所示的帧604。在此处，再次出现了分别标记为A、B和C的说话者。然而，可以看到活动说话者B和C周围的目标ROI裁剪说话者A。提供这种裁剪，说话者A的身体边界框被添加到目标ROI，结果产生图6D所示的帧606，其中，产生优化目标ROI，没有裁剪说话者A。

如本领域技术人员将理解的，本发明的方面可以体现为系统、方法或计算机程序产品。因此，本发明的方面可以采取完全硬件实施例、完全软件实施例(包括固件、常驻软件、微代码等)或者结合软件和硬件方面的实施例的形式，这些方面在本文中通常被称为“电路”、“模块”或“系统”。此外，本发明的方面可以采取包含在一个或多个计算机可读介质中的计算机程序产品的形式，所述计算机可读介质上包含有计算机可读程序代码。

标题、背景、附图的简要描述、摘要和附图在此并入本公开，并且被提供为本公开的说明性示例，而不是作为限制性描述。提交时应理解，它们将不用于限制权利要求的范围或含义。此外，在详细描述中，可以看出，该描述提供了说明性示例，并且为了简化本公开，各种特征在各种实现中组合在一起。公开的方法不应被解释为反映要求保护的主题需要比每个权利要求中明确陈述的更多的特征这一意图。相反，如权利要求所反映的，发明主题在于少于单个公开的配置或操作的所有特征。权利要求由此包含到详细描述中，每个权利要求作为单独要求保护的主题独立存在。

权利要求不旨在局限于本文描述的方面，而是符合与语言权利要求一致的全部范围，并且包括所有法律等同物。尽管如此，没有一个权利要求旨在包含不满足适用专利法要求的主题，也不应该以这种方式解释。

Claims

1.一种用于对视频进行取景的方法，包括：

关联对应于被成像场景的视频的当前感兴趣区域；

检测场景中的说话者；

执行重新取景操作，包括动态计算目标感兴趣区域，其中，所述目标感兴趣区域是基于所述场景中的活动说话者生成的；并且

基于切换过渡技术和平滑过渡技术中的一个，从所述当前感兴趣区域过渡到所述目标感兴趣区域。

2.根据权利要求1所述的方法，其中，所述目标感兴趣区域排除场景中的非说话者。

3.根据权利要求1所述的方法，还包括计算所述当前感兴趣区域和所述目标感兴趣区域之间的重叠程度。

4.根据权利要求3所述的方法，其中，过渡包括如果所述当前感兴趣区域和所述目标感兴趣区域之间的重叠程度大于阈值，则执行所述切换过渡技术，并且如果所述重叠程度低于所述阈值，则执行所述平滑过渡技术。

5.根据权利要求3所述的方法，其中，计算所述当前感兴趣区域和所述目标感兴趣区域之间的重叠程度包括确定所述当前感兴趣区域和所述目标感兴趣区域之间的联合交集。

6.根据权利要求5所述的方法，其中，所述平滑过渡技术包括计算从所述当前感兴趣区域过渡到所述目标感兴趣区域所需的总变化；确定两个实现所述过渡的间隔的数量；并且将所述总变化分配给每个间隔。

7.根据权利要求6所述的方法，其中，所述间隔上的总变化的位置是非线性的。

8.根据权利要求6所述的方法，其中，所述切换过渡技术包括将所述总变化分配给单个间隔。

9.根据权利要求1所述的方法，其中，所述目标感兴趣区域是基于与针对每个活动说话者计算的边界框相关联的坐标来生成的。

10.根据权利要求9所述的方法，其中，每个边界框是基于卷积神经网络特征计算的。

11.根据权利要求9所述的方法，其中，如果所述目标感兴趣区域裁剪到人员，则所述目标感兴趣区域扩展，以包括裁剪的人员，即使所述人员不是活动说话者。

12.一种系统，包括：

相机，用于捕捉视频；以及

虚拟导演模块，被配置为执行用于对由相机捕捉的视频进行取景的方法，所述方法包括：

关联对应于被成像场景的视频的当前感兴趣区域；

检测场景中的说话者；

13.根据权利要求12所述的系统，其中，所述目标感兴趣区域排除场景中的非说话者。

14.根据权利要求12所述的系统，其中，所述虚拟导演模块被配置为计算所述当前感兴趣区域和所述目标感兴趣区域之间的重叠程度。

15.根据权利要求14所述的系统，其中，过渡包括如果所述当前感兴趣区域和所述目标感兴趣区域之间的重叠程度大于阈值，则执行所述切换过渡技术，并且如果所述重叠程度低于所述阈值，则执行所述平滑过渡技术。

16.根据权利要求14所述的系统，其中，计算所述当前感兴趣区域和所述目标感兴趣区域之间的重叠程度包括确定所述当前感兴趣区域和所述目标感兴趣区域之间的联合交集。

17.根据权利要求16所述的系统，其中，所述平滑过渡技术包括计算从所述当前感兴趣区域过渡到所述目标感兴趣区域所需的总变化；确定两个实现所述过渡的间隔的数量；并且将所述总变化分配给每个间隔。

18.根据权利要求17所述的系统，其中，所述间隔上的总变化的位置是非线性的。

19.根据权利要求17所述的系统，其中，所述切换过渡技术包括将所述总变化分配给单个间隔。

20.根据权利要求12所述的系统，其中，所述目标感兴趣区域是基于与针对每个活动说话者计算的边界框相关联的坐标来生成的。

21.根据权利要求20所述的系统，其中，每个边界框是基于卷积神经网络特征计算的。

22.根据权利要求12所述的系统，其中，如果所述目标感兴趣区域裁剪到人员，则所述目标感兴趣区域扩展，以包括裁剪的人员，即使所述人员不是活动说话者。