CN113016002A

CN113016002A - 来自具有广角镜头的相机的图像中的选择性失真或变形校正

Info

Publication number: CN113016002A
Application number: CN201880099702.6A
Authority: CN
Inventors: 王天然; 宋海林; 何文学
Original assignee: Polycom LLC
Current assignee: Hewlett Packard Development Co LP
Priority date: 2018-11-23
Filing date: 2018-11-23
Publication date: 2021-06-22
Anticipated expiration: 2038-11-23
Also published as: EP3884461A1; WO2020103122A1; US20220005162A1; EP3884461A4; US11922605B2; EP3884461B1; CN113016002B

Abstract

一种方法包括在会议端点处接收使用广角镜头捕捉的视频。该方法进一步包括选择视频的帧中的视图区域。该方法进一步包括基于视图区域的尺寸，对视图区域选择性地应用变形校正或失真校正，以生成经校正的视频帧。该方法进一步包括将经校正的视频帧传送到远程端点。

Description

来自具有广角镜头的相机的图像中的选择性失真或变形校正

技术领域

本公开涉及视频处理，并且更特别地涉及选择性地校正由广角镜头引起的失真或变形。

背景技术

在视频会议中，可以使用单个相机（诸如广角相机或全景相机）来捕捉包含多个会议参与者的视图馈送，（“房间视图”）。捕捉的馈送的副本可以被裁剪以包含端点处的单个人（诸如已经交谈了一段时间的人）或一组人的放大视图。捕捉的馈送的另一个副本可以被裁剪以包含其他人（或物），例如，在第一个副本中的人之前发言的人。基于由广角弯曲镜头捕捉的数据的各个视图当在平坦表面上显示时将失真和变形。因此，在本领域中有改进的余地。

附图说明

为了说明的目的，在附图中示出了在本公开中描述的某些实施例。在附图中，类似的数字始终指示类似的元件。应当理解，本文公开的发明的全部范围不限于所示的精确布置、维度和仪器。在附图中：

图1图示了本公开实施例的操作环境。

图2图示了图1的操作环境的组件。

图3A图示了根据本公开的实施例的选择性地校正图像中的变形或失真的方法。

图3B图示了用于选择性地校正图像中的变形或失真的方法的替代实施方式。

图4图示了由变形校正逻辑校正的全帧图像。

图5图示了由失真校正逻辑校正的全帧图像。

图6图示了经失真和变形校正的视图区域。

图7A图示了选择性地校正图像中的变形或失真的另一种方法。

图7B图示了用于选择性地校正图像中的变形或失真的另一种方法的替代实施方式。

图8图示了由变形校正逻辑校正的全帧图像。

图9图示了由失真校正逻辑校正的全帧图像。

图10图示了相对靠近图像中心的视图区域的变形校正版本和失真校正版本两者。

图11图示了相对靠近图像边界的视图区域的变形校正版本和失真校正版本两者。

图12图示了可以用来实践本公开的构思和方法的电子设备。

具体实施方式

在附图和本文附图的描述中，某些术语仅为了方便而使用，并且不应被视为限制本公开的实施例。在附图和下面的描述中，类似的数字始终指示类似的元件。

使用广角镜头捕捉的图像固有地包括失真效果和变形效果。如本文所使用的，失真是指光的弯曲，使得图像中的直线条看起来被弯曲。如本文所使用的，变形是指图像的一部分中的“拉伸”，使得对象在一个或多个维度上看起来比自然的更大。可以通过对图像应用变换来校正图像中的失真或变形。然而，失真和变形可能无法同时在图像中都被校正。在图像的不同视图中，失真和变形可能相对更明显。例如，在图像的裁剪视图中，变形可能比在图像的完整视图中更明显。进一步，与中心相比，在图像边缘处的变形可能更明显。公开了用于选择性地校正图像中的失真和变形的系统和方法。虽然所公开的系统和方法是结合电话会议系统来描述的，但是应当注意，根据本公开，所公开的系统和方法可以根据本公开在其他环境中使用。

图1图示了本公开的示例电路的可能操作环境。具体地，图1图示了根据本公开实施例的会议装置或端点10。图1的会议装置或端点10通过网络55与一个或多个远程端点60通信。端点10包括具有音频编解码器32的音频模块30和具有视频编解码器42的视频模块40。这些模块30/40操作地耦合到控制模块20和网络模块50。模块30/40/20/50包括专用硬件、由一个或多个处理器执行的软件、或其组合。在一些示例中，视频模块40对应于图形处理单元（GPU）、由图形处理单元可执行的软件、中央处理单元（CPU）、由CPU可执行的软件、或其组合。在一些示例中，控制模块20包括CPU、由CPU可执行的软件、或其组合。在一些示例中，网络模块50包括一个或多个网络接口设备、CPU、由CPU可执行的软件、或其组合。在一些示例中，音频模块30包括CPU、由CPU可执行的软件、声卡、或其组合。

通常，端点10可以是会议设备、视频会议设备、具有音频或视频会议能力的个人计算机、或任何相似类型的通信设备。端点10被配置成生成近端音频和视频，并从远程端点60接收远端音频和视频。端点10被配置成向远程端点60传送近端音频和视频，并启动远端音频和视频的本地呈现。

麦克风120捕捉音频并将音频提供给音频模块30和编解码器32来处理。麦克风120可以是桌子或天花板麦克风、麦克风箱（microphone pod）的一部分、或端点的集成麦克风等。还可以提供附加麦克风121。除非以其他方式指示，否则贯穿本公开，与麦克风120相关的所有描述应用于任何附加麦克风121。端点10主要将用麦克风120捕捉的音频用于近端音频。相机46捕捉视频并将捕捉的视频提供给视频模块40和编解码器42来处理以生成近端视频。对于由相机46捕捉的近端视频的每一帧，控制模块20选择视图区域，并且控制模块20或视频模块40将该帧裁剪到视图区域。可以基于由麦克风120和附加麦克风121生成的近端音频、其他传感器数据、或其组合来选择视图区域。例如，控制模块20可以选择帧中描绘当前正在发言的参与者的区域作为视图区域。作为另一个示例，控制模块20可以响应于确定一段时间内没有人已经发言，选择整个帧作为视图区域。因此，控制模块20基于通信会话的上下文选择视图区域。

相机46包括广角镜头。由于广角镜头的性质，由相机46捕捉的视频（和静止图像）包括失真效果和变形效果两者。视频模块40包括变形校正逻辑72和失真校正逻辑74。在一些示例中，变形校正逻辑72和失真校正逻辑74对应于映射表，该映射表识别对由相机46捕捉的图像进行的调整。映射表可以基于相机46的镜头的属性，诸如焦距等。对于由相机46捕捉的每一帧视频，视频模块40基于由控制模块20为该帧选择的视图区域的尺寸来选择变形校正逻辑72或失真校正逻辑40，如本文下面进一步描述的。视频模块40然后将所选择的校正逻辑应用于帧的视图区域，以生成经校正的近端视频帧。因此，每个经校正的近端视频帧对应于视频帧的潜在经裁剪和经校正的版本。一起拍摄的经校正的近端视频帧包括经校正的近端视频。

端点10使用编解码器32/42来根据任何公共编码标准（诸如，MPEG-1、MPEG-2、MPEG-4、H.261、H.263和H.264）编码近端音频和经校正的近端视频。然后，网络模块50使用任何适当的协议经由网络55向远程端点60输出经编码的近端音频和经校正的视频。相似地，网络模块50经由网络55从远程端点60接收远端音频和视频，并将这些发送到它们相应的编解码器32/42来处理。最终，扬声器130输出（从远程端点接收的）远端音频，并且显示器48输出远端视频。在一些实施例中，显示器48还输出经校正的近端视频。

因此，图1图示了选择性地校正由具有广角镜头的由相机捕捉的视频中的变形或失真的设备的示例。特别地，图1的设备可以根据下面参考图3A-B和图7A-B进一步描述的方法之一来操作。如下所描述，这些方法可以改进通信会话期间的视频质量。

图2详细图示了图1的会议端点的组件。端点10具有经由总线100耦合的处理单元110、存储器140、网络接口150和通用输入/输出（I/O）接口160。如上，端点10具有基础麦克风120、扬声器130、相机46和显示器48。

处理单元110包括CPU、GPU或两者。存储器140可以是任何传统的存储器（诸如SDRAM），并且可以存储用于控制端点10的处于软件和固件形式的模块145。存储的模块145包括各种视频和音频编解码器32/42以及先前讨论的其他模块20/30/40/50/200的软件组件。此外，模块145可以包括操作系统、使得用户能够控制端点10的图形用户界面（GUI）、以及用于处理音频/视频信号的其他算法。

网络接口150提供端点10和远程端点（60）之间的通信。相比之下，通用I/O接口160可以提供与本地设备的数据传送，该本地设备诸如键盘、鼠标、打印机、高射投影仪、显示器、外部扬声器、附加相机、麦克风等。

如上所描述，端点10捕捉视频的帧、选择性地将帧裁剪成视图区域、并基于视图区域的尺寸选择性地对视图区域应用变形或失真校正。因为在相对较大的视图区域中失真可能更明显并且在相对较小的视图区域中变形可能更明显，所以通过解决对通信会话参与者来说可能更明显的不规则性，选择性地使用校正技术之一来提高通信会话期间的视频质量。因此，图2图示了选择性地校正变形或失真以提高视频质量的设备的示例物理配置。

参考图3A，示出了图示选择性地对图像应用校正的方法300的流程图。方法300包括在302接收图像。例如，端点10可以经由相机46接收视频的帧。方法300进一步包括在304选择视图区域。例如，控制模块20可以基于通信会话的上下文——诸如哪个参与者当前正在发言——来选择帧中的视图区域。如果视图区域小于帧，则视频模块40然后可以将帧裁剪到视图区域。

方法300进一步包括在306测量视图区域的尺寸。例如，视频模块40可以在绝对层面（例如，以某个单元的长度和宽度，诸如像素）或者与帧的尺寸相比较来确定视图区域的尺寸。方法300进一步包括在310确定视图区域的尺寸是否小于阈值。阈值的说明性示例是整个帧的视图的1/2。

如果视图区域的尺寸不小于阈值，则方法300包括在312执行失真校正以生成经校正的视图区域。例如，视频模块40可以响应于确定视图区域大于阈值，将失真校正逻辑74应用于视图区域。

如果视图区域的尺寸小于阈值，则方法300包括在314执行变形校正以生成经校正的视图区域。例如，视频模块40可以响应于确定视图区域小于阈值，将变形校正逻辑72应用于视图区域。

方法300进一步包括在316输出经校正的视图区域。例如，端点10可以将经校正的视图区域作为经校正的近端视频帧输出到远程端点60或显示设备48。在一些实施方式中，方法300包括更少或附加的步骤。例如，图3B图示了方法350，其是包括图像稳定步骤的方法300的替代版本。例如，在312执行失真校正之前，方法350包括在440确定前一帧是否被失真校正。如果前一帧被失真校正，则如上所描述，该方法包括在312执行失真校正。如果前一帧被变形校正，则方法350包括在444确定视图区域的尺寸是否在间隙范围内。间隙范围基于在310使用的尺寸阈值的尺寸来确定。在一些实施方式中，间隙范围对应于尺寸阈值加上或减去尺寸阈值的一半。如果视图区域的尺寸在间隙范围内，则方法350包括在314执行变形校正，而不是在312执行失真校正。如果视图区域的尺寸在间隙范围之外，则方法350包括在312执行失真校正。相似地，在314执行变形校正之前，方法350包括在442确定前一帧是否被变形校正。如果前一帧被变形校正，则如上所描述，方法350包括在314执行变形校正。如果前一帧被失真校正，则方法350包括在446确定视图区域的尺寸是否在间隙范围内。如果视图区域的尺寸在间隙范围内，则方法350包括在312执行失真校正，而不是在314执行变形校正。如果视图区域的尺寸在间隙范围之外，则方法350包括在314执行变形校正。因此，方法350包括通过避免帧之间的变形和失真校正之间的快速切换来增加由方法300生成的视频输出的稳定性的附加步骤。应当注意，在一些实施方式中，图像稳定步骤可以包括超时特征。在这样的实施方式中，方法350包括基于计时器或计数器，不管视图区域的尺寸是否在间隙范围内，都通过将视图区域的尺寸与阈值比较来执行所命令的校正。

图4-图6图示了方法300的益处。特别地，图4-图6示出了失真效果在全帧图像中可能更明显，而变形效果在经裁剪的（例如，放大的）视图区域中可能更明显。参考图4，示出了变形校正的全帧400。变形校正的全帧400对应于如由变形校正逻辑72校正的由相机46捕捉的第一视频帧。变形校正的全帧400描绘了灯具400和参与者406。如所图示，灯具406的线条由于用于捕捉第一视频帧的广角镜头而失真（例如，人为弯曲）。相比之下，图5示出了失真校正的全帧500。失真校正的全帧500对应于如由失真校正逻辑74校正的捕捉的第一视频帧。如所图示，在失真校正的全帧500中校正了灯具404的失真（和其他失真效果），但是存在变形效果。特别地，如与变形校正的全帧400相比，参与者406的面部在失真校正的全帧500中被径向拉伸。然而，如与变形校正的全帧图像500中所示的变形效果相比，变形校正的全帧图像400中所示的失真效果对于观看者来说可能更明显。

另一方面，图6图示了在经裁剪的视图区域中变形可能更明显。图6示出了变形校正的视图区域600和失真校正的视图区域700。变形校正的视图区域600对应于如由变形校正逻辑72校正的以参与者406为中心的视图区域。失真校正的视图区域700对应于如由失真校正逻辑74校正的以参与者406为中心的视图区域。如所示出的，如与变形校正的视图区域600中所示的失真效果相比，失真校正的视图区域700中参与者406的面部上的变形效果（例如，径向拉伸）可能更明显。

因此，图4-图6图示了在相对较大的视图区域（例如，大于阈值）上执行失真校正和在相对较小的视图区域（例如，小于阈值）上执行变形校正可以改进输出到显示器或远程端点的近端视频的质量。因此，如在方法300中，基于视图区域的尺寸选择性地对视图区域执行失真校正或变形校正，可以导致向显示设备或远程端点的改进的视频输出。

图7A示出了图示选择性地对图像应用校正的替代方法700的流程图。方法700对应于方法300，除了方法700包括在306测量视图区域的尺寸之后在708确定图像中面部的位置。进一步，方法700包括在710确定视图区域的尺寸是否小于阈值以及检测到的面部是否靠近图像的边界，而不是在310简单地确定视图区域的尺寸是否小于阈值。例如，视频模块40可以执行面部检测以识别视图区域中描绘的面部在图像内的位置。视频模块40可以进一步确定定位是否在边界的阈值距离内（或者在图像中心的阈值距离之外）。如果区域的尺寸大于阈值或者检测到的面部不在图像的边界附近，则方法700包括在312执行失真校正。如果区域的尺寸小于阈值并且检测到的面部靠近图像的边界，则方法700包括在314执行变形校正。

方法700的替代实施方式可以包括上面参考图3B描述的图像稳定技术。例如，图7B图示了对应于包括上述图像稳定技术的方法700的替代版本的方法750。应当注意，图3A-B和图7A-B中所图示的一些方法步骤可以以不同于所图示的顺序来执行。

图8-图11图示了方法700的益处。图8示出了通过将变形校正逻辑72应用于由相机46捕捉的第二全视频帧而生成的变形校正的全帧800。变形校正的全帧800描绘了墙壁902、第一参与者904和第二参与者906。在变形校正的全帧800中，直线条由于相机46的广角镜头的属性而失真。例如，墙壁902的线条是弯曲的而不是直的。图9示出了通过将失真校正逻辑74应用于第二全视频帧而生成的失真校正的全帧900。如所示出的，如与变形校正的全帧800相比，墙壁902的线条可能显得更加自然，而失真校正的全帧900中的变形效果可能难以注意到。因此，在相对较大的视图区域中，失真校正可能更理想。

图10图示了由广角镜头捕捉的帧的中心附近的变形效果不强。特别地，图10描绘了以第二参与者906为中心的变形校正的视图区域1000和以第二参与者906为中心的失真校正的视图区域1100。虽然背景1102的线条在以第二参与者906为中心的变形校正的视图区域1000中失真，但是对第二参与者906的变形效果可能难以在失真校正的图像1100中检测到，因为第二参与者的面部相对靠近第二帧的中心（例如第二帧的中心的阈值距离）。因此，对于聚焦在靠近帧的中心的面部上的视图区域，失真校正可能更理想。

图11图示了远离由广角镜头捕捉的帧的中心的变形效果更强。特别地，图11描绘了以第一参与者904为中心的变形校正的视图区域1300和以第一参与者904为中心的失真校正的视图区域1400。如所图示，如与失真校正的视图区域1100中的第二参与者906的面部变形相比，第一参与者的面部变形在失真校正的视图区域1400中可能更极端，因为第一参与者904离第二帧的中心更远。因此，对于相对较小（例如，小于阈值）的视图区域，变形校正可能更理想，这些视图区域聚焦在靠近帧的中心（例如，在帧边界的阈值距离内）的面部上。

因此，图8-图11图示了在图像中心附近的相对较大的视图区域（例如，大于阈值）或较小的视图区域上执行失真校正以及在图像边界附近的相对较小的视图区域（例如，小于阈值）上执行变形校正，可以改进输出到显示器或远程端点的近端视频的质量。因此，如在方法700中，基于视图区域的尺寸和视图区域内的面部图像中的定位选择性地执行失真校正或变形校正，可以导致对显示设备或远程端点的改进的视频输出。

参考图12，示出了图示被配置为对视频帧执行选择性失真或变形校正的设备1600的示例的图。设备1600包括扬声器1602A、1062B，麦克风阵列1604和相机1606。虽然未图示，但是设备1600进一步包括被配置为向显示器输出视频的输出接口和/或被配置为与远程端点交换数据的通信接口。设备1600被配置为使用相机1606捕捉视频，并生成如本文所描述的失真或变形校正的版本的视频输出。在一些实施方式中，设备1600对应于端点10。因此，图16图示了可以选择性地校正由具有广角镜头的相机捕捉的图像中的失真或变形的设备的示例。

以上描述的各种实施例仅通过说明的方式提供，并且不应被解释为限制本公开的范围。可以对本文描述的原理和实施例进行各种修改和改变，而不脱离本公开的范围并且不脱离所附权利要求。

Claims

1.一种方法，包括：

在会议端点处接收使用广角镜头捕捉的视频；

选择所述视频的帧中的视图区域；

基于所述视图区域的尺寸，对所述视图区域选择性地应用变形校正或失真校正，以生成经校正的视频帧；以及

将所述经校正的视频帧传送到远程端点。

2.根据权利要求1所述的方法，其中基于所述视图区域的尺寸选择性地应用变形校正或失真校正包括响应于确定所述视图区域的尺寸小于阈值尺寸，将所述变形校正应用于所述视图区域。

3.根据权利要求2所述的方法，其中所述阈值尺寸对应于所述视频的帧的一半尺寸。

4.根据权利要求1所述的方法，其中选择所述视频的帧中的所述视图区域包括在所述会议端点处检测会议中的活跃参与者，并将所述帧裁剪到所述活跃参与者周围的区域。

5.根据权利要求1所述的方法，其中所述变形校正对应于第一表格映射，所述第一表格映射指示要应用于所述视图区域以校正所述视图区域中的变形效果的一个或多个第一变换，并且所述失真校正对应于第二表格映射，所述第二表格映射指示要应用于所述视图区域以校正所述视图区域中的失真效果的一个或多个第二变换。

6.根据权利要求1所述的方法，其中基于所述视图区域的尺寸，选择性地应用所述变形校正或所述失真校正进一步包括：

识别所述视图区域中描绘的面部在所述帧中的位置，以及；

响应于确定所述面部的位置在所述帧的边界的阈值范围内并且所述视图区域的尺寸小于阈值尺寸，应用所述变形校正。

7.根据权利要求1所述的方法，其中基于所述视图区域的尺寸，选择性地应用所述变形校正或所述失真校正进一步基于所述变形校正或所述失真校正是否被应用于前一帧。

8.一种计算机可读存储设备，存储由一个或多个处理器可执行的指令，以：

接收使用广角镜头捕捉的视频；

选择所述视频的帧中的视图区域；

将所述经校正的视频帧传送到远程端点。

9.根据权利要求8所述的计算机可读存储设备，其中基于所述视图区域的尺寸选择性地应用变形校正或失真校正包括响应于确定所述视图区域的尺寸小于阈值尺寸，将所述变形校正应用于所述视图区域。

10.根据权利要求9所述的计算机可读存储设备，其中所述阈值尺寸对应于所述视频的帧的一半尺寸。

11.根据权利要求8所述的计算机可读存储设备，其中选择所述视频的帧中的所述视图区域包括检测会议中的活跃参与者，并将所述帧裁剪到所述活跃参与者周围的区域。

12.根据权利要求8所述的计算机可读存储设备，其中所述变形校正对应于第一表格映射，所述第一表格映射指示要应用于所述视图区域以校正所述视图区域中的变形效果的一个或多个第一变换，并且所述失真校正对应于第二表格映射，所述第二表格映射指示要应用于所述视图区域以校正所述视图区域中的失真效果的一个或多个第二变换。

13.根据权利要求8所述的计算机可读存储设备，其中基于所述视图区域的尺寸，选择性地应用所述变形校正或所述失真校正进一步包括：

识别所述视图区域中描绘的面部在所述帧中的位置，以及；

14.根据权利要求8所述的计算机可读存储设备，其中基于所述视图区域的尺寸，选择性地应用所述变形校正或所述失真校正进一步基于所述变形校正或所述失真校正是否被应用于前一帧。

15.一种装置，包括：

相机，包括广角镜头；

一个或多个处理器；和

存储器，存储由所述一个或多个处理器可执行的指令，以：

接收由所述相机捕捉的视频；

选择所述视频的帧中的视图区域；

将所述经校正的视频帧传送到远程端点。

16.根据权利要求15所述的装置，其中基于所述视图区域的尺寸选择性地应用变形校正或失真校正包括响应于确定所述视图区域的尺寸小于阈值尺寸，将所述变形校正应用于所述视图区域。

17.根据权利要求16所述的装置，其中所述阈值尺寸对应于所述视频的帧的一半尺寸。

18.根据权利要求15所述的装置，其中在所述视频的帧中选择所述视图区域包括检测会议中的活跃参与者，并将所述帧裁剪到所述活跃参与者周围的区域。

19.根据权利要求15所述的装置，其中所述变形校正对应于第一表格映射，所述第一表格映射指示要应用于所述视图区域以校正所述视图区域中的变形效果的一个或多个第一变换，并且所述失真校正对应于第二表格映射，所述第二表格映射指示要应用于所述视图区域以校正所述视图区域中的失真效果的一个或多个第二变换。

20.根据权利要求15所述的装置，其中基于所述视图区域的尺寸，选择性地应用所述变形校正或所述失真校正进一步包括：

识别所述视图区域中描绘的面部在所述帧中的位置，以及；