CN106134188A

CN106134188A - 基本视频比特流分析

Info

Publication number: CN106134188A
Application number: CN201580013886.6A
Authority: CN
Inventors: 保罗·G·布赖特-托马斯
Original assignee: Cisco Technology Inc
Current assignee: Cisco Technology Inc
Priority date: 2014-03-14
Filing date: 2015-03-16
Publication date: 2016-11-16
Anticipated expiration: 2035-03-16
Also published as: EP3117604A1; WO2015139014A1; EP3117604B1; CN106134188B; US9369668B2; US20150264313A1

Abstract

在第一网络使能的设备(105)从第二网络使能的设备(115a‑115c)接收用视频信息编码的比特流。在生成与比特流值相对应的图像帧之前分析比特流，并从比特流中的比特流值确定视频信息的视觉特性。响应于视觉特性确定修改的视频显示。

Description

基本视频比特流分析

技术领域

本公开一般地涉及视频会议，并且更具体地，涉及分析和生成与视频会议相关联的视频信息。

背景技术

在多点视频会议中，每个参与者向会议贡献视频流，并且每个参与者接收提供会议视图(view)的一个或多个视频流。连续呈现视频会议视图试图显示贡献于视频会议的多个视频流的各方面，以便给予每个查看(viewing)参与者比通过查看单一的贡献流实现的会议体验更有信息量的会议体验。选择哪些流来查看通常来自从相关联的贡献音频流可测量的能量或讲话信心。

在视频会议参与者贡献两个或更多流的情况下，由参与者查看的独立的流可以以若干方式来显示，包括重叠或非重叠组合，且每个流被缩放以显示重要性和/或细节的适当等级。在典型应用中，从相关联的音频流获得的音频活动的等级，和/或分配给流的固定或动态分配的角色，被用于确定每个流在组合会议视图中是否应被显示给视频会议端点。

分布于每个参与者以提供会议视图的视频可通过转码多点视频会议单元(“MCU”)来编码，并作为显示一个或多个贡献源流的内容的单一流来传递，或通过切换MCU从源切换，并如由接收端点的要求和能力所确定的来转发一个或多个贡献源视频流。在这两种情况下，处于中心的MCU确定向会议参与者提供什么来作为其会议体验。

附图说明

图1是根据示例实施例被配置为提供视频信息的基本比特流分析的系统的框图；

图2是根据示例实施例示出了执行基本比特流分析并响应于该分析确定修改的视频显示用于在视频会议端点处显示的方法的流程图；

图3是根据示例实施例通过基本比特流分析在视频信息和自适应视频组合中定位运动的概念图；

图4是根据示例实施例通过基本比特流分析来确定视频信息和自适应视频组合的聚焦或锐度的概念图；

图5是根据示例实施例通过基本比特流分析在视频信息和自适应视频组合中确定照明等级的概念图；

图6是根据示例实施例通过基本比特流分析在视频信息和自适应视频组合中定位人的存在的概念图；

图7是根据示例实施例响应于基本比特流分析确定的提供控制信号的带内信令的概念图；

图8是根据示例实施例响应于基本比特流分析确定的提供控制信号的带外信令的概念图；

图9是根据示例实施例被配置为执行基本比特流分析的网络使能的设备的框图。

具体实施方式

概览

在第一网络使能的设备从第二网络使能的设备接收用视频信息编码的比特流。在生成与比特流值相对应的图像帧之前分析比特流，并从比特流中的比特流值确定视频信息的视觉特性。响应于视觉特性，确定修改的视频显示。

示例实施例

图1中示出的是多点视频会议系统，其中，多点视频会议单元(“MCU”)105被配置为通过基本流分析来提供视图增强。特别地，MCU 105接收分别由视频会议端点115a-c贡献的比特流110a-c。包括在比特流110a-c中的是用在视频会议端点115a-c获取的视频信息(即，视频图像)120a-b编码的比特(bits)。在接收比特流110a-c时，MCU 105通过基本分析单元125来执行对流的基本分析。

在本文档中对比特流的分析被称为“基本的”，这是因为在分析之前分析不对流进行完全解码(即，生成完整视频帧)。而是，分析可直接在二进制比特流数据上或在部分解码之后执行，例如，检查视频数据的编码单元的运动矢量(例如，根据H.265/高效视频编码(HEVC)标准的宏模块或可变尺寸编码单元)。例如，基本比特流分析可包括修改解码处理以在编码单元(例如，宏模块)的等级从比特流中的信息分析或形成统计。使用这些统计可提供关于编码图像的可形成图像分析的基础的高粒度信息，例如，视频数据的宏模块的运动矢量，或这些重建宏模块的平均等级。将流分析集成到解码处理中的优势是：i)在解码处理期间生成的值对于基本图像分析是有用的，并且是现成的；ii)在解码处理内执行分析可避免计算和存储器带宽中的大量开销，如将在后解码图像分析中发生的；iii)处理可在未完成比特流的解码的情况下应用，甚至在解码处理本身避免了相当比例的计算，完全解码实际上是不必要的。

响应于由基本分析单元125执行的分析的结果(具体示例将参考图3-6被描述)，MCU 105确定视频会议端点115a-c的每个的端点显示视频数据130a-c。MCU 105为每个参与视频端点115a-c提供由参与端点115a-c的某些或全部贡献于会议的视频的组合形成的会议的“视图”，组合通常包括所有会议参与者的最相关的子集(并排除该视图被发送的端点的贡献)，以适合每个接收端点的接受能力的形式再编码。MCU编码端点显示视频数据130a-c然后通过视频会议比特流135a-c被传输至视频会议端点115a-c。如果MCU 105用作转码MCU，则所确定的端点显示数据130a-c将是从贡献视频参与者比特流110a-c生成的视频比特流。生成视频比特流可包括确定多个解码视频流到单一视频流的组合(选择和定位)用于编码并传输至会议端点115a-c。如果MCU 105用作切换MCU，则所确定的端点显示视频数据130a-c将是被切换至视频会议端点115a-c的不同视频流。在切换MCU的上下文中，确定端点显示数据130a可包括确定由MCU切换至端点115a-c的多个流的选择。

此外，返回到端点115a(或b或c)的视频可随着由115a(或b或c)贡献的视频的状况应被改变(发言人定位、照明等)的指示140a-c而增大。在转码MCU的情况下，该指示可被直接添加到编码在所返回比特流中的组合。

因此，对贡献视频流的分析及对其描述的场景的解释可改变贡献视频流对于由MCU分布的端点显示视频数据中的其他端点是否或如何可见，和/或产生指示由端点贡献的视频流的具体特性可被改善的反馈信号。

现在参考图2，其中描绘的是示出了可由例如图1的MCU 105和基本分析单元125执行以便通过基本流分析来实现视图增强的处理的流程图。处理在210处开始，其中，在第一网络使能的设备(例如，图1的MCU 105)接收比特流。从第二网络使能的设备(例如，图1的视频会议端点115a-b的一个)接收比特流，并用视频信息编码。

在220处，在生成与比特流值相对应的图像帧之前，通过比特流值的分析来确定视频信息的视觉特性。换句话说，在对比特流进行完全解码之前(或在某些情况下不对比特流进行完全解码)，在所接收的比特流上执行基本流分析以形成图像帧。根据某些示例，检查比特流的二值值以便确定视频信息的视觉特性。根据其他示例，检测由所接收的比特流描述的图像的要素。例如，基本流分析可作为比特流的完整或部分解码的一部分来执行；完全重建和完整的图像的分析是不必要的。特别地，可对比特流进行解码以形成宏模块，并检查宏模块及其属性以便确定视频信息的视觉特性。

在220处确定的特性的类型可包括视频信息中是否存在运动，并且如果存在，该运动位于视频帧的何处。所确定的特性还可包括视频信息的亮度、色度以及锐度或聚焦。如何使用这些特征的具体示例参考图3-6在下面被描述。此外，这些特性和/或其组合，可用于提供视频内容的关键属性(例如，所分析场景中人的存在和不存在)的指示。对从比特流解码处理的仪器获得的这些特性进行评估以确定贡献视频内容的最优性，并改编视频内容应被用在视频会议的组合视图中的方式。

通过基本比特流分析来确定视频信息的视觉特性可包括随着时间和随着相邻编码单元来平均或“平滑”比特流的特性。通过随着时间和随着小图像子区域来平均或平滑特性，视觉特性的确定可解释由视频编码器添加到比特流的伪迹(artifact)以及视频帧的不平等处置(例如，差分编码)，并最小化不与潜在视觉特性相对应的暂态噪声引起的影响。

在编码单元或宏模块等级形成的所分析视频流的视觉特性的度量，可与相邻的编码单元或宏模块聚合以在子区域等级形成度量。覆盖比特流所显示的整个视图的子区域的阵列形成每个视觉特性的映射，并允许确定该特性的空间分布。例如，确定与人存在相对应的特性，允许评价在贡献视频流所描述的视图中是否存在任何人类参与者，并且如果存在，他们是否被很好地构造(frame)在该视图内，即，被视图边缘很好地约束，离摄像机太近或太远。

在230处，响应于所确定的视觉特性确定修改的视频显示。例如，如果在220处确定视频信息中存在运动，则修改的显示可以是确定应如何构造视频信息的移动部分以便在包括修改的视频流的图像帧的突出部分获取该运动。根据其他示例，修改的视频显示可以是确定多个视频流的期望组合，例如，图1的端点显示视频数据130a-c的一个或多个，其中组合流的布置和/或组合是基于所确定的视频信息的色度、亮度和/或聚焦特性。特别地，所确定的亮度信息可指示在特定端点获取视频信息的摄像机被镜头盖或关闭的快门覆盖。因此，可确定来自该比特流的视频应从由转码MCU生成的组合视频流中省略，或不通过切换MCU切换至端点。类似地，所确定的色度和运动信息可每个、或一起指示比特流的视频信息中不存在人类用户，并且来自该比特流的视频应从组合视频流中省略。如果确定人类用户在视频信息中未居中，则色度和/或运动信息还可用于确定如何重构造或重组视频信息。

除了在230中确定修改的视频显示，可采取进一步的措施以根据所确定的修改的视频显示来影响来自MCU的视频流的分布。例如，如果从亮度信息确定比特流正由具有关闭的快门的摄像机贡献，则响应于所确定的修改的视频显示，转码MCU可通过生成省略由关闭快门摄像机提供的比特流的修改的显示来改变视频会议显示数据的分布。切换MCU可通过不将关闭快门摄像机所提供的比特流切换至其他视频会议参与者来修改视频会议数据的分布。

根据修改视频会议信息的分布的另一示例，响应于基本比特流分析转码MCU可组合视频比特流。基本比特流分析可揭露由MCU分布的视频会议显示数据的当前组合重叠内容在人类参与者的图像的某些或全部。所确定的修改的视频显示将是新组合，其中，人类参与者未与其他内容重叠。因此，转码MCU将把分布式显示流的组合修改为未覆盖人类图像的组合，即，改变分布式显示以匹配所确定的修改的显示。根据另一示例，基本比特流分析可指示参与者的贡献视频信息显示存在许多会议参与者的大房间的广角视图。如果该图像用在小尺度，则可能无法辨认独立的参与者。因此，基本比特流分析可使得MCU确保广角视图仅用在或分布在大尺度。换句话说，基本流分析的结果用于修改和增强从会议分布的视频。

响应于所确定的视频显示，MCU还可通过视频会议端点来影响视频会议数据的贡献。由视频会议参与者贡献的流属性的分析还可允许确定参与者的贡献可被改善。当确定参与者的贡献可被改善时，在步骤230中做出的确定可包括确定参与者为改善其贡献可采取的补救措施；即，改编视频会议参与者贡献视频的方式。再次使用比特流是由具有关闭快门的摄像机提供的示例，MCU可向视频会议参与者发送带内或带外指示，该指示旨在提示参与者通过打开摄像机快门来修改其所发送的视频。

换句话说，MCU可通过基本比特流分析来确定参与者的贡献是次优的，并还可确定参与者为优化其贡献可采取的补救措施。响应于确定可如何优化参与者的贡献，期望优化的信令或指示可在视频中被带内返回(例如，作为由转码MCU发送到会议参与者的视频信息的一部分)或经由任何其他会议控制或通信信道被带外返回(针对转码或切换MCU)。在任一情况下，基本流分析的结果生成动作以修改和增强贡献于会议的视频。

响应于到接收带内或带外信令，与次优视频相关联的用户可采取措施来优化视频。例如，如果通过比特流分析发现过度运动，则可向视频会议端点发送指示端点所使用的视频获取设备需要被稳定的信令信息。因此，用户可采取补救措施来稳定他或她的摄像机。类似地，聚焦信息可指示视频信息未焦点对准，因此可向用户传输指示获取视频信息的摄像机应被聚焦的信号。因此，用户可采取补救措施来聚焦他或她的摄像机。基本比特流分析还可指示贡献视频会议流包含人类存在，但该人类存在在图像中未被很好地构造。作为响应，可向参与者返回带内或带外指示，该指示将指导参与者改变他或她自己的位置以更中心地位于摄像机视场中。在所有这些示例中，基本比特流检测可用于修改和/或改善由视频会议参与者贡献的视频会议信息。

MCU还可利用控制信道来直接修复由在该流上执行的基本流分析确定为次优的贡献视频会议参与者视频流的特性。例如，视频会议参与者可能正使用配备远端摄像机控制(FECC)系统的摄像机，该FECC系统被配置为接收控制信号以自动地对准、聚焦、上电、或以其他方式调整配备FECC的摄像机。因此，控制信道可允许解码单元(在此情况下MCU主持会议)直接改变摄像机对准以改善不良构造参与者的构造、直接更改摄像机的聚焦、或以其他方式控制摄像机，从而直接修改来自视频会议参与者的视频会议信息的贡献。

现在参考图3，其中描绘的是从视频比特流的基本分析确定的运动信息可如何用于改编视频显示的组合的示例。为了确定比特流的视频信息中是否存在运动，可从比特流提取并聚合运动矢量。特别地，由于在编码单元或宏模块等级确定运动矢量，可通过基本流分析来确定运动矢量。

此外，如果运动属性在由编码图像的细分所定义的区域内在水平和垂直方向二者被聚合超过编码单元或宏模块等级，则所描绘场景内运动的分布可被确定，使得可通过基本比特流分析来执行边缘分析。例如，如果帧内分段运动统计指示运动的最大贡献延伸至图片边缘的一个或多个，则很有可能可通过调整摄像机的对准、缩放、或定位来更好的构造场景。因此，分段运动统计或“映射”可形成下列项的评价的基础：a)场景内运动的本质(噪音、环境、人)、b)视场内人的存在或不存在、c)流中所描绘场景的移动(并由此推断，重要)部分在视场内是否被很好地构造并可如何改善此构造、以及d)场景的哪些部分对于其他会议参与者的重叠视图的叠加可能是适当的。

运动可被聚合为子图像区内或跨子图像区的标量或矢量属性。形成子图像场集的矢量度量可允许从归因于摄像机(横向、旋转或缩放)运动的整个图像运动分离场景内目标的图像内运动。子图像运动矢量的相关可指示横向运动(平移或倾斜)，并且图像中心的对侧上的场对的反相关可指示摄像机缩放(针对室系统端点)或旋转(针对移动设备上的手持端点)。

基本比特流分析还可用于在与参与者相关联的运动和与视频帧的噪音和/或背景或环境特征相关联的运动之间进行区分。例如，视频会议参与者可位于具有闪光灯的环境内。参与者的环境的天花板的灯光的闪烁可通过基本比特流分析被阅读为“运动”。摄像机噪声也可通过基本比特流分析被阅读为“运动”。然而，可通过考虑编码视频帧的比特流的信息密度来补偿该“运动”。

例如，视频压缩算法通过使用高效频率空间表示、利用帧内空间冗余、和/或帧间时间冗余来表示视觉图像的序列。描述细节和差异要求更大数量的信息。因此，感兴趣的前景目标，特别是人的存在，比背景(趋于静态、较少细节、和/或较少焦点对准)更可能展示更高等级的细节和差异。因此，将所接收的编码比特流中信息的空间密度看作可指示编码场景的内容的补充特性是有用的。在对视频比特流进行解码中，在从比特获得信息空间密度的测量方面存在较小额外成本，该成本花费在所分析视频比特流中的每个编码宏模块上，并结合从比特流获得的更直接的视觉特性(运动、亮度、色度)来使用此成本以便分析视频比特流的内容。

通过分析信息密度，可从与会议参与者的背景或环境相关联的运动来区分与用户相关联的运动。例如，闪光灯可使得与视频会议参与者的环境(例如，房间的天花板)相关联的视频帧随着帧而改变。环境的这些相同部分(例如，房间的天花板或墙壁)一般可以是平坦、无特征的表面，并因此缺乏与人类图像相关联的补偿细节。因此，通过结合视频帧的各部分的细节等级(即，信息密度)来评价运动，可从运动的噪声驱动区域(例如，闪光灯引起的“运动”)区分会议参与者。此外，可从编码图像的宏模块(以及较大空间区域)中编码信息的相关花费的确定获得视频帧中细节的复杂度或等级。因此，可通过基本比特流分析来获取细节信息，并结合也通过基本比特流分析获取的运动信息来容易地使用。

此外，相对于较小独立主体，可通过使用从与每个宏模块相关联的运动和与相邻宏模块相关联的运动的差异形成的运动发散度量来增强聚合运动属性以描述大目标的运动。给定区内多个移动目标的场将趋于贡献高聚合运动和高发散，然而单一移动目标将具有高运动和低发散，特别是如果移动目标未完全包含在正在评价的宏模块或宏模块的聚合中。因此，聚合和发散测量的比较，连同聚合运动上的阈值，可用于确定正在评价的区域内是否存在一个或多个相干移动主体。

如图3所示，用户305是视频会议中视频会议端点(例如，图1的端点115a-c)处的参与者。用户305是会议中当前活跃的发言人，并因此用户305正在发言和移动，如移动部分310和315a-b所示。根据此示例，移动部分310是用户305的头部，而移动部分315a-b对应于用户305的手部。图像320表示从用户305发送到MCU(例如，图1的转码MCU 105)的视频信息。如果未利用上面描述的存在确定技术，则接收视频信息320的MCU可简单地将来自其他用户的视频信息327a-c重叠在视频信息320，如视频图像325所示。如可在视频信息325中看到的，与移动部分315a和b相对应的视频信息320的各部分在组合视频信息325中被视频信息327a-c覆盖。由于视频会议主持人或用户经常使用他们的手部来加强他们的点，覆盖移动部分315a和b可能降低用户305的演示效率。

在另一方面，通过实现上面描述的存在确认技术，当视频信息320与来自其他用户327a-c的视频信息进行组合时，可组合结果视频信息330以便出现移动部分310和315a-b。特别地，上面描述的技术能够在视频信息320中定位区域310和315a-b，并当确定视频信息330的组合时使用该知识。当在转码MCU中实现时，视频信息330的重组可以是MCU用确保移动部分310和315a-b出现的组合来生成新视频比特流的结果。

根据其他示例，如果通过边缘分析确定移动部分310和315a-b的任意部分位于视频信息320的边缘附近或边缘处，则可确定应重构造与视频信息320相关联的视频会议参与者。因此，可向贡献视频信息320的视频会议端点发送信令或控制信息以指示或控制视频信息320的重构造。

现在参考图4。其中示出的是从视频比特流的基本分析确定的聚焦信息可如何用于确定修改的视频会议视频显示的组合的概念示例。视频信息420a-d表示从视频会议端点(例如，图1的端点115a-c)发送到MCU(例如，图1 MCU 105)的视频信息。如果未执行与视频信息420a-d相关联的比特流的基本分析，则MCU将把四个流组合到一个组合视频图像中，而不管底层(underlying)视频信息的质量或聚焦。

在另一方面，如图4所示，在与视频信息420a-d相关联的比特流上执行基本分析。在基本分析期间，确定视频信息420a未焦点对准，而剩余的视频信息(视频信息420b-d)是焦点对准的。响应于此确定，可通过从组合视频信息430省略视频信息420a来修改视频信息的分布。当在转码MCU中实现时，可通过生成缺乏视频信息420a的视频比特流来实现视频信息420a的省略。当在切换MCU中实现时，可不将视频信息420a切换至视频会议参与者。此外，在切换或转码MCU实现方式中，可通过向贡献视频信息420的视频会议端点发送信令或控制信息以指示或控制视频信息420的再聚焦来修改视频信息的贡献。信令或控制信息可在图4中示出的视频信息420a的省略之外或作为其替代被发送。实际上，在某些实现方式中，使用信令或控制信息来改正或改善视频信息420a可优选于从组合或切换视频信息省略视频信息420a。

当确定如果视频信息(例如，视频信息420a)是焦点对准的，可利用来自编码比特流的频域的剩余系数信息。例如，视频信息中不良聚焦的指示可以是没有视频信息的部分贡献于包括低到中量化参数值的比特流中的高频。通过分析剩余系数的分布，可标识不良聚焦视频信息。如果在基本分析期间检测到这样的比特流，则可确定编码在流中的视频信息未焦点对准，并因此应从组合视频图像省略视频信息。

现在参考图5，其中示出的是从视频比特流的基本分析确定的亮度信息可如何用于组合修改的视频会议视频显示的概念示例。视频信息520a-d表示从视频会议端点(例如，图1的端点115a-c)发送至MCU(例如，图1的MCU 105)的视频信息。如果未执行与视频信息520a-d相关联的比特流的基本分析，则MCU可把四个流组合到一个组合视频图像，而不管底层视频信息的亮度和/或对比度。

在另一方面，如图5所示，在与视频信息520a-d相关联的比特流上执行基本分析。在基本分析期间，确定视频信息520a是用极其低光环境的信息来编码，而剩余的视频信息(视频信息520b-d)包含具有足够照明的环境的信息。响应于此确定，可通过从组合视频信息530省略视频信息520a来修改视频信息的分布。当在转码MCU中实现时，可通过生成缺乏视频信息520a的视频比特流来实现视频信息520a的省略。当在切换MCU中实现时，可不将视频信息520a切换至视频会议参与者。此外，可通过向贡献视频信息520的视频会议端点发送信令或控制信息以指示或控制视频信息520的亮度来修改视频信息的贡献。然而，如果确定摄相机快门是关闭的或镜头盖是打开的，则从分布排除视频信息520可能是有利(favored)的，因为用户可能是有目的地关闭了他们的快门或保持他们的镜头盖打开。

为了确定照明等级，基本比特流分析可分析集成到比特流解码处理中的亮度-色度(“YbCbCr”)数字视频信号的亮度，而不是执行分离的图像分析。还可组合其他基本分析技术来使用亮度信息的基本分析，例如，参考图3在上面描述的运动技术。例如，甚至明亮图像的照明可以是次优的，例如，当由于光源在参与者后面而参与者是背光时。通过组合运动分析来确定具有亮度值和/或亮度值的对比度的参与者的位置，可标识背光参与者。一旦确定参与者是背光的，光滤波技术可被应用于视频信息，或可将信令发送回参与者以改正背面照明，如参考图7和8描述的。

根据其他示例，基本比特流分析的结果可与从视频会议参与者接收的其他信息相组合。例如，在图5中，与视频信息520a相关联的亮度等级可指示摄像机快门是关闭的，而与视频信息520a相关联的音频流指示与视频信息520a相关联的参与者正试图贡献于视频会议。特别地，如果存在从与视频信息520a相关联的该端点贡献的音频，则参与者很有可能应被看到以及听到。因此，快门是关闭的视觉或音频指示在源端点处可被示出或放大，以便提示贡献参与者打开快门并向他或她正对着讲话的参与者表现自己。

类似于参考图5在上面的讨论，图6示出了从压缩比特流的基本分析确定的色度信息可如何用于组合修改的视频会议视频显示的概念示例，该压缩比特流从YCbCr彩色空间中存在的视频序列的编码获得。用视频数据编码的比特流的色度值通常可以以广泛适用的方式与人类皮肤色调相关联。例如，人类皮肤色调通常将落入跨越种族和人种界限的色度值的范围内。因此，比特流中色度值的基本分析可用于确定包括在比特流中的视频信息内是否实际上存在参与者。当标准被应用空间扩展上并与其他特性(例如，运动)相关联时，使用色度来指示存在被强化。

如图6所示，在MCU(例如，图1的MCU 105)处，在与视频信息620a-d相关联的每个比特流上执行色度值的基本分析。响应于基本分析，从色度等级确定视频信息620a不包括参与者，而视频信息620b-d包含参与者。因此，当MCU组合视频信息620a-d以形成端点显示视频数据630时，从端点显示视频数据630省略来自视频信息620a的视频数据。当在转码MCU中实现时，可通过生成缺乏视频信息620a的视频比特流来实现视频信息620a的省略。当在切换MCU中实现时，可不将视频信息620a切换至视频会议参与者。类似于其他示例，可通过向贡献视频信息620的视频会议端点发送信令或控制信息来修改视频信息的贡献。尽管当色度分析指示视频信息620中不存在用户时，从分布排除视频信息620可能是有利的技术，因为用户可意识到他们未被获取在视频信息620中。

色度信息还可与其他基本分析信息组合以更准确地确定视频信息620a-d中是否存在用户。例如，不仅色度信息落入人类参与者的具体范围，而且人类参与者在视频会议期间将经常移动。因此，展示人类参与者的正确色度值且同时展示运动矢量的数据的宏模块可强烈暗示(suggestive)包含人类参与者信息的宏模块。当这样的宏模块被标识时，MCU可被配置为包括与端点显示视频数据(例如，端点显示视频数据630)中的宏模块相关联的视频信息。

现在参考图7，其中描绘的是结合带内信令通过直接修改返回到参与者715的视频由转码MCU使用基本码流分析。带内信令指示由该视频会议参与者贡献的视频信息的一个或多个质量的必要调整。如本文使用的，“带内”指直接在发送到视频会议参与者的视频比特流中被发送的信息。特别地，视频会议参与者715经由比特流710将视频信息720a发送到MCU 705。通过基本分析单元725在比特流710上执行基本分析。比特流分析单元725可确定视频信息720a包含过量运动，且MCU 705通过在视频会议比特流735中添加此过量运动的图形或文本信令740来将此指示给参与者715。

例如，当从具有内置或附着摄像机的手持或移动设备上的视频会议客户端加入视频会议时，设备的运动将导致显示给其他会议参与者的场景中的高度运动。此高度运动可降低视频压缩的性能，并还可降低查看会议参与者的其他人的体验。可通过屏幕上的图标来通知贡献此运动的参与者过度的摄像机运动，鼓励他们更稳定地安装移动端点。因此，当MCU 705确定并引起端点显示视频数据730经由视频会议比特流735的传输时，MCU 705还包括带内信令740。根据本示例，在已确定视频信息720a包含过量运动的情况下，信令740可包括待显示给参与者715的消息，该消息指示其摄像机正被过度的移动且正使得降级的(degraded)视频信息被发送给MCU 705。类似地，如果比特流分析单元725确定视频信息720a包括低光或背光图像，信令740可使得向参与者715显示他或她需要在他或她的位置调整照明的消息。根据其他示例，信令信息740可指示用户715他或她的镜头盖是打开的、图像未焦点对准、或该参与者715未在视频信息720a的帧内。

在接收到信令740时，参与者715可采取使得修正的视频信息720b经由比特流710被发送到MCU 705的纠正措施。例如，参与者715可稳定他或她的摄像机、移至更中心的位置、调整他或她的照明、打开他或她的摄像机快门、聚焦他或她的摄像机、或采取信令740指示的其他纠正措施。

现在参考图8，其中描绘的是允许控制或修正由视频会议参与者发送的视频信息的结合带外信令使用基本流分析。如本文使用的，“带外信令”指未体现在被发送到会议参与者的视频比特流中的信号。

如图8所描绘的，视频会议参与者815经由比特流810将视频信息820a发送到MCU805。通过基本分析单元825在比特流810上执行基本分析。比特流分析单元825可确定视频信息820a包含照明不足。除了确定视频会议比特流835包含视频会议视频信息830之外，MCU805还可生成带外信令840。如本文所使用的，带外信令指经由不同于被用于将视频信息从MCU发送到视频会议参与者的信道的信道发生的信令。返回到所分析的具有次优特性的视频的源的信令，对于源端点处的人类参与者可将次优性表现为显示在适当接口上的文本或图形指示，指导他们来修正次优性。或信令可直接与可在没有人类参与者的情况下修改次优性的机制交互。

例如，可通过从参与者815所使用的应用分离的应用来控制在参与者815的位置处负责照明的环境控制系统，以加入视频会议。因此，MCU 805可经由环境控制系统所采用的系统而不是视频会议比特流835来发送带外信令840。

根据其他示例，信令信息840可包括直接控制参与者815的摄像机或环境的控制信号。例如，如果可电子地控制参与者815的摄像机的聚焦，则信令信息840可包括在没有任何来自参与者815的干涉的情况下来调整摄像机的聚焦的信号。类似地，如果MCU 805确定正在以比视频会议中的其他参与者更高或更低的质量来发送视频信息820a，则信令信息840可控制参与者815的摄像机和视频会议软件使得当修正视频信息820b被发送到MCU 805时，修正视频信息820b的质量可与其他视频会议参与者的修正视频信息的质量相匹配，或将通过之前提供的视频信息来改善。

带外信令的其他示例可包括作为短消息服务(“SMS”)消息、作为电子邮件、作为即时消息协议消息、或未包括在视频比特流835中的其他通信形式来发送信令消息840。

现在转向图9，其中描绘的是被配置为执行结合图1-8在本文所描述技术的网络设备105(例如，图1的MCU 105)的示例框图。MCU 105包括使能经由网络的通信的一个或多个端口910、(一个或多个)处理器920、总线930、以及存储器940。存储器940包含操作系统945和基本分析单元125的软件指令。

存储器940可包括只读存储器(ROM)、随机存取存储器(RAM)、磁盘存储介质设备、光存储介质设备、闪速存储器设备、电、光、或其他物理/有形(例如，非暂态)存储器存储设备。例如，处理器920是执行用于MCU 105的指令的微处理器或微控制器。因此，通常，存储器940可包括用包括计算机可执行指令的软件编码的一个或多个有形(非暂态)计算机可读存储介质(例如，存储器设备)，且当软件(通过处理器920)被执行时，特别是基本分析单元125的指令，可操作来执行结合图1-8在本文所描述的操作。特别地，基本分析单元125包括允许处理器920提供如本文描述的基本比特流分析的指令。

通过实现本文描述的技术，诸如图9的MCU 105之类的设备可被配置为提供下列项：i)比特流解码(或部分解码)期间流度量的轻量形成、ii)用于基本场景内容分析的这类度量的空间分割映射、为了以下目的：iii)多点会议中最优地使用贡献视频、以及iv)生成反馈来改善这类流中的贡献内容，以便最大化查看哪些流的其他人的体验。通过基本比特流分析可提取的贡献压缩视频的度量和属性包括：(指示占用、构造以及摄像机稳定性的)运动及其分布；(指示人类存在的)色度等级；(指示照明质量和快门使用的)亮度等级；(指示质量的)量化；存在指示锐度(聚焦)的高频；以及空间信息密度，如与前景活动有关的辅助特性。

此外，诸如图9的MCU 105之类的MCU可向视频会议系统提供下列优势。特别地，提供给用户的视频会议视频可通过下列项来优化：a)选择每个流与其他流组合(或不组合)的方式，或选择或排除向接收端点转发的每个流，b)向视频源处的参与者信令其视图是次优的并应被调整，以及在存在适当的控制方式的情况下，c)试图远程调整该视图。

此外，通过基于由基本比特流分析提取的值来形成图像统计，可用很少的额外计算成本来获取统计，本质上节省了分离图像分析处理将要求的计算和存储器带宽。此外，当用在粗粒度阵列中的子图像等级时，相比于特定特征提取，可也用非常低的计算成本以非常简单的方式来形成场景内容的解释(例如，指示参与者布局)。此外，当作为所接收的流的解码处理的修改来应用时，场景内容的分析可用于向源端点处的用户提供反馈，以便以特定方式，通过改善摄像机对准或聚焦、或减缓参与者定位、运动或照明来优化内容。同一技术可用在所贡献流的编码处理中，用于以同样方式立即反馈本地参与者。

在多个流被贡献于会议并从中向其他参与者组合、编码并传输会议的视图的情况下，流的分割属性可用于基于编码流中感兴趣区域的分布、或基于贡献视频质量来确定贡献流的适当组合，以提供改善的会议视图。在选择流用于(独立地或作为多流组合的一部分)显示的情况下，使用视频度量可避免使用否则将基于所贡献音频被显示的非视觉合适的(较差质量或照明、关闭的快门、错误摄像机分割等)流。流选择和组合选择中的改善将改善多方会议的所有观察者的会议体验。

最后，为了诸如运动矢量被重构、以及亮度和色度值被确定之类的语法(syntactic)值的扩展，分析技术、会议视图的反馈和修改还可以以贡献流的部分解码的代价被应用在切换视频会议中。这提升了切换MCU来与其接收并转发的视频流的内容交互，以便实现改善贡献流的质量以及选择用于分布的最适当的流的目标。这样的示例将是与贡献流使用运动和存在指示，以补充和验证否则可能单独地基于相关联音频选择的流，以便从使得空房间的视图相比(over)实际上确实显示参与者为存在的流被优先显示防止声掩蔽效应。可从至少部分解码的所分析的流来类似地确定其他上述照明、构造、聚焦、摄像机快门状态、或摄像机运动，即使流本身也将被转发，而不是用在待再编码的本地组合中。分布决策可基于贡献视频流的特性，且响应于返回到视频源端点的带外信令，贡献特性可被修改。

总之，所提供的方法包括：在第一网络使能的设备从第二网络使能的设备接收用视频信息编码的比特流；在生成与比特流值相对应的图像帧之前分析比特流，并从比特流中的比特流值确定视频信息的视觉特性；以及响应于视觉特性，确定用于在一个或多个网络使能的设备处显示的修改的视频显示。

类似地，所提供的装置包括：被配置为使能网络通信的至少一个网络接口；以及耦合于网络接口单元的处理器，其中，处理器被配置为：从网络使能的设备接收用视频信息编码的比特流；在生成与比特流值相对应的图像帧之前分析比特流，并从比特流中的比特流值确定视频信息的视觉特性；以及响应于视觉特性，确定用于在一个或多个网络使能的设备处显示的修改的视频显示。

此外，所提供的有形、非暂态计算机可读介质包括指令，当由处理器执行时，使得处理器：从网络使能的设备获得接收到的用视频信息编码的比特流；在生成与比特流值相对应的图像帧之前分析比特流，并从比特流中的比特流值确定视频信息的视觉特性；以及响应于视觉特性，确定用于在一个或多个网络使能的设备处显示的修改的视频显示。

尽管本文示出和描述的技术被体现在一个或多个具体示例中，然而其不旨在被限制于所示出的细节，因为在不脱离权利要求的范围及其等同的范围的情况下，可在其中做出各种修改和结构改变。

Claims

1.一种方法，包括：

在第一网络使能的设备从第二网络使能的设备接收用视频信息编码的比特流；

在生成与比特流值相对应的图像帧之前分析所述比特流，并从所述比特流中的比特流值确定所述视频信息的视觉特性；以及

响应于所述视觉特性，确定用于在一个或多个网络使能的设备处显示的修改的视频显示。

2.如权利要求1所述的方法，其中，确定所述修改的视频显示包括：

根据确定的视觉特性生成修改的视频显示流；以及

传输所述修改的视频显示流。

3.如权利要求1所述的方法，其中，确定所述修改的视频显示包括：

确定对从所述第二网络使能的设备接收的所述视频信息进行优化的方法；

向所述第二网络使能的设备提供信令，所述信令被配置为响应于所述确定的视觉特性，优化从所述第二网络使能的设备发送的视频信息。

4.如权利要求1所述的方法，其中，确定所述修改的视频显示包括选择将被切换至视频会议参与者的显示视频流。

5.如权利要求1所述的方法，其中，分析所述比特流包括从至少一个编码单元分析从所述比特流导出的视觉特性。

6.如权利要求5所述的方法，其种，从至少一个编码单元分析视觉特性包括：

组合所述至少一个编码单元与至少一个其他编码单元以形成组合单元；

在所述组合单元上执行边缘分析；以及

响应于所述边缘分析，确定视频流应被重构造。

7.如权利要求1所述的方法，其中，确定所述视觉特性包括在视频流内定位运动的区域；

8.如权利要求1所述的方法，其中，确定所述视觉特性包括分析来自所述比特流的色度值，并基于所述色度值来确定用户的存在。

9.如权利要求1所述的方法，其中，确定所述视觉特性包括分析来自所述比特流的亮度值，并基于所述亮度值确定所述第一网络使能的设备的位置的照明等级。

10.如权利要求1所述的方法，其中，确定所述视觉特性包括分析来自所述比特流的系数分布，并基于所述系数分布确定与所述比特流值相对应的视频数据的聚焦等级。

11.如权利要求1所述的方法，其中，确定所述视觉特性包括分析所述比特流中的信息的空间密度，并确定所述比特流的显示相对较高等级的细节的部分。

12.一种装置，包括：

至少一个网络接口单元，其被配置为使能网络通信；以及

处理器，所述处理器耦合于网络接口单元，其中，所述处理器被配置为：

从网络使能的设备接收用视频信息编码的比特流；

13.如权利要求12所述的装置，其中，所述处理器还被配置为：

根据分析的视觉特性生成修改的视频显示流；以及

使得所述修改的视频显示流被传输。

14.如权利要求12所述的装置，其中，所述处理器还被配置为：

确定对从所述网络使能的设备接收的所述视频信息进行优化的方法；

向所述网络使能的设备提供信令，所述信令被配置为响应于所述分析的视觉特性，优化从所述网络使能的设备发送的视频信息。

15.如权利要求12所述的装置，其中，所述处理器还被配置为选择将被切换至视频会议参与者的显示视频流。

16.如权利要求12所述的装置，其中，所述处理器还被配置为分析所述比特流中的色度值、亮度值、或信息的空间密度中的至少一者。

17.一种包含指令的有形、非暂态计算机可读介质，当所述指令被处理器执行时使得所述处理器：

从网络使能的设备获得接收到的用视频信息编码的比特流；

响应于所述视觉特性，确定一个或多个网络使能的设备处的修改的视频显示。

18.如权利要求17所述的计算机可读介质，其中，所述指令还使得所述处理器：

根据确定的视觉特性生成修改的视频显示流；以及

使得所述修改的视频显示流被传输。

19.如权利要求17所述的计算机可读介质，其中，所述指令还使得所述处理器：

向所述网络使能的设备提供信令，所述信令被配置为响应于所述确定的视觉特性，优化从所述网络使能的设备发送的视频信息。

20.如权利要求17所述的计算机可读介质，其中，所述指令还使得所述处理器选择将被切换至视频会议参与者的显示视频流。