CN107980221A

CN107980221A - 合成并缩放角度分离的子场景

Info

Publication number: CN107980221A
Application number: CN201680031904.8A
Authority: CN
Inventors: M·S·施尼特曼; M·马基夫
Original assignee: Owl Laboratory Ltd By Share Ltd
Current assignee: Owl Laboratory Ltd By Share Ltd
Priority date: 2015-04-01
Filing date: 2016-04-01
Publication date: 2018-05-01
Anticipated expiration: 2036-04-01
Also published as: IL254812B; JP6966421B2; AU2016242980A1; SG11201708060YA; US20210082131A1; IL282492B2; JP2018521593A; ES2906619T3; EP3278180A1; JP2022017369A; IL282492B1; EP3278180A4; CN114422738A; AU2016242980B2; AU2019261804A1; US10991108B2; EP3995892A1; CA2981522A1; WO2016161288A1; US10636154B2

Abstract

可以从具有基本上为2.4:1或更大的纵横比的从宽摄像机捕获的全景视频信号形成密集合成的单个摄像机信号。两个或更多个子场景视频信号可以在相应的感兴趣的方位处被子采样，并可以被并排地合成以形成具有基本上为2:1或更小的纵横比的舞台场景视频信号。从全景视频信号对舞台场景视频信号的80％以上的区域进行子采样。

Description

合成并缩放角度分离的子场景

相关申请的交叉引用

本申请根据35U.S.C.§119(e)要求享有于2015年4月1日提交的美国临时专利申请序列号No.62/141,822的权益，该美国临时专利申请的公开内容以全文引用的方式并入本文中。

技术领域

各个方面涉及用于图像捕获和加重突出的装置以及方法。

背景技术

多方远程会议、视频聊天和电话会议常常在被连接到至少一个远程方的会议室中与多个参与者一起进行。

在视频会议软件的人对人模式的情况下，常常具有有限的水平视场(例如，70度)的仅仅一个本地摄像机可用。无论该单个摄像机是位于一个参与者的前面还是位于面向所有参与者的桌子的首位，远程方都难以领会会议室中远离该单个摄像机或者与该摄像机成锐角(例如，看到人的侧面而不是脸部)的那些参与者所给出的音频、肢体语言和非语言线索。

在视频会议软件的多人模式的情况下，位于同一会议室中的两个或更多个移动设备(笔记本电脑、平板电脑或移动电话)的摄像机的可用性增加了一些不同的问题。登录该会议的会议室参与者越多，音频反馈和串扰就变得越大。摄像机视角可能与单个摄像机的情况一样地远离参与者或者有所偏斜。本地参与者可能倾向于通过他们的移动设备与其他参与者接触，尽管处于同一个房间中(从而在身体语言和非语言线索方面存在与远程方相同的弱点)。

不存在已知的商业或实验技术用于以使得设置对于同一房间的参与者是非常容易的或者使得从远程参与者的视角来看体验是自动和无缝的方式来合成、跟踪和/或显示宽场景(例如，两个或更多个会议参与者的宽场景)内的角度分离的子场景和/或感兴趣的子场景。

发明内容

在本实施例的一个方面，输出密集合成的单个摄像机信号的过程可以记录具有基本上为2.4:1或更大的纵横比的全景视频信号，该全景视频信号从具有基本上为90度或更大的水平视场角度的宽摄像机捕获。至少两个子场景视频信号可以从宽摄像机在相应的感兴趣的方位(bearing)处被子采样。两个或更多个子场景视频信号可以被并排地合成以形成具有基本上为2:1或更小的纵横比的舞台场景视频信号。可任选地，从全景视频信号子采样舞台场景视频信号的80％以上的区域。舞台场景视频信号可以被格式化为单个摄像机视频信号。可任选地，全景视频信号具有基本上为8:1或更大的纵横比，其从具有基本上为360度的水平视场角度的宽摄像机捕获。

在本实施例的相关方面，会议摄像机被配置为输出密集合成的单个摄像机信号。会议摄像机的成像元件或宽摄像机可以被配置为捕获和/或记录具有基本上为2.4:1或更大的纵横比的全景视频信号，该宽摄像机具有基本上为90度或更大的水平视场角度。可操作地连接到成像元件或宽摄像机的处理器可以被配置为从宽摄像机在相应的感兴趣的方位处子采样两个或更多个子场景视频信号。处理器可以被配置为将两个或更多个子场景视频信号作为并排视频信号合成到存储器(例如，缓冲器和/或视频存储器)，以形成具有基本上为2:1或更小的纵横比的舞台场景视频信号。处理器可以被配置为将子场景视频信号合成到存储器(例如，缓冲器和/或视频存储器)，使得从全景视频信号中子采样舞台场景视频信号80％以上的区域。处理器还可以被配置为将舞台场景视频信号格式化为单个摄像机视频信号，例如通过USB传输。

在上述任一方面中，处理器可以被配置为执行从全景视频信号在相应的感兴趣的方位处对附加子场景视频信号的子采样，以及将两个或更多个子场景视频信号与一个或多个附加子场景视频信号合成，以形成包括多个并排的子场景视频信号并具有基本上为2:1或更小的纵横比的舞台场景视频信号。可任选地，将两个或更多个子场景视频信号与一个或多个附加子场景视频信号合成以形成舞台场景视频信号，包括通过替换两个或更多个子场景视频信号中的至少一个而将一个或多个附加子场景视频信号转移(transition)到舞台场景视频信号中，以形成具有基本上为2:1或更小的纵横比的舞台场景视频信号。

进一步可任选地，每个子场景视频信号可以被分配最小宽度，并且在完成到舞台场景视频信号的每个相应转移后，每个子场景视频信号可以以基本上不小于其最小宽度被并排地合成，以形成舞台场景视频信号。可替换地或另外，被转移的每个相应子场景视频信号的合成宽度可以贯穿整个转移过程而增大，直到合成宽度基本上等于或大于对应的相应最小宽度为止。进一步可替换地或另外，子场景视频信号可以以基本上不小于其最小宽度被并排地合成，并且每个子场景视频信号可以以相应宽度被合成，在所述宽度下所有合成的子场景视频信号的总和基本上等于舞台场景视频信号的宽度。

在一些情况下，舞台场景视频信号内的子场景视频信号的宽度可以被合成为根据在与子场景视频信号对应的一个或多个感兴趣的方位处检测到的活动标准而改变，而舞台场景视频信号的宽度保持恒定。在其它情况下，将两个或更多个子场景视频信号与一个或多个附加子场景视频信号合成以形成舞台场景视频信号，包括通过将两个或更多个子场景视频信号中的至少一个的宽度缩减与一个或多个附加子场景视频信号的宽度对应的量来将一个或多个附加子场景视频信号转移到舞台场景视频信号中。

进一步可任选地，可以为每个子场景视频信号分配相应的最小宽度，并且每个子场景视频信号可以以基本上不小于对应的相应最小宽度被并排地合成，以形成舞台场景视频信号。当两个或更多个子场景视频信号与一个或多个附加子场景视频信号的相应最小宽度的总和超过舞台场景视频信号的宽度时，可以转移两个或更多个子场景视频信号中的至少一个以从舞台场景视频信号中被移除。可任选地，被转移以从舞台场景视频信号中被移除的子场景视频信号对应于最近最不满足活动标准的相应的感兴趣的方位。

在上述任一方面中，在两个或更多个子场景视频信号与一个或多个附加子场景视频信号被合成以形成舞台场景视频信号时，两个或更多个子场景视频信号和一个或多个附加子场景视频信号的相应的感兴趣的方位中相对于宽摄像机左到右的顺序可以被保持。

此外，在上述任一方面中，从全景视频信号的每个相应的感兴趣的方位可以根据相对于宽摄像机在相应的感兴趣的方位处检测到的选择标准来选择。在选择标准不再为真之后，可以转移对应的子场景视频信号以从舞台场景视频信号中被移除。可替换地或另外，选择标准可以包括在相应的感兴趣的方位处满足的活动标准的存在。在这种情况下，处理器可以计算从在相应的感兴趣的方位处满足活动标准开始的时间。在相应的感兴趣的方位处满足活动标准之后的预定时间段，可以转移相应的子场景信号以从舞台场景视频信号中被移除。

在上述方面的进一步变型中，处理器可以从全景视频信号对具有基本上为8:1或更大的纵横比的缩减的全景视频信号执行子采样，以及将两个或更多个子场景视频信号与缩减的全景视频信号合成，以形成包括多个并排的子场景视频信号和全景视频信号且具有基本上为2:1或更小的纵横比的舞台场景视频信号。可任选地，可以将两个或更多个子场景视频信号与缩减的全景视频信号合成，以形成包括多个并排的子场景视频信号以及在所述多个并排的子场景视频信号上方的全景视频信号并且具有基本上为2:1或更小的纵横比的舞台场景视频信号，该全景视频信号不超过舞台场景视频信号的区域的1/5，并且基本上跨舞台场景视频信号的宽度而延伸。

在上述方面的进一步变型中，处理器或相关处理器可以对来自文本文档的文本视频信号进行子采样，并且通过用文本视频信号替换两个或更多个子场景视频信号中的至少一个来将文本视频信号转移到舞台场景视频信号中。

可任选地，处理器可以基于保留标准将两个或更多个子场景视频信号中的至少一个设置为被保护以免于转移的受保护的子场景视频信号。在这种情况下，处理器可以通过替换两个或更多个子场景视频信号中的至少一个和/或通过转移除了受保护的子场景之外的子场景视频信号来将一个或多个附加子场景视频信号转移到舞台场景视频信号中。

在一些情况下，处理器可以替代地或另外基于加重突出标准来设置子场景加重突出操作，其中，基于对应的加重突出标准根据子场景加重突出操作来加重突出两个或更多个子场景视频信号中的至少一个。可任选地，处理器可以基于来自传感器的感测标准来设置子场景参与者通知操作，其中，基于对应的感测标准根据通知操作来激活本地提醒标记(indicium)(例如，光、闪光或声音)。

在本实施例的一个方面中，用于跟踪宽视频信号内的感兴趣方位处的子场景的过程可以包括用声学传感器阵列和观察基本上为90度或更大的视场的宽摄像机来监测角度范围。可以沿着角度范围内检测到的声学识别和视觉识别中的至少一个的定位来识别第一感兴趣的方位。可以沿着第一感兴趣的方位从宽摄像机子采样第一子场景视频信号。可以根据声学识别和视觉识别中的至少一个的信号特性来设置第一子场景视频信号的宽度。

在本实施例的相关方面，会议摄像机可以被配置为输出包括从广角场景子采样和缩放的子场景的视频信号，并且跟踪宽视频信号内的子场景和/或感兴趣的方位。会议摄像机和/或其处理器可以被配置为用声学传感器阵列和观察基本上90度或更大的视场的宽摄像机来监测角度范围。处理器可以被配置为沿着在角度范围内检测到的声学识别和视觉识别中的至少一个的定位来识别第一感兴趣的方位。处理器可以被进一步配置为沿着第一感兴趣的方位从宽摄像机将第一子场景视频信号子采样至存储器(缓冲器或视频)。处理器还可以被配置为根据声学识别和视觉识别中的至少一个的信号特性来设置第一子场景视频信号的宽度。

在任何上述方面中，信号特性可以代表声学识别或视觉识别中的任一个或两者的置信水平。可任选地，信号特性可以代表在声学识别或视觉识别中的任一个或两者内识别的特征的宽度。进一步可任选地，信号特性可以对应于沿着第一感兴趣的方位识别的人脸的近似宽度。

可替换地或另外，当未根据视觉识别的信号特性设置宽度时，可以沿着在角度范围内检测到的声学识别的定位来设置预定宽度。进一步可任选地，第一感兴趣的方位可以通过视觉识别来确定，然后根据视觉识别的信号特性来设置第一子场景视频信号的宽度。还可任选地，第一感兴趣的方位可以被识别为指向在角度范围内检测到的声学识别。在这种情况下，处理器可以识别接近声学识别的视觉识别，然后可以根据接近声学识别的视觉识别的信号特性来设置第一子场景视频信号的宽度。

在本实施例的另一方面，处理器可以被配置为执行跟踪宽视频信号内的感兴趣的方位处的子场景的过程，包括遍及与基本上为90度或更大的宽摄像机视场对应的运动视频信号来扫描子采样窗口。处理器可以被配置为识别子采样窗口内的候选方位，每个感兴趣的方位对应于在子采样窗口内检测到的视觉识别的定位。处理器然后可以将候选方位记录在空间图中，并且可以使用用于声学识别的声学传感器阵列来监测与宽摄像机视场对应的角度范围。

可任选地，当检测到接近被记录在空间图中的一个候选方位的声学识别时，处理器可以进一步捕捉(snap)第一感兴趣的方位以基本上对应于一个候选方位，并且可以沿着第一感兴趣的方位从宽摄像机子采样第一子场景视频信号。可任选地，处理器还可以被配置为根据声学识别的信号特性来设置第一子场景视频信号的宽度。进一步可任选地，信号特性可以代表声学识别的置信水平；或者可以代表声学识别或视觉识别任一个或两者内识别的特征的宽度。信号特性可以可替换地或另外对应于沿着第一感兴趣的方位识别的人脸的近似宽度。可任选地，当未根据视觉识别的信号特性设置宽度时，可以沿着在角度范围内检测到的声学识别的定位来设置预定宽度。

在本实施例的另一方面，处理器可以被配置为跟踪感兴趣的方位处的子场景，包括通过记录与基本上为90度或更大的宽摄像机视场对应的运动视频信号。处理器可以被配置为利用用于声学识别的声学传感器阵列来监测与宽摄像机视场对应的角度范围，并且识别指向在角度范围内检测到的声学识别的第一感兴趣的方位。可以根据第一感兴趣的方位在运动视频信号中定位子采样窗口，并且可以在子采样窗口内检测视觉识别。可任选地，处理器可以被配置为对基本上以视觉识别为中心的从宽摄像机捕获的第一子场景视频信号进行子采样，并且根据视觉识别的信号特性来设置第一子场景视频信号的宽度。

在本实施例的另一方面，处理器可以被配置为跟踪宽视频信号内在感兴趣的方位处的子场景，包括使用声学传感器阵列和观察基本上为90度或更大的视场的宽摄像机来监测角度范围。可以识别多个感兴趣的方位，每个方位指向在角度范围内的定位。处理器可以被配置为维持具有与感兴趣的方位对应的记录特性的空间图，并且基本上沿着一个或多个感兴趣的方位从宽摄像机子采样子场景视频信号。子场景视频信号的宽度可以根据与至少一个感兴趣的方位对应的记录特性来设置。

在本实施例的另一方面，处理器可以被配置为执行跟踪宽视频信号内在感兴趣的方位处的子场景的过程，包括使用声学传感器阵列和观察基本上为90度或更大的视场的宽摄像机来监测角度范围，以及识别均指向角度范围内的定位的多个感兴趣的方位。可以基本上沿着至少一个感兴趣的方位从宽摄像机对子场景视频信号进行采样，并且可以通过扩展子场景视频信号直到满足基于至少一个识别标准的阈值为止来设置子场景视频信号的宽度。可任选地，可以基于与定位对应的记录特性的速度和方向中的一个的改变来预测每个感兴趣的方位的变化矢量，并且可以基于该预测来更新感兴趣的方位的位置。可任选地，可以基于与定位对应的记录特性的最近位置来预测用于定位的搜索区域，并且可以基于所述预测来更新定位的位置。

附图说明

图1A和1B是适用于合成、跟踪和/或显示由设备100采集的宽场景内的角度分离的子场景和/或感兴趣的子场景的设备的实施例的示意性框图。

图2A至2L是用于图1A和1B的设备100并且适用于采集宽场景和/或全景场景的会议摄像机14或摄像机塔14布置的实施例的示意图。

图3A和3B分别示出了显示三个参与者的会议摄像机用例的俯视图和会议摄像机全景图像信号。

图4A和4B分别示出了显示会议桌的会议摄像机用例的俯视图和会议摄像机全景图像信号，示出了三个参与者，并且包括对脸部宽度设置或子场景的识别的描绘。

图5A和5B分别示出了显示会议桌的会议摄像机用例的俯视图和会议摄像机全景图像信号，示出了三个参与者，并且包括对肩部宽度设置或子场景的识别的描绘。

图6A和6B分别示出了显示会议桌的会议摄像机用例的俯视图和会议摄像机全景图像信号，示出了三个参与者和白板，并且包括对较宽子场景的识别的描绘。

图7A和7B分别示出了显示十个座位的会议桌的会议摄像机用例的俯视图和会议摄像机全景图像信号，示出了五个参与者，并且包括对视觉最小宽度和方位及听觉最小宽度和方位的识别的描绘。

图8A示出了待被合成为舞台场景视频信号的全景视频信号和子场景视频信号的提取、最小宽度以及会议摄像机视频信号的示意图。

图8B示出了待被合成为舞台场景视频信号的全景视频信号和子场景视频信号的示意图，并且图8C至8E示出了三种可能的合成输出或舞台场景视频信号。

图9A示出了待被合成为舞台场景视频信号的替代全景视频信号、替代子场景视频信号的提取、最小宽度以及会议摄像机视频信号的示意图。

图9B示出了待被合成为舞台场景视频信号的替代全景视频信号和替代子场景视频信号的示意图，并且9C至9E示出了三种可能的替代合成输出或舞台场景视频信号。

图9F示出了被调整以使得会议桌图像以更自然、较少不协调的视图被布置的全景视频信号的示意图。

图10A和10B示出了可能的合成输出或舞台场景视频信号的示意图。

图11A和11B示出了视频会议软件可以显示合成输出或舞台场景视频信号的两种替代方式的示意图。

图12示出了包括用于合成一个或多个舞台场景视频信号的步骤的流程图。

图13示出了包括用于基于感兴趣的方位合成创建子场景(子场景视频信号)的步骤的详细流程图。

图14示出了包括用于将子场景合成到舞台场景视频信号中的步骤的详细流程图。

图15示出了包括用于将合成的舞台场景视频信号作为单个摄像机信号输出的步骤的详细流程图。

图16示出了包括进行用于定位和/或感兴趣的方位和/或设置子场景的宽度的步骤的第一模式的详细流程图。

图17示出了包括进行用于定位和/或感兴趣的方位和/或设置子场景的宽度的步骤的第二模式的详细流程图。

图18示出了包括进行用于定位和/或感兴趣的方位和/或设置子场景的宽度的步骤的第三模式的详细流程图。

图19-21示出了基本上对应于图3A-5B的实施例的操作，包括附接到具有接收单个摄像机信号的视频会议客户端的本地PC的会议摄像机，PC又连接到互联网，并且两个远程PC等也接收视频会议显示器内的单个摄像机信号。

图22示出了图19-21的系统的变型，其中，视频会议客户端使用重叠的视频视图而不是分立的相邻视图。

图23示出了基本上对应于图6A-6B的图19-21的系统的变型，包括用于白板的高分辨率摄像机视图。

图24示出了图19-21的系统的变型，包括高分辨率文本文档视图(例如，文本编辑器、文字处理、演示或电子表格)。

图25是使用与图1B相似的配置其中针对每个子场景实例化视频会议客户端的布置的示意图。

图26是贯穿图1-26所使用的一些示例性图示和符号的示意图。

具体实施方式

会议摄像机

图1A和1B是适用于合成、跟踪和/或显示由设备、会议摄像机100采集的宽场景内的角度分离的子场景和/或感兴趣的子场景的设备的实施例的示意性框图。

图1A示出了设备，其被构造以作为会议摄像机100或会议“网络摄像机”进行通信，例如作为连接到连接的笔记本电脑、平板电脑或移动设备40的USB主机或集线器的USB外设；并提供现有视频聊天或视频会议软件(例如，“Google Hangouts”、“Skype”或“Facetime”)常用的纵横比、像素数和比例的单个视频图像。设备100包括“宽摄像机”2、3或5，例如，能够捕获多于一个与会者，并指向以观测与会者或参与者M1、M2...Mn的会议的摄像机。摄像机2、3或5可以包括一个数字成像器或镜头，或者2个或更多个数字成像器或镜头(例如，以软件或其它方式拼接)。应当注意，根据设备100在会议内的位置，宽摄像机2、3或5的视场可以不超过70度。然而，在一个或多个实施例中，宽摄像机2、3、5可用于会议的中心，并且在这种情况下，宽摄像机可以具有大致90度或大于140度(不必是连续的)、或高达360度的水平视场。

在大型会议室(例如，被设计为适合8人以上的会议室)中，可能有用的是具有多个广角摄像机设备记录宽视场(例如，大致90度或更大)并且协同地一起拼接非常宽广的场景以捕获最合意的角度；例如，在长(10英尺-20英尺)桌的远端处的广角摄像机可能导致发言者SPKR的令人不满意的远距离视图，但是使多个摄像机分布在桌子上(例如，每5个座位1个摄像机)可以产生至少一个令人满意或合意的视图。摄像机2、3、5可以对全景场景进行成像或记录全景场景(例如，具有2.4:1至10:1的纵横比，例如H:V水平与垂直的比例)和/或使该信号通过USB连接可用。

如关于图2A-2L所讨论的，宽摄像机2、3、5从会议摄像机100的底部起的高度优选地大于8英寸，使得摄像机2、3、5可以比会议上的典型的笔记本电脑屏幕更高，从而对于与会者M1、M2...Mn具有无阻碍的和/或近似视线高度的视图。麦克风阵列4包括至少两个麦克风，并且可以通过本领域已知的射束形成、相对渡越时间(time of flight)、定位或接收的信号强度差异来获得对附近的声音或发言的感兴趣的方位。麦克风阵列4可以包括多个麦克风对，其指向以覆盖与宽摄像机2视场至少基本上相同的角度范围。

麦克风阵列4可任选地与宽摄像机2、3、5一起布置在大于8英寸的高度，同样使得在与会者M1、M2...Mn说话时在阵列4和与会者M1、M2...Mn之间存在直接的“视线”，而不被典型的笔记本电脑屏幕阻挡。用于处理计算和图形事件的CPU和/或GPU(和相关联的电路，例如摄像机电路)6连接到宽摄像机2、3、5和麦克风阵列4中的每一个。ROM和RAM8连接到CPU和GPU 6，用于留存和接收可执行代码。网络接口和堆栈10被提供用于连接到CPU 6的USB、以太网和/或WiFi。一个或多个串行总线将这些电子部件互连，并且它们由DC、AC或电池电源供电。

摄像机2、3、5的摄像机电路可以将处理或渲染的图像或视频流输出为在横向上从1.25:1到2.4:1或2.5:1的“H:V”水平与垂直比例或纵横比(例如，包括4:3、16:10、16:9比例)的单个摄像机图像信号、视频信号或流，和/或如所指出的，利用合适的镜头和/或拼接电路，将全景图像或视频流输出为基本上为2.4:1或更大的单个摄像机图像信号。图1A的会议摄像机100可以通常作为USB外围设备连接到笔记本电脑、平板电脑或移动设备40(具有显示器、网络接口、计算处理器、存储器、摄像机和麦克风部分，由至少一个总线互连)，其上驻留多方电话会议、视频会议或视频聊天软件，并且可经由互联网60连接到远程客户端50用于电话会议。

图1B是图1A的变型，其中集成了图1A的设备100和电话会议设备40两者。作为单个摄像机图像信号、视频信号或视频流的摄像机电路输出直接可用于CPU、GPU、相关联的电路和存储器5、6，并且电话会议软件代由CPU、GPU及相关联的电路和存储器5、6驻留。设备100可直接连接(例如，经由WiFi或以太网)，用于通过互联网60或INET与远程客户端50进行电话会议。显示器12提供用户界面，用于操作电话会议软并且向与会者M1、M2...M3显示本文讨论的电话会议视图和图形。图1A的设备或会议摄像机100可以可替代地直接连接到互联网60，从而允许远程客户端50将视频直接记录到远程服务器或从这个服务器实时访问。

图2A至2L是图1A和图1B以及适用于采集宽和/或全景场景的设备或会议摄像机100的会议摄像机14或摄像机塔14布置的实施例的示意图。尽管会议摄像机不需要是摄像机塔，但是“摄像机塔”14和“会议摄像机”14在本文中基本上可互换地使用。在图2A-2L中宽摄像机2、3、5从设备100的底部起的高度优选大于8英寸且小于15英寸。

在图2A的摄像机塔14布置中，多个摄像机沿周向布置在摄像机塔14摄像机水平(8至15英寸)处，等角度地间隔开。摄像机的数量由摄像机的视场和跨越的角度来确定，并且在形成全景拼接视图的情况下，跨越的累积角度应该在各个摄像机之间具有重叠。在例如图2A的情况下，均具有100-110度视场(虚线示出)的四个摄像机2a、2b、2c、2d(标记为2a-2d)被布置成彼此成90度，以提供在摄像机塔14周围成360度的累积视图或可拼接视图或拼接视图。

在例如图2B的情况下，均具有130度或更高的视场(虚线所示)的三个摄像机2a、2b、2c(标记为2a-2c)被布置成彼此成120度，同样地以提供在塔14周围的360度累积视图或可拼接视图。摄像机2a-2d的垂直视场小于水平视场，例如小于80度。可以处理来自每个摄像机2a-2d的图像、视频或子场景，以在诸如拼接、去扭曲或失真补偿之类的已知光学校正之前或之后识别感兴趣的方位或子场景，但是通常在输出之前如此校正。

在图2C的摄像机塔14布置中，朝向向上的单个鱼眼或近鱼眼摄像机3a布置在摄像机塔14摄像机水平(8至15英寸)的顶部。在这种情况下，鱼眼摄像机镜头被布置有360度连续的水平视图，并且大致为215(例如，190-230度)的垂直视场(虚线所示)。可替换地，如图2D所示，具有圆柱形透明壳体、顶部抛物面镜、黑色中心柱、远心镜头配置的单个反射折射“圆柱形图像”摄像机或镜头3b被布置有360度连续的水平视图，具有约40-80度的垂直视场，大致以水平线为中心。在鱼眼和圆柱形摄像机中的每个的情况下，位于会议桌上方8-15英寸处的垂直视场在水平线下方延伸，允许会议桌周围的与会者M1、M2...Mn被成像到腰部水平或以下。可以处理来自每个摄像机3a或3b的图像、视频或子场景，以在诸如去扭曲或失真补偿之类的用于鱼眼或反射折射镜头的已知光学校正之前或之后识别感兴趣的方位或子场景，但是通常在输出之前如此校正。

在图2L的摄像机塔14布置中，多个摄像机沿周向布置在摄像机塔14摄像机水平(8至15英寸)处，等角度地间隔开。在这种情况下，摄像机的数量并非旨在形成完全连续的全景拼接视图，并且跨越的累积角度在各个摄像机之间没有重叠。在例如图2L的情况下，均具有130度或更高的视场(虚线示出)的两个摄像机2a、2b被布置成彼此成90度，以提供在摄像机塔14的两侧包括大约260或更高的分离视图。这种布置在较长的会议桌CT的情况下将是有用的。在例如图2E的情况下，两个摄像机2a-2b围绕垂直轴摇摄和/或是可旋转的，以覆盖本文所讨论的感兴趣的方位B1、B2...Bn。可以在光学校正之前或之后如本文所讨论的扫描或分析来自每个摄像机2a-2b的图像、视频或子场景。

在图2F和图2G中，显示了桌子头部或末端的布置，即图2F和图2G所示的每个摄像机塔14旨在有利地被放置在会议桌CT的头部。如图3A-6A所示，通常将用于演示和视频会议的大型平板显示器FP放置在会议桌CT的头部或末端，并且图2F和图2G的布置可以可替换地直接放置在平板FP的前面和附近。在图2F的摄像机塔14布置中，将大约130度视场的两个摄像机彼此成120度放置，覆盖长会议桌CT的两侧。显示和触摸界面12朝向桌下(在墙上没有平板FP的情况下特别有用)，并显示用于视频会议软件的客户端。该显示器12可以是连接的、可连接的或可移除的平板电脑或移动设备。在图2G的摄像机塔布置中，一个高分辨率、可选地倾斜的摄像机7(可任选地连接到其自身独立的电话会议客户端软件或实例)可以朝向感兴趣的对象(例如，桌子CT表面上的白板WB或页面或纸张)，并且具有例如100-110度视场的两个独立的摇摄/倾斜摄像机5a、5b被指向或可指向以覆盖感兴趣的方位。

可以在光学校正之前或之后如本文所讨论的扫描或分析来自每个摄像机2a、2b、5a、5b、7的图像、视频或子场景。图2H示出了可以将两个相同的单元，均具有以90度分开布置的100-130度的两个摄像机2a-2b或2c-2d，作为>180度视图单元独立地用在桌子CT的头部或末端处，但也可任选地背对背组合，以产生与图2A的基本相同的单元，图2A的单元具有跨越整个房间并且完全位于会议桌CT中间处的四个摄像机2a-2d。图2H的塔单元14、14中的每一个被提供有用于形成组合单元的网络接口和/或物理接口。如下面关于图2K、6A、6B和14所述，这两个单元可以可替换地或另外地被自由地布置或配合地布置。

在图2J中，类似于图2C的摄像机的鱼眼摄像机或镜头3a(物理上和/或概念上可与反射折射镜头3b互换)被布置在摄像机塔14摄像机水平(8至15英寸)顶上。一个可旋转、高分辨率、可选的倾斜摄像机7(可任选地连接到其自身的独立电话会议客户端软件或实例)可以指向感兴趣的对象(例如，桌子CT表面上的白板WB或页面或纸张)。如图6A、图6B和图14所示，当第一电话会议客户端(在图14中在“会议室(本地)显示器”之上或连接到“会议室(本地)显示器”)例如经由第一物理或虚拟网络接口或信道10a从场景SC摄像机3a、3b接收合成的子场景作为单个摄像机图像或合成的输出CO，并且第二电话会议客户端(在图14中，驻留在设备100内并通过第二物理或虚拟网络接口或信道10b连接到互联网)从摄像机7接收独立的高分辨率图像时，该布置有利地工作。

图2K示出了类似的布置，类似地在该布置中，用于来自摄像机3a、3b和7的图像的单独的视频会议信道可能是有利的，但是在图2K的布置中，每个摄像机3a、3b相对于摄像机7具有其自己的塔14，并且可任选地经由接口15(其可以是有线或无线的)连接到剩余的塔14。在图2K的布置中，具有场景SC摄像机3a、3b的全景塔14可以放置在会议桌CT的中心，并且定向的高分辨率塔14可以放置在桌子CT的头部处或被放置在定向的高分辨率的单独的客户端图像或视频流感兴趣的任何地方。可以在光学校正之前或之后如本文所讨论的扫描或分析来自每个摄像机3a、7的图像、视频或子场景。

会议摄像机的使用

参考图3A、图3B和图12，根据合成和输出摄影场景的本方法的实施例，将设备或会议摄像机100(或200)放置在例如圆形或正方形会议桌CT的顶部。设备100可以根据会议参与者M1、M2、M3...Mn的方便或意图来定位。

在任何典型的会议中，参与者M1、M2...Mn将相对于设备100成角度地分布。如果设备100被放置在参与者M1、M2...Mn的中心，则如本文讨论的，可以用全景摄像机捕获参与者。相反，如果设备100被放置在参与者的一侧(例如，在桌子的一端或被安装到平板FP)，则宽摄像机(例如，90度或更大)可能足以跨越参与者M1、M2...Mn。

如图3A所示，参与者M1、M2...Mn均具有从设备100的相应方位B1、B2...Bn，例如为了说明的目的从原点OR测量的。每个方位B1、B2...Bn可以是角度范围或标称角度。如图3B所示，“展开的”、投影的或经去扭曲的鱼眼、全景或宽场景SC包括被布置在预期的相应方位B1、B2...Bn处的每个参与者M1、M2...Mn的图像。特别是在矩形桌子CT和/或设备100被布置在桌子CT的一侧处的情况下，每个参与者M1、M2...Mn的图像可能根据参与者的面对角度在透视上被透视缩短或失真(在图3B中粗略地描绘，并且在整个附图中具有预期的透视缩短方向)。本领域技术人员公知的透视和/或视觉几何校正可以应用于透视缩短或透视失真的图像、子场景或场景SC，但不是必需的。

面部检测和加宽

作为一个示例，使用常用算法的现代面部检测库和API(例如，50多个可用的API和SDK中，Android的FaceDetector.Face类、Objective C的CIDetector类和CIFaceFeature对象、使用Haar级联的OpenCV的CascadeClasifier类)通常返回瞳距，以及面部特征和面部姿势在空间中的位置。用于面部宽度估计的粗略基数可以是瞳距/角度的大约两倍，如果参与者Mn的耳朵被包括在范围内，则具有瞳距/角度的三倍的粗略最高限度。用于肖像宽度估计的粗略基数(即，头部加上某一肩部宽度)可以是面部宽度/角度的两倍，具有面部宽度/角度的四倍的粗略最高限度。在替代方案中，可以使用子场景宽度的固定角度或其它更直接的设置。

图4A-4B和图5A-5B示出了面部宽度和肩部宽度两者的一个示例性两步骤识别和/或单独识别(其中任一个可以是如本文所讨论的用于设置初始子场景宽度的最小宽度)。如图4A和4B所示，从全景场景SC获得根据瞳距或面部特征(特征、类别、颜色、分段、分块、纹理、受训分类器或其它特征)的其它尺寸分析设置的面部宽度FW1、FW2...FWn。相比之下，在图5A、5B、6A和6B中，根据相同的分析，大约按比例缩放3或4倍，或根据默认的声学分辨率或宽度来设置肩部宽度SW1、SW2...SWn。

合成角度分离的子场景

图7A和B分别示出了显示约十个座位的会议桌CT的会议摄像机100用例的俯视图和会议摄像机全景图像信号SC，示出了五个参与者M1、M2、M3、M4和M5，并且包括对视觉最小宽度Min.2和感兴趣的对应角度范围方位B5以及听觉最小宽度Min.5和感兴趣的对应矢量方位B2的识别的描绘。

在图7A中，会议摄像机100位于10人长会议桌CT的中间。因此，朝向桌子CT中间的参与者M1、M2，M3是被透视缩短最少的，并且占据摄像机100的最大图像面积和角度视图，而朝着桌子CT的末端的参与者M5和M4是被最大透视缩短的并占据最少的图像面积。

在图7B中，整个场景视频信号SC例如是包括所有参与者M1…M5的360度视频信号。会议桌CT出现在场景SC中，具有失真的“W”形全景视图特征，而参与者M1...M5以不同的尺寸出现，并具有不同的透视缩短方面(简单地和示意性地用矩形身体和椭圆形头来表示)，这取决于他们的位置和与会议摄像机100的距离。如图7A和7B所示，每个参与者M1...M5可以在存储器8中以声音、运动或特征的听觉或视觉或传感器定位所确定的相应方位B1...B5表示。如图7A和7B所示，参与者M2可以通过检测面部而被定位(并且具有记录在存储器中的对应的类似矢量的方位B2和最小宽度Min.2，与从面部检测探视程序导出的面部宽度成比例地确定)，参与者M5可以通过射束形成、相对信号强度和/或类似语音的音频信号的渡越时间被定位(并且具有记录在存储器中的对应的扇区状方位B5和最小宽度Min.5，与声学阵列4的近似分辨率成比例地确定)。

图8A示出了待被合成为舞台场景视频信号STG、CO的全景视频信号SC.R、子场景视频信号SS2、SS5的提取、最小宽度Min.n、和会议摄像机100视频信号的示意图。图8A的顶部基本上再现了图7B。如图8A所示，可以根据感兴趣的方位(在该示例中限于方位B2和B5)和宽度(在该示例中限于宽度Min.2和Min.5)对来自图7B的整体场景视频信号SC进行子采样。子场景视频信号SS2至少与(视觉确定的)面部宽度限度Min.2一样宽，但可以相对于舞台STG的宽度、高度和/或可用面积或复合输出CO纵横比和可用面积而变宽或被缩放得较宽。子场景视频信号SS5至少与(声学确定的)声学近似Min.5一样宽，但是可以变宽或被缩放得较宽，并且类似地受到限制。在此捕获中缩减的全景场景SC.R是整体场景SC的顶部和底部裁剪版本，在这种情况下被裁剪为10:1的纵横比。可替换地，缩减的全景场景SC.R可以通过成比例或变形缩放(例如，顶部和底部部分保持，但是比中间部分更多地被压缩)从整体全景场景视频信号SC导出。在任何情况下，在图8A和8B的示例中，三个不同的视频信号源SS2、SS5和SC.R可用于合成舞台STG或合成输出CO。

图8B基本上再现图8A的下部，并且示出待被合成为舞台场景视频信号STG或CO的子场景视频信号SS2、SS5和全景视频信号SC.R的示意图。图8C至8E示出了三种可能的合成输出或舞台场景视频信号STG或CO。

在图8C所示的合成输出CO或舞台场景视频信号STG中，缩减的全景视频信号SC.R被合成为完全跨越舞台STG的顶部，在这种情况下占据小于1/5或20％的舞台面积。子场景SS5被合成为至少占据其最小面积，不被整体缩放，而是被加宽以填充大约1/2的舞台宽度。子场景SS2也被合成为占据至少其(相当小的)最小面积，不被整体缩放，并且也被加宽以填充大约1/2的舞台宽度。在该合成输出CO中，两个子场景被给予大致相同的面积，但是参与者具有与他们距摄像机100的距离相对应的不同外观大小。另外，注意，如合成的两个子场景的左右或顺时针顺序与参与者在房间内的顺序或者从摄像机100的感兴趣的方位相同(并且如在缩减的全景视图SC.R中出现的一样)。此外，本文讨论的任何转移可用于将子场景视频信号SS2、SS5合成到舞台视频信号STG中。例如，两个子场景可以简单地即时地填充舞台STG；或者一个子场景可以从其对应的左-右舞台方向滑入以填充整个舞台，然后借助从其对应的左-右舞台方向滑入的另一个子场景而逐渐变窄等，在每种情况下，子场景窗口、帧、轮廓等通过整个转移显示其视频流。

在图8D所示的合成输出CO或舞台场景视频信号STG中，缩减的全景视频信号SC.R类似地合成到场景STG中，但是信号SS5和SS2中的每一个已经按比例缩放或放大使得参与者M5、M2占据更多的舞台STG。每个信号SS5和SS2的最小宽度也被示出为放大，信号SS5和SS2仍然占据不小于它们相应的最小宽度，但是每个信号SS5和SS2都被加宽以填充大约1/2的舞台(在SS5的情况下，最小宽度占据1/2的舞台)。参与者M5、M3在舞台STG上或在合成输出信号CO内具有基本相等的尺寸。

在图8E所示的合成输出CO或舞台场景视频信号STG中，缩减的全景视频信号SC.R类似地被合成到场景STG中，但是信号SS5和SS2中的每一个按照情况被缩放或放大。子场景信号SS5和SS2仍然占据不小于它们相应的最小宽度，但是每个都被加宽以填充不同量的舞台。在这种情况下，子场景信号SS5未被扩大或放大，但是具有较宽的最小宽度并且占据2/3以上的舞台SG。另一方面，信号SS2的最小宽度被描绘为放大，占据其最小宽度的约3倍。出现图8E的相对比例和状态的一种情况可以是以下情况：未对参与者M5进行视觉定位，给出宽且不确定(低置信水平)的感兴趣的方位和宽的最小宽度；此外，如果参与者M5持续长时间发言，则可任选地增加子场景SS5在舞台STG中的份额。同时，参与者M2可以具有高度可靠的面部宽度检测，允许缩放和/或加宽子场景SS2以使用超过其最小宽度。

图9A还示出了待被合成为舞台场景视频信号的替代全景视频信号SC.R、替代子场景视频信号SSn的提取、最小宽度Min.n和会议摄像机100视频信号的示意图。除了参与者M1已经成为最新的发言者之外，图9A的顶部基本上再现了图7B，其中对应的子场景SS1具有对应的最小宽度Min.1。如图9A所示，可以根据感兴趣的方位(现在是方位B1、B2和B5)和宽度(现在是宽度Min.1、Min.2和Min.5)来对来自图7B的整体场景视频信号SC进行子采样。子场景视频信号SS1、SS2和SS5均至少与其相应的最小宽度Min.1、Min.2和Min.5一样宽(视觉地、声学地或传感器确定的)，但是可以相对于舞台STG的宽度、高度和/或可用面积或合成输出CO纵横比和可用面积而变宽或缩放得较宽。在该捕获中缩减的全景场景SC.R是整体场景SC的顶部、底部和侧面裁剪版本，在这种情况下，被裁剪为仅跨越最相关/最近的发言者M1、M2和M5，纵横比约7.5:1。在图9A和9B的示例中，四个不同的视频信号源SS1、SS2、SS5和SC.R可用于合成到舞台STG或合成输出CO。

图9B基本上再现图9A的下部，并且示出了待被合成为舞台场景视频信号的子场景视频信号和全景视频信号的示意图。图9C至9E显示了三种可能的合成输出或舞台场景视频信号。

在图9C所示的合成输出CO或舞台场景视频信号STG中，缩减的全景视频信号SC.R被合成为几乎完全横跨舞台STG的顶部，在这种情况下占据小于1/4的舞台面积。子场景SS5再次被合成为至少占据其最小面积，并不是整体缩放，而是被加宽以填充大约1/3的舞台宽度。子场景SS2和SS1也被合成为占据至少它们较小的最小面积，不整体缩放，并且也均被加宽以填充大约1/3的舞台宽度。在该合成输出CO中，三个子场景被给予大致相同的面积，但是参与者具有与其距摄像机100的距离相对应的不同的外观大小。如合成或转移的两个子场景的左-右顺序或顺时针顺序与参与者在房间内的顺序或者从摄像机100的感兴趣的方位保持相同(并且与在缩减的全景视图SC.R中出现的一样)。此外，本文讨论的任何转移可用于将子场景视频信号SS1、SS2、SS5合成到舞台视频信号STG中。特别地，由于滑动转移以或按照与缩减的全景视图SC.R相同的左-右顺序接近(例如，如果M1和M2已经在舞台上，M5应该从舞台右侧滑入；如果M1和M5已经在舞台上，M2应该从他们之间的顶部或底部滑入；如果M2和M5已经在舞台上，则M1应该从左侧滑入，以保持全景视图SC.R的M1、M2、M5的顺序)，转移较少不协调。

在图9D所示的合成输出CO或舞台场景视频信号STG中，缩减的全景视频信号SC.R类似地被合成到场景STG中，但信号SS1、SS2和SS5中的每一个均按比例地缩放或放大，使得参与者M1、M2、M5占据更多的舞台STG。每个信号SS1、SS2、SS5的最小宽度也被示出为放大，其中信号SS1、SS2、SS5仍然占据不小于其相应的放大的最小宽度，但是子场景SS5被加宽以在舞台上填充稍微超过其的放大的最小宽度，SS5占据了舞台宽度的60％，SS2占据了仅15％，而SS3占据了剩下的25％。参与者M1、M2、M5在舞台STG上或在合成输出信号CO中具有基本上相等的高度或面部大小，尽管参与者M2和子场景SS2可以被大幅度地裁剪以仅示出比头部和/或身体宽度多一点。

在图9E所示的合成输出CO或舞台场景视频信号STG中，缩减的全景视频信号SC.R类似地被合成到场景STG中，但是信号SS1、SS2、SS5中的每一个均按情况被缩放或放大。子场景信号SS1、SS2、SS5仍然占据不小于它们相应的最小宽度，但是每个都被加宽以填充不同量的舞台。在这种情况下，子场景信号SS1、SS2、SS5都没有被扩大或放大，但具有最近或相关的发言者M1的子场景SS1占据了多于1/2的舞台SG。另一方面，子场景SS2和SS5中的每一个占据舞台STG的较小或者缩减的份额，但是子场景SS5的最小宽度导致取自子场景SS2或SS1的舞台STG的份额的任何进一步缩减。出现图9E的相对比例和状态的一种情况可以是以下情况：可以对参与者M1进行视觉定位，但是当参与者M1持续长时间地说话时，可任选地增加子场景SS1相对于其它两个子场景的舞台STG的份额。

在图9F所示的全景场景SC或缩减的全景场景SC.R中，会议摄像机1000没有被放置在桌子CT的中心，而是放置在桌子CT的一端(例如，如由图7A的右侧的虚线位置所示)，其中，平板FP显示远程会议参与者。在这种情况下，会议桌CT再次显示为高度失真的“W”形状。如图9F的顶部所示，如果会议摄像机100或全景场景SC的索引方向或原点OR被定向成使得高纵横比全景场景SC的限制“分割”会议桌CT，则参考桌子CT周围人员的位置是相当困难的。然而，如果会议摄像机100或全景场景的索引方向或原点OR被布置成使得桌子CT是连续的和/或所有人都位于一侧，则场景更自然。根据本实施例，处理器6可以进行图像分析以改变全景图像的索引位置或原点位置。在一个示例中，全景图像的索引位置或原点位置可以被“旋转”，使得对应于桌子区域的图像分块的单个连续分段在面积上被最大化(例如，桌子不被分割)。在另一示例中，全景图像的索引位置或原点位置可以被“旋转”，使得两个最接近或最大的面部识别彼此最远(例如，桌子不被分割)。在第三示例中，在另一示例中，全景图像的索引位置或原点位置可以“旋转”，使得对应于桌子区域的图像分块的最低高度分段位于全景边缘(例如，旋转“W”形以将最接近会议摄像机100的桌子边缘放置在全景边缘处)。

图10A示出可能的合成输出CO或舞台场景视频信号STG的示意图，并且基本上再现图9D的合成输出信号CO或舞台视频信号STG，其中将缩减的全景信号合成为占据小于舞台STG顶部的1/4，将三个不同的子场景视频信号合成为占据舞台STG的剩余部分的不同量。图10B示出了可能的合成输出或舞台场景视频信号的替代示意图，其中彼此相邻的三个不同的子场景视频信号被合成为占据舞台STG或合成输出信号CO的不同量。

图11A和11B示出了视频会议软件可以显示合成输出或舞台场景视频信号的两种替代方式的示意图。在图11A和图11B中，合成输出信号CO作为具有伴随的音频的单个摄像机信号(可任选地混合和/或射束形成以加重突出当前说话者的声音)被接收(例如通过USB端口)，并且作为单个摄像机信号集成到视频会议应用中。如图11A所示，每个单个摄像机信号被给予单独的窗口，并且诸如合成输出信号CO之类的选定或活动或前景信号被再现为缩略图。相比之下，在图11B所示的示例中，选定的单个摄像机信号在显示器上被给予与实际中一样多的面积，并且诸如合成输出信号CO之类的选定或活动或前景信号被呈现为阴影缩略图或失效缩略图。

子场景识别和合成

如图12所示，在步骤S10，可以根据场景(例如，根据全景视频信号SC内的识别)来创建和跟踪新的子场景SS1、SS2...SSn。随后，在步骤S30中，可以根据本文讨论的感兴趣的方位、条件和识别来合成子场景SS1、SS2...SSn。然后可以在步骤S50中输出合成输出或舞台场景STG、CO。

在图13所示的另外细节中，如在图3A至7B(包括图3A和图7B)所示，在步骤S12中，设备100从一个或多个至少部分全景的摄像机2或2a...2n捕获至少90度角的视场广角(例如，90-360度之间的角度)场景SC。

用于跟踪和子场景识别的后续处理可以在本机、失真的或未拼接的场景SC上执行，或者可以在展开的、经失真校正的或拼接的场景SC上执行。

在步骤S14中，使用一个或多个射束形成、识别、辨别(identification)、定向(vectoring)或自导引技术，从广角视图SC获得新的感兴趣方位B1、B2...Bn。

在步骤S16中，一个或多个新的方位从初始角度范围(例如，0-5度)被加宽到足以跨越典型人的头部、和/或典型的人的肩部或其它默认宽度(例如，以像素或角度范围测量)的角度范围。注意，分析顺序可以颠倒，例如，首先可以检测面部，然后可以确定到面部的方位。加宽可以在一个、两个或更多个步骤中进行，以本文提及的两个作为示例；并且“加宽”不需要是逐渐加宽的过程，例如，“加宽”可以意味着基于检测、识别、阈值或值直接设置角度范围。可以使用不同的方法来设置子场景的角度范围。在一些情况下，例如当两个或更多个面部彼此靠近时，可以选择“加宽”，以便包括所有这些面部，即使只有一个处于感兴趣的精确方位B1。

在步骤S16中，(并且如图5A和5B所示)，肩部宽度子场景SS1、SS2...SSn可以如步骤S18中那样被设置或被调整，根据瞳距或从其它面部、头部、躯干或其它可视特征(特征、类、颜色、分段、分块、纹理、受训分类器或其它特征)得到的测量，可以从场景SC获得。子场景SS1、SS2...SSn宽度可以根据肩部宽度(可替换地根据面部宽度FW)来设置，或者可替换地作为与声学麦克风阵列4的角度分辨率相关的预定宽度。

可替换地，在步骤S16中，可以针对每个或所有感兴趣方位设置子场景宽度的上限和/或下限，或者在步骤S18中分别被调整为例如峰值、平均值或代表性肩部宽度SW和面部宽度FW。应当注意，符号FW和SW在本文中可互换地用作“面部宽度”FW或“肩部宽度”SW(即，待成角度地捕获为子场景的面部或肩部的跨度)，以及表示面部宽度FW或肩部宽度SW的所得面部宽度或肩宽子场景SS(即，具有从宽场景SC识别、获得、调整、选择或捕获的对应宽度的像素或子场景的块)。

在步骤S16中，或者可替换地或者另外地在步骤S16-S18中，在第一感兴趣的方位B1、B2...Bn处从广角场景SC获得至少20度角视场的第一分立子场景(例如，FW1和/或SW1)。可替换地或者除了至少20度角视场(例如，FW1和/或SW1)设置之外，可以从广角场景SC获得第一分立子场景FW1和/或SW1作为跨越瞳距(例如，特定于M1或代表M1、M2...Mn)的至少2至12倍的视场角度，或者可替换地或另外地被缩放以捕获瞳距(例如，特定于M1或代表M1、M2...Mn)和肩部宽度(例如，特定于M1或代表M1、M2...Mn)之间的宽度的视场角度。较宽或肩部宽度SWn的子场景捕获可以记录较窄的面部宽度FWn以备以后参考。

如果第二感兴趣的方位B1、B2...Bn可用，则在步骤S16中，或者可替换地或者另外地在步骤S16-S18中，在第二感兴趣的方位(例如，B2)处从广角视图SC以类似的方式获得第二分立子场景(例如，FW2和/或SS2)。如果相继的感兴趣方位B3...Bn可用，则在相继的感兴趣方位B3...Bn处从广角视图SC以类似的方式获得相继的分立子场景(例如，FW3...n和/或SS3...n)。

感兴趣的第一和第二方位B1、B2(以及随后的感兴趣的方位B3...Bn)，无论是通过不同的摄像机图像的拼接获得还是从单个全景摄像机获得，都可以具有到第一感兴趣的方位基本上共同的角度起点，因为它们是从相同的设备100获得的。可任选地，可以从设备100的单独摄像机5或7，或者从连接的设备上的摄像机(例如，图1A的连接的笔记本电脑、平板电脑或移动设备40；或图2K的卫星塔14b上的连接的卫星摄像机7)获得从不同角度起点开始的一个或多个感兴趣的附加方位Bn。

如上所述，可以在步骤S18中调整表示宽度FW或SW的设置、获得或加宽的子场景SS，例如(i)以具有与其它子场景相等或匹配的大小；(ii)相对于输出图像或流信号的纵横比均匀分割或可分割(例如，分成2、3或4段)，可任选地不低于宽度基数或高于先前指出的最高限度；(iii)避免与在感兴趣的方位附近的其它子场景重叠；和/或(iv)使得亮度、对比度或其它视频属性与其它子场景相匹配。

在步骤S20(其可以包括以合理和可操作的组合的图16-18模式一、二或三的步骤)，可以记录关于识别的感兴趣的方位B1、B2...Bn和子场景FW1、FW2...FWn和/或SS1、SS2...SSn的数据和/或元数据以用于跟踪目的。例如，可以记录自原点OR(例如，由传感器或通过计算确定)的相对位置、宽度、高度和/或上述任何经调整的参数。

可替换地，在步骤S20中，可以记录与子场景相关联的特征、预测或跟踪数据，例如，在步骤S20中添加至子场景、方位或其它特征跟踪数据库。例如，子场景FW1、FW2...FWn和/或SS1、SS2...SSn可以是在图像或视频场景SC内识别的瞬时图像、图像块或视频块。在视频的情况下，根据视频的压缩/解压缩方法，预测数据可以与场景或子场景相关联，并且可以被记录为与子场景相关联的数据或元数据，但是将倾向于是用于跟踪的添加的新子场景的一部分。

在记录跟踪数据或其它感兴趣的数据之后，处理返回到主例程。

合成每个情况的子场景

在图12的步骤S30中，处理器6可以合成每个情况(例如，每个数据、标志、标记、设置或例如步骤S20中记录为跟踪数据或场景数据的其它动作参数)的子场景SSn，即将与不同宽度FW1、FW2...FWn和/或SW1、SW2...SWn对应的第一、可任选地第二和可任选地后续分立子场景SSn组合成合成场景或单个摄像机图像或视频信号STG或CO。在本文中，单个摄像机图像或视频信号STG、CO可以指代视频的单个帧或单个合成视频帧，其表示与单个USB(或其它外设总线或网络)摄像机对应的USB(或其它外设总线或网络)外设图像或视频信号或流。

在步骤S32中，设备100、其电路和/或其可执行代码可以识别待被布置在合成的、组合图像或视频流STG或CO中的相关子场景SSn。可以根据针对步骤S14中的识别和/或步骤S20中的更新和跟踪所讨论的标准来确定“相关”。例如，一个相关的子场景将是具有最近的发言者的子场景；并且第二相关子场景可以是具有第二最近的发言者的子场景。两个最近的发言者可能是最相关的，直到第三位发言者通过发言变得更加相关。本文中的实施例在合成场景内的子场景内容纳三个发言者，每个具有等宽的分段或宽度足以容纳其头部和/或肩部的分段。然而，两个发言者或四个发言者或更多的发言者也可以容易地以合成屏幕宽度的分别更宽或更窄的份额被被容纳。

通过选择仅在高度和宽度上包围面部的子场景SSn，可以合理地容纳多达八个发言者(例如，在合成场景的顶行中容纳四个，底行中容纳四个)；并且可以通过适当的屏幕和/或窗口(对应于窗口的子场景)缓冲和合成来容纳从四到八个发言者的布置(例如，将子场景呈现为具有重叠的一幅卡片，或者呈现为透视缩短的视图环，其中较相关的发言者较大且靠前，较不相关的发言者较小并靠后)。参考图6A和6B，每当系统确定WB是要显示的最相关的场景(例如，如图6A所示，辅助摄像机7成像时)时，场景SSn也可以包括白板内容WB。白板或白板场景WB可以被突出地呈现，占据场景的大部分或主要部分，而发言者M1、M2...Mn或SPKR可以任选地以画中画与白板WB内容一起呈现。

在步骤S34中，将相关子场景集SS1、SS2...SSn与先前相关的子场景SSn进行比较。可以以相反的顺序执行步骤S34和S32。该比较确定了先前相关的子场景SSn是否可用，是否应保留在舞台STG或CO上，是否应从舞台STG或CO中移除，是否应以更小或更大的尺寸或透视被重新合成，或者是否需要以其它方式从先前合成的场景或舞台STG或CO改变。如果应该显示新的子场景SSn，则场景变化可能存在过多的候选子场景SSn。在步骤S36中，例如，可以检查场景变化的阈值(该步骤可以在步骤S32和S34之前或之间执行)。例如，当多个分立子场景SSn变得大于阈值数(例如，3)时，可以优选地输出整个广角场景SC或缩减的全景场景SC.R(例如，是或者被分段和堆叠以适配在USB外围设备摄像机的纵横比内)。可替换地，可能最好呈现单个摄像机场景，而不是多个子场景SSn的合成场景或作为合成输出CO。

在步骤S38中，设备100、其电路和/或其可执行代码可以设置子场景成员SS1、SS2...SSn以及它们被转移和/或合成到合成输出CO的顺序。换言之，已经确定要作为舞台STG或CO输出的子场景补充SS1、SS2...SSn的候选成员，以及是否满足或超过场景变化的任何规则或阈值，场景SSn和它们被添加、移除、切换或重新布置的转移的顺序可以在步骤S38中确定。应当注意，步骤S38或多或少地显著依赖于先前的步骤和发言者SPKR或M1、M2...Mn历史。如果两个或三个发言者M1、M2...Mn或SPKR被识别并且随着设备100开始操作而同时被显示，步骤S38以干净的场记板(slate)开始，并遵循默认的相关规则(例如，以顺时针呈现发言者SPKR；以合成输出CO中不超过三位发言者开始)。如果相同的三个发言者M1、M2...Mn保持相关，则在步骤S38中，子场景成员、顺序和合成可以不改变。

如前所述，参考步骤S18讨论的标识和参考步骤S20讨论的预测/更新可能导致步骤S32-S40中的合成输出CO的改变。在步骤S40中，确定要执行的转移和合成。

例如，设备100可以从广角或全景场景SC获得在感兴趣的后续方位处的后续(例如，第三、第四或更多)分立子场景SSn。在步骤S32-S38中，可以将后续的子场景SSn设定为合成或组合到合成场景或合成输出CO中。另外，在步骤S32-S38中，除了该后续的子场景之外的另一个子场景SSn(例如，先前或不太相关的子场景)可以被设置为从合成场景中移除(通过合成转移)(然后在步骤S50中合成并输出为被格式化为单个摄像机场景的合成场景或合成输出CO)。

作为附加或替代示例，设备100可以在步骤S32-S38中，根据参考步骤S18和/或S20所讨论的添加准则或标准的设置(例如，说话时间、说话频率、音频咳嗽/打喷嚏/门铃、声音幅度、语音角度和脸部识别的重合度)设置子场景SSn，以被合成或组合到合成场景或复合输出CO或从合成场景或复合输出CO移除。在步骤S32-S38中，只有满足添加标准的后续子场景SSn才能被设定为组合到合成场景CO中。在步骤S40中，确定要执行的转移和合成步骤。然后，在步骤S50中，将舞台场景合成并输出为被格式化为单个摄像机场景的合成输出CO。

作为附加或替代示例，设备100可以在步骤S32-S38中，基于如参考步骤S18和/或S20所论述的保留准则或标准(例如，音频/说话时间、音频/说话频率、自上次说话以来的时间、标记为保留的)而将子场景SSn设置为被保护免于移除的受保护子场景。在步骤S32-S38中，移除除了后续子场景以外的子场景SSn不设置受保护子场景要从合成场景中被移除。在步骤S40中，确定要执行的转移和合成。然后，在步骤S50中，将合成场景合成并输出为被格式化为单个摄像机场景的合成输出CO。

作为附加或替代示例，设备100可以在步骤S32-S38中，如参考步骤S18和/或S20所论述的基于加重突出准则或标准(例如，重复的发言者、指定的演示者、最近的发言者、声音最大的发言者、在手/场景中旋转的物体变化、频域中的高频场景活动、举手)来设置子场景SSn加重突出操作(例如，缩放、闪烁、精灵(genie)、弹跳、卡片分类、排序、回转)。在步骤S32-S38中，根据基于相应或对应的加重突出准则或标准的子场景加重突出操作，可以将分立子场景SSn中的至少一个设置为加重突出。在步骤S40中，确定要执行的转移和合成。然后，在步骤S50中，将合成场景合成并输出为被格式化为单个摄像机场景的合成输出CO。

作为附加或替代示例，设备100可以在步骤S32-S38中，如参考步骤S18和/或S20所论述的基于传感器或感测准则或标准(例如，太安静、远程发送)来设置子场景参与者通知或提醒操作(例如，在子场景的侧面的该人处闪烁光)。在步骤S32-S38中，可以根据基于相应或对应的感测准则或标准的通知或提醒操作来将本地提醒标记设置为被激活。在步骤S40中，确定要执行的转移和合成。然后，在步骤S50中，将合成场景合成并输出为被格式化为单个摄像机场景的合成输出CO。

在步骤S40中，设备100、其电路和/或其可执行代码产生转移和合成以平滑地引起合成图像的子场景补充的改变。在跟踪的合成输出CO或感兴趣的其它数据的合成之后，处理返回主例程。

合成输出

在图15的步骤S52-S56(可任选地以相反的顺序)中，合成场景STG或CO被格式化，即合成，以作为单个摄像机场景被发送或接收；和/或转移被渲染或合成到缓冲器、屏幕或帧(在这种情况下，“缓冲器”、“屏幕”或“帧”对应于单个摄像机视图输出)。设备100、其电路和/或其可执行代码可以使用合成窗口或屏幕管理器，可任选地以GPU加速度，来为每个子场景提供屏外缓冲器，并将缓冲器与外围图形和转移图形一起合成为表示单个摄像机视图的单个摄像机图像，并将结果写入输出或显示存储器。合成窗口或子屏幕管理器电路可以对缓冲窗口执行混合、淡出、缩放、旋转、复制、弯曲、扭曲、重排、模糊或其它处理，或者渲染阴影和动画，例如翻转切换、堆叠切换、覆盖切换、环形切换、分组、平铺等。合成窗口管理器可以提供视觉转移，其中，进入合成场景的子场景可以被合成以被添加、移除或者以转移效果切换。子场景可以淡入淡出、明显地缩小放大、平滑地向内或向外辐射。被合成或转移的所有场景可以是视频场景，例如均包括从全景场景SC子采样的不间断的视频流。

在步骤S52中，将转移或合成(根据需要，重复地、逐步地或连续地)渲染到帧、缓冲器或视频存储器(注意，转移和合成可以应用于个体帧或视频流，并且可以是通过整个场景STG、CO和个体分量子场景SS1、SS2...SSn的许多视频帧的进行中的处理。

在步骤S54中，设备100、其电路和/或其可执行代码可以选择和转移音频流。类似于窗口、场景、视频或子场景合成管理器，可以加重突出或去加重突出音频流，特别是在射束形成阵列4的情况下，以加重突出被合成的子场景。类似地，可以执行使音频与合成的视频场景同步。

在步骤S56中，设备100、其电路和/或其可执行代码输出对单个摄像机视频和音频的模拟作为组合输出CO。如上所述，该输出具有模拟单个、例如外围USB设备的网络摄像机视图的纵横比和像素计数，例如，小于2:1的纵横比，通常小于1.78:1的纵横比，并且可以由组电话会议软件用作外部网络摄像机输入。当将网络摄像机输入渲染为显示视图时，电话会议软件将组合输出CO视为任何其它USB摄像机，并且与主机设备40(或图1B的直接连接的设备100版本)交互的所有客户端将在与主机设备(或图1B的直接连接的设备100版本)对应的所有主视图和缩略视图中呈现合成输出CO。

子场景合成的示例

如参考图12-16所讨论的，会议摄像机100和处理器6可以合成(在步骤S30中)并输出(在步骤S50中)单个摄像机视频信号STG、CO。可操作地连接到ROM/RAM 8的处理器6可以记录全景视频信号SC(在步骤S12中)，该全景视频信号SC具有基本上为2.4:1或更大的纵横比并且是从具有基本上为90度或更大的水平视场角的宽摄像机2、3、5捕获的。在一个可选版本中，全景视频信号具有基本上为8:1或更大的纵横比，从具有基本上为360度的水平视场角的宽摄像机捕获。

处理器6可以从宽摄像机100在相应的感兴趣的方位B1、B2...Bn处子采样(例如，在步骤S32-S40中)至少两个子场景视频信号SS1、SS2...SSn(例如，在图8C-8E和图9C-9E中，SS2和SS5)(例如，在步骤S14中)。处理器6可以并排合成(在步骤S32-S40中，合成至缓冲器、帧或视频存储器)两个或更多个子场景视频信号SS1、SS2...SSn(例如，在图8C-8E和图9C-9E中，SS2和SS5)，以形成具有基本上为2:1或更小的纵横比的舞台场景视频信号CO、STG(在步骤S52-S56中)。可任选地，为了尽可能多地密集填充单个摄像机视频信号(导致参与者的较大视图)，可以从全景视频信号SC子采样舞台场景视频信号CO、STG的基本上80％或更多的区域。可操作地连接到USB/LAN接口10的处理器6可以输出被格式化为单个摄像机视频信号的舞台场景视频信号CO、STG(如在步骤S52-S56中)。

最佳地，处理器6从全景视频信号SC(和/或可任选地从缓冲器、帧或视频存储器，例如在GPU 6和/或ROM/RAM 8中，和/或直接从宽摄像机2、3、5)在相应的感兴趣的方位B1、B2...Bn处子采样附加的(例如，第三、第四或后续的)子场景视频信号SS1、SS2...SS3(例如，在图9C-9E中，SS1)。然后，处理器可以将最初合成到舞台STG、CO上的两个或更多个子场景视频信号SS1、SS2...SS3(例如，在图9C-9E中，SS2和SS5)与一个或多个附加子场景视频信号SS1、SS2...SSn(例如，在图9C-9E中，SS1)一起合成，以形成具有基本上为2:1或更小的纵横比并且包括多个并排子场景视频信号(例如，在行或网格中合成两个、三个、四个或更多个子视频信号SS1、SS2...SSn)的舞台场景视频信号STG、CO。应当注意，处理器6可以在存储器中设置或存储子场景视频信号SS1、SS2...SSn或一个或多个感兴趣的方位的一个或多个添加标准。在这种情况下，例如，只有满足添加标准(例如，足够的质量、足够的照明等)的这些附加子场景视频信号SS1、SS2...SSn可以转移到舞台场景视频信号STG、CO中。

可替换地或另外，附加子场景视频信号SS1、SS2...SSn可以通过替换已经被合成到舞台STG、CO中的子场景视频信号SS1、SS2...SSn中的一个或多个来由处理器6合成到舞台场景视频信号STG、CO中，以形成仍具有基本上为2:1或更小纵横比的舞台场景视频信号STG、CO。可以为待合成的每个子场景视频信号SS1、SS2...SSn分配最小宽度Min.1、Min.2...Min.n，并且在完成到舞台场景视频信号STG、CO的每个相应转移后，每个子场景视频信号SS1，SS2...SSn可以以基本上不小于其最小宽度Min.1、Min.2...Min.n并排合成，以形成舞台场景视频信号STG、CO。

在一些情况下，例如，步骤S16-S18，处理器6可以增加被转移的每个相应子场景视频信号SS1、SS2...SSn的合成宽度以在整个转移期间增大，直到合成宽度基本上等于或大于对应的相应最小宽度Min.1、Min.2...Min.n。可替换地或另外，每个子场景视频信号SS1，SS2...SSn可以由处理器6以基本上不小于其最小宽度Min.1、Min.2...Min.n被并排合成，每个SS1，SS2...SSn处于相应宽度，在该相应宽度下所有合成子场景视频信号SS1、SS2...SSn的总和基本上等于舞台场景视频信号或合成输出STG、CO的宽度。

另外，或者可替换地，舞台场景视频信号STG、CO内的子场景视频信号SS1、SS2...SSn的宽度由处理器6合成，以根据在与子场景视频信号SS1、SS2...SSn相对应的一个或多个感兴趣的方位B1、B2...Bn处检测到的一个或多个活动标准(例如，视觉运动、感测运动、语音的声学检测等)而改变(例如，如在步骤S16-S18中)，而舞台场景视频信号或合成输出STG、CO的宽度保持恒定。

可任选地，处理器6可以通过借助将一个或两个或更多个子场景视频信号SS1、SS2...SSn(例如，在图9C-9E中，SS2和SS5)的宽度缩减与一个或多个添加的或后续的子场景视频信号SS1、SS2...SSn(例如，在图9C-9E中，SS1)的宽度相对应的量而将一个或多个附加子场景视频信号SS1、SS2...SSn(例如，在图9C-9E中，SS1)转移到舞台场景视频信号STG、CO中，来将一个或多个子场景视频信号SS1、SS2...SSn(例如，在图9C-9E中，SS2和SS5)与一个或多个附加子场景视频信号SS1、SS2...SSn(例如，在图9C-9E中，SS1)一起合成，以形成舞台场景视频信号。

在一些情况下，处理器6可以为每个子场景视频信号SS1、SS2...SSn分配相应的最小宽度Min.1、Min.2...Min.n，并且可以以基本上不小于对应的相应最小宽度Min.1、Min.2...Min.n将每个子场景视频信号SS1、SS2...SSn并排合成，以形成舞台场景视频信号或合成输出STG、CO。当两个或更多个子场景视频信号SS1、SS2...SSn连同一个或多个附加子场景视频信号SS1、SS2...SSn的相应最小宽度Min.1、Min.2...Min.的总和超过舞台场景视频信号STG、CO的宽度时，两个子场景视频信号SS1、SS2...SSn中的一个或多个将由处理器6转移，以从舞台场景视频信号或合成输出STG、CO中移除。

在另一替代方案中，处理器9可以选择两个或更多个子场景视频信号SS1、SS2...SSn中的至少一个被转移，以从舞台场景视频信号STG、CO去除，从而对应于相应的感兴趣的方位B1、B2...Bn，在该相应的感兴趣的方位B1、B2...Bn下最近最不满足一个或多个活动标准(例如，视觉运动、感测运动、语音的声学检测、自从最后发言以来的时间等)。

在许多情况下，并且如图8B-8E和图9B-9E所示，处理器6可以在两个或更多个子场景视频信号SS1、SS2...SSn与至少一个后续子场景视频信号SS1、SS2...SSn一起被合成以形成舞台场景视频信号或合成输出STG、CO时，在两个或更多个子场景视频信号SS1、SS2...SSn(例如，在图9C-9E中，SS2和SS5)与一个或多个附加子场景视频信号SS1、SS2...SSn(例如，在图9C-9E中，SS1)的相应的感兴趣的方位B1、B2...Bn中相对于宽摄像机2、3、5保持从左到右(从上往下、顺时针)顺序。

可替换地或另外，处理器6可以根据相对于宽摄像机2、3、5在相应的感兴趣的方位B1、B2...Bn处检测到的一个或多个选择标准(例如，视觉运动、感测运动、语音的声学检测、自从最后发言以来的时间等)从全景视频信号SC中选择每个相应的感兴趣的方位B1、B2...Bn。在一个或多个选择标准不再为真之后，处理器6可以转移对应的子场景视频信号SS1、SS2...SSn，以从舞台场景视频信号或合成输出STG、CO中移除。选择标准可以包括在相应的感兴趣的方位B1、B2...Bn处满足的活动标准的存在。处理器9可以计算自从在相应的感兴趣的方位B1、B2...Bn处满足一个或多个活动标准以来的时间。在相应的感兴趣的方位B1、B2...Bn处满足一个或多个活动标准后的预定时间段，处理器6可以转移相应子场景信号SS1、SS2...SSn以从舞台场景视频信号STG中移除。

关于图8A-8C、图9A-9C、图10A、图1B、图11A、图11B和图22所示的缩减的全景视频信号SC.R，处理器6可以从全景视频信号SC中对基本上为8:1的纵横比或更大纵横比的缩减的全景视频信号SC.R进行子采样。处理器6然后可以将两个或更多个子场景视频信号(例如，在图8C-8E和图9C-9E中，SS2和SS5)与缩减的全景视频信号SC.R一起合成，以形成具有基本上为2:1或更小的纵横比的舞台场景视频信号STG、CO，其包括多个并排的子场景视频信号(例如，在图8C-8E中，SS2和SS5，及在图9C-9E中，SS1、SS2和SS5)和全景视频信号SC.R。

在这种情况下，处理器6可以将两个或更多个子场景视频信号(例如，在图8C-8E中，SS2和SS5，以及在图9C-9E中，SS1、SS2和SS5)与缩减的全景视频信号SC.R一起合成，以形成具有基本上为2:1或更小的纵横比的舞台场景视频信号，其包括多个并排的子场景视频信号(例如，在图8C-8E中，SS2和SS5，以及在图9C-9E中，SS1、SS2和SS5)以及在多个并排的子场景视频信号上方的全景视频信号SC.R，该全景视频信号不超过舞台场景视频信号或合成输出STG或CO的面积的1/5，并且基本上跨越舞台场景视频信号或合成输出STG或CO的宽度而延伸。

在替代方案中，如图24所示，处理器6可以子采样来自文本文档(例如，来自文本编辑器、文字处理器、电子表格、演示或呈现文本的任何其它文档)的文本视频信号TD1或被提供有来自该文本视频信号TD1的子样本。然后，处理器6可以通过用文本视频信号TD1或等效的TD1.R.替换两个或更多个子场景视频信号中的至少一个来将文本视频信号TD1或其渲染或简化版本TD1.R转移到舞台场景视频信号STG、CO中。

可任选地，处理器6可以基于一个或多个保留标准(例如，视觉运动、感测运动、语音的声学检测、自从最后发言以来的时间等)将两个子场景视频信号中的一个或多个设置为被保护免于转移的受保护子场景视频信号SS1、SS2...SSn。在这种情况下，处理器6可以通过替换两个或更多个子场景视频信号SS1、SS2...SSn中的至少一个，但是具体是通过转移除了受保护子场景之外的子场景视频信号SS1、SS2...SSn，来将一个或多个附加子场景视频信号SS1、SS2...SSn转移到舞台场景视频信号中。

可替换地，处理器6可以基于一个或多个加重突出标准(例如，视觉运动、感测运动、语音的声学检测、自从最后发言以来的时间等)来设置子场景加重突出操作(例如，闪烁、突出显示、描绘轮廓、图标重叠等)。在这种情况下，根据子场景加重突出操作并且基于对应的加重突出标准来加重突出一个或多个子场景视频信号。

在另外的变型中，处理器6可以基于来自传感器的感测标准(例如，检测声波、振动、电磁辐射、热、UV辐射、无线电、微波、电气特性或由诸如RF元件、无源红外元件或测距元件之类的传感器检测到的深度/距离)来设置子场景参与者通知操作。处理器6可以根据通知操作，基于对应的感测标准，激活一个或多个本地提醒标记。

感兴趣方位的示例

例如，感兴趣的方位可以是对应于一个或多个音频信号或检测的方位，例如正在说话的参与者M1、M2...Mn，该一个或多个音频信号或检测是由麦克风阵列4使用至少两个麦克风通过例如射束形成、定位或可比较的接收信号强度、或可比较的渡越时间而角度识别、矢量化或辨别的。可以使用阈值或频域分析来决定音频信号是否足够强或足够不同，并且可以使用至少三个麦克风来执行滤波以丢弃不一致的对、多路径和/或冗余。三个麦克风的好处在于形成三对用于比较。

作为另一示例，可替换地或另外，感兴趣的方位可以是以下方位：在该方位下，在场景中检测到运动，通过对来自摄像机2的图像或运动视频或RGBD进行扫描的特征、图像、图案、类别和/或运动检测电路或可执行代码而角度识别、矢量化或辨别的。

作为另一示例，可替换地或另外，感兴趣的方位可以是以下方位：在该方位下，在场景中检测到面部结构，通过对来自摄像机2的图像或运动视频或RGBD信号进行扫描的面部检测电路或可执行代码而角度识别、矢量化或辨别的。也可以以这种方式来检测骨架结构。

作为另一示例，可替换地或另外，感兴趣的方位可以是以下方位：在该方位下，在场景中检测到颜色、纹理和/或图案基本上连续的结构，通过对来自摄像机2的图像或运动视频或RGBD信号进行扫描的边缘检测、角点检测、峰检测或分割、极值检测和/或特征检测电路或可执行代码而角度识别、矢量化或辨别的。识别可以参考先前记录的、学习的或训练过的图像分块、颜色、纹理或图案。

作为另一示例，可替换地或另外，感兴趣的方位可以是以下方位：在该方位下，在场景中检测到与已知环境的差异，通过对来自摄像机2的图像或运动视频或RGBD信号进行扫描的差异和/或变化检测电路或可执行代码而角度识别、矢量化或辨别的。例如，设备100可以保存其所在的空会议室的一个或多个可视图，并且检测何时足够遮挡的实体(例如，人)遮挡了图中的已知特征或区域。

作为另一示例，可替换地或另外，感兴趣的方位可以是以下方位：在该方位下，辨别出诸如矩形之类的规则形状，包括“白板”形状、门形状或椅背形状，通过对来自摄像机2的图像或运动视频或RGBD进行扫描的特征、图像、图案、类别和/或运动检测电路或可执行代码而角度识别、矢量化或辨别的。

作为另一示例，可替换地或另外，感兴趣的方位可以是以下方位：在该方位下，由使用设备100的人放置可识别为人造地标的基准对象或特征，包括主动或被动声学发射器或换能器，和/或主动或被动光学或可视基准标记，和/或RFID或其它电磁可检测的，这些通过上述一种或多种技术而角度识别、矢量化或辨别的。

如果以这种方式没有获得感兴趣的初始方位或新方位(例如，因为没有参与者M1、M2...Mn还在说话)，则可以设置默认视图而不是合成场景，用于作为单个摄像机场景输出。例如，作为一个默认视图，整个全景场景(例如，具有2:1到10:1H:V水平与垂直比例)可以被分割并布置成输出单个摄像机比例(例如，通常为在横向上1.25:1至2.4:1或2.5:1H:V纵横比或水平与垂直比例，尽管对应的“转向”纵向比例也是可能的)。作为初始获得感兴趣方位之前的另一示例性默认视图，可以跨越场景SC以例如固定速率跟踪对应于输出场景比例的“窗口”，例如，作为对慢速摇摄摄像机的模拟。作为另一示例性默认视图可以包括每个与会者M1、M2...Mn的“头像”(加上5-20％的额外宽度的裕量)，其中调整了裕量以优化可用的显示区域。

纵横比的示例

尽管实施例和发明的各方面可能对于任何角度范围或纵横比都是有用的，但是当在以下情况下时益处可任选地更大：子场景从提供具有基本上为2.4:1或更大的纵横比(该纵横比表示帧或像素尺寸)的全景视频信号的摄像机形成，并且被合成为具有基本上为2:1或更小(例如，诸如16:9、16:10或4:3)(如在大多数笔记本电脑或电视机显示器(通常为1.78:1或更小)中可见的)的总体纵横比的多参与者舞台视频信号，并且另外，可任选地，如果舞台视频信号子场景填满了合成整体帧的80％以上，和/或如果舞台视频信号子场景和全景视频信号的任何另外合成的缩略图形式填满了合成整体帧的90％以上。以这种方式，每个显示的参与者几乎与可行的尽可能一样多地填充屏幕。

垂直和水平视角之间的对应比例可以被确定为根据α＝2arctan(d/2f)的比率，其中，d是传感器的垂直或水平尺寸，f是镜头的有效焦距。用于会议的不同广角摄像机可以具有来自单个镜头的90度、120度或180度视场，而每个可以输出纵横比为1.78:1的1080p图像(例如，1920×1080图像)或纵横比3.5:1或其它纵横比的宽得多的图像。当观察会议场景时，与120度或180度的宽摄像机组合的较小纵横比(例如，2:1或更低)可以显示比可能期望的更多的天花板、墙壁或桌子。因此，虽然场景或全景视频信号SC的纵横比和摄像机100的视角FOV可以是独立的，但是对于本实施例可任选地有利的是将较宽的摄像机100(90度或更高)与较宽的纵横比(例如，2.4:1或更高)视频信号相匹配，以及进一步可任选地将最宽的摄像机(例如，360度全景视图)与最宽的纵横比(例如，8:1或更大)相匹配。

跟踪子场景或方位的示例

由图1A和1B的设备执行的处理，如图12-18，特别是图16-18所示，可以包括在宽视频信号SC内跟踪感兴趣的方位B1、B2、...Bn处的子场景FW、SS。如图16所示，可操作地连接到声学传感器或麦克风阵列4(具有可选的射束形成电路)以及宽摄像机2、3、5的处理器6在步骤S202中监测基本上共同的角度范围，其任选地或优选地基本上为90度或更大。

处理器6可以执行代码，或者包括或可操作地连接到在步骤S204和步骤S206中在宽摄像机2、3、5的角度范围内沿着声学识别(例如，频率、图案或其它语音识别)或视觉识别(例如，运动检测、面部检测、骨架检测、彩色斑点分割或检测)之一或两者的定位(例如，表示笛卡尔坐标或极坐标中的位置或方向等的测量)识别第一感兴趣的方位B1、B2、...Bn的电路。如在步骤S10中，以及在步骤S12和S14中，沿着在步骤S14中识别的感兴趣的方位B1、B2...Bn从宽摄像机2、3、5子采样子场景视频信号SS(例如，从宽摄像机2、3、5的成像元件新采样的，或从步骤S12中捕获的全景场景SC子采样的)。子场景视频信号SS的宽度(例如，最小宽度Min.1、Min.2...Min.n或子场景显示宽度DWid.1、DWid.2...DWid.n)可以由处理器6在步骤S210中根据声学识别和视觉/视觉识别之一或两者的信号特性来设置。信号特性可以表示各种声学或视觉识别中的任一个的质量或置信水平。如本文所使用的，“声学识别”可以包括基于声波或振动的任何识别(例如，满足测量的阈值，匹配描述符等)，包括诸如多普勒分析之类的对波形的频率分析，而“视觉识别”可以包括对应于电磁辐射的任何识别(例如，满足测量的阈值，匹配描述符等)，例如热或UV辐射、无线电或微波，电气特性识别或由诸如RF元件、被动红外元件或测距元件之类的传感器检测的深度/范围。

例如，在步骤S14中辨别的感兴趣的方位B1、B2...Bn可以通过不同顺序的这种声学和视觉识别的组合来确定，其中一些显示为图16-18中的模式一、二或三(其可以合理地和合乎逻辑地彼此结合)。在一个顺序中，例如，如在图18的步骤S220中，首先记录声学识别的方位(尽管可以重复和/或改变该顺序)。可任选地，这种方位B1、B2...Bn可以是角度、具有公差的角度或近似或角度范围的方位(例如，图7A中的方位B5)。如图18的步骤S228-S232所示，如果足够可靠的视觉识别基本上在记录的声学识别的阈值角度范围内，则记录的声学识别方位可以基于视觉识别(例如，面部识别)而被精细化(变窄或再评估)。在相同的模式中或与另一模式组合，例如，如在图17的步骤S218中，与视觉识别无关联的任何声学识别可以保持为候选的感兴趣方位B1、B2...Bn。

可任选地，如在图16的步骤S210中，信号特性表示声学识别和视觉识别中的任一个或两者的置信水平。“置信水平”不需要满足正式的概率定义，但可以表示建立可靠性程度(例如，跨越阈值幅度、信号质量、信号/噪声比或等同物、或成功标准)的任何可比较测量。可替换地或另外，如在图16的步骤S210中，信号特性可以表示在声音识别(例如，声音可以源自的角度范围)或视觉识别(例如，瞳距、脸部宽度、身体宽度)中的一个或两者内识别的特征的宽度。例如，信号特性可以对应于沿感兴趣的方位B1、B2...Bn识别的人脸的近似宽度(例如，由视觉识别确定)。可以根据视觉识别的信号特性来设置第一子场景视频信号SS1、SS2...SSn的宽度。

在一些情况下，例如，如在图18的步骤S228中，如果没有根据视觉识别的信号特性设置宽度(例如，不能可靠地设置等，在不能识别宽度限定特征的情况下)，如在图18的步骤S230中，可以沿着在角度范围内检测到的声学识别的定位来设置预定宽度。例如，如在图18的步骤S228和S232中，如果沿着被评估为具有指示人语音的声学信号的感兴趣的方位B1、B2...Bn通过图像分析没有识别面部，则可以保持或设置默认宽度(例如，具有等于宽度整个场景SC的1/10至1/4的宽度的子场景)，例如，如在步骤S230中沿着用于定义子场景SS的声学方位。例如，图7A示出了与会者和发言者场景，其中与会者M5的面部朝向与会者M4，并且M5正在说话。在这种情况下，会议摄像机100的声学麦克风阵列4能够沿着感兴趣的方位B5定位发言者M5(此处，将感兴趣的方位B5描绘为方位范围而不是矢量)，而宽摄像机2、3、5视频信号的全景场景SC的图像分析可能无法解析脸部或其它视觉识别。在这种情况下，默认宽度Min.5可以被设置为用于沿着感兴趣的方位B5初始定义、限制或渲染子场景SS5的最小宽度。

在另一个实施例中，感兴趣的方位B1、B2...Bn可以被识别为指向在会议摄像机100的角度范围内检测到的声学识别。在这种情况下，处理器6可以识别靠近如可任选的图16的步骤S209中的声学识别的视觉识别(例如，在感兴趣的方位B1、B2...Bn内、重叠或附近，例如在感兴趣的方位B1、B2...Bn的5-20弧度内)。在这种情况下，第一子场景视频信号SS1、SS2...SSn的宽度可以根据视觉识别的信号特性来设置，该视觉识别接近或以其它方式匹配声学识别。这例如在以下情况下时可以发生：利用声学麦克风阵列4首先识别感兴趣的方位B1、B2...Bn，并且随后使用来自宽摄像机100的视频图像，利用足够接近或以其它方式匹配的面部识别来证实或验证感兴趣的方位B1、B2...Bn。

在一个变型中，如参考图17和图16所描述的，包括会议摄像机或宽摄像机100的系统可以如在图17的步骤S218中那样使用潜在的视觉识别或声学识别来制作空间图，然后如在图16的步骤S209中，依赖于该空间图通过相同或不同或其它识别方法来证实后来的、相关联的、匹配的、接近的或“捕捉的”识别。例如，在一些情况下，整个全景场景SC可能太大而不能在逐帧的基础上有效地扫描以进行面部识别等。在这种情况下，由于人们在使用摄像机100的会议情况下并不显著地从一个地方移动到另一个地方，特别是在他们入座进行会议之后，所以可以只扫描整个全景场景SC的一部分，例如，每个视频帧。

例如，如在图17的步骤S212中，为了在宽视频信号内跟踪感兴趣的方位B1、B2...Bn处的子场景SS1、SS2...SSn，处理器6可以遍及与基本上90度或更大的宽摄像机100视场对应的运动视频信号SC来扫描子采样窗口。处理器6或与其相关联的电路可以通过基本上满足为候选的感兴趣方位B1、B2...Bn定义合适的信号质量的阈值来识别子采样窗口内的候选的感兴趣方位B1、B2...Bn，例如，如图17的步骤S214中。每个感兴趣的方位B1、B2...Bn可以对应于在子采样窗口内检测到的视觉识别的定位，例如，如图17的步骤S216中。如在图17的步骤S218中，候选方位B1、B2...Bn可以记录在空间图中(例如，保存候选方位的位置、地点和/或方向的跟踪的存储器或数据库结构)。以这种方式，例如，即使在该方位还没有发生声学检测，面部识别或其它视觉识别(例如，运动)也可以存储在空间图中。随后，宽摄像机100的角度范围可以由处理器6利用用于声学识别的声学传感器或麦克风阵列4(其可用于证实候选的感兴趣方位B1、B2...Bn)进行监测。

参考图7A，例如，会议摄像机100的处理器6可以扫描整个全景场景SC的不同的子采样窗口，用于视觉识别(例如，面部、颜色、运动等)。根据照明、运动、面部的取向等，在图7中，潜在的感兴趣方位可以存储在空间图中，对应于与会者M1...M5的面部、运动或类似的检测。然而，在图7A所示的场景中，如果对应于不发言的与会者，朝向与会者Map.1的潜在的感兴趣方位可能不会稍后被声学信号证实(并且该与会者可能永远不会在子场景中被捕获，而只在全景场景内被捕获)。一旦与会者M1...M5已经发言或正在发言，包括或朝向这些与会者的潜在的感兴趣方位可以被证实并记录为感兴趣的方位B1、B2...B5。

可任选地，如在图16的步骤S209中，当接近于(基本邻近、附近或在+/-5-20弧度内)在空间图中记录的一个候选方位检测到声学识别时，处理器6可以捕捉感兴趣的方位B1、B2...Bn，以对应于基本上该一个候选方位。图16的步骤S209指示感兴趣的方位与空间图对应部分匹配，“匹配”可以包括关联、替换或改变感兴趣的方位值。例如，由于窗口和/或全景场景SC内的面部或运动识别可以具有比声学或麦克风阵列4更好的分辨率，但更不频繁或更不可靠的检测，由声音识别产生的检测到的感兴趣的方位B1、B2…Bn可以根据视觉识别被改变、记录为或以其它方式校正或调整。在这种情况下，处理器6不是沿着从声学识别导出的明显的感兴趣方位B1、B2...Bn对子场景视频信号SS1、SS2...SSn进行子采样，而是可以例如在使用先前映射的视觉识别校正了声学感兴趣方位B1、B2...Bn之后从宽摄像机100和/或全景场景SC在捕捉操作之后沿着感兴趣的方位B1、B2...Bn对子场景视频信号进行子采样。在这种情况下，如在图16的步骤S210中，可以根据检测到的脸部宽度或运动宽度，或者可替换地根据声学识别的信号特性(例如，默认宽度、阵列4的分辨率、置信水平、在声学识别或视觉识别中的一个或两个中识别的特征的宽度，沿着感兴趣的方位识别的人脸的近似宽度)来设置子场景视频信号SS的宽度。如在图16的步骤S210或在图18的步骤S230中，如果没有根据诸如面部宽度或运动范围之类的视觉识别的信号特性来设置子场景SS宽度，则可以根据声学识别来设置预定宽度(例如，如图7A中的默认宽度Min.5)。

在图18的示例中，会议摄像机100和处理器6可以通过记录与基本上90度或更大的宽摄像机100视场FOV对应的运动视频信号来跟踪在感兴趣的方位B1、B2...Bn处的子场景。在步骤S220中，处理器可以利用用于声音识别的声学传感器阵列4来监测与宽摄像机100视场FOV对应的角度范围，并且当在步骤S222的范围内检测到声学识别时，在步骤S224中，可以识别朝向该角度范围内检测到的声学识别的感兴趣的方位B1、B2...Bn。然后，处理器6或相关联的电路可以在步骤S226中根据感兴趣的方位B1、B2...Bn的对应范围(例如，类似于图7A的感兴趣的方位B5的范围)，在全景场景SC的运动视频信号中定位子采样窗口。如果如步骤S228中在该范围内检测到视觉识别，则处理器可以定位在子采样窗口内检测到的视觉识别。随后，处理器6可以可任选地基本上以视觉识别为中心，对从宽摄像机100(直接从摄像机100或全景场景记录SC)捕获的子场景视频信号SS进行子采样。如步骤S232中，处理器6然后可以根据视觉识别的信号特性来设置子场景视频信号SS的宽度。在视觉识别是不可能、不合适、未检测到或未被选择的那些情况下，如在图18的步骤S228中，处理器6可以保存或选择听觉最小宽度，如图18的步骤S230中。

可替换地，会议摄像机100和处理器6可以通过如图16-18中的，通过例如在图17的步骤S212中的，利用声学传感器阵列4和观察基本上90度或更大的视场的宽摄像机2、3、5监测角度范围，来跟踪诸如全景场景SC之类的宽视频信号内在感兴趣的方位B1、B2...Bn处的子场景。处理器6可以识别多个感兴趣方位B1、B2...Bn，其均指向角度范围内的定位(声学或视觉或基于传感器的，如步骤S216中)，并且随着感兴趣的方位B1、B2...Bn、对应识别、对应定位或代表其的数据如图17的步骤S218中被连续地存储，保持与感兴趣的方位B1、B2...Bn相对应的记录特性的空间图。随后，例如，如图16的步骤S210中，处理器6可以基本沿着至少一个感兴趣的方位B1、B2...Bn，对来自宽摄像机100的子场景视频信号SS1、SS2...SSn进行子采样，并根据与至少一个感兴趣的方位B1、B2...Bn对应的记录特性，来设置子场景视频信号SS1、SS2...SSn的宽度。

预测跟踪的示例

在以上对用于识别新的感兴趣方位的结构、装置、方法和技术的描述中，描述了用于识别这种新的感兴趣方位的各种检测、识别、触发或其它原因。以下描述讨论了更新、跟踪或预测感兴趣方位和子场景的方位、方向、位置、姿态、宽度或其它特性的变化，并且这种更新、跟踪和预测也可以应用于上述描述。应当注意，用于识别新的感兴趣方位和更新或预测方位或子场景的变化的方法的描述是相关的，因为通过跟踪或预测有利于感兴趣的方位或子场景的重新获取。本文所讨论的步骤S14中用于识别新的感兴趣方位的方法和技术可用于在步骤S20、S32、S54或S56中扫描、识别、更新、跟踪、记录或重新获取方位和/或子场景，反之亦然。

可以每个子场景记录预测视频数据，例如根据或相关于以下各项编码的数据：预测性HEVC、H.264、MPEG-4、其它MPEG I片、P片和B片(或帧或宏块)；其它帧内和帧间、图像、宏块或片；H.264或其它SI帧/片、SP帧/片(切换P)和/或多帧运动估计；VP9或VP10超级块、块、宏块或超级帧、帧内和帧间预测、复合预测、运动补偿、运动矢量预测和/或分割。

可以记录独立于视频标准或运动补偿SPI的上述其它预测或跟踪数据，例如，从相关于麦克风阵列的音频运动导出的运动矢量，或从基于像素或直接的方法导出的运动矢量(例如，块匹配、相位相关、频域相关、像素递归、光流)和/或间接或基于特征的方法(特征检测，例如具有统计功能的角点检测，例如应用于子场景或场景区域的RANSAC)。

另外或在替代方案中，每个子场景的更新或跟踪可以记录、识别或评分表示其的信息或数据或相关性的标记，例如导出的音频参数，例如幅度、话语频率、话语长度、相关的与会者M1、M2...Mn(具有来回交流的两个子场景)，领导或主持与会者M.Lead(定期简短地插入音频的子场景)、识别的信号短语(例如，拍手，“保持摄像机对着我”和其它短语和语音识别。这些参数或标记可以独立于跟踪步骤或在与跟踪步骤期间不同的时间被记录。每个子场景的跟踪也可以记录、识别或评分错误或不相关性的标记，例如代表咳嗽或打喷嚏的音频；代表机械、风或闪烁的有规律或周期性运动或视频；瞬态运动或频率高到足以成为瞬态的运动。

另外或在替代方案中，每个子场景的更新或跟踪可以记录、识别或评分用于设置和/或保护子场景免于移除的标记或表示其的数据或信息，例如基于保留准则或标准(例如，音频/说话的时间、音频/说话的频率，自从最后说话以来的时间、标记用于保留)。在后续的合成处理中，移除除了新的或后续的子场景之外的子场景并不会从合成的场景中移除受保护的子场景。即，受保护的子场景对于从合成场景中移除的优先级较低。

另外或在替代方案中，每个子场景的更新或跟踪可以记录、识别或评分用于设置附加准则或标准的标记或表示其的数据或信息(例如，说话时间、说话频率、咳嗽/打喷嚏/门铃的音频频率、声音幅度、语音角度和脸部识别的一致性)。在编译处理中，只有满足附近标准的后续子场景才能被组合到合成场景中。

另外或在替代方案中，每个子场景的更新或跟踪可以基于加重突出准则或标准(例如，重复的发言者，指定的演示者，最近的发言者，声音最大的发言者，在手/场景变化中旋转的物体的运动检测，频域中的高频场景活动，举手的运动或骨架识别)来记录、识别或评分用于设置子场景加重突出操作的标记，例如作为音频、CGI、图像、视频或合成效果或表示其的数据或信息(例如，将一个子场景缩放为更大，闪烁或脉动一个子场景的边界，插入具有精灵效果的新子场景(从小生长至大)，加重突出或插入具有弹跳效果的子场景，利用卡片分类或混洗效应排列一个或多个子场景，以重叠效果排序子场景，以“折叠”图形角的外观回转子场景)。在编译处理中，基于相应或对应的加重突出标准，根据子场景加重突出操作来加重突出分立子场景中的至少一个。

另外或在替代方案中，每个子场景的更新或跟踪可以基于传感器或感测的标准(例如，太安静，从社交媒体的远程发送)，记录、识别或评分用于设置子场景参与者通知或提醒操作的标记或表示其的数据或信息(例如，在设备100上与会者M1、M2...Mn处闪烁光，可任选地与子场景同一侧的光)。在编译处理或其它情况下，基于相应或对应的感测标准，根据通知或提醒操作激活本地提醒标记或多个标记。

另外或在替代方案中，每个子场景的更新或跟踪可以记录、识别或评分用于为每个相应的角扇区FW1、FW2...FWn或SW1、SW2...SWn预测或设置变化矢量的标记或表示其的数据或信息，例如，基于每个识别或定位的记录特性(例如，彩色斑点、面部、音频，如本文中关于步骤S14或S20所讨论的)的速度或方向的变化，和/或用于基于该预测或设置来更新相应角扇区FW1、FW2...FWn或SW1、SW2...SWn的方向的标记。

另外或在替代方案中，每个子场景的更新或跟踪可以记录、识别或评分用于预测或设置用于重新捕获或重新获取丢失的识别或定位的搜索区域的标记或表示其的数据或信息，例如，基于每个识别或定位的记录特征(例如，彩色斑点、面部、音频)的最近位置，和/或用于基于该预测或设置来更新相应角扇区的方向的标记。记录的特征可以是代表皮肤和/或衣服的至少一个彩色斑点、分段或斑点对象。

另外或在替代方案中，每个子场景的更新或跟踪可以保持所记录特性的笛卡尔坐标图或者特别地或可任选地极坐标图(例如，基于方位B1、B2...Bn或场景SC内的自原点OR的角度和对应于场景SC内的角扇区FW/SW的例如子场景SS1、SS2...SSn的角度范围)，每个记录特性具有表示所记录特性的方位B1、B2...Bn的至少一个参数。

因此，可替换地或另外地，设备100的实施例、其电路和/或在ROM/RAM8和/或CPU/GPU6内存储和执行的可执行代码可以通过利用声学传感器阵列4和光学传感器阵列2、3、5和/或7监测目标角度范围(例如，形成场景SC的摄像机2n、3n、5或7的水平范围，或其子集)，来跟踪与广角场景SC内的宽度FW和/或SW对应的感兴趣的子场景SS1、SS2...SSn。设备100、其电路和/或其可执行代码可以扫描目标角度范围SC以用于识别标准(例如，声音、面部)，例如，如本文关于图8的步骤S14(新的感兴趣方位识别)和/或步骤S20(用于方位/子场景的跟踪和特性信息)所讨论的。设备100、其电路和/或其可执行代码可以基于由声学传感器阵列4和光学传感器阵列2、3、5和/或7中的至少一个的第一识别(例如，检测、识别、触发或其它原因)和定位(例如，角度、矢量、姿态或位置)来识别第一感兴趣的方位B1。设备100、其电路和/或其可执行代码可以基于由声学传感器阵列4和光学传感器阵列2、3、5和/或7中的至少一个的第二识别和定位(以及可任选的第三和随后的识别和定位)来识别第二感兴趣的方位B2(以及可任选地第三和随后的感兴趣的方位B3...Bn)。

设备100、其电路和/或其可执行代码可以通过扩展、加宽、设置或重置包括相应的感兴趣方位B1、B2...Bn的角度子场景(例如，初始小角度范围或基于面部的子场景FW)来为每个感兴趣的方位B1、B2...Bn设置相应的角度扇区(例如，FW、SW或其它)，直到基于至少一个识别标准(例如，设置或重置的角度跨度比瞳距宽、是两倍或更多；设置或重置的角度跨度比头-壁对比度、距离、边缘、差或运动转移宽)的阈值(例如，参考图13的步骤S16-S18所讨论的宽度阈值)被满足。

设备100、其电路和/或其可执行代码可以基于每个识别和/或定位内或代表每个识别和/或定位的记录特性(例如，彩色斑点、面部、音频)的方向或方位B1、B2...Bn的变化，来更新或跟踪(这些术语在本文中可互换使用)相应角度扇区FW1、FW2...FWn和/或SW1、SW2...SWn的方向或方位B1、B2...Bn。可任选地，如本文所讨论的，设备100、其电路和/或其可执行代码可以更新或跟踪每个相应的角度扇区FW1、FW2...FWn和/或SW1、SW2...SWn，以跟随第一、第二、和/或第三和/或随后的感兴趣的方位B1、B2...Bn的角度变化。

合成输出示例(W/视频会议)

在图8A-8D、图10A-10B和图19-24中，“合成输出CO”，即作为合成和渲染/合成的摄像机视图的组合或合成的子场景被显示为具有到远程显示器RD1的主视图(代表从会议室本地显示器LD接收的场景)以及网络接口10或10a的引线，表示会议室(本地)显示器LD电话会议客户端“透明地”处理从USB外设设备100接收的视频信号作为单个摄像机视图，并将合成的输出CO传送到远程客户端或远程显示器RD1和RD2。应该注意，所有的缩略视图也可以示出合成输出CO。概括地，图19、20和22对应于图3A-5B所示的与会者的安排，在图21中在图3A-5B所示的空座位中加入一名附加的与会者。

在示例性转移中，缩减的全景视频信号SC.R(占据垂直屏幕的约25％)可以显示全景场景视频信号SC的“放大”片段(例如，如图9A-9E所示)。缩放级别可以由大约25％中包含的像素数来确定。当人/对象M1、M2...Mn变得相关时，将对应的子场景SS1、SS2...SSn(例如，通过合成滑动视频面板)转移到舞台场景STG或合成输出CO中，保持在参与者M1、M2...Mn中其顺时针或左至右的位置。同时，使用GPU 6存储器或ROM/RAM 8的处理器可以缓慢地向左或向右滚动缩减的全景视频信号SC.R，以便在屏幕的中心显示当前的感兴趣的方位B1、B2...Bn。当前的感兴趣的方位可以突出显示。当识别新的相关子场景SS1、SS2...SSn时，缩减的全景视频信号SC.R可以旋转或平移，使得最近的子场景SS1，SS2...SSn被突出显示并位于缩减的全景视频信号SC.R的中心。利用这种配置，在会议过程中，缩减的全景视频信号SC.R被连续地重新渲染并虚拟地平移以显示房间的相关部分。

如图19所示，在典型的视频会议显示器中，每个与会者的显示器显示主视图和多个缩略视图，均基本上由网络摄像机的输出信号确定。主视图通常是远程与会者之一，缩略视图表示其它与会者。取决于视频会议或聊天系统，主视图可以被选择以显示与会者中活跃的发言者，或者可以通常通过选择缩略图而切换到另一与会者，在一些情况下包括本地场景。在一些系统中，本地场景缩略图总是保留在整个显示范围内，使得每个与会者可以相对于摄像机定位自己以呈现有用的场景(该示例在图19中示出)。

如图19所示，根据本发明的实施例提供了多个与会者的合成舞台视图而不是单个摄像机场景。例如，在图19中，对于与会者M1、M2和M2(由图标M1、M2和M3表示)的潜在的感兴趣方位B1、B2和B3可用于会议摄像机100。如本文所述，因为存在被定位或以其它方式识别的三个可能的与会者M1、M2、M3并且一个SPKR正在发言，所以舞台STG(相当于合成输出CO)可以最初被默认数量的(在这种情况下为两个)相关子场景所占据，包括活跃的发言者SPKR(图19中的与会者M2)。

图19中示出了三个参与者的显示器：本地显示器LD，例如附接到会议摄像机100和互联网INET的个人计算机；第一个远程与会者A.hex的第一个人计算机(“PC”)或平板显示器远程显示RD1，以及第二个远程与会者A.diamond的第二PC或平板显示器RD2。如在视频会议环境中预期的那样，本地显示器LD最主要显示由本地显示器PC的操作者或视频会议软件选择的远程发言者(图19中的A.hex)，而两个远程显示器RD1、RD2显示由远程操作者或软件选择的视图(例如，活跃的发言者的视图，会议摄像机100的合成视图CO)。

虽然在主视图和缩略视图内的与会者的安排在一定程度上取决于用户选择、甚至视频会议或视频聊天系统内的自动选择，但是在图19的示例中，本地显示器LD典型地显示了其中示出最后一个选定的远程与会者的主视图(例如，A.hex，与具有远程显示器RD1的PC或笔记本电脑一起工作的与会者)以及其中基本上表示所有与会者的一行缩略图(包括来自本地会议摄像机100的合成舞台视图)。相比之下，远程显示器RD1和RD2均显示了包括合成舞台视图CO、STG的主视图(例如，由于发言者SPKR当前正在说话)，其中这一行缩略图同样包含剩余的与会者视图。

图19假设与会者M3已经发言，或者预先被选择为舞台STG的默认占有者，并且已经占据了最相关的子场景(例如，是最近相关的子场景)。如图19所示，对应于发言者M2(图标M2，在远程显示器2中，张开嘴的轮廓M2)的子场景SS1被合成到具有滑动转移(由框线箭头表示)的单个摄像机视图。优选的滑动转移以零或可忽略的宽度开始，在中间，即对应子场景SS1、SS2...SSn的感兴趣的方位B1、B2...Bn滑动到舞台上，然后合成的对应子场景SS1、SS2...SSn的宽度增大，直到达到至少最小宽度，并且可以继续增大合成的对应子场景SS1、SS2...SSn的宽度，直到填充整个舞台为止。因为合成中(中间转移)和合成的场景作为摄像机视图被提供给会议室(本地)显示器LD的电话会议客户端，该合成中和合成的场景可以基本同时(即，呈现为当前视图)呈现在本地客户端显示器LD以及两个远程客户端显示器RD1、RD2的主视图和缩略图中。

在图20中，在图19之后，与会者M1成为最近和/或最相关的发言者(例如，先前的情况是图19的情况，其中与会者M2是最近和/或最相关的发言者)。与会者M3和M2的子场景SS3和SS2根据跟踪和识别标准保持相关，并且可以根据需要被重新合成到较小的宽度(通过缩放或裁剪，可任选地限于2-12倍瞳距的宽度限制，如本文所讨论的)。子场景SS2类似地合成为兼容的大小，然后通过滑动转移(再次由框线箭头表示)合成到舞台STG上。如本文关于图9、图10A-10B、图11A-11B所述，因为新发言者SPKR是在已经显示的与会者M2的方位右侧(从上到下透视，顺时针)的与会者M1，所以可任选地，以保持从左到右的旋向性或顺序(M3、M2、M1)的方式，在这种情况下是从右侧转移，将子场景SS1转移到舞台上。

在图21中，在图20之后，到达房间的新的与会者M4成为最近和最相关的发言者。发言者M2和M1的子场景SS2和SS1根据跟踪和识别标准保持相关，并保持合成为“3对1”宽度。对应于发言者M3的子场景“被淘汰”，并且不再和最近的发言者一样相关(尽管本文描述了许多其它优先级和相关性)。对应于发言者M4的子场景SS4被合成为兼容尺寸，然后通过翻转转移(再次由框线箭头表示)合成到摄像机输出，子场景SS3被翻转移除。这也可以是滑动或替代转移。尽管未示出，但是作为替代方案，由于新的发言者SPKR是在已经显示的与会者M2和M1的方位左侧(从上到下的透视，顺时针)的与会者M4，可任选地以保持从左到右的旋向性或顺序(M4、M2、M1)的方式，在这种情况下是从左侧转移，将子场景SS4转移到舞台上。在这种情况下，子场景SS2、SS1可以均分别转移一个位置至右，并且子场景M3可以退出(滑动转移走)舞台右侧。

如本文所述，图19-21示出了例如在移动设备上的示例性本地和远程视频会议模式，其中合成、跟踪和/或显示的合成场景已被接收并且被显示为单个摄像机场景。这些在前面的段落中的上下文中被提及和描述。

虽然总体信息是相似的，但是图22呈现了一种显示视频会议的形式，它是图19形式的变型。特别地，虽然在图19中，缩略图与主视图不重叠，与主视图相匹配的缩略视图被保留在缩略图行内，但在图22的形式中，缩略图与主视图重叠(例如，被合成为叠加在主视图上)，并且当前主视图在缩略图行中被去加重突出(例如，通过变暗等)。

图23示出了图19-22的变型，其中对应于高分辨率、特写镜头或仅是单独的摄像机7的第四客户端具有经由网络接口10b连接到电话会议组的其自己的客户端，而通过网络接口10a将合成输出CO及其转移呈现到会议室(本地)显示器LD。

图24示出图19-22的变型，其中具有文本审阅窗口的代码或文档审阅客户端通过本地无线连接而连接到会议摄像机100(尽管在一个变型中，代码或文档审阅客户端可以经由互联网从远程站连接)。在一个示例中，第一设备或客户端(PC或平板电脑)运行视频会议或聊天客户端，以全景视图显示与会者，并且第二客户端或设备(PC或平板电脑)运行代码或文档审阅客户端并将其提供给会议摄像机100作为与网络摄像机相同形式的视频信号。会议摄像机100将代码或文件审阅客户端的文档窗口/视频信号合成到舞台STG或CO作为全帧子场景SSn，并且还可任选地合成包括会议与会者的本地全景场景，例如以上的舞台STG或CO。以这种方式，视频信号内所示的文本可用于所有参与者代替各个与会者子场景，但是通过参考全景视图SC仍然可以注意与会者。虽然未示出，但是会议摄像机100设备可以可替换地创建、实例化或执行第二视频会议客户端来驻留文档视图。另外，高分辨率、特写镜头或仅是单独的摄像机7具有通过网络接口10b连接到电话会议组的其自己的客户端，而通过网络接口10a将合成输出CO及其转移呈现到会议室(本地)显示器。

在至少一个实施例中，可以在舞台场景视频信号或合成输出STG、CO中始终显示与会者M1、M2...Mn。如图25所示，例如，基于至少面部宽度检测，处理器6可以裁剪面部作为仅面部的子场景SS1、SS2...SSn，并将其沿舞台场景视频信号或者合成输出STG、CO的顶部或底部排列。在这种情况下，希望参与者使用诸如远程设备RD1之类的设备能够点击或触摸(在触摸屏的情况下)裁剪的仅面部子场景SS1、SS2、SSn，以便与本地显示器LD通信以创建以该人为中心的舞台场景视频信号STG。在一个示例性解决方案中，使用类似于图1B并直接连接到互联网INET的配置，会议摄像机100可以创建或实例化适当数量的虚拟视频会议客户端和/或为每个分配虚拟摄像机。

图26示出了贯穿图1-26所使用的一些图示和符号。特别地，从摄像机镜头的中心延伸的箭头可以对应于感兴趣的方位B1、B2...Bn，无论箭头在各个视图中是否被如此标记。从摄像机镜头以开口的“V”形角度延伸的虚线可以对应于镜头的视场，无论虚线在各个视图中是否被如此标记。具有带有方形或梯形身体的椭圆形头部的人物的简要“人物线条图”描绘可以对应于会议参与者，无论该简绘人物在各个视图中是否被如此标记。在简绘人物上的张开的嘴的描述可以描绘当前的发言者SPKR，无论具有张开嘴的简绘人物在各个视图中是否被如此标记。从左到右、从右到左、从上到下或螺旋形状延伸的宽箭头可以指示正在进行的转移或转移的合成，无论箭头在各个视图中是否被如此标记。

在本公开内容中，“广角摄像机”和“宽场景”取决于视场和与对象的距离，并且包括具有宽度足以在会议中捕获不是肩并肩的两个不同的人的视场的任何摄像机。

除非指定了垂直视场，否则“视场”是摄像机的水平视场。如本文所使用的，“场景”表示由摄像机捕获的场景的图像(静止或运动)。通常，虽然并不是没有例外，全景“场景”SC是由系统处理的最大图像或视频流或信号之一，无论该信号是由单个摄像机捕获还是从多个摄像机拼接。本文中最常提到的场景“SC”包括场景SC，其是由耦合到鱼眼镜头的摄像机、耦合到全景光学器件的摄像机或重叠摄像机的等角度分布所捕获的全景场景SC。全景光学器件可以基本上直接向摄像机提供全景场景；在鱼眼镜头的情况下，全景场景SC可以是水平带，其中鱼眼视图的视域或水平带已经被隔离并且被去扭曲校正为长的高纵横比矩形图像；并且在重叠的摄像机的情况下，全景场景可以从个体重叠视图中拼接和裁剪(并且可能被去扭曲校正)。“子场景”是指场景的子部分，例如比整个场景小的连续且通常为矩形的像素块。全景场景可以被裁剪成小于360度、并且仍然被称为其中处理子场景的整个场景SC。

如本文所用，“纵横比”被讨论为H:V水平:垂直比，其中“较大”纵横比增大了相对于垂直的水平比例(宽而短)。大于1:1(例如，1.1:1、2:1，10:1)的纵横比被认为是“风景形式”，并且出于本公开内容的目的，等于或小于1:1的纵横比被认为是“肖像形式”(例如，1:1.1、1:2、1:3)。“单个摄像机”视频信号被格式化为对应于一个摄像机的视频信号，例如UVC，也被USB开发者论坛称为“视频设备的USB设备类定义”1.1或1.5，每个都通过引用整体并入本文(参见，在相同URL的http://www.usb.org/developers/docs/devclass_docs/USB_Video_Class_1_5.zipUSB_Video_Class_1_1_090711.zip)。在UVC中讨论的任何信号可以是“单个摄像机视频信号”，无论该信号是否通过USB传输、携载、传送或隧穿。

“显示器”表示任何直接显示屏幕或投影显示器。“摄像机”表示数字成像器，其可以是CCD或CMOS摄像机、热成像摄像机或RGBD深度或渡越时间摄像机。摄像机可以是由两个或更多个拼接的摄像机视图形成的虚拟摄像机和/或具有宽纵横比、全景、广角、鱼眼或反射折射透视图。

“参与者”是连接到群组视频会议会话并显示来自网络摄像机的视图的人、设备或位置；虽然在大多数情况下“与会者”是参与者，但也在与会议摄像机100相同的房间内。“发言者”是正在发言或最近发言足以使得会议摄像机100或相关远程服务器来识别他或她的与会者；但是在一些描述中也可以是正在发言或者最近发言足以使得视频会议客户端或相关的远程服务器识别他或她的参与者。

“合成”通常表示如本领域已知的数字合成，即，数字组装多个视频信号(和/或图像或其它媒体对象)以产生最终视频信号，包括诸如α合成和混合、抗混叠、基于节点的合成、关键帧、基于层的合成、嵌套合成或排版、深度图像合成(使用颜色、不透明度和使用深度数据的深度，无论是基于功能或基于样本的)之类的技术。合成是一个不间断的过程，包括均包含视频流的子场景的运动和/或动画，例如，在整个舞台场景中的不同帧、窗口和子屏幕均可以在它们被移动、转移、混合或以其它方式合成为整个舞台场景时显示不同的不间断的视频流。如本文所使用的合成可以使用具有用于一个或多个窗口的一个或多个屏外缓冲器的合成窗口管理器或堆叠窗口管理器。任何屏外缓冲器或显示存储器内容可以被双倍或三倍缓冲或以其它方式缓冲。合成还可以包括在缓冲或显示存储器窗口中的任一个或两者上的处理，例如应用2D和3D动画效果、混合、淡出、缩放、放大、旋转、复制、弯曲、扭曲、重排、模糊、添加阴影、发光、预览和动画。它可以包括将这些应用于面向矢量的图形元素或面向像素或面向体素的图形元素。合成可以包括在触摸、鼠标悬停、悬停或点击后渲染弹出式预览，通过相对于背景重新排列若干窗口以允许通过触摸、鼠标悬停、悬停或点击进行选择的窗口切换，以及翻转切换、覆盖切换、环形切换、Exposé切换等。如本文所讨论的，可以在舞台上使用各种视觉转移-淡出、滑动、生长或缩小，以及这些的组合。本文使用的“转移”包括必要的合成步骤。

结合本文公开的实施例描述的方法或算法的步骤可以直接具体化在硬件中，具体化在由处理器执行的软件模块中，或者两者的组合中。软件模块可以驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移除磁盘、CD-ROM或本领域已知的任何其它形式的储存介质中。示例性储存介质可以耦合到处理器，使得处理器可以从储存介质读取信息和向储存介质写入信息。在替代方案中，储存介质对于处理器可以是整体的。处理器和储存介质可以驻留在ASIC中。ASIC可以驻留在用户终端中。在替代方案中，处理器和储存介质可以作为分立部件驻留在用户终端中。

上述所有过程可以具体化在一个或多个通用或专用计算机或处理器所执行的软件代码模块中和通过其完全自动化。代码模块可以存储在任何类型的计算机可读介质或其它计算机储存设备或储存设备的集合上。方法中的一些或全部可以可替换地具体化在专用计算机硬件中。

本文所描述的所有方法和任务可通过计算机系统执行和完全自动化。在一些情况下，计算机系统可以包括通过网络进行通信和交互操作以执行所描述的功能的多个不同的计算机或计算设备(例如，物理服务器、工作站、储存阵列等)。每个这样的计算设备通常包括执行被存储在存储器或其它非暂时性计算机可读储存介质中的程序指令或模块的处理器(或多个处理器或电路或电路集合，例如模块)。本文公开的各种功能可以具体化在这样的程序指令中，尽管所公开的功能中的一些或全部可以可替换地在计算机系统的专用电路(例如，ASIC或FPGA)中实现。在计算机系统包括多个计算设备的情况下，这些设备可以但并非必须位于同一位置。所公开的方法和任务的结果可以通过将诸如固态存储器芯片和/或磁盘之类的物理储存设备转移成不同的状态来持续地被存储。

Claims

1.一种合成并输出视频信号的方法，包括：

记录从宽摄像机捕获的具有基本上为2.4:1或更大的纵横比的全景视频信号，所述宽摄像机具有基本上为90度或更大的水平视场角度；

从所述宽摄像机在相应的感兴趣的方位处对至少两个子场景视频信号进行子采样；

并排地合成所述至少两个子场景视频信号以形成具有基本上为2:1或更小的纵横比的舞台场景视频信号，其中，从所述全景视频信号对所述舞台场景视频信号的80％以上的区域进行子采样；以及

输出被格式化为单个摄像机视频信号的所述舞台场景视频信号。

2.根据权利要求1所述的方法，还包括：

从所述全景视频信号在相应的感兴趣的方位处对附加子场景视频信号进行子采样；以及

将所述至少两个子场景视频信号和所述至少一个附加子场景视频信号合成，以形成包括多个并排的子场景视频信号并且具有基本上为2:1或更小的纵横比的舞台场景视频信号。

3.根据权利要求2所述的方法，其中，将所述至少两个子场景视频信号和所述至少一个附加子场景视频信号合成以形成舞台场景视频信号包括：

通过替换所述至少两个子场景视频信号中的至少一个子场景视频信号，来将所述至少一个附加子场景视频信号转移到所述舞台场景视频信号中，以形成具有基本上为2:1或更小的纵横比的舞台场景视频信号。

4.根据权利要求3所述的方法，其中，每个子场景视频信号被分配最小宽度，并且在完成到所述舞台场景视频信号中的每个相应转移后，每个子场景视频信号以基本上不小于其最小宽度被并排地合成，以形成所述舞台场景视频信号。

5.根据权利要求4所述的方法，其中，被转移的每个相应子场景视频信号的合成宽度在整个所述转移中增大，直到所述合成宽度基本上等于或大于对应的相应最小宽度为止。

6.根据权利要求4所述的方法，其中，每个子场景视频信号以基本上不小于其最小宽度被并排地合成，并且每个子场景视频信号以相应宽度被并排地合成，在所述相应宽度下所有合成的子场景视频信号的总和基本上等于所述舞台场景视频信号的宽度。

7.根据权利要求6所述的方法，其中，所述舞台场景视频信号内的子场景视频信号的宽度被合成为根据在与子场景视频信号对应的至少一个感兴趣的方位处检测到的活动标准而改变，而所述舞台场景视频信号的宽度保持恒定。

8.根据权利要求2所述的方法，其中，将所述至少两个子场景视频信号和所述至少一个附加子场景视频信号合成以形成舞台场景视频信号包括：

通过将所述至少两个子场景视频信号中的至少一个子场景视频信号的宽度缩减与所述至少一个附加子场景视频信号的宽度对应的量，来将所述至少一个附加子场景视频信号转移到所述舞台场景视频信号中。

9.根据权利要求8所述的方法，其中，每个子场景视频信号被分配相应的最小宽度，每个子场景视频信号以基本上不小于对应的相应最小宽度被并排地合成以形成所述舞台场景视频信号，并且当所述至少两个子场景视频信号连同所述至少一个附加子场景视频信号的相应最小宽度的总和超过所述舞台场景视频信号的宽度时，所述至少两个子场景视频信号中的至少一个子场景视频信号被转移以从所述舞台场景视频信号中被移除。

10.根据权利要求9所述的方法，并且其中，所述两个子场景视频信号中的被转移以从所述舞台场景视频信号中被移除的所述至少一个子场景视频信号对应于最近最不满足活动标准的相应的感兴趣的方位。

11.根据权利要求9所述的方法，其中，在所述至少两个子场景视频信号和所述至少一个附加子场景视频信号被合成以形成所述舞台场景视频信号时，所述至少两个子场景视频信号和所述至少一个附加子场景视频信号的相应的感兴趣的方位中相对于所述宽摄像机左到右的顺序被保持。

12.根据权利要求1所述的方法，其中，根据相对于所述宽摄像机在相应的感兴趣的方位处检测到的选择标准来选择从所述全景视频信号的每个相应的感兴趣的方位，并且还包括：

在选择标准不再为真之后，转移对应的子场景视频信号以从所述舞台场景视频信号中被移除。

13.根据权利要求12所述的方法，其中，所述选择标准包括在相应的感兴趣的方位处满足的活动标准的存在，并且还包括：

计算从在所述相应的感兴趣的方位处满足所述活动标准开始的时间，其中，在相应的感兴趣的方位处满足所述活动标准之后的预定时间段，相应的子场景信号被转移以从所述舞台场景视频信号中被移除。

14.根据权利要求1所述的方法，还包括：

从所述全景视频信号对具有基本上为8:1或更大的纵横比的缩减的全景视频信号进行子采样；以及

将所述至少两个子场景视频信号和所述缩减的全景视频信号合成，以形成包括多个并排的子场景视频信号和所述全景视频信号并且具有基本上为2:1或更小的纵横比的舞台场景视频信号。

15.根据权利要求14所述的方法，还包括：

将所述至少两个子场景视频信号和所述缩减的全景视频信号合成，以形成包括多个并排的子场景视频信号以及位于所述多个并排的子场景视频信号上方的所述全景视频信号并且具有基本上为2:1或更小的纵横比的舞台场景视频信号，所述全景视频信号不超过所述舞台场景视频信号的区域的1/5，并且基本上跨所述舞台场景视频信号的宽度而延伸。

16.根据权利要求14所述的方法，还包括：

对来自文本文档的文本视频信号进行子采样；以及

通过用所述文本视频信号替换所述至少两个子场景视频信号中的所述至少一个子场景视频信号，来将所述文本视频信号转移到所述舞台场景视频信号中。

17.根据权利要求3所述的方法，还包括：

基于保留标准将所述至少两个子场景视频信号中的至少一个子场景视频信号设置为被保护以免于转移的受保护的子场景视频信号，其中，通过替换所述至少两个子场景视频信号中的至少一个子场景视频信号来将所述至少一个附加子场景视频信号转移到所述舞台场景视频信号中转移除了所述受保护的子场景之外的子场景视频信号。

18.根据权利要求1所述的方法，还包括基于加重突出标准来设置子场景加重突出操作，其中，基于相应的加重突出标准根据所述子场景加重突出操作来加重突出所述至少两个子场景视频信号中的至少一个子场景视频信号。

19.根据权利要求1所述的方法，还包括：

基于来自传感器的感测标准来设置子场景参与者通知操作，其中，基于相应的感测标准根据所述通知操作来激活本地提醒标记。

20.根据权利要求1所述的方法，其中，所述全景视频信号具有基本上为8:1或更大的纵横比，所述全景视频信号从具有基本上为360度的水平视场角度的宽摄像机捕获。

21.一种跟踪宽视频信号内的感兴趣的方位处的子场景的方法，包括：

用声学传感器阵列和观察基本上90度或更大的视场的宽摄像机来监测角度范围；

沿着在所述角度范围内检测到的声学识别和视觉识别中的至少一个的定位来识别第一感兴趣的方位；

沿着所述第一感兴趣的方位从所述宽摄像机对第一子场景视频信号进行子采样；以及

根据所述声学识别和所述视觉识别中的至少一个的信号特性来设置所述第一子场景视频信号的宽度。

22.根据权利要求21所述的方法，其中，所述信号特性代表所述声学识别和所述视觉识别中的至少一个的置信水平。

23.根据权利要求21所述的方法，其中，所述信号特性代表在所述声学识别和所述视觉识别中的至少一个内识别的特征的宽度。

24.根据权利要求23所述的方法，其中，所述信号特性对应于沿着所述第一感兴趣的方位识别的人脸的近似宽度。

25.根据权利要求23所述的方法，其中，当未根据所述视觉识别的信号特性设置宽度时，沿着在所述角度范围内检测到的声学识别的定位来设置预定宽度。

26.根据权利要求21所述的方法，其中，所述第一感兴趣的方位由视觉识别来确定，并且其中，根据所述视觉识别的信号特性设置所述第一子场景视频信号的宽度。

27.根据权利要求21所述的方法，其中，所述第一感兴趣的方位被识别为指向在所述角度范围内检测到的声学识别；并且还包括：

识别接近所述声学识别的视觉识别，其中，根据接近所述声学识别的所述视觉识别的信号特性来设置所述第一子场景视频信号的宽度。

28.一种跟踪宽视频信号内的感兴趣的方位处的子场景的方法，包括：

遍及对应于基本上为90度或更大的宽摄像机视场的运动视频信号来扫描子采样窗口；

识别所述子采样窗口内的候选方位，每个感兴趣的方位对应于在所述子采样窗口内检测到的视觉识别的定位；

将所述候选方位记录在空间图中；以及

使用用于声学识别的声学传感器阵列来监测与所述宽摄像机视场对应的角度范围。

29.根据权利要求28所述的方法，其中，当接近被记录在所述空间图中的一个候选方位检测到声学识别时，还包括：

捕捉第一感兴趣的方位以基本上对应于所述一个候选方位；以及

沿着所述第一感兴趣的方位从所述宽摄像机对第一子场景视频信号进行子采样。

30.根据权利要求29所述的方法，还包括：

根据所述声学识别的信号特性来设置所述第一子场景视频信号的宽度。

31.根据权利要求30所述的方法，其中，所述信号特性代表所述声学识别的置信水平。

32.根据权利要求30所述的方法，其中，所述信号特性代表所述声学识别和所述视觉识别中的至少一个内识别的特征的宽度。

33.根据权利要求30所述的方法，其中，所述信号特性对应于沿着所述第一感兴趣的方位识别的人脸的近似宽度。

34.根据权利要求30所述的方法，其中，当未根据所述视觉识别的信号特性设置宽度时，沿着在所述角度范围内检测到的声学识别的定位来设置预定宽度。

35.一种跟踪感兴趣的方位处的子场景的方法，包括：

记录与基本上为90度或更大的宽摄像机视场对应的运动视频信号；

利用用于声学识别的声学传感器阵列来监测与所述宽摄像机视场对应的角度范围；

对指向在所述角度范围内检测到的声学识别的第一感兴趣的方位进行识别；以及

根据所述第一感兴趣的方位在所述运动视频信号中定位子采样窗口；以及

对在所述子采样窗口内检测到的视觉识别进行定位。

36.根据权利要求35所述的方法，还包括：

对基本上以所述视觉识别为中心的从所述宽摄像机捕获的第一子场景视频信号进行子采样；以及

根据所述视觉识别的信号特性来设置所述第一子场景视频信号的宽度。

37.一种跟踪宽视频信号内的感兴趣的方位处的子场景的方法，包括：

用声学传感器阵列和观察基本上为90度或更大的视场的宽摄像机来监测角度范围；

对均指向所述角度范围内的定位的多个感兴趣的方位进行识别；

维持具有与所述感兴趣的方位对应的记录特性的空间图；

基本上沿着至少一个感兴趣的方位从所述宽摄像机对子场景视频信号进行子采样；以及

根据与所述至少一个感兴趣的方位对应的记录特性来设置所述子场景视频信号的宽度。

38.一种跟踪宽视频信号内的感兴趣的方位处的子场景的方法，包括：

通过扩展所述子场景视频信号直到满足基于至少一个识别标准的阈值为止，来设置所述子场景视频信号的宽度。

39.根据权利要求38所述的方法，还包括：

基于与定位对应的记录特性的速度和方向中的一个的变化，来预测针对每个感兴趣的方位的变化矢量；以及

基于所述预测来更新每个感兴趣的方位的位置。

40.根据权利要求38所述的方法，还包括：

基于与定位对应的记录特性的最近位置，来预测针对定位的搜索区域；以及

基于所述预测来更新所述定位的位置。