CN102090069A - 可缩放视频和音频通信系统中的改进视图布局管理 - Google Patents
可缩放视频和音频通信系统中的改进视图布局管理 Download PDFInfo
- Publication number
- CN102090069A CN102090069A CN200980127625.1A CN200980127625A CN102090069A CN 102090069 A CN102090069 A CN 102090069A CN 200980127625 A CN200980127625 A CN 200980127625A CN 102090069 A CN102090069 A CN 102090069A
- Authority
- CN
- China
- Prior art keywords
- layout
- view
- vision
- signal
- vision signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004891 communication Methods 0.000 title claims abstract description 35
- 238000000034 method Methods 0.000 claims abstract description 114
- 230000005236 sound signal Effects 0.000 claims abstract description 85
- 230000004438 eyesight Effects 0.000 claims description 117
- 230000000694 effects Effects 0.000 claims description 27
- 230000006870 function Effects 0.000 claims description 25
- 229910052698 phosphorus Inorganic materials 0.000 claims description 12
- 229910052757 nitrogen Inorganic materials 0.000 claims description 11
- 230000008859 change Effects 0.000 claims description 10
- 238000012216 screening Methods 0.000 claims description 10
- 230000003044 adaptive effect Effects 0.000 claims description 6
- 230000005540 biological transmission Effects 0.000 claims description 2
- 230000006835 compression Effects 0.000 claims 4
- 238000007906 compression Methods 0.000 claims 4
- JHGSLSLUFMZUMK-UHFFFAOYSA-N [2-hydroxy-2-(4-hydroxyphenyl)ethyl]-[4-(4-hydroxyphenyl)butan-2-yl]azanium;chloride Chemical compound Cl.C=1C=C(O)C=CC=1C(O)CNC(C)CCC1=CC=C(O)C=C1 JHGSLSLUFMZUMK-UHFFFAOYSA-N 0.000 claims 2
- 238000006467 substitution reaction Methods 0.000 claims 2
- 239000010410 layer Substances 0.000 description 69
- 230000008569 process Effects 0.000 description 64
- 239000011159 matrix material Substances 0.000 description 17
- 238000005516 engineering process Methods 0.000 description 15
- 230000003321 amplification Effects 0.000 description 12
- 238000003199 nucleic acid amplification method Methods 0.000 description 12
- 238000006243 chemical reaction Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 238000005070 sampling Methods 0.000 description 9
- 238000007726 management method Methods 0.000 description 8
- 230000008901 benefit Effects 0.000 description 7
- 238000013461 design Methods 0.000 description 6
- 238000013507 mapping Methods 0.000 description 6
- 230000006978 adaptation Effects 0.000 description 5
- 230000008878 coupling Effects 0.000 description 5
- 238000010168 coupling process Methods 0.000 description 5
- 238000005859 coupling reaction Methods 0.000 description 5
- 230000011664 signaling Effects 0.000 description 5
- 238000009826 distribution Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000005520 cutting process Methods 0.000 description 3
- 230000002708 enhancing effect Effects 0.000 description 3
- 238000002156 mixing Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 239000002356 single layer Substances 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 230000009897 systematic effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- YBJHBAHKTGYVGT-ZKWXMUAHSA-N (+)-Biotin Chemical compound N1C(=O)N[C@@H]2[C@H](CCCCC(=O)O)SC[C@@H]21 YBJHBAHKTGYVGT-ZKWXMUAHSA-N 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000011284 combination treatment Methods 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000011229 interlayer Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000005043 peripheral vision Effects 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 238000012913 prioritisation Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000008672 reprogramming Effects 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 238000013341 scale-up Methods 0.000 description 1
- 238000010408 sweeping Methods 0.000 description 1
- FEPMHVLSLDOMQC-UHFFFAOYSA-N virginiamycin-S1 Natural products CC1OC(=O)C(C=2C=CC=CC=2)NC(=O)C2CC(=O)CCN2C(=O)C(CC=2C=CC=CC=2)N(C)C(=O)C2CCCN2C(=O)C(CC)NC(=O)C1NC(=O)C1=NC=CC=C1O FEPMHVLSLDOMQC-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/60—Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client
- H04N21/65—Transmission of management data between client and server
- H04N21/654—Transmission by server directed to the client
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
- H04N7/152—Multipoint control units therefor
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/2343—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
- H04N21/234327—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by decomposing into layers, e.g. base layer and one or more enhancement layers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/25—Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
- H04N21/266—Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
- H04N21/2662—Controlling the complexity of the video stream, e.g. by scaling the resolution or bitrate of the video stream based on the client capabilities
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/431—Generation of visual interfaces for content selection or interaction; Content or additional data rendering
- H04N21/4312—Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
- H04N21/4314—Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations for fitting data in a restricted space on the screen, e.g. EPG data in a rectangular grid
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/462—Content or additional data management, e.g. creating a master electronic program guide from data received from the Internet and a Head-end, controlling the complexity of a video stream by scaling the resolution or bit-rate based on the client capabilities
- H04N21/4622—Retrieving content or additional data from different sources, e.g. from a broadcast channel and the Internet
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/485—End-user interface for client configuration
- H04N21/4858—End-user interface for client configuration for modifying screen layout parameters, e.g. fonts, size of the windows
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/60—Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client
- H04N21/65—Transmission of management data between client and server
- H04N21/658—Transmission by the client directed to the server
- H04N21/6587—Control parameters, e.g. trick play commands, viewpoint selection
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
一种用于经由通信网络传送被可缩放地编码成为包括基本层和一个或多个增强层的多个视频信号以及关联音频信号(如果存在)以向一个或多个终端用户呈现的系统和方法。用于显示多个视频信号的布局基于一组标准来确定,而且仅以所确定布局显示视频信号所必需的视频信号层的数据以及任何关联音频信号经由通信网络被选择性地传送。
Description
相关申请的交叉引用
本申请要求2008年6月9日提交的题为“用于可缩放视频和音频通信系统中的改进视图布局管理的系统和方法(System and Method for ImprovedView Layout Management in Scalable Video and Audio CommunicationSystems)”的美国临时申请No.61/060,072的优先权。
本申请与共同受让的题为“用于使用可缩放视频编码的可缩放和低延迟视频会议的系统和方法(System and Method for Scalable and Low-DelayVideoconferencing Using Scalable Video Coding)”的国际专利申请No.PCT/US06/028365以及题为“用于使用可缩放视频编码的视频会议和组合可缩放视频会议服务器的系统和方法(System and Method forVideoconferencing Using Scalable Video Coding and Compositing ScalableVideo Conferencing Servers)”的PCT/US06/62569相关,上述申请通过引用整体结合于此。
领域
本申请涉及视频通信系统。具体而言,本发明涉及用于管理一个或多个显示器上的不同的可缩放视频源的多个视图的布局。
背景技术
存在其中可在一个或多个视频显示器上呈现多个视频视图的若干应用。一个示例是多点视频会议系统,其中一个或多个视频流到达接收器,并且必须在公共的显示器上呈现。出于该目的,高端视频会议系统实际上可采用两个或更多个显示器。随着参与者数量增加,在给定显示区域上填充所有视频窗口变得不可能。同时,如果该显示器是计算机的显示器,则它可能由其它应用程序共享,因此用户可能将该视频会议应用程序窗口限制至计算机屏幕的子集。另一示例是视频监视应用,其中来自多个摄像机 的馈送可到达控制站处,在控制站处这些馈送必须在一个或多个物理显示器设备(计算机或TV监视器)中显示。另一应用是多节目电视,其中单个设备同时显示多个节目。此外,随着视频编程在因特网上越来越多地出现,创建提供与模拟或数字TV的传统画中画模式相似的功能但具有较大视图集的播放器是容易的。
多个视图在给定屏幕上的组织典型地遵循矩形网格组织模式来执行。例如,在四个相同大小的馈送的情况下,可将屏幕划分成较小视图或窗口的2×2矩形阵列,并在每个馈送自己的窗口中显示每个馈送。典型地,较小视图包含原始馈送的按比例缩小版本,因此它们能放在所分配的屏幕区域内。在诸如视频会议的常规应用中,还常常在较大视图(例如占据屏幕的一个角落)中显示活动发言人,同时在该主视图周围该主视图侧面的较小视图中显示其它参与者。
在使用代码转换多点控制单元(MCU)的传统视频会议系统中,各个馈送的合成在MCU自身处进行。MCU接收来自发送参与者的传入馈送、将它们解码、然后在适当缩小之后将它们合成为新的帧。然后MCU将经合成信号编码,并发送至预期的接收者。如果MCU支持个性化布局,则合成和编码可针对每个接收者单独地进行。给定的参与者选择所需布局,并通知MCU以使其产生所需合成。合成选项是在MCU处预配置的,从而对可用模式的任何改变需要其重新设计或重新编程。
在视频播放器接收和显示多个视频源(很可能也来自不同位置)的一般设定中,播放器负责将各个视频画面按比例缩小和合成为所显示的图像。这为播放器提供以其选择的任何方式组织布局的灵活性,但也导致作为各个源的比特率总和的总比特率要求。反之,在利用代码转换MCU的视频会议设定中,所接收的合成信号的比特率是单个视频源的比特率。然而,应注意,MCU解码并重新编码视频流的需要增加了相当长的等待时间,而且需要大量计算功率。
在以多视频视图为特征的系统中解决灵活性、复杂度以及比特率开销之间的折衷时的基本限制在于此类系统典型地利用传统的单层视频编码解码器,诸如H.264AVC、VC-1、MPEG-4、MPEG-2以及VP6/VP7的事实。 替代的编码技术是分层或可缩放编码。可缩放编码被用于产生两个或更多个“缩放”比特流,这两个或更多个“缩放”比特流以带宽高效的方式在相应数量的保真点处共同表示给定媒体。可缩放性可按照多个不同维度来提供。例如,视频信号可在不同层中以CIF和QCIF分辨率、且以7.5、15以及30帧每秒(fps)的帧率被可缩放编码。取决于编码解码器的结构,空间分辨率和帧率的任何组合可从编码比特流中获得。与不同层相对应的比特可作为单独的比特流发送(例如每层一个比特流),或它们可被一起多路复用成一个或多个比特流。为便于在此描述,与给定层相对应的编码比特也可被称为该层的比特流,即使在多个层被复用成单个比特流并发送的情况下也如此。
特别设计用于提供可缩放性特征的视频编码解码器包括例如MPEG-2(ISO/IEC 13818-2,也称为ITU-T H.262)以及近来开发的H.264可缩放视频编码(H.264 SVC)扩展(2007年11月的ITU-T推荐H.264的附录G,通过引用整体结合于此)。可缩放音频编码解码器包括ITU-T G.729.1和Speex(参见www.speex.org)。
特别设计用于视频通信的可缩放视频编码(SVC)技术也在共同受让的题为“利用可缩放视频编码的用于可缩放和低延迟的视频会议的系统和方法(System and Method for Scalable and Low-Delay VideoconferencingUsing Scalable Video Coding)”的国际专利申请No.PCT/US06/028365中进行了描述。注意,即使并非特别设计成可缩放的编码解码器也能在时间维度上呈现可缩放性特性(例如MPEG-2或H.264AVC)。
可缩放编码解码器典型地具有金字塔比特流结构。以H.264SVC为例,通过利用标准H.264技术(高级视频编码-AVC)对源进行编码而获得第一保真点。通过对所得的编码误差(原始信号与第一保真点的解码版本之间的差别)进行编码并在该编码误差自身的比特流中发送该编码误差,可获得附加的保真点。该金字塔结构是非常常见的(例如,曾用于MPEG-2和MPEG-4)。第一(最低)保真水平比特流被称为基本层,而提供附加保真点的比特流被称为增强层。该保真增强可以在任何保真维度中进行。例如,对于视频而言,它可以是时间(帧率)、质量(信噪比或SNR)、 空间(画面大小)或3-D(例如具有立体增强层)。对于音频而言,它可以是时间(每秒样本数)、质量(SNR)或附加声道。
可缩放或分层表示的另一示例是多描述编码。这里,该构造不是金字塔形的:每层独立可解码,并提供基本保真水平的表示;然而,如果一个以上层对解码器可用,则可提供原始信号的较高保真水平的解码表示。一个示例是将视频信号的奇数和偶数画面作为两个独立的比特流来发送。每个比特流单独提供第一保真水平,而从其它比特流接收的任何信息可被用于增强该第一保真水平。按照这种观念,任一个流可充当基本层。如果接收了所有流,则获得由特定表示所提供的原始信号的最高质量水平的完整表示。
分层表示的另一示例是多播。在该情况下,原始信号的两个或更多个独立表示在它们自身的比特流中被编码并发送。例如,这通常被用于发送标准清晰度TV素材和高清晰度TV素材。注意,多播是其中未使用层间预测的金字塔形可缩放编码的特殊情况。在下文中,所有此类分层编码技术被称为可缩放编码,除非明确地另外指明。
可缩放编码为基于分组的视频和音频通信提供重要的优点,包括延迟减少、复杂度降低以及系统可缩放性改进。
国际专利申请No.PCT/US06/028365公开了其中可缩放视频通信服务器(“SVCS”)(或在可缩放音频信号的情况下为可缩放音频通信服务器(“SACS”))可利用音频信号的可缩放方面通过为活动发言人发送全清晰度信号并为多个其它参与者发送基本层(例如通过计算得出的音量来确定优先级)来确保发言人之间的平滑过渡。
例如,标准的基于PC的硬件平台上主存的SVCS单元可支持100个或更多个用户。有效地主存与大量用户会话的能力给视图布局管理带来了挑战,因为例如在10-15个以上用户的情况下难以在单个显示器上有效地组合所有用户。所公开的主题给出了用于高效地管理此类系统中的视图布局的系统和方法。
发明内容
所公开的主题利用可缩放编码,并提供用于管理多个视频视图的布局的技术,从而向终端用户提供就屏幕大小、长宽比以及所包括的视图数量而言完全的灵活性,同时降低比特率要求。所公开的主题还提供用于利用用户偏好和可由服务器提供或在接收器本地计算的辅助数据的组合来使多个视频视图的布局自动化的技术。
所公开的主题的各个实施例包括用于经由通信网络传送多个视频信号以及可能存在的相关联音频信号以呈现给一个或多个终端用户的视听通信系统,其中视频信号被可缩放地编码成包括基本层和一个或多个增强层的多个层。接收器接收多个视频和任何相关联的音频信号、基于一组标准确定所显示视频信号的布局、并传达与所确定布局有关的信息。显示器利用所确定的布局显示所接收的一个或多个视频信号。一个或多个服务器经由该通信网络接收与所确定的布局有关的信息,并发送多个视频和任何相关联的音频信号。一个或多个服务器被配置成针对多个视频信号中的每一个选择性地传送用于以所确定的布局显示视频信号所必需的基本层或基本层和一个或多个增强层。
在所公开主题的一些实施例中,音频信号被可缩放地编码成包括基本层和一个或多个增强层的多个层,其中一个或多个服务器选择性地仅发送所确定的布局所必需的音频信号层的数据。
在所公开主题的一些实施例中,一个或多个服务器通过使用每个相关联音频信号的音频活动指示符以及关联视频信号是否在所确定的布局中显示的指示来确定哪些音频信号被选择性地发送,以使具有最高活动性的一个或多个音频信号的音频信号数据被发送,且与在所确定布局中显示的一个或多个视频信号相关联的音频信号数据被发送,以及与余下视频信号相关联的音频信号数据不被发送。
所公开主题的各个实施例包括一种用于经由通信网络传送被可缩放地编码成包括基本层和一个或多个增强层的多个视频信号以及可能存在的关联音频信号以向一个或多个终端用户呈现的方法,该方法包括:基于一组标准确定显示多个视频信号的布局、传达与所确定布局有关的信息、选择性地仅传送以所确定布局显示视频信号所必需的视频信号层以及任何关联 音频信号的数据、接收选择性传送的数据以及利用所确定的布局显示多个视频信号。
所公开主题的各个实施例还包括一种用于呈现经由通信网络从一个或多个服务器接收的多个视频信号以及可能存在的关联音频信号的系统,其中视频信号被可缩放地编码成包括基本层和一个或多个增强层的多个层。接收器从通信网络接收多个视频和任何关联的音频信号、基于一组标准确定显示一个或多个所接收视频信号的布局、并经由通信网络传达所确定布局作为反馈,该反馈包括选择性传送可能存在的所确定布局的视频信号层的指令。连接至接收器的显示器利用所确定的布局显示所接收的一个或多个视频信号。
所公开主题的各个实施例还包括一种用于传送多个视频信号以及一个或多个关联音频信号的系统,其中视频信号被可缩放地编码成包括基本层和一个或多个增强层的多个层。一个或多个服务器接收用于选择性地传送与所确定布局相对应的视频信号层,并选择性地仅传送以所确定布局显示视频信号所必需的视频信号层的数据的指令。
附图简述
图1是示出根据所公开主题的原理的从一个或多个服务器向接收器递送多个可缩放视频和音频流的示例性音频和视频通信系统的一般体系结构的框图;
图2是示出使用代码转换MCU作为服务器的音频和视频会议系统的框图;
图3是示出根据所公开主题的原理的音频和视频通信系统的体系结构的框图,该系统使用可缩放视频和音频编码,并经由SVCS/SACS服务器向接收器递送多个音频和视频流,且其中这些流在接收器上被合成/混合;
图4(a)-(g)描绘根据所公开主题的原理的示例性标准模式矩形视图;
图5(a)-(b)是示出根据所公开主题的原理的用于计算交错矩形布局和矩阵矩形布局的视图扩展的参数的示图;
图6(a)-(c)描绘根据所公开主题的原理的示例性标准模式和放大模式六 边形(包括旋转六边形)布局;
图7是示出根据所公开主题的原理的用于展示(旋转)六边形布局相对于矩形矩阵和交错布局的下视图扩展的参数的示图;
图8(a)-(d)描绘根据所公开主题的原理的示例性放大模式矩形视图;
图9(a)-(c)描绘根据所公开主题的原理的利用交错矩形和六边形视图的放大模式和包括凹入放大视图的六边形视图的示例性组合;
图10描绘根据所公开主题的原理的接收器处的视频会议应用程序的示例性用户界面,其包括被切换至标准模式布局视图的布局选择按钮和预览按钮;
图11描绘根据所公开主题的原理的接收器处的视频会议应用程序的示例性用户界面,其包括被切换至放大模式布局视图的布局选择按钮;
图12描绘根据所公开主题的原理的接收器处的视频会议应用程序的示例性用户界面,其包括用于选择要在屏幕上显示的视图数量和选择自动视图确定模式的下拉菜单;
图13(a)-(b)描绘根据所公开主题的原理的示例布局表条目及其相应的映射;
图14描绘根据所公开主题的原理的目标屏幕尺寸上的布局的大小调整和定位;
图15描绘根据所公开主题的原理的布局选择过程的框图;
图16描绘根据所公开主题的原理的视图分配过程的布局重新处理部分的框图;
图17描绘根据所公开主题的原理的视图分配过程的布局初始化部分的框图;以及
图18(a)-(b)描绘根据所公开主题的原理的被组合在布局中的具有不同长宽比的视图流的裁切和手动扫视。
除非另外指明,否则全部附图中的相同附图标记和符号用来表示所示实施例的相同特征、元素、组件、或部分。而且,当现在将参考附图详细描述所公开的主题时,这一描述是结合说明性实施例来完成的。
详细描述
图1描绘根据一示例性实施例的系统体系结构100,其中一个或多个服务器经由网络102向接收器101提供视频和音频流。图1示出两个此类服务器,其中服务器1提供流1,而服务器2提供两个流——流2和流3。服务器1和服务器2可以是可缩放视频通信服务器(SVCS)系统和/或可缩放音频通信服务器(SACS)系统,它们将从其它参与者(未在附图中示出)接收的数据转发至接收器,或它们可以是独立的媒体服务器(例如从存储体访问内容)。注意,此处的“参与者”也可以是仅发送系统,诸如仅执行编码的单元(例如编码和发送直播TV信号的系统)。
示例性实施例使用公知的用于编码视频信号的商用H.264标准和用于音频的Speex可缩放编码解码器(参见web站点www.speex.org)。一些流可利用单层AVC来编码,而另一些流可利用其可缩放扩展SVC来编码。类似地,一些Speex音频流可仅包含窄带数据(8KHz),而其它Speex音频流可包含窄带以及分别包含宽带(16KHz)或超宽带(32KHz)音频。可使用替代的可缩放编码解码器,诸如MPEG-4/部分2,或用于视频的H.263++或用于音频的G.729.1(EV)。
该网络可以是任何基于分组的网络;例如基于IP的网络,诸如因特网。
在示例性实施例中,接收器是诸如PC或苹果计算机、台式机或膝上计算机的运行软件应用程序的通用计算机。接收器还可以是被设计成例如利用商用操作系统的嵌入式版本来仅运行单个软件应用程序的专用计算机,或甚至是被设计成执行接收应用程序的功能的独立设备。软件应用程序负责与服务器通信以建立连接,以及接收、解码并显示或回放所接收的视频和/或音频流。它也可向服务器传送回其自己编码的视频和/或音频流。此类源于接收器的流可以是对附连至接收器的摄像机和话筒的输出的实时编码的结果,或它们可以是在接收器上本地存储的或可从接收器经由网络访问的文件服务器上存储的预编码视频和音频。在一个实施例中,接收器配备有相连的摄像机和话筒,并将所产生的视频和音频信号编码并经由一个或多个服务器发送至其它参与者。
根据SVCS/SACS体系结构,接收器负责在其显示器上合成从服务器 接收的已解码视频流,并混合和回放已解码音频流。注意,诸如代码转换MCU的传统多点视频服务器在服务器自身上为所有接收参与者执行该功能一次,或为每个接收参与者单独执行该功能。接收器执行其自身合成的能力为用户提供极大的灵活性,但如果未正确设计则会引起较高的比特率要求。
图2描绘具有三个发送方的传统系统的典型示例:发送方1、发送方2以及发送方3、服务器201以及接收器203。服务器201作为代码转换MCU:它从发送方1、2以及3中的每一个分别接收音频(A)流1A、2A和3A以及视频(V)流1V、2V和3V,将这些信号解码,并根据接收器203经由信令通路202指示给服务器201的所需布局来合成视频。已解码音频信号也在服务器201处被混合。所得的合成视频和混合音频信号由服务器201编码,并作为两个独立的流被发送至接收器203:混合音频流A(混合)和合成视频流V(合成)。注意,这些流实际可被发送至接收器203,并经由单个连接(例如单个实时协议(RTP)端口)进行复用。接收器203将音频和视频信号解码并回放。图2进一步描绘接收器的屏幕210的示例布局,其中在显示框1中显示的发送方1被示为大于分别在显示框2和3中显示的发送方2和3。在服务器201和接收器203之间传达的音频和视频流的总比特率要求是在接收器屏幕210的分辨率下的单个流的比特率要求。注意,未被实际内容覆盖的屏幕的任何区域(即源自任何一个参与者的像素)也必须由服务器201编码。然而,其编码开销将典型地小,由于这些区域在每个画面中不变,因此用于诸如H.264的编码解码器的预测编码可将预测错误减小至少量。
如果操作接收器203的用户希望切换至不同的布局,则必须经由信令通路202将该布局传达至服务器201,以使服务器201改变其合成过程。去往服务器201和来自服务器201的传输延迟以及服务器201处的任何处理延迟的组合将引起从用户在应用程序软件中作出请求的时刻开始到新布局出现在接收器屏幕210上的时刻的明显延迟。
图3描绘了图2中示出的同一通信情形,但图3的情形是基于在视频和音频信号中使用了可缩放编码的假定的。具体而言,假定视频信号利用 H.264SVC被编码为具有两层空间可缩放性、且基本层与增强层之间的水平或垂直画面尺寸之比为2(例如VGA和QVGA)。类似地,音频信号被编码为具有两层可缩放性——窄带(基本)和宽带(增强)。从每个发送方(1、2、3)到服务器305的通路1A、2A、3A、1V、2V、3V根据信号类型来标注,A代表音频,V代表视频,且对于每个流中存在的层而言,B代表基本,E代表增强。对于从服务器305到接收器307的通路301、302、303,发送方的编号(1到3)被添加至该标注。作为示例,“1:A/B+E,V/B”表示该流包含来自发送方1的数据,其中对音频存在基本层和增强层二者,而对视频仅存在基本层。因此,图3中的通路301被标注为“1:A/B+E,V/B+E”,表明该流包含来自发送方1的数据,其中对音频和视频二者而言均存在基本层和增强层。
继续参照图3,发送方中的每一个(1、2、3)发送音频和视频信号中的每一个的基本层和增强层的一些组合。特定的层选择可由发送方与接收器307之间的可用比特率、发送方(1、2、3)处可用的可用设备(例如低分辨率摄像机相对于高分辨率摄像机)或其它因素支配。如下所讨论,它也可归因于来自服务器305的不需要增强层的指示(例如,任一接收参与者都没有以全分辨率看到的发送方(1、2、3)的视频增强层)。
所公开主题的一个焦点是当使用可缩放编码时接收器307的操作及其与服务器305的交互。假定接收器307在特定的时间点已选择了某个屏幕尺寸。该尺寸可以是接收器的监视器310的物理尺寸(以像素表示),或如果该应用程序窗口未覆盖整个屏幕,则它可以是该物理尺寸的一部分。在下文中,单词“屏幕”用于无差别地表示整个物理屏幕(当该应用程序处于全屏模式或处于独立实现中)或该应用程序窗口的可用于视频显示的区域。
还可进一步假定,用户在接收器307处已选择了特定布局,其中来自发送方1的视频以全分辨率显示,而来自发送方2和3的视频以全分辨率的3/4显示。如果所有视频信号都具有VGA的全分辨率(640×480像素),则发送方1的视图将具有640×480的尺寸,而发送方2和3的视图将具有480×360的尺寸。为适配这些视图,在图3所示的布局中,在保持屏幕的 长宽比为4∶3的同时,需要至少1120×840的矩形大小。
从代码转换MCU发送此合成视图所需的比特率开销可如下地估算。可假定MCU视频编码器以某个固定的每像素平均比特数操作。于是通过对所显示像素相对于VGA信号的像素进行计数,可估算合成画面所需的总比特率。所显示像素的总数是VGA信号的1+2*0.752,即2.125。该计算忽略了空白空间,该空白空间被假定为可用可忽略数量的比特来编码。因此合成视频的总比特率将为利用单层H.264AVC编码的单个VGA信号所需的总比特率的2.125倍。
继续参照图3和以上作出的布局假定,在示例性实施例中,接收器307指示服务器305:
1)为发送方1传送全分辨率视频(基本和增强),
2)仅为来自发送方2的视频传送基本层,以及
3)仅为来自发送方3的视频传送基本层。
接收器307选择以将来自发送方2和3的视频的接收切换至仅基本层,因为它可将基本层信号(QVGA或320×240)升频采样至所需的3/4VGA分辨率(480×360),且与接收全分辨率VGA信号并将其降频采样至3/4VGA相比视觉差别非常小。升频采样和合成过程在接收器307自身处进行;服务器305仅被告知哪些层分组要转发至特定接收器307。
该情况下所需的总比特率可如下地估算。用于具有比例2的空间可缩放性的基本层与增强层之间的典型比例为3∶1。换言之,基本层比特率是增强层比特率的1/3,或总比特率的0.25。服务器到接收器的视频通路因此需要VGA信号的比特率的1+2*0.25或1.5倍。算上与相比实现如由PSNR测量的相同质量的单层编码可缩放相关联的10%比特率开销,总比特率为1.5×110%或1.65。与代码转换MCU情况相比(2.125),本技术将比特率要求降低了22%。
如果服务器不是SVCS也不是MCU,而是简单地将多个视频流转发给接收器,则总比特率要求开销为3,因为接收并显示了三个视图。在没有可缩放性或代码转换的情况下,接收器别无选择,只能接收所有视图的全分辨率信号,并适当地执行缩放。所公开主题的可缩放设计的一竞争优势在 本情况下甚至更显著,其提供45%的比特率减少。在参与者数量增多的情况下,这些益处被进一步放大。
在音频通信应用的背景下,与简单的转发服务器相比,通过使用具有可缩放编码的SACS体系结构可获得相似的益处。这里假定使用了如国际专利申请No.PCT/US06/62569中描述的“活动加上N个最近发言者(activeplus N most recent speakers)”技术。可进一步假定N为1,活动发言者来自发送方1,且下一更近发言者是发送方2。注意,语音活动水平可在发送方或服务器自身处计算。
利用该信息,且假定使用图3的布局,服务器传送来自发送方1的基本和增强音频信号、来自发送方2的仅基本音频层,且不传送来自发送方3的音频。其总比特率要求比执行其自己的混合的代码转换服务器的总比特率要求稍高,但比简单转发服务器的总比特率要求的2/3低。如下所讨论地,包括N个最近记忆的活动发言者指示可在视频布局自动化中被有利地使用(不论是否使用可缩放音频编码)。
前一示例证实了使用布局管理技术结合可缩放编码以及接收器-服务器信令的优点,以便于在低得多的比特率要求下在接收器处获得提高的灵活性。
虽然已解释了示例,但本文公开内容的示教可更一般地应用于更广泛的具有实际意义的布局。布局可被分成两大类或模式:标准以及放大。在标准模式下,所有参与者(在屏幕上示出的)以相同的视图大小示出。在放大模式下,一个或多个视图以较大尺寸示出,而其它视图以较小视图尺寸示出。如服务器305或接收器307所确定地,视频会议设定中的放大视图可对应于一个或多个活动发言者。在除视听通信之外的应用中,例如观看多源广播内容时,放大视图可以是用户在接收器307处选择以较大视图大小示出的源。
图4(a)-(g)描绘使用矩形视图组织的示例性标准模式布局。屏幕内的每个视图是矩形的。在一个实施例中,这些矩形可遵循原始信号的画面长宽比。图4(a)是视频会议系统中常见的典型的2×2矩阵布局。图4(b)是所有视图垂直堆叠的情况,而图4(c)水平地显示它们。虽然屏幕区域看起来与 典型的监视器屏幕长宽比(16∶9或4∶3)不一致,但该屏幕可以是在计算机上运行的应用程序窗口的区域,从而用户可选择这样的视图以便于能够在同一计算机监视器上看到其它窗口。
图4(d)也是4路矩形视图,但这次上下视图位于屏幕的中线上。初看上去,该视图看起来具有就总像素而言其总屏幕面积比图4(a)的总屏幕面积大的缺点。实际上,如果每个视图具有宽度W和高度H(以像素表示),则图4(a)的屏幕大小是2W×2H,而图4(d)中的屏幕大小是3H×2W。然而,从感觉上而言,图4(d)中的布局会具有在每个视图中呈现为居中的对象彼此更近的优点。通过计算位于屏幕中心点的将包围屏幕上示出的所有视图的中心的最小圆圈的半径,可看出这一优点。半径越小表明呈现为位于各视图中心的视图的对象彼此越近。这使观看者利用直接视觉和周边视觉两者来察觉每个视图中的动作容易得多。该圆圈的半径与视图的高度之比在此被定义为特定布局的“视图扩展”,且通过“v”表示。
图5(a)-(b)描绘4视图情况下的矩阵和交错矩形图案,且示出各种尺寸。对于图5(a)中示出的2×2矩形矩阵,最小包围圆圈的半径RM将是:
其中r=W/H是视图长宽比。
对于图5(b)中示出的交错1×2×1图案的情况,半径RS将等于H(因为通常W/2<H),因此:
假设视图长宽比r通常为4/3或16/9,矩阵图案的视图扩展将分别为0.83和1.02。因此,该矩阵图案的视图扩展在低长宽比下比交错图案低,而在高长宽比下稍高(高2%)。
返回图4(e)-(g),其中描绘了与图4(b)-(d)相似的布局,这次为3个视图。注意,这次无法构造矩阵(假定所有视图具有完全相同的尺寸)。这些布局选项与以下详细描述的布局自动化相关。这些布局结构可推广至任意数量的用户。可能的限制是屏幕的大小(逻辑大小或物理大小),以及用户观看可接受的最小视图。随着视图数量增加,将它们全部适配到屏幕 上是不可能的,因此必须使用如下所详细描述的自动选择机制。
在图5(a)-(b)的背景下讨论的视图扩展可通过考虑非矩形模式来推广。来自取样理论的相关问题是找出使用最小数量的取样点来根据其样本正确重构给定的带宽受限信号的取样模式。对于2D各向同性谱,即圆形的带宽受限2D函数,最优的取样模式是其中轴具有45度角从而产生由六边形组成的Voronoi棋盘形格局的网格(参见例如D.P.Petersen和D.Midleton的“n维欧几里得空间中的波数有限函数的取样和重构(Sampling andReconstruction of Wave-number Limited Functions in n-dimensional EuclideanSpaces)”,Inf.Control,5:279-323,1962)。Voronoi棋盘形格局将2-D平面分解成与网格上的一个点最接近的点的集合。等效地,当每个六边形被其内切圆盘代替(最高充填效率)时,六边形棋盘形格局图案产生最“满”的空间。
利用该性质,可设计诸如图6(a)-(c)中示出的图案的布局图案。图6(a)是5路六边形标准模式布局,而图6(b)是5路放大模式布局,其中单个放大视图的大小被示为其它参与者的大小的两倍。六边形“单元”也可以旋转30°来使用,因此其两个顶点垂直地取向。具有旋转六边形图案的7路标准模式布局的示例在图6(c)中示出。六边形布局在参与者数量多的情况下愈发有效。
如同矩阵和交错矩形视图,此处也能计算可包围4路六边形布局中的所有四个视图中心的最小圆圈的半径RH,从而可获得视图扩展。对于具有边长S的正六边形,其最大直径为2S,其最小直径为 。图7示出每个六边形的高度是其最小直径,即:
由于对称性,半径RH将由下式给出:
在上述方程中,用H代替S,则得到:
利用旋转六边形(参见图6(c)),每个视图的高度是2S,而半径是3S/2, 从而视图扩展为vrotH=0.75,即甚至更低。与矩阵和交错布局的结果相比,vrotH显著小于vS(等于1)和vM(0.86或更高)二者。
第二类布局是放大模式布局。相对于标准布局的差别在于,至少一个视图被示为比其它视图的尺寸大。图8(a)-(d)描绘若干示例。图8(a)是水平取向的具有一个放大视图(视图1)的3路矩形布局。注意,由于视图1已经是余下视图大小的两倍,所以2个视图可堆叠在视图1一侧。图8(b)是6路矩形矩阵的布局。在此,放大视图(视图1)被置于屏幕的左上角,而余下视图位于放大视图周围,在放大视图右侧和下侧。图8(c)描绘垂直取向的同一6路视图。注意,视图6被置于屏幕的中线处,以使空白屏幕空间均匀分布。最后,图8(d)是具有2个放大视图的组织成矩形矩阵的6路布局。具有N个视图的布局的放大视图P的数量可以在0与N-1之间(如果P=N或0则该模式本质上是标准模式)。
交错和六边形布局(或实际上是任意布局)可被组合到一起。图9(a)-(c)描绘使用图9(a)中的交错视图以及图9(b)-(c)中的六边形视图的组合。在所有情况下,单个放大视图被示为大矩形。注意在图9(c)中,放大视图在视图2和5后面“凹入”。该布局提供对屏幕区域的更好利用,从而呈现出视图2和5并未隐藏重要信息(该决定可由用户作出)。仅利用六边形视图的放大模式布局的示例在图6(b)中描绘。
假设不同布局结构之间的大量可能性,在可能的选择中正确地指导用户是重要的。显然,用户不应当负担计算不同视图如何能适配到一起。相反,他或她应当向接收器系统提供他/她的一般偏好的指示。具体而言,在示例性实施例中,用户向接收器系统指示屏幕大小,以及是否应当使用标准或放大模式布局。在后一种情况下,用户还能指示要使用的放大视图的数量。如果接收器是独立系统,则屏幕大小可被固定至系统的整个显示区域。对于屏幕大小和布局分类的特定设定,用户还可在具有固定数量的参与者的视图与自动视图布局模式之间选择。
图10描绘在接收器处被提供给用户的示例性视频会议用户界面。该界面在应用程序窗口中被提供,该应用程序窗口由可用于显示视频的区域和提供对接收器应用程序功能的访问的菜单栏组成。该应用程序窗口提供用 于遵循主机操作系统(如果存在)的标准外观和感觉策略来重新调整大小的手段(例如通过在由操作系统提供的窗口装饰的隅角处点击和拖动)。在独立系统中,当无其它应用程序对用户可用时,该应用程序窗口可占据整个屏幕。在此种情况下,屏幕大小可被认为是固定的。
在示例性实施例中,菜单栏提供用于选择布局偏好的按钮。该按钮在标准布局模式和活动发言者布局模式之间切换。在图10中,选择了标准模式布局配置。该图还示出4路布局结构中的实际视图。如果设置了“预览”选项(通过按压相应按钮),则视图之一是从连接至接收器的摄像机获得的本地视频预览。
图11描绘同一用户界面,这次布局选择按钮已切换至放大模式。该按钮图标暗示了布局类别(注意该按钮上的较大视图矩形)。图11还示出了具有6个视图的实际活动发言者布局。通过扩展该用户界面的布局选择按钮所提供的选择,可类似地选择例如六边形之类的附加布局风格。
对于每种布局类别,用户可选择要在屏幕上示出的最大视图数量。在示例性实施例的用户界面中,这是利用布局选择按钮右边的下拉按钮来实现的。图12示出按压下拉按钮时的用户界面。向用户呈现了1到8个视图的选择或自动确定屏幕上视图数量。在图12中,选择了自动模式。可选择视图数量的其它范围(例如1-12),而不改变此处呈现的过程的操作。
现在将描述根据示例性实施例的用于获得矩形视图布局的过程。当用户被允许修改屏幕大小时,在给定该过程的参数的情况下,在应用程序窗口重新调整大小过程期间,该过程被调用以查实用户选择的大小是否产生有效布局。当用户拖动窗口边界以重新调整屏幕大小时,计算布局。只有在发现有效结果时,应用程序才将重新调整大小的窗口边界绘制在屏幕上,从而暗示用户这是可接受的配置。下文讨论矩形布局配置。稍后讨论六边形布局和一般棋盘格局布局。
该过程的输入可以是:
-以像素表示的屏幕的宽度W和高度H,
-屏幕中包括的视图数量N,
-放大视图P的数量,
-视图的期望长宽比r,
-宽度和高度各自的归一化裁切公差CW和CH。
该过程试图找出指定数量的视图向目标屏幕大小的最佳适配。假定这些视图均具有相同长宽比。该长宽比应当使具有所需长宽比r的图像能放到视图中,而不用在水平和垂直维度上分别裁切超过指定的最大CW和CH。换言之,屏幕的长宽比rS应当满足:
在示例性实施例中,r被设定为16/9,CW被设定为0.3,以及CH被设定为0。
该系统考虑的所有可能的矩形布局的集合可通过布局表T来表示。该表中的每个条目表示特定的视图布局。每个条目由其包含的视图数量以及在具有相同数量视图的布局集合中的序号来编号。对于特定条目,且为了能解决任意大小的矩形,该表利用示例性矩形“构件块”表示K×L矩阵的布局。每个视图与形成正确矩形的这些块的子集相对应。然而,注意,存在不属于任何视图的块。对于每个条目,通过指示该视图的左上角在矩阵上的位置以及作为整数的该视图的比例因子来指定这些特定视图。该比例因子表明该视图在水平方向和垂直方向二者上将占据多少个块。注意,该比例因子应用于两个维度,因此保持了设计的长宽比。
示例布局表条目在图13(a)中示出。该图示出了其中视图交错的具有3个视图的布局(标准模式)。需要矩形构件块的4×4矩阵以便于能够指定这些视图的相对定位。视图0位于(1,0)处,即其左上角在该块开始,且其尺寸为因子2。这意味着它在水平和垂直方向二者上都将占据2个块。因此该视图相应的表条目将是三元组{1,0,2}。视图1位于(0,2)处,且它也具有大小因子2。因此它将通过三元组{0,2,2}表示。类似地,视图2将通过{2,2,2}表示。整个布局因此可被表示为:{4,4,{1,0,2},{0,2,2},{2,2,2}}。具有N个视图的任意布局表条目可被表示为:{K,L,{X0,Y0,S0},...,{XN-1,YN-1,SN-1}},其中Xi、Yi以及Si分别与每个视图的定位和比例因子参数相对应。
对于给定布局,通过沿矩阵的主对角线映射表条目而创建的对称布局 也是有效的布局。因此每个布局表条目表示两个不同的布局。该映射与每个视图的左上角位置的x和y坐标以及构件块矩阵的尺寸的交换相对应。换言之,表条目视图{K,L,{X0,Y0,S0},...,{XN-1,YN-1,SN-1}}映射成{L,K,{Y0,X0,S0},...,{YN-1,XN-1,SN-1}}。图13(b)描绘从图13(a)获得的映射布局。因为映射布局是自动考虑的,所以该表仅需要包含满足K≥L的布局。
给定的布局被如下地适配在目标屏幕尺寸上。给定布局被展宽以适配目标屏幕尺寸。如果这样得到长宽比在所需范围内的视图,则认为匹配。如果不是,则该布局被在一维度上按比例缩小,以使长宽比在有效范围内。在该情况下,该布局将不会覆盖整个窗口,且它将位于目标屏幕尺寸的中心处。
令WL和HL分别与在该布局在W×H屏幕上显示时构件块的宽度和高度相对应。WL和HL是从以下伪代码中获得的:
}else{ //匹配屏幕情况
}
该布局对于该特定屏幕尺寸的有效长宽比rL被定义为:
已适配至一屏幕尺寸的特定布局的定位如下地执行。该布局可通过{K,L,{X0,Y0,S0},...,(XN-1,YN-1,SN-1}}表征。为了将有效布局区域KWL×LHL定位于W×H目标屏幕尺寸的中心上,必须水平地或垂直地施加偏置。水平和垂直维度上的偏置可如下地获得:
第i个视图的左上角将被定位于(以像素表示):
xi=W偏置+XiWL(11) 以及 yi=H偏置+YiHL (12)
且将具有SiWL×SiHL个像素的尺寸。
图14描绘使用图13(a)中所示的布局、尤其是视图0为例的不同的大小调整和定位参数,呈现宽屏情况。
对于布局表中描述的每个布局(以及它们的映射),上述布局适配过程将产生可放置在屏幕上的布局。然而,显然一些布局就它们适配在目标屏幕尺寸中的良好程度而言是优选的。作为示例,考虑具有被放置在极宽屏幕中的具有垂直取向的布局。虽然上述过程将产生一个解决方案,但所得视图将非常小,同时在所显示布局的左边和右边将存在大量未使用的屏幕空间。因此,所公开的主题引入了允许对针对给定屏幕尺寸的布局适配过程的结果进行评级的评分过程。在给定对该过程的输入参数的情况下,具有最高得分的布局被认为是对于当前讨论的屏幕尺寸而言匹配最佳的布局。
所公开主题的示例性实施例中的评分使用两步过程。首先,它考虑可分配给放大和正常视图的最小尺寸视图的加权平均值。在平局的情况下,然后评分过程考虑所有分区的总大小。如果未请求放大视图,则忽略相应的该评分部分。
令N是视图的数量而P是放大视图的数量。令V={Vi,i=1,2,...}是包含N个视图的布局表T中的布局的集合。布局Vi通过{Ki,Li,{Xi 0,Yi 0,Si 0},...,(Xi N-1,Yi N-1,Si N-1}}表征。令U是V的子集,在U中至少存在P个视图的尺寸因子S大于余下N-P个视图的尺寸因子。这些视图将被用作放大视图。集合V和U可动态地计算,或在另一实施例中,它们可由布局表T中适当的参数来指示。换言之,表条目可被扩展以直接指示视图数量以及所支持的放大视图的数量。布局可通过以下结构表征:{Ki,Li,Ni,Pi,{Xi 0,Yi 0,Si 0},...,(Xi N-1,Yi N-1,Si N-1}}。以此方式,通过按顺序扫描表T并检查参数Ni和Pi可确定V和U的成员。注意,在输入参数设定之后,布局适配过程仅需要被应用于集合U。
集合U中的特定布局的评分如下地进行:
1.找出具有第P个最大视图尺寸minP=(Sj)2WLHL的视图j。这是放大视图中的最小视图尺寸。如果P=0或N,则minP被设定为0。
2.找出所有视图中具有最小视图尺寸minN=(Sk)2WLHL的视图k。
3.计算分数s为:
s=(1-w)minP+wminN (13)
其中w是加权因子。在示例性实施例中,w被设定为1/11。
然后根据以下执行对U中的所有布局的评级:
4.(评分)对于U中的每个布局Ui计算其分数si。如果评级最高的布局是唯一的,则它就是被选中的布局。
5.(后筛选)如果两个或更多个布局得到相同分数,则对这些布局中的每一个计算它们的总尺寸:
具有最高分数ti的布局是被选中的布局。
上述过程促使对放大参与者产生大视图尺寸、对其它参与者不产生过小视图以及提供对给定屏幕大小的良好覆盖率的布局选择。通过从minP,minN,和ti的计算中消除常数WLHL,可在计算上进一步简化该过程。
对于大的屏幕尺寸,可优选考虑视图扩展而不是考虑总布局尺寸ti。上述步骤5可被替换为:
5b.(后筛选)如果两个或更多个布局得到相同分数,则如果屏幕高度高于Hthr则选择具有最低视图扩展的布局,否则选择具有最高总尺寸ti的布局。
在示例性实施例中,Hthr可被设定为720。该过程考虑的是,对于大屏幕尺寸,优选将视图定位成使它们在用户的视野中更容易被看到。
其它评分/筛选过程当然也是可能的。此外,在评分过程中也可考虑自组织(ad-hoc)数据(并非根据布局参数直接计算得出)。例如,每个布局表条目可增加与特定布局对于特定应用程序的适当或愉悦程度有关的明确附加评分部分。该附加评分部分可被适当加权地添加至如上所述的评分过程,以促使或阻碍特定布局的选择。用s自组织表示附加自组织评分部分并用x表示关联权重,s的方程变成:
s=(1-w-x)minP+wminN+xs自组织 (15)
其中权重w和x在0与1之间,且满足0≤w+x≤1。在示例性实施例中,这些权重被设定为w=1/11和x=5/11。
如上所述的评分过程将产生与输入参数无关的输出布局。为避免极端情况,可加上附加限制,这些附加限制将被认为不适当的结果筛选掉。例如,可使用与任何参与者的最小可接受视图尺寸有关的阈值(例如120个像素)。在应用布局适配过程之后,可从集合U精减(预筛选)不满足该限制的任何布局。类似地,阈值可被设定为布局可保留未使用的屏幕的百分比(例如40%)。这被表达为比例ti/(WH)(即ti/(WH)>0.4)。
最终,出于美学或专用原因,不论一些布局的实际分数如何,这些布局都会被认为是不可接受的。在布局表由脚本自动生成的情况下,可在每个布局表条目中使用标记以便于发出布局不可接受的信号。换言之,如果未设置此类标记,则该布局在评分过程中完全不予考虑(在预筛选中消除)。来自视频会议的一个可能示例是类似于倒金字塔形的布局(例如视图定位为4∶3∶2∶1的矩形矩阵布局)。
在示例性实施例中,在交互地重新调整目标屏幕尺寸的过程期间,被上述布局选择过程认为可接受的特定尺寸选择产生有效布局。如果不是,则不允许用户保持该特定屏幕配置。
图15描绘上述示例性布局选择过程的框图。在1501设定N和P。只要在1502修改了W或H,则在1503计算偏置W偏置和H偏置以及块大小WL和HL。然后该过程继续对布局表1504中存储的布局重复,从而在1506获得具有最大分数的布局。注意,不需要考虑所有布局;如图15所示,在1505基于N和P参数的值以及已设置的任何其它限制(例如最小视图尺寸)来预筛选布局(以在评分之前构造集合U)。在1507后筛选评分过程的结果(零或更多布局)。如果在1508找出至少一个结果,则应用该布局,且该过程在1509处终止。否则该过程返回至1502处的等待W和H的新值的状态。只要接收器应用程序中的N或P有变化,则也可使用该过程。
只要特定布局变得有效,接收器307就经由信令通路306通知服务器305,包括通知每个流的视图的尺寸(参见图3)。然后服务器305决定将 来自每个流的哪些可缩放层转发至接收器307。注意,在一些情况下,如以下所说明地,会存在流完全未显示从而服务器305完全无法发送特定流的数据的情况。通过由可缩放编码可能实现的接收器307处的布局管理与服务器305的选择转发功能的耦合产生极其有效的解决方案,该解决方案使灵活性最大化,同时使所需比特率最小化。
到现在为止,尚未解决系统中存在的流的数量与屏幕上的可用视图的数量之间的关系。假定用户选择了多个所需视图,很可能是多个所需放大视图。可用流的数量可小于、等于或大于所需视图的数量。类似地,尚未解决分配给每个视图(放大型或标准型)的可用流。注意,始终有可能允许用户在接收器处给视图手动分配流。例如,可允许用户选择特定布局,并从显示列表拖放流至布局位置,以将流分配给特定视图。所公开的主题提供以自动化方式联合地解决这两个问题的过程。这可确保可用屏幕空间和视图数量的最优使用,因为系统能将流从标准视图自动切换至放大视图(例如当在视频会议中存在发言活动时),或当向系统添加流或移除流时自动切换布局。
首先,关于可用流数量与可用布局视图数量的关系,在可用流比要显示的视图少的情况下,接收器可使未使用的视图为空,任选地显示标识图像或其它预定信息。可按照多种方式来执行对将保持未使用的视图的选择,或等价地对要使用的视图的选择。一个示例是首先利用对布局的光栅扫描过程分配放大视图,然后遵循同样的模式继续分配标准视图。因为这样倾向于留下屏幕下方未使用,所以可设计光栅扫描的替代扫描模式,以使它们分配尽可能接近矩形区域的视图。
在示例性实施例中,将视图输入布局表的顺序可被认为是所需的视图分配顺序。布局表的设计好的这种方式表明了所需的分配策略,该分配策略对于每个布局表条目是完全可定制的。不论特定分配策略如何,该过程将留下屏幕的一些并不小的部分未使用;在此情况下,接收器可选择使屏幕居中,以将空白空间均匀地分配在所显示布局的四周。
在示例性实施例中,接收器可试图使用不留下任何视图未使用的布局,从而在可用流数量变得小于可用视图数量的情况下,它能优选地切换至提 供示图数量与可用流数量相同的不同布局。在执行该步骤时,接收器优选保持与当前布局相同数量的放大视图。换言之,对于总共M=N个流,如果当前布局配置有N个视图和P个放大视图,且一个流从该会话中被排除,则接收器将试图使用具有N-1个视图和P个放大视图的布局。
如果可用视图的数量等于可用流的数量,则每个流向每个视图的分配是唯一要关心的问题。如果可用流的数量较高,则需要标识哪些流将不被分配视图。在所公开主题中使用的流优先化提供以联合方式解决这两个问题的自然排序机制。
示例性实施例中的优先化过程依赖于音频活动信息。在示例性实施例中,音频活动可被计算为音频信号的音量(例如在滑动窗上计算出的短期平均能量)。在替代实施例中,若适用于广播型应用,则它可以是发言活动的指示器(相对于音乐或效果)。音频活动可在发送方、服务器或接收器处计算。在示例性实施例中,它在发送方处被计算。这允许服务器和接收器容易地对流评级,以减少音频活动。假定存在M个可用流,且要利用当前布局显示的视图N<M。视图中的一部分P<N可与放大视图相对应。令A(i)表示流i的音频活动指示器,其中较高值表明较高活动。
只要M、N或P中存在变化,视图分配过程就异步地操作,否则周期性地操作(以捕捉音频活动中的变化)。在示例性实施例中,该周期可被设定为1秒。当视图分配过程随着时间进行操作时,它需要知道哪个流被分配给当前布局中的每个视图。假定流与标识符相关联,且该标识符与每个视图相关联以指示流向特定视图的分配。例如,该标识符可以是接收器分配给每个流的唯一整数、描述该流的指向存储器结构的指针等。以此方式,视图分配过程能确定哪个流在每个视图中示出,反之亦然。
图16示出根据示例性实施例的视图分配过程的框图。首先,因为假定应用了新布局,诸如当应用程序启动或当N或P有变化(布局初始化)时,该过程在被这些情况触发时在1601处开始。如以下所讨论地,该过程在1602按照减少音频活动A将M个流排序到清单F中。
两个“for”循环1604和1605对应于在清单F上的两次通过,如下所详述。第一次通过可在应用程序(或会话)初始化时(即不存在已使用的 前一布局时)在1603处绕过。
视图分配过程会将P个放大视图分配给A中的P个具有最高值的流,并将余下的N-P个标准视图分配给A中接下来的N-P个具有最高值的流。如上所述,在示例性实施例中,特定布局中视图的分配顺序是它们被输入它们所属的布局表条目中的顺序。
如果可用流M的数量大于N,则视图分配过程会从屏幕中消除具有最小音频活动的流。在存在具有相同音频活动的流且要排除的M-N个流的集合不能通过音频活动自身确定的情况下,视图分配过程优选在需要时随机地解决这些平局。例如,如果存在具有活动0的2个流和具有活动1的3个流,且必须排除4个流,则视图分配过程首先选择具有0活动的2个流加以排除。然后该过程使用随机数生成器提供0到1之间的随机数。如果该值在0到1/3之间,则具有活动1的第一流被排除,如果该值在1/3与2/3之间,则第二流被排除,等等。如果要随机排除一个以上流,则可重复该过程。
当布局初始化是N或P的变化的结果时,视图分配如“for”循环1604中所示地操作。视图分配过程会将P个放大视图分配给A中的P个具有最高值的流,并将余下的N-P个标准视图分配给A中接下来的N-P个具有最高值的流。当将特定流分配给任一类中的视图时,该过程通过首先计算每个候选视图与该流在先前使用的视图(如果有的话)中占据的视图的交集的尺寸(以像素标识)来对新布局中的候选视图评级。换言之,通过使用具有最高交迭的视图,视图分配过程尝试确保在前一布局中可见的流将在新布局中占据与前一布局物理上接近的一位置。这确保特定流将移至用户屏幕上的附近位置,从而避免混乱。
一般而言,由于并非要分配的所有N个流都会具有在前一布局中分配给它们的视图,所以视图分配过程使用两次处理。它首先在1604按音频活动减少的顺序处理具有在前一布局中分配的视图的流,将它们分配给与前一视图位置交迭最高的视图。然后它在1605同样按音频活动减少的顺序处理余下流,从而将它们分配给余下的视图。
情况M>N的随机化过程未在示图中明确地示出,且在必要时可作为排 序1602的一部分来执行。
图17示出在1701处触发的作为周期性应用的一部分或由于M变化(N或P不变)即布局重新处理引起的视图分配过程的操作的框图。这些流在1702处根据它们的活动在清单F中排序。最高的P个将被分配给放大视图。F中的最高P个流中的每一个按活动A减少的顺序被处理。“For”循环1703示出以下三种情况以及该过程如何处理每种情况。
1)如果当前处理的流已经占据了放大视图,则以完全相同的布局位置保持它。
2)如果它已经占据了标准视图,则它替换具有最低活动A的放大视图,该具有最低活动A的放大视图被分配给代替它的流的标准视图。被替换流(如果存在)从清单F被去除,因为它已经分配到视图。注意,如果之前具有放大视图的流不再是系统的一部分(例如参与者离开视频会议会话),则它可能不在F中。
3)如果该流未占据任何视图(它是新流或它之前未显示),则它替换具有最低活动A的放大视图;被替换的放大视图被放置于标准视图候选清单G中,并从F去除。
在所有上述三种情况下,刚被分配放大视图的流被从F去除。
通过按顺序处理P个评级最高的视图,放大视图的当前集合得以确定,从而产生旨在用于标准模式视图的未分配流的集合F,以及从放大视图排除而产生的标准视图候选流的集合G。如果两个清单被实现为先进先出(FIFO)清单,则两个清单都根据它们的音频活动按构造来排序(未示出)。注意,可用标准视图的数量可小于N-P,因为被替换的一些放大视图可能已通过上述过程分配到标准视图。令Q=max{N-P-|G|,0}为可用标准视图的数量,其中|x|表示清单x的大小,即|G|表示清单G的大小。Q表示自由标准视图槽的数量,假定G中的所有视图均分配有视图。注意,典型地Q>0,因为典型的布局配置P小于或等于N/2。
视图分配过程给予G中的流高于F中的流的优先级。同时,如果F中的流已经在当前布局中存在,则它应当被移至不同的位置。因此“for”循环1704检查F中的Q个最高评级流。如果它们已经与视图相关联,则它们 被保持;否则,它们分配到自由标准视图之一。最终,该过程在1705将余下的|G|个标准视图分配给G中的视图。在示例性实施例中,这在1706完成视图分配过程。
在示例性实施例中,视图分配过程确保具有最高音频活动的流始终呈现在屏幕上。它还可确保放大视图从布局中“逐渐”排除,从放大到标准再到不可见。然而,相反方向不需要是逐渐的;例如,添加至会话的新流能立即占据放大视图(例如刚加入会话并开始发言的参与者)。显然,取决于应用,该视图分配技术的变型是可能的。此处详述的示例性设计非常适合于视频会议应用,其中音频活动对应于参与者沉默与否。
如上所述的视图分配过程以与应用程序初始化时相同的方式对待N或P变化的情况。换言之,如果用户从N=3和P=1的布局切换至N=2和P=1,则该过程将不会考虑在应用新布局之前的流-视图关系如何。这是因为从一个布局到另一个布局的视图的空间定位会是非常不同的。换言之,一般而言,无法保证该示例中的放大视图在两个布局中将被定位在同一屏幕位置中。然而,实际上,因为N的变化通常是接收器自动调节布局导致的M的变化的结果,且M的变化典型地是逐渐的(添加一个流或去除一个流),所以该过程可被修改以考虑空间定位。
注意,此处所描述的功能是单独的,且可通过可缩放音频编码成为SACS功能的补充。与视频和SVCS的情况类似,SACS能自动传送放大视图(当存在时)的基本层和增强层、标准视图的基本层和增强层或仅基本层,且不传送当前布局中未示出的流的音频。只要选择并应用特定布局,就执行对SACS的信令。
如图12中所示,示例性实施例还允许用户避免明确地指明要在屏幕上显示的视图的数量,而是让系统自动选择适当的数量。这对于存在大量流的会话而言是尤其有用的。该情况下的用户仅选择所需屏幕大小。对于独立系统,屏幕大小可假定为固定的。
系统的自动模式以与固定视图模式完全相同的方式工作。唯一的区别是该布局选择过程将对具有任意数量的参与者的布局评分,直至可用流的数量。换言之,集合U现在将包括具有从1到M的视图数量的所有布局, 代替仅具有N个视图的布局。在自动模式下,用户仍能选择放大视图的数量。大会话的放大视图的数量的典型值可以是0或1。在已选择(在匹配放大视图数量的布局中的)最佳布局并确定了可用视图数量之后,自动模式情况下的放大视图分配与固定模式情况相同地操作。
以上对布局在布局表中如何描述以及如何选择最佳适配布局的描述采用了矩形视图。如前所述,布局可包含任意的视图大小。特别感兴趣的情况是相同大小的六边形或旋转六边形视图,如图6(a)和(c)所示。一般而言,可使用镶嵌2D空间(当无间隙地重复时覆盖整个平面)的任何形状。该重复将在二维周期性网格上出现。诸如适配至少人头的长宽比的需要以及水平对称性的需要的与视频视图有关的实际考虑因素限制了形状选择。例如,菱形会限制图像的上下部分。
对于通过镶嵌在2D网格上而产生的非矩形视图,可使用现有的布局表,注意该2D网格可被认为是正轴的基本旋转。对于旋转六边形的情况,所产生的网格具有45°角的y轴。因此,(相同大小的)视图在布局内的放置可通过在这些旋转轴中使用基本块来确定,如同矩形块情况一样。以图6(c)的7路旋转六边形布局为例,其布局表条目指示{3,3,{0,0},{1,0},{0,1},{1,1},{2,1},{1,2},{2,2}}。注意,由于所有视图具有相同大小,所以不需要指定比例因子。替代地,为了保持与矩形视图情况的一致性,可在每个视图中添加数字1。同一方法可应用于正六边形,其中在所产生的网格中,x轴倾斜45°。
为了标识这些特殊布局以及它们的表示的不同解释,可向布局表添加标记。为了将正确的公式用于每个六边形视图的宽度、高度以及面积,以正确地应用之前在矩形布局情况下定义的评分函数,也会需要上述标记。
当将不同的视图形状或大小组合在布局中时,归纳布局描述是重要的。这些情况可作为布局表中的意外情况来对待。对各个视图尺寸和适配度分数的计算可通过专用于特定布局的特殊代码来执行。这些特殊情况可通过添加至布局表的标记以及也添加至布局表的函数指针来标识,该函数指针针对特定屏幕大小计算视图大小和适配度分数。
在接收器处以不同的分辨率同时提供多个视图的能力是可缩放视频编 码和SVCS体系结构的独一无二的特征。各个流的合成由接收器而不是服务器来执行的事实给接收器提供了更多灵活性,以容纳变化的流分辨率以及各个用户偏好。附加的灵活性是处理组合4∶3和16∶9画面长宽比或一般而言不同的画面长宽比的流。回想在布局适配过程中,布局长宽比rL可以在由参数CW和CH指定的最小和最大值的范围内。如果屏幕长宽比不匹配实际流长宽比,则为了将流定位在视图中,该流的画面在缩放和显示之前必须被裁切。流占据视图i所需的裁切将是W裁切=CWWS/水平方向上(左和右)2个像素,且H裁切=CHHS/垂直方向上(上和下)2个像素,其中WS和HS分别是该流的画面的宽度和高度。
图18(a)示出具有视图长宽比为4∶3的三个矩形视图的示例布局。上方的视图与具有16∶9画面长宽比的流相关联。为了在视图中显示该流,该画面在本示例中仅在左边和右边被裁切(H裁切=0)。在本示例中,裁切被示为对称(两边相等),从而将该流的画面定位在视图中心处。
该裁切在解码进行之后应用,因为该流的解码器的预测循环中仍需要该经裁切区域。因为全分辨率、未裁切的画面在接收器处可用,所以分别取决于裁切是水平还是垂直地应用,接收器应用程序的GUI可允许用户手动地从左至右或从上至下扫视所显示的视图。扫视相当于将裁切区域分布至画面的左和右部或上和下部。在示例性实施例中,用户可在视图中点击并拖动画面以使其在任一方向上扫视。该手动扫视选项可在经过裁切的任一视图中启用。利用该方案,产生4∶3布局长宽比的屏幕大小可主存4∶3和16∶9两种流:16∶9流将被水平地裁切,但用户仍能选择每个视图的扫视位置以确保感兴趣的主题在相应视图中完全显示。
图18(b)示出其中当视图中的图像居中、对象(在此用圆圈表示)的一部分在视图之外的示例。通过将该画面点击并向右拖动,该视图向右扫视。流画面被移至右边,从而整个对象现在位于视图内部从而完全可见。
除了手动扫视之外,接收器还能提供手动缩放模式。这在用户想要调整特定视图的大小从而使该对象以与该对象在附近视图中的大小相似的大小呈现的情况下非常有用。来自视频会议系统的一个示例是接收器接收来自桌面用户的VGA流和来自安装在视频会议室中的HD摄像机的另一流的 情况。室内摄像机将典型地以比桌面摄像机小许多的尺寸显示人物。通过允许用户在HD流视图中缩放(并扫视),可使尺寸可比拟。在示例性实施例中,通过在视图内shift点击并拖动可实现缩放,其中向上拖动表明放大操作,而向下拖动表明缩小操作。
除了提供缩放和扫视作为手动的用户操作模式之外,系统还能提供自动扫视和缩放。允许系统自动计算缩放和扫视参数的一种方法是给视频流加上与视野和对象距离以及定位(通过摄像机计算或手动测量)有关的信息的标签。然而,这并非在所有情况下都实用。例如,手动加标签技术会使得难以随意物理调节摄像机,因为所有参数都需要重新计算。然而,有可能在接收器处采用(以下讨论的)技术以检测诸如人的重要对象的存在和位置。尤其在视频会议领域,其中视频内容典型地是头部和肩部的图像,可非常有效地使用用于自动化场景分析的技术。
用于在视频会议系统中典型的头部和肩部视频中检测头部的一般位置的可靠方法例如在A.Eleftheriadis和A.Jacquin的论文“用于低比特率下的视频电话会议序列的模型辅助编码的自动脸部位置检测和跟踪(AutomaticFace Location Detection and Tracking for Model-Assisted Coding of VideoTeleconferencing Sequences at Low Bit Rates)”(Signal Processing:ImageCommunication,Vol.7,Nr.3,1995年9月,第231-248页)中有描述,该文献通过引用整体结合于此。该特定方法将椭圆(作为头部的模型)适配到每个画面中的一个位置。该方法的目的不是获得该对象的完美轮廓,而是检测其大概位置。可使用不同方法来获得相同效果。对象位置信息可在布局管理背景下使用,因为它提供与对象在该视图内的位置和大小有关的重要信息。
在示例性实施例中,该系统提供自动扫视和缩放模式,其中当由用户在接收器处作出选择时,使用对象位置检测来修改高分辨率参与者的扫视和缩放因子。
该方法如下地操作。对于每个视图(不论其分辨率),利用诸如以上所述的技术从解码视频信号获得对象的位置和大小。然后通过对所有低分辨率参与者上的对象尺寸取平均值来计算目标对象尺寸。还可使用其它度 量,诸如中值或最大值。然后将高分辨率视图的缩放因子设定为等于高分辨率对象尺寸与目标对象尺寸之比。高分辨率视图尺寸由之前描述的布局过程确定。然后通过将高分辨率解码画面裁切至所需尺寸来限定高分辨率视图,从而确保主题位于已裁切区域的中心处,并将其降频/升频取样所计算的缩放因子,以使所得的缩放和裁切画面适配所分配的视图。为了避免突然和连续的扫视或缩放设定变化,可通过一阶IIR滤波器(x′[n]=ax[n]+(1-a)x′[n-1],其中α可被设定为0.1)来控制扫视和缩放参数,用于减弱变化。
将理解的是,根据所公开的主题,本文中所描述的技术可利用硬件和软件的任意合适的组合来实现。用于实现和操作上述布局管理技术的软件(即指令)可设置在计算机可读介质上,这些计算机可读介质可包括但不限于,固件、存储器、存储设备、微控制器、微处理器、集成电路、ASIC、可在线下载的介质、以及其它可用介质。
Claims (52)
1.一种用于经由通信网络传送多个视频信号以及关联音频信号(如果存在)以呈现给一个或多个终端用户的视听通信系统,其中所述视频信号被可缩放地编码成包括基本层和一个或多个增强层的多个层,所述系统包括:
接收器,所述接收器被配置成经由所述通信网络接收多个视频和任何关联音频信号、基于一组标准确定所显示视频信号的布局、并传达与所确定布局有关的信息;连接至所述接收器的显示器,所述显示器被配置成利用所确定的布局显示所接收的一个或多个视频信号;以及
连接至所述通信网络的一个或多个服务器,所述一个或多个服务器适于经由所述通信网络接收与所确定的布局有关的信息,并被配置成传送所述多个视频和任何关联音频信号;
其中所述一个或多个服务器被配置成针对所述多个视频信号中的每一个,选择性地传送用于以所确定的布局显示所述视频信号所必需的基本层或基本层和一个或多个增强层(如果存在)。
2.如权利要求1所述的系统,其特征在于,所述多个视频中的至少一个和关联音频信号被预压缩,且其中所述一个或多个服务器进一步被配置成从本地或远程存储体访问所述预压缩视频和关联音频信号。
3.如权利要求1所述的系统,其特征在于,所述多个视频中的至少一个和关联音频信号被实时压缩,且其中所述一个或多个服务器进一步被配置成对来自附连至所述一个或多个服务器的视频或音频源的所述实时压缩视频和关联音频信号编码。
4.如权利要求1所述的系统,其特征在于,所述一个或多个服务器中的至少一个进一步被配置成经由所述通信网络从连接至所述一个或多个服务器中的至少一个的传送系统获得所述多个视频中的一个或多个及关联音频信号。
5.如权利要求1所述的系统,其特征在于,所述关联音频信号被可缩放地编码成包括基本层和一个或多个增强层的多个层,且其中所述一个或多个服务器进一步被配置成选择性地仅传送所确定的布局所必需的音频信号层的数据。
6.如权利要求1所述的系统,其特征在于,所述一个或多个服务器进一步被配置成通过使用每个关联音频信号的音频活动指示符和关联视频信号是否在所确定的布局中显示的指示来确定哪些音频信号被选择性地传送,以使具有最高活动性的一个或多个音频信号的音频信号数据被传送,且与在所确定布局中显示的一个或多个视频信号相关联的音频信号数据被传送,以及与余下视频信号相关联的音频信号数据不被传送。
7.如权利要求6所述的系统,其特征在于,所述关联音频信号被可缩放地编码成包括基本层和一个或多个增强层的多个层,且其中所述一个或多个服务器进一步被配置成选择性地传送具有最高活动指示符的一个或多个音频信号的基本层和增强层音频信号数据,以及与在所确定布局中显示的一个或多个视频信号相关联的一个或多个音频信号的基本层音频信号数据。
8.如权利要求6所述的系统,其特征在于,所述音频活动指示符在所述一个或多个服务器处计算。
9.如权利要求6所述的系统,其特征在于,所述音频活动指示符被预先计算,且与所述视频信号和关联音频信号相组合对所述一个或多个服务器可用。
10.如权利要求6所述的系统,其特征在于,所述接收器进一步被配置成针对所确定布局保持视图数量N和放大视图数量P,其中P的范围为从0到N-1,以及总数M个视频信号中的每一个具有关联音频信号,且在初始化或N或P变化时通过以下步骤确定新布局并将视图分配给所述新布局:
按照音频活动减少将所述M个信号排序到清单F中;
如果N或P变化,首先将F中在所确定布局中占据视图的每个视频信号分配给所述新布局中与所述视频信号在所确定布局中分配到的视图交迭最大的视图;
然后将F中余下未分配的每个视频信号按顺序分配到所述新布局中的下一可用视图中,直到F中的所有视频信号被处理,或直到所述新布局中的所有视图分配到视频信号。
11.如权利要求6所述的系统,其特征在于,所述接收器进一步被配置成针对所确定布局保持视图数量N和放大视图数量P,其中P的范围为从0到N-1,以及总数M个视频信号中的每一个具有关联音频信号,且其中在某些时间实例时或M变化时通过以下步骤重新将视图分配给所确定布局:
按照关联音频活动减少将所述M个视频信号排序到清单F中;
按顺序分配F中的前面P个视频信号,以使:
如果视频信号已分配到放大视图,则它保持其当前放大视图,
否则如果替代的视频信号曾分配到标准视图,则它分配到曾分配到之前分配了放大视图的视频信号中具有最小关联音频活动的视频信号的放大视图,且之前分配了放大视图的视频信号中具有最小关联音频活动的所述视频信号分配到所述替代视频信号的原始标准视图,
否则如果视频信号之前未曾分配到放大或标准视图,则它分配到曾分配到之前分配了放大视图的视频信号中具有最小关联音频活动的视频信号的放大视图,而之前分配了放大视图的视频信号中具有最小关联音频活动的视频信号被插入清单G;
将F中的最前面的max{N-P-|G|,0}个视频信号按顺序分配给当前布局中的下一可用自由视图;
将G中的视频信号按顺序分配给当前布局中的余下可用自由视图。
12.如权利要求1所述的系统,其特征在于,所述接收器进一步被配置成通过如下步骤确定目标屏幕尺寸的布局:访问可能布局的表;利用第一组标准从所述可能布局的表中选择一个或多个候选布局;将每个候选布局适配在所述目标屏幕尺寸中;以及基于第二组标准选择所述候选布局中的零个或一个。
13.如权利要求12所述的系统,其特征在于,所述第一组标准包括所述布局中可用的视图总数等于数量N。
14.如权利要求12所述的系统,其特征在于,所述第一组标准包括所述布局中可用的视图总数等于数量N,且数量等于数量P的视图的尺寸大于余下N-P个视图的尺寸。
15.如权利要求12所述的系统,其特征在于,所述第一组标准包括具有其视图总数小于或等于所述接收器所接收的视频信号M的数量的布局。
16.如权利要求12所述的系统,其特征在于:
可能布局的所述表将每个布局表示为一组参数,所述参数至少包括以形成二维阵列的基本视图构件块的单位表示的所述布局的水平和垂直尺寸,以及每个视图的比例因子以及视图的左上角在视图构件块二维阵列中的水平和垂直定位;
通过选择适当的视图构件块宽度和高度,以使所述布局在垂直或水平维度中的至少一个维度上适配目标屏幕尺寸,并且使所得的视图构件块长宽比在最小和最大值的给定范围内,来将每个候选布局适配在目标屏幕尺寸中;以及
第二组标准包括:通过计算评分函数来对每个候选布局打分;选择具有所述评分函数的最高值的候选布局;以及如果选择了多个候选布局则利用筛选函数来计算分数,从而标识单个候选布局,且仅在所述单个候选布局的最小视图尺寸大于指定值时使用所述单个候选布局。
17.如权利要求16所述的系统,其特征在于,具有N个视图的布局的所述评分函数是P个最大视图的最小视图尺寸和余下的N-P个视图的最小尺寸的加权平均值,其中P可以是0。
18.如权利要求17所述的系统,其特征在于,所述筛选函数包括附加的加权项,所述附加加权项表示特定布局的自组织偏好,且被存储在可能布局表中的每个布局的条目中。
19.如权利要求16所述的系统,其特征在于,所述筛选函数等于布局的所有视图的总尺寸。
20.如权利要求1所述的系统,其特征在于,所述接收器进一步被配置成确定一布局,以使所确定布局中的多个视图所产生的由所述接收器所接收的视频信号的总比特率在限制内。
21.如权利要求1所述的系统,其特征在于,所述接收器进一步被配置成确定一布局,以使所确定布局中的多个视图所产生的要解码的像素总数在限制内。
22.如权利要求1所述的系统,其特征在于,所述接收器进一步被配置成基于所接收视频信号的数量来自动确定布局。
23.如权利要求1所述的系统,其特征在于,所述接收器进一步被配置成:如果所显示的多个视频信号中的一个或多个视频信号在所确定布局中的所分配视图中被裁切,则所述接收器允许用户在所分配视图内手动扫视所显示的多个视频信号中的所述一个或多个视频信号。
24.如权利要求1所述的系统,其特征在于,所述接收器进一步被配置成:如果所述多个所显示的视频信号中的一个或多个视频信号在所确定布局中的已分配视图中被裁切,则所述接收器在所述多个所显示的视频信号中的一个或多个视频信号中自动检测对象的头部的存在和位置,并在所分配视图中扫视所述一个或多个所显示视频信号,以使所述对象的头部完全显示。
25.一种用于经由通信网络传送被可缩放地编码成为包括基本层和一个或多个增强层的多个层的多个视频信号以及关联音频信号(如果存在)以向一个或多个终端用户呈现的方法,包括:
基于一组标准确定显示所述多个视频信号的布局;
传达与所确定布局有关的信息;以及
选择性地仅传送用于以所确定布局显示所述视频信号所必需的视频信号层的数据以及任何关联音频信号;
接收所述选择性传送的数据;以及
利用所确定布局显示所述多个视频信号。
26.如权利要求25所述的方法,其特征在于,所述多个视频中的至少一个和关联音频信号被预压缩,所述方法进一步包括:
从本地或远程存储体访问所述预压缩视频和关联音频信号。
27.如权利要求25所述的方法,其特征在于,所述多个视频中的至少一个和关联音频信号被实时压缩,所述方法进一步包括:
对来自视频或音频源的所述实时压缩视频和关联音频信号编码。
28.如权利要求25所述的方法,其特征在于,还包括:
从传送系统获得所述多个视频中的一个或多个视频和关联音频信号。
29.如权利要求25所述的方法,其特征在于,所述关联音频信号被可缩放地编码成包括基本层和一个或多个增强层的多个层,所述方法进一步包括:
仅传送所确定布局所必需的关联音频信号层的数据。
30.如权利要求25所述的方法,其特征在于,还包括:
通过使用每个相关联音频信号的音频活动指示符和关联视频信号是否在所确定的布局中显示的指示来确定哪些音频信号被选择性地传送,以使具有最高活动性的一个或多个音频信号的音频信号数据被传送,且与在所确定布局中显示的一个或多个视频信号相关联的音频信号数据被传送,以及与余下视频信号相关联的音频信号数据不被传送。
31.如权利要求30所述的方法,其特征在于,所述关联音频信号被可缩放地编码成包括基本层和一个或多个增强层的多个层,所述方法进一步包括:
选择性地传送具有最高活动指示符的一个或多个音频信号的基本层和增强层音频信号数据,以及与在所确定布局中显示的一个或多个视频信号相关联的一个或多个音频信号的基本层音频信号数据。
32.如权利要求30所述的方法,其特征在于,还包括:
针对所确定布局保持视图数量N和放大视图数量P,其中P的范围为从0到N-1,以及总数M个视频信号中的每一个具有关联音频信号,且在初始化或N或P变化时通过以下步骤确定新布局并将视图分配给所述新布局:
按照音频活动减少将所述M个信号排序到清单F中;
如果N或P变化,首先将F中在所确定布局中占据视图的每个视频信号分配给所述新布局中与所述视频信号在所确定布局中被分配的视图交迭最大的视图;
然后将F中余下未分配的每个视频信号按顺序分配到所述新布局中的下一可用视图中,直到F中的所有视频信号被处理,或直到所述新布局中的所有视图分配到视频信号。
33.如权利要求30所述的方法,其特征在于,还包括:
针对所确定布局保持视图数量N和放大视图数量P,其中P的范围为从0到N-1,以及总数M个视频信号中的每一个具有关联音频信号,且在某个时间实例或在M变化时通过以下步骤将视图重新分配给新布局:
按照关联音频活动减少将所述M个视频信号排序到清单F中;
按顺序分配F中的前面P个视频信号,以使:
如果视频信号分配到所确定布局中的放大视图,则它在新布局中保持它的当前放大视图,
否则如果替代的视频信号在所确定布局中曾分配到标准视图,则它在新布局中分配到曾分配到分配了所确定布局中的放大视图的视频信号中具有最小关联音频活动的视频信号的放大视图,且分配了所确定布局中的放大视图的视频信号中具有最小关联音频活动的所述视频信号在新布局中分配到来自所确定布局的所述替代视频信号的标准视图,
否则如果视频信号之前在所确定布局中未曾分配到放大或标准视图,则它在新布局中分配到曾分配到之前在所确定布局中分配了放大视图的视频信号中具有最小关联音频活动的视频信号的放大视图,而之前在所确定布局中分配了放大视图的视频信号中具有最小关联音频活动的视频信号被插入清单G;
将F中的最前面的max{N-P-|G|,0}个视频信号按顺序分配给新布局中的下一可用自由视图;
将G中的视频信号按顺序分配给新布局中的余下可用自由视图。
34.如权利要求25所述的方法,其特征在于,还包括:
通过如下步骤确定目标屏幕尺寸的布局:访问可能布局表;利用第一组标准从所述可能布局表中选择一个或多个候选布局;将每个候选布局适配在所述目标屏幕尺寸中;以及基于第二组标准选择所述候选布局中的零个或一个。
35.如权利要求34所述的方法,其特征在于,所述第一组标准包括所述布局中可用的视图总数等于数量N。
36.如权利要求34所述的方法,其特征在于,所述第一组标准包括所述布局中可用的视图总数等于数量N,且数量等于P的视图的尺寸大于余下N-P个视图的尺寸。
37.如权利要求34所述的方法,其特征在于,所述第一组标准包括具有其中其视图总数小于或等于所述接收器所接收的视频信号M的数量的布局。
38.如权利要求34所述的方法,其特征在于,还包括:
在可能布局表中将每个布局表示为一组参数,所述参数至少包括以形成二维阵列的基本视图构件块的单位表示的所述布局的水平和垂直尺寸,以及每个视图的比例因子与视图的左上角在视图构件块二维阵列中的水平和垂直定位;
其中将每个候选布局适配在目标屏幕尺寸中包括:
选择适当的视图构件块宽度和高度,以使所述布局在垂直或水平维度中的至少一个维度上适配目标屏幕尺寸,并且使所得的视图构件块长宽比在最小和最大值的给定范围内;以及
其中所述第二组标准包括:通过计算评分函数来对每个候选布局打分;选择具有所述评分函数的最高值的候选布局;以及如果选择了多个候选布局则利用筛选函数来计算分数,从而标识单个候选布局,且仅在所述单个候选层的最小视图尺寸大于指定值时使用所述单个候选布局。
39.如权利要求38所述的方法,其特征在于,具有N个视图的布局的所述评分函数是P个最大视图的最小视图尺寸和余下的N-P个视图的最小尺寸的加权平均值,其中P可以是0。
40.如权利要求39所述的方法,其特征在于,所述筛选函数包括附加的加权项,所述附加加权项表示特定布局的自组织偏好,且被存储在可能布局表中的每个布局的条目中。
41.如权利要求38所述的方法,其特征在于,所述筛选函数等于布局的所有视图的总尺寸。
42.如权利要求25所述的方法,其特征在于,还包括:
确定一布局,以使所确定布局中的视图数量所产生的接收视频信号的总比特率在限制内。
43.如权利要求25所述的方法,其特征在于,还包括:
确定一布局,以使所确定布局中的视图数量所产生的待解码像素总数量在限制内。
44.如权利要求25所述的方法,其特征在于,还包括:
基于接收信号的数量自动确定布局。
45.如权利要求25所述的方法,其特征在于,还包括:
如果多个所显示视频信号中的一个或多个视频信号在所确定布局中的分配视图中被裁切,则允许用户在所分配视图中手动地扫视多个所显示视频信号中的所述一个或多个视频信号。
46.如权利要求25所述的方法,其特征在于,还包括:
如果多个所显示视频信号中的一个或多个视频信号在所确定布局中的分配视图中被裁切,则在多个所显示视频信号中的所述一个或多个视频信号中自动检测对象的头部的存在和位置;以及
在所分配视图中扫视所述一个或多个所显示视频信号,以使所述对象的头部完全显示。
47.一种用于呈现经由通信网络从一个或多个服务器接收的多个视频信号以及关联音频信号(如果存在)的系统,其中所述视频信号被可缩放地编码成包括基本层和一个或多个增强层的多个层,所述系统包括:
接收器,所述接收器被配置成:
从所述通信网络接收所述多个视频和任何关联音频信号;
基于一组标准确定显示所接收视频信号中的一个或多个视频信号的布局;以及
经由所述通信网络传达所确定布局作为反馈;以及
连接至所述接收器的显示器,所述显示器被配置成利用所确定布局显示所接收的一个或多个视频信号;
其中所述反馈包括用于选择性传送所确定布局的所述视频信号层(如果存在)的指令。
48.如权利要求47所述的系统,其特征在于,所述关联音频信号被可缩放地编码成包括基本层和一个或多个增强层的多个层,且其中所述反馈进一步包括用于选择性地传送所确定布局的音频信号层的指令。
49.如权利要求47所述的系统,其特征在于,所述接收器进一步被配置成通过如下步骤确定目标屏幕尺寸的布局:访问可能布局表;利用第一组标准从所述可能布局表中选择一个或多个候选布局;将每个候选布局适配在所述目标屏幕尺寸中;以及基于第二组标准选择所述候选布局中的零个或一个。
50.一种用于传送多个视频信号以及一个或多个关联音频信号的系统,其中视频信号被可缩放地编码成包括基本层和一个或多个增强层的多个层,所述系统包括:
一个或多个服务器,所述一个或多个服务器被配置成:
接收用于选择性传送与所确定布局相对应的视频信号层的指令;以及
选择性地仅传送用于以所确定布局显示所述视频信号所必需的视频信号层的数据。
51.如权利要求50所述的系统,其特征在于,所述一个或多个关联音频信号被可缩放地编码成包括基本层和一个或多个增强层的多个层,且其中所述指令进一步包括用于选择性地传送所确定布局的音频信号层的指令。
52.如权利要求50所述的系统,其特征在于,所述一个或多个关联音频信号被可缩放地编码成包括基本层和一个或多个增强层的多个层,且其中所述一个或多个服务器进一步被配置成:
选择性地传送具有最高活动指示符的一个或多个音频信号的基本层和增强层音频信号数据,以及与在所确定布局中包含的一个或多个视频信号相关联的音频信号的基本层音频信号数据。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US6007208P | 2008-06-09 | 2008-06-09 | |
US61/060,072 | 2008-06-09 | ||
PCT/US2009/046758 WO2009152158A1 (en) | 2008-06-09 | 2009-06-09 | Improved view layout management in scalable video and audio communication systems |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102090069A true CN102090069A (zh) | 2011-06-08 |
CN102090069B CN102090069B (zh) | 2014-04-30 |
Family
ID=41417092
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200980127625.1A Active CN102090069B (zh) | 2008-06-09 | 2009-06-09 | 可缩放视频和音频通信系统中的改进视图布局管理 |
Country Status (7)
Country | Link |
---|---|
US (2) | US8421840B2 (zh) |
EP (1) | EP2292016B1 (zh) |
JP (2) | JP5497020B2 (zh) |
CN (1) | CN102090069B (zh) |
AU (1) | AU2009257627B2 (zh) |
CA (1) | CA2727569C (zh) |
WO (1) | WO2009152158A1 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105340264A (zh) * | 2013-06-27 | 2016-02-17 | 思科技术公司 | 生成视频窗格布局 |
CN109068166A (zh) * | 2018-08-17 | 2018-12-21 | 北京达佳互联信息技术有限公司 | 一种视频合成方法、装置、设备及存储介质 |
CN111158836A (zh) * | 2019-12-31 | 2020-05-15 | 联想(北京)有限公司 | 一种信息处理方法和电子设备 |
CN113099151A (zh) * | 2016-01-06 | 2021-07-09 | 三星电子株式会社 | 显示装置及其控制方法 |
Families Citing this family (94)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8446454B2 (en) * | 2007-05-21 | 2013-05-21 | Polycom, Inc. | Dynamic adaption of a continuous presence videoconferencing layout based on video content |
US8421840B2 (en) * | 2008-06-09 | 2013-04-16 | Vidyo, Inc. | System and method for improved view layout management in scalable video and audio communication systems |
US8514265B2 (en) * | 2008-10-02 | 2013-08-20 | Lifesize Communications, Inc. | Systems and methods for selecting videoconferencing endpoints for display in a composite video image |
US8380790B2 (en) * | 2008-12-15 | 2013-02-19 | Microsoft Corporation | Video conference rate matching |
US20100149301A1 (en) * | 2008-12-15 | 2010-06-17 | Microsoft Corporation | Video Conferencing Subscription Using Multiple Bit Rate Streams |
US8487975B2 (en) * | 2009-01-27 | 2013-07-16 | Lifesize Communications, Inc. | Conferencing system utilizing a mobile communication device as an interface |
KR20120055632A (ko) * | 2009-08-11 | 2012-05-31 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 디스플레이를 위한 이미지를 제공하기 위한 방법 및 장치 |
US8704868B2 (en) * | 2009-08-24 | 2014-04-22 | Panasonic Corporation | Video conferencing system, video conferencing apparatus, video conferencing control method, and video conferencing control program |
US8350891B2 (en) * | 2009-11-16 | 2013-01-08 | Lifesize Communications, Inc. | Determining a videoconference layout based on numbers of participants |
US20110173564A1 (en) * | 2010-01-13 | 2011-07-14 | Microsoft Corporation | Extending view functionality of application |
JP2011217272A (ja) * | 2010-04-01 | 2011-10-27 | Canon Inc | 映像処理装置及びその制御方法 |
WO2011138637A1 (en) * | 2010-05-03 | 2011-11-10 | Nokia Corporation | System, method, and apparatus for facilitating group video communication |
US9325940B2 (en) * | 2010-05-13 | 2016-04-26 | Nextcast Labs, Inc. | Video class room |
AU2011258272B2 (en) * | 2010-05-25 | 2015-03-26 | Vidyo, Inc. | Systems and methods for scalable video communication using multiple cameras and multiple monitors |
US8947492B2 (en) | 2010-06-18 | 2015-02-03 | Microsoft Corporation | Combining multiple bit rate and scalable video coding |
US8670070B2 (en) * | 2010-07-15 | 2014-03-11 | Broadcom Corporation | Method and system for achieving better picture quality in various zoom modes |
CA2808395C (en) * | 2010-08-23 | 2016-07-12 | Lg Electronics Inc. | Method for providing 3d video data in a 3dtv |
JP5520190B2 (ja) * | 2010-10-20 | 2014-06-11 | 株式会社ソニー・コンピュータエンタテインメント | 画像処理システム、画像処理方法、動画像送信装置、動画像受信装置、プログラム及び情報記憶媒体 |
EP2649793A4 (en) * | 2010-12-10 | 2015-01-21 | Vidyo Inc | VIDEOSTREAM PRESENTATION SYSTEM AND PROTOCOL |
US8914534B2 (en) | 2011-01-05 | 2014-12-16 | Sonic Ip, Inc. | Systems and methods for adaptive bitrate streaming of media stored in matroska container files using hypertext transfer protocol |
US20120200661A1 (en) * | 2011-02-03 | 2012-08-09 | Mock Wayne E | Reserved Space in a Videoconference Layout |
WO2012117422A1 (en) * | 2011-03-03 | 2012-09-07 | Bansal Sanjay | A telepresence system and method |
WO2012120540A1 (en) | 2011-03-10 | 2012-09-13 | Bansal Sanjay | A dynamic telepresence system and method |
GB2489675A (en) * | 2011-03-29 | 2012-10-10 | Sony Corp | Generating and viewing video highlights with field of view (FOV) information |
US10803724B2 (en) * | 2011-04-19 | 2020-10-13 | Innovation By Imagination LLC | System, device, and method of detecting dangerous situations |
US8976218B2 (en) * | 2011-06-27 | 2015-03-10 | Google Technology Holdings LLC | Apparatus for providing feedback on nonverbal cues of video conference participants |
US20130019150A1 (en) * | 2011-07-13 | 2013-01-17 | Rony Zarom | System and method for automatic and dynamic layout design for media broadcast |
JP5817276B2 (ja) * | 2011-07-14 | 2015-11-18 | 株式会社リコー | 多地点接続装置、映像音声端末、通信システム、及び信号処理方法 |
US9077848B2 (en) | 2011-07-15 | 2015-07-07 | Google Technology Holdings LLC | Side channel for employing descriptive audio commentary about a video conference |
US8914834B2 (en) * | 2011-07-18 | 2014-12-16 | Motorola Solutions, Inc. | Source rate and channel rate matching for scalable video transmission |
US20130028443A1 (en) * | 2011-07-28 | 2013-01-31 | Apple Inc. | Devices with enhanced audio |
US9955195B2 (en) | 2011-08-30 | 2018-04-24 | Divx, Llc | Systems and methods for encoding and streaming video encoded using a plurality of maximum bitrate levels |
US8818171B2 (en) | 2011-08-30 | 2014-08-26 | Kourosh Soroushian | Systems and methods for encoding alternative streams of video for playback on playback devices having predetermined display aspect ratios and network connection maximum data rates |
US9467708B2 (en) | 2011-08-30 | 2016-10-11 | Sonic Ip, Inc. | Selection of resolutions for seamless resolution switching of multimedia content |
JP6079174B2 (ja) | 2011-12-27 | 2017-02-15 | 株式会社リコー | 通信管理システム、通信システム、プログラム、及びメンテナンスシステム |
US20130169742A1 (en) * | 2011-12-28 | 2013-07-04 | Google Inc. | Video conferencing with unlimited dynamic active participants |
US9001178B1 (en) * | 2012-01-27 | 2015-04-07 | Google Inc. | Multimedia conference broadcast system |
KR20130087229A (ko) * | 2012-01-27 | 2013-08-06 | 삼성전자주식회사 | 스케일러블 비디오를 선택적으로 디코딩하는 방법 및 장치 |
US8908005B1 (en) | 2012-01-27 | 2014-12-09 | Google Inc. | Multiway video broadcast system |
US9204099B2 (en) * | 2012-02-01 | 2015-12-01 | Magor Communications Corporation | Videoconferencing system providing virtual physical context |
CN104255032B (zh) * | 2012-03-29 | 2018-03-27 | Lg 电子株式会社 | 层间预测方法和使用其的编码设备和解码设备 |
US20180316941A1 (en) * | 2012-04-24 | 2018-11-01 | Skreens Entertainment Technologies, Inc. | Systems and methods for video processing and display of a combination of heterogeneous sources and advertising content |
US20180316947A1 (en) * | 2012-04-24 | 2018-11-01 | Skreens Entertainment Technologies, Inc. | Video processing systems and methods for the combination, blending and display of heterogeneous sources |
US20180316940A1 (en) * | 2012-04-24 | 2018-11-01 | Skreens Entertainment Technologies, Inc. | Systems and methods for video processing and display with synchronization and blending of heterogeneous sources |
US11284137B2 (en) * | 2012-04-24 | 2022-03-22 | Skreens Entertainment Technologies, Inc. | Video processing systems and methods for display, selection and navigation of a combination of heterogeneous sources |
US20180316942A1 (en) * | 2012-04-24 | 2018-11-01 | Skreens Entertainment Technologies, Inc. | Systems and methods and interfaces for video processing, combination and display of heterogeneous sources |
US20180316948A1 (en) * | 2012-04-24 | 2018-11-01 | Skreens Entertainment Technologies, Inc. | Video processing systems, methods and a user profile for describing the combination and display of heterogeneous sources |
US20180316946A1 (en) * | 2012-04-24 | 2018-11-01 | Skreens Entertainment Technologies, Inc. | Video processing systems and methods for display, selection and navigation of a combination of heterogeneous sources |
US20130287109A1 (en) * | 2012-04-29 | 2013-10-31 | Qualcomm Incorporated | Inter-layer prediction through texture segmentation for video coding |
JP6141971B2 (ja) * | 2012-06-05 | 2017-06-07 | エルジー エレクトロニクス インコーポレイティド | 3d放送サービスのための放送信号処理方法及び装置 |
TWI555407B (zh) * | 2012-07-18 | 2016-10-21 | 晶睿通訊股份有限公司 | 影像播放設定方法 |
KR101966921B1 (ko) * | 2012-09-12 | 2019-08-27 | 삼성전자주식회사 | 멀티 세션 관리 방법 및 장치 |
KR102379609B1 (ko) | 2012-10-01 | 2022-03-28 | 지이 비디오 컴프레션, 엘엘씨 | 향상 레이어 모션 파라미터들에 대한 베이스-레이어 힌트들을 이용한 스케일러블 비디오 코딩 |
JP2014127879A (ja) * | 2012-12-26 | 2014-07-07 | Panasonic Corp | 放送画像出力装置、放送画像出力方法、およびテレビ |
US9191457B2 (en) | 2012-12-31 | 2015-11-17 | Sonic Ip, Inc. | Systems, methods, and media for controlling delivery of content |
US9310970B2 (en) | 2013-02-07 | 2016-04-12 | Sanjay Bansal | Graphical user interface (GUI) for a conference call |
US9607003B2 (en) | 2013-03-14 | 2017-03-28 | Massachusetts Institute Of Technology | Network coded storage with multi-resolution codes |
US11438609B2 (en) | 2013-04-08 | 2022-09-06 | Qualcomm Incorporated | Inter-layer picture signaling and related processes |
JP6268510B2 (ja) * | 2013-06-11 | 2018-01-31 | 株式会社リコー | 通信装置、通信方法及びプログラム |
TWI520610B (zh) * | 2013-08-01 | 2016-02-01 | 晨星半導體股份有限公司 | 電視控制裝置與相關方法 |
US20150156458A1 (en) * | 2013-12-03 | 2015-06-04 | Avaya Inc. | Method and system for relative activity factor continuous presence video layout and associated bandwidth optimizations |
GB2522453A (en) | 2014-01-24 | 2015-07-29 | Barco Nv | Dynamic display layout |
WO2015129550A1 (ja) * | 2014-02-28 | 2015-09-03 | 株式会社リコー | 伝送制御システム、伝送システム、伝送制御方法、及び記録媒体 |
US20150248378A1 (en) * | 2014-02-28 | 2015-09-03 | Konica Minolta Laboratory U.S.A., Inc. | Readability on mobile devices |
US9307001B2 (en) | 2014-05-16 | 2016-04-05 | International Business Machines Corporation | Video feed layout in video conferences |
US9516269B2 (en) * | 2014-06-04 | 2016-12-06 | Apple Inc. | Instant video communication connections |
US20160316175A1 (en) * | 2015-02-23 | 2016-10-27 | Minghao Wang | Meta-data based multiparty video frame position & display technology |
US9800903B2 (en) * | 2015-04-09 | 2017-10-24 | Dejero Labs Inc. | Systems, devices and methods for distributing data with multi-tiered encoding |
CN106210599B (zh) * | 2015-04-30 | 2021-02-12 | 中兴通讯股份有限公司 | 一种多画面调整方法、装置及多点控制单元 |
US9602758B2 (en) * | 2015-07-10 | 2017-03-21 | Ricoh Company, Ltd. | Communication apparatus, conference system, computer-readable recording medium, and display control method |
JP2017028660A (ja) | 2015-07-28 | 2017-02-02 | 株式会社リコー | 情報処理装置、画像表示方法、通信システム、プログラム |
CN105451022A (zh) * | 2015-11-17 | 2016-03-30 | 深圳联友科技有限公司 | 一种将多路视频流压缩成一路视频流的方法及系统 |
GB201520509D0 (en) | 2015-11-20 | 2016-01-06 | Microsoft Technology Licensing Llc | Communication system |
US10148989B2 (en) | 2016-06-15 | 2018-12-04 | Divx, Llc | Systems and methods for encoding video content |
JP6399606B2 (ja) * | 2016-07-12 | 2018-10-03 | Necプラットフォームズ株式会社 | ビデオ会議システム及びビデオ会議方法 |
US20180018398A1 (en) * | 2016-07-18 | 2018-01-18 | Cisco Technology, Inc. | Positioning content in computer-generated displays based on available display space |
US9699410B1 (en) | 2016-10-28 | 2017-07-04 | Wipro Limited | Method and system for dynamic layout generation in video conferencing system |
JP6756269B2 (ja) | 2017-01-05 | 2020-09-16 | 株式会社リコー | 通信端末、画像通信システム、通信方法、及びプログラム |
US10455135B2 (en) * | 2017-11-17 | 2019-10-22 | Facebook, Inc. | Enabling crowd-sourced video production |
FR3074584A1 (fr) | 2017-12-05 | 2019-06-07 | Orange | Traitement de donnees d'une sequence video pour un zoom sur un locuteur detecte dans la sequence |
KR102324609B1 (ko) * | 2017-12-22 | 2021-11-10 | 한국전자통신연구원 | 다지점 영상회의 장치 및 그 제어 방법 |
US11482193B2 (en) * | 2018-03-21 | 2022-10-25 | Hewlett-Packard Development Company, L.P. | Positioning video signals |
CN110536097A (zh) * | 2018-05-25 | 2019-12-03 | 中兴通讯股份有限公司 | 一种视频控制方法、视频会议终端和多点控制单元mcu |
US20190377586A1 (en) * | 2018-06-08 | 2019-12-12 | Microsoft Technology Licensing, Llc | Generating customized user interface layout(s) of graphical item(s) |
US10721579B2 (en) * | 2018-11-06 | 2020-07-21 | Motorola Solutions, Inc. | Correlated cross-feed of audio and video |
EP3657814A1 (en) * | 2018-11-22 | 2020-05-27 | Siemens Aktiengesellschaft | System for data streaming in a network of data sources and user interfaces |
US10666902B1 (en) * | 2019-01-30 | 2020-05-26 | Microsoft Technology Licensing, Llc | Display conflict elimination in videoconferencing |
US10924709B1 (en) | 2019-12-27 | 2021-02-16 | Microsoft Technology Licensing, Llc | Dynamically controlled view states for improved engagement during communication sessions |
US11050973B1 (en) | 2019-12-27 | 2021-06-29 | Microsoft Technology Licensing, Llc | Dynamically controlled aspect ratios for communication session video streams |
CN112672092B (zh) * | 2020-12-18 | 2022-09-06 | 北京字跳网络技术有限公司 | 展示方法、装置和电子设备 |
US11443560B1 (en) * | 2021-06-09 | 2022-09-13 | Zoom Video Communications, Inc. | View layout configuration for increasing eye contact in video communications |
CN113596384B (zh) * | 2021-07-30 | 2023-05-26 | 北京字跳网络技术有限公司 | 一种多媒体会议自动布局方法、装置及设备 |
US20230353835A1 (en) * | 2022-04-29 | 2023-11-02 | Zoom Video Communications, Inc. | Dynamically user-configurable interface for a communication session |
CN114727050B (zh) * | 2022-05-23 | 2022-08-30 | 北京创新乐知网络技术有限公司 | 一种多人连麦直播会议的视频数据生成方法及装置 |
Family Cites Families (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6091777A (en) * | 1997-09-18 | 2000-07-18 | Cubic Video Technologies, Inc. | Continuously adaptive digital video compression system and method for a web streamer |
US6215766B1 (en) * | 1998-01-30 | 2001-04-10 | Lucent Technologies Inc. | Hierarchical rate control of receivers in a communication system transmitting layered video multicast data with retransmission (LVMR) |
US6167084A (en) * | 1998-08-27 | 2000-12-26 | Motorola, Inc. | Dynamic bit allocation for statistical multiplexing of compressed and uncompressed digital video signals |
US6498865B1 (en) * | 1999-02-11 | 2002-12-24 | Packetvideo Corp,. | Method and device for control and compatible delivery of digitally compressed visual data in a heterogeneous communication network |
US6480547B1 (en) * | 1999-10-15 | 2002-11-12 | Koninklijke Philips Electronics N.V. | System and method for encoding and decoding the residual signal for fine granular scalable video |
US7085843B2 (en) * | 2000-07-13 | 2006-08-01 | Lucent Technologies Inc. | Method and system for data layout and replacement in distributed streaming caches on a network |
US6496217B1 (en) * | 2001-06-12 | 2002-12-17 | Koninklijke Philips Electronics N.V. | Video communication system using model-based coding and prioritzation techniques |
JP2005506815A (ja) * | 2001-10-26 | 2005-03-03 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 空間拡張可能圧縮のための方法及び装置 |
US6789123B2 (en) * | 2001-12-28 | 2004-09-07 | Microsoft Corporation | System and method for delivery of dynamically scalable audio/video content over a network |
US6996173B2 (en) * | 2002-01-25 | 2006-02-07 | Microsoft Corporation | Seamless switching of scalable video bitstreams |
GB2384932B (en) | 2002-01-30 | 2004-02-25 | Motorola Inc | Video conferencing system and method of operation |
US7480252B2 (en) * | 2002-10-04 | 2009-01-20 | Koniklijke Philips Electronics N.V. | Method and system for improving transmission efficiency using multiple-description layered encoding |
JP4053869B2 (ja) * | 2002-12-05 | 2008-02-27 | エヌ・ティ・ティ・コミュニケーションズ株式会社 | ビデオ会議システム |
US7321384B1 (en) * | 2003-06-03 | 2008-01-22 | Cisco Technology, Inc. | Method and apparatus for using far end camera control (FECC) messages to implement participant and layout selection in a multipoint videoconference |
US7461126B2 (en) * | 2003-10-30 | 2008-12-02 | Radvision Ltd. | System and method for distributed multipoint conferencing with automatic endpoint address detection and dynamic endpoint-server allocation |
US20050122389A1 (en) * | 2003-11-26 | 2005-06-09 | Kai Miao | Multi-conference stream mixing |
US7139015B2 (en) * | 2004-01-20 | 2006-11-21 | Polycom, Inc. | Method and apparatus for mixing compressed video |
WO2005072337A2 (en) * | 2004-01-23 | 2005-08-11 | Sarnoff Corporation | Method and apparatus for digital video reconstruction |
US7176957B2 (en) * | 2004-05-25 | 2007-02-13 | Seiko Epson Corporation | Local video loopback method for a multi-participant conference system using a back-channel video interface |
NO321642B1 (no) | 2004-09-27 | 2006-06-12 | Tandberg Telecom As | Fremgangsmate for koding av bildeutsnitt |
US7477281B2 (en) * | 2004-11-09 | 2009-01-13 | Nokia Corporation | Transmission control in multiparty conference |
US7974193B2 (en) * | 2005-04-08 | 2011-07-05 | Qualcomm Incorporated | Methods and systems for resizing multimedia content based on quality and rate information |
KR100878812B1 (ko) * | 2005-05-26 | 2009-01-14 | 엘지전자 주식회사 | 영상신호의 레이어간 예측에 대한 정보를 제공하고 그정보를 이용하는 방법 |
US7593032B2 (en) * | 2005-07-20 | 2009-09-22 | Vidyo, Inc. | System and method for a conference server architecture for low delay and distributed conferencing applications |
US8289370B2 (en) * | 2005-07-20 | 2012-10-16 | Vidyo, Inc. | System and method for scalable and low-delay videoconferencing using scalable video coding |
AU2006346226B8 (en) * | 2005-07-20 | 2010-03-25 | Vidyo, Inc. | System and method for a conference server architecture for low delay and distributed conferencing applications |
JP4934139B2 (ja) * | 2005-08-30 | 2012-05-16 | トムソン ライセンシング | Ieee802.11無線ローカル・エリア・ネットワーク上でのスケーラブル・ビデオ・マルチキャストのためのクロス・レイヤ最適化 |
JP4564432B2 (ja) | 2005-09-14 | 2010-10-20 | 株式会社東芝 | 映像合成装置、映像合成方法およびプログラム |
US8436889B2 (en) * | 2005-12-22 | 2013-05-07 | Vidyo, Inc. | System and method for videoconferencing using scalable video coding and compositing scalable video conferencing servers |
CN101341746B (zh) * | 2005-12-22 | 2011-11-30 | 维德约股份有限公司 | 用于使用可缩放视频编码和合成可缩放视频会议服务器进行视频会议的系统和方法 |
US8059721B2 (en) * | 2006-04-07 | 2011-11-15 | Microsoft Corporation | Estimating sample-domain distortion in the transform domain with rounding compensation |
US20070291108A1 (en) * | 2006-06-16 | 2007-12-20 | Ericsson, Inc. | Conference layout control and control protocol |
US8773494B2 (en) | 2006-08-29 | 2014-07-08 | Microsoft Corporation | Techniques for managing visual compositions for a multimedia conference call |
EP2069951A4 (en) * | 2006-09-29 | 2013-06-05 | Vidyo Inc | SYSTEM AND METHOD FOR MULTIPORT CONFERENCES WITH SCALABLE VIDEO CODING SERVER AND MULTICAST |
JP5091453B2 (ja) * | 2006-10-12 | 2012-12-05 | 三洋電機株式会社 | 映像表示装置 |
KR100905723B1 (ko) * | 2006-12-08 | 2009-07-01 | 한국전자통신연구원 | 비실시간 기반의 디지털 실감방송 송수신 시스템 및 그방법 |
US7957603B2 (en) * | 2006-12-29 | 2011-06-07 | Intel Corporation | Digital image decoder with integrated concurrent image prescaler |
EP1971100A1 (en) * | 2007-03-12 | 2008-09-17 | Siemens Networks GmbH & Co. KG | Method and device for processing data in a network component and system comprising such a device |
US20080275974A1 (en) * | 2007-05-02 | 2008-11-06 | Home Box Office, Inc. | System, method, and display for managing media content for use at multiple locations |
CN100562094C (zh) * | 2007-06-21 | 2009-11-18 | 中兴通讯股份有限公司 | 一种会议电视系统中的多画面远端摄像机遥控方法 |
US8700792B2 (en) * | 2008-01-31 | 2014-04-15 | General Instrument Corporation | Method and apparatus for expediting delivery of programming content over a broadband network |
US8421840B2 (en) * | 2008-06-09 | 2013-04-16 | Vidyo, Inc. | System and method for improved view layout management in scalable video and audio communication systems |
-
2009
- 2009-06-09 US US12/481,354 patent/US8421840B2/en active Active
- 2009-06-09 AU AU2009257627A patent/AU2009257627B2/en not_active Ceased
- 2009-06-09 EP EP09763448.9A patent/EP2292016B1/en active Active
- 2009-06-09 WO PCT/US2009/046758 patent/WO2009152158A1/en active Application Filing
- 2009-06-09 JP JP2011513634A patent/JP5497020B2/ja active Active
- 2009-06-09 CN CN200980127625.1A patent/CN102090069B/zh active Active
- 2009-06-09 CA CA2727569A patent/CA2727569C/en active Active
-
2013
- 2013-03-13 US US13/800,718 patent/US9071883B2/en active Active
-
2014
- 2014-03-04 JP JP2014041323A patent/JP5852157B2/ja active Active
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105340264A (zh) * | 2013-06-27 | 2016-02-17 | 思科技术公司 | 生成视频窗格布局 |
CN105340264B (zh) * | 2013-06-27 | 2019-05-21 | 思科技术公司 | 生成视频窗格布局 |
CN113099151A (zh) * | 2016-01-06 | 2021-07-09 | 三星电子株式会社 | 显示装置及其控制方法 |
CN109068166A (zh) * | 2018-08-17 | 2018-12-21 | 北京达佳互联信息技术有限公司 | 一种视频合成方法、装置、设备及存储介质 |
CN111158836A (zh) * | 2019-12-31 | 2020-05-15 | 联想(北京)有限公司 | 一种信息处理方法和电子设备 |
CN111158836B (zh) * | 2019-12-31 | 2022-03-25 | 联想(北京)有限公司 | 一种信息处理方法和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
JP2011523330A (ja) | 2011-08-04 |
CA2727569A1 (en) | 2009-12-17 |
EP2292016B1 (en) | 2014-12-17 |
JP2014135753A (ja) | 2014-07-24 |
JP5497020B2 (ja) | 2014-05-21 |
US20130198795A1 (en) | 2013-08-01 |
WO2009152158A1 (en) | 2009-12-17 |
EP2292016A1 (en) | 2011-03-09 |
US9071883B2 (en) | 2015-06-30 |
EP2292016A4 (en) | 2013-09-18 |
CA2727569C (en) | 2017-09-26 |
US20100002069A1 (en) | 2010-01-07 |
JP5852157B2 (ja) | 2016-02-03 |
AU2009257627B2 (en) | 2014-05-01 |
AU2009257627A1 (en) | 2009-12-17 |
CN102090069B (zh) | 2014-04-30 |
US8421840B2 (en) | 2013-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102090069B (zh) | 可缩放视频和音频通信系统中的改进视图布局管理 | |
Niamut et al. | MPEG DASH SRD: spatial relationship description | |
CN102265613B (zh) | 用于处理在多个视频会议终端之间的会议中的图像的方法、设备 | |
CN102271249B (zh) | 用于可伸缩视频的感兴趣区域信息设置方法和解析方法 | |
CN102204244B (zh) | 提供级联的多点视频会议单元的系统、方法和设备 | |
CN101594512B (zh) | 实现高清多画面的终端、多点控制单元、系统及方法 | |
US20120262531A1 (en) | Scalable Video Encoding in a Multi-View Camera System | |
WO2011116611A1 (zh) | 用于电视会议的视频播放方法 | |
EP2387241A1 (en) | Grid encoded media asset data | |
KR20110015614A (ko) | 다자간 회의의 제어 방법 및 장치 | |
CN101895718B (zh) | 视频会议系统多画面广播方法及其装置和系统 | |
CN103039072A (zh) | 用于使用多个摄影机和多个监视器的可缩放视频通信的系统和方法 | |
CN101668160A (zh) | 视频图像数据处理方法、装置及视频会议系统及终端 | |
CN104822070B (zh) | 多路视频流播放方法及装置 | |
CN108076345A (zh) | 多视角视频帧的编码方法、传输方法、装置、计算机 | |
US10666903B1 (en) | Combining encoded video streams | |
JP2019213208A (ja) | 受信装置、受信方法、及びプログラム | |
US11457053B2 (en) | Method and system for transmitting video | |
AU2014202369B2 (en) | Improved view layout management in scalable video and audio comunication systems | |
KR100275930B1 (ko) | 화상회의 시스템에서 복수의 픽쳐를 하나의 화면에 표시하기 위한 화면 형성방법 | |
Niamut et al. | Immersive live event experiences-interactive UHDTV on mobile devices | |
JP2010177986A (ja) | 映像配信装置 | |
Niamut et al. | Advanced visual rendering, gesture-based interaction and distributed delivery for immersive and interactive media services |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |