CN115606170A - 用于沉浸式远程会议和远程呈现的多分组 - Google Patents

用于沉浸式远程会议和远程呈现的多分组 Download PDF

Info

Publication number
CN115606170A
CN115606170A CN202280004028.5A CN202280004028A CN115606170A CN 115606170 A CN115606170 A CN 115606170A CN 202280004028 A CN202280004028 A CN 202280004028A CN 115606170 A CN115606170 A CN 115606170A
Authority
CN
China
Prior art keywords
media
immersive
video
client device
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280004028.5A
Other languages
English (en)
Inventor
罗伊特·阿比什克
伊拉吉·索达加
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent America LLC
Original Assignee
Tencent America LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent America LLC filed Critical Tencent America LLC
Publication of CN115606170A publication Critical patent/CN115606170A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/07User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail characterised by the inclusion of specific contents
    • H04L51/10Multimedia information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/02Details
    • H04L12/16Arrangements for providing special services to substations
    • H04L12/18Arrangements for providing special services to substations for broadcast or conference, e.g. multicast
    • H04L12/1813Arrangements for providing special services to substations for broadcast or conference, e.g. multicast for computer conferences, e.g. chat rooms
    • H04L12/1822Conducting the conference, e.g. admission, detection, selection or grouping of participants, correlating users to one or more conference sessions, prioritising transmission
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/02Details
    • H04L12/16Arrangements for providing special services to substations
    • H04L12/18Arrangements for providing special services to substations for broadcast or conference, e.g. multicast
    • H04L12/1813Arrangements for providing special services to substations for broadcast or conference, e.g. multicast for computer conferences, e.g. chat rooms
    • H04L12/1827Network arrangements for conference optimisation or adaptation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/1066Session management
    • H04L65/1101Session protocols
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/1066Session management
    • H04L65/1101Session protocols
    • H04L65/1104Session initiation protocol [SIP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/40Support for services or applications
    • H04L65/403Arrangements for multi-party communication, e.g. for conferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/54Presence management, e.g. monitoring or registration for receipt of user log-on information, or the connection status of the users
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本公开的各方面提供用于视频会议和/或远程呈现的方法和装置。在一些示例中,视频会议/远程呈现可由多个客户端设备、用户设备和媒体控制设备(例如,服务器设备)执行。例如,第一客户端设备确定限制来自第二客户端设备的覆盖媒体与第一客户端设备的沉浸式媒体的分组的分组控制,并发送指示分组控制的分组控制信号,以通知媒体控制设备。进一步地,第一客户端设备向媒体控制设备提供包括沉浸式媒体的一个或多个媒体。媒体控制设备可基于从第一客户端设备接收的分组控制信号来将多个沉浸式媒体流分组成单个或多个组。

Description

用于沉浸式远程会议和远程呈现的多分组
援引并入
本申请要求于2022年5月10日提交的题为“MULTIPLE GROUPING FOR IMMERSIVETELECONFERENCING AND TELEPRESENCE(用于沉浸式远程会议和远程呈现的多分组)”的美国专利申请No.17/741,351的优先权权益,该美国专利申请No.17/741,351要求于2021年5月11日提交的题为“Multiple Grouping of 360Video for Immersive Teleconferencingand Telepresence for Remote Terminals(用于远程终端的沉浸式远程会议和远程呈现的360视频的多分组)”的美国临时申请No.63/187,346的优先权权益。这些在先申请的公开内容通过引用整体并入本文中。
技术领域
本公开描述了总体上涉及视频会议和远程呈现的实施例。
背景技术
本文所提供的背景描述是出于总体上呈现本公开内容的目的。在该背景技术部分以及本说明书的各个方面中所描述的、目前已署名的发明人的工作所进行的程度,并不表明其在本申请提交时有资格作为现有技术,且从未明示或暗示其被承认为本公开内容的现有技术。
视频会议系统允许位于两个或更多个远程位置的用户通过媒体流(例如,视频流、音频流、或视频流和音频流两者)彼此交互地通信。一些视频会议系统还允许用户交换数字文档,例如图像、文本、视频、应用等。
发明内容
本公开的各方面提供用于视频会议和/或远程呈现的方法和装置。在一些示例中,视频会议/远程呈现可由多个客户端设备、用户设备和媒体控制设备(例如,服务器设备)执行。例如,第一客户端设备确定限制来自第二客户端设备的覆盖媒体与第一客户端设备的沉浸式媒体的分组的分组控制,并发送指示分组控制的分组控制信号,以通知媒体控制设备。进一步地,第一客户端设备向媒体控制设备提供包括沉浸式媒体的一个或多个媒体。媒体控制设备可基于从第一客户端设备接收的分组控制信号,将多个沉浸式媒体流分组成单个或多个组。
在一些示例中,沉浸式媒体包括全向视频、360度视频和广角视频中的至少一个。
在一些示例中,第一客户端设备发送具有指示分组控制的属性字段的会话描述协议(session description protocol,SDP)消息。在一个示例中,第一客户端发送具有如下属性字段的SDP消息,该属性字段指示不允许来自第二客户端设备的覆盖媒体与第一客户端设备的沉浸式媒体进行分组。例如,该属性字段的形式为“a=no_other_overlays”。
在另一示例中,第一客户端设备发送具有如下属性字段的SDP消息,该属性字段指示允许来自第二客户端设备的覆盖媒体与第一客户端设备的沉浸式媒体进行分组。例如,该属性字段的形式为“a=other_overlays”。
在另一示例中,第一客户端设备发送具有如下属性字段的SDP消息,该属性字段指示允许与第一客户端设备的沉浸式媒体进行分组的媒体类型。例如,该属性字段的形式为“a=allowed_content”。在一些示例中,媒体类型包括双向视频、图像和幻灯片中的至少一个。
在一些示例中,第一客户端设备发送具有第一属性字段和第二属性字段的SDP消息,第一属性字段指示允许来自第二客户端设备的覆盖媒体与第一客户端设备的沉浸式媒体进行分组,第二属性字段指示允许的媒体类型。
本公开的各方面还提供一种非暂时性计算机可读介质,非暂时性计算机可读介质存储有指令,当该指令由用于视频会议的计算机执行时,该指令使得该计算机执行用于视频会议/远程呈现的方法。
附图说明
根据以下详细描述和附图,所公开的主题的其他特征、性质和各种优点将更加明显,在附图中:
图1示出了根据本公开的一些示例的视频会议系统。
图2示出了根据本公开的一些示例的另一视频会议系统。
图3示出了根据本公开的一些示例的另一视频会议系统。
图4A至图4E示出了对应于一个或多个媒体组的属性字段的一些示例。
图5A至图5D示出了对应于一个或多个媒体组的属性字段的一些示例。
图6A至图6E示出了对应于一个或多个媒体组的属性字段的一些示例。
图7示出了概述根据本公开的一些示例的过程的流程图。
图8示出了概述根据本公开的一些示例的过程的流程图。
图9是根据一个实施例的计算机系统的示意性图示。
具体实施方式
本公开的各方面提供用于用信号表示沉浸式视频与覆盖视频进行多分组以用于远程会议和/或远程呈现的技术。
在一些示例中,远程会议可以是视频会议,视频会议的参与者可通过媒体流进行通信,该媒体流可包括视频和音频。远程呈现(Telepresence)是一种视频会议技术,其提供更高级别的音频和视频质量,以尽可能类似于面对面交流。在本公开的描述中,视频会议用于包括远程会议和远程呈现,且本公开中公开的技术可用于远程会议和远程呈现。
图1和图2示出了一些示例中的一些视频会议系统。
图1示出了视频会议系统(100)。视频会议系统(100)包括子系统(110)和多个用户设备,例如用户设备(120)和用户设备(130)。子系统(110)安装在诸如会议室A的位置。通常,子系统(100)配置成与用户设备(120)和用户设备(130)相比具有相对更高的带宽,且可提供视频会议会话(还称为视频会议呼叫)的主机服务。子系统(110)可使得会议室A中的用户或参与者能够参与视频会议会话,且可使得一些远程用户(例如,用户设备(120)的用户B和用户设备(130)的用户C)能够从远程位置参与视频会议会话。在一些示例中,子系统(110)、用户设备(120)和用户设备(130)称为视频会议会话中的终端。
在一些实施例中,子系统(110)包括适合于会议室的各种音频、视频和控制组件。各种音频、视频和控制组件可集成在设备中,或者可以是通过合适的通信技术耦合在一起的分布式组件。在一些示例中,子系统(110)包括具有相对宽的视场的广角相机(111),例如鱼眼相机、全向相机等。例如,全向相机可配置成具有大致覆盖整个球体的视场,由全向相机拍摄的视频可称为全向视频或360度视频。
进一步地,在一些示例中,子系统(110)包括麦克风(112),例如可捕获来自几乎任何方向的声波的全向(还称为无方向)麦克风。子系统(110)可包括显示屏(114)、扬声器设备等,以使得会议室A中的用户能够在除了会议室A之外的位置播放与用户的视频和音频对应的多媒体。在一个示例中,扬声器设备可与麦克风(112)集成,或者可以是单独的组件(未示出)。
在一些示例中,子系统(110)包括控制器(113)。虽然膝上型计算设备在图1中示出为控制器(113),但是其它合适的设备(例如,台式计算机、平板计算机等)可用作控制器(113)。还应注意,在一个示例中,控制器(113)可与子系统(110)中的其它组件集成在一起。
控制器(113)可配置成执行子系统(110)的各种控制功能。例如,控制器(113)可用于发起视频会议会话,以及管理子系统(110)与用户设备(120)和用户设备(130)之间的通信。在一个示例中,控制器(113)可以对在会议室A捕获(例如,由相机(111)和麦克风(112)捕获)的视频和/或音频进行编码,以生成媒体流来携带视频和/或者音频,且可以使媒体流发送到用户设备(120)和用户设备(130)。
进一步地,在一些示例中,控制器(113)可以从视频会议系统(100)中的每个用户设备(例如,用户设备(120)和用户设备(130))接收携带在相应的用户设备处捕获的音频和/或视频的媒体流。控制器(113)可以对视频会议系统(100)中的其它用户设备进行寻址并将所接收的媒体流发送到视频会议系统(100)中的其它用户设备。例如,控制器(113)可以从用户设备(120)接收媒体流、对用户设备(130)进行寻址并将媒体流发送到用户设备(130),以及可以从用户设备(130)接收另一媒体流、对用户设备(120)进行寻址并将另一媒体流发送到用户设备(120)。
进一步地,在一些示例中,控制器(113)可确定合适的视频会议参数,例如音频、视频混合参数等,并将视频会议参数发送到用户设备(120)和用户设备(130)。
在一些示例中,控制器(113)可以使用户界面显示在屏幕(例如,显示屏(114)、膝上型计算设备的屏幕等)上,以便于会议室A中的用户输入。
用户设备(120)和用户设备(130)中的每一个可以是支持视频会议的任何合适的设备,例如台式计算机、膝上型计算机、平板计算机、可穿戴设备、手持式设备、智能电话、移动类型的设备、嵌入类型的设备、游戏控制台、游戏设备、个人数据助理(PDA)、电信设备、全球定位系统(“GPS”)设备、虚拟现实(“VR”)设备、增强现实(AR)设备、植入式计算设备、汽车计算机、支持网络的电视、物联网(“IoT”)设备、工作站、媒体播放器、个人视频记录器(personal video recorder,PVR)、机顶盒、相机、包括在计算设备、电器或任何其它类型的计算设备中的集成组件(例如,外围设备)。
在图1的示例中,用户设备(120)包括可穿戴多媒体组件,以允许用户(例如,用户B)参与视频会议会话。例如,用户设备(120)包括可佩戴在用户B头部上的头戴式显示器(head mounted display,HMD)。HMD可包括位于用户B的一只或两只眼睛前方的显示光学器件,以播放视频。在另一示例中,用户设备(120)包括可由用户B佩戴的耳机(未示出)。耳机可包括用于捕获用户语音的麦克风,并包括用于输出音频声音的一个或两个耳塞。用户设备(120)还包括可发送和/或接收媒体流的合适的通信组件(未示出)。
在图1的示例中,用户设备(130)可以是将通信组件、成像组件、音频组件等集成在一起以允许用户(例如,用户C)参与视频会议会话移动设备,例如智能电话等。
在图1的示例中,子系统(110)、用户设备(120)和用户设备(130)包括可与网络(101)连接的合适的通信组件(未示出)。通信组件可包括一个或多个网络接口控制器(NIC)或其它类型的收发器电路,以通过网络(例如,网络(101)等)发送和接收通信和/或数据。
网络(101)可包括例如公共网络(例如,因特网)、私有网络(例如,机构和/或个人内联网)、或者私有网络和公共网络的某种组合。网络(108)还可包括任何类型的有线和/或无线网络,包括但不限于局域网(“LAN”)、广域网(“WAN”)、卫星网络、有线网络、Wi-Fi网络、WiMax网络、移动通信网络(例如3G、4G、5G等)或它们的任何组合。网络(101)可利用通信协议,通信协议包括基于数据包的协议和/或基于数据报的协议,例如因特网协议(“IP”)、传输控制协议(“TCP”)、用户数据报协议(“UDP”)或其它类型的协议。此外,网络(101)还可包括促进网络通信和/或形成网络的硬件基础的多个设备,例如交换机、路由器、网关、接入点、防火墙、基站、中继器、骨干设备等。在一些示例中,网络(101)可进一步包括能够连接到无线网络的设备,例如无线接入点(“WAP”)。
在图1的示例中,子系统(110)可使用对等技术控制视频会议会话。例如,在用户设备(120)加入视频会议会话之后,用户设备(120)可适当地对数据包进行寻址(例如,使用子系统(110)的IP地址)并将数据包发送到子系统(110),以及子系统(110)可适当地对数据包进行寻址(例如,使用用户设备(120)的IP地址)并将数据包发送到用户设备(120)。数据包可携带各种信息和数据,例如媒体流、确认、控制参数等。
在一些示例中,视频会议系统(100)可提供沉浸式视频会议的视频会议会话。例如,在视频会议会话期间,子系统(110)配置成使用全向相机和/或全向麦克风来生成沉浸式媒体,例如全向视频/音频。在一个示例中,用户设备(120)中的HMD可检测用户B的头部移动,并基于头部移动来确定用户B的视口方向。用户设备(120)可以将用户B的视口方向发送到子系统(110),进而子系统(100)可以将依赖于视口的流(例如,基于用户B的视口方向而定制的视频流(携带基于用户B的视口方向而定制的视频的媒体流),基于用户B的视口方向而定制的音频流(携带基于用户B的视口方向而定制的视频的媒体流)等)发送到用户设备(120),以用于在用户设备(120)处播放。
在另一示例中,用户C可使用用户设备(130)来输入用户C的视口方向(例如,使用智能电话的触摸屏)。用户设备(130)可以将用户C的视口方向发送到子系统(110),进而子系统(100)可以将依赖于视口的流(例如,基于用户C的视口方向而定制的视频流(携带基于用户C的视口方向而定制的视频的媒体流),基于用户C的视口方向而定制的音频流(携带基于用户C的视口方向而定制的音频的媒体流)等)发送到用户设备(130),以用于在用户设备(130)处播放。
应注意,在视频会议会话期间,用户B和/或用户C的视口方向可发生变化。可以向子系统(110)通知视口方向的改变,子系统(100)可调节分别发送到用户设备(120)和用户设备(130)的、依赖于视口的相应流中的视口方向。
为了便于描述,沉浸式媒体用于指代广角媒体(例如,全向视频、全向音频),以及指代基于广角媒体生成的、依赖于视口的媒体。应注意,在本公开中,使用360度媒体(例如,360度视频、360度音频等)来说明用于视频会议的技术,视频会议技术可以在小于360度的沉浸式媒体上使用。
图2示出了根据本公开的一些示例的另一视频会议系统(200)。视频会议系统(200)包括基于网络的媒体处理服务器(240)、多个子系统以及多个用户设备,多个子系统例如是分别安装在会议室A至会议室Z处的子系统(210A)至子系统(210Z),多个用户设备例如是用户设备(220)和用户设备(230)。基于网络的媒体处理服务器(240)可建立视频会议会话,并使子系统(210A)至子系统(210Z)和用户设备(例如,用户设备(220)和用户设备(230))加入视频会议会话。因此,用户(例如,会议室A至会议室Z中的用户、用户设备(230)的用户B和用户设备(230)的用户C)可参与视频会议会话。
在一些示例中,子系统(210A)至子系统(210Z)、用户设备(220)和用户设备(230)称为视频会议会话中的终端,基于网络的媒体处理服务器(240)可以桥接视频会议会话中的终端。在一些示例中,基于网络的媒体处理服务器(240)称为媒体感知网络元件。基于网络的媒体处理服务器(240)可执行媒体资源功能(MRF)且可作为媒体控制单元(mediacontrol unit,MCU)来执行媒体控制功能。在一些示例中,在视频会议会话中,将沉浸式媒体发送到基于网络的媒体处理服务器(240)的、视频会议系统(200)中的终端称为用于远程终端的沉浸式远程会议和远程呈现(immersive teleconferencing and telepresencefor remote terminal,ITT4RT)发送器(Tx)客户端,或远程发送器或发送器客户端;以及在视频会议会话中,从基于网络的媒体处理服务器(240)接收与沉浸式媒体相关的媒体流(例如,基于沉浸式媒体生成的媒体流)的、视频会议系统(200)中的终端称为用于远程终端的沉浸式远程会议和远程呈现(ITT4RT)接收器(Rx)客户端,或远程接收器或接收器客户端。应注意,在视频会议会话中,终端可以是ITT4RT Rx客户端和/或ITT4RT Tx客户端。
在一些实施例中,子系统(210A)至子系统(210Z)中的每一个类似于上述子系统(110)来操作。此外,子系统(210A)至子系统(210Z)中的每一个使用与子系统(110)中使用的组件相同或等同的某些组件;上文已提供对这些组件的描述,为了清楚起见,这里将省略对这些组件的描述。应注意,子系统(210A)至子系统(210Z)彼此可不同地配置。
用户设备(220)和用户设备(230)类似于上述用户设备(120)和(130)来配置,以及网络(201)类似于网络(101)来配置。上文已提供对这些组件的描述,为了清楚起见,这里将省略对这些组件的描述。
在一些示例中,基于网络的媒体处理服务器(240)可发起视频会议会话。例如,子系统(210A)至子系统(210Z)、用户设备(220)和用户设备(230)之一可访问基于网络的媒体处理服务器(240)以发起视频会议会话。子系统(210A)至子系统(210Z)、用户设备(220)和用户设备(230)可加入视频会议会话。进一步地,基于网络的媒体处理服务器(240)可配置成提供媒体相关功能,以用于桥接视频会议会话中的终端。例如,子系统(210A)至子系统(210Z)可分别对携带相应媒体信息(例如,视频和音频)的数据包进行寻址,并将数据包发送到基于网络的媒体处理服务器(240)。应注意,在一些示例中,发送到基于网络的媒体处理服务器(240)的媒体信息与视口无关。例如,子系统(210A)至子系统(210Z)可以将相应的视频(例如,整个360度视频)发送到基于网络的媒体处理服务器(240)。进一步地,基于网络的媒体处理服务器(240)可以从用户设备(220)和用户设备(230)接收视口方向,执行媒体处理以定制媒体,以及将所定制的媒体信息发送到相应的用户设备。
在一个示例中,在用户设备(220)加入视频会议会话之后,用户设备(220)可以对数据包进行寻址并将数据包发送到基于网络的媒体处理服务器(240),基于网络的媒体处理服务器(240)可以对数据包进行寻址并将数据包发送到用户设备(220)。数据包可包括任何合适的信息/数据,例如媒体流、控制参数等。在一个示例中,用户B可使用用户设备(220)来选择会议室,以观看来自会议室中的子系统的视频。例如,用户B可使用用户设备(220)来选择会议室A,以观看来自安装在会议室A中的子系统(210A)的捕获视频。此外,用户设备(200)中的HMD可检测用户B的头部移动,并基于头部移动来确定用户B的视口方向。用户设备(220)可以将对会议室A的选择和用户B的视口方向发送到基于网络的媒体处理服务器(240),以及基于网络的媒体处理服务器(24)可处理从子系统(210A)发送的媒体,并将依赖于视口的流(例如,基于用户B的视口方向而定制的视频流,基于用户B的视口方向而定制的音频流等)发送到用户设备(220),以用于在用户设备(220)处播放。在一些示例中,当用户设备(220)选择会议室A时,用户设备(220)、子系统(210A)和基于网络的媒体处理服务器(240)可基于会话描述协议(SDP)彼此通信。
在另一示例中,在用户设备(230)加入视频会议会话之后,用户设备(230)可以对数据包进行寻址并将数据包发送到基于网络的媒体处理服务器(240),基于网络的媒体处理服务器(240)可以对数据包进行寻址并将数据包发送到用户设备(230)。数据包可包括任何合适的信息/数据,例如媒体流、控制参数等。在一些示例中,基于网络的媒体处理服务器(240)可以将所定制的媒体信息发送到用户设备(230)。例如,用户C可使用用户设备(230)来输入对会议室(例如,会议室Z)的选择和用户C的视口方向(例如,使用智能电话的触摸屏)。用户设备(230)可以将会议室Z的选择信息和用户C的视口方向发送到基于网络的媒体处理服务器(240),基于网络的媒体处理服务器(240)可处理从子系统(210Z)发送的媒体并将依赖于视口的流(例如,基于用户C的视口方向而定制的视频流,基于用户C的视口方向而定制的音频流等)发送到用户设备(230),以用于在用户设备(230)处播放。在一些示例中,当用户设备(230)选择会议室Z时,用户设备(230)、子系统(210Z)和基于网络的媒体处理服务器(240)可基于会话描述协议(SDP)彼此通信。
应注意,在视频会议会话期间,用户(例如,用户B、用户C)的视口方向可发生变化。例如,用户B可以向基于网络的媒体处理服务器(240)通知用户B的视口方向的变化,相应地,基于网络的媒体处理服务器(240)可调整发送到用户设备(220)的、依赖于视口的流中的视口方向。
为了便于描述,沉浸式媒体用于指代广角媒体(例如,全向视频、全向音频),以及指代基于广角媒体生成的、依赖于视口的媒体。应注意,在本公开中,使用360度媒体(例如,360度视频、360度音频等)来说明用于视频会议的技术,视频会议技术可以在小于360度的沉浸式媒体上使用。
应注意,可以在视频会议会话期间改变会议室选择。在一个示例中,用户设备(例如,用户设备(220)、用户设备(230)等)可基于活跃的扬声器来触发从一个会议室切换到另一个会议室。例如,响应于活跃的扬声器位于会议室A中,用户设备(230)可确定将对会议室的选择切换到会议室A,并将对会议室A的选择发送到基于网络的媒体处理服务器(240)。然后,基于网络的媒体处理服务器(240)可处理从子系统(210A)发送的媒体并将依赖于视口的流(例如,基于用户C的视口方向而定制的视频流,基于用户C的视口方向而定制的音频流等)发送到用户设备(230),以用于在用户设备(230)处播放。
在一些示例中,基于网络的媒体处理服务器(240)可暂停从没有活跃用户的任何会议室接收视频流。例如,基于网络的媒体处理服务器(240)确定会议室Z没有任何活跃用户,那么基于网络的媒体处理服务器(240)可暂停接收子系统(210Z)的视频流。
在一些示例中,基于网络的媒体处理服务器(240)可包括分布式计算资源,且可通过网络(201)与子系统(210A)至子系统(210Z)、用户设备(220)和用户设备(230)通信。在一些示例中,基于网络的媒体处理服务器(240)可以是独立系统,其任务是管理一个或多个视频会议会话的各方面。
在各个示例中,基于网络的媒体处理服务器(240)可包括一个或多个计算设备,这一个或多个计算设备按集群或其它分组配置来操作,以共享资源、平衡负载、提高性能、提供对故障转移的支持或冗余,或用于其它目的。例如,基于网络的媒体处理服务器(240)可属于各种类型的设备,例如传统服务器类型的设备、台式计算机类型的设备和/或移动类型的设备。因此,虽然示出为单个类型的设备,即服务器类型的设备,但是基于网络的媒体处理服务器(240)可包括多种设备类型,且不限于特定类型的设备。基于网络的媒体处理服务器(240)可表示但不限于服务器计算机、台式计算机、网络服务器计算机、个人计算机、移动计算机、膝上型计算机、平板计算机或任何其它类型的计算设备。
根据本公开的一方面,基于网络的媒体处理服务器(240)可执行某些媒体功能,以减轻终端(例如,用户设备(220)、用户设备(230)等)的处理负担。例如,用户设备(220)和/或用户设备(230)可能具有有限的媒体处理能力或者可能难以对多个视频流进行编码和渲染,基于网络的媒体处理服务器(240)可执行媒体处理,例如对音频和视频流进行解码/编码等,以卸载用户设备(220)和用户设备(230)上的媒体处理。在一些示例中,用户设备(220)和用户设备(230)是电池供电的设备,当已将媒体处理从用户设备(220)和用户设备(230)卸载到基于网络的媒体处理服务器(240)时,可延长用户设备(220)和用户设备(230)的电池寿命。
可处理和混合来自不同源的媒体流。在一些示例中,例如在国际标准化组织(ISO)23090-2中,覆盖可定义为在第一媒体上呈现第二媒体。根据本公开的一方面,对于沉浸式视频会议的视频会议会话,附加媒体内容(例如,视频和/或音频、静态图像、演示幻灯片等)可覆盖在沉浸式媒体内容上。附加媒体(或媒体内容)可称为沉浸式媒体(或沉浸式媒体内容)的覆盖媒体(或覆盖媒体内容,或简称为覆盖)。例如,覆盖内容可以是在全向视频上呈现的一段视频/音频媒体。
参考图2,在一些示例中,多个或所有子系统(210A)至子系统(210Z)可分别将沉浸式媒体和覆盖内容发送到基于网络的媒体处理服务器(240)。因此,可以是:来自不同源的多个沉浸式媒体和相关覆盖内容在基于网络的媒体处理服务器(240)处可用。在一些实施例中,基于网络的媒体处理服务器(240)可例如使用会话描述协议(SDP)消息,向在视频会议会话中接收媒体内容的终端通知多个沉浸式媒体和相关覆盖内容的可用性。例如,基于网络的媒体处理服务器(240)可使用SDP提议消息来通知媒体内容的可用性。
在一些示例中,SDP用于向多媒体会话(例如,视频会议会话)的参与者提供一种用于提供会话描述元数据的标准表示。SDP消息包括用于多媒体会话的会话级别的会话描述,且可包括用于多媒体会话中的媒体的、处于媒体级别的多个媒体描述。每个媒体描述可以以“m=”字段开始,并通过下一个“m=”字段或会话描述的结束来终止。“m=”字段可包括多个子字段,例如:
m=<media><port>…
其中,<media>是媒体类型(例如“音频”、“视频”、“文本”等)的子字段,<port>是媒体流发送到的传输端口的子字段。
进一步地,多媒体会话和/或媒体可具有使用属性字段定义的属性。在一些示例中,属性字段可具有以下两种形式:
a=<attribute>
a=<attribute>:<value>
当属性是具有二进制值的标志时,可使用第一种形式,第二种形式可用于给属性分配非二进制值。
在一些示例中,基于网络的媒体处理服务器(240)接收其中每一个来自不同源的多个沉浸式媒体(例如,多个360视频),且可生成SDP消息,以向参与者(例如,接收器客户端)通知多个沉浸式媒体的可用性。在一些示例中,其中一个源,例如,一个会议室是默认会议室,其它会议室可以是备用会议室。在一个示例中,SDP消息可包括分别用于多个沉浸式媒体的多个“m=”字段,并包括用于多个沉浸式媒体的属性字段。
在一个示例中,对于来自默认会议室的360视频,SDP消息可包括以下“m=”字段和属性字段:
m=video
a=3gpp_360video
a=content:main
在另一示例中,对于来自备用会议室的360视频,SDP消息可包括以下“m=”字段和属性字段:
m=video
a=3gpp_360video
a=content:alt
在另一示例中,对于来自其它远程参与者(例如,用户设备)的360视频,SDP消息可包括以下“m=”字段和属性字段,但不具有‘content’属性:
m=video
a=3gpp_360video
根据本公开的一方面,可以在使用组属性的SDP消息中包括覆盖。在一些实施例中,在SDP中使用称为itt4rt_group属性的属性,以向沉浸式媒体提供覆盖信息。itt4rt_group属性包括一组媒体,例如,这一组媒体采用与媒体对应的媒体标识符(mid)列表的形式。例如,itt4rt_group属性中的mid列表可包括与沉浸式媒体(例如,360度媒体)相关联的至少一个mid,以及与由对应媒体描述中的mid属性定义的覆盖相关联的至少一个mid。
根据本公开的一方面,当基于网络的媒体处理服务器(240)接收其中每一个来自不同源的多个沉浸式媒体(例如,多个360视频)时,基于网络的媒体处理服务器(240)可生成SDP消息(还称为SDP提议)来通知远程参与者,SDP消息可包括使用itt4rt_group属性定义的多个组。在一些示例中,每一组可包括与沉浸式媒体(例如,360度媒体)相关联的一个mid,以及与作为覆盖的2D媒体(例如,2D视频媒体)相关联的一个或多个其它mid。在一个示例中,2D媒体可以从除了该组内指定的沉浸式媒体的源之外的源提供。在另一示例中,2D媒体可以从与该组内指定的沉浸式媒体的源相同的源提供。
本公开的一些方面提供支持多组沉浸式媒体(例如,360视频)用于远程终端的沉浸式远程会议和远程呈现(ITT4RT)的控制技术。在一些实施例中,控制技术用于例如从具有MRF/MCU功能的基于网络的媒体处理服务器(240)到远程接收器或ITT4RT-Rx客户端,通知包括不同沉浸式媒体(例如,不同的360视频)和覆盖的多个组。
根据本公开的一方面,分组控制信号可以从沉浸式媒体的源设备(例如,沉浸式媒体的ITT4RT-Tx客户端、子系统(210A)至子系统(210Z)、用户设备(220)和用户设备(230)等)提供给基于网络的媒体处理服务器(例如,基于网络的媒体处理服务器(240)),以指示来自其它源的覆盖是否可与沉浸式媒体进行分组。在一些示例中,分组控制信号可作为SDP消息中的属性参数来提供。
在一些示例中,在来自发送器客户端的SDP中使用属性参数“a=other_overlays”,以用于在向远程接收器客户端提供媒体服务的基于网络的媒体处理服务器(例如,MRF/MCU)处将媒体流分组为单个或多个itt4rt_group。
在一些示例中,在来自发送器客户端的SDP中使用属性参数“a=no_other_overlays”,以用于在向远程接收器客户端提供媒体服务的基于网络的媒体处理服务器(例如,MRF/MCU)处将媒体流分组为单个或多个itt4rt_group。
在一些示例中,在来自发送器客户端的SDP中使用属性参数“a=allowed_content”,以用于在向远程接收器客户端提供媒体服务的基于网络的媒体处理服务器(例如,MRF/MCU)处将媒体流分组为单个或多个itt4rt_group。
在一些实施例中,如图2所示,带有全向相机的多个会议室位于远程会议中,具有MRF/MCU功能的基于网络的媒体处理服务器(240)可以是将媒体内容重新分发给ITT4RT-Rx客户端的中心点。当ITT4RT-Tx客户端用信号表示包括360视频和覆盖的媒体流时,ITT4RT-Tx客户端在到达基于网络的媒体处理服务器(240)的SDP消息中包括分组控制信号,例如“a=other_overlays”、“a=no_other_overlays”、“a=allowed_content”。该分组控制信号指示是否允许基于网络的媒体处理服务器(240)将来自该ITT4RT-Tx客户端的媒体流与来自其它ITT4RT-Tx客户端的媒体流进行分组。
基于网络的媒体处理服务器(240)从ITT4RT-Tx客户端接收分组控制信号和其它合适的媒体信息,并基于分组控制信号形成组,例如itt4rt_group组。
在一个实施例中,所有ITT4RT-Tx客户端允许来自其它ITT4RT-Tx客户端的覆盖,基于网络的媒体处理服务器(240)可以将来自ITT4RT-Tx客户端的所有媒体分组成单个itt4rt_group组,且向ITT4RT-Rx客户端通知单个itt4rt_group组。
在一个实施例中,当一个或多个ITT4RT-Tx客户端不允许来自其它ITT4RT-Tx客户端的覆盖时,基于网络的媒体处理服务器(240)可形成单独的itt4rt_group组,以分别用于来自一个或多个ITT4RT-Tx客户端的媒体。进一步地,基于网络的媒体处理服务器(240)可以将允许来自其它ITT4RT-Tx的覆盖的ITT4RT-Tx客户端的所有媒体分组成单个itt4rt_group组。
在一个示例中,当“a=other_overlays”包括在来自ITT4RT-Tx客户端的SDP中时,允许来自其它ITT4RT-Tx客户端的覆盖;当“a=other_overlays”不包括在来自ITT4RT-Tx客户端的SDP中时,不允许来自其它ITT4RT-Tx的覆盖。在另一示例中,当“a=no_other_overlays”包括在来自ITT4RT-Tx客户端的SDP中时,不允许(禁止)来自其它ITT4RT-Tx客户端的覆盖;当“a=no_other_overlays”不包括在来自ITT4RT-Tx客户端的SDP中时,允许来自其它ITT4RT-Tx的覆盖。
在一些示例中,对于发送2D视频(例如,非沉浸式视频)的ITT4RT-Tx客户端,允许对2D视频的覆盖,无需发送分组控制信号。在一些示例中,当ITT4RT-Tx客户端发送沉浸式视频(例如,360视频)时,用信号表示分组控制信号。
图3示出了说明根据本公开的一些方面的一些具体示例的视频会议系统(300)。视频会议系统(300)包括基于网络的媒体处理服务器(440)、分别安装在会议室A至会议室C处的子系统(310A)至子系统(310C)、以及用户设备(320)。基于网络的媒体处理服务器(340)类似于基于网络的媒介处理服务器(240)来操作,并使用与基于网络的媒体处理服务器(240)中使用的组件相同或等同的某些组件。用户设备(320)类似于用户设备(220)来操作。
]在图3的示例中,子系统(310A)包括全向相机,该全向相机生成称为360A的360视频(媒体标识符为mid-360A)。子系统(310A)还生成称为OA1的覆盖(媒体标识符为mid-OA1)和称为OA2的覆盖(媒体标识符为mid-OA2)。子系统(310B)包括全向相机,该全向相机生成称为360B的360视频(媒体标识符为mid-360B)。子系统(310B)还生成称为OB1的覆盖(媒体标识符为mid-OB1)和称为OB2的覆盖(媒体标识符为mid-OB2)。子系统(310C)包括全向相机,该全向相机生成称为360C的360视频(媒体标识符为mid-360C)。子系统(310C)还生成称为OC1的覆盖(媒体标识符为mid-OC1)和称为OC2的覆盖(媒体标识符为mid-OC2)。
在一些示例中,子系统(310A)将360视频360A、覆盖OA1和覆盖OA2发送到基于网络的媒体处理服务器(340);子系统(310B)将360视频360B、覆盖OB1和覆盖OB2发送到基于网络的媒体处理服务器(340);子系统(310C)将360视频360C、覆盖OC1和覆盖OC2发送到基于网络的媒体处理服务器(340)。子系统(310A)、子系统(310B)和子系统(310C)还向基于网络的媒体处理服务器(340)提供分组控制信号。来自子系统(310A)的分组控制信号指示来自子系统(310B)和子系统(310C)的覆盖是否可与360视频360A进行分组。来自子系统(310B)的分组控制信号指示来自子系统(310A)和子系统(310C)的覆盖是否可与360视频360B进行分组。来自子系统(310C)的分组控制信号指示来自子系统(310A)和子系统(310B)的覆盖是否可与360视频360C进行分组。
在一些示例中,来自子系统(310A)的分组控制信号指示允许来自其它源(例如,子系统(310B)和子系统(310C))的覆盖与360视频360A进行分组;来自子系统(310B)的分组控制信号指示允许来自其它源(例如,子系统(310A)和子系统(310C))的覆盖与360视频360B进行分组;来自子系统(310C)的分组控制信号指示允许来自其它源(例如,子系统(310A)和子系统(310B))的覆盖与360视频360C进行分组,然后基于网络的媒体处理服务器(340)可混合来自不同子系统的360视频和覆盖。
在一个示例中,基于网络的媒体处理服务器(340)可形成单个itt4rt_group并在到达ITT4RT-Rx客户端(例如,用户设备(320))的SDP消息(还称为SDP提议)中包括属性字段。例如,属性字段如下所示:
a=itt4rt_group:<mid-360A><mid-OA1><mid-OA2>;<mid-360B><mid-OB1><mid-OB2>;<mid-360C><mid-OC1><mid-OC2>
在一个示例中,基于网络的媒体处理服务器(340)可形成一个或多个itt4rt_group组,这一个或多个itt4rt_group组混合来自不同子系统的360视频和覆盖。在一个示例中,基于网络的媒体处理服务器(340)在到达ITT4RT-Rx客户端(例如,用户设备(320))的SDP消息(还称为SDP提议)中包括对应于一个或多个itt4rt_group组的属性字段。
图4A至图4E示出了对应于一个或多个itt4rt_group组的属性字段的一些示例。
在一些示例中,一个或多个子系统不允许对来自其它源的覆盖进行分组。例如,具有子系统的会议室中的演讲者不希望来自其它源的覆盖干扰他/她的演讲,因此可以将子系统配置成不允许来自其它源的覆盖。
在一些示例中,来自子系统(310A)的分组控制信号指示不允许来自其它源(例如,子系统(310B)和子系统(310C))的覆盖与360视频360A进行分组;来自子系统(310B)的分组控制信号指示允许来自其它源(例如,子系统(310A)和子系统(310C))的覆盖与360视频360B进行分组;来自子系统(310C)的分组控制信号指示允许来自其它源(例如,子系统(310A)和子系统(310B))的覆盖与360视频360C进行分组,然后基于网络的媒体处理服务器(340)可混合来自不同子系统的360视频和覆盖。
在一个示例中,基于网络的媒体处理服务器(340)可形成单独的itt4rt_group组以包括来自子系统(310A)的360视频和覆盖,并可形成另一个itt4rt_group组以包括可混合的其它360视频和覆盖。例如,基于网络的媒体处理服务器(340)在到达ITT4RT-Rx客户端(例如,用户设备(320))的SDP消息(还称为SDP提议)中包括对应于itt4rt_group组的属性字段。例如,属性字段如下所示:
a=itt4rt_group:<mid-360A><mid-OA1><mid-OA2>
a=itt4rt_group:<mid-360B><mid-OB1><mid-OB2>;<mid-360C><mid-OC1><mid-OC2>
在另一示例中,基于网络的媒体处理服务器(340)可形成单独的itt4rt_group组以包括来自子系统(310A)的360视频和覆盖,并可形成一个或多个itt4rt_group组以包括可混合的其它360视频和覆盖。例如,基于网络的媒体处理服务器(340)在到达ITT4RT-Rx客户端(例如,用户设备(320))的SDP消息(还称为SDP提议)中包括对应于itt4rt_group组的属性字段。
图5A至图5D示出了对应于一个或多个itt4rt_group组的属性字段的一些示例。
根据本公开的一方面,当ITT4RT-Rx客户端(例如,用户设备(320))接收SDP提议时,用户设备(320)可以将SDP消息(还称为SDP应答)发送到基于网络的媒体处理服务器(340),SDP应答指示从SDP提议中的itt4rt_group组中选择的一个itt4rt_group组。
根据本公开的一方面,分组控制信号可基于内容。在一些实施例中,属性字段“a=allowed_content”可包括在从ITT4RT-Tx客户端(例如,图3中的子系统(310A)、子系统(310B)和子系统(310C)之一)到达基于网络的媒体处理服务器(例如,基于网络的媒体处理服务器(340))的SDP消息中。给该属性字段分配一个值,该值指示允许混合的内容。在一个示例中,该值指示2D视频。在另一示例中,该值指示图像。在另一示例中,该值指示幻灯片。
例如,子系统(310A)将360视频360A、覆盖OA1(2D视频)和覆盖OA2(图像)发送到基于网络的媒体处理服务器(340);子系统(310B)将360视频360B、覆盖OB1(2D视频)和覆盖OB2(幻灯片)发送到基于网络的媒体处理服务器(340);子系统(310C)将360视频360C、覆盖OC1(图像)和覆盖OC2(幻灯片)发送到基于网络的媒体处理服务器(340)。子系统(310A)、子系统(310B)和子系统(310C)还向基于网络的媒体处理服务器(340)提供分组控制信号。来自子系统(310A)的分组控制信号指示来自子系统(310B)和子系统(310C)的覆盖是否可与360视频360A进行分组,以及可允许分组的覆盖内容。来自子系统(310B)的分组控制信号指示来自子系统(310A)和子系统(310C)的覆盖是否可与360视频360B进行分组,以及可允许分组的覆盖内容。来自子系统(310C)的分组控制信号指示来自子系统(310A)和子系统(310B)的覆盖是否可与360视频360C进行分组,以及可允许分组的覆盖内容。
在一些示例中,来自子系统(310A)的分组控制信号指示允许来自其它源(例如,子系统(310B)和子系统(310C))的覆盖与360视频360A进行分组,以及允许的覆盖内容是视频,例如在从子系统(310A)到基于网络的媒体处理服务器(340)的SDP消息中使用如下属性字段:
a=other_overlay
a=allowed_content:video
来自子系统(310B)的分组控制信号指示允许来自其它源(例如,子系统(310A)和子系统(310C))的覆盖与360视频360B进行分组,以及允许的覆盖内容是图像,例如在从子系统(310B)到基于网络的媒体处理服务器(340)的SDP消息中使用如下属性字段:
a=other_overlay
a=allowed_content:image
来自子系统(310C)的分组控制信号指示允许来自其它源(例如,子系统(310A)和子系统(310B))的覆盖与360视频360C进行分组,以及允许的覆盖内容是幻灯片,例如在从子系统(310C)到基于网络的媒体处理服务器(340)的SDP消息中使用如下属性字段:
a=other_overlay
a=allowed_content:slides
然后,基于网络的媒体处理服务器(340)可根据允许的覆盖内容,混合来自不同子系统的360视频和覆盖,以形成一个或多个itt4rt_group组。例如,基于网络的媒体处理服务器(340)在到达ITT4RT-Rx客户端(例如,用户设备(320))的SDP消息(还称为SDP提议)中包括对应于一个或多个itt4rt_group组的属性字段。
图6A至图6E示出了对应于一个或多个itt4rt_group组的属性字段的一些示例。
根据本公开的一方面,当ITT4RT-Rx客户端(例如,用户设备(320))接收SDP提议时,用户设备(320)可以将SDP消息(还称为SDP应答)发送到基于网络的媒体处理服务器(340),SDP应答指示从SDP提议中的一个或多个itt4rt_group组中选择的一个itt4rt_group组。
图7示出了概述根据本公开的一个实施例的过程(700)的流程图。在一些实施例中,过程(700)可由在视频会议中提供沉浸式媒体内容的第一客户端设备中的处理电路执行,处理电路例如是子系统(110)、子系统(210A)至子系统(210Z)、子系统(310A)至子系统(310C)中的处理电路等。在一些实施例中,过程(700)实现为软件指令,因此当处理电路执行软件指令时,处理电路执行过程(700)。过程在(S701)处开始并前进到(S710)。
在(S710)处,第一客户端设备确定分组控制,该分组控制限制来自第二客户端设备的覆盖媒体与第一客户端设备的沉浸式媒体的分组。在一个示例中,第一客户端设备基于用户输入来确定分组控制。在另一示例中,第一客户端设备基于第一客户端设备的配置来确定分组控制。
沉浸式媒体可以是任何合适的沉浸式媒体,例如全向视频、360度视频、广角视频等。
在(S720)处,第一客户端设备发送指示分组控制的分组控制信号,以通知媒体控制设备。
在一些示例中,第一客户端设备发送具有指示分组控制的属性字段的会话描述协议(SDP)消息。
在一个示例中,第一客户端设备发送具有如下属性字段的SDP消息,该属性字段指示不允许来自第二客户端设备的覆盖媒体与第一客户端设备的沉浸式媒体进行分组。例如,属性字段的形式为“a=no_other_overlays”。
在另一示例中,第一客户端设备发送具有如下属性字段的SDP消息,该属性字段指示允许来自第二客户端设备的覆盖媒体与第一客户端设备的沉浸式媒体进行分组。例如,属性字段的形式为“a=other_overlays”。
在另一示例中,第一客户端设备发送具有如下属性字段的SDP消息,该属性字段指示允许与第一客户端设备的沉浸式媒体进行分组的媒体类型。例如,属性字段的形式为“a=allowed_content”。媒体类型可以是2D视频、图像或幻灯片。
在一些示例中,第一客户端设备发送具有第一属性字段和第二属性字段的SDP消息,第一属性字段指示允许来自第二客户端设备的覆盖媒体与第一客户端设备的沉浸式媒体进行分组,第二属性字段指示允许的媒体类型。
在(S730)处,第一客户端设备向媒体控制设备提供包括沉浸式媒体的一个或多个媒体。一个或多个媒体还可包括来自第一客户端设备的覆盖媒体。
然后,过程前进到(S799)并结束。
过程(700)可适当地调整。可修改和/或省略过程(700)中的步骤。可添加附加步骤。可使用任何合适的实现顺序。
图8示出了概述根据本公开的一个实施例的过程(800)的流程图。在各个实施例中,过程(800)可由在进行基于网络的媒体处理以用于视频会议的媒体控制设备中的处理电路执行,处理电路例如是基于网络的媒体处理服务器(240)、基于网络的媒体处理服务器(340)中的处理电路等。在一些实施例中,过程(800)实现为软件指令,因此当处理电路执行软件指令时,处理电路执行过程(800)。过程在(S801)处开始并前进到(S810)。
在(S810)处,媒体控制设备从向媒体控制设备提供沉浸式媒体的第一客户端设备接收分组控制信号,分组控制信号指示限制来自第二客户端设备的覆盖媒体与第一客户端设备的沉浸式媒体的分组的分组控制。
沉浸式媒体可以是任何合适的沉浸式媒体,例如全向视频、360度视频、广角视频等。
在一些示例中,媒体控制设备接收具有指示分组控制的属性字段的会话描述协议(SDP)消息。
在一个示例中,媒体控制设备接收具有如下属性字段的SDP消息,该属性字段指示不允许来自第二客户端设备的覆盖媒体与第一客户端设备的沉浸式媒体进行分组。例如,属性字段的形式为“a=no_other_overlays”。
在另一示例中,媒体控制设备接收具有如下属性字段的SDP消息,该属性字段指示允许来自第二客户端设备的覆盖媒体与第一客户端设备的沉浸式媒体进行分组。例如,属性字段的形式为“a=other_overlays”。
在另一示例中,媒体控制设备接收具有如下属性字段的SDP消息,该属性字段指示允许与第一客户端设备的沉浸式媒体进行分组的媒体类型。例如,属性字段的形式为“a=allowed_content”。媒体类型可以是2D视频、图像或幻灯片。
在一些示例中,媒体控制设备接收具有第一属性字段和第二属性字段的SDP消息,第一属性字段指示允许来自第二客户端设备的覆盖媒体与第一客户端设备的沉浸式媒体进行分组,第二属性字段指示允许的媒体类型。
在(S820)处,媒体控制设备基于分组控制信号来确定包括来自第一客户端设备的沉浸式媒体且具有/不具有来自第二客户端设备的覆盖媒体的组。
在一个示例中,当分组控制信号指示不允许来自第二客户端设备的覆盖媒体与第一客户端设备的沉浸式媒体进行分组时,媒体控制设备形成包括来自第一客户端设备的沉浸式媒体的组,该组可包括来自第一客户端设备的覆盖,然而,该组不包括来自其它客户端设备的覆盖。
在一个示例中,当分组控制信号指示允许来自第二客户端设备的覆盖媒体与第一客户端设备的沉浸式媒体进行分组时,媒体控制设备可形成包括来自第一客户端设备的沉浸式媒体和来自第二客户端设备的覆盖媒体的组。
在一个示例中,分组控制信号指示允许与沉浸式媒体进行分组的媒体类型。然后,当来自第二客户端设备的覆盖媒体是允许的媒体类型时,媒体控制设备可形成包括第一客户端设备的沉浸式媒体和来自第二客户端设备的覆盖媒体的组。当来自第二客户端设备的覆盖媒体不是允许的媒体类型时,来自第二客户端设备的覆盖媒体无法与来自第一客户端设备的沉浸式媒体进行分组。
在(S830)处,媒体控制设备向视频会议的一个或多个参与者提供该组。在一个示例中,媒体控制设备可以向一个或多个参与者(例如,用户设备(320)、用户设备(220)、用户设备(230)、子系统(210A)至子系统(210Z)中的一些子系统、子系统(310A)至子系统(310C)中的一些子系统等)发送具有如下属性字段的SDP提议,该属性字段定义一个或多个组(例如,itt4rt_group组)。
然后,过程前进到(S899)并结束。
过程(800)可适当地调整。可修改和/或省略过程(800)中的步骤。可添加附加步骤。可使用任何合适的实现顺序。
上述技术可实现为计算机软件,该计算机软件使用计算机可读指令,且物理地存储在一个或多个计算机可读介质中。例如,图9示出了适于实施所公开的主题的某些实施例的计算机系统(900)。
可使用任何合适的机器代码或计算机语言对计算机软件进行编码,任何合适的机器代码或计算机语言可经受汇编、编译、链接或类似的机制以创建包括指令的代码,指令可由一个或多个计算机中央处理单元(CPU)、图形处理单元(GPU)等直接执行,或者通过解释、微代码执行等执行。
指令可以在各种类型的计算机或其组件上执行,计算机或其组件包括例如个人计算机、平板计算机、服务器、智能电话、游戏设备、物联网设备等。
图9所示的计算机系统(900)的组件本质上是示例性的,并不旨在对实施本公开的实施例的计算机软件的用途或功能的范围提出任何限制。组件的配置也不应解释为具有与计算机系统(900)的示例性实施例中所示的组件中的任何一个组件或组件的组合相关的任何依赖或要求。
计算机系统(900)可包括某些人机接口输入设备。此类人机接口输入设备可响应于一个或多个人类用户通过例如下述的输入:触觉输入(例如:击键、划动,数据手套移动)、音频输入(例如:语音、拍手)、视觉输入(例如:手势)、嗅觉输入(未描绘)。人机接口设备还可用于捕获不一定与人的意识输入直接相关的某些媒介,例如音频(例如:语音、音乐、环境声音)、图像(例如:扫描图像、从静止图像相机获取的拍摄图像)、视频(例如,二维视频、包括立体视频的三维视频)。
人机接口输入设备可包括下述中的一项或多项(每种中仅示出一个):键盘(901)、鼠标(902)、触控板(903)、触摸屏(910)、数据手套(未示出)、操纵杆(905)、麦克风(906)、扫描仪(907)、相机(908)。
计算机系统(900)还可包括某些人机接口输出设备。此类人机接口输出设备可通过例如触觉输出、声音、光和气味/味道来刺激一个或多个人类用户的感官。此类人机接口输出设备可包括触觉输出设备(例如,触摸屏(910)的触觉反馈、数据手套(未示出)或操纵杆(905),但还可以是不作为输入设备的触觉反馈设备)、音频输出设备(例如:扬声器(909)、耳机(未描绘))、视觉输出设备(例如,包括CRT屏幕、LCD屏幕、等离子屏幕、OLED屏幕的屏幕(910),每种屏幕具有或没有触摸屏输入功能,每种屏幕具有或没有触觉反馈功能,其中的一些屏幕能够通过诸如立体图像输出之类的装置、虚拟现实眼镜(未描绘)、全息显示器和烟箱(未描绘)来输出二维视觉输出或超过三维的输出以及打印机(未描绘)。
计算机系统(900)还可包括人类可访问存储设备及其关联介质,例如包括具有CD/DVD等介质(921)的CD/DVD ROM/RW(920)的光学介质、指状驱动器(922)、可拆卸硬盘驱动器或固态驱动器(923)、诸如磁带和软盘之类的传统磁性介质(未描绘)、诸如安全软件狗之类的基于专用ROM/ASIC/PLD的设备(未描绘)等。
本领域技术人员还应该理解,结合当前公开的主题所使用的术语“计算机可读介质”不涵盖传输介质、载波或其它暂时性信号。
计算机系统(900)还可包括通向一个或多个通信网络(955)的接口(954)。网络可例如是无线网络、有线网络、光网络。网络可进一步是本地网络、广域网络、城域网络、车辆和工业网络、实时网络、延迟容忍网络等。网络的示例包括诸如以太网之类的局域网、无线LAN、包括GSM、3G、4G、5G、LTE等的蜂窝网络、包括有线电视、卫星电视和地面广播电视的电视有线或无线广域数字网络、包括CAN总线的车辆和工业网络等。某些网络通常需要附接到某些通用数据端口或外围总线(949)的外部网络接口适配器(例如,计算机系统(900)的USB端口);如下所述,其它网络接口通常通过附接到系统总线而集成到计算机系统(900)的内核中(例如,连接到PC计算机系统中的以太网接口或连接到智能手机计算机系统中的蜂窝网络接口)。计算机系统(900)可使用这些网络中的任何网络与其它实体通信。此类通信可以是仅单向接收的(例如,广播电视)、仅单向发送的(例如,连接到某些CANBus设备的CANBus)或双向的,例如,使用局域网或广域网数字网络连接到其它计算机系统。如上所述,可以在这些网络和网络接口中的每一个上使用某些协议和协议栈。
上述人机接口设备、人机可访问的存储设备和网络接口可附接到计算机系统(900)的内核(940)。
内核(940)可包括一个或多个中央处理单元(CPU)(941)、图形处理单元(GPU)(942)、现场可编程门区域(FPGA)(943)形式的专用可编程处理单元、用于某些任务的硬件加速器(944)、图形适配器(950)等。这些设备以及只读存储器(ROM)(945)、随机存取存储器(946)、诸如内部非用户可访问的硬盘驱动器、SSD等之类的内部大容量存储器(947)可通过系统总线(948)连接。在一些计算机系统中,可以以一个或多个物理插头的形式访问系统总线(948),以能够通过附加的CPU、GPU等进行扩展。外围设备可直接附接到内核的系统总线(948)或通过外围总线(949)附接到内核的系统总线(948)。在一个示例中,屏幕(910)可连接到图形适配器(950)。外围总线的架构包括PCI、USB等。
CPU(941)、GPU(942)、FPGA(943)和加速器(944)可执行某些指令,这些指令可组合来构成上述计算机代码。该计算机代码可存储在ROM(945)或RAM(946)中。过渡数据还可存储在RAM(946)中,而永久数据可例如存储在内部大容量存储器(947)中。可通过使用高速缓存来进行通向任何存储设备的快速存储及检索,该高速缓存可与下述紧密关联:一个或多个CPU(941)、GPU(942)、大容量存储(947)、ROM(945)、RAM(946)等。
计算机可读介质可以在其上具有执行各种由计算机实现的操作的计算机代码。介质和计算机代码可以是出于本公开的目的而专门设计和构造的介质和计算机代码,或者介质和计算机代码可以是计算机软件领域的技术人员公知且可用的类型。
作为示例,而非限制,可由于一个或多个处理器(包括CPU、GPU、FPGA、加速器等)执行包含在一种或多种有形的计算机可读介质中的软件而使得具有架构(900),特别是内核(940)的计算机系统提供功能。此类计算机可读介质可以是与如上所介绍的用户可访问的大容量存储相关联的介质,以及某些非暂时性内核(940)的存储器,例如内核内部大容量存储器(947)或ROM(945)。实施本公开的各个实施例的软件可存储在此类设备中并由内核(940)执行。根据特定需要,计算机可读介质可包括一个或多个存储设备或芯片。软件可使得内核(940),特别是其中的处理器(包括CPU、GPU、FPGA等)执行本文所描述的特定过程或特定过程的特定部分,包括定义存储在RAM(946)中的数据结构以及根据由软件定义的过程来修改此类数据结构。附加地或作为替代,可由于硬连线或以其它方式体现在电路(例如:加速器(944))中的逻辑而使得计算机系统提供功能,该电路可替代软件或与软件一起运行以执行本文描述的特定过程或特定过程的特定部分。在适当的情况下,提及软件的部分可包含逻辑,反之亦然。在适当的情况下,提及计算机可读介质的部分可包括存储用于执行的软件的电路(例如,集成电路(IC))、体现用于执行的逻辑的电路或包括两者。本公开包括硬件和软件的任何合适的组合。
虽然本公开已描述多个示例性实施例,但是存在落入本公开的范围内的修改、置换和各种替换等效物。因此,应理解,本领域技术人员将能够设计出许多虽然未在本文中明确示出或描述,但是体现了本公开的原理,因此落入本公开的精神和范围内的系统和方法。

Claims (20)

1.一种用于视频会议的方法,包括:
通过所述视频会议的第一客户端设备确定分组控制,所述分组控制限制来自第二客户端设备的覆盖媒体与所述第一客户端设备的沉浸式媒体的分组;
通过所述第一客户端设备发送指示所述分组控制的分组控制信号,以通知媒体控制设备;以及
通过所述第一客户端设备向所述媒体控制设备提供包括所述沉浸式媒体的一个或多个媒体,其中,所述媒体控制设备基于从所述第一客户端设备接收的分组控制信号,将多个沉浸式媒体流分组成单个或多个组。
2.根据权利要求1所述的方法,其中,所述沉浸式媒体包括全向视频、360度视频和广角视频中的至少一个。
3.根据权利要求1所述的方法,其中,所述发送指示所述分组控制的分组控制信号,以通知媒体控制设备还包括:
发送具有指示所述分组控制的属性字段的会话描述协议SDP消息。
4.根据权利要求3所述的方法,其中,所述发送具有指示所述分组控制的属性字段的SDP消息还包括:
发送具有如下属性字段的SDP消息,所述属性字段指示不允许来自所述第二客户端设备的覆盖媒体与所述第一客户端设备的沉浸式媒体进行分组。
5.根据权利要求4所述的方法,其中,所述属性字段的形式为“a=no_other_overlays”或“a=other_overlays”。
6.根据权利要求3所述的方法,其中,所述发送具有指示所述分组控制的属性字段的SDP消息还包括:
发送具有如下属性字段的SDP消息,所述属性字段指示允许来自所述第二客户端设备的覆盖媒体与所述第一客户端设备的沉浸式媒体进行分组。
7.根据权利要求1所述的方法,其中,所述媒体控制设备向用于远程终端的远程沉浸式远程会议和远程呈现ITT4RT接收器Rx客户端提供单个或多个组。
8.根据权利要求3所述的方法,其中,所述发送具有指示所述分组控制的属性字段的SDP消息还包括:
发送具有如下属性字段的SDP消息,所述属性字段指示允许与所述第一客户端设备的沉浸式媒体进行分组的媒体类型。
9.根据权利要求8所述的方法,其中,所述属性字段的形式为“a=allowed_content”。
10.根据权利要求8所述的方法,其中,所述媒体类型包括双向视频、图像和幻灯片中的至少一个。
11.根据权利要求3所述的方法,其中,所述发送具有指示所述分组控制的属性字段的SDP消息还包括:
发送具有第一属性字段和第二属性字段的SDP消息,所述第一属性字段指示允许来自所述第二客户端设备的覆盖媒体与所述第一客户端设备的沉浸式媒体进行分组,所述第二属性字段指示允许的媒体类型。
12.一种用于视频会议的装置,包括处理电路,所述处理电路配置成:
确定分组控制,所述分组控制限制来自另一装置的覆盖媒体与所述装置的沉浸式媒体的分组;
发送指示所述分组控制的分组控制信号,以通知媒体控制设备;以及
向所述媒体控制设备提供包括所述沉浸式媒体的一个或多个媒体,其中,所述媒体控制设备基于从所述装置接收的分组控制信号,将多个沉浸式媒体流分组成单个或多个组。
13.根据权利要求12所述的装置,其中,所述沉浸式媒体包括全向视频、360度视频和广角视频中的至少一个。
14.根据权利要求12所述的装置,其中,所述处理电路配置成:
发送具有指示所述分组控制的属性字段的会话描述协议SDP消息。
15.根据权利要求14所述的装置,其中,所述处理电路配置成:
发送具有如下属性字段的SDP消息,所述属性字段指示不允许来自所述另一装置的覆盖媒体与所述装置的沉浸式媒体进行分组。
16.根据权利要求15所述的装置,其中,所述属性字段的形式为“a=no_other_overlays”或“a=other_overlays”。
17.根据权利要求14所述的装置,其中,所述处理电路配置成:
发送具有如下属性字段的SDP消息,所述属性字段指示允许来自所述另一装置的覆盖媒体与所述装置的沉浸式媒体进行分组。
18.根据权利要求14所述的装置,其中,所述处理电路配置成:
发送具有如下属性字段的SDP消息,所述属性字段指示允许与所述装置的沉浸式媒体进行分组的媒体类型。
19.根据权利要求18所述的装置,其中,所述媒体类型包括双向视频、图像和幻灯片中的至少一个。
20.根据权利要求14所述的装置,其中,所述处理电路配置成:
发送具有第一属性字段和第二属性字段的SDP消息,所述第一属性字段指示允许来自所述另一装置的覆盖媒体与所述装置的沉浸式媒体进行分组,所述第二属性字段指示允许的媒体类型。
CN202280004028.5A 2021-05-11 2022-05-11 用于沉浸式远程会议和远程呈现的多分组 Pending CN115606170A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202163187346P 2021-05-11 2021-05-11
US63/187,346 2021-05-11
US17/741,351 2022-05-10
US17/741,351 US11943073B2 (en) 2021-05-11 2022-05-10 Multiple grouping for immersive teleconferencing and telepresence
PCT/US2022/072246 WO2022241429A1 (en) 2021-05-11 2022-05-11 Multiple grouping for immersive teleconferencing and telepresence

Publications (1)

Publication Number Publication Date
CN115606170A true CN115606170A (zh) 2023-01-13

Family

ID=83998163

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280004028.5A Pending CN115606170A (zh) 2021-05-11 2022-05-11 用于沉浸式远程会议和远程呈现的多分组

Country Status (6)

Country Link
US (1) US11943073B2 (zh)
EP (1) EP4128745A4 (zh)
JP (1) JP2023529285A (zh)
KR (1) KR20230006495A (zh)
CN (1) CN115606170A (zh)
WO (1) WO2022241429A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11979244B2 (en) * 2021-09-30 2024-05-07 Snap Inc. Configuring 360-degree video within a virtual conferencing system

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8446454B2 (en) 2007-05-21 2013-05-21 Polycom, Inc. Dynamic adaption of a continuous presence videoconferencing layout based on video content
US20100014825A1 (en) * 2008-07-18 2010-01-21 Porto Technology, Llc Use of a secondary device to overlay disassociated media elements onto video content
CN103636179B (zh) * 2011-07-07 2017-07-07 瑞典爱立信有限公司 用于多媒体通信网络中的媒体流编组的方法和设备
US8752113B1 (en) * 2013-03-15 2014-06-10 Wowza Media Systems, LLC Insertion of graphic overlays into a stream
KR20180097017A (ko) 2017-02-22 2018-08-30 한국전자통신연구원 몰입도 증강을 위한 영상회의 장치 및 방법
US10455259B2 (en) * 2017-08-23 2019-10-22 Intel Corporation Enhanced text rendering and readability in images
US11102549B2 (en) * 2017-09-27 2021-08-24 Wurl Inc. Selective video overlay
CN112514398B (zh) * 2018-06-01 2023-07-14 诺基亚技术有限公司 用于针对全向内容而标记在覆盖物上的用户交互并将对背景的覆盖物分组的方法和装置
US11528312B2 (en) 2019-06-25 2022-12-13 Apple Inc. Immersive teleconferencing and telepresence
KR20220073851A (ko) * 2019-10-14 2022-06-03 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 몰입형 뷰포트 종속 다자간 비디오 통신
CN115486086A (zh) * 2020-04-22 2022-12-16 诺基亚技术有限公司 通信会话的会话描述
US11711550B2 (en) * 2021-03-30 2023-07-25 Samsung Electronics Co., Ltd. Method and apparatus for supporting teleconferencing and telepresence containing multiple 360 degree videos

Also Published As

Publication number Publication date
KR20230006495A (ko) 2023-01-10
EP4128745A4 (en) 2023-10-25
JP2023529285A (ja) 2023-07-10
EP4128745A1 (en) 2023-02-08
US11943073B2 (en) 2024-03-26
US20220368550A1 (en) 2022-11-17
WO2022241429A1 (en) 2022-11-17

Similar Documents

Publication Publication Date Title
US11914922B2 (en) Audio mixing for teleconferencing
KR102566276B1 (ko) 원격 단말을 위한 몰입형 원격 회의 및 텔레프레즌스를 위한 오버레이 처리용 파라미터
US11943073B2 (en) Multiple grouping for immersive teleconferencing and telepresence
US20220311814A1 (en) Techniques for signaling multiple audio mixing gains for teleconferencing and telepresence for remote terminals
US20220308341A1 (en) Towards subsiding motion sickness for viewport sharing for teleconferencing and telepresence for remote terminals
JP7399549B2 (ja) リモート端末向けの遠隔会議およびテレプレゼンスにおいてオーディオミキシングゲインをシグナリングする手法
US11916982B2 (en) Techniques for signaling multiple audio mixing gains for teleconferencing and telepresence for remote terminals using RTCP feedback
JP7419529B2 (ja) 遠隔端末のための没入型テレカンファレンス及びテレプレゼンスのインタラクティブオーバーレイ処理

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40080074

Country of ref document: HK