CN114830636A - 用于叠加处理远程终端的沉浸式远程会议及远程呈现的参数 - Google Patents

用于叠加处理远程终端的沉浸式远程会议及远程呈现的参数 Download PDF

Info

Publication number
CN114830636A
CN114830636A CN202180005722.4A CN202180005722A CN114830636A CN 114830636 A CN114830636 A CN 114830636A CN 202180005722 A CN202180005722 A CN 202180005722A CN 114830636 A CN114830636 A CN 114830636A
Authority
CN
China
Prior art keywords
computer
overlay
parameters
session
immersive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180005722.4A
Other languages
English (en)
Inventor
罗伊特·阿比什克
伊拉吉·索达加
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent America LLC
Original Assignee
Tencent America LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent America LLC filed Critical Tencent America LLC
Publication of CN114830636A publication Critical patent/CN114830636A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • H04N7/157Conference systems defining a virtual conference space and using avatars or agents
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

提供了一种用于视频会议的方法、计算机程序以及计算机系统。接收与沉浸式远程会议的会话相关联的视频数据。识别与视频数据相关联的参数,该参数指定与沉浸式远程会议的会话相关联的叠加数据。基于所识别的参数,显示具有一个或多个叠加的视频数据。

Description

用于叠加处理远程终端的沉浸式远程会议及远程呈现的参数
相关申请的交叉引用
本申请要求于2020年6月15日提交给美国专利商标局的美国临时专利申请第63/039,336号以及2020年11月11日提交的美国专利申请第17/095,239号的优先权,其全部内容通过引用并入本文中。
技术领域
本公开的主题涉及用于远程终端的沉浸式远程会议及远程呈现(ImmersiveTeleconferencing and Telepresence for Remote Terminals,ITT4RT)的叠加处理,更具体地,涉及用于全向视频和图像的叠加的信令,例如,观看作为360度视频流顶部的叠加的演示/屏幕共享流或2D视频。
背景技术
当使用全向媒体流时,在用户使用头戴式显示器(Head-Mounted Display,HMD)时,仅渲染与用户的视口对应的部分内容,以向用户提供媒体流的逼真视图。
图1示出了沉浸式远程会议呼叫的传统场景(场景1),其中,在A(101)、B(102)和C(103)之间建立呼叫。这里,A表示带有全向摄像头(104)的会议室,B和C是分别使用HMD和移动设备的远程参会者。这种情况下,参会者B和C将他们的视口方向发送给A,A又将视口相关流发送给B和C。
图2a中示出了由多个会议室(2a01、2a02、2a03、2a04)组成的扩展场景(场景2)。用户B(2a06)使用HMD观看视频,用户C(2a07)使用移动设备观看流。B和C将他们的视口方向发送给会议室,会议室又向B和C发送视口相关流。另一种场景是使用媒体资源功能(MediaResource Function,MRF)/媒体控制单元(Media Control Unit,MCU)(b05)建立呼叫的场景,如图2b所示。MRF和MCU是多媒体服务器,提供媒体相关的功能用于桥接多方会议呼叫中的终端。这里,多个会议室将各自的视频发送到MRF/MCU。这些视频是与视口无关的视频,即,无论流式传输特定视频的用户视口如何,整个360度视频都发送给媒体服务器。媒体服务器接收用户(B(2b06)和C(2b07))的视口方向,并相应地向他们发送视口相关流。
另外,在该扩展场景中,远程用户可以从会议室(2a01至2a04、或2b01至2b04)中选择多个可用的360度视频中的一个视频进行观看。在这种情况下,用户将关于其想要流式传输的视频及其视口方向的信息发送给会议室或MRF/MCU。用户能够根据活跃的发言者来触发从一个房间切换到另一个房间。此外,媒体服务器可以暂停从没有任何活跃用户的任何会议室接收视频流。
ISO 23090-2将叠加定义为“在全向视频或全向图像项目上或在视口上渲染的一段视觉媒体”。现在参考回图2a/图2b,当会议室A中的任何参会者正在共享任何演示时,该演示除了在会议室A中显示之外,还作为流广播给其他用户。该流能够叠加在360度视频的顶部。此外,叠加还能够用于2D流。
可以定义两种类型的叠加渲染以供在ITT4RT中使用:
·视口相关叠加
·球体相关二维叠加
可以针对“球体相关二维叠加”定义符合OMAF规范的以下参数:
overlay_ID、overlay_azimuth、overlay_elevation、overlay_tilt、overlay_azimuth_range、overlay_elevation_range、overlay_rot_yaw、overlay_rot_pitch、overlay_rot_roll、region_depth_minus1、timeline_change_flag以及name
对于“视口相关叠加”,可以针对ITT4RT定义以下参数:
overlay_ID、overlay_rect_left_percent、overlay_rect_top_percent、overlay_rect_width_percent、overlay_rect_height_percent、relative_disparity_flag、disparity_in_percent、disparity_in_pixels以及name
关于用户与叠加的交互,叠加显然可以额外地包括以下参数:
change_position_flag、change_depth_flag、switch_on_off_flag、change_opacity_flag、resize_flag、rotation_flag、change_position_flag、change_depth_flag、switch_on_off_flag、change_opacity_flag、resize_flag以及rotation_flag
发明内容
本公开实施例涉及用于视频会议的方法、系统以及计算机可读介质。根据一个方面,提供了一种用于视频会议的方法。该方法可以包括:接收与沉浸式远程会议的会话相关联的视频数据;识别与视频数据相关联的参数,其中,该参数指定与沉浸式远程会议的会话相关联的叠加数据;基于所识别的参数,来显示具有一个或多个叠加的视频数据。
根据另一个方面,提供了一种用于视频会议的计算机系统。该计算机系统可以包括一个或多个处理器、一个或多个计算机可读存储器、一个或多个计算机可读有形存储设备以及存储在一个或多个存储设备中的至少一个存储设备上以供一个或多个处理器中的至少一个处理器通过一个或多个存储器中的至少一个存储器执行的程序指令,使得计算机系统能够执行一种方法。该方法可以包括:接收与沉浸式远程会议的会话相关联的视频数据;识别与视频数据相关联的参数,其中,该参数指定与沉浸式远程会议的会话相关联的叠加数据;基于所识别的参数,来显示具有一个或多个叠加的视频数据。
根据又一个方面,提供了一种用于视频会议的计算机可读介质。计算机可读介质可以包括一个或多个计算机可读存储设备以及存储在一个或多个有形存储设备中的至少一个有形存储设备上的程序指令,该程序指令可由处理器执行。该程序指令可以由处理器执行以执行一种方法,该方法相应地可以包括:接收与沉浸式远程会议的会话相关联的视频数据;识别与视频数据相关联的参数,其中,该参数指定与沉浸式远程会议的会话相关联的叠加数据;基于所识别的参数,来显示具有一个或多个叠加的视频数据。
附图说明
根据结合附图阅读的下述说明性实施例的详细描述,这些和其他目的、特征和优势将变得明显。附图的各个特征不是按比例绘制的,图示是为了便于本领域技术人员结合详细描述的理解而清楚起见。在附图中:
图1是沉浸式远程会议的生态系统示意图。
图2a是不具有MRF/MCU的多方多会议室远程会议的示意图。
图2b是具有MRF/MCU的多方多会议室远程会议的示意图。
图3a和图3b示出了不具有MRF/MCU的包括来自单个发送方的叠加的多方多会议室远程会议。
图4a示出了不具有MRF/MCU的包括来自多个发送方的叠加的多方多会议室远程会议。
图4b示出了具有MRF/MCU的包括来自多个发送方的叠加的多方多会议室远程会议。
图5是示出由用于沉浸式远程会议的程序执行的步骤的操作流程图。
图6是计算机系统的示意图。
具体实施方式
本文公开了所要求保护的结构和方法的详细实施例。不过,可以理解的是,所公开的实施例仅仅是可以以各种形式体现的所要求保护的结构和方法的说明。然而,这些结构和方法可以以许多不同的形式体现并且不应被解释为限制于本文所描述的示例性实施例。然而,提供这些示例性实施例以使得本公开是彻底和完整的并且向本领域技术人员充分传达保护范围。在本文描述中,可以省略众所周知的特征和技术的细节以避免不必要地混淆所呈现的实施例。
在此,各个方面参考根据各种实施例的方法、装置(系统)和计算机可读介质的流程图和/或框图来进行描述。应当理解,可以由计算机可读程序指令来实现流程图和/或框图的每个块以及流程图和/或框图中的块的组合。
本公开引入叠加参数来限定接收方处的用户能够使用的最大叠加数量。
本公开引入叠加参数来限定发送方正在共享的叠加列表。
本公开引入叠加参数来限定发送方正在共享的且接收方处的用户想要使用的叠加列表。
本公开引入叠加参数来限定是否允许接收方处的用户在360度视频的顶部使用来自除了360度视频的发送方共享的流以外的流的叠加。
本公开引入叠加参数来限定允许的发送方列表,接收方处的用户可以将该列表中发送方的叠加与360度视频的发送方共享的叠加一起使用。
对于沉浸式远程会议,当将叠加视频或叠加图像叠加在360度视频上时,应当包括诸如下述之类的信息:
·叠加源,指定用作叠加的图像或视频
·叠加渲染类型,描述叠加是相对于视口还是相对于球体固定
·诸如不透明度之类的渲染属性
·用户交互属性
参考回图2a至图2b,多个带有全向摄像头的会议室正处于远程会议中,用户从其中一个会议室选择视频流以显示为沉浸式视频。现在,当任何其他演示材料/共享屏幕与用户正在流式传输的360度视频一起使用时,该演示材料/共享屏幕会作为单独的流发送并作为360度视频顶部的叠加。
在一个实施例中,参考图3a以及图3b,用户(3a01、3b01)正在其HMD上流式传输来自远程会议室A(3a02、3b02)的沉浸式视频。会议室A使用屏幕共享来显示来自会议室X(3a03,3b03)、Y(3a04,3b04)和Z(3a05,3b05)的视频流,其中,X正在流式传输2D视频流,而Y和Z流式传输演示流。将来自会议室X、Y和Z的流也广播给所有其他远程用户。用户可以使用参数“max_overlay”,该参数可以被定义为用户能够支持的最大叠加数量。该参数的值可以是基于用户的资源可用性的。该容量可以是在初始的提供-应答协商期间在会话描述协议(Session Description Protocol,SDP)中提供的,也可以是在会话期间根据用户资源可用性(例如设备的电池消耗、带宽可用性等)的变化来协商的。max_overlay=0的情况是为接收方不支持任何叠加的场景所保留的。在图3b中描绘了当MRF/MCU(3b06)用于建立呼叫时的相同情况。
在同一或另一实施例中,定义了附加参数“list_overlay”,该参数可以包括发送方正在共享的叠加列表(通过列出这些叠加的叠加标识overlay_id)。该叠加列表可以由发送方发送给接收方。接收方可以从列表中选择要流式传输的叠加,并将缩减后的列表发送给发送方。该参数可以是在初始的提供-应答协商期间协商的或在会话期间重新协商的,并在SDP中提供的。list_overlay=0的情况是为接收方不支持叠加(即,max_overlay等于0的情况)的场景所保留的。发送方发送给用户的叠加总数应当小于max_overlay的值。
在同一或另一实施例中,发送方除了发送叠加列表之外,还可以发送叠加优先级,该叠加优先级可以包含在参数“list_overlay”中。该优先级是由发送方基于流的内容进行设置的。例如,与来自任何其他会议室的2D视频相比,用于演示的任何支撑材料都将给予更高的优先级。除此之外,发送方还可以可选地发送用于多个叠加中的每个叠加的带宽和解码计算要求。list_overlay等于0是为发送方不向用户发送任何叠加列表(因此,用户不会接收到叠加)的场景所保留的。一旦从发送方接收到叠加列表,用户将回复其可以支持的叠加的列表。该回复可以是基于发送方发送的叠加优先级和叠加特性,以及接收方的计算资源和接收方的可用网络带宽来进行的。这可以在参数“list_overlay”下进行限定。这些参数可以是在初始的提供-应答协商期间协商或在会话期间协商的,并在SDP中提供的。考虑一个场景:在会话期间,用户的带宽减少。当该场景发生时,可以重新协商参数“max_overlay”,以及可选地协商参数“list_overlay”。作为结果,list_overlay的值可能会减小。
在另一个实施例中,参考图4a,考虑以下场景:客户端想要使用来自A的360度视频流,但是想要使用来自Y(4a304)和Z(4a305)(Y和Z的视频流未被A共享)的叠加。在这种场景下,客户端需要知道360度视频流的发送方是否可以允许用户使用来自其他源的叠加以在其视频上(即,与来自A的360度视频流一起)流式传输。为此,可以添加参数“use_other_overlay_flag”。当use_other_overlay_flag设置为1时,指定允许用户使用未被360度视频的发送方共享的、来自其他发送方的叠加。该参数的值可以是由正在流式传输360度视频的发送方设置的。图4b中描绘了当MRF/MCU(4b06)用于建立呼叫时的相同情况。“use_other_overlay_flag”的值为0意味着不允许接收方将任何其他发送方的叠加与该发送方的视频流一起使用。
在同一或另一实施例中,当use_other_overlay_flag等于1时,发送方可以向接收方发送其他发送方的列表,该列表中的发送方的叠加可以与360度视频流一起使用。这可以使用参数“list_allowed_sender_overlays”来进行限定。当use_other_overlay_flag为0时,不允许用户叠加未被360度视频流的发送方共享的、来自其他远程用户/会议室的流。
在同一或另一实施例中,上述参数能够用于渲染球体相关的二维叠加以及视口相关的叠加。
上述用于沉浸式远程会议和远程呈现的叠加处理的技术可以被实现为使用计算机可读指令并且物理地存储在一个或多个计算机可读介质中的计算机软件。例如,图6示出了适用于实现所公开主题的某些实施例的计算机系统600。
计算机软件可以使用任何合适的机器代码或计算机语言进行编码,这些机器代码或计算机语言可以经过汇编、编译、链接或类似机制以创建包括指令的代码,这些指令可以由计算机中央处理单元(CPU)、图形处理单元(GPU)等直接或经由解释、微代码执行等执行。
这些指令可以在各种类型的计算机或其组件上执行,包括例如个人计算机、平板计算机、服务器、智能电话、游戏设备、物联网设备等。
现在参考图5,示出了一种基于协同注意力分数(co-attention score)匹配查询的、由程序执行的方法500的操作流程图。
在602处,方法500包括接收与沉浸式远程会议的会话相关联的视频数据。
在604处,方法500包括识别与视频数据相关联的参数,该参数指定与沉浸式远程会议的会话相关联的叠加数据。
在606处,方法500包括基于所识别的参数,来显示具有一个或多个叠加的视频数据。
可以理解的是,图5仅提供了一种实施方式的说明,并不暗示关于可以如何实施不同实施方式的任何限制。可以根据设计和实施要求对所描绘的环境进行许多修改。
图6示出的计算机系统600的组件本质上是示例性的,并且不旨在对实施本公开的实施例的计算机软件的用途或功能的范围提出任何限制。组件的配置也不应被解释为具有与计算机系统600的示例性实施例中所示的组件中的任何一个组件或组件的组合有关的任何依赖性或要求。
计算机系统600可以包括某些人机接口输入装置。此类人机接口输入装置可以响应于一个或多个人类用户例如通过下述的输入:触觉输入(例如:击键、划动,数据手套移动)、音频输入(例如:语音、拍手)、视觉输入(例如:手势)、嗅觉输入(未描绘出)。人机接口装置还可以用于捕获不一定与人的意识输入直接相关的某些媒体,例如音频(例如:语音、音乐、环境声音)、图像(例如:扫描的图像、从静止图像相机获取摄影图像)、视频(例如二维视频、包括立体视频的三维视频)等。
输入人机接口装置可以包括下述中的一项或多项(每种中仅示出一个):键盘501、鼠标502、触控板503、触摸屏510、数据手套(未示出)、操纵杆505、麦克风506、扫描仪507、相机508。
计算机系统600也可以包括某些人机接口输出装置。此类人机接口输出装置可以例如通过触觉输出、声音、光和气味/味道来刺激一个或多个人类用户的感官。此类人机接口输出装置可以包括触觉输出装置(例如触摸屏510、数据手套(未示出)或操纵杆505的触觉反馈,但是也可以是不作为输入设备的触觉反馈装置)、音频输出装置(例如:扬声器509、耳机(未示出))、视觉输出装置(例如包括CRT屏幕、LCD屏幕、等离子屏幕、OLED屏幕的屏幕510,每种屏幕具有或没有触摸屏输入功能,每种屏幕具有或没有触觉反馈功能-其中的一些屏幕能够通过诸如立体图像输出、虚拟现实眼镜(未描绘出)、全息显示器和烟箱(未描绘出)以及打印机(未描绘出)之类的装置来输出二维视觉输出或超过三维的输出。
计算机系统600也可以包括人类可访问存储装置及其关联介质:例如包括具有CD/DVD等介质521的CD/DVD ROM/RW 520的光学介质、指状驱动器522、可拆卸硬盘驱动器或固态驱动器523、诸如磁带和软盘之类的传统磁性介质(未示出)、诸如安全软件狗之类的基于专用ROM/ASIC/PLD的装置(未示出)等。
本领域技术人员还应该理解,结合当前公开的主题使用的所术语“计算机可读介质”不涵盖传输介质、载波或其他瞬时信号。
计算机系统600还可以包括到一个或多个通信网络的接口。网络可以例如是无线网络、有线网络、光网络。网络可以进一步地是本地网络、广域网络、城域网络、车辆和工业网络、实时网络、耐延迟网络等。网络的示例包括诸如以太网之类的局域网、无线LAN、包括GSM、3G、4G、5G、LTE等的蜂窝网络、包括有线电视、卫星电视和地面广播电视的电视有线或无线广域数字网络、包括CANBus的车辆和工业用网络等等。某些网络通常需要连接到某些通用数据端口或外围总线449的外部网络接口适配器(例如计算机系统600的USB端口);如下所述,其他网络接口通常通过连接到系统总线而集成到计算机系统600的内核中(例如,连接PC计算机系统中的以太网接口或连接到智能手机计算机系统中的蜂窝网络接口)。计算机系统600可以使用这些网络中的任何一个与其他实体通信。此类通信可以是仅单向接收的(例如,广播电视)、仅单向发送的(例如,连接到某些CANbus装置的CANbus)或双向的,例如,使用局域网或广域网数字网络连接到其他计算机系统。如上所述,可以在那些网络和网络接口的每一个上使用某些协议和协议栈。
上述人机接口装置、人机可访问的存储装置和网络接口可以附接到计算机系统600的内核540。
内核540可以包括一个或多个CPU 541、GPU 542、现场可编程门区域(FieldProgrammable Gate Areas,FPGA)543形式的专用可编程处理单元、用于某些任务的硬件加速器544等。这些装置以及只读存储器(Read-only memory,ROM)545、随机存取存储器546、诸如内部非用户可访问的硬盘驱动器、SSD等之类的内部大容量存储器547可以通过系统总线548连接。在一些计算机系统中,可以以一个或多个物理插头的形式访问系统总线548,以能够通过附加的CPU、GPU等进行扩展。外围装置可以直接连接到内核的系统总线548或通过外围总线549连接到内核的系统总线。外围总线的体系结构包括PCI、USB等。
CPU 541、GPU 542、FPGA 543和加速器544可以执行某些指令,这些指令可以组合来构成上述计算机代码。该计算机代码可以存储在ROM 545或RAM 546中。过渡数据也可以存储在RAM 546中,而永久数据可以例如存储在内部大容量存储器547中。可以通过使用高速缓存来进行对任何存储装置的快速存储及检索,该高速缓存可以与下述项紧密关联:一个或多个CPU 541、GPU 542、大容量存储547、ROM 545、RAM 546等。
计算机可读介质可以在其上具有用于执行各种由计算机实现的操作的计算机代码。介质和计算机代码可以是出于本公开的目的而专门设计和构造的介质和计算机代码,或者介质和计算机代码可以是计算机软件领域的技术人员公知且可用的类型。
作为非限制性示例,可以由于一个或多个处理器(包括CPU、GPU、FPGA、加速器等)执行包含在一种或多种有形的计算机可读介质中的软件而使得具有架构500,特别是内核540的计算机系统可以提供功能。此类计算机可读介质可以是与如上所述的用户可访问的大容量存储相关联的介质,以及内核540的某些非暂时性存储器,例如内核内部的大容量存储器547或ROM 545。可以将实施本公开的各种实施例的软件存储在此类装置中并由内核540执行。根据特定需要,计算机可读介质可以包括一个或多个存储装置或芯片。软件可以引起内核540,特别是其中的处理器(包括CPU、GPU、FPGA等)执行本文所描述的特定过程或特定过程的特定部分,包括限定存储在RAM 546中的数据结构以及根据由软件限定的过程来修改此类数据结构。附加地或替选地,可以由于硬连线或以其他方式体现在电路(例如,加速器544)中的逻辑中而使得计算机系统提供功能,该电路可以替换软件或与软件一起运行以执行本文描述的特定过程或特定过程的特定部分。在适当的情况下,提及软件的部分可以包含逻辑,反之亦然。在适当的情况下,提及计算机可读介质的部分可以包括存储用于执行的软件的电路(例如集成电路(IC))、体现用于执行的逻辑的电路或两者都包括。本公开包括硬件和软件的任何合适的组合。
一些实施例可以涉及处于任何可能的技术细节集成级别的系统、方法和/或计算机可读介质。计算机可读介质可以包括其上具有用于使处理器执行操作的计算机可读程序指令的计算机可读非暂时性存储介质(或媒介)。
计算机可读存储介质可以是以保持和存储指令以供指令执行装置使用的有形装置。计算机可读存储介质可以是例如但不限于电子存储装置、磁存储装置、光存储装置、电磁存储装置、半导体存储装置或前述的任何合适的组合。计算机可读存储介质的更具体示例的非详尽列表包括:便携式计算机软盘、硬盘、RAM、ROM、可擦除可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式光盘只读存储器(CD-ROM)、数字多功能磁盘(DVD)、记忆棒、软盘、穿孔卡或记录有指令的凹槽中的凸起结构之类的机械编码装置,以及前述的任何适当的组合。此处使用的计算机可读存储介质不应被解释为瞬态信号本身,例如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如,通过光缆的光脉冲)或通过电线传输的电信号。
本文所描述的计算机可读程序指令可以从计算机可读存储介质下载到相应的计算/处理设备,或者通过网络(例如因特网、局域网、广域网和/或无线网络)下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或网络接口从网络接收计算机可读程序指令并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。
用于执行操作的计算机可读程序代码/指令可以是汇编器指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路的配置数据,或以一种或多种编程语言的任意组合编写的源代码或目标代码,包括面向对象的编程语言(例如Smalltalk、C++等),以及过程编程语言(例如“C”编程语言或类似语言编程语言)。计算机可读程序指令可以完全在用户计算机上、部分在用户计算机上、作为独立软件包、部分在用户计算机上部分在远程计算机上或完全在远程计算机或服务器上执行。在后面情况下,远程计算机可以通过任何类型的网络连接到用户的计算机,包括局域网(LAN)或广域网(WAN),或者可以(例如,使用互联网服务提供商通过互联网)连接到外部计算机。在一些实施例中,包括例如可编程逻辑电路、FPGA或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令以个性化电子电路,以便执行各个方面或操作。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以创建机器,使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现在流程图和/或框图的一个或多个块中指定的功能/动作的装置。这些计算机可读程序指令也可以存储在计算机可读存储介质中,该计算机可读存储介质可以引导计算机、可编程数据处理装置和/或其他设备以特定方式运行,使得其中存储有指令的计算机可读存储介质包括制品,其包括实现流程图和/或框图的一个或多个块中指定的功能/动作的方面的指令。
计算机可读程序指令还可以被加载到计算机、其他可编程数据处理装置或其他设备上,以使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤以产生计算机实现的过程,使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图的一个或多个块中指定的功能/动作。
附图中的流程图和框图示出了根据各种实施例的系统、方法和计算机可读介质的可能实现方式的架构、功能和操作。就这一点而言,流程图或框图中的每个块可以表示模块、段或指令的一部分,指令包括用于实现一个或多个指定逻辑功能的一个或多个可执行指令。该方法、计算机系统和计算机可读介质可以包括与图中所描绘的那些相比的其他块、更少的块、不同的块或不同布置的块。在一些替选实施方式中,块中标注的功能可以以不按照图中标注的顺序发生。例如,依赖于所涉及的功能,连续示出的两个块实际上可以同时或基本上同时执行,或者有时可以以相反的顺序执行。还将注意到,框图和/或流程图示出的每个块以及框图和/或流程图示出的块的组合,可以由执行指定功能或动作,或执行专用硬件和计算机指令的组合的基于专用硬件的系统来实现。
显然的是,本文描述的系统和/或方法可以以不同形式的硬件、固件或硬件和软件的组合来实现。用于实施这些系统和/或方法的实际的专用控制硬件或软件代码不受限于这些实施方式。因此,在没有参考特定软件代码的情况下在本文中描述系统和/或方法的操作和行为-应当理解,软件和硬件可以被设计为基于本文的描述来实现系统和/或方法。
除非有明确描述,本文使用的任何元素、动作或指令均不应被解释为关键或必要的。此外,本文所使用的不定冠词旨在包括一个或多个项,并且可以与“一个或多个”互换使用。此外,本文所使用的术语“集合”旨在包括一个或多个项(例如,相关项、不相关项、相关和不相关项的组合等),并且可以与“一个或多个”互换使用。如果意图使用一项,则使用术语“一个”或类似的语言。此外,本文所使用的术语“具有”、“有”、“带有”等旨在作为开放式术语。此外,除非另有明确说明,否则短语“基于”旨在表示“至少部分基于”。
各个方面和实施例的描述是处于说明的目的而呈现的,但并不旨在穷举或限于所公开的实施例。即使在权利要求中描述和/或在说明书中公开了特征的组合,这些组合也不旨在限制可能实现方式的公开。事实上,这些特征中的许多特征可以以权利要求中未具体描述和/或说明书中未具体公开的方式组合。尽管下面列出的每个从属权利要求可以仅直接依赖于一个权利要求,但可能的实现方式的公开包括每个从属权利要求与权利要求集中的所有其他权利要求的组合。在不脱离所描述的实施例的范围的情况下,许多修改和变化对于本领域的普通技术人员来说将是显然的。本文所使用的术语被选择以最好地解释实施例的原理、实际应用或对市场中发现的技术改进,或者使本领域普通技术人员能够理解本文公开的实施例。

Claims (20)

1.一种用于视频会议的方法,由处理器执行,所述方法包括:
接收与沉浸式远程会议的会话相关联的视频数据;
识别与所述视频数据相关联的参数,其中,所述参数指定与所述沉浸式远程会议的会话相关联的叠加数据;以及
基于所识别的参数,来显示具有一个或多个叠加的所述视频数据。
2.根据权利要求1所述的方法,其中,所述参数是被提供有会话描述协议SDP的。
3.根据权利要求1所述的方法,其中,所述参数是在初始的提供-应答协商期间协商或在所述沉浸式远程会议的会话期间协商的。
4.根据权利要求1所述的方法,其中,所述参数限定最大叠加数量并约束在特定时间处的叠加数量。
5.根据权利要求1所述的方法,其中,所述参数限定发送方在给定时间点处共享的叠加标识列表。
6.根据权利要求1所述的方法,其中,所述参数限定在给定时间点处由发送方共享且由接收方支持的叠加标识列表。
7.根据权利要求1所述的方法,其中,所述参数限定是否允许接收方使用除了发送方共享的叠加之外的叠加。
8.根据权利要求1所述的方法,其中,所述参数限定允许的发送方列表,接收方从所述发送方列表中的发送方接收叠加并使用叠加。
9.一种用于压缩神经网络模型的计算机系统,所述计算机系统包括:
一个或多个计算机可读非暂时性存储介质,被配置成存储计算机程序代码;以及
一个或多个计算机处理器,被配置成访问所述计算机程序代码并由所述计算机程序代码指示来进行操作,所述计算机程序代码包括:
接收代码,被配置成使得所述一个或多个计算机处理器接收与沉浸式远程会议的会话相关联的视频数据;
识别代码,被配置成使得所述一个或多个计算机处理器识别与所述视频数据相关联的参数,其中,所述参数指定与所述沉浸式远程会议的会话相关联的叠加数据;以及
显示代码,被配置成使得所述一个或多个计算机处理器基于所识别的参数,来显示具有一个或多个叠加的所述视频数据。
10.根据权利要求9所述的计算机系统,其中,所述参数是被提供有会话描述协议SDP的。
11.根据权利要求9所述的计算机系统,其中,所述参数是在初始的提供-应答协商期间协商或在所述沉浸式远程会议的会话期间协商的。
12.根据权利要求9所述的计算机系统,其中,所述参数限定最大叠加数量并约束在特定时间处的叠加数量。
13.根据权利要求9所述的计算机系统,其中,所述参数限定发送方在给定时间点处共享的叠加标识列表。
14.根据权利要求9所述的计算机系统,其中,所述参数限定在给定时间点处由发送方共享且由接收方支持的叠加标识列表。
15.根据权利要求9所述的计算机系统,其中,所述参数限定是否允许接收方使用除了发送方共享的叠加之外的叠加。
16.根据权利要求9所述的计算机系统,其中,所述参数限定允许的发送方列表,其中,接收方从所述发送方列表中的发送方接收叠加并使用叠加。
17.一种非暂时性计算机可读介质,其上存储有用于压缩神经网络模型的计算机程序,所述计算机程序被配置为使得一个或多个计算机处理器:
接收与沉浸式远程会议的会话相关联的视频数据;
识别与所述视频数据相关联的参数,其中,所述参数指定与所述沉浸式远程会议的会话相关联的叠加数据;以及
基于所识别的参数,来显示具有一个或多个叠加的所述视频数据。
18.根据权利要求17所述的计算机可读介质,其中,所述参数是被提供有会话描述协议SDP的。
19.根据权利要求17所述的计算机可读介质,其中,所述参数是在初始的提供-应答协商期间协商或在所述沉浸式远程会议的会话期间协商的。
20.根据权利要求17所述的计算机可读介质,其中,所述参数限定最大叠加数量并约束在特定时间处的叠加数量。
CN202180005722.4A 2020-06-15 2021-04-12 用于叠加处理远程终端的沉浸式远程会议及远程呈现的参数 Pending CN114830636A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202063039336P 2020-06-15 2020-06-15
US63/039,336 2020-06-15
US17/095,239 US11381777B2 (en) 2020-06-15 2020-11-11 Parameters for overlay handling for immersive teleconferencing and telepresence for remote terminals
US17/095,239 2020-11-11
PCT/US2021/026798 WO2021257167A1 (en) 2020-06-15 2021-04-12 Parameters for overlay handling for immersive teleconferencing and telepresence for remote terminals

Publications (1)

Publication Number Publication Date
CN114830636A true CN114830636A (zh) 2022-07-29

Family

ID=78826327

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180005722.4A Pending CN114830636A (zh) 2020-06-15 2021-04-12 用于叠加处理远程终端的沉浸式远程会议及远程呈现的参数

Country Status (6)

Country Link
US (2) US11381777B2 (zh)
EP (1) EP4008103B1 (zh)
JP (1) JP7411791B2 (zh)
KR (1) KR102566276B1 (zh)
CN (1) CN114830636A (zh)
WO (1) WO2021257167A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11924393B2 (en) * 2021-01-22 2024-03-05 Valeo Comfort And Driving Assistance Shared viewing of video among multiple users
US20230254447A1 (en) * 2022-02-07 2023-08-10 Tencent America LLC Session description protocol (sdp) signaling of occlude-free regions in 360 video conferencing
US11983822B2 (en) 2022-09-02 2024-05-14 Valeo Comfort And Driving Assistance Shared viewing of video with prevention of cyclical following among users

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5896128A (en) * 1995-05-03 1999-04-20 Bell Communications Research, Inc. System and method for associating multimedia objects for use in a video conferencing system
US7222158B2 (en) * 2003-12-31 2007-05-22 Aol Llc Third party provided transactional white-listing for filtering electronic communications
JP4766696B2 (ja) * 2007-03-06 2011-09-07 日本電信電話株式会社 インタフェース装置およびインタフェースシステム
US8373741B2 (en) * 2009-11-20 2013-02-12 At&T Intellectual Property I, Lp Apparatus and method for collaborative network in an enterprise setting
US10045065B2 (en) * 2014-09-05 2018-08-07 Qualcomm Incorporated Synchronization and control of overlay contents for video streaming in a wireless communication system
US10388072B2 (en) * 2016-10-31 2019-08-20 Verizon Patent And Licensing Inc. Methods and systems for dynamically customizing a scene for presentation to a user
US10389974B2 (en) * 2017-01-16 2019-08-20 Microsoft Technology Licensing, Llc Switch view functions for teleconference sessions
US10769438B2 (en) 2017-05-23 2020-09-08 Samsung Electronics Company, Ltd. Augmented reality
US20190104326A1 (en) * 2017-10-03 2019-04-04 Qualcomm Incorporated Content source description for immersive media data
WO2019235849A1 (ko) * 2018-06-06 2019-12-12 엘지전자 주식회사 360 비디오 시스템에서 오버레이 미디어 처리 방법 및 그 장치
US10931930B2 (en) * 2018-07-06 2021-02-23 Mediatek Singapore Pte. Ltd. Methods and apparatus for immersive media content overlays
CA3114914A1 (en) 2018-10-04 2020-04-09 GumGum, Inc. Overlaying content within live streaming video

Also Published As

Publication number Publication date
JP2022553019A (ja) 2022-12-21
KR102566276B1 (ko) 2023-08-10
US11381777B2 (en) 2022-07-05
KR20220038176A (ko) 2022-03-25
EP4008103A4 (en) 2022-10-12
WO2021257167A1 (en) 2021-12-23
EP4008103B1 (en) 2024-04-10
US20220303503A1 (en) 2022-09-22
JP7411791B2 (ja) 2024-01-11
US20210392293A1 (en) 2021-12-16
EP4008103A1 (en) 2022-06-08

Similar Documents

Publication Publication Date Title
KR102566276B1 (ko) 원격 단말을 위한 몰입형 원격 회의 및 텔레프레즌스를 위한 오버레이 처리용 파라미터
US11914922B2 (en) Audio mixing for teleconferencing
JP7508586B2 (ja) 没入型テレカンファレンスおよびテレプレゼンスのためのマルチグルーピングの方法、装置、およびコンピュータプログラム
JP7518195B2 (ja) テレコンファレンス及びリモートターミナル用のテレプレゼンスのための複数のオーディオミキシングゲインをシグナリングするための技術
JP7419529B2 (ja) 遠隔端末のための没入型テレカンファレンス及びテレプレゼンスのインタラクティブオーバーレイ処理
KR102719180B1 (ko) 몰입형 원격 회의 및 텔레프레즌스를 위한 다중 그룹화
JP7399549B2 (ja) リモート端末向けの遠隔会議およびテレプレゼンスにおいてオーディオミキシングゲインをシグナリングする手法
KR20220157436A (ko) 원격 단말들을 위한 원격회의 및 텔레프레즌스에서 뷰포트 공유할 때 멀미를 진정시키기 위한 기법
JP2024512904A (ja) Rtcpフィードバックを使用したリモート端末のためのテレコンファレンス及びリモートターミナルのためのテレプレゼンスのための複数のオーディオミキシングゲインをシグナリングするための技術

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40072083

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination