CN116636201A - 使用rtcp反馈发信号通知用于远程终端的远程会议和远程呈现的多个音频混合增益的技术 - Google Patents

使用rtcp反馈发信号通知用于远程终端的远程会议和远程呈现的多个音频混合增益的技术 Download PDF

Info

Publication number
CN116636201A
CN116636201A CN202280008645.2A CN202280008645A CN116636201A CN 116636201 A CN116636201 A CN 116636201A CN 202280008645 A CN202280008645 A CN 202280008645A CN 116636201 A CN116636201 A CN 116636201A
Authority
CN
China
Prior art keywords
gain
rtcp
rate
mixing
audio stream
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280008645.2A
Other languages
English (en)
Inventor
罗伊特·阿比什克
伊拉吉·索达加
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent America LLC
Original Assignee
Tencent America LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent America LLC filed Critical Tencent America LLC
Publication of CN116636201A publication Critical patent/CN116636201A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/40Support for services or applications
    • H04L65/403Arrangements for multi-party communication, e.g. for conferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/1066Session management
    • H04L65/1101Session protocols
    • H04L65/1104Session initiation protocol [SIP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/40Support for services or applications
    • H04L65/401Support for services or applications wherein the services involve a main real-time session and one or more additional parallel real-time or time sensitive sessions, e.g. white board sharing or spawning of a subconference
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/65Network streaming protocols, e.g. real-time transport protocol [RTP] or real-time control protocol [RTCP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/80Responding to QoS
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/438Interfacing the downstream path of the transmission network originating from a server, e.g. retrieving encoded video stream packets from an IP network
    • H04N21/4385Multiplex stream processing, e.g. multiplex stream decrypting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • H04N21/4788Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • H04N7/152Multipoint control units therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephonic Communication Services (AREA)

Abstract

一种使用实时传输控制协议(RTCP)反馈在远程会议中发信号通知多个音频混合增益的方法和设备。该方法包括:从360度流接收输入音频流,输入音频流包括混合增益;基于所分配的带宽,声明用于接收混合增益的RTCP反馈速率;以及使用所声明的RTCP反馈速率发信号通知混合增益。混合增益可以包括来自输入音频流的音频增益和来自叠加音频流的音频增益。用于发信号通知混合增益的RTCP反馈速率可以是恒定的或是基于事件的反馈速率。

Description

使用RTCP反馈发信号通知用于远程终端的远程会议和远程呈 现的多个音频混合增益的技术
相关申请的交叉引用
本申请基于并要求2021年11月11日提交的申请号为63/276,433的美国临时专利申请的优先权,该临时专利申请的公开内容通过引用整体并入本申请中。
技术领域
本公开的实施例涉及发信号通知用于远程终端的沉浸式远程会议和远程呈现(ITT4RT)的音频混合增益,更具体地涉及定义实时传输协议(RTP)头扩展,用于使用RTP控制协议(RTCP)反馈同时发信号通知360度背景和叠加的所有音频混合增益。
背景技术
当使用全向媒体流时,在使用头戴式显示器(HMD)时,仅呈现与用户的视口相对应的一部分内容,从而向用户提供媒体流的逼真视图。
图1图示了沉浸式远程会议呼叫的相关技术场景(场景1),其中,呼叫是在室A(101)、用户B(102)和用户C(103)之间组织。如图1中所示,室A(101)表示具有全向/360度相机(104)的会议室,用户B(102)和用户C(103)分别是使用HMD和移动设备的远程参与者。在这种情况下,参与者用户B(102)和用户C(103)将他们的视口方位发送到室A(101),室A(101)进而将视口相关的流发送到用户B(102)和用户C(103)。
图2A中示出了扩展场景(场景2),其包括多个会议室(2a01、2a02、2a03、2a04)。用户B(2a06)使用HMD观看来自360度相机(104)的视频流,用户C(2a07)使用移动设备观看视频流。用户B(2a06)和用户C(2a07)将他们的视口方位发送到会议室(2a01、2a02、2a03、2a04)中的至少一个,会议室(2a01、2a02、2a03、2a04)中的至少一个进而将视口相关的流发送到用户B(2a06)和用户C(2a07)。
如图2B中所示,另一示例场景(场景3)是当使用MRF/MCU(2b05)建立呼叫时的场景,其中,媒体资源功能(MRF)和媒体控制单元(MCU)是多媒体服务器,用于提供桥接多方会议呼叫中的终端的媒体相关功能。会议室可以将它们相应的视频发送到MRF/MCU(2b05)。这些视频是与视口无关的视频,即,将整个360度视频发送到媒体服务器(即,MRF/MCU),而与流式传输特定视频的用户视口无关。媒体服务器接收用户(用户B(2b06)和用户C(2b07))的视口方位,并且相应地将视口相关的流发送给用户。
进一步对于场景3,远程用户可以选择观看来自会议室(2a01至2a04、2b01至2b04)的可用360度视频其中之一。在这种情况下,用户将关于其想要流式传输的视频的信息及其视口方位发送到会议室或MRF/MCU(2b05)。用户还可以基于活动扬声器触发从一个会议室到另一个会议室的切换。媒体服务器可以暂停从任何没有活动用户的会议室接收视频流。
ISO 23090-2将叠加定义为“在全向视频或图像项目上或者视口上呈现的视觉媒体”。当会议室A中的任何参与者正在共享任何演示时,除了在会议室A中显示之外,该演示还作为流,广播到其它用户(会议室2a02至2a04、2b02至2b04、用户B(2b06)和/或用户C(2b07))。这个流可以叠加在360度视频之上。另外,叠加也可以用于2D流。不同音频流的默认音频混合增益分别是用于360度视频(a0)和叠加视频(a1,a2,..,aN)的音频增益(r0,r1,..,rN),音频输出等于r0*a0+r1*a1+……+rn*an,其中,r0+r1+…+rN=1。接收器或MRF/MCU将音频源与它们的混合增益成比例地混合。
发明内容
本公开的一个或多个示例实施例提供了一种在单个RTP头扩展中同时发信号通知叠加和360度流的音频混合增益的系统和方法。
根据实施例,提供了一种使用实时传输控制协议(RTCP)反馈在远程会议中发信号通知多个音频混合增益的方法。该方法可以包括:从360度流接收输入音频流,该输入音频流包括混合增益;基于所分配的带宽,声明用于接收混合增益的RTCP反馈速率;以及使用所声明的RTCP反馈速率发信号通知混合增益。
根据实施例,提供了一种使用实时传输控制协议(RTCP)反馈在远程会议中发信号通知多个音频混合增益的设备。该设备可以包括:一个或多个存储器,其被配置为存储程序代码,以及一个或多个处理器,其被配置为读取程序代码并按照程序代码所指示地进行操作。程序代码包括:接收代码,其被配置为使至少一个处理器从360度流接收输入音频流,该输入音频流包括混合增益;声明代码,其被配置为使至少一个处理器基于所分配的带宽,声明用于接收混合增益的RTCP反馈速率;以及信令代码,其被配置为使至少一个处理器使用所声明的RTCP反馈速率来发信号通知混合增益。
根据实施例,提供了一种使用实时传输控制协议(RTCP)反馈在远程会议中发信号通知多个音频混合增益的非易失性计算机可读介质。该计算机可读介质可以连接到一个或多个处理器,并且可以被配置为存储指令,这些指令在由设备的至少一个处理器执行时使至少一个或多个处理器从360度流接收包括混合增益的输入音频流,基于所分配的带宽声明用于接收混合增益的RTCP反馈速率,以及使用所声明的RTCP反馈速率来发信号通知混合增益。
附加的方面将部分地在以下描述中阐述,并且部分地将从描述中显而易见,或可以通过实践所呈现的本公开的实施例来了解。
附图说明
从结合以下附图的以下描述中,本公开的实施例的以上和其它方面、特征和方面将变得更加明显。
图1是用于沉浸式远程会议的生态系统的示意图。
图2A是多方多会议室远程会议的示意图。
图2B是使用MRF/MCU的多方多会议室远程会议的示意图。
图3是根据一个或多个实施例的通信系统的简化框图。
图4是根据一个或多个实施例的流式传输环境的简化示例图示。
图5是根据一个或多个实施例的用于使用RTCP反馈发信号通知多个音频混合增益的方法的流程图。
图6是根据一个或多个实施例的计算机系统的示意图。
具体实施方式
本公开涉及一种使用RTCP反馈同时发信号通知叠加和360度流的音频混合增益的方法和装置。
如图2A和图2B中所示,具有全向相机的多个会议室处于远程会议中,用户从会议室(2a01、2a02、2a03、2a04)之一中选择待作为沉浸式流显示的视频流/音频流。与360度沉浸式流同时使用的任何附加音频流或视频流作为叠加(即,作为单独的流)被发送。终端设备一接收到多个音频流,便对它们进行解码并且将它们混合以呈现给用户。发送方会议室提供所有不同音频流的混合增益水平。发送方会议室还可以在远程会议会话期间更新不同音频流的混合增益水平。可以为每个音频流定义音频混合增益。因此,需要使用一种如本公开的实施例中所详述的使用单个头扩展发送/接收所有音频增益(r0,r1,..,rN)和叠加视频(a1,a2,..,aN)的方法。
下面参考附图全面描述本公开的实施例。然而,实施方式的示例可以以各种多种形式实现,本公开不应被解释为限于本申请中描述的示例。相反,提供实施方式的示例是为了使本公开的技术方案更加全面和完整,将实施方式的示例的构思全面地传达给本领域技术人员。附图仅仅是本公开的示例说明,并且不一定按比例绘制。附图中相同的附图标记表示相同或相似的部件,因此省略对这些部件的重复描述。
以下讨论的所提出的特征可以单独使用或以任何顺序组合使用。附图中示出的一些框图是功能实体,不一定与物理上或逻辑上独立的实体相对应。进一步地,实施例可以通过处理电路(例如,一个或多个处理器或一个或多个集成电路)来实现,或者以软件的形式来实现,或者在不同的网络和/或处理器装置和/或微控制器装置中实现。在一个示例中,一个或多个处理器执行存储在非易失性计算机可读介质中的程序。
图3是根据本公开的实施例的通信系统(300)的简化框图。通信系统(300)可以包括经由网络(305)互连的至少两个终端(302、303)。对于数据的单向传输,第一终端(303)可以在本地位置对视频数据进行编码,以便经由网络(305)传输到另一终端(302)。第二终端(302)可以从网络(305)接收另一终端的已编码视频数据,对已编码数据进行解码并且显示恢复的视频数据。单向数据传输在诸如远程会议等媒体服务应用中可能是常见的。
图3图示了第二对终端(301、304),被提供来支持例如在视频会议期间可能发生的已编码视频的双向传输。对于数据的双向传输,每个终端(301、304)可以对在本地位置采集的视频数据进行编码,以便经由网络(305)传输到另一终端。每个终端(301、304)还可以接收由另一终端传输的已编码视频数据,可以对已编码数据进行解码和混合,并且可以在本地显示设备上显示已恢复的视频数据。
在图3中,终端(301、302、303、304)可能图示为服务器、个人计算机和移动设备,但是本公开的原理不限于此。本公开的实施例适用于膝上型计算机、平板电脑、头戴式显示器(HMD)、其它媒体播放器和/或专用视频会议设备。网络(305)表示在终端(301、302、303、304)之间传送已编码视频数据的任意数量的网络,包括例如有线和/或无线通信网络。通信网络305可以在电路交换和/或分组交换信道中交换数据。代表性网络包括电信网络、局域网、广域网和/或因特网。在本公开的实施例中讨论的混合增益可以使用下文中解释的网络协议经由网络(305)等来发送和接收。
图4图示了用于所公开主题的应用的示例流式传输环境。所公开主题可以等同地应用于其它支持视频的应用,包括,例如沉浸式远程会议呼叫、视频远程会议和远程呈现等。
流式传输环境可以包括一个或多个会议室(403),一个或多个会议室(403)可以包括视频源(401)(例如,摄像机)和会议的一个或多个参与者(402)。图4中图示的视频源(401)是例如可以创建视频样本流的360度摄像机。视频样本流可以发送到流式传输服务器(404)和/或存储在其上以供将来使用。一个或多个流式传输客户端(405、406)还可以将它们相应的视口信息发送到流式传输服务器(404)。基于视口信息,流式传输服务器(404)可以将视口相关的流发送到对应的流式传输客户端(405、406)。在另一示例实施例中,流式传输客户端(405、406)可以访问流式传输服务器(404)以检索视口相关的流。流式传输服务器(404)和/或流式传输客户端(405、406)可以包括硬件、软件或它们的组合,以支持或实现如下文更详细描述的所公开主题的各方面。
在沉浸式远程会议呼叫中,可以将多个音频流从发送方(例如,403)发送到流式传输客户端(例如,405和/或406)。这些流可以包括用于360度视频的音频流以及用于叠加的一个或多个音频流。流式传输客户端(405、406)可以包括混合部件(407a、407b)。混合部件可以对360度视频和叠加的视口相关的流进行解码和混合,并且创建可以在显示器408或诸如HDM、扬声器、移动设备等其它呈现设备上呈现的输出视频样本流。实施例不限于该配置,一个或多个会议室(403)可以经由网络(例如,网络305)与流式传输客户端(405、406)通信。
现在将根据实施例描述经由RTCP反馈包将多个音频混合增益从服务器发信号通知给流式传输客户端。
流式传输客户端(以下称为“接收器”)可以使用以下会话描述协议(SDP)属性指示其接收音频增益的能力:
a=rtcp-fb:*音频-混合-增益
接收器可以使用SDP定义RTCP反馈频率能力。在相同或另一实施例中,RTCP反馈可以由服务器以恒定或可变速率发送。当以恒定速率发送RTCP反馈时,RTCP反馈还可以包括其它信息,诸如视口定向信息以及普通的RTCP报告。在这种情况下,服务器遵循为RTCP业务分配的标准5%带宽(没有RTP/AVPF配置文件允许的5秒最小RTCP传输间隔)。表1示出了足以发送音频增益的RTCP反馈频率,假设RTCP包为96字节,包括音频和RTCP反馈比特率要求。
表1
音频比特率(Kbps) RTCP反馈比特率(Kbps) RTCP反馈频率
96 4.8 160ms
160 8 96ms
320 16 48ms
640 32 24ms
1411 70.55 10ms
在相同或另一示例实施例中,(经由RTCP反馈)发送的音频增益可以由服务器基于基于事件的反馈(即以可变速率发送RTCP反馈)来发送。在这种情况下,可以在任何音频混合增益改变的情况下,立即给出音频增益的RTCP反馈。在相同或另一示例实施例中,接收器可以定义与标准5%不同的带宽。
只要满足以下条件,接收器就可以发送基于事件的即时反馈:
每个间隔的事件<=RTCP所分配的带宽/平均RTCP包大小 (1)
每个间隔的事件=所报告事件的平均数量/时间间隔 (2)
对于音频而言,只要音频混合增益改变,就可以发送基于事件的反馈间隔。因此,为了遵循为允许的RTCP业务分配的标准5%带宽,服务器对于小于TE的间隔不触发基于事件的即时反馈,其中:
TE=>平均RTCP包大小/RTCP所分配的带宽 (3)
图5是根据一个或多个实施例的用于使用RTCP反馈发信号通知多个音频混合增益的方法500的流程图。
如图5所示,在操作510中,方法500包括从360度流接收输入音频流,该输入音频流包括混合增益。混合增益包括来自输入音频流的音频增益和来自叠加音频流的音频增益。
在操作520中,方法500包括基于所分配的带宽,声明用于接收混合增益的RTCP反馈速率。RTCP反馈速率可以是恒定反馈速率或基于事件的反馈速率。基于事件的速率仅针对基于平均RTCP包大小和所分配的带宽的事件间隔被触发。
在操作530中,方法500包括使用所声明的RTCP反馈速率发信号通知混合增益。
虽然图5示出了该方法的示例框,但是在一些实施方式中,该方法可以包括与图5中描绘的那些框相比附加的框、更少的框、不同的框或以不同方式布置的框。附加地或可替代地,可以并行地执行该方法的框中的两个或更多个。
上述使用RTCP反馈发信号通知用于远程会议和远程呈现的多个音频混合增益的技术可以被实现为使用计算机可读指令并且物理地存储在一个或多个计算机可读介质中的计算机软件。例如,图6示出了适于实现所公开的主题的某些实施例的计算机系统600。
所述计算机软件可使用任何合适的机器代码或计算机语言来编码,所述机器代码或计算机语言可经受汇编、编译、链接或类似机制以创建包括指令的代码,所述指令可直接或通过解译、微码执行等而由计算机中央处理单元(CPU)、图形处理单元(GPU)等执行。所述指令可在各种类型的计算机或计算机组件上执行,所述计算机或计算机组件包括例如个人计算机、平板电脑、服务器、智能电话、游戏装置、物联网装置等。
图6中所示的用于计算机系统600的组件在本质上是示范性的,并非旨在暗示关于实施本申请实施例的计算机软件的使用或功能的范围的任何限制。也不应将组件的配置解释为对计算机系统600的示范性实施例中所示的组件中的任一个组件或组件组合有任何依赖或需求。
计算机系统600可包括某些人机接口输入装置。此类人机接口输入装置可响应于一个或多个人类用户通过例如触觉输入(例如,按键、滑动、数据手套移动)、音频输入(例如,语音、拍击)、视觉输入(例如,手势)、嗅觉输入进行的输入。人机接口装置还可用于捕获未必与人的有意识输入直接相关的某些媒体,例如音频(例如:话语、音乐、环境声)、图像(例如,扫描图像、从静态图像相机获得的摄影图像)、视频(例如,二维视频、包括立体视频的三维视频)。
输入人机接口装置可包括以下一个或多个(每种仅描绘一个):键盘601、轨迹垫602、鼠标603、触摸屏609、数据手套、操纵杆604、麦克风605、相机606、扫描仪607。
计算机系统600还可包括某些人机接口输出装置。此类人机接口输出装置可通过例如触觉输出、声音、光和气味/味道刺激一个或多个人类用户的感觉。此类人机接口输出装置可包括触觉输出装置(例如,触摸屏609、数据手套或操纵杆604的触觉反馈,但还可存在不充当输入装置的触觉反馈装置)、音频输出装置(例如:扬声器608、头戴式耳机)、视觉输出装置(例如,屏幕609,包括阴极射线管(CRT)屏幕、液晶显示(LCD)屏幕、等离子体屏幕、有机发光二极管(OLED)屏幕,各自具有或不具有触摸屏输入能力,各自具有或不具有触觉反馈能力--其中的一些能够通过例如立体平画输出的方式输出二维视觉输出或大于三维的输出;虚拟现实眼镜、全息显示器和烟雾箱,以及打印机。
计算机系统600还可包括人类可访问的存储装置和存储装置的相关联介质,例如,光学介质,包括具有CD/DVD等介质610的CD/DVD ROM/RW 611、拇指驱动器612、可移动硬盘驱动器或固态驱动器613、磁带和软盘等旧版磁性媒体、基于ROM/专用集成电路(ASIC)/可编程逻辑设备(PLD)的专用装置,例如,安全保护装置,等等。
所属领域的技术人员还应理解,结合当前公开的主题使用的术语“计算机可读介质”并未涵盖传输介质、载波或其它瞬时信号。
计算机系统(600)还可包括到一个或多个通信网络614的接口615。网络614可例如是无线的、有线的、光学的。网络614还可以是本地的、广域的、城域的、车载和工业的、实时的、容忍延迟的等等。网络614的实例包括例如以太网、无线LAN的局域网、包括全球移动通信系统(GSM)、第三代(3G)、第四代(4G)、第五代(5G)、长期演进(LTE)等的蜂窝网络、包括有线TV、卫星TV和地面广播TV的TV有线或无线广域数字网络、包括控制器局域网总线(CANBus)的车载网络和工业网络等。某些网络614通常需要附接到某些通用数据端口或外围总线616(例如,计算机系统600的通用串行总线(USB)端口)的外部网络接口适配器(例如,图形适配器625);其它网络通常通过附接到如下文所描述的系统总线而集成到计算机系统600的核心中(例如,通过以太网接口集成到PC计算机系统中,或通过蜂窝网络接口集成到智能电话计算机系统中)。通过使用这些网络614中的任一网络,计算机系统600可与其它实体通信。此类通信可以是仅单向接收(例如,广播TV)、仅单向发送(例如,连到某些CANBus装置的CANBus)或是双向的,例如,使用局域数字网络或广域数字网络连接到其它计算机系统。可在如上文所描述的那些网络和网络接口中的每一个上使用某些协议和协议栈。
上述人机接口装置、人类可访问存储装置和网络接口可附接到计算机系统600的核心617。
核心617可包括一个或多个中央处理单元(CPU)618、图形处理单元(GPU)619、现场可编程门区域(Field Programmable Gate Areas,FPGA)620形式的专用可编程处理单元、用于某些任务的硬件加速器621等等。这些装置连同只读存储器(read-only memory,ROM)623、随机存取存储器624、例如内部非用户可访问的硬盘驱动器、固态驱动器(SSD)等内部大容量存储装置622可通过系统总线626连接。在一些计算机系统中,系统总线626可通过一个或多个物理插头形式访问以实现通过额外CPU、GPU等来扩展。外围装置可直接或通过外围总线616附接到核心的系统总线626。用于外围总线的架构包括外围设备互连(PCI)、USB等等。
CPU 618、GPU 619、FPGA 620和加速器621可执行某些指令,所述指令组合起来可构成上述计算机代码。计算机代码可存储在ROM 623或RAM 624中。过渡数据也可存储在RAM624中,而永久性数据可例如存储在内部大容量存储装置622中。可通过使用高速缓冲存储器来实现对任一存储器装置的快速存储和检索,所述高速缓冲存储器可与一个或多个CPU618、GPU 619、大容量存储装置622、ROM 623、RAM 624等紧密关联。
计算机可读介质上可具有用于执行各种计算机实施的操作的计算机代码。所述介质和计算机代码可以是专为本申请的目的设计和构建的介质和计算机代码,或可属于计算机软件领域中的技术人员众所周知且可用的种类。
举例来说但不作为限制,具有架构600且尤其是核心617的计算机系统可提供因处理器(包括CPU、GPU、FPGA、加速器等)执行以一个或多个有形计算机可读介质体现的软件而产生的功能。此类计算机可读介质可以是与上文所介绍的用户可访问大容量存储装置以及核心617的非暂时性质的某些存储装置(例如,核心内部大容量存储装置622或ROM 623)相关联的介质。实施本申请的各种实施例的软件可存储在此类装置中且由核心617执行。根据特定需求,计算机可读介质可包括一个或多个存储器装置或芯片。软件可使核心617且具体地说使其中的处理器(包括CPU、GPU、FPGA等等)执行本文中所描述的特定过程或特定过程的特定部分,包括限定存储在RAM 624中的数据结构以及根据由软件限定的过程修改此类数据结构。另外或作为替代方案,计算机系统可提供由硬连线的或以其它方式体现于电路(例如,加速器621)中的逻辑所产生的功能,所述逻辑可代替或连同软件一起操作以执行本文描述的特定过程或特定过程的特定部分。适当时,对软件的引用可涵盖逻辑,且反之亦然。适当时,对计算机可读介质的引用可涵盖存储用于执行的软件的电路(例如,集成电路(IC))、体现用于执行的逻辑的电路或这两种电路。本申请涵盖硬件与软件的任何合适的组合。
尽管本申请描述了若干示范性实施例,但在本申请的范围内,可以有各种改动、排列组合方式以及各种替代等同物。因此,应该理解,在申请的精神和范围内,本领域技术人员能够设计出各种虽未在本文明确示出或描述、但可以体现本申请的原理的系统和方法。

Claims (20)

1.一种使用实时传输控制协议(RTCP)反馈在远程会议中发信号通知多个音频混合增益的方法,其特征在于,所述方法包括:
从360度流接收输入音频流,所述输入音频流包括混合增益;
基于所分配的带宽,声明用于接收所述混合增益的RTCP反馈速率;以及
使用所声明的RTCP反馈速率发信号通知所述混合增益。
2.根据权利要求1所述的方法,其特征在于,所述混合增益包括来自所述输入音频流的音频增益和来自叠加音频流的音频增益。
3.根据权利要求1所述的方法,其特征在于,所述RTCP反馈速率是恒定速率。
4.根据权利要求1所述的方法,其特征在于,所述RTCP反馈速率是基于事件的速率。
5.根据权利要求4所述的方法,其特征在于,仅当事件间隔大于或等于T时,才触发所述基于事件的速率,
其中,T是基于平均RTCP包大小和所分配的带宽。
6.根据权利要求4所述的方法,其特征在于,进一步包括基于所述混合增益的变化,使用所述基于事件的速率发信号通知所述混合增益。
7.根据权利要求1所述的方法,其特征在于,所述输入音频流的接收器指示使用会话描述协议(SDP)接收所述音频混合增益的能力。
8.一种使用实时传输控制协议(RTCP)反馈在远程会议中发信号通知多个音频混合增益的设备,其特征在于,所述设备包括:
至少一个存储器,其被配置为存储程序代码;以及
至少一个处理器,其被配置为读取所述程序代码并按照所述程序代码的指示进行操作,所述程序代码包括:
接收代码,其被配置为使所述至少一个处理器从360度流接收输入音频流,所述输入音频流包括混合增益;
声明代码,其被配置为使所述至少一个处理器基于所分配的带宽,声明用于接收所述混合增益的RTCP反馈速率;以及
信令代码,其被配置为使所述至少一个处理器使用所声明的RTCP反馈速率发信号通知所述混合增益。
9.根据权利要求8所述的设备,其特征在于,所述混合增益包括来自所述输入音频流的音频增益和来自叠加音频流的音频增益。
10.根据权利要求8所述的设备,其特征在于,所述RTCP反馈速率是恒定速率。
11.根据权利要求8所述的设备,其特征在于,所述RTCP反馈速率是基于事件的速率。
12.根据权利要求11所述的设备,其特征在于,仅当事件间隔大于或等于T时,才触发所述基于事件的速率,
其中,T是基于平均RTCP包大小和所分配的带宽。
13.根据权利要求11所述的设备,其特征在于,所述信令代码进一步被配置为使所述至少一个处理器基于所述混合增益的变化,使用所述基于事件的速率发信号通知所述混合增益。
14.根据权利要求8所述的设备,其特征在于,所述输入音频流的接收器指示使用会话描述协议(SDP)接收所述音频混合增益的能力。
15.一种存储指令的非易失性计算机可读介质,其特征在于,所述指令包括:一个或多个指令,当由存储指令的使用实时传输控制协议(RTCP)反馈在远程会议中发信号通知多个音频混合增益的设备的至少一个处理器执行时,所述一个或多个指令使所述至少一个处理器:
从360度流接收输入音频流,所述输入音频流包括混合增益;
基于所分配的带宽,声明用于接收所述混合增益的RTCP反馈速率;以及
使用所声明的RTCP反馈速率发信号通知所述混合增益。
16.根据权利要求15所述的非易失性计算机可读介质,其特征在于,所述混合增益包括来自所述输入音频流的音频增益和来自叠加音频流的音频增益。
17.根据权利要求15所述的非易失性计算机可读介质,其特征在于,所述RTCP反馈速率是恒定速率。
18.根据权利要求15所述的非易失性计算机可读介质,其特征在于,所述RTCP反馈速率是基于事件的速率,并且仅当事件间隔大于或等于T时,才触发所述基于事件的速率,
其中,T是基于平均RTCP包大小和所分配的带宽。
19.根据权利要求18所述的非易失性计算机可读介质,其特征在于,所述指令在由所述至少一个处理器执行时,进一步使所述至少一个处理器基于所述混合增益的变化,使用所述基于事件的速率发信号通知所述混合增益。
20.根据权利要求15所述的非易失性计算机可读介质,其特征在于,所述输入音频流的接收器指示使用会话描述协议(SDP)接收所述音频混合增益的能力。
CN202280008645.2A 2021-11-05 2022-03-25 使用rtcp反馈发信号通知用于远程终端的远程会议和远程呈现的多个音频混合增益的技术 Pending CN116636201A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202163276433P 2021-11-05 2021-11-05
US63/276,433 2021-11-05
US17/703,275 US11916982B2 (en) 2021-11-05 2022-03-24 Techniques for signaling multiple audio mixing gains for teleconferencing and telepresence for remote terminals using RTCP feedback
US17/703,275 2022-03-24
PCT/US2022/021965 WO2023080919A1 (en) 2021-11-05 2022-03-25 Techniques for signaling multiple audio mixing gains for teleconferencing and telepresence for remote terminals using rtcp feedback

Publications (1)

Publication Number Publication Date
CN116636201A true CN116636201A (zh) 2023-08-22

Family

ID=86228952

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280008645.2A Pending CN116636201A (zh) 2021-11-05 2022-03-25 使用rtcp反馈发信号通知用于远程终端的远程会议和远程呈现的多个音频混合增益的技术

Country Status (5)

Country Link
US (1) US11916982B2 (zh)
JP (1) JP2024512904A (zh)
KR (1) KR20230114307A (zh)
CN (1) CN116636201A (zh)
WO (1) WO2023080919A1 (zh)

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1337086B1 (en) 2002-02-13 2006-07-19 Matsushita Electric Industrial Co., Ltd. Method for transmitting data packets using RTP and RTCP protocols
US20070097987A1 (en) * 2003-11-24 2007-05-03 Rey Jose L Feedback provision using general nack report blocks and loss rle report blocks
US7567270B2 (en) * 2004-04-22 2009-07-28 Insors Integrated Communications Audio data control
US8498215B2 (en) 2004-11-16 2013-07-30 Qualcomm Incorporated Open-loop rate control for a TDD communication system
US9178778B2 (en) 2012-03-23 2015-11-03 Avaya Inc. System and method for end-to-end RTCP
US9761229B2 (en) 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
US8982702B2 (en) * 2012-10-30 2015-03-17 Cisco Technology, Inc. Control of rate adaptive endpoints
US10523730B2 (en) * 2014-03-12 2019-12-31 Infinesse Corporation Real-time transport protocol (RTP) media conference server routing engine
US20160140978A1 (en) * 2014-11-18 2016-05-19 Qualcomm Incorporated Customizable Local Media Mixing And Stream Selection In Group Communications
US10225814B2 (en) * 2015-04-05 2019-03-05 Qualcomm Incorporated Conference audio management
US20170054770A1 (en) * 2015-08-23 2017-02-23 Tornaditech Llc Multimedia teleconference streaming architecture between heterogeneous computer systems
US10250921B1 (en) * 2017-12-22 2019-04-02 Dialogic Corporation Systems and methods of video forwarding with adaptive video transcoding capabilities
US20200329088A1 (en) * 2019-07-26 2020-10-15 Intel Corporation Viewport indication during streaming of volumetric point cloud content
US11303849B2 (en) 2020-03-30 2022-04-12 Tencent America LLC Signaling of the RTCP viewport feedback for immersive teleconferencing and telepresence for remote terminals

Also Published As

Publication number Publication date
WO2023080919A1 (en) 2023-05-11
US20230144330A1 (en) 2023-05-11
US11916982B2 (en) 2024-02-27
JP2024512904A (ja) 2024-03-21
KR20230114307A (ko) 2023-08-01

Similar Documents

Publication Publication Date Title
JP5781441B2 (ja) マルチビットレートストリームを使用するビデオ会議のサブスクリプション
US11914922B2 (en) Audio mixing for teleconferencing
CN113542660A (zh) 一种实现会议多画面高清显示的方法、系统及存储介质
US20220311814A1 (en) Techniques for signaling multiple audio mixing gains for teleconferencing and telepresence for remote terminals
US11943073B2 (en) Multiple grouping for immersive teleconferencing and telepresence
CN116636201A (zh) 使用rtcp反馈发信号通知用于远程终端的远程会议和远程呈现的多个音频混合增益的技术
US20220294839A1 (en) Techniques for signaling audio mixing gain in teleconferencing and telepresence for remote terminals
US20080043962A1 (en) Methods, systems, and computer program products for implementing enhanced conferencing services
US20220308341A1 (en) Towards subsiding motion sickness for viewport sharing for teleconferencing and telepresence for remote terminals
US11431956B2 (en) Interactive overlay handling for immersive teleconferencing and telepresence for remote terminals

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40090854

Country of ref document: HK