CN115486058A - 发信号通知用于远程终端的电话会议和远程呈现的多个音频混合增益的技术 - Google Patents

发信号通知用于远程终端的电话会议和远程呈现的多个音频混合增益的技术 Download PDF

Info

Publication number
CN115486058A
CN115486058A CN202280003744.1A CN202280003744A CN115486058A CN 115486058 A CN115486058 A CN 115486058A CN 202280003744 A CN202280003744 A CN 202280003744A CN 115486058 A CN115486058 A CN 115486058A
Authority
CN
China
Prior art keywords
header extension
audio stream
transport protocol
time transport
input audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280003744.1A
Other languages
English (en)
Inventor
罗伊特·阿比什克
伊拉吉·索达加
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent America LLC
Original Assignee
Tencent America LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent America LLC filed Critical Tencent America LLC
Publication of CN115486058A publication Critical patent/CN115486058A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/1066Session management
    • H04L65/1101Session protocols
    • H04L65/1104Session initiation protocol [SIP]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/65Network streaming protocols, e.g. real-time transport protocol [RTP] or real-time control protocol [RTCP]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/034Automatic adjustment
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/40Support for services or applications
    • H04L65/403Arrangements for multi-party communication, e.g. for conferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/40Support for services or applications
    • H04L65/403Arrangements for multi-party communication, e.g. for conferences
    • H04L65/4038Arrangements for multi-party communication, e.g. for conferences with floor control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/70Media network packetisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • H04L65/762Media network packet handling at the source 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • H04L65/765Media network packet handling intermediate

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephonic Communication Services (AREA)

Abstract

提供了一种在电话会议中使用单个实时传输协议(RTP)头扩展发信号通知多个音频混合增益的方法和设备。该方法包括:从360度视频/音频流接收输入音频流,所述输入音频流包括来自输入音频流和叠加音频流的多个混合增益;为所有混合增益声明单个RTP头扩展(包括元素标识符、扩展元素的长度和混合增益的量值中的一个或多个);以及使用单个RTP头扩展发信号通知混合增益。单个RTP头扩展可以使用一字节头扩展格式或两字节头扩展格式,一字节头扩展格式或两字节头扩展格式使用会话描述协议(SDP)来声明。

Description

发信号通知用于远程终端的电话会议和远程呈现的多个音频 混合增益的技术
交叉引用
本申请基于并要求于2021年3月29日提交的申请号为63/167,236的美国临时专利申请的优先权,该临时专利申请的公开内容通过引用结合在本文中。
技术领域
本公开的实施例涉及发信号通知用于远程终端的沉浸式电话会议和远程呈现(ITT4RT,Immersive Teleconferencing and Telepresence for Remote Terminals)的音频混合增益,并且更具体地涉及定义实时传输协议RTP(Real-time Transport Protocol)头扩展,所述RTP头扩展用于通过单个RTP头扩展发信号通知360度背景和叠加的所有音频混合增益。
背景技术
当使用全向媒体流时,仅渲染对应于用户视口的部分内容,同时使用头戴式显示器(HMD,head-mounted display),给予用户媒体流的逼真视图。
图1示出了用于沉浸式电话会议呼叫的相关技术场景(场景1),其中呼叫在室A(101)、用户B(102)和用户C(103)之间组织。如图1所示,室A(101)表示具有全向/360度摄像机(104)的会议室,并且用户B(102)和用户C(103)分别是使用HMD和移动设备的远程参与者。在这种情况下,参与者用户B(102)和参与者用户C(103)将他们的视口朝向发送到室A(101),室A(101)又向用户B(102)和用户C(103)发送视口相关流。
图2A中示出了扩展场景(场景2),其包括多个会议室(2a01、2a02、2a03、2a04)。用户B(2a06)使用HMD观看来自360度摄像机(104)的视频流,并且用户C(2a07)使用移动设备观看视频流。用户B(2a06)和用户C(2a07)将他们的视口朝向发送到会议室(2a01、2a02、2a03、2a04)中的至少一个,会议室(2a01、2a02、2a03、2a04)中的至少一个又向用户B(2a06)和用户C(2a07)发送视口相关流。
如图2B所示,另一个示例场景(场景3)是当使用MRF/MCU(2b05)建立呼叫时,其中媒体资源功能(MRF,Media Resource Function)和媒体控制单元(MCU,Media ControlUnit)是为多方会议呼叫中的桥接终端提供媒体相关功能的多媒体服务器。会议室可以将它们各自的视频发送到MRF/MCU(2b05)。这些视频是与视口无关的视频,即,整个360度视频被发送到媒体服务器(即,MRF/MCU),而与流式传输特定视频的用户视口无关。媒体服务器接收用户(用户B(2b06)和用户C(2b07))的视口取朝向,并且相应地向用户发送视口相关流。
进一步对于场景3,远程用户可以选择观看来自会议室(2a01至2a04、2b01至2b04)的可用360度视频中的其中之一。在这种情况下,用户将关于要流式传输的视频及其视口朝向的信息发送到会议室或MRF/MCU(2b05)。用户还可以基于有源音箱(active speaker)触发从一个室切换到另一个室。媒体服务器可以暂停从任何会议室接收视频流,所述任何会议室没有活跃用户。
ISO 23090-2将覆盖定义为“在全向视频或图像项目上或在视口上渲染的视觉媒体片段”。当会议室A中的任何参与者正在共享任何演示时,除了在会议室A中被显示之外,该演示还作为流广播到其他用户(会议室2a02至2a04、2b02至2b04、用户B(2b06)和/或用户C(2b07)。该流可以覆盖在360度视频的顶部。另外,覆盖也可以用于2D流。用于不同音频流的默认音频混合增益分别是360度视频(a0)和叠加视频(a1,a2,…,aN)的音频增益(r0,r1,…,rN),并且音频输出等于r0*a0+r1*a1+……+rn*an,其中,r0+r1+…+rN=1。接收器或MRF/MCU将音频源与其混合增益成比例地混合。
发明内容
本公开的一个或多个示例性实施例提供了一种在单个RTP头扩展中一起发信号通知叠加和360度流的音频混合增益的系统和方法。
根据实施例,提供了一种用于发信号通知在使用RTP头扩展的电话会议中的多个音频混合增益的方法。该方法可以包括:从360度流接收输入音频流,所述输入音频流包括混合增益;声明输入音频流的单个实时传输协议RTP头扩展,该单个实时传输协议RTP头扩展包括一个或多个扩展元素;以及使用单个RTP头扩展发信号通知混合增益。该方法的一个或多个扩展元素包括单个RTP头扩展的元素标识符、扩展元素的长度和混合增益的量值。
根据实施例,提供了一种在电话会议中使用RTP头扩展发信号通知多个音频混合增益的设备。该设备可以包括存储指令的至少一个存储器和被配置为读取程序代码并且如程序代码所指示地操作的至少一个处理器。程序代码包括:接收代码,其被配置为使至少一个处理器从360度视频流接收输入音频流,所述输入音频流包括混合增益;声明代码,其被配置为使至少一个处理器声明输入音频流的单个RTP头扩展,该单个RTP头扩展包括一个或多个扩展元素,其中一个或多个扩展元素包括单个RTP头扩展的元素标识符、扩展元素的长度和混合增益的量值;以及信令代码,其被配置为使至少一个处理器使用单个RTP头扩展发信号通知混合增益。
根据实施例,提供了一种在电话会议中使用RTP头扩展发信号通知多个音频混合增益的非易失性计算机可读介质。存储介质可以连接到一个或多个处理器并且可以被配置为存储指令,当这些指令被执行时使至少一个或多个处理器从360度视频流接收输入音频流,所述输入音频流包括混合增益;声明输入音频流的单个RTP头扩展,该单个RTP头扩展包括一个或多个扩展元素;以及使用单个RTP头扩展发信号通知混合增益。非易失性计算机可读存储介质的一个或多个扩展元素包括单个RTP头扩展的元素标识符、扩展元素的长度和混合增益的量值。
附加方面将部分地在以下描述中阐述,并且部分地将从该描述中显而易见,或可以通过实践所呈现的本公开的实施例来了解。
附图说明
从结合以下附图的以下描述中,本公开的实施例的以上和其它方面、特征和方面将变得更加明显。
图1是用于沉浸式电话会议的生态系统的示意图。
图2A是多方多会议室电话会议的示意图。
图2B是使用MRF/MCU的多方多会议室电话会议的示意图。
图3是根据一个或多个实施例的通信系统的简化框图。
图4是根据一个或多个实施例的流式传输环境的简化示例性图示。
图5A是根据一个或多个实施例的发信号通知使用一字节RTP头扩展的音频混合增益的示意图。
图5B是根据一个或多个实施例的发信号通知使用两字节RTP头扩展的音频混合增益的示意图。
图6是根据一个或多个实施例的在电话会议中使用RTP头扩展发信号通知多个音频混合增益的方法的流程图。
图7是根据一个或多个实施例的计算机系统的示意图。
具体实施方式
本公开涉及一种在单个RTP头扩展中一起发信号通知叠加和360度流的音频混合增益的方法和装置,以向用户提供沉浸式电话会议的期望的混合音频流或视频流。
如图2A和图2B所示,具有全向摄像机的多个会议室处于电话会议中,并且用户从会议室(2a01、2a02、2a03、2a04)中的一个会议室选择视频/音频流,以作为沉浸式流显示。与360度沉浸流一起使用的任何附加的音频流或视频流作为叠加(即,作为单独的流)被发送。终端设备一接收到多个音频流,就对它们进行解码和混合,以渲染给用户。发送者会议室提供所有不同音频流的混合增益水平。发送者会议室还可以在电话会议会话期间更新不同音频流的混合增益水平。可以为每个音频流定义音频混合增益。因此,将需要使用如本公开的实施例中所详述的使用单个头扩展来发送/接收所有音频增益(r0,r1,…,rN)和叠加视频(a1,a2,…,aN)的方法。使用该方法发送具有每个头扩展的多个音频混合增益,可以减少必要的处理并且提高了音频信令效率。
下面参照附图全面地描述本公开的实施例。然而,实施方式的示例可以以多种形式来实现,并且本公开不应被解释为限于本文所描述的示例。相反,提供实施方式的示例是为了使本公开的技术方案更加全面和完整,并且将实施方式的示例的思想全面地传达给本领域技术人员。附图仅是本公开的示例图示,并且不必按比例绘制。附图中相同的附图标记表示相同或相似的部件,并且因此省略对这些部件的重复描述。
下面讨论的所提出的特征可以单独使用或以任何顺序组合使用。附图中示出的一些框图是功能实体,并且不必对应于物理上或逻辑上独立的实体。此外,这些实施例可以通过处理电路(例如,一个或多个处理器或一个或多个集成电路)来实现,或者以软件的形式来实现,或者在不同的网络和/或处理器装置和/或微控制器装置中实现。在一个示例中,一个或多个处理器执行存储在非易失性计算机可读介质中的程序。
图3是根据本公开的实施例的通信系统(300)的简化框图。通信系统(300)可以包括通过网络(305)互连的至少两个终端(302、303)。对于数据的单向传输,第一终端(303)可以对在本地位置的视频数据进行编码,以便通过网络(305)传输到另一个终端(302)。第二终端(302)可以从网络(305)接收其它终端的已编码视频数据,解码已编码数据并且显示恢复的视频数据。单向数据传输在媒体服务应用(诸如电话会议等)中可能是常见的。
图3示出了第二对终端(301、304),其被提供来支持例如在视频会议期间可能发生的已编码视频的双向传输。对于数据的双向传输,每个终端(301、304)可以对在本地位置采集的视频数据进行编码,以便通过网络(305)传输到其它终端。每个终端(301、304)还可以接收由另一个终端传输的已编码视频数据,可以解码和混合已编码数据,并且可以在本地显示设备上显示恢复的视频数据。
在图3中,终端(301、302、303、304)可以被图示为服务器、个人计算机和移动设备,但是本公开的原理不限于此。本公开的实施例应用于膝上型计算机、平板计算机、HMD、其它媒体播放器和/或专用视频会议设备。网络(305)表示在终端(301、302、303、304)之间传送已编码视频数据的任意数量的网络,包括例如有线和/或无线通信网络。通信网络(305)可以在电路交换(circuit-switched)和/或分组交换信道中交换数据。代表性的网络包括电信网络、局域网、广域网和/或因特网。在本公开的实施例中讨论的混合增益可以使用下文解释的网络协议通过网络(305)等来发送和接收。
图4示出了用于所公开的主题的应用的示例流式传输环境。所公开的主题可以等同地应用于其它支持视频的应用,包括例如沉浸式电话会议呼叫、视频电话会议和远程呈现等。
流式传输环境可以包括一个或多个会议室(403),会议室(403)可以包括视频源(401),例如视频摄像机和会议(402)的一个或多个参与者。图4图示的视频源(401)是例如可以创建视频样本流的360度视频摄像机。可以将视频样本流发送到流式服务器(404)和/或存储在流式服务器上(404)以供将来使用。一个或多个流式客户端(405、406)还可以将它们各自的视口信息发送到流式服务器(404)。基于视口信息,流式服务器(404)可以将视口相关流发送到对应的流式客户端(405、406)。在另一个示例实施例中,流式客户端(405、406)可以访问流式服务器(404)以检索视口相关流。流式服务器(404)和/或流式客户端(405、406)可以包括硬件、软件或其组合,以允许或实现如下文更详细描述的所公开主题的各方面。
在沉浸式电话会议呼叫中,可以将多个音频流从发送者(例如403)发送到流式客户端(例如405和/或406)。这些流可以包括360度视频的音频流以及叠加的一个或多个音频流。流式客户端(405、406)可以包括混合部件(407a、407b)。混合部件可以解码和混合360度视频和覆盖的视口相关流,并且创建输出视频样本流,所述输出视频样本流可以在显示器408或诸如HDM、扬声器、移动设备等的其它再现设备上进行呈现。实施例不限于该配置,一个或多个会议室(403)可以通过网络(例如,网络305)与流式客户端(405、406)进行通信。
现在将根据实施例参考图5A和图5B描述将多个音频混合增益从服务器发信号通知到客户端。
基于RTP的解决方案可以用于在单个RTP头扩展中将多个音频混合增益从服务器发信号通知到客户端。360度RTP音频流的分组可以包含RTP头扩展的一个或多个扩展元素。分组中的每个扩展元素指示在360度RTP音频流和任何叠加音频中呈现的混合增益。如图5A所示,可以使用具有一字节头格式的RTP扩展。具有一字节头格式的RTP扩展的头扩展可以具有三个扩展元素。这些元素包含ID(5a01、5a04、5a07、5a12、5a13、5a18)、长度L(5a02、5a05、3a08、5a09、5a14、5a15)和混合增益(5a03、5a10、5a11、5a06、5a16、5a17)。
ID(5a01、5a04、5a07、5a12、5a13、5a18)是4位ID,所述4位ID是元素的本地标识符。标识符可以用于将音频混合增益映射到叠加或360度音频RTP流。长度L(5a02、5a05、3a08、5a09、5a14、5a15)是头扩展元素的数据字节的4位长度数减1,并且在一字节头之后。在一些示例实施例中,长度L在数字字段中可以具有值零(0),用于指示后面跟有一字节的数据。此外,值15(最大值)指示后面跟有16字节的数据。混合增益(5a03、5a10、5a11、5a06、5a16、5a17)表示用于头扩展的单个字节的混合增益的量值。
如图5B所示,也可以使用具有两字节头格式的RTP扩展。图5B中的头扩展被示出具有三个扩展元素。这些元素可以包含ID(5b01、5b03、5b07)、长度L(5b02、5b04、5b08)和混合增益(5b05、5b09)。在一些示例实施例中,两字节头格式还可以包括值为零(0)的填充(5b06)字节。
ID(5b01、5b03、5b07)是8位ID,所述8位ID是元素的本地标识符。ID(5b01、5b03、5b07)可以用于将音频混合增益映射到叠加或360度音频RTP流。ID(5b01、5b03、5b07)还可以包括overlay_id,来作为元素的叠加标识符。长度L(5b02、5b04、5b08)是8位长度字段,其是以字节为单位的扩展数据的长度,不包括ID和长度字段。值零(0)指示没有后续数据。混合增益(5b05、5b09)表示混合增益的量值。
在一些示例实施例中,对于范围1至14中的ID值,可以使用具有相同含义的一字节头扩展。图5A和图5B示出了三个扩展元素。然而,实施例不限于此。RTP扩展可以具有一个或多个扩展元素。
在一些示例实施例中,在会话描述协议(SDP,Session Description Protocol)extmap属性中执行音频混合增益头扩展的声明和映射。用于在SDP extmap属性中声明音频混合增益头扩展并且将音频混合增益头扩展映射到本地扩展头标识符的统一资源标识符(URI,Uniform Resource Identifier)为:
urn:3gpp:rtp-hdrext:音频混合增益
URI标识并描述头扩展。在一些示例性实施例中,头扩展可以仅呈现在RTP音频流的第一分组中,并且可以在为了最优性而需要更新混合增益时进行重复。此外,为了避免冗余,头扩展可以呈现在RTP音频流的前几个分组中,并且可以仅在为了最优性而需要更新混合增益时进行重复。另外,可以定义在混合增益中的预定变化量以确定何时需要更新。
在一些示例性实施例中,可以在单个RTP会话中发送叠加的音频流和360度音频流。如果覆盖的音频流和360度流不在单个RTP会话中发送,则360度流的RTP头扩展可以将覆盖音频流的增益作为扩展元素携带到对应的RTP头扩展,前提是在ID字段中使用覆盖_id值。
图6是根据实施例的在电话会议中使用RTP头扩展发信号通知的多个音频混合增益的方法600的流程图。
如图6所示,在操作610中,方法600包括接收输入音频流,所述输入音频流包括混合增益。输入音频流可以来自电话会议中的360度视频/音频流。包括在输入音频流中的混合增益可以包括来自输入音频流的音频增益和来自叠加音频流的音频增益。
在操作620中,方法600包括声明用于输入音频流的单个RTP头扩展。单个RTP头扩展包括一个或多个扩展元素。每个扩展元素包括单个RTP头扩展的元素标识符、扩展元素的长度和混合增益的量值。单个RTP头扩展可以是一字节头扩展或两字节头扩展的形式,并且在使用URI的SDP中进行声明以标识单个RTP头扩展。在一些实施例中,单个RTP头扩展仅基于在混合增益中的一个混合增益的变化,来进行重复。
在操作630中,方法600包括使用单个RTP头扩展发信号通知混合增益。当发信号通知混合增益时,单个RTP头扩展仅呈现在输入音频流的第一分组中,或仅呈现在输入音频流的多个连续的第一分组中。可以一个或多个RTP会话中发信号通知输入音频流。如果在多于一个RTP会话中发信号通知输入音频流,则单个RTP头扩展将叠加音频流的增益作为扩展元素携带到单个RTP头扩展,并且将叠加标识符值包括在扩展元素的元素标识符中。
虽然图6示出了方法的示例框,但是在一些实施方式中,该方法可以包括与图6中描绘的那些框相比附加的框、更少的框、不同的框、或不同地布置的框。附加地或可选地,可以并行地执行该方法的两个或更多个框。
以上描述的发信号通知远程会议和远程呈现的多个音频混合增益的技术可以被实现为使用计算机可读指令,并且物理地存储在一个或多个计算机可读介质中的计算机软件。例如,图7示出了适于实现所公开的主题的某些实施例的计算机系统700。
计算机软件可以使用任何合适的机器代码或计算机语言进行编码,机器代码或计算机语言可以通过汇编、编译、链接或类似机制来创建代码,该代码包括可以由计算机中央处理单元(CPU)、图形处理单元(GPU)等直接执行或通过解释、微代码执行等执行的指令。
这些指令可以在各种类型的计算机或其部件上执行,包括(例如)个人计算机、平板计算机、服务器、智能电话、游戏设备、物联网设备等。
图7所示的用于计算机系统700的部件本质上是示例性的,并且不旨在对实现本公开的实施例的计算机软件的使用范围或功能提出任何限制。部件的配置也不应被解释为对计算机系统700的示例性实施例中图示的任何一个部件或其组合具有任何依赖性或要求。
计算机系统700可以包括某些人机接口输入设备。这种人机接口输入设备可以响应于由一个或多个人类用户通过例如触觉输入(诸如击键、滑动、数据手套移动)、音频输入(诸如声音、拍打)、视觉输入(诸如手势)、嗅觉输入的输入。人机接口设备还可以用于捕获不一定与人类的有意识输入直接相关的某些媒体,诸如音频(诸如语音、音乐、环境声音)、图像(诸如扫描图像、从静止图像摄像机获得的摄影图像)、视频(诸如二维视频、包括立体视频的三维视频)。
输入人机接口设备可以包括以下中的一个或多个(每种仅描绘了其中的一个):键盘701、轨迹板702、鼠标703、触摸屏709、数据手套、操纵杆704、麦克风705、摄像机706、扫描仪707。
计算机系统700还可以包括某些人机接口输出设备。这种人机接口输出设备可以通过例如触觉输出、声音、光和嗅觉/味觉来刺激一个或多个人类用户的感官。这种人机接口输出设备可以包括触觉输出设备(例如通过触摸屏709、数据手套或操纵杆704的触觉反馈,但是也可以有不用作输入设备的触觉反馈设备)、音频输出设备(诸如:扬声器708、耳机)、视觉输出设备(诸如屏幕709,包括CRT屏幕、LCD屏幕、等离子屏幕、OLED屏幕,每个具有或不具有触摸屏输入能力,每个具有或不具有触觉反馈能力——其中一些屏幕可以通过诸如立体输出的手段能够输出二维视觉输出或超过三维输出;虚拟现实眼镜、全息显示器和烟雾罐)以及打印机。
计算机系统700还可以包括人类可访问的存储设备及它们相关联的介质,诸如包括具有CD/DVD等介质710的CD/DVD ROM/RW 711的光学介质、拇指驱动器712、可移动硬盘驱动器或固态驱动器713、诸如磁带和软盘的传统磁性介质、诸如安全道尔芯片的基于专用ROM/ASIC/PLD的设备等。
本领域技术人员还应当理解,结合当前公开的主题使用的术语“计算机可读介质”不包含传输介质、载波或其它易失性信号。
计算机系统700还可以包括到一个或多个通信网络714的接口715。网络714例如可以是无线的、有线的、光学的。网络714还可以是本地的、广域的、大城市的、车载的和工业的、实时的、延迟容忍的等等。网络714的示例包括局域网(诸如以太网)、无线LAN、蜂窝网络(包括GSM、3G、4G、5G、LTE等)、电视有线或无线广域数字网络(包括有线电视、卫星电视和地面广播电视)、车辆和工业网络(包括CANBus)等。某些网络714通常需要附接到某些通用数据端口或外围总线716(诸如,例如,计算机系统700的USB端口)的外部网络接口适配器(例如,图形适配器725);其它网络通常通过附接到如下所描述的系统总线而集成到计算机系统700的内核中(例如以太网接口集成到PC计算机系统中或蜂窝网络接口集成到智能电话计算机系统中)。使用这些网络714中的任何一个,计算机系统700可以与其它实体通信。这种通信可以是单向的、仅接收的(例如,广播TV)、仅单向发送的(例如,CANbus到某些CANbus设备)或双向的(例如到使用局域数字网络或广域数字网络的其它计算机系统)。可以在如以上描述的那些网络和网络接口中的每一个上使用某些协议和协议栈。
上述人机接口设备、人类可访问的存储设备和网络接口可以附接到计算机系统700的内核717。
内核717可以包括一个或多个中央处理单元(CPU)718、图形处理单元(GPU)719、现场可编程门区域(FPGA)720形式的专用可编程处理单元、用于某些任务的硬件加速器721等。这些设备连同只读存储器(ROM)723、随机存取存储器(RAM)724、诸如内部非用户可访问硬盘驱动器、SSD等的内部大容量存储装置722可以通过系统总线726连接。在一些计算机系统中,系统总线726可以以一个或多个物理插头的形式来访问,以允许由附加CPU、GPU等进行的扩展。外围设备可以直接附接到内核的系统总线726,或者通过外围总线716。外围总线的架构包括PCI、USB等。
CPU 718、GPU 719、FPGA 720和加速器721可以执行某些指令,这些指令的组合可以构成上述计算机代码。该计算机代码可以存储在ROM 723或RAM724中。过渡数据也可以存储在RAM 724中,而永久数据可以存储在例如内部大容量存储装置722中。可以通过使用高速缓冲存储器来启用对任何存储器设备的快速存储和检索,该高速缓冲存储器可以与一个或多个CPU 718、GPU 719、大容量存储装置722、ROM 723、RAM 724等紧密相关联。
计算机可读介质上可以具有用于执行各种计算机实现的操作的计算机代码。介质和计算机代码可以是为了本公开的目的而专门设计和构建的,或者它们可以是计算机软件领域的技术人员公知和可用的类型。
作为示例而非作为限制,具有架构700并且特别是内核717的计算机系统可以提供作为执行体现在一个或多个有形的计算机可读介质中的软件的一个或多个处理器(包括CPU、GPU、FPGA、加速器等)的结果的功能。这种计算机可读介质可以是与如上所介绍的用户可访问大容量存储装置相关联的介质,以及具有非易失性性质的内核717的某些存储装置(诸如内核内部大容量存储装置722或ROM 723)。实现本公开的各种实施例的软件可以存储在这种设备中并且由内核717执行。根据特定需要,计算机可读介质可以包括一个或多个存储器设备或芯片。软件可以使内核717并且特别是其中的处理器(包括CPU、GPU、FPGA等)执行本文描述的特定过程或特定过程的特定部分,包括定义存储在RAM 724中的数据结构,并且根据软件定义的过程对这种数据结构进行修改。另外或作为替代,该计算机系统可以提供作为逻辑硬连线或以其它方式体现在电路中的结果的功能(例如,加速器721),其可以代替软件或与软件一起操作以执行本文描述的特定过程或特定过程的特定部分。适当时,对软件的引用可以包含逻辑,反之亦然。适当时,对计算机可读介质的引用可以包含存储用于执行的软件的电路(诸如集成电路(IC))、体现用于执行的逻辑的电路,或两者。本公开包含硬件和软件的任何合适的组合。
虽然本公开已经描述了若干示例性实施例,但是存在落入本公开范围内的改变、置换和各种替代等同物。因此,应当理解,本领域技术人员将能够设计出虽然未在本文明确示出或描述但是体现了本公开的原理并且因此在其精神和范围内的许多系统和方法。

Claims (20)

1.一种在电话会议中使用实时传输协议RTP头扩展发信号通知多个音频混合增益的方法,其特征在于,所述方法由至少一个处理器执行并且包括:
从360度流接收输入音频流,所述输入音频流包括混合增益;
声明所述输入音频流的单个实时传输协议RTP头扩展,所述单个实时传输协议RTP头扩展包括元素标识符、扩展元素的长度和所述混合增益的量值中的一个或多个;以及
使用所述单个实时传输协议RTP头扩展,发信号通知所述混合增益。
2.根据权利要求1所述的方法,其特征在于,所述单个实时传输协议RTP头扩展是一字节头扩展。
3.根据权利要求1所述的方法,其特征在于,所述单个RTP头扩展是两字节头扩展。
4.根据权利要求1所述的方法,其特征在于,使用统一资源标识符URI在会话描述协议SDP中声明所述单个实时传输协议RTP头扩展,以标识所述单个实时传输协议RTP头扩展。
5.根据权利要求1所述的方法,其特征在于,所述单个实时传输协议RTP头扩展仅呈现在所述输入音频流的第一分组或多个连续的第一分组中。
6.根据权利要求1所述的方法,其特征在于,所述单个实时传输协议RTP头扩展基于在所述混合增益中的一个混合增益的变化来进行重复。
7.根据权利要求1所述的方法,其特征在于,所述输入音频流包括来自所述输入音频流的第一音频增益和来自叠加音频流的第二音频增益。
8.根据权利要求7所述的方法,其特征在于,在单个实时传输协议RTP会话中发送所述输入音频流。
9.根据权利要求7所述的方法,其特征在于,基于在多于一个RTP会话中发送的所述输入音频流,所述单个实时传输协议RTP头扩展将所述叠加音频流的增益作为扩展元素携带到所述单个实时传输协议RTP头扩展,并且
其中,叠加标识符值包括在所述扩展元素的所述元素标识符中。
10.一种在电话会议中使用实时传输协议RTP头扩展发信号通知多个音频混合增益的设备,其特征在于,所述设备包括:
至少一个存储器,被配置为存储程序代码;以及
至少一个处理器,被配置为读取所述程序代码并且如所述程序代码所指示地操作,所述程序代码包括:
接收代码,被配置为使所述至少一个处理器从360度视频流接收输入音频流,所述输入音频流包括混合增益;
声明代码,被配置为使所述至少一个处理器声明所述输入音频流的单个实时传输协议RTP头扩展,所述单个实时传输协议RTP头扩展包括元素标识符、扩展元素的长度和所述混合增益的量值中的一个或多个;以及
信令代码,被配置为使所述至少一个处理器使用所述单个实时传输协议RTP头扩展,发信号通知所述混合增益。
11.根据权利要求10所述的设备,其特征在于,所述单个实时传输协议RTP头扩展是一字节头扩展或两字节头扩展中的一个。
12.根据权利要求10所述的设备,其特征在于,使用会话描述协议SDP来声明所述单个实时传输协议RTP头扩展,所述SDP使用统一资源标识符URI来标识所述单个实时传输协议RTP头扩展。
13.根据权利要求10所述的设备,其特征在于,所述单个RTP头扩展呈现在所述输入音频流的第一分组或多个连续的第一分组中,并且
所述单个实时传输协议RTP头扩展基于在所述混合增益中的一个混合增益的变化来进行重复。
14.根据权利要求10所述的设备,其特征在于,所述输入音频流包括来自所述输入音频流的第一音频增益和来自叠加音频流的第二音频增益。
15.根据权利要求14所述的设备,其特征在于,在一个或多个RTP会话中发送所述输入音频流,以及
基于在多于一个RTP会话中发送的所述输入音频流,所述单个实时传输协议RTP头扩展将所述叠加音频流的增益作为扩展元素携带到所述单个实时传输协议RTP头扩展,其中,叠加标识符值包括在所述扩展元素的所述元素标识符中。
16.一种存储指令的非易失性计算机可读介质,其特征在于,所述指令包括:一个或多个指令,当由在电话会议中使用实时传输协议RTP头扩展发信号通知多个音频混合增益的设备的至少一个处理器执行时,所述一个或多个指令使所述至少一个处理器:
从360度视频流接收输入音频流,所述输入音频流包括混合增益;
声明所述输入音频流的单个实时传输协议RTP头扩展,所述单个实时传输协议RTP头扩展包括元素标识符、扩展元素的长度和所述混合增益的量值中的一个或多个;以及
使用所述单个实时传输协议RTP头扩展,发信号通知所述混合增益。
17.根据权利要求16所述的非易失性计算机可读介质,其特征在于,所述单个实时传输协议RTP头扩展是一字节头扩展或两字节头扩展中的一个。
18.根据权利要求16所述的非易失性计算机可读介质,其特征在于,使用会话描述协议SDP来声明所述单个实时传输协议RTP头扩展,所述SDP使用统一资源标识符URI来标识所述单个实时传输协议RTP头扩展。
19.根据权利要求16所述的非易失性计算机可读介质,其特征在于,所述单个RTP头扩展呈现在所述输入音频流的第一分组或多个连续的第一分组中,并且
所述单个实时传输协议RTP头扩展基于在所述混合增益中的一个混合增益的变化来进行重复。
20.根据权利要求16所述的非易失性计算机可读介质,其特征在于,所述输入音频流包括来自所述输入音频流的第一音频增益和来自叠加音频流的第二音频增益,并且在一个或多个RTP会话中发送所述输入音频流,以及
基于在多于一个RTP会话中发送的所述输入音频流,所述单个实时传输协议RTP头扩展将所述覆叠加音频流的增益作为扩展元素携带到所述单个实时传输协议RTP头扩展,其中,叠加标识符值包括在所述扩展元素的所述元素标识符中。
CN202280003744.1A 2021-03-29 2022-03-24 发信号通知用于远程终端的电话会议和远程呈现的多个音频混合增益的技术 Pending CN115486058A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202163167236P 2021-03-29 2021-03-29
US63/167,236 2021-03-29
US17/698,064 2022-03-18
US17/698,064 US20220311814A1 (en) 2021-03-29 2022-03-18 Techniques for signaling multiple audio mixing gains for teleconferencing and telepresence for remote terminals
PCT/US2022/021681 WO2022212159A1 (en) 2021-03-29 2022-03-24 Techniques for signaling multiple audio mixing gains for teleconferencing and telepresence for remote terminals

Publications (1)

Publication Number Publication Date
CN115486058A true CN115486058A (zh) 2022-12-16

Family

ID=83363827

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280003744.1A Pending CN115486058A (zh) 2021-03-29 2022-03-24 发信号通知用于远程终端的电话会议和远程呈现的多个音频混合增益的技术

Country Status (6)

Country Link
US (1) US20220311814A1 (zh)
EP (1) EP4094431A4 (zh)
JP (1) JP2023525481A (zh)
KR (1) KR20220137938A (zh)
CN (1) CN115486058A (zh)
WO (1) WO2022212159A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11979244B2 (en) * 2021-09-30 2024-05-07 Snap Inc. Configuring 360-degree video within a virtual conferencing system

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6934756B2 (en) * 2000-11-01 2005-08-23 International Business Machines Corporation Conversational networking via transport, coding and control conversational protocols
US8477661B2 (en) * 2009-08-14 2013-07-02 Radisys Canada Ulc Distributed media mixing and conferencing in IP networks
US9148306B2 (en) * 2012-09-28 2015-09-29 Avaya Inc. System and method for classification of media in VoIP sessions with RTP source profiling/tagging
WO2016093586A1 (ko) * 2014-12-10 2016-06-16 엘지전자 주식회사 방송 신호 송신 장치, 방송 신호 수신 장치, 방송 신호 송신 방법, 및 방송 신호 수신 방법
AU2019380367A1 (en) * 2018-11-13 2021-05-20 Dolby International Ab Audio processing in immersive audio services
US20200329088A1 (en) * 2019-07-26 2020-10-15 Intel Corporation Viewport indication during streaming of volumetric point cloud content

Also Published As

Publication number Publication date
KR20220137938A (ko) 2022-10-12
US20220311814A1 (en) 2022-09-29
EP4094431A1 (en) 2022-11-30
EP4094431A4 (en) 2023-07-19
JP2023525481A (ja) 2023-06-16
WO2022212159A1 (en) 2022-10-06

Similar Documents

Publication Publication Date Title
US11914922B2 (en) Audio mixing for teleconferencing
CN114830636A (zh) 用于叠加处理远程终端的沉浸式远程会议及远程呈现的参数
US20220311814A1 (en) Techniques for signaling multiple audio mixing gains for teleconferencing and telepresence for remote terminals
US11943073B2 (en) Multiple grouping for immersive teleconferencing and telepresence
US20220294839A1 (en) Techniques for signaling audio mixing gain in teleconferencing and telepresence for remote terminals
JP7508586B2 (ja) 没入型テレカンファレンスおよびテレプレゼンスのためのマルチグルーピングの方法、装置、およびコンピュータプログラム
US11916982B2 (en) Techniques for signaling multiple audio mixing gains for teleconferencing and telepresence for remote terminals using RTCP feedback
US20220308341A1 (en) Towards subsiding motion sickness for viewport sharing for teleconferencing and telepresence for remote terminals
JP7419529B2 (ja) 遠隔端末のための没入型テレカンファレンス及びテレプレゼンスのインタラクティブオーバーレイ処理

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination