CN115516836A - 在用于远程终端的远程会议及远程呈现中用信号通知音频混合增益的技术 - Google Patents
在用于远程终端的远程会议及远程呈现中用信号通知音频混合增益的技术 Download PDFInfo
- Publication number
- CN115516836A CN115516836A CN202280004013.9A CN202280004013A CN115516836A CN 115516836 A CN115516836 A CN 115516836A CN 202280004013 A CN202280004013 A CN 202280004013A CN 115516836 A CN115516836 A CN 115516836A
- Authority
- CN
- China
- Prior art keywords
- audio
- gain
- audio mixing
- header extension
- mixing gain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000011664 signaling Effects 0.000 claims abstract description 23
- 238000010586 diagram Methods 0.000 description 9
- 239000000203 mixture Substances 0.000 description 9
- 230000005540 biological transmission Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 7
- 230000002093 peripheral effect Effects 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 230000001413 cellular effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- -1 holographic displays Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 239000000779 smoke Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000013403 standard screening design Methods 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/40—Support for services or applications
- H04L65/403—Arrangements for multi-party communication, e.g. for conferences
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/1066—Session management
- H04L65/1069—Session establishment or de-establishment
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/1066—Session management
- H04L65/1101—Session protocols
- H04L65/1104—Session initiation protocol [SIP]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/40—Support for services or applications
- H04L65/403—Arrangements for multi-party communication, e.g. for conferences
- H04L65/4038—Arrangements for multi-party communication, e.g. for conferences with floor control
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/65—Network streaming protocols, e.g. real-time transport protocol [RTP] or real-time control protocol [RTCP]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/70—Media network packetisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/75—Media network packet handling
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/75—Media network packet handling
- H04L65/762—Media network packet handling at the source
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/75—Media network packet handling
- H04L65/765—Media network packet handling intermediate
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/56—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
- H04M3/568—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- General Business, Economics & Management (AREA)
- Business, Economics & Management (AREA)
- Mathematical Physics (AREA)
- Telephonic Communication Services (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
提供了一种用于使用会话描述协议(SDP)和音频混合增益的实时传输协议(RTP)信令在远程会议中进行音频混合的方法和系统。该方法包括:从360度视频/音频流接收包括音频混合增益的输入音频流,该音频混合增益包括来自输入音频流的音频增益和来自叠加音频流的音频增益;使用SDP、RTP头扩展来声明输入音频流的RTP头扩展;以及使用RTP头扩展基于SDP的单个属性来用信号通知音频混合增益。RTP头扩展的元素可以包括元素标识符、扩展元素的长度和RTP头扩展的音频混合增益的幅度。RTP头扩展可以利用使用SDP声明的一字节头扩展格式或两字节头扩展格式。
Description
相关申请的交叉引用
本申请基于2021年3月12日提交的美国临时专利申请第63/160,630号并要求其优先权,该申请的公开内容通过引用整体并入本文。
技术领域
本公开的实施例涉及用信号通知的音频混合增益,其用于远程终端的沉浸式远程会议及远程呈现(ITT4RT),并且更具体地涉及用于用信号通知音频混合增益的定义会话描述协议(SDP)属性和实时传输协议(RTP)头扩展,该音频混合增益用于基于不同使用情况将360度背景和360度叠加的音频流混合在一起。
背景技术
当使用全向媒体流时,在使用头戴式显示器(HMD)的同时,仅呈现与用户的视口相对应的一部分内容,从而向用户提供媒体流的逼真视图。
图1图示了用于沉浸式远程会议呼叫的相关技术场景(场景1),其中呼叫被组织在室A(101)、用户B(102)和用户C(103)之间。如图1中所示,室A(101)表示具有全向/360度相机(104)的会议室,并且用户B(102)和用户C(103)分别是使用HMD的远程参与者和移动设备的远程参与者。在这种情况下,参与者用户B(102)和用户C(103)将他们的视口取向发送到室A(101),室A(101)进而将视口相关流发送到用户B(102)和用户C(103)。
图2A中示出了扩展场景(场景2),其包括多个会议室(2a01,2a02,2a03,2a04)。用户B(2a06)使用HMD观看来自360度相机(104)的视频流,并且用户C(2a07)使用移动设备观看视频流。用户B(2a06)和用户C(2a07)将他们的视口取向发送到会议室(2a01,2a02,2a03,2a04)中的至少一个,会议室(2a01,2a02,2a03,2a04)中的至少一个进而将视口相关流发送到用户B(2a06)和用户C(2a07)。
如图2B中所示,在另一示例场景(场景3)中,当使用MRF/MCU(2b05)建立呼叫时,媒体资源功能(Media Resource Function,MRF)和媒体控制单元(Media Control Unit,MCU)是为多方会议呼叫中的桥接终端提供媒体相关功能的多媒体服务器。会议室可以将它们各自的视频发送到MRF/MCU(2b05)。这些视频是与视口无关的视频,即,整个360度视频被发送到媒体服务器(即,MRF/MCU),而与流式传输特定视频的用户视口无关。媒体服务器接收用户(用户B(2b06)和用户C(2b07))的视口取向,并且相应地将视口相关的流发送到用户。
进一步对于场景3,远程用户可以选择观看来自会议室(2a01-2a04,2b01-2b04)的可用360度视频之一。在这种情况下,用户将关于其想要流传输的视频及其视口取向的信息发送到会议室或MRF/MCU(2b05)。用户还可以基于活动的扬声器触发从一个室到另一个室的切换。媒体服务器可以暂停从没有活动用户的任何会议室接收视频流。
ISO 23090-2将叠加定义为“在全向视频或图像项目上或在视口上呈现的视觉媒体的块”。当会议室A中的任何参与者正在共享任何演示时,除了在会议室A中显示之外,该演示还作为流广播到其它用户(会议室2a02-2a04、2b02-2b04、用户B(2b06)和/或用户C(2b07))。这个流可以叠加在360度视频的顶部上。附加地,叠加也可以用于2D流。不同音频流的默认音频混合增益分别是360视频(a0)和叠加视频(a1,a2,...,aN)的音频增益(r0,r1,...,rN),并且音频输出等于r0*a0+r1*a1+......+rn*an,其中r0+r1+...+rN=1。接收方或MRF/MCU将音频源与其混合增益成比例地混合。
发明内容
本公开的一个或多个示例实施例提供了一种用于使用实时传输协议(RTP)头扩展来用信号通知用于混合来自叠加的音频流和360度流的音频混合增益的系统和方法。
根据实施例,这里提供了一种使用SDP在远程会议中用信号通知音频混合增益的方法。该方法可以包括:从360度流接收输入音频流,所述输入音频流包括音频混合增益;使用所述SDP来声明所述输入音频流的实时传输协议(RTP)头扩展,所述RTP头扩展包括元素标识符、所述元素的长度和所述音频混合增益的幅度;以及基于所述SDP的单个属性,使用所述RTP头扩展用信号通知所述音频混合增益,其中,所述音频混合增益包括来自所述输入音频流的第一音频增益和来自叠加音频流的第二音频增益。
根据实施例,这里提供了一种使用SDP在远程会议中用信号通知音频混合增益的系统。该系统可以包括存储指令的至少一个存储器以及至少一个处理器,至少一个处理器被配置为执行指令以:从360度流接收输入音频流,所述输入音频流包括音频混合增益;使用所述SDP来声明所述输入音频流的实时传输协议(RTP)头扩展,所述RTP头扩展包括元素标识符、所述元素的长度和所述音频混合增益的幅度;以及基于所述SDP的单个属性,使用所述RTP头扩展用信号通知所述音频混合增益,其中,所述音频混合增益包括来自所述输入音频流的第一音频增益和来自叠加音频流的第二音频增益。
根据实施例,这里提供了一种使用SDP在远程会议中用信号通知音频混合增益的非易失性计算机可读介质。非易失性计算机可读介质可以连接到至少一个处理器,并且可以被配置为存储指令,这些指令在被执行时使:至少一个处理器从360度流接收输入音频流,所述输入音频流包括音频混合增益;使用所述SDP来声明所述输入音频流的实时传输协议(RTP)头扩展,所述RTP头扩展包括元素标识符、所述元素的长度和所述音频混合增益的幅度;以及基于所述SDP的单个属性,使用所述RTP头扩展用信号通知所述音频混合增益,其中,所述音频混合增益包括来自所述输入音频流的第一音频增益和来自叠加音频流的第二音频增益。
附加的方面将部分地在以下描述中阐述,并且部分地将从描述中显而易见,或可以通过实践所呈现的本公开的实施例来实现。
附图说明
从结合以下附图的以下描述中,本公开的实施例的以上和其它方面、特征和方面将变得更加明显。
图1是用于沉浸式远程会议的生态系统的示意图。
图2A是多方多会议室远程会议的示意图。
图2B是使用MRF/MCU的多方多会议室远程会议的示意图。
图3是根据一个或多个实施例的通信系统的简化框图。
图4是根据一个或多个实施例的流式传输环境的简化示例图示。
图5A是根据一个或多个实施例的使用一字节RTP头扩展的音频混合增益的示意图。
图5B是根据一个或多个实施例的使用两字节RTP头扩展的音频混合增益的示意图。
图6是根据一个或多个实施例的用于使用RTP头扩展在远程会议中用SDP信号通知音频混合增益的方法的流程图。
图7是根据一个或多个实施例的计算机系统的示意图。
具体实施方式
本公开涉及用于在远程会议中用SDP信号通知来自叠加和360度流的音频增益的方法和装置。本公开进一步涉及在远程会议中用信号通知叠加和360度流的音频混合增益,以经由RTP头扩展进行音频混合。
如图2A和图2B中所示,具有全向相机的多个会议室处于远程会议中,并且用户从会议室(2a01,2a02,2a03,2a04)之一中选择视频/音频流以作为沉浸式流进行显示。与360度沉浸式流一起使用的任何附加音频或视频流作为叠加(即,作为单独的流)被发送。终端设备一接收到多个音频流,就对它们进行解码并且将它们混合以呈现给用户。发送方会议室提供所有不同音频流的混合增益级别。发送方会议室还可以在远程会议会话期间更新不同音频流的混合增益级别。可以为每个音频流定义音频混合增益。因此,将需要应用如本公开的实施例中所详述的方法,所述方法使用单个头扩展来发送/接收所有音频增益(r0,r1,...,rN)和叠加视频(a1,a2,...,aN)。
下面参考附图全面描述本公开的实施例。然而,实现的示例可以以各种多种形式来实现,并且本公开不应被解释为限于本文中描述的示例。相反,提供实现的示例是为了使本公开的技术方案更加全面和完整,并且将实现的示例的思想全面地传达给本领域技术人员。附图仅仅是本公开的示例说明,并且不一定按比例绘制。附图中相同的附图标记表示相同或相似的部件,并且因此省略对这些部件的重复描述。
以下讨论的所提出的特征可以单独使用或以任何顺序组合使用。附图中示出的一些框图是功能实体,并且不一定与物理上或逻辑上独立的实体相对应。进一步地,实施例可以通过处理电路(例如,一个或多个处理器或一个或多个集成电路)来实现,或者以软件的形式来实现,或者在不同的网络和/或处理器装置和/或微控制器装置中实现。在一个示例中,一个或多个处理器执行存储在非易失性计算机可读介质中的程序。
图3是根据本公开的实施例的通信系统(300)的简化框图。通信系统(300)可以包括经由网络(305)互连的至少两个终端(302,303)。对于数据的单向传输,第一终端(303)可以在本地位置对视频数据进行编码,以便经由网络(305)传输到另一终端(302)。第二终端(302)可以从网络(305)接收另一终端的已编码视频数据,对已编码数据进行解码并且显示恢复的视频数据。在诸如远程会议等的媒体服务应用中单向数据传输是常见的。
图3图示了第二对终端(301,304),其被提供来支持例如在视频会议期间可能发生的已编码视频的双向传输。对于数据的双向传输,每个终端(301,304)可以对在本地位置捕获的视频数据进行编码,以便经由网络(305)传输到另一终端。每个终端(301,304)还可以接收由另一终端传输的已编码视频数据,可以对已编码数据进行解码和混合,并且可以在本地显示设备上显示恢复的视频数据。
在图3中,终端(301,302,303,304)可以被示例为服务器、个人计算机和智能电话,但本申请公开的原理可不限于此。本申请公开的实施例适用于膝上型计算机、平板电脑、媒体播放器和/或专用视频会议设备。网络(250)表示在网络(305)表示在终端(301、302、303、304)之间传送编码视频数据的任何数量的网络,包括例如有线(连线的)和/或无线通信网络。通信网络(250)可在电路交换和/或分组交换信道中交换数据。该网络可包括电信网络、局域网、广域网和/或互联网。在本公开的实施例中讨论的混合增益可以经由网络(305)等,使用下文中解释的网络协议来发送和接收。
图4图示了用于所公开的主题的应用的示例流式传输环境。所公开的主题可以等同地应用于其它支持视频的应用,包括例如沉浸式远程会议呼叫、视频远程会议和远程呈现等。
流式传输环境可以包括一个或多个会议室(403),一个或多个会议室(403)可以包括视频源(401),例如摄像机和会议(402)的一个或多个参与者。图4中图示的视频源(401)是例如可以创建视频样本流的360度摄像机。视频样本流可以被发送到流式传输服务器(404)和/或存储在流式传输服务器(404)上,以供将来使用。一个或多个流式传输客户端(405,406)还可以将它们各自的视口信息发送到流式传输服务器(404)。基于视口信息,流式传输服务器(404)可以将视口相关流发送到对应的流式传输客户端(405,406)。在另一示例实施例中,流式传输客户端(405,406)可以访问流式传输服务器(404)以检索视口相关流。流式传输服务器(404)和/或流式传输客户端(405,406)可以包括硬件、软件或其组合,以支持或实现如下文更详细描述的所公开主题的各方面。
在沉浸式远程会议呼叫中,可以将多个音频流从发送方(例如,403)发送到流式传输客户端(例如,405和/或406)。这些流可以包括用于360度视频的音频流以及用于叠加的一个或多个音频流。流式传输客户端(405,406)可以包括混合部件(407a,407b)。混合部件可以对360度视频和叠加的视口相关流进行解码和混合,并且创建可以在显示器408或诸如HDM、扬声器、移动设备等其它呈现设备上呈现的输出视频样本流。实施例不限于该配置,一个或多个会议室(403)可以经由网络(例如,网络305)与流式传输客户端(405,406)通信。
发送方可以在SDP提议中通过包括以下媒体级别属性来指示360度音频和叠加音频的混合增益:
3gpp_audio_mix_gain
可以使用以下扩展巴科斯-瑙尔范式(Augmented Backus-Naur Form,ABNF)来描述音频混合增益:
a=3gpp_audio_mix_gain:<audio-mixing-gain>
当使用基于SDP的解决方案时,音频混合增益更新可能不频繁以避免网络阻塞。另外,在SDP提议中,发送方可以通过使用以下ABNF,以在SDP提议的媒体属性中用信号通知360度视频流和所有叠加的混合增益的阵列:
a=3gpp_audio_mix_gain:3gpp_360audio:<360_mixing_gain>
<overlay_id>:<overlay_mixing_gain>
在前面的ABNF中,3gpp_360audio是360度音频流的标识符,<360_mixing_gain>表示360audio的混合增益值,<overlay_id>表示用作叠加的标识符的唯一叠加ID,并且<overlay_mixing_gain>表示叠加的音频混合增益。标识符用于将音频混合值映射到媒体行中的音频流。根据一个或多个实施例,具有唯一叠加ID的多个叠加可以存在于相同的SDP属性中。
如果发送方发送具有属性“3gpp_audio_mix_gain”的SDP提议,则接收方可以接受或不接受该提议。如果接收方接受该提议,则接收方必须使用由发送方推荐的混合增益来混合360度音频流和叠加的音频。接收方可以在会话期间改变混合增益的值。
如果接收方选择使用推荐的混合增益,则当混合增益值改变时,发送方可以在会话期间发送音频混合增益的更新。当这种情况发生时,发送方可以仅发送媒体属性“a=3gpp_audio_mix_gain:”,其中将混合增益的更新值映射到360audio和叠加ID标识符,而无需发送整个媒体行。这些标识符可以用于将更新的音频混合值映射到各个音频流。
表1是从发送方发送到接收方(例如,流式传输客户端(412,407))的SDP提议的示例。在以下示例中,3gpp音频和两个叠加音频被混合在一起。
表1
行“a=3gpp_audio_mix_gain:3gpp_360audio:712:5 13:4”表示360音频和叠加的混合增益。“3gpp_360audio”是具有混合增益值为7的360度音频流的音频的标识符,“12”是叠加ID并且充当具有混合增益值为“5”的叠加的标识符,并且“13”是具有混合增益值为“4”的第二叠加的标识符。
当发送方需要更新360度音频或叠加的混合增益时,发送方可以发送定义“3gpp_audio_mix_gain”的媒体属性。下面是用于更新音频混合增益的SDP更新的示例,其中具有混合增益值为4的360度音频流被更新。
a=3gpp_audio_mix_gain:3gpp_360audio:4 12:9 13:4
根据以上SDP,将具有标识符“12”的叠加的混合增益值从值“5”更新为值“9”。不更新具有标识符“13”的第二叠加的混合增益值。
参考图5A和图5B,现在将根据实施例描述将音频混合增益从服务器用信号通知到客户端。
基于RTP的解决方案可以用于将音频混合增益从服务器用信号通知到客户端。,RTP音频流的包可以在RTP头扩展中指示将在具有RTP扩展的RTP包中携带的音频样本的混合增益。如图5A中所示,一字节头格式可以用于RTP扩展。具有一字节头格式的RTP扩展的头扩展的元素可以包含ID(5a01)、长度L(5a02)和混合增益(5a03)。
ID(5a01)是4比特ID,它是元素的本地标识符。长度L(5a02)是头扩展元素的数据字节的4比特长度的数字减一,并且跟随在一字节头之后。混合增益(5a03)表示用于头扩展的单个字节的混合增益的幅度。
如图5B中所示,两字节头格式也可以用于RTP扩展。具有两字节头格式的RTP扩展的头扩展的元素可以包含ID(5b01)、长度L(5b02)和混合增益(5b03)。两字节头格式还可以包括例如值为0的填充(5b04)字节。
ID(5b01)是8比特ID,它是元素的本地标识符。长度L(5b02)是8比特长度字段,它是以字节为单位的扩展数据的长度,不包括ID和长度字段。混合增益(5b03)表示混合增益的幅度。
在会话描述协议(SDP)extmap属性中,声明和映射音频混合增益头扩展。SDPextmap属性中声明音频混合增益头扩展,并且将音频混合增益头扩展映射到本地扩展头标识符的统一资源标识符(URI)为:
um:3gpp:rtp-hdrext:audio-mixing-gai
URI识别并且描述头扩展。在一些示例实施例中,头扩展可以仅存在于RTP音频流的第一包中,并且可以在为了优化而需要更新混合增益时重复出现。
图6是根据实施例的用于使用RTP头扩展在远程会议中用信号通知音频混合增益的方法600的流程图。
如图6中所示,在操作610中,方法600包括接收输入音频流。输入音频流包括音频混合增益。输入音频流可以来自远程会议中的360度视频/音频流。
在操作620中,方法600包括使用SDP来声明输入音频流的RTP头扩展。RTP头扩展包括元素,其中每个元素包括元素标识符、元素的长度和音频混合增益的幅度。RTP头扩展可以仅存在于输入音频流的第一包或输入音频流的每个包中。
在操作630中,方法600包括基于SDP的单个属性,使用RTP头扩展用信号通知音频混合增益。音频混合增益可以包括来自输入音频流的音频增益和来自叠加音频流的音频增益。SDP的扩展巴科斯-瑙尔范式(ABNF)可以用于描述音频混合增益和单个属性。RTP头扩展可以使用一字节RTP头扩展格式或两字节RTP头扩展格式来用信号通知音频混合增益。另外,音频混合增益可以被更新。当音频信号被更新时,仅用信号通知指定音频混合增益的单个属性的媒体级别部分,并且RTP头扩展被重复。方法600可以进一步包括用信号通知来自输入音频流和来自叠加音频流的音频混合增益的阵列。
虽然图6示出了该方法的示例框,但是在一些实现中,该方法可以包括与图6中描绘的那些框相比附加的框、更少的框、不同的框或以不同方式布置的框。附加地或可替代地,可以并行地执行该方法的框中的两个或更多个。
以上描述的用于为远程会议和远程呈现用信号通知音频混合增益的技术可以被实现为使用计算机可读指令并且物理地存储在一个或多个计算机可读介质中的计算机软件。例如,图7示出了适于实现所公开的主题的某些实施例的计算机系统700。
计算机软件可以使用任何合适的机器代码或计算机语言来编码,该机器代码或计算机语言可以经过汇编、编译、链接或类似机制以创建包括可以由计算机中央处理单元(CPU)、图形处理单元(GPU)等直接或通过解释、微代码执行等执行的指令的代码。
这些指令可以在各种类型的计算机或其部件上执行,包括(例如)个人计算机、平板计算机、服务器、智能电话、游戏设备、物联网设备等。
图7中所示的用于计算机系统700的部件本质上是示例性的,并且不旨在对实现本公开的实施例的计算机软件的使用范围或功能提出任何限制。部件的配置也不应被解释为对计算机系统700的示例性实施例中图示的任何一个部件或其组合具有任何依赖性或要求。
计算机系统700可以包括某些人机接口输入设备。这样的人机接口输入设备可以响应于一个或多个人类用户通过例如触觉输入(诸如击键、滑动、数据手套运动)、音频输入(诸如语音、拍打)、可视输入(诸如:手势)、嗅觉输入的输入。人机接口设备还可以被用于捕获不一定与人的有意识输入直接相关的某些媒体,诸如音频(诸如语音、音乐、环境声音)、图片(诸如扫描图像、从静止图像相机获得的摄影图像)、视频(诸如二维视频、包括立体视频的三维视频)。
输入人机接口设备可以包括以下中的一个或多个(每种仅描绘了其中的一个):键盘701、触控板702、鼠标703、触摸屏709、数据手套、操纵杆704、麦克风705、相机706、扫描仪707。
计算机系统700还可以包括某些人机接口输出设备。这样的人机接口输出设备可以通过例如触觉输出、声音、光和嗅觉/味觉来刺激一个或多个人类用户的感觉。这样的人机接口输出设备可以包括触觉输出设备(例如通过触摸屏709、数据手套或操纵杆704的触觉反馈,但是也可以存在不用作输入设备的触觉反馈设备)、音频输出设备(诸如扬声器708、耳机)、视觉输出设备(诸如屏幕709,包括CRT屏幕、LCD屏幕、等离子屏幕、OLED屏幕,每个屏幕具有或不具有触摸屏输入能力,每个屏幕具有或不具有触觉反馈能力,其中一些屏幕能够通过例如立体输出的方式输出二维视觉输出或多于三维输出;虚拟现实眼镜、全息显示器和烟雾罐)以及打印机。
计算机系统700还可以包括人类可访问的存储设备及其相关联的介质,诸如包括具有CD/DVD等介质710的CD/DVD ROM/RW 711的光学介质、拇指驱动器712、可移动硬盘驱动器或固态驱动器713、诸如磁带和软盘的传统磁介质、诸如安全软件狗的基于专用ROM/ASIC/PLD的设备等。
本领域技术人员还应该理解,结合当前公开的主题使用的术语“计算机可读介质”不包含传输介质、载波或其它易失性信号。
计算机系统700还可以包括到一个或多个通信网络714的接口715。网络714例如可以是无线的、有线的、光学的。网络714可以进一步是本地的、广域的、大城市的、车载的以及工业的、实时的、延迟容忍的等等。网络的示例714包括局域网(诸如以太网)、无线LAN、蜂窝网络(包括GSM、3G、4G、5G、LTE等)、电视有线或无线广域数字网络(包括有线电视、卫星电视和地面广播电视)、车辆和工业网络(包括CANBus)等。某些网络714通常需要外部网络接口适配器(例如,图形适配器725),其附接到某些通用数据端口或外围总线716(例如,计算机系统700的USB端口);其它系统通常通过附接到如以下所描述的系统总线而集成到计算机系统700的核心中(例如以太网接口集成到PC计算机系统中或蜂窝网络接口集成到智能电话计算机系统中)。使用这些网络714中的任何一个,计算机系统700可以与其它实体通信。这种通信可以是单向的、仅接收的(例如,广播TV)、仅单向发送的(例如,CANbus到某些CANbus设备)或双向的(例如到使用局域数字网络或广域数字网络的其它计算机系统)。可以在如以上描述的那些网络和网络接口中的每一个上使用某些协议和协议栈。
上述人机接口设备、人类可访问的存储设备和网络接口可以附接到计算机系统700的核心717。
核心717可以包括一个或多个中央处理单元(CPU)718、图形处理单元(GPU)719、现场可编程门区域(FPGA)720形式的专用可编程处理单元、用于某些任务的硬件加速器721等等。这些设备连同只读存储器(ROM)723、随机存取存储器(RAM)724、诸如内部非用户可访问硬盘驱动器、SSD等的内部大容量存储装置722可以通过系统总线726连接。在一些计算机系统中,系统总线726可以以一个或多个物理插头的形式来访问,以启用由附加CPU、GPU等进行的扩展。外围设备可以直接附接到或者通过外围总线716附接到核心的系统总线726。外围总线的架构包括PCI、USB等。
CPU 718、GPU 719、FPGA 720和加速器721可以执行某些指令,这些指令的组合可以构成前述计算机代码。计算机代码可以存储在ROM 723或RAM 724中。过渡数据可以存储在RAM 724中,而永久数据可以存储在例如内部大容量存储装置722中。可以通过使用高速缓冲存储器来启用对任何存储器设备的快速存储和检索,该高速缓冲存储器可以与一个或多个CPU 718、GPU 719、大容量存储装置722、ROM 723、RAM 724等紧密相关联。
计算机可读介质上可以具有用于执行各种计算机实现的操作的计算机代码。为了本公开的目的,可以专门设计和构造介质和计算机代码,或者它们可以是计算机软件领域的技术人员公知和可用的类型。
作为示例而非作为限制,具有架构700并且特别是核心717的计算机系统可以提供作为执行包含在一个或多个有形计算机可读介质中的软件的一个或多个处理器(包括CPU、GPU、FPGA、加速器等)的结果的功能。这样的计算机可读介质可以是与如上所介绍的用户可访问大容量存储装置相关联的介质,以及具有非易失性性质的核心717的某些存储装置(诸如核心内部大容量存储装置722或ROM 723)。实现本公开的各种实施例的软件可以存储在这样的设备中并由核心717执行。根据特定需要,计算机可读介质可以包括一个或多个存储器设备或芯片。软件可以使核心717并且特别是其中的处理器(包括CPU、GPU、FPGA等)执行本文中描述的特定过程或特定过程的特定部分,包括定义存储在RAM 724中的数据结构,并且根据软件定义的过程修改这样的数据结构。另外或作为替代方案,计算机系统可以提供作为硬连线或以其他方式包含在电路(例如,加速器721)中的逻辑的结果的功能,其可以代替软件或与软件一起操作以执行本文中描述的特定过程或特定过程的特定部分。适当时,对软件的引用可以包含逻辑,反之亦然。适当时,对计算机可读介质的引用可以包含存储用于执行的软件的电路(诸如集成电路(IC))、含有用于执行的逻辑的电路,或两者。本公开包含硬件和软件的任何合适的组合。
虽然本公开已经描述了若干示例性实施例,但是存在落入本公开的范围内的变更、置换和各种替代等同物。因此,应当理解,本领域技术人员将能够设计出许多系统和方法,这些系统和方法虽然未在本文中明确示出或描述,但是体现了本公开的原理,并且因此在其精神和范围内。
Claims (20)
1.一种使用会话描述协议(SDP)在远程会议中用信号通知音频混合增益的方法,其特征在于,所述方法包括:
从360度流接收输入音频流,所述输入音频流包括音频混合增益;
使用所述SDP来声明所述输入音频流的实时传输协议(RTP)头扩展,所述RTP头扩展包括元素标识符、所述元素的长度和所述音频混合增益的幅度;以及
基于所述SDP的单个属性,使用所述RTP头扩展用信号通知所述音频混合增益,
其中,所述音频混合增益包括来自所述输入音频流的第一音频增益和来自叠加音频流的第二音频增益。
2.根据权利要求1所述的方法,其中,所述SDP的扩展巴科斯-瑙尔范式(ABNF)被用于描述所述音频混合增益和所述单个属性。
3.根据权利要求1所述的方法,其中,一字节RTP头扩展格式被用于用信号通知所述音频混合增益。
4.根据权利要求1所述的方法,其中,两字节RTP头扩展格式被用于用信号通知所述音频混合增益。
5.根据权利要求1所述的方法,其中,所述SDP中的统一资源标识符(URI)被用于声明所述RTP头扩展,并且
其中,所述RTP头扩展仅存在于所述输入音频流的第一包中。
6.根据权利要求1所述的方法,其中,进一步包括更新所述音频混合增益,
其中,当发送方更新所述音频混合增益时,仅指定所述音频混合增益的所述单个属性的媒体级别部分被发送,并且
其中,所述更新具有小于预定量的频率。
7.根据权利要求6所述的方法,其中,当所述音频混合增益被更新时,所述RTP头扩展被重复。
8.根据权利要求1所述的方法,其中,进一步包括用信号通知来自所述输入音频流和所述叠加音频流的音频混合增益的阵列。
9.一种使用会话描述协议(SDP)在远程会议中用信号通知音频混合增益的系统,其特征在于,所述系统包括:
至少一个存储指令的存储器;以及
至少一个处理器,所述至少一个处理器被配置为执行所述指令以:
从360度流接收输入音频流,所述输入音频流包括音频混合增益;
使用所述SDP来声明所述输入音频流的实时传输协议(RTP)头扩展,所述RTP头扩展包括元素标识符、所述元素的长度和所述音频混合增益的幅度;以及
基于所述SDP的单个属性,使用所述RTP头扩展用信号通知所述音频混合增益,
其中,所述音频混合增益包括来自所述输入音频流的第一音频增益和来自叠加音频流的第二音频增益。
10.根据权利要求9所述的系统,其中,所述SDP的扩展巴科斯-瑙尔范式(ABNF)被用于描述所述音频混合增益和所述单个属性。
11.根据权利要求9所述的系统,其中,一字节RTP头扩展格式被用于用信号通知所述音频混合增益,或两字节RTP头扩展格式被用于用信号通知所述音频混合增益。
12.根据权利要求9所述的系统,其中,所述SDP中的统一资源标识符(URI)被用于声明所述RTP头扩展,并且
其中,所述RTP头扩展仅存在于所述输入音频流的第一包中。
13.根据权利要求9所述的系统,其中,所述处理器进一步被配置为执行所述指令以更新所述音频混合增益,
其中,当发送方更新所述音频混合增益时,仅指定所述音频混合增益的所述单个属性的媒体级别部分被发送,并且所述RTP头扩展被重复,并且
其中,所述更新具有小于预定量的频率。
14.根据权利要求9所述的系统,其中,所述处理器进一步被配置为执行所述指令以用信号通知来自所述输入音频流和所述叠加音频流的音频混合增益的阵列。
15.一种使用的会话描述协议(SDP)在远程会议中用信号通知音频混合增益的非易失性计算机可读介质,存储有指令,其特征在于,所述指令在由至少一个处理器执行时使所述至少一个处理器:
从360度流接收输入音频流,所述输入音频流包括音频混合增益;
使用所述SDP来声明所述输入音频流的实时传输协议(RTP)头扩展,所述RTP头扩展包括元素标识符、所述元素的长度和所述音频混合增益的幅度;以及
基于所述SDP的单个属性,使用所述RTP头扩展用信号通知所述音频混合增益,
其中,所述音频混合增益包括来自所述输入音频流的第一音频增益和来自叠加音频流的第二音频增益。
16.根据权利要求15所述的非易失性存储介质,其中,所述SDP的扩展巴科斯-瑙尔范式(ABNF)被用于描述所述音频混合增益和所述单个属性。
17.根据权利要求15所述的非易失性存储介质,其中,一字节RTP头扩展格式被用于用信号通知所述音频混合增益,或两字节RTP头扩展格式被用于用信号通知所述音频混合增益。
18.根据权利要求15所述的非易失性存储介质,其中,所述SDP中的统一资源标识符(URI)被用于声明所述RTP头扩展,并且
其中,所述RTP头扩展仅存在于所述输入音频流的第一包中。
19.根据权利要求15所述的非易失性存储介质,其中,所述指令在被执行时使所述至少一个处理器更新所述音频混合增益,
其中,当发送方更新所述音频混合增益时,仅指定所述音频混合增益的所述单个属性的媒体级别部分被发送,并且所述RTP头扩展被重复,并且
其中,所述更新具有小于预定量的频率。
20.根据权利要求15所述的非易失性存储介质,其中,所述指令在被执行时使所述至少一个处理器用信号通知来自所述输入音频流和所述叠加音频流的音频混合增益的阵列。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202163160630P | 2021-03-12 | 2021-03-12 | |
US63/160,630 | 2021-03-12 | ||
US17/692,840 US20220294839A1 (en) | 2021-03-12 | 2022-03-11 | Techniques for signaling audio mixing gain in teleconferencing and telepresence for remote terminals |
US17/692,840 | 2022-03-11 | ||
PCT/US2022/020150 WO2022192769A2 (en) | 2021-03-12 | 2022-03-14 | Techniques for signaling audio mixing gain in teleconferencing and telepresence for remote terminals |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115516836A true CN115516836A (zh) | 2022-12-23 |
Family
ID=83195307
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202280004013.9A Pending CN115516836A (zh) | 2021-03-12 | 2022-03-14 | 在用于远程终端的远程会议及远程呈现中用信号通知音频混合增益的技术 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20220294839A1 (zh) |
EP (1) | EP4107934A4 (zh) |
JP (1) | JP7399549B2 (zh) |
KR (1) | KR20230007388A (zh) |
CN (1) | CN115516836A (zh) |
WO (1) | WO2022192769A2 (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080005246A1 (en) * | 2000-03-30 | 2008-01-03 | Microsoft Corporation | Multipoint processing unit |
EP2285106A2 (en) * | 2009-08-14 | 2011-02-16 | Radisys Canada ULC | Distributed media mixing and conferencing in IP networks |
CN103238317A (zh) * | 2010-05-12 | 2013-08-07 | 布鲁珍视网络有限公司 | 实时多媒体通讯中可伸缩分布式全球基础设施的系统和方法 |
CN103383852A (zh) * | 2012-05-03 | 2013-11-06 | 三星电子株式会社 | 音频信号处理方法以及支持所述方法的电子装置 |
US20160323063A1 (en) * | 2015-05-01 | 2016-11-03 | Qualcomm Incorporated | Bundled Forward Error Correction (FEC) for Multiple Sequenced Flows |
US20180027027A1 (en) * | 2016-07-21 | 2018-01-25 | Qualcomm Incorporated | Methods and apparatus for use of compact concurrent codecs in multimedia communications |
WO2018220298A1 (fr) * | 2017-06-02 | 2018-12-06 | Orange | Procédé de traitement d'une communication, et passerelle |
US20190098130A1 (en) * | 2017-09-28 | 2019-03-28 | Plantronics, Inc. | Forking Transmit and Receive Call Audio Channels |
US20190335287A1 (en) * | 2016-10-21 | 2019-10-31 | Samsung Electronics., Ltd. | Method for transmitting audio signal and outputting received audio signal in multimedia communication between terminal devices, and terminal device for performing same |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3016344B1 (de) * | 2014-10-27 | 2017-08-16 | Deutsche Telekom AG | Intelligenter media-gateway switch für transparentes routen und verketten von medienströmen |
JP2017103641A (ja) | 2015-12-02 | 2017-06-08 | 株式会社リコー | 情報処理装置、会議システム、情報処理方法およびプログラム |
CN112260982B (zh) | 2019-07-22 | 2022-03-11 | 华为技术有限公司 | 音频处理方法及设备 |
-
2022
- 2022-03-11 US US17/692,840 patent/US20220294839A1/en active Granted
- 2022-03-14 EP EP22768157.4A patent/EP4107934A4/en active Pending
- 2022-03-14 CN CN202280004013.9A patent/CN115516836A/zh active Pending
- 2022-03-14 KR KR1020227039943A patent/KR20230007388A/ko active Search and Examination
- 2022-03-14 JP JP2022564046A patent/JP7399549B2/ja active Active
- 2022-03-14 WO PCT/US2022/020150 patent/WO2022192769A2/en unknown
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080005246A1 (en) * | 2000-03-30 | 2008-01-03 | Microsoft Corporation | Multipoint processing unit |
EP2285106A2 (en) * | 2009-08-14 | 2011-02-16 | Radisys Canada ULC | Distributed media mixing and conferencing in IP networks |
CN101997866A (zh) * | 2009-08-14 | 2011-03-30 | 锐德世加拿大无限责任公司 | Ip网络中的分布式媒体混合和会议 |
CN103238317A (zh) * | 2010-05-12 | 2013-08-07 | 布鲁珍视网络有限公司 | 实时多媒体通讯中可伸缩分布式全球基础设施的系统和方法 |
CN103383852A (zh) * | 2012-05-03 | 2013-11-06 | 三星电子株式会社 | 音频信号处理方法以及支持所述方法的电子装置 |
US20130294621A1 (en) * | 2012-05-03 | 2013-11-07 | Samsung Electronics Co., Ltd. | Audio signal processing method and electronic device supporting the same |
US20160323063A1 (en) * | 2015-05-01 | 2016-11-03 | Qualcomm Incorporated | Bundled Forward Error Correction (FEC) for Multiple Sequenced Flows |
US20180027027A1 (en) * | 2016-07-21 | 2018-01-25 | Qualcomm Incorporated | Methods and apparatus for use of compact concurrent codecs in multimedia communications |
US20190335287A1 (en) * | 2016-10-21 | 2019-10-31 | Samsung Electronics., Ltd. | Method for transmitting audio signal and outputting received audio signal in multimedia communication between terminal devices, and terminal device for performing same |
WO2018220298A1 (fr) * | 2017-06-02 | 2018-12-06 | Orange | Procédé de traitement d'une communication, et passerelle |
US20190098130A1 (en) * | 2017-09-28 | 2019-03-28 | Plantronics, Inc. | Forking Transmit and Receive Call Audio Channels |
Also Published As
Publication number | Publication date |
---|---|
WO2022192769A2 (en) | 2022-09-15 |
JP7399549B2 (ja) | 2023-12-18 |
WO2022192769A3 (en) | 2022-12-22 |
EP4107934A4 (en) | 2023-11-22 |
US20220294839A1 (en) | 2022-09-15 |
JP2023522946A (ja) | 2023-06-01 |
EP4107934A2 (en) | 2022-12-28 |
KR20230007388A (ko) | 2023-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11914922B2 (en) | Audio mixing for teleconferencing | |
JP7508586B2 (ja) | 没入型テレカンファレンスおよびテレプレゼンスのためのマルチグルーピングの方法、装置、およびコンピュータプログラム | |
US20220311814A1 (en) | Techniques for signaling multiple audio mixing gains for teleconferencing and telepresence for remote terminals | |
US20220294839A1 (en) | Techniques for signaling audio mixing gain in teleconferencing and telepresence for remote terminals | |
US11916982B2 (en) | Techniques for signaling multiple audio mixing gains for teleconferencing and telepresence for remote terminals using RTCP feedback | |
US12044845B2 (en) | Towards subsiding motion sickness for viewport sharing for teleconferencing and telepresence for remote terminals | |
US11431956B2 (en) | Interactive overlay handling for immersive teleconferencing and telepresence for remote terminals |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40082774 Country of ref document: HK |