CN117917901A - 生成参数化空间音频表示 - Google Patents

生成参数化空间音频表示 Download PDF

Info

Publication number
CN117917901A
CN117917901A CN202311364414.8A CN202311364414A CN117917901A CN 117917901 A CN117917901 A CN 117917901A CN 202311364414 A CN202311364414 A CN 202311364414A CN 117917901 A CN117917901 A CN 117917901A
Authority
CN
China
Prior art keywords
audio signal
reverberated
parameter
channel audio
generating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311364414.8A
Other languages
English (en)
Inventor
M-V·莱蒂南
J·T·维尔卡莫
J·K·维罗莱宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Technologies Oy
Original Assignee
Nokia Technologies Oy
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Technologies Oy filed Critical Nokia Technologies Oy
Publication of CN117917901A publication Critical patent/CN117917901A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • H04S7/306For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/027Spatial or constructional arrangements of microphones, e.g. in dummy heads
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/03Synergistic effects of band splitting and sub-band processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Stereophonic System (AREA)

Abstract

一种用于生成参数化空间音频流的方法,该方法包括:获取来自所述至少一个近麦克风的至少一个单通道音频信号;获取以下至少一项:至少一个混响参数;至少一个控制参数,其被配置为控制参数化空间音频流的空间特征;基于至少一个混响参数,从相应的至少一个单通道音频信号生成至少一个被混响的音频信号;基于以下至少一项生成至少一个空间元数据参数:至少一个单通道音频信号;至少一个被混响的音频信号;至少一个控制参数;以及至少一个混响参数;以及对至少一个被混响的音频信号和至少一个空间元数据参数进行编码以生成空间音频流。

Description

生成参数化空间音频表示
技术领域
本申请涉及用于生成参数化空间音频表示的装置和方法,但不是排他地用于从音频编码器的近麦克风记录生成参数化空间音频表示。
背景技术
捕获空间音频的方法有很多。一种选择是使用例如作为移动设备的一部分的麦克风阵列捕获空间音频。使用麦克风信号,可以执行声音场景的空间分析以确定频带中的空间元数据。此外,可以使用麦克风信号来确定传输音频信号。空间元数据和传输音频信号可以被组合以形成空间音频流。另一种选择是使用近麦克风来捕获音频,麦克风例如位于讲话者或非常靠近讲话者或更一般地音频源的领夹式(Lavalier)麦克风。使用麦克风信号,可以控制与麦克风信号相关联的方向、距离和混响(reverberance)。
元数据辅助空间音频(MASA)是空间音频流的一个示例。它是即将推出的沉浸式语音和音频服务(IVAS)编解码器将支持的输入格式之一。它使用音频信号以及对应的空间元数据(包含例如频带中的方向和直接能量与总能量比(direct-to-total energy ratios))和描述性元数据(包含与例如原始捕获和(传输)音频信号相关的附加信息)。MASA流可以例如通过用例如移动设备的麦克风捕获空间音频来获取,其中空间元数据集是基于麦克风信号来估计的。MASA流还可以从其他来源获取,例如特定的空间音频麦克风(例如高保真度立体声响复制(Ambisonics))、工作室混音(mix)(例如5.1混音)或借助适当格式转换的其他内容。还可以在编解码器内使用MASA工具,通过将多通道信号转换为MASA流并对该流进行编码来对该多通道通道信号进行编码。
发明内容
根据第一方面,提供了一种用于生成参数化空间音频流的方法,所述方法包括:获取来自至少一个近麦克风的至少一个单通道音频信号;获取以下至少一项:至少一个混响参数;至少一个控制参数,其被配置为控制所述参数化空间音频流的空间特征;基于所述至少一个混响参数,从相应的至少一个单通道音频信号生成至少一个被混响的音频信号;基于以下至少一项生成至少一个空间元数据参数:所述至少一个单通道音频信号;所述至少一个被混响的音频信号;所述至少一个控制参数;以及所述至少一个混响参数;以及对所述至少一个被混响的音频信号和所述至少一个空间元数据参数进行编码以生成所述空间音频流。
基于所述至少一个混响参数从相应的至少一个单通道音频信号生成所述至少一个被混响的音频信号可以包括:基于所述至少一个混响参数从相应的至少一个单通道音频信号生成至少一个混响音频信号;基于所述至少一个控制参数,组合所述至少一个单通道音频信号和相应的至少一个混响音频信号以生成所述至少一个被混响的音频信号。
基于所述至少一个控制参数组合所述至少一个单通道音频信号和相应的至少一个混响音频信号以生成所述至少一个被混响的音频信号可以包括:获取被配置为确定所述至少一个单通道音频信号和相应的至少一个混响音频信号在所述至少一个被混响的音频信号中的贡献的所述至少一个控制参数;以及基于由所述至少一个控制参数定义的所述至少一个单通道音频信号和所述相应的至少一个混响音频信号的所述贡献,生成所述至少一个被混响的音频信号。
基于所述至少一个控制参数组合所述至少一个单通道音频信号和相应的至少一个混响音频信号以生成所述至少一个被混响的音频信号可包括:获取至少一个方向和/或位置参数,其确定在音频场景内的所述至少一个单通道音频信号的至少一个方向和/或位置;基于所述至少一个方向和/或位置参数生成平移增益;以及将所述平移增益应用于所述至少一个单通道音频信号。
基于所述至少一个混响参数从相应的至少一个单通道音频信号生成至少一个被混响的音频信号可以包括:基于所述至少一个混响参数从相应的至少一个单通道音频信号生成所述至少一个被混响的音频信号。
所述至少一个被混响的音频信号可以包括以下的组合:来自所述至少一个单通道音频信号的混响音频信号部分;以及基于所述相应的至少一个单通道音频信号的直接音频信号部分。
获取来自至少一个近麦克风的至少一个单通道音频信号可包括以下至少一个:获取所述至少一个单通道音频信号;以及对至少两个音频信号进行波束成形以生成所述至少一个单通道音频信号。
所述至少一个混响参数可以包括以下至少之一:至少一个脉冲响应;预处理的至少一个脉冲响应;基于至少一个脉冲响应的至少一个参数;至少一个期望混响时间;至少一个混响与直接比率(reverberant-to-direct ratio);至少一个房间尺寸;至少一个房间材料声学参数;至少一个衰减(decay)时间;至少一个早期反射级别;至少一个扩散参数;至少一个预延迟参数;至少一个阻尼参数;以及至少一个声学空间描述符。
获取来自至少一个近麦克风的至少一个单通道音频信号可以包括获取第一单通道音频信号和第二单通道音频信号。
所述第一单通道音频信号可以从第一近麦克风获取,并且所述第二单通道音频信号可以从第二近麦克风获取。
所述第一近麦克风可以是位于第一用户身上或第一用户附近的麦克风,并且所述第二近麦克风可以是位于第二用户身上或第二用户附近的麦克风。
基于所述至少一个混响参数从相应的至少一个单通道音频信号生成至少一个被混响的音频信号可以包括:从所述第一单通道音频信号生成第一混响音频信号;以及从所述第二单通道音频信号生成第二混响音频信号。
基于所述至少一个控制参数组合所述至少一个单通道音频信号和相应的至少一个混响音频信号以生成所述至少一个被混响的音频信号可以包括:基于所述第一单通道音频信号和相应的第一混响音频信号的组合来生成第一音频信号;基于所述第二单通道音频信号和相应的第二混响音频信号的组合来生成第二音频信号;组合所述第一音频信号和所述第二音频信号以生成所述至少一个被混响的音频信号。
基于以下至少一项:所述至少一个单通道音频信号;所述至少一个被混响的音频信号;所述至少一个控制参数;以及所述至少一个混响参数生成至少一个空间元数据参数可以包括:生成与所述第一音频信号相关联的第一至少一个空间元数据参数;生成与所述第二音频信号相关联的第二至少一个空间元数据参数;确定所述第一单通道音频信号或所述第二单通道音频信号中哪一个更占主导地位;以及基于所述确定所述第一单通道音频信号或所述第二单通道音频信号中哪一个更占主导地位,选择所述第一至少一个空间元数据参数或第二至少一个空间元数据参数中的一个或另一个。
从相应的至少一个单通道音频信号生成至少一个被混响的音频信号可以包括:从所述第一单通道音频信号生成第一经增益的音频信号,所述第一经增益的音频信号基于第一增益被应用于所述第一音频信号;从所述第二单通道音频信号生成第二经增益的音频信号,所述第二经增益的音频信号基于第二增益被应用于所述第二音频信号;对组合的第一经增益的音频信号和第二经增益的音频信号应用混响以生成所述至少一个混响音频信号;从所述第一单通道音频信号生成另一第一经增益的音频信号,所述另一第一经增益的音频信号基于另一第一增益被应用于所述第一单通道音频信号;从所述第二单通道音频信号生成另一第二经增益的音频信号,所述另一第二经增益的音频信号基于另一第二增益被应用于所述第二单通道音频信号;以及组合所述混响音频信号、所述另一第一经增益的音频信号和所述另一第二经增益的音频信号以生成所述至少一个被混响的音频信号。
基于以下至少一项:所述至少一个单通道音频信号;所述至少一个被混响的音频信号;所述控制参数;以及所述至少一个混响参数生成至少一个空间元数据参数可以包括:生成与所述第一音频信号相关联的第一至少一个空间元数据参数;生成与所述第二音频信号相关联的第二至少一个空间元数据参数;确定所述第一单通道音频信号或第二单通道音频信号中哪一个更占主导地位;以及基于所述确定所述第一单通道音频信号或所述第二单通道音频信号中哪一个更占主导地位,从所述第一至少一个空间元数据参数或第二至少一个空间元数据参数中的一个或另一个确定所述至少一个空间元数据。
根据第二方面,提供了一种用于生成参数化空间音频流的装置,所述装置包括设备,所述设备被配置为:获取来自至少一个近麦克风的至少一个单通道音频信号;获取以下至少一项:至少一个混响参数;至少一个控制参数,其被配置为控制所述参数化空间音频流的空间特征;基于所述至少一个混响参数,从相应的至少一个单通道音频信号生成至少一个被混响的音频信号;基于以下至少一项生成至少一个空间元数据参数:所述至少一个单通道音频信号;所述至少一个被混响的音频信号;所述至少一个控制参数;以及所述至少一个混响参数;以及对所述至少一个被混响的音频信号和所述至少一个空间元数据参数进行编码以生成所述空间音频流。
被配置为基于所述至少一个混响参数从相应的至少一个单通道音频信号生成所述至少一个被混响的音频信号的所述设备可以被配置为:基于所述至少一个混响参数从相应的至少一个单通道音频信号生成至少一个混响音频信号;基于所述至少一个控制参数,组合所述至少一个单通道音频信号和相应的至少一个混响音频信号以生成所述至少一个被混响的音频信号。
被配置为基于所述至少一个控制参数组合所述至少一个单通道音频信号和相应的至少一个混响音频信号以生成所述至少一个被混响的音频信号的所述设备可以被配置为:获取被配置为确定所述至少一个单通道音频信号和相应的至少一个混响音频信号在所述至少一个被混响的音频信号中的贡献的所述至少一个控制参数;以及基于由所述至少一个控制参数定义的所述至少一个单通道音频信号和所述相应的至少一个混响音频信号的所述贡献来生成所述至少一个被混响的音频信号。
被配置为基于所述至少一个控制参数组合所述至少一个单通道音频信号和相应的至少一个混响音频信号以生成所述至少一个被混响的音频信号的所述设备可以被配置为:获取至少一个方向和/或位置参数,其确定音频场景内的所述至少一个单通道音频信号的至少一个方向和/或位置;基于所述至少一个方向和/或位置参数生成平移增益;以及将所述平移增益应用于所述至少一个单通道音频信号。
被配置为基于所述至少一个混响参数从相应的至少一个单通道音频信号生成至少一个被混响的音频信号的所述设备可以被配置为:基于所述至少一个混响参数从相应的至少一个单通道音频信号生成所述至少一个被混响的音频信号。
所述至少一个被混响的音频信号可以包括以下的组合:来自所述至少一个单通道音频信号的混响音频信号部分;以及基于所述相应的至少一个单通道音频信号的直接音频信号部分。
被配置为获取来自至少一个近麦克风的至少一个单通道音频信号的所述设备可以被配置为以下至少一个:获取所述至少一个单通道音频信号;以及对至少两个音频信号进行波束成形以生成所述至少一个单通道音频信号。
所述至少一个混响参数可以包括以下至少之一:至少一个脉冲响应;预处理的至少一个脉冲响应;基于至少一个脉冲响应的至少一个参数;至少一个期望混响时间;至少一个混响与直接比率(reverberant-to-direct ratio);至少一个房间尺寸;至少一个房间材料声学参数;至少一个衰减(decay)时间;至少一个早期反射级别;至少一个扩散参数;至少一个预延迟参数;至少一个阻尼参数;以及至少一个声学空间描述符。
用于获取来自至少一个近麦克风的至少一个单通道音频信号的所述设备可以包括获取第一单通道音频信号和第二单通道音频信号。
所述第一单通道音频信号可以从第一近麦克风获取,并且所述第二单通道音频信号可以从第二近麦克风获取。
所述第一近麦克风可以是位于第一用户身上或第一用户附近的麦克风,并且所述第二近麦克风可以是位于第二用户身上或第二用户附近的麦克风。
被配置为基于所述至少一个混响参数从相应的至少一个单通道音频信号生成至少一个被混响的音频信号的所述设备可以被配置为:从所述第一单通道音频信号生成第一混响音频信号;以及从所述第二单通道音频信号生成第二混响音频信号。
被配置为基于所述至少一个控制参数组合所述至少一个单通道音频信号和相应的至少一个混响音频信号以生成所述至少一个被混响的音频信号的所述设备可以被配置为:基于所述第一单通道音频信号和相应的第一混响音频信号的组合来生成第一音频信号;基于所述第二单通道音频信号和相应的第二混响音频信号的组合来生成第二音频信号;组合所述第一音频信号和所述第二音频信号以生成所述至少一个被混响的音频信号。
被配置为基于以下至少一项:所述至少一个单通道音频信号;所述至少一个被混响的音频信号;所述至少一个控制参数;以及所述至少一个混响参数生成至少一个空间元数据参数的所述装置可以被配置为:生成与所述第一音频信号相关联的第一至少一个空间元数据参数;生成与所述第二音频信号相关联的第二至少一个空间元数据参数;确定所述第一单通道音频信号或所述第二单通道音频信号中哪一个更占主导地位;以及基于所述确定所述第一单通道音频信号或所述第二单通道音频信号中哪一个更占主导地位,选择所述第一至少一个空间元数据参数或第二至少一个空间元数据参数中的一个或另一个。
被配置为从相应的至少一个单通道音频信号生成至少一个被混响的音频信号的所述设备可以被配置为:从所述第一单通道音频信号生成第一经增益的音频信号,所述第一经增益的音频信号基于第一增益被应用于所述第一音频信号;从所述第二单通道音频信号生成第二经增益的音频信号,所述第二经增益的音频信号基于第二增益被应用于所述第二音频信号;对组合的第一经增益的音频信号和第二经增益的音频信号应用混响以生成所述至少一个混响音频信号;从所述第一单通道音频信号生成另一第一经增益的音频信号,所述另一第一经增益的音频信号基于另一第一增益被应用于所述第一单通道音频信号;从所述第二单通道音频信号生成另一第二经增益的音频信号,所述另一第二经增益的音频信号基于另一第二增益被应用于所述第二单通道音频信号;以及组合所述混响音频信号、所述另一第一经增益的音频信号和所述另一第二经增益的音频信号以生成所述至少一个被混响的音频信号。
被配置为基于以下至少一项:所述至少一个单通道音频信号;所述至少一个被混响的音频信号;所述控制参数;以及所述至少一个混响参数生成至少一个空间元数据参数的所述装置可以被配置为:生成与所述第一音频信号相关联的第一至少一个空间元数据参数;生成与所述第二音频信号相关联的第二至少一个空间元数据参数;确定所述第一单通道音频信号或第二单通道音频信号中哪一个更占主导地位;以及基于所述确定第一单通道音频信号或所述第二单通道音频信号中哪一个更占主导地位,从所述第一至少一个空间元数据参数或第二至少一个空间元数据参数中的一个或另一个确定所述至少一个空间元数据。
根据第三方面,提供了一种用于生成参数化空间音频流的装置,所述装置包括至少一个处理器和存储指令的至少一个存储器,所述指令当由所述至少一个处理器执行时使所述系统至少执行:获取来自至少一个近麦克风的至少一个单通道音频信号;获取以下至少一项:至少一个混响参数;至少一个控制参数,其被配置为控制所述参数化空间音频流的空间特征;基于所述至少一个混响参数,从相应的至少一个单通道音频信号生成至少一个被混响的音频信号;基于以下至少一项生成至少一个空间元数据参数:所述至少一个单通道音频信号;所述至少一个被混响的音频信号;所述至少一个控制参数;以及所述至少一个混响参数;以及对所述至少一个被混响的音频信号和所述至少一个空间元数据参数进行编码以生成所述空间音频流。
被使得执行基于所述至少一个混响参数从相应的至少一个单通道音频信号生成所述至少一个被混响的音频信号的所述系统可以被使得执行:基于所述至少一个混响参数从相应的至少一个单通道音频信号生成至少一个混响音频信号;基于所述至少一个控制参数,组合所述至少一个单通道音频信号和相应的至少一个混响音频信号以生成所述至少一个被混响的音频信号。
被使得执行基于所述至少一个控制参数组合所述至少一个单通道音频信号和相应的至少一个混响音频信号以生成所述至少一个被混响的音频信号的所述系统可以被使得执行:获取被配置为确定所述至少一个单通道音频信号和相应的至少一个混响音频信号在所述至少一个被混响的音频信号中的贡献的所述至少一个控制参数;以及基于由所述至少一个控制参数定义的所述至少一个单通道音频信号和所述相应的至少一个混响音频信号的所述贡献来生成所述至少一个被混响的音频信号。
被使得执行基于所述至少一个控制参数组合所述至少一个单通道音频信号和相应的至少一个混响音频信号以生成所述至少一个被混响的音频信号的所述系统可以被使得执行:获取至少一个方向和/或位置参数,其确定音频场景内的所述至少一个单通道音频信号的至少一个方向和/或位置;基于所述至少一个方向和/或位置参数生成平移增益;以及将所述平移增益应用于所述至少一个单通道音频信号。
被使得执行基于所述至少一个混响参数从相应的至少一个单通道音频信号生成至少一个被混响的音频信号的所述系统可以被使得执行:基于所述至少一个混响参数从相应的至少一个单通道音频信号生成所述至少一个被混响的音频信号。
所述至少一个被混响的音频信号可以包括以下的组合:来自所述至少一个单通道音频信号的混响音频信号部分;以及基于所述相应的至少一个单通道音频信号的直接音频信号部分。
被使得执行获取来自至少一个近麦克风的至少一个单通道音频信号的所述系统可以被使得执行以下至少一个:获取所述至少一个单通道音频信号;以及对至少两个音频信号进行波束成形以生成所述至少一个单通道音频信号。
所述至少一个混响参数可以包括以下至少之一:至少一个脉冲响应;预处理的至少一个脉冲响应;基于至少一个脉冲响应的至少一个参数;至少一个期望混响时间;至少一个混响与直接比率(reverberant-to-direct ratio);至少一个房间尺寸;至少一个房间材料声学参数;至少一个衰减(decay)时间;至少一个早期反射级别;至少一个扩散参数;至少一个预延迟参数;至少一个阻尼参数;以及至少一个声学空间描述符。
被使得执行获取来自至少一个近麦克风的至少一个单通道音频信号的所述系统可以被使得执行获取第一单通道音频信号和第二单通道音频信号。
所述第一单通道音频信号可以从第一近麦克风获取,并且所述第二单通道音频信号可以从第二近麦克风获取。
所述第一近麦克风可以是位于第一用户身上或第一用户附近的麦克风,并且所述第二近麦克风可以是位于第二用户身上或第二用户附近的麦克风。
被使得执行基于所述至少一个混响参数从相应的至少一个单通道音频信号生成至少一个被混响的音频信号的所述系统可以被使得执行:从所述第一单通道音频信号生成第一混响音频信号;以及从所述第二单通道音频信号生成第二混响音频信号。
被使得执行基于所述至少一个控制参数组合所述至少一个单通道音频信号和相应的至少一个混响音频信号以生成所述至少一个被混响的音频信号的所述系统可以被使得执行:基于所述第一单通道音频信号和相应的第一混响音频信号的组合来生成第一音频信号;基于所述第二单通道音频信号和相应的第二混响音频信号的组合来生成第二音频信号;组合所述第一音频信号和所述第二音频信号以生成所述至少一个被混响的音频信号。
被使得执行基于以下至少一项:所述至少一个单通道音频信号;所述至少一个被混响的音频信号;所述至少一个控制参数;以及所述至少一个混响参数生成至少一个空间元数据参数的系统可以被使得执行:生成与所述第一音频信号相关联的第一至少一个空间元数据参数;生成与所述第二音频信号相关联的第二至少一个空间元数据参数;确定所述第一单通道音频信号或所述第二单通道音频信号中哪一个更占主导地位;以及基于所述确定所述第一单通道音频信号或所述第二单通道音频信号中哪一个更占主导地位,选择所述第一至少一个空间元数据参数或第二至少一个空间元数据参数中的一个或另一个。
被使得执行从相应的至少一个单通道音频信号生成至少一个被混响的音频信号的所述系统可以被使得执行:从所述第一单通道音频信号生成第一经增益的音频信号,所述第一经增益的音频信号基于第一增益被应用于所述第一音频信号;从所述第二单通道音频信号生成第二经增益的音频信号,所述第二经增益的音频信号基于第二增益被应用于所述第二音频信号;对组合的第一经增益的音频信号和第二经增益的音频信号应用混响以生成所述至少一个混响音频信号;从所述第一单通道音频信号生成另一第一经增益的音频信号,所述另一第一经增益的音频信号基于另一第一增益被应用于所述第一单通道音频信号;从所述第二单通道音频信号生成另一第二经增益的音频信号,所述另一第二经增益的音频信号基于另一第二增益被应用于所述第二单通道音频信号;以及组合所述混响音频信号、所述另一第一经增益的音频信号和所述另一第二经增益的音频信号以生成所述至少一个被混响的音频信号。
被使得执行基于以下至少一项:所述至少一个单通道音频信号;所述至少一个被混响的音频信号;所述控制参数;以及所述至少一个混响参数生成至少一个空间元数据参数的系统可以被使得执行:生成与所述第一音频信号相关联的第一至少一个空间元数据参数;生成与所述第二音频信号相关联的第二至少一个空间元数据参数;确定所述第一单通道音频信号或第二单通道音频信号中哪一个更占主导地位;以及基于所述确定第一单通道音频信号或所述第二单通道音频信号中哪一个更占主导地位,从所述第一至少一个空间元数据参数或第二至少一个空间元数据参数中的一个或另一个确定所述至少一个空间元数据。
根据第四方面,提供了一种用于生成参数化空间音频流的装置,所述装置包括:被配置为获取来自至少一个近麦克风的至少一个单通道音频信号的获取电路;被配置为获取以下至少一项的获取电路:至少一个混响参数;被配置为控制所述参数化空间音频流的空间特征的至少一个控制参数;被配置为基于所述至少一个混响参数从相应的至少一个单通道音频信号生成至少一个被混响的音频信号的生成电路;被配置为基于以下至少一项生成至少一个空间元数据参数的生成电路:所述至少一个单通道音频信号;所述至少一个被混响的音频信号;所述至少一个控制参数;以及所述至少一个混响参数;以及被配置为对所述至少一个被混响的音频信号和所述至少一个空间元数据参数进行编码以生成所述空间音频流的编码电路。
根据第五方面,提供了一种包括指令的计算机程序[或包括指令的计算机可读介质],用于使得装置生成参数化空间音频流,使得所述装置执行至少以下:获取来自至少一个近麦克风的至少一个单通道音频信号;获取以下至少一项:至少一个混响参数;至少一个控制参数,其被配置为控制所述参数化空间音频流的空间特征;基于所述至少一个混响参数,从相应的至少一个单通道音频信号生成至少一个被混响的音频信号;基于以下至少一项生成至少一个空间元数据参数:所述至少一个单通道音频信号;所述至少一个被混响的音频信号;所述至少一个控制参数;以及所述至少一个混响参数;以及对所述至少一个被混响的音频信号和所述至少一个空间元数据参数进行编码以生成所述空间音频流。
根据第六方面,提供了一种非暂时性计算机可读介质,包括用于使得用于生成参数化空间音频流的装置执行至少以下的程序指令:获取来自至少一个近麦克风的至少一个单通道音频信号;获取以下至少一项:至少一个混响参数;至少一个控制参数,其被配置为控制所述参数化空间音频流的空间特征;基于所述至少一个混响参数,从相应的至少一个单通道音频信号生成至少一个被混响的音频信号;基于以下至少一项生成至少一个空间元数据参数:所述至少一个单通道音频信号;所述至少一个被混响的音频信号;所述至少一个控制参数;以及所述至少一个混响参数;以及对所述至少一个被混响的音频信号和所述至少一个空间元数据参数进行编码以生成所述空间音频流。
根据第七方面,提供了一种用于生成参数化空间音频流的装置,所述装置包括:用于获取来自至少一个近麦克风的至少一个单通道音频信号的设备;用于获取以下至少一项的设备:至少一个混响参数;至少一个控制参数,其被配置为控制所述参数化空间音频流的空间特征;基于所述至少一个混响参数从相应的至少一个单通道音频信号生成至少一个被混响的音频信号;用于基于以下至少一项生成至少一个空间元数据参数的设备:所述至少一个单通道音频信号;所述至少一个被混响的音频信号;所述至少一个控制参数;以及所述至少一个混响参数;以及用于对所述至少一个被混响的音频信号和所述至少一个空间元数据参数进行编码以生成所述空间音频流的设备。
一种装置,包括用于执行如上所述的方法的动作的设备。
一种装置,被配置为执行如上所述的方法的动作。
一种计算机程序,包括用于使计算机执行如上所述的方法的程序指令。
一种存储在介质上的计算机程序产品可以使装置执行本文所描述的方法。
一种电子设备可以包括如本文所描述的装置。
一种芯片组可以包括如本文所描述的装置。
本申请的实施例旨在解决与现有技术相关的问题。
附图说明
为了更好地理解本申请,现在将通过示例的方式参考附图,其中:
图1示意性地示出了适合于实现一些实施例的示例装置系统;
图2示意性地示出了适合于实现一些实施例的示例捕获装置;
图3示出了根据一些实施例的图2所示的示例捕获装置的操作的流程图;
图4示意性地示出了适合于实现一些实施例的示例回放装置;
图5示出了根据一些实施例的图4所示的示例回放装置的操作的流程图;
图6示意性地示出了适合于实现一些实施例的另一示例捕获装置;
图7示出了根据一些实施例的图6所示的另一示例捕获装置的操作的流程图;
图8示意性地示出了适合于实现一些实施例的另一示例捕获装置;
图9示出了根据一些实施例的图8所示的另一示例捕获装置的操作的流程图;
图10示意性地示出了适合于实现一些实施例的示例性装置系统;以及
图11显示了示例处理输出。
具体实施方式
下面进一步详细描述用于从捕获的或以其他方式获得的近麦克风音频信号生成音频流的合适的装置和可能的机制。
如上所述,元数据辅助空间音频(MASA)是适合作为IVAS的输入格式的参数化空间音频格式和表示的示例。
它可以被认为是包括“N个通道+空间元数据”的音频表示。它是一种基于场景的音频格式,特别适合诸如智能电话的实用设备上的空间音频捕获。这个想法是根据随时间和频率变化的声音方向和例如能量比来描述声音场景。未由方向定义(描述)的声音能量被描述为扩散(diffuse)(来自所有方向)。
如上所述,与音频信号相关联的空间元数据可以包括每时频块(tile)的多个参数(例如多个方向以及与每个方向(或方向值)相关联的直接能量与总能量比、扩展相干性、距离等)。空间元数据还可以包括其他参数或者可以与被认为是非方向性的(例如环绕相干性、扩散能量与总能量比、剩余能量与总能量比)但是当与方向参数组合时能够用于定义音频场景的特性的其他参数相关联。例如,能够产生良好质量输出的合理设计选择,是在其中确定对于每个时频部分包括一个或多个方向(并且与每个方向直接能量与总能量比、扩散相干性、距离值等相关联)的空间元数据。
如上所述,参数化空间元数据表示可以使用多个并发空间方向。对于MASA,建议的最大并发方向数为两个。对于每个并发方向,可能有相关的参数,例如:方向索引;直接能量与总能量比;扩展(spread)相干性;以及距离。在一些实施例中,定义了其他参数,例如扩散能量与总能量比;环绕相干性;以及剩余能量与总能量比。
参数化空间元数据值可用于每个时频块(MASA格式定义每帧中有24个频带和4个时间子帧)。IVAS中的帧大小为20ms。此外,当前MASA支持每个时频块有1个或2个方向。
示例元数据参数可以是:
格式描述符,其定义IVAS的MASA格式;
通道音频格式,其定义存储在两个字节中的组合的以下字段;
方向数,其定义由空间元数据描述的方向数(每个方向与如下所述的方向相关空间元数据集相关联);
通道数,其定义该格式中传输通道的数量;
源格式,其描述了从其创建MASA的原始格式。
取决于方向数的MASA格式空间元数据参数的示例可以是:
方向索引,其定义在时频参数间隔处的声音的到达方向(通常这是精度约为1度的球形表示);
直接能量与总能量比,其定义方向索引(即时频子帧)的能量比;以及
扩展相干性,其定义方向索引(即时频子帧)的能量扩展。
与方向数量无关的MASA格式空间元数据参数的示例可以是:
扩散能量与总能量比,其定义非定向声音在周围方向上的能量比;
环绕声相干性,其定义非定向声音在周围方向上的相干性;
剩余能量与总能量比,其定义剩余(例如麦克风噪声)声音能量的能量比,以满足能量比之和为1的要求。
此外,示例空间元数据频带可以是
MASA流可被渲染为各种输出,例如多通道扬声器信号(例如5.1)或双声道信号。
在简单的通信场景中(例如用户通常与单个人交谈),单通道音频信号捕获(例如使用近麦克风)可能就足够了。然而,简单的通信场景通常不具有可用的空间方面。这可能是一个问题,尤其是当有多方语音会议中存在多个参与者时。当多个讲话者位于不同方向时,人类的听觉能够更好地理解他们。这在科学文献中被称为鸡尾酒会效应。
实现此目的的一个简单方法是使用头部相关传输函数(HRTF)将讲话者双声道化到某个方向。这样,电话会议中的不同讲话者可被定位到不同的方向,以提高语音清晰度(speech intelligibility)。此外,还可以适当添加混响,以增加渲染的自然度(naturalness),并实现双声道化更好的外化(externalization)。混响还可以用于为不同的讲话者实现不同的渲染距离。
在一些情况下,可以在用户的设备中实现这种双声道化(包括混响)。但是,用户需要从电话会议中的每个参与者接收单独的音频流(分散式架构)。因此,这将需要大量的传输带宽,而该带宽可能并不总是可用。此外,这种方法可能在计算上要求较高,因为每个参与者音频信号的解码和渲染必须在用户的设备中执行。因此,它不仅会产生质量差的输出(处理器无法处理此类过程的计算需求),而且由电池供电的移动设备可能会因处理要求而遭受电池寿命短的困扰。
作为另一种选择,双声道化(包括混响)可以在会议服务器中实现(集中式架构)。在这种情况下,双声道化将应用于服务器中的每个参与者,并且所得双声道信号将混音在一起以形成单对双声道信号,该信号将被传输给用户。这将导致传输所需的带宽较低,并且用户设备所需的计算复杂度较低。然而,这种方法的问题在于,由于双声道化已经在服务器中应用,因此接收设备处的渲染不能基于用户头部的取向(orientation)来执行(即,头部跟踪双声道化不能被执行)。这会降低沉浸感和自然度,因为声源会随着用户头部的移动而移动,而不是保持在其被定义的位置。
此外,在某些情况下,一些参与者可能会以参数化形式被捕获,例如前面提到的MASA,近麦克风信号必须单独应对和处理,导致传输更多的音频信号(因此需要更高的带宽和更高的计算复杂度),或者,替代地,如果已经在服务器中对所有源执行双声道化,则所有源的头部跟踪双声道化都会丢失。
因此,获取近麦克风捕获的音频的头部跟踪双声道化的空间特征导致需要高比特率的传输和高计算复杂度的渲染。结果,由于通信信道中没有足够的带宽和/或太没有足够的计算资源或电池资源的情况,在许多情况下不会使用头部跟踪双声道化。
如本文的实施例中进一步详细讨论的概念是用于从使用接近的(单声道)麦克风捕获的音频生成参数化空间音频流(传输音频信号和空间元数据)。在一些实施例中,这可以基于混响器(reverberator)来实现,混响器可以根据期望的混响特性生成混响以实现参数化空间音频流的生成(其可以被有效地编码并渲染到包括头部跟踪双声道音频的各种输出),其中用户的语音可以定位在可控的方向和距离,并且可以以可控的方式添加生成的混响,以实现例如使用头戴式耳机(headphones)和近麦克风的空间电话会议。它可以被配置为使用捕获的单声道信号生成被混响(立体声)信号,使用捕获的音频信号、生成的被混响的音频信号和至少一个控制(例如,期望的方向)确定参数化空间元数据,以及混音音频信号来产生传输音频信号。
在本文的描述中,术语“音频信号”可以指具有一个通道的音频信号或具有多通道的音频信号。当涉及指定信号具有一个或多个通道时,被明确说明。此外,术语“音频信号”可以表示信号是任何形式,例如编码或非编码形式,例如定义信号波形的值或频谱值的序列。
关于图1示出了用于实现一些实施例的示例装置。在图1所示的示例中,示出了经由有线或无线连接113与移动电话101的用户佩戴的头戴式耳机119耦合的移动电话101。在下文中,示例设备或装置是如图1所示的移动电话。然而,示例装置或设备还可以是任何其他合适的设备,例如平板电脑、膝上型计算机、计算机或任何电话会议设备。该装置或设备还可以是头戴式耳机本身,使得例示的移动电话101的操作由该头戴式耳机执行。
在该示例中,移动电话101包括处理器103。处理器103可以被配置为执行各种程序代码,例如本文描述的方法。处理器103被配置为使用有线或无线头戴式耳机连接113与头戴式耳机119通信。在一些实施例中,有线或无线头戴式耳机连接113是蓝牙5.3或蓝牙LE音频连接。连接113从处理器103提供要用头戴式耳机再现给用户的两通道音频信号115。连接113还从头戴式耳机119向处理器103提供单通道音频信号117,其中单通道音频信号源自安装在连接到耳机的吊杆(boom)上的麦克风。
在其他示例中,没有如图1所示的吊杆或延伸的近麦克风,但头戴式耳机配备了一个或多个麦克风,其被配置为提供捕获用户的语音的单个通道音频信号,例如使用波束成形技术。无论麦克风类型如何,它都被称为“近麦克风”,因为声音是在用户附近捕获的。
头戴式耳机119可以是如图1所示的耳罩式(over-ear)头戴式耳机,或者任何其他合适的类型,例如入耳式(in-ear)或骨传导(bone-conducting)头戴式耳机,或者任何其他类型的头戴式耳机。在一些实施例中,头戴式耳机119具有向处理器103提供头部取向(orientation)信息的头部取向传感器。在一些实施例中,头部取向传感器与头戴式耳机119分离并且数据被单独地提供给处理器103。在另外的实施例中,头部取向通过其他方式来跟踪,例如使用设备101相机和基于机器学习的面部取向分析。在一些实施例中,不跟踪头部取向。
在一些实施例中,处理器103与存储器105耦合,存储器105具有提供根据以下实施例的处理指令的程序代码107。程序代码107具有用于将头戴式耳机119处的一个或者多个麦克风捕获的单通道音频信号117处理成适合于有效编码和远程装置处沉浸式解码的经处理的形式的指令。这些经处理的音频信号从处理器103提供到收发器111到远程解码装置,和/或在一些情况下,存储到存储设备109以供以后使用。
收发器可以通过任何合适的已知通信协议与另外的装置通信。例如,在一些实施例中,收发器可以使用基于以下技术的合适的无线电接入架构:高级长期演进(高级LTE,LTE-A)或新无线电(NR)(或可以称为5G)、通用移动电信系统(UMTS)无线电接入网(UTRAN或E-UTRAN)、长期演进(LTE,与E-UTRA相同)、2G网络(传统网络技术)、无线局域网(WLAN或Wi-Fi)、全球微波互操作性接入(WiMAX)、个人通信服务(PCS)、宽带码分多址(WCDMA)、使用超宽带(UWB)技术的系统、传感器网络、移动自组织网络(MANET)、蜂窝物联网(IoT)RAN和互联网协议多媒体子系统(IMS)、任何其他合适的选项和/或其任何组合。
经处理的音频比特流的远程接收器(或回放设备)可以是与图1所示的装置和头戴式耳机系统相似或完全相同的系统。在回放设备中,来自收发器的编码音频信号被提供给处理器被解码并渲染为双声道空间声音,以被转发(通过有线或无线头戴式耳机连接)到头戴式耳机,再现给听者(用户)。
另外,对于回放设备,可能涉及头部跟踪。在这种情况下,回放设备处理器接收来自收听者(用户)的头部取向信息,并且基于头部取向信息来改变处理,如以下实施例中所例示的。
在一些实施例中,该设备包括用户接口(未示出),其在一些实施例中可以耦合到处理器。在一些实施例中,处理器可以控制用户接口的操作并从用户接口接收输入。在一些实施例中,用户接口可以使得用户能够例如经由键盘(keypad)向设备输入命令。在一些实施例中,用户接口可以使得用户能够从设备获得信息。例如,用户接口可以包括被配置为向用户显示来自设备的信息的显示器。在一些实施例中,用户接口可以包括触摸屏或触摸接口,其能够使得信息能够被输入到设备并且进一步向设备的用户显示信息。在一些实施例中,用户接口可以是用于通信的用户接口。
关于图2示出了关于捕获方面的处理器103的示意图,其中基于从头戴式耳机119捕获的单通道音频信号生成编码比特流。图4还示出了关于对应的远程解码器/回放装置的处理器的示意图。应当理解,在一些实施例中,当从远程设备接收回另一编码空间音频流时,单个装置可以执行根据图2以及图4的处理。
在如图2所示的一些实施例中,处理器被配置为接收从如图1所示的头戴式耳机119处的近麦克风获取的音频信号200s(t)作为输入。
此外,在一些实施例中,处理器103包括混响器201。混响器201被配置为接收音频信号200和混响参数202并生成混响音频信号204srev(t,i)(其中t是时间并且i是通道索引)。
混响器201可以使用任何合适的混响器来实现,例如反馈延迟网络(FDN)混响器(例如在IEEE信号处理快报(IEEE Signal Processing Letters),1997年9月,第4卷,第9期,Rocchesso:用于人工混响的最大扩散但有效的反馈延迟网络(Maximally DiffusiveYet Efficient Feedback Delay Networks for Artificial Reverberation)中所描述的)。反馈延迟网络包括不同长度的延迟线和反馈矩阵,反馈矩阵将延迟线的输出反馈到延迟线,从而实现无限混响响应,其中响应的衰减是通过衰减滤波器实现的。在其他实施例中,可以采用任何其他混响器类型,例如使用具有预定混响响应的卷积。使用混合卷积设备可以有效且无时延地实现卷积,混合卷积模块使用直接卷积处理部分响应,并使用FFT卷积处理其他部分,如Gardner,W.G.(1994年,11月)在音频工程学会(Audio EngineeringSociety)的音频工程学会公约97(Audio Engineering Society Convention 97)“无输入/输出延迟的高效卷积(Efficient convolution without input/output delay)”中的。
在一些实施例中,混响参数202包括控制混响的生成的参数(参数的示例可以是期望的混响时间RT60(k)、混响与直接比率RDR(k)、和/或尺寸和/或虚拟环境的一个或多个材料)。混响参数也可以以数字工作室混响和混响插件中常用的方式呈现,例如衰减时间、早期反射级别、扩散、预延迟、阻尼、房间大小等。定义混响参数的一种简化方法是使用预定义的不同种类的声学空间的预设,声学空间可以通过描述性名称来描述(例如,小房间、大厅、浴室、消声室(anechoic)),其每个都会产生一组独特的混响特性。混响参数还可以包括脉冲响应,或者按原样或者以使用任何合适的方式(例如使用时频变换和/或任何合适的参数化)的预处理形式。
在一些实施例中,混响参数202可以从捕获设备或用户获取以模仿用户所在的空间。这些实施例的一个示例是具有透听(hear-through)双声道头戴式受话器(headset)的混合现实音频。这种头戴式受话器包含双声道麦克风,以捕获周围环境的声音,并允许用户通过头戴式耳机听到这些声音。用户可以控制从双声道麦克风到扬声器的级别馈送,以定义可以听到多少环境声音。附加虚拟声源(例如,会议参与者的声音)可以与这些环境声音混音。为了创造虚拟声源从真实声学环境中发出的自然沉浸感和错觉(illusion),虚拟声源的混响属性应与真实声学环境(用户所在的位置)的混响属性一致。在这种情况下,可以根据捕获的音频信号来估计混响参数,并将其用于控制施加在虚拟声音上的混响。
在一些实施例中,混响参数可以不被获取并且由混响器201使用默认值。在一些实施例中,被混响的音频信号包括输入音频信号和被混响的音频信号的组合。在一些实施例中,被混响的音频信号被生成并且基于合适的混音或控制参数与输入音频信号组合。然而,在一些实施例中,被混响的音频部分不与输入音频信号部分分离。换句话说,控制参数被提供给系统(其将包括混响器),该系统对音频信号进行混响并根据控制参数产生组合音频信号,但是使得仅混响信号永远不能用作单独的音频信号。这例如可以在一些实施例中实现,以降低生成传输音频信号的复杂度,如下文所述,以简单地传递输入和被混响的音频信号部分的“组合音频信号”作为传输音频信号。
另外,在一些实施例中,处理器103包括时频变换器203、205。在该示例中,示出了被配置为接收音频信号(来自近麦克风)200并生成时频音频信号206的时频变换器203以及被配置为接收混响音频信号204并生成混响时频音频信号208的另一时频变换器205。在一些实施例中,时频变换器由短时傅立叶变换(STFT)来实现,STFT被配置为采用麦克风音频信号的960个样本的帧,将该帧与之前的960个样本连接(concatenating)起来,对连接的帧应用2*960长度Hann窗口的平方根,并对结果应用快速傅立叶变换(FFT)。在其他实施例中,可以采用其他时频变换(例如复调制正交镜像滤波器组)或其低延迟变体。
时频单通道音频信号206可被标示为S(b,n),其中b是频率仓索引并且n是时间索引。
混响时频音频信号Srev(b,n,i),其中i是通道索引,也可以用列向量形式标示
时频音频信号206S(b,n)和混响时频音频信号208srev(b,n)被转发给传输信号和空间元数据确定器207。
在一些实施例中,处理器包括传输信号和空间元数据确定器207,空间元数据确定器207被配置为接收时频音频信号206S(b,n)和混响时频音频信号208srev(b,n)以及语音位置210和混响控制212输入。
在一些实施例中,语音位置210输入包括语音DOA(n)的期望到达方向。在一些实施例中,混响控制212输入包括用于控制直接声和混响部分的级别的信息,例如增益gs和gr
语音位置210和混响控制212信息可以从用户获取,或者它们可以例如从捕获设备自动获取。在其他实施例中,可以使用存储在传输信号和空间元数据确定器207中的默认值。
在一些实施例中,传输信号和空间元数据确定器被配置为应用增益来通过下式控制直接声和混响信号的级别:
S′(b,n)=gsS(b,n)
s′rev(b,n)=grsrev(b,n)
其中增益可以例如根据声音要渲染的距离来设置。例如,当距离增加时,gs可以是较小的值。在一些配置中,混响的级别可以具有相对于直接声更小的值,以最大化清晰度。
在一些实施例中,传输信号和空间元数据确定器被配置为确定传输时频音频信号216。这些可以例如由下式生成
stransport(b,n)=p(DOA(n))S′(b,n)+s′rev(b,n)
其中p(DOA(n))是具有根据DOA(n)的平移增益的列向量。例如,平移函数可以是
其中DOAy(n)是指向DOA(n)的单位向量的y轴分量。然后可以将传输时频音频信号216提供给反时频变换器209。
传输信号和空间元数据确定器207还可以被配置为确定空间元数据214。在一些实施例中,空间元数据214可以是MASA空间元数据格式,使得所有频带k的方向值被设置为DOA(n),即
DOA(k,n)=DOA(n).
此外,直接能量与总能量比率可以由下式确定:
其中blow(k)和bhigh(k)是频带k的底部和顶部频率仓。该比率值的上限可以为1,因为在上面的公式中,根据信号相位关系,该比率有可能稍微超过1。
在一些实施例中,(MASA元数据的)其他参数可以被设置为零(例如,相干性),或者任何合适的值(例如,扩散度可以被确定为1-ratio(k,n))。
然后,在一些实施例中,空间元数据214被提供给编码器211。
在一些实施例中,处理器还包括反时频变换器209,其被配置为接收传输时频音频信号216并且应用与在时频变换器203、205处应用的正向变换相对应的反时频变换。例如,如果时频变换器应用了STFT,则反时频变换器209可以包括反STFT操作。反时频变换器被配置为生成传输音频信号218,其被提供给编码器211。
在一些实施例中,传输音频信号是在时域而不是频域中生成的,以提供较低的时延。在这种情况下,音频信号200和混响音频信号204也被提供给传输信号和空间元数据确定器207。传输音频信号然后可以由下式生成
stransport(t,i)=p(DOA(n))s(t)+srev(t,i)
并且stransport(t,i)是直接从传输信号和空间元数据确定器207提供给编码器211的传输音频信号208。在这种情况下,不需要反时频变换器209并且空间元数据可以是如上所述确定。
在一些实施例中,处理器包括编码器,该编码器被配置为接收传输音频信号218和空间元数据214并对它们应用适当的编码。例如,当传输音频信号218和空间元数据214是MASA流的形式时,IVAS编码器可以用来对它们进行编码。
编码器的输出、编码音频信号或流220可以经由收发器提供给远程解码器。
关于图3,示出了根据一些实施例的图2中所示的示例装置的示例操作。
因此,如301所示,该方法包括从近麦克风获取/接收音频信号。
然后如302所示获取混响参数(接收参数或者获取默认参数)。
进一步303示出向音频信号应用混响。
然后305示出对音频信号和被混响的音频信号进行时频变换。
语音位置和混响控制信息的获取如306所示。
然后,根据时频音频信号并基于语音位置和混响控制来确定传输音频信号和空间元数据,如307所示。
然后,对所确定的传输音频信号进行反变换,如309所示。
然后,对传输音频信号和空间元数据进行编码以生成编码音频信号或音频流,如311所示。
然后输出编码音频信号或音频流,如313所示。
如上所述,在一些实施例中,时域信号200和204被转发给确定器207,确定器207然后直接在时域中创建传输音频信号218。在这样的实施例中,不实施步骤309。
关于图4,示出了图1中所示的处理器作为接收器/回放装置或设备操作并被配置为接收图2提供的编码信号的示意图。
在一些实施例中,接收器包括解码器401,其被配置为接收或获取编码音频信号400,并且还被配置为对编码音频信号400进行解码(编码音频信号是从编码器接收的,并且在图2中也被引用为附图标记220)。解码器401被配置为生成解码的传输音频信号402。
此外,解码器401被配置为生成解码的空间元数据490,该解码的空间元数据490被解码为具有频带中的空间信息作为比特流的一部分并且被提供给空间处理器405。例如,在MASA流在捕获侧使用IVAS编码器被编码的情况下,解码器401可以被实现为IVAS解码器。
此外,在一些实施例中,接收器还可以包括时频变换器403,其被配置为接收传输音频信号402并生成时频传输音频信号404。
此外,接收器可以包括空间处理器405。空间处理器405被配置为接收时频传输音频信号404和空间元数据490(以及可选地头部取向数据406)。在一些实施例中,时频传输音频信号404和空间元数据490被同步,其中时频变换器403产生音频路径相对于元数据路径的延迟。在一些实施例中,这可以通过采用对空间元数据的延迟来实现,该延迟与时频传输音频信号404到达空间处理器406时由时频变换器403音频引起的延迟相同。
空间处理器405可以基于任何合适的方式来实现。空间处理器1005本身可以实现在以下中详述的方法:Vilkamo,J.,T.,&Kuntz,A.(2013).Optimizedcovariance domain framework for time-frequency processing of spatial audio(用于空间音频的时频处理的优化协方差域框架).Journal of the Audio EngineeringSociety(音频工程学会杂志),61(6),403-411,Vilkamo,J.,&Pulkki,V.(2013).Minimization of decorrelator artifacts in directional audio coding bycovariance domain rendering(通过协方差域渲染来最小化定向音频编码中的解相关器伪影).Journal of the Audio Engineering Society(音频工程学会杂志),61(9),637-646,以及PCT申请WO2019086757A1,其中操作步骤为:确定频带内时频传输音频信号的输入协方差矩阵;确定频带内的总体能量值,其是输入协方差矩阵的迹(trace);基于空间元数据和总体能量值确定频带内的目标协方差矩阵;基于频带内的输入协方差矩阵和目标协方差矩阵确定混音矩阵;将混音矩阵应用于时频传输音频信号。参考文献NC104083提供了新颖的空间音频参数扩展相干性和环绕相干性,在这些实施例实施方式中可以将其均假设为零。
因此,概括来说,在一些实施例中,处理器被配置成根据协方差矩阵来确定输出声音的空间属性(例如,双声道声音在不同频率下具有一定的能量、互相关性和相位差),然后确定最小二乘优化解决方案来实现声音的此类属性。如果传输音频信号中独立的显著信号分量太少,则可以选择通过类似的基于协方差矩阵的混音操作将去相关声音混音到适当的程度。在一些实施例中,混响信号srev(b,n)不被渲染为单独的信号,而是直接渲染传输音频信号stransport(b,n)而无需任何中间信号。
在一些实施例中,空间处理器被配置为使用头部取向数据来基于头部取向数据来旋转空间元数据的方向值。例如,如果空间元数据指示前方的方向,但是用户将头部向右旋转30度,则空间元数据方向将被更新为向左30度。类似地,当DOA(k,n)指向前方(0度)时,当用户向左旋转90度时,DOA(k,n)变为-90度。除了偏航之外,旋转还可以包括俯仰轴和横滚轴,以及6DOF意义上的移动,例如当用户相对于计算机屏幕向侧面移动时,方向就会相应地被更新。
此外,在一些实施例中,可以基于头部取向数据来处理传输音频信号。例如,如果用户面向后方,则左传输音频信号和右传输音频信号可以被处理以相互替换(彼此切换)。
然后可以将双声道经处理的时频音频信号408提供给反时频变换器407。
在一些实施例中,接收器包括反时频变换器407,其被配置为输出提供给头戴式耳机以回放给用户的双声道经处理的信号410。
应当注意,在一些实施例中,解码器包括本文描述的所有特征。例如,IVAS解码器可以将编码的IVAS流(其可以源自MASA流)解码并渲染为双声道输出。
此外,关于图5,示出了根据一些实施例的图4中所示的示例装置的操作的流程图。
因此,如501所示,获取编码音频信号(从编码器)并且可选地获取头部取向。
然后,如503所示,进行解码以生成传输音频信号和空间元数据。
然后传输音频信号被时频变换,如505所示。
如507所示,然后基于空间元数据(以及可选的头部取向)对时频传输音频信号进行空间处理。
然后对时频双声道经处理的音频信号进行反时频变换,以生成双声道经处理的音频信号,如509所示。
然后将双声道经处理的音频信号输出到头戴式耳机,如511所示。
关于图6,示出了处理器、另外的编码器/捕获设备或系统,其将来自两个不同用户的音频信号作为输入并生成单个空间音频流。
在一些实施例中,系统包括第一空间流生成器A601,其被配置为获取第一音频信号、音频信号A(来自第一用户)600,并且还获取混响参数A 602、语音位置A 604和混响控制606。
在一些实施例中,空间流生成器A 601以与图2所示的装置类似的方式操作,但省略了反时频变换器和编码器。因此,空间流生成器601的输出是时频传输音频信号A和空间元数据A。
以类似的方式,处理器可以包括第二空间流生成器B 661,其被配置为获取第二音频信号,音频信号B(来自第二用户)660,并且还获取混响参数B 662、语音位置B 664,以及混响控制B 666。
在一些实施例中,空间流生成器B 661还被配置为以与图2所示的装置类似的方式操作,但省略反时频变换器和编码器。因此,空间流生成器661的输出是时频传输音频信号B和空间元数据B。
在一些实施例中,系统包括流组合器603。流组合器603被配置为获取传输时频音频信号A、空间元数据A、传输时频音频信号B和空间元数据B,其将它们组合成单流。在一些实施例中,根据GB2574238中提出的方法来实现该组合。简化后,其操作如下(在一种操作模式中,更多操作模式及细节参见GB2574238)。
首先,例如如下计算频带中每个流的能量:
然后,例如如下为每个流计算权重值
wA(k,n)=EA(k,n)ratioA(k,n)
wB(k,n)=EB(k,n)ratioB(k,n)
然后,对于每个时频块(tile)(k,n),比较wA(k,n)或wB(k,n)是否更大。然后,具有较大权重w(k,n)的流的空间元数据用于该时频块。例如,如果wA(k,n)>wB(k,n),则DOA(k,n)=DOAA(k,n)。这样就获取了组合流的空间元数据。
在一些实施例中,可以组合传输音频信号。例如在一些实施例中通过将它们相加
stransport(b,n)=stransport,A(b,n)+stransport,B(b,n)
所得到的传输时频音频信号612可以被传递到反时频变换器605,并且空间元数据622可以被传递到编码器607。
在一些实施例中,系统可以包括反时频变换器605,其以类似于图2中所示和如上所述的反时频变换器的方式操作。然后可以将传输音频信号614传递到编码器607。
此外,系统可以包括编码器607,编码器607被配置为接收空间元数据622和传输音频信号614并且生成可以被传递到远程设备的编码音频信号610或音频流。编码器607可以以与上面关于图2所示的编码器描述的方式类似的方式进行操作。结果,仅存在需要传输的单个编码音频流610。
与图2的上下文类似,在图6中,可以基于音频信号600和660以及它们的被混响的版本在时域中生成传输音频信号614,并且空间流生成器601和661可以向流组合器603提供传输音频信号作为时域信号,流组合器603在时域中例如如下组合它们
stransport(t,i)=stransport,A(t,i)+stransport,B(t,1)
其中stransport(t,i)是提供给编码器607的传输音频信号614,则不需要反时频变换605。
应该注意的是,不同的空间音频流可以源自任何地方,而不仅仅是来自近麦克风捕获。例如,其中一些可能是从如上所述的移动设备麦克风阵列捕获生成的。
此外,在一些实施例中,可以存在多于两个的输入。在这种情况下,流组合器可以类似地实现,但不比较两个权重值,而是确定所有权重值中的最大者,并且从该时频块使用该流的空间元数据。
图7中示出了图6所示的组合器系统的示例操作的流程图。
因而如701所示,有获取/接收如下的操作:音频信号A;混响参数A;语音位置A;以及混响控制A.
然后,基于混响参数A、语音位置A和混响控制A,从音频信号A生成空间流A,如703所示。
进一步地,如705所示,还有获取/接收如下的操作:音频信号B;混响参数B;语音位置B;混响控制B。
然后,基于混响参数B、语音位置B和混响控制B,从音频信号B生成空间流B,如707所示。
然后,如709所示,组合空间流A和B。
传输时频音频信号被反时频变换,如711所示。
此外,传输音频信号和空间元数据被编码并输出,如713所示。
如上所述,在一些实施例中,传输时频音频信号是在时域中生成的,因此不存在反时频变换步骤711。
关于图8,示出了用于组合多个输入的流的另一系统。
在一些实施例中,系统包括增益A 801,其被配置为接收或获取被标示为sA(t)的音频信号A 800,以及混响控制A 806。增益A 801被配置为应用曾被应用于上面所示的传输信号和空间元数据确定器的混响控制A806增益gs,A和gr,A。当信号在被混响之前进行混音时,此处会应用增益。换句话说,生成信号gs,AsA(t)852和gr,AsA(t)872。
该系统还包括被配置为接收或获取被标示为sB(t)的音频信号B 860的另一增益B861,以及混响控制B 866。增益B 861被配置为应用曾应用于上面所示的传输信号和空间元数据确定器中的混响控制B 866增益gs,B和gr,B。换句话说,生成信号gs,bsB(t)862和gr,BsB(t)874。
然后,信号872和874可以被传递到混响器811,并且信号852和862可以被传递到时频变换器803(对于信号852)和863(对于信号862)。
该系统还包括混响器811。混响器811被配置为接收混响参数802以及信号gr,AsA(t)872和gr,BsB(t)874,并对它们求和,以及根据混响参数802并且如上面所讨论的,对求和信号进行混响。然后可以将混响音频信号804传递到时频变换器813。
混响音频信号804和经增益的音频信号852、862(具有增益gs,A和gs,B)被转发给(相应的)时频变换器803、813、863,其如上所述操作。将得到的时频信号808、854、866转发给组合的传输信号和空间元数据确定器805。
该系统包括组合传输信号和空间元数据确定器805,其被配置为接收时频音频信号AS′A(b,n)854、时频音频信号BS′B(b,n)866、以及混响时频音频信号s′rev(b,n)808。如上所述,增益gs,A、gr,A、gs,B和gr,B已经被应用。另外,还接收语音位置A DOAA(n)814和语音位置B DOAB(n)864。因此可以使用下式生成传输时频音频信号812
Stransport(b,n)
=p(DOAA(n))S′A(b,n)+p(DOAB(n))S′B(b,n)+s′rev(b,n)
例如,元数据可以通过首先使用获取的输入信号如下生成每个输入的权重来生成:
然后,基于权重,可以形成元数据。
例如,如果wA(k,n)>wB(k,n),则
DOA(k,n)=DOAA(k,n)
如果wA(k,n)≤wB(k,n),则
DOA(k,n)=DOAB(k,n)
所得到的时频传输音频信号812和空间元数据822可以使用反时频变换器807和编码器809块如图2中所示进行处理。结果,仅存在需要传输的单个编码音频信号或音频流810。
在一些实施例中,这些信号可以与来自某个其他源的MASA信号组合,并且可以在反时频变换器807和编码器809之前应用流组合器。
与图2和图6的上下文中类似,传输音频信号814在此处也可以替代地在时域中生成。这意味着组合的传输信号和空间元数据确定器805还接收时频变换器803、813和863之前的信号,并且基于这些时域信号执行组合。然后,将得到的时域处理的传输音频信号814从组合的传输信号和空间元数据确定器805直接提供给编码器809,而不需要反时频变换807。
图8所示的组合器系统的示例操作的流程图如图9所示。
因此,如901所示,有获取/接收如下的操作:音频信号A;语音位置A;以及混响控制A。
然后,基于混响控制A将增益应用于音频信号A,如907所示。
进一步如903所示,有获取/接收如下的操作:音频信号B;语音位置B;以及混响控制B。
然后,基于混响控制B将增益应用于音频信号B,如909所示。
然后获取混响参数,如905所示。
基于混响参数的混响被应用于音频信号A和B的组合形式,如911所示。
将时频变换应用于经增益的音频信号A和B以及混响音频信号,如913所示。
然后确定组合的传输音频信号和空间元数据,如915所示。
传输时频音频信号被反时频变换,如917所示。
此外,传输音频信号和空间元数据被编码并输出,如919所示。
如上所述,在一些实施例中,当组合传输音频信号处于时域时,不实现反时频变换步骤917。
图10呈现了根据一些实施例的被配置为(在语音会议服务器上)执行处理的系统,其中三个用户装置1001、1003、1005(客户端)连接到在会议服务器1007上操作的会议会话。
为了简单起见,仅呈现了用于用户装置3 1005的对来自用户装置11001和用户装置2 1003的音频信号的处理(该图中省略了抖动缓冲、增益控制等)。
实际上,对于每个用户装置(即,也对于用户装置1和2)将有类似的处理。
装置1 1001和装置2 1003被配置成将编码的(单声道)音频信号(来自近麦克风)发送给会议服务器1007。会议服务器1007包括音频解码器1011和1013,它们被配置成解码这些信号并将输出信号馈送到会议服务器1007。另外,混音控制器1017被配置为控制空间混音器1019并定义用于混音的必要控制,包括混响参数、混响控制和每个输入音频信号的语音位置。
在一些实施例中,这些控制可以在混音控制器1017中自动确定,并且可以基于要混音的音频信号的数量(基于音频源的数量的预定义空间位置)并且使用用于混响的一些默认预设。替代地,参与者他/她自己(例如用户装置31005)可以被配置为交互地定义每个音频源的空间位置,并且还定义经由用户装置3 1005和会议服务器上的混音控制器1017之间的控制通道的混响预设(例如,小房间)。。使用用户装置3 1005的参与者可以具有呈现其他会议参与者的化身的图形用户界面。UI上的化身位置可以确定对应声源的空间位置。例如,当用户将表示用户装置1 1001的参与者的化身从前面移动到左侧时,语音源从前面移动到左侧。
在一些实施例中,来自不同输入的公共空间音频流(例如,MASA流)可以例如使用本文提出的方法来生成。从“空间混音器”输出的空间音频流利用适当的音频编码器(例如,IVAS编码器)进行编码,并经由音频编码器1015发送给用户装置3 1005。用户装置1005可以配置有使用中的头部跟踪头戴式耳机,因为接收到的空间音频流可以允许头部跟踪的聆听体验。
在一些实施例中,会议服务器1007还可以接收其他种类的输入。例如,会议服务器1007可以被配置为从一些用户接收音频作为单通道音频信号(如上所述),并且它还可以从一些用户接收音频作为MASA流。在这些实施例中,会议服务器1007可以被配置为使用如上所述的流组合器来组合它们。
在针对声源处理人造房间效果的一些实施例中,直接声和被混响的声的增益可以从声学空间的声音传播模型导出。通常,当距离加倍时,直接声的级别会降低6dB,并且被混响的声的级别相应地降低略小于取决于虚拟房间的属性的值。通过这种方式,当声源远离听者时,听起来更多地被混响,而当声源靠近听者时,听起来更少地被混响。在一些实施例中,可以采用直达与混响比率作为听者的距离提示。
在一些实施例中,可以在处理器中处理可选的音频效果。例如,可以针对输入音频信号处理实时音频效果,包括源方向性、多普勒效应以及取决于虚拟环境的例如障碍和遮挡效果。这些效果可以包括在上述实施例中呈现的处理链中,甚至没有在上述示例中直接示出。
在一些实施例中,图11示出了实现诸如上述实施例的示例输出的图表。在该示例中,使用近麦克风捕获用户的语音,并首先将其定位到右侧(-90度),然后缓慢向左移动,并在样本末尾到达左侧(90度)。添加了中等程度的混响。
在第一行1101中呈现了系统的输入,其是近麦克风捕获的(单耳)语音。
第二行1103和1109示出了使用混响器产生的被混响的左信号和右信号。
第三行1105和1111示出了生成的传输音频信号。从图中可以看出,在样本开始时,输入语音在右通道中更为突出,因为讲话者的位置为-90度,而最后,输入语音在左通道中更为突出,因为讲话者的位置为90度。此外,从图中可以看出,被混响的语音在整个样本的两个通道中同样突出。
第四行1107和1113示出了生成的空间元数据,或者准确地说,方向1107(左列)和直接能量与总能量比率1113(右列)参数。方向以方位角的形式呈现。它首先具有-90度的值,然后慢慢变为90度。所有频率下的值都相同。相反,直接能量与总能量比率在不同频率下是不同的,取决于某个时频块内的输入语音的能量与总能量的瞬时比率。
在一些实施例中,基于至少一个混响参数从相应的至少一个单通道音频信号生成至少一个混响音频信号是混响参数将混响器配置为能够在没有直接音频信号分量的情况下生成音频信号。
传输音频信号和空间元数据可以用于产生MASA流,该MASA流可以例如使用IVAS编码器来编码。此外,MASA流可以与其他MASA流(来自任何输入)组合。然后,编码后的MASA流可以传输给某个用户,用于例如渲染头部跟踪双声道音频等。
一般而言,本发明的各种实施例可以以硬件或专用电路、软件、逻辑或其任意组合来实现。例如,一些方面可以以硬件来实现,而其他方面可以以可以由控制器、微处理器或其他计算设备执行的固件或软件来实现,但是本发明不限于此。虽然本发明的各个方面可以被示出和描述为框图、流程图或使用一些其他图形表示,但是很好理解的是,本文描述的这些块、装置、系统、技术或方法可以在作为非限制性示例的硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备、或其某种组合中实现。
本发明的实施例可以通过可由移动设备的数据处理器(例如在处理器实体中)执行的计算机软件实现,或通过硬件、或通过软件和硬件的组合实现。此外,在这方面,应当注意,如图中的逻辑流程的任何块可以表示程序步骤、或互连逻辑电路、块和功能、或程序步骤和逻辑电路、块和功能的组合。软件可以存储在诸如存储器芯片的物理介质或在处理器内实现的存储器块、诸如硬盘或软盘之类的磁介质、以及诸如DVD及其数据变体CD之类的光学介质上。
存储器可以是适合于本地技术环境的任何类型,并且可以使用任何合适的数据存储技术(例如基于半导体的存储器设备、磁存储器设备和系统、光存储器设备和系统、固定存储器和可移动存储器)来实现。数据处理器可以是适合于本地技术环境的任何类型,并且可以包括通用计算机、专用计算机、微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、门级电路和基于多核处理器架构的处理器中的一个或多个,作为非限制性示例。
可以在诸如集成电路模块的各种组件中实践本发明的实施例。集成电路的设计基本上是高度自动化的过程。复杂且功能强大的软件工具可用于将逻辑级设计转换为准备在半导体衬底上蚀刻和形成的半导体电路设计。
程序,例如加利福尼亚州山景城的Synopsys公司和加利福尼亚州圣何塞的Cadence Design公司提供的程序,使用完善的设计规则以及预先存储的设计模块库自动路由导体并在半导体芯片上定位元件。一旦完成半导体电路的设计,就可以将标准化电子格式(例如Opus、GDSII等)的所得设计传输到半导体制造设施或“工厂”以进行制造。
前面的描述已经通过示例性和非限制性示例的方式提供了本发明的示例性实施例的完整且信息丰富的描述。然而,当结合附图和所附权利要求书阅读时,鉴于前面的描述,各种修改和适应对于相关领域的技术人员来说是明显的。然而,本发明的教导的所有此类和类似的修改仍将落入所附权利要求所限定的本发明的范围内。

Claims (20)

1.一种用于生成参数化空间音频流的方法,所述方法包括:
获取来自至少一个近麦克风的至少一个单通道音频信号;
获取以下至少一项:至少一个混响参数;以及至少一个控制参数,其被配置为控制所述参数化空间音频流的空间特征;
基于所述至少一个混响参数,从相应的至少一个单通道音频信号生成至少一个被混响的音频信号;
基于以下至少一项生成至少一个空间元数据参数:所述至少一个单通道音频信号;所述至少一个被混响的音频信号;所述至少一个控制参数;以及所述至少一个混响参数;以及
对所述至少一个被混响的音频信号和所述至少一个空间元数据参数进行编码以生成所述空间音频流。
2.根据权利要求1所述的方法,其中,从所述相应的至少一个单通道音频信号生成所述至少一个被混响的音频信号包括:
基于所述至少一个混响参数,从所述相应的至少一个单通道音频信号生成至少一个混响音频信号;以及
基于所述至少一个控制参数,组合所述至少一个单通道音频信号和相应的至少一个混响音频信号以生成所述至少一个被混响的音频信号。
3.根据权利要求2所述的方法,其中,组合所述至少一个单通道音频信号和相应的至少一个混响音频信号以生成所述至少一个被混响的音频信号包括:
获取所述至少一个控制参数,所述至少一个控制参数被配置为确定所述至少一个单通道音频信号和相应的至少一个混响音频信号在所述至少一个被混响的音频信号中的贡献;以及
基于由所述至少一个控制参数定义的所述至少一个单通道音频信号和所述相应的至少一个混响音频信号的所述贡献,生成所述至少一个被混响的音频信号。
4.根据权利要求3所述的方法,其中,组合所述至少一个单通道音频信号和相应的至少一个混响音频信号以生成所述至少一个被混响的音频信号包括:
获取确定所述至少一个单通道音频信号在音频场景内的至少一个方向和/或位置的至少一个方向和/或位置参数;
基于所述至少一个方向和/或位置参数生成平移增益;以及
将所述平移增益应用于所述至少一个单通道音频信号。
5.根据权利要求1所述的方法,其中,从所述相应的至少一个单通道音频信号生成所述至少一个被混响的音频信号包括:基于所述至少一个混响参数,从所述相应的至少一个单通道音频信号生成所述至少一个被混响的音频信号,并且其中,所述至少一个被混响的音频信号包括以下的组合:
来自所述至少一个单通道音频信号的混响音频信号部分;以及
基于所述相应的至少一个单通道音频信号的直接音频信号部分。
6.根据权利要求1所述的方法,其中,获取来自至少一个近麦克风的至少一个单通道音频信号包括以下至少之一:
获取所述至少一个单通道音频信号;以及
对至少两个音频信号进行波束成形以生成所述至少一个单通道音频信号。
7.根据权利要求1所述的方法,其中,所述至少一个混响参数包括以下至少一项:
至少一个脉冲响应;
预处理的至少一个脉冲响应;
基于至少一个脉冲响应的至少一个参数;
至少一个期望混响时间;
至少一个混响与直接比率;
至少一个房间尺寸;
至少一个房间材料声学参数;
至少一个衰减时间;
至少一个早期反射级别;
至少一个扩散参数;
至少一个预延迟参数;
至少一个阻尼参数;以及
至少一个声学空间描述符。
8.根据权利要求1所述的方法,其中,获取来自所述至少一个近麦克风的至少一个单通道音频信号包括:获取第一单通道音频信号和第二单通道音频信号。
9.根据权利要求8所述的方法,其中,所述第一单通道音频信号是从第一近麦克风获取的,并且所述第二单通道音频信号是从第二近麦克风获取的。
10.根据权利要求9所述的方法,其中,所述第一近麦克风是位于第一用户身上或第一用户附近的麦克风,并且所述第二近麦克风是位于第二用户身上或第二用户附近的麦克风。
11.根据权利要求8所述的方法,其中,从所述相应的至少一个单通道音频信号生成所述至少一个被混响的音频信号包括:
从所述第一单通道音频信号生成第一混响音频信号;以及
从所述第二单通道音频信号生成第二混响音频信号。
12.根据权利要求11所述的方法,其中,组合所述至少一个单通道音频信号和所述相应的至少一个混响音频信号以生成所述至少一个被混响的音频信号包括:
基于所述第一单通道音频信号和相应的第一混响音频信号的组合来生成第一音频信号;
基于所述第二单通道音频信号和相应的第二混响音频信号的组合来生成第二音频信号;以及
将所述第一音频信号和所述第二音频信号组合以生成所述至少一个被混响的音频信号。
13.根据权利要求8所述的方法,其中,生成所述至少一个空间元数据参数包括:
生成与所述第一音频信号相关联的第一至少一个空间元数据参数;
生成与所述第二音频信号相关联的第二至少一个空间元数据参数;
确定所述第一单通道音频信号或所述第二单通道音频信号中哪一个更占主导地位;以及
基于确定所述第一单通道音频信号或所述第二单通道音频信号中哪一个更占主导地位,选择所述第一至少一个空间元数据参数或第二至少一个空间元数据参数中的一个或另一个。
14.根据权利要求8所述的方法,其中,从所述相应的至少一个单通道音频信号生成所述至少一个被混响的音频信号包括:
从所述第一单通道音频信号生成第一经增益的音频信号,所述第一经增益的音频信号基于第一增益被应用于所述第一音频信号;
从所述第二单通道音频信号生成第二经增益的音频信号,所述第二经增益的音频信号基于第二增益被应用于所述第二音频信号;
对组合的第一经增益的音频信号和第二经增益的音频信号应用混响以生成所述至少一个混响音频信号;
从所述第一单通道音频信号生成另一第一经增益的音频信号,所述另一第一经增益的音频信号基于另一第一增益被应用于所述第一单通道音频信号;
从所述第二单通道音频信号生成另一第二经增益的音频信号,所述另一第二经增益的音频信号基于另一第二增益被应用于所述第二单通道音频信号;以及
将所述混响音频信号、所述另一第一经增益的音频信号和所述另一第二经增益的音频信号组合以生成所述至少一个被混响的音频信号。
15.根据权利要求8所述的方法,其中,生成所述至少一个空间元数据参数包括:
生成与所述第一音频信号相关联的第一至少一个空间元数据参数;
生成与所述第二音频信号相关联的第二至少一个空间元数据参数;
确定所述第一单通道音频信号或所述第二单通道音频信号中哪一个更占主导地位;以及
基于确定所述第一单通道音频信号或所述第二单通道音频信号中哪一个更占主导地位,从所述第一至少一个空间元数据参数或第二至少一个空间元数据参数中的一个或另一个确定所述至少一个空间元数据。
16.根据权利要求1所述的方法,其中,所述至少一个被混响的音频信号是被混响的单通道音频信号。
17.一种用于生成参数化空间音频流的装置,所述装置包括至少一个处理器和存储指令的至少一个存储器,所述指令在由所述至少一个处理器执行时使所述装置至少:
获取来自至少一个近麦克风的至少一个单通道音频信号;
获取以下至少一项:至少一个混响参数;以及至少一个控制参数,其被配置为控制所述参数化空间音频流的空间特征;
基于所述至少一个混响参数,从相应的至少一个单通道音频信号生成至少一个被混响的音频信号;
基于以下至少一项生成至少一个空间元数据参数:所述至少一个单通道音频信号;所述至少一个被混响的音频信号;所述至少一个控制参数;以及所述至少一个混响参数;以及
对所述至少一个被混响的音频信号和所述至少一个空间元数据参数进行编码以生成所述空间音频流。
18.根据权利要求17所述的装置,其中,使得所述装置从所述相应的至少一个单通道音频信号生成所述至少一个被混响的音频信号使得:
基于所述至少一个混响参数,从所述相应的至少一个单通道音频信号生成至少一个混响音频信号;以及
基于所述至少一个控制参数,组合所述至少一个单通道音频信号和相应的至少一个混响音频信号以生成所述至少一个被混响的音频信号。
19.根据权利要求18所述的装置,其中,使得所述装置组合所述至少一个单通道音频信号和相应的至少一个混响音频信号以生成所述至少一个被混响的音频信号使得所述装置:
获取所述至少一个控制参数,所述至少一个控制参数被配置为确定所述至少一个单通道音频信号和相应的至少一个混响音频信号在所述至少一个被混响的音频信号中的贡献;以及
基于由所述至少一个控制参数定义的所述至少一个单通道音频信号和所述相应的至少一个混响音频信号的所述贡献,生成所述至少一个被混响的音频信号。
20.根据权利要求19所述的装置,其中,使所述装置组合所述至少一个单通道音频信号和相应的至少一个混响音频信号以生成所述至少一个被混响的音频信号使得所述装置:
获取确定所述至少一个单通道音频信号在音频场景内的至少一个方向和/或位置的至少一个方向和/或位置参数;
基于所述至少一个方向和/或位置参数生成平移增益;以及
将所述平移增益应用于所述至少一个单通道音频信号。
CN202311364414.8A 2022-10-21 2023-10-20 生成参数化空间音频表示 Pending CN117917901A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB2215617.8 2022-10-20
GBGB2215617.8A GB202215617D0 (en) 2022-10-21 2022-10-21 Generating parametric spatial audio representations

Publications (1)

Publication Number Publication Date
CN117917901A true CN117917901A (zh) 2024-04-23

Family

ID=84818549

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311364414.8A Pending CN117917901A (zh) 2022-10-21 2023-10-20 生成参数化空间音频表示

Country Status (4)

Country Link
US (1) US20240236611A9 (zh)
EP (1) EP4358545A1 (zh)
CN (1) CN117917901A (zh)
GB (1) GB202215617D0 (zh)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2549532A (en) * 2016-04-22 2017-10-25 Nokia Technologies Oy Merging audio signals with spatial metadata
GB201718341D0 (en) 2017-11-06 2017-12-20 Nokia Technologies Oy Determination of targeted spatial audio parameters and associated spatial audio playback
GB2574238A (en) 2018-05-31 2019-12-04 Nokia Technologies Oy Spatial audio parameter merging
US10735884B2 (en) * 2018-06-18 2020-08-04 Magic Leap, Inc. Spatial audio for interactive audio environments

Also Published As

Publication number Publication date
EP4358545A1 (en) 2024-04-24
US20240236611A9 (en) 2024-07-11
US20240137728A1 (en) 2024-04-25
GB202215617D0 (en) 2022-12-07

Similar Documents

Publication Publication Date Title
JP7564295B2 (ja) DirACベース空間オーディオコーディングに関する符号化、復号、シーン処理、および他の手順のための装置、方法、およびコンピュータプログラム
EP3627860A1 (en) Audio conferencing using a distributed array of smartphones
US8509454B2 (en) Focusing on a portion of an audio scene for an audio signal
US20230199417A1 (en) Spatial Audio Representation and Rendering
CN113597776A (zh) 参数化音频中的风噪声降低
US11483669B2 (en) Spatial audio parameters
EP4358545A1 (en) Generating parametric spatial audio representations
CN112133316A (zh) 空间音频表示和渲染
EP4358081A2 (en) Generating parametric spatial audio representations
EP4312439A1 (en) Pair direction selection based on dominant audio direction
US20230084225A1 (en) Apparatus, Methods and Computer Programs for Repositioning Spatial Audio Streams
US20230188924A1 (en) Spatial Audio Object Positional Distribution within Spatial Audio Communication Systems
WO2024115045A1 (en) Binaural audio rendering of spatial audio
GB2620593A (en) Transporting audio signals inside spatial audio signal
KR20240152893A (ko) 파라메트릭 공간 오디오 렌더링
WO2024165271A1 (en) Audio rendering of spatial audio

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination