CN115462097A - 用于使能渲染空间音频信号的装置、方法和计算机程序 - Google Patents

用于使能渲染空间音频信号的装置、方法和计算机程序 Download PDF

Info

Publication number
CN115462097A
CN115462097A CN202180029488.9A CN202180029488A CN115462097A CN 115462097 A CN115462097 A CN 115462097A CN 202180029488 A CN202180029488 A CN 202180029488A CN 115462097 A CN115462097 A CN 115462097A
Authority
CN
China
Prior art keywords
audio
audio signals
spatial
signal
altered
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180029488.9A
Other languages
English (en)
Inventor
M-V·莱蒂南
J·维罗莱宁
J·维卡莫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Technologies Oy
Original Assignee
Nokia Technologies Oy
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Technologies Oy filed Critical Nokia Technologies Oy
Publication of CN115462097A publication Critical patent/CN115462097A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/155Musical effects
    • G10H2210/265Acoustic effect simulation, i.e. volume, spatial, resonance or reverberation effects added to a musical sound, usually by appropriate filtering or delays
    • G10H2210/281Reverberation or echo
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/155Musical effects
    • G10H2210/265Acoustic effect simulation, i.e. volume, spatial, resonance or reverberation effects added to a musical sound, usually by appropriate filtering or delays
    • G10H2210/295Spatial effects, musical uses of multiple audio channels, e.g. stereo
    • G10H2210/305Source positioning in a soundscape, e.g. instrument positioning on a virtual soundstage, stereo panning or related delay or reverberation changes; Changing the stereo width of a musical source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Abstract

一种用于使能对被应用了的音频效果的音频信号进行空间渲染的装置。该装置包括用于执行以下操作的部件:获得一个或多个音频信号(503);获得与一个或多个所获得的音频信号有关的一个或多个空间元数据(303),其中,该一个或多个空间元数据包括指示如何在空间上再现一个或多个所获得的音频信号的信息;对一个或多个所获得的音频信号(807)应用(505)一个或多个音频效果以提供一个或多个经改变的音频信号(515);获得音频效果信息(309),其中,该音频效果信息包括与应用一个或多个音频效果如何影响一个或多个所获得的音频信号(807)的一个或多个信号特性有关的信息;以及使用所获得的音频效果信息(309)和一个或多个空间元数据(807)以使能对一个或多个经改变的音频信号(515)进行所指示的空间渲染。

Description

用于使能渲染空间音频信号的装置、方法和计算机程序
技术领域
本公开的实施例涉及用于使能渲染空间音频信号的装置、方法和计算机程序。一些实施例涉及用于使能对被应用了音频效果的空间音频信号进行渲染的装置、方法和计算机程序。
背景技术
一些音频设备使用户能够对音频信号应用特定效果。例如,用户可以能够加快或减慢音频信号。这种速度上的变化可以被用于配合视频或其他图像。在一些示例中,用户可以应用诸如音高偏移或可使能语音伪装的其他效果之类的特定效果。当此类效果被应用时,它们会对音频信号的任何空间化产生不利影响。
发明内容
根据本公开的各种但并非所有的示例,提供了一种装置,其包括用于执行以下操作的部件:获得一个或多个音频信号;获得与一个或多个所获得的音频信号有关的一个或多个空间元数据,其中,该一个或多个空间元数据包括指示如何在空间上再现一个或多个所获得的音频信号的信息;对一个或多个所获得的音频信号应用一个或多个音频效果以提供一个或多个经改变的音频信号;获得音频效果信息,其中,该音频效果信息包括与应用一个或多个音频效果如何影响一个或多个所获得的音频信号的一个或多个信号特性有关的信息;以及使用所获得的音频效果信息和一个或多个空间元数据以使能对一个或多个经改变的音频信号进行所指示的空间渲染。
音频效果可以包括改变以下中的至少一项的效果:一个或多个所获得的音频信号的频谱特性;以及一个或多个所获得的音频信号的时间特性。
音频效果信息可以包括与应用一个或多个音频效果如何根据以下中的至少一项影响一个或多个所获得的音频信号的一个或多个信号特性有关的信息:频率;以及时间。
可以至少部分地从使用音频效果控制信号的处理获得音频效果信息,其中,该音频效果控制信号控制被应用于一个或多个所获得的音频信号的音频效果。
使用所获得的音频效果信息和一个或多个空间元数据以使能对一个或多个经改变的音频信号进行所指示的空间渲染可以包括:基于该音频效果信息,生成经修改的空间元数据,以及使用经修改的一个或多个空间元数据来渲染经改变的音频信号。
使用所获得的音频效果信息和一个或多个空间元数据以使能对一个或多个经改变的音频信号进行所指示的空间渲染可以包括:调整被用于渲染一个或多个经改变的音频信号的一个或多个频带。
使用所获得的音频效果信息和一个或多个空间元数据以使能对一个或多个经改变的音频信号进行所指示的空间渲染可以包括:调整被用于渲染经改变的音频信号的一个或多个时间帧的大小。
一个或多个经改变的音频信号可以包括经效果处理的音频信号。
该装置可以包括用于执行以下操作的部件:在应用一个或多个音频效果之前,至少部分地补偿一个或多个所获得的音频信号的空间特性。
被至少部分地补偿的空间特性可以包括双耳特性。
该装置用于执行以下操作的部件:分析一个或多个经改变的音频信号的协方差矩阵特性,以及调整空间渲染以使得经渲染的音频信号的协方差矩阵与目标协方差矩阵相匹配。
当渲染一个或多个经改变的音频信号时,空间元数据和音频效果信息可以被用于至少部分地保留一个或多个所获得的音频信号的空间特性。
针对一个或多个频率子带,一个或多个空间元数据可以包括声音方向参数;以及能量比率参数。
可以由该装置捕获一个或多个所获得的音频信号。
一个或多个所获得的音频信号可以由单独的捕获设备捕获并被发送到该装置。
一个或多个空间元数据和音频效果控制信号中的至少一项可以从捕获设备被发送到该装置。
根据本公开的各种但并非所有的示例,提供了一种装置,其包括至少一个处理器和包括计算机程序代码的至少一个存储器,该至少一个存储器和计算机程序代码被配置为与该至少一个处理器一起使该装置至少执行:获得一个或多个音频信号;获得与一个或多个所获得的音频信号有关的一个或多个空间元数据,其中,该一个或多个空间元数据包括指示如何在空间上再现一个或多个所获得的音频信号的信息;对一个或多个所获得的音频信号应用一个或多个音频效果以提供一个或多个经改变的音频信号;获得音频效果信息,其中,该音频效果信息包括与应用一个或多个音频效果如何影响一个或多个所获得的音频信号的一个或多个信号特性有关的信息;以及使用所获得的音频效果信息和一个或多个空间元数据以使能对一个或多个经改变的音频信号进行所指示的空间渲染。
根据本公开的各种但并非所有的示例,提供了一种方法,其包括:获得一个或多个音频信号;获得与一个或多个所获得的音频信号有关的一个或多个空间元数据,其中,该一个或多个空间元数据包括指示如何在空间上再现一个或多个所获得的音频信号的信息;对一个或多个所获得的音频信号应用一个或多个音频效果以提供一个或多个经改变的音频信号;获得音频效果信息,其中,该音频效果信息包括与应用一个或多个音频效果如何影响一个或多个所获得的音频信号的一个或多个信号特性有关的信息;以及使用所获得的音频效果信息和一个或多个空间元数据以使能对一个或多个经改变的音频信号进行所指示的空间渲染。
在一些方法中,音频效果可以包括改变以下中的至少一项的效果:一个或多个所获得的音频信号的频谱特性;以及一个或多个所获得的音频信号的时间特性。
在一些方法中,音频效果信息可以包括与应用一个或多个音频效果如何根据以下中的至少一项影响一个或多个所获得的音频信号的一个或多个信号特性有关的信息:频率;以及时间。
在一些方法中,可以至少部分地从使用音频效果控制信号的处理获得音频效果信息,其中,该音频效果控制信号控制被应用于一个或多个所获得的音频信号的音频效果。
在一些方法中,使用所获得的音频效果信息和一个或多个空间元数据以使能对一个或多个经改变的音频信号进行所指示的空间渲染可以包括:基于该音频效果信息,生成经修改的空间元数据,以及使用经修改的一个或多个空间元数据来渲染经改变的音频信号。
在一些方法中,使用所获得的音频效果信息和一个或多个空间元数据以使能对一个或多个经改变的音频信号进行所指示的空间渲染可以包括:调整被用于渲染一个或多个经改变的音频信号的一个或多个频带。
在一些方法中,使用所获得的音频效果信息和一个或多个空间元数据以使能对一个或多个经改变的音频信号进行所指示的空间渲染可以包括:调整被用于渲染经改变的音频信号的一个或多个时间帧的大小。
在一些方法中,一个或多个经改变的音频信号可以包括经效果处理的音频信号。
在一些方法中,该方法可以包括:在应用一个或多个音频效果之前,至少部分地补偿一个或多个所获得的音频信号的空间特性。
在一些方法中,被至少部分地补偿的空间特性可以包括双耳特性。
在一些方法中,该方法可以包括:分析一个或多个经改变的音频信号的协方差矩阵特性,以及调整空间渲染以使得经渲染的音频信号的协方差矩阵与目标协方差矩阵相匹配。
在一些方法中,当渲染一个或多个经改变的音频信号时,空间元数据和音频效果信息可以被用于至少部分地保留一个或多个所获得的音频信号的空间特性。
在一些方法中,针对一个或多个频率子带,一个或多个空间元数据可以包括声音方向参数;以及能量比率参数。
在一些方法中,可以由装置捕获一个或多个所获得的音频信号。
在一些方法中,一个或多个所获得的音频信号可以由单独的捕获设备捕获并被发送到该装置。
在一些方法中,一个或多个空间元数据和音频效果控制信号中的至少一项可以从捕获设备被发送到该装置。
根据本公开的各种但并非所有的示例,提供了一种包括计算机程序指令的计算机程序,这些计算机程序指令在由处理电路执行时使得:获得一个或多个音频信号;获得与一个或多个所获得的音频信号有关的一个或多个空间元数据,其中,该一个或多个空间元数据包括指示如何在空间上再现一个或多个所获得的音频信号的信息;对一个或多个所获得的音频信号应用一个或多个音频效果以提供一个或多个经改变的音频信号;获得音频效果信息,其中,该音频效果信息包括与应用一个或多个音频效果如何影响一个或多个所获得的音频信号的一个或多个信号特性有关的信息;以及使用所获得的音频效果信息和一个或多个空间元数据以使能对一个或多个经改变的音频信号进行所指示的空间渲染。
在一些计算机程序中,音频效果可以包括改变以下中的至少一项的效果:一个或多个所获得的音频信号的频谱特性;以及一个或多个所获得的音频信号的时间特性。
附图说明
现在将参考附图描述一些示例,其中:
图1示出示例装置;
图2示出示例方法;
图3示出示例装置;
图4示出示例装置;
图5示出示例系统;
图6示出示例装置;
图7示出示例装置;以及
图8示出示例系统。
具体实施方式
附图图示了可以被配置为使能渲染空间音频信号的装置101。装置101包括用于执行以下操作的部件:获得201一个或多个音频信号301;获得203与一个或多个所获得的音频信号301有关的一个或多个空间元数据303,其中,该一个或多个空间元数据303包括指示如何在空间上再现音频信号301的信息;对一个或多个所获得的音频信号301应用205一个或多个音频效果以提供一个或多个经改变的音频信号309;获得207音频效果信息311,其中,该音频效果信息包括与应用一个或多个音频效果如何影响一个或多个所获得的音频信号301的一个或多个信号特性有关的信息;以及使用209所获得的音频效果信息311和一个或多个空间元数据303以使能对一个或多个经改变的音频信号309进行所指示的空间渲染。
因此,根据本公开的实施例的装置101使能在音频效果已被应用于空间音频之后对该空间音频进行渲染。
图1示意性地示出了根据本公开的示例的装置101。图1中所示的装置101可以是芯片或芯片组。在一些示例中,装置101可以在诸如处理设备之类的设备内被提供。在一些示例中,装置101可以在音频捕获设备或音频渲染设备内被提供。
在图1的示例中,装置101包括控制器103。在图1的示例中,控制器103的实现可以是控制器电路。控制器103可以仅以硬件实现,具有仅包括固件的软件的某些方面,或者可以是硬件和软件(包括固件)的组合。
如图1中所示,控制器103可以使用使能硬件功能的指令来实现,例如,通过在通用或专用处理器105中使用计算机程序109的可执行指令,这些可执行指令可以被存储在计算机可读存储介质(磁盘、存储器等)上以由这种处理器105执行。
处理器105被配置为从存储器107读取和向存储器107写入。处理器105还可以包括处理器105经由其输出数据和/或命令的输出接口以及经由其向处理器105输入数据和/或命令的输入接口。
存储器107被配置为存储包括计算机程序指令(计算机程序代码111)的计算机程序109,其在被加载到处理器105中时控制装置101的操作。计算机程序109的计算机程序指令提供逻辑和例程,其使装置101能够执行图2中所示的方法。通过读取存储器107,处理器105能够加载并执行计算机程序109。
因此,装置101包括:至少一个处理器105;以及包括计算机程序代码111的至少一个存储器107,至少一个存储器107和计算机程序代码111被配置为与至少一个处理器105一起使装置101至少执行:获得201一个或多个音频信号301;获得203与音频信号301有关的一个或多个空间元数据303,其中,该一个或多个空间元数据303包括指示如何在空间上再现一个或多个所获得的音频信号301的信息;对一个或多个所获得的音频信号301应用205一个或多个音频效果以提供一个或多个经改变的音频信号309;获得207音频效果信息311,其中,该音频效果信息包括与应用一个或多个音频效果如何影响一个或多个所获得的音频信号301的一个或多个信号特性有关的信息;以及使用209所获得的音频效果信息311和一个或多个空间元数据303以使能对一个或多个经改变的音频信号309进行所指示的空间渲染。
如图1中所示,计算机程序109可以经由任何合适的传送机制113到达装置101。传送机制113例如可以是机器可读介质、计算机可读介质、非暂时性计算机可读存储介质、计算机程序产品、存储设备、诸如光盘只读存储器(CD-ROM)或数字多功能光盘(DVD)或固态存储器之类的记录介质、包括或有形地体现计算机程序109的制造产品。该传送机制可以是被配置以可靠地传送计算机程序109的信号。装置101可以将计算机程序109传播或发送为计算机数据信号。在一些示例中,计算机程序109可以使用诸如蓝牙、蓝牙低功耗、蓝牙智能、6LoWPan(基于低功率个域网络的IPv6)、ZigBee、ANT+、近场通信(NFC)、射频识别、无线局域网(无线LAN)或任何其他合适的协议之类的无线协议被发送到装置101。
计算机程序109包括用于使装置101至少执行以下操作的计算机程序指令:获得201一个或多个音频信号301;获得203与音频信号301有关的一个或多个空间元数据303,其中,该一个或多个空间元数据303包括指示如何在空间上再现一个或多个所获得的音频信号301的信息;对一个或多个所获得的音频信号301应用205一个或多个音频效果以提供经改变的音频信号309;获得207音频效果信息311,其中,该音频效果信息包括与应用一个或多个音频效果如何影响一个或多个所获得的音频信号301的一个或多个信号特性有关的信息;以及使用209所获得的音频效果信息311和一个或多个空间元数据303以使能对一个或多个经改变的音频信号309进行所指示的空间渲染。
这些计算机程序指令可以被包括在计算机程序109、非暂时性计算机可读介质、计算机程序产品、机器可读介质中。在一些但并非所有示例中,这些计算机程序指令可以被分布在多于一个的计算机程序109上。
虽然存储器107被示出为单个组件/电路,但它也可以被实现为一个或多个单独的组件/电路,其中一些或所有组件/电路可以是集成的/可移除的,和/或可以提供永久/半永久/动态/缓存存储。
虽然处理器105被示出为单个组件/电路,但它也可以被实现为一个或多个单独的组件/电路,其中一些或所有组件/电路可以是集成的/可移除的。处理器105可以是单核或多核处理器。
对“计算机可读存储介质”、“计算机程序产品”、“有形体现的计算机程序”等或“控制器”、“计算机”、“处理器”等的提及应被理解为不仅涵盖具有诸如单个/多个处理器架构和串行(冯诺依曼)/并行架构之类的不同架构的计算机,而且还涵盖诸如现场可编程门阵列(FPGA)、专用集成电路(ASIC)、信号处理设备和其他处理电路之类的专用电路。对计算机程序、指令、代码等的提及应被理解为涵盖用于可编程处理器的软件、或者可包括用于处理器的指令的例如硬件设备的可编程内容的固件、或者用于固定功能器件、门阵列或可编程逻辑器件等的配置设置。
如在本申请中所使用的,术语“电路”可以是指以下中的一个或多个或全部:
(a)仅硬件电路实现(诸如仅模拟和/或数字电路的实现);
(b)硬件电路和软件的组合,诸如(如果适用):
(i)模拟和/或数字硬件电路与软件/固件的组合;以及
(ii)具有软件的硬件处理器的任何部分(包括数字信号处理器、软件和存储器,其一起工作以使诸如移动电话或服务器之类的装置执行各种功能);以及
(c)硬件电路和/或处理器,诸如微处理器或微处理器的一部分,其需要软件(例如,固件)来操作,但操作不需要软件时可以不存在软件。
“电路”的这一定义适用于在本申请中该术语的全部使用,包括在任何权利要求中的使用。作为另一个示例,如在本申请中使用的,术语“电路”还覆盖仅硬件电路或处理器及其伴随的软件和/或固件的实现。术语“电路”还覆盖(例如且如果适用于具体要求的元件)用于移动设备的基带集成电路、或者服务器、蜂窝网络设备或其他计算或网络设备中的类似集成电路。
图2示出了示例方法。该方法可以使用如图1中所示的装置101来实现。
在框201处,该方法包括获得一个或多个音频信号301。在一些示例中,音频信号301可以包括已由装置101的多个麦克风或者被耦接到装置101的麦克风捕获的信号。在一些示例中,音频信号301可以由与装置101分离的记录设备捕获。在这种示例中,音频信号301可以经由任何合适的通信链路被发送到装置101。音频信号301可以被存储在装置101的存储器107中,并且在需要时可以从存储器107中被取回。
音频信号301可以包括一个或多个通道。该一个或多个通道(结合如所需的任何空间元数据)可以使能由渲染设备来渲染空间音频。该空间音频被音频渲染,以使得用户可以感知音频信号的空间特性。例如,空间音频可以被渲染,以使得用户可以感知起源的方向和与音频源的距离。在一些示例中,空间音频可以使能向用户提供沉浸式音频体验。该沉浸式音频体验可以包括虚拟现实或增强现实体验或者任何其他合适的体验。
该方法还包括在框203处,获得与音频信号301有关的空间元数据303,其中,空间元数据303包括指示如何在空间上再现音频信号301的信息。空间元数据303可以包括诸如音频到达方向、与音频源的距离、直接对总能量比(direct-to-total energy ratio)、扩散对总能量比(diffuse-to-total energy ratio)或任何其他合适的信息之类的信息。可以在频带中提供空间元数据303。在一些示例中,针对一个或多个频率子带,空间元数据503可以包括声音方向参数、以及能量比率参数。
在图2中所示的示例中,空间元数据303可以与音频信号301一起被获得。例如,渲染设备201可以经由通信链路接收信号,其中,该信号包括音频信号301和空间元数据303两者。在其他示例中,空间元数据303可以与音频信号301分开被获得。例如,装置101可以获得音频信号301,进而可以单独地处理音频信号301以获得空间元数据303。
在框205处,该方法包括对所获得的音频信号301应用一个或多个音频效果以提供一个或多个经改变的音频信号309。该音频效果包括改变所获得的音频信号301的频谱特性或所获得的音频信号301的时间特性中的至少一个的音频效果。
在一些示例中,音频效果可以包括改变所获得的音频信号301的播放速率的效果。在一些示例中,播放速率可以被改变以匹配随附的视频或其他图像的播放速率。例如,音频信号301可以以增加的速率被播放以匹配已被加快的视频,或者以更慢的速率被播放以匹配已被减慢的视频。
播放速率的不同变化可以由音频效果来提供。播放速率的变化范围可以从轻微的变化(例如,一倍半)到中等的变化(例如,四倍)到很大的变化(例如,二十倍)。
播放速率的变化可以使用音频信号301内音频波形的内插、音频信号301的时间尺度修改、或者任何其他合适的过程或过程组合来实现。
在一些示例中,一个或多个音频效果可以包括音高偏移(pitch shift)效果。该音高偏移效果可以被用于有目的地改变音频信号301的音高。这可以被用于创建一个人以较高的音调或较低的音调说话的效果或者任何其他合适的效果。
任何合适的过程都可以被用于实现音高偏移。在一些示例中,音高偏移可以通过组合时间尺度修改处理和采样率转换来实现。例如,为了实现两倍高的音高,音频信号起初在长度上以因子“二”被拉伸,然后以因子“二分之一”被重采样。这将导致音频信号具有与原始信号相同的长度但具有两倍高的音高。
在一些示例中,音频效果可以包括语音效果。这可以包括变换歌唱者或讲话者的语音的特性,或者甚至替换歌唱者或讲话者的语音。语音效果可以通过组合时间尺度修改、频率尺度修改、共振峰频率控制和其他合适的效果来实现。这可以使能诸如创建卡通风格语音、创建机器人语音、创建怪兽语音、改变语音的性别、或者任何其他合适的语音效果之类的语音效果。
在框207处,该方法包括获得音频效果信息311。音频效果信息311包括与应用一个或多个音频效果如何影响所获得的音频信号301的一个或多个信号特性有关的信息。该音频效果信息可以包括与应用一个或多个音频效果如何根据频率或时间中的至少一个影响所获得的音频信号301的一个或多个信号特性有关的信息。
在一些示例中,可以在使用音频效果控制信号305进行处理之后至少部分地获得音频效果信息311。音频效果控制信号305可以被用于对所获得的音频信号301应用一个或多个音频效果。在这种示例中,音频效果信息311可以从音频效果控制信号311内提供的信息中导出。
在框209处,该方法包括使用所获得的音频效果信息311和空间元数据303以使能对经改变的音频信号309进行所指示的空间渲染。该空间渲染使经改变的音频信号309能够以与原始获得的音频信号301类似的空间特性进行渲染。在一些示例中,空间渲染可以使经改变的音频信号309以与原始获得的音频信号301相同的空间特性进行渲染。当渲染经改变的音频信号309时,空间元数据303和音频效果信息311被用于至少部分地保留与所获得的音频信号301有关的空间特性。因此,即使当一个或多个音频效果已被应用时,这也使能对空间音频进行再现。
任何合适的过程都可以被用于使能对经改变的音频信号309进行空间渲染。在一些示例中,空间渲染可以包括:基于音频效果信息,生成经修改的空间元数据315,以及使用经修改的空间元数据315来渲染经改变的音频信号309。在一些示例中,空间渲染可以包括调整被用于渲染经改变的音频信号309的一个或多个频带和/或调整被用于渲染经改变的音频信号309的一个或多个时间帧的大小。
应当理解,用于实现本公开的实施例的方法可以包括在图2中未示出的附加的框。例如,在一些示例中,该方法可以包括:在使用音频效果控制信号305应用一个或多个音频效果之前,至少部分地补偿所获得的音频信号301的空间特性。被至少部分地补偿的空间特性可以包括频率相关的特性,诸如双耳特性。进而,音频效果控制信号305可以被应用于已被至少部分地补偿了空间特性的音频信号。一旦音频效果已被应用,空间特性进而就可以被重新应用。
在一些示例中,该方法可以包括分析经改变的音频信号309的协方差矩阵特性,以及调整空间渲染以使得经渲染的音频信号的协方差矩阵与目标协方差矩阵相匹配。这可以确保在经改变的音频信号309中保留所获得的音频信号301的空间特性的至少一些。
图3示意性地示出了可以使用示例装置101来实现以实现本公开的示例的模块。
装置101的模块被配置为获得一个或多个音频信号301。装置101的模块还被配置为获得与一个或多个音频信号301相关联的空间元数据303。音频信号301和空间元数据303一起提供参数化空间音频信号。
参数化空间音频信号可以源自任何合适的源。在一些示例中,可以从麦克风阵列和麦克风信号的空间分析获得参数化空间音频信号。该麦克风阵列可以在与装置101相同的设备中、或者在不同的设备中被提供。在一些示例中,可以从立体声或环绕声信号(诸如5.1信号)的处理获得参数化空间音频信号。
装置101的模块还被配置为接收一个或多个音频效果控制信号305。音频效果控制信号305是包括使能对音频信号301应用音频效果的信息的输入。因此,音频效果控制信号305控制被应用于一个或多个所获得的音频信号的音频效果。该音频效果可以是改变音频信号301的频谱或时间特性的任何音频效果。该音频效果可以是播放速率的变化、音高偏移、语音效果、或者任何其他合适的音频效果。音频效果控制信号305可以包括音频效果的参数、预先设置的指示符、或任何其他合适的信息。
音频效果控制信号305可以包括音高缩放因子sf、时间缩放因子st、以及使期望的音频效果能够被应用于音频信号301的任何其他信息。
装置101的模块被配置以使得音频信号301和音频效果控制信号305被提供给音频效果模块307。音频效果模块307使一个或多个音频效果能够被应用于所获得的音频信号301。
在此示例中,应用音频效果包括处理音频信号以改变音频信号301的音高和播放速率。任何合适的过程都可以被用以改变音频信号301的音高和/或播放速率。在其中音高和播放速率被线性连接的示例中,该过程可以包括对音频进行重采样。在一些示例中,音高和播放速率可以单独地处理。
一旦音频效果已被应用,音频效果模块307就提供一个或多个经改变的音频信号作为输出。在此示例中,经改变的音频信号是经效果处理的音频信号309。
音频效果模块307还提供音频效果信息311作为输出。音频效果信息311提供指示音频效果的应用如何影响音频信号301的信号特性的信息。在一些示例中,音频效果信息可以包括在音频效果控制信号305内提供的一个或多个参数。例如,音频效果信息311可以包括音高缩放因子sf,时间缩放因子st和任何其他合适的信息。
在一些示例中,音频效果控制信号305和音频效果信息311可以包括相同的信息。例如,它们都可以包括相同的音高缩放因子sf和相同的时间缩放因子st。在这种示例中,该信息被音频效果模块307用于应用音频效果,并且还被提供为音频效果模块307的输出。
在其他示例中,音频效果控制信号305和音频效果信息311可以是不同的。例如,音频效果控制信号305可以包括使能选择一组参数的预先设置的索引值。音频效果信息311进而可以包括已被选择的参数。
装置101的模块被配置以使得音频效果信息311和空间元数据303被提供给空间元数据处理模块313。在此示例中,空间元数据处理模块313被配置为使用音频效果信息311修改空间元数据303,以使得当渲染经效果处理的音频信号309时保留参数化空间音频信号的空间特性。在一些示例中,空间元数据303的处理可以包括空间元数据303的时间和频带的频谱和/或时间重映射。
作为空间元数据303的时间和频带的频谱和/或时间重映射的说明性示例,空间元数据303可以包括声音方位角θ(k,n)、声音仰角
Figure BDA0003897385240000141
和直接对总能量比r(k,n),其中,k是频带索引,n是时间帧索引。为了使能重映射,方位角、仰角和比率可以被转换为向量表示v(k,n)。在向量表示中,向量方向表示声音的到达方向,向量长度是比率,如:
Figure BDA0003897385240000142
在此处理中,可以假定对于其中v(k,n)没有被定义的任何索引,例如,对于k或n的负索引,v(k,n)=[0 0 0]T
第n个元数据帧的中心时间位置被标示为t(n),第k个元数据频带的中心频率被标示为f(k)。空间元数据303进而被映射到与所应用的音频效果的时间和频谱偏移对应的新位置。新的被映射的位置可以被标示为t(n)st和f(k)sf
经效果处理的音频信号309是以原始采样率被提供的,即使它已在时间和频率上被改变,并因此经修改的空间元数据315也需要以原始的时间和频谱分辨率被提供。因此,在被映射的位置处的空间元数据303需要被内插到相同的分辨率。也就是说,对于原始音频信号301的每个位置t(n)、f(k),新的经修改的空间元数据值必须基于被映射的位置进行内插。
针对每个(n,k),确定以下四个索引。
-索引n1,其向方程式t(n1)st-t(n)提供最大负值
-索引n2,其向方程式t(n2)st-t(n)提供最小非负值
-索引k1,其向方程式f(k1)sf-f(k)提供最大负值
-索引k2,其向方程式f(k2)sf-f(k)提供最小非负值
需要注意,n1和n2是依赖于n的变量,k1和k2是依赖于k的变量。为了简洁起见,上面并未写出这些依赖关系。
进而,沿时间和频率轴的内插权重被表示如下。
Figure BDA0003897385240000151
Figure BDA0003897385240000152
进而,经内插的元数据向量为:
v′(k,n)=v(k1,n1)(1-wf(k))(1-wt(n))+v(k2,n1)wf(k)(1-wt(n))+v(k1,n2)(1-wf(k))wt(n)+v(k2,n2)wf(k)wt(n)
进而,标示v′(k,n)=[v1(k,n) v2(k,n) v3(k,n)]T,经修改的空间元数据的值为:
θ′(k,n)=atan2(v2(k,n),v1(k,n))
Figure BDA0003897385240000153
Figure BDA0003897385240000154
应当理解,可以在本公开的其他示例中使用用于修改空间元数据303的其他过程。
一旦空间元数据303已被处理,空间元数据处理模块313就提供经修改的空间元数据315作为输出。
装置101的模块被配置以使得经效果处理的音频信号309和经修改的空间元数据315被提供给空间合成模块317。空间合成模块317被配置为使用经修改的空间元数据315以使能对经效果处理的音频信号309进行空间渲染。经修改的空间元数据315已被映射以提供与经效果处理的音频信号309同步的经更新的空间信息。这使能以与空间元数据303可以被使用的方式对应的方式使用经修改的空间元数据315,以使能在没有应用任何音频效果的情况下对音频信号301进行空间渲染。
空间合成模块317可以使用任何合适的过程以使能对经效果处理的音频信号309进行空间渲染。
在其中音频信号301(和经效果处理的音频信号309)是立体声信号的示例中,由空间合成模块317进行处理可以包括:
1)将经效果处理的音频信号309变换到时频域。此变换可以通过使用短时傅里叶变换(STFT)或任何其他合适的手段来完成。
2)在频带中,测量时频音频信号的协方差矩阵。
3)在频带中,确定目标总能量。该目标总能量是所测量的协方差矩阵的对角线元素之和。
4)在频带中,基于目标总能量、经修改的空间元数据315、以及头部相关传递函数(HRTF)数据,确定目标协方差矩阵。该目标协方差矩阵由直接/定向部分与环境部分相加组成。该目标协方差矩阵的直接部分是基于r′(k,n)、总能量、以及针对方向θ′(k,n)和
Figure BDA0003897385240000161
的HRTF数据。该目标协方差矩阵的环境部分是基于1-r′(k,n)、总能量、以及基于HRTF数据的扩散场协方差矩阵。
5)在频带中,确定混合矩阵,其中,该混合矩阵是基于经测量的协方差矩阵和目标协方差矩阵,并用所确定的混合矩阵处理频带信号以生成经处理的频带信号。
6)对经处理的时频信号应用逆时频变换,诸如逆STFT。
上述过程的结果是空间音频信号319以双耳形式被提供为空间合成模块317的输出。类似类型的过程可以被用于提供不同类型的空间音频信号,诸如扬声器信号、全景环绕声(Ambisonic)信号、或任何其他合适类型的信号。
空间合成模块317提供空间音频信号319作为输出。空间音频信号319可以被提供给扬声器或耳机或任何其他合适的设备以用于播放。空间音频信号319可以是双耳信号、环绕声扬声器信号、经串扰消除的扬声器信号、Ambisonic信号、或任何其他合适的空间音频信号。空间音频信号319具有被应用于它的音频效果,但是空间特性被修改为对应于没有应用音频效果的音频信号301的空间特性和空间元数据。
因此,如图3中所示的装置101的模块被配置为使能对经效果处理的音频信号309进行空间渲染。
在一些示例中,音频效果可能会损坏所获得的音频信号301的通道间电平和/或相位差。为了解决可能在图1的装置101中引起的任何问题,经修改的空间元数据315使能解决对这些参数的损坏。在上面描述的示例中,使用经修改的空间元数据315和协方差矩阵使能校正被损坏的通道电平和相位差。
应当理解,如图3中所示,可以对装置101的模块进行修改。例如,在一些示例中,空间元数据处理模块313可以被省略,或者被部分地省略。在这种示例中,空间元数据处理、或空间元数据处理的一部分、或与空间元数据处理对应的处理可以由空间合成模块317执行。在这种示例中,装置101的模块可以被配置以使得音频效果信息311被提供给空间合成模块317。在这种示例中,如果音频效果信息311指示播放速率已被改变,则空间合成模块317被配置为改变用于空间合成的音频帧大小。例如,如果播放速率被减少一半,则用于空间合成的音频帧大小将会被增加一倍。类似地,如果音频效果信息311指示音高已被改变,则空间合成模块317被配置为改变用于空间合成的频带。频带限制可以通过与已改变音高的相同因子来改变。这将会使能原始的、未经修改的空间元数据303与经效果处理的音频信号309相匹配。
在一些示例中,装置101可以在编码设备内被提供。在这种示例中,经效果处理的音频信号309可以被编码以用于发送而并不由装置101进行空间渲染。在这种示例中,经效果处理的音频信号309和经修改的空间元数据303可以被提供给音频编码器模块而不是空间合成模块。该音频编码器模块可以被配置为使用任何合适的编码方法(诸如AAC(高级音频编码)或EVS(增强型语音服务)编码)来对经效果处理的音频信号309进行编码,并使用任何合适的手段来对经修改的空间元数据315进行编码。进而,经编码的经效果处理的音频信号309和经修改的空间元数据315可以被复用到音频比特流。经编码的经效果处理的音频信号309和经修改的空间元数据315可以与对应的视频流复用。该音频比特流进而可以被发送到诸如播放设备之类的另一个设备。在这些示例中,空间元数据303由在编码设备处的空间元数据处理模块313进行修改,以使得不需要向播放设备发送音频效果信息311。
图4示意性地示出了音频捕获设备401的模块。这些模块可以使用如上所述的装置101来实现。捕获设备401可以包括麦克风阵列,该麦克风阵列可以被配置为捕获空间音频。捕获设备401可以包括移动电话、相机设备或任何其他合适类型的捕获设备。捕获设备401还可以包括相机或其他成像设备,这些设备可以被配置为捕获与由麦克风阵列所捕获的音频对应的视频。
在图4的示例中,捕获设备401从麦克风阵列获得麦克风阵列信号403。麦克风阵列信号403包括表示已由该阵列内的麦克风所捕获的空间音频的信号。
捕获设备401包括预处理模块405。麦克风阵列信号403作为输入被提供给预处理模块405。预处理模块405被配置为处理麦克风阵列信号403以获得具有合适的音色的音频信号301,以用于收听或进一步处理。例如,麦克风阵列信号403可以被均衡化、被增益控制或者被噪声处理以去除诸如麦克风噪声或风噪声之类的噪声。因此,在这种示例中,预处理模块405可以包括均衡器、自动增益控制器、限制器或任何其他合适的技术以用于处理麦克风阵列信号403。
预处理模块405提供音频信号301作为输出。在此示例中,音频信号301包括经预处理的麦克风阵列信号。音频信号301可以被提供给如上面关于图3所描述的音频效果模块307。
麦克风阵列信号403还作为输入被提供给空间分析模块407。空间分析模块407可以被配置为处理麦克风阵列信号403以获得空间元数据303。空间元数据303可以包括诸如针对不同频带的方向和直接对总能量比之类的信息。
在一些示例中,空间分析模块407可以被配置为对麦克风阵列信号403使用STFT以将麦克风阵列信号403变换到STFT域。在STFT域中,空间分析模块407被配置为确定使音频通道之间的相关性最大化的延时。这些延时针对不同的频带而被确定。进而,针对不同频带的延时值被转换为方向参数。在该延时的相关值被转换为比率参数。这提供了包括方向和比率参数的空间元数据303,作为空间分析模块407的输出。
在图4中所示的示例中,由装置101实现的模块还接收音频效果控制信号305作为输入。在此示例中,该音频效果控制信号可以包括指示将要被应用于音频信号301的音频效果的信息。
作为示例,捕获设备401可以被用于捕获慢动作视频和对应的音频。当捕获设备401被配置为捕获慢动作视频时,可以提供指示帧速率的变化的指示符。例如,该指示符可以指示视频是以正常帧速率的八倍的更高帧速率捕获的,以便提供慢八倍的视频。该指示符可以在音频效果控制信号305内被提供,以使能被应用于音频信号301的播放速率的对应变化。
在此示例中,音频效果模块307接收音频效果控制信号305,并使用在音频效果控制信号305中提供的信息以改变音频信号301的播放速率。由于慢动作视频的速度慢八倍,因此音频信号301的播放速度也必须慢八倍。
音频效果模块307可以被配置为使用任何合适的过程来降低播放速率。在此示例中,音频效果模块307可以按照所指示的因子对音频信号301进行重采样。音频效果模块307还可以应用音高偏移,以避免音频频率内容的不想要的降低。在此示例中,播放速率将会改变因子1/8,音高将会改变因子1/2。
音频效果模块307可以提供音频效果信息311作为输出。音频效果信息311可以包括指示音频信号301的时间或频谱特性的变化的信息。在此示例中,音频效果信息311包括播放速率和音高已被改变的因子。对于此示例,音频效果信息311将包括音高缩放因子sf=0.5和时间缩放因子st=0.125。
音频效果信息311可以被提供给空间元数据处理模块313,该空间元数据处理模块可以使用音频效果信息311以修改空间元数据303,如关于图3所描述的。进而,经修改的空间元数据315可以被用于使能由空间合成模块317进行空间渲染,如关于图3所描述的。
图5示出了根据本公开的实施例的示例系统501。系统501可以在诸如移动电话或任何其他合适的用户设备之类的用户设备内被提供。系统501包括麦克风阵列503、用户接口511和捕获设备401。捕获设备401实现如图4中所示并如上面所描述的模块。
麦克风503可以包括可被配置为捕获音频信号并将所捕获的音频信号转换成电输出信号的任何部件。麦克风503可以被配置成空间阵列,以便使能捕获空间音频。麦克风503可以包括数字麦克风503或任何其他合适类型的麦克风。如图4中所示并如上面所描述的,麦克风503可以被配置为向音频捕获设备401提供麦克风阵列信号403。
系统501还包括用户接口511。用户接口511包括使用户能够控制系统501的任何部件。用户接口511使用户能够向系统501输入控制命令和其他信息。用户接口511可以包括触摸屏、手势识别设备、语音识别设备或任何其他合适的部件。
用户接口511可以被配置为使能响应于用户输入505而捕获视频。用户接口511可以被配置为针对视频使能不同的捕获模式。例如,用户接口可以使用户能够做出导致捕获慢动作视频的输入。
如果经由用户接口511选择了慢动作视频,则音频效果控制信号309从用户接口511被提供给音频捕获设备401。音频效果控制信号309可以包括指示视频的捕获速度的信息。该信息进而可以被用于改变音频信号301的播放速率。
如关于图4所描述的或以任何其他合适的方式,音频捕获设备401可以处理麦克风阵列信号403和音频效果控制信号309以提供空间音频信号319作为输出。在图5的示例中,系统501与耳机519一起使用,并因此空间音频信号319可以是具有所应用的音频效果的双耳信号。可以在本公开的其他示例中提供其他类型的空间音频信号319。
图5的系统501被配置以使得空间音频信号319被提供给编码模块507。编码模块507可以被配置为应用任何合适的音频编码处理以降低空间音频信号319的比特率。
编码模块507提供经编码的音频信号509作为输出。经编码的音频信号509被提供给存储器107,该存储器存储经编码的音频信号509。
应当理解,在捕获麦克风阵列信号403的同时系统501还将捕获视频。系统501还将会被配置为执行对应的处理即慢动作视频捕获处理和所需的任何其他视频处理和/或编码。经编码的音频信号509和视频可以被复用到一个媒体流中,该媒体流进而可以被存储在存储器107中。
经编码的音频信号509和任何对应的视频的存储完成了系统的捕获阶段。播放阶段可以在捕获阶段之后的任何时间进行。
在播放阶段中,经编码的音频信号509从存储器107中被取回并被提供给解码模块513。解码模块513被配置为执行与由编码模块507所应用的编码过程对应的解码过程。
解码模块513提供经解码的空间音频信号515作为输出。在此示例中,经解码的空间音频信号515是具有所应用的音频效果的双耳信号。可以在本公开的其他示例中使用其他类型的空间音频信号。
经解码的空间音频信号515被提供给音频输出接口517,其中,它从数字信号被转换为模拟信号。该模拟信号进而被提供给耳机519以用于播放。
图6示出了可由音频解码设备601实现的模块。这些模块可以由装置101来实现。装置101可以如图1中所示并如上面所描述的。音频解码设备601可以是移动电话、通信设备或任何其他合适类型的解码设备。
音频解码设备601可以包括用于接收包括经编码的音频信号509的比特流603的任何部件。在一些示例中,比特流603可以从存储器107中被取回。在一些示例中,比特流603可以从接收器或任何其他合适的部件中被接收。
比特流603包括采用编码形式的音频信号301和空间元数据303。比特流603可以源自音频捕获设备,该音频捕获设备可以包括如图4中所示的模块。
比特流603被提供给解码模块605。解码模块605被配置为对比特流603进行解码。解码模块605还可以被配置为将比特流603解复用成单独的音频信号301和空间元数据303。如图3中所示并如上面所描述的,音频信号301和空间元数据303被提供给装置101的模块。
音频解码设备601的输出是包括音频效果的空间音频信号319。空间音频信号319可以被提供给任何合适的渲染部件以用于播放。
图7示出了可使用装置101实现的另一个示例模块组。在图7的示例模块组中,输入信号包括双耳信号701。装置101的模块被配置以使得双耳信号701被提供给频谱白化模块703。频谱白化模块703还接收空间元数据303作为输入。
频谱白化模块703被配置为至少部分地补偿双耳信号701的双耳相关的频谱特性。双耳信号701将包含在某些方向上生成对声音的感知的双耳特性。例如,双耳信号701包含双耳频谱,以使得在前面的声音具有与在后面的声音不同的频谱。频谱白化模块703被配置为补偿这些特性,以使得它们不被传递到经效果处理的音频信号309和所得到的空间音频信号319。这避免了所得到的空间音频信号319具有双重双耳频谱,一个来自输入双耳信号701,一个由空间合成模块317所应用。
在图7的示例中,频谱白化模块703被配置为在由音频效果模块307应用音频效果之前对双耳信号701的双耳相关的频谱特性进行补偿,因为音频效果处理可以以复杂的方式改变频谱。
任何合适的过程都可以被用于使能对双耳信号701的双耳相关的频谱特性进行补偿。在图7的示例中,补偿双耳相关的频谱特性的过程可以包括:
1)使用空间元数据303以根据时间和频率确定双耳处理已经如何影响了输入信号频谱。例如,如果针对时频间隔,空间元数据指示声音从前面到达,并且直接对环境比为0.5,则双耳频谱可以被估计为扩散场频谱(或平坦频谱)和在该频率下在前面到达的声音的频谱的平均。
2)基于所确定的双耳频谱信息,确定(formulate)均衡增益,并将其应用于双耳信号701。
频谱白化模块703提供音频信号301作为输出。由于双耳频谱特性已被补偿,因此这些音频信号301可以包括立体声音频信号或任何其他合适类型的音频信号。
如图3中所示并如上面所描述的,可以使用音频效果控制信号305来处理音频信号301。
应当理解,双耳信号701的一些双耳特性可以保留在音频信号301中。这些特性可以由空间合成模块317来考虑。例如,如果空间合成模块317使用基于协方差矩阵估计的渲染过程,并且如果音频信号301的频谱已被校正,则它可以被配置为生成经处理的输出319的合适的双耳特性(相位差、电平差、相关性),而无论音频信号301是否包含一些双耳特性(除了整体双耳频谱之外)。所需的双耳输出特性可以是基于空间元数据303或经修改的空间元数据315。
图8示出了另一个示例系统801。图8的系统801包括捕获/编码设备803和解码/播放设备805。捕获/编码设备803和解码/播放设备805可以是移动电话或任何其他合适类型的设备。
捕获/编码设备803包括一个或多个麦克风。这些麦克风可以在可被配置为捕获空间音频的麦克风阵列503中被提供。麦克风阵列503提供麦克风阵列信号403作为输出。麦克风阵列信号403被提供给预处理模块405并且还被提供给空间分析模块407。
预处理模块405被配置为处理麦克风阵列信号403以获得具有合适的音色的音频信号301,以用于收听或进一步处理。例如,麦克风阵列信号403可以被均衡化、被增益控制或者被噪声处理以去除诸如麦克风噪声或风噪声之类的噪声。因此,在这种示例中,预处理模块405可以包括均衡器、自动增益控制器、限制器或任何其他合适的技术以用于处理麦克风阵列信号403。
预处理模块405提供音频信号301作为输出。在此示例中,音频信号301包括经预处理的麦克风阵列信号。音频信号301可以被提供给编码模块507。
空间分析模块407可以被配置为处理麦克风阵列信号403以获得空间元数据303。空间元数据303可以包括诸如针对不同频带的方向和直接对总能量比之类的信息。空间元数据303还可以作为输入被提供给编码模块507。
编码模块507可以被配置为对音频信号301和空间元数据303应用任何合适的音频编码处理。编码模块507还可以被配置为将音频信号301和空间元数据303复用到比特流807中。该比特流可以是第三代合作伙伴计划(3GPP)沉浸式语音和音频服务(IVAS)比特流、或任何其他合适类型的比特流。
编码模块507提供经编码的比特流807作为输出。比特流807可以经由任何合适的通信网络和接口被发送到解码/播放设备805。
应当理解,捕获/编码设备803还可以包括图像捕获模块,该图像捕获模块可以被配置为捕获视频并执行合适的视频处理。该视频进而可以被编码并与音频信号301一起被复用,以提供经组合的媒体比特流807。
比特流807可以由解码/播放设备805接收。在解码/播放设备805中,比特流807被提供给音频解码设备,该音频解码设备可以包括如图6所示并如上面所描述的模块。
解码/播放设备805还包括用户接口511。用户接口511包括使用户能够控制系统501的任何部件。用户接口511使用户能够向系统501输入控制命令和其他信息。用户接口511可以包括触摸屏、手势识别设备、语音识别设备或任何其他合适的部件。
在图8的示例中,用户接口511使用户能够选择用于音频信号301的所期望的播放模式。例如,用户接口511可以检测选择了诸如经音高偏移的音频渲染或具有所应用的音频效果的任何其他合适类型的渲染之类的播放模式类型的用户输入。
如果经由用户接口511选择了音高偏移或其他类型的音频效果,则音频效果控制信号309从用户接口511被提供给音频解码设备601。音频效果控制信号309包括指示经由用户接口511而选择的音频效果的信息。
进而,如图6中所示并如上面所描述的,音频解码设备601使用音频效果控制信号309以处理比特流801。音频解码设备601提供空间音频信号515作为输出。空间音频信号515被提供给音频输出接口517,其中,它从数字信号被转换为模拟信号。该模拟信号进而被提供给耳机519以用于播放。
应当理解,在本公开的一些示例中,比特流807还可以包括诸如视频之类的其他数据。在这种示例中,解码/播放设备805被配置为对经编码的视频流进行解码,并使能由显示器或其他合适的部件再现视频。
还应理解,捕获/编码设备803和解码/播放设备805两者都可以包括存储器107,该存储器可以被配置为根据需要存储比特流807。
应当理解,可以对上面描述的示例进行变形。例如,上面描述的一些方法框和模块可以被组合或被分离成不同的处理块组。例如,在一些示例中,音频效果模块307可以与空间合成模块317相组合。如果音频效果处理在STFT(或其他时频)域中发生,则在由空间合成模块317进行STFT之后执行该音频效果处理可能更实用。
在一些示例中,空间元数据处理模块313还可以对空间元数据303进行附加的修改。例如,如果音频效果包括语音改变功能,那么除了上述的频谱和时间映射之外,空间元数据处理模块313还可以被配置为改变在空间元数据303的一些频率处的空间参数。如果在音频信号301中存在背景环境,则在这些频率处可以改变语音分量与背景分量之间的比率。相应地,可能需要更新一些参数(诸如直接对总能量比)以考虑此类改变。
应当理解,在一些示例中,音频效果信息311可以被提供给空间合成模块317。在这种示例中,空间合成模块317可以被配置为基于音频效果信息311来适配处理。例如,如果音频效果导致音频信号301的音高偏移,则空间合成模块317可以被配置为相应地改变频带限制。
作为说明性的示例,如果针对400-800Hz的频率间隔确定包括方向和比率的一组元数据,那么如果音高被向上偏移因子“二”,则空间合成模块317可以将相同的、未经修改的空间元数据组用于范围在800Hz-1600Hz之间的频率间隔。
类似地,播放速率的任何改变都可以通过改变空间合成模块317所使用的帧大小来考虑。例如,如果播放速率被增加因子“二”,则在空间合成模块317处帧大小可以被减少为一半。
在一些示例中,可以使用由空间合成模块317所使用的空间元数据映射和适配处理两者的组合。
在一些示例中,音频信号301的音高和/或播放速率可以根据时间和/或频率而改变,而不是通过固定因子被改变。在一些示例中,音频(和元数据)在时间和频率上的映射可以是任意的。在这种情况下,可以使用以下用于映射空间元数据303的过程。
1)确定空间元数据303如何映射到新的频谱和时间位置中。
2)当确定经修改的空间元数据315时,经修改的空间元数据315的值是基于附近的被映射的元数据位置而生成的。作为简单的示例,可以选择最接近的被映射的元数据位置。作为更复杂的示例,可以选择在经更新的元数据位置所在的时频平面中形成三角形的三个被映射的元数据位置,并基于这三个元数据的值来对经更新的元数据值进行内插。
在一些示例中,比率可以使用下式来进行内插:
r′(k,n)=r(k1,n1)(1-wf(k))(1-wt(n))+r(k2,n1)wf(k)(1-wt(n))+r(k1,n2)(1-wf(k))wt(n)+r(k2,n2)wf(k)wt(n)
比率内插可以使用上述方法的组合。例如,如果第一方法提供的值低于阈值,例如,低于0.25,则选择第一方法的结果,否则选择第二方法的结果。该阈值可以是平滑的,因此当第一比率是0.25或低于0.25时,则选择第一比率;当第一比率高于0.5时,则选择第二比率;以及当第一比率在0.25与0.5之间时,则在第一比率与第二比率之间发生内插,以获得经修改的空间元数据315的比率值。这种在不同比率内插方法之间进行选择意味着当有助于内插的数据点的方向参数指示非常不同的方向时,则比率值被设置得很小,因为方向不好被确定并因此是不可靠的。当方向参数大体上指向相似的方向时,该比率值则会针对经修改的空间元数据被更适当地估计。
应当理解,这些所描述的用于对经修改的空间元数据315的比率和其他参数进行内插的方法是一些示例,可以在本公开的其他示例中使用其他方法。
应当理解,可以使用任何合适的方法以用于在空间合成317处将经效果处理的音频信号309和空间元数据303或经修改的空间元数据315渲染为空间音频信号319。对于扬声器渲染,示例方法包括:
1)例如通过使用短时傅里叶变换(STFT),将经效果处理的音频信号309变换到时频域。
2)在频带中,通过与增益
Figure BDA0003897385240000271
Figure BDA0003897385240000272
相乘,将经效果处理的音频信号309划分成直接部分和环境部分。
3)在频带中,根据与扬声器配置匹配的幅度平移规则(amplitude panning law),将直接部分的幅度平移到由θ′(k,n)和
Figure BDA0003897385240000281
所确定的方向。
4)在频带中,将环境部分与所有扬声器输出通道去相关。
5)对经处理的时频信号(组合经直接和环境处理的部分的经处理的扬声器通道)应用逆时频变换(例如,逆STFT)。
在本文中使用的术语“包括”具有包容而非排他性的含义。也就是说,任何表述“X包括Y”表示X可以仅包括一个Y或可以包括多于一个Y。如果意图使用具有排他性含义的“包括”,则将在上下文中通过提及“仅包括一个……”或者使用“由……组成”来明确。
已经在此说明中参考了各种示例。针对示例的特征或功能的描述指示这些特征或功能存在于该示例中。无论是否明确陈述,在文本中术语“示例”或“例如”或“可以”或“可”的使用表示这种特征或功能至少存在于所描述的示例中,无论是否作为示例来描述,并且这种特征或功能可以但不必需存在于一些或所有其他示例中。因此,“示例”、“例如”或“可以”或“可”是指一类示例中的特定实例。实例的性质可以仅是该实例的性质或该类实例的性质或包括一些但未包括全部该类实例的该类实例的子类的性质。因此,隐含公开了针对一个示例但未针对另一个示例描述的特征可用于其他示例作为工作组合的一部分,但不必需用于其他示例。
尽管已经在前面的段落中参考各种示例描述了示例,但应当理解,可以在不背离权利要求的范围的情况下对给出的示例进行修改。
在前面的说明中描述的特征可用于除了在上面明确地描述的组合以外的组合中。
尽管已经参考某些特征描述了功能,但这些功能可以由其他特征来执行,无论是否被描述。
尽管已经参考某些示例描述了特征,但这些特征也可以存在于其他示例中,无论是否被描述。
在本文中使用的术语“一/一个”或“该”具有包容而非排他性的意义。也就是说,任何提到“X包括一个/该Y”指示“X可以仅包括一个Y”或“X可以包括多于一个的Y”,除非上下文清楚地指出并非如此。如果意图使用具有排他性意义的“一/一个”或“该”,则将在上下文中明确说明。在一些环境下,可使用“至少一个”或“一个或多个”来强调包容性的意义,但缺少这些术语不应被视为意指非排他性的意义。
权利要求中特征(或特征的组合)的存在是对该特征(或特征的组合)本身的引用,并且也是对实现基本相同的技术效果的特征(等效特征)的引用。等效特征例如包括是变型的并且以基本相同的方式实现基本相同的结果的特征。等效特征例如包括以基本相同的方式执行基本相同的功能以实现基本相同的结果的特征。
在此说明中已经参考了使用形容词或形容词短语的各种示例来描述示例的特性。这种关于示例对特性的描述表示该特性在一些示例中与所描述的完全相同,而在其他示例中与所描述的基本相同。
尽管在前面的说明中试图指出那些被认为是重要的特征,但应当理解,申请人可以经由权利要求来寻求保护关于在本文中之前参考附图和/或在附图中示出的任何可授予专利的特征或特征组合的内容,无论是否已强调。

Claims (22)

1.一种装置,包括用于执行以下操作的部件:
获得一个或多个音频信号;
获得与一个或多个所获得的音频信号有关的一个或多个空间元数据,其中,所述一个或多个空间元数据包括指示如何在空间上再现所述一个或多个所获得的音频信号的信息;
对所述一个或多个所获得的音频信号应用一个或多个音频效果以提供一个或多个经改变的音频信号;
获得音频效果信息,其中,所述音频效果信息包括与应用所述一个或多个音频效果如何影响所述一个或多个所获得的音频信号的一个或多个信号特性有关的信息;以及
使用所获得的音频效果信息和所述一个或多个空间元数据以使能对所述一个或多个经改变的音频信号进行所指示的空间渲染。
2.根据权利要求1所述的装置,其中,所述音频效果包括改变以下中的至少一项的效果:
所述一个或多个所获得的音频信号的频谱特性;以及
所述一个或多个所获得的音频信号的时间特性。
3.根据前述权利要求中任一项所述的装置,其中,所述音频效果信息包括与应用所述一个或多个音频效果如何根据以下中的至少一项影响所述一个或多个所获得的音频信号的一个或多个信号特性有关的信息:频率;以及时间。
4.根据前述权利要求中任一项所述的装置,其中,至少部分地从使用音频效果控制信号的处理获得所述音频效果信息,其中,所述音频效果控制信号控制被应用于所述一个或多个所获得的音频信号的所述音频效果。
5.根据前述权利要求中任一项所述的装置,其中,使用所获得的音频效果信息和所述一个或多个空间元数据以使能对所述一个或多个经改变的音频信号进行所指示的空间渲染包括:
基于所述音频效果信息,生成经修改的空间元数据,以及使用经修改的一个或多个空间元数据来渲染所述经改变的音频信号。
6.根据前述权利要求中任一项所述的装置,其中,使用所获得的音频效果信息和所述一个或多个空间元数据以使能对所述一个或多个经改变的音频信号进行所指示的空间渲染包括:
调整被用于渲染所述一个或多个经改变的音频信号的一个或多个频带。
7.根据前述权利要求中任一项所述的装置,其中,使用所获得的音频效果信息和所述一个或多个空间元数据以使能对所述一个或多个经改变的音频信号进行所指示的空间渲染包括:
调整被用于渲染所述经改变的音频信号的一个或多个时间帧的大小。
8.根据前述权利要求中任一项所述的装置,其中,所述一个或多个经改变的音频信号包括经效果处理的音频信号。
9.根据前述权利要求中任一项所述的装置,包括用于执行以下操作的部件:
在应用所述一个或多个音频效果之前,至少部分地补偿所述一个或多个所获得的音频信号的空间特性。
10.根据权利要求9所述的装置,其中,被至少部分地补偿的所述空间特性包括双耳特性。
11.根据前述权利要求中任一项所述的装置,包括用于执行以下操作的部件:
分析所述一个或多个经改变的音频信号的协方差矩阵特性,以及调整所述空间渲染以使得经渲染的音频信号的协方差矩阵与目标协方差矩阵相匹配。
12.根据前述权利要求中任一项所述的装置,其中,当渲染所述一个或多个经改变的音频信号时,所述空间元数据和所述音频效果信息被用于至少部分地保留所述一个或多个所获得的音频信号的所述空间特性。
13.根据前述权利要求中任一项所述的装置,其中,针对一个或多个频率子带,所述一个或多个空间元数据包括:
声音方向参数;以及
能量比率参数。
14.根据前述权利要求中任一项所述的装置,其中,由所述装置捕获所述一个或多个所获得的音频信号。
15.根据权利要求1至13中任一项所述的装置,其中,所述一个或多个所获得的音频信号由单独的捕获设备捕获并被发送到所述装置。
16.根据权利要求15所述的装置,其中,所述一个或多个空间元数据和音频效果控制信号中的至少一项从所述捕获设备被发送到所述装置。
17.一种方法,包括:
获得一个或多个音频信号;
获得与一个或多个所获得的音频信号有关的一个或多个空间元数据,其中,所述一个或多个空间元数据包括指示如何在空间上再现所述一个或多个所获得的音频信号的信息;
对所述一个或多个所获得的音频信号应用一个或多个音频效果以提供一个或多个经改变的音频信号;
获得音频效果信息,其中,所述音频效果信息包括与应用所述一个或多个音频效果如何影响所述一个或多个所获得的音频信号的一个或多个信号特性有关的信息;以及
使用所获得的音频效果信息和所述一个或多个空间元数据以使能对所述一个或多个经改变的音频信号进行所指示的空间渲染。
18.根据权利要求17所述的方法,其中,所述音频效果包括改变以下中的至少一项的效果:
所述一个或多个所获得的音频信号的频谱特性;以及
所述一个或多个所获得的音频信号的时间特性。
19.一种计算机程序,包括计算机程序指令,所述由计算机程序指令在由处理电路系统时使得:
获得一个或多个音频信号;
获得与一个或多个所获得的音频信号有关的一个或多个空间元数据,其中,所述一个或多个空间元数据包括指示如何在空间上再现所述一个或多个所获得的音频信号的信息;
对所述一个或多个所获得的音频信号应用一个或多个音频效果以提供一个或多个经改变的音频信号;
获得音频效果信息,其中,所述音频效果信息包括与应用所述一个或多个音频效果如何影响所述一个或多个所获得的音频信号的一个或多个信号特性有关的信息;以及
使用所获得的音频效果信息和所述一个或多个空间元数据以使能对所述一个或多个经改变的音频信号进行所指示的空间渲染。
20.根据权利要求19所述的计算机程序,其中,所述音频效果包括改变以下中的至少一项的效果:
所述一个或多个所获得的音频信号的频谱特性;以及
所述一个或多个所获得的音频信号的时间特性。
21.一种装置,包括:
至少一个处理器,以及包括计算机程序代码的至少一个存储器,所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一起使所述装置至少:
获得一个或多个音频信号;
获得与一个或多个所获得的音频信号有关的一个或多个空间元数据,其中,所述一个或多个空间元数据包括指示如何在空间上再现所述一个或多个所获得的音频信号的信息;
对所述一个或多个所获得的音频信号应用一个或多个音频效果以提供一个或多个经改变的音频信号;
获得音频效果信息,其中,所述音频效果信息包括与应用所述一个或多个音频效果如何影响所述一个或多个所获得的音频信号的一个或多个信号特性有关的信息;以及
使用所获得的音频效果信息和所述一个或多个空间元数据以使能对所述一个或多个经改变的音频信号进行所指示的空间渲染。
22.根据权利要求21所述的装置,其中,所述音频效果包括改变以下中的至少一项的效果:
所述一个或多个所获得的音频信号的频谱特性;以及
所述一个或多个所获得的音频信号的时间特性。
CN202180029488.9A 2020-04-20 2021-04-09 用于使能渲染空间音频信号的装置、方法和计算机程序 Pending CN115462097A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB2005740.2A GB2594265A (en) 2020-04-20 2020-04-20 Apparatus, methods and computer programs for enabling rendering of spatial audio signals
GB2005740.2 2020-04-20
PCT/FI2021/050258 WO2021214380A1 (en) 2020-04-20 2021-04-09 Apparatus, methods and computer programs for enabling rendering of spatial audio signals

Publications (1)

Publication Number Publication Date
CN115462097A true CN115462097A (zh) 2022-12-09

Family

ID=70860002

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180029488.9A Pending CN115462097A (zh) 2020-04-20 2021-04-09 用于使能渲染空间音频信号的装置、方法和计算机程序

Country Status (4)

Country Link
EP (1) EP4111709A4 (zh)
CN (1) CN115462097A (zh)
GB (1) GB2594265A (zh)
WO (1) WO2021214380A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4396810A1 (en) * 2021-09-03 2024-07-10 Dolby Laboratories Licensing Corporation Music synthesizer with spatial metadata output

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7647229B2 (en) * 2006-10-18 2010-01-12 Nokia Corporation Time scaling of multi-channel audio signals
DE102010030534A1 (de) * 2010-06-25 2011-12-29 Iosono Gmbh Vorrichtung zum Veränderung einer Audio-Szene und Vorrichtung zum Erzeugen einer Richtungsfunktion
EP2560161A1 (en) * 2011-08-17 2013-02-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Optimal mixing matrices and usage of decorrelators in spatial audio processing
MX350687B (es) * 2012-08-10 2017-09-13 Fraunhofer Ges Forschung Métodos y aparatos para adaptar información de audio en codificación de objeto de audio espacial.
BR112015016978B1 (pt) * 2013-01-17 2021-12-21 Koninklijke Philips N.V. Aparelho para processamento de um sinal de áudio,aparelho para gerar um fluxo de bits, método de operação de aparelho para processamento de um sinal de áudio, e método de operação de aparelho para gerar um fluxo de bits
CN104050969A (zh) * 2013-03-14 2014-09-17 杜比实验室特许公司 空间舒适噪声
EP2830332A3 (en) * 2013-07-22 2015-03-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method, signal processing unit, and computer program for mapping a plurality of input channels of an input channel configuration to output channels of an output channel configuration
EP3022949B1 (en) * 2013-07-22 2017-10-18 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung E.V. Multi-channel audio decoder, multi-channel audio encoder, methods, computer program and encoded audio representation using a decorrelation of rendered audio signals
GB2543275A (en) * 2015-10-12 2017-04-19 Nokia Technologies Oy Distributed audio capture and mixing
US10708707B2 (en) * 2016-05-30 2020-07-07 Sony Corporation Audio processing apparatus and method and program
US10349196B2 (en) * 2016-10-03 2019-07-09 Nokia Technologies Oy Method of editing audio signals using separated objects and associated apparatus
GB2563635A (en) * 2017-06-21 2018-12-26 Nokia Technologies Oy Recording and rendering audio signals
DE102018206025A1 (de) * 2018-02-19 2019-08-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren für objektbasiertes, räumliches Audio-Mastering
KR102527336B1 (ko) * 2018-03-16 2023-05-03 한국전자통신연구원 가상 공간에서 사용자의 이동에 따른 오디오 신호 재생 방법 및 장치
GB2572420A (en) * 2018-03-29 2019-10-02 Nokia Technologies Oy Spatial sound rendering

Also Published As

Publication number Publication date
EP4111709A4 (en) 2023-12-27
GB2594265A (en) 2021-10-27
EP4111709A1 (en) 2023-01-04
WO2021214380A1 (en) 2021-10-28
GB202005740D0 (en) 2020-06-03

Similar Documents

Publication Publication Date Title
US10674262B2 (en) Merging audio signals with spatial metadata
JP4944902B2 (ja) バイノーラルオーディオ信号の復号制御
US20220225053A1 (en) Audio Distance Estimation for Spatial Audio Processing
CN113597776B (zh) 参数化音频中的风噪声降低
CN112219236A (zh) 空间音频参数和相关联的空间音频播放
CN112567765B (zh) 空间音频捕获、传输和再现
CN112511965B (zh) 使用上混双耳化从立体声信号生成双耳信号的方法及装置
CN112567763A (zh) 用于音频信号处理的装置、方法和计算机程序
US20230254659A1 (en) Recording and rendering audio signals
US20230096873A1 (en) Apparatus, methods and computer programs for enabling reproduction of spatial audio signals
CN112673649A (zh) 空间音频增强
CN112970062A (zh) 空间参数信令
WO2019229300A1 (en) Spatial audio parameters
CN115462097A (zh) 用于使能渲染空间音频信号的装置、方法和计算机程序
JP2024502732A (ja) バイノーラル信号の後処理
CN112133316A (zh) 空间音频表示和渲染
US20240259758A1 (en) Apparatus, Methods and Computer Programs for Processing Audio Signals
WO2022263710A1 (en) Apparatus, methods and computer programs for obtaining spatial metadata
WO2024115045A1 (en) Binaural audio rendering of spatial audio
KR20180024612A (ko) 오디오 신호 처리 방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination