CN112567763B - 用于音频信号处理的装置和方法 - Google Patents

用于音频信号处理的装置和方法 Download PDF

Info

Publication number
CN112567763B
CN112567763B CN201980046030.7A CN201980046030A CN112567763B CN 112567763 B CN112567763 B CN 112567763B CN 201980046030 A CN201980046030 A CN 201980046030A CN 112567763 B CN112567763 B CN 112567763B
Authority
CN
China
Prior art keywords
audio signal
energy
energy parameter
audio
examples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201980046030.7A
Other languages
English (en)
Other versions
CN112567763A (zh
Inventor
M-V·莱蒂南
J·维尔卡莫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Technologies Oy
Original Assignee
Nokia Technologies Oy
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Technologies Oy filed Critical Nokia Technologies Oy
Priority to CN202310217452.4A priority Critical patent/CN116193320A/zh
Publication of CN112567763A publication Critical patent/CN112567763A/zh
Application granted granted Critical
Publication of CN112567763B publication Critical patent/CN112567763B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/802Systems for determining direction or deviation from predetermined direction
    • G01S3/808Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/4012D or 3D arrays of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • H04R2430/23Direction finding using a sum-delay beam-former
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/11Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/05Application of the precedence or Haas effect, i.e. the effect of first wavefront, in order to improve sound-source localisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Otolaryngology (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

本公开的示例涉及装置、电子设备、方法和计算机程序。该装置被配置为获得至少第一音频信号和第二音频信号(411),其中第一音频信号和第二音频信号被包括至少两个麦克风(205)的麦克风阵列捕获。该装置还被配置为标识至少第一方向(607)和至少第二方向(609)。所述第一方向和所述第二方向是针对多个频带(611)标识的。通过使用在至少第一音频信号和第二音频信号之间的延迟参数来标识所述第一方向和所述第二方向。

Description

用于音频信号处理的装置和方法
技术领域
本公开的示例涉及一种用于音频信号处理的装置、方法和计算机程序。该装置、方法和计算机程序可被配置为处理空间音频信号。
背景技术
当音频信号被两个或更多个麦克风捕获时,可以处理音频信号以从音频信号获得空间信息。这可以包括有关这样的方向的信息,声音相对于麦克风从该方向到达。空间信息可以用于使音频信号能够被渲染以为用户提供现实的空间音频体验。
发明内容
根据本公开的各种但并非全部的示例,提供了一种装置,包括:处理电路;以及包括计算机程序代码的存储器电路,该存储器电路和该计算机程序代码被配置为与该处理电路一起使该装置:获得至少第一音频信号和第二音频信号,其中该第一音频信号和该第二音频信号由包括至少两个麦克风的麦克风阵列捕获;针对多个频带,标识至少第一方向;以及针对多个频带,标识至少第二方向;其中,通过使用在至少第一音频信号和第二音频信号之间的延迟参数来标识第一方向和第二方向。
存储器电路和计算机程序代码可被配置为与处理电路一起使该装置标识第一能量参数并标识第二能量参数。
能量参数可以包括比率。
可以针对每个频带确定方向和能量参数。
可以使用与第一方向和/或第一能量参数不同的频带来标识第二方向和/或第二能量参数。
可以使用比用于标识第一方向和/或第一能量参数的频带更宽的频带来标识第二方向和/或第二能量参数标识。
第一方向可以对应于声音的第一到达方向,而第二方向可以对应于声音的第二到达方向。
可以同时捕获所述第一音频信号和所述第二音频信号。
可以从同时捕获的音频信号中标识出所述第一方向和所述第二方向。
可以通过在至少第一音频信号和第二音频信号之间的不同延迟下使用相干性分析来标识方向和/或能量参数。
可以在时频域中执行相干性分析。
相干性分析可以包括标识在第一音频信号和第二音频信号之间具有最高相干性水平的时间延迟。
存储器电路和计算机程序代码可被配置为与处理电路一起使该装置定义围绕一个方向的角度范围并且从相干性分析中省略来自该角度范围的方向以标识所述第二方向。
相干性分析可以包括估计对于第一方向的能量比和估计对于第二方向的能量比。
存储器电路和计算机程序代码可被配置为与处理电路一起,使装置获得至少第三音频信号,其中所述第三音频信号被所述麦克风阵列捕获,其中,所述麦克风阵列包括至少三个麦克风。
可以作为空间音频捕获过程的一部分标识所述第一方向和/或所述第二方向。
存储器电路和计算机程序代码可被配置为与处理电路一起使该装置向一个或多个合成器提供至少第一音频信号、第二音频信号和元数据以使得第一音频信号和第二音频信号和元数据能够用于合成空间音频信号,其中该元数据包括指示第一方向和第二方向的信息和/或指示第一能量比和第二能量比的信息。
根据本公开的各种但并非全部的示例,提供了一种装置,包括用于以下的元件(means):获得至少第一音频信号和第二音频信号,其中该第一音频信号和该第二音频信号由包括至少两个麦克风的麦克风阵列捕获;针对多个频带,标识至少第一方向;以及针对多个频带,标识至少对应的第二方向;其中,通过使用在至少第一音频信号和第二音频信号之间的延迟参数来标识第一方向和第二方向。
该装置可被配置为执行以下描述的任何方法。
根据本公开的各种但并非全部的示例,提供了一种电子设备,其包括如上所述的装置和多个麦克风。
该电子设备可以包括被配置为实现无线通信的一个或多个收发器。
根据本公开的各种但不一定全部的示例,提供了一种方法,该方法包括:获得至少第一音频信号和第二音频信号,其中该第一音频信号和该第二音频信号由包括至少两个麦克风的麦克风阵列捕获;针对多个频带,标识至少第一方向;以及针对多个频带,标识至少对应的第二方向;其中,通过使用在至少第一音频信号和第二音频信号之间的延迟参数来标识第一方向和第二方向。
该方法可以包括标识第一能量参数和标识第二能量参数。
能量参数可以包括比率。
可以针对每个频带确定方向和能量参数。
可以使用与第一方向和/或第一能量参数不同的频带来标识第二方向和/或第二能量参数。
其中,可以使用比用于标识第一方向和/或第一能量参数的频带更宽的频带来标识第二方向和/或第二能量参数标识。
第一方向可以对应于声音的第一到达方向,而第二方向可以对应于声音的第二到达方向。
可以同时捕获所述第一音频信号和所述第二音频信号。
可以从同时捕获的音频信号中标识出所述第一方向和所述第二方向。
可以通过在至少所述第一音频信号和所述第二音频信号之间的不同延迟下使用相干性分析来标识方向和/或能量参数。
可以在时频域中执行相干性分析。
相干性分析可以包括标识具有在所述第一音频信号和所述第二音频信号之间的最高相干性水平的时间延迟。
该方法可以包括定义围绕方向的角度范围并且从相干性分析中省略来自该角度范围的方向以标识所述第二方向。
相干性分析可以包括估计对于第一方向的能量比和估计对于第二方向的能量比。
该方法可以包括获得至少第三音频信号,其中所述第三音频信号被所述麦克风阵列捕获,其中,所述麦克风阵列包括至少三个麦克风。
可以作为空间音频捕获过程的一部分,标识所述第一方向和/或所述第二方向。
该方法可以包括向一个或多个合成器提供至少第一音频信号、第二音频信号和元数据以使得所述第一音频信号和所述第二音频信号和所述元数据能够用于合成空间音频信号,其中所述元数据包括指示所述第一方向和所述第二方向的信息和/或指示所述第一能量比和所述第二能量比的信息。
根据本公开的各种但并非全部的示例,提供了一种包括计算机程序指令的计算机程序,该计算机程序指令在由处理电路执行时促使:获得至少第一音频信号和第二音频信号,其中该第一音频信号和该第二音频信号由包括至少两个麦克风的麦克风阵列捕获;针对多个频带,标识至少第一方向;以及针对多个频带,标识至少对应的第二方向;其中,通过使用在至少所述第一音频信号和所述第二音频信号之间的延迟参数来标识所述第一方向和所述第二方向。
根据本公开的各种但并非全部的示例,提供了一种体现上述计算机程序的物理实体。
根据本公开的各种但并非全部的示例,提供了一种携带上述计算机程序的电磁载波信号。
根据本公开的各种但并非全部的示例,提供了一种装置,包括:处理电路;以及包括计算机程序代码的存储器电路,该存储器电路和该计算机程序代码被配置为与该处理电路一起使该装置:接收至少第一音频信号、第二音频信号和元数据;使得能够使用所述第一音频信号和所述第二音频信号和所述元数据来合成空间音频信号,其中所述元数据包括指示第一方向和第二方向的信息和/或指示第一能量比和第二能量比的信息。
根据本公开的各种但并非全部的示例,提供了一种装置,包括用于以下的元件:接收至少第一音频信号、第二音频信号和元数据;使得能够使用所述第一音频信号和所述第二音频信号和所述元数据来合成空间音频信号,其中所述元数据包括指示第一方向和第二方向的信息和/或指示第一能量比和第二能量比的信息。
附图说明
为了更好地理解有助于理解详细描述的各种示例,现在将仅以示例方式参考附图,其中:
图1示出了示例装置;
图2示出了示例电子设备;
图3示出了示例方法;
图4示出了示例系统;
图5示出了示例分析处理器;
图6示出了示例空间分析过程;
图7示出了用于标识第二方向的示例方法;
图8示出了示例合成处理器;
图9示出了可以由空间合成模块执行的空间合成的另一示例方法;
图10A和10B是估计方向和第一方向的能量比的曲线图;
图11A和11B是估计方向和第一方向和第二方向的能量比的曲线图;
图12示出了示例电子设备;
图13示出了另一示例电子设备;以及
图14示出了另一示例电子设备。
具体实施方式
本公开的示例涉及空间音频处理。在本公开的示例中,可以标识声音的两个或更多个到达方向。声音可以在频谱和时间上同时发生。也就是说,声音可以同时被麦克风检测到,并且还可以覆盖一些相同的频带。在一些示例中,可以基于麦克风信号同时检测声音。本公开的示例减少了所渲染的音频中的伪像(artifact),并且因此提供了改进的空间音频输出。可以使用处理技术来实现该方法。在本公开的示例中,该方法不依赖于被用于捕获以特定配置和/或特定类型的麦克风设置的音频信号的麦克风。这使得本发明能够与诸如移动电话的设备一起使用,其中所使用的麦克风的类型和设备内麦克风的布置可以受到该设备内其他硬件组件、设备形状和/或其他因素的限制。
图1示意性地示出了根据本公开的示例的装置101。图1所示的装置 101可以是芯片或芯片组。在一些示例中,装置101可被提供在诸如音频捕获设备之类的设备内。在一些示例中,装置101可被提供在诸如移动电话或其他通信设备的电子设备内。
装置101包括控制电路103。控制电路103可以提供用于控制电子设备的元件。控制电路103还可以提供用于执行本公开的示例的方法或方法的至少一部分的元件。
装置101包括处理电路105和存储器电路107。处理电路105可被配置为从存储器电路107读取和向存储器电路107写入。处理电路105可以包括一个或多个处理器。处理电路105还可以包括输出接口以及输入接口,通过输出接口处理电路105输出数据和/或命令,通过输入接口向处理电路 105输入数据和/或命令。
存储器电路107可被配置为存储计算机程序109,该计算机程序109 包括计算机程序指令(计算机程序代码111),该计算机程序指令在被加载到处理电路105中时控制装置101的操作。计算机程序109的计算机程序指令提供使装置101能够执行上述示例方法的逻辑和例程。通过读取存储器电路107,处理电路105能够加载并执行计算机程序109。
计算机程序109可以经由任何合适的传递机制到达装置101。传递机制可以是例如非暂时性计算机可读存储介质、计算机程序产品、存储器设备、诸如光盘只读存储器(CD-ROM)或数字多功能光盘(DVD)的记录介质、或切实体现计算机程序的制品。传递机制可以是被配置为可靠地传输计算机程序109的信号。该装置可以将计算机程序109作为计算机数据信号来传播或发送。在一些示例中,可以使用诸如蓝牙、蓝牙低功耗、蓝牙智能、6LoWPan(低功率个人局域网上的IPv6)ZigBee、ANT+、近场通信(NFC)、射频标识、无线局域网(无线LAN)之类的无线协议或任何其他合适的协议,向装置101发送计算机程序代码109。
尽管存储器电路107在图中被示为单个组件,但是应当理解,它可被实现为一个或多个单独的组件,其中一些或全部可以是集成/可移动的和/ 或可以提供永久/半永久的/动态的/缓存的存储。
尽管处理电路105在图中被示为单个组件,但是应当理解,它可被实现为一个或多个单独的组件,其中一些或全部可以是集成/可移动的。
应当将对“计算机可读存储介质”、“计算机程序产品”、“有形体现的计算机程序”等或“控制器”、“计算机”、“处理器”等的引用理解为不仅包括具有不同架构(例如单/多处理器架构、精简指令集计算 (RISC)和顺序(冯·诺依曼)/并行架构)的计算机,还包括专用电路,例如现场可编程门阵列(FPGA)、专用集成电路(ASIC)、信号处理设备和其他处理电路。对计算机程序、指令、代码等的引用应理解为涵盖用于可编程处理器或固件的软件,例如硬件设备的可编程内容,无论是用于处理器的指令还是用于固定功能设备、门阵列或可编程逻辑器件等的配置设置。
在本申请中使用的术语“电路”指的是以下所有内容:
(a)仅硬件的电路实施方式(例如仅采用模拟和/或数字电路的实施方式)和
(b)电路和软件(和/或固件)的组合,例如(如适用):(i)处理器的组合或(ii)处理器/软件(包括数字信号处理器)的部分、软件和存储器,它们一起工作以使诸如移动电话或服务器之类的装置执行各种功能,和
(c)需要软件或固件用于运行的电路(例如微处理器或微处理器的一部分),即使物理上并不存在该软件或固件。
该“电路”的定义适用于本申请中该术语的所有使用,包括任何权利要求。作为另一示例,如在本申请中使用的,术语“电路”还将覆盖仅处理器(或多个处理器)或处理器的一部分及其(或它们)附带的软件和/ 或固件的实施方式。术语“电路”还将覆盖(例如,如果适用于特定的权利要求要素)用于移动电话的基带集成电路或应用处理器集成电路或在服务器、蜂窝网络设备或其他网络中的类似集成电路。
图2示出了根据本公开的示例的示例电子设备201。电子设备201包括装置101、用户接口203,多个麦克风205和一个或多个收发器207。应当理解,图2中仅示出了说明书中所指的组件,并且电子设备201可以包括图2中未示出的附加组件。例如,电子设备201还可以包括电源和其他合适的组件。
用户接口203可以包括使得电子设备201的用户能够进行用户输入和/ 或使得能够向用户提供输出的任何元件。在一些示例中,用户接口203可以包括显示器。显示器可以是触敏显示器,其可以使得能够将信息提供给用户,并且还可以使用户能够进行触摸用户输入。在本公开的其他示例中可以使用其他类型的用户接口。
多个麦克风205包括被配置成将声音信号转换成电输出信号的任何元件。麦克风205因此可以捕获声音信号并且提供音频信号作为输出。音频信号可以是表示捕获的声音信号的电信号。
在本公开的示例中,电子设备201可以包括多个麦克风205。多个麦克风205可被设置在麦克风阵列中。多个麦克风205可以包括两个或更多个麦克风205。例如,诸如移动电话的电子设备201可以包括三个或更多个麦克风205。其他类型的电子设备201可以包括其他数量的麦克风。
多个麦克风205可以在空间上分布在电子设备201内,使得不同的麦克风205位于电子设备201内的不同位置。麦克风205的位置可以至少部分地由电子设备201的其他组件确定。例如,在用户接口203包括显示器的情况下,第一麦克风可以位于显示器的第一端,第二麦克风可以位于显示器的第二端。
收发器207可以包括用于接收和/或发送信息的任何合适的元件。收发器207可包括一个或多个发射机和/或接收机。收发器207可以使得能够在电子设备201与另一实体之间进行无线连接。无线连接可以是例如蜂窝连接、Wi-Fi连接、蓝牙连接的无线连接或任何其他合适类型的连接。
电子设备201可以是任何合适类型的电子设备201。在一些示例中,电子设备201可以是通信设备,诸如移动电话、个人计算机或其他合适的设备。在一些示例中,电子设备可以是诸如照相机的成像设备,其可被配置为记录静止的和/或视频图像。电子设备201可以是手持设备,其可以在电子设备201的正常使用期间被握在用户的手中。
图3示出了可以使用所描述的装置101和电子设备201来实现的示例方法。
该方法包括,在框301处,获得至少第一音频信号和第二音频信号。第一音频信号和第二音频信号可以从可以提供给装置101的多个麦克风 205输出。第一音频信号和第二音频信号可以由包括多个麦克风的麦克风阵列捕获。可以通过第一麦克风捕获第一音频信号,并且可以通过第二麦克风捕获第二音频信号。麦克风205可以位于电子设备201内的不同位置,以使第二音频信号与第一音频信号相比的延迟(反之亦然)给出有关声音相对于麦克风205到达的方向的信息。
第一音频信号和第二音频信号是同时被捕获的。这可以使得能够从同时捕获的音频信号中标识出第一方向和第二方向。
在框303处,该方法包括标识针对多个频带的至少第一方向。第一方向对应于声音的第一到达方向。第一声音可被标识为从第一方向到达。可以通过以至少第一音频信号和第二音频信号之间的多个不同延迟执行相干性分析来标识第一方向。可以针对检测到的声音的不同频带执行相干性分析。可以针对多个频带中的每一个确定第一方向。在一些示例中,可以针对频带的至少一个子集确定第一方向。
相干性分析可以在时频域中执行。相干性分析包括标识在第一音频信号和第二音频信号之间具有最高相关性水平的时间延迟。
该方法还包括,在框305处,标识针对多个频带的至少第二方向。第二方向对应于声音的第二到达方向。第二声音可被标识为从第二方向到达。可以通过以至少第一音频信号和第二音频信号之间的多个不同延迟执行进一步的相干性分析来标识第二方向。可以针对检测到的声音的不同频带执行相干性分析。可以针对多个频带中的每一个确定第二方向。在一些示例中,可以针对频带的至少一个子集确定第二方向。
用于标识第二方向的进一步的相干性分析可以包括与用于标识第一方向的相干性分析类似的过程。在一些示例中,用于标识第二方向的相干性分析可以使用与用于标识第一方向的相干性分析不同的频带。在一些示例中,用于标识第二方向的相干性分析比用于标识第一方向的相干性分析使用更宽的频带。
在本公开的示例中,相干性分析可以包括估计对于第一方向的能量参数,并且进一步的相干性分析可以包括估计对于第二方向的能量参数。能量参数可以是比率。在其他示例中,能量参数可以是方向稳定性指数或任何其他合适的参数。可以针对多个频带确定能量参数。可以针对多个频带中的每个频带来确定能量参数。在一些示例中,可以针对多个频带中的子集确定能量参数。
在一些示例中,进一步的相干性分析可以包括定义围绕第一方向的角度范围,并且从进一步的相干性分析中省略不在该角度范围中的方向以标识第二方向。
在一些示例中,可以通过使用空间音频捕获过程来标识第一方向和/ 或第二方向和/或能量参数。
在图3的示例中,该方法包括获得第一音频信号和第二音频信号。应当理解,在其他示例中,该方法可以包括获得两个以上的音频信号。例如,如果获得了三个或更多个音频信号,则可以实现三维方向的分析。在这样的示例中,该方法可以包括获得至少第三音频信号,其中第三音频信号被第三麦克风捕获。
图4示出了根据本公开的示例的示例系统401。系统401包括电子设备201和渲染设备403。应当理解,在一些示例中,系统401可以包括附加设备。例如,可以提供存储设备来存储来自电子设备201的信号,以便渲染设备403可以访问它们。
电子设备201可以是如图2所示的设备,或者是任何其他合适类型的电子设备,其包括两个或更多个麦克风205。在图2的示例中,电子设备 201包括移动电话。在本公开的其他示例中可以使用其他类型的电子设备 201。
电子设备201包括多个麦克风205。多个麦克风205可被配置成阵列,其中多个麦克风205彼此在空间上分布。多个麦克风205被配置为捕获两个或更多个音频信号411。
电子设备201被配置为使得由多个麦克风205捕获的音频信号411被提供给处理电路103。处理电路103可被配置为分析音频信号411。处理电路103因此可以提供分析处理器405。
处理电路103可被配置为分析音频信号411以确定这样的方向,声音从相对于麦克风205的该这样的方向到达。处理电路103可被配置为标识声音的两个或更多个到达方向。处理电路103可被配置为针对多个不同频带标识声音的两个或更多个到达方向。
处理电路103可被配置为针对每个频带标识声音的两个或更多个到达方向。
一旦方向被标识,处理电路103就提供数据输出信号413。数据输出信号413包括指示捕获的音频信号的信息。在一些示例中,数据输出信号 413可以包括处理的音频信号。例如,诸如降噪、均衡、增益控制或任何其他合适的过程之类的过程可能已经被应用于音频信号。
数据输出信号413还可以包括元数据。元数据可以包括与捕获的音频信号有关的空间信息。空间信息可以包括与两个或更多个到达方向以及那些方向中的每个方向的能量比有关的信息。空间信息可以包括作为处理电路103执行的分析的结果而获得的信息。
电子设备201可被配置为发送输出数据信号413。电子设备201的一个或多个收发器207可以使输出数据信号413能够通过无线通信链路或任何其他合适类型的通信链路来发送。
在图4的示例系统中,数据输出信号413被发送给渲染设备403。渲染设备403可以包括处理电路103,并且数据输出信号413可被提供给渲染设备403内的处理电路103。在其他示例中,可以将数据输出信号413 提供给处理电路103,处理电路103然后可被配置为将数据输出信号413 发送给单独的渲染设备403。
在图4的示例中,渲染设备403包括耳机。在其他示例中,数据输出信号413可被发送给其他类型的设备,例如数据输出信号413可被发送给一个或多个远程服务器以使数据输出信号能够被远程存储。当数据输出信号413存储在远程服务器中时,远程服务器可以由一个或多个设备(例如渲染设备403)访问。
渲染设备403可以包括可被配置为获得电输入信号并将电输入信号转换为可听输出信号的任何元件。在图4的示例系统401中,渲染设备403 包括头戴式耳机。头戴式耳机可被配置为向用户提供双耳音频输出。在本公开的其他示例中可以使用其他类型的渲染设备403。例如,渲染设备403 可以是扬声器或任何其他类型的渲染设备。
当渲染设备403获得数据输出信号413时,数据输出信号413可被提供给处理电路103。处理电路103可被配置为合成已经由渲染设备403获得的数据输出信号413。渲染设备403的处理电路103因此可以提供合成处理器407。
在图4的示例中,渲染设备403的处理电路103可被配置为使用数据输出信号413的元数据来提供双耳输出信号415。双耳输出信号415可以是空间输出信号,其使得用户能够感知捕获的音频的空间特性。在本公开的其他示例中可以提供其他类型的空间输出信号。例如,在渲染设备403 包括一个或多个扬声器的情况下,空间输出信号可以包括多声道信号。
在图4的示例系统401中,电子设备201被配置为既捕获音频信号又处理音频信号。应当理解,在其他示例系统401中,音频捕获和音频处理可以由两个或更多个不同的设备执行。例如,音频捕获可以由诸如移动电话或成像捕获设备的电子设备201执行,并且音频处理可以由诸如一个或多个服务器的远程处理设备执行。
同样在图4的示例系统中,捕获电子设备201和渲染设备403被提供为单独的设备。在其他示例中,捕获音频信号的电子设备201也可被布置为渲染音频信号。例如,电子设备201可以在第一时间点捕获并处理音频信号。数据输出信号413然后可以在稍后的时间点被相同电子设备201存储和访问,以使数据输出信号413能够被呈现给用户可听见的信号。在其他示例中,数据输出信号413可在麦克风205正在检测音频信号时被临时存储和渲染。这可以使得音频信号在被捕获之后立即和/或以很小的延迟被渲染。
图5示出了根据本公开的示例的分析处理器405。分析处理器405可以设置有音频捕获设备和/或设置在音频处理设备内。如上所述,分析处理器405可被设置在电子设备201内。分析处理器405可以由电子设备201 的处理电路103提供。
分析处理器405被配置为接收音频信号411作为输入。音频信号411 可以包括由多个麦克风205捕获的信号。
分析处理器405包括传输模块501、空间分析模块503和复用模块505。应当理解,在本公开的其他示例中,分析处理器405可以包括不同的模块。
传输模块501可以包括用于创建传输音频信号的元件。可以使用任何适当的过程来创建传输音频信号511。在一些示例中,可以从输入音频信号411中选择传输音频信号511。在一些示例中,传输音频信号511可以从输入音频信号411下缩混(downmix),或使用波束成形技术或任何其他合适的过程从输入音频信号411处理。在一些示例中,可以通过处理输入音频信号411来获得传输音频信号511。输入音频信号411的处理可以包括噪声衰减、均衡、增益控制和/或任何其他合适的处理。
传输音频信号511可以包括任何合适数量的信号。在一些示例中,传输音频信号可以包括两个传输音频信号。
在一些示例中,传输模块501还可以包括对传输音频信号511进行编码的元件。任何合适的处理都可以用于编码。例如,可以使用高级音频编码(AAC)、增强语音服务(EVS)或任何其他合适的音频编码技术。
空间分析模块503包括用于确定输入音频信号411的方向性信息的元件。空间分析模块505可以提供包括空间元数据513的输出信号。空间元数据513包括与捕获的音频信号有关的空间信息。空间元数据513可以包括使捕获的音频的空间特性能够被重新创建的任何信息。在一些示例中,空间元数据513可以包括与两个或更多个到达方向以及多个频带中的那些方向中的每个方向的能量比有关的信息。在一些示例中,空间元数据513 可以包括与两个或更多个到达方向以及每个可用频带的那些方向中的每个方向的能量比有关的信息。空间元数据513可以包括作为由空间分析模块505执行的分析的结果而获得的信息。空间元数据513可以在频带中被提供。
传输音频信号511和空间元数据513被提供作为到复用模块505的输入。复用模块505包括用于复用传输音频信号511和空间元数据513以提供数据输出信号413的元件。
图6示出了示例空间分析过程。示例性空间分析过程可以由空间分析模块505或通过任何其他合适的元件来执行。
在框601处,获得音频信号411。音频信号411可以从多个麦克风205 获得。
在框603处,将音频信号411从时域变换到时频域。在图6的示例中,该变换通过使用短时傅立叶变换(STFT)来执行。在其他示例中,该变换可以使用复数正交镜滤波器组(complex quadrature mirror filterbank) (QMF)或任何其他合适的元件来执行。
在框605处,该变换的输出被提供为时频域音频信号611。时频域音频信号611可被标示为Si(b,n),其中i是麦克风声道索引,b是频率仓索引,n是时间帧索引。可以将频率仓分组为子带,这些子带将频率仓中的一个或多个分组为频带索引k,其中k=0,...k-1。每个子带k具有最低频率仓bk,low和最高频率仓bk,high,并且该子带包含bk,low和bk,high之间的所有频率仓。可以选择子带的宽度以近似任何合适的分布,例如等效矩形带宽(ERB)、Bark标度或任何其他合适的分布。
在框607处,分析时频域音频信号611以获得第一方向613和对于该第一方向的能量比615。在框607处,可以分析时频域音频信号611以针对每个频带产生方向θ1(k,n)的估计和能量比r1(k,n)的估计。可以使用任何合适的过程来估计方向和能量比。在一些示例中,该过程可以包括空间音频捕获(SPAC)过程,在该过程中,估计频带中声音从其到达的最突出方向。SPAC过程还可以包括估计来自最突出方向的能量相对于频带的总能量的比率。
在框607处执行的分析的输出是第一方向信号613和第一能量比信号 615,第一方向信号613包括第一方向θ1(k,n)的估计的信息,第一能量比信号615包括能量比r1(k,n)的信息。
在框609处,分析时频域音频信号611以获得第二方向θ2(k,n)和对于第二方向的能量比r2(k,n)。第一方向信号613和第一能量比信号615可以被使用以使得第二方向617和对于第二方向的能量比619能够被估计。可以使用任何合适的过程来估计第二方向617和第二能量比 619。在一些示例中,该过程可以包括空间音频捕获(SPAC)过程,在该过程中,估计频带中声音从其到达的一个或多个突出方向。这可以类似于用于获得第一方向613和第一能量比615的估计的方法。
在框609处执行的分析的输出是第二方向信号617和第二能量比信号 619,第二方向信号617包括第二方向θ2(k,n)的估计的信息,第二能量比信号619包括能量比r2(k,n)的信息。
可以使用任何合适的方法来估计第一方向θ1(k,n)和对应的能量比 r1(k,n)。例如,在输入音频信号411包括两个麦克风声道的情况下,分析处理器405可被配置为找到对于给定的频带k使两个麦克风声道之间的相关性最大化的延迟τk。在一些示例中,可以通过创建麦克风声道之一的时移版本并将它们与另一个麦克风声道的进行比较来确定延迟τk。时频信号Sm,τ(b,n)的时移版本可以通过以下获得:
Figure GDA0002948352770000161
其中N表示用于将音频信号411从时域变换到时频域的STFT变换的长度。
对于给定的频带k和给定的时间索引n使两个麦克风声道之间的相关性最大化的延迟τk从以下获得:
Figure GDA0002948352770000162
其中,Re表示结果的实部,*表示复共轭。基于到达两个麦克风205 的声音的最大时间延迟来选择被搜索的延迟Dmax的范围。最大声音延迟可以对应于从一对麦克风205确定的轴到达的声音的延迟。
由于麦克风205的物理分布是已知的,例如根据电子设备内的麦克风 205的配置,因此可以从估计的延迟τk确定第一方向。如果Dmax是到达两个麦克风205的声音的最大时间延迟,则在麦克风205处于水平面的示例中,可以将延迟τk转换为角度值θ1,其中
Figure GDA0002948352770000171
因此,角度θ1提供了第一估计方向。
一旦已经估计了第一方向,就可以确定能量比r1(k,n)。能量比r1 (k,n)表示源自第一估计方向的能量相对于频带的总能量的比率。可以从归一化的相关性值来估计能量比r1(k,n),
Figure GDA0002948352770000172
在该描述的示例中,输入音频信号411包括两个麦克风声道。这可以使得能够在单个平面中的180度弧内估计方向。如果提供了两个以上的麦克风声道,则这可以使得能够在更大的角度范围内估计方向。例如,它可以使得能够在360度之内估计方向,或者可以使得能够进行三维估计。
图7示出了可以在本公开的一些示例中使用的用于标识第二方向的方法。图7的方法可以由分析处理器405或通过任何其他合适的元件来执行。
在框701处,获得时频域音频信号611。时频域音频信号611可以使用图6的方法或任何其他合适的方法来获得。
在框703处,针对不同的延迟计算由不同的麦克风获得的音频信号之间的相干性。可以通过时移一个或多个麦克风声道来创建延迟。这在框705 处提供了输出信号,该输出信号包括指示延迟的信息和指示相干性的信息。
在框703处,可以针对不同的频带计算相干性。用于估计第二方向的相干性的频带可以与用于估计第一方向的相干性的频带不同。用于估计第二方向的频带的边界可以与用于估计第一方向的频带的边界不同。也就是说,与第二方向相比,用于第二方向的bk,low和bk,high可以不同。因此,用于估计第二方向的频带的边界表示为b’k,low和b’k,high。例如,在一些示例中,用于第一方向的频带可以通过ERB标度来近似,而用于第二方向的频带可以更宽。较宽的频带减少了对第二方向的来自第一方向的干扰以及环境能量。在一些示例中,用于第二方向的频带可以包括整个音频频带或几乎整个音频频带。在一些示例中,用于第二方向的每个频带可以具有相同的宽度,以便降低计算复杂度。
从关系γ’(k,n,τ)中获得对于给定频带k和给定时间索引n的麦克风声道之间的延迟估计
Figure GDA0002948352770000181
在框707处,选择提供最大相干性γ’1的延迟τ’1,使得在框709,提供输出信号,该输出信号包括指示给出最大相干性的延迟和最大相干性的信息。
在框711处,计算与所标识的延迟相对应的临时方向α′1。可以使用多个麦克风205的已知配置来计算方向。方向α′1是临时的,因为除了第二临时方向α′2之外还使用了方向α′1以获得最终的第二输出方向θ2
在框711处,也可以计算围绕临时方向α′1的弧。弧可以表示围绕该方向的角度范围。角度范围可以是预定值。弧可被确定为
α’1-ξ<β′1<α’1
其中2ξ是弧的宽度。弧的宽度可以是30度或任何其他合适的角宽度。
这在框713处给出输出,该输出包括指示所计算的方向和具有归一化形式的对应相干性的信息。该信息可以包括与弧内的角度β′1相对应的延迟值集合。延迟值集合可被表示为τξ
框711处的过程还在框715处产生输出,该输出包括指示弧的信息。
在框717处,指示弧的信息用于选择弧之外的延迟。这在框719处给出了弧外的延迟和弧外的相干性γ′ξ的输出。
在框721处,选择提供最大相干性γ′2的弧外的延迟τ′2,使得在框723 处,提供这样的输出信号,该输出信号包括指示给出了最大相干性的延迟τ′2和具有归一化形式的对应最大相干性γ′2的信息。
在框725处,计算与所标识的延迟τ′2相对应的方向α′2。可以使用多个麦克风205的已知配置来计算方向α′2。这在框727处给出这样的输出,该输出包括指示所计算的方向α′2和具有归一化形式的对应最大相干性γ′2的信息。
在框729处,从在框711和725获得的方向α′1和α′2中选择第二方向。默认的第二方向可以是α′2,其对应于第二最大相干性γ′2。然而,这可能并非总是如此,由于使用不同的频带来确定第一方向θ1以及可能的第二方向α′1和α′2。不同频带的使用可以导致θ1和α′2相同或接近相同。在这种情况下,可以将α′1选择为θ2。在一些示例中,θ2(k,n)可被选择为
Figure GDA0002948352770000191
阈值χ可以是任何合适的角度范围。在一些示例中,阈值χ可以是20 度。
在此示例中,绝对值运算符|.|还可以在获得绝对值之前将角度差包裹 (wrap)到±180度。
在框729处,还估计第二能量比。在一些示例中,可以从相干性γ′2的归一化值获得第二能量比r′2(k,n)的估计。替代地,在一些示例中,可以从与之相对应选择角度α′1和α′2的相干性值γ′1或γ′2的归一化值,获得第二能量比r′2(k,n)的估计。
在一些示例中,可以调整第二能量比r′2(k,n)以确保第一能量比和第二能量比之和小于1。在一些示例中,可以调整第二能量比,使得第一能量比和第二能量比的总和具有小于一的值,例如0.9。这可以避免环境能量中的伪像。在这样的示例中,经调整的第二能量比r′2(k,n)可以由下式给出:
r″2(k,n)=max(T1-r1(k,n),0),if r1(k,n)+r′2(k,n)>T1
r″2(k,n)=r2(k,n),其他
在一些示例中,由于第一能量比对应于主方向,所以第二能量比r2(k, n)也可被调整以确保第二能量不大于第一能量比r1(k,n)。在这样的示例中,第二能量比r2(k,n)可被限制为小于第一能量比r1(k,n)。在一些示例中,第二能量比r2(k,n)可被限制为小于第一能量r1(k,n) 的分数,例如第一能量比r1(k,n)的0.9。这可以通过将第一能量比r1 (k,n)乘以阈值T2来获得,其中阈值T2小于1。在这样的示例中,第二能量比r2(k,n)可以由下式给出:
r2(k,n)=T1r1(k,n),if r″2(k,n)>T2r1(k,n)
r2(k,n)=r2(k,n),其他
因此,框727处给出了输出729,其包括第二方向θ2和第二能量比 r2(k,n)。
在一些示例中,可以在第二方向θ2上和以第二能量比r2(k,n)执行进一步的修改。例如,可以在时间上使第二方向θ2和第二能量比r2(k,n)平滑。
在图7的示例中,从两个麦克风205获得时频域音频信号611。这使得能够针对180度孤估计方向和能量比。应当理解,在本公开的其他示例中,可以从多于两个麦克风205获得时频域音频信号611。这可以使得能够在360度弧中获得方向和能量比。在这样的示例中,可以修改图7的方法以使得能够使用附加的时频域音频信号611。
例如,在时频域音频信号611包括从三个麦克风获得的至少三个音频信号的情况下,对第一时频域样本S1(b,n)和第二时频域样本S2(b,n) 进行延迟调整并加总。延迟调整可以基于第一方向θ1(k,n)。这可以提供临时样本Ss(b,n)。该过程可以实际上是朝向估计的第一方向θ1(k,n)的延迟加波束成形(delay-sum beamforming)。然后以两个可能延迟来对第三时域样本S3(b,n)进行延迟。两个可能延迟可以对应于可能的前角和后角。例如,如果θ1(k,n)的值为30度,则前角可能为30度或后角可能为150度。然后可以针对两个延迟值在临时样本Ss(b,n)和第三时域样本S3(b,n)之间计算相干性。选择产生较高相干性的延迟值作为正确的延迟。如果需要,可以校正估计的第一方向θ1(k,n)。例如,第一方向θ1(k,n)可以从30度的前角切换到150度的后角。对于第二方向θ2(k,n)也可以重复该过程。
图8示出了根据本公开的示例的合成处理器407。可以在渲染设备403 内提供合成处理器407。可以通过渲染设备403的处理电路103来提供合成处理器407。
合成处理器407包括解复用模块801和空间合成模块803。应当理解,在本公开的其他示例中,合成处理器407可以包括不同的模块。
合成处理器407被配置为接收数据输出信号413作为输入。数据输出信号413可以包括可以如上所述获得的传输音频信号511和空间元数据 513。
数据输出信号413作为输入被提供给解复用模块801。解复用模块801 包括用于将数据输出信号413解复用为传输音频信号511和空间元数据 513的元件。在一些示例中,数据输出信号413也可被解码。使用的解码器类型可以取决于在传输模块中使用的编码的类型。
传输音频信号511和空间元数据513被提供作为对空间合成模块803 的输入。空间合成模块803可以包括可被配置为合成传输音频信号511和空间元数据513以提供双耳输出信号415的任何元件。应当理解,在本公开的其他示例中,可以提供其他类型的空间音频信号作为输出。
可以使用任何合适的方法来合成传输音频信号511和空间元数据513,以提供双耳输出信号415。例如,在一些示例中,可以将频带信号乘以三个不同的因子以获得三个不同的频带信号。可以将频带信号乘以因子
Figure GDA0002948352770000221
以获得具有与第一方向相对应的能量的信号。可以将频带信号乘以因子/>
Figure GDA0002948352770000222
以获得具有与第二方向相对应的能量的信号。可以将频带信号乘以因子/>
Figure GDA0002948352770000223
以获得具有与环境能量相对应的能量的信号。环境能量可以是与第一方向或第二方向都不对应的剩余能量。
可以使用头部相关传递函数(HRTF)来获得方向信号,其中渲染设备403包括耳机。可以在本公开的其他示例中使用用于获得方向信号的其他方法。例如,在渲染设备403包括扬声器的情况下,可以通过使用振幅平移或任何其他合适的手段来获得方向信号。
在一些示例中,也可以处理环境能量。对环境能量执行的处理可以取决于正在使用的渲染设备403的类型。例如,在渲染设备403包括耳机的情况下,表示环境能量的信号可以在频带上被去相关并且被调整,以便提供双耳扩散场相干性。在渲染设备403包括一个或多个扬声器的情况下,环境能量可被去相关并且在空间上分配给可用扬声器。
图9示出了可以由空间合成模块803执行的空间合成的另一示例方法。
在框901处,接收输入音频信号。输入音频信号可以包括空间元数据,该空间元数据包括关于多个不同方向的信息。
在框903处,将输入音频信号变换到时频域。在图9的示例方法中,通过使用STFT将音频信号变换到时频域。在本公开的其他示例中可以使用用于执行变换的其他元件。在框905处,这提供了时频域输入信号。
在框907处,对时频域输入信号进行自适应处理。在一些示例中,可以使用混合矩阵来自适应地处理时频域输入信号。在一些示例中,也可以通过使用去相关来自适应地处理时频域输入信号。除混合矩阵之外,还可以使用去相关。在框909处,这提供了时频域输出信号。
在框911处,可通过使用逆STFT或任何其他合适的过程在框913处将时频域输出信号变换回时域,以提供空间化音频输出。
为了使混合矩阵能够用于时频域输入信号的自适应处理,该方法还可以包括使得能够形成(formulate)混合矩阵的块。在图9的示例中,在框921处,从音频输入估计输入协方差矩阵。在框923处,这提供了指示输入信号的总能量的输出,并且在框931处,还提供了指示输入协方差矩阵的输出。
在框925处,指示输入信号的总能量和空间元数据927的输出被用于确定目标协方差矩阵。在框933处,提供包括目标协方差矩阵的输出。
在框929处,使用目标协方差矩阵和实际协方差矩阵来形成混合矩阵。混合矩阵可以是最佳混合矩阵。如上所述,形成的混合矩阵在框935处被作为输出提供,并且可以在框907处被如上使用。
用于确定目标协方差矩阵的方法可以取决于正用于渲染空间音频的渲染设备403的类型。例如,在渲染设备包括一个或多个扬声器的情况下,与渲染设备包括耳机的情况相比,可以使用不同的方法。
例如,在渲染设备403包括扬声器的情况下,可以基于输入协方差矩阵来估计目标协方差矩阵的总能量E。总能量可以是输入协方差矩阵的对角元素之和。应当理解,可以针对不同的时间索引n和频带k确定能量E。然而,为了清楚起见,在以下描述中,在不必要时省略了时间和频率索引 n和k。
一旦确定了总能量E,就在互不相关的部分中确定目标协方差矩阵CT。互不相关的部分包括方向性部分CD和环境或非方向性部分CA。目标协方差矩阵CT因此可以由下式给出
CT=CD+CA
环境或非方向性部分CA可以确定为
Figure GDA0002948352770000231
其中I是单位矩阵,M是输出声道的数量。环境或非方向性部分CA是对角线,其提供扬声器声道之间的非相关性。
方向性部分CD可被确定为
Figure GDA0002948352770000232
其中vVBAP(θ)是标示用于扬声器设置的振幅平移增益和来自空间元数据的方向信息的列向量。列向量vVBAP(θ)可以具有两个非零值,其中两个扬声器用于振幅平移。在扬声器具有三维布局的情况下,列向量vVBAP(θ) 可以具有三个非零值。
因此,目标协方差矩阵CT可以如下给出
Figure GDA0002948352770000241
在渲染设备403包括耳机的示例中,可以提供双耳输出。为了提供双耳输出,可以使用类似的方法来确定目标协方差矩阵CT。然而,可以使用作为频带k和方向θ的函数的HRTF数据vHRTF(k,θ)来代替振幅平移数据以渲染直接部分。同样,在要提供双耳输出的情况下,在渲染环境部分时,使用双耳相干性而不是声道间相干性。
在提供双耳输出的情况下,则可以将环境或非方向性部分CA确定为
Figure GDA0002948352770000242
其中cbin(k)是对于第k个频率索引的频率的双耳扩散场相干性。cbin (k)的值对于高频可以为零或接近于零,而对于低频可以具有较高的值。
同样,在要提供双耳输出的情况下,方向部分CD可被确定为
Figure GDA0002948352770000243
因此,双耳输出的目标协方差矩阵CT由下式给出:
Figure GDA0002948352770000244
在空间输出包括球形谐波输出(例如全景声(Ambisonics)输出)的情况下,用于确定目标协方差矩阵CT的方法可以类似于用于扬声器示例的方法。但是,在空间输出包括全景声的情况下,可以使用全景声平移增益代替振幅平移增益。同样,环境或非方向性部分CA中的能量分布矩阵
Figure GDA0002948352770000251
可被不同能量分布矩阵代替。该不同能量分布矩阵可以是具有对应于全景声归一化方案的系数的对角矩阵。例如,对于一阶全景声输出的SN3D 归一化方案,矩阵对角线值为/>
Figure GDA0002948352770000252
对于二阶输出,对角线值将是相同的,但会附加/>
Figure GDA0002948352770000253
的五个值,从而得出大小为9x9的矩阵。
在一些示例中,该方法还包括确定原型矩阵。该原型矩阵基于输入信号定义用于渲染的参考输出信号。可以参考原型矩阵来形成最小二乘优化混合解决方案。在渲染设备403包括扬声器的情况下,原型矩阵可被配置为使得相对于音频输入的左声道优化用于左手侧扬声器的信号,以及类似地相对于音频输入的右声道优化用于右手侧扬声器的信号。可以相对于左手侧和右手侧的总和来优化中央声道。在渲染设备403包括耳机的情况下,原型矩阵可被配置为使得用于左耳输出信号的参考声道是左音频输入信号,并且类似地,用于右耳输出信号的参考声道是右音频输入信号。原型矩阵可以使用任何合适的过程来确定。
图10A和10B是所估计方向和针对第一方向的能量比的曲线图。图 10A是以度为单位的所估计的第一角度相对于以秒为单位的时间的曲线图,而图10B是对于相同时间段的所估计的能量比的曲线图。剩余能量也显示在图10B的曲线图上。
图11A和11B是所估计方向和针对第一方向和第二方向的能量比的曲线图。图11A是以度为单位的所估计的第一角度和所估计的第二角度相对于以秒为单位的时间的曲线图,图11B是对于相同时间段的所估计的能量比的曲线图。图11B的曲线图示出了针对第一方向的和针对第二方向的能量比。剩余能量也显示在图11B的曲线上。
绘制在图10A至11B中的结果是从其中在无声环境中模拟两个噪声源的模拟场景中获得的。在+30度处模拟第一声源,在-30度处模拟第二声源。第一声源比第二声源大1dB。由模拟的声源提供的声音场景是通过模拟的麦克风阵列205捕获的。麦克风阵列205包括两个彼此间隔14cm的麦克风。
图10A和10B示出了仅估计第一方向时获得的结果。在这些结果中,估计的方向主要指向更大声的声源,但是在某些情况下,估计的方向也指向次要的、较安静的声源。这可以导致在渲染的音频信号中可以感知的伪像。
同样如图10B所示,能量比与环境能量相比较低。有大量的能量被确定为在剩余能量中,剩余能量被再现为环境能量。由于再现环境能量所需的去相关性,这可以导致消声(anechoic)的声音场景被转换成更混响 (reverberant)的声音场景。
图11A和图11B示出其中第一方向和第二方向都被估计的结果。在这种情况下,对于每个时间帧,第一方向或第二方向指向声源。因此,当再现音频信号时,提供了稳定的音频对象,并且没有由波动引起的伪像。
同样如图11B所示,由于大多数能量可归因于第一方向或第二方向,因此环境能量的能量比要低得多。这导致较少的声音被再现为环境声音,因此可以保留模拟的环境的消声音响效果(anechoic acoustics)。因此,这提供了改善的音频质量。
图12示出了可以在本公开的示例中使用的示例电子设备201。在图12 的示例中,电子设备201包括麦克风阵列205、分析处理器405、合成处理器407、压缩模块1201和存储元件1203。分析处理器405、合成处理器407、压缩模块1201和存储元件1203可以通过控制电路103或任何其他合适的元件来提供。电子设备201可以是移动电话或任何其他合适类型的电子设备。
麦克风阵列205可以包括多个麦克风。麦克风阵列205可以包括两个或更多个麦克风。麦克风205可以在空间上分布在电子设备201内,以使得能够捕获空间音频。例如,第一麦克风可以位于电子设备201的第一端,第二麦克风可以位于电子设备201的不同端。
麦克风阵列205被配置为捕获音频信号411并将捕获的音频信号411 提供给控制电路103。在图12的示例中,音频信号411被提供给分析处理器405。分析处理器405可以是如上所述配置。
分析处理器405被配置为处理音频信号411以提供传输音频信号511 和空间元数据513。空间元数据513可以包括指示第一方向以及第二方向的信息,并且还可以包括指示对于第一方向的能量比和对于第二方向的能量比的信息。
电子设备201被配置为使得传输音频信号511和空间元数据513被提供给合成处理器407。合成处理器407被配置为处理传输音频信号511和空间元数据513以提供双耳输出信号415。在本公开的其他示例中可以提供各种类型的空间输出信号。
可以将双耳输出信号415提供给压缩模块1201。压缩模块1201可以包括可被配置为减小用于存储的双耳输出信号415的大小的任何元件。在图12的示例中,压缩模块1201包括高级音频编码(AAC)压缩模块。压缩模块1201提供压缩的双耳输出信号1211作为输出。
压缩的双耳输出信号1211被提供给存储元件1203。存储元件1203可以包括存储器电路107或任何其他合适的元件。压缩的双耳输出信号1211 可以与空间元数据513一起存储,使得可以利用压缩的双耳输出信号1211 来检索空间元数据。
压缩的双耳输出信号1211可以从存储元件1203中取出来,以使得能够为用户渲染空间音频。在用户使用耳机作为渲染设备的情况下,可以通过直接再现存储的压缩双耳输出信号1211来渲染空间音频。如果用户使用不同类型的渲染设备,则其他类型的空间音频输出(例如多声道)可以通过使用存储的空间元数据513处理压缩的双耳输出信号1211来获得。
图13示出了可以在本公开的示例中使用的另一示例电子设备201。在图13的示例中,电子设备201包括麦克风阵列205、分析处理器405、编码器模块1301和发射机1305。分析处理器405和编码器模块1301可以通过控制电路103或任何其他合适的元件来提供。电子设备201可以是移动电话或任何其他合适类型的电子设备。
麦克风阵列205可以包括多个麦克风。麦克风阵列205可以包括两个或更多个麦克风。麦克风205可以在空间上分布在电子设备201内,以使得能够捕获空间音频。例如,第一麦克风可以位于电子设备201的第一端,第二麦克风可以位于电子设备201的不同端。
麦克风阵列205被配置为捕获音频信号411并将捕获的音频信号411 提供给控制电路103。在图13的示例中,音频信号411被提供给分析处理器405。分析处理器405可以是如上所述配置。
分析处理器405被配置为处理音频信号411以提供传输音频信号511 和空间元数据513。空间元数据513可以包括指示第一方向以及第二方向的信息,并且还可以包括指示对于第一方向的能量比和对于第二方向的能量比的信息。
电子设备201被配置为使得传输音频信号511和空间元数据513被提供给编码器模块1301。编码器模块1301可以包括可被配置为将传输音频信号511和空间元数据513处理为适合传输的格式的任何元件。在图13 的示例中,编码器模块1301包括被配置为接收音频信号和相关联的空间元数据作为输入的编码器。编码器被配置为将传输音频信号511和空间元数据513编码并复用到比特流1303。编码器提供比特流513作为输出。在本公开的示例中可以使用任何合适类型的编码器模块1301。
比特流1303被提供给发射机1305,以使比特流1303能够被发送给另一设备。另一个设备可以是渲染设备。在这样的示例中,解码器可被渲染设备用来解码比特流1303。在其他示例中,比特流1303可被发送给诸如远程服务器的存储设备。远程服务器可被配置为使得渲染设备能够从远程服务器访问比特流1303。应当理解,在本公开的其他示例中,比特流1303 可被存储在电子设备201中,而不是被发送给另一设备。
图14示出了可以在本公开的示例中使用的另一示例电子设备201。在图14的示例中,电子设备201包括麦克风阵列205、分析处理器405和合成处理器407。可以通过控制电路103或任何其他合适的元件来提供分析处理器405和合成处理器407。电子设备201可以是移动电话或任何其他合适类型的电子设备。
麦克风阵列205可以包括多个麦克风。麦克风阵列205可以包括两个或更多个麦克风。麦克风205可以在空间上分布在电子设备201内,以使得能够捕获空间音频。例如,第一麦克风可以位于电子设备201的第一端,第二麦克风可以位于电子设备201的不同端。
麦克风阵列205被配置为捕获音频信号411并将捕获的音频信号411 提供给控制电路103。在图14的示例中,音频信号411被提供给分析处理器405以及合成处理器407。
分析处理器405被配置为处理音频信号411以提供空间元数据513。空间元数据513可以包括指示第一方向以及第二方向的信息,并且还可以包括指示对于第一方向的能量比和对于第二方向的能量比的信息。
合成处理器407被配置为处理空间元数据513和音频信号411以提供空间音频信号1401。在一些示例中,可以在将音频信号411提供给合成处理器407之前对其进行处理。在一些示例中,音频信号411的全部可被提供给合成处理器407。在其他示例中,仅音频信号411的子集需要被提供给合成处理器407。
合成处理器407被配置为处理传输音频信号511和空间元数据513以提供空间输出信号1401。空间输出信号1401可以是双耳输出信号、扬声器输出信号、全景声信号或任何其他合适类型的信号。
空间输出信号1401可以由诸如耳机或扬声器之类的任何合适的渲染设备来再现。在一些示例中,空间输出信号1401可被存储在电子设备201 中或被发送给另一设备。
在上述示例中,电子设备201包括移动电话。应当理解,在本公开的其他示例中可以使用其他类型的电子设备201。例如,电子设备201可以是成像设备。成像设备可被布置为捕获用于虚拟现实应用程序的图像和音频。这可以需要获取空间音频和多个图像。
在一些示例中,合成处理器407可被配置为代替双耳处理或除双耳处理之外还执行音频聚焦。音频聚焦可以包括波束成形或任何其他合适类型的音频聚焦。音频聚焦可以包括基于第一方向和第二方向的估计在频带上应用进一步的增益修改。这可以使得能够当声音的到达方向与聚焦方向不同时对声音信号进行衰减。在一些示例中,合成处理器407还可被配置为对环境声音进行衰减以相对于环境声音强调直接声音。
本公开的示例提供了改进的空间音频。在存在两个或更多个突出音频源的情况下,本公开的示例可以提供改进的空间音频。音频源可以在干燥的声学环境中,但是本公开的示例也可以在其他类型的环境中使用。本公开的示例可以减少空间音频中的伪像。伪像可以是由不同的突出音频源之间的波动引起的。然而,在本公开的示例中,可以标识每个突出的音频源,并且因此可能将消除波动。
该示例方法还减少可以由去相关引起的伪像,因为一些环境能量被再现为第二方向的一部分。因此,这减少了去相关的剩余能量,并因此减少了这可以引起的任何伪像。
在本公开的一些示例中,可能无法确定第二方向。在这样的示例中,可以仅使用第一方向来实现本公开。即使不能确定第二方向,这仍然使得能够提供足够质量的音频信号。
可以使用任何类型的麦克风阵列来实现本公开的示例。不需要将麦克风205配置为特定的空间布置。这使得本公开能够在诸如移动电话之类的电子设备201中实现,其中麦克风205的位置可以受到用户接口和/或电子设备201的其他硬件组件的限制。
在本说明书中描述的示例中,术语“耦合”是指在操作上耦合。在包括零个组件的耦合组件之间可以提供任何数量的组件。
在本文档中,术语“包括”以包括性而非排他性含义使用。也就是说,对包括Y的X的任何引用都表示X可以仅包括一个Y或可以包括一个以上的Y。如果要使用具有排他性含义的“包括”,则在上下文中通过提及“仅包括一个......”或使用“由......组成”使之更清楚。
在该简要描述中,已经参考了各种示例。关于示例的特征或功能的描述指示那些特征或功能存在于该示例中。不管是否明确指出,在本文中使用术语“示例”或“例如”或“可以”表示这种特征或功能至少在所描述的示例中存在,并且它们可以但不一定存在于某些或所有其他示例中。因此,“示例”、“例如”或“可以”是指一类示例中的特定实例。实例的属性可以是仅该实例的属性,也可以是该类的属性,或者是该类的子类的属性,该子类包括该类中的一些但不是全部实例。因此,隐含地公开了参考一个示例而不是参考另一示例描述的特征可以在可能的情况下用于该另一示例,但是不必必须在该另一示例中使用。
尽管在前面的段落中已经参考各种示例描述了本发明的实施例,但是应当理解,可以在不脱离所要求保护的本发明范围的情况下对给出的示例进行修改。
可以以非明确描述的组合之外的组合来使用在先前描述中描述的特征。
尽管已经参考某些特征描述了功能,但是无论是否描述,那些功能都可以由其他特征来执行。
尽管已经参考某些实施例描述了特征,但是无论是否描述,那些特征也可以存在于其他实施例中。
尽管尽力在前述说明书中引起对被认为特别重要的本发明的那些特征的注意,但是应该理解,本申请人要求保护在此之前参考和/或在附图中示出(无论是否已特别强调)的任何可获专利的特征或特征的组合。

Claims (20)

1.一种用于音频信号处理的装置,包括:
处理电路;以及
包括计算机程序代码的存储器电路,所述存储器电路和所述计算机程序代码被配置为与所述处理电路一起使所述装置:
获得至少第一音频信号和第二音频信号,其中所述第一音频信号和所述第二音频信号是利用包括至少两个麦克风的麦克风阵列捕获的;
针对至少所述第一音频信号和第二音频信号的第一多个频带,标识至少第一方向;以及
针对至少所述第一音频信号和第二音频信号的第二多个频带,标识至少第二方向;
其中,所述第一方向和所述第二方向是使用在至少所述第一音频信号和所述第二音频信号之间的延迟参数来标识的,其中所述第二方向是使用与所述至少第一方向有关的信息来标识的。
2.根据权利要求1所述的装置,其中,所述存储器电路和所述计算机程序代码被配置为与所述处理电路一起使所述装置标识第一能量参数并标识第二能量参数,其中使用与所述第一能量参数有关的信息来调整所述第二能量参数。
3.根据权利要求2所述的装置,其中,所述第一能量参数或所述第二能量参数中的至少一个包括能量比率。
4.根据权利要求2所述的装置,其中,针对所述第一多个频带中的各个频带确定所述第一方向和所述第一能量参数,以及其中,针对所述第二多个频带中的各个频带确定所述第二方向和所述第二能量参数。
5.根据权利要求2所述的装置,其中,与所述第一方向和/或第一能量参数相比,使用不同的频带来标识所述第二方向和/或第二能量参数。
6.根据权利要求2所述的装置,其中,与用于标识所述第一方向和/或第一能量参数的频带相比,使用更宽的频带来标识所述第二方向和/或第二能量参数。
7.根据权利要求1所述的装置,其中,所述第一方向对应于第一声音的第一到达方向,并且所述第二方向对应于第二声音的第二到达方向。
8.根据权利要求1所述的装置,其中,所述第一音频信号和所述第二音频信号被同时捕获。
9.根据权利要求1所述的装置,其中,从同时捕获的音频信号中标识出所述第一方向和所述第二方向,其中所述第二多个频带至少部分地不同于所述第一多个频带,其中所述第一多个频带和所述第二多个频带至少部分地重叠。
10.根据权利要求2所述的装置,其中,所述第一方向和/或所述第一能量参数使用在至少所述第一音频信号和所述第二音频信号之间的第一延迟处的相干性分析来标识,其中,所述第二方向和/或所述第二能量参数使用在至少所述第一音频信号和所述第二音频信号之间的第二延迟处使用的相干性分析来标识,其中所述第二延迟与所述第一延迟不同。
11.根据权利要求10所述的装置,其中,所述相干性分析包括标识具有在所述第一音频信号和所述第二音频信号之间的最高相干性水平的时间延迟。
12.根据权利要求10所述的装置,其中,所述存储器电路和所述计算机程序代码被配置为与所述处理电路一起使所述装置定义围绕所述第一方向的角度范围,并且从所述相干性分析中省略来自该角度范围的方向以标识所述第二方向。
13.根据权利要求10所述的装置,其中,所述相干性分析包括估计对于所述第一方向的能量比以及估计对于所述第二方向的能量比。
14.根据权利要求1所述的装置,其中,所述存储器电路和所述计算机程序代码被配置为与所述处理电路一起使所述装置获得至少第三音频信号,其中利用所述麦克风阵列捕获所述第三音频信号,其中所述麦克风阵列包括至少三个麦克风,其中所述第一音频信号是利用所述麦克风阵列中的第一麦克风捕获的,其中所述第二音频信号是利用所述麦克风阵列中的不同的第二麦克风捕获的,其中所述第三音频信号是利用所述麦克风阵列中的不同的第三麦克风捕获的。
15.根据权利要求1所述的装置,其中,所述存储器电路和所述计算机程序代码被配置为与所述处理电路一起使所述装置向一个或多个合成器提供至少所述第一音频信号、所述第二音频信号和元数据,以使所述第一音频信号和所述第二音频信号以及所述元数据能够用于合成空间音频信号,其中所述元数据包括指示所述第一方向和所述第二方向的信息和/或指示与所述第一方向关联的第一能量比和与所述第二方向关联的第二能量比的信息。
16.一种用于音频信号处理的方法,包括:
获得至少第一音频信号和第二音频信号,其中所述第一音频信号和所述第二音频信号是利用包括至少两个麦克风的麦克风阵列捕获的;
针对至少所述第一音频信号和第二音频信号的第一多个频带,标识至少第一方向;以及
针对至少所述第一音频信号和第二音频信号的第二多个频带,标识至少对应的第二方向;
其中,所述第一方向和所述第二方向是使用在至少所述第一音频信号和所述第二音频信号之间的延迟参数来标识的,并且其中所述第二方向是使用与有所述第一方向关的信息来标识的。
17.根据权利要求16所述的方法,包括标识第一能量参数和标识第二能量参数,其中使用与所述第一能量参数有关的信息来调整所述第二能量参数。
18.根据权利要求17所述的方法,其中,所述第一能量参数或所述第二能量参数中的至少一个包括能量比率。
19.根据权利要求17所述的方法,其中,与所述第一方向和/或所述第一能量参数相比,使用不同的频带来标识所述第二方向和/或所述第二能量参数。
20.根据权利要求19所述的方法,其中,与用于标识所述第一方向和/或第一能量参数的频带相比,使用更宽的频带来标识所述第二方向和/或第二能量参数。
CN201980046030.7A 2018-05-09 2019-05-07 用于音频信号处理的装置和方法 Active CN112567763B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310217452.4A CN116193320A (zh) 2018-05-09 2019-05-07 用于音频信号处理的装置、方法和计算机程序

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB1807537.4A GB2573537A (en) 2018-05-09 2018-05-09 An apparatus, method and computer program for audio signal processing
GB1807537.4 2018-05-09
PCT/FI2019/050356 WO2019215391A1 (en) 2018-05-09 2019-05-07 An apparatus, method and computer program for audio signal processing

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202310217452.4A Division CN116193320A (zh) 2018-05-09 2019-05-07 用于音频信号处理的装置、方法和计算机程序

Publications (2)

Publication Number Publication Date
CN112567763A CN112567763A (zh) 2021-03-26
CN112567763B true CN112567763B (zh) 2023-03-31

Family

ID=62598268

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201980046030.7A Active CN112567763B (zh) 2018-05-09 2019-05-07 用于音频信号处理的装置和方法
CN202310217452.4A Pending CN116193320A (zh) 2018-05-09 2019-05-07 用于音频信号处理的装置、方法和计算机程序

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202310217452.4A Pending CN116193320A (zh) 2018-05-09 2019-05-07 用于音频信号处理的装置、方法和计算机程序

Country Status (5)

Country Link
US (2) US11457310B2 (zh)
EP (1) EP3791605A4 (zh)
CN (2) CN112567763B (zh)
GB (1) GB2573537A (zh)
WO (1) WO2019215391A1 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2573537A (en) * 2018-05-09 2019-11-13 Nokia Technologies Oy An apparatus, method and computer program for audio signal processing
GB2588801A (en) * 2019-11-08 2021-05-12 Nokia Technologies Oy Determination of sound source direction
GB2590651A (en) 2019-12-23 2021-07-07 Nokia Technologies Oy Combining of spatial audio parameters
CN113573206A (zh) * 2020-04-29 2021-10-29 维沃移动通信有限公司 音频播放方法及电子设备
CN112485761B (zh) * 2021-02-03 2021-04-09 成都启英泰伦科技有限公司 一种基于双麦克风的声源定位方法
GB2611357A (en) * 2021-10-04 2023-04-05 Nokia Technologies Oy Spatial audio filtering within spatial audio capture
GB2611356A (en) * 2021-10-04 2023-04-05 Nokia Technologies Oy Spatial audio capture
GB2613628A (en) 2021-12-10 2023-06-14 Nokia Technologies Oy Spatial audio object positional distribution within spatial audio communication systems

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007006253A (ja) * 2005-06-24 2007-01-11 Sony Corp 信号処理装置、マイクロフォンシステム、話者方向検出方法及び話者方向検出プログラム
CN103621110A (zh) * 2011-05-09 2014-03-05 Dts(英属维尔京群岛)有限公司 用于多声道音频的室内特征化和校正
WO2017129239A1 (en) * 2016-01-27 2017-08-03 Nokia Technologies Oy System and apparatus for tracking moving audio sources
WO2017143003A1 (en) * 2016-02-18 2017-08-24 Dolby Laboratories Licensing Corporation Processing of microphone signals for spatial playback
US9794720B1 (en) * 2016-09-22 2017-10-17 Sonos, Inc. Acoustic position measurement
GB201715863D0 (en) * 2017-09-29 2017-11-15 Laitinen Mikko-Ville Ilari Recording and rendering spatial audio signals
WO2018060550A1 (en) * 2016-09-28 2018-04-05 Nokia Technologies Oy Spatial audio signal format generation from a microphone array using adaptive capture
WO2018064296A1 (en) * 2016-09-29 2018-04-05 Dolby Laboratories Licensing Corporation Method, systems and apparatus for determining audio representation(s) of one or more audio sources

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080232601A1 (en) * 2007-03-21 2008-09-25 Ville Pulkki Method and apparatus for enhancement of audio reconstruction
WO2009044509A1 (ja) * 2007-10-01 2009-04-09 Panasonic Corporation 音源方向検知装置
US9274744B2 (en) * 2010-09-10 2016-03-01 Amazon Technologies, Inc. Relative position-inclusive device interfaces
US8525868B2 (en) * 2011-01-13 2013-09-03 Qualcomm Incorporated Variable beamforming with a mobile platform
US9197600B2 (en) 2011-09-29 2015-11-24 Israel L'Heureux Smart router
EP2717263B1 (en) * 2012-10-05 2016-11-02 Nokia Technologies Oy Method, apparatus, and computer program product for categorical spatial analysis-synthesis on the spectrum of a multichannel audio signal
US9232310B2 (en) * 2012-10-15 2016-01-05 Nokia Technologies Oy Methods, apparatuses and computer program products for facilitating directional audio capture with multiple microphones
WO2014096908A1 (en) * 2012-12-21 2014-06-26 Nokia Corporation Spatial audio apparatus
GB2520029A (en) 2013-11-06 2015-05-13 Nokia Technologies Oy Detection of a microphone
US10853449B1 (en) * 2016-01-05 2020-12-01 Deepradiology, Inc. Report formatting for automated or assisted analysis of medical imaging data and medical diagnosis
JP6789690B2 (ja) * 2016-06-23 2020-11-25 キヤノン株式会社 信号処理装置、信号処理方法、及びプログラム
US10573291B2 (en) * 2016-12-09 2020-02-25 The Research Foundation For The State University Of New York Acoustic metamaterial
GB2573537A (en) * 2018-05-09 2019-11-13 Nokia Technologies Oy An apparatus, method and computer program for audio signal processing

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007006253A (ja) * 2005-06-24 2007-01-11 Sony Corp 信号処理装置、マイクロフォンシステム、話者方向検出方法及び話者方向検出プログラム
CN103621110A (zh) * 2011-05-09 2014-03-05 Dts(英属维尔京群岛)有限公司 用于多声道音频的室内特征化和校正
WO2017129239A1 (en) * 2016-01-27 2017-08-03 Nokia Technologies Oy System and apparatus for tracking moving audio sources
WO2017143003A1 (en) * 2016-02-18 2017-08-24 Dolby Laboratories Licensing Corporation Processing of microphone signals for spatial playback
US9794720B1 (en) * 2016-09-22 2017-10-17 Sonos, Inc. Acoustic position measurement
WO2018060550A1 (en) * 2016-09-28 2018-04-05 Nokia Technologies Oy Spatial audio signal format generation from a microphone array using adaptive capture
WO2018064296A1 (en) * 2016-09-29 2018-04-05 Dolby Laboratories Licensing Corporation Method, systems and apparatus for determining audio representation(s) of one or more audio sources
GB201715863D0 (en) * 2017-09-29 2017-11-15 Laitinen Mikko-Ville Ilari Recording and rendering spatial audio signals

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于四元十字阵的分布式声源定位实验研究;马驰等;《传感器与微系统》;20131029(第11期);全文 *

Also Published As

Publication number Publication date
GB201807537D0 (en) 2018-06-20
CN112567763A (zh) 2021-03-26
GB2573537A (en) 2019-11-13
WO2019215391A1 (en) 2019-11-14
CN116193320A (zh) 2023-05-30
EP3791605A1 (en) 2021-03-17
EP3791605A4 (en) 2022-01-26
US20220417656A1 (en) 2022-12-29
US11950063B2 (en) 2024-04-02
US11457310B2 (en) 2022-09-27
US20210076130A1 (en) 2021-03-11

Similar Documents

Publication Publication Date Title
CN112567763B (zh) 用于音频信号处理的装置和方法
US11671781B2 (en) Spatial audio signal format generation from a microphone array using adaptive capture
CN111316354B (zh) 目标空间音频参数和相关联的空间音频播放的确定
RU2663343C2 (ru) Система, устройство и способ для совместимого воспроизведения акустической сцены на основе адаптивных функций
KR102470962B1 (ko) 사운드 소스들을 향상시키기 위한 방법 및 장치
CN112219236A (zh) 空间音频参数和相关联的空间音频播放
CN112219411B (zh) 空间声音渲染
CN113597776B (zh) 参数化音频中的风噪声降低
KR20150021052A (ko) 3 차원 사운드 압축 및 호출 동안의 오버-디-에어 송신
US11575988B2 (en) Apparatus, method and computer program for obtaining audio signals
CN112189348A (zh) 空间音频捕获
CN113454715A (zh) 用于使用低阶、中阶和高阶分量生成器进行与基于DirAC的空间音频编码有关的编码、解码、场景处理和其他过程的装置、方法和计算机程序
US20230199417A1 (en) Spatial Audio Representation and Rendering
WO2021260260A1 (en) Suppressing spatial noise in multi-microphone devices
WO2023148426A1 (en) Apparatus, methods and computer programs for enabling rendering of spatial audio
GB2617055A (en) Apparatus, Methods and Computer Programs for Enabling Rendering of Spatial Audio
EP4356376A1 (en) Apparatus, methods and computer programs for obtaining spatial metadata
EP4186247A1 (en) Parametric spatial audio rendering with near-field effect

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant