CN114424588A - 使用宽带估计的参数化空间音频捕获的方向估计增强 - Google Patents

使用宽带估计的参数化空间音频捕获的方向估计增强 Download PDF

Info

Publication number
CN114424588A
CN114424588A CN202080064936.4A CN202080064936A CN114424588A CN 114424588 A CN114424588 A CN 114424588A CN 202080064936 A CN202080064936 A CN 202080064936A CN 114424588 A CN114424588 A CN 114424588A
Authority
CN
China
Prior art keywords
audio signal
parameter
sound
sound source
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080064936.4A
Other languages
English (en)
Inventor
M-V·莱蒂南
A·埃罗宁
J·维卡莫
T·皮赫拉亚库亚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Technologies Oy
Original Assignee
Nokia Technologies Oy
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Technologies Oy filed Critical Nokia Technologies Oy
Publication of CN114424588A publication Critical patent/CN114424588A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Stereophonic System (AREA)

Abstract

一种装置(303),包括被配置为执行以下操作的部件:获得至少一个音频信号(112);确定与至少一个音频信号(112)相关联的至少一个传播声音的至少一个方向参数(506);确定与至少一个音频信号(112)相关联的至少一个声源的至少一个方向(302);根据所确定的至少一个方向(302),修改至少一个方向参数(506);以及输出经修改的至少一个方向参数(508)。

Description

使用宽带估计的参数化空间音频捕获的方向估计增强
技术领域
本申请涉及用于使用宽带估计的参数化空间音频捕获的方向估计增强的装置和方法。
背景技术
使用诸如在消费者移动设备(诸如诺基亚8)和商业录音设备(诸如诺基亚OZO)中的麦克风阵列来捕获或记录空间声音是已知的。这种空间声音可以被再现以用于耳机或多通道扬声器设置,并且提供丰富的音频体验。由设备捕获的音频信号可以在同一设备内或在另一设备处以合适的输出格式被再现。例如,在作为音频通道和空间元数据或作为全景环绕声(Ambisonic)信号传输到合适的回放或接收器设备之后。
对于传输,例如,使用高级音频编码(AAC)或MPEG-H 3D音频压缩或其他合适的压缩机制,可以对音频信号或通道进行压缩。空间元数据也可以被压缩,并或者在与音频数据相同的数据分组中被发送,或者被发送为单独的压缩元数据流。在音频信号或通道和相关联的元数据被压缩以用于传输的情况下,它们在再现之前被解码。
可包括麦克风阵列的移动设备可以利用参数化空间音频捕获和渲染方法以在感知上使能准确的空间声音再现。参数化空间音频捕获是指自适应DSP驱动的音频捕获方法。具体来说,参数化空间音频方法通常可以被概括为以下操作:
1)分析在频带和短时间间隔(通常被称为时频隙(time-frequency slot))中的感知相关参数,例如,传播声音在记录位置处的到达方向,以及
2)根据所估计的空间参数,在渲染侧在感知意义上再现空间声音。
再现例如可以用于耳机或多通道扬声器设置。通过估计并再现声场的感知相关空间特性(参数),可以产生类似于收听者正在收听原始声场时会出现的空间感知。作为结果,收听者可以感知大量声源、其方向和距离、以及周围物理空间的特性,以及其他的空间声音特征,就好像收听者处于捕获设备的位置处一样。
已知被称为空间音频捕获(SPAC)过程的双耳空间音频再现方法(诸如在PCT公开的专利WO2018/091776、WO2018/060549、US20130044884、WO2017/005978、EP3320699中所描述的)捕获(例如,从诺基亚8或诺基亚OZO)麦克风阵列信号。这些过程从频带中的麦克风信号中估计到达方向(DOA)以及被表述为直接与总能量比(direct-to-total energy ratio)的直接分量和环境分量的相对能量,并合成例如用于耳机收听的双耳信号、或者用于扬声器收听的多通道扬声器信号、或者用于YouTube 360和类似服务的Ambisonic输出。
尽管SPAC通常产生良好的音频质量,但由于各种原因,空间分析精度可能不是最优的。潜在的原因例如可能是捕获设备的情况的不规律性,例如,移动设备以不同的方式被握在手中或者被覆盖有保护壳、风噪声、有必要在空间分析之前对音频信号使用AAC编码(其可产生更差的质量分析)、以及声场本身中的声学环境。然而,AAC编码仅是可导致空间分析出现问题的有损编码的示例。任何其他的有损编解码器也可导致这些问题(例如,mp3、Ogg Vorbis等)
发明内容
根据第一方面,提供了一种装置,其包括被配置为执行以下操作的部件:获得至少一个音频信号;确定与至少一个音频信号相关联的至少一个传播声音的至少一个方向参数;确定与至少一个音频信号相关联的至少一个声源的至少一个方向;根据所确定的至少一个方向,修改至少一个方向参数;以及输出经修改的至少一个方向参数。
被配置为获得至少一个音频信号的部件可以被配置为获得以下中的至少一个:至少两个麦克风音频信号;至少一个Ambisonic音频信号;至少一个空间音频信号,其中,该至少一个空间音频信号与至少一个元数据参数相关联,其中,该至少一个元数据参数包括以下中的至少一个:方向或到达方向;能量比率(energy ratio);扩散比率(diffusenessratio)。
被配置为确定至少一个传播声音的至少一个方向参数的部件可以被配置为确定以下中的至少一个:至少一个传播声音的至少一个方向参数;至少一个音频源的至少一个方向参数;来自至少一个音频源的至少一个反射的至少一个方向参数;以及与至少一个方向参数相关联的至少一个能量比率参数。
被配置为确定至少一个传播声音的至少一个方向参数的部件可以被配置为:确定与至少一个音频信号的至少一个频带相关联的至少一个方向参数。
与至少一个音频信号相关联的至少一个传播声音可以包括以下中的至少一个:与空间内的至少一个音频源相关联的直接声音;与空间内的至少一个音频源相关联的反射声音;与至少一个虚拟源相关联的声音;回响声音;环境声音;以及直接声音、反射声音、回响声音和环境声音中的任意的叠加。
与至少一个音频信号相关联的至少一个传播声音可以与从其捕获至少一个音频信号的记录位置相关。
被配置为确定与至少一个音频信号相关联的至少一个声源的至少一个方向的部件可以被配置为:获得至少一个图像;分析至少一个图像以在该图像内确定至少一个感兴趣对象;以及基于至少一个感兴趣对象在至少一个图像内的位置以及图像捕获参数,确定至少一个声源的至少一个方向。
被配置为分析至少一个图像以在该图像内确定至少一个感兴趣对象的部件可以被配置为:基于从至少一个图像中识别面部并进一步基于识别在图像之间该面部内的嘴唇的运动,识别至少一个说话者。
被配置为确定至少一个声源的至少一个方向的部件可以被配置为执行以下中的至少一个:分析来自至少一个红外线传感器的至少一个信号以确定至少一个声源的至少一个方向;分析来自至少一个传感器的至少一个信号以确定至少一个声源的至少一个方向;获得标识至少一个声源的至少一个方向的至少一个用户输入信号;获得与对象相关联的至少一个定位信号,从该至少一个定位信号确定至少一个声源的至少一个方向;当至少一个音频信号包括两个或更多个麦克风音频信号时,分析该至少一个音频信号;以及获得与至少一个音频信号相关联的元数据,该元数据包括定向或位置信息,其中,当从该至少一个音频信号的分析中确定至少一个传播声音的至少一个方向参数时,从该元数据中确定至少一个声源的至少一个方向。
被配置为根据所确定的至少一个方向来修改至少一个方向参数的部件可以被配置为:确定至少一个方向参数与至少一个声源的至少一个方向之间的角度差;将该角度差与阈值进行比较,其中,如果该角度差大于该阈值,则至少一个方向参数被不经修改地传递,而如果该角度差小于该阈值,则至少一个方向参数被朝向至少一个声源的至少一个方向地修改。
被配置为朝向至少一个声源的至少一个方向地修改方向参数的部件可以被配置为:当该角度差小于所确定的更小阈值时,将该方向参数修改为在至少一个声源的至少一个方向上,以及当该角度差大于所确定的更小阈值但小于上述阈值时,对该方向参数应用内插修改。
该部件可以进一步被配置为:基于至少一个音频信号,确定至少一个传输音频信号;以及输出具有经修改的方向参数的至少一个传输音频信号。
该部件可以进一步被配置为:当至少一个音频信号包括至少两个麦克风音频信号时,分析该至少一个音频信号以确定至少一个元数据参数,其中,该至少一个元数据参数包括以下中的至少一个:能量比率;以及扩散比率;输出具有经修改的方向参数的至少一个元数据参数。
根据第二方面,提供了一种装置,其包括被配置为执行以下操作的部件:获得至少一个传输音频信号;确定与至少一个传输音频信号相关联的至少一个传播声音的至少一个方向参数;确定与至少一个传输音频信号相关联的至少一个声源的至少一个方向;根据所确定的至少一个方向,修改至少一个方向参数;以及输出经修改的至少一个方向参数。
被配置为获得至少一个传输音频信号的部件可以被配置为接收以下中的至少一个:至少两个麦克风音频信号;至少一个Ambisonic音频信号;至少一个空间音频信号,其中,该至少一个空间音频信号与至少一个元数据参数相关联,其中,该至少一个元数据参数包括以下中的至少一个:方向或到达方向;能量比率;扩散比率。
被配置为确定至少一个传播声音的至少一个方向参数的部件可以被配置为确定至少以下中的至少一个:至少一个传播声音的至少一个方向参数;至少一个音频源的至少一个方向参数;来自至少一个音频源的至少一个反射的至少一个方向参数;以及与至少一个方向参数相关联的至少一个能量比率参数。
被配置为确定至少一个传播声音的至少一个方向参数的部件可以被配置为:确定与至少一个传输音频信号的至少一个频带相关联的至少一个方向参数。
与至少一个传输音频信号相关联的至少一个传播声音可以包括以下中的至少一个:与空间内的至少一个音频源相关联的直接声音;与空间内的至少一个音频源相关联的反射声音;与至少一个虚拟源相关联的声音;回响声音;环境声音;以及直接声音、反射声音、回响声音和环境声音中的任意的叠加。
与至少一个传输音频信号相关联的至少一个传播声音可以与从其捕获至少一个音频信号的记录位置相关,其中从该至少一个音频信号中生成至少一个传输音频信号。
被配置为确定与至少一个传输音频信号相关联的至少一个声源的至少一个方向的部件可以被配置为:获得至少一个图像;分析至少一个图像以在该图像内确定至少一个感兴趣对象;以及基于至少一个感兴趣对象在至少一个图像内的位置以及图像捕获参数,确定至少一个声源的至少一个方向。
被配置为分析至少一个图像以在该图像内确定至少一个感兴趣对象的部件可以被配置为:基于从至少一个图像中识别面部并进一步基于识别在图像之间该面部内的嘴唇的运动,识别至少一个说话者。
被配置为确定至少一个声源的至少一个方向的部件可以被配置为执行以下中的至少一个:分析来自至少一个红外线传感器的至少一个信号以确定至少一个声源的至少一个方向;分析来自至少一个传感器的至少一个信号以确定至少一个声源的至少一个方向;获得标识至少一个声源的至少一个方向的至少一个用户输入信号;获得与对象相关联的至少一个定位信号,从该至少一个定位信号确定至少一个声源的至少一个方向;当至少一个传输音频信号包括两个或更多个麦克风音频信号时,分析该至少一个传输音频信号;以及获得与至少一个音频信号相关联的元数据,该元数据包括定向或位置信息,其中,当从至少一个传输音频信号的分析中确定至少一个传播声音的至少一个方向参数时,从该元数据中确定至少一个声源的至少一个方向。
被配置为根据所确定的至少一个方向来修改至少一个方向参数的部件可以被配置为:确定至少一个方向参数与至少一个声源的至少一个方向之间的角度差;将该角度差与阈值进行比较,其中,如果该角度差大于该阈值,则至少一个方向参数被不经修改地传递,而如果该角度差小于该阈值,则至少一个方向参数被朝向至少一个声源的至少一个方向地修改。
被配置为朝向至少一个声源的至少一个方向地修改方向参数的部件可以被配置为:当该角度差小于所确定的更小阈值时,将该方向参数修改为在至少一个声源的至少一个方向上,以及当该角度差大于所确定的更小阈值但小于上述阈值时,对该方向参数应用内插修改。
根据第三方面,提供了一种方法,其包括:获得至少一个音频信号;确定与至少一个音频信号相关联的至少一个传播声音的至少一个方向参数;确定与至少一个音频信号相关联的至少一个声源的至少一个方向;根据所确定的至少一个方向,修改至少一个方向参数;以及输出经修改的至少一个方向参数。
获得至少一个音频信号可以包括获得以下中的至少一个:至少两个麦克风音频信号;至少一个Ambisonic音频信号;至少一个空间音频信号,其中,该至少一个空间音频信号与至少一个元数据参数相关联,其中,该至少一个元数据参数包括以下中的至少一个:方向或到达方向;能量比率;扩散比率。
确定至少一个传播声音的至少一个方向参数可以包括确定以下中的至少一个:至少一个传播声音的至少一个方向参数;至少一个音频源的至少一个方向参数;来自至少一个音频源的至少一个反射的至少一个方向参数;以及与至少一个方向参数相关联的至少一个能量比率参数。
确定至少一个传播声音的至少一个方向参数可以包括:确定与至少一个音频信号的至少一个频带相关联的至少一个方向参数。
与至少一个音频信号相关联的至少一个传播声音可以包括以下中的至少一个:与空间内的至少一个音频源相关联的直接声音;与空间内的至少一个音频源相关联的反射声音;与至少一个虚拟源相关联的声音;回响声音;环境声音;以及直接声音、反射声音、回响声音和环境声音中的任意的叠加。
与至少一个音频信号相关联的至少一个传播声音可以与从其捕获至少一个音频信号的记录位置相关。
确定与至少一个音频信号相关联的至少一个声源的至少一个方向可以包括:获得至少一个图像;分析至少一个图像以在该图像内确定至少一个感兴趣对象;以及基于至少一个感兴趣对象在至少一个图像内的位置以及图像捕获参数,确定至少一个声源的至少一个方向。
分析至少一个图像以在该图像内确定至少一个感兴趣对象可以包括:基于从至少一个图像中识别面部并进一步基于识别在图像之间该面部内的嘴唇的运动,识别至少一个说话者。
确定至少一个声源的至少一个方向可以包括执行以下中的至少一个:分析来自至少一个红外线传感器的至少一个信号以确定至少一个声源的至少一个方向;分析来自至少一个传感器的至少一个信号以确定至少一个声源的至少一个方向;获得标识至少一个声源的至少一个方向的至少一个用户输入信号;获得与对象相关联的至少一个定位信号,从该至少一个定位信号确定至少一个声源的至少一个方向;当至少一个音频信号包括两个或更多个麦克风音频信号时,分析该至少一个音频信号;以及获得与至少一个音频信号相关联的元数据,该元数据包括定向或位置信息,其中,当从该至少一个音频信号的分析中确定至少一个传播声音的至少一个方向参数时,从该元数据中确定至少一个声源的至少一个方向。
根据所确定的至少一个方向来修改至少一个方向参数可以包括:确定至少一个方向参数与至少一个声源的至少一个方向之间的角度差;将该角度差与阈值进行比较,其中,如果该角度差大于该阈值,则至少一个方向参数被不经修改地传递,而如果该角度差小于该阈值,则至少一个方向参数被朝向至少一个声源的至少一个方向地修改。
朝向至少一个声源的至少一个方向地修改方向参数可以包括:当该角度差小于所确定的更小阈值时,将该方向参数修改为在至少一个声源的至少一个方向上,以及当该角度差大于所确定的更小阈值但小于上述阈值时,对该方向参数应用内插修改。
该方法可以进一步包括:基于至少一个音频信号,确定至少一个传输音频信号;以及输出具有经修改的方向参数的至少一个传输音频信号。
该方法可以进一步包括:当至少一个音频信号包括至少两个麦克风音频信号时,分析该至少一个音频信号以确定至少一个元数据参数,其中,该至少一个元数据参数包括以下中的至少一个:能量比率;以及扩散比率;输出具有经修改的方向参数的至少一个元数据参数。
根据第四方面,提供了一种方法,其包括:获得至少一个传输音频信号;确定与至少一个传输音频信号相关联的至少一个传播声音的至少一个方向参数;确定与至少一个传输音频信号相关联的至少一个声源的至少一个方向;根据所确定的至少一个方向,修改至少一个方向参数;以及输出经修改的至少一个方向参数。
获得至少一个传输音频信号可以包括接收以下中的至少一个:至少两个麦克风音频信号;至少一个Ambisonic音频信号;至少一个空间音频信号,其中,该至少一个空间音频信号与至少一个元数据参数相关联,其中,该至少一个元数据参数包括以下中的至少一个:方向或到达方向;能量比率;扩散比率。
确定至少一个传播声音的至少一个方向参数可以包括确定至少以下中的至少一个:至少一个传播声音的至少一个方向参数;至少一个音频源的至少一个方向参数;来自至少一个音频源的至少一个反射的至少一个方向参数;以及与至少一个方向参数相关联的至少一个能量比率参数。
确定至少一个传播声音的至少一个方向参数可以包括:确定与至少一个传输音频信号的至少一个频带相关联的至少一个方向参数。
与至少一个传输音频信号相关联的至少一个传播声音可以包括以下中的至少一个:与空间内的至少一个音频源相关联的直接声音;与空间内的至少一个音频源相关联的反射声音;与至少一个虚拟源相关联的声音;回响声音;环境声音;以及直接声音、反射声音、回响声音和环境声音中的任意的叠加。
与至少一个传输音频信号相关联的至少一个传播声音可以与从其捕获至少一个音频信号的记录位置相关,其中从该至少一个音频信号中生成至少一个传输音频信号。
确定与至少一个传输音频信号相关联的至少一个声源的至少一个方向可以包括:获得至少一个图像;分析至少一个图像以在该图像内确定至少一个感兴趣对象;以及基于至少一个感兴趣对象在至少一个图像内的位置以及图像捕获参数,确定至少一个声源的至少一个方向。
分析至少一个图像以在该图像内确定至少一个感兴趣对象可以包括:基于从至少一个图像中识别面部并进一步基于识别在图像之间该面部内的嘴唇的运动,识别至少一个说话者。
确定至少一个声源的至少一个方向可以包括执行以下中的至少一个:分析来自至少一个红外线传感器的至少一个信号以确定至少一个声源的至少一个方向;分析来自至少一个传感器的至少一个信号以确定至少一个声源的至少一个方向;获得标识至少一个声源的至少一个方向的至少一个用户输入信号;获得与对象相关联的至少一个定位信号,从该至少一个定位信号确定至少一个声源的至少一个方向;当至少一个传输音频信号包括两个或更多个麦克风音频信号时,分析该至少一个传输音频信号;以及获得与至少一个音频信号相关联的元数据,该元数据包括定向或位置信息,其中,当从至少一个传输音频信号的分析中确定至少一个传播声音的至少一个方向参数时,从该元数据中确定至少一个声源的至少一个方向。
根据所确定的至少一个方向来修改至少一个方向参数可以包括:确定至少一个方向参数与至少一个声源的至少一个方向之间的角度差;将该角度差与阈值进行比较,其中,如果该角度差大于该阈值,则至少一个方向参数被不经修改地传递,而如果该角度差小于该阈值,则至少一个方向参数被朝向至少一个声源的至少一个方向地修改。
朝向至少一个声源的至少一个方向地修改方向参数可以包括:当该角度差小于所确定的更小阈值时,将该方向参数修改为在至少一个声源的至少一个方向上,以及当该角度差大于所确定的更小阈值但小于上述阈值时,对该方向参数应用内插修改。
根据第五方面,提供了一种装置,其包括至少一个处理器和包括计算机程序代码的至少一个存储器,该至少一个存储器和计算机程序代码被配置为与至少一个处理器一起使该装置至少:获得至少一个音频信号;确定与至少一个音频信号相关联的至少一个传播声音的至少一个方向参数;确定与至少一个音频信号相关联的至少一个声源的至少一个方向;根据所确定的至少一个方向,修改至少一个方向参数;以及输出经修改的至少一个方向参数。
被使得获得至少一个音频信号的该装置可以被使得获得以下中的至少一个:至少两个麦克风音频信号;至少一个Ambisonic音频信号;至少一个空间音频信号,其中,该至少一个空间音频信号与至少一个元数据参数相关联,其中,该至少一个元数据参数包括以下中的至少一个:方向或到达方向;能量比率;扩散比率。
被使得确定至少一个传播声音的至少一个方向参数的该装置可以被使得确定以下中的至少一个:至少一个传播声音的至少一个方向参数;至少一个音频源的至少一个方向参数;来自至少一个音频源的至少一个反射的至少一个方向参数;以及与至少一个方向参数相关联的至少一个能量比率参数。
被使得为确定至少一个传播声音的至少一个方向参数的该装置可以被使得:确定与至少一个音频信号的至少一个频带相关联的至少一个方向参数。
与至少一个音频信号相关联的至少一个传播声音可以包括以下中的至少一个:与空间内的至少一个音频源相关联的直接声音;与空间内的至少一个音频源相关联的反射声音;与至少一个虚拟源相关联的声音;回响声音;环境声音;以及直接声音、反射声音、回响声音和环境声音中的任意的叠加。
与至少一个音频信号相关联的至少一个传播声音可以与从其捕获至少一个音频信号的记录位置相关。
被使得为确定与至少一个音频信号相关联的至少一个声源的至少一个方向的该装置可以被使得:获得至少一个图像;分析至少一个图像以在该图像内确定至少一个感兴趣对象;以及基于至少一个感兴趣对象在至少一个图像内的位置以及图像捕获参数,确定至少一个声源的至少一个方向。
被使得分析至少一个图像以在该图像内确定至少一个感兴趣对象的该装置可以被使得:基于从至少一个图像中识别面部并进一步基于识别在图像之间该面部内的嘴唇的运动,识别至少一个说话者。
被使得为确定至少一个声源的至少一个方向的该装置可以被使得执行以下中的至少一个:分析来自至少一个红外线传感器的至少一个信号以确定至少一个声源的至少一个方向;分析来自至少一个传感器的至少一个信号以确定至少一个声源的至少一个方向;获得标识至少一个声源的至少一个方向的至少一个用户输入信号;获得与对象相关联的至少一个定位信号,从该至少一个定位信号确定至少一个声源的至少一个方向;当至少一个音频信号包括两个或更多个麦克风音频信号时,分析该至少一个音频信号;以及获得与至少一个音频信号相关联的元数据,该元数据包括定向或位置信息,其中,当从该至少一个音频信号的分析中确定至少一个传播声音的至少一个方向参数时,从该元数据中确定至少一个声源的至少一个方向。
被使得根据所确定的至少一个方向来修改至少一个方向参数的该装置可以被使得:确定至少一个方向参数与至少一个声源的至少一个方向之间的角度差;将该角度差与阈值进行比较,其中,如果该角度差大于该阈值,则至少一个方向参数被不经修改地传递,而如果该角度差小于该阈值,则至少一个方向参数被朝向至少一个声源的至少一个方向地修改。
被使得朝向至少一个声源的至少一个方向地修改方向参数的该装置可以被使得:当该角度差小于所确定的更小阈值时,将该方向参数修改为在至少一个声源的至少一个方向上,以及当该角度差大于所确定的更小阈值但小于上述阈值时,对该方向参数应用内插修改。
该装置可以进一步被使得:基于至少一个音频信号,确定至少一个传输音频信号;以及输出具有经修改的方向参数的至少一个传输音频信号。
该装置可以进一步被使得:当至少一个音频信号包括至少两个麦克风音频信号时,分析该至少一个音频信号以确定至少一个元数据参数,其中,该至少一个元数据参数包括以下中的至少一个:能量比率;以及扩散比率;输出具有经修改的方向参数的至少一个元数据参数。
根据第六方面,提供了一种装置,其包括至少一个处理器和包括计算机程序代码的至少一个存储器,该至少一个存储器和计算机程序代码被配置为与至少一个处理器一起使所述装置至少:获得至少一个传输音频信号;确定与至少一个传输音频信号相关联的至少一个传播声音的至少一个方向参数;确定与至少一个传输音频信号相关联的至少一个声源的至少一个方向;根据所确定的至少一个方向,修改至少一个方向参数;以及输出经修改的至少一个方向参数。
根据第七方面,提供了一种装置,其包括:获得电路,被配置为获得至少一个音频信号;确定电路,被配置为确定与至少一个音频信号相关联的至少一个传播声音的至少一个方向参数;确定电路,被配置为确定与至少一个音频信号相关联的至少一个声源的至少一个方向;修改电路,被配置为根据所确定的至少一个方向,修改至少一个方向参数;以及输出电路,被配置为输出经修改的至少一个方向参数。
根据第八方面,提供了一种装置,其包括:获得电路,被配置为获得至少一个传输音频信号;确定电路,被配置为确定与至少一个传输音频信号相关联的至少一个传播声音的至少一个方向参数;确定电路,被配置为确定与至少一个传输音频信号相关联的至少一个声源的至少一个方向;修改电路,被配置为根据所确定的至少一个方向,修改至少一个方向参数;以及输出电路,被配置为输出经修改的至少一个方向参数。
根据第九方面,提供了一种包括指令的计算机程序[或者包括程序指令的计算机可读介质],这些指令或程序指令用于使装置至少执行以下操作:获得至少一个音频信号;确定与至少一个音频信号相关联的至少一个传播声音的至少一个方向参数;确定与至少一个音频信号相关联的至少一个声源的至少一个方向;根据所确定的至少一个方向,修改至少一个方向参数;以及输出经修改的至少一个方向参数。
根据第十方面,提供了一种包括指令的计算机程序[或者包括程序指令的计算机可读介质],这些指令或程序指令用于使装置至少执行以下操作:获得至少一个传输音频信号;确定与至少一个传输音频信号相关联的至少一个传播声音的至少一个方向参数;确定与至少一个传输音频信号相关联的至少一个声源的至少一个方向;根据所确定的至少一个方向,修改至少一个方向参数;以及输出经修改的至少一个方向参数。
根据第十一方面,提供了一种包括程序指令的非暂时性计算机可读介质,这些程序指令用于使装置至少执行以下操作:获得至少一个音频信号;确定与至少一个音频信号相关联的至少一个传播声音的至少一个方向参数;确定与至少一个音频信号相关联的至少一个声源的至少一个方向;根据所确定的至少一个方向,修改至少一个方向参数;以及输出经修改的至少一个方向参数。
根据第十二方面,提供了一种包括程序指令的非暂时性计算机可读介质,这些程序指令用于使装置至少执行以下操作:获得至少一个传输音频信号;确定与至少一个传输音频信号相关联的至少一个传播声音的至少一个方向参数;确定与至少一个传输音频信号相关联的至少一个声源的至少一个方向;根据所确定的至少一个方向,修改至少一个方向参数;以及输出经修改的至少一个方向参数。
根据第十三方面,提供了一种装置,其包括:用于获得至少一个音频信号的部件;用于确定与至少一个音频信号相关联的至少一个传播声音的至少一个方向参数的部件;用于确定与至少一个音频信号相关联的至少一个声源的至少一个方向的部件;用于根据所确定的至少一个方向来修改至少一个方向参数的部件;以及用于输出经修改的至少一个方向参数的部件。
根据第十四方面,提供了一种装置,其包括:用于获得至少一个传输音频信号的部件;用于确定与至少一个传输音频信号相关联的至少一个传播声音的至少一个方向参数的部件;用于确定与至少一个传输音频信号相关联的至少一个声源的至少一个方向的部件;用于根据所确定的至少一个方向来修改至少一个方向参数的部件;以及用于输出经修改的至少一个方向参数的部件。
根据第十五方面,提供了一种包括程序指令的计算机可读介质,这些程序指令用于使装置执行至少以下操作:获得至少一个音频信号;确定与至少一个音频信号相关联的至少一个传播声音的至少一个方向参数;确定与至少一个音频信号相关联的至少一个声源的至少一个方向;根据所确定的至少一个方向,修改至少一个方向参数;以及输出经修改的至少一个方向参数。
根据第十六方面,提供了一种包括程序指令的计算机可读介质,这些程序指令用于使装置执行至少以下操作:获得至少一个传输音频信号;确定与至少一个传输音频信号相关联的至少一个传播声音的至少一个方向参数;确定与至少一个传输音频信号相关联的至少一个声源的至少一个方向;根据所确定的至少一个方向,修改至少一个方向参数;以及输出经修改的至少一个方向参数。
一种装置,包括用于执行如上所述的方法的动作的部件。
一种装置,被配置为执行如上所述的方法的动作。
一种计算机程序,包括用于使计算机执行如上所述的方法的程序指令。
一种被存储在介质上的计算机程序产品可以使装置执行本文所述的方法。
一种电子设备可以包括如本文所述的装置。
一种芯片组可以包括如本文所述的装置。
本申请的实施例旨在解决与现有技术相关联的问题。
附图说明
为了更好地理解本申请,现在将通过示例的方式参考附图,其中:
图1示意性地示出适用于实现一些实施例的示例系统;
图2示出根据一些实施例的示出如图1中所示的示例系统的操作的流程图;
图3示意性地示出根据一些实施例的如图1中所示的示例分析处理器;
图4示出根据一些实施例的如图3中所示的示例分析处理器的操作的流程图;
图5示意性地示出根据一些实施例的如图3中所示的示例空间音频信号分析器;
图6示出根据一些实施例的如图5中所示的示例空间音频信号分析器的操作的流程图;
图7示意性地示出根据一些实施例的如图5中所示的示例方向偏向处理器;
图8示出根据一些实施例的如图7中所示的示例方向偏向处理器的操作的流程图;
图9示意性地示出根据一些实施例的如图1中所示的另一示例分析处理器;
图10示意性地示出根据一些实施例的如图1中所示的示例合成处理器;
图11示出根据一些实施例的如图10中所示的示例合成处理器的操作的流程图;
图12示出适用于实现所示装置的示例设备。
具体实施方式
以下更详细地描述了用于提供空间音频信号的有效捕获和渲染的合适装置和可能机制。
在下文的实施例中讨论的概念是基于使用可能的源位置的估计并将定向估计调整得更接近这些可能的源位置。
此外,尽管该概念和详述该概念的实施例在SPAC的上下文中作为独立的方法进行了描述,但它可以在从音频信号中估计参数化方向并使能获得另一个优选更稳定的方向估计的任何上下文中使用。
例如,该概念可以被应用于定向音频编码(DirAC)方法。换句话说,该概念可适用于应用基于方向的参数化模型的音频编解码器,并因此,其可以被应用于例如3GPP沉浸式语音和音频服务(IVAS)或移动图像专家组-沉浸式(MPEG-I)编解码器。
实施例试图改进现有技术的空间音频捕获方法,这些方法是基于估计频带中的至少一个方向参数并根据这些方向参数在频带渲染空间声音。该过程在通常被称为音频帧的短时间间隔中被执行,以考虑大多数音频信号的时变性质。音频帧的信号的频带可以被称为时频图块(time-frequency tile)。方向参数通常是指在时频图块中在记录位置中传播声音的主要到达方向。应当注意,该方向未必指向任何实际的声源,而是它是来自例如实际声源的声音、声音从诸如墙壁之类的硬表面的反射、混响(其是指扩散后期混响,其中,收听者不再能够感知反射的任何明显方向)、以及环境声音(没有任何明显的到达方向的声音,诸如噪音)的叠加。
可被确定的其他参数包括频带中的直接与总比率参数(或者类似参数,诸如扩散度(diffuseness)参数或定向稳定性(directional stability)参数),其通常指示有多少声能来自频带的所指示方向,以及有多少声能是周围环境的或环绕的。在每个频带可以有一个或多个同时方向估计,并且相应地可以有指示在频带声音的定向程度如何的比率或能量参数中的一个或多个。
在理想情况下,利用这种系统,当源在相对于捕获设备的某一方向上处于活动状态时,对应的声能的量在相对于再现设备的那个方向上被再现,从而在该方向上创建对源的真实感知。
存在可能会影响至少在某些频带的定向元数据的质量的多种因素,例如:
-捕获设备通常被握在手中(尤其是在移动设备的情况下)。捕获设备可以以各种方式被握持,从而影响设备的声学特性。由于与手相关联的声学效应(某些频率的遮蔽、其他波现象,如从手反射/衍射的声波),高频分析尤其可能是错误的。
-某些设备可以以编码形式存储麦克风音频信号,例如,存储为AAC编码音频信号。这些AAC音频信号例如在其中执行空间分析的计算机中被解码。AAC编码可以导致空间估计中的错误(由于被掩蔽的量化噪声)。
-设备可以被防风罩或保护壳保护,从而影响声学特性。
-风或其他噪声源可以影响定向估计。
-声学环境本身通常会导致定向估计不必要地波动很大。
另外,在用麦克风信号执行在频带的空间分析的阶段,可存在影响麦克风音频信号的各种进一步的实际原因。
如本文所描述的实施例试图产生错误或噪声更少/小的所估计的定向元数据。例如,在一些实施例中产生的方向估计更稳定,并因此以随机方式(噪声)波动更小,或者更正确并且以系统方式错误或偏移更少(例如,由于诸如用户的手之类的声学效应)。
因此,如下文中所描述的实施例试图减少这种效果,即,每当单个突出的源是活动的时,例如,在声学空间中再现说话者的声音的情况下,再现该源使得一些频率可以在合适的方向上被再现,而一些(或所有)频率可能有一些定向偏移、误差或噪声。因此,其可以减少这种效果,即,点源不是仅在该方向上被再现,而是在一般在合适方向的方向弧形或区域上被再现。换句话说,实施例试图减少这种扩展(有意执行的扩展除外,已知用于空间地合成扩展(或扩大范围)声源(例如,人群、海岸)的空间再现效果)。
因此,在实施例中,该设备和方法旨在以在空间上精确的方式再现音频源,这尤其对于语音信号来说可具有提高其可理解性的效果。
用于确定频带中的方向参数的常规方法是已知的,诸如对一阶Ambisonics(FOA)信号进行操作的定向音频编码(DirAC)或其任何变体。
可以通过针对麦克风阵列信号设计并应用合适的滤波器(或频带中的复增益)来生成FOA信号。频带中的这种增益可以例如针对低于空间混叠频率的每个频带,通过从(近似)均匀分布的点测量设备的脉冲响应,并使用最小二乘优化方法导出一组混合增益以从频率频带麦克风阵列信号中获得频带FOA信号来生成。
FOA信号具有全向分量w(k,n)和三个正交偶极子分量x(k,n)、y(k,n)和z(k,n),其中,k是频率索引,而n是时间索引。遵循DirAC的概念,可以基于向量I(k,n)来确定方向:
Figure BDA0003549009160000181
其中,Re标示实部,*表示复共轭。到达方向进而是I(k,n)的方向。注意,I(k,n)可以在若干频率和/或时间索引(k,n)上进行平均。
DirAC还可以估计扩散度,其是一个在0到1之间的比率因子,确定总声能中有多少是非定向的。这些方法在文献中有很好的记载。
还存在已知的可以对Ambisonics信号进行操作的其他方法。例如,谐波平面波展开(Harpex)及其变体估计来自FOA信号的两个同时的到达方向。另一个示例是高阶DirAC(HO-DirAC),其从二阶或更高阶Ambisonic信号中估计在扇区中多于一个的到达方向。这种Ambisonic信号需要来自设备的更多麦克风,例如,对于二阶,在理想情况下至少9个麦克风。
在US20130230187A1中描述了一种可以尤其是在高频下估计到达方向的方法。在该方法中,一个向量被确定以表示阵列中的每个麦克风,并且该向量的长度是该麦克风信号的频带中的所估计能量(或幅度)。该到达方向进而是这些向量之和的方向。
在PCT公开的专利WO2018/091776、WO2018/060549、US20130044884中提出了另一种方法,该方法尤其与移动电话实现相关。在这些方法中,延迟搜索算法被应用以确定在麦克风信号之间产生最大相干性(coherence)的延迟。例如,确定在横向模式下的的移动电话左右麦克风信号之间的延迟参数。延迟被归一化,以使得最大延迟(从麦克风的轴到达的声音)为-1和1。角度参数进而是acos(d),其中,d是被估计和归一化的延迟参数。这种延迟和角度参数是不明确的:例如,如果声音来自30度(在正面)和150度(在背面),那么可以观察到相同的延迟。
为了解决这种不明确性,移动捕获方法还确定了二进制前后选择,以确定声音是来自前面还是后面的。这是通过在前-后麦克风对处执行延迟分析而获得的。由于麦克风间距很小(扁平设备),延迟分析可能非常“嘈杂”,然而,它可以足够稳健以简单地确定声音通常来自设备的正面还是背面。
前述方法特别适用于扁平设备,其中,一个轴仅用于前-后分析。然而,由于在某些方向上的性能不均匀,该方法对于诸如VR相机之类的非扁平设备来说并不是最优的。VR相机可以使用例如DirAC,但DirAC和类似方法仅在低于空间混叠频率时才起作用。US20130230187A1可以在高于空间混叠频率时适用,但需要突出的声学遮蔽。在PCT申请号PCT/FI2019/050239中,讨论了一种用于在某些轴上没有大量声学遮蔽的非扁平设备的延迟搜索方法。该方法形成若干麦克风对的信号之间的延迟,并使用向量代数以确定方向参数。
该概念涉及使用麦克风阵列的参数化空间音频捕获,其中,提出了一种新颖的方向分析解决方案,其针对主要声源(例如,说话者)提供改进的空间稳定性。
在一些实施例中,该新颖的方向分析是基于将传播声音的时频域到达方向估计与声源的宽带方向估计进行组合。在一些实施例中,该方法可以通过以下操作来概括:
获得空间音频信号;
获得该空间音频信号的在时频域中的传播声音的到达方向估计;
获得声源的宽带方向估计;
使时频域方向估计偏向(biasing)朝向宽带方向估计;以及
输出经偏向的时频域方向估计,作为方向元数据。
传播声音的到达方向估计是指对针对时频图块的在记录位置中声音到达的主方向的估计。它例如可以与实际声源、反射、混响、环境声音、或者这些全部的叠加(通常是这种情况)有关。
声源的宽带方向估计是指对声源(例如,说话者)的实际方向的估计。可以存在针对多个声源的估计。应当注意,在某些(或者甚至任何一个)频带,声音并非主要来自这些方向,而是这些方向是声源实际所在的方向。
因此,所提出的实施例旨在通过组合这两个估计以便产生新的方向估计来提高空间音频的感知质量。这种方法可以利用这两种估计的益处(“传播声音的到达方向估计”准确地捕获空间印象,而“声源的方向估计”准确地捕获实际声源的方向)。如上所讨论的,使用新的方向估计来再现空间音频可以产生对更多点状且在空间上稳定的声源的感知,同时保持原始方向元数据的空间印象。另外,在典型情况下,这些方法及其实现装置可以提高语音的可理解性。
在下文中进一步详细描述的空间音频信号可以是麦克风阵列信号,其可以例如从移动设备或虚拟现实相机或任何合适的设备获得。可以使用任何合适的方法(例如,使用如上所讨论的空间音频捕获(SPAC))来分析时频域方向估计。
基于任何合适的方法并使用任何合适的源数据以用于确定,可以获得说话者的宽带方向估计。例如,在以下示例中,源数据是从视频捕获(或相机)取得的图像数据,并且该确定使用视觉源检测方法。视觉源检测方法的示例是面部检测和跟踪。在一些其他实施例中,可以基于使用麦克风阵列信号和听觉源检测方法来获得宽带估计。在一些其他实施例中,可以从元数据中获得宽带估计,该元数据表示已知在空间音频信号中捕获的声音对象的位置。其他实施例可以被配置为使用各种其他手段来执行对象跟踪,诸如基于无线电的室内定位或由人类操作员进行的人工跟踪。
在一些实施例中,可以实现偏向以使得如果时频域方向估计与宽带估计之间的差异低于阈值,则时频域方向估计被偏向朝向宽带估计。否则,在这种实施例中,原始时频域方向估计被未经修改地输出或提供。作为结果,方向估计更加稳定且准确,而并没有更改声音场景的一般空间印象。
在一些实施例中,空间音频信号可以是定义数量(N)通道的传输信号(例如,两个麦克风音频信号、立体声音频信号、FOA/HOA、双耳音频信号),并且时频域到达方向估计是从空间元数据中获得的,其表示空间音频场景的内容。在这种实施例中,该方法可以在分析之后的信号处理链的任何阶段被执行,诸如:在传输系统内、在传输混合器内、在合成的早期阶段内。换句话说,在元数据和宽带估计可用的任何地方。在一些实施例中,宽带估计还可以通过传输系统被信令传送到系统的合成部分。
关于图1,示出了示例系统101。示例系统101包括捕获设备111。在这个示例中,捕获设备111是移动电话(例如,诺基亚8),其包括被配置为生成麦克风音频信号112(其也可以被称为麦克风阵列信号)的两个或更多麦克风和被配置为生成视频信号(或图像数据)114的一个或多个摄像头。在一些实施例中,包括两个麦克风的移动电话可以被用于针对180度弧度(例如,在移动设备的前面)估计方向参数(并且可以再现空间声音)。在移动电话包括三个麦克风的一些实施例中,可以估计360度的水平方向参数,而在移动电话包括四个(或更多个)麦克风的情况下,可以在3D中估计方向参数(换句话说,方向参数可以包括仰角分量以及方位角分量)。
尽管在这些示例中的示例捕获设备111被示出为移动电话,但可以理解,在一些实施例中,捕获设备111是任何合适的电子装置或系统,其在分析麦克风音频信号以确定时频(TF)域方向的实施例中包括两个或更多个麦克风,例如,包括麦克风和摄像头两者的诺基亚OZO之类的VR/AR捕获设备。
麦克风阵列音频信号112和视频信号114可以被传递给分析处理器121。
在一些实施例中,系统101包括分析处理器121。在一些实施例中,分析处理器121可以被配置为接收(或以其他方式获得)输入信号,例如,麦克风阵列音频信号112和视频信号114。分析处理器121被配置为基于麦克风信号和空间元数据来生成传输音频信号。在一些实施例中,由分析处理器121生成的空间元数据可以包括针对频带的方向参数,并且通常包括频带中的直接与总能量比参数或类似参数。在一些实施例中,分析处理器121被配置为生成空间元数据的其他参数。
在一些实施例中,分析处理器121可以被配置为仅利用来自麦克风阵列信号的数据,换句话说,被配置为使用听觉手段而不是视觉手段来执行源检测。在一些实施例中,分析处理器121被配置为利用来自其他源(诸如红外(IR)或其他传感器)的信息,或者用户输入(来自触摸屏的源选择等)。在一些实施例中,分析处理器121被配置为利用来自任何通用跟踪服务(诸如GPS、高精度室内定位(HAIP))的信息。在一些实施例中,分析处理器121被配置为利用来自与已知在空间音频信号中捕获的音频对象相关联的元数据的位置信息。此外,在一些实施例中,分析处理器121被配置为在编解码器(诸如3GPP IVAS或MPEG-I)的编码器内被实现,其中,作为编码器的输入而获得的对象方向被传递到分析中。
在一些实施例中,分析处理器121被配置为基于麦克风音频信号来生成传输音频信号(例如,两个音频通道)(在一些实施例中,传输音频信号可以是没有任何附加处理的麦克风音频信号输出)。在一些实施例中,传输音频信号和元数据可以在作为数据流131传输或存储之后被传递给合成处理器。
传输或存储在图1中由参考符号131示出。传输音频信号和空间元数据可以例如在传输或存储之前被编码。例如,可以使用高级音频编码(ACC)对音频信号进行编码,并且可以以任何合适的方式对空间元数据进行编码并将其嵌入AAC流的元数据字段内。在一些实施例中,编码音频信号可以在媒体容器中与视频流(诸如基于由移动电话生成的视频信号的编码视频流)一起被发送。在这种实施例中,当视频编码发生时,信号和元数据在合成处理器141之前被相应地解码。传输或存储的一些示例可以是:
对音频和元数据进行编码,将其存储到移动电话上的存储器,在后期对音频进行解码以用于在相同(或不同的)设备上进行合成处理;
对音频和元数据进行编码,并将其发送到远程设备以用于编码和合成处理;
将音频和元数据直接提供给合成处理器而无需进行编码;
如上所述地对音频和元数据进行编码,将其发送到远程设备以用于存储。该远程设备使编码的音频和元数据可用于由客户端下载。客户端下载编码的音频和元数据的分组,对所下载的分组进行碎片整理,对其进行解码,进而将其馈送到客户端上进行合成。
在一些实施例中,编码可以在分析处理器中进行,而解码可以在合成处理器中进行。如果音频和元数据从分析处理器被直接提供给合成处理器,则编码/解码可以不是必需的。
在一些实施例中,系统101包括合成处理器141。合成处理器141被配置为接收包括传输音频信号和元数据的数据流122。在其中数据流已被编码和/或复用的一些实施例中,数据流被解码和/或解复用。进而,传输音频信号和空间元数据(涉及经偏向处理的方向)以生成空间化输出(诸如双耳信号)的方式(在频带中)被处理。在一些实施例中,合成处理器141被配置为输出其他空间音频信号格式,诸如Ambisonic信号和立体声或环绕扬声器信号。在诸如360-视频回放之类的一些实施例中,可以跟踪用户的头部移动,并且在这种实施例中,合成处理器141被配置为接收头部跟踪信息,并基于该头部跟踪信息来生成合适的输出信号。
合成处理器141可以被配置为将双耳输出信号输出到诸如耳机151之类的合适的输出设备。在一些实施例中,耳机151或输出设备包括头部跟踪传感器,其被配置成生成可被传递回到合成处理器141的头部跟踪信息。输出设备(例如,耳机151)可以被配置为接收输出音频信号,例如,双耳输出信号142。耳机151进而可以被配置为向收听者或耳机151的用户输出这些音频信号。
如图1中所示的系统的操作由图2中的示例流程图示出。
如在图2中由步骤200所示,该系统的操作可以包括从相机获得视频信号。
如在图2中由步骤201所示,该方法可以进一步包括从麦克风阵列获得音频信号。
如在图2中由步骤203所示,在已获得视频信号和音频信号后,该方法可以包括分析视频/音频信号,以基于这些视频信号和音频信号来生成传输音频信号和空间音频信号元数据。
如在图2中由步骤205所示,在可选的存储/传输操作之后,下一操作可以是从传输音频信号和空间音频信号元数据合成输出音频信号。
进而,如在图2中由步骤207所示,这些输出音频信号被提供给输出设备。
关于图3,示出了根据一些实施例的分析处理器121的示例。
在一些实施例中,分析处理器121包括对象检测器301。对象检测器301被配置为接收视频流(或图像数据)。该对象检测器进而可以被配置为基于其中驻留感兴趣的源的视频信号来找到方向或角度。例如,在一些实施例中,对象检测器301可以使用诸如在“你只看一次:统一、实时对象检测(You Only Look Once:Unified,Real-Time Object Detection)”(Joseph Redmon、Santosh Divvala、Ross Girshick、AliFarhadi,CVPR,2016)中描述的方法。在一些实施例中,对象检测器301被配置为使用任何合适的方法来识别说话者或一般的人。
在一些实施例中,该方法可以是基于相邻视频或图像帧之间的面部检测和跟踪。对象检测器301的输出可以是所检测声源的方向θss(i,n)302,其中,i是所检测声源的索引,n是时间帧索引。可以存在任意数量的所检测声源,并且所检测声源的数量可以随时间改变,尽管通常可能只有一个或几个声源在被检测。在一些实施例中,对象检测器301在某些时刻可没有检测到任何声源,并且所检测对象的方向信息可以是空(null)字段,或者没有信号被生成并被传递给空间音频信号分析器303。
在一些实施例中,分析处理器121进一步包括传输音频信号生成器305。传输音频信号生成器305被配置为接收麦克风阵列音频信号112,并生成传输音频信号306。在一些实施例中,麦克风阵列音频信号sj(t)(其中,t是时间样本索引,j是麦克风通道索引)可以由该传输音频信号生成器处理以形成两个音频信号通道。例如,在一些实施例中,传输音频信号生成器305被配置为生成具有(相对于所定义的前面方向)更突出呈现的左侧声音的一个音频信号通道、以及具有更突出呈现的右侧声音的第二音频信号通道。这种左-右音频信号配置可以从麦克风阵列信号生成,例如,通过选择合适的麦克风对或者通过波束成形。传输音频信号生成器305可以进一步被配置为生成传输音频信号,可以涉及音频信号处理效果的应用,诸如均衡、噪声抑制、增益控制、以及限制器处理。
在一些实施例中,分析处理器121进一步包括空间音频信号分析器303。空间音频信号分析器303被配置为接收麦克风阵列音频信号112和所检测声源的方向θss(i,n)作为输入。空间音频信号分析器303被配置为使用这些输入来生成元数据304。元数据304可以包括频带中的一个或多个方向参数,并且通常是频带中的能量比率参数(或若干比率参数),其指示有多少声音能量是定向的(相对于一个或多个方向中的每一个)以及有多少声音能量是环境的。示例的参数化是每个频带中的一个方向参数θ(k,n)和每个频带中的相关联直接与总能量比r(k,n),其中,k是频带索引,n是时间帧索引。在一些实施例中,该元数据可以被输出到复用器307。
在一些实施例中,分析处理器121包括复用器或MUX 307。复用器307被配置为接收传输音频信号306和元数据304。复用器307可以将传输音频信号306和空间元数据304复用到一个数据流中,并输出为数据流122。在一些实施例中,复用器307被配置为例如以所讨论的方式对传输音频信号306和空间元数据304进行编码。在一些实施例中,复用器307是可选的或者可以被配置为被绕过,传输音频信号306和空间元数据304在没有编码和/或复用的情况下被输出。
关于图4,示出了如图3中所示的分析处理器121的操作的示例流程图。
如在图4中由步骤401所示,该方法可以包括接收或获得视频/图像信号。
如在图4中由步骤403所示,在已接收或获得视频/图像信号后,下一操作是从视频/图像信号中检测对象。
另外,如在图4中由步骤402所示,在一些实施例中,获得或接收音频信号。
如在图4中由步骤405所示,在已接收或获得音频信号并已检测到对象(并且已确定对象方向)后,该方法可以包括分析这些音频信号以进一步基于所检测对象的方向来生成元数据。
另外,如在图4中由步骤404所示,在已从麦克风接收或获得音频信号后,可以从这些音频信号中生成传输音频信号。
如在图4中由步骤407所示,在已生成传输音频信号和元数据后,下一操作可以是将这些传输音频信号和元数据复用到数据流中。
进而,如在图4中步骤由409所示,被复用的信号可以被提供为输出以用于传输和/或存储。
关于图5,更详细地示出了示例空间音频信号分析器303。在一些实施例中,空间音频信号分析器303包括时间到时频域转换器(T到T/F域转换器)501。时间到时频域转换器501被配置为接收麦克风阵列音频信号sj(t)112,并通过任何合适的时频变换来将它们变换成时频Sj(k,n)502。合适的时频变换的示例是短时傅里叶变换(STFT)。在一些实施例中,经变换的时频麦克风信号502被输出到方向/比率分析器503。
空间音频信号分析器303可以包括方向/比率分析器503,其被配置为接收时频麦克风音频信号502。方向/比率分析器503被配置为在时频域中估计初步方向θpd(k,n)和能量比率r(k,n)。初步方向θpd(k,n)是对传播声音的主到达方向的估计。实现用于确定方向和比率的方法取决于设备类型。例如,在一些实施例中,该确定或估计可以是空间音频捕获(SPAC)实现。
因此,例如,在基于从移动电话捕获的音频信号实现的实施例中,设备的非均匀形状意味着这些轴之一(前-后)通常非常薄,这导致相对于前-后轴的麦克风信号之间的差分信息很小。换句话说,与更长的左-右轴相比,该轴在参数分析方面具有更低的信噪比。因此,用于这种设备的合适选择是使用此信息进行二进制前-后确定,并基于来自在更长的轴上的麦克风的音频信号来估计方向。
从具有三个麦克风的设备估计水平面中的初步方向参数的过程可以如下:
估计(在横向模式下的相机电话的)左-右麦克风之间的频带中的延迟参数d(k,n);
将延迟参数d′(k,n)归一化到-1与1之间,以使得当声音从由左-右麦克风对所确定的轴到达时获得最大值;
通过α(k,n)=arcsin(d′(k,n))获得指示-90到90度之间的方向的角度参数;
估计前后麦克风(其中一个可以与左右麦克风相同)之间的频带中的延迟参数dfb(k,n);
发现前-后延迟参数dfb(k,n)是正还是负。如果延迟参数指示声音从后面到达,则通过θpd(k,n)=180°-α(k,n)确定初步方向。否则通过θpd(k,n)=α(k,n)。
进而,可以将初步方向θpd(k,n)传递给方向偏向(direction bias)处理器505。这些时频域方向估计可以被称为“基于参数化的到达方向估计”。
在其中设备形状使得它使能足够稳健线性地生成一阶Ambisonic(FOA)信号的一些实施例中,进而可以使用DirAC方法生成初步方向参数。
在一些实施例中,方向/比率分析器503被配置为基于在频带k的麦克风对之间的归一化(在-1与1之间)互相关参数c(k,n)来生成或估计能量比率参数。在一些实施例中,一种用于确定能量比率参数的方法是:将归一化互相关参数c(k,n)与扩散场归一化互相关参数cD(k,n)相比较,并通过
Figure BDA0003549009160000281
确定该比率。进而可以输出这些比率504。
空间音频信号分析器303可以包括方向偏向处理器505。方向偏向处理器505被配置为接收初步方向θpd(k,n)和所检测对象θss(i,n)。基于这些值,该方向偏向处理器被配置为确定可被输出的实际方向参数θ(k,n)508。
关于图6,示出了示出示例空间音频信号分析器303的操作的流程图。
如在图6中由步骤601所示,获得或接收所检测对象的方向。
此外,如在图6中由步骤602所示,从麦克风阵列获得或接收音频信号。
如在图6中由步骤604所示,在已从麦克风阵列获得/接收音频信号后,这些时域音频信号被转换成时频域音频信号格式。
进而,如在图6中由步骤606所示,分析这些时频域音频信号以确定初步方向参数和比率参数。
如在图6中由步骤607所示,使用基于时频域音频信号的方向参数和所检测对象的方向,进而,基于时频域音频信号的方向可以通过所检测对象的方向被偏向。
进而,如在图6中由步骤609所示,提供经偏向的方向以及比率参数。
关于图7,示出了示例方向偏向处理器505。在一些实施例中,方向偏向处理器505包括T/F域方向检查器701。T/F域方向检查器701被配置为接收或获得时频域方向506和所检测对象的方向302。T/F域方向检查器701被配置为确定或估计基于T/F域的方向与对象方向之间的绝对角度差。这可以例如通过下式来估计:
θad(k,n,i)=|wrap{θss(i,n)-θpd(k,n)}|
其中,|.|标示取绝对值,wrap{}标示将角度值包裹在-180到+180度之间。为了简单起见,该示例假设仅水平方向,但是例如在可以使用朝向两个方向的单位向量的点积和反余弦运算来执行还具有仰角的角度差的公式化的情况下,还可以直接扩展到也具有仰角。
进而,T/F域方向检查器701可以被配置为选择这些差中的最小者,其可以被表示为:
Figure BDA0003549009160000291
此外,T/F域方向检查器701可以被配置为选择对应的有符号值θsd,min(k,n),换句话说,差是正还是负的信息。
此外,T/F域方向检查器701被配置为检查θad,min(k,n)是否小于阈值θT,例如,θT=30度。
如果方向检查器701确定这些差中的最小者大于该阈值,则可以将这些方向传递给方向旁路(direction bypass)705。
在一些实施例中,方向偏向处理器505包括方向旁路705,其将未经修改的初步时频域方向传递到输出:
θ(k,n)=θpd(k,n),当θad,min(k,n)≥θT
将理解,方向旁路705是可选的(换句话说,方向检查器701被配置为输出未经修改的方向而无需方向旁路705)。在一些实施例中,方向旁路705是被配置为存储未经修改的方向的缓冲器,而一些其他方向被最接近对象方向偏向器703修改。
在一些实施例中,方向偏向处理器505包括最接近对象方向偏向器703。在一些实施例中,最接近对象方向偏向器703被配置为基于有符号值θsd,min(k,n)和阈值θT来确定或生成偏向方向修改器。例如,最接近对象方向偏向器703被配置为基于下式来确定偏向方向修改器值:
Figure BDA0003549009160000301
Figure BDA0003549009160000302
时,该偏向方向修改器值提供将方向参数精确地偏向最接近对象方向的量,而当
Figure BDA0003549009160000303
时,进行插值。
在一些实施例中,可以制定用于确定偏向方向修改器值的其他方程式。因此,如果绝对角度差低于阈值,则实施例将初步时频方向偏向朝向最接近的对象方向。
进而,最接近对象方向偏向器703可以使用所计算的偏向方向修改器值,生成输出时频域方向,例如通过以下方式:
θ(k,n)=θpd(k,n)+θbias(k,n),当θad,min(k,n)<θT
进而,这些偏向方向可以与未经修改的时频域方向一起被输出为时频域方向508。
在以上示例中,空间分析因此被配置为提供多个方向估计或基于参数化的到达方向估计。在某些情况下,这些基于参数化的估计中的一些可指向声源的反射而不是声源的实际方向。然而,这些实施例的目的通常是使收听者能够感知来自声源的实际方向的声音。因此,如所描述的,获得声源方向的另一估计(宽带估计),并基于这些进一步的估计来修改或偏向基于参数化(基于时频音频信号)的方向。此另一估计应当相对可靠地指向声源的实际主方向。进而,将其扩展到多个已知的声源方向,并使用最小角度差从其中选择偏向方向。
在某些情况下,在房间中(或者一般地在环境中)存在两个声源(A和B),并且它们从收听者的角度来看具有明显不同的方向。在这种情况下,A和B可同时处于活动状态,并且例如A的一些反射的参数化定向估计可来自B的方向附近。这可导致A的反射的一部分可能会被偏向朝向B。然而,在感知上,这可能不是一个重要的问题,因为反射在普通房间中并没有真正被单独地感知(为源),并且在偏向之后在它们的方向上的轻微失配将不会很严重。如先前所讨论的,定向估计可因为除了由于反射以外的其他原因而偏离实际源的方向,例如,由于在麦克风处的噪声(例如,风、手持)、用户的手在麦克风附近的声学效应、背景环境、以及混响。
此外,最小角度差的选择只是示例,并且可以存在其他选择准则。
关于图8,示出了如图7中所示的方向偏向处理器的操作的流程图。
如在图8中由步骤801所示,获得或以其他方式接收所检测对象的方向。
此外,如在图8中由步骤802所示,接收或以其他方式获得基于时频域音频信号的方向。
如在图8中由步骤803所示,在已获得基于时频域音频信号的方向和所检测对象的方向后,下一操作是确定基于时频域音频信号的方向是否接近于对象方向中的任何一个。
如在图8中由步骤807所示,如果基于时频域音频信号的方向与对象方向中的任何一个之间的差大于阈值,则基于时频域音频信号的方向被未经修改地传递。
如在图8中由步骤805所示,如果基于时频域音频信号的方向与对象方向中的任何一个之间的差值小于阈值时,则基于时频域音频信号的方向被偏向朝向最接近的对象方向。
进而,如在图8中由步骤809所示,可以提供经偏向和/或未经修改的方向。
关于图9,示出了另一示例分析处理器121。在这个示例中,该分析处理器仅使用麦克风阵列音频信号作为输入。
在此示例分析处理器121中,对象检测器901被配置为接收麦克风阵列信号而不是视频流或图像数据。对象检测器901可以被配置为基于麦克风阵列音频信号来确定声源或对象方向。例如,在一些实施例中,对象检测器901被配置为基于合适的音频检测算法来实现对象检测,诸如在“使用圆形麦克风阵列的实时多声源定位和计数(Real-Time MultipleSound Source Localization and Counting Using a Circular Microphone Array)”(Despoina Pavlidi、Anthony Griffin、Matthieu Puigt、Athanasios Mouchtaris,IEEE音频、语音和语言处理期刊,2013)中所描述的。对象检测器901的输出是所检测声源的方向θss(i,n)。
分析处理器121的其余操作可以与如上所描述的那些操作相同。
关于图10,示出了如图1中所示的示例合成处理器141。
在一些实施例中,合成处理器141包括解复用器或DEMUX 1001。解复用器1001被配置为接收数据流122,并对该输入进行解复用和解码以生成传输音频信号1006和元数据(以方向以及能量比率参数的形式)。传输音频信号1006和元数据1004可以被提供给空间合成器1003。
此外,合成处理器141包括空间合成器1003。空间合成器1003被配置为接收传输音频信号1006和元数据1004,并生成合适的输出格式音频信号,例如,双耳输出信号142。空间合成器1003被配置为利用元数据以生成诸如双耳信号之类的空间化输出的方式在频带中处理传输音频信号。在一些实施例中,可被生成的其他输出空间音频信号格式可以是Ambisonic信号、立体声或环绕扬声器信号。在诸如360-视频回放之类的一些实施例中,可以跟踪用户的头部移动,并且在这种情况下,该空间合成器被配置为基于头部跟踪信息输入来接收并处理传输音频信号。
该空间合成器的操作是已知的,不再进行详细描述。
关于图11,示出了如图10中所示的合成处理器141的操作的流程图。
如在图11中由步骤1101所示,获得包括传输音频信号和元数据的数据流,其中,该元数据包括方向(经偏向的和/或未经修改的)和比率。
如在图11中由步骤1103所示,在已获得数据流后,该数据流被解复用成传输音频信号和元数据。
如在图11中由步骤1105所示,在已获得传输音频信号和元数据后,基于这些传输音频信号和元数据,生成输出音频信号。
进而,如在图11中由步骤1107所示,所生成的输出音频信号可以被提供为合成音频信号。
在一些实施例中,该对象检测器被配置为接收或获得除了视频流或麦克风阵列信号之外的信息以生成所检测对象的方向。例如,对象检测操作可受到用户输入的影响。在一些实施例中,用户可以选择在相机电话的触摸屏上显示的感兴趣的对象。该电话(或者在替代实施例中是具有麦克风的任何设备)还可以被配备有任何其他传感器,以向该对象检测器提供用于生成所检测对象的方向的信息。
在一些实施例中,能量比率参数可以是直接与总能量比、环境与总能量比(ambient-to-total energy ratio)(扩散度)、定向稳定性参数、或任何其他合适的比率。该比率被配置为指示针对频带声音的定向或非定向程度如何。
在一些实施例中,可以从与已知在麦克风阵列信号中捕获的音频对象相关联的元数据获得宽带声源方向估计。在这种实施例中,利用麦克风阵列和对象的特写信号来捕获音频场景,进而针对对象信号提供元数据。
在其中对音频信号执行对象检测(单独的音频对象,例如,近距离麦克风,或者空间音频捕获)的一些进一步的实施例中,可以实现对象检测以使得执行分析以确定每个对象所“位于”的频带。在一些实施例中,这可以例如通过估计针对每个频带的能量并进而将其与阈值相比较来实现。如果频带能量高于阈值,则可以确定该对象“位于”频带内(或者该频带处于活动状态)并被用于偏向。如果频带能量低于阈值(或者具有低能量),则该对象没有“位于”频带内(或者该频带未处于活动状态)并且不应被用于偏向,因为它会偏向到不正确的方向。
另外,在一些实施例中,除了指示对象是否位于频带内(频带是否是活动的)之外,该对象检测器还可以被配置为指示对象是否“位于”时间帧内(或者该时间帧是否是活动的),并使用该信息以决定是否应执行偏向。在一些实施例中,视觉分析手段可以提供声源是否活动的信息,例如,通过检测说话者的嘴部移动,其中,嘴张开或在动因此可指示活动,或者嘴闭合指示说话者没有在说话。当基于音频信号进行对象检测时,该时间帧检测可以通过确定时间帧音频信号是否具有高于预定静音阈值的能量来实现。
在一些实施例中,该对象检测器被配置为提供用于所检测声源的附加元数据。例如,如果利用提供方向的任何置信度信息的方法来获得宽带方向估计,则该置信度信息可以被传递给偏向并被用于影响偏向过程。这种置信度信息例如可以通过检测说话者是否在移动他/她的嘴来获得,其对应于人在说话的高可能性。例如,可以通过缩放阈值来使用置信度信息,以使得置信的声源方向估计比不置信的估计更强烈地偏向这些方向并偏向得更远。
在一些进一步的实施例中,宽带方向估计的多个源(例如,视频+音频+无线电)可以被一起使用,以形成可以在偏向中使用的单个更准确的宽带方向估计。
在进一步的实施例中,可以对元数据辅助的空间音频(MASA)格式(或者类似的N通道+可以是空间分析的输出的元数据格式)执行偏向处理。在这些实施例中,在分析之后通过使方向值偏向来修改元数据。例如,可以在格式的传输内(通过对元数据进行解码和编码)或者在使用方向元数据值之前(或在其使用过程期间)在合成中对所存储的MASA格式文件执行此过程。如果宽带估计可用于该过程,则可以实现这一点。对于传输,这意味着还将宽带估计发送到接收端,除非该估计是由该接收端提供的,而这允许接收用户定义偏向方向。
偏向处理可以在处理的各个阶段中被实现:在捕获算法中、在编码器中、在传输系统中、在传输混合器中、在解码器中、或者在空间声音渲染器中。该偏向处理可以被认为是一个独立的处理块,它可以被放置在处理链中的任何位置以增强方向元数据。
在一些进一步的实施例中,该偏向处理可以由用户启用/禁用。例如,在对MASA格式应用该处理的示例中,该格式的典型用例可以是未来的电信网络(诸如5G或6G)中的移动电话。在这些场景中,语音的可理解性是空间音频信号的质量的最重要的标准。因此,如果在默认情况下未启用偏向,那么用户可能希望手动启用偏向。在其他实施例中,可以由系统基于参数化空间音频的使用场景而自动地启用偏向:如果空间音频信号被用于电信目的(电话),则系统可以自动地启用偏向。如果空间音频信号被用于诸如用户创建的视频的音轨之类的其他目的,则系统可以向用户提供启用/禁用偏向功能的选项。
在一些实施例中,并非所有源/对象都需要具有宽带方向估计。因此,在一些实施例中,源/对象的子集具有宽带估计。例如,本发明使能仅偏向最重要的源,例如,最突出的说话者。
还应注意,尽管术语“宽带方向估计”已被用于描述对象/声源的所估计方向,但在一些实施例和/或情况下,它可以被用于某些频率而不是宽带。例如,可能知道某个声源仅在某些频率处具有能量,并且在这种情况下,仅在那些频率处应用偏向是有用的。
如上所述的这些实施例的实现可以具有诸如增加重要源的准确性之类的优势。此外,在一些实施例的应用中,可以使源更稳定和点状,因为它们被偏向朝向已知源。这对于往往具有虚假方向参数(例如,移动捕获分析)的设备尤其明显。其他优势可以是避免其他空间特性的变更(例如,保留空间感(spaciousness)和包围感(envelopment))。可以进一步提高语音的可理解性。
关于确定与至少一个音频信号相关联的至少一个传播声音的至少一个方向参数,主要是指用麦克风捕获的空间音频。然而,应当理解,一些实施例可以在其他上下文(例如,MASA)中实现。此外,关于确定与至少一个音频信号相关联的至少一个声源的至少一个方向,该“至少一个音频信号”是捕获声源的音频信号。换句话说,想法在于此方向被关联到其中麦克风在捕获“至少一个信号”的空间中的某个声源。然而,该声源可能并非一直处于活动状态。因此,例如,如果使用麦克风信号来分析该方向,则声源方向在实际实现中是一段时间上的平均值。因此,即使他/她什么都没有说,或者至少在短暂的休息期间,该声源方向也基本上“一直”指向该源。此外,如果声源检测算法是基于例如视频的,则它可以检测人类的面部。在最佳情况下,它应当检测嘴唇何时在移动或者源在“活动”的一些其他指示,以使得在检测到该源时,该源实际上也在说话。在一些实施例中,该装置可以被配置为将面部检测为“潜在”声源(并接受它有时会出错)。换句话说,至少暂时可存在不发出任何声音的源。
在如上所讨论的这种实施例中,估计是装置“认为”声源实际所在之处。因此,它们未必总是产生音频信号。
此方向参数的“目的”是指向实际发出声音的声源。如果它在在某个时间点(被至少一个音频信号捕获)没有产生任何声音,那么更多是“估计错误”。此外,关于确定与至少一个音频信号相关联的至少一个声源的至少一个方向,本文描述的方法使用来自不同的传感器(相机、麦克风、IR、或其他)的数据。因此,实际设备或其传感器可具有例如小的校准问题或非理想性,这可导致所感测的至少一个声源的至少一个方向没有准确地指向在声音场景处的实际声源,但是例如可由于校准(或其他)问题而偏移1-5度。然而,即使在这种情况下,如本文所讨论的实施例也可以尝试稳定与那个源相关的方向估计,并提高空间音频再现的感知质量。换句话说,至少一个声源的至少一个方向可以更多与声源方向的尽力估计相关,而不是与实际声源方向相关。
关于图12,示出了可用作分析或合成设备的示例电子设备。该设备可以是任何合适的电子设备或装置。例如,在一些实施例中,设备1700是移动设备、用户设备、平板计算机、计算机、音频回放装置等。
在一些实施例中,设备1700包括至少一个处理器或中央处理单元1707。处理器1707可以被配置为执行诸如本文所描述的方法的各种程序代码。
在一些实施例中,设备1700包括存储器1711。在一些实施例中,至少一个处理器1707被耦合到存储器1711。存储器1711可以是任何合适的存储部件。在一些实施例中,存储器1711包括用于存储可在处理器1707上实现的程序代码的程序代码部分。此外,在一些实施例中,存储器1711还可以包括用于存储数据(例如,根据本文所描述的实施例的已被处理或将要处理的数据)的存储数据部分。无论何时只要需要,处理器1707就可以经由存储器-处理器耦合来获取存储在程序代码部分中的实现程序代码和存储在存储数据部分中的数据。
在一些实施例中,设备1700包括用户接口1705。在一些实施例中,用户接口1705可以被耦合到处理器1707。在一些实施例中,处理器1707可以控制用户接口1705的操作并从用户接口1705接收输入。在一些实施例中,用户接口1705可使得用户能够例如经由键盘将命令输入到设备1700。在一些实施例中,用户接口1705可以使得用户能够从设备1700获得信息。例如,用户接口1705可以包括被配置为将信息从设备1700显示给用户的显示器。在一些实施例中,用户接口1705可以包括触摸屏或触摸界面,其能够使得信息被输入到设备1700并且还向设备1700的用户显示信息。在一些实施例中,用户接口1705可以是用于与如本文所描述的位置确定器通信的用户接口。
在一些实施例中,设备1700包括输入/输出端口1709。在一些实施例中,输入/输出端口1709包括收发机。在这种实施例中,收发机可以被耦合到处理器1707并且被配置为使得能够例如经由无线通信网络与其他装置或电子设备进行通信。在一些实施例中,收发机或任何合适的收发机或发射机和/或接收机装置可以被配置为经由有线或有线耦合与其他电子设备或装置通信。
收发机可以通过任何合适的已知通信协议与其他装置通信。例如,在一些实施例中,收发机可以使用合适的通用移动电信系统(UMTS)协议、诸如例如IEEE 802.X的无线局域网(WLAN)协议、诸如蓝牙的合适的短距离射频通信协议、或者红外数据通信路径(IRDA)。
收发机输入/输出端口1709可以被配置为接收信号,并且在一些实施例中通过使用执行合适的代码的处理器1707来确定如本文所描述的参数。此外,该设备可以生成合适的传输信号和参数输出以发送到合成设备。
在一些实施例中,设备1700可以被使用为合成设备的至少一部分。由此,输入/输出端口1709可以被配置为接收传输信号,并且在一些实施例中接收在如本文所描述的捕获设备或处理设备处确定的参数,以及通过使用执行合适的代码的处理器1707来生成合适的音频信号格式输出。输入/输出端口1709可以被耦合到任何合适的音频输出,例如被耦合到多通道扬声器系统和/或耳机(其可以是头部跟踪或非跟踪的头戴式耳机)等。
通常,本发明的各种实施例可以采用硬件或专用电路、软件、逻辑或其任何组合来实现。例如,一些方面可以采用硬件来实现,而其他方面可以采用可由控制器、微处理器或其他计算设备执行的固件或软件来实现,但是本发明不限于此。尽管本发明的各个方面可以被图示和描述为框图、流程图或使用一些其他图形表示,但是众所周知地,本文所描述的这些框、装置、系统、技术或方法可以作为非限制示例采用硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或其某种组合来实现。
本发明的实施例可以通过可由移动设备的数据处理器(诸如在处理器实体中)执行的计算机软件来实现,或者由硬件、或者由软件和硬件的组合来执行。此外,就此而言,应当注意,如附图中的逻辑流程的任何块可以表示程序步骤、或者互连的逻辑电路、块和功能、或者程序步骤和逻辑电路、块和功能的组合。该软件可以被存储在诸如存储器芯片或在处理器内实现的存储器块之类的物理介质上,诸如硬盘或软盘之类的磁性介质上、以及诸如DVD及其数据变体CD之类的光学介质上。
存储器可以是适合于本地技术环境的任何类型,并且可以使用任何适当的数据存储技术来实现,诸如基于半导体的存储器设备、磁存储器设备和系统、光学存储器设备和系统、固定存储器和可移除存储器。数据处理器可以是适合于本地技术环境的任何类型,并且作为非限制性示例,可以包括通用计算机、专用计算机、微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、基于多核处理器架构的门级电路和处理器中的一个或多个。
可以在诸如集成电路模块之类的各种组件中实践本发明的实施例。集成电路的设计总体上是高度自动化的过程。复杂而功能强大的软件工具可用于将逻辑级设计转换为准备在半导体衬底上蚀刻和形成的半导体电路设计。
程序,诸如由加利福尼亚州山景城的Synopsys公司和加利福尼亚州圣何塞的Cadence Design所提供的程序,可以使用完善的设计规则以及预先存储的设计模块库来自动对导体进行布线并将组件定位在半导体芯片上。一旦完成了半导体电路的设计,就可以将标准化电子格式(例如,Opus、GDSII等)的所得设计传送到半导体制造设施或“fab”进行制造。
前面的描述已经通过示例性和非限制性示例提供了本发明的示例性实施例的完整和有益的描述。然而,当结合附图和所附权利要求书阅读时,鉴于以上描述,各种修改和改编对于相关领域的技术人员而言将变得显而易见。然而,本发明的教导的所有这些和类似的修改仍将落入所附权利要求书所限定的本发明的范围内。

Claims (20)

1.一种装置,包括被配置为执行以下操作的部件:
获得至少一个音频信号;
确定与所述至少一个音频信号相关联的至少一个传播声音的至少一个方向参数;
确定与所述至少一个音频信号相关联的至少一个声源的至少一个方向;
根据所确定的至少一个方向,修改所述至少一个方向参数;以及
输出经修改的至少一个方向参数。
2.根据权利要求1所述的装置,其中,被配置为获得至少一个音频信号的部件被配置为获得以下中的至少一个:
至少两个麦克风音频信号;
至少一个全景环绕声音频信号;
至少一个空间音频信号,其中,所述至少一个空间音频信号与至少一个元数据参数相关联,其中,所述至少一个元数据参数包括以下中的至少一个:方向或到达方向;能量比率;扩散比率。
3.根据权利要求1和2中任一项所述的装置,其中,被配置为确定至少一个传播声音的至少一个方向参数的部件被配置为确定以下中的至少一个:
至少一个传播声音的至少一个方向参数;
至少一个音频源的至少一个方向参数;
来自至少一个音频源的至少一个反射的至少一个方向参数;以及
与所述至少一个方向参数相关联的至少一个能量比率参数。
4.根据权利要求1至3中任一项所述的装置,其中,被配置为确定至少一个传播声音的至少一个方向参数的部件被配置为:确定与所述至少一个音频信号的至少一个频带相关联的所述至少一个方向参数。
5.根据权利要求1至4中任一项所述的装置,其中,与所述至少一个音频信号相关联的所述至少一个传播声音包括以下中的至少一个:
与空间内的至少一个音频源相关联的直接声音;
与空间内的至少一个音频源相关联的反射声音;
与至少一个虚拟源相关联的声音;
回响声音;
环境声音;以及
所述直接声音、所述反射声音、所述回响声音和所述环境声音中的任意的叠加。
6.根据权利要求1至5中任一项所述的装置,其中,与所述至少一个音频信号相关联的所述至少一个传播声音与从其捕获所述至少一个音频信号的记录位置相关。
7.根据权利要求1至6中任一项所述的装置,其中,被配置为确定与所述至少一个音频信号相关联的至少一个声源的至少一个方向的部件被配置为:
获得至少一个图像;
分析所述至少一个图像以在所述图像内确定至少一个感兴趣对象;以及
基于所述至少一个感兴趣对象在所述至少一个图像内的位置以及图像捕获参数,确定所述至少一个声源的所述至少一个方向。
8.根据权利要求7所述的装置,其中,被配置为分析所述至少一个图像以在所述图像内确定至少一个感兴趣对象的部件被配置为:基于从所述至少一个图像中识别面部并进一步基于识别在图像之间所述面部内的嘴唇的运动,识别至少一个说话者。
9.根据权利要求1至6中任一项所述的装置,其中,被配置为确定所述至少一个声源的所述至少一个方向的部件被配置为执行以下中的至少一个:
分析来自至少一个红外线传感器的至少一个信号以确定所述至少一个声源的所述至少一个方向;
分析来自至少一个传感器的至少一个信号以确定所述至少一个声源的所述至少一个方向;
获得标识所述至少一个声源的所述至少一个方向的至少一个用户输入信号;
获得与对象相关联的至少一个定位信号,从所述至少一个定位信号确定所述至少一个声源的所述至少一个方向;
当所述至少一个音频信号包括两个或更多个麦克风音频信号时,分析所述至少一个音频信号;以及
获得与所述至少一个音频信号相关联的元数据,所述元数据包括定向或位置信息,其中,当从所述至少一个音频信号的分析中确定所述至少一个传播声音的所述至少一个方向参数时,从所述元数据中确定所述至少一个声源的所述至少一个方向。
10.根据权利要求1至9中任一项所述的装置,其中,被配置为根据所确定的至少一个方向来修改所述至少一个方向参数的部件被配置为:
确定所述至少一个方向参数与所述至少一个声源的所述至少一个方向之间的角度差;
将所述角度差与阈值进行比较,其中,如果所述角度差大于所述阈值,则所述至少一个方向参数被不经修改地传递,而如果所述角度差小于所述阈值,则所述至少一个方向参数被朝向所述至少一个声源的所述至少一个方向地修改。
11.根据权利要求10所述的装置,其中,被配置为朝向所述至少一个声源的所述至少一个方向地修改所述方向参数的部件被配置为:
当所述角度差小于所确定的更小阈值时,将所述方向参数修改为在所述至少一个声源的所述至少一个方向上,以及
当所述角度差大于所述所确定的更小阈值但小于所述阈值时,对所述方向参数应用内插修改。
12.根据权利要求1至11中任一项所述的装置,其中,所述部件进一步被配置为:
基于所述至少一个音频信号,确定至少一个传输音频信号;
输出具有所述经修改的方向参数的所述至少一个传输音频信号。
13.根据权利要求12所述的装置,其中,所述部件进一步被配置为:
当所述至少一个音频信号包括至少两个麦克风音频信号时,分析所述至少一个音频信号以确定至少一个元数据参数,其中,所述至少一个元数据参数包括以下中的至少一个:
能量比率;以及
扩散比率;
输出具有所述经修改的方向参数的所述至少一个元数据参数。
14.一种装置,包括被配置为执行以下操作的部件:
获得至少一个传输音频信号;
确定与所述至少一个传输音频信号相关联的至少一个传播声音的至少一个方向参数;
确定与所述至少一个传输音频信号相关联的至少一个声源的至少一个方向;
根据所确定的至少一个方向,修改所述至少一个方向参数;以及
输出经修改的至少一个方向参数。
15.一种方法,包括:
获得至少一个音频信号;
确定与所述至少一个音频信号相关联的至少一个传播声音的至少一个方向参数;
确定与所述至少一个音频信号相关联的至少一个声源的至少一个方向;
根据所确定的至少一个方向,修改所述至少一个方向参数;以及
输出经修改的至少一个方向参数。
16.一种方法,包括:
获得至少一个传输音频信号;
确定与所述至少一个传输音频信号相关联的至少一个传播声音的至少一个方向参数;
确定与所述至少一个传输音频信号相关联的至少一个声源的至少一个方向;
根据所确定的至少一个方向,修改所述至少一个方向参数;以及
输出经修改的至少一个方向参数。
17.一种装置,包括至少一个处理器和包括计算机程序代码的至少一个存储器,所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一起使所述装置至少:
获得至少一个音频信号;
确定与所述至少一个音频信号相关联的至少一个传播声音的至少一个方向参数;
确定与所述至少一个音频信号相关联的至少一个声源的至少一个方向;
根据所确定的至少一个方向,修改所述至少一个方向参数;以及
输出经修改的至少一个方向参数。
18.一种装置,包括至少一个处理器和包括计算机程序代码的至少一个存储器,所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一起使所述装置至少:
获得至少一个传输音频信号;
确定与所述至少一个传输音频信号相关联的至少一个传播声音的至少一个方向参数;
确定与所述至少一个传输音频信号相关联的至少一个声源的至少一个方向;
根据所确定的至少一个方向,修改所述至少一个方向参数;以及
输出经修改的至少一个方向参数。
19.一种计算机可读介质,包括程序指令,所述程序指令用于使装置至少执行以下操作:
获得至少一个音频信号;
确定与所述至少一个音频信号相关联的至少一个传播声音的至少一个方向参数;
确定与所述至少一个音频信号相关联的至少一个声源的至少一个方向;
根据所确定的至少一个方向,修改所述至少一个方向参数;以及
输出经修改的至少一个方向参数。
20.一种计算机可读介质,包括程序指令,所述程序指令用于使装置至少执行以下操作:
获得至少一个传输音频信号;
确定与所述至少一个传输音频信号相关联的至少一个传播声音的至少一个方向参数;
确定与所述至少一个传输音频信号相关联的至少一个声源的至少一个方向;
根据所确定的至少一个方向,修改所述至少一个方向参数;以及
输出经修改的至少一个方向参数。
CN202080064936.4A 2019-09-17 2020-09-02 使用宽带估计的参数化空间音频捕获的方向估计增强 Pending CN114424588A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB1913405.5A GB2587335A (en) 2019-09-17 2019-09-17 Direction estimation enhancement for parametric spatial audio capture using broadband estimates
GB1913405.5 2019-09-17
PCT/FI2020/050566 WO2021053264A1 (en) 2019-09-17 2020-09-02 Direction estimation enhancement for parametric spatial audio capture using broadband estimates

Publications (1)

Publication Number Publication Date
CN114424588A true CN114424588A (zh) 2022-04-29

Family

ID=68315418

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080064936.4A Pending CN114424588A (zh) 2019-09-17 2020-09-02 使用宽带估计的参数化空间音频捕获的方向估计增强

Country Status (5)

Country Link
US (1) US20220303711A1 (zh)
EP (1) EP4032324A4 (zh)
CN (1) CN114424588A (zh)
GB (1) GB2587335A (zh)
WO (1) WO2021053264A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117153192A (zh) * 2023-10-30 2023-12-01 科大讯飞(苏州)科技有限公司 音频增强方法、装置、电子设备和存储介质

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI808298B (zh) * 2019-01-21 2023-07-11 弗勞恩霍夫爾協會 對空間音訊表示進行編碼的裝置和方法或使用傳輸後設資料對編碼音訊訊號進行解碼的裝置和方法和相關計算機程式
US20230031145A1 (en) * 2021-07-29 2023-02-02 Comcast Cable Communications, Llc Accidental voice trigger avoidance using thermal data
WO2024044113A2 (en) * 2022-08-24 2024-02-29 Dolby Laboratories Licensing Corporation Rendering audio captured with multiple devices

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8509454B2 (en) * 2007-11-01 2013-08-13 Nokia Corporation Focusing on a portion of an audio scene for an audio signal
EP2346028A1 (en) * 2009-12-17 2011-07-20 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. An apparatus and a method for converting a first parametric spatial audio signal into a second parametric spatial audio signal
EP2448289A1 (en) 2010-10-28 2012-05-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for deriving a directional information and computer program product
US9313599B2 (en) 2010-11-19 2016-04-12 Nokia Technologies Oy Apparatus and method for multi-channel signal playback
US9445174B2 (en) 2012-06-14 2016-09-13 Nokia Technologies Oy Audio capture apparatus
US9632683B2 (en) * 2012-11-08 2017-04-25 Nokia Technologies Oy Methods, apparatuses and computer program products for manipulating characteristics of audio objects by using directional gestures
US9769588B2 (en) * 2012-11-20 2017-09-19 Nokia Technologies Oy Spatial audio enhancement apparatus
GB2516056B (en) * 2013-07-09 2021-06-30 Nokia Technologies Oy Audio processing apparatus
US9570113B2 (en) * 2014-07-03 2017-02-14 Gopro, Inc. Automatic generation of video and directional audio from spherical content
GB2540199A (en) 2015-07-09 2017-01-11 Nokia Technologies Oy An apparatus, method and computer program for providing sound reproduction
GB2540175A (en) 2015-07-08 2017-01-11 Nokia Technologies Oy Spatial audio processing apparatus
US10070094B2 (en) 2015-10-14 2018-09-04 Qualcomm Incorporated Screen related adaptation of higher order ambisonic (HOA) content
EP3252491A1 (en) * 2016-06-02 2017-12-06 Nokia Technologies Oy An apparatus and associated methods
EP3264734B1 (en) * 2016-06-30 2022-03-02 Nokia Technologies Oy Controlling audio signal parameters
US20180018974A1 (en) * 2016-07-16 2018-01-18 Ron Zass System and method for detecting tantrums
GB2554447A (en) 2016-09-28 2018-04-04 Nokia Technologies Oy Gain control in spatial audio systems
GB2556093A (en) 2016-11-18 2018-05-23 Nokia Technologies Oy Analysis of spatial metadata from multi-microphones having asymmetric geometry in devices
CA3076703C (en) * 2017-10-04 2024-01-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus, method and computer program for encoding, decoding, scene processing and other procedures related to dirac based spatial audio coding
EP3470975B1 (en) * 2017-10-10 2022-08-24 Nokia Technologies Oy An apparatus and associated methods for presentation of a bird's eye view

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117153192A (zh) * 2023-10-30 2023-12-01 科大讯飞(苏州)科技有限公司 音频增强方法、装置、电子设备和存储介质
CN117153192B (zh) * 2023-10-30 2024-02-20 科大讯飞(苏州)科技有限公司 音频增强方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
EP4032324A4 (en) 2023-08-02
GB201913405D0 (en) 2019-10-30
WO2021053264A1 (en) 2021-03-25
US20220303711A1 (en) 2022-09-22
GB2587335A (en) 2021-03-31
EP4032324A1 (en) 2022-07-27

Similar Documents

Publication Publication Date Title
US11659349B2 (en) Audio distance estimation for spatial audio processing
JP7082126B2 (ja) デバイス内の非対称配列の複数のマイクからの空間メタデータの分析
US20240007814A1 (en) Determination Of Targeted Spatial Audio Parameters And Associated Spatial Audio Playback
US9584235B2 (en) Multi-channel audio processing
US20220303711A1 (en) Direction estimation enhancement for parametric spatial audio capture using broadband estimates
US9351070B2 (en) Positional disambiguation in spatial audio
US11284211B2 (en) Determination of targeted spatial audio parameters and associated spatial audio playback
JP2020500480A5 (zh)
CN112219236A (zh) 空间音频参数和相关联的空间音频播放
JP2023515968A (ja) 空間メタデータ補間によるオーディオレンダリング
WO2020178475A1 (en) Wind noise reduction in parametric audio
US11350213B2 (en) Spatial audio capture
WO2019175472A1 (en) Temporal spatial audio parameter smoothing
JP2022528837A (ja) 音場関連のレンダリング
US20230362537A1 (en) Parametric Spatial Audio Rendering with Near-Field Effect
US20230104933A1 (en) Spatial Audio Capture

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination