CN107017000B - 用于编码和解码音频信号的装置、方法和计算机程序 - Google Patents

用于编码和解码音频信号的装置、方法和计算机程序 Download PDF

Info

Publication number
CN107017000B
CN107017000B CN201710061191.6A CN201710061191A CN107017000B CN 107017000 B CN107017000 B CN 107017000B CN 201710061191 A CN201710061191 A CN 201710061191A CN 107017000 B CN107017000 B CN 107017000B
Authority
CN
China
Prior art keywords
signal
microphone
beamformed
reduced
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710061191.6A
Other languages
English (en)
Other versions
CN107017000A (zh
Inventor
T·马基南
M·塔米
M·维莱莫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Technologies Oy
Original Assignee
Nokia Technologies Oy
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Technologies Oy filed Critical Nokia Technologies Oy
Publication of CN107017000A publication Critical patent/CN107017000A/zh
Application granted granted Critical
Publication of CN107017000B publication Critical patent/CN107017000B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/01Aspects of volume control, not necessarily automatic, in sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/03Synergistic effects of band splitting and sub-band processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/11Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

一种方法、装置和计算机程序,其中该方法包括:使用来自第一麦克风和第二麦克风的相应信号获得波束成型信号;通过将该波束成型信号分组至多个频带并且针对该多个频带的每个频带获得数据值而减小该波束成型信号的数据大小;并且形成至少包括大小被减小的波束成型信号以及来自第一麦克风的信号的比特流,其中该比特流使得成束的音频通道的参数能够被控制。

Description

用于编码和解码音频信号的装置、方法和计算机程序
技术领域
本公开的示例涉及用于编码和解码音频信号的装置、方法和计算机程序。特别地,它们涉及用于编码和解码音频信号从而使得能够呈现成束的音频通道的装置、方法和计算机程序。
背景技术
使得空间音频信号能够被记录并编码以便随后进行播放的装置是已知的。使得波束成型信号能够被并入到这样的信号之中会是有利的。波束成型信号可以包括使得成束的音频通道能够被呈现的信息。
发明内容
根据本公开的各种但并不一定全部的示例,提供了一种方法,包括:使用来自第一麦克风和第二麦克风的相应信号获得波束成型信号;通过将该波束成型信号分组至多个频带并针对该多个频带中的每个频带获得数据值而减小该波束成型信号的数据大小;并且形成至少包括该大小被减小的波束成型信号以及来自第一麦克风的信号的比特流,其中该比特流使得成束的音频通道的参数能够被控制。
在一些示例中,该比特流还可以包括从第三麦克风所接收的信号。该第一麦克风和第三麦克风可以朝向电子设备的不同末端进行定位。该方法可以包括使用来自第三麦克风和另一个麦克风的相应信号获得另外的波束成型信号,并且通过将该另外的波束成型信号分组至多个频带并针对多个频带中的每个频带获得数据值而减小该另外的波束成型信号的数据大小;并且将该另外的大小被减小的波束成型信号添加至该比特流以使得立体声输出能够被提供。
在一些示例中,该大小被减小的波束成型信号内的频带的数量可以小于从该第一麦克风所接收的信号内的样本的数量。
在一些示例中,可以针对大小被减小的该波束成型信号内的频谱的不同部分使用不同大小的频带。用于低频的频带可以比用于高频的频带更窄。
在一些示例中,该比特流可以通过将至少一个大小被减小的波束成型信号作为元数据添加至从该第一麦克风所接收的信号而形成。
在一些示例中,所获得的波束成型数据可以包括第一麦克风所获得的音频通道和成束的音频通道之间的差异。针对大小被减小的波束成型信号中的多个频带中的每个频带的数据值可以包括第一麦克风所获得的音频通道与针对该频带的成束的音频通道之间的差异的均值。
根据本公开的各种但并不一定全部的示例,可以提供一种装置,包括:处理电路;和包括计算机程序代码的存储器电路,该存储器电路和计算机程序代码被配置为,利用该处理电路而使得该装置执行:使用来自第一麦克风和第二麦克风的相应信号获得波束成型信号;通过将该波束成型信号分组至多个频带并针对多个频带中的每个频带获得数据值而减小该波束成型信号的数据大小;并且形成至少包括大小被减小的该波束成型信号以及来自第一麦克风的信号的比特流,其中该比特流使得成束的音频通道的参数能够被控制。
在一些示例中,该比特流还可以包括从第三麦克风所接收的信号。该第一麦克风和第三麦克风可以朝向电子设备的不同末端进行定位。该存储器电路和处理电路可以被配置为使用来自第三麦克风和另一个麦克风的相应信号获得另外的波束成型信号,并且通过将该波束成型信号分组至多个频带并针对该多个频带中的每个频带获得数据值而减小该另外的波束成型信号的数据大小;并且将大小被减小的该另外的波束成型信号添加至该比特流而使得立体声输出能够被提供。
在一些示例中,大小被减小的该波束成型信号内的频带的数量可以小于从该第一麦克风所接收的信号内的样本的数量。
在一些示例中,可以针对大小被减小的该波束成型信号内的频谱的不同部分使用不同大小的频带。用于低频的频带可以比用于高频的频带更窄。
在一些示例中,该比特流可以通过将至少一个大小被减小的波束成型信号作为元数据添加至从该第一麦克风所接收的信号而形成。
在一些示例中,所获得的波束成型数据包括第一麦克风所获得的音频通道和成束的音频通道之间的差异。针对大小被减小的该波束成型信号中的多个频带中每个频带的数据值可以包括第一麦克风所获得的音频通道与用于该频带的成束的音频通道之间的差异的均值。
根据本公开的各种但并不一定全部的示例,可以提供一种包括如以上所描述的装置的电子设备。
根据本公开的各种但并不一定全部的示例,可以提供一种包括计算机程序指令的计算机程序,该计算机程序指令在被处理电路执行时使得能够:使用来自第一麦克风和第二麦克风的相应信号获得波束成型信号;通过将该波束成型信号分组至多个频带并针对该多个频带中的每个频带获得数据值而减小该波束成型信号的数据大小;并且形成至少包括大小被减小的该波束成型信号以及来自第一麦克风的信号的比特流,其中该比特流使得成束的音频通道的参数能够被控制。
根据本公开的各种但并不一定全部的示例,可以提供一种包括程序指令的计算机程序,所述程序指令用于使得计算机执行如以上所描述的任意方法。
根据本公开的各种但并不一定全部的示例,可以提供一种体现如以上所描述的计算机程序的物理实体。
根据本公开的各种但并不一定全部的示例,可以提供一种承载如以上所描述的计算机程序的电磁载波信号。
根据本公开的各种但并不一定全部的示例,可以提供一种方法,包括:获得至少包括大小被减小的波束成型信号和来自第一麦克风的信号的比特流;并且对该比特流进行解码以获得对应于从该第一麦克风所获得的信号的第一音频通道和成束的音频通道,其中该比特流使得成束的音频通道的参数能够被控制。
在一些示例中,所获得的比特流还可以包括从第三麦克风所接收的信号,并且该方法还可以包括对来自第三麦克风的信号进行解码以使得空间音频输出能够被呈现。
在一些示例中,所获得的比特流还可以包括另外的大小被减小的波束成型信号从而使得立体声输出能够被提供。
在一些示例中,大小被减小的该波束成型信号内的频带的数量可以小于来自该第一麦克风的信号内的样本的数量。
在一些示例中,大小被减小的该波束成型信号可以包括指示该第一麦克风所获得的音频通道与成束的音频通道之间的差异的信息。
在一些示例中,针对大小被减小的该波束成型信号中的多个频带中每个频带的数据值可以包括第一麦克风所获得的音频通道与用于该频带的成束的音频通道之间的差异的均值。
在一些示例中,该方法包括检测选择针对音频输出的焦点位置的用户输入,并且调节所呈现的音频输出以便对应于所选择的焦点位置。该方法可以包括存储与所选择的焦点位置对应的所呈现音频输出信号。
根据本公开的各种但并不一定全部的示例,可以提供一种装置,包括:处理电路;和包括计算机程序代码的存储器电路,该存储器电路和计算机程序代码被配置为利用该处理电路而使得该装置执行:获得至少包括大小被减小的波束成型信号和来自第一麦克风的信号的比特流;并且对该比特流进行解码以获得对应于从该第一麦克风所获得的信号的第一音频通道和成束的音频通道,其中该比特流使得成束的音频通道的参数能够被控制。
在一些示例中,所获得的比特流还可以包括从第三麦克风所接收的信号,并且该方法包括对来自第三麦克风的信号进行解码以使得空间音频输出能够被呈现。
在一些示例中,所获得的比特流还可以包括大小被减小的另外的波束成型信号从而使得立体声输出能够被输出。
在一些示例中,大小被减小的该波束成型信号内的频带的数量可以小于来自该第一麦克风的信号内的样本的数量。
在一些示例中,大小被减小的该波束成型信号可以包括指示该第一麦克风所获得的音频通道与成束的音频通道之间的差异的信息。
在一些示例中,针对大小被减小的该波束成型信号中的多个频带中的每个频带的数据值可以包括第一麦克风所获得的音频通道与针对该频带的成束的音频通道之间的差异的均值。
在一些示例中,该存储器电路和处理电路还可以被配置为使得能够检测选择用于音频输出的焦点位置的用户输入,并且调节所呈现的音频输出以便对应于所选择的焦点位置。该存储器电路和处理电路还可以被配置为使得能够存储对应于所选择的焦点位置的所呈现音频输出信号。
根据本公开的各种但并不一定全部的示例,可以提供一种包括如以上所描述的装置的电子设备。
根据本公开的各种但并不一定全部的示例,可以提供一种包括计算机程序指令的计算机程序,该计算机程序指令在被处理电路执行时使得能够:获得至少包括大小被减小的波束成型信号和来自第一麦克风的信号的比特流;并且对该比特流进行解码以获得对应于从该第一麦克风所获得的信号的第一音频通道和成束的音频通道,其中该比特流使得成束的音频通道的参数能够被控制。
根据本公开的各种但并不一定全部的示例,可以提供一种包括程序指令的计算机程序,所述程序指令用于使得计算机执行如以上所描述的任意方法。
根据本公开的各种但并不一定全部的示例,可以提供一种体现如以上所描述的计算机程序的物理实体。
根据本公开的各种但并不一定全部的示例,可以提供一种承载如以上所描述的计算机程序的电磁载波信号。
根据本公开的各种但并不一定全部的示例,提供了如所附权利要求中请求保护的示例。
附图说明
为了更好地理解对于理解详细描述有用的各个示例,现在将仅通过示例对附图加以参考,其中:
图1图示了一种装置;
图2图示了包括一种装置的电子设备;
图3图示了包括另一种装置的电子设备;
图4图示了示例电子设备;
图5A和5B图示了示例方法;
图6A和6B图示了示例方法;
图7图示了示例电子设备;和
图8图示了使用中的示例电子设备。
具体实施方式
附图图示了示例方法、装置1和计算机程序9。在一些示例中,该方法包括使用来自第一麦克风41和第二麦克风43的相应信号获得波束成型信号;通过将该波束成型信号分组至多个频带并针对多个频带中的每个频带获得数据值而减小该波束成型信号的数据大小;并且形成至少包括大小被减小的该波束成型信号以及来自第一麦克风41的信号的比特流57,其中该比特流使得成束的音频通道的参数能够被控制。
在这样的示例中,装置1可以用于对音频信号进行编码。经编码的音频信号可以包括波束成型音频信号或大小被减小的波束成型信号。该波束成型音频信号或大小被减小的波束成型信号可以包括使得成束的音频通道能够被提供的信息。该成束的音频通道可以被用于任何适当的音频焦点应用。
在一些示例中,该方法可以包括:获得至少包括大小被减小的波束成型信号和来自第一麦克风的信号的比特流57;并且对该比特流57进行解码以获得对应于从该第一麦克风41所获得的信号的第一音频通道和成束的音频通道,其中该比特流使得成束的音频通道的参数能够被控制。
在这样的示例中,装置1可以被用于对音频信号进行解码。一旦信号已经被解码,装置1就可以使得成束的音频信道能够被呈现。用户能够对该成束的音频通道的焦点位置进行控制。
图1示意性地图示了可以在本公开的实施方式中使用的示例装置1。图1中所示的装置1可以是芯片或芯片组。在一些示例中,装置1可以在电子设备21、31内提供,它们诸如是移动电话或电视机或者任意其它适当的电子设备21、31。在一些示例中,装置1能够在诸如图2中的示例电子设备21之类的捕捉音频信号并对其进行编码的设备内提供。在一些示例中,装置1可以在诸如图3中的示例电子设备31之类的接收经编码的信号并且使得经编码的信号能够被解码以便由扬声器或头戴耳机进行呈现的电子设备内提供。
示例装置1包括控制电路3。控制电路3可以提供用于对电子设备21、31进行控制的器件。控制电路3还可以提供用于执行本公开的示例的方法或者该方法的至少一部分的器件。
处理电路5可以被配置为从存储器电路7进行读取和向其写入。处理电路5可以包括一个或多个或处理器。处理电路5还可以包括输出接口和输入接口,数据和/或命令经由该输出接口被处理电路5输出,并且数据和/或命令经由该输入接口被输入至处理电路5。
存储器电路7可以被配置为存储计算机程序9,计算机程序9包括程序指令(计算机程序代码),该程序指令在被加载到处理电路5时对装置1的操作进行控制。计算机程序9的计算机程序指令提供使得装置1能够执行图5A和5B以及图6A和6B中所图示的示例方法的逻辑和例程。处理电路5通过读取存储器电路7能够加载并执行计算机程序9。
在一些示例中,计算机程序9可以包括音频捕捉应用。该音频捕捉应用可以被配置为使得装置1能够捕捉音频信号并且使得被捕捉的音频信号能够被编码以便进行播放。装置1因此包括:处理电路5;和包括计算机程序代码11的存储器电路7,存储器电路7和计算机程序代码11被配置为利用处理电路5而使得装置1至少执行:使用来自第一麦克风41和第二麦克风43的相应信号获得波束成型信号;通过将该波束成型信号分组至多个频带并针对多个频带中的每个频带获得数据值而减小该波束成型信号的数据大小;并且形成至少包括该大小被减小的波束成型信号以及来自第一麦克风41的信号的比特流57,其中该比特流57使得成束的音频通道的参数能够被控制。这样的装置1可以在被配置为接收并编码音频信号的电子设备21中提供。
在一些示例中,计算机程序9可以包括音频再现应用。该音频再现应用可以被配置为使得本公开的示例方法能够被装置1执行。该音频再现应用可以使得装置1能够获得经编码的音频信号并且对所获得的信号进行解码以便进行播放。装置1因此包括:处理电路5;和包括计算机程序代码11的存储器电路7,存储器电路7和计算机程序代码11被配置为利用处理电路5而使得装置1至少执行:获得至少包括大小被减小的波束成型信号和来自第一麦克风41的信号的比特流57;并且对该比特流57进行解码以获得对应于从该第一麦克风41所获得的信号的第一音频通道和成束的音频通道,其中该比特流57使得成束的音频通道的参数能够被控制。这样的装置可以在被配置为解码并呈现音频信号的电子设备31中提供。
计算机程序9可以经由任意适当的传递机制到达装置1。该传递机制例如可以是非瞬态计算机可读介质、计算机程序产品、存储器设备、诸如紧致盘只读存储器(CD-ROM)或数字多功能盘(DVD)的记录介质,或者以有形方式体现计算机程序的制造品。该传递机制可以是被配置为可靠地传输计算机程序9的信号。该装置可以将计算机程序9作为计算机数据信号进行传播或传送。在一些示例中,计算机程序代码11可以使用无线协议而被传送至装置1,上述无线协议诸如蓝牙、低功率蓝牙、智能蓝牙、6LoWPan(低功率个人域网络上的IPv6)、Zigbee、ANT+、近场通信(NFC)、射频识别、无线局域网(无线LAN),或者任意其它适当的协议。
虽然存储器电路7在图中被图示为单个组件,但是所要意识到的是,其可以被实施为一个或多个单独组件,其中的一些或全部可以是集成的/可移除的和/或可以提供持久性/半持久性/动态/高速缓存的存储。
虽然处理电路5在图中被图示为单个组件,但是要理解的是,其可以被实施为一个或多个单独的组件,其中的一些或全部可以是集成的/可移除的。
对“计算机可读存储介质”、“计算机程序产品”、“有形体现的计算机程序”等或者“控制器”、“计算机”、“处理器”等的引用应当被理解为不仅涵盖具有诸如单/多处理器架构、精简指令集计算(RISC)和顺序(冯·诺依曼)/并行架构之类的不同架构的计算机,而且还涵盖了专用电路,诸如现场可编程门阵列(FPGA)、专用集成电路(ASIC)、信号处理设备以及其它处理电路。针对计算机程序、指令、代码等的引用应当被理解为包含用于可编程处理器的软件或者固件,诸如作为示例,硬件设备的可编程内容,而无论其是用于处理器的指令,还是针对固定功能设备、门阵列或可编程逻辑设备等的配置设置。
如在被能申请所使用的,术语“电路”是指以下全部内容:(a)仅硬件的电路实施方式(诸如仅以模拟和/或数字电路的实施方式);以及(b)电路和软件(和/或固件)的组合,诸如(如可应用的):(i)(多个)处理器的组合或者(ii)一起工作而使得诸如移动电话或服务器的装置执行各种功能的(多个)处理器/软件(包括(多个)数字信号处理器)、软件和(多个)存储器的部分;和(c)电路,诸如(多个)微处理器或者(多个)微处理器的一部分,其需要软件或固件进行操作,即使该软件或固件并非物理存在。
“电路”的该定义应用于本申请中对该术语的所有使用,包括在任意权利要求中。作为另外的示例,如本申请所使用的,术语“电路”还将覆盖仅一个处理器(或多个处理器)或者处理器的一部分及其伴随软件和/或固件的实施方式。例如在能够应用于特定权利要求要素的情况下,术语“电路”还将覆盖用于移动电话的的基带集成电路或应用处理器集成电路,或者服务器、蜂窝网络设备或其它网络设备中类似的集成电路。
图2示意性图示了示例的电子设备21。图2的示例电子设备21可以被配置为使得能够对音频信号进行录制并编码。电子设备21包括如以上所描述的装置1。相对应的附图标记被用于相对应的特征。除了装置1之外,图2的示例电子设备21还包括多个麦克风23以及一个或多个收发器25。电子设备21可以包括图2中并未图示的其它特征,诸如电源或者任意其它适当特征。
多个麦克风23可以包括使得音频信号能够被录制的任意器件。多个麦克风23可以包括可以被配置为将声音输入信号转换为电输出信号的任意器件。多个麦克风23可以耦合至装置1而使得装置1能够对多个麦克风23所录制的音频信号进行处理。在一些示例中,装置1可以通过对所接收的音频信号进行编码来处理该音频信号。
多个麦克风23可以位于电子设备21内的任意适当位置。在一些示例中,不同麦克风23可以位于电子设备21内的不同位置从而使得空间音频信号能够被录制。
不同麦克风23可以被定位为使得能够获得波束成型音频信号。该波束成型音频信号是包括使得成束音频信道能够被呈现的信息的信号。为了获得波束成型信号,要从不同麦克风23检测至少两个输入麦克风信号。所检测到的输入信号可以被提供至装置1。装置1可以被配置为将两个或更多输入信号进行组合从而获得产生成束的音频信号所需的信息。至少一个输入麦克风信号在与其它输入麦克风信号进行组合之前被处理。例如,在一些示例中,输入麦克风信号之一可以在与一个或多个其它输入麦克风信号叠加之前被延迟。装置1可以被配置为在音频信号被编码之前获得波束成型信号。这确保了解码器能够从该波束成型信号获取到波束成型信息。
一个或多个收发器25可以包括一个或多个发射器和/或接收器。一个或多个收发器25可以包括使得电子设备21能够与另一个电子设备建立通信连接并且与该另一个电子设备交换信息的任意器件。该通信连接可以包括无线连接。
在一些示例中,该一个或多个收发器25可以使得装置1能够连接至诸如蜂窝网络的网络。在一些示例中,一个或多个收发器25可以使得装置1能够在诸如无线局域网的局域网、蓝牙网络或者任意其它适当网络中进行通信。
一个或多个收发器25可以耦合至电子设备21内的装置1。一个或多个收发器25可以被配置为从装置1接收信号而使得该信号能够被传送。装置1可以被配置为向一个或多个收发器25提供经编码的音频信号以使得该经编码的音频信号能够被传送至另一个电子设备。
图3示意性地图示了包括另一个装置1的另一个电子设备31。图3的示例电子设备31可以被配置为使得经编码的音频信号能够被解码并呈现以便对用户进行播放。电子设备31包括如以上所描述的装置1。相对应的附图标记被用于相对应的特征。除了装置1之外,图3的示例电子设备还包括多个扬声器33、一个或多个收发器35以及用户接口37。电子设备31可以包括并未在图3中进行图示的其它特征,诸如电源、头戴式耳机或者任意其它适当的特征。
多个扬声器33可以包括使得音频输出通道能够得以被呈现的任意器件。多个扬声器33可以包括可以被配置为将电输入信号转换为声音输出信号的任意器件。多个扬声器33可以位于电子设备31之内从而使得能够提供空间音频输出通道。多个扬声器33可以被配置为使得能够提供成束的音频通道。
多个扬声器33可以耦合至该装置而使得扬声器33从装置1接收输入信号。扬声器33随后可以将所接收到的输入信号转换为音频通道。
一个或多个收发器35可以包括一个或多个发射器和/或接收器。一个或多个收发器35可以包括使得电子设备31能够与另一个电子设备建立通信连接并且与该另一个电子设备交换信息的任意器件。该另一个电子设备可以是如以上所描述的进行录制的电子设备21。该通信连接可以包括无线连接。
在一些示例中,一个或多个收发器35可以使得该装置能够连接至诸如蜂窝网络的网络。在一些示例中,一个或多个收发器35可以使得装置1能够在局域网中进行通信,诸如无线局域网、蓝牙网络或者任意其它适当网络。
一个或多个收发器35可以耦合至电子设备31内的装置1。一个或多个收发器35可以被配置为从另一个设备接收经编码的声音信号并且使得该经编码的信号能够被提供至装置1。装置1可以被配置为对所接收的信号进行解码并且将经解码的信号提供至多个扬声器35而使得能够呈现音频输出通道。
在一些示例中,电子设备31还可以包括用户接口37。用户接口37可以包括使得用户能够与电子设备31进行交互的任意器件。在一些示例中,用户接口37可以包括诸如触摸敏感显示器的用户输入器件以及可以使得用户能够进行用户输入的任意其它适当器件。例如,用户接口37可以被配置为使得用户能够作出用户输入从而为音频输出通道选择设置。这可以使得用户能够选择空间音频设置并且/或者为成束的通道选择焦点。装置1可以被配置为响应于该用户输入而对提供至扬声器33的输出信号进行控制。
在以上所描述的示例中,录制声音信号的电子设备21不同于呈现声音信号的电子设备31。这可以使得声音信号能够在不同用户之间进行共享。在一些示例中,相同的电子设备可以被配置为录制声音信号以及呈现该声音信号。在这样的示例中,一旦装置1对麦克风23所获得的信号进行了编码,该信号就可以被存储在装置1的存储器电路5中并且可以被访问以便进行后续播放。
图4图示了穿过可以被用来实施本公开的一些示例的示例电子设备21的横截面。图4中的示例电子设备21可以被布置为录制空间音频信号。在一些示例中,电子设备21可以被布置为录制声音信号,并且还在针对用户回放时呈现该声音音频信号。在图4的示例中,电子设备21可以是移动电话。在本公开的其它示例中可以使用其它类型的电子设备21、31。
电子设备21包括如以上所描述的多个麦克风23。在图4的示例中,电子设备21包括第一麦克风41、第二麦克风43和第三麦克风45。
第一麦克风41可以被配置为捕捉左侧音频通道,并且第三麦克风45可以被配置为捕捉右侧音频通道。第一麦克风41和第三麦克风45可以使得空间音频信号能够被捕捉。第一麦克风41和第三麦克风45朝向电子设备21的相反端点进行定位。在其它示例中,麦克风41、45可以位于其它位置。
第二麦克风43位于不同于第一麦克风41和第三麦克风45的位置。在图4的示例中,第二麦克风位于电子设备21的后表面上。在电子设备21是移动电话的情况下,该后表面可以是与显示器相对的表面。在图4的示例中,第二麦克风43朝向电子设备21的第一端进行定位而使得第二麦克风43相比第三麦克风45更接近于第一麦克风41进行定位。所要意识到的是,在本公开的其它示例中可以使用麦克风41、43、45的其它数量和布置。
第二麦克风43可以被配置为检测第二麦克风信号。该第二麦克风信号可以与第一麦克风41所获得的信号进行组合以使得能够获得波束成型信号。在图4的示例中,利用第二麦克风43和第一麦克风41所获得的波束成型信号可以使得能够提供成束的左侧音频通道。
在一些示例中,除了使得能够获得波束成型信号之外,第二麦克风43还可以被用于其它用途。例如,在一些示例中,第二麦克风43可以使得能够对声音信号进行方向分析或者任意其它适当的功能。
如以上所描述的装置1可以在电子设备21内被提供。装置1可以被提供在电子设备21内的任意适当位置。装置1可以被配置为从麦克风41、45接收电输出信号并且将所接收到的输入信号连同所获得的波束成型信号一起进行解码。在一些示例中,装置1还可以使得信号能够被解码从而使得声音信号能够被呈现以便向用户进行播放。图5A和5B图示了能够由图4的示例电子设备21内的装置1所执行的示例方法。
图5A图示了装置1在其以音频捕捉模式进行操作时可以执行的示例方法。当装置1以音频捕捉模式进行操作时,装置1被配置为从麦克风41、43、45接收输入信号并且将它们编码为比特流57。
在图5A的示例中,装置1获得三个输入信号51、53、55。第一输入信号51从第一麦克风41获得,第二输入信号53从第二麦克风43获得,并且第三输入信号55从第三麦克风45获得。在图5A的示例中,电子设备21包括三个麦克风41、43、45并且获得三个输入信号。在电子设备21包括不同数量的麦克风的情况下,则可以获得不同数量的输入信号。
第一信号51可以形成左侧音频通道并且第三信号55可以形成右侧音频通道。这些麦克风输入信号可以被用来形成比特流57。比特流57可以包括诸如AC-3或AAC的任意适当格式。
第二信号53可以从第二麦克风43获得。第二信号53可以被用来获得波束成型信号。第二信号53可以与第一信号51进行组合以获得大小被减小的波束成型信号59。大小被减小的波束成型信号59可以使得能够提供成束的左侧通道。在图5A的示例中,第二信号59并未被添加至比特流57。相反,大小被减小的波束成型信号59使用第二信号获得,并且大小被减小的该波束成型信号被用来使得能够利用比特流57中的数据量的仅小幅增长对成束的音频通道的参数进行控制。
任何适当的处理都可以被用来获得大小被减小的波束成型信号59。波束成型可以在频域或时域中执行。在图5A的示例中,波束成型在频域中执行。在图5A的方法中,第一信号51的傅里叶变换从第一麦克风41获得从而给出经变换的第一信号M1,并且第二信号53的傅里叶变换从第二麦克风43获得从而给出经变换的第二信号M2。
随后对经变换的第一信号M1和经变换的第二信号M2使用波束成型处理从而获得成束的左侧通道B1的傅里叶变换。可以对经变换的信号使用任意适当的处理来获得成束的左侧通道B1的傅里叶变换。
一旦已经获得了波束成型信号B1,就可以针对所获得的样本内的每个频率仓(bin)n计算原始左侧通道和成束的左侧通道之间的差值。该两个通道之间的差值由以下所给出:
Figure BDA0001219439740000151
其中M1是左侧音频通道的傅里叶变换,而B1是成束的左侧通道的傅里叶变换,|·|是仓n处的复值频率响应的大小,并且NFFT是傅里叶变换的长度。该大小被计算为
Figure BDA0001219439740000152
其中Re{·}和Im{·}代表相对应频率仓n的实数和虚数部分。所要理解的是,在本公开的其它示例中,能够使用其它方法来获得通道之间的差值。例如,在一些示例中,可以使用滤波器组的表示形式而不是傅里叶变换。
一旦已经获得了差值信号Δleft,n,就通过将该差值信号Δleft,n分组至多个频带中并且针对多个频带中的每个频带获得数据值而使得该差值信号Δleft,n的大小被减小,从而产生大小被减小的波束成型信号Δleft,b。大小被减小的波束成型信号Δleft,b内的频带的数量小于原始信号内的样本数量。大小被减小的波束成型信号Δleft,b内的频带的数量可以明显小于原始信号内的样本数量。
可以针对大小被减小的波束成型信号Δleft,b内频谱的不同部分使用不同大小的频带。这可以使得针对一些频率区域能够比其它区域更为准确地估计频率响应。用于不同频率区域的准确性水平能够由用户感知不同频率所利用的准确性所确定。诸如Bark规模的心理声学规模可以被用于选择用于不同频率区域的准确性。在一些示例中,被用于低频的频带可以比被用于高频的频带更窄。在一些示例中,低频可以逐个仓地进行估计,并且较宽的频带则可以被用于中间频率和高频率。
在一些示例中,针对多个频带中的每个频带的数据值可以被计算为给定频带上的差值信号的均值。
Figure BDA0001219439740000161
其中bh是频带b内的最高频率仓而bl则是最低频率仓。
作为示例,大小被减小的波束成型信号Δleft,b中所使用的子带的数量可以被设置为64。这使得估计中的子带数量大大小于傅里叶变换B1中的样本数量。这确保了所存储或传送的大小被减小的波束成型信号Δleft,b内的数据量与对从第二麦克风43所接收的音频信号进行编码相比明显被减小。
作为示例,针对多个频带中的每个频带的限制能够如以下表格所示进行定义(NFFT=2048)。
Figure BDA0001219439740000171
一旦已经获得了大小被减小的波束成型信号Δleft,b,则大小被减小的波束成型信号Δleft,b可以被添加至包括来自第一麦克风41和第三麦克风45的信号的比特流57。大小被减小的波束成型信号Δleft,b可以作为元数据被添加至比特流57。
比特流57可以被存储在装置1的存储器电路7中并且被获取以供后续播放。在一些示例中,比特流57可以被传送至一个或多个其它设备以使得能够由该一个或多个其它设备来呈现音频。
在图5A中,针对成束的左侧通道获得了大小被减小的波束成型信号Δleft,b。所要理解的是,还可以使用类似的处理来针对成束的右侧通道获得大小被减小的波束成型信号。针对成束的右侧通道的大小被减小的波束成型通道也可以被添加至比特流57。
图5B图示了可以在装置1以音频再现模式进行操作时由装置1所执行的示例方法。当装置1以音频再现模式进行操作时,装置1被配置为获得比特流57并且对来自该比特流的信号进行解码。经解码的信号随后可以被提供至一个或多个扬声器33从而使得音频信号能够被呈现。在一些示例中,经解码的信号可以被提供至头戴式耳机,这使得能够提供立体声或双耳输出。
在一些示例中,比特流57可以从存储器电路7获取。在一些示例中,比特流57可以从另一个设备获取。
在图5B的示例中,比特流57包括可以形成左侧音频通道的第一信号51和可以形成右侧音频通道的第三信号55。比特流57还包括针对成束的左侧通道的大小被减小的波束成型信号Δleft,b以及针对成束的右侧通道的大小被减小的波束成型信号Δright,b
在图5B的示例中,比特流57被解码以获得成束的左侧通道B1和成束的右侧通道B2。为了获得成束的左侧通道,获得左侧通道M1的傅里叶变换。这随后与大小被减小的波束成型信号Δleft,b进行组合以获得成束的左侧通道
Figure BDA0001219439740000187
成束的左侧通道
Figure BDA0001219439740000188
可以通过以下进行估计
Figure BDA0001219439740000181
其中n=bl,...,bh并且b=1,...,B,其中B是大小被减小的波束成型信号中的子带的数量。
类似地,为了获得成束的右侧通道,获得右侧通道M3的傅里叶变换。这随后与大小被减小的波束成型信号Δright,b进行组合以获得成束的右侧通道
Figure BDA0001219439740000182
成束右侧通道
Figure BDA0001219439740000183
可以通过以下进行估计
Figure BDA0001219439740000184
其中n=bl,...,bh且b=1,...,B,其中B是大小被减小的波束成型信号中的子带的数量。
成束的通道
Figure BDA0001219439740000185
可以在使用音频对焦时使用。由于比特流57还包括可以形成左侧音频通道的第一信号51以及可以形成右侧音频通道的第三信号55,这还可以使得能够提供原始音频通道或者可以使得能够提供空间音频输出。
当原始音频通道和成束的音频通道都在比特流57中能够获得时,用户可以在原始音频通道和成束的通道之间进行选择。这可以使得终端用户能够自由地对是否以及何时应用音频对焦(focus)效果进行控制。
所要理解的是,在本公开的其它示例中,能够使用其它方法来获得大小被减小的波束成型信号。例如,在一些示例中,原始音频通道和成束的通道之间的差值能够被计算为绝对差值而不是比率。在这样的示例中,该差值信号也能够针对每个复值频率仓n而在频域中计算为:
Figure BDA0001219439740000186
在这样的示例中,该成束的通道因此将由以下给出:
Figure BDA0001219439740000191
Figure BDA0001219439740000192
或者甚至
Figure BDA0001219439740000193
Figure BDA0001219439740000194
在后者的情况下,针对来自第一麦克风41的信号M1和来自第三麦克风45的信号M3的绝对变化保持相同。这使得解码装置1能够从相同的大小被减小的波束成型信号重建成束的左侧通道和成束的右侧通道。相同的方法也可以与关联差值一起来使用。这可以减小所需要传送和/或存储的数据量。
在一些示例中,可以使用比率和绝对差值的组合来获得差值信号。例如,在一些示例中,绝对谱差值能够被用于相同的频率子带,而比率则能够被用于其它频率子带。这能够防止在仅应用左侧通道谱关联差值时可能发生的潜在相位误差。
图6A和6B图示了能够由如以上所描述的装置1执行的一般示例方法。
图6A图示了装置1在其以音频捕捉模式进行操作时所可以执行的示例方法。在框61,该方法包括使用来自第一麦克风41和第二麦克风43的相应信号获得波束成型信号。可以使用任意适当的方法来获得该波束成型信号。在框63,该方法包括通过将该波束成型信号分组至多个频带并针对多个频带中的每个频带获得数据值而减小该波束成型信号的大小。在框65,该方法还包括形成至少包括该大小被减小的波束成型信号以及来自第一麦克风41的信号的比特流57。
图6B图示了在装置1以音频再现模式进行操作时可以由装置1执行的示例方法。在框67,该方法包括获得至少包括大小被减小的波束成型信号和来自第一麦克风的信号的比特流57。在框69,该方法包括对该比特流57进行解码以获得对应于从该第一麦克风41所获得的信号的第一音频通道和成束的音频通道。
图7图示了可以被用来实施本公开的示例的另一个示例电子设备21。图7图示了穿过可以被用来实施本公开的一些示例的示例电子设备21的横截面。示例电子设备21可以类似于图4的示例电子设备,然而相应设备中的麦克风具有不同的部署形式。
在图7的示例中,电子设备21包括第一麦克风41、第二麦克风43、第三麦克风45和第四麦克风47。该电子设备还可以包括如以上所描述的装置1。电子设备21可以被配置为执行图5A至6B的方法。
第一麦克风41可以被配置为捕捉左侧音频通道并且第三麦克风45可以被配置为捕捉右侧音频通道。第一麦克风41和第三麦克风45可以使得能够捕捉空间音频信号。第一麦克风41和第三麦克风45位于电子设备21的第一面71上。第一麦克风41和第三麦克风45可以朝向电子设备21的第一面71的相反末端进行定位。在电子设备21是移动电话的示例中,第一麦克风41和第三麦克风45可以位于与移动电话的显示器相同的侧面上。
第二麦克风43和第四麦克风47位于电子设备21的第二面73上。第二面可以是与第一面71相对的表面。在电子设备21是移动电话的情况下,第二面可以是与显示器相对的侧面。
第二麦克风43朝向电子设备21的与第一麦克风41相同的一端进行定位,并且第四麦克风47朝向电子设备的与第三麦克风45相同的一端进行定位。
第二麦克风43所获得的信号和第四麦克风47所获得的信号可以使得能够获得波束成型信号。在图7的示例中,利用第二麦克风43和第一麦克风41所获得的波束成型信号可以使得能够提供成束的左侧音频通道,并且利用第四麦克风47和第三麦克风45所获得的波束成型信号可以使得能够提供成束的右侧音频通道。
图7的示例电子设备21提供了对称的麦克风设置部署。这可以使得能够创建平衡的立体声表象(image)。由于提供了四个麦克风,所以这可以使得在麦克风之一发生损坏或者无法检测信号的情况下能够使用三麦克风的解决方案。例如,一些示例中,装置1可以被配置为检测用户是否利用其手指覆盖了麦克风之一。在这种情况下,装置1能够遵循用于从三个麦克风获得成束的通道的处理。
图8图示了使用中的示例电子设备21。在图8的示例中,用户正在使用用户接口37来控制音频对焦方向和音频输出的增益。
在图8的示例中,电子设备21包括处于电子设备21的第一面71上的触摸敏感显示器。用户正在使用该触摸敏感显示器来观看视频流。
控制图标81被显示于该显示器上。该控制图标包含具有标记85的滑动条83。用户界面37被配置为使得用户能够通过在显示器上进行触摸输入来控制标记85在滑动条83内的位置。标记85在滑动条83上的位置控制成束的通道的焦点位置。在图8的示例中,该标记的位置控制相对于电子设备21的前方和后方的焦点位置。滑动条83上的顶端位置对应于具有最高可获得增益水平的前方焦点,并且滑动条83上的最低位置则对应于具有最高可用增益水平的后方焦点。
响应于检测到用户输入,电子设备21内的装置1可以对比特流57的解码进行控制从而调节成束的通道的焦点位置。
所要理解的是,在本公开的其它示例中可以使用其它类型的用户控制要素。
在一些示例中,电子设备21可以使得能够存储经调节的音频焦点设置。例如,如果用户找到了他们喜欢的音频焦点设置,则对应于该设置的输出能够被存储在装置1的存储器电路7中。在一些示例中,该输出能够响应于用户输入而被存储。在一些示例中,该输出能够在用户每次调节该音频设置时被自动存储。
本公开的示例使得具有两个或更多麦克风23的设备21能够创建包括足以使得音频焦点的参数能够在解码阶段被控制的信息的比特流57。由于使用了大小被减小的波束成型信号,所以本公开的示例并未增加经编码的音频通道的数量,这意味着该数量的音频数据对于传送和/或存储而言是可行的。
本公开的示例使得原始麦克风信号能够被编码并且被减小的波束成型信号能够作为元数据被添加至该比特流57。这使得能够提供多样化的系统,因为其使得用户能够在解码阶段选择是否、何时以及以怎样的程度来应用该音频对焦功能。
如以上所描述的,在一些示例中,成束的右侧通道可以基于针对成束的左侧通道的被减小的波束成型信号进行计算。这可以使得一个波束成型信号能够被用来获得两个成束的通道。这降低了计算要求,并且还减少了所需要传送和/或存储的数据的数量。
本公开的示例并未降低音频输出的感知质量。在一些示例中,所感知的输出质量能够基于通过提高或降低用来获得该大小被减小的波束成型信号的谱分辨率而提供的输出来进行调节。
术语“包括”在本文中以包含而非排他的含义被使用。也就是说,对于X包括Y的任何引用都指示X可以包括仅一个Y或者可以包括比一个Y更多。如果意在以排他性含义来使用“包括”,则将在上下文中通过提到“仅包括一个…”或者通过使用“构成”而清楚表明。
在该简要描述中,已经涉及各种示例。与示例有关的特征或功能的描述指示那些特征或功能在该示例中出现。无论是否明确指出,文本中使用的术语“示例”或“例如”或“可以”都表示这样的特征或功能至少存在于所描述的示例中,而无论其是否作为一个示例进行描述,并且它们可以在一些或全部的其它示例中出现,但并非必然如此。因此,“示例”、“例如”或“可以”是指一类示例中的特定实例。该实例的性质可以是仅该实例的性质,或者是该类别的性质,或者是该类别中包括该类别中的一些但非全部实例的子类别的性质。因此,其隐含公开了参考一个示例而并未参考另一个示例所描述的特征在可能的情况下能够在该其它示例中被使用,但是并非必然要在该其它示例中被使用。
虽然已经在之前的段落中参考各示例对本发明的实施例进行了描述,但是应当理解,在并不背离请求保护的本发明的范围的情况下可以对所给出的示例进行修改。例如,在上文中所描述的示例中,所使用的所有麦克风都是真实的麦克风。在一些示例中,用于获得波束成型信号的一个或多个麦克风能够是虚拟麦克风,也就是说,至少两个真实麦克风信号的算数组合。
前文中所描述的特征可以以明确描述的组合形式以外的组合形式加以使用。
虽然已经参考某些特征对功能进行了描述,但是那些功能可通过其它特征来执行,无论是否被描述。
虽然已经参考某些实施例对特征进行了描述,但是那些特征也可以出现在其它实施例中,无论是否被描述。
尽管在之前的说明书中,努力将注意力集中于本发明中被认为特别重要的那些特征,但是应当理解的是,本申请要求保护关于之前所涉及和/或附图中所示出的任意可专利的特征或特征组合,而无论是否对其进行了特别强调。

Claims (20)

1.一种对信号进行编码的方法,包括:
使用来自第一麦克风和第二麦克风的各自的信号获得波束成型信号;
通过至少以下操作来减小所获得的波束成型信号的数据大小:
将所述波束成型信号分组至多个频带;
计算在与所述第一麦克风相关联的第一信号与所述波束成型信号之间的差值;以及
计算针对所述多个频带中的每个频带的数据值以使用所计算的差值产生数据大小被减小的波束成型信号;以及
形成减小的比特流,所述减小的比特流至少包括所述数据大小被减小的波束成型信号以及与所述第一麦克风相关联的所述第一信号;以及
致使发送所述减小的比特流。
2.根据权利要求1所述的方法,其中所述减小的比特流进一步包括与第三麦克风相关联的信号。
3.根据权利要求2所述的方法,其中所述方法进一步包括以下中的至少一项:
使用来自所述第三麦克风和第四麦克风的信号获得另一波束成型信号;
通过将所述另一波束成型信号分组至多个频带而减小所述另一波束成型信号的数据大小;
进一步基于所述另一波束成型信号来计算针对所述多个频带中的每个频带获得数据值;以及
将大小被减小的所述另一波束成型信号添加至所述减小的比特流。
4.根据权利要求1所述的方法,其中针对所述数据大小被减小的波束成型信号内的频率响应的不同部分使用不同大小的频带。
5.根据权利要求1所述的方法,其中通过将数据大小被减小的所述波束成型信号作为元数据添加至与所述第一麦克风相关联的所述第一信号,而形成所述减小的比特流。
6.根据权利要求1-5中任一权利要求所述的方法,进一步包括:确定在所述第一麦克风处所获得的音频通道信号和所述波束成型信号之间的差异。
7.根据权利要求6所述的方法,其中针对所述数据大小被减小的波束成型信号中的多个频带中的每个频带的数据值包括在所述第一麦克风处所获得的音频通道信号与所述波束成型信号之间的所计算差值的均值。
8.一种对信号进行编码的装置,包括:
处理电路;和
包括计算机程序代码的存储器电路,所述存储器电路和所述计算机程序代码被配置为,利用所述处理电路,促使所述装置:
使用来自第一麦克风和第二麦克风的各自的信号获得波束成型信号;
通过以下操作来减小所获得的波束成型信号的数据大小:
将所述波束成型信号分组至多个频带;
计算在与所述第一麦克风相关联的第一信号与所述波束成型信号之间的差值;以及
计算针对所述多个频带中的每个频带的数据值以使用所计算的差值产生数据大小被减小的波束成型信号;以及
形成减小的比特流,所述减小的比特流至少包括所述数据大小被减小的波束成型信号以及与所述第一麦克风的相关联的所述第一信号;以及
致使发送所述减小的比特流。
9.根据权利要求8所述的装置,其中所述减小的比特流还包括与第三麦克风相关联的信号。
10.根据权利要求8所述的装置,其中所述存储器电路和处理电路还被配置为执行以下中的至少一项:
使用来自第三麦克风和另一个麦克风的各自的信号获得另外的波束成型信号,
通过将所述另外的波束成型信号分组至多个频带而减小所述另外的波束成型信号的数据大小;
进一步基于所述另外的波束成型信号来计算针对所述多个频带中的每个频带的数据值;以及
将数据大小被减小的所述另外的波束成型信号添加至所述减小的比特流以使得立体声输出能够被提供。
11.根据权利要求8所述的装置,其中针对所述数据大小被减小的波束成型信号内的频率响应的不同部分使用不同大小的频带。
12.根据权利要求8所述的装置,其中通过将至少一个数据大小被减小的波束成型信号作为元数据添加至从所述第一麦克风所接收的所述信号,而形成所述减小的比特流。
13.根据权利要求8至12中任一权利要求所述的装置,其中所述存储器电路和处理电路还被配置为:
确定在所述第一麦克风处所获得的音频通道信号和所述波束成型信号之间的差异。
14.根据权利要求13所述的装置,其中针对所述数据大小被减小的所述波束成型信号中所述多个频带中的每个频带的数据值包括在所述第一麦克风处所获得的音频通道信号与所述波束成型信号之间的所计算差值的均值。
15.根据权利要求8所述的装置,其中所述存储器电路和处理电路还被配置为:
获得所述减小的比特流,所述减小的比特流至少包括所述波束成型信号的数据大小被减小的所述波束成型信号和来自所述第一麦克风的信号;以及
对所述减小的比特流进行解码以获得对应于与所述第一麦克风相关联的所述第一信号的第一音频通道和成束的音频通道。
16.根据权利要求15所述的装置,其中所述存储器电路和处理电路还被配置为:接收与第三麦克风相关联的信号,以及对与所述第三麦克风相关联的所述信号进行解码以使得空间音频输出能够被呈现。
17.根据权利要求15或16所述的装置,其中所述存储器电路和处理电路还被配置为检测用户输入,以控制以下中的至少一项:
用于呈现的音频焦点方向;以及
成束的音频通道的增益。
18.一种对信号进行解码的方法,包括:
获得减小的比特流,所述减小的比特流至少包括数据大小被减小的波束成型信号和与第一麦克风相关联的信号;以及
对所述减小的比特流进行解码以获得对应于来自所述第一麦克风的所述信号的第一音频通道和成束的音频通道,其中所述数据大小被减小的波束成型信号是至少从关联于所述第一麦克风的第一信号和关联于第二麦克风的第二信号导出的,其中所述数据大小被减小的波束成型信号是至少通过以下被减小的:
对使用所述第一信号和所述第二信号获得的波束成型信号分组至多个频带;
计算在所述第一信号与所述波束成型信号之间的差值;以及
计算针对所述多个频带中的每个频带的数据值以使用所计算的差值产生所述数据大小被减小的波束成型信号;以及
致使显示控制元件以控制与成束的音频通道相关联的音频对焦方向。
19.根据权利要求18所述的方法,其中获得所述减小的比特流进一步包括接收与第三麦克风相关联的信号以及对接收自所述第三麦克风的信号进行解码以使得空间音频输出能够被呈现。
20.根据权利要求18或19所述的方法,进一步包括检测用户输入,以控制以下中的至少一项:
用于呈现的音频焦点方向;以及
成束的音频通道的增益。
CN201710061191.6A 2016-01-27 2017-01-25 用于编码和解码音频信号的装置、方法和计算机程序 Active CN107017000B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB1601489.6 2016-01-27
GB1601489.6A GB2549922A (en) 2016-01-27 2016-01-27 Apparatus, methods and computer computer programs for encoding and decoding audio signals

Publications (2)

Publication Number Publication Date
CN107017000A CN107017000A (zh) 2017-08-04
CN107017000B true CN107017000B (zh) 2021-05-07

Family

ID=55535009

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710061191.6A Active CN107017000B (zh) 2016-01-27 2017-01-25 用于编码和解码音频信号的装置、方法和计算机程序

Country Status (4)

Country Link
US (1) US10783896B2 (zh)
EP (1) EP3200186B1 (zh)
CN (1) CN107017000B (zh)
GB (1) GB2549922A (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2572420A (en) 2018-03-29 2019-10-02 Nokia Technologies Oy Spatial sound rendering
GB2578715A (en) * 2018-07-20 2020-05-27 Nokia Technologies Oy Controlling audio focus for spatial audio processing
GB2584629A (en) * 2019-05-29 2020-12-16 Nokia Technologies Oy Audio processing
CN110517703B (zh) 2019-08-15 2021-12-07 北京小米移动软件有限公司 一种声音采集方法、装置及介质
GB2620960A (en) * 2022-07-27 2024-01-31 Nokia Technologies Oy Pair direction selection based on dominant audio direction

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101652810A (zh) * 2006-09-29 2010-02-17 Lg电子株式会社 用于处理混合信号的装置及其方法
CN103004233A (zh) * 2010-07-15 2013-03-27 摩托罗拉移动有限责任公司 基于两个或更多宽带麦克风信号生成修改宽带音频信号的电子设备

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE60325699D1 (de) * 2003-05-13 2009-02-26 Harman Becker Automotive Sys Verfahren und System zur adaptiven Kompensation von Mikrofonungleichheiten
DE602008002695D1 (de) * 2008-01-17 2010-11-04 Harman Becker Automotive Sys Postfilter für einen Strahlformer in der Sprachverarbeitung
US20110002469A1 (en) * 2008-03-03 2011-01-06 Nokia Corporation Apparatus for Capturing and Rendering a Plurality of Audio Channels
KR101381513B1 (ko) 2008-07-14 2014-04-07 광운대학교 산학협력단 음성/음악 통합 신호의 부호화/복호화 장치
US9210503B2 (en) 2009-12-02 2015-12-08 Audience, Inc. Audio zoom
BR112012031656A2 (pt) * 2010-08-25 2016-11-08 Asahi Chemical Ind dispositivo, e método de separação de fontes sonoras, e, programa
KR101782050B1 (ko) 2010-09-17 2017-09-28 삼성전자주식회사 비등간격으로 배치된 마이크로폰을 이용한 음질 향상 장치 및 방법
JP5198530B2 (ja) 2010-09-28 2013-05-15 株式会社東芝 音声付き動画像呈示装置、方法およびプログラム
US20120082322A1 (en) * 2010-09-30 2012-04-05 Nxp B.V. Sound scene manipulation
US8855341B2 (en) 2010-10-25 2014-10-07 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for head tracking based on recorded sound signals
US9552840B2 (en) 2010-10-25 2017-01-24 Qualcomm Incorporated Three-dimensional sound capturing and reproducing with multi-microphones
US9313599B2 (en) 2010-11-19 2016-04-12 Nokia Technologies Oy Apparatus and method for multi-channel signal playback
US9456289B2 (en) 2010-11-19 2016-09-27 Nokia Technologies Oy Converting multi-microphone captured signals to shifted signals useful for binaural signal processing and use thereof
GB2496660B (en) * 2011-11-18 2014-06-04 Skype Processing audio signals
US9185499B2 (en) * 2012-07-06 2015-11-10 Gn Resound A/S Binaural hearing aid with frequency unmasking
US9351071B2 (en) * 2012-01-17 2016-05-24 Koninklijke Philips N.V. Audio source position estimation
US9111542B1 (en) 2012-03-26 2015-08-18 Amazon Technologies, Inc. Audio signal transmission techniques
US9232310B2 (en) 2012-10-15 2016-01-05 Nokia Technologies Oy Methods, apparatuses and computer program products for facilitating directional audio capture with multiple microphones
WO2014080074A1 (en) * 2012-11-20 2014-05-30 Nokia Corporation Spatial audio enhancement apparatus
US9521486B1 (en) * 2013-02-04 2016-12-13 Amazon Technologies, Inc. Frequency based beamforming
CN105264911B (zh) 2013-04-08 2019-10-01 诺基亚技术有限公司 音频设备
KR102150013B1 (ko) * 2013-06-11 2020-08-31 삼성전자주식회사 음향신호를 위한 빔포밍 방법 및 장치
JP6206003B2 (ja) * 2013-08-30 2017-10-04 沖電気工業株式会社 音源分離装置、音源分離プログラム、収音装置及び収音プログラム
CN105474312B (zh) * 2013-09-17 2019-08-27 英特尔公司 用于自动语音识别(asr)的自适应的基于相位差的噪声消减
US9848260B2 (en) * 2013-09-24 2017-12-19 Nuance Communications, Inc. Wearable communication enhancement device
JP6134078B1 (ja) * 2014-03-17 2017-05-24 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. ノイズ抑制
CN103873977B (zh) 2014-03-19 2018-12-07 惠州Tcl移动通信有限公司 基于多麦克风阵列波束成形的录音系统及其实现方法
CN106716526B (zh) * 2014-09-05 2021-04-13 交互数字麦迪逊专利控股公司 用于增强声源的方法和装置
EP3416407B1 (en) * 2017-06-13 2020-04-08 Nxp B.V. Signal processor

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101652810A (zh) * 2006-09-29 2010-02-17 Lg电子株式会社 用于处理混合信号的装置及其方法
CN103004233A (zh) * 2010-07-15 2013-03-27 摩托罗拉移动有限责任公司 基于两个或更多宽带麦克风信号生成修改宽带音频信号的电子设备

Also Published As

Publication number Publication date
GB201601489D0 (en) 2016-03-09
EP3200186A1 (en) 2017-08-02
US10783896B2 (en) 2020-09-22
EP3200186B1 (en) 2020-06-10
US20170213565A1 (en) 2017-07-27
CN107017000A (zh) 2017-08-04
GB2549922A (en) 2017-11-08

Similar Documents

Publication Publication Date Title
CN107017000B (zh) 用于编码和解码音频信号的装置、方法和计算机程序
JP6367258B2 (ja) オーディオ処理装置
JP7082126B2 (ja) デバイス内の非対称配列の複数のマイクからの空間メタデータの分析
CN112567763B (zh) 用于音频信号处理的装置和方法
CN106470379B (zh) 用于基于扬声器位置信息处理音频信号的方法和设备
JP2015019371A5 (zh)
CN112806030B (zh) 用于处理空间音频信号的方法和装置
US20220141581A1 (en) Wind Noise Reduction in Parametric Audio
US20230254659A1 (en) Recording and rendering audio signals
CN112019993B (zh) 用于音频处理的设备和方法
EP3643079A1 (en) Determination of targeted spatial audio parameters and associated spatial audio playback
CN115244952A (zh) 用于使能再现空间音频信号的装置、方法及计算机程序
CN104981866B (zh) 用于确定立体声信号的方法
CN113273225A (zh) 音频处理
WO2024044113A2 (en) Rendering audio captured with multiple devices

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant