CN114360577A - 用于获得音频信号的装置、方法和计算机程序 - Google Patents
用于获得音频信号的装置、方法和计算机程序 Download PDFInfo
- Publication number
- CN114360577A CN114360577A CN202210049102.7A CN202210049102A CN114360577A CN 114360577 A CN114360577 A CN 114360577A CN 202210049102 A CN202210049102 A CN 202210049102A CN 114360577 A CN114360577 A CN 114360577A
- Authority
- CN
- China
- Prior art keywords
- microphones
- signals
- spatial information
- captured
- decoded
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 80
- 238000004590 computer program Methods 0.000 title claims abstract description 43
- 230000005236 sound signal Effects 0.000 title claims description 75
- 238000012545 processing Methods 0.000 claims abstract description 80
- 238000009877 rendering Methods 0.000 claims 2
- 230000008569 process Effects 0.000 description 17
- 230000006870 function Effects 0.000 description 11
- 238000004891 communication Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 230000001360 synchronised effect Effects 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000002238 attenuated effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000001816 cooling Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000007480 spreading Effects 0.000 description 2
- 238000003892 spreading Methods 0.000 description 2
- 230000008080 stochastic effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2201/00—Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
- H04R2201/40—Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
- H04R2201/401—2D or 3D arrays of transducers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/03—Synergistic effects of band splitting and sub-band processing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/20—Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/11—Positioning of individual sound objects, e.g. moving airplane, within a sound field
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Otolaryngology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Circuit For Audible Band Transducer (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
- Stereophonic System (AREA)
Abstract
装置、电子设备、方法和计算机程序,其中所述装置包括:处理电路;存储器电路,该存储器电路包括计算机程序代码,存储器电路和计算机程序代码被配置为,与处理电路一起使装置能执行:获得空间信息,空间信息与从麦克风的第一集合捕获的声场相关;从麦克风的第二集合获得一个或多个信号,其中一个或多个信号与捕获的声场相关;以及,使用从麦克风的第一集合获得的空间信息来处理从麦克风的第二集合获得的一个或多个信号;其中麦克风的第一集合在电子设备内被提供,并且麦克风的第二集合在电子设备外部被提供。
Description
本申请是发明名称为“用于获得音频信号的装置、方法和计算机程序”的中国发明专利申请(申请号为201780041471.9,申请日为2017年6月20日)的分案申请。
技术领域
本公开的示例涉及用于获得音频信号的装置、方法和计算机程序。具体地,本公开的示例涉及用于获得高质量空间音频信号的装置、方法以及计算机程序。
背景技术
已知包括麦克风和其他组件的电子设备。例如,图像捕获设备可以包括一个或多个相机以及一个或多个麦克风。将麦克风集成到与其他组件相同的电子设备可能会降低可以由麦克风捕获的音频信号的质量。
发明内容
根据一些但并不一定是所有的本公开的示例,可以提供装置,包括:处理电路;存储器电路,该存储器电路包括计算机程序代码,存储器电路和计算机程序代码被配置为,与处理电路一起使装置能执行:获得空间信息,空间信息与从麦克风的第一集合捕获的声场相关;从麦克风的第二集合获得一个或多个信号,其中一个或多个信号与捕获的声场相关;以及,使用从麦克风的第一集合获得的空间信息来处理从麦克风的第二集合获得的一个或多个信号;其中麦克风的第一集合在电子设备内被提供,并且麦克风的第二集合在电子设备外部被提供。
来自麦克风的第一集合的空间信息可以被用于空间地处理从麦克风的第二集合获得的一个或多个信号。
麦克风的第二集合可以被布置以获得比麦克风的第一集合更高质量的音频信号。
麦克风的第二集合可以包括一个或多个比麦克风的第一集合更高质量的麦克风。
麦克风的第二集合可以与降低音频信号的质量的组件分离。
麦克风的第一集合可以以预定的几何形状被布置。
麦克风的第一集合可以在图像捕获设备内被提供。
麦克风的第一集合可以包括比麦克风的第二集合更多的麦克风。
麦克风的第二集合可以靠近电子设备被定位,使得麦克风的第一集合和麦克风的第二集合位于类似的声场中。
空间信息可以使用空间音频捕获过程而被获得。
空间信息可以指示麦克风的第一集合中的每个麦克风在多个频带中的每个频带内的能量比的信息,能量比为时间的函数。
麦克风的第二集合可以被耦合到电子设备。
根据一些但并不一定是所有的本公开的示例,可以提供包括根据任一权前述利所述的装置的电子设备。
根据一些但并不一定是所有的本公开的示例,可以提供方法,包括:获得空间信息,空间信息与从麦克风的第一集合捕获的声场相关;从麦克风的第二集合获得一个或多个信号,其中一个或多个信号与捕获的声场相关;以及,使用从麦克风的第一集合获得的空间信息来处理从麦克风的第二集合获得的一个或多个信号;其中麦克风的第一集合在电子设备内被提供,以及麦克风的第二集合在电子设备外部被提供。
来自麦克风的第一集合的空间信息可以被用于空间处理从麦克风的第二集合获得的所述一个或多个信号。
麦克风的第二集合可以被布置以获得比麦克风的第一集合更高质量的音频信号。
麦克风的第二集合可以包括一个或多个比麦克风的第一集合更高质量的麦克风。
麦克风的第二集合可以与降低音频信号的质量的组件被分离。
麦克风的第一集合可以以预定的几何形状被布置。
麦克风的第一集合可以被提供在图像捕获设备内。
麦克风的第一集合可以包括比麦克风的第二集合更多的麦克风。
麦克风的第二集合可以被靠近电子设备定位,使得麦克风的第一集合和麦克风的第二集合位于类似的声场中。
与音频信号相关的空间信息可以使用空间音频捕获过程而被获得。
空间信息可以包括指示麦克风的第一集合中的每个麦克风在多个频带中的每个频带内的能量比的信息,能量比为时间的函数。
麦克风的第二集合可以被耦合到电子设备。
根据一些但并不一定是所有的本公开的示例,可以提供包括计算机程序指令的计算机程序,当计算机程序指令由处理电路执行时,实现:获得空间信息,空间信息与从麦克风的第一集合捕获的声场相关;从麦克风的第二集合获得一个或多个信号,其中一个或多个信号与捕获的声场相关;以及,使用从麦克风的第一集合获得的空间信息来处理从麦克风的第二集合获得的一个或多个信号;其中麦克风的第一集合在电子设备内被提供,以及麦克风的第二集合在电子设备外部被提供。
根据一些但并不一定是所有的本公开的示例,可以提供包括程序指令的计算机程序,该程序指令用于使得计算机来执行上文描述的方法。
根据一些但并不一定是所有的本公开的示例,可以提供物理实体,该物理实体体现如上文描述的计算机程序。
根据一些但并不一定是所有的本公开的示例,可以提供承载如上文描述的计算机程序的电磁载波信号。
根据一些但并不一定是所有的本公开的示例,可以提供装置,包括:用于获得与从麦克风的第一集合捕获的声场相关的空间信息的部件;用于从麦克风的第二集合获得一个或多个信号的部件,其中一个或多个信号与捕获的声场相关;以及用于使用从麦克风的第一集合获得的空间信息来处理从麦克风的第二集合获得的一个或多个信号的部件;其中麦克风的第一集合在电子设备内被提供,以及麦克风的第二集合在电子设备外部被提供。
根据各种但并不一定是所有的本公开的示例,提供如所附权利要求所述的示例。
附图说明
为了更好的理解各种示例,这些示例有助于理解具体描述,现在将仅通过示例的方式来参考附图,其中:
图1图示了装置;
图2图示了电子设备;
图3图示了电子设备;
图4A和图4B图示了电子设备;
图5图示了方法;
图6图示了方法;以及
图7图示了方法。
具体实施方式
附图示出了装置1,它包括:处理电路5;以及包括计算机程序代码11的存储器电路7,存储器电路7和计算机程序代码11被配置为,与处理电路5一起使得装置能执行:获得51与从麦克风的第一集合23捕获的声场相关的空间信息39;从麦克风的第二集合27获得53一个或多个信号,其中一个或多个信号与捕获的声场相关;以及,使用从麦克风的第一集合23获得的空间信息39来处理从麦克风的第二集合27获得的一个或多个信号;其中麦克风的第一集合23被提供在电子设备21内,以及麦克风的第二集合27被提供在电子设备21的外部。
装置1可以被用于获得音频信号。装置1可以被用于获得高质量的空间音频信号。这种装置1可以被用在呈现捕获设备、图像捕获设备、虚拟现实系统或者任何其他合适的电子设备或系统中。
图1示意地图示了可以在本公开的示例中被使用的示例装置1。图1中图示的装置1可以是芯片或芯片集。在一些示例中,装置1可以被提供在电子设备21内。电子设备21可以是呈现捕获设备、图像捕获设备、虚拟现实系统或任何其他合适的电子设备。在一些示例中,装置1可以被提供在电子设备(诸如,处理设备或回放设备)中。
示例装置1包括控制电路3。控制电路3可以提供用于控制电子设备21的部件。控制电路3还可以提供用于执行本公开的示例的方法或者方法的至少一部分的部件。
处理电路5可以被配置为从存储器电路7读取,或向存储器电路7写入。处理电路5可以包括一个或多个处理器。处理电路5还可以包括输出接口和输入接口,数据和/或命令由处理电路5经由输出接口输出,数据和/或命令经由输入接口被输入到处理电路5。
存储器电路7可以被配置为存储包括计算机程序指令(计算机程序代码11)的计算机程序9,当被加载到处理电路5中时,计算机程序9控制装置1的操作。计算机程序9的计算机程序指令提供逻辑和例程,逻辑和例程使装置1能执行图5至图7中图示的示例方法或示例方法的至少一部分。通过读取存储器电路7,处理电路5能够加载并且执行计算机程序9。
在一些示例中,计算机程序9可以包括音频信号处理应用。音频信号处理应用可以被布置以从麦克风的第一集合23获得空间信息39,并且使用该空间信息39来空间地处理45从麦克风的第二集合27获得的一个或多个信号。麦克风的第一集合23可以被提供在电子设备21内,以及麦克风的第二集合27可以被定位在电子设备21外部,从而麦克风的第二集合27获得比麦克风的第一集合23更高质量的音频信号。更高质量的音频信号可以具有更高的信噪比,可以被更好地保护以免受外部噪声(诸如风)的影响,或者可以具有使更好的音频信号能被提供给用户的任何其他参数。
因此,装置1包括:处理电路5;以及包括计算机程序代码11的存储器电路7,存储器电路7和计算机程序代码11被配置为,与处理电路5一起使得装置1至少执行:获得51与从麦克风的第一集合23捕获的声场相关的空间信息39;从麦克风的第二集合获得53一个或多个信号,其中一个或多个信号与捕获的声场相关;以及使用从麦克风的第一集合23获得的空间信息39来处理从麦克风的第二集合27获得的一个或多个信号;其中麦克风的第一集合23被提供在电子设备21内,以及麦克风的第二集合27被提供在电子设备21的外部。
计算机程序9可以经由任何合适的传送机制到达装置1。传送机制可以是例如非暂时性计算机可读存储介质、计算机程序产品、存储器设备、诸如光盘只读存储器(CD-ROM)或者数字通用光盘(DVD)的记录介质、或者有形地实现计算机程序的制品。传送机制可以是被配置为可靠地转移计算机程序9的信号。装置1可以使计算机程序9的传播或传输能成为计算机数据信号。在一些示例中,计算机程序代码11可以使用无线协议(诸如,蓝牙、蓝牙低功耗、蓝牙智能、6LoWPan(低功率个人局域网上的IPv6)ZigBee、ANT+、近场通信(NFC)、射频识别、无线局域网(无线LAN))或任何其他合适的协议而被传输到装置1。
尽管存储器电路7被图示为图中的单个组件,但是应当理解存储器电路7可以被实现为一个或多个单独的组件,这些组件中的一些或所有组件可以是集成的/可移除的,和/或可以提供永久/半永久/动态/高速缓存存储。
尽管处理电路5被图示为图中的单个组件,但是应当理解处理电路5可以被实现为一个或多个单独的组件,这些组件中的一些或所有组件可以是集成的/可移除的。
对“计算机可读存储介质”、“计算机程序产品”、“有形实施的计算机程序”等或“控制器”、“计算机”、“处理器”等的参考应被理解为不仅涵盖具有不同架构的计算机,诸如单/多处理器架构、精简指令集计算(RISC)和顺序(冯诺依曼)/并行架构,还涵盖专用电路,诸如,现场可编程门阵列(FPGA)、专用集成电路(ASIC),信号处理设备和其他处理电路。对计算机程序、指令、代码等的参考应当被理解为涵盖用于可编程处理器或固件的软件,诸如,例如硬件设备的可编程内容,无论是用于处理器的指令,还是用于固定功能设备、门阵列或可编程逻辑设备等的配置设置。
如本申请使用的,术语“电路”指代以下的所有:
(a)仅硬件电路实现(诸如仅在模拟和/或数字电路中实现)以及
(b)电路与软件(和/或固件)的组合,诸如(如适用):(i)(多个)处理器的组合或者(ii)一起工作以使得装置(诸如移动电话或服务器)来执行各种功能的(多个)处理器/软件(包括(多个)数字信号处理器)、软件、以及(多个)存储器中的一部分,以及
(c)电路,诸如需要用于操作的软件或固件的(多个)微处理器或(多个)微处理器的一部分,即使软件或固件不是物理存在的。
该“电路”的定义适用于本申请中(包括任何权利要求中的)该术语的所有使用。作为进一步的示例,如本申请中使用的术语“电路”还将覆盖仅处理器(或多个处理器)或处理器的一部分以及其(或它们的)所附软件和/或固件的实现。术语“电路”还将覆盖,例如并且如果适用于特定权利要求元素,用于移动电话的基带集成电路或应用处理器集成电路,或者服务器、蜂窝网络设备、或其他网络设备中的类似的集成电路。
图2示意地图示了示例电子设备21。电子设备21包括装置1,装置1包括如上文描述的处理电路5和存储器电路7。对应的附图标记被用于对应的特征。除装置1之外,图2的示例电子设备还包括麦克风的第一集合23、相机阵列25以及接口29。应当理解,电子设备21可以包括图2中未示出的其他特征,诸如功率源、制冷组件或者任何其他合适的特征。
图2还图示了麦克风的第二集合27。麦克风的第二集合27被提供在电子设备21外部。图2的示例电子设备21可以被配置为使与捕获的声场相关的空间信息39能被获得。捕获的声场可以包括一个或多个声源。空间信息39可以被用于处理由麦克风的第二集合27获得的一个或多个信号。
麦克风的第一集合23可以包括能够获得音频信号相关的空间信息39的任何部件。麦克风的第一集合23内的麦克风可以包括任何部件,这些部件可以被配置为将声输入信号转换成电输出信号。麦克风的第一集合23可以被耦合到装置1,以使装置1能处理由麦克风的第一集合23检测到的信号31,并且获得与信号31相关的空间信息39。信号31可以与捕获的声场相关。麦克风的第一集合23可以使声场的至少一部分能被捕获。麦克风的第一集合23可以使来自声场中空间采样位置的信号信息能被获得。
麦克风的第一集合23包括多个麦克风。多个麦克风被布置在电子设备21内的不同位置,从而使空间信息39能由麦克风的第一集合23获得。空间信息39可以包括可以被用于由麦克风的第二集合27获得的一个或多个信号33的的空间处理45的任何信息。空间信息39包括指示空间参数(诸如,方向参数)的信息。空间信息可以包括指示捕获的声场的方向性质的信息。在一些示例中,空间信息可以包括指示捕获的声场的方向性的比率或能量参数。该比率或能量参数可以指示捕获的声能量中有多少声能量是方向性的。该比率或能量参数还可以指示捕获的声能量中有多少声能量是非方向性的方向性的。非方向性的声能量可以是漫射声能,漫射声能可以包括混响或其他环境声。该比率或能量参数可以在时间和/或频率中变化。应当理解,方向参数可以在时间和/或频率中变化。
图2的示例电子设备21还包括相机阵列25。阵列25内的相机可以包括能够获得图像的部件。每个相机可以包括图像传感器,该图像传感器可以被配置为将入射在图像传感器上的光转换成电信号以使图像能被产生。图像传感器可以包括,例如数字图像传感器,诸如电荷耦合器件(CCD)或互补金属氧化物半导体(CMOS)。
相机阵列25可以包括多个相机。多个相机可以被分布在整个电子设备21中,从而相机阵列25可以获得全景图像或任何其他合适类型的图像。由相机阵列25获得的图像可以被用于呈现应用,虚拟现实应用或任何其他合适的应用。相机阵列25可以位于在电子设备21内从而能够获得高质量图像。电子设备21内的相机的位置可能限制可用于电子设备21内的麦克风的第一阵列23的位置。
在其他示例中,电子设备21可以包括单个相机,该单个相机可以布置以获得全景图像或三维图像或者任何其他合适类型的图像。在其他示例中,电子设备可以包括除相机之外的组件。
相机阵列25可以被布置以获得静止图像和/或视频图像。相机阵列25可以被布置以在与麦克风的第一阵列23获得音频信号相同的时间时获得图像。
相机阵列25可以被耦合到装置1,以使装置1能处理由相机阵列25检测到的图像信号。
接口29可以包括可以使电子设备21能与另一电子设备交换信息的任何部件。在图2的示例中,接口29被布置以使电子设备21能与麦克风的第二集合27交换信息。在一些示例中,接口29可以被布置以使电子设备21能与诸如回放设备或处理设备的远程设备交换信息。
在一些设备中,接口29可以包括有线连接或其他物理连接。在其他示例中,接口29可以包括一个或多个收发器,这些收发器可以实现电子设备21与麦克风的第二集合27之间的无线通信连接。无线通信连接可以是短程无线通信连接或者任何其他合适类型的无线通信连接。
在图2的示例中,提供了麦克风的第二集合27。麦克风的第二集合27可以被提供在电子设备21外部。麦克风的第二集合27被提供在电子设备21的壳体外部,而麦克风的第一集合23被提供在电子设备21的壳体内部。
在图2的示例中,麦克风的第二集合27被耦合到电子设备21。麦克风的第二集合27可以被提供在电子设备21的外部,但是通过有线或其他合适的连接部件而被连接到电子设备21。在这种示例中,麦克风的第二集合27可以被提供在距电子设备21的固定距离处。在这样示例中,有线连接或者其他物理连接可以实现功率从电子设备21被提供到麦克风的第二集合27。在一些示例中,麦克风的第二集合27可以通过浮动安装件而被连接到电子设备21,浮动安装件可以被布置来抑制来自电子设备21的任何振动,该振动可以影响由麦克风的第二集合27捕获的音频信号的质量。在一些示例中,浮动安装件还可以抑制来自其他源的振动,诸如脚步或任何其他环境源。浮动安装件可以包括一个或多个弹簧或任何其他合适的部件。
在其他示例中,麦克风的第二集合27可以与电子设备21分离地被提供。在这样的示例中,麦克风的第二集合27与电子设备21之间不存在物理连接。在这种示例中,电子设备21和麦克风的第二集合27可以经由无线连接交换信息。这可以使麦克风的第二集合27能相对于电子设备21移动。
麦克风的第二集合27被靠近电子设备21提供。麦克风的第二集合27可以被靠近电子设备21地提供,从而麦克风的第一集合23和麦克风的第二集合27位于类似的声场中。麦克风的第二集合27可以使声场的至少一部分能被捕获。麦克风的第二集合27可以使来自声场的信号信息能被获得。麦克风的第二集合27可以被靠近电子设备21地定位,从而麦克风的第一集合23和麦克风的第二集合27检测来自声源47的相同或基本上相同的音频信号。
麦克风的第二集合27可以包括使信号能被获得的任何部件。麦克风的第二集合27内的麦克风可以包括任何部件,这些部件可以被配置为将声输入信号转换成电输出信号。
麦克风的第二集合27可以布置来经由接口29与电子设备21交换信息。这使电子设备21内的装置1能获得与由麦克风的第二集合27捕获的捕获声场相关的一个或多个信号33。然后,装置1可以使用从麦克风的第一集合23获得的空间信息39来处理由麦克风的第二集合27捕获的一个或多个信号33。
麦克风的第二集合27可以包括任何合适数目的麦克风。在一些示例中,麦克风的第二集合27可以包括单个麦克风。在其他示例中,麦克风的第二集合27可以包括两个或多个麦克风。
麦克风的第一集合23可以包括比麦克风的第二集合27更多的麦克风。第一集合23中的麦克风的数目和位置可以被布置,以优化音频信号的空间信息39的获得51。第二集合27中的麦克风的数目和位置可以被优化以获得高质量的音频信号。麦克风的第二集合27不需要被布置来获得空间信息,因为被用于空间处理45的空间信息39从麦克风的第一集合23被获得。
麦克风的第二集合27可以被布置,以获得比麦克风的第一集合23更高质量的音频信号。在一些示例中,麦克风的第二集合27可以被布置来通过与电子设备21分离地定位来获得更高质量的音频信号。在这样的示例中,由麦克风的第一集合23获得的音频信号将检测到由电子设备21的组件制造的噪音,因为第一集合23中的麦克风23被靠近这些组件地定位。例如,诸如相机阵列25、制冷组件(诸如,风扇)或电子设备21的任何其他组件的组件可以生成将由麦克风的第一集合23检测到的噪声。这将使由麦克风的第一集合23捕获的信号31失真。由于麦克风的第二集合27在电子设备21外部,麦克风的第二集合27不检测由这些组件生成的噪声,并且因此,由麦克风的第二集合27捕获的一个或多个信号具有更高的信噪比。
在一些示例中,麦克风的第二集合27可以被布置以获得更高质量的音频信号,因为麦克风的第二集合27可以包括比麦克风的第一集合23更高质量的麦克风。例如,麦克风的第二集合27可以包括与麦克风的第一集合23相比具有更大振膜的麦克风。大的振膜可以在任何捕获的音频信号中提供高信噪比。大振膜的直径可以超过2cm或者任何其他合适的大小,而较小的振膜可以约为1mm。
在一些示例中,麦克风的第二集合27可以被布置以获得更高质量的音频信号,因为第二集合27中的麦克风可以被布置为受到保护而不受可以使得捕获音频信号失真的参数的影响。例如,麦克风的第二集合27可以被屏蔽以保护集合27内的麦克风免于检测风噪声。为麦克风的第一集合23提供这种屏蔽可能是不可行的,因为这种屏蔽可能阻碍通过相机阵列25来获得图像,和/或可能增加电子设备21的复杂度。
在图2的示例中,从麦克风的集合23、25获得信号并且执行空间处理45的装置1被提供在电子设备21内,电子设备21还包括麦克风的第一集合23。应当理解,装置1可以被提供在任何合适的电子设备21中。例如,在一些示例中,装置1可以被提供在远程设备中,诸如服务器、回放设备或者其他处理设备。远程设备可以被布置为接收包括来自麦克风的第一集合的空间信息39的信号,以及包括由麦克风的第二集合27捕获的音频信号的信号。然后,对音频信号的处理中的一些或所有处理可以对于电子设备21和麦克风的第二集合27远程地执行。
图3图示了可以在本公开的一些示例中被使用的电子设备21和麦克风的第二集合27。
在图3的示例中,电子设备21包括呈现捕获设备。呈现捕获设备包括球形或基本上球形的壳体,其具有围绕壳体分布的相机集合25。壳体的其他形状可以在本公开的其他示例中被使用。相机集合25可以被布置为获得全景图像(诸如,360°度图像)或其他合适的图像。
麦克风的第一集合23被提供在电子设备21的球形壳体内。麦克风的第一集合23可以包括任何合适数目的麦克风,这些麦克风使空间信息能被获得。在图3的示例中,电子设备21可以包括八个麦克风。在其他示例中,电子设备21可以包括至少三个麦克风,以使足够的空间信息39能被获得。
在本公开的一些示例中,麦克风的第一集合可以以预定几何形状被布置。预定几何形状可以被固定在电子设备21的壳体内。预定几何形状可以取决于电子设备21以及电子设备21被布置来执行的功能。例如,在图3的示例中,在电子设备21被布置用于呈现捕获的情况下,麦克风的第一集合23可以包括以立方体几何形状被布置的八个麦克风。麦克风可以被提供在立方体的每个角上。其他的几何形状可以在本公开的其他示例中被使用。在图3的示例中,预定几何形状可以被布置用于呈现捕获。预定几何形状可以在本公开的其他示例中被布置用于其他功能。
麦克风的第一集合23内的麦克风可以小型和/或低成本麦克风。这可以减少电子设备21内麦克风所需的空间量。这还可以将电子设备21的成本保持为最小。
在图3的示例中,麦克风的第二集合27与电子设备21分离地提供。麦克风的第二集合27可以包括比麦克风的第一集合23更少的麦克风,因为麦克风的第二集合27不需要获得空间信息39。在图3的示例中,麦克风的第二集合27包括两个麦克风。在本公开的其他示例中,其他数目的麦克风可以被提供。例如,在一些示例中,麦克风的第二集合27可以仅包括一个麦克风。在麦克风的第二集合27仅包括单个麦克风的示例中,可以对由单个麦克风捕获的音频信号使用解相关处理,以合成空间非相干性。如果两个或多个麦克风被提供在第二集合27中,则可能并不需要解相关处理。在一些示例中,优化算法可以被用来代替解相关处理。
麦克风的第二集合27被布置为获得高质量的音频信号。高质量的音频信号可以具有高信噪比。高质量音频信号可以具有与由麦克风的第一集合23获得的信号相比的高信噪比。
在一些示例中,麦克风的第二集合27内的麦克风可以包括高质量的麦克风,诸如AKG C414 XLS。这些麦克风可以具有为88dB的信噪比。在麦克风的第一集合23内被提供的麦克风可以包括小型麦克风,针对相同的音频信号电平,该小型麦克风具有为65dB的信噪比。即使不考虑诸如来自电子设备21中其他组件的噪声的因素,用户也可清楚地听出信噪比中的差异。
麦克风的第二集合27被足够靠近电子设备21地定位,从而麦克风的第一集合23和麦克风的第二集合27检测相同的音频信号。在一些示例中,麦克风的第二集合27可以被定位在电子设备21的0.3m至0.8m内。其他距离可以在本公开的其他示例中被使用。
麦克风的第二集合27可以相对于电子设备21被定位在任何合适的位置处。麦克风的第二集合27可以相对于电子设备21而被定位,使得麦克风的第二集合27不阻碍电子设备21内的相机阵列25。在图3的示例中,麦克风的第二集合27被定位在电子设备21下方。在其他示例中,麦克风的第二集合27可以相对于电子设备21被定位在不同的位置。
在图3的示例中,麦克风的第二集合27包括两个麦克风。使用两个麦克风可以使适用于在耳机中回放的信号能被捕获。使用两个麦克风可以实现对由两个麦克风的捕获的两个音频通道执行双耳合成。使用两个麦克风可以避免对使用解相关器的需要,如果仅一个麦克风被使用则可能需要解相关。使用解相关器可能对一些音频信号的感知质量有负面影响。在一些示例中,第二集合27可以包括多于两个麦克风,然而在本公开的一些示例中,由附加的麦克风获得的附加信息可能不提供任何附加的有用信息。
在图3的示例中,由麦克风的第一集合23捕获的信号31与由麦克风的第二集合27捕获的信号33被同步35。由于麦克风的两个集合23、27被彼此靠近地定位,因此捕获的信号31、33可以表示来自相同声源47的音频信号。
使用任何合适的过程,两个捕获的信号31、33被暂时同步以确保对由麦克风的第二集合27获得的信号33的空间处理是稳健的。捕获信号31、33的同步可以由电子设备21内的装置1执行。
在图3的示例中,对由麦克风的集合23、27捕获的信号31、33执行同步。在其他示例中,同步可以在处理的不同阶段处被执行。例如,在一些示例中,可以对由麦克风的第二集合27捕获的一个或多个信号以及从信号31获得的空间信息39执行同步,信号31由麦克风的第一集合23捕获。在一些示例中,可以对由麦克风的第二集合27捕获的一个或多个信号以及从信号31获得的空间信息39执行同步,信号31由麦克风的第一集合23获得。
任何合适的技术可以用于同步。在一些示例中,同步可以包括使用离线脉冲响应测量,通过使用在由相应集合23、27捕获的信号31、33之间的相关测量,通过使用在音频捕获期间可以被附接到信号31、33的时间码,通过手动同步或使用任何其他合适的技术。
由麦克风的第一集合23捕获的信号31可以使用任何合适的空间音频捕获(SPAC)技术而被处理37,以获得与音频信号相关的空间信息39。被获得的空间信息39可以包括方向信息。空间信息39可以包括指示捕获的声场的方向性质。在一些示例中,空间信息可以包括指示捕获的声场的方向性的比率或能量参数。该比率或能量参数可以指示捕获的声能量中有多少声能量是方向性的。该比率或能量参数可以在时间和/或频率中变化。该信息可以对应于人类听觉如何感知空间音频信息。因此空间信息39可以实现准确地空间声音再现。
应当理解,任何合适的技术可以被用于从由麦克风的第一集合23捕获的信号31获得空间信息39。在一些示例中,技术可以包括定向音频编码(DirAC)。定向音频编码可以包括在时间和频率中自适应地估计声音强度矢量。然后,方向参数可以从声音强度矢量被获得。定向音频编码还可以包括基于关于时频间隔中的声场能量的声场强度的绝对值来估计比率参数。
在一些示例中,用于获得空间信息39的技术可以包括谐波平面波展开(HARPEX)。谐波平面波展开可以包括针对多个时频间隔中的每个时频间隔估计两个同时的到达方向。在这种示例中,基于声场强度的绝对值的比率参数、或其他类似的参数并不像定向音频编码中那样被估计。在使用谐波平面波展开的示例中,这些信息在在两个到达方向内是固有的,因为到达方向将在方向能量小的时频中快速波动。
用于获得空间信息39的其他技术可以在本公开的其他示例中被使用。
由麦克风的第二集合27捕获的一个或多个信号33与捕获的声场相关。由麦克风的第二集合27捕获的一个或多个信号33可以被处理41以获得高质量的音频信号43。高质量的音频信号43可以具有高信噪比,但是可能不包括使空间音频信号能被再现的足够信息。处理41可以包括均衡、动态处理或者任何其他合适的处理。在一些示例中,可以省略由麦克风的第二集合获得的信号33的处理41。
高质量的音频信号43使用空间信息39而被空间处理45。在一些示例中,高质量的音频信号43可以由电子设备21内的装置1来空间地处理。在其他示例中,高质量的音频信号43可以由远程装置1来空间地处理。
在空间处理45由远程装置1执行的示例中,电子设备21可以被布置为向远程装置1传输空间信息39和高质量的音频信号43。在这样的示例中,在高质量的音频信号43被传输之前,空间信息39可以与高质量的音频信号43相关联。高质量音频信号43与空间信息39之间的关联将两个信号中的信息进行组合,使得它们可以被一起传输和/或存储。空间信息43以及高质量音频信号43可以被编码以及传输到远程装置1。任何合适的技术可以被用于编码以及由远程装置1进行的后续解码。
在图3的示例中,仅来自由麦克风的第一集合23捕获的信号31的空间信息39被需要。信号31中的其他信息不被需要。在这样的示例中,一旦空间信息39已经被获得,就不使用由麦克风的第一集合23捕获的信号31。这可以使由麦克风的第一集合23捕获的信号31在空间信息39已经被获得之后被丢弃。在这种示例中,由麦克风的第一集合捕获的信号31不需要被存储在存储器电路7中和/或被传输到远程装置1。
空间处理45可以包括任何处理,这些处理将空间信息39与高质量音频信号43组合以提供高质量的空间音频信号79。高质量空间音频信号79可以包括由麦克风的第二集合27捕获的信号33的高信噪比、以及由由麦克风的第一集合23捕获的信号31的空间信息39指示的空间性质两者。
任何合适的技术可以被用于空间处理45。在一些示例中,空间处理45可以包括最小二乘优化混合和解相关技术。这种技术可以处理多个频带中的每个频带中的高质量音频信号43的空间协方差矩阵。该技术可以包括估计输入信号协方差矩阵以及制定混合/解相关规则来处理高质量音频信号43的多个频带中的每个频带。这获得指示所需空间特性的目标协方差性质。
在一些示例中,空间处理45可以包括将高质量音频信号43的频带划分成方向性分量和非方向性分量。来自可以使用定向音频编码技术而被获得的空间信息39的比率参数可以被用于划分高质量的音频信号43。然后,通过使用幅度平移、头部相关传输函数(HRTF)或任何其他合适的技术,方向性分量可以被处理到由空间信息39确定的方向。非方向性分量可以被处理为空间非相干的。
高质量的空间音频信号79可以被提供给音频输出设备,诸如扬声器、耳机或任何其他合适的输出设备。
在一些示例中,空间处理45可以由电子设备1内的装置1来执行。在其他示例中,空间处理可以由远程设备内的装置1来执行。在这样的示例中,由电子设备21的装置1获得的信号被编码以及被传输到远程设备,用于处理。信号可以使用任何合适的处理而被编码,诸如音频编码(AAC)或任何其他合适的技术。在一些示例中,由麦克风的第二集合27捕获的信号33可以被编码和传输。由麦克风的第一集合23获得的空间信息39还可以被量化和编码,并且与由麦克风的第二集合27捕获的编码信号33相关联。在一些示例中,空间信息39可以被提供作为编码信号33内的元数据。在一些示例中,从电子设备21获得的图像信息也可以被包括在编码信号33中。
图4A和图4B图示了电子设备21和麦克风的第二集合27的不同布置。在图4A和图4B的示例中,电子设备21可以包括图像捕获设备,以及麦克风的第二集合27可以包括在上文参考图3被描述的两个高质量的麦克风。其他电子设备21和麦克风的集合23、27可以在本公开的其他示例中被使用。
在图4A和图4B的示例中,不同的距离被提供在电子设备21与麦克风的第二集合27之间。电子设备21与麦克风的第二集合27之间的距离可以依赖于电子设备21与声源的接近度,或者电子设备21与捕获的声场中的一个或多个声源47之间的期望距离。
在图4A和图4B的示例中,声源47是人。其他声源47可以在本公开的其他示例中被使用。
在图4A的示例中,电子设备21与麦克风的第二集合27可以位于远离声源47的位置。该布置可以在大房间中出现,诸如剧院或音乐厅,其中电子设备21可以位于远离声源47数十米处。由于电子设备21和麦克风的第二集合27位于远离声源47的位置,因此大的间隔可以在电子设备21与麦克风的第二集合27之间被提供。这仍然可以使麦克风的第一集合23和麦克风的第二集合27能基本上检测到来自相同声源47的相同音频信号。在图4A的示例中,在电子设备21与麦克风的第二集合27之间的距离d1可以是若干米。
在图4B的示例中,电子设备21和麦克风的第二集合27位于靠近声源47的位置。该布置可以在小房间中出现,诸如会议室,其中电子设备21可以位于声源47的若干米内。应当理解,在其他布置中电子设备21可以位于更靠近声源47的位置。
由于电子设备21和麦克风的第二集合27位于靠近声源47的位置,因此小的间隔可以在电子设备21与麦克风的第二集合27之间被提供,以便使麦克风的第一集合23和麦克风的第二集合27能基本上检测到相同的音频信号。在图4B的示例中,在电子设备21与麦克风的第二集合27之间的距离d2可以约为0.3m。
应当理解,电子设备21与麦克风的第二集合27的其他间隔可以在本公开的其他示例中被使用。在一些示例中,在电子设备21与麦克风的第二集合27之间的距离可以是可调整的,从而用户可以相对于电子设备21移动麦克风的第二集合27。这可以使用户能根据电子设备21和声源47的相对位置来改变相对位置。在其他示例中,电子设备21与麦克风的第二集合27之间的距离可以是固定的。在这样的示例中,电子设备21可以被优化,以用于在距声源47的某些距离处获得图像和音频。
图5图示了根据本公开的示例的方法。该方法可以使用如上文描述的装置1和电子设备21而被实现。在一些示例中,该方法可以使用如上文描述的电子设备21内的装置1而被实现。在其他示例中,该方法可以由对于麦克风集合23、27被远程提供的装置1实现。
该方法包括,在框51处,获得与从麦克风的第一集合23捕获的声场相关的空间信息39。该方法还包括,在框53处,从麦克风的第二集合27获得一个或多个信号,其中一个或多个信号与捕获的声场相关,以及使用从麦克风的第一集合23获得的空间信息39来处理从麦克风的第二集合27获得的一个或多个信号。麦克风的第一集合23被提供在电子设备21内,以及麦克风的第二集合27被提供在电子设备21外部。
图6图示了方法,该方法可以被用于处理由麦克风的第一集合23捕获的信号31以获得与音频信号相关的空间信息39。该方法可以在图3的框37处被执行。在图6的方法被执行之前,由麦克风的第一集合23捕获的信号31与由麦克风的第二集合27捕获的信号33被同步。
图6的示例方法可以由电子设备21的装置1执行。在其他示例中,由麦克风的第一集合23捕获的信号31可以被提供给远程装置1,以使远程装置1能执行该方法或该方法的至少一部分。
在框61处,由麦克风的第一集合23捕获的信号31被装置1接收。在图6的示例中,信号31可以以数字形式被提供。在图6的示例中,脉冲编码调制(PCM)被执行以将由麦克风捕获的模拟信号转换成数字形式。其他技术可以在本公开的其他示例中被使用。
在框63处,信号31被分解成多个频带。信号31可以使用任何合适的部件而被分解成多个频带。在图6的示例中,滤波器组被用于将信号31分解成频带。滤波器组可以包括短时傅里叶变换(STFT)、复调制正交镜像滤波器(QMF)组或任何其他合适的部件。
在框65处,多个频带中的每个频带的随机性质被估计。随机性质可以被用于获得空间信息39。
在图6的示例方法中,球面谐波变换也可以在框65处被执行。球面调谐变换可以包括麦克风信号预处理应用,该应用将由麦克风的第一集合23捕获的信号31的多个频带变换成球面谐波,诸如B-格式(B-format)信号。B-格式信号可以包括四个球面谐波信号。这四个球面谐波信号可以包括全向信号,以及彼此正交组织的三个八字形信号。三个八字形信号可以与x轴、y轴以及z轴对齐。其他方向格式信号可以在本公开的其他示例中被使用。
在图6的示例中,方向格式信号被用于估计短时随机性质。任何合适的技术可以被用于估计短时随机性质。在一些示例中,技术可以包括制定全向信号关于八字形信号中的每个八字形信号的互相关。互相关的结果是声场强度矢量,声场强度矢量在诸如定向音频编码的技术中被使用。
针对每个频带以及针对多个不同的时间间隔,短时随机性质可以被估计。平均算子可以在不同的频率间隔和/或时间间隔上被使用。
在框67处,一旦短时随机估计已经被获得,空间信息39被获得。在图6的示例中,模型参数估计被用于获得来自短时随机估计的空间信息39。空间信息39可以包括到达方向,直接对总能力比率以及任何其他合适的信息。到达方向参数指示到达声音的方向,以及直接对总比率指示声音能量的比例是方向性的。其他参数可以在本公开的其他示例中被使用。例如,参数可以包括诸如直接对环境比率或环境对总比率的信息。针对频带中的每个频带,空间信息39可以被获得。
空间信息39可以被存储在装置1的存储器电路7中,从而空间信息39可以被用于空间处理45。在一些示例中,空间信息39可以被传输到另一电子设备,以使空间处理45能被另一电子设备执行。
图7图示了可以被用于空间处理由麦克风的第二集合27捕获的信号33的方法。该方法可以在图3中的块45处被执行。在图7的方法被执行之前,信号33被麦克风的第二集合27捕获,并且与由麦克风的第一集合23捕获的信号31被同步。
图7的示例方法可以由电子设备21的装置1执行。在其他示例中,由麦克风的第二集合27获得的信号33可以被提供给远程装置1,以使远程装置1能执行该方法或该方法的至少一部分。
在框71处,由麦克风的第二集合27捕获的信号33被装置1接收。在图7的示例中,信号33可以以数字形式被提供。在图7的示例中,脉冲编码调制(PCM)被执行以将模拟信号转换成数字形式。其他技术可以在本公开的其他示例中被使用。
在框73处,信号33被分解成多个频带。信号33可以使用任何合适的部件而被分解成多个频带。在图7的示例中,滤波器组被用于将信号33分解成频带。滤波器组可以包括短时傅里叶变换(STFT)、复调制正交镜像滤波器(QMF)组或任何其他合适的部件。
在框75,频带中的每个频带使用从麦克风的第一集合23获得的空间信息39而被空间地处理。
在一些示例中,用户头部的定向也可以被用于空间处理由麦克风的第二集合29捕获的信号33的频带。在这样的示例中,用户头部位置的信息指示在框75处被接收。用户头部位置的信息指示可以被用于旋转空间信息39内的方向参数,使得这些方向参数对应于用户头部的当前位置。用户头部位置的信息指示可以从头戴式显示器或任何其他合适设备被获得。将方向参数考虑为矢量,并且使用旋转矩阵或任何其他合适处理,旋转矩阵或任何其他合适处理可以被用于使空间信息39的方向参数能对应于用户头部的当前位置。
任何合适的技术可以被用于空间处理。在一些示例中,空间处理可以包括基于协方差矩阵的技术。在这种示例中,针对输入频带的混合规则可以被制定,使得输出信号具有由空间信息39确定的方向性质。混合规则可以针对输出频带中的每个输出频带而被确定。
在框77处,经空间处理的信号被变换成时域信号。经空间处理的信号可以使用逆滤波器组或任何其他合适的技术而被变换到时域中。
这提供了高质量的空间音频信号79。高质量的空间音频信号79使用由麦克风的第二集合27捕获的信号33的高信噪比,以及从由麦克风的第一集合23捕获的信号31获得的空间信息39。高质量的音频信号79可以被提供给输出设备,诸如用于向用户回放的扬声器、耳机。
本公开的示例提供了用于提供高质量的空间音频信号79的装置1、电子设备21和方法。在本公开的示例中,空间信息39源自麦克风的第一集合23,高质量的音频信号43源自麦克风的第二集合27。由于麦克风的不同集合23、27可以被布置来获得不同的信息,因此不同的集合23、27可以针对特定目的而被优化。例如,麦克风的第一集合23内的麦克风的数目和位置可以被优化,以使空间信息39能被获得;同时第二集合27中的麦克风的参数可以被优化以使高质量的音频信号43能被捕获,但是不需要被布置来获得空间信息39。
本公开的示例还使高质量的麦克风能被使用在麦克风的第二集合27中。高质量的麦克风可以被用于记录偶尔出现的静音或非常低的信号电平时段的音频信号。这可以是本公开的示例能被用于获得来自不同类型的声源47的高质量空间音频信号79。例如,麦克风的第二集合可以适用于获得古典音乐或其他类似声源47的高质量记录。
本公开的示例还允许麦克风的第二集合27被保护免受诸如风的环境参数的影响。针对电子设备21被用于捕获户外场景的图像的实施例,这可以是有用的,因为可能无法保护麦克风的第一集合23免受这些参数的影响。
由于麦克风的第二集合27被提供在电子设备21的外部,因此这可以使不同类型的麦克风与相同的电子设备21被一起使用。例如,这可以使用户能使用第二集合27内的第一类型的麦克风来记录来自第一声源47的音频,并且使用第二不同类型的麦克风来记录来自第二声源47的音频。不同类型的麦克风可以被优化以用于捕获来自不同类型的声源47的不同类型的音频信号。
还由于麦克风的第二集合27被提供在电子设备21的外部,因此这可以使用户能选择用于麦克风的第二集合27的方向拾取模式。例如,用户可以选择方向拾取模式使得来自特定方向的声音被衰减。这可以使来自电子设备21或其他噪声源的声音能被衰减,使得麦克风的第二集合27可以提供更高的信噪比。
本文档中使用的术语“包括”具有包含性而非排他性的意义。即,任何涉及的X包括Y指示X可以仅包括一个Y或者可以包括多于一个Y。如果意在使用具有排他性含义的“包括”,则在上下文中将通过提及“仅包括一个......”或通过使用“由......组成”来表明。
在该简要描述中,已经参考了各种示例。与示例相关的特征或功能的描述指示那些特征或功能存在于该示例中。文本中术语“示例”或“例如”的使用表示,无论是否明确说明,这些特征或功能至少在所描述的示例中存在(无论是否作为示例被描述),并且它们可以但不一定存在于某些或所有其他示例中。因此“示例”、“例如”或者“可以”指代示例类中的特定实例。实例的性质可以是仅该实例的性质或者是类的性质或者类的子类的性质,子类包括类中的实例中的一些但不是所有。因此,隐含地公开了参考一个示例而不是参考另一示例描述的特征,在可能的情况下可以在该其他示例中被使用,但不一定必须在该其他示例中被使用。
尽管本公开的示例已经在前述段落中参考各种示例而被描述,但是应当理解,可以对给出的示例进行修改而不脱离所要求保护的本发明的范围。例如,在上文描述的示例中,连接可以被提供以实现信息在电子设备21与麦克风的第二集合27之间被交换。在其他示例中,可能不需要连接,因为电子设备21和麦克风的第二集合27可以被布置为利用远程设备交换信息。远程设备可以执行对由麦克风的集合23、27捕获的信号31、信号33的处理。信号一被远程设备接收到,处理就可以被实时地执行。在其他示例中,信号31、信号33可以被远程设备存储,并且处理可以在稍后被执行。
除了明确描述的组合之外,前述描述中描述的特征可以被组合地使用。
尽管已经参考某些特征描述了功能,但是这些功能可以通过其他特征而被执行,无论是否被描述。
尽管已经参考某些实施例描述了特征,但是这些特征也可以存在于其他实施例中,无论是否被描述。
尽管在前面的具体实施方式中努力引起对本发明的被认为是特别重要的那些特征的关注,但是应当理解,申请人要求保护关于上文提及和/或在附图中示出的任何可获得专利的特征或特征的组合,无论是否对其进行了特别强调。
Claims (20)
1.一种装置,包括:
至少一个处理器;以及
包括计算机程序代码的至少一个非暂时性存储器,
所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一起使所述装置至少:
至少部分地基于用形成麦克风布置的麦克风的第一集合捕获的多个信号,获得与捕获的声场相关的空间信息,其中,所述空间信息是基于针对多个时间间隔的所捕获的多个信号的频带分析;
从麦克风的第二集合获得一个或多个信号,其中,所述一个或多个信号与所捕获的声场相关联,其中,所述麦克风的第二集合在所述麦克风布置的外部被提供;
对所述一个或多个信号和所述空间信息进行编码;以及
向远程装置发送一个或多个编码信号以及编码空间信息,其中,所述空间信息被配置为用于处理所述一个或多个信号以用于再现。
2.根据权利要求1所述的装置,其中,所述麦克风的第二集合被布置以获得比用所述麦克风的第一集合获得的音频信号的质量更高的音频信号。
3.根据权利要求1所述的装置,其中,所述麦克风的第二集合具有以下中的至少一个:
包括一个或多个比所述麦克风的第一集合更高质量的麦克风,或
与降低所述一个或多个信号的质量的组件分离。
4.根据权利要求1所述的装置,其中,所获得的空间信息包括以下中的至少一个:
至少一个到达声音方向,
与所捕获的声场的定向和非定向分量有关的信息,
至少一个直接对总能量比率,或
至少一个漫射度值。
5.根据权利要求1所述的装置,其中,所述麦克风的第一集合包括比所述麦克风的第二集合更多的麦克风。
6.根据权利要求1所述的装置,其中,获得所述空间信息包括所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一起使所述装置至少:执行从另一个装置接收所述空间信息。
7.根据权利要求1所述的装置,其中,获得所述空间信息包括所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一起使所述装置至少:执行针对所述多个时间间隔的所捕获的多个信号的所述频带分析。
8.根据权利要求7所述的装置,其中,执行所捕获的多个信号的所述频带分析包括:针对所捕获的多个信号的多个频带中的频带,至少确定方向参数和比率参数。
9.根据权利要求7所述的装置,其中,执行所述频带分析包括:针对所述多个时间间隔针对所捕获的多个信号的第一频带,确定第一方向参数,以及针对所述多个时间间隔针对所捕获的多个信号的第二频带,确定第二方向参数。
10.一种方法,包括:
至少部分地基于用形成麦克风布置的麦克风的第一集合捕获的多个信号,获得与捕获的声场相关的空间信息,其中,所述空间信息是基于针对多个时间间隔的所捕获的多个信号的频带分析;
从麦克风的第二集合获得一个或多个信号,其中,所述一个或多个信号与所捕获的声场相关联,其中,所述麦克风的第二集合在所述麦克风布置的外部被提供;
对所述一个或多个信号和所述空间信息进行编码;以及
向远程装置发送一个或多个编码信号以及编码空间信息,其中,所述空间信息被配置为用于处理所述一个或多个信号以用于再现。
11.一种装置,包括:
至少一个处理器;以及
包括计算机程序代码的至少一个非暂时性存储器,
所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一起使所述装置至少:
至少部分地基于用形成麦克风布置的麦克风的第一集合捕获的多个信号,获得包括与捕获的声场相关联的空间信息的编码比特流,其中,所述空间信息是基于针对多个时间间隔的所述多个信号的频带分析,其中,所述编码比特流进一步包括来自麦克风的第二集合的一个或多个信号,其中,所述一个或多个信号与所捕获的声场相关联,其中,所述麦克风的第二集合在所述麦克风布置的外部被提供;
对所述一个或多个信号和所述空间信息进行解码;以及
基于所解码的空间信息,处理一个或多个解码信号,其中,处理所述一个或多个解码信号使所述装置能够:
将所述一个或多个解码信号划分成多个频带,以及
基于所解码的空间信息,处理所述多个频带。
12.根据权利要求11所述的装置,其中,基于所解码的空间信息处理所述一个或多个解码信号包括:在空间上处理所述一个或多个解码信号。
13.根据权利要求11所述的装置,其中,所解码的空间信息包括以下中的至少一个:
至少一个到达声音方向,
与所捕获的声场的定向和非定向分量有关的信息,
至少一个直接对总能量比率,或
至少一个漫射度值。
14.根据权利要求11所述的装置,其中,所述空间信息包括与所述一个或多个信号相关联的元数据。
15.根据权利要求11所述的装置,其中,所述编码比特流进一步包括图像信息。
16.根据权利要求11所述的装置,其中,所解码的空间信息至少包括针对所述多个频带中的频带的方向参数和比率参数,其中,基于所解码的空间信息处理所述多个频带包括:至少基于所述方向参数和所述比率参数,处理所述一个或多个解码信号的所述多个频带中的所述频带。
17.根据权利要求11所述的装置,其中,所解码的空间信息至少包括针对第一频带的第一方向参数和针对第二频带的第二方向参数,其中,处理所述一个或多个解码信号包括所述至少一个存储器和所述计算机程序代码进一步被配置为与所述至少一个处理器一起所述装置至少执行:
至少部分地基于所述第一方向参数,处理所述一个或多个解码信号的所述第一频带,以及至少部分地基于所述第二方向参数,处理所述一个或多个解码信号的所述第二频带。
18.一种方法,包括:
至少部分地基于用形成麦克风布置的麦克风的第一集合捕获的多个信号,获得包括与捕获的声场相关联的空间信息的编码比特流,其中,所述空间信息是基于针对多个时间间隔的所述多个信号的频带分析,其中,所述编码比特流进一步包括来自麦克风的第二集合的一个或多个信号,其中,所述一个或多个信号与所捕获的声场相关联,其中,所述麦克风的第二集合在所述麦克风布置的外部被提供;
对所述一个或多个信号和所述空间信息进行解码;以及
基于所解码的空间信息,处理一个或多个解码信号,其中,处理所述一个或多个解码信号包括:
将所述一个或多个解码信号划分成多个频带,以及
基于所解码的空间信息,处理所述多个频带。
19.根据权利要求18所述的方法,其中,基于所解码的空间信息处理所述一个或多个解码信号包括:在空间上处理所述一个或多个解码信号。
20.根据权利要求18所述的方法,其中,所解码的空间信息包括以下中的至少一个:
至少一个到达声音方向,
与所捕获的声场的定向和非定向分量有关的信息,
至少一个直接对总能量比率,或
至少一个漫射度值。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB1611377.1 | 2016-06-30 | ||
GB1611377.1A GB2551780A (en) | 2016-06-30 | 2016-06-30 | An apparatus, method and computer program for obtaining audio signals |
PCT/FI2017/050459 WO2018002428A1 (en) | 2016-06-30 | 2017-06-20 | An apparatus, method and computer program for obtaining audio signals |
CN201780041471.9A CN109417669B (zh) | 2016-06-30 | 2017-06-20 | 用于获得音频信号的装置、方法和计算机程序 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201780041471.9A Division CN109417669B (zh) | 2016-06-30 | 2017-06-20 | 用于获得音频信号的装置、方法和计算机程序 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114360577A true CN114360577A (zh) | 2022-04-15 |
Family
ID=56891327
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210049102.7A Pending CN114360577A (zh) | 2016-06-30 | 2017-06-20 | 用于获得音频信号的装置、方法和计算机程序 |
CN201780041471.9A Active CN109417669B (zh) | 2016-06-30 | 2017-06-20 | 用于获得音频信号的装置、方法和计算机程序 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201780041471.9A Active CN109417669B (zh) | 2016-06-30 | 2017-06-20 | 用于获得音频信号的装置、方法和计算机程序 |
Country Status (5)
Country | Link |
---|---|
US (2) | US11044555B2 (zh) |
EP (1) | EP3479595A4 (zh) |
CN (2) | CN114360577A (zh) |
GB (1) | GB2551780A (zh) |
WO (1) | WO2018002428A1 (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB201802850D0 (en) | 2018-02-22 | 2018-04-11 | Sintef Tto As | Positioning sound sources |
WO2020008112A1 (en) * | 2018-07-03 | 2020-01-09 | Nokia Technologies Oy | Energy-ratio signalling and synthesis |
WO2021006871A1 (en) * | 2019-07-08 | 2021-01-14 | Dts, Inc. | Non-coincident audio-visual capture system |
WO2023166109A1 (de) * | 2022-03-03 | 2023-09-07 | Kaetel Systems Gmbh | Vorrichtung und verfahren zum neuaufzeichnen eines existierenden tonstücks |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7667728B2 (en) * | 2004-10-15 | 2010-02-23 | Lifesize Communications, Inc. | Video and audio conferencing system with spatial audio |
JP2007019907A (ja) * | 2005-07-08 | 2007-01-25 | Yamaha Corp | 音声伝達システム、および通信会議装置 |
US20080004729A1 (en) * | 2006-06-30 | 2008-01-03 | Nokia Corporation | Direct encoding into a directional audio coding format |
US7924655B2 (en) * | 2007-01-16 | 2011-04-12 | Microsoft Corp. | Energy-based sound source localization and gain normalization |
DE102007030725B3 (de) * | 2007-07-02 | 2008-08-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Mobiler Akustik-Sensor |
US8314829B2 (en) * | 2008-08-12 | 2012-11-20 | Microsoft Corporation | Satellite microphones for improved speaker detection and zoom |
US8023660B2 (en) * | 2008-09-11 | 2011-09-20 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus, method and computer program for providing a set of spatial cues on the basis of a microphone signal and apparatus for providing a two-channel audio signal and a set of spatial cues |
KR101715779B1 (ko) * | 2010-11-09 | 2017-03-13 | 삼성전자주식회사 | 음원 신호 처리 장치 및 그 방법 |
ES2643163T3 (es) * | 2010-12-03 | 2017-11-21 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Aparato y procedimiento para codificación de audio espacial basada en geometría |
CN103069297A (zh) * | 2011-01-18 | 2013-04-24 | 松下电器产业株式会社 | 车辆方向确定装置、车辆方向确定方法及其程序 |
CN102368793B (zh) | 2011-10-12 | 2014-03-19 | 惠州Tcl移动通信有限公司 | 手机及其通话信号处理方法 |
EP2600343A1 (en) * | 2011-12-02 | 2013-06-05 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for merging geometry - based spatial audio coding streams |
US9549253B2 (en) * | 2012-09-26 | 2017-01-17 | Foundation for Research and Technology—Hellas (FORTH) Institute of Computer Science (ICS) | Sound source localization and isolation apparatuses, methods and systems |
US9576213B2 (en) * | 2013-02-08 | 2017-02-21 | Chuck Fung | Method, system and processor for instantly recognizing and positioning an object |
EP2959479B1 (en) * | 2013-02-21 | 2019-07-03 | Dolby International AB | Methods for parametric multi-channel encoding |
JP5958833B2 (ja) * | 2013-06-24 | 2016-08-02 | パナソニックIpマネジメント株式会社 | 指向性制御システム |
US9888317B2 (en) * | 2013-10-22 | 2018-02-06 | Nokia Technologies Oy | Audio capture with multiple microphones |
US9747887B2 (en) * | 2016-01-12 | 2017-08-29 | Bose Corporation | Systems and methods of active noise reduction in headphones |
-
2016
- 2016-06-30 GB GB1611377.1A patent/GB2551780A/en not_active Withdrawn
-
2017
- 2017-06-20 WO PCT/FI2017/050459 patent/WO2018002428A1/en unknown
- 2017-06-20 CN CN202210049102.7A patent/CN114360577A/zh active Pending
- 2017-06-20 US US16/310,010 patent/US11044555B2/en active Active
- 2017-06-20 EP EP17819413.0A patent/EP3479595A4/en active Pending
- 2017-06-20 CN CN201780041471.9A patent/CN109417669B/zh active Active
-
2021
- 2021-05-13 US US17/319,656 patent/US11575988B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US11575988B2 (en) | 2023-02-07 |
EP3479595A1 (en) | 2019-05-08 |
US11044555B2 (en) | 2021-06-22 |
US20190182587A1 (en) | 2019-06-13 |
CN109417669B (zh) | 2022-03-04 |
GB201611377D0 (en) | 2016-08-17 |
WO2018002428A1 (en) | 2018-01-04 |
EP3479595A4 (en) | 2020-02-26 |
CN109417669A (zh) | 2019-03-01 |
US20210266665A1 (en) | 2021-08-26 |
GB2551780A (en) | 2018-01-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2663343C2 (ru) | Система, устройство и способ для совместимого воспроизведения акустической сцены на основе адаптивных функций | |
US11575988B2 (en) | Apparatus, method and computer program for obtaining audio signals | |
US11671781B2 (en) | Spatial audio signal format generation from a microphone array using adaptive capture | |
CN112567763B (zh) | 用于音频信号处理的装置和方法 | |
EP3624463B1 (en) | Audio signal processing method and device, terminal and storage medium | |
CN112219411B (zh) | 空间声音渲染 | |
TW201621888A (zh) | 用於增強音源之方法及裝置 | |
US20240163628A1 (en) | Apparatus, method or computer program for processing a sound field representation in a spatial transform domain | |
US20230254659A1 (en) | Recording and rendering audio signals | |
EP3643079A1 (en) | Determination of targeted spatial audio parameters and associated spatial audio playback | |
CN107017000B (zh) | 用于编码和解码音频信号的装置、方法和计算机程序 | |
CN115335900A (zh) | 使用自适应网络来对全景声系数进行变换 | |
CN112740326A (zh) | 用于控制带限音频对象的装置、方法和计算机程序 | |
CN117529775A (zh) | 用于获取空间元数据的装备、方法和计算机程序 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |