CN105070304A

CN105070304A - 实现对象音频录音的方法及装置、电子设备

Info

Publication number: CN105070304A
Application number: CN201510490373.6A
Authority: CN
Inventors: 史润宇; 颜嘉甫; 杜慧
Original assignee: Xiaomi Inc
Current assignee: Xiaomi Inc
Priority date: 2015-08-11
Filing date: 2015-08-11
Publication date: 2015-11-18
Anticipated expiration: 2035-08-11
Also published as: KR20170029402A; CN105070304B; JP2017531213A; JP6430017B2; MX2016005224A; US9966084B2; KR101770295B1; RU2630187C1; MX364461B; EP3139640A2; US20170047076A1; EP3139640A3; WO2017024721A1

Abstract

本公开是关于实现对象音频录音的方法及装置、电子设备，该方法可以包括：通过多个麦克风同时执行声音采集操作，得到混合声音信号；根据所述混合声音信号，以及每个麦克风的设置位置信息，从所述混合声音信号中识别出声源数量、每个声源的位置信息，并分离出对应于每个声源的对象声音信号；组合各个声源的位置信息和对象声音信号，得到对象音频格式的音频数据。通过本公开的技术方案，可以实现对象音频的直接录音。

Description

实现对象音频录音的方法及装置、电子设备

技术领域

本公开涉及录音技术领域，尤其涉及实现对象音频录音的方法及装置、电子设备。

背景技术

2015年2月，MPEG(MovingPictureExpertsGroup，动态图像专家组)的下一代音频编解码标准MPEG-H3DAudio正式成为ISO/IEC23008-3国际标准，在这个标准框架中使用了一种全新的音频格式——对象音频(ObjectAudio)，可以标记声音的方位，使听者无论是用耳机还是音响、无论音响的喇叭数是多少，都可以听到特定方位传来的声音。

发明内容

本公开提供实现对象音频录音的方法及装置、电子设备，以解决相关技术中的不足。

根据本公开实施例的第一方面，提供一种实现对象音频录音的方法，包括：

通过多个麦克风同时执行声音采集操作，得到混合声音信号；

根据所述混合声音信号，以及每个麦克风的设置位置信息，从所述混合声音信号中识别出声源数量、每个声源的位置信息，并分离出对应于每个声源的对象声音信号；

组合各个声源的位置信息和对象声音信号，得到对象音频格式的音频数据。

可选的，所述根据所述混合声音信号，以及每个麦克风的设置位置信息，从所述混合声音信号中识别出声源数量、每个声源的位置信息，并分离出对应于每个声源的对象声音信号，包括：

根据每个声源发出的声音信号在各个麦克风之间形成的幅度差与相位差，从所述混合声音信号中识别出声源数量和每个声源的位置信息，并分离出对应于每个声源的对象声音信号。

根据所述混合声音信号，以及每个麦克风的设置位置信息，从所述混合声音信号中识别出声源数量和每个声源的位置信息；

根据所述混合声音信号，每个麦克风的设置位置信息，以及所述声源数量和所述声源的位置信息，从所述混合声音信号中分离出对应于每个声源的对象声音信号。

可选的，所述根据所述混合声音信号，每个麦克风的设置位置信息，以及所述声源数量和所述声源的位置信息，从所述混合声音信号中分离出对应于每个声源的对象声音信号，包括：

根据每个声源发出的声音信号在预设维度形成的特征量，建立对应的统计模型；

通过所述统计模型识别并分离出所述混合声音信号中符合任一声源的位置信息的声音信号，作为对应于所述任一声源的对象声音信号。

可选的，所述组合各个声源的位置信息和对象声音信号，得到对象音频格式的音频数据，包括：

按照各个声源之间的排列顺序，对相应的对象声音信号进行组合，得到多对象音频数据；

按照所述排列顺序对各个声源的位置信息进行组合，得到对象音频辅助数据；

将包含预设参数的头文件信息、所述多对象音频数据和所述对象音频辅助数据进行依次拼接，得到所述对象音频格式的音频数据。

可选的，所述组合每个声源的位置信息和对象声音信号，得到对象音频格式的音频数据，包括：

生成包含预设参数的头文件信息，并发送至预设音频处理设备；其中，所述头文件信息中包含每帧音频数据的时间长度；

通过下述步骤生成符合所述每帧音频数据的时间长度的每帧对象音频格式的音频数据，并依次将每帧对象音频格式的音频数据发送至所述预设音频处理设备：

将所述多对象音频数据和所述对象音频辅助数据进行依次拼接，得到每帧对象音频格式的音频数据。

可选的，所述按照各个声源之间的排列顺序，对相应的对象声音信号进行组合，得到多对象音频数据，包括：

按照预设采样频率，在每个采样时间点分别对各个声源对应的对象声音信号进行采样，并按照所述排列顺序对所有采样信号进行排列，得到组合采样信号；

按照采样顺序，将每个采样时间点得到的组合采样信号进行依次排列，得到所述多对象音频数据。

可选的，所述按照所述排列顺序对各个声源的位置信息进行组合，得到对象音频辅助数据，包括：

按照预设采样频率，在每个采样时间点分别对各个声源对应的位置信息进行采样，并将得到的每个采样位置信息与对应的声源信息、采样时间点信息进行关联记录，得到组合采样位置信息；

按照采样顺序，将每个采样时间点得到的组合采样位置信息进行依次排列，得到所述对象音频辅助数据。

按照预设采样频率，分别对各个声源对应的位置信息进行采样；

其中，若当前采样点为首个采样时间点，则将得到的每个采样位置信息与对应的声源信息、采样时间点信息进行关联记录；若当前采样点为非首个采样时间点，则将得到的每个声源的采样位置信息与已记录的同一声源的上一采样位置信息进行比较，并将比较结果为不同的采样位置信息与对应的声源信息、采样时间点信息进行关联记录。

根据本公开实施例的第二方面，提供一种实现对象音频录音的装置，包括：

采集单元，通过多个麦克风同时执行声音采集操作，得到混合声音信号；

处理单元，根据所述混合声音信号，以及每个麦克风的设置位置信息，从所述混合声音信号中识别出声源数量、每个声源的位置信息，并分离出对应于每个声源的对象声音信号；

组合单元，组合各个声源的位置信息和对象声音信号，得到对象音频格式的音频数据。

可选的，所述处理单元包括：

处理子单元，根据每个声源发出的声音信号在各个麦克风之间形成的幅度差与相位差，从所述混合声音信号中识别出声源数量和每个声源的位置信息，并分离出对应于每个声源的对象声音信号。

可选的，所述处理单元包括：

识别子单元，根据所述混合声音信号，以及每个麦克风的设置位置信息，从所述混合声音信号中识别出声源数量和每个声源的位置信息；

分离子单元，根据所述混合声音信号，每个麦克风的设置位置信息，以及所述声源数量和所述声源的位置信息，从所述混合声音信号中分离出对应于每个声源的对象声音信号。

可选的，所述分离子单元包括：

模型建立模块，根据每个声源发出的声音信号在预设维度形成的特征量，建立对应的统计模型；

分离模块，通过所述统计模型识别并分离出所述混合声音信号中符合任一声源的位置信息的声音信号，作为对应于所述任一声源的对象声音信号。

可选的，所述组合单元包括：

信号组合子单元，按照各个声源之间的排列顺序，对相应的对象声音信号进行组合，得到多对象音频数据；

位置组合子单元，按照所述排列顺序对各个声源的位置信息进行组合，得到对象音频辅助数据；

第一拼接子单元，将包含预设参数的头文件信息、所述多对象音频数据和所述对象音频辅助数据进行依次拼接，得到所述对象音频格式的音频数据。

可选的，所述组合单元包括：

头文件发送子单元，生成包含预设参数的头文件信息，并发送至预设音频处理设备；其中，所述头文件信息中包含每帧音频数据的时间长度，以使信号组合子单元、位置组合子单元和拼接子单元生成符合所述每帧音频数据的时间长度的每帧对象音频格式的音频数据；

第二拼接子单元，将所述多对象音频数据和所述对象音频辅助数据进行依次拼接，得到每帧对象音频格式的音频数据；

音频数据发送子单元，依次将每帧对象音频格式的音频数据发送至所述预设音频处理设备。

可选的，所述信号组合子单元包括：

信号采样模块，按照预设采样频率，在每个采样时间点分别对各个声源对应的对象声音信号进行采样，并按照所述排列顺序对所有采样信号进行排列，得到组合采样信号；

信号排列模块，按照采样顺序，将每个采样时间点得到的组合采样信号进行依次排列，得到所述多对象音频数据。

可选的，所述位置组合子单元包括：

第一位置记录模块，按照预设采样频率，在每个采样时间点分别对各个声源对应的位置信息进行采样，并将得到的每个采样位置信息与对应的声源信息、采样时间点信息进行关联记录，得到组合采样位置信息；

位置排列模块，按照采样顺序，将每个采样时间点得到的组合采样位置信息进行依次排列，得到所述对象音频辅助数据。

可选的，所述位置组合子单元包括：

位置采样模块，按照预设采样频率，分别对各个声源对应的位置信息进行采样；

第二位置记录模块，若当前采样点为首个采样时间点，则将得到的每个采样位置信息与对应的声源信息、采样时间点信息进行关联记录；若当前采样点为非首个采样时间点，则将得到的每个声源的采样位置信息与已记录的同一声源的上一采样位置信息进行比较，并将比较结果为不同的采样位置信息与对应的声源信息、采样时间点信息进行关联记录。

根据本公开实施例的第三方面，提供一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

本公开的实施例提供的技术方案可以包括以下有益效果：

由上述实施例可知，本公开通过设置多个麦克风同时执行声音采集，使得到的混合声音信号中包含了各个麦克风采集到的声音信号，并通过结合各个麦克风之间的设置位置信息，对每个声源进行识别及分离对应的对象声音信号，从而无需对每个声源的声音信号进行单独采集，降低了对硬件设备的依赖和需求，能够直接得到对象音频格式的音频数据。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是相关技术中的一种获得对象音频的示意图。

图2是相关技术中的另一种获得对象音频的示意图。

图3是根据本公开一示例性实施例示出的一种实现对象音频录音的方法的流程图。

图4是根据本公开一示例性实施例示出的另一种实现对象音频录音的方法的流程图。

图5是根据本公开一示例性实施例示出的一种采集声源信号的示意图。

图6是根据本公开一示例性实施例示出的又一种实现对象音频录音的方法的流程图。

图7是根据本公开一示例性实施例示出的一种对象音频的帧结构示意图。

图8是根据本公开一示例性实施例示出的另一种对象音频的帧结构示意图。

图9是根据本公开一示例性实施例示出的又一种对象音频的帧结构示意图。

图10-18是根据本公开一示例性实施例示出的一种实现对象音频录音的装置的框图。

图19是根据本公开一示例性实施例示出的一种用于实现对象音频录音的装置的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在相关技术中，并不能够直接录制得到对象音频(ObjectAudio)；为了便于理解，下面对相关技术中的典型处理方式进行介绍。

图1是相关技术中的一种获得对象音频的示意图，如图1所示，该处理过程中，需要预先准备好多个单声道音频，比如图1中的声道一音频、声道二音频、声道三音频等；同时，还需要预先准备好每个单声道音频对应的位置信息，比如位置一对应于声道一音频、位置二对应于声道二音频、位置三对应于声道三音频等。最后，由对象音频制作设备将各个声道音频与对应的位置进行组合，得到对象音频。

然而，图1所示的处理方式存在下述缺陷：

1)需要预先准备音频数据和位置信息，不能够直接录制得到对象音频。

2)同时，由于各声道音频的位置是单独准备得到，因而往往不能够准确地反映出各个声道音频的真实位置。

图2是相关技术中的另一种获得对象音频的示意图，如图2所示，为每个声源准备对应的MIC(麦克风)，比如声源一对应于MIC1、声源二对应于MIC2、声源三对应于MIC3等，每个MIC仅对相应的声源进行采集，分别得到对应的对象声音信号一、对象声音信号二、对象声音信号三等。同时，需要预先准备好每个声源的位置信息。最终，由对象音频制作设备将各个声源对应的对象声音信号和位置信息进行组合，得到对象音频。

然而，图2所示的处理方式存在下述缺陷：

1)需要为每个声源单独配备MIC，导致硬件成本很高。

2)由于MIC必须贴近声源，并且需要随声源进行移动，这将导致极大的实现难度，将极大地增加录音器材的成本。

3)多个MIC分别采集到的对象声音信号之间需要保持同步，这在声源数量较多，并且MIC因贴近声源而远离对象音频制作设备的情况下，或者在使用无线MIC的情况下，将存在很大的实现难度。

4)由于声源的位置信息是单独得到并后期添加至对象音频中，因而在声源数量较多、移动不规律等因素的影响下，最终得到的对象音频将难以忠于实际的声源位置。

因此，本公开通过提出实现对象音频录音的技术方案，可以解决相关技术中存在的上述技术问题。

图3是根据一示例性实施例示出的一种实现对象音频录音的方法的流程图，如图3所示，该方法用于录音设备中，可以包括以下步骤。

在步骤302中，通过多个麦克风同时执行声音采集操作，得到混合声音信号。

在步骤304中，根据所述混合声音信号，以及每个麦克风的设置位置信息，从所述混合声音信号中识别出声源数量、每个声源的位置信息，并分离出对应于每个声源的对象声音信号。

作为一示例性实施例，可以根据如每个声源发出的声音信号在各个麦克风之间形成的幅度差与相位差等特征信息，直接从混合声音信号中识别出声源数量、每个声源的位置信息，并分离出对应于每个声源的对象声音信号。

作为另一示例性实施例，可以首先根据如上述的幅度差与相位差等特征信息，基于混合声音信号，以及每个麦克风的设置位置信息，从混合声音信号中识别出声源数量、每个声源的位置信息；然后，根据如上述的幅度差与相位差等特征信息，基于混合声音信号，以及每个麦克风的设置位置信息，从混合声音信号中分离出对应于每个声源的对象声音信号。

在步骤306中，组合各个声源的位置信息和对象声音信号，得到对象音频格式的音频数据。

在本实施例中，对象音频(ObjectAudio)可以泛指各种用于描述声音对象(AudioObject)的声音格式。其中，含有位置信息的点声源，或可以大致判断出中心位置的面声源都可以作为声音对象(AudioObject)。

在本实施例中，对象音频包括声源的位置和对象声音信号两个部分，其中对象声音信号本身可以看作单声道音频信号，其形式可以是PCM(Pulse-codemodulation)、DSD(DirectStreamDigital)等未压缩格式，也可以是MP3(MPEG-1orMPEG-2AudioLayerIII)、AAC(AdvancedAudioCoding)、DolbyDigital等压缩格式，本公开并不对此进行限制。

图4是根据本公开一示例性实施例示出的另一种实现对象音频录音的方法的流程图，如图4所示，该方法可以包括以下步骤。

在步骤402中，通过多个MIC同时进行声音采集，得到混合声音信号。

在本实施例中，若麦克风的数量为两个，则可以对处于同一平面内的多个声源进行对象音频录音操作；若麦克风的数量为三个或三个以上，则可以对处于任意立体空间内的多个声源进行对象音频录音操作。其中，对于同样的声源设置，麦克风的数量越多，则越有利于对声源数量和位置信息的识别，以及分离出各个声源的对象声音信号。

在步骤404中，获取每个MIC的位置情况。

在本实施例中，如图5所示，每个MIC在执行对象音频录音的过程中，位置情况保持不变；即便声源的位置信息发生变化，MIC也无需改变自身的位置情况，因为声源的位置变化可以体现在采集到的混合声音信号中，可以通过后续步骤识别出来。同时，MIC与声源之间并非一一对应，无论多少声源都可以通过至少两个MIC进行声音信号采集，并得到相应的混合声音信号。

因此，与图1和图2所示的实施例相比，本实施例既能够真实、准确地识别出各个声源的实际位置，又无需很多MIC，并且无需使MIC随声源同步运动，有助于降低硬件成本和系统复杂度，并且提升对象音频的质量。

在本实施例中，MIC的位置情况包括：MIC的设置位置信息。可以采用坐标的方式来记录每个MIC的位置情况。举例而言，以任意位置(比如听者(Audience)的位置)为原点建立空间坐标系；该空间坐标系可以为直角坐标系(O-xyz)、球坐标系(O-θγr)，这两个坐标系之间的转换关系如下：

[\begin{matrix} x \\ y \\ z \end{matrix}] = [\begin{matrix} c o s (θ) * c o s (γ) * r \\ s i n (θ) * c o s (γ) * r \\ s i n (γ) * r \end{matrix}]

其中，x、y、z分别表示MIC或声源(object)在直角坐标系的x轴(前后方向)、y轴(左右方向)、z轴(上下方向)上的位置坐标。θ、γ、r分别表示MIC或声源在球坐标系上的水平方向角度(MIC或声源和原点的连线在水平面上的投影与x轴的夹角)、垂直方向角度(MIC或声源和原点的连线与水平面的夹角)、MIC或声源离原点的直线距离。

当然，可以分别单独记录每个MIC的位置情况；或者，也可以记录各个MIC之间的相对位置情况，并据此推断出每个MIC的单独位置情况。

在步骤406中，根据各个MIC的位置情况，从混合声音信号中识别出声源，并获取声源数量以及每个声源的位置信息。

作为一示例性实施例，可以根据每个声源发出的声音信号在各个麦克风之间形成的幅度差与相位差，识别出声源数量和每个声源的位置信息。在该实施例中，可以通过每个声源发出的声音信号到达各个麦克风的时间差，体现出相应的相位差。

实际上，相关技术中的所有基于幅度差与相位差的声源识别(判断是否存在声源)以及识别声源数量、位置信息的技术方案，均可以应用于该步骤406的处理过程；举例而言，比如MUSIC(MUtipleSIgnalClassfication，多重信号分类)法、波束成形(Beamforming)法、CSP(crosspower-spectrumphase，互功率谱相位)法等，不胜枚举。

当然，相关技术中还有其他基于幅度差与相位差来识别声源数量、位置信息的算法，并且相关技术中还有基于其他原理来识别声源数量、位置信息的算法，均可以应用于本公开的实施例中，本公开并不对此进行限制。

在步骤408中，根据各个MIC的位置情况，以及声源数量和每个声源的位置信息，从混合声音信号中分离出每个声源对应的对象声音信号。

作为一示例性实施例，可以根据每个声源发出的声音信号在各个麦克风之间形成的幅度差与相位差，分离出对应于每个声源的对象声音信号。举例而言，可以通过相关技术中的波束成形(Beamforming)法、GHDSS(GeometricHigh-orderDecorrelation-basedSourceSeparation)法等实现。

作为另一示例性实施例，可以根据每个声源发出的声音信号在预设维度形成的特征量，建立对应的统计模型；通过所述统计模型识别并分离出所述混合声音信号中符合任一声源的位置信息的声音信号，作为对应于所述任一声源的对象声音信号。其中，统计模型可以采用所有能够得到的维度的特征量，比如频谱差异、音量差、相位差、基频频率差异和基频能量差异、共振峰值差异等，均可以应用于此。该实施例的原理在于：通过统计模型来识别某个声音信号是否属于某个特定的声场空间(即推测出来的声源位置)。举例而言，可以通过GMM(GaussianMixtureModel，高斯混合模型)等算法实现。

当然，相关技术中还有其他基于幅度差与相位差或统计模型来分离对象声音信号的算法，并且相关技术中还有基于其他原理来分离对象声音信号的算法，均可以应用于本公开的实施例中，本公开并不对此进行限制。

此外，图4中采用了步骤406和步骤408进行分别描述；实际上，在一些情况下，确实需要分别实现步骤406和步骤408的处理过程；而在另一些情况下，比如基于上述的如波束成形等原理，可以同时实现对声源数量和位置信息的获知，以及对各个声源的对象声音信号进行分离，而无需两个步骤进行分别处理。

在步骤410中，将各个声源的对象声音信号和位置信息进行组合，得到对象音频。

针对步骤410中的组合操作，下面结合图6进行详细描述。其中，图6是根据本公开一示例性实施例示出的又一种实现对象音频录音的方法的流程图，如图6所示，该方法可以包括以下步骤。

在步骤602中，获取声源数量、每个声源的位置信息，以及每个声源的对象声音信号。

在步骤604中，确定用户选取的保存模式，若为文件保存模式(FilePackingMode)，则转入步骤606，若为低延迟模式(LowDelayMode)，则转入步骤616。

1、FilePackingMode

在步骤606中，生成头文件。

在本实施例中，该头文件中包含有描述该对象音频的预设参数，比如ID信息、版本号等；作为一示例性实施例，该头文件的格式和内容如表1所示。

参数名	位数	助记符	内容
				ID	32	bslbf	OAFF(对象音频ID)
Version	16	uimsbf	1.0(对象音频版本号)
				nObjects	16	uimsbf	n(声源数量)
nSamplesPerSec	32	uimsbf	a(采样率)
				wBitsPerSample	16	uimsbf	w(每次采样的字节长度)

表1

在步骤608中，按照各个声源之间的排列顺序，对相应的对象声音信号进行组合，得到多对象音频数据。

在本实施例中，组合对象声音信号的过程可以包括：

1)按照预设采样频率，在每个采样时间点分别对各个声源对应的对象声音信号进行采样，并按照所述排列顺序对所有采样信号进行排列，得到组合采样信号。

2)按照采样顺序，将每个采样时间点得到的组合采样信号进行依次排列，得到所述多对象音频数据。

举例而言，如图7所示，在一示例性实施例的对象音频的数据结构中，t0、t1等为对应于预设采样频率的各个采样时间点。以采样时间点t0为例，假定存在A、B、C和D共4个声源，且各个声源之间的排列顺序依次为A→B→C→D，则按照该顺序依次对4个声源进行采样得到采样信号A0、采样信号B0、采样信号C0、采样信号D0，并生成对应的组合采样信号0；类似的，通过在每个采样时间点均采用相同的方式进行采样，即可得到每个采样时间点t0、t1等分别对应的组合采样信号0、组合采样信号1等。最后，按照各个组合采样信号对应的采样顺序进行排列，即可得到多对象音频数据。

在步骤610中，按照各个声源之间的排列顺序，对各个声源的位置进行组合，得到对象音频辅助数据。

作为一示例性实施方式，组合对象声音信号的过程可以包括：

1)按照预设采样频率，在每个采样时间点分别对各个声源对应的位置信息进行采样，并将得到的每个采样位置信息与对应的声源信息、采样时间点信息进行关联记录，得到组合采样位置信息。

2)按照采样顺序，将每个采样时间点得到的组合采样位置信息进行依次排列，得到所述对象音频辅助数据。

在实施方式中，对象音频辅助数据的生成过程，与上述多对象音频数据的生成过程相似。仍以图7为例，对于采样时间点t0，假定存在A、B、C和D共4个声源，且各个声源之间的排列顺序依次为A→B→C→D，则按照该顺序依次对4个声源的位置信息进行采样，得到采样位置信息a0、采样位置信息b0、采样位置信息c0、采样位置信息d0，并生成对应的组合采样位置信息0；类似的，通过在每个采样时间点均采用相同的方式进行采样，即可得到每个采样时间点t0、t1等分别对应的组合采样位置信息0、组合采样位置信息1等。最后，按照各个组合采样位置信息对应的采样顺序进行排列，即可得到对象音频辅助数据。

在该实施例中，所有声源在所有采样时间点的位置信息均被记录于对象音频辅助数据中；然而，由于声源并非一直移动，因此可以通过对声源位置信息的差异化记录，降低对象音频辅助数据的数据量，该差异化记录的方式由下述实施方式进行阐述。

作为另一示例性实施方式，组合对象声音信号的过程可以包括：按照预设采样频率，分别对各个声源对应的位置信息进行采样；其中，

若当前采样点为首个采样时间点，则将得到的每个采样位置信息与对应的声源信息、采样时间点信息进行关联记录；

若当前采样点为非首个采样时间点，则将得到的每个声源的采样位置信息与已记录的同一声源的上一采样位置信息进行比较，并将比较结果为不同的采样位置信息与对应的声源信息、采样时间点信息进行关联记录。

举例而言，如图8所示，假定存在A、B、C和D共4个声源，且各个声源之间的排列顺序依次为A→B→C→D，则对于采样时间点t0，由于采样时间点t0为首个采样时间点，因而按照图7所示的实施方式，依次对4个声源的位置信息进行采样，得到由采样位置信息a0、采样位置信息b0、采样位置信息c0和采样位置信息d0构成的组合采样位置信息0。

而对于除t0之外的其他采样时间点，比如采样时间点t1，虽然可以依次对4个声源的位置信息进行采样，得到对应的采样位置信息a1、采样位置信息b1、采样位置信息c1和采样位置信息d1，但如果声源A对应的采样位置信息a1与上一采样位置信息a0相同，就不需要对该采样位置信息a1进行记录。因此，假定采样位置信息a1与采样位置信息a0相同、采样位置信息d1与采样位置信息d0相同，而采样位置信息b1与采样位置信息b0不同、采样位置信息c1与采样位置信息c0不同，则最终对应于采样时间点t1的组合采样位置信息1中仅包括采样位置信息b1和采样位置信息c1。

在步骤612中，将头文件、多对象音频数据和对象音频辅助数据进行依次拼接，得到对象音频格式的音频数据。

在本实施例中，如图7-8所示，对象音频格式的音频数据中，包括依次拼接的头文件、多对象音频数据和对象音频辅助数据；在播放该音频数据时，通过头文件可以读取对该音频数据的描述信息和参数，然后从多对象音频数据中依次提取对应于每个采样时间点的组合采样信号，并从对象音频辅助数据中依次提取对应于每个采样时间点的组合采样位置信息，从而实现相应的播放操作。

在步骤614中，保存得到的对象音频。

2、LowDelayMode

在步骤616中，生成包含预设参数的头文件信息，并发送至预设音频处理设备；其中，所述头文件信息中包含每帧音频数据的时间长度。

在本实施例中，该头文件中包含有描述该对象音频的预设参数，比如ID信息、版本号等，与FilePackingMode相似；同时，不同于FilePackingMode的是，该头文件中还包含每帧音频数据的时间长度。在该实施例中，通过预定义并记录每帧音频数据的时间长度，可以在生成对象音频的过程中，按照该每帧音频数据的时间长度为单位，将整个对象音频分为若干部分，从而通过将每个部分的对象音频片段发送至音频处理设备，由该音频处理设备进行实时播放或存储，从而体现了低延迟(LowDelay)、实时性高的特点。

作为一示例性实施例，该头文件的格式和内容如表2所示。

参数名	位数	助记符	内容
				ID	32	bslbf	OAFF(对象音频ID)
Version	16	uimsbf	1.0(对象音频版本号)

nObjects	16	uimsbf	n(声源数量)
				nSamplesPerSec	32	uimsbf	a(采样率)
wBitsPerSample	16	uimsbf	w(每次采样的字节长度)
				nSamplesPerFrame	16	uimsbf	B(每帧长度)

表2

在步骤618中，采用参数i对已处理的帧进行计数，并设该参数i的初始值为i＝0。若当前转入该步骤618时，所有音频数据均已处理完毕，则结束；若尚有未处理的音频数据，则将参数i的数值增加1，并转入步骤620。

在下述的步骤620-622中，仅对参数i的数值所对应的帧内的数据进行处理，且处理方式与前述的步骤608-610相同，此处不再赘述。

在步骤624中，将步骤620和步骤622分别得到的一帧内的多对象音频数据和对象音频辅助数据进行拼接，得到一帧对象音频。然后，转入步骤618进行下一帧的处理，并且转入步骤626进行音频处理。

在步骤626中，将生成的每一帧对象音频，分别发送至音频处理设备进行实时播放或存储。

通过上述实施例，如图9所示，得到的对象音频的结构中，除了头部的头文件之外，其余部分被分割为若干帧，比如第一帧为p0帧、第二帧为p1帧等，并且每一帧均包含对应拼接的多对象音频数据和对象音频辅助数据。相应的，在播放该音频数据时，音频处理设备通过头文件可以读取对该音频数据的描述信息和参数(包括每帧音频数据的时间长度)，然后依次从接收到的每帧对象音频中提取出多对象音频数据和对象音频辅助数据，再分别从多对象音频数据中依次提取对应于每个采样时间点的组合采样信号、从对象音频辅助数据中依次提取对应于每个采样时间点的组合采样位置信息，从而实现相应的播放操作。

与前述的实现对象音频录音的方法的实施例相对应，本公开还提供了实现对象音频录音的装置的实施例。

图10是根据一示例性实施例示出的一种实现对象音频录音的装置框图。参照图10，该装置包括采集单元1001、识别单元1002、分离单元1003和组合单元1004。

其中，采集单元1001，被配置为通过多个麦克风同时执行声音采集操作，得到混合声音信号；

处理单元1002，被配置为根据所述混合声音信号，以及每个麦克风的设置位置信息，从所述混合声音信号中识别出声源数量、每个声源的位置信息，并分离出对应于每个声源的对象声音信号；

组合单元1004，被配置为组合各个声源的位置位置和对象声音信号，得到对象音频格式的音频数据。

如图11所示，图11是根据一示例性实施例示出的另一种实现对象音频录音的装置的框图，该实施例在前述图10所示实施例的基础上，处理单元1002包括：处理子单元1002A。

其中，处理子单元1002A，被配置为根据每个声源发出的声音信号在各个麦克风之间形成的幅度差与相位差，从所述混合声音信号中识别出声源数量、每个声源的位置信息，并分离出对应于每个声源的对象声音信号。

如图12所示，图12是根据一示例性实施例示出的另一种实现对象音频录音的装置的框图，该实施例在前述图10所示实施例的基础上，处理单元1002包括：识别子单元1002B和分离子单元1002C。

其中，识别子单元1002B，被配置为根据所述混合声音信号，以及每个麦克风的设置位置信息，从所述混合声音信号中识别出声源数量和每个声源的位置信息；

分离子单元1002C，被配置为根据所述混合声音信号，每个麦克风的设置位置信息，以及所述声源数量和所述声源的位置信息，从所述混合声音信号中分离出对应于每个声源的对象声音信号。

需要说明的是，上述图12所示的装置实施例中的识别子单元1002B和分离子单元1002C的结构也可以包含在前述图11的装置实施例中，对此本公开不进行限制。

如图13所示，图13是根据一示例性实施例示出的另一种实现对象音频录音的装置的框图，该实施例在前述图12所示实施例的基础上，分离子单元1002C包括：模型建立模块1002C1和分离模块1002C2。

其中，模型建立模块1002C1，被配置为根据每个声源发出的声音信号在预设维度形成的特征量，建立对应的统计模型；

分离模块1002C2，被配置为通过所述统计模型识别并分离出所述混合声音信号中符合任一声源的位置信息的声音信号，作为对应于所述任一声源的对象声音信号。

如图14所示，图14是根据一示例性实施例示出的另一种实现对象音频录音的装置的框图，该实施例在前述图10所示实施例的基础上，组合单元1003包括：信号组合子单元1003A、位置组合子单元1003B和第一拼接子单元1003C。

其中，信号组合子单元1003A，被配置为按照各个声源之间的排列顺序，对相应的对象声音信号进行组合，得到多对象音频数据；

位置组合子单元1003B，被配置为按照所述排列顺序对各个声源的位置信息进行组合，得到对象音频辅助数据；

第一拼接子单元1003C，被配置为将包含预设参数的头文件信息、所述多对象音频数据和所述对象音频辅助数据进行依次拼接，得到所述对象音频格式的音频数据。

需要说明的是，上述图14所示的装置实施例中的信号组合子单元1003A、位置组合子单元1003B和第一拼接子单元1003C的结构也可以包含在前述图11-13的装置实施例中，对此本公开不进行限制。

如图15所示，图15是根据一示例性实施例示出的另一种实现对象音频录音的装置的框图，该实施例在前述图10所示实施例的基础上，组合单元1003包括：头文件发送子单元1003D、信号组合子单元1003A、位置组合子单元1003B、第二拼接子单元1003E和音频数据发送子单元1003F。

头文件发送子单元1003D，被配置为生成包含预设参数的头文件信息，并发送至预设音频处理设备；其中，所述头文件信息中包含每帧音频数据的时间长度，以使信号组合子单元、位置组合子单元和拼接子单元生成符合所述每帧音频数据的时间长度的每帧对象音频格式的音频数据；

信号组合子单元1003A，被配置为按照各个声源之间的排列顺序，对相应的对象声音信号进行组合，得到多对象音频数据；

第二拼接子单元1003E，被配置为将所述多对象音频数据和所述对象音频辅助数据进行依次拼接，得到每帧对象音频格式的音频数据；

音频数据发送子单元1003F，被配置为依次将每帧对象音频格式的音频数据发送至所述预设音频处理设备。

需要说明的是，上述图14所示的装置实施例中的头文件发送子单元1003D、信号组合子单元1003A、位置组合子单元1003B、第二拼接子单元1003E和音频数据发送子单元1003F的结构也可以包含在前述图11-13的装置实施例中，对此本公开不进行限制。

如图16所示，图16是根据一示例性实施例示出的另一种实现对象音频录音的装置的框图，该实施例在前述图14或15所示实施例的基础上，信号组合子单元1003A包括：信号采样模块1003A1和信号排列模块1003A2。

其中，信号采样模块1003A1，被配置为按照预设采样频率，在每个采样时间点分别对各个声源对应的对象声音信号进行采样，并按照所述排列顺序对所有采样信号进行排列，得到组合采样信号；

信号排列模块1003A2，被配置为按照采样顺序，将每个采样时间点得到的组合采样信号进行依次排列，得到所述多对象音频数据。

如图17所示，图17是根据一示例性实施例示出的另一种实现对象音频录音的装置的框图，该实施例在前述图14或15所示实施例的基础上，位置组合子单元1003B包括：第一位置记录模块1003B1和位置排列模块1003B2。

其中，第一位置记录模块1003B1，被配置为按照预设采样频率，在每个采样时间点分别对各个声源对应的位置信息进行采样，并将得到的每个采样位置信息与对应的声源信息、采样时间点信息进行关联记录，得到组合采样位置信息；

位置排列模块1003B2，被配置为按照采样顺序，将每个采样时间点得到的组合采样位置信息进行依次排列，得到所述对象音频辅助数据。

如图18所示，图18是根据一示例性实施例示出的另一种实现对象音频录音的装置的框图，该实施例在前述图14或15所示实施例的基础上，位置组合子单元1003B包括：位置采样模块1003B3和第二位置记录模块1003B4。

其中，位置采样模块1003B3，被配置为按照预设采样频率，分别对各个声源对应的位置信息进行采样；

第二位置记录模块1003B4，被配置为若当前采样点为首个采样时间点，则将得到的每个采样位置信息与对应的声源信息、采样时间点信息进行关联记录；若当前采样点为非首个采样时间点，则将得到的每个声源的采样位置信息与已记录的同一声源的上一采样位置信息进行比较，并将比较结果为不同的采样位置信息与对应的声源信息、采样时间点信息进行关联记录。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

相应的，本公开还提供一种实现对象音频录音的装置，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为：通过多个麦克风同时执行声音采集操作，得到混合声音信号；根据所述混合声音信号，以及每个麦克风的设置位置信息，从所述混合声音信号中识别出声源数量、每个声源的位置信息，并分离出对应于每个声源的对象声音信号；组合各个声源的位置信息和对象声音信号，得到对象音频格式的音频数据。

相应的，本公开还提供一种终端，所述终端包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：通过多个麦克风同时执行声音采集操作，得到混合声音信号；根据所述混合声音信号，以及每个麦克风的设置位置信息，从所述混合声音信号中识别出声源数量、每个声源的位置信息，并分离出对应于每个声源的对象声音信号；组合各个声源的位置信息和对象声音信号，得到对象音频格式的音频数据。

图19是根据一示例性实施例示出的一种用于实现对象音频录音的装置1900的框图。例如，装置1900可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图19，装置1900可以包括以下一个或多个组件：处理组件1902，存储器1904，电源组件1906，多媒体组件1908，音频组件1910，输入/输出(I/O)的接口1912，传感器组件1914，以及通信组件1916。

处理组件1902通常控制装置1900的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件1902可以包括一个或多个处理器1920来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件1902可以包括一个或多个模块，便于处理组件1902和其他组件之间的交互。例如，处理组件1902可以包括多媒体模块，以方便多媒体组件19019和处理组件1902之间的交互。

存储器1904被配置为存储各种类型的数据以支持在装置1900的操作。这些数据的示例包括用于在装置1900上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器1904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件1906为装置1900的各种组件提供电力。电源组件1906可以包括电源管理系统，一个或多个电源，及其他与为装置1900生成、管理和分配电力相关联的组件。

多媒体组件1908包括在所述装置1900和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件1908包括一个前置摄像头和/或后置摄像头。当装置1900处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件1910被配置为输出和/或输入音频信号。例如，音频组件1910包括一个麦克风(MIC)，当装置1900处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1904或经由通信组件1916发送。在一些实施例中，音频组件1910还包括一个扬声器，用于输出音频信号。

I/O接口1912为处理组件1902和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件1914包括一个或多个传感器，用于为装置1900提供各个方面的状态评估。例如，传感器组件1914可以检测到装置1900的打开/关闭状态，组件的相对定位，例如所述组件为装置1900的显示器和小键盘，传感器组件1914还可以检测装置1900或装置1900一个组件的位置改变，用户与装置1900接触的存在或不存在，装置1900方位或加速/减速和装置1900的温度变化。传感器组件1914可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1914还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件1914还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件1916被配置为便于装置1900和其他设备之间有线或无线方式的通信。装置1900可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件1916经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件1916还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置1900可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器1904，上述指令可由装置1900的处理器1920执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种实现对象音频录音的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述混合声音信号，以及每个麦克风的设置位置信息，从所述混合声音信号中识别出声源数量、每个声源的位置信息，并分离出对应于每个声源的对象声音信号，包括：

根据每个声源发出的声音信号在各个麦克风之间形成的幅度差与相位差，从所述混合声音信号中识别出声源数量、每个声源的位置信息，并分离出对应于每个声源的对象声音信号。

3.根据权利要求1所述的方法，其特征在于，所述根据所述混合声音信号，以及每个麦克风的设置位置信息，从所述混合声音信号中识别出声源数量、每个声源的位置信息，并分离出对应于每个声源的对象声音信号，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述混合声音信号，每个麦克风的设置位置信息，以及所述声源数量和所述声源的位置信息，从所述混合声音信号中分离出对应于每个声源的对象声音信号，包括：

5.根据权利要求1所述的方法，其特征在于，所述组合各个声源的位置信息和对象声音信号，得到对象音频格式的音频数据，包括：

6.根据权利要求1所述的方法，其特征在于，所述组合每个声源的位置信息和对象声音信号，得到对象音频格式的音频数据，包括：

7.根据权利要求5或6所述的方法，其特征在于，所述按照各个声源之间的排列顺序，对相应的对象声音信号进行组合，得到多对象音频数据，包括：

8.根据权利要求5或6所述的方法，其特征在于，所述按照所述排列顺序对各个声源的位置信息进行组合，得到对象音频辅助数据，包括：

9.根据权利要求5或6所述的方法，其特征在于，所述按照所述排列顺序对各个声源的位置信息进行组合，得到对象音频辅助数据，包括：

10.一种实现对象音频录音的装置，其特征在于，包括：

11.根据权利要求10所述的装置，其特征在于，所述处理单元包括：

处理子单元，根据每个声源发出的声音信号在各个麦克风之间形成的幅度差与相位差，从所述混合声音信号中识别出声源数量、每个声源的位置信息，并分离出对应于每个声源的对象声音信号。

12.根据权利要求10所述的装置，其特征在于，所述处理单元包括：

13.根据权利要求12所述的装置，其特征在于，所述分离子单元包括：

14.根据权利要求10所述的装置，其特征在于，所述组合单元包括：

15.根据权利要求10所述的装置，其特征在于，所述组合单元包括：

16.根据权利要求14或15所述的装置，其特征在于，所述信号组合子单元包括：

17.根据权利要求14或15所述的装置，其特征在于，所述位置组合子单元包括：

18.根据权利要求14或15所述的装置，其特征在于，所述位置组合子单元包括：

19.一种电子设备，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：