CN117355894A

CN117355894A - 对象音频数据的生成方法、装置、电子设备和存储介质

Info

Publication number: CN117355894A
Application number: CN202280001279.8A
Authority: CN
Inventors: 史润宇; 易鑫林; 张墉; 刘晗宇; 吕柱良; 吕雪洋
Original assignee: Beijing Xiaomi Mobile Software Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd
Priority date: 2022-05-05
Filing date: 2022-05-05
Publication date: 2024-01-05
Also published as: WO2023212879A1

Abstract

本公开实施例公开了一种对象音频数据的生成方法、装置、电子设备和存储介质，该方法包括：获取至少一个声音对象的声音数据；获取至少一个声音对象的当前位置信息；将至少一个声音对象的声音数据和当前位置信息进行合成，以生成对象音频数据。由此，能够实时准确的获取每一个声音对象的位置信息，实现实时录制生成对象音频数据。

Description

对象音频数据的生成方法、装置、电子设备和存储介质

技术领域

本公开涉及通信技术领域，尤其涉及一种对象音频数据的生成方法、装置、电子设备和存储介质。

背景技术

MPEG(Moving Picture Experts Group，动态图像专家组)的下一代音频编解码标准MPEG-H 3D Audio作为ISO/IEC 23008-3国际标准，在这个标准框架中使用了一种全新的音频格式，对象音频(Object Audio)，可以标记声音的方位，使听者无论是用耳机还是音响，并且无论音响的喇叭数是多少，都可以听到特定方位传来的声音。

相关技术中，通过预先录制单声道音频，在后期与预先准备好的单声道音频的位置信息进行组合，生成对象音频数据，采用该方法，需要后期依靠制作设备进行制作，尚缺乏一种实时录制声音对象的对象音频数据的方法。

发明内容

本公开实施例提供一种对象音频数据的生成方法、装置、电子设备和存储介质，可以实时准确的获取每一个声音对象的位置信息，实时录制生成对象音频数据。

第一方面，本公开实施例提供一种对象音频数据的生成方法，该方法包括：获取至少一个声音对象的声音数据；获取所述至少一个声音对象的当前位置信息；将至少一个所述声音对象的所述声音数据和当前位置信息进行合成，以生成对象音频数据。

在该技术方案中，获取至少一个声音对象的声音数据；获取至少一个声音对象的当前位置信息；将至少一个声音对象的声音数据和当前位置信息进行合成，以生成对象音频数据。由此，能够实时准确的获取每一个声音对象的位置信息，实现实时录制生成对象音频数据。

在一些实施例中，所述获取所述至少一个声音对象的当前位置信息，包括：获取录制所述至少一个声音对象的声音数据的至少一个录音终端的当前位置信息。

在一些实施例中，在所述将至少一个所述声音对象的所述声音数据和所述当前位置信息进行合成之前，还包括：对所述至少一个声音对象的声音数据和所述当前位置信息进行同步。

在一些实施例中，所述获取录制所述至少一个声音对象的声音数据的至少一个录音终端的当前位置信息，包括：以单向收发方式、双向收发方式或混合收发方式获取所述至少一个录音终端的当前位置信息。

在一些实施例中，所述以混合收发方式获取所述至少一个录音终端的位置信息，包括：以所述单向收发方式获取第一定位参考信息；以所述双向收发方式获取第二定位参考信息；根据所述第一定位参考信息和所述第二定位参考信息确定所述至少一个录音终端的当前位置信息。

在一些实施例中，所述第一定位参考信息为角度信息和距离信息之中的一种，所述第二定位参考信息为所述角度信息和所述距离信息之中的另一种。

在一些实施例中，所述以所述单向收发方式获取所述至少一个录音终端的当前位置信息，包括：接收所述至少一个录音终端以广播方式发送的第一定位信号，并根据所述第一定位信号生成所述至少一个录音终端的当前位置信息。

在一些实施例中，所述以所述双向收发方式获取所述至少一个录音终端的位置信息，包括：接收所述至少一个录音终端以广播方式发送的定位起始信号；向所述至少一个录音终端发送应答信号；接收所述至少一个录音终端发送的第二定位信号，并根据所述第二定位信号生成所述至少一个录音终端的当前位置信息。

在一些实施例中，每个所述录音终端对应一个声音对象，且所述录音终端的位置伴随所述声音对象的声音源移动。

在一些实施例中，还包括：获取所述至少一个声音对象的初始位置信息。

在一些实施例中，所述将至少一个所述声音对象的所述声音数据和当前位置信息进行合成，以生成对象音频数据，包括：获取音频参数，并将所述音频参数作为所述对象音频数据的头文件信息；在每个采样时刻，将每个所述声音对象的声音数据作为对象音频信号进行保存，并将所述当前位置信息作为对象音频辅助数据进行保存，以生成所述对象音频数据。

在一些实施例中，还包括：以帧为单位对所述声音数据和所述当前位置信息进行保存。

第二方面，本公开实施例提供一种对象音频数据的生成装置，所述对象音频数据的生成装置包括：数据获取单元，被配置为获取至少一个声音对象的声音数据；信息获取单元，被配置为获取所述至少一个声音对象的当前位置信息；数据生成单元，被配置为将至少一个所述声音对象的所述声音数据和当前位置信息进行合成，以生成对象音频数据。

在一些实施例中，所述信息获取单元，具体被配置为：获取录制所述至少一个声音对象的声音数据的至少一个录音终端的当前位置信息。

在一些实施例中，所述装置，还包括：同步处理单元，被配置为对所述至少一个声音对象的声音数据和所述当前位置信息进行同步。

在一些实施例中，所述信息获取单元，具体被配置为以单向收发方式、双向收发方式或混合收发方式获取所述至少一个录音终端的当前位置信息。

在一些实施例中，所述信息获取单元，包括：第一信息获取模块，被配置为以所述单向收发方式获取第一定位参考信息；第二信息获取模块，被配置为以所述双向收发方式获取第二定位参考信息；第一当前信息获取模块，被配置为根据所述第一定位参考信息和所述第二定位参考信息确定所述至少一个录音终端的当前位置信息。

在一些实施例中，所述信息获取单元，包括：第二当前信息获取模块，被配置为接收所述至少一个录音终端以广播方式发送的第一定位信号，并根据所述第一定位信号生成所述至少一个录音终端的当前位置信息。

在一些实施例中，所述信息获取单元，包括：信号接收模块，被配置为接收所述至少一个录音终端以广播方式发送的定位起始信号；信号发送模块，被配置为向所述至少一个录音终端发送应答信号；第三当前信息获取模块，被配置为接收所述至少一个录音终端发送的第二定位信号，并根据所述第二定位信号生成所述至少一个录音终端的当前位置信息。

在一些实施例中，所述装置，还包括：初始位置获取单元，被配置为获取所述至少一个声音对象的初始位置信息。

在一些实施例中，所述数据生成单元，包括：参数获取模块，被配置为获取音频参数，并将所述音频参数作为所述对象音频数据的头文件信息；音频数据生成模块，被配置为在每个采样时刻，将每个所述声音对象的声音数据作为对象音频信号进行保存，并将所述当前位置信息作为对象音频辅助数据进行保存，以生成所述对象音频数据。

在一些实施例中，所述数据生成单元，还包括：处理模块，被配置为以帧为单位对所述声音数据和所述当前位置信息进行保存。

第三方面，本公开实施例提供一种电子设备，该电子设备包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述第一方面所述的方法。

第四方面，本公开实施例提供一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行上述第一方面所述的方法。

第五方面，本公开实施例提供一种计算机程序产品，包括计算机指令，其特征在于，所述计算机指令在被处理器执行时实现上述第一方面所述的方法。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

为了更清楚地说明本公开实施例或背景技术中的技术方案，下面将对本公开实施例或背景技术中所需要使用的附图进行说明。

图1是本公开实施例提供的一种对象音频数据的生成方法的流程图；

图2是本公开实施例提供的另一种对象音频数据的生成方法的流程图；

图3是本公开实施例提供的又一种对象音频数据的生成方法的流程图；

图4是本公开实施例提供的又一种对象音频数据的生成方法的流程图；

图5是本公开实施例提供的又一种对象音频数据的生成方法的流程图；

图6是本公开实施例提供的又一种对象音频数据的生成方法的流程图；

图7是本公开实施例提供的一种对象音频数据的生成装置的结构图；

图8是本公开实施例提供的另一种对象音频数据的生成装置的结构图；

图9是本公开实施例提供的对象音频数据的生成装置中一种信息获取单元的结构图；

图10是本公开实施例提供的对象音频数据的生成装置中另一种信息获取单元的结构图；

图11是本公开实施例提供的对象音频数据的生成装置中又一种信息获取单元的结构图；

图12是本公开实施例提供的又一种对象音频数据的生成装置的结构图；

图13是本公开实施例提供的对象音频数据的生成装置中一种数据生成单元的结构图；

图14为本公开一实施例示出的电子设备的结构图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

除非上下文另有要求，否则，在整个说明书和权利要求书中，术语“包括”被解释为开放、包含的意思，即为“包含，但不限于”。在说明书的描述中，术语“一些实施例”等旨在表明与该实施例或示例相关的特定特征、结构、材料或特性包括在本公开的至少一个实施例或示例中。上述术语的示意性表示不一定是指同一实施例或示例。此外，所述的特定特征、结构、材料或特点可以以任何适当方式包括在任何一个或多个实施例或示例中。

需要说明的是，本公开的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开中的至少一个还可以描述为一个或多个，多个可以是两个、三个、四个或者更多个，本公开不做限制。在本公开实施例中，对于一种技术特征，通过“第一”、“第二”、“第三”、“A”、“B”、“C”和“D”等区分该种技术特征中的技术特征，该“第一”、“第二”、“第三”、“A”、“B”、“C”和“D”描述的技术特征间无先后顺序或者大小顺序。

本公开中各表所示的对应关系可以被配置，也可以是预定义的。各表中的信息的取值仅仅是举例，可以配置为其他值，本公开并不限定。在配置信息与各参数的对应关系时，并不一定要求必须配置各表中示意出的所有对应关系。例如，本公开中的表格中，某些行示出的对应关系也可以不配置。又例如，可以基于上述表格做适当的变形调整，例如，拆分，合并等等。上述各表中标题示出参数的名称也可以采用通信装置可理解的其他名称，其参数的取值或表示方式也可以通信装置可理解的其他取值或表示方式。上述各表在实现时，也可以采用其他的数据结构，例如可以采用数组、队列、容器、栈、线性表、指针、链表、树、图、结构体、类、堆、散列表或哈希表等。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本公开的范围。

针对相关技术中，对象音频数据的获取方法，无法实现直接对对象音频数据的直接录制，无法获得真实的声音对象位置信息的问题。本公开实施例中提供一种对象音频数据的生成方法、装置、电子设备和存储介质，以实时准确的获取每一个声音对象的位置信息，实时录制生成对象音频数据，以解决相关技术中的问题。

具体地，下面参考附图具体描述本公开实施例提供的对象音频数据的生成方法、装置、电子设备和存储介质。

需要说明的是，本公开实施例的对象音频数据的生成方法可以由本公开实施例的对象音频数据的生成装置执行，该对象音频数据的生成装置可以由软件和/或硬件的方式实现，该对象音频数据的生成装置可配置在电子设备中，其中，电子设备可以安装并运行对象音频数据的生成程序。其中，电子设备可以包括但不限于智能手机、平板电脑等具有各种操作系统的硬件设备。

本公开实施例中，位置信息：指以听者(Audience)为原点时，各麦克风或声音对象相对于听者的位置信息。该位置信息可以以直角坐标系(xyz)表示，也可以以球坐标系(θ,γ,r)表示。它们之间可以由如下的式(1)进行转换。

式(1)中，xyz分别表示麦克风或声音对象在直角坐标系的x轴(前后方向),y轴(左右方向),z轴(上下方向)上的位置坐标。θ,γ,r分别表示麦克风或声音对象在球坐标系上的水平方向角度(麦克风或声音对象和原点的连线在水平面上的映射和x轴的夹角)；垂直方向角度(麦克风或声音对象和原点的连线与水平面的夹角)；和麦克风或声音对象离原点的直线距离。

前面所述位置信息为三维坐标系下的位置信息，若在二维坐标系下，则位置信息可以以直角坐标系(x,y)表示，也可以以极坐标系(θ,r)表示。它们之间可以由如下的式(2)进行转换。

x＝rcosθ

y＝sinθ (2)

式(2)中各变量意义与式(1)一致。

无论采用何种坐标系(直角坐标系，球坐标系，或者其他坐标系)表示，或者改变坐标系的原点等变换形式，均不影响本公开的具体实现，不影响对本公开权利的主张。

故本公开的说明中，为了简便，位置信息将以球坐标系(极坐标系)方式进行表示。

本公开实施例中，对象音频(Object Audio)：泛指各种可以描述声音对象(Audio Object)的声音格式。含有位置信息的点声音对象，或可以大致判断出中心位置的面声音对象都可以作为声音对象(Audio Object)。对象音频(Object Audio)一般由两部分组成，声音信号本身(Audio Data)，以及附带位置信息(Object Audio Metadata)。其中，声音信号本身可以看作单声道音频信号，其形式可以是PCM(Pulse-code modulation)，DSD(Direct Stream Digital)等未压缩格式，也可以是MP3(MPEG-1 or MPEG-2 Audio Layer III)，AAC(Advanced Audio Coding)，Dolby Digital等压缩格式。附带的位置信息为任意时刻t时，上述1.中所示的位置信息。

如果有多个对象音频时，其格式可以是每个对象音频的声音信号和位置信息单独组合；也可以是所有对象的声音信号组合在一起，位置信息组合在一起，并在声音信号或位置信息中加入第几项声音信号对应第几项位置信息的对应信息。

请参见图1，图1是本公开实施例提供的一种对象音频数据的生成方法的流程图。

如图1所示，该方法可以包括但不限于如下步骤：

S1，获取至少一个声音对象的声音数据。

本公开实施例中，获取至少一个声音对象的声音数据，可以通过声音采集装置录制声音对象的声音信号，获取声音对象的声音数据，至少一个声音对象可以包括一个或多个声音对象，在包括一个声音对象的情况下，通过一个声音采集装置录制声音对象的声音信号，在包括多个声音对象的情况下，通过多个声音采集装置录制多个声音对象的声音信号。

其中，声音采集装置可以为麦克风等能够收集声音信息的装置，本公开实施例对此不作具体限制。

S2，获取至少一个声音对象的当前位置信息。

本公开实施例中，获取声音对象的当前位置信息，可以为在获取声音对象的声音数据的同时，获取声音对象的当前位置信息，以实时获取声音对象的声音数据和位置信息。

其中，针对每一个声音对象，获取声音对象的声音数据，可以通过一个或多个声音采集装置获取声音对象的声音数据，本公开实施例中，获取声音对象的当前位置信息，在声音采集装置相对于声音对象的相对位置固定不变的情况下，可以获取声音采集装置的当前位置信息，根据声音采集装置与声音对象的相对位置关系，确定声音对象的当前位置信息。

本公开实施例中，声音采集装置与声音对象的相对位置固定不变的情况下，声音对象移动，声音采集装置随着声音对象的移动而移动，从而能够实时获取每一个声音对象的位置信息。

需要说明的是，本公开实施例中，获取声音采集装置的当前位置信息，可以通过超声波定位方法，例如，声音采集装置中设置有超声波收发装置，通过对声音采集装置中的超声波信号进行采集，能够获取声音采集装置的当前位置信息。或者，还可以通过其他方式，本公开实施例对此不作具体限制。

S3，将至少一个声音对象的声音数据和当前位置信息进行合成，以生成对象音频数据。

本公开实施例中，在获取至少一个声音对象的声音数据和当前位置信息，实时获取声音对象的声音数据和位置信息的情况下，将声音对象的声音数据和当前位置信息进行合成，以生成对象音频数据。

其中，将声音对象的声音数据和当前位置信息进行合成，可以通过对声音数据和当前位置信息按照时间进行组合，以特定文件存储格式进行保存，生成对象音频数据。

通过实施本公开实施例，获取至少一个声音对象的声音数据；获取至少一个声音对象的当前位置信息；将至少一个声音对象的声音数据和当前位置信息进行合成，以生成对象音频数据。由此，能够实时准确的获取每一个声音对象的位置信息，实现实时录制生成对象音频数据。

如图2所示，该方法可以包括但不限于如下步骤：

S21，获取至少一个声音对象的声音数据。

其中，S21的相关描述可以参见上述实施例中的相关描述，此处不再赘述。

S22，获取至少一个声音对象的当前位置信息。

在一些实施例中，获取至少一个声音对象的当前位置信息，包括：获取录制至少一个声音对象的声音数据的至少一个录音终端的当前位置信息。

本公开实施例中，可以通过录音终端录制声音对象的声音信号，获取声音对象的声音数据。其中，在声音对象为一个的情况下，可以通过一个录音终端录制声音对象的声音数据，在声音对象为多个的情况下，可以通过多个录音终端录制声音对象的声音数据。

其中，录音终端中包括麦克风，可以通过录音终端中的麦克风录制声音对象的声音数据。

本公开实施例中，获取至少一个声音对象的当前位置信息，可以获取录制声音对象的声音数据的录音终端的当前位置信息，在存在一个或多个声音对象的情况下，可以获取录制一个或多个声音对象的声音数据的录音终端的当前位置信息。

在一些实施例中，获取录制至少一个声音对象的声音数据的至少一个录音终端的当前位置信息，包括：以单向收发方式、双向收发方式或混合收发方式获取至少一个录音终端的当前位置信息。

本公开实施例中，获取录制至少一个声音对象的声音数据的至少一个录音终端的当前位置信息，在存在一个声音对象的情况下，获取录制声音对象的声音数据的至少一个录音终端的的当前位置信息，在存在多个声音对象的情况下，获取录制每一个声音对象的声音数据的至少一个录音终端的当前位置信息。

其中，可以通过单向收发方式获取录音终端的当前位置信息，或者通过双向收发方式获取至少一个录音终端的当前位置信息，或者通过混合收发方式获取录音终端的当前位置信息。

其中，通过混合收发方式获取录音终端的当前位置信息，可以通过单向收发方式和双向收发方式共同获取录音终端的当前位置信息。

在一些实施例中，以混合收发方式获取至少一个录音终端的位置信息，包括：以单向收发方式获取第一定位参考信息；以双向收发方式获取第二定位参考信息；根据第一定位参考信息和第二定位参考信息确定至少一个录音终端的当前位置信息。

本公开实施例中，通过混合收发方式获取录音终端的位置信息，可以通过单向收发方式获取第一定位参考信息，以及，以双向收发方式获取第二定位参考信息，根据第一定位参考信息和第二定位参考信息确定录音终端的当前位置信息。

其中，第一定位参考信息和第二定位参考信息不同。

在一些实施例中，第一定位参考信息为角度信息和距离信息之中的一种，第二定位参考信息为角度信息和距离信息之中的另一种。

本公开实施例中，通过混合收发方式获取录音终端的位置信息，可以通过单向收发方式获取角度信息，以及，以双向收发方式获取距离信息，根据角度信息和距离信息确定录音终端的当前位置信息。

或者，本公开实施例中，通过混合收发方式获取录音终端的位置信息，可以通过单向收发方式获取距离信息，以及，以双向收发方式获取角度信息，根据距离信息和角度信息确定录音终端的当前位置信息。

本公开实施例中，第一定位参考信息和第二定位参考信息可以通过声波或超声波获取，或者还可以通过UWB(Ultra Wide Band，超宽带)或WiFi或BT等电磁波信号获取。

在一些实施例中，以单向收发方式获取至少一个录音终端的当前位置信息，包括：接收至少一个录音终端以广播方式发送的第一定位信号，并根据第一定位信号生成至少一个录音终端的当前位置信息。

本公开实施例中，通过单向收发方式获取录音终端的当前位置信息，可以通过接收录音终端以广播方式发送的第一定位信号，并根据第一定位信号生成录音终端的当前位置信息。其中，可以通过TDOA(time difference of arrival)方法获取录音终端的当前位置信息。

其中，录音终端广播方式发送的第一定位信号可以为声波或超声波，或者还可以为UWB(Ultra Wide Band，超宽带)或WiFi或BT等电磁波信号。

在一些实施例中，以双向收发方式获取至少一个录音终端的位置信息，包括：接收至少一个录音终端以广播方式发送的定位起始信号；向至少一个录音终端发送应答信号；接收至少一个录音终端发送的第二定位信号，并根据第二定位信号生成至少一个录音终端的当前位置信息。

本公开实施例中，通过双向收发方式获取录音终端的当前位置信息，可以通过接收录音终端以广播方式发送的定位起始信号，向录音终端发送应答信号，接收录音终端发送的第二定位信号，并根据第二定位信号，生成录音终端的当前位置信息。其中，可以通过TOF(time of flight)方法获取至少一个录音终端的位置信息。

其中，录音终端以广播方式发送的定位起始信号可以为声波或超声波，或者还可以为UWB(Ultra Wide Band，超宽带)或WiFi或BT等电磁波信号。

录音终端发送的第二定位信号可以为声波或超声波，或者还可以为UWB(Ultra Wide Band，超宽带)或WiFi或BT等电磁波信号。

在一些实施例中，每个录音终端对应一个声音对象，且录音终端的位置伴随声音对象的声音源移动。

本公开实施例中，每个录音终端对应一个声音对象，在存在一个声音对象的情况下，对应声音对象通过一个或多个录音终端录取声音对象的声音数据。

其中，录音终端的位置伴随声音对象的声音源移动，可以理解的是，本公开实施例中，获取至少一个声音对象的当前位置信息，包括：获取录制至少一个声音对象的声音数据的至少一个录音终端的当前位置信息。录音终端对应一个声音对象，录音终端与声音对象的声音源的位置相对固定，在声音对象的声音源移动的情况下，录音终端随着声音对象的声音源的移动而移动。

在一些实施例中，获取至少一个声音对象的初始位置信息。

本公开实施例中，获取声音对象的初始位置信息，和声音对象的当前位置信息，获取声音对象的声音数据，从而实时获取声音对象的声音数据和位置信息。

其中，获取声音对象的声音数据，初始位置信息和当前位置信息，能够实时获取声音对象的声音数据和位置信息。

S23，对至少一个声音对象的声音数据和当前位置信息进行同步。

本公开实施例中，在获取声音对象的声音数据和当前位置信息的情况下，对声音对象的声音数据和当前位置信息进行同步，可以根据时间，将声音数据和当前位置信息进行同步。

S24，将至少一个声音对象的声音数据和当前位置信息进行合成，以生成对象音频数据。

在一些实施例中，将至少一个声音对象的声音数据和当前位置信息进行合成，以生成对象音频数据，包括：获取音频参数，并将音频参数作为对象音频数据的头文件信息；在每个采样时刻，将每个声音对象的声音数据作为对象音频信号进行保存，并将当前位置信息作为对象音频辅助数据进行保存，以生成对象音频数据。

本公开实施例中，生成的对象音频数据可以有多种存储格式，例如：作为文件保存的第一格式、可以实时播放的第二格式等。

示例性地，第一格式：file packing mode[]，至少一个声音对象的声音数据会组合在一起成为一个音频信息，其保存方式可以是raw-pcm格式，也可以是未压缩的wav格式(此时单个声音对象看做wav文件的一个channel)，也可以编码成为各种压缩格式。而至少一个声音对象的当前位置信息也会组合在一起，作为对象音频辅助数据(Object Audio metadata)保存。

示例性地，第二格式：low delay mode[]，以一定的时间长度为一帧(frame)，在每一帧的内部，以file packing mode同样的格式保存，并将此时的声音数据和当前位置信息连接在一起后成为该帧的对象音频数据。此时，各帧的对象音频数据按时间顺序依次送往播放设备或保存。

其中，本公开实施例中，获取音频参数，可以获取采样率(Sampling rate)、位宽(bit depth)，声音对象的数量N _obj(Number of对象s)等，并将音频参数作为对象音频数据的头文件信息，对于每个采样时刻，将每个声音对象的声音数据作为对象音频信号进行保存，并将当前位置信息作为对象音频辅助数据进行保存，以生成对象音频数据。

在一种可能的实现方式中，如图3所示，[s51]获得声音对象的数量N _obj，以及同步后的至少一个声音对象的当前位置信息声音对象的声音数据

[s52]确定存储格式，确定以file packing mode或low delay mode来进行保存/传输。

[s53a]将音频的基本参数，如采样率(Sampling rate)，位宽(bit depth)，声音对象的数量N _obj(Number of对象s)等作为头文件信息记入对象音频文件。

[s54a]在判断为file packing mode时，将对象音频信息按file packing mode进行保存，具体如下：

[s541a]将对象声音信息按raw-pcm格式进行保存，具体如下：

对于第一个采样时刻，将获取的对t＝1时刻采样得到的音频数据中求得的声音对象的声音数据按声音源的自然顺序进行保存，每个声音对象的声音数据占据长度为wBitsPerSample比特。

在之后每一个采样时刻t，将获取的对t时刻采样得到的声音对象的声音数据按声音源的自然顺序记录在t-1时刻得到的声音对象的对象音频信号之后，每个声音对象的声音数据占据长度为wBitsPerSample比特。

其保存格式可以参见如下表1所示：

表1

[s542a]将获取的至少一个声音对象的当前位置信息作为对象音频辅助数据进行保存，在第一个采样点，按声音源的自然顺序进行保存，保存格式参见下表2：

表2

其中，各参数分别为：iSampleOffset：该采样点的序号；

对象Object_index：当前记录的音源的序号；

对象Object_Azimuth：当前记录的音源的θ；

对象Object_Elevation：当前记录的音源的γ；

对象Object_Radius：当前记录的音源的r。

在其后的采样点，判断至少一个声音对象是否有位置的变化，如果有，对该采样点位置发生变化的音源进行保存，保存格式参见上表2。

其中，可以指定一定的时间间隔，如N个采样点进行一次判断及保存，以节约存储空间。

[s55a]本公开实施例中，将作为对象音频数据的头文件信息的音频参数、以及作为对象音频信号的声音对象的声音数据和作为对象音频辅助数据的当前位置信息进行拼接，以生成完整的对象音频数据。

其中，拼接方式如下表3至表6所示：

表3

表4

表5

表6

在另一种可能的实施方式中，如图3所示，获得声音对象的数量N _obj，以及同步后的至少一个声音对象的当前位置信息声音对象的声音数据

[s53b]获取音频参数，可以获取采样率(Sampling rate)、位宽(bit depth)，声音对象的数量N _obj(Number of对象s)等，并将音频参数作为对象音频数据的头文件信息，[s54b]在存储格式为第二格式low delay mode[]的情况下，将对象音频数据按low delay mode进行保存，具体如下：

[s541b]以帧为单位，把当前帧所包含的所有采样点，对于第一个采样时刻，将获取的对t＝1时刻采样得到的音频数据中求得的声音对象的声音数据按声音源的自然顺序进行保存，每个声音对象的声音数据占据长度为wBitsPerSample比特。

[s542b]以帧为单位，把当前帧所包含的所有采样点的声音对象的位置信息在之后每一个采样时刻t，将获取的对t时刻采样得到的声音对象的声音数据按声音源的自然顺序记录在t-1时刻得到的声音对象的对象音频信号之后，每个声音对象的声音数据占据长度为wBitsPerSample比特。

其中，保存格式参见上表1所示。

[s543b]本公开实施例中，将作为对象音频数据的头文件信息的音频参数、以及作为对象音频信号的声音对象的声音数据和作为对象音频辅助数据的当前位置信息进行拼接，以生成完整的对象音频数据。

其中，拼接方式参见如下表7至表9所示：

表7

表8

表9

在一些实施例中，还包括：以帧为单位对声音数据和当前位置信息进行保存。

[s55]本公开实施例中，首先记录或传送头文件信息，对于每一帧，将记录的声音对象的声音数据和记录的对象音频辅助数据(Object Audio metadata)进行拼接，成为该帧的对象音频信息。将各帧的对象音频数据按时间顺序拼接后保存，或在每次得到1帧的对象音频数据后，直接传送，以实现低迟延(low delay)传输。将组合后的对象音频数据，根据需要，保存在内存(memory)或存储器(disk)中，或传输到播放设备，或编码成为MPEG-H 3D Audio格式，或Dolby Atmos格式或其他支持对象音频(Object Audio)的编码格式，并保存或传送。

通过实施本公开实施例，利用定位技术，可以实时且准确的获取每一个声音对象的当前位置信息，而非后期软件制作，能够实时录制生成对象音频数据。

为方便理解，本公开实施例提供一示例性实施例。

如图4所示，在一种可能的实现方式中，本公开实施例中，通过录音终端获取声音对象的声音数据，每一个声音对象通过一个录音终端收集声音数据，多个录音终端获取多个声音对象的声音数据，发送至录音模块，获取至少一个声音对象的声音数据。

其中，录音终端可以发送定位信号，由定位模块中的数个接收端(天线或麦克风)接收，图4中示出声音信号是由有线的方式传递给录音模块的，但是也可以通过无线(WiFi或BT等)方式传递，定位模块中的接收端接收录音终端发送的定位信号，获取声音对象的当前位置信息。

需要说明的是，图4中仅示出单向收发方式获取声音对象的当前位置信息的情况，本公开实施例中，还可以采用双向收发方式，或者混合收发方式等获取声音对象的当前位置信息，其中，在采用双向收发方式的情况下，录音终端发送定位信号外，还可根据需要发送定位起始信号，且还可以接收定位模块回传的应答信号，定位模块可以接受录音终端发送的定位信号和起始定位信号外，还可以发送应答信号。

如图5所示，本公开实施例中，在对声音对象进行对象音频数据录制时，首先通过各录音设备录制对应的声音对象的声音信号，并发射测距信号。分别获取声音对象的声音信息(声音数据)，以及声音对象的位置信息(当前位置信息)；同步声音对象的声音信息(声音数据)和位置信息(当前位置信息)，之后组合各声音对象的声音信息(声音数据)和位置信息(当前位置信息)，生成完整的对象音频信号 (对象音频数据)，由此完成对象音频数据的录制。

如图6所示，组合各声音对象的声音信息(声音数据)和位置信息(当前位置信息)，生成完整的对象音频信号(对象音频数据)的过程，可以具体包括：

[S301]获取声音对象的数量N，各录音终端所发射的定位信号的特征参数，以及定位模块的位置信息。其中，声音对象的数量N，各录音终端所发射的定位信号的特征参数可以为事先约定好，也可以为由各录音终端在发送声音信号给录音模块时同步传递给录音模块，再由录音模块传递给定位模块。

[S302]根据定位模块的位置信息，确定位置信息的坐标原点位置。并为各声音对象分配初始位置。

[S303]对定位模块的各接收设备(天线或麦克风)处接收到的定位信号，进行解调并提取定位特征，以供后续通过该特征对各录音终端进行定位。

[S304～S311]对每一个待定位的声音对象，分别进行位置信息的确定。

其中S305～S306为从接收到的定位特征中判断是否存在某一个声音对象的定位信号或定位起始信号，若有，则取得该信息并根据定位方式采用不同的定位方案。例如使用单向收发方式时，利用TDOA(time difference of arrival)方法求得该声音对象的位置信息，使用双向收发方式时，利用TOF(time of flight)方法求得该声音对象的位置信息。或UWB室内定位方案等。若采用双向收发方式，则定位模块须与各个录音终端进行双向数据通信。

同步模块从录音模块中取得声音对象的声音信息(声音数据)，从定位模块中取得声音对象的位置信息(当前位置信息)，按时间进行同步，将同步后的声音对象的声音信息(声音数据)及位置信息(当前位置信息)发送给组合模块。

组合模块从同步模块中获得同步后的各声音对象的位置信息(当前位置信息) 和声音信息(声音数据) 并将声音对象的位置信息(当前位置信息)和声音对象的声音信息(声音数据)进行组合，成为完整的对象音频信号。

根据用途，对象音频信号有两种保存方式，保存用的file packing mode[]，和实时播放用的low delay mode[]。

对于file packing mode，各声音对象的声音信息(声音数据)会组合在一起成为一个多对象的音频信息，其保存方式可以是raw-pcm格式，也可以是未压缩的wav格式(此时单个对象看做wav文件的一个channel)，也可以编码成为各种压缩格式。而各对象的声音对象位置信息也会组合在一起，作为对象音频辅助数据(Object Audio metadata)保存。

对于low delay mode，规定一定的时间长度τ为一帧(frame)，在每一帧的内部，以file packing mode同样的格式保存，并将此时的声音信息和音频辅助数据连接在一起后成为该帧的对象音频信息。此时，各帧的音频信息按时间顺序依次送往播放设备或保存。

图7是本公开实施例提供的一种对象音频数据的生成装置的结构图。

如图7所示，对象音频数据的生成装置1，包括：数据获取单元11、信息获取单元12和数据生成单元13。

数据获取单元11，被配置为获取至少一个声音对象的声音数据。

信息获取单元12，被配置为获取至少一个声音对象的当前位置信息。

数据生成单元13，被配置为将至少一个声音对象的声音数据和当前位置信息进行合成，以生成对象音频数据。

在一些实施例中，信息获取单元12，具体被配置为：获取录制至少一个声音对象的声音数据的至少一个录音终端的当前位置信息。

如图8所示，在一些实施例中，对象音频数据的生成装置1，还包括：同步处理单元14，被配置为对至少一个声音对象的声音数据和当前位置信息进行同步。

在一些实施例中，信息获取单元12，具体被配置为以单向收发方式、双向收发方式或混合收发方式获取至少一个录音终端的当前位置信息。

如图9所示，在一些实施例中，信息获取单元12，包括：第一信息获取模块121、第二信息获取模块122和第一当前信息获取模块123。

第一信息获取模块121，被配置为以单向收发方式获取第一定位参考信息。

第二信息获取模块122，被配置为以双向收发方式获取第二定位参考信息。

第一当前信息获取模块123，被配置为根据第一定位参考信息和第二定位参考信息确定至少一个录音终端的当前位置信息。

如图10所示，在一些实施例中，信息获取单元12，包括：第二当前信息获取模块124，被配置为接收至少一个录音终端以广播方式发送的第一定位信号，并根据第一定位信号生成至少一个录音终端的当前位置信息。

如图11所示，在一些实施例中，信息获取单元12，包括：信号接收模块125、信号发送模块126和第三当前信息获取模块127。

信号接收模块125，被配置为接收至少一个录音终端以广播方式发送的定位起始信号。

信号发送模块126，被配置为向至少一个录音终端发送应答信号。

第三当前信息获取模块127，被配置为接收至少一个录音终端发送的第二定位信号，并根据第二定位信号生成至少一个录音终端的当前位置信息。

如图12所示，在一些实施例中，对象音频数据的生成装置1，还包括：初始位置获取单元15，被配置为获取至少一个声音对象的初始位置信息。

如图13所示，在一些实施例中，数据生成单元13，包括：参数获取模块131和音频数据生成模块132。

参数获取模块131，被配置为获取音频参数，并将音频参数作为对象音频数据的头文件信息。

音频数据生成模块132，被配置为在每个采样时刻，将每个声音对象的声音数据作为对象音频信号进行保存，并将当前位置信息作为对象音频辅助数据进行保存，以生成对象音频数据。

请继续参见图13，在一些实施例中，数据生成单元13，还包括：处理模块133。

处理模块133，被配置为以帧为单位对声音数据和当前位置信息进行保存。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本公开实施例提供的对象音频数据的生成装置，可以执行如上面一些实施例所述的对象音频数据的生成方法，其有益效果与上述的对象音频数据的生成方法的有益效果相同，此处不再赘述。

图14是根据一示例性实施例示出的一种用于对象音频数据的生成方法的电子设备100的结构图。

示例性地，电子设备100可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

如图14所示，电子设备100可以包括以下一个或多个组件：处理组件101，存储器102，电源组件103，多媒体组件104，音频组件105，输入/输出(I/O)的接口106，传感器组件107，以及通信组件108。

处理组件101通常控制电子设备100的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件101可以包括一个或多个处理器1011来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件101可以包括一个或多个模块，便于处理组件101和其他组件之间的交互。例如，处理组件101可以包括多媒体模块，以方便多媒体组件104和处理组件101之间的交互。

存储器102被配置为存储各种类型的数据以支持在电子设备100的操作。这些数据的示例包括用于在电子设备100上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器102可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如SRAM(Static Random-Access Memory，静态随机存取存储器)，EEPROM(Electrically Erasable Programmable read only memory，带电可擦可编程只读存储器)，EPROM(Erasable Programmable Read-Only Memory，可擦除可编程只读存储器)，PROM(Programmable read-only memory，可编程只读存储器)，ROM(Read-Only Memory，只读存储器)，磁存储器，快闪存储器，磁盘或光盘。

电源组件103为电子设备100的各种组件提供电力。电源组件103可以包括电源管理系统，一个或多个电源，及其他与为电子设备100生成、管理和分配电力相关联的组件。

多媒体组件104包括在所述电子设备100和用户之间的提供一个输出接口的触控显示屏。在一些实施例中，触控显示屏可以包括LCD(Liquid Crystal Display，液晶显示器)和TP(Touch Panel，触摸面板)。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件104包括一个前置摄像头和/或后置摄像头。当电子设备100处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件105被配置为输出和/或输入音频信号。例如，音频组件105包括一个MIC(Microphone，麦克风)，当电子设备100处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器102或经由通信组件108发送。在一些实施例中，音频组件105还包括一个扬声器，用于输出音频信号。

I/O接口2112为处理组件101和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件107包括一个或多个传感器，用于为电子设备100提供各个方面的状态评估。例如，传感器组件107可以检测到电子设备100的打开/关闭状态，组件的相对定位，例如所述组件为电子设备100的显示器和小键盘，传感器组件107还可以检测电子设备100或电子设备100一个组件的位置改变，用户与电子设备100接触的存在或不存在，电子设备100方位或加速/减速和电子设备100的温度变化。传感器组件107可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件107还可以包括光传感器，如CMOS(Complementary Metal Oxide Semiconductor，互补金属氧化物半导体)或CCD(Charge-coupled Device，电荷耦合元件)图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件107还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件108被配置为便于电子设备100和其他设备之间有线或无线方式的通信。电子设备100可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件108经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件108还包括NFC(Near Field Communication，近场通信)模块，以促进短程通信。例如，在NFC模块可基于RFID(Radio Frequency Identification，射频识别)技术，IrDA(Infrared Data Association，红外数据协会)技术，UWB(Ultra Wide Band，超宽带)技术，BT(Bluetooth，蓝牙)技术和其他技术来实现。

在示例性实施例中，电子设备100可以被一个或多个ASIC(Application Specific Integrated Circuit，专用集成电路)、DSP(Digital Signal Processor，数字信号处理器)、数字信号处理设备(DSPD)、PLD(Programmable Logic Device，可编程逻辑器件)、FPGA(Field Programmable Gate Array，现场可编程逻辑门阵列)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述对象音频数据的生成方法。需要说明的是，本实施例的电子设备的实施过程和技术原理参见前述对本公开实施例的对象音频数据的生成方法的解释说明，此处不再赘述。

本公开实施例提供的电子设备100，可以执行如上面一些实施例所述的对象音频数据的生成方法，其有益效果与上述的对象音频数据的生成方法的有益效果相同，此处不再赘述。

为了实现上述实施例，本公开还提出一种存储介质。

其中，该存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如前所述的对象音频数据的生成方法。例如，所述存储介质可以是ROM(Read Only Memory Image，只读存储器)、RAM(Random Access Memory，随机存取存储器)、CD-ROM(Compact Disc Read-Only Memory，紧凑型光盘只读存储器)、磁带、软盘和光数据存储设备等。

为了实现上述实施例，本公开还提供一种计算机程序产品，该计算机程序由电子设备的处理器执行时，使得电子设备能够执行如前所述的对象音频数据的生成方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

以上所述，仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以所述权利要求的保护范围为准。

Claims

一种对象音频数据的生成方法，其特征在于，包括：

获取至少一个声音对象的声音数据；

获取所述至少一个声音对象的当前位置信息；

将至少一个所述声音对象的所述声音数据和当前位置信息进行合成，以生成对象音频数据。
如权利要求1所述的方法，其特征在于，所述获取所述至少一个声音对象的当前位置信息，包括：

获取录制所述至少一个声音对象的声音数据的至少一个录音终端的当前位置信息。
如权利要求1或2所述的方法，其特征在于，在所述将至少一个所述声音对象的所述声音数据和所述当前位置信息进行合成之前，还包括：

对所述至少一个声音对象的声音数据和所述当前位置信息进行同步。
如权利要求2所述的方法，其特征在于，所述获取录制所述至少一个声音对象的声音数据的至少一个录音终端的当前位置信息，包括：

以单向收发方式、双向收发方式或混合收发方式获取所述至少一个录音终端的当前位置信息。
如权利要求4所述的方法，其特征在于，所述以混合收发方式获取所述至少一个录音终端的位置信息，包括：

以所述单向收发方式获取第一定位参考信息；

以所述双向收发方式获取第二定位参考信息；

根据所述第一定位参考信息和所述第二定位参考信息确定所述至少一个录音终端的当前位置信息。
如权利要求5所述的方法，其特征在于，所述第一定位参考信息为角度信息和距离信息之中的一种，所述第二定位参考信息为所述角度信息和所述距离信息之中的另一种。
如权利要求4至6中任一项所述的方法，其特征在于，所述以所述单向收发方式获取所述至少一个录音终端的当前位置信息，包括：

接收所述至少一个录音终端以广播方式发送的第一定位信号，并根据所述第一定位信号生成所述至少一个录音终端的当前位置信息。
如权利要求4至6中任一项所述的方法，其特征在于，所述以所述双向收发方式获取所述至少一个录音终端的位置信息，包括：

接收所述至少一个录音终端以广播方式发送的定位起始信号；

向所述至少一个录音终端发送应答信号；

接收所述至少一个录音终端发送的第二定位信号，并根据所述第二定位信号生成所述至少一个录音终端的当前位置信息。
如权利要求2至8中任一项所述的方法，其特征在于，每个所述录音终端对应一个声音对象，且所述录音终端的位置伴随所述声音对象的声音源移动。
如权利要求9所述的方法，其特征在于，还包括：

获取所述至少一个声音对象的初始位置信息。
如权利要求1至10中任一项所述的方法，其特征在于，所述将至少一个所述声音对象的所述声音数据和当前位置信息进行合成，以生成对象音频数据，包括：

获取音频参数，并将所述音频参数作为所述对象音频数据的头文件信息；

在每个采样时刻，将每个所述声音对象的声音数据作为对象音频信号进行保存，并将所述当前位置信息作为对象音频辅助数据进行保存，以生成所述对象音频数据。
如权利要求11所述的方法，其特征在于，还包括：

以帧为单位对所述声音数据和所述当前位置信息进行保存。
一种对象音频数据的生成装置，其特征在于，包括：

数据获取单元，被配置为获取至少一个声音对象的声音数据；

信息获取单元，被配置为获取所述至少一个声音对象的当前位置信息；

数据生成单元，被配置为将至少一个所述声音对象的所述声音数据和当前位置信息进行合成，以生成对象音频数据。
如权利要求13所述的装置，其特征在于，所述信息获取单元，具体被配置为：

获取录制所述至少一个声音对象的声音数据的至少一个录音终端的当前位置信息。
如权利要求13或14所述的装置，其特征在于，所述装置，还包括：

同步处理单元，被配置为对所述至少一个声音对象的声音数据和所述当前位置信息进行同步。
如权利要求14所述的装置，其特征在于，所述信息获取单元，具体被配置为

以单向收发方式、双向收发方式或混合收发方式获取所述至少一个录音终端的当前位置信息。
如权利要求16所述的装置，其特征在于，所述信息获取单元，包括：

第一信息获取模块，被配置为以所述单向收发方式获取第一定位参考信息；

第二信息获取模块，被配置为以所述双向收发方式获取第二定位参考信息；

第一当前信息获取模块，被配置为根据所述第一定位参考信息和所述第二定位参考信息确定所述至少一个录音终端的当前位置信息。
如权利要求17所述的装置，其特征在于，所述第一定位参考信息为角度信息和距离信息之中的一种，所述第二定位参考信息为所述角度信息和所述距离信息之中的另一种。
如权利要求16至18中任一项所述的装置，其特征在于，所述信息获取单元，包括：

第二当前信息获取模块，被配置为接收所述至少一个录音终端以广播方式发送的第一定位信号，并根据所述第一定位信号生成所述至少一个录音终端的当前位置信息。
如权利要求16至18中任一项所述的装置，其特征在于，所述信息获取单元，包括：

信号接收模块，被配置为接收所述至少一个录音终端以广播方式发送的定位起始信号；

信号发送模块，被配置为向所述至少一个录音终端发送应答信号；

第三当前信息获取模块，被配置为接收所述至少一个录音终端发送的第二定位信号，并根据所述第二定位信号生成所述至少一个录音终端的当前位置信息。
如权利要求14至20中任一项所述的装置，其特征在于，每个所述录音终端对应一个声音对象，且所述录音终端的位置伴随所述声音对象的声音源移动。
如权利要求21所述的装置，其特征在于，所述装置，还包括：

初始位置获取单元，被配置为获取所述至少一个声音对象的初始位置信息。
如权利要求13至22中任一项所述的装置，其特征在于，所述数据生成单元，包括：

参数获取模块，被配置为获取音频参数，并将所述音频参数作为所述对象音频数据的头文件信息；

音频数据生成模块，被配置为在每个采样时刻，将每个所述声音对象的声音数据作为对象音频信号进行保存，并将所述当前位置信息作为对象音频辅助数据进行保存，以生成所述对象音频数据。
如权利要求23所述的装置，其特征在于，所述数据生成单元，还包括：

处理模块，被配置为以帧为单位对所述声音数据和所述当前位置信息进行保存。
一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至12中任一项所述的方法。
一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1至12中任一项所述的方法。
一种计算机程序产品，包括计算机指令，其特征在于，所述计算机指令在被处理器执行时实现权利要求1至12中任一项所述的方法。