CN116567516A

CN116567516A - 一种音频处理方法和终端

Info

Publication number: CN116567516A
Application number: CN202210109139.4A
Authority: CN
Inventors: 丁建策
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2022-01-28
Filing date: 2022-01-28
Publication date: 2023-08-08
Also published as: WO2023142783A1

Abstract

本申请实施例公开了一种音频处理方法和终端，用于提高用户在自由移动时的听音效果。本申请实施例提供一种音频处理方法，包括：对音频码流进行解码，以得到音频优化元数据、音频基础元数据和M个解码音频数据，其中，音频优化元数据包括第一优化听音区的第一元数据和第一优化听音区对应的第一解码混音参数，M为正整数；根据用户所在的当前位置和音频基础元数据对M个第一解码音频数据进行渲染处理，以得到M个渲染音频数据；当用户所在的当前位置处于第一优化听音区时，根据第一解码混音参数对M个渲染音频数据进行第一混音处理，以得到M个第一混音音频数据；对M个第一混音音频数据进行混合处理，以得到第一优化听音区对应的混合音频数据。

Description

一种音频处理方法和终端

技术领域

本申请涉及音频技术领域，尤其涉及一种音频处理方法和终端。

背景技术

混音是音乐制作中必不可少的一个步骤，混音的质量会决定一部音乐作品的成败。通过混音后输出的音频，能够让听众听到在现场录音时无法听到的音质细腻层次分明的音乐效果，使音乐更具表现力。

虚拟现实(virtual reality，VR)技术逐渐被应用到音乐领域中，VR音乐场景应运而生。目前在VR音乐场景的创作过程中，创作者在对音乐信号混音时通常假设用户位于甜点区，并且位置保持不变，因此该类VR音乐场景可以实现用户的头动(即三自由度(threedegree of freedom，3DoF))效果，用户只有处于甜点区时才能有较好的音乐体验，若用户的位置发生移动，用户的听音效果变差，进而影响用户的音乐体验。

发明内容

本申请实施例提供了一种音频处理方法和终端，用于提高用户在自由移动时的听音效果。

为解决上述技术问题，本申请实施例提供以下技术方案：

第一方面，本申请实施例提供一种音频处理方法，包括：

对音频码流进行解码，以得到音频优化元数据、音频基础元数据和M个解码音频数据，其中，所述音频优化元数据包括第一优化听音区的第一元数据和所述第一优化听音区对应的第一解码混音参数，所述M为正整数；

根据用户所在的当前位置和所述音频基础元数据对所述M个第一解码音频数据进行渲染处理，以得到M个渲染音频数据；

当所述当前位置处于所述第一优化听音区时，根据所述第一解码混音参数对所述M个渲染音频数据进行第一混音处理，以得到M个第一混音音频数据；

对所述M个第一混音音频数据进行混合处理，以得到所述第一优化听音区对应的混合音频数据。

在上述方案中，由于本申请实施例中可以获取第一优化听音区的元数据和第一优化听音区对应的第一解码混音参数，根据用户所在的当前位置和音频基础元数据对M个第一解码音频数据进行渲染处理，以得到M个渲染音频数据，接下来确定用户的当前位置处于第一优化听音区内，根据第一解码混音参数对M个渲染音频数据进行第一混音处理，以得到M个第一混音音频数据，最后将M个第一混音音频数据进行混合处理，以得到第一优化听音区对应的混合音频数据。因此本申请实施例中，当用户的当前位置位于第一优化听音区内时，混音处理和数据混合均采用该第一优化听音区对应的音频数据实现，能够提供适用于用户自由移动至第一优化听音区时的音频优化元数据，提高用户在自由移动时的听音效果。

在一种可能的实现方式中，所述音频优化元数据，还包括：所述第一优化听音区对应的第二解码混音参数；

所述方法还包括：根据所述第二解码混音参数对所述混合音频数据进行第二混音处理，以得到所述第一优化听音区对应的第二混音音频数据。

在上述方案中，解码终端在获取到第二解码混音参数之后，还可以根据第一优化听音区对应的第二解码混音参数对第一优化听音区对应的混合音频数据进行第二混音处理，以得到第一优化听音区对应的第二混音音频数据。通过上述第二混音处理能够得到第二混音音频数据，该第二混音音频数据被播放时，能够提高用户的听音效果。

在一种可能的实现方式中，所述第二解码混音参数包括如下至少一种：所述第二混音音频数据的标识、均衡参数、压缩器参数、和混响器参数。

在上述方案中，第二解码混音参数可以包括第二混音音频数据的标识。第二解码混音参数还可以包括均衡参数，例如均衡参数可以包括均衡参数标识符、每个频段的增益值和Q值，其中，Q值是均衡滤波器的一个参数，表示均衡滤波器的品质因数，可用于描述均衡滤波器的带宽。第二解码混音参数还可以包括压缩器参数，例如压缩器参数可以包括压缩器标识符、门限值、压缩比、启动时间、释放时间、增益补偿值。第二解码混音参数还可以包括混响器参数，例如混响器参数可以包括混响类型、混响时间、延迟时间、直达混响比。

在一种可能的实现方式中，所述音频优化元数据，还包括：N个优化听音区中除所述第一优化听音区以外的N-1个优化听音区对应的N-1个第二解码混音参数相对于所述第一优化听音区对应的第二解码混音参数的N-1个差异参数，所述N为正整数。

在上述方案中，该差异参数是N个优化听音区中除第一优化听音区以外的N-1个优化听音区的N-1个第二解码混音参数相对于第一优化听音区对应的第二解码混音参数的差异部分的参数，该差异参数并不是N-1个优化听音区的N-1个第二解码混音参数。通过音频优化元数据中携带差异参数，可以减少音频优化元数据的数据量大小，提高数据传输效率和解码效率。

在一种可能的实现方式中，所述第一解码混音参数包括如下至少一种：所述渲染音频数据的标识、均衡参数、压缩器参数、和混响器参数。

在上述方案中，第一解码混音参数可以包括渲染音频数据的标识，例如包括M个渲染音频数据的标识。第一解码混音参数还可以包括均衡参数，例如均衡参数可以包括均衡参数标识符、每个频段的增益值和Q值。第一解码混音参数还可以包括压缩器参数，例如压缩器参数可以包括压缩器标识符、门限值、压缩比、启动时间、释放时间、增益补偿值。第一解码混音参数还可以包括混响器参数，例如混响器参数可以包括混响类型、混响时间、延迟时间、直达混响比。

在一种可能的实现方式中，所述方法还包括：

对视频图像码流进行解码，以得到解码视频图像数据和视频图像元数据，所述视频图像元数据包括：视频元数据和图像元数据；

根据所述视频图像元数据对所述解码视频图像数据进行渲染处理，以得到渲染视频图像数据；

根据所述渲染视频图像数据建立虚拟场景；

根据所述渲染视频图像数据和所述音频优化元数据在所述虚拟场景中标识所述第一优化听音区。

在上述方案中，解码终端根据视频图像元数据对解码视频图像数据进行渲染处理，以得到渲染视频图像数据，解码终端可以使用渲染视频图像数据建立虚拟场景，最后解码终端根据渲染视频图像数据和音频优化元数据在虚拟场景中标识第一优化听音区，从而在解码终端侧在虚拟场景中显示出第一优化听音区，引导用户在优化听音区内体验音乐，提高用户的听音效果。

在一种可能的实现方式中，所述第一元数据包括如下至少一种：所述第一优化听音区的参考坐标系、所述第一优化听音区的中心位置坐标和所述第一优化听音区的形状。

在上述方案中，第一优化听音区的元数据中可以包括参考坐标系，或者该第一优化听音区的元数据中可以不包括参考坐标系，例如该第一优化听音区采用默认的坐标系。第一优化听音区的元数据可以包括描述第一优化听音区的描述信息，例如描述第一优化听音区的中心位置坐标，第一优化听音区的形状等。本申请实施例中第一优化听音区的形状可以有多种，例如形状可以为球形、立方体形、柱形或者其他任意形状。

在一种可能的实现方式中，所述音频优化元数据，包括：N个优化听音区中除所述第一优化听音区以外的N-1个优化听音区对应的N-1个第一解码混音参数相对于所述第一优化听音区对应的第一解码混音参数的N-1个差异参数，所述N为正整数。

在上述方案中，该差异参数是N个优化听音区中除第一优化听音区以外的N-1个优化听音区的N-1个第一解码混音参数相对于第一优化听音区对应的第一解码混音参数的差异部分的参数，该差异参数并不是N-1个优化听音区的N-1个第一解码混音参数。通过音频优化元数据中携带差异参数，可以减少音频优化元数据的数据量大小，提高数据传输效率和解码效率。

第二方面，本申请实施例还提供一种音频处理方法，包括：

接收音频优化元数据、音频基础元数据和M个第一音频数据，所述音频优化元数据包括：第一优化听音区的第一元数据和所述第一优化听音区对应的第一混音参数，所述M为正整数；

对所述音频优化元数据、所述音频基础元数据和所述M个第一音频数据进行压缩编码，以得到音频码流；

发送所述音频码流。

在上述方案中，首先接收到音频优化元数据、音频基础元数据和M个第一音频数据，该音频优化元数据包括第一优化听音区的元数据和第一优化听音区的第一混音参数，因此能够提供适用于用户自由移动至第一优化听音区时的音频优化元数据，提高用户在自由移动时的听音效果。

在一种可能的实现方式中，所述音频优化元数据还包括：第二混音参数变化标识符，其中，

所述第二混音参数变化标识符，用于指示当前帧的所述第一音频数据对应的第二混音参数，相对于前一帧的第一音频数据对应的第二混音参数是否发生变化。

在上述方案中，传输终端可以在音频优化元数据中设置第二混音参数变化标识符，第二混音参数变化标识符用于指示第一优化听音区对应的第二混音参数是否发生变化，从而使得解码终端根据该第二混音参数变化标识符确定第一优化听音区对应的第二混音参数是否发生变化。举例说明如下，当前帧的第一音频数据的第二混音参数相对于前一帧的第一音频数据对应的第二混音参数发生变化时，第二混音参数变化标识符为真，传输终端还可以发送第一音频数据对应的第二混音参数的变化信息，解码终端接收到该第一音频数据对应的第二混音参数的变化信息，根据该变化信息获取到当前帧的第一音频数据对应的变化后的第二混音参数。

在一种可能的实现方式中，所述音频优化元数据，还包括：所述第一优化听音区对应的第二混音参数。

在上述方案中，在制作终端执行两次混音处理的情况下，制作终端得到的音频优化元数据可以包括第一优化听音区的第一元数据、第一优化听音区对应的第一混音参数和第一优化听音区对应的第二混音参数。该音频优化元数据被解码终端获取之后，解码终端也需要进行两次混音处理，通过两次混音处理可以提高用户的听音效果。

在一种可能的实现方式中，所述音频优化元数据还包括：N个优化听音区中第一优化听音区对应的第二混音参数，和所述N个优化听音区中除所述第一优化听音区以外的N-1个优化听音区对应的N-1个第二混音参数相对于所述第一优化听音区对应的第二混音参数的N-1个差异参数，所述N为正整数。

在上述方案中，该差异参数是N个优化听音区中除第一优化听音区以外的N-1个优化听音区的N-1个第二混音参数相对于第一优化听音区对应的第二混音参数的差异部分的参数，该差异参数并不是N-1个优化听音区的N-1个第二混音参数。通过音频优化元数据中携带差异参数，可以减少音频优化元数据的数据量大小，提高数据传输效率和解码效率。

在一种可能的实现方式中，所述第二混音参数包括如下至少一种：所述第一音频数据的标识、均衡参数、压缩器参数、和混响器参数。

在上述方案中，第二混音参数可以包括第一音频数据的标识，例如包括第一音频数据的标识。第二混音参数还可以包括均衡参数，例如均衡参数可以包括均衡参数标识符、每个频段的增益值和Q值。第二混音参数还可以包括压缩器参数，例如压缩器参数可以包括压缩器标识符、门限值、压缩比、启动时间、释放时间、增益补偿值。第二混音参数还可以包括混响器参数，例如混响器参数可以包括混响类型、混响时间、延迟时间、直达混响比。

在一种可能的实现方式中，所述音频优化元数据还包括：N个优化听音区中除所述第一优化听音区以外的N-1个优化听音区对应的N-1个第一混音参数相对于所述第一优化听音区对应的第一混音参数的N-1个差异参数。

在上述方案中，该差异参数是N个优化听音区中除第一优化听音区以外的N-1个优化听音区的N-1个第一混音参数相对于第一优化听音区对应的第一混音参数的差异部分的参数，该差异参数并不是N-1个优化听音区的N-1个第一混音参数。通过音频优化元数据中携带差异参数，可以减少音频优化元数据的数据量大小，提高数据传输效率和解码效率。

在一种可能的实现方式中，所述第一混音参数包括如下至少一种：所述第一音频数据的标识、均衡参数、压缩器参数、和混响器参数。

在上述方案中，第一混音参数可以包括第一音频数据的标识，例如包括M个第一音频数据的标识。第一混音参数还可以包括均衡参数，例如均衡参数可以包括均衡参数标识符、每个频段的增益值和Q值。第一混音参数还可以包括压缩器参数，例如压缩器参数可以包括压缩器标识符、门限值、压缩比、启动时间、释放时间、增益补偿值。第一混音参数还可以包括混响器参数，例如混响器参数可以包括混响类型、混响时间、延迟时间、直达混响比。

在一种可能的实现方式中，所述第一优化听音区的第一元数据，包括如下至少一种：所述第一优化听音区的参考坐标系、所述第一优化听音区的中心位置坐标、和所述第一优化听音区的形状。

在一种可能的实现方式中，所述音频优化元数据还包括：N个优化听音区中第一优化听音区的中心位置坐标、和所述N个优化听音区中除所述第一优化听音区以外的N-1个优化听音区的中心位置坐标相对于所述第一优化听音区的中心位置坐标的位置偏移量，所述N为正整数。

在上述方案中，该位置偏移量是N个优化听音区中除第一优化听音区以外的N-1个优化听音区的中心位置坐标相对于第一优化听音区的中心位置坐标产生的偏移的大小，而并非N-1个优化听音区的中心位置坐标。通过音频优化元数据中携带位置偏移量，可以减少音频优化元数据的数据量大小，提高数据传输效率和解码效率。

在一种可能的实现方式中，所述音频优化元数据还包括：优化听音区变化标识符，和/或第一混音参数变化标识符，其中，

所述优化听音区变化标识符，用于指示所述第一优化听音区是否发生变化；

所述第一混音参数变化标识符，用于指示当前帧的所述第一音频数据对应的第一混音参数，相对于前一帧的第一音频数据对应的第一混音参数是否发生变化。

在上述方案中，传输终端可以在音频优化元数据中设置第一混音参数变化标识符，第一混音参数变化标识符用于指示当前帧的第一音频数据对应的第一混音参数，相对于前一帧的第一音频数据对应的第一混音参数是否发生变化，从而使得解码终端根据该第一混音参数变化标识符确定第一优化听音区对应的第一混音参数是否发生变化。另外，传输终端可以在音频优化元数据中设置优化听音区变化标识符，优化听音区变化标识符用于指示制作终端确定的优化听音区是否发生变化，从而使得解码终端根据该优化听音区变化标识符确定优化听音区是否发生变化。

第三方面，本申请实施例还提供一种音频处理方法，包括：

获取音频基础元数据和N个优化听音区的元数据，所述N为正整数，所述N个优化听音区包括第一优化听音区；

根据所述第一优化听音区和所述音频基础元数据对M个待处理音频数据进行渲染处理，以得到所述第一优化听音区对应的M个渲染音频数据，所述M为正整数；

对所述M个渲染音频数据进行第一混音处理，以得到M个第一混音音频数据和所述第一优化听音区对应的第一混音参数；

根据所述第一优化听音区的第一元数据和所述第一混音参数生成音频优化元数据，所述音频优化元数据包括：所述第一元数据和所述第一混音参数。

在上述方案中，由于本申请实施例中音频优化元数据包括第一优化听音区的第一元数据和第一混音参数，因此能够提供适用于用户自由移动至第一优化听音区时的音频优化元数据，提高用户在自由移动时的听音效果。

在一种可能的实现方式中，所述方法还包括：将所述M个第一混音音频数据进行混合处理，以得到所述第一优化听音区对应的混合音频数据；对所述混合音频数据进行第二混音处理，以得到所述第一优化听音区对应的第二混音音频数据和所述第一优化听音区对应的第二混音参数；

所述根据所述第一优化听音区的第一元数据和所述第一混音参数生成音频优化元数据，包括：

根据所述第一优化听音区的第一元数据、所述第一混音参数和所述第二混音参数生成所述音频优化元数据。

在上述方案中，在制作终端执行两次混音处理的情况下，制作终端得到的音频优化元数据可以包括第一优化听音区的第一元数据、第一优化听音区对应的第一混音参数和第一优化听音区对应的第二混音参数。该音频优化元数据被解码终端获取之后，解码终端也需要进行两次混音处理，通过上述的两次混音处理进一步的可以提高用户的听音效果。

在一种可能的实现方式中，所述第二混音参数包括：所述第二混音音频数据的标识、均衡参数、压缩器参数、混响器参数。

在上述方案中，第二混音参数可以包括第二混音音频数据的标识。第二混音参数还可以包括均衡参数，例如均衡参数可以包括均衡参数标识符、每个频段的增益值和Q值。第二混音参数还可以包括压缩器参数，例如压缩器参数可以包括压缩器标识符、门限值、压缩比、启动时间、释放时间、增益补偿值。第二混音参数还可以包括混响器参数，例如混响器参数可以包括混响类型、混响时间、延迟时间、直达混响比。

在一种可能的实现方式中，所述第一混音参数包括：所述第一混音音频数据的标识、均衡参数、压缩器参数、混响器参数。

在上述方案中，第一混音参数可以包括第一混音音频数据的标识，例如包括M个第一混音音频数据的标识。第一混音参数还可以包括均衡参数，例如均衡参数可以包括均衡参数标识符、每个频段的增益值和Q值。第一混音参数还可以包括压缩器参数，例如压缩器参数可以包括压缩器标识符、门限值、压缩比、启动时间、释放时间、增益补偿值。第一混音参数还可以包括混响器参数，例如混响器参数可以包括混响类型、混响时间、延迟时间、直达混响比。

在一种可能的实现方式中，所述获取N个优化听音区的元数据，包括：

获取视频图像元数据和视频图像数据，所述视频图像元数据包括：视频元数据和图像元数据，所述视频图像数据包括：视频数据和图像数据；

根据所述视频图像元数据对所述视频图像数据进行渲染处理，以得到视频场景信息；

根据所述视频场景信息获取所述N个优化听音区的元数据。

在上述方案中，制作终端根据生成的视频场景信息对N个优化听音区进行配置，从而可以生成N个优化听音区的元数据，由于使用了视频场景信息生成N个优化听音区的元数据，因此能够选择出与视频场景更匹配的优化听音区。

在一种可能的实现方式中，所述根据所述第一优化听音区和所述音频基础元数据对M个待处理音频数据进行渲染处理，包括：

根据所述第一优化听音区对应的混合音频数据调整所述音频基础元数据，以得到调整后的音频基础元数据，所述混合音频数据是对所述M个第一混音音频数据进行混合处理得到的；

根据所述第一优化听音区和所述调整后的音频基础元数据对所述M个待处理音频数据进行所述渲染处理。

在上述方案中，制作终端根据第一优化听音区对应的混合音频数据调整音频基础元数据，以得到调整后的音频基础元数据，例如，调整音频数据中一个或多个音频信号的频率响应或者音频基础元数据音频信号的位置、增益等参数，从而可以调整音频数据的位置、增益等参数，通过调整音频基础元数据，可以进一步提高用户的听音效果。

在一种可能的实现方式中，所述第一优化听音区的第一元数据包括如下至少一种：所述第一优化听音区的参考坐标系、所述第一优化听音区的中心位置坐标、和所述第一优化听音区的形状。

第四方面，本申请实施例还提供一种解码终端，包括：

解码模块，用于对音频码流进行解码，以得到音频优化元数据、音频基础元数据和M个解码音频数据，其中，所述音频优化元数据包括第一优化听音区的第一元数据和所述第一优化听音区对应的第一解码混音参数，所述M为正整数；

渲染模块，用于根据用户所在的当前位置和所述音频基础元数据对所述M个第一解码音频数据进行渲染处理，以得到M个渲染音频数据；

混音模块，用于当所述当前位置处于所述第一优化听音区内时，根据所述第一解码混音参数对所述M个渲染音频数据进行第一混音处理，以得到所述M个第一混音音频数据；

混合模块，用于对所述M个第一混音音频数据进行混合处理，以得到所述第一优化听音区对应的混合音频数据。

在本申请的第四方面中，解码终端的组成模块还可以执行前述第一方面以及各种可能的实现方式中所描述的步骤，详见前述对第一方面以及各种可能的实现方式中的说明。

第五方面，本申请实施例还提供一种传输终端，包括：

接收模块，用于接收音频优化元数据、音频基础元数据和所述M个第一音频数据，所述音频优化元数据包括：第一优化听音区的第一元数据和所述第一优化听音区对应的第一混音参数，所述M为正整数；

编码模块，用于对所述音频优化元数据、所述音频基础元数据和所述M个第一音频数据进行压缩编码，以得到音频码流；

发送模块，用于发送所述音频码流。

在本申请的第五方面中，传输终端的组成模块还可以执行前述第二方面以及各种可能的实现方式中所描述的步骤，详见前述对第二方面以及各种可能的实现方式中的说明。

第六方面，本申请实施例还提供一种制作终端，包括：

获取模块，用于获取音频基础元数据和N个优化听音区的元数据，所述N为正整数，所述N个优化听音区包括第一优化听音区；

渲染模块，用于根据所述第一优化听音区和所述音频基础元数据对M个待处理音频数据进行渲染处理，以得到所述第一优化听音区对应的M个渲染音频数据，所述M为正整数；

混音模块，用于对所述M个渲染音频数据进行第一混音处理，以得到M个第一混音音频数据和所述第一优化听音区对应的第一混音参数；

生成模块，用于根据所述第一优化听音区的第一元数据和所述第一混音参数生成音频优化元数据，所述音频优化元数据包括：所述第一元数据和所述第一混音参数。

在本申请的第六方面中，制作终端的组成模块还可以执行前述第三方面以及各种可能的实现方式中所描述的步骤，详见前述对第三方面以及各种可能的实现方式中的说明。

第七方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面至第三方面中所述的方法。

第八方面，本申请实施例提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面至第三方面中所述的方法。

第九方面，本申请实施例提供一种通信装置，该通信装置可以包括终端设备或者芯片等实体，所述通信装置包括：处理器、存储器；所述存储器用于存储指令；所述处理器用于执行所述存储器中的所述指令，使得所述通信装置执行如前述第一方面至第三方面中任一项所述的方法。

第十方面，本申请提供了一种芯片系统，该芯片系统包括处理器，用于支持解码终端、传输终端和制作终端实现上述方面中所涉及的功能，例如，发送或处理上述方法中所涉及的数据和/或信息。在一种可能的设计中，所述芯片系统还包括存储器，所述存储器，用于保存解码终端、传输终端和制作终端必要的程序指令和数据。该芯片系统，可以由芯片构成，也可以包括芯片和其他分立器件。

从以上技术方案可以看出，本申请实施例具有以下优点：

在本申请的一个实施例中，对音频码流进行解码，以得到音频优化元数据、音频基础元数据和M个解码音频数据，其中，音频优化元数据包括第一优化听音区的第一元数据和第一优化听音区对应的第一解码混音参数，M为正整数；根据用户所在的当前位置和音频基础元数据对M个第一解码音频数据进行渲染处理，以得到M个渲染音频数据；当用户所在的当前位置处于第一优化听音区时，根据第一解码混音参数对M个渲染音频数据进行第一混音处理，以得到M个第一混音音频数据；对M个第一混音音频数据进行混合处理，以得到第一优化听音区对应的混合音频数据。由于本申请实施例中可以获取第一优化听音区的元数据和第一优化听音区对应的第一解码混音参数，根据用户所在的当前位置和音频基础元数据对M个第一解码音频数据进行渲染处理，以得到M个渲染音频数据，接下来确定用户的当前位置处于第一优化听音区内，根据第一解码混音参数对M个渲染音频数据进行第一混音处理，以得到M个第一混音音频数据，最后将M个第一混音音频数据进行混合处理，以得到第一优化听音区对应的混合音频数据。因此本申请实施例中，当用户的当前位置位于第一优化听音区内时，混音处理和数据混合均采用该第一优化听音区对应的音频数据实现，能够提供适用于用户自由移动至第一优化听音区时的音频优化元数据，提高用户在自由移动时的听音效果。

在本申请的另一个实施例中，接收音频优化元数据、音频基础元数据和M个第一音频数据，音频优化元数据包括：第一优化听音区的第一元数据和第一优化听音区对应的第一混音参数，M为正整数；对音频优化元数据、音频基础元数据和M个第一音频数据进行压缩编码，以得到音频码流；发送音频码流。本申请实施例中首先接收到音频优化元数据、音频基础元数据和M个第一音频数据，该音频优化元数据包括第一优化听音区的元数据和第一优化听音区的第一混音参数，因此能够提供适用于用户自由移动至第一优化听音区时的音频优化元数据，提高用户在自由移动时的听音效果。

在本申请的另一个实施例中，获取音频基础元数据和N个优化听音区的元数据，N为正整数，N个优化听音区包括第一优化听音区；根据第一优化听音区和音频基础元数据对M个待处理音频数据进行渲染处理，以得到第一优化听音区对应的M个渲染音频数据，M为正整数；对M个渲染音频数据进行第一混音处理，以得到M个第一混音音频数据和第一优化听音区对应的第一混音参数；根据第一优化听音区的第一元数据和第一混音参数生成音频优化元数据，音频优化元数据包括：第一元数据和第一混音参数。由于本申请实施例中音频优化元数据包括第一优化听音区的第一元数据和第一混音参数，因此能够提供适用于用户自由移动至第一优化听音区时的音频优化元数据，提高用户在自由移动时的听音效果。

附图说明

图1为本申请实施例提供的一种音频处理系统的组成结构示意图；

图2为本申请实施例提供的制作终端、传输终端和解码终端之间的一种交互流程示意图；

图3为本申请实施例提供的一种虚拟现实流服务系统的流数据处理流程示意图；

图4为本申请实施例提供的一种6DoF VR音乐场景端到端的流程图；

图5为本申请实施例提供的一种支持6DoF的VR音乐会场景示意图；

图6为本申请实施例提供的另一种6DoF VR音乐场景端到端的流程图；

图7为本申请实施例提供的一种解码终端的组成结构示意图；

图8为本申请实施例提供的一种传输终端的组成结构示意图；

图9为本申请实施例提供的一种制作终端的组成结构示意图；

图10为本申请实施例提供的另一种解码终端的组成结构示意图；

图11为本申请实施例提供的另一种传输终端的组成结构示意图；

图12为本申请实施例提供的另一种制作终端的组成结构示意图。

具体实施方式

下面结合附图，对本申请的实施例进行描述。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换，这仅仅是描述本申请的实施例中对相同属性的对象在描述时所采用的区分方式。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。

一部音乐作品的制作过程包含以下几个步骤：作词作曲、编曲、录音、混音、制作母带等。其中混音是音乐制作中必不可少的一个步骤，混音的质量会决定一部音乐作品的成败。

混音是将多种来源的声音整合到单通道音轨、立体声音轨或者多声道音轨中，这些声源可能是小提琴声、鼓声、人声或者其他录制的声音。在混音的过程中，需要对每一个原始信号的频率、动态、音质、定位和声场等单独进行调整，使每个音轨的信号最佳化；最后再对混合后的信号的频率、动态等进行调整，使混合后的信号的听觉效果最佳化。混音效果器包括均衡器、压缩器、混响器等。通过混音能够制作出一般听众在现场录音时无法听到的音质细腻层次分明的音乐效果，使音乐更具表现力。

随着虚拟现实(virtual reality，VR)、增强现实(augmented reality，AR)、混合现实(mix reality，MR)领域的发展，虚拟现实技术也逐渐被应用到了音乐领域之中。各种VR音乐场景应运而生，如VR音乐MV场景、VR演唱会直播场景、VR音乐综艺节目等。相较于传统音乐，这些VR音乐场景兼具3D空间音乐效果和VR视觉体验，更具现场感和沉浸感，大幅提升了用户的音乐体验。目前的大多数VR音乐场景中，3DoF场景的音乐效果只支持用户的头动效果，并不支持六自由度(6DoF)场景。

一方面，VR硬件设备越来越成熟，另一方面，用户对音乐的体验需求也越来越高，因此支持6DoF的VR音乐场景将会是未来音乐领域的潮流。在传统的音乐创作方式中，制作端在混音时通常假设用户位于甜点位置，并且用户的位置是不变的；混音在音乐信号传输之前已经完成，传输的音乐信号是经混音后的混合信号；在用户端(即音频解码端)，音频渲染器只需要对用户的播放设备进行适配，用户就能体验到完美的音乐效果。而在支持6DoF的VR音乐场景中，用户可以在场景中自由地移动。以一个小提琴声源为例，用户在距离小提琴3米(m)位置和距离小提琴0.5m位置处听到的小提琴声的大小、音色、混响等效果差别很大。由于用户位置不停地变化，在混音时无法确定用户的实际位置，因此传统的音乐制作方式难以确保用户在自由移动时能听到一个完美的音乐效果，会严重影响支持6DoF的VR音乐场景的用户体验。

本申请实施例能够提高用户在自由移动时的听音效果，例如用户在虚拟现实场景或增强现实场景中自由移动时，提高用户的听音效果。接下来对本申请实施例进行详细说明。如图1所示，本申请实施例提供一种音频处理系统100，包括：制作终端101、传输终端102和解码终端103。其中，制作终端101能够在虚拟场景中选取1个或若干个的优化听音区，该优化听音区又可以称为“最优听音区”，优化听音区是从虚拟场景中预先选择出的听音区域，制作终端101为每个优化听音区配置音频优化元数据，即可以针对每个优化听音区生成一套相应的混音参数，以保证听音者在该优化听音区内能够听到混音后的音乐信号的音乐效果，从而提升6DoF音乐场景内用户的音乐体验。

该制作终端101可以和传输终端102通信，传输终端102可以和解码终端103进行通信，传输终端102可以从制作终端101接收到每个优化听音区的音频优化元数据，传输终端102通过对音频优化元数据进行压缩编码，以得到音频码流。传输终端102可以将音频码流发送至解码终端103。解码终端103可以获取到每个优化听音区的音频优化元数据，解码终端103按照用户所在的当前位置，选择与该当前位置匹配的一个优化听音区(例如匹配得到的优化听音区称为第一优化听音区)，再使用该第一优化听音区对应的第一解码混音参数进行混音，以使得该用户听到混音后的音乐信号的音乐效果，从而提升6DoF音乐场景内用户的音乐体验。

在本申请实施例中，该制作终端可以包括6DoF音频的VR音乐软件、3D音频引擎等，该制作终端可以应用于VR终端设备、芯片及无线网络设备。

传输终端可以应用于各种有音频通信需要的终端设备、有转码需要的无线设备与核心网设备，例如传输终端可以是上述终端设备或者无线设备或者核心网设备的音频编码器。例如，音频编码器可以包括无线接入网、核心网的媒体网关、转码设备、媒体资源服务器、移动终端、固网终端等，音频编码器还可以是应用于虚拟现实技术流媒体(streaming)服务中的音频编码器。

同样的，该解码终端可以应用于各种有音频通信需要的终端设备、有转码需要的无线设备与核心网设备，例如解码终端可以是上述终端设备或者无线设备或者核心网设备的音频解码器。

首先介绍本申请实施例提供的一种音频处理方法，该音频处理方法基于图1所述的音频处理系统实现，如图2所示，为本申请实施例提供的制作终端、传输终端和解码终端之间的一种交互流程示意图，该制作终端可以和传输终端通信，传输终端可以和解码终端进行通信，其中，制作终端执行如下步骤201至204，传输终端执行如下步骤205至207，解码终端执行如下步骤208至211。

201、制作终端获取音频基础元数据和N个优化听音区的元数据，N为正整数，N个优化听音区包括第一优化听音区。

其中，音频基础元数据是指在制作VR音乐场景时所需要的基础元数据，对于音频基础元数据的组成部分和内容不做限定。例如，表1所示，音频基础元数据包括如下至少一种：声源元数据、物理模型元数据、声学元数据、移动物体元数据、交互元数据、和资源元数据。

表1为音频基础元数据的组成结构表

具体的，声源元数据用于描述声源的属性，例如声源元数据可以包含对象音频元数据、多通道音频元数据和场景音频元数据。其中，对象音频元数据及多通道音频元数据包含声源的参考坐标系、位置、增益、体积及形状、指向性、衰减模式及播放控制等信息。场景音频元数据包含场景传声器的位置和参考坐标系、场景音频的增益、有效区域、重放支持自由度类型(0/3/6 DoF)、衰减模式及播放控制等信息。

物理模型元数据包含球体模型、柱状体模型、立方体模型和三角形网状模型等，其中球体模型、柱状体模型、立方体模型用于描述虚拟房间内的物体形状等，三角形网状模型可以用于描述场景中任意形状的房间及不规则的物体等。

声学元数据包含声学材料元数据和声学环境元数据，其中声学材料元数据用于描述场景内物体及房间表面材料的声学特性，声学环境元数据用于描述VR场景内房间的混响信息等。

移动物体元数据用于描述场景内声源、物体等的运动信息；交互元数据用于描述用户与VR场景的交互行为。

资源元数据用于描述VR场景所需要的资源信息等。

绝大多数VR音乐场景中使用的元数据具体可以被前述表1中的元数据涵盖。

另外，本申请实施例中，制作终端除了获取音频基础元数据之外，制作终端还可以从虚拟场景中获取N个优化听音区，N的取值不做限定，例如N可以等于1，或者N大于1。制作终端获取这N个优化听音区的元数据。其中，一个优化听音区的元数据中包括该优化听音区的配置参数。例如该优化听音区的大小、形状、中心位置等参数。对于优化听音区的元数据包括的配置参数不做限定。

例如，N个优化听音区可以覆盖用户的不同位置，N个优化听音区包括第一优化听音区，该第一优化听音区可以指的是与用户的当前位置匹配的优化听音区。

在本申请的一些实施例中，第一优化听音区可以是N个优化听音区中的任意一个优化听音区。第一优化听音区的第一元数据包括如下至少一种：第一优化听音区的参考坐标系、第一优化听音区的中心位置坐标、和第一优化听音区的形状。

具体的，第一优化听音区的元数据中可以包括参考坐标系，或者该第一优化听音区的元数据中可以不包括参考坐标系，例如该第一优化听音区采用默认的坐标系。

第一优化听音区的元数据可以包括描述第一优化听音区的描述信息，例如描述第一优化听音区的中心位置坐标，第一优化听音区的形状等。本申请实施例中第一优化听音区的形状可以有多种，例如形状可以为球形、立方体形、柱形或者其他任意形状。

在本申请的一些实施例中，步骤201制作终端获取N个优化听音区的元数据，包括：

A1、制作终端获取视频图像元数据和视频图像数据，视频图像元数据包括：视频元数据和图像元数据，视频图像数据包括：视频数据和图像数据。

其中，制作终端在虚拟场景下还可以获取到视频图像元数据和视频图像数据。视频图像元数据又可以称为视频和图像元数据，视频图像数据又可以称为视频和图像数据，视频图像数据包括视频和图像的数据内容，视频图像元数据是用来描述视频及图像内容属性的信息。

A2、制作终端根据视频图像元数据对视频图像数据进行渲染处理，以得到视频场景信息。

制作终端使用视频图像元数据对视频图像数据进行视频场景的渲染处理，以得到视频场景信息，例如该视频场景可以是虚拟场景。

A3、制作终端根据视频场景信息获取N个优化听音区的元数据。

其中，制作终端根据生成的视频场景信息对N个优化听音区进行配置，从而可以生成N个优化听音区的元数据，由于使用了视频场景信息生成N个优化听音区的元数据，因此能够选择出与视频场景更匹配的优化听音区。

202、制作终端根据第一优化听音区和音频基础元数据对M个待处理音频数据进行渲染处理，以得到第一优化听音区对应的M个渲染音频数据，M为正整数。

其中，制作终端获取M个待处理第一音频数据，该M个待处理第一音频数据是需要发送给解码终端的音频数据。M的取值不做限定，例如M可以等于1，或者M大于1。

制作终端在获取到M个待处理音频数据之后，针对每个优化听音区进行渲染处理，从而可以得到每个优化听音区对应的渲染音频数据。例如，制作终端根据N个优化听音区中第一优化听音区和音频基础元数据对M个待处理音频数据进行渲染处理，以得到N个优化听音区中第一优化听音区对应的M个渲染音频数据。

需要说明的是，渲染处理后的第二音频数据可以为单通道信号，也可以为双耳渲染信号。N个优化听音区共有N*M个渲染处理后的第二音频数据，*表示相乘运算符号。

需要说明的是，N个优化听音区除了包括第一优化听音区，该N个优化听音区还可以包括第二优化听音区，本申请实施例提供的方法还可以包括：

制作终端根据第二优化听音区和音频基础元数据对M个待处理音频数据进行渲染处理，以得到第二优化听音区对应的M个渲染音频数据，M为正整数。

其中，制作终端根据第二优化听音区的渲染处理与步骤201中根据第一优化听音区的渲染处理相类似，此处不再赘述。同样的，对于后续步骤203至步骤204也是针对第一优化听音区进行的处理，对于第二优化听音区也可以执行与步骤203至步骤204中相类似的处理，此处不再赘述。

203、制作终端对M个渲染音频数据进行第一混音处理，以得到M个第一混音音频数据和第一优化听音区对应的第一混音参数。

其中，制作终端在获取到第一优化听音区对应的M个渲染音频数据之后，针对第一优化听音区，还可以对第一优化听音区对应的M个渲染音频数据进行第一混音处理，以得到M个第一混音音频数据和第一优化听音区对应的第一混音参数。其中，第一混音参数用于记录第一混音处理时采用的混音参数，该混音参数又可以称为“混音元数据”。上述混音处理步骤可以由VR音乐场景制作终端完成或者由混音终端完成，此处不做限定。

需要说明的是，步骤203中M个第一混音音频数据为制作终端执行第一混音处理得到的音频数据。与后续解码终端执行第一混音处理得到的M个第一混音音频数据为不同的音频数据。

在本申请的一些实施例中，第一混音参数包括如下至少一种：第一混音音频数据的标识、均衡参数、压缩器参数、和混响器参数。

其中，第一混音参数可以包括第一混音音频数据的标识，例如包括M个第一混音音频数据的标识。第一混音参数还可以包括均衡参数，例如均衡参数可以包括均衡参数标识符、每个频段的增益值和Q值，其中，Q值是均衡滤波器的一个参数，表示均衡滤波器的品质因数，可用于描述均衡滤波器的带宽。第一混音参数还可以包括压缩器参数，例如压缩器参数可以包括压缩器标识符、门限值、压缩比、启动时间、释放时间、增益补偿值。第一混音参数还可以包括混响器参数，例如混响器参数可以包括混响类型、混响时间、延迟时间、直达混响比。

204、制作终端根据第一优化听音区的第一元数据和第一混音参数生成音频优化元数据，音频优化元数据包括：第一元数据和第一混音参数。

其中，制作终端在获取到第一优化听音区对应的第一混音参数之后，针对第一优化听音区，可以生成音频优化元数据，该音频优化元数据不同于前述的音频基础元数据，音频优化元数据包括：第一优化听音区的第一元数据，和第一优化听音区对应的第一混音参数。音频优化元数据用于对当前位置处于第一优化听音区内的用户听到的音乐信号进行优化，以提高音乐信号的音乐效果。

在本申请的一些实施例中，制作终端可以执行的音频处理方法还包括如下步骤：

B1、制作终端将M个第一混音音频数据进行混合处理，以得到第一优化听音区对应的混合音频数据；

B2、对混合音频数据进行第二混音处理，以得到第一优化听音区对应的第二混音音频数据和第一优化听音区对应的第二混音参数。

具体的，制作终端在步骤203中进行了第一混音处理之后，为了进一步提高音频数据的混音效果，制作终端还可以执行步骤B1至B2，针对第一优化听音区，制作终端可以对M个第一混音音频数据进行混合处理，得到第一优化听音区对应的混合音频数据，然后再对混合音频数据进行第二混音处理，可以得到第一优化听音区对应的第二混音音频数据和第一优化听音区对应的第二混音参数。上述混音处理步骤可以由VR音乐场景制作终端完成或者由混音终端完成，此处不做限定。

在执行步骤B1至B2的实现场景下，前述步骤204制作终端根据第一优化听音区的第一元数据和第一混音参数生成音频优化元数据，包括：

制作终端根据第一元数据、第一混音参数和第二混音参数生成音频优化元数据。

其中，在制作终端执行两次混音处理的情况下，制作终端得到的音频优化元数据可以包括第一优化听音区的第一元数据、第一优化听音区对应的第一混音参数和第一优化听音区对应的第二混音参数。该音频优化元数据被解码终端获取之后，解码终端也需要进行两次混音处理，通过上述的两次混音处理进一步的可以提高用户的听音效果。

在本申请的一些实施例中，第二混音参数包括：第二混音音频数据的标识、均衡参数、压缩器参数、混响器参数。

其中，第二混音参数可以包括第二混音音频数据的标识。第二混音参数还可以包括均衡参数，例如均衡参数可以包括均衡参数标识符、第一频段的增益值和Q值。第二混音参数还可以包括压缩器参数，例如压缩器参数可以包括压缩器标识符、门限值、压缩比、启动时间、释放时间、增益补偿值。第二混音参数还可以包括混响器参数，例如混响器参数可以包括混响类型、混响时间、延迟时间、直达混响比。

C1、制作终端将M个第一音频数据、音频基础元数据和音频优化元数据发送至传输终端。

其中，制作终端将M个第一音频数据、音频基础元数据和音频优化元数据一起发送给传输终端，或者制作终端还可以将M个第一音频数据、音频基础元数据和音频优化元数据分别发送给传输终端，对于具体的发送方式，此处不做限定。传输终端可以再将M个第一音频数据、音频基础元数据和音频优化元数据发送给解码终端，以使得解码终端接收到M个第一音频数据、音频基础元数据和音频优化元数据。

在本申请的一些实施例中，制作终端还可以对音频基础元数据进行调整。具体的，前述步骤202根据第一优化听音区和所述音频基础元数据对M个待处理音频数据进行渲染处理包括步骤：

D1、制作终端根据第一优化听音区对应的混合音频数据调整音频基础元数据，以得到调整后的音频基础元数据，混合音频数据是对M个第一混音音频数据进行混合处理得到的；

D2、制作终端根据第一优化听音区和调整后的音频基础元数据对M个待处理音频数据进行渲染处理。

具体的，在D1中，针对第一优化听音区，制作终端可以对M个第一混音音频数据进行混合处理，以此可以得到第一优化听音区对应的混合音频数据。制作终端根据第一优化听音区对应的混合音频数据调整音频基础元数据，以得到调整后的音频基础元数据，例如，调整音频数据中一个或多个音频信号的频率响应或者音频基础元数据音频信号的位置、增益等参数，从而可以调整音频数据的位置、增益等参数，调整最终用户听到的音乐信号的音乐效果。在D2中，制作终端使用第一优化听音区和调整后的音频基础元数据对M个待处理音频数据进行渲染处理，通过调整音频基础元数据，可以进一步提高用户的听音效果。

制作终端通过执行上述步骤201至步骤204，可以获取到音频优化元数据，然后制作终端向传输终端发送音频优化元数据。传输终端执行后续的步骤205至步骤207。

205、传输终端接收音频优化元数据、音频基础元数据和M个第一音频数据，音频优化元数据包括：第一优化听音区的第一元数据和第一优化听音区对应的第一混音参数；M为正整数。

其中，在制作终端执行的步骤201至步骤204中，详细说明了音频优化元数据的生成过程。制作终端在生成音频优化元数据之后，制作终端还可以向传输终端发送音频优化元数据，传输终端接收来自制作终端的音频优化元数据。另外，制作终端还可以像传输终端发送音频基础元数据和M个第一音频数据，传输终端接收来自制作终端的音频基础元数据和M个第一音频数据。

206、传输终端对音频优化元数据、音频基础元数据和M个第一音频数据进行压缩编码，以得到音频码流。

其中，传输终端接收到音频优化元数据、音频基础元数据和M个第一音频数据之后，可以使用预设的编码算法对该音频优化元数据、音频基础元数据和M个第一音频数据进行压缩编码，以得到音频码流。本申请实施例对采用的编码算法不做限定。

207、传输终端发送音频码流。

其中，传输终端使用传输终端和解码终端之间的传输通道发送音频码流。

在本申请的一些实施例中，传输终端可以执行的音频处理方法还包括如下步骤：

E1、传输终端接收来自制作终端的视频图像元数据和视频图像数据，视频图像元数据包括：视频元数据和图像元数据，视频图像数据包括：视频数据和图像数据；

E2、传输终端对视频图像元数据和视频图像数据进行压缩编码，以得到视频图像码流；

E3、传输终端将视频图像码流发送至解码终端。

其中，制作终端还可以向传输终端发送视频图像元数据和视频图像数据，传输终端接收到视频图像元数据和视频图像数据之后，可以生成视频图像码流，该视频图像码流中携带视频图像元数据和视频图像数据。从而使得解码终端从传输终端接收到该视频图像码流之后，可以获取到视频图像元数据和视频图像数据。

在本申请的一些实施例中，音频优化元数据还包括：第二混音参数变化标识符，其中，

第二混音参数变化标识符，用于指示当前帧的第一音频数据对应的第二混音参数，相对于前一帧的第一音频数据对应的第二混音参数是否发生变化。

其中，传输终端可以在音频优化元数据中设置第二混音参数变化标识符，第二混音参数变化标识符用于指示第一优化听音区对应的第二混音参数是否发生变化，从而使得解码终端根据该第二混音参数变化标识符确定第一优化听音区对应的第二混音参数是否发生变化。举例说明如下，当前帧的第一音频数据的第二混音参数相对于前一帧的第一音频数据对应的第二混音参数发生变化时，第二混音参数变化标识符为真，传输终端还可以发送第一音频数据对应的第二混音参数的变化信息，解码终端接收到该第一音频数据对应的第二混音参数的变化信息，根据该变化信息获取到当前帧的第一音频数据对应的变化后的第二混音参数。

在本申请的一些实施例中，音频优化元数据，还包括：第一优化听音区对应的第二混音参数。

其中，在制作终端执行两次混音处理的情况下，制作终端得到的音频优化元数据可以包括第一优化听音区的第一元数据、第一优化听音区对应的第一混音参数和第一优化听音区对应的第二混音参数。该音频优化元数据被解码终端获取之后，解码终端也需要进行两次混音处理，通过两次混音处理可以提高用户的听音效果。

在本申请的一些实施例中，音频优化元数据，包括：N个优化听音区中一个优化听音区对应的第二混音参数，和N个优化听音区中除第一优化听音区以外的N-1个优化听音区的N-1个第二混音参数相对于第一优化听音区对应的第二混音参数的差异参数；

其中，该差异参数是N个优化听音区中除第一优化听音区以外的N-1个优化听音区的N-1个第二混音参数相对于第一优化听音区对应的第二混音参数的差异部分的参数，该差异参数并不是N-1个优化听音区的N-1个第二混音参数。例如，第一优化听音区对应的第二混音参数包括：参数1、参数2和参数3，若N-1个优化听音区对应的N-1个第二混音参数中每个优化听音区对应的第二混音参数包括：参数1、参数2和参数4，则N-1优化听音区对应的N-个第二混音参数相对于第一优化听音区对应的第二混音参数的差异参数包括：参数4。通过音频优化元数据中携带差异参数，可以减少音频优化元数据的数据量大小，提高数据传输效率和解码效率。

在本申请的一些实施例中，第二混音参数包括：第一音频数据的标识、均衡参数、压缩器参数、混响器参数。

其中，第二混音参数可以包括第一音频数据的标识，例如包括第一音频数据标识。第二混音参数还可以包括均衡参数，例如均衡参数可以包括均衡参数标识符、每个频段的增益值和Q值。第二混音参数还可以包括压缩器参数，例如压缩器参数可以包括压缩器标识符、门限值、压缩比、启动时间、释放时间、增益补偿值。第二混音参数还可以包括混响器参数，例如混响器参数可以包括混响类型、混响时间、延迟时间、直达混响比。

在本申请的一些实施例中，音频优化元数据还包括：N个优化听音区中第一优化听音区以外的N-1个优化听音区的N-1个第一混音参数相对于第一优化听音区对应的第一混音参数的N-1个差异参数。

其中，该差异参数是N个优化听音区中除第一优化听音区以外的N-1个优化听音区的N-1个第一混音参数相对于第一优化听音区对应的第一混音参数的差异部分的参数，该差异参数并不是N-1个优化听音区的N-1个第一混音参数。例如，第一优化听音区对应的第一混音参数包括：参数1、参数2和参数3，若N-1个优化听音区对应的N-1个第一混音参数中每个优化听音区对应的第一混音参数包括：参数1、参数2和参数4，则N-1优化听音区对应的N-个第一混音参数相对于第一优化听音区对应的第一混音参数的差异参数包括：参数4。通过音频优化元数据中携带差异参数，可以减少音频优化元数据的数据量大小，提高数据传输效率和解码效率。

在本申请的一些实施例中，第一混音参数包括：第一音频数据的标识、均衡参数、压缩器参数、混响器参数。

其中，第一混音参数可以包括第一音频数据的标识，例如包括M个第一音频数据的标识。第一混音参数还可以包括均衡参数，例如均衡参数可以包括均衡参数标识符、每个频段的增益值和Q值。第一混音参数还可以包括压缩器参数，例如压缩器参数可以包括压缩器标识符、门限值、压缩比、启动时间、释放时间、增益补偿值。第一混音参数还可以包括混响器参数，例如混响器参数可以包括混响类型、混响时间、延迟时间、直达混响比。

在本申请的一些实施例中，第一优化听音区的元数据，包括如下至少一种：第一优化听音区的参考坐标系、第一优化听音区的中心位置坐标、和第一优化听音区的形状。

在本申请的一些实施例中，音频优化元数据还包括：N个优化听音区中第一优化听音区的中心位置坐标、和N个优化听音区中除第一优化听音区以外的N-1个优化听音区的中心位置坐标相对于第一优化听音区的中心位置坐标的位置偏移量。

该位置偏移量是N个优化听音区中除第一优化听音区以外的N-1个优化听音区的中心位置坐标相对于第一优化听音区的中心位置坐标产生的偏移的大小，而并非N-1个优化听音区的中心位置坐标。通过音频优化元数据中携带位置偏移量，可以减少音频优化元数据的数据量大小，提高数据传输效率和解码效率。

在本申请的一些实施例中，音频优化元数据还包括：优化听音区变化标识符，和/或第一混音参数变化标识符，其中，

优化听音区变化标识符，用于指示第一优化听音区是否发生变化；

第一混音参数变化标识符，用于指示当前帧的第一音频数据对应的第一混音参数，相对于前一帧的第一音频数据对应的第一混音参数是否发生变化。

其中，传输终端可以在音频优化元数据中设置第一混音参数变化标识符，第一混音参数变化标识符用于指示当前帧的第一音频数据对应的第一混音参数，相对于前一帧的第一音频数据对应的第一混音参数是否发生变化，从而使得解码终端根据该第一混音参数变化标识符确定第一优化听音区对应的第一混音参数是否发生变化。另外，传输终端可以在音频优化元数据中设置优化听音区变化标识符，优化听音区变化标识符用于指示制作终端确定的优化听音区是否发生变化，从而使得解码终端根据该优化听音区变化标识符确定优化听音区是否发生变化。举例说明如下，在编码后的6DoF音频优化元数据中增加优化听音区元数据变化标识符和第一混音参数变化标识符，以提高6DoF音频优化元数据的传输效率。VR音乐场景初始化时，传输起始的音频优化元数据，当VR场景发生变化，优化听音区位置及形状信息发生变化时，优化听音区位置变化标识符为真，传输优化听音区的变化信息；当前帧的第一混音参数发生变化时，第一混音参数变化标识符为真，传输第一混音参数的变化信息。

传输终端执行前述的步骤205至步骤207，解码终端执行后续的步骤208至211。可以理解的是，解码终端执行的音频处理过程和制作终端执行的音频处理过程相似，接下来对解码终端执行的音频处理过程进行说明。

208、解码终端对音频码流进行解码，以得到音频优化元数据、音频基础元数据和M个解码音频数据，其中，音频优化元数据包括第一优化听音区的第一元数据和第一优化听音区对应的第一解码混音参数，M为正整数。

其中，在前述传输终端执行的步骤205至步骤207中，详细说明了音频码流的生成过程。传输终端向解码终端发送音频码流，解码终端接收来自传输终端的音频码流，以得到M个第一解码音频数据、音频优化元数据和音频基础元数据。其中，该M个解码音频数据对应于制作终端侧的M个待处理音频数据，对于M个解码音频数据、音频优化元数据和音频基础元数据的说明，详见前述实施例，此处不再赘述。

209、解码终端根据用户所在的当前位置和音频基础元数据对M个第一解码音频数据进行渲染处理，以得到M个渲染音频数据。

其中，解码终端获取到M个第一解码音频数据、音频优化元数据和音频基础元数据之后，解码终端根据用户所在的当前位置和音频基础元数据对M个第一解码音频数据进行渲染处理，以得到M个渲染音频数据。

需要说明的是，步骤209中M个渲染音频数据为解码终端执行渲染处理得到的音频数据。与前述制作终端执行渲染处理得到的M个渲染音频数据为不同的音频数据。

210、当用户所在的当前位置处于第一优化听音区内时，解码终端根据第一解码混音参数对M个渲染音频数据进行第一混音处理，以得到M个第一混音音频数据。

其中，解码终端根据用户的当前位置从N个优化听音区中获取与该当前位置匹配的某一个优化听音区，将与当前位置匹配的优化听音区称为第一优化听音区。由于步骤208中解码终端获取到音频优化元数据，该音频优化元数据包括第一优化听音区对应的第一解码混音参数，因此可以从音频优化元数据中获取第一优化听音区对应的第一解码混音参数。解码终端根据第一优化听音区对应的第一解码混音参数对M个渲染音频数据进行第一混音处理，以得到第一优化听音区对应的M个第一混音音频数据。第一解码混音参数对应于制作终端侧的第一混音参数，第一混音参数用于记录制作终端进行第一混音处理时采用的混音参数。上述混音处理步骤可以由VR音乐场景制作终端完成或者由混音终端完成，此处不做限定。

211、解码终端对M个第一混音音频数据进行混合处理，以得到第一优化听音区对应的混合音频数据。

其中，解码终端在获取到第一优化听音区对应的M个第一混音音频数据之后，解码终端将第一优化听音区对应的M个第一混音音频数据进行混合处理，以得到第一优化听音区对应的混合音频数据，由于第一优化听音区是包括用户的当前位置的优化听音区，因此解码终端将第一优化听音区对应的M个第一混音音频数据进行混合处理得到的第一优化听音区对应的混合音频数据，第一优化听音区能够与用户的实际位置相适配，因此能够提供适用于用户自由移动至第一优化听音区时的音频优化元数据，提高用户在自由移动时的听音效果。

需要说明的是，该混合音频数据是可以直接用于播放，该混合音频数据被播放时，能够提高用户的听音效果。

在本申请的一些实施例中，音频优化元数据，还包括：第一优化听音区对应的第二解码混音参数。

其中，第二解码混音参数对应于制作终端侧的第二混音参数，第二混音参数用于记录第二混音处理时采用的混音参数。

解码终端可以执行的音频处理方法还包括如下步骤：

F1、解码终端根据第二解码混音参数对混合音频数据进行第二混音处理，以得到第一优化听音区对应的第二混音音频数据。

其中，解码终端在获取到第二解码混音参数之后，还可以根据第二解码混音参数对混合音频数据进行第二混音处理，以得到第一优化听音区对应的第二混音音频数据。通过上述第二混音处理能够得到第二混音音频数据，该第二混音音频数据被播放时，能够提高用户的听音效果。上述混音处理步骤可以由VR音乐场景制作终端完成或者由混音终端完成，此处不做限定。

在制作终端执行两次混音处理的情况下，制作终端得到的音频优化元数据可以包括第一优化听音区的第一元数据、第一优化听音区对应的第一混音参数和第一优化听音区对应的第二混音参数。该音频优化元数据被解码终端获取之后，解码终端也需要进行两次混音处理，通过上述两次混音处理可以提高用户的听音效果。

在本申请的一些实施例中，第二解码混音参数包括：第二混音音频数据的标识、均衡参数、压缩器参数、混响器参数。

其中，第二解码混音参数可以包括第二混音音频数据的标识。第二解码混音参数还可以包括均衡参数，例如均衡参数可以包括均衡参数标识符、每个频段的增益值和Q值。第二解码混音参数还可以包括压缩器参数，例如压缩器参数可以包括压缩器标识符、门限值、压缩比、启动时间、释放时间、增益补偿值。第二解码混音参数还可以包括混响器参数，例如混响器参数可以包括混响类型、混响时间、延迟时间、直达混响比。

在本申请的一些实施例中，音频优化元数据，还包括：N个优化听音区中除第一优化听音区以外的N-1个优化听音区对应的N-1个第二解码混音参数相对于第一优化听音区对应的第二解码混音参数的N-1个差异参数，N为正整数。

其中，该差异参数是N个优化听音区中除第一优化听音区以外的N-1个优化听音区的N-1个第二解码混音参数相对于第一优化听音区对应的第二解码混音参数的差异部分的参数，该差异参数并不是N-1个优化听音区的N-1个第二解码混音参数。例如，第一优化听音区对应的第二解码混音参数包括：参数1、参数2和参数3，若N-1个优化听音区对应的N-1个第二解码混音参数中每个优化听音区对应的第二解码混音参数包括：参数1、参数2和参数4，则N-1优化听音区对应的N-个第二解码混音参数相对于第一优化听音区对应的第二解码混音参数的差异参数包括：参数4。通过音频优化元数据中携带差异参数，可以减少音频优化元数据的数据量大小，提高数据传输效率和解码效率。

在本申请的一些实施例中，第一解码混音参数包括如下至少一种：渲染音频数据的标识、均衡参数、压缩器参数、和混响器参数。

其中，第一解码混音参数可以包括渲染音频数据的标识，例如包括M个渲染音频数据的标识。第一解码混音参数还可以包括均衡参数，例如均衡参数可以包括均衡参数标识符、每个频段的增益值和Q值。第一解码混音参数还可以包括压缩器参数，例如压缩器参数可以包括压缩器标识符、门限值、压缩比、启动时间、释放时间、增益补偿值。第一解码混音参数还可以包括混响器参数，例如混响器参数可以包括混响类型、混响时间、延迟时间、直达混响比。

在本申请的一些实施例中，所述音频优化元数据，包括：N个优化听音区中除所述第一优化听音区以外的N-1个优化听音区对应的N-1个第一解码混音参数相对于所述第一优化听音区对应的第一解码混音参数的N-1个差异参数，所述N为正整数。

其中，该差异参数是N个优化听音区中除第一优化听音区以外的N-1个优化听音区的N-1个第一解码混音参数相对于第一优化听音区对应的第一解码混音参数的差异部分的参数，该差异参数并不是N-1个优化听音区的N-1个第一解码混音参数。例如，第一优化听音区对应的第一解码混音参数包括：参数1、参数2和参数3，若N-1个优化听音区对应的N-1个第一解码混音参数中每个优化听音区对应的第一解码混音参数包括：参数1、参数2和参数4，则N-1优化听音区对应的N-个第一解码混音参数相对于第一优化听音区对应的第一解码混音参数的差异参数包括：参数4。通过音频优化元数据中携带差异参数，可以减少音频优化元数据的数据量大小，提高数据传输效率和解码效率。

在本申请的一些实施例中，解码终端可以执行的音频处理方法还包括如下步骤：

G1、解码终端对视频图像码流进行解码，以得到解码视频图像数据和视频图像元数据，视频图像元数据包括：视频元数据和图像元数据；

G2、解码终端根据视频图像元数据对解码视频图像数据进行渲染处理，以得到渲染视频图像数据；

G3、解码终端根据渲染视频图像数据建立虚拟场景；

G3、解码终端根据渲染视频图像数据和音频优化元数据在虚拟场景中标识第一优化听音区。

其中，传输终端根据视频图像元数据和视频图像数据可以生成视频图像码流，该视频图像码流中携带视频图像元数据和视频图像数据。从而使得解码终端从传输终端接收到该视频图像码流之后，可以获取到视频图像元数据和解码视频图像数据。解码终端根据视频图像元数据对解码视频图像数据进行渲染处理，以得到渲染视频图像数据，解码终端可以使用渲染视频图像数据建立虚拟场景，最后解码终端根据渲染视频图像数据和音频优化元数据在虚拟场景中标识第一优化听音区，从而在解码终端侧在虚拟场景中显示出第一优化听音区，引导用户在优化听音区内体验音乐，提高用户的听音效果。

举例说明如下，解码终端根据渲染视频图像数据和音频优化元数据在虚拟场景中标识出第一优化听音区，采用第一优化听音区相类似的处理方式，解码终端还可以在虚拟场景中标识出N个优化听音区，解码终端根据在虚拟场景中标识出的N个优化听音区生成音频体验路线，引导用户更好的体验6DoF音乐。

通过前述实施例的举例说明可知，解码终端可以接收到音频优化元数据，由于本申请实施例中音频优化元数据包括第一优化听音区的元数据和第一优化听音区对应的第一混音参数，根据用户所在的当前位置确定第一优化听音区，因此能够获取该第一优化听音区对应的第一解码混音参数进行混音，因此能够提供适用于用户自由移动至第一优化听音区时的音频优化元数据，提高用户在自由移动时的听音效果。

为便于更好的理解和实施本申请实施例的上述方案，下面举例相应的应用场景来进行具体说明。

本申请实施例中优化听音区可以表述为最优听音区，本申请实施例中的音频处理方法中，由制作终端在VR场景中选取1个或若干个最优听音区，优化每个最优听音区内用户听到的渲染后音乐信号的音乐效果，从而提升6DoF音乐场景内用户的音乐体验。

具体的，在制作终端侧执行6DoF虚拟音乐场景制作方法，假定6DoF音乐场景中已经完成了VR视频场景制作、音频采集、6DoF音频基础元数据制作等过程，本申请实施例中在VR场景中选取若干个最优听音区，该最优听音区应与用户感兴趣的听音区域尽可能一致；针对每个最优听音区，基于音频信号和6DoF音频基础元数据生成每个音频信号在最优听音区中心位置处的渲染信号，然后对每个渲染信号进行混音处理，调整频率、动态、音质、定位和声场等，并保留每个音频信号对应的每个混音步骤的混音参数；最后再对混合后的音频信号进行混音处理，保留混合信号对应的每个混音步骤的混音参数。

制作终端生成的6DoF音频优化元数据包括最优听音区元数据、每个最优听音区对应的混音参数，其中，最优听音区元数据包含每个最优听音区的中心位置坐标、最优听音区形状等信息，每个最优听音区元数据对应一组混音元数据，包含单个音频信号对应的混音参数信号的混音参数。制作终端向传输终端发送6DoF音频优化元数据，传输终端根据6DoF音频优化元数据生成音频码流，向解码终端发送该音频码流。

可选的是，在6DoF音频优化元数据增加最优听音区位置变化标识符和混音参数变化标识符。VR音乐场景初始化时，传输起始的音频优化元数据，当VR场景发生变化，最优听音区位置及形状信息发生变化时，最优听音区位置变化标识符为真，传输最优听音区的变化信息；当前帧的混音元数据发生变化时，混音参数变化标识符为真，传输混音元数据的变化信息。

解码终端可以包括视频渲染器和音频渲染器，该解码终端可以执行6DoF音乐场景音频渲染方法。具体的，视频渲染器根据解码后的最优听音区元数据标识出最优听音区，引导用户合理地体验6DoF音乐；当用户所在的当前位置在某个最优听音区之内，音频渲染器根据用户的位置信息、6DoF音频基础元数据及6DoF音频优化元数据渲染音频信号，给用户更好的音乐体验。其中，音频优化元数据有一定的作用范围，这个作用范围由当前最优听音区的形状确定，该形状根据音乐制作场景预先确定。当用户的当前位置在最优听音区之外，音频渲染器根据用户的位置信息和6DoF音频基础元数据渲染音频信号。

本申请实施例适用于VR、AR或者MR应用中的场景制作、音频元数据传输及用户端音频及视频渲染部分。本申请实施例中的终端具体用于包含6DoF音频的VR音乐软件、3D音频引擎等，例如，终端可以包括VR终端设备、芯片及无线网络设备等。

如图3所示，为本申请实施例提供的一种虚拟现实流服务系统的流数据处理流程示意图。本申请实施例适用于AR、VR等应用中的6DoF音频渲染模块(audio binauralrendering)，具体应用于图3中的音频数据预处理模块、音频数据编码模块、音频数据解码模块和音频渲染模块。端到端对音频信号的处理流程为：音频信号经过VR场景采集或制作模块后进行预处理操作(audio preprocessing)，预处理操作包括滤除掉信号中50Hz以下的低频成分等，提取6DoF音频元数据(包括6DoF音频基础元数据、6DoF音频优化元数据等)，之后进行编码处理(audio encoding)打包(file/segment encapsulation)之后发送(delivery)到解码端，解码端首先进行解包(file/segment decapsulation)，之后解码(audio decoding)，对解码音频信号进行渲染(audio rendering)处理，渲染处理后的信号映射到扬声器或者收听者耳机设备上，耳机设备可以为独立的耳机也可以是眼镜设备上的耳机。

如图4所示，为本申请实施例提供的一种6DoF VR音乐场景端到端的流程图。主要包括：制作终端、传输终端和解码终端。接下来分别从不同的终端侧进行举例说明。

制作终端执行的流程包含：VR视频场景及元数据制作、音频数据及6DoF音频基础元数据制作、最优听音区选取、混音处理及混音参数提取、音频优化元数据制作等。

制作终端包括：VR视频及图像数据模块、VR视频及图像元数据模块、VR音频数据模块、6DoF音频基础元数据模块、视频渲染器渲染模块、最优听音区获取模块、音频渲染器预渲染模块、混音处理模块和音频优化元数据模块。

其中，VR视频及图像数据模块，用于获取待传输的视频及图像数据。

VR视频及图像元数据模块，用于获取VR场景制作完成的视频及图像元数据。

VR音频数据模块，用于获取待传输的音频数据，每个音频数据可以为对象音频数据(object audio)、多通道音频数据(channel-based audio)或者场景音频数据(scene-based audio)。

6DoF音频基础元数据模块，用于获取VR场景制作完成的6DoF音频基础元数据，例如，6DoF音频基础元数据可以包含的元数据种类可以为前述表1中元数据一类或者几类。

视频渲染器渲染模块，用于根据VR视频及图像数据和VR视频及图像元数据进行渲染，生成第一VR视频场景。

最优听音区获取模块，用于获取该VR场景内的最优听音区信息。最优听音区根据渲染的VR视频场景选取，最优听音区有一个或者N个。最优听音区信息包含参考坐标系，中心位置坐标及形状等信息；可选的，最优听音区信息包含中心位置坐标及形状信息。最优听音区形状可以为球形、立方体形、柱形或者其他任意形状。

音频渲染器预渲染模块，用于对每个最优听音区，根据最优听音区中心位置坐标、VR音频数据和6DoF音频基础元数据对M个音频数据(记为第一音频数据)单独进行第一渲染处理，得到M个渲染后的音频数据(记为第二音频数据)；第一渲染处理后的音频信号可以为单通道信号，也可以为双耳渲染信号。N个最优听音区共有N*M个第一渲染处理后的音频信号。

混音处理模块，用于对每个第一渲染处理后的音频信号进行第一混音处理，在混音处理过程中提取每个音频信号各个混音处理步骤的参数，记为第一混音参数。将经过混音处理后的音频数据记为第三音频数据。将第三音频数据中的各个音频信号进行混合处理，得到第四音频信号，对第四音频信号进行第二混音处理，并保留各个混音处理步骤的参数，记为第二混音参数。混音处理步骤可以由VR音乐场景制作终端完成或者由混音终端完成。

音频优化元数据模块，用于获取最优听音区信息、第一混音参数及第二混音参数，并按照一定的数据结构生成音频优化元数据。

传输终端执行的流程包含：视频场景及元数据的压缩编码和传输，音频数据的压缩编码和传输、6DoF音频基础元数据的压缩编码和传输、音频优化元数据的压缩编码和传输。

传输终端包括：视频及图像元数据压缩及传输模块、视频压缩传输模块、图像压缩传输模块、音频优化元数据压缩传输模块、音频压缩传输模块和6DoF音频基础元数据压缩传输模块。

视频及图像元数据压缩及传输模块，用于对视频及图像元数据进行压缩编码，并传输生成的码流；

视频压缩传输模块，用于对VR场景中的视频数据进行压缩编码，并传输码流；

图像压缩传输模块，用于对VR场景中的图像数据进行压缩编码，并传输码流；

音频优化元数据压缩传输模块，用于对本申请实施例提出的音频优化元数据进行压缩编码，并传输码流；

音频压缩传输模块，用于对VR场景中的音频数据进行压缩编码，并传输码流；

6DoF音频基础元数据压缩传输模块，用于对6DoF音频基础元数据进行压缩编码，并传输码流。

解码终端(即用户端)执行的流程包含：用户6DoF位置信息的获取、6DoF视频渲染及6DoF音频渲染等流程，其中本申请实施例将解码后的音频优化元数据用于6DoF视频渲染及6DoF音频渲染中。

解码终端，包括：音频及视频解码器、视频渲染器和音频渲染器。

音频及视频解码器，用于对码流进行解码，获得解码之后的VR视频及图像数据、视频及图像元数据、音频数据、6DoF音频基础元数据和音频优化元数据；

视频渲染器，用于根据解码后的视频及图像数据、视频及图像元数据及用户位置信息渲染VR视频场景。

可选的是，视频渲染器根据解码后的音频优化元数据中的最优听音区信息标识出最优听音区，并标识出推荐的6DoF音乐体验路线，引导用户更好的体验6DoF音乐。体验路线可以是最优听音区之间的连线等，本申请实施例不做限制。

与制作终端的预渲染和混音处理流程相似，音频渲染器，用于根据用户位置信息和音频优化元数据中的最优听音区信息判断用户是否在最优听音区内；

若用户的当前位置在某个最优听音区内，则音频渲染器，用于基于6DoF音频基础元数据和用户位置信息对每个音频信号进行渲染，以得到渲染信号，在根据解码后的每个音频信号对应的混音参数对该渲染信号进行混音处理；再对所有的音频信号进行混音处理后，将所有混音处理后的音频进行混合处理，再基于混合信号的混音参数进行最终的混音处理，将处理之后的音频信号发送到用户的耳机等音频设备中。

若用户不在最优听音区内，则音频渲染器，用于基于6DoF音频基础元数据和用户位置信息对每个音频信号进行渲染，直接将所有渲染后的音频进行混合处理，生成最终的双耳信号用于播放。

接下来以两个具体的实施例对本申请实施例的音频处理方法进行详细说明的说明。

实施例一

如图5所示，为本申请实施例提供的一种支持6DoF的VR音乐会场景示意图。以一个典型的支持6DoF的VR音乐会场景为例，详细介绍本申请实施例的技术方案。该音乐会场景中有舞台区和观众区两个部分，存在四类对象声源：人声、小提琴声、大提琴声和鼓声，假定声源都为静止声源，声源在VR场景中的位置如图5所示。

在本实施例中，该VR音乐会场景从制作终端、传输终端到解码终端的端到端流程，实施例一的具体流程，主要包括：

其中，步骤S01-S05为VR音乐场景的制作终端流程，步骤S06为VR音乐场景的传输终端流程，步骤S07-S08为VR音乐场景的解码终端流程。

S01、制作终端获取VR视频及图像数据、VR视频及图像元数据、VR场景音频数据、6DoF音频基础元数据。

其中，上述VR视频及图像数据、VR视频及图像元数据、VR场景音频数据、6DoF音频基础元数据是由VR音乐场景预先制作完成的。

S02、制作终端获取最优听音区元数据。

制作终端根据VR视频及图像数据和VR视频及图像元数据对VR场景进行渲染，然后由制作终端在VR场景内选取最优听音区，并记录下每个最优听音区的中心位置坐标和形状信息；最优听音区的数量可以为N个，制作终端选取的最优听音区应与用户感兴趣的听音区域相符。最后，制作终端按照一定的数据结构将最优听音区信息制作为最优听音区元数据。

最优听音区元数据包含最优听音区的参考坐标系、中心位置坐标和形状信息，最优听音区元数据的一种数据结构示例如下：

<最优听音区标识符>

<最优听音区1标识符>

<参考坐标系>

<中心位置坐标>

<形状信息>

<最优听音区2标识符>

<参考坐标系>

<中心位置坐标>

<形状信息>

……

<最优听音区N标识符>

<参考坐标系>

<中心位置坐标>

<形状信息>。

另外，每个最优听音区形状可以为球形、柱形或者有三角形网格构成的任意形状等。最优听音区元数据包含最优听音区的参考坐标系、中心位置坐标，形状信息采用制作终端和解码终端两侧默认的形状信息，最优听音区元数据的另一种数据结构示例如下：

<最优听音区标识符>

<最优听音区1标识符>

<参考坐标系>

<中心位置坐标>

<最优听音区2标识符>

<参考坐标系>

<中心位置坐标>

……

<最优听音区N标识符>

<参考坐标系>

<中心位置坐标>。

最优听音区元数据包含的数据及其数据结构不限于以上两类，如最优听音区2-N的中心位置信息可以为相对于最优听音区1的位置信息等。

S03、对每个最优听音区，制作终端根据最优听音区元数据、VR音频数据和6DoF音频基础元数据对M个音频数据(记为第一音频数据)逐个进行第一渲染处理，得到M个渲染后的音频数据(记为第二音频数据)。第一渲染处理后的音频信号可以为单通道信号，也可以为双耳渲染信号。N个最优听音区共有N*M个第一渲染处理后的音频信号，记为第二音频数据。每个第一音频信号可以为对象信号、多通道音频信号或场景音频信号。

S04、制作终端获取每一个最优听音区内，对每个渲染后的音频信号进行混音处理，得到第一混音参数，及对最终的混合信号进行混音处理的第二混音参数。

制作终端对每个第二音频信号进行第一混音处理，在混音处理过程中提取每个音频信号各个混音处理步骤的参数，记为第一混音参数。将经过混音处理后的音频数据记为第三音频数据。

可选的是，将第三音频数据中的各个音频信号进行混合处理，得到一个第四音频信号，对第四音频信号进行第二混音处理，并保留各个混音处理步骤的参数，记为第二混音参数。两个混音处理步骤可以由VR音乐场景制作终端完成。

第一混音参数和第二混音参数包含音频信号的标识编号、均衡参数、压缩器参数和混响器参数，其中，均衡参数包括频段、增益值和Q值，Q值是均衡滤波器的一个参数，表示均衡滤波器的品质因数，可用于描述均衡滤波器的带宽。压缩器参数包括门限、压缩比、启动时间、释放时间和增益补偿值。混响器参数包括混响时间、延迟时间和直达混响比。

可选的是，可以根据具体的应用场景保留重要混音步骤的混音参数。第一混音参数和第二混音参数包含的混音参数类型可以不同。

S05、制作终端将最优听音区元数据和每个最优听音区对应的混音参数按照一定的数据结构制作为6DoF音频优化元数据。可以将最优听音区元数据和步骤S04中的混音参数以相互独立的数据结构保存并传输，最优听音区元数据的数据结构如步骤S02所示，混音参数的一种数据结构示例如下：

<混音元数据标识符>

<最优听音区1标识符>

<音频信号1标识id>

<均衡参数标识符>

<频段1>

<增益值>

<Q值>

……

<频段P>

<增益值>

<Q值>

<压缩器参数标识符>

<门限值>

<压缩比>

<启动时间>

<释放时间>

<增益补偿值>

<混响器参数>

<混响类型>

<混响时间>

<延迟时间>

<直达混响比>

<……>

……

<音频信号M标识id>

<均衡参数标识符>

<频段1>

<增益值>

<Q值>

……

<频段P>

<增益值>

<Q值>

<压缩器参数标识符>

<门限值>

<压缩比>

<启动时间>

<释放时间>

<增益补偿值>

<混响器参数>

<混响类型>

<混响时间>

<延迟时间>

<直达混响比>

<……>

……

<第二混音参数标识符>

<均衡参数标识符>

<频段1>

<增益值>

<Q值>

……

<频段P>

<增益值>

<Q值>

<压缩器参数标识符>

<门限值>

<压缩比>

<启动时间>

<释放时间>

<增益补偿值>

<混响器参数>

<混响类型>

<混响时间>

<延迟时间>

<直达混响比>

……

<最优听音区N标识符>

……

需要说明的是，最优听音区N标识符与最优听音区1的混音参数数据结构相同。

上述数据结构中，最优听音区1-N中的混音参数类型是完全一致的。

可选的是，最优听音区1保存的参数类型与上述数据结构一样，最优听音区2-N的混音参数为与最优听音区1混音参数的差异参数，从而减少6DoF音频优化元数据的参数个数。

可选的是，将最优听音区元数据的数据结构和混音参数的数据结构整合为同一个数据结构，从而减少6DoF音频优化元数据的参数个数。

S06、在传输终端，除了对VR视频及图像数据、VR视频及图像元数据、音频数据、6DoF音频基础元数据进行编码、传输之外，还需要对上述6DoF音频优化元数据进行编码、传输。

可选的是，在编码后的6DoF音频优化元数据中增加最优听音区元数据变化标识符和混音参数变化标识符，以提高6DoF音频优化元数据的传输效率。VR音乐场景初始化时，传输起始的音频优化元数据，当VR场景发生变化，最优听音区位置及形状信息发生变化时，最优听音区位置变化标识符为真，传输最优听音区的变化信息；当前帧的混音元数据发生变化时，混音参数变化标识符为真，传输混音元数据的变化信息。

S07、在解码终端，用户的VR头戴设备等获取用户的6DoF位置信息，视频渲染器根据解码后的VR视频及图像数据、VR视频及图像元数据，用户的位置信息渲染视频，同时根据解码后的最优听音区元数据标识出最优听音区，可选的，还可以标识出推荐的6DoF音乐体验路线，引导用户更好的体验6DoF音乐。

S08、在解码终端，用户的VR头戴设备等获取用户的6DoF位置信息，音频解码器对音频流解码获得第一解码音频数据、解码后的6DoF音频基础元数据和解码后的6DoF音频优化元数据。音频渲染器根据用户位置信息和解码后的最优听音区元数据判定用户是否位于最优听音区之内。

若用户的当前位置在最优听音区之内，基于6DoF音频基础元数据和用户位置信息对每个第一解码端音频信号单独进行渲染，得到M个渲染后的音频信号(记为第二解码端音频信号)，再根据解码后的第一混音参数对每个第二解码端音频信号进行混音处理，处理后得到M个第三解码端音频信号；基于6DoF音频基础元数据，将M个第三解码端音频信号进行混合处理，若存在解码后的第二混音参数，则对混合后的信号进行第二混音处理，得到最终的音乐信号，用户的当前位置在最优听音区之内时，可以为用户提供最优的沉浸式音乐体验。

若用户的当前位置在最优听音区之外，音频渲染器基于6DoF音频基础元数据和用户位置信息对每个第一解码端音频信号单独进行渲染，得到M个渲染后的音频信号(记为第二解码端音频信号)，将M个第二解码端音频信号进行混合处理，得到最终的音乐信号。

可选的是，在每个最优听音区设置过渡距离，采用平滑算法，确保用户的当前位置在最优听音区内外自由移动时，听到的音乐信号能够自然过渡。本申请实施例对平滑算法不做限制。

例如，可将距离最优听音区边缘一定距离(即过渡距离)的区域设置为过渡区，在过渡区内6DoF音频优化元数据的各个参数渐变为零，从而让用户听到的音乐效果能自然过渡。

实施例二

如图6所示，为本申请实施例提供的另一种6DoF VR音频场景端到端的流程图。

实施例二与实施例一的主要区别是：6DoF音乐场景的制作端流程不同。实施例一在步骤S04的混音处理时，在保持已制作好的VR视频元数据、VR视频数据、音频数据、6DoF音频基础元数据不变的情况下，进行混音处理，提取混音元数据。

实施例二在步骤S04的混音处理过程中，可能会对已制作好的VR视频元数据、VR视频数据、音频数据、6DoF音频基础元数据进行调整和优化，同时提取混音元数据。如VR场景制作终端在步骤S04的混音处理过程中可能会调整音频的频率响应、增益，可能会调整对象声源的位置，或者房间的声学参数等。

与实施例一相比，实施例二中的混音元数据会比实施例一少，混音后的3D沉浸式音乐效果也可能会优于实施例一。实施例一所示的制作过程中不修改6DoF音频基础元数据，只会生成新增的音频优化元数据；而实施例二会调整6DoF音频基础元数据。例如，正前方某个乐器声听起来不协调，那么可能会在VR视频场景中调整该乐器的位置，同时修改6DoF音频基础元数据中该乐器对应的声源位置信息等。

可选的是，通过调整6DoF音频基础元数据中的房间的声学参数等，调整用户听到的音乐信号的混响效果，实施例一中的第一混音参数和第二混音参数中可以不包含混响器参数。

可选的是，通过调整图6中音频数据中一个或多个音频信号的频率响应或者6DoF音频基础元数据音频信号的位置、增益等参数，调整最终用户听到的音乐信号效果，实施例一中的第一混音参数中可能不包含这些信号对应的均衡参数。

通过前述实施例的举例说明可知，本申请实施例提出了一种6DoF虚拟音乐场景的制作、传输及渲染方法，解码终端可以引导用户更合理的体验6DoF音乐场景，把个人对音乐的审美有效地传递给用户，让用户在每个最优听音区之内都能听到更完美的3D沉浸式音乐效果，并且在每个最优听音区都会有不同的音乐体验。本申请实施例同时提出可以在6DoF音频优化元数据增加最优听音区位置变化标识符和混音参数变化标识符，这样可以有效提高6DoF音频优化元数据的传输效率。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

为便于更好的实施本申请实施例的上述方案，下面还提供用于实施上述方案的相关装置。

请参阅图7所示，本申请实施例提供的一种解码终端700，可以包括：解码模块701、渲染模块702、混音模块703和混合模块704，其中，

在本申请的上述实施例中，由于本申请实施例中音频优化元数据包括第一优化听音区的第一元数据，和第一优化听音区对应的第一混音参数，根据用户所在的当前位置确定第一优化听音区，因此能够获取该第一优化听音区对应的第一解码混音参数进行混音，因此能够提供适用于用户自由移动至第一优化听音区时的音频优化元数据，提高用户在自由移动时的听音效果。

请参阅图8所示，本申请实施例提供的一种传输终端800，可以包括：接收模块801、编码模块802和发送模块803，其中，

发送模块，用于发送所述音频码流。

在本申请的上述实施例中，首先接收来自制作终端的音频优化元数据，根据该音频优化元数据生成音频码流，向解码终端发送该音频码流，解码终端可以通过该音频码流获取到音频优化元数据，该音频优化元数据包括第一优化听音区的第一元数据，和第一优化听音区对应的第一混音参数，因此能够提供适用于用户自由移动至第一优化听音区时的音频优化元数据，提高用户在自由移动时的听音效果。

请参阅图9所示，本申请实施例提供的一种制作终端900，可以包括：获取模块901、渲染模块902、混音模块903和生成模块904，其中，

在本申请的上述实施例中，可以获取N个优化听音区的元数据，N个优化听音区包括第一优化听音区，因此能够针对第一优化听音区可以对M个第一音频数据进行渲染和混音，最后可以生成音频优化元数据，且该音频优化元数据包括第一优化听音区的第一元数据，和第一优化听音区对应的第一混音参数，因此能够提供适用于用户自由移动至第一优化听音区时的音频优化元数据，提高用户在自由移动时的听音效果。

需要说明的是，上述装置各模块/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其带来的技术效果与本申请方法实施例相同，具体内容可参见本申请前述所示的方法实施例中的叙述，此处不再赘述。

本申请实施例还提供一种计算机存储介质，其中，该计算机存储介质存储有程序，该程序执行包括上述方法实施例中记载的部分或全部步骤。

接下来介绍本申请实施例提供的另一种解码终端，请参阅图10所示，解码终端1000包括：

接收器1001、发射器1002、处理器1003和存储器1004(其中解码终端1000中的处理器1003的数量可以一个或多个，图10中以一个处理器为例)。在本申请的一些实施例中，接收器1001、发射器1002、处理器1003和存储器1004可通过总线或其它方式连接，其中，图10中以通过总线连接为例。

存储器1004可以包括只读存储器和随机存取存储器，并向处理器1003提供指令和数据。存储器1004的一部分还可以包括非易失性随机存取存储器(non-volatile randomaccess memory，NVRAM)。存储器1004存储有操作系统和操作指令、可执行模块或者数据结构，或者它们的子集，或者它们的扩展集，其中，操作指令可包括各种操作指令，用于实现各种操作。操作系统可包括各种系统程序，用于实现各种基础业务以及处理基于硬件的任务。

处理器1003控制解码终端的操作，处理器1003还可以称为中央处理单元(centralprocessing unit，CPU)。具体的应用中，解码终端的各个组件通过总线系统耦合在一起，其中总线系统除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图中将各种总线都称为总线系统。

上述本申请实施例揭示的方法可以应用于处理器1003中，或者由处理器1003实现。处理器1003可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器1003中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1003可以是通用处理器、数字信号处理器(digital signal processing，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现场可编程门阵列(field-programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1004，处理器1003读取存储器1004中的信息，结合其硬件完成上述方法的步骤。

接收器1001可用于接收输入的数字或字符信息，以及产生与解码终端的相关设置以及功能控制有关的信号输入，发射器1002可包括显示屏等显示设备，发射器1002可用于通过外接接口输出数字或字符信息。

本申请实施例中，处理器1003用于执行前述实施例图2所示的由解码终端执行的方法。

接下来介绍本申请实施例提供的另一种传输终端，请参阅图11所示，传输终端1100包括：

接收器1101、发射器1102、处理器1103和存储器1104(其中传输终端1100中的处理器1103的数量可以一个或多个，图11中以一个处理器为例)。在本申请的一些实施例中，接收器1101、发射器1102、处理器1103和存储器1104可通过总线或其它方式连接，其中，图11中以通过总线连接为例。

存储器1104可以包括只读存储器和随机存取存储器，并向处理器1103提供指令和数据。存储器1104的一部分还可以包括非易失性随机存取存储器(non-volatile randomaccess memory，NVRAM)。存储器1104存储有操作系统和操作指令、可执行模块或者数据结构，或者它们的子集，或者它们的扩展集，其中，操作指令可包括各种操作指令，用于实现各种操作。操作系统可包括各种系统程序，用于实现各种基础业务以及处理基于硬件的任务。

处理器1103控制传输终端的操作，处理器1103还可以称为中央处理单元(centralprocessing unit，CPU)。具体的应用中，传输终端的各个组件通过总线系统耦合在一起，其中总线系统除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图中将各种总线都称为总线系统。

上述本申请实施例揭示的方法可以应用于处理器1103中，或者由处理器1103实现。处理器1103可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器1103中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1103可以是通用处理器、数字信号处理器(digital signal processing，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现场可编程门阵列(field-programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1104，处理器1103读取存储器1104中的信息，结合其硬件完成上述方法的步骤。

接收器1101可用于接收输入的数字或字符信息，以及产生与传输终端的相关设置以及功能控制有关的信号输入，发射器1102可包括显示屏等显示设备，发射器1102可用于通过外接接口输出数字或字符信息。

本申请实施例中，处理器1103用于执行前述实施例图2所示的由传输终端执行的方法。

接下来介绍本申请实施例提供的另一种制作终端，请参阅图12所示，制作终端1200包括：

接收器1201、发射器1202、处理器1203和存储器1204(其中制作终端1200中的处理器1203的数量可以一个或多个，图12中以一个处理器为例)。在本申请的一些实施例中，接收器1201、发射器1202、处理器1203和存储器1204可通过总线或其它方式连接，其中，图12中以通过总线连接为例。

存储器1204可以包括只读存储器和随机存取存储器，并向处理器1203提供指令和数据。存储器1204的一部分还可以包括NVRAM。存储器1204存储有操作系统和操作指令、可执行模块或者数据结构，或者它们的子集，或者它们的扩展集，其中，操作指令可包括各种操作指令，用于实现各种操作。操作系统可包括各种系统程序，用于实现各种基础业务以及处理基于硬件的任务。

处理器1203控制制作终端的操作，处理器1203还可以称为CPU。具体的应用中，制作终端的各个组件通过总线系统耦合在一起，其中总线系统除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图中将各种总线都称为总线系统。

上述本申请实施例揭示的方法可以应用于处理器1203中，或者由处理器1203实现。处理器1203可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器1203中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1203可以是通用处理器、DSP、ASIC、FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1204，处理器1203读取存储器1204中的信息，结合其硬件完成上述方法的步骤。

本申请实施例中，处理器1203，用于执行前述实施例图2所示的由制作终端执行的音频处理方法。

在另一种可能的设计中，当解码终端、传输终端或者制作终端为终端内的芯片时，芯片包括：处理单元和通信单元，所述处理单元例如可以是处理器，所述通信单元例如可以是输入/输出接口、管脚或电路等。该处理单元可执行存储单元存储的计算机执行指令，以使该终端内的芯片执行上述第一方面至第三方面任意一项的音频处理方法。可选地，所述存储单元为所述芯片内的存储单元，如寄存器、缓存等，所述存储单元还可以是所述终端内的位于所述芯片外部的存储单元，如只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)等。

其中，上述任一处提到的处理器，可以是一个通用中央处理器，微处理器，ASIC，或一个或多个用于控制上述第一方面至第三方面方法的程序执行的集成电路。

另外需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本申请提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件的方式来实现，当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下，凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现，而且，用来实现同一功能的具体硬件结构也可以是多种多样的，例如模拟电路、数字电路或专用电路等。但是，对本申请而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在可读取的存储介质中，如计算机的软盘、U盘、移动硬盘、ROM、RAM、磁碟或者光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(Solid State Disk，SSD))等。

Claims

1.一种音频处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述音频优化元数据，还包括：所述第一优化听音区对应的第二解码混音参数；

所述方法还包括：

根据所述第二解码混音参数对所述混合音频数据进行第二混音处理，以得到所述第一优化听音区对应的第二混音音频数据。

3.根据权利要求2所述的方法，其特征在于，所述第二解码混音参数包括如下至少一种：所述第二混音音频数据的标识、均衡参数、压缩器参数、和混响器参数。

4.根据权利要求2或3所述的方法，其特征在于，所述音频优化元数据，还包括：N个优化听音区中除所述第一优化听音区以外的N-1个优化听音区对应的N-1个第二解码混音参数相对于所述第一优化听音区对应的第二解码混音参数的N-1个差异参数，所述N为正整数。

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述第一解码混音参数包括如下至少一种：所述渲染音频数据的标识、均衡参数、压缩器参数、和混响器参数。

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述方法还包括：

根据所述渲染视频图像数据建立虚拟场景；

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述第一元数据包括如下至少一种：所述第一优化听音区的参考坐标系、所述第一优化听音区的中心位置坐标和所述第一优化听音区的形状。

8.根据权利要求1至7中任一项所述的方法，其特征在于，所述音频优化元数据，包括：N个优化听音区中除所述第一优化听音区以外的N-1个优化听音区对应的N-1个第一解码混音参数相对于所述第一优化听音区对应的第一解码混音参数的N-1个差异参数，所述N为正整数。

9.根据权利要求1至8中任一项所述的方法，其特征在于，所述音频优化元数据还包括：N个优化听音区中第一优化听音区的中心位置坐标、和所述N个优化听音区中除所述第一优化听音区以外的N-1个优化听音区的中心位置坐标相对于所述第一优化听音区的中心位置坐标的位置偏移量，所述N为正整数。

10.一种音频处理方法，其特征在于，包括：

发送所述音频码流。

11.根据权利要求10所述的方法，其特征在于，所述音频优化元数据还包括：第二混音参数变化标识符，其中，

12.根据权利要求10或11所述的方法，其特征在于，所述音频优化元数据还包括：所述第一优化听音区对应的第二混音参数。

13.根据权利要求10至12中任一项所述的方法，其特征在于，所述音频优化元数据还包括：N个优化听音区中第一优化听音区对应的第二混音参数，和所述N个优化听音区中除所述第一优化听音区以外的N-1个优化听音区对应的N-1个第二混音参数相对于所述第一优化听音区对应的第二混音参数的N-1个差异参数，所述N为正整数。

14.根据权利要求11至13中任一项所述的方法，其特征在于，所述第二混音参数包括如下至少一种：所述第一音频数据的标识、均衡参数、压缩器参数、和混响器参数。

15.根据权利要求10至14中任一项所述的方法，其特征在于，所述音频优化元数据还包括：N个优化听音区中除所述第一优化听音区以外的N-1个优化听音区对应的N-1个第一混音参数相对于所述第一优化听音区对应的第一混音参数的N-1个差异参数。

16.根据权利要求10至15中任一项所述的方法，其特征在于，所述第一混音参数包括如下至少一种：所述第一音频数据的标识、均衡参数、压缩器参数、和混响器参数。

17.根据权利要求10至16中任一项所述的方法，其特征在于，所述第一优化听音区的第一元数据，包括如下至少一种：所述第一优化听音区的参考坐标系、所述第一优化听音区的中心位置坐标、和所述第一优化听音区的形状。

18.根据权利要求10至16中任一项所述的方法，其特征在于，所述音频优化元数据还包括：N个优化听音区中第一优化听音区的中心位置坐标、和所述N个优化听音区中除所述第一优化听音区以外的N-1个优化听音区的中心位置坐标相对于所述第一优化听音区的中心位置坐标的位置偏移量，所述N为正整数。

19.根据权利要求10至18中任一项所述的方法，其特征在于，所述音频优化元数据还包括：优化听音区变化标识符，和/或第一混音参数变化标识符，其中，

20.一种音频处理方法，其特征在于，包括：

21.根据权利要求20所述的方法，其特征在于，所述方法还包括：将所述M个第一混音音频数据进行混合处理，以得到所述第一优化听音区对应的混合音频数据；对所述混合音频数据进行第二混音处理，以得到所述第一优化听音区对应的第二混音音频数据和所述第一优化听音区对应的第二混音参数；

根据所述第一元数据、所述第一混音参数和所述第二混音参数生成所述音频优化元数据。

22.根据权利要求21所述的方法，其特征在于，所述第二混音参数包括：所述第二混音音频数据的标识、均衡参数、压缩器参数、混响器参数。

23.根据权利要求20至22中任一项所述的方法，其特征在于，所述第一混音参数包括：所述第一混音音频数据的标识、均衡参数、压缩器参数、混响器参数。

24.根据权利要求20至23中任一项所述的方法，其特征在于，所述获取N个优化听音区的元数据，包括：

根据所述视频场景信息获取所述N个优化听音区的元数据。

25.根据权利要求20至24中任一项所述的方法，其特征在于，所述根据所述第一优化听音区和所述音频基础元数据对M个待处理音频数据进行渲染处理，包括：

26.根据权利要求20至25中任一项所述的方法，其特征在于，所述第一优化听音区的第一元数据包括如下至少一种：所述第一优化听音区的参考坐标系、所述第一优化听音区的中心位置坐标、和所述第一优化听音区的形状。

27.一种解码终端，其特征在于，包括：

28.一种传输终端，其特征在于，包括：

发送模块，用于发送所述音频码流。

29.一种制作终端，其特征在于，包括：

30.一种终端设备，其特征在于，所述终端设备包括：处理器，存储器；所述处理器、所述存储器之间进行相互的通信；

所述存储器用于存储指令；

所述处理器用于执行所述存储器中的所述指令，执行如权利要求1至9，或者10至19，或者20至26中任一项所述的方法。

31.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至9，或者10至19，或者20至26中任意一项所述的方法。

32.一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行如权利要求1至9，或者10至19，或者20至26中任意一项所述的方法。