CN110782865A

CN110782865A - 一种三维声音创作交互式系统

Info

Publication number: CN110782865A
Application number: CN201911074226.5A
Authority: CN
Inventors: 翁若伦
Original assignee: SHANGHAI CONSERVATORY OF MUSIC
Current assignee: SHANGHAI CONSERVATORY OF MUSIC
Priority date: 2019-11-06
Filing date: 2019-11-06
Publication date: 2020-02-11
Anticipated expiration: 2039-11-06
Also published as: CN110782865B

Abstract

本发明涉及一种三维声音创作交互式系统，该系统基于Ambisonics制式实现，包括：音频素材获取模块，用于获得音频素材；核心数字信号处理编码模块，用于根据所述音频素材生成通道不同的音频信号流；解码还原模块，用于将所述音频信号流进行三维声场还原。与现有技术相比，本发明具有音乐空间化强和沉浸式体验效果佳等优点。

Description

一种三维声音创作交互式系统

技术领域

本发明涉及一种音乐创作系统，尤其是涉及一种三维声音创作交互式系统。

背景技术

在当今电子音乐创作越来越强调延伸“空间体验感”的背景下，纷繁的制式和商业化为创作者提供多种选择，音乐科技工程师的参与度也越来越多，需要他们寻求技术手段，探索与实验声音的体验感并将其运用于作品中。

现行的多声道实时交互式电子音乐的创作，基本是基于一个多声道实验室创作环境。一般配置有四声道或者八声道的环绕音箱配置，高配可以上升至十只音箱以上，通过声卡接口或者多通道调音台进行连接，与电脑通过模拟音频线或者数字音频线进行多通道数据交换。电脑端，主要运用多声道创作音序软件(DAW)如：常用的Pro Tools、Cubase等，因为其配备有相应的与音箱数量匹配的插件(Plug-in)，可以做到对于多声道的电子音乐设计。电脑端可以运行类似如MaxMSP、Live一类的用于实时交互电子音乐的偏图形化，模块化的软件，搭配相应的第三方插件如IRCAM的SPAT等，可以实现多声道环绕电子音乐的创作。此类传统的环绕声，基本是基于固定音箱数量和固定音箱位置的制式，同时限于二维(2D)环境下创作制作。涉及三维(3D)的主流创作平台有类似IOSONO系统配置的基于波场合成技术(WFS)的创作平台，但碍于WFS技术自身依旧属于一个二维平面的声音还原理念，导致无法得到一个较好沉浸体验的环境，同时其庞大的音箱数量需求和偏影视后期的制作环境，给灵活的交互式电子音乐创作与演出提出了很大的难题。

发明内容

本发明的目的在于克服上述现有技术存在的缺陷而提供一种三维声音创作交互式系统，以实现电子音乐空间化和沉浸式体验。

本发明的目的可以通过以下技术方案来实现：

一种三维声音创作交互式系统，该系统基于Ambisonics制式实现，包括：

音频素材获取模块，用于获得音频素材；

核心数字信号处理编码模块，用于根据所述音频素材生成通道不同的音频信号流；

解码还原模块，用于将所述音频信号流进行三维声场还原。

进一步地，所述音频素材获取模块包括声音采集单元和/或声源素材预处理单元，其中，

所述声音采集单元以Ambisonics制式采集音频素材；

所述声源素材预处理单元用于对获取的声源素材进行预处理，通过单声道或多声道输出音频素材。

进一步地，所述核心数字信号处理编码模块基于FAUST语言实现，根据音源通道数量、Ambisonics编码阶数和声源路径设计，将音频素材编码为Ambisonics制式音频，生成通道不同的音频信号流。

优选地，所述解码还原模块包括音箱组件和音箱解码端，所述音箱组件由多个音箱组成，其中，

所述音箱解码端将音频信号流与音箱组件的位置布局进行映射，输出针对所述音箱组件的声音信号分布信息，所述音箱组件中每一音箱根据所述声音信号分布信息具有独立的音频信号；

所述音箱组件中每一音箱接收所述独立的音频信号，进行三维声场还原。

进一步地，所述音箱组件中的音箱呈现满足Ambisonics制式的半球形音箱布局。

进一步地，所述音箱解码端基于FAUST语言实现。

优选地，所述解码还原模块包括耳机和耳机解码端，所述耳机配置有多个虚拟音箱，其中，

所述耳机解码端将音频信号流与虚拟音箱的位置布局进行映射，输出针对声音信号分布信息，所述耳机中每一虚拟音箱根据所述声音信号分布信息具有独立的音频信号；

所述耳机中每一虚拟音箱接收所述独立的音频信号，进行双耳效应的HRTF功能卷积转换，实现三维声场还原。

进一步地，所述耳机内配置有满足Ambisonics制式的全球面虚拟音箱。

进一步地，所述解码还原模块包括交互单元，用于对音频信号空间化布局进行可视化，并基于输入的操作指令对所述三维声场进行调节。

进一步地，该系统在客户端或网页端实现。

与现有技术相比，本发明具有如下有益效果：

1)本发明设置音频素材获取模块、核心数字信号处理编码模块和解码还原模块，可以帮助电子音乐创作者通过处理和编辑模式进行三维声音的创作制作。

2)本发明基于Ambisonics制式实现，能实现三维度全覆盖的360度沉浸式全景环绕声音。

3)本发明使用灵活，方便同一个创作者甚至创作团队在不同的试听环境下进行创作和演出，极大地满足根据不同作品特性进行升级改造个性化定制的需求。

4)本发明可应用于音箱或耳机，使用方便，适用范围广。

5)本发明可在网页端实现，同步运用于网页试听平台，大大拓展了作品试听的可能性，同时益于虚拟现实作品和网络流媒体音乐视听等类型作品的创作。

附图说明

图1为本发明的结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

实施例1

如图1所示，本实施例提供一种三维声音创作交互式系统，该系统基于Ambisonics制式实现，包括音频素材获取模块1、核心数字信号处理编码模块2和解码还原模块3，音频素材获取模块1用于获得音频素材；核心数字信号处理编码模块2用于根据所述音频素材生成通道不同的音频信号流；解码还原模块3用于将所述音频信号流进行三维声场还原。该交互式系统协同音频素材获取模块1、核心数字信号处理编码模块2和解码还原模块3等多个节点进行音乐创作，且各节点具有用户交互界面。

Ambisonics是一种拾取和还原声音的技术，专门用来模拟原始三维声场效果，通过从低阶到高阶的球形拾音多面体阵列和灵活多变的解码还原模式，实现三维度全覆盖的360度沉浸式全景环绕声音。与普通环绕声不同，除了水平环绕声音，还包括拾音位置或者听众上下的声源。它是各向同性的：来自任何方向的声音被平等地对待，而不是假设声音的主要来源是正面的，并且后声道仅仅是用于环境或特殊效果。所有扬声器对任何方向的任何声音都有贡献，而不是仅使用两个相邻的扬声器产生做用。与其他大多数环绕系统相比，听觉位置再现声场的稳定性和成像度变化较小,声场甚至可以被扬声器阵列外的听众所欣赏。Ambisonics只需要三个通道用于基本水平环绕，四个通道用于全球声场。基本组成全球形重放需要最少只需六个扬声器(水平最少四个)。Ambisonics信号与播放系统的扬声器放置灵活(在合理的限度内)，同样的素材可以解码为不同数量的扬声器。高阶Ambisonics可以以额外的传输通道和更多的扬声器为代价来获得任何所需的空间分辨率。Faust(Functional Audio Stream)，由法国里昂国立音乐创作中心(GRAME)开发。是一种用于声音合成和音频处理的功能性编程语言，着重于合成器，乐器，音频效果等的设计。多用于高性能信号处理应用程序和音频插件，广泛编译于各种操作平台。Faust语言对Ambisonics技术有着很好的编译和支持。

音频素材获取模块1可以有多种输入方式，包括声音采集单元11和/或声源素材预处理单元12，其中，所述声音采集单元以Ambisonics制式采集音频素材；所述声源素材预处理单元用于对获取的声源素材进行预处理，通过单声道或多声道输出音频素材，所述预处理包括基本的频谱处理等。用户可以根据需要选择切换输入的声源类型。本实施例中，声音采集单元采用Ambisonics制式的话筒拾音器。

核心数字信号处理编码模块2为中心节点，基于FAUST语言实现，根据音源通道数量、Ambisonics编码阶数和声源路径设计，将音频素材编码为Ambisonics制式音频，生成通道不同的音频信号流，以决定空间声音的分辨率及所搭配的解码配置。核心数字信号处理编码模块将单轨或者多轨的音频信号流，通过对声源路径的设定设计，运用FAUST语言编写基于Ambisonics算法的信号处理，编码为Ambisonics格式带有空间信息的声音多轨信号，之后根据需要进行不同环境下的模拟还原。

在核心数字信号处理编码模块中，用户可以根据创作的需要，选择对于声源的路径编辑功能，包括三维坐标定点路径式、函数方程运功轨迹式、自定义轨迹绘图式等，用户可以测试并且记录声音在空间中的运行路线。同时搭配事件管理，可以记录不同时间下的空间运动场景，作为预制进行顺序切换。

本实施例中，解码还原模块3包括音箱组件31和音箱解码端32，所述音箱组件由多个音箱组成，前期音箱呈现满足三阶Ambisonics制式的半球形音箱布局。其中，所述音箱解码端基于FAUST语言实现，将音频信号流与音箱组件的位置布局进行映射，输出针对所述音箱组件的声音信号分布信息；所述音箱组件中每一音箱根据所述声音信号分布信息具有独立的音频信号；所述音箱组件中每一音箱接收所述独立的音频信号，进行三维声场还原。

解码还原模块可以在音箱二维平面还原输出或音箱三维立体还原输出。

本实施例的三维声音创作交互式系统在软件客户端实现。

实施例2

参考图1所示，本实施例提供的三维声音创作交互式系统中，解码还原模块3包括耳机33和耳机解码端34，所述耳机内配置有满足Ambisonics制式的全球面虚拟音箱，其中，耳机解码端将音频信号流与虚拟音箱的位置布局进行映射，输出针对声音信号分布信息，所述耳机中每一虚拟音箱根据所述声音信号分布信息具有独立的音频信号；耳机中每一虚拟音箱接收所述独立的音频信号，进行双耳效应的HRTF功能卷积转换，得到适配耳机输出的立体声声场还原信号，实现三维声场还原。

本实施例的解码还原模块可与实施例1中解码还原模块进行切换操作，以实现在音箱二维平面还原输出、音箱三维立体还原输出、耳机平台输出中的切换。

其余同实施例1。

实施例3

参考图1所示，本实施例的三维声音创作交互式系统中，解码还原模块3包括交互单元，用于对音频信号空间化布局进行可视化，并基于输入的操作指令对所述三维声场进行调节。在交互单元中，可以直观的观测音频信号的空间化布局显示，并进行适当的音量调整等操作，同时可以方便的进行音箱编号配对的接口映射操作。其余同实施例1。

实施例4

本实施例的三维声音创作交互式系统在网页端实现，模拟试听平台界面，满足用户在没有软件安装的情况下进行网页端的声音空间化模拟还原视听。

本实施例三维声音创作交互式系统的处理过程为：调入视听音频文件，Ambisonics编码并叠加双耳效应的HRTF功能的卷积转换，最后耳机信号输出。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由本发明所确定的保护范围内。

Claims

1.一种三维声音创作交互式系统，其特征在于，该系统基于Ambisonics制式实现，包括：

音频素材获取模块，用于获得音频素材；

解码还原模块，用于将所述音频信号流进行三维声场还原。

2.根据权利要求1所述的三维声音创作交互式系统，其特征在于，所述音频素材获取模块包括声音采集单元和/或声源素材预处理单元，其中，

所述声音采集单元以Ambisonics制式采集音频素材；

3.根据权利要求1所述的三维声音创作交互式系统，其特征在于，所述核心数字信号处理编码模块基于FAUST语言实现，根据音源通道数量、Ambisonics编码阶数和声源路径设计，将音频素材编码为Ambisonics制式音频，生成通道不同的音频信号流。

4.根据权利要求1所述的三维声音创作交互式系统，其特征在于，所述解码还原模块包括音箱组件和音箱解码端，所述音箱组件由多个音箱组成，其中，

5.根据权利要求4所述的三维声音创作交互式系统，其特征在于，所述音箱组件中的音箱呈现满足Ambisonics制式的半球形音箱布局。

6.根据权利要求4所述的三维声音创作交互式系统，其特征在于，所述音箱解码端基于FAUST语言实现。

7.根据权利要求1所述的三维声音创作交互式系统，其特征在于，所述解码还原模块包括耳机和耳机解码端，所述耳机配置有多个虚拟音箱，其中，

8.根据权利要求7所述的三维声音创作交互式系统，其特征在于，所述耳机内配置有满足Ambisonics制式的全球面虚拟音箱。

9.根据权利要求1所述的三维声音创作交互式系统，其特征在于，所述解码还原模块包括交互单元，用于对音频信号空间化布局进行可视化，并基于输入的操作指令对所述三维声场进行调节。

10.根据权利要求1所述的三维声音创作交互式系统，其特征在于，该系统在客户端或网页端实现。