CN106448687A

CN106448687A - 音频制作及解码的方法和装置

Info

Publication number: CN106448687A
Application number: CN201610832141.9A
Authority: CN
Inventors: 刘晴
Original assignee: Zhongke Super Shadow (beijing) Media Technology Co Ltd
Current assignee: Zhongke Wanying Beijing Technology Co ltd
Priority date: 2016-09-19
Filing date: 2016-09-19
Publication date: 2017-02-22
Anticipated expiration: 2036-09-19
Also published as: CN106448687B

Abstract

本发明公开了一种音频制作及解码的方法和装置，其中音频制作方法包括：制作声音对象，声音对象与音轨一一对应，每一声音对象代表一个发声源；获得声音对象的运动轨迹；制作音频文件，所述音频文件包括声音对象及声音对象的运动轨迹。音频播放方法包括：获得音频文件；获得需输出声音对象对应声音的现场环境中的一个或多个音箱所在位置；根据声音对象的运动轨迹及所述现场环境中的一个或多个音箱所在位置，对声音对象进行运算渲染，获得针对所述现场环境中的一个或多个音箱的音频；将所述音频分配至对应的现场环境中的音箱，以输出声音对象对应声音。本发明可以减少音频制作的工作量，降低制作发行成本，并实现一次制作多个场合播放。

Description

音频制作及解码的方法和装置

技术领域

本发明涉及音频技术领域，尤其涉及音频制作及解码的方法和装置。

背景技术

从电影的声音发展历程来看，经历了无声电影时期(1895～1926)，这一时期的电影只限于对现实生活的记录，只有画面而没有声音的状况显然在艺术表现力方面显出越来越大的缺憾，频频出现的字幕，会打断整个影片的结构。

从1927年开始了有声电影时期，1927年10月6日，纽约的观众在观看华纳兄弟公司出品的《爵士歌王》时，突然听到主角开口说了话：“等一下，等一下，你们还什么也没听到呢”这句话，标志着一个新时代的来临。

整个有声电影时期，经历了从单声道、立体声和多声道几个阶段。结合无声电影时期，可以把电影声音发展历程归纳为无声、点(单声道)、线(立体声)、面(环绕声)。

不管是单声道还是环绕声技术，都是基于声道技术，也就是说，在制作可回放的声音文件时，要分别基于不同布局的声场(音箱的摆放位置)，单独制作每支音箱的输出音频。当声音在不同的音箱间运动时，需要人工把声音分配到不同的音箱，生成针对每支音箱的输出音频。面对不同的音箱布局时，这样会大大增加制作的工作量与难度。从而造成如下问题：需要针对不同的音箱布局，提供不同的内容格式，工作量大，制作发行成本成倍上升；不能实现一次制作，多个场合播放。

发明内容

本发明实施例提供一种音频制作方法，用以减少音频制作的工作量，降低制作发行成本，并实现一次制作多个场合播放，该方法包括：

制作声音对象，声音对象与音轨一一对应，每一声音对象代表一个发声源；

获得声音对象的运动轨迹；

制作音频文件，所述音频文件包括声音对象及声音对象的运动轨迹。

本发明实施例还提供一种音频播放方法，用以减少音频制作的工作量，降低制作发行成本，并实现一次制作多个场合播放，该方法包括：

获得音频文件，所述音频文件包括声音对象及声音对象的运动轨迹，声音对象与音轨一一对应，每一声音对象代表一个发声源；

获得需输出声音对象对应声音的现场环境中的一个或多个音箱所在位置；

根据声音对象的运动轨迹及所述现场环境中的一个或多个音箱所在位置，对声音对象进行运算渲染，获得针对所述现场环境中的一个或多个音箱的音频；

将所述音频分配至对应的现场环境中的音箱，以输出声音对象对应声音。

本发明实施例提供一种音频制作装置，用以减少音频制作的工作量，降低制作发行成本，并实现一次制作多个场合播放，该装置包括：

对象制作模块，用于制作声音对象，声音对象与音轨一一对应，每一声音对象代表一个发声源；

轨迹获得模块，用于获得声音对象的运动轨迹；

音频制作模块，用于制作音频文件，所述音频文件包括声音对象及声音对象的运动轨迹。

本发明实施例还提供一种音频解码装置，用以减少音频制作的工作量，降低制作发行成本，并实现一次制作多个场合播放，该装置包括：

文件获得模块，用于获得音频文件，所述音频文件包括声音对象及声音对象的运动轨迹，声音对象与音轨一一对应，每一声音对象代表一个发声源；

位置获得模块，用于获得需输出声音对象对应声音的现场环境中的一个或多个音箱所在位置；

音频获得模块，用于根据声音对象的运动轨迹及所述现场环境中的一个或多个音箱所在位置，对声音对象进行运算渲染，获得针对所述现场环境中的一个或多个音箱的音频；

音频分配模块，用于将所述音频分配至对应的现场环境中的音箱，以输出声音对象对应声音。

本发明实施例在进行音频制作时，先制作声音对象，声音对象与音轨一一对应，每一声音对象代表一个发声源；获得声音对象的运动轨迹；再制作音频文件，所述音频文件包括声音对象及声音对象的运动轨迹，使音频制作与音箱布局无关，音频文件以统一的内容格式提供，而不必针对不同的音箱布局提供不同的内容格式，以减少音频制作的工作量，降低制作发行成本，并实现一次制作多个场合播放。

本发明实施例在进行音频解码时，获得音频文件及需输出声音对象对应声音的现场环境中的一个或多个音箱所在位置；根据声音对象的运动轨迹及所述现场环境中的一个或多个音箱所在位置，对声音对象进行运算渲染，获得针对所述现场环境中的一个或多个音箱的音频；将所述音频分配至对应的现场环境中的音箱，以输出声音对象对应声音，从而将统一内容格式的音频文件适配到不同的音箱布局中，减少音频制作的工作量，降低制作发行成本，并实现一次制作多个场合播放。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1为本发明实施例中音频制作方法的示意图；

图2为本发明实施例中音频解码方法的示意图；

图3为现有技术中典型的5.1影院的布局情况示意图；

图4为本发明实施例中声音运动的一示例图；

图5为本发明实施例中数字影院影厅音箱的布局坐标系统示意图；

图6为本发明实施例中数字影院影厅的典型音箱分布布局示意图；

图7为本发明实施例中虚拟现实环境音箱的布局坐标系统示意图；

图8为本发明实施例中音频制作装置的示意图；

图9为本发明实施例中音频解码装置的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白，下面结合附图对本发明实施例做进一步详细说明。在此，本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。

为了解决现有技术中的问题，在本发明实施例中提供一种音频制作方法，如图1所示，该音频制作方法可以包括：

步骤101、制作声音对象，声音对象与音轨一一对应，每一声音对象代表一个发声源；

步骤102、获得声音对象的运动轨迹；

步骤103、制作音频文件，所述音频文件包括声音对象及声音对象的运动轨迹。

由图1所示流程可以得知，本发明实施例与现有声道技术不同，采用了声音对象的技术。声音对象把一个声音独立出来作为一个与音箱或声道无关的元素。声音对象与音轨一一对应，每一声音对象代表一个发声源。实施时根据给定的声音对象运动轨迹，通过实时运算渲染，把运算渲染后获得的音频分配到对应的现场环境中的一个或多个音箱中，实现声音对象在三维空间中的运动。可以得知，现有的声音技术都是包含在平面以内的，无论是单声道的“点”，立体声的“线”，还是环绕声的“面”；而本发明实施例采用声音对象以后可以将声音拓展到“体”(立方体或者球体)。

具体实施时，获得声音对象的运动轨迹可以采用多种方式，例如可以通过在数字音频工作站运行插件的方式，获得声音对象的运动轨迹。为了能与现有的DAW(DigitalAudio Workstation，数字音频工作站)更好的结合，一种有效的方式是通过插件的方式(例如AAX，VST，…)，实现传统音频制作与3D音频制作的完美结合。通过插件，可以对每个声音对象进行Pan(移动制作)，把声音对象在三维空间的运动轨迹与时间线联系起来。声音对象的运动轨迹可以包括声音对象运动时的三维空间坐标位置，例如可以包含声音对象运动时的XYZ三轴坐标。实施例中通过OpenGL等方式可以完美实现通过2D的界面显示声音对象在球体或者立方体内的自由3D移动，并通过一般DAW都具有的Automation(自动化)机制实现运动轨迹的记录与回放。

在另外的实施例中，也可以根据摇杆或体感控制设备输入的控制指令，生成声音对象的运动轨迹。即可以通过各种外部工具制作声音对象的运动轨迹，例如摇杆，Leapmotion(体感控制设备)等实时制作声音对象在3维空间的运动轨迹。

如前所述，现有技术中的音频制作，需要针对不同的音箱布局，提供不同的内容格式，工作量大，制作发行成本成倍上升。目前影院使用的音箱布局主要有5.1，7.1，9.1，13.1几种，针对不同的布局有不同的发行版，不能混着用，因为在影片里，每一个音轨和音箱布局里的音箱是一一对应的。这样在制作发行时，不同的版本都需要重新制作一遍。其制作过程序就是在制作时把声音根据声音运动的需要分配到不同的音轨上面去，这样一个音轨里可以混合不同的声音。并且，现有技术中的音频制作不能实现一次制作，多个场合播放。

而由上述实施例可以得知，本发明实施例将声音对象及声音对象的运动轨迹携带于音频文件中，音频制作与音箱布局无关，音频文件以统一的内容格式提供。打破了原来音轨和音箱布局是一一对应的关系，改为音轨与声音对象是一一对应的，一条音轨对应着一个对象，对象代表一个发声源，如飞机的声音。然后单独对对象增加一个运动轨迹描述，描述对象在环境空间中所处的位置。这样制作发行时，只需制作一遍就可以，做出的发行版本里只有对象和运动轨迹描述，这样声音就与音箱布局无关了，从而不必针对不同的音箱布局提供不同的内容格式，以减少音频制作的工作量，降低制作发行成本，并实现一次制作多个场合播放。

图2为本发明实施例中音频解码方法的示意图。如图2所示，该音频解码方法可以包括：

步骤201、获得音频文件，所述音频文件包括声音对象及声音对象的运动轨迹，声音对象与音轨一一对应，每一声音对象代表一个发声源；

步骤202、获得需输出声音对象对应声音的现场环境中的一个或多个音箱所在位置；

步骤203、根据声音对象的运动轨迹及所述现场环境中的一个或多个音箱所在位置，对声音对象进行运算渲染，获得针对所述现场环境中的一个或多个音箱的音频；

步骤204、将所述音频分配至对应的现场环境中的音箱，以输出声音对象对应声音。

由图2所示流程可以得知，本发明实施例进行音频解码时，将统一内容格式的音频文件适配到不同的现场环境中的音箱布局中，减少音频制作的工作量，降低制作发行成本，并实现一次制作多个场合播放。在实现播放时，只需根据实际环境的音箱布局与声音对象的运动轨迹，实时运算分配，把声音输出到相应的音箱上。

具体实施时，获得包括声音对象及声音对象运动轨迹的音频文件后，还需获得需输出声音对象对应声音的现场环境中的一个或多个音箱所在位置。在具体的实施例中，声音对象的运动轨迹可以包括声音对象运动时的三维空间坐标位置；可以根据声音对象运动时的三维空间坐标位置，查找所述一个或多个音箱，其中所述现场环境中的一个或多个音箱的三维空间坐标位置与声音对象运动时的三维空间坐标位置之间的距离在设定范围内，该设定范围可以根据需要预设，例如在2米范围内等，以便为运动的声音对象找到与之距离较近的音箱。

图3为现有技术中典型的5.1影院的布局情况示意图。如图3所示，现有技术基于声道的音频技术，声音以AB，AC，AD，BC，BD几种轨迹运动时，跨越了很大一部分区域，在中间的域当中，没有音箱发声，只能靠远端的音箱仿真表达。可见现有技术不能连续的表达声音的运动轨迹，只能离散的表达，而由于音箱数量总是有限的，因此离散度很大。同时对于混音工程师的要求太高。

图4为本发明实施例中声音运动的一示例图，本例中，所查找的现场环境中的一个或多个音箱的三维空间坐标位置与声音对象运动时的三维空间坐标位置之间的距离较为接近，让声音可以在与其运动轨迹接近的音箱播放。声音运动时，在运动区域，可以连续的跨越多个音箱，听起来声音是连续运动的。这样对于混音工程师的要求也可以相对降低。

实施时音频处理方法可以应用于多种场景中，例如，应用于针对数字影院的全息声影院技术(HoloSound-Cinema)，或者应用于针对虚拟现实应用的全息声虚拟现实技术(HoloSound-VR)，又或者应用于针对个人消费性电子应用的全息声消费电子技术(HoloSound Consumer)，例如在家用、移动电子产品(如手机)等电子设备中应用。基于此，在实施例中，所述现场环境中的音箱可以为多个，分布于数字影院的影厅中；或，所述现场环境中的音箱可以为两个，应用于虚拟现实环境中；或所述现场环境中的音箱可以为两个，应用于电子设备中。

以所述现场环境中的音箱为多个且分布于数字影院的影厅中为例，如图5所示，建立音箱的布局坐标系统，以影厅后墙银幕左下角为坐标原点，宽为X轴，深为Y轴，高为Z轴。实施时可以把实际影厅中音箱的位置映射到该坐标系统中，给每支音箱一个独立的坐标位置。图6为典型的音箱分布布局图。当声音对象在空间运动时，声音对象的XYZ三轴坐标放入音箱的布局坐标系统中，根据声音对象运动时的三维空间坐标位置，查找与声音对象距离最近的1支或多支音箱，再根据相应音箱的三维空间坐标位置与声音对象的运动轨迹(运动时的三维空间坐标位置)，对声音对象进行运算渲染，把获得的音频送入对应的音箱，以使这些音箱输出对应的声音。

再以所述现场环境中的音箱为两个且应用于虚拟现实环境中为例，如图7所示，建立音箱的布局坐标系统，以VR显示屏左下角为坐标原点，宽为X轴，深为Y轴，高为Z轴。在音箱布局上，只有两只音箱。当声音对象在空间运动时，声音对象的XYZ三轴坐标放入音箱的布局坐标系统中，根据两支音箱的三维空间坐标位置与声音对象的运动轨迹(运动时的三维空间坐标位置)，对声音对象进行运算渲染，把获得的音频送入相应的左右音箱，输出相应的声音。

上述建立的音箱布局坐标系统仅为举例，实施时可以采用三维笛卡尔坐标系，或者也可以采用仿射坐标系，同时可以采用同心系统，或者也可以采用异心系统。

进一步的，若所述现场环境中的音箱为两个，应用于虚拟现实环境中，则可以在对所述声音对象进行运算渲染时，将所述声音对象与头传递函数相结合，获得针对所述现场环境中的两个音箱的音频，从而将声音对象技术与头传递函数结合在一起，完成音频处理。

基于同一发明构思，本发明实施例中还提供了一种音频制作装置和音频解码装置，如下面的实施例所述。由于这些装置解决问题的原理分别与上述音频制作方法和音频解码方法相似，因此这些装置的实施可以参见对应方法的实施，重复之处不再赘述。

图8为本发明实施例中音频制作装置的示意图。如图8所示，该音频制作装置可以包括：

对象制作模块801，用于制作声音对象，声音对象与音轨一一对应，每一声音对象代表一个发声源；

轨迹获得模块802，用于获得声音对象的运动轨迹；

音频制作模块803，用于制作音频文件，所述音频文件包括声音对象及声音对象的运动轨迹。

具体实施时，轨迹获得模块802可以进一步用于：获得声音对象运动时的三维空间坐标位置。

具体实施时，轨迹获得模块802可以进一步用于：通过在数字音频工作站运行插件的方式，获得声音对象的运动轨迹；或，根据摇杆或体感控制设备输入的控制指令，生成声音对象的运动轨迹。

图9为本发明实施例中音频解码装置的示意图。如图9所示，该音频解码装置可以包括：

文件获得模块901，用于获得音频文件，所述音频文件包括声音对象及声音对象的运动轨迹，声音对象与音轨一一对应，每一声音对象代表一个发声源；

位置获得模块902，用于获得需输出声音对象对应声音的现场环境中的一个或多个音箱所在位置；

音频获得模块903，用于根据声音对象的运动轨迹及所述现场环境中的一个或多个音箱所在位置，对声音对象进行运算渲染，获得针对所述现场环境中的一个或多个音箱的音频；

音频分配模块904，用于将所述音频分配至对应的现场环境中的音箱，以输出声音对象对应声音。

具体实施时，声音对象的运动轨迹可以包括声音对象运动时的三维空间坐标位置；

位置获得模块902可以进一步用于：

根据声音对象运动时的三维空间坐标位置，查找所述现场环境中的一个或多个音箱，所述现场环境中的一个或多个音箱的三维空间坐标位置与声音对象运动时的三维空间坐标位置之间的距离在设定范围内。

具体实施时，所述现场环境中的音箱可以为多个，分布于数字影院的影厅中；或，所述现场环境中的音箱可以为两个，应用于虚拟现实环境中；或所述现场环境中的音箱可以为两个，应用于电子设备中。

具体实施时，音频获得模块903可以进一步用于：

若所述现场环境中的音箱为两个，应用于虚拟现实环境中，则在对声音对象进行运算渲染时，将声音对象与头传递函数相结合，获得针对所述现场环境中的两个音箱的音频。

综上所述，本发明实施例在进行音频制作时，先制作声音对象，声音对象与音轨一一对应，每一声音对象代表一个发声源；获得声音对象的运动轨迹；再制作音频文件，所述音频文件包括声音对象及声音对象的运动轨迹，使音频制作与音箱布局无关，音频文件以统一的内容格式提供，而不必针对不同的音箱布局提供不同的内容格式，以减少音频制作的工作量，降低制作发行成本，并实现一次制作多个场合播放。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种音频制作方法，其特征在于，包括：

获得声音对象的运动轨迹；

2.如权利要求1所述的方法，其特征在于，声音对象的运动轨迹包括声音对象运动时的三维空间坐标位置。

3.如权利要求1或2所述的方法，其特征在于，获得声音对象的运动轨迹，包括：

通过在数字音频工作站运行插件的方式，获得声音对象的运动轨迹；

或，根据摇杆或体感控制设备输入的控制指令，生成声音对象的运动轨迹。

4.一种音频解码方法，其特征在于，包括：

5.如权利要求4所述的方法，其特征在于，声音对象的运动轨迹包括声音对象运动时的三维空间坐标位置；

获得需输出声音对象对应声音的现场环境中的一个或多个音箱所在位置，包括：

6.如权利要求4所述的方法，其特征在于，所述现场环境中的音箱为多个，分布于数字影院的影厅中；或，所述现场环境中的音箱为两个，应用于虚拟现实环境中；或所述现场环境中的音箱为两个，应用于电子设备中。

7.如权利要求6所述的方法，其特征在于，根据声音对象的运动轨迹及所述现场环境中的一个或多个音箱所在位置，对声音对象进行运算渲染，获得针对所述现场环境中的一个或多个音箱的音频，包括：

若所述现场环境中的音箱为两个，应用于虚拟现实环境中，则在对声音对象进行运算渲染时，将声音对象与头传递函数相结合，获得针对现场环境中的所述两个音箱的音频。

8.一种音频制作装置，其特征在于，包括：

轨迹获得模块，用于获得声音对象的运动轨迹；

9.如权利要求8所述的装置，其特征在于，所述轨迹获得模块进一步用于：

获得声音对象运动时的三维空间坐标位置。

10.如权利要求8或9所述的装置，其特征在于，所述轨迹获得模块进一步用于：

11.一种音频解码装置，其特征在于，包括：

12.如权利要求11所述的装置，其特征在于，声音对象的运动轨迹包括声音对象运动时的三维空间坐标位置；

所述位置获得模块进一步用于：

13.如权利要求11所述的装置，其特征在于，所述现场环境中的音箱为多个，分布于数字影院的影厅中；或，所述现场环境中的音箱为两个，应用于虚拟现实环境中；或所述现场环境中的音箱为两个，应用于电子设备中。

14.如权利要求13所述的装置，其特征在于，所述音频获得模块进一步用于：