CN105612510B

CN105612510B - 用于使用语义数据执行自动音频制作的系统和方法

Info

Publication number: CN105612510B
Application number: CN201480054236.1A
Authority: CN
Inventors: M·J·特雷尔; S·曼斯布里奇; J·D·赖斯; B·德曼
Original assignee: LANDR AUDIO Inc
Current assignee: LANDR AUDIO Inc
Priority date: 2013-08-28
Filing date: 2014-08-28
Publication date: 2018-11-13
Anticipated expiration: 2034-08-28
Also published as: JP2016534402A; EP3039674A4; BR112016004029A2; EP3039674B1; CA2887124A1; US20150066481A1; WO2015027327A1; CN105612510A; US9304988B2; CA2887124C; BR112016004029B1; EP3039674A1; JP6585049B2

Abstract

描述一种用于执行自动音频制作的计算机实施方法，其包括：接收要处理的音频信号；接收语义信息；使用所接收语义信息确定至少一个基于语义的规则，所述基于语义的规则包括定义应该如何制作所述要处理的音频信号的制作数据；使用所述制作数据处理所述要处理的音频信号，从而获取制作的音频信号；输出所述制作的音频信号。

Description

用于使用语义数据执行自动音频制作的系统和方法

相关申请的交叉引用

本申请要求2013年8月28号提交的并且标题为“System and method forperforming automatic audio mixing using semantic rules”的序列号为61/871,168的美国临时专利申请的优先权，其说明书以引用方式并入本文。

技术领域

下文涉及用于执行自动的音频处理，更具体地说通过使用语义数据的系统和方法。

背景

在音频制作的所有的领域(例如，录音棚录音、现场表演、广播)，通常使用一系列信号处理工具来处理音频信号。这包括处理单独音频信号，例如主控完成的混音；以及处理和组合由不同的声源(例如，合奏内的组件乐器)制作的多个音频信号。所述处理的目标是改善所得的音频信号的审美特性，例如以便在组合多个信号时制作高质量的混音；或者粘附到与传输相关的一些功能约束，例如以便最小化由于诸如mp3的数据压缩的信号劣化，或者减轻飞机上的背景噪音的影响。目前，这一工作由通常专门从事制作的特定区域的音频技术人员手动完成。他们执行的任务可能非常耗费人力，并且对于业余爱好者，进入所述领域时存在陡峭的学习曲线，并且在购买音频设备方面往往成本过高。

因此，存在对自动音频制作的需要。

概述

根据第一广义方面，提供一种用于执行自动音频制作的计算机实施方法，其包括：接收要处理的音频信号；接收语义信息；使用所接收语义信息确定至少一个基于语义的规则，所述基于语义的规则包括定义应该如何制作要处理的音频信号的制作数据；使用所述制作数据处理所述要处理的音频信号，从而获取制作的音频信号；输出所制作的音频信号。

在一个实施方案中，语义信息涉及要处理的音频信号。

在一个实施方案中，从用户接口接收语义信息。

在一个实施方案中，所述方法还包括从所接收音频信号确定语义信息。

在另一实施方案中，语义信息涉及参考音频信号，所述方法还包括：接收所述参考音频信号；以及从所述参考音频信号提取语义信息。

在一个实施方案中，语义信息包括染色体特征、分类特征和制作特征中的至少一个。

在一个实施方案中，制作数据包括要执行的给定音频处理动作和所述给定音频处理动作的相应静态特性、所述音频处理动作的配置以及所制作音频信号的目标制作特征中的至少一个。

在一个实施方案中，确定包括制作数据的基于语义的规则的步骤包括：访问包含多个参考记录的数据库，所述多个参考记录各自包括相应参考分类特征、相应参考染色体特征、参考处理动作的相应参考配置、参考处理动作的相应参考静态特性以及相应参考制作特征；识别匹配包含在语义信息中的染色体特征、分类特征和制作特征中的至少一个的至少一个参考记录；以及使用至少一个识别的参考记录来为要执行的给定音频处理动作和所述给定音频处理动作的相应静态特性、所述音频处理动作的配置以及所制作音频信号的目标制作特征中的至少一个分配值。

在一个实施方案中，所述方法还包括使用分配给目标制作特征的值来确定给定处理动作的动态特性。

在一个实施方案中，处理音频信号的步骤包括根据所述配置并使用所述静态及动态特性来对所述音频信号执行给定音频处理动作。

在一个实施方案中，所述方法还包括确定给定音频处理动作之间的制作特征的值，并且相应地修改所述动态特性。

在一个实施方案中，基本上实时执行接收要处理的音频信号和输出制作的音频信号的步骤，使得要处理的音频信号和制作的音频信号是同步的。

在一个实施方案中，仅为要处理的音频信号的一个区域确定制作数据。

在一个实施方案中，所述方法还包括接收用户制作偏好的步骤，所述处理音频信号通过使用制作数据和用户制作偏好执行。

在一个实施方案中，所述方法还包括从用户接收对所制作的音频信号的评估，并且使用所接收的评估来确定用户制作偏好。

根据第二广义方面，提供一种其上记录有语句和指令的计算机可读介质，所述语句和指令用于由处理单元执行以便执行上述方法的步骤。

根据另一广义方面，提供一种自动音频制作系统，其包括：语义分析模块，其用于接收语义信息并使用所接收的语义信息来确定至少一个基于语义的规则，所述基于语义的规则包括定义应该如何制作要处理的音频信号的制作数据；和音频处理模块，其用于接收要处理的音频信号，使用所述制作数据处理所述要处理的音频信号，以便获取制作的音频信号并且输出所制作的音频信号。

在一个实施方案中，语义信息涉及要处理的音频信号。

在一个实施方案中，语义分析模块适应于从用户接口接收语义信息。

在一个实施方案中，语义分析模块进一步适应于接收要处理的音频信号并从所述要处理的音频信号确定语义信息。

在另一个实施方案中，语义信息涉及参考音频信号，所述语义分析模块进一步适应于：接收参考音频信号；并且从所述参考音频信号提取语义信息。

在一个实施方案中，制作数据包括要执行的给定音频处理动作和所述给定音频处理动作的相应静态控制参数、所述音频处理动作的配置以及所制作音频信号的目标制作特征中的至少一个。

在一个实施方案中，所述系统还包括：包含多个参考记录的制作数据库，所述多个参考记录含各自包括相应参考分类特征、相应参考染色体特征、参考处理动作的相应参考配置、参考处理动作的相应参考静态控制参数以及相应参考制作特征，所述语义分析模块适应于：识别匹配包含在语义信息中的染色体特征、分类特征和制作特征中的至少一个的至少一个参考记录；并且使用至少一个识别的参考记录来为要执行的给定音频处理动作和所述给定音频处理动作的相应静态控制参数、所述音频处理动作的配置以及所制作音频信号的目标制作特征中的至少一个分配值。

在一个实施方案中，所述音频处理模块适应于使用分配给目标制作特征的值来确定给定处理动作的动态控制参数。

在一个实施方案中，所述音频处理模块包括多个音频处理器，并且适应于根据所述配置组织所述多个音频处理器并根据所述静态及动态控制参数控制所述多个音频处理器。

在一个实施方案中，所述音频处理模块进一步适应于确定音频处理器之间的制作特征的值，并且相应地修改所述动态参数。

在一个实施方案中，基本上实时执行要处理的音频信号的输入和制作的音频信号的输出，使得要处理的音频信号和制作的音频信号是同步的。

在一个实施方案中，所述语义分析模块适应于仅为要处理的音频信号的一个区域确定制作数据。

在一个实施方案中，所述语义分析模块进一步适应于接收用户制作偏好并使用所述用户制作偏好来确定制作数据。

在一个实施方案中，所述系统还包括制作评估模块，所述制作评估模块用于从用户接收对所制作的音频信号的评估，并且使用所接收的评估来确定用户制作偏好。

在其他方面，提供被配置来执行以上方法的系统、装置和计算机可读介质。

尽管它们用于处理音频信号，但应理解，上述方法和系统可用于处理多于一个音频信号。例如，所述方法和系统可接收包含至少一个音频信号的音频文件并使用与用于单个音频信号的方法相同的方法来处理所述至少一个音频信号。当所述音频文件包含多于一个音频信号时，处理过的音频信号可进一步被混合在一起。

附图简述

现在将仅参考附图通过实例来描述实施方案，其中：

图1是根据一个实施方案的一种用于使用语义规则处理音频文件的方法的流程图；

图2是根据一个实施方案的一种用于使用语义规则处理音频文件的系统的框图；

图3是自主多轨音乐制作系统和这种系统的语义处理模块的实例的框图；

图4是语义处理模块的说明性配置的实例的框图；

图5是语义规则的实例的说明性描绘；

图6是示出语义处理模块与音频混合引擎的示例性集成的框图；

图7是示出示例性计算机可执行指令的流程图，在操作语义处理混合以便将语义规则应用到音频数据时可执行所述计算机可执行指令；

图8A至8D是示出示例性计算机可执行指令的流程图，在使用自主多轨混合引擎结合交叉自适应音频处理执行语义混合时可执行所述计算机可执行指令；

图9是示出具有语义处理模块的自主多轨音乐制作系统的框图；

图10是示出自主多轨音乐制作系统的多轨子群的框图；

图11是示出自主多轨音乐制作系统的交叉自适应特征处理元件的框图；

图12是示出自主多轨音乐制作系统的示例性多轨混合处理器的框图；

图13是根据一个实施方案的一种用于确定制作数据的方法的流程图；

图14是根据一个实施方案的一种用于确定制作数据的系统的框图；

图15是根据一个实施方案的包括嵌入式语义分析模块的自主音频制作系统的框图；

图16是根据一个实施方案的语义分析模块的框图；

图17是根据一个实施方案的示出语义数据提取器的框图；

图18示出根据一个实施方案的包含在语义数据容器中的语义数据；

图19示出根据一个实施方案的包含在制作数据库中的参考数据记录；

图20是根据一个实施方案的推理引擎的框图；

图21是第一示例性自主音频制作系统的框图；

图22是第二示例性自主音频制作系统的框图；

图23是第三示例性自主音频制作系统的框图；并且

图24是根据一个实施方案的包括用户评估和自学反馈的自主音频制作系统的框图。

详述

应了解，为了简单且清晰地说明，在认为适当的情况下，参考数字可在图中重复以便指示对应或相似元件。另外，阐述众多具体细节以便提供对本文描述的实例的透彻理解。然而，本领域技术人员将理解，本文描述的实例可以在没有这些具体细节的情况下进行实践。在其他情况下，众所周知的方法、程序以及部件没有进行详细描述，以便不会遮掩本文描述的实例。而且，描述不应被认为限制本文描述的实例的范围。

将了解，本文使用的实例和对应的图仅用于说明目的。在不背离本文表述的原理的情况下可使用不同配置和术语。例如，部件和模块可被添加、删除、修改或布置有不同连接而不背离这些原理。

已经发现，尽管自动音频制作系统存在进步，但不存在将在所有情况下工作得很好的单组控制参数或制作目标。例如，制作目标将根据乐器和流派(例如，电子舞曲通常声音远远高于爵士乐)，个人可能喜欢具有特定控制参数集的处理工具(例如，具有特定管放大器类似仿真的失真单元)或者具有特定配置的处理工具的声音；并且控制参数和制作目标均要适应取决于输出目的地(例如，要在一个安静的房间或嘈杂的飞机上播放)。现有自动音频制作系统不考虑这些因素。

为了解决这些考虑，下文描述并入使用来自音频信号的数据和/或测量的基于语义的分析，以便确定要对音频信号执行的音频处理动作。可单独执行或结合自主音频制作执行这种基于语义的音频分析。使用制作数据来制作音频可被解释为实施已通过使用语义数据得到的一组基于语义的规则。这些基于语义的规则可以是静态的，由此所述规则规定固定的处理设置，例如，处理器配置和控制参数；或者动态的，由此所述规则规定制作目标，并且所述处理设置取决于输入音频信号的特定特征变化(动态地)。

图1示出用于根据语义规则处理音频信号或多个音频信号的计算机实施方法1的一个实施方案。在步骤2处，接收要处理的音频文件以及关于所述音频文件的语义信息。音频文件可包括要处理的单个音频信号，或者要处理且混合在一起的多个音频信号。关于音频文件的语义信息可通过用户接口由用户输入并从用户接口接收。在同一或另一实施方案中，从音频文件自身可自动确定关于音频文件的语义信息。

在步骤3处，从所接收语义信息确定要应用到音频文件的至少一个语义规则。语义规则包含要用于处理音频文件的制作数据。制作数据描述应该如何制作所述音频文件。例如，制作数据可以指示要执行的音频处理动作的类型、音频处理动作的特性/参数、要执行的音频处理动作的配置或序列，和/或所处理音频信号应该具有的期望目标制作特征。期望目标制作特征随后用于确定音频处理动作的动态控制特性。

在一个实施方案中，语义规则是静态的。如下文所述，静态语义规则定义要对音频文件执行的特定动作/处理和所述特定动作/处理的参数，例如，静态语义规则的一个实例如下：“如果踢鼓存在，那么将均衡器放到在100Hz，增益在-3dB，品质因子在2.2的低音吉他上”。或者，语义规则可以是动态的。如下文所述，动态语义规则定义处理过的音频文件的制作特征的期望目标值。示例性动态语义规则可以是如下：“获取处理过的音频文件的约-6.5dB的目标输出均方根(RMS)级”。

在步骤4，根据所确定的语义规则处理音频文件。在语义规则是静态的实施方案中，将定义在静态语义规则中的处理动作应用到音频文件以便获取处理过的音频文件。在语义规则是动态的实施方案中，首先确定允许获取制作特征的期望目标值的处理动作，并且随后对音频文件执行所确定的处理动作以便获取处理过的音频文件。回去参考实例，首先确定修改RMS级所需要的处理动作，即，使用限制器，并且随后确定用于将RMS从其初始值达到约-6.5dB的限制器的参数。随后将所确定的处理动作应用到音频文件。

在确定要对音频文件执行多于一个处理动作的实施方案中，所述方法1还可包括确定要执行的处理动作的执行顺序或序列的步骤。这对应于确定将处理音频文件的音频处理器的配置，即，所述音频处理器在音频处理器链内的相对位置。

如果音频文件包括多于一个音频信号，那么处理步骤4可包括根据语义规则处理音频信号和将处理过的音频信号混合在一起的步骤。

在步骤5，输出处理过的音频文件。在一个实施方案中，处理过的音频文件存储在永久或临时存储器中。在同一或另一实施方案中，处理过的音频文件发送给音频渲染器或声音系统以便通过例如扬声器回放。

图2示出用于根据至少一个语义规则处理音频文件的系统6的一个实施方案。系统6包括语义规则确定单元7和音频处理器8。语义规则确定单元7适应于接收关于要处理的音频文件的语义信息，并且确定要应用到音频文件的至少一个语义规则，如下文更详细描述的。在一个实施方案中，语义规则确定单元7适应于确定至少一个静态语义规则。在另一实施方案中，语义规则确定单元7适应于确定至少一个动态语义规则。应理解，语义规则确定单元7还可适应于为同一音频文件确定至少一个静态语义规则和至少一个动态语义规则。

音频处理器8适应于接收要处理的音频文件，并且结合语义规则确定单元7以便接收从其确定的语义规则。音频处理器8适应于将语义规则应用到音频文件以便获取处理过的音频文件，并且输出处理过的音频文件。

在所确定的语义规则是动态的实施方案中，音频处理器8适应于首先确定要对输入音频文件执行的处理动作的类型和对应参数，并且随后对音频文件执行所确定的处理动作以便获取处理过的音频文件。

在输入音频文件包括多于一个音频信号的实施方案中，音频处理器8可适应于处理输入音频信号中的至少一个并且随后将音频信号混合在一起以便获取处理过的音频文件。

下文示出可从实际的混合工程文献和其他来源得到的系统和静态语义规则库的实例。

现在转到图3，示出自主多轨音乐制作系统(此后“制作系统10”)，所述系统根据静态语义规则处理多轨音频输入12，并且生成要由声音系统16播放的常常被称为“混音”的音频输出14。声音系统16进而生成音频输出18，所述音频输出18在倾听空间、环境、“房间”或音频输出18可在其中/在其中播放并听到的其他空间体积播放。如图3中示出的，制作系统10可包括自主混合引擎104和语义处理模块20。

图4示出语义处理模块20的配置的实例。应了解，图4中示出的功能块仅是说明性的。本实例中的语义处理模块20包括静态语义规则处理器22，其用于分别使用输入模块24和元数据模块26处理输入和元数据，以便确定应该从静态规则数据库28(或其他合适存储器、图书馆、目录、数据存储装置等)选择出许多预存储的静态规则32中的哪个并应用其以便选择性地处理音频输入12来生成考虑语义或“基于知识的”信息的处理过的输出18。语义处理模块20还可包括输入接口30，所述输入接口30使语义处理模块20能够接收并处理控制输入34(例如，以便处理用户输入、来自自主混合处理器104的输入等)，和/或接收新的静态语义规则32或静态语义规则32集以便更新静态语义规则数据库28。例如，因为新的静态语义规则32发展或者因为根据用户偏好或风格制作变化，这种新的规则32可加载或以其他方式并入到静态语义规则数据库28的图书馆或集合中以便随后使用。

图5示出静态语义规则32的说明性实例。在这一实例中，每个静态语义规则32包括允许识别关于静态语义规则32的各种信息的一个或多个标签36。例如，标签36可被生成为表示静态语义规则32的源的以逗号分隔的单词(出于比较的目的可以包括或不包括源)，其应适用于的乐器(或通用’)，其应适用于的流派(或‘全部’)，其涉及的处理器等。基于这些标签36，规则处理器22确定是否应该并且在哪个轨道上应用静态语义规则32。应了解，标签36的顺序和数量不需要是固定的。

静态语义规则32还包括对应于按顺序采取以便应用规则的处理步骤或动作的一个或多个规则动作38(例如，要执行的设置、对应的轨道等)。例如，一个或多个‘插入式’处理器(例如，高通滤波器、压缩器、均衡器及其他)可基于规则动作38中指定的参数用于用处理版本替换标签部分中指定的轨道的音频。插入式处理器指插入到轨道或总线的信号路径中的任何音频处理器，具有来自先前处理器(或源)的输入和到下文的处理器(或主控总线或音频输出等)的输出。可以注意到，插入式处理器与‘发送效果’处理器不同，其中特定轨道被选路给处理器以便应用效果而不破坏轨道的信号链，例如还执行插入处理。应了解，这些原理可同样适用于“发送效果”处理器。

在阅读静态语义规则32之后可立即使用插入式处理器。另一方面，可不应用由静态语义规则32操纵的级别和平移元数据，直到缩混阶段(下文更详细地描述)，在已阅读所有的静态语义规则32之后为止。规则动作38还可包含其他程序指令或代码，诸如条件语句、循环或计算。可从静态语义规则32内访问对应于处理轨道以及其他轨道的音频和元数据。

静态语义规则32还可包括允许与静态语义规则32相关联的动作38被显示或以其他方式输出并便于调试的注释40。应了解，静态语义规则32可以引用多个轨道，所述轨道可以以各种方式实施，例如如下所述。

在一个实例中，规则标签36可包括若干乐器，例如，‘踢鼓’和‘低音吉他’。通过扫描轨道来查看应该应用哪些静态语义规则32，所述系统可首先遇到踢鼓，并因此，那个静态语义规则32(例如，限制平移值在-5％-％5之间)被应用到踢鼓。在遇到低音吉他时，静态语义规则32将随后被应用到低音吉他。

在另一实例中，乐器可被引入到静态语义规则32的规则动作38部分中。例如，静态语义规则32可适用于低音吉他(在规则标签36中体现的‘低音吉他’)，并且规则动作38可以是，例如：“如果踢鼓存在，那么将均衡器放到在100Hz，增益在-3dB，品质因子在2.2的低音吉他上”。在这种情况下，引入踢鼓轨道，并因此在静态语义规则32内的乐器之间存在‘交叉-相关’。更高级的静态语义规则32可以看看其他规则的特征或适用参数(即，随伴唱平移参数或钢琴谱变化的声音均衡器)。

静态语义规则32的实例如下：

标签：作者X、踢鼓、流行、摇滚、压缩器

规则动作：比率＝4.6；拐点＝0；atime＝50；rtime＝1000；阈值＝ch{track}.peak-12.5；

注释：强力踢鼓压缩。

应了解，静态语义规则32可被生成为各种合适数据结构或数据模型。还可了解，音频效果本体的使用可促进交换、编辑和扩大规则数据库28，并实现在描述逻辑上下文中使用。

图6示出制作系统10、语义处理模块20和用于执行语义混合的自主混合引擎104的配置的实例的框图。这一实例中的输入包括原始多轨音频12(例如，单声道和立体声轨道的混合)，和元数据42(例如，指定与每个音频文件对应的乐器的文本文件，诸如：{BassDI.wav，低音吉他}，{Kick D112.wav，踢鼓}，{SnareSM57top.wav，小鼓}，{Johnny.wav，领唱}等)。在基于语义规则32被处理之前，每个轨道的基本特征在测量块44中提取。测量可用于更新元数据42，并且元数据42由规则处理器22使用来识别适当的语义规则32。在一个实例中，轨道号可以自动存储为以乐器命名的整数或整数阵列(例如，如果通道1是大鼓：踢鼓＝1，如果通道3至5是筒鼓：筒鼓＝[3，4，5])。不同的轨道指数也可以存储在子群阵列(例如，鼓g＝[1，2，3，4，5，7，12])能够同时访问所有吉他，人声等。

语义规则32随后从规则数据库28读取，并且如果可适用，则应用到相应的输入轨道12。如上论述的，每个语义规则32指定要执行的处理的性质，并且在本例中，指定五分之一的压缩器：高通滤波(‘HPF’)46，动态范围压缩(‘DRC’)48，均衡(‘EQ’)50，平衡/级别(‘衰减器’)52和平移(‘声象移动器(pan pot)’)54。语义规则32的应用顺序由处理器的挑选顺序确定。例如，针对与处理器1相关的语义规则32首先可扫描知识库，随后是处理器2，以此类推。应了解，使用五个处理器只是说明性的，并且可使用任何合适的音频效果或音频处理器实施本文描述的原理。类似地，可基于插入效果、发送效果以及预处理(即，在另一波编辑器或处理装置中脱机)的语义信息设置参数。

在处理单独轨道12之后，可以执行鼓总线阶段56，其中使用相应的衰减和平移常量在第一缩混操作58中向下混合鼓乐器(子群“鼓”的成员)，并且如果存在与鼓总线阶段56相关的语义规则32，则在62均衡并在60压缩。得到的立体声鼓总线输出随后与剩余轨道在混合母线阶段64向下混合一起，再次利用其相应的衰减和平移常量。如果存在对混合总线64作用的语义规则32，则均衡并压缩所得到的混音，并且提供立体声输出18。

尽管在图6中，输入音频文件12包括要处理并混合在一起的多个输入音频信号或输入轨道，但应理解，输入音频文件12可包括单个输入音频信号或轨道。在这种情况下，省略诸如缩混操作58的缩混操作。

在这一点，提取的特征和混合参数在整个音频轨道上是恒定的。在另一实施方案中，提取的特征和混合参数可被确定用于手动或自动分割之后的音频轨道的不同部分，并因此可具有随时间推移不断大幅变化的特征或设置。

处理的顺序可以根据应用并且因为进行新的技术和研究而变化，然而，已经发现，在一个实施方案中，优选的顺序应基于工作流程的考虑。在一些情况下，在压缩器48之前期望至少一个均衡器阶段50，因为不期望的重低端或突出频率以一种不同于期望效果的方式触发压缩器48。在本文论述的实例中，假定并确保被评估的信号没有显著影响压缩器48的工作的此类频谱异常事件(例如，通过短测试证实)。相反，高通滤波器46可放置在压缩器48前面以便防止压缩器48倍不需要的低频噪音触发，并且均衡器50放置在压缩器48后面，如图6中示出的。

广泛接受的是，衰减器52和声象移动器54应该操纵在诸如压缩器48和均衡器50的插入式处理器后面的信号，并且如图6所示，声象移动器54可以放置在衰减器52后面以便与混音台大体连接的方式一致。此外，因为这些处理的线性性质以及他们在语义处理中的独立性，在上下文中顺序可能不那么重要。然而，可以注意到，本文描述的语义混合系统允许处理器的任何顺序。

基于这些考虑，处理器的以下顺序用于语义混合系统的评估：高通滤波器46、动态范围压缩器48、均衡器50、衰减器52和声象移动器54，如图4中示出的。

在本文描述的实例中，通用压缩器模型可用于可变阈值布局(而不是例如，固定阈值、可变输入增益设计)，二次拐点和以下标准参数：阈值、比率、上升和释放(‘弹道’)和拐点宽度。

在本实例中，不使用补偿增益，因为级别由‘衰减器’模块设置在稍后阶段，这使得操纵压缩器阶段48的增益冗余。为了说明目的，在本实例中，也没有侧链滤波器、用于不是处理过的通道的其他通道的侧链输入或前瞻功能。压缩器在逐个样品的基础上处理传入的音频样品。立体声文件(诸如，顶置麦克风对)以‘立体声连接’模式，即，两个通道的级别减少相等的量压缩。根据应用和环境可选择各种乐器的各种压缩器设置和各种期望效果，并因此，对应的静态语义规则32可相应地变化。

第二处理步骤使用不同轨道12或轨道12群的均衡50和滤波46来修改信号的频谱特性。在本实例中，使用两个工具来完成这个任务：高通滤波器46(例如，以100赫兹的截止频率对除了低音吉他和踢鼓的每个轨道实施诸如高通滤波的动作)，和参数均衡器50(例如，具有高架、低架和峰值模式)。然而，应了解，可使用影响声音的频谱特性的许多工具，诸如上文例示的均衡器和其他滤波器。后者的参数是频率、增益和Q(品质因子)。简单的二次实施方式可用于高通滤波器46(例如12dB/倍频程)和均衡器50(例如，二阶每级滤波器，即，每个对应于一个频率/Q/增益三重峰)。

当试图将均衡规则翻译成量化混合操作时，一个可以将频谱的部分映射成更紧密地描述制作任务的目标的特征，例如像可能与频谱的部分相关的‘通风’、‘浑浊’和‘苛刻’的音色特征。这是可能的，因为许多现有技术的来源提供定义这些类型的映射的表或曲线图。

平移值存储在每个轨道12的元数据42中并且在本实例中最初被设置为零。值得范围从-1(完全平移到左边)到+1(完全平移到右边)，并且确定缩混期间左通道相比右通道的轨道的相对增益。

类似于平移阶段54，衰减器52或每乐器可变的‘增益’可存储为元数据42与轨道12。初始增益值可被设置为0dB，并随后根据规则32(以绝对或相对术语，即，‘将增益设置在x dB’或‘以x dB增加/减少增益’)操纵并在缩混58期间应用。或者，输出‘级别’可以以每乐器定义并存储为元数据42与轨道12。所述系统会基于进入衰减器52(还存储为元数据42)的信号的轨道级别评估所需增益值以达到规定的级别。前者情况是静态语义规则的实例，并且后者是动态语义规则的实例。

现在转到图7，示出可被执行来执行语义混合过程的示例性计算机可执行操作集。在步骤200，获取包括音频轨道12的音频文件，并且在步骤202，获取初始元数据42(例如，具有指示的乐器、流派、风格等)。在步骤204，将上文描述的测量应用到音频轨道12，并且在步骤206更新元数据42。随后在步骤208，可使用元数据42来识别静态语义规则32中适用于轨道12的标签36，并且在步骤210可根据静态语义规则32执行对应的规则动作(处理)。例如，如上文论述的，随后在步骤212，可执行缩混操作，并且在步骤214，生成作为输出的最终缩混(在混合总线阶段64之后)或音频输出18。

应理解，可省略执行缩混212的步骤。例如，如果输入音频文件包括单个音频信号或轨道，那么仅执行步骤200-210和214。

如上文论述的，尽管可独立执行语音混合操作，但理想的是，结合根据低级提取的特征进行的处理执行语义混合。图8A提供可由制作系统10执行以便结合其他自主音频混合过程执行语义混合过程(例如，使用如下文例示的交叉自适应的特征处理)的示例性计算机可执行操作集，其中连续进行低级处理和语义混合。在步骤300，获取要处理的音频数据，例如，音频轨道12。随后在步骤302，可使用自主混合引擎104来执行低级特征提取，并且例如在步骤304，执行交叉自适应处理(如下文论述的)以生成音频输出18。如果不执行语义混合，那么所述音频输出18可以是最终输出，或者可构成中间输出。在步骤306，制作系统10将因此例如基于元数据42和静态语义规则32的存在或缺席确定是否要执行语义处理。如果不执行，那么在步骤308，提供作为音频输出18的已经处理过的音频。如果要执行语义处理，那么在步骤310进行以便在步骤312生成可在步骤314输出的进一步处理过的音频。

应了解，在一些配置中，采取低级特征处理版本并应用合适的语义规则来进一步调整或适应到乐器、风格、流派等的输出，或者防止或忽略通常会执行但在当前应用中不适当的某些低级调整可以是有利的。在这种配置中，因为低级处理会在高级语义处理之前发生(如图8A所示)，会需要抵消要调整、防止或忽略的任何处理。图8B示出一配置，其中在语义混合忽略已完成并可逆转的处理的意义上，可执行操作316和318来确定在步骤316是否要抵消任何处理，并且在步骤314输出进一步处理过的音频之前，在步骤318应用后处理来逆转一个或多个先前应用的处理。

在图8C中示出的另一配置中，执行图8A中示出的相同操作，然而，逆转低级和语义处理阶段使得执行语义分析，并且将任何结果直接馈送到各种自动低级处理器中以便在低级处理期间加以考虑(例如，基于语义分析忽略某些处理步骤)。

可以了解，图8C中示出的配置还可适应于在语义信息可在逐帧的基础上改变而不是在所有帧中都是静态的时容纳逐帧分析。在逐帧配置中，在每个帧的开始，分析轨道以得到分类特征(例如，“是背景声”、“合唱开始”、“是吉他”等)，并且结果被传递给不同的处理器以便根据与分类特征信息相关的静态语义规则32执行低级处理。结果的实例可基于哪些乐器是领头乐器、哪些是背景、哪些可被馈送到“自动衰减器”模块等包括“增益提升和削减”的阵列。自动衰减器随后应用典型级别变化来将乐器带到相同的响度，但是对领唱应用额外刺激，对背景声音应用额外削减等。可对正使用的其他处理器应用类似程序。可以注意到，在本实例中低级分析和对应的处理发生在不同模块中。

在图8D中示出的又一配置中，可在利用任一处理器之前执行高级分析和低级分析。在这种配置中，分析与处理分离以允许高级处理修改或增强(或移除)某些低级处理来考虑基于乐器、流派或风格的考虑(仅举几例)。处理器可随后被配置来从分析阶段接收参数并参与处理。

还可了解，所述系统可并入有诸如混响和延迟的基于延迟的效果。

图9更详细地示出具有语义处理模块20的示例性制作系统10，所述语义处理模块20可使用系统10内的程序指令或模块实施。制作系统10包括用于接收多轨音频输入12(例如，流数据或数据文件)并输出要处理的轨道502的传入数据处理器500。数据文件处理器500处理其输入来有效提供要输入到自主多轨音乐制作引擎504(此后称为“引擎504”)的“音频源”。引擎504包括源控制块506，所述源控制块506执行源识别和其他类型的语义或高级混合(例如，通过利用语义处理模块20-图9中未示出)、子群分配和流派设置。源识别使用机器学习和特征提取方法来自动确定音频源类型或乐器。所述信息可随后用于将轨道分成子群，例如声音或敲击乐器子群，以便形成音频制作系统。子群分配和路由也可由用户外部控制，并且将最终馈送到输出完成立体声混音的最终‘主’子群。流派设置也由源检测或用户控制确定。这允许每个子群和包含在内的处理器取决于流派选择或检测具有不同参数设置和预设。在图9中示出的典型实例中，信号被分成在510处输出最终混合音频的多个多轨子群508。

子群的指定可以通过使用诸如声音和敲击乐器检测技术的源识别自动实现，或者基于用户输入的描述符或标签手动实现。自动检测技术基于对许多低级和高级提取音频特征的机器学习算法，并且传入轨道被实时分析并且可由其与离线机器学习分析的结构相关性判断。子群的另一特征是处理器之间对提取特征的共用，以便防止对提取特征的重复计算并因此提高效率。另外，引擎504可包括实施适应来自用户的新数据输入的机器学习技术的主动学习模块或相关功能。

语义混合模块20与制作系统10集成，使得其可与引擎504的输出连接以便提供进一步的增强和调整来适应上文论述的语义输入。

尽管图9中未示出，但制作系统10还可包括离线分析器或提供其功能，所述离线分析器可集成到制作系统10中以使用户能够进行对音频数据的离线分析。离线分析器可以与所述系统分离或者是所述系统的部件。离线分离器包含被分析的音频数据的时间戳以及相关联的数据点。离线分离器可被配置来例如为需要随时间推移积累数据的特征、使用相同提取特征的不同测量等以及先前不可用的测量(诸如响度范围)生成新的长期提取特征，以便用在由制作系统10所依赖的信号处理算法中。例如，使用响度、波峰因数等的长期特征的歌曲动态性中的定位变化可被执行来生成新的提取特征。

离线分离器还可通过分析每个完整轨道来执行乐器识别，并随后使用所述知识来在运行混合之前构建子群508。此前，实时系统会需要一些缓冲来在能够生成子群508之前分析传入的音频。

离线分析器还可用于通过以下方式生成数据点：使音频运行通过子群508的预先存在的特征提取和交叉自适应分析阶段(也见于图10-12)，并使数据返回以便存储在例如离线分析器中或者在离线分析器可访问的块或模块中。

离线分析器还可与源控制块506通信，所述源控制块506进而与子群508通信，以便在适当时间设置混音的参数。

现在将描述离线分析实例。在本实例中，一组多轨音频文件(也称为符干)可用于引擎504。符干被逐帧分析，并且音频特征(诸如，响度、频谱矩心、波峰因数)被提取，其中每个的值被存储为特征时间序列。分析阶段随后运行来检测特征值中、单独轨道内以及所有轨道上的变化，并且相应地调整引擎504。例如，在响度作为选择的提取特征的情况下，离线分析器可注意到所有轨道突然变得明显不那么响亮，并且一个轨道，例如电吉他，继续在其原始级别。这在轨道全部回到其原始响度状态之前维持一段时间(例如，20秒)。这由离线分析器解释为独奏部分，并且会以多种方式影响引擎504：i)选择吉他作为引导轨道并将其平移到混音的中心，ii)提高吉他衰减级别(例如，3dB)，以及iii)在所述部分的开始绕过吉他衰减器的平滑功能以允许衰减器跳跃并给出吉他在混音中的立即突出。这些参数变化由离线分析器存储为针对时间的数据点。

接着，可遵循存在于实时实施中的通常信号处理算法来处理混音，但是其中各种参数在与在分析阶段中发现的事件对应的时间点处改变。

应该了解，存在许多其他实例和离线分析以及我们因此将获得的未来音频事件的知识将在引擎504上具有的可能性。例如，可通过选择和优化均衡器以朝向目标推输出频谱来执行描述整体目标频谱的动态规则。可以逐帧监测单独轨道或最终缩混的频率内容。随后可抢先控制滤波器以调节到在频谱中是即将发生的而不是事后进行反应的变化。相同理论应用于任何处理工具，即，它们可以被制成为在事件之前反应。

也可了解，可以使用先行缓冲器来准实时地实现关于离线分析器的上述原理，所述先行缓冲器允许即将到来的事件的抢先知识而不需要整个音频文件可用。

尽管图9中示出制作系统10的特定示例性配置，但可以了解，可使用上述原理实现各种系统配置，例如，通过以多种灵活方式适应图12中的结构(见下文)来创建处理器522-528(例如，衰减器、压缩器等)和适应特定应用的子群508放置。例如，图19中示出的阶段可被重新配置来处于不同顺序、数量和路由。这样，可以了解，本文示出的实例仅为说明性的。

当组合时，制作系统10不断适应来制作平衡混音，其中意图最大化尽可能远平移到由每个轨道的频谱质心确定的限制。包括最终平移控制的所有参数经过EMA文件以确保其平滑地变化。引导轨道、典型声音可被选择来绕过平移算法并被固定到混音的中心。

图10示出多轨子群508的配置的实例，所述多轨子群508作为自主、实时、低延迟多轨音频制作的序列操作执行处理和混合。每个轨道502由多轨子群508接收，并且首先经历包括针对每个单独轨道的响度处理器522的响度处理模块中的响度处理，并且执行相关联轨道的响度特性的实际处理。

轨道502随后由与每个轨道相关联的相应压缩处理器524处理，并随后由相应均衡(EQ)处理器526处理来应用一系列滤波器来改变轨道的频率内容。对应于每个轨道502的处理过的音频信号随后由相应的左立体声平移处理器528a/右立体声平移处理器528b处理。左信号和右信号随后分别在530和532处组合，并由主控模块534处理以便在538处由子群508并最终制作系统10输出。

图10中示出在制作引擎504中使用的处理器522、524、526、528的普通图示，所述处理器被布置来从多轨音频输入内容502自动制作混合的音频内容502’。图11中示出的处理器522、524、526、528被布置来通过执行以下步骤来执行自动音频混合：

接收输入信号502：在制作系统10的输入处接收来自多个轨道的数字音频信号502并将其路由到制作系统10的多个并行信号处理通道；

特征提取550：分析数字音频信号502中的每个并且提取数字音频信号中的每个的特定特征；

特征分析(交叉自适应特征处理模块554)：分析提取的特征和不同信号的提取的特征之间的关系，并且根据一个或多个处理控制规则558确定每个轨道所需要的处理；

信号处理556：随后根据特征分析处理音频信号；以及

输出处理过的信号502’：随后将处理过的信号502’作为对应于每个轨道的修改的数字音频信号输出。

现在将参考图更详细地描述包括上述步骤中的每个的自动混合过程。

处理器522、524、526、528的输入被布置来接收多个立体声数字音频信号502，在图10中示出的实例中，为第一、第二和第三立体声音频信号。每个立体声音频信号502对应于要处理的音频轨道，并且具有左通道和右通道。处理器522、524、526、528的输入接收每个轨道作为单独音频信号502。处理器522、524、526、528被布置来接受任意数量的输入音频轨道；轨道的数量仅由制作系统10的处理能力和要输出的音频的要求限制。

可以了解，如上提及的，制作系统10还可使用子群508来实现音频信号502的最优混合，如图9和10中示出的，如本文描述的。单独组的轨道可被分配给子群508，在其中可放置混合和主控处理器。子群508可被连接在一起，使得缩混或来自一个子群508的单独轨道充当到另一个的输入。预设可用于将特定设置应用到子群508，例如用于特定流派或特定乐器的混合。

在图11中示出的实例中，实时处理接收的音频信号502。这种实时处理在接收的信号502是现场记录或从流式内容导出的实时信号时特别有用。在这种实例中，在接收音频时对流式音频实时执行特征提取550。要提取的音频特征包括音频信号的特征或特性，诸如增益响度、响度范围、频谱掩蔽、空间掩蔽、频谱平衡、空间的平衡及其他。

接收的音频信号被传送到并行处理操作或“侧链”中，即，使用用于音频特征的提取和分析的交叉自适应特征处理模块554。多个特征提取模块550提供如图11中示出的这种并行特征提取。

瞬时特征值由特征提取模块550取决于实施方式在逐个样品或逐帧的基础上提取。在后者情况下，帧尺寸按需要地小以便确保最小延迟情况下的实时操作。累计平均被应用到特征来实施实时特征评估，其速率根据帧尺寸和采样率调整，并且这紧跟在特征值的最新更新之后执行。

指示音频信号的某些特征的提取的数据流通过使用任何适当方法随时间推移平滑。例如，指数移动平均滤波器可以与相关联的时间上升和释放常量一起使用。

图11中示出的交叉自适应多轨道特征处理模块554接收由特征提取模块550中的每个提取的特征的每个。交叉自适应处理模块554确定指示要应用到轨道502中的每个的处理操作的处理控制功能。还基于预先确定的约束552和/或静态和动态规则558以及提取的特征确定处理控制功能。预先确定的约束可由用户在开始混合过程之前设置并存储在约束模块552中。处理规则558可设置轨道之间的某些需要的关系，或者特定特征的上限/下限。动态规则包括但不限于以下：

对于自主多轨衰减器，所有主动源趋于平等的感知响度；

对于自主多轨立体声定位，所有轨道被定位使得维持空间平衡和频谱平衡；

对于自主多轨动态范围压缩，压缩器被应用在每个轨道上使得最小化主动源的响度范围中的变化；

对于自主多轨均衡，滤波器被应用在每个轨道上使得源的频谱宽度不重叠；以及

对于自主延迟和极性校正，延迟可被添加到每个轨道以便将每个轨道同步到共同参考。

交叉自适应多轨道特征处理模块554包括确保朝向输出中的期望特征的会聚的反馈操作。也就是说，由交叉自适应多轨道特征处理块制作的控制可在其应用之前被分析。如果其不能制作在给定容差内的期望结果，那么控制值在其应用之前被调整。

处理控制功能采取时变滤波器的形式，诸如增益、延迟和无限脉冲响应滤波器。更具体地，控制向量可被利用，这是先前控制向量的加权总和以及提取的特征的函数。在响度衰减器的情况下，多轨处理用于得到每个轨道的分贝级控制。所述处理的结果随后转换回线性域，并且作为随时间变化的增益应用到每个轨道，如下文论述的。类似地，在自主立体声定位的情况下，多轨处理用于得到每个轨道502的平移位置，其随后应用为两个增益，从而为立体声定位制作左输出和右输出。

在自主延迟和极性校正的情况下，分析所有轨道502与参考之间的延迟并且引入人工延迟来同步音频。

一旦上述控制功能被确定，其就用于处理并行信号处理模块556中的轨道中的每个。每个轨道随后由相应处理块556输出为单独音频信号502’，所述单独音频信号502’已根据由交叉自适应处理模块554确定的控制被处理。每个处理过的信号502’随后由求和过程组合到输出模块510、536中的单个音频输出。输出502’可以是任何合适的格式，但在本实例中，是立体声输出510、536。

通常，要混合的音频信号的主要方面包括但不限于：逐帧基础上的每个轨道的相对响度级；在一段时间内的音频信号的相对响度；均衡器；压缩、主控、每个轨道的立体声平移(用于立体声音频信号的混合)等。因此，现在将详细地考虑对于音频信号的这些方面中的每个的自动特征提取和处理(即，动态规则)。

图12示出多轨混合处理器554，所述多轨混合处理器554被配置来提取响度和响度范围以便允许对多个音频轨道的相对响度级别的独立控制实施衰减器作为示例性使用情况。在图9中示出的实例中，特征提取对应于响度提取并且交叉自适应处理对应于响度优化。

如图12中示出的，对应于多个轨道的音频信号502具有与由多通道响度提取模块560在每个帧样品处提取的其响度相关的信息。多通道响度提取模块560在确定相关联的响度时将所有轨道的感觉响度考虑在内。响度优化模块562随后根据响度确定适当地确定要应用到轨道中的一个或多个的控制功能。使其响度改变的轨道随后由相应处理模块566改变，例如通过使增益应用来根据控制信号564提高或降低信号级。因此已针对响度校正处理输出502’来执行规定其相对响度的动态规则。

可以了解，图9至12中示出的示例性配置仅为了说明目的并且各种其他配置可用于适应不同应用和情境。

尽管图3-12示出用于使用静态语义规则处理和混合多个音频信号/轨道的方法和系统，但以下提出一种用于分析音频信号来得到包括要用于控制自主音频制作系统的制作数据的静态和/或动态语义规则的方法和系统。制作数据包括音频处理工具的配置、每个处理工具的特定输入控制参数预设，和/或就审美和功能约束而言的最合适的制作目标。

图13示出方法600的一个实施方案，所述方法600用于分析音频信号或多个音频信号以便提取语义数据或信息，并使用所提取的语义数据来得到制作数据。

在步骤602，接收要分析的音频文件以及关于所述音频文件的语义信息。音频文件可包括要分析的单个音频信号，或者要一起分析的多个音频信号。关于音频文件的语义信息可通过用户接口由用户输入并从用户接口接收。

在步骤604，分析音频文件中的每个音频信号并且提取关于每个音频信号的语义数据。在同一或另一实施方案中，关于音频文件的语义数据可来自通过用户接口的输入、从音频文件提取而得或两者皆可。

在步骤606，分析音频文件的语义数据以确定至少一个对应的语义规则。如上所述，语义规则可包括至少一个静态语义规则和/或至少一个动态语义规则。语义规则包括指示要对音频文件执行的音频处理动作的制作数据。制作数据可以是三种不同类型：关于诸如处理动作应该被执行的时间序列的要执行的音频处理动作的配置的数据；对应于将执行对应音频处理动作的每个音频处理器的特定输入控制参数预设的每个音频处理动作的特性；以及采取音频文件的给定特征的期望目标值形式的制作目标。音频处理动作的配置和特性可被看作静态语义规则，而制作目标可被认为动态语义规则。

在步骤608，输出制作数据。在一个实施方案中，制作数据被发送到自主音频制作系统，所述自主音频制作系统将根据制作数据处理音频文件。在另一实施方案中，制作数据被输出作为要存储在存储器中的单独配置文件。在再一实施方案中，制作数据嵌入在可存储在存储器中的原始音频文件内。

图14示出用于根据制作数据的至少项执行自主音频制作的系统620的一个实施方案。系统620包括语义分析模块622和单独自主音频制作系统624。语义分析模块622接收要处理的音频文件，并且任选地接收与来自用户接口的音频文件相关的语义数据。要制作的音频文件可包括单个音频信号以及要一起分析和制作的多个音频信号。语义分析模块622适应于从接收的音频文件确定语义信息或数据，并且语义数据被发送到自主音频制作系统624。在一个实施方案中，语义分析模块622可将制作数据保存在配置文件中。在另一实施方案中，语义分析模块622可将语义和/或制作数据嵌入在要处理的音频文件中。

自主制作系统624接收要处理的音频文件和制作数据。如上所述，制作数据指示：音频处理器的配置、音频处理器的控制参数或特定输入控制参数预设，和/或音频信号的给定制作特征的目标值。使用制作数据，自主制作系统624执行以下中的至少一个：将音频处理器或处理工具配置为在自主制作系统624中使用，设置每个处理工具上的特定输入控制参数预设，并且设置每个处理工具上的控制参数，使得制作的音频文件的制作特征匹配包含在制作数据中的目标值。自主制作系统624随后处理接收的音频文件，并且输出处理过的或制作的音频文件。在一个实施方案中，自主制作系统624进一步适应于将语义和/或制作数据嵌入在制作的音频文件中。

图15示出用于处理并聆听音频文件，由此语义分析模块622与自主制作系统624组合并嵌入在基于语义的自主音频制作系统620(此后称为“制作系统”)的系统的一个实施方案。制作系统620将音频文件或信号作为输入，所述输入由自主制作系统624基于通过语义分析模块622得到的制作数据处理。制作系统输出至少一个制作的音频信号，所述制作的音频信号被发送到将其转换成至少一个制作的声信号的声音再现系统626。制作的声信号随后经受聆听环境628的影响，例如房间声响效果和背景噪音，以便给出包括由收听器630听到的环境效果的最终制作的声信号。

图16示出语义分析模块622的配置的一个实例。应了解，图16中示出的功能块只是说明性的。语义分析模块622包括语义数据提取器632、语义数据容器634、接口引擎636和制作数据库638。语义数据提取器632适应于接收要处理的音频文件并且从接收的音频文件提取语义数据。语义数据容器634适应于从语义数据提取器632接收提取的语义数据，并且任选地从用户接口640接收与音频文件相关的额外的语义数据。语义数据容器634适应于将接收的语义数据组合到被传送到接口引擎636的单组的语义数据。与要分析的音频文件相关的语义数据也可传给语义数据提取器632。制作数据库638包含用于制作的音频文件的示例性制作数据的主体。接口引擎636从语义数据容器634接收要分析的音频文件的语义数据，并且访问制作数据库24来确定制作要分析的音频文件的合适的制作数据。在一个实施方案中，用户通过用户接口640输入制作偏好，这将影响接口引擎636对制作数据的确定。

图17示出语义数据提取器632的一个实施方案。在这个实施方案中，语义数据提取器632包括染色体特征提取器642、自动音频分类器644和制作特征提取器646。染色体特征提取器642接收音频文件并评估要分析的音频文件的染色体特征。染色体特征包括可用于描述要分析的音频文件的任何数值特征，例如，节奏、谐波含量、Mel频率倒谱系数(MFCC)、子频段通量(SBF)和/或来自音乐信息检索(MIR)文学的特征。染色体特征还可包括数值特征的时间序列的任何统计测量，例如，平均值、方差、偏度、峰态、中数、模式、最大值、最小值、导数、积分、总和等。这些可涉及要分析的音频文件中的每个音频信号的整体或仅其区域。

自动音频分类器644使用染色体特征来对要分析的音频文件分类以便确定其分类特征。分类特征包括可用于描述要分析的音频文件的任何范畴特征，例如，流派、乐器、艺术家；和对制作目标的任何范畴描述，例如，制作风格(例如，年份或特定制作者)、情绪内容等。可使用诸如支持向量机(SVM)的任何适当机器学习技术来执行分类。

制作特征提取器646评估要分析的音频文件的制作特征。制作特征包括描述制作目标的要分析的音频文件的任何数值特征，例如，频谱形状、动态范围、响度、立体声宽度、掩蔽；并且还可包括这些特征的时间序列的任何统计测量，例如，平均值、方差、偏度、峰态、中数、模式、最大值、最小值、导数、积分、总和。这些可涉及要分析的音频文件中的每个音频信号的整体或其区域。

在一个实施方案中，语义数据提取器632进一步接收要分析的音频文件的语义数据，其从用户接口接收。在一个实施方案中，从用户接口接收的语义数据包括分类特征，所述分类特征随后与由自动音频分类器644确定的分类特征组合。在一个实施方案中，从用户接口接收的语义数据包括染色体特征，所述染色体特征在分类之前被输入到自动音频分类器644，并且所述染色体特征与由染色体特征提取器642确定的染色体特征组合。在一个实施方案中，从用户接口接收的语义数据包括制作特征，所述制作特征与由制作特征提取器646输出的制作特征组合。

语义数据提取器632随后输出语义数据，即，分类特征、染色体特征和/或制作特征。

图18示出包含在语义数据容器634中的要分析的音频文件的语义数据的一个实施方案。语义数据包括以下数据类型中的至少一个：分类特征650、染色体特征652和制作特征654。在一个实施方案中，语义数据容器634适应于将从语义数据提取器632接收的语义数据与从用户接口640接收的语义数据组合。

图19示出数据库638的一个实施方案，所述数据库638包含许多参考记录660，所述参考记录660中的每个描述相应参考制作的音频文件和在其制作中使用的方法。可通过从商业制作的音频文件提取数据或者通过对例如音频工程实践的直接分析来构建制作数据库638。对于每个参考记录660，制作数据库包括相应记录标识(ID)662、相应分类特征664、相应染色体特征666、相应音频信号处理器(ASP)配置668、相应ASP控制参数670以及相应制作特征672。

分类特征664包括可用于描述参考制作音频文件的任何范畴特征，例如，流派、乐器、艺术家；和对制作目标的任何范畴描述，例如，制作风格(年份或特定制作者)、情绪内容等。

染色体特征666包括可用于描述参考制作音频文件的任何数值特征，例如，节奏、谐波含量、Mel频率倒谱系数(MFCC)、子频段通量(SBF)和来自音乐信息检索(MIR)文学的所有特征；并且还可包括这些特征的时间序列的任何统计测量，例如，平均值、方差、偏度、峰态、中数、模式、最大值、最小值、导数、积分、总和。这些可涉及参考制作音频文件中的每个音频信号的整体或其区域。

ASP配置668描述用于制作参考制作音频文件的音频信号处理工具或处理器的链中的特定配置，例如，对于主控：压缩器→EQ→多频段压缩器→限制器。配置还可包括用于每个音频信号处理工具的特定算法和或实施方式，例如，多频带压缩器：TC电子M3D多频带动态性。

ASP控制参数670包含用于控制用来制作参考制作音频文件的音频信号处理工具的数据，例如，压缩器拐点：-3dB，限制器上升时间：1毫秒。

制作特征672包括描述制作目标的参考制作的音频文件的任何数值特征，例如，频谱形状、动态范围、响度、立体声宽度、掩蔽；并且还可包括这些特征的时间序列的任何统计测量，例如，平均值、方差、偏度、峰态、中数、模式、最大值、最小值、导数、积分、总和。这些可涉及数据库音频文件中的每个音频信号的整体或其区域。

图20示出接口引擎636的一个实施方案。要分析的音频文件的语义数据从语义数据容器634接收并且被分离，其中分类特征和/或染色体特征被发送到制作数据库查询工具680，并且分类特征和/或制作特征被发送到制作数据评估器682。制作数据库查询工具680识别来自制作数据库638的参考记录660的就分类特征和/或染色体特征而言与要分析的音频文件类似的子集。制作数据评估器682接收参考记录660的识别子集，并且得到并输出要分析的音频文件的制作数据。

在一个实施方案中，制作数据评估器682包括在得到制作数据时的要分析的音频文件的分类特征。这些是特殊情况，其中分类特征需要可能不反映或捕获在制作数据库638中的制作数据的修改，例如，后续制作的预期输出目的地。

在一个实施方案中，制作数据评估器682包括在得到制作数据时的要分析的音频文件的制作特征。

在一个实施方案中，制作数据评估器682包括在得到制作数据时的通过用户接口640输出的用户定义的制作偏好。

现在将使用许多实施例来示出语义分析模块622(SAM)，所述实例中的每个可被认为单独实施方案。这不应该被认为穷尽的列表。实施例涉及包含单个单声道或立体声音频信号的音频文件，但是相同原理可应用到包含多个音频信号的音频文件。

SAM实施例1

包含立体声音频信号的音频文件被输入到语义分析模块622，其中没有从用户接口接收的伴随语义数据。语义数据提取器632提取音频文件的染色体特征，所述染色体特征在本实施例中是前十个MFFC系数的平均值。自动音频分类器644基于音频文件的染色体特征使用SVM来将所述音频文件分类成特定流派，并且将其流派识别为例如电子舞曲(EDM)。这个分类特征(即，流派：EDM)随后被发送到接口引擎636，并且继续发送到制作数据库查询工具680。制作数据库查询工具680用分类特征(流派：EDM)识别制作数据库638内的所有参考记录660；并且参考记录660的这个子集被发送到制作数据评估器682。

制作数据评估器682检查在识别的子集中的每个参考记录660的ASP配置668，并且确定共同配置。在本实施例中，共同配置是：高通滤波器→空间处理器→均衡器→多频带压缩器→限制器。这个配置随后存储在要分析的音频文件的制作数据的ASP配置字段中。

制作数据评估器682检查子集中的每个记录的ASP控制参数670，并且评估这些参数的分布。在本实施例中，感兴趣的控制参数是：(i)多频带压缩器上的频带，(ii)多频带压缩器上的拐点，以及(iii)限制器的上升和释放时间。对于每个参数，在子集中所有记录中的分布被分析，并且平均值被采用并存储在要分析的音频文件的制作数据的ASP控制参数字段中。应理解，可使用控制参数中的分布的任何适当统计测量。

制作数据评估器682进一步检查识别的子集中的每个参考记录的制作特征672，并且评估这些特征的分布。在本实施例中，感兴趣的制作特征是(i)参考音频文件的整体频谱形状，和(ii)参考音频文件的响度。对于每个特征，所有参考记录中的分布被分析，并且平均值被采用并存储在要分析的音频文件的制作数据的制作特征字段中。应理解，可使用制作特征中的分布的任何适当统计测量。

随后输出要分析的音频文件的制作数据。

SAM实施例2

包含立体声音频信号的音频文件被输入到语义分析模块622，其中没有伴随语义数据。语义数据提取器632提取音频文件的染色体特征，所述染色体特征在本实施例中是前十个MFFC系数的平均值、是个SBF频带的方差以及节奏。自动因频分类器644被绕过，并且染色体特征仅被发送到接口引擎636，并且继续发送到制作数据库查询工具680。制作数据库查询工具680使用K最近邻(KNN)算法来从制作数据库638中识别出其染色体特征与要分析的音频文件的染色体特征最类似的K个参考记录的子集。在本实施例中，K＝10，因此10个记录的子集被发送到制作数据评估器682；并且所述系统根据SAM实施例1操作。

SAM实施例3

包含立体声音频信号的音频文件被输入到语义分析模块622，其中没有伴随语义数据。语义数据提取器632提取音频文件的染色体特征，所述染色体特征在本实施例中是前十个MFFC系数的平均值、是个SBF频带的方差以及节奏。自动音频分类器644基于音频文件的染色体特征的子集-在本实施例中是前十个MFCC系数，使用SVM来将所述音频文件分类成特定流派，并且将其流派识别为电子舞曲(EDM)。这个分类特征(流派：EDM)以及染色体特征随后被发送到接口引擎636，并且继续发送到制作数据库查询工具680。制作数据库查询工具680用分类特征(流派：EDM)识别制作数据库638内的所有参考记录。在本实施例中，这制作1000个记录，因此为了减少这个子集，使用KNN算法来识别十个记录中的其染色体特征与要分析的音频文件的染色体特征最类似的第二子集。这十个记录被发送到制作数据评估器682并且所述系统根据SAM实施例1操作。

SAM实施例4

包含立体声音频信号的音频文件被输入到语义分析模块622，其中没有伴随语义数据。语义数据提取器632提取音频文件的染色体特征，所述染色体特征在本实施例中是前十个SBF频带的平均值。自动音频分类器644基于音频文件的染色体特征使用SVM来将所述音频文件分类成特定流派，并且将其流派识别为摇滚乐。除了这个，用户通过用户接口640提供语义数据，指示音乐的调子应该是高强度的，并且制作风格应该基于制作者X。因此，分类特征是；流派：EDM，调子：高强度，以及制作者：制作者X；并且这些被传到接口引擎636。制作数据库查询工具680从证实这个分类的制作数据库选择参考记录的子集。识别的参考记录被发送到制作数据评估器682，并且所述系统根据SAM实施例1操作。

SAM实施例5

包含立体声音频信号的音频文件被输入到语义分析模块622，并且具有将流派分类为流行音乐的伴随语义数据。语义数据提取器632提取音频文件的染色体特征，所述染色体特征在本实施例中是前十个MFFC系数的平均值、是个SBF频带的方差以及节奏。自动因频分类器644被绕过，并且分类特征(流派：流行音乐)以及染色体特征随后被发送到接口引擎636，并且继续发送到制作数据库查询工具680。制作数据库查询工具680用分类特征(流派：流行音乐)识别制作数据库638内的所有参考记录。在本实施例中，这制作1000个记录，因此为了减少这个子集，使用KNN算法来识别十个参考记录中的其染色体特征与要分析的音频文件的染色体特征最类似的第二子集。这十个参考记录被发送到制作数据评估器682并且所述系统根据SAM实施例1操作。

SAM实施例6

输入来自SAM实施例4的音频文件和语义数据，以及指示制作的输出目的地在声云上流动的用户定义的语义数据；因此，分类特征是：流派：EDM，调子：高强度，制作者：制作者X，以及输出目的地：声云流。前三个分类特征用于识别制作数据库子集，但是输出目的地：声云流未存储在制作数据库内，所以其被直接发送到制作数据评估器682。这个输出目的地分类并入有数据压缩，并因此如果峰值输出级太高则易受剪切。因此，制作数据评估器682将最大峰值输出级直接设置为-1dB，而不是用在其他输出目的地中的-0.3dB。本实施例的其他部分根据SAM实施例4工作。

SAM实施例7

已分析来自SAM实施例1的音频文件，但是另外，用户已提供指示优选明亮制作的用户制作偏好。系统遵循SAM实施例1中示出的，但是制作数据评估器682修改要分析的音频文件的制作数据中的整体频谱形状以便提供更明亮的声音。例如，整体频谱形状的修改可通过向整体频谱形状添加预定的偏移量来执行，所述预定的偏移量在亮度的情况下将涉及在约2kHz与约5kHz之间的能量的增加。

SAM实施例8

已分析来自SAM实施例1的音频文件，但是另外，用户已明确提供用户制作偏好，以任一制作数据的形式：ASP配置、ASP控制参数或制作特征。系统遵循SAM实施例1中示出的，但是由用户提供的制作数据覆盖在语义分析模块的早期阶段得到的制作数据，例如，用户定义优选的限制器实施方式、高通滤波器截止频率和要分析的音频文件的RMS级。这提供了就制作数据而言直接控制自主音频制作系统8的路由。

SAM实施例9

已分析来自SAM实施例1的音频文件，但是另外，用户已明确提供来自制作数据库638的制作应基于例如特定艺术家的所述制作或来自特定专辑的参考记录的子集。制作数据库查询工具680忽略分类和/或染色体特征，并且将制作数据库记录660的用户选择的子集直接发送到制作数据评估器682。

SAM实施例10

已分析来自SAM实施例1的音频文件，但是另外，制作特征提取器642已返回到高级的低频率能量。系统遵循SAM实施例1中示出的，但是这个制作特征也发送到制作数据评估器682，其修改高通滤波器的ASP控制参数以便应用更高的增益来衰减系统中的低频能量。

SAM实施例11

已分析来自SAM实施例1的音频文件，但是另外，语义数据提取器642已用一些手动用户接口调整执行自动分割算法，以便将音频信号划分成几个部分：在这种情况下，表示文件的最响亮部分的5秒钟区域，就响度和频率内容和节/合唱而言最佳表示歌曲整体的5秒钟部分。制作特征提取器642返回分开的每个部分和整个歌曲的特征，并且制作数据评估器682使用来自适当部分的数据来确定不同特征的制作数据，例如从最响亮的部分获得的RMS级，以便动态地确定限制器阈值。系统遵循SAM实施例1中示出的。

SAM实施例12

已分析来自SAM实施例1的音频文件，但是另外，制作特征提取器642已返回到高级的噪音：-20dB。系统遵循SAM实施例1中示出的，但是这个制作特征也发送到制作数据评估器682，其修改ASP配置以便在ASP链的开始处包括降噪器(用于从音频信号移除噪音)，并且基于音频文件的噪音级和整体频谱形状设置降噪ASP控制参数(也由制作特征提取器评估)。

SAM实施例13

已分析来自SAM实施例1的音频文件，但是另外，用户输入表示期望制作目标的第二参考音频文件。参考音频文件被发送到语义数据提取器，并且其分类特征、染色体特征和制作特征被评估。在本实施例中，参考音频文件被分类为：流派：EDM，参考染色特征是前十个SBF频带，并且参考制作特征：RMS级:-9dB Fs。制作数据库查询工具680基于参考音频文件分类(流派：EDM)识别所有的记录，并且使用KNN来从制作数据库中找出与参考音频文件染色体特征最紧密匹配的5个记录；并且这些随后被发送到制作数据评估器682。制作数据评估器682使ASP配置和控制参数基于由KNN识别的记录，并且基于从参考音频文件提取的那些设置制作特征(即，RMS级：-9dB Fs)。这使得参考音频文件能够“制作匹配”。

图21示出自主音频制作系统624的一个实施方案，所述自主音频制作系统624将要制作的音频文件和制作数据作为输入，并且输出制作的音频文件。自主音频制作系统包括制作数据解释器702、制作特征映射器704、制作特征提取器706和多个ASP 708。在一个实施方案中，制作特征提取器706独立于制作特征提取器646。在一个实施方案中，制作特征提取器706对应于制作特征提取器646。

在本实施方案中，每个ASP 708适应于执行相应音频处理动作。尽管在本实施方案中，它们根据串行配置来进行组织，即，它们被配置来串行处理包含在音频文件中的音频信号，但应当理解，ASP可根据并行配置进行组织，即，它们可并行处理音频信号。

自主音频制作系统624从语义分析模块622接收要制作的音频文件的制作数据。所述制作数据被传到制作数据解释器702，其做出以下中的至少一个：(i)设置ASP配置708，(ii)设置ASP控制参数预设710，以及(iii)将要制作的音频文件的制作特征发送到制作特征映射器704。现在将更详细地解释这些动作。

在一个实施方案中，制作数据解释器702从制作数据读取ASP配置，并且使用它来建立ASP处理链，即，确定ASP 708在链内的相对顺序。例如并参考回到上文的SAM实施例1，将有五个ASP，其中ASP 1-5分别对应于高通滤波器、空间处理器、均衡器、多频带压缩器和限制器。

在一个实施方案中，制作数据解释器702从制作数据读取ASP控制参数预设，并且使用它们来设置ASP 708中的对应预设。例如并参考回到上文的SAM实施例1，ASP 4(多频带压缩器)将被发送用于其频带以及用于每个压缩器频带上的拐点的控制参数；并且ASP 5(限制器)将被发送上升和释放时间。

在一个实施方案中，制作数据解释器702从制作数据读取目标制作特征，并且将它们发送到制作特征映射器704。制作特征映射器704确定ASP控制参数，并设置ASP 712上的控制参数以便将目标制作特征映射到制作的音频文件。在制作数据库的一个实施方案中，目标制作特征可涉及制作的音频文件的制作特征。在另一实施方案中，目标制作特征可涉及在ASP链的任何中断阶段(即，在ASP 708中的两个之间)处的音频文件的制作特征。

在一个实施方案中，制作特征提取器706从ASP链中的任何点提取制作特征，并且将它们传到制作特征映射器704。

在一个实施方案中，制作特征提取器706使用分析特征映射来设置ASP上的控制参数。

在一个实施方案中，制作特征提取器706使用迭代特征映射来设置ASP上的控制参数。

现在将使用许多实施例来示出自主音频制作系统(AAPS)，所述实例中的每个可被认为单独实施方案。这不应该被认为穷尽的列表。实施例涉及包含单个单声道或立体声音频信号的音频文件，但是相同原理可应用到包含多个音频信号的音频文件。

AAPS实施例1(图22)

图22示出包括三个ASP的自主音频制作系统624a的一个实施方案。制作数据解释器702接收要制作的音频文件的制作数据。其读取ASP配置字段，并且在本实施例中设置处理链来包括三个ASP：

A.高通滤波器(HPF)708a。

B.均衡器(EQ)708b。

C.限制器708c。

制作数据解释器702读取ASP控制参数并设置：

A.710a处的HPF上的截止频率

B.710b处的限制器上的上升和释放时间。

C.710b处的限制器上的输出级。

制作数据解释器702从要制作的音频文件读取目标制作特征，并且将它们发送到制作特征映射器704。在本实施例中，目标制作特征是：

A.低于50Hz的能量的量：从在HPF之后的中间信号评估。

B.信号频谱的形状：从在EQ之后的中间信号评估。

C.RMS级：从输出信号评估。

制作特征映射器704将目标制作特征映射到ASP上的控制参数：

A.低于50Hz的能量的量→HPF增益控制。

B.信号频谱的形状→EQ弯曲的形状。

C.RMS级→限制器阈值。

制作特征提取器706评估在HPF之前(在714a处)的低于50Hz的能量的量，并且将这一数据发送到制作特征映射器704。在本实施例中，在714b处的低于50Hz的能量是-6dB，但是目标能量是-8dB；因此，制作特征映射器704将712a处的HPF增益控制设置到-2dB以便调整制作的音频文件中的这一制作特征。这是分析特征映射的一个实施例，由此，制作特征映射器可直接评估控制参数以实现目标制作特征；在这种情况下，通过简单地取目标制作特征与从音频信号提取的制作特征之间的差。这些被发送到712a处的HPF。

制作特征提取器706评估在EQ之前(在714b处)的信号频谱的形状。在本实施例中，信号频谱的形状被定义为从50Hz及以上的二十个频带中的能量；并且EQ通过在相等频带中应用增益来操纵频率内容。制作特征映射器704针对每个频带评估频谱的目标形状与712b处的频谱的形状之间的差。这些差用于设置每个带中的增益，并且被发送到712b处的EQ。这是分析特征映射的另一实施例。

制作特征提取器706评估在之前(在714c处)和在限制器之后(在714d处)的信号的RMS级。在本实施例中，目标RMS是-8dB FS，并且在714c处的RMS是-14dB FS。映射所述目标制作特征的关键差别是限制器处理算法是非线性的，所以不可能使用分析特征映射。相反，使用迭代映射算法。适当的迭代映射算法可使用诸如适当的确定性算法和适当的随机算法。前者使用制作特征与控制参数之间的关系中的导数信息，来会聚到使误差最小的控制参数，e(在目标与提取的制作特征之间)，例如，高斯—牛顿法。后者以半随机方式搜索控制参数空间以找出使误差最小的控制参数(在目标与制作的文件制作特征之间)，例如，遗传算法、模拟退火算法。

在本实施例中，制作特征映射器704使用高斯—牛顿法，但是迭代方法适用于任何一种算法。制作特征映射器使用近似算法映射，例如通过取目标与信号RMS级之间的差来首先估算阈值(T₀)设置：

T₀＝RMS_99c-RMS_目标＝-6dB

对于开始阈值，通过比较制作的音频文件的制作特征值和目标制作特征来评估制作特征中的开始误差e₀。分析制作特征映射的关键差别是阈值估计在712c处设置，信号被处理，并且制作特征提取器706重新计算要制作的信号的制作特征。

e₀＝(RMS_99d(T₀)-RMS_目标(T₀))²

制作特征映射器随后相对于阈值中的变化T评估误差的数值梯度e₀。这通过以小量dT扰乱阈值，重新处理信号以及使用制作特征提取器重新评估714d处的制作特征来完成。

随后使用这个导数来评估阈值的下一个估计T₁，其中所述“1”指示迭代指数。随后使用这个更新的阈值来重新评估误差e₁。

重复这个过程，直到给定迭代处的误差小于预定容差或者达到可允许的迭代的数量。

AAPS实施例2

由制作数据解释器702接收在AAPS实施例1中的要制作的音频文件的制作数据，读取并设置ASP配置和控制参数数据，并且由制作特征映射器将低频能量映射到HPF增益。

本实施例中的差别是针对制作的音频文件(在714d处)，而不是在处理链中的中间阶段定义频谱的形状和RMS级的目标制作特征。其动机是包括限制器对信号的频谱的效果(限制器主要控制动态范围，但是将对频谱具有二次效果)。制作特征映射器704和制作特征提取器706以如AAPS实施例1中的相同方式工作，即，迭代以找出最小误差，但是在这种情况下同时找出EQ和限制器两者的控制参数。从数学的角度来看，方程被改编使得控制参数和误差被包含在向量中，并且数值导数被包含在矩阵(称为雅可比(Jacobian))内。

AAPS实施例3

由制作数据解释器702接收在AAPS实施例1中的要制作的音频文件的制作数据，读取并设置ASP配置和控制参数数据，并且制作特征映射器将低频能量映射到HPF增益，并且将频谱形状映射到每个EQ滤波器频带中的增益。

本实施例中的差别是制作特征包括定义可由限制器引入的失真的最大量的额外特征。它被用作迭代特征映射算法中的约束，以防止由限制器处理引入的过多的失真，即，算法试图提供目标RMS级，同时观察对可被引入的失真的量的硬性限制。

AAPS实施例4

自主音频制作系统根据AAPS实施例3操作，但是接收额外的用户制作偏好制作特征，其描述RMS级与由限制器引入的失真之间的可接受的折衷。在本实施例中，用户想要高的RMS混合，并愿意在必要时忍受更多的失真，例如允许的最大失真从制作数据库评估为五个失真单位，但是对于本实施例用户将其定义为七个失真单元。迭代特征映射算法相应地改编以减轻失真限制对限制器处理的约束效果。

制作包含多个信号的音频文件

图23示出当要制作的音频文件包含多个音频信号时的自主音频制作系统624b的一个实施方案。通常，所述系统以如先前对于包含单个单声道或立体声音频信号的音频文件论述的相同方式操作，但是在此进一步清晰地解释。应理解，图23中示出的特定ASP配置仅为说明性的。

制作数据解释器702接收要制作的音频文件的制作数据。其评估ASP配置，并且使用它来设置处理链中的ASP。ASP配置包括识别要制作的音频文件中的每个音频信号的乐器类型的标签，并且定义其在716处的到其相应处理链的路由。在本实施例中，音频文件包含音频信号(单声道或立体声)：低音、踢鼓、小军鼓、踩钹、铙钹、吉他和声音；并且每个音频信号具有其自己的处理链。声音718的处理链包括压缩器、均衡器和声音混响单元。这些可被认为音频制作术语中的“轨道”。

制作数据中的ASP配置包括额外的路由信息：

-低音和踢鼓音频信号被路由到在其各自的处理链之后的压缩器720。这两个信号可被处理为单个信号，并且与722处的混音中的剩余信号重新组合。

-所有的鼓信号(踢鼓、小军鼓、踩钹、铙钹)被路由到鼓副混音724。这提供了在将鼓与106处的混音中的剩余信号重新组合时对作为单个实体的鼓的控制。

-所有的音乐信号(即，处理声音的所有)被发送到共同音乐混响处理器726。这提供要应用到所有音乐信号的共同混响效果，并且在与722处的混音中的剩余信号重新组合时提供对整体混响强度的控制。

-在722处，所有的音频信号被组合以便给出制作的音频文件。

制作数据中的ASP控制参数可涉及选择配置中的任何ASP，无论是在音频信号自己的处理链中还是特定路由的部分。包括额外控制参数以便控制在配置中的路由阶段中的任一个期间被路由的信号的量。例如，在728处，踢鼓信号被路由到音乐混响处理器726，所以存在确定多少信号被路由的对应增益参数，例如-6dB。

制作数据中的合作特征可涉及配置中的任何点，无论是在音频信号自己的处理链中还是特定路由的部分；并且制作特征提取器在对应位置处评估它们。例如：

-在730a-730d处，从声音信号的处理链中的点提取制作特征。

-在730e处，从由音乐混响处理器输出的音频信号提取制作特征。

-在730f处，在所有音频信号组合之后，例如，从制作的音频文件提取制作特征。

在制作特征映射器的一个实施方案中，其使用分析和/或迭代制作特征映射来得到控制参数数据。

在制作特征映射器的一个实施方案中，其使用单独制作特征映射来得到控制参数数据。例如，其可使用声音信号的频谱形状来设置声音处理链中的均衡器。

在制作特征映射器的一个实施方案中，其使用制作特征的组合来得到控制参数数据。例如，其可使用音乐混响信号730e的响度和混合音频信号730f的响度来设置对音乐混响效果的输出增益。

用户评估和自学

图24示出语义分析模块的一个实施方案，其中接口引擎636得到要分析的音频文件的多组制作数据740，所述制作数据740中的每个反映替代制作。例如，制作数据中的这些变化可通过以下方式得到：

-使用用户定义的制作偏好。

-通过使用一组不同的机器学习算法和/或语义数据提取器632中的变量以输出分类特征、染色体特征和制作特征组，例如，一组可使用第一SVM来在将流派分类成高粒度，第二组可使用第二且不同的SVM来将流派分类成粗粒度同时包括制作特征，并且第三组可仅使用染色体特征。

-通过使用一组不同的机器学习算法和/或数据库查询工具680中的变量，例如，通过改变发送到制作数据评估器682的记录的数量。

-通过配置制作数据评估器682来使用制作数据库子集的不同统计测量来得到制作数据，例如，组1可使用模式，组2可使用中数，并且组3可使用平均值。

-通过配置制作数据评估器682来从制作数据库子集选择特定记录来使制作数据基于其，例如，如果制作数据库子集包含五个记录，那么这些中的每个可用作要分析的音频文件的单独制作数据组。

-通过随机扰乱由制作数据评估器682得到的制作数据的任何部分，即，ASP配置、ASP控制参数或制作特征。

在图24中示出的实施方案中，存在五组制造数据740，并且它们被发送到自主音频制作系统624，所述自主音频制作系统624为每组输出制作的音频文件742。

所述组的制作的音频文件由自主音频制作评估工具744接收，所述自主音频制作评估工具744提供通过其用户可评估不同制作的音频文件的质量的接口。所述接口可并入有：

-A-B测试，由此用户对不同制作的音频文件进行成对比较。

-多刺激与隐藏参考和锚(MUSHRA)测试，由此用户对不同制作的音频文件进行同步比较。

自主音频制作评估工具744基于用户评估输出用户评估的制作偏好，所述用户评估的制作偏好由用户制作偏好数据库746接收并存储。

接口引擎636能访问用户制作偏好数据库746，并且可在它的制作数据库查询工具680或制作数据评估器682中使用这个信息，以便将得到的制作数据定制为特定用户或用户组，以同样的方式作为手动输入用户定义的制作数据。例如：

-特定用户的评估偏好可在用户输入新的要分析的音频文件时使用。

-用户子群，例如，已输入被分类为：流派：EDM，调子：高强度的音频文件的所有用户的评估偏好可在用户输入具有相同分类的音频文件时使用。

-可使用用于任何音频文件分类的来自所有用户的评估偏好。

在本实施方案中，所述系统能够学习并适用于其用户的偏好。

在一个实施方案中，可以从系统外部将自主音频制作评估工具744托管在例如单独网站上，以便允许系统的非用户执行评估。

时间信息制作数据

在一个实施方案中，由语义分析模块得到的制作数据可涉及以下中的任一个：

-要分析的音频文件中的音频信号的持续时间内的统计测量，例如，音频信号的RMS级可在音频信号的整个持续时间内进行。

-要分析的音频文件中的音频信号的特定区域的持续时间内的统计测量，例如，音频信号的RMS级可在诸如合唱的小区域内进行。

-要分析的音频文件中的音频信号的持续时间内的时间序列或其区域，例如，音频信号的RMS级可表达为在音频信号的整个持续时间内或者诸如合唱的小区域内的时间的函数。

在制作数据涉及特定区域的一个实施方案中，制作数据用相关定时信息加时间戳，例如，RMS级40-50秒或合唱中的RMS级。

在制作数据库638的一个实施方案中，ASP控制参数和制作特征可涉及上文制作数据类型中的任一种，例如，在音频信号的持续时间内的RMS级平均值，在音频信号的持续时间内的RMS级时间序列，在合唱内的RMS级平均值。

在制作数据解释器702的一个实施方案中，ASP配置制作数据可被表达为时间序列，和/或可与加有时间戳的部分相关，因此发送在708处的ASP配置可在要制作的音频文件的持续时间内变化。

在制作数据解释器702的一个实施方案中，ASP控制参数制作数据可被表达为时间序列，和/或可与加有时间戳的部分相关，因此发送在710处的ASP控制参数数据可在要制作的音频文件的持续时间内变化。

在一个实施方案中，制作数据解释器702、制作特征映射器704和制作特征提取器706可使用表达为时间序列和/或可与加有时间戳的部分相关的制作特征，因此其操作以及由制作特征映射器704在712处对控制参数的输出可在要制作的音频文件的持续时间内变化。

实时考虑

在一个实施方案中，所述系统非实时地操作，由此制作的音频文件的输出和要制作的音频文件的输入在时间上不同步。在这种情况下，语义分析模块622和自主音频制作系统624在制作所制作的音频文件之前能访问整个音频文件。

在另一实施方案中，所述系统基本上实时地操作，由此制作的音频文件的输出与要制作的音频文件同步，例如，在其中制作的音频文件通过扩音系统输出的现场环境中。在这种情况下，语义分析模块622和自主音频制作系统624在制作所制作的音频文件之前不能访问整个音频文件，即，部分音频信号在逐帧的基础上输入。为了适应这一点：

-伴随音频文件的语义数据用于在其输入之后得到即时制作数据。

-语义分析模块存储语义数据容器634中的每个帧的语义数据，并且在音频文件的其他部分被接收时不断得到制作数据。

-发送到自主音频制作系统624的制作数据中的变化是平滑的以防止在被应用时处理中的突然变化。

-在现场环境中，音频的预先录制好的部分可用于提供即时制作数据，例如，通过声音检查或先前性能。

将了解，本文例示的执行指令的任何模块或部件可包括或以其他方式能访问计算机可读介质，诸如存储介质、计算机存储介质或数据存储装置(可移动和/或不可移动)，所述数据存储装置例如像：磁盘、光盘或磁带。计算机存储介质可包括在任何方法或技术中实施用于存储信息的易失性和非易失性介质、移动和不可移动介质，诸如计算机可读指令、数据结构、程序模块或其他数据。计算机存储介质的实例包括RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光学存储装置、磁盒、磁带、磁盘存储装置或其他磁性存储装置，或者可用来存储期望信息并可由应用程序、模块或两者访问的任何其他介质。任何这种计算机存储介质可以是语义混合模块20、制作系统10、制作引擎504等的部分；所述部分可以是任何部件或与其相关的，或者可访问的或可连接到其。可使用可由这种计算机可读介质存储或以其他方式保持的计算机可读/可执行指令来实施本文描述的任何应用程序或模块。

在本文描述的流程图和图中的步骤或操作仅仅是用于示例。可以存在对这些步骤或操作的许多变化而不背离上文论述的原理。例如，可以按不同的顺序执行所述步骤，或可以增加、删除或修改步骤。

尽管已参考某些具体实例描述上文的原理，但如在所附权利要求书中概述的其各种修改将对本领域技术人员来说是显而易见的。

Claims

1.一种用于执行自动音频制作的计算机实施的方法，其包括：

接收要处理的音频信号；

接收语义信息，所述语义信息包括染色体特征、分类特征和制作特征中的至少一个；

使用所接收语义信息确定至少一个基于语义的规则，所述基于语义的规则包括定义应该如何制作所述要处理的音频信号的制作数据；

使用所述制作数据处理所述要处理的音频信号，从而获取制作的音频信号，所述制作数据包括要执行的给定音频处理动作和所述给定音频处理动作的相应静态特性、所述音频处理动作的配置以及所述制作的音频信号的目标制作特征中的至少一个；

输出所述制作的音频信号，

其中所述确定包括制作数据的所述至少一个基于语义的规则包括：

访问包含多个参考记录的数据库；

使用所述语义信息识别至少一个参考记录；以及

使用所述至少一个识别的参考记录来为所述要执行的给定音频处理动作和所述给定音频处理动作的所述相应静态特性、所述音频处理动作的所述配置以及所述制作的音频信号的所述目标制作特征中的至少一个分配值，并且

其中所述染色体特征包括下列数值特征中的至少一个：节奏、谐波含量、Mel频率倒谱系数(MFCC)、子频段通量(SBF)和来自音乐信息检索(MIR)文学的特征，或包括上述数值特征中的至少一个的时间序列的下列统计测量中的至少一个：平均值、方差、偏度、峰态、中数、模式、最大值、最小值、导数、积分和总和。

2.如权利要求1所述的计算机实施的方法，其中所述语义信息涉及所述要处理的音频信号。

3.如权利要求2所述的计算机实施的方法，其中从用户接口接收所述语义信息。

4.如权利要求2所述的计算机实施的方法，其还包括从所接收音频信号确定所述语义信息。

5.如权利要求1所述的计算机实施的方法，其中所述语义信息涉及参考音频信号，所述方法还包括：

接收所述参考音频信号；以及

从所述参考音频信号提取所述语义信息。

6.如权利要求1所述的计算机实施的方法，其中对于所述多个参考记录中的每个，所述数据库包括：相应参考分类特征、相应参考染色体特征、参考处理动作的相应参考配置、所述参考处理动作的相应参考静态特性以及相应参考制作特征。

7.如权利要求6所述的计算机实施的方法，其还包括使用分配给所述目标制作特征的所述值来确定所述给定音频处理动作的动态特性。

8.如权利要求7所述的计算机实施的方法，所述处理所述音频信号包括根据所述配置并使用所述静态特性和所述动态特性来对所述音频信号执行所述给定音频处理动作。

9.如权利要求8所述的计算机实施的方法，其还包括确定所述给定音频处理动作之间的所述制作特征的值，并且相应地修改所述动态特性。

10.如权利要求1所述的计算机实施的方法，其中仅为所述要处理的音频信号的一个区域确定所述制作数据。

11.如权利要求6所述的计算机实施的方法，其中所述识别至少一个参考记录包括识别匹配包含在所述语义信息中的染色体特征、分类特征和制作特征中的至少一个的至少一个参考记录。

12.一种自动音频制作系统，其包括：

语义分析模块，其用于接收语义信息并使用所接收的语义信息确定至少一个基于语义的规则，所述语义信息包括染色体特征、分类特征和制作特征中的至少一个，所述基于语义的规则包括定义应该如何制作要处理的音频信号的制作数据，并且所述制作数据包括要执行的给定音频处理动作和所述给定音频处理动作的相应静态控制参数、所述音频处理动作的配置以及所述制作的音频信号的目标制作特征中的至少一个；

音频处理模块，其用于接收所述要处理的音频信号，使用所述制作数据处理所述要处理的音频信号，以便获取制作的音频信号并且输出所述制作的音频信号；以及

制作数据库，其包含多个参考记录，所述语义分析模块进一步适应于：

使用所述语义信息识别至少一个参考记录；并且

使用所述至少一个识别的参考记录来为所述要执行的给定音频处理动作和所述给定音频处理动作的所述相应静态控制参数、所述音频处理动作的所述配置以及所述制作的音频信号的所述目标制作特征中的至少一个分配值，以及

其中所述染色体特征包括下列数值特征中的至少一个：节奏、谐波含量、Mel频率倒谱系数(MFCC)、子频段通量(SBF)和来自音乐信息检索(MIR)文学的特征，或包括下列上述数值特征中的至少一个的时间序列的下列统计测量中的至少一个：平均值、方差、偏度、峰态、中数、模式、最大值、最小值、导数、积分和总和。

13.如权利要求12所述的自动音频制作系统，其中所述语义信息涉及所述要处理的音频信号。

14.如权利要求13所述的自动音频制作系统，其中所述语义分析模块适应于从用户接口接收所述语义信息。

15.如权利要求13所述的自动音频制作系统，其中所述语义分析模块进一步适应于接收所述要处理的音频信号并从所述要处理的音频信号确定所述语义信息。

16.如权利要求12所述的自动音频制作系统，其中所述语义信息涉及参考音频信号，所述语义分析模块进一步适应于：

接收所述参考音频信号；并且

从所述参考音频信号提取所述语义信息。

17.如权利要求12所述的自动音频制作系统，其中对于所述多个参考记录中的每个，所述数据库包括相应参考分类特征、相应参考染色体特征、参考处理动作的相应参考配置、所述参考处理动作的相应参考静态控制参数以及相应参考制作特征。

18.如权利要求17所述的自动音频制作系统，其中所述音频处理模块适应于使用分配给所述目标制作特征的所述值来确定所述给定处理动作的动态控制参数。

19.如权利要求18所述的自动音频制作系统，其中所述音频处理模块包括多个音频处理器，并且适应于根据所述配置组织所述多个音频处理器并根据所述静态控制参数和所述动态控制参数控制所述多个音频处理器。

20.如权利要求19所述的自动音频制作系统，其中所述音频处理模块进一步适应于确定所述音频处理器之间的制作特征的值，并且相应地修改所述动态参数。

21.如权利要求12所述的自动音频制作系统，其中所述语义分析模块适应于仅为要处理的音频信号的一个区域确定制作数据。

22.如权利要求17所述的自动音频制作系统，其中所述识别至少一个参考记录包括识别匹配包含在所述语义信息中的染色体特征、分类特征和制作特征中的至少一个的至少一个参考记录。