CN113691909B

CN113691909B - 具有音频处理推荐的数字音频工作站

Info

Publication number: CN113691909B
Application number: CN202110533281.7A
Authority: CN
Inventors: 伊农·拜泽尔; 梅尔·沙阿什; 伊泰·尼奥兰
Original assignee: Waves Audio Ltd
Current assignee: Waves Audio Ltd
Priority date: 2020-05-18
Filing date: 2021-05-17
Publication date: 2024-03-29
Anticipated expiration: 2041-05-17
Also published as: US20210357174A1; GB2595222A; CN113691909A; US11687314B2; GB202007298D0

Abstract

本申请涉及具有音频处理推荐的数字音频工作站。在数字音频工作站中向用户呈现对音轨的单独处理的推荐。将训练音轨提供给人声混音器，并且响应于所述训练音轨，从人声混音器接收经单独处理的训练音轨。将训练音轨和经单独处理的训练音轨输入到机器中以训练机器。音频处理操作从经训练的机器输出，并被存储在数据库的记录中。

Description

具有音频处理推荐的数字音频工作站

背景

1.技术领域

本发明的方面涉及对音频信号的数字信号处理，且尤其涉及用于处理音轨(audiotracks)和音频混合的数字音频工作站。

2.相关技术的描述

数字音频工作站(DAW)是一种用于录制(record)、编辑和制作音频文件(例如音乐作品、语音或音效)的电子设备或软件应用。DAW通常提供允许用户录制、编辑并将多个录音(recordings)和音轨混合成混合音频制品的用户界面。现代基于计算机的DAW支持软件插件，每个软件插件都具有其自己的功能，这可以扩展DAW的声音处理能力。存在例如用于均衡、限制、压缩、混响和回响的软件插件。软件插件还可以在DAW内提供音频源，例如虚拟乐器。

美国专利公开9,654,869公开了混合音频信号。从多个音频信号中的每一个音频信号中提取音频特征。对于每个音频信号，相关联的处理控制功能是根据提取的音频特征确定的。音频信号是根据相关联的处理控制功能来进行处理的，并且经处理的音频信号被输出。

简要概述

本文描述了用于针对数字音频工作站中的音轨的单独处理向用户呈现推荐的多个方法和系统。将多个原始音轨输入到经训练的机器中。从原始音轨中提取音频特征。响应于原始音轨的提取的音频特征，从数据库中选择针对音轨的单独音频处理的推荐。该推荐被呈现给用户，并且对音轨的处理可以根据该推荐来实现。经处理的音轨可以被混合成可播放的音频制品，并且该音频制品可以被播放。数据库是通过提供多个训练音轨而生成的。训练音轨的音频特征被提取，并且训练音轨的音频特征被存储在数据库的记录(record)中。响应于原始音轨的提取的音频特征与训练音轨的提取的音频特征之间的相似性度量，从数据库中选择推荐。

可以通过向人声混音器(human sound mixer)提供训练音轨来产生该数据库。可以从人声混音器接收经单独处理的训练音轨。可以将训练音轨和经单独处理的训练音轨输入到机器以训练该机器。可以从仿真由人声混音器所执行的对训练音轨的音频处理的经训练的机器输出音频处理操作。音频处理操作可以被存储在数据库的记录中。

可以从经单独处理的音轨的人声混音器接收音频混合。可以从音频混合中提取音频混合特征。音频混合特征可以被存储在数据库的记录中。可以接收音频混合的目标特征，例如来自用户的输入。响应于音频混合的目标特征和存储在数据库中的音频混合的音频混合特征，可以选择针对音轨的音频处理的推荐。可以基于从用户接收到的音频混合的目标特征与先前存储在数据库的记录中的音频混合特征之间的相似性来选择推荐。

目标音频特征可以从用户输入以用于处理原始音轨。针对原始音轨的音频处理的推荐可以响应于目标音频特征来被选择。

用户可以输入描述音轨的属性或可播放音频制品的属性的标签。推荐可以响应于该标签来被选择。在将音轨输入到经训练的机器之前，可以通过短时傅立叶变换(STFT)或者通过转换成梅尔频率倒谱系数(MFCC)来对音轨进行预处理。

可以根据推荐来处理原始音轨，从而产生经单独处理的音轨。可以提取经单独处理的音轨的音频特征。可以响应于经单独处理的音轨的提取的音频特征和从用户输入的目标音频特征来细化推荐。

本文公开了数字音频工作站的多种用户界面，包括：用于单独音频处理的多个音轨的视觉表示。将原始音轨输入到经训练的机器，以从中输出包括从数据库中选择针对原始音轨的单独音频处理的推荐。用户界面包括：该推荐向用户的呈现、用于根据推荐单独地处理原始音轨的装置(mechanism)、用于将经处理的音轨混合成可播放的音频制品的装置和实现播放音频制品的选项。用户界面还可以包括用于输入目标音频特征以处理至少一个音轨的装置。该推荐可以响应于目标音频特征。用户界面还可以包括用于输入目标音频特征以将经处理的音轨混合成可播放的音频制品的装置，并且该推荐响应于目标音频特征以用于混合。用户界面还可以包括供用户输入标签的字段。标签可以描述音轨的属性或可播放音频制品的属性。推荐可以响应于标签来被选择。

本发明的这些、另外的和/或其它方面和/或优点在下面的详细描述中被阐述；从该详细描述中可以推断出；和/或通过本发明的实践是可学习的。

附图简述

本发明仅通过示例的方式参考附图对本发明进行了描述，在附图中：

图1是示出根据本发明特征的用于训练机器和建立数据库的方法的流程图；

图2是示出根据本发明特征的使用经训练的机器和数据库来为音轨的单独处理提供推荐的方法的流程图。

图2A是示出图2的方法中根据本发明的特征的用于细化对推荐的选择的进一步细节的流程图；

图3示意性地示出了显示本发明的特征的图形用户界面的截屏的多个方面。

当结合附图考虑时，上述和/或其它方面通过以下的详细描述将变得明显。

详细描述

现在将详细参考本发明的特征，其示例在附图中示出，其中，通篇相似的附图标记指代相似的元素。下面通过参考附图描述描述这些特征以解释本发明。

通过介绍，本发明的多个实施例涉及单独处理多个音轨并将其混合成混合音频可播放文件，该混合音频可播放文件包括来自多个音轨的音频内容，其中该多个音轨具有独立的级别。

例如，通常使用多个麦克风来录制歌曲，但不必同时录制。通常，每个录制的乐器(instrument)都存在单独的音频源文件，或者存在来自同一乐器的多个麦克风的多个音频文件。最终的歌曲包括从音频源的多个音轨制备的一个混合的且被音频处理后的文件，以便提供具有令人愉快的音频体验的可播放数字文件。

当前，音频混合通常是由人类音频混合专家(human audio mixing experts)执行的，人类音频混合专家选择音频源的单独音轨并决定相应的音频处理功能以在混合音轨之前应用于每个选定的音频源。根据本发明的特征，机器被训练以仿真单独音轨处理和混合的人类行为。使用经训练的机器，做出用于处理一个或更多个音轨的推荐。推荐可以通过系统选择并基于音频特征或其他信息(例如与音频源音轨有关的标签、经处理的音轨的目标音频特征或混合制品的目标音频特征)而被呈现给用户。目标音频特征可以由用户指定或者是归因于用户的期望特征。从具有先前制作的音频处理选项的数据库中针对音轨单独选择推荐的音频处理操作或一系列操作。

如本文所用，术语“预设”指代一个或更多个音频处理步骤，所述一个或更多个音频处理步骤先前已经被定义并存储在数据库中，数据库优选地具有描述何时可以使用音频处理步骤的上下文的元数据。本文所使用的“预设”比针对已知的音频软件插件(例如均衡、压缩、混响)的一组参数更通用，并且可以指定广义的音频处理功能和/或先前定义的音频处理功能的组合。例如，预设可以包含混响音频效果，该混响音频效果与音频压缩串联，并与附加均衡并行求和。此外，可以改变前一个示例中的均衡、压缩和混响的每个参数，以创建各自具有内部参数的不同调谐的新预设。

现在参考附图，现在参考图1，流程图10示出了根据本发明特征的用于训练机器并建立数据库113的方法。例如可以将多个麦克风录制的音轨103提供(步骤11)给人类声音混合专家。随后可以从声音混合专家接收(步骤15)经处理的音轨105。也可以从声音混合专家接收(步骤13)音轨103的音频混合。可以将音轨103和经处理的音轨105输入到机器以训练机器并从中输出音频处理指令109，该音频处理指令109仿真从音轨103到经处理的音轨105的音频处理。训练音轨103和/或经处理的音轨105的音频特征111也可以从经训练的机器输出。可以从所述混合中单独地接收和/或提取(步骤17)所述混合的音频特征107。可以将训练音轨103和/或经处理的音轨105的音频特征111、音频处理指令109和所述混合的音频特征107添加(步骤19)到预设的数据库113。在使用推荐系统后，根据本发明的特征(图2)，可以从用户收集并输入(步骤18)匿名使用统计信息以进一步训练机器，从而优化推荐系统并修改提取的音频特征111。

预设的数据库113记录

根据本发明的特征，预设的数据库113记录可以包括：预设的标识符、预设的文本描述、标签101，标签101可以是描述诸如乐器类型之类的预设属性的关键词，例如，声乐(vocal)、器乐(instrumental)、混合，特定乐器(specific instruments)、流派(genre)、风格(style)、情绪或文字说明，例如亮/暗。此外，混合标签可以与描述所述混合的属性的关键词一起被包括，关键词可以使用该预设来产生。预设的数据库113记录可以包括音轨音频特征，该音轨音频特征以先前提取的未处理的音频样本或音频特征的形式指定当前预设适合处理的原始音频。预设的数据库113记录还可以包括一组音频特征107，该一组音频特征107以先前提取的未经处理的音频样本或音频特征111的形式表征使用当前预设的处理所产生的音频混合。数据库113可以包括特征/标签的子集，例如：标签101而不是音频特征111，或者标签101、音频特征111而不是混合标签101/混合音频特征107。

推荐系统

现在参考图2，其示出了根据本发明特征的使用经训练的机器和数据库113来提供针对来自用户的原始音轨201的单独处理的推荐207的方法的流程图20。来自用户的原始音轨201可以经历预处理(步骤21)，例如，解析为短时间间隔(例如少于一秒)，然后进行短时傅立叶变换(STFT)或转换为梅尔频率倒谱系数(MFCC)。可以将原始音频201和/或先前处理(步骤21)的音频输入(步骤23)到先前训练的机器。可以从来自用户的原始音轨201中提取音频特征204。用户例如使用图形用户界面上的输入手动地提供目标特征205和标签203。用户可以仅提供特征205/标签203的子集。例如，用户可以提供标签203而不是目标音频特征205；仅提供音轨标签/音轨音频特征而不是混合标签/混合音频特征；或提供目标音频特征205/标签/用户信息203的任何其他子集。

现在还参考图2A，图2A是根据本发明特征进一步详细示出了选择用于音频处理的推荐的流程图。在步骤24中，从原始音轨201提取音频特征204。可以基于相似性来选择(步骤25)推荐207，该相似性最小化(步骤26)特征空间中以下之间的距离：(i)从原始音轨201中提取的音频特征204、用户定义的目标音频特征205和/或标签203(即用户所寻找的目标音频特征205和/或标签203)，和(ii)存储在数据库113中的标签101、特征107、111。可以通过根据选择的推荐207处理(步骤27)原始音轨201并从经处理的音轨中提取(步骤28)音频特征204来对推荐207进行细化(方框29)。可以通过最小化从经处理的音轨提取的音频特征204与用户定义的目标特征205之间的距离来细化(步骤25R)推荐207，以产生细化的推荐207R。可以通过选择推荐207的不同时间部分或选择与在步骤25中选择的推荐207不同的预设207R来执行细化(步骤25R)。

再次参考图2，在步骤25中选择推荐207之后，可以根据推荐207来处理(步骤212)原始音轨201。可以将经处理的音轨混合(步骤214)为可播放的音频制品，并且可以播放(步骤216)该音频制品。

现在参考图3，图3示意性地示出了根据本发明特征的数字音频工作站的图形用户界面30的一部分。作为示例，在图形用户界面30中表示了音轨1-7。可以在表格32中手动地键入目标，该目标包括单独音轨目标和/或音频混合的目标。可选地或附加地，可以通过处理从用户接收到的音轨在表格32中向用户建议目标。可以在表格32的字段中键入标签、关键词和/或自由文本。选择预设按钮35可以被用于引导经训练的机器响应于目标而从数据库113中选择针对音轨的音频处理的预设。在选择预设时，接着可以指定预设ID号xx并将其呈现给用户。用户可以选择根据选择的预设被处理的音轨以进行混合并使用播放控件37播放。

示例：基于特征度量的预设的一般推荐

根据本发明的特征，机器可以从音轨201中提取特征向量，并使用距离度量(例如，欧几里得距离)将提取的特征向量与存储在数据库113中的先前分析的特征向量进行比较。当找到最接近的存储特征向量时，可以推荐(步骤25)相关联的预设以处理音轨201。随后可以通过例如参数化和进一步最小化距离度量来细化推荐207。

示例：标签或自由文本的使用

除了作为输入的音频特征205之外，机器还可以可选地或附加地使用标签101，标签101可以是预测期望的推荐的自由文本。标签101可以描述音乐流派、演奏风格、情感描述等。文本标签101可以用作训练机器的输入(图1的步骤18)，并且标签101可以用作输入以从数据库113中选择(步骤25)推荐207。

示例：面向混合的预设推荐

当提供了用于混合的所有音轨201时，机器可以与音频混合有关，以便基于音轨特征和音频混合特征或它们的组合来选择(步骤25)最佳预设。

示例：针对整个混合/主效果的自动预设

主声道音频(master channel audio)包含所有音轨的混合音频，并且可以将其与存储在数据库113中的预设进行比较。比较可以使用距离度量并获得针对混合的主声道的推荐，以及所选的预设可以包括针对整个混合而推荐的处理。

神经网络

再次参考图2，用于从预设的数据库113中选择推荐207的方法20可以利用神经网络。神经网络包括输入层，可以从用户向输入层输入经过/不经过音频预处理(步骤21)的音轨201。神经网络可用于分析原始音频或预处理的音频，例如短时傅立叶变换(STFT)或梅尔频谱倒谱系数(MFCC)。神经网络可以包括一个或更多个隐藏层，以用于提取音频特征205。可以预先在一个或更多个不同的损失函数上训练网络。

神经网络训练过程

网络训练可以在多个阶段执行。作为示例，可以训练网络以对音频内容(例如语音、声乐/器乐、流派、时期)进行总体分类。总体分类可以使用神经网络的第一层。

可以将存储的标签101和任何可用数据(例如自由描述性文本)输入到神经网络，以获得整首歌曲的上下文并为存储的预设提供区别特征。

预处理(步骤21)

尽管可以使用一维数据输入(即随时间的变化的麦克风信号)，但是可以使用短时傅立叶变换(STFT)对音频进行解析并转换为二维。可选地，作为预处理的一部分，可以使用MFCC或Mel-scale执行频率对数包络(frequency logarithmic wrapping)。也可以对幅度进行对数压缩。将音频数据变换为二维数据便于使用最初为二维图像处理而开发的卷积神经网络。

本发明的实施例可以包括通用或专用计算机系统，该通用或专用计算机系统包括各种计算机硬件部件，下面将对其进行较详细讨论。本发明范围内的实施例还包括用于承载或具有存储在其上的计算机可执行指令、计算机可读指令或数据结构的计算机可读介质。这样的计算机可读介质可以是通用或专用计算机系统可访问的暂时性和/或非暂时性的任何可用的介质。作为示例而非限制，这种计算机可读介质可以包括物理存储介质，例如RAM、ROM、EPROM、闪存盘、CD-ROM或其他光盘存储、磁盘存储装置或其他磁或固态存储设备，或可以用于以计算机可执行指令、计算机可读指令或数据结构的形式承载或存储所期望程序代码装置并且可以由通用或专用计算机系统进行访问的任何其他介质。

本文使用的术语“音轨”指代可以与其他音轨混合或组合以产生可播放音频制品的音频信号。

术语“原始”音轨指代在数字信号处理之前所录制或合成的音轨。

本文使用的术语“目标”指代优化问题或机器学习中的因变量及其值，其表示由用户指定或代表用户的期望结果。

本文使用的术语“用户界面”包括可以针对用户在显示器上实现的“图形用户界面”和/或硬件用户界面和/或它们的组合。

本文使用的术语“相似性”指代特征空间中提取的经处理的音轨的音频特征与目标音频特征之间的距离度量；和/或特征空间中音频混合的目标特征与提取/接收的音频混合的特征之间的距离度量。

本文使用的术语“特征”、“音频特征”指代从音频信号中提取的用于分类或执行相似性度量的数据。本文使用的术语“特征提取”指代从音频信号中提取特征的过程。

本文使用的术语“标签”指代用户输入，其可以是先前定义的文本或自由文本，其描述了要使用根据本发明实施例的推荐系统处理的音轨的属性。

本文使用的术语音轨和/或混合的“属性”指代作为示例的音乐流派、演奏风格、情感描述、乐器等。

本文使用的不定冠词“一个(a)”、“一个(an)”，例如“一个音轨”、“一个推荐”，具有“一个或更多个”的含义，即“一个或更多个音轨”或“一个或更多个推荐”。

所描述的实施例和从属权利要求的所有可选和优选的特征和修改在本文所教导的本发明的所有方面都是可用的。此外，从属权利要求的各个单独特征以及所描述的实施例的所有可选和优选的特征以及修改是可组合的并且彼此可互换的。

尽管已经示出并描述了本发明的选定特征，但是应当理解，本发明不限于所描述的特征。

Claims

1.一种方法，通过所述方法将多个训练音轨提供给人声混音器，并且响应于所述训练音轨，从所述人声混音器接收多个经单独处理的训练音轨，所述方法包括：

将多个原始音轨输入到经训练的机器；

输入目标音频特征用于处理所述原始音轨；

从所述原始音轨中提取多个音频特征；

响应于所述原始音轨的所提取的音频特征和所述目标音频特征，针对所述原始音轨的单独音频处理从数据库中选择推荐；

其中所述经训练的机器由以下产生：

将所述训练音轨和所述经单独处理的训练音轨输入到机器，从而训练所述机器；

从经训练的机器输出分别仿真所述训练音轨的人类音频处理的多个音频处理操作；以及

在数据库的记录中存储所述音频处理操作。

2.根据权利要求1所述的方法，还包括：

提取所述训练音轨的多个音频特征；以及

将所述训练音轨的所述音频特征存储在所述数据库的记录中。

3.根据权利要求2所述的方法，还包括：

呈现所述推荐；

根据所述推荐实现对所述原始音轨的处理；

实现将经处理的音轨混合成可播放的音频制品；以及

实现播放所述音频制品；

其中，所述从数据库中选择推荐是响应于所述原始音轨的所提取的音频特征与所述训练音轨的所提取的音频特征之间的相似性度量。

4.根据权利要求1所述的方法，其中从所述人声混音器接收所述经单独处理的训练音轨的音频混合，所述方法还包括：

提取所述音频混合的音频混合特征；

将所述音频混合特征存储在所述数据库的记录中。

5.根据权利要求4所述的方法，还包括：

接收所述音频混合的目标特征；

针对所述原始音轨的音频处理的所述选择推荐还响应于所述音频混合的所述目标特征和存储在所述数据库中的所述音频混合的音频混合特征。

6.根据权利要求3所述的方法，还包括：

输入描述所述音轨的属性或所述可播放的音频制品的属性的标签；以及

所述选择推荐还响应于所述标签。

7.根据权利要求1所述的方法，还包括，在将所述原始音轨输入到所述经训练的机器之前：

通过短时傅立叶变换(STFT)或通过转换成梅尔频率倒谱系数(MFCC)对所述原始音轨进行预处理。

8.根据权利要求1所述的方法，还包括：

根据所述推荐，处理所述原始音轨，从而产生经单独处理的音轨；

提取所述经单独处理的音轨的音频特征；以及

响应于所述经单独处理的音轨的提取的音频特征和输入的目标音频特征，细化所述推荐。

9.一种系统，通过所述系统，多个训练音轨被提供给人声混音器，并且响应于所述训练音轨，从所述人声混音器接收多个经单独处理的训练音轨，所述系统包括：

经训练的机器，所述经训练的机器被配置为输入多个原始音轨和用于处理所述原始音轨的目标音频特征；

其中，处理器被配置为从所述原始音轨中提取多个音频特征；

其中，响应于所述原始音轨的提取的音频特征和所述目标音频特征，所述处理器被配置为针对所述音轨的单独音频处理从数据库中选择推荐；

其中，其中所述经训练的机器由以下产生：输入所述训练音轨和所述经单独处理的训练音轨，以及；

输出分别仿真所述训练音轨的人类音频处理的多个音频处理操作；以及

其中，所述数据库被配置为存储所述音频处理操作。

10.根据权利要求9所述的系统，还包括：

处理器，所述处理器被配置为提取所述训练音轨的音频特征；

其中，所述训练音轨的所述音频特征能够存储在所述数据库的记录中。

11.根据权利要求9所述的系统：

其中，所述处理器还被配置为：

呈现所述推荐；

根据所述推荐实现对所述原始音轨的处理；

实现将经处理的音轨混合成可播放的音频制品；以及

实现播放所述音频制品；

其中，响应于所述原始音轨的提取的音频特征与所述训练音轨的提取的音频特征之间的相似性度量，从所述数据库中选择所述推荐。

12.根据权利要求9所述的系统，其中，所述推荐是基于所述目标音频特征与所述训练音轨的至少一个提取的音频特征之间的相似性来选择的。

13.根据权利要求9所述的系统，

其中，从所述人声混音器接收所述经单独处理的音轨的音频混合，

其中，从接收到的音频混合中接收或提取音频混合特征，以及

所述音频混合特征被存储在所述数据库的记录中。

14.根据权利要求13所述的系统，其中，所述推荐是基于所述音频混合的目标特征与存储在所述数据库中的所述音频混合的所述音频混合特征之间的相似性来选择的。

15.根据权利要求9所述的系统，还包括：用户界面，所述用户界面包括：

所述原始音轨的视觉表示；

所述推荐的呈现；

用于根据所述推荐将所述音轨单独处理成可播放音频制品的装置；以及

用于播放所述音频制品的选项。

16.根据权利要求15所述的系统，其中，所述用户界面还包括：

被配置为输入所述目标音频特征的装置。