CN116057623A - 用于自动多轨道混音的系统 - Google Patents

用于自动多轨道混音的系统 Download PDF

Info

Publication number
CN116057623A
CN116057623A CN202180058531.4A CN202180058531A CN116057623A CN 116057623 A CN116057623 A CN 116057623A CN 202180058531 A CN202180058531 A CN 202180058531A CN 116057623 A CN116057623 A CN 116057623A
Authority
CN
China
Prior art keywords
network
training
audio
parameters
mix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180058531.4A
Other languages
English (en)
Inventor
C·J·斯坦姆茨
J·塞拉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby International AB
Original Assignee
Dolby International AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby International AB filed Critical Dolby International AB
Publication of CN116057623A publication Critical patent/CN116057623A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/038Cross-faders therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/46Volume control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/311Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Stereophonic System (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)

Abstract

本文描述了一种用于基于多个输入音频轨道执行自动多轨道混音的基于深度学习的系统。该系统包括基于深度学习的第一网络的一个或多个实例和基于深度学习的第二网络的一个或多个实例。具体地,第一网络被配置为基于输入音频轨道生成用于在自动多轨道混音中使用的参数。第二网络被配置为基于该参数将信号处理和至少一个混音增益应用于输入音频轨道,以用于生成音频轨道的输出混音。

Description

用于自动多轨道混音的系统
相关申请的交叉引用
本申请要求下列优先权申请的优先权:2020年6月22日提交的西班牙申请P202030604(参考号:D20041EP)、2020年8月31日提交的美国临时申请63/072,762(参考号:D20041USP1#)、2020年10月15日提交的美国临时申请63/092,310(参考号:D20041USP2)和2020年10月22日提交的欧洲申请20203276.9(参考号:D20041EP),这些申请在此通过引用将其并入本文。
技术领域
本公开总体上涉及音频混合领域。具体地,本公开涉及用于使用机器学习模型或系统在波形域中进行自动多轨道混音的技术,并且涉及用于训练这种机器学习模型或系统的框架。
背景技术
一般来说,从音乐想法的原始种子到最终录制的产品的历程涉及许多不同的步骤,从音乐听众的角度来看,这些步骤往往并不明显。这一过程通常涉及扮演独特角色的多个不同个人的协作,每个人都有其自己的技能和专长,诸如词曲作者、音乐家、制作人以及录音、混音和母带制作工程师。这个过程中的一个关键步骤是将单独录制的元素转换为最终混合物,该任务由混音工程师承担,并且通常是现代录音创作过程中不可或缺的一部分。
将音频信号的集合转换成有凝聚力的混合物需要深刻理解不同的技术和创作过程。为了有效地执行这项任务,音频工程师的专业培训涉及开发识别如何利用一系列信号处理工具来实现一组期望的技术和创作目标的能力。由于这一现实,在智能音乐制作(IMP)工具的开发中有若干驱动因素,这些工具旨在为此复杂过程的某些部分提供帮助。
最近,深度学习已在以前被认为极具挑战性的许多音频任务上展示了令人印象深刻的结果。虽然这些最近的成功似乎为我们推进IMP系统的目标带来了希望,但仍有阻碍我们为多轨道混音任务设计深度模型的能力的许多挑战。最重要的是有限的可用多轨道混音数据。除了缺乏平行数据之外,在构建能够适应现实世界多轨道项目中存在的多样性的模型方面也存在挑战。最后经常被忽视的挑战来自前面提到的混音任务的性质。虽然在专业制作的混音中惯例是显而易见的,但是很明显,不同但同样可接受的混音可能位于混音控制台的所谓混音空间或参数空间的不同区域。即使在忽略试图对此复杂的一对多映射进行建模的任务时,当以有监督的方式训练模型以回归真实混音时,仍然存在固有的挑战。
因此,需要执行(自动)多轨道音频混音的方法和系统,并且可能还需要训练这种用于(自动)多轨道混音的系统的方法(其可以实现改进的性能(例如,在错误率、一致性等方面)和/或效率),同时允许对新音频(例如,录音)和/或听众的良好通用性。
发明内容
鉴于以上所述,本公开总体上提供了用于基于多个输入轨道执行自动多轨道混音的基于深度学习的系统、操作用于基于多个输入音频轨道执行自动多轨道混音的基于深度学习的系统的方法和训练用于基于多个输入音频轨道执行自动多轨道混音的基于深度学习的系统的方法、以及具有相应独立权利要求的特征的对应(计算机)程序、计算机可读存储介质和装置。从属权利要求涉及优选实施例。
根据本公开的一个方面,提供了一种用于基于多个输入轨道执行自动多轨道混音的基于深度学习的系统。输入音频轨道例如可以预先录制或实时提供。如果需要,输入音频轨道也可以经过适当的(预)处理。该系统可以包括基于深度学习的第一网络的一个或多个实例。具体地,第一网络可以被配置为基于输入音频轨道生成用于在自动多轨道混音中使用的参数。该参数可以包括但不限于控制参数、平移(panning)参数或适合于音频混音的过程的任何其他合适的参数。该系统还可以包括基于深度学习的第二网络的一个或多个实例。第一网络的实例和/或第二网络的实例可以以权重共享的方式配置。也就是说,在使用多个基于深度学习的第一网络和/或第二网络的情况下,这些第一网络和/或第二网络中的所有可以被配置(适配)有相同的权重(例如,权重向量)。具体地,第二网络可以被配置为基于(由第一网络生成的)参数将信号处理和至少一个混音增益应用于输入音频轨道,以用于生成音频轨道的输出混音。在这个意义上,在一些情况下,第一网络可以被称为控制器网络(用于提供参数,诸如控制参数);而第二网络可以被称为转换网络(用于执行音频转换或处理)。信号处理可以指将合适的音频效果应用于音频轨道。如技术人员将理解的,信号处理(或音频信号效果)可以包括但不限于与增益、平移、均衡、动态范围压缩、混响等相关的操作。在多轨道音频混音的背景下,在一些情况下,(混合)增益可以被视为简单且基本的转换。而在一些其他情况下,可以应用混音增益和平移增益。然而,应当理解,取决于各种场景,可以执行任何其他合适的音频处理实施方式。
如上所述配置,概括地说,所提出的系统架构旨在通过直接观察原始乐器录音到最终混音的音频转换来学习音频工程师的混音实践。此外,为了解决训练深度学习模型通常所需的多轨道数据的稀缺和大量数据的问题,所提出的系统架构提出了一种混合方法,一般来说,该混合方法包括学习混音控制台中的一般信号处理算法的第一模型(第二网络),随后是学习控制这些类声道子模块以生成(最终)混音的第二模型(第一网络)。这样,用于自动多轨道混音的系统可以以灵活且有效的方式被训练,使得然后可以利用/操作该系统来以合理的混音质量对输入音频轨道执行多轨道混音。
在一些示例中,输出混音可以是立体声混音。也就是说,输出混音可以包括用于左声道的一个混音和用于右声道的另一混音。值得注意的是,在立体声混音的情况下,第二网络可以被配置为将立体声混音增益应用于输入音频轨道,即一个混音增益用于左声道并且另一混音增益用于右声道。可替代地,第二网络也可以被配置为应用一个混音增益和一个平移参数(例如,在0和1之间)来生成输出立体声混音,这可以简单地意味着另一声道的参数将简单地对应于1减去这样的平移参数。
在一些示例中,第一网络和第二网络可以被分开训练。具体地,可以首先训练第二网络(即,在训练第一网络之前),使得可以基于预训练的第二网络来训练第一网络。如此配置,分开训练第一网络和第二网络的混合配置可以显著简化实现和训练整个混音系统的复杂性。
在一些示例中,可以根据(或基于)输入音频轨道的数量来确定第一网络的实例的数量和/或第二网络的实例的数量。例如,在可能的实施方式中,第二网络的实例的数量可以等于输入音频轨道的数量。另一方面,取决于各种实施方式,还可以根据第二网络的实例的数量和/或输入音频轨道的数量来提供第一网络的一个或多个实例。
在一些示例中,第一网络可以包括第一级和第二级。具体地,由第一网络生成参数可以包括:由第一级将输入音频轨道中每一个音频轨道映射到相应的特征空间表示中;以及由第二级基于特征空间表示生成用于由第二网络使用的参数。例如,特征空间表示可以是潜在空间表示。在这个意义上,第一级有时也可以称为编码级(或者在一些情况下简称为编码器)。
在一些示例中,由第二级生成用于由第二网络使用的参数的步骤可以包括基于输入音频轨道的特征空间表示生成组合表示,以及基于组合表示生成用于由第二网络使用的参数(除了特征空间表示之外或者作为特征空间表示的替代)。组合表示可以是输入音频轨道的特征空间表示的级联表示,其可以以任何合适的方式被生成。
在一些示例中,生成组合表示可以涉及(可能包括)对输入音频轨道的特征空间表示的平均处理。
在一些示例中,可以基于至少一个损失函数来训练第一网络,该至少一个损失函数指示音频轨道的预先确定的混音与其相应的预测之间的差异。
在一些示例中,可以通过使用任何合适的方式来训练第一网络。训练可以意味着确定用于实现系统的一个或多个深度学习模型(例如,一个或多个神经网络)的参数。此外,训练可以意味着迭代训练。在可能的实施方式中,训练可以包括获得至少一个第一训练集作为输入。具体地,第一训练集可以包括(例如,预先录制的)音频轨道的多个子集、以及对于每个子集而言,该子集中的音频轨道的一个或多个预先确定的混音。子集中的音频轨道的预先确定的混音可以例如由音频混音工程师或通过任何合适的方式来提供(例如,混音),使得音频轨道的预先确定的混音可以代表可以作为用于训练的合适基础(目标)的合理且可接受的音频混音。此外,训练可以包括将第一训练集输入到第一网络,并且迭代地训练第一网络以预测训练集中的子集的音频轨道的相应的混音。具体地,训练可以基于至少一个第一损失函数,该至少一个第一损失函数指示音频轨道的预先确定的混音与其相应的预测之间的差异。
在一些示例中,音频轨道的预测混音可以是立体声混音。相应地,第一损失函数可以是立体声损失函数,并且可以以在左声道和右声道的重新分配下不变的方式来构造。在一些可能的情况下,立体声声道之间的这种不变性可以通过考虑对应于左声道和右声道的音频信号的总和来实现,而不是单独考虑那些音频信号。
在一些示例中,训练第一网络以预测音频轨道的混音可以包括:对于音频轨道的每个子集,由第一网络根据音频轨道的子集生成多个预测参数;将预测参数馈送到第二网络;以及由第二网络基于预测参数和音频轨道的子集生成对音频轨道的子集的混音的预测。
在一些示例中,第二网络的实例的数量可以等于输入音频轨道的数量。在这种情况下,第二网络可以被配置为基于参数中的至少部分参数来对相应的输入音频轨道执行信号处理,以生成相应的经处理输出。具体地,经处理输出可以是单声道音频信号,或者可以包括左声道和右声道(即,立体声音频信号)。可以基于经处理(例如,单声道或立体声)输出来生成输出混音。
在一些示例中,系统还可以包括路由组件(例如,路由器)。具体地,路由组件可以被配置为基于经处理输出来生成多个中间混音(例如,立体声混音),然后可以基于那些中间混音来生成输出混音。换句话说,路由组件可以被视为在生成最终音频混音之前提供进一步合适的音频信号处理。在一些可能的实施方式中,路由组件可以被配置为生成适当的总线级别混音,使得可以基于那些总线级别混音来生成最终的音频混音。
在一些示例中,第一网络可以被配置为进一步生成路由组件的合适的(例如,控制、路由等)参数。例如,第一网络可以被配置为生成适于路由组件执行总线级别混音的(操作)参数。
在一些示例中,第二网络的一个或多个实例可以被称为第二网络的一个或多个实例的第一集合,并且该系统还可以包括第二网络的一个或多个(权重共享)实例的第二集合。具体地,第二集合的实例的数量可以根据中间混音的数量来确定。例如,在可能的实施方式中,由路由组件生成的中间混音(例如,总线级别混音)中的每一个可以由第二网络的立体声链接对来处理/处置;并且,对于作为输入的中间混合中的每一个,可以由第二网络的立体声链接对生成双立体声输出。具体地,立体声链接连接可以指一对(两个)第二网络的配置,每个第二网络具有其自己的输入,其中第二网络中的两者都使用相同的一个或多个参数以对每个输入应用相同的信号处理,从而每个第二网络产生立体声输出。双立体声可以指这种系统的配置:输入是立体声信号,并且输出为左输出(声道)和右输出(声道)产生单独的信号,这些信号之后可以相应地相加在一起,以生成总的左立体声信号和右立体声信号。
在一些示例中,第一网络可以被配置为进一步生成用于第二网络的实例的第二集合的(例如,总线控制)参数。
在一些示例中,系统可以被配置为基于中间混音进一步生成左主混音和右主混音。例如,在可能的实施方式中,第二网络的实例的第二集合可以被配置为将中间混音作为输入并且基于该中间混音生成左主混音和右主混音。作为示例,可以通过分别对由第二网络的第二集合处理的所有左声道信号和由第二网络的第二集合处理的所有右声道信号求和(例如,平均)来生成左主混音和右主混音。该系统还可以包括第二网络的(权重共享)实例对,并且第二网络的该实例对可以被配置为基于左主混音和右主混音生成输出混音。
在一些示例中,第一网络可以被配置为进一步生成用于第二网络的该实例对的(例如,主控制)参数。
在一些示例中,可以通过使用任何合适的方式来训练第二网络。训练可以意味着确定用于实现系统的一个或多个深度学习模型(例如,一个或多个神经网络)的参数。此外,训练可以意味着迭代训练。
在可能的实施方式中,对第二网络的训练可以包括获得至少一个第二训练集作为输入。具体地,第二训练集可以包括多个音频信号、以及对于每个音频信号而言,用于该音频信号的信号处理的至少一个转换参数和相应的预先确定的经处理音频信号。预先确定的经处理音频信号可以例如由音频工程师或通过任何其他合适的方式来提供(例如,处理),使得预先确定的经处理音频信号可以代表可以用作用于训练的合适基础(目标)的合理且可接受的经处理音频信号。训练还可以包括将第二训练集输入到第二网络;以及迭代地训练第二网络,以基于音频信号和转换参数来预测相应的经处理音频信号。具体地,训练可以基于至少一个第二损失函数,该至少一个第二损失函数指示预先确定的经处理音频信号与其相应的预测之间的差异。
在一些示例中,由第一网络生成的参数可以是人类和/或机器可解释的参数。人类可解释的参数通常可以意味着该参数可以被人类(例如音频工程师)解释(理解),使得在认为有必要的情况下,音频工程师能够(直接)使用或应用那些参数以用于进一步的音频信号处理或分析。类似地,机器可解释的参数通常可以意味着该参数可以被机器(例如,计算机或存储于其上的程序)解释,使得在认为有必要的情况下,那些参数可以(直接)被程序(例如,混合控制台)使用以用于进一步的音频处理或分析。
在一些示例中,如上所述,由第一网络生成的参数可以包括控制参数和/或平移参数。当然,根据各种实施方式,由第一网络生成的参数可以包括任何其他合适的参数(例如,存在于真实世界混音控制台中的那些参数)。
在一些示例中,第一网络和/或第二网络可以包括至少一个神经网络。具体地,如技术人员将理解的,神经网络可以包括线性层、多层感知器、MLP等中的至少一个。
在一些示例中,神经网络可以是卷积神经网络(CNN)(诸如时间卷积网络(TCN))、或者Wave-U-Net、递归神经网络(RNN),或者可以包括注意层或转换器。当然,如技术人员将理解的,可以应用任何其他合适的神经网络。
根据本公开的另一方面,提供了一种用于基于多个输入音频轨道执行自动多轨道混音的基于深度学习的系统。该系统可以包括转换网络。在一些情况下,转换网络可以对应于如上所述的第二网络。具体地,转换网络可被配置为基于一个或多个参数将信号处理和至少一个混音增益应用于输入音频轨道,以用于生成音频轨道的输出混音。参数可以由另一网络元件(例如,如上所示的控制器网络或第一网络)生成。
在一些示例中,参数可以是人类可解释的参数。例如,参数可以是音频工程师可解释的(或可使用的),使得在认为有必要的情况下,音频工程师可以(直接)使用或应用那些参数以用于进一步的音频信号处理或分析。在一些情况下,人类(或机器)可解释的参数可以简单地指那些可以在常规/真实世界混音控制台中找到的参数。
在一些示例中,该系统可以包括第一网络的权重共享配置下的多个实例;和/或第二网络的权重共享配置下的多个实例。如前所述,权重共享配置通常可以意味着那些第一网络和/或第二网络中的所有可以被配置(适配)有相同的权重(例如,权重向量)。
根据本公开的另一方面,提供了一种操作用于基于多个输入音频轨道执行自动多轨道混音的基于深度学习的系统的方法。该系统可以包括基于深度学习的第一网络的一个或多个实例和基于深度学习的第二网络的一个或多个实例。该方法可以包括由第一网络基于输入音频轨道生成用于在自动多轨道混音中使用的参数。此外,该方法还可以包括由第二网络基于该参数将信号处理和至少一个混音增益应用于输入音频轨道,以用于生成音频轨道的输出混音。
根据本公开的另一方面,提供了一种训练用于基于多个输入音频轨道执行自动多轨道混音的基于深度学习的系统的方法。训练可以意味着确定用于实现系统的一个或多个深度学习模型(例如,一个或多个神经网络)的参数。此外,训练可以意味着迭代训练。该系统可以包括基于深度学习的第一网络的一个或多个实例和基于深度学习的第二网络的一个或多个实例。具体地,该方法可以包括用于训练第二网络的(第一)训练阶段,并且用于训练第二网络的(第一)训练阶段可以包括:获得至少一个第一训练集作为输入,其中第一训练集包括多个音频信号、以及对于每个音频信号而言,用于该音频信号的信号处理的至少一个转换参数和相应的预先确定的经处理音频信号;将第一训练集输入到第二网络;以及迭代地训练第二网络,以基于第一训练集中的音频信号和转换参数来预测相应的经处理音频信号。具体地,训练第二网络可以基于至少一个第一损失函数,该至少一个第一损失函数指示预先确定的经处理音频信号与其相应的预测之间的差异。
在一些示例中,该方法还可以包括用于训练第一网络的(第二)训练阶段,并且用于训练第一网络的(第二)训练阶段可以包括:获得至少一个第二训练集作为输入,其中第二训练集包括音频轨道的多个子集、以及对于每个子集而言,该子集中的音频轨道的相应的预先确定的混音;将第二训练集输入到第一网络;以及迭代地训练第一网络以预测第二训练集中的子集的音频轨道的相应的混音。具体地,训练第一网络可以基于至少一个第二损失函数,该至少一个第二损失函数指示音频轨道的预先确定的混音与其相应的预测之间的差异。
在一些示例中,用于训练第一网络的(第二)训练阶段可以在用于训练第二网络的(第一)训练阶段已经完成之后开始。换句话说,训练第一网络可以在预训练的第二网络的帮助下执行。
根据本公开的另一方面,提供了一种计算机程序。该计算机程序可以包括在由处理器执行时使得该处理器执行在整个公开中描述的示例方法的所有步骤的指令。
根据另一方面,提供了一种计算机可读存储介质。该计算机可读存储介质可以存储前述计算机程序。
根据又一方面,提供了一种包括处理器和耦接到该处理器的存储器的装置。该处理器可以被适配为使得该装置执行在整个公开中描述的示例方法的所有步骤。
将理解的是,系统特征和方法步骤可以以许多方式互换。具体地,如技术人员将理解的,所公开的一个或多个方法的细节可以通过相应的系统来实现,反之亦然。此外,关于该一个或多个方法的任何上述陈述被理解为同样适用于相应的系统,反之亦然。
附图说明
下面参照附图说明本公开的示例实施例,其中
图1是根据本公开的实施例的用于执行多轨道混音的系统的框图的示意图,
图2是根据本公开的实施例的用于执行多轨道混音的系统的框图的示意图,
图3是根据本公开的实施例的控制器网络的配置的框图的示意图,
图4A是根据本公开的实施例的转换网络的训练模型的框图的示意图,
图4B是根据本公开的另一实施例的转换网络的训练模型的框图的示意图;
图5A-5D是根据本公开的实施例的用于执行多轨道混音的系统的框图的示意图;
图6是根据本公开的另一实施例的用于执行多轨道混音的系统的框图的示意图;
图7是根据本公开的实施例的路由组件的框图的示意图;
图8A-8C是分别示出根据本公开的实施例的神经网络的框图的示意图;
图9是示出根据本公开的实施例的操作用于基于多个输入音频轨道执行自动多轨道混音的基于深度学习的系统的方法的示例的流程图,以及
图10A-10B是示出根据本公开的实施例的用于训练用于执行自动多轨道混音的基于深度学习的系统的方法的示例的流程图。
具体实施方式
附图和以下描述仅通过举例说明的方式涉及优选实施例。应该注意的是,从下面的讨论中,本文公开的结构和方法的可替代实施例将很容易被认为是在不脱离所要求保护的原则的情况下可以被采用的可行替代方案。
现在将详细参考多个实施例,其示例在附图中示出。注意,在可行的情况下,在附图中可以使用相似或类似的附图标记,并且相似或类似的附图标记可以指示相似或类似的功能。附图仅出于说明的目的描绘了所公开的系统(或方法)的实施例。本领域的技术人员将从下面的描述中容易地认识到,在不脱离本文描述的原理的情况下,可以采用本文示出的结构和方法的可替代实施例。
如前所述,深度学习在相关音频任务中的成功似乎激发了对将这些模型应用于自动多轨道混音系统的兴趣。由于缺少参数混音控制台数据(即,音频工程师使用的设置集合),并且无法在训练过程中通过混音控制台传播梯度,因此,直接在波形级别操作的端到端模型可能似乎提供了最可行的选项。在本公开中,旨在通过直接观察原始乐器录音到最终立体声混音的音频转换来学习音频工程师的混音实践。
不幸的是,由于多轨道数据的稀缺以及训练深度学习模型通常所需的大量数据,这似乎不太可能:该方法将是可行的。为了解决这个问题,本公开总体上提出一种混合方法,其中首先构建学习混音控制台中的通用信号处理算法的模型,随后构建学习控制这些类声道子模块以生成混音的第二(较小)模型。
广义而言,第一模型(例如,所要求保护的第二网络)可以直接对音频信号进行操作,并学习仿真传统混音控制台中存在的信号处理算法。由于来自传统混音控制台(例如,均衡器、压缩器、混响)的算法可能是可访问的,因此,该模型可以用有效的无限供应的生成示例来训练。然后,该经训练模型可以用于通过组合多个实例来构建完整的混音控制台。第二个较小的模型(有时也称为控制器,例如所要求保护的第一网络)可以被训练为针对这些实例生成控制信号(或任何其他合适的信号/参数)集,以创建输入的高质量混音。由于不是所有在传统混音控制台中的元素都是可区分的,因此,以此方式学习是不可能的。目前描述的构想使得能够直接学习控制信号以在波形域中产生混音。
参考图1,示出了根据本公开的实施例的用于执行多轨道混音的系统1000的(简化)框图的示意图。具体地,系统1000采用数量N个音频轨道(信号)1100-1、1100-2、…、1100-N作为输入,并且旨在提供其(有意义的)音频混音1400。输入音频轨道1100-1至1100-N还被并行地馈送到控制器网络1200(或者有时简称为控制器)中以用于分析(例如,预处理)。一般来说,在可能的实施方式中,控制器网络1200可以接收这些输入音频轨道1100-1至1100-N,从那些输入音频轨道1100-1至1100-N提取(相关)信息,并且为每个音频轨道(声道)产生一组参数1250作为输出。参数1250可以包括控制参数、平移参数或适合于音频混音的任何其他类型的参数。然后,可以由所谓的混音控制台1300来执行混音过程。混音控制台1300可以例如由音频工程师基于输入音频轨道1100-1至1100-N以及参数1250来操作,以便生成最终的输出音频混音1400。
一般来说,将音频信号集合转换成有凝聚力的混合物的任务需要对不同的技术和创作过程的深刻理解。为了有效地执行此任务,传统上,音频工程师的专业培训通常可以涉及开发识别如何利用一系列信号处理工具来实现一组期望的技术和创作目标的能力。因此,为了向新手用户提供工具,以及减少熟练工程师所需的时间,对能够以类似于音频工程师的自动方式执行该过程的系统感兴趣。
最近,深度学习已在以前被认为极具挑战性的许多音频任务(例如,语音合成、乐器合成和源分离)上展示了令人印象深刻的结果。出于这个原因,通常对在用于自动多轨道混音的方法中的应用感兴趣。该系统可以采集不同源的多个输入音频录音,单独处理它们,然后将它们组合起来以创建最终的混合物,就像音频工程师所做的那样。
不幸的是,在将深度学习方法应用于此任务时,似乎存在多个挑战,并且到目前为止,这些挑战已经完全阻碍了这种应用。最大的挑战之一似乎是可用训练数据的有限规模。并且由于这一现实,规范的深度神经网络(其中输入是多轨道录音的集合,并且输出是那些轨道的混合物)将不太可能以端到端的方式进行训练。训练在波形域中操作的端到端模型可能需要一百万个以上的样本来有效地执行分类任务,并且尽管基于频谱图的方法已经被示出以较少的数据更有竞争力地执行,但是由于对相位建模的挑战,这种方法对于涉及音频作为其输出的任务来说更具问题。
鉴于上述挑战中的一些或全部,通常提出可以用一组神经网络来代替混音控制台1300本身,从而允许利用深度学习构建块来构建完全可区分的混音控制台。为此,注意的是,混音控制台1300本身由一组重复的声道组成,该组重复的声道中的所有声道使用例如处理器的组合来实现同一组转换。因此,为了仿真混音控制台1300,一般来说,需要做的就是仿真控制台内的单个声道,然后跨所有声道应用权重共享。概括地说,这可以通过设计适当的网络并训练该网络来仿真混音控制台中单个声道的信号处理链来实现,其中能够将该网络跨多个输入录音扩展。理想地,当该网络被给予声道中处理器的音频信号和一个或多个参数时,该网络将产生与真实混音控制台声道(例如,由音频工程师操作)的输出无法区分的音频信号。
图2示意性地示出了上述概念。值得注意的是,图2中相同或相似的附图标记可以指示如图1所示的系统1000中相同或相似的元件,使得可以出于简明的原因省略对其的重复描述。如图2所示,图1的混音控制台1300现在被多个(神经)网络2310-1、2310-2、…、2310-N替代,该多个(神经)网络中的每一个都可以被训练来仿真混音控制台中单个声道的信号处理链。在这种意义上,该神经网络有时也可以被称为转换网络。在图2的示例中,神经网络2310-1至2310-N的数量等于输入2100-1至2100-N的轨道(声道)的数量,但是应当理解,这些数量不必总是相同的。在图2的示例中,然后,可以跨每个输入声道应用每个网络,并且控制器网络2200现在针对每个输入声道产生一组参数以产生混音,该混音是每个网络的输出的总和(例如,使用求和组件2350)。值得注意的是,该方法(即,网络2310-1至2310-N的所有N个实例都被应用有相同的参数集)在一些情况下也可以被称为权重共享。
如此配置,所提出的设计可以实现或促进对控制器网络的训练,因为整个系统将是完全可区分的。此外,本公开还提供了以下益处:易于缩放到在混音过程期间要应用的许多不同效果(或信号处理),并且潜在地增加了信号链的大小,而无需创建每个新的数字音频效果的独特的可区分的实施方式。因此,可以显著降低设计和/或训练的复杂性,使得可以显著改善整个系统的效率。
总之,转换网络2310-1至2310-N可以代替典型混音控制台中的传统声道,并且当被提供输入信号和一组参数时,尝试以相同的(权重共享)方式进行操作。通过组成相同(预训练的)转换网络的多个实例,可以构建完全可区分的“混音控制台”2300,该混音控制台最终能够训练控制器网络2200,同时便于从有限的数据中学习。值得注意的是,在一些情况下,系统2000的控制器网络2200可以简称为第一网络;而转换网络可以简称为第二网络。
如上所述,对控制器网络(第一网络)的训练可以与对转换网络(第二网络)的训练分开执行。在一些可能的实施方式中,可以在训练控制器网络之前训练转换网络;或者换句话说,对控制器网络的训练可以依赖于预训练的转换网络。
图3是根据本公开的实施例的控制器网络3200的配置3000的框图的示意图。控制器网络3200可以类似于图1或2所示的控制器网络。因此,广义地说,控制器网络3200可以被视为包括至少一个(深度)神经网络,该至少一个神经网络被训练以产生一组参数3250(例如,用于混音控制台或一个或多个转换网络),以在给定输入3100的音频波形的情况下产生期望混音。
具体地,在图3所示的示例中,控制器网络3200可以包括两个级(或两个子网络),即第一级3210和第二级3220。在一些情况下,第一级3210可被称为编码级(或简称为编码器);而第二级3220可称为后处理级(或简称为后处理器)。
一般来说,编码级3210可以承担从输入声道提取相关信息的任务。例如,这种提取可以涉及将输入音频波形转换(或映射)成特征空间表示(例如,潜在空间表示)。可能与混音任务相关的信息种类可以是像输入源(例如,吉他、鼓、嗓音等)的特性以及更详细的信息(诸如随时间变化的能量包络)、或跨频谱的能量分配,这在理解源之间的掩蔽交互时可能是需要的。通常,这些是音频工程师在尝试创建(手动)混音时将做出的相同或类似种类的考虑。然后,编码级3210可以产生每个输入信号(声道)的表示。出于此目的,编码级3210可以包括多个(例如,可以等于输入3100中的声道/轨道的数量)的(子)编码器3211-1、3211-2、…、3211-N。编码级3210的输出将随后被传递到后处理级3220。
概括地说,后处理级3220的作用可以是聚集来自编码器的信息,以便决定如何参数化对相关联的输入录音进行操作的转换网络。值得注意的是,在一些示例中,可能不与其他输入声道隔离地做出这种决定,因为每个混音决定通常可能高度依赖于一些或所有其他输入。考虑到这一点,后处理级3220可以被提供有不仅对相应输入音频轨道的学习表示,还有对以某种方式表示或概括一些或所有输入的组合(或级联)表示的学习表示。在一种可能的实施方式中,这可以通过跨编码器3211-1至3211-N输出的所有输入表示进行简单平均(如3215所示)来实现。当然,取决于各种实施方式和/或要求,可以采用任何其他合适的方式以便生成适当的组合表示。在一些情况下,这种组合表示也可以被表示为上下文表示。基于该组合表示,后处理级3220然后可被配置(训练)为输出可以用于音频混音的一组参数(例如,通过转换网络或任何其他合适的网络组件)。类似于编码级3210,取决于各种实施方式,后处理级3220本身也可以包括适当数量的(子)后处理器3221-1、3221-2、…、3221-K。值得注意的是,在一些可能的实施方式中,如上所述的权重共享概念也可以应用(扩展)到控制器网络3220。作为一个示例,子编码器(例如,3211-1)和后处理器(例如,3221-1)的一个实例(对)可以被单独应用于输入声道中的每一个,从而为每个声道产生一组要被传递到转换网络(其也具有如上已经阐述的共享权重)的参数。因此,可以认为权重共享已经应用于(完整的)系统级别。这种系统级别权重共享的示例也在图5中示出,这将在下面更详细地讨论。
图4A是根据本公开的实施例的用于转换网络4311的训练模型4100的框图的示意图。转换网络4311可以与图2所示的转换网络2310-1相同或类似。
一般来说,转换网络的目标是构建可以以可区分的方式实施由音频工程师使用的通用信号处理工具(例如,均衡器、压缩器、混响等)的模型。这个网络是必需的,因为传统的信号处理算法实施具有潜在不良行为或难以处理的梯度的功能,使得它们在训练模型以控制它们生成混音的过程中的使用具有挑战性。在广义上,转换网络可以将音频信号以及定义对信号链中所有处理器的控制的一组参数(也可能连同它们各自的顺序)作为输入。然后可以训练转换网络以产生与真实的一组信号处理器相同的输出。在训练期间,可以例如通过随机化真实信号链中的处理器参数的状态来生成输入/输出对,然后通过该信号链传递各种信号来生成目标波形。然后,这些对被用于学习转换网络。在这个意义上,这种训练过程可以被认为是以自我监督的方式完成的,具有几乎无限的训练数据集。如技术人员将理解的,训练数据然后可以被共同编译成至少一个训练集,该至少一个训练集将用于(迭代地)训练转换网络。
现在参考图4A,转换网络4311将两组值作为输入,即输入音频波形4101本身以及用于控制音频波形4101的信号处理的对应参数4251。在一些情况下,如技术人员将理解的,信号处理可以涉及音频效果,诸如(但不限于)增益、平移、均衡、动态范围压缩、混响等。输入音频4101和参数4251将被输入到待训练的网络4311和传统混音控制台4301,使得可以比较相应的输出,即“真实的”经处理音频信号4421和预测的经处理音频信号4411,以用于进一步的训练处理。
图4B示意性地示出了根据本公开的另一实施例的转换网络4312的(稍微更详细的)训练模型4200的框图。具体地,图4B的模型4200中相同或相似的附图标记指示如图4A所示的模型4100中相同或相似的元件,使得出于简明的原因可以省略对其的重复描述。与上面类似,广义地说,转换网络4312通常可以被认为包括至少一个深度神经网络,该至少一个深度神经网络被训练以在给定定义声道配置的一组参数的情况下模拟混音控制台中对传统声道的处理。
在图4B的示例模型4200中,转换网络被示为包括两个子网络4313和4314,这两个子网络本身都可以是神经网络。在可能的实施方式中,第一子网络4313可以是采用输入音频波形4102和一个或多个参数4252作为输入的参数深度神经网络(或简称为P-DNN);而第二子网络4314可以是采用输入音频4102和P-DNN 4313的输出作为输入并输出对经处理音频信号的预测4412的转换深度神经网络(或简称为T-DNN)。在一些可能的实施方式中,可以在损失函数4502的帮助下执行训练,该损失函数可以指示预先确定的(“真实的”)经处理音频信号4422(由混音控制台声道4302基于音频输入4102和对应的参数4252处理)与其相应的预测4412之间的差异。
利用根据图4A或图4B的该训练的转换网络,然后可以构建可以利用这些预训练的转换网络的多个实例的差分混音控制台代理。如上所述,权重可以在所有实例之间共享,这使得以相同的方式对控制台功能的每个声道进行处理。随后,可以引入控制器网络,其通常旨在在给定关于输入音频声道的信息的情况下,为每个单独的转换网络生成参数调节。
概括地说,对于训练控制器网络(例如,图3中所示的控制网络3200),成对的多轨道音干(stem)可以作为输入被馈送到转换网络实例,并且可以由控制器网络产生混合物。然后,可以将该混合物与真实混合物进行比较,以便训练控制器网络,因为所有元素都是完全可区分的,因此该控制器网络已经变得可行。在一些可能的实施方式中,可以基于至少一个损失函数来执行训练,该至少一个损失函数指示音频轨道的预先确定的混音(“真实混音”)与其相应的预测之间的差异。可选地,在训练过程期间,可以微调控制器网络的权重。最终,所提出的系统通常可以实现直接从一组有限的多轨道音干及其相应的波形级别的混音学习的能力。
在图5D中示意性地示出了完整系统5000(即包括控制网络和转换网络两者)的可能的实施方式。具体地,系统5000可以包括控制器网络(或称为第一网络)5200,该控制器网络采用多个音频信号5100-1、5100-2、…、5100-N作为输入,并生成一组参数(例如,控制参数、平移参数等)。随后,输入音频轨道5100-1至5100-N与生成的参数一起被馈送到转换网络(或称为第二网络)5300的一个或多个实例中,以便生成最终的输出混音5400。更具体地,控制器网络5200的作用是处理输入声道5100-1至5100-N,(例如,由编码级5210)提取关于这些输入的有用信息,(例如,由后处理级5220)处理提取的信息(也可能基于如5215所示的组合表示),并且最终产生将被传递到相关联的转换网络5300以便处理所讨论的输入声道的一组参数。
如上所述,在图5D的特定示例中,权重共享已经应用于系统级别。也就是说,一对编码器和后处理器被单独应用于每个输入声道,为每个声道产生将被传递到该组转换网络的一组参数,该组转换网络也具有共享的权重。这样,可以进一步改善整个系统的效率。然而,应当理解,如技术人员将理解的,可以采用(控制器网络5200和/或转换网络5300的)任何其他合适的配置。
此外,在图5D的示例中,生成输出混音5400作为转换网络5300的输出的总和(示例为5350)。然而,应该理解,可以应用任何其他合适的操作/过程来生成最终的混音。作为一般示例(但不作为限制),至少一个混音增益(例如,取决于是否将期望立体声输出)可以简单地应用于生成音频混音。在一些其他可能的示例中,可以采用一个混音增益和一个平移参数,这可以简单地暗示其他声道的参数将对应于一(1)减去这样的平移参数。
此外,为了说明的完整性,图5A至C分别示意性地示出了编码级5210的实例、后处理级5220的实例和转换网络5300的实例的可能的实施方式。具体地,在如图5A所示的示例中,编码器可以包括一系列卷积块和全连接(FC)块(其本身可以包括例如一系列线性层和整流线性单元(ReLU)激活函数)。在图5B的示例中,后处理器可以包括一系列完全连接的子网络,其中的每个子网络可以包括多个隐藏的线性层、参数ReLU(PReLU)激活和退出(例如,p=0.1),随后是输出层。值得注意的是,如上所述,除了由编码级生成的相应潜在空间表示之外,后处理器(或一般的后处理级)可以可选地进一步采用组合(上下文)表示作为输入,使得可以捕获嵌入(一些或全部)输入声道中的信息。在图5C的示例中,转换网络可以包括一系列完全连接的子网络,其中的每个子网络可以包括FC块、一系列时间卷积网络(TCN,这将在下面更详细地讨论)和输出层。当然,应当理解,这些实施方式仅仅是说明性的,并且如技术人员将理解的,可以采用其任何其他合适的实施方式。
图6示意性地示出了根据本公开的另一实施例的用于执行多轨道混音的系统6000的框图。具体地,系统6000可以被视为系统5000的扩展版本,即,具有也可能存在于(更完整的)音频混音过程中的多个可能的扩展。因此,图6的系统6000中相同或相似的附图标记仍然可以指示如图5D所示的系统5000中相同或相似的元件,使得出于简明的原因可以省略对其的重复描述。
概括地说,完整的系统图6000示出了构成完整的可区分混音控制台和控制器网络6200的多个元件的组成。到系统6000的输入6100可以是可以对应于例如不同的乐器录音的(例如,数量N个)音频信号(波形)的集合。在一些可能的实施方式中,每个声道可以采用单个单声道输入信号作为输入进行处理。首先,这些输入6100被传递到控制器网络6200,该控制器网络可以执行分析,然后为系统6000中的一些或所有处理元件生成一组(例如,控制)参数6250。这些输入6100然后连同相对应生成的(例如,声道控制)参数6251一起被传递到一系列(第一组)转换网络6310-1、6310-2、…、6310-N。该处理(混音的第一阶段/级)的结果是可以是这些轨道的立体声(如相应转换网络的双箭头输出所示)混音的输出。如前所述,系统的信号路径中可以包括多个信号处理元件,以便仿真将由音频工程师使用的传统混音控制台。参考图6的示例,也就是说,系统6000可以由N个输入声道、M个立体声总线和主总线组成,其通常可以遵循传统混音控制台的可能结构。与传统混音控制台相比,主要区别在于这些网络元件现在可以通过使用神经网络来所述,并且因此是可区分的。这使得能够通过以高效且灵活的方式利用由音频工程师制作的一组混音训练系统,来训练用于模拟音频工程师的行为的系统。
更具体地,开始时,N个输入6100中的每一个可以被传递到控制器网络6200。该控制器网络6200执行对输入信号6100的分析,试图理解应该如何处理输入以便创建期望的混音。为了实现这一点,如上所述,可以使用学习编码器,该学习编码器创建输入的压缩表示,从而提炼最重要的信息。然后,由神经网络(例如,包括线性层和非线性激活的后处理器)使用提炼的信息来预测应该如何设置用于整个混音控制台的参数6250,以便实现输入的期望混音。如前所述,控制器网络可以另外包括组合(或者在一些情况下,级联)那些特征空间(压缩)表示以创建输入的完整(组合)表示的步骤,然后可以进一步基于这样的组合表示来执行对参数的预测。
然后,这些参数6250被传递到转换网络上,使得转换网络可以进行对输入信号的多级处理。
利用这些预测参数6251,N个输入6100中的每一个被传递通过转换网络6310-1至6310-N的多个实例(可以称为第一集合)。在图6的示例中,转换网络中的每一个被示出为具有两个子元件,例如图4B中例示的T-DNN和P-DNN。在被用于完整的系统6000之前,可以在单独的任务中预训练转换网络,如上面已经参考图4A和4B所详细讨论的。值得注意的是,训练过程通常是自我监督的训练任务,其中输入可以是单声道波形和完全定义现实混音控制台声道的配置的一组参数。输出可以是立体声波形,该立体声波形意在预测由现实混音控制台声道产生的输出。P-DNN和T-DNN各自为可以由各种架构组成的神经网络,因此它们的组成不限于该系统设计。在此预训练过程之后,转换网络能够接近地模拟现实混音控制台声道,其中益处为其元件都是可区分的并且能够进行进一步的训练。
由于转换网络6310-1至6310-N已经被训练,因此当它们被传递一组参数6251和输入6100时,在给定相同输入的情况下,转换网络6310-1至6310-N(理想地)将执行如现实声道将在混音控制台中已做的处理。在图6的示例中,N个输入声道6100中的每一个都可以产生立体声输出。然后,可以将这些输出发送到路由组件或子系统(有时也可以简称为路由器)6500,该路由组件或子系统通常可以用于使得创建针对第二(子)级处理的总线级别混音的目的。换句话说,路由器6500可以被视为创建子混音并发送它们(即,子混音)以用于进一步处理(例如在控制台中或通过转换网络)的简单的混合器。为了操作这种路由组件6500,控制器网络6200可以被配置为进一步生成对应的(例如,路由器控制)参数6252。
图7示意性地示出了路由组件6500的可能的(稍微详细的)实施方式。具体地,在路由器7500内部,参数7252(例如,由图6所示的控制器6200提供)用于从N个输入声道输出7510-1、7510-2、…、7510-N创建多个(例如,M个)唯一总线级别混合7520-1至7520-M。一般来说,每个输入声道可以被视为采用信号单声道输入信号作为输入以用于处理的声道;并且在一些情况下,总线可以表示采用多个立体声输入信号的总和作为输入以用于进一步处理的声道。在一些可能的实施方式中,路由组件7500也可以将声道输出直接路由到主总线(左和右),如图7中的7530-1和7530-2所示。具体地,主总线通常指的是收集系统中所有信号并产生最终立体声输出混合物的总线。
总之,路由器7500通常可以被视为处理第二轮处理的一个或多个信号流的组件(子系统),该第二轮处理可以包括使用预测参数7252(例如,来自控制器网络)来创建M个总线的总线级别混音并发送出这些混音。可选地,路由器可以进一步将每个原始输入的副本发送到左主总线和右主总线。
现在返回参考图6的示例,由路由器6500输出的总线级别混音然后可以与由控制器网络6200再次生成的另外的(例如,总线控制)参数6253一起被发送到多个(例如,M个)立体声链接的转换网络对6320-1(其由转换网络6320-1A和6320-1B组成),该多个立体声链接的转换网络对然后将形成系统6000中的M个总线,如图6所示。在一些情况下,这些立体声链接的转换网络6320-1至6320-M可以被简称为转换网络的实例的第二集合。然后,这些总线可以各自产生被(例如,分别由6350-1和6350-2)求和在一起以形成信号立体声输出的双立体声输出,该信号立体声输出然后被发送到主总线。最后,主总线可以形成最终的(例如,立体声链接的)转换网络6330-1和6330-2,该最终的转换网络基于由控制器网络6200生成的另外的(例如,主控制)参数6254产生最终的输出混合物6400。值得注意的是,立体声链接的连接通常可以指一对(两个)转换网络的配置,每个转换网络具有其自己的输入,每个转换网络产生立体声输出,其中两个转换网络都使用相同的一个或多个参数以对每个输入应用相同的信号处理。此外,双立体声通常可以指这样的系统的配置:输入是立体声信号,并且输出产生震动左输出(声道)和右输出(声道)的单独的信号,之后可以将该信号分别求和在一起,以生成总的左立体声信号和右立体声信号。图6的示例中也清楚地示出了这种配置/连接(即,立体声链接和双立体声)。值得注意的是,在生成立体声输出混音的情况下,在一些实施方式中可以以这样的方式来训练控制器网络,使得它在左声道和右声道的重新分配下是不变的。在一些可能的实施方式中,立体声声道之间的这种不变性可以通过考虑对应于左声道和右声道的音频信号的总和来实现,而不是单独考虑那些音频信号。
总之,为了解决之前识别的至少一些或所有问题,本公开寻求设计一种包括两个网络的系统。第一网络(转换网络)以自我监督的方式被预训练,以灌输领域知识,然后使用有限的多轨道数据来训练第二(较小的)网络(控制器网络),以最有效地控制对第一网络的一组实例的操作,从而创建高质量混音。可以使用该第一网络(转换网络)的多个实例以便构建模拟传统混音控制台的设计的系统,因为它具有多个声道、可路由总线和所有信号都路由到的单个求和主总线。一般地,至少部分目标是设计第二网络(控制器网络),该第二网络可以通过从成对的多轨道音干和混音的有限数据集学习来学习控制这些转换网络。值得注意的是,类似于上面讨论的(声道控制)参数6251,可以基于输入音频信号,并且可选地还基于所有输入音频信号的组合(或级联)表示来生成(例如,预测)(路由器控制)参数6252、(总线控制)参数6253和/或(主控制)参数6254。此外,还应注意,由于训练一个或多个转换网络的通常目标是模拟混音控制台,因此由控制器网络生成的参数6250可以是人类和/或机器可解释的参数。人类可解释的参数通常可以意味着该参数可以被人类(例如,音频工程师)解释(理解),使得在认为有必要的情况下,音频工程师可以(直接)使用或应用那些参数以用于进一步的音频信号处理或分析。类似地,机器可解释的参数通常可以意味着该参数可以被机器(例如,计算机或存储于其上的程序)解释,使得在认为有必要的情况下,那些参数可以(直接)被程序(例如,混音控制台)使用以用于进一步的音频处理或分析。这样,提供可解释参数使得实现例如用户的交互,以在必要时调整输出混音。此外,这种可解释性还使得来自用户的交互能够根据他们的目标容易地微调训练模型和对应的预测。因此,可以进一步改善整个系统的性能,同时保持足够的灵活性(例如,如果必要,在进一步调整或微调的意义上)。
此外,尽管在如图1、2、5和6所示的示例中可能仅存在一个控制器网络,然而应当理解,在一些其他情况下,在系统中也可以提供控制器网络的多于一个的实例。例如,在一些可能的实施方式中,可以分别针对转换网络中的一些、路由组件或主总线提供控制器网络的不同实例。也就是说,可以将不同的控制器网络提供给生成的参数,该参数可以分别被不同的子网络使用。
图8A-8C示意性地示出了根据本公开的一些实施例的神经网络的一些可能的实施方式。然而,可能值得指出的是,这些可能的实施方式应该仅仅被理解为是说明性的,并且如技术人员将理解的,可以实施任何其他合适形式的神经网络。
具体地,图8A可以表示TCN架构8100(例如,可以适用于实现如图5C所示的转换网络)的高级别视图的示意性图示。一般来说,TCN可以被认为是对将卷积神经网络(CNN)应用于时间序列数据进行形式化,并且可以包括多个组件,诸如一维核、具有指数增加的膨胀因子的卷积以及残差连接。在如图8A所示的示例架构中,提供了卷积块的堆栈(例如,10个)(表示为TCNn),可能具有指数增加的膨胀因子。堆栈内的每个块可以具有到输出的剩余连接以及附加跳过连接。特征式线性调制(或简称为FiLM)通常指的是一种将技术形式化为对CNN的中间特征执行的学习的仿射转换的调节方法。
图8B示意性地示出了单个卷积块8200(在图8A中表示为TCNn)的可能的实施方式的示例。具体地,卷积块可以由标准公式组成,其特征在于一维卷积、批量归一化、经由FiLM机制注入调节的仿射转换以及最终的PReLU激活。为了计算该块的最终输出,具有学习的缩放系数(在图8B中表示为gn)的残差连接被包括在内,。
图8C示意性地示出了神经网络的另一种可能的实施方式的高级别视图8300,在这种情况下,该神经网络可以是基于Wave-U-Net的架构。一般来说,Wave-U-Net可以被视为对传统U-Net架构的改编,以对波形进行操作,包括一些附加的方法来合并附加的输入上下文,并且可能使用步长转置卷积来进行上采样。
然而,如上面已经指出的,神经网络的这些可能的实施方式可能只是为了说明的目的。也可以采用任何其他合适的形式,诸如递归神经网络(RNN),或者包括注意层或转换器。
图9是示出根据本公开的实施例的操作用于基于多个输入音频轨道执行自动多轨道混音的基于深度学习的系统的方法900的示例的流程图。该系统可以例如与图5所示的系统5000或图6所示的系统6000相同或类似。即,该系统可以包括合适的控制器网络(或简称为第一网络)的一个或多个实例和合适的转换网络(或简称为第二网络)的一个或多个(权重共享)实例,如任一附图所示。因此,出于简明的原因,可以省略对其的重复描述。
具体地,方法900可以从步骤S910开始,由第一网络基于输入音频轨道生成在自动多轨道混音中使用的参数。
随后,方法900可以继续步骤S920,由第二网络基于该参数将信号处理和至少一个混音增益应用于输入音频轨道,以用于生成音频轨道的输出混合。
图10是示出根据本公开的实施例的训练用于执行自动多轨道混音的基于深度学习的系统的方法的示例的流程图。该系统可以例如与图5所示的系统5000或图6所示的系统6000相同或类似。即,该系统可以包括合适的控制器网络(或简称为第一网络)的一个或多个实例和合适的转换网络(或简称为第二网络)的一个或多个(权重共享)实例,如任一附图所示。因此,出于简明的原因,可以省略对其的重复描述。
如上所述,可以在对第一网络(即,控制器网络)的训练之前执行对第二网络(即,转换网络)的训练。因此,广义地说,对整个系统的训练可以被视为分成两个分开的训练阶段,这分别在图10A和10B中示出。
具体地,图10A示意性地示出了用于训练第二网络(即,转换网络)的(第一)训练阶段1010的示例,并且从获得至少一个第一训练集作为输入的步骤S1011开始。第一训练集可以包括多个音频信号、以及对于每个音频信号而言,用于该音频信号的信号处理的至少一个转换参数和相应的预先确定的经处理音频信号。然后,训练阶段1010继续将第一训练集输入到第二网络的步骤S1012;并且随后为步骤S1013、迭代地训练第二网络,以基于第一训练集中的音频信号和转换参数来预测相应的经处理音频信号。更具体地,对第二网络的训练可以基于至少一个第一损失函数,该至少一个第一损失函数指示预先确定的经处理音频信号与其相应的预测之间的差异。
此外,图10B示意性地示出了用于训练第一网络(即,控制器网络)的(第二)训练阶段1020的示例,并且从获得至少一个第二训练集作为输入的步骤S1021开始。第二训练集可以包括音频轨道的多个子集、以及对于每个子集而言,该子集中音频轨道的相应的预先确定的混音。然后训练阶段1020继续将第二训练集输入到第一网络的步骤S1022;并且随后为步骤S1023,迭代地训练第一网络以预测第二训练集中的子集的音频轨道的相应的混音。更具体地,对第一网络的训练可以基于至少一个第二损失函数,该至少一个第二损失函数指示音频轨道的预先确定的混音与其相应的预测之间的差异。在一些可能的示例中,音频轨道的预测混音可以是立体声混音。相应地,第二损失函数可以是立体声损失函数,并且可以以在左声道和右声道的重新分配下不变的方式来构造。在一些可能的实施方式中,立体声声道之间的这种不变性可以通过考虑对应于左声道和右声道的音频信号的总和来实现,而不是单独考虑那些音频信号。
值得注意的是,在自动混音可能是感兴趣的情况下,可以以多种方式来利用本公开。例如(但不作为限制),在一些用例中,用户可以上传分离的/乐器的轨道,或者那些可以从音乐源分离算法获得的轨道。接下来,可以进行自动混音过程,这将提供对用户生成内容的增高的质量,并成为产品的显著特征。另一潜在的机会可能是在录音工程师可以从所提出的方法提供的初始混音开始的情况下,其中可能包括进一步的空间混音能力。当然,如技术人员将理解和意识到的,可以利用任何其他合适的用例。还有一种另外的可能性是当用户提供(例如,上传)一段已经混音的音频信号时。然后,如果有某种源分离算法可以将混音分解成分开的轨道。然后,可以通过使用本公开的方法(再次)自动混音那些分开的轨道。结果将是基于混音信号的不同混音,并且可能包括在产生最终混合物之前的人工干预以改进自动混音结果。
在上文中,已经描述了训练和操作用于确定对输入音频样本的音频质量的指示的基于深度学习的系统的可能方法,以及这种系统的可能的实施方式。此外,本公开还涉及用于执行这些方法的装置。这种装置的示例可以包括处理器(例如,中央处理单元(CPU)、图形处理单元(GPU)、数字信号处理器(DSP)、一个或多个专用集成电路(ASIC)、一个或多个射频集成电路(RFIC)或这些的任意组合)和耦接到该处理器的存储器。处理器可以被适配成执行在整个公开中描述的方法的一些或所有步骤。
该装置可以是服务器计算机、客户端计算机、个人计算机(PC)、平板PC、机顶盒(STB)、个人数字助理(PDA)、蜂窝电话、智能手机、网络设备、网络路由器、交换机或网桥,或者能够执行指定该装置要采取的动作的指令(顺序或以其他方式)的任何机器。此外,本公开将涉及单独或联合执行指令以执行本文所讨论的方法中的任何一种或多种的装置的任何集合。
本公开还涉及一种包括指令的程序(例如,计算机程序),该指令在由处理器执行时使得处理器执行本文所描述的方法的一些或所有步骤。
此外,本公开涉及一种存储前述程序的计算机可读(或机器可读)存储介质。这里,术语“计算机可读存储介质”包括但不限于例如固态存储器、光学介质和磁性介质形式的数据储存库。
除非另外特别声明,否则从以下讨论中显而易见的是,应当理解,在整个公开讨论中,使用诸如“处理”、“运算”、“计算”、“确定”、“分析”等术语是指计算机或计算系统或类似电子计算设备的动作和/或处理,其将表示为物理(诸如电子)量的数据操纵和/或转换成类似地表示为物理量的其他数据。
以类似的方式,术语“处理器”可以指处理例如来自寄存器和/或存储器的电子数据以将该电子数据转换成例如可以存储在寄存器和/或存储器中的其他电子数据的任何设备或设备的一部分。“计算机”或“计算机器”或“计算平台”可以包括一个或多个处理器。
在一个示例实施例中,本文描述的方法可以由接受包含指令集的计算机可读(也称为机器可读)代码的一个或多个处理器来执行,该指令集在由处理器中的一个或多个执行时,执行本文描述的方法中的至少一个。包括能够执行指定要采取的动作的指令集(顺序或以其他方式)的任何处理器。因此,一个示例是包括一个或多个处理器的典型处理系统。每个处理器可以包括CPU、图形处理单元和可编程DSP单元中的一个或多个。该处理系统还可以包括存储器子系统,该存储器子系统包括主RAM和/或静态RAM和/或ROM。可以包括总线子系统,以用于组件之间的通信。该处理系统还可以是具有通过网络耦接的处理器的分布式处理系统。如果处理系统需要显示器,则可以包括这样的显示器,例如液晶显示器(LCD)或阴极射线管(CRT)显示器。如果需要手动数据输入,则处理系统还包括输入设备,诸如字母数字输入单元(诸如键盘)、点控制设备(诸如鼠标)等中的一个或多个。该处理系统还可以涵盖存储系统,诸如磁盘驱动单元。在一些配置中,该处理系统可以包括声音输出设备和网络接口设备。因此,存储器子系统包括携带计算机可读代码(例如,软件)的计算机可读载体介质,该计算机可读代码包括在由一个或多个处理器执行时使得执行本文描述的方法中的一个或多个的指令集。注意,当该方法包括多个元素(例如多个步骤)时,除非特别说明,否则不暗示这些元素的顺序。在计算机系统对其执行期间,软件可以驻留在硬盘中,或者也可以完全或至少部分地驻留在RAM内和/或处理器内。因此,存储器和处理器也构成携带计算机可读代码的计算机可读载体介质。此外,计算机可读载体介质可以形成或被包括在计算机程序产品中。
在可替代示例实施例中,一个或多个处理器作为独立设备操作,或者可以在联网部署中被连接(例如,联网到一个或多个其他处理器),该一个或多个处理器可以在服务器-用户网络环境中以服务器或用户机器的身份操作,或者在对等或分布式网络环境中作为对等机器操作。该一个或多个处理器可以形成个人计算机(PC)、平板PC、个人数字助理(PDA)、蜂窝电话、网络设备、网络路由器、交换机或网桥,或者能够执行指定该机器要采取的动作的指令集(顺序或以其他方式)的任何机器。
注意,术语“机器”还应被理解为包括单独或联合执行一个或多个指令集以执行本文讨论的方法中的任何一种或多种的任何机器集合。
因此,本文描述的每个方法的一个示例实施例是携带指令集的计算机可读载体介质的形式,例如用于在一个或多个处理器(例如是web服务器布置的一部分的一个或多个处理器)上执行的计算机程序。因此,如本领域技术人员将理解的,本公开的示例实施例可以体现为方法、诸如专用装置的装置、诸如数据处理系统的装置或者计算机可读载体介质,例如,计算机程序产品。计算机可读载体介质携带包括指令集的计算机可读代码,该指令集当在一个或多个处理器上执行时,使得一个或多个处理器实施方法。因此,本公开的各方面可以采取方法、完全硬件示例实施例、完全软件示例实施例或者结合软件和硬件方面的示例实施例的形式。此外,本公开可以采取携带介质中体现的计算机可读程序代码的载体介质(例如,计算机可读存储介质上的计算机程序产品)的形式。
还可以经由网络接口设备在网络上发送或接收该软件。虽然载体介质在示例实施例中是单个介质,但是术语“载体介质”应当被理解为包括存储一个或多个指令集的单个介质或多个介质(例如,集中式或分布式数据库、和/或相关联的高速缓存和服务器)。术语“载体介质”还应被理解为包括能够存储、编码或携带用于由处理器中的一个或多个执行并且使得该一个或多个处理器执行本公开的方法中的任何一种或多种方法的指令集的任何介质。载体介质可以采取多种形式,包括但不限于非易失性介质、易失性介质和传输介质。非易失性介质包括例如光盘、磁盘和磁光盘。易失性介质包括动态存储器,诸如主存储器。传输介质包括同轴电缆、铜线和光纤,包括包含成总线子系统的导线。传输介质也可以采用声波或光波的形式,诸如在无线电波和红外数据通信期间产生的那些声波或光波。例如,术语“载体介质”应相应地被理解为包括但不限于固态存储器、体现在光学和磁性介质中的计算机产品;承载可由一个或多个处理器中的至少一个处理器检测到的传播信号并表示在被执行时实施方法的指令集的介质;以及网络中承载可由一个或多个处理器中的至少一个处理器检测到的传播信号并表示指令集的传输介质。
将理解的是,在一个示例实施例中,所讨论的方法的步骤由执行存储在存储器中的指令(计算机可读代码)的处理(例如,计算机)系统的适当处理器(或多个处理器)来执行。还将理解的是,本公开不限于任何特定的实施方式或编程技术,并且可以使用用于实施本文描述的功能的任何适当的技术来实施本公开。本公开不限于任何特定的编程语言或操作系统。
在本公开中,对“一个示例实施例”、“一些示例实施例”或“示例实施例”的引用意味着结合示例实施例描述的特定特征、结构或特性包括在本公开的至少一个示例实施例中。因此,短语“在一个示例实施例中”、“在一些示例实施例中”或“在示例实施例中”在本公开中各处的出现不一定都指代同一示例实施例。此外,在一个或多个示例实施例中,特定的特征、结构或特性可以以任何合适的方式组合,如根据本公开将对于本领域普通技术人员来说是显而易见的。
如本文所用,除非另有说明,否则使用用于描述共同对象的序数形容词“第一”、“第二”、“第三”等仅仅指示相似对象的不同实例被引用,并不意味着如此描述的对象必须在时间上、空间上、排序上或以任何其他方式处于给定的顺序。
在权利要求和本文的描述中,术语“包括”、“包括有”或“其包括”中的任何一个都是开放的术语,意味着至少包括后面的元素/特征,但不排除其他元素/特征。因此,术语“包括”当在权利要求中使用时不应被解释为限于其后列出的模块或元素或步骤。例如,表述包括A和B的设备的范围不应限于设备仅由元素A和B组成。本文使用的术语“包含”或“包含有”或“其包含”中的任何一个也是开放的术语,也意味着至少包括该术语后面的元素/特征,但不排除其他元素/特征。因此,“包括”与“包含”同义。
应当理解,在对本公开的示例实施例的以上描述中,出于简化本公开和帮助理解一个或多个各种发明方面的目的,本公开的各种特征有时被组合在单个示例实施例、附图或其描述中。然而,这种公开方法不应被解释为反映了权利要求需要比每个权利要求中明确记载的特征更多的特征的意图。相反,如随附权利要求所反映的,发明方面在于少于单个前述公开的示例实施例的所有特征。因此,随说明书附上的权利要求由此被明确地并入到本说明书中,其中每个权利要求独立地作为本公开的独立示例实施例。
此外,尽管本文描述的一些示例实施例包括一些但不包括其他示例实施例中包括的其他特征,但是不同示例实施例的特征的组合意在落在本公开的范围内,并且形成不同的示例实施例,如本领域技术人员将理解的那样。例如,在随附的权利要求中,所要求保护的示例实施例中的任何一个都可以以任何组合使用。
在本文提供的描述中,阐述了许多具体细节。然而,应当理解,本公开的示例实施例可以在没有这些具体细节的情况下实施。在其他情况下,没有详细示出公知的方法、结构和技术,以免模糊对此描述的理解。
因此,尽管已经描述了被认为是本公开的最优模式,但是本领域的技术人员将认识到,在不脱离本公开的精神的情况下,可以对本公开进行其他和进一步的修改,并且旨在要求所有这些改变和修改都落入本公开的范围内。例如,上面给出的任何公式仅仅代表可以使用的程序。可以从框图中添加或删除功能,并且可以在功能块之间互换操作。在本公开的范围内,可以向所描述的方法添加或删除步骤。
上文已经关于用于确定对音频输入的音频质量的指示的方法和系统描述了本公开的枚举的示例实施例(“EEE”)。因此,本发明的实施例可以涉及下面枚举的示例中的一个或多个:
EEE 1.一种用于在波形域中自动多轨道混音的系统,该系统包括:
控制器,该控制器被配置为使用神经网络来分析多个输入波形,以确定用于多个转换网络和路由器的至少一个参数;
第一转换网络,该第一转换网络被配置为基于该至少一个参数生成每个输入波形的立体声输出;
路由器,该路由器被配置为生成多个输入波形的立体声输出的混音,其中该路由器被配置为将立体声输出输入到多个总线中;以及
第二转换网络,该第二转换网络被配置为从多个总线的输出生成最终立体声输出。
EEE 2.一种用于基于多个输入音频轨道执行自动多轨道混音的基于深度学习的系统,其中该系统包括:
基于深度学习的第一网络的一个或多个实例;以及
基于深度学习的第二网络的一个或多个实例,
其中,第一网络被配置为基于输入音频轨道生成用于自动多轨道混音中使用的参数;并且
其中,第二网络被配置为基于该参数将信号处理和至少一个混音增益应用于输入音频轨道,以用于生成音频轨道的输出混音。
EEE 3.根据EEE 2所述的系统,其中,输出混音是立体声混音。
EEE 4.根据EEE 2或3所述的系统,其中,第一网络和第二网络被分别训练,并且其中基于预训练的第二网络来训练第一网络。
EEE 5.根据前述EEE中任一项所述的系统,其中,第一网络的实例的数量和/或第二网络的实例的数量是根据输入音频轨道的数量确定的。
EEE 6.根据前述EEE中任一项所述的系统,其中,第一网络包括:
第一级;以及
第二级;并且
其中,由第一网络生成参数包括:
由第一级将输入音频轨道中的每一个映射到相应的特征空间表示中;以及
由第二级基于特征空间表示生成用于由第二网络使用的参数。
EEE 7.根据EEE 6所述的系统,其中,由第二级生成用于由第二网络使用的参数包括:
基于输入音频轨道的特征空间表示生成组合表示;以及
基于组合表示生成用于由第二网络使用的参数。
EEE 8.根据EEE 7所述的系统,其中,生成组合表示涉及对输入音频轨道的特征空间表示的平均处理。
EEE 9.根据前述EEE中任一项所述的系统,其中,第一网络是基于至少一个损失函数来训练的,该至少一个损失函数指示音频轨道的预先确定的混音与对该预先确定的混音的相应的预测之间的差异。
EEE 10.根据前述EEE中任一项所述的系统,其中,第一网络通过以下操作被训练:
获得至少一个第一训练集作为输入,其中第一训练集包括音频轨道的多个子集、以及对于每个子集,该子集中的音频轨道的相应的预先确定的混音;
将第一训练集输入到第一网络;以及
迭代地训练第一网络以预测训练集中的该子集的音频轨道的相应的混音,
其中,所述训练是基于至少一个第一损失函数的,该至少一个第一损失函数指示音频轨道的预先确定的混音与对该预先确定的混音的相应的预测之间的差异。
EEE 11.根据EEE 10所述的系统,其中,音频轨道的预测混音是立体声预测混音,并且其中第一损失函数是立体声损失函数,并且以该第一损失函数在左声道和右声道的重新分配下不变的方式构造。
EEE 12.根据EEE 10或11所述的系统,其中,训练第一网络以预测音频轨道的预测混音包括,对于音频轨道的每个子集:
由第一网络根据音频轨道的该子集生成多个预测参数;
将预测参数馈送到第二网络;以及
由第二网络基于预测参数和音频轨道的该子集生成对音频轨道的子集的混音的预测。
EEE 13.根据前述EEE中任一项所述的系统,其中,第二网络的实例的数量等于输入音频轨道的数量,其中第二网络被配置为基于参数中的至少部分参数来对相应的输入音频轨道执行信号处理,以生成相应的经处理输出,其中经处理输出包括左声道和右声道,并且其中输出混音是基于经处理输出生成的。
EEE 14.根据EEE 13所述的系统,其中,该系统还包括路由组件,其中路由组件被配置为基于经处理输出生成多个中间立体声混音,并且其中输出混音是基于中间混音生成的。
EEE 15.根据EEE 14所述的系统,其中,第一网络被配置为进一步生成用于路由组件的参数。
EEE 16.根据EEE 14或15所述的系统,其中,第二网络的一个或多个实例是第二网络的一个或多个实例的第一集合,其中该系统还包括第二网络的一个或多个实例的第二集合,并且其中第二网络的一个或多个实例的第二集合中的实例的数量是根据中间混音的数量确定的。
EEE 17.根据EEE 16所述的系统,其中,第一网络被配置为进一步生成用于第二网络的实例的第二集合的参数。
EEE 18.根据EEE 16或17所述的系统,其中,该系统被配置为基于中间混音进一步生成左主混音和右主混音,其中该系统还包括第二网络的实例对,并且其中第二网络的实例对被配置为基于左主混音和右主混音生成输出混音。
EEE 19.根据EEE 18所述的系统,其中,第一网络被配置为进一步生成用于第二网络的实例对的参数。
EEE 20.根据前述EEE中任一项所述的系统,其中,第二网络通过以下操作被训练:
获得至少一个第二训练集作为输入,其中第二训练集包括多个音频信号、以及对于每个音频信号,用于该音频信号的信号处理的至少一个转换参数和相应的预先确定的经处理音频信号;
将第二训练集输入到第二网络;以及
基于音频信号和转换参数迭代地训练第二网络以预测相应的经处理音频信号,
其中,训练是基于至少一个第二损失函数的,该至少一个第二损失函数指示预先确定的经处理音频信号与对该预先确定的经处理音频信号的相应的预测之间的差异。
EEE 21.根据前述EEE中任一项所述的系统,其中,由第一网络生成的参数是人类和/或机器可解释的参数。
EEE 22.根据前述EEE中任一项所述的系统,其中,由第一网络生成的参数包括控制参数和/或平移参数。
EEE 23.根据前述EEE中任一项所述的系统,其中,第一网络和/或第二网络包括至少一个神经网络,该神经网络包括线性层和/或多层感知器MLP。
EEE 24.根据EEE 23所述的系统,其中,该神经网络是诸如时间卷积网络TCN的卷积神经网络CNN、或Wave-U-Net、递归神经网络RNN、或包括注意层或转换器。
EEE 25.一种用于基于多个输入音频轨道执行自动多轨道混音的基于深度学习的系统,该系统包括:
转换网络,
其中,转换网络被配置为基于一个或多个参数将信号处理和至少一个混音增益应用于输入音频轨道,以用于生成音频轨道的输出混音。
EEE 26.根据EEE 25所述的系统,其中,参数是人类可解释的参数。
EEE 27.根据前述EEE中任一项所述的系统,其中,该系统包括第一网络的权重共享配置下的多个实例;和/或第二网络的权重共享配置下的多个实例。
EEE 28.一种操作用于基于多个输入音频轨道执行自动多轨道混音的基于深度学习的系统的方法,其中该系统包括基于深度学习的第一网络的一个或多个实例和基于深度学习的第二网络的一个或多个实例,该方法包括:
由第一网络基于输入音频轨道生成用于在自动多轨道混音中使用的参数;以及
由第二网络基于该参数将信号处理和至少一个混音增益应用于输入音频轨道,以用于生成音频轨道的输出混音。
EEE 29.一种训练用于基于多个输入音频轨道执行自动多轨道混音的基于深度学习的系统的方法,其中该系统包括基于深度学习的第一网络的一个或多个实例和基于深度学习的第二网络的一个或多个实例,该方法包括:
用于训练第二网络的训练阶段,其中用于训练第二网络的训练阶段包括:
获得至少一个第一训练集作为输入,其中第一训练集包括多个音频信号、以及对于每个音频信号,用于该音频信号的信号处理的至少一个转换参数和相应的预先确定的经处理音频信号;
将第一训练集输入到第二网络;以及
基于第一训练集中的音频信号和转换参数迭代地训练第二网络以预测相应的经处理音频信号,
其中,对第二网络的训练是基于至少一个第一损失函数的,该至少一个第一损失函数指示预先确定的经处理音频信号与对该预先确定的经处理音频信号的相应的预测之间的差异。
EEE 30.根据EEE 29所述的方法,其中,该方法还包括:
用于训练第一网络的训练阶段,其中用于训练第一网络的训练阶段包括:
获得至少一个第二训练集作为输入,其中第二训练集包括音频轨道的多个子集、以及对于每个子集,该子集中的音频轨道的相应的预先确定的混音;
将第二训练集输入到第一网络;以及
迭代地训练第一网络以预测第二训练集中的子集的音频轨道的相应的混音,其中,对第一网络的训练是基于至少一个第二损失函数的,该至少一个第二损失函数指示音频轨道的预先确定的混音与对该预先确定的混音的相应的预测之间的差异。
EEE 31.根据EEE 30所述的方法,其中,用于训练第一网络的训练阶段在用于训练第二网络的训练阶段已经完成之后开始。
EEE 32.一种包括指令的程序,该指令在由处理器执行使得处理器执行根据EEE 1和EEE 28至31中任一项所述的方法的步骤。
EEE 33.一种存储根据EEE 32所述的程序的计算机可读存储介质。
EEE 34.一种装置,包括处理器和耦接到该处理器的存储器,其中该处理器被适配为使得该装置执行根据EEE 1和EEE 28至31中任一项所述的方法的步骤。

Claims (33)

1.一种用于基于多个输入音频轨道执行自动多轨道混音的基于深度学习的系统,其中,所述系统包括:
基于深度学习的第一网络的一个或多个实例;和
基于深度学习的第二网络的一个或多个实例,
其中,所述第一网络被配置为基于所述输入音频轨道生成用于在所述自动多轨道混音中使用的参数;并且
其中,所述第二网络被配置为基于所述参数将信号处理和至少一个混音增益应用于所述输入音频轨道,以用于生成所述音频轨道的输出混音。
2.根据权利要求1所述的系统,其中,所述输出混音是立体声混音。
3.根据权利要求1或2所述的系统,其中,所述第一网络和所述第二网络被分开训练,并且其中,基于预训练的第二网络来训练所述第一网络。
4.根据前述权利要求中任一项所述的系统,其中,所述第一网络的实例的数量和/或所述第二网络的实例的数量是根据所述输入音频轨道的数量确定的。
5.根据前述权利要求中任一项所述的系统,其中,所述第一网络包括:
第一级;和
第二级;并且
其中,由所述第一网络生成所述参数包括:
由所述第一级将所述输入音频轨道中的每一个映射到相应的特征空间表示中;以及
由所述第二级基于所述特征空间表示生成用于由所述第二网络使用的参数。
6.根据权利要求5所述的系统,其中,由所述第二级生成用于由所述第二网络使用的所述参数包括:
基于所述输入音频轨道的所述特征空间表示生成组合表示;以及
基于所述组合表示生成用于由所述第二网络使用的参数。
7.根据权利要求6所述的系统,其中,生成所述组合表示涉及对所述输入音频轨道的所述特征空间表示的平均处理。
8.根据前述权利要求中任一项所述的系统,其中,所述第一网络是基于至少一个损失函数来训练的,所述至少一个损失函数指示音频轨道的预先确定的混音与对所述预先确定的混音的相应的预测之间的差异。
9.根据前述权利要求中任一项所述的系统,其中,所述第一网络通过以下操作被训练:
获得至少一个第一训练集作为输入,其中,所述第一训练集包括音频轨道的多个子集、以及对于每个子集,所述子集中的所述音频轨道的相应的预先确定的混音;
将所述第一训练集输入到所述第一网络;以及
迭代地训练所述第一网络以预测所述训练集中的所述子集的所述音频轨道的相应的混音,
其中,训练是基于至少一个第一损失函数的,所述至少一个第一损失函数指示所述音频轨道的所述预先确定的混音与对所述预先确定的混音的相应的预测之间的差异。
10.根据权利要求9所述的系统,其中,所述音频轨道的预测混音是立体声混音,并且其中,所述第一损失函数是立体声损失函数,并且以所述第一损失函数在左声道和右声道的重新分配下不变的方式构造。
11.根据权利要求9或10所述的系统,其中,训练所述第一网络以预测所述音频轨道的所述混音包括,对于音频轨道的每个子集:
由所述第一网络根据音频轨道的所述子集生成多个预测参数;
将所述预测参数馈送到所述第二网络;以及
由所述第二网络基于所述预测参数和音频轨道的所述子集生成对音频轨道的所述子集的所述混音的预测。
12.根据前述权利要求中任一项所述的系统,其中,所述第二网络的实例的数量等于所述输入音频轨道的数量,其中,所述第二网络被配置为基于所述参数的至少一部分来对相应的输入音频轨道执行信号处理,以生成相应的经处理输出,其中,所述经处理输出包括左声道和右声道,并且其中,所述输出混音是基于所述经处理输出生成的。
13.根据权利要求12所述的系统,其中,所述系统还包括路由组件,其中,所述路由组件被配置为基于所述经处理输出生成多个中间立体声混音,并且其中,所述输出混音是基于所述中间混音生成的。
14.根据权利要求13所述的系统,其中,所述第一网络被配置为进一步生成用于所述路由组件的参数。
15.根据权利要求13或14所述的系统,其中,所述第二网络的所述一个或多个实例是所述第二网络的一个或多个实例的第一集合,其中,所述系统还包括所述第二网络的一个或多个实例的第二集合,并且其中,所述第二网络的一个或多个实例的所述第二集合中的实例的数量是根据所述中间混音的数量确定的。
16.根据权利要求15所述的系统,其中,所述第一网络被配置为进一步生成用于所述第二网络的实例的所述第二集合的参数。
17.根据权利要求15或16所述的系统,其中,所述系统被配置为基于所述中间混音进一步生成左主混音和右主混音,其中,所述系统还包括所述第二网络的实例对,并且其中,所述第二网络的实例对被配置为基于所述左主混音和所述右主混音生成所述输出混音。
18.根据权利要求17所述的系统,其中,所述第一网络被配置为进一步生成用于所述第二网络的实例对的参数。
19.根据前述权利要求中任一项所述的系统,其中,所述第二网络通过以下操作被训练:
获得至少一个第二训练集作为输入,其中,所述第二训练集包括多个音频信号、以及对于每个音频信号,用于所述音频信号的信号处理的至少一个转换参数和相应的预先确定的经处理音频信号;
将所述第二训练集输入到所述第二网络;以及
基于所述音频信号和所述转换参数迭代地训练所述第二网络以预测相应的经处理音频信号,
其中,训练是基于至少一个第二损失函数的,所述至少一个第二损失函数指示所述预先确定的经处理音频信号与对所述预先确定的经处理音频信号的相应的预测之间的差异。
20.根据前述权利要求中任一项所述的系统,其中,由所述第一网络生成的所述参数是人类和/或机器可解释的参数。
21.根据前述权利要求中任一项所述的系统,其中,由所述第一网络生成的所述参数包括控制参数和/或平移参数。
22.根据前述权利要求中任一项所述的系统,其中,所述第一网络和/或所述第二网络包括至少一个神经网络,所述神经网络包括线性层和/或多层感知器MLP。
23.根据权利要求22所述的系统,其中,所述神经网络是卷积神经网络CNN。
24.一种用于基于多个输入音频轨道执行自动多轨道混音的基于深度学习的系统,所述系统包括:
转换网络,
其中,所述转换网络被配置为基于一个或多个参数将信号处理和至少一个混音增益应用于所述输入音频轨道,以用于生成所述音频轨道的输出混音。
25.根据权利要求24所述的系统,其中,所述参数是人类可解释的参数。
26.根据前述权利要求中任一项所述的系统,其中,所述系统包括所述第一网络的权重共享配置下的多个实例;和/或所述第二网络的权重共享配置下的多个实例。
27.一种操作用于基于多个输入音频轨道执行自动多轨道混音的基于深度学习的系统的方法,其中,所述系统包括基于深度学习的第一网络的一个或多个实例和基于深度学习的第二网络的一个或多个实例,所述方法包括:
由所述第一网络基于所述输入音频轨道生成用于在所述自动多轨道混音中使用的参数;以及
由所述第二网络基于所述参数将信号处理和至少一个混音增益应用于所述输入音频轨道,以用于生成所述音频轨道的输出混音。
28.一种训练用于基于多个输入音频轨道执行自动多轨道混音的基于深度学习的系统的方法,其中,所述系统包括基于深度学习的第一网络的一个或多个实例和基于深度学习的第二网络的一个或多个实例,所述方法包括:
用于训练所述第二网络的训练阶段,其中,用于训练所述第二网络的所述训练阶段包括:
获得至少一个第一训练集作为输入,其中,所述第一训练集包括多个音频信号、以及对于每个音频信号,用于所述音频信号的信号处理的至少一个转换参数和相应的预先确定的经处理音频信号;
将所述第一训练集输入到所述第二网络;以及
基于所述第一训练集中的所述音频信号和所述转换参数来迭代地训练所述第二网络以预测相应的经处理音频信号,
其中,对所述第二网络的训练是基于至少一个第一损失函数的,所述至少一个第一损失函数指示所述预先确定的经处理音频信号与对所述预先确定的经处理音频信号的相应的预测之间的差异。
29.根据权利要求28所述的方法,其中,所述方法还包括:
用于训练所述第一网络的训练阶段,其中,用于训练所述第一网络的所述训练阶段包括:
获得至少一个第二训练集作为输入,其中,所述第二训练集包括音频轨道的多个子集、以及对于每个子集,所述子集中的所述音频轨道的相应的预先确定的混音;
将所述第二训练集输入到所述第一网络;以及
迭代地训练所述第一网络以预测所述第二训练集中的所述子集的所述音频轨道的相应的混音,
其中,对所述第一网络的训练是基于至少一个第二损失函数的,所述至少一个第二损失函数指示所述音频轨道的所述预先确定的混音与对所述预先确定的混音的相应的预测之间的差异。
30.根据权利要求29所述的方法,其中,用于训练所述第一网络的所述训练阶段在用于训练所述第二网络的所述训练阶段已经完成之后开始。
31.一种包括指令的程序,所述指令在由处理器执行时使得所述处理器执行根据权利要求27至30中任一项所述的方法的步骤。
32.一种存储根据权利要求31所述的程序的计算机可读存储介质。
33.一种装置,包括处理器和耦接到所述处理器的存储器,其中,所述处理器被适配成使所述装置执行根据权利要求27至30中任一项所述的方法的步骤。
CN202180058531.4A 2020-06-22 2021-06-16 用于自动多轨道混音的系统 Pending CN116057623A (zh)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
ESP202030604 2020-06-22
ES202030604 2020-06-22
US202063072762P 2020-08-31 2020-08-31
US63/072,762 2020-08-31
US202063092310P 2020-10-15 2020-10-15
US63/092,310 2020-10-15
EP20203276.9 2020-10-22
EP20203276 2020-10-22
PCT/EP2021/066206 WO2021259725A1 (en) 2020-06-22 2021-06-16 System for automated multitrack mixing

Publications (1)

Publication Number Publication Date
CN116057623A true CN116057623A (zh) 2023-05-02

Family

ID=76355527

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180058531.4A Pending CN116057623A (zh) 2020-06-22 2021-06-16 用于自动多轨道混音的系统

Country Status (5)

Country Link
US (1) US20230352058A1 (zh)
EP (1) EP4169020A1 (zh)
JP (1) JP2023534902A (zh)
CN (1) CN116057623A (zh)
WO (1) WO2021259725A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11581970B2 (en) * 2021-04-21 2023-02-14 Lucasfilm Entertainment Company Ltd. LLC System for deliverables versioning in audio mastering
JP2024006206A (ja) * 2022-07-01 2024-01-17 ヤマハ株式会社 音信号処理方法及び音信号処理装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6453314B2 (ja) * 2013-05-17 2019-01-16 ハーマン・インターナショナル・インダストリーズ・リミテッド オーディオ・ミキサー・システム

Also Published As

Publication number Publication date
US20230352058A1 (en) 2023-11-02
EP4169020A1 (en) 2023-04-26
JP2023534902A (ja) 2023-08-15
WO2021259725A1 (en) 2021-12-30

Similar Documents

Publication Publication Date Title
US11966660B2 (en) Method, system and artificial neural network
EP3942551B1 (en) Post-processing of audio recordings
CN116057623A (zh) 用于自动多轨道混音的系统
KR20210041567A (ko) 신경망을 이용한 하이브리드 오디오 합성
CN105229947A (zh) 音频混合器系统
Chen et al. Automatic DJ transitions with differentiable audio effects and generative adversarial networks
Andreu et al. Neural synthesis of sound effects using flow-based deep generative models
TW202238461A (zh) 資料生成裝置、資料生成方法及程式
Ibnyahya et al. A method for matching room impulse responses with feedback delay networks
US8600068B2 (en) Systems and methods for inducing effects in a signal
US20230130844A1 (en) Audio Source Separation Processing Workflow Systems and Methods
KR20240125562A (ko) 오디오 소스 분리 시스템들 및 방법들
Jillings et al. Automatic masking reduction in balance mixes using evolutionary computing
Geroulanos et al. Emotion recognition in music using deep neural networks
Mitcheltree et al. White-box Audio VST Effect Programming
Clemens et al. A Case-Based Reasoning Approach to Plugin Parameter Selection in Vocal Audio Production
US11763826B2 (en) Audio source separation processing pipeline systems and methods
US20230282188A1 (en) Beatboxing transcription
US20240022868A1 (en) Method and apparatus for generating an intermediate audio format from an input multichannel audio signal
Bognár Audio effect modeling with deep learning methods
Jillings Automating the Production of the Balance Mix in Music Production
Ali et al. A Case-Based Reasoning Approach to Plugin Parameter Selection in Vocal Audio Production
Grant Style Transfer for Non-differentiable Audio Effects
JP2024540243A (ja) オーディオ源分離システムおよび方法
JP2024540239A (ja) オーディオ源分離処理ワークフローシステムおよび方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination