CN112767964A - 电子装置、方法和存储介质 - Google Patents

电子装置、方法和存储介质 Download PDF

Info

Publication number
CN112767964A
CN112767964A CN202011128667.1A CN202011128667A CN112767964A CN 112767964 A CN112767964 A CN 112767964A CN 202011128667 A CN202011128667 A CN 202011128667A CN 112767964 A CN112767964 A CN 112767964A
Authority
CN
China
Prior art keywords
equalization
audio
neural network
electronic device
deep neural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011128667.1A
Other languages
English (en)
Inventor
斯特凡·乌利希
迈克尔·埃嫩克尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN112767964A publication Critical patent/CN112767964A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/055Filters for musical processing or musical effects; Filter responses, filter architecture, filter coefficients or control parameters therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/311Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation

Abstract

本公开涉及电子装置、方法和存储介质。电子装置,包括电路,电路被配置为:将包括多个源的音频混合信号输入到深度神经网络,以获得均衡参数;并且基于从深度神经网络获得的均衡参数对音频混合信号执行音频均衡,以获得分离源。

Description

电子装置、方法和存储介质
技术领域
本公开总体上涉及音频处理领域,尤其涉及用于音乐源分离(music sourceseparation)的装置、方法和计算机程序。
背景技术
一般来说,音乐源分离(MSS)是指将音乐分离成单独乐器音轨。
传统上,通过对音频信号应用短时傅立叶变换(STFT),在频域中执行音乐源分离。例如,Uhlich、Stefan&Giron、Franck&Mitsufuji、Yuki在“Deep neural network basedinstrument extraction from music”,2015,10.1109/ICASSP.2015.7178348中公开了通过使用深度神经网络从音乐中提取乐器。更进一步,Uhlich、Stefan&Porcu、Marcello&Giron、Franck&Enenkl、Michael&Kemp、Thomas&Takahashi、Naoya&Mitsufuji、Yuki在“Improving music source separation based on deep neural networks through dataaugmentation and network blending”,2017,10.1109/ICASSP.2017.7952158中描述了用于该任务的两种不同的深度神经网络架构,即前馈架构和递归架构。
上述方法依赖于STFT的逐块处理,这引入了延迟。例如,根据上述方法选择的STFT帧大小的典型值是2048个样本,这对应于在44.1kHz的采样率下2048/44100s=46.44ms的算法延迟。
描述了依赖于深度神经网络(DNN)的音乐源分离的时域方法。例如,Stoller、Daniel等人的“Wave-U-Net:A Multi-Scale Neural Network for End-to-End AudioSource Separation”ISMIR(2018)研究了时域中的端到端源分离,这允许对相位信息进行建模,并避免固定的频谱变换。此外,Venkataramani、Shrikant&Smaragdis在“End-to-endSource Separation with Adaptive Front-Ends”,2017,巴黎,提出了一种自动编码器神经网络,它可以充当短时前端转换的等同物。然而,这些方法需要高的计算复杂度。
尽管存在用于音乐源分离处理的技术,但是通常希望改进用于音乐源分离的装置和方法。
发明内容
根据第一方面,本公开提供了包括电路的电子装置,电路被配置为:将包括多个源的音频混合信号输入到深度神经网络,以获得均衡参数;并且基于从深度神经网络获得的均衡参数对音频混合信号执行音频均衡,以获得分离源。
根据第二方面,本公开提供了一种方法,包括:将包括多个源的音频混合信号输入到深度神经网络,以获得均衡参数;并且基于从深度神经网络获得的均衡参数对音频混合信号执行音频均衡,以获得分离源。
根据第三方面,本公开提供了包括指令的计算机程序,指令在处理器上被执行时使得处理器:将包括多个源的音频混合信号输入到深度神经网络,以获得均衡参数;并且基于从深度神经网络获得的均衡参数对音频混合信号执行音频均衡,以获得分离源。
从属权利要求、以下描述和附图阐述了进一步的方面。
附图说明
参考附图通过示例来解释实施例,其中:
图1示出了使用深度神经网络2(DNN)的时域音乐源分离(MSS)的过程,该深度神经网络2控制参数均衡器3(EQ)来执行音乐源分离;
图2更详细地示出了由图1的参数均衡器3(EQ)执行的过程;
图3示出了人工神经网络的过程,本文是训练的DNN,该DNN针对每个参数滤波器i估计增益参数gi(x(n);θ)、带宽参数bwi(x(n);θ)以及频率参数fi(x(n);θ),用于执行混合音频信号的参数均衡;
图4示出了人工神经网络的过程,本文是训练的DNN,该DNN用于估计增益参数gi,,用于执行混合音频信号的图形均衡;
图5描述了被配置为控制音乐源分离过程的DNN的实施例,DNN用长短期记忆(LSTM)层实现;
图6更详细地示出了由图5的LSTM 51执行的过程;
图7示出了可视化用于从包括多个源(或乐器)的混合信号中分离特定源的方法的流程图;
图8示出了可视化用于训练深度递归神经网络(即LSTM)以估计预定均衡参数的方法的流程图;以及
图9示意性地描述了电子装置的实施例,该电子装置可以实现基于参数/图形EQ来估计目标乐器的过程。
具体实施方式
在参考图1至图9详细描述实施例之前,进行一般性解释。
实施例公开了电子装置,包括电路,该电路被配置为:将包括多个源的音频混合信号输入到深度神经网络,以获得均衡参数;并且基于从深度神经网络获得的均衡参数对音频混合信号执行音频均衡,以获得分离源。
电子装置的电路可以包括处理器(CPU)、存储器(RAM、ROM等)、存储器和/或存储装置、接口、音频接收器、上混系统等。电路可以包括或者可以连接到输入装置(鼠标、键盘、相机等)、输出装置(显示器(例如,液晶、(有机)发光二极管等))、扬声器等、(无线)接口等,如电子装置(计算机、智能手机等)通常所知的那样。该电路也可以是单个装置、多个装置、芯片组等。此外,该电路可以实现深度神经网络(DNN),并且可以对接收的音频输入信号执行信号分析,以估计至少一个最佳信号参数。
音频混合信号可以是任何类型的音频信号,例如,包括多个声源的声音信号等。它可以具有模拟信号、数字信号的形式,可以来源于录音机、光盘、数字视盘等,可以是数据文件,例如,波形文件、mp3文件等,并且本公开不限于输入音频内容的特定格式。输入音频内容例如可以是具有第一声道输入音频信号和第二声道输入音频信号的立体声音频信号,但本公开不限于具有两个音频声道的输入音频内容。
均衡参数可以是最佳信号参数,例如,与音频混合信号相关的任何种类的参数等。最佳信号参数可以是例如增益参数、带宽参数、频率参数等。最佳信号参数可以通过使用训练的深度神经网络(DNN)来估计,例如,训练的递归神经网络(RNN)、长短期记忆网络(LSTM)、门控递归单元(GRU)、卷积神经网络(CNN)等,深度神经网络被训练来分析音频混合输入信号。深度神经网络可以例如用软件来实现,或者用硬件来实现,例如,通过现场可编程门阵列(FPGA)等,使用如以下实施例中所描述的为DNN的特定实现而定制的专用集成电路(ASIC)。
执行音频均衡可以包括使用从训练的神经网络估计的最佳信号参数来执行音频混合输入信号的滤波。均衡过程可以是时域过程,并且也可以是目标乐器的估计过程,即混合信号的分离源,例如,用于估计人声、或鼓、或低音等。可以使用例如在以下实施例中描述的算法来实现音频均衡过程。
可以例如通过图形均衡器、参数均衡器等来实现音频均衡。
在一些实施例中,深度神经网络可以被训练来估计音频源分离的最佳参数。最佳参数可以是通过分析音频混合信号来估计的均衡参数等,并且可以估计期望的均衡设置,例如,估计最佳预定参数。可以例如通过训练的深度神经网络或训练的递归神经网络(例如,长短期记忆模型)来执行信号分析。
在一些实施例中,分离源可以是人声。分离源也可以是任何其他种类的分离源,例如,鼓、低音等。分离源可以是分离源的混合,例如,在一些实施例中,分离源可以是与压制的人声的混合。
在一些实施例中,执行音频均衡可以包括执行参数均衡,或者可以包括执行图形均衡(graphic equalization,图像均衡)等。可以例如使用例如在以下实施例中描述的算法来实现参数均衡或实现图形均衡。音频均衡可以由具有并行结构或级联结构的图形均衡器或参数均衡器来执行。对于具有并行结构的图形音频均衡器,控制增益参数就足够了。在级联结构中,增益参数影响所有滤波器系数,因此对于级联结构,可能需要随着增益的每次变化而重新计算所有系数。
在一些实施例中,至少一个估计的最佳信号参数可以是增益参数、或频率参数、或带宽参数等。
在一些实施例中,执行参数均衡可以包括基于预定义的固定参数对接收的音频输入信号执行带通滤波,例如,峰值均衡。对接收到的音频输入信号执行带通滤波可以例如使用例如在以下实施例中描述的算法来实现。或者,带通滤波可以是例如带峰值滤波或倾斜滤波。此外,应用编程接口(API)可以允许设置滤波器组中的频带数量。
在一些实施例中,执行参数均衡可以进一步包括在多个带通滤波器上分配接收的音频输入信号,以获得多个带通滤波信号。
在一些实施例中,执行参数均衡还可以包括将每个带通滤波信号与相应的增益参数相乘,以获得多个放大信号。
在一些实施例中,执行图形均衡可以包括执行带陷波滤波或带峰值滤波或倾斜滤波等。
一些实施例涉及一种方法,该方法可以由本文描述的电子装置或任何其他电子装置、处理器或其他计算装置等来执行。该方法包括将包括多个源的音频混合信号输入到深度神经网络,以获得均衡参数,并且基于从深度神经网络获得的均衡参数对音频混合信号执行音频均衡,以获得分离的源。
一些实施例涉及包括指令的计算机程序,该指令在处理器上被执行时使得处理器将包括多个源的音频混合信号输入到深度神经网络,以获得均衡参数,并且基于从深度神经网络获得的均衡参数对音频混合信号执行音频均衡,以获得分离的源。
现在参考附图描述实施例。
图1示出了使用控制参数均衡器3(EQ)的深度神经网络2(DNN)的时域音乐源分离(MSS)的过程。混合信号x(n)输入到DNN 2。混合信号x(n)是例如从音频接口获得的时域立体声音频信号,并且包含多个音频源(也称为“乐器”),例如,鼓、低音、人声等。深度神经网络2被训练为估计用于控制参数均衡器3(EQ)的最佳参数,以从混合信号x(n)中分离特定的目标乐器,例如,人声。DNN 2分析混合信号x(n)并估计用于执行混合信号x(n)的参数均衡的预定均衡参数的最佳值,即增益参数gi(x(n);θ)(也称为“增益”)、带宽参数bwi(x(n);θ)和频率参数fi(x(n);θ)。此处,θ表示DNN 2的权重,并且因此表示由网络配置和输入混合产生的均衡参数的依赖性。索引i表示参数均衡器3(EQ)的特定滤波器,如下面参考图2更详细描述的。
在传输到DNN 2的同时,混合信号x(n)也传输到参数均衡器3。参数均衡器3基于从DNN 2获得的均衡参数gi(x(n);θ)、bwi(x(n);θ)以及fi(x(n);θ),对混合信号x(n)进行滤波,以获得目标乐器
Figure BDA0002733742260000061
的估计(在下文中称为“分离的源”),该估计是立体声音频信号,其反映了DNN被训练为从混合信号x(n)中提取的乐器,在此处例如是人声。
图1中的DNN 2可以是针对每个输入样本产生输出或在处理样本块之后产生输出的例如递归长短期记忆(LSTM)模型、门控递归单元(GRU)、卷积神经网络(CNN)或任何其他类型的神经网络。除了通过参数均衡器3改变幅度之外,还可以使用群延迟均衡器(group-delay equalizer),其改变特定频带的群延迟。群延迟是滤波器对窄带信号的信号延迟。例如,群延迟均衡可用于减少信号的混响/向信号添加混响。
图2更详细地示出了由图1的参数均衡器3执行的过程。参数均衡器3包括多个带通滤波器31-1至31-N,本文是并行双二阶滤波器(或“双二阶”滤波器)。混合信号x(n)传输到多个带通滤波器31-1至31-N中的每一个。带通滤波器31-1至31-N中的每一个通过由相应的带宽参数bwi(x(n);θ)和频率参数fi(x(n);θ)限定的混合信号x(n)的某些频率(其中,索引i∈{1,...,N}表示一组带通滤波器31-1至31-N中的特定带通滤波器)。根据相应的增益参数gi(x(n);θ)放大从多个并行带通滤波器31-1至31-N获得的每个带通滤波信号,以获得放大信号。混合器33混合多个放大的信号,以获得目标乐器
Figure BDA0002733742260000071
的估计。因此,带通滤波器31-1至31-N在DNN(图1中的2)的控制下对混合信号x(n)进行滤波,以便隔离出预定的频率范围,该频率范围与期望的目标乐器匹配,此处是人声。
在图2中,参数均衡器3包括多个带通滤波器。或者,参数均衡器可以通过例如带陷滤波器、带峰值滤波器、倾斜滤波器的级联结构来实现。
图3示出了人工神经网络的过程,本文是训练的DNN,该DNN针对每个参数滤波器i估计增益参数gi(x(n);θ)、带宽参数bwi(x(n);θ)和频率参数fi(x(n);θ),用于执行混合音频信号的参数均衡,如图1中详细描述的。
在连续时间输入信号x(t)和输出y(t)的情况下,传递函数H(s)是输入
Figure BDA0002733742260000072
的拉普拉斯变换到输出
Figure BDA0002733742260000073
Figure BDA0002733742260000074
的拉普拉斯变换的线性映射,即,
Figure BDA0002733742260000075
数字双二阶滤波器(或离散时间系统)的传递函数用z域表示,而如上所述,连续时间系统的传递函数用s域表示。因此,输入信号和输出之间的关系使用以下变换等式从s域转换到z域:
Figure BDA0002733742260000076
其中,T是采样周期,以及1/T是采样频率。
在上面图2中描述的实施例的信号处理中使用的数字双二阶滤波器(或“双二阶”滤波器)是二阶递归线性滤波器,包含两个极点和两个零点。双二阶方面是指滤波器的传递函数是两个二次函数的比值。该双二阶传递函数由下式给出:
Figure BDA0002733742260000077
其中,[b0,b1,b2,a0,a1,a2]是数字双二阶滤波器的连续系数。
对于一组双二阶滤波器的情况,下面给出了连续系数[b0,b1,b2,a0,a1,a2]与用于执行混合音频信号的参数均衡的参数(即增益参数gi(x(n);θ)、带宽参数bwi(x(n);θ)和频率参数fi(x(n);θ))之间的相关性。
等式2可以表示为:
Figure BDA0002733742260000081
从等式2可以看出,a0可以归一化为1,从而有效地产生控制传递函数的特性的5个参数[b0,b1,b2,a1,a2]。
在图2的实施例中,混合信号x(n)传输到多个并行双二阶滤波器31-1至31-N,每个双二阶滤波器由相应的一组滤波器参数
Figure BDA0002733742260000082
Figure BDA0002733742260000083
定义,其中,索引i表示特定的双二阶滤波器。DNN被配置为控制每个双二阶的带宽参数bwi(x(n);θ)和中心频率fi(x(n);θ),以及DNN也控制相应的参数gi(x(n);θ)。
通常,引入中间参数α,该参数将连续系数与用于执行参数均衡的参数相连接。中间参数α的数学函数由下式给出:
Figure BDA0002733742260000084
其中,
Figure BDA0002733742260000085
其中,根据所使用的滤波器类型,fi(x(n);θ)是中心频率或转折频率或倾斜中点频率,FS是预定义采样频率,以及bwi(x(n);θ)是带宽参数,例如,用倍频程表示。例如,通常,三分之一倍频程带通滤波器用于图形均衡器。
在上面提到的等式3中,最低频带和最高频带的频率fi(x(n);θ)被称为“倾斜中点频率”,这通常使用倾斜滤波器。在使用带通滤波器的情况下,对于所有其他情况,频率fi(x(n);θ)被称为“中心频率”。
具体地,从S域中二阶带通滤波器的传递函数开始
Figure BDA0002733742260000091
其中,
Figure BDA0002733742260000092
Q(i)
Figure BDA0002733742260000093
分别是第i带通滤波器的中心角频率、选择性和增益。使用等式(0)的模数滤波器转换,我们得到二阶数字滤波器,即双二阶滤波器,如等式(2)所示,其中,滤波器系数由下式给出
Figure BDA0002733742260000094
Figure BDA0002733742260000095
Figure BDA0002733742260000096
Figure BDA0002733742260000097
b1=0
Figure BDA0002733742260000098
fs=1/T表示采样频率。为了计算双二阶滤波器系数,我们需要
Figure BDA0002733742260000099
Q(i)
Figure BDA00027337422600000910
在参数EQ的情况下,它们由DNN通过fi(x(n);θ)、bwi(x(n);θ)和gi(x(n);θ)直接提供,并且有以下关系
Figure BDA00027337422600000911
Figure BDA00027337422600000912
Figure BDA00027337422600000913
在图形EQ的情况下,
Figure BDA00027337422600000914
和Q(i)是固定的,并且DNN仅通过以下方式控制滤波器增益
Figure BDA00027337422600000915
Figure BDA00027337422600000916
最后,应该注意,对于带通/低通/高通滤波器的情况,也可以设计具有增益
Figure BDA00027337422600000917
的固定滤波器,即滤波器系数
Figure BDA00027337422600000918
Figure BDA0002733742260000101
是固定的以及预先计算的,并且其中,我们仅将滤波器的输出乘以增益,如图2所示。
图4示出了人工神经网络的过程的另一实施例,本文是训练的DNN,该DNN用于控制混合音频信号的均衡,以执行音乐源分离。根据该实施例,DNN仅控制均衡器的增益参数gi,用于执行混合音频信号的图形均衡。即,根据该实施例的充当“图形”均衡器的均衡器包括增益gi(x(n);θ)由DNN控制的多个均衡器单元i(其中,索引i∈{1,...,N}表示该组均衡器单元中的特定均衡器单元)。图形均衡器的均衡器单元i可以例如实现为对混合信号进行滤波的双二阶,其中,增益参数gi(x(n);θ)由DNN控制,并且其中,带宽和频率参数bwi(x(n);θ)以及中心频率fi(x(n);θ)是可以根据设计选择来选择的预定义的固定参数。例如,大多数图形均衡器有7到31个之间的频段。每个频段的中心频率是固定的。专业扩声图形均衡器一般有31个频段,并且每个频段的中心频率与相邻频段的中心频率间隔1/3个倍频程,如此三个频段(前面板三个滑块)就覆盖了一个倍频程的组合带宽。当需要较低精度时,通常使用每倍频程许多频段的一半频段的图形均衡器。如在图4的实施例中,图形均衡器由DNN控制,而不是由人控制,然而技术人员必须依赖于这种普通的均衡器设计,但是可以根据需要选择预定的中心频率和带宽。
上述图1至图4的实施例示出了使用深度神经网络(DNN)(参见图1中的标号2)的时域音乐源分离(MSS)的过程,该DNN控制参数均衡器(参见图1和图3中的标号3)或图形均衡器(参见图4)来执行音乐源分离。
图5更详细地描述了被配置为控制如以上图1至图4中所描述的音乐源分离过程的DNN的实施例,DNN被实现为长短期记忆(LSTM)。长短期记忆(LSTM)是用于深度学习领域的人工递归神经网络(RNN)架构。RNN是一种人工神经网络,被设计用于识别数据序列中的模式,例如,从传感器发出的数字时间序列数据,例如,通过采样音频信号获得的音频样本。通过考虑时间和顺序,RNN算法具有时间维度。与标准的前馈神经网络不同,LSTM有反馈连接,这允许学习长期依赖关系。
LSTM有能力将信息移除或添加到所谓的单元状态(cell state),这是由称为门的结构调节。具体地,LSTM包括多个LSTM单元,其中,典型的LSTM单元包括输入门、输出门、遗忘门和单元。单元状态在任意时间间隔内记住数值,从而实现LSTM的长期记忆方面。这三个门调节进出单元的信息流。
更详细地,在这种情况下被实现为长短期记忆(LSTM)的DNN在时域中对样本窗口起作用,或者可选地对样本的处理版本(即特征)起作用。例如,最后512个样本[x(n-511),...,x(n)]可以用作DNN/LSTM的输入向量。当使用图形级联均衡器时,输出是预测增益参数(增益)。或者,在使用参数并行均衡器的情况下,在当前时刻应该使用的增益、带宽和中心频率(为了不引入延迟)是DNN/LSTM的输出。此外,可以预测未来的增益、带宽、频率参数,使得可以使用甚至更大的值,而不需要大的延迟。
然后,如上所述,DNN/LSTM的输出用于计算滤波器系数或增益。具体地,在使用参数并行均衡器的情况下,DNN/LSTM的输出用于计算滤波器系数以及调整增益。此外,为了避免任何音乐噪声,对每512个样本计算的不同滤波器系数之间的平滑过渡执行线性插值。
在该实施例中,执行混合信号x(n)的预处理。混合信号x(n)可以是具有任意采样率的原始音频混合信号数据,例如,44.1kHz、48kHz、对于高分辨率(HiRes)音频的96kHz、2.8224MHz(DSD)等。
作为准备步骤,窗口处理50被应用于混合信号x(n),以获得音频窗口序列x1,x2,...,xT。音频窗口序列x1,x2,...,xT可以例如基于128个音频样本的窗口大小和64个音频样本的跳距来获得。该音频窗口序列x1,x2,...,xT被输入到LSTM 51,以获得每个xt的输出ot,其中,t=1、2、……、T。LSTM迭代的音频窗口序列x1,x2,...,xT可以例如具有音频窗口的T=8的长度。LSTM 51的输出o被馈送到映射单元52,以基于LSTM 51的输出在每个时间步长t计算预定参数的最佳值,即增益参数gi(x(n);θ)、带宽参数bwi(x(n);θ)和频率参数fi(x(n);θ)。
如已经提及的,可以基于128个音频样本的窗口大小和64个音频样本的跳距获得音频窗口序列,即百分之五十(50%)的重叠,这是典型值。或者,代替在输入域中重叠并且通过网络执行更多的前向传递,可以使用更高的跳距并且可以执行滤波器系数的线性插值。因此,可以实现更小的时间分辨率,包括更少的前向传递,并且因此,更少的计算。
图6更详细地示出了由图5的LSTM 51执行的过程。混合信号x(n)的窗口被输入到LSTM 51。
音频窗口构成了迭代输入到LSTM的T个特征向量的序列x1,x2,...,xT。LSTM迭代输入特征向量x1,x2,...,xT,并计算隐藏状态向量序列h1,h2,...,hT。在时间步长t,其中,1<t<T,hT计算如下
Figure BDA0002733742260000121
其中,
Figure BDA0002733742260000122
表示隐藏层函数。例如,如Huy Phan等人在“ImprovedAudio SceneClassification Based on Label-Tree Embeddings and Convolutional NeuralNetworks IEEE/ACM Transactions On Audio,Speech,And Language Processing,2017”中所描述,可以应用门控递归单元(GRU)单元。
多个RNN隐藏层堆叠在彼此之上,即层1至层L。假设每层包括多个递归单元,如以上图5所描述,并且深RNN总共有L层,则下层的隐藏状态序列被视为上层的输入序列。因此,隐藏状态序列由下式给出
Figure BDA0002733742260000123
其中,1<1<L,并且具体地,对于第一层,
Figure BDA0002733742260000124
即,每层的每个递归单元(此处是层1到层L)接受来自前一单元的隐藏状态,并产生输出及其自己的隐藏状态。然后根据每个xt的最后一层L的隐藏状态
Figure BDA0002733742260000125
来确定深RNN的输出ot
Figure BDA0002733742260000126
其中,Why表示LSTM的权重矩阵,by表示偏差向量,并且L是LSTM51的总层数。
如上所述,DNN/LSTM的输出可以是所有双二阶的三个参数。在训练期间,DNN输出和最佳滤波器值(目标)之间的均方误差可以最小化。
网络输出ot随后被映射到(参见图5中的映射单元52)均衡参数的最佳值,即增益参数gi(x(n);θ)、带宽参数bwi(x(n);θ)和频率参数fi(x(n);θ)。
如上所述,网络输出ot是被输入到LSTM 51的每个音频窗口x1,...,xT的第L层的输出,使得算法延迟降低。在这种情况下,可以在任意时间步长t停止该过程,并使用该时间步长之前的输出ot,来获得均衡参数。尽管这可能在均衡参数的结果上引入不准确性。
或者,可以使用宽窗口输入完整的歌曲,将输出转换为一个ot,然后获得均衡参数。
图7示出了可视化用于从包括多个源(或乐器)的混合信号中分离特定源的方法的流程图。在70处,经由音频接口接收包括多个源的混合信号(见图1的x(n))。在71处,DNN(图1中的2)对混合信号进行操作,以估计用于控制参数均衡器(见图1)的最佳参数。在72处,基于在71处由DNN获得的均衡参数,对混合信号执行参数均衡,以获得目标源
Figure BDA0002733742260000131
的估计,该目标源是均衡信号,本文例如是人声。
图8示出了可视化用于训练深度递归神经网络(即LSTM)以估计预定均衡参数的方法的流程图。在80处,独立地记录或从存储它们的数据库中独立地获得分离源的多个声音信号(例如,人声和乐器),即人声、低音、鼓等,并且因此获得混合的基础事实分离。在81处,通过混合在80处获得的分离源的声音信号,或者通过直接混合例如存储在数据库中的歌曲,获得声音信号的混合,例如,歌曲(见图1)。在82处,基于获得的混合和基础事实分离源生成训练数据集。在83处,使用训练数据集训练人工神经网络,此处是DNN/LSTM。使用任何DNN训练程序,例如,随机梯度下降(SGD),我们可以学习到DNN/LSTM的最佳权重,使得选择的损失函数最小化。例如,损失函数可以是图1中当前输出
Figure BDA0002733742260000141
和基础事实s(n)之间的均方误差(MSE)。
图9示意性地描述了电子装置的实施例,该电子装置可以实现如上所述的基于参数/图形EQ来估计目标乐器的过程。电子装置700包括作为处理器的CPU 701。电子装置700还包括连接到处理器701的麦克风711、扬声器710和递归神经网络单元708。处理器701可以例如实现参数和/或图形EQ,其实现关于图1和图4更详细描述的过程。RNN单元可以例如是硬件中的人工神经网络,例如,GPU或任何其他专用于实现人工神经网络(例如,图1中的DNN2)的硬件上的神经网络。扬声器710由分布在预定空间上的一个或多个扬声器组成,并且被配置为呈现音频。电子装置700还包括连接到处理器701的音频接口706。音频接口706充当输入接口,用户能够经由该输入接口输入音频信号。此外,电子装置700还包括连接到处理器701的用户接口709。该用户接口709充当人机接口,并且能够在管理员和电子系统之间进行对话。例如,管理员可以使用该用户接口709对系统进行配置。电子装置701还包括以太网接口707、蓝牙接口704和WLAN接口705。这些单元704、705充当与外部装置进行数据通信的I/O接口。例如,具有以太网、WLAN或蓝牙连接的附加扬声器、麦克风和摄像机可以经由这些接口707、704和705耦接到处理器701。
电子装置700还包括数据存储装置702和数据存储器703(此处是RAM)。数据存储器703被设置成临时存储或缓存数据或计算机指令,以供处理器701处理。数据存储装置702被设置为长期存储装置,例如,用于记录从麦克风711获得的并提供给RNN单元708或从RNN单元708检索的传感器数据。数据存储装置702还可以存储表示音频消息的音频数据,公共通告系统可以将该音频数据传送给在预定空间中移动的人。
***
应当注意,以上描述仅是示例配置。替代配置可以用附加的或其他的传感器、存储装置、接口等来实现。
应当认识到,实施例描述了具有示例性方法步骤顺序的方法。然而,仅是为了说明的目的而给出方法步骤的具体顺序,并且不应被解释为具有约束力。
应当注意,将图9的电子装置划分成单元,仅是为了说明的目的,并且本公开不限于特定单元中的任何特定功能划分。例如,至少部分电路可以由相应的编程处理器、现场可编程门阵列(FPGA)等实现。
如果没有另外声明,在本说明书中描述的以及在所附权利要求中要求保护的所有单元和实体可以被实现为集成电路逻辑,例如,在芯片上,并且如果没有另外声明,由这些单元和实体提供的功能可以由软件实现。
就至少部分地使用软件控制的数据处理装置来实现上述公开的实施例而言,应当理解,提供这种软件控制的计算机程序以及提供这种计算机程序的传输、存储装置或其他介质被设想为本公开的方面。
注意,也可以如下所述配置本技术。
(1)一种电子装置,包括电路,电路被配置为:
将包括多个源的音频混合信号输入到深度神经网络,以获得均衡参数;并且
基于从深度神经网络获得的均衡参数对音频混合信号执行音频均衡,以获得分离源。
(2)根据(1)的电子装置,其中,深度神经网络已经被训练为估计用于音频源分离的最佳参数。
(3)根据(1)或(2)的电子装置,其中,分离源是人声。
(4)根据(1)至(3)中任一项的电子装置,其中,分离源是与被压制的人声的混合。
(5)根据(1)至(4)中任一项的电子装置,其中,执行音频均衡包括执行参数均衡。
(6)根据(1)至(5)中任一项的电子装置,其中,执行音频均衡包括执行图形均衡。
(7)根据(1)至(6)中任一项的电子装置,其中,最佳信号参数包括增益参数、和/或频率参数、和/或带宽参数。
(8)根据(5)的电子装置,其中,执行参数均衡包括基于均衡参数对所接收的音频输入信号执行带通滤波。
(9)根据(5)的电子装置,其中,执行参数均衡还包括在多个带通滤波器上分配所接收的音频输入信号,以获得多个带通滤波信号。
(10)根据(9)的电子装置,其中,执行参数均衡还包括将每个带通滤波信号与相应的增益参数相乘,以获得多个放大信号。
(11)根据(6)的电子装置,其中,执行图形均衡包括执行带陷滤波/带峰值滤波/倾斜滤波。
(12)一种方法,包括:
将包括多个源的音频混合信号输入到深度神经网络,以获得均衡参数;并且
基于从深度神经网络获得的均衡参数对音频混合信号执行音频均衡,以获得分离源。
(13)一种包括指令的计算机程序,指令在处理器上被执行时使得处理器:
将包括多个源的音频混合信号输入到深度神经网络,以获得均衡参数;并且
基于从深度神经网络获得的均衡参数对音频混合信号执行音频均衡,以获得分离源。

Claims (13)

1.一种电子装置,包括电路,所述电路被配置为:
将包括多个源的音频混合信号输入到深度神经网络,以获得均衡参数;并且
基于从所述深度神经网络获得的所述均衡参数对所述音频混合信号执行音频均衡,以获得分离源。
2.根据权利要求1所述的电子装置,其中,所述深度神经网络已经被训练以估计用于音频源分离的最佳参数。
3.根据权利要求1所述的电子装置,其中,所述分离源是人声。
4.根据权利要求1所述的电子装置,其中,所述分离源是与被压制的人声的混合。
5.根据权利要求1所述的电子装置,其中,执行音频均衡包括执行参数均衡。
6.根据权利要求1所述的电子装置,其中,执行音频均衡包括执行图形均衡。
7.根据权利要求2所述的电子装置,其中,所述最佳参数包括增益参数、和/或频率参数、和/或带宽参数。
8.根据权利要求5所述的电子装置,其中,执行参数均衡包括基于所述均衡参数对所述音频混合信号执行带通滤波。
9.根据权利要求5所述的电子装置,其中,执行参数均衡还包括在多个带通滤波器上分配所述音频混合信号,以获得多个带通滤波信号。
10.根据权利要求9所述的电子装置,其中,执行参数均衡还包括将每个带通滤波信号与相应的增益参数相乘,以获得多个放大信号。
11.根据权利要求6所述的电子装置,其中,执行图形均衡包括执行带陷滤波/带峰值滤波/倾斜滤波。
12.一种方法,包括:
将包括多个源的音频混合信号输入到深度神经网络,以获得均衡参数;并且
基于从所述深度神经网络获得的所述均衡参数对所述音频混合信号执行音频均衡,以获得分离源。
13.一种存储介质,存储有包括指令的计算机程序,所述指令在处理器上被执行时使得所述处理器:
将包括多个源的音频混合信号输入到深度神经网络,以获得均衡参数;并且
基于从所述深度神经网络获得的所述均衡参数对所述音频混合信号执行音频均衡,以获得分离源。
CN202011128667.1A 2019-10-21 2020-10-20 电子装置、方法和存储介质 Pending CN112767964A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP19204377.6 2019-10-21
EP19204377 2019-10-21

Publications (1)

Publication Number Publication Date
CN112767964A true CN112767964A (zh) 2021-05-07

Family

ID=68296285

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011128667.1A Pending CN112767964A (zh) 2019-10-21 2020-10-20 电子装置、方法和存储介质

Country Status (3)

Country Link
JP (1) JP2021076831A (zh)
CN (1) CN112767964A (zh)
TW (1) TW202135047A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116074697A (zh) * 2023-04-03 2023-05-05 广州市车厘子电子科技有限公司 基于深度神经网络的车载音响均衡器补偿方法及系统

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2023276235A1 (zh) * 2021-06-29 2023-01-05
WO2023286326A1 (ja) * 2021-07-15 2023-01-19 ソニーグループ株式会社 情報処理装置、情報処理方法およびプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116074697A (zh) * 2023-04-03 2023-05-05 广州市车厘子电子科技有限公司 基于深度神经网络的车载音响均衡器补偿方法及系统

Also Published As

Publication number Publication date
TW202135047A (zh) 2021-09-16
JP2021076831A (ja) 2021-05-20

Similar Documents

Publication Publication Date Title
CN112767964A (zh) 电子装置、方法和存储介质
CN108269569B (zh) 语音识别方法和设备
US20210089967A1 (en) Data training in multi-sensor setups
Lee et al. Blind source separation of real world signals
CN102792374B (zh) 多通道音频中语音相关通道的缩放回避的方法和系统
US9478232B2 (en) Signal processing apparatus, signal processing method and computer program product for separating acoustic signals
JP6881459B2 (ja) 情報処理装置、情報処理方法及び記録媒体
JP2002507351A (ja) ブラインド信号分離方法及び装置
WO2009110578A1 (ja) 残響除去装置、残響除去方法、残響除去プログラム、および記録媒体
KR102191736B1 (ko) 인공신경망을 이용한 음성향상방법 및 장치
JP6482173B2 (ja) 音響信号処理装置およびその方法
US11082789B1 (en) Audio production assistant for style transfers of audio recordings using one-shot parametric predictions
CN103811023A (zh) 音频处理装置以及音频处理方法
Reiss et al. Applications of cross-adaptive audio effects: Automatic mixing, live performance and everything in between
US20230395089A1 (en) Generative neural network model for processing audio samples in a filter-bank domain
JP5153389B2 (ja) 音響信号処理装置
JP2022539867A (ja) 音声分離方法及び装置、電子機器
CN114667567B (zh) 模态混响的模式选择
WO2023226572A1 (zh) 特征表示的提取方法、装置、设备、介质及程序产品
GB2510650A (en) Sound source separation based on a Binary Activation model
Saito et al. Sampling-frequency-independent convolutional layer and its application to audio source separation
JP2020012980A (ja) 信号処理装置、信号処理プログラム、信号処理方法、及び収音装置
Venkataramani et al. End-to-end non-negative autoencoders for sound source separation
US20220076687A1 (en) Electronic device, method and computer program
Roma et al. Remixing musical audio on the web using source separation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination