CN111954904A - 用于转换输入音频信号的音频信号处理系统及方法 - Google Patents

用于转换输入音频信号的音频信号处理系统及方法 Download PDF

Info

Publication number
CN111954904A
CN111954904A CN201980025148.1A CN201980025148A CN111954904A CN 111954904 A CN111954904 A CN 111954904A CN 201980025148 A CN201980025148 A CN 201980025148A CN 111954904 A CN111954904 A CN 111954904A
Authority
CN
China
Prior art keywords
audio signal
spectrogram
module
target audio
estimated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201980025148.1A
Other languages
English (en)
Other versions
CN111954904B (zh
Inventor
J·勒鲁克斯
J·R·赫尔歇
王中秋
G·P·维歇恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of CN111954904A publication Critical patent/CN111954904A/zh
Application granted granted Critical
Publication of CN111954904B publication Critical patent/CN111954904B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

关于用于转换输入音频信号的音频信号处理系统的系统和方法。处理器通过以下来实现模块的步骤:将输入音频信号输入到频谱图估计器中以提取音频特征序列,并对所述音频特征序列进行处理,以输出估计频谱图集合。使用频谱图细化模块处理所述估计频谱图集合和所述音频特征序列,以输出细化频谱图集合。其中所述频谱图细化模块的所述处理基于迭代重构算法。使用信号细化模块处理一个或多个目标音频信号的细化频谱图集合,以获得目标音频信号估计。输出接口输出优化的目标音频信号估计。其中通过使用存储在存储器中的优化器使误差最小化来优化所述模块。

Description

用于转换输入音频信号的音频信号处理系统及方法
技术领域
本公开总体上涉及音频信号,更具体地涉及将端对端方法用于单信道非特定人多讲话者语音分离。
背景技术
在某些传统语音分离和语音增强应用中,在诸如短时傅立叶变换(STFT)域之类的时频表征中完成处理。STFT获得信号的复域频谱时间(或时频)表征。观察到的噪声信号的STFT可以写为目标语音信号的STFT和噪声信号的STFT之和。信号的STFT是复合的,并且在复域中求和。
但是,大多数这些传统语音分离和语音增强应用仅对时频(T-F)域中的幅度进行分离,并直接使用混合相位进行时域重新合成,这在很大程度上是因为相位本身非常随机且难以实现被增强。众所周知,这种方法会引起相位不一致的问题,对于其中连续帧之间通常至少有一半重叠的语音处理而言尤其如此。这种重叠使得语音信号的STFT表征高度冗余。结果,使用估计的幅度和混合相位获得的增强的STFT表征将不在一致的STFT域中,这意味着不能保证存在具有该STFT表征的时域信号。
换句话说,就这些传统方法而言,相位被忽略了,并且这些传统方法假设观察到的信号的STFT的幅度等于目标音频和噪声信号的STFT的幅度之和,这是粗略或比较差的假设。因此,在传统语音分离和语音增强应用中,重点是在给定噪声语音信号作为输入的情况下对“目标语音”的幅度预测,或者在给定混合的音频源作为输入的情况下对“目标源”的幅度预测。根据这些传统语音分离和语音增强应用,从STFT重构时域增强信号期间,将噪声信号的相位用作增强语音STFT的估计相位。
因此,需要将端对端方法用于单信道非特定人多讲话者语音分离,以改善语音分离和语音增强应用。
发明内容
本公开总体上涉及音频信号,更具体地涉及将端对端方法用于单信道非特定人多讲话者语音分离。
本公开的一些实施方式将端对端方法用于单信道非特定人多讲话者语音分离,其中使用时频(TF)掩蔽的频谱图估计、短时傅立叶变换(STFT)和STFT的逆变换被表示为深度网络内的层。也可以考虑其它类型的频谱图估计以及其它时频变换和逆变换。
本公开的一些实施方式使用端对端语音分离算法,该算法经由时频(T-F)掩蔽通过迭代相位重构以进行信号电平逼近来进行训练。通过实验实现了这种端对端语音分离算法。在实验过程中,有几种方法对T-F域中的幅度进行了分离,并直接将混合相位用于时域重新合成,这在很大程度上是因为难以估计相位。但是,这些特定方法导致相位不一致的问题,对于语音处理来说尤为如此,在语音处理中,连续帧之间通常至少有一半重叠。这种重叠使得语音信号的短时傅立叶变换(STFT)表征高度冗余。因此,使用估计的幅度和混合相位获得的增强STFT表征不在一致的STFT域内,这意味着不能保证存在具有该STFT表征的时域信号。
为了提高一致性,实验使用着重于迭代方法(例如使用经典的Griffin-Lim算法、多输入频谱图反演(MISI)算法、使用迭代重构的知情源分离(ISSIR)以及一致维纳(Wiener)滤波)的一些方法进行,这些迭代方法通过迭代地进行STFT和iSTFT,能够从混合相位开始在一定程度上恢复更一致的相位,并有良好的估计幅度。
其它一些实验方法包括对基于深度学习的语音增强和分离所产生的幅度应用迭代算法作为后处理步骤。但是,即使根据深度神经网络(DNN)的幅度估计相当合理,这些其它方法也通常只会带来较小的改进。经过思考,认为这可能是因为在进行时频掩蔽时,没有意识到后面的相位重构步骤,因此可能无法产生适合迭代相位重构的频谱结构。因此,后来根据实验认识到这样一种端对端语音分离算法,其中时频(T-F)掩蔽、短时傅立叶变换(STFT)及STFT逆变换可以表示为深度网络中的层。
根据使用了基于目标STFT幅度的替代损失的若干实验方法有了部分收获。但是,这种特定方法导致忽略了由相位不一致引起的重构误差。因此,认识到总损失需要包括关于重构信号计算的损失,特别地,可以直接关于重构信号定义损失函数,可以对该重构信号进行优化以实现最佳分离。进一步认识到可以使用关于重构信号的其它损失,例如涉及重构信号的STFT的损失或涉及以重构信号为输入的语音辨识系统或声音分类系统的输出的损失。进一步认识到可以通过相位重构算法的展开迭代来进行训练,该迭代表示为包括STFT和逆STFT层的一系列层。虽然对于使用混合相位进行重构的方法,通常将掩码值限制为介于零和1之间,但是如果将估计的幅度与相位重构一起使用,则此限制的相关性就较小。因此,进一步认识到,掩码值不限于介于零和1之间,尤其是大于1会是有益的。更进一步认识到,一些激活函数可以用于T-F掩蔽的输出层,以便允许掩码值超过1。
例如,本公开的一些实施方式为时频掩蔽的输出层提供了一些激活函数,以产生可以超过1(至少在一个关键方面)的掩码值,以产生接近于一致STFT域的估计幅度。
本公开的一些实施方式包括通过相位重构阶段训练基于深度神经网络(DNN)的增强系统。其中,基于网络或基于DNN的增强系统估计幅度频谱图,将其与混合噪声的相位配对以获得复合频谱图估计。复合频谱图估计由频谱图细化模块进行细化。例如,从重构的时域信号(即通过对由估计幅度和噪声相位的乘积组成的复合频谱图进行逆STFT获得的)的幅度与原始估计幅度不同的意义上将,噪声相位可以与估计幅度远远不一致。根据本公开的一些实施方式,为了改进噪声相位,在频谱图细化模块中应用相位重构算法,以获得估计相位与估计幅度更一致的细化频谱图。这些算法依赖于迭代过程,其中先前迭代中的相位被从计算所获得的相位所代替,该计算涉及将当前的复合频谱图估计(即,原始估计幅度与当前相位估计的乘积)应用于逆STFT,然后进行STFT,并且仅保留相位。例如,Griffin-Lim算法将这样的过程应用于单个信号。当联合估计应该合计为原始噪声信号的多个信号估计时,可以使用多输入频谱图反演(MISI)算法。因此,本公开的实施方式对基于网络或基于DNN的增强系统进行训练,以最小化包括关于这种迭代过程的一个或多个步骤的结果定义的损失的目标函数。
例如,本公开的目标函数可以包括波形逼近,其考虑重构的时域信号与真实目标信号之间的距离。本公开的另一个目标函数可以包括定义为重构的时域信号的幅度与真实目标信号的幅度之间的距离的损失。
本公开的一些实施方式使用端对端语音分离算法,该端对端语音分离算法经由时频(T-F)掩蔽通过迭代相位重构进行波形级逼近的训练。例如,一些实施方式将端对端方法用于单信道非特定人多讲话者语音分离,其中时频掩蔽、STFT和iSTFT都被表征为双向LSTM之上的各个层。其中,波形级损失函数可以直接被优化以改善语音分离。此外,本公开包括将迭代相位重构算法中的迭代展开为一系列STFT和iSTFT(包括分析窗口、合成窗口和DFT操作)层,以引导双向长短期记忆(BLSTM)产生良好的估计幅度,该估计幅度可以在进行迭代相位重构后引发更好的相位。BLSTM是一对长短期记忆(LSTM)递归神经网络(RNN),一个是向前LSTM,另一个是向后LSTM。可以将BLSTM的隐藏向量作为向前和向后LSTM的隐藏向量的级联而获得。
本公开的一些实施方式包括进一步考虑将迭代相位重构算法中的迭代展开为一系列STFT和iSTFT(包括分析窗口、合成窗口和DFT操作)层,考虑通常被认为固定的迭代相位重构算法的步骤参数,如STFT的分析窗口和合成窗口以及DFT变换的傅里叶矩阵,作为可以训练的变量,通过将这些变量每次出现时都视为独立的变量来跨层求解这些变量,并将这些变量包括在训练过程中可以优化的网络参数中。
根据本公开的实施方式,一种用于转换输入音频信号的音频信号处理系统,其中,所述输入音频信号包括混合的一个或多个目标音频信号。所述音频信号处理系统包括存储器,所述存储器包括存储的可执行指令和存储的模块,使得所述模块转换输入音频信号以获得目标音频信号估计。处理器与所述存储器通信。其中所述处理器通过以下来实现所述模块的步骤:将所述输入音频信号输入到频谱图估计器中以提取音频特征序列,并对所述音频特征序列进行处理,以输出估计频谱图集合。其中,所述估计频谱图集合包括每个目标音频信号的估计频谱图。使用频谱图细化模块处理所述估计频谱图集合和所述音频特征序列,以输出细化频谱图集合,使得所述细化频谱图集合包括每个目标音频信号的细化频谱图。其中所述频谱图细化模块的所述处理是基于迭代重构算法的。使用信号细化模块处理所述一个或多个目标音频信号的所述细化频谱图集合,以获得所述目标音频信号估计,使得每个目标音频信号均存在目标音频信号估计。输出接口输出所述优化的目标音频信号估计。其中,通过使用存储在所述存储器中的优化器使误差最小化来优化所述模块,使得所述误差包括关于所述估计频谱图集合的误差、关于所述细化频谱图集合的误差、包括所述细化频谱图集合的一致性度量的误差、关于所述目标音频信号估计的误差以及它们的某一组合中的一者。
根据本公开的另一实施方式,一种用于转换输入音频信号的方法,该方法包括以下步骤:定义用于转换输入音频信号的模块,使得所述输入音频信号包括混合的一个或多个目标音频信号。其中,所述模块对所述输入音频信号进行转换,以获得目标音频信号估计。与存储器通信的处理器,其中,所述处理器通过以下来实现所述模块的步骤:将所述输入音频信号输入到所述模型的频谱图估计器中以提取音频特征序列,并对所述音频特征序列进行处理,以输出估计频谱图集合。其中,所述估计频谱图集合包括每个目标音频信号的估计频谱图。使用所述模型的频谱图细化模块处理所述估计频谱图集合和所述音频特征序列,以输出细化频谱图集合。使得所述细化频谱图集合包括每个目标音频信号的细化频谱图。其中,所述频谱图细化模块的所述处理是基于迭代重构算法的。使用所述模型的信号细化模块处理所述一个或多个目标音频信号的所述细化频谱图集合,以获得所述目标音频信号估计,使得每个目标音频信号均存在目标音频信号估计。输出接口用于输出所述优化的目标音频信号估计。其中,通过使用存储在存储器中的优化器使误差最小化来优化所述模块。其中,所述误差包括关于所述估计频谱图集合的误差、关于所述细化频谱图集合的误差、包括所述细化频谱图集合的一致性度量的误差、关于所述目标音频信号估计的误差以及它们的某一组合中的一者。其中,所述步骤由与存储有可执行指令的所述存储器通信的处理器进行,使得所述模块存储在所述存储器中。
根据本公开的另一实施方式,一种用于转换输入音频信号的音频信号处理系统。所述音频信号处理系统包括:存储器,所述存储器包括存储的可执行指令和存储的模块。使得所述模块转换输入音频信号以获得目标音频信号估计。其中,输入音频信号包括混合的一个或多个目标音频信号。处理器与所述存储器通信,其中,所述处理器通过以下来实现所述模块的步骤:经由与所述处理器通信的输入接口接收所述输入音频信号。将所述输入音频信号输入到频谱图估计器中以提取音频特征序列,并对所述音频特征序列进行处理,以输出估计频谱图集合。其中,所述估计频谱图集合包括每个目标音频信号的估计频谱图。使用频谱图细化模块处理所述估计频谱图集合和所述音频特征序列,以输出细化频谱图集合。使得所述细化频谱图集合包括每个目标音频信号的细化频谱图。其中,所述频谱图细化模块的所述处理是基于迭代重构算法的。使用信号细化模块处理所述一个或多个目标音频信号的所述细化频谱图集合,以获得所述目标音频信号估计,使得每个目标音频信号均存在目标音频信号估计。输出接口用于输出所述优化的目标音频信号估计。其中,通过使用存储在所述存储器中的优化器使误差最小化来优化所述模块。其中,所述误差包括关于所述估计频谱图集合的误差、关于所述细化频谱图集合的误差、包括所述细化频谱图集合的一致性度量的误差、关于所述目标音频信号估计的误差以及它们的某一组合中的一者。
根据本公开的另一实施方式,一种用于转换输入音频信号的音频信号处理系统。所述音频信号处理系统包括:声音检测装置,所述声音检测装置构造成从环境获取输入音频信号。信号输入接口装置,所述信号输入接口装置构造成接收并发送所述输入音频信号,其中,所述输入音频信号包括混合的一个或多个目标音频信号。音频信号处理装置,所述音频信号处理装置构造成处理所述输入音频信号。其中所述音频信号处理装置包括:硬件处理器,所述硬件处理器构造成连接至存储器。所述存储器构造成输入/输出数据,其中所述硬件处理器执行以下步骤:访问存储在所述存储器中的模块,使得所述模块转换所述输入音频信号以获得目标音频信号估计。将所述输入音频信号输入到所述模块的频谱图估计器中,以提取音频特征序列,并对所述音频特征序列进行处理,以输出估计频谱图集合。其中,所述估计频谱图集合包括每个目标音频信号的估计频谱图。使用所述模块的频谱图细化模块来处理所述估计频谱图集合和所述音频特征序列,以输出细化频谱图集合。使得所述细化频谱图集合包括每个目标音频信号的细化频谱图。其中所述频谱图细化模块的所述处理是基于迭代重构算法的。使用所述模块的信号细化模块处理所述一个或多个目标音频信号的所述细化频谱图集合,以获得所述目标音频信号估计,使得每个目标音频信号均存在目标音频信号估计。输出接口用于输出优化的目标音频信号估计。其中,通过使用存储在所述存储器中的优化器使误差最小化来优化所述模块。其中所述误差包括关于所述估计频谱图集合的误差、关于所述细化频谱图集合的误差、包括所述细化频谱图集合的一致性度量的误差、关于所述目标音频信号估计的误差以及它们的某一组合中的一者。
将参考附图进一步解释当前公开的实施方式。所示出的附图不一定按比例绘制,而是通常将重点放在示出当前公开的实施方式的原理上。
附图说明
[图1A]
图1A是示出用于实现根据本公开的实施方式的方法的一些方法步骤的流程图。
[图1B]
图1B是示出可用于实现根据本公开的实施方式的系统和方法的一些组件的框图。
[图1C]
图1C是示出根据本公开的实施方式的用于从包括混合的多个目标音频信号的输入音频信号估计目标音频信号的音频信号处理系统的框图。
[图2A]
图2A是示出根据本公开的实施方式训练用于语音增强的端对端音频信号处理系统的流程图。
[图2B]
图2B是示出根据本公开的实施方式基于掩码推断训练用于语音增强的端对端音频信号处理系统的流程图。
[图3]
图3是示出根据本公开的实施方式的用于源分离的端对端音频信号处理系统的流程图,端对端音频信号处理系统具有频谱图细化模块,该频谱图细化模块包括确定性频谱图反演算法的多个步骤。
[图4]
图4是示出根据本公开的实施方式的用于源分离的端对端音频信号处理系统的频谱图估计模块的流程图。
[图5]
图5是示出根据本公开的实施方式的用于源分离的端对端音频信号处理系统的频谱图细化模块的流程图,其中,频谱图细化模块包括确定性频谱图反演算法的多个步骤。
[图6]
图6是示出根据本公开的实施方式的用于源分离的端对端音频信号处理系统的信号重构模块的流程图。
[图7]
图7是示出根据本公开的实施方式的用于源分离的端对端音频信号处理系统的流程图,该端对端音频信号处理系统具有频谱图细化模块,该频谱图细化模块包括通过展开频谱图反演算法的多重迭代并将频谱图反演算法的迭代的固定参数转换成可训练参数而获得的多个层。
[图8]
图8是示出根据本公开的实施方式的复合频谱图上的一致性度量的计算的流程图。
[图9A]
图9A是示出根据本公开的实施方式的单信道掩码推断网络架构的框图。
[图9B]
图9B是示出根据本公开的实施方式的单信道深度聚类网络架构的框图。
[图9C]
图9C是示出根据本公开的实施方式的单信道嵌合网络结构的框图。
[图10]
图10是示出根据本公开的实施方式的用于源分离的端对端音频信号处理系统的目标信号估计模块的训练的流程图,其中训练包括误差计算。
[图11]
图11示出根据本公开的实施方式的用于语音分离的代替音频信号处理系统的框图,特别图11包括语音分离网络。
[图12A]
图12A是示出根据本公开的实施方式的可用于实现方法和系统的一些技术的计算装置的示意图。
[图12B]
图12B是示出根据本公开的实施方式的可用于实现方法和系统的一些技术的移动计算装置的示意图。
尽管上面标识的附图阐述了当前公开的实施方式,但是如讨论中所指出的,也可以考虑其它实施方式。本公开通过代表而非限制的方式示出了说明性实施方式。本领域技术人员可以设计出落入当前公开的实施方式的原理的范围和精神内的许多其它修改和实施方式。
具体实施方式
(概述)
本公开涉及音频信号,更具体地涉及将端对端方法用于单信道非特定人多讲话者语音分离。
图1A是示出用于实现根据本公开的实施方式的方法的一些方法步骤的流程图。
图1A的步骤115包括定义用于变换输入音频信号的模块,使得输入音频信号包括混合的一个或多个目标音频信号,其中该模块变换输入音频信号以获得目标音频信号估计。
图1A的步骤120包括将输入音频信号输入到模型的频谱图估计器中,以提取音频特征序列,并处理音频特征序列以输出估计频谱图集合,其中该估计频谱图集合包括每个目标音频信号的估计频谱图。
图1A的步骤125包括使用模型的频谱图细化模块来处理所述估计频谱图集合和音频特征序列,以输出细化频谱图集合,使得该细化频谱图集合包括每个目标音频信号的细化频谱图,并且其中频谱图细化模块的处理基于迭代重构算法。
图1A的步骤130包括使用模型的信号细化模块来处理一个或多个目标音频信号的细化频谱图集合,以获得目标音频信号估计,从而对于每个目标音频信号存在目标音频信号估计。
图1A的步骤135包括输出接口以输出优化的目标音频信号估计,其中通过使用存储在存储器中的优化器使误差最小化来优化模块,其中该误差包括关于估计频谱图集合的误差、关于细化频谱图集合的误差,包括关于细化频谱图集合的一致性度量的误差、关于目标音频信号估计的误差以及它们的某一组合中的一者。其中,所述步骤由与具有存储的可执行指令的存储器通信的处理器来进行,使得模块存储在存储器中。
以非限制性实施例方式,本公开的实施方式提供了独特的方面,即输出信号的损失还可以包括其它误差,例如语音识别误差。此外,可以构想到,可以将音频信号处理系统与将本系统的输出作为输入的语音识别系统一起训练,以便进一步改善在多讲话者的杂音中的语音识别。尤其是,在多讲话者的杂音中识别语音是技术领域内长期存在的挑战,即上述的鸡尾酒会问题。此外,解决此鸡尾酒会问题尤其将为实现现实世界中的人机交互(HMI)提供更好的技术。
图1B是示出可用于实现根据本公开的实施方式的系统和方法的一些组件的框图。例如,方法100B可以包括与一个传感器2或多个传感器(诸如声学传感器)通信的硬件处理器11,该硬件处理器11从环境1收集包括声学信号8的数据。声学信号可以包括语音重叠的多讲话者。此外,传感器2可以将声学输入转换为声学信号。硬件处理器11与计算机存储存储器(即存储器9)通信,使得存储器9包括存储的数据,所述数据包括可由硬件处理器11实现的算法、指令和其它数据。
可选地,硬件处理器11可以连接至网络7,该网络7与数据源3、计算机装置4、移动电话装置5和存储装置6通信。还可选地,硬件处理器11可以连接至网络使能服务器13,该网络使能服务器13连接至与客户端装置15。硬件处理器11可以可选地连接至外部存储装置17、发送器19。此外,可以根据特定的用户意图用途21来输出关于每个目标讲话者的文本,例如,某些类型的用户用途可以包括在一个或多个显示装置(例如监视器或屏幕)上显示文本,或将关于每个目标讲话者的文本输入计算机相关装置中以进行进一步分析等。
可以构想到,取决于特定应用的要求,硬件处理器11可以包括两个或更多个硬件处理器,其中处理器可以是内部的或外部的。当然,其它组件可以与方法100B结合在一起,在其它装置当中这包括输出接口和收发器。
作为非限制性实施例,网络7可以包括一个或多个局域网(LAN)和/或广域网(WAN)。其中网络环境可以类似于企业范围的计算机网络、内联网和互联网。对于所提到的所有组件可以构想到,系统100B内可以采用任何数量的客户端装置、存储部件和数据源。每个装置均可以包括在分布式环境中协作的单个装置或多个装置。此外,系统100B可以包括一个或多个数据源3。数据源3可以包括用于训练语音分离网络的数据资源。例如,在一个实施方式中,训练数据可以包括同时讲话的多讲话者声学信号。训练数据还可以包括单独讲话的单个讲话者的声学信号、在噪声环境中讲话的单个讲话者或多个讲话者的声学信号以及噪声环境的声学信号。数据源3还可以包括用于训练语音识别网络的数据资源。由数据源3提供的数据可以包括标记的和未标记的数据,例如转录的和非转录的数据。例如,在一个实施方式中,数据包括一个或多个声音,并且还可以包括可以用于将语音识别网络初始化的对应的转录信息或标签。
此外,数据源3中未标记的数据可以由一个或多个反馈回路提供。例如,可以将来自在搜索引擎上进行的口头搜索查询的使用数据作为未转录的数据提供。数据源的其它实施例可以包括例如但不限于各种口头语言音频或图像源,其包括流式声音或视频、网页查询、移动装置摄像头或音频信息、网络摄像头馈送、智能眼镜和智能手表馈送、客户服务系统、安全摄像头馈送、网络文档、目录、用户馈送、SMS日志、即时消息日志、口头文字转录、诸如语音命令或捕获的图像(例如,深度摄像头图像)之类的游戏系统用户交互、推文、聊天或视频通话记录或社交网络媒体。可以根据包括数据是某类数据(例如,仅与特定类型的声音相关的数据,例如包括机器系统、娱乐系统)还是本质上是一般数据的(非特定类)的应用确定所使用的特定数据源3。
系统100B可以包括第三方装置4、5,该第三方装置4、5可以包括任何类型的计算装置,从而可能有兴趣在计算装置上具有自动语音识别(ASR)系统。这里,例如,第三方装置包括计算机装置4,例如关于图18A描述的计算装置的类型;或者包括移动装置5,例如关于图18B描述的移动计算装置的类型。构想的是,用户装置可以实施成个人数据助理(PDA)、移动装置(例如智能手机、智能手表、智能眼镜(或其它可佩戴的智能装置))、增强现实耳机、虚拟现实耳机。此外,用户装置可以是诸如平板电脑之类的膝上型计算机(例如平板电脑)、遥控器、娱乐系统、车辆计算机系统、嵌入式系统控制器、家电、家庭计算机系统、安全系统、消费性电子装置或其它类似的电子装置。在一个实施方式中,客户端装置能够接收可由在装置上运行的这里所述的ASR系统使用的输入数据(例如音频和图像信息)。例如,第三方装置可以具有用于接收音频信息的麦克风或线路、用于接收视频或图像信息的摄像头或者用于从另一源(例如互联网或数据源3)接收此类信息的通信部件(例如Wi-Fi功能)。
使用语音识别网络的ASR模型可以处理输入的数据,以确定计算机可用信息。例如,可以处理房间中的多个人讲话时由用户对着麦克风口头说的查询,以确定该查询的内容(例如是否提出了问题)。示例性第三方装置4、5可选地包括在系统100B中,以示出可以部署深度神经网络模型的环境。此外,本公开的一些实施方式可以不包括第三方装置4、5。例如,深度神经网络模型可以位于服务器上或位于云网络、系统或类似布置中。
关于存储装置6,存储装置6可以存储包括在本文描述的技术的实施方式中使用的数据、计算机指令(例如,软件程序指令、例程或服务)和/或模型的信息。例如,存储装置6可以存储来自一个或多个数据源3的数据、一个或多个深度神经网络模型、用于生成并训练深度神经网络模型的信息以及由一个或多个深度神经网络模型输出的计算机可用信息。
图1C是示出音频信号处理系统100C的框图,该音频信号处理系统100C根据从监视环境1的传感器2获得的输入音频信号101来估计目标音频信号。根据本公开的实施方式,该输入音频信号包括混合的多个目标音频信号。音频信号处理系统通过使用特征提取模块110经由处理器11处理信号以计算音频特征序列,该音频特征序列由频谱图估计器111处理以输出频谱图估计集合。频谱图估计集合由频谱图细化模块120处理,以输出细化频谱图集合,信号重构模块130对细化频谱图集合进行进一步处理,以计算目标音频信号估计。网络参数115可以输入到频谱图估计器111、频谱图细化模块120和信号重构模块130中。然后,输出接口140输出目标音频信号估计21。
图2A是示出根据本公开的实施方式的训练用于语音增强的端对端音频信号处理系统200A的流程图。该系统以语音增强的情况(即将语音与噪声信号内的噪声分离)为例进行说明,但同样的考虑也适用于更一般的情况,例如源分离,在源分离的情况下,系统根据混合的目标音频信号和潜在的其它非目标源(例如噪声)估计多个目标音频信号。从干净和噪声音频的训练集合202中对包括混合的语音和噪声的噪声输入信号204以及语音和噪声的相应干净信号进行采样。噪声输入信号204由频谱图估计器206处理,以利用存储的网络参数215计算语音和噪声的估计频谱图208。估计频谱图由频谱图细化模块210进一步处理,以利用存储的网络参数215输出语音的细化频谱图212。信号重构模块214对语音的细化频谱图212进行反演,以获得语音的估计音频216。目标函数计算模块218通过计算干净语音与语音的估计音频之间的距离来计算目标函数。另选地,可以从频谱图细化模块210获得语音和噪声两者的细化频谱图,并由信号重构模块214进行反演,从而得到语音和噪声两者的估计音频信号216,两者的估计音频信号216可以与干净语音和噪声信号222一起用于计算目标函数。该目标函数可以由网络训练模块220用来更新网络参数215。
图2B是示出根据本公开的实施方式的基于掩码推断训练用于语音增强的端对端音频信号处理系统200B的流程图。该设置类似于图2A,图2A的频谱图估计模块206在此基于:掩码推断网络230,其估计掩码集合;幅度重构模块232,其将掩码与噪声音频的幅度时频表征相乘以获得估计幅度集合;以及相位幅度组合模块234,其在复合时频域中将估计幅度与噪声音频的相位进行组合,以获得估计频谱图集合。然后,借助相位重构算法处理估计频谱图,以获得细化频谱图集合。通过将迭代相位重构算法的步骤实现成神经网络的各层,并将迭代相位重构算法的参数转换成网络的自由变更的参数,来建立相位重构模块236。训练系统的其余处理和过程与图2A的相似。
图3是示出根据本公开的实施方式的用于源分离的端对端音频信号处理系统的流程图,端对端音频信号处理系统具有频谱图细化模块,该频谱图细化模块包括确定性频谱图反演算法的多个步骤。为了说明的目的,在这里假设有两个目标源,但是该算法可以类似地用于任意数量的源。频谱图估计模块304处理混合输入X 302,以输出频谱图估计集合(每个源对应一个频谱图估计集合)。频谱图估计模块304使用特征提取模块处理混合输入302,以计算音频特征序列,从而提取输入的STFT的对数幅度。该音频特征序列由多个堆叠的BLSTM层处理。这里的估计频谱图是通过掩码推断方法获得的。对于每个目标源,使用线性层,然后是非线性(例如S形),以计算每个时频单位的掩码。每个掩码在幅度重构模块中与混合的STFT幅度相乘,以获得每个源的估计幅度频谱图。该估计幅度频谱图与混合的STFT的相位分量组合,以获得每个源的复域中的估计频谱图。在一些实施方式中,可以由网络的一部分计算一些深度聚类嵌入以计算深度聚类目标函数,或者根据嵌入估计掩码并将其用于频谱图估计,或者两者兼有。估计频谱图由频谱图细化模块310进行处理以输出细化频谱图。谱图细化模块310将迭代相位重构算法(这里是多输入频谱图反演(MISI)算法)的多重迭代实现成深度神经网络的层。每一次迭代将一个频谱图集合作为输入,使用iSTFT在时域中对其进行反演以获得反信号,计算混合输入与反信号总和之间的误差,将这个误差(这里是平均地)分配回每个反信号中,以获得误差补偿反信号,计算误差补偿反信号的STFT,提取它们的相位,并将其与估计频谱图的幅度相组合以获得下一次迭代的输入。最后迭代的输出为细化频谱图。细化频谱图由信号重构模块312处理,信号重构模块312对每个细化频谱图进行iSTFT,以获得目标音频信号。可以就深度聚类嵌入、估计掩码、估计幅度频谱图、估计复合频谱图、在频谱图细化模块310的一次或多重迭代的输出处获得的频谱图、在频谱图细化模块的一次或多重迭代内获得的反信号、细化频谱图或目标音频信号考虑误差函数。
图4是示出根据本公开的实施方式的用于源分离的端对端音频信号处理系统的频谱图估计模块410的流程图。
图5是示出根据本公开的实施方式的用于源分离的端对端音频信号处理系统的频谱图细化模块510的流程图,其中,频谱图细化模块510包括确定性频谱图反演算法的多个步骤。
图6是示出根据本公开的实施方式的用于源分离的端对端音频信号处理系统的信号重构模块612的流程图。
图7是示出根据本公开的实施方式的用于源分离的端对端音频信号处理系统的流程图,该端对端音频信号处理系统具有频谱图细化模块710,该频谱图细化模块包括通过展开频谱图反演算法的多重迭代并将频谱图反演算法的迭代的固定参数转换成可训练参数而获得的多个层。
注意,在图7中,确定性STFT和iSTFT层可以用可训练层代替,其中STFT和iSTFT的参数(例如,DFT矩阵)可以变更并可被训练。此外,在图7中,符号Θ是网络所有部分的ALL参数的集合,并且每个层都可以使用这些参数的(可能不同)子集。
图8是示出根据本公开的实施方式的复合频谱图上的一致性度量的计算的流程图。一致性度量计算模块802处理输入频谱图以计算关于时频域的一致性度量。时频域由正变换指定,该正变换将时域信号转换成时频表征。考虑可以将信号的时频表征转换回信号的逆变换。该逆变换还可以应用于可能不对应于任何信号的时频表征的修正时频表征。这样的表征被称为不一致,而从时域信号获得的表征被称为一致。例如,如果关注的时频表征是短时傅立叶变换,则可以将逆变换实施成短时傅立叶逆变换。该图出于说明目的使用STFT和iSTFT。一致性度量计算模块802使用逆短时傅立叶逆变换来处理输入频谱图,以获得反信号,然后计算反信号的短时傅立叶变换以获得其频谱图。一致性度量定义为输入频谱图和反信号的频谱图之间的距离。
图9A是示出根据本公开的实施方式的单信道掩码推断网络架构900A的框图。根据混合输入获得的特征向量序列(例如混合输入的短时傅立叶变换的对数幅度)用作向混合编码器910的输入。例如,序列中输入向量的维数可以是F。混合编码器910由多个双向长短期记忆(BLSTM)神经网络层(从第一BLSTM层930到最后的BLSTM层935)组成。每个BLSTM层均由向前长短期存储(LSTM)层和向后LSTM层组成,它们的输出被合并,并由下一层用作输入。例如,第一BLSTM层930中的每个LSTM的输出维数可以为N,并且包括最后的BLSTM层935的所有其它BLSTM层中的每个LSTM的输入维数和输出维数两者都可以为N。最后的BLSTM层935的输出用作掩码推断模块912(包括线性神经网络层940和非线性945)的输入。对于时频域(例如短时傅立叶变换域)中的每个时间帧和每个频率,线性层940使用最后的BLSTM层935的输出来输出C个数字,其中C是目标讲话者的数量。非线性945应用于每个时间帧和每个频率的该C个数字的集合,从而产生掩码值,该掩码值对于每个时间帧、每个频率和每个目标讲话者指示该目标讲话者在该时间帧和该频率的混合输入中的主导地位。根据掩码的分离编码估计模块913使用这些掩码以及被估计了掩码的时频域(例如幅度短时傅里叶变换域)中的混合输入的表征,来输出每个目标讲话者的分离编码。例如,根据掩码的分离编码估计模块913可以将目标讲话者的掩码与混合输入的幅度短时傅里叶变换相乘,以获得目标讲话者(如果是单独观察的话)的分离信号的幅度短时傅里叶变换的估计,用作该目标讲话者的分离编码。
图9B是示出根据本公开的实施方式的单信道深度聚类网络架构900B的框图。从混合输入获得的特征向量序列(例如混合输入的短时傅立叶变换的对数幅度)用作向混合编码器920的输入。例如,序列中输入向量的维数可以是F。混合编码器920由多个双向长短期记忆(BLSTM)神经网络层(从第一BLSTM层901到最后的BLSTM层903)组成。每个BLSTM层均由向前长短期存储(LSTM)层和向后LSTM层组成,它们的输出被合并,并由下一层用作输入。例如,第一BLSTM层901中的每个LSTM的输出维数可以为N,并且包括最后的BLSTM层903的所有其它BLSTM层中的每个LSTM的输入维数和输出维数两者都可以为N。最后的BLSTM层903的输出用作向嵌入计算模块922的输入,该嵌入计算模块922包括线性神经网络层905和实现S形非线性并随后进行单位范数归一化的模块907。对于时频域(例如短时傅立叶变换域)中的每个时间帧和每个频率,线性层905使用最后的BLSTM层903的输出来输出D维向量,其中D是嵌入维数。实现S形非线性并随后进行单位范数归一化的模块907将S形应用于D维向量的每个元素,并将其重新归一化,使其具有单位欧几里得范数,从而得到每个时间帧和频率的嵌入向量。根据嵌入的分离编码估计模块923使用这些嵌入向量以及被估计了嵌入的时频域(例如幅度短时傅里叶变换域)中的混合输入的表征,来输出每个目标讲话者的分离编码。例如,根据嵌入的分离编码估计模块923可以使用诸如k-均值算法之类的聚类算法将嵌入向量聚类成C个组,其中C是目标讲话者的数量,并且每个组均对应于由同一讲话者主导的时间和频率分量。可以针对每个讲话者获得二进制掩码,该二进制掩码指示时间和频率分量是否受该讲话者主导。然后,根据嵌入的分离编码估计模块923可以将目标讲话者的掩码与混合输入的幅度短时傅里叶变换相乘,以获得目标讲话者(如果是单独观察的话)的分离信号的幅度短时傅里叶变换的估计,用作该目标讲话者的分离编码。也可以考虑更复杂的方案来使用根据嵌入的分离编码估计模块923获得这种掩码,并且以上描述不应被理解为以任何方式进行限制。
图9C是示出根据本公开的实施方式的单信道嵌合网络架构900C的框图。从混合输入获得的特征向量序列(例如混合输入的短时傅立叶变换的对数幅度)用作向混合编码器950的输入。例如,序列中输入向量的维数可以是F。混合编码器950由多个双向长短期记忆(BLSTM)神经网络层(从第一BLSTM层971到最后的BLSTM层973)组成。每个BLSTM层均由向前长短期存储(LSTM)层和向后LSTM层组成,它们的输出被合并,并由下一层用作输入。例如,第一BLSTM层971中的每个LSTM的输出维数可以为N,并且包括最后的BLSTM层973的所有其它BLSTM层中的每个LSTM的输入维数和输出维数两者都可以为N。
最后的BLSTM层973的输出用作掩码推断模块952(包括线性神经网络层975和非线性977)的输入。对于时频域(例如短时傅立叶变换域)中的每个时间帧和每个频率,线性层975使用最后的BLSTM层973的输出来输出C个数字,其中C是目标讲话者的数量。非线性977应用于每个时间帧和每个频率的这C个数字的集合,从而产生掩码值,该掩码值对于每个时间帧、每个频率和每个目标讲话者指示该目标讲话者在该时间帧和该频率的混合输入中的主导地位。根据掩码的分离编码估计模块953使用这些掩码以及被估计了掩码的时频域(例如幅度短时傅里叶变换域)中的混合输入的表征,来输出每个目标讲话者的分离编码。例如,根据掩码的分离编码估计模块953可以将目标讲话者的掩码与混合输入的幅度短时傅里叶变换相乘,以获得目标讲话者(如果是单独观察的话)的分离信号的幅度短时傅里叶变换的估计,作为该目标讲话者的分离编码。
最后的BLSTM层973的输出用作向嵌入计算模块962的输入,该嵌入计算模块962包括线性神经网络层985和实施S形非线性并随后进行单位范数归一化的模块987。对于时频域(例如短时傅立叶变换域)中的每个时间帧和每个频率,线性层985使用最后的BLSTM层973的输出来输出D维向量,其中D是嵌入维数。实施S形非线性并随后进行单位范数归一化的模块987将S形应用于D维向量的每个元素,并将其重新归一化,使其具有单位欧几里得范数,从而得到每个时间帧和频率的嵌入向量。根据嵌入的分离编码估计模块963使用这些嵌入向量以及被估计了嵌入的时频域(例如幅度短时傅里叶变换域)中的混合输入的表征,来输出每个目标讲话者的分离编码。例如,根据嵌入的分离编码估计模块963可以使用诸如k-均值算法之类的聚类算法将嵌入向量聚类成C个组,其中C是目标讲话者的数量,并且每个组均对应于由同一讲话者主导的时间和频率分量。可以针对每个讲话者获得二进制掩码,该二进制掩码指示时间和频率分量是否受该讲话者主导。然后,根据嵌入的分离编码估计模块963可以将目标讲话者的掩码与混合输入的幅度短时傅里叶变换相乘,以获得目标讲话者(如果是单独观察的话)的分离信号的幅度短时傅里叶变换的估计,用作该目标讲话者的分离编码。
在训练时,最后的BLSTM层973的输出既用作向掩码推断模块952的输入,又用作向嵌入计算模块962的输入。由嵌入计算模块962输出的嵌入、由掩码推断模块952输出的掩码、由根据嵌入的分离编码估计模块963输出的分离编码以及由根据掩码的编码估计模块953输出的分离编码中的一者或多者可以用于计算训练误差(如图10中所述)。在测试时,也可以同时使用两个模块并组合从每个模块获得的分隔编码,或者可以选择仅利用一个模块并使用相应的分隔编码进行处理。
图10是示出根据本公开的实施方式的训练用于源分离的端对端音频信号处理系统1000的目标信号估计模块的流程图,其中训练包括误差计算。该图以两个目标源为例说明了概念。目标信号估计模块1011包括频谱图估计网络1042,频谱图细化网络1040和信号重构模块。从数据集1006中对混合输入1008和相应的参考源信号1034进行采样。参考源信号对应于混合输入1008的与单独观察的每个目标源相对应的部分。频谱图估计网络1042处理混合输入1008,以输出每个目标讲话者的估计频谱图。频谱图估计网络1042包括混合编码器1010、掩码推断模块1012、根据掩码的频谱图估计模块1013、嵌入计算模块1022以及可选的根据嵌入的频谱图估计模块1023。
混合编码器1010处理混合输入1008以输出混合编码。混合编码由掩码推断模块1012进一步处理,掩码推断模块1012估计掩码集合。根据掩码的频谱图估计模块1013将掩码集合与混合输入一起使用,以获得每个目标源的估计频谱图。例如,根据掩码的频谱图估计模块1013可以将估计的掩码应用于混合输入的时频表征,以获得该目标源的分离信号的估计的时频表征,这里称为估计频谱图。时频表征例如可以是短时傅立叶变换,在这种情况下,将每个掩码应用于混合输入的短时傅立叶变换,以获得该目标源的分离信号的短时傅立叶变换的估计,这是对单独观察的目标源的单独信号进行短时傅立叶变换的估计。
混合编码还由嵌入计算模块1022进一步处理,其估计嵌入集合。根据嵌入的频谱图估计模块1023可以用于处理这些嵌入向量以及混合输入1008,以输出另一估计频谱图集合。
这些根据嵌入的估计频谱图可以与根据掩码的估计频谱图组合以获得组合的估计频谱图,或者可以代替根据掩码的估计频谱图使用根据嵌入的估计频谱图,以用作向频谱图细化网络1040和后续步骤的输入。频谱图细化网络1040进一步处理估计频谱图,以获得每个源的细化频谱图。这些细化频谱图由信号重构模块进一步处理,在短时傅立叶变换表征的情况下,信号重构模块将逆STFT应用于每个细化频谱图。误差计算模块1030可以使用根据掩码的频谱图估计模块1013的输出和参考源信号1034来计算频谱图估计损失
Figure BDA0002717730190000181
误差计算模块1030还可以使用根据嵌入的频谱图估计模块1023的输出和参考源信号1034,结合以上频谱图估计损失或代替以上频谱图估计损失,来计算频谱图估计损失
Figure BDA0002717730190000182
误差计算模块1030还可以使用频谱图细化网络1040的输出和参考源信号1034,结合以上频谱图估计损失或代替以上频谱图估计损失,来计算频谱图估计损失
Figure BDA0002717730190000183
误差计算模块1030可以使用嵌入计算模块1022的输出和参考源信号1034来计算嵌入损失
Figure BDA0002717730190000184
误差计算模块1030可以使用信号重构模块的输出和参考源信号1034来计算信号重构损失
Figure BDA0002717730190000185
误差计算模块1030可以使用根据掩码的频谱图估计模块1013的输出、根据嵌入的频谱图估计模块1023的输出以及频谱图细化网络模块1040的输出中的一者或多者来计算一致性度量C。频谱图估计损失、嵌入损失、信号重构损失和一致性度量的加权组合为总损失
Figure BDA0002717730190000186
总损失用于计算目标信号估计模块1011的参数的更新。
(技术概念)
本公开的一些实施方式包括用于单信道非特定人多讲话者语音分离的端对端方法,其中时频(TF)掩蔽、短时傅立叶变换(STFT)及其逆(逆STFT或iSTFT)表示为深度网络中的层。在实验期间,一些实验方法不是如本公开中那样计算关于重构信号的损失,而是使用(实验方法)基于目标STFT幅度的替代损失。然而,这些实验方法忽略了由相位不一致引起的重构误差。本公开的一些实施方式包括直接关于重构信号定义的损失函数,这些重构信号被优化以实现最佳分离。另外,一些实施方式通过相位重构算法的展开迭代来训练,该迭代被表示为一系列STFT和逆STFT层。
尽管对于使用混合相位进行重构的方法,通常将掩码值限制为介于零和1之间,但是如果将估计的幅度与相位重构一起使用,则此限制可能无关紧要。因此,本公开的一些实施方式的几种激活函数用于T-F掩蔽的输出层,以允许掩码值超过1。从实验来看,结果达到了最高水准的12.6dB尺度不变信号失真比(SI-SDR)和13.1dB SDR,这揭示了一些实施方式在基于深度学习的相位重构方面的优势,并代表了解决众所周知的鸡尾酒会难题的根本性进展。
在实验过程中,进行了在时频(T-F)域中对幅度进行分离的实验,并直接利用混合相位进行时域再合成,这主要是因为相位很难估计。然而,实验结果表明,存在相位不一致的问题,对于语音处理来说尤为如此,在语音处理中,连续帧之间通常至少有一半重叠。这种重叠使得语音信号的STFT表征高度冗余。因此,使用估计的幅度和混合相位获得的增强STFT表征不在一致的STFT域内,这意味着不能保证存在具有该STFT表征的时域信号。
为了提高一致性,一些实验着重于迭代方法(例如经典的Griffin-Lim算法、多输入频谱图反演(MISI)算法、使用迭代重构的知情源分离(ISSIR)以及一致维纳(Wiener)滤波),这些迭代方法通过迭代地进行STFT和iSTFT,能够从混合相位开始在一定程度上恢复干净相位,并有良好的估计幅度。实验过程中测试的一些方法将迭代算法作为后处理步骤应用于基于深度学习的语音增强和分离所产生的幅度。
但是,即使来自DNN的幅度估计相当好,实验的结果也只会带来很小的改进。经过思考,这可能是因为在进行时频掩蔽时,没有意识到后面的相位重构步骤,因此可能无法产生适合迭代相位重构的频谱结构。因此,在多次实验的基础上,本公开提出了一种端对端语音分离算法,该算法经由时频(T-F)掩蔽通过迭代相位重构以进行信号电平逼近来进行训练。
(Chimera++网络)
为了通过相位重构来引发良好的相位,通过实验了解到,有必要首先获得足够好的幅度估计。基于进一步的实验,一种多任务学习方法将深度聚类的正则化能力与掩码推断的端对端训练的轻松性相结合,对个体模型产生了重大改进。
从实验中得到的深度聚类的至少一个关键方面是使用强大的深度神经网络(DNN)学习每个T-F单元的高维嵌入向量,使得由同一讲话者主导的T-F单元的嵌入在嵌入空间中彼此接近,反之则远离。这样,根据我们的实验,可以将k-均值之类的聚类方法应用于学习的嵌入,以在运行时间进行分离。更具体地,该网络可以计算与第i个T-F元素相对应的单位长度嵌入向量
Figure BDA0002717730190000191
同样地,
Figure BDA0002717730190000192
是独热标签向量,其表征混合中的哪个源主导第i个T-F单元;可以导出此信息以获取训练数据,其中可以使用单独源信号及其混合。将它们竖向堆叠,形成嵌入矩阵
Figure BDA0002717730190000201
和标签矩阵
Figure BDA0002717730190000202
可以通过逼近根据嵌入的亲和矩阵来学习嵌入:
Figure BDA0002717730190000203
根据实验,了解到,在k-均值目标中白化嵌入的另选损失函数可能会带来更好的分离性能。
Figure BDA0002717730190000204
为了学习嵌入,根据一些测试方法,可以使用双向LSTM(BLSTM)对过去和将来的帧中的上下文信息进行建模。图9B的底部示出了网络架构,其中,嵌入计算模块是完全连接的层,其后是非线性(例如逻辑S形),然后是每个频率的单位长度归一化。
对掩码推断网络进行了另一种无排列组合训练方案的实验。实验的思路是训练掩码推断网络,以使得在所有的排列组合中的损失最小化。然后,将相位敏感掩码(PSM)用作训练目标。从相位敏感频谱逼近(PSA)的实验中了解到,是要截断无界掩码值。利用
Figure BDA0002717730190000205
截断PSA(tPSA)的目标为:
Figure BDA0002717730190000206
其中∠X是混合相位,∠Sc是第c个源的相位,是关于{1,…,C}的排列组合的集合。||是混合幅度,
Figure BDA0002717730190000208
第c个估计掩码,|c|第c个参考源的幅度,⊙表示逐元素矩阵乘法,并且γ是掩码截断因子。从实验中可以了解到,S曲线激活与γ=1一起可以用于T-F掩码的输出层。为了使网络具有更多的能力,下面标题为“值大于1的激活函数”一节中进一步讨论了可以使用γ>1的多个激活函数。经过进一步的实验后,提出了一种通过多任务学习将两种方法结合在一起的chimera++网络(如图9C中所示)。其中,损失函数可以是深度聚类损失和掩码推断损失的加权和。
Figure BDA0002717730190000209
通过实验进一步了解到,可能需要深度聚类输出或掩码推断输出来在运行时间进行预测,而无需计算其它值。
(迭代相位重构)
根据本公开的一些实施方式,要在每种混合中分离多个目标源。一种实验方法使用Griffin-Lim算法,该算法独立地对每个源进行迭代重构。然而,本公开的实验中的其它方法利用MISI算法来从每个源的估计幅度和混合相位开始重构每个源的干净相位,其中在每次迭代之后所重构的时域信号的总和可以被限制为等于混合信号。从实验中注意到,估计的幅度在迭代过程中保持固定,而可以迭代地重构每个源的相位。例如,一些方法包括仅作为后处理添加的相位重构,并且它不是训练过程中目标函数的一部分,在重新合成之前,仍然根据估计信号的时频表征来计算相位重构。
MISI算法可以总结如下。
输入:混合时域信号x,混合复频谱图X,混合相位∠X,增强幅度
Figure BDA0002717730190000211
(c=1,…,C)以及迭代数K。
输出:重构相位
Figure BDA0002717730190000212
以及信号
Figure BDA0002717730190000213
初始化步骤:
Figure BDA0002717730190000214
迭代:i=1,…,K,进行:
Figure BDA0002717730190000215
Figure BDA0002717730190000216
Figure BDA0002717730190000217
(波形逼近)
实验过程中测试的诸如MISI之类的相位重构算法从时频域表征重构波形的第一步使用了反STFT。其中一些方法考虑了关于iSTFT重构的波形计算出的第一目标函数,该函数表示为波形逼近(WA),并将iSTFT表征为掩码推断层之上的一层,从而可以进行端对端的优化。后来了解到,在实验过程中,标签排列组合问题是通过将所有排列组合在波形级的最小值L1损失最小化来解决的。注意,可以用WA这种方式来训练该模型。训练这个模型的目标函数可以是
Figure BDA0002717730190000218
其中,sc表示源c的时域信号,并且
Figure BDA0002717730190000219
表示通过逆STFT从第c个估计幅度和混合相位的组合获得的第c个时域信号。注意,此处仍可以使用混合相位,并且尚未进行相位重构。其中,这对应于MISI算法中的初始化步骤。
(展开的迭代相位重构)
一些实施方式将MISI算法中的迭代展开为神经网络中的各种确定性层。这可以通过在掩码推断层之上进一步生长表征STFT和iSTFT操作的若干层来实现。通过进行经由MISI训练的端对端优化,网络可以了解以后的迭代相位重构步骤,并学会生成非常适合后续处理的估计幅度,从而为分离生成更好的相位估计。以这种方式训练的模型表示为WA-MISI-K,其中K≥1是展开的MISI迭代次数。目标函数是
Figure BDA0002717730190000221
其中,
Figure BDA0002717730190000222
表示在K次MISI迭代之后获得的第c个时域信号。整个分离网络(包括Chimera++网络的掩码推断头的输出处的展开相位重构步骤)可以如图3所示。STFT和iSTFT可以使用深度学习工具包实施成在GPU上有效计算的确定性层,并借助确定性层在训练时进行反向传播。
(通过K次MISI迭代进行训练)
(值超过1的激活函数)
S形单元可以用于基于深度学习的T-F掩蔽的输出层,部分原因是它们可以基于实验对具有双模态分布的井数据进行建模,例如理想比率掩码(IRM)及其变体。当使用混合相位进行重构时,将T-F掩码的可能值限制在[0,1]内也是合理的:实际上,在源间干扰导致混合幅度小于源的幅度的区域中,理论上需要大于1的T-F掩码值;但在这种区域中,混合相位也很可能与该源的相位不同,在这种情况下,从客观度量上讲,过度抑制比在错误的方向上走得更远更有价值。如果在优化中考虑相位重构,这就不再有效了。此外,将掩码值封顶在零和1之间,更有可能使增强幅度进一步远离一致STFT域,为以后的相位重构带来潜在的困难。
为了获得干净幅度,oracle掩码应为Sc|/|X|。(也称为FFT掩码或理想振幅掩码)。显然,该掩码可以超过1,因为底层的源尽管在统计上是独立的,但在特定的T-F单元上可能具有相反的相位,因此会相互抵消并产生小于给定源的幅度的混合幅度。预测此类T-F单元的掩码值可能要困难得多,但我们认为仍可以根据上下文信息来实现。
在实验中,将PSM中的值截断为在[0,2]范围内(即
Figure BDA0002717730190000223
方程式中的γ=2),因为实际上只有一小部分掩码值超出了该范围。可以在输出层中利用多个激活函数。我们在这里考虑了几种可能的函数,但是也可以考虑其它函数:
加倍的S形函数:S形非线性乘以2;
修剪的ReLU函数:ReLU非线性修剪至[0,2];
凸softmax函数:对于每个T-F单元的每个源,输出非线性是三维softmax。其用于计算值0、1和2之间的凸和:y=[x0,x1,x2][0,1,2]T,其中[x0,x1,x2]是softmax的输出。此激活函数旨在模拟PSM直方图中集中在0、1和2处的三种模式。
图11示出了用于语音分离的另选音频信号处理系统的框图,特别地,图11包括语音分离网络。
参考图11,系统包括:处理器1102,其构造成执行所存储的指令;以及存储器1104,其存储关于神经网络1108的指令,神经网络1108包括语音分离网络1112。处理器1102可以是单核处理器、多核处理器、图形处理单元(GPU),计算聚类或任何其它数量的配置。存储器/存储部1105可以包括随机存取存储器(RAM)、只读存储器(ROM)、闪存或任何其它合适的存储器系统。存储器1105还可以包括硬盘驱动器、光盘驱动器、拇指驱动器、驱动器阵列或其任何组合。处理器1102经由总线1106连接至一个或多个输入和输出接口/装置。
存储器1105存储经训练以将包括混合的语音信号的声学信号转换成分离的语音信号的神经网络1108,并且执行所存储的指令的处理器1102使用从存储器1105检索的神经网络1108进行语音分离。神经网络1108被训练以将包括混合语音信号的声学信号转换成分离的语音信号。神经网络1108可以包括语音分离网络1112,该语音分离网络1112被训练以根据声学信号的声学特征估计分离的信号。
在一个实施方式中,神经网络1108还包括特征提取器(未示出),该特征提取器构造成从单通道信号中提取语音分离网络要使用的声学特征。特征提取器是可微函数,因此可以连接到单个端对端神经网络。可微函数的实施例包括信号的复合STFT、信号的幅度STFT、信道信号的幅度的Mel函数以及信道信号的幅度的bark函数。
在一个实施中,可微函数是另一种神经子网,该神经子网被训练以从信道信号中提取声学特征。在该实施中,特征提取子网与语音分离网络共同被训练。
可以使用梯度下降法优化可微函数,以使得针对给定输入,函数的输出逼近目标输出。函数也可以使用配对的输入和目标输出样本以逼近未知映射函数,使得所有输入样本都尽可能正确地映射到相应的目标样本。
因为可微函数的组成也可微,所以可以组合级联的处理模块(每个模块均被设计成可微函数)以共同优化它们。
神经网络是可微函数。根据本公开,可以利用包括多个神经网络的可微函数来实施端对端语音分离的所有组成。
该系统可以包括用于接收语音信号的输入接口(即麦克风1120)以及用于呈现分离信号的输出接口(即扬声器接口1122)。例如,多个麦克风1120可以将声音转换成多信道语音信号1138。另外,或者另选地,输入接口可以包括网络接口控制器(NIC)1130,该NIC适于经由总线1106将系统连接至网络1136。可以经由网络1136下载并存储语音信号1138以用于进一步处理。
仍然参考图11,输出接口的其它实施例可以包括成像接口1126以及打印机接口1130。例如,系统可以经由总线1106链接到适于将系统连接至显示装置1714的显示接口1122,其中显示装置1124可以包括计尤其是算机监视器、摄像头、电视、投影仪或移动装置。
另外地或另选地,该系统可以连接至适于将系统连接至成像装置1128的成像接口1126。成像装置1128可以包括摄像头、计算机、扫描仪、移动装置、网络摄像头或其任何组合。另外地或另选地,该系统可以连接至打印机接口1131,该打印机接口1131适于将该系统连接至打印装置1132。打印装置1132可以包括尤其是液体喷墨打印机、固体墨水打印机、大规模商用打印机、热敏打印机、UV打印机或热升华打印机。
图12A和图12B是借助非限制性实施例示出根据本公开的实施方式的可用于实施方法和系统的一些技术的计算设备1200的示意图。计算设备或装置1200代表各种形式的数字计算机,例如膝上型计算机、台式计算机、工作站、个人数字助理、服务器、刀锋服务器、大型机和其它适当的计算机。
计算装置1200可以包括都连接至总线1250的电源1208、处理器1209、存储器1210、存储装置1211。此外,高速接口1212、低速接口1213、高速扩展端口1214和低速连接端口1215可以连接至总线1250。此外,低速扩展端口1216与总线1250连接。借助非限制性实施例1230,可以构想可以取决于特定应用而安装在通用主板上的各种组件构造。此外,输入接口1217可以经由总线1250连接至外部接收器1206和输出接口1218。接收器1219可以经由总线1250连接至外部发送器1207和发送器1220。外部存储器1204、外部传感器1203、机器1202和环境1201也可以连接至总线1250。此外,一个或多个外部输入/输出装置1205可以连接至总线1250。网络接口控制器(NIC)1221可以是适用于经由总线1250连接至网络1222,其中数据或其它数据尤其可以呈现在计算机装置1200外部的第三方显示装置、第三方成像装置和/或第三方打印装置上。
可以构想到的是,存储器1210可以存储可由计算机装置1200执行的指令,还可以存储历史数据以及可以由本公开的方法和系统利用的任何数据。存储器1210可以包括随机存取存储器(RAM)、只读存储器(ROM),闪存或任何其它合适的存储器系统。存储器1210可以是一个或多个易失性存储单元,和/或一个或多个非易失性存储单元。存储器1210也可以是另一种形式的计算机可读介质,例如磁盘或光盘。
仍然参考图12A,存储装置1211可以适于存储计算机装置1200使用的补充数据和/或软件模块。例如,存储装置1211可以存储历史数据和以上关于本公开内容所提及的其它相关数据。另外地或另选地,存储装置1211可以存储类似于如上所述的关于本公开的数据的历史数据。存储装置1211可以包括硬盘驱动器、光盘驱动器、拇指驱动器、驱动器阵列或其任何组合。此外,存储装置1211可以包含计算机可读介质,例如软盘装置、硬盘装置、光盘装置或磁带装置、闪存或其它类似的固态存储装置或装置阵列,这包括存储区域网络或其它配置中的装置。指令可以存储在信息载体中。指令在由一个或多个处理装置(例如,处理器1209)执行时执行一种或多种方法,例如上述方法。
该系统可以经由总线1250可选地链接至适于将系统连接至显示装置1225和键盘1224的显示接口或用户接口(HMI)1223,其中显示装置1225可以包括尤其是计算机监视器、摄像头、电视机、投影仪或移动装置。
仍然参考图12A,计算机装置1200可以包括适合于打印机接口(未示出)的用户输入接口1217,也可以经由总线1250连接并适合于连接至打印装置(未示出),其中,打印装置可以包括尤其是液体喷墨打印机、固体墨水打印机、大型商用打印机、热敏打印机、UV打印机或热升华打印机。
高速接口1212管理计算装置1200的带宽密集型操作,而低速接口1213管理低带宽密集型操作。这种功能分配仅是实施例。在一些实施中,高速接口1212可以联接至存储器1210、用户接口(HMI)1223,并且联接至键盘1224和显示器1225(例如,通过图形处理器或加速器),并且联接至高速扩展端口1214,该高速扩展端口1214可以经由总线1250接受各种扩展卡(未示出)。在实施中,低速接口1213经由总线1250联接至存储装置1211和低速扩展端口1215。低速扩展端口1215可以包括各种通信端口(例如,USB、蓝牙、以太网、无线以太网),可以联接至(例如通过网络适配器)一个或多个输入/输出装置1205、其它装置(包括键盘1224、定点装置(未示出)、扫描仪(未示出)或网络装置(例如交换机或路由器))。
仍然参考图12A,计算装置1200可以如图所示以多种不同形式实施。例如,计算装置1200可以实施成标准服务器1226,或者在一组这样的服务器中的多次实施。另外,计算装置1200可以在诸如膝上型计算机1227之类的个人计算机中实施。计算装置1200也可以实施成机架服务器系统1228的一部分。另选地,来自计算装置1200的组件可以与诸如图12B的移动计算装置之类的移动装置(未示出)中的其它组件组合。每个这样的装置均可以包含计算装置和移动计算装置中的一者或多者,并且整个系统可以由彼此通信的多个计算装置构成。
图12B是示出根据本公开的实施方式的可用于实现所述方法和系统的一些技术的移动计算设备的示意图。移动计算装置1299包括总线1295,总线1295尤其连接处理器1261、存储器1262、输入/输出装置1263、通信接口1264。总线1295也可以连接至存储装置1265(例如微驱动器或其它装置),以提供附加的存储。
参考图12B,处理器1261可以在移动计算装置内执行指令,包括存储在存储器1262中的指令。处理器1261可以实现成包括分离的多个模拟和数字处理器的芯片的芯片组。处理器1261可以提供例如移动计算装置的其它组件的协调,例如对用户接口的控制、由移动计算装置运行的应用以及由移动计算装置1800B进行的无线通信。可以构想可以取决于特定应用而安装在作为非限制性实施例的通用主板1299上的各种组件构造。
处理器1261可以经由控制接口1266和联接至显示器1268的显示接口1267与用户通信。显示器1268可以是例如TFT(薄膜晶体管液晶显示器)显示器或OLED(有机发光二极管)显示器或其它合适的显示技术。显示接口1267可以包括用于驱动显示器1268以向用户呈现图形和其它信息的适当电路。控制接口1266可以从用户接收命令并且转换这些命令以提交给处理器1261。另外,外部接口1269可以提供与处理器1861的通信,以便实现移动计算装置与其它装置的近距离通信。外部接口1269可以例如在一些实施中提供有线通信,或者在其它实施方式中提供无线通信,并且也可以使用多个接口。
仍然参考图12B,存储器1262将信息存储在移动计算装置内。存储器1262可以实现成一个或多个计算机可读介质、一个或多个易失性存储单元或一个或多个非易失性存储单元中的一者或多者。还可以提供扩展存储器1270,并借助扩展接口1269将扩展存储器1270连接至移动计算装置1299,扩展接口1269可以包括例如SIMM(单列直插式内存组件)卡接口。扩展存储器1270可以为移动计算装置1299提供额外的存储空间,或者还可以为移动计算装置1299存储应用或其它信息。具体地,扩展存储器1270可以包括用于实施或补充上述处理的指令,并且还可能包括安全信息。因此,例如,扩展存储器1270可以提供成用于移动计算装置1299的安全模块,并且可以用允许安全使用移动计算装置的指令来编程。另外,可以经由SIMM卡以及附加信息提供安全应用,诸如以不可黑客攻击的方式将标识信息放置在SIMM卡上。
如下所述,存储器1262可以包括例如闪存和/或NVRAM存储器(非易失性随机存取存储器)。在一些实施中,指令存储在信息载体中,该指令在由一个或多个处理装置(例如,处理器)执行时执行诸如上述方法之类的一种或多种方法。指令还可以由一个或多个存储装置存储,例如一个或多个计算机或机器可读介质(例如,存储器1262、扩展存储器1270或处理器1262上的存储器)。在一些实施中,可以例如通过收发器1271或外部接口1269在传播的信号中接收指令。
图12B的移动计算设备或装置旨在代表各种形式的移动装置,例如个人数字助理、蜂窝电话、智能电话和其它类似的计算装置。移动计算装置可以经由通信接口1264进行无线通信,该通信接口在必要时可以包括数字信号处理电路。通信接口1264可以提供各种模式或协议下的通信,尤其是例如GSM语音呼叫(全球移动通信系统)、SMS(短消息服务)、EMS(增强消息服务)或MMS消息(多媒体消息服务)、CDMA(码分多址)、TDMA(时分多址)、PDC(个人数字蜂窝)、WCDMA(宽带码分多址)、CDMA2000或GPRS(通用分组无线业务)。例如,可以使用射频通过收发器1271发生这种通信。另外,可以例如使用蓝牙、WiFi或其它此类收发器(未示出)发生短距离通信。另外,GPS(全球定位系统)接收器模块1273可以向移动计算装置提供附加的导航和与位置有关的无线数据,这些导航和无线数据可以适当地由在移动计算装置上运行的应用程序使用。
移动计算装置还可以使用音频编解码器1272在听觉上进行通信,该音频编解码器可以从用户接收语音信息并将其转换为可用的数字信息。音频编解码器1272也可以例如通过例如在移动计算装置的手机中的扬声器为用户生成可听见的声音。这样的声音可以包括来自语音电话呼叫的声音,可以包括记录的声音(例如,语音消息、音乐文件等),并且还可以包括由在移动计算装置上运行的应用生成的声音。
仍然参考图12B,移动计算装置可以如图所示以多种不同的形式实施。例如,移动计算装置可以实施成蜂窝电话1274。移动计算装置也可以实施成智能电话1275、个人数字助理或其它类似的移动装置的一部分。
(特征)
根据本公开的方面,频谱图估计器使用深度神经网络。频谱图估计器包括:掩码估计模块,其输出每个目标音频信号的掩码估计值;以及频谱图估计输出模块,其使用一个或多个目标音频信号的掩码估计值和输入音频信号,以输出每个目标音频信号的估计频谱图。其中,至少一个掩码估计值大于1。
本公开的另一方面可以包括频谱图细化模块的处理,该处理包括定义作用于估计频谱图集合和输入音频特征序列的迭代过程。将迭代过程展开为层集合,使得该过程的每次迭代都有一个层,并且其中每个层均包括固定网络参数集合。使用来自先前迭代层的固定网络参数集合的一些固定网络参数作为待训练的变量来形成神经网络,并在每个变量可单独应用于它们相应的层时通过将所述变量视为单独变量来跨所述先前迭代层求解这些变量。训练神经网络以获得训练的神经网络。使用训练的神经网络来转换估计频谱图集合和音频特征序列,以获得细化频谱图集合。
本公开的另一方面可以包括迭代重构算法,该迭代重构算法是迭代相位重构算法。其中,迭代相位重构算法是多输入频谱图反演(MISI)算法。其中迭代相位重构算法为Griffin-Lim算法。
一个方面可以包括关于目标音频信号估计的误差,该误差包括目标音频信号估计和参考目标音频信号之间的距离。此外,一个方面可以包括关于目标音频信号估计的误差,该误差包括目标音频信号估计频谱图与参考目标音频信号的频谱图之间的距离。更进一步,一个方面可以包括通过频谱图估计器进行提取,该提取包括特征提取模块,使得特征提取模块从输入音频信号提取输入音频信号。所接收的音频信号可能包括一个或多个讲话者、噪声、音乐、环境声音、机器声音以及它们的某一组合中的一者。
(实施方式)
以下描述仅提供示例性实施方式,并且无意于限制本公开的范围、适用性或构造。相反,示例性实施方式的以下描述将为本领域技术人员提供用于实施一个或多个示例性实施方式的使能性描述。在不脱离如所附权利要求书中所公开的主题的精神和范围的情况下,可以构想可以在元件的功能和布置上进行的各种改变。
以下描述中给出了具体细节以提供对实施方式的透彻理解。然而,本领域普通技术人员可以理解,可以在没有这些具体细节的情况下实践实施方式。例如,所公开的主题中的系统、过程和其它元件可以以框图形式示出为组件,以便不会在不必要的细节上模糊实施方式。在其它情况下,可以在不示出非必要细节地示出公知的过程、结构和技术,以避免模糊实施方式。此外,各个附图中相同的附图标记和标号表示相同的元件。
而且,各个实施方式可以被描述成被描绘为程序框图、流程图、数据流程图、结构图或框图的处理。尽管程序框图可以将操作描述为顺序处理,但是许多操作可以并行或同时进行。另外,可以重新安排操作的顺序。当处理的操作完成时,它可能会终止,但是可能会有未讨论或未包括在图中的其它步骤。此外,并非所有实施方式中都会发生任何特别描述的处理中的所有操作。处理可以对应于方法、函数、过程、子例程、子程序等。当处理对应于函数时,函数的终止可以对应于函数返回到调用函数或主函数。
此外,可以至少部分地手动地或自动地实施所公开的主题的实施方式。可以通过使用机器、硬件、软件、固件、中间件、微代码、硬件描述语言或其任意组合来执行或至少辅助手动或自动实施。当在软件、固件、中间件或微代码中实施时,可以将进行必要任务的程序代码或代码段存储在机器可读介质中。处理器可以进行必要的任务。
此外,本公开的实施方式和本说明书中描述的功能操作可以在数字电子电路中、在有形的计算机软件或固件中、在计算机硬件中(包括本说明书中公开的结构及其等同结构或其中一个或多个的组合)实施。本公开的另外一些实施方式可以实施成一个或多个计算机程序,即,在有形的非暂时性程序载体上编码的计算机程序指令的、由数据处理设备执行或控制数据处理设备的操作的一个或多个模块。更进一步,程序指令可以编码在人工产生的传播信号(例如机器产生的电、光或电磁信号)上,产生这些传播信号以对信息进行编码以传输到合适的接收器设备从而由数据处理设备去执行。计算机存储介质可以是机器可读存储装置、机器可读存储基板、随机或串行访问存储装置或它们中的一个或多个的组合。
根据本公开的实施方式,术语“数据处理设备”可以涵盖用于处理数据的各种装置、设备和机器,例如包括可编程处理器、计算机或多个处理器或计算机。该设备可以包括专用逻辑电路,例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除了硬件之外,该设备还可以包括为所讨论的计算机程序创建执行环境的代码,例如,构成处理器固件、协议栈、数据库管理系统、操作系统或其中一者或多者的组合的代码。
可以以任何形式的编程语言(包括编译或解释的语言或声明性或程序语言)编写计算机程序(也可以称为或描述为程序、软件、软件应用、模块、软件模块、脚本或代码),并且可以以任何形式部署计算机程序,包括作为独立程序或作为模块、组件、子例程或适用于计算环境的其它单元。计算机程序可以但不必对应于文件系统中的文件。程序可以存储在保存其它程序或数据的文件的一部分中(例如存储在标记语言文档中的一个或多个脚本)、专用于所讨论的程序的单个文件中或多个协调文件(例如,存储一个或多个模块、子程序或部分代码的文件)中。可以将计算机程序部署成在一台计算机上执行,或者在位于一个站点上或分布在多个站点上并借助通信网络互连的多台计算机上执行。例如,适合于执行计算机程序的计算机可以基于通用或专用微处理器或两者,或者基于任何其它种类的中央处理单元。通常,中央处理单元将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于进行或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储装置。通常,计算机还将包括一个或多个用于存储数据的大容量存储装置(例如,磁盘、磁光盘或光盘),或可操作地联接以从该大容量存储装置接收数据或将数据传输到大容量存储装置,或从该大容量存储装置接收数据并将数据传输到大容量存储装置。但是,计算机不必具有此类装置。此外,计算机可以嵌入到另一个装置中,例如,移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(GPS)接收器或便携式存储装置(例如通用串行总线(USB)闪存驱动器),仅举几例。
为了提供与用户的交互,可以在具有用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或LCD(液晶显示器)监视器)以及供用户向计算机提供输入的键盘和定点装置(例如鼠标或轨迹球)的计算机上实施本说明书中描述的主题的实施方式。其它种类的装置也可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的感觉反馈,例如视觉反馈,听觉反馈或触觉反馈;并且可以以任何形式接收来自用户的输入,包括声音、语音或触觉输入。另外,计算机可以通过向用户使用的装置发送文档或从用户使用的装置接收文档来与用户进行交互;例如,通过响应从Web浏览器接收到的请求,将网页发送到用户客户端装置上的Web浏览器。
可以在包括后端组件(例如,作为数据服务器)或者包括中间件组件(例如,应用服务器)或者包括前端组件(例如,具有图形用户界面或Web浏览器的客户端计算机,用户可以借助图形用户界面或Web浏览器与本发明中描述的主题的实施进行交互)或者一个或多个此类后端组件、中间件或前端组件的任意组合的计算系统中实施本说明书中描述的主题的实施方式。系统的组件可以借助数字数据通信的任何形式或介质(例如,通信网络)互连。通信网络的实施例包括局域网(“LAN”)和广域网(“WAN”),例如因特网。
该计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离,并且通常借助通信网络进行交互。客户端和服务器之间的关系是借助在相应计算机上运行并彼此具有客户端-服务器关系的计算机程序产生的。

Claims (19)

1.一种用于转换输入音频信号的音频信号处理系统,其中,所述输入音频信号包括混合的一个或多个目标音频信号,所述系统包括:
存储器,所述存储器包括存储的可执行指令和存储的模块,使得所述模块转换输入音频信号以获得目标音频信号估计;
处理器,所述处理器与所述存储器通信,其中所述处理器通过以下来实现所述模块的步骤:
将所述输入音频信号输入到频谱图估计器中以提取音频特征序列,并对所述音频特征序列进行处理,以输出估计频谱图集合,其中,所述估计频谱图集合包括每个目标音频信号的估计频谱图;
使用频谱图细化模块处理所述估计频谱图集合和所述音频特征序列,以输出细化频谱图集合,使得所述细化频谱图集合包括每个目标音频信号的细化频谱图,并且其中所述频谱图细化模块的所述处理是基于迭代重构算法的;
使用信号细化模块处理所述一个或多个目标音频信号的所述细化频谱图集合,以获得所述目标音频信号估计,使得每个目标音频信号均存在目标音频信号估计;以及
输出接口,所述输出接口用于输出所述优化的目标音频信号估计,
其中,通过使用存储在所述存储器中的优化器使误差最小化来优化所述模块,其中,所述误差包括关于所述估计频谱图集合的误差、关于所述细化频谱图集合的误差、包括所述细化频谱图集合的一致性度量的误差、关于所述目标音频信号估计的误差以及它们的某一组合中的一者。
2.根据权利要求1所述的音频信号处理系统,其中,所述频谱图估计器使用深度神经网络。
3.根据权利要求1所述的音频信号处理系统,其中,所述频谱图估计器包括:掩码估计模块,所述掩码估计模块输出每个目标音频信号的掩码估计值;以及频谱图估计输出模块,所述频谱图估计输出模块使用所述一个或多个目标音频信号的所述掩码估计值以及所述输入音频信号以输出每个目标音频信号的所述估计频谱图。
4.根据权利要求3所述的音频信号处理系统,其中,至少一个掩码估计值大于1。
5.根据权利要求1所述的音频信号处理系统,其中,所述频谱图细化模块的所述处理包括:
定义作用于所述估计频谱图集合和所述输入音频特征序列的迭代过程;
将所述迭代过程展开为层集合,以使得对于所述过程的每次迭代都有一个层,并且其中每个层均包括固定网络参数集合;
使用来自先前迭代层的所述固定网络参数集合的一些固定网络参数作为待训练变量来形成神经网络,并在每个变量单独应用于它们相应的层时通过将所述变量视为单独变量来跨所述先前迭代层求解这些变量;
训练所述神经网络以获得训练的神经网络;以及
使用所述训练的神经网络来转换所述估计频谱图集合和所述音频特征序列,以获得所述细化频谱图集合。
6.根据权利要求1所述的音频信号处理系统,其中,所述迭代重构算法是迭代相位重构算法。
7.根据权利要求6所述的音频信号处理系统,其中,所述迭代相位重构算法是多输入频谱图反演MISI算法。
8.根据权利要求6所述的音频信号处理系统,其中,所述迭代相位重构算法是Griffin-Lim算法。
9.根据权利要求1所述的音频信号处理系统,其中,关于所述目标音频信号估计的误差包括所述目标音频信号估计与所述参考目标音频信号之间的距离。
10.根据权利要求1所述的音频信号处理系统,其中,关于所述目标音频信号估计的误差包括目标音频信号估计的所述频谱图与所述参考目标音频信号的所述频谱图之间的距离。
11.根据权利要求1所述的音频信号处理系统,其中,通过频谱图估计器进行的所述提取包括特征提取模块,使得所述特征提取模块从所述输入音频信号提取所述输入音频信号。
12.根据权利要求1所述的音频信号处理系统,其中,所述接收的音频信号包括一个或多个讲话者、噪声、音乐、环境声音、机器声音以及它们的某一组合中的一者。
13.一种用于转换输入音频信号的方法,该方法包括以下步骤:
定义用于转换输入音频信号的模块,使得所述输入音频信号包括混合的一个或多个目标音频信号,其中,所述模块对所述输入音频信号进行转换,以获得目标音频信号估计;
与存储器通信的处理器,其中,所述处理器通过以下来实现所述模块的步骤:
将所述输入音频信号输入到所述模型的频谱图估计器中以提取音频特征序列,并对所述音频特征序列进行处理,以输出估计频谱图集合,其中,所述估计频谱图集合包括每个目标音频信号的估计频谱图;
使用所述模型的频谱图细化模块处理所述估计频谱图集合和所述音频特征序列,以输出细化频谱图集合,使得所述细化频谱图集合包括每个目标音频信号的细化频谱图,并且其中所述频谱图细化模块的所述处理是基于迭代重构算法的;
使用所述模型的信号细化模块处理所述一个或多个目标音频信号的所述细化频谱图集合,以获得所述目标音频信号估计,使得每个目标音频信号均存在目标音频信号估计;以及
输出接口,所述输出接口用于输出所述优化的目标音频信号估计,
其中,通过使用存储在存储器中的优化器使误差最小化来优化所述模块,其中,所述误差包括关于所述估计频谱图集合的误差、关于所述细化频谱图集合的误差、包括所述细化频谱图集合的一致性度量的误差、关于所述目标音频信号估计的误差以及它们的某一组合中的一者,并且
其中,所述步骤由与存储有可执行指令的所述存储器通信的处理器进行,使得所述模块存储在所述存储器中。
14.根据权利要求13所述的方法,其中,所述频谱图估计器包括:掩码估计模块,所述掩码估计模块输出每个目标音频信号的掩码估计值;以及频谱图估计输出模块,所述频谱图估计输出模块使用所述一个或多个目标音频信号的所述掩码估计值以及所述输入音频信号以输出每个目标音频信号的所述估计频谱图,其中,至少一个掩码估计值大于1。
15.根据权利要求13所述的方法,其中,所述频谱图细化模块的所述处理包括:
定义作用于所述估计频谱图集合和所述输入音频特征序列的迭代过程;
将所述迭代过程展开为层集合,以使得对于所述过程的每次迭代都有一个层,并且其中每个层均包括固定网络参数集合;
使用来自先前迭代层的所述固定网络参数集合的一些固定网络参数作为待训练变量来形成神经网络,并在每个变量单独应用于它们相应的层时通过将所述变量视为单独变量来跨所述先前迭代层求解这些变量;
训练所述神经网络以获得训练的神经网络;以及
使用所述训练的神经网络来转换所述估计频谱图集合和所述音频特征序列,以获得所述细化频谱图集合。
16.根据权利要求13所述的方法,其中,所述迭代重构算法是迭代相位重构算法。
17.根据权利要求13所述的方法,其中,所述优化器包括基于梯度下降的算法。
18.一种用于转换输入音频信号的音频信号处理系统,包括:
存储器,所述存储器包括存储的可执行指令和存储的模块,使得所述模块转换输入音频信号以获得目标音频信号估计,其中,输入音频信号包括混合的一个或多个目标音频信号;
处理器,所述处理器与所述存储器通信,其中,所述处理器通过以下来实现所述模块的步骤:
经由与所述处理器通信的输入接口接收所述输入音频信号;
将所述输入音频信号输入到频谱图估计器中以提取音频特征序列,并对所述音频特征序列进行处理,以输出估计频谱图集合,其中,所述估计频谱图集合包括每个目标音频信号的估计频谱图;
使用频谱图细化模块处理所述估计频谱图集合和所述音频特征序列,以输出细化频谱图集合,使得所述细化频谱图集合包括每个目标音频信号的细化频谱图,并且其中所述频谱图细化模块的所述处理是基于迭代重构算法的;
使用信号细化模块处理所述一个或多个目标音频信号的所述细化频谱图集合,以获得所述目标音频信号估计,使得每个目标音频信号均存在目标音频信号估计;以及
输出接口,所述输出接口用于输出所述优化的目标音频信号估计,
其中,通过使用存储在所述存储器中的优化器使误差最小化来优化所述模块,其中,所述误差包括关于所述估计频谱图集合的误差、关于所述细化频谱图集合的误差、包括所述细化频谱图集合的一致性度量的误差、关于所述目标音频信号估计的误差以及它们的某一组合中的一者。
19.一种用于转换输入音频信号的音频信号处理系统,包括:
声音检测装置,所述声音检测装置构造成从环境获取输入音频信号;
信号输入接口装置,所述信号输入接口装置构造成接收并发送所述输入音频信号,其中,所述输入音频信号包括混合的一个或多个目标音频信号;
音频信号处理装置,所述音频信号处理装置构造成处理所述输入音频信号,其中所述音频信号处理装置包括:
硬件处理器,所述硬件处理器构造成连接至存储器,所述存储器构造成输入/输出数据,其中所述硬件处理器执行以下步骤:
访问存储在所述存储器中的模块,使得所述模块转换所述输入音频信号以获得目标音频信号估计;
将所述输入音频信号输入到所述模块的频谱图估计器中,以提取音频特征序列,并对所述音频特征序列进行处理,以输出估计频谱图集合,其中,所述估计频谱图集合包括每个目标音频信号的估计频谱图;
使用所述模块的频谱图细化模块来处理所述估计频谱图集合和所述音频特征序列,以输出细化频谱图集合,使得所述细化频谱图集合包括每个目标音频信号的细化频谱图,并且其中所述频谱图细化模块的所述处理是基于迭代重构算法的;
使用所述模块的信号细化模块处理所述一个或多个目标音频信号的所述细化频谱图集合,以获得所述目标音频信号估计,使得每个目标音频信号均存在目标音频信号估计;以及
输出接口,所述输出接口用于输出所述优化的目标音频信号估计,
其中,通过使用存储在所述存储器中的优化器使误差最小化来优化所述模块,其中所述误差包括关于所述估计频谱图集合的误差、关于所述细化频谱图集合的误差、包括所述细化频谱图集合的一致性度量的误差、关于所述目标音频信号估计的误差以及它们的某一组合中的一者。
CN201980025148.1A 2018-04-16 2019-03-07 用于转换输入音频信号的音频信号处理系统及方法 Active CN111954904B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201862658567P 2018-04-16 2018-04-16
US62/658,567 2018-04-16
US15/983,256 2018-05-18
US15/983,256 US10529349B2 (en) 2018-04-16 2018-05-18 Methods and systems for end-to-end speech separation with unfolded iterative phase reconstruction
PCT/JP2019/010433 WO2019202886A1 (en) 2018-04-16 2019-03-07 Audio signal processing system and method for transforming input audio signals

Publications (2)

Publication Number Publication Date
CN111954904A true CN111954904A (zh) 2020-11-17
CN111954904B CN111954904B (zh) 2024-07-09

Family

ID=

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112562707A (zh) * 2020-11-30 2021-03-26 哈尔滨工程大学 一种单信道目标语音增强方法
CN112863538A (zh) * 2021-02-24 2021-05-28 复旦大学 一种基于视听网络的多模态语音分离方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060277035A1 (en) * 2005-06-03 2006-12-07 Atsuo Hiroe Audio signal separation device and method thereof
US20160071526A1 (en) * 2014-09-09 2016-03-10 Analog Devices, Inc. Acoustic source tracking and selection
US20170236531A1 (en) * 2016-02-16 2017-08-17 Red Pill VR, Inc. Real-time adaptive audio source separation
CN107517593A (zh) * 2015-02-26 2017-12-26 弗劳恩霍夫应用研究促进协会 用于使用目标时域包络来处理音频信号以获得经处理的音频信号的装置和方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060277035A1 (en) * 2005-06-03 2006-12-07 Atsuo Hiroe Audio signal separation device and method thereof
US20160071526A1 (en) * 2014-09-09 2016-03-10 Analog Devices, Inc. Acoustic source tracking and selection
CN107517593A (zh) * 2015-02-26 2017-12-26 弗劳恩霍夫应用研究促进协会 用于使用目标时域包络来处理音频信号以获得经处理的音频信号的装置和方法
JP2018510374A (ja) * 2015-02-26 2018-04-12 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 目標時間領域エンベロープを用いて処理されたオーディオ信号を得るためにオーディオ信号を処理するための装置および方法
US20170236531A1 (en) * 2016-02-16 2017-08-17 Red Pill VR, Inc. Real-time adaptive audio source separation

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ADITYA ARIE NUGRAHA ET AL.: "Multichannel Audio Source Separation With Deep Neural Networks", IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, vol. 24, no. 9, 16 June 2016 (2016-06-16), pages 1652, XP011617153, DOI: 10.1109/TASLP.2016.2580946 *
JOHN R. HERSHEY ET AL.: "Deep clustering: Discriminative embeddings for segmentation and separation", 2016 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), 19 May 2016 (2016-05-19), pages 31 - 35 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112562707A (zh) * 2020-11-30 2021-03-26 哈尔滨工程大学 一种单信道目标语音增强方法
CN112863538A (zh) * 2021-02-24 2021-05-28 复旦大学 一种基于视听网络的多模态语音分离方法及装置
CN112863538B (zh) * 2021-02-24 2022-06-14 复旦大学 一种基于视听网络的多模态语音分离方法及装置

Also Published As

Publication number Publication date
JP2021515277A (ja) 2021-06-17
EP3782153A1 (en) 2021-02-24
WO2019202886A1 (en) 2019-10-24
US20190318754A1 (en) 2019-10-17
JP7034339B2 (ja) 2022-03-11
US10529349B2 (en) 2020-01-07

Similar Documents

Publication Publication Date Title
US10529349B2 (en) Methods and systems for end-to-end speech separation with unfolded iterative phase reconstruction
JP7427723B2 (ja) ニューラルネットワークを使用したターゲット話者の声でのテキストからの音声合成
Kameoka et al. ACVAE-VC: Non-parallel voice conversion with auxiliary classifier variational autoencoder
Zhang et al. Deep learning for environmentally robust speech recognition: An overview of recent developments
Qian et al. Speech Enhancement Using Bayesian Wavenet.
Wu et al. An end-to-end deep learning approach to simultaneous speech dereverberation and acoustic modeling for robust speech recognition
CN111989742A (zh) 语音识别系统及使用语音识别系统的方法
Tzinis et al. Remixit: Continual self-training of speech enhancement models via bootstrapped remixing
CN110503971A (zh) 用于语音处理的基于神经网络的时频掩模估计和波束形成
CN113611323B (zh) 一种基于双通道卷积注意力网络的语音增强方法及系统
CN112567458B (zh) 音频信号处理系统、音频信号处理方法及计算机可读存储介质
US11355097B2 (en) Sample-efficient adaptive text-to-speech
EP4172987A1 (en) Speech enhancement
Jiang et al. An Improved Unsupervised Single‐Channel Speech Separation Algorithm for Processing Speech Sensor Signals
Li et al. Determined audio source separation with multichannel star generative adversarial network
CN116913304A (zh) 实时语音流降噪方法、装置、计算机设备及存储介质
Park et al. Unsupervised speech domain adaptation based on disentangled representation learning for robust speech recognition
CN111954904B (zh) 用于转换输入音频信号的音频信号处理系统及方法
CN116978359A (zh) 音素识别方法、装置、电子设备及存储介质
CN113035217B (zh) 一种基于声纹嵌入的低信噪比条件下的语音增强方法
CN114333892A (zh) 一种语音处理方法、装置、电子设备和可读介质
Li et al. Restoration of Bone-Conducted Speech With U-Net-Like Model and Energy Distance Loss
Mansali et al. Speech Localization at Low Bitrates in Wireless Acoustics Sensor Networks
Pérez Zarazaga Preserving Speech Privacy in Interactions with Ad Hoc Sensor Networks
KR102663654B1 (ko) 적응형 시각적 스피치 인식

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant