CN104737229A - 用于变换输入信号的方法 - Google Patents
用于变换输入信号的方法 Download PDFInfo
- Publication number
- CN104737229A CN104737229A CN201380054925.8A CN201380054925A CN104737229A CN 104737229 A CN104737229 A CN 104737229A CN 201380054925 A CN201380054925 A CN 201380054925A CN 104737229 A CN104737229 A CN 104737229A
- Authority
- CN
- China
- Prior art keywords
- sigma
- negative
- input signal
- parameter
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 64
- 230000001131 transforming effect Effects 0.000 title 1
- 239000013598 vector Substances 0.000 claims abstract description 43
- 239000011159 matrix material Substances 0.000 claims description 51
- 238000009826 distribution Methods 0.000 claims description 34
- 238000013507 mapping Methods 0.000 claims description 3
- 230000003044 adaptive effect Effects 0.000 claims description 2
- 239000007787 solid Substances 0.000 claims description 2
- 238000013398 bayesian method Methods 0.000 claims 2
- 230000001419 dependent effect Effects 0.000 abstract 1
- 230000008569 process Effects 0.000 description 15
- 238000012549 training Methods 0.000 description 13
- 238000012545 processing Methods 0.000 description 9
- 238000001228 spectrum Methods 0.000 description 8
- 230000007704 transition Effects 0.000 description 8
- 230000005236 sound signal Effects 0.000 description 7
- 230000004913 activation Effects 0.000 description 6
- 238000007796 conventional method Methods 0.000 description 6
- 230000000875 corresponding effect Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000012546 transfer Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000000926 separation method Methods 0.000 description 3
- 206010068052 Mosaicism Diseases 0.000 description 2
- 239000000654 additive Substances 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000004540 process dynamic Methods 0.000 description 2
- 210000003765 sex chromosome Anatomy 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000000996 additive effect Effects 0.000 description 1
- 239000004568 cement Substances 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000005183 dynamical system Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 101150067055 minC gene Proteins 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000005295 random walk Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000002269 spontaneous effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02163—Only one microphone
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Complex Calculations (AREA)
Abstract
形式为特征向量的序列的输入信号通过首先将所述输入信号的模型的参数存储到存储器中被变换为输出信号。使用所述向量和所述参数,推断隐变量的向量的序列。对于每个特征向量xn,存在隐变量hi,n的至少一个向量hn,并且每个隐变量非负。使用所述特征向量、隐变量的所述向量和所述参数来生成所述输出信号。每个特征向量xn依赖于相同n的所述隐变量hi,n中的至少一个。所述隐变量根据公式相关,其中j和l是求和索引。所述参数包括非负权重ci,j,l,并且εl,n是独立的非负随机变量。
Description
技术领域
本发明总体上涉及信号处理,并且更具体地涉及使用动态模型将输入信号变换为输出信号,其中所述信号是音频(语音)信号。
背景技术
用于对非平稳信号中的动力学(dynamics)进行建模的常用框架(framework)是具有时间动力学的隐马尔可夫模型(HMM,hidden Markov model)。HMM是用于语音识别的事实(de facto)标准。离散时间HMM通过以与未观测的随机状态变量{hn}的序列有关的概率分布为条件来对N个观测的(获取的)随机变量
def def
{xn}=x1:N={x1,x2,...,xN}(即,信号样本)的序列进行建模。通常对HMM限定两个约束。
首先,状态变量具有一阶马尔可夫动力学。这意味着p(hn|h1:n-1)=p(hn|hn-1),其中p(hn|hn-1)被称为转移(transition)概率。转移概率通常被约束为时不变。
其次,在给定相应的状态hn的情况下的每个样本xn与所有其它隐状态hn′(n′≠n)无关,使得p(xn|h1:N)=p(xn|hn),其中p(xn|hn)被称为观测概率。在许多语音应用中,状态hn是离散的,并且观测结果xn是F维向量值的连续的声学特征,
其中括号指示n不迭代。典型的频率特征是短时对数功率谱,其中f指示频率区间(bin)。
定义初始概率则HMM的随机变量的联合分布为
线性动态系统(Dynamical system)
相关模型是在卡尔曼(Kalman)滤波器中使用的线性动态系统。所述线性动态系统的特征是连续的、向量值的且联合高斯分布的状态和观测结果,
hn=Ahn-1+εn, (2)
vn=Bhn+νn, (3)
其中hn∈RK(或hn∈CK)是在时间n处的状态,K是状态空间的维度,A是状态转移矩阵,εn是加性高斯转移噪声,vn∈RF(或vn∈CF)是在时间n处的观测结果,F是观测(或特征)空间的维度,B是观测矩阵,νn是加性高斯噪声,并且R是实数。
非负矩阵因式分解
在音频信号处理的情况下,通常使用滑动窗和经常作为音频信号的大小或功率谱的特征向量表示来处理信号。特征是非负的。为了以非监督方式发现信号中的重复的模式(pattern),广泛使用了非负矩阵因式分解(NMF)。
对于维度为F×N的非负矩阵V,降秩(rank-reduced)近似为
V≈WH,
其中W和H分别是维度为F×K和维度为K×N的非负矩阵。所述近似通常从以下最小化得到:
其中d(x|y)是在x=y时具有唯一最小值的正函数标量成本函数。
Itakura-Saito非负矩阵因式分解(IS-NMF)
对于音频信号,在矩阵V是复值短时傅里叶变换(STFT)矩阵X的功率谱图的情况下,常规方法已使用Itakura-Saito距离(其测量实际谱与近似谱之间的差)作为成本函数,因为该成本函数隐含了对于音频信号相关的叠加零均值高斯分量的潜在模型。更准确地,假定xfn是在帧(frame)n和频率f处的复值STFT系数,并且 其中
cfkn:Nc(0,wfkhkn)。
则,
=DIS(|X|2|WH)+cst, (5)
其中
所述模型还能够被表示为
这相当于假定在参数∑kwfkhkn和均匀相位的情况下是指数分布的
∠xfn:Uniform(-π,+π)。 (7)
平滑IS-NMF
在IS-NMF的平滑变型中,对于H的独立的行,假定了逆伽玛(inverse-gamma)或伽玛随机游动(walk)。更准确地,已经考虑了以下模型:
hkn=hk(n-1)oεkn,
其中εkn是使用模式1的非负乘法创新(nonnegative multiplicative innovation)随机变量,诸如
εkn:G(α,α-1),或
εkn:IG(α,α+1),
其中根据惯例,伽玛和逆伽玛为
组合HMM和NMF的模型
如果组合HMM和NMF,则从所述HMM继承每次仅一个离散状态可以有效的限制。这意味着对于多个源,需要多个模型,导致计算易处理性的潜在问题。
U.S.7,047,047描述了使用降噪特征向量的估计和声学环境的模型来对语音信号进行去噪(denoise)。该模型基于描述输入特征向量、干净特征向量和噪声特征向量之间的关系以及指示该干净特征向量和该噪声特征向量的混合的相位关系的非线性函数。
U.S.8,015,003描述了使用受去噪模型约束的NMF来对混合信号(例如,语音和噪声)进行去噪。该去噪模型包括训练声学信号和训练噪声信号的训练基矩阵(basismatrices)、以及这些训练基矩阵的权重的统计。声学信号的基矩阵的权重与该训练声学信号和该训练噪声信号的训练基矩阵的乘积用来重构该声学信号。
一般而言,关注慢变噪声的现有技术的方法不适用于快变非平稳噪声,诸如通过在有噪声的环境中使用移动电话所经历的。
尽管HMM能够处理语音动力学,但是HMM经常由于离散状态空间而导致组合的问题,这尤其对于来自若干个源的混合信号是计算复杂的。在常规HMM方法中,也不直接处理增益自适应。
NMF解决了计算问题和增益自适应问题二者。然而,NMF不处理动态信号。平滑IS-NMF试图处理动力学。然而,H的行的独立性假设是不现实的,因为谱模式在帧n处的激活很可能与其它模式在前一帧n-1处的激活相关。
本发明的目的是使用HMM和NMF框架解决与信号和数据处理关联的固有的问题。
发明内容
本发明的目的是当输入信号是非平稳信号并且更具体是信号的混合时,将输入信号变换为输出信号。因此,本发明的实施方式提供了用于处理所述输入信号特别是与噪声混合的语音信号的非负线性动态系统模型。在语音分离和语音去噪的情况下,我们的模型实时(on-line)适应于信号动力学,并且实现了比常规方法好的性能。
用于信号动力学的常规模型经常使用隐马尔可夫模型(HMM)或非负矩阵因式分解(NMF)。
HMM由于离散状态空间而导致组合的问题,尤其对于来自若干个源的混合信号是计算复杂的。在常规HMM方法中,同样不直接处理增益自适应。
NMF解决了计算复杂性问题和增益自适应问题二者。然而,NMF没有利用信号的过去的观测结果来对该信号的将来的观测结果进行建模。对于具有可预测的动力学的信号,这很可能是次优的。
我们的模型具有HMM和NMF二者的优点。所述模型的特征是连续的非负状态空间。在推断(inference)期间自动处理增益自适应。所述推断的复杂性在信号源的数目上是线性的,并且通过线性转移矩阵来对动力学进行建模。
具体地,形式为特征向量的序列的输入信号通过首先将所述输入信号的模型的参数存储到存储器中而被变换为输出信号。
使用所述向量和所述参数,推断隐变量(hidden variable)的向量的序列。对于每个特征向量xn,存在隐变量hi,n的至少一个向量hn,并且每个隐变量非负。
使用所述特征向量、隐变量的所述向量和所述参数来生成所述输出信号。每个特征向量xn依赖于相同n的所述隐变量hi,n中的至少一个。所述隐变量根据相关,其中j和l是求和索引。所述参数包括非负权重ci,j,l,并且εl,n是独立的非负随机变量。
附图说明
图1是用于将输入信号变换为输出信号的流程图;
图2是根据本发明的实施方式的用于确定动态模型的参数的方法的流程图;以及
图3是根据本发明的实施方式的用于使用动态模型来增强语音信号的方法的流程图。
具体实施方式
引言
我们的实施方式提供了用于变换并且处理动态(非平稳)信号和数据的模型,所述模型具有基于HMM和NMF的模型的优点。
所述模型的特点是连续的非负状态空间。在推断期间实时自动处理增益自适应。使用线性转移矩阵A对信号的动力学进行建模。所述模型是具有乘法非负创新随机变量εn的非负线性动态系统。所述信号可以是非平稳线性信号(诸如音频或语音信号)或多维信号。所述信号可以在数字域中被表示为数据。下面更详细地描述所述创新随机变量。
所述实施方式还提供了用于使用所述模型的应用。具体地,所述模型能够被用来处理从若干个源获取的音频信号,例如,所述信号是语音和噪声(或其它声学干扰)的混合,并且所述模型被用来通过例如减少噪声来增强信号。当我们说“混合”时,我们意指语音和噪声由单个传感器(麦克风)来获取。
然而,要理解的是,所述模型还可以被用于具有随时间改变的特性的其它非平稳信号和数据(诸如经济或金融数据、网络数据和信号、或者信号、医学信号)或者从自然现象获取的其它信号。所述参数包括非负权重ci,j,l,并且εl,n是独立的非负随机变量,其分布也具有参数。下面描述索引i、j、l和n。
一般方法
如图1中所示,输入信号102的模型的参数101被存储到存储器103中。
所述输入信号作为信号的显著特性的特征向量xn 104被接收。这些特征当然特定于应用和信号。例如,如果信号是音频信号,则这些特征可以是对数功率谱。要理解的是,对于能够被根据本发明的方法处理的许多类型的不同信号和数据,能够被使用的不同类型的特征基本上无限制。
所述方法推断110隐变量111的向量的序列。所述推断基于所述特征向量104、所述参数、隐变量关系130以及观测结果与隐变量的关系140。对于每个特征向量xn,存在隐变量hi,n的至少一个向量hn。每个隐变量非负。
生成120与所述输入信号对应的输出信号122以形成所述特征向量、隐变量的所述向量和所述参数。
一般方法细节
在我们的方法中,每个特征向量xn依赖于相同n的隐变量hi,n中的至少一个。所述隐变量根据隐变量关系130相关,其中j和l是求和(summation)索引。所存储的参数包括非负权重ci,j,l,并且εl,n是独立的非负随机变量。该公式使得所述模型能够以结构化方式表示随时间的统计依赖性,使得当前帧n的隐变量依赖于前一帧n-1的、具有通过ci,j,l和权重εl,n的分布的参数的组合而确定的分布的隐变量。所述权重εl,n例如可以是具有形状参数α和逆尺度(scale)参数β的伽玛随机变量。
在一个实施方式中,ci,j,l=δ(i,l)ai,j,其中ai,j是非负标量,使得其中δ是克罗内克符号(Kronecker delta)。在这种情况下,如果权重εl,n是具有形状参数α和逆尺度参数β的伽玛随机变量,则hi,n在给定(其中K是所述隐状态向量中的元素的数目)的情况下的条件分布是 其中是随机变量x的具有形状a和逆尺度b的伽玛分布,并且是伽玛函数。本实施方式被设计为符合常规线性动态系统的基本结构的简单性,但是由于所述模型的非负结构和所述乘法创新随机变量而不同于现有技术。
在另一实施方式中,ci,j,l=δ(m(i,j),l)ai,j,其中ai,j是非负标量,δ是克罗内克符号,并且m(i,j)是从i和j的每个组合到与l对应的索引的一对一映射(例如,m(i,j)=(i-1)K+j,其中K是隐变量hn中的元素的数目),使得本实施方式在对信号进行建模时实现了灵活性,因为能够独立推断每个转移。
对多个源进行建模重要的另一实施方式包括将隐变量hi,n划分成S个组,其中每个组对应于混合中的一个独立源。同样地,根据相同的S个组划分非负随机变量εl,n。这能够通过参数ci,j,l的、其中当hi,n和hj,n不在相同的组中时或者当hi,n和εl,n不与相同的组关联时ci,j,l=0的特殊情况来实现。当对隐变量进行相应排序时,这为ci,j,l给出了块结构,其中每个块对应于针对信号源中的一个的模型。
在我们的实施方式中,所述隐变量经由通过特征f和帧n索引的信号的非负特征vf,n与特征变量相关140。观测模型基于其中是非负标量,并且是独立的非负随机变量,并且j和l是不同分量的索引。
在更约束的实施方式中,其中wf,i是非负标量,其中δ是克罗内克符号,并且是伽玛分布的随机变量,使得所述观测模型至少部分基于
其中vf,n是信号在帧n和频率f处的非负特征,α(v)和β(v)是正标量,并且wf,i是非负标量。
在其中特征xf,n是输入信号对于帧n和频率f的复谱图值的应用中,所述观测
模型能够使用vf,n=|xf,n|2,其是在帧n和频率f下的功率。因此,能够基于下式形成所述观测模型:
其中是单位虚数,并且θf,n=∠xf,n是对于帧n和频率f的相位。
在另一实施方式中,我们选择参数α(v)=1,使得伽玛分布简化为作为特殊情况的指数分布。在这种情况下,如果相位θf,n均匀分布,则我们获得观测模型
其中NC是复高斯分布。该观测模型对应于以上描述的Itakura-Saito非负矩阵因式分解,并且在我们的实施方式中与非负动态系统模型组合。
另一实施方式使用针对vf,n的基于相同类型的变换的级联的观测模型:
其中和是非负标量,并且和是独立的非负随机变量,并且i、i’、l’、l”是索引。
对于每个实施方式,用于推断隐变量的方法取决于模型参数化。
模型参数
如图2所示,根据输入信号102,我们获得模型参数101如下。所述输入信号可以被认为是训练信号,尽管应该理解的是,所述方法能够自适应于所述信号,并且实时“学习”参数。所述输入信号还可以是数字信号或数据的形式。
例如,训练信号是语音信号,或来自多个声学源的混合信号(可能包括非平稳噪声或其它声学干扰)。该信号被处理为信号样本的帧。每个帧中的样本的采样速率和数目特定于应用。要注意的是,下面描述的用于处理当前帧n的更新230依赖于前一帧n-1。对于每个帧,我们确定210特征向量xn表示。对于音频输入信号,可以使用诸如对数功率谱这样的频率特征。
初始化220模型的参数。所述参数可以包括基函数W、转移矩阵A、激活矩阵H及连续伽玛分布参数的固定形状参数α和逆尺度参数β、以及这些参数的取决于特定应用的各种组合。例如在某些应用中,更新H和β是可选的。在变分贝叶斯(variational Bayes)(VB)方法中,不使用H。相反,使用并更新H的后验分布的估计。如果是最大后验(a-posteriori)(MAP)估计,则更新β是可选的。
在所述方法的每次迭代期间,更新231-134激活矩阵、基函数、转移矩阵和伽玛参数。应该再次注意的是,待更新的参数的集合也特定于应用。
在所述更新230之后测试终止条件260(例如,迭代的收敛或最大数目)。如果是真,则将参数存储到存储器中,否则如果是假,则在步骤230处重复。
如已知的,可以在连接到存储器和输入/输出接口的处理器中执行所述一般方法和所述参数确定的上述步骤。还可以使用专门的微处理器等。要理解的是,通过所述方法处理的信号(例如,语音或金融数据)可以极其复杂。所述方法将输入信号变换成能够被存储到存储器中的特征。所述方法还将模型参数和推断的隐变量存储到存储器中。
模型参数细节
为了本描述的简化,我们将表示法(notation)限于以下实施方式:在该实施方式中,wf,i是非负标量,δ是克罗内克符号,并且是伽玛分布随机变量,而参数α(v)=1,并且相位θf,n均匀分布。在这种情况下,我们的模型是
hn=(Ahn-1)oεn, (11)
其中xfn是在帧n和频率f处的复值STFT系数,NC是复高斯分布,wfk是功率谱的第k个基函数在频率f处的值,hn和hn-1分别是激活矩阵H的第n列和第(n-1)列,A是对连续帧n-1和帧n中的不同模式之间的相关性进行建模的非负K×K转移矩阵,εn是非负创新随机变量(例如,维度为K的向量),并且o表示entry-wise乘法。能够通过设置A=IK获得平滑IS-NMF作为我们的模型的特定情况,其中IK是K×K单位矩阵(identity matrix)。
优点
我们的模型的显著且有利的特性是不止一个状态维度可以在给定时间为非零。这意味着可以使用单个模型来分析由单个传感器从多个源同时获取的信号,与获取多个模型的现有技术的HMM不同。
创新的伽玛模型
我们将独立的伽玛分布用于创新εkn,即
p(εin|α,β)=G(αi,βi).
它遵循hn是条件伽玛分布的,使得
并且具体地
对于h1,我们使用独立尺度不变的无信息Jeffreys先验,即在贝叶斯概率中,Jeffreys先验是在与Fisher信息的行列式的平方根成比例的参数空间上的无信息(目标)先验分布。
伽玛创新模型中的MAP推断
最大后验(MAP)目标函数是
尺度
A与β之间的尺度-不确定性(ambiguity)
在其对角上具有系数λi的K×K非负对角矩阵是Λ,因此
C(W,H,ΛA,Λβ)=C(W,H,A,β),
其具有A与β之间的尺度-不确定性。当估计A和β二者时,可以以许多方式(例如,通过将β固定为任意值或者通过在每次迭代230时归一化A的行并且相应地重新调节β)校正所述尺度-不确定性。例如,我们可以归一化转移矩阵A的行,使得这些行求和为1,或者使得每一行中的最大系数是1。在某些实施方式中,βi=αi,即,创新随机变量的模型期望值(expectation)是1。
MAP的不适定性
W和H的尺度通过 相关,其中λi是Λ的对角线的第i个元素。
在没有进一步的约束的情况下,MAP目标的最小化导致退化解,使得||W||→∞并且||H||→0。如果我们假定Λ的所有对角元素相等,使得Λ=λIK,则
C(WΛ-1,ΛH,A)=C(W,H,A)+KN logλ。
可以通过减小λ的值来使MAP目标变得任意小。因此,在优化期间控制W的范数。这可以通过硬约束或软约束来实现。所述硬约束是必须满足的正则(regular)约束,并且所述软约束是表示偏好的成本函数。
硬约束
我们使用变量具有Λ=diag[λ1,...,λK]的和λk=PwkP1的改变来求解minC(W,H,A)(约束条件为W≥0,H≥0,|||wk|||1=1),可以通过求解(约束条件为W≥0,H≥0)来放宽范数约束。
软约束(惩罚)
我们可以控制W的范数的另一方式是将适当惩罚增加到目标函数,例如,
minC(W,H,A)+λ||W||1(约束条件为W≥0,H≥0)。
软约束通常比硬约束更易于实现,但是需要λ的调整(tuning)。
针对MAP估计的学习和推断过程
我们描述了优化-最小化(MM)过程。MM是可以应用于凸目标函数以确定最大值的迭代优化过程。也就是说,MM是用来构造目标函数的方式。MM确定了通过使目标函数为局部最优来优化所述目标函数的替代(surrogate)函数。在我们的实施方式中,彼此赋予条件地更新矩阵H、矩阵A和矩阵W。在下文中,波浪符(tildas)(~)表示当前参数迭代。
不等式
对于{φk},使得∑kφk=1,我们通过Jensen不等式得到我们可以在任何点φ处通过线性化在log a上形成上界:
拟合数据
惩罚项
假定gin=∑jaijhj(n-1),那么,
(是或)
更新规则
MM框架包括使用以前的不等式来优化目标函数的项、提供所述目标函数的在当前参数下严格的上界、以及使所述上界而不是原始目标最小化。在对W的范数的软约束的情况下应用于MAP目标的最小化的这个策略导致了如图2中所示的以下更新230。
更新231激活矩阵H
依次更新231H的列。左到右的更新使得hn在迭代l时的更新依赖于和hkn的更新涉及求2阶多项式的根,使得
其中在下一个表中给出了a、b、c的值。
具体地,对于具有期望值1(αi=βi=1)的指数创新,我们获得以下乘法更新:对于n=1,
对于1<n<N,
对于n=N,
更新232基函数W
更新233转移矩阵A
对于最大似然估计的变分EM过程
激活参数H是用来从联合似然积分的潜在变量。一般而言,我们假定伽玛分布参数β={βi}是自由的。形状参数αi被视为固定参数。我们最小化
C(W,A,β)=-logp(V|W,A,β)=-log∫Hp(V|W,H)p(H|A,β)dH。
这产生了更好提出的估计问题,因为参数的集合关于样本的数目N具有固定的维度。此外,现在在尺度方面更好提出目标。对于任何正对角矩阵Λ,我们有
C(W,A,β)=C(WΛ-1,ΛAΛ-1,β),
使得解W*的再归一化(renormalization)仅导致A*的再归一化。这对于MAP方法不成立。
为了使C(W,A,β)最小化,EM过程能够基于完备(complete)数据集(V,H),并且基于 的迭代最小化(其中θ={W,A,β})。我们不使用后验概率p(H|V,θ)。相反,我们使用变分EM过程。对于任何概率密度函数q(H),以下不等式成立:
C(θ)≤-<logp(V|WH)>q-<logp(H|A)>q+<logq(H)>q=Bq(θ),
其中<·>q表示在q(H)下的期望值。变分EM使Bq(θ)而不是C(θ)最小化。在每次迭代时,首先考虑到W和A通过在q上或者更准确地考虑到特定参数化形式在q的整个形状参数上使Bq(θ)最小化来评估界限并使该界限严格(tighten),并且然后考虑到q使所述界限关于(θ)最小化。当q(H)=p(H|θ)时,变分EM与EM一致,在这种情况下,C(θ)在每次迭代时减小。在其它情况下,变分EM进行近似推断。有效性取决于q(H)在多大程度上近似真实的后验概率p(H|θ)。
界限的推导
logp(V|WH)和logp(H|A)的表达式表明H的系数通过线性组合∑kwfkhkn和∑jaijhj(n-1)的比率或对数结合(couple)。这使logp(V|WH)和logp(H|A)的期望值变得很难以独立于特定形式的q(H)确定。
因此,我们优化logp(V|WH)和logp(H|A),以获得易处理的界限。使用上述不等式并且假定变分分布的因式分解形式,使得是C(W,A,β)的上界,函数
其中φfkn是非负系数,使得∑kφfkn=1,
νijn是非负系数,使得∑iνijn=1,
ρin、ψfn是非负系数,
ξ表示所有调整参数{φfkn,νijn,ρin,ψfn}fknij的集合,
<·>表示关于q的期望值,即,对应于<·>q。我们去除下标q以简化表示法。
所述界限的表达式涉及hkn、1/hkn和loghkn的期望值。这些期望值精确地是广义逆高斯(GiG)的充分统计,这对于q(H)实用方便。我们使用
其中
并且其中Kα是修改的第二类贝塞尔(Bessel)函数并且x、β和γ是非负标量。在GIG分布下,
对于任何α,Kα+1(x)=2(α/x)Kα(x)+Kα-1(x),这导致了以下另选的、有效实现的表达式:
界限的优化
我们给出界限的各种参数的条件更新。下面描述更新顺序。
更新
调整参数ν
变分分布q
感兴趣的参数
更新顺序
我们通过ξn(即,ξn={{φfkn}fk,{νijn}ij,{ρin}i,{ψfn}f})来表示对于帧n的调整参数的集合。
如图2所示,更新230的以下顺序导致了有效实现。
在迭代(l)时执行
对于n=1,...,N,
根据[q(hn-1)](l)、[q(hn)](l-1)、[q(hn+1)](l-1)、W(l-1)、A(l-1)、β(l-1)来更新231激活参数[q(hn)](l)。
更新
根据W(l-1)、[q(H)](l)、ξ(2l-1)来更新232基函数W(l)。
根据A(l-1)、β(l-1)、[q(H)](l)、ξ(2l-1)来更新233转移矩阵A(l)。
更新调整参数ξ(2l)
根据所述转移矩阵A(l)和所述激活参数[q(H)](l)来更新234伽玛分布参数β(l)。
根据该更新顺序,VB-EM过程为:
更新q(H)。
更新W、A、β
确定界限
使用动态模型的语音去噪
如针对一个实施方式的图3中所示,我们使用我们的方法和模型用于语音增强(例如,去噪)。我们通过估计关于如以上描述的某些语音(音频)训练数据305的基(bases)W和转移矩阵A来构造我们的针对语音306的模型参数101。我们将训练基和转移矩阵表示为W(s)和A(s),其中(s)是语音。
同样地,我们使用基W(n)和转移矩阵A(n)来构造噪声模型307,并且通过将W(s)和W(n)连接(concatenate)成W=[W(s),W(n)]以及将A(s)和A(n)连接成A来将这两个模型306-307组合成单个模型300,其中A是在对角线上具有A(s)和A(n)的块对角矩阵。
我们还可以训练关于某些噪声训练数据的噪声,或者我们可以固定所述模型的语音部分,并且训练关于测试数据的噪声部分,因此使所述噪声部分成为收集不能够由语音模型建模的信号的部分的一般模型。所述语音模型的最简单的版本对于噪声使用单个基,并且将单位矩阵用作转移矩阵A。
在构造了模型300之后,我们可以使用该模型来增强输入音频信号x 301。我们确定310时间-频率特征表示。我们估计320模型300的改变的参数,即,对于所述语音的激活矩阵H(s)和对于噪声(n)的H(n)以及对于所述噪声的基W(n)和转移矩阵A(n)。
因此,我们使用下式来获得组合语音W(s)H(s)和噪声W(n)H(n)的单个模型,我们然后使用所述单个模型来重构330增强的语音340的复STFT:
可以使用常规重叠相加(overlap-add)方法来重构时域信号,所述常规重叠相加方法使用有限脉冲响应滤波器来评估很长的输入信号的离散卷积。
扩展
还可以基于上述实施方式来生成其它复杂的模型。
狄利克雷(Dirichlet)创新
代替将创新随机变量εn认为是伽玛分布的,所述创新可以是狄利克雷分布的,这与激活参数hn的归一化相似。
像HMM的行为
我们可以在推断期间将hn约束为1稀疏(1-sparse)。
结构化的变分推断
常规的变分推断假定变分后验概率q(hn)彼此无关,考虑到hn与hn-1之间的强的依赖关系,这很可能是非常错误的。我们可以根据q(hn|hn-1)对所述后验概率进行建模。这样的q分布的一种可能性使用具有依赖于Ahn-1的参数的GIG分布。
创新的伽玛分布
关于公式(6)中的复STFT系数的复高斯模型相当于假定功率因参数WH而是指数分布的。我们可以通过假定功率是伽玛分布来扩展所述模型,因此导致用于复系数的环形(donut-shaped)分布。
创新随机变量的全协方差
在线性动态系统中,创新随机变量可以具有全协方差(full-covariance)。对于正随机变量,用来包括相关性的一种方式是使用非负矩阵来变换独立的随机向量。这导致了模型
hn=(Ahn-1)o(Bfn),
其中fn是大小为J×1的非负随机向量并且B是维度为K×J的非负矩阵。当B=IK×K时,这简化为fn=εn。这可以通过将参数设置为以下因式分解形式以模型的更一般的形式来实现:ci,j,l=ai,jbi,l,其中ai,j是A的元素,并且bi,l是B的元素。
转移创新
使用独立的创新随机变量对hn和hn-1的分量中的每一个之间的转移进行建模也可能是有用的。这类似于在离散马尔可夫模型中使用狄利克雷先验概率。一种方法将容许hn=(AoEn)hn-1,其中En是维度为K×K的非负创新矩阵。这可以通过设置参数ci,j,l=δ(m(i,j),l)ai,j以模型的更一般的形式来实现,其中ai,j是A的元素并且m(i,j)是从i和j的每个组合到与l对应的索引的一对一映射。此外,En的第i、j个元素是εm(i,j),n。
考虑除伽玛之外的其它创新类型
对数正态泊松(Poisson)分布导致了另外不同类型的动态系统。
考虑其它发散
我们到目前为止仅考虑了Itakura-Saito发散。我们还可以对于hn|hn-1以及对于v|h使用KL发散和不同的发散。
实时过程
对于实时的应用,仅使用直到当前时间的信号,例如,仅激活矩阵H被估计的应用或者所有参数被优化的另一应用。在所述另一应用中,我们可以使用预训练基W和转移矩阵A来执行“热”启动。
多通道版本
因为我们的模型依赖于涉及复STFT系数的生成模型,所以可以将所述模型扩展到多通道应用。本设置方面的优化涉及混合系统与源NMF过程之间的EM更新。
本发明的效果
本发明的实施方式提供了用于处理非平稳信号特别是与噪声混合的语音信号的非负线性动态系统模型。在语音分离和语音去噪的情况下,我们的模型实时适应于信号动力学,并且实现了比常规方法更好的性能。
用于信号动力学的常规模型经常使用隐马尔可夫模型(HMM)或非负矩阵因式分解(NFM)。HMM由于离散状态空间而导致组合的问题,尤其对于来自若干个源的混合信号是计算复杂的,并且使得难以处理增益自适应。NMF解决了计算复杂性问题和增益自适应问题二者。然而,NMF没有利用信号的过去的观测结果来对该信号的将来的观测结果进行建模。对于具有可预测的动力学的信号,这很可能是次优的。
我们的模型具有HMM和NMF二者的优点。所述模型的特征是连续的非负状态空间。在推断期间自动处理增益自适应。所述推断的复杂性在信号源的数目上是线性的,并且通过线性转移矩阵来对动力学进行建模。
Claims (22)
1.一种用于变换输入信号的方法,所述方法包括以下步骤:
将所述输入信号的模型的参数存储到存储器中;
接收所述输入信号作为特征向量的序列;
使用特征向量的所述序列和所述参数来推断隐变量的向量的序列,其中,对于每个特征向量xn,存在隐变量hi,n的至少一个向量hn,并且其中,每个隐变量非负;
使用所述特征向量、隐变量的所述向量和所述参数来生成与所述输入信号对应的输出信号,
其中,每个特征向量xn依赖于相同n的所述隐变量hi,n中的至少一个,并且所述隐变量根据相关,其中j和l是求和索引,所述参数包括非负权重ci,j,l,并且εl,n是独立的非负随机变量,其中,所述步骤在处理器中执行。
2.根据权利要求1所述的方法,其中,ci,j,l=δ(i,l)ai,j,其中ai,j是非15负标量,并且其中δ是克罗内克符号,使得
3.根据权利要求1所述的方法,其中,ci,j,l=δ(m(i,j),l)ai,j,其中ai,j是非负标量,δ是克罗内克符号,并且m(i,j)是从i和j的每个组合到与l对应的索引的一对一映射,使得
4.根据权利要求1所述的方法,其中,所述随机变量εl,n是伽玛分布的。
5.根据权利要求1所述的方法,其中,在所述推断期间使用的观测模型至少部分基于 其中是非负标量,并且是独立的非负随机变量,vf,n是所述输入信号在帧n和特征f处的非负特征,并且j和l是索引。
6.根据权利要求5所述的方法,其中,其中wf,i是非负标量,其中δ克罗内克符号,并且是伽玛分布的随机变量,使得所述观测模型至少部分
基于
其中vf,n是所述输入信号在帧n处的非负特征,f是频率,Gamma(.|a,b)是具有形状参数a和逆尺度参数b的伽玛分布,α(v)和β(v)是正标量,并且wf,i是非负标量。
7.根据权利要求5所述的方法,所述方法还包括以下步骤:
获得所述特征向量xf,n作为所述输入信号的复谱图,其中xf,n是所述复谱图的对于帧n和频率f的值,以及
确定非负特征vf,n=|xf,n|2作为在帧n和频率f下的功率,使得所述观测模型至少部分基于其中是单位虚数,并且θf,n是表示对于所述帧n和所述频率f的相位的随机变量。
8.根据权利要求6所述的方法,所述方法还包括以下步骤:
设置所述参数α(v)=1,并且其中θf,n是均匀分布的随机相位变量,使得 其中NC是复高斯分布。
9.根据权利要求1所述的方法,其中,所述推断使用最大后验估计。
10.根据权利要求1所述的方法,其中,所述推断使用变分贝叶斯方法。
11.根据权利要求1所述的方法,其中,所述推断是自适应的,并且对所述输入信号实时执行所述推断。
12.根据权利要求1所述的方法,其中,所述输入信号从多个通道同时接收。
13.根据权利要求1所述的方法,其中,在所述推断期间使用的观测模型至少部分基于
和是非负标量,并且和是独立的非负随机变量,并且i、i’、l’、l”、f和n是索引。
14.根据权利要求1所述的方法,其中,所述隐变量hi,n被划分成S个组,并且所述非负随机变量εl,n各自与所述组中的一个关联,其中,当hi,n和hj,n、或者hi,n和εl,n在不同的组中时,ci,j,l=0。
15.根据权利要求1所述的方法,其中,所述模型是动态的,并且所述输入信号是非平稳的。
16.根据权利要求1所述的方法,所述方法还包括以下步骤:
在所述推断期间实时适应于所述输入信号的增益。
17.根据权利要求1所述的方法,其中,所述输入信号是语音和噪声的混合信号,并且所述输出信号是增强的语音信号。
18.根据权利要求1所述的方法,其中,所述参数包括基函数W、转移矩阵A、激活矩阵H、固定形状参数α、连续伽玛分布参数的逆尺度参数β及其各种组合。
19.根据权利要求18所述的方法,其中,更新H和β是可选的。
20.根据权利要求18所述的方法,其中,更新β在由所述推断使用的最大后验估计中是可选的。
21.根据权利要求1所述的方法,其中,所述输入信号由单个传感器从多个源同时接收。
22.根据权利要求18所述的方法,其中,在变分贝叶斯方法中使用H的后验分布。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13/657,077 US20140114650A1 (en) | 2012-10-22 | 2012-10-22 | Method for Transforming Non-Stationary Signals Using a Dynamic Model |
US13/657,077 | 2012-10-22 | ||
PCT/JP2013/078747 WO2014065342A1 (en) | 2012-10-22 | 2013-10-17 | Method for transforming input signal |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104737229A true CN104737229A (zh) | 2015-06-24 |
Family
ID=49552393
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201380054925.8A Pending CN104737229A (zh) | 2012-10-22 | 2013-10-17 | 用于变换输入信号的方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20140114650A1 (zh) |
JP (1) | JP2015521748A (zh) |
CN (1) | CN104737229A (zh) |
DE (1) | DE112013005085T5 (zh) |
WO (1) | WO2014065342A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106331969A (zh) * | 2015-07-01 | 2017-01-11 | 奥迪康有限公司 | 基于统计语音和噪声模型的有噪声语音的增强 |
CN109192200A (zh) * | 2018-05-25 | 2019-01-11 | 华侨大学 | 一种语音识别方法 |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9520141B2 (en) * | 2013-02-28 | 2016-12-13 | Google Inc. | Keyboard typing detection and suppression |
US9864046B2 (en) * | 2013-06-15 | 2018-01-09 | Howard University | Using an MM-principle to enforce a sparsity constraint on fast image data estimation from large image data sets |
US20160071211A1 (en) * | 2014-09-09 | 2016-03-10 | International Business Machines Corporation | Nonparametric tracking and forecasting of multivariate data |
US9576583B1 (en) * | 2014-12-01 | 2017-02-21 | Cedar Audio Ltd | Restoring audio signals with mask and latent variables |
US10712425B1 (en) * | 2015-03-19 | 2020-07-14 | Hrl Laboratories, Llc | Cognitive denoising of nonstationary signals using time varying reservoir computer |
US10720949B1 (en) | 2015-03-19 | 2020-07-21 | Hrl Laboratories, Llc | Real-time time-difference-of-arrival (TDOA) estimation via multi-input cognitive signal processor |
KR101975057B1 (ko) * | 2015-03-20 | 2019-05-03 | 한국전자통신연구원 | 잡음 환경에서의 음성 인식을 위한 특징 보상 장치 및 방법 |
GB2537907B (en) * | 2015-04-30 | 2020-05-27 | Toshiba Res Europe Limited | Speech synthesis using linear dynamical modelling with global variance |
US10650842B2 (en) * | 2015-09-16 | 2020-05-12 | Nec Corporation | Signal detection device, signal detection method, and signal detection program |
US10883491B2 (en) * | 2016-10-29 | 2021-01-05 | Kelvin Inc. | Plunger lift state estimation and optimization using acoustic data |
CN116192095B (zh) * | 2023-05-04 | 2023-07-07 | 广东石油化工学院 | 一种动态系统加性干扰与状态估计的实时滤波方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7047047B2 (en) * | 2002-09-06 | 2006-05-16 | Microsoft Corporation | Non-linear observation model for removing noise from corrupted signals |
CN1870136A (zh) * | 2006-06-29 | 2006-11-29 | 上海交通大学 | 基于语音生成模型的变分贝叶斯语音增强方法 |
CN101441872A (zh) * | 2007-11-19 | 2009-05-27 | 三菱电机株式会社 | 利用受限非负矩阵分解对声学信号去噪 |
CN101778322A (zh) * | 2009-12-07 | 2010-07-14 | 中国科学院自动化研究所 | 基于多模型和听觉特性的麦克风阵列后滤波语音增强方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8180642B2 (en) * | 2007-06-01 | 2012-05-15 | Xerox Corporation | Factorial hidden Markov model with discrete observations |
US8812322B2 (en) * | 2011-05-27 | 2014-08-19 | Adobe Systems Incorporated | Semi-supervised source separation using non-negative techniques |
-
2012
- 2012-10-22 US US13/657,077 patent/US20140114650A1/en not_active Abandoned
-
2013
- 2013-10-17 CN CN201380054925.8A patent/CN104737229A/zh active Pending
- 2013-10-17 DE DE112013005085.4T patent/DE112013005085T5/de not_active Withdrawn
- 2013-10-17 JP JP2014561643A patent/JP2015521748A/ja active Pending
- 2013-10-17 WO PCT/JP2013/078747 patent/WO2014065342A1/en active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7047047B2 (en) * | 2002-09-06 | 2006-05-16 | Microsoft Corporation | Non-linear observation model for removing noise from corrupted signals |
CN1870136A (zh) * | 2006-06-29 | 2006-11-29 | 上海交通大学 | 基于语音生成模型的变分贝叶斯语音增强方法 |
CN101441872A (zh) * | 2007-11-19 | 2009-05-27 | 三菱电机株式会社 | 利用受限非负矩阵分解对声学信号去噪 |
CN101778322A (zh) * | 2009-12-07 | 2010-07-14 | 中国科学院自动化研究所 | 基于多模型和听觉特性的麦克风阵列后滤波语音增强方法 |
Non-Patent Citations (1)
Title |
---|
LAWRENCE R. RABINER: "A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition", 《PROCEEDINGS OF THE IEEE》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106331969A (zh) * | 2015-07-01 | 2017-01-11 | 奥迪康有限公司 | 基于统计语音和噪声模型的有噪声语音的增强 |
CN106331969B (zh) * | 2015-07-01 | 2021-04-09 | 奥迪康有限公司 | 有噪声语音的增强方法、系统及助听器 |
CN109192200A (zh) * | 2018-05-25 | 2019-01-11 | 华侨大学 | 一种语音识别方法 |
CN109192200B (zh) * | 2018-05-25 | 2023-06-13 | 华侨大学 | 一种语音识别方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2014065342A1 (en) | 2014-05-01 |
JP2015521748A (ja) | 2015-07-30 |
DE112013005085T5 (de) | 2015-07-02 |
US20140114650A1 (en) | 2014-04-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104737229A (zh) | 用于变换输入信号的方法 | |
US9721202B2 (en) | Non-negative matrix factorization regularized by recurrent neural networks for audio processing | |
JP2017514249A (ja) | 入力信号を変換する方法 | |
JP6976804B2 (ja) | 音源分離方法および音源分離装置 | |
CN110998723B (zh) | 使用神经网络的信号处理装置及信号处理方法、记录介质 | |
Cemgil et al. | Conjugate gamma Markov random fields for modelling nonstationary sources | |
Mohammadiha et al. | Prediction based filtering and smoothing to exploit temporal dependencies in NMF | |
JP5911101B2 (ja) | 音響信号解析装置、方法、及びプログラム | |
Yan et al. | Adaptive sign algorithm for graph signal processing | |
Giacobello et al. | Speech dereverberation based on convex optimization algorithms for group sparse linear prediction | |
JPWO2019044401A1 (ja) | Dnn音声合成の教師無し話者適応を実現するコンピュータシステム、そのコンピュータシステムにおいて実行される方法およびプログラム | |
JP6059072B2 (ja) | モデル推定装置、音源分離装置、モデル推定方法、音源分離方法及びプログラム | |
CN101322183A (zh) | 信号失真消除装置、方法、程序及记录该程序的记录介质 | |
JP2017152825A (ja) | 音響信号解析装置、音響信号解析方法、及びプログラム | |
JP5172536B2 (ja) | 残響除去装置、残響除去方法、コンピュータプログラムおよび記録媒体 | |
JP5807914B2 (ja) | 音響信号解析装置、方法、及びプログラム | |
Baby et al. | Speech dereverberation using variational autoencoders | |
Schnell et al. | Time-varying linear prediction for speech analysis and synthesis | |
Cho et al. | An efficient HMM-based feature enhancement method with filter estimation for reverberant speech recognition | |
JP6137479B2 (ja) | 音声信号解析装置、方法、及びプログラム | |
Adiloğlu et al. | A general variational Bayesian framework for robust feature extraction in multisource recordings | |
JP2020194558A (ja) | 情報処理方法 | |
Xiang et al. | A speech enhancement algorithm based on a non-negative hidden Markov model and Kullback-Leibler divergence | |
JP2020030373A (ja) | 音源強調装置、音源強調学習装置、音源強調方法、プログラム | |
JP6586061B2 (ja) | 信号解析装置、方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20150624 |