CN1251193A - 语音分析系统 - Google Patents
语音分析系统 Download PDFInfo
- Publication number
- CN1251193A CN1251193A CN98803637.1A CN98803637A CN1251193A CN 1251193 A CN1251193 A CN 1251193A CN 98803637 A CN98803637 A CN 98803637A CN 1251193 A CN1251193 A CN 1251193A
- Authority
- CN
- China
- Prior art keywords
- data vector
- distortion
- vector
- model
- compensation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 16
- 239000013598 vector Substances 0.000 claims abstract description 154
- 238000000034 method Methods 0.000 claims description 30
- 238000010168 coupling process Methods 0.000 claims description 13
- 238000005859 coupling reaction Methods 0.000 claims description 13
- 230000008878 coupling Effects 0.000 claims description 12
- 230000004044 response Effects 0.000 abstract description 5
- 230000001747 exhibiting effect Effects 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 5
- 230000003595 spectral effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000000295 complement effect Effects 0.000 description 2
- 230000013011 mating Effects 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 206010038743 Restlessness Diseases 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000009966 trimming Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Telephonic Communication Services (AREA)
- Complex Calculations (AREA)
Abstract
一种语音分析系统(10),采用一种滤波器组分析器(18),该分析器为来自两个说话者的语音信号产生连续的频率数据矢量。根据每个数据矢量,单元(22A和22B)产生一组修正后的数据矢量,这些矢量被针对与各个说话者相关的不同形式的失真而补偿。计算机(24)将修正后的数据矢量与隐马尔可夫模型的状态相匹配。它识别出在每组中表现出最大匹配概率的修正数据矢量、在其中被匹配的模型状态、相关的失真形式以及模型类别,即语音或噪声。被匹配的模型状态有一个均值,给出其相关数据矢量的估计值。该估计值与和它相关的数据矢量相比较,在无限响应滤波器组(48A或48B)中,它们的差值与其它和类似形式失真相关的值平均以给出对这种失真形式的补偿。平均差值矢量为与各个说话者相关的多种形式的失真提供补偿值。
Description
本发明涉及一种语音分析系统,该系统用于处理存在不同形式失真的语音。该发明特别(尽管不是排它性的)涉及双向电话对话中对字、语言或说话者的识别。
本发明提出的问题的一方面将通过电话系统中使用的自动语音识别技术来举例说明。在这种系统中,系统性能常常由于电话听筒的位置引起的语音信号的变化或电话听筒、电话线以及交换机特性的影响而严重降低。可以尝试通过使用某种自动增益控制(AGC)来校正该问题。不幸的是,这可能是难以实现的。例如,在双向电话对中,其中的装置由两线配置连接,互相对话的说话者语音信号的强度之间常常存在明显的差别。通过使用更复杂的技术,就可能截取本地交换机处的呼叫,并可能获得来自每个电话装置的不同信号。尽管这种方法给出了一些改进,它并没有提到反向信道回声的难题,这种反向信道回声是由于对话一方的语音与对话另一方的话音相互混杂而产生的。
问题并不局限于语音电平的差值。许多语音识别系统尝试以某种方式适应各个说话者或麦克风的特性。如果说话者特性变化频繁,补偿就变的特别困难。
已知很多通过对失真或说话者特性进行补偿来改进识别性能的方法。在有时被称为“滤波器组分析”的处理过程中,当前的语音识别系统将输入信号从时域波形转换成频域的连续矢量。这些矢量然后与语音信号的模型相匹配。在某些系统中,在与语音模型匹配之前,这些矢量会经历某种变换。在变换和匹配之前通过对这些矢量施加某种形式的补偿,就有可能抵消信号失真和说话者的影响。存在一些已知的用于确定适当补偿的方法。其中一种是Sadaoki Furui在"Cepstral Analysis Technique for Automatic SpeakerVerification" IEEE Trans Acoustics,Speech and Signalprocessing,29(2):254-272,April 1981中描述的方法。它涉及将整个对话期间由滤波器组分析获得的数据平均以获得信号的长时谱特性,并在数据再次通过时进行失真补偿。补偿后的数据然后被传送给语音识别设备用来与语音模型匹配。
当这种方法应用于失真形式变化的多说话者语音信号或单说话者语音信号时,存在两个主要问题。首先,因为对整个对话过程进行单一校正,它对说话者特性频繁变化的对话过程是极不适当的。这种情况会发生于电话对话或其它对话过程中。其次,在识别开始之前,有必要处理整个对话过程以获得适当的校正,这对于实时应用来说是极不合适的。
一种优选的方法是使用一种有时称为谱型调整(SSA)的技术。使用这种技术的识别系统提供有关将要在每个瞬时被识别的信号的期望谱特性的信息,并且将该值与信号中等价的实际谱特性相比以给出一个差值。该差值在一些连续的信号上被平均(时间平均)以提供校正项。
在"Iterative Self-Learning Speaker and ChannelAdaptation under various Intial Conditions",Proc IEEEICASSP[11]pages 712-715中,Yun Xin Zhao描述了这种类型的系统。其中数据是在逐句的基础上被处理的。输入信号经过滤波器组分析并创建连续的矢量,每个矢量表明在一些频段上信号能量的变化。通过与语音模型状态相匹配,这些矢量被处理。矢量被匹配的模型状态的参数被用来为该矢量预测一个值,该值是根据该模型而被预期的。矢量和预期值之间的差值被计算出来,并且与前面矢量从句子中得到的差值做时间平均,以确定每个句子所经历的平均失真。为一个句子确定的SSA参数被用来处理下一个句子。
不幸的是,在存在两个或多个说话者或失真形式的情况下Zhao的方法并不适用,因为它会导致从其中一个说话者语音获得的SSA参数或服从某种特殊形式失真的SSA参数被应用于另一个说话者或另一种失真形式。
本发明的一个目标是给出一种语音分析系统,该系统被安排来抵消多种形式的失真。
本发明给出一种语音分析系统用来处理经过失真的语音,该系统包括用于修正从语音中获得的数据矢量以补偿这种失真的补偿装置,用来将修正后的数据矢量与模型匹配的匹配装置,以及用来根据数据矢量获取用于补偿装置的失真补偿值的获取装置。该系统的特征在于:
a)补偿装置被安排来通过以多个补偿值修正每个数据矢量来对多种形式的失真进行补偿,从而为各种形式的失真分别给出相应的一组经过补偿的修正数据矢量。
b)匹配装置被安排来指明每组中表现出最大的匹配概率的修正后的数据矢量,并指明其被补偿的那种失真形式。
c)获取装置被安排来在每组中表现出最大匹配概率的修正数据矢量基础上获取补偿值,其中的补偿值是补偿装置在补偿某种形式的失真中所用的,这种失真形式是修正数据矢量已经被补偿的那种失真形式。
本发明的优越之处在于不同失真形式之间进行不同补偿,使得正确语音分析的概率得到提高。
本发明可以被安排来分析来自多个语音源的语音,其中每个语音源都与一种失真形式相关,其中
a)补偿装置被安排来给出每组中的修正数据矢量,这些矢量被针对与各个语音源相关的失真而补偿。
b)匹配装置被安排来将模型划分成与语音和非语音相关的类别,并被安排来指明与每组中表现出最大匹配概率的修正数据矢量相关的模型类别。
c)获取装置被安排来根据与语音分类模型相关的修正数据矢量获得补偿值。
本发明的系统可以被安排来更新匹配装置中的非语音模型。在考虑到以前的匹配和语音识别条件的前提下,匹配装置可以被安排来识别出每一组中表现出最大匹配概率的修正数据矢量,以便在数据矢量序列上评估匹配概率。
获取装置可以被安排来通过在每组中表现出最大匹配概率的修正数据矢量的贡献以及与之匹配的模型和以前得到的类似类型的贡献上进行平均来获得补偿值。这种平均操作可以由无限脉冲响应滤波装置实现。
在其状态具有匹配概率分布的语音模型以及对于与之匹配的矢量相关的估计值的基础上,匹配装置可以被安排来实现隐马尔可夫模型匹配;估计值可以是各个概率分布的均值;获取装置可以被安排来采用估计值来获取补偿值,每个模型可以有一个或多个状态。
获取装置和补偿装置可以被安排来一起避免进行与语音源不相关的补偿。匹配装置可以采用与各种类型的声学数据源相关的不同类别的模型,其中的数据源例如有语音和噪声源,并且表明不会对应于噪声源的匹配来获得补偿值。它们还可以被安排来调整语音模型以提高与数据矢量的一致性。
在一个实施方案中,本发明的系统包括用于产生数据矢量的装置,其中的数据矢量具有表示在各个频率段上以对数表示的平均值的元素。其中:
a)补偿装置被安排来通过将一组与各种形式失真相关的补偿矢量加入每个数据矢量来给出一组修正后的数据矢量。
b)结合与同样模型类别相关的以前的类似分布,获取装置被安排来根据每组中表现出最大匹配概率的修正数据矢量的第一分布获取修正的补偿矢量,并从与之匹配的模型中获得估计矢量:
本发明可以包括用于将每个修正后的数据矢量传送到匹配装置的各自的通道。
另一方面,本发明给出一种方法用来分析经过失真的语音,该方法包括以下步骤:
a)修正语音数据矢量来补偿失真。
b)将修正后的数据矢量与模型匹配。
c)获得并应用失真补偿。
特征在于:
I)步骤(a)包括将多个补偿值施加给每个数据矢量以给出针对各个失真形式被补偿的相应一组修正的数据矢量。
II)步骤(b)包括识别每一组中表现出最大匹配概率的修正数据矢量以及被补偿的失真形式。
III)步骤(c)包括根据每组中表现出最大匹配概率的修正数据矢量获取用于补偿值,用于补偿该矢量被补偿的那种形式的失真。
本发明的系统可以被用于语音识别或者用于其它的分析目的,例如语言辩识,说话者年龄,性别或其它特征的识别和评估。该系统还可被用来检测在某一瞬时,众多说话者中哪一个正在讲话。
为了本发明能够被更完整地理解,其实施方案将结合附图,仅通过示例被描述。
图1是本发明的语音分析系统的方框图。
图2图解说明了用于图1系统的语音模型状态。
参考图1,本发明的语音分析系统由10来表示。系统10引入两个电话12A和12B通过连接到线路14而被复用在一起。线路14被连接到一个模-数转换器(A/D)16,该转换器被连接到滤波器组分析器18。分析器18利用20ms的汉明窗实现400点的离散傅立叶变换(DFT)以处理非-无限信号样本的一般问题。它将傅立叶分量组合起来获得26个分组。在这26个分组上,以近似mel的尺度(即感觉上是线性的),可为26个频率段的每一个获得一个均值,并产生对数幅度值。因此这一过程模拟了在26个信道上具有对数输出的一组带通滤波器。来自分析器18的输出被传送给缓冲存储器20并被传送给并行排列的第一和第二补偿单元22A和22B,这两个单元每一个都提供谱形调整(SSA)。SSA补偿单元22A和22B是数字加法器。它们被连接到模型匹配计算机24,从而在26处给出系统输出。
匹配计算机24也被连接到差值计算器28;该计算器接收来自缓冲存储器20的第二输入,缓冲存储器20本身通过线路30接收来自匹配计算机24的定时信息。来自差值计算器28的输出通过线路32作为第一输入传送给第一解复用装置34,该解复用装置通过线路36接收来自匹配计算机的内容为模型类别标识的第二输入。解复用装置34有两个输出38和40,第一输出38被连接到第二解复用装置42,第二输出40没有被连接。第二解复用装置42通过线路44接收来自计算机24的内容为匹配模型类别标识的第二输入。第二解复用装置42具有第一和第二输出46A和46B。第一输出46A被连接到与第一SSA参数存储器50A和第一补偿单元22A串联的第一滤波器组48A。类似的,第二输出46B被连接到与第二SSA参数存储器50B和第二补偿单元22B串联的第二滤波器组48B。48A和48B中的每一个都是一个包括26个无限脉冲响应(IIR)滤波器的阵列。
识别系统10按下述方式操作。当两个说话者通过两个电话12A和12B对话时,模拟语音信号出现在线路14上。该信号被A/D转换器16数字化,该转换器采样该信号并以20KHz的速率给出数字输出信号,每个信号都带有一个时间帧号码i,表明在时刻ti它被采样。在任何瞬时,信号可能产生于其中一个电话12A或12B或者同时产生于两者,或者它可能在语音信号间隙包括噪声。数字化的信号从转换器16传送到滤波器组分析器18,在此,它们被用于计算连续的400点的离散傅立叶变换(DFT)。每次DFT都是400点的一个组,每个点表示在其上进行的DFT的400个频率中的一个频率上的谱幅度。每组点被分散到26个子组中,并被相加以给出每个子组的和,每个和被取对数以给出26个频率间段上以对数计的平均能量。分析器18是26个模拟带通滤波器组的数字等价物。经过分析器18变换的每个输出都是一个具有26个分量的矢量,每个分量表示在各个频率间段上的能量对数值,该值是通过对相关的傅立叶变换系数求平均得到的。
各个数据矢量是来自分析器18的间隔为10ms的连续输出。在时刻ti来自分析器18的第i个数据矢量输出被定义为Oi。如同所描述的,该输出可能产生于电话12A或12B中的一个或来自这两者的组合,或者是来自噪声。这些数据矢量被传送给缓冲存储器20。该存储器存储最近获得的500个数据矢量,每个矢量都有一个对应于产生时间ti的地址号码。该地址号码为以模500表示的时间帧号码i,即地址500+i=地址i,这样当时间帧号码超过500时,缓冲存储器20中最早的记录会被最近的记录覆盖。
每个数据矢量Oi也被传送给补偿单元22A和22B,两个补偿单元分别使用以对数形式存储在各自的参数存储器50A和50B中的26个参数PAj和PBj(j=0到25)来进行变换。这些参数的产生将在后面解释。补偿单元22A和22B将各自存储器50A和50B的内容加入当前的数据矢量Oi以产生各自的补偿数据矢量Oi A和Oi B。这种加法是对数量的加法,对应于两个矢量的标量积。补偿单元22A和22B以及它们各自的参数存储器50A和50B定义两个独立的信道用来将与不同数据源(电话12A和电话12B)相关的修正数据矢量传送到匹配计算机24。也有可能的是使用一个单独的信道,在该信道中,与不同数据源相关的修正数据矢量被复用,以后再在匹配计算机24中分离。存储器50A或50B中的每组参数PAi或PBj对应于补偿值的当前估计值,其中的补偿值适用于抵消与分别来自电话12A和12B的语音信号相关的失真。两个存储器50A和50B通常包含不同的参数组,因此尽管是从同一个滤波器组的输出处得到的,被补偿的矢量Oi A和Oi B通常是不同的。
在补偿之后,补偿后的数据矢量Oi A和Oi B,连同它们的时间帧号码i都被传送给模型匹配计算机24。计算机24完成将要参考图2描述的过程,该图(使示例成为可能)给出一个更为简单的两维模型空间(与该例中的26维相反)。模型匹配计算机24完成在以前技术中已知的那种传统的隐马尔可夫匹配算法。例如在语音识别的标准课本:"Speech Synthesis and Recognition",J N Holmes,VanNostrand Reinhold(UK)1988,特别是第七章和第八章中可见的。计算机24采用传统的电话语音的隐马尔可夫模型(HMM)。每个模型对应于一个字或字的一个部分(子字);每个模型都有一些状态,并对应于一个声音序列。例如,在用于数字0到9的数字识别器中,可以使用每个模型十个状态。状态由单变量的高斯概率分布来表示。其中的高斯概率分布与模型空间的维数相同。即,该分布具有以下形式:Csexp(-((x0-μs,0)/2σs,0)2…-((xk-μs,k)/2σs,k)2…((x25-μs,25)/2σs,25)2)(2)
其中Cs为模型状态的常数,μs,k和σs,k(k=0…25)分别是26维模型空间中模型状态S的概率分布的平均和标准偏差的26个分量。xk是定义该空间的变量。每个模型状态都与一个分类相关,根据该模型是人类语音声音模型还是产生于其它源头(例如,猛烈的关门声,电话装置引入的噪声等等)的噪声模型,该分类可以是语音或非语音。
图2是两维模型空间的说明,该图中与前面26维空间的元素等价的特征以“(2)”结尾。该图给出了三个二维模型状态,S1(2),S2(2),S3(2),每个状态都是一个由等高线,例如60表示的概率分布。这些模型状态分别具有最可能的值或估计值μs1(2)μs2(2)μs3 (2),每个估计值都是其相关的由等高线定义的分布的峰值。图中还给出了Oi A(2)和Oi B(2),26维补偿数据矢量Oi A和Oi B的二维等价物。补偿数据矢量与模型状态之间的匹配概率由模型状态在该矢量受到以前匹配过程条件限制的位置的概率分布幅度来表明。当被补偿的数据矢量与模型状态的峰值一致时,这种概率最大,除非限制条件强制指定了其它值。在图2的简化的二维情况中,对概率的考虑可能表明,如果不会与以前矢量Oi-m A(2)(其中m=1,2…)的匹配所表示的相反的话,数据矢量Oi A(2)应该与模型状态S1(2)匹配,而矢量Oi B(2)应该与模型状态S3(2)匹配。
这两种匹配之间的质量被作了比较,即,取消后缀(2)来表示26维的数值,那麽Oi A和S1之间的匹配是好于还是坏于Oi B和S3之间的匹配?换句话说,在前面匹配过程所施加的限制的前提下,在Oi A处的模型状态S1的概率分布的幅度大于在Oi B处的模型状态S3的概率分布的幅度吗?两种匹配中较好的一种被采用,在下面的讨论中,这一匹配被认为是后者(S3)(在以前技术中基于HMM的识别系统中,对于任何一个由分析器18产生的数据矢量Oi,只为之处理一个被补偿的数据矢量,因此,不会进行最佳匹配质量的比较。)
一旦计算机24已经识别出矢量Oi A和Oi B中的哪一个与模型状态达到最佳匹配,它就计算一个估计矢量i,该值为模型状态的最大概率值。对于单元高斯模型,矢量i等于被匹配模型状态的平均值。
计算机24输出下面信息:
a)最佳匹配的模型状态(示例中为S3)的标识,该标识在26输出;
b)26维矢量i(在示例中对于模型状态S3有μs3),该值是根据被匹配模型得到的估计值;即对应于最可能匹配于被匹配的模型状态的数据矢量;该矢量被传送给差值计算器28;
c)存储在缓冲存储器20的第i个数据矢量Oi的地址(即以模500表示的时间帧号码i);
d)最佳匹配的模型状态的类别,即非语音或语音;输出数字0或1以分别表明计算机24已经匹配到非语音或语音,该输出被第一解复用装置34接收。
d)最佳匹配矢量的标识,即数据矢量失真的标识;当计算机24匹配到语音时,它输出数字0或1来表明较好的匹配是与被补偿矢量Oi A或Oi B的匹配,这些矢量反过来又表明系统已经断定矢量失真分别与电话A或电话B相关;这种表示由第二解复用装置42接收。
矢量i被传送给差值计算器28。同时,缓冲存储器20从计算机24接收数据矢量Oi的存储器地址,根据该地址可以获得被补偿的矢量Oi A和Oi B。对应于该地址,矢量Oi被输出到差值计算器28用来与i比较。差值计算器28计算这些模型和数据矢量之间的差值来产生差值矢量Di。该矢量表示语音信号在时刻ti经历的失真过程的一个瞬时估计值。
差值矢量Di被传送给第一解复用装置34,同时,解复用装置还接收以数字1或0表示的模型类别的标志;在这些数字中,1表示模型匹配计算机24已经识别了一个语音信号,0表示识别了一个非语音信号,即无声段或噪声。如果模型类别是数字1,第一解复用装置34将差值矢量Di从计算器28传送到第二解复用装置42。如果该数字为0,差值矢量Di出现在该解复用装置的第二输出端40处,该输出端没有被连接。这给出了对应于将要从失真校正过程中除去的非语音信号(在该例中是不希望的)的信息。如果需要,这种信息当然能被用于其它目的,如同将要在后面描述的。
第二解复用装置42接收输入数字0或1,它表示与模型矢量相关的信号源的标志;数字0或1表示分别与被补偿矢量Oi A或Oi B的匹配程度。当接收到数字0时,第二解复用装置42将差值矢量Di传送给第一滤波器组48A;对应于数字1,差值矢量Di传送给第二滤波器组48B。
滤波器组48A和48B都是一个包括26个无限脉冲响应滤波器的阵列。差值矢量Di对应于单个数据矢量Oi而获得,它表示可校正失真在时刻ti的瞬时估计值,其中的失真是由于麦克风、线路特性以及类似语音声音的随机特性造成的差值共同引起的。第一解复用装置34给出根据非语音声音计算出来的差值矢量,在这些矢量到达滤波器组48A和48B之前,它们将在校正过程中被除去,第二解复用装置42将每个差值矢量分别传送到与电话12A和12B相关的滤波器组48A和48B,其中的电话分别与标识出的模型矢量相关。
滤波器组48A和48B具有相同的0.5秒的时间常数。它们在几个字的长度上提供短时平均(例如大约3个字或1.5秒)。这会抵消随机变化的效果以及字的误识或在寻迹由于可校正的失真引起的长时变化时,电话12A和12B同时发声的效果。对应于每个差值矢量Di的接收,会产生一个输出补偿矢量Ci,该值为Di与以前差值矢量的以时间指数方式消失的贡献的平均。最近50个差值矢量Di-49到Di对补偿矢量Ci起到主导作用。
来自第一滤波器组48A的补偿矢量输出被传送到第一参数存储器50A,来自第二滤波器组48B的补偿矢量输出被传送到第二参数存储器50B,两者都替换存储器中以前的值以实现更新。每个补偿矢量的元素都给出参数组,在SSA补偿单元22A或22B中,这些参数被加入数据矢量中以实现谱形调整。参数存储器50A和50B一直保持其值不变直到它们响应分别来自电话12A和12B的语音信号标志而被更新。
在产生匹配过程中存在较短的延迟。在本发明的一个实施方案中,元件18到50B由计算机集中实现,用来从语音信号获得更新参数的时间间隔为0.5秒,或者平均一个字的时间。因此,这补偿了效果逐字变化的失真。在提供补偿方面,一般的以前技术的系统要比本发明的系统慢的多,而且不能处理相对短的失真。前面提到的Zhao的文献中要求整个的句子用来分析。在该例中,所采用的变换提供对平均信号值变化的补偿,以及对信号信道和麦克风特性引入的线性失真的补偿。
本发明可以被调整来适应例如会议电话的应用,在这种应用中存在多于两个的电话或说话者。这涉及到系统10通过等价于22A,48A,50A的附加单元被扩展以及提高解复用装置性能。三方会议电话将需要三个补偿单元22A,22B和22C,三个参数存储器50A,50B,和50C,以及三个滤波器组48A,48B和48C。补偿单元22A到22C中的每一个都将其输出传送给模型匹配计算机24,该计算机将被重新编程以确定三个补偿矢量Oi A,Oi B和Oi C中的哪一个与模型状态的匹配性最好。来自计算机24的输出44将会是三个值之一,0,1,2,解复用装置将本用来由此从三个输出46A,46B和46C中选择一个。
本发明将引入对来自电话12A和12B(或被拾取)的非语音噪声的适应方法。在这种情况中,匹配计算机24包括两个模型状态用来寻迹背景噪声。这些模型状态分别与来自电话12A和12B的噪声相关。它们的参数按下述方式被根据估计的当前噪声值来调整。来自解复用装置34的非语音(噪声)差值矢量输出被计算机24用来为电话12A和12B估计背景噪声大小。计算机24对来自电话12A和12B的噪声求差。根据非语音差值矢量,计算机24分别计算电话12A和12B的非语音模型参数的变化。以这种方法产生的每个电话的当前噪声估计值被与该电话的50个以前的估计值做平均以提供对匹配误差的灵敏度,其中的匹配误差是计算机24采用的算法造成的。
Claims (15)
1.一种语音分析系统,用来分析经历失真的语音,该系统包括补偿装置(22A和22B)用来修正从语音中获得的数据矢量以补偿失真,该系统还包括匹配装置(24)用来将修正后的数据矢量与模型匹配,以及获取装置(28)用来根据数据矢量来获得失真补偿值以用于补偿装置(22A和22B),该系统的特征在于:
a)补偿装置(22A和22B)被安排来通过用多个补偿值修正数据矢量来补偿多种形式的失真,以便为各种形式的失真提供相应一组被补偿的修正数据矢量;
b)匹配装置(24)被安排来指明在每组中表现出最大匹配概率的修正数据矢量,并指明已经被补偿的失真形式;
c)获取装置(28)被安排来在每组中表现出最大匹配概率的修正数据矢量的基础上获取补偿值以用于补偿装置(22A和22B)来补偿修正数据矢量被补偿的那种形式的失真。
2.权利要求1的系统,其特征在于它被安排来分析来自多个语音源的语音,其中的每个语音源都与相应形式的失真相关,其中:
a)补偿装置(22A和22B)被安排来在每一组中提供修正的数据矢量,这些矢量针对与各个语音源相关的失真被补偿;
b)匹配装置24被安排来将模型划分成与语音和非语音相关的类别,并指明与每组中表现出最大匹配概率的修正数据矢量相关的模型类别,
c)获取装置(28)被安排来根据与每个语音类别模型相关的修正数据矢量来获得补偿值。
3.根据权利要求2的系统,其特征在于它被安排来修正匹配装置中的非语音模型。
4.根据权利要求1的系统,其特征在于它被安排来从多个语音源中识别语音,其中每个语音源都与某种失真形式相关。
5.根据权利要求1或4的系统,其特征在于它被安排来从噪声中辨别语音并在补偿过程中忽略噪声数据。
6.根据权利要求1的系统,其特征在于匹配装置(24)被安排来识别出在考虑了前面匹配过程的每组中表现出最大匹配概率的修正数据矢量,以便在数据矢量序列上评估匹配概率。
7.根据权利要求1的系统,其特征在于获取装置(28)被安排来通过将每组中表现出最大匹配概率的修正数据矢量与它所匹配的模型的分布平均,以及与此类似的当前和以前模型分布的平均来获取一个补偿值。
8.根据权利要求1的系统,其特征在于数据矢量为语音信号作为频率函数的表示。
9.根据权利要求1的系统,其特征在于匹配装置(24)被安排来实现隐马尔可夫模型匹配,获取装置(28)被安排来在模型状态概率分布最大值的辅助下产生补偿值。
10.根据权利要求1的系统,其特征在于包括用来产生数据矢量的装置(18),其中的数据矢量包括表示在各个频率间段上的平均值的元素,其中:
a)补偿装置(22A和22B)被安排来通过将每个数据矢量与一组补偿矢量中的每一个做标量积来提供一组修正的数据矢量,其中的补偿矢量与相应形式的失真相关,
b)获取装置(28)被安排来结合与同类失真相关的前面得到的类似数据,根据每组中表现出最大匹配可能的修正数据矢量获取一个更新的补偿矢量,并根据与之匹配的模型获取一个估计矢量。
11.根据权利要求10的系统,其特征在于每种形式的失真都与某个用来将修正数据矢量传送到匹配装置的信道相关,其中的修正数据矢量针对那种失真形式被补偿。
12.根据权利要求1的系统,其特征在于它被安排来避免实现与语音不相关的补偿。
13.根据权利要求12的系统,其特征在于匹配装置(24)采用分别与语音和噪声相关的模型类别,并被安排来指明在该模型类别下,每组中表现出最大匹配可能的数据矢量,获取装置(28)和补偿装置(22A和22B)被安排来一起避免实现与噪声模型类别相关的补偿。
14.一种用来分析经过失真的语音的方法,包括以下步骤:
a)修正语音数据矢量来补偿失真。
b)将修正后的数据矢量与模型匹配。
c)获得并应用失真补偿。
特征在于:
I.步骤(a)包括将多个补偿值施加给每个数据矢量以给出针对各个失真形式被补偿的一组修正的数据矢量。
II.步骤(b)包括识别每一组中具有最大匹配概率的修正数据矢量以及其被补偿的失真形式。
III.步骤(c)包括根据每组中具有最大匹配概率的修正数据矢量获取补偿值用于补偿该矢量被补偿的那种失真形式。
15.根据权利要求14的用于分析语音的方法,其特征在于失真形式与多个语音源和噪声相关。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GBGB9706174.1A GB9706174D0 (en) | 1997-03-25 | 1997-03-25 | Recognition system |
GB9706174.1 | 1997-03-25 | ||
GB9714345.7 | 1997-07-09 | ||
GBGB9714345.7A GB9714345D0 (en) | 1997-03-25 | 1997-07-09 | Speech analysis system |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1251193A true CN1251193A (zh) | 2000-04-19 |
Family
ID=26311258
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN98803637.1A Pending CN1251193A (zh) | 1997-03-25 | 1998-02-26 | 语音分析系统 |
Country Status (7)
Country | Link |
---|---|
US (1) | US6377918B1 (zh) |
EP (1) | EP0970463B1 (zh) |
JP (1) | JP2001520764A (zh) |
CN (1) | CN1251193A (zh) |
CA (1) | CA2281746A1 (zh) |
DE (1) | DE69801493T2 (zh) |
WO (1) | WO1998043238A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1319042C (zh) * | 2004-02-26 | 2007-05-30 | 世嘉股份有限公司 | 语音分析设备和语音分析方法 |
CN102834842A (zh) * | 2010-03-23 | 2012-12-19 | 诺基亚公司 | 用于确定用户年龄范围的方法和装置 |
CN105355199A (zh) * | 2015-10-20 | 2016-02-24 | 河海大学 | 一种基于gmm噪声估计的模型组合语音识别方法 |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB9706174D0 (en) * | 1997-03-25 | 1997-11-19 | Secr Defence | Recognition system |
US6453285B1 (en) * | 1998-08-21 | 2002-09-17 | Polycom, Inc. | Speech activity detector for use in noise reduction system, and methods therefor |
US6947869B2 (en) * | 2002-03-29 | 2005-09-20 | The United States Of America As Represented By The Secretary Of The Navy | Efficient near neighbor search (ENN-search) method for high dimensional data sets with noise |
US8566086B2 (en) * | 2005-06-28 | 2013-10-22 | Qnx Software Systems Limited | System for adaptive enhancement of speech signals |
US7930178B2 (en) * | 2005-12-23 | 2011-04-19 | Microsoft Corporation | Speech modeling and enhancement based on magnitude-normalized spectra |
US8219387B2 (en) * | 2007-12-10 | 2012-07-10 | Microsoft Corporation | Identifying far-end sound |
EP3570226A1 (en) | 2018-05-16 | 2019-11-20 | Ernst & Young GmbH Wirtschaftsprüfungsgesellschaft | Method and system of obtaining audit evidence |
US10951859B2 (en) | 2018-05-30 | 2021-03-16 | Microsoft Technology Licensing, Llc | Videoconferencing device and method |
EP3944237A1 (en) * | 2020-07-21 | 2022-01-26 | EPOS Group A/S | A loudspeaker system provided with dynamic speech equalization |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07193548A (ja) * | 1993-12-25 | 1995-07-28 | Sony Corp | 雑音低減処理方法 |
JPH10247098A (ja) * | 1997-03-04 | 1998-09-14 | Mitsubishi Electric Corp | 可変レート音声符号化方法、可変レート音声復号化方法 |
-
1998
- 1998-02-26 JP JP54518698A patent/JP2001520764A/ja active Pending
- 1998-02-26 WO PCT/GB1998/000615 patent/WO1998043238A1/en not_active Application Discontinuation
- 1998-02-26 US US09/355,847 patent/US6377918B1/en not_active Expired - Fee Related
- 1998-02-26 EP EP98907075A patent/EP0970463B1/en not_active Expired - Lifetime
- 1998-02-26 CN CN98803637.1A patent/CN1251193A/zh active Pending
- 1998-02-26 DE DE69801493T patent/DE69801493T2/de not_active Expired - Fee Related
- 1998-02-26 CA CA002281746A patent/CA2281746A1/en not_active Abandoned
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1319042C (zh) * | 2004-02-26 | 2007-05-30 | 世嘉股份有限公司 | 语音分析设备和语音分析方法 |
CN102834842A (zh) * | 2010-03-23 | 2012-12-19 | 诺基亚公司 | 用于确定用户年龄范围的方法和装置 |
CN102834842B (zh) * | 2010-03-23 | 2016-06-29 | 诺基亚技术有限公司 | 用于确定用户年龄范围的方法和装置 |
CN105355199A (zh) * | 2015-10-20 | 2016-02-24 | 河海大学 | 一种基于gmm噪声估计的模型组合语音识别方法 |
CN105355199B (zh) * | 2015-10-20 | 2019-03-12 | 河海大学 | 一种基于gmm噪声估计的模型组合语音识别方法 |
Also Published As
Publication number | Publication date |
---|---|
WO1998043238A1 (en) | 1998-10-01 |
DE69801493D1 (de) | 2001-10-04 |
EP0970463B1 (en) | 2001-08-29 |
US6377918B1 (en) | 2002-04-23 |
EP0970463A1 (en) | 2000-01-12 |
CA2281746A1 (en) | 1998-10-01 |
DE69801493T2 (de) | 2002-05-08 |
JP2001520764A (ja) | 2001-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kinoshita et al. | Improving noise robust automatic speech recognition with single-channel time-domain enhancement network | |
Wang et al. | Multi-microphone complex spectral mapping for utterance-wise and continuous speech separation | |
Yoshioka et al. | Multi-microphone neural speech separation for far-field multi-talker speech recognition | |
CN1168069C (zh) | 识别系统和识别方法 | |
US5924065A (en) | Environmently compensated speech processing | |
CN1121681C (zh) | 语言处理 | |
JP4764995B2 (ja) | 雑音を含む音響信号の高品質化 | |
US8438026B2 (en) | Method and system for generating training data for an automatic speech recognizer | |
CN108447496B (zh) | 一种基于麦克风阵列的语音增强方法及装置 | |
CN1199488A (zh) | 模式识别 | |
Kumar | Real-time performance evaluation of modified cascaded median-based noise estimation for speech enhancement system | |
CN1251193A (zh) | 语音分析系统 | |
Matassoni et al. | Hidden Markov model training with contaminated speech material for distant-talking speech recognition | |
Braun et al. | Effect of noise suppression losses on speech distortion and ASR performance | |
Wang et al. | Hands-free speaker identification based on spectral subtraction using a multi-channel least mean square approach | |
CN113870893A (zh) | 一种多通道双说话人分离方法及系统 | |
CN115359804B (zh) | 一种基于麦克风阵列的定向音频拾取方法和系统 | |
CN113409810B (zh) | 一种联合去混响的回声消除方法 | |
CN115171716B (zh) | 一种基于空间特征聚类的连续语音分离方法、系统及电子设备 | |
CN113096669B (zh) | 基于角色识别的语音识别系统 | |
CN112863525B (zh) | 一种语音波达方向的估计方法、装置及电子设备 | |
Levin et al. | Research of Window Function Influence on the Result of Arabic Speech Automatic Recognition | |
Hou et al. | Preserving Early Reflections to Improve Speech Quality of Reverberant Speech Separation | |
Sehr et al. | New results for feature-domain reverberation modeling | |
Khazri et al. | Multi-microphone recording speech enhancement approach based on pre-processing followed by multi-channel method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: GR Ref document number: 1069251 Country of ref document: HK |