CN1228761C - 用于经噪声补偿的话音识别的系统和方法 - Google Patents
用于经噪声补偿的话音识别的系统和方法 Download PDFInfo
- Publication number
- CN1228761C CN1228761C CNB998048860A CN99804886A CN1228761C CN 1228761 C CN1228761 C CN 1228761C CN B998048860 A CNB998048860 A CN B998048860A CN 99804886 A CN99804886 A CN 99804886A CN 1228761 C CN1228761 C CN 1228761C
- Authority
- CN
- China
- Prior art keywords
- noise
- input signal
- signal
- voice
- digital sampling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000012549 training Methods 0.000 claims abstract description 38
- 238000004458 analytical method Methods 0.000 claims abstract description 9
- 238000005070 sampling Methods 0.000 claims description 49
- 238000005516 engineering process Methods 0.000 claims description 22
- 230000000694 effects Effects 0.000 claims description 15
- 238000001514 detection method Methods 0.000 claims description 8
- 239000002131 composite material Substances 0.000 claims description 7
- 230000002194 synthesizing effect Effects 0.000 claims description 4
- 230000009545 invasion Effects 0.000 claims description 2
- 230000015572 biosynthetic process Effects 0.000 abstract 1
- 238000003786 synthesis reaction Methods 0.000 abstract 1
- 230000001149 cognitive effect Effects 0.000 description 10
- 230000008878 coupling Effects 0.000 description 5
- 238000010168 coupling process Methods 0.000 description 5
- 238000005859 coupling reaction Methods 0.000 description 5
- 206010038743 Restlessness Diseases 0.000 description 3
- 230000009471 action Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 238000004378 air conditioning Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
Abstract
一种提高有噪声存在时语音识别准确性的系统和方法。改进语音识别训练单元,将数字化的语音取样存入可以在识别时间里访问的语音数据库。改进的识别单元包含一个噪声分析、模型化和合成单元,它连续地分析声音环境中存在的噪声特征,并产生具有相似特征的估计噪声信号。随后,通过将估计的噪声信号加到语音数据库中的每一语音样本中,并对得到的结果和进行参数确定,识别单元构造一个噪声补偿的模板数据库。这一过程考虑到识别阶段中有噪声存在,采用具有相似特征的估计噪声作为侵扰要识别的字的实际噪声信号,才训练所有的模板。这一方法提高了良好模板匹配的可能性,提高了识别准确性。
Description
发明背景
I.发明领域
本发明涉及话音处理。本发明尤其涉及用于口述单词或短语自动识别的系统和方法。
II.相关领域的描述
话音处理的数字处理已被广泛采用,特别是用于蜂窝电话和PCS应用。一种数字话音处理技术是话音识别。话音识别的处理由于安全的原因而日益重要。例如,话音识别可以用来取代蜂窝电话按键区上按压键的人工操作。当用户开车时进行电话呼叫的时候就更加重要了。当使用没有话音识别的电话时,司机必须一只手离开方向盘,看着电话按键区进行按键,以进行拨号呼叫。这些动作增加了交通事故的几率。而话音识别可以使司机在进行电话呼叫的同时一直注视着道路,并且两只手一直保持在方向盘上。含有话音识别的免提车载装置将因安全的原因而成为未来系统的法定要求。
当今使用的大多数普通类型的依赖于通话者的话音识别是以两个阶段进行工作的:训练(training)阶段和识别阶段。在训练阶段,话音识别系统请使用者一次或两次说出词汇表中的每一个单词,从而机器可以知道这些特定单词或短语用户说话的特征。识别词汇表的大小通常是比较小的(小于50个单词),并且话音识别系统将仅能够对其训练的用户具有高的识别精度。免提车载装置的一例词汇表包括按键区上的数字、关键词“呼叫”、“发送”、“拨打”、“取消”、“清除”、“增加”、“删除”、“历史”、“程序”、“是”和“否”,以及20个经常使用的同事、朋友或家庭成员的姓名。完成训练以后,用户可以通过说出经训练的关键词在识别阶段进行呼叫。例如,如果姓名“约翰”是受训者姓名,用户通过说出短语“呼叫约翰”向约翰发出呼叫。语音确认系统确认词语“呼叫”和“约翰”,并拨打用户先前输入作为约翰的电话号码的数字。
依赖通话者的语音确认系统的训练单元6的方框图如图1所示。训练单元6接收输入s(n),这是一组用于受训的单词或短语的数字化语音取样。语音信号s(n)通过参数确定块7,由它产生捕获用户特定词语发音特征的N个参数{p(n)n=1…N}的模板。参数确定单元7可以采用几种语音参数确定技术中的任何一种技术,而这些技术在本领域中是众所周知的。参数确定技术典型实施例是声音分成机编码器,见美国专利5,414,796,其标题是“可变速率声音合成机”,该专利已转让给本发明的受让人,在此引述供参考。参数确定技术的另一种实施例是快速富立叶变换(简称为FFT),这里,N个常数是N个FFT系数。其它的实施例根据FFT系数得到一些参数。每一说出的词语产生一个存储在模板数据库8中的由N个参数组成的模板。在完成了M个词汇的训练以后,模板数据库8含有M个模板,每一个模板含有N个参数。将模板数据库8存入某种类型的非易失存储器中,从而模板在断电以后还是存在。
图2是语音识别单元10的方框图,它是在依赖于说话者(speaker)的语音识别系统的识别阶段工作的。语音识别单元10包含模板数据库14,从总体上说,它是来自于训练单元6的模板数据库8。语音识别单元10的输入是数字化的输入语音x(n),这是要识别的语音。输入语音x(n)进入参数确定块12,它采用相同的参数确定技术,作为训练单元6的参数确定块7。参数确定块12产生N个参数{t(n)n=1…N}的识别模板,形成输入语音n(n)的特征模型。识别模板t(n)随后传送到码型(pattern)比较块16,在模板t(n)和模板数据库14中存储的所有模板之间进行码型比较。模板t(n)和模板数据库14中每一模板之间的距离被传送到判断块18,从模板数据库14中选择出与识别模板t(n)最接近的模板14。判断块18的输出是说出的是词汇表中哪一个词汇的判断。
识别准确度是识别系统识别词汇表中的词语正确性的度量。例如,识别正确性为95%表示识别单元能够在100个词语中正确识别出95个词语。在传统的语音识别系统中,识别准确性在有噪声时是受到严重影响的。损失准确性的主要原因是,训练词语通常是出现在安静环境中的,但识别却通常是发生在有噪声的环境中的。例如,免提车载语音识别系统通常是在车辆停在车库内或车道内训练的,从而引擎和空调是不工作的,并且窗户通常是卷起的。但是,识别却是用在车辆行使时的,从而引擎在运行时,会有道路和风的噪声出现,窗户会降下来,等等。由于训练阶段和识别阶段之间的噪声水平的不同,识别模板不会与训练时获得的任何一种模板很好匹配。这就增加了识别差错或失败的可能性。
图3绘出的是必须在有噪声时进行语音识别的语音识别单元20。如图3所示,加法器22将语音信号x(n)与噪声信号w(n)相加,得到受噪声侵扰的语音信号r(n)。应当理解,加法器22不是系统的具体元件,但却是噪声环境的模拟。受噪声侵扰的语音信号r(n)输入到参数确定块24,产生受噪声侵扰的模板t1(n)。码型比较块28将模板t1(n)与模板数据库26中的所有模板比较,而模板数据库26是构筑在安静环境中的。由于受噪声侵扰的模板t1(n)不是与训练模板中的任何一个匹配的,所以,有这样一种很高的可能性,即由判断块30产生的判断可能是一个识别错误或失败。
发明概述
本发明是一种在有噪声时对说出的词语进行自动识别的系统和方法。依赖于说话者的语音识别系统分两个阶段工作:训练阶段和识别阶段。在传统的语音识别系统训练阶段,提示使用者说出规定的词汇表中的所有的词语。对每一词语的数字化语音模板进行处理,以产生表征说出的词语的参数模板。训练阶段的输出是一个这些模板组成的信息库。在识别阶段,使用者说出特定的词语,来启动想要的动作。使说出的词语数字化,并进行处理,产生一个模板,并将其与所有在训练期间产生的模板比较。最接近的匹配确定将要执行的动作。使语音识别系统的准确性受到限制的主要损害是在有噪声的时候。识别期间加入噪声严重损害了识别的准确性,这是因为噪声是不在产生模板数据库时的训练期间出现的。本发明认识到,需要考虑到在识别时出现的特定噪声,以提高识别的准确性。
因此,不采用存储参数模板,改进的语音处理系统和方法存储训练阶段每一说出的词语的语音模板,并使其数字化。因此,训练阶段的输出是一个数字化的语音数据库。在识别阶段,连续监视声音环境中的噪声特征。当使用者说出词语进行识别时,通过在语音数据库中的每一信号中加入噪声信号并对每一话音加噪声信号进行判断构筑经噪声补偿的模板数据库。该加入的噪声信号的每一实施例是一个人工合成的噪声信号,具有与实际噪声类似的特征。另一种实施例是记录一个在使用者说出词语进行识别前出现的噪声时间窗。由于模板数据库是用在要识别的词语中出现的相同类型的噪声构筑的,所以语音识别单元可以找到模板之间的良好匹配,提高识别准确度。
附图简述
读者在参照附图阅读了本发明的详细描述以后,将会更清楚地了解本发明的特征、目的和优点。图中,相同的标号所表示的意义相同。
图1是语音识别系统训练单元的方框图;
图2是语音识别单元的方框图;
图3是对受噪声侵扰的语音输入进行语音识别的语音识别单元方框图;
图4是改进的语音识别系统训练单元的方框图;以及
图5是典型的改进的语音识别单元的方框图。
较佳实施例的详细描述
本发明提供了一种在有噪声时提高语音识别准确性的系统和方法。它利用了近年来计算能力和存储器集成进步的优点,并修改了考虑到在识别时有噪声出现时的训练和识别阶段。语音识别单元的功能是找到与识别模板最接近的匹配,而该模板是对受噪声侵扰的话音进行计算的。由于噪声的特征会随时间和地点而变,本发明认为,构筑模板的最佳时间是在识别阶段。
图4给出的是语音识别系统改进的训练单元40的方框图。与图1中传统的训练方法不同的是,修改了训练单元40,去掉了参数确定步骤。与存储参数模板不同的是,存储的是实际词语的数字化语音采样。所以,训练单元40接收作为输入语音取样s(n),并在语音数据库42中存储数字化的语音取样s(n)。在训练以后,语音数据库42含有M个语音信号,这里,M是词汇表中的词汇数。而已有技术的参数确定系统和方法丢失了有关语音特征的信息,它仅存储语音参数,该系统和方法会保留所有的语音信息,用于识别阶段。
图5是与训练单元40一起使用的改进的语音识别单元50的方框图。语音识别单元50的输入是受噪声侵扰的语音信号r(n)。受噪声侵扰的语音信号r(n)是由加法器52通过把语音信号x(n)与噪声信号w(n)相加后得到的。与以前一样,加法器52不是系统的一个具体元件,但是噪声环境的模拟。
语音识别单元50包含语音数据库60,它含有数字化的语音取样,这些取样是在训练阶段记录的。语音识别单元50还包含参数确定块54,通过它传送受噪声侵扰的语音信号r(n),而产生受噪声侵扰的模板t1(n)。正如在传统的话音识别系统中,参数确定块54采用任何一种语音参数确定技术都可以。
典型的参数确定技术采用线性预告编码(LPC)分析技术。LPC分析技术模拟声道(vocal tract)作为数字滤波器。采用LPC分析,LPC倒频谱系数c(m)可以计算为参数,用以代表语音信号。系数c(m)是用下述步骤计算的。首先,通过采用窗口函数v(n),对一个语音取样帧,对受噪声侵扰的语音信号r(n)开视窗:
y(n)=r(n)v(n) 0<=n<=N-1 (1)
在本典型实施例中,窗口函数v(n)是一个汉明窗口,并且帧大小N等于160。接着,用下面的等式,对窗口取样进行自相关系数计算:
在典型的实施例中,P是要计算的自相关系数,等于LPC预测器的阶数,它等于10。随后,用Durbin递归规则,直接从自相关值计算LPC系数。该规则可以陈述如下:
1.E(0)=R(0),i=1 (3)
3.αi (i)=ki (5)
4.αj (i)=αj (i-1)-kiαi-j (i-1) 1<=j<=i-1 (6)
5.E(i)=(1-ki 2)E(i-1) (7)
6.如果i<P,则回到(2),并且i=i+1 (8)
7.LPC系数的最终解给出
aj=αj (P) 1<=j<=P (9)
随后,用下面的等式,将LPC系数转换成LPC倒频谱系数:
c(0)=ln(R(0)) (10)
应当理解,其他技术可以用于参数确定,而取代LPC倒频谱系数。
另外,将信号R(n)传送到语音检测块56,由它判断有无话音。语音检测块56可以用任意一种技术来判断是否有话音存在。这样的一种方法见上述美国专利5,414,796,其标题是“可变速率声音合成机”。这一技术对话音活动的电平进行分析,对有无话音存在作出判断。话音活动电平是基于与背景噪声能量估计的比较的信号能量的。首先,对每一帧计算能量E(n),在一较佳实施例中,是由160个取样组成的。随后,用下面的等式计算背景噪声能量估计B(n):
B(n)=min[E(n),5059644,max(1.00547*B(n-1),B(n-1)+1)] (13)
如果B(n)<160000,则如下所述,用B(n)计算三个阈值:
T1(B(n))=-(5.544613×10-6)*B2(n)+4.047152*B(n)+362 (14)
T2(B(n))=-(1.529733×10-5)*B2(n)+8.750045*B(n)+1136 (15)
T3(B(n))=-(3.957050×10-5)*B2(n)+18.89962*B(n)+3347 (16)
如果B(n)>160000,则三个阈值计算为:
T1(B(n))=-(9.043945×10-8)*B2(n)+3.535748*B(n)-62071 (17)
T2(B(n))=-(1.986007×10-7)*B2(n)+4.941658*B(n)+223951 (18)
T3(B(n))=-(4.838477×10-7)*B2(n)+8.630020*B(n)+645864 (19)
该语音检测方法表示,当能量E(n)大于阈值T2(B(n))时有话音存在,并且表示当能量E(n)小于阈值T2(B(n))时,没有语音存在。在另一种实施例中,这一方法可以扩展到在两个或多个频带中计算背景噪声能量估计和阈值。另外,应当理解,等式(13)-(19)中的数值是通过实验确定的,并且可以根据环境来修改。
当语音检测块56判断不存在语音时,它发送一个使得能够启动噪声分析、建模和合成块58的控制信号。应当注意,在没有语音时,接收信号R(n)与噪声信号w(n)是相同的。
当启动噪声分析、建模和合成块58时,它分析噪声信号r(n)的特征,对其进行建模,并合成一个具有与实际噪声w(n)相似的特征的噪声信号w1(n)。进行噪声分析、建模和合成的典型实施例见美国专利5,646,991,其标题是“回波消除器中的噪声取代系统和方法(Noise Replacement System and Method in an EchoCanceller)”,该专利已转让给本发明的受让人,在此引述供参考。该方法通过预计差错滤波器传送噪声信号r(n)来进行噪声分析:
这里,P是预测器的阶数(order),在本典型实施例中是5。LPC系数ai是用等式(1)到(9),如先前所说明的那样计算的。一旦得到了LPC系数,则通过噪声合成滤波器传送白噪声,可以产生合成噪声取样,它们具有相同的频谱特征,如下式所述:
这是用于噪声分析的滤波器的逆。在对每一合成噪声取样取一换算倍数形成与实际噪声能量相等的合成噪声能量以后,输出为合成噪声w1(n)。
合成的噪声w1(n)由加法器62加到语音数据库60中的每一组数字化语音取样中,得到合成的受噪声侵扰的语音取样集。随后,每一组合成的受噪声侵扰的语音取样通过参数确定块64,与参数确定块54中使用的一样,用相同的参数确定技术,产生用于每一组合成的受噪声侵扰的话音取样的一组参数。参数确定块54产生用于每一组语音取样的参数模板,并且将这些模板存储在噪声受到补偿的模板数据库66中。噪声补偿的模板数据库66是一组这样构筑的模板,就象是在识别期间出现的相同类型的噪声已经发生了传统的训练。注意,除了美国专利5,646,991中揭示的方法以外,有许多可能的方法,用来产生估计噪声w1(n)。另一种实施例是简单记录实际当使用者沉默时出现的实际噪声的时间窗口,并用该噪声信号作为估计噪声w1(n)。在说出要识别的词语前所记录的噪声时间窗口是本方法的典型实施例。另一种方法是对在指定时间周期内得到的各个噪声窗口取平均。
再参见图5,码型比较块68将受噪声侵扰的模板t1(n)与噪声受补偿的模板数据库66中的所有模板比较。由于噪声的影响包括在噪声受到补偿的模板数据库66的模板内的,所以,判断块70能够为t1(n)找到很好的匹配。考虑到以这种方式噪声的影响,可以提高语音识别系统的准确性。
上述较佳实施例的描述使得本领域的技术人员能够制作和使用本发明。很明显,本领域中的技术人员还能够对这些实施例作各种修改,并且在无需发明专业人员的帮助下,还可以将这些基本原理应用于其他的实施例。所以,本发明并非仅限于所给的实施例,应当从最宽的范围来理解本发明的原理和新特征。
Claims (15)
1.一种语音识别系统,其特征在于,它包含:
训练单元,用来接收要训练的词语的信号、产生用于每一所述词语的数字化取样,并将所述数字化取样存储在语音数据库中;以及
语音识别单元,用来接收要识别的受噪声侵扰的输入信号、通过将噪声的影响施加于所述语音数据库的所述数字化取样上来产生噪声补偿的模板数据库,并根据所述噪声补偿的模板数据库,提供用于所述受噪声侵扰输入信号的语音识别结果
其中,所述语音识别单元包含:
语音检测单元,用来接收所述受噪声侵扰的输入信号,并判断所述输入信号中是否有语音,其中,所述输入信号是在判断所述输入信号中没有语音时指定为噪声信号;以及
噪声单元,所述噪声单元是在判断所述输入信号中没有语音时启动的,所述噪声单元用来分析所述噪声信号并合成具有所述噪声信号特征的合成噪声信号,所述合成噪声信号用来将噪声影响作用于所述语音数据库的所述数字化取样。
2.如权利要求1所述的语音识别系统,其特征在于,所述语音检测单元通过分析所述输入信号中语音活动的电平,来判断是否存在语音。
3.如权利要求1所述的语音识别系统,其特征在于,所述噪声单元用线性预告编码(LPC)技术,来分析和合成所述合成的噪声信号。
4.如权利要求1所述的语音识别系统,其特征在于,所述合成的噪声信号与要识别的所述输入信号前,记录的所述噪声信号的窗口对应。
5.如权利要求1所述的语音识别系统,其特征在于,所述合成的噪声信号与预定时间内记录的所述噪声信号的各个窗口平均值对应。
6.一种语音识别系统,其特征在于,它包含:训练单元,用来接收要训练的词语的信号、产生用于每一所述词语的数字化取样,并将所述数字化取样存储在语音数据库中;以及
语音识别单元,用来接收要识别的受噪声侵扰的输入信号、通过将噪声的影响施加于所述语音数据库的所述数字化取样上来产生噪声补偿的模板数据库,并根据所述噪声补偿的模板数据库,提供用于所述受噪声侵扰输入信号的语音识别结果
其中,所述语音识别单元包含:
第一参数确定单元,用来接收所述受噪声侵扰的输入信号,并按照预定的参数确定技术,产生代表所述输入信号的参数模板;
第二参数确定单元,用来接收所述语音数据库,所述数据库具有作用于所述数字化取样的噪声影响,并按照所述预定的参数确定技术,产生所述噪声补偿的模板数据库;
码型比较单元,用来代表所述输入信号的所述参数模板与所述噪声补偿的模板数据库比较,以确定最佳匹配,从而识别所述语音识别结果;
语音检测单元,用来接收受噪声侵扰的输入信号,并判断所述输入信号中是否有语音,其中,当判断在所述输入信号中没有语音时,所述输入信号被指定为是噪声信号;以及
在判断所述输入信号中没有语音时启动的噪声单元,所述噪声单元用来分析所述噪声信号,并合成具有所述噪声信号的特征的合成的噪声信号,所述合成的噪声信号用来向所述语音数据库的所述数字化取样施加噪声影响。
7.如权利要求6所述的语音识别系统,其特征在于,所述参数确定技术是一种线性预告编码(LPC)分析技术。
8.如权利要求6所述的语音识别系统,其特征在于,所述语音检测单元通过分析所述输入信号中语音活动的电平来判断是否存在语音。
9.如权利要求6所述的语音识别系统,其特征在于,所述噪声单元用线性预告编码(LPC)技术分析和合成所述合成的噪声信号。
10.如权利要求6所述的语音识别系统,其特征在于,所述合成的噪声信号与要识别的所述输入信号前记录的所述噪声信号窗口对应。
11.如权利要求6所述的语音识别系统,其特征在于,所述合成的噪声信号与在预定时间内记录的所述噪声信号的各个窗口平均值对应。
将所述数字化取样存入语音数据库的装置。
12.一种语音识别系统的语音识别单元,用来识别一输入信号,所述语音识别单元考虑到噪声环境的影响,其特征在于,它包含:
将一词汇表的词语数字化取样存入语音数据库中的装置;使噪声影响作用于所述词汇表的所述数字化取样以产生所述词汇表的受噪声影响的数字化取样的装置;
根据所述受噪声影响的数字化取样产生噪声补偿的模板数据库的装置;以及
根据所述噪声补偿模板数据库,确定所述输入信号的语音识别结果的装置
其中,施加噪声影响的所述装置包含:判断所述输入信号中是否存在语音的装置,其中,当判断所述输入信号中不存在语音时,所述输入信号指定为是噪声信号;以及
分析所述噪声信号并合成合成的噪声信号的装置,所述合成的噪声信号被加到所述词汇表的所述数字化取样中。
13.一种语音识别系统的语音识别单元,用来识别一输入信号,所述语音识别单元考虑到噪声环境的影响,其特征在于,它包含:
将一词汇表的词语数字化取样存入语音数据库中的装置;使噪声影响作用于所述词汇表的所述数字化取样以产生所述词汇表的受噪声影响的数字化取样的装置;
根据所述受噪声影响的数字化取样产生噪声补偿的模板数据库的装置;
根据所述噪声补偿模板数据库,确定所述输入信号的语音识别结果的装置;
第一参数确定装置,用来接收所述输入信号,并按照预定参数确定技术,产生代表所述输入信号的参数模板;以及
第二参数确定装置,用来接收所述词汇表的所述受噪声侵扰的数字化取样,并按照预定的参数确定技术,产生所述受噪声侵扰的模板数据库的模板;
其中,确定所述语音识别结果的所述装置将代表所述输入信号的所述参数模板与所述噪声补偿的模板数据库的模板比较,以确定最佳匹配,从而识别所述语音识别结果,
其中,施加噪声影响的所述装置包含:
判断所述输入信号中有无语音的装置,其中,当判断所述输入信号中没有语音时,所述输入信号指定为是噪声信号;以及
分析所述噪声信号并合成一合成的噪声信号的装置,所述合成的噪声信号被加到所述词汇表的所述数字化取样中。
14.一种考虑到噪声环境的影响的语音识别方法,其特征在于,它包含下述步骤:
产生每一训练的词语的数字化取样,每一所述词语属于一词汇表;
将所述数字化取样存入语音数据库中;
接收要识别的输入信号;
将噪声影响作用于所述词汇表的所述数字化取样,以产生所述词汇表的受噪声影响的数字化取样;
根据所述受噪声影响的数字化取样,产生噪声补偿的模板数据库;以及
根据所述噪声补偿模板数据库,提供所述受噪声影响的输入信号的语音识别结果,
其中,施加噪声影响的影响的所述步骤包含下述步骤:
判断所述输入信号中是否有语音,当判断所述输入信号中没有语音时,所述输入信号指定为是噪声信号;以及
分析所述噪声信号,并合成经合成的噪声信号,所述合成的噪声信号被加到所述词汇表的所述数字化取样上,以产生所述受噪声侵扰的数字化取样。
15.一种考虑到噪声环境的影响的语音识别方法,其特征在于,它包含下述步骤:
产生每一训练的词语的数字化取样,每一所述词语属于一词汇表;
将所述数字化取样存入语音数据库中;
接收要识别的输入信号;
将噪声影响作用于所述词汇表的所述数字化取样,以产生所述词汇表的受噪声影响的数字化取样;
根据所述受噪声影响的数字化取样,产生噪声补偿的模板数据库;
根据所述噪声补偿模板数据库,提供所述受噪声影响的输入信号的语音识别结果,
按照预定的参数确定技术,产生代表所述输入信号的参数的模板;以及
按照所述预定的参数确定技术,产生所述噪声补偿模板数据库的模板;
其中,提供语音识别结果的所述步骤将代表所述输入信号的参数模板与所述噪声补偿模板数据库的所述模板比较,以确定最佳匹配,从而识别所述语音识别结果,
其中,施加噪声影响的所述步骤包含下述步骤:
确定所述输入信号中有无语音,其中,当判断所述输入信号中没有所述语音时,所述输入信号被指定为是噪声信号;以及
分析所述噪声信号,并合成经合成的噪声信号,所述合成的噪声信号被加到所述词汇表的所述数字化取样上,以产生所述受噪声影响的数字化取样。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/018,257 US6381569B1 (en) | 1998-02-04 | 1998-02-04 | Noise-compensated speech recognition templates |
US09/018,257 | 1998-02-04 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1296607A CN1296607A (zh) | 2001-05-23 |
CN1228761C true CN1228761C (zh) | 2005-11-23 |
Family
ID=21787025
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB998048860A Expired - Lifetime CN1228761C (zh) | 1998-02-04 | 1999-02-03 | 用于经噪声补偿的话音识别的系统和方法 |
Country Status (9)
Country | Link |
---|---|
US (2) | US6381569B1 (zh) |
EP (1) | EP1058925B1 (zh) |
JP (1) | JP4750271B2 (zh) |
KR (1) | KR100574594B1 (zh) |
CN (1) | CN1228761C (zh) |
AU (1) | AU2577499A (zh) |
DE (1) | DE69916255T2 (zh) |
HK (1) | HK1035600A1 (zh) |
WO (1) | WO1999040571A1 (zh) |
Families Citing this family (48)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6744887B1 (en) * | 1999-10-05 | 2004-06-01 | Zhone Technologies, Inc. | Acoustic echo processing system |
JP4590692B2 (ja) | 2000-06-28 | 2010-12-01 | パナソニック株式会社 | 音響モデル作成装置及びその方法 |
US6631348B1 (en) * | 2000-08-08 | 2003-10-07 | Intel Corporation | Dynamic speech recognition pattern switching for enhanced speech recognition accuracy |
JP4244514B2 (ja) * | 2000-10-23 | 2009-03-25 | セイコーエプソン株式会社 | 音声認識方法および音声認識装置 |
US6999926B2 (en) * | 2000-11-16 | 2006-02-14 | International Business Machines Corporation | Unsupervised incremental adaptation using maximum likelihood spectral transformation |
US7236929B2 (en) * | 2001-05-09 | 2007-06-26 | Plantronics, Inc. | Echo suppression and speech detection techniques for telephony applications |
JP4240878B2 (ja) * | 2001-12-13 | 2009-03-18 | 四一 安藤 | 音声認識方法及び音声認識装置 |
JP3885002B2 (ja) * | 2002-06-28 | 2007-02-21 | キヤノン株式会社 | 情報処理装置およびその方法 |
US7340397B2 (en) * | 2003-03-03 | 2008-03-04 | International Business Machines Corporation | Speech recognition optimization tool |
US20050228673A1 (en) * | 2004-03-30 | 2005-10-13 | Nefian Ara V | Techniques for separating and evaluating audio and video source data |
DE102004049347A1 (de) * | 2004-10-08 | 2006-04-20 | Micronas Gmbh | Schaltungsanordnung bzw. Verfahren für Sprache enthaltende Audiosignale |
US8219391B2 (en) * | 2005-02-15 | 2012-07-10 | Raytheon Bbn Technologies Corp. | Speech analyzing system with speech codebook |
EP1854095A1 (en) * | 2005-02-15 | 2007-11-14 | BBN Technologies Corp. | Speech analyzing system with adaptive noise codebook |
CN1936829B (zh) * | 2005-09-23 | 2010-05-26 | 鸿富锦精密工业(深圳)有限公司 | 声音输出系统及方法 |
US7729911B2 (en) * | 2005-09-27 | 2010-06-01 | General Motors Llc | Speech recognition method and system |
KR100751923B1 (ko) * | 2005-11-11 | 2007-08-24 | 고려대학교 산학협력단 | 잡음환경에 강인한 음성인식을 위한 에너지 특징 보상 방법및 장치 |
US20070118372A1 (en) * | 2005-11-23 | 2007-05-24 | General Electric Company | System and method for generating closed captions |
CN100389421C (zh) * | 2006-04-20 | 2008-05-21 | 北京理工大学 | 一种快速构造用于关键词检出任务的语音数据库的方法 |
JP5038403B2 (ja) * | 2007-03-16 | 2012-10-03 | パナソニック株式会社 | 音声分析装置、音声分析方法、音声分析プログラム、及びシステム集積回路 |
US9343079B2 (en) | 2007-06-15 | 2016-05-17 | Alon Konchitsky | Receiver intelligibility enhancement system |
US8868417B2 (en) * | 2007-06-15 | 2014-10-21 | Alon Konchitsky | Handset intelligibility enhancement system using adaptive filters and signal buffers |
US8190440B2 (en) * | 2008-02-29 | 2012-05-29 | Broadcom Corporation | Sub-band codec with native voice activity detection |
US8615397B2 (en) * | 2008-04-04 | 2013-12-24 | Intuit Inc. | Identifying audio content using distorted target patterns |
US8433564B2 (en) * | 2009-07-02 | 2013-04-30 | Alon Konchitsky | Method for wind noise reduction |
DE102009059138A1 (de) | 2009-12-19 | 2010-07-29 | Daimler Ag | Verfahren und Testsystem zum Testen eines Spracherkennungssystems |
US20120143604A1 (en) * | 2010-12-07 | 2012-06-07 | Rita Singh | Method for Restoring Spectral Components in Denoised Speech Signals |
US9143571B2 (en) * | 2011-03-04 | 2015-09-22 | Qualcomm Incorporated | Method and apparatus for identifying mobile devices in similar sound environment |
WO2013097239A1 (en) * | 2011-12-31 | 2013-07-04 | Thomson Licensing | Method and device for presenting content |
CN103514878A (zh) * | 2012-06-27 | 2014-01-15 | 北京百度网讯科技有限公司 | 声学建模方法及装置和语音识别方法及装置 |
US9293148B2 (en) | 2012-10-11 | 2016-03-22 | International Business Machines Corporation | Reducing noise in a shared media session |
CN103903616B (zh) * | 2012-12-25 | 2017-12-29 | 联想(北京)有限公司 | 一种信息处理的方法及电子设备 |
CN103544953B (zh) * | 2013-10-24 | 2016-01-20 | 哈尔滨师范大学 | 一种基于背景噪声最小统计量特征的声音环境识别方法 |
US9466310B2 (en) * | 2013-12-20 | 2016-10-11 | Lenovo Enterprise Solutions (Singapore) Pte. Ltd. | Compensating for identifiable background content in a speech recognition device |
US9858922B2 (en) | 2014-06-23 | 2018-01-02 | Google Inc. | Caching speech recognition scores |
US9299347B1 (en) * | 2014-10-22 | 2016-03-29 | Google Inc. | Speech recognition using associative mapping |
CN108028047B (zh) | 2015-06-30 | 2022-08-30 | 弗劳恩霍夫应用研究促进协会 | 用于生成数据库的方法和设备 |
US9786270B2 (en) | 2015-07-09 | 2017-10-10 | Google Inc. | Generating acoustic models |
CN105405447B (zh) * | 2015-10-27 | 2019-05-24 | 航宇救生装备有限公司 | 一种送话呼吸噪声屏蔽方法 |
US10229672B1 (en) | 2015-12-31 | 2019-03-12 | Google Llc | Training acoustic models using connectionist temporal classification |
US20180018973A1 (en) | 2016-07-15 | 2018-01-18 | Google Inc. | Speaker verification |
CN106816154A (zh) * | 2016-12-15 | 2017-06-09 | 北京青笋科技有限公司 | 一种具有智能降噪功能的灯具语音识别控制方法 |
KR102410820B1 (ko) * | 2017-08-14 | 2022-06-20 | 삼성전자주식회사 | 뉴럴 네트워크를 이용한 인식 방법 및 장치 및 상기 뉴럴 네트워크를 트레이닝하는 방법 및 장치 |
US10706840B2 (en) | 2017-08-18 | 2020-07-07 | Google Llc | Encoder-decoder models for sequence to sequence mapping |
US10762905B2 (en) * | 2018-07-31 | 2020-09-01 | Cirrus Logic, Inc. | Speaker verification |
CN109256144B (zh) * | 2018-11-20 | 2022-09-06 | 中国科学技术大学 | 基于集成学习与噪声感知训练的语音增强方法 |
CN109841227B (zh) * | 2019-03-11 | 2020-10-02 | 南京邮电大学 | 一种基于学习补偿的背景噪声去除方法 |
CN110808030B (zh) * | 2019-11-22 | 2021-01-22 | 珠海格力电器股份有限公司 | 语音唤醒方法、系统、存储介质及电子设备 |
EP3862782A1 (en) * | 2020-02-04 | 2021-08-11 | Infineon Technologies AG | Apparatus and method for correcting an input signal |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4933973A (en) | 1988-02-29 | 1990-06-12 | Itt Corporation | Apparatus and methods for the selective addition of noise to templates employed in automatic speech recognition systems |
US5095503A (en) | 1989-12-20 | 1992-03-10 | Motorola, Inc. | Cellular telephone controller with synthesized voice feedback for directory number confirmation and call status |
AU671952B2 (en) | 1991-06-11 | 1996-09-19 | Qualcomm Incorporated | Variable rate vocoder |
US5307405A (en) | 1992-09-25 | 1994-04-26 | Qualcomm Incorporated | Network echo canceller |
DE4340679A1 (de) | 1993-11-30 | 1995-06-01 | Detecon Gmbh | Sprachmodul für die akustische Wiedergabe von SAPI 3 Messages (Short Message Service) in einer Mobilstation (MS) |
US5845246A (en) * | 1995-02-28 | 1998-12-01 | Voice Control Systems, Inc. | Method for reducing database requirements for speech recognition systems |
IL116103A0 (en) | 1995-11-23 | 1996-01-31 | Wireless Links International L | Mobile data terminals with text to speech capability |
US5778342A (en) * | 1996-02-01 | 1998-07-07 | Dspc Israel Ltd. | Pattern recognition system and method |
US5950123A (en) | 1996-08-26 | 1999-09-07 | Telefonaktiebolaget L M | Cellular telephone network support of audible information delivery to visually impaired subscribers |
-
1998
- 1998-02-04 US US09/018,257 patent/US6381569B1/en not_active Expired - Lifetime
-
1999
- 1999-02-03 AU AU25774/99A patent/AU2577499A/en not_active Abandoned
- 1999-02-03 JP JP2000530903A patent/JP4750271B2/ja not_active Expired - Lifetime
- 1999-02-03 DE DE69916255T patent/DE69916255T2/de not_active Expired - Lifetime
- 1999-02-03 EP EP99905664A patent/EP1058925B1/en not_active Expired - Lifetime
- 1999-02-03 WO PCT/US1999/002280 patent/WO1999040571A1/en active IP Right Grant
- 1999-02-03 CN CNB998048860A patent/CN1228761C/zh not_active Expired - Lifetime
- 1999-02-03 KR KR1020007008543A patent/KR100574594B1/ko not_active IP Right Cessation
-
2000
- 2000-12-01 US US09/728,650 patent/US20010001141A1/en not_active Abandoned
-
2001
- 2001-08-14 HK HK01105667A patent/HK1035600A1/xx not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
JP2002502993A (ja) | 2002-01-29 |
CN1296607A (zh) | 2001-05-23 |
US6381569B1 (en) | 2002-04-30 |
WO1999040571A1 (en) | 1999-08-12 |
HK1035600A1 (en) | 2001-11-30 |
KR100574594B1 (ko) | 2006-04-28 |
EP1058925A1 (en) | 2000-12-13 |
EP1058925B1 (en) | 2004-04-07 |
AU2577499A (en) | 1999-08-23 |
JP4750271B2 (ja) | 2011-08-17 |
DE69916255T2 (de) | 2005-04-14 |
KR20010040669A (ko) | 2001-05-15 |
DE69916255D1 (de) | 2004-05-13 |
US20010001141A1 (en) | 2001-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1228761C (zh) | 用于经噪声补偿的话音识别的系统和方法 | |
CN1160698C (zh) | 噪声信号中语音的端点定位 | |
EP1301922B1 (en) | System and method for voice recognition with a plurality of voice recognition engines | |
CN101354887B (zh) | 用在语音识别中的环境噪声注入方法 | |
US6959276B2 (en) | Including the category of environmental noise when processing speech signals | |
CN1238836C (zh) | 在话音识别的说话者独立型和依赖型模式中组合dtw和hmm | |
CN1205601C (zh) | 用于与说话者无关的话音识别系统的构造话音模板的方法和设备 | |
CN1199488A (zh) | 模式识别 | |
US20130166294A1 (en) | Frame Erasure Concealment Technique for a Bitstream-Based Feature Extractor | |
EP1936606A1 (en) | Multi-stage speech recognition | |
US8626506B2 (en) | Method and system for dynamic nametag scoring | |
CN1278944A (zh) | 语音基准登记方法 | |
CN100527224C (zh) | 有效存储语音识别模型的系统和方法 | |
CN1160450A (zh) | 从连续语音中识别讲话声音的系统及其应用方法 | |
CN101447183A (zh) | 一种应用于语音识别系统的高性能置信度处理方法 | |
CN1165889C (zh) | 话音拨号的方法和系统 | |
US20010044718A1 (en) | Bitstream-based feature extraction method for a front-end speech recognizer | |
CN1262989C (zh) | 语言验证方法及系统 | |
CN115132198B (zh) | 数据处理方法、装置、电子设备、程序产品及介质 | |
Nakamura et al. | Robust word spotting in adverse car environments. | |
CN1163009A (zh) | 用以识别出连续语音中在声音之间的边界的方法和系统 | |
CN117457016A (zh) | 一种过滤无效语音识别数据的方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CX01 | Expiry of patent term |
Granted publication date: 20051123 |
|
CX01 | Expiry of patent term |