CN1125432C - 基于声码器的语音识别器、识别方法及数字蜂窝电话 - Google Patents
基于声码器的语音识别器、识别方法及数字蜂窝电话 Download PDFInfo
- Publication number
- CN1125432C CN1125432C CN98808942A CN98808942A CN1125432C CN 1125432 C CN1125432 C CN 1125432C CN 98808942 A CN98808942 A CN 98808942A CN 98808942 A CN98808942 A CN 98808942A CN 1125432 C CN1125432 C CN 1125432C
- Authority
- CN
- China
- Prior art keywords
- vocoder
- data
- speech
- energy
- lpc
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 claims description 30
- 239000000284 extract Substances 0.000 claims description 16
- 230000001413 cellular effect Effects 0.000 claims description 8
- 230000007774 longterm Effects 0.000 claims description 6
- 230000002708 enhancing effect Effects 0.000 claims 4
- 230000005284 excitation Effects 0.000 claims 2
- 238000000605 extraction Methods 0.000 claims 2
- 238000005070 sampling Methods 0.000 description 7
- 238000012549 training Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000010267 cellular communication Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 239000002131 composite material Substances 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Mobile Radio Communication Systems (AREA)
- Telephonic Communication Services (AREA)
- Photoreceptors In Electrophotography (AREA)
- Steering Control In Accordance With Driving Conditions (AREA)
- Telephone Function (AREA)
- Character Discrimination (AREA)
- Machine Translation (AREA)
- Diaphragms For Electromechanical Transducers (AREA)
Abstract
一种利用基于线性预测编码的声码器数据识别说出来的词而不需要完全重建语音数据的基于声码器的语音识别器。该识别器对于所述声码器数据的每一帧至少生成一个能量估计(60)并利用相关的能量估计搜索所述声码器数据中词的边界(64)。如果找到一个词(66),就从与这一个词相关的声码器数据中提取线性预测编码词参数(68)并从提取出来的线性预测编码词参数计算识别特征(70)。最后,将所述识别特征与以前存储的其它词的识别特征进行匹配(40),从而识别说出来的词。
Description
发明领域
本发明总地涉及语音识别器,并涉及使用线性预测编码(LPC)声码器数据作为输入的语音识别器。
发明背景
在本领域里,语音识别器大家都非常熟悉,它在许多地方都有应用。例如,移动装置的指令和控制应用、计算机录音电话机、儿童玩具和汽车电话里都使用了语音识别。在所有这些系统里,都将语音信号数字化,然后参数化。将参数化的输入信号与其发音已知的基准参数化信号比较。与输入信号最吻合的基准信号的相关发音就是识别出来的发音。
语音识别系统在语音拨号系统中有其特殊的用途,当用户说出他想呼叫的人的名字时,语音识别系统就从事先提供的基准表识别出这一名字,并给出这一识别出来的名字所对应的电话号码。然后电话机拨这一号码。结果是用户接通了他想要的电话,而不必寻找电话号码,也不必用自己的手来拨电话号码。
语音拨号对汽车移动电话来说特别重要,在这种情况下,电话用户通常就是汽车驾驶员,他必须不间断地将注意力集中在路面上。如果驾驶员想给某个人打电话,驾驶员说出这个人的名字比他亲自去拨电话号码要安全得多。
下面参考图1,它说明的是一架数字移动电话的主要部件。一般而言,移动电话中有一个麦克风10、一个扬声器12、一个模数转换单元14、一个用标为DSP-1的数字信号处理(DSP)芯片实现的声码器16、微控制器或中央处理单元(CPU)中的一个操作系统18、一个射频接口单元(RF单元)19和一付天线20。发射信号的时候,麦克风10产生模拟语音信号,由单元14数字化。声码器16压缩语音取样,以减少要通过射频单元19和天线20发射给另一个移动电话的数据量。接收端移动电话的天线20通过射频单元19将收到的信号提供给声码器16,声码器16对收到的信号解压缩,得到语音取样。单元14将语音取样转换成模拟信号,由扬声器12播放出来。操作系统18控制移动电话的工作过程。
对于语音拨号系统,移动电话还有一个语音识别器22,实现在标为DSP-2的一个单独的DSP芯片里,它接收数字化的语音取样作为输入,对该语音信号进行参数化,并将参数化的输入信号与基准语音信号比较。一般情况下,语音识别器22或是将匹配信号的识别码提供给操作系统18,或者是提供有关的电话号码,如果这一匹配信号有一个电话号码与之对应。
现在参考图2,它说明语音识别器22工作的总过程。将数字化的语音取样按预定长度分成帧,例如长度为5-20ms的帧,提供给识别器22的就是这些帧(步骤28)。对于每一帧,识别器22首先计算(步骤30)这一帧的能量。
现在参考图3,它说明的是,作为时间的函数,说出来的词“RICHARD”的每一帧的能量。这一能量信号有两个峰31和33,对应于这个词的两个音节。不说话的时候,图中用参考数字35表示,甚至在音节之间,能量电平显然要低得多。
因此,识别器22在能量信号里搜索(图2中的步骤32)一个词的开头和结尾。将词的开头定义为能量信号维持低电平的时间超过一段预定长度以后,能量开始显著增大的那一个点37。将词的结尾定义为能量的显著降低结束的那一点39,在这一点以后,能量信号维持低电平的时间比一段预定时间的长度长。在图3里,词的开头37大约在0.37s处,结尾39大约在0.85s处。
如果找到了一个词,见步骤34中选中的分支,语音识别器22就进行(步骤36)线性预测编码LPC分析,从而生成所说词的参数。在步骤38里,语音识别器22计算说出的词的识别特征,在步骤40里,语音识别器22从基准库里搜索匹配的基准词识别特征。或者语音识别器22在叫做“训练”的过程里将识别特征存入基准库。
可惜,语音识别过程计算量很大,因此只能在第二DSP芯片DSP-2里才能实现。这给移动电话增加了不少的成本。
发明概述
本发明的目的是提供一种语音识别器,它处理的是由基于LPC的声码器压缩过的语音数据,而不是语音数据取样,从而减少识别器的计算量。这样,语音识别可以在同时运行操作系统程序的微控制器或CPU中进行。由于语音识别器不分析语音信号,就可以用处理能力有限和/或不需要接收语音信号的微控制器或者CPU。
此外,本发明提供一种特征发生器,它可以从基于LPC的不同类型的声码器提取相同类型的特征数据用于识别。这样,本发明可以针对用基于LPC的不同类型的声码器压缩过的压缩语音数据,进行同样的识别操作(例如比较和训练)。
因此本发明的一个优选实施方案提供了一种方法,用于利用基于线性预测编码LPC 的声码器数据识别说出来的词,而不必完全重建语音数据。这一基于声码器的识别器用于实现这里描述的方法。该方法包括对声码器数据产生至少一个每帧能量估计,以及利用相关的能量估计从声码器数据中搜索词的边界这两个步骤。如果找到了一个词,就从与这一个词相关的声码器数据中提取出LPC词参数,并从提取出来的LPC词参数中计算出识别特征。最后将识别特征与先前存储的其它词的识别特征比较,从而识别说出来的词。
此外,根据本发明的一个优选实施方案,能量是从在码器数据中找到的残差数据估计出来的。可以用很多的方法来进行这一估计。在一个实施方案中,从声码器数据中重建出残差数据,得到的估计就是残差数据的范数。另一个实施方案是从声码器数据中提取一个音调-增益(pitch-gain)值,作为能量估计。在再一个实施方案里,从声码器数据中提取出音调-增益值、滞后值(lag values)和剩余数据(remnantdata)。从剩余数据中产生剩余信号,由此产生一个剩余能量估计。非剩余能量估计是利用音调-增益值和滞后值所定义的前一个能量估计值从残差信号的非剩余部分产生的。最后将这两个能量估计,剩余能量和非剩余能量合并。
更进一步,根据本发明的一个优选实施方案,声码器数据可以来自以下声码器中的任何一个:RPE-LTP全速率或半速率,QCELP 8和13kbps,EVRC,LD CELP,VSELP,CS ACELP,增强型全速率声码器和LPC10。
本发明的又一个优选实施方案提供了一种数字蜂窝电话,它包括一个移动电话操作系统、一个基于LPC的声码器和一个基于声码器的语音识别器。该识别器包括一个前端处理器,对声码器数据进行处理以确定一个词是什么时候说出来的,并产生这一说出来的词的识别特征,该识别器还包括一个识别器,它至少能够识别出说出来的词是一组基准词中的哪一个。
根据本发明的另一个实施方案,前端处理器有一个能量估计器、一个LPC参数提取器和一个识别特征发生器。能量估计器利用构成声码器数据一部分的残差信息估计语音信号的能量。LPC参数提取器提取声码器数据的LPC参数。识别特征生成器从LPC参数生成识别特征。
更进一步,根据本发明的一个优选实施方案,前端处理器可以有选择性地与多种声码器一起工作。
附图简述
通过下面的详细描述并参考以下附图,可以获得对本发明更全面的理解。
图1是现有技术中有语音识别功能的蜂窝电话的一个框图;
图2是现有技术中基于LPC的语音识别方法的流程图;
图3是一个说出来的词的能量图;
图4是压缩语音数据的结构示意图;
图5是按照本发明的一个优选实施方案构成和工作的有一个基于声码器的语音识别器的一个蜂窝电话的框图;
图6是本发明一个优选实施方案中一种语音识别方法的流程图;
图7是从残差信号中估计出来的一个说出来的词的能量图;
图8是有利于理解本发明工作过程的残差信号的示意图;
图9是GSM解码器的一个框图;和
图10是从估计的残差信号中估计出来的一个说出来的词的能量图。
发明详述
有很多种语音压缩算法,最常用的是那些基于线性预测编码(LPC)的算法。本发明的申请人认识到,由于多数语音识别算法都是利用线性预测编码分析以便从语音信号中提取参数,就可以将压缩语音信号的元素提供给语音识别器,以便显著地降低语音识别器的分析量。因此,本发明是一个实现在蜂窝移动电话的微控制器或CPU中的基于声码器的语音识别器,下面将参考图5、6和7详细说明。
线性预测分析:
下面简要说明基于LPC的声码器16的工作原理。对语音编码的一般性讨论,与本说明相比,包括对线性预测编码更加详细的说明,可以在Andreas S.Spanias在
电气与电子工程师学会会报,1994年10月, 第82卷第10期,第1541-1582页上发表的文章“语音编码:综述”中找到。
声码器16将语音信号分成一系列的帧,每一帧的长度为N,通常包括大约20ms的语音信号。声码器16对每一帧进行线性预测编码(LPC)分析。
线性预测编码用以下方程描述语音信号y(n):
等式1
y(n)=a1y(n-1)+a2y(n-2)+…+apy(n-p)+ε(n)其中ai叫做LPC系数,ε(n)叫做残差信号。每一帧通常都有p个LPC系数ai,残差信号ε(n)的长度是N。LPC系数和残差信号构成帧的参数。声码器通常还至少在音调和增益值方面对残差信号ε(n)进行参数化。声码器还可以产生LPC声码器领域中众所周知的基于LPC的许多参数中的任意一种,例如倒频谱系数、MEL倒频谱系数、线谱对(LSP)、反射系数、对数面积比(LAR)系数等等,所有这些都可以很容易地从LPC系数计算出来。
接着对获得的值进行编码,从而产生典型的语音压缩帧,例如图4所示的帧52。语音压缩帧52包括编过码和/或参数化的LPC系数ai和编过码的残差信号ε(n)。
基于声码器的语音识别器
现在参考图5,它说明的是蜂窝电话中一个基于声码器的语音识别器50。由于蜂窝电话与图1所示现有技术电话相似,因此图中相同的数字就表示相同的单元。还要参考图6和7,它们有助于理解基于声码器的语音识别器50的操作。
图5中的蜂窝电话包括麦克风10、扬声器12、转换单元14、声码器16、操作系统18、射频接口单元19和天线20。另外,图5中的蜂窝电话包括基于声码器的语音识别器50,用于接收声码器16产生的基于LPC的压缩语音信号作为输入。
根据本发明的一个优选实施方案,基于声码器的语音识别器50是在CPU 51里实现的,CPU 51还实现操作系统18。装置51可以是一个CPU,就象所标明的那样,或者是一个微控制器。由于语音识别器50不分析语音信号,就可以用任意一种微控制器或者CPU来实现语音识别器50,包括处理能力有限并且不接收语音信号的那些微控制器或者CPU。
图6说明基于声码器的语音识别器50处理象帧52那样的压缩帧的基本形式。
象在现有技术中那样,一旦收到帧(步骤58)就确定帧的能量。而在本发明中,能量不是从取样数据而是从声码器数据中估计出来的(步骤60),而且能量估计不需要重建取样数据。
本发明的申请人发现可以利用残差信号ε(n)来估计能量,因为在本领域里大家都知道,残差信号描述的是通过声道的空气的压力,而LPC参数描述的则是声道的结构因而通常与语音音量无关。结果是,残差信号与一个人说话的声音是大还是小密切相关。
根据本发明的一个优选实施方案,估计能量的一种方法是确定每一帧残差信号的能量,或者如果帧分成了子帧,就是确定每一子帧的能量。这用数学公式表示就是:
等式2
其中
是第i帧的能量,残差信号ε(n)是从声码器数据中重建出来的,数字M是帧或子帧中的取样点数。
图7说明的是从说出来的词“RICHARD”的重建残差信号得到的估计的能量信号。可以看出,图7中的估计出来的能量信号与图3中的能量信号并不完全相同。但估计出来的能量信号与现有技术中的能量信号相关性非常好。图7中信号的开头和结尾,分别标成62和63,也都是在大约0.37s和0.85s处。
本发明还包括从声码器数据估计能量的其它方法,下面将介绍其中的一些。
回到图6,基于声码器的语音识别器50在估计的能量信号中搜索(步骤64)词的边界。如果需要,语音识别器50可以利用LPC参数的任何特征(例如它们的平均值和/或方差)来确定词的边界位置,这些参数的特征在词的边界上急剧地变化。
如果找到一个词,就象步骤66中检验出来的一样,识别器50就从声码器数据中提取出LPC词参数(步骤68)。在步骤68里通常还要对语音压缩帧52中的编码LPC参数解码并将它们转换成LPC系数。
然后识别器50从提取出来的LPC系数中计算(步骤70)它的识别特征。这些识别特征可以是基于LPC的参数中的任意一个,例如倒频谱系数、MEL倒频谱系数、线谱对(LSP)、反射系数、面积比(LAR)系数等等,所有这些都可以很容易地从LPC系数计算出来。这样,如果声码器使用的是一种LPC参数,识别器50使用的是另一种LPC参数,识别器50就可以直接或者通过LPC系数将LPC参数从一种转换成另一种。
最后识别器50利用从步骤70获得的识别特征将输入信号识别成它的基准库里的一个基准词,或者训练出一个新的基准词存入它的库中。由于识别器50产生的识别特征可以与本领域里的一样,这一步骤与现有技术里的识别/训练步骤40一样,它也是这样标注的。Prentice-Hall1993年出版的Lawrence Rabiner和Biing Hwang Juang的书《语音识别基础》描述了许多合适的识别器50,这里将它引做参考。
应当理解,步骤60-70是将声码器数据转换成识别/训练步骤所需要的识别特征。有许多种基于LPC的声码器,每一种对语音信号的操作多少都有些不同。可以将步骤60-70修改以适用于每一种声码器,以便产生相同的识别特征,而不考虑声码器类型。因此步骤60-70构成识别/训练步骤40的处理“前端”。
本发明包括一种基于声码器的语音识别器,它有多个前端和一个识别/训练单元。这对于卖出去用于在多种数字蜂窝电话系统中工作的那些移动电话非常有用,这里的每一种蜂窝电话系统都使用不同种类的声码器。有了许多前端,本发明的语音识别器就可以与许多种声码器协同工作。
用于确定词的边界的能量估计方法:
一些简单的声码器,例如美国国防部标准1015 V.53里描述的叫做线性LPC 10的声码器,只用音调和增益值描述残差信号ε(n)。现在参考图8,其中是一个浊音信号的残差信号实例,该信号有许多重复的尖峰70,这些尖峰70的幅度都差不多。将相邻两个尖峰70之间的距离定义为音调(pitch)P,这些尖峰的幅度定义为增益G。清音信号有增益值,但没有音调值。
因此,帧或子帧残差信号能量可以用增益值G来估计。在这一个实例里,不是通过重建残差信号ε(n),而是通过从压缩语音数据中提取残差信号ε(n)的一个参数:增益值G,来估计帧或子帧的能量。
其它的声码器,例如全球移动通信系统(GSM)、时分多址(TDMA)和码分多址(CDMA)数字蜂窝通信系统中的声码器,将当前帧或子帧的残差信号与前面一些帧的残差信号的并置版本做相关运算。当前帧的残差信号与前面的残差信号最相近的点,与音调增益(pitch gain)PG相乘以后,叫做LAG值。然后声码器确定一个“剩余信号”,它是前一个残差信号乘以音调增益PG与当前残差信号的差。于是当前残差信号的特征是音调增益PG、LAG值和剩余信号。
对于后一种声码器,当前帧或子帧,i,的能量可以利用以下公式从剩余信号和残差信号的非剩余部分估计出来:
等式3 (m=1或者2)
其中Erem是剩余信号的能量估计,ELAG是残差信号的非剩余能量,它是从比当前帧或子帧晚
帧或子帧的帧或子帧的能量和音调增益获得的。可以通过重建剩余信号来获得前一个值,这一运算相对简单,或者通过任何其它方法来获得前一个值。符号
和
分别表示“不大于变量的最大整数”和“不小于变量的最小整数”运算,开m次方运算不必进行。
GSM声码器的能量估计
现在参考图9,其中说明的是构成部分GSM标准的声码器的解码器部分。图9与欧洲电信标准协会1992年3月份版的I-ETS 300036规范中,第34页的图3、4类似。解码器的细节可以在该规范中找到,在这里将该规范引做参考。为清楚起见,下面只说明解码器中对理解本发明的能量和特征计算有用的有关部分。
图9用粗线表示输入数据,用细线表示内部信号。输入数据有Mcr、Xmaxcr、Xmcr、bcr、Ncr和LARcr值,它们在I-ETS规范里都有定义。
图9表明这一解码器有一个RPE解码器80、一个长期预测器84、一个短期合成滤波器86和一个去加重器88。RPE解码器80接收Mcr、Xmaxcr和Xmcr信号,并产生一个剩余信号er′。长期预测器84利用bcr和Ncr信号从剩余信号er′产生一个残差信号dr′。短期合成滤波器86从残差信号dr′和以LARcr数据形式发送的短期LPC参数产生语音信号。
与前面一样,有一种能量计算方法是计算残差信号dr′的第一或第二范数:如下所示
等式4 (m=1或者2)
另一个能量计算方法是利用剩余信号er′和长期预测器84的内部数据值br′和Nr′。具体而言,预测器84有一个参数解码器90、一个延迟单元92、一个乘法器94和一个加法器96。解码器90将输入值bcr和Ncr变换成内部数据值br′和Nr′,这里的br′是一个乘数,与前面的音调增益PG相似,Nr′是一个延迟量,与前面的LAG值相似。长期预测器84将信号dr″加到剩余信号er′上去,其中,信号dr″是前面的残差信号dr′(1-Nr′)经过延迟单元92延迟以后,再在乘法器94里用br′相乘以后得到的结果。
可以用等式3估算能量,其中的LAG和PG值用Nr′和br′代替,并将FL的值取为40。另外,剩余的能量估计Erem用以下等式计算:
等式5
现在参考图10,它说明的是利用上述公式估计出来的能量。词的开头和结尾两个边界,分别标为98和99,与现有技术里的位置相同。
从提取出来的参数估计能量的另一种方法也是利用前面的Nr′和br′,其中的FL取值40,用以下公式估计剩余的能量估计,Erem:
等式6
回到图9,LPC的词参数是从短期合成滤波器86内的发送数据里提取出来的,该滤波器中有一个LAR解码器100、一个内插器102、一个反射系数确定单元140和一个滤波器106。单元100、102和140一起将收到的LARcr数据转换成反射系数rr′,再将反射系数容易地变换成LPC系数。
就象这里参考图6所做的介绍一样,一旦提取出LPC系数,就将它们变换(步骤70)成识别器/训练步骤需要的识别特征。
本领域里的技术人员应当明白,尽管只针对GSM数字蜂窝通信系统里的声码器做了详细的介绍,但是本发明仍然可以用于所有类型的蜂窝通信系统和所有类型的基于LPC的声码器。对于每一种声码器,必须分析存储在压缩语音数据里的信息类型,以确定计算能量和特征时如何利用它。压缩语音数据的详细介绍可以参见定义每一个声码器的标准。
下表列出了一些现有的蜂窝通信系统、它们使用的声码器和定义声码器和/或系统的标准。数字蜂窝通
基于LPC的声码器 标准信系统GSM RPE-LTP全速率 I-ETS 300 036 6.1
I-ETS 300 581-2第4
RPE-LTP半速率
版CDMA QCELP 8kbps, IS 96 A
13kbps
EVRC IS 127
LD CELP ITU G.728TDMA VSELP IS 54 BPHS,PCS CS ACELP ITU G.729PCS-TDMA 增强型全速率声码器 IS 641PDC(日本) VSELP RCR STD 27
本领域的技术人员应当明白,本发明并不局限于上面的具体描述。相反,本发明的范围是由以下权利要求规定的。
Claims (19)
1、一种利用基于线性预测编码(LPC)的声码器数据识别说出来的词而不需要完全重建语音数据的方法,其中的声码器数据构成一系列的帧,该方法包括以下步骤:
对于所述声码器数据的每一帧生成一个或多个能量估计;
利用相关的能量估计搜索所述声码器数据中词的边界;
如果找到一个词,就从与这一个词相关的声码器数据中提取LPC词参数;
从提取出来的LPC词参数计算识别特征;和
将所述识别特征与以前存储的其它词的识别特征进行匹配,从而识别说出来的词。
2、一种利用基于线性预测编码(LPC)的声码器数据准备识别说出来的词而不需要完全重建语音数据的方法,其中的声码器数据构成一系列的数据帧,该方法包括以下步骤:
对于所述声码器数据的每一帧至少生成一个能量估计;
利用相关的能量估计搜索所述声码器数据中词的边界;
如果找到一个词,就从与这一个词相关的声码器数据中提取LPC词参数;
从提取出来的LPC词参数计算识别特征。
3、根据权利要求2的一种方法,其中所述的生成步骤包括从在所述声码器数据中找到的残差数据估计能量的步骤。
4、根据权利要求3的方法,其中估计能量的步骤包括从所述声码器数据重建残差数据并计算所述残差数据的范数的步骤。
5、权利要求3的方法,其中估计能量的步骤包括从所述声码器数据中提取音调-增益值并将提取出来的音调-增益值用作所述能量估计的步骤。
6、根据权利要求3的方法,其中所述生成步骤包括以下步骤:
从所述声码器数据中提取音调-增益值、滞后值和剩余数据;
从所述剩余数据重建剩余信号;
生成所述剩余信号的能量估计;
利用所述音调-增益值和前面用所述滞后值定义的能量估计,生成所述残差的非剩余部分的能量估计;和
将所述剩余和非剩余能量估计合并在一起。
7、根据权利要求1的方法,其中声码器数据的类型是以下声码器中任意一个产生的数据的类型:规则脉冲激励-长期预测(RPE-LTP)全速率和半速率、夸尔考姆码激励线性预测(QCELP)8和13kbps、增强可变速率编解码器(EVRC)、低延迟码激励线性预测(LD CELP)、矢量和激励线性预测(VSELP)、共轭结构代数码激励线性预测(CS ACELP)、增强型全速率声码器和线性预测编码(LPC)10。
8、根据权利要求2的方法,其中所述声码器数据的类型是以下声码器中任意一个产生的数据的类型:规则脉冲激励一长期预测全速率和半速率、夸尔考姆码激励线性预测8和13kbps、增强可变速率编解码器、低延迟码激励线性预测、矢量和激励线性预测、共轭结构代数码激励线性预测、增强型全速率声码器和线性预测编码10。
9、一种数字蜂窝电话,包括:
一个移动电话操作系统;
一个声码器,利用基于线性预测编码(LPC)的方法压缩语音信号由此产生声码器数据;和
一个基于声码器的语音识别器,包括:
一个前端处理器,用来处理所述声码器数据,以确定一个词是什么时候说出来的,并产生所述说出来的词的识别特征;和
一种识别器,能够将说出来的词识别为一组基准词中的一个。
10、根据权利要求9的数字蜂窝电话,其中的前端处理器包括:
一个能量估计器,利用构成所述声码器数据一部分的残差信息估计语音信号的能量;
一个LPC参数提取器,用于提取所述声码器数据的LPC参数;和
一个识别特征生成器,从所述LPC参数生成所述识别特征。
11、根据权利要求9的蜂窝电话,其中的前端处理器有选择地与多种声码器一起工作。
12、根据权利要求9的蜂窝电话,其中的声码器是以下声码器中的任意一种:规则脉冲激励一长期预测全速率和半速率、夸尔考姆码激励线性预测8和13kbps、增强可变速率编解码器、低延迟码激励线性预测、矢量和激励线性预测、共轭结构代数码激励线性预测、增强型全速率声码器和线性预测编码10。
13、一种基于声码器的语音识别器,可以利用基于LPC的声码器产生的数据进行工作,该语音识别器包括:
一个前端处理器,用来处理所述声码器数据,以确定一个词是什么时候说出来的,并产生所述说出来的词的识别特征;和
一种识别器,至少能够将所说出来的词识别为一组基准词中的一个。
14、根据权利要求13的语音识别器,其中的前端处理器包括:
一个能量估计器,利用构成所述声码器数据一部分的残差信息估计语音信号的能量;
一个LPC参数提取器,用于提取所述声码器数据的LPC参数;和
一个识别特征生成器,从所述LPC参数生成所述识别特征。
15、根据权利要求14的语音识别器,其中的能量估计器包括一个残差能量估计器,用来从在所述声码器数据中找到的残差数据估计能量。
16、根据权利要求15的语音识别器,其中的残差能量估计器包括一个残差数据重建器,用来从所述声码器数据重建残差数据,还包括一个范数生成器,它能生成所述残差数据的范数并产生所述能量估计。
17、根据权利要求15的语音识别器,其中的残差能量估计器包括一个提取器,它能从所述声码器数据中提取音调-增益值,并产生所述能量估计。
18、根据权利要求15的语音识别器,其中的残差能量估计器包括:
从所述声码器数据中提取音调-增益值、滞后值和剩余数据的一个提取器;
从所述剩余数据重建剩余信号的一个重建器;
产生所述剩余信号的能量估计的一个剩余能量估计器;
一个非剩余能量估计器,利用所述音调-增益值和所述滞后值定义的前面的能量估计,产生所述残差数据的非剩余部分的一个能量估计;和
合并所述剩余能量估计和非剩余能量估计从而产生所述能量估计的一个合并器。
19、根据权利要求13的语音识别器,其中的声码器是以下声码器中的任意一种:规则脉冲激励-长期预测全速率和半速率、夸尔考姆码激励线性预测8和13kbps、增强可变速率编解码器、低延迟码激励线性预测、矢量和激励线性预测、共轭结构代数码激励线性预测、增强型全速率声码器和线性预测编码10。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/002,616 US6003004A (en) | 1998-01-08 | 1998-01-08 | Speech recognition method and system using compressed speech data |
US09/002,616 | 1998-01-08 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1273662A CN1273662A (zh) | 2000-11-15 |
CN1125432C true CN1125432C (zh) | 2003-10-22 |
Family
ID=21701631
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN98808942A Expired - Fee Related CN1125432C (zh) | 1998-01-08 | 1998-07-22 | 基于声码器的语音识别器、识别方法及数字蜂窝电话 |
Country Status (12)
Country | Link |
---|---|
US (3) | US6003004A (zh) |
EP (1) | EP1046154B1 (zh) |
JP (1) | JP2001510595A (zh) |
KR (1) | KR100391287B1 (zh) |
CN (1) | CN1125432C (zh) |
AT (1) | ATE282881T1 (zh) |
AU (1) | AU8355398A (zh) |
DE (1) | DE69827667T2 (zh) |
IL (1) | IL132449A (zh) |
RU (1) | RU99124623A (zh) |
TW (1) | TW394925B (zh) |
WO (1) | WO1999035639A1 (zh) |
Families Citing this family (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6370504B1 (en) * | 1997-05-29 | 2002-04-09 | University Of Washington | Speech recognition on MPEG/Audio encoded files |
US6134283A (en) * | 1997-11-18 | 2000-10-17 | Amati Communications Corporation | Method and system for synchronizing time-division-duplexed transceivers |
US6003004A (en) * | 1998-01-08 | 1999-12-14 | Advanced Recognition Technologies, Inc. | Speech recognition method and system using compressed speech data |
KR100277105B1 (ko) * | 1998-02-27 | 2001-01-15 | 윤종용 | 음성 인식 데이터 결정 장치 및 방법 |
US6223157B1 (en) * | 1998-05-07 | 2001-04-24 | Dsc Telecom, L.P. | Method for direct recognition of encoded speech data |
JP4081858B2 (ja) * | 1998-06-04 | 2008-04-30 | ソニー株式会社 | コンピュータシステム、コンピュータ端末装置、及び記録媒体 |
US6321197B1 (en) * | 1999-01-22 | 2001-11-20 | Motorola, Inc. | Communication device and method for endpointing speech utterances |
US6411926B1 (en) * | 1999-02-08 | 2002-06-25 | Qualcomm Incorporated | Distributed voice recognition system |
US6792405B2 (en) * | 1999-12-10 | 2004-09-14 | At&T Corp. | Bitstream-based feature extraction method for a front-end speech recognizer |
US6795698B1 (en) * | 2000-04-12 | 2004-09-21 | Northrop Grumman Corporation | Method and apparatus for embedding global positioning system (GPS) data in mobile telephone call data |
US6564182B1 (en) | 2000-05-12 | 2003-05-13 | Conexant Systems, Inc. | Look-ahead pitch determination |
US6999923B1 (en) * | 2000-06-23 | 2006-02-14 | International Business Machines Corporation | System and method for control of lights, signals, alarms using sound detection |
US7203651B2 (en) * | 2000-12-07 | 2007-04-10 | Art-Advanced Recognition Technologies, Ltd. | Voice control system with multiple voice recognition engines |
US7155387B2 (en) * | 2001-01-08 | 2006-12-26 | Art - Advanced Recognition Technologies Ltd. | Noise spectrum subtraction method and system |
US7089184B2 (en) * | 2001-03-22 | 2006-08-08 | Nurv Center Technologies, Inc. | Speech recognition for recognizing speaker-independent, continuous speech |
US20030028386A1 (en) * | 2001-04-02 | 2003-02-06 | Zinser Richard L. | Compressed domain universal transcoder |
US7319703B2 (en) * | 2001-09-04 | 2008-01-15 | Nokia Corporation | Method and apparatus for reducing synchronization delay in packet-based voice terminals by resynchronizing during talk spurts |
US7050969B2 (en) * | 2001-11-27 | 2006-05-23 | Mitsubishi Electric Research Laboratories, Inc. | Distributed speech recognition with codec parameters |
US7079657B2 (en) * | 2002-02-26 | 2006-07-18 | Broadcom Corporation | System and method of performing digital multi-channel audio signal decoding |
US7024353B2 (en) * | 2002-08-09 | 2006-04-04 | Motorola, Inc. | Distributed speech recognition with back-end voice activity detection apparatus and method |
US20040073428A1 (en) * | 2002-10-10 | 2004-04-15 | Igor Zlokarnik | Apparatus, methods, and programming for speech synthesis via bit manipulations of compressed database |
FI20021936A (fi) * | 2002-10-31 | 2004-05-01 | Nokia Corp | Vaihtuvanopeuksinen puhekoodekki |
CN1302454C (zh) * | 2003-07-11 | 2007-02-28 | 中国科学院声学研究所 | 语音识别的概率加权平均缺失特征数据重建方法 |
US7558736B2 (en) * | 2003-12-31 | 2009-07-07 | United States Cellular Corporation | System and method for providing talker arbitration in point-to-point/group communication |
KR100647290B1 (ko) * | 2004-09-22 | 2006-11-23 | 삼성전자주식회사 | 합성된 음성의 특성을 이용하여 양자화/역양자화를선택하는 음성 부호화/복호화 장치 및 그 방법 |
US7533018B2 (en) * | 2004-10-19 | 2009-05-12 | Motorola, Inc. | Tailored speaker-independent voice recognition system |
US20060095261A1 (en) * | 2004-10-30 | 2006-05-04 | Ibm Corporation | Voice packet identification based on celp compression parameters |
US20060224381A1 (en) * | 2005-04-04 | 2006-10-05 | Nokia Corporation | Detecting speech frames belonging to a low energy sequence |
US7697827B2 (en) | 2005-10-17 | 2010-04-13 | Konicek Jeffrey C | User-friendlier interfaces for a camera |
GB0710211D0 (en) * | 2007-05-29 | 2007-07-11 | Intrasonics Ltd | AMR Spectrography |
US20090094026A1 (en) * | 2007-10-03 | 2009-04-09 | Binshi Cao | Method of determining an estimated frame energy of a communication |
US9208796B2 (en) * | 2011-08-22 | 2015-12-08 | Genband Us Llc | Estimation of speech energy based on code excited linear prediction (CELP) parameters extracted from a partially-decoded CELP-encoded bit stream and applications of same |
BR112015019176B1 (pt) | 2013-04-05 | 2021-02-09 | Dolby Laboratories Licensing Corporation | método e aparelho de expansão de um sinal de áudio, método e aparelho de compressão de um sinal de áudio, e mídia legível por computador |
CN104683959B (zh) * | 2013-11-27 | 2018-09-18 | 深圳市盛天龙视听科技有限公司 | 即时通讯型便携式音频装置及其账号载入方法 |
KR20150096217A (ko) * | 2014-02-14 | 2015-08-24 | 한국전자통신연구원 | 디지털 데이터 압축 방법 및 장치 |
TWI631556B (zh) * | 2017-05-05 | 2018-08-01 | 英屬開曼群島商捷鼎創新股份有限公司 | 資料壓縮裝置及其資料壓縮方法 |
US10460749B1 (en) * | 2018-06-28 | 2019-10-29 | Nuvoton Technology Corporation | Voice activity detection using vocal tract area information |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3909532A (en) * | 1974-03-29 | 1975-09-30 | Bell Telephone Labor Inc | Apparatus and method for determining the beginning and the end of a speech utterance |
US4475189A (en) * | 1982-05-27 | 1984-10-02 | At&T Bell Laboratories | Automatic interactive conference arrangement |
US4519094A (en) * | 1982-08-26 | 1985-05-21 | At&T Bell Laboratories | LPC Word recognizer utilizing energy features |
US4866777A (en) * | 1984-11-09 | 1989-09-12 | Alcatel Usa Corporation | Apparatus for extracting features from a speech signal |
US4908865A (en) * | 1984-12-27 | 1990-03-13 | Texas Instruments Incorporated | Speaker independent speech recognition method and system |
US5548647A (en) * | 1987-04-03 | 1996-08-20 | Texas Instruments Incorporated | Fixed text speaker verification method and apparatus |
US5208897A (en) * | 1990-08-21 | 1993-05-04 | Emerson & Stern Associates, Inc. | Method and apparatus for speech recognition based on subsyllable spellings |
US5371853A (en) * | 1991-10-28 | 1994-12-06 | University Of Maryland At College Park | Method and system for CELP speech coding and codebook for use therewith |
US5305422A (en) * | 1992-02-28 | 1994-04-19 | Panasonic Technologies, Inc. | Method for determining boundaries of isolated words within a speech signal |
GB2272554A (en) * | 1992-11-13 | 1994-05-18 | Creative Tech Ltd | Recognizing speech by using wavelet transform and transient response therefrom |
ZA948426B (en) * | 1993-12-22 | 1995-06-30 | Qualcomm Inc | Distributed voice recognition system |
AU684872B2 (en) * | 1994-03-10 | 1998-01-08 | Cable And Wireless Plc | Communication system |
US5704009A (en) * | 1995-06-30 | 1997-12-30 | International Business Machines Corporation | Method and apparatus for transmitting a voice sample to a voice activated data processing system |
US6003004A (en) * | 1998-01-08 | 1999-12-14 | Advanced Recognition Technologies, Inc. | Speech recognition method and system using compressed speech data |
-
1998
- 1998-01-08 US US09/002,616 patent/US6003004A/en not_active Expired - Lifetime
- 1998-07-13 TW TW087111338A patent/TW394925B/zh not_active IP Right Cessation
- 1998-07-22 CN CN98808942A patent/CN1125432C/zh not_active Expired - Fee Related
- 1998-07-22 JP JP53591099A patent/JP2001510595A/ja not_active Ceased
- 1998-07-22 EP EP98933871A patent/EP1046154B1/en not_active Expired - Lifetime
- 1998-07-22 RU RU99124623/09A patent/RU99124623A/ru not_active Application Discontinuation
- 1998-07-22 IL IL13244998A patent/IL132449A/xx not_active IP Right Cessation
- 1998-07-22 AU AU83553/98A patent/AU8355398A/en not_active Abandoned
- 1998-07-22 KR KR10-1999-7009488A patent/KR100391287B1/ko not_active IP Right Cessation
- 1998-07-22 AT AT98933871T patent/ATE282881T1/de not_active IP Right Cessation
- 1998-07-22 WO PCT/IL1998/000341 patent/WO1999035639A1/en active IP Right Grant
- 1998-07-22 DE DE69827667T patent/DE69827667T2/de not_active Expired - Lifetime
-
1999
- 1999-10-05 US US09/412,406 patent/US6377923B1/en not_active Expired - Lifetime
-
2002
- 2002-01-22 US US10/051,350 patent/US20030018472A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
US6003004A (en) | 1999-12-14 |
EP1046154A1 (en) | 2000-10-25 |
US20030018472A1 (en) | 2003-01-23 |
TW394925B (en) | 2000-06-21 |
JP2001510595A (ja) | 2001-07-31 |
KR100391287B1 (ko) | 2003-07-12 |
IL132449A (en) | 2005-07-25 |
KR20010006401A (ko) | 2001-01-26 |
DE69827667T2 (de) | 2005-10-06 |
RU99124623A (ru) | 2001-09-27 |
CN1273662A (zh) | 2000-11-15 |
EP1046154B1 (en) | 2004-11-17 |
EP1046154A4 (en) | 2001-02-07 |
WO1999035639A1 (en) | 1999-07-15 |
ATE282881T1 (de) | 2004-12-15 |
DE69827667D1 (de) | 2004-12-23 |
IL132449A0 (en) | 2001-03-19 |
US6377923B1 (en) | 2002-04-23 |
AU8355398A (en) | 1999-07-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1125432C (zh) | 基于声码器的语音识别器、识别方法及数字蜂窝电话 | |
CN1154086C (zh) | Celp转发 | |
CN1327405C (zh) | 分布式语音识别系统中语音识别的方法和设备 | |
RU2366007C2 (ru) | Способ и устройство для восстановления речи в системе распределенного распознавания речи | |
CN103050121A (zh) | 线性预测语音编码方法及语音合成方法 | |
CN1432176A (zh) | 用于预测量化有声语音的方法和设备 | |
Milner et al. | Speech reconstruction from mel-frequency cepstral coefficients using a source-filter model | |
CN1470051A (zh) | 非话音语音的高性能低比特率编码方法和设备 | |
CN1188832C (zh) | 过滤语言帧的多脉冲内插编码 | |
CN101256773A (zh) | 导抗谱频率参数的矢量量化方法及装置 | |
KR100768090B1 (ko) | 디코딩의 계산량 감소를 위한 파형 인터폴레이션 인코딩장치 및 그 방법 | |
JP3328945B2 (ja) | 音声符号化装置、音声符号化方法及び音声復号化方法 | |
JP3984048B2 (ja) | 音声/音響信号の符号化方法及び電子装置 | |
JP3428594B2 (ja) | 音声符号化装置、音声復号化装置、音声符号化方法及び音声復号化方法 | |
Erzin et al. | Natural quality variable-rate spectral speech coding below 3.0 kbps | |
SHISHIBORI et al. | AN EVALUATION OF JAPANESE SPEECH RECOGNITION USING ETSI STANDARD DSR FRONT-END | |
Toosy et al. | Design and implementation of an LD-CELP codec | |
Acar et al. | Wireless speech recognition using fixed point mixed excitation linear prediction (MELP) vocoder | |
CA2297191A1 (en) | A vocoder-based voice recognizer | |
CN1322346A (zh) | 一种语音处理方法和用于语音处理的装置 | |
JPH09269800A (ja) | 音声符号化装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C19 | Lapse of patent right due to non-payment of the annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |