CN1797542A - 移动通信终端上用于语音识别的基带调制解调器及其方法 - Google Patents
移动通信终端上用于语音识别的基带调制解调器及其方法 Download PDFInfo
- Publication number
- CN1797542A CN1797542A CNA2005101249116A CN200510124911A CN1797542A CN 1797542 A CN1797542 A CN 1797542A CN A2005101249116 A CNA2005101249116 A CN A2005101249116A CN 200510124911 A CN200510124911 A CN 200510124911A CN 1797542 A CN1797542 A CN 1797542A
- Authority
- CN
- China
- Prior art keywords
- voice signal
- speech recognition
- piece
- speech
- sampling rate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010295 mobile communication Methods 0.000 title claims abstract description 40
- 239000013598 vector Substances 0.000 claims abstract description 100
- 238000005070 sampling Methods 0.000 claims abstract description 80
- 238000004891 communication Methods 0.000 claims abstract description 58
- 238000000034 method Methods 0.000 claims abstract description 50
- 239000000284 extract Substances 0.000 claims abstract description 28
- 238000000605 extraction Methods 0.000 claims abstract description 21
- 238000003860 storage Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 abstract description 5
- 230000011664 signaling Effects 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000013016 damping Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000033228 biological regulation Effects 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000001276 controlling effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000002386 leaching Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B1/00—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
- H04B1/38—Transceivers, i.e. devices in which transmitter and receiver form a structural unit and in which at least one part is used for functions of transmitting and receiving
- H04B1/40—Circuits
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/40—Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
- Telephone Function (AREA)
Abstract
公开一种用于语音识别的基带调制解调器和方法,以及一种使用这种基带调制解调器和方法的移动通信终端。通过选择用于语音识别的采样率来增加语音识别率,可以用硬件实现语音识别处理的部分。本发明包括一个音频编解码器,该编解码器使用语音识别的采样率或者话音通信的采样率来调制收到的话音信号。当话音信号被确定为话音命令时,特征向量提取块从调制的话音信号中提取一个或者多个特征向量,语音识别块使用提取的特征向量执行语音识别。当话音信号被确定为话音通信时,语音编码器对音频编解码器的输出进行语音编码。
Description
这个申请要求享有在2004年9月7日申请的韩国专利申请号10-2004-0071327的权利,如在此所阐述的其内容在此引入作为参考。
背景技术
发明领域
本发明涉及一种用于语音识别的基带调制解调器和方法,特别是涉及一种用于语音识别的基带调制解调器和方法以及使用该基带调制解调器和方法的移动通信终端。虽然本发明适用于广泛的应用范围,但是它特别用于保护高速的语音识别。
有关技术的描述
通常,传统的基带调制解调器包括一个音频编解码器。当传统的语音识别技术应用到移动通信终端上时,通常对话音通信的话音编码和话音识别使用相同的采样率。使用相同的采样率是因为很少有能够支持16kHz输入的麦克风的基带调制解调器,大多数基带调制解调器在取得PCM(脉冲编码调制)数据方面都有困难。
图1是一个举例说明传统基带调制解调器的方框图。图2是一个举例说明使用图1中示范的基带调制解调器的传统语音识别方法的流程图。
参考图1,一个传统的基带调制解调器包括音频编解码器13、语音编码器15和处理器17。一旦从麦克风收到一个话音信号,音频编解码器13就以规定的采样率对话音信号执行调制。例如,以8kHz的采样率对话音信号执行PCM(脉冲编码调制)。
语音编码器15对音频编解码器13的输出执行话音编码。例如,执行QCELP(Qualcomm码激励线性预测)或EVRC(增强型可变速率编码)。
处理器17对语音编码器15的输出执行语音识别。特别地,处理器17解码话音编码后的数据,然后从解码的数据中提取特征向量。处理器17通过将提取的特征向量应用到先前准备的语音识别算法中来执行语音识别。优选地,处理器17包括一个MPU(微处理器)或DSP(数字信号处理器)。另一方面,如果该话音信号是用于话音通信的,处理器17使用卷积码或者turbo码对语音编码器15的输出执行信道编码。
参考图2解释按照以上说明的结构的传统语音识别方法。
一旦从麦克风收到一个话音信号,传统的基带调制解调器就以规定的采样率对话音信号执行调制(S12)。例如,以8kHz的采样率对输入的话音信号执行PCM(脉冲编码调制)。
然后对调制的话音信号执行话音编码(S14)。例如使用QCELP(Qualcomm码激励线性预测)或EVRC(增强的速率可变编码)用于话音编码。
在MPU(微处理器)或者DSP(数字信号处理器)中对话音编码后的信号执行语音识别。对于语音识别,解码话音编码的数据(S16),并且从解码的数据中提取特征向量(s18)。然后将提取的特征向量应用到语音识别算法中(S20)。
在传统方法中,用于调制的采样率被设置为8kHz。这是因为通过使用低于4kHz的话音元件便可以提供可识别质量的语音音级。
然而,当在移动通信终端中依照传统方法执行语音识别时,使用依照话音通信采样的数据处理。因此,传统方法不能保证产生令人满意的语音识别率。此外,在传统方法中,如在图2举例说明的那样执行不必要的话音编码和解码。
选择性地,在移动通信终端中可以包括一个用于语音识别的数字信号处理芯片或语音识别芯片。但是,这增加了终端的成本。
在一些传统的基带调制解调器中,已经使用例如DTW(动态时间偏差)这样的方法用于语音识别。因为依照话音通信采样处理数据,这种方法不能保证令人满意的语音识别率。在传统的语音识别方法中,或者会增加基带调制解调器中提供的音频编解码器的采样率,或者通过硬件无法实现特征向量的提取。
还存在另一种传统的语音识别方法。在这种方法中,在基带调制解调器的外部安装一个具有用于语音识别的采样率的分离的音频编解码器。可是,对应的硬件实现非常复杂。
执行语音识别的传统移动通信终端不能通过从语音识别中分离话音通信来调节基带调制解调器的采样率。此外,传统的基带调制解调器取得PCM(脉冲编码调制)数据具有困难。
因此,需要一种可以执行语音识别和话音通信的设备和方法,这样对语音识别使用一种优化的采样率来保证令人满意的语音识别率,而不必执行不必要的话音编码和解码。本发明解决了这些和其他的需要。
发明概述
在接下来的描述中将阐述本发明的特征和优点,其中部分地将从描述中显而易见,或者可以通过实践本发明来获悉。通过在撰写的说明书和权利要求以及附图中特别指出的结构将获得和实现本发明的目的和其他优点。
本发明针对一种用于语音识别的基带调制解调器与方法和一种使用该基带调制解调器和方法的移动通信终端。通过使用可变采样率,使用一种优化的用于语音识别的速率以便保护高速率的语音识别。
在本发明的一方面,提供一个基带调制解调器。基带调制解调器包括一个使用第一群率和第二采样率的其中一个用于调制话音信号的音频编解码器、用于语音识别的装置和用于语音编码的装置。音频编解码器使用第一采样率编码话音信号,如果话音信号是一个话音命令,语音识别装置则对编码的话音信号执行语音识别,音频编解码器使用第二采样率编码话音信号,如果该话音信号是话音通信,语音编码装置则对编码的话音信号执行话音编码。
优选地,语音识别装置包括一个用于从编码的话音信号中提取一个或者多个特征向量的特征向量提取块和一个用于使用提取的特征向量执行语音识别的语音识别块。设想在语音识别块中包括一个用于存储从编码的话音信号中提取的特征向量的缓存器。
设想提供缓存器以用于存储编码的话音信号,例如往复式的缓存器。优选地,特征向量提取块从存储在缓存器的数据中提取特征向量。
优选地,用硬件实现特征向量提取块。替换地,可以用软件实现特征向量提取块。
优选地,基带调制解调器包括一个确定话音信号是话音命令还是话音通信的控制器。如果话音信号是话音命令,控制器接通特征向量提取块和语音识别块的寄存器的电源,如果话音信号是话音通信,控制器断开特征向量提取块和语音识别块的寄存器的电源。控制器确定音频编解码器使用的采样率。
优选地,语音编码装置包括一个用于话音编码已编码话音信号的语音编码器。设想优化用于话音通信的第二采样率,例如8kHz。
优选地,优化用于语音识别的第一采样率。设想第一采样率在大约12kHz到大约32kHz的范围内,例如16kHz。
优选地,音频编解码器对话音信号执行脉冲编码调制。优选地,在移动通信终端中实现基带调制解调器。
在本发明的另一个方面中,提供一个移动通信终端。移动通信终端包括一个用于使用第一采样率和第二采样率其中一个调制话音信号的音频编解码器、一个用于从调制的话音信号中提取一个或者多个特征向量的特征向量提取块、一个用于使用提取的特征向量执行语音识别的语音识别块和一个用于话音编码已调制的话音信号的语音编码器。如果话音信号是话音命令,音频编解码器使用第一采样率编码话音信号,如果话音信号是话音通信,音频编解码器使用第二采样率编码话音信号。
设想提供一种例如往复式缓存器这样的缓存器用于存储编码的话音信号。进一步设想移动终端包括一个用于存储从调制的话音信号中提取的特征向量的缓存器。
优选地,用硬件实现特征向量提取块。替换地,可以用软件实现特征向量提取块。
优选地,移动通信终端包括一个例如依照用户选择确定话音信号是话音命令还是话音通信的控制器。如果话音信号是话音命令,控制器接通特征向量提取块和语音识别块的寄存器的电源,如果话音信号是话音通信,控制器断开特征向量提取块和语音识别块的寄存器的电源。控制器确定音频编解码器使用的采样率。
优选地,优化用于话音通信的第二采样率。设想第二采样率为8kHz。
优选地,优化用于语音识别的第一采样率。设想第一采样率在大约12kHz到大约32kHz的范围内,例如16kHz。
在本发明的另一个方面,提供一种在基带调制解调器执行语音识别和话音通信的方法。该方法包括确定话音信号是话音命令还是话音通信,如果话音信号被确定是语音命令,则使用第一采样率调制话音信号并对调制的话音信号执行语音识别,如果话音信号被确定是话音通信,则使用第二采样率调制话音信号并对调制的话音信号执行语音编码。
优选地,通过从调制的话音信号中提取一个或者多个特征向量和使用提取的特征向量执行语音识别来执行语音识别。设想提取的特征向量存储在缓存器中。
设想调制的话音信号可以存储在缓存器中。优选地,从存储在缓存器的数据中提取特征向量。
优选地,用硬件实现特征向量提取块。替换地,可以用软件实现特征向量提取块。
优选地,依照用户选择执行确定话音信号是话音命令还是话音通信。设想可以控制特征向量提取块和语音识别块的激活,这样如果话音信号是话音命令,则激活特征向量提取块和语音识别块,如果话音信号是话音通信,则禁用特征向量提取块和语音识别块。优选地,如果话音信号是话音命令,则接通特征向量提取块和语音识别块的寄存器的电源,如果话音信号是话音通信,则断开寄存器的电源。
设想用优化的用于语音识别的第一采样率调制话音信号。设想第一采样率在大约12kHz到大约32kHz的范围内,例如16kHz。
设想用优化的用于话音通信的第二采样率调制话音信号。优选地,使用8kHz的速率。
优选地,对话音信号执行脉冲编码调制。优选地,在移动通信终端中实现基带调制解调器。
在接下来的描述中将阐述本发明的附加的特点和优点,其中部分地将从描述中显而易见,或者可以通过实践本发明来获悉。应该理解,本发明的以上概述和下文的详细描述两者都是示例性的和说明性的,意图提供对所要求发明的更进一步说明。
那些本领域的技术人员通过下文参考附图详细描述的实施例,能容易地理解这些和其他的实施例,本发明不局限于公开的任何特别的实施例。
图的简要描述
所包含的附图用于提供对本发明更进一步的理解,并且附图被合并以及组成说明书的一部分,附图举例说明本发明的实施例,并与描述一起解释本发明的原理。此外,在不同图形中用相同编号表示的本发明的元件和方面表示在一个或者多个实施例中相同的、等效的或者类似的特征、元件或方面。
图1是一个举例说明传统基带调制解调器的方框图。
图2是使用图1中说明的基带调制解调器的传统语音识别方法的流程图。
图3是依照本发明的一个实施例的基带调制解调器的方框图。
图4是依照本发明的一个实施例的语音识别方法的流程图。
优选实施例的详细描述
本发明涉及一种用于语音识别的基带调制解调器和方法,以及一种使用该基带调制解调器和方法的移动通信终端。虽然举例说明本发明是移动通信设备,但期望在希望使用优化的采样率执行语音识别和话音通信的任何时候可以使用本发明,以便保护高速率的语音识别。
现在详细参考本发明的优选实施例,在附图中举例说明本发明的实例。只要可能,在整个图画中使用相同的参考编号表示相同的或者类似的部分。
参考图3解释依据本发明优选实施例的用于语音识别的基带调制解调器和使用该基带调制解调器的移动通信终端。图3是举例说明依照本发明实施例的基带调制解调器的方框图,其中优选地在移动通信终端中提供基带调制解调器。参考图3,基带调制解调器包括音频编解码器22、控制器27、语音编码器28、特征向量提取块24、多个缓存器23和25以及语音识别块26。
当从麦克风收到一个话音信号时,音频编解码器22就以选择的采样率对输入的话音信号执行调制。麦克风将用户话音转换成为电信号。特别地,音频编解码器22以选择的采样率对话音信号执行PCM(脉冲编码调制)。
音频编解码器22依照话音信号是对应用于语音识别的信号还是用于话音通信的信号来改变采样率,以执行PCM。特别地,音频编解码器22将大约8kHz的采样率应用到对用于话音通信的话音信号执行的PCM中。另一方面,音频编解码器22将12~32kHz的采样率应用到对用于语音识别的话音信号执行的PCM中。
优选地,音频编解码器22将161kHz的采样率应用到对用于语音识别的信号执行的PCM中。这是因为众所周知16kHz的采样率增强语音识别速率。
用户选择一种应用以识别话音信号是对应用于语音识别的信号还是对应用于话音通信的信号。特别地,如果用户选择用于话音通信的应用,则其后由音频编解码器22收到的信号对应用于话音通信的话音信号。特别地,如果用户选择用于语音识别的应用,则其后由音频编解码器22收到的信号对应于用于语音识别的话音信号。
在本发明中,通过确定用户选择的应用类型,控制器27激活用于话音通信的信号传递路径或者用于语音识别的信号传递路径。特别地,控制器27激活或者禁用用于语音识别的信号传递路径的元件23、24和25。
如果用户选择用于语音识别的应用,控制器27激活用于语音识别的信号传递路径的元件23、24和25。如果用户没有选择用于语音识别的应用,控制器27禁用用于语音识别的信号传递路径的元件23、24和25以促使音频编解码器22的输出被传递到语音编码器28。
此外,控制器27控制音频编解码器22的采样率。特别地,依照用户选择的应用类型,控制器27可以确定音频编解码器22收到的信号是用于话音通信还是语音识别。控制器27音频编解码器22使用用于每种应用类型的采样率执行PCM。
控制器27的控制操作实例解释如下。一旦用户选择了语音识别的应用,以便执行例如自动拨号、菜单选择或者名称寻呼,控制器27接通用于语音识别模式的基带调制解调器的特别寄存器的电源。控制器27将音频编解码器22的采样率设置为语音识别的采样率,例如16kHz。然后控制器27接通用于语音识别模式的基带调制解调器中的部分的电源,特别是缓存器23、特征向量提取块24和特征向量缓存器25。
总之,控制器27改变音频编解码器22使用的采样率,并依照用户选择的应用确定传递音频编解码器22输出的路径。
在语音识别的信号传递路径中,缓存器23的输出提供到特征提取块24的输入。缓存器23存储用于语音识别的话音信号(PCM数据)。优选地,缓存器23是一个往复式缓冲存储器。
特别地,该往复式缓冲存储器使用双缓冲结构。在被分成两个存储区的双缓冲结构中,两个存储区的其中一个存储区存储数据,而另一个存储区输出在前一个存储区中存储的数据。优选地,本发明使用双缓冲结构或者包括配置为环状的至少三个分离的存储区的结构。此外,缓存器23包括20~40ms的缓存器。
特征向量提取块24从缓存器23收到PCM数据,从收到的PCM数据中提取特征向量。特征向量提取块24采用MFCC(mel-频率cepstral系数)、PLP(感性线性预测)、LPC(线性预测编码)或者LPCC(线性预测cepstral系数)。特征向量缓存器25存储从特征向量提取块24提取的特征向量。在本发明中,特征向量被以20~40ms的短时单元重复地提取,提取的特征向量以阵列的形式被存储在特征向量缓存器25中。
通常,当提取特征向量时,应该处理滤波器组、过滤、FFT(快速傅里叶变换)、DCT(离散余弦变换)和IFFT(快速傅里叶逆变换)。因此,提取特征向量需要大量操作,特征向量提取过程具有很强的重复性。
优选地,本发明用硬件实现特征向量提取块24。可是,可以用软件实现特征向量提取块。
语音识别块26使用特征向量缓存器25中存储的特征向量执行语音识别。优选地,语音识别块26包括具备语音识别算法的MPU(微处理器)或者DSP(数字信号处理器)。
语音识别算法的可变性非常高。依照训练文件和参数可能存在定点实施的差异。使用对应维特比译码、语言模型或者增强算法的语法的部分。因此,经由上述的MPU或者DSP来实现语音识别算法中定点实施或者算法增强的部分。
此外,在本发明中可以经由MPU或者DSP来执行语音识别的噪声消除。优选地,经由MPU或者DSP来执行噪声消除。
语音编码器28对音频编解码器22的输出(使用8kHz采样率的PCM数据)执行用于话音通信的语音编码。特别地,如果收到用于话音通信的话音信号,语音编码器28使用QCELP(Qualcomm码激励线性预测)、EVRC(增强的速率可变编码)、VSELP(矢量和激励线性预测)或者RPF-LTP(残余脉冲激励/长期预报)执行话音编码。使用卷积码或者turbo代码对语音编码器28的输出执行信道编码。在完成信道编码后执行无线电调制。
图4举例说明依照本发明执行语音识别的方法。该方法包括收到话音信号(S100)、确定该话音信号是话音命令还是话音通信(S102)、或者使用优化的用于语音识别的速率调制话音信号(S104)并存储调制的话音信号(S106)、从调制的话音信号提取特征向量(S108)、存储提取的特征向量(S110)和使用提取的特征向量执行语音识别(S112)或者使用优化的用于话音通信的速率调制话音信号(S114)并话音编码调制的话音信号(S116)。
优选地,用硬件实现从调制的话音信号中提取特征向量(S108)。替换地,用软件实现从调制的话音信号中提取特征向量(S108)。
优选地,依照用户选择的应用类型执行确定话音信号是话音命令还是话音通信(S102)。优选地,执行话音信号的脉冲编码调制。
优选地,通过控制与特征向量提取和语音识别有关的特殊寄存器来执行两个路径(S104-S112和S114-S116)其中一个的选择。特别地,如果确定话音信号是话音命令(S102),通过接通电源来激活与特征向量提取和语音识别有关的寄存器,如果确定话音信号是话音通信,通过断开电源以将其禁用。
如果确定话音信号是话音命令(S102),则使用大约12kHz到大约32kHz的速率来调制话音信号,优选为16kHz。如果确定话音信号是话音通信(S102),优选地使用8kHz的速率来调制话音信号。
优选地,当制造移动通信终端时,基带调制解调器作为一个内部元件包含在移动通信终端里。替换地,基带调制解调器可以以一个组合成为移动通信终端层一部分的独立模块实现。因此,很清楚本发明的范围覆盖上述替换中的两种情况。
该本发明提供几个效果或者优点。第一,因为在执行调制时音频编解码器使用了适合语音识别的采样率,这样可以提高语音识别的速率。第二,通过用硬件实现特征向量提取,本发明可以减少语音识别处理单元的大量操作和减少功耗。第三,通过在语音识别算法中使用MPU或者DSP来实现定点实施或者算法增强,本发明便于依照未来的需要进行扩充。
对那些本领域熟练的技术人员来说显而易见的是,不偏离本发明的精神或者范围可在其内进行多种修改和变化。如此,本发明意味着如果该发明的修改和变化在附加的权利要求和这些权利要求的等效范围之内,则本发明覆盖这些修改和变化。
上述实施例和优点仅仅是示例性的,不应被看作为限制本发明。本教导可以容易地应用到其他类型的设备中。本发明的描述是用作说明性的,而不是限制权利要求的范围。对于本领域的熟练人员,许多替换、修改和变化都是显而易见的。在权利要求中,装置+功能的条款是用来覆盖这里描述的执行叙述的功能的结构,不仅是结构等效而且是等效结构。
Claims (54)
1.一种基带调制解调器,包括:
用于使用第一采样率和第二采样率的其中一个调制话音信号的音频编解码器;
语音识别装置;以及
语音编码装置,
其中如果话音信号是话音命令,音频编解码器使用第一采样率编码话音信号,语音识别装置对编码的话音信号执行语音识别,如果话音信号是话音通信,音频编解码器使用第二采样率编码话音信号,语音编码装置对编码的话音信号执行语音编码。
2.如权利要求1所述基带调制解调器,其特征在于,语音识别装置还包括:
用于从编码的话音信号中提取至少一个特征向量的特征向量提取块;以及
用于使用通过特征向量提取块提取的至少一个特征向量来执行语音识别的语音识别块。
3.如权利要求2所述基带调制解调器,其特征在于,语音识别装置还包括用于存储编码的话音信号的缓存器。
4.如权利要求3所述基带调制解调器,其特征在于,特征向量提取块还用于从存储在缓存器的数据中提取至少一个特征向量。
5.如权利要求3所述基带调制解调器,其特征在于,缓存器包括往复式缓冲存储器。
6.如权利要求2所述基带调制解调器,其特征在于,语音识别装置还包括用于存储从编码的话音信号中提取的至少一个特征向量的缓存器。
7.如权利要求2所述基带调制解调器,其特征在于,用硬件实现特征向量提取块。
8.如权利要求2所述基带调制解调器,其特征在于,用软件实现特征向量提取块。
9.如权利要求2所述基带调制解调器,其特征在于,还包括用于确定话音信号是话音命令和话音通信其中一个的控制器,如果话音信号是话音命令,控制器接通特征向量提取块和语音识别块的寄存器的电源,如果话音信号是话音通信,控制器断开特征向量提取块和语音识别块的寄存器的电源。
10.如权利要求1所述基带调制解调器,其特征在于,语音编码装置还包括用于对编码的话音信号进行话音编码的语音编码器。
11.如权利要求1所述基带调制解调器,其特征在于,还包括用于确定话音信号是话音命令和话音通信其中一个的控制器。
12.如权利要求11所述基带调制解调器,其特征在于,控制器还用于根据确定结果确定音频编解码器所使用的采样率。
13.如权利要求11所述基带调制解调器,其特征在于,控制器还用于根据确定结果控制语音识别装置的激活,如果话音信号是话音命令,则激活语音识别装置,如果话音信号是话音通信,则禁用语音识别装置。
14.如权利要求13所述基带调制解调器,其特征在于,如果话音信号是话音命令,控制器还用于接通特征向量提取块和语音识别块的寄存器的电源,如果话音信号是话音通信,控制器断开特征向量提取块和语音识别块的寄存器的电源。
15.如权利要求1所述基带调制解调器,其特征在于,优化用于语音识别的第一采样率。
16.如权利要求15所述基带调制解调器,其特征在于,第一采样率在大约12kHz到大约32kHz的范围内。
17.如权利要求16所述基带调制解调器,其特征在于,第一采样率大约为16kHz。
18.如权利要求1所述基带调制解调器,其特征在于,优化用于话音通信的第二采样率。
19.如权利要求18所述基带调制解调器,其特征在于,第二采样率大约为8kHz。
20.如权利要求1所述基带调制解调器,其特征在于,音频编解码器还用于对话音信号执行脉冲编码调制。
21.如权利要求1所述基带调制解调器,其特征在于,在移动通信终端中实现基带调制解调器。
22.一种移动通信终端,包括:
用于使用第一采样率和第二采样率的其中一个调制话音信号的音频编解码器;
用于从调制的话音信号中提取至少一个特征向量的特征向量提取块;
用于使用至少一个通过特征向量提取块提取的特征向量执行语音识别的语音识别块;和
用于对调制的话音信号进行话音编码的语音编码器,
其中,如果话音信号是话音命令,音频编解码器使用第一采样率编码话音信号,如果话音信号是话音通信,音频编解码器使用第二采样率编码话音信号。
23.如权利要求22所述移动通信终端,其特征在于,还包括用于存储编码的话音信号的缓存器。
24.如权利要求23所述移动通信终端,其特征在于,缓存器包括往复式缓冲存储器。
25.如权利要求22所述移动通信终端,其特征在于,还包括用于存储从调制的话音信号中提取的至少一个特征向量的缓存器。
26.如权利要求22所述移动通信终端,其特征在于,还包括用于确定话音信号是话音命令和话音通信其中一个的控制器。
27.如权利要求26所述移动通信终端,其特征在于,控制器还用于根据用户的选择而确定话音信号是话音命令和话音通信的其中一个。
28.如权利要求27所述移动通信终端,其特征在于,控制器还用于根据确定结果确定音频编解码器使用的采样率。
29.如权利要求27所述移动通信终端,其特征在于,控制器还用于控制特征向量提取块和语音识别块的激活,如果话音信号是话音命令,则激活特征向量提取块和语音识别块,如果话音信号是话音通信,则禁用特征向量提取块和语音识别块。
30.如权利要求29所述移动通信终端,其特征在于,如果话音信号是话音命令,控制器还用于接通特征向量提取块和语音识别块的寄存器的电源,如果话音信号是话音通信,控制器断开特征向量提取块和语音识别块的寄存器的电源。
31.如权利要求22所述移动通信终端,其特征在于,优化用于语音识别的第一采样率。
32.如权利要求31所述移动通信终端,其特征在于,第一采样率在大约12kHz到大约32kHz的范围内。
33.如权利要求31所述移动通信终端,其特征在于,第一采样率大约为16kHz。
34.如权利要求22所述移动通信终端,其特征在于,优化用于话音通信的第二采样率。
35.如权利要求34所述移动通信终端,其特征在于,第二采样率大约为8kHz。
36.如权利要求34所述移动通信终端,其特征在于,用硬件实现特征向量提取块。
37.如权利要求22所述移动通信终端,其特征在于,用软件实现特征向量提取块。
38.如权利要求22所述移动通信终端,其特征在于,音频编解码器还用于对话音信号执行脉冲编码调制。
39.一种在基带调制解调器中执行语音识别和语音通信的方法,所述方法包括:
确定话音信号是话音命令和话音通信的其中一个;以及
如果确定话音信号是话音命令,则使用第一采样率调制话音信号并对调制的话音信号执行语音识别,如果确定话音信号是话音通信,则使用第二采样率调制话音信号并对调制的话音信号执行话音编码。
40.如权利要求39所述方法,其特征在于,对调制的话音信号执行语音识别包括:
从调制的话音信号中提取至少一个特征向量;以及
使用至少一个特征向量执行语音识别。
41.如权利要求40所述方法,其特征在于,对调制的话音信号执行语音识别还包括:
在缓存器中存储调制的话音信号;和
从存储在缓存器的数据中提取至少一个特征向量。
42.如权利要求40所述方法,其特征在于,对调制的话音信号执行语音识别还包括在缓存器中存储从调制的话音信号中提取的至少一个特征向量。
43.如权利要求40所述方法,其特征在于,用硬件实现从调制的话音信号中提取至少一个特征向量。
44.如权利要求40所述方法,其特征在于,用软件实现从调制的话音信号中提取至少一个特征向量。
45.如权利要求39所述方法,其特征在于,还包括根据用户选择确定话音信号是话音命令和话音通信的其中一个。
46.如权利要求39所述方法,其特征在于,还包括控制特征向量提取块和语音识别块的激活,如果话音信号是话音命令,则激活特征向量提取块和语音识别块,如果话音信号是话音通信,则禁用特征向量提取块和语音识别块。
47.如权利要求46所述方法,其特征在于,还包括如果话音信号是话音命令,接通特征向量提取块和语音识别块的寄存器的电源,如果话音信号是话音通信,断开特征向量提取块和语音识别块的寄存器的电源。
48.如权利要求39所述方法,其特征在于,还包括使用优化的用于语音识别的第一采样率调制话音信号。
49.如权利要求48所述方法,其特征在于,还包括使用在大约12kHz到大约32kHz的范围之间的第一采样率调制话音信号。
50.如权利要求48所述方法,其特征在于,还包括使用大约为16kHz的第一采样率调制话音信号。
51.如权利要求39所述方法,其特征在于,还包括使用优化的用于话音通信的第二采样率调制话音信号。
52.如权利要求51所述方法,其特征在于,还包括使用大约8kHz的第二采样率调制话音信号。
53.如权利要求39所述方法,其特征在于,还包括对话音信号执行脉冲编码调制。
54.如权利要求39所述方法,其特征在于,在移动通信终端中实现基带调制解调器。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020040071327A KR100640893B1 (ko) | 2004-09-07 | 2004-09-07 | 음성 인식용 베이스밴드 모뎀 및 이동통신용 단말기 |
KR1020040071327 | 2004-09-07 | ||
KR10-2004-0071327 | 2004-09-07 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1797542A true CN1797542A (zh) | 2006-07-05 |
CN1797542B CN1797542B (zh) | 2010-04-07 |
Family
ID=36158548
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2005101249116A Expired - Fee Related CN1797542B (zh) | 2004-09-07 | 2005-09-07 | 移动通信终端上用于语音识别的基带调制解调器及其方法 |
Country Status (7)
Country | Link |
---|---|
US (1) | US7593853B2 (zh) |
EP (1) | EP1632934B1 (zh) |
JP (1) | JP2006079089A (zh) |
KR (1) | KR100640893B1 (zh) |
CN (1) | CN1797542B (zh) |
AT (1) | ATE370494T1 (zh) |
DE (1) | DE602005001995T2 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104038864A (zh) * | 2013-03-08 | 2014-09-10 | 亚德诺半导体股份有限公司 | 带有语音识别的麦克风电路总成和系统 |
CN104038804A (zh) * | 2013-03-05 | 2014-09-10 | 三星电子(中国)研发中心 | 基于语音识别的字幕同步装置和方法 |
CN103886860B (zh) * | 2014-02-21 | 2017-05-24 | 联想(北京)有限公司 | 一种信息处理方法和电子设备 |
CN110910888A (zh) * | 2018-09-17 | 2020-03-24 | 中国移动通信集团设计院有限公司 | 语音识别装置及方法 |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080154608A1 (en) * | 2006-12-26 | 2008-06-26 | Voice Signal Technologies, Inc. | On a mobile device tracking use of search results delivered to the mobile device |
MY154452A (en) | 2008-07-11 | 2015-06-15 | Fraunhofer Ges Forschung | An apparatus and a method for decoding an encoded audio signal |
KR101400535B1 (ko) | 2008-07-11 | 2014-05-28 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 시간 워프 활성 신호의 제공 및 이를 이용한 오디오 신호의 인코딩 |
US8099290B2 (en) * | 2009-01-28 | 2012-01-17 | Mitsubishi Electric Corporation | Voice recognition device |
US9112989B2 (en) * | 2010-04-08 | 2015-08-18 | Qualcomm Incorporated | System and method of smart audio logging for mobile devices |
US9851787B2 (en) * | 2012-11-29 | 2017-12-26 | Microsoft Technology Licensing, Llc | Display resource management |
US20150031416A1 (en) | 2013-07-23 | 2015-01-29 | Motorola Mobility Llc | Method and Device For Command Phrase Validation |
US9449602B2 (en) * | 2013-12-03 | 2016-09-20 | Google Inc. | Dual uplink pre-processing paths for machine and human listening |
JP6910721B2 (ja) * | 2017-07-27 | 2021-07-28 | アルパイン株式会社 | 電子装置および情報端末システム |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0356568B1 (de) * | 1988-09-02 | 1994-01-19 | Siemens Aktiengesellschaft | Verfahren und Anordnung zur Sprechererkennung in einer Fernsprechvermittlungsanlage |
JPH04207551A (ja) | 1990-11-30 | 1992-07-29 | Toshiba Corp | 電話装置 |
SE512719C2 (sv) * | 1997-06-10 | 2000-05-02 | Lars Gustaf Liljeryd | En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion |
US6212228B1 (en) * | 1997-09-10 | 2001-04-03 | Nortel Networks Limited | Apparatus for modulation and demodulating digital data |
US7085710B1 (en) * | 1998-01-07 | 2006-08-01 | Microsoft Corporation | Vehicle computer system audio entertainment system |
US6321195B1 (en) * | 1998-04-28 | 2001-11-20 | Lg Electronics Inc. | Speech recognition method |
US6411926B1 (en) * | 1999-02-08 | 2002-06-25 | Qualcomm Incorporated | Distributed voice recognition system |
JP2001142488A (ja) | 1999-11-17 | 2001-05-25 | Oki Electric Ind Co Ltd | 音声認識通信システム |
US6633845B1 (en) * | 2000-04-07 | 2003-10-14 | Hewlett-Packard Development Company, L.P. | Music summarization system and method |
KR20010008073A (ko) | 2000-11-07 | 2001-02-05 | 조용범 | 음성 인식 및 번역 전용 에이직을 이용한 휴대용 다국어번역 단말장치 |
US6901270B1 (en) | 2000-11-17 | 2005-05-31 | Symbol Technologies, Inc. | Apparatus and method for wireless communication |
US7203643B2 (en) * | 2001-06-14 | 2007-04-10 | Qualcomm Incorporated | Method and apparatus for transmitting speech activity in distributed voice recognition systems |
US7221902B2 (en) * | 2004-04-07 | 2007-05-22 | Nokia Corporation | Mobile station and interface adapted for feature extraction from an input media sample |
-
2004
- 2004-09-07 KR KR1020040071327A patent/KR100640893B1/ko not_active IP Right Cessation
-
2005
- 2005-09-07 JP JP2005259381A patent/JP2006079089A/ja active Pending
- 2005-09-07 EP EP05019451A patent/EP1632934B1/en not_active Not-in-force
- 2005-09-07 AT AT05019451T patent/ATE370494T1/de not_active IP Right Cessation
- 2005-09-07 US US11/221,463 patent/US7593853B2/en not_active Expired - Fee Related
- 2005-09-07 CN CN2005101249116A patent/CN1797542B/zh not_active Expired - Fee Related
- 2005-09-07 DE DE602005001995T patent/DE602005001995T2/de active Active
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104038804A (zh) * | 2013-03-05 | 2014-09-10 | 三星电子(中国)研发中心 | 基于语音识别的字幕同步装置和方法 |
CN104038864A (zh) * | 2013-03-08 | 2014-09-10 | 亚德诺半导体股份有限公司 | 带有语音识别的麦克风电路总成和系统 |
CN104038864B (zh) * | 2013-03-08 | 2018-04-10 | 亚德诺半导体股份有限公司 | 带有语音识别的麦克风电路总成和系统 |
CN103886860B (zh) * | 2014-02-21 | 2017-05-24 | 联想(北京)有限公司 | 一种信息处理方法和电子设备 |
CN110910888A (zh) * | 2018-09-17 | 2020-03-24 | 中国移动通信集团设计院有限公司 | 语音识别装置及方法 |
Also Published As
Publication number | Publication date |
---|---|
KR100640893B1 (ko) | 2006-11-02 |
EP1632934A1 (en) | 2006-03-08 |
DE602005001995D1 (de) | 2007-09-27 |
US7593853B2 (en) | 2009-09-22 |
DE602005001995T2 (de) | 2008-05-15 |
CN1797542B (zh) | 2010-04-07 |
ATE370494T1 (de) | 2007-09-15 |
US20060053011A1 (en) | 2006-03-09 |
KR20060022490A (ko) | 2006-03-10 |
EP1632934B1 (en) | 2007-08-15 |
JP2006079089A (ja) | 2006-03-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1797542A (zh) | 移动通信终端上用于语音识别的基带调制解调器及其方法 | |
CN1244907C (zh) | 宽带语音编解码器中的高频增强层编码方法和装置 | |
CN1249667C (zh) | 声控服务 | |
CN1188831C (zh) | 具有多个话音识别引擎的话音识别系统和方法 | |
CN103095911B (zh) | 一种通过语音唤醒寻找手机的方法及系统 | |
US6411926B1 (en) | Distributed voice recognition system | |
CN1292574C (zh) | 用于语音启动装置的讲话用户接口 | |
CN1711586A (zh) | 声音识别用辞典编制装置和声音识别装置 | |
CN110114829B (zh) | 基于特征的话语码本选择 | |
CN1167048C (zh) | 语音编码设备和语音解码设备 | |
CN1210685C (zh) | 语音编码中噪音鲁棒分类方法 | |
CN1212601C (zh) | 一种嵌入式语音合成方法及系统 | |
CN1125437C (zh) | 语音识别方法 | |
CN1819017A (zh) | 提取特征向量用于语音识别的方法 | |
CN1653521A (zh) | 用于音频代码转换中的自适应码本音调滞后计算的方法 | |
CN1268732A (zh) | 基于语音识别专用芯片的特定人语音识别、语音回放方法 | |
CN1787070A (zh) | 用于语言学习机的片上系统 | |
CN1165889C (zh) | 话音拨号的方法和系统 | |
CN1932976A (zh) | 一种实现视音频处理中字幕与语音同步的方法和系统 | |
CN1212604C (zh) | 基于可变速语音编码的语音合成器 | |
CN1337670A (zh) | 特定人汉语短语语音识别快速方法 | |
CN111341320B (zh) | 短语语音的声纹识别方法及装置 | |
CN1275223C (zh) | 一种低比特变速率语言编码器 | |
CN1828723A (zh) | 分散式语言处理系统及其所使用的输出中介信息的方法 | |
CN1262502A (zh) | 小词汇量语音识别方法及其模块 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20100407 Termination date: 20180907 |