CN1797542A - 移动通信终端上用于语音识别的基带调制解调器及其方法 - Google Patents

移动通信终端上用于语音识别的基带调制解调器及其方法 Download PDF

Info

Publication number
CN1797542A
CN1797542A CNA2005101249116A CN200510124911A CN1797542A CN 1797542 A CN1797542 A CN 1797542A CN A2005101249116 A CNA2005101249116 A CN A2005101249116A CN 200510124911 A CN200510124911 A CN 200510124911A CN 1797542 A CN1797542 A CN 1797542A
Authority
CN
China
Prior art keywords
voice signal
speech recognition
piece
speech
sampling rate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2005101249116A
Other languages
English (en)
Other versions
CN1797542B (zh
Inventor
金灿佑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LG Electronics Inc
Original Assignee
LG Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LG Electronics Inc filed Critical LG Electronics Inc
Publication of CN1797542A publication Critical patent/CN1797542A/zh
Application granted granted Critical
Publication of CN1797542B publication Critical patent/CN1797542B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/38Transceivers, i.e. devices in which transmitter and receiver form a structural unit and in which at least one part is used for functions of transmitting and receiving
    • H04B1/40Circuits
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Abstract

公开一种用于语音识别的基带调制解调器和方法,以及一种使用这种基带调制解调器和方法的移动通信终端。通过选择用于语音识别的采样率来增加语音识别率,可以用硬件实现语音识别处理的部分。本发明包括一个音频编解码器,该编解码器使用语音识别的采样率或者话音通信的采样率来调制收到的话音信号。当话音信号被确定为话音命令时,特征向量提取块从调制的话音信号中提取一个或者多个特征向量,语音识别块使用提取的特征向量执行语音识别。当话音信号被确定为话音通信时,语音编码器对音频编解码器的输出进行语音编码。

Description

移动通信终端上用于语音识别的基带调制解调器及其方法
这个申请要求享有在2004年9月7日申请的韩国专利申请号10-2004-0071327的权利,如在此所阐述的其内容在此引入作为参考。
背景技术
发明领域
本发明涉及一种用于语音识别的基带调制解调器和方法,特别是涉及一种用于语音识别的基带调制解调器和方法以及使用该基带调制解调器和方法的移动通信终端。虽然本发明适用于广泛的应用范围,但是它特别用于保护高速的语音识别。
有关技术的描述
通常,传统的基带调制解调器包括一个音频编解码器。当传统的语音识别技术应用到移动通信终端上时,通常对话音通信的话音编码和话音识别使用相同的采样率。使用相同的采样率是因为很少有能够支持16kHz输入的麦克风的基带调制解调器,大多数基带调制解调器在取得PCM(脉冲编码调制)数据方面都有困难。
图1是一个举例说明传统基带调制解调器的方框图。图2是一个举例说明使用图1中示范的基带调制解调器的传统语音识别方法的流程图。
参考图1,一个传统的基带调制解调器包括音频编解码器13、语音编码器15和处理器17。一旦从麦克风收到一个话音信号,音频编解码器13就以规定的采样率对话音信号执行调制。例如,以8kHz的采样率对话音信号执行PCM(脉冲编码调制)。
语音编码器15对音频编解码器13的输出执行话音编码。例如,执行QCELP(Qualcomm码激励线性预测)或EVRC(增强型可变速率编码)。
处理器17对语音编码器15的输出执行语音识别。特别地,处理器17解码话音编码后的数据,然后从解码的数据中提取特征向量。处理器17通过将提取的特征向量应用到先前准备的语音识别算法中来执行语音识别。优选地,处理器17包括一个MPU(微处理器)或DSP(数字信号处理器)。另一方面,如果该话音信号是用于话音通信的,处理器17使用卷积码或者turbo码对语音编码器15的输出执行信道编码。
参考图2解释按照以上说明的结构的传统语音识别方法。
一旦从麦克风收到一个话音信号,传统的基带调制解调器就以规定的采样率对话音信号执行调制(S12)。例如,以8kHz的采样率对输入的话音信号执行PCM(脉冲编码调制)。
然后对调制的话音信号执行话音编码(S14)。例如使用QCELP(Qualcomm码激励线性预测)或EVRC(增强的速率可变编码)用于话音编码。
在MPU(微处理器)或者DSP(数字信号处理器)中对话音编码后的信号执行语音识别。对于语音识别,解码话音编码的数据(S16),并且从解码的数据中提取特征向量(s18)。然后将提取的特征向量应用到语音识别算法中(S20)。
在传统方法中,用于调制的采样率被设置为8kHz。这是因为通过使用低于4kHz的话音元件便可以提供可识别质量的语音音级。
然而,当在移动通信终端中依照传统方法执行语音识别时,使用依照话音通信采样的数据处理。因此,传统方法不能保证产生令人满意的语音识别率。此外,在传统方法中,如在图2举例说明的那样执行不必要的话音编码和解码。
选择性地,在移动通信终端中可以包括一个用于语音识别的数字信号处理芯片或语音识别芯片。但是,这增加了终端的成本。
在一些传统的基带调制解调器中,已经使用例如DTW(动态时间偏差)这样的方法用于语音识别。因为依照话音通信采样处理数据,这种方法不能保证令人满意的语音识别率。在传统的语音识别方法中,或者会增加基带调制解调器中提供的音频编解码器的采样率,或者通过硬件无法实现特征向量的提取。
还存在另一种传统的语音识别方法。在这种方法中,在基带调制解调器的外部安装一个具有用于语音识别的采样率的分离的音频编解码器。可是,对应的硬件实现非常复杂。
执行语音识别的传统移动通信终端不能通过从语音识别中分离话音通信来调节基带调制解调器的采样率。此外,传统的基带调制解调器取得PCM(脉冲编码调制)数据具有困难。
因此,需要一种可以执行语音识别和话音通信的设备和方法,这样对语音识别使用一种优化的采样率来保证令人满意的语音识别率,而不必执行不必要的话音编码和解码。本发明解决了这些和其他的需要。
发明概述
在接下来的描述中将阐述本发明的特征和优点,其中部分地将从描述中显而易见,或者可以通过实践本发明来获悉。通过在撰写的说明书和权利要求以及附图中特别指出的结构将获得和实现本发明的目的和其他优点。
本发明针对一种用于语音识别的基带调制解调器与方法和一种使用该基带调制解调器和方法的移动通信终端。通过使用可变采样率,使用一种优化的用于语音识别的速率以便保护高速率的语音识别。
在本发明的一方面,提供一个基带调制解调器。基带调制解调器包括一个使用第一群率和第二采样率的其中一个用于调制话音信号的音频编解码器、用于语音识别的装置和用于语音编码的装置。音频编解码器使用第一采样率编码话音信号,如果话音信号是一个话音命令,语音识别装置则对编码的话音信号执行语音识别,音频编解码器使用第二采样率编码话音信号,如果该话音信号是话音通信,语音编码装置则对编码的话音信号执行话音编码。
优选地,语音识别装置包括一个用于从编码的话音信号中提取一个或者多个特征向量的特征向量提取块和一个用于使用提取的特征向量执行语音识别的语音识别块。设想在语音识别块中包括一个用于存储从编码的话音信号中提取的特征向量的缓存器。
设想提供缓存器以用于存储编码的话音信号,例如往复式的缓存器。优选地,特征向量提取块从存储在缓存器的数据中提取特征向量。
优选地,用硬件实现特征向量提取块。替换地,可以用软件实现特征向量提取块。
优选地,基带调制解调器包括一个确定话音信号是话音命令还是话音通信的控制器。如果话音信号是话音命令,控制器接通特征向量提取块和语音识别块的寄存器的电源,如果话音信号是话音通信,控制器断开特征向量提取块和语音识别块的寄存器的电源。控制器确定音频编解码器使用的采样率。
优选地,语音编码装置包括一个用于话音编码已编码话音信号的语音编码器。设想优化用于话音通信的第二采样率,例如8kHz。
优选地,优化用于语音识别的第一采样率。设想第一采样率在大约12kHz到大约32kHz的范围内,例如16kHz。
优选地,音频编解码器对话音信号执行脉冲编码调制。优选地,在移动通信终端中实现基带调制解调器。
在本发明的另一个方面中,提供一个移动通信终端。移动通信终端包括一个用于使用第一采样率和第二采样率其中一个调制话音信号的音频编解码器、一个用于从调制的话音信号中提取一个或者多个特征向量的特征向量提取块、一个用于使用提取的特征向量执行语音识别的语音识别块和一个用于话音编码已调制的话音信号的语音编码器。如果话音信号是话音命令,音频编解码器使用第一采样率编码话音信号,如果话音信号是话音通信,音频编解码器使用第二采样率编码话音信号。
设想提供一种例如往复式缓存器这样的缓存器用于存储编码的话音信号。进一步设想移动终端包括一个用于存储从调制的话音信号中提取的特征向量的缓存器。
优选地,用硬件实现特征向量提取块。替换地,可以用软件实现特征向量提取块。
优选地,移动通信终端包括一个例如依照用户选择确定话音信号是话音命令还是话音通信的控制器。如果话音信号是话音命令,控制器接通特征向量提取块和语音识别块的寄存器的电源,如果话音信号是话音通信,控制器断开特征向量提取块和语音识别块的寄存器的电源。控制器确定音频编解码器使用的采样率。
优选地,优化用于话音通信的第二采样率。设想第二采样率为8kHz。
优选地,优化用于语音识别的第一采样率。设想第一采样率在大约12kHz到大约32kHz的范围内,例如16kHz。
在本发明的另一个方面,提供一种在基带调制解调器执行语音识别和话音通信的方法。该方法包括确定话音信号是话音命令还是话音通信,如果话音信号被确定是语音命令,则使用第一采样率调制话音信号并对调制的话音信号执行语音识别,如果话音信号被确定是话音通信,则使用第二采样率调制话音信号并对调制的话音信号执行语音编码。
优选地,通过从调制的话音信号中提取一个或者多个特征向量和使用提取的特征向量执行语音识别来执行语音识别。设想提取的特征向量存储在缓存器中。
设想调制的话音信号可以存储在缓存器中。优选地,从存储在缓存器的数据中提取特征向量。
优选地,用硬件实现特征向量提取块。替换地,可以用软件实现特征向量提取块。
优选地,依照用户选择执行确定话音信号是话音命令还是话音通信。设想可以控制特征向量提取块和语音识别块的激活,这样如果话音信号是话音命令,则激活特征向量提取块和语音识别块,如果话音信号是话音通信,则禁用特征向量提取块和语音识别块。优选地,如果话音信号是话音命令,则接通特征向量提取块和语音识别块的寄存器的电源,如果话音信号是话音通信,则断开寄存器的电源。
设想用优化的用于语音识别的第一采样率调制话音信号。设想第一采样率在大约12kHz到大约32kHz的范围内,例如16kHz。
设想用优化的用于话音通信的第二采样率调制话音信号。优选地,使用8kHz的速率。
优选地,对话音信号执行脉冲编码调制。优选地,在移动通信终端中实现基带调制解调器。
在接下来的描述中将阐述本发明的附加的特点和优点,其中部分地将从描述中显而易见,或者可以通过实践本发明来获悉。应该理解,本发明的以上概述和下文的详细描述两者都是示例性的和说明性的,意图提供对所要求发明的更进一步说明。
那些本领域的技术人员通过下文参考附图详细描述的实施例,能容易地理解这些和其他的实施例,本发明不局限于公开的任何特别的实施例。
图的简要描述
所包含的附图用于提供对本发明更进一步的理解,并且附图被合并以及组成说明书的一部分,附图举例说明本发明的实施例,并与描述一起解释本发明的原理。此外,在不同图形中用相同编号表示的本发明的元件和方面表示在一个或者多个实施例中相同的、等效的或者类似的特征、元件或方面。
图1是一个举例说明传统基带调制解调器的方框图。
图2是使用图1中说明的基带调制解调器的传统语音识别方法的流程图。
图3是依照本发明的一个实施例的基带调制解调器的方框图。
图4是依照本发明的一个实施例的语音识别方法的流程图。
优选实施例的详细描述
本发明涉及一种用于语音识别的基带调制解调器和方法,以及一种使用该基带调制解调器和方法的移动通信终端。虽然举例说明本发明是移动通信设备,但期望在希望使用优化的采样率执行语音识别和话音通信的任何时候可以使用本发明,以便保护高速率的语音识别。
现在详细参考本发明的优选实施例,在附图中举例说明本发明的实例。只要可能,在整个图画中使用相同的参考编号表示相同的或者类似的部分。
参考图3解释依据本发明优选实施例的用于语音识别的基带调制解调器和使用该基带调制解调器的移动通信终端。图3是举例说明依照本发明实施例的基带调制解调器的方框图,其中优选地在移动通信终端中提供基带调制解调器。参考图3,基带调制解调器包括音频编解码器22、控制器27、语音编码器28、特征向量提取块24、多个缓存器23和25以及语音识别块26。
当从麦克风收到一个话音信号时,音频编解码器22就以选择的采样率对输入的话音信号执行调制。麦克风将用户话音转换成为电信号。特别地,音频编解码器22以选择的采样率对话音信号执行PCM(脉冲编码调制)。
音频编解码器22依照话音信号是对应用于语音识别的信号还是用于话音通信的信号来改变采样率,以执行PCM。特别地,音频编解码器22将大约8kHz的采样率应用到对用于话音通信的话音信号执行的PCM中。另一方面,音频编解码器22将12~32kHz的采样率应用到对用于语音识别的话音信号执行的PCM中。
优选地,音频编解码器22将161kHz的采样率应用到对用于语音识别的信号执行的PCM中。这是因为众所周知16kHz的采样率增强语音识别速率。
用户选择一种应用以识别话音信号是对应用于语音识别的信号还是对应用于话音通信的信号。特别地,如果用户选择用于话音通信的应用,则其后由音频编解码器22收到的信号对应用于话音通信的话音信号。特别地,如果用户选择用于语音识别的应用,则其后由音频编解码器22收到的信号对应于用于语音识别的话音信号。
在本发明中,通过确定用户选择的应用类型,控制器27激活用于话音通信的信号传递路径或者用于语音识别的信号传递路径。特别地,控制器27激活或者禁用用于语音识别的信号传递路径的元件23、24和25。
如果用户选择用于语音识别的应用,控制器27激活用于语音识别的信号传递路径的元件23、24和25。如果用户没有选择用于语音识别的应用,控制器27禁用用于语音识别的信号传递路径的元件23、24和25以促使音频编解码器22的输出被传递到语音编码器28。
此外,控制器27控制音频编解码器22的采样率。特别地,依照用户选择的应用类型,控制器27可以确定音频编解码器22收到的信号是用于话音通信还是语音识别。控制器27音频编解码器22使用用于每种应用类型的采样率执行PCM。
控制器27的控制操作实例解释如下。一旦用户选择了语音识别的应用,以便执行例如自动拨号、菜单选择或者名称寻呼,控制器27接通用于语音识别模式的基带调制解调器的特别寄存器的电源。控制器27将音频编解码器22的采样率设置为语音识别的采样率,例如16kHz。然后控制器27接通用于语音识别模式的基带调制解调器中的部分的电源,特别是缓存器23、特征向量提取块24和特征向量缓存器25。
总之,控制器27改变音频编解码器22使用的采样率,并依照用户选择的应用确定传递音频编解码器22输出的路径。
在语音识别的信号传递路径中,缓存器23的输出提供到特征提取块24的输入。缓存器23存储用于语音识别的话音信号(PCM数据)。优选地,缓存器23是一个往复式缓冲存储器。
特别地,该往复式缓冲存储器使用双缓冲结构。在被分成两个存储区的双缓冲结构中,两个存储区的其中一个存储区存储数据,而另一个存储区输出在前一个存储区中存储的数据。优选地,本发明使用双缓冲结构或者包括配置为环状的至少三个分离的存储区的结构。此外,缓存器23包括20~40ms的缓存器。
特征向量提取块24从缓存器23收到PCM数据,从收到的PCM数据中提取特征向量。特征向量提取块24采用MFCC(mel-频率cepstral系数)、PLP(感性线性预测)、LPC(线性预测编码)或者LPCC(线性预测cepstral系数)。特征向量缓存器25存储从特征向量提取块24提取的特征向量。在本发明中,特征向量被以20~40ms的短时单元重复地提取,提取的特征向量以阵列的形式被存储在特征向量缓存器25中。
通常,当提取特征向量时,应该处理滤波器组、过滤、FFT(快速傅里叶变换)、DCT(离散余弦变换)和IFFT(快速傅里叶逆变换)。因此,提取特征向量需要大量操作,特征向量提取过程具有很强的重复性。
优选地,本发明用硬件实现特征向量提取块24。可是,可以用软件实现特征向量提取块。
语音识别块26使用特征向量缓存器25中存储的特征向量执行语音识别。优选地,语音识别块26包括具备语音识别算法的MPU(微处理器)或者DSP(数字信号处理器)。
语音识别算法的可变性非常高。依照训练文件和参数可能存在定点实施的差异。使用对应维特比译码、语言模型或者增强算法的语法的部分。因此,经由上述的MPU或者DSP来实现语音识别算法中定点实施或者算法增强的部分。
此外,在本发明中可以经由MPU或者DSP来执行语音识别的噪声消除。优选地,经由MPU或者DSP来执行噪声消除。
语音编码器28对音频编解码器22的输出(使用8kHz采样率的PCM数据)执行用于话音通信的语音编码。特别地,如果收到用于话音通信的话音信号,语音编码器28使用QCELP(Qualcomm码激励线性预测)、EVRC(增强的速率可变编码)、VSELP(矢量和激励线性预测)或者RPF-LTP(残余脉冲激励/长期预报)执行话音编码。使用卷积码或者turbo代码对语音编码器28的输出执行信道编码。在完成信道编码后执行无线电调制。
图4举例说明依照本发明执行语音识别的方法。该方法包括收到话音信号(S100)、确定该话音信号是话音命令还是话音通信(S102)、或者使用优化的用于语音识别的速率调制话音信号(S104)并存储调制的话音信号(S106)、从调制的话音信号提取特征向量(S108)、存储提取的特征向量(S110)和使用提取的特征向量执行语音识别(S112)或者使用优化的用于话音通信的速率调制话音信号(S114)并话音编码调制的话音信号(S116)。
优选地,用硬件实现从调制的话音信号中提取特征向量(S108)。替换地,用软件实现从调制的话音信号中提取特征向量(S108)。
优选地,依照用户选择的应用类型执行确定话音信号是话音命令还是话音通信(S102)。优选地,执行话音信号的脉冲编码调制。
优选地,通过控制与特征向量提取和语音识别有关的特殊寄存器来执行两个路径(S104-S112和S114-S116)其中一个的选择。特别地,如果确定话音信号是话音命令(S102),通过接通电源来激活与特征向量提取和语音识别有关的寄存器,如果确定话音信号是话音通信,通过断开电源以将其禁用。
如果确定话音信号是话音命令(S102),则使用大约12kHz到大约32kHz的速率来调制话音信号,优选为16kHz。如果确定话音信号是话音通信(S102),优选地使用8kHz的速率来调制话音信号。
优选地,当制造移动通信终端时,基带调制解调器作为一个内部元件包含在移动通信终端里。替换地,基带调制解调器可以以一个组合成为移动通信终端层一部分的独立模块实现。因此,很清楚本发明的范围覆盖上述替换中的两种情况。
该本发明提供几个效果或者优点。第一,因为在执行调制时音频编解码器使用了适合语音识别的采样率,这样可以提高语音识别的速率。第二,通过用硬件实现特征向量提取,本发明可以减少语音识别处理单元的大量操作和减少功耗。第三,通过在语音识别算法中使用MPU或者DSP来实现定点实施或者算法增强,本发明便于依照未来的需要进行扩充。
对那些本领域熟练的技术人员来说显而易见的是,不偏离本发明的精神或者范围可在其内进行多种修改和变化。如此,本发明意味着如果该发明的修改和变化在附加的权利要求和这些权利要求的等效范围之内,则本发明覆盖这些修改和变化。
上述实施例和优点仅仅是示例性的,不应被看作为限制本发明。本教导可以容易地应用到其他类型的设备中。本发明的描述是用作说明性的,而不是限制权利要求的范围。对于本领域的熟练人员,许多替换、修改和变化都是显而易见的。在权利要求中,装置+功能的条款是用来覆盖这里描述的执行叙述的功能的结构,不仅是结构等效而且是等效结构。

Claims (54)

1.一种基带调制解调器,包括:
用于使用第一采样率和第二采样率的其中一个调制话音信号的音频编解码器;
语音识别装置;以及
语音编码装置,
其中如果话音信号是话音命令,音频编解码器使用第一采样率编码话音信号,语音识别装置对编码的话音信号执行语音识别,如果话音信号是话音通信,音频编解码器使用第二采样率编码话音信号,语音编码装置对编码的话音信号执行语音编码。
2.如权利要求1所述基带调制解调器,其特征在于,语音识别装置还包括:
用于从编码的话音信号中提取至少一个特征向量的特征向量提取块;以及
用于使用通过特征向量提取块提取的至少一个特征向量来执行语音识别的语音识别块。
3.如权利要求2所述基带调制解调器,其特征在于,语音识别装置还包括用于存储编码的话音信号的缓存器。
4.如权利要求3所述基带调制解调器,其特征在于,特征向量提取块还用于从存储在缓存器的数据中提取至少一个特征向量。
5.如权利要求3所述基带调制解调器,其特征在于,缓存器包括往复式缓冲存储器。
6.如权利要求2所述基带调制解调器,其特征在于,语音识别装置还包括用于存储从编码的话音信号中提取的至少一个特征向量的缓存器。
7.如权利要求2所述基带调制解调器,其特征在于,用硬件实现特征向量提取块。
8.如权利要求2所述基带调制解调器,其特征在于,用软件实现特征向量提取块。
9.如权利要求2所述基带调制解调器,其特征在于,还包括用于确定话音信号是话音命令和话音通信其中一个的控制器,如果话音信号是话音命令,控制器接通特征向量提取块和语音识别块的寄存器的电源,如果话音信号是话音通信,控制器断开特征向量提取块和语音识别块的寄存器的电源。
10.如权利要求1所述基带调制解调器,其特征在于,语音编码装置还包括用于对编码的话音信号进行话音编码的语音编码器。
11.如权利要求1所述基带调制解调器,其特征在于,还包括用于确定话音信号是话音命令和话音通信其中一个的控制器。
12.如权利要求11所述基带调制解调器,其特征在于,控制器还用于根据确定结果确定音频编解码器所使用的采样率。
13.如权利要求11所述基带调制解调器,其特征在于,控制器还用于根据确定结果控制语音识别装置的激活,如果话音信号是话音命令,则激活语音识别装置,如果话音信号是话音通信,则禁用语音识别装置。
14.如权利要求13所述基带调制解调器,其特征在于,如果话音信号是话音命令,控制器还用于接通特征向量提取块和语音识别块的寄存器的电源,如果话音信号是话音通信,控制器断开特征向量提取块和语音识别块的寄存器的电源。
15.如权利要求1所述基带调制解调器,其特征在于,优化用于语音识别的第一采样率。
16.如权利要求15所述基带调制解调器,其特征在于,第一采样率在大约12kHz到大约32kHz的范围内。
17.如权利要求16所述基带调制解调器,其特征在于,第一采样率大约为16kHz。
18.如权利要求1所述基带调制解调器,其特征在于,优化用于话音通信的第二采样率。
19.如权利要求18所述基带调制解调器,其特征在于,第二采样率大约为8kHz。
20.如权利要求1所述基带调制解调器,其特征在于,音频编解码器还用于对话音信号执行脉冲编码调制。
21.如权利要求1所述基带调制解调器,其特征在于,在移动通信终端中实现基带调制解调器。
22.一种移动通信终端,包括:
用于使用第一采样率和第二采样率的其中一个调制话音信号的音频编解码器;
用于从调制的话音信号中提取至少一个特征向量的特征向量提取块;
用于使用至少一个通过特征向量提取块提取的特征向量执行语音识别的语音识别块;和
用于对调制的话音信号进行话音编码的语音编码器,
其中,如果话音信号是话音命令,音频编解码器使用第一采样率编码话音信号,如果话音信号是话音通信,音频编解码器使用第二采样率编码话音信号。
23.如权利要求22所述移动通信终端,其特征在于,还包括用于存储编码的话音信号的缓存器。
24.如权利要求23所述移动通信终端,其特征在于,缓存器包括往复式缓冲存储器。
25.如权利要求22所述移动通信终端,其特征在于,还包括用于存储从调制的话音信号中提取的至少一个特征向量的缓存器。
26.如权利要求22所述移动通信终端,其特征在于,还包括用于确定话音信号是话音命令和话音通信其中一个的控制器。
27.如权利要求26所述移动通信终端,其特征在于,控制器还用于根据用户的选择而确定话音信号是话音命令和话音通信的其中一个。
28.如权利要求27所述移动通信终端,其特征在于,控制器还用于根据确定结果确定音频编解码器使用的采样率。
29.如权利要求27所述移动通信终端,其特征在于,控制器还用于控制特征向量提取块和语音识别块的激活,如果话音信号是话音命令,则激活特征向量提取块和语音识别块,如果话音信号是话音通信,则禁用特征向量提取块和语音识别块。
30.如权利要求29所述移动通信终端,其特征在于,如果话音信号是话音命令,控制器还用于接通特征向量提取块和语音识别块的寄存器的电源,如果话音信号是话音通信,控制器断开特征向量提取块和语音识别块的寄存器的电源。
31.如权利要求22所述移动通信终端,其特征在于,优化用于语音识别的第一采样率。
32.如权利要求31所述移动通信终端,其特征在于,第一采样率在大约12kHz到大约32kHz的范围内。
33.如权利要求31所述移动通信终端,其特征在于,第一采样率大约为16kHz。
34.如权利要求22所述移动通信终端,其特征在于,优化用于话音通信的第二采样率。
35.如权利要求34所述移动通信终端,其特征在于,第二采样率大约为8kHz。
36.如权利要求34所述移动通信终端,其特征在于,用硬件实现特征向量提取块。
37.如权利要求22所述移动通信终端,其特征在于,用软件实现特征向量提取块。
38.如权利要求22所述移动通信终端,其特征在于,音频编解码器还用于对话音信号执行脉冲编码调制。
39.一种在基带调制解调器中执行语音识别和语音通信的方法,所述方法包括:
确定话音信号是话音命令和话音通信的其中一个;以及
如果确定话音信号是话音命令,则使用第一采样率调制话音信号并对调制的话音信号执行语音识别,如果确定话音信号是话音通信,则使用第二采样率调制话音信号并对调制的话音信号执行话音编码。
40.如权利要求39所述方法,其特征在于,对调制的话音信号执行语音识别包括:
从调制的话音信号中提取至少一个特征向量;以及
使用至少一个特征向量执行语音识别。
41.如权利要求40所述方法,其特征在于,对调制的话音信号执行语音识别还包括:
在缓存器中存储调制的话音信号;和
从存储在缓存器的数据中提取至少一个特征向量。
42.如权利要求40所述方法,其特征在于,对调制的话音信号执行语音识别还包括在缓存器中存储从调制的话音信号中提取的至少一个特征向量。
43.如权利要求40所述方法,其特征在于,用硬件实现从调制的话音信号中提取至少一个特征向量。
44.如权利要求40所述方法,其特征在于,用软件实现从调制的话音信号中提取至少一个特征向量。
45.如权利要求39所述方法,其特征在于,还包括根据用户选择确定话音信号是话音命令和话音通信的其中一个。
46.如权利要求39所述方法,其特征在于,还包括控制特征向量提取块和语音识别块的激活,如果话音信号是话音命令,则激活特征向量提取块和语音识别块,如果话音信号是话音通信,则禁用特征向量提取块和语音识别块。
47.如权利要求46所述方法,其特征在于,还包括如果话音信号是话音命令,接通特征向量提取块和语音识别块的寄存器的电源,如果话音信号是话音通信,断开特征向量提取块和语音识别块的寄存器的电源。
48.如权利要求39所述方法,其特征在于,还包括使用优化的用于语音识别的第一采样率调制话音信号。
49.如权利要求48所述方法,其特征在于,还包括使用在大约12kHz到大约32kHz的范围之间的第一采样率调制话音信号。
50.如权利要求48所述方法,其特征在于,还包括使用大约为16kHz的第一采样率调制话音信号。
51.如权利要求39所述方法,其特征在于,还包括使用优化的用于话音通信的第二采样率调制话音信号。
52.如权利要求51所述方法,其特征在于,还包括使用大约8kHz的第二采样率调制话音信号。
53.如权利要求39所述方法,其特征在于,还包括对话音信号执行脉冲编码调制。
54.如权利要求39所述方法,其特征在于,在移动通信终端中实现基带调制解调器。
CN2005101249116A 2004-09-07 2005-09-07 移动通信终端上用于语音识别的基带调制解调器及其方法 Expired - Fee Related CN1797542B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR1020040071327A KR100640893B1 (ko) 2004-09-07 2004-09-07 음성 인식용 베이스밴드 모뎀 및 이동통신용 단말기
KR1020040071327 2004-09-07
KR10-2004-0071327 2004-09-07

Publications (2)

Publication Number Publication Date
CN1797542A true CN1797542A (zh) 2006-07-05
CN1797542B CN1797542B (zh) 2010-04-07

Family

ID=36158548

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2005101249116A Expired - Fee Related CN1797542B (zh) 2004-09-07 2005-09-07 移动通信终端上用于语音识别的基带调制解调器及其方法

Country Status (7)

Country Link
US (1) US7593853B2 (zh)
EP (1) EP1632934B1 (zh)
JP (1) JP2006079089A (zh)
KR (1) KR100640893B1 (zh)
CN (1) CN1797542B (zh)
AT (1) ATE370494T1 (zh)
DE (1) DE602005001995T2 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104038864A (zh) * 2013-03-08 2014-09-10 亚德诺半导体股份有限公司 带有语音识别的麦克风电路总成和系统
CN104038804A (zh) * 2013-03-05 2014-09-10 三星电子(中国)研发中心 基于语音识别的字幕同步装置和方法
CN103886860B (zh) * 2014-02-21 2017-05-24 联想(北京)有限公司 一种信息处理方法和电子设备
CN110910888A (zh) * 2018-09-17 2020-03-24 中国移动通信集团设计院有限公司 语音识别装置及方法

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080154608A1 (en) * 2006-12-26 2008-06-26 Voice Signal Technologies, Inc. On a mobile device tracking use of search results delivered to the mobile device
MY154452A (en) 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
KR101400535B1 (ko) 2008-07-11 2014-05-28 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 시간 워프 활성 신호의 제공 및 이를 이용한 오디오 신호의 인코딩
US8099290B2 (en) * 2009-01-28 2012-01-17 Mitsubishi Electric Corporation Voice recognition device
US9112989B2 (en) * 2010-04-08 2015-08-18 Qualcomm Incorporated System and method of smart audio logging for mobile devices
US9851787B2 (en) * 2012-11-29 2017-12-26 Microsoft Technology Licensing, Llc Display resource management
US20150031416A1 (en) 2013-07-23 2015-01-29 Motorola Mobility Llc Method and Device For Command Phrase Validation
US9449602B2 (en) * 2013-12-03 2016-09-20 Google Inc. Dual uplink pre-processing paths for machine and human listening
JP6910721B2 (ja) * 2017-07-27 2021-07-28 アルパイン株式会社 電子装置および情報端末システム

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0356568B1 (de) * 1988-09-02 1994-01-19 Siemens Aktiengesellschaft Verfahren und Anordnung zur Sprechererkennung in einer Fernsprechvermittlungsanlage
JPH04207551A (ja) 1990-11-30 1992-07-29 Toshiba Corp 電話装置
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
US6212228B1 (en) * 1997-09-10 2001-04-03 Nortel Networks Limited Apparatus for modulation and demodulating digital data
US7085710B1 (en) * 1998-01-07 2006-08-01 Microsoft Corporation Vehicle computer system audio entertainment system
US6321195B1 (en) * 1998-04-28 2001-11-20 Lg Electronics Inc. Speech recognition method
US6411926B1 (en) * 1999-02-08 2002-06-25 Qualcomm Incorporated Distributed voice recognition system
JP2001142488A (ja) 1999-11-17 2001-05-25 Oki Electric Ind Co Ltd 音声認識通信システム
US6633845B1 (en) * 2000-04-07 2003-10-14 Hewlett-Packard Development Company, L.P. Music summarization system and method
KR20010008073A (ko) 2000-11-07 2001-02-05 조용범 음성 인식 및 번역 전용 에이직을 이용한 휴대용 다국어번역 단말장치
US6901270B1 (en) 2000-11-17 2005-05-31 Symbol Technologies, Inc. Apparatus and method for wireless communication
US7203643B2 (en) * 2001-06-14 2007-04-10 Qualcomm Incorporated Method and apparatus for transmitting speech activity in distributed voice recognition systems
US7221902B2 (en) * 2004-04-07 2007-05-22 Nokia Corporation Mobile station and interface adapted for feature extraction from an input media sample

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104038804A (zh) * 2013-03-05 2014-09-10 三星电子(中国)研发中心 基于语音识别的字幕同步装置和方法
CN104038864A (zh) * 2013-03-08 2014-09-10 亚德诺半导体股份有限公司 带有语音识别的麦克风电路总成和系统
CN104038864B (zh) * 2013-03-08 2018-04-10 亚德诺半导体股份有限公司 带有语音识别的麦克风电路总成和系统
CN103886860B (zh) * 2014-02-21 2017-05-24 联想(北京)有限公司 一种信息处理方法和电子设备
CN110910888A (zh) * 2018-09-17 2020-03-24 中国移动通信集团设计院有限公司 语音识别装置及方法

Also Published As

Publication number Publication date
KR100640893B1 (ko) 2006-11-02
EP1632934A1 (en) 2006-03-08
DE602005001995D1 (de) 2007-09-27
US7593853B2 (en) 2009-09-22
DE602005001995T2 (de) 2008-05-15
CN1797542B (zh) 2010-04-07
ATE370494T1 (de) 2007-09-15
US20060053011A1 (en) 2006-03-09
KR20060022490A (ko) 2006-03-10
EP1632934B1 (en) 2007-08-15
JP2006079089A (ja) 2006-03-23

Similar Documents

Publication Publication Date Title
CN1797542A (zh) 移动通信终端上用于语音识别的基带调制解调器及其方法
CN1244907C (zh) 宽带语音编解码器中的高频增强层编码方法和装置
CN1249667C (zh) 声控服务
CN1188831C (zh) 具有多个话音识别引擎的话音识别系统和方法
CN103095911B (zh) 一种通过语音唤醒寻找手机的方法及系统
US6411926B1 (en) Distributed voice recognition system
CN1292574C (zh) 用于语音启动装置的讲话用户接口
CN1711586A (zh) 声音识别用辞典编制装置和声音识别装置
CN110114829B (zh) 基于特征的话语码本选择
CN1167048C (zh) 语音编码设备和语音解码设备
CN1210685C (zh) 语音编码中噪音鲁棒分类方法
CN1212601C (zh) 一种嵌入式语音合成方法及系统
CN1125437C (zh) 语音识别方法
CN1819017A (zh) 提取特征向量用于语音识别的方法
CN1653521A (zh) 用于音频代码转换中的自适应码本音调滞后计算的方法
CN1268732A (zh) 基于语音识别专用芯片的特定人语音识别、语音回放方法
CN1787070A (zh) 用于语言学习机的片上系统
CN1165889C (zh) 话音拨号的方法和系统
CN1932976A (zh) 一种实现视音频处理中字幕与语音同步的方法和系统
CN1212604C (zh) 基于可变速语音编码的语音合成器
CN1337670A (zh) 特定人汉语短语语音识别快速方法
CN111341320B (zh) 短语语音的声纹识别方法及装置
CN1275223C (zh) 一种低比特变速率语言编码器
CN1828723A (zh) 分散式语言处理系统及其所使用的输出中介信息的方法
CN1262502A (zh) 小词汇量语音识别方法及其模块

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100407

Termination date: 20180907