CN104157288A - 用多个话筒的语音识别 - Google Patents

用多个话筒的语音识别 Download PDF

Info

Publication number
CN104157288A
CN104157288A CN201410200154.5A CN201410200154A CN104157288A CN 104157288 A CN104157288 A CN 104157288A CN 201410200154 A CN201410200154 A CN 201410200154A CN 104157288 A CN104157288 A CN 104157288A
Authority
CN
China
Prior art keywords
microphone
word
saying
processor
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410200154.5A
Other languages
English (en)
Other versions
CN104157288B (zh
Inventor
G.塔尔瓦
X.赵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GM Global Technology Operations LLC
Original Assignee
GM Global Technology Operations LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GM Global Technology Operations LLC filed Critical GM Global Technology Operations LLC
Publication of CN104157288A publication Critical patent/CN104157288A/zh
Application granted granted Critical
Publication of CN104157288B publication Critical patent/CN104157288B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/083Recognition networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2420/00Details of connection covered by H04R, not provided for in its groups
    • H04R2420/07Applications of wireless loudspeakers or wireless microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/03Synergistic effects of band splitting and sub-band processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/13Acoustic transducers and sound field adaptation in vehicles

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Otolaryngology (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

具有不同频率响应的至少第一和第二话筒形成语音识别系统的部分。所述话筒被耦接到处理器,所述处理器被配置成基于话筒信号识别说出的词语。所述处理器将说出的词语分类,并且基于说出的词语的所述分类对来自所述话筒的信号加权。

Description

用多个话筒的语音识别
技术领域
技术领域总体涉及语音(speech)识别系统,更具体地涉及使用包括至少两个话筒的话筒阵列的语音识别系统,所述话筒具有不同频率响应。
背景技术
人类语音的自动识别现在是可能的,并且总体上涉及使用话筒将说出的词语的声响能量转化成电气信号。电气信号随后通过处理器分析,并且所述处理器能够识别通过话筒而转化成电气信号的说出的词语。在说出的词语被识别之后,词语可用作对于计算机或其他电子装置的指令,以便采取动作,例如调节室内温度设定的命令。说出的词语还可被转化成打字的词语,因此人可以口述信或其他文件,所述信或其他文件被随后转化成打字的文件而无需任何进一步的人类互动。自动语音识别的其他使用也是可能的。
世界上人们使用多种不同语言,并且某些语言使用在其他语言中没有听到过的声音。某些语言还使用说出的词语的声调或音高来影响含义,因此正确理解不仅需要识别声音,还需要识别声音是如何发音的。各种语言中使用的许多声音和声调通常是在具体频率范围内发声的,并且这些范围对于不同声音和词语广泛地改变。由此,在很宽的频率范围内检测和解释声音的能力对于高效的语音识别系统来说是重要的。
所有语言都使用语调或者声调和音高来表达强调的、相反的和情感的信息。然而,声调语言使用声调或音高来区别词语的含义。例如,语音学上相同的词语如果以不同的转调说出来就可具有完全不同的含义,所述转调是,例如:(1)平的转调,(2)从词语的开始到词语的结束升调,(3)从词语的开始到词语的结束降调,或(4)从词语的开始下降,但是随后在词语的最后部分增大的声调。不同声调语言将使用不同类型的声调或声调轮廓。
声音由话筒检测并且被转化成电气信号。然而,不同话筒具有不同频率响应,这意味着某些话筒在某种声音频率下将声音转化成电气信号方面更敏感和高效,而其他话筒在其他频率下更敏感和高效。理想地,话筒在说出的词语的频率下将敏感和高效;然而,存在大范围的在人类语音中使用的频率。因此,某些词语并没有被完美地识别,而所产生的语音转化可能是不准确的。
因此,期望提供一种具有改善的准确性的语音识别系统。本发明描述的实施例构想了话筒阵列通过多个不同频率响应来改进多个语音转化的使用。此外,通过结合附图和前面的技术领域以及背景技术来参阅随后的详细描述以及所附权利要求,本发明的其他期望特征和特性将变得清楚。
发明内容
一种语音识别系统包括具有不同频率响应的至少第一和第二话筒。所述话筒将声响能量转化成电气信号。所述话筒被耦接到处理器,所述处理器被配置成基于从所述话筒接收的电气信号来识别说出的词语。所述处理器确定词语的分类,并且所述处理器基于说出的词语的分类对从所述话筒接收的信号加权。
在另一个实施例中,所述语音识别系统被包含在机动车的舱中。所述语音识别系统包括具有不同频率响应的至少第一和第二话筒,其中所述话筒被定位成从所述车辆舱内接收声响能量。所述话筒被耦接到处理器,所述处理器被配置成识别说出的词语并且确定那些词语的分类。所述处理器基于说出的词语的所述分类对从所述话筒接收的信号加权。
一种用于识别语音的方法提供了具有不同频率响应的至少第一和第二话筒。所述话筒将声响能量转化成电气信号,并且处理器接收那些信号。所述处理器基于从所述话筒接收的电气信号来确定说出的词语,并且将那些说出的词语分类。所述处理器基于说出的词语的所述分类对从所述话筒接收的所述信号加权。
本发明还包括如下方案:
1. 一种语音识别系统,其包括:
至少第一和第二话筒,其每一个具有不同频率响应,其中,所述话筒能够将声响能量转化成电气信号;以及
处理器,所述处理器耦接到多个所述话筒并且被配置成:
  基于从所述话筒接收的信号来识别说出的词语;
  确定说出的词语的分类;并且
  基于所述说出的词语的所述分类来对从所述话筒接收的信号加权。
2. 根据方案1所述的语音识别系统,还包括耦接在所述话筒与所述处理器之间的模拟至数字转化器。
3. 根据方案1所述的语音识别系统,其中,所述电气信号包括振幅响应和相位响应,并且其中,所述处理器还被配置成基于说出的词语的所述分类来对所述振幅响应加权。
4. 根据方案3所述的语音识别系统,其中,所述处理器还被配置成对于多个频率单元中的每个频率单元而对振幅响应加权。
5. 根据方案1所述的语音识别系统,其中,对于所述第一话筒,低于两千赫兹的频率响应比对于所述第二话筒更高,并且其中,所述处理器还被配置成将说出的词语分类为声调语言或非声调语言的部分,并且对于声调语言,对来自所述第一话筒的信号与来自所述第二话筒的信号相比更多地加权。
6. 根据方案1所述的语音识别系统,其中,所述处理器还被配置成将说出的词语以语言分类,并且配置成对于多种语言中的每种,将语言具体加权分配到电气信号。
7. 根据方案1所述的语音识别系统,其中,所述处理器还被配置成基于讲话者的声音特性来定制电气信号处理。
8. 一种机动车,包括:
舱;
至少第一和第二话筒,每个具有不同频率响应,其中,所述话筒被定位在所述机动车内以便从所述舱内接收声响能量,并且其中,所述话筒将所述声响能量转化成电气信号;
耦接到所述话筒的处理器,其中,所述处理器被配置成:
  基于从所述话筒接收的信号来识别说出的词语;
  确定说出的词语的分类;并且
  基于说出的词语的所述分类对从所述话筒接收的信号加权。
9. 根据方案8所述的机动车,其中,所述电气信号的加权是对于所述舱的所述声响定制的。
10. 根据方案8所述的语音识别系统,其中,所述话筒能够将声响能量转化成包括振幅响应和相位响应的模拟电气信号,所述系统还包括耦接到所述话筒并且耦接到所述处理器的模拟至数字转化器,并且其中,所述处理器被配置成基于说出的词语的所述分类来对所述振幅响应加权。
11. 根据方案8所述的机动车,其中,对于所述第一话筒,小于两千赫兹的频率响应比对于所述第二话筒更高,所述处理器被配置成将说出的词语分类为声调语言或非声调语言的部分,并且所述处理器还被配置成对于声调语言,将与所述第二话筒电气信号相比更多的加权置于所述第一话筒电气信号。
12. 根据方案8所述的机动车,其中,所述处理器还被配置成将说出的词语以语言分类,并且配置成对于多种语言中的每种,对所述电气信号具体加权。
13. 根据方案12所述的机动车,还包括能被所述处理器访问的语言数据库,并且其中,所述语言数据库包括对于所述语言的语言具体加权系数。
14. 根据方案8所述的机动车,其中,所述处理器还被配置成基于讲话者的声音来定制电气信号处理。
15. 一种识别语音的方法,包括:
提供具有不同频率响应的至少第一和第二话筒,其中,所述话筒能够将声响能量转化成电气信号;
在处理器中从多个所述话筒接收电气信号;
处理从所述话筒接收的信号以确定说出的词语;
将所述说出的词语分类;以及
基于说出的词语的所述分类对来自多个话筒的所述电气信号加权。
16. 根据方案15所述的方法,其中,由所述话筒产生的电气信号是包括振幅响应和相位响应的模拟信号,所述方法还包括:
将所述话筒信号从模拟转化成数字;
并且其中,对来自多个所述话筒的电气信号加权还包括对所述电气信号的振幅响应加权。
17. 根据方案15所述的方法,其中,对于所述第一话筒,在少于两千赫兹下的频率响应与对于所述第二话筒相比更高,并且其中,所述方法还包括将说出的词语分类为属于声调语言或非声调语言,并且对于声调语言,高于所述第二话筒地对所述第一话筒加权。
18. 根据方案15所述的方法,还包括:
用多种语言测试所述话筒和处理器,以及
对于每种测试的语言,开发对所述电气信号的语言具体加权系数。
19. 根据方案18所述的方法,还包括采用回归分析以对于每种测试的语言开发对所述电气信号的加权因数。
20. 根据方案15所述的方法,还包括基于讲话者的声音特性来定制话筒信号处理。
附图说明
随后将结合下面的附图来描述示例性实施例,其中类似的附图标记指示类似的元件,并且在附图中:
图1是语音识别系统的第一实施例的立体图;
图2是语音识别系统的第二实施例的立体图;
图3a和3b是分别示出了对于两个不同话筒的第一和第二频率响应的曲线;
图4是描绘了语音识别系统的方框图;以及
图5是机动车的前部的立体图。
具体实施方式
下面的详细描述本质上仅是示例性的,并非旨在对应用和用途构成限制。此外,不旨在受到在前述技术领域、背景技术、发明内容、或下面的具体实施方式中给出的任何明示或暗示理论的限制。
如前面所述的,在声调语言中,倾听说出的词语的声调和音高来理解该词语的含义是重要的。在确认说出的词语的语音识别系统中,必须考虑语言的这种方面。
在多数声调语言中,低于两千赫兹(KHz)的频率对于理解说出的词语来说是最重要和显著的。在通讯和语言中使用的某些声音的音高是高于其他语言的。例如,许多英语数字具有高频率部分,例如“six”。重复的数字对于语音识别系统来说是个挑战(例如,说出电话号码),并且,为了理解许多这些词语,较高的频率是更重要的。为了理解某些具体声音(例如,鼻音、爆破音、摩擦音和塞擦音),较高频率也是更重要的。鼻音是其中空气通过鼻子而不是通过嘴逸出的声音,并且包括英语字母“n”和“m”。爆破音是其中气流被阻塞的停顿,并且包括“t”、“d”、“b”和“p”。摩擦音是通过迫使空气穿过狭窄通道来产生的,并且包括“s”和“z”。塞擦音以停顿开始,但是以摩擦音释放,并且包括“ch”和“j”。
人类语音总体上在从大约零到二十KHz的范围内,但是非常少的声音接近二十KHz的频率。在从零到大约八KHz范围内的记录总体上足以识别说出的词语。然而,语音识别系统可被建立以识别更宽或更窄的频率范围。
现参阅图1和2,其示出了根据示例性实施例的语音识别系统10。设置了多个话筒12(例如,动圈式、带状的、电容式、晶体式等)来将声响能量转化成电气信号。多个话筒12形成话筒阵列,为了简要起见仅示出了两个,其中示出的两个话筒被标识为第一话筒14和第二话筒16。
话筒14和16通过第一和第二模拟至数字(A/D)转化器18和19来耦接到处理器20。任何有效耦接都可被使用,包括硬线电气连接、光纤连接、无线连接或者上面的组合。在无线连接中,话筒12将声响能量转化成电气信号,并且随后将电气信号转化成无线传送的手段,例如无线电波或其他电磁波。接收器22可以随后从话筒12接收无线传送,并且将该无线传送转化回到电气信号以便处理。电气信号可以在无线传送之前或之后被从模拟转化成数字。
由话筒14和16产生的电气信号是模拟信号,所述模拟信号在A/D转化器18和19中被转化成数字信号。A/D转化器18和19的输出被耦接到处理器20,因此A/D转化器18和19被耦接在话筒14和16与处理器20之间。A/D转化器18和19可以与话筒14和16以及/或者处理器20一起定位,或者它可以是独立部件。在某些实施例中,多个话筒14和16可以使用单个A/D转化器18,例如当A/D转化器18是独立部件或被附接到处理器20时。
处理器20被编程为通过分析从话筒12接受的电气信号来识别说出的词语,以便标识声音和说过的词语。也就是说,来自话筒12的电气信号随着到达话筒12的声音的改变而改变,因此每个声音都产生可被处理器20标识的独特电气信号。随着声音被标识,声音的组合可被解释来确定说出的词语。
处理器20可包括存储器24或能访问存储器24来辅助标识声音、识别词语、确定词语的分类以及语音识别的其他方面。处理器20的采样率应当是期望带宽的至少两倍,因此在分析在零到八KHz范围内的语音时应当使用十六KHz的采样率,但是更高的采样率也是可接受的。例如,如果高达二十KHz的语音频率将被分析,那么采样率可以为四十KHz或者更多。
处理器20可以以许多不同方式(包括通过语言)来确定说出的词语的分类。例如,处理器20可被编程为将属于声调语言或非声调语言的说出的词语分类。某些语言比其他语言更声调化,并且处理器20可被编程为具有预定标准以在声调与非声调语言之间作出区别(如设计者指定的那样)。在其他示例中,处理器20可被编程为将说出的词语分类成属于具体语言,例如法语、英语、日语或其他语言。备选地,处理器20可被编程为基于讲话者的音高来区别说出的词语,因此可以在具有低音的人与具有高音的人之间做出区别。处理器还可对于其他分类被编程,例如口音、方言或其他标准以及不同类型分类的组合。
如图3a和3b所示,多个话筒12包括至少第一和第二话筒14和16,所述第一和第二话筒14和16分别具有不同的第一和第二频率响应26和28。频率响应是在暴露到一定范围或扫描区域的具有相等强度的纯声调时的话筒的电压输出。频率响应是测量话筒12将多好地感测声调的范围的方式。不同的话筒12可具有不同的频率响应,并且某些话筒12对于不同任务来说是更好的。
图示的第一和第二频率响应26和28是假设的,但总体上将第一话筒14表征为对于低频率有强响应但是对于高频率有弱得多的响应的窄频带话筒。第一频率响应26具有高达大约四KHz的强频率响应,但是对于高于大约四KHz的频率具有明显较低的响应。第二频率响应28被示出为用于对于宽的频率范围具有合理响应的宽频带话筒,但是对于低频率,所述合理响应不像窄频带话筒的响应那样强。换句话说,对于低频段的能量振幅是相对较低的。宽频带话筒的一个示例对于高达大约七KHz的频率具有合理响应,但是对于较低频率没有像窄频带话筒14那样高的响应。在该示例中,对于小于四KHz的声音,并且尤其是对于小于两KHz的声音,第一话筒14具有比第二话筒16更高的频率响应。然而,在其他实施例中,第一和第二频率响应26和28可以与示出的不同。对于声调语言,语音识别性能是通过恰当水平的低频段振幅来改进的。对于低于五百KHz的处理频率可以有具体的考虑,因此对于非常低的频率可以使用或可以不使用另外的因数。这些因数将取决于使用的话筒12的特性。
如图4所示,并继续参阅图1-3,处理器20可被编程为将说出的词语分类,并且随后使用该分类对从话筒14和16接收的信号加权。声响能量32通过第一和第二话筒14和16被分别转化成第一和第二模拟电子信号34和36。模拟电子信号34和36分别包括第一和第二振幅响应42和44以及第一和第二相位响应46和48,其中振幅和相位响应42、44、46和48可被在模拟信号34和36内区分。A/D转化器18和19将模拟电子信号34和36分别转化成第一和第二数字电子信号38和40。数字电子信号38和40包括对于振幅响应42和44的数字表示(其可以是表征振幅的简单数字)以及对于相位响应46和48的数字表示。来自多个话筒14和16中的每个的相位响应46和48可被对准来确保数字电子信号38和40对于说出的词语或其他声音是匹配和对准的。对准可以发生在模拟或数字相,只要对准对于数字相在正确位置。相位响应46和48可被以多种方式对准,包括来自话筒14的正时因数或者相位响应46和48的电子比较。
在模拟电子信号34和36已转化成数字格式之后,数字电子信号38和40可以通过处理器20来分析和分类。处理器20可以采用加权过程50以便对来自话筒14和16的数字信号38和40加权。在许多实施例中,加权过程50在处理器20内执行,但是在被处理器20接收之前,能够对模拟电气信号34和36或者数字电气信号38和40进行加权。信号在它被转化成数字格式之前或之后可被总体上操纵,但是处理器20采用数字格式,因此在许多实施例中以数字格式执行操纵。然而,应当理解的是,以数字形式的信号操纵的引用还可以以模拟形式来执行。
在一个实施例中,第一话筒14对于低频率具有更好的频率响应并且对于所述低频率提供更强的总体响应。在该实施例中,对于在低频率上需要额外强调但是在高频率上不那么强调的分类(例如,声调语言),第一话筒14可以比第二话筒16更重地加权。对于在高频率上需要额外强调但是在低频率上不那么强调的分类(其可包括非声调语言),第二数字电气信号40可以比第一信号38更重地加权。某些加权可被提供到话筒14和16两者,因此较高频率的声音是由第二话筒16检测的,并且采用了第一话筒14的较强低频率性能。以此方式,摩擦音或其他高音高的声音被捕获,甚至在额外加权被给予到较低频率时也是如此。
处理器20可以仅对电子信号38和40的振幅响应部分加权。振幅响应42和44被加权以便强调来自最适合特定任务的话筒14或16的电子信号38或40。数字电子信号38和40的细节更易于使处理器20通过更强的振幅响应42和44来区别,这有助于更好的词语识别。电子信号38和40可被分割成多个不同频率单元,并且振幅响应42和44的加权可被对于每个预定频率单元来执行。声响能量32可以在多个不同频率下,并且频率标度是连续体,因此多个预定频率单元可被形成并且用于对电子信号38和40加权。对于电子信号38和40的相位响应部分,不需要信号加权,所述信号加权可被用于对准来自多个话筒14和16的电子信号38和40,并用于处理以便识别语音。
在处理器20已确定词语的分类之后,来自话筒14和16的电气信号38和40的加权可被以多种方式采用。例如,当在一设定时间段或者一设定数量的词语或音节内标识最少量的识别词语时,处理器20可以将说出的词语分类。作为非限制性示例,当六个说出的词语中至少四个说出的词语被标识为属于已知语言时,处理器20可以将说出的词语分类。备选地,当一个清楚地标识的词语被分类为属于仅一种语言时,处理器20可以将词语分类。某些词语对于多种不同语言可能具有通常含义(例如词语“no”),因此,当一个字串中所有标识的词语都来自一种已知语言时,处理器20可以将词语分类。许多其他分类技术可被使用。例如,一组可直接应用的对于语言分类的种属是声调语言和非声调语言。
在词语被分类之后,处理器20根据正在进行的标准继续对词语分类,因此诉说语言的变化将被识别。电气信号38和40的加权是基于具体分类的。因此,相关加权过程50可随后被用于从分类的时候向前进行的所有词语,至少直到作出新的并且不同的分类为止。备选地,在作出分类之后,相关加权过程50可被追溯地使用,这需要记录和检索某些说出的词语。在作出正面分类之后,处理器20回想前面的说出的词语并且基于该分类对从话筒14和16接收的信号38和40加权。其他分类和加权过程50也可被使用。语言分类可以通过使用已知方法(例如,贝叶斯分类器、隐马尔可夫模型基的分类系统、反传&前馈神经网络基的算法等)来执行。
有许多不同方式对话筒信号38和40加权,包括线性和非线性加权。相对简单加权公式的一个示例被示出在等式1中:
等式1: Y(频率)=A*E(第一话筒)+B*E(第二话筒)+F0。 
其中:   Y(频率)=由处理器20使用的加权信号;
     A=对于第一话筒信号的加权系数;
     B=对于第二话筒信号的加权系数;
     E(第一话筒)=来自第一话筒14的振幅响应34;
     E(第二话筒)=来自第二话筒16的振幅响应34;以及
     F0=音高或基础谐波。
加权系数可以使用多个回归分析来计算,其中标准可以是对于整个频率指定的粗分贝(dB)阈值,以及边界标准偏差。其他技术也可被用于确定加权系数。在一个例子中,具有两组加权系数:一组用于声调语言,而另一组用于非声调语言。音高或基础谐波(其还可被称为音高偏移(F0))可被用于改进对于声调语言的语音识别性能。在其中对于低于两KHz的声音第一话筒14具有比第二话筒16更高的频率响应的实施例中,对于声调语言,处理器20可将更多的加权置于来自第一话筒14的信号上。类似地,对于非声调语言,处理器20可以将更多的加权置于来自第二话筒16的信号上。用于区别第一和第二话筒14和16的响应的频率可以改变,因此还可以选择除两KHz之外的水平,例如三、四或五KHz。
在其他实施例中,对于每种已知语言可具有不同加权因数。可具有语言数据库30,所述语言数据库30包括对于每个已知语言的具体加权系数。这类似于用于保持一组对应于每种语言的系数的查询表,所述一组系数可被存储并且持续地适于将来使用。因此,在说出的词语被分类为属于某种语言之后,可以使用对于该语言的具体加权系数。语音识别系统10可被通过不同语言来测试,以便开发语言具体加权系数。可以从测试结果使用回归分析或其他技术来开发系数。在该实施例中,语言具体加权系数可被分配给多个语言中的每个,并且处理器20将语言具体加权分配到来自从多个话筒14和16的电子信号38和40。
处理器20可基于讲话者的声音特性来进一步定制(customize)话筒信号处理。例如,音高或基础谐波(等式1中的(F0))可以对于讲话者的声音特性来调节,其中讲话者的声音提供线索来调节音高偏置的值(F0)。备选地,加权因数A和/或B可以基于讲话者的声音来调节。例如,如果讲话者具有非常低的声音,那么对于来自第一话筒14的信号的加权因数A可以增加。如果讲话者具有高的声音,那么对于来自第一话筒14的信号的加权因数A可以某种程度上降低,或者对于来自第二话筒16的信号的加权因数B可以增加。对话筒信号加权的其他修正也可被用于不同类型的声音或讲话方式。
语音识别系统10的输出52可以是被识别和分类的说出的词语。这些可包括基于来自讲话者的识别口头指令(例如,打电话、调节温度设定或起动计时器)来执行的命令或动作。输出52还可以是说出的词语的显示,例如与讲话者给出的口述匹配的信或其他文件。还有其他可能的输出38,例如语言翻译或其他输出38。
在其他实施例中,可具有多于两个的话筒12,所述话筒12具有多于两个的不同频率响应因数。上面描述的相同技术和方法可被应用。因此,多个话筒12可被采用,其中每个话筒12都具有在给定频率范围内的特定强度。还能够提供多个话筒12,所述话筒12具有多个不同频率响应26和28,其中所述多个话筒12中的某些话筒12具有相同频率响应26,而其他话筒12具有不同的频率响应28。
如图5所示,并继续参阅图1-4,整个声音识别系统10可被包括在机动车54中。声音识别系统10可以在不需要使用者手动地操作旋钮、按钮或其他控制件的情况下增加人类与车辆50的互动。这可以增加不用手的操作,这可以增进安全。例如,车辆40的驾驶员更换无线电台、调节气候控制或者进行其他动作而无需将他们的手从方向盘移开将更安全。具有声音识别系统10的互动车辆40可有助于增加的不用手的互动。
车辆54具有用于驾驶员和乘客的舱56。话筒12被置于车辆54内并且被定位成接收来自舱56内的声响能量32。话筒12本身可被定位在舱56内,或者可被定位在外部但十分接近舱56以便检测来自舱56内的声响能量32。话筒12可被屏幕、格栅、筛网或者允许声音经过但是阻止污物和碎屑的其他保护罩来覆盖。话筒12上的罩还可以提供免受冲击的某些保护。可具有多组话筒12;例如,对于前排和后排座的不同组或对于驾驶员的座位和前排乘客座的不同组。话筒12可被置于仪表盘、车门、座位或各种其他可能的位置。测试和/或声学分析可被用于确定对于每个提供的模型车辆54的话筒12的最好或最佳位置。处理器20可被定位在车辆54中几乎任何地方;甚至定位在车辆54外部,并且通过无线装置耦接到话筒12。
一旦安装,电气信号38和40的加权可针对特定车辆舱56定制。例如,舱56的声响可以修正对于多个话筒12的最佳加权因数。声学分析或定制测试可被对于每个提供的车辆模型来执行,而加权系数可以对于车辆模型和舱声响而定制。修正的加权系数可被保存在数据库30中(具体是对于车辆模型的)。因此,不同车辆模型可具有不同加权系数,或者甚至用于对话筒12加权的不同数学模型,即使使用了相同说出的词语和相同分类系统。
语音识别系统10可被包含在现有车辆互动系统中,例如与商标“ONSTAR”相关联的系统。具有变化的频率响应的话筒阵列的使用可以帮助改进车辆40中语音识别系统10以及用于其他用途的语音识别系统10的操作和效率。
虽然在前面的详细描述中已经给出了至少一个示例性实施例,但是应当理解的是,还存在大量变型。同样应当理解的是,所述一个或多个示例性实施例仅是示例,而无论如何不旨在限制本公开的范围、应用或构造。相反,前面的详细描述将向本领域技术人员提供实施所述一个或多个示例性实施例的便利线路图。应当理解的是,在不偏离所附权利要求及其法律等效物所阐述的本公开的范围的情况下,可以对诸元件的功能和布置做出各种改变。

Claims (10)

1. 一种语音识别系统,其包括:
至少第一和第二话筒,其每一个具有不同频率响应,其中,所述话筒能够将声响能量转化成电气信号;以及
处理器,所述处理器耦接到多个所述话筒并且被配置成:
  基于从所述话筒接收的信号来识别说出的词语;
  确定说出的词语的分类;并且
  基于所述说出的词语的所述分类来对从所述话筒接收的信号加权。
2. 根据权利要求1所述的语音识别系统,还包括耦接在所述话筒与所述处理器之间的模拟至数字转化器。
3. 根据权利要求1所述的语音识别系统,其中,所述电气信号包括振幅响应和相位响应,并且其中,所述处理器还被配置成基于说出的词语的所述分类来对所述振幅响应加权。
4. 根据权利要求3所述的语音识别系统,其中,所述处理器还被配置成对于多个频率单元中的每个频率单元而对振幅响应加权。
5. 根据权利要求1所述的语音识别系统,其中,对于所述第一话筒,低于两千赫兹的频率响应比对于所述第二话筒更高,并且其中,所述处理器还被配置成将说出的词语分类为声调语言或非声调语言的部分,并且对于声调语言,对来自所述第一话筒的信号与来自所述第二话筒的信号相比更多地加权。
6. 根据权利要求1所述的语音识别系统,其中,所述处理器还被配置成将说出的词语以语言分类,并且配置成对于多种语言中的每种,将语言具体加权分配到电气信号。
7. 根据权利要求1所述的语音识别系统,其中,所述处理器还被配置成基于讲话者的声音特性来定制电气信号处理。
8. 一种机动车,包括:
舱;
至少第一和第二话筒,每个具有不同频率响应,其中,所述话筒被定位在所述机动车内以便从所述舱内接收声响能量,并且其中,所述话筒将所述声响能量转化成电气信号;
耦接到所述话筒的处理器,其中,所述处理器被配置成:
  基于从所述话筒接收的信号来识别说出的词语;
  确定说出的词语的分类;并且
  基于说出的词语的所述分类对从所述话筒接收的信号加权。
9. 根据权利要求8所述的机动车,其中,所述电气信号的加权是对于所述舱的所述声响定制的。
10. 一种识别语音的方法,包括:
提供具有不同频率响应的至少第一和第二话筒,其中,所述话筒能够将声响能量转化成电气信号;
在处理器中从多个所述话筒接收电气信号;
处理从所述话筒接收的信号以确定说出的词语;
将所述说出的词语分类;以及
基于说出的词语的所述分类对来自多个话筒的所述电气信号加权。
CN201410200154.5A 2013-05-13 2014-05-13 用多个话筒的语音识别 Expired - Fee Related CN104157288B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US13/893,088 US9269352B2 (en) 2013-05-13 2013-05-13 Speech recognition with a plurality of microphones
US13/893088 2013-05-13

Publications (2)

Publication Number Publication Date
CN104157288A true CN104157288A (zh) 2014-11-19
CN104157288B CN104157288B (zh) 2017-09-15

Family

ID=51787730

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410200154.5A Expired - Fee Related CN104157288B (zh) 2013-05-13 2014-05-13 用多个话筒的语音识别

Country Status (3)

Country Link
US (1) US9269352B2 (zh)
CN (1) CN104157288B (zh)
DE (1) DE102014207437B4 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020051786A1 (en) 2018-09-12 2020-03-19 Shenzhen Voxtech Co., Ltd. Signal processing device having multiple acoustic-electric transducers
KR20180051189A (ko) * 2016-11-08 2018-05-16 삼성전자주식회사 자동 음성 트리거 방법 및 이를 적용한 음향 분석기
CN108182948B (zh) * 2017-11-20 2021-08-20 云知声智能科技股份有限公司 可提高语音识别率的语音采集处理方法及装置
US10714116B2 (en) * 2018-12-18 2020-07-14 Gm Cruise Holdings Llc Systems and methods for active noise cancellation for interior of autonomous vehicle
KR20200076441A (ko) * 2018-12-19 2020-06-29 삼성전자주식회사 전자 장치 및 그의 제어 방법

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4538295A (en) * 1982-08-16 1985-08-27 Nissan Motor Company, Limited Speech recognition system for an automotive vehicle
CN1166886A (zh) * 1994-09-30 1997-12-03 苹果电脑公司 有集成化音调分类器的连续汉语普通话语音识别系统
CN1276077A (zh) * 1997-09-15 2000-12-06 卡艾尔公司 用于多种语言光字符识别的自动语言识别系统
CN1316726A (zh) * 2000-02-02 2001-10-10 摩托罗拉公司 语音识别的方法和装置
CN1320902A (zh) * 2000-03-14 2001-11-07 索尼公司 语音识别装置、语音识别方法和记录介质
CN1339774A (zh) * 2000-08-23 2002-03-13 皇家菲利浦电子有限公司 通过语音信号控制设备尤其是汽车中的设备的方法
JP2004328214A (ja) * 2003-04-23 2004-11-18 Yamaha Corp 車内楽音再生システム
CN1549999A (zh) * 2001-03-08 2004-11-24 ���µ�����ҵ��ʽ���� 适用于提高合成语音可懂性的运行时合成器
US20060253282A1 (en) * 2005-03-14 2006-11-09 Schmidt Gerhard U System for automatic recognition of vehicle operating noises
US20090022335A1 (en) * 2007-07-19 2009-01-22 Alon Konchitsky Dual Adaptive Structure for Speech Enhancement
CN101436403A (zh) * 2007-11-16 2009-05-20 创新未来科技有限公司 声调识别方法和系统
US20110135107A1 (en) * 2007-07-19 2011-06-09 Alon Konchitsky Dual Adaptive Structure for Speech Enhancement

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08328579A (ja) 1995-06-02 1996-12-13 Nec Corp 音声認識装置
DE19934724A1 (de) 1999-03-19 2001-04-19 Siemens Ag Verfahren und Einrichtung zum Aufnehmen und Bearbeiten von Audiosignalen in einer störschallerfüllten Umgebung
DE10030216A1 (de) 2000-06-20 2002-01-03 Helmut Samulowitz Mehrfach-Mikrophon
DE602004015987D1 (de) * 2004-09-23 2008-10-02 Harman Becker Automotive Sys Mehrkanalige adaptive Sprachsignalverarbeitung mit Rauschunterdrückung
US9473850B2 (en) * 2007-07-19 2016-10-18 Alon Konchitsky Voice signals improvements in compressed wireless communications systems
US8515093B2 (en) * 2009-10-09 2013-08-20 National Acquisition Sub, Inc. Input signal mismatch compensation system

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4538295A (en) * 1982-08-16 1985-08-27 Nissan Motor Company, Limited Speech recognition system for an automotive vehicle
CN1166886A (zh) * 1994-09-30 1997-12-03 苹果电脑公司 有集成化音调分类器的连续汉语普通话语音识别系统
CN1276077A (zh) * 1997-09-15 2000-12-06 卡艾尔公司 用于多种语言光字符识别的自动语言识别系统
US6553342B1 (en) * 2000-02-02 2003-04-22 Motorola, Inc. Tone based speech recognition
CN1316726A (zh) * 2000-02-02 2001-10-10 摩托罗拉公司 语音识别的方法和装置
CN1320902A (zh) * 2000-03-14 2001-11-07 索尼公司 语音识别装置、语音识别方法和记录介质
CN1339774A (zh) * 2000-08-23 2002-03-13 皇家菲利浦电子有限公司 通过语音信号控制设备尤其是汽车中的设备的方法
CN1549999A (zh) * 2001-03-08 2004-11-24 ���µ�����ҵ��ʽ���� 适用于提高合成语音可懂性的运行时合成器
JP2004328214A (ja) * 2003-04-23 2004-11-18 Yamaha Corp 車内楽音再生システム
US20060253282A1 (en) * 2005-03-14 2006-11-09 Schmidt Gerhard U System for automatic recognition of vehicle operating noises
US20090022335A1 (en) * 2007-07-19 2009-01-22 Alon Konchitsky Dual Adaptive Structure for Speech Enhancement
US20110135107A1 (en) * 2007-07-19 2011-06-09 Alon Konchitsky Dual Adaptive Structure for Speech Enhancement
CN101436403A (zh) * 2007-11-16 2009-05-20 创新未来科技有限公司 声调识别方法和系统

Also Published As

Publication number Publication date
CN104157288B (zh) 2017-09-15
DE102014207437B4 (de) 2019-12-05
DE102014207437A1 (de) 2014-11-13
US9269352B2 (en) 2016-02-23
US20140337029A1 (en) 2014-11-13

Similar Documents

Publication Publication Date Title
US10319250B2 (en) Pronunciation guided by automatic speech recognition
Kim et al. Auditory processing of speech signals for robust speech recognition in real-world noisy environments
US20190115032A1 (en) Analysing speech signals
CN1188831C (zh) 具有多个话音识别引擎的话音识别系统和方法
CN102214462B (zh) 用于发音评估的方法和系统
US9082414B2 (en) Correcting unintelligible synthesized speech
US20100004931A1 (en) Apparatus and method for speech utterance verification
CN104157288A (zh) 用多个话筒的语音识别
US7319959B1 (en) Multi-source phoneme classification for noise-robust automatic speech recognition
US6836758B2 (en) System and method for hybrid voice recognition
US6553342B1 (en) Tone based speech recognition
JP4202124B2 (ja) 話者独立音声認識システムのための音声テンプレートを構成するための方法及び装置
US20040215458A1 (en) Voice recognition apparatus, voice recognition method and program for voice recognition
CN1238058A (zh) 语音处理系统
CN1856820A (zh) 语音识别方法和通信设备
KR20070098094A (ko) 타 언어권 화자 음성에 대한 음성 인식시스템의 성능향상을 위한 발음 특성에 기반한 음향모델 변환 방법 및이를 이용한 장치
US20150248881A1 (en) Dynamic speech system tuning
CN109754784B (zh) 训练滤波模型的方法和语音识别的方法
CN113393828A (zh) 一种语音合成模型的训练方法、语音合成的方法及装置
CN112992109A (zh) 辅助歌唱系统、辅助歌唱方法及其非瞬时计算机可读取记录媒体
CN105916090A (zh) 一种基于智能化语音识别技术的助听器系统
CN116343797A (zh) 语音唤醒方法及相应装置
CN105810222A (zh) 一种音频设备的缺陷检测方法、装置及系统
RU2296376C2 (ru) Способ распознавания слов речи
Koniaris et al. Selecting static and dynamic features using an advanced auditory model for speech recognition

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170915

CF01 Termination of patent right due to non-payment of annual fee