CN1941079A - 语音识别方法和系统 - Google Patents

语音识别方法和系统 Download PDF

Info

Publication number
CN1941079A
CN1941079A CNA2006101396196A CN200610139619A CN1941079A CN 1941079 A CN1941079 A CN 1941079A CN A2006101396196 A CNA2006101396196 A CN A2006101396196A CN 200610139619 A CN200610139619 A CN 200610139619A CN 1941079 A CN1941079 A CN 1941079A
Authority
CN
China
Prior art keywords
speech
model
lombard
speaker
response
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2006101396196A
Other languages
English (en)
Other versions
CN1941079B (zh
Inventor
R·陈加尔瓦拉延
S·M·彭诺克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Motors Liquidation Co
Original Assignee
Motors Liquidation Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Motors Liquidation Co filed Critical Motors Liquidation Co
Publication of CN1941079A publication Critical patent/CN1941079A/zh
Application granted granted Critical
Publication of CN1941079B publication Critical patent/CN1941079B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • G10L2021/03646Stress or Lombard effect

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Abstract

一种语音识别方法,包括如下步骤:存储词汇集的多个识别模型,每个模型响应于Lombard特征而区别于其他的模型;检测机动车辆内至少一个说话者的讲话;响应于至少一个说话者讲话的Lombard特征选择多个识别模型中的一个识别模型;利用所选的识别模型识别所述至少一个说话者的讲话;以及,响应于所述识别提供信号。

Description

语音识别方法和系统
技术领域
本发明涉及机动车辆语音识别的方法和系统。
背景技术
在构造机动车辆语音识别系统的已知示例中,基于性别、方言、或腔调将说话者或训练科目分组。说话者的讲话经过长时间的收集,被收集成训练用数据集,并且使用收集到的训练用数据集训练机动车辆的语音识别系统。此方法假定说话者用正常的速度和声调讲话。利用该模型的识别系统把由说话者发出的声能组成的信号认作讲话,并确定信号与一个单词或一个短语、或一组单词或短语的匹配概率。说话者的讲话是在几乎没有背景噪声的环境中收集的,产生了开发或训练声学模型的无噪数据集。
在机动车辆的环境中,机动车辆语音识别系统的用户以不同的方式说话,这取决于车辆内部的背景噪声。许多用户因车辆内部背景噪声强度增大而提高讲话的响度和声调。车辆内部背景噪声受以下因素影响,例如:车辆行驶的道路类型,车辆行驶的速度,风噪声,车辆外的噪声,HVAC设置,以及其他因素。用户讲话响度和声调随外部和内部背景噪声变化而变化,可以代表对使声学模型与用户相关联和实现说话识别提出的挑战。
发明内容
有利地,本发明提供了一种语音识别的方法和系统。
有利地,根据示例,语音识别方法包括如下步骤:存储词汇集的多个识别模型,每个模型响应于Lombard特征而区别于其他的模型;检测机动车辆内至少一个说话者的讲话;响应于至少一个说话者讲话的Lombard特征选择多个识别模型中的一个识别模型;利用所选的识别模型识别所述至少一个说话者的讲话;以及,响应于所述识别提供信号。
有利地,根据另一示例,语音识别系统包括:存储器,其包括词汇集的多个识别模型,每个模型响应于Lombard特征而区别于其他的模型;声音检测设备,其接收至少一个说话者的讲话;处理设备,其包括被执行的控制结构,以响应于至少一个说话者讲话的Lombard特征而选择多个识别模型中的一个识别模型,利用所选的识别模型识别所述至少一个说话者的讲话,并响应于所述识别提供信号。
在又一示例中,语音识别系统包括:词汇录制子系统,用于从多个说话者录制所需词汇的讲话,并将来自录制的讲话的数据存储为语言资料库(corpus),其中,背景噪声对于每个说话者听得到但未被包含在录制的讲话中;混合设备,用于将不同的背景音与录制的讲话组合在一起;以及数据结构,其包括所需词汇的至少两个模型,其中,所述模型响应于混合设备,并且其中,每个模型响应于至少一部分语言资料库的Lombard特征而区别于其他的模型。
附图说明
图1说明了用于产生声学模型的步骤示例;
图2提供了将非车辆专用的语音数据与车辆专用信息卷积和混合在一起的略图示例;
图3是用于确定车辆驾驶室(cabin)脉冲响应的系统的略图示例;
图4说明了三个说话者数据簇(cluster)的示例的Lombard电平曲线;
图5说明了三个说话者数据簇的另一示例的Lombard电平曲线;
图6响应于Lombard特征分离说话者的模型;
图7说明了使用Lombard特征进行识别的步骤示例;以及
图8说明了与图7所示步骤一起使用的系统示意图。
具体实施方式
参照图1,步骤100从102开始。应该理解,讲话通过位于开发、测试或录制设施或车辆的一个或多个训练对象说出来。
在步骤104,说话者的讲话被录制,用作说话者的数据。在此示例中,说话者的数据是录制的说话者的讲话,用于使说话者与声学模型相关联。戴着具有悬挂式话筒的耳机的人坐在计算机显示器的前面,响应于通过计算机程序控制下的显示器提示的一组引导讲话。引导的讲话是录制系统要求说话者说出的为语音识别声学模型所知的单词或短语,例如数字“2”或短语“打电话”的发音。
说话者被提示说出正在在被引入说话者耳机的不同电平的噪声下建模的词汇。噪声的电平模拟车辆在路上经历到的不同类型的驾驶室内的噪声。噪声类型包括驾驶室的HVAC风机、不同车辆速度时和不同类型道路上的路面噪音、例如在行驶中车辆窗户打开时的风噪声、及其他在车辆驾驶室中可能发生的其他噪声。因此在步骤104,每个说话者通过正在被培训的词汇来提示,并被提示针对被引入说话者耳机的每个噪声电平来重复词汇表中的每个单词或短语。
在步骤106,更新具有Lombard信息的语言资料库或讲话集。例如,Lombard语言资料库可以包括一组由许多不同人录制的48kHz的16位信号;对于某些应用,500名说话者可以构成适宜的语言资料库。
在步骤108,确定录制的讲话的响度级。确定响度级的一个示例是测量时域信号的RMS(均方根)电平并分配适宜的单位。确定响度级的另一示例是测量单位为宋(sone)的响度。以宋为单位来测量响度的优点在于宋接近所感知的声音的响度。例如,如果某人经受五宋的声级,然后经受十宋的声级,则此人通常将报告感觉出十宋的声级比五宋的声级响一倍。此方法在使说话者行为对于背景噪声电平的相应变化相关联时是有利的。
在另一示例中,响度通过提供给定音频信号或说话者对1/3倍频程滤波器组说的话的功率密度频谱来计算。通过1/3倍频程滤波器组计算给定音频信号的响度级,在国际标准ISO 532 B中进行了规定。对应于响度级的宋单位响应于所述计算进行分配。
在步骤108计算的响度是在步骤104录制的讲话的响度。每个录音具有标识在步骤104的提示期间被引入说话者耳机的噪声电平的关联数据,并且所引入的噪声的响度是针对每个讲话的Lombard电平。响度的Lombard电平单位也可以为宋。
在此示例中,Lombard电平按照离散的间隔设置,并且语言资料库中每个讲话的Lombard电平与最接近的离散设置的电平相关联。例如,电平可以相对于具体机动车辆的预期Lombard噪声区被设置为低、中和高。如果需求的话,可以设置多于三个的电平。
Lombard电平曲线在步骤110产生。通过对笛卡尔纵坐标或Y轴上单位为宋的不同响度级的讲话针对横坐标或X轴上的Lombard电平进行分类,然后在分类的讲话之间内插,产生Lombard曲线。
在步骤112,说话者的讲话基于Lombard特征被分类成簇。在一个示例中,簇基于它们的Lombard曲线的特征。这也可以通过参照图4和5来更好地理解。在图4中,不同说话者的讲话集(用曲线或线图406、408和410表示)如上所述进行绘制,具有例如用参考标记412表示的图(plot)。绘制的曲线406、408和410都具有以下特征,即Lombard电平增大到L1~L2之上(L2>L1>L0),录制的讲话语音电平(例如,响度)增加。属于此类似情形的讲话类型然后被集合成一个簇。
在图5,其他说话者的讲话集(用曲线或线图506、508和510表示)被绘制,例如用参考标记512标明,并且全都具有如下特征:当Lombard电平增大时,录制的讲话的语音电平趋向于保持平坦。因此,这些说话者表现出不随背景噪声电平的增高而提高他们声音的特征。
因此可以发现,具有相似特征的说话者的Lombard曲线位于特定的数据结构中,其特征为比照着宋的范围划定描述Lombard电平的参数的界限,例如Lombard电平0对应于10~25宋的宋级,Lombard电平1对应于30~40宋的宋级,Lombard电平3对应于65~80宋的宋级。在这些簇之内,可以基于性别和方言进一步定义语音信号处理技术中已知的其它子簇,包括在给定簇内的地方方言。例如,在一组男性说话者与一组女性说话者之间一致的差值可以使Lombard电平曲线分离,但相似的簇处于一个声学模型之内,或处于分离的声学模型之内。
尽管上述示例中Lombard簇基于Lombard曲线产生,但是还可以基于Lombard特征实现其他的替换物。例如,Lombard簇可以基于局部曲线;在图4和5的示例中,L0~L1的图可以表示一组局部曲线,而L1~L2的图可以表示另一组局部曲线。
在又一示例中,Lombard簇可以基于本身的Lombard电平来产生。因此在L0、L1和L2中的每个电平,不同的讲话响度的簇可以基于离散的响度级边界来分组。
在设置Lombard簇中,系统设计员将为适合于特定应用的分类确定Lombard数量和讲话响度级。另外,响度级的边界点将被设置为给定应用预期响度范围内的离散级。
一旦设置了Lombard簇,则每个簇的数据被处理以便训练模型。通常,每个簇用于训练用于识别应用的词汇的模型。在步骤114作为此处理的一部分,每个簇中说话者的数据按照已知的方式被卷积。
通常,卷积必然伴有数学运算符,该数学运算符采用两个函数f和g,并产生表示在f与g的翻转与变换的变型之间重叠的第三个函数。卷积可以被直观地概念化为:针对一个或多个对象将信号变模糊或将一个或多个声音变模糊。例如,回声是原声或说话者讲话表示反射原声或说话者讲话的对象的函数的卷积,其中f可以是讲话,而g可以是表示反射的对象的函数。此处理的优点在于卷积可以用于模拟特定车辆的驾驶室的声学特征。在此示例中,说话者的数据在没有外部噪声输入的情况下进行卷积。例如,说话者的数据可以在车辆熄火静止不动时进行卷积。
在图2说明了示例的卷积步骤。在204将非特定录音202和车辆驾驶室的脉冲响应206卷积在一起。脉冲响应是声压比时间的测量。而且,脉冲响应是设备在声能输入已经停止后的表现方式,而设备在此示例中为车辆驾驶室和话筒或话筒矩阵。脉冲中的能量被均匀地分布在宽频带上,使得它便于用作测量声频系统或设备的特征的测试信号。在一个示例中,车辆驾驶室的脉冲响应206用于车辆的特殊类别或线路,例如中等大小的卡车的线路,具有类似设计的内部,并且,车辆驾驶室的脉冲响应206可以用本领域技术人员已知的方式针对每台车辆进行测量。
此刻还参照图3,用于卷积步骤204的车辆脉冲响应的确定可以通过所示系统完成。头部和躯干模拟器(HATS)304安置在车辆驾驶室302中。附着于HATS的是位于模拟人嘴位置的位置的扬声器306。播放通过扬声器306的源自白噪声发生器320的白噪声。
话筒308放在HATS 304说话者的声学点。声学点是用户讲话的录制点。在一个示例中,录制用户讲话的声学点距离用户的唇平面(lipplane)五十毫米。话筒308与声卡310相连,并向声卡310信道一322传输通过HATS 304的扬声器306产生的音频信号,用于处理。
车辆驾驶室包括连接到远程信息处理单元318的内置话筒314。内置话筒314在车辆工作期间使用。高阻抗分接头316连接内置话筒314的输出和声卡310。高阻抗分接头316向声卡310信道二324传输通过HATS 304的扬声器306产生的音频信号,用于处理。
声卡310连接个人计算机(PC)312。PC 312利用声卡310信道一322和信道二324上进入的音频数据来确定在信道一322和信道二324接收的音频信号之间的相关性和/或协方差,因此产生车辆驾驶室302和话筒314的脉冲响应。
再次参照图2,卷积步骤208的输出是与车辆的具体类别或线路的脉冲响应卷积在一起的每个具体的讲话。
再次参照图1,把卷积的数据与各种车辆工作条件下的车辆特定噪声混合。这在图2加以说明,在图2中,车辆特定噪声210被引入并在212与卷积的输出混合,而结果用参考标记214表示。在此示例中,混合的步骤包括把车辆特定噪声添加给卷积的信号208。车辆特定噪声由车辆内不同速度下的环境噪声录音组成,包括变化的内外环境噪声组合。录制车辆噪声的示例条件可以是:(a)车辆以每小时四十五英里的速度行驶在分段的混凝土路上,同时空调系统定在三级;(b)车辆以每小时六十英里的速度行驶在柏油路上,同时放下司机和乘客的车窗等。系统设计员可以轻易地设置各种条件以创建供此处理之用的车辆噪声集。
输出信号214此刻包括处理过的讲话的集合,其中,处理过的讲话已经针对特定车辆环境的响应特征进行了卷积,并且已经与各种车辆条件的背景噪声组合在一起。这些数据集最初通过它们的Lombard特征进行定义,可以被进一步处理,以便细化Lombard的分类,例如通过对照着Lombard电平绘制信号214的响度。进一步的分类可以产生用于识别但非必需的细化模型。
再次参照图1,在步骤118,基于Lombard簇(细化后的,并且如果需要的话,基于上述的卷积和混合被进一步分类)分类的声学模型用已知的方法进行训练。建模可以是已经实现了的为本领域技术人员所知的任何可接受的建模,可以理解的是,新的建模技术变为可用或在将来被细化。
在一个示例中,声学模型使用表示为P(单词|信号)=P(单词)P(信号|单词)/P(信号)的Bayes规则进行训练。先给出一信号,然后搜索单词的序列,以便最大化给出该信号特定单词的概率,或者P(单词|信号)。在已知的示例中,Markov(马尔可夫)建模提供了数学上严格趋近,以开发健壮统计语音模型。
在基于HMM的语音识别中,极大似然估计(MLE)是训练模型参数最常用的方法。在MLE训练中,语音数据的似然函数在给定语音类别的模型上被最大化。使用Baum-Welch算法或分段的K平均数算法迭代执行最大化。分类错误(MCE)可用于最小化预期的语音分类或识别差错率。MCE是已知的,并且已经成功地应用于各种常用结构的语音识别,包括HMM、动态时间偏差、以及神经网络。
最终的训练出的声学模型表示成簇的说话者数据,而成簇的说话者数据与车辆驾驶室的声学卷积,并且与车辆工作的噪声条件混合在一起。根据说话者的Lombard电平和车辆驾驶室的声学特征的训练有素的声学模型,可以更好地匹配测试条件的情形,最小化由于严重不匹配而造成的识别的退化,并促进性能。
此刻参照图6,示出了用于语音识别设备的词汇模型602和604。图6只示出了用于例示的两个模型,还应理解,如果系统的制订人定义更多的分类,则使用更多的模型。两个模型602和604每个表示用于识别应用的整套词汇,并且示意地说明了它们基于上面参照图1~5所述的Lombard簇或分类数据(606、610)和Lombard语言资料库中不同说话者406、408、410和506、508、510的讲话。因此总的来说,在语音识别设备的工作期间,选择用来识别设备用户说出的具体短语或讲话的模型602、604将基于说话者与模型602、604的匹配来选择。这可以通过参照图7来更好地理解。
此刻参照图7和8,所示步骤700从702开始。在此示例中,系统的用户是使用自动语音识别系统的移动车辆802的乘坐者。
在步骤704,来自用户的讲话通过操作耦合于车载远程信息处理单元806的车载话筒816来检测。
在步骤706,识别系统试图匹配说话者的讲话与基于分类的模型(例如,图6中的602、604)。如果模型基于Lombard曲线,则可以在系统能够匹配用户与模型之前采用一个以上的讲话。可以预料,模型本地存储在车载单元806中,但是系统还可以是分布式的,在此情况下模型可以远程存储,或在此情况下,模型可以保留在车辆单元中,但可以从远程设施上进行检索,如果可以获得比车辆本地存储的一个模型更好的模型的话。
如果在步骤706未找到匹配的模型,则存储录制的讲话,从而车载系统可以收集数据点,并定义该用户的Lombard曲线。如果使用此方法,则步骤710确定是否为用户获取了充足的点,并且如果是这样的话,执行步骤712、714、716和718产生该用户的Lombard曲线,将数据发送给远程站,在远程站基于最接近Lombard簇的模型被选中714,并被下载716到车辆的远程信息处理单元806。下载的模型然后在718被选择,并被用来进行语音识别722。
在某些网络的数据传输速率下,选择和下载未必能快得足以处理讲话,所以选择默认模型用于识别待定的讲话,并在步骤706未发现匹配的模型时选择默认模型。下载的模型可以用于未来的识别。
使用从步骤706、步骤718或步骤720选择的模型,在讲话上执行语音识别,并按照已知的方式在步骤724输出数据串。步骤726检查是否要处理更多的讲话,如果是这样的话,移到步骤728。否则在步骤730结束识别处理,并按照已知的方式使用输出的串作为远程信息处理单元806(或其他车载设备)的命令或输出信号。
尽管利用车载环境中的模型分类描述了上面的示例,但是上述示例还可以用于远程的语音识别,其中,车载用户正在对寄主在远程站的应用说话。在此示例中,远程站执行识别,包括存储、选择和利用在此所述的适宜模型。
如上所述,声学模型分类不必在Lombard曲线上进行设置,但是可以在局部曲线上或在Lombard电平上、或在Lombard分类内的噪声电平上进行设置。尽管上述步骤说明使用Lombard分类,但是可以理解,这是对语音识别的其他已知分类的补充,并且可以联合其他已知分类一起使用。
在图8所示的示意系统中,系统800包括车辆802、车辆通信总线804、远程信息处理单元806、双向射频通信系统(包括但不限于一个或多个无线载波系统824、一个或多个通信网络828、和/或一个或多个陆地网络830)、以及一个或多个呼叫中心832。在一个示例中,车辆802是具有用于收发语音和数据通信的适宜硬件和软件的机动车辆。
在一示例中,车辆经由车辆通信总线804,从远程信息处理单元806向车辆802内的设备的各个单元和系统发送信号,以便执行各种功能,例如开车门和执行个人舒适设置。通信总线804由接口组成,例如,控制器区域网(CAN)、用于高速应用的ISO标准11989、用于低速应用的ISO标准11519、和/或用于高速和低速应用的机动车辆工程师学会(SAE)标准J1850。
远程信息处理单元可以向无线载波系统824发送无线电传输和从无线载波系统824接收无线电传输。在一个示例中,无线载波系统824可以是用于在车辆802和通信网828/830之间传输信号的模拟或数字的蜂窝电话系统。而且,无线载波系统824可以包括蜂窝通信收发机、卫星通信收发机、无线计算机网络收发机(无线计算机网络收发机的非限定性示例包括广域网(WAN)收发机,和/或其组合)。
远程信息处理单元806可以包括操作耦合于无线调制解调器810的处理器808、位置检测系统812(例如,全球定位系统(GPS))、车载存储器814、话筒816、一个或多个扬声器820、和嵌入的或车载兼容电话822。这些设备可以在远程信息处理单元806之内或之外,并且与远程信息处理单元806操作耦合。例如,扬声器820可以是车辆声频系统的元件,远程信息处理单元806用已知的方式与车辆声频系统相互作用。
处理器808可以是微型控制器、控制器、微处理器、主处理器,和/或车辆通信处理器。在另一示例中,处理器808可以是专用集成电路(ASIC)。可替换地,处理器808可以是和执行通用处理器功能的中央处理器(CPU)一起工作的处理器。
在使用GPS接收机的示例中,GPS接收机响应于从GPS卫星星座(未示出)接收的GPS广播信号,提供车辆802的经纬度坐标。位置检测系统812的其他示例包括全球定位系统接收机、无线电三角测量系统、船位推算定位系统、和/或它们的组合。车载移动电话822可以是蜂窝型电话,例如模拟、数字、双模、双频带、多模和/或多频带的蜂窝电话。车载移动电话822可以包括分离的处理器(未示出)。
处理器808可以执行相互影响车辆802内电子和机械系统的工作模式的各种计算机程序。应该理解,处理器808控制远程信息处理单元806、无线载波系统824与呼叫中心832之间的通信(例如,呼叫信号)。
而且,处理器808可以产生和接受在远程信息处理单元806与车辆通信网络804之间传输的数字信号,车辆通信网络804连接车辆802中的各个电子模块。在一个示例中,这些数字信号激活电子模块内的编程模式,以及为电子模块之间数据传输提供的编程模式。
可以理解的是,处理器808或与处理器808相关联的存储器814中驻留的软件,可以用于监控、识别和/或录制输入的用户讲话。
通信网络824可以包括来自一个或多个移动电话交换局和/或无线网络的业务。通信网络828连接无线载波系统824与陆地网络830。通信网络824可以是用于连接无线载波系统824与车辆802和陆地网络830的任何适宜的系统或系统组合。
陆地网络830连接通信网络828与呼叫中心832。在一个示例中,陆地网络830是公共交换电话网(PSTN)。在另一示例中,陆地网络830是互联网协议(IP)网络。在其他的示例中,陆地网络830是有线网络、光网络、光纤网路、另一无线网络,和/或它们的组合。陆地网络830可以连接一个或多个陆上通信线电话。可以理解的是,通信网络828和陆地网络830连接无线载波系统与呼叫中心832。
呼叫中心832包括一个或多个语音和/或数据调制解调器834、一个或多个数据交换机838、一个或多个通信业务管理器842、包括用户简档记录和/或用户信息的一个或多个通信业务数据库、一个或多个通信业务顾问864、以及一个或多个网络系统840。
在一个示例中,通信业务数据库包括要下载到车辆802远程信息处理单元120的一个或多个声学模型(图6的602,图6的604),而声学模型包括Lombard电平用户簇(图6的606,图6的610)。
调制解调器834在一个示例中被直接连接至数据交换机838。在另一示例中,调制解调器834经由网络840与数据交换机838进行通信,并连接陆地网络830。调制解调器834通过无线载波系统824、通信网络828和陆地网络830,从呼叫中心832发送语音和/或数据传输,从车辆802中的远程信息处理单元806接收语音和/或数据传输。交换机838经由一个或多个网络系统840,从一个或多个通信业务管理器842接收数据传输,或向一个或多个通信业务管理器842发送数据传输。
呼叫中心832可以包括一个或多个业务顾问846。在一个示例中,业务顾问846可以是人。在另一示例中,业务顾问846可以是自动机。
尽管已经详细描述了若干示例,但是上述说明将被认为是示例性的而非限制性的。

Claims (21)

1.一种语音识别方法,包括如下步骤:
存储词汇集的多个识别模型,每个模型响应于Lombard特征而区别于其他的模型;
检测机动车辆内的至少一个说话者的讲话;
响应于至少一个说话者讲话的Lombard特征,选择多个识别模型中的一个识别模型;
利用所选的识别模型来识别所述至少一个说话者的讲话;以及
响应于所述识别来提供信号。
2.根据权利要求1的方法,其中,所存储的多个识别模型通过如下步骤构造,包括:
录制多人的讲话,其中,录制至少一些具有每个人都听得到的但在讲话录制中不包括的背景噪声的讲话,其中,背景噪声随不同的录制而变化,以便创建语言资料库;
响应于Lombard特征将录制的讲话进行分类,以便创建多个分类。
3.根据权利要求2的方法,其中,所述构造还包括:
将语言资料库中的数据与车辆响应特征进行卷积;
将噪声添加给已卷积的数据;以及
基于添加的结果训练所述多个识别模型,其中每个识别模型对应于多个分类中的一个分类。
4.权利要求3的方法,其中,被添加到卷积数据的噪声表示在车辆不同工作条件下的车辆环境噪声。
5.权利要求2的方法,其中,Lombard特征包括背景噪声的Lombard电平。
6.权利要求1的方法,其中,Lombard特征包括表示与改变背景噪声相关联的说话者讲话的曲线。
7.权利要求1的方法,其中,Lombard特征包括响应于改变背景噪声的说话者讲话的局部曲线。
8.权利要求1的方法,其中,Lombard特征包括说话者在讲话期间听得到的背景噪声电平。
9.权利要求6的方法,其中,所检测的说话者的讲话被存储在存储器中,还包括:
确定多个所检测的说话者讲话的Lombard曲线,其中,选择步骤响应于所确定的Lombard曲线。
10.权利要求1的方法,还包括如果无法获得与至少一个说话者讲话的Lombard特征匹配的模型,就选择默认的模型。
11.权利要求1的方法,还包括向远程站传输响应至少一个说话者讲话的数据,其中,所述选择在远程站执行。
12.权利要求11的方法,其中,所选的识别模型被下载到车载设备。
13.权利要求11的方法,其中,所述识别在远程站执行。
14.权利要求1的方法,其中,所述识别通过车载设备执行。
15.一种语音识别系统,包括:
存储器,其包括词汇集的多个识别模型,每个识别模型响应于Lombard特征而区别于其他的模型;
声音检测设备,其接收至少一个说话者的讲话;
处理设备,其包括被执行的控制结构,以响应于至少一个说话者讲话的Lombard特征而选择多个识别模型中的一个识别模型,利用所选的识别模型识别所述至少一个说话者的讲话,并响应于所述识别来提供信号。
16.权利要求15的系统,其中,所述声音检测设备位于机动车辆内。
17.权利要求15的系统,其中,所述处理设备被集成在机动车辆中。
18.权利要求16的系统,其中,所述处理设备位于远离机动车辆的台站。
19.一种语音识别系统,包括:
词汇录制子系统,用于从多个说话者录制所需词汇的讲话,并将来自录制的讲话的数据存储为语言资料库,其中背景噪声是每个说话者听得到的但不被包含在录制的讲话中;
混合设备,用于将不同的背景音与录制的讲话混合在一起;以及
数据结构,其包括所需词汇的至少两个模型,其中,所述模型响应于混合设备,并且其中,每个模型响应于至少一部分语言资料库的Lombard特征而区别于其他的模型。
20.权利要求19的语音识别系统,其中,所述数据结构的至少一个拷贝位于机动车辆内。
21.权利要求19的语音识别系统,还包括卷积设备,其中,将录制的讲话与表示车辆声波响应的信号卷积在一起,并将其提供给混合设备。
CN2006101396196A 2005-09-27 2006-09-26 语音识别方法和系统 Expired - Fee Related CN1941079B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/235,961 US7729911B2 (en) 2005-09-27 2005-09-27 Speech recognition method and system
US11/235961 2005-09-27

Publications (2)

Publication Number Publication Date
CN1941079A true CN1941079A (zh) 2007-04-04
CN1941079B CN1941079B (zh) 2011-06-08

Family

ID=37895265

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2006101396196A Expired - Fee Related CN1941079B (zh) 2005-09-27 2006-09-26 语音识别方法和系统

Country Status (2)

Country Link
US (1) US7729911B2 (zh)
CN (1) CN1941079B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101354887B (zh) * 2007-07-25 2011-08-03 通用汽车有限责任公司 用在语音识别中的环境噪声注入方法
CN102542705A (zh) * 2010-12-31 2012-07-04 上海博泰悦臻电子设备制造有限公司 语音提醒的方法和系统
CN102667708A (zh) * 2009-12-21 2012-09-12 大陆汽车有限责任公司 用于操作技术装置、特别是机动车的技术装置的方法和装置
CN103632666A (zh) * 2013-11-14 2014-03-12 华为技术有限公司 语音识别方法、语音识别设备和电子设备
CN103811002A (zh) * 2012-11-13 2014-05-21 通用汽车环球科技运作有限责任公司 用于语音系统的调节方法和系统
CN103971675A (zh) * 2013-01-29 2014-08-06 腾讯科技(深圳)有限公司 自动语音识别方法和系统
CN104040620A (zh) * 2011-12-29 2014-09-10 英特尔公司 直接语法存取
CN104036774A (zh) * 2014-06-20 2014-09-10 国家计算机网络与信息安全管理中心 藏语方言识别方法及系统
CN102292766B (zh) * 2009-01-21 2015-07-01 诺基亚公司 用于语音处理的方法和装置
CN105496447A (zh) * 2016-01-15 2016-04-20 厦门大学 具有主动降噪和辅助诊断功能的电子听诊器
CN105513592A (zh) * 2014-10-13 2016-04-20 福特全球技术公司 声学脉冲响应模拟
CN106062868A (zh) * 2014-07-25 2016-10-26 谷歌公司 提供预先计算的热词模型
US9697821B2 (en) 2013-01-29 2017-07-04 Tencent Technology (Shenzhen) Company Limited Method and system for building a topic specific language model for use in automatic speech recognition
CN106992002A (zh) * 2016-01-21 2017-07-28 福特全球技术公司 用于改进含噪语音识别的动态声学模型切换
CN109712608A (zh) * 2019-02-28 2019-05-03 百度在线网络技术(北京)有限公司 多音区唤醒测试方法、装置及存储介质
CN110545396A (zh) * 2019-08-30 2019-12-06 上海依图信息技术有限公司 一种基于定位去噪的语音识别方法及装置

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070136069A1 (en) * 2005-12-13 2007-06-14 General Motors Corporation Method and system for customizing speech recognition in a mobile vehicle communication system
US8626506B2 (en) * 2006-01-20 2014-01-07 General Motors Llc Method and system for dynamic nametag scoring
JP4961807B2 (ja) * 2006-04-05 2012-06-27 株式会社Jvcケンウッド 車載装置、音声情報提供システムおよび発話速度調整方法
US7840287B2 (en) * 2006-04-13 2010-11-23 Fisher-Rosemount Systems, Inc. Robust process model identification in model based control techniques
US7676363B2 (en) * 2006-06-29 2010-03-09 General Motors Llc Automated speech recognition using normalized in-vehicle speech
US7725316B2 (en) * 2006-07-05 2010-05-25 General Motors Llc Applying speech recognition adaptation in an automated speech recognition system of a telematics-equipped vehicle
US7822498B2 (en) * 2006-08-10 2010-10-26 International Business Machines Corporation Using a loudness-level-reference segment of audio to normalize relative audio levels among different audio files when combining content of the audio files
US20080120108A1 (en) * 2006-11-16 2008-05-22 Frank Kao-Ping Soong Multi-space distribution for pattern recognition based on mixed continuous and discrete observations
US8468019B2 (en) * 2008-01-31 2013-06-18 Qnx Software Systems Limited Adaptive noise modeling speech recognition system
KR101239318B1 (ko) * 2008-12-22 2013-03-05 한국전자통신연구원 음질 향상 장치와 음성 인식 시스템 및 방법
US9484027B2 (en) * 2009-12-10 2016-11-01 General Motors Llc Using pitch during speech recognition post-processing to improve recognition accuracy
US8370157B2 (en) * 2010-07-08 2013-02-05 Honeywell International Inc. Aircraft speech recognition and voice training data storage and retrieval methods and apparatus
US8532674B2 (en) * 2010-12-10 2013-09-10 General Motors Llc Method of intelligent vehicle dialing
US9406310B2 (en) * 2012-01-06 2016-08-02 Nissan North America, Inc. Vehicle voice interface system calibration method
CN103295584B (zh) * 2012-02-24 2015-10-14 索尼公司 音声数据检测装置、音声监控系统及其方法
US10051120B2 (en) * 2013-12-20 2018-08-14 Ultratec, Inc. Communication device and methods for use by hearing impaired
DE102015211101A1 (de) * 2015-06-17 2016-12-22 Volkswagen Aktiengesellschaft Spracherkennungssystem sowie Verfahren zum Betreiben eines Spracherkennungssystems mit einer mobilen Einheit und einem externen Server
US9978399B2 (en) * 2015-11-13 2018-05-22 Ford Global Technologies, Llc Method and apparatus for tuning speech recognition systems to accommodate ambient noise
US9959888B2 (en) * 2016-08-11 2018-05-01 Qualcomm Incorporated System and method for detection of the Lombard effect
JP7063779B2 (ja) * 2018-08-31 2022-05-09 国立大学法人京都大学 音声対話システム、音声対話方法、プログラム、学習モデル生成装置及び学習モデル生成方法
EP4048140A4 (en) * 2019-10-25 2024-02-28 Ellipsis Health, Inc. ACOUSTIC AND NATURAL LANGUAGE PROCESSING MODELS FOR VOICE CONTROL SCREENING AND MONITORING OF BEHAVIORAL HEALTH CONDITIONS

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2974423B2 (ja) * 1991-02-13 1999-11-10 シャープ株式会社 ロンバード音声認識方法
US5742928A (en) * 1994-10-28 1998-04-21 Mitsubishi Denki Kabushiki Kaisha Apparatus and method for speech recognition in the presence of unnatural speech effects
DE69635015T2 (de) * 1995-11-17 2006-03-30 At & T Corp. Automatische vokabularerzeugung für auf einem telekommunikationsnetzwerk basierte sprachgesteuerte wahl
US5960397A (en) * 1997-05-27 1999-09-28 At&T Corp System and method of recognizing an acoustic environment to adapt a set of based recognition models to the current acoustic environment for subsequent speech recognition
US5970446A (en) * 1997-11-25 1999-10-19 At&T Corp Selective noise/channel/coding models and recognizers for automatic speech recognition
US6381569B1 (en) * 1998-02-04 2002-04-30 Qualcomm Incorporated Noise-compensated speech recognition templates
US6631348B1 (en) * 2000-08-08 2003-10-07 Intel Corporation Dynamic speech recognition pattern switching for enhanced speech recognition accuracy
US7103549B2 (en) * 2001-03-22 2006-09-05 Intel Corporation Method for improving speech recognition performance using speaker and channel information
US20040107097A1 (en) * 2002-12-02 2004-06-03 General Motors Corporation Method and system for voice recognition through dialect identification
US7392183B2 (en) * 2002-12-27 2008-06-24 Intel Corporation Schedule event context for speech recognition

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101354887B (zh) * 2007-07-25 2011-08-03 通用汽车有限责任公司 用在语音识别中的环境噪声注入方法
CN102292766B (zh) * 2009-01-21 2015-07-01 诺基亚公司 用于语音处理的方法和装置
CN102667708A (zh) * 2009-12-21 2012-09-12 大陆汽车有限责任公司 用于操作技术装置、特别是机动车的技术装置的方法和装置
CN102542705A (zh) * 2010-12-31 2012-07-04 上海博泰悦臻电子设备制造有限公司 语音提醒的方法和系统
CN104040620B (zh) * 2011-12-29 2017-07-14 英特尔公司 用于进行直接语法存取的装置和方法
CN104040620A (zh) * 2011-12-29 2014-09-10 英特尔公司 直接语法存取
CN103811002B (zh) * 2012-11-13 2017-07-18 通用汽车环球科技运作有限责任公司 用于语音系统的调节方法和系统
CN103811002A (zh) * 2012-11-13 2014-05-21 通用汽车环球科技运作有限责任公司 用于语音系统的调节方法和系统
US9601111B2 (en) 2012-11-13 2017-03-21 GM Global Technology Operations LLC Methods and systems for adapting speech systems
WO2014117555A1 (en) * 2013-01-29 2014-08-07 Tencent Technology (Shenzhen) Company Limited Method and system for automatic speech recognition
CN103971675A (zh) * 2013-01-29 2014-08-06 腾讯科技(深圳)有限公司 自动语音识别方法和系统
CN103971675B (zh) * 2013-01-29 2016-03-02 腾讯科技(深圳)有限公司 自动语音识别方法和系统
US9697821B2 (en) 2013-01-29 2017-07-04 Tencent Technology (Shenzhen) Company Limited Method and system for building a topic specific language model for use in automatic speech recognition
US9870771B2 (en) 2013-11-14 2018-01-16 Huawei Technologies Co., Ltd. Environment adaptive speech recognition method and device
CN103632666A (zh) * 2013-11-14 2014-03-12 华为技术有限公司 语音识别方法、语音识别设备和电子设备
CN103632666B (zh) * 2013-11-14 2016-09-28 华为技术有限公司 语音识别方法、语音识别设备和电子设备
CN104036774A (zh) * 2014-06-20 2014-09-10 国家计算机网络与信息安全管理中心 藏语方言识别方法及系统
CN106062868A (zh) * 2014-07-25 2016-10-26 谷歌公司 提供预先计算的热词模型
CN106062868B (zh) * 2014-07-25 2019-10-29 谷歌有限责任公司 提供预先计算的热词模型
CN105513592A (zh) * 2014-10-13 2016-04-20 福特全球技术公司 声学脉冲响应模拟
CN105513592B (zh) * 2014-10-13 2021-02-02 福特全球技术公司 声学脉冲响应模拟
CN105496447A (zh) * 2016-01-15 2016-04-20 厦门大学 具有主动降噪和辅助诊断功能的电子听诊器
CN105496447B (zh) * 2016-01-15 2019-02-05 厦门大学 具有主动降噪和辅助诊断功能的电子听诊器
CN106992002A (zh) * 2016-01-21 2017-07-28 福特全球技术公司 用于改进含噪语音识别的动态声学模型切换
CN109712608A (zh) * 2019-02-28 2019-05-03 百度在线网络技术(北京)有限公司 多音区唤醒测试方法、装置及存储介质
CN110545396A (zh) * 2019-08-30 2019-12-06 上海依图信息技术有限公司 一种基于定位去噪的语音识别方法及装置

Also Published As

Publication number Publication date
CN1941079B (zh) 2011-06-08
US20070073539A1 (en) 2007-03-29
US7729911B2 (en) 2010-06-01

Similar Documents

Publication Publication Date Title
CN1941079B (zh) 语音识别方法和系统
US10380992B2 (en) Natural language generation based on user speech style
CN103208287B (zh) 使用声音相关的车辆信息以增强语音对话的方法和系统
CN103677799B (zh) 用于车辆系统的主观命令控制的方法和设备
CN1236423C (zh) 说话人声音的后台学习
CN106816149A (zh) 车辆自动语音识别系统的优先化内容加载
CN1306472C (zh) 分布式语音识别系统中用于发送语音活动的系统和方法
CN102543077B (zh) 基于语言独立女性语音数据的男性声学模型适应方法
US9082414B2 (en) Correcting unintelligible synthesized speech
CN110660397A (zh) 对话系统、车辆和用于控制车辆的方法
CN110232912A (zh) 语音识别仲裁逻辑
CN103810995B (zh) 用于语音系统的调节方法和系统
US20120330651A1 (en) Voice data transferring device, terminal device, voice data transferring method, and voice recognition system
CN1856820A (zh) 语音识别方法和通信设备
CN110491414A (zh) 使用动态可调监听超时的自动语音识别
CN102693725A (zh) 依赖于文本信息语境的语音识别
CN102097096B (zh) 在语音识别后处理过程中使用音调来改进识别精度
US20060235688A1 (en) System and method of providing telematically user-optimized configurable audio
CN103208284A (zh) 使用声音相关的车辆信息以增强语音识别的方法和系统
CN103208286A (zh) 使用车辆声音信息以增强音频提示的方法和系统
US8626506B2 (en) Method and system for dynamic nametag scoring
CN110348002A (zh) 实现语音请求的系统和方法
CN105609109A (zh) 混合式自动语音识别
US20190147855A1 (en) Neural network for use in speech recognition arbitration
CN106992002A (zh) 用于改进含噪语音识别的动态声学模型切换

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: GENERAL MOTORS CORPORATION

Free format text: FORMER OWNER: MOTORS LIQUIDATION CO., LTD.

Effective date: 20100505

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20100505

Address after: Michigan

Applicant after: General Motors Corp.

Address before: Michigan

Applicant before: Motors Liquidation Co.

C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110608

Termination date: 20210926

CF01 Termination of patent right due to non-payment of annual fee