CN105609105B - 语音识别系统和语音识别方法 - Google Patents
语音识别系统和语音识别方法 Download PDFInfo
- Publication number
- CN105609105B CN105609105B CN201510507683.4A CN201510507683A CN105609105B CN 105609105 B CN105609105 B CN 105609105B CN 201510507683 A CN201510507683 A CN 201510507683A CN 105609105 B CN105609105 B CN 105609105B
- Authority
- CN
- China
- Prior art keywords
- command
- monosyllabic
- speech
- polysyllabic
- mode
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 30
- 239000013598 vector Substances 0.000 claims abstract description 58
- 239000000284 extract Substances 0.000 claims abstract description 12
- 238000005311 autocorrelation function Methods 0.000 claims description 11
- 230000003595 spectral effect Effects 0.000 claims description 11
- 239000000470 constituent Substances 0.000 description 16
- 230000006870 function Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000006866 deterioration Effects 0.000 description 2
- 239000000446 fuel Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010187 selection method Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000002542 deteriorative effect Effects 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 239000003208 petroleum Substances 0.000 description 1
- 230000015541 sensory perception of touch Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephone Function (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种语音识别系统,包括:上下文存储介质,其存储包括多个单音节命令的单音节命令上下文以及存储包括多个多音节命令的多音节命令上下文;语音段检测器,其通过分析具有起始点和结束点的语音段内的语音信号来检测语音段;音节确定器,其配置成确定语音信号是对应于单音节模式还是多音节模式;特征向量提取器,其通过分析语音信号来提取特征向量;以及语音识别器,其根据语音信号是对应于单音节模式还是多音节模式的确定结果,选择单音节命令上下文和多音节命令上下文中的一者,并且基于所提取的特征向量来识别在单音节命令上下文和多音节命令上下文中所选择的一者中的至少一个命令。
Description
技术领域
本公开涉及一种语音识别系统和语音识别方法。
背景技术
人机界面(HMI:human-machine interface)通过视觉、听觉或触觉使用户与机器进行交互。已经尝试在车辆内利用语音识别作为人机界面以便使驾驶者的注意力的转移最小化并且提高便利性。
车辆中语音识别系统能够识别的命令可以包括单音节命令和多音节命令。单音节命令是指由一个音节(例如,“Mom(妈)”,“Home(家)”)构成的词或者由一个双元音(例如,“Joy(欢乐)”)构成的词。由于单音节命令没有足够的信息来识别语音,与多音节命令的语音识别性能相比,单音节命令的语音识别性能下降。
此外,在车辆的嘈杂环境中,语音识别性能的劣化变得更加严重。因为在传统的语音识别系统的情况下不确定语音信号是否对应于单音节命令,所以很难应用专用于单音节命令的语音识别方法。
上述在背景部分公开的信息仅用于对本公开的背景做进一步的理解,因此它可以包含对于该国本领域普通技术人员已知的不构成现有技术的信息。
发明内容
本公开致力于提供一种具有改善用于具有单音节模式的语音信号的识别性能的优点的语音识别系统和语音识别方法。
根据本公开实施方式,一种语音识别系统包括:上下文(context)存储介质,其存储包括多个单音节命令的单音节命令上下文以及存储包括多个多音节命令的多音节命令上下文;语音段检测器,其通过分析具有起始点和结束点的语音段内的语音信号来检测语音段;音节确定器,其配置成确定语音信号是对应于单音节模式(monosyllabic form)还是多音节模式(polysyllabic form);特征向量提取器,其通过分析语音信号来提取特征向量;以及语音识别器,其根据语音信号是对应于单音节模式还是多音节模式的确定结果,选择单音节命令上下文和多音节命令上下文中的一者,并且基于所提取的特征向量来识别在单音节命令上下文和多音节命令上下文中所选择的一者中的至少一个命令。
上述音节确定器可以包括:元音/辅音检测器,其从语音信号中检测元音和辅音;组合计算器,其计算元音和辅音的组合的数量;以及比较器,其将该组合的数量与预定数量进行比较。
上述元音/辅音检测器可以利用语音信号的能量、语音信号的过零率(zerocrossing rate)、语音信号的自相关函数(auto-correlation function)、语音信号的基频和语音信号的频谱倾斜(spectral tilt)中的至少一个来检测元音和辅音。
上述语音识别系统还可以包括存储用于语音识别的声学模型(acoustic model)的声学模型存储介质,其中当音节确定器确定出语音信号对应于单音节模式时,上述语音识别器可以基于所提取的特征向量,利用单音节命令上下文和声学模型来识别至少一个命令,并且当音节确定器确定出语音信号对应于多音节模式时,上述语音识别器可以基于所提取的特征向量,利用多音节命令上下文和声学模型来识别至少一个命令。
上述语音识别系统还可以包括:声学模型存储介质,其存储用于语音识别的声学模型;以及识别结果处理器,其执行对应于所识别的命令的功能。
此外,根据本公开的实施方式,一种语音识别系统包括:上下文存储介质,其存储包括多个单音节命令的单音节命令上下文以及存储包括多个多音节命令的多音节命令上下文;语音段检测器,其通过分析具有起始点和结束点的语音段内的语音信号来检测所述语音段;音节确定器,其配置成确定语音信号是对应于单音节模式还是多音节模式;特征向量提取器,其通过分析语音信号来提取特征向量;语音识别器,其基于所提取的特征向量来计算各单音节命令的初始置信度分数(confidence scores)和各多音节命令的初始置信度分数;权重值设置器,其根据语音信号是对应于单音节模式还是多音节模式的确定结果,设置施加于各单音节命令的初始置信度分数的第一权重值和施加于各多音节命令的初始置信度分数的第二权重值;以及权重值施加器,其通过将第一权重值施加于各单音节命令的初始置信度分数来计算各单音节命令的最终置信度分数,并且通过将第二权重值施加于各多音节命令的初始置信度分数来计算各多音节命令的最终置信度分数。
上述音节确定器可以包括:元音/辅音检测器,其从语音信号中检测元音和辅音;组合计算器,其计算元音和辅音的组合的数量;以及比较器,其将该组合的数量与预定数量进行比较。
上述元音/辅音检测器可以利用语音信号的能量、语音信号的过零率、语音信号的自相关函数、语音信号的基频和语音信号的频谱倾斜中的至少一个来检测元音和辅音。
上述语音识别系统还可以包括识别结果处理器,其基于各单音节命令的最终置信度分数和各多音节命令的最终置信度分数来选择具有最高的最终置信度分数的命令。
当上述音节确定器确定出语音信号对应于单音节模式时,上述权重值设置器可以将第一权重值设置为大于第二权重值。
当上述音节确定器确定出语音信号对应于多音节模式时,上述权重值设置器可以将第二权重值设置为大于第一权重值。
此外,根据本公开的实施方式,一种识别方法包括以下步骤:通过分析具有起始点和结束点的语音段内的语音信号来检测所述语音段;确定语音信号是对应于单音节模式还是多音节模式;通过分析语音信号来提取特征向量;当语音信号对应于单音节模式时,选择包括多个单音节命令的单音节命令上下文,并且基于所提取的特征向量,利用单音节命令上下文来识别至少一个命令;以及当语音信号对应于多音节模式时,选择包括多个多音节命令的多音节命令上下文,并且基于所提取的特征向量,利用多音节命令上下文来识别至少一个命令。
上述确定语音信号是对应于单音节模式还是多音节模式的步骤可以包括:从语音信号中检测元音和辅音;计算元音和辅音的组合的数量;以及将该组合的数量与预定数量进行比较。
上述从语音信号中检测元音和辅音的步骤可以包括:利用语音信号的能量、语音信号的过零率、语音信号的自相关函数、语音信号的基频和语音信号的频谱倾斜中的至少一个来检测元音和辅音。
此外,根据本公开的实施方式,一种语音识别方法包括以下步骤:通过分析具有起始点和结束点的语音段内的语音信号来检测所述语音段;确定语音信号是对应于单音节模式还是多音节模式;通过分析语音信号来提取特征向量;基于所提取的特征向量来计算包括在单音节命令上下文中的各单音节命令的初始置信度分数和包括在多音节命令上下文中的各多音节命令的初始置信度分数;根据语音信号是对应于单音节模式还是多音节模式的确定结果,设置施加于各单音节命令的初始置信度分数的第一权重值和施加于各多音节命令的初始置信度分数的第二权重值;以及通过将第一权重值施加于各单音节命令的初始置信度分数来计算各单音节命令的最终置信度分数,并且通过将第二权重值施加于各多音节命令的初始置信度分数来计算各多音节命令的最终置信度分数。
上述确定语音信号是对应于单音节模式还是多音节模式的步骤可以包括:从语音信号中检测元音和辅音;计算元音和辅音的组合的数量;以及将该组合的数量与预定数量进行比较。
上述从语音信号中检测元音和辅音的步骤可以包括:利用语音信号的能量、语音信号的过零率、语音信号的自相关函数、语音信号的基频和语音信号的频谱倾斜中的至少一个来检测元音和辅音。
上述语音识别方法还可以包括以下步骤:基于各单音节命令的最终置信度分数和各多音节命令的最终置信度分数来选择具有最高的最终置信度分数的命令。
上述设置第一权重值和第二权重值的步骤可以包括:当语音信号对应于单音节模式时,将第一权重值设置为大于第二权重值;以及当语音信号对应于多音节模式时,将第二权重值设置为大于第一权重值。
附图说明
图1是根据本公开的第一示例性实施方式的语音识别系统的框图。
图2是根据本公开的第一示例性实施方式的音节确定器的框图。
图3是根据本公开的第一示例性实施方式的语音识别方法的流程图。
图4是根据本公开的第二示例性实施方式的语音识别系统的框图。
图5是根据本公开的第二示例性实施方式的语音识别方法的流程图。
<附图标记说明>
110:上下文存储介质 111:单音节命令上下文
112:多音节命令上下文 120:声学模型存储介质
130:语音段检测器 140:音节确定器
141:元音/辅音检测器 142:组合计算器
143:比较器 150:特征向量提取器
160:语音识别器 170:识别结果处理器
210:上下文存储介质 211:单音节命令上下文
212:多音节命令上下文 220:声学模型存储介质
230:语音段检测器 240:音节确定器
250:特征向量检测器 260:语音识别器
270:识别结果处理器 280:权重值设置器
290:权重值施加器
具体实施方式
本公开将在下文中参考附图进行详细的描述。然而,本公开并不局限于文中所描述的实施方式,并且能够以其他形式来体现。为了清楚地描述本公开,与所描述的内容无关的部分将被省略,并且相同或相似的附图标记通篇指代相同或相似的组成元件。
本文使用的术语仅出于说明具体实施方式的目的,而不意在限制当前公开。如本文所使用的,单数形式“一个”、“一种”、“该”也意在包括复数形式,除非上下文中另外明确指明。还应当理解,当一个元件被描述为“耦合”到另一元件时,该元件可以“直接耦合”到另一元件,或者通过第三元件“间接耦合”到另一元件。此外,除非明确地描述为相反的,否则词语“包括”及其变化如“包含”或“具有”将被理解为表示包含所述的元件,但不排除其他任何元件。
应该理解的是,本文中使用的术语“车辆”、“车辆的”或其他类似术语包括一般的机动车辆,比如包含多功能运动车(SUV)、公共汽车、卡车、各种商业车辆的客运汽车、包括各种轮船和舰船的船只、飞机等,还包括混合动力车、电动车、插电式混合动力电动车、氢动力车和其它替代燃料车辆(例如,燃料是从非石油资源中提炼出来的)。如本文所述,混合动力车是具有两种或多种动力源的车辆,例如同时具有汽油动力和电动力的车辆。
此外,应当理解一个或多个以下方法或其方面可以通过至少一个控制单元执行。术语“控制单元”可以指代包括存储器和处理器的硬件设备。存储器配置成存储程序指令,而处理器具体配置成执行程序指令以执行将在以下进一步描述的一个或更多进程。而且,应当理解,正如本领域普通技术人员将意识到的,以下方法可以通过包括控制单元的装置并结合一个或多个其他部件来执行。
下文中,参考图1到图3,对本公开的第一示例性实施方式的语音识别系统和语音识别方法进行详细的描述。
图1是根据本公开的第一示例性实施方式的语音识别系统的框图,以及图2是根据本公开的第一示例性实施方式的音节确定器的框图。
如图1所示,根据本公开的第一示例性实施方式的语音识别系统包括上下文存储介质110、声学模型存储介质120、语音段检测器130、音节确定器140、特征向量提取器150、语音识别器160和识别结果处理器170。当组成元件在实际应用中被实施时,如果配置需要,两个或多个组成元件可以被集成到一个组成元件中,或者一个组成元件可以被拆分成两个或多个组成元件。
上述上下文存储介质110可以存储作为用于识别语音的参考的命令作为上下文信息。该上下文存储介质110可以存储单音节命令上下文111和多音节命令上下文112。该单音节命令上下文111可以包括多个单音节命令,其是用于识别具有单音节模式(例如“Mom(妈)”、“Home(家)”和“Call(呼叫)”)的语音的参考。多个单音节命令中的每一个包括一个音节或一个双元音。该多音节命令上下文112可以包括多个多音节命令,其是用于识别具有多音节模式(例如“Find address(寻找地址)”、“Radio(无线电)”和“Play music(播放音乐)”)的语音的参考。多个多音节命令中的每一个包括多个音节或多个双元音。
上述声学模型存储介质120存储用于语音识别的声学模型。声学模型用于表示语音的属性。对于本领域普通技术人员来说,上述声学模型是显而易见的,因此对其详细的描述将被省略。虽然图1示例性地示出上下文存储介质110和声学模型存储介质120被实现为两个存储介质,但本公开的实施方式不限于此。根据本公开的一些实施方式,上述上下文存储介质110和声学模型存储介质120可以被实现为一个存储介质。
上述语音段检测器130通过分析由声音输入装置如麦克风接收到的语音信号来检测具有起始点和结束点的语音段。根据本公开的第一示例性实施方式的语音识别系统还可以包括预处理器(未示出),其配置成在语音信号输入到语音段检测器130之前,去除语音信号的噪声分量。如果由语音段检测器130检测到语音段,音节确定器140可以通过分析语音信号来确定语音段中的语音信号是对应于单音节模式还是多音节模式。
如图2所示,根据本公开的第一示例性实施方式的音节确定器140可以包括元音/辅音检测器141、组合计算器142和比较器143。
上述元音/辅音检测器141通过关于发音分析语音段内的语音信号来检测元音和辅音。该元音/辅音检测器141可以通过利用语音信号的能量、过零率、自相关函数、基频和频谱倾斜来检测元音和辅音。元音与辅音相比具有相对高的能量,并且元音的过零率比辅音的低。此外,元音的自相关函数具有周期性特征,元音的基频的带宽(例如,约80至260Hz)与辅音相比是有限的,以及元音的频谱倾斜比辅音的大。
上述组合计算器142根据元音/辅音检测器141的检测结果来计算元音和辅音的组合的数量。
上述比较器143可以基于由组合计算器142计算出的元音和辅音的组合的数量来确定语音段中的语音信号是对应于单音节模式还是多音节模式。特别是,该比较器143可以将该组合的数量与预定数量进行比较。该预定数量可以被设置成由本领域普通技术人员确定的值,以确定语音信号是否对应于单音节模式。如果由组合计算器142计算出的组合的数量小于该预定数量,则该比较器143可以确定语音段中的语音信号对应于单音节模式。如果由组合计算器142计算出的组合的数量大于或等于该预定数量,比较器143可以确定语音段中的语音信号对应于多音节模式。
上述特征向量提取器150通过分析由语音段检测器130检测到的语音信号来提取特征向量。当特征向量提取器150提取特征向量时,语音识别器160基于存储在声学模型存储介质120中的声学模型和存储在上下文存储介质110中的上下文信息,利用特征向量来识别至少一个命令。此外,语音识别器160可以计算表示各命令的语音识别置信度的置信度分数。
上述语音识别器160可以根据音节确定器140的确定结果来选择单音节命令上下文111和多音节命令上下文112中的一个。如果音节确定器140确定出语音信号对应于单音节模式,语音识别器160可以选择单音节命令上下文111来执行语音识别。如果音节确定器140确定出语音信号对应于多音节模式,语音识别器160可以选择多音节命令上下文112来执行语音识别。
上述识别结果处理器170从语音识别器160接收语音识别结果以处理语音识别结果。例如,该识别结果处理器170能够以置信度分数的降序排序来排列由语音识别器160识别的命令,可以通过显示装置显示排列过的命令,并且可以执行对应于所识别的命令的功能(例如,呼叫功能或路径引导功能)。
图3是根据本公开的第一示例性实施方式的语音识别方法的流程图。
如图3所示,上述语音段检测器130在步骤S100中,通过声音输入装置如麦克风来接收语音信号,并且在步骤S110中通过分析语音信号来检测具有起始点和结束点的语音段。
在步骤S120中,上述特征向量提取器150通过分析由语音段检测器130检测到的语音信号来提取特征向量,并且将特征向量发送到语音识别器160。
在步骤S130中上述音节确定器140确定语音信号是对应于单音节模式还是多音节模式。该音节确定器140可以通过分析语音段内的语音信号来检测元音和辅音,可以计算元音和辅音的组合的数量,以及可以根据该组合的数量来确定语音信号是对应于单音节模式还是多音节模式。
如果在步骤S130中语音信号对应于单音节模式,则上述语音识别器160可以选择单音节命令上下文111。在这种情况下,在步骤S140中该语音识别器160可以基于所提取的特征向量,利用单音节命令上下文111和存储在声学模型存储介质120中的声学模型来识别至少一个命令。
相反的,如果在步骤S130中语音信号对应于多音节模式,则上述语音识别器160可以选择多音节命令上下文112。在这种情况下,在步骤S150中,该语音识别器160可以基于所提取的特征向量,利用多音节命令上下文112和存储在声学模型存储介质120中的声学模型来识别至少一个命令。
当语音识别在步骤S140或S150中被成功执行时,在步骤S160中,上述识别结果处理器170可以通过显示装置显示至少一个由语音识别器160识别出的命令,或者可以通过执行对应于所识别的命令的功能来向用户如驾驶者提供语音识别结果。
如上所述,根据本公开的第一示例性实施方式的语音识别系统在执行语音识别之前确定语音段中的语音信号是否对应于单音节模式,并且如果确定语音信号对应于单音节模式,则利用单音节命令上下文111来执行语音识别。因此,单音节命令的语音识别成功率可以被改善,从而使得由语音识别失败引起的驾驶者的注意力转移最小化。
下文中,参考图4和图5,对本公开的第二示例性实施方式的语音识别系统和语音识别方法进行详细的描述。
图4是根据本公开的第二示例性实施方式的语音识别系统的框图。
如图4所示,根据本公开的第二示例性实施方式的语音识别系统包括:上下文存储介质210、声学模型存储介质220、语音段检测器230、音节确定器240、特征向量提取器250、语音识别器260和识别结果处理器270。根据本公开的第二示例性实施方式的语音识别系统与根据本公开的第一示例性实施方式的语音识别系统是相似的,除了还包括权重值设置器280和权重值施加器290以外。当组成元件在实际应用中被实施时,如果配置需要,两个或多个组成元件可以被集成到一个组成元件中,或者一个组成元件可以被拆分成两个或多个组成元件。
下文中,在根据本公开的第二示例性实施方式的语音识别系统的组成元件中,与根据本公开的第一示例性实施方式的语音识别系统的组成元件相同或相似的组成元件的详细描述将被省略。
上述上下文存储介质210可以存储作为用于识别语音的参考的命令作为上下文信息。该上下文存储介质210可以存储单音节命令上下文211和多音节命令上下文212。该单音节命令上下文211可以存储多个单音节命令,其是用于识别具有单音节模式的语音的参考。多个单音节命令中的每一个包括一个音节或一个双元音。该多音节命令上下文212可以存储多个多音节命令,其是用于识别具有多音节模式的语音的参考。多个多音节命令中的每一个包括多个音节或多个双元音。
上述声学模型存储介质220存储用于语音识别的声学模型。该声学模型用于表示语音的属性。对于本领域普通技术人员来说,上述声学模型是显而易见的,因此对其详细的描述将被省略。虽然图4示例性的示出上下文存储介质210和声学模型存储介质220被实现为两个存储介质,但本公开的实施方式不限于此。根据本公开的一些实施方式,上述上下文存储介质210和声学模型存储介质220可以被实现为一个存储介质。
上述语音段检测器230通过分析由声音输入装置如麦克风接收到的语音信号来检测具有起始点和结束点的语音段。根据本公开的第二示例性实施方式的语音识别系统还可以包括预处理器(未示出),其配置成在语音信号输入到语音段检测器230之前,去除语音信号的噪声分量。
如果由语音段检测器230检测到语音段,则上述音节确定器240可以通过分析语音信号来确定语音段中的语音信号是对应于单音节模式还是多音节模式。该音节确定器240可以通过分析语音段中的语音信号来检测元音和辅音。该音节确定器240可以基于元音和辅音的组合的数量来确定语音段中的语音信号是对应于单音节模式还是多音节模式。如果组合的数量小于预定数量,该音节确定器240可以确定语音信号对应于单音节模式。
上述特征向量提取器250通过分析由语音段检测器230检测到的语音信号来提取特征向量。当特征向量提取器250提取特征向量时,语音识别器260从特征向量识别至少一个命令。
上述语音识别器260可以根据提取的特征向量和声学模型来计算存储在单音节命令上下文211中的各单音节命令的初始置信度分数。此外,该语音识别器260可以根据提取的特征向量和声学模型来计算存储在多音节命令上下文212中的各多音节命令的初始置信度分数。各单音节命令的初始置信度分数和各多音节命令的初始置信度分数可以从语音识别器260发送到权重值施加器290。上述权重值设置器280根据音节确定器240的确定结果来设置权重值以将其施加于初始置信度分数。
如果上述音节确定器240确定出语音段中的语音信号对应于单音节模式,上述权重值设置器280可以将施加于各单音节命令的初始置信度分数的第一权重值设置成大于施加于各多音节命令的初始置信度分数的第二权重值。例如,第一权重值可以设置为0.5和1之间的值K(即,0.5<K<1),以及第二权重值可以设置为值1-K。
相反的,如果上述音节确定器240确定出语音段中的语音信号对应于多音节模式,该权重值设置器280可以将施加于各多音节命令的初始置信度分数的第二权重值设置成大于施加于各单音节命令的初始置信度分数的第一权重值。例如,第一权重值可以设置为0和0.5之间的值K(即,0<k<0.5),以及第二权重值可以设置为值1-K。
如果从语音识别器260接收到各单音节命令的初始置信度分数和各多音节命令的初始置信度分数,则权重值施加器290可以通过将由权重值设置器280设置的权重值施加于初始置信度分数来计算最终置信度分数。即,该权重值施加器290可以通过将各单音节命令的初始置信度分数乘以第一权重值(K)来计算各单音节命令的最终置信度分数,以及通过将各多音节命令的初始置信度分数乘以第二权重值(1-K)来计算各多音节命令的最终置信度分数。
上述识别结果处理器270基于各单音节命令的最终置信度分数和各多音节命令的最终置信度分数来向用户如驾驶者提供最终语音识别结果。该识别结果处理器270能够以最终置信度分数的降序排序来排列命令,可以通过显示装置显示排列过的命令,并且可以通过利用N-最佳选择方法(N-best selection method)来选择具有最高的最终置信度分数的命令。该识别结果处理器270可以执行对应于具有最高的最终置信度分数的命令的功能。
图5是根据本公开的第二示例性实施方式的语音识别方法的流程图。
如图5所示,上述语音段检测器230在步骤S200中通过声音输入装置如麦克风来接收语音信号,并且在步骤S210中通过分析语音信号来检测具有起始点和结束点的语音段。
在步骤S220中上述特征向量提取器250通过分析由语音段检测器230检测到的语音信号来提取特征向量,并且将特征向量发送到语音识别器260。
当上述特征向量提取器250提取出特征向量时,在步骤S230中上述语音识别器260可以基于该特征向量来计算初始置信度分数。
上述语音识别器260可以基于所提取的特征向量和存储在声学模型存储介质220中的声学模型来计算存储在单音节命令上下文211中的各单音节命令的初始置信度分数。另外,上述语音识别器260可以基于所提取的特征向量和声学模型来计算存储在多音节命令上下文212中的各多音节命令的初始置信度分数。各单音节命令的初始置信度分数和各多音节命令的初始置信度分数可以从语音识别器260发送到权重值施加器290。
如果从上述语音识别器260接收到各单音节命令的初始置信度分数和各多音节命令的初始置信度分数,则在步骤S240中上述权重值施加器290可以通过将权重值施加于初始置信度分数来计算最终置信度分数。
施加于初始置信度分数的权重值可以由权重值设置器280来设置。该权重值设置器280根据音节确定器240的确定结果来设置要施加于初始置信度分数的权重值。如果该音节确定器240确定出语音信号对应于单音节模式,则该权重值设置器280可以将施加于各单音节命令的初始置信度分数的第一权重值设置为大于施加于各多音节命令的初始置信度分数的第二权重值。反之,如果该音节确定器240确定出语音信号对应于多音节模式,则该权重值设置器280可以将施加于各多音节命令的初始置信度分数的第二权重值设置为大于施加于各单音节命令的初始置信度分数的第一权重值。
在步骤S250中,上述识别结果处理器270基于各单音节命令的最终置信度分数和各多音节命令的最终置信度分数来向用户提供最终语音识别结果。该识别结果处理器270能够以最终置信度分数的降序排序来排列命令,并且可以通过利用N-最佳选择方法来选择具有最高的最终置信度分数的命令。该识别结果处理器270可以执行对应于具有最高的最终置信度分数的命令的功能。
根据上述本公开的第一示例性实施方式,在确定音节模式的过程中发生错误时,错误的上下文信息可能被使用,因此声音识别性能可能劣化。
相反,根据本公开的第二示例性实施方式,为了最小化由于错误导致的语音识别性能的劣化,根据音节确定器240的确定结果使得权重值可以被改变,并且最终置信度分数可以通过将权重值施加于初始置信度分数来计算。
本公开的组成元件可以是存储在计算机可读记录介质上的代码段。计算机可读记录装置可以是ROM、RAM、CD-ROM、DVD_ROM、DVD_RAM、磁带、软盘、硬盘以及光学数据存储设备。此外,计算机可读记录介质可以存储并执行被划分在连接到网络的计算机上且可以被计算机分开读取的代码。
作为本公开示例的上文涉及的附图和本公开的详细描述,用于解释本公开,但不限制权利要求中描述的本公开的含义或范围。因此,本领域技术人员可以很容易地从上面的描述中实现修改。此外,本领域技术人员可以删除一些本文描述的组成元件而不使性能劣化,或者可以添加其它的组成元件以提高性能。此外,本领域技术人员可以根据工艺或设备的环境来改变本文描述的方法的步骤的顺序。因此,本公开的范围不应该由上文描述的实施方式来确定,而是由权利要求及其等同形式来确定。
尽管本公开结合目前被认为是可实现的实施方式已经进行了描述,但是应当理解本公开并不限于所公开的实施方式,而相反的,意在覆盖包括在所附权利要求的精神和范围内的各种修改和等同配置。
Claims (19)
1.一种语音识别系统,包括:
上下文存储介质,其存储包括多个单音节命令的单音节命令上下文以及存储包括多个多音节命令的多音节命令上下文;
语音段检测器,其通过分析具有起始点和结束点的语音段内的语音信号来检测所述语音段;
音节确定器,其配置成确定语音信号是对应于单音节模式还是多音节模式;
特征向量提取器,其通过分析语音信号来提取特征向量;以及
语音识别器,其根据语音信号是对应于单音节模式还是多音节模式的确定结果,选择单音节命令上下文和多音节命令上下文中的一者,并且基于所提取的特征向量来识别在单音节命令上下文和多音节命令上下文中所选择的一者中的至少一个命令。
2.如权利要求1所述的语音识别系统,其中所述音节确定器包括:
元音/辅音检测器,其从语音信号中检测元音和辅音;
组合计算器,其计算元音和辅音的组合的数量;以及
比较器,其将所述组合的数量与预定数量进行比较。
3.如权利要求2所述的语音识别系统,其中所述元音/辅音检测器利用语音信号的能量、语音信号的过零率、语音信号的自相关函数、语音信号的基频和语音信号的频谱倾斜中的至少一个来检测元音和辅音。
4.如权利要求1所述的语音识别系统,还包括存储用于语音识别的声学模型的声学模型存储介质,其中
当所述音节确定器确定出语音信号对应于单音节模式时,所述语音识别器基于所提取的特征向量,利用单音节命令上下文和声学模型来识别至少一个命令,并且
当所述音节确定器确定出语音信号对应于多音节模式时,所述语音识别器基于所提取的特征向量,利用多音节命令上下文和声学模型来识别至少一个命令。
5.如权利要求1所述的语音识别系统,还包括:
声学模型存储介质,其存储用于语音识别的声学模型;以及
识别结果处理器,其执行对应于至少一个所识别的命令的功能。
6.一种语音识别系统,包括:
上下文存储介质,其存储包括多个单音节命令的单音节命令上下文以及存储包括多个多音节命令的多音节命令上下文;
语音段检测器,其通过分析具有起始点和结束点的语音段内的语音信号来检测所述语音段;
音节确定器,其配置成确定语音信号是对应于单音节模式还是多音节模式;
特征向量提取器,其通过分析语音信号来提取特征向量;
语音识别器,其基于所提取的特征向量来计算各单音节命令的初始置信度分数和各多音节命令的初始置信度分数;
权重值设置器,其根据语音信号是对应于单音节模式还是多音节模式的确定结果,设置施加于各单音节命令的初始置信度分数的第一权重值和施加于各多音节命令的初始置信度分数的第二权重值;以及
权重值施加器,其通过将第一权重值施加于各单音节命令的初始置信度分数来计算各单音节命令的最终置信度分数,并且通过将第二权重值施加于各多音节命令的初始置信度分数来计算各多音节命令的最终置信度分数。
7.如权利要求6所述的语音识别系统,其中所述音节确定器包括:
元音/辅音检测器,其从语音信号中检测元音和辅音;
组合计算器,其计算元音和辅音的组合的数量;以及
比较器,其将所述组合的数量与预定数量进行比较。
8.如权利要求7所述的语音识别系统,其中所述元音/辅音检测器利用语音信号的能量、语音信号的过零率、语音信号的自相关函数、语音信号的基频和语音信号的频谱倾斜中的至少一个来检测元音和辅音。
9.如权利要求6所述的语音识别系统,还包括:
识别结果处理器,其基于各单音节命令的最终置信度分数和各多音节命令的最终置信度分数来选择具有最高的最终置信度分数的命令。
10.如权利要求6所述的语音识别系统,其中:
当所述音节确定器确定出语音信号对应于单音节模式时,所述权重值设置器将第一权重值设置为大于第二权重值。
11.如权利要求9所述的语音识别系统,其中:
当所述音节确定器确定出语音信号对应于多音节模式时,所述权重值设置器将第二权重值设置为大于第一权重值。
12.一种语音识别方法,所述语音识别方法包括以下步骤:
通过分析具有起始点和结束点的语音段内的语音信号来检测所述语音段;
确定语音信号是对应于单音节模式还是多音节模式;
通过分析语音信号来提取特征向量;
当语音信号对应于单音节模式时,选择包括多个单音节命令的单音节命令上下文,并且基于所提取的特征向量,利用单音节命令上下文来识别至少一个命令;以及
当语音信号对应于多音节模式时,选择包括多个多音节命令的多音节命令上下文,并且基于所提取的特征向量,利用多音节命令上下文来识别至少一个命令。
13.如权利要求12所述的语音识别方法,其中确定语音信号是对应于单音节模式还是多音节模式的步骤包括:
从语音信号中检测元音和辅音;
计算元音和辅音的组合的数量;以及
将所述组合的数量与预定数量进行比较。
14.如权利要求13所述的语音识别方法,其中所述从语音信号中检测元音和辅音的步骤包括:
利用语音信号的能量、语音信号的过零率、语音信号的自相关函数、语音信号的基频和语音信号的频谱倾斜中的至少一个来检测元音和辅音。
15.一种语音识别方法,所述语音识别方法包括以下步骤:
通过分析具有起始点和结束点的语音段内的语音信号来检测语音段;
确定语音信号是对应于单音节模式还是多音节模式;
通过分析语音信号来提取特征向量;
基于所提取的特征向量来计算包括在单音节命令上下文中的各单音节命令的初始置信度分数和包括在多音节命令上下文中的各多音节命令的初始置信度分数;
根据语音信号是对应于单音节模式还是多音节模式的确定结果,设置施加于各单音节命令的初始置信度分数的第一权重值和施加于各多音节命令的初始置信度分数的第二权重值;以及
通过将第一权重值施加于各单音节命令的初始置信度分数来计算各单音节命令的最终置信度分数,并且通过将第二权重值施加于各多音节命令的初始置信度分数来计算各多音节命令的最终置信度分数。
16.如权利要求15所述的语音识别方法,其中确定语音信号是对应于单音节模式还是多音节模式的步骤包括:
从语音信号中检测元音和辅音;
计算元音和辅音的组合的数量;以及
将所述组合的数量与预定数量进行比较。
17.如权利要求16所述的语音识别方法,其中从语音信号中检测元音和辅音的步骤包括:
利用语音信号的能量、语音信号的过零率、语音信号的自相关函数、语音信号的基频和语音信号的频谱倾斜中的至少一个来检测元音和辅音。
18.如权利要求15所述的语音识别方法,所述语音识别方法还包括以下步骤:
基于各单音节命令的最终置信度分数和各多音节命令的最终置信度分数来选择具有最高的最终置信度分数的命令。
19.如权利要求15所述的语音识别方法,其中设置第一权重值和第二权重值的步骤包括:
当语音信号对应于单音节模式时,将第一权重值设置为大于第二权重值;以及
当语音信号对应于多音节模式时,将第二权重值设置为大于第一权重值。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2014-0158158 | 2014-11-13 | ||
KR20140158158 | 2014-11-13 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105609105A CN105609105A (zh) | 2016-05-25 |
CN105609105B true CN105609105B (zh) | 2020-09-11 |
Family
ID=55450196
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510507683.4A Active CN105609105B (zh) | 2014-11-13 | 2015-08-18 | 语音识别系统和语音识别方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US9286888B1 (zh) |
CN (1) | CN105609105B (zh) |
DE (1) | DE102015214250B4 (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9570069B2 (en) * | 2014-09-09 | 2017-02-14 | Disney Enterprises, Inc. | Sectioned memory networks for online word-spotting in continuous speech |
US10048936B2 (en) * | 2015-08-31 | 2018-08-14 | Roku, Inc. | Audio command interface for a multimedia device |
KR20180080446A (ko) * | 2017-01-04 | 2018-07-12 | 삼성전자주식회사 | 음성 인식 방법 및 음성 인식 장치 |
US20200075044A1 (en) * | 2018-08-31 | 2020-03-05 | CloudMinds Technology, Inc. | System and method for performing multi-model automatic speech recognition in challenging acoustic environments |
CN109616111B (zh) * | 2018-12-24 | 2023-03-14 | 北京恒泰实达科技股份有限公司 | 一种基于语音识别的场景交互控制方法 |
CN112669848B (zh) * | 2020-12-14 | 2023-12-01 | 深圳市优必选科技股份有限公司 | 一种离线语音识别方法、装置、电子设备及存储介质 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5972496A (ja) * | 1982-10-19 | 1984-04-24 | 株式会社東芝 | 単音識別装置 |
DE19610848A1 (de) * | 1996-03-19 | 1997-09-25 | Siemens Ag | Rechnereinheit zur Spracherkennung und Verfahren zur rechnergestützten Abbildung eines digitalisierten Sprachsignals auf Phoneme |
KR19990056308A (ko) | 1997-12-29 | 1999-07-15 | 김영환 | 음성의 음절수 비교에 의한 음성 인식방법 및 그 장치 |
JP2001166789A (ja) * | 1999-12-10 | 2001-06-22 | Matsushita Electric Ind Co Ltd | 初頭/末尾の音素類似度ベクトルによる中国語の音声認識方法及びその装置 |
CN1177312C (zh) * | 2000-09-13 | 2004-11-24 | 中国科学院自动化研究所 | 多种语音工作模式的统一识别方法 |
KR100391123B1 (ko) * | 2001-01-30 | 2003-07-12 | 이태성 | 피치 단위 데이터 분석을 이용한 음성인식 방법 및 시스템 |
KR101008022B1 (ko) | 2004-02-10 | 2011-01-14 | 삼성전자주식회사 | 유성음 및 무성음 검출방법 및 장치 |
JP2006010739A (ja) | 2004-06-22 | 2006-01-12 | Toyota Central Res & Dev Lab Inc | 音声認識装置 |
JP2010097073A (ja) | 2008-10-17 | 2010-04-30 | Hoan Denshi Tsushin Gijutsu Kyokai | 音声認識装置、音声認識システム、盗難車検索システム及び音声認識プログラム |
KR101710002B1 (ko) | 2010-10-22 | 2017-02-27 | 한국전자통신연구원 | 음성 인식 시스템 |
-
2015
- 2015-06-22 US US14/745,645 patent/US9286888B1/en active Active
- 2015-07-28 DE DE102015214250.7A patent/DE102015214250B4/de active Active
- 2015-08-18 CN CN201510507683.4A patent/CN105609105B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
DE102015214250B4 (de) | 2021-10-28 |
DE102015214250A1 (de) | 2016-05-19 |
US9286888B1 (en) | 2016-03-15 |
CN105609105A (zh) | 2016-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105609105B (zh) | 语音识别系统和语音识别方法 | |
KR102339594B1 (ko) | 객체 인식 방법, 컴퓨터 디바이스 및 컴퓨터 판독 가능 저장 매체 | |
EP3107091B1 (en) | Voiceprint authentication method and apparatus | |
US8005673B2 (en) | Voice recognition device, voice recognition method, and voice recognition program | |
JP3920097B2 (ja) | 車載機器用音声認識装置 | |
CN105529026B (zh) | 语音识别装置和语音识别方法 | |
US9159319B1 (en) | Keyword spotting with competitor models | |
JP4709663B2 (ja) | ユーザ適応型の音声認識方法及び音声認識装置 | |
WO2013005248A1 (ja) | 音声認識装置およびナビゲーション装置 | |
US9202459B2 (en) | Methods and systems for managing dialog of speech systems | |
US20170294188A1 (en) | Apparatus, method for voice recognition, and non-transitory computer-readable storage medium | |
US9685157B2 (en) | Vehicle and control method thereof | |
JP2002041085A (ja) | 音声認識装置及び記録媒体 | |
US20230102157A1 (en) | Contextual utterance resolution in multimodal systems | |
US20210183362A1 (en) | Information processing device, information processing method, and computer-readable storage medium | |
US20120078622A1 (en) | Spoken dialogue apparatus, spoken dialogue method and computer program product for spoken dialogue | |
CN105047196A (zh) | 语音识别系统中的语音假象补偿系统和方法 | |
CN110580901B (zh) | 语音识别设备、包括该设备的车辆及该车辆控制方法 | |
JP2009230068A (ja) | 音声認識装置及びナビゲーションシステム | |
KR102417899B1 (ko) | 차량의 음성인식 시스템 및 방법 | |
JP2003509705A (ja) | 音声認識方法および音声認識装置 | |
CN112863496B (zh) | 一种语音端点检测方法以及装置 | |
US10522141B2 (en) | Vehicle voice recognition including a wearable device | |
JP2005003997A (ja) | 音声認識装置および音声認識方法ならびに車両 | |
US20140136204A1 (en) | Methods and systems for speech systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |