CN105047196B

CN105047196B - 语音识别系统中的语音假象补偿系统和方法

Info

Publication number: CN105047196B
Application number: CN201510201252.5A
Authority: CN
Inventors: C.R.汉森; T.J.格罗斯特; U.温特
Original assignee: GM Global Technology Operations LLC
Current assignee: GM Global Technology Operations LLC
Priority date: 2014-04-25
Filing date: 2015-04-24
Publication date: 2019-04-30
Anticipated expiration: 2035-04-24
Also published as: US20150310853A1; DE102015106280A1; CN105047196A; DE102015106280B4

Abstract

本发明涉及语音识别系统中的语音假象补偿系统和方法。一种语音识别方法包括产生语音提示符，响应于该语音提示符接收来自用户的口头发声，其中，该口头发声包括语音假象，并且补偿该语音假象。补偿该语音发声可包括，例如，利用包括语音假象为语音分量的识别语法，或者，修正口头发声以消除语音假象。

Description

语音识别系统中的语音假象补偿系统和方法

技术领域

技术领域总体上涉及语音系统，并且更详细地涉及用于在存在语音假象的情况下改善声音识别的方法和系统。

背景技术

车辆语音对话系统（或"语音系统"）尤其基于车辆乘客发出的语音执行语音识别。语音发声通常包括指令，这些指令与车辆的一个或多个特征以及车辆可获取的其它系统通信或控制它们。语音系统响应于语音发声产生语音指令，并且在有些情况下，这些语音指令是响应于语音系统产生的，需要更多信息以便执行语音识别。

在许多语音识别系统中，向用户提供由设在车辆内的语音生成系统产生的提示符。在这样的系统（例如声音"干扰"系统）中，用户可能在系统还没有足够快地停止其语音输出的情形中的提示符期间开始发音。因此，对于简短瞬间，两者都在发音。用户然后可能停止发音，然后要么继续，要么重复先前所说的。在后一种情形中，来自用户的语音发声可能包括在开始发声时的语音假象（在这种情况下，称作"口吃"效果），使得用户的语音命令难以或不能被解析。这样的错误降低了识别准确度和用户满意度，并且还能增加驾驶员的分心程度。

因此，期望提供改善的方法和系统，用于在存在语音假象的情况下改善语音识别。此外，本发明的其它的合乎需要的要素和特征将通过随后的详细说明和附上的权利要求变得明显，参照附图以及前述的技术领域和背景技术。

发明内容

根据一个实施例的一种语音识别方法包括产生语音提示符，响应于该语音提示符接收来自用户的口头发声，其中，该口头发声包括语音假象，并且补偿该语音假象。

根据一个实施例的一种语音识别系统包括构造成为用户产生语音提示符的语音生成模块和构造成响应于该语音提示符接收来自用户的包括语音假象的口头发声并且补偿该语音假象的语音理解系统。

本发明提供下列技术方案。

技术方案1. 一种语音识别方法，包括：

产生语音提示符；

响应于该语音提示符接收来自用户的口头发声，该口头发声包括语音假象；以及

补偿该语音假象。

技术方案2. 如技术方案1所述的方法，其中，该语音假象是口吃假象。

技术方案3. 如技术方案1所述的方法，其中，补偿语音假象包括提供包括语音假象为语音分量的识别语法。

技术方案4. 如技术方案1所述的方法，其中补偿该语音假象包括修正口头发声以消除语音假象。

技术方案5. 如技术方案4所述的方法，其中，修正口头发声包括消除发生在相对于语音提示符结尾的预定时间之前的口头发声的一部分。

技术方案6. 如技术方案4所述的方法，其中，修正口头发声包括消除口头发声的一部分，其符合由后跟着大致沉默的语音短脉冲构成的模式。

技术方案7. 如技术方案4所述的方法，其中，修正口头发声包括根据口头发声的第一部分与类似于该第一部分的口头发声的后续部分的比较结果消除口头发声的一部分。

技术方案8. 一种语音识别系统，包括：

构造成为用户产生语音提示符的语音生成模块；和

构造成响应于该语音提示符接收来自用户的包括语音假象的口头发声并且构造成补偿该语音假象的语音理解系统。

技术方案9. 如技术方案8所述的语音识别系统，其中，该语音假象是干扰口吃假象。

技术方案10. 如技术方案9所述的语音识别系统，其中，该语音理解系统通过提供包括语音假象为语音分量的识别语法补偿语音假象。

技术方案11. 如技术方案8所述的语音识别系统，其中，该语音理解系统通过修正口头发声以消除语音假象来补偿该语音假象。

技术方案12. 如技术方案11所述的语音识别系统，其中，修正口头发声包括消除发生在相对于语音提示符结尾的预定时间之前的口头发声的一部分。

技术方案13. 如技术方案11所述的语音识别系统，其中，修正口头发声包括消除口头发声的一部分，其符合由后跟着大致沉默的语音短脉冲构成的模式。

技术方案14. 如技术方案11所述的语音识别系统，其中，修正口头发声包括根据口头发声的第一部分与类似于该第一部分的口头发声的后续部分的比较结果消除口头发声的一部分。

技术方案15. 一种非暂时性计算机可读介质，承载构造成促使处理器执行下列步骤的软件指令：

产生语音提示符；

响应于该语音提示符接收来自用户的口头发声，该口头发声包括语音假象；和

补偿该语音假象。

技术方案16. 如技术方案15所述的非暂时性计算机可读介质，其中，补偿语音假象包括提供包括语音假象为语音分量的识别语法。

技术方案17. 如技术方案15所述的非暂时性计算机可读介质，其中补偿该语音假象包括修正口头发声以消除语音假象。

技术方案18. 如技术方案17所述的非暂时性计算机可读介质，其中，修正口头发声包括消除发生在相对于语音提示符结尾的预定时间之前的口头发声的一部分。

技术方案19. 如技术方案17所述的非暂时性计算机可读介质，其中，修正口头发声包括消除口头发声的一部分，其符合由后跟着大致沉默的语音短脉冲构成的模式。

技术方案20. 如技术方案17所述的非暂时性计算机可读介质，其中，修正口头发声包括根据口头发声的第一部分与类似于该第一部分的口头发声的后续部分的比较结果消除口头发声的一部分。

附图说明

下文将连同下列附图一起描述示范性实施例，其中，相同的数字代表相同的元件，并且其中：

图1是根据各个示范性实施例的包括语音系统的车辆的原理框图。

图2是概念图，示出根据各个示范性实施例的所产生的语音提示符和得到的口头发声。

图3是概念图，示出根据各个示范性实施例的用于所产生的语音提示符和得到的口头发声的语音假象补偿。

图4是概念图，示出根据各个示范性实施例的用于所产生的语音提示符和得到的口头发声的语音假象补偿。

图5是概念图，示出根据各个示范性实施例的用于所产生的语音提示符和得到的口头发声的语音假象补偿。

图6是概念图，示出根据各个示范性实施例的用于所产生的语音提示符和得到的口头发声的语音假象补偿。

图7-12是流程图，示出根据各个实施例的语音假象补偿方法。

具体实施方式

本文描述的主题总体上涉及用于接收和补偿口头发声的系统和方法，这种口头发声包括响应于语音提示符从用户接收到的语音假象（例如口吃假象）。补偿语音假象可以包括，例如，运用包括语音假象为语音分量的识别语法，或者以各种方式修正口头发声以消除语音假象。

下列详细说明本质上仅仅是示范性的并且不意图限制应用和使用。此外，不意图受到前述技术领域、背景技术、发明内容或之后的详细说明中出现的任何明确或暗示理论的限制。本文使用的术语"模块"指的是专用集成电路（ASIC）、电子电路、执行一个或多个软件或固件程序的处理器（共享的、专用的或分组的）、组合逻辑电路和/或提供所描述功能的其它合适的部件。

现在参照图1，根据本文所描述主题的示范性实施例，口头对话系统（或简称为"语音系统"）10设在车辆12内。通常，语音系统10为一个或多个车辆系统提供语音识别、对话管理和语音生成，通过构造成由一个或多个用户40（例如驾驶员，乘客等等）操作（或以其它方式交互）的人机通信界面（HMI）模块14。这样的车辆系统可以包括例如电话系统16、导航系统18、媒体系统20、远程信息处理系统22、网络系统24和可以包括语音从属应用的任何其它车辆系统。在一些实施例中，一个或多个车辆系统可通信地连接到网络（例如，专有网络、4G网络等等），提供与一个或多个后端服务器26的数据通信。

一个或多个移动装置50也可以出现在车辆12内，包括一个或多个智能电话、台式计算机、功能电话等等。移动装置50还可以通过适当的无线连接（例如蓝牙或WiFi）可通信地连接到HMI 14，从而，存在于移动装置50上的一个或多个应用能由用户40通过HMI 14获取。因此，用户40通常将获取运行在三个不同平台上的应用：车辆系统自身内执行的应用、移动装置50上配置的应用和存在于后端服务器26上的应用。此外，这些应用中的一个或多个可以按照它们自己各自的口头对话系统运行，并且因此，多器件会有能力以变化的程度响应用户40说出的请求。

语音系统10通过通信总线和/或其它数据通信网络29（例如有线的，短距离无线的或长距离无线的）与车辆系统14、16、18、20、22、24和26通信。该通信总线可以例如是控制器区域网（CAN）总线、本地互联网（LIN）总线等等。将意识到，语音系统10可以与包括一个或多个依赖语音的应用在内的车载环境和非车载环境连同使用，此处提供的这些车载例子是不失一般性的进行阐述。

如所示，语音系统10包括语音理解模块32、对话管理模块34和语音生成模块35。这些功能模块可以实施为分开的系统或者组合的集成系统。通常，HMI模块14从用户40接收声信号（或"口头发声"）41，其被提供给语音理解模块32。

语音理解模块32包括硬件和/或软件的任意组合，其构造成使用合适的语音识别技术处理来自HMI模块14的（经由一个或多个话筒52接收的）语音发声的，包括例如自动语音识别和语义解码（或口语理解（SLU））。使用这样的技术，语音理解模块32产生从语音发声得到的可能结果的列表33（或多个）。在一个实施例中，列表33包括一个或多个句子假设，代表着在用户40可能说出的发声（即发声41）组上的概率分布。列表33可以例如采取N最佳列表的形式。在不同的实施例中，语音理解模块32使用存储在数据存储器中预定可能性来产生列表33。例如，该预定可能性可以是存储在电话簿中的名字或号码、存储在地址薄中的名字或地址、存储在音乐目录中的歌曲名称、唱片集或艺术家等等。在一个实施例中，语音理解模块32采用前端特征提取，后面是隐马尔可夫模型（HMM）和记分法。

语音理解模块32还包括语音假象补偿模块31，构造成帮助提高语音识别，如下文更详细描述的。然而，在一些实施例中，语音理解模块32由图1所绘的各个其他模块的任一实施。

对话管理模块34包括构造成管理要根据列表33说给用户的交互顺序和语音提示符42的选择的硬件和/或软件的任何组合。当列表33包含一个以上的可能结果时，对话管理模块34使用歧义消除策略来管理提示符与用户40的对话，这样，能够确定认可的结果。按照示范性实施例，对话管理模块34能够管理对话内容，如下文更详细描述的。

语音生成模块35包括构造成根据对话管理模块34确定的对话向用户40产生语音提示符42的硬件和/或软件的任何组合。在这点上，语音生成模块35通常将提供自然语言生成（NLG）和语音合成，或从文字到语音（TTS）。

列表33包括一个或多个元素，代表着可能的结果。在各个实施例中，列表33的每个元素包括一个或多个"槽 "，每个都关联于槽类型，槽类型取决于应用。例如，如果该应用支持打电话为电话簿联系人（例如，"呼叫John Doe"），那么，每个元素可以包括这样的槽，槽的类型是名、中名和/或姓。在另一例子中，如果该应用支持导航（例如，"去往1111阳光林荫大道"），那么，每个元素可以包括这样的槽，槽的类型是门牌号和街名等等。在各个实施例中，槽和槽的类型可以存储在数据存储器并且可被任何所示系统读取。列表33的每个元素或槽与置信度有关联。

除了口头对话以外，用户40还可以通过各个按钮、开关、触摸屏用户接口元素、姿态（例如，车辆12内设置的一个或多个照相机识别的手势）等等与HMI 14交互。在一个实施例中，按钮54（例如，"按键通话"按键或简称"说话键"）设置在一个或多个用户40的容易拿取的范围内。例如，按钮54可以嵌在方向盘56内。

如先前提到的，在语音系统10产生给用户的提示符（例如，通过语音生成模块35）的情形中，用户可以开始说话，能预期提示符将停止。如果这个出现的不足够迅速，那么，用户可能变得急躁并且在继续说话之前暂时停止发声。因此，在暂停之后的发声开始时和实际发声可能有语音假象（"口吃 "）。在另一情形中，系统将不会停止提示符。在这种情况下，大多数用户将在短时之后停止说话，留下了不完整的口吃假象并且仅在提示符结束之后重复发声。这产生了两个独立的发声，其中第一个是口吃或不完整的发声。取决于系统操作，这可能被当做带有长时暂停的一个发声，或者当做两个发声。

这种情形在图2中示出，其给出了概念图，说明了可能得到的示范性的所产生的语音提示符和口头发声（包括语音假象）。具体地说，产生的语音提示符对话（或简称"提示符对话"）200示为一系列口语单词201 - 209（用阴影椭圆形表示），且得到的所产生的语音提示符波形（或简称"提示符波形"）210在相应单词201-209的下方示意性地示出，水平轴线对应于时间，垂直轴线对应于声强。类似地，来自用户的口头发声（响应于提示符）示为响应对话250，包括一系列口语单词251 - 255，连同其相关的口头发声波形260。在这点上，将意识到，波形210和260以及图中所示其它任何波形仅仅是作为示意图给出，并不意图显示单词与声强之间的文字对应。为了简明起见，项目200和210可以一起简称为"提示符"，项目250和260可以简称为"口头发声"。

设想提示符对话200在车辆音频系统的背景下产生的情形，并且对应于九字短语"说'调到'，后面跟着电台号…或名字"，那么，单词201是"说（say）"，单词202是"调到（tune）"，单词203是"跟着（followed）"，等等。如能看到的，单词207与208（"号"和"或"）之间的时间间隙长得（并且完成了语意完整的命令句）足以让用户可在单词"号"之后开始语音发声，而不是等着整个提示符结束。得到的时间，其对应于用户觉得允许说话的时间点，可以称作转换相关位置（TRP）。例如，假设用户希望对短语"调到频道99"做出反应。在时间291，其是中间提示符（在单词207与208之间），用户可能通过说出"调到"这个单词251的全部或部分而开始这个短语，仅用于在明了提示符没有结束时突然停止说话在时间292之后不久，并且在听到最后的单词208-209（"或标题"）后，他然后可以再次开始说话。因此，单词252-255对应于期望的短语"调到频道99"。如前面提到的，这个情形通常被称为"口吃效应"，因为来自用户的整个语音发声波形266包括单词"调节"两次、在单词251和252 - -即"调到……调到频道99"。重复的单词在波形中260中标示为附图标记262（语音假象）和264（预期发声的实际开始）。如上所提及的，目前已知的语音识别系统发现难以或不可能分析和解析如266所示的口头发声，因为它包含假象262。

根据本文描述的主体，提供系统和方法用于接收和补偿包括响应于语音提示符从用户接收到的语音假象类型的口头发声。补偿语音假象可以包括，例如，利用包括语音假象为语音分量的识别语法，或者，以各种方式修正口头发声（例如，包含存储的口头发声的口头发声缓冲区）以消除语音假象并且根据修正的口头发声识别响应。

总体上并且简单参照图7所示流程图，根据各个实施例的方法700包括产生语音提示符702、从用户接收响应于语音提示符的口头发声，其中，口头发声包括语音假象704，以及，然后补偿语音假象706。关于这一点，图3-6所示的概念图，连同图8-11所示的各个流程图，显示了四个示范性实施例，用于执行图7的方法。将依次描述每个。

首先参照图3，连同图8的流程图，所示方法利用识别语法，其包括语音假象为语音分量。也就是说，图1的语音理解系统32（和/或语音假象补偿模块31）包括理解短语类型的能力，其可以由语音假象的引入而产生。这可以通过例如统计语言模型或有限状态语法的使用来实现，如本领域已知的。

作为一个例子，识别语法可以包括发音学或以其它方式构造成理解第一个单词出现两次的短语（例如"调到调到频道99"、"找到找到加油站"，等等）。因此，如图3中所绘，得到的口头发声波形362被认为是一个整体，没有移除任何假象或以其它方式修正波形。参照图8，按照这个实施例的方法800总体上包括提供包括：多个语音假象作为语音分量的识别语法802、产生语音提示符804、接收包括语音假象的口头发声806以及根据识别语法识别口头发声808。在一些实施例中，这个系统可能尝试没有修正语法（即，该语法包括语音假象）的"初次通过"，然后，如果确定该口头发声不能被识别，就做出"二次通过"。在另一实施例中，部分单词被包括作为识别语法的一部分（例如，"t"、"tu"、"tune"等等）。

参照图4连同图9的流程图，所示方法描述了一个实施例，其包括，通过消除发生在相对于语音提示符结尾的预定时间之前的口头发声的一部分来修正口头发声以消除语音假象（例如，基于系统的典型反应时间）。在图4中示为波形464的空白（消除）区域462。换言之，在这个实施例中，系统假定其在波形210的结尾402之后的预定时间（例如0-250毫秒）之后会起作用。在所示实施例中，口头发声被认为开始于时间404（出现在相对于结尾402的预定时间之后），而不是在时间291，此时，用户实际上开始说话。为了产生"修正的"波形（即图4中的区域464），可以适当地修改包含波形260的表现（例如数字表现）的缓冲区或其它存储器（例如图1的模块31内的缓冲区）。参照图9，那么，按照这个实施例的方法900总体上包括产生语音提示符902、接收包括语音假象的口头发声904、消除发生在相对于语音提示符结尾的预定时间之前的口头发声的一部分906以及根据改变的口头发声识别口头发声。

参照图5连同图10的流程图，所示方法描绘另一实施例，其包括，通过消除符合由后跟着大致沉默的语音的短脉冲构成的模式的口头发声的一部分来修正口头发声以消除语音假象。这在图5中示出，其示出波形260的一部分562，其包括语音短脉冲565，后跟着一节大致沉默566。剩余的修正波形（部分564）于是会被用于识别。用来检测脉冲模式（例如，脉冲强度、脉冲长度、沉默持续时间等等）的特定模型可以由经验确定（例如，通过测试多个用户）或以任何其他便利的方式。后跟着大致沉默的语音的这个短脉冲还会与在主动语法或SLM中出现的任何期望指令不一致。参照图10，按照这个实施例的方法1000总体上包括产生语音提示符1002、接收包括语音假象的口头发声1004、消除符合由后跟着大致沉默的语音短脉冲构成的非预期模式的口头发声的一部分1006以及根据修正的口头发声识别口头发声1008。

现在参照图6连同图11的流程图，所示方法描绘另一实施例，其包括，通过根据口头发声的第一部分与类似于该第一部分的口头发声的后续部分的比较结果来消除口头发声的一部分来修正口头发声以消除语音假象。换言之，该系统通过合适的模式匹配算法和一组标准来确定波形的前一部分大致类似于后续（可能是相邻）部分，并且前一部分应被消除。这在图6中示出，其示出波形260的一个部分662，其大致类似于后续部分666（在大致沉默区域664之后）。模式匹配能够通过例如传统的语音识别算法来执行，其构造成匹配新的声学序列与多个预训练的声学序列并且确定与它们中每一个的类似性。最类似的声学序列序列就是最有可能性的。该系统能够例如考虑口吃假象并且在暂停之后对照声学发声的开始匹配它以及确定类似性得分。如果得分高于类似性阈值，第一部分可以被识别为第二的口吃。一种用于语音识别的传统方法包括获取声学发声、执行特征抽取例如通过MFCC（Mel频率倒谱系数）并且通过HMM（隐马尔可夫模型）网络发送这些特征。该输出是发声序列的n最佳列表，带有由MFCC值表示的声学发声与来自HMM网络的发声序列的类似性得分。

参照图11，按照这个实施例的方法1100总体上包括产生语音提示符1102，接收包括语音假象的口头发声1104，根据口头发声的第一部分与类似于该第一部分的口头发声的后续部分的比较结果消除口头发声的一部分1106，以及根据修正的口头发声识别口头发声1108。

根据这些实施例，上面描述的两个或更多方法可以一起用于补偿语音假象。例如，一种系统可以结合包括语音假象为语音分量的识别语法，并且，如果必要，以上面描述的一种或多种方式修正口头发声以消除语音假象。参照图12所绘流程图，现在将描述一种这样的方法。最开始，在1202，该系统努力尝试使用正常语法（即未配置成识别假象的语法）识别语音发声。如果该语音发声被理解（判定块1204的"y"分支），那么程序结束1216；否则，在1206，该系统利用配置成识别语音假象的语法。如果该语音发声通过这个修正语法被理解（判定块1208的"y"分支），该系统依旧前进到1216；否则，在1210，该系统以上面描述的一种或多种方式修正语音发声。如果修正的语音发声被识别（判定块1212的"y"分支），那么程序在1216结束。如果修正的语音发声没有被识别（判定块1214的"n"分支），那么采取适当的校正措施。也就是说，该系统提供额外的提示符给用户，或以其它方式努力从用户接收可识别的语音发声。

虽然在前面的详细说明中已经给出了至少一个示范性实施例，但应当意识到存在大量的变形。还应当意识到，示范性实施例仅仅是例子，并且不意图以任何方式限制本发明的范围、适用性或构型。相反地，前面的详细说明将给本领域技术人员提供实施示范性实施例的便利途径。应当理解，在不脱离附上的权利要求及其法定等同物所阐述的揭发范围的情况下，可以对功能和元件布置做出多种变化。

Claims

1.一种语音识别方法，包括：

产生语音提示符；

补偿该语音假象，

其中，该语音假象是口吃假象，补偿语音假象包括下列中的至少一者：提供语音假象为语音分量的识别语法；以及通过消除发生在相对于语音提示符结尾的预定时间之前的口头发声的一部分来修正口头发声以消除语音假象，

其中所述消除语音假象包括利用合适的模式匹配算法来确定波形的前一部分大致类似于后续部分，并且消除该前一部分。

2.如权利要求1所述的方法，其中，修正口头发声包括消除口头发声的一部分，其符合由后跟着大致沉默的语音短脉冲构成的模式。

3.如权利要求1所述的方法，其中，修正口头发声包括根据口头发声的第一部分与类似于该第一部分的口头发声的后续部分的比较结果消除口头发声的一部分。

4.一种语音识别系统，包括：

构造成为用户产生语音提示符的语音生成模块；和

构造成响应于该语音提示符接收来自用户的包括语音假象的口头发声并且构造成补偿该语音假象的语音理解系统；

其中，该语音假象是干扰口吃假象，补偿语音假象包括下列中的至少一者：提供语音假象为语音分量的识别语法；以及通过消除发生在相对于语音提示符结尾的预定时间之前的口头发声的一部分来修正口头发声以消除语音假象，

5.如权利要求4所述的语音识别系统，其中，修正口头发声包括消除口头发声的一部分，其符合由后跟着大致沉默的语音短脉冲构成的模式。

6.如权利要求4所述的语音识别系统，其中，修正口头发声包括根据口头发声的第一部分与类似于该第一部分的口头发声的后续部分的比较结果消除口头发声的一部分。

7.一种非暂时性计算机可读介质，承载构造成促使处理器执行下列步骤的软件指令：

产生语音提示符；

补偿该语音假象，

其中补偿语音假象包括下列中的至少一者：提供语音假象为语音分量的识别语法；以及通过消除发生在相对于语音提示符结尾的预定时间之前的口头发声的一部分来修正口头发声以消除语音假象，

8.如权利要求7所述的非暂时性计算机可读介质，其中，修正口头发声包括消除口头发声的一部分，其符合由后跟着大致沉默的语音短脉冲构成的模式。

9.如权利要求7所述的非暂时性计算机可读介质，其中，修正口头发声包括根据口头发声的第一部分与类似于该第一部分的口头发声的后续部分的比较结果消除口头发声的一部分。