CN104737226A

CN104737226A - 机动车中的语音识别

Info

Publication number: CN104737226A
Application number: CN201380053806.0A
Authority: CN
Inventors: G·格吕沙尔斯基; T·坎切瓦
Original assignee: Audi AG; Volkswagen AG
Current assignee: Audi AG; Volkswagen AG
Priority date: 2012-10-16
Filing date: 2013-05-18
Publication date: 2015-06-24
Anticipated expiration: 2033-05-18
Also published as: EP2909833A1; CN104737226B; EP2909833B1; WO2014060054A1; US20150269939A1; US9412374B2

Abstract

本发明涉及一种用于在机动车(10)中进行语音识别的方法。接收用户(22)的语音输入(26)，在不向用户(22)提出询问的情况下将至少一个所接收的语音输入传输给车辆内部的车载-语音识别器(46)。由此产生第一识别结果(48)，但该第一识别结果并不总是正确的，因此需要询问用户或由用户作出校正。本发明的目的在于，在机动车(10)中提供可靠的语音识别，其使得机动车中的用户尽可能少地从交通现状中分心。为此，由处理装置(32)将语音输入(54)全部或部分地也传输给车辆外部的非车载-语音识别器(12)，并由处理装置(32)从该非车载-语音识别器接收第二识别结果(56)，由处理装置(32)根据第一识别结果(48)和第二识别结果(56)确定语言文本(34)。

Description

机动车中的语音识别

本发明涉及一种用于在机动车中进行语音识别的方法。借助于车辆内部的语音识别器——该语音识别器在此被称为车载-语音识别器，基于用户的语音输入由语音输入来获得语言文本。本发明还涉及一种用于实施本发明方法的机动车信息娱乐系统，以及具有用于实施本发明方法的处理装置的机动车。

当今车辆中的信息-娱乐系统使用自动语音识别系统或ASR(Automatic Speech Recognition)，以便接收来自驾驶员的语音输入。这些ASR可以要么在车辆本身(车载-onboard)中，要么在远程服务器(online)上。为此，识别装置可以被配备用于执行不同数量的任务。

在EP 1 408 304 A1中介绍了一种用于机动车的控制系统，该控制系统可以实现机动车的设备的语音控制。车辆外部的语音识别器(结合本发明这被称为非车载-语音识别器)被用于识别单个语音输入，也就是说将其转换成机器可处理的语言文本。为此在现有技术中已经公知，检测语音声音作为语音信号，然后将所述语音声音数字化，并且借助于特征提取为语音识别做准备。接下来将所提取到的特征通过移动通信传递给非车载-语音识别器，然后该非车载-语音识别器将其识别结果再次通过移动通信提供给机动车。这种解决方案的缺点是，必须有移动通信连接可供使用，语音识别才能正常工作。

在EP 1 341 363 B1中介绍了一种驾驶员信息系统，该驾驶员信息系统同样使用了非车载-语音识别器。附加地，非车载-语音识别器可以被用于简单的识别任务，例如识别个别控制命令。在这种情况下，决策单元根据需要在车载-语音识别器和非车载-语音识别器之间进行转换，以便将用户的单个语音输入转化成语言文本。非车载-语音识别器在此仅被设计用于在语音对话范围内进行识别。反之，车载-语音识别器仅理解单个的指令词。语音对话系统的优点是，如果他还未明白特定的语言输入，语音识别器可以提出疑问。然而，这种情况下的缺点是，在驾驶期间使用语音识别系统时会导致驾驶员分心。

本发明的目的是：在机动车中提供可靠的语音识别，其使得机动车中的用户尽可能少地从交通现状中分心。

该目的通过根据权利要求1所述的方法、根据权利要求12所述的信息娱乐系统和根据权利要求13所述的机动车来实现。本发明的有利的改进方案由从属权利要求给出。

根据本发明的方法确保：在不向用户提出询问的情况下将语音输入传输给一自动的语音识别系统以生成语言文本。在对特定的语音输入进行语音识别有困难时，它以有利的方式防止了用户从交通现状中分心。根据本发明的方法在此通过车载的处理装置来实施，该处理装置从车辆内部的检测装置——例如带有联接在下游的信号处理装置的麦克风——处接收用户的语音输入。至少一个所接收的语音输入在此被处理装置传输给车辆内部的车载-语音识别器。然后，处理装置从该车载-语音识别器接收第一识别结果、即例如可能的语言文本候选对象亦或多个可能的语言文本候选对象的列表。“语言文本候选对象”是将语音输入转换为了字符串的文本。如果发出的语音输入为“Hallo”，那么正确的语言文本候选对象是字符串“Hallo”。代替于纯文本“Hallo”，也可以以符号的形式表示为语言文本候选对象的语音识别结果或者表示为对可能的语言文本候选对象的列表的列表项的参考或者表示为列表项的标识符(例如ID_0815)。

这时希望降低基于第一识别结果进行错误识别的可能性，即降低输出不正确的语言文本的可能性，这将使用户不必分心。为此，通过处理装置将语音输入全部或部分地传输给车辆外部的非车载-语音识别器。然后由处理装置从该非车载-语音识别器接收第二识别结果、即语言文本候选对象或者由多个语言文本候选对象组成的列表。然后，不仅根据第一识别结果而且根据第二识别结果通过处理装置来确定最终作为识别结果而被输出的语言文本。

根据本发明的方法具有以下优点：语音输入被全部或部分地传输给一种双重的语音识别系统，即，一重为传输给车辆内的语音识别装置，另一重为传输给车辆外的语音识别装置。于是，最终作为识别结果而被输出的语言文本更可能符合用户实际说的话。结合本发明，语音输入要么可以理解为经变换的声信号、即模拟信号，要么可以理解为数字信号，或者也可以理解为通过对语音信号进行已知的特征提取而形成的、各信号段的特征的序列、即例如美尔倒谱系数的序列。

在一个实施方式中，根据本发明的方法规定进行串行的语音识别模式，在该串行的语音识别模式中，语音输入首先被传输给车载-语音识别器以进行关键词识别，并且第一识别结果被接收。然后，借助于第一识别结果从语音输入提取至少一个由车载-语音识别器不能识别的部分，然后将该部分传输给非车载-语音识别器。由此得到以下优点：首先使用通常具有较短反应时间的车载-语音识别器进行语音识别，仅仅对于在识别时有问题的情况才启用通常更高效能的非车载-语音识别器。另一优点在于：借助于关键词识别通过处理装置可以决定，要将语音输入传输给多个可能的非车载-语音识别器中的哪一个。如果例如借助于关键词识别已知用户想要确定导航目的地，那么就可以相应地控制用于导航系统的非车载-语音识别器。

根据本发明的方法的另一个实施方式规定，在并行的语音识别模式中，将至少一个语音输入传输给车载-语音识别器并独立地将该至少一个语音输入传输给非车载-语音识别器。于是就有两个识别结果可供使用，它们均与整个语音输入有关。然后，例如可以将被作为语言文本候选对象而包含在两个识别结果中的那个语言文本作为最终的识别结果进行输出。并行地使用车载-识别器和非车载-识别器的另一原因在于，两种识别器可以覆盖不同的职能范围。于是，得到的不是两个相同的或相似的结果，而是不同的结果。然而，两个中的一个通常具有明显更高的可信度、即用于识别的准确度的指示值，从而也可以合理地选择语言文本候选对象。

根据本方法的另一实施方式，由处理装置根据针对预定语言文本内容而预定的优先级基于第一识别结果和第二识别结果确定语言文本。“语言文本内容”这里系指一种主题语境，在该主题语境情况下用户表达了语音输入。因此，如果例如通过在串行的语音识别中进行关键词识别断定了涉及导航目的地的输入，那么就可以由非车载-语音识别器的第二识别结果从第二识别结果中有针对性地找到涉及导航目的地的语言文本候选对象。然后，通过关键词识别来确定用于语言文本内容“导航”的优先级。

根据本发明的一个实施方式，由处理装置根据至少一个环境参数基于第一识别结果和第二识别结果确定语言文本。所述环境参数描述机动车中当前的识别情况。例如可以通过环境参数来指示：机动车是否处于堵车状态、机动车位于哪里(例如GPS-接收器的地理坐标)、车辆位于所计划的行驶路线的起始位置还是终点位置、机动车当前是否在去驾驶员的工作场所的途中或者机动车是否在回家的返程路上。行驶类型(例如前往办公室或回家)例如可以从驾驶员激活的个人资料中读取。

附加于此地或替代于此地，也可以根据当前的车辆状态来确定语言文本。例如可以以“是否刚刚有电话呼叫并且例如通过铃声告知给驾驶员”为根据。同样可以检查，在机动车中是否刚刚向驾驶员发出了一定的指示、例如警告信号。环境参数和当前的车辆状态是一种可靠的指示：用户刚刚想用其语音输入表达什么。如果驾驶员例如正好在从工作回家的路上，那么他更有可能想要把涉及到其自由时间的东西作为语音输入。就其它情况而言，驾驶员在去工作的路上更可能处理或准备工作上的事情，于是，这就同样为语音识别提供了重要的语境。如果向驾驶员发出了警告指示，那么他的语音输入可能会涉及到该警告指示。在确定语言文本时，可以采用以下方式使用环境参数和车辆状态，即就识别结果而言，该识别结果具有多个语音识别候选对象、即多个可能的合理的识别结果，那些与相应的环境参数和/或车辆状态相适配的识别结果被优选或设为优先。

尤其有利的是，在所述方法中由处理装置根据用户先前的操作处理基于第一识别结果和第二识别结果确定语言文本。操作处理特别是涉及机动车的设备。如果用户例如激活机动车的导航系统，然后在预定的时间内、例如2分钟或5分钟内用户不激活其它设备而进行了语音输入，那么由此可以推断，该语音输入涉及导航设备的操作。

该方法的另一个实施方式规定，由处理装置根据先前的语音输入的统计量基于第一识别结果和第二识别结果确定语言文本。由先前的语音输入可以确定，用户在操作语音输入系统时会犯哪些典型的错误。此外可以识别，用户具有哪些偏好，也就是说，他主要将语音识别系统用于了哪些识别文本或哪些识别任务或应用或设备。

该方法的另一个实施方式规定，第一识别结果和/或第二识别结果在一个或多个识别结果中包括N-最佳-列表，该N-最佳-列表包括多个按照名次排列的语言文本候选对象和/或针对语言文本候选对象的至少一个可能性标志。然后根据至少一个语言文本候选对象的名次和/或至少一个语言文本候选对象的可能性标志来确定语言文本。特别地，当车载-语音识别器和非车载-语音识别器提供了不同的结果列表时，可以通过比较可能性标志或者通过分析特定语言文本候选对象的名次不依赖于语境地确定，哪个语音识别器更可靠地识别了语音输入。

通过语言文本候选对象的名次可以确定，相对于其它语言文本候选对象，特定的语言文本候选对象是正确的结果的可能性有多大。就语音识别器而言，可能性标志例如可以以对数-似然-值的形式给出，这些值具有“是绝对的可靠性值”的优点。

该方法的另一个实施方式规定，至少一个与安全性相关的语音输入仅传输给车载-语音识别器。如果例如车载-语音识别器识别出了语音输入中的关键词，该关键词表明用户放弃了个性化数据，这可以被用于抑制非车载-语音识别器的进一步语音识别。

也就是说，该方法并不依赖于：所有的语音输入都总是既被车载-语音识别器处理又被非车载-语音识别器处理。该方法的一个优选的实施方式相应地规定：由语音识别系统的处理装置根据至少一个控制参数从以下四种模式中选出并激活一种模式：完全的车载-语音识别模式、完全的非车载-语音识别模式、如上所述的串行的语音识别模式、如上所述的并行的语音识别模式。由此得到语音识别系统可以灵活应对的优点。如果例如从机动车到数据网络正好没有移动通信连接，通过该移动通信连接可达到非车载-语音识别器，那么还是可以基于第一模式(完全的车载-语音识别)执行识别。于是，在存在的移动通信连接中可以按照移动通信连接的可用的带宽来选择其它模式中的一个。

用于在各模式之间进行切换的、另一种特别合适的控制参数是对当前的功能情景的指示。“功能情景”在此是指，通过用户的语音输入实际上希望执行何种操作过程。例如，如果要诸如在信息娱乐系统进行简单的菜单操作用于选择菜单项，那么这里一般专用于此的车载-语音识别器通常是合适的，这是因为车载-语音识别器工作可靠。因此，如果识别到了，用户想要在菜单中进行选择，那么在这种情况下就可以使用完全的车载-语音识别激活第一模式。同样地，例如在语音输入语言文本内容：“谷歌-互联网-搜索”时，同样也可以自动激活其它模式之一，这是因为利用移动通信模块总归建立起用于互联网搜索的传输信道。

如前所述，本发明还涉及一种用于机动车的信息娱乐系统。所述信息娱乐系统的突出之处在于，该信息娱乐系统具有处理装置，该处理装置被设计用于执行根据本发明所述方法的实施方案。

最后，本发明还涉及一种机动车。根据本发明的机动车具有检测装置、车载-语音识别器、所述的处理装置和通信装置。检测装置被设计用于检测用户的语音输入，并且将所检测到的语音输入输出给处理装置。处理装置是上述的、根据本发明的、用于执行本发明方法的实施方案的处理装置。处理装置例如可以以上述的根据本发明的信息娱乐系统的形式提供。然而，这里例如也可以涉及一种用于机动车的中央处理单元的程序模块。结合本发明，“通信连接”特别地可以理解为移动通信模块、例如LTE-模块或UMTS-模块。然而，这里例如也可以涉及一种WLAN-模块(WLAN-无线局域网)。

接下来借助于具体的实施例再次对本发明进行阐述。为此，唯一的附图(图1)示出了根据本发明的机动车的实施方式。在附图中示出了机动车10，该机动车例如可以是汽车、特别是乘用车。此外，在附图中还示出了服务器装置12，该服务器装置包括非车载-语音识别器(REMREC Remote Recognizer)，该非车载-语音识别器可以是现有技术中存在的用于ASR的语音识别器。服务器装置12例如可以是互联网14的组成部分。在机动车10外，服务器装置12例如经由移动通信网络16、诸如UMTS-网络或LTE-网络通过双向的移动通信连接18可实现数据通信。就车辆而言，采用本身已知的方式通过机动车10的通信模块20可以实现双向的移动通信连接18。

在机动车10中，用户22、例如驾驶员可以进行语音识别，以便例如可以通过语音来操作机动车10的设备24。例如，通过语音输入可以实现短信(SMS、E-Mail)的口述或者从操作菜单中选择菜单项。

在所示的示例中，用户22为此进行语音表达26(ABC)。在此，在引号中表达“ABC”表明：语音表达26仍然作为音频信号而存在，而不是作为计算机可解读的语言文本、即例如作为诸如ASCII-格式的字符串而存在。语音表达26的说话声音28例如通过在机动车10中由一个或多个麦克风组成的麦克风阵列30来检测，并作为语音信号(模拟地、数字地、以特征系数形式地)传输给处理装置32。处理装置32例如可以是机动车10的娱乐信息系统的组成部分或者是中央计算装置的组成部分。处理装置32协调语音识别，通过所述语音识别将语音26转换成语言文本34，然后将该语言文本作为设备24的输入，必要时作为其它设备的输入。处理装置32为此可以具有四种处理模式36、38、40、42，处理装置32可以在这些模式之间进行切换。

在模式36下，执行本地语音识别(LOC–Local)，其中，语音表达26作为语音输入44传输给车载-语音识别器、即车辆内部的语音识别器46，可以采用已知的方式来设计该语音识别器。车载-语音识别器(LOC ASR-Local ASR)根据语音输入44产生第一识别结果48，并把该识别结果输出给处理装置32。第一识别结果48例如可以包括一个或多个用于最终作为识别结果而被输出的语言文本34的语言文本候选对象50、52。

在第二识别模式38下，仅借助于服务器装置12实施非车载-语音识别(REM ASR-Remote ASR)。为此，语音表达26作为语音输入54通过处理装置32经由通信装置20被传送给服务器装置12。可以采用不同的格式(音频信号(音频流)或特征系数)传送语音输入54和语音输入44。然后，服务器装置12的第二识别结果56被处理设备32所接收。识别结果56也可以包括一个或多个语言文本候选对象58、60。

由于识别装置通常提供不同类型的语音交互，问题是要对传输中的语音输入类型进行分类，并将其传递给适当的语音识别机器。成功识别之后，必须对两个识别装置的结果进行分析，并将最相关的结果呈现给驾驶员。必须将所记录的音频的一部分传递给远程的识别装置。

因此，本发明提供了一种用于将车载的语音识别机器和非车载的语音识别机器的应用结合起来的方法。这种组合的语音对话系统包括四种不同类型的语音交互：

1)完全车载识别(模式36)：如用于命令、列表等的语音交互，在主单元中执行识别。

2)完全在线识别(模式38)：如扩展的搜索、语音转录成文本、复杂的对话等，在在线-服务器上执行识别并将结果作为文本下载到主单元上。

3)组合-流-识别(模式42、PAR-并行)：车载的识别和在线的识别的组合。音频同时被车载的ASR处理用于对本地的命令进行识别，并且被传输给远程服务器用于进行语音向文本的复杂转录。基于预定的优先级将两个识别装置的结果呈现给驾驶员。

4)组合的单-次-识别(模式40、SEQ-串行)：车载的识别和在线的识别的组合。音频首先被车载的ASR处理用于关键词识别。基于所识别的关键词，提取音频文件的一部分并将其传输给在线-识别装置。

这种组合识别装置的四种不同的运行模式36、38、40、42基于特定的功能情景而被用在语音对话系统中。在一个具体的使用情况下，对于每个对话步骤，对话管理器都可以使用四种识别运行模式的组合以及运行模式的变型。对于特定的对话，最佳的运行模式由识别任务的复杂性来确定。

在组合识别方式中，必须采用两种不同的方式提取所检测到的语音表达，并传输给两个ASR：

1)组合的流-识别(模式42)-在这种情况下，一旦建立起了连接，音频就被传输给服务器。同时处理车载的ASR本身的音频文件。一旦两个ASR中的一个成功识别，就要对结果进行分析并且系统必须决定，是否将该结果呈现给用户或者另外的ASR是否应当结束识别。该决定基于预定的优先级的量。

2)组合的单-次-检测(模式40)-在这种情况下，首先通过车载的ASR处理音频。在车载识别结束时，ASR从音频-流中识别出一定数量的预定的关键词，但也将音频的一部分标记为不被理解的。原始音频流的该部分被提取出来并被传输给在线-ASR用于扩展的语音识别。

通过处理装置32根据参数值可以执行模式36、38、40、42之间的切换，所述参数值由例如车辆内部的传感器和/或车辆状态监控装置和/或用于车辆外部的状态参数的接收器、例如移动通信接收器产生。因此，监视参数PAR通常描述特定的功能情景62、即情境语境，在该情境语境下执行语音表达26的识别。典型的情境语境是写消息或操作设备。另外，从两个识别结果48、60的语言文本候选对象50、52、58、60作出选择并作为最终的识别结果、即语言文本34，也可以根据功能情景62的当前的参数值通过选择模块66来进行。

通过所述示例表明，利用本发明可以实现以下优点：

·将车载的ASR和在线的ASR组合成用于在汽车中语音识别的四种不同的运行模式。

·基于车载的关键词提取，提取待在线-识别装置处理的音频-表达。

·同时进行车载识别和在线识别，识别结果具有优先级。

Claims

1.一种用于在机动车(10)中进行语音识别的方法，其中，由车辆内部的处理装置(32)从车辆内部的检测装置(30)接收用户(22)的语音输入(26)，通过处理装置(32)在不向用户(22)提出询问的情况下将至少一个所接收的语音输入(26)传输给一自动的语音识别系统以生成语言文本(34)，为此由处理装置(32)将语音输入(44)传输给车辆内部的车载-语音识别器(46)并由处理装置(32)从该车载-语音识别器接收第一识别结果(48)，

其特征在于，

由处理装置(32)将语音输入(54)全部或部分地也传输给车辆外部的非车载-语音识别器(12)，并由处理装置(32)从该非车载-语音识别器接收第二识别结果(56)，由处理装置(32)根据第一识别结果(48)和第二识别结果(56)确定语言文本(34)。

2.按照权利要求1所述的方法，其特征在于，在一串行的语音识别模式(40)中，首先将至少一个语音输入(26)传输给车载-语音识别器(46)用以进行关键词识别，接收第一识别结果(48)，根据第一识别结果(48)从语音输入(26)中提取至少一个不可识别的部分(54)并将其传输给非车载-语音识别器(12)。

3.按照上述权利要求中的任一项所述的方法，其特征在于，在一并行的语音识别模式(42)中，将至少一个语音输入(26)传输给车载-语音识别器(46)，并独立地将该至少一个语音输入传输给非车载-语音识别器(12)。

4.按照上述权利要求中的任一项所述的方法，其特征在于，由处理装置(32)根据针对预定语言文本内容而预定的优先级基于第一识别结果(48)和第二识别结果(56)确定语言文本(34)。

5.按照上述权利要求中的任一项所述的方法，其特征在于，由处理装置(32)根据至少一个环境参数(64)基于第一识别结果(48)和第二识别结果(56)确定语言文本(34)，所述环境参数描述机动车(10)中当前的识别情况(62)和/或当前的车辆状态(64)。

6.按照上述权利要求中的任一项所述的方法，其特征在于，由处理装置(32)根据用户(22)先前的操作处理基于第一识别结果(48)和第二识别结果(56)确定语言文本(34)。

7.按照上述权利要求中的任一项所述的方法，其特征在于，由处理装置(32)根据先前的语音输入的统计量基于第一识别结果(48)和第二识别结果(56)确定语言文本(34)。

8.按照上述权利要求中的任一项所述的方法，其特征在于，第一识别结果(48)和/或第二识别结果(56)包括N-最佳-列表，该N-最佳-列表包括多个按照名次排列的语言文本候选对象(50、52、58、60)和/或至少一个可能性标志，根据名次和/或所述至少一个可能性标志来确定语言文本(34)。

9.按照上述权利要求中的任一项所述的方法，其特征在于，至少一个与安全性相关的语音输入仅被传输给车载-语音识别器(46)。

10.按照上述权利要求中的任一项所述的方法，其特征在于，为进行语音识别而由处理装置(32)根据至少一个控制参数(64)从以下四种模式(36、38、40、42)中选出并激活一种模式：完全的车载-语音识别模式(36)、完全的非车载-语音识别模式(38)、串行的语音识别模式(40)、并行的语音识别模式(42)。

11.按照权利要求10所述的方法，其特征在于，控制参数(64)以关于当前的功能情景(62)的指示为基础。

12.一种用于机动车(10)的信息娱乐系统，该信息娱乐系统具有处理装置(32)，该处理装置被设计用于执行按照上述权利要求中的任一项所述的方法。

13.一种机动车(10)，具有检测装置(30)、车载-语音识别器(46)、处理装置(32)和通信装置(20)，其中，检测装置(30)被设计用于检测用户(22)的语音输入(26)并将所检测的语音输入(26)输出给处理装置(32)，处理装置(32)被设计用于执行按照权利要求1至11中任一项所述的方法，为此将语音输入(44)传输给车载-语音识别器(46)并通过通信装置(20)与车辆外部的非车载-语音识别器(12)通信。