CN105830151A

CN105830151A - 用于产生控制命令的方法和系统

Info

Publication number: CN105830151A
Application number: CN201480069564.9A
Authority: CN
Inventors: W·哈伯尔; K·科纳贝尔
Original assignee: Bayerische Motoren Werke AG
Current assignee: Bayerische Motoren Werke AG
Priority date: 2014-01-15
Filing date: 2014-12-19
Publication date: 2016-08-03
Also published as: DE102014200570A1; EP3095114A1; WO2015106930A1; EP3095114B1; US20160322052A1

Abstract

本发明涉及一种用于由口头表达产生控制命令(B)的方法，该口头表达包含自由措辞和使用者特定的术语，该方法包括如下步骤：a)通过记录装置(11)将包括多个单词(W)的语音命令记录(1)为音频数据流；b)通过网络(20)发送(2)音频数据流给第一语音识别装置(31)；c)由第一语音识别装置(31)接收(5)至少一个数据包，其中，所述数据包包含如下信息(I)：哪些单词(W)在音频数据流中未被识别出；d)通过第二语音识别装置(16)在使用至少一个数据库的情况下至少部分识别(7)未被第一语音识别装置(31)识别的单词(W)；e)将第一语音识别装置(31)和第二语音识别装置(16)的结果组合(8)为控制命令(B)；以及f)输出控制命令(B)。

Description

用于产生控制命令的方法和系统

技术领域

本发明涉及一种用于由口头表达产生控制命令的方法以及一种用于实施相应方法的系统。

背景技术

语音识别系统或语音诊断系统简化确定的设备的操作，其方法是它们能实现确定的功能的语音控制。这特别是在如下使用的情况下，在所述使用中如在车辆行驶时设备的手动操作是不期望或者不允许的。在车辆中例如可以语音控制地操作多媒体系统、导航系统或免提设备或移动电话。

为此存在嵌入的语音识别系统或设备集成的语音诊断系统，它们可以识别和处理一系列命令。这些系统本地地在使用者的设备(车辆、移动电话或其他)上是可用的。然而基于本地的运算单元的受限的运算能力自由措辞的语音命令不能被理解或者需要大量处理时间。经常地，使用者必须匹配于语音识别系统的命令结构或者遵循预定的命令句法。而且错误率可能是高的。

为了可以自由措辞地表达语音命令，应用基于服务器的语音识别系统。为此将语音输入发送给语音识别服务器并且在那里以识别软件处理。更高可用的运算能力和保存的词汇的更大的范围在此能实现较好的准确性。因此也可以识别和理解交际或日常语言措辞。

然而存在表达的如下部分，这些部分不能或者仅仅能糟糕地由基于服务器的语音识别来处理。表达的未识别或糟糕地识别的部分特别是可以是个别的单词，所述个别的单词源于使用者特定的词汇。使用者特定的词汇的例子是在地址或电话本中的联系或者在音乐收藏中的标题。

该问题的解决方案在于，允许语音识别服务器访问具有要识别的使用数据(地址簿、音乐收藏)的数据库。这些数据可以本地存在于使用者处的设备(例如车辆的车载计算机、移动电话)上。这些数据可以加载在服务器上并且如此使得基于服务器的语音识别系统可访问。但是如果涉及使用者的私人数据，这则是一个潜在的数据保护问题。用于在服务器上传输和存储数据的加密机制是必要的，以便阻止由第三者访问。再者需要提高的数据传输量，以便将大的数据库加载到服务器上并且定期更新。这特别是可能在通过移动无线电连接的系统中是成本密集的。

因此存在的兴趣在于，对于使用者能实现语音控制地操作设备和/或设备功能。特别是自由措辞的表达的语音识别是值得追寻的。附加地，存在多个使用者特定的术语、如地址簿条目，这些术语对于使用者友好的语音控制同样应被识别。

发明内容

基于这些要求，本发明的任务在于，提出一种方法，该方法安全和高效由口头表达产生控制命令。此外，本发明应提供一种系统，该系统构成为用于实施相应方法。

该任务通过按照权利要求1的方法并且通过按照权利要求8的系统解决。

特别是该任务通过一种方法解决，该方法包括如下步骤：

a)通过记录装置将包括多个单词的语音命令记录为音频数据流；

b)通过网络将音频数据流发送给第一语音识别装置；

c)特别是通过网络由第一语音识别装置接收至少一个数据包，其中，所述数据包包含如下信息，哪些单词在音频数据流中未被识别出；

d)通过第二语音识别装置在使用至少一个数据库的情况下至少部分识别未被第一语音识别装置识别的单词；

e)将第一语音识别装置和第二语音识别装置的结果组合为控制命令；以及

f)输出控制命令。

按照本发明将识别和处理口头表达的任务分配到两个语音识别装置上。由此可以利用相应语音识别装置的优点并且节省大数据量的传输。

优选地，第一语音识别装置是基于服务器的语音识别，该语音识别基于较高的运算能力和更大范围的词汇也能够识别和明白自由措辞的表达。然而，该第一语音识别装置也可以可能无法检测或者仅仅糟糕地检测个别的使用者特定的单词、例如地址簿条目或音乐标题。

这些单词却可以存在于一个或多个存储介质上的一个或多个数据库中。在此特别是可以涉及在使用者的移动设备(例如车辆、移动电话)中的存储介质。

第二语音识别装置至少部分识别未被第一语音识别装置识别的单词，只要涉及来自本地数据库的单词。通常第二语音识别装置处于使得该第二语音识别装置不能识别自由措辞，而是对于由第一语音识别装置尽可能识别的语音命令补充来自本地数据库的个别术语并且将其与之组合。

优选地，存在具有第二语音识别装置的运算单元，其与本地数据库连接。因为为了实施所述方法需要的硬件(例如麦克风、发送/接收单元、运算单元)已经存在于多个设备中，所以有利的可以是，连接存在的设备(车辆、移动电话以及其他)并且用于所述方法。连接可以特别是本地地通过短距离无线通信(“shortrangedevices”)或者有线地构成。

为了由识别的语音命令产生用于例如车辆的控制命令，第一语音识别装置可以包括一组车辆特定的命令。由识别的语音命令于是产生控制命令，控制命令以第二语音识别装置发送给运算单元并且由该运算单元在需要时补偿个别术语并且最后被输出。

本发明的构思在于，要识别的数据存在于相应语音识别装置中。这样表达的一般组成部分由在服务器上的语音识别装置识别，在所述服务器上存在相应语言中的一般的广泛的词典。该语音识别软件可以因此设计为非使用者特定的，因为语音识别软件涉及一般词汇。更新也可以更简单地进行，因为更新同样可以影响所有使用者。

使用者特定的数据又由在使用者的设备上的第二语音识别装置来识别，在该第二语音识别装置上存在相应数据库(地址簿、音乐收藏)或者所述数据库与所述使用者的设备本地连接。

这相对于数据库上传到服务器上具有决定性优点，不出现关于数据保护或数据安全的潜在性问题，因为数据本地保留在设备上并且服务器不对其进行访问。此外避免可能的移动无线电成本，该移动无线电成本将通过数据库的传输及其连续更新而产生。

第一语音识别装置可以创建一个或多个数据包，所述数据包包含语音识别的结果以及在最初的语音命令中未被识别或糟糕识别的单词的标记。可能的标记可以在于，第一语音识别装置传送在音频数据流内相应单词的时间和/或位置说明。

这些数据包可以由运算单元接收和处理。作为未被识别而被标记的单词可以被辨别并且为了识别被传送给第二语音识别装置。

紧接着输出控制命令，该控制命令由通过第一语音识别装置和第二语音识别装置识别的部分组合而成，可以将控制命令传送给接收器。接收器可以是例如车辆中的导航设备、多媒体系统和/或免提装置。在语音命令接收器与运算单元之间的通信于是特别是通过车辆总线实现。语音命令可以在此用于控制设备功能(例如选择电话号码、开始导航、播放音乐标题、打开/关闭活动车顶、调节座椅、打开行李舱)。因此可以简化操作并且节省用于开关或诸如此类的空间。此外在行驶期间，口头操作相比于手动操作产生对于驾驶员更少的精神分散。

在一个实施例中，由记录设备记录的音频数据流的发送可以通过公共网络实现。在此特别是涉及移动无线电网络。这在如下情况下特别是重要的，即，用于实施按照本发明方法的步骤a)至f)的装置是移动的、例如是车辆的部分。与服务器的连接那么必须无线地构成，例如通过移动无线电。

设置用于实施按照本发明的方法的步骤a)至f)的装置同样应连接。在此可以涉及有线连接(例如车辆总线)或者短距离无线连接(“Shortrangedevices”，例如蓝牙)。

所述任务此外可以通过一种系统解决，该系统包括至少一个记录装置，用于记录语音命令；以及至少一个存储介质，具有至少一个数据库；以及用于由第一语音识别装置接收至少一个数据包的设备，其中，所述数据包包含在语音命令中未被识别出的单词的标记；以及第二语音识别装置，用于在使用至少一个数据库的情况下识别所标记的单词。第二语音识别装置可以集成到用于接收数据包的设备中。

系统可以构成为，实施所述方法中之一。同样所述方法可以利用之前或之后描述的系统的所有或一些构件来实现各个步骤。

在另一实施例中，所述系统此外包括具有第二语音识别系统的运算单元，其中，在运算单元、记录装置与存储介质之间存在有线连接和/或短距离无线连接，特别是通过蓝牙。特别是，所述系统的不同装置可以位于在单个设备中。该设备可以特别是车辆或移动电话或车辆或移动电话的一部分。也可以考虑的是将装置分布到多个连接的设备上。

所述系统除了所述装置之外也可以包括服务器，第一语音识别装置位于在所述服务器上。在所述服务器与具有第二语音识别装置的运算单元之间应存在通过公共网络的无线连接。在此特别是可以涉及移动无线电网络。服务器特别是尽可能位置固定的，而系统另外的组成部分可以构成为移动的。服务器可以提供网络服务并且因此通过因特网是可接入的。

在另一实施例中，所述系统此外包括车辆，其中，用于实施方法的一个或多个装置除了服务器之外是车辆的部分。例如运算单元、存储介质和/或记录装置可以存在于车辆中。例如可能的是，车辆的车载计算机是运算单元，数据库中之一位于在车辆的内部存储器上并且记录装置是移动电话的麦克风。电话可以通过蓝牙与车辆连接。在此优点在于，需要的硬件(存储介质、记录装置、运算单元)已经存在并且相互连接或者连接可容易地建立。

运算单元可以构成为，将由所识别的语音命令产生的控制命令传送给至少一个用于控制设备功能的设备。传送可以通过车辆总线实现。接收设备可以特别是车辆中的导航系统、多媒体系统和/或免提装置。

所述任务此外通过具有指令的计算机可读的介质来解决，该指令设置用于当在运算单元上执行所述指令时实施上述方法中之一。

其他有利的实施例根据从属权利要求产生。

附图说明

在以下借助于多个实施例描述本发明，根据附图进一步阐明各实施例。图中：

图1示出方法流程图；

图2示出系统的视图；

图3示出具有车辆和移动电话的系统；

图4示出包括多个单词的语音命令；

图5示出由语音命令产生的控制命令和信息；

图6示出通过第二语音识别装置对未被识别出的单词的识别；以及

图7示出将控制命令的各部分组合为一个控制命令。

具体实施方式

在以下描述中对于相同和作用相同的部分应用相同附图标记。

在图1中示出方法可能的流程。在开始，将语音命令记录1为音频数据流。该音频数据流发送2给第一语音识别装置。第一语音识别装置检查并且识别3音频数据流的内容并且标记4所述记录的识别出的和未被识别出的部分。这样产生的结果被接收5并且如此处理，使得实施划分6为具有成功A和未成功B的语音识别的各部分。未被识别出的部分B由第二语音识别装置至少部分地识别7。如此获得的信息与由第一语音识别装置识别出的部分A组合8为控制命令。最后控制命令传送9给接收器。

图2示出相应系统的结构，该系统构成为用于实施所述方法。运算单元15与记录装置11、存储介质17以及控制命令接收器12连接。此外通过网络20，运算单元15与服务器30连接。第一语音识别装置31位于在服务器30上，而第二语音识别装置16位于在运算单元15上。

在运算单元15、记录装置11、存储介质17与控制命令接收器12之间的连接通过近距离通信(例如车辆总线、蓝牙)建立。由运算单元15到服务器30的连接通过特别是无线网络亦即例如移动无线电网络实现。

由此原理上可能的是，运算单元15、记录装置11、存储介质17和控制命令接收器12构建在一个设备中。也可以涉及多个设备，它们相互连接。因为构件11、15和17在多个现代设备(如移动电话、车辆、笔记本电脑)中存在，所以特别有利的是，连接这样的设备并且用于实施方法。服务器30如论如何不与设备中的其他装置之一连接。

服务器30上的第一语音识别装置31优选如此构成，使得该第一语音识别装置检测大范围的词汇并且可以理解自由措辞。此外基本的特性在于，语音识别装置可以进行对音频数据流的如下部分的标记4，该部分不被或者仅仅糟糕地被识别出。

图2中的系统的一个实施例在图3中示出。在此除了已经提到装置之外还示出车辆40和移动电话50。在示出的设置中，运算单元15是车辆40的一部分。运算单元15那么例如可以通过车载电脑实现。控制命令的接收器12同样位于在车辆40中。在此那么可以涉及车辆40的多媒体或娱乐系统。具有使用者数据的存储介质17是移动电话50中的存储卡。位于其上的数据例如可以是地址簿或电话簿中的联系数据或者音乐收藏中的标题。作为用于语音命令的记录设备11在示出的例子中应用移动电话的麦克风。

电话50与车辆40通过蓝牙或其他短距离通信连接。连接也可以构成为有线的。

特别是在图3中示出的实施例中，运算单元15、记录装置11、存储介质17和控制命令接收器12是移动的。服务器30一般是位置固定的并且通过无线网络20存在与运算单元15的连接。

除了在图3中示出的实施方案也可想到其他实施方案，其中运算单元15例如通过另外的构建在车辆40中的处理器或者移动电话50的处理器构成。

记录装置11除了移动电话50的麦克风之外也可以是属于车辆40的麦克风，例如免提装置或者特别设置用于语音控制的麦克风。

存储介质17除了移动电话50的存储卡之外也可以是内部电话存储器。此外存储介质17也可以是车辆40中的内部存储器或者与车辆40连接的USB盘、硬盘或诸如此类。

用于利用在图3中示出的系统按照本发明的方法产生控制命令B的例子在图4至7中示出：

语音命令用语音输入到移动电话50的麦克风11中。这例如是如下句子：“关闭窗户并且打电话给托拜厄斯·伯恩”。由车辆40的车载电脑15将语音命令的记录通过移动无线电网20发送给服务器30并且在那里语音识别服务地处理。在此，在图4中句子部分“关闭窗户”相应于W1，部分“并且打电话”相应于W2，部分“托拜厄斯·伯恩”相应于W3，而部分“给”相应于W4。语音识别软件31识别W1、W2和W4，而不识别W3。如图5所示，语音识别装置31由W1产生控制命令B1以便关窗。语音识别装置31由识别的单词W2和W4产生控制命令B2a，执行打电话，结合信息I，即该命令涉及在时间标志T2与T3之间的语音命令的一部分。该信息I由车载电脑15接收。如图6所示，通过时间标志T2与T3的说明标记的部段W3由安装在车载电脑15上的语音识别程序16此外与使用者的地址簿中的单词比较。在图7中识别的名字“托拜厄斯·伯恩”B2b由车载电脑15与控制命令B2a组合为控制命令B2，该控制命令触发打电话给托拜厄斯·伯恩。

除了在图4至7中和在所属的描述中提及的表达W和控制命令B之外可以应用任意表达W和控制命令B。控制命令B此外也可以由运算单元15产生。

未被识别出的单词W的标记除了通过时间标志T实现之外也可以通过其他表征性的措施实现。

控制命令B的识别也可以首先通过第二语音识别装置16实现并且随后为了识别一般的表达而发送给第一语音识别装置31。

各个描述的实施例可以以不同方式按照本发明地组合。

附图标记列表

1记录语音命令

2发送记录给第一语音识别系统

3通过第一语音识别系统识别

4标记记录的未被识别出的部分

5接收结果

6记录分为如下部分：

A：成功的语音识别

B：未成功的语音识别

7通过第二语音识别系统的语音识别

8语音识别结果的组合

9将控制命令传送给接收器

11语音命令记录装置

12语音命令接收器

15运算单元

16第二语音识别系统

17存储介质

20网络

30服务器

31第一语音识别系统

40车辆

50移动电话

W1-W4在语音命令中一个或多个单词的部段

T0-T4音频数据流中的时间标志

B1/2控制命令

I关于未被识别出的单词的信息

Claims

1.用于产生控制命令(B)的方法，包括如下步骤：

a)通过记录装置(11)将包括多个单词(W)的语音命令记录(1)为音频数据流；

b)通过网络(20)发送(2)音频数据流给第一语音识别装置(31)；

c)特别是通过网络(20)由第一语音识别装置(31)接收(5)至少一个数据包，其中，所述数据包包含如下信息(I)：哪些单词(W)在音频数据流中未被识别出；

d)通过第二语音识别装置(16)在使用至少一个数据库的情况下至少部分识别(7)未被第一语音识别装置(31)识别的单词(W)；

e)将第一语音识别装置(31)和第二语音识别装置(16)的结果组合(8)为控制命令(B)；以及

f)输出控制命令(B)。

2.根据权利要求1所述的方法，其特征在于如下步骤：

g)通过第一语音识别装置(31)标记(4)在音频数据流中未被识别出的单词(W)并且通过第一语音识别装置(31)创建数据包。

3.根据权利要求2所述的方法，其特征在于，所述步骤g)包括：

通过在音频数据流内的时间和/或位置说明(T)标记(4)在音频数据流中未被识别出的单词(W)。

4.根据上述权利要求之一所述的方法，其特征在于如下步骤：

h)通过运算单元(15)处理(6)所述至少一个数据包并且将标记为未被识别出的单词(W)发送给第二语音识别装置(16)。

5.根据上述权利要求之一所述的方法，其特征在于，所述步骤f)包括：

特别是通过车辆总线将控制命令(B)传送(9)给至少一个用于控制功能的接收器(12)。

6.根据上述权利要求之一所述的方法，其特征在于，所述步骤b)包括：

通过公共网络(20)特别是移动无线电网发送(2)音频数据流。

7.根据上述权利要求之一所述的方法，其特征在于，设置用于实施步骤a)-f)和h)的装置有线地和/或通过短距离无线通信、特别是通过蓝牙相互连接。

8.用于特别是在使用根据权利要求1至7之一所述的方法的情况下产生控制命令(B)的系统，该系统包括：

-至少一个记录装置(11)，用于记录(1)语音命令，所述语音命令包括多个单词(W)；以及

-至少一个存储介质(17)，具有至少一个数据库，其特征在于：

-用于由第一语音识别装置(31)接收(5)至少一个数据包的设备，其中，该数据包包含在语音命令中未被识别出的单词(W)的标记；以及

-第二语音识别装置(16)，用于在使用所述至少一个数据库的情况下分析和识别所标记的单词。

9.根据权利要求8所述的系统，包括：

-运算单元(15)，具有第二语音识别系统(16)，其特征在于，

在运算单元(15)、记录装置(16)与存储介质(17)之间存在有线连接和/或短距离无线连接，特别是通过蓝牙。

10.根据权利要求9所述的系统，包括：

-服务器(30)，具有第一语音识别装置(31)，其中，在运算单元(15)与服务器(30)之间存在通过公共网络(20)的无线连接。

11.根据权利要求9或10所述的系统，包括：

-车辆(40)，

其特征在于，运算单元(15)和/或存储介质(17)和/或记录装置(11)是车辆(40)的部分。

12.根据权利要求11所述的系统，其特征在于，运算单元(15)构成为用于将产生的控制命令(B)特别是通过车辆总线传送给至少一个用于控制功能的接收器(12)。

13.计算机可读的介质，具有指令，用于当在运算单元上执行所述指令时实施按照权利要求1至7之一所述的方法。