CN106463115B

CN106463115B - 借助于语音输入能够控制的、具有功能装置和多个语音识别模块的辅助系统

Info

Publication number: CN106463115B
Application number: CN201580029490.0A
Authority: CN
Inventors: H-W·吕尔; J·沃尔瑟
Original assignee: Continental Automotive GmbH
Current assignee: Continental Automotive Technologies GmbH
Priority date: 2014-06-05
Filing date: 2015-05-29
Publication date: 2020-06-09
Anticipated expiration: 2035-05-29
Also published as: WO2015185464A1; ES2727080T3; EP3152753A1; EP3152753B1; DE102014210716A1; CN106463115A

Abstract

本发明涉及一种至少能够部分地借助于语音输入(12)来控制的辅助系统(3)，该辅助系统具有功能装置(6)和语音识别装置(5)，语音识别装置具有至少一个第一语音识别模块(9)和第二语音识别模块(10)，第一语音识别模块按照第一规则系统为语音输入(12)分配含义，第二语音识别模块按照第二规则系统为语音输入(12)分配含义，分别根据两个语音模块(9、10)之一的结果来确定，第一语音识别模块(9)处理哪些语段(12a、12b)并且第二语音识别模块(10)处理哪些语段。第一语音识别模块(9)由此可以识别工作指令、例如导航指令，而第二语音识别模块(10)则可以以辅助语言来识别由于缺少翻译而未以用户语言保存到地址数据库的地址说明。

Description

借助于语音输入能够控制的、具有功能装置和多个语音识别模块的辅助系统

技术领域

本发明处于自动化、电子技术和数据处理的领域内并且能够以特殊的好处在操作设备时使用，所述设备用在车辆或者其他运输工具内并且可以在语音控制的情况下使用，以便仅仅最小程度地占去对其他重要任务、例如车辆的驾驶进行处理的用户的注意力和操纵能力。例如这样的辅助系统用于操作机动车中的装置、例如导航系统和多媒体设备。

背景技术

在语音控制下，例如车辆的驾驶员可以向其导航设备发出指示并且将所述指示与地址说明联系起来。类似的指示可以结合电话机来进行，从而可以说出收信人或者目标电话号码并且可以告知电话机，应该用这个号码做什么，例如是否要给这个电话号码打电话或者是否要在所说明的电话号码下面编制新的电话簿记录。

相应的语音识别方法在这期间如此得到发展，从而可以比较可靠地识别指示和地址。但是一旦用于指示和数据库内容、例如道路名称的发音规则不再清楚的话，这样的技术设备就碰到了极限。这样的情况可能在下述情况下容易出现，驾驶员开着他的车到了外国，在那里讲一种他并不掌握或者掌握得不好的语言。

经常可行的是，至少对于导航系统来说将一个国家的道路名称以本地语言加以保存。此外，经常也翻译成另一种讲得多的语言。但是难以保证，对于在可能的目标国里的用户的所有可考虑的母语来说——所述用户可能会在所述目标国里移动——将相应的本国道路名称按照发音以用户的母语或者家乡语言保存在数据库中。

于是可以通过不同语言的发音相似性来尝试：还是以目标国的未掌握的语言为地址说明分配语音输入，但是为此要使用不小的计算开销并且由此要使用一种计算能力，该计算能力在通常在机动车内所使用的嵌入式系统中不可用。

已经部分地公开了用于掌控这些问题的解决尝试。因此，在欧洲专利申请1975923A1中介绍，为所说出的输入内容的特定元素编制所谓的混淆-或者相似性矩阵，该混淆-或者相似性矩阵表示一个词与另一种语言的特定的其他词的混淆可能性。根据这个混淆矩阵，可以借助于分配矩阵来最终尝试为所说出的指令的特定元素分配具有提高了可能性的正确含义。但是，在这种情况下，似乎要类似地对所说出的消息的所有元素进行处理，并且似乎针对所述元素中的每个元素的含义分配也允许用于不同语言的假设。由此，尤其对于组合的指令来说，含义分配十分麻烦而且复杂。

从美国专利申请2002/0091518 A1中公开了一种语音识别装置，在该语音识别装置中在区别特定的交流情况之后有选择地使用两个语音识别模块。规则似乎是相同的，根据这些规则在各个模块中进行语音识别。

发明内容

在现有技术的背景下，本发明的任务是，提供一种具有语音识别装置的辅助系统，所述语音识别装置在使用尽可能少的资源的情况下能够跨语言地并且以尽可能高的精度/准确度来识别语音输入。

与之相应地，本发明涉及一种至少能够部分地借助于语音输入来控制的辅助系统，该辅助系统具有功能装置和语音识别装置，其中所述语音识别装置具有至少一个第一语音识别模块和第二语音识别模块，所述第一语音识别模块按照第一规则系统为语音输入分配含义，并且第二语音识别模块按照第二规则系统为语音输入分配含义，其中分别根据所述两个语音识别模块之一的结果来确定，所述第一语音识别模块处理语音输入的哪些语段，所述第二语音识别模块处理哪些语段。

按照本发明的辅助系统例如可以具有用于机动车的导航系统或者具有用于车内或者车外的移动电话或者其他能够语音控制的装置的控制单元的多媒体控制系统来作为功能装置。在所述语音识别装置中使用两个语音识别模块，所述语音识别模块根据不同的规则系统对语音输入进行解释。这一点成为可能，可以让所述两个语音识别模块以不同的语言或者根据不同的发音规则对语音输入进行处理。这一点成为可能，因为在现代的嵌入式系统中，刚好有足够的计算机能力可供使用，以便同时或者交叠地运行多个语音识别模块或者间歇地在其之间切换。由此可以将语音输入划分为多个语段，所述语段可以根据不同的规则系统通过不同的语音识别模块来处理。将语音输入划分为语段的做法例如可以根据以下标准来进行：第一部分以由语音识别模块所掌握的用户语言来输入并且而后也被识别，而第二个语段则以另一种语言或者根据另一种语言的发音规则来输入。这一点尤其是有利的，如果所述语音输入的一部分涉及应该在地址数据库里、例如在导航系统中的地理地址或者移动通信装置中的电话号码中找到的说明。

本发明在此可以有利地通过以下方式来设计：所述语音识别模块为了将含义分配给所述语段而使用来源于不同语言的规则。

本发明的一种有利的设计方案规定，所述语音识别模块，根据其结果来确定所述语段，如此辨别语段，尤其是将所述语音输入如此划分为语段，使得所述语段中的至少一个第一语段基本上识别为工作指令，并且对于所述语段中的至少一个第二语段假定在地址数据库中的记录，该记录尤其具有地名和路名或者地名和特殊地点(POI或者兴趣点)的名称。

确定所述语段、例如按照时间长度将所述语音输入划分为合适的部分的语音识别模块，为此可以首先将语音输入的部分与以所设定的用户语言说出的可能的工作指令进行比较，并且，一旦获得与工作指令达到足够的相似性就将相应的、具有所述工作指令的语段与所述语音输入的剩余部分隔开。然后所述语音输入的剩余部分、也就是例如第二语段，可以被输出给另一个语音识别模块，以进行进一步处理。

在此可以连续地、也就是顺序地，但是也可以交叠地或者同时在多个语音识别模块中进行处理。在同时处理时，所述两个语音模块可以在语音输入中寻找优选有待由其处理的语段并且相应地建议划分为语段。如果所建议的语段的划分一致，那就可以根据相应的建议来对所述语音输入进行划分。如果由所述语音识别模块所建议的语段划分不一致，则可以规定，所述语音识别模块之一在关于所述划分进行判定时具有优先地位。

一般来说，一种专门识别工作指令的语音识别模块可以以较大数目的用户语言在没有较大的开销的情况下来运行。而旨在用于对所说出的、来自地址数据库的地址进行识别的语音识别数据则通常仅仅以十分有限数目的语言存在，因为对在数据库中所保存的地址的发音的描述通常仅仅以本国语言来提供。

但是例如可以预先规定，所述地址或者名称以源语言或者以流行的语言、例如英语、德语或者法语来发音，其中至少可以以主要考虑的语言作为辅助语言将相应的发音描述保存到所述数据库。这然后会引起以下优点：相应的数据库不必翻译成每种要考虑的用户语言。这例如在一些国家中是有利的，这些国家与像例如大不列颠那样的国家相比使用不太流行的语言、例如瑞典语或者挪威语。

此外，本发明的一种有利的设计方案规定，通过由使用者选择的语言来设定语音识别模块，根据所述语音识别模块的结果确定/辨别语段。

此外可以有利地规定，所述语音识别模块，根据其结果确定/辨别语段，是被设计用于对工作指令进行识别的模块。

以用户语言来工作的语音识别模块经常具有比被设计用于以辅助语言对数据库记录进行识别的语音识别模块好的识别率。

但是也可以规定，所述语音识别模块，根据其结果确定/辨别语段，被设计用于对地址数据库中的记录进行识别。

此外，本发明的一种有利的设计方案规定，所述第一语音识别模块根据所述辅助系统的第一用户语言的规则和发音规则为语段分配含义、尤其是工作指令。

此外，可以有利地规定，所述第二语音识别模块根据与第一用户语言不同的第一辅助语言的规则、尤其是发音规则来为语段分配含义。

在此，尤其可以规定，所述第二语音识别模块根据与第一用户语言不同的第二辅助语言的规则、尤其是发音规则来为语段分配含义。

为了尽可能好地识别含义内容，可以规定，也按照不同的规则系统为有待识别的语段分配不同的含义内容，并且随后按照所定义的度量标准(Metrik)来选择最有可能的含义内容。

在此也可以规定，相应地按照至少两种不同的辅助语言的发音规则来为有待识别的语段分别分配含义，并且按照所定义的度量标准来选择最有可能的含义。

本发明也可以有利地通过以下方式来设计：在考虑到当前所使用的用户语言的情况下由所述辅助系统来选择所述第一辅助语言并且尤其也选择所述第二辅助语言。在此假设，所述辅助系统的用户选择一种他比较好地掌握的语言来作为用户语言。由此可以推断出与所述用户语言不同的其他语言，但是所述其他语言的发音例如与所述用户语言的发音比较类似并且所述其他语言供所述第二语音识别模块的运行所用。例如，如果用户将意大利语选择作为使用语言，而意大利语没有供所述第二语音识别模块所用，那么对于所述第二语音识别模块来说选择西班牙语来作为辅助语言，因为掌握意大利语的用户的西班牙语的发音可能比其英语的发音好。

如果例如瑞典语和丹麦语供识别地址数据库中的地址所用并且如果用户选择了德语作为使用语言，那么例如作为辅助语言赋予瑞典语以优先权，因为瑞典语的发音规则可能比丹麦语的发音规则更加类似于德语的发音规则。

但是也可以规定，能够由用户来选择所述第一辅助语言并且尤其也能够由用户来选择所述第二辅助语言。由此能够将可能基本掌握所述辅助语言之一的用户的偏好或者可能特殊的能力考虑在内。

此外，本发明涉及一种辅助系统，也涉及一种用于运行上面所描述的类型的辅助系统的方法。

附图说明

下面借助于实施例在附图中示出本发明并且接下来对其进行解释。

在此：

图1示意性地示出了具有用户和辅助系统的机动车的示意图；

图2以示意形式示出了语音识别装置；

图3示出了被划分为多个语段的语音输入；

图4示出了语音识别方法的第一流程图；并且

图5示出了语音识别方法的第二流程图。

具体实施方式

图1示意性地示出了一机动车1，该机动车具有坐在其中的用户2以及辅助系统3，所述辅助系统仅仅示意地被勾画出来并且包括车辆导航系统。所述辅助系统3具有语音输入装置4、语音识别装置5以及用于真正导航的功能装置6。而后例如GPS模块与所述功能装置相连接或者该功能装置包括所述GPS模块，所述GPS模块确定车辆的瞬时位置/当前位置、将其与目的地联系起来并且从中确定线路或者导航指示并且将其输出给驾驶员。

在图2中示意性地更为详细地示出了所述语音识别装置5。该语音识别装置5与麦克风7相连接，由该麦克风将由声学信号通过该麦克风已经转化为模拟的电信号的信号传送到模数转换器8中。所述信号从模数转换器到达象征性地通过三角形示出的语音识别模块9、10处。这两个示出的语音识别模块9、10相应地形成所述语音识别装置5的部件。

所述第一语音识别模块9具有输入部9a以及存储装置9b。所述输入部9a按照一种算法将所述信号分解为矢量，使得这些矢量能够被识别并且可以与在所述存储装置9b中所保存的参考矢量进行比较。用于分解成矢量的算法例如可以包括傅里叶变换，使得所述矢量的要素意味着或者包括某些频率分量的幅度，或者所述算法也可以包括多项式分解，使得所述矢量的各个分量意味着多项式分量，或者是两种方法的组合或者也可以是另一种从现有技术中已知的、用于将声学数据映射到音位上的方法。在表示出语音数据的特征之后，可以将所述语音数据与在所述存储装置9b中所保存的语音数据进行比较，并且可以为所述语音数据分配由音位构成的组合，所述音位根据预先给定的度量标准与基准参量具有最大的相似性。

在此在所述存储装置9b中例如也包含了导航指令，例如“我想去…”或者“请向…行驶”或者“导航去…”等等。

所述第一语音识别模块9由此可以确定，它是否识别所述语音输入的部分作为导航指令。成功做到这一点的可能性比较高，因为对于所述导航的这个部分来说通常许多用户语言可供使用，因而用户可能会以其母语来说话并且由此正确发音并且对语音输入进行识别的可能性较高。

如果识别到导航指令，那么通常就剩下所述语音输入的部分，该部分与地址相对应并且并不总是能够通过所述第一语音识别模块9来识别。所述第一语音识别模块9可以将这个语段与它已经识别的语段分开，并且为进行进一步分析而将其传输给所述第二语音识别模块10。但是所述两个语音识别模块——所述第一语音识别模块9和所述第二语音识别模块10也可以同时访问所述语音输入、也就是访问通过所述模数转换器来输出的信号，使得所述语音模块中的每个语音模块可以识别，它可以成功地分析的语音输入的部分。

所述第二语音识别模块10按照本发明可以用与所述第一语音识别模块不同的语音录音数据(Lautumschriftdaten)来工作，这意味着，在将所述信号与地址数据库10b中的记录进行比较时，可以以与所述用户语言不同的语言、也就是例如第一辅助语言来发音。由此将所述语音信号按照以不是用户语言的辅助语言的语音录音与所述数据库9b的记录进行比较。这例如可以是地址数据目录的原始语言，也就是说对于瑞典语的地址目录来说(也就是该地址目录包含瑞典语的路名)这可能就是瑞典语。但是，瑞典语的路名的发音也可以根据英语的发音规则来作为基础，或者所述发音也可以按照另一种可供使用的辅助语言来作为基础。

通常在此必须假设，用户的发音比在使用所述语音输入的一部分的情况下更大地偏离以第一种或者第二种辅助语言进行的理想发音，其中所述语音输入的那部分以用户语言来进行并且通过所述第一语音识别模块9来处理。但是，在为此所作的补偿中，对于地址输入来说没有像在比较自由地输入导航指令时那样预料到如此多种多样的、通过词形变化或者其他改动引起的变化。

对于所述第二语音识别模块10的分析任务来说，也将所述语音信号与不同的、在所述数据库10b中所保存的语音录音进行比较，并且分配与所选择的语段的语音信号最相似的记录。在此，语音录音也可以考虑同时用不同的辅助语言，在上面所介绍的实例中以英语和瑞典语，并且在与所述语音输入的相似性方面彼此进行比较，以便找到最佳匹配。在通过所述两个语音识别模块9、10对所述语音输入的语段进行处理之后，将相应地通过所述语音识别模块来分配的含义内容组合起来，并且可以将其输出给输出装置11，所述输出装置可以包括例如形式为屏幕的光学显示器11a以及例如形式为扬声器11b的声学的输出单元。于是，所识别的语段可以像它们已经被识别了一样再次被输出，以便要求用户来确认。在确认之后，将所识别的含义内容传输给真正的功能装置，所述功能装置确定所述导航数据库中的地址的地理位置并且与当前位置建立关系。

图3示意性地示出了一种语音输入12，该语音输入包含随着时间(通过时间箭头t示出)变化的声学信号或者电信号，并且所述语音输入能够划分为不同的语段12a、12b。也可以在一段语音输入中存在二个以上、例如三个或者四个语段。

图4示意性地示出了一种方法流程，在该方法流程中在第一步骤13中在按本发明的辅助系统内由用户说出的语音输入，由麦克风将其记录下来并且将其转换为电信号或者电信号曲线。在第二方法步骤14中，由第一语音识别模块9以用户语言来分析所输入的语音信号，为语段——所述第一语音识别可以为该语段分配含义——分配含义内容，并且将其余的语段传输给所述第二语音识别模块，或者，如果所述语音信号作为整体同时由所述两个语音识别模块9、10来处理，那就在该时刻由所述第一语音识别模块向所述第二语音识别模块发送所述第二语音识别模块在处理时应该采用哪个语段的信息。

在可以与所述第二步骤14同时进行或者在所述第二步骤14之后进行的第三步骤15中，通过所述第二语音识别模块10对所述语音信号的、未通过所述第一语音识别模块9来处理的语段进行分析。同样为这个语段分配了一种含义，并且在第四步骤16中将所述第一和第二语音识别模块9、10的所分配的含义内容组合成总体解释并且在第五步骤17中将其输出。

图5详细地示出了一种过程，在该过程中使所述语音识别装置适合于具有地址记录的数据库相匹配。例如在下述情形下会是这种情况，驾驶员通知导航设备：下一个目的地在另一个国家。

首先，输入以下信息来作为输入信号：要使用新的地址数据库或者使用已经用过的地址数据库的新的以往未使用的部分。在第一步骤18中获知，是否可以以在辅助系统的所使用的用户语言来使用所述新的数据库。如果是这种情况，则转到方法过程19，其中以用户语言对所述语音输入的全部内容、也就是说所有不同的语段进行分析。

如果在所述新的数据库中所述用户语言得不到支持，则跳到步骤20，在该步骤中确定，所述新的数据库是否支持以多种语言来识别地址数据。如果不是这种情况，则进行到第二方法流程21，然后在该第二方法流程中所述第二语音识别模块以唯一可供使用的语言识别地址数据，而所述第一语音识别模块继续以所述辅助系统的用户语言来工作，而后以不同的语言对所输入的语音信号的两个语段进行处理。

如果多种不同的语言被所述新的数据库支持，也就是说，如果用于所述地址的语音录音以不同的语言而存在，则跳到第三方法步骤22，在该第三方法步骤中确定，当前用户是否偏爱被新的数据库所支持的语言中的一种语言。如果是这种情况，那这种语言被设定用于在第三方法流程23的范围内由所述第二语音识别模块10进行的处理。接下来关于包含导航指令的第一语段通过所述第一语音识别模块以所述用户语言对所述语音信号进行分析，而包含地址数据的第二语段则以被用户所偏爱的语言通过所述第二语音识别模块来处理。

如果用户没有输入由其偏爱的语言并且在所述系统中不存在所偏爱的语言，则从所述第三方法步骤23跳到第四方法步骤24，在该第四方法步骤中将预先给定的、被新的数据库支持的辅助语言用于所述第二语音识别模块的分析活动，而所述第一语音识别模块则以所述用户语言对语段进行分析。

原则上，按照本发明的系统由此允许用户一方面以用户语言发出导航指令并且进行地址输入，并且如果所述用户语言不能用于地址输入，则对于所述地址可以使用其他的语言(辅助语言)。可以通过第二语音识别模块以辅助语言来对地址进行识别，而在第一语音识别模块中则以用户语言对工作指令进行识别。通过在实施第一识别过程之后实施第二识别过程这种方式，没有提高数据处理系统的负荷率。

但是，这两个语音识别模块也可以并行地工作。在这种情况下要忍受提高了的系统负荷率。但是，所述第二语音识别模块必须将其以辅助语言所识别的语段与应该以用户语言来处理并且所述第二语言识别模块没有识别出的语段分开。

在一种顺序地对不同语段进行处理的变型方案中，可以首先通过以用户语言来工作的第一语音识别模块来识别语音信号并且将其划分为第一和第二语段，其中所述第一语段可以以所述用户语言并且所述第二语段可以以辅助语言来处理/识别。在划分两个语段时的不准确性可能会提高潜在的错误率，因为可能在接下来的处理步骤中，如果所述第二语音识别模块根据辅助语言的规则来实施识别，那就可能将所述语音信号的一部分作为不可识别的语段来抛弃。如果首先通过所述第一语音识别模块来识别工作指令——该工作指令在所述语音信号中包围所述第二语段中的地址部分或者在该地址部分之前——并且将原文一同转交给所述第二语音识别模块，那么对于所述第一语段与所述第二语段之间的过渡的建模以及通过所述第二语音识别模块对所述第二语段进行的识别就得到了简化。为此，可以将所述语音信号的、已经通过所述第一语音识别模块识别的部分转换为对所述第二语音识别模块来说能够识别的形式、也就是例如辅助语言的语音录音，使得所述第二语音识别模块也识别所述语音信号的、不必由其进行分析的部分。由此在所述第二语音识别模块内能够实现对于整个语音信号的建模，由此提高所述第二语段中的地址部分的识别可靠性。对用于所述第二语音识别模块的第一语段的额外的建模仅仅微不足道地提高了时间上的处理开销，因为已经知道了所述第一语段的内容。

Claims

1.至少能够部分地借助于语音输入(12)来控制的辅助系统(3)，具有功能装置(6)和语音识别装置(5)，其中所述语音识别装置具有至少一个第一语音识别模块(9)和第二语音识别模块(10)，所述第一语音识别模块按照第一规则系统处理语音输入(12)，并且第二语音识别模块按照第二规则系统处理语音输入(12)，其中分别根据两个语音模块(9、10)之一的结果来确定，所述第一语音识别模块(9)处理哪些语段(12a、12b)并且所述第二语音识别模块(10)处理哪些语段，

其中，

所述语音识别模块(9、10)使用来自于不同语言的规则来将导航指令和地址分配给语段，

具有所述语音识别装置(5)的所述辅助系统(3)是机动车(1)的组成部分，

所述辅助系统(3)包括车辆导航系统，并且，

所述语音识别装置(5)被设计成用于输入用于车辆导航系统的指令和地址，以及根据所选的地址数据库处理输入到第一和/或第二语音识别模块(9、10)中的指令和地址，

根据所述语音识别模块(9、10)的结果来确定所述语段(12a、12b)，所述语音识别模块如此辨别所述语段，使得所述语段中的至少一个第一语段(12a)基本上作为导航指令被识别，并且对于所述语段中的至少一个第二语段(12b)对应于地址数据库中的记录，

所述第一语音识别模块(9)根据所述辅助系统的第一用户语言的规则来为第一语段(12a)分配导航指令，

所述第二语音识别模块(10)根据与所述第一用户语言不同的第二辅助语言的规则来为第二语段(12b)分配地址。

2.根据权利要求1所述的辅助系统，其特征在于，在考虑到当前所使用的用户语言的情况下由所述辅助系统选择第一辅助语言并且也选择第二辅助语言。

3.根据权利要求1所述的辅助系统，其特征在于，能够由用户来选择第一辅助语言并且也能够由用户来选择第二辅助语言。

4.根据权利要求1所述的辅助系统，其特征在于，所述第一语音识别模块(9)根据所述第一用户语言的发音规则来为第一语段(12a)分配导航指令，所述第二语音识别模块(10)根据所述第二辅助语言的发音规则来为第二语段(12b)分配地址。

5.用于运行辅助系统(3)的方法，所述辅助系统被设计成用于机动车(1)中并且包括导航系统，所述辅助系统至少能够部分地借助于语音输入(12)来控制的辅助系统的方法，所述辅助系统具有功能装置(6)和语音识别装置(5)，其中所述语音识别装置具有至少一个第一语音识别模块(9)和第二语音识别模块(10)，所述第一语音识别模块按照第一规则系统处理语音输入(12)，并且第二语音识别模块按照第二规则系统处理语音输入(12)，其中分别根据两个语音模块(9、10)之一的结果来确定，所述第一语音识别模块(9)处理哪些语段(12a、12b)并且所述第二语音识别模块(10)处理哪些语段，其中，所述语音识别模块(9、10)使用来自于不同语言的规则来将导航指令和地址分配给语段，其中，借助于所述语音识别装置(5)输入用于导航系统的指令和地址，以及借助于第一和/或第二语音识别模块(9、10)根据所选的地址数据库处理输入的指令和地址，

6.根据权利要求5所述的方法，其特征在于，所述第一语音识别模块(9)根据所述第一用户语言的发音规则来为第一语段(12a)分配导航指令，所述第二语音识别模块(10)根据所述第二辅助语言的发音规则来为第二语段(12b)分配地址。