CN108780644A

CN108780644A - 运输工具、用于在语音输入范围内调整允许的语音停顿长度的系统和方法

Info

Publication number: CN108780644A
Application number: CN201780016992.9A
Authority: CN
Inventors: F·施瓦茨
Original assignee: Bayerische Motoren Werke AG
Current assignee: Bayerische Motoren Werke AG
Priority date: 2016-03-16
Filing date: 2017-03-02
Publication date: 2018-11-09
Also published as: EP3430615A1; DE102016204315A1; EP3430615B1; WO2017157684A1

Abstract

本发明涉及运输工具、用于在语音输入(2)范围内调整允许的语音停顿(1)长度的系统和方法。所述方法包括下述步骤：‑确定语音输入(2)以关键表述结束和/或包含不完整句子(4)和/或具有以预定义方式表征的语调和/或具有预定义的复杂程度和/或由预定义用户(6)进行和/或与系统输出(7)在时间上重叠，并且响应于此‑自动延长用户(6)向麦克风(8)的最后声学输入和自动终止记录由麦克风(8)记录的信号之间的允许的语音停顿(1)。

Description

运输工具、用于在语音输入范围内调整允许的语音停顿长度的系统和方法

技术领域

本发明涉及运输工具、用于在语音输入范围内调整允许的语音停顿长度的系统和方法。本发明尤其是涉及感应式检测表明用户未来将继续语音输入的情况的智能应用。

背景技术

在现有技术中已知语音命令(语音对话)和语音输入系统，它们允许在技术系统和用户之间的口头通信。特别是在车辆中这种系统用于在尽可能少地使用户分心的情况下实现用户和车辆之间的交互。

DE 10342541 A1公开了一种用于与工作负荷有关地控制对话的系统，在其中在系统的语音输出/语音指令和自动中断分析到达的语音输入之间的允许的语音停顿(“超时”)作为用户工作负荷的函数动态地确定。

DE 112006002989 T5公开了一种语音识别装置，在其中环境条件检测装置决定当前环境条件是否适于改变语音输入停顿，在此之后自动终止语音识别。

DE 112011105136 T5公开了一种语音识别装置，在其中根据行驶速度和行驶状态动态地确定超时时间，以便确定语音输入的结束。

发明内容

本发明的任务在于实现更好和更可靠的与用户界面的语音交互。

上述任务根据本发明通过一种用于在语音输入范围内调整允许的语音停顿长度的方法来解决。该方法例如可在用于技术设备(如工作机器、运输工具等)的用户界面中实现。术语“允许的语音停顿”理解为在不自动终止记录和/或分析声学信号的情况下允许经过的无实质语音输入的持续时间。在第一步骤中确定语音输入以关键表述结束。关键表述例如可表明用户分心或其思想的连续表达被严重干扰。这例如可基于某些情况出现。例如用户可能会分心。替代或附加地可确定语音输入中的不完整句子，为此评估句子含义(“语义”)。如果(以预定义的概率)确定句子尚未完成，则用户还不想结束语音输入的概率很高。替代或附加地，相应结果可由语音输入的语调得出。如果语调(特别是结合句子类别(“问句”/“陈述句”))显示句子尚未完成或用户想继续语音输入，则可等待继续的语音输入。在分析语音输入的语义时，语音输入的复杂程度和与此相关的用户的高认知工作负荷也可被视为用户仍想继续语音输入的理由，即使当前语音停顿较长。对于包含短句和/或简单指令的语音输入，可认为当前语音停顿具有较短的长度，如果其由于语音输入的(较小)工作负荷而产生。替代或附加地，可确定进行语音输入的用户的身份并将其与预定义的用户档案(例如存储在数据存储器中)进行比较。用户档案可包含关于用户在做出语音停顿时是否打算补充或继续语音输入的不同信息。例如基于以前关于该用户的经验可确定用户在语音分析和/或语音记录自动终止之后经常重启(例如按下相应按钮)语音记录，响应于此将允许的语音停顿评估为太短。替代或附加地，用户的年龄可数据技术地存储并分配给语音技术能力的类别，在此基础上决定用户是否倾向短或长的语音停顿。替代或附加地，也可确定用户界面或根据本发明装备的运输工具的输出与语音输入在时间上重叠并且因此将系统输出(弹出框、鸣锣(Gong)、改变显示器等)评估为语音停顿的原因。如果存在上述条件之一或多个上述条件，则根据本发明自动延长用户向麦克风的最后声学输入和自动终止记录由麦克风记录的信号之间的允许的语音停顿。换句话说，基于上述条件假设在已经进行的和用户预期的语音输入序列之间存在语音停顿并且为了分析预期的语音输入而保持麦克风的接通和语音分析的激活。以这种方式借助在信息技术方面基本上本来就存在的信息改进现有技术中已知的装置。

从属权利要求示出本发明的优选扩展方案。

表示用户想要继续输入的关键表述可以是填充表述。尤其是驾驶员为了过渡停顿而发出的声音可表明在声音结束之后语音停顿也不应被评估为语音输入的中断。填充表述例如可以是“(哈)”、“Hmm(嗯)”或“(啊)”。关键表述也可包括填充词(如“also(这样)”等)。关键表述尤其是可基于语速和/或语调被识别。尤其是在关键表述期间降低的语速和不变的声调表明存在这种关键表述。填充词也可包括咒骂(如关于交通状况和/或基于其它交通参与者)、表达惊讶(“hoppla(哎呀)”)或表达迷失方向(“(诶)？”)。关键表述的评估可比前面的语音输入所需的语义检查明显更快和更可靠地进行。

另外，优选可这样设计根据本发明的方法，即确定超过延长的语音停顿的持续时间。换句话说，从用户向麦克风的最后声学输入起的持续时间可超过根据本发明延长的允许的语音停顿。响应于此，终止通过麦克风记录语音输入或其它信号和/或其自动分析。因此，在超过允许的语音停顿持续时间之后，语音输入系统进入不评估用户进一步的语音信号的状态。这减少了所需的计算资源并且能够快速执行进一步的系统动作或响应。

麦克风例如可包括固定装置，借助其可将麦克风永久固定在运输工具的乘客舱内。麦克风例如可连接到运输工具的驾驶员工作位置上。通常这种麦克风设置在A柱区域中、遮阳板区域中或车顶操作单元区域中。因此，麦克风也可永久和/或有线地并且因此低成本地在电气和信息技术方面连接到运输工具的能量网和信息网络上。

优选地，继续地分析已经进行的语音输入的语义，以便检查指令和/或句子是否完整。因此，一旦接收到语音信号，就对它们进行分析并结合随后接收的语音信号检查用户是否已经说出完整的意义单元。如果是这种情况，则可自动缩短允许的语音停顿，这有助于更快速的系统响应并因此更高的用户接受度。

如果在本发明方法的范围中考虑语音输入的语调，则当语音输入包含问题、但尚未到达语调的预定义高点时，尤其是可自动延长允许的语音停顿。“高点”被理解为结束完整问题的音调或声音，高度指的是音调的频率。如果语音输入不包含问题，则在尚未达到语调的预定义低点时，自动延长允许的语音停顿。因此，根据本发明的方法可将结束句子的低频音调评估为语音输入的预期结束。

基于语音输入的复杂程度可推导出用户或说话者的认知负荷。由于认知负荷通常增加语音停顿，因此当确定高复杂度时(例如长句、对他人口述消息等)，可自动延长允许的语音停顿。否则自动缩短允许的语音停顿。

相应地，用户的其它工作负荷(如通过驾驶员工作位置上的操作元件的交互或通过评估当前交通状况的复杂程度)可自动延长语音停顿持续时间直至自动中断语音输入。

根据本发明的第二方面，提出一种用于在语音输入范围内调整允许的语音停顿长度的系统。该系统包括信号输入端，在其上例如可连接麦克风。可评估附加的传感器以确定用户当前正在实施的任务(如驾驶任务)的复杂程度。为此设置评估单元(如处理器、电子控制器等的形式)，其也可用于本发明以外的评估步骤。评估单元构造用于确定语音输入具有关键表述、不完整句子、以预定义方式表征的语调和/或预定义的复杂程度。响应于一个或多个相互组合的上述条件，自动延长在用户的最后声学输入和自动终止记录所记录的信号之间的允许的语音停顿。换句话说，系统可以相应方式实现特征、特征组合及由其产生的优点，为了避免重复，参考对本发明第一方面的相关说明。

所述系统优选还构造用于识别用户，以便基于预定义的用户属性自动延长或缩短允许的语音停顿。例如借助用户使用的运输工具钥匙来识别用户。替代或附加地，可进行声音分析和/或面部识别来识别用户。配置给用户的用户档案可根据用户的客观特征和/或基于关于该用户使用系统的经验认识来确定。例如可在数据存储器中存储这样的数据记录，其表明用户通常会有三到四秒的语音停顿并且随后继续语音输入。针对另一用户则可在数据存储器中存储其通常不会做出超过两秒的语音停顿。

根据本发明的第三方面，提出一种运输工具(如轿车、运输车、载重汽车、摩托车、空中和/或水上交通工具)，其具有根据本发明第二方面的系统。关于根据本发明的运输工具的特征、特征组合和优点也参考上述说明。

附图说明

本发明的其它细节、特征和优点由下述说明以及附图给出。附图如下：

图1示出根据本发明构造的运输工具的一种实施例中的根据本发明的系统的第一种实施例的示意图；

图2示出具有不完整句子的语音输入示例；

图3示出具有偏离预定义语调的语调的语音输入的示例；

图4示出具有关键表述的语音输入的示例；

图5示出说明根据本发明的方法的一种实施例的步骤的流程图。

具体实施方式

图1示出作为运输工具的轿车10，在其中用户6坐在驾驶员工作位置的驾驶员座椅上。就用户重量而言借助座椅占用传感器18、就其面部特征而言借助内部空间摄像机13并且借助设置在点火开关15中的车钥匙12来识别用户6。用户6通过按键16激活语音识别系统，所述按键在信息技术方面与作为评估单元的电子控制器11连接。随后，通过麦克风8检测其语音输入2的不完整句子4的第一部分并将声电转换后的信号传输至电子控制器11。借助存储在数据存储器17中的用于实施根据本发明的方法的指令，电子控制器11确定不完整句子4的第一部分，在其之后是语音停顿1和不完整句子4的第二部分。用户6因屏幕14上输出的弹出框7形式的系统消息做出语音停顿1。换句话说，用户6在输出弹出框7时短暂地分心、通过语音停顿1中断其语音输入并且随后继续语音输入2。由于认识到语音输入2和弹出框7输出的在时间上的重叠，因此根据本发明的系统自动延长允许的语音停顿持续时间，以允许用户有足够的时间来完成他的思考并完成语音输入。

图2示出具有不完整句子4的语音输入2的示例，在该句子末尾出现语音停顿1。语音输入2显然缺少定冠词“die(这个)”所指的对象。这点可通过所示语音输入2的语义分析确定，因此允许的语音停顿1持续时间自动延长。换句话说，延长持续时间，直到系统自动终止语音输入选项。

图3示出语音输入2的第二种示例，在其中分析结合图2所示的不完整句子4的语调5并且如果缺少预定义的低点9(虚线音符)，则自动延长允许的语音停顿1持续时间，从而给予用户更多时间来完成语音输入2。

图4示出语音输入2的一种示例，在其中用户将填充词3(“(啊)”)形式的关键表述添加到不完整句子4的末尾，由此推断出语音输入过程尚未结束，尽管用户做出两次语音停顿1，但仍想要继续语音输入。因此，根据本发明自动延长允许的语音停顿1持续时间，以避免增加用户压力。

图5示出用于在语音输入范围内调整允许的语音停顿1长度的方法步骤。在步骤100中确定语音输入中的不完整句子。为此检查到目前为止成功记录和解释的语音输入的语义并确定缺少重要成分(主语、宾语、谓词等)。为此在步骤200中继续分析到目前为止进行的语音输入的语义。在步骤300中自动延长用户的最后声学输入和自动终止记录所记录的语音信号之间的允许的语音停顿1。在步骤400中确定从用户向麦克风的最后声学输入起的持续时间超过延长的语音停顿的持续时间。响应于此，在步骤500中终止记录和分析由麦克风记录的信号。

尽管已经借助结合附图解释的实施例详细阐述了根据本发明的各方面和有利实施例，但技术人员仍可在不脱离本发明范围的情况下修改和组合所示实施例的特征，本发明的保护范围通过所附权利要求来定义。

附图标记列表

1 语音停顿

2 语音输入

3 填充词

4 不完整句子

5 语调

6 用户

7 弹出框

8 麦克风

9 低点

10 轿车

11 电子控制器

12 车钥匙

13 内部空间摄像机

14 屏幕

15 点火开关

16 按键

17 数据存储器

18 座椅占用传感器

100-500 方法步骤

Claims

1.用于在语音输入(2)范围内调整允许的语音停顿(1)长度的方法，包括下述步骤：

-确定(100)：语音输入(2)

以关键表述(3)结束和/或

包含不完整句子(4)和/或

具有以预定义方式表征的语调(5)和/或

具有预定义的复杂程度和/或

由预定义用户(6)进行和/或

与系统输出(7)在时间上重叠，并且响应于此

-自动延长(300)在用户(6)向麦克风(8)的最后声学输入和自动终止记录由麦克风(8)记录的信号之间的允许的语音停顿(1)。

2.根据权利要求1所述的方法，其中，所述关键表述(3)包括填充表述、尤其是填充词。

3.根据权利要求1或2所述的方法，还包括：

-确定(400)从用户(6)向麦克风(8)的最后声学输入起的持续时间超过延长的语音停顿(1)的持续时间，并且响应于此

-终止(500)记录由麦克风(8)记录的信号。

4.根据前述权利要求中任一项所述的方法，其中，所述麦克风(8)构造用于固定且永久地安装在运输工具(10)中。

5.根据前述权利要求中任一项所述的方法，还包括：

-连续地分析(200)语音输入(2)的语义，以便检查指令和/或句子是否完整，并且在肯定的情况下

-自动缩短允许的语音停顿(1)。

6.根据前述权利要求中任一项所述的方法，其中，所述语音输入(2)的语调(5)

在包含问题的情况下尚未达到预定义的高点，或

在所有其余情况下尚未达到预定义的低点(9)。

7.根据前述权利要求中任一项所述的方法，其中，所述语音输入(2)的复杂程度相应于文本、尤其是消息的口述。

8.用于在语音输入(2)范围内调整允许的语音停顿(1)长度的系统，包括：

-信号输入端、

-评估单元(11)，所述评估单元(11)构造用于确定语音输入(2)以关键表述(3)结束和/或包含不完整句子(4)和/或具有以预定方式表征的语调(5)和/或具有预定义的复杂程度，并且响应于此

-自动延长在用户(6)向麦克风(8)的最后声学输入(4)和自动终止记录由麦克风(8)记录的信号之间的允许的语音停顿(1)。

9.根据权利要求8所述的系统，其中，所述系统还构造用于借助存储的用户档案结合运输工具(10)的钥匙(12)和/或声音分析和/或面部识别进行用户(6)识别。

10.运输工具，包括根据前述权利要求8或9中任一项所述的系统。