CN104123936B

CN104123936B - 对话系统自动训练方法、对话系统及用于车辆的控制装置

Info

Publication number: CN104123936B
Application number: CN201410171032.8A
Authority: CN
Inventors: 卡尔·维哈默; 西尔克·古润兹-托梅
Original assignee: Elebit Car
Current assignee: Elebit Car
Priority date: 2013-04-25
Filing date: 2014-04-25
Publication date: 2017-10-20
Anticipated expiration: 2034-04-25
Also published as: US20140324429A1; US9679557B2; CN104123936A; DE102013007502A1

Abstract

本申请涉及对话系统自动训练方法、对话系统及用于车辆的控制装置。公开了一种自适应对话系统以及用于对话系统语义训练的计算机实现方法。在这一点上，基于接收到的语音输入自动生成语义注释，所述语义注释被用于控制仪器或与用户进行交流。为此，在与用户交互的过程中接收至少一个语音输入。通过基于可训练的语义模型对所述语音输入进行分类来记录并评价所述语音输入的情景内容，以使语义注释自动可用于所述语音输入。当所记录的情景内容被错误地评价、不完全地评价和/或被评价为不可信时，考虑与所述语音输入有关的其他用户信息。基于所述附加用户信息自动获知所述语音输入的情景内容。

Description

对话系统自动训练方法、对话系统及用于车辆的控制装置

技术领域

本发明大体涉及用于支持用户终端的语义系统的使用。具体而言，详细说明了一种用于自动训练对话系统的方法和相应的对话系统，以基于用户信息自动生成语义注释。

背景技术

如今，在许多技术领域中已经正在使用文本控制或语音支持的控制。文本控制使用户能够通过预定的文本模块(例如单词或单词序列)将指令输入系统。该领域还包括搜索询问、文本消息的写入和发送等，其通过文本输入且主要通过以下的确认来进行。

语音支持的控制使用户能够通过所说的单词，或者更确定地说通过语言来输入控制指令或其他信息，比如，例如设置、参数等。这样有助于输入，以使得用户不必操作任一常规的输入装置，比如，例如键盘、功能键、选择工具等。

除其他之外，这样的语音输入已经被应用到的技术领域是移动电话、车辆控制设备，还有导航仪器。例如，用户可以通过目标语音指令来输入来自通讯录的联系方式、对某些车辆要素的控制或者目的地地址。除其他之外，所述车辆控制系统包括开启/关闭、改变或调整车辆要素，比如，例如挡风玻璃雨刷、温度(供暖和空调设备)、内部照明、座位等。

在美国专利申请No.2008/0312934A1中，描述了用于某些应用的一种语音识别系统。这些应用包括导航应用、消息应用、音乐应用、用于(所存储的)内容的搜索应用以及本地搜索应用。在用于导航应用的情况下，与导航相关的内容已被存储在数据库中以及可以被语音识别装置使用。例如，语音识别装置可以使用所述与导航相关的内容，以影响语音识别模型。在这一点上，可以使用已经适应相应应用的各种语音模型。

根据美国专利申请No.2008/0312934A1的公开内容，各种应用可以具有资源来使用语音识别装置或可以使用语音识别装置，以为用户简化用于相应应用的输入。另外，各种语音模型的使用允许语音识别被用于某些表达、词语或指令，特别是被用于限定的应用。然而，这存在缺点：该语音模型的进一步调适必须单独进行。例如，将不得不针对每个语音模型来训练某些术语。

发明内容

本文的目的在于改进对话系统的自动训练并提供适当的方法和对话系统。

根据本发明的一个方面，公开了一种用于自动训练对话系统的计算机实现方法。该方法用于基于接收到的语音输入自动生成语义注释，所述语义注释被用于控制仪器或与用户进行交流。该方法包括：在与用户交互的过程中接收至少一个语音输入，以及通过基于可训练的语义模型对所述语音输入进行分类来记录并评价所述语音输入的情景内容，以使语义注释自动可用于所述语音输入。该方法进一步包括：当所记录的情景内容被错误地评价、不完全地评价和/或被评价为不可信时，考虑与所述语音输入的接收有关的其他用户信息，以及基于附加用户信息自动获取所述语音输入的情景内容。

除其他之外，用户信息是上下文信息(比如，例如在语音输入的上下文中用户的其他输入)和/或关于用户的一般信息，和/或关于用户与所述对话系统交互方式的信息。

该用户通过语言与对话系统进行交互。用户的语音输入可以包括一个或更多个口头的、书面的和/或键入的表达，以及面部表情、手势和/或姿势。因此，本发明中所限定的语音输入可以包括一个或更多个口头输入、书面输入、键入输入、面部表情输入、手势输入和姿势输入中的至少一个。可采用该方法的系统是搜索引擎、聊天机器人、游戏控制台、网络挖掘应用或其他交互式服务。

根据多种具体不同的方式，该方法提供以下优点：能够基于可训练的语义模型记录语音输入的情景内容，以及能够将一系列的含义分配给所述语音输入。特别地，通过考虑与所述语音输入的接收有关的用户信息，也可能记录针对语音输入的新含义或新情景内容。

根据一种实现方式，基于所述接收到的语音输入、所述获知的语音输入的情景内容，以及相应的语义注释的转录中的至少一个来训练所述语义模型。

根据变型，仅当语音输入的接收与所述用户信息之间可以建立关系时，才发生基于所述用户信息的获知。所述语音输入的接收与所述用户信息之间的这种关系可以基于时间和/或语义相关性来确定。

根据另一实现方式，所述获知步骤包括以下步骤中的至少一个：建立所述用户信息的情景内容；将所述接收到的语音输入与所述用户信息的情景内容进行比较；以及基于所述用户信息的已知情景内容，连续得到或完成所述接收到的语音输入的情景内容。

可以持续进行所述考虑其他用户信息和获知直到以下时刻为止：所述接收到的语音输入的情景内容变得完整和/或被识别为可信的时刻或者被用户终止动作所终止的时刻。

可替换地或除此之外，所述语音输入的情景内容的可信度被基于所述语音输入的分类的过程中所分配的置信度值进行评估。

同样可替换地或除此之外，所述获取包括以下步骤中的至少一个：对接收到的语音输入的不完全分类加以完整化；对所述接收到的语音输入的误解部分进行校正；以及对未正确分类或未分类的语音输入进行重新分类。

根据另一实现方式，所述考虑用户信息可以包括：从紧接着所述语音输入的接收的至少一个用户输入中得到所述用户信息。在这种情况下，所述至少一个用户输入可以包括至少一个校正控制输入，所述校正控制输入基于所述语音输入校正可用的先前控制指令。

在另一实现方式中，所述考虑用户信息的步骤可以至少包括：使有限数量的输入选项可用；和/或基于所述可用的输入选项接收一个或更多个用户输入。在这种情况下，所述用户输入通常可以基于用户的声音或触觉行为。可替换地或除此之外，用户输入也包括用户做出的面部表情、手势或姿势。

在另一方面，公开了一种具有程序代码的计算机程序产品，当所述计算机程序产品在计算机装置上被执行时，所述程序代码被用于执行上述方法中的一种方法。所述计算机程序产品可以被存储在计算机可读记录介质上。

根据另一方面，提供了一种用于终端中的自适应对话系统。该自适应对话系统已被设计为基于接收到的语音输入自动生成语义注释，所述语义注释被用于控制所述终端或与用户进行交流。在这一点上，该对话系统包括输入接口，所述输入接口被设计成在与用户交互的过程中接收至少一个语音输入。另外，该对话系统包括语义分类装置，所述语义分类装置被设计为：基于可训练的语义模型记录并分类所述语音输入的情景内容，以基于所述分类使语义注释自动可用于所述语音输入；当所记录的情景内容被错误地评价、不完全地评价和/或被评价为不可信时，考虑与所述语音输入的接收有关的其他用户信息；以及基于附加用户信息获知所述语音输入的情景内容。

所述输入接口可被设计为用于语音识别装置的接口。可替换地或除此之外，所述输入接口可被设计为例如借助键盘、按键和/或功能键用于文本输入的接口。用于文本输入的接口允许接收单词或单词序列，也就是说以上所限定情景中的语音输入。此外，所述接口能够转发接收到的单词序列。

根据一种实现方式，该对话系统包括训练装置，所述训练装置被设置为基于获取的所述语音输入的情景内容、所述语音输入以及语义注释的转录中的至少一个来训练所述语义模型。

可替换地或除此之外，该对话系统包括存储装置，所述存储装置被设置为完全或部分地存储所述接收到的语音输入、所述接收到的语音输入所获取的情景内容，以及语义注释的转录中的至少一个。

同样可替换地或除此之外，该对话系统包括对话管理器，所述对话管理器被设置为当分类结果已被错误地评价、不完全地评价或被评价为不可信时，使输入提示可用于用户以获得附加信息项。

根据一种实现方式，所述语义模型被设计成神经网络、贝叶斯分类器、支持向量机、解析器或决策树的形式。

根据另一实现方式，该对话系统包括通信装置，所述通信装置被设置为向服务器发送或者从服务器检索：所述接收到的语音输入连同所述语音输入所获取的情景内容以及转录。可替换地或除此之外，该对话系统是人/机界面的一部分。

根据另一方面，公开了一种用于车辆的控制装置，所述控制装置包括上述对话系统。所述控制装置可以是用于控制车辆部件而建立的装置。被算入这些部件中的是挡风玻璃雨刷控制、窗户升降器、温度和气候控制、座椅控制、反射镜控制、内部照明控制等。此外，所述控制装置可属于(例如用于车辆的)导航仪器。

附图说明

根据以下结合附图的实施例的描述，本发明的其他方面、优点和细节将变得明显，其中：

图1示出了对话系统的实施例的框图；

图2示出了语音识别装置和输入单元的实施例的框图；

图3示出了对话系统的输入单元和输出部件的实施例的框图；

与4示出了对话系统内部的数据流动的框图；以及

图5示出了用于自动训练对话系统的方法的实施例的流程图。

具体实施方式

将借助示意性的框图和流程图对本文进行说明。这些图所隐含的技术教示既可以用硬件来实现，也可以用软件来实现或者可以用硬件和软件的结合来实现。被算入这样的实施方式之中的还有数字信号处理器(DSP)、专用集成电路(ASIC)，以及其他开关或计算部件。

图1示出了可应用于机动车辆或终端(例如便携式导航仪)的对话系统。所述对话系统已被设计成基于接收的语音输入自动生成语义注释，所述语义注释被用于控制所述终端或与用户进行通信。

用户经由语言与所述对话系统进行交互。用户的语音输入包括一个或更多个口头的、书面的和/或键入的表达，以及面部表情、手势和/或姿势。

不言而喻，本发明并不受限于单词序列(即，多个单词)意义上输入的语音的接收或输入。单个单词、音节甚至仅一个声音的输入与整个句子的输入一样有可能。因此，全文中术语“语音输入”的含义也可以被扩展到单个单词、音节或声音。

该对话系统包括接口10。例如，本文中，所述接口可以是通用接口，比如串行或并行接口。接口10也可以由一组特殊的、专有的接口组成。例如，所述接口可以包括输入接口12和输出接口15。

接口10，还有输入接口12和输出接口15可以作为硬件接口、软件接口或硬件与软件的结合来实现。它可以是无线或电缆接口。

输入接口12主要用于接收语音输入。为此，输入接口12已被设置为接收数据，特别是代表语音输入的数据。如图2中更详细地所示，接口10可包括一个或更多个输入接口12。例如，第一输入接口已被连接到识别单元210。识别单元根据语音输入来生成符号表示，例如单词数或单词序列，并且经由输入接口12将所述表示发送或转发到对话系统。

识别单元210包括各种识别装置。被算入这些装置中的是语音识别装置211、副语言识别装置212、面部表情识别装置213和/或手势识别装置214。对于识别单元210或者更准确地说本文所包括的检测装置211-214，存在模型单元215。模型单元215包括识别装置211-214能够访问的各种模型。被算入这些模型中的是语音模型216、副语言模型217、面部表情模型218和/或手势模型219。

例如，语音识别装置211可以从麦克风230接收语音信号。这些接收到的信号随后通过一个或更多个语音模型215被转换成文本或另一符号表示，也就是说，所述语音信号被译成一个或更多个口语子单元，比如单词、音节、字母、字符或数字，并被转换成数字文本。在这一点上，借助于一个或更多个语音模型215来确定这种可能性：某一接收到的语音信号代表一个子单元。在这一点上，某一连串接收到的语音信号对应某一连串单词(单词序列)的可能性也被语音模型215考虑在内。因此，以某一序列讲述某些单词的可能性被考虑。

通过语音模型进行语音识别是已知的，因此将不再对其进行更详细地描述。语音识别单元210以数字数据的形式输出一个单词或若干单词(即，单词序列)的至少一个符号表示。例如，语音识别单元210可以输出用于所识别的单词序列的字符的ASCII代码。不言而喻，例如，可以使用其他标准或代码来输出识别的文本，比如UTF-8、统一码(Unicode)或字数。

分别通过副语言识别装置212、面部表情识别装置213以及手势识别装置214进行的副语言识别、面部表情识别以及手势识别以类似的方式运行。例如，利用副语言识别装置212，从语音信号中识别出大笑，并通过副语言模型217将其转换为符号表示。

对于面部表情识别和手势识别，对摄像头235的视频信号进行评估并将其转换为符号表示。该手势识别还可以记录手势并将其转换成符号表示。对此的处理也已经是已知的。

在语音识别装置、副语言识别装置、面部表情识别装置或手势识别装置211-214中产生的符号表示可以包括时间戳。

输出的数字语音数据被发送到对话系统的输入接口12，以便在此对其进行进一步处理。输入接口12可以是用于该数字语音数据的传播的特殊输入接口，或者可以是用于数字语音数据以及其他数据和/或信号的通用接口。

在图2中，已经示出了表示为两个独立输入接口的实施方式。在该情况下，第二接口用于连接输入单元220。该输入单元可以包括以下各项中的至少一个：麦克风230、摄像头235、键盘240、按键245以及触摸屏250。对于用户的交互，部件230到250中的每个起到让用户输入语音信号、文本输入、文本指令、用户信息、参数或其他数据的作用。在触摸屏250的情况下，输入单元是输出单元的一部分，这是因为对用户而言，触摸屏构成输入单元和输出单元两者。

由输入单元220的上述部件230到250输出的信号已众所周知，因此不再对其进行描述。输入单元220的输出信号同样被发送到输入接口12，以便由所述对话系统对其进行进一步处理。

再次参考图1，该对话系统包括处理器20。所述处理器可被实现为集成电路或其他数据处理部件。但是，处理器20也可以包括若干电路、部件、装置等。

作为一个示例，图1示出了可以作为单独部件实现的对话管理器30和语义分类装置40。可替换地，对话管理器30和分类装置40可被实现为由处理器20执行的软件。

对话管理器30和分类装置40两者能够处理发送到输入接口12的数据和/或信号。为此，输入接口12例如已通过母线连接到处理器20，或更准确地说，连接到对话管理器30以及分类装置40。

处理器20、对话管理器30以及分类装置40的操作模式将参照示例进行描述，在该示例中，对话系统已被集成到车辆中(例如，为了控制自动气候控制系统或车载导航仪器)。用户输入语音指令“上调温度”或“开往纽伦堡市”。在这一点上，经由麦克风230将该用户的语音转换成发送到语音识别装置211的语音信号。借助于语音模型(或多个语音模型)216，这些语音信号被识别并转换成文本，该文本作为语音数据发送到输入接口10。因此，该对话系统接收所述文本，更准确地说，接收单词序列“上调温度”或“开往纽伦堡市”。分类装置40接收该单词序列并借助语义模型60记录该情景内容。

在另一示例中，本发明的处理器被用在搜索引擎、聊天机器人、网络挖掘应用或另一交互式服务中。这些系统和业务使用户能够进行文本输入。如上所述，该文本输入经由输入接口12被作为单词或单词序列转发到处理器。同样地，分类装置40再次接收该单词序列并借助于语义模型60记录该情景内容。

可通过神经网络或者决策树来实现语义模型60。可替换地，也可以采用贝叶斯分类器、支持向量机或解析器的形式来执行语义模型60。根据一种实现方式，语义模型60是存储键/值对以及相关概率的数据结构。这些键/值对可以是含义/字对，在每个例子中已经为这些含义/字对分配了某一概率。另外，在语义模型60中的数据结构也可以存储含义/单词序列对的概率。换句话说，语义模型60将含义连同单词或单词序列以及该含义/单词(序列)组合的概率一起存储。也可以存储一个单词或单词序列的不同含义连同其相应概率的若干组合。当然，相反地，存储一种含义和不同单词或单词序列的若干组合也是可能的。

语义模型60从包含单词、单词序列或句子的数据收集中获得，已经对该语义模型分配了语义含义，比如，例如，对于导航仪器：

放大(ZoomIn)：“请放大地图”

放大(ZoomIn)：“请提高分辨率”

缩小(ZoomOut)：“请缩小地图”

缩小(ZoomOut)：“请降低分辨率”

随后，该模型包含已被分配到一种含义和一个或更多个单词的权重和/或概率列表：

0.5；放大(ZoomIn)：地图

0.5；缩小(ZoomOut)；地图

1；放大(ZoomIn)；扩大

1；缩小(ZoomOut)：减小

1；放大(ZoomIn)；更高的分辨率

1；缩小(ZoomOut)：更低的分辨率

另外，可计算每个单词和每种含义的概率P(含义|单词)。因此，语义模型60是包含这些概率的数据结构。现在如果存在一个单词序列或单词链(W1，W2，W3)，并且如果要发现它是否具有B1或B2的含义，则在假设统计独立的基础上，可以近似计算以下概率：

P(B1|W1,W2,W3)＝P(B1|W1)P(B1|W2)P(B1|W3)；以及

P(B2|W1,W2,W3)＝P(B2|W1)P(B2|W2)P(B2|W3)。

如果在这个处理中，证明了P(B1|W1,W2,W3)>P(B2|W1,W2,W3)，则采用B1来注释该单词链，否则采用B2来注释。当然，这种处理也可以应用在两种以上含义的情况下。可得到的用于评估概率的单词序列越多，单词序列对用户所说的话的响应就越精确，分类装置40就将变得越好。

在另一示例中，含义“温度控制”或“用于温度控制的菜单”可能已被分配给了单词“温度”。因此，语义模型60将存储某一针对含义/字对(温度设置+“温度”)的概率。已经储存在语义模型60中的一个不同概率可以被分配给单词“上调”。可能已经存在单词序列“上调温度”的某一含义的概率。

因此，基于所存储的概率，分类装置40可以计算用户想要提出温度设置，想要上调车辆客厢内的温度或类似情况的概率有多高。如果计算出的概率超过某一阈值，则对车辆的对应部件进行控制。如果若干计算出的概率超过该阈值，则(如上所述)使用具有最大概率的含义。在本示例中，已经计算出将温度调高1度的含义具有最大概率。在此之后，该对话系统将指示车辆的温度控制器将温度上调1度。

因此，语义模型60和分类装置能够确定接收到的单词或单词序列的语义(即，情景内容、含义或者其组合)。因而在该分类的基础上，分类装置40能够自动使每个单词或整个语音输入得到语义注释。例如，该语义注释随后可以被另一部件(比如对话管理器30)进一步使用。

对话管理器30从分类装置40接收语义注释，以执行其他步骤。可选地，对话管理器30也可以接收单词序列连同语义注释。利用该单词序列，对话管理器可以发起与用户的对话。不言而喻，对话管理器30也可以直接从输入接口12接收单词序列(或单个单词)，以及从分类装置40仅接收相关联的注释。

如果分类结果已经被分类装置40错误地、不完全地评价或者被评价为不可信，则借助于一个或更多个对话模型50，对话管理器30能够使输入提示可用于用户，以获得附加用户信息。用户信息可以是被传送到或由系统的用户输入到系统的任一信息。在以上示例中，如果没有对词语“上调”进行分类或者仅以不足概率对其进行分类，则对话管理器30能够对用户的进一步输入进行检索。为此，对话管理器30使用一个或更多个已经被连接到输出接口15的输出单元。

正如图3中已经更详细地显示的那样，输出单元320可以是扬声器330、显示屏340或触觉输出单元350。经由输出接口15，这些输出单元已经与对话系统连接。凭借输出接口15，处理器20、对话管理器30和/或分类装置40有可能访问或者使用输出单元320。

此外，已提供了将一个或更多个文本指令转换成语音的文本-语音单元(TTS)310，以通过扬声器330向用户输出语音。再次参照以上示例(“上调”没有被识别或仅被不充分地识别)，利用一个或更多个对话模型50，对话管理器30产生这个问题：“是要将温度升高1度吗？”。经由文本到语音单元310，该文本被转换成音频信号，并被转发到输出单元320，尤其被转发到扬声器330。

可替换地或除此之外，对话管理器30产生的文本也可以被发送到显示屏340，以在此将其显示为文本。可选地，也可以驱动触觉输出单元350，以产生触觉信号，比如，例如方向盘中的振动。通过该触觉输出，用户将他/她的注意力引到以下事实：例如来自对话系统的问题被显示在显示屏上。在不存在扬声器330或由于检测到的高环境噪声而使用户无法得知该问题的声音输出的情况下，这样的输出是特别有利的。这防止了由于用户误解而产生的其他错误。

再次参考图1，在与对话模型50的相互作用中，对话管理器30产生与用户进行的对话。在该处理中，对话模型50(或若干对话模型50)已经以这样的方式建立：用户可以给出简单的回复，比如，例如“是”/“否”或“1度”、“1/2度”、“打开”/“关闭”等。

用户将会通过另一输入来回复对话系统的这个查询。例如，用户可以用“是”或“变暖1度”来回答。在这一点上，本发明允许用户通过声音、面部表情、手势或姿势以及凭借其他输入装置240-250(参见图2)进行的任一输入。

对此可替换地，对话系统也可以直接控制车辆部件。当含义的概率已经超过某一阈值时，这是可能的。因此，对话系统可以避免与用户进行长对话，在该长对话中，用户的指令被一次又一次误读。正如图3中同样显示的那样，在这一点上，对话系统使用输出接口15，车辆的控制单元或车辆部件360已被连接到该输出接口15。在上述示例中，对话系统可以将温度升高1度并将其指示给用户。该指示可以再次以听觉、触觉、在显示屏上显示或其结合的方式发生。如果该指示为错误设置，那么用户可以自行修改。通过这种校正，可以再次适当地训练该对话系统。

在另一声音指令或在显示屏上的文本输入的情况下，另一输入将经由输入接口12被发送到对话系统，并且将再次开始语义分类和对接收到的输入的语义注释步骤。继续这种循环直到对话系统已经识别出具有足够概率的用户输入的时刻为止。

在本发明的另一特别有益的实施例中，对话系统包括存储装置70和训练单元80。存储单元70被提供以全部或部分存储接收到的语音/文本输入、识别的单词序列、接收到的单词序列所获得的情景内容和/或到语义注释的转录。

现将参考另一使用该对话系统的示例对此进行说明。如果对话系统已经在车辆中实现，则用户可以通过语音输入或文本输入将指令“我冷(I am cold)”传达到对话系统。在语音输入的情况下，该指令首先被语音识别装置211(图2)识别。在每种情况下，单词序列“我冷”通过输入接口12被传达到对话系统。

一个未经训练却已被预设的对话系统将不能为该指令分配明确的含义。分类装置40将给单词“冷”至少分配情景或含义“温度”。因此，有必要从用户处获得其他信息。

如上所述，分类装置40将指示对话管理器30开始与用户进行关于温度的对话。由于在用户的表达中，单词“冷”被识别并且情景内容能够被分类，因此对话管理器30或处理器20将车辆的温度设置合并到该对话中。可选地，对话系统可以提出温度设置或可以立刻将温度设置的更低，也就是说，更冷。正如图3中同样显示的那样，在该情况下，对话系统使用输出接口15，车辆的控制单元或车辆部件360已被连接到该输出接口。此外，对话系统有可能将触觉输出传送到触觉输出单元350，以使得用户检测到已经提出温度显示或已经降低温度。类似地，有可能口头输出已执行的温度设置。

在每种情况下，用户可以对对话系统的操作过程作出反应。在该处理中，用户将其他或附加的用户信息传达到系统。该用户信息项再次为语音输入、文本输入、部件(例如温度控制器或另一与语音输入连接的控制器)的功能选择等。例如，用户可以说“请升高温度”。作为对此的替换，如所提到的那样，用户可以自行进行温度设置并升高温度，或者更确切地说，将温度设置得更暖和。

在两种情况下，代表用户反应的信号或数据从输入单元220和/或识别单元210被发送到对话系统(参见图2)。在两种情况下，对话系统将确定：该温度的较低设置不会被分配到单词序列“我冷”，而是将升高温度分配到单词序列“我冷”。

因此，对话管理器30或分类装置40将单词序列“我冷”连同语义注释(温度-设置(温度＝“高”))一起保存或储存在存储器70中。

在仅出现部分被正确识别了的表达、出现时间和语义相近，或仅出现时间相近的情况下，才进行存储。部分被正确识别了的表达是含义/字对温度-设置/“冷”。如果在对话系统降低温度之后，用户在规定的时间内干预并自行上调温度或执行另一语音/文本输入，则出现时间和语义相近。因此，用户保持在温度设置区域内(语义相近)，以及例如通过启动机动车辆中的适当的控制器(时间相近)，在规定的时间周期内进行干预。完全的时间相近意味着用户在规定的时间周期内干预或自行执行设置，该设置与识别出的设置无关(语义远离)。

从用户响应于对话系统的询问而适当地回复或干预或操作显示的设置选项的事实，对话系统可以建立上述表达“我冷”被部分地正确识别的事实。在以上示例中，对话系统至少已经正确识别了：这将是温度设置的问题。

在时间和语义相近的情况下，如果用户在某一(短)时间周期(例如0至5秒或0至1.5秒)内回应对话系统的询问或可用的输入概率，则进行存储。例如，如果用户仅在较长时间周期后(>8秒)回应，则不能保证用户的行为仍然与表述“我冷”有关。因此，不进行上述数据的存储。

但是，存储还可以发生在对话系统与用户的交互之间仅存在时间相近的情况下。例如，如果用户(通过对话系统)从显示的温度设置改变为空调系统的设置以关闭空调系统，或操作窗户升降器以关闭窗户，则这同样可以被存储为与“我冷”有关。如果用户的这种回应发生在与对话系统的交互之后的某一短时间周期内，则对话系统在假设存在某一时间相近的基础上继续进行。在该情况下，表述“我冷”还将连同语义注释(窗户升降器(窗户＝“关闭”)或(空调系统设置(空调系统＝“关闭”)))一起存储。从该示例可以明显看出，首先识别的情景内容的语义相近(即温度的设置)未被满足，而是仅满足了时间相近。

语音输入信号(或者更准确地说，连同语义注释一起被保存在存储器70中的单词或单词序列)被训练单元80所处理。该处理可以周期进行或者在存储一定数量的新含义/单词(序列)对(数据对)之后进行。

在该情况下，训练单元80可以是对话系统的一部分。但是同样地，它可以是独立的系统，并且可以在分散的位置处实现，比如，例如在业务提供商的服务器(未示出)上。在后一种情况下，对话系统能够将保存在存储器70中的数据通过通信单元90传送到服务器的训练单元。

训练单元80现接受存储在存储器70中的数据进入语义模型60中。如果语义注释连同单词序列已被存储在存储器70中，则他们可被直接代入语义模型60中。否则，建立训练单元80以处理保存在存储器70中的数据(比如，例如语音输入信号、单词序列、与对话系统的交互、直到用户回应的时间周期、用户回应等)以产生用于语义模型60的对应数据。例如，语义模型60中现有的概率值可被调整，或者新含义，以及具有相关概率的新单词或单词序列可被接受。

可替换地，处理器20、对话系统30和/或分类装置40可以保存存储器70中的所有数据，并为其提供时间戳。这些保存的数据可以是接收到的语音信号、接收到的单词序列、对话管理器的输出对话、识别的语义分类等。然后，训练单元80能够基于时间戳确定是否丢弃存储的数据(不足的时间或语义相近)或者是否使该数据进入语义模型。

如果训练单元被建立在远程计算机系统(服务器)上，则其能够处理多个对话系统的数据。在训练服务器上通用的语义模型之后，可以经由通信单元90将更新的语义模型传送到对话系统。因此，对话系统的语义模型60可被周期性地更新，并可以接受不同用户的表述和交互。这就具有一优点：多个对话系统可被快速地训练并且适合于不同的表述。

出于澄清的目的，将示出本发明的其他示例。用户能够将表述“请给我爸爸打电话”传送到对话系统。根据单词“打电话”，对话系统能够至少部分地确定该单词序列的情景内容，即要使用电话。经由对话管理器30和输出单元320，该系统能够询问“我将打给谁？”或可以显示该系统的通讯录或电话簿。根据用户接下来的回应(比如，例如根据表述“Peter Müller”或者根据通过键盘240或触摸屏250对显示屏上该名字的选择)，该系统“获知”“请给我爸爸打电话”与(打电话(名字＝“Peter Müller”))是同义的。

在另一示例中，用户说出表达“正在下雨”。作为对其的回应，对话系统可能识别到“下雨”意味着挡风玻璃雨刷。在已经打开挡风玻璃雨刷之后，或在询问是否要打开挡风玻璃雨刷之后，对话系统记录用户在短时间内关闭了窗户。因此，该对话系统可以获知“正在下雨”意味着挡风玻璃雨刷的打开和窗户的关闭两者。例如，对于导航仪器，其他语义含义可以是用于放大的“请放大地图”；用于放大的“请提高分辨率”；用于缩小的“请缩小地图”；用于缩小的“请降低分辨率”等。

因此，该语义模型开发一数据结构，所述数据结构更加广泛，并且包含已经将某一含义分配给单词或已经将某一含义分配给单词序列的各自的概率。

参照图4，示出了在处理器20与存储器70之间传送的各种数据。一方面，这些可以是通过输入单元220(图2)接收到的语音信号。类似地，在这一点上，如果该输入不是通过语音而是通过键盘240进行，则其可以是文本输入信号。此外，识别的单词序列可以从处理器20传送到用户存储的存储器70。在该情况下，其可以是接收到的语音信号(被识别单元210(图2)所识别)的单词序列，或者通过键盘240进行的文本输入。此外，由分类装置40确定的语义注释被发送到存储器70。另外，通过输入接口12接收到的其他用户信息项可以被发送到存储器70。在这种情况下，其可以是用户与系统的交互，并且类似地，该交互通过输入单元220接收。例如，这些交互是通过键盘240、按键245或触摸屏250(图2)的其他输入。最终，上下文信息也可以从处理器20传送到存储器70。包括在其中的是该系统的其他数据，比如，例如传感器信号(雨水传感器、光传感器等)或系统的其他状态(速度、当前位置等)。

这些数据或者直接在上下文中被传送到存储器，或者在每种情况下连同时间戳一起存储。例如，识别的单词序列、分类的语义注释以及用户的另一回应可以被单独存储，并且在每种情况下具有时间戳。在每种情况下，数据以一种方式保存在存储器70中，该方式为训练单元80可以基于单词序列的新情景内容、单词序列和/或到语义注释的转录训练语义模型。

图5示出了根据本发明的方法的流程图。在第一步骤501中，接收用户的语音输入。类似地，也可以接收文本输入。

在接下来的可选步骤502中，发生语音识别，以分析接收到的语音信号，并识别单词或单词序列。该识别的单词或识别的单词序列或文本输入随后例如作为符号表示被输出。

在步骤503中，该对话系统通过基于可训练的语义模型被分类的单词序列来记录和评价该单词序列的情景内容。如上所述，在该处理中，语义注释可用于该单词或单词序列。

在步骤504中，该语义注释连同该单词或单词序列一起被输出。

如果另一用户信息项接着产生或是必要的，则在步骤505中，将该另一用户信息项被考虑在内。对另一用户信息项进行的考虑可以包括紧接在该单词序列的接收之后(步骤501)从用户输入中得到该用户信息项。当然，也可以在对话管理器的询问或系统执行设置之后进行用户输入。如上所述，该用户输入可以是校正控制输入，所述校正控制输入基于单词序列校正先前可用的控制指令。但是，该用户输入也可以是响应于使输入选项的限制选择可用而接收的一个或更多个用户输入。

在步骤506中，基于附加的用户信息项获知该单词序列的情景内容。仅当也可以建立该单词序列和用户信息之间的连接时进行该获知。如上所述，基于时间和/或语义相关性确定这种连接。该获知可以是以下至少一项：建立用户信息的情景内容，将接收到的单词序列与用户信息的情景内容进行比较，以及基于该用户信息的已知情景内容，连续得到或完成所述接收到的单词序列的情景内容。

在步骤507中，确定是否已经到达获知情景内容的结束点。换句话说，其他用户信息被考虑在内并且被获得直到以下时刻为止：所述接收到的单词序列的情景内容被完全识别和/或被识别为可信的时刻或者被用户终止所终止的时刻。如果确定含义/子对的置信度值，即概率，高于预定的阈值，则该情景内容被认为是可信的。可根据时间和/或语义相近来建立该概率。如果未到达结束点，该过程返回到步骤505，否则继续进行步骤508。

因此，步骤505和步骤506可以被反复地重复直到满足上述结合步骤507所讨论的终止条件为止。也就是，获知语音输入的情景内容(例如，完成对接收到的语音输入进行不完全的分类，校正接收到的语音输入的误解部分或重新分类不正确分类或未分类的语音输入)通过(逐渐地)考虑接收到的用户信息被反复地重复进行。

在步骤508中，与语音输入有关而产生的所有信息被存储在数据存储器70中。在这种信息中，可包括由识别单元210提供的单词序列、用户信息、获知的情景内容，以及置信度值。

如果已经收集到了足够的数据，则基于存储数据(即，接收到的单词序列、获知的单词序列的情景内容和/或语义注释的相应转录)训练语义模型。因此，通过完成不完全分类的单词序列，通过对接收到的单词序列的误解进行校正，和/或通过对未正确分类或未分类的单词序列进行重新分类来扩展训练数据。出于训练语义模型的目的，先前已知的数据现在是可用的，从这些数据中可以获知其他含义/字对，或可以改进现有的字对。从而整体上改进该语义模型。

本文所描述的技术的一个优点是对话系统的语义模型可以以相同的实现方式进行自动训练或调整，而无需用户任何有意识的合作。也就是说，所讲授的训练方法不需要用于语义模型训练目的的任一特别或单独的户输入，而是使用与机器控制输入有关的接收到的任一适当的用户信息。当可以建立用户信息与语音输入之间的一些相关性(时间和/或语义相关性)时，用户信息被分类为适当的信息。

上述的实施例和示例涉及车辆控制系统。该公开的系统和方法不言而喻地可以应用于其他交互系统中，被算入这些系统中的是搜索引擎、聊天机器人、游戏控制台、网络挖掘应用，还有其他交互式服务。这些系统和服务使用户能够例如通过硬件用户界面或图形用户界面(GUI)进行输入。该输入和作为进一步交互结果的附加用户信息可以被分类装置接收，并且如上所述，可以借助于语义模型来记录情景内容。

Claims

1.一种用计算机实现的对话系统自动训练方法，以基于接收到的语音输入自动生成语义注释，所述语义注释被用于控制仪器或与用户进行交流，该方法包括以下步骤：

在与用户交互的过程中接收至少一个语音输入；

通过基于可训练的语义模型对所述语音输入进行分类来记录并评价所述语音输入的情景内容，以使语义注释自动可用于所述语音输入；

基于所述语义注释控制车辆部件；

接收附加用户信息，所述附加用户信息表示所述用户对所述车辆部件或另一车辆部件的功能选择；以及

如果基于时间相关性和语义相关性中的至少一个确定出所述语音输入的接收与所述附加用户信息的接收之间的关系，则基于所述附加用户信息自动获知所述语音输入的情景内容。

2.根据权利要求1所述的方法，进一步包括：

基于所述接收到的语音输入、所述语音输入所被获知的情景内容和相应的语义注释的转录中的至少一个来训练所述语义模型。

3.根据权利要求1所述的方法，其中，所述获知步骤包括以下步骤中的至少一个步骤：

建立所述附加用户信息的情景内容；

将所述接收到的语音输入与所述附加用户信息的情景内容进行比较；以及

基于所述附加用户信息的已知情景内容，连续得到或完成所述接收到的语音输入的情景内容。

4.根据权利要求1所述的方法，其中，所述获知包括以下步骤中的至少一个步骤：

对未完全分类的接收到的语音输入加以完整化；

对所述接收到的语音输入的误解部分进行校正；以及

对未正确分类或未分类的接收到的语音输入进行重新分类。

5.根据权利要求1所述的方法，其中，接收所述附加用户信息的步骤包括：从紧接着所述语音输入的接收的至少一个用户输入中得到所述附加用户信息。

6.根据权利要求5所述的方法，其中，所述至少一个用户输入包括至少一个校正控制输入，所述校正控制输入基于所述语音输入校正可用的先前控制指令。

7.根据权利要求5所述的方法，其中，所述用户输入基于用户的声音或触觉行为。

8.一种用于车辆中的自适应对话系统，该自适应对话系统已被设计为基于接收到的语音输入自动生成语义注释，所述自适应对话系统包括：

输入接口，其被设计成在与用户交互的过程中接收至少一个语音输入；

识别装置，其被设计为通过对所述接收到的语音输入进行识别来根据该语音输入生成符号表示；

语义分类装置，其被设计为：基于可训练的语义模型记录并分类所述接收到的语音输入的符号表示的情景内容，以基于所述分类使语义注释自动可用于所述接收到的语音输入；以及

输出接口，其被设计为基于所述语义注释输出信号至车辆部件以控制该车辆部件，

其中，所述输入接口还被设计为：接收附加用户信息，所述附加用户信息表示所述用户对所述车辆部件或另一车辆部件的功能选择；以及如果基于时间相关性和语义相关性中的至少一个确定出所述语音输入的接收与所述附加用户信息的接收之间的关系，则基于所述附加用户信息自动获知所述接收到的语音输入的情景内容。

9.根据权利要求8所述的自适应对话系统，进一步包括训练装置，所述训练装置被设置为基于接收到的语音输入的所被获知的情景内容、所述接收到的语音输入以及语义注释的转录中的至少一个来训练所述语义模型。

10.根据权利要求8所述的自适应对话系统，进一步包括存储装置，所述存储装置被设置为完全或部分地存储下述中的至少一项：所述接收到的语音输入、所述接收到的语音输入所被获知的情景内容、以及语义注释的转录。

11.根据权利要求8所述的自适应对话系统，其中，所述语义模型是以神经网络或决策树的形式来设计的。

12.根据权利要求8所述的自适应对话系统，进一步包括通信装置，所述通信装置被设置为向服务器发送或者从服务器检索：所述接收到的语音输入连同所述接收到的语音输入所被获知的情景内容和语义注释的转录至少之一。

13.根据权利要求8所述的自适应对话系统，其中，所述自适应对话系统是人/机界面的一部分。

14.一种用于车辆的控制装置，其包括根据权利要求8至13中的一项所述的对话系统。