CN1830025A

CN1830025A - 驱动对话系统的方法

Info

Publication number: CN1830025A
Application number: CNA2004800221210A
Authority: CN
Inventors: T·波尔特勒; F·蒂勒
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2003-08-01
Filing date: 2004-07-22
Publication date: 2006-09-06
Also published as: WO2005013262A1; US20070150287A1; JP2007501420A; EP1654728A1

Abstract

本发明描述了一种用于驱动一个对话系统(1)的方法，所述对话系统(1)包括一个用以处理音频信号(3，6)的音频接口(11)。这一方法推断一个预期音频输入信号(3)的特征(2)，并根据这些特征(2)生成音频接口控制参数(4)。基于音频接口控制参数(4)对音频接口(11)的性能进行优化。此外，本发明描述了一个对话系统(1)，其包括一个音频接口(11)、一个对话控制单元(12)、一个用于推断预期音频输入信号(3)的特征(2)的预测器模块(13)，以及一个通过基于特征(2)生成音频输入控制参数(4)来优化音频接口(11)性能的音频优化器(14)。

Description

驱动对话系统的方法

技术领域

本发明总的来说涉及一种驱动对话系统的方法，特别是驱动基于语音的对话系统的方法以及一种相应的对话系统。

背景技术

人机界面领域的最新进展带来了技术设备的广泛使用，这些设备通过设备与设备用户之间的对话来操作。某些对话系统基于在用户部分上面显示视觉信息和人工交互作用。例如，几乎每个移动电话都通过一种操作对话而被操作，所述操作对话基于在移动电话的显示器上示出选项和用户按下适当的按钮来选择一个特定选项。只有在用户可以自由观察显示器上的视觉信息并同对话系统进行交互的环境中，这一对话系统才可行。但是，在用户必须集中注意力于另一项任务(例如驾驶车辆)的环境中，要用户观看屏幕来确定他的选项是不可行的。此外，用户通常无法人工键入他的选择，或者如果他键入了选择他自身可能也陷入危险形势之中。

然而，一种至少部分基于语音的对话系统允许用户进入同对话系统的口述对话当中。用户可以发布口述命令并从对话系统接收可视和/或可听反馈。一个这样的例子可以是家电管理系统，其中用户发布口述命令来激活一个设备，例如视频记录器。另一个例子可以是操作车辆中的一个导航设备或另一种设备，其中用户向该设备咨询问题或者向该设备发布命令，该设备给出一个响应或反过来询问一个问题，由此用户和设备进入一个对话。使用中的还有被实现为电话对话的其它对话或会话系统，例如一个提供关于当地餐馆以及如何查找它们位置的信息的电话对话系统，或者一个提供飞行状态信息且使用户能够通过电话预定航班的电话对话。这些对话系统的一个共同特征是一个用于记录和处理包括语音在内的声音输入的音频接口，并且它可以通过各种参数进行配置，例如输入声音阀值、最终无声窗等。

此类对话系统的一个缺点是用户所提供的语音输入总是伴随着一定的背景噪声。因此，基于语音的对话系统的音频接口的一个控制参数也许会规定一个噪声级别，低于这一级别的任何声音都认为是无声。只有声音大于无声阀值时，即声音包含了高于无声阀值的信号能量时，才认为它是声音。不幸的是，背景噪声可能变化。背景噪声等级例如可能由于环境条件的改变而提高，例如车辆驾驶员加速导致发动机声音更大，或者驾驶员打开车窗使来自车辆外面的噪声加入到背景噪声当中。背景噪声等级中的改变也可由于对话系统响应于口述用户命令所采取的行动而提高，例如启动空调装置。作为结果产生的背景噪声增长具有降低音频输入信号的信噪比的效果。这可能还会导致这样一种情况，其中背景噪声超过了无声阀值，结果被错误地解释。另一方面，如果无声阀值过高，口述用户输入可能无法超过无声阀值，结果被忽略。

当前对话系统的另一个缺点是其它阀值控制参数也通常被配置来涵盖尽可能多的可能性，并且通常被设置为固定值。例如，最终无声窗(用户的最后有声发言和系统确定用户结束口述之间消逝的时间)具有固定长度，但是用户实际完成口述后消逝的时间长度在很大程度上依赖用户所述内容的特性。例如，对对话系统所提出的简单问句的一个简单的是/不是回答不需要一个长的最终无声窗。另一方面，对可自由回答问题的响应(例如，沿一个特定路线要访问哪个目的地)可以是任意持续时间，这依赖于用户所述的内容。因此，最终无声窗必须足够长来涵盖这些应答，因为一个短值可能导致用户响应在完成之前被切断。拼写输入同样要求一个相对长的最终无声窗，因为一个单词的拼写字母之间的停顿通常大于一个短语或句子中单词之间的停顿。但是，长的最终无声窗导致对话系统的响应时间更长，这在一系列期待简短是/不是回答的问题的情况中很可能会令人急躁。由于用户每次都必须至少等待最终无声窗的持续时间，用户很可能会觉得对话很不自然。

发明内容

因此，本发明的一个目的是提供一种简单且花费不多的方法来优化对话系统的性能、在困难条件下确保良好的语音识别，同时简单易用。

为此，本发明提供了一种驱动包括用于处理音频信号的音频接口的对话系统的方法，其通过推断一个预期音频输入信号的特征，根据这些特征生成音频接口控制参数，并应用这些参数自动优化该音频接口的性能。在此，所述预期音频输入信号可以是一个预期口述输入，例如对用户所述对话系统的一个输出(提示)所做出口述回答以及任何伴随的背景噪声。

根据本发明的一个对话系统包括一个音频接口、一个对话控制单元、一个预测器模块以及一个优化器单元。预测器模块推断预期音频输入信号的特征，所述预测器模块使用对话控制单元提供的信息。对话控制单元解析语音内容描述中的不明确处，根据一个给定的对话说明来控制对话，将语音数据发送到一个语音生成器以呈现给用户，并对口述用户输入做出提示。优化器模块随后根据预测器模块提供的特征生成音频接口控制参数。

因此，音频接口最优地适合于对音频输入信号的改变做出补偿，结果得到改进的语音识别和短的系统响应时间，同时保证舒适的使用。这样，系统用户无需发布具体要求就可以优化对话系统的性能。

音频接口可包括音频硬件、一个音频驱动器以及一个音频模块。音频硬件是接口的“前端”，连接到一个用于记录音频输入信号的设备，该设备可以是单机或可以被等价结合到诸如电话听筒的设备中。音频硬件可以例如是一个声卡、一个调制解调器等。

音频驱动器将音频输入信号转换为一种数字信号形式，并将该数字输入信号安排到音频输入数据块中。随后，音频驱动器将音频输入数据块传递到音频模块，该音频模块分析音频数据的信号能量来确定并提取语音内容。

在一个音频接口为输入/输出接口的系统中，音频模块、音频驱动器和音频硬件也能够处理音频输出。在此，音频模块例如从一个语音生成器接收数字音频信息，并将该适当形式的数字信息传递到音频驱动器，该音频驱动器将数字输出信号转换成一个音频输出信号。随后，音频硬件能够通过一个扬声器发射这一音频输出信号。这种情况下，音频接口允许用户通过对麦克风说话以及通过扬声器听取系统的输出提示来参与同一个系统的口述对话。但是，本发明不限于双向口述对话。它可以满足这样一种需要，音频接口处理包括口述命令在内的输入音频、同时一个分开的输出接口将输出提示给用户，例如在图形显示器上可视地呈现。

从属权利要求公开了本发明特别有益的实施例和特征，其中可以根据方法权利要求的特征进一步改进该系统。

优选地，控制参数包括音频接口的音频驱动器的记录和/或处理参数。音频驱动器为音频模块提供音频数据块。通常，这样一个音频数据块包括一个块首部和块数据，其中首部具有一个固定尺寸和格式，但数据块的尺寸是可变的。块尺寸可以较小，结果是迅速的系统响应时间但总开销提高。更大的块导致更慢的系统响应时间并导致更低的总开销。通常理想的是根据系统的瞬时容量调整音频块的尺寸。为此，音频驱动器通知优化器音频块的当前尺寸。根据对话控制模块提供的信息，优化器可以改变音频驱动器的参数，由此根据需要增大或减小音频块的尺寸。音频驱动器的其它参数可以是记录等级，即麦克风的敏感度。依赖关于输入语音质量的信息以及通过处理输入信号获得的或通过一个接口提供到外部应用的背景噪声等级，优化器可调整麦克风的敏感度以最佳适应当前情况。

控制参数还可包括音频接口的音频模块的阀值参数。此类阀值参数可以是语音或无声的能量等级，即音频模块在音频输入信号上检测语音时应用的无声阀值。语音检测算法考虑具有高于无声阀值的能量等级的任何信号。另一个阀值参数可以是超时值，它决定对话系统等待用户对一个输出提示做出反映的时长，例如用户从对话系统提供给他的多个选项中选择一个选项时可以使用的时间。预测器单元根据所参与的对话类型确定用户响应的特征，并且优化器相应地调整音频模块的超时值。另一个阀值参数涉及最终无声窗，即跟随在一个发言之后的消逝时间的长度，在最终无声窗之后，对话控制单元断定用户已经完成了讲话。优化器可根据所参与的对话类型增加或减小最终无声窗的长度。例如在预期拼写输入的情况下，增加最终无声窗的长度是有利的，由此所拼写单词的字母不会被忽略。

控制参数可被直接应用到音频接口的适当模块，或者可以在音频接口的模块的判决过程中将它们连同其它有关参数一起考虑。在当前参数之前，这些其它参数可能已经被优化器提供，或者已经从一个外部源处获得。

在本发明的一个优选实施例中，从当前可用的数据和/或从更早的输入数据推断预期音频输入信号的特征。

特别地，可以从输入音频信号语音内容的语义分析中推断预期音频输入信号的特征。例如，带有板上对话系统的车辆的驾驶员发布一个口述命令来开启空调装置并调解到某一特定温度，例如“开启空调装置到大约，嗯，22度”。一旦音频输入信号被处理且语音识别被执行，则口述单词的语义分析在一个语音理解模块中被执行，它识别有关的单词和短语，例如“开启”、“空调装置”以及“22度”，并忽略掉不相关的单词。随后，相关单词和短语被发送到对话控制单元以便激活适当的命令。根据本发明，预测器模块同样被告知这一行动，由此可以推断预期音频输入的特征。这种情况下，预测器模块从这些数据推断到未来输入信号的一个特征是由空调装置造成的相对高的噪声等级。优化器生成相应的输入音频控制参数，例如通过提高无声阀值，由此，在这一例子中，空调设备的嗡嗡声被对话系统视为无声。

优选地，也可从所确定的环境条件输入数据推断预期输入信号的特征。在本发明的这一方案中，为对话系统提供涉及外部环境的相关数据。例如，在配备有此类对话系统的车辆中，诸如rpm数值的信息通过一个适当接口被传递到对话系统中。随后预测器模块能够从rpm值的增长中推断到未来音频输入信号将被表征为音量提高。这一特征随后被传递到优化器，优化器反过来生成适当的音频输入控制参数。现在驾驶员通过人工启动适当按钮打开一个或多个车窗。一个板上应用将这一动作通知到对话控制单元，其为预测器模块提供必要的信息，由此优化器能够生成适当的控制参数，以便音频模块对所导致的背景噪声的提高做出补偿。

有利地，也可从对话系统当前提示的预期响应中推断预期音频输入信号的特征。例如，如果一个导航系统含有对话系统，车辆的驾驶员可咨询该导航系统“为我寻找到Llanelwedd最短的路径”。对话控制模块处理这一命令但无法识别目的地的名称，并相应地发布一个输出提示，要求驾驶员拼写目的地名称。预测器模块推断预期拼写音频输入将包括由相对长的无声分离开的短发言，并将这些特征通知到优化器。优化器反过来生成适当的输入控制参数，例如一个增大的最终无声窗参数，由此目的地的所有口述字母都能被成功地记录和处理。

附图说明

本发明的其它目的和特征将从下面结合附图的详述中变得明显。但是，应该理解附图仅仅是以说明为目的被设计的，而不是被设计为限制本发明的定义，对此应该参考附加的权利要求说明。

唯一的图1是根据本发明一个实施例的一个对话系统的示意框图。

所述附图不排除本发明其它可能的实现方式，在其描述中，系统被示为用户设备的一部分，例如一个汽车对话系统。

图1示出一个对话系统1，其包括一个音频接口11和用于处理音频信息的多个模块12，14，15，16，17。

具体实施方式

音频接口11可处理输入和输出音频信号，并包括一个音频硬件8、一个音频驱动器9和一个音频模块10。麦克风18检测到的一个音频输入信号3被音频硬件8(例如一种类型的声卡)记录下来。所记录的音频输入信号被传递到音频驱动器9，音频模块10进一步对它进行处理之前先在音频驱动器9中将其数字化。音频模块10能够确定语音内容21和/或背景噪声。另一个方向上，系统1的输出提示6以一个数字化音频信号的形式被音频模块10和音频驱动器9处理，然后被音频硬件8作为音频信号20输出，所述音频硬件8被连接到一个扬声器19。

音频输入3的语音内容21被传递到一个自动语音识别模块15，它从语音内容21生成数字文本5。随后，数字文本5被一个语义分析器或“语音理解”模块16进一步处理，它检查数字文本5并提取相关的语义信息22。相关词语22被发送到一个对话控制模块12。

对话控制模块12通过检查语义分析器16提供的语义信息22来确定对话的实质，将命令发送到一个合适的外部应用24，并按照一个给定的对话说明生成所要求的数字提示文本23。

在要求用户给出口述输入3的事件中，对话控制模块12生成数字输入提示文本23，它将被进一步发送到语音生成器17。这反过来生成一个音频输出信号6，它被传递到音频接口11并在扬声器19上被发布为一个语音输出提示20。

这一示例中，对话控制模块12通过一个适当的接口7被连接到一个外部应用24，此处为车辆的板上设备。这样，例如用户发出的打开车窗的口述命令被对话控制模块12适当编码，并通过接口7被传递到应用24，该应用24随后执行这一命令。

连接到对话控制单元12或在本例中集成到对话控制单元12中的预测器模块13确定这些动作的影响，作为对话的结果在一个预期音频输入信号3的特征上执行所述动作。例如，用户可能已经发布了一个命令来打开车窗。作为结果，预测器模块13推断未来输入音频信号的背景噪声将变得更高。随后，预测器模块13为优化器14提供预期输入音频信号的预测特征2，这一情况下的结果是背景噪声增长且具有更低的信噪比。

使用预测器13提供的特征2，优化器14能够为音频接口11生成适当的控制参数4。这一示例中，优化器14通过提高音频模块10的无声阀值来抵消噪声的增大。一旦已经打开车窗，音频模块9便利用优化参数4来处理数字化音频输入信号，这样提高的无声阀值补偿了增大的背景噪声。

音频接口11还为优化器14提供信息25，例如背景噪声的当前等级或音频块的当前尺寸。优化器14能够应用这一信息25来生成优化的控制参数4。

依赖输出提示20的类型，用户响应可以是一个短语、一个句子或拼写单词的形式。例如，输出提示20可以是一个简单问句的形式，用户只需对其回答“是”或“不是”。这一情况下，预测器模块13推断预期输入信号3将具有单个发声和短间断的特征，并且其将这些特征2通知给优化器14。优化器14例如通过为音频输入信号3规定一个短的超时值来相应地生成控制参数4。

外部应用也能够为对话系统1提供相关信息。例如，应用24能够不断地为对话系统1提供车辆的rpm值。预测器模块13预测由rpm值增大造成的发动机噪声增大，并相应地推断未来输入音频信号3的特征2。优化器14生成控制参数4来提高无声阀值，由此补偿噪声的增大。发动机rpm值的减小导致发动机噪声等级降低，预测器模块13由此推断输入音频信号3上的背景噪声等级降低。随后，优化器14相应地调整音频输入控制参数4。

除了音频硬件之外本发明的所有模块和单元都能够通过使用一个适当的处理器在软件中实现。

尽管以优选实施例及其变体的形式公布了本发明，但应该理解在不背离本发明范畴的前提下可在它们的基础上做出大量附加的修正和变化。本发明的一个实施例中，对话系统在处理少量发音之后便可以确定当前用户声音的音质，或者用户可以通过键入一个标识码来让系统了解自己，随后这些标识码将被用来访问存储的用户简档信息，而所述用户简档信息将被用来为音频接口生成适当的控制参数。

为了清楚，通篇申请中都应该理解“一”或“一个”的使用并不排除复数，且“包括”并不排除其它步骤或元件。“单元”或“模块”的使用不限于实现为单个单元或模块。

Claims

1.一种用于驱动一个对话系统(1)的方法，所述系统包括一个用于处理音频信号(3，6)的音频接口(11)，其中一个预期音频输入信号(3)的特征(2)被推断，根据这些特征(2)生成音频接口控制参数(4)，基于音频接口控制参数(4)来优化音频接口(11)的性能。

2.权利要求1所述的方法，其中从当前和/或在先的输入数据中推断特征(2)。

3.权利要求2所述的方法，其中从输入音频信号(3)的语音内容(5)的语义分析中推断特征(2)。

4.权利要求2或3所述的方法，其中从所确定的环境条件数据推断特征(2)。

5.前述任一权利要求所述的方法，其中从对所述对话系统(1)的当前提示(6)的预期响应中推断特征(2)。

6.前述任一权利要求所述的方法，其中控制参数(4)包括音频接口(11)的一个音频驱动器(9)的记录和/或处理参数。

7.前述任一权利要求所述的方法，其中控制参数(4)包括音频接口(11)的一个音频模块(10)的阀值参数。

8.一个对话系统(1)，其包括一个音频接口(11)、一个对话控制单元(12)、一个用于推断预期音频输入信号(3)的特征(2)的预测器模块(13)、一个通过基于特征(2)生成音频输入控制参数(4)来优化音频接口(11)性能的音频优化器(14)。

9.权利要求8所述的对话系统(1)，其中音频接口(11)包括音频硬件(8)和/或音频驱动器(9)和/或音频模块(10)。