CN1097769C

CN1097769C - 提供可由操作员干预支持的人机对话的方法和设备

Info

Publication number: CN1097769C
Application number: CN96190136A
Authority: CN
Inventors: A·J·尼曼; H·奥斯特; P·比斯廷; M·厄德
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 1995-01-18
Filing date: 1996-01-05
Publication date: 2003-01-01
Anticipated expiration: 2016-01-05
Also published as: US5745877A; WO1996022568A1; EP0752129A1; TW299436B; KR970701879A; ATE210311T1; DE69617544D1; EP0752129B1; JPH09510803A; CN1147871A; DE69617544T2

Abstract

执行一个用户交互式系统的计算机程序的相继段。用户对系统提出的像问题这样的言语项目提交相继的像回答这样的言语项目。每一个问题都相应于一个各自的程序段。如果可能和适宜的话，识别用户项目，提出下一个机器项目。评价识别结果，并根据该评价保持一个进展分数。如果进展分数达到一个特定的级，系统将允许操作员以非强制性的方式干预对话。如果并行地监视多个对话，则这种许可是根据对话进展的分等实现的。可以以言语方式、或者以机械输入的方式模拟一个用户项目来实现对对话的干预。

Description

提供可由操作员干预支持的人机对话的方法和设备

发明领域

本发明涉及在按照由一个用户相继提交的用户言语项目执行一个用户交互式系统的计算机程序的相继段的同时执行人机对话的方法，相继的用户言语项目是对由系统给用户提出的相继的系统言语项目的反应而产生，每一个这样的系统言语项目相应于一个各自的程序段，所述方法包括下述相继步骤：

a.由系统向用户提交相应于一个程序段的一个系统言语项目，

b.由系统识别由用户提交给系统的一个用户言语项目。

背景技术

这类方法在转让给本发明的受让人的美国专利4959864(PHN11266)中公开。已知技术在所述对话期间记录用户的异议数，且当所述异议的评分达到一个特定的分数级时，该系统自动地和无需人照应地转移到一个更为明确的反应级。本发明发现，尽管在开发对话的组织(由程序代表的)时采取的各种考虑，在许多场合下许多用户仍不能正确地与机器反应，使得对话无效。另一方面，切换到与操作员直接对话，有时使使用人员感到受支配。此外，操作员的干预常常需要操作员执行对话直到其结束。在这一方面，本发明将允许操作员不仅能进入对话，而且也可再次离开对话，而不使后者的结构令使用人员不快。对话不能充分进行的主要原因是在一定的情况下机器非常难于理解用户，这或者是由于用户不理解机器的问题，或更为经常的是由于语音识别对该特定用户不够有效而引起。后一问题可由用户的语言特征引起，例如外国人或其它口音；或由系统问题引起，例如在电话应答系统的情况中，线路质量不好。

发明内容

因此，除了其它目的之外，本发明的一个目的是根据前叙提供一种方法，其中系统转移到另一人机交互对话级的过程多多少少保持为不可见的。现在根据一个方面，本发明的特点在于，对所述识别结果的评价和回复到部分a，同时，在所述识别基础上在多个这样的程序段之中选择每一个与后继系统言语项目有关的程序段，和在所述评价的基础上保持与所述对话相关的进展分数，并且在一个特定的进展分数级的控制下，许可系统操作员以非强制性的方式干预所述对话。以这种方式，机器仿佛掩盖了操作员的动作，而同时允许操作员干预，或者产生可正确识别的项目，或者产生基于正确理解对话过程的那些项目。

优点是，本方法包括并行执行多个对话，同时比较和分等每一个与各所述对话有关的单独的进展分数级，并且在一个特定的进展分数的控制下在所述对话中分等，使得系统操作员以非强制性的方式干预有关的对话。以这种方式，一个或多个操作人员可以监视多个并行执行的对话，同时，机器指示出最需要人干预的一个或多个对话，比如通过一个相对缓慢的进展。另一可选方案为，在某些对话中，像有关学习系统的对话，相反对进行最快的对话可以保证干预。

优点是，所述许可能让系统操作员通过模拟一个提交给系统的用户言语项目模仿用户。可以通过键盘执行干预，但是常常最快和最有效的是直接由操作员口答来代换一个用户提供的项目，例如对一个问题的回答。特别当用户对回答的关键词，例如一个市镇的名字说错或通常当用户语音减弱时，优点将十分明显。另一方面，利用鼠标或键盘的机械输入有时更为适宜。

本发明也涉及实现这种方法的设备。本发明的其它优点在有关权利要求中叙述。

附图的简要描述

下面参考优选实施例的公开，特别是参考附图，详细讨论本发明的这些方面和其它方面及其优点，附图中：

图1表示一个根据本发明的多对话系统；

图2表示一个根据本发明的流程图；

图3表示本发明的一个功能框图。

优选实施例的详细描述

下面参考一个火车线路查询系统公开本发明的一个优选实施例。而许多其它的对话环境也是适宜的，像其它查询系统，例如一个电话目录查询系统、或对家用电器或填写税务表格问题的帮助台等。另一个环境应该是基于一个对话结构的学习系统。在一个查询系统中，机器一般提出一系列问题以发现用户最终需要什么信息，而在另外的环境中，问题和回答之间的分布较少对称。

图1表示了一个根据本发明实现一个查询系统的多对话系统。该系统能够在一个操作员的监视下维持三个并行的对话。在实践中，这些数字不受限制。该系统不必在其它方面一致，原因是如地理距离，用户特性和不同的操作员的技能可能起一定的作用。该系统有三个双向用户接口设备20-24，它们独自操作一条音频通道。接口设备可以有一个扬声器和一个话筒。另一解决方案是这些接口设备连接到一条可以是ISDN的电话线上，它提供数字数据的传输。可选的另一方案是它们为或多或少需持续显示的关键信息，像运行时间表、被识别的市镇名或车费数额，补充一个视频输出通道。元件26-30是模拟音频通道和系统中其余部分中的数字数据处理的接口；在ISDN环境中，这些不一定需要。现在采样音频输入并将其数字化。输出分组被转变为模拟信号，需要的话还进行滤波。框31、32、33是语音识别器。对于根据本实施例建立在德国的系统，这些识别器可以识别1100个车站名的语汇和900个其它的词，像时间和一天中时间的限定词(例如“早”、“下午”，日期和月份)，一组对该项应用关键的术语，像“快车”、“快”、“头等”等等，最后是一组普通的词，这些被识别的术语以发音序列和以位串码的形式输出。框34、36、38代表各自的对话控制设备，它们解释在各种不同的水平上识别的结果(下面将讨论)，并决定对话的状态。如果需要进一步的问题，那么产生这些问题并输出到相关的框26、28、30，以便提交给用户。如果控制设备确定它知道用户实际想要的项目，该项目也提交给该用户。框40、42、44跟踪到目前的识别过程，例如，它们可能存储用户言语项目，或者以提交给操作员监听的形式，或者以被识别的文本形式，后者由操作员在图中未明确示出的操作员视像显示器上查看。另外每一框40-44保存一个有关进展的分数；这可能以一个数字的形式或其它形式实现。框40-44输出到操作员控制系统52。该操作员控制系统可以是一个配置齐全的工作站，带有双向辅助音频通道(未示出)，或只带有在这种工作站上通常配备的设备的一部分。在工作站上，各个处理的进展分数自动从“坏”到“好”分等，选择最小进展以可见方式提交给操作员，最好以质量顺序，这样操作员立即能知道哪个对话是最慢的。这种提交方式可以通过显示由机器和用户以文本方式最新交换的言语项目来进行，在用户的场合只要能被识别。另一提交方式是以实际交换的形式重放该言语项目，或者以它们正常的速度，或者可选高于它们的正常速度。这样做常常能暴露系统难以识别的用户言语项目。操作员可以选择一个对话，比如通过移光标到一个有关的显示区域。接着，操作员可以通过线46、48、50提交模拟用户项目到系统。如图所示，它们以键入用户回答的形式连接到有关的对话控制设备框34、36、38。另一种方式为操作员以一种为明晰起见而未显示出来的方式用语言把模拟用户言语项目提交给有关的语音识别器框31、32、33。如果操作员的这种提交有助于所处理的对话的进展，则该用户将收到一个机器言语项目，其最合于它自己的需要。在许多情况下，这将使操作员另外的干预变得多余。以相似的方式，框52可以代表两个或更多个工作站，以便每一个操作员可以独立地干预进行过慢的各自的对话。

现在，用户言语项目(在本实施例中它们通常为对机器产生的问题的回答)的识别可以有不同的结果：

1.未收到语音：这作为言语间歇处理，系统将等待一段时间。如果间歇过长，重复最后一个问题；

2.未识别到有用内容；

3.未识别到期待的类别，例如一个“您想乘几等车？”的问题答以“星期三”；在这种情况下，系统在“我不理解您的回答”后，重复最后一个问题。但是，一个未期待的回答可能对另一个问题是合理的回答，例如对由系统要提出的下一个问题。在后一情况下，下一系统问题包括最新回答的内容作为限定语，而用户对其肯定的回答使识别的内容保存起来以供以后使用。

4.未识别到合理的内容，例如指定一个不合逻辑的迂回路线；在这种情况下也进行第3条的步骤。

5.识别到一个合理的和期待的用户言语项目。之后，如果合适的话系统对用户提出下一问题。

针对上面列出的识别结果之一而产生的机器言语项目可能有不同的特征。不过一般说来它们以一种询问的形式列出，而且包含有已被识别的，有时是尝试性的元素。这种重复的效果是用户常常只需要说一个或很少几个词。即使用户用额外的语言补充这种最少需要的信息，后者的识别与否对对话的进展并非关键。另外，在火车线路查询系统中，每一个机器产生的最后的结果是一个特定的火车线路，它只有有限的一组参数，像：

开离车站和时间

到达车站和时间

中间路线和换乘站

车等：头等，二等

特征：本地车，半快车，快车

其它：卧车，餐车这意味着系统只需要使这些问题相对于每一个这样的参量得以回答，和只要它们是适当的。这种有限的需求使得对话结构相对简单。因此，对话控制设备负责相继获得对最后结果而言所有必需的参量方面的回答，以便使最终回答由尽可能少的火车线路组成，一般不多于两个。特定类型的机器问题是：

您想从哪个车站出发或到哪个车站？这里机器负责识别目的站名，和维持在词语“从-到”和两个站名之间的正确连接。在识别到标志出发点或目的地的组合的一方之后，机器提出旅行的另一端的问题：

您想从(到)哪个车站到(从)<目的(出发)车站名>？在识别到两个组合后，系统询问需要的日子和时间，同时重复该次旅行的两个限定语。当系统对收到的回答不十分肯定的话，它可能重复：

那么说您想从<站名>到<站名>？以这种方式系统相继识别不同的参量以确定目标连接。如果用户的申明超出实际回答的问题之外，但与所选择的路线有关，这些项目将被保存在系统中并在下一个问题时重复。

现在，在框40-44维护一个各种对话的进展分数。在这里各种策略都是适宜的。第一种是累计在对话中未导致任何进展的回答后提交给用户的重复问题的数目。在充分识别的和充分有效的回答的情况下它可以与复位累计的和相结合或不结合。第二种策略是累计由机器提出的问题的总数目。如果这个数目太大，则可证明该对话进行得太慢。各种其它的策略对本技术领域熟练的实践者来说是敞开的。

图2表示按照本发明的方法的示例流程图。图中，只示出一个用户的处理，因为有关并行的多个对话的硬件实现已经在图1中表示过。另外，为明晰起见，仅介绍一个基本的系统。实践中，产生对话的程序结构要复杂的多。为更为广泛地公开这样的系统，参见德国专利申请P4432632.7，相应于美国系列号08/...，...(PHD94120)，其转让给本发明的受让人，结合在此作为参考。可以理解，图2中各种元件也可以以软件实现。现在在图中，框60表示只有一个对话(或可能是这种情况)的系统的初始化。框62表示由系统输出一个介绍信息。框64表示由系统产生第一个问题：“您想去哪儿？”。本实施例涉及有关起始点已知的系统，例如由于访问者的位置已知。在框66，系统试图识别下一接收到的回答为目的站名。如参考图1说明的，可能得到各种不可识别的或不合逻辑的回答。在任一这种情况下，系统走向框68，并要求用户重新说明他的目的地。如果问题是回答不可识别，则机器的声明可能使其内容适应于实际接收到的回答，例如：“<站名>是您现在的车站；您想去哪儿？”，以防止用户不经心给出起始位置。当用户已经给出起始位置时，相似的短语也可以应用。

如果已识别的信息不包含相关车站的名字，“我不理解您的回答，您想去哪儿？”，

在站名的识别模棱两可的场合，例如两个车站有几乎相同的名字时，“请重复您的回答”，如果识别到一个正确的目的车站名，系统走到框70并检查识别的车站名是否是唯一的车站，或给定始发站，仅有一个单一的车站是相关的。结论是肯定的话，系统走到框78。在一个特定的城市有多于一个车站时，也可能出现否定的结论。因此，在框72系统请求用户指定那一个车站是有关目的车站。在框74，系统检查是否已识别到一个正确的指示。如果没有，执行一个关于框66、68的相似的循环，为明晰起见，该循环未示出。如果已经识别到一个正确的车站名，系统走到框78。这里，请求用户指定旅游时间，其以类似于在框64-74中的目的站名的方式处理。在框80，请求用户指定路线。在框82，请求用户指定其它事项，例如是头等车还是二等车。在框84，系统输出必需的信息，可能以显示屏或用硬拷贝的方式。在框86，这次对话结束。在框88，对话终止。系统也可能给出各种另外的语音输出，例如以文字重复识别的回答，给用户提供二元选择，等等，但是这些不代表本发明特有的元素。当类似框68后的框发出进展太慢的信号时，操作员可能干预。在这种情形下，当操作员完全接管时，可能离开图2的流程图，但是根据本发明，操作员也可能只是模拟一个用户项目，因此流程图以和在识别到一个正确的回答时完全一样的方式被经过。实际做的对处理进展的测量，可以根据像框68这样的重复框被起动的次数进行。这些数字可以连续累计。各种类型的非标准的或慢的进展可能发出各自不同的进展分数信号。另一可选方案为，一个由系统为保证相继的旅行参量而测量的快速进展时期，可以实际减少分数，因此改变所涉及的处理的等级。如同前面所述，像78到82这样的框不必按照线性顺序配置，可以并行安排，以便可以几乎在对话处理的任何阶段调用它们的功能。然后把每一个被识别的参量作为寻找的火车线路的一个最终参量而储存。应该指出，本发明并不涉及特有的对话结构，而是涉及当进度太慢(或太快)时所采取的措施。

图3表示本发明的一个功能框图，特别涉及识别过程。元件94是连接到电话接口96的一条电话线。框98表示语音识别子过程，它将输出一串临时的识别词。该串可以是一个多路并行串，其中有多于一个的结果是适合的，并且可以有格子结构的特征。框100表示语音理解子过程。这里，根据它们的意义评价被识别的词，例如一个站名是否结合了方向限定词“到”或“从”，或一个时间或时间间隔指示而识别。框102表示对话控制子过程，它把由框100理解的语音与根据由系统最新提供的一个或多个问题而期待的信息比较。考虑到这一点，选择要提供给用户的下一个问题，也有可能是最后的回答。此外，对话控制子系统在框112中维持一个进展分数。在框102的控制下，语音输出框104产生合适的语音项目通过接口96输出。所示回路对每一个各自的对话实现一次。对共享或分离的硬件的映射未予考虑。项106表示一个操作员话筒。框108是一个语音识别子过程；框110是一个语音理解子过程。后者输出到对话控制子过程，以模拟一个用户项目来加强所涉及的对话的进展。操作员控制子系统以来示出的方式通过讯问进展分数存储框112，可以选择一个或多个当前活动的对话作为操作员干预的候选项。又一次，框108、110可以映射在与另外的(子)过程共享的硬件上。

Claims

1.在按照由用户提交的相继的用户言语项目执行一个用户交互式系统的相继的计算机程序段的同时，实现人机对话的一种方法，相继的用户言语项目是对由系统提交给用户的相继的系统言语项目的反应而产生的，每一个这样的系统言语项目相应于一个各自的程序段，所述方法包括以下相继的步骤：

a.由系统向用户提交一个相应于一个程序段的系统言语项目；

b.由系统识别由用户提交给系统的一个用户言语项目；其特征在于：

c.评价所述识别结果并回复到部分a，同时根据所述识别，在多个这样的程序段中选择每一个与一个后继的系统言语项目有关的一个，和根据所述评价保持与所述对话有关的一个进展分数，并在一个特定的进展分数级的控制下允许系统操作员以非强制性方式干预所述对话。

2.在对每一个对话按照由其各自的用户提交的相继的用户言语项目执行一个用户交互式系统的有关的共享计算机程序的相继段的同时实现多个并行的人机对话的方法，相继的用户言语项目是对由系统提交给该用户的相继的系统言语项目的反应而产生，每一这样的系统言语项目相应于一个各自的程序段，所述方法对每一对话包括以下相继步骤：

b.由系统识别由用户提交给系统的一个用户言语项目；

c.评价所述识别结果并回复到部分a，同时根据所述识别，在多个这样的程序段中选择每一与一个后继的系统言语项目有关的一段，和根据所述评价保持与每一各自所述对话关联的一个进展分数；

所述方法包括比较和分等单独的进展分数级，每一个都与各自的所述对话有关，和在一个特定的进展分数的控制下在所述对话中分等，从而允许系统操作员以非强制性方式干预有关的对话。

3.如权利要求1或2所要求的方法，其中所述许可可使系统操作员借助提交给系统的一个模拟用户言语项目模拟一个用户。

4.如权利要求1或2所要求的方法，其中所述许可可使系统操作员借助提交给系统的一个机械输入的用户项目模拟一个用户。

5.如权利要求3所要求的方法，其中所述系统传递的被识别的用户言语项目被保存起来，以便系统操作员重新审查。

6.如权利要求3所要求的方法，其中所述系统传递的接收到的用户言语项目被保存起来为系统操作员第二次审查。

7.如权利要求6中所要求的方法，其中所述第二次审查以比人语音的标准速度提高的速度实现。

8.在按照由用户提交的相继的用户言语项目执行一个用户交互式系统的相继的计算机程序段的同时实现人机对话的计算机设备，相继的用户言语项目对由系统提交给用户的相继的系统言语项目的反应而产生，每一个这样的系统项目相应于一个各自的程序段，所述设备包括：

a.给用户提交一个相应于一个程序段的系统言语项目的提交设备；

b.识别由用户提交的一个用户言语项目的识别设备；其特征在于：

c.由所述识别设备为评价所述识别的结果而供应的评价设备，其具有为启动所述提交设备，并回复到部分a的启动设备，同时根据所述识别，在多个这样的程序段中选择与一个后继的系统言语项目有关的一个程序段的启动设备，和具有由所述评价设备为根据所述评价保持与所述对话有关的一个进展分数而供应的评分设备，和具有为在一个特定的进展分数级的控制下输出一个许可信号以允许系统操作员以非强制性的方式干预所述对话的一个许可输出设备。

9.如权利要求8所要求的设备，其中所述评价设备、识别设备和评价设备以多路方式执行，以便允许同时支持多个并行的人机对话，所述评价设备进一步包括分等设备，为将多个进展分数分等为与各自所述对话关联的每一个，所述许可输出设备由所述分等设备供给。