CN111460111B

CN111460111B - 评估自动对话服务的重新训练推荐

Info

Publication number: CN111460111B
Application number: CN202010068104.1A
Authority: CN
Inventors: T·A·特恩叶恩惠斯; I·M·特瑞斯; A·R·福瑞德; B·W·艾玛纽尔
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2019-01-22
Filing date: 2020-01-21
Publication date: 2024-01-26
Anticipated expiration: 2040-01-21
Also published as: US20200236068A1; CN111460111A; US11075862B2

Abstract

本公开涉及评估自动对话服务的重新训练推荐。重新训练服务访问对话日志，每个对话日志记录单独用户和对话服务之间的单独对话、以及用该单独的对话识别的至少一个结果。在所述至少一个结果与多种结果类型当中的指示响应以负面方式影响了用户体验的结果类型匹配的情况下，重新训练服务从对话日志中评估至少一个对话间隙和响应。重新训练服务评估一个或多个推荐，用于重新训练响应以促进所述多种结果类型当中的正面的结果类型。重新训练服务向对话服务输出所述一个或多个推荐，以指导对话服务对响应的重新训练。

Description

评估自动对话服务的重新训练推荐

技术领域

本发明一般地涉及自然语言处理，并且更具体地涉及评估自动对话服务的重新训练推荐。

背景技术

许多网络服务结合了自动对话服务，例如聊天机器人，其使用自然语言处理来自动化与用户的交互。

发明内容

在一个实施例中，一种方法旨在通过计算机系统访问多个对话日志，所述多个对话日志中的每一个记录多个用户中的单独用户与对话服务之间的单独对话、以及用所述单独对话识别的至少一个结果。该方法旨在在所述至少一个结果与多种结果类型当中的指示响应以负面方式影响了用户体验的结果类型匹配的情况下，通过计算机系统从所述多个对话日志中评估至少一个对话间隙和响应。该方法旨在通过计算机系统评估一个或多个推荐，用于重新训练响应以促进所述多种结果类型当中的正面结果类型。该方法旨在通过计算机系统向对话服务输出所述一个或多个推荐，以指导对话服务对响应的重新训练。

在另一个实施例中，一种计算机系统包括一个或多个处理器、一个或多个计算机可读存储器、一个或多个计算机可读存储设备、以及存储在所述一个或多个存储设备中的至少一个上的程序指令，所述程序指令经由所述一个或多个存储器中的至少一个由所述一个或多个处理器中的至少一个执行。所存储的程序指令包括访问多个对话日志的程序指令，所述多个对话日志中的每一个记录多个用户中的单独用户与对话服务之间的单独对话、以及用所述单独对话识别的至少一个结果。所存储的程序指令包括在所述至少一个结果与多种结果类型当中的指示响应以负面方式影响了用户体验的结果类型匹配的情况下，从所述多个对话日志中评估至少一个对话间隙和响应的程序指令。所存储的程序指令包括评估一个或多个推荐，用于重新训练响应以促进所述多种结果类型当中的正面的结果类型的程序指令。所存储的程序指令包括向对话服务输出所述一个或多个推荐，以指导对话服务对响应的重新训练的程序指令。

在另一个实施例中，一种计算机程序产品包括计算机可读存储介质，该计算机可读存储介质实施有程序指令，其中该计算机可读存储介质本身不是瞬态信号。所述程序指令可由计算机执行，以使计算机通过该计算机访问多个对话日志，所述多个对话日志中的每一个记录多个用户中的单独用户与对话服务之间的单独对话、以及用所述单独对话识别的至少一个结果。所述程序指令可由计算机执行，以使计算机通过该计算机在所述至少一个结果与多种结果类型当中的指示响应以负面方式影响了用户体验的结果类型匹配的情况下，从所述多个对话日志中评估至少一个对话间隙和响应。所述程序指令可由计算机执行，以使计算机通过该计算机评估一个或多个推荐，用于重新训练响应以促进所述多种结果类型当中的正面的结果类型。所述程序指令可由计算机执行，以使计算机通过该计算机向对话服务输出所述一个或多个推荐，以指导对话服务对响应的重新训练。

附图说明

被认为是本发明一个或多个实施例的特性的新颖特征在所附权利要求中阐述。然而，结合附图阅读以下示例性实施例的详细描述，将最好地理解本发明自身的一个或多个实施例，在附图中：

图1是示出了实现用于评估用于对话服务所提供的响应的重新训练的推荐的重新训练控制器的对话系统的一个示例的框图；

图2是示出了用于向对话服务提供用于重新训练响应的推荐的重新训练控制器的一个示例的框图；

图3是示出了用于评估用于重新训练对话服务所提供的响应的推荐并推荐替换响应的重新训练控制器的一个示例的框图；

图4是示出了可以实现本发明的一个实施例的计算机系统的一个示例的框图；

图5是示出了用于向对话服务提供用于重新训练响应的推荐的过程和计算机程序的高级逻辑流程图；

图6是用于重新训练控制器识别对话服务的对话日志中的意图集合的过程和计算机程序的高级逻辑流程图，所述对话日志是在对话中的负面转变之前发生的意图和响应的指示符；以及

图7是示出用于重新训练控制器评估用于重新训练由对话服务提供的响应的推荐并推荐替换响应的过程和计算机程序的高级逻辑流程图。

具体实施方式

在下面的描述中，出于解释的目的，阐述了许多具体细节以提供对本发明的透彻理解。然而，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下实施本发明。在其他情况下，以框图形式示出了公知的结构和设备，以避免不必要地使本发明晦涩难懂。

另外，在下面的描述中，出于解释的目的，描述了许多系统。重要的是请注意，对于本领域的技术人员来说将显而易见的是，本发明可以在各种系统中执行，包括运行任何数量的不同类型的操作系统的各种计算机系统和电子设备。

图1示出了实现用于评估用于对话服务所提供的响应的重新训练的推荐的重新训练控制器的对话系统的一个示例的框图。

在一个示例中，对话系统100包括表示网站、web服务、云服务和应用中的一个或多个的应用接口120。在一个示例中，应用接口120表示用于支持在单个设备上或分布在经由网络连接的多个设备和系统上的一个或多个服务、应用功能、服务器功能以及其他计算机提供的功能的接口。在附加或替代实施例中，对话系统100可以包括附加的应用接口。

在一个示例中，应用接口120实现对话接口122，用于支持通过对话接口122提供给用户的对话服务102。在一个示例中，对话服务102表示一种设计成经由对话接口122模拟与一个或多个人类用户的智能对话的服务。在一个示例中，对话服务102可以表示聊天机器人，其中对话接口122表示用于为用户提供个性化服务或信息获取的交互式对话框接口。在一个示例中，对话服务102在对话接口122内支持交互式对话，例如交互式对话框或聊天会话。在一个示例中，通过对话接口122支持的交互式对话允许用户接收查询的答案并接收信息。

在一个示例中，用户输入用户对话输入110。在一个示例中，用户对话输入110包括一种或多种类型的输入，包括但不限于语音输入、文本输入和手势输入。在一个示例中，对话输入122管理从对话服务102到用户的选择响应152的输出。在一个示例中，选择响应152包括一种或多种类型的输出，包括但不限于音频输出、视频输出、文本输出和图形输出。在一个示例中，对话接口122可以表示聊天类型的接口，其中在用户可访问的日志中输出用户对话输入和系统响应的带有时间戳和时间顺序的日志。在附加或替代实施例中，应用接口120可以实现多种类型的对话接口。

在图1的示例中，除了支持对话服务102外，应用接口120还支持任务接口124。在一个示例中，任务接口124支持响应于用户任务选择112的输入而执行一个或多个动作。在一个示例中，用户任务选择表示一种或多种类型的输入，包括音频或文本输入，其选择任务接口124所支持的任务。例如，任务接口124可以支持应用表格，其中用户任务选择112表示选择完成并提交任务接口124内支持的应用表格的用户输入。在另一个示例中，任务接口124可支持订单选项，其中用户任务选择112表示选择放弃、为以后保存或完成任务接口124中支持的订单选项的用户输入。

在一个示例中，选择响应152还可以用作用户任务选择，用于在任务接口124内选择任务。例如，如果用户对话输入110陈述“请完成订单”，则来自对话服务102的选择响应152可以指示任务接口124完成订单，作为对任务接口124内的指示对完成订单的可选择选项的选择的用户任务选择112的输入的替代。另外，在附加或替代实施例中，可以在独立于应用接口120的应用接口内支持任务接口124。

在一个示例中，无论响应于用户任务选择112还是响应于作为对任务接口124的输入的选择响应152，任务接口124都可以向对话服务102发送任务报告126，该任务报告126指示执行的任务、保存的任务和放弃的任务。另外，对话服务102可以通过检测到的附加或替代类型的输入来监视与对话接口122所支持的对话有关的任务性能。

在该示例中，对话服务102可以实现一个或多个组件，用于将经由对话接口122接收的用户对话输入110转换为文本格式或对话134中的可以由分类器134分析和分类的其他格式。例如，对话服务102包括诸如语音至文本转换器或手势至文本转换器的输入至文本转换器132。另外，输入至文本转换器132可以接收反映从与对话接口122有关但在对话接口122外部的可检测环境收集到的信息的输入，其中输入至文本转换器132还可以将检测到的环境输入转换为对话134中的文本环境元数据。例如，如果用户登录到应用接口120，则应用接口120可以访问由对话接口122检测并可以被插入对话134中的文本环境元数据中的该用户的客户记录，包括诸如名称和订单历史的用户信息。

在一个示例中，除了将用户对话输入110转换为文本之外，输入至文本转换器132可以访问语调分析器142以分析用户输入的语调。在一个示例中，语调分析器142对文本中的用户对话输入110的片段进行采样，使用基于文本的语言分析来评估与文本中的语言语调相关联的情绪，并且将语调指示符插入到对话134中的由输入至文本转换器132转换的文本的片段中。在一个示例中，如果用户对话输入110包括用户语音，则语调分析器142还可以对语音中的用户对话输入110的片段进行采样，使用另外的基于语音的语言分析来评估与语调相关联的情绪，并将语调指示符插入对话134中的由输入至文本转换器132转换的文本的片段中。在一个示例中，由语调分析器142评估的语调示例可以包括但不限于愤怒、厌恶、恐惧、欢乐、悲伤、善于分析、自信和犹豫。

在评估语调时，语调分析器142还可评估每个语调的水平，指示情绪的水平。在一个示例中，语调分析器142从对文本和语音的基于文本和基于语音的语言分析中评估指示情绪水平的每个语调的用户体验水平，并且可以包括具有语调标识符的对话134中的水平或表示水平的曲线图。例如，在分析用户对话输入110时，语调分析器142可以初始地评估高水平的自信语调，但是随着时间的流逝，自信语调的水平可能减小，并且识别为愤怒语调的水平可能增加。在一个示例中，可以记录每个语调的水平以反映一个或多个单位基础，例如但不限于0至10的标度和百分比。

在一个示例中，为了管理对话134的自然语言处理以及确定一个或多个预编程的响应以返回作为响应，对话系统102实现用于分析对话134并将对话134分类为用户的意图146的分类器134。意图可以表示文本后面的意图，并且可以包括相应的分类和正确预测该分类的置信度得分。在一个示例中，意图表示用户输入中表达的目的或目标，例如回答问题或处理账单支付。在一个示例中，对话服务102的响应选择器170以可用于响应意图的一个或多个响应来训练。在该示例中，响应选择器170收集并格式化可用于响应一个或多个意图的一个或多个响应，并将选择响应152返回给对话接口122，以输出给用户。例如，一旦分类器134将用户输入分类为一个或多个意图，则响应选择器170可以选择用于响应用户输入的对话框流。

在一个示例中，对话服务102的分类器140和响应选择器170可以执行对话框知识表示和模式匹配技术。在一个示例中，使用识别文本对话框和针对文本对话框的意图的示例对话框模式的语料库来训练分类器134，以建立知识数据库154。在一个示例中，可以在每个单独的意图都有多个文本对话框样本的情况下针对意图的选择训练知识数据库154。

一旦训练了分类器134，分类器134就可以处理对话框查询。在该示例中，分类器134通过对文本进行分段并将每个片段应用于被训练模型来处理在对话134中接收的查询和其他文本，该被训练模型应用知识数据库154来确定分类器对其每个片段具有最高置信度的类别的名称。在识别文本的每个片段的类别时，分类器140针对文本的每个片段有效地确定用户的意图，作为意图146输出。在一个示例中，分类器140可以应用一种或多种类型的模式匹配算法来预测意图并选择响应。响应选择器170针对意图146中的每种类型的意图访问来自知识数据库154的一个或多个预编程的响应。

在该示例中，日志控制器160管理对话134、选择响应152和任务报告126(如果可用的话)到对话日志162的日志记录。在一个示例中，日志控制器160可以为记录的每个对话134、选择响应152和任务报告126加时间戳或确保加时间戳，以为每个记录的项目创建基于时间的日志。在一个示例中，对话日志162由单个对话服务收集或跨多个对话服务共享。在附加或替代示例中，对话系统100可以实现仅包括对话接口的应用接口和仅包括任务接口的单独的应用接口，但是对话服务102可以监视对相关的每个接口的用户输入。

在一个示例中，对话服务102可以包括精度控制器148，用于监视分类器140为意图146中的每个意图返回的置信度百分比，并基于预测意图时达到的置信度百分比来评估分类器140的精度，以确定在分类器140中需要额外训练以提高意图预测的精度的文本和类别。在一个示例中，响应于检测到针对特定客户输入短语识别的多个意图(每个具有低于阈值的置信度百分比)，精度控制器148可以提示管理分类器140的训练的程序员从由分类器140预测的多个意图当中指示最相关的意图，以选择不是由分类器140预测的另一意图，或者将客户输入短语标记为不相关。基于程序员输入，分类器140重新训练知识数据库154，以通过程序员选择的意图更精确地对客户输入短语进行分类。在该示例中，评估分类器140是否将文本片段的意图精确地分类使得精度控制器148能够重新训练意图分类以提高由对话服务102基于用户输入选择的响应的精度。虽然评估对话服务102的分类精度可以提供提高分类器的性能以评估较高的置信度百分比所需的信息，但是精度控制器148可能无法识别以负面方式最显著地影响用户体验的对话间隙和为意图选择的响应。

根据本发明的优点，重新训练控制器170访问对话日志162，并根据对话日志162中在结果类型排名174中被分类为负面结果的结果，评估以负面方式最显著地影响用户体验的对话间隙和响应。另外，根据本发明的优点，重新训练控制器170评估用于重新训练对话服务102所提供的用以克服以负面方式最显著地影响用户体验的对话间隙的响应的推荐，以促进结果类型排名174中的正面结果，并输出用于重新训练响应以产生不同的结果的推荐作为重新训练选择172。在该示例中，考虑到如对话日志162中记录的随着时间的流逝的来自与许多不同用户的多个对话的大量信息，重新训练控制器170被优化以根据对话记录162当中的结果高效地识别最显著地影响用户体验的对话间隙和响应，以便于针对所识别的对话间隙的集中重新训练。在一个示例中，可以根据与防止用户完成任务或劝阻用户完成任务的对话响应相关联地记录的结果在结果类型排名174中识别最显著地负面影响用户体验的对话间隙和响应，这对于在对话服务102中进行目标定位和重新训练至关重要。在一个示例中，还可以根据与导致用户选择完成任务的对话响应相关联地记录的结果，在结果类型排名174中识别对用户体验具有正面影响的响应。

特别地，在该示例中，如果在对话日志162中记录的对话包括语调标识符和水平，则重新训练控制器170在评估以负面方式最显著地影响用户体验的对话间隙和响应时，还评估语调标识符类型和语调水平之间的转变，以识别指示结果类型排名174中最有可能指示负面用户体验的结果的转变，结合从对话日志162中的任务报告中进行识别，指示用户是否未能完成任务。在一个示例中，如果在对话日志162中记录的对话尚未包括语调标识符和水平评估，则重新训练控制器170可以首先访问语调分析器142以对在对话日志162中记录的对话执行语调识别和水平评估。在一个示例中，结果类型排名174可以指示从为正的语调标识符到为负的语调标识符的语调标识符的转变是负面类型的结果，并且从负到正的语调水平的转变是正面类型的结果。

在一个示例中，分类器140接收以负面方式最显著地影响用户体验的一个或多个响应的重新训练选择172，并重新训练与知识数据库154中的意图配对的一个或多个响应的内容。在该示例中，根据本发明的优点，可能需要计算开销和程序员开销的用于重新训练分类器140的时间集中在基于用户体验的重新训练上。与之相对，精度控制器148可以基于由分类器140生成的概率百分比来聚焦重新训练，用于重新训练与客户输入相关联的意图，而不是基于所收集的关于接收与意图相关联的响应的用户体验的信息。

图2示出了用于向对话服务提供用于重新训练响应的推荐的重新训练控制器的一个示例的框图。

在一个示例中，重新训练控制器170包括意图集合分析器210。在一个示例中，意图集合分析器210定义或识别用于对话服务102的意图集合212。在一个示例中，如果对话服务102是新服务，则意图集合分析器210使用一个或多个意图选择手段(例如k均值)将来自对话日志162的话语或来自其他系统的聊天日志聚类到桶(bucket)中，并从桶中确定意图集合212。在另一示例中，如果对话服务102是现有服务，则意图集合分析器210将知识数据库154中的针对分类器140训练的现有意图作为意图集合212进行访问。在重新训练分类器140期间，训练更新可以包括检测当前不在知识数据库154中的对话日志162内的新话语，以及选择将新话语与知识数据库154中的现有意图进行匹配或创建新意图并将该新意图与现有响应对话框进行匹配或在知识数据库154中创建新响应对话框，其中意图分析器210检测在重新训练期间添加到知识数据库154的新意图，并将新意图添加到现有的意图集合212。

在一个示例中，重新训练控制器170包括响应集合分析器214。在一个示例中，响应集合分析器214定义或识别用于对话服务102的响应集合216。在一个示例中，如果对话服务102是新服务，则响应集合分析器214使用一个或多个响应选择手段(例如k均值)，针对每个识别的意图来识别来自对话日志162的响应或来自其他系统的聊天日志的集群，并从桶中确定响应集合216。在另一示例中，如果对话服务102是现有服务，则响应集合分析器214将为响应选择器170训练的现有响应作为响应集合216进行访问。意图分析器210还检测在重新训练期间添加到知识数据库154的新响应并将新响应添加到现有的响应集合216。

在一个示例中，用于识别意图或响应的k均值聚类可以表示矢量量化的方法，其旨在将“n”个观测划分为“k”个集群，其中每个观测属于具有最近均值的集群，用作集群的原型。在附加或替代示例中，重新训练控制器170可以应用k均值聚类的变体或其他统计机器学习算法来将话语的集群识别到组或桶中，并从集群中识别意图和响应。

在一个示例中，重新训练控制器170包括语调分析器218，用于分析对话日志162并在对话日志162的分段对话中识别一个或多个语调标识符和水平标记220。在一个示例中，对话日志162可以包括由语调分析器142识别的语调标识符和分段对话的水平。在一个示例中，可以记录每个语调的水平以反映一个或多个单位基础，例如但不限于0到10的标度和百分比。

在另一个示例中，语调分析器218可以分析记录在对话日志162中的用户输入的语调，应用用户或系统指定的边界来识别片段。在一个示例中，语调分析器218对对话日志162中的用户输入的片段进行采样，使用基于文本的语言分析来评估与文本中语言的语调相关联的情绪，并针对语调标识符和水平标记220中的文本的每个片段识别带有语调标识符的语调标记。在一个示例中，由语调分析器218评估的语调的示例可以包括但不限于愤怒、厌恶、恐惧、喜悦、悲伤、善于分析、自信和犹豫。另外，在评估语调时，语调分析器218还可评估每个语调的水平，指示情绪的水平。在一个示例中，语调分析器218根据对对话日志162中的用户输入的片段的基于文本的语言分析，评估指示情绪水平的每个语调的用户体验水平，并在语调标识符和水平标记220中记录该水平。例如，在分析对话日志162的片段时，语调分析器218可以初始地评估高水平的自信语调，但是随着时间的流逝，自信语调的水平可能降低并且以愤怒语调识别的水平可能增加。

在一个示例中，重新训练控制器170包括任务识别器222。在一个示例中，任务识别器222分析对话日志162以在任务标记224中识别与一个或多个语调标识符和水平标记220中的每一个相关联的一个或多个任务。

在一个示例中，重新训练控制器170包括转变分析器226。在一个示例中，转变分析器226访问结果类型排名174的转变阈值230。在一个示例中，转变阈值230指示语调标识符的转变的类型、特定标识符的语调水平转变的百分比、以及每种都识别作为用户体验已受到负面影响的指示器的主要转变的任务类型。在一个示例中，转变分析器226分析语调标识符和水平标记220，以识别带有语调标识符的从被分类为诸如喜悦的正语调标识符的语调标识符到被分类为诸如愤怒的负语调标识符的语调标识符的改变的标记的选择，其中将语调标识符的类型的该类型转变被指定为转变阈值230中的主要转变。此外，转变分析器226分析语调标识符和水平标记220和任务标记224，以识别带有指定为转变阈值230中的主要转变的特定类型的语调和特定类型任务的语调水平的百分比变化的标记的选择。在另一个示例中，转变分析器226分析任务标记224以识别在转变阈值230中识别为指示主要转变的标记的选择，所述标记例如为识别用户选择在未完成订单的情况下关闭订单的标记、或者识别用户在未选择完成订单的情况下令特定量的时间经过的标记。

在一个示例中，在分析用于语调标识符、语调水平或任务类型的转变的标记时，根据从意图和响应中指示对话已降级的语调标识符改变或语调水平改变或指示用户放弃了一个或多个任务的任务标记，转变分析器226可以基于结果类型排名174的负面结果类型234来识别指示用户体验受到负面影响的向下转变，但是，并非所有的向下转变都可以在转变阈值230中定义为主要转变。在一个示例中，在分析语调标识符、语调水平或任务类型的转变的标记时，根据从意图和响应中指示对话已改善的语调标识符改变、语调水平改变以及任务类型，或者指示用户完成了一个或多个任务的任务标记，转变分析器226还可以基于结果类型排名174中的正面结果类型232，识别指示用户体验已经恢复或重置的向上转变。

在一个示例中，对于从语调标识符和水平标记220以及任务标记224识别的标记，转变分析器226在每个所识别的标记之前的窗口中记录意图和响应的主要转变标记意图以及响应228。在一个示例中，转变阈值230可以指定时间窗口的长度或用于选择性地确定时间窗口的长度的规则，以便捕获每个主要转变标记之前的意图和响应。

在一个示例中，重新训练控制器170包括意图窗口集合识别器240。在一个示例中，意图窗口集合识别器240从主要转变标记意图和响应228中识别发起主要转变标记意图和响应228中的每个意图/响应窗口的意图的选择，作为意图选择242。在一个示例中，意图选择242也被称为“集合I”242。

在一个示例中，重新训练控制器170包括响应窗口识别器250。在一个示例中，响应窗口识别器250聚焦于对话话语和在集合I 242中指示的意图所识别的偏差之后的响应。

首先，在一个示例中，对于集合I 242中的每个意图，响应窗口识别器250从对话日志162生成类似正窗口252，从集合I 242中的意图开始，鉴于正面结果类型232，根据语调识别器和水平标记220的分析，该意图具有向上转变或不具有向下转变。

第二，在一个示例中，对于集合I 242中的每个意图，响应窗口识别器250从对话记录162识别类似负窗口254，从集合I 242中的意图开始，鉴于负面结果类型234，根据语调识别器和水平标记220的分析，该意图具有根据检测到的向下转变而表现负面的响应。另外，响应窗口识别器250可以通过应用环境元数据(如果可用的话)来增强类似的负窗口254中的响应的识别。例如，仅当环境元数据中可用的特定上下文变量(例如订单历史)未知或不存在时，才可以将特定响应确定为表现不佳。

第三，在一个示例中，对于集合I 242中的每个意图，响应窗口识别器250将类似正窗口252中的意图和响应对与类似负窗口254中的意图和响应对进行比较，以确定哪些响应导致了正面用户体验以及哪些响应导致负面用户体验。在该示例中，基于响应窗口识别器250确定哪些响应导致了负面用户体验，响应窗口识别器250将针对该意图的负面表现响应从类似负窗口254关联到带标志响应256的列表。在一个示例中，如果类似负窗口254包括针对同一意图的多个响应，则响应窗口识别器250选择表现最差的响应以降级或去除。在一个示例中，如果类似负窗口254仅包括针对意图的单个响应窗口，则响应窗口识别器250将响应自动添加到重新训练列表，并且可以通过应用一种或多种类型的改写规则来为响应建议至少一个改写。

在一个示例中，重新训练控制器170包括训练优先排序器260。在一个示例中，重新训练控制器170为集合I 242中的每个意图收集带标志响应256的列表，并在重新训练选择172中优先排序用于在分类器140和响应选择器170内的重新训练的意图。在一个示例中，训练优先排序器260可以确定用于重新训练的最高优先级意图，作为鉴于正面结果类型232、正语调标识符或任务完成而没有记录正面结果的意图，或者在类似正窗口252中没有检测到正面响应的意图。在另一个示例中，训练优先排序器260可以基于带标志响应256中的负趋势出现的频率或由转变分析器226根据负面结果类型234识别的向下标记，确定用于重新训练的意图的剩余优先级。

根据本发明的优点，重新训练控制器170访问对话日志162，评估以负面方式最显著地影响用户体验的对话间隙和响应，评估用于重新培训对话服务102所提供的响应以克服以负面方式最显著地影响用户体验的对话间隙的推荐，并输出推荐作为重新训练选择172。在该示例中，考虑到如对话日志162中记录的随着时间的流逝的来自与许多不同用户的多个对话的大量信息，重新训练控制器170被优化以通过如下方式高效地识别对话日志162当中的最显著地影响用户体验的对话间隙：首先，在主要转变标记意图和响应228中应用转变阈值230来识别指示以负面方式最显著地影响用户体验的对话间隙的主要转变，然后确定集合I 242中主要转变标记之前的那些意图和响应，以便于从集合I 242中的意图开始集中发现对话日志162中记录的其他用户体验的类似正窗口252和类似负窗口254。通过集中发现类似正窗口252和类似负窗口254，可以在针对每个意图在带标志响应256中确定一个或多个响应，其跨以负面方式影响了用户体验的多个用户体验。在该示例中，对基于带标志响应256的重新训练进行优先排序，从而首先解决以负面方式最显著地影响跨对话服务102的用户体验的对话间隙和响应。

图3示出了用于评估用于重新训练由对话服务提供的响应的推荐并推荐替换响应的重新训练控制器的一个示例的框图。

如图3所示，对话日志162包括对话日志1 310、对话日志2 312和对话日志3 314，它们记录了同一用户或不同用户的三个不同的对话、响应和用户任务动作。在一个示例中，如附图标记320所示，重新训练控制器170重放对话日志并识别并映射意图集合212和响应集合216，其包括对话日志1 310中的“意图1”映射到“响应1.1”，“意图2”映射到“响应2.1”，“意图4”映射到“响应4.1”，“意图6”映射到“响应6.1”和“意图8”映射到“响应8.1”；对话日志2 312中的“意图2”映射到“响应2.2”，“意图4”映射到“响应4.2”，“意图5”映射到“响应5.1”和“意图7”映射到“响应7.1”；以及对话日志3 314中的“意图1”映射到“响应1.2”，“意图2”映射到“响应2.2”，“意图4”映射到“响应4.1”，“意图5”映射到“响应5.2”和“意图8”映射到“响应8.1”。另外，重新训练控制器170识别语调标识符和水平标记220，由如附图标记322所示的标记“意图4”映射到“响应4.2”、标记“意图5”映射到“响应5.1”和标记“意图7”映射到“7.1”以及如附图标记324所示的标记“意图4”映射到“响应4.1”和标记“意图5”映射到“响应5.2”的意图/响应标记示出。

如图3所示，在附图标记330处，重新训练控制器170识别出语调标识符、水平和任务类型中的一个或多个从“意图2”到“意图4”的转变根据转变阈值230指示向下转变，其中在附图标记332处所示的以“意图2”和“响应2.2”开始的窗口被标记为主要转变。在该示例中，“意图2”被示出为集合I 242中的意图。

在该示例中，如附图标记340所示，重新训练控制器170针对“意图2”将其他窗口与相似话语和响应相关联。在该示例中，在附图标记342和346处所示的窗口均表示以“意图2”开始的类似正窗口252的示例。在该示例中，在附图标记344处所示的窗口表示以“意图2”开始的类似负窗口254的示例。在该示例中，重新训练控制器170在带标志响应256中识别在附图标记344处所示的窗口中与“意图2”相关联的响应“响应2.2”。

在该示例中，重新训练控制器170从带标志响应256生成具有替换“响应2.2”的推荐的重新训练选择172。在该示例中，如附图标记350处所示，重新训练控制器170从在附图标记324和346处所示的类似正窗口确定对“意图2”的正面响应是“响应2.1”。在该示例中，如附图标记352处所示，重新训练选择172通过去除来优先针对“响应2.2”进行重新训练，并且还推荐用“响应2.1”中的响应替换“响应2.2”。

图4示出了可以实现本发明的一个实施例的计算机系统的一个示例的框图。本发明可以在由功能组件(例如参考计算机系统400描述的功能组件)组成的并且可以通信地连接到网络(例如网络402)的各种系统和系统组合中执行。

计算机系统400包括总线422或用于在计算机系统400内传送信息的其他通信设备、以及至少一个硬件处理设备，例如处理器412，其耦合到总线422以处理信息。总线422优选地包括低延迟和高延迟路径，其通过桥和适配器连接并且在计算机系统400内由多个总线控制器控制。在一个实施例中，当被实现为服务器或节点时，计算机系统400包括被设计为提高网络服务能力的多个处理器。

在一个实施例中，处理器412是至少一个通用处理器，其在正常操作期间在软件450的控制下处理数据，该软件450包括应用软件、操作系统、中间件和其他代码和计算机可执行程序中的至少一个，所述软件可从诸如随机存取存储器(RAM)414的动态存储设备、诸如只读存储器(ROM)416的静态存储设备、诸如大容量存储设备418的数据存储设备或其他数据存储介质访问。在一个实施例中，软件450包括但不限于用于控制网络内的一个或多个系统的代码、应用、协议、接口和过程，所述系统包括但不限于适配器、交换机、服务器、集群系统和网格环境。

在一个实施例中，计算机系统400与诸如服务器440的远程计算机或远程客户端进行通信。在一个示例中，服务器440通过任何类型的网络(例如网络402)，通过通信接口(例如网络接口432)或通过例如连接到网络402的网络链路连接到计算机系统400。

在一个实施例中，网络环境内的多个系统经由网络402通信地连接，网络402是用于在通信地连接的各种设备和计算机系统之间提供通信链路的介质。网络402包括例如电缆或光缆的永久连接以及通过例如电话连接和无线传输连接建立的临时连接，并且可以包括路由器、交换机、网关和其他硬件，以实现经由网络402连接的系统之间的通信信道。网络402表示基于分组交换的网络、基于电话的网络、广播电视网络、局域网和有线局域网、公共网络和受限网络中的一个或多个。

网络402和经由网络402通信地连接到计算机400的系统实现一种或多种类型的网络协议栈的一层或多层，其可以包括物理层、链路层、网络层、传输层、表示层和应用层中的一层或多层。例如，网络402实现传输控制协议/互联网协议(TCP/IP)协议栈或开放系统互连(OSI)协议栈中的一个或多个。另外，例如，网络402表示使用TCP/IP协议套件彼此通信的网络和网关的全球集合。网络402实现安全的HTTP协议层或其他安全协议以保护系统之间的通信。

在该示例中，网络接口432包括适配器434用于通过链路将计算机系统400连接到网络402，并且用于经由网络402将计算机系统400通信地连接到服务器440或其他计算系统。尽管未示出，但是网络接口432可以包括另外的软件，例如设备驱动程序，能够实现通信的另外的硬件和其他控制器。当被实现为服务器时，计算机系统400可以包括多个通信接口，这些通信接口例如可以经由连接到输入/输出控制器的多个外围组件互连(PCI)总线桥来访问。以这种方式，计算机系统400允许经由多个单独的端口连接到多个客户端，并且每个端口还可以支持到多个客户端的多个连接。

在一个实施例中，由处理器412执行的操作控制图5-7的流程图的操作以及本文所述的其他操作。在一个实施例中，由处理器412执行的操作由软件450或其他代码请求，或者本发明的一个实施例的步骤可以由包含用于执行所述步骤的硬连线逻辑的特定硬件组件来执行，或者由编程的计算机组件和自定义硬件组件的任意组合来执行。在一个实施例中，计算机系统400的一个或多个组件或可以集成到计算机系统400的一个或多个组件中的其他组件包含用于执行图5-7中的流程图的操作的硬连线逻辑。

在一个实施例中，计算机系统400包括便于输入和输出的多个外围组件。这些外围组件连接到多个控制器、适配器和扩展槽，例如输入/输出(I/O)接口426，其耦合到总线422的多个级别之一。例如，输入设备424包括例如麦克风、视频捕获设备、图像扫描系统、键盘、鼠标或其他输入外围设备，其经由控制输入的I/O接口426在总线422上能够通信。另外，例如，经由用于控制输出的I/O接口426在总线422上能够通信的输出设备420包括例如一个或多个图形显示设备、音频扬声器和触觉可检测输出接口，但是在另一示例中还包括其他输出接口。在本发明的替代实施例中，可以添加附加的或替代的输入和输出外围组件。

关于图4，本发明的一个或多个实施例包括但不限于系统、方法和/或计算机程序产品。在一个实施例中，计算机程序产品包括其上具有用于使处理器执行本发明的各方面的计算机可读程序指令的计算机可读存储介质。

在一个实施例中，计算机可读存储介质是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。在一个实施例中，网络包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

在一个实施例中，用于执行本发明操作的计算机程序指令包括汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据中的一种或多种或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规过程式编程语言—诸如“C”语言或类似的编程语言。在一个实施例中，计算机可读程序指令完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一种情形中，在一个示例中，远程计算机通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域普通技术人员将理解，在附加或替代实施例中，图4中描绘的硬件可以不同。此外，本领域普通技术人员将理解，所描绘的示例并不意味着暗示关于本发明的架构限制。

图5示出了用于向对话服务提供用于重新训练响应的推荐的过程和计算机程序的高级逻辑流程图。

在一个示例中，该过程和计算机程序在框500处开始，之后进行到框502。框502示出了访问对话日志，每个对话日志记录单独的用户和对话服务之间的单独对话、以及用该单独对话识别的至少一个结果。接下来，框504示出了在至少一个结果与指示响应以负面方式显著影响了用户体验的结果类型匹配的情况下，从所述对话日志中评估至少一个对话间隙和响应。此后，框506示出了评估用于重新训练响应以促进正面结果类型的不同类型的结果的一个或多个推荐。接下来，框508示出了将一个或多个推荐输出到对话服务以指导对话服务对响应的重新训练，并且过程结束。

图6示出了用于识别对话服务的对话日志中的意图集合的重新训练控制器的过程和计算机程序的高级逻辑流程图，所述对话日志是在对话中的负面转变之前发生的意图和响应的指示符。

在一个示例中，该过程和计算机程序在框600处开始，之后进行到框602。框602示出了确定对话服务是否是新的。在框602处，如果对话服务是新的，则过程转移到框604。框604示出了例如通过使用K-均值将话语聚类到桶中来定义用于对话服务的意图集合。接下来，框606示出了使用K-均值来识别针对每个所识别的意图的响应的集群来定义服务的响应集合，并且过程转移到框612。

返回到框602，如果对话服务不是新的，则过程转移到框608。框608示出了识别对话服务的现有意图集合。接下来，框610示出了识别现有响应集合，并且过程转移到框612。

框612示出了针对所记录的每个对话将意图映射到响应。接下来，框614示出了使用用户或系统边界作为分段对记录的对话进行语调/情绪分析，并且该过程转移到框616。

框616示出了对于每个记录的对话，执行框618、620和622。框618示出了对于每个记录的对话，根据转变阈值从导致对话降级和任务放弃的意图和响应中识别向下转变。接下来，框620示出了对于每个记录的对话，从指示对对话的修复和任务完成的意图和响应中识别向上转变。此后，框622示出了对于每个记录的对话，捕获在每个主要转变之前的意图和响应的窗口，并且过程转移到框624。

响应于为每个记录的对话识别主要转变和在主要转变前的窗口，框624示出了找到开始每个捕获的窗口的意图并且在集合I中识别这些意图，并且过程结束。

图7示出了用于评估用于重新训练由对话服务提供的响应的推荐并推荐替换响应的重新训练控制器的过程和计算机程序的高级逻辑流程图。

在一个示例中，该过程和计算机程序在框700处开始，之后进行到框702。框702示出了对于集合I中的每个意图，执行框704、706和708。框704示出了从具有向上转变或不具有向下转变的对话中识别类似正窗口，其中类似正窗口以集合I中的意图开始。接下来，框706示出了从具有根据检测到的向下转变而表现不佳的响应的对话中识别类似负窗口，其中类似负窗口以集合I中的意图开始。接下来，框708示出了跨类似负窗口为表现不佳的响应加标志以进行检查，并且过程转移到框710。

框710示出了将具有带标志的表现不佳响应的每个意图添加到所识别的用于重新训练的意图的列表。接下来，框712示出了确定是否针对意图给多个表现不佳的响应加标志。在框712处，如果针对意图为多个表现不佳的响应加标志，则过程转移到框714。框714示出了在重新训练列表中标记表现最差的响应以进行降级或消除，并且过程转移到框718。返回到框712，如果不存在针对意图而加标志的多个表现不佳响应，则过程转移到框716。框716示出与重新训练列表中的意图相关联地建议响应的改写，并且过程转移到框718。

框718示出了如果被识别，则将来自类似正窗口的正面响应添加到重新训练列表中的每个意图。接下来，框720示出了识别没有正面响应曾经被记录为重新训练列表中的最高优先级的意图。接下来，框722示出了基于带标志的表现不佳响应中的负面趋势的出现频率来对其余意图的优先级进行排序，并且过程结束。

附图中的流程图和框图示出了根据本发明的各种实施例的系统、方法和计算机程序产品的可能实现的架构、功能和操作。在这方面，流程图或框图中的每个框可以表示包括用于实现指定的(一个或多个)逻辑功能的一个或多个可执行指令的模块、段或代码部分。还应该注意，在一些替代实施方式中，在框中指出的功能可能会不以图中指出的顺序发生。例如，根据涉及的功能，连续地示出的两个框事实上可以基本上同时发生，或者这些框有时可以按照相反的顺序发生。还将注意到，框图和/或流程图的各个框以及框图和/或流程图中的框的组合可以由执行指定的功能或动作的专用的基于硬件的系统、或者专用硬件和计算机指令的组合来实现。

本文中使用的术语仅仅出于描述特定实施例的目的，并且不应当限制本发明。如本文中使用的，单数形式也意图包括复数形式，除非上下文中明确地另有说明。将会进一步理解，术语“包括”和/或“包含”在本说明书中使用时指定所述的特征、整体、步骤、操作、元件和/或组件的存在，但是不排除一个或多个其它的特征、整体、步骤、操作、元件、组件和/或其集合的存在或添加。

如具体要求保护的，在下面的权利要求中的对应的结构、材料、动作以及所有的部件或步骤加上功能元件的等同形式应当包括用于与其他要求保护的元件组合执行功能的任何结构、材料或动作。本发明一个或多个实施例的描述出于图示和说明的目的被呈示，而且不应当是详尽的或者以公开的形式限制本发明。对于本领域的普通技术人员来说，在不脱离本发明的范围和精神的情况下，很多修改和改变将是显而易见的。为了最好地说明本发明的原理和实际应用并且使得本领域的普通技术人员能够理解本发明，针对具有适用于设想到的具体应用的各种修改的各种实施例，选择和描述了实施例。

前面的描述仅仅是本发明的实施例以及变型和替代物的示例。尽管已经参考一个或多个实施例具体示出和描述了本发明，但是本领域技术人员将理解，在不脱离本发明的精神和范围的情况下，可以在形式和细节上进行各种改变。

Claims

1.一种评估自动对话服务的重新训练推荐的方法，包括：

通过计算机系统访问多个对话日志，所述多个对话日志中的每一个记录多个用户中的单独用户与对话服务之间的单独对话、以及用所述单独对话识别的至少一个结果；

在所述至少一个结果与多种结果类型当中的指示响应以负面方式影响了用户体验的结果类型匹配的情况下，通过计算机系统从所述多个对话日志中评估至少一个响应，其中还包括：

通过计算机系统识别由对话服务实现的多个意图的集合，所述多个意图中的每一个指示用户输入的预期目的；

通过计算机系统识别由对话服务实现的多个响应的集合，所述多个响应中的每个响应与所述多个意图当中的至少一个意图匹配；

通过计算机系统将所述多个意图中的意图的选择映射到在所述多个对话日志中的每一个中识别出的所述多个响应中的响应的选择；

通过计算机系统分析所述多个对话日志的多个片段中的每个片段的单独语调；以及

通过计算机系统识别所述多个片段中的第一片段到后续片段的标识符和单独语调的水平中的一个或多个的至少一个主要转变以及任务放弃，第一片段到后续片段的标识符和单独语调的水平中的一个或多个的所述至少一个主要转变以转变阈值中指定的任务放弃作为向下主要转变，所述至少一个主要转变指示所述至少一个结果与所述多种结果类型当中的指示响应以负面方式影响了用户体验的结果类型匹配，

通过计算机系统评价一个或多个推荐，用于重新训练响应以促进所述多种结果类型当中的正面的结果类型；以及

通过计算机系统向对话服务输出所述一个或多个推荐以指导对话服务对响应的重新训练。

2.根据权利要求1所述的方法，还包括：

通过计算机系统访问所述多个对话日志，所述多个对话日志中的每一个记录所述单独对话、用所述单独对话识别的所述至少一个结果以及环境元数据，该环境元数据包括从与支持所述单独对话的对话接口相关的应用接口收集的用户信息；以及

在所述至少一个结果与多种结果类型当中的指示响应以负面方式影响了用户体验的结果类型和环境元数据匹配的情况下，通过计算机系统从所述多个对话日志中评估所述至少一个响应。

3.根据权利要求1所述的方法，其中，在所述至少一个结果与多种结果类型当中的指示响应以负面方式影响了用户体验的结果类型匹配的情况下，通过计算机系统从所述多个对话日志中评估至少一个响应还包括：

基于在每个单独对话中的特定点处的所述至少一个结果达到转变阈值，通过计算机系统来标记指示在所述特定点处的负面用户体验的至少一个主要转变；

响应于对话服务针对在特定响应之前来自所述单独用户的用户输入的文本段所识别的特定意图，通过所述计算机系统来识别所述对话服务在所述特定点处返回的所述特定响应；以及

通过计算机系统将所述至少一个主要转变和所述特定响应识别为所述至少一个响应。

4.根据权利要求1所述的方法，其中，通过计算机系统识别所述多个片段中的第一片段到后续片段的标识符和单独语调的水平中的一个或多个的至少一个主要转变以及任务放弃，第一片段到后续片段的标识符和单独语调的水平中的一个或多个的所述至少一个主要转变以转变阈值中指定的任务放弃作为向下主要转变，所述至少一个主要转变指示所述至少一个结果与所述多种结果类型当中的指示响应以负面方式影响了用户体验的结果类型匹配还包括：

通过计算机系统识别所述多个片段中的第二片段到第二后续片段的标识符和单独语调的水平中的一个或多个的至少一个向上转变以及任务完成；

通过计算机系统在每个至少一个主要转变之前从意图的选择和每个相关联的响应中捕获一个或多个起始意图的单独窗口；以及

通过计算机系统从所述一个或多个起始意图中识别意图的下一选择，以进行分析用于重新训练与意图的下一选择中的每个意图相关联的响应，来促进所述多种结果类型当中的正面的结果类型。

5.根据权利要求4所述的方法，其中，通过计算机系统从所述一个或多个起始意图中识别意图的下一选择，以进行分析用于重新训练与意图的下一选择中的每个意图相关联的响应，来促进所述多种结果类型当中的正面的结果类型，还包括：

通过计算机系统识别至少一个类似正窗口，该类似正窗口从意图的下一选择中的特定意图开始并且包括所述至少一个向上转变；

通过计算机系统识别至少一个类似负窗口，该类似负窗口从意图的下一选择中的所述特定意图开始并且包括至少一个负面转变；

通过计算机系统为所述至少一个类似负窗口中的至少一个第一响应加标志，以用于通过替换进行重新训练；以及

通过计算机系统在所述至少一个类似正窗口中选择至少一个第二响应，以供对话服务用来重新训练以替换所述至少一个第一响应。

6.根据权利要求1所述的方法，其中，通过计算机系统评价一个或多个推荐，用于重新训练响应以促进所述多种结果类型当中的正面的结果类型还包括：

通过计算机系统检测包括多个响应的所述至少一个响应，所述多个响应中的每一个与多个意图中的至少一个意图相关联，所述多个意图中的每一个指示用户输入的预期目的；

响应于检测到与所述多个意图当中的第一意图相关联的所述多个响应中的至少两个响应的选择，通过计算机系统标记所述至少两个响应中表现最差的响应以由对话服务进行降级和消除中的至少一个；以及

响应于检测到与所述多个意图当中的第二意图相关联的所述多个响应中的单个响应，通过计算机系统自动建议由对话服务对所述单个响应进行改写。

7.一种评估自动对话服务的重新训练推荐的计算机系统，包括一个或多个处理器、一个或多个计算机可读存储器、一个或多个计算机可读存储设备、以及存储在所述一个或多个存储设备中的至少一个上的程序指令，所述程序指令经由所述一个或多个存储器中的至少一个由所述一个或多个处理器中的至少一个运行，以执行根据权利要求1至6中任一项所述的方法的步骤。

8.一种包括程序指令的计算机可读存储介质，所述程序指令能够由计算设备执行以使该计算设备执行根据权利要求1至6中任一项所述的方法的方法步骤。

9.一种评估自动对话服务的重新训练推荐的系统，包括被单独地配置成执行根据权利要求1至6中任一项所述的方法的各步骤的模块。