CN107710192A

CN107710192A - 用于会话响应的自动评价的度量

Info

Publication number: CN107710192A
Application number: CN201680031905.2A
Authority: CN
Inventors: M·盖利; A·索尔多尼; C·J·布罗凯特; 高剑峰; W·B·多兰; 冀阳峰; M·奥利; M·A·米歇尔; C·B·奎克
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2015-05-31
Filing date: 2016-05-06
Publication date: 2018-02-16
Also published as: EP3304341A1; US9967211B2; US20160352657A1; WO2016195911A1

Abstract

示例总体上涉及对机器生成的会话响应的自动评价。从至少一个会话数据源提取上下文‑消息响应n元组以生成多参考响应集合。多参考响应集合中的响应包括上下文‑消息数据对和评级。评级指示响应相对于上下文‑消息数据对的质量。响应评价引擎基于评价度量和多参考响应集合来生成用于机器生成的响应的度量分数。度量分数指示机器生成的会话响应相对于用户生成的消息和用户生成的消息的上下文的质量。基于度量分数来优化和调整比如数字助理的计算设备的响应生成系统，以提高向用户输出的响应的准确度、质量和相关度。

Description

用于会话响应的自动评价的度量

背景技术

响应生成系统(也被称为对话系统或者会话代理)正在多种系统和设备中变得日益地普遍。响应生成系统包括被设计为解释自然语言输入消息并且输出自然语言响应的应用和计算机系统。然而，这些系统频繁地输出没有与会话实际地相关或者对会话适合的低质量响应。

虽然一些机器翻译评估利用度量，但是当前没有用于自动地判断在人-机会话系统中被生成的响应的质量的方法或者度量。机器翻译也可以被称为自动化语言翻译。没有用于评价机器生成的响应的质量的度量，就不能自动地优化响应生成系统以提高机器生成的响应的质量。

为了提高响应的质量，人类用户被要求人工地评审和评价每个机器生成的响应的质量并且人工地调整响应生成系统以尝试提高响应质量。然而，人工人类评估成本可能高到无人问津。人工人类评估结果也可能不一致。另外，人工评价和调试不能随着生产规模的响应生成系统而升级，这些系统具有为了系统的优化而待调整的数百个或者数千个参数。这一人工评审过程也是耗费时间、棘手麻烦、单调乏味、效率低下和非最优的。

发明内容

公开内容的示例提供了用于自动地对机器生成的会话响应进行打分的度量。在一个示例中，提供了一种用于机器生成的响应的自动评价的计算机实施的方法。提取部件从至少一个会话数据源提取候选响应n元组以形成多参考响应集合。多参考响应集合中的每个响应包括选择的上下文-消息数据对和相对于选择的上下文-消息数据对的用于每个响应的评级。响应评价引擎基于选择的机器生成的会话响应和多参考响应集合来计算评价度量。响应评价引擎生成度量分数。度量分数指示选择的机器生成的会话响应相对于与选择的机器生成的响应关联的选择的上下文-消息数据对的质量。

提供这一发明内容以用简化形式介绍以下在具体实施方式中被进一步描述的概念的选集。这一发明内容没有旨在于标识要求保护的主题内容的关键特征或者实质特征，它也没有旨在于在确定要求保护的主题内容的范围时用作辅助。

附图说明

图1是图示了用于机器生成的响应的自动评价的计算设备的示例性框图。

图2是图示了用于从一个或者多个会话数据源提取参考响应集合的计算设备的示例性框图。

图3是图示了上下文-消息-响应三元组数据集的示例性示图。

图4是图示了基于包括用户的情绪的上下文来偏置响应的示例性框图。

图5是图示了基于包括用户的情绪的上下文来偏置响应的另一示例性框图。

图6是图示了基于上下文-消息对、从会话数据源被提取的响应的示例性框图。

图7是图示了从会话数据源被挖掘的附加上下文-消息-响应三元组的示例性框图。

图8是图示了多参考响应集合的生成的示例性框图。

图9是图示了响应评价引擎的示例性框图。

图10是图示了响应评价引擎训练的示例性框图。

图11是图示了用于机器生成的响应的度量分数的响应评价引擎生成的示例性框图。

图12是图示了用于调试和测试的三元组数目、参考的平均、最小和最大数目的表。

图13是图示了计算设备的用于生成用于机器生成的响应的度量分数的操作的流程图。

图14是图示了计算设备的用于从一个或者多个会话数据源提取多个候选响应的操作的流程图。

图15是图示了计算设备的用于选择多参考响应集合的操作的流程图。

图16是图示了计算设备的用于访问用于多参考响应集合中的每个响应的评级的操作的流程图。

图17是图示了数字助理的示例性框图。

对应标号贯穿附图指示对应部分。

具体实施方式

参照各图，公开内容的示例实现用于自动地评价人-机会话系统中的机器生成的响应的质量的上下文灵敏度量。响应评价度量实现对多种输出中的机器生成的响应(比如文本响应、音频响应和可视格式响应)的高效、自动的评价。

在一些示例中，提取部件从至少一个会话数据源提取内容-消息-响应n元组以形成候选响应n元组，其中n是整数。在一些示例中，上下文-消息-响应n元组是上下文-消息-响应三元组。上下文-消息-响应三元组是包括消息、对消息的响应和消息在其中出现的上下文的数据集。对候选响应的这一上下文灵敏提取提高自动评价引擎的准确度和质量。

然而，上下文-消息-响应n元组不限于三元组。在其它示例中，上下文-消息-响应n元组可以是消息-响应数据对。换而言之，上下文可以不存在或者上下文可以是空值。在这样的情况中，上下文-消息-响应元组可以不包括上下文值。

提取部件从与选择的消息和上下文对应的候选上下文-消息-响应三元组选择响应。选择的响应形成参考响应集合。换而言之，提取部件从具有相同或者相似消息和上下文的内容-消息-响应三元组标识和选择响应。对参考响应的上下文灵敏的选择和上下文灵敏的候选响应提取提高响应评价过程的一致性。

公开内容的方面实现由响应评价引擎对机器生成的响应的自动评估。响应评价引擎基于机器生成的响应、与机器生成的消息关联的上下文和消息以及参考响应集合来计算响应评价度量。响应评价度量实现在如下任务中的对机器生成的响应的内在评估，这些任务在数据驱动的机器响应生成中接纳不同范围的可能的输出。这一内在评估有挑战性，因为可以被输出的可能的响应的语义空间宽广、抵制定义以及仅受会话输入弱约束。

公开内容的方面还提供指示机器生成的响应的质量的度量分数。响应评价度量分数还提供更一致的评估结果并且减少在对机器生成的响应的人工人类评价期间出现的人类错误。

由响应评价引擎生成的度量分数与人类评估分数良好互相关。度量分数可以被用于数据驱动的会话系统的自动化训练和评估，以及具有内在地相异的目标的其它文本和响应生成任务。另外，响应评价引擎通过消除对于对机器生成的响应的人工人类评估的需要来提高用户效率。

在公开内容的其它方面中，度量分数可以被用来自动地调整响应生成系统的一个或者多个参数以提高或者以别的方式优化机器生成的响应的质量。度量分数可以被用来校准响应生成系统以实现更高或者更佳度量分数。随着用于响应的度量分数增加，由响应生成系统生成的响应的质量提高。这一度量分数使响应生成系统能够生成更自然、更高质量的响应。评价可以被用来最终地标识和提供来自数字助理的、对用户的更自然、类人的响应。

另外，度量可以被用于优化设备和应用(比如数字助理)中的机器生成的响应以提高由数字助理执行的响应和功能的准确度。例如，在用户在驾车的上下文中说“我需要更多”时，其中用户的在先消息指示油箱低油量，则数字助理做出用户消息与汽油的购买关联的更准确的确定。数字助理能够做出更有关的响应，比如“你想要附近加油站的位置？”或者“你现在想要找到加油站？”

度量可以与数字助理结合被用来改进与数字助理的用户交互并且提供对用户问题和请求的改进的响应。数字助理可以提供辅助获得方向、进行电话呼叫、获得用于餐厅或者娱乐场地的建议、安排约会时间、更新联系人列表/地址簿或者与智能电话、平板计算机、可穿戴计算设备或者任何其它用户设备关联的任何其它功能。

用度量来优化响应生成系统产生与自然的、人类生成的响应更接近地对应的更自然的响应。度量提供对机器生成的响应质量的评价，这实现更高质量的响应的生成，从而改进与利用响应生成系统的数字助理和其它设备交互的用户体验。更高质量的机器生成的响应也提高利用响应生成系统的个人数字助理或者其它设备的总效率。这也提高优化效率并且减少为了优化响应生成系统而需要的时间。

现在参照图1，示出了图示了用于机器生成的响应的自动评价的计算设备的示例性框图。系统100是用于判断机器生成的响应相对于用户生成的输入消息的质量的对话系统。

在图1的示例中，与用户104关联的计算设备102代表执行计算机可执行程序代码106(例如，作为应用程序、操作系统功能或者二者)以实施与计算设备关联的操作和功能的任何设备。计算设备102可以包括移动计算设备或者任何其它便携设备。在一些示例中，移动计算设备包括移动电话、膝上型计算机、平板计算机、计算pad、上网本、游戏设备和/或便携媒体播放器。计算设备102也可以包括更少便携的设备，比如台式个人计算机、信息亭、平板型设备、工业控制设备、无线收费站和电动汽车充电站。

在其它示例中，计算设备102可以被体现在机器人、汽车或者任何其它设备内。附加地，计算设备102可以代表一组处理单元或者其它计算设备。

计算设备102具有一个或者多个处理器108、一个或者多个存储器存储设备110、传感器集合112和输入/输出设备114。存储器存储设备110包括至少一个存储器区域116。存储器区域116例如包括但不限于计算机可执行程序代码106、应用118、响应评价引擎122和提取部件124。

处理器108包括任何数量的处理单元并且被编程为执行用于实施公开内容的方面的计算机可执行程序代码106。计算机可执行程序代码106包括指令。指令可以由计算设备102内的一个或者多个处理器108执行或者由计算设备102外部的处理器执行。一个或者多个处理器被编程为执行指令，比如各图(比如图8、图9、图10和图11)中所图示的指令。

在一些示例中，处理器108代表用于执行这里描述的操作的模拟技术的实现方式。例如操作可以由模拟计算设备和/或数字计算设备执行。

计算设备102还具有一个或者多个计算机可读存储介质，比如存储器区域116。存储器区域116包括与计算设备102关联或者可由计算设备102访问的任何数量的介质。存储器区域116可以在计算设备102内部(如图1中所示)、在计算设备外部(未示出)或者二者(未示出)。在一些示例中，存储器区域116包括只读存储器和/或被接线到模拟计算设备中的存储器。

存储器区域116存储一个或者多个应用118以及其它数据。应用118在由处理器执行时操作以在计算设备102上执行功能。示例性应用118包括会话代理、邮件应用程序、web浏览器、日历应用程序、地址簿应用程序、消息接发程序、媒体应用、基于位置的服务、搜索程序等。应用108可以与对应应用或者服务(比如经由网络120可访问的web服务)通信。例如，应用118可以代表与在云中执行的服务器侧服务对应的下载的客户端侧应用。

存储器区域116还存储一个或者多个计算机可执行部件。示例性部件包括响应评价引擎122。响应评价引擎122部件在由计算设备102的处理器执行时使得处理器生成指示机器生成的响应的质量的度量分数。机器生成的响应可以包括但不限于文本响应、话音响应、手势响应、图形响应、致动或者马达功能响应或者任何其它类型的响应。

存储器区域116可以可选地存储提取部件124。提取部件124是用于从一个或者多个会话数据源提取消息、响应和上下文数据的部件。会话数据源可以包括社交媒体源以及存储会话数据的数据库。

在一些示例中，提取部件使用提取算法以覆盖将从会话数据源被挖掘的合理响应的空间。给定测试三元组(上下文、消息和响应)，提取部件124挖掘与上下文和消息对(c_t，m_t)相配的其它响应。

在一个非限制示例中，提取部件使用信息取回系统来选择十五(15)个候选响应三元组的集合。信息取回系统被校准以选择用于其的消息和响应二者与选择的消息和响应相似的候选响应三元组。

计算设备102可以包括用户接口部件126。用户接口部件126包括用于向用户104显示数据并且从用户104接收数据的图形卡。用户接口部件126也可以包括用于操作图形卡的计算机可执行指令(例如，驱动程序)。另外，用户接口部件可以包括显示器(例如，触屏显示器或者自然用户接口)和/或用于操作显示器的计算机可执行指令(例如，驱动程序)。用户接口部件126也可以包括用于向用户提供数据或者从用户接收数据的用户接口部件的以下各项中的一项或者多项：扬声器、声卡、相机、麦克风、振动马达、一个或者多个加速度计、牌通信模块、全球定位系统(GPS)硬件和感光传感器。例如，用户104可以通过以特定方式移动计算设备102来输入命令或者操控数据。

计算设备102可以包括通信接口部件128。通信接口部件128包括网络接口卡和/或用于操作网络接口卡的计算机可执行指令(例如，驱动程序)。在计算设备102与其它设备之间的通信可以通过任何有线或者无线连接、使用任何协议或者机制而出现。在一些示例中，通信接口利用近程通信技术(比如通过使用近场通信(NFC)标签)而可操作。

输入/输出设备130包括用于向计算设备102中输入数据的一个或者多个设备和/或用于向用户104输出数据的一个或者多个设备。输入设备可以包括但不限于键盘、鼠标、触屏、麦克风、相机、图形用户界面、压力传感器、触摸传感器或者任何其它类型的输入设备。输出设备可以包括但不限于显示屏幕、图形用户界面、扬声器、与机器人或者其它机械设备关联的致动器或者任何其它类型的输出设备。

计算设备102可以可选地包括数字助理132。数字助理132也可以被称为个人信息管理器。数字助理132是用于管理用户的个人信息、电话功能、时间表、约会、联系人、喜欢的餐厅、旅行计划、频繁目的地和任何其它个人信息的部件。数字助理132包括能够使用对用户查询和消息的自然语言响应来与用户104通信的会话代理或者其它响应生成系统。

在这一非限制示例中，计算设备102可以可选地连接到一个或者多个服务器134网络120。网络120可以包括任何类型的网络连接。在一个示例中，网络120可以是因特网、内联网、以太网或者其它无线或者硬接线连接，计算设备102可以通过该网络来发送和接收与一个或者多个服务器134关联的数据。然而，其它示例无需网络120。

计算设备102也可以可选地存储和/或访问在远程数据存储装置136上存储的数据。数据存储装置136可以是任何类型的数据存储系统，比如但不限于云存储系统。

图2是图示了用于从一个或者多个会话数据源提取参考响应集合的计算设备的示例性框图。计算设备200是用于从一个或者多个会话数据源204挖掘上下文-消息-响应n元组202的设备。上下文-消息-响应n元组是包括人类生成的消息和从会话数据源提取的、对消息的用户生成的响应的数据集。上下文-消息-响应n元组可以是包括消息、响应和消息的上下文的上下文-消息-响应三元组。

从会话数据源204被提取的上下文-消息-响应的示例可以包括上下文“I’m on myway now(我现在路上)”；消息“I’ll be downstairs waiting(我会下楼等)”；以及响应“I’ll keep an eye out for you(我会翘首以盼你)”。

提取部件206包括用于从一个或者多个会话数据源提取相关响应的算法。算法被用于从会话数据源(比如社交媒体提取相关响应。所提取的相关响应然后与响应评估引擎122的响应评价度量一起用作参考。

响应评价度量是用于评估机器生成的响应的度量。响应评价度量将涉及参考句子的质量的人类判断直接地嵌入到全集级多参考算法的计算中。响应评价度量是用于执行对机器生成的响应的评估的自动度量。

响应评价度量可以被用来以多种格式评估机器生成的响应。用于可以使用响应评价度量而被评估的响应的示例格式包括但不限于文本格式、音频格式或者可视格式，比如视频以及文本、音频和/或可视格式的组合。响应可以仅为文本、包括文本和音频的响应以及包括音频和可视分量(比如视频图形)的响应。在其它示例中，评价度量可以被用来评估包括文本格式、音频格式和可视格式元素的响应。

被编写的响应是文本格式。如果响应是音频格式，则响应可以包括口头声音(比如口述的讲话)以及非口头声音。非口头声音可以包括哔哔声、口哨声、欢呼声、雁叫声、铃声、钟声、蜂鸣声、拍手声、大笑声、哭喊声、乐器声音或者任何其它非口头音频。按照可视格式的响应可以包括装置(比如机器人手臂或者其它致动设备)的物理手势或者关节连接、屏幕或者显示器上的视频图形或者图像和/或任何其它可视类型的响应。

在一些示例中，比如下式(1)中所示的提取等式提供：

其中s是分数，m是消息，r是响应，d是词包相似度函数，α控制在响应之间的相似度的影响，并且∈是平滑因子，该平滑因子∈避免用于没有与参考响应共享任何词的候选响应的零分数。这一公式提供了既多样又有理的参考。给定候选三元组集合，人类评估者在新三元组内对响应的质量进行评级。

响应可以在任何类型的标度上由人类评估者评级。在一些示例中，参考串在负一到正一的标度上由人类评级者针对质量进行打分以对多参考响应进行加权。然而，在其它示例中，评级可以在一(1)到五(5)的标度上。

在一个非限制示例中，保留如下参考响应，这些参考响应接收在较高范围内的人类评级。例如，可以保留如下参考响应，这些参考响应接收在五(5)点标度上为四或者更佳的人类评级分数。

提取部件206由一个或者多个处理器执行以执行对上下文-消息-响应n元组202的提取。提取部件206然后从所提取的上下文-消息-响应三元组标识相关响应以用于由判断机器生成的响应的响应评价引擎使用。

会话数据源204包括按照任何可用格式的人类生成的消息和对应的人类生成的响应。格式的示例包括但不限于文本格式、音频格式或者可视格式(比如视频)。因此，被编写的消息和响应是文本格式。如果响应是音频格式，则消息和响应是口述的讲话。按照可视格式的消息和响应可以包括手势消息和/或手势响应。手势响应的示例可以包括但不限于眨眼、皱眉、翘拇指标记、手语、挥手再见或者指示消息或者响应的任何其它移动、运动、手势、脸部表情、姿态或者其它移动。

消息和响应可以同样地包括多个格式。换而言之，人类生成的口述的消息可以对应于人类生成的手势响应，比如脸部表情的改变。例如，人类生成的消息“再见”可以对应于人类生成的响应“挥手手势”，其中挥手指示对口述讲话“再见”的再见或者辞别响应。

在一些示例中，提取部件206可以在数据库208中存储所提取的上下文-消息-响应n元组202。数据库208可以是用于存储上下文-消息-响应n元组202的任何类型的数据存储装置。

所提取的上下文-消息-响应三元组是候选上下文-消息-响应n元组210。提取部件206选择与上下文-消息数据对212对应的两个或者更多个候选上下文-消息-响应n元组210以形成多参考响应集合214。上下文-消息数据对2212包括人类生成的消息和该消息的上下文。

消息的上下文包括语言上下文数据和非语言上下文数据。语言上下文数据包括在给定的会话中在选择的消息和选择的机器生成的会话响应之前的消息-响应数据对。语言上下文数据是用户在给定的会话内的以往对话历史。

非语言上下文数据包括与用户关联的数据。非语言数据可以包括用户的喜好和厌恶、偏好、喜欢的歌曲、厌恶的歌曲、用户的好友、重要他人、生日、周年纪念、假期、约会、爱好、安排的事件等。

非语言上下文数据也可以包括从一个或者多个传感器设备得出的环境数据。例如，非语言上下文数据可以包括当前温度、天气预报、与用户关联的汽车的速度或者定向、设备的定向、来自有全球定位系统(GPS)功能的设备的位置信息、相机数据、来自麦克风或者其它音频设备的音频数据、压力传感器数据、红外线传感器数据或者任何其它类型的非语言数据。

在这一示例中，上下文-消息数据对212是人类生成的消息和该消息的会话上下文。上下文-消息数据对212与机器生成的响应关联。因此，提取部件以上下文灵敏方式提取上下文-消息-响应n元组202以形成多参考响应集合214。换而言之，多参考响应集合214包括与机器生成的响应相同或者相似的消息和上下文对应的人类生成的响应。

例如，如果响应于包括“去学习”和上下文“学校考试”的上下文-消息数据对而生成机器生成的响应“好运”，则提取部件将选择如下上下文-消息-响应三元组，这些上下文-消息-响应三元组包括与用于与“学习/在学习”有关的消息和与“考试/测验”有关的上下文的相同或者相似上下文-消息数据对对应的响应。以这一方式，提取部件206按照考虑每个消息的上下文和从会话数据源204标识的对应结果的上下文灵敏方式执行对多参考响应集合的提取和选择。

会话数据源204可以包括社交媒体源216和/或以往会话数据218。社交媒体源可以是任何可用社交媒体源，如例如但不限于社交联网数据馈送、视频聊天、开视频会议、即时消息接发或者任何其它社交媒体源。

在其它示例中，会话数据源204包括存储由人类用户生成的上下文-消息-响应三元组的一个或者多个数据库。例如，以往会话数据218可以包括在以往会话中由用户生成的上下文-消息-响应三元组。在更多其它示例中，会话数据源204包括存储已经从一个或者多个会话数据源被提取的上下文-消息-响应三元组的一个或者多个数据库。

图3是图示了上下文-消息-响应三元组数据集的示例性示图。上下文-消息-响应n元组202是从一个或者多个会话数据源204被提取的示例性数据集。

上下文-消息-响应n元组是包含与响应关联的数据的数据集。在一些示例中，上下文-消息-响应n元组是三元组。例如，上下文-消息-响应三元组中的上下文-消息-响应三元组包括消息、对消息的对应的响应和消息的上下文。在这一示例中，上下文-消息-响应三元组302包括人类生成的消息304、消息304的上下文306和对消息的人类生成的响应308。上下文-消息-响应三元组310包括上下文312、消息314和响应316。上下文-消息-响应三元组318包括上下文320、消息322和响应324。

可以从社交媒体源(比如但不限于社交联网数据馈送)提取上下文-消息-响应三元组。提取部件206根据选择的消息和选择的上下文(比如选择的上下文-消息对212)来标识和选择或者过滤上下文-消息-响应三元组以生成多参考响应集合。

在一些示例中，提取部件206挖掘多个参考串的集合。这一方式包括从社交媒体(例如，社交联网数据馈送或者任何其它会话数据源)挖掘会话响应。

在这一非限制示例中，提取部件206在社交媒体和/或其它会话数据源中标识会话三元组(上下文，状态，响应)。例如，在一些社交媒体源中，这些三元组按照任何社交媒体用户可以将她的消息寻址到特定用户这样的事实而被标识。可以按照这一方式挖掘数百万个会话三元组。

这一示例中的上下文可以代表任意长度的链，该链包括在当前会话期间出现的给定的消息和响应之前的消息-响应对。上下文也可以包括非语言信息，比如与会话有关的位置、日期、当天时间和其它外部可用信息。这一提取技术为每个上下文-消息对提供至少一个参考响应。

在另一示例中，提取部件206挖掘与选择的上下文和消息对相配的其它响应。为此，提取部件206使用信息取回系统来选择大量候选三元组。为了将从人类评估获得低分数的风险最小化，提取部件206被校准以便选择针对其消息和响应二者与原有或者选择的消息和响应对相似的候选三元组。

图4是图示了基于包括用户的情绪的上下文来偏置响应的示例性框图。会话上下文可以包括用户的情绪。情绪是指用户的情感状态。例如，用户的情绪可以是而不限于快乐、伤心、中性、愤怒/敌意、冷静、焦虑、紧张、平和、热情、急躁、困乏/疲惫或者任何其它情感状态。在这一示例中，会话上下文包括用于用户的中性情绪。可以基于一个或者多个上下文数据源来确定情绪。可以基于音频数据、视频数据、当天时间、温度、由用户键入的输入消息、由用户口述的词、由用户做出的手势、脸部表情以及任何其它类型的上下文数据来确定用户的情绪。

例如，音频数据可以被用来基于用户的语音来确定情绪。可以基于语音重音、语音中的波动、音量、音调、变音或者与用户的语音关联的任何其它因素来确定用户的情绪。

也可以基于可视数据来确定用户的情绪。例如，可以基于脸部表情、瞳孔扩大、身体姿态、身体移动等来确定用户的情绪。

也可以基于由用户口述或者键入的词来确定情绪。在更多其它示例中，可以基于从两个或者更多个传感器接收的两个或者更多信号来确定情绪。例如，可以基于从音频传感器接收的音频数据、从一个或者多个相机接收的可视数据以及在当前会话期间用户的在先消息/陈述的组合来确定情绪。

在这一非限制示例中，用户情绪是中性的。响应生成系统基于包括用户情绪的上下文来生成对用户输入消息400的响应。可以基于与用户关联的情绪和/或其它上下文数据来实时生成或者从预生成的响应的集合402选择响应。

图5是图示了基于包括用户的情绪的上下文来偏置响应的另一示例性框图。在这一示例中，上下文数据指示用户情绪是快乐。响应生成系统生成对用户生成的消息500的响应。在这一非限制示例中，响应生成引擎根据包括用户情绪的上下文来从预生成的响应的集合502选择响应。在其它实施例中，可以实时生成响应。

图6是图示了基于上下文-消息对而从会话数据源被提取的响应的示例性框图。提取部件从会话数据源提取与选择的上下文和消息对应的一个或者多个响应。在这一非限制示例中，选择的上下文602基于在先陈述“Doubt it！What do you look like？(令人怀疑！你看来什么样儿？)”选择的消息604是用户生成的消息“Look at my pics.I have somethere.(看我的照片。我在那儿有一些)”。响应集合606是从具有与上下文62和消息604相同或者相似的上下文和消息的上下文-消息-响应标识的响应。

图7是图示了附加上下文-消息-响应三元组的示例性框图。上下文-消息-响应三元组702、704、706、708、710和712是从一个或者多个会话数据源被挖掘的上下文-消息-响应三元组的非限制示例。

图8是图示了多参考响应集合的生成的示例性框图。提取部件206对上下文-消息-响应会话三元组数据库802执行一个或者多个查询。上下文-消息-响应会话三元组数据库802可以是数据库，比如图2中的数据库208。

提取部件206执行响应候选804的信息取回以生成多参考上下文-消息-响应806。换而言之，提取部件206执行信息取回以从多个响应候选804提取或者选择单个上下文-消息-响应三元组。取回的多参考上下文-消息-响应806是基于与将由响应评价引擎122判断的给定的机器生成的响应关联的选择的上下文和选择的人类生成的响应被标识和/或取回的参考响应。多参考上下文-消息-响应806可以是参考响应的参考响应集合，比如图2中的多参考响应集合214。

多参考响应集合214中的参考越多，与人类判断的互相关性就越大。然而，收集多个参考在会话数据的情况下有困难。从自然地出现的会话收集的会话数据通常地赋予每用户生成的消息仅一个响应。换而言之，对于每个用户生成的响应，通常有对该消息的仅一个单个响应。

在一些示例中，提取部件可以挖掘在会话数据中出现多次的消息以尝试找到对给定的消息的相异响应。然而，这一解决方案并不理想，因为响应经常直接地或者间接地依赖于对话历史。并且虽然有可能让编写者创建其中下游任务相对地无歧义的附加参考，但是这一方式在更主观任务(比如会话响应生成)的情况下呈现困难。

因此，在其它示例中，提取部件从会话数据源挖掘候选响应并且让挖掘出的候选响应通过一个或者多个判断而被评级。多参考上下文-消息-响应806接收注解808。在这一示例中的注解808是由一个或者多个人类用户选择、创建或者指派的评级。换而言之，一个或者多个判断对多参考上下文-消息-响应三元组806中的每个响应进行评级以创建注解。

判断使用评级系统来对参考响应中的每个参考响应的质量进行评级。判断基于一个或者多个判据来对参考响应进行评级。用于对响应的有关度进行评级的判据可以包括如下判据，比如但不限于会话上下文、响应的长度、意图、情绪、响应的内容、语法、句法、变音、响应的准确度、响应与一个或者多个其它响应的相似度、对对应消息的响应的总有关度或者任何其它判据。

在一些示例中，判断是人类判断。在其它示例中，判断可以是计算机判断。计算机判断可以包括计算机硬件、计算机软件或者硬件与软件的组合。

在这一示例中，评级是在负一与正一之间的标度内的分数。换而言之，评级是在从负一(-1)到正一(+1)的连续标度上的分数或者其它指示符。

因此，这一示例中的评价度量依赖于正面示例和负面示例二者以产生对机器生成的响应与给定的消息和/或给定的消息的上下文的有关度进行量化的度量分数。由评价度量使用的正面示例是正面地评级的参考响应。由度量使用的负面示例是差的、负面地评级的参考响应。

然而，在其它示例中，评级可以是在不同标度上的分数。例如，注解808可以是在从一(1)到五(5)的标度上的评级、在从一(1)到十(10)的标度上的评级或者在任何其它标度上的评级。

向多参考上下文-消息-响应集合810添加多参考上下文-消息-响应806。这一示例中的多参考上下文-消息-响应集合810包括两个或者更多个多参考上下文-消息-响应。多参考上下文-消息-响应集合810由响应评价引擎用来生成用于给定的机器生成的响应的度量分数。

图9是图示了响应评价引擎的示例性框图。响应评价引擎900是由一个或者多个处理器执行以基于机器生成的响应、上下文-消息数据对和多参考响应的选择的上下文灵敏集合214来计算评价度量902的部件。

评价度量902是用于针对多参考响应集合214来对给定的会话响应进行打分的度量。在这一示例中，评价度量902是可调试度量。

评价度量902对正在由响应评价引擎评价或者判断的机器生成的响应的会话上下文可察觉。这一上下文灵敏度源于如下事实：提取部件124的提取算法考虑在其中产生有关响应的上下文来从会话数据源挖掘这些候选响应。

在下式(2)中示出了示例性评价度量，比如评价度量902，，该式如下：

其中分数(Y,R₁,…R_N)是由响应评价引擎900生成的度量分数。

如上式(2)中所示，exp()是指数函数。归一化分数Z保证在零(0)与一(1)之间定义机器生成的响应Y的输出度量分数。

评级“S_i”是在负一(-1)与正一(+1)之间的人类评级。重叠(Y，R_i)是在机器生成的响应Y与一个或者多个参考响应R_i之间的n-gram(词序列)重叠的数量。为零(0)的重叠意味着在机器生成的响应Y与一个或者多个参考响应R_i之间没有共同词。为一(1)的重叠意味着二者相同。

在候选参考与正评级的响应(S_i>0)之间的重叠有助于增加度量分数。正评级的响应是更高质量的响应。正评级的响应可以被称为良好响应。

可以基于响应在给定会话的上下文时是否有关或者相关、响应是否语法正确、响应是否为与人类响应匹配或者对应的自然响应、响应是否句法正确、响应的上下文与该对的上下文多么好地匹配、响应的内容与该对的内容多么好地匹配、响应的语言、情绪、口音和句法与该对的语言、情绪、口音和句法多么好地匹配和/或响应与人类将在相同或者相似上下文内说什么多么好地匹配来判断响应的质量。因此，正评级的响应是与消息和/或上下文相关、语法正确、句法正确、与整个会话有关的响应和/或与自然的人类生成的响应相同或者相似的响应。

与负评级的响应(S_i<0)的重叠有助于降低度量分数。负评级的响应可以被称为次最优响应。负评级的响应可以被称为不良响应。

次最优响应是包含欠佳语法和/或不正确/不恰当句法、与给定的消息无关、在给定当前会话的上下文时不适合和/或与对相同或者相似消息和/或会话上下文的自然的人类生成的响应不相似的响应。

在下式(3)-(5)中示出了用于评估会话响应的另一示例性响应评价度量。给定输入消息m和在先会话历史c，响应生成系统的目标是产生假设h，该假设h是对消息的高质量响应。评价度量假设参考{r_i,j}集合j对于上下文c和消息m可用，其中i∈{1...I}是在测试集合内的索引。在这一情况下，如在以下示例性等式(3)和(4)中所示来定义系统输出h₁…h_I的自动分数：

BP·exp(∑n log pn) (3)

等式(3)中的“n”代表n-gram阶的大小。等式(3)中的p代表n-gram精确度。

该假设由等式(4)中的p代表如下：

其中p代表假设并且n代表参考的长度。在等式中，等式(4)中的参考长度n与等式(3)中所示的n-gram阶大小n不相同。同样地，等式(3)中的p代表n-gram精确度而等式(4)中的p代表假设。

然后，在以下示例性等式(5)中将全集级n-gram精确度p_n定义为：

其中#_g()为n-gram在给定句子中出现的次数并且#_g(u，v)为针对min{#_g(u)，#_g(v)}的速记

响应评价度量利用人类定性判断w_ij∈[-1，+1]。该度量有判别，因为它既奖励与具有正评级的响应的良好参考响应的匹配又惩罚与不良的负评级的参考响应的匹配。

等式(5)中所示的度量按照它在其中出现的最高打分的参考对每个n-gram匹配进行加权。这一加权可以是负的。在一些示例中，为了保证分母从不为零(0)，度量假设对于每个i存在其权值w_i,j严格地为正的至少一个参考r_i,j。

在一些示例中，最大理论分数是一(1)。例如，如果假设与用于每个句子的最高加权的参考匹配，则分子等于分母并且度量分数变成一。这一度量可以用于响应生成(比如但不限于在会话响应生成、机器翻译和图像加题注中)的自动评价。

响应评价度量902适用于最小误差率训练(MERT)。响应评价度量也可以与逐对排行优化(PRO)、最大熵模型(maxent)、边际注入松弛算法(MIRA)或者作为最小误差率训练的备选的任何其它学习算法一起被使用。也就是说，可以使用它以调试响应生成系统的参数。这具有使系统输出与良好响应更相似而与不良或者次最优响应更少相似的效果。

在这一示例中，响应评价引擎900是与响应生成系统分离的部件。事实上，在一些示例中，响应评价引擎900可以位于与关联于生成机器生成的响应的响应生成系统的计算设备分离的物理计算设备上。在这样的示例中，响应评价引擎900可以经由网络(比如图1中所示的网络120)来从一个或者多个计算设备接收机器生成的响应和/或上下文-消息对数据。

这一示例中的会话响应是机器生成的响应。响应评价引擎900可选地包括用于生成用于机器生成的响应的评价分数的学习模型902。在一些示例中，学习模型904包括神经网络模型906。

在其它示例中，学习模型904可以可选地包括与用于生成将由响应评价引擎打分的机器生成的响应的响应生成系统关联的功能。换而言之，在一些示例中，可以在单个部件而不是两个分离的部件内体现响应生成系统和响应评价引擎。

图10是图示了响应评价引擎训练的示例性框图。响应评价引擎训练1000是用于为经受训练的给定的机器生成的响应生成度量分数的部件。响应评价引擎训练1000利用来自数据库1002的上下文-消息-响应会话三元组。数据库可以是用于存储数据的任何类型的数据库或者数据存储设备，比如但不限于图4中所示的上下文-消息-响应会话三元组数据库402。

在这一示例中，基于多参考上下文-消息-响应三元组的训练集合1004来训练响应评价引擎1000。多参考上下文-消息-响应三元组的训练集合1004提供用于调整与响应评价引擎1000关联的一个或者多个参数的训练权值。在完成这一过程时，经训练的响应评价引擎1006准备好生成用于机器生成的响应的度量分数。

图11是图示了用于机器生成的响应的度量分数的响应评价引擎生成的示例性框图。经训练的响应评价引擎1006接收上下文-消息对1100、机器生成的响应1102和多参考上下文-消息-响应三元组的测试集合1104作为向响应评价引擎1006的输入。

在一些示例中，评价度量902利用n-gram重叠度量。这些n-gram重叠度量需要多个参考串，比如多参考响应集合1108。

对于给定的用户输入消息和会话上下文，响应评价引擎1006的评价度量902假设给定来自多参考响应集合的一个或者多个参考响应的集合(R₁，…，R_N)。参考响应集合中的每个参考响应由人类用在负一(-1)与正一(+1)之间的分数来评级。如果在不同标度(例如，1到5)上对响应进行评级，则分数被归一化在负一(-1)与正一(+1)之间的范围中。

经训练的响应评价引擎1006基于上下文-消息对1100、机器生成的响应1102和多参考上下文-消息-响应三元组的测试集合1104来计算度量以生成度量分数1110。

度量分数1110指示给定的机器生成的响应1102相对于上下文-消息对1100的质量水平。低质量的机器生成的响应可以例如在多种机器生成的响应输出可接受或者甚至被需要时出现。具有内在地相异目标的任务可以包括而不限于机器翻译、摘要总结、句子压缩、释义生成和会话交互的生成。针对这些任务的主要障碍是评估的自动化，因为有理输出的空间可以很大。响应评价度量提供对这些输出的质量的自动评估。

响应输出的质量例如指示但不限于机器生成的响应是否与对相同或者相似消息和/或会话上下文的、自然的人类生成的响应相同或者相似、响应在给定会话的整个上下文时是否适合、响应是否与关联于响应的消息有关和/或响应是否语法/句法正确。

度量分数可以是在用于对机器生成的响应的质量进行打分的任何标度上的分数。在一些示例中，度量范围可以在从零(0)到一(1)的范围中。在其它示例中，度量分数可以在从一到五的范围中。度量分数可以在从一(1)到十(10)的标度上。在其它示例中，度量分数可以范围从负一(-1)到正一(+1)。更低度量分数指示响应与该对无关并且可以被丢弃。更高度量分数指示响应与该对相关并且可以被选择作为向数字助理输出的响应。

一些示例中的度量分数1110可以被用来自动地优化响应生成系统。使用优化技术(如比如最小误差率训练(MERT))，响应生成系统的参数被更新以使系统输出递增地与正评级的更高质量的响应更相似而与负评级的次最优响应更少相似。利用度量分数1110以更新与响应生成系统关联的一个或者多个参数的集合。在其它示例中，可以基于与一个或者多个机器生成的响应关联的两个或者更多个度量分数来更新参数集。

因此，响应评价度量可以被用来优化响应生成系统以提高机器生成的响应的质量。高质量的机器生成的响应是例如但不限于在给定会话的上下文时适合的、与先前的用户生成的消息相关、语法正确、句法正确和/或与自然的人类制定的响应相像的响应。

图12是图示了用于调试和测试的三元组数目、参考的平均、最小和最大数目的表。在这一多参考提取示例中，使用信息取回系统来选择候选三元组。信息取回系统被校准以选择针对其消息和响应二者与选择的消息和选择的响应相似的候选三元组。候选三元组集合中的每个响应的质量的评级。对于参考重新训练在五(5)点标度上具有分数四(4)或者更佳的参考。如表1200中所示，这产生每示例平均3.58个参考。用于多参考调试和测试集合中的响应的平均长度分别是8.75和8.13个权标。

图13是图示了计算设备的用于生成用于机器生成的响应的度量分数的操作的流程图。在图13中描绘的过程可以由计算设备(比如但不限于图1中的计算设备102和/或图2中的计算设备200)实施。

该过程通过在1302处从至少一个会话数据源提取候选响应三元组以形成多参考响应集合来开始。在1304处基于机器生成的响应和多参考响应集合来计算评价度量。在1306处生成指示机器生成的响应的质量的度量分数而该过程随后终止。

图14是图示了计算设备的用于从一个或者多个会话数据源提取多个候选响应的操作的流程图。在图14中描绘的过程可以由计算设备(比如但不限于图1中的计算设备102和/或图2中的计算设备200)实施。

该过程通过在1402处从数据库采样上下文-消息-响应三元组以选择种子上下文-消息-响应三元组来开始。在1404处对种子上下文-消息-响应三元组进行注解。注解可以包括用于每个候选响应的评级。在一些示例中，评级是人类生成的评级。

在1406处选择最佳候选响应。最佳候选响应可以是与选择的上下文-消息数据对对应的响应。

在1408处关于是否取回附加响应候选做出确定。如果是，则在1410处从来自数据库的上下文-消息-响应三元组选择下一最佳候选而该过程随后终止。

现在回到操作1408，在确定将不取回附加响应候选时，该过程随后终止。

图15是图示了计算设备的用于选择多参考响应集合的操作的流程图。在图15中描绘的过程可以由计算设备(比如但不限于图1中的计算设备102和/或图2中的计算设备200)实施。

该过程通过在1502处从会话数据源提取候选响应三元组来开始。在1504处选择与选择的上下文-消息对应的响应以形成多参考响应集合而该过程随后终止。

图16是图示了计算设备的用于访问用于多参考响应集合中的每个响应的评级的操作的流程图。在图16中描绘的过程可以由计算设备(比如但不限于图1中的计算设备102和/或图2中的计算设备200)实施。

该过程通过在1602处接收用于参考响应的人类生成的评级来开始。在1604处关于评级是否在负一到正一的标度上做出确定。如果是，则在1606处向多参考响应集合中的参考响应添加评级而该过程随后终止。

现在回到操作1604，在确定评级不在从负一到正一的标度上时，在1606处对评级进行归一化。经归一化的评级是在从负一到正一的标度内的评级。在1608处向参考响应集合添加参考响应和用于参考响应的评级而该过程随后终止。

图17是图示了数字助理的示例性框图。数字助理1700是用于管理用户的个人信息的设备。数字助理1700可以包括传感器集合，比如一个或者多个相机、GPS、音频传感器、触屏、温度传感器、压力传感器、定向传感器以及任何其它类型的传感器。数字助理1700包括能够接收用户生成的输入消息并且生成自然语言输出响应的响应生成系统。数字助理1700可以按照一种或者多种格式来生成输出响应，包括文本响应、音频响应、图形响应或者任何其它类型的响应。

附加示例

在一些示例中，响应评估引擎标识在选择的机器生成的会话响应与选择的参考响应之间的重叠数量。响应评估引擎在确定选择的参考响应的评级是正评级时增加选择的机器生成的会话响应的度量分数。正评级指示选择的参考响应相对于与选择的机器生成的会话响应关联的选择的上下文-消息数据对是良好参考响应。响应评估引擎可以在确定选择的参考响应的评级是负评级时减少选择的机器生成的会话响应的度量分数。

在其它示例中，响应评估引擎生成与第一机器生成的响应关联的第一度量分数。响应评估引擎响应于第一机器生成的响应来更新参数集以形成经修改的参数集。响应评估引擎生成与第二机器生成的响应关联的第二度量分数。响应评估引擎然后基于第二度量分数来更新经修改的参数集。递增地调整参数集以增加度量分数。

图1和图2中的各种单元的功能的至少部分可以由图1和图2中的其它单元或者在图1和图2中未示出的实体(例如，处理器、web服务、服务器、应用程序、计算设备等)执行。

在一些示例中，图8、图10、图11、图13、图14、图15和图16中所示的操作可以被实施为在计算机可读介质上、在被编程或者设计为执行操作的硬件中或者在二者中被编码的软件指令。例如，公开内容的方面可以被实施为在包括多个互连的电传导元件的芯片或者其它电路上的系统。

尽管公开内容的方面已经按照各种示例用它们的关联操作而被描述，但是本领域技术人员将认识到，来自任何数目的不同示例的操作的组合也在公开内容的方面的范围内。

尽管公开内容的方面没有跟踪个人地可标识的信息，但是已经参照从用户监视和/或收集的数据而描述了示例。在一些示例中，可以向数据的汇集的用户提供通知(例如，经由对话框或者偏好设置)并且向用户给予用于给予或者拒绝对于监视和/或收集的同意的机会。同意可以采用决定参加的同意或者决定退出的同意的形式。

示例性操作环境

示例性计算机可读介质包括闪存设备、数字万用盘(DVD)、紧致盘(CD)、软盘和带盒。举例而言而无限制，计算机可读介质包括计算机存储介质和通信介质。计算机存储介质包括在用于存储信息(比如计算机可读指令、数据结构、程序模块或者其它数据)的任何方法或者技术中被实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质是有形的并且与通信介质互斥。在硬件中实施计算机存储介质而排除载波和传播的信号。用于本公开内容的目的的计算机存储介质不是信号本身。示例性计算机存储介质包括硬盘、快闪驱动和其它固态存储器。对照而言，通信介质通常地在调制的数据信号(比如载波或者其它传送机制)中体现计算机可读指令、数据结构、程序模块或者其它数据，并且包括任何信息递送介质。

虽然与示例性计算系统环境结合而被描述，但是公开内容的示例能够用许多其它通用或者专用计算系统环境、配置或者设备实施。

可以适合用于与公开内容的方面一起使用的熟知的计算系统、环境和/或配置的示例包括但不限于移动计算设备、个人计算机、服务器计算机、手持或者膝上型设备、多处理器系统、游戏控制台、基于微处理器的系统、机顶盒、可编程客户电子装置、移动电话、可穿戴或者附件外形(例如，手表、眼镜、头戴式听筒或者耳机)中的移动计算和/或通信设备、网络PC、小型计算机、大型计算机、包括以上系统或者设备的任何系统或者设备的分布式计算环境等。这样的系统或者设备可以按照任何方式从用户接受输入，包括从输入设备(比如键盘或者指示设备)、经由手势输入、邻近输入(比如通过悬停)和/或经由语音输入。

可以在软件、固件、硬件或者其组合中由一个或者多个计算机或者其它设备执行的计算机可执行指令(比如程序模块)的一般上下文中描述公开内容的示例。可以将计算机可执行指令组织成一个或者多个计算机可执行部件或者模块。一般而言，程序模块包括但不限于执行特定任务或者实施特定抽象数据类型的例程、程序、对象、部件和数据结构。可以用任何数目和组织的这样的部件或者模块来实施公开内容的方面。例如，公开内容的方面不限于在各图中被图示和这里描述的具体计算机可执行指令或者具体部件或者模块。公开内容的其它示例可以包括具有比这里图示和描述的功能更多或者更少的功能的不同计算机可执行指令或者部件。

在涉及通用计算机的示例中，公开内容的方面在被配置为执行这里描述的指令时将通用计算机变换成专用计算设备。

这里被图示和描述的示例以及这里没有被具体地描述、但是在公开内容的方面的范围内的示例构成用于为机器生成的响应生成度量分数的示例性手段。例如，图1、图2、图8、图9、图10和图11中所示的单元(比如在被编码为执行图8、图13、图14、图15和图16中所示的操作时)构成用于生成多参考响应集合的示例性装置、用于计算评价度量的示例性装置和用于生成度量分数的示例性装置。

作为这里描述的其它示例的备选或者除了这些示例之外，示例包括以下各项的任何组合：

-从至少一个会话数据源提取候选响应三元组以形成多参考响应集合还包括从至少一个会话数据源提取上下文-消息-响应三元组以形成多个候选响应三元组，其中给定的候选响应三元组包括人类生成的消息、会话上下文和与人类生成的消息对应的参考响应，其中人类生成的消息和会话上下文形成上下文-消息数据对

-选择的上下文-消息数据对包括选择的人类生成的消息和选择的人类生成的消息的会话上下文，并且还包括基于与至少一个响应关联的消息的内容来从多个候选响应n元组选择响应以形成多参考响应集合中的参考响应，其中与参考响应关联的消息对应于选择的人类生成的消息

-选择的上下文-消息数据对包括选择的人类生成的消息和选择的消息的会话上下文，并且还包括基于响应的会话上下文来从多个候选响应三元组选择响应以形成多参考响应集合中的参考响应，其中与参考响应关联的会话上下文对应于选择的机器生成的响应的会话上下文

-消息的会话上下文包括语言上下文数据和非语言上下文数据，其中语言上下文数据包括在会话中在选择的消息和选择的机器生成的响应之前的消息-响应数据对

-经由网络连接从至少一个会话数据源挖掘上下文-消息-响应n元组，其中至少一个会话数据源是社交媒体源中的至少一个社交媒体源，其中社交媒体源按照至少一种格式来提供会话数据，其中会话数据的格式包括文本格式、音频格式或者可视格式

-多参考响应集合中的给定的参考的评级是人类生成的评级，并且还包括访问多参考响应集合中的给定的参考的评级，其中用于多参考响应集合中的给定的参考响应的评级指示给定的响应相对于与给定的参考响应关联的上下文-消息数据对的质量

-在确定用于多参考响应集合中的给定的参考响应的评级是在除了负一到正一标度之外的标度上的评级时，对评级进行归一化以形成在从负一到正一的范围内的经归一化的评级，其中负值评级指示给定的参考响应相对于选择的上下文-消息数据对为次最优

-多参考响应集合是多参考响应的测试集合，并且还包括基于从至少一个会话数据源被挖掘的多参考上下文-响应-消息n元组的训练集合来训练响应评价引擎，其中训练响应评价引擎还包括基于多参考上下文-消息-响应n元组的训练集合来计算评价度量以训练与响应评价引擎关联的权值集合

-度量分数是在从零到一的标度内的分数，并且其中生成度量分数还包括计算在选择的机器生成的响应和多参考响应集合中的参考响应之间的词序列重叠数量，其中为零的重叠指示在选择的机器生成的响应与至少一个参考响应之间没有共同词，并且其中为一的重叠指示选择的机器生成的响应与参考响应相同

-在确定在选择的机器生成的响应与参考响应之间的重叠时，确定参考响应的评级；在确定参考响应的评级是指示参考响应相对于上下文-消息数据对是良好参考响应的正评级时增加度量分数；并且在确定参考响应的评级是负评级时减少度量分数

-响应评价引擎执行以标识在选择的机器生成的响应与选择的参考响应之间的重叠数量；在确定选择的参考响应的评级是正评级时增加选择的机器生成的响应的度量分数，该正评级指示选择的参考响应相对于与选择的机器生成的响应关联的选择的上下文-消息数据对是良好参考响应；并且在确定选择的参考响应的评级是负评级时减少选择的机器生成的响应的度量分数

-响应评价引擎执行以生成与第一机器生成的响应关联的第一度量分数；响应于第一机器生成的响应来更新参数集以形成经修改的参数集；生成与第二机器生成的响应关联的第二度量分数；以及基于第二度量分数来更新经修改的参数集，其中递增地调整参数集以增加度量分数

-响应评价引擎执行以基于多参考上下文-消息-响应n元组的训练集合来计算评价度量

-至少一个会话数据源是社交媒体源中的至少一个社交媒体源，其中社交媒体源按照至少一种格式来提供会话数据，其中会话数据的格式包括文本格式、音频格式或者可视格式

-其中与参考响应关联的会话上下文对应于选择的机器生成的响应的会话上下文，其中会话上下文包括语言上下文数据和非语言上下文数据，其中语言上下文数据包括在会话中在选择的消息和选择的机器生成的响应之前的消息-响应数据对

-参考响应集合中的给定的参考响应包括评级，并且其中响应评价引擎在被执行时还使得至少一个处理器将评级归一化以形成在从负一到正一的范围内的经归一化的评级，其中负值评级指示给定的参考响应相对于选择的上下文-消息数据对为次最优。

在这里被图示和描述的公开内容的示例中的操作的执行或者进行顺序除非另有指定则不是必需的。也就是说，除非另有指定，否则可以按照任何顺序来执行操作，并且公开内容的示例可以包括除了这里公开的操作之外的附加或者更少的操作。例如，设想在另一操作之前、同时或者之后执行或者进行特定操作在公开内容的方面的范围内。

在介绍公开内容的方面的单元或者其示例时，冠词“一个”、“该”和“所述”旨在于意味着存在一个或者多个这些单元。术语“包括”和“具有”旨在于包含意义并且意味着可以存在除了列举的单元之外的附加单元。术语“示例性”旨在于意味着“……的示例”。短语“以下各项中的一项或者多项：A、B和C”意味着“至少一个A和/或至少一个B和/或至少一个C”。

已经具体描了述公开内容的方面，将清楚，修改和变化是有可能的，而没有脱离如在所附权利要求中限定的公开内容的方面的范围。由于可以在以上构造、产品和方法中做出各种改变而没有脱离公开内容的方面的范围，所以旨在于应当将在以上描述中被包含的和在附图中被示出的所有内容解释为说明性而没有限制意义。

Claims

1.一种用于机器生成的响应的自动评价的计算机实施的方法，所述方法包括：

由在计算设备的至少一个处理器上执行的提取部件从至少一个会话数据源提取候选上下文-消息-响应n元组以形成多参考响应集合，所述多参考响应集合中的响应包括选择的上下文-消息数据对和相对于所述选择的上下文-消息数据对的用于所述响应的评级；

由响应评价引擎基于选择的机器生成的响应和所述多参考响应集合来计算评价度量；以及

由所述响应评价引擎基于所述评价度量来生成度量分数，所述度量分数指示所述选择的机器生成的响应相对于与所述选择的机器生成的响应关联的所述选择的上下文-消息数据对的质量。

2.根据权利要求1所述的计算机实施的方法，其中从至少一个会话数据源提取候选上下文-消息-响应n元组以形成多参考响应集合还包括：

从所述至少一个会话数据源提取上下文-消息-响应三元组以形成多个候选响应三元组，其中给定的候选响应三元组包括人类生成的消息、会话上下文以及与所述人类生成的消息对应的参考响应，其中所述人类生成的消息和所述会话上下文对应于所述选择的上下文-消息数据对。

3.根据权利要求2所述的计算机实施的方法，其中所述选择的上下文-消息数据对包括选择的人类生成的消息和所述选择的人类生成的消息的会话上下文，并且还包括：

基于与至少一个响应关联的消息的上下文来从所述多个候选上下文-消息-响应三元组选择响应以形成所述多参考响应集合中的参考响应，其中与所述参考响应关联的消息对应于所述选择的人类生成的消息。

4.根据权利要求2所述的计算机实施的方法，其中所述选择的上下文-消息数据对包括选择的人类生成的消息和所述选择的消息的会话上下文，并且还包括：

基于所述响应的会话上下文来从所述多个候选上下文-消息-响应三元组选择响应以形成所述多参考响应集合中的参考响应，其中与所述参考响应关联的所述会话上下文对应于所述选择的机器生成的响应的所述会话上下文。

5.根据权利要求4所述的计算机实施的方法，其中消息的会话上下文包括语言上下文数据和非语言上下文数据，其中所述语言上下文数据包括在会话中在所述选择的消息和所述选择的机器生成的响应之前的消息-响应数据对。

6.根据权利要求2-4中的任一权利要求所述的计算机实施的方法，还包括：

经由网络连接从所述至少一个会话数据源挖掘所述上下文-消息-响应n元组，其中所述至少一个会话数据源是社交媒体源中的至少一个社交媒体源，其中所述社交媒体源以至少一种格式提供会话数据，其中会话数据的格式包括文本格式、音频格式或者可视格式。

7.根据权利要求1所述的计算机实施的方法，其中所述多参考响应集合中的给定的参考的评级是人类生成的评级，并且还包括：

访问所述多参考响应集合中的所述给定的参考的所述评级，其中所述评级指示所述给定的响应相对于与所述给定的参考响应关联的上下文-消息数据对的质量。

8.根据权利要求1-7中的任一权利要求所述的计算机实施的方法，还包括：

在确定用于所述多参考响应集合中的给定的参考响应的评级是在除了负一到正一标度之外的标度上的评级时，将所述评级归一化以形成在从负一到正一的范围内的经归一化的评级。

9.根据权利要求1和7-8中的任一权利要求所述的计算机实施的方法，其中所述多参考响应集合是多参考响应的测试集合，并且还包括：

基于从所述至少一个会话数据源挖掘的多参考上下文-响应-消息n元组的训练集合来训练所述响应评价引擎，其中训练所述响应评价引擎还包括基于多参考上下文-消息-响应n元组的所述训练集合来计算所述评价度量，以训练与所述响应评价引擎关联的权值集合。

10.根据权利要求1和7-9中的任一权利要求所述的计算机实施的方法，其中所述度量分数是在从零到一的标度内的分数，并且其中生成所述度量分数还包括：

计算在所述选择的机器生成的响应和所述多参考响应集合中的参考响应之间的词序列重叠数量，其中为零的重叠指示在所述选择的机器生成的响应与所述至少一个参考响应之间没有共同词，并且其中为一的重叠指示所述选择的机器生成的响应与所述参考响应相同；

在确定在所述选择的机器生成的响应与参考响应之间的重叠时，确定所述参考响应的评级；

在确定所述参考响应的所述评级是正评级时，增加所述度量分数；以及

在确定所述参考响应的所述评级是负评级时，减少所述度量分数。

11.一种用于机器生成的响应的自动评价的系统，所述系统包括：

至少一个处理器；以及

与所述至少一个处理器关联的存储器存储设备，所述存储器存储设备包括存储响应评价引擎的存储器区域，其中所述至少一个处理器执行所述响应评价引擎以：

基于至少一个机器生成的响应、多参考响应集合、与所述多参考响应集合关联的评级集合以及与所述多参考响应集合关联的上下文数据来计算评价度量；

生成至少一个度量分数，所述至少一个度量分数指示选择的机器生成的响应相对于与所述选择的机器生成的响应关联的选择的上下文-消息数据对的质量；以及

基于所述至少一个度量分数来更新与所述响应生成系统关联的参数集。

12.根据权利要求11所述的系统，其中所述度量分数是在从零到一的标度内的分数，并且其中所述至少一个处理器还执行所述响应评价引擎以：

计算在所述选择的机器生成的响应与所述多参考响应集合中的参考响应之间的词序列重叠数量，其中为零的重叠指示在所述选择的机器生成的响应与所述至少一个参考响应之间没有共同词，并且其中为一的重叠指示所述选择的机器生成的响应与所述参考响应相同。

13.根据权利要求11-12中的任一权利要求所述的系统，其中所述至少一个处理器还执行所述响应评价引擎以：

标识在所述选择的机器生成的响应与选择的参考响应之间的重叠数量；

在确定所述选择的参考响应的评级是正评级时，增加所述选择的机器生成的响应的度量分数；以及

在确定所述选择的参考响应的所述评级是负评级时，减少所述选择的机器生成的响应的所述度量分数。

14.根据权利要求11-13中的任一权利要求所述的系统，其中所述至少一个处理器还执行所述响应评价引擎以：

生成与第一机器生成的响应关联的第一度量分数；

响应于所述第一机器生成的响应来更新所述参数集以形成修改的参数集；

生成与第二机器生成的响应关联的第二度量分数；以及

基于所述第二度量分数来更新所述修改的参数集，其中所述参数集被递增地调整以增加度量分数。

15.根据权利要求11-14中的任一权利要求所述的系统，其中所述至少一个处理器还执行所述响应评价引擎以：

基于多参考上下文-消息-响应n元组的训练集合来计算所述评价度量。