CN111788621B

CN111788621B - 移情式个人虚拟数字助理

Info

Publication number: CN111788621B
Application number: CN201980015708.5A
Authority: CN
Inventors: N·查德拉塞卡兰; R·A·西姆; R·W·怀特; N·戈特比
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2018-02-27
Filing date: 2019-02-20
Publication date: 2022-06-03
Anticipated expiration: 2039-02-20
Also published as: CN111788621A; WO2019168716A1; US20190266999A1; US10522143B2

Abstract

一种个人虚拟助理(PVA)系统获取现有输入并且对其进行处理，以通过分析特征来理解用户的个性、意图等，所述特征诸如是用户语气、语言使用、语音音量、面部表情以及来自设备使用和周围环境的语境。作为处理的结果，所述PVA系统增强了其响应和与用户交互的方式。这样的增强的响应可以包括简单事情，如改变助理的语气以赞美用户的情绪，以及改变其语言、音量的使用和共享信息的方式，比如在用户可能情绪低的时候呈现好消息，或者在并非用户以最佳方式处理的时刻，抑制坏消息。

Description

移情式个人虚拟数字助理

背景技术

与个人虚拟助理(PVA)的交互正在通过我们家中、工作场所处以及四处移动的移动电话、可穿戴物等上的环境设备而成为日常生活的一部分。当前，与PVA的大部分交互的形式是提出问题并且接收简单的回答。在超出问答类型的互动而达到模仿人类助理的更多回合的交谈时，PVA在互动期间表现出移情(empathy)就变得重要。

一般而言，PVA的响应和交互往往像机器人、语气单一、并且没有情感，有时麻木不仁。结果，用户互动遭受问题。来自PVA的移情式响应(基于先前交互而针对用户进行个性化)将驱动出结果，诸如更多互动的交互、用户满意度提升以及使用增加。

发明内容

在附图和以下详细说明文本中提供了本发明主题的实施例的各种细节。应当理解，以下章节提供了这些实施例中的一些实施例的总结性示例。

为了具有移情，本文描述的PVA除了理解语境和用户的一般兴趣之外，还通过训练机器学习模型而从与特定用户的先前交互以及用户对其响应的反应进行学习。为此目的，使用多模感测(包括音频语气和视频面部表情)来评估用户的反应以学习并且改善将来的反应。

为了理解语境，该PVA还获取现有输入并且对其进行处理，以通过对特征的分析来理解用户的个性、意图等，所述特征诸如是用户语气、语言使用、语音音量、面部表情以及来自设备使用和周围环境的语境。作为处理的结果，该PVA增强了其响应以及与用户交互的方式。这样的增强的响应可以包括简单的事情，如改变助理的语气以匹配或补偿用户的情绪，以及改变其对语言、音量的使用和共享信息的方式，如在用户可能情绪低的时候给出好消息，或者在并非用户对其进行最佳处理的时刻，抑制坏消息。该系统能够学习哪些状况和情感响应与用户发生共鸣，并且能够生成包括诸如元组的记录的存储部，所述元组例如包括{状况，系统情感响应，用户反应}。该数据能够被用于训练机器学习算法，以学习状况与针对用户、针对当前用户群或者针对整个用户群体的最适当情感反应之间的映射。

本文描述的实施例总体涉及一种个人虚拟助理系统，包括：处理电路、扬声器、从至少用户的语音收集关于用户的情感状态的用户状态信息的至少一个感测设备、以及在其中存储有指令的存储器设备。所述指令当由处理电路运行时将处理电路配置为：从用户接收引起来自个人虚拟助理系统的响应的通信；使用机器学习模型根据由至少一个感测设备收集的至少用户状态信息来确定用户的情感状态；生成考虑了所确定的用户的情感状态的响应；使用被选择用于将所确定的所述用户的情感状态改变到不同的情感状态的语言、音量和语气，通过所述扬声器向所述用户输出所生成的响应；以及基于用户对所输出的响应的响应来训练机器学习模型。可以将个人虚拟助理被实现为硬件设备，包括用于所述处理电路、扬声器、至少一个感测设备以及存储器设备的壳体；或者可以被实现于更通用的软件平台上，如能从Microsoft Corporation获得的Windows OS^TM上的Cortana^TM(其可能涉及多个云组件)；或者硬件设备和软件平台的组合。

在样本实施例中，所述至少一个感测设备感测在与个人虚拟助理系统通信中用户所使用的语音语气和语言，并且可以进一步感测用户的面部表情以根据用户的面部表情来提取关于用户的情感状态的用户状态信息。所述至少一个感测设备还可以根据以下中的至少一项来感测用户的语境：用户的位置、当地时间、日程、以及周围环境以及用户与个人虚拟助理系统或其他设备的在先交互。

在其他样本实施例中，所述存储器设备还包括在其中存储的指令，所述指令当由处理电路运行时将所述处理电路配置为：通过修改对用户的响应中的速度、语气和语言中的至少一项，使用考虑了所确定的用户的情感状态的语言、音量和语气，向用户输出所生成的响应。所述个人虚拟助理系统还可以包括视觉输出设备，其根据所确定的用户的情感状态，在对用户的响应中提供经修改的视觉颜色和动画中的至少一项。所述指令当被运行时，还可以使所述处理电路基于在提供响应时所述用户的确定的情感状态，来修改何时以及如何向所述用户提供响应。

所述存储器设备还可以存储指令，所述指令当被运行时使所述处理电路接收用户偏好数据和文化参考数据，机器学习模型将用户偏好数据和文化参考数据与用户状态信息一起用作当前情感状态参数，从当前情感状态参数来确定用户的情感状态。指令还可以使处理电路使用人工智能服务来处理用户状态信息以确定用户的当前情感状态参数。所述处理电路还可以向用户对所输出的响应的响应应用启发式方法(heuristics)，并且所述用户的所确定的当前情感状态参数训练机器学习模型。

所述存储器设备还可以包括在其中存储的指令，所述指令当由处理电路运行时将处理电路配置为：通过基于规则或查找表中所存储的查找来改变响应，来生成考虑了所确定的用户的情感状态的响应。所述处理电路还可以处理指令以通过使用深度神经网络，根据所确定的用户的情感状态，生成具有语境化文本和语气的在交谈和情感方面适当的响应，来生成考虑了所确定的用户的情感状态的响应。

所述存储器设备还包括在其中存储的指令，所述指令能够由处理电路运行时将处理电路配置为：向机器学习模型提供反馈，以通知机器学习模型用户对所输出的响应的响应，并且更新机器学习模型以反映根据用户状态信息而确定的用户响应和用户反馈评级中的至少一项。所述处理电路还可以运行指令以关于被提供给用户的响应的什么属性引起来自用户的特定反应来训练机器学习模型，并且使机器学习模型基于用户的情感状态来生成预期从用户引起特定反应的响应。

为了解决冷启动的情形，所述存储器设备还包括在其中存储的指令，所述指令当由处理电路运行时将处理电路配置为：使用人口统计概况、位置、兴趣等，参考其他用户来匹配该用户；并且从具有人口统计概况、位置或兴趣等类似于该用户的其他用户中的至少一个用户向机器学习模型提供额外数据。所述冷启动还可以使用朴素启发式方法，由此，对于每次使用，都使用所述数据来构建和改进机器学习(ML)模式。

另外，所述处理电路可以运行指令，以基于所确定的用户的情感状态来确定可以与用户共享什么信息，并且当确定用户处于不同的情感状态时，在稍晚时间可以与用户共享什么信息。所述处理电路还可以运行指令以学习用户的情感状态随时间变化的模式，将情感状态的模式作为输入提供给机器学习模型，并且在由至少一个感测设备检测到特定事件或环境状况时预测用户的情感状态。

本文还描述了对应的方法和包含用于实施这样的方法的指令的计算机可读介质。

本文描述的其他实施例总体涉及一种方法，包括如下步骤：从用户接收引起来自个人虚拟助理系统的响应的通信；提供对来自用户的通信的响应；在所述通信中的至少一次通信期间感测至少用户的语音；在所述通信中的至少一次通信期间从至少用户的语音收集关于用户的情感状态的用户状态信息；在通信期间，在通信期间的不同时间处，使用机器学习模型，根据至少收集到的用户状态信息来确定用户的情感状态；在通信期间使用用户状态信息来跟踪用户的情感状态；以及使用通信期间的情感状态的差异作为提供给用户的对通信的至少一个响应的标签。所述方法由此在与个人虚拟助理系统的交互的过程中跟踪用户的情感状态，以学习用户对不同响应如何做出反应。本文还描述了对应的系统和包含用于实施这样的方法的指令的计算机可读介质。

如本文所讨论的，可以在本地计算系统或远程计算系统中提供实施上述电子操作的各方面的逻辑、命令或指令，包括用于计算系统的任意数量的形状因子，诸如台式机或笔记本个人计算机、诸如平板计算机、上网本和智能电话的移动设备、客户端终端和服务器托管的机器实例等。本文论述的另一实施例包括将本文论述的技术并入其他形式中，包括并入到其他形式的编程逻辑、硬件配置或专用组件或模块中，包括具有相应模块以执行这样的技术的功能的装置。用于实施这样的技术的功能的相应算法可以包括上述电子操作中的一些或全部电子操作的序列，或者附图中绘示并且下文详述的其他方面。

提供该发明内容章节以通过简化形式介绍本发明主题的各方面，在具体实施方式的文本中接下来进一步解释了本发明的主题。本发明内容章节并非意在标识所主张主题的必要或所需特征，本发明内容中列出元件的特定组合和次序并非意图提供对所主张主题的元件的限制。

附图说明

在未必按比例绘制的附图中，在不同的视图中，类似的数字可以描述类似组件。附图通过举例而非限制，一般性地例示了本文中论述的各实施例。

图1一般性地图示了根据本文所述示例的用户与个人虚拟助理的交互。

图2A图示了常规PVA系统，其中，由PVA在正常交谈状态中响应于用户输入而生成的通用文本被提供到文本转语音(TTS)子系统，并且然后被输出给用户，而不考虑用户的情绪或环境。

图2B图示了示例性实施例中的一种PVA系统，该系统维持交谈状态，推断交谈的情感状态，并且使用推断的情感状态来生成适当的响应，所述响应被发送到TTS子系统，所述TTS子系统提供语境化的响应和语气。

图3图示了根据示例性实施例，如何从多个感测源、并且以交谈状态和诸如用户偏好和文化语境的其他相关特征为条件来推断情感状态。

图4图示了根据示例性实施例，在给定交谈状态和推断的情感状态的情况下，响应选择器可以如何改变发送到TTS子系统的文本响应，由此可以基于规则或参照预先选择的响应进行的查找来改变响应，或者将响应编码为由诸如深度神经网络的学习模型生成的响应。

图5图示了根据示例性实施例的示例性计算系统配置的硬件和功能组件的框图，所述配置用于实施用于实现个人助理服务的操作。

图6图示了根据示例性实施例的示例性PVA系统。

图7图示了能够从机器可读介质读取指令并且执行本文论述的方法中的任一种或多种方法的机器的组件框图。

具体实施方式

希望有这样一种个人虚拟助理(PVA)：其区分并且产生输出，使得用户能够形成更深的情感联结，因为PVA理解他们的情绪并且做出反应，并且帮助他们进入最佳状态。例如，常规的数字助理可能会讲笑话，并且有时甚至会使用用户与他沟通所使用的语言来增强其响应。然而，没有PVA使用跨设备/服务可用的输入的宽度来主动伸出援手帮助用户改善其心态。

Microsoft Cognitive Services提供了一定范围的分立服务，产生关于特定输入的情感语境。例如，能够将语音转换成文本，并且接下来分析所述文本以获悉情绪。能够分析图像和视频以识别用户并且确定其面部表情，面部表情可以传达情绪或情感状态。McDuff等人最近的研究(Hurter和McDuff，“Cardiolens:Remote PhysiologicalMonitoring in a Mixed Reality Environment，”SIGGRAPH 2017Talks，20178月，LosAngeles，CA)表明，能够从视频进行更详细的生理测量，确定用户的心率和呼吸速率。同样地，语音分析能够产生对用户的情感状态的估计。这些各种感测方案等等代表了能够全面确定用户的情感状态并且基于这些推论增强其口语响应和动作的系统的潜在构建块。本文描述了这样的系统。

以下公开提供了对技术和配置的概述，所述技术和配置使得诸如能从MicrosoftCorporation获得的Cortana^TM的PVA能够获取输入，诸如用户讲话的语气、所使用的语言、面部表情、最近与其他设备的交互、关于用户位置的语境、当地时间、日程、周围环境等，并且处理那些输入以提供用于和用户沟通的具有增强速度、语气和语言的输出。例如，如图1所示，可以增强来自PVA的输出以针对用户的推断的情感状态或情绪进行调节。来自PVA的视觉输出设备的视觉输出也可以提供被确定为最好地沟通并且将用户情绪改善到最佳状态的增强的视觉颜色、动画和信息呈现。

本文描述的系统对PVA的响应进行个性化，并且基于用户的反应而随时间来调节响应。所述系统使用多模感测和反馈环路来持续地调节PVA响应的内容和递送两者，使得响应更加感同身受，并且被设计成改善用户的情绪。例如，捕获并且利用人工智能(AI)服务来处理用户响应的音频和视频，所述服务推断用户的情感状态(高兴/悲伤、精力充沛/昏昏欲睡等)。另外，还捕获并且处理来自可穿戴物和周围环境的输入以进一步评估与用户正在进行交互的状况。

通过以模型开始来创建所述系统，所述模型具有输入，诸如用户做出的明确设置(喜欢/不喜欢)、文化、人类判断标记的样本等。在样本实施例中，这些输入可以被用作训练该模型的基本事实标签。在该模型中所使用的特征例如是沟通特性(例如，笑话)和请求沟通并且提供响应时用户情感状态/状况的特性。将意识到，所引起的沟通可以是用户引起的任何沟通，诸如与用户的交互式交谈、对问题的回答、指路、天气报告、笑话，或者PVA系统可以提供的任何其他类型的音频、视觉和/或触觉沟通。如下所述，用户对沟通的反应(标签或感测的反应[对笑话大笑等])被用作隐式反馈数据。当请求通信时监测用户的情感状态，并且在反应时间再次监测情感状态，这在理解沟通对用户造成的影响方面(两个时间点的情感状态之间的差异)是很重要的。可以将第三方判断用于这样的目的。

能够使用标准的机器学习算法以各种方式来构建该模型。该模型中的特征可以包括交互的特性(包括用户的问题和系统的响应)以及从额外传感器(音频、视觉、生理的等等)导出的其他信号。例如，可以设计该模型以使得PVA系统能够正确地解释用户对PVA系统采取的动作(例如，讲笑话、回答问题)的情感反应。

在PVA与用户之间的每次交互期间，都评估用户的反应(由视频、音频、传感器等捕获)并且通过反馈环路更新模型。利用这种系统，精心生成响应，响应是语境、当地时间、用户日程、用户周围环境和/或用户的情感状态的组合。

例如，可以基于以下项来调节PVA的内容和语气：

-主题(例如，新闻是忧郁的、令人高兴的)；

-事实细节(例如，天气报告好(晴或久盼的降雨)或坏(雷雨或连续降雨))；

-用户的个人兴趣(例如，在报告体育比分时，注意所喜好队伍的输/赢)；

-用户过去与PVA和/或其他应用程序、服务和/或PVA的交互；

-用户讲话的语气(例如，匆忙、沮丧、放松、高兴)；

-用户的用词(例如，礼貌、实事求是)；

-其他感官知觉(例如，心率、出汗、温度)；

-用户对PVA响应的反应；和/或

-用户的面部表情(例如，微笑、大笑、鬼脸、呻吟)。

在具体示例中，可以基于推断的用户的情绪来修改PVA提供的沟通。PVA将利用各种特性来标记沟通以构建初始模式。例如，在讲笑话的情况下，这样的特性可以包括：类型(例如，冷笑话、问答、动物、个人轶事、特殊日期等)和话题(例如，当前事件、人物、体育)。然后，在提供沟通之后，使用传感器捕获用户的反应(例如，微笑、大笑、鬼脸、呻吟)，并且使用反馈机制为该用户个性化将来的沟通。

如图2A所示，在常规PVA系统中，PVA在正常交谈状态20中响应于用户输入而生成的通用文本被提供到TTS子系统22，并且然后被输出给用户，而不考虑用户的情绪或环境。相反，图2B图示了本文描述的一种PVA系统，在示例性实施例中，该系统维持交谈状态20，推断交谈24的情感状态，并且使用推断的情感状态，利用响应选择器26来生成适当的响应，所述响应被发送到文本转语音(TTS)子系统28，TTS子系统提供语境化的响应和语气。TTS子系统28可以是若干种可用TTS子系统的任意一种，例如包括可以通过Microsoft Azure获得的Bing Speech API。在图2B的实施例中，用户的观察和交谈状态生成推断的情感状态，所述推断的情感状态继而被用于选择情感上适当的交谈响应和讲话语气。

图3图示了根据示例性实施例，如何从多个感测源并且以交谈状态和诸如用户偏好和文化语境的其他相关特征为条件来推断情感状态。如本文所用，“文化语境”意指影响人的信仰、偏好和行为的文化因素。在图3的实施例中，通过组合一定范围的观察结果来推断情感状态。如本文所用，“EQ”意指“情商”，其在这种情况下是PVA系统能够识别用户情感的程度。可以通过若干种方式来表示情感状态，例如，包括类别(例如，高兴)、一组类别-权重对(高兴：0.7，悲伤：0.3)、对应于机器学习(ML)模式中所使用的信号的特征权重的矢量、环状情绪模型定义的评价值和唤起度的度量(Russell JA.A circumplex model ofaffect.Journal of Personality and Social Psychology。1980；第39卷，第1161-1178页)、平静水平(平静：0.6，焦虑：0.4)、害怕、沮丧、能量水平等，或者这些特征的矩阵或决策树。可以通过参照规则或ML分类器30中的查找表而匹配观察结果来生成推断的情感状态，或者可以通过另一种类型的经训练的人工智能模型，诸如深度神经网络，来生成推断的情感状态。

如图3中所示，对ML分类器30的输入可以包括根据在系统设置期间由用户提供的用户偏好数据而确定的特征、在使用期间由系统收集的文化偏好数据34、以及使用各种感测设备捕获的用户状态信息36。例如，用户状态信息36可以包括来自麦克风38、相机40、可穿戴感测设备42、环境传感器44等的输出。用户状态信息36被提供给包括认知/AI服务48的信号处理器46，用于生成用户特征。例如，认知/AI服务48可以包括能在由MicrosoftCorporation提供的Azure服务平台(azure.microsoft.com/en-us/services)上获得的认知服务中的一项或多项。例如，在本文中的样本实施例中可以使用情感API(azure.microsoft.com/en-us/services/cognitive-services/emotion)。然而，本领域技术人员将意识到，这些仅仅是可以使用的服务的示例，并且有很多类似的机器学习、基于规则的以及其他AI技术和服务用于根据图像、视频、文本等来检测情感，可以将其并入本文描述的PVA系统中而不脱离本说明书的范围。

这样的服务包括：文本分析API，其评估情绪和话题以提取关键短语并检测语言，以提供对用户意图的理解；面部识别API，其检测、识别、分析、整理并且标记图像中的面部；情感API，其获取图像中的面部表情作为输入并且检测包括愤怒、蔑视、厌恶、害怕、高兴、中性、悲伤和惊讶的情感；以及计算机视觉API，其从图像中提取可执行信息。其他可用的处理服务包括使用对语音信号进行声学分析的专用软件进行语音情感分析。用于语音情感分析的样本软件包是Boersma and Weenink开发的PRAAT。由信号处理器46提供的服务还可以包括对来自数百万物联网(IoT)设备的实时数据流处理的流分析，用于处理用户状态信息36。这样的模块还可以从例如Microsoft Corporation提供的Azure服务平台获得。还可以使用其他软件来从用户状态信息36提供对用户状态的生理监测。例如，Christophe Hurter和Daniel McDuff在下文中描述的Cardiolens软件提供了生命体征、血流和其他在正常情况下不能从图像实时感知的生理信号的实时远程测量和自动可视化：“Cardiolens:RemotePhysiological Monitoring in a Mixed Reality Environment”，Proceedings ofSIGGRAPH 2017Talks，Los Angeles，CA，USA，2017年8月。在不同实施例中，这些和其他可用处理服务可以由系统提供商选择并且由信号处理器46处理。在样本实施例中，所述输出包括：权重矢量，其中每一项对应于服务的输出；或者来自每个服务的权重矢量。

由在信号处理器46和认知/AI服务48上运行的应用程序所提取的特征被提供有用户偏好特征数据32和文化偏好特征数据34，连同提供给ML分类器30的当前交谈状态信息20，ML分类器包括启发式软件50和ML模型52，其一起参考所存储的特征来评价所接收到的特征，以提供新的情感状态预测作为对用户的情感状态24的估计。所述系统可以具有许多或有限数量的可能情感状态，其被用于在样本实施例中引导PVA响应。可以在样本实施例中使用来自用户的反馈以及计算的特征来调节被应用于机器学习模型中的不同节点的权重。在样本实施例中，来自用户的反馈采取两种形式：

隐式反馈-基于来自用户的反应的信号；以及

显式反馈-基于用户或第三方判断提供的标签，有权访问PVA响应和从用户寻求的用户反应(例如，供他们回顾的视频)和/或反馈，诸如，“该响应有多大帮助？”

也如图3中所示，所述PVA系统可以包括数据存储部53，其存储用户过去与PVA交互的历史和/或情感状态，以用于与启发式方法50一起使用。随着时间利用交互数据、情感状态推论等来更新数据存储部53。如本文所述，所述历史数据对于为每个用户建立基线情感状态是有用的。同样地，能够使用过往交互的历史(在会话/交谈级别、针对每个对话轮次、或者针对每个用户动作(在非交谈实例化中)定义)来对ML分类器30中的特征值进行规一化，连同本领域技术人员将明了的其他操作。

还应当意识到，所述系统可以以针对特定用户的不充分数据开始。在这样的情况下，可以利用从具有相似人口统计概况、位置、兴趣等或者其组合的其他用户借用的数据发起用户的数据。在这样的情况下，可以从具有类似于该用户的人口统计概况、位置、兴趣等的其他用户的至少一个用户向机器学习模型提供额外数据。这种“冷启动”还可以使用朴素启发式方法，由此，对于每次使用，都使用该数据来构建和改进ML模式。

现在将使用关注于笑话的简单示例来解释如何在样本实施例中实施这样的特征。本领域技术人员将意识到，可以将该示例推广到PVA系统采取某种动作并且用户做出反应的任何情形。在以下示例中，重要的是指出有至少三个阶段：

笑话请求(用户请求讲笑话)

讲笑话(用户听笑话)

笑话反应(用户反应)

所述PVA系统在全部三个阶段都跟踪用户的情感状态。可以将用户的反应用作笑话的隐含标签。还可以有第四阶段，其中，PVA系统要求用户对笑话的有趣性明确标注。如果用户能够预期到系统动作(在这种情况下为笑话的包袱)，那么阶段三中的用户反应中的一些也可以融入到阶段二中。

因此，该模型中的特征基于笑话以及在笑话请求时能够对用户的情感状态做出什么推断。用于该模型的标签基于在阶段三(可能还有阶段二的部分)能够感测到什么——尤其是阶段三与阶段一之间的差异(这捕获到笑话对用户的效果)。

在样本实施例中，ML模型是个性化的，意指针对每个人创建新模型，或者至少为一群用户在一开始创建新模型(以解决冷启动问题)，并且然后随着时间对个人进行调节(随着来自该用户的更多数据变得可用，权重将从人群转移到个人模型)。个性化意味着可以在系统建模中使用先前的笑话/情感状态(例如，用户刚刚要求讲什么笑话？用户请求之后的情感状态如何？)。

根据应用程序，在不同时间计算特征，并且特征还可以基于情感状态随时间的变化(例如，趋向于更正面)。对于通信的个性化，所述PVA系统可以在引起通信之后立即存储信号，直到PVA系统提供响应之后的短时间。在情感状态表(固定集合的情感之一或者特征的加权集合)中存储当前状态可能在预测方面是重要的，因为在引起通信时的情感状态可能是提供通信时的情感状态的强决定因素。

另外，本文描述的PVA系统能够学习哪些状况和情感响应与用户发生共鸣，并且能够生成包括元组的存储项，所述元组例如包括(状况，系统情感响应，用户反应}。能够使用这种数据来训练机器学习算法，以学习状况与针对用户、针对当前用户群或针对整个用户群体的最适当情感反应之间的映射。

图4图示了根据示例性实施例，在给定交谈状态20和推断的情感状态24的情况下，响应选择器26可以如何改变发送到TTS子系统28的文本响应，由此可以基于规则或参照预先选择的响应进行的查找来改变响应，或者将响应编码为由诸如深度神经网络的学习模型生成的响应，以生成具有适当语境化文本和语气的在交谈和情感上适当的响应。在样本实施例中，所述神经网络生成用户的情感状态的表示。例如，用户的情感状态的表示可以是权重的高维矢量，其能够丰富地表示用户的情感状态。在一种实例化中，能够将该矢量与在可能响应的空间上计算的相似矢量对比。两个矢量之间的距离(例如，利用余弦相似性)是深度神经网络系统可以选择最佳响应的一种方式(更近＝更好)。

可以将本文描述的PVA视为移情的，因为其响应反映了对用户偏好和文化语境以及用户对PVA动作的反应的确定性意识，用户的反应是由多种传感器捕获的，包括网络摄像头、麦克风、可穿戴设备等。ML模型52可以基于PVA与用户之间和/或用户与其他设备之间的在先交互，通过从其他设备向ML模型52中提供数据，来建立正常/基线反应。可以进一步使用启发式软件50基于隐式反馈(大笑、微笑)和显式反馈(评价)来更新用户反应的模型。同样地，ML模型52可以学习导致用户的特定反应的触发的属性，例如，使用户大笑的笑话特征。所述系统然后可以基于那些属性，例如通过选择特定用户可能觉得有趣的笑话来调节PVA的动作。本领域技术人员将意识到，能够对许多用户全体来进行学习，以便学习社会上一般偏好什么，并且增加个性化，作为满足特定用户需求的方式。

本文描述的PVA处理输入的不同组合以评估用户的情绪。在示例实施例中，本文描述的PVA使用用户语气、语言的使用、音量和面部识别作为输入来测量/预测情绪。例如，可以假定向PVA大叫出其命令并且以苛刻语言快速讲话的用户处于坏的或焦虑情绪中。本文描述的PVA还使用来自用户周围环境的信号，如用户位置、当地时间、日程、用户周围的其他人、物体和音量作为输入来测量/预测情绪。例如，在厨房中尖叫的儿童可能表示用户处于恼怒或焦虑情绪中。本文描述的PVA还使用对用户使用其他设备和应用的意识作为输入来测量/预测情绪。例如，用户刚向其配偶发送的消息中使用的语言可能表示用户的情绪。

这些输入被处理以从PVA的音频/视觉输出设备提供输出，该输出基于所评估的用户的情绪，来加强PVA响应的语气、语言和音量和/或加强PVA的人物角色的视觉表示和信息，包括动画和颜色。可以使用评估的用户情绪来确定什么信息值得共享、什么可能不值得共享，以帮助使用户进入更好的情绪。

在一些实施例中，PVA基于用户的情绪，利用为了优化用户的情绪而计算的信息，主动向用户伸出援手。例如，当PVA基于用户在其手机上阅读文章之后的面部表情来确定他伤心时，可以主动提供冷笑话，或者在给他坏消息之前使用户进入更好的情绪，坏消息例如是当天的坏天气或关于其关心的名人的坏消息。PVA还可以在用户使用第一方或第三方技能时检测到用户的沮丧增加，并且相应地调节其响应(例如，通过更详细地解释选项，或者甚至将用户直接连接到客户服务)。PVA还可以在更长时段内学习并且形成用户情绪的模式，并且使用这种信息来提前预测用户的情绪。例如，PVA可以随着时间推移学习来自用户经理的电子邮件可能如何影响用户的情绪，并且能够扩充其向用户传送电子邮件的方式以主动对抗影响。

将意识到，特定实施例中的PVA可以包括各种语音、文本或其他通信接口，并且可以操作用于收集用户的各种位置和语境信息，用于对信息和动作的个人定制。样本实施例中的PVA示例包括

Cortana、

Alexa、

Assistant、

Siri、

Bixby等，但是将要理解，本文论述的技术并不限于PVA的任何特定实施方式。此外，尽管本文使用的术语可能涉及

Cortana PVA提供的特定编程技术和接口，但是将理解，可以由其他服务和公司(包括集成或定制这样的PVA的其他特征的第三方公司)结合类似的编程技术和接口。还将意识到，可以将PVA实现为硬件设备，包括用于处理电路、一个或多个扬声器、一个或多个感测设备以及包括实施软件的存储器设备的壳体；或者可以实现于更通用的软件平台上，例如可以从Microsoft Corporation获得的Windows OS^TM上的Cortana^TM(可能涉及若干云组件)；或者硬件设备与软件平台的组合。

PVA可以使用技能或类似功能来完成任务并且执行特定动作。技能的简要示例可以包括餐馆交互技能，允许用户发出命令，诸如“在Mario的意大利餐厅预订一张餐桌，”或者“从第四咖啡公司订购咖啡。”在示例中，“第三方”技能指代从另一来源被导入或集成到PVA中的技能，所述另一来源诸如是另一开发商或服务商(尽管第三方技能可以包括同一开发商或公司为PVA直接开发的技能特征)。作为另外的示例，第三方技能可以代表另一实体(例如，由餐馆预定服务托管的外部聊天机器人)利用不同的聊天机器人和外部数据源，以便在PVA内完成技能动作。

在另外的示例中，可以使用PVA，以基于语境(例如，为正常午餐会议订餐，或者在他们到家时打开灯)，在适当时刻向用户主动建议技能。除了本文论述的技术之外，还可以配置PVA以居间协调用户与从技能暴露的机器人之间的连接，机器人包括第三方机器人，使得用户能够容易并且自然地在适当时间、在适当语境中发现适当的机器人并且与之进行交互。

在本文论述的任何情景中，PVA都可以集成语音或文本交谈的自然语言处理的使用，以通过智能方式解释来自人的查询和命令，从而执行适当动作。因此，本文论述的技术可以适用于各种配置和形式的PVA。此外，对本文论述的技能和服务接口的一些参考是基于语音和文本的机器人的示例，但是将意识到，也可以使用其他形式的机器人以及自动化或半自动化代理(例如，虚拟现实或基于图形的代理)。

图5图示了根据示例性实施例的示例性计算系统配置的硬件和功能组件的框图，所述配置用以实施用于实现操作PVA的个人助理服务的操作。例如，可以在本地(例如，客户端)或远程(例如，服务器)计算设备以及其分布式组件示例处或者之间执行上文参考图1到图4所述的示例操作。在示例中，软件应用程序(用于个人助理系统520)适于在使用处理器和存储器设备的情况下(利用本文论述的相应过程的操作)，独占地在单个计算设备(例如，计算机系统510)上执行。在另外的示例中，软件应用程序适于在本地计算设备(例如，计算机系统510)上执行一些过程，而用于第三方技能的额外的数据和处理在远程计算设备(例如，远程计算系统540)处执行。

图5更具体地图示了计算系统510和远程计算系统540的选定硬件和功能组件，以实施在个人助理服务内用于操作本文所述的移情式PVA的技能个性化的操作。应当理解，尽管在图5和其他附图中将特定硬件和功能组件绘示为独立的系统或服务，但是可以将特定组件的特征集成到单个服务或子系统中。此外，尽管仅配置了一个本地计算系统和一个远程计算系统，但是应当理解，这些系统的特征可以分布于一个或多个计算系统之间的一些设置中(包括基于云的处理设置)。

如图所示，计算系统510包括处理电路511(例如，CPU)和存储器512(例如，易失性或非易失性存储器)，其被用于(例如，经由指令)执行电子操作，特别是与个人助理系统520的执行一起来实现个人助理技能的个性化(例如，以实施针对图1-4所示和所述的技术)；数据存储装置513，其用于存储用于个人助理系统520的操作和执行的命令、指令和其他数据；通信电路514，其用于经由有线或无线联网组件与外部网络或设备(例如，远程计算系统540)通信，用于操作个人助理系统520；输入设备515(例如，字母数字、基于点、触觉、音频输入设备)，用于从人类用户接收用于个人助理系统520的输入(例如，控制命令)；以及输出设备516(例如，视觉、听觉、触觉输出设备)，用于从个人助理系统520向人类用户提供输出(例如，视觉、听觉、触觉输出)。

在示例中，计算系统510适于通过处理组件或功能(例如，电路或软件指令)来执行软件，所述处理组件或功能除了用户概述数据访问功能524、语境信息数据访问功能526和第三方技能接口功能522之外，还包括个人助理智能处理530。个人助理智能处理530中所示的功能包括：用户数据收集功能531、推论处理功能532、用户理解数据功能533、数据隐私功能534、自然语言处理功能535和技能处理功能536。在一些示例中，用于相应处理功能的软件可以联系个人助理平台的外部服务(例如，云服务)，以完整地执行处理功能(例如，分析自然语言查询，或者存储或获得用户数据)。

在另外的示例中，计算系统510可以从远程计算系统540的第三方应用程序550(例如，其操作第三方技能机器人或者针对第三方技能的服务)来接收查询。例如，这些查询可以包括请求经由第三方技能接口功能522来访问个性化数据。如图所示，远程计算系统540包括处理电路541(例如，CPU)和存储器542(例如，易失性或非易失性存储器)，用于执行第三方应用程序550的执行所需的电子操作(例如，经由指令)；数据存储装置543，用于存储用于操作和使用第三方应用程序550的命令、指令和其他数据；以及通信电路544，用于经由有线或无线联网组件与外部网络通信，用于沟通数据。在示例中，第三方应用程序550包括数据处理接口552和技能接口554，以实现第三方技能的特征(以及关联的命令与动作)。可以由远程计算系统540来执行其他方面，以实施本文论述的技术。

图6图示了根据示例性实施例的示例性PVA系统600。如图所示，系统600包括客户端设备610、模块服务器620、虚拟个人助理服务器630、推论存储部640、用户准许数据存储部650和网络660。网络660允许客户端设备610、模块服务器620、虚拟个人助理服务器630、推论存储部640和用户准许数据存储部650彼此通信。网络660可以包括因特网、内联网、局域网(LAN)、广域网(WAN)、有线网、无线网、虚拟专用网络(VPN)等中的一种或多种。

每个客户端设备610可以是膝上型计算机、台式计算机、移动电话、平板计算机、智能扬声器设备、智能电视、智能手表、个人数字助理(PDA)等。每个客户端设备610可以与用户账户相关联，其中每个用户账户对应于至少一个客户端设备610。每个客户端设备610包括PVA 612(例如，Apple

Microsoft

或Ok

)和(一个或多个)模块614。(一个或多个)模块614可以包括浏览器应用程序(例如，web浏览器之内的web应用程序)、移动电话或平板计算机应用程序或智能扬声器设备技能。(一个或多个)模块614可以包括由客户端设备610的开发者/制造商在客户端设备610上提供的本机模块，以及在用户获取客户端设备610之后由用户安装的第三方模块。示例本机模块是由客户端设备610的开发者/制造商提供的天气应用程序。示例第三方模块是餐馆预订应用程序/技能或电影票应用程序/技能。在示例实施例中，这样的模块还可以包括用户状态感测设备36，诸如上文参考图3所述的麦克风38、相机40或传感器44。每个模块614可以酌情包括智能扬声器设备的技能、移动电话或平板计算机的应用程序、可以经由浏览器访问的网页或者可穿戴设备42的特征。在一些情况下，PVA 612是客户端设备610本身的，模块614不是客户端设备610本身的。

每个模块服务器620都实施模块614。例如，天气预报模块可以与天气服务器耦接，天气服务器存储当前天气状况和天气预报。餐馆预订模块可以与餐馆预订服务器耦接，该服务器与各家餐馆通信，以通知其正在进行预订。电影票模块可以与电影票服务器耦接，电影票服务器存储电影院位置和电影放映时间，并且包括用于买票的接口。本文描述的移情式语音模块还可以至少包括通信软件，用于实施本文描述的移情式响应特征。在一些情况下，每个模块614都与模块服务器620处的后端相关联。然而，一些模块614可能没有关联的模块服务器620，并且可以完全实现在客户端设备610处。换言之，客户端设备610可以实施模块服务器620中的一个或多个模块服务器的功能。类似地，客户端设备610的模块614可以向一个或多个模块服务器620提供用户状态特征36、用户偏好特征数据32和文化参考特征数据34，用于实施上文所述的认知/AI服务48和机器学习服务30。

PVA服务器630实施PVA 612。例如，PVA服务器630可以与web搜索接口耦接，以回答用户的问题，还可以与用于管理用户电子邮件、文本消息、日历等的接口耦接。PVA服务器630可以基于其与用户的交互以及用于面部识别和如上所述的其他认知/AI特征的传感器输入来生成关于用户的推论。PVA服务器630可以在推论存储部640中存储那些推论。PVA612可以接收用于和模块614以及关联模块服务器620共享推论的用户准许，如下所述。用户准许(或没有准许)的标记可以存储在用户准许数据存储部650中。如图所示，PVA 612在PVA服务器630处具有后端。然而，在一些情况下，PVA 612完全在客户端设备610处实现。换言之，客户端设备610可以实施PVA服务器630的功能。

根据一些实施方式，PVA服务器630基于在与用户账户相关联的一个或多个客户端设备610处用户与PVA 612的交互，来确定关于用户的多个推论(例如，关于用户的情绪)。PVA服务器630在推论存储部640中存储多个推论。PVA服务器630在用户准许数据存储部650中存储用户准许数据，表示用户是否提供准许，让(一个或多个)模块614访问推论存储部640中的推论的至少一部分。PVA服务器630从模块614接收针对来自推论存储部640中的指定推论的请求。PVA服务器630验证与指定推论和模块614相关联的用户准许数据。PVA服务器630响应于验证了用户准许数据而向模块614提供指定推论。

如图所示，推论存储部640和用户准许数据存储部650驻留在与(一个或多个)客户端设备610和PVA服务器630分离的机器上。然而，在一些示例中，推论存储部640和/或用户准许数据存储部650可以驻留在(一个或多个)客户端设备610之一上。在一些示例中，推论存储部640和/或用户准许数据存储部650可以驻留在PVA服务器630处。在一些示例中，(一个或多个)客户端设备610之一可以实施该功能并且存储PVA服务器630或(一个或多个)模块服务器620中的一个或多个的数据。

尽管这些示例参考了各种形式的云服务和基础设施服务网络，但是应当理解，相应的服务、系统和设备可以经由各种类型的通信网络而通信地耦接。通信网络的示例包括局域网(LAN)、广域网(WAN)、因特网、移动电话网、普通旧式电话(POTS)网络和无线数据网络(例如，Wi-Fi、2G/3G和4G LTE/LTE-A或其他个人区域、局域或广域网)。

用于促成和执行本文描述的电子操作的实施例可以实现于硬件、固件和软件之一或者其组合中。本说明书中描述的功能单元或能力可能被称为或标记为组件、处理功能或模块，以便更特别地强调其实施独立性。这样的组件可以由任意数量的软件或硬件形式来体现。例如，组件或模块可以被实现为硬件电路，硬件电路包括定制电路或现货半导体，诸如逻辑芯片、晶体管或其他离散组件。组件或模块也可以实现于可编程硬件设备中，诸如现场可编程门阵列、可编程阵列逻辑、可编程逻辑器件等。组件或模块还可以实现于供各种类型的处理器执行的软件中。可执行代码的被识别组件或模块例如可以包括计算机指令的一个或多个物理或逻辑块，其可以被组织为例如对象、流程或功能。被识别组件或模块的可运行指令不需要物理地位于一起，而是可以包括存储于不同位置的异类指令，这些指令在逻辑上联系在一起时，包括该组件或模块并且实现针对该组件或模块所述的目的。

实际上，可执行代码的组件或模块可以是单个指令或很多指令，并且甚至可以分布于若干个不同代码段上、分布于不同程序之间以及分布于若干存储设备或处理系统之间。具体地，所描述的过程的一些方面(诸如命令和控制服务)可以发生于与在其中部署代码(例如，在测试计算环境中)处不同的处理系统(例如，在云托管数据中心中的计算机中)上。类似地，操作数据可以被包括在相应组件或模块内，并且可以被体现为任何适当形式并且在任何适当类型的数据结构中被组织。可以收集操作数据作为单个数据集，或者可以在包括不同存储设备上方的不同位置上分布。

本文将特定实施例描述为包括逻辑或者若干组件或机构。组件可以构成软件组件(例如，体现在机器可读介质上的代码)或硬件组件。“硬件组件”是能够执行特定操作并且可以通过特定物理方式被配置或布置的有形单元。在各示例性实施例中，一个或多个计算机系统(例如，独立计算机系统、客户端计算机系统或服务器计算机系统)或者计算机系统的一个或多个硬件组件(例如，处理器或一组处理器)可以被软件(例如，应用程序或应用程序部分)配置为操作用于执行本文所述特定操作的硬件组件。

在一些实施例中，可以通过机械、电子或者其任何适当的组合方式来实现硬件组件。例如，硬件组件可以包括被永久配置为执行特定操作的专用电路或逻辑。例如，硬件组件可以是专用处理器，诸如现场可编程门阵列(FPGA)或专用集成电路(ASIC)。硬件组件还可以包括由软件临时配置成执行特定操作的可编程逻辑或电路。例如，硬件组件可以包括由通用处理器或其他可编程处理器执行的软件。一旦被这样的软件配置，硬件组件就变为经独特地定制以执行所配置功能并且不再是通用处理器的特定机器(或者机器的特定组件)。应当意识到，以机械方式，在专用和永久配置的电路中，或者在临时配置的电路(例如，由软件配置)中实现硬件组件的决策可以受到成本和时间考虑的驱动。

因此，短语“硬件组件”应当被理解为涵盖有形记录，记录被物理构造、永久配置(例如，硬连线的)或临时配置(例如，编程)以通过特定方式操作或者执行本文描述的特定操作。如本文所用，“硬件实现的组件”指代硬件组件。考虑其中硬件组件被临时配置(例如，被编程)的实施例，不需要在任何时刻配置或实例化硬件组件的每个硬件组件。例如，在硬件组件包括由软件配置以成为专用处理器的通用处理器的情况下，可以在不同时间将通用处理器配置为分别不同的专用处理器(例如，包括不同的硬件组件)。软件相应地配置特定一个处理器或多个处理器，例如，以在一个时刻构成特定硬件组件，并且在不同时刻构成不同的硬件组件。

硬件组件能够向其他硬件组件提供信息并且从其他硬件组件接收信息。因此，可以将所述硬件组件视为通信耦接的。在同时存在多个硬件组件的情况下，可以通过硬件组件中的两个或更多个硬件组件之间的信号传输(例如，通过适当的电路和总线)来实现通信。在多个硬件组件在不同时间被配置或实例化的实施例中，例如，可以通过在多个硬件组件有权访问的存储器结构中存储和取回信息来实现这样的硬件组件之间的通信。例如，一个硬件组件可以执行操作，并且在其通信地耦接到的存储器设备中存储该操作的输出。另外的硬件组件然后可以在稍晚时间访问存储器设备以取回并且处理所存储的输出。硬件组件还可以发起与输入设备或输出设备的通信，并且能够对资源进行操作(例如，对信息的收集)。

可以至少部分地由被暂时(例如，通过软件)或永久配置为执行相关操作的一个或多个处理器来执行本文所描述的示例性方法的各操作。无论是临时地还是永久地配置，这样的处理器都可以构成处理器实现的组件，其操作用于执行本文描述的一个或多个操作或功能。如本文所用，“处理器实现的组件”指代使用一个或多个处理器实现的硬件组件。

类似地，本文描述的方法可以至少部分是处理器实现的，其中特定一个或多个处理器为硬件的示例。例如，可以由一个或多个处理器或处理器实现的组件来执行方法的至少一些操作。此外，一个或多个处理器还可以操作用于支持在“云计算环境”中执行相关操作或者作为“软件即服务”(SaaS)而执行。例如，操作中的至少一些操作可以由一组计算机(作为包括处理器的机器的示例)来执行，其中这些操作可以经由网络(例如，因特网)以及经由一个或多个适当接口(例如，API)来访问。

所述操作中的特定操作的执行可以分布于处理器之间，不仅驻留在单个机器之内，而是在若干机器之间部署。在一些示例实施例中，处理器或处理器实现的组件可以位于单个地理位置中(例如，在家庭环境、办公室环境或服务器农场内)。在其他示例实施例中，处理器或处理器实现的组件可以分布于若干地理位置。

主题技术的一些方面涉及收集关于用户的个人信息。应当指出，在从用户接收到收集和存储此类信息的肯定准许之后，收集关于用户的个人信息。向用户持续提供提醒(例如，电子邮件消息或应用程序之内的信息显示)，以通知用户正在收集和存储其信息。只要在用户访问应用程序时或者每次到达每个阈值时间段(例如，每星期的电子邮件消息)，就可以提供持续提醒。例如，可以在其移动设备上向用户显示箭头符号，以通知用户其全球定位系统(GPS)位置正在被跟踪。以安全的方式存储个人信息，以确保不会发生对信息的未授权访问。例如，可以通过符合健康保险转移和责任法案(Health Insurance Portabilityand Accountability Act)(HIPAA)的方式来存储医学和健康相关信息。

示例性机器和软件架构

在一些实施例中，在机器和相关联软件架构的语境中实现结合图1-4所述的组件、方法、应用程序等。以下章节描述适用于与所公开实施例一起使用的(一个或多个)代表性软件架构和(一个或多个)机器(例如，硬件)架构。

结合硬件架构使用软件架构以创建针对特定目的(诸如本文描述的那些)而定制的设备和机器。例如，与特定软件架构耦接的特定硬件架构将创建移动设备，诸如移动电话、平板设备等。稍微不同的硬件和软件架构可以生成用于在“物联网”中使用的智能设备，而又一种组合产生用于在云计算架构内使用的服务器计算机。这里并未给出这样的软件和硬件架构的所有组合，因为本领域技术人员能够理解如何在与本文包含的公开不同的语境中实施公开的主题。

图7是图示了机器700的组件的框图，组件可以是例如PVA 612，根据一些范例实施例，其能够从机器可读介质(例如，机器可读存储介质)读取指令并且执行本文论述的任何一种或多种方法。具体而言，图7示出了计算机系统的示例性形式中的机器700的示意图解，在其之内可以运行指令716(例如，软件、程序、应用程序、小程序、应用或其他可执行代码)，用于使机器700执行本文论述的方法中的任意一种或多种方法。指令716将一般的未编程机器转换成被编程以按照所述方式执行所述和所示功能的特定机器。在替代实施例中，机器700作为独立设备而操作，或者可以被耦接(例如，联网)到其他机器。在联网部署中，机器700可以作为服务器机器或客户端机器在服务器-客户端网络环境中操作，或者作为对等机在对等(或分布式)网络环境中运行。机器700可以包括，但不限于：服务器计算机、客户端计算机、PC、平板计算机、膝上型计算机、上网本、个人数字助理(PDA)、娱乐媒体系统、蜂窝电话、智能电话、移动设备、可穿戴设备(例如，智能手表)、智能家庭设备(例如，智能电器)、其他智能设备、web用具、网络路由器、网络交换机、网桥，或者能够顺序地或以其他方式执行指定要由机器700采取的动作的指令716的任何机器。另外，尽管仅图示了单一机器700，但是还将采用术语“机器”以包括机器700的集合，所述机器单独地或共同地运行指令716，以执行本文论述的任意一种或多种方法。

机器700可以包括处理器710、存储器/存储设备730、I/O组件750，其可以被配置成诸如经由总线702彼此通信。在示例实施例中，处理器710(例如，中央处理器(CPU)、精简指令集计算(RISC)处理器、复杂指令集计算(CISC)处理器、图形处理单元(GPU)、数字信号处理器(DSP)、ASIC、射频集成电路(RFIC)、另一个处理器或者其任意合适的组合)可以包括例如可以运行指令716的处理器712和处理器714。术语“处理器”意在包括多核处理器，多核处理器可以包括可以同时运行指令的两个或更多个独立处理器(有时称为“内核”)。尽管图7示出了多个处理器710，但是机器700可以包括具有单一内核的单个处理器、具有多个内核的单个处理器(例如，多核处理器)、具有单一内核的多个处理器、具有多个内核的多个处理器或者其任意组合。

存储器/存储设备730可以包括存储器732，诸如主存储器，或者其他存储设备和存储单元736，两者都可以由处理器710例如经由总线来访问。存储单元736和存储器732存储体现本文描述的方法或功能的任一种或多种的指令716。指令716在其被机器700执行期间还可以完全或部分驻留在存储器732之内、存储单元736之内、处理器710的至少一个之内(例如，处理器的高速缓存存储器之内)，或者其任何适当组合。因此，存储器732、存储单元736和处理器710的存储器是机器可读介质的示例。

如本文所用，“机器可读介质”意指能够暂时地或永久地存储指令(例如，指令716)和数据的设备，可以包括，但不限于：随机存取存储器(RAM)、只读存储器(ROM)、缓冲存储器、闪存存储器、光学介质、磁性介质、高速缓存存储器、其他类型的存储设备(例如，可擦除可编程只读存储器(EEPROM))和/或其任意适当组合。术语“机器可读介质”应当被理解为包括能够存储指令716的单一介质或多种介质(例如，集中式或分布式数据库，或者关联的高速缓存和服务器)。术语“机器可读介质”也应当被理解为包括能够存储供机器(例如，机器700)执行的指令(例如，指令716)的任何介质或多种介质的组合，使得指令在由机器的一个或多个处理器(例如，处理器710)执行时，导致机器执行本文描述的方法中的任一种或多种。因此，“机器可读介质”指代单个存储设备或设备，以及包括多个存储设备或设备的“基于云”的存储系统或存储网络。本文使用的术语“机器可读介质”不包括信号本身。

I/O组件750可以包括很宽范围的组件，以接收输入、提供输出、生成输出、传输信息、交换信息、捕获测量结果等。特定机器中包括的具体I/O组件750将取决于机器类型。例如，诸如移动电话的便携式机器将可能包括触摸输入设备或其他这样的输入机构，而无头服务器机器将可能不包括这样的触摸输入设备。应当理解，I/O组件750可以包括许多其他图7中未示出的组件。仅仅为了简化以下论述，对I/O组件750进行分组，并且分组绝不是限制。在各种示例性实施例中，I/O组件750可以包括输出组件752和输入组件754。输出组件752可以包括视觉组件(例如，显示器，诸如等离子体显示面板(PDP)、发光二极管(LED)显示器、液晶显示器(LCD)、投影仪或阴极射线管(CRT))、声学组件(例如，扬声器)、触觉组件(例如，振动电机、阻力机构)、其他信号发生器等。例如，除了扬声器之外，输出组件752还可以包括视觉输出设备，其适于提供被确定为最好地沟通并且如本文所述将用户情绪改善到最佳状态的增强视觉颜色、动画和信息呈现。输入组件754可以包括字母数字输入组件(例如，键盘、配置为接收字母数字输入的触摸屏、光学键盘或其他字母数字输入组件)、基于点的输入组件(例如，鼠标、触摸板、轨迹球、操纵杆、运动传感器或者另一种定点器具)、触觉输入组件(例如，物理按钮、提供触摸或触摸手势的位置和/或力的触摸屏)、音频输入组件(例如，麦克风)等。

在另外的示例性实施例中，I/O组件750可以包括生物识别组件756、运动组件758、环境组件760或位置组件762，还有很宽范围的其他组件。例如，生物识别组件756可以包括组件以检测表情(例如，手部表情、面部表情、有声表情、身体姿态或眼睛跟踪)、测量生物信号(例如，血压、心率、体温、出汗或脑波)、测量与锻炼相关的度量(例如，移动的距离、移动速度或锻炼花费的时间)、识别人(例如，语音识别、视网膜识别、面部识别、指纹识别或基于脑电图的识别)等等。运动组件758可以包括加速度传感器组件(例如，加速度计)、重力传感器组件、旋转传感器组件(例如，陀螺仪)等。环境组件760可以包括，例如，照明传感器组件(例如，光度计)、温度传感器组件(例如，一个或多个检测环境温度的温度计)、湿度传感器组件、压力传感器组件(例如，气压计)、声传感器组件(例如，一个或多个检测背景噪声的麦克风)、接近传感器组件(例如，检测附近物体的红外传感器)、气体传感器(例如，检测有害气体浓度以保证安全或测量大气中污染物的气体检测传感器)、或者可以提供对应于周围物理环境的指示、测量结果或信号的其他组件。位置组件762可以包括位置传感器组件(例如，全球定位系统(GPS)接收器组件)、海拔传感器组件(例如，高度计或检测气压，从而可以推导海拔的气压计)、取向传感器组件(例如，磁强计)等。

可以使用很宽范围的技术来实现通信。I/O组件750可以包括通信组件764，通信组件能操作用于分别经由耦接782和耦接772将机器700耦接到网络780或设备770。例如，通信组件764可以包括网络接口组件或者其他合适的设备以与网络780接口。在另外的示例中，通信组件764可以包括有线通信组件、无线通信组件、蜂窝通信组件、近场通信(NFC)组件、

组件(例如，

低功耗)、

组件和其他通信组件以经由其他模态提供通信。设备770可以是另一个机器或者很宽范围的外围设备(例如，经由USB耦接的外围设备)中的任一种。

此外，通信组件764可以检测标识符或者包括能操作用于检测标识符的组件。例如，通信组件764可以包括射频识别(RFID)标签读取器组件、NFC智能标签检测组件、光学读取器组件或声学检测组件(例如，麦克风，以识别带标签的音频信号)。另外，可以经由通信组件764导出各种信息，诸如经由网际协议(IP)地理位置定位、经由

信号三角测量法定位、经由检测可以指示特定位置的NFC信标信号定位等。

在各种示例性实施例中，网络780的一个或多个部分可以是自组网、内联网、外联网、虚拟专网(VPN)、局域网(LAN)、无线LAN(WLAN)、WAN、无线WAN(WWAN)、城域网(MAN)、因特网、因特网的一部分、公共交换电话网(PSTN)的一部分、简易老式电话业务(POTS)网、蜂窝电话网、无线网、

网、另一种类型的网络或者两种或更多种此类网络的组合。例如，网络780或网络780的一部分可以包括无线或蜂窝网，并且耦接782可以是码分多址(CDMA)连接、全球移动通信系统(GSM)连接或者另一种类型的蜂窝或无线耦接。在本示例中，耦接782可以实施多种类型的数据传输技术的任一种，诸如单载波无线电传输技术(lxRTT)、演进数据优化(EVDO)技术、通用分组无线电服务(GPRS)技术、增强型数据速率GSM演进(EDGE)技术、包括7G的第三代合作伙伴计划(3GPP)、第四代无线(4G)网络、通用移动电信系统(UMTS)、高速分组接入(HSPA)、全球微波接入互操作(WiMAX)、长期演进(LTE)标准、由各种标准设定组织定义的其他技术、其他长程协议或其他数据传输技术。

可以通过网络780，使用传输介质，经由网络接口设备(例如，通信组件764中包括的网络接口组件)，并且利用若干已知传输协议(例如，HTTP)中的任一种来发送或接收指令716。类似地，可以使用传输介质，经由通往设备770的耦接772(例如，对等耦接)来发送或接收指令716。术语“传输介质”应当被视为包括能够存储、编码或承载指令716以供机器700执行的任何无形介质，并且包括数字或模拟通信信号或者其他无形介质以促进这样的软件的通信。

本领域技术人员将意识到，本文描述的个人虚拟助理系统相对于常规个人虚拟助理系统提供了许多优点。例如，本文描述的个人虚拟助理系统改善了用户交互性能，提供了语境化通信、更好的用户理解和推论处理、更高效的通信(因为通信更好地针对用户需求)以及经改进的个性化特性，所有这些都实现了用户满意度增高并且个人虚拟助理系统的使用量潜在更大。

本领域技术人员还将意识到，本文描述的个人虚拟助理系统可以被实现为独立的消费电子设备，其包括传感器和AI模型，AI模型运行于板载处理电路中并且进行在线训练。本领域技术人员还将意识到，在实施例中可以实现本文描述的个人虚拟助理，其中，个人虚拟助理系统包括传感器，但是AI和机器学习特征经由因特网通信而实现于服务器侧。例如，可以将通信上传到云端，并且可以由另一计算机系统或在批处理中离线地进行机器学习模型的调节/重新训练。另一方面，情感智能可以生存于PVA设备上(出于性能或隐私的原因)或云端中(或两者的组合)。这些和其他实施例包括在以下示例的范围内。

带编号的示例

这里将某些实施例描述为带编号的示例1、2、3等。提供这些带编号的示例仅作为示例，并不限制主题技术。

示例1是一种个人虚拟助理系统，其包括处理电路、扬声器、从至少用户的语音收集关于用户的情感状态的用户状态信息的至少一个感测设备、以及在其中存储有指令的存储器设备，其中，所述指令当由处理电路运行时将处理电路配置为：从用户接收引起来自个人虚拟助理系统的响应的通信；使用机器学习模型根据由至少一个感测设备收集到的至少用户状态信息来确定用户的情感状态；生成考虑了所确定的用户的情感状态的响应；使用被选择用于将所确定的所述用户的情感状态改变到不同的情感状态的语言、音量和语气，通过所述扬声器向所述用户输出所生成的响应；以及基于用户对所输出的响应的响应来训练机器学习模型。

示例2是根据示例1所述的示例，其中，所述至少一个感测设备感测用户在与个人虚拟助理系统通信中所使用的语音的语气和语言。

示例3是根据示例1所述的示例，其中，所述至少一个感测设备还感测用户的面部表情以根据用户的面部表情来提取关于用户的情感状态的用户状态信息。

示例4是根据示例1所述的示例，其中，所述至少一个感测设备还根据以下中的至少一项来感测用户的语境：用户的位置、当地时间、日程、以及周围环境以及用户与个人虚拟助理系统或其他设备的在先交互。

示例5是根据示例1所述的示例，其中，所述存储器设备还包括在其中存储的指令，所述指令当由所述处理电路运行时将所述处理电路配置为：通过修改对用户的响应中的速度、语气和语言中的至少一项，使用考虑了所确定的用户的情感状态的语言、音量和语气，向用户输出所生成的响应。

示例6是根据示例1所述的示例，还包括视觉输出设备，其中，所述存储器设备还包括在其中存储的指令，所述指令当由所述处理电路运行时将所述处理电路配置为：使所述视觉输出设备根据所确定的用户的情感状态在对用户的响应中提供经修改的视觉颜色和动画中的至少一项。

示例7是根据示例1所述的示例，其中，所述存储器设备还包括在其中存储的指令，所述指令当由所述处理电路运行时将所述处理电路配置为：基于在提供响应时用户的确定的情感状态，来修改何时以及如何向用户提供响应。

示例8是根据示例1所述的示例，其中，所述存储器设备还包括在其中存储的指令，所述指令当由所述处理电路运行时将所述处理电路配置为：接收用户偏好数据和文化参考数据，机器学习模型将用户偏好数据和文化参考数据与用户状态信息一起用作当前情感状态参数，根据当前情感状态参数来确定用户的情感状态。

示例9是根据示例1所述的示例，还包括：用于处理电路、扬声器、至少一个感测设备以及存储器设备的壳体，其中，所述存储器设备还包括在其中存储的指令，所述指令当由所述处理电路运行时将所述处理电路配置为使用人工智能服务来处理用户状态信息，以确定用户的当前情感状态参数。

示例10是根据示例9所述的示例，其中，所述存储器设备还包括在其中存储的指令，所述指令当由所述处理电路运行时将所述处理电路配置为：向用户对所输出的响应的响应和用户的确定的当前情感状态应用启发式方法，以训练机器学习模型。

示例11是根据示例1所述的示例，其中，所述存储器设备还包括在其中存储的指令，所述指令当由所述处理电路运行时将所述处理电路配置为：通过基于规则或查找表中存储的查找来改变响应，从而生成考虑了所确定的用户的情感状态的响应。

示例12是根据示例1所述的示例，其中，所述存储器设备还包括在其中存储的指令，所述指令当由所述处理电路运行时将所述处理电路配置为：通过使用深度神经网络，根据所确定的用户的情感状态，来生成具有语境化文本和语气的在交谈和情感方面适当的响应，从而生成考虑了所确定的用户的情感状态的响应。

示例13是根据示例1所述的示例，其中，所述存储器设备还包括在其中存储的指令，所述指令当由所述处理电路运行时将所述处理电路配置为：向机器学习模型提供反馈，通知机器学习模型用户对所输出的响应的响应，并且更新机器学习模型以反映根据用户状态信息而确定的用户响应和用户反馈评级中的至少一项。

示例14是根据示例1所述的示例，其中，所述存储器设备还包括在其中存储的指令，所述指令当由所述处理电路运行时将所述处理电路配置为：关于被提供给用户的响应的什么属性引起来自用户的特定反应来训练机器学习模型。

示例15是根据示例14所述的示例，其中，所述存储器设备还包括在其中存储的指令，所述指令当由所述处理电路运行时将所述处理电路配置为：使所述机器学习模型基于用户的情感状态来生成预计引起用户的特定反应的响应。

示例16是根据示例1所述的示例，其中，所述存储器设备还包括在其中存储的指令，所述指令当由所述处理电路运行时将所述处理电路配置为：使用人口统计概况、位置或兴趣或者其组合，参考其他用户匹配所述用户，并且从人口统计概况、位置或兴趣或者其组合类似于所述用户的其他用户中的至少一个向机器学习模型提供额外数据。

示例17是根据示例1所述的示例，其中，所述存储器设备还包括在其中存储的指令，所述指令当由所述处理电路运行时将所述处理电路配置为：基于所确定的用户的情感状态来确定可以与所述用户共享什么信息，并且在确定用户处于不同的情感状态时，稍晚时间可以与用户共享什么信息。

示例18是根据示例1所述的示例，其中，所述存储器设备还包括在其中存储的指令，所述指令当由所述处理电路运行时将所述处理电路配置为：学习用户的情感状态随时间变化的模式，将情感状态的模式作为输入提供给机器学习模型，并且在至少一个感测设备检测到特定事件或环境状况时预测用户的情感状态。

示例19是一种在其上存储有指令的机器可读介质，所述指令当由一个或多个处理设备运行时，使所述一个或多个处理设备实施从个人虚拟助理系统提供移情式响应的方法，包括如下步骤：从用户接收引起来自个人虚拟助理系统的响应的通信；至少感测用户的语音；从至少用户的语音收集关于用户的情感状态的用户状态信息；使用机器学习模型至少根据所收集到的用户状态信息来确定用户的情感状态；生成考虑了所确定的用户的情感状态的响应；使用被选择用于将所确定的用户的情感状态改变为经改善的不同的情感状态的语言、音量和语气来向用户输出所生成的响应；以及基于用户对所输出的响应的响应训练机器学习模型。

示例20是一种方法，包括如下步骤：从用户接收引起来自个人虚拟助理系统的响应的通信；提供对来自用户的通信的响应；在通信的至少一次通信期间感测至少用户的语音；在所述通信中的至少一次通信期间从至少用户的语音收集关于用户的情感状态的用户状态信息；在通信期间，在通信期间的不同时间，使用机器学习模型，根据至少所收集到的用户状态信息来确定用户的情感状态；在通信期间使用用户状态信息来跟踪用户的情感状态；以及使用通信期间情感状态的差异作为提供给用户的对通信的至少一个响应的标签。

在以上具体实施方式中，可以将各种特征分组在一起，以简化本公开。然而，权利要求可能不会阐述本文所公开的每个特征，因为实施例可能以特征的子集为特征。此外，实施例可以包括比特定示例中公开的更少特征。因此，在此将以下权利要求并入具体实施方式中，其中权利要求自身代表独立的实施例。

Claims

1.一种个人虚拟助理系统，包括：

处理电路；

扬声器；

至少一个感测设备，其从至少用户的语音收集关于所述用户的情感状态的用户状态信息；以及

在其中存储有指令的存储器设备，其中，所述指令当由所述处理电路运行时将所述处理电路配置为：

从所述用户接收引起来自所述个人虚拟助理系统的响应的通信；

使用机器学习模型根据由所述至少一个感测设备收集到的至少所述用户状态信息来确定所述用户的情感状态；

生成考虑了所确定的所述用户的情感状态的响应；

使用被选择用于将所确定的所述用户的情感状态改变到不同的情感状态的语言、音量和语气，通过所述扬声器向所述用户输出所生成的响应；以及

基于所述用户对所输出的响应的响应来训练所述机器学习模型，以学习所输出的响应的什么属性引起来自所述用户的相应反应。

2.根据权利要求1所述的个人虚拟助理系统，其中，所述至少一个感测设备感测所述用户在与所述个人虚拟助理系统的通信中所使用的语言和语音的语气。

3.根据权利要求1所述的个人虚拟助理系统，其中，所述至少一个感测设备还感测所述用户的面部表情以根据所述用户的面部表情来提取关于所述用户的所述情感状态的用户状态信息。

4.根据权利要求1所述的个人虚拟助理系统，其中，所述至少一个感测设备还根据以下中的至少一项来感测所述用户的语境：所述用户的位置、当地时间、日程、以及周围环境以及所述用户与所述个人虚拟助理系统或其他设备的在先交互。

5.根据权利要求1所述的个人虚拟助理系统，其中，所述存储器设备还包括在其中存储的指令，所述指令当由所述处理电路运行时将所述处理电路配置为：通过修改在对所述用户的所述响应中的速度、语气和语言中的至少一项，使用考虑了所确定的所述用户的情感状态的语言、音量和语气，向所述用户输出所生成的响应。

6.根据权利要求1所述的个人虚拟助理系统，其中，所述存储器设备还包括在其中存储的指令，所述指令当由所述处理电路运行时将所述处理电路配置为：基于在提供所述响应的时间时的所述用户的确定的情感状态，来修改何时以及如何向所述用户提供所述响应。

7.根据权利要求1所述的个人虚拟助理系统，还包括：用于所述处理电路、扬声器、至少一个感测设备以及存储器设备的壳体，其中，所述存储器设备还包括在其中存储的指令，所述指令当由所述处理电路运行时将所述处理电路配置为：使用人工智能服务来处理所述用户状态信息，以确定用户的当前情感状态参数。

8.根据权利要求7所述的个人虚拟助理系统，其中，所述存储器设备还包括在其中存储的指令，所述指令当由所述处理电路运行时将所述处理电路配置为：向所述用户对所输出的响应的响应和所述用户的确定的当前情感状态参数应用启发式方法，以训练所述机器学习模型。

9.根据权利要求1所述的个人虚拟助理系统，其中，所述存储器设备还包括在其中存储的指令，所述指令当由所述处理电路运行时将所述处理电路配置为：接收用户偏好数据和文化参考数据，所述机器学习模型将所述用户偏好数据和所述文化参考数据与所述用户状态信息一起用作当前情感状态参数，根据所述当前情感状态参数来确定所述用户的所述情感状态。

10.根据权利要求1所述的个人虚拟助理系统，其中，所述存储器设备还包括在其中存储的指令，所述指令当由所述处理电路运行时将所述处理电路配置为：通过使用深度神经网络，根据所确定的所述用户的情感状态，来生成具有语境化文本和语气的在交谈和情感方面适当的响应，从而生成考虑了所确定的所述用户的情感状态的响应。

11.根据权利要求1所述的个人虚拟助理系统，其中，所述存储器设备还包括在其中存储的指令，所述指令当由所述处理电路运行时将所述处理电路配置为：向所述机器学习模型提供反馈以通知所述机器学习模型所述用户对所输出的响应的响应，并且更新所述机器学习模型以反映根据所述用户状态信息而确定的所述用户的响应和用户反馈评级中的至少一项。

12.根据权利要求1所述的个人虚拟助理系统，其中，所述存储器设备还包括在其中存储的指令，所述指令当由所述处理电路运行时将所述处理电路配置为：重复所述接收、确定、生成、输出和训练步骤，以调节特征权重，以便训练所述机器学习模型调节所生成的响应的内容和递送，使得将来生成的响应是对于所述用户个性化的且适于随着时间改善所述用户的所确定的情感状态。

13.根据权利要求1所述的个人虚拟助理系统，其中，所述存储器设备还包括在其中存储的指令，所述指令当由所述处理电路运行时将所述处理电路配置为：基于所确定的所述用户的情感状态来确定能够与所述用户共享什么信息，并且在确定所述用户处于不同的情感状态时的稍晚时间处能够与所述用户共享什么信息。

14.根据权利要求1所述的个人虚拟助理系统，其中，所述存储器设备还包括在其中存储的指令，所述指令当由所述处理电路运行时将所述处理电路配置为：学习所述用户的所述情感状态随时间变化的模式，将所述情感状态的所述模式作为输入提供给所述机器学习模型，并且当由所述至少一个感测设备检测到事件或环境状况时预测所述用户的情感状态。

15.一种用于个人虚拟助理系统的方法，包括：

从用户接收引起来自所述个人虚拟助理系统的响应的通信；

提供对来自所述用户的所述通信的响应；

感测在所述通信中的至少一次通信期间的至少所述用户的语音；

从在所述通信中的所述至少一次通信期间的至少所述用户的语音收集关于所述用户的情感状态的用户状态信息；

在所述通信期间，在所述通信期间的不同时间处使用机器学习模型根据至少所收集到的用户状态信息来确定所述用户的情感状态；

使用所述用户状态信息来跟踪在所述通信期间的所述用户的情感状态；

使用在所述通信期间的情感状态的差异作为被提供给所述用户的对所述通信的至少一个响应的标签；以及

使用所述标签来调节特征权重以调试机器学习模型，以使所述机器学习模型针对所述用户进行个性化，使得对所述用户的所生成的响应的内容和递送是对于所述用户个性化的且适于随着时间改善所述用户的所确定的情感状态。