CN107003997A

CN107003997A - 用于交互式对话系统的情绪类型分类

Info

Publication number: CN107003997A
Application number: CN201580065944.XA
Authority: CN
Inventors: E·优恩; M·梁
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2014-12-04
Filing date: 2015-12-02
Publication date: 2017-08-01
Also published as: US20160163332A1; RU2017119007A3; KR20220147150A; US10515655B2; RU2017119007A; AU2015355097A1; US9786299B2; KR102457486B1; AU2020239704A1; KR20170092603A; JP2018503894A; CA2967976A1; WO2016089929A1; EP3227885A1; AU2015355097B2; BR112017010047B1; RU2705465C2; CA2967976C; BR112017010047A2; JP6803333B2

Abstract

在交互式对话系统中用于选择与语义内容相关联的情绪类型代码的技术。在一个方面中，向情绪分类算法提供事实或者简档输入，该情绪分类算法基于事实或者简档输入的具体组合来选择情绪类型。所述情绪分类算法可以是基于规则的或者是从机器学习得到的。可以进一步将先前的用户输入指定为所述情绪分类算法的输入。该技术尤其适用在诸如智能手机的移动通信设备中，其中该事实或者简档输入可以是从设备的多样化的功能集的使用得到的，包括在线接入、文本或者语音通信、日程安排功能等。

Description

用于交互式对话系统的情绪类型分类

背景技术

人工交互式对话系统在最先进的消费电子设备中是一种日益广泛的特征。例如，现代无线智能手机集成语音识别、交互式对话和语音合成软件以与用户进行实时交互式对话从而传送如信息和新闻、远程设备配置和编程、对话交往等服务。

为了使用户能够体验到与对话系统更自然且更无缝的对话，需要生成具有除了语义内容之外的情绪内容的语音或者其它输出。例如，当递送新闻、日程安排任务或者与用户交互时，需要向合成的语音和/或其它输出赋予情绪特征以更有效地使用户融入对话。

因此，需要提供用于确定要赋予由交互式对话系统递送的语义内容的合适情绪并且根据多个预定的情绪类型中的一个预定的情绪类型对这种确定的情绪进行分类的技术。

发明内容

提供本发明内容以简化的形式介绍将在下面具体实施例中进一步详细描述的构思的选择。本发明内容既不旨在标识所要求的主题的关键或者必要特征，也不旨在用于限制所要求的主题的范围。

简而言之，本文描述的主题的各个方面直接涉及提供用于交互式对话系统的装置的技术。在一个方面中，可用于移动通信设备的事实或者简档可以与先前的或者当前的用户输入进行组合以选择恰当的情绪类型代码以与交互式对话系统生成的输出语句相关联。该事实或者简档输入可以从设备使用的某些方面得到，例如，用户在线活动、用户通信、日历和日程安排功能等。用于选择情绪类型代码的算法可以是基于规则的或者是通过机器学习技术预配置的。可以将情绪类型代码与输出语句组合以生成具有情绪特性的、用于提高的用户体验的合成语音。

其它优点可以通过以下详细说明和附图而变得显而易见。

附图说明

图1图示了其中应用本公开的的技术、采用移动通信设备的场景。

图2图示了可以通过设备的处理器和其它元件执行的处理的示例性实施例。

图3图示了通过对话引擎执行的处理的示例性实施例。

图4图示了根据本公开的情绪类型分类框的示例性实施例。

图5图示了混合情绪类型分类算法的示例性实施例。

图6图示了基于规则的算法的示例性实施例。

图7图示了基于规则的算法的备选的示例性实施例。

图8图示了用于得到用于选择情绪类型的经训练的算法的训练方案的示例性实施例。

图9图示了根据本公开的方法的示例性实施例。

图10示意性地示出了可以执行上述方法和过程中的一个或多个的非限制性计算系统。

图11图示了根据本公开的设备的示例性实施例。

图12图示了，其中本公开的技术包含在具有被赋予情绪内容的对话系统中以显示而非可听的语音或除了可听的语音之外的文本的示例性实施例。

具体实施方式

本文描述的技术的各个方面通常涉及在电子交互式对话系统中用于选择与输出语句相关联的情绪类型代码的技术。下面结合附图阐述的详细描述旨在作为本发明的示例性方面的描述，不旨在仅仅代表在其中可以实践本发明的示例性方面。贯穿描述中使用的术语“示例性”是指“用作示例、实例或者图示”，不应该将其理解为比其它示例性方面优选或者有利。该详细描述包括针对提供本发明的示例性方面的全面理解的目的的具体细节。对于本领域的技术人员显而易见的是可以在没有这些具体细节的情况下实践本发明的示例性方面。在一些实例中，为了避免模糊本文提出的示例性方面的新颖性，以框图的形式示出了已知的结构和设备。

图1图示了采用移动通信设备120的场景，在该场景中，可以应用本公开的技术。注意，图1仅仅是出于图示的目的被示出，并不表示将本公开的范围限制于本公开仅应用于移动通信设备。例如，本文描述的技术可以容易地应用在其它设备和系统中，例如，在笔记本计算机和桌面计算机、汽车导航系统等的人类接口系统中。这种替代应用被预期在本公开的范围内。

在图1中，用户110与移动通信设备120(例如，手持智能手机)通信。智能手机可以被理解为包括集成诸如语音呼叫和互联网接入等通信功能与用于实现多样化的计算任务阵列的相对复杂的微处理器的任何移动设备。用户110可以向设备120上的麦克风124提供语音输入122。设备120内的一个或者多个处理器125、和/或通过网络可用的处理器(未示出)(例如，实施云计算方案)可以处理由麦克风124接收到的语音信号，例如，执行下文参照图2进一步描述的功能。注意，处理器125不需要具有任何特定的形式、形状或者功能划分，诸如本文仅出于示例目的而描述的，并且这种处理器通常可以通过使用现有技术中已知的多种技术来实施。

基于处理器125执行的处理，设备120可以响应于语音输入122使用音频扬声器128生成语音输出126。在某些场景中，设备120还可以独立于语音输入122生成语音输出126，例如，设备120可以以语音输出126的形式自主地向用户110提供警报或者将来自其它用户(未示出)的消息中继至用户110。在示例性实施例中，响应于语音输入122的输出也可以被显示在设备120的显示器129上，例如作为文本、图形、动画等。

图2图示了可以通过设备120的处理器125和其它元件实现的交互式对话系统200的示例性实施例。注意，在图2中示出的处理仅仅是出于图示的目的，不旨在将本公开的范围限制在图2中示出的任何特定序列或者操作集合。例如，在备选的示例性实施例中，本文公开的用于选择情绪类型代码的某些技术可以独立于图2中示出的处理而被应用。而且，可以根据系统中的具体功能划分来组合或者省略图2中示出的一个或者多个框，并且因此图2不旨在显示所示出的框的任何功能依赖性或者独立性。这种替代示例性实施例被预期为在本公开的范围内。

在图2中，在框210中，接收语音输入。语音输入210可以对应于从，例如，设备120上的麦克风124得到的声学信号的波形表示。语音输入210的输出210a可以对于与包含语音内容的声学波形的数字版本。

在框220中，对输出210a执行语音识别。在示例性实施例中，语音识别220将语音(诸如，输出210a中存在的)转换为文本。语音识别220的输出220a可以因此对应于在数字声学波形输出210a中的存在的语音的文本表示。例如，如果输出210a包括诸如“明天天气如何？”等人类话语(例如，通过麦克风124拾取的)的音频波形表示，然后语音识别220可以基于其语音识别能力输出与文本“明天天气如何？”对应的ASCII文本(或者其它文本表示)。可以使用声学建模和语言建模技术(包括，例如，隐马尔可夫模型(HMM’s)、神经网络等)来执行通过框220执行的语音识别。

在框230中，基于输出210a的期望的自然语言的知识，对语音识别220的输出220a执行语言理解。在示例性实施例中，可以使用例如构词法和句法的知识来执行诸如解析和语法分析的自然语言理解技术，以得到输出220a中的文本的隐含意图。语言理解230的输出230a可以包括输出220a中存在的语音的语义内容和/或情绪内容的形式表示。

在框240中，对话引擎生成对从输出230a确定的语音的合适的响应。例如，如果语言理解230确定用户语音输入对应于关于特定地形的天气的查询，那么然后对话引擎240可以从资源(例如，天气预报服务或者数据库)获取并且汇集必需的天气信息。例如，检索的天气信息可以对应于天气预报的时间/日期代码、对应于“晴”天气的天气类型代码、指示平均温度为72度的温度场。

在示例性实施例中，对话引擎240可以进一步“打包”检索的信息，从而将其呈现为方便用户理解。因此，对话引擎240的语义内容输出240a可以与语义内容的表示对应，诸如，“今天天气晴朗；气温为72度”。

出了语义内容240a之外，对话引擎240还可以生成与语义内容240a相关联的情绪类型代码240b。情绪类型代码240b可以指示当将语义内容240a作为输出语音递送至用户时要赋予语义内容240a的情绪内容的具体类型。例如，如果用户打算在某天去野餐，则晴朗天气预报与情绪乐观的语调同时被递送。在这种情况下，情绪类型代码240b可以指代与“中度快乐”对应的情绪内容类型。下文将例如参照图3进一步描述基于可用于交互式对话系统200的数据、事实、和输入来生成情绪类型代码240b的技术。

在框250中，对对话引擎240的输出240a、240b执行语言生成。语言生成以自言语言格式呈现对话引擎240的输出，例如，符合词汇和语法规则的目标语言中的句子，以准备由人类用户理解。例如，基于语义内容240a，语言生成250可以生成以下语句：“今天的天气为72度并且晴朗”。

在示例性实施例中，框250可以进一步接受来自系统性格框255的输入255a。系统性格框255可以根据用于交互式对话系统的预先选择的“性格”来指定用于对话引擎的默认参数255a。例如，如果将系统性格选择为“男性”或“女性”，或“高兴”或“沉思”，则框255可以将对应于系统性格的参数指定为参考输入255a。注意，在某些示例性实施例中，可以省略框255，或者可以将其功能包含到其它框中，例如，对话引擎240或者语言生成框250，并且这种备选示例性实施例被构想为在本公开的范围内。

在示例性实施例中，语言生成框250可以将语义内容240a、情绪类型代码240b和默认情绪参数255a组合以合成输出语句250a。例如，与“中度快乐”对应的情绪类型代码240b可以使框250生成自然语言(例如，英语)语句，诸如，“好消息：今天的天气为72度并且晴朗！”。将语言生成框250的输出语句250a被提供至随后的文本转语音框260以生成与输出语句250a对应的音频语音。

注意，在某些示例性实施例中，可以省略上文描述的语言生成框250的一些功能。例如，语言生成框250在生成输出语句250a时不需要具体考虑情绪类型代码240b，并且可以代替依赖文本转语音框260(其也具有对情绪类型代码240b的访问)来提供合成的语音输出的全部情绪内容。此外，在通过对话引擎检索到的信息已经是以自然语言格式的某些实例中，语言生成框250可以被有效地绕过。例如，对话引擎240接入的互联网天气服务可以直接以自然语言(例如，英语)提供天气更新，以便语言生成250可能不需要对语义内容240a进行任何实质的后处理。这种备选的示例性实施例被构想为在本公开的范围内。

在框260中，对语言生成250的输出250a执行文本转语音对话。在示例性实施例中，还将情绪类型代码240b提供至TTS框260以合成具有与250对应的文本内容和与情绪类型代码240b对应的情绪内容的语音。文本转语音对话260的输出可以是音频波形。

在框270中，从文本转语音对话260的输出生成声学输出。可以通过设备120的扬声器128将语音输出提供至收听者，例如，图1的用户。

随着交互式对话系统变得日益复杂，需要提供用于有效地为由这种系统生成的语音和其它类型的输出选择合适的情绪类型代码的技术。例如，如由情绪类型代码240b和语义内容240a的提供所建议的，在某些应用中，不仅需要将语音输出270生成为情绪上中性的文本再现，在将语音输出270递送至收听者时还需要语音输出270包含预先指定的情绪内容。因此，可以将输出语句250a与合适的情绪类型代码240b相关联，从而使用户110会感觉到语音输出270中呈现的适当的情绪内容。

例如，如果对话引擎240规定语义内容240a与某个棒球队已经赢得世界职业棒球大赛冠军的信息对应，并且用户110又是该棒球队的球迷，则选择情绪类型代码240b来表示“激动”(相反，例如，中性或者不快乐)以匹配用户的情绪状态有可能会为用户110带去更令人满意的交互体验。

图3图示了通过对话引擎240执行的用于生成适当的语义内容和相关联的情绪类型代码的处理的示例性实施例240.1。注意，图3仅仅是用于图示的目的被示出，并不意味着将本公开的范围局限于本文描述的技术的任何特定应用。

在图3中，对话引擎240.1包括语义内容生成框310和情绪类型分类框320(在本文中也被称为“分类框”)。框310和320都提供有用户对话输入230a，该用户对话输入230a可以包括用户110在当前或者任何先前的对话会话中对一个或者多个语句或者查询执行的语言理解230的输出。具体地，语义内容生成框310生成与要递送至用户的信息对应的语义内容240.1a，而情绪类型分类框320生成适当的要赋予语义内容240.1a的情绪类型(由情绪类型代码240.1b表示)。注意，用户对话输入230a可以被理解为包括来自当前的或者先前的对话会话的用户输入的任何一个或者所有，例如，如存储在本地设备存储器上的历史文件中。

除了用户对话输入230a之外，框320还提供有“事实或者简档”输入301，其可以包括从在其上实施有对话引擎240.1的设备的使用得到的参数。情绪类型分类框320可以根据一种或者多种算法，基于事实或者简档输入301和用户对话输入230a的组合，来生成适当的情绪类型代码240.1b，例如，利用根据下文进一步公开的机器学习技术离线训练后的参数。在示例性实施例中，情绪类型代码240.1b可以包括对情绪(例如，“快乐”等)以及指示表现出来的情绪(例如，1到5之间的数字，5表示“非常快乐”)到达的程度的程度指示符两者的描述。在示例性实施例中，可以将情绪类型代码240.1b表示为诸如在情绪标记语言(EmotionML)中规定的、用于指定可以被赋予输出语音的多个预定的情绪类型中的一个预定的情绪类型的格式。

要注意，对于智能手机等现代消费性设备，当前的趋势是不断扮演不可或缺的个人助理的角色，将多样的特征集合集成到用户频繁并且经常连续地携带的单个移动设备。由单个用户针对众多目的(例如，语音通信、互联网接入、日程计划、娱乐消遣等)对该设备的重复使用允许通过交互式对话系统200潜在地访问用于选择情绪类型代码240.1b的大量相关数据。例如，如果针对智能手机启动定位服务，则可以使用关于一段时间内用户的地理场所的数据来推断某些用户的地理偏好，例如，是当地体育团队的粉丝、或者喜欢尝试某个区域内的新餐馆等。生成相关数据的使用场景的其它实例包括，但不限于，通过使用智能手机接入互联网以执行话题或者关键字搜索、安排日历日期或者约会、在设备初始化期间设置用户简档等。这种数据可以由对话系统统一利用以访问在与用户110的交互式对话会话期间要赋予语义内容240.1a的适当的情绪类型代码240.1b。鉴于这种使用场景，其对于从实施交互式对话系统的移动通信设备的使用得出至少一个或者甚至多个事实或者简档输入301尤其有利。

图4图示了根据本公开的情绪类型分类框的示例性实施例320.1。在图4中，通过设备120获取的示例性事实或者简档输入301.1包括系统设计者选作为与情绪类型分类任务有关的多个事实或者简档参数402-422。注意，示例性事实或者简档输入301仅仅是为了图示的目的而给出。在备选的示例性实施例中，可以省略事实或者简档输入301的任何单独参数，和/或可以添加在图4中未示出的其它参数。参数402-422不需要描述参数的不相交类，即，由情绪类型分类框320.1使用的单个类型的输入可能同时落入输入402-422的两个以上的类别中。这种备选的示例性实施例被构想为在本公开的范围内。

用户配置402包括用户110直接输入到设备120用于辅助情绪类型分类的信息。在示例性实施例中，在设备120的设置期间，或者通常在设备120的运行期间，可能会要求用户110回答一系列简档问题。例如，可能会查询用户110关于年龄和性别、爱好、兴趣、喜爱的电影、运动、性格特点等。在一些实例中，可以通过询问来自性格简档问卷的问题来推断关于用户的性格特点的信息(例如，外向或者内向、强势或者柔顺等)。可以存储来自用户配置402的信息以供由情绪类型分类框320.1后面用于选择情绪类型代码240.1b。

用户在线活动404包括互联网使用情况统计和/或经由设备120发送至互联网或者其它网络以及从互联网或者其它网络发送的数据的内容。在示例性实施例中，在线活动404可以包括用户搜索查询，例如，经由设备120提交至Web搜索引擎的用户搜索引擎。可以对用户搜索查询的内容、以及其它统计数据(诸如，相似查询的频率和/或定时等)进行记录。在示例性实施例中，在线活动404可以进一步包括频繁访问的网站的身份、邮件消息的内容、社交媒体网站的发帖等。

用户通信406包括通过使用设备120进行文本或者语音通信。这种通信可以包括，例如，经由短消息服务(SMS)发送的文本消息、通过无线网络进行的语音呼叫等。用户通信406还可以包括在本地或者第三方社交媒体网络(例如，通过用户110使用设备120访问的互联网网站)上的消息、或者即时消息发送或者聊天应用等。

用户位置408可以包括可用于设备120的用户位置的记录，例如，经由与一个或者多个蜂窝基站的无线通信、或者基于互联网的位置服务，如果启用这种服务的话。用户位置408可以进一步指定用户的位置上下文，例如，如果用户在家或者在工作、在车里、在拥挤的环境中、在开会等。

日历/日程安排功能/本地日期和时间410可以包括基于用户活动的日程表的与情绪分类有关的时间信息。例如，用户110可以将设备120用作个人日程安排组织器来提出这种信息作为前提。在示例性实施例中，在用户的日历上的时间段是可用还是不可用可以与情绪类型的分类有关。而且，也可以与即将到来的约会(例如，安排好的休假或者重要的商务会议)的性质有关。

日历/日程安排功能/本地日期和时间410可以进一步包含信息，诸如，某个时间是否与用户的工作时间重叠、或者当前日期是否对应周末等。

用户情绪状态412包括与用户的实时情绪状态的确定有关的数据。这种数据可以包括用户对对话系统表达的内容、以及语音参数、生理信号等。可以进一步利用情绪识别技术，通过感测，例如，传送至设备120和从设备120传来的用户语音、面部表情和最近文本消息、如通过设备120上的各种传感器(例如，物理传感器输入420)感测到的包括体温和心率在内的生理信号等来推断用户的情绪。

设备使用情况统计414包括有关用户110如何频繁的使用设备120、用户已经使用了设备120多长时间、为何目的等的信息。在示例性实施例中，可以记录用户在一天内与设备120交互的次数和频率、以及在这些交互期间使用的应用或者访问的网站。

在线信息资源416可以包括如从在线源处获得的与用户的兴趣有关的新闻或者事件。例如，基于用户110是体育团队的粉丝的确定，在线信息资源416可以包括该体育团队最近已经赢得比赛的新闻。备选地，如果用户110被确定为对某种菜肴的类型有偏好，例如，则在线信息资源416可以包括在用户的家附近刚刚开了一家该菜肴的类型的新餐厅的新闻。

数字助理(DA)性格418可以为对话系统指定性格简档，从而使得用户与对话系统的交互更接近地模拟与人类助理的交互。DA性格简档可以指定，例如，DA是外向或者内向、强势或者柔顺、或者DA的性别。例如，DA性格418可以为数字助理指定对应于女性、开朗性格的简档。注意，可以备选地或者与系统性格框255(如上文参照图2描述的)结合地提供该特征。

物理传感器输入420可以包括从设备120上的用于感测设备120的物理参数的传感器得到的信号。例如，物理传感器输入420可以包括来自设备120中的加速度计和/或陀螺仪的感测器信号，例如，以确定用户110当前是在行走还是在车中，等等。用户的当前移动状况的知识可以为辅助生成适当的情绪响应的情绪类型分类框320.1提供信息。物理传感器输入420还可以包括来自设备120上的麦克风或者其它声学记录设备的传感器信号，例如，以基于背景噪声来推断环境的特性，等等。

对话历史422可以包括在用户与数字助理之间的现在的和过去的对话的任何记录。

可以提供事实或者简档输入301.1以及用户对话输入230a，作为情绪类型分类框320.1的情绪类型分类算法450的输入。情绪类型分类算法450可以将由具体的事实或者简档输入301.1和用户对话输入230a指定的多维向量映射至情绪类型代码240.1b的具体输出确定，例如，指定适当的情绪类型和该情绪的对应程度。

图5图示了混合情绪类型分类算法的示例性实施例450.1。注意，图5的仅仅是出于图示的目的被示出，并不表示在将本公开的范围限制于所示出的任何特定类型的算法。

在图5中，情绪类型分类算法450.1包括用于选取用于选择情绪类型时要使用的至少一种算法的算法选择框510。在示例性实施例中，该至少一种算法包括基于规则的算法512和已受训练算法514。基于规则的算法512可以对应于由对话系统的设计者指定的算法，并且通常可以基于设计者所辨别的用于为特定场景、事实、简档、和/或用户对话输入分配给定情绪类型的基本原理。另一方面，已受训练算法514可以对应于其参数和功能映射是从较大的训练数据集合(例如，离线)得到的算法。应当理解的是，相较于基于规则的算法512，在已受训练算法514中的输入与输出之间的相互关系对于系统设计者而言可能不太透明，并且，在从算法训练中确定的变量中，已受训练算法514通常可以获得更复杂的相互依赖性。

从图5可见，基于规则的算法512和已受训练算法514可以接受事实或者简档输入301.1和用户对话输入230a作为输入。在任何实例中，算法选择框510可以选择算法512或者514中适当的一个以用于选择情绪类型代码240.1b。例如，响应于与一组预定的值对应的事实或者简档输入301.1和/或用户对话输入230a，选择框510可以选择实施特定的基于规则的算法512，而非已受训练算法514，反之亦然。在示例性实施例中，在某些情况下，基于规则的算法512在某些情况下相对于已受训练算法514可能更优选，例如，如果在某些实例中它们基于根本原理的设计可能会引起更准确的情绪类型分类。在某些场景中，基于规则的算法512也可能会是优选的，其中例如，不存在足够的训练数据来设计某种类型的已受训练算法514。在示例性实施例中，当针对设计者其是相对简单地基于一组特定的输入得到期望的响应时，可以选择基于规则的算法512。

图6图示了基于规则的算法的示例性实施例600。注意，图6的仅仅是出于图示的目的被示出，并不旨在将本公开的范围限制于基于规则的算法，限制于基于规则的算法的任何特定实施方式，或者限制于示出的事实或者简档输入301.1或者情绪类型240b的任何特定格式或者内容。

在图6中，在判定框610中，确定用户情绪状态412是否为“快乐”。如果为否，则该算法进入框612，其将情绪类型代码240b设置为“中性”。如果为是，则该算法进入判定框620。

在判定框620中，进一步确定用户配置402的性格参数402.1是否为“外向”。如果为否，则该算法进入框622，其将情绪类型代码240b设置为“感兴趣(1)”，用程度1来表示“感兴趣”的情绪类型。如果为是，则该算法进入框630，其将情绪类型代码240b设置为“快乐(3)”。

应当理解的是，在外向的用户更会投入到展示出更乐观的或者“更快乐”的情绪类型的对话系统的假设下，基于规则的算法600基于用户性格选择性地设置情绪类型代码240b。在当前快乐的用户会更积极地响应具有快乐的情绪类型的系统的假设下，基于规则的算法600进一步基于当前的用户情绪状态来设置情绪类型代码240b。在备选的示例性实施例中，可以容易地设计出本文中未明确描述的其它基于规则的算法，以将情绪类型代码240b与事实或者简档输入301.1的其它参数和值相关联。

如算法600所图示的，情绪类型代码240b的确定并非总是需要利用事实或者简档输入301.1和用户对话输入230a中的所有可用参数。具体地，算法600仅仅利用用户情绪状态412和用户配置402。利用可用参数的任何子集的算法的这种示例性实施例、以及利用本文未明确描述的参数的算法的备选的示例性实施例被构想为在本公开的范围内。

图7图示了基于规则的算法的备选的示例性实施例700。在图7中，在判定框710中，确定用户对话输入230a是否与用户针对更新的新闻的查询相对应。如果为是，则该算法进入判定框720。

在判定框720中，确定用户情绪状态412是否为“快乐”，并且进一步确定在线信息资源416是否指示用户喜爱的体育团队刚刚赢得了比赛。在示例性实施例中，可以从事实或者简档输入301.1(例如，从用户配置402、用户在线活动404、日历/安排功能410等)的其它参数得到用户喜爱的体育团队。如果判定框720的输出为“是”，则该算法进入框730，其中将情绪类型代码240b设置为“激动(3)”。

除了用于选择情绪类型代码240b的基于规则的算法之外，情绪类型分类算法450.1可以可备选地或者结合利用已受训练算法。图8图示了用于得到用于选择情绪类型的已受训练算法的训练方案的示例性实施例800。注意，图8仅仅是出于图示的目的被示出，并不旨在将本公开的范围限制于用于训练用于选择情绪类型的算法的任何特定技术。

在图8中，在训练阶段801期间，向算法训练框810提供输入，该输入包括一系列或者多个参考事实或者简档输入301.1*、对应的一系列参考先前用户输入230a*、和对应的一系列参考情绪类型代码240.1b*。注意，在本文中，用大括号括起来的参数x({x})表示多个或者一系列对象x。具体地，每个参考事实或者简档输入301.1*与事实或者简档输入301.1的设置的具体组合对应。

例如，一个示例性参考事实或者简档输入301.1*可以指定用户配置402包括“外向”的性格类型，指定用户在线活动404包括针对短语“海鹰队”的在线搜索的多个实例，指定用户位置408与作为所在城市的“西雅图”对应，等等。与该参考事实或者简档输入301.1*对应，参考用户对话输入230a*可以包括关于最新体育新闻的用户查询。在备选的实例中，与该参考事实或者简档输入301.1*对应的参考用户对话输入230a*可以是NULL字符串，指示不存在先前的用户输入。基于参考事实或者简档输入301.1*和对应的参考用户对话输入230a*的该示例性组合，在训练阶段801期间，可以将参考情绪类型代码240.1b*指定给算法训练框810。

在示例性实施例中，可以通过人类注释器或者判断器来提供针对参考事实或者简档输入301.1*和用户对话输入230a*的特定设置的适当的参考情绪类型代码240.1b*。在训练阶段801期间，可以向这些人类注释器呈现参考事实或者简档输入和参考用户输入的单独的组合，并且可以利用响应于该情况的合适的情绪类型来对各个组合进行注释。可以通过使用许多人类注释器和参考事实或者简档输入和先前的用户输入的许多组合来重复该过程，从而使得大量的训练数据可用于算法训练框810。基于训练数据和参考情绪类型注释，可以为已受训练算法得到一组最佳的已受训练算法参数810a，该已受训练算法最准确地将参考输入的给定组合映射至参考输出。

在示例性实施例中，人类注释器可以控制与数字助理的性格的对应特性相似或者相同的某些特性。例如，人类注释器可以具有与例如由系统性格255和/或数字助理性格418指定的数字助理的配置特性相同的性别或者性格类型。

算法训练框810配置为，响应于参考事实或者简档输入301.1*、用户对话输入230a*、和参考情绪类型代码240.1b*的多个提供的实例，得到一组算法参数，例如，权重、结构、系数等，其最佳地将输入的各个组合映射至提供的参考情绪类型。在示例性实施例中，可以通过机器学习(例如，监督学习)来利用技术，这些技术最佳地得到将输入映射至输出的普遍规则。因此，算法训练框810生成一组最佳的已受训练算法参数810a，将该组参数提供给已受训练算法框514的示例性实施例514.1。诸如图5所示的。具体地，框514.1根据已受训练算法参数810a在实时运算802期间选择情绪类型240.1b。

下文进一步提供了本公开的技术的示例性应用的图示性说明。注意，该示例仅仅是出于图示的目的被给出，不表示将本公开的范围限制于任何具体集合或者类型的事实或者简档输入、系统响应、或者场景。

Mark是个足球迷。他一直关注有关全国足球联赛(NFL)的新闻。作为西雅图的居民，他喜爱的团队是西雅图海鹰队。每个周日Mark都会使用其智能手机在线观看足球比赛，并且通过在线聊天应用与朋友讨论球员和团队。他还在社交媒体应用上分享他的活动和兴趣。几个月之前，当海鹰队在加时赛中打赢旧金山淘金者时，他非常激动并且在他的社交媒体简档页面上广泛地讨论这场胜利。

在给定的周一，在周一足球之夜这档节目中，海鹰队在旧金山对战旧金山淘金者。遗憾的是，Mark与客户进餐并且错过了这场比赛。这次晚餐对于Mark是一场重要的会议，因为他即将完成一宗商业交易。事实证明，该会议非常顺利，客户接受了Mark的提议。晚餐之后，在Mark开车回家的路上，他在智能手机上启动交互式对话系统(或者数字助理DA)进行实时语音对话。

Mark：“嘿，晚餐很棒！我达成了交易。我想Don(Mark的老板)会喜欢的。”

数字助理(采用乐观的音调)：“太好了！听起来不错。”(DA响应1)

Mark：“好啦，海鹰队情况怎么样？告诉我吧！”

数字助理(采用激动的音调)：“你猜怎么着，你的海鹰队赢了。他们以30比25战胜了旧金山淘金者队。Russell Wilson在第四节传出两个触地球。”(DA响应2)

Mark：“哇，太棒了。很遗憾我错过了这场比赛。我相信今年他们会再次进入季后赛！”

数字助理(继续以激动的语调，稍微更柔和)：“是的！在季后赛期间我应该锁定你的日历。我想你不会想要错过！”(DA响应3)

上述示例说明了本公开的技术的多个方面。具体地，交互式对话系统知道Mark是个足球迷，并且是海鹰队的球迷。其从，例如，Mark在其数字助理上配置的显式设置获得该信息，该信息指示Mark想要追踪足球新闻以及他喜爱的团队是海鹰队。DA还从在线信息源知晓海鹰队在该晚与其对手球队(旧金山淘金者队)比赛并且知晓海鹰队成功实现逆转战胜了他们。这使DA在向Mark汇报海鹰队的新闻时能够选择与激动语调(DA响应2)对应的情绪类型。而且，基于Mark的偏好及其先前的输入的知识，DA在建议在其日历上为Mark锁定时间时选择激动的语调(DA响应3)。

对话系统进一步具有关于Mark的性格的信息，如从例如Mark对其智能手机的使用方式(例如，使用频率、使用时间等)、Mark在设置其智能手机期间指示的个人兴趣和爱好、以及对其社交媒体网络的状态更新得到的。在该示例中，对话系统可以基于机器学习算法确定Mark是个性格外向和认真的人，该机器学习算法设计为处理通过Mark对其手机的使用方式生成的大量统计数据来推断Mark的性格。

从Mark在两个月之前启动DA系统并且之后一直定期地、越来越频繁地使用DA这一事实推得到另外的信息。在上一周，Mark每天平均与DA交互五次。在示例性实施例中，某些情绪类型分类算法可以由于这种交互频率推断在Mark与DA之间不断增加的亲密度。

DA进一步从Mark的语音确定Mark的当前情绪状态为快乐。从他对设备上的日历/日程安排功能的使用，DA知道它是在工作时间之后，并且知道Mark刚刚结束了与客户的会议。在该交互期间，DA标识Mark在车中，例如，通过与车辆的电子设备建立无线蓝牙连接、通过加速度计确定的在行走间隔之后出现的静止的间隔、较低的车内背景噪声水平、测得的移动速度等。此外，从过去的数据，诸如，与当日时间统计数据匹配的位置数据历史等，猜测Mark晚餐后正开车回家。因此，诸如参照图4中的框450.1描述的分类算法，DA选择与乐观音调对应的情绪类型(DA响应1)。

图9图示了根据本公开的方法900的示例性实施例。注意，图9仅仅是出于图示的目的被示出，并不旨在将本公开的范围限制于所示出的任何特定的方法。

在图9中，在框910中，该方法包括基于至少一个事实或者简档输入来选择与输出语句相关联的情绪类型代码，该情绪类型代码指定多个预定的情绪类型中的一个预定的情绪类型。

在框920中，该方法包括生成对应于输出语句的语音，该语音被生成为具有由情绪类型代码指定的预定的情绪类型。在示例性实施例中，该至少一个事实或者简档输入是从对实施交互式对话系统的移动通信设备的使用得到的。

图10示意性地示出了可以在上述方法和过程中的一个或者多个上执行的非限制性计算系统1000。以简化的方式示出了计算系统1000。要理解，应当理解，在不脱离本公开的范围的情况下，可以使用事实上任何计算机架构。在不同实施例中，计算系统1000可以采用大型计算机、服务器计算机、云计算系统、桌面计算机、膝上型计算机、平板计算机、家庭娱乐计算机、网络计算设备、移动计算设备、移动通信设备、智能手机、游戏设备等的形式。

计算系统1000包括处理器1010和存储器1020。计算系统1000可以可选地包括显示子系统、通信子系统、传感器子系统、相机子系统、和/或在图10中未示出的其它部件。计算系统1000还可以可选地包括用户输入设备，诸如，键盘、鼠标、游戏控制器、相机、麦克风、和/或触摸屏。

处理器1010可以包括配置为执行一个或者多个指令的一个或者多个物理设备。例如，处理器可以配置为执行作为一个或者多个应用、服务、程序、例程、库、对象、组件、数据结构、或者其它逻辑结构的一部分的一个或者多个指令。可以实施这种指令以执行任务、实施数据类型、转换一个或者多个设备的状态、或者达到期望的结果。

处理器可以包括配置为执行软件指令的一个或者多个处理器。附加地或者备选地，处理器可以包括配置为执行硬件或者固件指令的一个或者多个硬件或者固件逻辑机。处理器的处理器可以是单核或者多核，并且在处理器上执行的程序可以配置为进行并行处理或者分布式处理。处理器可以可选地包括分布在两个以上设备上的单独的部件，这些设备可以设置得较远和/或配置为进行协调处理。可以通过远程可访问的配置在云计算配置中的联网计算设备来虚拟化和执行处理器的一个或者多个方面。

存储器1020可以包括配置为保存可由处理器执行以实施本文描述的方法和过程的数据和/或指令的一个或者多个物理设备。当实施这种方法和过程时，可以转变存储器1020的状态(例如，保存不同的数据)。

存储器1020可以包括可移除介质和/或内置设备。存储器1020可以包括光学存储器设备(例如，CD、DVD、HD-DVD、Blu-Ray Disc等)、半导体存储器设备(例如，RAM、EPROM、EEPROM等)、和/或磁性存储器设备(例如，硬盘驱动器、软盘驱动器、磁带驱动器、MRAM等)等等。存储器1020可以包括具有一个或者多个如下特性的设备：易失性的、非易失性的、动态的、静态的、读/写、只读、随机存取、顺序存取、位置可寻址、文件可寻址、和内容可寻址。在一些实施例中，处理器1010和存储器1020可以集成到一个或者多个公共设备中，诸如，专用集成电路或者片上系统。

存储器1020也可以采用可移除计算机可读存储介质的形式，该可移除计算机可读存储介质可用于存储和/或传送可执行数据和/或指令以实施本文描述的方法和过程。存储器1020可以采用CD、DVD、HD-DVD、Blu-Ray Discs、EEPROM、和/或软盘等的形式。

应当理解，存储器1020包括存储信息的一个或者多个物理设备。术语“模块”、“程序”和“引擎”可以用于描述被实施为执行一种或者多种特定功能的计算系统1000的一个方面。在一些情况下，可以经由执行由存储器1020保存的指令的处理器1010来实例化这种模块、程序或者引擎。应当理解，可以从相同的应用、服务、代码块、对象、库、例程、API、功能等来实例化不同的模块、程序和/或引擎。同样，可以通过不同的应用、服务、代码块、对象、例程、API、功能等来实例化相同的模块、程序和/或引擎。术语“模块”、“程序”和“引擎”旨在囊括单独的或者成组的可执行文件、数据文件、库、驱动器、脚本、数据库记录等。

在一个方面中，计算系统1000可以对应于包括存储器1020的计算设备，该存储器1020保持可由处理器1010执行的指令以基于至少一个事实或者简档输入、与输出语句相关联的情绪类型代码来选择指定多个预定的情绪类型中的一个预定的情绪类型的情绪类型代码。指令可进一步由处理器1010执行以生成与输出语句对应的语音，该语音被生成为具有由情绪类型代码指定的预定的情绪类型。在示例性实施例中，该至少一个事实或者简档输入是从对实施交互式对话系统的移动通信设备的使用得到的。注意，应该将这种计算设备理解为与过程、机器、制造、或者物质的组成相对应。

图11图示了根据本公开的设备1100的示例性实施例。注意，设备1100仅仅是出于图示的目的被示出，并不表示将本公开的范围限制于所示出的任何特定的设备。

在图11中，分类框1120配置为基于至少一个事实或者简档输入1120b，选择与输出语句110a相关联的情绪类型代码120a。情绪类型代码1120a指定多个预定的情绪类型中的一个。文本转语音框1130被配置为生成对应于输出语句1110a和由情绪类型代码1120a指定的预定的情绪类型的语音1130a。在示例性实施例中，该至少一个事实或者简档输入1120b是从实施交互式对话系统的移动通信设备的使用得到的。

注意，不需要将本公开的技术限制于包含移动通信设备的实施例。在备选的示例性实施例中，本技术也可以包含在非移动设备中，例如，桌面计算机、家庭游戏系统等。而且，不需要将包含本技术的移动通信设备局限于智能手机，并且其还可以包括可穿戴设备，诸如，计算机化腕表、眼镜等。这种备选的示例性实施例被构想为在本公开的范围内。

图12图示了示例性实施例1200，其中，本公开的技术包含在具有向显示的文本赋予了情绪内容而不是听见的语音或者除了可听见的语音之外的对话系统。注意，图12中示出的框与图2中的相似标记的框对应，并且，为了便于图示，从图12中省略了图2中示出的某些框。

在图12中，将语言生成框250的输出250a与对话引擎240生成的情绪类型代码240b组合，并且输入至文本转语音和/或用于显示的文本的框1260。在文本转语音方面中，框1260利用语义内容240a和情绪类型代码240b生成语音。在用于显示的文本方面中，框1260可替代地或者进一步利用语义内容240a和情绪类型代码240b生成用于显示的文本。应当理解，情绪类型代码240b可以通过使用如下技术向显示的文本赋予情绪：例如，调节显示的文本字符的大小或者字体、提供与情绪类型代码240b对应的情绪符(例如，笑脸或者其它图片)等。在示例性实施例中，框1260可替代地或者进一步生成基于情绪的动画、或者对表示DA或者显示器上的用户的一个或者多个化身的图形修改。例如，如果情绪类型代码240b与“伤心”对应，则可以利用预先配置的“伤心”面部表情来生成预先选择的表示DA的化身，或者进行动画处理以通过运动(例如，哭泣动作)来表达伤心。这种备选的示例性实施例被构想为在本公开的范围内。

在本说明书和权利要求书中，应当理解，当提及元件“连接至”或者“耦合至”另一元件时，该元件可以直接连接或者耦合至该另一元件，也可以存在中间元件。相反，当提及元件“直接连接至”或者“直接耦合至”另一元件时，不存在中间元件。而且，当提及元件“电耦合至”另一元件时，表示在这种元件之间存在低电阻路径，而当仅提及元件“耦合至”另一元件时，在这种元件之间可能存在也可能不存在低电阻路径。

可以至少部分地通过一个或者多个硬件和/或软件逻辑部件来执行本文描述的功能。例如，并且没有限制的情况下，可以使用的硬件逻辑部件的说明性类型包括现场可编程门阵列(FPGA)、专用集成电路(ASIC)、程序专用标准产品(ASSP)、片上系统系统(SOC)、复杂可编程逻辑设备(CPLD)等。

虽然本发明易受各种修改和替代结构的影响，在附图中示出了本发明的某些图示的实施例，并且已经在上面详细描述了这些实施例。然而，应该理解，并不意图将本发明限制于所公开的具体形式，相反，旨在涵盖落入本发明的精神和范围内的所有修改、替代结构和等效物。

Claims

1.一种用于交互式对话系统的装置，所述装置包括：

分类框，被配置为基于至少一个事实或简档输入来选择与输出语句相关联的情绪类型代码，所述情绪类型代码指定多个预定的情绪类型中的一个预定的情绪类型；以及

文本转语音框，被配置为生成对应于所述输出语句的语音，所述语音被生成以具有由所述情绪类型代码指定的所述预定的情绪类型；

其中所述至少一个事实或简档输入是从实施所述交互式对话系统的移动通信设备的使用得到的。

2.根据权利要求1所述的装置，所述移动通信设备被配置为提供语音呼叫和互联网接入服务，所述装置进一步包括被配置为以自然语言生成所述输出语句的语言生成框，所述输出语句具有预定的语义内容和与所述情绪类型代码相关联的指定的预定的情绪类型。

3.根据权利要求1所述的装置，所述至少一个事实或简档输入包括由所述用户配置的至少一个用户配置参数，所述至少一个用户配置参数包括爱好、兴趣、性格特点、喜爱的电影、喜爱的运动、和喜爱的菜肴的类型中的至少一个。

4.根据权利要求1所述的装置，所述至少一个事实或简档输入还包括从使用所述装置的用户在线活动得到的至少一个参数，从用户在线活动得到的所述至少一个参数包括互联网搜索查询、接入的互联网网站、邮件消息的内容、和到在线社交媒体网站的发布中的至少一个。

5.根据权利要求1所述的装置，所述至少一个事实或简档输入还包括用户位置、用户文本或者语音通信的内容、和所述用户使用所述装置的日历安排功能安排的至少一个事件中的至少一个。

6.根据权利要求1所述的装置，所述至少一个事实或简档输入还包括当前用户情绪状态、设备使用统计、在线信息资源、和数字助理性格中的至少一个。

7.据权利要求1所述的装置，所述分类框被配置为使用包括在多个参考事实或者简档输入与对应的多个参考情绪类型之间的至少一个功能映射的算法来选择所述情绪类型代码，所述至少一个功能映射是从机器学习技术得到的。

8.一种计算设备，所述计算设备包括处理器和保持指令的存储器，当所述指令由所述处理器可执行时：

基于至少一个事实或者简档输入来选择与输出语句相关联的情绪类型代码，所述情绪类型代码指定多个预定的情绪类型中的一个预定的情绪类型；以及

生成对应于所述输出语句的语音，所述语音被生成以具有由所述情绪类型代码指定的所述预定的情绪类型；

其中所述至少一个事实或者简档输入是从实施交互式对话系统的移动通信设备的使用得到的。

9.一种方法，所述方法包括：

10.根据权利要求9所述的方法，所述至少一个事实或者简档输入包括用户位置、由所述用户配置的用户配置参数、用户在线活动、用户位置、用户文本或者语音通信的内容、和由所述用户使用日历安排功能安排的至少一个事件中的至少一个。