CN105723360A

CN105723360A - 利用情感调节改进自然语言交互

Info

Publication number: CN105723360A
Application number: CN201380079143.XA
Authority: CN
Inventors: W·德利厄夫
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2013-09-25
Filing date: 2013-09-25
Publication date: 2016-06-29
Also published as: EP3049961A4; US9761249B2; WO2015047248A1; EP3049961A1; US20160210985A1

Abstract

用于自然语言响应的情感调节的技术包括计算设备，其从用户接收自然语言请求。该计算设备识别该请求的情感特征并且通过比较该情感特征与声音模式数据库来估计该请求的情感状态。该计算设备生成自然语言响应并且基于该请求的情感状态和该声音模式数据库调节该自然语言响应的情感内容。该计算设备可调节该自然语言响应以模仿该请求的情感状态或与该请求的情感状态相反。可能的情感状态包括紧迫性、确定性和优势性。可能的情感特征包括该用户请求的声音的、韵律的和语言学特性。该计算设备可基于该用户请求更新该声音模式数据库以适应该用户。其他实施例被描述和被主张。

Description

利用情感调节改进自然语言交互

背景技术

人类理解大量的语言和非语言的线索，其在人类交流期间传递信息。特别地，多个线索能够传递语句的情感内容至人类听者，诸如声调，幅度和语速。线索还能够在人类间传递社会信息，包括指示交谈中说话者的占优势或非占优势状态。在多个环境中，人倾向于模仿他人所传达的线索。例如，与他人交谈的人可生成线索，模仿交谈中另一个人传递的情感状态。作为另一示例，人可生成线索以增强由另一个人传递的优势性状态(例如，在交谈中生成非占优势的线索，其中另一个人在该交谈中已传递优势性)。传递情感和社会线索可允许人类增加交流的清晰性并降低潜在冲突。

增加数量的计算机系统支持口头自然语言交互。例如，虚拟个人助理是流行的人工智能系统，其响应于来自用户的自然语言请求在计算设备上执行任务。这类任务通常包括管理日历项，联系人和信息搜索。其他典型自然语言应用包括自动电话答录和求助线路系统以及听写系统。支持自然语言交互的典型系统不响应用户请求中呈现的情感或社会线索。

附图说明

本文描述的概念作为示例并且不作为附图中限制来说明。为说明的简单性和清晰性起见，图示于附图的元素不一定按比例绘制。在考虑合适情况下，参考标签已在附图之间重复，以指示对应或类似元素。

图1为用于情感式调节自然语言交互的计算设备的至少一个实施例的简化框图；

图2为图1计算设备的环境的至少一个实施例的简化框图；

图3为可由图1和2的计算设备运行的用于处理口头自然语言请求的方法的至少一个实施例的简化流程图；

图4为图示情感特征和权重因子的表格，其可用于识别情感；以及

图5为用于训练图1和2的计算设备用于识别用户请求中的情感的方法的至少一个实施例的简化流程图。

具体实施方式

尽管本公开的概念易受多种修改和可选的形式，其具体实施例已通过附图中的示例示出并将在本文详细地描述。然而，应当理解，不存在限制本公开的概念至公开的特定形式的意图，但是相反，意图是要覆盖与本公开和所附权利要求一致的所有修改、等同和备选方案。

说明书中的“一个实施例”、“实施例”，“说明性的实施例”，等的提及指示描述的实施例可包括特定特征、结构或特性，但每个实施例可包括或可能不一定包括该特定特征、结构或特性。此外，该词语不一定指的是相同的实施例。此外，当特定特征、结构或特性结合实施例描述时，应当认为，无论是否明确描述而结合其他实施例实现该特征、结构或特性处于本领域技术人员的知识以内。另外，应当理解，以“至少一个A、B和C”的形式包括于列表的项能够表示：(A)；(B)；(C)；(A和B)；(A和C)；(B和C)；或(A，B和C)。类似地，以“A、B或C的至少一个”的形式列出的项能够表示：(A)；(B)；(C)；(A和B)；(A和C)；(B和C)；或(A，B和C)。

在某些情况下，公开的实施例可实现于硬件、固件、软件或任何其组合。公开实施例还可实现为由暂存或非暂存机器可读(例如，计算机可读)存储介质来承载或存储的指令，其可被一个或多个处理器读取和运行。机器可读存储介质可实施为任何存储设备、机构或其他物理结构，用于以机器可读形式存储或传输信息(例如，易失性或非易失性存储器、媒体盘或其他媒体设备)。

在附图，一些结构或方法特征可以特定布置和/或顺序示出。然而，应当理解，可能不需要这类特定布置和/或顺序。相反，在某些实施例中，这类特征可以与说明性的附图所示出的不同方式和/或顺序来布置。另外，特定附图中所包含的结构或方法特征并非意图暗示这种特征在所有实施例中都需要，且在某些实施例，可不包括其他特征或可与其他特征组合。

现参考图1，示出了用于情感式调节与用户的自然语言交互的说明性的计算设备100。在使用中，计算设备100的用户对计算设备100说自然语言用户请求。计算设备100分析用户请求以识别呈现于用户请求的任何情感。识别的情感可包括紧迫性、确定性、优势性的等级或用户表达的其他情感。基于用户请求的情感，计算设备100调节自然语言响应以呈现合适的情感。调节的响应的情感可模仿用户请求的情感、与用户请求的情感相反或传递关于响应的附加的信息。计算设备100还可基于所识别的情感来寻找澄清或以其他方式修改自然语言响应的内容。通过以合适的情感线索响应，计算设备100实现更接近近似人的交互的自然语言交互。更好的自然语言交互可增加用户的效率和兴趣，并可降低由用户感觉的挫败感。因此，改进的自然语言交互可增加虚拟个人助理的可用性。

计算设备100可实施为能够执行本文描述的功能的任何类型的设备。例如，计算设备100可实施为，但不限制于，智能电话、蜂窝电话、平板计算机、笔记本计算机、膝上型计算机、桌面计算机、服务器计算机、分布式计算系统、多处理器系统、消费电子设备、智能电器和/或能够识别口头用户命令的其他任何计算设备。如图1所示，说明性的计算设备100包括处理器120、I/O子系统122、存储器124和数据存储设备126。当然，在其它实施例中，计算设备100可包括其他或附加的组件，诸如通常发现于桌面计算机的组件(例如，多种输入/输出设备)。另外，在某些实施例中，一个或多个说明性的组件可结合在或以其他方式形成另一组件的一部分。例如，存储器124或其部分，在某些实施例可结合在处理器120。

处理器120可实施为能够执行本文描述的功能的任何类型的处理器。例如，处理器可实施为单核或多核处理器、数字信号处理器、微控制器或其他处理器或处理/控制电路。类似地，存储器124可实施为能够执行本文描述的功能的任何类型的易失性或非易失性存储器或数据存储。在操作中，存储器124可存储在计算设备100的操作期间使用的多种数据和软件，诸如操作系统、应用、程序、库和驱动器。存储器124经由I/O子系统122通信地耦合于处理器120，I/O子系统122可实施为电路和/或组件，以便于与计算设备100的处理器120、存储器124以及其他组件的输入/输出操作。例如，I/O子系统122可实施为或以其他方式包括，存储器控制器中枢、输入/输出控制中枢、固件设备、通信链路(即，点对点链路、总线链路、电线、电缆、光导、印刷电路板迹线，等)和/或其他组件和子系统，以便于输入/输出操作。在某些实施例，I/O子系统122可形成片上系统(SoC)的一部分并且连同计算设备100的处理器120、存储器124以及其他组件结合在单个集成电路芯片。

数据存储设备126可实施为任何类型的设备，配置用于短期或长期数据存储，诸如，例如存储器设备和电路、存储器卡、硬盘驱动、固态驱动或其他数据存储设备。数据存储设备126可存储对应于用户请求的音频数据，以及数据库，其包含那些请求的所识别的特征的信息。

计算设备100进一步包括显示器128、通信电路130、扬声器132和音频传感器134。计算设备100的显示器128可实施为能够显示数字信息的任何类型的显示器，诸如液晶显示器(LCD)、发光二极管(LED)、等离子显示器、阴极射线管(CRT)或其他类型的显示器设备。在某些实施例中，显示器128可耦合于触摸屏幕以接收用户输入。

计算设备100的通信电路130可实施为任何通信电路、设备或其集合，能够实现计算设备100和/或其他远程设备之间的通信。通信电路130可配置成使用任一个或多个通信技术(例如，无线或有线通信)和相关协议(例如，以太网，WiMAX，等)以进行该通信。

扬声器132可实施为能够生成音频信号以输出的任何设备，诸如纸盆扬声器、音频换能器、直插输出插孔(lineoutjack)、数字模拟转换器(DAC)或其他类型的音频设备。在一些实施例中，计算设备100可传输音频数据或更高级的音频数据的表示，用于利用通信电路130由远程计算设备回放。在那些实施例中，计算设备100可不包括扬声器132。

音频传感器134可实施为能够捕获音频信号的任何传感器，诸如麦克风、直插输入插孔(lineoutjack)和相关电路、模拟数字转换器(ADC)或其他类型的音频传感器。音频传感器134可由计算设备100使用以检测由用户来说出的用户请求，如下文所述。在一些实施例中，计算设备100可利用通信电路130从远程计算设备接收表示用户请求的音频数据。在那些实施例中，计算设备100可不包括音频传感器134。

此外，尽管图1图示和如下描述实施为单个设备，计算设备100可实施为单个计算设备或服务器和相关设备的集合。例如，在一些实施例中，计算设备100可实施为形成自分布于网络中的多个计算设备的“虚拟服务器”，并且操作于公共或私有云。因此，应当理解，计算设备100可实施为协同操作的多个设备，以便于如下描述的功能。

现参考图2，在说明性的实施例中，计算设备100在操作期间建立环境200。说明性的环境200包括请求分析模块202、情感识别模块208、响应生成模块210和输出模块212。在一些实施例中，环境200可进一步包括训练模块214。环境200的多种模块可实施为硬件、固件、软件或其组合。

请求分析模块202配置成接收用户请求并识别用户请求的情感特征。情感特征可包括用户请求的任何特征，其可由计算设备100使用，以估计关联于用户请求的用户的情感状态。情感特征可包括基于用户请求的音频信号(例如，频率，幅度，音色，等)的音频特征，以及基于用户请求的口头内容(例如，发音速度，消息长度，单词选择，等)的语言学特征。在一些实施例中，那些功能可由子模块执行，例如通过音频分析模块204和/或语音识别模块206。另外地或备选地，在一些实施例中，请求分析模块202可基于识别的特征来更新声音模式数据库216，其可使计算设备100适应特定用户的声音模式。

情感识别模块208配置成估计呈现于用户请求的一个或多个情感状态。为执行估计，情感识别模块208可比较所识别的用户请求的特征与存储于声音模式数据库216的基线特征。如下文所述，情感识别模块208可基于识别的特征执行用于识别情感的任何合适的技术。

响应生成模块210配置成基于用户请求生成自然语言响应。响应生成模块210可实施为计算设备100的一个或多个用户应用或与其交互。例如，响应生成模块210可实施为虚拟个人助理，并能够生成适用于该功能的自然语言响应。除基于用户请求内容和/或该请求的应用处理结果生成自然语言响应外，响应生成模块210还可基于识别在用户请求中识别的情感而生成自然语言请求。例如，响应生成模块210可基于在用户请求中检测的不确定性而生成一个或多个澄清问题。作为另一示例，响应生成模块210可基于在用户请求中检测的缺少紧迫性，生成请求以延迟处理用户请求。

输出模块212配置成基于识别的用户请求的情感而调节自然语言响应。输出模块212当确定如何调节自然语言响应时可从多个情感调节策略218选择。例如，输出模块212可调节自然语言响应以模仿检测于用户响应的情感或与检测于响应的情感相反。输出模块212还可通过调节自然语言响应传递信息，诸如估计的确定性。输出模块212利用声音模式数据库216调节自然语言响应，以便以类似于用户的方式呈现情感。

在一些实施例中，训练模块214配置成利用识别于大量样本请求的特征更新声音模式数据库216。样本请求可通过提示用户以中性方式和情感方式来读取多个脚本化响应来生成。例如，训练模块214可提示用户以声音的“紧急”语调读取请求。样本请求还可检索自一组预记录用户请求，其根据情感内容来分类。在一些实施例中，训练模块214可结合于请求分析模块202中。

如上述，声音模式数据库216配置成存储用户请求的特征，其已由计算设备100识别。声音模式数据库216由情感识别模块208使用以识别和分类用户请求中的情感，并通过输出模块212调节自然语言响应。尽管图示为驻留于计算设备100，在一些实施例中声音模式数据库216的部分或全部可存储于外部数据库服务器或云服务中。在这类实施例中，声音模式数据库216可在多个计算设备之间共享。

现参考图3，在使用中，计算设备100可运行方法300，用于处理口头自然语言请求。方法300开始于框302，其中计算设备100确定用户请求是否被接收。用户请求表示由计算设备100的用户说出的自然语言请求。用户请求可由音频传感器134在用户直接对计算设备100说出请求时捕获。另外地或备选地，当服务器从移动计算设备接收请求时，用户请求可由计算设备100从远程计算设备接收。用户请求可存储为数字音频文件或以其他任何格式可使用用于如下文所述的进一步分析和操作，包括压缩和解压缩格式。如果没有用户请求被接收，方法300循环回到框302，继续监测用户请求。如果用户请求已被接收，方法300前进到框304。

在框304中，计算设备100识别并隔离用户请求的情感特征。情感特征包括用户请求的任何特征，其可由计算设备100使用，以估计关联于用户请求的用户的情感状态。潜在情感特征和自动情感检测技术的多个示例由MoatazElAyadi等的SurveyonSpeechEmotionRecognition：Features，ClassificationSchemes，andDatabases，44PatternRecognition、CairongZou等的DetectingPracticalSpeechEmotioninaCognitiveTask，20Proc.Int’lConf.onComputerComm.&Networks(ICCCN)1(2011).。例如，特征可包括用户请求的听觉特性，诸如频率、幅度、音色、信号功率谱或音频信号的其他任何特性。作为另一示例，特征可包括说话的韵律特性，包括发音语速、音调和不流利的出现(例如，暂停和填充词诸如“嗯”)或特定单词中的重读音节或音素。作为又一示例，特征可包括说话的语言学特性，包括单词选择。在一些实施例中，单词选择可利用单词/词语情感计分系统记分。当然，识别语言学特征可需要计算设备100通过执行语音识别而生成用户请求的文本表示。识别特征还可包括统计测量或其他计算特征，诸如平均值、峰值或方差。

现参考图4，表格400图示了特征的样本集合，其可识别于用户请求。说明性的特征包括声调(即，用户语句的基本频率)、幅度、速率(即，音节或单词的速率)、不流利性(例如，用户请求中不流利性的出现或比率)、速率变化、消息长度、音调(例如，在用户请求的结束的声调上升)，以及单词选择。如下文所述，那些征可关联于一个或多个人类情感并且因此可用于识别和分类出现在用户请求的情感。当然，那些特征仅为说明性的，而在其它实施例中，任何数量的合适的特征可被使用。

参考回到图3，在识别情感特征之后，在框306中，在一些实施例中，计算设备100可利用识别的特征更新声音模式数据库216。计算设备100可在声音模式数据库216存储识别的特征并更新相关统计测量，诸如平均值和方差。更新声音模式数据库216使计算设备100学习和适应由用户提供的特定情感线索。例如，通过包括来自相同用户的多个用户请求的识别的特征，声音模式数据库216中特征的平均值可接近特定用户的典型基线值。因此，计算设备100的情感识别可通过使用来改进。

在框308中，计算设备100基于识别的特征和声音模式数据库216来估计用户请求的一个或多个情感状态。为估计情感状态，计算设备100比较识别的特征与存储于声音模式数据库216的基线特征。基线特征可基于如上述机器学习，如以下结合图5描述的训练数据或两者的任何组合。计算设备100基于每个特征和基线特征之间的相对差值，以及特定特征对情感的重要性来估计特定情感。例如，在一些实施例中，计算设备100可生成特征向量，描述识别于用户请求的所有特征。计算设备100可将包括于权重向量的权重因子与每个特征值相乘。得到的乘积之和可用作评定特定情感是否出现在用户请求的记分或指数。不同的权重向量可用于每个可识别的情感。每个权重向量可由确定该因素生成，其最准确地从大量样本请求集合识别特定情感，诸如训练数据或声音模式数据库216。任何合适的数学技术可用于生成权重向量，诸如隐藏马尔科夫模型、高斯混合模型或人工神经网络。计算设备100可分析用户请求的任何数量的情感，并且一个以上的情感可出现在特定用户请求中。

计算设备100可估计任何数量和类型的情感状态，其可用于估计用户请求的情感状态。例如，在一些实施例中，在框310中，计算设备100估计出现在用户请求的紧迫性等级。紧迫性通常可关联于增加的声调和增加的语速。再次参考图4，表格400图示紧迫性的样本权重向量。在说明性的示例中，声调和速率均被分配相对高的积极因子。单词选择，例如时间相关单词和词语的出现，诸如“立即”或“现在”，还可为确定紧迫性的重要因素。

参考回到图3，在框312，在一些实施例，计算设备100估计出现在用户请求的确定性等级。缺少确定性通常可关联于增加的语速变化，增加的不流利发生率，诸如填充单词，以及通过在消息结束时的上升音调(表示问题)。再次参考图4，表格400图示了确定性的样本权重向量。在说明性的示例中，不流利性、速率变化和音调被分配具有相对高的绝对值的相对消极的因子，意味着那些特征的出现表示缺少确定性。单词选择还可为确定确定性的重要因素，例如特定单词的出现如“是”或“绝对地”和/或问题单词如“什么”或“怎样”。

参考回到图3，在框314中，在一些实施例中计算设备100估计出现在用户请求的优势性等级。优势性可以关联于以高声语音说出的较低声调的话。再次参考图4，表格400图示了优势性的样本权重向量。在说明性的示例中，声调被分配具有相对高的绝对值的消极因素，意味着较低的声调趋于表示优势性的出现。另一方面，幅度被分配相对高的积极因素，意味着增加的幅度趋于表示优势性的出现。当然，示出于表格400的所有权重因子仅为说明性目的，并且可能不表示计算设备100使用的实际值。

参考回到图3，在框316中，计算设备100确定对用户请求的自然语言响应的内容。在一些实施例中，响应可取决于在用户请求中识别的情感，并且在其它实施例中，响应可独立于在用户请求中识别的任何情感。除确定自然语言响应的内容外，计算设备100还可执行关联于该确定的一个或多个附加的功能。例如，在一些实施例中，在框318中，计算设备100可执行关联于用户请求的动作，例如，在虚拟个人助理系统中，计算设备100可响应于用户请求更新用户的日历，并生成响应，表示日历更新的状态。在一些实施例中，计算设备100可基于识别的用户请求的情感确定是否执行用户请求。例如，如果计算设备100在用户请求中已识别高紧迫性等级，计算设备100可确定立即执行用户请求，而不关心执行用户请求需要的时间或计算资源。在一些实施例中，计算设备100可确定没有自然语言响应是必要的。例如，如果计算设备100已识别高紧迫性等级，而用户请求可以高可靠性执行，没有自然语言响应可以是必要的。处理用户请求而不具有自然语言响应可类似于人的行为。

在一些实施例中，在框320中，计算设备100可确定澄清问题，作为对用户请求的响应的一部分。计算设备100可响应于在用户请求中识别减少的确定性等级来确定澄清问题。例如，在虚拟个人助理系统中，计算设备100当用户请求已具有较高的不确定性等级时可生成问题，请求用于新的约定的附加细节。作为另一示例，计算设备100可当用户请求具有高的不确定性等级时通过重复和/或释义计算设备100理解的用户请求来确定澄清问题。在其中使用释义的实施例中，计算设备100可使用不同的单词以传递相同的含义以验证计算设备100理解请求的含义。如说明性的示例，给定请求以生成约定，自然语言响应可包括，“如果我正确地理解你，你请求我下周二与Jan进行约定？”。该重复可类似于由人执行的主动收听，并可使用户回顾或纠正具有某些不确定性的用户请求。

在一些实施例中，在框322中，计算设备100可请求是否延迟用户请求的执行。例如，计算设备100可生成是否将执行用户请求的结果在30分钟内报告给用户的请求。计算设备100可请求延迟，例如，在检测用户请求具有低紧迫性等级时。非紧急用户请求延迟的执行可近似人的行为，并且因此可增加计算设备100对用户的效率或可用性。例如，用户可能够通过说出请求、指示计算设备100稍后执行请求以及然后继续下一任务来“流水线执行”任务。

在确定响应的内容之后，在框324中，计算设备100确定响应的情感调节策略218。情感调节策略218定义规则或过程，其基于识别的用户请求的情感管理自然语言响应的修改。选择的特定情感调节策略218可取决于检测于用户请求的情感，以及执行于用户请求的任何处理结果。在一些实施例中，在框326中，情感调节策略218可用于模仿识别于用户请求的情感状态。模仿用户请求的情感可改进通信和降低用户挫败感。例如，当增加的紧迫性等级检测于用户请求时，计算设备100还可在响应中增加紧迫性等级。理解计算设备100已识别情况的紧迫性并可相应采取动作，用户可以以积极方式响应增加的紧迫性。

任何合适类型的情感调节策略可由计算设备100使用。例如，在一些实施例中，在框328中，情感调节策略218可用于与识别于用户请求的情感相反。与识别的情感相反可使用户放心并降低用户挫败感。例如，在检测用户请求中的低确定性时，计算设备100可在响应中增加确定性以使用户放心，即用户请求已被执行。作为另一示例，在检测用户请求中的高优势性等级时，计算设备100可在响应中减少优势性等级。降低优势性等级可降低用户争取优势性的人为倾向并因此可降低用户挫败感。相反地，在检测用户请求中的低优势性等级时，计算设备100可在响应中增加优势性等级，以通知用户该用户请求正在执行。

在一些实施例中，在框330中，情感调节策略218可用于利用情感状态传递信息至用户。该信息可基于自然语言响应。例如，当响应具有较高的不确定性等级时-例如，当用户请求模糊时-计算设备100可减少请求的确定性等级。作为另一示例，当用户请求具有高的紧迫性等级，并且计算设备100已执行用户请求时，计算设备100可减少响应的紧迫性等级，以表示任务已完成。

在框332中，计算设备100基于确定的情感调节策略218来调节自然语言响应。计算设备100可基于声音模式数据库216调整自然语言响应的特征。例如，计算设备100可调整合成语音的声调、幅度、速率或其他特性。作为另一示例，计算设备100可从关联于希望的情感的一组样本音频剪辑中构造响应。关于多种用于表示性语音合成的方法的附加信息在Marc的ExpressiveSpeechSynthesis：Past，Present，andPossibleFutures，AffectiveInformationProcessing111(JinhuaTao&TieniuTaneds.，2009)中讨论。在一些实施例中，计算设备100可修改自然语言响应的单词选择，例如通过利用关联于特定情感的字典。计算设备100可利用扬声器132直接输出调节的响应。在一些实施例中，计算设备100可传输调节响应至远程设备，诸如移动计算设备(未示出)。在一些实施例中，当计算设备100先前已确定没有自然语言响应是必要的时，计算设备100可完全抑制自然语言响应。在输出调节响应之后，方法300循环回到框302，以监测附加的用户请求。当然，如上述，那些附加的请求可响应于澄清问题或延迟用户请求执行的请求。

现参考图5，在使用中，计算设备100可执行方法500，用于训练识别用户请求中的情感。方法500开始于框502，其中计算设备100确定是否执行交互式训练。在一些实施例中，交互式训练可基于用户界面选择执行。在其它实施例中，计算设备100可预先配置以执行交互式训练或非交互式训练。如果执行交互式训练，方法500前进到框504。如果执行非交互式训练，方法500前进到框510，如下描述。

在框504中，计算设备100提示用户朗读脚本化请求的序列。脚本化请求可在显示器128文本式显示于用户或利用语音合成可听地提示。用户可大声读请求，并且用户的响应利用音频传感器134来记录。在框506中，计算设备100接收中性脚本化请求的用户响应。计算设备100可指示用户利用中性的语音声调读取脚本化请求，而不显示情感。在一些实施例中，脚本化请求的主题还可为典型的，不值得注意的，无兴趣的或以其他方式在文字上不含情感。在框508中，计算设备100接收情感脚本化请求的用户响应。对于情感请求，计算设备100可指示用户利用适用于特定情感的语音声调读取脚本化请求，诸如紧迫性、确定性、优势性、高兴、警觉、惧怕或其他任何情感。脚本化请求的主题可与先前中性脚本化请求相同。在其它实施例中，脚本化请求的主题可在文字上含有情感。不需要相同数目的中性和情感脚本化请求。另外地或备选地，计算设备100可提示用户比中性脚本化请求更多的情感脚本化请求。因此，在交互式训练期间，计算设备100依靠用户能够在对脚本化请求进行响应时准确地描绘情感。脚本化响应可由人对情感内容进行预分级，并且结果被分析用于关联于其情感的特征向量元素。另外地或备选地，在一些实施例中用户可描述情感图像，并且描述可类似于脚本化响应来分析。每个图像可关联于多个情感，并且每个情感的部分可用于分析特征向量。

参考回到框502，如果非交互式训练要被执行，方法500前进到框510。在框510中，计算设备100检索预记录的用户请求。预记录的用户请求可能在先前交互式训练会话期间或与计算设备100或类似计算设备的先前交互期间已记录。预记录请求可由其他用户在交互式训练会话期间建立或可从多个用户拥入。另外，预记录用户请求可选择自任何预先存在的自然语言请求的语料库。每个预记录用户请求根据情感内容被分类；即，每个预记录用户请求被识别为中性或呈现一个或多个情感的各种极性。例如，预记录的请求可分类为放松的、中性的或紧急的。预记录的用户请求的分类可由一个或多个人来手动执行。在框512中，计算设备100接收预记录的中性请求。在框514中，计算设备100接收预记录的情感请求。如上述，不需要相同数目的中性请求和情感请求。

在框504中或框510中接收样本用户请求之后，在框516中，计算设备100识别和隔离中性请求的情感特征。类似于以上结合图3的框304描述的用户请求，情感特征包括样本请求的任何特征，其可由计算设备100使用，以估计关联于样本请求的情感状态。如上述，情感特征可包括听觉特性、说话的韵律特性、语言学特性或测量样本请求的声音模式特性的其他特征。

在框518中，计算设备100基于识别的中性请求的情感特征来更新声音模式数据库216。计算设备100可将识别的情感特征存储为一组基线特征，其将用于未来的比较。计算设备100可在声音模式数据库216存储识别的情感特征，使情感特征的平均值因此被更新。计算设备100可更新识别于声音模式数据库216的一些或所有情感状态的基线值。在一些实施例中，在框520中，计算设备100可更新声音模式数据库216中的紧迫性的基线特征。在一些实施例中，在框522中，计算设备100可更新声音模式数据库216中确定性的基线特征。在一些实施例中，在框524中，计算设备100可更新声音模式数据库216中优势性的基线特征。

在框526中，计算设备100识别并隔离情感请求的情感特征。如以上关于中性请求所述，情感特征包括样本请求的任何特征，其可由计算设备100使用，以估计关联于样本请求的情感状态。如上述，情感特征可包括听觉特性、说话韵律的特性、语言学特性或测量样本请求的声音模式特性的其他特征。

在框528中，计算设备100基于识别的情感请求的情感特征更新声音模式数据库216。计算设备100可将识别的情感特征存储为一组外围特征，其可用于识别特定情感。如以上结合图3的框310所述，计算设备100可确定一组权重因子，其当应用于存储于声音模式数据库216的情感请求的特征时，最准确地识别关联于样本请求的情感。声音模式数据库216可仅对出现在样本请求的情感进行更新；即，提示的情感用于脚本化响应，以及先前分类的情感用于预记录的响应。在一些实施例中，在框530中，计算设备100可更新声音模式数据库216中的紧迫性的情感特征。在一些实施例中，在框532中，计算设备100可更新声音模式数据库216中的确定性的情感特征。在一些实施例中，在框534中，计算设备100可更新声音模式数据库216中的优势性的情感特征。

在框536中，计算设备100确定附加的样本请求是否仍用于训练。训练计算设备100可需要处理许多样本请求。在一些实施例中，计算设备100可确定附加的脚本化请求是否仍用于训练。另外地或备选地，计算设备100可确定是否存在附加的预记录请求。如果没有附加的样本请求，方法500完成，而计算设备100准备用于处理口头语言请求。如果仍有附加的样本请求，方法500循环回到框502。另外，尽管方法500图示为通过每个样本请求按序迭代，在一些实施例中样本请求可并行处理或以其他任何顺序处理。例如，计算设备100可将样本请求的整个语料库加载到声音模式数据库216，然后在声音模式数据库216并行执行数据分析。

应当理解，用于训练的方法500不需要在时间上接近用于处理口头语言请求的方法300或在相同的计算设备100而运行。例如，计算设备100可基于利用预记录的用户请求的训练结果，利用初始值预先配置。在计算设备100输送至终端用户之后，交互式训练可进一步调整情感识别过程。

示例

如下提供本文公开的设备、系统和方法的说明性示例。设备、系统和方法的实施例可包括如下描述的示例的任何一个或多个，以及任何组合。

示例1包括一种用于处理口头请求的计算设备，该计算设备包括：请求分析模块，用于：接收用户请求，该用户请求表示由该计算设备的用户说出的自然语言请求；并识别该用户请求的情感特征，该情感特征包括关联于一个或多个人类情感的用户请求的声音模式特性；情感识别模块，用于：比较识别的情感特征与声音模式数据库的基线情感特征；并基于识别的情感特征和该基线特征的比较估计该用户请求的情感状态；以及输出模块，用于作为该情感状态和该声音模式数据库的函数来调节对该用户请求的自然语言响应。

示例2包括示例1的主题，并且其中，识别该情感特征包括，识别声调、幅度、语速、不流利比率、语速变化、用户请求结尾的音调、重读音节、重读音素或消息长度。

示例3包括任何示例1和2任一项的主题，并且其中，识别该情感特征包括：执行语音识别以确定该用户请求的文本表示；以及基于该文本表示，识别和记分该用户请求的单词选择。

示例4包括任何示例1-3任一项的主题，并且其中，该请求分析模块进一步用于基于识别的情感特征更新该声音模式数据库。

示例5包括任何示例1-4任一项的主题，并且其中，估计该情感状态，包括，估计以下的至少一个：用户请求的紧迫性等级；用户请求的确定性等级；或用户请求的优势性等级。

示例6包括任何示例1-5任一项的主题，并且其中，调节该自然语言响应包括，调节声调、幅度、语速、不流利比率、语速变化、重读音节、重读音素或该自然语言响应的消息长度或该自然语言响应结尾的音调。

示例7包括任何示例1-6任一项的主题，并且其中，调节该自然语言响应包括，作为该情感状态和该声音模式数据库的函数来修改该自然语言响应的单词选择。

示例8包括任何示例1-7任一项的主题，并且其中，调节该自然语言响应包括，作为该情感状态和该声音模式数据库的函数来调节该自然语言响应以模仿该用户请求的情感状态。

示例9包括任何示例1-8任一项的主题，并且其中估计的情感状态包括该用户请求的所估计的紧迫性等级，其中估计的紧迫性等级具有与基线紧迫性等级的预定义关系；并且调节该响应包括，调节该自然语言响应以模仿该用户请求的所估计的紧迫性等级。

示例10包括任何示例1-9任一项的主题，并且其中，调节该自然语言响应包括，调节该自然语言响应以呈现与估计的用户请求的情感状态相反的情感状态。

示例11包括任何示例1-10任一项的主题，并且其中估计的情感状态包括该用户请求的所估计的优势性等级，其中该估计的优势性等级具有与基线优势性等级的预定义关系；并且调节该响应包括，调节该自然语言响应以呈现与该用户请求的所估计的优势性等级相反的优势性等级。

示例12包括任何示例1-11任一项的主题，并且其中，调节该自然语言响应包括，调节该自然语言响应以利用仿真的情感状态传递信息。

示例13包括任何示例1-12任一项的主题，并且其中，调节该自然语言响应以传递该信息包括，调节该自然语言响应以利用该仿真的情感状态传递该自然语言响应的不确定性等级。

示例14包括任何示例1-13任一项的主题，并且进一步包括响应生成模块，用于作为该用户请求的情感状态的函数来确定该自然语言响应。

示例15包括任何示例1-14任一项的主题，并且其中估计的情感状态包括该用户请求的所估计的确定性等级，其中该估计的确定性等级具有与基线确定性等级的预定义关系；并且确定该自然语言响应包括，生成澄清问题。

示例16包括任何示例1-15任一项的主题，并且其中所估计的情感状态包括该用户请求的所估计的确定性等级，其中该估计的确定性等级具有与基线确定性等级的预定义关系；并且确定该自然语言响应包括，释义该用户请求。

示例17包括任何示例1-16任一项的主题，并且其中估计的情感状态包括该用户请求的所估计的紧迫性等级，其中估计的紧迫性等级具有与基线紧迫性等级的预定义关系；并且确定该自然语言响应包括，生成是否延迟该用户请求的执行的请求。

示例18包括任何示例1-17任一项的主题，并且其中，确定该自然语言响应包括，确定没有自然语言响应是必要的；并且调节该自然语言响应包括，抑制该自然语言响应。

示例19包括任何示例1-18任一项的主题，并且进一步包括训练模块，用于：提示该用户脚本化中性请求；识别该脚本化中性请求的第二情感特征；基于第二情感特征更新该声音模式数据库的基线特征；提示该用户脚本化情感请求；识别该脚本化情感请求的第三情感特征；以及基于第三情感特征更新该声音模式数据库。

示例20包括任何示例1-19任一项的主题，并且进一步包括训练模块，用于：接收多个预记录请求；识别该预记录请求的多个样本情感特征；并基于识别的样本情感特征更新该声音模式数据库。

示例21包括一种用于由计算设备处理口头请求的方法，该方法包括：由该计算设备接收用户请求，该用户请求表示由该计算设备的用户说出的自然语言请求；由该计算设备识别该用户请求的情感特征，该情感特征包括关联于一个或多个人类情感的用户请求的声音模式特性；由该计算设备比较识别的情感特征与声音模式数据库的基线特征；由该计算设备基于比较识别的情感特征与该基线特征估计该用户请求的情感状态；以及由该计算设备作为该情感状态和该声音模式数据库的函数来调节对该用户请求的自然语言响应。

示例22包括示例21的主题，并且其中识别该情感特征包括识别声调、幅度、语速、不流利比率、语速变化、该用户请求的结尾音调、重读音节、重读音素或消息长度。

示例23包括任何示例21和22任一项的主题，并且其中识别该情感特征包括：执行语音识别以确定该用户请求的文本表示；并且基于该文本表示来识别和计分该用户请求的单词选择。

示例24包括任何示例21-23任一项的主题，并且进一步包括基于识别的情感特征由该计算设备更新该声音模式数据库。

示例25包括任何示例21-24任一项的主题，并且其中估计该情感状态包括估计以下至少一个：该用户请求的紧迫性等级；该用户请求的确定性等级；或该用户请求的优势性等级。

示例26包括任何示例21-25任一项的主题，并且其中调节该自然语言响应包括调节声调、幅度、语速、不流利比率、语速变化，重读音节、重读音素或该自然语言响应的消息长度或该自然语言响应结尾的音调。

示例27包括任何示例21-26任一项的主题，并且其中调节该自然语言响应包括作为该情感状态和该声音模式数据库的函数来修改该自然语言响应的单词选择。

示例28包括任何示例21-27任一项的主题，并且其中调节该自然语言响应包括作为该情感状态和该声音模式数据库的函数来调节该自然语言响应以模仿该用户请求的情感状态。

示例29包括任何示例21-28任一项的主题，并且其中估计该情感状态包括估计该用户请求的紧迫性等级，其中估计的紧迫性等级具有与基线紧迫性等级的预定义关系；并且调节该响应包括，调节该自然语言响应以模仿该用户请求的所估计的紧迫性等级。

示例30包括任何示例21-29任一项的主题，并且其中调节该自然语言响应包括调节该自然语言响应以呈现与估计的用户请求的情感状态相反的情感状态。

示例31包括任何示例21-30任一项的主题，并且其中估计该情感状态包括估计该用户请求的优势性等级，其中该估计优势性等级具有与基线优势性等级的预定义关系；并且调节该响应包括调节该自然语言响应，以呈现与该用户请求的估计优势性等级相反的优势性等级。

示例32包括任何示例21-31任一项的主题，并且其中调节该自然语言响应包括调节该自然语言响应以利用仿真的情感状态传递信息。

示例33包括任何示例21-32任一项的主题，并且其中调节该自然语言响应以传递该信息包括，调节该自然语言响应以利用该仿真的情感状态传递该自然语言响应的不确定性的等级。

示例34包括任何示例21-33任一项的主题，并且进一步包括，由该计算设备作为该用户请求的情感状态的函数来确定该自然语言响应。

示例35包括任何示例21-34任一项的主题，并且其中估计该情感状态包括估计该用户请求的确定性等级，其中估计的确定性等级具有与基线确定性等级的预定义关系；并且确定该自然语言响应包括生成澄清问题。

示例36包括任何示例21-35任一项的主题，并且其中估计该情感状态包括估计该用户请求的确定性等级，其中估计的确定性等级具有与基线确定性等级的预定义关系；并且确定该自然语言响应包括释义该用户请求。

示例37包括任何示例21-36任一项的主题，并且其中估计该情感状态包括估计该用户请求的紧迫性等级，其中估计的紧迫性等级具有与基线紧迫性等级的预定义关系；并且确定该自然语言响应包括生成是否延迟该用户请求的执行的请求。

示例38包括任何示例21-37任一项的主题，并且其中确定该自然语言响应包括确定没有自然语言响应是必要的；并且调节该自然语言响应包括抑制该自然语言响应。

示例39包括任何示例21-38任一项的主题，并且进一步包括，由该计算设备提示该用户脚本化中性请求；由该计算设备识别该脚本化中性请求的第二情感特征；基于第二情感特征，由该计算设备更新该声音模式数据库的基线特征；由该计算设备提示该用户脚本化情感请求；由该计算设备识别该脚本化情感请求的第三情感特征；并基于第三情感特征，由该计算设备更新该声音模式数据库。

示例40包括任何示例21-39任一项的主题，并且进一步包括由该计算设备接收多个预记录请求；由该计算设备识别该预记录请求的多个样本情感特征；并由该计算设备基于识别的样本情感特征更新该声音模式数据库。

示例41包括一种计算设备，包括：处理器；以及存储器，具有存储其中的多个指令，其当由该处理器运行时使计算设备执行示例21-40任一项的方法。

示例42包括一个或多个机器可读存储媒体，包括存储其上的多个指令，其响应于被运行使计算设备执行示例21-40任一项的方法。

示例43包括一种计算设备，其包括用于执行任何示例21-40的方法的部件。

Claims

1.一种用于处理口头请求的计算设备，所述计算设备包括：

请求分析模块，用于：

接收用户请求，所述用户请求用于表示由所述计算设备的用户说出的自然语言请求；以及

识别所述用户请求的情感特征，所述情感特征包括关联于一个或多个人类情感的所述用户请求的声音模式特性；

情感识别模块，用于：

比较识别的情感特征与声音模式数据库的基线情感特征；以及

基于识别的情感特征和所述基线特征的比较估计所述用户请求的情感状态；以及

输出模块，用于作为所述情感状态和所述声音模式数据库的函数来调节对所述用户请求的自然语言响应。

2.根据权利要求1所述的计算设备，其中，识别所述情感特征包括识别声调、幅度、语速、不流利比率、所述语速的变化、所述用户请求的结尾处音调、重读音节、重读音素或消息长度。

3.根据权利要求1所述的计算设备，其中所述请求分析模块进一步用于基于识别的情感特征更新所述声音模式数据库。

4.根据权利要求1所述的计算设备，其中，估计该情感状态包括估计以下至少一个：

所述用户请求的紧迫性等级；

所述用户请求的确定性等级；或

所述用户请求的优势性等级。

5.根据权利要求1所述的计算设备，其中，调节所述自然语言响应包括调节声调、幅度、语速、不流利比率、所述语速的变化、重读音节、重读音素或所述自然语言响应的消息长度或所述自然语言响应结尾的音调。

6.根据权利要求1所述的计算设备，其中，调节自然语言响应包括作为所述情感状态和所述声音模式数据库的函数来调节所述自然语言响应以模仿所述用户请求的所述情感状态。

7.根据权利要求6所述的计算设备，其中：

估计的情感状态包括所述用户请求的所估计的紧迫性等级，其中所述估计的紧迫性等级具有与基线紧迫性等级的预定义关系；以及

调节所述响应包括调节所述自然语言响应以模仿所述用户请求的所估计的紧迫性等级。

8.根据权利要求1所述的计算设备，其中，调节所述自然语言响应包括调节所述自然语言响应以呈现与所述用户请求的所估计的情感状态相反的情感状态。

9.根据权利要求8所述的计算设备，其中：

所估计的情感状态包括所述用户请求的所估计的优势性等级，其中所估计的优势性等级具有与基线优势性等级的预定义关系；以及

调节所述响应包括调节所述自然语言响应以呈现与所述用户请求的所估计的优势性等级相反的优势性等级。

10.根据权利要求1所述的计算设备，其中，调节所述自然语言响应包括调节所述自然语言响应以利用仿真的情感状态传递信息。

11.根据权利要求10所述的计算设备，其中，调节所述自然语言响应以传递所述信息包括调节所述自然语言响应以利用所述仿真的情感状态传递所述自然语言响应的不确定性的等级。

12.根据权利要求1-11中任一项所述的计算设备，进一步包括响应生成模块，用于作为所述用户请求的所述情感状态的函数来确定所述自然语言响应。

13.根据权利要求12所述的计算设备，其中：

所估计的情感状态包括所述用户请求的所估计的确定性的等级，其中所估计的确定性等级具有与基线确定性等级的预定义关系；以及

确定所述自然语言响应包括生成澄清问题。

14.根据权利要求12所述的计算设备，其中：

所估计的情感状态包括所述用户请求的所估计的紧迫性等级，其中所估计的紧迫性等级具有与基线紧迫性等级的预定义关系；以及

确定所述自然语言响应包括生成是否延迟所述用户请求的执行的请求。

15.根据权利要求1-11中任一项所述的计算设备，进一步包括训练模块，用于：

提示所述用户脚本化中性请求；

识别所述脚本化中性请求的第二情感特征；

基于所述第二情感特征更新所述声音模式数据库的所述基线特征；

提示所述用户脚本化情感请求；

识别所述脚本化情感请求的第三情感特征；以及

基于所述第三情感特征更新所述声音模式数据库。

16.根据权利要求1-11中任一项所述的计算设备，进一步包括训练模块，用于：

接收多个预记录请求；

识别所述预记录请求的多个样本情感特征；以及

基于识别的样本情感特征更新所述声音模式数据库。

17.一种用于由计算设备处理口头请求的方法，所述方法包括：

由所述计算设备接收用户请求，所述用户请求表示由所述计算设备的用户说出的自然语言请求；

由所述计算设备识别所述用户请求的情感特征，所述情感特征包括关联于一个或多个人类情感的所述用户请求的声音模式特性；

由所述计算设备比较识别的情感特征与声音模式数据库的基线特征；

基于比较识别的情感特征与所述基线特征，由所述计算设备估计所述用户请求的情感状态；以及

由所述计算设备作为所述情感状态和所述声音模式数据库的函数来调节对所述用户请求的自然语言响应。

18.根据权利要求17所述的方法，其中，作为所述情感状态和所述声音模式数据库的函数来调节所述自然语言响应包括调节所述自然语言响应以模仿所述用户请求的所述情感状态。

19.根据权利要求17所述的方法，其中调节所述自然语言响应包括调节所述自然语言响应以呈现与所述用户请求的所估计的情感状态相反的情感状态。

20.根据权利要求17所述的方法，其中调节所述自然语言响应包括调节所述自然语言响应以利用仿真的情感状态传递信息。

21.根据权利要求17所述的方法，进一步包括由所述计算设备作为所述用户请求的所述情感状态的函数来确定所述自然语言响应。

22.根据权利要求21所述的方法，其中：

估计所述情感状态包括估计所述用户请求的确定性等级，其中估计的确定性等级具有与基线确定性等级的预定义关系；以及

确定所述自然语言响应包括生成澄清问题。

23.一种计算设备，包括：

处理器；以及

存储器，具有在其中存储的多个指令，其当由所述处理器运行时使所述计算设备执行权利要求17-22中任一项所述的方法。

24.一个或多个机器可读存储媒体，包括在其上存储的多个指令，其响应于被运行而促使计算设备执行权利要求17-22中任一项所述的方法。

25.一种计算设备，包括用于执行权利要求17-22中任一项所述的方法的部件。