CN111696559B

CN111696559B - 提供情绪管理辅助

Info

Publication number: CN111696559B
Application number: CN201910199122.0A
Authority: CN
Inventors: 修驰; 栾剑
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2019-03-15
Filing date: 2019-03-15
Publication date: 2024-01-16
Anticipated expiration: 2039-03-15
Also published as: EP3939039A1; WO2020190395A1; CN111696559A; US20220059122A1

Abstract

本公开内容提供了一种用于提供情绪管理辅助的方法。可以接收声音流。可以从所述声音流中检测用户与至少一个对话方之间的语音对话。对话方的身份可以至少根据语音对话中对话方的语音来识别。在语音对话中用户的至少一个语音片段的情绪状态可以被确定出。可以生成与所述语音对话相对应的情绪记录，其中所述情绪记录至少包括所述对话方的身份、所述语音对话的至少一部分内容、以及所述用户的至少一个语音片段的情绪状态。

Description

提供情绪管理辅助

背景技术

情绪是指伴随着认知和意识过程产生的对外界事物的态度，是对客观事物和主体需求之间关系的反应，是以个体的愿望和需要为中介的一种心理活动。情绪管理对于人类来说很重要，因为不良的情绪会对人类的身体健康、生活、工作产生不利的影响。情绪管理是对个体和群体的情绪进行感知、控制、调节的过程，其通过研究个体和群体对自身情绪和他人情绪的认识、协调、引导、互动和控制，确保个体和群体保持良好的情绪状态，并由此产生良好的管理效果。对于个人而言，可以通过观察自己的情绪、适当表达自己的情绪以及以合适的方式释放情绪来进行情绪管理。

发明内容

提供本发明内容以便介绍一组概念，这组概念将在以下的具体实施方式中做进一步描述。本发明内容并非旨在标识所保护主题的关键特征或必要特征，也不旨在用于限制所保护主题的范围。

本公开内容的实施例提出了一种用于提供情绪管理辅助的方法。在该方法中，可以接收声音流。可以从所述声音流中检测用户与至少一个对话方之间的语音对话。对话方的身份可以至少根据语音对话中对话方的语音来识别。在语音对话中用户的至少一个语音片段的情绪状态可以被确定出。可以生成与所述语音对话相对应的情绪记录，其中所述情绪记录至少包括所述对话方的身份、所述语音对话的至少一部分内容、所述用户的至少一个语音片段的情绪状态。

应当注意，以上一个或多个方面包括以下详细描述以及在权利要求中具体指出的特征。下面的说明书及附图详细阐述了所述一个或多个方面的某些说明性特征。这些特征仅仅指示可以实施各个方面的原理的多种方式，并且本公开内容旨在包括所有这些方面和其等同变换。

附图说明

以下将结合附图描述所公开的多个方面，这些附图被提供用以说明而非限制所公开的多个方面。

图1示出了根据实施例的示例性情绪管理辅助系统的架构。

图2示出了根据实施例的示例性信号处理过程。

图3示出了根据实施例的示例性情绪分析过程。

图4示出了根据实施例的示例性情绪关注点确定过程。

图5示出了根据实施例的示例性情绪记录生成过程。

图6是根据实施例的用于提供情绪管理辅助的示例性方法的流程图。

图7示出了根据实施例的用于显示情绪记录列表的示例性界面。

图8示出了根据实施例的用于显示情绪记录的示例性界面。

图9示出了根据实施例的图表形式的示例性综合情绪状态。

图10示出了根据实施例的用于显示情绪统计列表的示例性界面。

图11A-图11B示出了根据实施例的、用户在不同的预定时段内的示例性阶段性情绪状态。

图12是根据实施例的在多个预定时段内的每种情绪类型的阶段性变化的示例性统计图。

图13是根据实施例的在多个预定时段内的阶段性情绪状态变化的示例性统计图。

图14是根据实施例的针对不同对话方的示例性情绪状态统计图及示例性情绪记录列表。

图15示出了根据实施例的用于提供情绪管理辅助的示例性方法的流程图。

图16示出了根据实施例的用于提供情绪管理辅助的示例性装置。

图17示出了根据实施例的用于提供情绪管理辅助的另一种示例性装置。

具体实施方式

现在将参考多种示例性实施方式来讨论本公开内容。应当理解，这些实施方式的讨论仅仅用于使得本领域技术人员能够更好地理解并从而实施本公开内容的实施例，而并非教导对本公开内容的范围的任何限制。

当今时代，为了改善个人情绪以及进行有效地情绪管理，人们需要手动记录、分析情绪状态，周期性回顾情绪记录等等。然而人们通常无法精确地识别出自己处于什么情绪中、情绪的强度以及引起该种情绪的原因和内容，从而也无法准确记录自己的情绪状态来加以分析和管理。例如，当人们处于强烈的情绪中，诸如在愤怒状态下、在悲伤状态下等等，人们通常无法及时记录自己的真实情绪。举例而言，在与他人对话时，人们通常无法及时记录下发生的事件内容和该事件期间的情绪状态和变化；而在对话结束后可能无法准确想起之前事件中每个片段的情绪状态，从而也无法精确地总结出他/她针对该事件的综合情绪状态。

为了帮助人们准确高效地进行情绪管理，本公开内容的实施例提出了一种用于提供情绪管理辅助的方法和系统，其可以帮助人们记录、分析以及管理情绪，尤其是针对用户与一个或多个对话方之间的对话或沟通。此处，对话方指的是在用户的对话期间的另一方，其可以是另一个人，例如爱人、孩子、同事、父母等，可以是宠物，例如小狗、小猫等，也可以是虚拟人物，例如聊天机器人以及能够与人对话的任何其它智能计算机，等等。本公开内容的实施例可以自动地检测、记录用户与他人的对话期间的情绪状态、对话内容等。针对用户与对话方之间的某一对话，本公开内容的实施例可以生成与该对话相对应的情绪记录，以供用户或第三方，例如心理医生，进行用户的情绪管理。在本文中，针对对话的情绪记录至少包括该对话的至少一部分内容、用户在该对话期间的至少一个语音片段的情绪状态、对话方的身份等等，其中对话的内容可以以文本形式或语音形式呈现在情绪记录中，在本文中为了便于描述，以文本形式的对话内容为例来进行阐述。语音片段可以是例如通过对语音对话执行语音分割得到的一个或多个片段，其可以对应于音节、字词、短语、单个句子、或者两个或更多句子等等。在本文中，情绪状态包括至少一个情绪类型及其级别。

图1示出了根据实施例的示例性情绪管理辅助系统100的架构。在图1中，通过网络110将信号采集设备120、终端设备130、服务器140互连。信号采集设备120可以包括能够从用户102处采集声音信号122和诸如用户生理信号、环境信号之类的其它信号124的各种采集设备，包括但不限于手机、智能手表、手环、平板电脑、智能机器人、蓝牙耳机、能与网络进行无线或有线通信的时钟、温度计、湿度计、定位设备等等。在一个例子中，所采集的声音信号122和其它信号124可以经由网络110通过无线或有线的方式被传递给服务器140。

在一些实施例中，服务器140可以包括信号处理模块141、情绪分析模块142、情绪关注点确定模块143、情绪记录生成模块144、统计生成模块145等。

在一个例子中，信号处理模块141可以对接收到的声音信号122和/或其它信号124进行处理，以及将处理得到的信息传递给情绪分析模块142、和/或情绪关注点确定模块143、和/或情绪记录生成模块144。

在一个例子中，情绪分析模块142可以根据接收到的各种信息来分析用户的情绪状态，并将得出的情绪状态提供给情绪关注点确定模块143和情绪记录生成模块144。

在一些实施例中，情绪关注点确定模块143可以至少根据从情绪分析模块142获得的用户的当前情绪状态和/或用户的当前情绪状态与至少一个先前情绪状态之间的变化、以及可能的来自信号处理模块141的信息来确定或预测情绪关注点。在本文中，情绪关注点可以表示用户已经具有或即将发生超常状况的情绪状态或情绪状态变化的时间点。在一些例子中，可以将确定或预测出的情绪关注点包括在和/或标示在生成的情绪记录中，以供用户查看情绪记录时对此点加以关注。在另一些例子中，在预测出的情绪关注点处，服务器140可以通过网络110向终端设备130发送一个指示，以指示终端设备130中的提示部件134向用户102给出提示，例如，提醒用户控制当前情绪、改变当前话题或结束当前对话等等。在一些实施例中，提示可以以多种形式来体现，包括但不限于震动、音效、光效、语音、文本等形式。

在一些实施例中，情绪记录生成模块144可以根据获得的各种信息来生成与用户的对话对应的情绪记录。举例而言，情绪记录可以包括但不限于时间、地点、对话的至少一部分内容、情绪状态、情绪状态变化、对话涉及的对象身份、关联事件、情绪建议，等等。在一些实施例中，所生成的一个或多个情绪记录152可以被提供给并存储在数据库150中。在一些实施例中，可以将在一预定时段内生成的多个情绪记录提供给统计生成模块145。该统计生成模块145可以根据获得的多个情绪记录来生成情绪统计，以供用户查看预定时段内的情绪状态变化和/或用户的情绪状态与参考情绪状态的对比。可以将生成的情绪统计154存储在数据库150中。需要理解的是，虽然图1中将数据库150示为与服务器140相分离，但数据库150也可以并入服务器140中。

可以将数据库150中存储的情绪记录152和/或情绪统计154通过服务器提供给终端设备130。终端设备130可以通过输入/输出端口136来接收情绪记录152和/或情绪统计154并将接收到的情绪记录152和/或情绪统计154通过显示部件132向用户进行显示。在一些实施例中，输入/输出端口136还可以接收来自用户的输入，例如，用户对情绪记录152和/或情绪统计154的反馈，包括但不限于对情绪记录和/或情绪统计进行更改、增加、删除、高亮标示等编辑操作。在这些实施例中，终端设备130可以将接收到的反馈通过网络110递送给服务器140。服务器140可以利用该反馈来更新情绪记录和/或情绪统计生成过程，并将重新生成的情绪记录和/或情绪统计提供给数据库150进行存储和/或更新当前的情绪记录和/或情绪统计。

此外，虽然图1中将信号采集设备120与终端设备130示出为单独的设备，但信号采集设备120也可以整合在终端设备130中。例如，终端设备130可以是手机、计算机、平板电脑、智能机器人等等，而信号采集设备120可以是上述设备中的部件。举例而非限制性的，信号采集设备120可以是上述设备中的麦克风、GPS部件、时钟部件等等。取决于系统架构的配置，服务器140在一些例子中可以是本地服务器，在另一些例子中可以是云端服务器。

应当理解，图1中所示的所有部件或模块都是示例性的。本申请中使用的“示例性的”一词意味着用作例子、例证或说明。本申请中被描述为“示例性”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用示例性一词是想要以具体的方式来表示构思。本申请中使用的术语“或者”意味着包括性的“或者”而不是排他性的“或者”。也就是说，除非另外指定，或者从上下文能清楚得知，否则“X使用A或者B”的意思是任何自然的包括性置换。也就是说，如果X使用A，X使用B，或者X使用A和B二者，则“X使用A或者B”满足上述任何一个例子。另外，除非另外指定或从上下文能清楚得知是单一形式，否则本申请和附加的权利要求书中使用的“一”和“一个”物件通常表示“一个或多个”。

在本申请中所用的“部件”、“模块”、“系统”以及类似的术语意指与计算机相关的实体，其可以是硬件、固件、软硬件结合、软件或者执行中的软件。例如，部件可以是但并不仅限于：处理器上运行的进程、处理器、对象、可执行程序、执行的线程、程序和/或计算机。为了便于说明，计算设备上运行的应用程序和计算设备本身都可以是部件。执行中的一个进程和/或线程可以有一个或多个部件，并且，一个部件可以位于一台计算机上和/或分布于两台或更多台计算机之间。另外，可以从存储了多种数据结构的多种计算机可读介质执行这些部件。

图2示出了根据实施例的示例性信号处理过程200。

在一些实施例中，将通过信号采集设备采集的各种信号分别进行处理。例如，对环境信号执行环境信息分析210，以得到环境信息。举例而非限制性，环境信息可以包括时间信息、地点信息、天气信息、温度信息、湿度信息等等。在一些例子中，可以对声音信号执行语音检测220，以检测出声音信号中的背景声和语音对话。例如，可以使用语音活动检测(VAD)技术来从声音信号中检测语音信号的存在。例如，可以通过从声音信号中检测到语音波形来检测语音信号的存在，其中从语音波形中可以提取各种声学特征。在一些例子中，VAD技术可以通过例如但不限于隐马尔可夫模型、支持向量机、神经网络等多种算法来实现，在此不再详述。在一些例子中，背景声可以包括但不限于风声、汽车喇叭声、音乐声、小孩的哭闹声等等。在一些实施例中，对用户生理信号执行生理信息分析230，以得到用户的生理信息。在一些例子中，用户生理信息可以包括但不限于心率、呼吸频率、体温、血压等等。

将获得的环境信息、背景声、语音波形中的至少一个馈送到框240以进行对话方身份识别。经过框240的处理可以确定对话方身份。所识别的对话方身份可以是对话方所属的身份类别，例如男或女，或者小孩、青年或老人，或者宠物等等。所识别的对话方身份也可以是对话方的姓名(例如张三)、与用户的关系(例如父母、同事)、与对话方对应的昵称(例如亲爱的、宝宝)或其它称呼(例如王总、张老师)，等等。在一些实施例中，对话方也可以是用户的宠物，例如小狗、小猫等，或者还可以是虚拟人物，例如聊天机器人，等等。

此外，还可以根据对话的至少一部分内容来确定对话方的身份。例如，如果用户说“张老师您好，……”，则可以判断出对话方的身份为“张老师”。在一些例子中，可以利用环境信息、背景声、通过语音波形提取的声学特征、对话内容中的任一项或其任意组合来确定对话方的身份。虽然利用上述各项的任一项可以识别出对话方的身份，但在有些情况下可能不够准确，因此利用上述信息的任意组合可以更精确地识别出对话方的身份。举例而言，如果环境信息指示出“周六晚上十点，家”，通过语音波形提取的声学特征指示为“年轻女性”，则对话方身份可能为“妻子”、“姐姐”、“妹妹”等等。然而，如果对话方在对话时对用户说出“哥哥，您能帮我个忙么？”，则可以进一步根据对话中的该内容而将对话方身份确定为是用户的“妹妹”。

将获得的语音波形提供给框250以进行语音识别，以获得对应的文本内容。此处的语音识别过程可以采用已知的任何适当的语音识别技术，在此不再详述这些语音识别技术。在一些例子中，该语音识别过程250可以包括文字波形对齐处理252，以使得识别出的文本内容具有时间标签或时间戳。

将获得的用户生理信息和语音对话的语音波形提供给框260，以执行对话开始点/结束点检测，从而确定语音对话的开始点/结束点。在一些例子中，可以根据语音对话的语音波形来确定对话开始点/结束点。例如，当检测到存在语音波形时可以认为对话开始，以及在对话进行期间在预定时段过去之后未检测到语音波形可以认为该对话结束。在一些例子中，可以根据用户生理信息来确定对话开始点/结束点。例如，当检测到用户生理信息发生变化，例如血压升高、心跳频率变快等等，可以认为对话开始，以及在对话进行期间检测到用户的血压、心跳变为正常时可以认为对话结束。

应当理解，图2中所示的所有框及其输入信息、输出信息都是示例性的，以及可以根据具体设置来增加或合并框，增加或减少框的输入信息和输出信息。例如，虽然图2未示出，但可以存在场景检测操作，其用于根据背景声、语音对话的至少一部分内容、环境信息中的至少一个来确定对话发生的场景。此外，对话方身份也可以进一步根据确定的场景来识别出。例如，当确定的场景为“周一上午十点，办公室”时，可以将对话方身份识别为同事，而当确定的场景为“周六晚上十点，家”时，可以将对话方身份识别为配偶，等等。另外，可选地，虽然未示出，但背景声和环境信息也可以被馈送至框260以用于对话开始点/结束点检测。举例而言，如果背景声包括开门声、关门声，则可以根据背景声中的开门声来确定对话开始点，和/或根据关门声来确定对话结束点。再举一个例子，如果语音对话是通过诸如手机之类的通信设备进行的语音呼叫，则呼叫发起的时刻可以被认为是对话开始点，呼叫终止的时刻可以被认为是对话结束点。在一些例子中，当环境信息中的位置信息指示用户当前在会议室时，可以认为对话开始，而当该位置信息指示用户离开会议室时，可以认为该对话结束。虽然上述例子中将环境信息、背景声、语音波形和生理信息单独用于确定对话开始点/结束点，但这些信息的任意组合可以用于确定对话开始点/结束点。此外，应该理解，本公开的实施例可以建立基于机器学习的对话开始点/结束点检测模型，该模型可以采用上述的环境信息、背景声、语音波形、生理信息等中的一个或多个作为特征，并且被训练用于确定出对话的开始点/结束点。该模型并不局限于采用任何特定的机器学习技术来建立。

图3示出了根据实施例的示例性情绪分析过程300。在该实施例中，通过示例性情绪分析过程生成的用户的语音片段的情绪状态是针对在用户与对话方的语音对话期间该用户的语音片段的。

可以采用多种方式对语音波形执行语音特征提取，并根据提取的语音特征来执行用户的情绪检测。例如，如图3所示，在一种方式中，可以通过包括快速傅里叶变换(FFT)、梅尔滤波器组(Mel-FB)、对数(Log)、离散余弦变换(DCT)、梅尔倒频谱系数(MFCC)变换等的一系列处理来从语音波形中提取MFCC特征，并将所提取的MFCC特征提供给框310以基于这些特征进行用户的情绪检测并生成情绪分量1。在一些例子中，情绪分量可以是多维向量的形式，例如[情绪类型1(级别或分数)，情绪类型2(级别或分数)，情绪类型3(级别或分数)，……情绪类型n(级别或分数)]，其中n大于等于2并且可以是预先设定的数值或默认值，例如4种情绪类型(例如，喜、怒、哀、乐)、6种情绪类型(例如，快乐、悲伤、愤怒、厌恶、恐惧、惊讶)、8种情绪类型(例如，生气、厌恶、恐惧、悲伤、期待、快乐、惊讶、信任)等等。在后文中，本公开内容的实施例将以6种情绪类型，即6维向量为例来进行阐述，但在其它实施例中其它维向量的情绪分量也是可能的。举例而言，情绪分量可以是[快乐(20)，悲伤(15)，愤怒(43)，厌恶(10)，恐惧(23)，惊讶(11)]。在另一些例子中，情绪分量也可以是单维向量的形式，例如[情绪类型(级别或分数)]。该单维向量可以是通过对情绪的多维向量计算得到的。例如，将多维向量中分值或级别最高的情绪类型及其分值或级别表示为单维向量形式的情绪分量。举例而言，情绪分量的多维向量[快乐(20)，悲伤(15)，愤怒(43)，厌恶(10)，恐惧(23)，惊讶(11)]可以被转换为单维向量[愤怒(43)]。在一些例子中，也可以对多维向量中的每一维分配权重，并且基于对各个维度的加权求和来计算出包括一种情绪类型及其分值或级别的单维向量。

在另一种方式中，可以通过包括FFT、Mel-FB、Log、语谱(spectrogram)变换等一系列处理来从语音波形中提取语谱特征，并将所提取的语谱特征提供给框312以基于这些特征进行用户的情绪检测并生成情绪分量2。

在又一种方式中，可以直接将语音波形提供给框314以基于语音波形执行用户的情绪检测并生成情绪分量3。

在另一种方式中，可以从语音波形中提取语速特征，以及将提取的语速特征提供给框316以基于语速进行情绪检测并生成情绪分量4。

在又一种方式中，可以从语音波形中提取节奏特征，以及将该节奏特征提供给框318以基于节奏进行情绪检测并生成情绪分量5。

可以通过各种已知的针对语音的情绪检测技术，基于从语音波形中提取的各种上述特征来执行情绪检测并获得针对该语音波形的情绪或情绪分量，在此不对这些已知的情绪检测技术进行详述。

在一些实施例中，可以将获得的用户生理信息提供到框320。在框320中基于用户生理信息检测用户的情绪并生成情绪分量6。举例而言，基于用户的血压超出正常值预定数值，可以检测并生成用户当前的情绪状态[激动或愤怒或生气，级别高或分数50]，以作为情绪分量6。

在一些实施例中，可以基于用户生理信息、从语音波形中提取的MFCC特征和环境信息来在框322处执行用户的情绪检测并生成情绪分量7。举例而言，当确定用户的心跳频率超过正常值，且用户当前在游乐场(即环境信息中的位置信息)时，可以基于从语音波形中提取的MFCC特征检测出用户的当前情绪为[快乐(级别高)]。为简单起见，此处用单维向量形式来表示情绪分量。需要理解的是，在其它实施例中采用多维向量形式来表示用户的当前情绪也是可以的。

在一些实施例中，可以基于从语音波形中提取的语速特征、节奏特征以及用户生理信息和环境信息在框324处执行情绪检测并生成情绪分量8。

在一些实施例中，可以将环境信息提供给框326进行情绪检测并生成情绪分量9。举例而言，如果环境信息表示温度为36度、湿度为20％、地点为办公室、时间为周一下午4点，则基于上述环境信息可以检测出用户的情绪为[厌恶(高或分数50)]。

在一些实施例中，可以将生成的与语音对话对应的至少一部分内容提供给框328，以基于该至少一部分文本内容检测用户的情绪，例如，通过文本内容直接检测出的情绪分量10和间接获得的隐性情绪分量11。举例而非限制性的，当语音对话的文本内容为“我很生气”，基于该文本内容可以检测出用户的情绪分量为愤怒。作为另一个例子，当语音对话的文本内容为“我应该生气吗？”，基于该文本内容可以检测出用户的隐性情绪分量为惊讶。

需要理解的是，上述情绪检测操作310-328均可以通过预先训练的模型来实现。

可以将所生成的情绪分量1至情绪分量11中的任何一个或多个提供给框330执行情绪整合，以输出针对用户的语音片段的情绪状态，其中该情绪状态可以是多维向量形式也可以是单维向量形式。在本文中，情绪状态包括至少一个情绪类型及其级别。例如，单维向量的情绪状态可以被表示成[情绪类型(级别或分数)]，而多维向量的情绪状态可以被表示成[情绪类型A(级别或分数)，情绪类型B(级别或分数)，情绪类型C(级别或分数)……]。

图4示出了根据实施例的示例性情绪关注点确定过程400。

如图4所示，可以将用户的当前情绪状态、先前情绪状态以及用户生理信息提供给框410进行情绪状态变化监测，其中用户的当前情绪状态表示针对用户的当前语音片段的情绪状态，而用户的先前情绪状态表示针对用户之前的一个或多个语音片段的一个或多个情绪状态。如果用户的当前情绪状态相比先前情绪状态发生变化，或者用户生理信息发生变化，例如血压升高、心跳变快等等，则可以监测到用户的情绪状态变化，其中，用户的情绪状态变化包括以下中的至少一项：情绪类型变化，相同情绪类型的级别变化。举例而言，用户的情绪状态变化可以包括以下中的至少一项：从快乐变为悲伤，从悲伤低级变为悲伤高级，或者从快乐低级变为悲伤高级，等等。如果用户的当前情绪状态相比先前情绪状态未发生变化，或者用户生理信息未发生变化，则可以得出用户的当前情绪状态在之前的一定时段内未发生变化，并可以确定该当前情绪状态的持续时间。

将用户的当前情绪状态、情绪状态变化、当前情绪状态持续时间、语音对话的至少一部分文本内容、对话方身份中的至少一项输入到预测模型420。预测模型420可以基于接收的信息以及预定设置来预测出情绪关注点。所述预定设置可以是，例如，从设置存储单元获得的至少一个设置，包括但不限于非特定于用户的默认设置、用户特定设置等。在一些例子中，示例性的设置可以包括但不限于以下中的至少一种：在情绪类型发生变化时触发情绪关注点预测，在某种情绪类型的级别或分数超出阈值时触发情绪关注点预测，在当前情绪状态已经持续了预定时段的情况下触发情绪关注点预测，在对话内容中涉及敏感话题时触发情绪关注点预测，等等。

例如，示例性的默认设置可以包括但不限于以下中的至少一种：在情绪类型从非愤怒变为愤怒时触发情绪关注点预测，在情绪类型“愤怒”和“悲伤”的级别为高或其分数超出阈值时触发情绪关注点预测，在当前情绪状态“愤怒(中或高)”或“悲伤(中或高)”持续了预定时段的情况下触发情绪关注点预测，在对话内容中涉及到“赌博”、“毒品”话题时触发情绪关注点预测，等等。

在一些例子中，用户特定设置可以与默认设置相同或不同。例如，如果用户是抑郁症患者，则用户特定设置可以包括但不限于以下例子：在情绪类型“快乐”的级别为低或其分数低于阈值时触发情绪关注点预测，在情绪类型从非悲伤变为悲伤时触发情绪关注点预测，在情绪类型“愤怒”和“悲伤”的级别为中或其分数超过阈值时触发情绪关注点预测，在当前情绪状态“悲伤(中或高)”等持续预定时段的情况下触发情绪关注点预测，在对话内容中涉及“自杀”话题时触发情绪关注点预测，等等。再举一个例子，如果用户是易怒之人，则用户特定设置可以将针对情绪类型“愤怒”的阈值设定为高于默认设置中的对应阈值，将当前情绪状态的预定时段的持续时长设定为低于默认设置中的对应持续时长，在对话内容中涉及侮辱性话题时触发情绪关注点预测，等等。

此外，用户特定设置还可以包括针对特定对话方的设置。例如，当对话方是配偶时，示例性的设置可以包括但不限于：在情绪状态变为“厌恶(中)”时触发情绪关注点预测，在对话内容中涉及“离婚”话题时触发情绪关注点预测，等等。再举一个例子，当对话方是孩子时，示例性的设置可以包括但不限于：在情绪状态“快乐(低)”持续预定时段的情况下触发情绪关注点预测，在对话内容中涉及“笨蛋”字词或话题时触发情绪关注点预测，等等。

虽然图4中将设置示为从预测模型420外部获得，但设置也可以配置在预测模型420内部。可选地，在预测的情绪关注点处或该情绪关注点之前的预定时间点处，可以生成一个提示信号，以向用户提供涉及情绪管理的提示，例如振动、音效、光效、语音提示、文本提示等。例如，该提示可以是语音或文本形式的内容“平静一点”、轻柔的音乐、柔和的灯光等等。

在训练阶段，该预测模型420可以是基于情绪状态变化、当前情绪状态持续时间、文本内容、对话方身份、预定设置以及用户历史数据来训练的。例如，当不存在用户历史数据时，预测模型可以基于情绪状态变化、当前情绪状态持续时间、文本内容、对话方身份、预定设置来预测出情绪关注点，其中在该预测的情绪关注点处认为用户可能会发生超常状况的情绪状态。然而如果存在用户历史数据并发现在用户历史数据中用户没有在预测出的情绪关注点处发生超常状况的情绪状态或在另一个时间点处发生超常状况的情绪状态，则可以利用该用户历史数据来重新训练预测模型，例如将该另一个时间点作为通过重新训练的预测模型预测出的情绪关注点。

图5示出了根据实施例的示例性情绪记录生成过程500。

将通过情绪分析过程生成的至少一个语音片段的情绪状态、通过信号处理过程生成的对话方身份、文本内容、对话开始点/结束点、以及通过情绪关注点确定过程确定/预测的情绪关注点提供给框510以生成针对语音对话的情绪记录。在一些实施例中，针对用户的语音对话的情绪记录可以至少包括在该语音对话中用户的至少一个语音片段的文本内容以及该至少一个语音片段中的每个语音片段的情绪状态。在一些实施例中，针对用户的语音对话的情绪记录可以包括以下中的一项或多项：从该语音对话中提取的关键字/词、该语音对话的摘要、该语音对话的全部对话内容(包括对话方的内容)、用户针对该语音对话的综合情绪状态、与该语音对话相关联的用户的其它对话以及情绪建议。综合情绪状态可以是根据该语音对话中用户的至少一个语音片段的情绪状态计算得出的，其中该计算可以包括已知的任何适当的求和计算，包括但不限于累计求和、加权求和等。情绪建议可以是针对情绪关注点处的情绪改善的建议。

图6示出了根据实施例的用于提供情绪管理辅助的示例性方法600的流程图。

在602，可以采集声音信号、用户生理信号、环境信号等。例如通过诸如手机、蓝牙耳机、手环、智能手表、温度计、湿度计、智能机器人、定位设备、时钟等设备来采集这些信号。

在604，可以通过对采集的声音信号、用户生理信号、环境信号等分别进行信号处理，来获得声音信息、用户生理信息、环境信息等。

在606，可以从获得的声音信息中检测语音对话和背景声。

在608，根据在606处检测出的语音对话和/或背景声、以及可选的在604处获得的用户生理信息和环境信息等中的至少一个，确定语音对话的开始点和/或结束点。例如，可以根据检测到声音流中存在语音，即用户或对话方开始说话，来确定语音对话的开始。例如，可以根据在语音对话开始之后或进行期间，在预定时间内未继续收到语音来确定语音对话的结束。在一些例子中，如果背景声包括开门声、关门声，则可以将发生开门声的时刻确定为对话的开始点，发生关门声的时刻确定为对话的结束点。在另一些例子中，如果用户生理信息显示用户的心跳频率由正常突然变为加快，则可以将用户心跳频率开始加快的时刻认为是对话的开始点，将心跳频率再次变为正常频率的时刻认为是对话的结束点。在一些例子中，如果环境信息中的位置信息指示用户当前在会议室中，则可以认为当前时刻是对话的开始点，而如果位置信息指示用户离开会议室，则可以认为用户离开会议室的时刻是对话的结束点。虽然上面列举了一些例子来阐述可以分别根据声音信息中的语音、背景声、用户生理信息、环境信息来确定语音对话的开始点和/或结束点，但优选的是根据上述信息的任意组合来确定对话的开始点/结束点。

在610，根据在606处检测出的语音对话和/或背景声以及可选的在604处获得的环境信息等，来识别对话方身份。具体而言，根据检测出的语音对话中对话方的语音来识别对话方身份。在一些实施例中，可以在数据库中预先存储标记有声学特征的对象身份，或者可以以[对象ID，声学特征]对的条目形式存储在数据库中，例如[孩子，声学特征A]，[用户的配偶，声学特征B]，[宠物狗，声学特征C]，[聊天机器人，声学特征D]，等等。此处的声学特征可以是多维声学特征向量，也可以是特定于对象的声学模型。当检测到用户与一个对话方在进行对话时，可以从对话方的语音中提取语音特征，并通过例如识别模型在数据库中查找是否存在与提取的语音特征相对应的声学特征。如果存在，则将标记或配对有该声学特征的对象ID识别为对话方身份，例如，用户的配偶、孩子等等。如果不存在，则可以将该对话方身份识别为未知方或陌生人之类的。可选地，可以根据预先设定通过分类器将对话方身份识别为男、女，或者识别为小孩、青年、老人，或者可以进一步识别为小女孩、小男孩、女性青年、男性青年、女性老人、男性老人，等等。另外，如果针对同一对象在数据库中存在多个条目，例如针对用户的配偶可能存在多个条目，[妻子，声学特征B]、[姓名，声学特征B]、[亲爱的，声学特征B]，则可以任意选取其中的一个或多个条目来用于识别对话方的身份。

可选地，可以根据环境信息和/或从声音信息中检测出的背景声来识别对话方身份。举例而言，如果背景声指示电视声，环境信息指示时间为“晚上11点”，地点为“家”，则可以将对话方识别为用户的配偶；如果环境信息指示时间为“周一上午10点”，地点为“公司”，则可以将对话方识别为同事。再举一个例子，如果环境信息指示时间为“中午12点”，地点为“户外”，背景声指示公共交通上的报站声，则可以将对话方识别为陌生人。虽然上面列举了一些例子来阐述可以分别根据对话方的语音、背景声、环境信息来识别对话方身份，但优选的是根据上述信息的任意组合来识别对话方身份。

此外，在一些例子中，可以根据语音对话的内容中的至少一部分来识别出对话方身份。举例而言，如果用户说的内容是“宝宝来玩游戏吧”，则可以基于内容中包括的“宝宝”而将对话方识别为孩子；如果用户说的内容是“亲爱的，早安”，则可以基于内容中包括的“亲爱的”而将对话方识别或确定为配偶；如果用户说的内容是“小冰，今天天气如何？”，则可以基于内容中包括的“小冰”而将对话方识别为虚拟人物“小冰”，此处的“小冰”表示微软公司的人工智能机器人。在一些例子中，可以根据对话方的语音、背景声、环境信息、对话的内容中的至少一部分中的至少一项或其任意组合来识别对话方的身份。

应当理解，在610处的识别对话方身份的处理是可以通过建立基于机器学习的对话方身份识别模型来实现的。该模型可以采用上述的语音对话、背景声、环境信息、语音对话的至少一部分内容等中的一个或多个作为特征，并且被训练用于输出对话方的身份。该模型并不局限于采用任何特定的机器学习技术来建立。

在612，可以从在606处检测出的语音对话中识别出语音对话的文本内容。可以使用任何已知的适当语音识别技术来从语音对话中识别出文本内容，在本文中对这些语音识别技术不进行详述，以避免模糊本文的构思。

在614，可以根据在604处获得的声音信息、用户生理信息和环境信息、以及在612处识别出的语音的文本内容中的至少一个，来确定用户的情绪状态。具体而言，确定针对对话期间用户的至少一个语音片段的情绪状态。用户的至少一个语音片段中的每个语音片段的情绪状态包括用户针对该语音片段的情绪类型和/或情绪类型的级别，其中情绪类型可以被分类为任意多种类型，例如四种类型(喜、怒、哀、乐)、六种类型(快乐、悲伤、愤怒、厌恶、恐惧、惊讶)等等，情绪类型的级别可以用等级和/或分数来表示，例如等级低、中、高，等级1级、2级、3级……，等级A、B、C、D……，分数0、10、20、30……n等等。在下文中，以上述的六种情绪类型为例来讨论情绪状态，该情绪状态可以表示为多维向量或者单维向量。例如，一个示例性的情绪状态可以是诸如[快乐(低)，悲伤(低)，愤怒(中)，厌恶(低)，恐惧(低)，惊讶(低)]的多维向量，也可以是诸如[愤怒(中)]的单维向量。

在616，可以根据在614处确定的用户的至少一个语音片段的情绪状态来确定用户的情绪状态变化。例如根据当前语音片段的当前情绪状态和一个或多个先前语音片段的一个或多个先前情绪状态来确定用户的情绪状态变化。该情绪状态变化可以通过计算得到，也可以作为训练模型的输出来获得。举例而言，如果当前语音片段的情绪状态是[快乐(5)，悲伤(25)，愤怒(40)，厌恶(15)，恐惧(20)，惊讶(10)]，一个先前语音片段的情绪状态是[快乐(30)，悲伤(25)，愤怒(20)，厌恶(10)，恐惧(15)，惊讶(12)]，则可以将情绪状态变化计算为[快乐(Δ＝-25)，悲伤(Δ＝0)，愤怒(Δ＝20)，厌恶(Δ＝5)，恐惧(Δ＝5)，惊讶(Δ＝-2)]。当将该多维向量形式的情绪状态变化转换为单维向量时，可以通过比较各个维度的变化值的绝对值来确定单维的情绪状态变化，例如将多维向量中绝对值最高的那一维度作为单维向量的维度。例如，由于上述多维的情绪状态变化中“快乐”维度的分值的绝对值最高(为25)，因此可以将上述多维的情绪状态变化转换为单维的情绪状态变化[快乐(Δ＝-25)]。在一些例子中，可以为多维向量中的各个维度分配相应权重，并将情绪状态变化计算为各个维度的加权值。例如，如果各个维度的权重分别为{快乐0.1，悲伤0.2，愤怒0.3，厌恶0.2，恐惧0.1，惊讶0.1}，则情绪状态变化的加权值被计算为[快乐(Δ＝-25*0.1＝-2.5)，悲伤(Δ＝0*0.2＝0)，愤怒(Δ＝20*0.3＝6)，厌恶(Δ＝5*0.2＝1)，恐惧(Δ＝5*0.1＝0.5)，惊讶(Δ＝-2*0.1＝-0.2)]。在该例子中，当多维形式的情绪状态变化被转换为单维向量时，以类似的比较绝对值的方式，可以得出单维的情绪状态变化为[愤怒(Δ＝20*0.3＝6)]。在一些实施例中，可以通过训练模型来确定情绪状态变化。例如，为了简便起见，以单维向量形式为例，在训练阶段，以一个情绪状态作为当前情绪状态，一个或多个情绪状态作为先前情绪状态来作为训练模型的输入，将情绪状态变化作为输出。例如，如果当前情绪状态是[愤怒(低)]，一个先前情绪状态是[厌恶(低)]，则可以认为输出的情绪状态变化是[厌恶—>愤怒(变化弱)]。再举一个例子，如果当前情绪状态是[愤怒(高)]，两个先前情绪状态分别是[快乐(高)]和[愤怒(低)]，则可以认为输出的情绪状态变化是[快乐—>愤怒(变化强)]。上述例子是为了便于理解本公开内容，其是示例性而非限制性的。

在618，根据616处确定的情绪状态变化和可选的614处确定的至少一个语音片段的情绪状态，通过预测模型来预测/确定情绪关注点。虽然图6中未示出，但情绪关注点还可以由预测模型根据以下中的至少一项来确定：当前语音片段的当前情绪状态、语音对话的文本内容、当前情绪状态的持续时间、语音对话中的话题、对话方的身份以及用户的历史情绪记录。

可选的，在620，可以在预测出的情绪关注点处，例如通过提示部件向用户提供提示，以提醒用户控制情绪。例如，提示可以是通过手环、智能手表、手机等所产生的震动、音效、语音、文本、光效，或者通过提示部件控制其它设备产生音效、光效等。例如，声效可以包括铃声、音乐、诸如雨声、波浪声之类的自然声音；光效可以包括闪光、不同颜色的屏幕灯光等。在一些例子中，通过提示部件控制其它设备产生音效、光效可以包括通过手机、智能机器人等使得例如音箱发出音乐，使得屋内的照明灯根据不同的指示发出不同频率或颜色的光，例如闪光、类烛光、类日光、冷光、暖光等等。

在622，可以根据在608处确定的语音对话的开始点和/或结束点、在610处识别的对话方身份、在612处识别出的文本内容、在614处确定的至少一个语音片段的情绪状态以及可选的在618预测/确定的情绪关注点中的一个或多个来生成情绪记录。在一些例子中，可以在情绪记录中标示出预测或确定的情绪关注点。可选地，根据获得的环境信息、用户生理信息、语音对话的文本内容等，该情绪记录还可以包括以下中的至少一项：从语音对话中提取的关键字/词、该语音对话的内容摘要、该语音对话发生的时间、该语音对话发生的地点、用户在该语音对话中的综合情绪状态、对与所述语音对话相关联的所述用户的另一对话的指示(即用户的关联对话)、以及情绪建议。在本文中，用户在该语音对话中的综合情绪状态可以是用户的至少一个语音片段的情绪状态的组合或加权组合。在一些实施例中，情绪建议可以是由预先训练的基于深度学习的建议模型从数据库中检索对应的案例或事件来生成的。在一些实施例中，数据库中的每个案例或事件可以标注有关键字/词和情绪标签，例如以标签[关键字/词，情绪向量]的形式。至少根据当前情绪记录中包括的关键字/词和/或摘要、情绪状态，建议模型可以在数据库中检索具有相应关键字/词和/或摘要、情绪状态的案例或事件，并将检索到的案例或事件作为情绪建议包括在情绪记录中。在训练期间，该建议模型可以采用例如关键字/词匹配、情绪状态改善的方式来进行训练。

在624，根据在622处生成的与多个语音对话对应的多个情绪记录，可以生成统计表。在一些实施例中，多个情绪记录中的每个情绪记录包括用户在与该情绪记录对应的语音对话中的综合情绪状态。在一些例子中，统计表可以包括以下中的至少一种：在预定时段内的阶段性情绪状态统计、在多个预定时段内的阶段性情绪变化趋势、在多个预定时段内的每种情绪的阶段性变化趋势、在预定时段内针对某一或相同对话方身份的阶段性情绪统计、在多个预定时段内针对某一或相同对话方身份的阶段性情绪变化趋势，等等。举例而言，统计表可以包括：例如2018年08月内的阶段性情绪状态统计、从2018年08月至2018年10月的阶段性情绪变化趋势、从2018年08月至2018年10月“愤怒”情绪的阶段性变化趋势、在2018年08月针对孩子的阶段性情绪统计、在2018年08月至2018年10月针对孩子的阶段性情绪变化趋势，等等。

在一些例子中，统计表可以根据用户在多个预定时段的每个预定时段内的阶段性情绪状态来生成。例如，每个预定时段内的阶段性情绪状态可以是用户在该预定时段内的至少一个语音对话的至少一个综合情绪状态之和。在一些例子中，统计表可以包括用户在预定时段内的阶段性情绪变化的统计。在另一些例子中，该统计表可以包括用户在预定时段内每种情绪类型的情绪变化的统计。在又一些例子中，该统计表可以包括用户针对多个不同的对话方身份的综合情绪状态的统计。在另一些例子中，该统计表可以包括用户针对特定对话方身份的综合情绪状态的统计。

在626，将生成的情绪记录和/或统计表显示给用户或第三方，例如第三方可以是该用户的配偶、心理医生或得到用户授权的其他人。该情绪记录和/或统计表可以通过用户或第三方的终端设备中的显示部件来显示给用户或第三方。

可选地，在628，可以从用户或第三方接收对情绪记录和/或统计表的反馈。例如，用户可以对情绪记录中的任意项进行编辑，例如增加、修改、删除等等。举例而言，如果情绪记录中包括的对话方身份被示出为“同事”，但实际对话方是“妻子”，则用户可以修改情绪记录中的对话方身份。修改后的情绪记录可以作为更新的情绪记录被提供给用户和/或被存储在数据库中作为历史数据对模型进行再次训练。例如，利用更新的情绪记录来更新数据库中存储的标记有声学特征的对象身份以再次训练识别模型来识别对话方身份，以及将更新的情绪记录提供给预测模型以再次训练用于预测情绪关注点的预测模型，等等。用户或第三方可以对情绪记录的其它项做出修改，从而更新后的情绪记录还可以用于情绪管理辅助过程中的其它部分。

图7示出了根据实施例的用于显示情绪记录列表710的示例性界面。该界面被显示在示例性显示部件上。在该实施例中，情绪记录列表710中的每一个情绪记录索引可以指示基于图5中所示的示例性情绪记录生成过程来生成的情绪记录。

如图7所示，该情绪记录列表710中包括多个情绪记录索引，其中每个情绪记录索引对应于用户的一个对话的情绪记录。在一些实施例中，情绪记录索引可以以诸如时间、地点、对话方、综合情绪状态、事件等的多个标签中的任一个或多个标签来显示，并链接到对应的情绪记录，例如在图7中以下划线示出链接形式。在一些实施例中，情绪记录索引还可以以诸如情绪记录中的关键字/词和/或摘要、综合情绪状态等标签来显示。

如果点击图7中的情绪记录列表中的任一项索引，则可以链接到该索引对应的情绪记录。例如，如果点击图7中的第一个索引，则可以链接到如图8所示的情绪记录。

图8示出了根据实施例的用于显示情绪记录810的示例性界面。该界面被显示在示例性显示部件上。

如图8所示，该示例性情绪记录810包括关键字/词、摘要、综合情绪状态、对话内容的至少一部分、关联对话、建议(即情绪建议)。在该实施例中，可以根据已知的关键字/词生成技术以及摘要生成技术从当前对话内容中生成关键字/词和摘要。在图8中，针对用户在对话期间的至少一个语音片段的每个语音片段的内容(例如每句话)都标示出用户的情绪状态，例如针对语音片段的内容“发生什么事了”标示出用户的情绪状态为[惊讶(低)]，针对语音片段的内容“不就是一块钱吗”标示出用户的情绪状态为[惊讶(中)]，针对语音片段的内容“你干吗这么生气啊”标示出用户的情绪状态为[愤怒(中)]。虽然在图8中仅示出针对用户的语音片段的用户的情绪状态，但还可以针对对话中对话方的语音片段来标示出用户的情绪状态，例如可以根据对话方的语音内容、用户的生理信息等来确定用户针对对话方的语音片段的情绪状态，图中未示出。

在一些实施例中，情绪记录中包括的对话内容可以用通过语音识别生成的文本形式显示，也可以直接用语音形式显示，或者可以是二者的任意组合。例如，如图8中所示，采用的是文本与语音形式组合的方式来呈现对话内容。在该实施例中，将情绪关注点对应的语音片段的内容814“你干吗这么生气啊？”用语音形式呈现，以便于用户更直观地回顾此处的语音片段的情绪状态。在其它例子中，可以将用户和对话方的所有语音片段的内容均用文本形式呈现在情绪记录中，或将用户和对话方的所有语音片段的内容均用语音形式呈现在情绪记录中，或将用户的所有语音片段的内容用语音形式而将对话方的所有语音片段的内容用文本形式呈现在情绪记录中，或仅将与情绪关注点对应的用户的语音片段的内容用语音或文本形式呈现在情绪记录中，等等。

此外，在一些实施例中，用户针对至少一个语音片段的情绪状态也可以用标示在该语音片段的文本内容上的颜色及其深浅度来表示，其中针对每种情绪类型和级别可以预先设定相应的颜色及深浅度。例如，可以将内容“你干吗这么生气啊”标示成红色字体，以指示用户针对该内容的情绪状态为[愤怒(中)]；可以将内容“OK，离婚”标示成深红色字体，以指示用户针对该内容的情绪状态为[愤怒(高)]。在另一些实施例中，用户针对至少一个语音片段的情绪状态可以用对应于该语音片段的颜色条来表示，例如在图8所示的对话内容的一侧或两侧用颜色竖条来表示，其中针对每种情绪类型和级别可以预先设定相应的颜色及深浅度。

可以基于至少一个语音片段的情绪状态来生成针对该对话的综合情绪状态。例如，假设对话中存在至少一个语音片段，继而在该对话中存在至少一个情绪状态。在情绪状态是单维向量的情况下，将该至少一个情绪状态中具有级别最高或分数最高的一个或多个情绪状态作为该对话的综合情绪状态。例如，当针对一个对话存在5个情绪状态例如{[厌恶(低)]、[厌恶(中)]、[愤怒(低)]、[悲伤(低)]、[愤怒(高)]}时，可以将该对话的综合情绪状态认为是[愤怒(高)]。在另一个例子中，当针对一个对话存在5个情绪状态{[厌恶(低)]、[厌恶(高)]、[愤怒(低)]、[悲伤(低)]、[愤怒(高)]}时，可以将该对话的综合情绪状态认为是{[厌恶(高)]、[愤怒(高)]}。可替代地，在情绪状态是多维向量的情况下，将多个情绪状态的多维向量求和/加权求和或求平均数来得到综合向量并将该综合向量所表示的情绪状态作为针对该对话的综合情绪状态。例如，当针对一个对话存在5个情绪状态例如[快乐(10)、悲伤(15)、愤怒(30)、惊讶(15)、恐惧(5)、厌恶(25)]，[快乐(5)、悲伤(10)、愤怒(25)、惊讶(10)、恐惧(15)、厌恶(20)]，[快乐(20)、悲伤(5)、愤怒(40)、惊讶(10)、恐惧(10)、厌恶(30)]，[快乐(10)、悲伤(20)、愤怒(35)、惊讶(15)、恐惧(5)、厌恶(35)]，[快乐(15)、悲伤(10)、愤怒(45)、惊讶(5)、恐惧(10)、厌恶(30)]时，采用对多维向量求和的方式可计算出综合的多维向量为[快乐(60)、悲伤(60)、愤怒(175)、惊讶(55)、恐惧(45)、厌恶(140)]。通过采用多维向量至单维向量的转换方式，例如选择多维中分数最高的一维作为单维向量中的维度，可以将该综合的多维向量转换为单维向量[愤怒(175)]，从而将其作为针对该对话的综合情绪状态。

此外，基于图4的情绪关注点确定过程和图6中框618处的情绪关注点预测，可以在图8所示的情绪记录中标示出情绪关注点812，情绪关注点812可以用区别于其它情绪状态的方式来标示。例如，在本实施例中，，用“**[愤怒(中)]**”形式标示出情绪关注点812，其表示在用户说出“你干吗这么生气啊”时预测出了情绪关注点，即，用户的情绪可能进而变为超常状况。在其它实施例中也可以用其它方式在情绪记录中标示出情绪关注点，例如，可以用与其它情绪状态不同的颜色标示情绪关注点，或者采用高亮、粗体等形式来标示情绪关注点。虽然图8中示出了一个情绪关注点，但需要理解的是，在对话期间可能不存在情绪关注点、存在多于一个的情绪关注点等。图8所示的例子可以表示在对话完成后进行的情绪记录。在该情绪记录中标示出情绪关注点以供用户在对话完成后进行情绪分析，以便在下次的类似对话中控制情绪。例如，参考图8所示，用户在该情绪关注点后的情绪状态变成[愤怒(高)]并且说出了不利于与对话方的友好关系的话语“OK，离婚”。在其它例子中，可以在对话正在进行期间，在预测出的情绪关注点[愤怒(中)]处，即对应于用户的语音片段“你干吗这么生气啊”之处，向用户提供提示，例如语音提示“冷静点”，以避免用户的情绪状态变为[愤怒(高)]。例如，在这些例子中，当用户在该情绪关注点处接收到提示“冷静点”时，其后续的情绪状态可能不会变成[愤怒(高)]，而是基于提示来变成[愤怒(低)]并且说出不同的内容，例如“你不要这么生气”之类的内容。

在图8所示的例子中，可以基于当前情绪记录中的关键字/词、摘要、综合情绪状态等中的一项或多项来检索用户的关联对话，例如可以从存储用户的个人数据的存储单元中检索。检索到的关联对话可以以摘要形式或情绪列表索引形式包括在该情绪记录中，并且可以通过索引链接到具体的对话内容或情绪记录。

此外，还可以在情绪记录中包括建议，例如情绪建议。该情绪建议可以以任何适当的方式来呈现，例如，如图8中所示的以“<建议内容>—<链接到网页或数据库中的项目的索引>”形式来呈现。

应当理解的是，虽然图8中针对用户的四句话中的每句话都生成并显示一个情绪状态，即，显示生成的所有情绪状态，例如显示出四个情绪状态，但在其它实施例中可以显示生成的情绪状态中的一个或多个情绪状态，例如只显示情绪关注点处的情绪状态，用户的最后一个语音片段的情绪状态，具有特定情绪类型(例如“愤怒”)的情绪状态，或者具有特定级别(例如“高”)的情绪状态，等等。

图8的情绪记录中的综合情绪状态也可以是多维向量并采用图表形式来呈现，如图9所示。

图9示出了根据实施例的图表形式的示例性综合情绪状态900。在该实施例中，针对用户的语音对话的综合情绪状态可以被表示为多维形式，如所示的连接各情绪点的实线框，例如由点[快乐(15)，悲伤(27)，愤怒(46)，惊讶(25)，恐惧(18)，厌恶(25)]连接的实线框。需要理解的是，附图和上述多维向量中的分值均为示例性的。在一些实施例中，针对用户的多个对话中的每个对话，可以通过参考情绪生成模型来生成一个参考性综合情绪状态。该参考情绪生成模型可以是预先训练的，以与用户的该对话类似的语音波形、文本内容、环境信息等作为输入来输出参考性综合情绪状态以作为用户的情绪管理的目标。如图9中所示，连接各情绪点的虚线框可以被认为是针对用户的该对话的参考性综合情绪状态。通过比对图表中的综合情绪状态和参考性综合情绪状态，用户可以在后续的类似对话中调节或者控制自己的情绪状态以匹配或贴近该参考性综合情绪状态。

图10示出了根据实施例的用于显示情绪统计列表1010的示例性界面。该界面被显示在示例性显示部件上。情绪统计列表1010可以包括各种形式的情绪统计索引，以链接到相应的情绪统计。例如，如图10所示，情绪统计列表1010中包括的情绪统计索引可以是针对以下一项或多项情绪统计的索引：在预定时段内的阶段性情绪状态统计，在多个预定时段内的阶段性情绪变化趋势，在多个预定时段内的每种情绪的阶段性变化趋势，在预定时段内针对某一或相同对话方身份的阶段性情绪统计，在多个预定时段内针对某一或相同对话方身份的阶段性情绪变化趋势，等等。以下结合图11-图14示出了几种类型的示例性情绪统计。

图11A-图11B示出了根据实施例的、用户在不同的预定时段内的示例性阶段性情绪状态1100(A)和1100(B)。例如，图11A示出了针对用户在图10所示的“XXXX年XX月：阶段性情绪统计”的图表；图11B示出了针对用户在图10所示的“XXXX年YY月：阶段性情绪统计”的图表。在该实施例中，阶段性情绪状态可以是多维向量形式且可以由连接各点形成的实线框来表示，其中每一点表示该多维向量中每一维(即每种情绪类型)的阶段性分数。在该实施例中，连接各点形成的虚线框表示参考性阶段性情绪状态，与图9类似。在图表1100(A)和1100(B)中，每种情绪类型的阶段性分数表示在预定时段内的至少一个情绪记录的至少一个综合情绪状态中该情绪类型的至少一个分数之和或者其平均分数。举例而言，假设用户在XXXX年XX月内有3个情绪记录，每个情绪记录具有一个多维形式的综合情绪状态[快乐(A1)，悲伤(B1)，愤怒(C1)，厌恶(D1)，恐惧(E1)，惊讶(F1)]、[快乐(A2)，悲伤(B2)，愤怒(C2)，厌恶(D2)，恐惧(E2)，惊讶(F2)]和[快乐(A3)，悲伤(B3)，愤怒(C3)，厌恶(D3)，恐惧(E3)，惊讶(F3)]，其中，A1-A3、B1-B3、C1-C3、D1-D3、E1-E3、F1-F3可以分别表示一个数值，则针对图表1100(A)中的情绪类型“愤怒”，其整体情绪分数是基于C1、C2、C3来计算得到的，例如计算C1、C2、C3之和或者它们的平均数。

应当理解，上述附图中所示的所有情绪类型及其分数都是示例性的。在本申请中，可以采用任意数量的情绪类型及其级别来实现用户的情绪管理辅助。

图12是根据实施例的在多个预定时段内的每种情绪类型的阶段性变化的示例性统计图1200。在图12的例子中，每个预定时段为一个月，多个预定时段指的是第1-5个月。如上所述，针对每个预定时段存在阶段性情绪状态。在图12的例子中，该阶段性情绪状态是多维向量形式，其中的每一维是每种情绪类型，即悲伤、惊讶、恐惧、快乐、愤怒、厌恶，例如针对第1个月，该阶段性情绪状态为[快乐(15)、悲伤(80)、愤怒(18)、惊讶(58)、恐惧(40)、厌恶(9)]。针对每种情绪类型，图中的每个点表示该种情绪类型在每个预定时段(即每个月)的阶段性分数。例如，在第1个月，基于上述的阶段性情绪状态中的各维情绪及其分数可知，情绪“悲伤”的分数为80。可以参照图11A-图11B的例子，其中的每个点表示每种情绪类型在预定时段内的阶段性分数。虽然图11A-图11B的例子仅示出了两个时段，但可以以类似图11A-图11B的方式来得到每种情绪类型在每个时段的阶段性分数。在图12中，将每种情绪类型在每个预定时段内的点相连接以表示该种情绪类型在多个预定时段内的变化趋势。

图13是根据实施例的在多个预定时段内的阶段性情绪状态变化的示例性统计图1300。在图13的例子中，每个预定时段为一个月，多个预定时段指的是第1-5个月，每个点表示针对该时段的阶段性情绪状态的分数。针对每个预定时段存在多维向量形式的阶段性情绪状态，其中的每一维是每种情绪类型，以及针对每个预定时段的阶段性情绪状态中的分数可以基于每种情绪类型在该预定时段的阶段性分数来计算出。在一些例子中，每种情绪类型可以分配有不同的权重，以及每个预定时段的阶段性情绪状态中的分数可以通过对每种情绪类型的阶段性分数加权求和来计算出。例如，可以为每种情绪类型分配对应的权重，例如快乐-0.1、悲伤-0.2、愤怒-0.3、惊讶-0.1、恐惧-0.1、厌恶-0.2。在计算第1个月的阶段性情绪状态的分数时，可以将每种情绪类型在第1个月的阶段性分数乘以其权重再求和，并将得到的结果认为是针对第1个月的阶段性情绪状态的分数，即图13中示出的第1个点。

图表1400(A)示出了用户的多个对话方在预定时段(例如一个月)内与该用户的对话时间的百分比。

图表1400(B)示出了用户相对同一对话方(例如孩子)的不同情绪类型的百分比。图表1400(B)可以通过点击图表1400(A)中的“孩子”块而显示出。

图表1400(C)示出了用户相对同一对话方在预定时段内的某一情绪类型所涉及的包括至少一个情绪记录或其索引的列表。例如，在图表1400(C)所示的例子中，示出的多个情绪记录是用户在2018年8月内涉及针对孩子的愤怒情绪的情绪记录或其索引。虽然图14中未示出，但可以理解的是，通过图表1400(C)中的情绪记录列表中列出的情绪记录索引，可以链接到相应的情绪记录。

图15示出了根据实施例的用于提供情绪管理辅助的示例性方法1500的流程图。

在1510处，可以接收声音流。

在1520处，可以从所述声音流中检测用户与至少一个对话方之间的语音对话。

在1530处，可以至少根据所述语音对话中所述对话方的语音来识别所述对话方的身份。

在1540处，可以确定在所述语音对话中所述用户的至少一个语音片段的情绪状态。

在1550处，可以生成与所述语音对话相对应的情绪记录，所述情绪记录至少包括所述对话方的身份、所述语音对话的至少一部分内容、所述用户的至少一个语音片段的情绪状态。

在一种实现中，所述用户的至少一个语音片段中的每个语音片段的情绪状态包括：该语音片段的情绪类型和/或所述情绪类型的级别。

在一种实现中，检测所述语音对话包括：至少根据所述声音流中的所述用户的语音和/或所述对话方的语音来检测所述语音对话的开始点和结束点。

在进一步的实现中，所述语音对话的开始点和结束点是进一步根据以下中的至少一项来检测的：所述用户的生理信息、所述语音对话的环境信息、以及所述声音流中的背景音。

在一种实现中，所述对话方的身份是进一步根据以下中的至少一项来识别的：所述语音对话的环境信息、所述声音流中的背景音、以及所述语音对话的至少一部分内容。

在一种实现中，所述用户的至少一个语音片段中的每个语音片段的情绪状态是根据以下中的至少一项来确定的：所述语音片段的波形、与所述语音片段相对应的所述用户的生理信息、以及与所述语音片段相对应的环境信息。

在一种实现中，所述情绪记录还包括以下中的至少一项：从所述语音对话中提取的关键词；所述语音对话的内容摘要；所述语音对话发生的时间；所述语音对话发生的地点；所述用户在所述语音对话中的综合情绪状态；对与所述语音对话相关联的所述用户的另一对话的指示；以及情绪建议。

此外，该方法还包括：至少根据所述用户的当前语音片段的当前情绪状态和所述用户的至少一个先前语音片段的至少一个先前情绪状态来确定所述用户的情绪状态变化；以及由预测模型至少根据所述用户的情绪状态变化来确定情绪关注点。

在进一步的实现中，所述预测模型进一步根据以下中的至少一项来确定所述情绪关注点：所述当前情绪状态，所述语音对话的至少一部分内容，所述当前情绪状态的持续时间，所述语音对话中的话题，所述对话方的身份，以及所述用户的历史情绪记录。

在进一步的实现中，该方法还包括：在所述情绪记录中标示出所述情绪关注点；和/或在所述语音对话期间，在所述情绪关注点处向所述用户提供提示。

此外，该方法还包括：从一个或多个声音流中检测多个语音对话；以及生成与所述多个语音对话分别对应的多个情绪记录。

在进一步的实现中，所述多个情绪记录中的每个情绪记录还包括所述用户在所述与该情绪记录对应的语音对话中的综合情绪状态。所述方法还包括：根据在多个预定时段的每个预定时段内的至少一个情绪记录中所包括的所述用户的至少一个综合情绪状态，生成所述用户在所述每个预定时段内的阶段性情绪状态；以及根据所述用户在所述每个预定时段内的阶段性情绪状态，生成所述用户在所述多个预定时段上的情绪统计。

在进一步的实现中，所述多个情绪记录中的每个情绪记录还包括所述用户在所述与该情绪记录对应的语音对话中的综合情绪状态。所述方法还包括：根据在多个预定时段的每个预定时段内的至少一个情绪记录中所包括的所述用户的至少一个综合情绪状态，生成所述用户在所述每个预定时段内的每种情绪类型的阶段性情绪级别；以及根据所述用户在所述每个预定时段内的每种情绪类型的阶段性情绪级别，生成所述用户在所述多个预定时段上的每种情绪类型的情绪统计。

在进一步的实现中，所述至少一个情绪记录关联于相同的对话方的身份。

此外，该方法还包括将所述情绪记录提供给所述用户或第三方。

此外，该方法还包括从所述用户或第三方接收对所述情绪记录的反馈；以及根据所述反馈来更新所述情绪记录。

应当理解的是，方法1500还可以包括：用于根据本公开内容的实施例，辅助情绪管理的任何步骤/处理，如上面所提及的。

图16示出了根据实施例的用于提供情绪管理辅助的示例性装置1600。

装置1600可以包括：接收模块1610，用于接收声音流；检测模块1620，用于从所述声音流中检测用户与至少一个对话方之间的语音对话；识别模块1630，用于至少根据所述语音对话中所述对话方的语音来识别所述对话方的身份；确定模块1640，用于确定在所述语音对话中所述用户的至少一个语音片段的情绪状态；以及生成模块1650，用于生成与所述语音对话相对应的情绪记录，所述情绪记录至少包括所述对话方的身份、所述语音对话的至少一部分内容、所述用户的至少一个语音片段的情绪状态。

在一种实现中，所述检测模块1620还用于至少根据所述声音流中的所述用户的语音和/或所述对话方的语音来检测所述语音对话的开始点和结束点。

在一种实现中，所述确定模块1640还用于：至少根据所述用户的当前语音片段的当前情绪状态和所述用户的至少一个先前语音片段的至少一个先前情绪状态来确定所述用户的情绪状态变化；以及由预测模型至少根据所述用户的情绪状态变化来确定情绪关注点，其中，该情绪关注点被标示在所述情绪记录中，和/或被用于在所述语音对话期间向所述用户提供提示。

应当理解的是，装置1600还可以包括：被配置为根据本公开内容的实施例，用于辅助情绪管理的任何其它模块，如上面所提及的。

图17示出了根据实施例的用于提供情绪管理辅助的另一种示例性装置1700。装置1700可以包括一个或多个处理器1710和存储计算机可执行指令的存储器1720，当执行所述计算机可执行指令时，所述一个或多个处理器1710可以执行以下操作：接收声音流；从所述声音流中检测用户与至少一个对话方之间的语音对话；至少根据所述语音对话中所述对话方的语音来识别所述对话方的身份；确定在所述语音对话中所述用户的至少一个语音片段的情绪状态；以及生成与所述语音对话相对应的情绪记录，所述情绪记录至少包括所述对话方的身份、所述语音对话的至少一部分内容、所述用户的至少一个语音片段的情绪状态。

本公开内容的实施例可以实施在非暂时性计算机可读介质中。该非暂时性计算机可读介质可以包括指令，当所述指令被执行时，使得一个或多个处理器根据如上面所述的本公开内容的实施例，执行用于提供情绪管理辅助的方法的任何操作。

应当理解，以上描述的方法中的所有操作都仅仅是示例性的，本公开并不限制于方法中的任何操作或这些操作的顺序，而是应当涵盖在相同或相似构思下的所有其它等同变换。

还应当理解，以上描述的装置中的所有模块都可以通过各种方式来实施。这些模块可以被实施为硬件、软件、或其组合。此外，这些模块中的任何模块可以在功能上被进一步划分成子模块或组合在一起。

已经结合各种装置和方法描述了处理器。这些处理器可以使用电子硬件、计算机软件或其任意组合来实施。这些处理器是实施为硬件还是软件将取决于具体的应用以及施加在系统上的总体设计约束。作为示例，本公开中给出的处理器、处理器的任意部分、或者处理器的任意组合可以实施为微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑器件(PLD)、状态机、门逻辑、分立硬件电路、以及配置用于执行在本公开中描述的各种功能的其它适合的处理部件。本公开给出的处理器、处理器的任意部分、或者处理器的任意组合的功能可以实施为由微处理器、微控制器、DSP或其它适合的平台所执行的软件。

软件应当被广泛地视为表示指令、指令集、代码、代码段、程序代码、程序、子程序、软件模块、应用、软件应用、软件包、例程、子例程、对象、运行线程、过程、函数等。软件可以驻留在计算机可读介质中。计算机可读介质可以包括例如存储器，存储器可以例如为磁性存储设备(如，硬盘、软盘、磁条)、光盘、智能卡、闪存设备、随机存取存储器(RAM)、只读存储器(ROM)、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、寄存器或者可移动盘。尽管在本公开给出的多个方面中将存储器示出为是与处理器分离的，但是存储器也可以位于处理器内部(如，缓存或寄存器)。

以上描述被提供用于使得本领域任何技术人员可以实施本文所描述的各个方面。这些方面的各种修改对于本领域技术人员是显而易见的，本文限定的一般性原理可以应用于其它方面。因此，权利要求并非旨在被局限于本文示出的方面。关于本领域技术人员已知或即将获知的、对本公开所描述各个方面的元素的所有结构和功能上的等同变换，都将通过引用而明确地包含到本文中，并且旨在由权利要求所覆盖。

Claims

1.一种用于提供情绪管理辅助的方法，包括：

接收声音流；

从所述声音流中检测用户与至少一个对话方之间的语音对话；

至少根据所述语音对话中所述对话方的语音来识别所述对话方的身份；

确定在所述语音对话中所述用户的至少一个语音片段的情绪状态；以及

生成与所述语音对话相对应的情绪记录，所述情绪记录至少包括所述对话方的身份、所述语音对话的至少一部分内容、以及所述用户的至少一个语音片段的情绪状态，

其中，所述对话方的身份是进一步根据以下中的至少一项来识别的：所述语音对话的环境信息、所述声音流中的背景音、以及所述语音对话的至少一部分内容。

2.如权利要求1所述的方法，其中，所述用户的至少一个语音片段中的每个语音片段的情绪状态包括：该语音片段的情绪类型和/或所述情绪类型的级别。

3.如权利要求1所述的方法，其中，检测所述语音对话包括：

至少根据所述声音流中的所述用户的语音和/或所述对话方的语音来检测所述语音对话的开始点和结束点。

4.如权利要求3所述的方法，其中，所述语音对话的开始点和结束点是进一步根据以下中的至少一项来检测的：所述用户的生理信息、所述语音对话的环境信息、以及所述声音流中的背景音。

5.如权利要求1所述的方法，其中，所述用户的至少一个语音片段中的每个语音片段的情绪状态是根据以下中的至少一项来确定的：所述语音片段的波形、与所述语音片段相对应的所述用户的生理信息、以及与所述语音片段相对应的环境信息。

6.如权利要求1所述的方法，其中，所述情绪记录还包括以下中的至少一项：

从所述语音对话中提取的关键字/词；

所述语音对话的内容摘要；

所述语音对话发生的时间；

所述语音对话发生的地点；

所述用户在所述语音对话中的综合情绪状态；

对与所述语音对话相关联的所述用户的另一对话的指示；以及

情绪建议。

7.如权利要求1所述的方法，还包括：

至少根据所述用户的当前语音片段的当前情绪状态和所述用户的至少一个先前语音片段的至少一个先前情绪状态来确定所述用户的情绪状态变化；以及

由预测模型至少根据所述用户的情绪状态变化来确定情绪关注点。

8.如权利要求7所述的方法，其中，所述预测模型进一步根据以下中的至少一项来确定所述情绪关注点：所述当前情绪状态，所述语音对话的至少一部分内容，所述当前情绪状态的持续时间，所述语音对话中的话题，所述对话方的身份，以及所述用户的历史情绪记录。

9.如权利要求7所述的方法，还包括：

在所述情绪记录中标示出所述情绪关注点；和/或

在所述语音对话期间，在所述情绪关注点处向所述用户提供提示。

10.如权利要求1所述的方法，还包括：

从一个或多个声音流中检测多个语音对话；以及

生成与所述多个语音对话分别对应的多个情绪记录。

11.如权利要求10所述的方法，其中，所述多个情绪记录中的每个情绪记录还包括所述用户在与该情绪记录对应的语音对话中的综合情绪状态，

所述方法还包括：

根据在多个预定时段的每个预定时段内的至少一个情绪记录中所包括的所述用户的至少一个综合情绪状态，生成所述用户在所述每个预定时段内的阶段性情绪状态；以及

根据所述用户在所述每个预定时段内的阶段性情绪状态，生成所述用户在所述多个预定时段上的情绪统计。

12.如权利要求10所述的方法，其中，所述多个情绪记录中的每个情绪记录还包括所述用户在与该情绪记录对应的语音对话中的综合情绪状态，

所述方法还包括：

根据在多个预定时段的每个预定时段内的至少一个情绪记录中所包括的所述用户的至少一个综合情绪状态，生成所述用户在所述每个预定时段内的每种情绪类型的阶段性情绪级别；以及

根据所述用户在所述每个预定时段内的每种情绪类型的阶段性情绪级别，生成所述用户在所述多个预定时段上的每种情绪类型的情绪统计。

13.如权利要求11或12所述的方法，其中，所述至少一个情绪记录关联于相同的对话方的身份。

14.如权利要求1所述的方法，还包括：

将所述情绪记录提供给所述用户或第三方。

15.如权利要求14所述的方法，还包括：

从所述用户或第三方接收对所述情绪记录的反馈；以及

根据所述反馈来更新所述情绪记录。

16.一种用于提供情绪管理辅助的装置，包括：

接收模块，用于接收声音流；

检测模块，用于从所述声音流中检测用户与至少一个对话方之间的语音对话；

识别模块，用于至少根据所述语音对话中所述对话方的语音来识别所述对话方的身份；

确定模块，用于确定在所述语音对话中所述用户的至少一个语音片段的情绪状态；以及

生成模块，用于生成与所述语音对话相对应的情绪记录，所述情绪记录至少包括所述对话方的身份、所述语音对话的至少一部分内容、以及所述用户的至少一个语音片段的情绪状态，

17.根据权利要求16所述的装置，其中，所述检测模块还用于：

18.根据权利要求16所述的装置，其中，所述确定模块还用于：

由预测模型至少根据所述用户的情绪状态变化来确定情绪关注点，其中，该情绪关注点被标示在所述情绪记录中，和/或被用于在所述语音对话期间向所述用户提供提示。

19.一种用于提供情绪管理辅助的装置，包括：

一个或多个处理器；以及

存储计算机可执行指令的存储器，当所述计算机可执行指令被执行时，使得所述一个或多个处理器执行以下操作：

接收声音流；