CN106992013B

CN106992013B - 语音情感修改

Info

Publication number: CN106992013B
Application number: CN201710036873.1A
Authority: CN
Inventors: J.E.纳曼; S.马蒂; D.迪森索
Original assignee: Harman International Industries Inc
Current assignee: Harman International Industries Inc
Priority date: 2016-01-20
Filing date: 2017-01-18
Publication date: 2023-09-19
Anticipated expiration: 2037-01-18
Also published as: US20170206913A1; US10157626B2; JP2017129853A; CN106992013A; CA2953539A1; EP3196879A1; JP6863733B2; KR102658445B1; CA2953539C; KR20170087416A

Abstract

一种用于修改语音情感的技术。所述技术包括：确定与人相关联的情绪状态；以及基于所述情绪状态，修改从所述人获取的语音样本的一个或多个声学特性，以便更改与所述语音样本相关联的情感。所述技术还包括：基于已修改的所述一个或多个声学特性，生成第二语音样本；以及传输所述第二语音样本。

Description

语音情感修改

技术领域

各种实施方案总体涉及音频信号处理，并且更具体地，涉及语音情感修改技术。

背景技术

有效交流在发展和维持健康的社会联系和业务关系方面扮演重要角色。然而，当参与会话时，许多人都难以准确传达他们的情绪状态和/或准确确定他们周围的那些人或直接参与会话的那些人的情绪状态。例如，不同文化常常经由不同类型面部表情、手势、身体姿势等来表达情绪。因此，由于这些文化差异，来自不同文化背景的人可能难以在会话过程中有效地将他们的情绪传达给彼此。再如，患有自闭症类系障碍的人在与他人交流或交互时常常难以准确传达他们的情绪和解释他人情绪。

为使人们能够在交流时更有效地传达他们的情绪状态，一些形式的电子通信使得用户能够经由图形符号来明确地指示他们的情绪。例如，许多文本消息发送平台包括图形面部表情(即，表情符号)，用户可选择来以图形的方式将他或她的情绪状态传达给另一用户。然而，除了这些类型平台之外，当前并无可用系统来自动地帮助用户在现场和/或真人交互过程中传达和解释情绪状态。因此，由于他们无法有效传达和解释情绪状态，因此许多人仍不断与交流和社交做出斗争，这抑制了他们发展和维持健康关系的能力。

如前所述，用于在彼此交流或交互时传达和解释人的情绪状态的更有效的技术将会是有用的。

发明内容

本公开的实施方案阐述一种用于修改语音情感的方法。所述方法包括：确定与人相关联的情绪状态；以及基于所述情绪状态，修改从所述人获取的语音样本的一个或多个声学特性以更改与所述语音样本相关联的情感。所述方法还包括：基于已修改的所述一个或多个声学特性，生成第二语音样本；以及传输所述第二语音样本。

另外实施方案除其它外提供被配置成实现上述技术的一种系统和一种非暂时性计算机可读存储介质。

所公开的技术的至少一个优点是可使说话者的语音情感增强，以使说话者能够更有效地传达他们的情绪状态和/或帮助聆听者更有效地确定说话者的情绪状态。此外，可使说话者的语音中的情感减弱和/或改变，例如但不限于掩饰说话者的情绪状态。此外，可以经由一种或多种类型的传感器数据来自动地确定说话者的情绪状态，而不需要来自说话者或聆听者的交互。

附图说明

为了可详细地理解以上阐述的一个或多个实施方案的列举特征所用方式，可参考某些特定实施方案来获得以上简要概述的一个或多个实施方案的更具体的描述，这些特定实施方案中的一些在附图中图示。然而，应当注意，附图仅示出了典型实施方案，并且因此不理解为以任何方式来限制实施方案范围，因为各种实施方案的范围也涵盖其它实施方案。

图1是根据各种实施方案的关于语音情感修改系统如何可在会话期间修改用户语音情感的概念图示；

图2是根据各种实施方案的计算系统的图示，所述计算系统被配置成实现图1的语音情感修改系统的一个或多个方面；

图3A和图3B示出根据各种实施方案的用于经由图1的语音情感修改系统生成修改过的语音样本的不同技术；以及

图4是根据各种实施方案的用于修改语音情感的方法步骤的流程图。

具体实施方式

在以下描述中，阐述许多特定细节，以便提供对本公开的实施方案的更透彻的理解。然而，将对本领域的技术人员显而易见的是，本公开的实施方案可在没有这些特定细节中的一个或多个的情况下实践。

如上所述，许多人都难以准确传达他们的情绪状态和/或准确解释与他们交流的那些人的情绪状态。例如，但不限于，文化差异、焦虑、神经障碍、糟糕交流技巧等会阻止说话者有效利用语言和/或非语言提示传达他或她的情绪。类似地，此类问题也会阻止聆听者准确解释由他人传达的情绪。

因此，为了促进在会话者之间的情绪的更有效的交流，语音情感修改系统(以下称为“语音系统”)可以确定与用户相关联的情绪状态，然后基于情绪状态修改从用户获取的语音样本的一个或多个声学特性。更具体地，可修改语音样本的声学特性(诸如该语音样本的音高、音质、音色、声音扰动、语音语调、响度、韵律、语音模式和/或语速)以增强、减弱和/或改变该语音样本的情感。接着，将修改过的语音样本输出至正在与用户交流的人，从而使得能够更有效地传达和解释该用户的预期情绪状态。在各种实施方案中，语音系统在修改情感时，仅对各语音样本的声学特性做出细微改变，使得会话各方不因语音系统操作分心。

图1是根据各种实施方案的关于语音系统100如何可在会话期间修改用户的语音情感的概念图示。语音系统100可以包括但不限于麦克风110和扬声器120。

如图所示，经由一个或多个麦克风110从用户处获取语音样本112。接着，通过修改语音样本112的一个或多个声学特性来对语音样本112进行处理，以便生成修改过的语音样本114，这种修改过的语音样本更准确地传达预期情绪。例如，但不限于，如果用户想要增加他或她的语音中传达的兴奋程度，那么语音系统100可处理语音样本112以增大语音样本112的音高和响度，并且/或者诸如通过修改音高、响度和/或语速或者语音样本112中包括的特定词或短语，修改语音样本112的韵律特性。相反，如果用户想要增大他或她的语音中传达的悲伤或同情的程度，那么语音系统100可处理语音样本112以减小语音样本112的音高和语速，并且/或者修改语音样本112的韵律特性，以便强调这些特定情绪。然后，语音系统100将会经由扬声器120将修改过的语音样本114输出至聆听者。

在各种实施方案中，与语音系统100相关联的一个或多个传感器会自动地检测用户情绪状态。接着，语音系统100基于情绪状态修改从用户获取的语音样本112，以便增强、减弱和/或改变语音样本112的情感。例如，但不限于，如果用户难以传达快乐或感激的情感，那么与语音系统100相关联的一个或多个传感器可检测出指示用户快乐或感激的语言和/或非语言提示。然后，语音系统100将会修改从用户获取的语音样本112以诸如通过增大语音样本112的音高和/或语速来增大语音样本112中反映的快乐或感激的程度。因此，虽然正在与用户交流的人可能无法理解该用户描述的某些语言和/或非语言提示指示用户是快乐或感激的，但是语音系统100可检测出这些提示并修改语音样本112的情感以更有效地传达用户的快乐或感激。

在另一非限制性实例中，与语音系统100相关联的一个或多个传感器可检测出指示用户愤怒或沮丧的语言和/或非语言提示。随后，语音系统100可修改从用户获取的语音样本112以诸如通过减小语速、降低音高和/或中和语音样本112的音调来减小语音样本112中反映的愤怒和/或沮丧的程度。因此，在此类实施方案中，语音系统100可使感觉愤怒或沮丧的用户能够更礼貌地与他人交流而不使用令人讨厌的语调。或者，当语音系统100检测到用户是愤怒的或沮丧的时，语音系统100可增强语音样本112中的情感以诸如通过增加语音样本112的次谐波频率来增大语音样本112中反映的愤怒和/或沮丧的程度。在此类实施方案中，语音系统100将使感觉愤怒或沮丧但无法有效传达这种愤怒或沮丧的用户将能够被他人更准确地理解。

因此，在一些实施方案中，语音系统100在语音系统100经由一个或多个传感器确定用户处于第一组情绪状态(例如，快乐、兴奋、深情)时，可增强语音样本112的情感，并且在用户处于第二组情绪状态(例如，愤怒、沮丧、悲伤)时，可减弱或改变语音样本112的情感。以下结合图2更详细地描述用于经由一个或多个传感器检测用户的情绪状态的其它技术。

在各种实施方案中，用户可以选择他或她想要在语音样本100中增强、减弱和/或改变的一个或多个情绪。用户还可选择每个情感应被语音系统100增强、减弱和/或改变的程度。一般来说，用户可以选择增强、减弱和/或改变他或她自己的语音样本112中的情感，或者用户可以选择增强、减弱和/或改变从正在与用户交流的人获取的语音样本112中的情感。例如，但不限于，用户可经由与语音系统100相关联的图形用户界面(GUI)来选择第一情绪(例如，“兴奋”)，并且指示这种情绪应当增强。作为响应，当语音系统100检测到用户和/或正在与用户交流的人兴奋时，经由麦克风110获取的语音样本112的情感将会诸如通过增大语音样本112的响度、音高和/或语速来进行修改以强调兴奋。

此外，用户可以经由与语音系统100相关联的GUI选择第二情绪(例如，“愤怒”)，并且指示这种情绪应当减弱。随后，当语音系统100检测到用户和/或正在与用户交流的人生气时，经由麦克风110获取的语音样本112的情感将会诸如通过减小语音样本112的语速和响度来进行修改以减弱语音样本112中的愤怒。在另一非限制性实例中，用户可经由与语音系统100相关联的GUI来选择第三情感(例如，“紧张”)，并且指示这种情绪应当改变。然后，当语音系统100检测到用户和/或正在与用户交流的人紧张时，经由麦克风110获取的语音样本112的情感将被改变并以不同情绪替代，诸如自信。

在一些实施方案中，GUI可实现在与语音系统100相关联的智能电话或移动计算机显示器上。另外，在一些实施方案中，本文中描述的任何功能(例如，增强、减弱、改变等)可自动地通过语音系统100实现，而不需要经由GUI的显式交互。

图2是根据各种实施方案的计算系统的图示，所述计算系统被配置成实现图1的语音系统100的一个或多个方面。如图所示，语音系统100可以包括但不限于一个或多个麦克风110、一个或多个扬声器120、计算装置200、相机220和电极222。计算装置200包括处理器202、输入/输出(I/O)装置204和存储器210。存储器210包括语音修改应用212，所述语音修改应用212被配置成与数据库214交互。

麦克风110可以包括无线或有线声换能器。例如，但不限于，麦克风110可以包括单个换能器、全向换能器、定向换能器和/或使动态射束成形的麦克风阵列。

在各种实施方案中，语音修改应用212可从经由麦克风110获取的一个或多个语音样本112来确定用户情绪状态。例如，但不限于，语音修改应用212可检测出语音样本112中指示情绪状态的一个或多个声学特性。接着，语音修改应用212将会实时修改这些声学特性和/或与其它情绪状态相关的声学特性以增强、减弱或改变语音样本112中的情感。

在各种实施方案中，相机220被配置成检测用户面部表情、由用户执行的手势、瞳孔扩张、用户姿势和/或用户身体语言。例如，但不限于，可分析由相机220获取的图像以确定用户的眼、眉、嘴、鼻、前额、脸颊、指尖、关节、手掌、手腕、手臂、肩、背、腿等的位置和/或形貌。接着，可使用这些身体部分中的一个或多个的位置和/或形貌来确定用户情绪状态。例如，但不限于，用户的脸部和/或身体的图像可由相机220获取并由语音修改应用212处理，以便确定该用户的眉和嘴的形状和/或该用户的姿势。然后，可分析该用户的眉和嘴的形状和/或该用户的姿势以确定用户情绪状态。虽然在图2中仅示出了一个相机220，但是可使用位于相对于用户的任何位置处的任何数量相机220来检测用户情绪状态和/或正在与用户交流的人的情绪状态。

电极222可以包括一个或多个脑电图(EEG)电极、皮肤电导电极、心率传感器电极和/或肌电图(EMG)电极。一般来说，电极222获取与用户情绪状态相关联的传感器数据。例如，但不限于，可通过语音修改应用212来分析经由EEG电极获取的传感器数据以检测用户大脑活动。接着，语音修改应用212可基于大脑活动来确定用户情绪状态，并且基于该情绪状态来修改一个或多个语音样本112。另外，可经由其它类型的传感器数据(诸如经由功能性磁共振成像(fMRI)和功能性近红外光谱(fNIRS)获取的传感器数据)来确定指示用户的情绪状态的大脑活动。

在一些实施方案中，可使用经由皮肤电导电极和/或心率传感器电极获取的传感器数据来确定用户情绪状态。例如，但不限于，语音修改应用212可处理经由一个或多个皮肤电导电极获取的传感器数据来确定用户正在流汗。基于这个传感器数据并任选地结合其它传感器数据(例如，经由相机220获取的用户脸部的图像)，语音修改应用212随后就可确定用户是紧张的。在另一非限制性实例中，语音修改应用212可处理经由心率传感器电极获取的传感器数据来确定用户具有升高心率。随后，基于这个传感器数据并任选地结合其它传感器数据(例如，用户的语音样本112的频谱分析)，语音修改应用212就可确定用户是快乐和/或兴奋的。

语音系统100可以包括任何数量的电极222，它们被配置为将放置成与用户的头皮、耳道和/或该用户的头部或身体的其它部分接触。在一些实施方案中，本文中描述的一种或多种类型的电极222被包括在用户抓持或佩戴的装置中，诸如在智能电话、耳机、手镯、臂章、胸带、耳塞或成对耳机230中。在其它实施方案中，语音修改应用212可通过经由血液氧合传感器检测用户生理变化或通过经由加速度计、陀螺仪或磁力计检测用户的移动来确定用户情绪状态。

I/O装置204可以包括输入装置、输出装置和既能够接收输入并也能够提供输出的装置。例如，但不限于，I/O装置204可以包括有线和/或无线通信装置，所述有线和/或无线通信装置向语音系统100中包括的麦克风110、扬声器120、相机220和/或电极222发送数据和/或从中接收数据。另外，I/O装置204可以包括接收指示用户情绪状态的其它类型的传感器数据的一个或多个有线或无线通信装置。

在各种实施方案中，语音系统100可以包括个人音频装置、移动计算机、个人数字助理、移动电话、台式计算机或适于实践本文中描述的一个或多个实施方案的任何其它装置。在一些实施方案中，语音系统100包括一对耳机230，诸如图2所示头戴式耳机(over-the-ear headphone)，其中任选地设置有一个或多个麦克风110。然而，一般来说，可使用任何类型的有线或无线耳机(包括罩耳式耳机、挂耳式耳机和入耳式耳机)来执行本文中描述的技术。在其它实施方案中，语音系统100可为能够为用户捕获和再现声音的任何声学装置，包括辅助医疗装置(诸如助听装置)或移动通信装置(例如耳机)。

一般来说，计算装置200被配置成协调语音系统100的整体操作。在其它实施方案中，计算装置200可耦接到语音系统100的其它组件，但是与这些其它组件分离。在此类实施方案中，语音系统100可以包括单独的处理器，单独的处理器接收语音样本112和/或指示用户的情绪状态的传感器数据并且将数据(例如，传感器数据和/或修改过的语音样本114)传输到计算装置200，所述计算装置可包括在诸如个人计算机、可穿戴装置、智能电话、便携式媒体播放器等单独装置中。然而，本文中公开的实施方案构想出了被配置成实现语音系统100的功能的任何技术上可行的系统。

处理器202可为被配置成处理数据并且执行程序代码的任何技术上可行形式的处理装置。处理器202可为例如但不限于中央处理单元(CPU)、图形处理单元(GPU)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)等。存储器210可包括存储器模块或存储器模块集合。存储器210内的语音修改应用212由处理器202执行以实现计算装置200的总体功能，并且因此整体协调语音系统100的操作。例如，但不限于，经由麦克风110、相机220和电极222获取的语音样本112和/或传感器数据可通过语音修改应用212处理以生成修改过的语音样本114和/或指示用户的情绪状态的数据。在一些实施方案中，数据库214存储语音样本112、修改过的语音样本114、音频参数、传感器数据、算法、统计数据和用户偏好。

在语音系统100结合耳机230或耳塞来实现的实施方案中，耳机230或耳塞可以在透声模式下操作，在这种模式下，用户可以听到周围环境中的环境声音。在透声模式下，语音修改应用212可检测正在与用户交流的一个或多个人相关联的语音样本112(例如，经由可选语音增强)并修改语音样本112以增强、减弱或改变语音样本112的情感。接着，修改过的语音样本114将会经由包括在耳机230或耳塞中的扬声器120来输出至用户。

另外，语音系统100可经由有源噪声消除技术来修改语音样本112中的情感，诸如通过经由扬声器120输出反相信号以消除语音样本112中的特定声音频率来修改语音样本中的情感。例如，但不限于，可经由一个或多个反相信号来消除用户语音中的某些频率，以便增强、减弱或改变用户的语音情感。另外，语音系统100可结合外部扬声器120(例如，扩音器)来实现此类技术，该外部扬声器在真人交流期间输出修改过的语音样本114和/或噪声消除信号。在此类实施方案中，语音修改应用212可修改语音样本112以增强、减弱或改变语音样本112的情感，并且以与用户自己语音类似或更大的音量输出修改过的语音样本114，从而允许正在与用户交流的人更准确地感知用户情绪状态。

一般来说，语音修改应用212可使用任何技术上可行的算法或技术来修改语音样本112以增强、减弱或改变与语音样本112相关联的情感。在一些实施方案中，语音修改应用212经由音频处理技术修改语音样本112的声学特性，所述音频处理技术诸如傅里叶变换、谐波缩放、音高缩放、音高移位、时间拉伸、时间压缩和重新采样。另外，可在各种实施方案中实施诸如自动调谐或类似音频处理技术的商业技术。

由于不同用户可以不同方式表达情绪(例如，由于文化原因或个人原因)，因此语音系统100可以包括训练模式。在训练模式下，语音系统100处理与特定情绪状态相关联的传感器数据，以便学习用户情绪状态，从而使得能够在语音系统100的操作期间更准确地确定情绪状态。在一些实施方案中，语音系统100实现机器学习算法，以便生成语音系统100可实现来确定情绪状态的用户启发法。接着，可将这样的启发法存储在数据库214中并由语音修改应用212访问。

在通过语音修改应用212来获取多种类型的传感器数据以确定用户情绪状态的实施方案中，可向每种类型的传感器数据分配权值。接着，可基于针对每个传感器类型确定的情绪状态和分配给每个传感器类型的权值来确定用户情绪状态。例如，但不限于，用户可与GUI交互以将第一权值分配至与大脑活动相关联的传感器数据，将第二权值分配至与面部表情相关联的传感器活动，并且将第三权值分配至与从语音样本112获取的声学特性相关联的传感器数据。接着，语音修改应用212将会确定由每种类型的传感器数据指示的情绪状态，将权值施加到每个情绪状态，并基于权值来确定主要情绪状态。在一些实施方案中，将权值分配至特定类型的传感器数据可使语音修改应用212能够在检测到模糊语言和非语言提示时更准确地确定正确情绪状态。另外，将权值分配至特定类型的传感器数据可使语音修改应用212能够不太重视可不太准确反映用户情绪状态的传感器数据的类型，而不完全忽略这些类型的传感器数据。

图3A和图3B示出根据各种实施方案的用于经由图1的语音系统100生成修改过的语音样本114的不同技术。如图3A所示，在一些实施方案中，与说话者相关联的装置310(例如，智能电话)上执行的语音修改应用212获取语音样本112、确定说话者的情绪状态，并且将语音样本112和情绪状态两者传输至聆听者。接着，与聆听者相关联的装置320接收语音样本112和情绪状态，并且聆听者装置320上执行的语音修改应用212生成输出至聆听者的修改过的语音样本114。因此，在此类实施方案中，语音样本112被处理以增强、减弱和/或改变情感的方式可由聆听者控制，诸如经由通过在聆听者装置320上执行的语音修改应用212实现的GUI来由聆听者控制。

如图3B所示，在一些实施方案中，与说话者相关联的装置310上执行的语音修改应用212获取语音样本112、确定说话者的情绪状态，并且本地修改语音样本112以生成修改过的语音样本114。接着，将修改过的语音样本114传输到与聆听者相关联的装置320并输出至聆听者。因此，在此类实施方案中，语音样本112被处理以增强、减弱和/或改变情感的方式可由说话者控制，诸如经由上述任何GUI实现来由说话者控制。

另外，在图3A和图3B所示实施方案中，说话者和聆听者可协商语音样本112被修改以增强、减弱和/或改变情感的程度。在此类实施方案中，各聆听者和说话者均可对一个或多个情绪状态的增强、减弱和/或改变的优选程度进行选择。接着，语音修改应用212可基于由说话者和聆听者做出的选择来修改语音样本112，诸如通过选择由各方选择的增强、减弱和/或改变的较低程度来对语音样本进行修改。

图4是根据各种实施方案的用于修改语音情感的方法步骤的流程图。虽然结合图1-3B的系统来描述了方法步骤，但是本领域的技术人员将会理解，被配置成以任何次序执行方法步骤的任何系统全都落入各种实施方案的范围内。

如图所示，方法400始于步骤410，其中语音修改应用212分析经由麦克风110、I/O装置204、相机220、电极222等接收的传感器数据，以便确定用户情绪状态。例如，但不限于，如上所述，语音修改应用212可分析传感器数据以检测指示用户的情绪状态的语言和/或非语言提示。接着，在步骤420，语音修改应用212确定是否应当分析附加类型的传感器数据。如果应当分析附加类型的传感器数据，那么方法400返回到步骤410。

如果不应分析附加类型的传感器数据，那么方法400继续步骤430，其中语音修改应用212任选地对每种类型的传感器数据加权。如上所述，在一些实施方案中，语音系统100的用户可对权值进行选择以施加到每种类型的传感器数据。另外，在一些实施方案中，语音修改应用212可自动地将权值施加到一种或多种类型的传感器数据。

在步骤440，语音修改应用212分析针对每种类型的传感器数据而确定的情绪状态，并且确定由传感器数据指示的主要情绪状态。在权值被施加到一种或多种类型的传感器数据的实施方案中，语音修改应用212可通过将对应权值施加到针对每种类型的传感器数据而确定的情绪状态并确定哪种情绪状态有最高值来确定主要情绪状态。例如，但不限于，语音修改应用212可以将40％的第一权值分配给第一类型的传感器数据(例如，经由麦克风110获取的语音样本112)，将30％的第二权值分配给第二类型的传感器数据(例如，经由照相机220获取的面部图像)，并且将30％的第三权值分配给第三类型的传感器数据(例如，经由电极222获取的大脑活动)。随后，如果语音修改应用212针对第一类型的传感器数据和第二类型的传感器数据两者确定“快乐”情绪状态，但是针对第三类型的传感器数据确定“愤怒”情绪状态，那么在步骤440，语音修改应用212将(例如，基于70％的总权值)确定“快乐”情绪状态是主要情绪状态。

在一些实施方案中，在步骤440，语音修改应用212可以确定由用户展示的多个主要情绪状态。例如，但不限于，语音修改应用212可分析语言提示(例如，基于语音样本112)以确定第一情绪状态，并且可分析非语言提示(例如，基于面部表情)以确定第二情感状态。接着，如果语音修改应用212确定第一情绪状态不与第二情绪状态冲突，那么可将第一情绪状态和第二情绪状态两者指定为主要情绪状态。冲突情绪状态的非限制性实例包括快乐情绪状态和悲伤情绪状态。不冲突的情绪状态的非限制性实例包括快乐情绪状态和紧张情绪状态，或者愤怒情绪状态和悲伤情绪状态。

接着，在步骤450，语音修改应用212确定从用户获取的语音样本112将是进行本地(例如，经由扬声器装置310)修改还是远程(例如，经由聆听者装置320)修改。如果语音修改应用212确定语音样本112将是进行本地修改，那么方法400继续步骤460，其中语音修改应用212基于主要情绪状态修改语音样本112的一个或多个声学特性。另外，在步骤460，语音修改应用212可基于主要情绪状态来生成一个或多个噪声消除信号，以便消除语音样本112的某些方面(例如，特定频率)。接着，在步骤465，语音修改应用212诸如通过将修改过的语音样本114传输至聆听者装置320和/或通过经由扬声器120输出修改过的语音样本114，输出修改过的语音样本114。方法400随后返回到步骤410。

返回到步骤450，如果语音修改应用212确定语音样本112将要进行远程修改，那么方法400继续步骤470，其中语音修改应用212将一个或多个语音样本112和指示主要情绪状态的数据传输至远程装置，诸如聆听者装置320。如上所述，将语音样本112和指示主要情绪状态的数据传输至远程装置使得远程用户能够确定将如何处理语音样本112以增强、减弱和/或改变语音样本112中的情感。方法400随后返回到步骤410。

总之，语音修改应用基于一种或多种类型的传感器数据，确定用户情绪状态。接着，语音修改应用修改从用户获取的语音样本，以便基于情绪状态增强、减弱和/或改变语音样本中的情感。随后，语音修改应用将修改过的语音样本输出至聆听者。

本文中描述的技术的至少一个优点是可增强说话者的语音中的情感以使得说话者能够更有效地传达他们的情绪状态和/或帮助聆听者更有效地确定说话者的情绪状态。此外，可使说话者的语音中的情感减弱和/或改变，例如但不限于掩饰说话者的情绪状态。此外，可以经由一种或多种类型的传感器数据来自动地确定说话者的情绪状态，而不需要来自说话者或聆听者的交互。

已出于说明目的而呈现对各种实施方案的描述，但是这些描述并不旨是详尽的或限制于所公开的实施方案。在不背离所描述的实施方案的范围和精神的情况下，许多的修改和变化将对本领域的那些普通技术人员显而易见。

本实施方案的方面可实施为系统、方法或计算机程序产品。因此，本公开的方面可采取完全硬件实施方案、完全软件实施方案(包括固件、常驻软件、微代码等)或结合软件方面和硬件方面的实施方案的形式，所述实施方案在本文中可全部概括地称作“电路”、“模块”或“系统”。另外，本公开的方面可采取在一个或多个计算机可读介质中实施的计算机程序产品的形式，所述一个或多个计算机可读介质具有在其上实施的计算机可读程序代码。

可利用一个或多个计算机可读介质的任何组合。计算机可读介质可为计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可为例如但不限于电子、磁性、光学、电磁、红外或半导体系统、设备或装置或者前述系统、设备或装置的任何合适组合。计算机可读存储介质的更特定的实例(非详尽的列表)将包括：具有一个或多个电线的电气连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便携式光盘只读存储器(CD-ROM)、光学存储装置、磁性存储装置或上述各项的任何合适组合。在本文档的上下文中，计算机可读存储介质可为任何有形介质，所述有形介质可含有或存储供指令执行系统、设备或装置使用或连同指令执行系统、设备或装置一起使用的程序。

以上参考根据本公开的实施方案的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述了本公开的方面。应当理解，可通过计算机程序指令来实现流程图和/或方框图中的每个方框以及流程图和/或方框图中的方框组合。这些计算机程序指令可提供至通用计算机、专用计算机的处理器或其他可编程数据处理设备以产生一种机器，使得经由计算机的处理器或其它可编程数据处理设备执行的指令启用一个或多个流程图方框和/或方框图方框中指定的功能/动作的实现。这样的处理器可为但不限于通用处理器、特殊用途处理器、专用处理器或现场可编程处理器或门阵列。

附图中的流程图和方框图示出根据本公开的各种实施方案的系统、方法和计算机程序产品的可能实现方式的架构、功能和操作。就此而言，流程图或方框图中的每个方框均可表示代码的模块、片段或部分，所述代码包括用于实现指定逻辑功能的一个或多个可执行指令。还应注意，在一些替代实现方式中，方框中指出的功能可按照附图中指出的次序以外的次序发生。例如，根据所涉及的功能，连续地示出的两个方框实际上可大体上同时执行，或者方框有时可按相反次序执行。还将指出，方框图和/或流程图中的每个方框以及方框图和/或流程图中的方框组合可由执行指定功能或动作的基于专用硬件的系统、或由专用硬件和计算机指令的组合来实施。

虽然前述内容涉及本公开的实施方案，但是在不背离本公开的基本范围的情况下可设想出本公开的其他和另外的实施方案，并且本公开的范围由随附权利要求书确定。

Claims

1.一种非暂时性计算机可读存储介质，所述非暂时性计算机可读存储介质包括指令，所述指令在由处理器执行时，将所述处理器配置成通过执行以下步骤来对语音情感进行修改：

确定与人相关联的第一情绪状态和第二情绪状态彼此不冲突；

将所述第一情绪状态和所述第二情绪状态中的每一个分类为主要情绪状态；

响应于将所述第一情绪状态和所述第二情绪状态中的每一个的类型分为主要情绪状态，基于所述第一情绪状态和所述第二情绪状态，修改从所述人获取的语音样本的一个或多个声学特性以更改与所述语音样本相关联的情感；

基于已修改的所述一个或多个声学特性，生成第二语音样本；以及

传输所述第二语音样本。

2.如权利要求1所述的非暂时性计算机可读存储介质，其中确定与所述人相关联的所述第一情绪状态和所述第二情绪状态彼此不冲突包括分析视觉传感器数据以确定所述人的一个或多个面部特征。

3.如权利要求1所述的非暂时性计算机可读存储介质，其中确定与所述人相关联的所述第一情绪状态和第二情绪状态彼此不冲突包括分析所述语音样本以检测反映所述第一情绪状态或所述第二情绪状态的至少一个声学特性。

4.如权利要求3所述的非暂时性计算机可读存储介质，其中所述至少一个声学特性包括音高、声音扰动、响度或语速中的至少一者。

5.如权利要求1所述的非暂时性计算机可读存储介质，其中确定与所述人相关联的所述第一情绪状态和第二情绪状态彼此不冲突包括分析所述人的大脑活动。

6.如权利要求1所述的非暂时性计算机可读存储介质，其中修改所述语音样本的所述一个或多个声学特性包括增大与所述语音样本相关联的音高或减小与所述语音样本相关联的所述音高中的至少一者。

7.如权利要求1所述的非暂时性计算机可读存储介质，其中修改所述语音样本的所述一个或多个声学特性包括增大与所述语音样本相关联的速度、减小与所述语音样本相关联的所述速度、增大与所述语音样本相关联的响度或减小与所述语音样本相关联的所述响度中的至少一者。

8.如权利要求1所述的非暂时性计算机可读存储介质，其中确定所述第一情绪状态和所述第二情绪状态彼此不冲突包括：

分析与所述人相关联的第一类型的传感器数据，以便确定所述第一情绪状态；

将第一权值分配给所述第一情绪状态；

分析与所述人相关联的第二类型的传感器数据，以便确定所述第二情绪状态；

将第二权值分配给所述第二情绪状态；

分析与所述人相关联的第三类型的传感器数据，以便确定第三情绪状态；以及

将第三权值分配给所述第三情绪状态，其中主要情绪状态基于所述第一情绪状态、所述第二情绪状态、所述第三情绪状态、所述第一权值、所述第二权值和所述第三权值来确定。

9.如权利要求1所述的非暂时性计算机可读存储介质，其中确定与所述人相关联的所述第一情绪状态和所述第二情绪状态彼此不冲突包括经由图形用户界面接收对所述第一情绪状态的选择。

10.一种用于修改语音情感的系统，所述系统包括：

麦克风，所述麦克风被配置成从人处获取语音样本；

一个或多个传感器，所述一个或多个传感器被配置成获取与所述人相关联的传感器数据；

存储器，所述存储器存储语音修改应用；以及

处理器，所述处理器被耦接到所述麦克风、所述一个或多个传感器和所述存储器，其中当由所述处理器执行时，所述语音修改应用将所述处理器配置成：

基于所述传感器数据，确定与人相关联的第一情绪状态和第二情绪状态彼此不冲突；

将第一情绪状态和第二情绪状态分别分类为第一主要情绪状态和第二主要情绪状态；

响应于将所述第一情绪状态和所述第二情绪状态分别分类为所述第一主要情绪状态和所述第二主要情绪状态，基于所述第一主要情绪状态和所述第二主要情绪状态，修改所述语音样本的一个或多个声学特性以更改与所述语音样本相关联的情感；

传输所述第二语音样本。

11.如权利要求10所述的系统，其中所述处理器被配置成通过分析所述语音样本来检测与所述第一情绪状态或所述第二情绪状态中的至少一个相关联的至少一个声学特性以确定与所述人相关联的所述第一情绪状态和所述第二情绪状态彼此不冲突。

12.如权利要求10所述的系统，其中所述一个或多个传感器包括相机，并且所述处理器被配置成通过分析经由所述相机获取的一个或多个图像来确定所述人的一个或多个面部特征以确定与所述人相关联的所述第一情绪状态和所述第二情绪状态彼此不冲突。

13.如权利要求10所述的系统，其中所述一个或多个传感器包括相机，并且所述处理器被配置成通过分析经由所述相机获取的一个或多个图像来确定所述人执行的手势或所述人的身体姿势中的至少一者以确定与所述人相关联的所述第一情绪状态和第二情绪状态彼此不冲突。

14.如权利要求10所述的系统，其中所述传感器数据包括指示所述人的大脑活动的信号，并且所述处理器被配置成基于所述大脑活动，确定与所述人相关联的所述第一情绪状态和所述第二情绪状态彼此不冲突。

15.如权利要求14所述的系统，其中指示所述人的大脑活动的信号包括脑电图(EEG)信号、功能性磁共振成像(fMRI)信号或功能性近红外光谱(fNIRS)信号。

16.如权利要求10所述的系统，其中所述第二语音样本包括噪声消除信号，并且其中当由所述处理器执行时，所述语音修改应用将所述处理器配置成通过经由扬声器输出所述噪声消除信号以修改所述人的语音来传输所述第二语音样本。

17.一种用于修改语音情感的方法，所述方法包括：

获取与人相关联的传感器数据和来自所述人的语音样本；

基于所述传感器数据，确定与所述人相关联的第一情绪状态和第二情绪状态彼此不冲突；

将所述第一情绪状态和所述第二情绪状态分类为主要情绪状态；以及

响应于将所述第一情绪状态和所述第二情绪状态分类为主要情绪状态，将指示所述第一情绪状态和所述第二情绪状态的所述语音样本和数据传输至远程装置。

18.如权利要求17所述的方法，其中所述传感器数据包括所述人的语音的声学特性、所述人的面部表情或所述人的大脑活动中的至少一者。

19.如权利要求17所述的方法，其中所述远程装置被配置成基于与所述人相关联的所述第一情绪状态和所述第二情绪状态来修改所述语音样本以生成第二语音样本，并且输出所述第二语音样本。