CN108806722A

CN108806722A - 用于自动情感状态推断的方法和自动化情感状态推断系统

Info

Publication number: CN108806722A
Application number: CN201810366377.7A
Authority: CN
Inventors: 弗洛里安·艾本; 克劳斯·R·舍雷尔; 比约恩·W·舒勒
Original assignee: Allheart Ellyn Co
Current assignee: Allheart Ellyn Co
Priority date: 2017-04-21
Filing date: 2018-04-23
Publication date: 2018-11-13
Also published as: US10991384B2; EP3392884A1; US20180308508A1

Abstract

用于自动情感状态推断的方法和自动化情感状态推断系统，该方法包括以下步骤：捕获目标讲话者的语音信号；从所捕获的语音信号提取一个或更多个声学语音参数；基于从目标讲话者的语音信号提取到的一个或更多个声学语音参数、目标讲话者的一个或更多个讲话者固有参考参数以及参考讲话者的样本的一个或更多个讲话者间参考参数来校准语音标记；对校准后的语音标记应用基于评价标准的至少一组预测规则，以推断与对目标讲话者所面对的情感引发事件的评价有关的两个或更多个评价标准得分；向两个或更多个评价标准得分分配一个或更多个情感状态项，所述一个或更多个情感状态项描述在产生语音信号之前或之时目标讲话者最有可能经历的一个或更多个情感状态。

Description

用于自动情感状态推断的方法和自动化情感状态推断系统

技术领域

本发明涉及用于根据语音信号进行自动情感状态推断的方法和自动化情感状态推断系统。

产生本申请的项目已经从欧洲研究委员会(ERC)获得欧盟地平线2020研究和创新计划的资助(资助协议号680883)。

背景技术

基于语音或面部的常规情绪检测系统假定在通用不变属性意义上作为自然类别的静态情绪状态与声学参数或面部肌肉收缩的特定确定模式之间存在直接对应关系，例如使得能够基于简单的机器学习或模式匹配范例来检测和识别情绪。在常规情绪识别系统中，语音被经由例如麦克风记录并且被数字化，然后以蛮力方式提取声学特征，即，根据数字化语音音频信号的交叠短时间窗例如20毫秒至60毫秒来计算例如若干低级描述符例如Mel频率倒谱系数MFCC(对数)Mel谱带、诸如谱斜率或谱熵的谱统计量、基频、语音质量(基频微扰、振幅微扰)以及/或者信号能量。接下来，通过对所有低级描述符应用一组统计泛函例如极值、值域、均值、方差、百分位数、回归系数等，来通过较长的语音单元例如词、短语或句子或者甚至固定长度窗口例如通常1秒至10秒来汇总声学特征。基于得到的固定长度特征向量，应用机器学习方法，例如，对数据集使用统计优化方法来估计例如最近邻分类器、高斯混合模型、支持向量机、神经网络的参数，其中，感知的情绪类别或情绪维度已经由专家评定者手动标记。

虽然这些方法可能在某些情况下提供合理的结果，但是这些系统的基本假设是没有根据的，因为与常规方法对比，现代情感科学认为情绪是关于基于对环境和体感反馈的递归认知评估而不断出现的许多不同身体部分的过程，而不是静态的、明确定义的状态。这些复杂的情绪过程不易被归入单一描述性情绪标签例如恐惧或悲伤。确切地，考虑到所涉及的决定因素之间的可能的相互作用非常复杂，必须假定几乎无穷的不同情感过程。这种假设的证据通过以下事实得到：不同个体以完全不同的方式体验完全相同的事件、体验不同的情绪，并且大多数情绪体验的自我报告是混合或混杂的情绪，而不仅仅是有限的基本情绪类别中的一者。因此，似乎不可能通过将观察到的模式(声学、视觉)与观察者评定进行匹配来可靠地检测情绪过程的确切性质。

评价标准提供了用于克服常规情绪检测的缺点的方法。评价标准和评价理论的基本原理在下述文献中描述：

K.R.Scherer,A.Schorr,&T.Johnstone(Eds.).Appraisal processes inemotion:Theory,Methods,Research(92-120页).New York and Oxford:OxfordUniversity Press(纽约和牛津：牛津大学出版社).中的Scherer,K.R.(2001).Appraisalconsidered as a process of multi-level sequential checking.

Scherer,K.R.(2003).Vocal communication of emotion:A review ofresearch paradigms.Speech Communication,40,227-256.

Scherer,K.R.(2005).What are emotions？ And how can they be measured？Social Science Information,44(4),693-727.

Scherer,K.R.(2009).The dynamic architecture of emotion:Evidence forthe component process model.Cognition and Emotion,23(7),1307-1351.

Patel,S.,Scherer,K.R.,Bjorkner,E.,&Sundberg,J.(2011).Mapping emotionsinto acoustic space:The role of voice production.Biological Psychology,87,93-98.

Gentsch,K.,Grandjean,D.,&Scherer,K.R.(2013).Temporal dynamics ofevent-related potentials related to goal conduciveness and powerappraisals.Psychophysiology,50(10),1010–1022.

Fontaine,J.R.J.,Scherer,K.R.,&Soriano,C.(Eds.).(2013).Components ofemotional meaning:Asourcebook.Oxford:Oxford University Press(牛津：牛津大学出版社).

Gentsch,K.,Grandjean,D.,&Scherer,K.R.(2015).Cumulative sequentialappraisals generate specific configurations of facial muscle movements:Evidence for the Component Process Model of Emotion.PlosOne,10(8):e0135837.doi:10.1371/journal.pone.0135837.

发明内容

本发明的目的是提供用于根据语音信号进行自动情感状态推断的改进的方法和系统。

用于根据语音信号进行自动情感状态推断的方法包括以下步骤：

捕获目标讲话者的语音信号，

从所捕获的语音信号提取一个或更多个声学语音参数，

基于从目标讲话者的语音信号提取到的一个或更多个声学语音参数、目标讲话者的一个或更多个讲话者固有参考参数以及参考讲话者的样本的一个或更多个讲话者间参考参数来校准语音标记，

对校准后的语音标记应用基于评价标准的至少一组预测规则，以推断与目标讲话者所面对的情感引发事件的评价有关的两个或更多个评价标准得分，

向两个或更多个评价标准得分分配一个或更多个情感状态项，所述一个或更多个情感状态项描述在产生语音信号之前或产生语音信号时目标讲话者最有可能经历的一个或更多个情感状态。

用于基于对语音信号的分析来确定目标讲话者的一个或更多个情感状态的自动化情感状态推断系统，包括：

适于向系统提供语音信号的输入，

声学语音参数计算器，其耦接至输入并且适于从语音信号提取一个或更多个声学语音参数，

校准器，其耦接至声学语音参数计算器并且适于校准目标讲话者的语音标记，该校准基于由声学语音参数计算器提供的一个或更多个声学语音参数、目标讲话者的一个或更多个讲话者固有参考参数以及参考讲话者的样本的一个或更多个讲话者间参考参数，

预测器，其耦接至校准器并且适于通过基于评价标准的至少一组预测规则、根据语音标记来推断两个或更多个评价标准得分，

情感状态确定器，其耦接至预测器并且适于向两个或更多个评价标准得分分配一个或更多个情感状态项。

在一个实施方式中，评价标准是情感引发事件的新异度(novelty)、愉快度/有利度(pleasantness/conduciveness)、控制/应对(control/cope)以及迫切度/激励度(urgency/excitation)。根据成分过程模型(CPM)，情感引发事件是触发生物的情绪反应的任何事件，其中，情绪反应包括该生物(例如人类)的语音产生机制的与该生物的情绪反应或情绪状态有关的生理变化。例如，如果某人接收到他们赢得大量现金奖励的消息，则此人可能执行以下一系列评价标准检查：首先，检查该事件是否是新异的即意外的，在该奖励事件中假定新异度很高，并且可能会触发生理反应例如自发发声(例如尖叫)；接下来，此人检查该事件是令人愉悦还是令人不快的(愉快度评价标准)，对于该示例中的奖励，我们假定它是令人愉悦/令人愉快的；这可能会导致自发发声中的音高(pitch)升高和音高变化增加；然后，此人检查他/她是否能够控制事件/情况，或者换言之，是否能够应对该情况(控制/应对评价标准)，以及最后是否需要立即采取动作(例如，继续尖叫并且开始以增加的响度、速度和变化来谈论人们将使用奖金来做什么)，这反映了动作评价检查的迫切度；结合所有个体评价检查结果，情感状态或状态的混合体现在人的意识中(在该示例中是惊喜和喜悦)，其中，生理暗示(语音变化)可以通过所公开的本发明来测量并且被分配给个体评价标准，并且根据这些评价得分，可以推断出整体情感状态。

在替选实施方式中，可以使用这些评价标准中的少于四个评价标准。

提取一个或更多个声学语音参数中的一个声学语音参数包括：根据在给定时间段内提供的语音信号来计算一组中间值；以及根据所述一组中间值来计算统计值或者汇总所述一组中间值的中间值。在该步骤中可以计算加权和。根据评价标准中的一个评价标准、使用依赖于时间的加权函数对中间值进行加权。使用不同的加权函数来提取声学语音参数以推断与不同评价标准有关的评价标准得分，其中，每个加权函数向时间段中的不同时刻赋予更高的权重。换言之，与新异度有关的加权函数可以向时间段中的一个时刻赋予高权重，该时刻早于与迫切度有关的加权函数可以赋予高权重的时刻。与新异度、愉快度/有利度、控制/应对以及迫切度/激励度有关的加权函数向同一时间段内的不同时刻赋予高权重。自动化情感状态推断系统中的声学语音参数计算器适于执行上述步骤。

声学语音参数提取基于给定单元或该单元的一部分上的(中间)声学参数的统计量，该单元形成不需要与任何语义单元对应的片段例如词、短语、句子或固定长度的语音段。声学参数可以基于基本特征如基频，例如其均值、变化或斜率；响度，例如其均值、变化或斜率；谱平衡；共振峰。声学参数可以基于新颖特征，例如共振峰分散、(音节内和音节间)基频比率、音高调制倒谱。声学参数可以基于理论激发的特征，如与迫切度有关的释放能量的强度(发送者能量)以及与能力(power)和控制有关的响度(接收响度)。声学参数可以基于时间特征，其中，计算特征的语音话语中的点基于该点的理论相关性，以示出声学语音参数中的关于特定评价评估步骤(迫切度、应对、效价(valence)等)的信息。

优选地，声学语音参数基于选自以下参数的至少一个参数：基频、音高、响度、强度、基频扰动、基频微扰、振幅微扰、谐波噪声比、谱平衡、谱包络、共振峰频率带宽、共振峰频率幅度和倒谱系数，并且基于选自以下参数的至少一个参数：倒谱能量、增强的倒谱峰值突出(cepstral peak prominence)、倒谱峰值变化、用共振峰带宽加权的共振峰分散(formant dispersion)、音节内基频与音节间基频的比率或者伪音节内基频与伪音节间基频的比率、音节内强度变化与音节间强度变化的比率或者伪音节内强度变化与伪音节间强度变化的比率、音节内响度变化与音节间响度变化的比率或者伪音节内响度变化与伪音节间响度变化的比率、韵律相干性量度、基频的调制谱的统计量、强度的调制谱的统计量、响度的调制谱的统计量以及发声力度(effort)的量度。

可以基于从目标讲话者的语音信号提取到的一个或更多个声学语音参数、在初始校准阶段期间从目标讲话者的参考语音信号提取到的这些一个或更多个声学语音参数的特定于讲话者的均值以及通过参考讲话者的样本的语音信号计算出的一个或更多个声学语音参数的相应每个讲话者平均方差来执行校准。

校准器适于进行上述校准以及计算并存储一个或更多个声学语音参数的特定于讲话者的均值、存储一个或更多个声学语音参数的讲话者间平均方差。方差可以由校准器本身计算或由外部源提供。

通过参考讲话者的样本来计算平均方差。根据例如几个情绪中立的校准句子，例如根据目标讲话者读出几个句子，仅计算均值。这种方法不需要具有完整情绪范围的校准语音来计算可靠的方差。

然而，在初始校准阶段之后，针对目标讲话者来动态地更新均值和/或平均方差。可以通过选择参考方差和目标方差中的最大值来执行对校准过程的最终方差的选择。

为了应用作为声学语音参数的z得分的与讲话者无关的相对趋势的预测规则，使用上述校准均值和方差通过z变换将声学语音参数变换成特定于讲话者的语音标记，z变换减去均值并且通过标准偏差即方差的平方根进行归一化。

通过不同组的预测规则来推断两个或更多个评价标准得分，不同组的预测规则基于语音标记的不同组合。评价标准得分中的一个评价标准得分基于多个部分评价标准得分，一个部分评价标准得分是根据语音标记中的一个语音标记或一组语音标记的加权和来计算的。

预测规则中的一个预测规则包括语音标记中的一个语音标记与部分评价标准得分中的一个评价标准得分之间的线性关系或者语音标记中的一个语音标记与部分评价标准得分中的一个评价标准得分之间的非线性关系。自动化情感状态推断系统的预测器适于执行上述步骤。

还被称为预测器并且作为函数的一种预测规则通常用于每个语音标记。线性的、逻辑的、二次的或三次的预测器或者任何前述的被缩短至有限范围的预测器可以对评价标准得分x与语音标记y之间的函数关系y＝f(x)进行建模。尽管如此，其他非线性函数或表查找也是可能的。为了根据语音标记预测评价标准得分，函数必须是可逆的。在函数只有部分可逆的情况下，例如二次函数，首先评估唯一可逆的所有其他预测器以获得第一估计预测结果，该第一估计预测结果然后用于选择相应预测器函数的需要是可逆的部分。某些预测器可能不能返回结果，例如如果给定语音标记值在函数的可逆范围之外或者在函数的定义范围之外，则在这种情况下不会返回结果。通过对提供结果的每个预测器的输出应用权重因子来计算最终预测结果。权重因子理想地总和为1，因此针对提供结果的预测器，权重因子被归一化为总和1。可以基于关于参考数据的统计量对权重因子进行预先初始化。基于与最终预测结果有关的各个预测器的方差来计算置信度量度。

分配一个或更多个情感状态项包括：形成两个或更多个评价标准得分的向量；计算该向量与表示情感状态的参考向量之间的向量距离，从而推断目标讲话者的这些情感状态的强度，以及根据向量距离将一个或更多个情感状态项分配给向量。自动化情感状态推断系统的情感状态确定器适于执行上述步骤。

参考向量的参考点是具有评价标准得分标签的情绪类别。可以通过以下方法来根据实验确定参考向量的参考点：例如通过若干情绪描述性项对情绪类别名称的语义评估并且将数据减少至例如可以被映射至评价维度的四个维度，如在Gillioz,C.,Fontaine,J.R.,Soriano,C.,&Scherer,K.R.(2016).Mapping Emotion Terms into AffectiveSpace.Swiss Journal of Psychology,75(3),141-148.中所描述的，或者通过基于心理学知识的这些点的专家定义，或者通过前述两者或任何其他方法。基于参考向量和评价标准得分的给定观察元组，可以通过距离度量例如基于标量乘积来计算与每个参考点对应的情绪类别的强度，所述距离度量考虑线性/欧几里得距离与角距离结合。最强烈或最接近的情绪类别是最有可能感受到并且表达的情绪。以这种方式，不仅单个情绪例如最强烈的情绪能够被检测到，而且情绪的混合也能够被检测到并且用情感状态项描述。混合情绪表达的情况在实践中经常发生。

附图说明

现在将参照附图来描述本发明的非限制性示例性实施方式，在附图中：

图1示出了情绪的成分过程模型；

图2示出了用于根据语音信号进行自动情感状态推断的方法的步骤；

图3示出了自动化情感状态推断系统的实施方式的示意图。

具体实施方式

图1示出了情绪的成分过程模型CPM。一个人基于如下从t＝0处的事件开始沿着时间轴t以连续时间顺序通过多个标准来评估或评价还被称为对象、行动或情况的事件E：例如还被称为新异度(novelty)的发生的突发性的事件的性质N、还被称为愉快度/有利度(pleasantness/conduciveness)的关于个人偏好和目标P的事件的结果的理解、还被称为控制/能力(control/power)的程度的应对事件的结果的个体感知能力C以及还被称为迫切度(urgency)的使有机体针对适当行动快速准备好的感知需要U。这些评价以给定的时间顺序N、P、C、U出现，这是因为每个评价检查都取决于先前检查的结果。通过序列中每次检查的结果产生不同响应成分的累积变化V1至V4直接确定人的心理和身体反应，所述不同响应成分包括生理变化、声音、面部和身体表达、心理感觉状态，其中，对于本发明，考虑声音成分。V1是通过新异度N例如通过新异事件引起的声音反应，例如突然的声音爆发。V2是对于愉快度/有利度P例如愉快或不愉快事件的声音反应，例如宽语音与窄语音。V3是对控制/能力C的声音反应，对应对潜力的评估，例如洪亮或微弱的语音。V4是对迫切度U的声音反应，对行动的迫切度的评估，例如紧张或弛缓的声音或者快节奏或慢节奏。本发明允许对这些响应配置中的每个响应配置与语音分开测量，从而允许推断序列中评价结果的性质。然后使用评价配置文件根据可能的语言描述符来估计情绪响应的确切性质。

该方法基于相对于常规情绪检测的完全不同的假设。特别地，本发明基于情绪过程由相互交互成分的合法相关的同步轨迹组成的假设，参见图1：认知评估，其是情感过程，引发伴随着生理过程和面部、语音和身体/生理的运动表达的行动倾向，所有都反映在主观感受中。只有在某些情况下，后一成分之后才是通过一个或通常几个情感描述符标签或情感状态项对感受进行语言描述。通过外部观测者或计算机系统的情绪检测或诊断受限于以下事实：没有已知的技术来客观地分析认知或生理过程或者情绪的主观感受的过程。自我报告即通过情感状态项来描述感觉状态众所周知是不可靠的，并且出于所有实际目的是不可用的。尽管经由传感器测量一些生理过程越来越可行，但是响应模式的特殊性以及随之而来的推断的可靠性迄今令人极不满意。因此，该方法专注于最容易获得的指标——声音表达，作为用于推断潜在情绪过程的来源。只要一个人发出声音，语音就会提供持续动态地读出正在进行的情绪过程。

该方法提供了对声学语音参数的持续客观分析，这使得能够推断由认知、生理和运动表达过程引起的发声和发音过程中的潜在变化。具体地，语音研究的结果累积了关于不同语音产生过程的心理和生理原因的理论知识。本发明提出了建立如下系统的技术方法，该系统利用理论知识以根据语音记录中观察到的标记来自动推断潜在的情感过程。

在情感过程中，参见图1，存在检查情绪引发事件的四个主要的评价标准以评估主观相关性和引发行动倾向以及主观感觉：事件的新异度或突发性N(新异度标准)、事件的固有愉快度或目标有利度P(愉快度/有利度标准)、人控制或应对事件的能力C(控制/应对标准)、以及由此产生的行动和行为激励的迫切度U(迫切度/激励标准)。

这四个标准影响声音产生机制。因此，通过运动表达创建的特定语音标记的存在或缺失的程度可以由技术系统在物理上观察，所述运动表达基于这四个评价检查由情感过程的结果而产生。这使得能够基于讲话者相关的语音标记来推断情感过程的评价检查的结果，讲话者相关的语音标记又可以根据客观测量的声学语音参数而得到。

常规方法使用例如统计模型、回归或预测规则或更复杂的机器学习方法如(深度)神经网络或支持向量机将声学语音参数直接映射至根据观察者评级获得的分类或维度情绪描述符。通过常规方法不能获得对与实际感觉的主观情感状态或情绪有关的潜在情绪过程的推断或理解。

本发明的方法通过基于来自参见图1的Scherer的成分过程模型的情感过程的上述理论心理模型引入从声学语音参数到基本评价标准的推断过程的新颖数学和算法公式来克服该缺陷，从而得到用于每次评价检查的结果的数值得分(评价标准得分)。基于评价标准得分，针对多个情感状态项(例如，情绪类别名称、情绪状态等)确定可能性，多个情感状态项一起最有可能描述测量的语音样本来自于的人所经历的情感状态。

所描述的本发明的优点可以概括为：本发明使得能够推断关于潜在情感过程的细节，并且因此使得能够预测主观感觉和感受的情绪，而常规方法仅使得能够粗略估计存在什么情绪。本发明使得能够推断微妙的情感状态以及情感状态的混合。本发明不会遇到机器学习算法的常见问题，例如过度拟合训练数据库，这是因为本发明使用预测规则，除了统计分析之外，主要根据大量的语音科学和心理理论来选择和发展预测规则。通过使用多个至少三个预测器，本发明使得能够推断对于每个评价标准得分的预测的确定性的置信度度量，该置信度度量可以被转化为对于推断的情感状态的确定性的置信度度量。本发明可以利用情感过程的时间信息并且将观察到的语音标记和相关联的评价标准得分与特定时间点关联。这有助于通过考虑语音标记观察结果的时间模式来更好地理解情感过程，而不仅是考虑静态语音标记模式。此外，通过确定与情感过程有关的语音产生事件的准确时间，可以以较高水平的决策来考虑其他语境信息，例如语言内容、生理参数、面部表情或环境和情境语境，以增加估计的准确性。

图2示出了本发明方法的步骤：例如通过麦克风、前置放大器和模数转换记录语音并且对语音进行数字化D，或者可替选地，使用可用的数字音频材料；接下来，执行对相关声学语音参数的测量AP，以及执行对声学语音参数的校准以控制讲话者间的变化如声道体系结构变化Cal，由此声学语音参数被转换成特定于讲话者的语音标记；根据这些语音标记，基于多个线性和非线性预测规则来推断与潜在的情感过程有关的预测标准得分Apl，其中，每个预测器与一个或更多个语音标记有关，以及基于二至四个基本标准评价得分来确定情感状态项AT，例如单个或混合的情绪类别的名称，情感状态项在语言/语义层面上最佳地描述情感状态，即通过本地讲话者用来描述讲话者所经历的相应情绪片段的概率来描述情感状态项。

总体上，该方法包括如图2所示的五个主要步骤：

1.一个步骤包括捕获目标讲话者的语音信号D，这可以包括通过麦克风、前置放大器和模数转换进行语音记录。然而，如果数字音频材料已经作为捕获的语音信号的替代形式可用，则可以跳过记录。

2.一个步骤包括从所捕获的语音信号中提取一个或更多个声学语音参数AP，这可以包括对声学语音参数的测量。

3.一个步骤包括基于一个或更多个声学语音参数来校准语音标记Cal。讲话者校准包括将声学语音参数转换为特定于讲话者的语音标记。

4.一个步骤包括将基于评价标准的至少一组预测规则应用于经校准的语音标记以推断与目标讲话者所面对的情感引发事件的评价有关的评价标准得分Apl。对与潜在情感过程有关的评价标准得分的推断基于多个线性和非线性推断规则(预测器)，其中，每个预测器与一个或更多个语音标记有关。

5.一个步骤包括向最有可能描述一个或多个情感状态的两个或更多个评价标准得分分配一个或更多个情感状态项AT。这通过估计一个或更多个情感状态项以及相关联的可能性和优势来完成，这些情感状态项以及相关联的可能性和优势在语言/语义层面上一起最好地描述了如通过所预测的评价标准得分确定的情感状态。

以下段落详细描述了这些步骤，并且给出了参考实现方式。

为了应用步骤AP、Cal、Apl、AT的数字信号处理算法，先决条件是具有数字采样的音频信号。为了记录这样的信号，如果这样的信号尚不可用，则需要将空气压力波转换成模拟电流的装置例如麦克风、加速计传感器等，并且需要将电流转换成时间序列的数字数值(模拟电信号的采样和量化)的另一装置。对于采样，理想情况下，每秒采样至少8000个值，并且每秒采样高达96000个值。在一些实现方式中，更低或更高的值也是可能的。典型的设置是使用常规的麦克风，例如如在大多数嵌入式计算装置(如智能电话和平板计算机)中所使用的驻极体电容式麦克风和模数转换器集成电路。记录装置的选择不限于该示例，这是因为可以使用任何类型的麦克风或者甚至其他传感器如加速计或机械装置。另外，对于例如电子采样和保持电路来说，可以替代地由跟踪表面上的机械振动的数字相机或者由例如激光束或其他适当的传感器以直接测量机械振动或空气压力变化来执行从电流到数字系列值的转换。

在理想的实现方式中，仅语音信号以这种方式记录。然而，在实际应用中，可能存在其他非语音声音，例如，叠加在语音上的噪声，或者没有语音且只有非语音的声音的区域或完全无声的区域。因此，在有利的实现方式中，为了提取仅具有语音的区域，在该步骤处采用话音活动检测或语音活动检测。

此外，在更有利的实现方式中，应用语音增强技术来去除与感兴趣的语音信号交叠或混合的非语音声音。

对声学语音参数的测量AP包括数字信号处理算法，用于计算多个低级声学语音参数，然后在适当的语音段——例如单词、短语、句子或可替选地，固定长度例如0.5秒与10秒之间的语音段——上汇总这些低级声学语音参数，其中，在一些实现方式中，更长的段也是可能的。声学语音参数的选择和计算的基本构思等基于日内瓦声学简约声学参数集(Geneva Acoustic Minimalistic Acoustic Parameter Set,GeMAPS)中的现有技术，该现有技术在Eyben,F.,Scherer,K.R.,Schuller,B.W.,Sundberg,J.,André,E.,Busso,C.,...&Truong,K.P.(2016).The Geneva minimalistic acoustic parameter set(GeMAPS)for voice research and affective computing.IEEE Transactions onAffective Computing,7(2),190-202.中介绍，但是对于本发明已经通过重要的新颖声学语音参数和针对所选参数的计算方案的基本变化而得到增强。

在这样的典型实现方式中，经由短时分析来执行对低级声学语音参数的测量或数字域的计算，即来自前一步骤D的一系列数字音频样本已经被划分成有时还被称为帧的窗口，窗口通常具有约5毫秒(ms)与100ms之间的长度。特别地，有利的实现方式针对两个不同组的声学语音参数使用两个窗口长度。第一窗口A是20ms，并且第二窗口B是60ms。以交叠方式对相邻窗口进行采样，其中，窗口的起始点之间的距离(窗口采样周期)是常数值，该常数值通常但不限于小于或等于窗口的长度。有利的值的范围从5ms至25ms，其中，有利的实现方式使用10ms。

另外的步骤通常包括将窗口函数应用于音频样本的窗口(与窗口函数相乘)，例如汉明、汉宁或高斯窗口函数。然后，可以根据窗口的时域信号来计算一些声学语音参数。这样的参数的示例是过零率、信号能量(还被称为强度)、线性预测编码系数，并且基于这些参数，声道共振峰频率、幅度和带宽或者声门闭合时刻(例如从一个音高周期到下一个音高周期的微小韵律变化和更高阶聚合如基频微扰(频率变化)或振幅微扰(幅度变化))、谐波噪声比或基频(F0)。其他参数在谱域或倒谱域中被有利地计算。需要时间频率变换，其中，通常使用通常由快速傅里叶变换算法实现的离散傅里叶变换，但是可以替代地采用诸如小波、恒定Q或者Gabor或Octave频带数字滤波器组的其他变换。根据每个窗口的谱表示，各个谱带的幅度(能量)对于得到另外的声学语音参数是有意义的。这些可以包括经由如下算法来得到帧包含语音(例如周期性/谐波)信号、基频(F0)或实际心理声学感知的语音信号的音高的可能性，所述算法考虑基音的谐波序列例如次谐波采样(SHS)、或者对心理声学感知响度的估计(例如，根据等响度曲线、利用加权函数对以心理声学驱动的能量例如非线性带宽、谱带进行求和)、或者对谱能量分布和谱平衡、谱导出的谐波噪声比(例如通过自相关)或倒谱系数(例如Mel或Bark频率倒谱系数)的测量。

关于原始低级声学语音参数的几个后处理步骤是有益的。对于基频F0或音高，特别是它们包括Viterbi算法，即基于成本的音高轮廓平滑，以避免例如在浊音段与清音段之间跳跃以及在实际F0或音高的两倍与一半之间的偶发错误跳跃。类似的后处理适用于共振峰轨迹。此外，具有例如3或5个帧宽度的时间移动平均滤波器通常应用于低级声学参数，以创建时间平滑的轮廓并且过滤掉由短时间窗口引起的潜在伪像。这种平滑根据平滑有利地排除了硬边界，例如，F0从值0(对于清音帧)变换成有效的F0值>0，或者相反。

在下一步骤中，通过相关语音段随时间汇总低级声学语音参数以获得声学语音参数。这通常通过计算段内的统计量来完成，例如算术平均值、标准偏差或者低级声学语音参数轮廓的斜率的算术平均值和标准偏差。作为算术平均值的替代，已知其他平均表示，或者对于谱低级声学参数，已知将长时间平均谱(long-term average spectrum,LTAS)用作在计算谱统计量或倒谱参数之前的汇总步骤。

其他可能的汇总统计量包括高于某个相对水平的帧的百分比、信号斜率下降或上升的帧的百分比、百分位数(例如中位数、四分位数)和相互间百分位数范围。

在有利的实现方式中，如果对于清音区域，基本低级声学语音参数被定义/有效(例如，对于F0情况并非如此，但是对于强度响度来说，情况如此)，则对语音段的浊音区域和语音段的清音区域分别应用汇总。

该方法引入了替代的时间子段方案，其中，时间子段基于如图1所示的人类认知中的评价检查的理论时间顺序来定义。当所分析的语音段是对情绪触发事件的直接响应的假设成立时，该方案是最有效的。在这种情况下，例如，根据CPM理论的第一个响应与新异度评价标准有关，其次是愉快度评价标准。因此，声学语音参数和随后得到的语音标记，步骤Cal，在第一个例如500ms或1000ms的语音段中与推断新异度评价标准最相关，而例如500ms至2000ms的声学语音参数可能与愉快度最相关。本发明没有明确地命名精确的时间范围，这是因为这取决于实际的实现方式和使用情况。时间范围的示例性选择基于神经科学研究，其中，指示新异度的语音参数可以在第一个1000ms中找到(阶梯函数用作窗口——参见下文，并且仅考虑话语的第一个1000ms的参数来预测新异度)；从1500ms开始，指示迫切度的声学语音参数是最相关的，因此在计算用于迫切度预测的声学语音参数时，第一个1500ms被排除(阶梯函数——参见下文)，除非话语短于2000ms——在该情况下，考虑全部话语；对于愉快度，对500ms与2000ms之间的范围进行线性加权，并且从2000ms至6000ms(或话语的结束)，线性下降斜率被用于加权；从1000ms开始，计算用于控制的声学语音参数。

技术上，时间子段可以有利地通过加权函数来实现，在汇总期间将加权函数应用于低级声学参数(例如对加权算术平均值、标准偏差、加权百分位等的计算)。两种类型是有利的实现：

(1)阶梯函数或逻辑函数，阶梯函数或逻辑函数在相关窗口的开始时间之前为零(阶梯函数)或接近零(逻辑函数)，并且在相关子段开始之后为1或接近1，并且或者直到语音段结束保持为1或者在相关子段结束之后再次为零或接近零。

(2)改进的瑞利分布密度函数r

其中，参数σ被有利地设置为针对相应评价标准的相关子段的中心x_c，并且函数的幅度被有利地缩放，使得r(x_c)＝1。

该方法主要依赖于但不限于声学语音参数，例如：

参数可以主要是迫切度和控制的指标。语音基频(F0)或音高的测量值以及语音段内的语音基频(F0)或音高的平均统计量，例如，算术平均值或中位数或类似的百分位数，以及描述F0(或音高)轮廓的平均上升斜率和下降斜率中的至少一个的平均统计量(从轮廓的局部最小值到下一个局部最大值来计算，并且反之亦然)。更有益的是变化统计量，例如，方差或标准偏差以及低百分位数(例如10-25％)与高百分位数(例如75-90％)的比率。

参数可以是心理听觉响度度量，即在观察者处接收到的响度——尤其是对于控制评价标准，以及信号强度(由发送者递送的信号能量——尤其是对于迫切度评价标准)，并且这些是语音段内的平均统计量(例如算术平均值或中位数或类似百分位数)、标准偏差和上升斜率和下降斜率(例如与新异度相关)以及低百分位数例如10-25％与高百分位数例如75-90％的比率。

特别是对于愉快度，参数可以是扰动度量(F0或音高的微扰、振幅微扰和谐波噪声比)并且这些是均值和变化统计量。

参数可以是谱平衡(谱斜率和低频能量含量与高频能量含量的比率，其中，截止频率通常在500Hz至2000Hz之间，但是不限于该范围)、共振峰幅度和共振峰带宽以及更低阶的Mel频率倒谱系数(Mel-Frequency-Cepstral Coefficient,MFCC)，尤其是系数1-3，所述系数类似地与谱能量分布或谱平衡有关。这些是高次谐波中的能量指标，并且与声音产生系统中的表达强度和相关联的非线性有关，这与所有评价标准高度相关，但是对于迫切度和控制来说甚至更高度相关。

除了上述声学语音参数之外，以下新颖的声学语音参数对于该方法是有利的：

F0的调制谱和/或响度或强度的统计量，例如主峰位置、谱质心、谱斜率、谱熵和谱平衡，例如，作为(按重要性顺序)愉快度、控制和迫切度的指标。

韵律相干参数：例如强度和/或响度与F0和/或音高的皮尔逊相关系数，或者时间上对齐的强度和/或响度和F0和/或音高轮廓的上升斜率与下降斜率之间的差，例如，作为愉快度(在发音过程中的同步)和控制的指标。

(伪)音节内F0变化(例如，标准偏差)与音节内F0均值的音节间变化的比率，由此伪音节例如由浊音帧的连续区域定义。相关例如作为愉快度(由于产生过程更加平滑而在音节F0变化中更高)与迫切度(更高的音节间变化)的组合指标。

应用于响度或强度的以上相同的音节内与音节间变化度量或任何其他相关的声音语音参数。

共振峰分散如下所述：

Fitch,W.T.(1997).Vocal tract length and formant frequency dispersioncorrelate with body size in rhesus macaques.The Journal of the AcousticalSociety of America,102(2),1213-1222，这里用共振峰带宽加权修改为(即用相应共振峰的带宽对相邻共振峰之间的距离进行反向加权)与声道长度和可能发音清晰度关联，相关例如作为控制的指标。

倒谱能量的度量，有利地仅针对浊音语音段而计算并且被表示为对数量。倒谱能量是基于倒谱中的最大值(通过对数幅度谱的逆离散傅里叶变换而获得的倒谱Cis)而计算的：

根据同一倒谱计算出来，有利地仅根据浊音段而计算，增强了倒谱峰突出(eCPP)和倒谱峰变化(CPV)的度量：

具有在时间窗口[a；b]内的全局最大值的幅度y_p的倒谱峰出现在[a；b]中的位置x_p处，其中，窗口对应于例如F0周期长度的预期范围，例如倒谱的一部分，其中，预期F0或激励/源函数峰值(理论上的狄拉克脉冲)。

对线y＝m·x+t进行拟合(例如最小二乘或闭合形式拟合方程)以最佳匹配窗口[a；b]中的所有样本，并且在x＝x_p处评估该线以产生

从窗口[a；b]中排除峰值附近的区域(具有双侧epsilon阈值)，并且根据窗口的其余区域来计算标准偏差σ。

基于峰值幅度y_p与通过标准偏差调整的例如的比率来计算eCPP。优选地，该比率以分贝(dB)表示，例如：

CPV优选地基于标准偏差σ将窗口[a；b]区域中的倒谱的变化表示为例如：

CPV＝20·log₁₀σ

根据eCPP度量和CPV度量二者，变化系数(CoV)被得到为语音段上的标准偏差与算术平均值的商。替选实现方式还可以应用其他统计量(例如斜率或百分位数)，或者仅使用算术平均值和标准偏差或方差而不计算CoV比率。

与计算倒谱峰值突出(CPP)的现有技术方法相比，eCPP度量反映了由于包括非峰值区域的标准偏差而导致的非线性源/激励函数的影响。这直接涉及语音产生期间的极端物理情况，这可能导致语音源产生(即，声带振动)中的这种非线性。

发声力度的两种度量：基频(F0)或音高与谱质心之间的商(均以Hz或其他合适的常用测量单位进行度量)；这个商越低，用给定基频产生给定音调所需的力度就越高。第二个度量是信号强度(例如信号能量的第三根源)与心理声学响度度量之间的商(其越低，在接受者/聆听者中实现相同响度效果所需要的力度/能量较少)。

对于特定实现方式的声学语音参数的实际选择有利地通过理论和经验观察各个声学语音参数的相关性来引导，以指示存在某些评价标准。

针对如下三个评价标准，给出本发明的一个示例性实现方式中的一组特定示例性声学语音参数：

新异度：

1.F0的最小百分位或第10百分位(或类似)；

2.F0的范围(例如，第20百分位至第80百分位的差)；

3.F0的变化系数；

4.F0的中位数；

5.浊音帧的MFCC 1的算术平均值；

6.F0的第90百分位。

愉快度：

1.响度的标准偏差；

2.共振峰第1至第3幅度的算术平均值；

3.浊音帧的倒谱能量的变化系数(标准偏差与算术平均值的比率)；

4.谐波噪声比(HNR)的标准偏差；

5.第三共振峰幅度的变化系数(标准偏差与算术平均值的比率)；

6.F0的第80百分位以及第20百分位至第80百分位的范围；

7.浊音帧的MFCC 1、2和4的算术平均值；

8.浊音帧在0Hz与500Hz之间的谱斜率的算术平均值；

9.浊音帧的谱质心的算术平均值。

迫切度：

1.响度(心理声学)：时间轮廓的上升斜率和下降斜率的算术平均值；

2.共振峰第1至第3幅度的算术平均值；

3.谱质心的算术平均值、具有低于和大于1kHz的能量的浊音帧的能量比例；

4.浊音帧的MFCC 2至4的算术平均值；

5.F0的中位数；

6.谐波噪声比(HNR)的标准偏差；

7.浊音帧的倒谱峰值突出(eCPP)的算术平均值；

8.共振峰带宽加权共振峰分散的算术平均值。

控制：

1.eCPP的变化系数；

2.倒谱能量的变化系数；

3.共振峰2的平均频率；

4.浊音段从0Hz至500Hz的频谱斜率；

5.响度(心理声学)：第20百分位和超过范围的25％的帧的百分比；

6.F0变化系数(标准偏差与算术平均值的商)和F0范围(第20百分位至第80百分位)；

7.(在语音段中的所有浊音帧中)的变化系数：谱质心、Hammarberg指数(在2000Hz与5000Hz之间的谱能量峰值幅度与在0Hz与2000Hz之间的谱能量峰值幅度的商)、高于和低于1000Hz的能量的商；

8.Hammarberg指数的高于和低于500Hz、高于和低于1000Hz的谱能量比率和从0Hz到500Hz的谱斜率的平均值(例如，算术平均值或长时间平均谱LTAS)；

9.响度(心理声学)轮廓的下降斜率和上升斜率的平均值；

10.Mel频率倒谱系数2至6的(在语音段内的所有浊音帧上的)标准偏差；

11.每秒响度峰值和连续浊音段的数量(与讲话速率/速度有关)。

根据来自前一步骤AP的客观测量的声学语音参数，通过校准Cal来得到特定于讲话者的语音标记。语音标记描述个体(人)的语音相对于给定的基准或参考的变化，该基准或参考优选地从语音并且仅从该个体得到。该步骤使得在步骤Apl中应用的预测器集在多个讲话者之间普遍有效，这是因为其在独立于讲话者的域中操作。独立于讲话者还暗指语言独立。语言和语音内容的独立性还由以下事实支持：首先通过仔细选择(至少主要)不会对语言内容进行建模的参数(例如，音高、响度)，其次通过在片段上应用统计量，使得声学语音参数和语音标记被选择为广泛独立于语言内容。

语音标记计算的示例性但功能性实现方式是例如对一组声学语音参数应用改进的z得分转换，其中，在理想情况下，首先对子组进行均值归一化，然后对整个数据集进行方差归一化。由此，每个声学语音参数被转换为语音标记，使得通过基准语音收集、优选地通过来自仅单个个体的基准语音收集，每个语音标记的算术平均值将为零，并且每个语音标记的方差将为1。然后，可以将从参考语音得到的变换规则应用于新的、看不见的非参考语音样本，尽管这些新样本的平均值可能不准确为0或方差不准确为1。

得到语音标记的常见问题是收集来自单个讲话者的参考数据。在理想情况下，数据应该包含讲话者能够发出的语言的所有极端情况，以针对该讲话者计算准确方差和最大方差。在实践中这是几乎不可能的，这是因为这需要讲话者扮演多个不同的极端声音和情绪发音。更常见的方法是让人们大声读出或随意讲出一些校准或登记句子——通常用于相关的语音分析技术，例如生物识别讲话者验证或自动语音识别，这大约为15秒至60秒。通常，这些句子在情感上是相当中立的。然而，如果校准方差是根据非情绪色彩语音计算得到的，则所得到的语音标记以及因而在步骤Apl中得到的预测结果将不会被缩放到正确的范围(它们倾向于太大)，这导致在步骤AT中错误推断出情感项名称。

计算z得分转换参考数据的替代但并非优选的方法是根据来自大量讲话者的情绪色彩语音表达的数据集来计算均值和方差。然而，由于对许多不同讲话者进行平均，从而不允许对单个讲话者进行校准。

为了使得能够最佳适应单个讲话者和稳定的方差，示出了新颖方法。

根据包含大量讲话者和高度情感色彩语音的训练数据集，其中，高度情感色彩语音有利地针对每个评价标准c在所描绘的具有高样本和低样本或者正样本和负样本的情感状态方面平衡，每个声学语音参数(ap)的全局平均讲话者间方差被如下计算：根据每个讲话者的数据样本来计算声学语音参数的算术平均值。从声学语音参数数据样本中减去每个讲话者的算术平均值，从而得到每个讲话者的零均值声学语音参数。然后，通过所有数据点来计算声学语音参数的方差。结果是平均讲话者间方差。

为了校准各个讲话者，然后例如优选地根据预定义语音学平衡提示来记录一些情绪中性(或者可能地也是情绪渲染的)语句。根据这些，声学语音参数被计算为在步骤AP中所描述的，并且计算校准数据的所有声学语音参数样本的算术平均值和方差不是直接使用来自该集合的方差来执行z得分变换，而是针对每个声学参数，进行基于将校准方差与平均讲话者间方差组合的判定，例如，在z得分变换中有利地使用以将声学参数(ap)映射到特定于讲话者的语音标记的最终方差σ²是：

在进一步改进的实现方式中，特定于讲话者的均值和方差也可以在初始校准阶段之后被动态更新。用于推断z得分变换中使用的实际方差的以上最大最小规则适用于利用以下修改所进行的每次更新：

其中，α是理想地在0.5与1.0之间的值。α被初始化为1.0并且随着从相同讲话者观察到的越来越大的语音量，即随着特定于讲话者的方差的增加的信赖度而逐渐降低到0.5。在甚至更高级的实现方式变型中，α也可以根据针对该讲话者的来自步骤(4)的先前观察到的评估标准得分的范围来确定：如果该讲话者已经示出高范围的评估标准得分，则α与在讲话者仅示出了低范围的评估标准得分时相比而减小地较快。这可以与观察到的语音的量结合。

在下面的步骤Apl中，将多个预测器(预测器集)应用于语音标记集以推断针对评估标准的评估标准得分。针对每个评估标准的特定预测器集是有利的，因为每个评估检查都会引发不同语音标记的变化。此外，每个预测器都是将一个语音标记直接关联到对特定评估标准得分的部分贡献的规则，而与其他输入无关。预测器的变型可能需要另外的输入，例如初步评估标准评分或甚至来自其他评估标准的(初步)得分，以便针对不同范围和评估标准的组合应用不同的规则。

由于并非语音标记与评估标准得分之间的所有直接关系都是线性关系，所以实现了非线性预测器类型。总体而言，以下预测器类型形成所公开的本发明的基础(x表示评估标准得分轴，y表示语音标记值轴)：

线性：y＝b·x+c，

截尾线性：

二次：y＝a·x²+b·x+c

在改进的实现方式中，精确的预测器函数是有益的：

针对x从1到4的示例性范围的逻辑函数：

阶梯函数，

可逆三次函数，例如

y＝a·x³+b·x+c 其中sgn(b)＝sgn(a)。

在进一步改进的替选实施方式中，其他另外的预测器类型是可能的，甚至通过用于类似目的的其他函数改变一些基础预测器(例如替代二次函数的特定的四阶多项式，或者例如替代截尾线性函数的指数或对数函数，或者高斯函数，或者分段线性逼近，特定函数的泰勒级数等)。

为了根据语音标记预测评估标准得分，函数必须是可逆的。在仅部分可逆的函数(例如二次函数)的情况下，首先评估独特可逆的所有其他预测器以获得第一估计预测，其然后用于选择相应预测器函数的需要被求逆的部分。一些预测器可能不能返回结果(例如，如果给定的语音标记值在函数的可逆范围之外或函数的定义范围之外)，在这种情况下，可能返回例如特定的无结果标记。

对于以上函数，逆被给出为：

线性函数：

二次函数，其中，顶点的x坐标(局部最大值/最小值)被给出为并且存在两个解，每个解针对顶点的右/左区域：

逻辑函数：

对于截尾函数，当语音标记在函数的定义范围以外时，返回针对“未定义值”的特定值。

在单个语音标记或语音标记组上评估每个预测器。在语音标记组的情况下，该组的成员将被平均(加权的或未加权的)，并且预测器将被应用于平均值。这种聚合成组的好处是通过以这种方式组合类似的语音标记而提高了系统的鲁棒性(例如，对抗声学噪声)。这些可以源于例如计算参数的不同方式(例如，基于SHS算法的F0或基于自相关算法的F0)，或者在预期它们对于典型语音信号将高度相关的情况下构成概念上类似的参数(例如高于/低于500Hz和1000Hz的能量比例)。

预测器的参数，例如a，b，c和p₁，p₂，p₃在系统设计期间通过专业知识和理论背景手动确定一次，或者根据例如其中存在理想地由正在执行的讲话者对基础评估标准得分的专业注释的情绪表达数据经验性地确定一次。该经验分析可以例如通过下述来完成：将语音标记与评估标准得分之间的关系计算为分段线性函数(例如通过例如MANOVA分析获得样本点的语音标记均值(评估标准得分值))，并且然后应用曲线拟合技术并手动对曲线进行平滑以确保它们符合理论预测。

以这种方式手动设计预测器集使得能够完全控制所选择的预测器集，并且允许针对与基础语音标记或语音标记组有关的涉及评估标准和对语音产生机制的影响的理论知识并且例如与基础语音标记或语音标记组有关的多个统计发现来验证每个预测器。引入语音标记组有助于解决许多语音标记相关(共线)的问题。这是选择最佳参数集或自动推导预测模型(例如神经网络或支持向量机)的传统统计方法在适当考虑高共线参数或找到相关参数中的单个最佳参数时具有问题的原因。过度拟合以训练数据会导致(或多或少随机)选择作为大概最佳参数的一个参数，但是这种选择可能不能良好地广义化到系统可以使用或评估系统的其他数据集。另外，通过坚持上述抽象类型的预测器，进行每个预测器的双重平滑，这进一步改进了广义化：a)通过迫使语音标记和评估标准得分之间的观察关系成为给定预测器类型的固有平滑，b)通过离散化以及例如手动调整预测器参数。

用于愉快度评估标准的示例性实现方式的预测器的选择包括以下语音标记(校准的声学语音参数)：

A.响度的标准偏差；

B.语音帧的倒谱能量的变化系数(标准偏差与算术平均值的比率)；

C.第三共振峰幅度的变化系数(标准偏差与算术平均值的比率)；

D.F0的第80百分位；

E.浊音帧的MFCC 4的算术平均值；

F.浊音帧的倒谱能量的标准偏差；

G.谐波噪声比(HNR)的标准偏差。

对于上述参数A至G的部分评价标准得分(参见下文)a至g的预测方程被给出如下：

对于A>0.0，a＝-1.25*A+2.00(经校正的线性函数)

对于B>-0.1，b＝-0.77*B+1.92(经校正的线性函数)

对于C>0.0，c＝-2.00*C+2.50(经校正的线性函数)

对于D>0.0，d＝-1.05*D+1.79(经校正的线性函数)

对于E<-0.1，e＝2.22*E+2.62(经校正的线性函数)

f：逆(F＝0.21*f^2-1.27*f+1.66)(二次函数预测器)

g：逆(G＝0.28*g^2-1.51*g+1.85)(二次函数预测器)

基于针对给定评价标准的预测器集合，通过以下步骤计算针对该标准的预测(最终)评价标准得分：

1.将一些(相关的)语音标记组合到语音标记组(在设计时选择的组，例如基于语音标记与基本声学语音参数之间的理论或统计关系手动选择的组)。

2.将针对该特定语音标记(组)的预测器应用于预测器集合中的每个语音标记和语音标记组，并获得部分评价标准得分。部分评价标准得分优选地已经缩放至评价标准得分的全部范围(有利地为-1至+1，或者1至4，或者0至1等)；所有预测器应当最好使用相同的缩放比例。

3.优选地通过部分评价标准得分与可选偏差值的加权平均将部分评价标准得分与最终评价标准得分结合。

对于愉快度(P)的上述示例预测器，权重因子为：

P＝0.065*a+0.175*b+0.102*c+0.127*d+0.076*e+0.086*f+0.101*g

有利地，以自适应归一化方式完成加权：由于每个部分预测器产生已经在整个评价标准得分范围内的值，所以总体加权应当是中性的，例如，所有权重的总和必须为1.0。由于一些预测器可以根据观察到的语音标记来返回未定义的值，所以有效预测器的权重必须重新归一化为总和1。可选地，最终结果可以被线性地(或非线性地，例如通过逻辑函数)缩放以补偿预测器范围不匹配。

权重优选地通过理论重要性参数的先验知识来手动调整，或者通过以下方式来经验性地调整：例如通过MANOVA分析中的参数的显著性权重(η)、通过线性回归分析然后使用回归系数的绝对值作为权重、或者通过优化权重以例如在语音记录的给定验证集上实现最佳情绪项识别结果的优化算法(例如遗传编程)。与传统机器学习方法相比，仅一组求和权重以这种以数据为中心的方式被优化，而预测器参数可以并且优选地应当以如上所述的不同方式获得。

获得评价标准得分的置信度量度，例如作为跨所有预测器的标准偏差量度。详细地，这例如可以如下来进行：每个部分评价标准得分与最终评价标准得分之间的平均(用各个预测器权重所加权的)二次误差的平方根类似于置信度得分。也就是说，如果所有预测器都一致指向相同的方向，则该值较低——类似于高的预测置信度，否则，如果预测器彼此矛盾，则该值较高——类似于低的预测置信度。该置信度计算的替选较不优选的方法是计算部分评价标准得分之间的成对误差。一些预测器的非线性特性可能需要比经由方差量度的基本计算更复杂的方法。通过将上面获得的置信度乘以已经返回有效值的预测器的百分比，可以实现针对置信度的另外的权重。

作为标准偏差量度的置信度的基本表示使得能够直接以评价标准得分的比例将其解释为不确定性范围。

在最优实现方式中，可能以迭代的方式，可以去除基于预定义理论或经验阈值的具有高误差(被测量为部分评价标准得分与最终评价标准得分之间的差)的预测器并且从而获得精确的最终评价标准得分。

最后一步涉及根据至少两个评价标准得分推断情绪状态的强度AT。来自一个语音观察结果的N(2个或更多个)评价标准得分的元组可以表示为N维评价空间中的点或点向量x。在同一空间中，放置对应于参考情感状态项(例如，情绪类别名称)的参考点(或甚至更有利的：参考点周围的参考置信区域)。基于距离量度，计算这些参考点中的每一个与x的接近度。

对于所有洲上的超过25种语言，通过确定由情感诱发和反应的所有主要成分所指定的主要项的语义分布，可以通过GRID法将方法的该特征发展至情感状态项的语义。这个庞大的数据集使得能够通过高级的主成分和普鲁克(Procrustes)旋转来确定对于24个主要情感状态项中的每一个的所有的4个主要评价标准的主成分得分。对于美式英语、法语和印度尼西亚语，这种方法最近已经扩展到超过80个项。理论地或经验地定义参考点的其他方式也是可能的，并且可以在不改变本发明的核心构思的情况下被替换。

基于参考点和评价标准得分的给定观察元组x，可以通过考虑标量(例如，线性或欧几里德)距离结合角距离的距离度量(例如基于标量乘积或两个点向量之间的角度差)来计算与每个参考点对应的情绪类别的强度。最强的(最接近的)情绪类别是最可能被感受到并且被表达的情绪。以这种方式，不仅可以检测到单个情绪(例如最强烈的情绪)，而且可以检测到混合情绪。混合情绪表达的情况在实践中经常发生。

在有利实现方式中，如下来针对观察到的评价标准得分向量x计算M个情感项r_m的得分：

1.评价标准得分被缩放以使得对于每个标准的范围为-1到+1。该步骤仅为了方便起见并且用于简化以下步骤，在替代实现方式中，该步骤可以因此被忽略。

2.整体情绪强度被计算为评价标准得分向量的L2范数。

3.考虑两个向量的角距离和长度差两者的标量距离得分d_s在每个参考r_m与观测结果x之间、根据角距离而计算，其中*表示两个向量的标量乘积，并且||.||表示向量范数，例如L2范数。如果||x||＜||r_m||，则否则在||x||＝0的特殊情况下，则或者如果||r_m||＝0，则标量距离得分d_s被限制为最大值1.0。在||x||＝0和||r_m||＝0的罕见情况下，则d_s＝1。

具有类似目的的替代距离度量是：因此，因子0.33和0.01745定义了向量的度和长度上的距离差之间的权衡：对于每个距离0.01745(其对应于两个点的欧几里德距离，其中，对应的向量具有相同的非零长度但是被围绕原点旋转一度)。0.33是对应于该1度距离的角距离补偿。

4.情感状态项按距离得分中的一个距离得分排序，其中，最低得分最接近。然后，例如通过彼此之间的距离差(即，在最佳情感项至第二最佳情感项的距离很大(被归一化为最接近的情感状态项的距离的绝对值)的情况下)来确定前N个情感项的唯一性。

5.组合的置信度得分例如被计算为个体评价标准得分置信度量度的算术平均值。

可替选实现方式可能在对情感状态项得分的计算时考虑置信度得分。因此，观察结果x可以被表示为多维高斯，其中，方差由对于每个评价标准的置信度得分给出。除了标量/角度距离之外，在每个参考点r_m处评估多维高斯，从而产生值g，并且倒数被用作针对距离度量的权重因子。另一可选方式是通过置信度来缩放评价标准得分，即对于一个得分的较低置信度，将通过使用置信度的值对N维空间中的相应维度进行缩放来压缩N维空间中的相应维度，从而导致更多不确定置信度的较低差异。在距离计算时考虑置信度量度的其他方式也是可以的。

评价标准迫切度、愉快度和控制可能容易与众所周知的情感维度唤醒度/激活度(arousal/activation)、效价(valence)/评估以及支配(dominance)/能力混淆。虽然可能存在一些明显的相似性，但必须记住，它们是两个截然不同的事物：情感维度是基于一组情绪类别项而假设的，并且因此源自描述观察到的、离散的情感状态并且试图将它们链接成连续体；评价标准是情绪过程的构成块并且描述在人类认知过程中感知事件而经历的检查，这然后产生可以被观察到的反应。另外，在本发明中，通过添加新异度标准来进一步区分情感状态在评价标准得分空间中的位置。总而言之，评价标准得分空间的推导以及将该空间中的点解释和映射至情感项都是新颖的构思，由于新颖的构思，该方法提出了独特而新颖的技术解决方案。

因此，在本发明中，我们观察已知与潜在的评价过程相关的反应，即感知情绪的过程所触发的反应，而构建系统以在唤醒度-效价-支配空间中检测情绪的常规方法通常以蛮力、纯粹的数据驱动方式直接将声学参数与观察到的情绪状态相关联。在技术上，通过依赖于讲话者校准后的语音标记、线性和非线性预测函数的组合以及几何多维距离度量可以精确推断潜在的情感过程，其中，因为并非所有预测规则对所有范围内的所有语音标记均有效，所以并非所有预测器都可以应用于给定观察结果，其中，几何多维距离度量将角度距离和标量距离结合以将评价标准得分空间中的观察点映射至与情感项对应的一组参考点。所述情感项的参考已经例如通过大量语义研究根据经验而得到，在大量语义研究中，大量情感项(例如情绪类别名称)由人类受试者使用共同的超过80个与情绪有关的动词和形容词来描述。根据这些项例如经由主要成分分析，得到四个主要相关成分，并且基于构成每个主要成分的形容词，将这些成分与评价标准相关联。定义参考点的理论或经验的其他方式也是可以的，并且可以在不改变本发明的核心构思的情况下被替换。

图3示出了自动化情感状态推断系统的实施方式的示意图。

自动化情感状态推断系统适于基于上述方法根据对语音信号的分析来确定目标讲话者的一个或更多个情感状态。

自动化情感状态推断系统包括适于向系统提供语音信号的输入SD。语音信号可以经由转换所记录的信号的模数转换器来提供或者由存储器装置提供。

声学语音参数计算器SAP耦接至输入SD并且适于从语音信号提取一个或更多个声学语音参数。声学语音参数计算器SAP可以适于执行用于提取一个或更多个声学语音参数或其部分的上述方法步骤。

校准器SCal耦接至声学语音参数计算器SAP并且适于校准目标讲话者的语音标记。校准器SCal可以适于执行用于校准语音标记或其部分的上述方法步骤。

预测器SApl耦接至校准器并且适于从语音标记推断两个或更多个评价标准得分。预测器SApl可以适于执行用于应用至少一组预测规则以推断两个或更多个评价标准得分或其部分的上述方法步骤。

情感状态确定器SAT耦接至预测器SApl并且适于将一个或更多个情感状态项分配给两个或更多个评价标准得分。情感状态确定器SAT可以适于执行用于应用至少一组预测规则以推断两个或更多个评价标准得分或其部分的上述方法步骤。

该系统可以实施为计算机嵌入式处理器、FPGA(现场可编程门阵列)、数字信号处理器或集成电路或者前述的组合。

该方法和系统的实施方式可以包括上述方法步骤和特征中的仅一些的组合。

保护范围不限于本文在上面给出的示例。本发明体现在每个新颖特征和特征的每个组合中，特别地，即使该特征或该特征的组合没有在权利要求或示例中明确陈述，特征的每个组合也包括权利要求中陈述的任何特征的每个组合。

Claims

1.一种用于根据语音信号进行自动情感状态推断的方法，所述方法包括以下步骤：

捕获(D)目标讲话者的语音信号，

从所捕获的语音信号提取(AP)一个或更多个声学语音参数，

基于从所述目标讲话者的语音信号提取到的所述一个或更多个声学语音参数、所述目标讲话者的一个或更多个讲话者固有参考参数以及参考讲话者的样本的一个或更多个讲话者间参考参数来校准(Cal)语音标记，

对校准后的语音标记应用(Apl)基于评价标准的至少一组预测规则，以推断与对所述目标讲话者所面对的情感引发事件的评价有关的两个或更多个评价标准得分，

向所述两个或更多个评价标准得分分配(AT)一个或更多个情感状态项，所述一个或更多个情感状态项描述在产生所述语音信号之前或产生所述语音信号时所述目标讲话者最有可能经历的一个或更多个情感状态。

2.根据权利要求1所述的方法，

其中，提取(AP)所述一个或更多个声学语音参数中的一个声学语音参数包括：

根据在给定时间段内提供的所述语音信号来计算一组中间值，以及

根据所述一组中间值来计算统计值，或者汇总所述一组中间值的中间值，

其中，根据所述评价标准中的一个评价标准，使用依赖于时间的加权函数对所述中间值进行加权。

3.根据权利要求1或2所述的方法，

其中，所述一个或更多个声学语音参数基于选自由以下参数构成的组的至少一个参数：基频、音高、响度、强度、基频扰动、基频微扰、振幅微扰、谐波噪声比、谱平衡、谱包络、共振峰频率带宽、共振峰频率幅度、倒谱系数、倒谱能量、增强的倒谱峰值突出、倒谱峰值变化、用共振峰带宽加权的共振峰分散、音节内基频与音节间基频的比率或者伪音节内基频与伪音节间基频的比率、音节内强度变化与音节间强度变化的比率或者伪音节内强度变化与伪音节间强度变化的比率、音节内响度变化与音节间响度变化的比率或者伪音节内响度变化与伪音节间响度变化的比率、韵律相干性量度、基频的调制谱的统计量、强度的调制谱的统计量、响度的调制谱的统计量以及发声力度的量度。

4.根据前述权利要求中任一项所述的方法，

其中，基于从所述目标讲话者的语音信号提取到的所述一个或更多个声学语音参数、在初始校准阶段期间从所述目标讲话者的参考语音信号提取到的这些一个或更多个声学语音参数的特定于讲话者的均值以及通过参考讲话者的样本的语音信号计算出的一个或更多个声学语音参数的相应每个讲话者平均方差来执行校准(Cal)。

5.根据权利要求4所述的方法，

其中，在所述初始校准阶段之后动态地更新所述均值和/或所述平均方差。

6.根据前述权利要求中任一项所述的方法，

其中，通过不同组的预测规则来推断所述两个或更多个评价标准得分，所述不同组的预测规则基于语音标记的不同组合。

7.根据前述权利要求中任一项所述的方法，

其中，所述评价标准得分中的一个评价标准得分基于多个部分评价标准得分，一个部分评价标准得分是根据所述语音标记中的一个语音标记或者一组语音标记的加权和来计算的。

8.根据权利要求7所述的方法，

其中，所述预测规则中的一个预测规则包括所述语音标记中的一个语音标记与所述部分评价标准得分中的一个评价标准得分之间的线性关系或者所述语音标记中的一个语音标记与所述部分评价标准得分中的一个评价标准得分之间的非线性关系。

9.根据前述权利要求中任一项所述的方法，

其中，计算与所述情感引发事件的评价标准新异度(N)、愉快度/有利度(P)、控制/应对(C)以及迫切度/激励度(U)有关的四个评价标准得分。

10.根据前述权利要求中任一项所述的方法，

其中，分配(AT)一个或更多个情感状态项包括：

形成所述两个或更多个评价标准得分的向量，

计算所述向量与表示情感状态的参考向量之间的向量距离，从而推断所述目标讲话者的这些情感状态的强度，以及

根据所述向量距离将所述一个或更多个情感状态项分配给所述向量。

11.一种用于基于对语音信号的分析来确定目标讲话者的一个或更多个情感状态的自动化情感状态推断系统，所述自动化情感状态推断系统包括：

适于向所述系统提供语音信号的输入(SD)，

声学语音参数计算器(SAP)，其耦接至所述输入(SD)并且适于从所述语音信号提取一个或更多个声学语音参数，

校准器(SCal)，其耦接至所述声学语音参数计算器(SAP)并且适于校准所述目标讲话者的语音标记，所述校准基于由所述声学语音参数计算器提供的所述一个或更多个声学语音参数、所述目标讲话者的一个或更多个讲话者固有参考参数以及参考讲话者的样本的一个或更多个讲话者间参考参数，

预测器(SApl)，其耦接至所述校准器(SCal)并且适于通过基于评价标准的至少一组预测规则，根据所述语音标记来推断两个或更多个评价标准得分，

情感状态确定器(SAT)，其耦接至所述预测器(SApl)并且适于向所述两个或更多个评价标准得分分配一个或更多个情感状态项。

12.根据权利要求11所述的自动化情感状态推断系统，

其中，所述声学语音参数计算器(SAP)适于：

13.根据权利要求11或12所述的自动化情感状态推断系统，

其中，所述校准器(SCal)适于：

计算并存储所述一个或更多个声学语音参数的特定于讲话者的均值，

存储所述一个或更多个声学语音参数的讲话者间平均方差，以及

基于从所述目标讲话者的语音信号提取到的所述一个或更多个声学语音参数、在初始校准阶段期间从所述目标讲话者的参考语音信号提取到的所述一个或更多个声学语音参数的特定于讲话者的均值以及参考讲话者的样本的所述一个或更多个声学语音参数的相应平均方差来计算所述语音标记。

14.根据前述权利要求11至13中任一项所述的自动化情感状态推断系统，

其中，所述预测器(SApl)适于通过基于所述语音标记的不同组合的不同组的预测规则来推断所述评价标准得分。

15.根据前述权利要求11至14中任一项所述的自动化情感状态推断系统，

其中，所述情感状态确定器(SAT)适于：

计算所述两个或更多个评价标准得分的向量与表示情感状态的参考向量之间的向量距离，从而推断所述目标讲话者的情感状态的强度，以及