CN102099853B

CN102099853B - 用于识别语音情感变化的设备和方法

Info

Publication number: CN102099853B
Application number: CN2009801279599A
Authority: CN
Inventors: 陆应亮; 郭庆; 王彬
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2009-03-16
Filing date: 2009-03-16
Publication date: 2012-10-10
Anticipated expiration: 2029-03-16
Also published as: WO2010105396A1; CN102099853A

Abstract

提供了一种用于从说话人的语音数据中识别说话人的语音情感变化的设备和方法，其中该方法包括以下步骤：窗口分割步骤(S110)，将说话人的语音数据按窗口宽度分割成多个窗口；窗口语音情感特征计算步骤(S120)，针对所述多个窗口中的每个窗口，计算语音情感特征；以及语音情感变化识别步骤(S130)，通过将由至少两个连续窗口构成的窗口集的语音情感特征与存储在语音情感特征变化数据库中的多个语音情感特征变化模板中的每个模板进行比较，以找出与该窗口集的语音情感特征匹配的语音情感特征变化模板，对该窗口集识别说话人的语音情感变化。

Description

用于识别语音情感变化的设备和方法

技术领域

本发明涉及语音信号处理领域，特别涉及一种用于从说话人的语音数据中识别说话人的语音情感变化的设备和方法。

背景技术

如今，分析说话人的语音数据以识别说话人的语音情感已经变得很重要。例如，语音情感识别技术可以应用于人机交互领域，并且由此可以大大改善人机交互的友好性和准确性。

因此，在现有技术中提出了各种用于从说话人的语音数据中识别说话人的语音情感的方案。例如，请参见日本专利申请公开No.2008-076905和中国专利申请No.200610097301.6。

传统的方案仅仅注重于通过从说话人的语音数据中提取诸如基频、能量和共振峰等语音情感特征来识别说话人的语音情感。然而，由于不同说话人的语音情感特征是不同的，并且甚至同一说话人的语音情感特征在不同的时期也是不同的，因此在传统的方案中难以准确地识别个人化语音数据的语音情感。

另一方面，在很多应用中，从说话人的语音中识别情感变化而非从语音中识别情感更令人感兴趣。例如，在视频广告应用中，在视频中演员的情感由“平静”转为“激动”的时间点是在视频中插入广告的适当时间点。因此，在这样的应用中，准确地从说话人的语音数据中识别说话人的语音情感变化就足矣。然而，由于在传统的方案中语音情感识别的不准确，因此根据传统方案的语音情感识别结果难以准确地识别个人化语音数据的语音情感变化。

发明内容

在下文中给出了关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。但是，应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图用来确定本发明的关键性部分或重要部分，也不是意图用来限定本发明的范围。其目的仅仅是以简化的形式给出关于本发明的某些概念，以此作为稍后给出的更详细描述的前序。

鉴于现有技术的上述情形，本发明的目的是提供一种用于从说话人的语音数据中识别说话人的语音情感变化的设备和方法，其能够在个人化语音数据的语音情感变化识别上提供良好的性能。

为了实现上述目的，本发明的实施例提供了一种从说话人的语音数据中识别所述说话人的语音情感变化的方法，其可以包括以下步骤：窗口分割步骤，将所述说话人的所述语音数据按窗口宽度分割成多个窗口；窗口语音情感特征计算步骤，针对所述多个窗口中的每个窗口，计算语音情感特征；以及语音情感变化识别步骤，通过将由至少两个连续窗口构成的窗口集的语音情感特征与存储在语音情感特征变化数据库中的多个语音情感特征变化模板中的每个模板进行比较，以找出与所述窗口集的语音情感特征匹配的语音情感特征变化模板，对所述窗口集识别所述说话人的语音情感变化。

此外，本发明的实施例提供了一种用于从说话人的语音数据中识别所述说话人的语音情感变化的设备，其可以包括：窗口分割装置，用于将所述说话人的所述语音数据按窗口宽度分割成多个窗口；窗口语音情感特征计算装置，用于针对所述多个窗口中的每个窗口，计算语音情感特征；以及语音情感变化识别装置，用于通过将由至少两个连续窗口构成的窗口集的语音情感特征与存储在语音情感特征变化数据库中的多个语音情感特征变化模板中的每个模板进行比较，以找出与所述窗口集的语音情感特征匹配的语音情感特征变化模板，对所述窗口集识别所述说话人的语音情感变化。

此外，本发明的实施例提供了一种存储有计算机程序的计算机可读介质，其中所述计算机程序在执行时使得计算机执行上述用于从说话人的语音数据中识别说话人的语音情感变化的方法。

根据本发明的上述技术方案，鉴于诸如“喜”、“怒”、“哀”、“乐”、“害怕”等语音情感的变化总是伴随着诸如语音基频、语音能量、语音速度等语音情感特征的显著变化，通过直接分析说话人的语音数据中的语音情感特征变化，可以准确地从说话人的语音数据中识别说话人的语音情感变化。

根据下面结合附图对本发明的优选实施例的详细描述，本发明的这些和其他优点将会变得更加清楚。

附图说明

本发明可以通过参考下文中结合附图所给出的详细描述而得到更好的理解，其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并形成说明书的一部分，用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中：

图1是示出根据本发明实施例的从说话人的语音数据中识别说话人的语音情感变化的方法的流程图；

图2是示出图1的语音情感变化识别步骤S130的实现示例的流程图；

图3示意性地示出了从说话人A和B之间的对话数据中提取的说话人A的两个语音片断的波形图；

图4示意性地示出了从图3的两个语音片断中分别提取的基频变化图；

图5示意性地示出了与图3的两个语音片断对应的两个窗口的基频变化图，其中窗口宽度是这两个语音片断的最小长度，并且奇异点被去除；

图6示意性地示出了与图3的两个语音片断对应的很多窗口的基频变化图，其中窗口宽度是10ms，并且奇点被去除；

图7示出了在本发明的实施例中采用的语音情感特征变化数据库的示例性结构；

图8是示出根据本发明实施例的用于从说话人的语音数据中识别说话人的语音情感变化的设备的构造的框图；

图9是示出图8的语音情感变化识别装置830的示例性构造的框图；以及

图10是示出可以实施本发明的计算机的示例性构造的框图。

具体实施方式

在下文中将结合附图对本发明的示例性实施例进行描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定，以便实现开发人员的具体目标。

还需要说明的一点是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

图1是示出根据本发明实施例的从说话人的语音数据中识别说话人的语音情感变化的方法的流程图。说话人的语音数据可以通过诸如录音设备、电话、PDA等外部设备输入。此外，说话人的语音数据可以是来自说话人的整段连续语音数据，例如，演讲者所作的口头演讲。可替选地，说话人的语音数据可以由说话人的一个或多个连续语音片断构成，其中这些语音片断是从包括该说话人的多个说话人的对话数据中提取出来的，例如，在呼叫中心应用中从客户和呼叫中心代表之间的电话交谈数据中提取的客户的一个或多个连续语音片断。这里，不同说话人的辨别可以采用sndpeek等来实现。

例如，图3示意性地示出了从说话人A和B之间的对话数据中提取的说话人A的两个语音片断(a)和(b)的波形图。在本例中，说话人的语音数据由说话人A的两个语音片断(a)和(b)构成。

如图1所示，该方法可以包括窗口分割步骤S110、窗口语音情感特征计算步骤S120以及语音情感变化识别步骤S130。

首先，在窗口分割步骤S110中，将说话人的语音数据按窗口宽度分割成多个窗口。当说话人的语音数据是来自说话人的整段连续语音数据时，窗口宽度可以是预定的时间宽度，例如10ms、100ms、1s等。当说话人的语音数据由说话人的一个或多个连续语音片断构成时，窗口宽度可以是预定的时间宽度，例如10ms、100ms、1s等，或者可以由该一个或多个连续语音片断的最小长度与诸如10ms、100ms、1s等预定时间宽度的较大者确定。

一般而言，当说话人的语音数据由说话人的一个或多个连续语音片断构成时，一个窗口最多仅覆盖一个语音片断，并且当一个语音片断不能被完全分割时，长度小于窗口宽度的最后剩余部分可以被省略。

接下来，在窗口语音情感特征计算步骤S120中，针对该多个窗口中的每个窗口，计算语音情感特征。优选地，语音情感特征可以包括语音基频、语音能量和语音速度中的一个或多个。然而，本领域的技术人员应当理解，本发明不局限于此，并且诸如共振峰等其它语音情感特征也可适用于本发明。

优选地，在窗口语音情感特征计算步骤S120中，计算窗口中各个特征提取区间的语音情感特征的平均值作为该窗口的语音情感特征。这里，特征提取区间可以根据具体设计而设为10ms或其它值。此外，本领域的技术人员应当理解，根据具体设计，可以以其他方式计算窗口的语音情感特征。

进一步优选地，为了更准确地计算窗口的语音情感特征，在上述平均值计算处理之前，从窗口中各个特征提取区间的语音情感特征中去除语音情感特征奇异点。这里，语音情感特征奇异点是指等于或近似0的那些特征值(例如，由静默时段等导致)、与附近特征值相比具有较大变化的那些特征值(例如，由噪声等导致)等等。

进一步优选地，当算出的窗口语音情感特征等于或近似0时(例如，窗口仅包含静默时段)，该窗口可以被去除。

例如，假设采用语音基频作为语音情感特征，以由图3所示的语音片断(a)和(b)构成的说话人的语音数据为例，图4示意性地示出了分别对应于语音片断(a)和(b)的基频图。当窗口宽度设为语音片断(a)和(b)的最小长度时，图5示意性地示出了所算出的对应于语音片断(a)的浅色窗口和对应于语音片断(b)的深色窗口的语音情感特征。当窗口宽度设为10ms的预定时间长度时，图6示意性地示出了所算出的各个窗口的语音情感特征，其中时间轴中的一个点代表一个窗口，并且语音情感特征等于或近似0的那些窗口被去除。

最后，在语音情感变化识别步骤S130中，通过将由至少两个连续窗口构成的窗口集的语音情感特征与存储在语音情感特征变化数据库中的多个语音情感特征变化模板中的每个模板进行比较，以找出与该窗口集的语音情感特征匹配的语音情感特征变化模板，对该窗口集识别说话人的语音情感变化。

一般而言，窗口集可以包括预定数目的窗口，并且可以以窗口数目小于该预定数目的移动步长顺序地选择。优选地，当说话人的语音数据由说话人的至少两个连续语音片断构成时，窗口集可以包括两个相继语音片断的所有窗口，并且可以以一个语音片断的移动步长来顺序地选择。

此外，例如，在语音情感特征变化数据库的一个具体实现中，一种语音情感变化类型可以具有预定数目的语音情感特征变化模板，每个语音情感特征变化模板将一个或多个代表性语音情感特征变化曲线(例如，语音基频变化曲线、语音能量变化曲线等)与一种语音情感变化类型相关联，并且语音情感特征变化模板可以通过对来自不同说话人的代表性语音数据的大量语料进行统计分析，利用聚类算法来预先生成。

图7示出了在本发明的实施例中采用的语音情感特征变化数据库的示例性结构。如图7所示，语音情感特征变化数据库包括以下两个表：语音情感特征变化类型表(a)和语音情感特征模板表(b)。图7中的语音情感特征变化类型表(a)具有两个字段“变化类型ID”和“变化类型名称”，并且示意性地示出了四种示例性语音情感变化类型：“平静-＞愤怒”、“愤怒-＞平静”、“平静-＞高兴”、“高兴-＞平静”。图7中的语音情感特征模板表(b)具有三个字段“ID”、“特征值(基频)”和“变化类型ID”，并且示意性地示出了与“平静-＞愤怒”的语音情感变化相关联的一个示例性语音情感特征曲线。本领域的技术人员应当理解，图7中的语音情感特征变化数据库的结构仅仅是示例性的，并且本发明不局限于此，并且根据具体设计，语音情感特征变化数据库可以采用其它结构。

此外，语音情感变化识别步骤S130中的处理可以采用各种匹配算法来实现。例如，图2是示出图1的语音情感变化识别步骤S130的实现示例的流程图。如图2所示，在归一化步骤S210，对窗口集的语音情感特征进行归一化。接下来，在欧式距离计算步骤S220，计算归一化后的窗口集的语音情感特征与存储在语音情感特征变化数据库中的多个语音情感特征变化模板中的每个模板之间的欧式距离。然后，在确定步骤S230，将与归一化后的窗口集的语音情感特征的欧式距离最小且小于预定阈值的语音情感特征变化模板确定为匹配语音情感特征变化模板。例如，图7的语音情感特征模板表(b)中的示例性语音情感特征变化模板通过上述处理被确定为图3中的语音数据的匹配语音情感特征变化模板，并且由此图3中的语音数据的语音情感特征变化被识别为“平静-＞愤怒”。

优选地，为了提高匹配性能，只有在窗口集中存在相邻窗口之间的语音情感特征变化中的任一个超过预定阈值，才可以执行图1中的语音情感变化识别步骤S130。

可选地，该方法还可以包括语音情感识别步骤，根据窗口集中的语音情感变化的识别结果来识别窗口集中各个窗口的语音情感。例如，当图3中的语音数据的语音情感特征变化被识别为“平静-＞愤怒”时，语音片断(a)的各个窗口的语音情感特征可被识别为“平静”，而语音片断(b)的各个窗口的语音情感特征可被识别为“愤怒”

上面参照附图详细描述了根据本发明实施例的从说话人的语音数据中识别说话人的语音情感变化的方法。下面将参照附图描述根据本发明实施例的用于从说话人的语音数据中识别说话人的语音情感变化的设备。

图8是示出根据本发明实施例的用于从说话人的语音数据中识别说话人的语音情感变化的设备的构造的框图。如图8所示，设备800可以包括窗口分割装置810、窗口语音情感特征计算装置820以及语音情感变化识别装置830。

窗口分割装置810可以将说话人的语音数据按窗口宽度分割成多个窗口。

窗口语音情感特征计算装置820可以针对所述多个窗口中的每个窗口，计算语音情感特征。

语音情感变化识别装置830可以通过将由至少两个连续窗口构成的窗口集的语音情感特征与存储在语音情感特征变化数据库中的多个语音情感特征变化模板中的每个模板进行比较，以找出与窗口集的语音情感特征匹配的语音情感特征变化模板，对窗口集识别说话人的语音情感变化。

图9是示出图8的语音情感变化识别装置830的示例性构造的框图。在该示例中，语音情感变化识别装置830可以包括归一化装置910、欧式距离计算装置920以及确定装置930。归一化装置910可以对窗口集的语音情感特征进行归一化。距离计算装置920可以计算归一化后的窗口集的语音情感特征与存储在语音情感特征变化数据库中的多个语音情感特征变化模板中的每个模板之间的欧式距离。确定装置930可以将与归一化后的窗口集的语音情感特征的欧式距离最小且小于预定阈值的语音情感特征变化模板确定为匹配语音情感特征变化模板。

可选地，设备800还可以包括语音情感识别装置，用于根据窗口集中的语音情感变化的识别结果来识别窗口集中各个窗口的语音情感。

通过阅读上面给出的相应处理的描述，如何实现图8中的设备800的各个组成部件的功能就变得很清楚了，所以在此不再赘述。

由上可以清楚，根据本发明的技术方案，可以准确地从说话人的语音数据中识别说话人的语音情感变化。

根据本发明实施例的上述用于从说话人的语音数据中识别说话人的语音情感变化的设备和方法可以应用于很多应用。例如，当上述设备和方法应用于呼叫中心应用时，在客户与呼叫中心代表之间的电话交谈期间，可以将客户的语音情感变化识别结果以语音或图像的形式提供给呼叫中心代表，从而呼叫中心代表可以适当且快速地回应客户的语音情感变化。而且，当上述设备和方法应用于口头演讲应用时，可以根据演讲者的语音情感变化识别结果来提取演讲的所需内容。例如，可以将表现出“悲伤”的语音情感的演讲部分过滤，以便提取演讲中乐观向上的内容。

上述方法和设备可通过硬件实现。这样的硬件可以是单一处理设备或多个处理设备。这样的处理设备可以是微处理器、微控制器、数字处理器、微型计算机、中央处理单元的部分、状态机、逻辑电路及/或操作信号的任何设备。

还应该指出的是，上述装置和方法也可以通过软件和固件实现。在通过软件或固件实现的情况下，从存储介质或网络向具有专用硬件结构的计算机，例如图10所示的通用计算机1000安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等等。

在图10中，中央处理单元(CPU)1001根据只读存储器(ROM)1002中存储的程序或从存储部分1008加载到随机存取存储器(RAM)1003的程序执行各种处理。在RAM 1003中，也根据需要存储当CPU 1001执行各种处理等等时所需的数据。

CPU 1001、ROM 1002和RAM 1003经由总线1004彼此连接。输入/输出接口1005也连接到总线1004。

下述部件连接到输入/输出接口1005：输入部分1006，包括键盘、鼠标等等；输出部分1007，包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)等等，和扬声器等等；存储部分1008，包括硬盘等等；和通信部分1009，包括网络接口卡比如LAN卡、调制解调器等等。通信部分1009经由网络比如因特网执行通信处理。

根据需要，驱动器1010也连接到输入/输出接口1005。可拆卸介质1011比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器1010上，使得从中读出的计算机程序根据需要被安装到存储部分1008中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可拆卸介质1011安装构成软件的程序。

本领域的技术人员应当注意，这种存储介质不局限于图10所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质1011。可拆卸介质1011的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM 1002、存储部分1008中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

还应当指出的是，执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行，但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。

虽然已经详细说明了本发明及其优点，但是应当理解在不退出由所附的权利要求所限定的本发明的精神和范围的情况下可以进行各种改变、替代和变换。而且，本申请的范围不仅限于说明书所描述的过程、设备、制造、物质的结构、手段、方法和步骤的具体实施例。本领域内的普通技术人员从本发明的公开内容将容易理解，根据本发明可以使用执行与在此所述的相应实施例基本相同的功能或者获得与其基本相同的结果的、现有和将来要被开发的过程、设备、制造、物质的结构、手段、方法或者步骤。因此，所附的权利要求旨在它们的范围内包括这样的过程、设备、制造、物质的结构、手段、方法或者步骤。

Claims

1.一种从说话人的语音数据中识别所述说话人的语音情感变化的方法，包括以下步骤：

窗口分割步骤，将所述说话人的所述语音数据按窗口宽度分割成多个窗口；

窗口语音情感特征计算步骤，针对所述多个窗口中的每个窗口，计算语音情感特征；以及

语音情感变化识别步骤，通过将由至少两个连续窗口构成的窗口集的语音情感特征与存储在语音情感特征变化数据库中的多个语音情感特征变化模板中的每个模板进行比较，以找出与所述窗口集的语音情感特征匹配的语音情感特征变化模板，对所述窗口集识别所述说话人的语音情感变化。

2.根据权利要求1所述的方法，其中所述说话人的所述语音数据由所述说话人的一个或多个连续语音片断构成，其中所述连续语音片断是从包括所述说话人的多个说话人的对话数据中提取出来的。

3.根据权利要求1或2所述的方法，其中所述窗口宽度为预定时间宽度。

4.根据权利要求2所述的方法，其中所述窗口宽度由所述一个或多个连续语音片断的最小长度与预定时间宽度的较大者确定。

5.根据权利要求1所述的方法，其中所述语音情感特征包括语音基频、语音能量和语音速度中的一个或多个。

6.根据权利要求1所述的方法，其中所述窗口语音情感特征计算步骤包括平均值计算步骤，计算所述窗口中各个特征提取区间的语音情感特征的平均值作为所述窗口的语音情感特征。

7.根据权利要求6所述的方法，其中所述窗口语音情感特征计算步骤在所述平均值计算步骤之前还包括奇异点去除步骤，从所述窗口中的各个特征提取区间的语音情感特征中去除语音情感特征奇异点。

8.根据权利要求1所述的方法，其中所述语音情感变化识别步骤进一步包括以下步骤：

归一化步骤，对所述窗口集的语音情感特征进行归一化；

欧式距离计算步骤，计算归一化后的所述窗口集的语音情感特征与存储在所述语音情感特征变化数据库中的所述多个语音情感特征变化模板中的每个模板之间的欧式距离；以及

确定步骤，将与归一化后的所述窗口集的语音情感特征的欧式距离最小且小于预定阈值的语音情感特征变化模板确定为匹配语音情感特征变化模板。

9.根据权利要求1所述的方法，其中只有在所述窗口集中存在相邻窗口之间的语音情感特征变化中的任一个超过预定阈值，才执行所述语音情感变化识别步骤。

10.根据权利要求1所述的方法，还包括语音情感识别步骤，根据所述窗口集中的语音情感变化的识别结果来识别所述窗口集中各个窗口的语音情感。

11.一种用于从说话人的语音数据中识别所述说话人的语音情感变化的设备，包括：

窗口分割装置，用于将所述说话人的所述语音数据按窗口宽度分割成多个窗口；

窗口语音情感特征计算装置，用于针对所述多个窗口中的每个窗口，计算语音情感特征；以及

语音情感变化识别装置，用于通过将由至少两个连续窗口构成的窗口集的语音情感特征与存储在语音情感特征变化数据库中的多个语音情感特征变化模板中的每个模板进行比较，以找出与所述窗口集的语音情感特征匹配的语音情感特征变化模板，对所述窗口集识别所述说话人的语音情感变化。

12.根据权利要求11所述的设备，其中所述说话人的所述语音数据由所述说话人的一个或多个连续语音片断构成，其中所述连续语音片断是从包括所述说话人的多个说话人的对话数据中提取出来的。

13.根据权利要求11或12所述的设备，其中所述窗口宽度为预定时间宽度。

14.根据权利要求12所述的设备，其中所述窗口宽度由所述一个或多个连续语音片断的最小长度与预定时间宽度的较大者确定。

15.根据权利要求11所述的设备，其中所述语音情感特征包括语音基频、语音能量和语音速度中的一个或多个。

16.根据权利要求11所述的设备，其中所述窗口语音情感特征计算装置包括平均值计算装置，用于计算所述窗口中各个特征提取区间的语音情感特征的平均值作为所述窗口的语音情感特征。

17.根据权利要求16所述的设备，其中所述窗口语音情感特征计算装置还包括奇异点去除装置，用于在执行所述平均值计算装置中的处理之前，从所述窗口中的各个特征提取区间的语音情感特征中去除语音情感特征奇异点。

18.根据权利要求11所述的设备，其中所述语音情感变化识别装置进一步包括：

归一化装置，用于对所述窗口集的语音情感特征进行归一化；

欧式距离计算装置，用于计算归一化后的所述窗口集的语音情感特征与存储在所述语音情感特征变化数据库中的所述多个语音情感特征变化模板中的每个模板之间的欧式距离；以及

确定装置，用于将与归一化后的所述窗口集的语音情感特征的欧式距离最小且小于预定阈值的语音情感特征变化模板确定为匹配语音情感特征变化模板。

19.根据权利要求11所述的设备，其中只有在所述窗口集中存在相邻窗口之间的语音情感特征变化中的任一个超过预定阈值，才执行所述语音情感变化识别装置中的处理。

20.根据权利要求11所述的设备，还包括语音情感识别装置，用于根据所述窗口集中的语音情感变化的识别结果来识别所述窗口集中各个窗口的语音情感。