CN102831891B

CN102831891B - 一种语音数据处理方法及系统

Info

Publication number: CN102831891B
Application number: CN201110166864.7A
Authority: CN
Inventors: 王彬; 刘汝杰
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2011-06-13
Filing date: 2011-06-13
Publication date: 2014-11-05
Anticipated expiration: 2031-06-13
Also published as: CN102831891A

Abstract

本发明实施例公开了一种语音数据处理方法及系统，其中，所述方法包括：将待处理语音数据划分为语音片段；提取各个语音片段中的声学特征，并获取各个语音片段在所述语音数据中的上下文信息；针对各个语音片段，根据所述上下文信息以及分别在各种情感状态下建立的基于上下文信息的语音片段分类模型，确定语音片段在各种情感状态下分别所属的语音片段类别；根据语音片段中的声学特征以及预先针对所述所属的语音片段类别建立的情感模型，确定语音片段属于各种情感状态的概率，并根据所述概率，确定语音片段所属的情感状态以便根据所述语音片段所属的情感状态，对所述待处理语音数据进行情感识别。通过本发明，能够提高语音情感识别的有效性及准确度。

Description

一种语音数据处理方法及系统

技术领域

本发明一般地涉及音频处理技术领域，尤其是一种语音数据处理方法及系统。

背景技术

语音是人类交流的重要手段，是相互传递信息的最方便、最基本和最直接的途径。语音信号在传达语义信息的同时，还传递着情感信息，而情感在人们生活和交流中起着重要的角色。因此，随着人机交互技术的快速发展，语音信号中的情感信息正越来越受到研究人员的重视。作为语音信号情感信息处理的一个重要研究方向，语音情感识别是计算机理解人类情感的关键，是实现智能化人机交互的前提。

语音情感识别技术还可以广泛地应用于教育、娱乐、艺术、呼叫中心等诸多领域。例如，可以应用情感计算技术改进呼叫中心，使其更加人性化。遇到特别无礼的用户时，具有情感意识的语音识别系统可以提醒话务员保持冷静。处理完这类电话后，系统可以安慰和鼓励话务员，帮助他们调节情绪。另外，语音情感识别技术在呼叫中心领域还可以有如下的应用方式：实时监控，包括对于接线员情绪的监控和对于客户情绪急剧变化的监控，例如在监测到接线员情绪低落的情况下，可以通知管理人员安排该接线员休息以调整其心情，等等。

因此，为了更好地服务于实际的应用，如何使得计算机有效地从语音中识别出情感信息，是非常关键的。现有技术中的情感识别方法主要依据音频文件中的声学特征进行识别。其原理是，不同情绪下的语音信号在其时间构造、振幅构造、基频构造和共振峰构造等特征方面也有着不同的构造特点和分布规律。由此，只要把各种具体模式的语音信号在时间构造、振幅构造、基频构造和共振峰构造等特征方面的构造特点和分布规律进行测算和分析，并以此为基础建模，就可以识别出语音信号中所隐含的情感信息。

这种依据声学特征进行情感识别的方法，对于明显情感特征的情况比较有效，但是，在实际应用中，有些音频文件中包含的情感特征可能并不是十分明显，此时，在使用现有技术的方法进行识别时，就可以无法识别出来，或者出现错误。

发明内容

有鉴于此，本发明实施例提供了一种语音数据处理方法及系统，能够提高语音情感识别的有效性及准确度。

根据本发明实施例的一个方面，提供一种语音数据处理方法，所述方法包括：将待处理语音数据划分为语音片段；提取各个语音片段中的声学特征，并获取各个语音片段在所述语音数据中的上下文信息；针对各个语音片段，根据所述上下文信息以及分别在各种情感状态下建立的基于上下文信息的语音片段分类模型，确定语音片段在各种情感状态下分别所属的语音片段类别；根据语音片段中的声学特征以及预先针对所述所属的语音片段类别建立的情感模型，确定语音片段属于各种情感状态的概率，并根据所述概率，确定语音片段所属的情感状态以便根据所述语音片段所属的情感状态，对所述待处理语音数据进行情感识别。

根据本发明实施例的另一个方面，提供一种语音数据处理系统，所述系统包括：划分单元，配置为将待处理语音数据划分为语音片段；提取单元，配置为提取各个语音片段中的声学特征，并获取各个语音片段在所述语音数据中的上下文信息；处理单元，配置为针对各个语音片段，根据所述上下文信息以及分别在各种情感状态下建立的基于上下文信息的语音片段分类模型，确定语音片段在各种情感状态下分别所属的语音片段类别；根据语音片段中的声学特征以及预先针对所述所属的语音片段类别建立的情感模型，确定语音片段属于各种情感状态的概率，并根据所述概率，确定语音片段所属的情感状态以便根据所述语音片段所属的情感状态，对所述待处理语音数据进行情感识别。

另外，根据本发明的另一方面，还提供了一种存储介质。所述存储介质包括机器可读的程序代码，当在信息处理设备上执行所述程序代码时，所述程序代码使得所述信息处理设备执行根据本发明的上述语音数据处理方法。

此外，根据本发明的再一方面，还提供了一种程序产品。所述程序产品包括机器可执行的指令，当在信息处理设备上执行所述指令时，所述指令使得所述信息处理设备执行根据本发明的上述语音数据处理方法。

根据本发明实施例的上述方法，在进行情感识别时，就可以首先将待识别语音段划分为多个语音片段，针对各个语音片段，首先根据其上下文信息以及预先建立的各种情感类别下基于上下文信息的语音片段分类模型，确定其在各种情感状态下所属的语音片段类别，然后再针对各个情感状态下对应的所属语音片段类别的情感模型，确定语音片段属于各种情感类别的概率，并根据所述概率，确定语音片段所属的情感类别，根据这样确定出的各个语音片段的情感类别，可以确定所述待识别语音段的情感识别结果。这样，相当于在情感识别的过程中，考虑了情感状态以及上下文环境对声学特征的影响，相对于仅依赖声学特征的情感识别方式而言，情感识别结果的有效性及准确度都会得到相应的提高。

在下面的说明书部分中给出本发明实施例的其他方面，其中，详细说明用于充分地公开本发明实施例的优选实施例，而不对其施加限定。

附图说明

下面结合具体的实施例，并参照附图，对本发明实施例的上述和其它目的和优点做进一步的描述。在附图中，相同的或对应的技术特征或部件将采用相同或对应的附图标记来表示。

图1是示出作为本发明实施例提供的方法的流程图；

图2是示出作为本发明实施例提供的实施方式的示意图；

图3是示出作为本发明实施例提供的第一装置的示意图；

图4是示出作为本发明实施例提供的第二装置的示意图；

图5是示出作为本发明实施例提供的第三装置的示意图；

图6是示出作为本发明实施例提供的第四装置的示意图；和

图7是示出作为本发明的实施例中所采用的信息处理设备的个人计算机的示例性结构的框图。

具体实施方式

下面参照附图来说明本发明实施例。

参见图1，本发明实施例提供的语音数据处理方法包括以下步骤：

S101：将待处理语音数据划分为语音片段。

其中，待处理语音数据通常是一个语音段，例如可能是一句话或一段话对应的语音等等。在本发明实施例中，在对待处理语音数据进行情感识别之前，首先需要将待处理音频数据划分为语音片段。也就是说，首先需要把一个完整的语音段切分成多个小的语音片段，然后分别确定每个小的语音片段所属的情感状态，最终再依据语音片段的情感状态对待处理的语音数据进行情感识别。

在划分语音片段时，划分的单位可以是多种多样的，例如，可以简单地以句子为单位进行划分，也即，每个句子作为一个语音片段。或者，还可以以词为单位进行划分，也即，每个词可以作为一个语音片段；如，某待处理音频数据中的音频内容是“我真是太高兴了”，则以词为单位进行划分时，可以得到以下几个语音片段：“我”、“真是”、“太”、“高兴”、“了”。当然，不同的切分方式可能得到不同的语音片段结果，但是无论采用何种切分方式，都不会影响本发明实施例的具体实现。

再者，还可以进行更细粒度的划分，例如，可以以字或音节为单位进行划分，甚至，还可以以音素为单位进行划分。其中，音素是构成音节的最小单位或最小的语音片段，换言之，音素是从音质的角度划分出来的最小的语音单位。例如，对于汉语文字而言，通常将声母、韵母作为音素，可以带声调也可以不带。仍以“我太高兴了”这一语音段为例，如果按照音素进行划分，则可以将其划分为以下语音片段：“w”、“o”、“t”、“a i”、“g”、“ao”、“x”、“ing”、“l”、“e”。

需要说明的是，关于将待处理的语音数据划分为语音片段的具体方法，本领域技术人员可以参考已有的方法来实现，例如：《SPEAKERINDEPENDENT PHONEME RECOGNITION USING NEURAL NETWORKS》(N.UmaMaheswari)，这里不再赘述。

S102：提取各个语音片段中的声学特征，并获取各个语音片段在所述语音数据中的上下文信息；

声学特征主要是指韵律信息以及频谱信息。具体实现时，可以在对待处理语音数据进行步骤S101的划分之前，提取其声学特征，该声学特征是一个声学特征序列，其中包含有声学特征对应的时间点信息；在划分得到语音片段之后，各个语音片段也会组成一个语音片段序列，其中包含有每个语音片段的起始时间点及结束时间点信息；这样，根据两个序列中的时间点信息，可以获取到每个语音片段的声学特征。

在上述这种实施方式下，声学特征的提取可以在比音素更小的时间单位上进行。具体的提取方法属于已有技术，因此这里仅作简单的介绍。首先，可以对语音数据进行加窗分帧处理。为了使帧与帧之间平滑过渡，保持其连续性，一般可以采用交叠分段的方法。具体的，用可移动的有限长度窗口进行加权，也即用一定的窗函数w(n)来乘以语音信号s(n)，从而形成加窗语音信号s_w(n)＝s(n)*w(n)。其中，通常可以采用汉明窗作为窗函数。在对语音进行加窗分帧处理之后，原语音数据被分割成在时域上连续的有重叠的语音帧序列，然后在每一帧上进行特征提取即可。

当然，在实际应用中，也可以先进行前述步骤S101，也即先将待处理语音数据划分为语音片段，然后再分别提取每个语音片段中的声学特征。具体在提取每个语音片段中的声学特征时，也可以采用前述提取整个待处理语音数据的声学特征时同样的方法，这里不再赘述。

已有技术中在进行情感识别时，通常仅依据声学特征进行识别，但实际上，上下文环境也会对声学表现产生影响，换言之，不同的上下文环境下的语音片段对情感状态是有区分能力的。因此，在本发明实施例中，除了提取语音片段的声学特征以外，还将上下文信息考虑进来，也即还要提取语音片段在待处理语音数据中的上下文信息。

其中，上下文信息可以包括语音片段在待处理语音数据中的位置信息，如，是否为句首或句尾等。当以音素为单位划分语音片段时，该上下文信息还可以包括是否为元音或辅音等等。具体的获取上下文信息的方法可以采用已有的方法来实现。

S103：针对各个语音片段，根据所述上下文信息以及分别在各种情感状态下建立的基于上下文信息的语音片段分类模型，确定语音片段在各种情感状态下分别所属的语音片段类别；根据语音片段中的声学特征以及预先针对所述所属的语音片段类别建立的情感模型，确定语音片段属于各种情感状态的概率，并根据所述概率，确定语音片段所属的情感状态以便根据所述语音片段所属的情感状态，对所述待处理语音数据进行情感识别。

在本发明实施例中，在具体进行情感识别时，同样采用基于学习的方法，即从已知情感状态的语音数据中训练出情感模型，然后利用情感模型进行情感识别。但是，与已有技术不同的是：本发明实施例并不是直接针对已知情感状态的语音数据进特征提取，然后针对每种情感状态分别训练出一个情感模型；而是首先将各种已知情感状态的各个语音数据分别划分成多个语音片段，并提取各个语音片段的上下文信息，然后，在同一种情感状态下，按照各个语音片段的上下文信息，将各个语音片段进行分类，也即，在同一种情感状态下，可以得到多个语音片段类别；接下来，再分别针对每个语音片段类别，提取中其中各个语音片段的声学特征，训练出各自的情感模型。具体在根据声学特征建立情感模型的过程，可以采用已有技术中的方法来实现，例如，《Speech emotion recognition based on HMMand SVM》(Yi-Lin Lin)。

也就是说，在本发明实施例中，每一种已知的情感状态下，可以对应着多个情感模型。例如，对于“快乐”这种情感状态，将训练数据库中的这种情感状态下的语音数据进行划分得到语音片段，并对语音片段进行分类之后得到五个语音片段类别，分别为H_1、H_2、H_3、H_4、H_5，则针对“快乐”这种情感状态，可以分别针对H_1、H_2、H_3、H_4、H_5这五个语音片段类别训练得到五个情感模型，假设分别为M_{H_1}、M_{H_2}、M_{H_3}、M_{H_4}、M_{H_5}。对于其他的情感状态，也分别作类似的处理，例如，针对“悲伤”这种情感状态，对该情感状态下的语音片段进行分类之后得到四个语音片段类别，分别为S_1、S_2、S_3、S_4，则针对“悲伤”这种情感状态，可以分别针对S_1、S_2、S_3、S_4这四个语音片段类别训练得到四个情感模型，分别为M_{S_1}、M_{S_2}、M_{S_3}、M_{S_4}以此类推。

参见图2，其为上述分类及训练情感模型过程的形象化描述。其中，201、202代表同一种情感状态下的两个音频数据(当然实际中不止有两个)，并且已经以音素为单位划分为了多个语音片段(考虑了音调)；然后，就可以根据上下文信息对各个语音片段进行分类，图中的203-205代表分类得到的三个语音片段类别，分别为语音片段类别1、语音片段类别2及语音片段类别3。206-208代表各个语音片段类别中，语音片段所共同具有的上下文信息特征。例如，对于语音片段类别1中的各个语音片段，均具有以下特征：是辅音，并且，左侧是元音，并且，右侧是元音，并且，左侧的音调是四声。对于语音片段类别2中的各个语音片段，均具有以下特征：音调是三声或四声，并且，是元音，并且，左侧是辅音，并且，右侧是辅音。对于语音片段类别3中的各个语音片段，均具有以下特征：音调是一声，并且，是元音，并且，是音高重置的开始或结束。209-211代表分别针对各个语音片段类别建立的情感模型。

其中，具体在对各个已知情感状态中的语音片段进行分类时，可以采用多种方法来实现。例如，其中一种示例性的方法可以是：根据语音片段的上下文信息以及根据上下文信息设置的分类规则，对所述语音片段进行分类，得到同一情感状态下的多个语音片段类别。具体的，这种分类规则可以由决策树的形式来实现，其中，该决策树以根据上下文信息设置的问题为节点。也就是说，可以在决策树的每个节点上设置一个根据上下文信息设计的问题，每个问题都是有“是”和“否”两个答案。例如，当以音素为单位划分语音片段时，问题可以是：“是否是元音”、“是否是辅音”、“是否是句首”、“是否是句尾”、“左侧相邻的音素是否为元音”等等。

这样，首先可以将针对同一情感状态下的所有语音片段作为一个大类，每个语音片段都分别回答决策树根节点上的问题，从而可以根据答案的“是”、“否”两种结果进行分裂，将根节点分裂为两个节点。以下各级节点也做类似处理，每个节点都可以进一步分裂为两个节点，相应的，将该节点上的语音片段分裂为两个小的类别。这样，通过不断的对节点的分裂，最初的根节点就可以被分为若干小的节点，相应的，最初的一个大类也被分为若干个小类。

当然，在实际应用中，除了上述决策树的实现方式以外，还可以通过其他方式来实现，例如，首先将同一种情感状态下所有语音片段(实际上是语音片段的声学特征)构成一个大类，然后根据各个语音片段的上下文信息，对该大类的所有语音片段进行KMEANS聚类(例如，MacQueen，J.B.(1967).″Some Methods for classification andAnalysis of Multivariate Observations″)，聚类之后便可形成N个小类。每个小类再进行情感模型的训练，这样每种情感状态同样可以得到N个情感模型。

需要说明的是，在训练情感模型的过程中，对语音片段进行分类时，可以是在已知语音片段分类模型的情况下进行的，例如，可以通过预先采用任何可行的方式建立决策树，也即预先获知了在决策树的各个节点上分别对应哪个与上下文信息相关的问题。在识别阶段，同样使用该已知的决策树作为语音片段分类模型来确定语音片段的类别即可。但在实际应用中，也可以在分类的过程中，采用机器学习的方法训练得到语音片段分类模型。具体通过机器学习的方式训练生成该语音片段分类模型的具体方法，后文中会有详细介绍。

另外需要说明的是，由于对语音片段进行分类时，是根据语音片段的上下文信息进行的，因此，相应生成的语音片段分类模型相当于是基于上下文信息的语音片段分类模型。此外，在各种情感状态下，语音片段分类模型可能会有所不同。

总之，在训练阶段，可以得到基于上下文信息的语音片段分类模型，以及针对每种已知情感状态下的各个语音片段类别分别建立的情感模型。这样，在具体进行情感识别时，就可以首先针对每个语音片段分别进行以下处理：

首先根据语音片段的上下文信息，以及每个情感状态下基于上下文信息的语音片段分类模型，确定语音片段在各种情感状态下分别属于哪种语音片段类别；例如，对于第一个语音片段，首先根据“快乐”的语音片段分类模型，确定出其属于H_1这个语音片段类别(例如，当语音片段模型以决策树的形式存在时，就可以让该语音片段回答决策树的各个节点上的问题，最终就能够将该语音片段划分到某一类别中)，再根据“悲伤”的语音片段分类模型，确定出其属于S_3这个语音片段类别，对于其他的情感状态，也分别用各自的语音片段分类模型作类似处理，这样，就能够得到该语音片段在各个情感状态下，分别属于哪个语音片段类别。

然后，分别使用针对这些语音片段类别训练得到的情感模型，计算出该语音片段在这几个情感模型下的得分，从而确定出该语音片段属于各种情感状态的概率，并最终确定出该语音片段应该属于哪种情感状态。例如，在前述例子的基础上，由于确定出该语音片段属于“快乐”这种情感状态下的H_1这个语音片段类别，因此，在该情感状态下，就可以使用针对H_1这个语音片段类别训练出的情感模型M_{H_1}，计算该语音片段的得分，假设为S_H；同时，由于该语音片段属于“悲伤”这种情感状态下的S_3这个语音片段类别，因此；在该情感状态下，就可以使用转对S_3这个语音片段类别训练出的情感模型M_{S_3}，计算该语音片段的得分，假设为S_S；同理，针对愤怒，惊讶、恐惧等情感状态，同样可以利用上述方法，分别计算出该语音片段在其他几种情感状态下的得分。各个得分就可以代表该语音片段属于相应情感状态的概率。最后，在确定该语音片段应属于哪种情感状态时，就可以将各种情感状态下的得分进行比较，将得分最高者对应的情感状态，作为该语音片段所属的情感状态。例如，仍然是在前述例子中，经过比较发现，S_H最高，则该语音片段属于“快乐”这种情感状态。

后续的每个语音片段均做类似处理，这样，最终就可以得到每个语音片段所属的情感状态，进而，就可以根据各个语音片段所属的情感状态，对待处理语音数据进行情感识别。具体实现时，可以根据各个语音片段所属的情感状态，确定出待处理语音数据所属的情感状态。例如，各个语音片段中，属于“快乐”这种情感状态的语音片段数目最多，则可以将待处理语音数据确定为属于“快乐”这种情感状态。当然，也可以使用其他的判断方式，例如，如果连续几个语音片段都属于“快乐”这种情感状态，并且这种情感状态下，出现这种连续的语音片段数目最多，则可以将待处理语音数据确定为属于“快乐”这种情感状态，等等。

此外，还可以根据各个语音片段所属的情感状态，确定出待处理语音数据的情感状态变化趋势。例如，根据各个语音片段所属的情感状态，可以确定出待处理语音数据的情感状态是由“愤怒”转为“平和”，再转为“快乐”，等等。其中，在确定的待处理语音数据每个阶段的情感状态时，所使用的方法都可以与确定整个待处理语音数据的情感状态的方法类似，这里不再赘述。

总之，在本发明实施例中，在对待处理语音数据进行情感识别时，不仅考虑了语音数据的声学特征，还将各个语音片段的上下文信息考虑进来，这样可以提高情感识别的准确度。另外，由于分别识别出了各个语音片段所属的情感状态，因此，便于确定出一个语音段中，情感状态的变化趋势。

下面，对如何建立本发明实施例中涉及的语音片段分类模型，进行详细地介绍。

如前文所述，语音片段分类模型可以采用机器学习的方法得到。例如，在采用决策树的方法进行分类时，最初仅给出所有可能的基于上下文的问题，但不设定每个节点上设置哪个问题(也即实际上在初始状态下并不存在决策树)，在使用这些问题进行分类的过程中，将各个节点上的问题确定下来，最终，在得到多个语音片段类别的同时，也得到了各个节点对应的最佳问题，将这些节点及其对应的问题进行保存，即得到了决策树，也即建立了语音片段分类模型。

具体的可以如下进行：首先，将所有可能的与上下文信息相关的问题设计为问题集(数目可以比较多)，在开始对某情感状态下的语音片段进行分类时，将该情感状态下所有的语音片段作为一个大类，然后做以下测试：将问题集中的各个问题分别作为决策树的根节点，得到多个分类结果，然后比较每个分类结果下，两类语音片段之间的距离(即相似性)，距离最大者对应的问题，就可以作为根节点上的最佳问题。

例如，假设某情感类别下共有10个语音片段(这里仅仅为了描述方便所做的假设，实际中会远大于这个数目)，分别为d₁、d₂、d₃、d₄、d₅、d₆、d₇、d₈、d₉、D₁₀，问题集中共有3个问题，分别为A₁、A₂、A₃。则，当开始进行分类时，首先将A₁作为根节点上的问题，对各个语音片段进行分类，假设得到的分类结果是：d₁、d₂、d₃、d₄、d₅为一类，d₆、d₇、d₈、d₉、D₁₀为另一类，同时，比较这两类语音片段之间的距离，假设为L₁。然后，将A₂作为根节点上的问题，对各个语音片段进行分类，假设得到的分类结果是：d₁、d₃、d₄、d₆为一类，d₂、d₅、d₇、d₈、d₉、D₁₀为另一类，同时，比较这两类语音片段之间的距离，假设为L₂。另外，还将A₃作为根节点上的问题，对各个语音片段进行分类，假设得到的分类结果是：d₂、d₃、d₄、d₇、d₈为一类，d₁、d₅、d₆、d₉、D₁₀为另一类，同时，比较这两类语音片段之间的距离，假设为L₃。然后，再比较L₁、L₂以及L₃，假设其中L₃最大，则可以将问题A₃作为根节点上的最佳问题，并通过第一次分裂将语音片段分为以下两类：d₂、d₃、d₄、d₇、d₈为一类，d₁、d₅、d₆、d₉、D₁₀为另一类。

接下来各级节点也分别做类似处理，直到达到预定的收敛条件时，即可结束分类过程。关于收敛条件，也可以采用多种方式进行设置，例如，可以简单地设置决策树的最大级数，当达到该最大级数时即可停止分裂。或者，还可以设置每个小类别中的语音片段的数量，当每个小类别中的语音片段的数量均降低到某阈值时，即可停止分裂，等等。总之，每个节点上都可以确定出一个最佳问题，并且会将语音片段分为若干个小类。最后，保存各级节点上确定出的最佳问题，就可以生成决策树，该决策树就可以作为基于上下文信息的语音片段分类模型。在进行情感识别时，就可以利用该语音片段分类模型来对各个语音片段进行分类。

其中，之所以将分类结果中两类语音片段之间的距离最大者对应的问题，作为相应节点上的最佳问题，是因为，距离最大证明两个类别之间的界限越明显，而界限越明显则证明分类越有效。关于具体的计算两个类别的语音片段之间的距离的实现方式，可以采用已有的方法实现，这里不再赘述。

总之，在本发明实施例中，在进行语音数据情感识别的过程中，不仅考虑了语音数据的声学特征，还考虑了上下文信息对情感状态的影响，因此，相对于仅考虑声学特征的情感识别方法而言，得到的情感识别结果更为准确。

与本发明实施例提供的语音数据处理方法相对应，本发明实施例还提供了一种语音数据处理系统，参见图3，该系统包括：

划分单元301，配置为将待处理语音数据划分为语音片段；

提取单元302，配置为提取各个语音片段中的声学特征，并获取各个语音片段在所述语音数据中的上下文信息；

处理单元303，配置为针对各个语音片段，根据所述上下文信息以及分别在各种情感状态下建立的基于上下文信息的语音片段分类模型，确定语音片段在各种情感状态下分别所属的语音片段类别；根据语音片段中的声学特征以及预先针对所述所属的语音片段类别建立的情感模型，确定语音片段属于各种情感状态的概率，并根据所述概率，确定语音片段所属的情感状态以便根据所述语音片段所属的情感状态，对所述待处理语音数据进行情感识别。

其中，具体在划分语音片段时，可以以音素为单位进行划分，此时，参见图4，划分单元301具体可以包括：

音素识别子单元3011，配置为对所述待处理语音数据进行音素识别；

音素划分子单元3012，配置为将各个音素对应的片段确定为所述语音片段。

具体实现时，为了建立情感模型，参见图5，该系统还可以包括：

语音片段获取单元304，配置为对各种已知情感状态中的每个语音数据进行划分，得到语音片段；

上下文信息获取单元305，配置为获取各个语音片段的上下文信息；

语音片段分类单元306，配置为针对同一种情感状态中的各个语音片段，依据语音片段的上下文信息对语音片段进行分类以得到多个语音片段类别；

声学特征提取单元307，配置为提取同一语音片段类别中各个语音片段的声学特征；

情感模型建立单元308，配置为根据所提取的声学特征，建立针对该语音片段类别的情感模型。

其中，对语音片段进行分类的方式可以有多种，在其中一种方式下，语音片段分类单元306具体可以配置为：根据语音片段的上下文信息以及根据上下文信息设置的分类规则，对所述语音片段进行分类，得到同一情感状态下的多个语音片段类别。

具体的，该分类规则可以以决策树的形式实现，该决策树以根据上下文信息设置的具有前后顺序关系的问题为节点。这样，各个语音片段就可以通过回答各个节点上的问题来进行分类。

在上述使用决策树的方式进行分类的情况下，决策树的各级节点以及各个节点上的最佳问题，就可以组成语音片段分类模型，为了建立该语音片段分类模型，参见图6，该系统中还可以包括：

分类结果获取单元309，配置为获取利用预先设置的问题集中的各个问题作为决策树中的各级节点对所述语音片段进行分类时的分类结果；

计算单元310，配置为针对每个节点，计算各个问题得到的分类结果中，两类语音片段之间的距离；

问题确定单元311，配置为根据所述距离，确定各级节点上选用的问题；

相应的，在确定了一个节点上选用的问题之后，还可以通知语音片段分类单元306选用该问题对应的分类结果，每个节点上都可以做同样的处理。

语音片段分类模型建立单元312，配置为保存各级节点上选用的问题，生成所述基于上下文信息的语音片段分类模型。

在具体利用语音片段分类模型及针对各个语音片段类别建立的情感模型，得到待处理语音数据中各个语音片段所属的情感状态之后，可以据此得到待处理语音数据所属的情感状态，或者可以得到待处理语音数据的情感状态变化趋势，等等。相应的，该系统还可以包括：

情感状态确定单元，配置为根据各个语音片段所属的情感状态，确定所述待处理语音数据所属的情感状态；或者，

情感状态变化信息确定单元，配置为根据各个语音片段所属的情感状态，确定所述待处理语音数据的情感状态变化信息。

需要说明的是，本发明实施例所述的装置是与前述方法实施例相对应的，因此，装置实施例中未详述部分，请参见方法实施例中相应位置的介绍，这里不再赘述。

另外，还应该指出的是，上述系列处理和装置也可以通过软件和/或固件实现。在通过软件和/或固件实现的情况下，从存储介质或网络向具有专用硬件结构的计算机，例如图5所示的通用个人计算机500安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等等。

在图7中，中央处理单元(CPU)701根据只读存储器(ROM)702中存储的程序或从存储部分708加载到随机存取存储器(RAM)703的程序执行各种处理。在RAM 703中，也根据需要存储当CPU 701执行各种处理等等时所需的数据。

CPU 701、ROM 702和RAM 703经由总线704彼此连接。输入/输出接口705也连接到总线704。

下述部件连接到输入/输出接口705：输入部分706，包括键盘、鼠标等等；输出部分707，包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)等等，和扬声器等等；存储部分708，包括硬盘等等；和通信部分709，包括网络接口卡比如LAN卡、调制解调器等等。通信部分709经由网络比如因特网执行通信处理。

根据需要，驱动器710也连接到输入/输出接口705。可拆卸介质711比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器710上，使得从中读出的计算机程序根据需要被安装到存储部分708中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可拆卸介质711安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图7所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质711。可拆卸介质711的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM 702、存储部分708中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

还需要指出的是，执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行，但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。

关于包括以上实施例的实施方式，还公开下述附记：

附记1、一种语音数据处理方法，所述方法包括：

将待处理语音数据划分为语音片段；

提取各个语音片段中的声学特征，并获取各个语音片段在所述语音数据中的上下文信息；

针对各个语音片段，根据所述上下文信息以及分别在各种情感状态下建立的基于上下文信息的语音片段分类模型，确定语音片段在各种情感状态下分别所属的语音片段类别；根据语音片段中的声学特征以及预先针对所述所属的语音片段类别建立的情感模型，确定语音片段属于各种情感状态的概率，并根据所述概率，确定语音片段所属的情感状态以便根据所述语音片段所属的情感状态，对所述待处理语音数据进行情感识别。

附记2、根据附记1所述的语音数据处理方法，所述将待处理语音数据划分为语音片段包括：

对所述待处理语音数据进行音素识别；

将各个音素对应的片段确定为所述语音片段。

附记3、根据附记1或2所述的语音数据处理方法，还包括：通过以下方式分别针对各种情感状态下的各种类别的语音片段建立情感模型：

对各种已知情感状态中的每个语音数据进行划分，得到语音片段；

获取各个语音片段的上下文信息；

针对同一种情感状态中的各个语音片段，依据语音片段的上下文信息对语音片段进行分类以得到多个语音片段类别；

提取同一语音片段类别中各个语音片段的声学特征；

根据所提取的声学特征，建立针对该语音片段类别的情感模型。

附记4、根据附记3所述的语音数据处理方法，所述依据语音片段的上下文信息对语音片段进行分类以得到多个语音片段类别包括：

根据语音片段的上下文信息以及根据上下文信息设置的分类规则，对所述语音片段进行分类，得到同一情感状态下的多个语音片段类别。

附记5、根据附记4所述的语音数据处理方法，所述分类规则包括决策树，所述决策树以根据上下文信息设置的问题为节点。

附记6、根据附记5所述的语音数据处理方法，还包括：通过以下方式分别在各种情感状态下建立基于上下文信息的语音片段分类模型：

获取利用预先设置的问题集中的各个问题作为决策树中的各级节点来对所述语音片段进行分类的情况下的分类结果；

针对每个节点，计算各个问题得到的分类结果中，两类语音片段之间的距离；

根据所述距离，确定各级节点上选用的问题；

保存各级节点上选用的问题，生成所述基于上下文信息的语音片段分类模型。

附记7、根据附记1所述的语音数据处理方法，还包括：

根据各个语音片段所属的情感状态，确定所述待处理语音数据所属的情感状态；

和/或，

根据各个语音片段所属的情感状态，确定所述待处理语音数据的情感状态变化信息。

附记8、一种语音数据处理系统，所述系统包括：

划分单元，配置为将待处理语音数据划分为语音片段；

提取单元，配置为提取各个语音片段中的声学特征，并获取各个语音片段在所述语音数据中的上下文信息；

处理单元，配置为针对各个语音片段，根据所述上下文信息以及分别在各种情感状态下建立的基于上下文信息的语音片段分类模型，确定语音片段在各种情感状态下分别所属的语音片段类别；根据语音片段中的声学特征以及预先针对所述所属的语音片段类别建立的情感模型，确定语音片段属于各种情感状态的概率，并根据所述概率，确定语音片段所属的情感状态以便根据所述语音片段所属的情感状态，对所述待处理语音数据进行情感识别。

附记9、根据附记8所述的语音数据处理系统，所述划分单元包括：

音素识别子单元，配置为对所述待处理语音数据进行音素识别；

音素划分子单元，配置为将各个音素对应的片段确定为所述语音片段。

附记10、根据附记8或9所述的语音数据处理系统，还包括：

语音片段获取单元，配置为对各种已知情感状态中的每个语音数据进行划分，得到语音片段；

上下文信息获取单元，配置为获取各个语音片段的上下文信息；

语音片段分类单元，配置为针对同一种情感状态中的各个语音片段，依据语音片段的上下文信息对语音片段进行分类以得到多个语音片段类别；

声学特征提取单元，配置为提取同一语音片段类别中各个语音片段的声学特征；

情感模型建立单元，配置为根据所提取的声学特征，建立针对该语音片段类别的情感模型。

附记11、根据附记10所述的语音数据处理系统，所述语音片段分类单元具体配置为：

根据语音片段的上下文信息以及根据上下文信息设置，的分类规则，对所述语音片段进行分类，得到同一情感状态下的多个语音片段类别。

附记12、根据附记11所述的语音数据处理系统，所述分类规则包括决策树，所述决策树以根据上下文信息设置的问题为节点。

附记13、根据附记12所述的语音数据处理系统，还包括：

分类结果获取单元，配置为获取利用预先设置的问题集中的各个问题作为决策树中的各级节点来对所述语音片段进行分类的情况下的分类结果；

计算单元，配置为针对每个节点，计算各个问题得到的分类结果中，两类语音片段之间的距离；

问题确定单元，配置为根据所述距离，确定各级节点上选用的问题；

语音片段分类模型建立单元，配置为保存各级节点上选用的问题，生成所述基于上下文信息的语音片段分类模型。

附记14、根据附记8所述的语音数据处理系统，还包括：

情感状态确定单元，配置为根据各个语音片段所属的情感状态，确定所述待处理语音数据所属的情感状态；

和/或，

虽然已经详细说明了本发明各实施例及其优点，但是应当理解在不脱离由所附的权利要求所限定的本发明的精神和范围的情况下可以进行各种改变、替代和变换。而且，本发明实施例的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个......”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种语音数据处理方法，所述方法包括：

将待处理语音数据划分为语音片段；

提取各个所述语音片段中的声学特征，并获取各个所述语音片段在所述语音数据中的上下文信息；

针对各个所述语音片段，根据所述上下文信息以及分别在各种情感状态下建立的基于上下文信息的语音片段分类模型，确定所述语音片段在各种情感状态下分别所属的语音片段类别；根据所述语音片段中的声学特征以及预先针对所述所属的语音片段类别建立的情感模型，确定所述语音片段属于各种情感状态的概率，并根据所述概率，确定所述语音片段所属的情感状态以便根据所述语音片段所属的情感状态，对所述待处理语音数据进行情感识别。

2.根据权利要求1所述的语音数据处理方法，还包括：通过以下方式分别针对各种情感状态下的各种类别的语音片段建立情感模型：

对各种已知情感状态中的每个语音数据进行划分，得到从已知情感状态的语音数据中划分的语音片段；

获取从已知情感状态的语音数据中划分的各个语音片段的上下文信息；

针对同一种情感状态中的、从已知情感状态的语音数据中划分的各个语音片段，依据该语音片段的上下文信息对该语音片段进行分类以得到多个语音片段类别；

提取同一语音片段类别中的、从已知情感状态的语音数据中划分的各个语音片段的声学特征；

3.根据权利要求2所述的语音数据处理方法，所述依据该语音片段的上下文信息对该语音片段进行分类以得到多个语音片段类别包括：

根据从已知情感状态的语音数据中划分的语音片段的上下文信息以及根据上下文信息设置的分类规则，对该语音片段进行分类，得到同一情感状态下的多个语音片段类别。

4.根据权利要求3所述的语音数据处理方法，所述分类规则包括决策树，所述决策树以根据上下文信息设置的问题为节点。

5.根据权利要求4所述的语音数据处理方法，还包括：通过以下方式分别在各种情感状态下建立基于上下文信息的语音片段分类模型：

获取利用预先设置的问题集中的各个问题作为决策树中的各级节点来对从已知情感状态的语音数据中划分的语音片段进行分类的情况下的分类结果；

根据所述距离，确定各级节点上选用的问题；

6.一种语音数据处理系统，所述系统包括：

划分单元，配置为将待处理语音数据划分为语音片段；

提取单元，配置为提取各个所述语音片段中的声学特征，并获取各个所述语音片段在所述语音数据中的上下文信息；

处理单元，配置为针对各个所述语音片段，根据所述上下文信息以及分别在各种情感状态下建立的基于上下文信息的语音片段分类模型，确定所述语音片段在各种情感状态下分别所属的语音片段类别；根据所述语音片段中的声学特征以及预先针对所述所属的语音片段类别建立的情感模型，确定所述语音片段属于各种情感状态的概率，并根据所述概率，确定所述语音片段所属的情感状态以便根据所述语音片段所属的情感状态，对所述待处理语音数据进行情感识别。

7.根据权利要求6所述的语音数据处理系统，还包括：

语音片段获取单元，配置为对各种已知情感状态中的每个语音数据进行划分，得到从已知情感状态的语音数据中划分的语音片段；

上下文信息获取单元，配置为获取从已知情感状态的语音数据中划分的各个语音片段的上下文信息；

语音片段分类单元，配置为针对同一种情感状态中的、从已知情感状态的语音数据中划分的各个语音片段，依据该语音片段的上下文信息对该语音片段进行分类以得到多个语音片段类别；

声学特征提取单元，配置为提取同一语音片段类别中的、从已知情感状态的语音数据中划分的各个语音片段的声学特征；

8.根据权利要求7所述的语音数据处理系统，所述语音片段分类单元具体配置为：

9.根据权利要求8所述的语音数据处理系统，所述分类规则包括决策树，所述决策树以根据上下文信息设置的问题为节点。

10.根据权利要求9所述的语音数据处理系统，还包括：

分类结果获取单元，配置为获取利用预先设置的问题集中的各个问题作为决策树中的各级节点来对从已知情感状态的语音数据中划分的语音片段进行分类的情况下的分类结果；