CN111583968A

CN111583968A - 一种语音情感识别方法和系统

Info

Publication number: CN111583968A
Application number: CN202010449626.6A
Authority: CN
Inventors: 蔡国永; 任凯琪
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2020-05-25
Filing date: 2020-05-25
Publication date: 2020-08-25

Abstract

本发明属于语音识别技术领域，特别涉及一种语音情感识别方法和系统。所述识别方法包括：获取样本语音集合和/或待分类语音，确定各情感类别和/或待分类语音的代表词汇；计算所述待分类语音与各情感类别的相似度；根据所述相似度，确定待分类语音的情感类别。本发明提出的识别系统基于TF‑IDF算法和欧氏距离计算公式构建，构建成本低、训练难度小。在对未分类语音进行分类后，可将该语音作为语音样本，添加至样本语音集合中。并且样本语音集合可定时对情感片段库进行更新；从而可以实现识别系统识别范围增大、识别准确度提升。

Description

一种语音情感识别方法和系统

技术领域

本发明属于语音识别技术领域，特别涉及一种语音情感识别方法和系统。

背景技术

计算机对从传感器采集来的信号进行分析和处理，从而得出对方(人)正处在的情感状态，这种行为叫做情感识别。从生理心理学的观点来看，情绪是有机体的一种复合状态，既涉及体验又涉及生理反应，还包含行为，其组成分至少包括情绪体验、情绪表现和情绪生理三种因素。目前对于情感识别有两种方式，一种是检测生理信号如呼吸、心律和体温等，另一种是检测情感行为如面部特征表情识别、语音情感识别和姿态识别。

目前已有很多语音情感识别技术，但是现有的语音情感识别技术研究大多基于LSTM。从实际研究过程中可以发现，LSTM具有参数量巨大、训练难度大等基础性问题。利用LSTM实现语音情感识别的系统模型，构建成本高、训练难度大，这也导致了识别准确度有限。

发明内容

针对上述问题，本发明提供了一种语音情感识别方法，所述识别方法包括：

获取样本语音集合和/或待分类语音，确定各情感类别和/或待分类语音的代表词汇；

计算所述待分类语音与各情感类别的相似度；

根据所述相似度，确定待分类语音的情感类别。

进一步的，所述确定代表词汇包括：

获取样本语音集合；

对所述样本语音集合中各语音样本进行预处理和拆分处理，得到情感片段库；

根据所述情感片段库，确定各已知情感类别的代表词汇文本。

进一步的，所述确定代表词汇包括：

获取待分类语音；

对所述待分类语音进行预处理和拆分处理，得到待分类语音片段库；

根据所述待分类语音片段库，确定待分类语音片段库的代表词汇文本。

进一步的，所述预处理包括预加重、分帧、加窗、端点检测处理中的一种或多种。

进一步的，所述确定代表词汇还包括：

计算情感片段库中各词汇文本在该片段库中出现的概率；

根据所述概率确定情感片段库的代表词汇。

进一步的，所述确定代表词汇还包括：

计算待分类语音片段库中各词汇文本在待分类语音片段库中出现的概率；

根据所述概率确定待分类语音片段库的代表词汇。

进一步的，所述计算所述待分类语音与各情感类别的相似度包括：

获取各情感类别片段库的代表词汇；

提取所述代表词汇在当前情感类别片段库中的特征集；

计算所述特征集中各特征的特征数据。

获取待分类语音片段库的代表词汇；

提取所述代表词汇在待分类语音片段库中的特征集；

计算所述特征集中各特征的特征数据。

进一步的，所述特征集包括词汇文本、时长、频率和强度。

本发明还提供了一种语音情感识别系统，所述识别系统包括：

代表词汇确认模块，用于获取样本语音集合和/或待分类语音，确定各情感片段库和/或待分类语音片段库的代表词汇；

特征数据模块，用于提取所述情感片段库和/或待分类语音片段库的代表词汇的特征集，计算得到特征集中各特征数据；

相似度计算模块，用于获取并根据所述情感片段库和待分类语音片段库的特征数据，计算得到待分类语音片段和各情感片段库的相似度。

本发明提出的识别系统构建成本低、训练难度小。在对未分类语音进行分类后，可将该语音作为语音样本，添加至样本语音集合中。并且样本语音集合可定时对情感片段库进行更新；从而可以实现识别系统识别范围增大、识别准确度提升。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据本发明实施例的语音情感识别方法流程示意图；

图2示出了根据本发明实施例的语音情感识别系统结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地说明，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供了一种语音情感识别方法，示例性的，如图1所示，所述识别方法包括：

步骤一：获取样本语音集合，确定各已知情感类别的代表词汇。

具体的，所述确定代表词汇包括：

获取样本语音集合，对所述样本语音集合中各情感类别下语音样本进行预处理和拆分处理，得到各情感片段库；

根据所述情感片段库，确定各已知情感类别的代表词汇。

示例性的，所述样本语音集合包括但不限于现有的语音情感数据库和已完成人工分类的语音样本。所述语音情感数据库包括但不限于ACCorpus系列汉语情感数据库和CASIA汉语情感数据库中一种或多种。即已知情感类别的语音样本，构成样本语音集合。例如，获取的样本语音集合中包括30个已知情感类别的语音样本，所述样本语音集合中的语音情感类别包括但不限于高兴、愤怒、悲伤、平淡中的多种。

具体的，所述对各语音样本进行预处理包括但不限于预加重、分帧、加窗、端点检测处理。

具体的，预加重处理是指求语音信号频谱，频率越高相应的成分越小，高频部分的频谱比低频部分的难求，为此要在预处理中进行预加重(Pre-emphasis)处理。预加重的目的是提高高频部分，使信号的频谱变得平坦，以便于频谱分析或者声道参数分析。预加重可在语音信号数字化时在反混叠滤波器之前进行，但一般是在语音信号数字化之后。所述短时分析是指语音信号从整体来看是随时间变化的，是一个非平稳过程，不能用处理平稳信号的数字信号处理技术对其进行分析处理。但是，由于不同的语音是由人的口腔肌肉运动构成声道某种形状而产生的响应，这种运动对于语音频率来说是非常缓慢的，所以从另一方面看，虽然语音信号具有时变特性，但是在一个短时间范围内(一般认为在10-30ms)其特性基本保持相对稳定，即语音具有短时平稳性。所以任何语音信号的分析和处理必须建立在“短时”的基础上，即进行“短时分析”。对语音信号进行预加重的目的是为了去除口唇辐射的影响，增加语音的高频分辨率；并且预加重还可以改善清音的效果。

所述分帧是指将语音信号分为一段一段，其中每一段称为一帧，一般取10-30ms。为了使帧与帧之间平滑过渡，保持连续性，使用交叠分段的方法，可以想成一个指针p从头开始，截取一段头为p，长度为帧长的片段，然后指针p移动，移动的步长就称为帧移，每移动一次都截取一段，这样就得到很多帧。具体的，语音信号经过分帧处理后，减少语音信号整体的非稳态、时变的影响。

所述加窗是指用一定的窗函数w(n)w(n)来乘s(n)s(n)，从而形成加窗语音信号sw(n)＝s(n)*w(n)sw(n)＝s(n)*w(n)，常用的窗函数是矩形窗和汉明窗，用矩形窗其实就是不加窗，窗函数中的n是指窗口长度(样本点个数)，每个窗口对应一帧，通常在8kHz取样频率下，n的数值选择为80-160(即10-20ms持续时间)。因为信号在分帧处理时，几乎不可能做到周期性截断，所以才需要加窗——加窗函数在时域上调制信号，以尽量满足周期性截断，从而减少频谱泄露。

所述端点检测是指从一段语音信号中准确地找出语音信号的起始点和结束点，它的目的是为了使有效的语音信号和无用的噪声信号得以分离。对于一些公共的语音数据集可以不做这步操作，因为这些语音的内容就是有效的语音信号。

对语音样本进行预处理后，对语音样本进行拆分处理。具体的，将语音样本以词汇为单位，拆分成若干组词汇语音。例如将语音样本“今天是晴天”拆分为“今天”、“是”、“晴天”三个词汇语音。示例性的，所述拆分处理，可以根据词汇文本进行拆分，也可以通过语音音素进行分割。

将样本语音集合中属于同一情感类别的语音样本拆分得到的词汇语音，归于一个情感片段库中。例如，对样本语音集合中所有情感类别为“高兴”的语音样本进行拆分，得到的词汇语音，构成“高兴”情感片段库；对样本语音集合中所有情感类别为“愤怒”的语音样本进行拆分，得到的词汇语音，构成“愤怒”情感片段库。

优选的，还可对情感片段库进行筛分处理。例如，对情感片段库出现频度过高和/或过低的词汇语音进行删除，提高情感片段库的准确度。

计算各情感片段库中各词汇语音在该片段库中出现的概率，得到各情感片段库的代表词汇语音。

本发明实施例采用TF-IDF算法计算各词汇文本在对应情感片段库中的出现概率，将各词汇语音出现的概率按照由高到低的顺序排列，从而得到最能代表当前情感的词汇语音。

TF-IDF(Term Frequency-Inverse Document Frequency)算法，即“词频-逆文本频率”。该算法由两部分组成，TF算法和IDF算法。TF算法用于计算词汇语音在对应情感片段库下的出现频率。

具体的，所述词频的计算公式为：

TF(x)＝m/M (1)

其中，TF(x)表示词汇语音x在当前情感片段库中出现的频率，m表示词汇语音x在当前情感片段库中出现的次数，M表示当前情感片段库中总的词汇语音数量。

从公式(1)中可以看出，词汇语音x在当前情感片段库中出现的频率TF(x)与词汇语音x在当前情感片段库中出现的次数成正比。

IDF算法用于计算词汇文本的逆文本频率，即在一个情感片段库下，计算该情感片段库中的词汇语音，在整个样本语音集合中的出现的频率，从而确定出该词汇语音对于一个情感片段库的重要性。若该词汇语音在多个情感片段库中均有出现，则该词汇语音对于某一个情感片段库的重要性较低，其代表情感片段库的权重就低；若该词汇语音在仅在一个情感片段库中出现，则该词汇语音对于该情感片段库的重要性较高，其代表情感片段库的权重就高。

具体的，所述逆文本频率的计算公式为：

IDF(x)＝log(K/N(x)) (2)

其中，IDF(x)表示词汇语音x在当前情感片段库下的逆语音概率，K表示样本语音集合中的情感片段库总数，N(x)表示当前样本语音集合中包含词汇语音x的情感片段库数量。

上述当前样本语音集合中包含词汇语音x的情感片段库是指：若词汇语音x在当前情感片段库下，各词汇语音的出现频率从大到小排序中，排在前十(此处为示例性说明，具体计算数量进行调整)，则表示词汇语音x包含在当前情感片段库中。例如，“高兴”情感片段库中有20种词汇语音，分别计算这20个词汇语音在“高兴”情感片段库中出现的频率，将20个频率数值按照从大到小顺序排列，发现词汇语音“歌唱”的频率排在第五位，则表示“高兴”情感片段库为包含词汇语音“歌唱”的情感片段库；“愤怒”情感片段库中有30中词汇语音，分别计算这30个词汇语音在“愤怒”情感片段库中出现的频率，将30个频率数值按照从大到小顺序排列，发现词汇语音“歌唱”的频率排在第十一位，则表示“愤怒”情感片段库中未包含词汇语音“歌唱”。

从公式(2)中可以看出，词汇语音x在当前情感片段库下的逆文本频率，与当前样本语音集合中包含词汇语音x的情感片段库数量成反比。

需要说明的是，若词汇语音y为生僻词汇，且在当前片段库中不存在词汇语音y，则此时N(y)的值为0，此时公式(2)无法满足计算。因此，可对公式(2)进行平滑处理，平滑后的公式为：

IDF(x)＝log((K)/(N(x)+1)) (3)

其中，IDF(x)表示词汇语音x在当前情感片段库下的逆语音概率，K表示当前样本语音集合中的情感片段库总数，N(x)表示当前样本语音集合中包含词汇语音x的情感片段库数量。

结合词频和逆文本频率，即可得到词汇语音在对应情感片段库下的概率，所述词汇语音概率的计算公式为：

TF-IDF(x)＝TF(x)*IDF(x) (4)

其中，TF-IDF(x)表示词汇语音x在当前情感片段库下的概率，可用于表示词汇语音x和该情感片段库的关联度；TF(x)表示词汇语音x在当前情感片段库中出现的频率；IDF(x)表示词汇语音x在当前情感片段库下的逆语音概率。

将情感片段库中的各词汇语音，按照其词汇语音概率从大到小排序，获取排名前十的词汇语音。则这十个词汇语音可以代表当前情感片段库，即这十个词汇语音为当前情感类别的代表词汇语音。情感片段库的代表词汇语音数量可根据实际情况进行调整，此处十个仅为示例性说明。

进一步的，所述确定情感片段库的代表词汇包括：

提取代表词汇语音的特征集，所述特征集包括但不限于词汇文本、时长、频率和强度。

词汇文本是该词汇语音对应的词汇文本；

时长是指该词汇语音的播放时间长度，单位为ms；

频率是指在该词汇语音播放时间内，出现高音点的次数；

强度是指该语音词汇最大分贝数值。

综上，情感片段库包括词汇文本、时长、频率和强度等特征，其中时长、频率和强度为各词汇文本下的特征数据。

表1甲情感片段库特征数据表

示例性的，如表1所示，甲情感片段库包括3个代表词汇语音，对应的代表词汇文本分别为a，b，c。三个代表词汇文本的序号分别为1，2，3。每个代表词汇语音有三个特征，X_1.1表示词汇语音a的时长特征数值，X_1.2表示词汇语音a的频率特征数值，X_1.3表示词汇语音a的强度特征数值；X_2.1表示词汇语音b的时长特征数值，X_2.2表示词汇语音b的频率特征数值，X_3.3表示词汇语音b的强度特征数值；X_3.1表示词汇语音c的时长特征数值，X_3.2表示词汇语音c的频率特征数值，X_3.3表示词汇语音c的强度特征数值。

在同一样本语音集合中，相同词汇文本的序号相同，相同词汇文本的相同特征的序号也相同。

步骤二：获取待分类语音，计算所述待分类语音与各情感片段库的相似度。

具体的，对所述待分类语音进行预处理、拆分处理，得到所述待分类语音的片段库，利用上述TF算法，分别计算该待分类语音中各词汇语音在该片段库中的词频。将所述词汇语音按照词频数据从大到小排序，取排名前十(此处为示例性说明，具体计算数值可进行调整)的词汇语音作为所述待分类语音的代表词汇语音。

提取所述待分类语音片段库的特征集，所述特征集包括但不限于词汇文本、时长、频率和强度。其中时长、频率和强度为各词汇文本下的特征数据。

表2待分类语音片段库特征数据表

示例性的，如表1所示，甲情感片段库包括3个代表词汇语音，对应的代表词汇文本分别为a，b，c。三个代表词汇文本的序号分别为1，2，3。每个代表词汇语音有三个特征，y_1.1表示词汇语音a的时长特征数值，y_1.2表示词汇语音a的频率特征数值，y_1.3表示词汇语音a的强度特征数值；y_2.1表示词汇语音b的时长特征数值，y_2.2表示词汇语音b的频率特征数值，y_3.3表示词汇语音b的强度特征数值；y_3.1表示词汇语音c的时长特征数值，y_3.2表示词汇语音c的频率特征数值，y_3.3表示词汇语音c的强度特征数值。

在同一识别系统中中，相同词汇文本的序号相同，相同特征的序号也相同。

本发明采用但不限于欧氏距离计算方法计算待分类语音与各情感片段库的相似度。

欧氏距离(Euclid Distance)也称为欧几里得度量、欧几里得距离，是一种距离定义，可表示在多维空间中两个点之间的真实距离。在二维空间中的欧氏距离就是两点间的直线段距离。

多维空间的欧氏距离公式为：

其中，dist(X，Y)表示点X和点Y的欧氏距离值，x_i表示点X在第i维度上的坐标值，y_i表示点Y在第i维度上的坐标值。在多维空间中的欧氏距离是绝对距离，可以理解为两个点之间的真实距离，或者向量的自然长度。

本发明在欧氏距离公式的基础上进行调整，得到计算情感片段库和待分类语音片段库相似度的公式：

其中，X表示情感片段库，Y表示待分类语音片段库；x_i.j表示当前情感片段库中第i个代表词汇语音的第j个特征数值；y_i.j表示待分类语音片段库中第i个代表词汇语音的第j个特征数值。

将待分类语音片段库和情感片段库的特征数据分别代入公式(6)，即可分别计算出待分类语音与各情感类别的相似度。

示例性的，将上述表1中的甲情感片段库特征数值和表2中的待分类语音片段库特征数值代入公式(6)，计算得到该待分类语音于甲情感类别的相似度值为13.64。

步骤三：根据所述相似度，确定待分类语音的情感类别。

将所有相似度值从大到小排序，相似度值最高的情感类别，即为待分类语音的情感类别。

为实现上述语音情感识别方法，本发明还提供了一种语音情感识别系统，示例性的，如图2所示，所示识别系统包括：

情感类别确认模块，用于获取并根据相似度，确定所述待分类语音的情感类别。

本发明提供的识别系统，在执行语音情感识别方法步骤过程中，可对识别结果进行校对，根据实际情况，可调整识别系统的计算参数，例如：代表词汇的特征种类和计算方式、相似度的计算方法等。

本发明提出的识别系统基于TF-IDF算法和欧氏距离计算公式构建，构建成本低、训练难度小。在对未分类语音进行分类后，可将该语音作为语音样本，样本语音集合中。并且样本语音集合可定时对情感片段库进行更新；从而可以实现识别系统识别范围增大、识别准确度提升，确保识别准确度在95.33％以上。

本发明的识别系统除了能够执行上述语音情感识别方法的步骤之外，还可以结合其他情感识别方法，例如，表情识别、动作识别等。

尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音情感识别方法，其特征在于，所述识别方法包括：

计算所述待分类语音与各情感类别的相似度；

根据所述相似度，确定待分类语音的情感类别。

2.根据权利要求1所述的语音情感识别方法，其特征在于，所述确定代表词汇包括：

获取样本语音集合；

3.根据权利要求1所述的语音情感识别方法，其特征在于，所述确定代表词汇包括：

获取待分类语音；

4.根据权利要求2或3所述的语音情感识别方法，其特征在于，所述预处理包括预加重、分帧、加窗、端点检测处理中的一种或多种。

5.根据权利要求2所述的语音情感识别方法，其特征在于，所述确定代表词汇还包括：

计算情感片段库中各词汇文本在该片段库中出现的概率；

根据所述概率确定情感片段库的代表词汇。

6.根据权利要求3所述的语音情感识别方法，其特征在于，所述确定代表词汇还包括：

根据所述概率确定待分类语音片段库的代表词汇。

7.根据权利要求1所述的语音情感识别方法，其特征在于，所述计算所述待分类语音与各情感类别的相似度包括：

获取各情感类别片段库的代表词汇；

提取所述代表词汇在当前情感类别片段库中的特征集；

计算所述特征集中各特征的特征数据。

8.根据权利要求1所述的语音情感识别方法，其特征在于，所述计算所述待分类语音与各情感类别的相似度包括：

获取待分类语音片段库的代表词汇；

提取所述代表词汇在待分类语音片段库中的特征集；

计算所述特征集中各特征的特征数据。

9.根据权利要求7或8所述的语音情感识别方法，其特征在于，所述特征集包括词汇文本、时长、频率和强度。

10.一种语音情感识别系统，其特征在于，所述识别系统包括：