CN111445899B

CN111445899B - 语音情绪识别方法、装置及存储介质

Info

Publication number: CN111445899B
Application number: CN202010155947.5A
Authority: CN
Inventors: 徐健
Original assignee: China Mobile Communications Group Co Ltd; MIGU Culture Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; MIGU Culture Technology Co Ltd
Priority date: 2020-03-09
Filing date: 2020-03-09
Publication date: 2023-08-01
Anticipated expiration: 2040-03-09
Also published as: CN111445899A

Abstract

本发明涉及语音识别领域，特别涉及一种语音情绪识别方法、装置及存储介质。语音情绪识别方法，包括：比较原始语音的帧数和预设语音帧数；如果所述原始语音的帧数小于所述预设语音帧数，则复制所述原始语音的帧并插入所述原始语音中，得到符合所述预设语音帧数的标准语音；根据所述标准语音和预设语音情绪识别模型，对所述原始语音对应的情绪进行识别。采用本发明的实施例，能够在保持原始语音的语音特征下进行语音情绪的识别，以保障识别结果的准确度。

Description

语音情绪识别方法、装置及存储介质

技术领域

本发明涉及语音识别领域，特别涉及一种语音情绪识别方法、装置及存储介质。

背景技术

随着科技的迅速发展，自动语音识别服务已经逐渐渗入日常生活的各个方面。通常人们所说的自动语音识别，大多是把语音内容转换成对应含义的文本内容；但人们所说的话除了包括文本内容，还有其他例如音量、语调和说话情绪等重要内容，这些其他内容都会对文本内容的理解产生较大的影响，有时候说话的情绪不同可能导致对同一句话理解出完全相反的意思；因此，识别语音对应的情绪是语音识别服务中较为重要的一部分，相关技术中通常基于深度学习网络进行语音情绪的识别。然而发明人发现相关技术中存在如下问题：在进行语音情绪的识别时，输入的语音帧数不尽相同，因此为了满足输入长度要求，通常在提取到语音的特征后，将不等长的特征补零至相同长度，再进行语音情绪的识别，这样会丢失掉原始语音中包含的部分内容，导致后续对于语音情绪识别的准确性不高。

发明内容

本发明实施例的目的在于提供一种语音情绪识别方法、装置及存储介质，能够在保持原始语音的语音特征下进行语音情绪的识别，以保障识别结果的准确度。

为解决上述技术问题，本发明的实施例提供了一种语音情绪识别方法，包括：比较原始语音的帧数和预设语音帧数；如果所述原始语音的帧数小于所述预设语音帧数，则复制所述原始语音的帧并插入所述原始语音中，得到符合所述预设语音帧数的标准语音；根据所述标准语音和预设语音情绪识别模型，对所述原始语音对应的情绪进行识别。

本发明的实施例还提供了一种语音情绪识别装置，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述的语音情绪识别方法。

本发明的实施例还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现上述的语音情绪识别方法。

本发明实施例相对于现有技术而言，比较原始语音的帧数和预设语音帧数；如果所述原始语音的帧数小于所述预设语音帧数，则复制所述原始语音的帧并插入所述原始语音中，得到符合所述预设语音帧数的标准语音；根据所述标准语音和预设语音情绪识别模型，对所述原始语音对应的情绪进行识别；也就是说，当原始语音的长度较短，即帧数较少时，直接对原始语音进行变长处理，因此保留了原始语音中包括的内容；在对原始语音进行变长处理时，是采用原始语音中的帧来扩充原始语音的帧数，因此得到的符合预设语音帧数的标准语音，也是由原始语音中的帧组成的，因此保留了原始语音的语音特征，避免了采用插入与原始语音无关的帧来扩充帧数时可能导致原始语音的语音特征发生改变的情况；在后续对标准语音进行语音情绪识别时，原始语音的语音特征有效保障了识别结果的准确度。

另外，所述复制所述原始语音的帧并插入所述原始语音中，包括：计算所述原始语音的指标值，并与预设阈值比较；如果所述指标值小于所述预设阈值，则依次复制所述原始语音的每一帧，并将复制的帧插入被复制的帧之后；如果所述指标值大于所述预设阈值，则复制所述原始语音的所有帧，并将复制的所述所有帧插入至所述原始语音的结束帧之后。上述提供了复制原始语音中的帧来扩充原始语音的帧数的方式，目的在于保持原始语音的语音特征。

另外，所述计算所述原始语音的指标值，包括：提取所述原始语音的声谱信息；根据所述声谱信息，计算所述原始语音的标准差，作为所述原始语音的指标值。可以理解的是，计算原始语音的标准差能够反映原始语音的稳定程度，稳定程度可以反映语音特征所表现出来的情绪表现强度，根据原始语音的情绪表现强度来采用不同的方式扩充原始语音的帧数，以维持原始语音的语音特征不产生太大变化。

另外，所述得到符合所述预设语音帧数的标准语音，包括：从被插入帧之后的所述原始语音中截取符合所述预设语音帧数的一段语音，作为标准语音。

另外，所述根据所述标准语音和预设语音情绪识别模型，对所述原始语音对应的情绪进行识别，包括：提取所述标准语音的特征；根据所述标准语音的特征、预设的LSTM模型和预设的SVM分类器，得到所述原始语音对应的情绪。可以理解的是，LSTM模型和SVM分类器的组合叠加使用有效提升了计算速度与识别精度。

另外，所述预设的LSTM模型，通过以下方式训练得到：获取训练语音，每个所述训练语音包括第一样本、第二样本和第三样本，所述第一样本和所述第二样本分别对应的情绪相同，所述第一样本和所述第三样本分别对应的情绪不同；根据所述训练语音和Triplet-Loss损失函数，进行LSTM模型的训练，得到所述预设的LSTM模型。

另外，所述获取训练语音，包括：选择一个语音作为所述第一样本；选择与所述第一样本对应的情绪相同，且与所述第一样本的欧氏距离最远的语音作为所述第二样本；选择与所述第一样本对应的情绪不同，且与所述第一样本的欧氏距离最近的语音作为所述第三样本。由于在训练LSTM模型时采用的是Triplet-loss损失函数，Triplet-loss损失函数是通过度量学习使得同类样本在特征空间尽可能靠近，异类样本在特征空间尽可能远离，同类样本之间的距离小于异类样本之间的距离，以提高模型的准确性和可靠性，因此通过上述方式获取到的训练语音能够提高训练效率，同时令同类样本之间的最大距离小于异类样本之间的最小距离，从而其他距离范围的样本也能够满足训练目的，以达到较为优良的模型训练效果。

另外，在比较原始语音的帧数和预设语音帧数后，所述方法还包括：如果所述原始语音的帧数大于所述预设语音帧数，则从所述原始语音中截取符合所述预设语音帧数的一段语音，作为标准语音；如果所述原始语音的帧数等于所述预设语音帧数，则将所述原始语音作为标准语音。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定。

图1是根据本发明第一实施例中语音情绪识别方法的流程示意图；

图2是根据本发明第一实施例中对原始语音的变长处理的流程示意图；

图3是根据本发明第二实施例中语音情绪识别方法的流程示意图；

图4是根据本发明第三实施例中语音情绪识别装置。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。

本发明的第一实施例涉及一种语音情绪识别方法，其具体流程如图1所示，包括：

步骤101，比较原始语音的帧数和预设语音帧数；如果原始语音的帧数小于预设语音帧数，则复制原始语音的帧并插入原始语音中，得到符合预设语音帧数的标准语音。

步骤102，根据标准语音和预设语音情绪识别模型，对原始语音对应的情绪进行识别。

本实施例中的语音情绪识别方法类似于基于深度学习的语音情绪识别方法。基于深度学习的语音情绪识别方法，例如使用多层卷积神经网络模型，将训练数据的声谱图、低水平特征LLDs或是统计特征等，作为输入，用两个不同的卷积核分别提取其时域特征和频域特征后连接并池化，最后使用sattention fooling技术得到输出。下面对本实施例的语音情绪识别方法的实现细节进行具体的说明，以下内容仅为方便理解提供的细节，并非实施本方案的必须。

在步骤101中，比较原始语音的帧数和预设语音帧数，根据比较的结果对原始语音采取不同的变长处理方式。在实例中，令原始语音为帧数为n(即长度为n)的语音序列{f₁,f₂,f₃……f_n}，预设语音帧数为F，预设语音帧数F即为满足语音情绪识别输入长度要求的帧数。

如果n小于F，说明需要对原始语音的帧数进行扩充。本实施例中，提供了对原始语音的帧数进行扩充的实现方式，下面进行说明。

首先，计算原始语音的指标值，并与预设阈值比较。

具体地说，本实施例中计算原始语音的指标值可以包括以下步骤：

(1)提取原始语音的声谱信息；在实例中，可以使用python_speech_feature库来提取原始语音的MFCC梅尔频谱倒普系数，作为原始语音的声谱系数。梅尔频谱倒普系数是语音识别领域常用的语音特征，具有较好的鲁棒性，更符合人耳的听觉特性和识别性能。在实例中，MFCC梅尔频谱倒普系数的提取过程大致包括：对一段连续的原始语音分帧；将每一帧转换为频谱；将每一帧的频谱使用梅尔滤波器进行滤波，再对每个滤波器的结果求和得到一个向量；对向量的每个元素取对数，再做离散余弦转换处理，得到L阶的梅尔频谱倒普系数，L通常取12～16。

(2)根据声谱信息，计算原始语音的标准差，作为原始语音的指标值。在实例中，在提取到MFCC梅尔频谱倒普系数后，使用numpy.std()计算其标准差S，将S作为原始语音的指标值。可以理解的是，计算的标准差S能够反映原始语音的稳定程度，原始语音的稳定程度能够反映语音特征的情绪表现强度，根据原始语音的情绪表现强度来采用不同的方式扩充原始语音的帧数，以维持原始语音的语音特征不产生太大变化。

在计算得到原始语音的指标值后，比较原始语音的指标值和预设阈值。可以理解的是，由于在上述说明中是计算的原始语音的标准差作为原始语音的指标值，因此本步骤中的预设阈值也是以语音的标准差的形式体现的，例如可以从专业机构录制好的数据集中选取对应于某一个情绪的语音，提取其声谱信息并计算标准差，作为预设阈值；在实例中，可以从IEMOCAP数据集中，选择与“中立”情绪对应的语音计算标准差，作为预设阈值。

一种情况下，如果指标值小于预设阈值，则依次复制原始语音的每一帧，并将复制的帧插入被复制的帧之后。

具体地说，如果原始语音的指标值小于预设阈值，说明原始语音的稳定性较好，声谱信息整体较为平稳，原始语音的情绪表现不强，也就是原始语音各帧之间的变化并不是十分明显，因此可进行帧的重复扩充，依次复制原始语音的每一帧，并将复制的帧插入被复制的帧之后，这样扩充原始语音的帧数后，不会使各帧之间产生较大的变化，也就是原始语音的语音特征不会产生太大变化。在实例中，当原始语音为语音序列{f₁,f₂,f₃……f_n}时，扩充帧数后的语音序列可以是：

(f₁，f₁，f₁，f₂，f₂，f₂，f₃，f₃，f₃，……f_n，f_n，f_n}。

一种情况下，如果指标值大于预设阈值，则复制原始语音的所有帧，并将复制的所有帧插入至原始语音的结束帧之后。

具体地说，如果原始语音的指标值大于预设阈值，说明原始语音的稳定性较差，声谱信息整体波动较大，原始语音的情绪表现较强，也就是原始语音各帧之间的变化差异较大，因此可进行帧的循环扩充，复制原始语音的所有帧，并将复制的所有帧插入至原始语音的结束帧之后，这样扩充原始语音的帧数后，得到的是由若干段完整的原始语音组成的语音，并未改变完整的一段原始语音中各帧之间连续的关系，也就是未改变原始语音的语音特征。在实例中，当原始语音为语音序列{f₁,f₂,f₃……f_n}时，扩充后的语音序列可以是：

(f₁，f₂，f₃......f_n，f₁，f₂，f₃......f_n，f₁，f₂，f₃......f_n，}。

上述复制原始语音的帧的次数并不做具体限制；当扩充后的语音序列的帧数大于预设语音帧数F，则从扩充后的语音序列中截取一段帧数为F的语音作为标准语音。另外，也可以在复制原始语音的帧之前，根据原始语音的帧数和预设语音帧数进行计算，使得扩充后的语音序列的帧数等于预设语音帧数。

上述对n小于F的情况进行了说明；可以理解的是，如果n等于F，说明原始语音的帧数满足输入长度要求，则可直接将原始语音作为标准语音；如果n大于F，说明原始语音的帧数超出了输入长度要求，则从原始语音中截取一段帧数为F的语音作为标准语音。

综上，本步骤中对于原始语音的变长处理的流程示意图，可以参见图2。

在步骤102中，由于标准语音也是由原始语音中的帧组成的，保留了原始语音的语音特征，因此将标准语音输入预设的语音情绪识别模型，得到模型输出的标准语音对应的情绪，作为原始语音对应的情绪。

可以理解的是，预设的语音情绪识别模型，是根据已经标注好情绪的语音训练得到的；在实例中，可以使用例如卷积神经网络模型、循环神经网络、HMM隐马尔科夫模型、GMM高斯混合模型等作为训练用的基础模型；可以采用专业机构录制好的数据集作为模型的训练样本，例如Emo-DB情感数据集、CASIA情感数据集、IEMOCAP数据集等等，数据集中的语音均已经过预处理，标注好了对应的情绪，可以直接作为训练样本使用。以IEMOCAP数据集为例，IEMOCAP数据集具有免费的使用许可，其中的语音由专业机构录制，语音质量较好，且对每个语音所对应的情绪都进行人工的评估，当人工评估其对应的情绪的数量占总评估人数过半时才会将对语音标注好对应的情绪，也就是语音的标注质量较好，有助于进行模型的训练。IEMOCAP数据集中的语音对应的情绪包括生气、高兴、悲伤和中立等等，将作为训练样本的语音和其对应的情绪输入训练用的基础模型，训练得到预设的语音情绪识别模型；预设的语音情绪识别模型在接收到输入的标准语音时，将会输出标准语音对应的情绪。

本实施例相对于现有技术而言，比较原始语音的帧数和预设语音帧数；如果原始语音长度较短，也就是帧数小于预设语音帧数时，直接对原始语音进行变长处理，保留了原始语音中包括的内容；在对原始语音进行变长处理时，根据原始语音的指标值和预设阈值间的大小关系，复制原始语音的帧并插入原始语音中，以保持原始语音的语音特征不会产生太大变化，避免了采用插入与原始语音无关的帧来扩充帧数时可能导致原始语音的语音特征发生改变的情况，得到符合预设语音帧数的标准语音；因此在得到标准语音后，根据标准语音和预设语音情绪识别模型，对原始语音对应的情绪进行识别，原始语音的语音特征有效保障了识别结果的准确度。

本发明第二实施例涉及一种语音情绪识别方法，本实施例与第一实施例大致相同，提供了一种根据预设语音情绪模型对原始语音对应的情绪进行识别的方式。本实施例中的语音情绪识别方法的流程图如图3所示，下面对图3所示的流程进行说明。

步骤201，比较原始语音的帧数和预设语音帧数；如果原始语音的帧数小于预设语音帧数，则复制原始语音的帧并插入原始语音中，得到符合预设语音帧数的标准语音。此步骤与步骤101大致相同，此处不再赘述。

步骤202，提取标准语音的特征。

具体地说，声学特征是用于描述语音的重要因素，提取声学特征是对语音进行大幅压缩并提取的过程，提取标准语音的特征作为模型的输入有助于模型更准确、更具针对性地进行学习。提取的特征可以理解为包括基因频率、共振峰、声音能量、过零率等的自然特征，也可以理解为包括低水平特征LLDs、在LLDs基础上得到的统计计算特征HSFs等；本实施例中可以选择例如openSMILE的开源工具结合comParE特征集来进行特征的提取；openSMILE是一款以命令行形式运行的工具，通过config文件来提取音频特征。

步骤203，根据标准语音的特征、预设的LSTM模型和预设的SVM分类器，得到原始语音对应的情绪。

具体地说，将提取到的标准语音的特征输入预设的LSTM模型，得到LSTM模型输出的标准语音的特征向量，作为预设的SVM分类器的输入，再得到SVM分类器输出的标准语音对应的情绪，作为原始语音对应的情绪。可以理解的是，LSTM模型和SVM分类器的组合叠加使用有效提升了计算速度与识别精度。

本实施例中，预设的LSTM模型通过预先获取的训练语音和Triplet-Loss损失函数训练得到。

一方面，预设的LSTM模型主要包含输入门i_t、输出门o_t、遗忘门f_t等，通过门可以有选择性地决定信息是否通过模型。在实例中，LSTM模型在t时刻的模型结构如下所示：

(1)遗忘门层f_t，用于读取t时刻的输入向量x_t和t-1时刻的隐藏状态h_t-1，输出一个在0到1之间的数值给每个在单元状态c_t-1中的数字，来决定需要从单元状态中丢弃的信息，其中，1表示“完全保留”，0表示“完全舍弃”，表现形式如下：

f_t＝σ(W_f×[h_t-1,x_t]+b_f)；

(2)候选层，用于确定被存放在单元状态中的新信息，其中包括用于决定将要更新的值的输入门层i_t，和用于创建新的候选值向量的tanh层，表现形式如下：

i_t＝σ(W_i×[h_t-1，x_t]+b_i)；

(3)更新单元状态，将t-1时刻的单元状态c_t-1更新为c_t，将t-1时刻的单元状态c_t-1与f_t相乘，丢弃掉需要丢弃的信息，接着加上得到新的后选址，表现形式为：

(4)输出门层o_t，确定需要输出的值，输出值是基于单元状态得到的，需要运行一个sigmoid层来确定将单元状态的哪个部分输出；接着将单元状态通过tanh函数进行处理，得到一个在-1到1之间的值，并和sigmoid门的输出相乘，得到输出，表现形式为：

o_t＝σ(W_o×[h_t-1，x_t]+b_o)；

h_t＝o_t×tanh(c_t)。

一方面，Triplet-loss损失函数是通过度量学习使得同类样本在特征空间尽可能靠近，异类样本在特征空间尽可能远离，同类样本之间的距离小于异类样本之间的距离，以提高模型的准确性和可靠性，因此预先获取的训练语音包括第一样本、第二样本和第三样本，第一样本和第二样本分别对应的情绪相同(即第一样本和第二样本为同类样本)，第一样本和第三样本分别对应的情绪不同(即第一样本和第三样本为异类样本)。

在训练LSTM模型时，将第一样本的向量以表示，第二样本的向量以/>表示，第三样本的向量以/>表示，通过Triplet-loss损失函数训练的目标是使得任意/>与同类的间的距离小于异类的/>的距离，训练损失可以理解为以下公式：

其中，α为一个表示同类样本与异类样本间划分域的参数，N表示样本的集合，符号[z]⁺表示为正值时才有意义。

另外，对于任意样本，即使样本的数据量不大，随机组合三个样本得到的一组训练语音的数量仍会比较多；因此考虑到输入的训练样本的数据量过大时会影响训练速度，在计算损失前可以对输入的训练样本进行过滤，以提高训练效率；具体地说，根据训练的目标，在获取训练语音时，选择一个语音作为第一样本选择同类的/>满足以下条件：

也就是说，选择同类的与/>的欧氏距离最远；

选择异类的满足以下条件：

也就是说，选择异类的与/>的欧氏距离最近；这样令同类样本之间的最大距离小于异类样本之间的最小距离，从而其他距离范围的样本也能够满足训练目的，提高了训练效率的同时也能够达到较为优良的训练效果。

本实施例中，预设的LSTM模型的最后一层为Embeddings层，Embeddings层的输出的标准语音的特征向量，能够较好地表达语法结构和语义特性；将预设的LSTM模型输出的标准语音的特征向量作为预设的SVM分类器的输入，得到输出来确定标准语音对应的情绪，作为原始语音对应的情绪。

可以理解的是，预设的SVM分类器是根据已经标注好情绪的语音特征向量训练得到的。在实例中，以二分类SVM分类器为例，训练SVM分类器的时候，从IEMOCAP数据集中选取标注的情绪为生气、高兴、悲伤和中立的语音作为训练样本，任意选择一种情绪作为目标情绪；对于第i条语音，获取第i条语音的特征向量，如果第i条语音标注的情绪符合目标情绪，则令SVM分类器输出参数y_i＝1，否则y_i＝-1。随后利用训练样本的的特征向量和SVM分类器输出的参数作为训练集，径向基函数作为核函数，对目标情绪的SVM分类器进行训练，得到训练集的支持向量x_i，支持向量权值系数a_i和偏移系数b；最终得到生气、高兴、悲伤和中立各自对应的SVM分类器，作为预设的SVM分类器。在实际使用预设的SVM分类器时，将预设的LSTM模型输出的标准语音的特征向量分别输入到预设的SVM分类器，如果一个预设的SVM分类器输出的参数为1，则确定标准语音对应的情绪为该SVM分类器对应的情绪。或者是，使用One-Against-All SVM分类器与上文中四种情绪各自对应的SVM分类器对应，采用具有连续输出的函数作为软判决函数，也就是在计算出每个标准语音相对于不同情绪的结果后，确定标准语音对应的情绪为使得计算式取得最大值的情绪。

本实施例相对于现有技术而言，根据提取的标准语音的特征、预设的LSTM模型和预设的SVM分类器，得到原始语音对应的情绪；其中，预设的LSTM模型是根据训练语音和Triplet-Loss损失函数训练得到的，能够使得同类样本在特征空间尽可能靠近，异类样本在特征空间尽可能远离，且LSTM模型和SVM分类器的组合叠加使用有效提升了计算速度与识别精度。

本发明第三实施例涉及一种语音情绪识别装置，如图4所示，包括：包括至少一个处理器301；以及，与至少一个处理器301通信连接的存储器302；其中，存储器302存储有可被至少一个处理器301执行的指令，指令被至少一个处理器301执行，以使至少一个处理器301能够执行上述的语音情绪识别方法。

其中，存储器302和处理器301采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器301和存储器302的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器301处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器301。

处理器301负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器302可以被用于存储处理器301在执行操作时所使用的数据。

本发明第四实施例涉及一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时实现上述语音情绪识别方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个装置(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种语音情绪识别方法，其特征在于，包括：

比较原始语音的帧数和预设语音帧数；

如果所述原始语音的帧数小于所述预设语音帧数，则复制所述原始语音的帧并插入所述原始语音中，得到符合所述预设语音帧数的标准语音；

根据所述标准语音和预设语音情绪识别模型，对所述原始语音对应的情绪进行识别；

其中，所述复制所述原始语音的帧并插入所述原始语音中，包括：

计算所述原始语音的指标值，并与预设阈值比较；

如果所述指标值小于所述预设阈值，则依次复制所述原始语音的每一帧，并将复制的帧插入被复制的帧之后；

如果所述指标值大于所述预设阈值，则复制所述原始语音的所有帧，并将复制的所述所有帧插入至所述原始语音的结束帧之后。

2.根据权利要求1所述的语音情绪识别方法，其特征在于，所述计算所述原始语音的指标值，包括：

提取所述原始语音的声谱信息；

根据所述声谱信息，计算所述原始语音的标准差，作为所述原始语音的指标值。

3.根据权利要求1所述的语音情绪识别方法，其特征在于，所述得到符合所述预设语音帧数的标准语音，包括：

从被插入帧之后的所述原始语音中截取符合所述预设语音帧数的一段语音，作为标准语音。

4.根据权利要求1所述的语音情绪识别方法，其特征在于，所述根据所述标准语音和预设语音情绪识别模型，对所述原始语音对应的情绪进行识别，包括：

提取所述标准语音的特征；

根据所述标准语音的特征、预设的LSTM模型和预设的SVM分类器，得到所述原始语音对应的情绪。

5.根据权利要求4所述的语音情绪识别方法，其特征在于，所述预设的LSTM模型，通过以下方式训练得到：

获取训练语音，每个所述训练语音包括第一样本、第二样本和第三样本，所述第一样本和所述第二样本分别对应的情绪相同，所述第一样本和所述第三样本分别对应的情绪不同；

根据所述训练语音和Triplet-Loss损失函数进行LSTM模型的训练，得到所述预设的LSTM模型。

6.根据权利要求5所述的语音情绪识别方法，其特征在于，所述获取训练语音，包括：

选择一个语音作为所述第一样本；

选择与所述第一样本对应的情绪相同，且与所述第一样本的欧氏距离最远的语音作为所述第二样本；

选择与所述第一样本对应的情绪不同，且与所述第一样本的欧氏距离最近的语音作为所述第三样本。

7.根据权利要求1所述的语音情绪识别方法，其特征在于，在比较原始语音的帧数和预设语音帧数后，所述方法还包括：

如果所述原始语音的帧数大于所述预设语音帧数，则从所述原始语音中截取符合所述预设语音帧数的一段语音，作为标准语音；

如果所述原始语音的帧数等于所述预设语音帧数，则将所述原始语音作为标准语音。

8.一种语音情绪识别装置，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至7中任一项所述的语音情绪识别方法。

9.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的语音情绪识别方法。