CN115359809B

CN115359809B - 针对长时情感语音的自适应二阶分段方法及系统

Info

Publication number: CN115359809B
Application number: CN202211019109.0A
Authority: CN
Inventors: 姜晓庆; 郑培宁; 陈贞翔; 黄鹤林; 陈建章; 刘文娟
Original assignee: Shandong Sizheng Information Technology Co ltd; University of Jinan; 960th Hospital of the Joint Logistics Support Force of PLA
Current assignee: Shandong Sizheng Information Technology Co ltd; University of Jinan; 960th Hospital of the Joint Logistics Support Force of PLA
Priority date: 2022-08-24
Filing date: 2022-08-24
Publication date: 2024-04-19
Anticipated expiration: 2042-08-24
Also published as: CN115359809A

Abstract

本发明公开了针对长时情感语音的自适应二阶分段方法及系统，对待分段的长时情感语音进行加窗分帧处理，将处理后的每一帧进行短时能量的计算；判断连续若干帧的短时能量是否发生跳变，如果是就计算短时能量方差，将短时能量方差与设定阈值进行比较；如果否就判断连续帧的短时能量是否出现连续零值，如果否，则计算短时能量方差，将短时能量方差与设定阈值进行比较；将短时能量方差与设定阈值进行比较，大于设定阈值则进行长时情感语音的第一阶分段，否则就根据第一阶分段结果计算每个一阶分段短时能量高低阈值以及短时过零率阈值，实现第二阶分段双门限语音端点检测阈值随情感变化的自适应调整，完成长时情感语音的第二阶分段。

Description

针对长时情感语音的自适应二阶分段方法及系统

技术领域

本发明涉及语音分段技术领域，特别是涉及针对长时情感语音的自适应二阶分段方法及系统。

背景技术

本部分的陈述仅仅是提到了与本发明相关的背景技术，并不必然构成现有技术。

持续时间为几分钟甚至几十分钟的长时语音样本包含更多的语义与语音情感信息，在语音情感计算技术的应用领域具有重要研究意义。

目前长时语音样本的处理算法主要按时间实现均匀分段，每段样本持续时长相同且一般较短，如几秒时长，分段后的短时样本可应用于语音识别、声纹认证等研究领域。然而，人类情感具有慢变特性，时长较短的样本不包含情感的变化信息，所以现有方法忽视情感变化信息；且由于情感变化时样本的时频域特征具有显著的变化，在进行语音端点检测(End-point Detection，EPD)时，各段语音样本的端点检测参数阈值若无法随情感变化自适应调整，将导致端点检测误差变大，无法实现不同情感段落的准确端点检测，并影响后续系统性能。

发明内容

本发明针对语音长时样本的分段问题，本发明提供了针对长时情感语音的自适应二阶分段方法及系统；该方法克服传统均匀分段方法的弊端，依据情感变化实现长时样本分段，并自适应调整该段内的语音端点检测参数阈值，可有效用于情感变化的分析，在说话人情绪跟踪、情感曲线的绘制、心理健康测评领域具有重要研究价值。

第一方面，本发明提供了针对长时情感语音的自适应二阶分段方法；

针对长时情感语音的自适应二阶分段方法，包括：

(1)获取待分段的长时情感语音；

(2)对待分段的长时情感语音进行加窗分帧处理，将处理后的每一帧进行短时能量的计算；判断连续若干帧的短时能量是否发生跳变，如果是就计算短时能量方差，进入(4)；如果否就进入(3)；

(3)判断连续帧的短时能量是否出现连续零值，如果是，就认为是无语音段落；如果否，则计算短时能量方差，进入(4)；

(4)将短时能量方差与设定阈值进行比较，大于设定阈值则进行长时情感语音的第一阶分段，否则就进入(5)；

(5)采用双门限语音端点检测算法，对第一阶分段后得到的每一段情感语音实现长时情感语音的第二阶分段。

第二方面，本发明提供了针对长时情感语音的自适应二阶分段系统；

针对长时情感语音的自适应二阶分段系统，包括：

获取模块，其被配置为：获取待分段的长时情感语音；

加窗分帧模块，其被配置为：对待分段的长时情感语音进行加窗分帧处理，将处理后的每一帧进行短时能量的计算；判断连续若干帧的短时能量是否发生跳变，如果是就计算短时能量方差，进入比较模块；如果否就进入判断模块；

判断模块，其被配置为：判断连续帧的短时能量是否出现连续零值，如果是，就认为是无语音段落；如果否，则计算短时能量方差，进入比较模块；

比较模块，其被配置为：将短时能量方差与设定阈值进行比较，大于设定阈值则进行长时情感语音的第一阶分段，否则就进入分段模块；

分段模块，其被配置为：采用双门限语音端点检测算法，对第一阶分段后得到的每一段情感语音实现长时情感语音的第二阶分段。

第三方面，本发明还提供了一种电子设备，包括：

存储器，用于非暂时性存储计算机可读指令；以及

处理器，用于运行所述计算机可读指令，

其中，所述计算机可读指令被所述处理器运行时，执行上述第一方面所述的方法。

第四方面，本发明还提供了一种存储介质，非暂时性地存储计算机可读指令，其中，当所述非暂时性计算机可读指令由计算机执行时，执行第一方面所述方法的指令。

第五方面，本发明还提供了一种计算机程序产品，包括计算机程序，所述计算机程序当在一个或多个处理器上运行的时候用于实现上述第一方面所述的方法。

与现有技术相比，本发明的有益效果是：

(1)本发明可以有效对持续时间较长的情感语音样本进行有效的分段，基于语音短时能量参数实现按情感变化的非均匀的分段，突破了传统对长时样本按时间均匀分段的弊端，考虑情感变化信息的同时具有自适应调整传统双门限检测参数阈值特点，可以实现长时间样本的有效分段处理。

(2)该方法结合现有的语音识别技术，对于说话人情绪跟踪、心理健康测评等领域研究具有重要的推动作用。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为实施例一的方法流程图；

图2为实施例一的一阶分段结果示例；

图3为实施例一的算法流程图；

图4为实施例一的二阶分段结果示例；

图5为实施例一的基于长时情感语音样本的自适应二阶分段的情感变化曲线获取方法。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

本实施例所有数据的获取都在符合法律法规和用户同意的基础上，对数据的合法应用。

本发明解决两个关键技术问题：

一、基于能量的长时语音不同情感状态的初步分段(第一阶分段)；

二、一阶分段后同一情感状态下，采用自适应阈值的第二阶分段。

二阶分段后得到的是持续时长较短的语音样本，往往是一个字、词或者无停顿的短句，适合使用现有语音技术进行处理。

本发明在进行长时情感语音样本的自适应分段时，主要使用的参数为情感语音的短时能量及其相关参数。

具体技术问题可描述为：

(1)在长时情感语音样本一阶分段中，如何基于短时能量参数确定情感变化出现的段落。在该问题中需重点关注短时能量参数值的跳变，以及对应了说话人沉默、思考等情感变化准备状态的短时能量近零值的分析。

(2)在一阶分段后的情感语音信号中，如何重新进行语音端点检测的阈值设置，实现不同语音段阈值的自适应调整，得到高精度的语音端点检测结果。

(3)基于一阶及二阶分段结果，采用情感识别模型，实现各段语音情感状态判定，绘制情感变化曲线。

实施例一

本实施例提供了针对长时情感语音的自适应二阶分段方法；

如图1所示，针对长时情感语音的自适应二阶分段方法，包括：

S101：获取待分段的长时情感语音；

S102：对待分段的长时情感语音进行加窗分帧处理，将处理后的每一帧进行短时能量的计算；判断连续若干帧的短时能量是否发生跳变，如果是就计算短时能量方差，进入S104；如果否就进入S103；

S103：判断连续帧的短时能量是否出现连续零值，如果是，就认为是无语音段落；如果否，则计算短时能量方差，进入S104；

S104：将短时能量方差与设定阈值进行比较，大于设定阈值则进行长时情感语音的第一阶分段，否则就进入S105；

S105：采用双门限语音端点检测算法，对第一阶分段后得到的每一段情感语音实现长时情感语音的第二阶分段。

进一步地，所述S101：获取待分段的长时情感语音；其中长时情感语音是指时长为M分钟，甚至持续时间更长的包含了说话人情感变化的语音信号。

进一步地，所述S102：对待分段的长时情感语音进行加窗分帧处理，具体采用10ms-30ms的矩形时窗，在长时情感语音上按照设定步长进行滑动。

进一步地，所述S102：判断连续若干帧的短时能量是否发生跳变，如果是就计算短时能量方差；具体包括：

S102-1：计算前n帧短时能量，求前n帧短时能量的平均值，将前n帧短时能量的平均值作为当前段语音样本短时能量的初始阈值；

S102-2：如果连续m₁帧的短时能量超过初始阈值，则认为短时能量发生跳变，对应说话人语音幅值波动，记录首个跳变帧i的位置，并计算当前段语音样本起始帧至第i帧的短时能量方差；其中n与m₁为设定值，可参考说话人语速设定。

S102-3：如果短时能量方差大于设定方差阈值，则认为第i帧之前为第一阶分段，第i帧为下一段的起始帧。

S102-4：从第i帧之后再计算连续n帧短时能量，求取短时能量在当前段的初始阈值，重复S102-2～S102-3完成第一阶分段。

每段的能量的初始阈值是根据这一段前n帧平均值是变化的。

进一步地，所述S103：判断连续帧的短时能量是否出现连续零值，如果否，则计算短时能量方差；具体包括：

如果连续m₂帧短时能量为0，则认为短时能量出现零值，对应说话人处于沉默或思考状态，下一阶段可能发生情绪的变化，并记录首个短时能量为0的帧j出现的位置，计算当前段起始帧至第j帧的短时能量方差，其中m₂为设定值。

进一步地，所述S104：将短时能量方差与设定阈值进行比较，大于设定阈值则进行长时情感语音的第一阶分段；具体包括：

设置短时能量方差阈值；

将短时能量方差与短时能量方差阈值进行比较，如果短时能量方差大于短时能量方差阈值，则将连续跳变或者连续零值发生时第一个跳变帧或者零值帧作为分割点，进行长时情感语音的分段；

如果当前帧的短时能量方差小于等于短时能量方差阈值，则不进行长时情感语音的分段。

由短时能量方差可以有效体现样本能量波动情况，设置短时能量方差阈值，实现长时样本的第一阶分段。一阶分段结果认为，每一段对应了相同的情感状态。若样本能量始终无明显波动或者零值情况，则不需一阶分段，直接进入第二阶分段。以一个200余秒的样本为例，一阶分段结果如图2所示。

进一步地，所述S105：采用双门限语音端点检测算法，对第一阶分段后得到的每一段情感语音实现长时情感语音的第二阶分段；具体包括：

S1051：在第一阶分段的基础上计算每一段短时能量高阈值、短时能量低阈值与短时过零率阈值；

S1052：根据短时能量高阈值和短时能量低阈值进行浊音段的判定；

S1053：在短时能量判断出来的语音活动端点两侧以外的采样点上再进行判决，寻找高于过零率阈值的段落视为语音清音段；

S1054：清音段与浊音段共同构成双门限算法所检测出的有效语音段落。

进一步地，所述S1052：根据短时能量高阈值和短时能量低阈值进行浊音段的判定；具体包括：

首先，将超过短时能量高阈值的段落为语音有效活动段落；

其次，短时能量高阈值所在的直线与短时能量曲线形成两个交点，两个交点之间的采样点为第一类采样点，第一类采样点为有效语音；两个交点之外的采样点为第二类采样点，对第二类采样点使用短时能量低阈值判断有效语音段落；

将第二类采样点的短时能量高于短时能量低阈值的视为有效语音段落，将第二类采样点的短时能量低于短时能量低阈值的视为无效语音；

由短时能量高阈值和短时能量低阈值检测的语音活动段落对应语音的浊音段；该过程可视为双门限语音端点检测的第一级判决。

应理解地，S1053为双门限语音端点检测的第二级判决。

由于短时能量无法有效检测能量比较低的语音清音段，因而需要在短时能量判断出来的语音活动端点两侧以外的采样点上再进行判决，寻找高于过零率的阈值的段落视为语音清音段。

第一阶分段内的短时能量高阈值E_H与短时能量低阈值E_L，根据当前段前p帧语音能量平均值的倍数计算，其公式为:

其中，E_k为第k帧语音短时能量值，p、α、β为设定的经验值。

该公式表明，短时能量高阈值E_H与低阈值E_L可以随第一阶分段结果自适应调整。

第一阶分段内的短时过零率阈值，是一阶语音段之间的话语间隙无声段语音短时过零率的平均值的倍数，计算公式：

其中，Z_k为第k帧语音短时过零率阈值，q、γ为经验值。

本发明的第二阶分段方法基于双门限语音端点检测的思路实现，但本发明所采用的双门限算法与传统的双门限算法在阈值的选取上是有区别的。一阶分段后的样本仍然有可能对应长时样本，但是该分段内由于具有相同的情感状态，样本幅值波动有限，所以可以使用双门限算法实现语音端点检测。本发明中的双门限语音端点检测算法与传统双门限算法不同之处体现在两个方面：

(1)本发明所用的双门限语音端点检测参数为短时能量与短时过零率，但由于每个一阶分段样本幅值区间是有显著差异性的，因而每个一阶分段样本在使用双门限方法进行语音端点检测时需自适应调整本段样本阈值，即参数阈值的由本段样本确定，各一阶分段样本的双门限参数阈值是自适应计算的；

(2)传统的双门限算法阈值需使用语音信号的前导无话段，在本发明所使的情感语音长时样本中，各一阶分段样本的前导无话段由一阶语音段之间的话语间隙无声段替代，通过这些无声段短时过零率的平均值来获取参数阈值设置。

基于上述两个模块的描述，本方法的实现流程图如图3所示。一个长时样本的分段结果如图4所示，图4中细实线表示每个二阶分段的起点，虚线表示每个二阶分段的终点。

进一步地，所述方法还包括：采用训练后的深度学习模型对二阶分段后的情感语音进行情感识别。

所述训练后的深度学习模型，采用支持向量机模型或卷积神经网络模型。

所述训练后的深度学习模型，其在训练阶段的训练集为已知情感识别分类标签的二阶分段情感语音。

本算法与语音情感识别技术相结合可以实现说话人长时间下情感变化曲线的获取，实现框图如图5所示。此时的情感识别模型可以为短时样本训练的SVM模型或者卷积神经网络模型，模型的类型往往取决于参与训练的样本数量，少样本量时可以训练获得SVM情感识别模型，大样本量时可以训练获得神经网络情感识别模型。逐段情感识别结果可以为二分类结果，分别对应积极与消极情感类型；也可以为多分类的情感识别结果，分别对应高兴、悲伤、愤怒、惊讶、恐惧等基本情感类型。基于情感识别结果，可以得到说话人长时间下情感变化曲线。该曲线可以应用于说话人情绪跟踪、心理健康测评等领域。

本算法二阶分段后得到的样本也可有效应用于语音识别领域，由于长时样本包含更完善的上下文信息，因而这种分段方法较现有方法更具优势。

实施例二

本实施例提供了针对长时情感语音的自适应二阶分段系统；

针对长时情感语音的自适应二阶分段系统，包括：

获取模块，其被配置为：获取待分段的长时情感语音；

此处需要说明的是，上述获取模块、加窗分帧模块、判断模块、比较模块和分段模块对应于实施例一中的步骤S101至S105，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

上述实施例中对各个实施例的描述各有侧重，某个实施例中没有详述的部分可以参见其他实施例的相关描述。

所提出的系统，可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的，例如上述模块的划分，仅仅为一种逻辑功能划分，实际实现时，可以有另外的划分方式，例如多个模块可以结合或者可以集成到另外一个系统，或一些特征可以忽略，或不执行。

实施例三

本实施例还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述实施例一所述的方法。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。

实施例一中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元及算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

实施例四

本实施例还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一所述的方法。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.针对长时情感语音的自适应二阶分段方法，其特征是，包括：

（1）获取待分段的长时情感语音；

（2）对待分段的长时情感语音进行加窗分帧处理，将处理后的每一帧进行短时能量的计算；判断连续若干帧的短时能量是否发生跳变，如果是就计算短时能量方差，进入（4）；如果否就进入（3）；

所述判断连续若干帧的短时能量是否发生跳变，如果是就计算短时能量方差，具体包括：计算前n帧短时能量，求前n帧短时能量的平均值，将前n帧短时能量的平均值作为当前段语音样本短时能量的初始阈值；如果连续m₁帧的短时能量超过初始阈值，则认为短时能量发生跳变，对应说话人语音幅值波动，记录首个跳变帧i的位置，并计算当前段语音样本起始帧至第i帧的短时能量方差；其中n与m₁为设定值；如果短时能量方差大于设定方差阈值，则认为第i帧之前为第一阶分段，第i帧为下一段的起始帧；从第i帧之后再计算连续n帧短时能量，求取短时能量在当前段的初始阈值，完成第一阶分段；

（3）判断连续帧的短时能量是否出现连续零值，如果是，就认为是无语音段落；如果否，则计算短时能量方差，进入（4）；

所述计算短时能量方差，具体包括：如果连续m ₂帧短时能量为0，则认为短时能量出现零值，对应说话人处于沉默或思考状态，下一阶段可能发生情绪的变化，并记录首个短时能量为0的帧j出现的位置，计算当前段起始帧至第j帧的短时能量方差，其中m ₂为设定值；

（4）设置短时能量方差阈值；将短时能量方差与短时能量方差阈值进行比较，如果短时能量方差大于短时能量方差阈值，则进行长时情感语音的第一阶分段；如果当前帧的短时能量方差小于等于短时能量方差阈值，则进入（5）；所述进行长时情感语音的第一阶分段，包括：将连续跳变或者连续零值发生时第一个跳变帧或者零值帧作为分割点，进行长时情感语音的分段；

（5）采用双门限语音端点检测算法，对第一阶分段后得到的每一段情感语音实现长时情感语音的第二阶分段。

2.如权利要求1所述的针对长时情感语音的自适应二阶分段方法，其特征是，采用双门限语音端点检测算法，对第一阶分段后得到的每一段情感语音实现长时情感语音的第二阶分段；具体包括：

在第一阶分段的基础上计算每一段短时能量高阈值、短时能量低阈值与短时过零率阈值；

根据短时能量高阈值和短时能量低阈值进行浊音段的判定；

在短时能量判断出来的语音活动端点两侧以外的采样点上再进行判决，寻找高于过零率的阈值的段落视为语音清音段；

清音段与浊音段共同构成双门限算法所检测出的有效语音段落。

3.如权利要求2所述的针对长时情感语音的自适应二阶分段方法，其特征是，根据短时能量高阈值和短时能量低阈值进行浊音段的判定；具体包括：

首先，将超过短时能量高阈值的段落为语音有效活动段落；

由短时能量高阈值和短时能量低阈值检测的语音活动段落对应语音的浊音段。

4.如权利要求1所述的针对长时情感语音的自适应二阶分段方法，其特征是，所述方法还包括：采用训练后的深度学习模型对二阶分段后的情感语音进行情感识别；所述训练后的深度学习模型，采用支持向量机模型或卷积神经网络模型。

5.采用如权利要求1所述的针对长时情感语音的自适应二阶分段方法的针对长时情感语音的自适应二阶分段系统，其特征是，包括：

获取模块，其被配置为：获取待分段的长时情感语音；

6. 一种电子设备，其特征是，包括：

存储器，用于非暂时性存储计算机可读指令；以及

处理器，用于运行所述计算机可读指令，

其中，所述计算机可读指令被所述处理器运行时，执行上述权利要求1-4任一项所述的方法。

7.一种存储介质，其特征是，非暂时性地存储计算机可读指令，其中，当所述非暂时性计算机可读指令由计算机执行时，执行权利要求1-4任一项所述方法的指令。