CN108257592A

CN108257592A - 一种基于长短期记忆模型的人声分割方法及系统

Info

Publication number: CN108257592A
Application number: CN201810026363.0A
Authority: CN
Inventors: 郑渊中
Original assignee: Speakin Technologies Co ltd
Current assignee: Speakin Technologies Co ltd
Priority date: 2018-01-11
Filing date: 2018-01-11
Publication date: 2018-07-06

Abstract

本发明实施例公开了一种基于长短期记忆模型的人声分割方法及系统，解决了现有的技术中，递归神经网络在处理过长的输入序列时，新的信息会覆盖旧的信息，导致的产生被动遗忘的技术问题。其中方法包括：S1、获取待分割音频，按照第一预设步长和第一预设语音窗长度依次提取所述待分割音频片段的第一声学特征向量；S2、将所述第一声学特征向量依次输入至已训练的长短期记忆模型神经网络中，逐一得到所述第一声学特征向量的d‑vector特征矢量；S3、将所述d‑vector特征矢量转换为第一标签值，并将所述第一标签值之间的差值在预设阈值之内的所述d‑vector对应的待分割音频片段按照时间顺序拼接，得到分割后的单通道人声音频文件。

Description

一种基于长短期记忆模型的人声分割方法及系统

技术领域

本发明涉及人声分割技术领域，尤其涉及一种基于长短期记忆模型的人声分割方法及系统。

背景技术

随着信息技术的发和互联网的普及，人们获取数据的途径越来越多，而音频数据作为其中一个大类，包括了语音、音乐和其他的音频信号。由于音频数据呈现爆炸式的增长，如何管理和存储音频则是一个迫切的问题。

传统的基于文本的音频检索采用人工标注的方式，不但成本昂贵，而且效率低。而基于语音识别的检索技术虽然在效率有很大提升，但是却丢失了同样重要的说话人信息。因此，人声分割系统可以很好的弥补相应的缺陷。

因说话人分割和聚类有广泛的应用前景，近年越来越多的研究机构投入到说话人分割聚类的领域。说话人分割与聚类是美国国家标准及技术署每年举办的RT任务之一。RT被广泛定义为音转字和后设资料提取技术的综合，其目的是从语音中提取出适合人或者机器使用的信息，让人们更有效的运用大量的语音资料。在后设资料提取评比类别中，有一个项目就是说话人分割和聚类，它主要解决的是谁在何时说话的问题。而美国国家标准及技术署定义了人声分割的任务：就是在没有任何的先验知识，说话者的身份和说话人的数目都是未知的情况下，从一段录音资料中区分不同说话者的说话区段，并且一一标注出来。

目前的人声分割系统先寻找连续语音中的说话人改变点，将长语音分割成若干段短语音，之后对每段短语音提取特征，再运用机器学习中的一些聚类方法或者递归神经网络去进行聚类和合并。而现有的技术中，递归神经网络在处理过长的输入序列时，新的信息会覆盖旧的信息，导致了产生被动遗忘的技术问题。

发明内容

本发明提供了一种基于长短期记忆模型的人声分割方法及系统，解决了现有的技术中，递归神经网络在处理过长的输入序列时，新的信息会覆盖旧的信息，导致的产生被动遗忘的技术问题。

本发明提供了一种基于长短期记忆模型的人声分割方法，包括：

S1、获取待分割音频，按照第一预设步长和第一预设语音窗长度依次提取所述待分割音频片段的第一声学特征向量；

S2、将所述第一声学特征向量依次输入至已训练的长短期记忆模型神经网络中，逐一得到所述第一声学特征向量的d-vector特征矢量；

S3、将所述d-vector特征矢量转换为第一标签值，并将所述第一标签值之间的差值在预设阈值之内的所述d-vector对应的待分割音频片段按照时间顺序拼接，得到分割后的单通道人声音频文件。

优选地，所述步骤S1之前还包括：

S01、获取带标签的训练音频，对所述带标签的训练音频进行采样处理和/或预加重处理和/或预滤波处理和/或加窗处理和/或端点检测处理；

S02、按照第二预设步长和第二预设语音窗长度依次提取所述带标签的训练音频片段的第二声学特征向量；

S03、将所述第二声学特征向量依次输入至长短期记忆模型神经网络中，并以第二声学特征向量对应的第二标签值作为寻优方向，得到已训练的长短期记忆模型神经网络。

优选地，所述步骤S1具体包括：

S11、获取待分割音频，对所述待分割音频进行采样处理和/或预加重处理和/或预滤波处理和/或加窗处理和/或端点检测处理；

S12、按照第一预设步长和第一预设语音窗长度依次提取所述待分割音频片段的第一声学特征向量。

优选地，所述步骤S2之后，所述步骤S3之前还包括：

依次对所述d-vector特征矢量对应的待分割音频片段进行语音激活检测，得到有效待分割音频片段或无效待分割音频片段；

将所述无效待分割音频片段删除，保留有效待分割音频片段。

优选地，所述步骤S3具体包括：

将所述d-vector特征矢量转换为第一标签值，并将所述第一标签值之间的差值在预设阈值之内的所述d-vector对应的有效待分割音频片段按照时间顺序拼接，得到分割后的单通道人声音频文件。

本发明提供了一种基于长短期记忆模型的人声分割系统，包括：

处理单元，用于获取待分割音频，按照第一预设步长和第一预设语音窗长度依次提取所述待分割音频片段的第一声学特征向量；

输入单元，用于将所述第一声学特征向量依次输入至已训练的长短期记忆模型神经网络中，逐一得到所述第一声学特征向量的d-vector特征矢量；

拼接单元，用于将所述d-vector特征矢量转换为第一标签值，并将所述第一标签值之间的差值在预设阈值之内的所述d-vector对应的待分割音频片段按照时间顺序拼接，得到分割后的单通道人声音频文件。

优选地，本发明提供的一种基于长短期记忆模型的人声分割系统还包括：

预处理单元，用于获取带标签的训练音频，对所述带标签的训练音频进行采样处理和/或预加重处理和/或预滤波处理和/或加窗处理和/或端点检测处理；

提取单元，用于按照第二预设步长和第二预设语音窗长度依次提取所述带标签的训练音频片段的第二声学特征向量；

训练单元，用于将所述第二声学特征向量依次输入至长短期记忆模型神经网络中，并以第二声学特征向量对应的第二标签值作为寻优方向，得到已训练的长短期记忆模型神经网络。

优选地，所述处理单元具体包括：

预处理子单元，用于获取待分割音频，对所述待分割音频进行采样处理和/或预加重处理和/或预滤波处理和/或加窗处理和/或端点检测处理；

提取子单元，用于按照第一预设步长和第一预设语音窗长度依次提取所述待分割音频片段的第一声学特征向量。

语音激活检测单元，用于依次对所述d-vector特征矢量对应的待分割音频片段进行语音激活检测，得到有效待分割音频片段或无效待分割音频片段；

选择单元，用于将所述无效待分割音频片段删除，保留有效待分割音频片段。

优选地，拼接单元具体用于将所述d-vector特征矢量转换为第一标签值，并将所述第一标签值之间的差值在预设阈值之内的所述d-vector对应的有效待分割音频片段按照时间顺序拼接，得到分割后的单通道人声音频文件。

本发明提供了一种基于长短期记忆模型的人声分割方法，包括：S1、获取待分割音频，按照第一预设步长和第一预设语音窗长度依次提取所述待分割音频片段的第一声学特征向量；S2、将所述第一声学特征向量依次输入至已训练的长短期记忆模型神经网络中，逐一得到所述第一声学特征向量的d-vector特征矢量；S3、将所述d-vector特征矢量转换为第一标签值，并将所述第一标签值之间的差值在预设阈值之内的所述d-vector对应的待分割音频片段按照时间顺序拼接，得到分割后的单通道人声音频文件。

本发明利用已训练的长短期记忆模型神经网络中的输入、输出和遗忘门，选择性遗忘无效的语音信息，保留所有的有效的语音信息，解决了现有的技术中，递归神经网络在处理过长的输入序列时，新的信息会覆盖旧的信息，导致的产生被动遗忘的技术问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的一种基于长短期记忆模型的人声分割方法的一个实施例的流程示意图；

图2为本发明实施例提供的一种基于长短期记忆模型的人声分割系统的一个实施例的结构示意图。

具体实施方式

本发明实施例提供了一种基于长短期记忆模型的人声分割方法及系统，解决了当前的语音情绪识别处理过程复杂，实现难度高，过准确率低，效率低的技术问题。

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1，本发明实施例提供了一种基于长短期记忆模型的人声分割方法的一个实施例，包括：

步骤101、获取带标签的训练音频，对带标签的训练音频进行采样处理和/或预加重处理和/或预滤波处理和/或加窗处理和/或端点检测处理；

需要说明的是，带标签的训练音频可以是wav格式音频文件，在提取带标签的训练音频的第二声学特征向量之前，对带标签的训练音频进行采样处理和/或预加重处理和/或预滤波处理和/或加窗处理和/或端点检测处理；

第二声学特征向量具体包括MFCC特征和/或GFCC特征。

带标签的训练音频指的是已知训练音频中说话人的身份以及对该说话人预设的第二标签值。

步骤102、按照第二预设步长和第二预设语音窗长度依次提取带标签的训练音频片段的第二声学特征向量；

需要说明的是，在对带标签的训练音频进行预处理后，按照第二预设步长和第二预设语音窗长度依次提取带标签的训练音频片段的第二声学特征向量，第二预设语音窗的长度需要大于第二预设步长，例如设置第二预设语音窗的长度为25ms，第二预设步长为10ms，即在第一帧和第二帧之间存在15ms的重叠语音窗。

步骤103、将第二声学特征向量依次输入至长短期记忆模型神经网络中，并以第二声学特征向量对应的第二标签值作为寻优方向，得到已训练的长短期记忆模型神经网络；

需要说明的是，将第二声学特征向量依次输入至长短期记忆模型神经网络中，并以第二声学特征向量对应的第二标签值作为寻优方向，得到已训练的长短期记忆模型神经网络；

长短期记忆模型神经网络(Long-Short Term Memory，LSTM)是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件；

LSTM区别于递归神经网络的地方，主要就在于它在算法中加入了一个判断信息有用与否的“处理器”，这个处理器作用的结构被称为cell。

一个cell当中被放置了三扇门，分别叫做输入门、遗忘门和输出门。一个信息进入LSTM的网络当中，可以根据规则来判断是否有用。只有符合算法认证的信息才会留下，不符的信息则通过遗忘门被遗忘，这就解决了递归神经网络被动遗忘的问题；

即确定了长短期记忆模型神经网络的输入和寻优的输出，经过大量的带标签的训练音频片段对长短期记忆模型神经网络进行训练，确定LSTM的规则，得到已训练的长短期记忆模型神经网络。

步骤104、获取待分割音频，对待分割音频进行采样处理和/或预加重处理和/或预滤波处理和/或加窗处理和/或端点检测处理；

需要说明的是，待分割音频可以是wav格式音频文件，在进行提取待分割音频的第一声学特征向量之前需要对待分割音频进行预处理，预处理具体包括：采样处理和/或预加重处理和/或预滤波处理和/或加窗处理和/或端点检测处理；

第一声学特征向量具体包括MFCC特征和/或GFCC特征，且与第二声学特征向量一致。

步骤105、按照第一预设步长和第一预设语音窗长度依次提取待分割音频片段的第一声学特征向量；

需要说明的是，在对待分割音频进行预处理后，按照第一预设步长和第一预设语音窗长度依次提取待分割音频片段的第一声学特征向量，第一预设语音窗的长度需要大于第一预设步长，例如设置第一预设语音窗的长度为25ms，第一预设步长为10ms，即在第一帧和第二帧之间存在15ms的重叠语音窗。

步骤106、将第一声学特征向量依次输入至已训练的长短期记忆模型神经网络中，逐一得到第一声学特征向量的d-vector特征矢量；

需要说明的是，将待分割音频片段提取出的第一声学特征向量按照时间顺序依次输入至已训练的长短期记忆模型神经网络的输入门之中，根据已训练的长短期记忆模型神经网络的规则，由输出门得到第一声学特征向量的d-vector特征矢量。

步骤107、依次对d-vector特征矢量对应的待分割音频片段进行语音激活检测，得到有效待分割音频片段或无效待分割音频片段；

需要说明的是，依次对d-vector特征矢量对应的待分割音频片段进行语音激活检测，得到有效待分割音频片段或无效待分割音频片段，有效待分割音频片段指的是包括人声的待分割音频片段，而无效待分割音频片段指的是噪声的待分割音频片段。

步骤108、将无效待分割音频片段删除，保留有效待分割音频片段；

需要说明的是，将无效待分割音频片段删除，保留有效待分割音频片段，精简最终输出的音频。

步骤109、将d-vector特征矢量转换为第一标签值，并将第一标签值之间的差值在预设阈值之内的d-vector对应的有效待分割音频片段按照时间顺序拼接，得到分割后的单通道人声音频文件；

需要说明的是，将d-vector特征矢量转换为第一标签值，并将第一标签值之间的差值在预设阈值之内的d-vector对应的有效待分割音频片段按照时间顺序拼接，得到分割后的单通道人声音频文件。

本发明利用已训练的长短期记忆模型神经网络中的输入、输出和遗忘门，选择性遗忘无效的语音信息，保留所有的有效的语音信息，解决了现有的技术中，递归神经网络在处理过长的输入序列时，新的信息会覆盖旧的信息，导致的产生被动遗忘的技术问题；

利用长短期记忆模型神经网络，能够实现：

1)主动控制记忆单元中哪些维度可以遗忘，即不是将记忆单元看作整体看待，而是以更小的粒度控制特征的组合；

2)主动控制哪些维度输入或者输出，解决了常数误差旋转。

本发明利用长短期记忆模型神经网络训练数据，取代了传统机器学习聚类方法或者递归神经网络建立模型的过程，实现了高效和准确的聚类和分割，同时大幅度提高了鲁棒性，适应了工业界的未来需求，可对日常生活或专业场景中的多人对话进行更准确的分割。

以上为本发明实施例提供的一种基于长短期记忆模型的人声分割方法的一个实施例，以下为本发明实施例提供的一种基于长短期记忆模型的人声分割系统的一个实施例。

请参阅图2，本发明实施例提供了一种基于长短期记忆模型的人声分割系统的一个实施例，包括：

预处理单元201，用于获取带标签的训练音频，对带标签的训练音频进行采样处理和/或预加重处理和/或预滤波处理和/或加窗处理和/或端点检测处理；

提取单元202，用于按照第二预设步长和第二预设语音窗长度依次提取带标签的训练音频片段的第二声学特征向量；

训练单元203，用于将第二声学特征向量依次输入至长短期记忆模型神经网络中，并以第二声学特征向量对应的第二标签值作为寻优方向，得到已训练的长短期记忆模型神经网络；

处理单元204，用于获取待分割音频，按照第一预设步长和第一预设语音窗长度依次提取待分割音频片段的第一声学特征向量；

处理单元204具体包括：

预处理子单元2041，用于获取待分割音频，对待分割音频进行采样处理和/或预加重处理和/或预滤波处理和/或加窗处理和/或端点检测处理；

提取子单元2042，用于按照第一预设步长和第一预设语音窗长度依次提取待分割音频片段的第一声学特征向量。

输入单元205，用于将第一声学特征向量依次输入至已训练的长短期记忆模型神经网络中，逐一得到第一声学特征向量的d-vector特征矢量；

语音激活检测单元206，用于依次对d-vector特征矢量对应的待分割音频片段进行语音激活检测，得到有效待分割音频片段或无效待分割音频片段；

选择单元207，用于将无效待分割音频片段删除，保留有效待分割音频片段；

拼接单元208，用于将d-vector特征矢量转换为第一标签值，并将第一标签值之间的差值在预设阈值之内的d-vector对应的有效待分割音频片段按照时间顺序拼接，得到分割后的单通道人声音频文件。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于长短期记忆模型的人声分割方法，其特征在于，包括：

2.根据权利要求1所述的基于长短期记忆模型的人声分割方法，其特征在于，所述步骤S1之前还包括：

3.根据权利要求2所述的基于长短期记忆模型的人声分割方法，其特征在于，所述步骤S1具体包括：

4.根据权利要求1所述的基于长短期记忆模型的人声分割方法，其特征在于，所述步骤S2之后，所述步骤S3之前还包括：

5.根据权利要求4所述的基于长短期记忆模型的人声分割方法，其特征在于，所述步骤S3具体包括：

6.一种基于长短期记忆模型的人声分割系统，其特征在于，包括：

7.根据权利要求6所述的基于长短期记忆模型的人声分割系统，其特征在于，还包括：

8.根据权利要求7所述的基于长短期记忆模型的人声分割系统，其特征在于，所述处理单元具体包括：

9.根据权利要求6所述的基于长短期记忆模型的人声分割系统，其特征在于，还包括：

10.根据权利要求9所述的基于长短期记忆模型的人声分割系统，其特征在于，拼接单元具体用于将所述d-vector特征矢量转换为第一标签值，并将所述第一标签值之间的差值在预设阈值之内的所述d-vector对应的有效待分割音频片段按照时间顺序拼接，得到分割后的单通道人声音频文件。