CN112951212B

CN112951212B - 一种多个说话人的语音转折点检测方法及装置

Info

Publication number: CN112951212B
Application number: CN202110419474.XA
Authority: CN
Inventors: 张鹏远; 张学帅; 颜永红
Original assignee: Institute of Acoustics CAS
Current assignee: Institute of Acoustics CAS
Priority date: 2021-04-19
Filing date: 2021-04-19
Publication date: 2022-08-26
Anticipated expiration: 2041-04-19
Also published as: CN112951212A

Abstract

本申请实施例公开了一种多个说话人的语音转折点检测方法及装置，方法包括：接收多个说话人的混合语音；切分混合语音，得到M个语音片段，M为正整数；提取每个语音片段的特征；将每两个相邻的语音片段的特征进行拼接，得到与每两个相邻的语音片段对应的M‑1个特征对；将M‑1个特征对输入训练后的语音转折点检测网络中，得到与每两个相邻的语音片段对应的M‑1个相似度输出；若相似度输出小于预设相似度阈值，则确定与相似度输出对应的两个相邻的语音片段存在转折点。本申请实施例提高了语音转折点检测的精度，提高了语音转折点检测在多个说话人应用环境下的鲁棒性。

Description

一种多个说话人的语音转折点检测方法及装置

技术领域

本发明涉及语音识别技术领域。尤其涉及一种多个说话人的语音转折点检测方法及装置。

背景技术

随着移动互联网时代的到来，人们每天会接触到海量的不同种类的音频数据。如何在这些音频数据中获取感兴趣的信息成为了目前的研究热点。

说话人分段聚类系统的主要任务是在多人会话的混合语音中把各自说话人的语音分割并聚合起来。该系统作为一项重要的前端处理技术，可以很方便的实现后续的信息处理任务，同时说话人分割聚类技术在音频自动转录、音频检索、安防和军事等领域也都有非常广阔的应用场景。

目前传统的说话人分段方法主要有两种：基于距离尺度的分段方法和基于模型的分段方法。其中基于距离的分段方法采用的主要是贝叶斯信息准则(BayesianInformation Criterion，BIC)和KL距离(Kullback-Leibler Divergence)等准则来进行判定。这种方法对两个相邻的滑动窗进行假设检验来判断临界点是否为说话人的转折点。基于距离尺度的分段方法是一个假设检验的问题，它首先假设两个窗内的片段来自同一个说话人，假设两个窗内的片段来自不同的说话人，然后用不同的距离尺度对两个假设进行比较。但是这种方法窗长的选择和分割阈值的设定需要经验知识，如果分割窗太短则没有足够的信息准确判断说话人转折点，而分割窗太长则计算量较大，在实际应用中长度大小难以设定。而且BIC产生的片段比较碎和小，在说话人片段较短或者说话人身份交换快速转变时，性能急速下降，容易产生比较高的漏警率。KL距离主要是用来衡量两个概率分布的相似度，但是当语音背景、信道变化时特征值会有偏移，导致距离计算出现误差。基于模型的分段方法主要通过离线数据训练出通用背景模型(Universal Background Model，UBM)。它首先对测试音频分割成小段音频，使用最大后验概率估计(Maximum a posterioriestimation，MAP)估算出语音帧的高斯混合模型(Gaussian Mixture Model，GMM)，然后通过计算相邻帧之间模型的相似度来判定转折点。这种方法判定的精准度比较高但是比较过度依赖于训练数据。

发明内容

由于现有方法存在上述问题，本申请实施例提出一种多个说话人的语音转折点检测方法及装置。

第一方面，本申请实施例提出一种多个说话人的语音转折点检测方法，包括：

接收多个说话人的混合语音；

切分所述混合语音，得到M个语音片段，M为正整数；

提取每个语音片段的特征；

将每两个相邻的语音片段的特征进行拼接，得到与所述每两个相邻的语音片段对应的M-1个特征对；

将所述M-1个特征对输入训练后的语音转折点检测网络中，得到与所述每两个相邻的语音片段对应的M-1个相似度输出；

若所述相似度输出小于预设相似度阈值，则确定与所述相似度输出对应的两个相邻的语音片段存在转折点。

在一种可能的实现中，所述切分所述混合语音，得到M个语音片段，包括：

以预设长度，每隔预设步长切分所述混合语音，得到M个预设长度的语音片段。

在一种可能的实现中，所述提取每个语音片段的特征，包括：

提取所述每个语音片段的x-vector特征。

在一种可能的实现中，所述训练后的语音转折点检测网络通过以下步骤获得：

切分训练数据集，得到M个第一语音片段；其中，所述训练数据集包括包含转折点的语音和不包含转折点的语音；

提取每个第一语音片段的特征；

将每两个相邻的第一语音片段的特征进行拼接，得到与所述每两个相邻的第一语音片段对应的M-1个第一特征对；

将所述M-1个第一特征对输入语音转折点检测网络中，得到与所述每两个相邻的第一语音片段对应的M-1个第一相似度输出。

在一种可能的实现中，所述切分训练数据集，得到M个第一语音片段，包括：

以所述预设长度，每隔所述预设步长切分所述训练数据集，得到M个预设长度的第一语音片段。

在一种可能的实现中，所述提取每个第一语音片段的特征，包括：

提取所述每个第一语音片段的x-vector特征。

在一种可能的实现中，所述方法还包括：

若所述第一相似度输出小于预设相似度阈值，则确定与所述第一相似度输出对应的两个相邻的第一语音片段存在转折点；或者

若所述第一相似度输出大于预设相似度阈值，则确定与所述第一相似度输出对应的两个相邻的第一语音片段不存在转折点。

第二方面，本申请实施例还提出一种多个说话人的语音转折点检测装置，包括:

接收模块，用于接收多个说话人的混合语音；

切分模块，用于切分所述混合语音，得到M个语音片段，M为正整数；

提取模块，用于提取每个语音片段的特征；

拼接模块，用于将每两个相邻的语音片段的特征进行拼接，得到与所述每两个相邻的语音片段对应的M-1个特征对；

相似度输出模块，用于将所述M-1个特征对输入训练后的语音转折点检测网络中，得到与所述每两个相邻的语音片段对应的M-1个相似度输出；

确定模块，用于若所述相似度输出小于预设相似度阈值，则确定与所述相似度输出对应的两个相邻的语音片段存在转折点。

第三方面，本申请实施例还提出一种多个说话人的语音转折点检测装置，包括至少一个处理器，所述处理器用于执行存储器中存储的程序，当所述程序被执行时，使得所述装置执行如第一方面及各种可能的实现中的各个步骤。

第四方面，本申请实施例还提出一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面及各种可能的实现中的各个步骤。

由上述技术方案可知，本申请实施例将提取的相邻的语音片段的x-vector特征拼接后，输入训练后的语音转折点检测网络，得到各个相似度输出，以此判断相邻的语音片段是否存在转折点，提高了语音转折点检测的精度，提高了语音转折点检测在多个说话人应用环境下的鲁棒性。

附图说明

为了更清楚地说明本申请实施例或各种可能的实现中的技术方案，下面将对本申请实施例或各种可能的实现中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些图获得其他的附图。

图1为一种可能的实现中的x-vector的网络结构示意图；

图2为本申请实施例构建的语音转折点检测网络；

图3为本申请实施例提供的一种多个说话人的语音转折点检测方法的流程示意图；

图4为本申请实施例提供的一种切分混合语音的示意图；

图5为本申请实施例提供的一种多个说话人的语音转折点检测装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

需要说明的是，本申请实施例的说明书和权利要求书中的术语“第一”是用于区别不同的对象，而不是用于描述对象的特定顺序。例如，第一语音片段是用于区别不同的语音片段，而不是用于描述目标对象的特定顺序。在本申请实施例中，“示例性的”、“举例来说”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”、“举例来说”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”、“举例来说”或者“例如”等词旨在以具体方式呈现相关概念。

在一种可能的实现中，传统的说话人分段聚类系统将多个说话人的语音切分成若干个语音片段后，提取各个语音片段的特征，例如x-vector特征。训练时的x-vector的网络结构示意图如图1所示。x-vector的网络结构主要采用深度神经网络(Deep NeuralNetworks,DNN)的网络结构，DNN的输入是由语音帧及其前后帧拼接来构成的。DNN的输出对应了训练数据集中多个说话人的数量N，每个输入的真实标签有一个N维的1-hot向量，向量中的唯一非零分量是输入语音帧对应的说话人身份的位置,当完成DNN的训练后，将图中虚线表示的输出层即softmax层去掉，保留剩下的DNN结构作为x-vector提取器。但是当一个语音片段包含多个说话人时，对语音片段进行x-vector特征提取后，该x-vector特征无法代表该说话人的语音片段特征，从而影响后面语音片段之间的相似度打分，降低说话人分段聚类系统的性能指标。为此，本申请实施例提出一种多个说话人的语音转折点检测方法，用于解决上述技术问题。

图2为本申请实施例构建的语音转折点检测网络，能够实现上述多个说话人的语音转折点检测方法。参见图2，该语音转折点检测网络包括双向长短时记忆(Bi-directional Long Short-Term Memory，Bi-LSTM)模型和两层全连接层。双向长短时记忆Bi-LSTM模型隐藏节点为256个，其中前向隐藏节点为128个，后向隐藏节点为128个。双向长短时记忆Bi-LSTM模型能充分利用上下文的说话人的信息，并且能充分利用训练数据集的特征学习不同长度语音片段的特征。第一层全连接层使用64个隐藏节点，并采用ReLu作为激活函数，压缩信息，特征变换。最后一层全连接层采用1个隐藏节点，利用sigmoid函数来计算相邻的两个语音片段是否存在转折点的概率。

构建好语音转折点检测网络后，开始训练该网络。在一种可能的实现中，首先，对训练数据集进行有效语音检测，剔除无说人的语音片段和/或噪音片段，得到有效的训练数据集。其次，切分有效的训练数据集，得到M个第一语音片段，M为正整数，该有效的训练数据集包括包含转折点的语音和不包含转折点的语音。具体地，以预设长度，每隔预设步长切分有效的训练数据集，得到M个预设长度的第一语音片段。然后，提取每个第一语音片段的特征，例如提取每个第一语音片段的x-vector特征。再者，将每两个相邻的第一语音片段的特征进行拼接，得到与每两个相邻的第一语音片段对应的M-1个第一特征对。最后，将M-1个第一特征对输入语音转折点检测网络中，得到与每两个相邻的第一语音片段对应的M-1个第一相似度输出。为使语音转折点检测网络的第一相似度输出更精确，可以不断重复上述步骤，从而获得训练后的语音转折点检测网络。需要说明的是，当第一相似度输出小于预设相似度阈值时，则确定与第一相似度输出对应的两个相邻的第一语音片段存在转折点；或者当第一相似度输出大于预设相似度阈值时，则确定与第一相似度输出对应的两个相邻的第一语音片段不存在转折点。

图3为本申请实施例提供的一种多个说话人的语音转折点检测方法的流程示意图，该流程示意图包括：S302—312。

下面对本申请实施例提供的如图3所示的一种多个说话人的语音转折点检测方法进行详细介绍。

在一种可能的实现中，通过以下步骤实现本申请实施例提供的多个说话人的语音转折点检测方法：

S302，接收多个说话人的混合语音。

在本申请实施例中，上述多个说话人的语音转折点检测方法适用于多个说话人进行会话的场景。接收到的是多个说话人的混合语音。

S304，切分混合语音，得到M个语音片段。

需要说明的是，S302中接收到的混合语音可能存在无说话人的语音片段和/或噪音片段，因此，对S302中接收到的混合语音进行有效语音检测，得到有效的语音。

在本申请实施例中，将上述有效的语音x切分成M个语音片段。一种可能的实现方式是，如图4所示，以预设长度window size，每隔预设步长window step切分上述有效的语音x，得到M个预设长度的语音片段，如x₁，x₂，…，x_M。

S306，提取每个语音片段的特征。

在本申请实施例中，提取在S304中得到的M个预设长度的语音片段的特征。一种可能的实现方式是，提取M个预设长度的语音片段的128维度的x-vector特征。

S308，将每两个相邻的语音片段的特征进行拼接，得到与每两个相邻的语音片段对应的M-1个特征对。

在本申请实施例中，将S306中得到的每两个相邻的语音片段的128维度的x-vector特征进行拼接，得到与每两个相邻的语音片段对应的M-1个256维度的特征对。

S310，将M-1个特征对输入训练后的语音转折点检测网络中，得到与每两个相邻的语音片段对应的M-1个相似度输出。

在本申请实施例中，将S308中得到的M-1个256维度的特征对，如图2所示，输入训练后的语音转折点检测网络中，得到与每两个相邻的语音片段对应的M-1个相似度输出。

S312，若相似度输出小于预设相似度阈值，则确定与相似度输出对应的两个相邻的语音片段存在转折点。

在本申请实施例中，若S310中的M-1个相似度输出中的某个相似度输出小于预设相似度阈值，则确定与该相似度输出对应的两个相邻的语音片段存在转折点。若S310中的M-1个相似度输出中的某个相似度输出大于预设相似度阈值，则确定与该相似度输出对应的两个相邻的语音片段不存在转折点。

需要说明的是，若判断出两个相邻的语音片段存在转折点，则表明该两个相邻的语音片段属于两个说话人的语音；若判断出两个相邻的语音片段不存在转折点，则表明该两个相邻的语音片段属于同一说话人的语音。例如，有5个语音片段A、B、C、D和E。若A和B对应的相似度输出为0.3、B和C对应的相似度输出为0.2、C和D对应的相似度输出为0.4、D和E对应的相似度输出为0.7，则可以判断出前三个相似度输出小于预设相似度阈值0.5，表明A和B之间存在转折点，属于不同说话人的语音，B和C之间存在转折点，属于不同说话人的语音，C和D之间存在转折点，属于不同说话人的语音，D和E对应的相似度输出大于预设相似度阈值0.5，表明D和E之间不存在转折点，属于同一说话人的语音。将D和E组成语音片段F。下面确定A、B、C和F属于哪个说话人的语音。针对语音片段A、B、C和F重新提取x-vector特征，并采用传统的概率线性判别分析(Probabilistic Linear Discriminant Analysis，PLDA)程序、cosine等距离打分公式计算它们的相似度并形成得分距离矩阵。针对计算的得分距离矩阵，后面挂接聚类方法，针对各个语音片段进行各自说话人语音片段的聚类，并完成输出。

图5为本申请实施例提供一种多个说话人的语音转折点检测装置的结构示意图，该结构示意图包括：

接收模块502，用于接收多个说话人的混合语音；

切分模块504，用于切分所述混合语音，得到M个语音片段，M为正整数；

提取模块506，用于提取每个语音片段的特征；

拼接模块508，用于将每两个相邻的语音片段的特征进行拼接，得到与所述每两个相邻的语音片段对应的M-1个特征对；

相似度输出模块510，用于将所述M-1个特征对输入训练后的语音转折点检测网络中，得到与所述每两个相邻的语音片段对应的M-1个相似度输出；

确定模块512，用于若所述相似度输出小于预设相似度阈值，则确定与所述相似度输出对应的两个相邻的语音片段存在转折点。

本申请实施例提供一种多个说话人的语音转折点检测装置，包括至少一个处理器，所述处理器用于执行存储器中存储的程序，当所述程序被执行时，使得所述装置执行：

接收多个说话人的混合语音；切分混合语音，得到M个语音片段，M为正整数；提取每个语音片段的特征；将每两个相邻的语音片段的特征进行拼接，得到与每两个相邻的语音片段对应的M-1个特征对；将M-1个特征对输入训练后的语音转折点检测网络中，得到与每两个相邻的语音片段对应的M-1个相似度输出；若相似度输出小于预设相似度阈值，则确定与相似度输出对应的两个相邻的语音片段存在转折点。

本申请实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如下步骤：

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种多个说话人的语音转折点检测方法，其特征在于，包括：

接收多个说话人的混合语音；

切分所述混合语音，得到M个语音片段，M为正整数；

提取每个语音片段的特征；

若所述相似度输出小于预设相似度阈值，则确定与所述相似度输出对应的两个相邻的语音片段存在转折点；

其中，语音转折点检测网络进行训练时使用的训练数据集包括包含转折点的语音和不包含转折点的语音。

2.根据权利要求1所述的方法，其特征在于，所述切分所述混合语音，得到M个语音片段，包括：

3.根据权利要求1所述的方法，其特征在于，所述提取每个语音片段的特征，包括：

提取所述每个语音片段的x-vector特征。

4.根据权利要求1所述的方法，其特征在于，所述训练后的语音转折点检测网络通过以下步骤获得：

切分训练数据集，得到M个第一语音片段；

提取每个第一语音片段的特征；

5.根据权利要求4所述的方法，其特征在于，所述切分训练数据集，得到M个第一语音片段，包括：

以预设长度，每隔预设步长切分所述训练数据集，得到M个预设长度的第一语音片段。

6.根据权利要求4所述的方法，其特征在于，所述提取每个第一语音片段的特征，包括：

提取所述每个第一语音片段的x-vector特征。

7.根据权利要求4所述的方法，其特征在于，所述方法还包括：

8.一种多个说话人的语音转折点检测装置，其特征在于，包括：

接收模块，用于接收多个说话人的混合语音；

提取模块，用于提取每个语音片段的特征；

确定模块，用于若所述相似度输出小于预设相似度阈值，则确定与所述相似度输出对应的两个相邻的语音片段存在转折点；

9.一种多个说话人的语音转折点检测装置，其特征在于，包括至少一个处理器，所述处理器用于执行存储器中存储的程序，当所述程序被执行时，使得所述装置执行：

如权利要求1-7任一项所述的方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-7任一项所述的方法。