CN110569908A

CN110569908A - 说话人计数方法及系统

Info

Publication number: CN110569908A
Application number: CN201910854260.8A
Authority: CN
Inventors: 钱彦旻; 张王优; 孙曼; 王岚
Original assignee: Shanghai Jiaotong University; AI Speech Ltd
Current assignee: AI Speech Ltd
Priority date: 2019-09-10
Filing date: 2019-09-10
Publication date: 2019-12-13
Anticipated expiration: 2039-09-10
Also published as: CN110569908B

Abstract

本发明实施例提供一种说话人计数方法。该方法包括：基于深度卷积神经网络建立端到端说话人计数模型；将原始音频波形作为所述端到端说话人计数模型的输入；根据所述端到端说话人计数模型的输出结果确定说话人个数。本发明实施例提供说话人计数系统并且还提供了一种混叠语音检测模型的优化方法及系统。本发明实施例采用原始波形输入的端到端语音混叠检测与说话人计数方法，利用神经网络直接从原始语音中提取深度特征用于后续任务，更容易得到匹配相应任务的特征，准确的确定出说话人的个数；更适用于实际生活中多人同时说话的场景，为后端语音处理系统提供额外信息，从而推进混叠语音的识别、分离、增强的问题。

Description

说话人计数方法及系统

技术领域

本发明涉及语音检测领域，尤其涉及一种说话人计数方法及系统。

背景技术

虽然智能语音在不断的发展，但在复杂的场景条件下，语音处理系统的性能仍然会有严重的下降，例如，鸡尾酒会场景下，包含多个谈话者同时重叠讲话并且涉及其他背景噪音。在这种情况下，如果预先给出说话人的数量，则可以显着改善重叠语音处理的性能，进而准确的重叠语音检测和说话人计数对于后期语音检测识别非常有用。对于上述问题通常会使用基于卷积神经网络的说话人计数方法，其输入是人为设计的声学特征，包括语音信号包络、直方图、梅尔频率倒谱系数等，然后通过层叠的卷积块结构进一步提取深度特征，最后通过全连接层输出分类结果，每个类别对应一种说话人个数的情况；基于长短期记忆网络架构的混叠语音检测方法，其输入也是人为选定的声学特征，如语音的时频谱，利用长短期记忆网络建模语音的时序信息，最后采用全连接层输出进行分类。

在实现本发明过程中，发明人发现相关技术中至少存在如下问题：

这些方法的输入特征都是人为设计的传统声学特征，而现有的研究中并没有发现与说话人计数或混叠语音检测高度相关的语音特征，因此这些人为选定的特征并不一定是最优的。并且由于需要人为选择特征，设计该系统的知识要求以及时间成本较高，且模型由于过于匹配训练数据，陷入局部最优。

发明内容

为了至少解决现有技术中输入特征都是人为设计的传统声学特征，而无法提取出与说话人计数或混叠语音检测高度相关的语音特征，并且人为设计的传统声学特征容易陷入局部最优的问题。

第一方面，本发明实施例提供一种说话人计数方法，包括：

基于深度卷积神经网络建立端到端说话人计数模型；

将原始音频波形作为所述端到端说话人计数模型的输入；

根据所述端到端说话人计数模型的输出结果确定说话人个数，其中，所述端到端说话人计数模型至少包括：

用于提取多种深层特征的卷积层，

用于降低提取特征维度的最大池化层，

用于约束模型参数的批归一化层，

用于减少模型与原始音频波形匹配的随机失活层。

第二方面，本发明实施例提供一种混叠语音检测模型的优化方法，包括：

根据所述说话人计数方法确定所述混叠语音中的说话人个数k后，在端到端混叠语音检测模型中建立k-1个阶段的课程学习；

接收混叠语音训练集，在所述混叠语音训练集中为每一阶段的课程学习标注对应的训练数据；

根据第i阶段对应的训练数据，训练第i阶段的说话人分类器，将所述第i阶段的说话人分类器传递给第i+1阶段，辅助第i+1阶段递进训练第i+1阶段的说话人分类器，以由易到难的训练所述端到端混叠语音检测模型，其中，所述1≤i≤k-1。

第三方面，本发明实施例提供一种说话人计数系统，包括：

模型建立程序模块，用于基于深度卷积神经网络建立端到端说话人计数模型；

波形输入程序模块，用于将原始音频波形作为所述端到端说话人计数模型的输入；

计数程序模块，用于根据所述端到端说话人计数模型的输出结果确定说话人个数，其中，所述端到端说话人计数模型至少包括：

用于提取多种深层特征的卷积层，

用于降低提取特征维度的最大池化层，

用于约束模型参数的批归一化层，

用于减少模型与原始音频波形匹配的随机失活层。

第四方面，本发明实施例提供一种混叠语音检测模型的优化系统，包括：

课程学习建立程序模块，用于根据权利要求6所述的系统确定所述混叠语音中的说话人个数k后，在端到端混叠语音检测模型中建立k-1个阶段的课程学习；

训练数据标注程序模块，用于接收混叠语音训练集，在所述混叠语音训练集中为每一阶段的课程学习标注对应的训练数据；

模型训练程序模块，用于根据第i阶段对应的训练数据，训练第i阶段的说话人分类器，将所述第i阶段的说话人分类器传递给第i+1阶段，辅助第i+1阶段递进训练第i+1阶段的说话人分类器，以由易到难的训练所述端到端混叠语音检测模型，其中，所述1≤i≤k-1。

第五方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的说话人计数方法以及混叠语音检测模型的优化方法的步骤。

第六方面，本发明实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明任一实施例的说话人计数方法以及混叠语音检测模型的优化方法的步骤。

本发明实施例的有益效果在于：采用原始波形输入的端到端语音混叠检测与说话人计数方法，利用神经网络直接从原始语音中提取深度特征用于后续任务，更容易得到匹配相应任务的特征，准确的确定出说话人的个数；更适用于实际生活中多人同时说话的场景，为后端语音处理系统提供额外信息(如说话人个数)，从而推进鸡尾酒会场景下的语音识别、语音分离、语音增强等问题的解决。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种说话人计数方法的流程图；

图2是本发明一实施例提供的一种混叠语音检测模型的优化方法的流程图；

图3是本发明一实施例提供的一种说话人计数方法的端到端方法的模型体系结构图；

图4是本发明一实施例提供的一种说话人计数方法的重叠语音检测的不同方法的性能比较列表示意图；

图5是本发明一实施例提供的一种说话人计数方法的说话人计数的不同方法的性能比较列表示意图；

图6是本发明一实施例提供的一种说话人计数方法的验证数据集上不同方法的混淆矩阵示意图；

图7是本发明一实施例提供的一种说话人计数方法的在测试数据集上提供或不提供课程学习的说话人计数模型的性能比较列表示意图；

图8是本发明一实施例提供的一种说话人计数方法的最后一个卷积块之后来自不同类的输入数据的示意图；

图9是本发明一实施例提供的一种说话人计数系统的结构示意图；

图10是本发明一实施例提供的一种混叠语音检测模型的优化系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示为本发明一实施例提供的一种说话人计数方法的流程图，包括如下步骤：

S11：基于深度卷积神经网络建立端到端说话人计数模型；

S12：将原始音频波形作为所述端到端说话人计数模型的输入；

S13：根据所述端到端说话人计数模型的输出结果确定说话人个数，其中，所述端到端说话人计数模型至少包括：

用于提取多种深层特征的卷积层，

用于降低提取特征维度的最大池化层，

用于约束模型参数的批归一化层，

用于减少模型与原始音频波形匹配的随机失活层。

在本实施方式中，假设场景中同时存在的最多说话人数是固定且已知的，记作I。

对于步骤S11，说话人计数任务，基于深度卷积神经网络建立的端到端模型可以建模为一个I类-分类器，即输出为当前输入样本分别属于I个类别的概率值(I*1维的向量)，其中第i类表示输入语音中包含i个说话人(i＝1，2，…，I)。在训练和测试时，只需取概率值最大的类别作为样本所属类别的估计，即语音样本中包含的说话人个数的估计，范围为1～I个。

对于步骤S12，由于神经网络已被证明能够学习提取适当的任务特定功能，还可以在重叠语音检测和说话人计数任务中利用此功能，其中现有手工特征和现有手工特征之间没有明确的关系。因此，本方法利用卷积神经网络作为深度特征提取器，其输入是原始波形。然后将其集成到更大的卷积体系结构中，以端到端的方式训练整个模型。

对于步骤S13，根据所述端到端说话人计数模型的输出结果确定说话人个数。原始波形中存在更多的特征，在模型处理过程中，就需要有效的提取出多种特征中的深层特征，由于特征过多，需要降低特征的维度保证运算的效率，随着特征的增多，减少模型与音频波形的匹配，进一步的再通过随机失活层进一步的减少音频波形与模型的匹配，进而有效的确定出说话人的个数。

作为一种实施方式，在本实施例中，所述根据所述端到端说话人计数模型的输出结果确定说话人个数包括：

将所述原始音频波形通过多通道卷积层提取多种不同的深层特征；

利用最大池化层降低每个通道中所述深层特征的特征维度；

将所述深层特征输入至三个串联的卷积层与最大池化层的组合，在通过批归一化层、激活函数以及随机失活层进行处理；

将经过处理后的深度特征输入到三个串联的全连接层进行说话人计数的人数分类计算，输出人数分类结果，根据所述人数分类结果确定说话人个数。

在本实施方式中，输入的原始音频波形首先通过一个具有多个通道的卷积层来提取多种不同的深层特征，紧接着利用最大池化层降低每个通道中提取的特征维度，同时减少特征中的冗余。然后将提取的特征输入到3个串联的卷积块模块中，进一步提取深度特征，其中每个卷积块由三层卷积层+最大池化层，以及批归一化层、激活函数与随机失活层组成，批归一化层是为了约束模型参数，使得训练过程更加稳定，随机失活层则是为了防止过拟合，即防止模型由于过于匹配训练数据的分布，而导致在与训练数据分布不一致的测试数据上性能严重下降。经过3个卷积块提取的深度特征进一步输入到三层串联的全连接层中，用于进行混叠语音检测或说话人计数任务的分类计算，最后通过输出层将分类结果输出。例如，I＝4时，概率值最高，也就代表着说话人个数有四人。

通过该实施方式可以看出，采用原始波形输入的端到端语音混叠检测与说话人计数方法，利用神经网络直接从原始语音中提取深度特征用于后续任务，更容易得到匹配相应任务的特征，准确的确定出说话人的个数；更适用于实际生活中多人同时说话的场景，为后端语音处理系统提供额外信息(如说话人个数)，从而推进鸡尾酒会场景下的语音识别、语音分离、语音增强等问题的解决。

作为一种实施方式，在本实施例中，所述原始音频波形通过混叠语音提取获得；

在所述将原始音频波形作为所述端到端说话人计数模型的输入之前，所述方法还包括：

通过语音活动检测VAD将所述混叠语音划分为多个语音片段，根据所述多个语音片段提取原始音频波形，以确保每个原始音频波形中都存在说话人的深度特征。

在本实施方式中，由于在一个语音时段内，同时发言者的数量也会随着时间而变化，并不是所有的人都会同时说话。因此使用语音活动检测(VAD)对输入语音进行预处理，从而确保每个语音样本中都存在所有说话人。例如来自不同发言者的语音被分段为500毫秒的片段。

通过该实施方式可以看出，进行预处理确保音频波形中存在说话人的深度特征，提高模型的准确性以及效率。

如图2所示为本发明一实施例提供的一种混叠语音检测模型的优化方法的流程图，包括如下步骤：

S21：根据所述说话人计数方法确定所述混叠语音中的说话人个数k后，在端到端混叠语音检测模型中建立k-1个阶段的课程学习；

S22：接收混叠语音训练集，在所述混叠语音训练集中为每一阶段的课程学习标注对应的训练数据；

S23：根据第i阶段对应的训练数据，训练第i阶段的说话人分类器，将所述第i阶段的说话人分类器传递给第i+1阶段，辅助第i+1阶段递进训练第i+1阶段的说话人分类器，以由易到难的训练所述端到端混叠语音检测模型，其中，所述1≤i≤k-1。

在本实施方式中，对于混叠语音检测任务，由于只存在两种情况，即有混叠(多个说话人)和无混叠(仅1个说话人)，因此用于混叠语音检测任务的端到端模型可以建模为一个2类-分类器，输出为对应两种情况的2×1维向量，其中一类表示存在混叠，另一类表示不存在混叠。

对于步骤S21，根据说话人计数方法确定混叠语音中的说话人个数后，例如，最大说话人的个数为I＝4举例。不同于一般的课程学习中将训练数据按某种策略排序进行训练的方法，本方法中提出将训练数据分阶段标注为不同标签，以此从易到难递进地训练分类器，即每个阶段分类器的分类个数逐渐增多。即建立三个阶段，进行4-分类器的课程学习。

对于步骤S22，接收混叠语音训练集，在所述混叠语音训练集中为每一阶段的课程学习标注对应的训练数据，作为一种实施方式，包括：获取所述混叠语音训练集X中代表说话人个数的数量标签，将大于i+1的混叠语音的数量标签统一标注为i+1，确定对应的训练数据集X’。

例如，最大说话人的个数为I＝4举例，第一阶段，数据集中分别有1、2、3、4类标签。将训练集X中属于第3、第4类标签，重新标注为第2类，并随机打乱顺序。第二阶段时，将数据集中属于第4类的标签，重新标注为第三类。这样为每一阶段的课程学习标注对应的训练数据。

对于步骤S23，根据第一阶段对应的训练数据，训练第1阶段的2-分类的说话人分类器，在每个阶段结束后，用于下一阶段分类器模型的初始化，除了最后一层的维度不同外，其他网络参数维度相同。这样保证了模型在不同阶段学习到的知识能够传递给下一段，并帮助下一阶段模型训练。作为一种实施方式，所述训练数据集X’包括：数据集X’_tr和验证集X’_cv；根据所述数据集X’_tr训练第i阶段的说话人分类器；根据所述验证集X’_cv对所述第i阶段的说话人分类器进行验证，以确保所述第i阶段的说话人分类器的性能。在训练中，使用重新标注的数据集X’_tr训练该分类器，并保证存在重新标注的验证集X’_cv上性能最好的结果。

通过该实施方式可以看出，结合了课程学习策略来辅助训练，使得模型在训练时能够充分利用数据中的分布信息，从易到难递进地进行训练，避免陷入某些局部最优点，从而获得更好的性能。

作为进一步具体的实施方式，在鸡尾酒会场景下，收到的语音信号通常由来自多个发言者的重叠语音组成，可以表述为：

其中，s_n(t)表示来自第n个发言者的语音，N是发言者的总数。

对于不同的发言者，相应的发言通常具有不同的持续时间和发作，可以表述为：

其中下标n代表第n个发言者(n＝1,2，......，N)，T_0n表示语音的开头，T_n表示总持续时间，s'_n(t)是起始对齐的言语。

在上述假设下，即使在一个语音段内，同时发言者的数量也会随时间而变化。为了简化这种情况，使用语音活动检测(VAD)对输入语音进行预处理，从而确保每个语音样本中都存在所有说话人。来自不同发言者的语音被分段为500毫秒的片段。因此，在本文的其余部分中，只需要考虑两个任务的等式。

基于这种考虑，说话人计数任务是从混合语音x(t)估计N，而重叠语音检测任务是估计N是否大于1.因此这两个任务可以表示为I级分类问题。对于重叠语音检测，它是二元分类问题，I＝2.对于说话者计数，每个类对应于可能数量的说话者，在实验中选择I＝4。这一选择调查，该调查报告说人类难以区分超过四个同时发言者。因此，可以假设最多可同时处理四个说话人，以满足大多数实际应用中的需求。

用于重叠的语音检测和说话人计数的模型,首先描述使用堆叠卷积网络架构进行重叠语音检测和说话人计数的基线方法，然后提出端到端架构以提高两个任务的性能。由于重叠语音检测和说话者计数可以表述为类似的分类问题，将在下面的每种方法中对两个任务采用相同的架构。

在上文中提出的堆叠卷积网络架构被用作实验中的基线模型。该模型由三个连续的卷积块组成，然后是一个批量标准化层，后面是三个完全连接的层。每个卷积块由三对卷积层和最大池层组成。此外，在最后一个卷积块之后和每个完全连接的层之后应用丢失。

如上文所述，输入样本的持续时间为500毫秒，这是一个中等长度，并且已被证明在说话人计数任务中导致相对较高的分类准确性。网络的输入特征是三个传统手工特征的串联，包括扁平频谱图，利用希尔伯特变换计算的信号包络和语音信号的直方图，输出是用于说话者计数的4维似然向量和用于重叠语音检测的2维向量。

虽然基线CNN架构已经在说话人计数任务上产生了良好的性能，但由于手工制作的功能，它仍然有限，这可能不是最佳的任务。此外，功能的选择可能在不同的情况下有所不同，这需要仔细的设计和更多的努力。因此，本方法提出了一种端到端架构来直接构建用于重叠语音检测和说话人计数的系统。

为了提取说话人计数或重叠语音检测的最相关特征，上文中介绍了基于CNN的网络特征提取模块。它由一个带有256个通道和64×1内核的卷积层组成，后面是一个带有2×2内核的最大池层。对于500毫秒输入原始波形，提取3968×256特征作为堆叠卷积模型的输入，可以在图3所示的端到端方法的模型体系结构图中说明。

与前一节中的体系结构不同，批量标准化层，整流线性单元(ReLU)层和丢失层被附加到我们提出的模型中的每个卷积块的末尾。这是基于以下观察：在中间层中没有约束地训练的端到端模型可能面临以下问题：先前层中的输入的分布的变化被逐层地放大，这增加了适应模型的难度。对不同的训练样本。批量标准化层可以在训练期间实现激活值的稳定分布，从而实现更稳定的训练过程。此外，由于在特征提取模块中引入了更多参数，因此模型的复杂性增加，使其更容易过度拟合。因此，在每个卷积块中添加一个额外的丢失层，以帮助减少过度拟合的可能性。

此外，当验证数据集的准确度在10个时期停止增加时，通过将学习率降低一半来采用训练技巧来优化训练过程。对于CNN训练，使用交叉熵损失函数，其定义为：

其中n表示第n个训练样本，N是批次中的样本数，i表示第i个类，I是类的数量，p_n,i表示属于第n个样本的第n个样本的概率。t_n,i被定义为：

其中c_n表示第n个训练样本的标签。

在现有的方法中，分类模型直接用所有训练数据训练，忽略不同类之间的相似性和关系。然而，训练数据的顺序可以影响训练过程，特别是当数据从“最简单”到“最难”分类时，这称为课程学习。样本的难度可能因不同的任务而异。

在本方法中，采用课程学习的思想来优化本方法提出的模型的培训过程。由于分类精度明显随着说话人数量的增加而降低，可以根据其标签(即所涉及的说话人的数量)来定义样本的难度。然而，课程学习中的正常程序并未应用于我们的实验中，因为分类标准与数据标签直接相关，这将导致每个小批量中的数据分布不均衡，从而导致过度拟合。为了克服这个问题，建议在三个阶段训练模型。在每个阶段，数据被重新排列成I类，并且基于(I-1)类训练I类分类器。在最后阶段1训练的分类器，其中I分别为2,3和4，分别为阶段1,2和3。

在实验中，需要一个注释良好的多说话者重叠语音数据集，其中应该标记语音的每个片段中的重叠状态和发言者数量，以确保训练收敛和准确评估。然而，目前没有符合本方法需要的开源数据集，从而决定人工生成多说话人混合语音，就像之前许多关于重叠语音检测的工作一样。

为了生成多说话人数据，首先从LibriSpeech数据集中随机选择一到四个单说话人语音样本，这是一个开源ASR数据集，由16kHz读取英语语音记录组成。然后通过语音活动检测(VAD)对这些样本进行预处理，并将其分段为500毫秒的片段，以确保每个片段中存在所有说话人。最后，来自不同说话者的这些片段直接混合在一起以产生重叠的语音。训练和验证数据集由LibriSpeech dev-clean子数据集生成，包括来自20名男性和20名女性发言者的5.4小时语料库。评估数据集由LibriSpeech test-clean子数据集生成，该数据集也是来自另外20名男性和20名女性发言者的5.4小时语料库。请注意，评估数据集中的说话人与训练和验证数据集中的说话人完全不同。训练、验证和评估数据集中的样本总数分别为576000,24000和100000，而包含不同数量的发言者的数据在每个数据集中的大小大致相同。每个数据集的持续时间如下：培训和验证80小时，评估14小时。

对于基线模型，输入是7197-维混合特征，其是平坦频谱图，信号包络和语音信号直方图的串联。对于本方法提出的模型，输入是8000-维原始波形，持续时间为500毫秒。

在重叠语音检测和说话者计数任务中，学习速率最初设置为α＝0.0005，并且在训练期间使用Adam优化器。所有模型都经过50个时期的批量训练，并且批次大小为200，并且选择验证数据集中具有最高精度的模型进行评估。

首先，通过分类精度和F1得分评估模型在重叠语音检测上的表现，结果如图4所示的重叠语音检测的不同方法的性能比较列表示意图。可以观察到，本方法提出的绝对精度提高约为2％，绝对F1得分提高了1.5％。端到端模型，表明本方法的端到端架构能够为重叠语音检测提取更多相关功能，从而提高性能。

另外，由于重叠语音检测任务可以被视为说话人计数的子任务，还利用训练的说话人计数模型初始化重叠语音检测模型，然后微调模型在新的任务下。结果显示在图4所示的重叠语音检测的不同方法的性能比较列表示意图中的最后一行，其显示了使用预训练方法可以获得进一步的改进。

评估模型在说话人计数方面的性能，如图5所示的说话人计数的不同方法的性能比较列表示意图。注意，F1分数是不同标签之间的平均F1度量，对于每个标签，F1度量按二进制分类计算。

可以看到，基线模型的分类准确率为72.42％，与模型和实验设置相似的结果(70.5％)相当。并且所提出的模型优于基线模型，绝对精度提高超过4％，这证实了本方法的假设，即更多相关特征可以更好地匹配说话人计数任务并提高性能。然后进一步利用预训练的重叠语音检测模型在训练之前初始化该模型，这也导致另一个改进，如图5所示的说话人计数的不同方法的性能比较列表示意图的底部。

为了更好地说明本方法提出的模型的有效性，以混淆矩阵的形式可视化两个模型的性能，该矩阵表示分类样本的分布。如图6所示，当涉及中等数量的发言者时，具有手工输入特征的基线模型显示出较低的分类置信度。错误分类样本的数量甚至大于第三行中正确分类的样本的数量。相比之下，本方法提出的模型对于不同数量的说话人更加鲁棒，并且预测样本的分布更集中在正确的类上，这与总体准确度一致。

将研究培训策略对说话人计数表现的影响。课程学习策略适用于说话人计数模型，前两个阶段最多20个时期，第3阶段最多40个时期。在阶段1和阶段2中，验证数据集的准确度最高的模型是选择在下一阶段初始化模型，从而将在更简单的任务中学到的知识转移到类似但更难的任务。

本方法提出的具有不同训练策略的演讲者计数模型的表现如图7所示的在测试数据集上提供或不提供课程学习的说话人计数模型的性能比较列表示意图。可以观察到课程学习策略可以基于本方法提出的模型提高分类准确性和F1分数。

为了更直观地理解本方法提出的模型的特征表示的提取能力，从四个不同的类中随机选择输入样本，并在最后一个卷积块之后可视化这些样本的中间表示，用于基线和本方法提出的模型，在图8所示的最后一个卷积块之后来自不同类的输入数据的示意图中，考虑到卷积和合并操作仅在本方法提出的模型中沿时间轴执行，表示中的每列对应于一个时间帧，而每行对应于CNN中的一个输出信道。

正如在图8(a)中所看到的，来自四个类的样本的表示之间的差异几乎不可观察，并且每个类的模式是模糊且不清楚的。然而，在图8(b)中，每个类的模式更加明显和清晰，在局部区域有更多细节。此外，不同类别的模式更加可区分，这与之前的分类性能一致。

一个有趣的现象是，在表示中沿着水平(时间)轴存在一些不连续的图案，并且当涉及大量说话人时观察到更多的不连续性，例如在类4中，这在声音定位中也是常见的，其中不同的帧可以由不同的说话人支配，导致不同的模式，此外，还可以观察到一些连续模式可能在一个表示中沿时间轴重复出现，因此，可以假设本方法的模型能够学习不同的表示形式说话人，因此估计发言人的数量。

通过上述基线与所提模型的比较，进一步证实了本方法提出的端到端模型具有更强的能力，可以为说话人计数任务提取更多相关特征。

本方法提出了一种端到端架构，其原始波形输入用于重叠语音检测和说话人计数任务，所提出的模型在LibriSpeech生成的混合语音中进行评估，并且在两者中均优于具有手工输入功能的基线模型两个任务。分别在重叠语音检测和说话人计数中获得超过2％和4％的绝对准确度改善，此外，应用课程学习策略以更好地利用训练数据，这也提高了性能。

如图9所示为本发明一实施例提供的一种说话人计数系统的结构示意图，该系统可执行上述任意实施例所述的说话人计数方法，并配置在终端中。

本实施例提供的一种说话人计数系统包括：模型建立程序模块11，波形输入程序模块12和计数程序模块13。

其中，模型建立程序模块11用于基于深度卷积神经网络建立端到端说话人计数模型；波形输入程序模块12用于将原始音频波形作为所述端到端说话人计数模型的输入；计数程序模块13用于根据所述端到端说话人计数模型的输出结果确定说话人个数，其中，所述端到端说话人计数模型至少包括：用于提取多种深层特征的卷积层，用于降低提取特征维度的最大池化层，用于约束模型参数的批归一化层，用于减少模型与原始音频波形匹配的随机失活层。

进一步地，所述计数程序模块用于：

利用最大池化层降低每个通道中所述深层特征的特征维度；

进一步地，所述原始音频波形通过混叠语音提取获得；

在所述波形输入程序模块之前，所述系统还用于：

如图10所示为本发明一实施例提供的一种说话人计数系统的结构示意图，该系统可执行上述任意实施例所述的说话人计数方法，并配置在终端中。

本实施例提供的一种说话人计数系统包括：课程学习建立程序模块21，训练数据标注程序模块22和模型训练程序模块23。

其中，课程学习建立程序模块21用于根据权利要求6所述的系统确定所述混叠语音中的说话人个数k后，在端到端混叠语音检测模型中建立k-1个阶段的课程学习；训练数据标注程序模块22用于接收混叠语音训练集，在所述混叠语音训练集中为每一阶段的课程学习标注对应的训练数据；模型训练程序模块23用于根据第i阶段对应的训练数据，训练第i阶段的说话人分类器，将所述第i阶段的说话人分类器传递给第i+1阶段，辅助第i+1阶段递进训练第i+1阶段的说话人分类器，以由易到难的训练所述端到端混叠语音检测模型，其中，所述1≤i≤k-1。

进一步地，所述训练数据标注程序模块用于：

获取所述混叠语音训练集X中代表说话人个数的数量标签，将大于i+1的混叠语音的数量标签统一标注为i+1，确定对应的训练数据集X’，其中，所述训练数据集X’包括：数据集X’_tr和验证集X’_cv；

模型训练程序模块，用于根据所述数据集X’_tr训练第i阶段的说话人分类器；

根据所述验证集X’_cv对所述第i阶段的说话人分类器进行验证，以确保所述第i阶段的说话人分类器的性能。

本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的说话人计数方法以及混叠语音检测模型的优化方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

基于深度卷积神经网络建立端到端说话人计数模型；

将原始音频波形作为所述端到端说话人计数模型的输入；

用于提取多种深层特征的卷积层，

用于降低提取特征维度的最大池化层，

用于约束模型参数的批归一化层，

用于减少模型与原始音频波形匹配的随机失活层。

作为另一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

根据权利要求1所述的方法确定所述混叠语音中的说话人个数k后，在端到端混叠语音检测模型中建立k-1个阶段的课程学习；

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的说话人计数方法以及混叠语音检测模型的优化方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的说话人计数方法以及混叠语音检测模型的优化方法的步骤。

本申请实施例的客户端以多种形式存在，包括但不限于：

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如平板电脑。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有音频处理功能的电子装置。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种说话人计数方法，包括：

基于深度卷积神经网络建立端到端说话人计数模型；

将原始音频波形作为所述端到端说话人计数模型的输入；

用于提取多种深层特征的卷积层，

用于降低提取特征维度的最大池化层，

用于约束模型参数的批归一化层，

用于减少模型与原始音频波形匹配的随机失活层。

2.根据权利要求1所述的方法，其中，所述根据所述端到端说话人计数模型的输出结果确定说话人个数包括：

利用最大池化层降低每个通道中所述深层特征的特征维度；

3.根据权利要求1所述的方法，其中，所述原始音频波形通过混叠语音提取获得；

4.一种混叠语音检测模型的优化方法，包括：

5.根据权利要求4所述的方法，其中，所述接收混叠语音训练集，在所述混叠语音训练集中为每一阶段的课程学习标注对应的训练数据包括：

根据所述数据集X’_tr训练第i阶段的说话人分类器；

6.一种说话人计数系统，包括：

用于提取多种深层特征的卷积层，

用于降低提取特征维度的最大池化层，

用于约束模型参数的批归一化层，

用于减少模型与原始音频波形匹配的随机失活层。

7.根据权利要求6所述的系统，其中，所述计数程序模块用于：

利用最大池化层降低每个通道中所述深层特征的特征维度；

8.根据权利要求6所述的系统，其中，所述原始音频波形通过混叠语音提取获得；

在所述波形输入程序模块之前，所述系统还用于：

9.一种混叠语音检测模型的优化系统，包括：

10.根据权利要求9所述的系统，其中，所述训练数据标注程序模块用于：