CN116030815B

CN116030815B - 一种基于声源位置的语音分割聚类方法和装置

Info

Publication number: CN116030815B
Application number: CN202310326471.0A
Authority: CN
Inventors: 周若华; 杜雨轩; 胡辰磊; 罗启宝; 于秋雨; 虞秋辰
Original assignee: Beijing University of Civil Engineering and Architecture
Current assignee: Beijing University of Civil Engineering and Architecture
Priority date: 2023-03-30
Filing date: 2023-03-30
Publication date: 2023-06-20
Anticipated expiration: 2043-03-30
Also published as: CN116030815A

Abstract

本发明涉及一种基于声源位置的语音分割聚类方法和装置，包括：通过拥有多个信道的收音装置获取输入音频；将输入音频切割为固定长度的音频片段；获取每一个所述音频片段的预估声源位置，所述预估声源位置为所述音频片段中声源相较于收音装置的相对位置；统计各个方向上所述预估声源位置出现的频率以获取重点声源位置，所述重点声源位置为所述预估声源位置出现频率的局部极值；将与所述重点声源位置相邻的区域划分为对应的声源区域；对所述预估声源位置处于同一所述声源区域内的所述音频片段划分至同一个声源分类。本发明提供的基于声源位置的语音分割聚类方法和装置不需要通过神经网络系统进行音色识别，能够直接根据说话人的位置信息对音频进行分割聚类。

Description

一种基于声源位置的语音分割聚类方法和装置

技术领域

本发明涉及语音处理领域，具体涉及一种基于声源位置的语音分割聚类方法和装置。

背景技术

语音分割聚类技术是指在多人说话的场景中，将语音分割为只有一个人说话的语音片段，标记语音片段对应的说话人的身份，从而将同一个人说话的语音片段聚合，以便直观获得一段音频中不同的说话人进行说话的时间段的位置。

传统的语音分割聚类技术分为分割和聚类两个步骤，在分割步骤时，将固定帧数的声学特征片段分为多小段，将每一小段看做单个说话人的说话片段，并从小段中提取说话人的表示向量；在聚类步骤时，通过对说话人的音频进行音色识别，并根据识别结果将音频片段划分为不同的说话人分类中。现有技术的语音分割聚类技术通常需要使用庞大的数据将神经网络训练出识别特定人的语音的模型，且需要预先使用该特定人的大量音频进行训练，然后通过提取输入音频中的每个人的声纹嵌入码，将声纹嵌入码与单个说话人的模型进行对比，并通过对比的相似度对音频片段进行聚类。整个训练过程需要预先知道待处理人的范围，并根据对比论文中的音频进行模型训练，一方面特定人的语音模型往往需要花费大量的时间进行训练，前期工作量大，另一方面需要事先获取待处理人的音频进行模型训练，难以做到实际的落地应用。若参与对话的人发生了变化，特别是临时加入了模型未对其进行针对训练的说话人，现有技术提供的语音分割聚类技术将无法对该说话人的语音进行聚类。综上所述，现有技术的语音分割技术在实际应用中较为繁琐，计算量大，需要较长的时间和大量的数据进行模型训练，训练完成后的模型应对突发状况的能力弱。

发明内容

本发明旨在至少解决现有技术中存在的问题之一。为此，本发明提出一种基于声源位置的语音分割聚类方法和装置，相较于现有技术中使用神经网络对语音分割聚类方法，本发明提供的语音分割聚类方法和装置不需要根据说话的人对系统结构进行特殊训练，节省了分割聚类的准备工作，使得分割聚类更为方便，也提高了语音分割聚类方法应对突发状态的能力。

根据本发明实施例的一种基于声源位置的语音分割聚类方法，包括：从具有多个信道的收音装置获取输入音频，切割所述输入音频，获得多个音频片段；计算每一个所述音频片段的预估声源位置，所述预估声源位置为所述音频片段中声源相较于收音装置的相对位置；统计各个方向上所述预估声源位置出现的频率以获取重点声源位置，所述重点声源位置为所述预估声源位置出现频率的局部极值；将距离所述重点声源位置第一预设范围内的区域划分为所述重点声源位置对应的声源区域；基于所述预估声源位置和所述声源区域对所述多个音频片段进行归类。

优选的，所述预估声源位置为说话人相对于收音装置的角度信息；统计各个方向上所述预估声源位置出现的频率以获取重点声源位置，具体包括：建立以角度与频率为轴线的平面直角坐标系，平面直角坐标系中角度为估计声源位置处于极坐标系中的角度，平面直角坐标系中频率为估计声源位置出现在该角度的次数，从平面直角坐标系中选取局部极值点作为重点声源位置。

优选的，切割所述输入音频，获得多个音频片段，包括：对所述音频进行固定帧长与帧移的切割。

优选的，所述收音装置拥有三个以上的信道输入；通过所述音频片段的多个所述信道的信息综合处理判断预估声源位置。

优选的，通过最大可控响应功率波束形成算法计算预估声源位置，具体包括：计算基于相位变换加权的所有信道接收器的广义互相关函数的和，并搜索整个声源空间以确定到波束值最大化的点作为估计声源位置。

优选的，所述统计各个方向上所述预估声源位置出现的频率以获取重点声源位置，包括：将所有所述预估声源位置标记在以位置角度以及频率为轴的坐标系中，形成音频频率图；确定所述音频频率图中的局部极值点作为所述重点声源位置；所述局部极值点为所述音频频率图中，沿位置角度递增的方向上，音频频率由单调递增变换为单调递减的位置。

优选的，将距离所述重点声源位置第一预设范围内的区域划分为所述重点声源位置对应的声源区域，包括：取相邻的两个所述重点声源位置的位置角度的平均值作为第一预设范围，沿所述平均值处划分所述声源区域。

优选的，切割所述输入音频前，还包括：对每个所述信道进行语音增强；所述语音增强为，获取所述收音装置的全信道音频信息，基于所述全信道音频信息对每个所述信道的音频信息进行互补增强，所述互补增强可以为合并全频带和子频带模型。

优选的，通过重点声源位置的数量确定说话人数；聚类模型根据所述说话人数进行聚类，输出聚类结果。

本发明还提供一种基于声源位置的语音分割聚类装置，包括：切割模块，用于从具有多个信道的收音装置获取输入音频，切割所述输入音频，获得多个音频片段；定位模块，用于计算每一个所述音频片段的预估声源位置，所述预估声源位置为所述音频片段中声源相较于收音装置的相对位置；统计模块，用于统计各个方向上所述预估声源位置出现的频率以获取重点声源位置，所述重点声源位置为所述预估声源位置出现频率的局部极值；聚类模块，用于将距离所述重点声源位置第一预设范围内的区域划分为所述重点声源位置对应的声源区域；基于所述预估声源位置和所述声源区域对所述多个音频片段进行归类。

综上所述，本发明提供一种不需要提前训练神经网络的说明人分割聚类方法，通过多个信道获取不同的输入音频，并根据输入音频中的音频片段判断该音频片段的说话人的预估声源位置，通过统计所有预估声源位置在不同的角度中出现的频率，获取说话人可能位于的重点声源位置；并将重点声源位置以及其相邻的区域划分为该重点声源位置的声源区域，即其中一个说话人所处的区域；将该区域内所有的音频片段进行聚合形成该说话人的声源分类，该声源分类中包含了所有该说话人的说话片段，实现对输入音频的说话人分割聚类。

相较于现有技术，本发明提供的基于声源位置的语音分割聚类方法不需要通过神经网络系统进行音色识别，可以直接根据说话人的位置信息对音频进行分割聚类。避免了需要提前训练神经网络系统所需求的时间、人力以及金钱成本，并且因为不需要提前训练神经网络系统，可以做到及时应用，提升了分割聚类的效率，并且可以解决临时增加说话者的特殊突发情况。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于声源位置的语音分割聚类方法的流程示意图；

图2为本发明实施例提供的一种不同会议中音频频率图的示意图；

图3为本发明实施例提供的一种音频频率图划分声源区域的示意图；

图4为本发明实施例提供的一种同一会议中进行语音增强前后的音频频率图对比图；

图5为本发明实施例提供的一种基于声源位置的语音分割聚类系统流程的示意图；

图6为本发明实施例提供的一种多信道收音装置确定说话人数的准确率示意表格；

图7为本发明实施例提供的一种多信道收音装置分割聚类效果的示意表格；

图8为本发明实施例提供的一种将说话人数引入聚类模型进行聚类的准确率示意表格。

具体实施方式

此说明书实施方式的描述应与相应的附图相结合，附图应作为完整的说明书的一部分。在附图中，实施例的形状或是厚度可扩大，并以简化或是方便标示。再者，附图中各结构的部分将以分别描述进行说明，值得注意的是，图中未示出或未通过文字进行说明的元件，为所属技术领域中的普通技术人员所知的形式。

此处实施例的描述，有关方向和方位的任何参考，均仅是为了便于描述，而不能理解为对本发明保护范围的任何限制。以下对于优选实施方式的说明会涉及到特征的组合，这些特征可能独立存在或者组合存在，本发明并不特别地限定于优选的实施方式。本发明的范围由权利要求书所界定。

本实施例提供一种基于声源位置的语音分割聚类方法，如图1所示，包括：从具有多个信道的收音装置获取输入音频，切割所述输入音频，获得多个音频片段；计算每一个所述音频片段的预估声源位置，所述预估声源位置为所述音频片段中声源相较于收音装置的相对位置；统计各个方向上所述预估声源位置出现的频率以获取重点声源位置，所述重点声源位置为所述预估声源位置出现频率的局部极值；将距离所述重点声源位置第一预设范围内的区域划分为所述重点声源位置对应的声源区域；基于所述预估声源位置和所述声源区域对所述多个音频片段进行归类。

拥有多个信道的收音装置能够在获取音频时，获得不同信道的多个音频，可以理解的，收音装置的多个信道所处的位置存在差异，与说话人的距离也存在区别，也即每个信道在同一个说话人进行讲话的时候获取的音频之间存在一定的差异，根据不同信道获取的音频之间的差异可以实现确定说话人的方位。

切割所述输入音频，获得多个音频片段，具体包括：将所述输入音频切割为固定的音频片段，其中音频片段的长度设置为固定帧数。由于音频片段所包含的帧数较小，采用固定帧数切割音频简化了音频分割处理的计算过程，同时可以满足将音频片段视为单一说话人进行的讲话的定位需求。

此时，计算每一个所述音频片段的预估声源位置，也即，在将单个音频片段视为单一说话人进行的讲话音频时，能够通过音频片段包括的多个信道的音频信息，综合确定该说话人所处的位置相较于收音装备的位置角度，并将该位置角度设置为预估声源位置。

统计所有音频片段的预估声源位置出现的频率，可以理解的，预估声源位置分布环绕在收音装置的周围，此时，将收音装置的位置设为原点，各个预估声源位置会出现在原点的各个方向上。此时统计各个方向上所述预估声源位置出现的频率可以获得重点声源位置，其中重点声源位置为各个预估声源位置出现频率较高的位置，也即当位于收音装置的某个角度频繁出现预估声源位置，则此角度为重点声源位置，也即所述重点声源位置为所述预估声源位置出现频率的局部极值点。

因为在收音装置收音时，会存在将噪音收录的情况，噪音的影响会造成预估声源位置存在偏移。同样的，说话人可能会在一定的范围内进行小幅度的活动，会使得根据收音装置接收到的音频片段判断出的预估声源位置存在小幅度的偏移。

也即同一个说话人进行讲话所收录的音频片段中，也会存在预估声源位置不同的情况，也即预估声源位置所处的相较于收音装置的角度并非完全准确的，使得一些预估声源位置无法与重点声源位置重合。但因为预估声源位置处于重点声源位置附近的音频片段的说话人确实与处于重点声源位置的说话人为同一人，所以理应将该音频片段的声源位置归类进相邻的重点声源位置。也就是需要将所述重点声源位置相邻的区域划分为与重点声源位置对应的同一声源区域。

基于所述预估声源位置和所述声源区域对所述多个音频片段进行归类，具体为，对所述预估声源位置处于同一所述声源区域内的所述音频片段划分至同一个声源分类。也就是将处于同一声源区域的声源片段聚合在一起归类为同一说话人的讲话片段，实现对输入音频的说话人分割聚类。

可以理解的，在现有的语音分割聚类的方法中，通过对说话人的音频进行音色识别，并根据识别结果将音频片段划分为不同的说话人分类中，但是，该语音分割聚类技术往往要使用庞大的数据将神经网络训练出单个说话人的模型，然后通过提取输入音频中的每个人的声纹嵌入码，将声纹嵌入码与单个说话人的模型进行对比，并通过对比的相似度对音频片段进行聚类。但是训练单个说话人的模型往往需要花费大量的时间，难以做到实际的落地应用。并且当参与对话的人发生了变化，特别是临时加入了模型未对其进行针对训练的说话人，现有技术无法对该说话人的语音进行聚类。所以在实际应用中较为繁琐，以及应对突发状况的能力弱。

在会议进行的过程中，因为多数情况下说话人坐在位子上不发生移动，而在少数情况下说话人会进行小幅度的位移，所以在会议中多个说话人所处的位置不会发生太大的改变，通过获取说话人的方位，并根据方位信息对音频片段进行聚类，实现了在将一段输入音频按照说话人进行分割聚合。

具体地，在待检测的空间内设置具有多个信道的收音装置，以将收音装置放置于空间中心点为效果最佳的实施例，但不以此为限，可以根据实际的空间状况以及安装难易度等原因更换收音装置的安装位置。

在多个说话人的会议开始后，收音装置的不同位置的信道接收器同时开始接收会议内的音频，因信道接收器所处的位置不同，在同一个说话人进行讲话时，信道接收器接收到的输入音频存在差别，综合多个信道获取的输入音频，判断说话人处于收音装置的方位。

首先，先对信道接收器收到的输入音频进行切割，将输入音频切割为固定长度的音频片段，音频片段的长度以帧进行记数。因将输入音频切割至足够短的音频片段，致使音频片段可以视为一位说话人的音频片段，所以通过综合同一时间的所有信道接收器获取的音频片段，能够判断出该时间点说话人相较于收音装置的位置，也即预估声源位置。预估声源位置通过该位置相较于收音装置的位置角度标记。将收音装置所处的位置设为原点，并从原点延长出一条确定的极坐标轴，通过该极坐标系对预估声源位置进行标记。

在一些实施例中，预估声源位置仅考虑角度系数，即预估声源位置为说话人相对于收音装置的角度信息，所有预估声源位置与收音装置的距离不纳入考虑范围。但在一些会议环境较为复杂的情况下，可以通过判断预估声源位置与收音装置的距离对同一角度的不同说话人进行区分，即预估声源位置为说话人相对于收音装置的距离信息和角度信息。

统计各个方向上所述预估声源位置出现的频率以获取重点声源位置，具体包括：建立以角度与频率为轴线的平面直角坐标系，此处角度为估计声源位置处于极坐标系中的角度；频率为估计声源位置出现在该角度的次数。从平面直角坐标系中选取局部极值点作为重点声源位置。

可以理解的，预估声源位置落点密集甚至重合的区域为说话人最有可能所处的位置，将此位置标记为重点声源位置，重点声源位置所处的角度即为说话人所处的角度。因为存在多位说话人，并且每位说话人所进行的讲述时长存在差异，所以在判断重点声源位置时，根据估计声源位置的局部极值进行判断，出现局部极值的位置为说话人所处的位置。

在平面直角坐标系中的局部极值处为重点声源位置，选取重点声源位置附近的区域，将重点声源位置以及附近区域合并为一个声源区域。相邻的两个声源区域不重合。

将处于同一声源区域的音频片段划分至同一个声源分类，完成对输入音频根据说话人的分割聚类。

在一些实施例中，切割所述输入音频，获得多个音频片段，包括：对所述音频进行固定帧长与帧移的切割。

采用固定帧长与帧移的切割能够使得每一段音频片段是帧数一致，减少因为音频片段长短不一带来的检测误差。同时通过选择帧长的数值，可以自由选择将输入音频切割成的音频片段的长度，能够检测在音频片段的长度对检测结果的影响。帧移为两段相邻的音频片段起始帧之间的距离，为了分割聚类的结果的完整性，帧移选择与帧长相等或者小于帧长。

在一些实施例中，所述获取每一个所述音频片段的预估声源位置，包括：所述收音装置拥有三个以上的信道输入；通过所述音频片段的多个所述信道的信息综合处理判断预估声源位置。

在仅使用一对信道接收器，通过估计时间延迟进行预估声源位置的判断时，在强烈的语音混响下，预估声源位置往往会因为混响的影响而得到错误的结果，所以在本实施例中，选用拥有是哪个以上信道接收器的收音装置，进行预估声源位置的确定。

进一步地，所述通过所述音频片段的多个所述信道的信息综合处理判断预估声源位置，包括：计算所述收音装置接收信号时，带有相位变换加权的收音装置的广义互相关函数的和；并通过搜索最大和出现的方位作为所述预估声源位置。

具体地，通过最大可控响应功率波束形成算法（SRP-PHAT）计算预估声源位置，包括计算基于相位变换加权的所有信道接收器的广义互相关函数（GCC-PHAT）的和，并搜索整个声源空间以确定到波束值最大化的点作为估计声源位置。可以概括为以下表达式：

，

表达式中M表示信道接收器的数量。τij(q)描述了在该声源空间位置q处麦克风i和麦克风j处接收到的信号之间的理论时间延迟。估计声源位置可以通过搜索使声源空间中P值最大的q处来确定。

在一些实施例中，以500ms帧长和500ms帧移计算了其转向响应功率并在360°的声源空间中计算256次，以获得估计声源位置最可能所在的方向。

在一些实施例中，所述统计各个方向上所述预估声源位置出现的频率以获取重点声源位置，包括：将所有所述预估声源位置标记在以位置角度以及频率为轴的坐标系中，形成音频频率图；确定所述音频频率图中的局部极值点作为所述重点声源位置；所述局部极值点为所述音频频率图中，沿位置角度递增的方向上，音频频率由单调递增变换为单调递减的位置。

音频频率图选择采用以角度与频率为坐标轴的平面直角坐标系作为基础，其中角度为以极坐标轴为0°、收音装置为原点预估声源位置与收音装置的相对角度；频率为预估声源位置在该角度上出现的次数。为了方便观测与计算，在收音装置的360°中每10°计算一次预估声源位置的出现频率，减少了计算成本的同时，也可以排除一些因噪音造成的预估声源位置的偏移误差。

在直角坐标系中形成音频频率图，此时如图2所示，列举了两个不同会议的音频频率图。在图2中的（a）中可以明显观察到沿角度递增的方向上，有三个位置出现了音频频率由单调递增转换为单调递减的局部极值点，也即图中的三个峰值所在位置，将这三处局部极值点标记为重点声源位置。重点声源位置可以视作说话人最可能位于的位置。在图2中的（b）中可以明显观察到沿角度递增的方向上，有四个位置出现了音频频率由单调递增转换为单调递减的局部极值点，也即图中的四个峰值所在位置，将这四处局部极值点标记为重点声源位置。重点声源位置可以视作该会议中说话人最可能位于的位置。

在一些实施例中，将距离所述重点声源位置第一预设范围内的区域划分为所述重点声源位置对应的声源区域，包括：取相邻的两个所述重点声源位置的位置角度的平均值作为第一预设范围，沿所述平均值处划分所述声源区域。

图3为根据将重点声源位置附近的区域划分为对应的声源区域，通过沿相邻的两个重点声源位置的角度的平均值点进行划分。该划分方法可以将两个相邻的重点声源区域之间的区域平均分给两个不同的声源区域，保证了声源区域的划分的平均，提升对说话人分割聚类的准确性。

在一些实施例中，在将输入音频切割为固定长度的音频片段前，还包括：对每个所述信道进行语音增强；所述语音增强为：获取所述收音装置的全信道音频信息，基于所述全信道音频信息对每个所述信道的音频信息进行互补增强，所述互补增强可以为合并全频带和子频带模型。

输入的音频可能存在大量的噪声干扰，使得对说话人的定位存在一定的误差，影响说话人分割聚类的效果，为了消除一部分噪声的影响，本申请选择对每个信道的输入音频分别进行语音增强。具体的，采用了合并全频带和子频带模型的方法。基于全频段和子频段的互补优势，它将它们连接起来，并结合各自的优势进行联合训练。它专注于全局环境并稳定捕获信号以获得良好的结果。

例如，如图4所示，图4中的（a）展示的为未经过语音增强的输入音频分割聚类形成的音频频率图，能够看出沿角度递增的方向上，有六个位置出现了音频频率由单调递增转换为单调递减的局部极值点，也即图中的六个峰值所在位置，将这六处局部极值点标记为重点声源位置。经过语音增强，音频频率图如图4中的（b）所示，沿角度递增的方向上，仅有四个位置出现了音频频率由单调递增转换为单调递减的局部极值点，也即图中的四个峰值所在位置，将这四处局部极值点标记为重点声源位置。可以看出经过语音增强后，能够消除系统中的因噪音造成的局部极值点，对重点声源位置的检测更为准确。

在一些实施例中，还包括：通过重点声源位置的数量确定说话人数；聚类模型根据所述说话人数进行聚类，输出聚类结果。

现有的语音分割聚类技术往往通过最终的聚类结果得出说话人数，而并不能提前得到说话人数。一些方法尝试使用已知的说话人数进行聚类可以得到更好的结果，但是在实际会议中往往不能提前得知参会的人数。针对上述缺点，本发明提供一种通过多信道获取的声源信息可以准确地得到说话人数，并使用已知的说话人数进行聚类的方法。本申请相较于比未知说话人数进行的聚类的效果更好。

具体地，所述聚类模型提取音频信息嵌入码，优选的，采用残差网络 101和残差网络 152来提取说话人嵌入码；将音频信息嵌入码和说话人数代入聚类模型以进行重新聚类可以得到最佳的单系统结果。

嵌入码从话语中固定长度的同质片段中提取，在窗口大小固定的情况下，帧长越长，就能获得更多关于说话人身份的信息，帧移越短，说话人的表示就越准确。由于帧移是确定说话人身份的最小单位，较小的帧移有助于精确定位说话人的变换点。

聚类模型提取音频信息嵌入码能将说话人的声学特征转换为固定维特征向量。如图5所示，本发明利用残差网络101和残差网络152作为说话人嵌入提取器，其输入是具有25ms帧长和10ms帧移的64维对数梅尔滤波器组特征。此外，音频被分割成1.44秒的片段，帧移为0.6秒和0.72秒。通过来自VoxCeleb1、VoxCeleb2和CN-CELEB的数据进行16 kHz的x向量提取器的训练。此外，本发明还增加了MUSAN和RIR语料库的数据对系统进行进一步地训练。

进一步地，所述聚类模型还包括：通过提取归一化最大本征间隙值计算分类数量与构建分类的谱聚类模型；通过计算说话人之间的相似度并根据相似度合构建分类的层次聚类模型。

其中，谱聚类模型具体利用了光谱聚类框架，可以在语音分割聚类上下文中自动调整聚类算法参数。谱聚类模型所提出的结构采用归一化最大本征间隙值（NME）来估计谱聚类过程中的簇数和亲和矩阵的所有行中的元素阈值参数，而无需对开发集进行任何参数调整。

层次聚类模型（AHC）通常用于说话人分割聚类。该方法从未知类别的多个说话人开始，计算每个说话人之间的相似度分数，并合并相似的类。重复上述步骤，当聚集的类别达到预定阈值时，聚类结束。

进一步地，基于所述层次聚类模型生产的分类结果获取说话人与音频信息嵌入码之间的对齐关系，并初始化通用模型；将所述谱聚类模型的分类结果与所述通用模型的分类结果融合，获得说话人的分割聚类结果。

通过层次聚类结果，可以获得x向量和说话人之间的初步对齐关系，用于初始化通用模型（VBx）参数。然后执行期望最大值迭代优化。这样，层次聚类后可以进一步提高分离精度。该模型用于提高初始聚类效率，并采用初始聚类结果初始化通用模型。

通过DOVER-LAP融合谱聚类模型和初始化通用模型的分类结果，并对融合的结果进行评分，以获得更好的系统性能。

DOVER-LAP融合为一种日记输出投票误差减少（DOVER）方法，用于使用投票布局组合多个日记结果。日记输出投票误差减少方法在各种日记系统之间对齐说话人标签。在对齐所有假设之后，所有系统为所有细分区域投票其相应的说话人标签。所有系统都有不同的投票权重，并为所有分段区域选择获得最大投票权重的说话人标签。最后，将0.3、0.3和0.4的权重分配给具有最佳单系统得分的三个输出文件。

为了印证本发明的分割聚类效果，本申请还提供了一种验证实验。

本实验使用VoxCele1和VoxCeleb2数据训练残差网络101模型。利用RIRs和MUSAN数据集进行数据增强。采用BUT团队提供的残差网络152模型对于小型会议下的说话人分割聚类，并且使用增强多方交互(AMI)会议数据集，每次会议仅使用不超过4名说话人的音频。AMI测试集包括波束成形音频和混合耳机音频数据。由于部分论文的数据集划分标准不同，因此本申请也使用了与论文相同的不同标准，即是否排除TNO会议。此外，使用标准BeamformIt工具箱对麦克风阵列中的信道进行波束形成。

实验中每个连续的音频片段的说话人嵌入是用1.44秒的帧长和0.72秒或0.6秒的帧移来进行提取的。帧移为0.72秒的片段内采用层次聚类方法，阈值设置为-0.015。帧移为0.72秒的片段内采用谱聚类方法。将初始聚类估计的最大说话人数设置为10，并自动调整阈值。最后，在获得说话人数量后，利用已知聚类数量的谱聚类方法进行重新聚类。采用AMI数据集中标准说话人分割聚类错误率(DER)作为评价指标。DER由说话人混淆率(SER)、虚警率(FA)和漏检率(MS)组成，其中SER描述了由于说话人片段的错误标记引起的错误。由于语音活动检测(VAD)系统引入的错误，可能会出现FA和MS。由于本文主要关注说话人识别精度，因此使用了基本事实的VAD。本发明采用0.25秒的领值，评分过程中忽略重叠的说话人区域。本申请最终使用NIST开发的工具进行评分。

用本申请确定说话人数的准确率如图6所示。在语音增强前后计算了本申请在预测说话人数方面的准确度。同时，对层次聚类法和SC聚类算法的聚类人数结果进行了比较。最终将人数已知的聚类结果进行结果融合可以把说话人错误率降低至接近1%。

图7总结了AMI语料库中生成音频频率图对说话人分割聚类的效果。本实验采用了划分数据集的官方标准方法，对本申请方法进行与其他技术进行比较研究。尽管存在输入语音统一段语音增强说话人数量没有一致的数据集分区，它仍然具有参考价值。图7所示的表格的第四行中展示了d向量及其与麦克风阵列的组合在说话人分割聚类中的性能。图7显示，在某些可比条件下，仅使用麦克风阵列的方法优于d向量。它表现出更好的性能，说话人分割聚类错误率分别相对降低了34.7%和45.6%。语音增强后，说话人分割聚类错误率分别相对降低2.1%和8.0%。值得注意的是，在IS会议中，所提出的仅使用麦克风阵列的空间信息的方法优于将麦克风阵列的空域特征与d向量相结合。然而，这也可能是由于数据集分区的差异。

图8总结了AMI语料库中不同音频流下说话人日记化的效果。本申请发现两篇论文在AMI数据集上取得了最好的结果。然而，对比论文中使用了不同的测试集分区。为了进行更公平的比较，采用了两个标准来划分测试集；即是否排除TNO会议,与仅使用麦克风阵列的说话人分割聚类不同，使用完全一致的数据集分类标准进行比较。此外，还采用标准x向量嵌入进行比较。说话人混淆是判断说话人分割聚类错误率的唯一标准。在使用关于说话人数量的信息之前，本申请的最佳实验结果分别得到了31.9%、69.7%、27.7%和33.2%的相对改善，与四个评估集的其他论文中的最佳结果相比。归一化最大特征谱聚类算法用于隐藏从麦克风阵列信息获得的说话人数量。四个评估集的最佳结果分别得到了42.9%、72.2%、12.3%和50.8%的相对改善。

本实施例提供一种基于声源位置的语音分割聚类装置，包括：切割模块，用于从具有多个信道的收音装置获取输入音频，切割所述输入音频，获得多个音频片段；定位模块，用于计算每一个所述音频片段的预估声源位置，所述预估声源位置为所述音频片段中声源相较于收音装置的相对位置；统计模块，用于统计各个方向上所述预估声源位置出现的频率以获取重点声源位置，所述重点声源位置为所述预估声源位置出现频率的局部极值；聚类模块，用于将距离所述重点声源位置第一预设范围内的区域划分为所述重点声源位置对应的声源区域；基于所述预估声源位置和所述声源区域对所述多个音频片段进行归类。

以上仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于声源位置的语音分割聚类方法，其特征在于，包括：

从具有多个信道的收音装置获取输入音频，切割所述输入音频，获得多个音频片段；

计算每一个所述音频片段的预估声源位置，所述预估声源位置为所述音频片段中声源相较于收音装置的相对位置；

统计各个方向上所述预估声源位置出现的频率以获取重点声源位置，将所有所述预估声源位置标记在以位置角度以及频率为轴的坐标系中，形成音频频率图；确定所述音频频率图中的局部极值点作为所述重点声源位置；所述局部极值点为所述音频频率图中，沿位置角度递增的方向上，音频频率由单调递增变换为单调递减的位置；

将距离所述重点声源位置第一预设范围内的区域划分为所述重点声源位置对应的声源区域；取相邻的两个所述重点声源位置的位置角度的平均值作为第一预设范围，沿所述平均值处划分所述声源区域；

基于所述预估声源位置和所述声源区域对所述多个音频片段进行归类；通过重点声源位置的数量确定说话人数；聚类模型根据所述说话人数进行聚类，输出聚类结果。

2.根据权利要求1所述的基于声源位置的语音分割聚类方法，其特征在于，所述预估声源位置为说话人相对于收音装置的角度信息；

统计各个方向上所述预估声源位置出现的频率以获取重点声源位置，具体包括：

建立以角度与频率为轴线的平面直角坐标系，平面直角坐标系中角度为估计声源位置处于极坐标系中的角度，平面直角坐标系中频率为估计声源位置出现在该角度的次数，从平面直角坐标系中选取局部极值点作为重点声源位置。

3.根据权利要求1所述的基于声源位置的语音分割聚类方法，其特征在于，切割所述输入音频，获得多个音频片段，包括：

对所述音频进行固定帧长与帧移的切割。

4.根据权利要求1所述的基于声源位置的语音分割聚类方法，其特征在于，所述收音装置拥有三个以上的信道输入；通过所述音频片段的多个所述信道的信息综合处理判断预估声源位置。

5.根据权利要求1所述的基于声源位置的语音分割聚类方法，其特征在于，通过最大可控响应功率波束形成算法计算所述预估声源位置，具体包括：计算基于相位变换加权的所有信道接收器的广义互相关函数的和，并搜索整个声源空间以确定到波束值最大化的点作为所述预估声源位置。

6.根据权利要求1所述的基于声源位置的语音分割聚类方法，其特征在于，切割所述输入音频前，还包括：

对每个所述信道进行语音增强；所述语音增强为，获取所述收音装置的全信道音频信息，基于所述全信道音频信息对每个所述信道的音频信息进行互补增强，所述互补增强为合并全频带和子频带模型。

7.一种基于声源位置的语音分割聚类装置，其特征在于，所述基于声源位置的语音分割聚类装置包括：

切割模块，用于从具有多个信道的收音装置获取输入音频，切割所述输入音频，获得多个音频片段；

定位模块，用于计算每一个所述音频片段的预估声源位置，所述预估声源位置为所述音频片段中声源相较于收音装置的相对位置；

统计模块，用于统计各个方向上所述预估声源位置出现的频率以获取重点声源位置，将所有所述预估声源位置标记在以位置角度以及频率为轴的坐标系中，形成音频频率图；确定所述音频频率图中的局部极值点作为所述重点声源位置；所述局部极值点为所述音频频率图中，沿位置角度递增的方向上，音频频率由单调递增变换为单调递减的位置；

聚类模块，用于将距离所述重点声源位置第一预设范围内的区域划分为所述重点声源位置对应的声源区域；取相邻的两个所述重点声源位置的位置角度的平均值作为第一预设范围，沿所述平均值处划分所述声源区域；基于所述预估声源位置和所述声源区域对所述多个音频片段进行归类；通过重点声源位置的数量确定说话人数；聚类模型根据所述说话人数进行聚类，输出聚类结果。