CN114495946A

CN114495946A - 声纹聚类方法、电子设备和存储介质

Info

Publication number: CN114495946A
Application number: CN202111668777.1A
Authority: CN
Inventors: 俞凯; 刘涛
Original assignee: Sipic Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2022-05-13

Abstract

本发明公开声纹聚类方法、电子设备和存储介质，其中，一种声纹聚类方法，包括：获取与音频信息同步的人脸检测信息；基于所述人脸检测信息确定人数信息；基于所述人数信息辅助所述音频信息进行声纹聚类。本申请实施例的方法通过结合音频信息和视频信息中的人脸信息，可以提升说话人日志算法的性能和效果，说话人日志是众多语音任务的前置环节，可以适用于后续的语音识别任务、TTS等语音相关的任务，另外还可以进行语义理解，辅助其他人机对话，语义的结果可以形成知识图谱，具有广泛的应用前景。

Description

声纹聚类方法、电子设备和存储介质

技术领域

本发明属于声纹聚类技术领域，尤其涉及声纹聚类方法、系统、电子设备和存储介质。

背景技术

相关技术中，声纹验证,判断说话人是否匹配已知的某一个说话人。声纹辨认，判断说话人是否从属于数据库中多个候选人中的某一个说话人，即：多个候选人中匹配出1个。个性化语音检测，关注某一个特定说话人的说话内容。单模态的说话人日志，说话人日志一般指的是单语音模态的算法，也就是借用纯音频的角度来对说话人进行日志记录。

发明人发现：声纹验证和声纹辨认的缺陷为只用于验证某一个段说话人是否有特定的说话人，并不记录说话发生的时刻；个性化语音检测的缺陷为只关注某一个特定说话人的内容和发生时刻，而非记录对话中出现的所有人；单模态的说话人日志的缺陷为在高噪声和人声较多重叠的情况下，无法有效工作，只借用语音模态的信息，没有很好利用视觉信息。

发明内容

本发明实施例提供一种声纹聚类方法、电子设备和存储介质，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种声纹聚类方法，包括：获取与音频信息同步的人脸检测信息；基于所述人脸检测信息确定人数信息；基于所述人数信息辅助所述音频信息进行声纹聚类。

第二方面，本发明实施例提供一种声纹聚类方法，用于多音频的说话人日志，包括：获取与音频信息同步的人脸检测信息；对人脸在所述人脸检测信息中的坐标位置信息进行跟踪；将跟踪得到的对应于同一个人的人脸进行聚类得到聚类结果；基于所述音频信息和所述聚类结果进行说话人同步性检测。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的声纹聚类方法的步骤。

第四方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行本发明任一实施例的声纹聚类方法的步骤。

本申请实施例的方法通过结合音频信息和视频信息中的人脸信息，可以提升说话人日志算法的性能和效果，说话人日志是众多语音任务的前置环节，可以适用于后续的语音识别任务、TTS等语音相关的任务，另外还可以进行语义理解，辅助其他人机对话，语义的结果可以形成知识图谱，具有广泛的应用前景。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种声纹聚类方法的流程图；

图2为本发明一实施例提供的展示MSDWild数据集指标图表；

图3为本发明一实施例提供的表示视频是在自然场景下搜集的图片；

图4为本发明一实施例提供的实施例的数据集涵盖的类型和场所；

图5为本发明一实施例提供的实施例的数据集中涵盖的大约20种不同的语言；

图6为本发明一实施例提供的通过本申请的纯音频方法与 VoxConverse数据集的比较图；

图7为本发明一实施例提供的少说话者测试集在基线、纯音频和视听方法上的DER结果；

图8为本发明一实施例提供在基线、仅音频和视听方法上的多说话者集的DER结果；

图9是本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，其示出了本申请的声纹聚类方法和系统一实施例的流程图，用于多音频的说话人日志。

如图1所示，在步骤101中，获取与音频信息同步的人脸检测信息；

在步骤102中，基于所述人脸检测信息确定人数信息；

在步骤103中，基于所述人数信息辅助所述音频信息进行声纹聚类。

在一些可选的实施例中，所述基于所述人脸检测信息确定人数信息包括：获取每一帧人脸检测信息中的人脸数量；基于所述每一帧的人脸数量中的最大人脸数量确定人数信息。基于最大的人脸数量确定人数信息可以使得确定的人数信息更加精准。

在一些可选的实施例中，在所述获取与音频信息同步的人脸检测信息之前，还包括：确定所述音频信息中包含说话人音频的说话段；对所述说话段进行声纹特征提取得到声纹特征。例如可以通过语音活性检测方法剔除音频信息中的静音段和非人声部分，之后再进行声纹特征提取可以有效地减少工作量。

在一些可选的实施例中，所述基于所述人数信息辅助所述音频信息进行声纹聚类包括：基于所述人数信息辅助声纹聚类算法对所述声纹特征进行处理，其中，所述声纹聚类算法为谱聚法；输出所述声纹聚类算法的聚类结果。

请参考图2，其实除了本申请实施例提供的另一种声纹聚类方法，用于多音频的说话人日志。

如图2所示，在步骤201中，获取与音频信息同步的人脸检测信息；

在步骤202中，对人脸在所述人脸检测信息中的坐标位置信息进行跟踪；

在步骤203中，将跟踪得到的对应于同一个人的人脸进行聚类得到聚类结果；

在步骤204中，基于所述音频信息和所述聚类结果进行说话人同步性检测。

在一些可选的实施例中，所述基于所述音频信息和所述聚类结果进行说话人同步性检测包括：基于从所述音频信息中得到的声纹特征和所述聚类结果中的唇动信息的同步关系判断某个说话人是否在说话。通过声纹特征和人脸检测到的唇动信息的同步关系，可以更精准地判断某个说话人是否在说话。

在一些可选的实施例中，在所述基于从所述音频信息中得到的声纹特征和所述聚类结果中的唇动信息的同步关系判断某个说话人是否在说话之后，所述方法还包括：将判断的结果转换成说话人日志的特定格式输出。

在一些可选的实施例中，使用dlib进行人脸检测，使用交并比进行人脸跟踪。

需要说明的是，上述方法步骤并不用于限制各步骤的执行顺序，实际上，某些步骤可能会同时执行或者以与步骤限定的相反的顺序执行，本申请在此没有限制。

下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明，以使本领域技术人员更好地理解本申请的方案。

发明人发现现有技术中存在的缺陷是由于以下内容导致的：(1)声纹验证、声纹辨认、个性化语音检的缺陷，这些缺陷是由任务的特性所导致的；(2)单模态的说话人日志的缺陷：这些缺陷是由过度依赖单一模态的缺陷导致的。

本领域技术人员在面对上述缺陷时，通常采用的方法：通常会采用单模态的说话人日志的方案，这些方法通常有三个步骤：音频VAD、分割并提取embedding算法和聚类算法。为了解决高噪声和高人声重叠条件下导致的算法性能急剧恶化，单模态的说话人日志还会使用噪声数据或混响数据进行训练，以提高高噪声条件下的特征提取和聚类的性能；此外，在人声重叠的情况下，此类算法一般不解决，直接将重叠部分剔除，或者使用一些带人声噪声的情况进行训练，这能起到一部分效果，对于高重叠的情况下，效果依然很不理想。不容易想到的原因：1、视觉模态通常是缺失的，使用音频更具有鲁棒性和普遍性，2、如何有效利用视觉模态依然是一个难题；3、额外的信息会增加一定的系统消耗。

本申请实施例的方法利用视觉信息辅助单模态的说话人日志算法， (1)在音频聚类的过程中，由于音频聚类算法对于人数是非常敏感的，我们通过人脸检测，给出具体的人数信息，来辅助音频进行聚类，从而提高算法聚类模块的效果；(2)另外我们利用视素-音素之间的同步性来获取唇动的结果，因为视觉信息的准确率很高，所以使用唇动的结果可以极大增强说话人日志算法的性能。

请参考图2，其示出了本发明一实施例提供的声纹聚类方法和系统的一个具体示例的结构框图。

发明人在实现本申请实施例的过程中，还采用过如下备选方案：多模态说话人增强算法，使用多模态说话人增强算法对每一个说话的说话音频进行增强，只保留当前的说话人音频，然后再从音频里面进行VAD算法， VAD的结果结合说话人的信息就可以输出说话人日志的结果。优点是思路简单直接；缺点是多模态说话人增强算法任务难度大，算法效果一般，不适合作为流程的前置性任务。

本申请实施例方案的直接效果是提升说话人日志算法的性能和效果，说话人日志是众多语音任务的前置环节，可以适用于后续的语音识别任务、TTS等语音相关的任务，另外还可以进行语义理解，辅助其他人机对话，语义的结果可以形成知识图谱，具有广泛的应用前景。

以下通过具体的实验和实验数据验证本申请实施例相对于现有技术具有的有益效果。

MSDWILD：自然场景下收集的的多模态说话人透析数据集

在真实世界的声学环境里，说话人日志算法是一个有挑战性的工作，学术界和工业界都对这项工作有着持续的兴趣。语音处理任务受益于视觉信息已经取得了广泛的共识，比如在语音识别领域。然而当前并没有一个完整公开的多模态说话人分割聚类数据集，这个数据集可以对真实场景下的多模态说话人分割聚类算法提供测试基准。在这篇论文中，我们发布了一个数据集——MSDWild，旨在为真实场景下的多模态说话人分割聚类算法提供一个测试基准。该数据集收集于公开的视频中，覆盖丰富的真实场景和语言。所有的视频片段是自然拍摄的镜头，无过度片段的镜头，过度片段的镜头如镜头切换。此外，音频是视频都同时公开了。特别地， MSDWild有大量自然重叠的语音，对鸡尾酒会的研究提供了一个很好的测试基准。单模态和多模态的说话人分割聚类算法同时得到了实验。与单模态的方法相比，多模态算法在少说话人的条件下，仅仅得到了温和的提升，在多说话人的条件下甚至变得更差。这说明多模态说话人分割聚类算法的研究还足够的提升空间。

1.介绍

说话人分类将音频分成不同的语音片段，并通过相同的说话人身份将它们聚类，解决了“谁在什么时候说话”的问题。演讲者分类有多种应用，例如电话销售、法庭记录和会议对话。

尽管纯音频说话人分类在许多场景中表现良好，但在嘈杂或重叠语音条件的现实世界环境中会恶化。这些问题很难以单一方式解决。同时，由于说话状态混乱，特别是当人们打哈欠或吃东西时，仅视觉说话者分类不能很好地将谈话时间分类。

由于多模态的互补性和冗余性，多模态说话人二值化同时利用了音频和视觉特征。但是现在它缺乏类似于计算机视觉中的ImageNet的自然场景下收集的数据集。当前的多模态说话人分类数据集仅限于电影、会议和新闻辩论等狭窄场景，这阻碍了多模态说话人分类的广泛应用。因此，我们决定为学术界构建一个自然场景下收集的多模态说话人分类数据集 MSDWild。MSDWild包含3700个带有95个标记小时的视频片段。 MSDWild的主要特点总结如下：

1.多模态。最先进的说话人分类数据集主要使用纯音频模式。我们的数据集提供了额外的视觉模式，以提高说话者二值化性能。

2.覆盖多种场景。场景包含日常聊天、采访、会议和电视节目。出现的站点包括家庭、工作室、汽车、在线、街道等。这些站点为多模态说话者分类提供了全面的测试。

3.多种语言。最先进的说话者分类数据集使用英语作为他们的主要语言。缺乏各种语言的数据集。我们的数据集涵盖了二十多种语言。

4.高度重叠的演讲。在现实世界的多说话者场景中，自然存在高度重叠的语音，我们的数据集中涵盖了这些语音。

在本文中，我们首先描述了我们的数据集收集管道。管道中的大多数阶段都需要手动操作。然后我们详细展示了数据集的指标，包括标记比率、说话者数量、重叠率等。此外，根据说话者数量，我们将数据集分为两部分：少说话者和多说话者集。少话人集的说话人数为2～4人，多人话人话人数为5～11人，详细划分见4.1节。最后，我们对纯音频和视听方法进行了一些实验，并报告了二值化错误率(DER)的结果。使用X-vectors 说话人嵌入方法在RPNSD上训练纯音频方法。在视听方法中，我们设计了两种方法来探索融合双模态。一种是通过人脸识别检测说话人数量来指导说话人嵌入聚类。另一个是通过聚类相同身份的轨迹对TalkNet[14]进行修改的管道。与我们的纯音频方法相比，实验表明，在少说话者测试集上，视听方法的DER分别提高了2.21％和4.72％。然而，在具有视听方法的多人通话装置中仍然存在未解决的问题。

2.相关作品

说话人分类使用语音活动检测(SAD)拆分音频，并通过相同的方式将它们聚类为同质片段说话人身份。一般来说，说话人二值化包含用于分割、嵌入提取、聚类和可选的重新分割的SAD。Pyannote是一个用于说话人分类的Python工具包，并有一个完整的说话人分类管道供我们测试各种算法。我们将使用Pyannote的内置算法来形成我们的基线。

通常，不同的说话人分类阶段是单独优化的，不能很好地处理重叠的语音。最近，受Faster R-CNN[16]的启发，基于区域提议网络的说话人二值化(RPNSD)方法将分割、嵌入提取和重新分割合二为一，优雅地解决了重叠问题。由于我们数据集中的高重叠语音比率，我们采用基于 RPNSD的管道作为我们的纯音频方法。

最近在多模态说话人分类方面取得了一些重大进展。Wonjune Kang 等使用带有空间信息的d-vector来提取段嵌入并对这些嵌入执行谱聚类。为了融合音频和视觉特征，他们还测试了几种融合策略，包括在AMI 会议语料库上的早期和晚期融合。丁一帆等提出了一种自监督的音视频同步学习方法。该方法在双流网络结构中使用协调学习进行训练，并通过移动音轨自动生成负数据。此方法仅使用正面面向相机的视频片段，而我们的数据集包含不同角度的偏航和俯仰。

视听主动说话者检测算法识别说话人脸是否与相应的音轨相关。 SyncNet使用对比损失和双流结构联合训练音频和视觉。TalkNet以自注意力的方式连接由视觉编码器和音频编码器生成的特征。就F1分数而言，TalkNet在Columbia ASD数据集上的表现优于SyncNet 3.4％。需要注意的是，视听主动说话人检测只告诉一个片段中的说话分数，不能根据说话人身份对片段进行聚类。在我们的实验中，我们将通过人脸识别通过轨迹聚类来修改TalkNet的管道，这被认为是我们的视听方法之一。

存在一些视听数据集，它们与我们提出的数据集非常相关。AMI会议语料库是一个视听会议记录数据集。数据集总长度为100小时，所有音频均由8个麦克风阵列以英文录制。AMI会议语料库记录在受限环境中，而我们的数据集是使用多种语言在自然场景下收集的。AVA-ActiveSpeaker数据集是一个用于主动说话人检测的视听数据集。这个数据集有大约38小时的面部轨迹和365万个标记帧，在音频和视觉上都很精确。AVA-ActiveSpeaker数据集主要从YouTube电影中收集。 VoxConverse提出了一个多媒体说话人分类数据集。VoxConverse的总时长约为64小时。VoxConverse构建了一个自动创建管道来过滤某些特定搜索关键字中的YouTube视频，并使用SyncNet作为其预处理方法。自动流水线方式采集省力，但SyncNet选择的视频可能会淹没数据集。这可能会导致数据集偏差。相比之下，我们的数据集是手动选择的，更接近自然场景。

3.数据收集

在本节中，我们将描述数据集的收集管道。

阶段1.搜索和下载视频。搜索视频，我们写了一些关键词，比如 VLog、会议、讨论等，这样我们更有可能找到有说话面孔的视频。但我们并不完全依赖这些关键字，也会搜索视频网站自动推荐的视频。在下载这些视频之前，我们会进一步检查这些视频是否至少有一个场景有两个说话人在说话。具有所有可见谈话面孔的视频是首选。为了提高语言的多样性，我们改变网站位置或使用谷歌翻译将这些英文关键词翻译成不同的语言，如泰语、韩语、日语、德语、葡萄牙语、阿拉伯语等。

阶段2.场景检测。第一阶段下载的视频，往往会结合多机位切换、视频片段拼接、异常速度播放等后期编辑，不是自然连续的场景。因此，我们使用PySceneDetect将视频拆分为单独的片段。每个视频片段都在同一场景下，无需快速更换场景。

阶段3.手动过滤。场景检测后，并非视频中的每个场景都满足我们的要求。可能仍然包含没有说话人、只有一个说话人或后期编辑的视频。我们手动挑选出这些视频，并保留至少有两个说话人在说话的视频。在这个阶段之后，视频片段已经满足了我们的需求。

阶段4.使用VIA Video Annotator手动标记。VIA Video Annotator 是一款手动视频标注软件，具有视频播放器和时间轴。我们为不同的说话者标记不同的时间线，并为每个语音持续时间添加时间段。忽略笑或唱歌时仅标记语音。此外，我们还将单个单词标记为“是”或“否”。

阶段5.双重检查。为了减少错误并提高标签质量，一个注释者检查另一个注释者的分类。验证标准后验。标记段和地面真实段之间的边界差异必须短于0.1秒。停顿时间超过0.25秒的演讲片段必须拆分并视为分开的部分。

阶段6.RTTM标签生成。在最后阶段，我们将VIA Video Annotator 生成的JSON文件转换为Rich Transcription Time Marked(RTTM)标签。RTTM格式文件记录了视频id、发言开始时间、发言时长、排队发言者的唯一标识。

4.数据集描述

我们将从两个方面介绍我们的数据集MSDWild：整体指标和数据集多样性。整体指标将给出我们数据集的详细统计概览。然后数据集的多样性显示了为什么我们的数据集在自然场景下收集的。

4.1.总体指标

MSDWild包含大约93个视频小时，其中95个标记小时。我们将这些视频分为两个主要部分：少说话人和多说话人集。发言者编号为2至 4的视频被用作少数发言者集，而发言者编号为5至11的视频被归类为多发言者集。多说话者集旨在验证一些极端情况，例如一群人的说话者分类。此外，少说话者集根据视频id分为开发集和测试集。开发集用于开发，测试集用于测试。

少语者开发、少语者测试和多语者集的视频数分别为2859、590和 251。对应的视频长度为73.79、11.21和8.11小时。由于语音重叠，标记的视频长度略长于总视频长度。

在少说话者开发和少说话者测试集中，说话人数量范围为2到4，平均值分别为2.62和2.32。

多人组中的发言者人数为5到11人，平均为5.83人，远大于前两组。

此外，我们从三个方面计算每个视频的最小值、平均值和最大值：标记时长、标记比率和重叠语音比率。标记的持续时间范围从最小20到最大1964秒。标注比例，标注时间占视频长度的比例，最小为51％，最大为335％。平均值大于100％，这意味着大部分视频时间是语音。

同时，三组的平均重叠率分别为11％、11％和20％，这是迄今为止多模态说话人分类数据集中最大的重叠率。详细的数据集指标列于图2 中。

图2示出了展示MSDWild数据集指标。其中，中英文对照如下：视频数量(#videos)。视频总时长(length(h))。以小时为单位，已标注的时长(lable(h))。以小时为单位，说话人的数量(#speakers)。单个视频的时长统计(labled(s)(最小/平均/最大，以秒为单位))。单个视频的标记时长占比(labled(％)(最小/平均/最大))。单个视频重叠时长占比(overlap(％)(最小/平均/最大比例，以百分比表示))我们的数据集分为三部分：2-4人开发集、2-4人测试集和5人以上测试集。

4.2.数据集多样性

我们的MSDWild数据集的多样性反映在各种对话类型、站点、语言、噪音类型和年龄中。类型包括聊天、采访、会议和电视节目。聊天类型的视频主要是指日常生活中的随意聊天，经常会被突然打断，而采访通常是正式的交谈，轮流交谈。具有会议类型的视频通常与一群人轮流交谈相结合，电视节目包含娱乐节目、电视购物和新闻辩论。

我们的数据集还涵盖了家庭、工作室、汽车、在线等各种发生的站点。特别是，家庭视频是指日常生活中有噪音的休闲环境中的录音，工作室是指在没有噪音的约束条件下的录音。我们的数据集还涵盖了多种语言，包括英语、中文、菲律宾语、印地语、阿拉伯语等。各种噪音类型，包括音乐、笑声、街道噪音和一些日常背景噪音，也出现在我们的数据集中。此外，还包括不同年龄的人，如儿童、青少年和成人。有关详细信息，请参见图3。其中，图3表示视频是在自然场景下搜集的。

图3-图5示出了MSDWild：自然场景下收集的多模态说话人分类数据集。图3表示申请人手动收集了大约3700个带有95个标记小时的视频片段。这些视频主要来自YouTube。在每个视频片段中，发言者编号范围从2到11不等，大多数发言者都展示了说话的面孔。图4示出了本申请实施例的数据集类型包括聊天、采访、会议和电视节目，并且这些类型可能出现在家里、工作室、汽车、在线、街道等不同的地方。图5示出了本申请实施例的数据集中涵盖了大约20种不同的语言。

图6示出了通过本申请的纯音频方法与VoxConverse数据集的比较。

5.实验

我们首先将我们的MSDWild数据集与VoxConverse进行比较，显示了我们数据集的难度。然后我们在我们的少说话者测试集上测试基线、音频和视听方法。最后，我们简要分析了多说话者集和重叠语音结果。

5.1.与VoxConverse的比较

我们在VoxConverse[12]测试集、我们的少说话者测试集和我们的多说话者集上报告了DER结果，如图6所示，通过我们的音频说话者二值化方法。纯音频方法将在第5.3节中描述。DER的结果分别为16.61％、 29.33％和43.96％。VoxConverse的DER与我们的DER之间的巨大性能差距表明我们的数据集更具挑战性。

图7示出了少说话者测试集在基线、纯音频和视听方法上的DER结果。基线是基于Pyannote的，纯音频方法是我们自己在RPNSD上训练的。Audio-visual(#speakers)和Audio-visual(Talknet)分别代表基于说话人编号和基于TalkNet的视听方法。MS、FA和SC表示漏检时间、虚警时间和说话人混淆时间占持续时间的百分比。DER表示二值化错误率，是MS、FA和SC的汇总。OL表示DER的重叠语音部分。

5.2.基线法

Pyannote是一个组织良好的说话人分类管道，非常方便我们测试各种说话人分类算法。我们使用Pyannote中的内置方法作为我们的基线，该方法在Dihard数据集上进行训练。我们使用Pyannote的管道和dia dihard的参数，并在我们的少说话者测试集上进行测试。基线DER为 38.78％。

5.3.纯音频方法

我们使用RPNSD说话者分类管道来训练我们的audioonly方法。首先，我们在VoxCeleb2上训练RPNSD的说话人嵌入提取器X-vectors。由于各种噪声类型和室内谈话，我们还使用加性噪声和房间脉冲响应作为数据增强。训练损失使用附加角边际损失和Softmax损失。其次，谱聚类用于说话人嵌入聚类。第三，我们通过这种方法计算少说话者测试集的 DER。与基线相比，DER为29.33％，绝对改善9.45％。详见图7。

5.4.视听法

我们使用两种视听方法。一种是使用说话人编号来指导纯音频说话人嵌入聚类。另一种是通过TalkNet改进的主动说话者检测算法。

带有引导说话人编号的视听方法。从经验上看，说话人二值化中说话人嵌入聚类方法受先验说话人数量的影响很大。我们使用人脸检测方法获取每个视频帧期间的最大说话者数量，并将该数量用作超参数来指导纯音频频谱聚类。实验表明，与我们的纯音频方法相比，DER结果提高了 2.21％。

使用TalkNet管道的视听方法。TalkNet在VoxCeleb2上训练。通过掌握语音音素同步，TalkNet可以找到屏幕上谁在说话。但它不能在不同的人脸轨迹之间聚集说话人。

所以我们通过在每个音轨后添加人脸识别来修改TalkNet的管道。首先，从每个轨迹帧中均匀地裁剪面部图像。其次，使用Dib作为我们的人脸识别方法，从人脸图像中提取人脸嵌入。第三，计算每两个人脸轨迹之间的人脸嵌入相似度。相似度超过阈值的每个轨迹对被认为是相同的面部轨迹。最后，我们在我们的少说话者开发集上调整了Talknet的参数。 Talknet中通话状态的阈值为-0.4。然后我们在少说话者测试集上运行管道。这种视听方法的DER为24.61％。绝对改善为4.72％，其中说话人混淆的贡献最大。较低的说话人混淆百分比意味着视觉模式能够更准确地区分不同的说话人。详见图7。

图8示出了在基线、仅音频和视听方法上的多说话者集的DER结果。

5.5.多说话者集

多说话者集包含从5到11的说话者编号。我们还在我们的多说话者集上测试了上述四种算法。所有方法，尤其是基于TalkNet的方法，在我们的manytalker集合中都会恶化。TalkNet使用IoU跟踪作为其默认跟踪方法，随着人数的增长，跟踪IoU会变得一团糟。此外，人越多意味着人脸图像的分辨率越低，人脸方向的范围越广，这会影响人脸识别。所有结果都报告在图8中。

5.6.重叠语音

图7和图8中重叠的DER列表明，除了基于TalkNet的视听方法之外，所有方法在重叠语音上的表现几乎相同。基于TalkNet的视听方法将重叠语音部分的DER在少说话者测试集中提高了2.14％，在多说话者集中提高了1.31％。我们还发现，大多数重叠部分占据了总DER结果的三分之一以上，这表明说话人分类与重叠语音仍然是一项具有挑战性的工作。

6.结论

在本文中，本申请实施例提出了MSDWild：一种新颖的多模态说话人分类数据集。数据集涵盖各种场景、多种语言和高度重叠的语音。我们描述了我们的数据集指标并将数据集分为两部分：少说话者和多说话者集。我们还进行纯音频和视听实验。说话人编号、说话人脸同步和面部聚类等视觉模态信息用作纯音频说话人分类的补充。实验表明，视听方法在说话人分类方面具有很大的潜力。我们的MSDWild数据集将公开发布。

在另一些实施例中，本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的声纹聚类方法和系统；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

获取与音频信息同步的人脸检测信息；

基于所述人脸检测信息确定人数信息；

基于所述人数信息辅助所述音频信息进行声纹聚类。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据声纹聚类方法和系统的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至声纹聚类方法和系统。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行上述任一项声纹聚类方法和系统。

图9是本发明实施例提供的电子设备的结构示意图，如图9所示，该设备包括：一个或多个处理器910以及存储器920，图9中以一个处理器 910为例。声纹聚类方法和系统的设备还可以包括：输入装置930和输出装置940。处理器910、存储器920、输入装置930和输出装置940可以通过总线或者其他方式连接，图9中以通过总线连接为例。存储器920为上述的非易失性计算机可读存储介质。处理器910通过运行存储在存储器 920中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例声纹聚类方法和系统。输入装置930可接收输入的数字或字符信息，以及产生与通讯补偿装置的用户设置以及功能控制有关的键信号输入。输出装置940可包括显示屏等显示设备。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

作为一种实施方式，上述电子设备应用于声纹聚类方法和系统中，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：

获取与音频信息同步的人脸检测信息；

基于所述人脸检测信息确定人数信息；

基于所述人数信息辅助所述音频信息进行声纹聚类。

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID和 UMPC设备等，例如iPad。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种声纹聚类方法，用于多音频的说话人日志，包括：

获取与音频信息同步的人脸检测信息；

基于所述人脸检测信息确定人数信息；

基于所述人数信息辅助所述音频信息进行声纹聚类。

2.根据权利要求1所述的方法，其中，所述基于所述人脸检测信息确定人数信息包括：

获取每一帧人脸检测信息中的人脸数量；

基于所述每一帧的人脸数量中的最大人脸数量确定人数信息。

3.根据权利要求1所述的方法，其中，在所述获取与音频信息同步的人脸检测信息之前，还包括：

确定所述音频信息中包含说话人音频的说话段；

对所述说话段进行声纹特征提取得到声纹特征。

4.根据权利要求3所述的方法，其中，所述基于所述人数信息辅助所述音频信息进行声纹聚类包括：

基于所述人数信息辅助声纹聚类算法对所述声纹特征进行处理，其中，所述声纹聚类算法为谱聚法；

输出所述声纹聚类算法的聚类结果。

5.一种声纹聚类方法，用于多音频的说话人日志，包括：

获取与音频信息同步的人脸检测信息；

对人脸在所述人脸检测信息中的坐标位置信息进行跟踪；

将跟踪得到的对应于同一个人的人脸进行聚类得到聚类结果；

基于所述音频信息和所述聚类结果进行说话人同步性检测。

6.根据权利要求1所述的方法，其中，所述基于所述音频信息和所述聚类结果进行说话人同步性检测包括：

基于从所述音频信息中得到的声纹特征和所述聚类结果中的唇动信息的同步关系判断某个说话人是否在说话。

7.根据权利要求6所述的方法，其中，在所述基于从所述音频信息中得到的声纹特征和所述聚类结果中的唇动信息的同步关系判断某个说话人是否在说话之后，所述方法还包括：

将判断的结果转换成说话人日志的特定格式输出。

8.根据权利要求5-7中任一项所述的方法，其中，使用dlib进行人脸检测，使用交并比进行人脸跟踪。

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至8任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至8任一项所述方法的步骤。