CN115881135A

CN115881135A - 说话人确定方法、装置、电子设备及存储介质

Info

Publication number: CN115881135A
Application number: CN202211576598.XA
Authority: CN
Inventors: 程婷
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2022-12-08
Filing date: 2022-12-08
Publication date: 2023-03-31

Abstract

本发明实施例提供的说话人确定方法、装置、电子设备及存储介质，包括，从待识别的视频文件中分离获取音频文件和图像文件；按照每个音频段对应的起止时间对音频文件进行音频切割，得到多个音频片段信息，以及对图像文件进行人脸识别，得到每个起止时间对应的人脸信息；对每个音频片段信息进行声纹特征提取，得到每个音频片段信息对应的声纹特征；基于人脸信息和声纹特征确定每个音频段对应的说话人。本发明通过人脸信息和声纹特征即能准确确定出每个音频段对应的说话人，无需通过建立声纹特征库检索比对确定说话人，大大降低了工作量、难度和局限性，有效提高了说话人确定的准确性和效率。

Description

说话人确定方法、装置、电子设备及存储介质

技术领域

本发明实施例涉及语音识别技术领域，尤其涉及一种说话人确定方法、装置、电子设备及存储介质。

背景技术

声纹识别，也称为说话人识别，可以通过计算机语音处理技术，对语音信号进行分析处理，确定说话人身份。

现有，是基于预先建立的声纹特征库经过声纹检索比对确定出说话人的，具体为，提前提取视频中每个人物的声纹特征，从而建立声纹特征库，然后提取视频中的每个音频段(比如，每句话)对应的声纹特征，进而，将提取到的每个声纹特征逐一与声纹特征库中的每个人物的声纹特征进行比对，从声纹特征库中找到最为相似的声纹特征，将该声纹特征对应的人物，确定为音频段的说话人，这种方式需要将说话人的声纹特征必须提前采集入库，工作量比较繁琐、复杂，其次，同一个人物，可能会为多个不同人物角色配音，且同一人物在不同情绪、音量下，场景下，声纹特征表现变化也较大，综合众多因素，导致声纹特征库建立的难度、局限性，致使降低了说话人确定的准确性和效率。

发明内容

鉴于此，本发明实施例提供一种说话人确定方法、装置、电子设备及存储介质，能够有效提高说话人确定的准确性和效率。

第一方面，本发明实施例提供一种说话人确定方法，其中，该方法包括：

从待识别的视频文件中分离获取音频文件和图像文件；

按照每个音频段对应的起止时间对音频文件进行音频切割，得到多个音频片段信息，以及对图像文件进行人脸识别，得到每个起止时间对应的人脸信息；

对每个音频片段信息进行声纹特征提取，得到每个音频片段信息对应的声纹特征；

基于人脸信息和声纹特征确定每个音频段对应的说话人。

在一个可能的实施方式中，对每个音频片段信息进行声纹特征提取，得到每个音频片段信息对应的声纹特征，包括：

将每个音频片段信息输入至预先训练好的声纹识别模型中，声纹识别模型输出每个音频片段信息对应的声纹特征。

在一个可能的实施方式中，基于人脸信息和声纹特征确定每个音频段对应的说话人，包括：

对多个声纹特征进行聚类处理，得到多个聚类类别；

针对每个聚类类别，统计聚类类别中对应的目标起止时间内出现的目标人脸信息的出现时长；

将出现时长超过预设时长阈值的目标人脸信息对应的目标对象与聚类类别进行关联。

在一个可能的实施方式中，该方法还包括：

查询每个聚类类别是否关联多个目标对象；

将关联多个目标对象的聚类类别确定为第一聚类类别，将关联一个目标对象的聚类类别确定为第二聚类类别；

在第二聚类类别中查找是否与第一聚类类别关联同一特定目标对象的目标第二聚类类别；

在查找到目标第二聚类类别的情况下，计算第一聚类类别的第一聚类中心特征与目标第二聚类类别的第二聚类中心特征的聚类相似度；

在聚类相似度大于预设聚类相似度阈值的情况下，将特定目标对象与第一聚类类别关联。

在一个可能的实施方式中，该方法还包括：

在聚类相似度小于或等于预设聚类相似度阈值，且，第一聚类类别关联的目标对象包括特定目标对象和非特定目标对象的情况下，将非特定目标对象与第一聚类类别关联。

在一个可能的实施方式中，在将关联多个目标对象的聚类类别确定为第一聚类类别，将关联一个目标对象的聚类类别确定为第二聚类类别之后，该方法还包括：

基于第一聚类类别包括的声纹特征计算特征相似度均值；

在特征相似度均值大于预设相似度均值的情况下，执行在第二聚类类别中查找是否与第一聚类类别关联同一特定目标对象的目标第二聚类类别的步骤。

在一个可能的实施方式中，基于第一聚类类别包括的声纹特征计算特征相似度均值，包括：

将第一聚类类别包括的声纹特征两两计算特征相似度；

将多个特征相似度进行均值计算，得到特征相似度均值。

在一个可能的实施方式中，该方法还包括：

将每一声纹特征作为第一声纹特征，针对第一声纹特征均执行以下操作：

计算第一声纹特征与第一声纹特征所在的第三聚类类别中的各个第二声纹特征的第一特征相似度；其中，第二声纹特征不为第一声纹特征；

统计超过预设相似度阈值的第一特征相似度的数量；

如果数量大于预设数量阈值，确定第一声纹特征所在聚类类别为第三聚类类别；

如果数量小于或等于预设数量阈值，基于第一声纹特征对应的第一起止时间确定第一声纹特征所在的第四聚类类别。

在一个可能的实施方式中，基于第一声纹特征对应的第一起止时间确定第一声纹特征的第四聚类类别，包括：

获取第一起止时间的起点时刻和/或终止时刻；

基于起点时刻和/或终止时刻确定查找时长范围；

在查找时长范围内查找第三声纹特征；其中，第三声纹特征对应的起止时间在查找时长范围内，且第三声纹特征不为第一声纹特征；

计算第一声纹特征与各个第三声纹特征的第二特征相似度；

将最大的第二特征相似度对应的第三声纹特征所在的聚类类别确定为第一声纹特征的第四聚类类别。

在一个可能的实施方式中，基于起点时刻和/或终止时刻确定查找时长范围，包括：

以起点时刻为起点，向小于起点时刻的时刻方向截取第一预设时长的第一时长范围，和/或，以终止时刻为起点，向大于终止时刻的时刻方向截取第二预设时长的第二时长范围；

将第一时长范围和/或第二时长范围确定为查找时长范围。

第二方面，本发明实施例提供一种说话人确定装置，其中，该装置包括：

分离模块，用于从待识别的视频文件中分离获取音频文件和图像文件；

切割识别模块，用于按照每个音频段对应的起止时间对音频文件进行音频切割，得到多个音频片段信息，以及对图像文件进行人脸识别，得到每个起止时间对应的人脸信息；

提取模块，用于对每个音频片段信息进行声纹特征提取，得到每个音频片段信息对应的声纹特征；

确定模块，用于基于人脸信息和声纹特征确定每个音频段对应的说话人。

第三方面，本发明实施例提供一种电子设备，其中，包括：处理器和存储器，处理器用于执行存储器中存储的说话人确定程序，以实现上述的说话人确定方法。

第四方面，本发明实施例提供一种存储介质，其中，存储介质存储有一个或者多个程序，一个或者多个程序可被一个或者多个处理器执行，以实现上述的说话人确定方法。

附图说明

图1为本发明实施例提供的一种说话人确定方法的实施例流程图；

图2为本发明实施例提供的另一种说话人确定方法的实施例流程图；

图3为本发明实施例提供的另一种说话人确定方法的实施例流程图；

图4为本发明实施例提供的一个时间轴的示意图；

图5为本发明实施例提供的一种说话人确定装置的结构示意图；

图6为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为便于对本发明实施例的理解，下面将结合附图以具体实施例做进一步的解释说明，实施例并不构成对本发明实施例的限定。

本发明实施例提供一种说话人确定方法，参见图1，为本发明实施例提供的一种说话人确定方法的实施例流程图。如图1所示，该流程可包括以下步骤：

步骤101，从待识别的视频文件中分离获取音频文件和图像文件；

可以通过多媒体视频处理工具FFmpeg(Fast Forward Mpeg)从视频文件中分离出音频文件以及图像文件。

通常，如果分离出的音频文件为压缩文件，则需要对该压缩文件进行解压处理，以得到无压缩的WAV(波形声音文件)音频文件或无压缩PCM(Pulse Code Modulation，脉冲编码调制)音频文件，无压缩的音频文件能更好提取说话人的声纹特征，有助于后续声纹特征聚类，从而提高说话人确定效果。

在本实施例中，视频文件为影视剧视频文件、演讲视频文件等带时间轴的视频文件，分离的音频文件与图像文件的时间向对应，即音频和图像在时间上一一对齐。

步骤102，按照每个音频段对应的起止时间对音频文件进行音频切割，得到多个音频片段信息，以及对图像文件进行人脸识别，得到每个起止时间对应的人脸信息；

音频段为说话人说完一句话产生的音频，音频段对应的起止时间即为说话人说完一句话的起始时刻和终止时刻，对于音频文件来说，可以通过声纹跟踪技术对整个音频文件按照每个音频段对应的起止时间进行音频切割，得到多个音频片段信息。

对于图像文件来说，可以对其包括的图像帧进行人脸识别，通过人脸特征确定图像文件包括哪些说话人。作为一种示例，可以按照每个音频段对应的起止时间，从图像文件中抽取图像帧，并通过人脸识别技术确定各在每个起止时间内出现的人脸信息。

步骤103，对每个音频片段信息进行声纹特征提取，得到每个音频片段信息对应的声纹特征；

在实际使用时，可以将每个音频片段信息输入至预先训练好的声纹识别模型中，声纹识别模型输出每个音频片段信息对应的声纹特征。

通常，上述声纹识别模型包括分类层和多层级联的特征提取网络层，该声纹识别模型可通过以下步骤训练得到：

S1，获取样本集，样本集包括多个样本音频和各样本音频对应的声纹标签；

S2，对于各样本音频，由声纹识别模型中的各特征提取网络层基于样本音频逐层进行特征提取，得到各特征提取网络层输出的特征信息；

S3，由分类层分别根据各特征提取网络层输出的特征信息进行声纹分类，得到各特征提取网络层所输出特征信息对应的样本声纹分类结果；

S4，根据各特征提取网络层所输出特征信息对应的样本声纹分类结果、样本音频对应的声纹标签、各特征提取网络层对应的目标计算量和预设的损失函数，分别计算得到各特征提取网络层针对样本音频的损失值；

其中，一特征提取网络层对应的目标计算量等于特征提取网络层的计算量与特征提取网络层之前的特征提取网络层的计算量之和；

S5，根据各特征提取网络层针对样本音频的损失值，计算得到目标损失值；

S6，根据目标损失值反向调整声纹识别模型的参数，直至达到模型训练结束条件。

步骤104，基于人脸信息和声纹特征确定每个音频段对应的说话人。

由于人脸信息和声纹特征都属于说话人的特有特征，可以说是具有专一性的标识特征，因此，本发明实施例提供的说话人确定方法，能够通过人脸信息和声纹特征准确确定出每个音频段对应的说话人，无需通过建立声纹特征库检索比对确定说话人，大大降低了工作量、难度和局限性，有效提高了说话人确定的准确性和效率。

参见图2，为本发明实施例提供的另一种说话人确定方法的实施例流程图。该图2所示流程在上述图1所示流程的基础上，描述如何基于人脸信息和声纹特征确定每个音频段对应的说话人。如图2所示，该流程可包括以下步骤：

步骤201，从待识别的视频文件中分离获取音频文件和图像文件；

步骤202，按照每个音频段对应的起止时间对音频文件进行音频切割，得到多个音频片段信息，以及对图像文件进行人脸识别，得到每个起止时间对应的人脸信息；

步骤203，对每个音频片段信息进行声纹特征提取，得到每个音频片段信息对应的声纹特征；

本实施例中的步骤201-203的过程可参见上述步骤101-103的过程，在此不进行赘述。

步骤204，对多个声纹特征进行聚类处理，得到多个聚类类别；

在本实施例中，可利用谱聚类、均值漂移聚类、凝聚层次聚类等聚类方法对声纹特征进行聚类处理，以使得特征相近的声纹特征归为一个聚类类别，从而可将一个个的聚类类别作为一个整体单元确定该整体单元的说话人，即可以实现对声纹特征相近的多个音频段同时确定说话人，大大提高了多个音频段确定说话人的处理效率。

步骤205，针对每个聚类类别，统计聚类类别中对应的目标起止时间内出现的目标人脸信息的出现时长；

由于每个聚类类别中包括多个声纹特征，所以，每个聚类类别对应多个目标起止时间，该目标起止时间即为每个声纹特征的音频段对应的起止时间，比如，聚类类别1中的声纹特征有声纹特征1和声纹特征2，其中，声纹特征1的音频段对应的目标起止时间为5分18秒至5分30秒，声纹特征2的音频段对应的目标起止时间为8分20秒至8分40秒，则聚类类别对应的目标起止时间为5分18秒至5分30秒和8分20秒至8分40秒。

续接前例，比如在5分18秒至5分30秒和8分20秒至8分40秒内出现的目标人脸信息包括目标人脸信息a、目标人脸信息b和目标人脸信息c，统计这三个目标人脸信息在上述5分18秒至5分30秒和8分20秒至8分40秒内总共出现的时长。

步骤206，将出现时长超过预设时长阈值的目标人脸信息对应的目标对象与聚类类别进行关联；

在本实施例中，出现时长超过预设时长阈值的目标人脸信息认为是当前聚类类别中声纹特征对应的说话人。

续接前例，假设目标人脸信息a的出现时长为30秒，目标人脸信息b的出现时长为20秒，目标人脸信息c的出现时长为10秒，设定预设时长阈值为25秒，则将目标人脸信息a对应的目标对象A与聚类类别进行关联，即确定出该聚类类别包括的每个声纹特征对应的音频段的说话人为上述目标对象。

上述预设时长阈值可以根据实际需要进行设置，在此不进行限定，并且可以理解的是，上述预设时长阈值越大，与聚类类别关联的目标对象越准确，即确定出音频段的说话人的准确率也就越高。

在实际使用时，可能超过预设时长阈值的目标人脸信息有多个，则多个目标人脸信息分别对应的目标对象均与该聚类类别进行关联，即一个音频段可能确定出多个说话人，为了对关联的多个说话人进一步优化即排除掉不相关的说话人，因此，在执行完步骤206确定每个聚类类别关联的目标对象后，还需要执行步骤207，以确定每个聚类类别是否关联到多个目标对象。

步骤207，查询每个聚类类别是否关联多个目标对象；

如果查询到每个聚类类别只关联到一个目标对象，则无需执行步骤208至步骤211，说明每个聚类类别包括声纹特征对应的音频段的说话人是唯一确定的，如果多个聚类类别中查询到有一个或多个聚类类别均关联了多个目标对象，则需要执行步骤208至步骤211，以剔除关联不正确的目标对象。

步骤208，将关联多个目标对象的聚类类别确定为第一聚类类别，将关联一个目标对象的聚类类别确定为第二聚类类别；

通常，关联多个目标对象的第一聚类类别可能存在聚类质量不好的情况，因此，需要先检测第一聚类类别的聚类质量好坏，在聚类质量好的情况下，在进行关联目标对象剔除操作，如果聚类质量不好则放弃第一聚类类别，即不对该第一聚类类别进行目标对象的关联。

聚类质量的好坏可以通过特征相似度均值进行衡量，具体确定第一聚类类别质量好坏的过程为：基于第一聚类类别包括的声纹特征计算特征相似度均值；在特征相似度均值大于预设相似度均值的情况下，执行在第二聚类类别中查找是否与第一聚类类别关联同一特定目标对象的目标第二聚类类别的步骤。

其中，特征相似度均值的计算过程为：将第一聚类类别包括的声纹特征两两计算特征相似度；将多个特征相似度进行均值计算，得到特征相似度均值。

在本实施例中，如果特征相似度均值大于预设相似度均值，说明第一聚类类别的聚类质量没有问题，如果特征相似度均值小于或等于预设相似度均值，说明第一聚类类别的聚类质量差，无需对该第一聚类类别进行目标对象的关联。其中，预设相似度均值可以根据实际需要进行设置，在此不进行限定。

步骤209，在第二聚类类别中查找是否与第一聚类类别关联同一特定目标对象的目标第二聚类类别；

本步骤的目的是为了确定第一聚类类别关联的多个目标对象是否具有参考目标对象，即在第二聚类类别关联的目标对象中是否存在同一特定目标对象。

比如，第二聚类类别与关联的目标对象对应关系为：聚类类别1-目标对象A，聚类类别2-目标对象B；

第一聚类类别与关联的目标对象对应关系为：聚类类别4-{目标对象A，目标对象D}，聚类类别5-{目标对象E，目标对象F}，聚类类别6-{目标对象B，目标对象D、目标对象E}。

由上可知，聚类类别4与聚类类别1均关联到了同一特定目标对象A，则将聚类类别1确定为聚类类别4的目标第二聚类类别，聚类类别6与聚类类别2均关联到了同一特定目标对象B，则将聚类类别2确定为聚类类别6的目标第二聚类类别，由于聚类类别5关联的目标对象E和目标对象F均没有找到参考目标对象，即与目标对象A和目标对象B不为同一目标对象，所以，在本实施例中，也不对聚类类别5进行目标对象的关联，即将聚类类别5进行剔除。

步骤210，在查找到目标第二聚类类别的情况下，计算第一聚类类别的第一聚类中心特征与目标第二聚类类别的第二聚类中心特征的聚类相似度；

聚类中心特征是指当前聚类类别中包括的声纹特征的均值，比如，聚类类别中包括100个声纹特征，每个声纹特征是N维特征向量，例如256维。那么，聚类中心特征，就这100个256维特征向量的均值。

在本实施例中，可基于第一聚类中心特征和第二聚类中心特征计算余弦相似度，将该余弦相似度作为第一聚类类别与第二聚类类别的聚类相似度，在实际使用时，除了计算余弦相似度之外，不限于计算皮尔逊相关系数、欧几里得距离等作为聚类相似度，以表征第一聚类类别与第二聚类类别的相似程度。

步骤211，在聚类相似度大于预设聚类相似度阈值的情况下，将特定目标对象与第一聚类类别关联。

如果通过步骤210计算出的聚类相似度大于预设聚类相似度阈值，说明第一聚类类别的类别特征与第二聚类类别的类别特征相似，则可以将特定目标对象作为第一聚类类别中声纹特征对应的音频段的说话人，比如，聚类类别4与聚类类别1计算出的聚类相似度大于预设聚类相似度阈值，说明聚类类别4的类别特征与聚类类别1的类别特征相似，可以将目标对象D剔除，保留目标对象A，以将目标对象A作为唯一关联对象与聚类类别4进行关联，从而可以得知，聚类类别4中包括声纹特征对应的音频段的说话人为目标对象A。

而在聚类相似度小于或等于预设聚类相似度阈值，且，第一聚类类别关联的目标对象包括特定目标对象和非特定目标对象的情况下，将非特定目标对象与第一聚类类别关联。

在本实施例中，非特定目标对象的数量唯一，即在第一聚类类别中关联了至少一个特定目标对象和一个非特定目标对象，在第一聚类类别与至少一个目标第二聚类类别计算聚类相似度后，通过与预设聚类相似度阈值的比较，得知至少一个聚类相似度均小于或等于预设聚类相似度阈值，则将唯一的非特定目标对象确定为第一聚类类别中声纹特征对应的音频段的说话人。

比如，聚类类别4与聚类类别1计算出的聚类相似度小于或等于预设聚类相似度阈值，说明聚类类别4的类别特征与聚类类别1的类别特征不相似，可以将目标对象A剔除，保留目标对象D，以将目标对象D作为唯一关联对象与聚类类别4进行关联，从而可以得知，聚类类别4中包括声纹特征对应的音频段的说话人为目标对象D。

但是也存在聚类类别6这种关联情况，在聚类类别6与聚类类别2计算出的聚类相似度大于预设聚类相似度阈值的情况下，将目标对象B作为唯一关联对象与聚类类别6进行关联，当计算出的聚类相似度小于或等于预设聚类相似度阈值的情况下，则将目标对象B进行剔除，剔除后由于关联对象还包括目标对象D和目标对象E，在聚类类别1和聚类类别2中均没有与其向匹配的特定目标对象，在本实施例中，将聚类类别6进行舍弃，也不对聚类类别6进行目标对象的关联，即将聚类类别6进行剔除。

上述预设聚类相似度阈值可以根据实际需求进行设置，在此同样不进行限定。

本申请实施例提供的说话人确定方法，在聚类类别关联多个目标对象的情况下，能够基于聚类类别的聚类中心特征计算出的聚类相似度与预设聚类相似度阈值的比较，进行关联错误目标对象的剔除，从而能够保证关联的目标对象的唯一性，进而保证确定说话人的准确性。

为了保证音频段确定说话人的准确性，在关联完目标对象之后，还需要检测每个声纹特征聚类的正确性，参见图3，为本发明实施例提供的另一种说话人确定方法的实施例流程图，如图3所示，该流程可包括以下步骤：

步骤301，从待识别的视频文件中分离获取音频文件和图像文件；

步骤302，按照每个音频段对应的起止时间对音频文件进行音频切割，得到多个音频片段信息，以及对图像文件进行人脸识别，得到每个起止时间对应的人脸信息；

步骤303，对每个音频片段信息进行声纹特征提取，得到每个音频片段信息对应的声纹特征；

步骤304，对多个声纹特征进行聚类处理，得到多个聚类类别；

步骤305，针对每个聚类类别，统计聚类类别中对应的目标起止时间内出现的目标人脸信息的出现时长；

步骤306，将出现时长超过预设时长阈值的目标人脸信息对应的目标对象与聚类类别进行关联；

本实施例中的步骤301-306的过程可参见上述步骤201-206的过程，在此不进行赘述。

步骤307，将每一声纹特征作为第一声纹特征，针对第一声纹特征均执行步骤308至步骤311的操作：

步骤308，计算第一声纹特征与第一声纹特征所在的第三聚类类别中的各个第二声纹特征的第一特征相似度；

其中，第二声纹特征不为第一声纹特征，即第二声纹特征为除第一声纹特征的其他声纹特征。

计算出的第一特征相似度可以为余弦相似度、皮尔逊相关系数、欧几里得距离等相似度，在此不进行限定。

步骤309，统计超过预设相似度阈值的第一特征相似度的数量；

其中，预设相似度阈值可以根据实际需求进行设置，在此不进行限定。

步骤310，如果数量大于预设数量阈值，确定第一声纹特征所在聚类类别为第三聚类类别；

如果数量大于预设数量阈值，说明第一声纹特征与大多数的第二声纹特征的特征相似，此第一声纹特征大概率属于当前所在的第三聚类类别，由此可知第一声纹特征聚类正确，进一步说明第一声纹特征的音频段的说话人为第三聚类类别关联的目标对象。

步骤311，如果数量小于或等于预设数量阈值，基于第一声纹特征对应的第一起止时间确定第一声纹特征所在的第四聚类类别。

如果数量大于预设数量阈值，说明第一声纹特征与大多数的第二声纹特征的特征不相似，此第一声纹特征大概率不属于当前所在的第三聚类类别，由此可知第一声纹特征聚类不正确，因此，需要重新对其进行聚类以确定第一声纹特征应属的聚类类别。

具体确定第一声纹特征所在的第四聚类类别的过程可由步骤A1至步骤A5实现：

步骤A1，获取第一起止时间的起点时刻和/或终止时刻；

步骤A2，基于起点时刻和/或终止时刻确定查找时长范围；

通常，第一声纹特征的说话人在查找时长范围内说话的概率比较大，因此，在该查找时长范围内大概率找到与第一声纹特征的特征较为相似的声纹特征，以进一步确定第一声纹特征应属的第四聚类类别。

其中，具体确定查找时长范围的过程为：以起点时刻为起点，向小于起点时刻的时刻方向截取第一预设时长的第一时长范围，和/或，以终止时刻为起点，向大于终止时刻的时刻方向截取第二预设时长的第二时长范围；将第一时长范围和/或第二时长范围确定为查找时长范围。

为了便于理解，图4示出了一个时间轴的示意图，如图4所示，该时间轴的总共时长为10分钟，说明视频文件的总共时长为10分钟，由图4可知，越往右时刻数值越大，在本实施例中，以第一声纹特征对应的音频段的第一起止时间的起点时刻为4分钟，终止时刻为5分钟为例进行说明，设定第一预设时长和第二预设时长均为1分钟，则截取的第一时长范围为3分钟-4分钟，第二时长范围为5分钟-6分钟，则查找时长范围即为3分钟-4分钟和5分钟-6分钟。

在实际使用时，也可以只基于起点时刻确定查找时长范围，续接前例，则确定出的查找时长范围为3分钟-4分钟，如果只基于终止时刻确定出的查找时长范围为5分钟-6分钟。

上述第一预设时长和第二预设时长可以设置相同时长也可以设置不同时长，在此不进行限定。

步骤A3，在查找时长范围内查找第三声纹特征；

其中，第三声纹特征对应的起止时间在查找时长范围内，且第三声纹特征不为第一声纹特征。

如果在查找时长范围内没找到第三声纹特征，则可以将第一声纹特征进行舍弃。

步骤A4，计算第一声纹特征与各个第三声纹特征的第二特征相似度；

步骤A5，将最大的第二特征相似度对应的第三声纹特征所在的聚类类别确定为第一声纹特征的第四聚类类别。

由上可知，如果第一声纹特征确定出了第四聚类类别，则第一声纹特征对应的音频段的说话人为第三声纹特征所在的聚类类别关联的目标对象。

本申请实施例提供的说话人确定方法，在聚类类别完成目标对象的关联之后，还需要进一步检测每个声纹特征聚类的正确性，以保证每个声纹特征关联的目标对象正确性，进而保证确定说话人的准确性。

对应于上述方法实施例，本实施例提供了一种说话人确定装置，参见图5所示的一种说话人确定装置的结构示意图，该装置包括：

分离模块51，用于从待识别的视频文件中分离获取音频文件和图像文件；

切割识别模块52，用于按照每个音频段对应的起止时间对音频文件进行音频切割，得到多个音频片段信息，以及对图像文件进行人脸识别，得到每个起止时间对应的人脸信息；

提取模块53，用于对每个音频片段信息进行声纹特征提取，得到每个音频片段信息对应的声纹特征；

确定模块54，用于基于人脸信息和声纹特征确定每个音频段对应的说话人。

图6为本发明实施例提供的一种电子设备的结构示意图，图6所示的电子设备500包括：至少一个处理器501、存储器502、至少一个网络接口504和其他用户接口503。电子设备500中的各个组件通过总线系统505耦合在一起。可理解，总线系统505用于实现这些组件之间的连接通信。总线系统505除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图6中将各种总线都标为总线系统505。

其中，用户接口503可以包括显示器、键盘或者点击设备(例如，鼠标，轨迹球(trackball)、触感板或者触摸屏等。

可以理解，本发明实施例中的存储器502可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-OnlyMemory，ROM)、可编程只读存储器(ProgrammableROM，PROM)、可擦除可编程只读存储器(ErasablePROM，EPROM)、电可擦除可编程只读存储器(ElectricallyEPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(RandomAccessMemory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(StaticRAM，SRAM)、动态随机存取存储器(DynamicRAM，DRAM)、同步动态随机存取存储器(SynchronousDRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(DoubleDataRateSDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(SynchlinkDRAM，SLDRAM)和直接内存总线随机存取存储器(DirectRambusRAM，DRRAM)。本文描述的存储器502旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中，存储器502存储了如下的元素，可执行单元或者数据结构，或者他们的子集，或者他们的扩展集：操作系统5021和应用程序5022。

其中，操作系统5021，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序5022，包含各种应用程序，例如媒体播放器(MediaPlayer)、浏览器(Browser)等，用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序5022中。

在本发明实施例中，通过调用存储器502存储的程序或指令，具体的，可以是应用程序5022中存储的程序或指令，处理器501用于执行各方法实施例所提供的方法步骤。

上述本发明实施例揭示的方法可以应用于处理器501中，或者由处理器501实现。处理器501可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器501中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器501可以是通用处理器、数字信号处理器(DigitalSignalProcessor，DSP)、专用集成电路(ApplicationSpecific IntegratedCircuit，ASIC)、现成可编程门阵列(FieldProgrammableGateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器502，处理器501读取存储器502中的信息，结合其硬件完成上述方法的步骤。

可以理解的是，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(ApplicationSpecificIntegratedCircuits，ASIC)、数字信号处理器(DigitalSignalProcessing，DSP)、数字信号处理设备(DSPDevice，DSPD)、可编程逻辑设备(ProgrammableLogicDevice，PLD)、现场可编程门阵列(Field-ProgrammableGateArray，FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现，可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

本实施例提供的电子设备可以是如图6中所示的电子设备，可执行如图1-3中说话人确定方法的所有步骤，进而实现图1-3所示说话人确定方法的技术效果，具体请参照图1-3相关描述，为简洁描述，在此不作赘述。

本发明实施例还提供了一种存储介质(计算机可读存储介质)。这里的存储介质存储有一个或者多个程序。其中，存储介质可以包括易失性存储器，例如随机存取存储器；存储器也可以包括非易失性存储器，例如只读存储器、快闪存储器、硬盘或固态硬盘；存储器还可以包括上述种类的存储器的组合。

当存储介质中一个或者多个程序可被一个或者多个处理器执行，以实现上述说话人确定方法。

所述处理器用于执行存储器中存储的说话人确定程序，以实现说话人确定方法的步骤。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种说话人确定方法，其特征在于，所述方法包括：

从待识别的视频文件中分离获取音频文件和图像文件；

按照每个音频段对应的起止时间对所述音频文件进行音频切割，得到多个音频片段信息，以及对所述图像文件进行人脸识别，得到每个所述起止时间对应的人脸信息；

对每个所述音频片段信息进行声纹特征提取，得到每个所述音频片段信息对应的声纹特征；

基于所述人脸信息和所述声纹特征确定每个所述音频段对应的说话人。

2.根据权利要求1所述的方法，其特征在于，所述对每个所述音频片段信息进行声纹特征提取，得到每个所述音频片段信息对应的声纹特征，包括：

将每个所述音频片段信息输入至预先训练好的声纹识别模型中，所述声纹识别模型输出每个所述音频片段信息对应的声纹特征。

3.根据权利要求1所述的方法，其特征在于，所述基于所述人脸信息和所述声纹特征确定每个所述音频段对应的说话人，包括：

对多个所述声纹特征进行聚类处理，得到多个聚类类别；

针对每个所述聚类类别，统计所述聚类类别中对应的目标起止时间内出现的目标人脸信息的出现时长；

将所述出现时长超过预设时长阈值的目标人脸信息对应的目标对象与所述聚类类别进行关联。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

查询每个所述聚类类别是否关联多个目标对象；

将关联多个目标对象的所述聚类类别确定为第一聚类类别，将关联一个目标对象的所述聚类类别确定为第二聚类类别；

在第二聚类类别中查找是否与所述第一聚类类别关联同一特定目标对象的目标第二聚类类别；

在查找到所述目标第二聚类类别的情况下，计算所述第一聚类类别的第一聚类中心特征与所述目标第二聚类类别的第二聚类中心特征的聚类相似度；

在所述聚类相似度大于预设聚类相似度阈值的情况下，将所述特定目标对象与所述第一聚类类别关联。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

在所述聚类相似度小于或等于所述预设聚类相似度阈值，且，所述第一聚类类别关联的目标对象包括所述特定目标对象和非特定目标对象的情况下，将所述非特定目标对象与所述第一聚类类别关联。

6.根据权利要求4所述的方法，其特征在于，在所述将关联多个目标对象的所述聚类类别确定为第一聚类类别，将关联一个目标对象的所述聚类类别确定为第二聚类类别之后，所述方法还包括：

基于所述第一聚类类别包括的声纹特征计算特征相似度均值；

在所述特征相似度均值大于预设相似度均值的情况下，执行在第二聚类类别中查找是否与所述第一聚类类别关联同一特定目标对象的目标第二聚类类别的步骤。

7.根据权利要求6所述的方法，其特征在于，所述基于所述第一聚类类别包括的声纹特征计算特征相似度均值，包括：

将所述第一聚类类别包括的声纹特征两两计算特征相似度；

将多个所述特征相似度进行均值计算，得到特征相似度均值。

8.根据权利要求3所述的方法，其特征在于，所述方法还包括：

将每一声纹特征作为第一声纹特征，针对所述第一声纹特征均执行以下操作：

计算所述第一声纹特征与所述第一声纹特征所在的第三聚类类别中的各个第二声纹特征的第一特征相似度；其中，所述第二声纹特征不为所述第一声纹特征；

统计超过预设相似度阈值的第一特征相似度的数量；

如果所述数量大于预设数量阈值，确定所述第一声纹特征所在聚类类别为所述第三聚类类别；

如果所述数量小于或等于所述预设数量阈值，基于所述第一声纹特征对应的第一起止时间确定所述第一声纹特征所在的第四聚类类别。

9.根据权利要求8所述的方法，其特征在于，所述基于所述第一声纹特征对应的第一起止时间确定所述第一声纹特征的第四聚类类别，包括：

获取所述第一起止时间的起点时刻和/或终止时刻；

基于所述起点时刻和/或所述终止时刻确定查找时长范围；

在所述查找时长范围内查找第三声纹特征；其中，所述第三声纹特征对应的起止时间在所述查找时长范围内，且所述第三声纹特征不为所述第一声纹特征；

计算所述第一声纹特征与各个所述第三声纹特征的第二特征相似度；

将最大的所述第二特征相似度对应的第三声纹特征所在的聚类类别确定为所述第一声纹特征的第四聚类类别。

10.根据权利要求9所述的方法，其特征在于，所述基于所述起点时刻和/或所述终止时刻确定查找时长范围，包括：

以所述起点时刻为起点，向小于所述起点时刻的时刻方向截取第一预设时长的第一时长范围，和/或，以所述终止时刻为起点，向大于所述终止时刻的时刻方向截取第二预设时长的第二时长范围；

将所述第一时长范围和/或所述第二时长范围确定为查找时长范围。

11.一种说话人确定装置，其特征在于，所述装置包括：

切割识别模块，用于按照每个音频段对应的起止时间对所述音频文件进行音频切割，得到多个音频片段信息，以及对所述图像文件进行人脸识别，得到每个所述起止时间对应的人脸信息；

提取模块，用于对每个所述音频片段信息进行声纹特征提取，得到每个所述音频片段信息对应的声纹特征；

确定模块，用于基于所述人脸信息和所述声纹特征确定每个所述音频段对应的说话人。

12.一种电子设备，其特征在于，包括：处理器和存储器，所述处理器用于执行所述存储器中存储的说话人确定程序，以实现权利要求1～10中任一项所述的说话人确定方法。

13.一种存储介质，其特征在于，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现权利要求1～10中任一项所述的说话人确定方法。