CN115937726A

CN115937726A - 说话人检测方法、装置、设备及计算机可读存储介质

Info

Publication number: CN115937726A
Application number: CN202110605312.5A
Authority: CN
Inventors: 吴益灵; 李明磊; 李太松
Original assignee: Huawei Cloud Computing Technologies Co Ltd
Current assignee: Huawei Cloud Computing Technologies Co Ltd
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2023-04-07

Abstract

本申请提供了一种说话人检测方法、装置、设备及计算机可读存储介质，其中，该方法包括如下步骤：获取场景在目标时间段的视频数据和音频数据，其中，该场景包括至少一个人员；根据上述视频数据获得上述场景中人员的嘴部特征；根据上述音频数据获得上述场景中人员的音频特征；根据上述嘴部特征和上述音频特征，确定在目标时间段内上述场景中的说话人。利用该方法能够提高场景中的说话人检测的准确率。

Description

说话人检测方法、装置、设备及计算机可读存储介质

技术领域

本申请涉及人工智能(artificial intelligence,AI)领域，尤其涉及一种说话人检测方法、装置、设备及计算机可读存储介质。

背景技术

近年来，AI技术发展迅速，使得人与机器之间的交互也越来越多。其中，说话人检测作为人机交互过程中的一个重要环节，能够让机器检测出当前场景中正在说话的人。但目前，说话人检测的准确率并不高，因此，如何提高说话人检测的准确率是亟需解决的问题。

发明内容

本申请提供了一种说话人检测方法、装置、设备及计算机可读存储介质，能够提高说话人检测的准确率。

第一方面，本申请提供了一种说话人检测方法，该方法包括以下步骤：

获取场景在目标时间段的视频数据和音频数据，其中，该场景包括至少一个人员；

根据上述视频数据获得上述场景中人员的嘴部特征；

根据上述音频数据获得上述场景中人员的音频特征；

根据上述嘴部特征和上述音频特征，确定在目标时间段内上述场景中的说话人。

由于人在说话时不仅会发出声音，而且人的嘴巴也会发生相应的变化，因此，实施第一方面所描述的方法，即根据场景中人员的嘴部特征以及场景中人员的音频特征，确定在目标时间段内场景中的说话人，可以提高说话人检测的准确率。

在第一方面的一种可能的实现方式中，上述根据上述嘴部特征和上述音频特征，确定在目标时间段内上述场景中的说话人，包括：将上述嘴部特征与上述音频特征进行匹配，确定与上述音频特征匹配的嘴部特征对应的人员。当人员的嘴部特征与说话人的音频特征匹配时，说明该人员的嘴部变化与说话人发出的声音是一致的，那么可以认为该人员是说话人。相反的，当人员的嘴部特征与说话人的音频特征不匹配时，说明该人员的嘴部变化与说话人发出的声音不一致，那么可以认为该人员不是说话人。因此，实施上述实现方式可以确定场景中的说话人。在第一方面的一种可能的实现方式中，上述将上述嘴部特征与上述音频特征进行匹配，确定与上述音频特征匹配的嘴部特征对应的人员，包括：将上述嘴部特征与上述音频特征进行融合，得到多个第一融合特征；对每个第一融合特征进行分类处理，确定与上述音频特征匹配的嘴部特征，从而确定与上述音频特征匹配的嘴部特征对应的人员。上述实现方式中，通过第一融合特征的分类结果可以快速且准确地判断人员的嘴部特征与人员的音频特征是否匹配。

在第一方面的一种可能的实现方式中，上述方法还包括：根据上述视频数据获取上述场景中人员的人脸特征；上述根据上述嘴部特征和上述音频特征，确定在目标时间段内上述场景中的说话人，包括：根据上述嘴部特征、上述音频特征以及上述人脸特征，确定在目标时间段内上述场景中的说话人。由于人的人脸特征(例如，年龄、性别等信息)与这个人的音频特征有关，例如，老年人的声音一般比小孩子的声音更低沉，男性的声音一般比女性的声音更低沉。因此，实施上述实现方式可以提高说话人检测的准确率。

在第一方面的一种可能的实现方式中，上述根据上述嘴部特征、上述音频特征以及上述人脸特征，确定在目标时间段内上述场景中的说话人，包括：将对应人员的人脸特征、嘴部特征以及上述音频特征进行融合，得到多个第二融合特征；根据上述多个第二融合特征确定在目标时间内上述场景中的说话人。上述实现方式中，通过第二融合特征的分类结果可以快速且准确地判断对应人员的人脸特征、嘴部特征与音频特征是否匹配。

在第一方面的一种可能的实现方式中，上述根据上述视频数据获取上述场景中人员的嘴部特征，包括：根据上述视频数据获得上述场景中人员的人脸图像；根据上述场景中人员的人脸图像获得上述场景中人员的嘴部图像；根据上述场景中人员的嘴部图像获得上述场景中人员的嘴部特征。由于嘴部图像为人脸图像的一部分，相较于直接对视频帧进行嘴部检测，对人脸图像进行嘴部检测得到的嘴部图像更加准确。因此，通过上述实现方式能够提高对嘴部图像的检测以及嘴部特征的提取的准确率，从而提高说话人检测的准确率。

第二方面，本申请提供了一种说话人检测装置，该装置包括：

获取单元，用于获取场景在目标时间段的视频数据和音频数据，其中，该场景包括至少一个人员；

嘴部特征提取单元，用于根据上述视频数据获得上述场景中人员的嘴部特征；

音频特征提取单元，用于根据上述音频数据获得上述场景中人员的音频特征；

说话人确定单元，用于根据上述嘴部特征和上述音频特征，确定在目标时间段内上述场景中的说话人。

在第二方面的一种可能的实现方式中，上述说话人确定单元具体用于：将上述嘴部特征与上述音频特征进行匹配，确定与上述音频特征匹配的嘴部特征对应的人员。

在第二方面的一种可能的实现方式中，上述说话人确定单元具体用于：将上述嘴部特征与上述音频特征进行融合，得到多个第一融合特征；对每个第一融合特征进行分类处理，确定与上述音频特征匹配的嘴部特征，从而确定与上述音频特征匹配的嘴部特征对应的人员。

在第二方面的一种可能的实现方式中，上述说话人检测装置还包括人脸检测单元，人脸检测单元用于根据上述视频数据获取上述场景中人员的人脸特征；上述说话人确定单元具体用于根据上述嘴部特征、上述音频特征以及上述人脸特征，确定在目标时间段内上述场景中的说话人。

在第二方面的一种可能的实现方式中，上述说话人确定单元具体用于：将对应人员的人脸特征、嘴部特征以及上述音频特征进行融合，得到多个第二融合特征；根据上述多个第二融合特征确定在目标时间内上述场景中的说话人。

在第二方面的一种可能的实现方式中，上述嘴部特征提取单元具体用于：根据上述视频数据获得上述场景中人员的人脸图像；根据上述场景中人员的人脸图像获得上述场景中人员的嘴部图像；根据上述场景中人员的嘴部图像获得上述场景中人员的嘴部特征。

第三方面，本申请提供了一种计算设备，该计算设备包括处理器和存储器，存储器存储计算机指令，处理器执行计算机指令，以使计算设备执行前述第一方面或第一方面的任意一种可能的实现方式中的方法。

第四方面，本申请提供了一种计算设备系统，该计算设备系统包括多个计算设备，每个计算设备包括处理器和存储器，存储器存储计算机指令，处理器执行计算机指令，多个计算设备协同地执行前述第一方面或第一方面的任意一种可能的实现方式中的方法。

第五方面，本申请提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序代码，当计算机程序代码被计算设备执行时，计算设备执行前述第一方面或第一方面的任意一种可能的实现方式中的方法。

第六方面，本申请提供了一种说话人检测系统，该说话人检测系统包括摄像设备、麦克风以及说话人检测装置，其中，说话人检测装置用于执行前述第一方面或第一方面的任意一种可能的实现方式中的方法。

附图说明

为了更清楚地说明本申请提供的技术方案，下面将对本申请描述中所需要使用的附图作简单地介绍。

图1是本申请提供的一种说话人检测系统的结构示意图；

图2A是本申请提供的一种说话人检测装置的部署示意图；

图2B是本申请提供的另一种说话人检测装置的部署示意图；

图2C是本申请提供的另一种说话人检测装置的部署示意图；

图2D是本申请提供的另一种说话人检测装置的部署示意图；

图3是本申请提供的一种说话人检测方法的流程示意图；

图4是本申请提供的一种说话人检测方法的具体应用的示意图；

图5是本申请提供的一种说话人检测装置的结构示意图；

图6是本申请提供的一种计算设备的结构示意图；

图7是本申请提供的一种计算设备系统的结构示意图。

具体实施方式

为了便于理解本申请提供的技术方案，首先对本申请涉及到的一些技术术语进行介绍。

人机交互，也称为人机互动，是指人与机器之间以一定的交互方式来交换彼此的信息，从而完成特定的任务。为了令人与机器之间的交互能够和人与人之间的交互一样便捷，人们通常希望能够通过说话的方式与机器沟通。这种方式虽然可以提高人机交互的便捷性，但对于机器来说，除了需要检测出当前是否有人在说话，还需要进行说话人检测，也就是检测出当前正在说话的人。

说话人检测是人机交互过程中的一个必要且关键的环节，能够提高人机交互的效率和有效性，从而为用户带来更好的人机交互体验。例如，在智能会议的场景中，机器通过进行说话人检测可以确定会议中正在发言的人，从而有效地辅助机器进行会议记录，准确记录发言人及其发言内容。又例如，在客服服务的场景中，一个服务柜台前可能有多个人，但只有一个是需要服务的客户，此时机器可以通过进行说话人检测确定这些人中哪个是正在说话的人，从而确定哪个是需要提供服务的客户，以便后续为该客户提供相应的服务。

下面介绍几个常用的用于实现说话人检测的方案：

(1)利用麦克风阵列(包括多个麦克风)采集场景的音频，然后根据不同麦克风接收到音频的相位之间的差异来定位声源的位置，再根据声源的位置确定说话人所在的区域，利用人脸检测算法在上述区域中确定说话人，从而确定该场景中正在说话的人。该方法虽然能够用于实现说话人检测，但该方法的实现依赖于麦克风阵列，麦克风阵列不同于麦克风，因此需要用户专门购置或者用户利用多个麦克风自行搭建。当用户使用自行搭建的麦克风阵列时，用户需要准确测量出不同麦克风之间的距离，之后才能根据不同麦克风之间的距离计算得到声源的位置。

(2)预先将场景中的所有人员的声纹信息录入声纹库，然后利用麦克风拾取场景的音频，再利用声纹识别算法将麦克风拾取到的音频与声纹库中存储的声纹信息进行匹配，从而确定该场景中正在说话的人。该方法虽然能够用于实现说话人检测，但该方法需要提前将场景中所有人员的声纹信息录入声纹库，而且说话人检测的准确率依赖于声纹识别算法，而声纹识别算法的准确率依赖于声纹库，这就导致利用该方法进行说话人检测需要耗费更多的资源。

(3)利用摄像设备采集场景的视频，通过确定视频中嘴巴在动的人员，来确定场景中正在说话的人。值得注意的是，在一些情况下，场景中的某个人员在吃东西，这时该人员的嘴巴也在动，但该人员并没有在说话，而利用该方法会将该人员错误地检测为说话人。

总的来说，当前的说话人检测的准确率有待提高。

为了解决上述问题，本申请提供了一种说话人检测系统，该系统考虑到人在说话时，嘴唇会动，也会发出声音，因此该系统结合了视觉和声音两个维度来判断当前正在说话的人，能够提高说话人检测的效率。

请参见图1，图1示出了一种说话人检测系统的结构示意图。如图1所示，说话人检测系统包括摄像设备100、麦克风200以及说话人检测装置300。

摄像设备100用于采集场景的视频数据，并将采集到的视频数据发送给说话人检测装置300。摄像设备100可以包括摄像头，摄像头包括镜头和感光元件(又可称为图像传感器)，用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,CCD)或互补金属氧化物半导体(complementary metal oxide semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给图像信号处理器以转换成数字图像信号，如标准的RGB，YUV等格式的图像信号。摄像设备100具体可以是枪机、球机、无人机、深度相机等。

麦克风200用于拾取场景的音频数据，并将拾取到的音频数据发送给说话人检测装置300。麦克风200可以包括拾音器，拾音器又称为监听头，用于拾取场景的声音，并将拾取到的声音转换为电信号，之后将电信号传递给音频信号处理器以转换成声音信号，如标准的wav、mp3格式的声音信号。麦克风200具体可以是电容式麦克风、动圈式麦克风、驻极体麦克风、铝带麦克风等。

说话人检测装置300用于接收摄像设备100采集的视频数据以及麦克风200拾取的音频数据，并根据接收到的视频数据和音频数据确定场景中的说话人。具体地，说话人检测装置300接收到摄像设备100采集的视频数据和麦克风200拾取的音频数据后，根据视频数据获取场景中人员的嘴部特征，根据音频数据获取场景中人员的音频特征，然后将场景中人员的嘴部特征与场景中人员的音频特征进行匹配，确定场景中的说话人。

说话人检测装置300的部署灵活，具体可以部署在云环境，云环境是云计算模式下利用基础资源向用户提供云服务的实体。云环境包括云数据中心和云服务平台，云数据中心包括云服务提供商拥有的大量基础资源(包括计算资源、存储资源和网络资源)，云数据中心包括的计算资源可以是大量的计算设备(例如服务器)。说话人检测装置300可以是云数据中心中用于对场景进行说话人检测的服务器，也可以是创建在云数据中心中的用于对场景进行说话人检测的虚拟机，还可以是部署在云数据中心中的服务器或者虚拟机上的软件装置，该软件装置用于对场景进行说话人检测，该软件装置可以分布式地部署在多个服务器上、或者分布式地部署在多个虚拟机上、或者分布式地部署在虚拟机和服务器上。

例如：如图2A所示，需要进行说话人检测的场景为会议场景，会议室中设置有可联网的摄像设备100和麦克风200，说话人检测装置300部署在云环境中。会议开始后，会议室中的摄像设备100拍摄该会议场景得到视频数据，并将视频数据通过网络发送至云环境中的说话人检测装置300。同时，会议室中的麦克风200也会采集该会议场景中的声音得到音频数据，并将音频数据通过网络发送至云环境中的说话人检测装置300。云环境中的说话人检测装置300可以根据接收到的视频数据和音频数据确定该会议场景中的说话人。进一步地，说话人检测装置300还可以将说话人检测的结果发送至管理平台，以供管理平台根据说话人检测的结果记录发言人及其发言内容，从而自动地完成会议记录。

在一些实施例中，说话人检测装置300可以由云服务提供商部署在云数据中心，云服务提供商将说话人检测装置300提供的说话人检测功能抽象成为一项云服务，云服务平台供用户咨询和购买这项云服务。用户购买这项云服务后即可使用云数据中心的说话人检测装置300提供的说话人检测服务。说话人检测装置300还可以由租户部署在租户租用的云数据中心的计算资源中(例如虚拟机)，租户通过云服务平台购买云服务提供商提供的计算资源云服务，在购买的计算资源中运行说话人检测装置300，使得说话人检测装置300实现相应的功能。应理解，说话人检测装置300提供的功能也可以与其他功能装置提供的功能共同抽象成一项云服务，例如：云服务提供商将说话人检测装置300提供的功能，以及说话人识别装置提供的说话人识别功能、会议记录装置提供的会议记录功能共同抽象成一种智能会议云服务，用户购买这项智能会议云服务之后，可以自动地记录发言人身份及其发言内容，从而完成会议记录。

说话人检测装置300也可以部署在边缘环境中，边缘环境是距离要进行说话人检测的场景较近的数据中心或边缘计算设备的集合，边缘环境可以包括一个或多个边缘计算设备。说话人检测装置300可以是边缘环境中的一个边缘计算设备或是运行在一个或多个边缘计算设备上的软件装置。例如：如图2B所示，需要进行说话人检测的场景仍为会议场景，会议室中设置有可联网的摄像设备100和麦克风200，说话人检测装置300部署在距离会议室较近的边缘环境。会议开始后，会议室中的摄像设备100和麦克风200分别采集该会议场景的视频数据和音频数据，并通过网络发送至边缘环境中的说话人检测装置300。说话人检测装置300可以根据接收到的视频数据和音频数据确定该会议场景中的说话人。进一步地，说话人检测装置300还可以将说话人检测的结果发送至管理平台，以供管理平台根据说话人检测的结果记录发言人及其发言内容，从而自动地完成会议记录。

说话人检测装置300还可以部署在一个或多个终端计算设备上，终端计算设备可以是需要进行说话人检测的场景中的计算设备，或者距离说话人检测场景较近的计算设备。终端计算设备包括终端服务器、智能手机、笔记本电脑、平板电脑、个人台式电脑等。例如：如图2C所示，需要进行说话人检测的场景仍为会议场景，会议室中设置有可联网的摄像设备100和麦克风200，说话人检测装置300为部署在会议室中的笔记本电脑的一部分。会议开始后，会议室中的摄像设备100和麦克风200分别采集该会议场景的视频数据和音频数据，并发送至说话人检测装置300，然后说话人检测装置300根据接收到的视频数据和音频数据确定该会议场景中的说话人。进一步地，说话人检测装置300还可以将说话人检测的结果发送至笔记本电脑中的会议记录装置，以供会议记录装置根据说话人检测的结果记录发言人及其发言内容，从而自动地完成会议记录。

当说话人检测装置300为软件装置时，说话人检测装置300可以在逻辑上分成多个部分，每个部分具有不同的功能(多个部分可以参考后文中的图5示出的多个功能单元及其相关介绍)。说话人检测装置300的多个部分可以分别部署在不同的环境或设备上，部署在不同环境或设备上的说话人检测装置300的各个部分之间协同实现说话人检测的功能。例如，可以将说话人检测装置300的多个部分分别部署在终端计算设备上、边缘环境和云环境中的任意两个或三个环境中。以图2D为例，说话人检测装置300中的一部分部署在终端计算设备上，另一部分部署在云环境中，从而协同完成对该会议场景中的说话人进行检测。应理解，本申请不对说话人检测装置300的各部分的划分进行限定，也不对说话人检测装置300的哪些部分具体部署在哪个环境进行限制性的限定。实际应用时可根据不同环境中的计算设备的计算能力、资源占用情况或具体的应用需求进行适应性地部署。

下面将结合图3，对上述说话人检测装置300如何检测出场景中正在说话的人的过程进行介绍。请参见图3，图3示出了一种说话人检测的方法，该方法由图1示出的说话人检测装置300执行以检测出当前正在说话的人。如图3所示，该方法包括但不限于如下步骤：

S101：说话人检测装置300获取场景在目标时间段的视频数据和音频数据。

具体地，说话人检测装置300接收摄像设备100在目标时间段采集的场景的视频数据，以及麦克风200在目标时间段拾取的场景的音频数据。其中，上述场景是指需要进行说话人检测的场景，场景中包括至少一个人员。

S102：说话人检测装置300根据上述视频数据获得场景中人员的嘴部特征。

其中，上述视频数据包括摄像设备100在第一时刻采集的第一视频帧以及在第一时刻后采集的多个视频帧。

下面以第一视频帧为例，对步骤S102进行说明：说话人检测装置300根据第一视频帧得到至少一个嘴部图像，一个嘴部图像对应场景中的一个人员。然后，根据至少一个嘴部图像得到场景中人员的嘴部特征。嘴部特征具体可以包括能够体现人在说话时嘴型变化(例如，嘴巴的张合、张合程度)的特征。值得注意的一点是，上述场景中人员的嘴部特征可以是场景中每个人员的嘴部特征，也可以是场景中一个人员或部分人员的嘴部特征。

进一步地，说话人检测装置300以人的嘴部作为目标，对第一视频帧进行目标检测(以下称为嘴部检测)，得到至少一个嘴部图像。然后，分别对每个嘴部图像进行特征提取，得到场景中人员的嘴部特征。其中，说话人检测装置300可以采用业界已有的用于进行人的嘴部检测具有较优效果的任意一个神经网络模型，例如，一阶段统一实时目标检测(youonly look once:unified,Yolo)模型、单镜头多盒检测器(single shot multi boxdetector,SSD)模型、区域卷积神经网络(region convolutional neural network,RCNN)模型，对第一视频帧进行目标检测，从而得到至少一个嘴部图像。以Yolo模型为例，说话人检测装置300将第一视频帧输入Yolo模型，经过Yolo模型的学习可以获得第一视频帧对应的输出结果图像，该输出结果图像包括至少一个嘴部边界框，每个嘴部边界框都用于指示框选出的目标(即嘴部)在输出结果图像中的位置，此处的位置是指检测出的嘴部在第一视频帧中的像素坐标。然后，根据上述至少一个嘴部边界框，从第一视频帧中截取得到上述至少一个嘴部图像。说话人检测装置300可以采用业界已有的用于提取人的嘴部特征具有较优效果的任意一个神经网络模型，例如，卷积神经网络(convolutional neural network,CNN)模型、VGG模型等，对至少一个嘴部图像进行特征提取，得到每个嘴部图像的特征，从而得到场景中人员的嘴部特征。应理解，上述嘴部边界框的形状具有多种类型，具体可以是矩形、椭圆形等常规形状，还可以是与检测出的人的嘴部的形状相匹配的形状，本申请对此不作具体限定。

在一具体的实施例中，考虑到嘴部图像是人脸图像的一部分，因此，说话人检测装置300还可以通过以下方式获取上述至少一个嘴部图像：对第一视频帧进行人脸检测，得到至少一个人脸图像，再对至少一个人脸图像进行嘴部检测，得到至少一个嘴部图像。其中，说话人检测装置300可以采用业界已有的用于实现人脸检测具有较优效果的任意一个神经网络模型，例如，多任务卷积神经网络(multi-task cascaded convolutional neuralnetworks,MTCNN)模型、Yolo模型等，对第一视频帧进行人脸检测，从而得到至少一个人脸图像。相较于上述直接对第一视频帧进行嘴部检测，得到至少一个嘴部图像，通过这种方式可以提高人员嘴部特征的提取的正确性。应理解，说话人检测装置300对第一视频帧进行人脸检测，得到至少一个人脸图像的过程，以及说话人检测装置300对至少一个人脸图像进行嘴部检测，得到至少一个嘴部图像的过程，与上述说话人检测装置300对第一视频帧进行嘴部检测，得到至少一个嘴部图像的过程是类似的，为了简便，此处不再展开叙述。还需说明的一点是，说话人检测装置300可以采用不同的神经网络模型分别对第一视频帧进行人脸检测以及对至少一个人脸图像进行嘴部检测，说话人检测装置300还可以采用一个复合型的神经网络模型对第一视频帧进行人脸检测以及对至少一个人脸图像进行嘴部检测，即该复合型的神经网络模型既可以对第一视频帧进行人脸检测，也可以对人脸图像进行嘴部检测。

本申请实施例中，说话人检测装置300可以对视频数据中包含的每个视频帧均进行嘴部检测，或者先对每个视频帧进行人脸检测得到每个视频帧中包含的人脸图像，再对得到的这些人脸图像进行嘴部检测，以获取每个视频帧中的人员的嘴部图像，然后，对这些嘴部图像进行特征提取，以获取场景中人员在不同时刻的嘴部特征。具体过程可参见上述根据第一视频帧获取第一视频帧中的人员的嘴部特征的过程，此处不再展开叙述。

可选的，说话人检测装置300还可以通过其他方式获取场景中人员在不同时刻的嘴部特征。例如：每隔N个视频帧进行一次嘴部检测，然后，利用插值的方法补齐未执行嘴部检测的视频帧对应的嘴部图像，从而得到上述每个视频帧中的人员的嘴部图像。其中，数值N的可以是用户根据需求设定的，也可以是说话人检测装置300根据实际情况动态调整的。然后，对上述获得的嘴部图像进行特征提取，从而获取场景中人员在不同时刻的嘴部特征。又例如：说话人检测装置300先每隔K个视频帧进行一次人脸检测，然后，利用插值的方法补齐未执行人脸检测的视频帧对应的人脸图像，从而得到上述每个视频帧中包含的人脸图像。其中，数值K的可以是用户根据需求设定的，也可以是说话人检测装置300根据实际情况动态调整的。然后，每隔N个人脸图像进行一次嘴部检测，利用插值的方法补齐未执行嘴部检测的人脸图像对应的嘴部图像，从而得到上述每个视频帧中的人员的嘴部图像，然后，对上述获得的嘴部图像进行特征提取，从而获取场景中人员在不同时刻的嘴部特征。应理解，以上方式仅仅作为举例，在实际应用中，说话人检测装置300还可以采用更多的方式获取场景中人员在不同时刻的嘴部特征。

需要说明的，说话人检测装置300在对视频数据中的多个视频帧进行人脸检测后可以得到多个人脸图像，这时说话人检测装置300可以通过以下方式从这些人脸图像中确定哪些属于同一个人员的人脸图像：将根据相邻帧得到的人脸图像进行交并比(intersection over union,IOU)匹配，确定IOU大于阈值的人脸图像属于同一个人员，IOU小于阈值的人脸图像不是同一个人员。或者，还可以通过将人脸识别算法确定多个人脸图像是否属于同一个人员。类似的，说话人检测装置300也可以通过以下方式确定多个嘴部图像中哪些属于同一个人员。

S103：说话人检测装置300根据上述音频数据获得场景中人员的音频特征。

具体地，说话人检测装置300将上述音频数据输入音频特征提取模型得到对应的音频特征。音频特征可以包括能够体现人说出的话语(例如，字母、汉字)的特征、音色特征、音调特征等。其中，上述音频特征提取模型可以是业界已有的、用于进行音频特征提取具有较优效果的神经网络模型中的任意一个，例如，CNN、深度神经网络(deep neuralnetworks,DNN)模型、隐马尔可夫模型(hidden markov model,HMM)、长短期记忆网络(longshort-term memory,LSTM)模型等，此次不作具体限定。以CNN模型为例，考虑到CNN模型的输入要求(一般为二维信号，例如图像)，因此，在将音频数据输入CNN模型之前，先将音频数据转换为对应的语谱图，其中，语谱图是表示随时间变化的信号频谱图，语谱图中每个点的横坐标表示时间，纵坐标表示频率，每个点的像素灰度值表示声音信号的幅值，因此语谱图能够很好地反映声音信号的频谱随时间的变化关系。然后，将语谱图输入至CNN模型，经过CNN模型中的卷积层的处理生成音频特征图像，从而得到音频特征。需要说明的，上述利用音频特征提取模型从上述音频数据中提取音频特征仅仅是一个示例，说话人检测装置300还可以采用其他的方式从上述音频数据中提取音频特征，例如，利用梅尔滤波器组和快速傅里叶变换对上述音频数据进行处理也可以提取到音频特征，也就是说，本申请对音频特征的提取方式不作具体限定。

可选的，步骤S102和步骤S103的执行顺序可以互换，也可以同时执行。

S104：说话人检测装置300根据场景中人员的嘴部特征和场景中人员的音频特征，确定在目标时间段内场景中的说话人。

在一具体的实施例中，说话人检测装置300根据场景中人员的嘴部特征和场景中人员的音频特征，确定在目标时间段内场景中的说话人，包括以下步骤：说话人检测装置300将场景中人员的嘴部特征与场景中人员的音频特征进行匹配，确定与该音频特征匹配的嘴部特征对应的人员。

更具体地，说话人检测装置300将场景中人员的嘴部特征与场景中人员的音频特征进行匹配，确定与该音频特征匹配的嘴部特征对应的人员，包括以下步骤：说话人检测装置300将场景中人员的嘴部特征与场景中人员的音频特征进行融合，得到多个第一融合特征；对每个第一融合特征进行分类处理，确定与场景中人员的音频特征匹配的嘴部特征，从而确定与该音频特征匹配的嘴部特征对应的人员。

可选的，说话人检测装置300在执行步骤S104之前，还执行以下步骤：确定说话人身份发生变化的时间点，具体地，说话人检测装置300可以使用说话人分割算法对音频数据进行处理，从而确定说话人身份发生变化的时间点。

那么，说话人检测装置300可以通过以下方式将场景中人员的嘴部特征与场景中人员的音频特征进行匹配，确定与该音频特征匹配的嘴部特征对应的人员：按照说话人身份发生变化的时间点，将场景中人员的嘴部特征进行划分，将场景中人员的音频特征进行划分，得到多个时间段内场景中人员的嘴部特征以及场景中人员的音频特征。其中，场景中人员的嘴部特征包括一个或多个人员的嘴部特征。然后，将每个时间段的每个人员的嘴部特征分别与对应时间段的音频特征进行融合，得到多个第一融合特征，然后对多个第一融合特征进行分类处理，确定与每个时间段的音频特征匹配的嘴部特征对应的人员。

以一个时间段内的一个人员的嘴部特征与该时间段的音频特征进行匹配的过程为例：说话人检测装置300将该时间段的该人员的嘴部特征与该时间段的音频特征进行融合，得到第一融合特征，然后将第一融合特征输入分类模型(例如，sigmoid函数)，经过分类模型的学习判断该人员是否为该时间段内在场景中的说话人。其中，该时间段的该人员的嘴部特征与该时间段的音频特征进行融合的方式多种多样，例如，将该时间段的该人员的嘴部特征与该时间段的音频特征进行向量拼接，或者，将该时间段的该人员的嘴部特征与该时间段的音频特征相加等，本申请不作具体限定。应理解，该时间段的其他人员的嘴部特征与该时间段的音频特征进行匹配的过程，以及其他时间段的每个人员的嘴部特征与对应时间段的音频特征进行匹配的过程，均与上述过程类似，此次不再进行叙述。如此，说话人检测装置300可以确定在目标时间段场景中的说话人。

考虑到人在说话时，其年龄、性别等信息与这个人的音频特征有关，例如，老年人的声音一般比小孩子的声音更低沉，男性的声音一般比女性的声音更低沉。因此，说话人检测装置300在执行步骤S104之前，还执行以下步骤：根据视频数据获取场景中人员的人脸特征，人脸特征可以包括能够体现人的年龄、性别等信息的特征。那么，说话人检测装置300根据场景中人员的嘴部特征和场景中人员的音频特征，确定在目标时间段内场景中的说话人，包括：说话人检测装置300根据场景中人员的嘴部特征、场景中人员的音频特征以及场景中人员的人脸特征，确定在目标时间段内场景中的说话人。

具体地，说话人检测装置300根据场景中人员的嘴部特征、场景中人员的音频特征以及场景中人员的人脸特征，确定在目标时间段内场景中的说话人，包括以下步骤：说话人检测装置300将对应人员的人脸特征、嘴部特征以及上述音频特征进行融合，得到多个第二融合特征，然后，根据多个第二融合特征确定在目标时间内场景中的说话人。

更具体地，说话人检测装置300确定说话人身份发生变化的时间点，然后，按照说话人身份发生变化的时间点，将步骤S102提取到的场景中人员的嘴部特征进行划分，将步骤S103提取到的场景中人员的音频特征进行划分，以及将上述提取到的场景中人员的人脸特征进行划分，得到多个时间段内场景中人员的嘴部特征、场景中人员人脸特征以及场景中人员音频特征。然后，将每个时间段的对应人员的人脸特征、嘴部特征以及音频特征通过向量拼接等方式进行融合，得到多个第二融合特征。然后，分别将每个第二融合特征输入分类模型，得到对应的输出结果，从而确定在不同时间段场景中的说话人。如此，可以确定在目标时间段内场景中的说话人。

可选的，说话人检测装置300还可以通过其他的方式执行步骤S104，此处不作具体限定。例如，按照说话人身份发生变化的时间点将视频数据划分为至少一个视频片段，将音频数据划分为至少一个音频片段，然后对每个视频片段进行嘴部特征的提取，对每个音频片段进行音频特征的提取，从而得到多个时间段内场景中人员的嘴部特征以及场景中人员的音频特征。最后，将每个时间段的场景中人员的嘴部特征分别与对应时间段的音频特征进行匹配，确定在不同时间段场景中的说话人，从而确定在目标时间段内场景中说话人。又例如，将每个时刻的场景中人员的嘴部特征分别与对应时刻的音频特征进行匹配，确定不同时刻场景中的说话人。又例如，将每个时刻的场景中人员的嘴部特征、对应人员的人脸特征以及对应时刻的音频特征进行匹配，确定不同时刻场景中的说话人。又例如，按照预设时长将场景中人员的人脸特征、场景中人员的嘴部特征以及场景中人员音频特征进行划分，得到不同时间段的场景中人员的人脸特征、场景中人员的嘴部特征以及场景中人员的音频特征，然后将每个时间段的对应个人员的嘴部特征、人脸特征、以及对应时间段的音频特征进行匹配，确定不同时间段中场景中的说话人，从而确定在目标时间段内场景中说话人。

需要说明的，由麦克风200拾取到的场景在目标时间段的音频数据可以是场景中的人员发出的，也可以是电子设备(例如，录音笔、喇叭)发出的，例如，电子设备提前录入人员的音频数据，然后在目标时间段的场景中播放，又例如，电子设备合成场景中某个人员的声音，然后在目标时间段的场景中播放。应理解，当麦克风200拾取到的场景在目标时间段的音频数据为电子设备发出的，利用本申请提供的说话人检测方法仍然能够实现场景中的说话人的检测。这是因为：如果场景的音频数据为电子设备发出的，那么，一般情况下，场景中每个人员的嘴部特征与场景的音频特征(该音频特征是通过对电子设备发出的音频数据进行特征提取得到的)均不匹配，也就是说，在目标时间段内，场景中的人员均不是说话人。

由于人在说话时不仅会发出声音，而且人的嘴巴也会发生相应的变化，因此，本申请实施例提出将场景中人员的嘴部特征与场景中人员的音频特征进行匹配，如果某个人员的嘴部特征与说话人的音频特征匹配，意味着该人员的嘴部变化与说话人说出的话语是一致的，那么可以认为该人员是说话人；如果不匹配，意味着该人员的嘴部变化与说话人的输出的话语不一致，那么可以认为该人员不是说话人。相较于仅根据人员的嘴巴是否在动，或者仅根据场景的音频数据判断说话人，本申请提出的方法能够更准确地识别出场景中的说话人。另外，本申请实施例还考虑到人的音频特征与人的年龄、性别等信息有关，因此本申请实施例在上述方法的基础上还进一步提出结合场景中人员的人脸特征来确定场景中的说话人，能够提高识别出的说话人的准确率。

下面将通过一个具体的实施例，来进一步介绍上述说话人检测方法的应用。

假设，场景中有2个人，分别是人员A和人员B，为了确定该场景中的说话人，可以利用摄像设备可以采集场景中的视频数据，利用麦克风拾取场景中的音频数据，然后通过以下步骤确定场景中的说话人，如图4所示：

步骤11：按照预设时长将视频数据分割为m个视频片段(即视频片段S₁,S₂,…,S_m)，将音频数据也分割为m个音频片段(即视频片段A₁,A₂,…,A_m)。m为正整数。

步骤12：分别对视频片段S₁,S₂,…,S_m进行人脸检测，从而获得人员A的人脸图像序列P₁₁,P₁₂,…,P_1m和人员B的人脸图像序列P₂₁,P₂₂,…,P_2m。其中，人脸图像序列P_1i和人脸图像序列P_2i是通过对视频片段S_i中的每个视频帧进行人脸检测得到的，人脸图像序列P_1i包括多个人脸图像，且人脸图像序列P_1i包括的多个人脸图像均是人员A的人脸图像，人脸图像序列P_2i包括多个人脸图像，且人脸图像序列P_2i包括的多个人脸图像均是人员B的人脸图像。1≤i≤m，且i为正整数。

步骤13：分别对人员A的人脸图像序列P₁₁,P₁₂,…,P_1m进行嘴部检测，得到人员A的嘴部图像序列Z₁₁,Z₁₂,…,Z_1m，分别对人员B的人脸图像序列P₂₁,P₂₂,…,P_2m进行嘴部检测，得到人员B的嘴部图像序列Z₂₁,Z₂₂,…,Z_2m。其中，人员A的嘴部图像序列Z_1i是通过对人员A的人脸图像序列P_1i中的每个人脸图像进行嘴部检测得到的，人员B的嘴部图像序列Z_2i是通过对人员B的人脸图像序列P_2i中的每个人脸图像进行嘴部检测得到的。

步骤14：分别对人员A的人脸图像序列P₁₁,P₁₂,…,P_1m进行人脸特征提取，得到人员A的人脸特征F₁₁,F₁₂,…,F_1m，分别对人员B的人脸图像序列P₂₁,P₂₂,…,P_2m进行人脸特征提取，得到人员A的人脸特征F₂₁,F₂₂,…,F_2m。其中，人员A的人脸特征F_1i是通过对人员A的人脸图像序列P_1i中的每个人脸图像进行人脸特征提取得到的，人员B的人脸特征F_2i是通过对人员B的人脸图像序列P_2i中的每个人脸图像进行人脸特征提取得到的。

步骤15：分别对人员A的嘴部图像序列Z₁₁,Z₁₂,…,Z_1m进行嘴部特征提取，得到人员A的嘴部特征F₃₁,F₃₂,…,F_3m，分别对人员B的人脸图像序列Z₂₁,Z₂₂,…,Z_2m进行人脸特征提取，得到人员A的人脸特征F₄₁,F₄₂,…,F_4m。其中，人员A的嘴部特征F_3i是通过对人员A的嘴部图像序列Z_1i中的每个嘴部图像进行嘴部特征提取得到的，人员B的嘴部特征F_3i是通过对人员B的嘴部图像序列Z_2i中的每个嘴部图像进行嘴部特征提取得到的。

步骤16：分别对音频片段A₁,A₂,…,A_m进行音频特征提取，得到音频特征F₅₁,F₅₂,…,F_5m。其中，音频特征F_5i是通过对音频片段A_i进行音频特征提取得到的。

步骤17：将人员A的人脸特征F₁₁、人员A的嘴部特征F₃₁与音频特征F₅₁进行融合，得到融合特征R₁₁，将人员A的人脸特征F₁₂、人员A的嘴部特征F₃₂与音频特征F₅₂进行融合，得到融合特征R₁₂，以此类推，还可以得到融合特征R₁₃,R₁₄,…,R_1m。

将人员B的人脸特征F₂₁、人员B的嘴部特征F₄₁与音频特征F₅₁进行融合，得到融合特征R₂₁，将人员B的人脸特征F₂₂、人员B的嘴部特征F₄₂与音频特征F₅₂进行融合，得到融合特征R₂₂，以此类推，还可以得到融合特征R₂₃,R₂₄,…,R_2m。

步骤18：分别将融合特征R₁₃,R₁₄,…,R_1m和融合特征R₂₃,R₂₄,…,R_2m输入分类模型，得到每个融合特征对应的分类结果，即分类结果C₁₁,C₁₂,…,C_1m和分类结果C₂₁,C₂₂,…,C_2m。其中，分类结果C_1i用于指示人员A的人脸特征F_1i、人员A的嘴部特征F_3i是否与音频特征F_5i匹配，如果匹配，则人员A为这一时间段的说话人，如果不匹配，则人员A不是这一时间段的说话人。类似的，分类结果C_2i用于指示人员B的人脸特征F_2i、人员B的嘴部特征F_4i是否与音频特征F_5i匹配，如果匹配，则人员B为这一时间段的说话人，如果不匹配，则人员B不是这一时间段的说话人。从而可以确定场景中的说话人。

应理解，上述例子仅仅体现了本申请提供的说话人检测方法的一种可能的实现方式，应理解，在实际应用中，还可以采用其他本申请提供的其他的实现方式进行说话人的检测，例如，根据说话人身份发生变化的转折点来分割视频数据和音频数据，又例如，通过判断人员A的嘴部特征和音频特征是否匹配，以及人员B的嘴部特征和音频特征是否匹配，也可以判断场景中的说话人。

前述的内容详细介绍了说话人检测装置300根据场景的视频数据和音频数据确定场景中的说话人的过程，可以看出在这一过程中用到了多个模型，包括以下一个或多个：用于对视频帧进行人脸检测的人脸检测模型、用于对视频帧(或者人脸图像)进行嘴部检测的嘴部检测模型、用于对人脸图像进行人脸特征提取的人脸特征提取模型、用于对嘴部图像进行嘴部特征提取嘴部特征模型、用于对音频数据进行音频特征提取的音频特征提取模型、用于判断人员的嘴部特征与音频特征是否匹配的分类模型、用于判断人员的嘴部特征、人脸特征与音频特征是否匹配的分类模型等。值得注意的是，在使用这些模型之前，需要先对这些模型进行训练。以图4示出的实施例中使用的模型为例，对模型的训练过程进行介绍。

图4示出的实施例中使用的模型包括：用于对视频帧进行人脸检测的人脸检测模型、用于对人脸图像进行嘴部检测的嘴部检测模型、用于对人脸图像进行人脸特征提取的人脸特征提取模型、用于对嘴部图像进行嘴部特征的嘴部特征提取模型、用于对音频数据进行音频特征提取的音频特征提取模型、用于判断人员的嘴部特征、人脸特征与音频特征是否匹配的分类模型。应理解，这些模型的训练过程可以由说话人检测装置300完成，也可以由其他计算设备完成，本申请不作具体限定。下面分别介绍这些模型的训练过程：

人脸检测模型可以是这样训练得到的：获取多个图像样本，标注出每个图像样本中人脸的位置，然后将多个图像样本输入人脸检测模型，将标注出的人脸位置作为人脸检测模型输出值的参考，不断调整人脸检测模型中的参数，直至人脸检测模型可以根据输入的图像样本输出与标注出的人脸位置非常接近的值，从而完成人脸检测模型的训练。

嘴部检测模型可以是这样训练得到的：获取多个人脸图像样本，标注出每个人脸图像样本中嘴部的位置，然后将多个人脸图像样本输入嘴部检测模型，将标注出的嘴部位置作为嘴部检测模型输出值的参考，不断调整嘴部检测模型中的参数，直至嘴部检测模型可以根据输入的人脸图像样本输出与标注出的嘴部位置非常接近的值，从而完成嘴部检测模型的训练。

人脸特征检测模型、嘴部特征检测模型、音频特征检测模型以及分类模型检测模型可以是这样训练得到的：

步骤21：获取原始样本集。原始样本集包括多组样本以及每组样本的标注信息，每组样本包括一段视频数据和一段音频数据，每组样本的标注信息包括样本中的视频数据(以下简称为视频样本)与音频数据(以下简称为音频样本)是否匹配。

其中，匹配的视频样本和音频样本可以这样得到：在不同的场景(例如，会议场景、柜台服务场景等)中，对一个正在说话的人的进行拍摄得到视频样本，同时拾取该说话人发出的声音得到音频样本，这样得到的视频样本和音频样本是匹配的。或者，从一些公开数据集(例如，GRID数据集、BANCA数据集)中获取匹配的视频样本和音频样本，从而得到训练样本集。不匹配的视频样本和音频样本可以这样得到：将上述获得的匹配的视频样本和音频样本随机进行两两组合，得到多组不匹配的视频样本和音频样本。可选的，还可以采集人员不说话的视频作为视频样本，拾取该人员说话的音频作为音频样本，从而得到不匹配的视频样本和音频样本。

步骤22：获取训练样本集。训练样本集包括上述原始样本集以及对原始样本集中的每组样本进行数据增广处理后得到的增广数据集。

其中，以一组样本为例，对一组样本进行数据增广处理，例如：对该组样本中的视频样本进行裁剪，从水平、垂直等方向进行翻转，旋转任意角度，添加噪声等，对该组样本中的音频样本进行截取、翻转、旋转、添加噪声等。

步骤23：利用上述训练好的人脸检测模型对训练样本集中的每组样本中的视频样本进行人脸检测，得到每组样本的人脸图像序列。其中，一组样本的人脸图像序列包括多个人脸图像，这些人脸图像体现了一个人员的脸部变化。

步骤24：利用上述训练好的嘴部检测模型对上述检测出的每组样本的人脸图像序列进行嘴部检测，得到每组样本的嘴部图像序列。其中，一组样本的嘴部图像序列包括多个嘴部图像，这些嘴部图像体现了一个人员的嘴部变化。

步骤25：将上述每组样本的人脸图像序列输入人脸特征提取模型，得到每组样本的人脸特征，即一个人员的人脸特征。将上述每组样本的嘴部图像序列输入嘴部特征提取模型，得到每组样本的嘴部特征，即一个人员的嘴部特征。将训练样本集中的每组样本中的音频样本输入音频特征提取模型，得到每组样本的音频特征。

步骤26：将每组样本的人脸特征、嘴部特征以及音频特征进行融合，然后输入分类模型，将每组样本的标注信息作为分类模型输出值的参考，不断调整人脸特征提取模型、嘴部特征提取模型、音频特征提取模型以及分类模型中的参数，直至分类模型根据输入的样本与样本的标注信息之间的差值满足阈值，从而完成上述人脸特征提取模型、嘴部特征提取模型、音频特征提取模型以及分类模型的训练。

应理解，上述仅是示例性地描述了人脸检测模型、嘴部检测模型、人脸特征提取模型、嘴部特征提取模型、音频特征提取模型以及分类模型的训练过程，在实际应用中，还可以根据具体的应用场景采用不同的训练方式对这些模型进行训练。另外，其他的模型(例如，用于判断人员的嘴部特征与音频特征是否匹配的分类模型)也可以采用与上述训练过程类似的方式进行训练，或者根据具体的应用场景采用其他的方式进行训练，本申请不进行限定。

前述内容详细阐述了本申请实施例的方法，接下来结合图5-图7介绍实施上述方法的说话人检测装置300。

请参见图5，图5示出了上述说话人检测装置300的结构示意图。如图5所示，说话人检测装置300包括获取单元310、嘴部特征提取单元320、音频特征提取单元330、说话人确定单元340。可选的，说话人检测装置300还包括人脸特征提取单元350。

获取单元310：用于获取场景在目标时间段的视频数据和音频数据，其中，场景包括至少一个人员。

嘴部特征提取单元320：用于根据上述视频数据获得场景中人员的嘴部特征。

可选的，嘴部特征提取单元320具体用于：根据上述视频数据获得场景中人员的人脸图像，然后根据场景中人员的人脸图像获得场景中人员的嘴部图像，然后根据场景中人员的嘴部图像获得场景中人员的嘴部特征。

音频特征提取单元330：用于根据音频数据获得场景中人员的音频特征。

说话人确定单元340：用于根据上述嘴部特征和上述音频特征，确定在目标时间段内上述场景中的说话人。

在一具体的实施例中，说话人确定单元340具体用于：将上述嘴部特征与上述音频特征进行匹配，确定与上述音频特征匹配的嘴部特征，从而确定与上述音频特征匹配的嘴部特征对应的人员。

进一步地，说话人确定单元340用于将上述嘴部特征上述音频特征进行融合，得到多个第一融合特征。然后，对每个第一融合特征进行分类处理，确定与上述音频特征匹配的嘴部特征。

在一些实施例中，说话人检测装置300还包括人脸特征提取单元350，人脸特征提取单元用于根据视频数据获取场景中人员的人脸特征。那么，说话人确定单元340具体用于：根据对应人员的人脸特征、嘴部特征以及上述音频特征，确定在目标时间段内该场景中的说话人。

进一步地，说话人确定单元340用于将对应人员的人脸特征、嘴部特征以及上述音频特征进行融合，得到多个第二融合特征；根据多个第二融合特征确定在目标时间内该场景中的说话人。

本申请实施例中，说话人检测装置300可以执行前述步骤S101-S104已完成对场景中的说话人进行检测的功能。具体地，获取单元310用于执行前述步骤S101；嘴部特征提取单元320用于执行前述步骤S102；音频特征提取单元330用于执行前述步骤S103；说话人确定单元340用于执行前述步骤S104；可选的，当说话人检测装置300还包括人脸特征提取单元350时，人脸特征提取单元350用于执行前述步骤S102中的提取视频数据中的人脸特征的步骤。

应理解，说话人检测装置300仅以上述各个单元的划分进行举例说明，实际应用中，可以根据需要对图5示出的说话人检测装置300进行相应的变换。

当说话人检测装置300单独地部署在任意环境中的一个计算设备上(例如，单独部署在一个终端计算设备上)时，部署有说话人检测装置300的计算设备可以是如图6所示的计算设备。如图6所示，图6示出了部署有说话人检测装置300的计算设备400的硬件结构示意图。其中，计算设备400包括存储器410、处理器420、通信接口430以及总线440。其中，存储器410、处理器420、通信接口430通过总线440实现彼此之间的通信连接。

存储器410可以是只读存储器(read only memory,ROM)，静态存储设备、动态存储设备或者随机存取存储器(random access memory,RAM)。存储器410可以存储程序，例如，获取单元310中的程序、嘴部特征提取单元320中的程序、音频特征提取单元330中的程序、说话人确定单元340中的程序、人脸特征提取单元350等。当存储器410中存储的程序被处理器420执行时，处理器420和通信接口430用于执行上述步骤S101-S104所述的部分或全部方法。存储器410还可以存储数据，例如：存储器410中的一部分存储资源可用于存储视频数据和音频数据，一部分存储资源可用于存储进行说话人检测的各个模型(例如，嘴部特征提取模型、人脸检测模型等)，一部分存储资源用于存储处理器420在执行过程中产生的中间数据或结果数据，例如，嘴部特征提取模型的参数、提取到的嘴部特征等。

处理器420可以采用通用的中央处理器(central processing unit,CPU)，微处理器，专用集成电路(application specific integrated circuit,ASIC)，图形处理器(graphics processing unit,GPU)或者一个或多个集成电路。

处理器420还可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述模型训练系统100的部分或全部功能可用通过处理器420中的硬件的集成逻辑电路或者软件形式的指令完成。处理器420还可以是通用处理器、数据信号处理器(digital signalprocess,DSP)、现场可编程逻辑门阵列(field programmable gate array,FPGA)或者其他可编程逻辑器件，分立门或者晶体管逻辑器件，分立硬件组件。可以实现或者执行本申请实施例中公开的方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器410，处理器420读取存储器410中的信息，结合其硬件完成上述模型训练系统100的部分或全部功能。

通信接口430使用例如但不限于收发器一类的手法模块，来实现计算设备400与其他设备或通信网络之间的通信。例如，可以通过通信接口430获取摄像设备采集的视频数据以及麦克风拾取的音频数据，还可以通过通信接口430将说话人检测的结果发送给其他设备。

总线440可以包括在计算设备400中的各个部件(例如，存储器410、处理器420、通信接口430)之间传送信息的通路。

当说话人检测装置300中的各个部分分布式地部署在同一环境或不同环境中的多个计算设备上时，部署有说话人检测装置300的多个计算设备可以构成如图7所示的计算设备系统。如图7所示，图7示出了部署有模型训练系统100的计算设备系统的硬件结构示意图。其中，计算设备系统包括多个计算设备500，计算设备系统中的多个计算设备500可以通过内部处理器执行计算机指令协同地实现模型训练系统100的功能。

如图7所示，每个计算设备500包括存储器510、处理器520、通信接口530以及总线540。其中，存储器510、处理器520、通信接口530通过总线540实现彼此之间的通信连接。

存储器510可以是ROM、RAM、静态存储设备或者动态存储设备。存储器510可以存储计算机指令，当存储器510中存储的计算机指令被处理器520执行时，处理器520和通信接口430用于执行上述步骤S101-S104所述的部分或全部方法。存储器410还可以存储数据，例如：存储器510中的一部分存储资源可用于存储视频数据或音频数据，一部分存储资源可用于存储进行说话人检测时所需的模型(例如，嘴部特征提取模型、人脸检测模型等)，一部分存储资源用于存储处理器520在执行过程中产生的中间数据或结果数据，例如，嘴部特征提取模型的参数、提取到的嘴部特征等。

处理器520可以采用通用的CPU、GPU、ASIC、微处理器或者一个或多个集成电路。处理器520还可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，本申请的模型训练系统的部分或全部功能可用通过处理器520中的硬件的集成逻辑电路或者软件形式的指令完成。处理器520还可以是DSP、FPGA、其他可编程逻辑器件、通用处理器、分立门、分立硬件组件或者晶体管逻辑器件。可以实现或者执行本申请实施例中公开的方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器510，处理器520读取存储器510中的信息，结合其硬件完成上述模型训练系统100的部分功能。

通信接口530使用例如但不限于收发器一类的收发模块，来实现计算设备500与其他设备或通信网络之间的通信。例如，可以通过通信接口530获取其他计算设备计算得到的人脸图像、人脸特征等。

总线540可包括在计算设备500各个部件(例如，存储器510、处理器520、通信接口530)之间传送信息的通路。

上述每个计算设备500间通过通信网络建立通信通路。每个计算设备500上运行说话人检测装置300中的一部分(例如：运行说话人检测装置300中的获取单元310、嘴部特征提取单元320、音频特征提取单元330、说话人确定单元340以及人脸特征提取单元350中的一个或多个模块)。任一计算设备500可以为云数据中心中的服务器，或边缘数据中心中的计算设备，或终端计算设备。

上述各个附图对应的流程的描述各有侧重，某个流程中没有详细描述的部分，可以参见其他流程的相关描述。

在上述实施例中，可以全部或部分地通过软件、硬件或者其组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。提供模型训练系统的计算机程序产品包括一个或多个由模型训练系统执行的计算指令，在计算机上加载和执行这些计算机程序指令时，全部或部分地产生按照本申请实施例图所述的流程或功能。

上述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。上述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，上述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如，同轴电缆、光纤、双绞线或无线(例如，红外、无线、微波)等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。上述计算机可读存储介质存储有提供模型训练系统的计算机程序指令。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个介质集成的服务器、数据中心等数据存储设备。上述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，光盘)、或者半导体介质(例如，固态硬盘(solid state disk,SSD))。

Claims

1.一种说话人检测方法，其特征在于，包括：

获取场景在目标时间段的视频数据和音频数据，其中，所述场景包括至少一个人员；

根据所述视频数据获得所述场景中人员的嘴部特征；

根据所述音频数据获得所述场景中人员的音频特征；

根据所述嘴部特征和所述音频特征，确定在所述目标时间段内所述场景中的说话人。

2.根据权利要求1所述的方法，其特征在于，所述根据所述嘴部特征和所述音频特征，确定在所述目标时间段内所述场景中的说话人，包括：

将所述嘴部特征与所述音频特征进行匹配，确定与所述音频特征匹配的嘴部特征对应的人员。

3.根据权利要求2所述的方法，其特征在于，所述将所述嘴部特征与所述音频特征进行匹配，确定与所述音频特征匹配的嘴部特征对应的人员，包括：

将所述嘴部特征与所述音频特征进行融合，得到多个第一融合特征；

对每个第一融合特征进行分类处理，确定与所述音频特征匹配的嘴部特征，从而确定与所述音频特征匹配的嘴部特征对应的人员。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述方法还包括：

根据所述视频数据获取所述场景中人员的人脸特征；

所述根据所述嘴部特征和所述音频特征，确定在所述目标时间段内所述场景中的说话人，包括：

根据所述嘴部特征、所述音频特征以及所述人脸特征，确定在所述目标时间段内所述场景中的说话人。

5.根据权利要求4所述的方法，其特征在于，所述根据所述嘴部特征、所述音频特征以及所述人脸特征，确定在所述目标时间段内所述场景中的说话人，包括：

将对应人员的人脸特征、嘴部特征以及所述音频特征进行融合，得到多个第二融合特征；

根据所述多个第二融合特征确定在所述目标时间内所述场景中的说话人。

6.根据权利要求1-5任一项所述的方法，其特征在于，所述根据所述视频数据获取所述场景中人员的嘴部特征，包括：

根据所述视频数据获得所述场景中人员的人脸图像；

根据所述场景中人员的人脸图像获得所述场景中人员的嘴部图像；

根据所述场景中人员的嘴部图像获得所述场景中人员的嘴部特征。

7.一种说话人检测装置，其特征在于，包括：

获取单元，用于获取场景在目标时间段的视频数据和音频数据，其中，所述场景包括至少一个人员；

嘴部特征提取单元，用于根据所述视频数据获得所述场景中人员的嘴部特征；

音频特征提取单元，用于根据所述音频数据获得所述场景中人员的音频特征；

说话人确定单元，用于根据所述嘴部特征和所述音频特征，确定在所述目标时间段内所述场景中的说话人。

8.根据权利要求7所述的装置，其特征在于，所述说话人确定单元具体用于：

9.根据权利要求8所述的装置，其特征在于，所述说话人确定单元具体用于：

10.根据权利要求7-9任一项所述的装置，其特征在于，所述说话人检测装置还包括人脸检测单元，

所述人脸检测单元用于根据所述视频数据获取所述场景中人员的人脸特征；

所述说话人确定单元具体用于根据所述嘴部特征、所述音频特征以及所述人脸特征，确定在所述目标时间段内所述场景中的说话人。

11.根据权利要求10所述的装置，其特征在于，根据说话人确定单元具体用于：

12.根据权利要求7-11任一项所述的装置，其特征在于，所述嘴部特征提取单元具体用于：

根据所述视频数据获得所述场景中人员的人脸图像；

13.一种计算设备，其特征在于，所述计算设备包括处理器和存储器，所述存储器存储计算机指令，所述处理器执行所述计算机指令，以使所述计算设备执行前述权利要求1至6任一项所述的方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序代码，当所述计算机程序代码被计算设备执行时，所述计算设备执行前述权利要求1至6任一项所述的方法。