CN113343831A

CN113343831A - 视频中说话人分类方法、装置、电子设备和存储介质

Info

Publication number: CN113343831A
Application number: CN202110610450.2A
Authority: CN
Inventors: 王斌; 杨晶生
Original assignee: Beijing Zitiao Network Technology Co Ltd
Current assignee: Beijing Zitiao Network Technology Co Ltd
Priority date: 2021-06-01
Filing date: 2021-06-01
Publication date: 2021-09-03

Abstract

本公开提供一种视频中说话人分类方法、装置、电子设备和存储介质。该方法通过用人脸识别追踪得出的说话人标签，再利用不同说话人标签对应的音频数据声纹特征实时训练说话人识别模型，并利用该说话人识别模型对每个句子音频对应的声纹特征做分类，进而得到每个句子音频对应的说话人标识，即实现对视频进行说话人分类以及将目标视频按照说话内容进行句子级别切分并确定相应的说话人。该方案通过音频和语音识别文本的强制对齐提高了断句的精确度，以及通过上述整个过程提高了说话人分类的精确度，减少误判的产生。另外，整个方案不需预先训练模型，减少算法复杂度。

Description

视频中说话人分类方法、装置、电子设备和存储介质

技术领域

本公开的实施例涉及音视频处理技术领域，具体涉及视频中说话人分类方法、装置、电子设备和存储介质。

背景技术

说话人分类是指自动区分一段音频中出现的不同说话人，并将音频按照不同说话人切分成相应的对应音频。但对某些多说话人的场景，说话人自动分类则更难准确分类。比如，对至少两人对话的相声场景而言，首先，相声演员之间语音衔接更加连贯，使用VAD(语音端点检测，Voice Activity Detection)进行语句切分更加困难；其次，捧哏逗哏演员之间语音长短明显不平衡，一般来讲，捧哏演员的语音明显少于逗哏演员，这种不平衡加剧分类的困难；最后，相声场景存在明显的环境噪声，如笑声、鼓掌声等，增加了模型误判的可能性。

发明内容

本公开的实施例提出了视频中说话人分类方法、装置、电子设备和存储介质。

第一方面，本公开的实施例提供了一种视频中说话人分类方法，该方法包括：对目标视频进行人脸追踪得到人脸追踪识别结果，所述人脸追踪识别结果包括所述目标视频中视频帧所包括的人脸图像位置和相应的人脸标识；基于所述人脸追踪识别结果，对所述目标视频进行说话人检测以确定所述目标视频各帧对应的说话人人脸标识；对所述目标视频对应的目标音频进行切片处理得到音频片段序列；用所述音频片段序列中音频片段对应的声纹特征和该音频片段对应的说话人人脸标识生成训练样本中的样本特征和样本标签；基于各所述训练样本训练初始说话人识别模型，得到说话人识别模型；根据对所述目标音频和与所述目标音频对应的识别文本进行强制对齐的结果，对所述目标音频按照句子进行切分得到句子音频序列；将每个句子音频对应的声纹特征输入所述说话人识别模型，得到与该句子音频对应的说话人人脸标识。

在一些可选的实施方式中，所述对目标视频进行人脸追踪得到人脸追踪识别结果，包括：

对所述目标视频进行转场检测，得到场景视频片段序列；

对于每个场景视频片段进行人脸检测和人脸追踪，得到与该场景视频片段对应的人脸图像位置追踪结果；

基于各所述场景视频片段的人脸图像位置追踪结果，对各所述场景视频片段所包括的人脸图像进行聚类，以及根据聚类结果确定所述人脸追踪识别结果。

在一些可选的实施方式中，所述基于所述人脸追踪识别结果，对所述目标视频进行说话人检测以确定所述目标视频各帧对应的说话人人脸标识，包括：

对于所述目标视频中的视频帧，执行以下说话人标识确定操作：按照所述人脸追踪识别结果中与该视频帧相应的各人脸图像位置截取人脸图像；对所截取的各人脸图像进行唇动检测，并分别得到用于表征各人脸图像中人脸是否在说话的说话检测结果；根据所得到的各人脸图像对应的说话检测结果和相应说话人标识，确定与该视频帧对应的说话人标识。

对每个场景视频片段进行切分，得到对应的视频子片段序列；

对于每个场景视频片段对应的每个视频子片段，执行以下说话人确定操作：基于所述人脸追踪识别结果中与该视频子片段对应的人脸图像位置和人脸标识，生成与该视频子片段对应的每个人脸标识对应的人脸视频子片段；将所生成的每个人脸视频子片段和相应时间的音频输入音视频同步检测模型得到对应的同步检测结果；根据所生成的每个人脸视频子片段对应的同步检测结果，确定该视频子片段中各帧对应的说话人人脸标识。

在一些可选的实施方式中，所述根据对所述目标音频和与所述目标音频对应的识别文本进行强制对齐的结果，对所述目标音频按照句子进行切分得到句子音频序列，包括：

对所述目标音频进行自动语音识别，得到识别文本；

对所述目标音频和所述识别文本进行强制对齐，以确定所述识别文本中每个字符对应的时间；

根据所述识别文本中每个字符对应的时间，对所述目标音频按照句子进行切分得到句子音频序列。

在一些可选的实施方式中，每个句子音频对应的声纹特征是通过如下方式得到的：

基于该句子音频所包括的各音频片段对应的声纹特征，确定该句子音频对应的声纹特征。

在一些可选的实施方式中，所述基于该句子音频所包括的各音频片段对应的声纹特征，确定该句子音频对应的声纹特征，包括：

将该句子音频所包括的各音频片段对应的声纹特征的均值特征确定为该句子音频对应的声纹特征。

在一些可选的实施方式中，所述目标视频为至少两人对话场景视频。

在一些可选的实施方式中，所述对所述目标视频对应的目标音频进行切片处理得到音频片段序列，包括：

按照预设滑动窗口从所述目标音频的起点开始截取音频得到所述音频片段序列，其中，所述预设滑动窗口的窗口长度大于滑动步长。

在一些可选的实施方式中，所述说话人识别模型为线性分类器。

第二方面，本公开的实施例提供了一种视频中说话人分类装置，该装置包括：

人脸追踪单元，被配置成对目标视频进行人脸追踪得到人脸追踪识别结果，所述人脸追踪识别结果包括所述目标视频中视频帧所包括的人脸图像位置和相应的人脸标识；

说话人检测单元，被配置成基于所述人脸追踪识别结果，对所述目标视频进行说话人检测以确定所述目标视频各帧对应的说话人人脸标识；

音频切片单元，被配置成对所述目标视频对应的目标音频进行切片处理得到音频片段序列；

训练样本生成单元，被配置成用所述音频片段序列中音频片段对应的声纹特征和该音频片段对应的说话人人脸标识生成训练样本中的样本特征和样本标签；

模型训练单元，被配置成基于各所述训练样本训练初始说话人识别模型，得到说话人识别模型；

句子切分单元，被配置成根据对所述目标音频和与所述目标音频对应的识别文本进行强制对齐的结果，对所述目标音频按照句子进行切分得到句子音频序列；

分类单元，被配置成将每个句子音频对应的声纹特征输入所述说话人识别模型，得到与该句子音频对应的说话人人脸标识。

在一些可选的实施方式中，所述人脸追踪单元进一步被配置成：

对所述目标视频进行转场检测，得到场景视频片段序列；

在一些可选的实施方式中，所说话人检测单元进一步被配置成：

在一些可选的实施方式中，所述句子切分单元进一步被配置成：

对所述目标音频进行自动语音识别，得到识别文本；

在一些可选的实施方式中，所述音频切片单元进一步被配置成：

第三方面，本公开的实施例提供了一种电子设备，包括：一个或多个处理器；存储装置，其上存储有一个或多个程序，当上述一个或多个程序被上述一个或多个处理器执行时，使得上述一个或多个处理器实现如第一方面中任一实现方式描述的方法。

第四方面，本公开的实施例提供了一种计算机可读存储介质，其上存储有计算机程序，其中，该计算机程序被一个或多个处理器执行时实现如第一方面中任一实现方式描述的方法。

目前，说话人分类主要有两种思路。一种是基于音频的方法，首先通过VAD切除静音，然后将音频切分为连续的片段，每段音频提取一个声纹特征，最后对声纹特征进行聚类来获得最终的说话人信息。第二种是基于视频的方法，通过对视频中人脸和唇动进行识别，获得每个人对应的音频片段，然后通过对人脸聚类获得说话人信息。

现有的说话人分类法方法在至少两人对话场景(例如，相声场景)下主要存在以下缺陷：首先，容易误分句和误分段，比如一个说话人说话很短的时候，容易被错误的归类到前一个说话人的句子中；其次是识别精度不够，存在说话人误判断的情况。

为克服现有视频中说话人分类方法的相应缺陷，本公开的实施例提供的视频中说话人分类方法、装置、电子设备和存储介质，通过对目标视频进行人脸追踪得到人脸追踪识别结果；再基于人脸追踪识别结果，对目标视频进行说话人检测以确定目标视频各帧对应的说话人人脸标识；而后，对目标视频对应的目标音频进行切片处理得到音频片段序列；接着，用音频片段序列中音频片段对应的声纹特征和该音频片段对应的说话人人脸标识生成训练样本中的样本特征和样本标签；再基于各训练样本训练初始说话人识别模型，得到说话人识别模型；而后，根据对目标音频和与目标音频对应的识别文本进行强制对齐的结果，对目标音频按照句子进行切分得到句子音频序列；最后，将每个句子音频对应的声纹特征输入说话人识别模型，得到与该句子音频对应的说话人人脸标识。该发明思路为：(1)用人脸追踪得出的说话人标识作为假定真实的说话人标签；(2)在多说话人的场景中，对于视频而言可能存在一些说话人说话的人脸没有被拍到，但声音对应的音频数据采集是完整的，因此，可以认为基于音频和语音识别文本进行强制对齐后的句子音频是完整和准确的；(3)最终希望得到的是每个句子音频对应是哪个说话人所说的，因此，可以用人脸识别检测、追踪和聚类得出的说话人标签，利用不同说话人标签对应的音频数据声纹特征实时训练说话人识别模型，并利用该说话人识别模型对每个句子音频对应的声纹特征做分类，进而得到每个句子音频对应的说话人标识，即实现对视频进行说话人分类以及将目标视频按照说话内容进行句子级别切分并确定相应的说话人。该方案通过音频和语音识别文本的强制对齐提高了断句的精确度，以及通过上述整个过程提高了说话人分类的精确度，减少误判的产生。另外，整个方案不需预先训练模型，减少算法复杂度。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本公开的其它特征、目的和优点将会变得更明显。附图仅用于示出具体实施方式的目的，而并不认为是对本发明的限制。在附图中：

图1是本公开的一个实施例可以应用于其中的示例性系统架构图；

图2A是根据本公开的视频中说话人分类方法的一个实施例的流程图；

图2B是根据本公开图2A所示的步骤201的一个实施例的分解流程图；

图3是根据本公开的视频中说话人分类方法的一个应用场景的示意图；

图4是根据本公开的视频中说话人分类装置的一个实施例的结构示意图；

图5是适于用来实现本公开的实施例的电子设备的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

图1示出了可以应用本公开的视频中说话人分类方法、装置、电子设备和存储介质的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如视频采集类应用、视频点播类应用、语音识别类应用、短视频社交类应用、音视频会议类应用、网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是具有声音采集设备(例如麦克风)、视频采集设备(例如摄像头)和显示屏的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(MovingPicture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述所列举的终端设备中。其可以实现成多个软件或软件模块(例如用来提供视频中说话人分类服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

在一些情况下，本公开所提供的视频中说话人分类方法可以由终端设备101、102、103执行，相应地，视频中说话人分类装置可以设置于终端设备101、102、103中。这时，系统架构100也可以不包括服务器105。

在一些情况下，本公开所提供的视频中说话人分类方法可以由终端设备101、102、103和服务器105共同执行，例如，“对目标视频进行人脸追踪得到人脸追踪识别结果”的步骤可以由终端设备101、102、103执行，“基于人脸追踪识别结果，对目标视频进行说话人检测以确定目标视频各帧对应的说话人人脸标识”等步骤可以由服务器105执行。本公开对此不做限定。相应地，视频中说话人分类装置也可以分别设置于终端设备101、102、103和服务器105中。

在一些情况下，本公开所提供的视频中说话人分类方法可以由服务器105执行，相应地，视频中说话人分类装置也可以设置于服务器105中，这时，系统架构100也可以不包括终端设备101、102、103。

需要说明的是，服务器105可以是硬件，也可以是软件。当服务器105为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器105为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2A，其示出了根据本公开的视频中说话人分类方法的一个实施例的流程200，该视频中说话人分类方法包括以下步骤：

步骤201，对目标视频进行人脸追踪得到人脸追踪识别结果。

在本实施例中，视频中说话人分类方法的执行主体(例如图1所示的服务器)可以采用各种实现方式对目标视频进行人脸追踪得到人脸追踪识别结果。这里，人脸追踪识别结果可以包括目标视频中视频帧所包括的人脸图像位置和相应的人脸标识。

这里，目标视频可以是上述执行主体本地存储的视频，也可以是存储在与上述执行网络连接的其他电子设备的视频。目标视频可以是包括至少两个说话人说话的视频。

具体而言，对目标视频进行人脸追踪可以包括对目标视频进行人脸检测、追踪和聚类。

这里，对目标视频进行人脸检测可以是对目标视频中的视频帧图像，检测其中所存在的人脸图像，并标记出不同人脸图像的位置。这里，可以采用各种现在已知或者未来开发的人脸检测方法对图像进行人脸检测。例如，可以包括但不限于基于特征的人脸检测算法和基于图像的人脸检测算法。

基于特征的人脸检测算法是通过提取图像中的特征和人脸特征进行匹配，如果匹配上了就说明是人脸，反之则不是。提取的特征是人为设计的特征，例如Haar特征(哈尔特征，Haar-like features)，HOG(Histograms of Oriented Gradients，梯度方向直方图)特征、FHOG(Fourier Histograms of Oriented Gradients，傅里叶梯度方向直方图)特征。特征提取完之后，再利用分类器去进行判断。通俗的说就是采用模板匹配，用人脸的模板图像与待检测的图像中的各个位置进行匹配，匹配的内容就是提取的特征，然后再利用分类器进行判断是否有人脸。

基于图像的人脸检测算法是将待检测图像分为很多小窗口，然后分别判断每个小窗是否有人脸。通常基于图像的人脸检测算法依赖于统计分析和机器学习，通过统计分析或者机器学习的过程来找到人脸和非人脸之间的统计关系来进行人脸检测。例如，可以采用CNN(Convolutional Neural Network，卷积神经网络)。

对目标视频进行人脸追踪和聚类可以是基于对目标视频各帧视频图像进行提取的特征的人脸检测所得到的人脸图像位置进行的，其目的是建立目标视频各帧图像中检测到的不同人脸之间的关联。具体可采用各种现在已知或者未来开发的人脸追踪方法，例如可以包括但不限于：基于模型的追踪方法，基于运动信息的追踪方法，基于人脸局部特征的追踪方法和基于神经网络的追踪方法等。

基于模型追踪的方法是通过获取目标的先验知识，建立低价参数模型，对输入的每一帧图象通过滑动窗口进行模型匹配，实现人脸识别与追踪。常见的追踪模型有：肤色模型、椭圆模型、纹理模型及双眼模板等。基于肤色模型的追踪方法是利用恰当的表色系统，把肤色作为实现人脸追踪的关键信息。由于肤色信息具有对放大和缩小以及对微小变形不敏感的优点，加上人脸相对镜头的变化对肤色信息本身的影响不大，该类方法很容易在前一帧图象分析结果的基础上追踪到后一帧图象的人脸区域，因此具有速度快、姿态不变性等特点。

基于运动信息的追踪方法主要是充分利用图象连续帧间目标运动的连续性规律，进行人脸区域的预测以达到快速追踪的目的。通常采用运动分割、光流、立体视觉等方法。利用时空梯度，卡尔曼滤波器等进行追踪。其中，光流是空间运动物体被观测面上的像素点运动产生的瞬时速度场，包含了物体3D表面结构和动态行为的重要信息。一般情况下，光流由相机运动、场景中目标运动、或两者的运动产生。光流分析经常被用于目标运动估计。当场景中有独立的运动目标时，通过光流分析可以确定运动目标的数目、运动速度、目标距离和目标的表面结构。光流分析可以分为连续光流法和特征光流法，特征光流法是通过特征匹配求得特征点处的光流。

基于人脸局部特征的追踪方法的是根据不同的人脸器官特征信息进行器官追踪。这类方法经常利用眼睛、嘴和鼻子等器官特征信息进行追踪定位。

基于神经网络的追踪方法是通过利用神经网络类似人脑思维的一些典型特征，如自组织、联想记忆、非线性、大规模并行连接等实现人脸追踪。因为要显性地对人脸识别特征进行描述相当困难，而神经网络则可以通过学习，自动地获得识别规律的隐性表达。

经过步骤201可以得到人脸追踪识别结果，其可以包括目标视频中视频帧所包括的人脸图像位置和相应的人脸标识。即，可以知道目标视频的各帧图像中包括的一个或多个人脸图像中每个人脸图像的所在位置以及该人脸图像具体对应哪个人脸。

可以理解的是，人脸图像位置可以以各种方式呈现。例如，人脸图像位置可以包括人脸图像对应矩形四个顶点坐标。又例如，人脸图像位置也可以包括人脸图像对应矩形左上角顶点坐标和该矩形长度和宽度。而人脸标识用于唯一区分目标视频所包括的各人脸图像呈现的人脸对象。例如，当确定目标视频包括N个人脸图像时，N为自然数，人脸标识例如可以是1，2，…，N。

在一些可选的实施方式中，步骤201可以包括如图2B所示的子步骤2011到子步骤2013：

子步骤2011，对目标视频进行转场检测，得到场景视频片段序列。

这里，视频转场检测即根据视频画面的不同把视频分割为不同的片段。这里，上述执行主体可以采用各种实现方式对目标视频进行转场检测以得到场景视频片段序列。例如，可以采用现有的视频分割软件实现对目标视频进行转场检测。又例如，还可以采用各种现在已知或未来开发的视频转场检测算法对目标视频进行转场检测，比如，视频转场检测算法可以包括但不限于：基于语义的视频转场检测算法(或称为基于语义的视频场景分割算法)、基于支持向量机的视频转场检测算法(或称为基于支持向量机的视频场景分割算法)等。

经过转场检测所得到的场景视频片段序列中每个场景视频片段，可以认为每个场景视频片段内所表达的视频内容是相同或类似的，而不同的场景视频片段所表达的视频内容较大可能是不同的。或者，也可以认为同一个场景视频片段内各帧间所包括的人脸图像是表达的是相对较为固定的人物，而不同的场景视频片段之间所包括的人脸图像较大可能是表达的不同的人物。

子步骤2012，对于每个场景视频片段进行人脸检测和人脸追踪，得到与该场景视频片段对应的人脸图像位置追踪结果。

即，这里是以每个场景视频片段为单位，单独进行人脸检测和人脸追踪，具体也可以采用上文所述的人脸检测和人脸追踪方法，在此不再赘述。由于每个场景视频片段内所表达的视频内容较为一致，换言之，每个场景视频片段内的人脸图像较为一致，而人脸检测和追踪往往也是以前帧所检测到的人脸图像为基础进行的，在一个场景视频片段内进行人脸检测和追踪会更为容易，计算效率和追踪准确率较高。

对每个场景视频片段单独进行人脸检测和人脸追踪所得到的人脸图像位置追踪结果，可以用于表征该场景视频片段内每帧图像所包括的各人脸图像的位置和相应的场景内人脸标识，即由于人脸检测和人脸追踪是在单个场景视频片段内进行的，相应单个场景视频片段内不同帧之间人脸图像的关联也是在相对该单个场景视频片段而言的，即用场景内人脸标识来关联单个场景视频片段内不同帧之间人脸图像。

子步骤2013，基于各场景视频片段的人脸图像位置追踪结果，对各场景视频片段所包括的人脸图像进行聚类，以及根据聚类结果确定人脸追踪识别结果。

这里，步骤2013可以如下执行：

首先，按照各场景视频片段对应的人脸图像位置追踪结果，在相应场景视频片段内截取相应的人脸图像，形成聚类样本人脸图像。

例如，可以将各场景视频片段所有帧所包括的人脸图像均进行截取后形成聚类样本人脸图像。

又例如，还可以对每个场景视频片段，对该场景视频片段所包括的每个场景内人脸标识，在该场景视频片段的各帧中选取N帧包括该场景内人脸标识所指示的人脸图像，按照相应帧对应的人脸图像位置进行截取，其中N为正整数。进而对每个场景视频片段而言，其所包括的不同场景内人脸标识相应均得到N个人脸图像，这样可以实现至少以下技术效果：第一，在后续进行聚类时可以尽量确保不同人脸标识对应的聚类样本图像数量尽量均衡；第二，可以减少聚类的计算量且不影响聚类效果。

其次，对各聚类样本人脸图像进行聚类，进而得到至少一个聚类中心人脸图像，其中，每个聚类中心人脸图像关联有与目标视频整体对应的人脸标识。

这里，可以采用各种聚类算法，例如基于距离的聚类算法或者基于密度的聚类算法等，本公开对此不做具体限定。例如，可以采用K-Means(K均值)聚类、均值漂移聚类、用高斯混合模型(GMM，Gaussian Mixed Model)的最大期望(EM，Expectation-Maximization)聚类、凝聚层次聚类、图团体检测(Graph Community Detection)等。

另外，需要说明的是，这里对各聚类样本人脸图像进行聚类可以是直接对各聚类样本人脸图像进行聚类。也可以是对各聚类样本人脸图像对应的人脸图像特征进行聚类，而人脸图像特征也可以是各种现在已知或者未来开发的人脸图像特征，例如可以是HOG特征、利用CNN提取的特征等。

最后，对于每个场景视频片段，可以对于该场景视频片段的人脸图像位置追踪结果中的每个场景内人脸标识，根据该场景视频片段中关联该场景人脸标识的各人脸图像与上述聚类中心人脸图像的距离，将该场景内人脸标识关联到上述聚类中心人脸图像所关联的与目标视频整体对应的人脸标识。进而，可以得到每个场景内视频片段各帧中不同人脸图像所在位置以及与目标视频整体对应的人脸标识，也就得到了与目标视频对应的人脸追踪识别结果。

由上述记载可知，采用该可选实施方式对目标视频进行人脸追踪并得到人脸追踪识别结果，由于是在场景视频片段内进行的，可以提高人脸追踪识别结果的准确率。

步骤202，基于人脸追踪识别结果，对目标视频进行说话人检测以确定目标视频各帧对应的说话人人脸标识。

经过步骤201所得到的人脸追踪识别结果可以确定目标视频的各帧图像中包括的一个或多个人脸图像中每个人脸图像的所在位置以及该人脸图像具体对应哪个人脸，但具体对目标视频中每帧图像而言，该帧图像可能不包括人脸图像，包括一个人脸图像，或者包括至少两个人脸图像，但该帧图像中当前说话的人具体对应哪个人脸图像需要通过对目标视频进行说话人检测来确定，即确定目标视频各帧对应的说话人人脸标识，其中，说话人人脸标识即用于指示该帧图像所包括的人脸图像中当前正在说话的人的人脸。例如，目标视频的第5帧图像中包括人物A和人物B的人脸，经过步骤202可以确定对该第5帧图像而言，是人物B在说话，人物A没有说话，则与该第5帧对应的说话人人脸标识为B。

对目标视频进行说话人检测可以是基于目标视频中各帧图像进行的，也可以是基于目标视频的视频片段进行的。

在一些可选的实施方式中，步骤202可以如下进行：对于目标视频中的视频帧，执行说话人标识确定操作，其中，说话人标识确定操作可以包括以下三个步骤：

第一步，按照人脸追踪识别结果中与该视频帧相应的各人脸图像位置截取人脸图像。

第二步，对所截取的各人脸图像进行唇动检测，并分别得到用于表征各人脸图像中人脸是否在说话的说话检测结果。

这里，可以采用各种现在已知或未来开发的唇动检测方法，未公开对此不做具体限定，例如可以利用线性判别分析构建的分类器，或者采用模板匹配方法等。

第三步，根据所得到的各人脸图像对应的说话检测结果和相应说话人标识，确定与该视频帧对应的说话人标识。

对于该视频帧而言，其中可能不存在人脸图像，则不会执行说话人标识确定操作；也可能其中存在M个人脸图像，M为自然数。这里，可以对该视频帧中的每个人脸图像进行唇动检测，而所得到的结果也可能是表明该视频帧中没有人在说话，或者有一个人在说话，或者有多于一个人在说话等。进而，该视频帧对应的说话人标识可以没有，也可能一个，还可能多于一个等。

按照该可选实施方式，可以精确到每一个视频帧以确定每个视频帧对应的说话人标识。

基于步骤201中先对目标视频进行转场检测的可选实施方式，相应地，在一些可选的实施方式中，步骤202也可以如下进行：

首先，对每个场景视频片段进行切分，得到对应的视频子片段序列。

这里，可以采用各种实现方式对每个场景视频片段进行切分。例如，可以对所有场景视频片段采用相同的方法进行切分，也可以采用不同的方法进行切分。切分时，也可以根据下文所述音视频同步检测模型的处理数据需要进行切分，以使得所得到的视频子片段适于音视频同步检测模型的处理数据需要。可以理解的是，如果该场景视频片段本身适于音视频同步检测模型的处理需要，也可以不进行切分，直接将场景视频片段本身作为所得到的视频子片段序列中一个视频子片段。

其次，对于每个场景视频片段对应的每个视频子片段，执行以下说话人确定操作。

这里，说话人确定操作可以包括以下操作：

第一步，基于人脸追踪识别结果中与该视频子片段对应的人脸图像位置和人脸标识，生成与该视频子片段对应的每个人脸标识对应的人脸视频子片段。

这里，由于该视频子片段中可能涉及多个说话人在说话，而每个说话人对应在该视频子片段中不同帧中的人脸所在位置可能是不同的，为了对每个人脸进行检测，需要按照人脸追踪识别结果中与该视频子片段对应的人脸图像位置和人脸标识，生成与该视频子片段对应的每个人脸标识对应的人脸视频子片段。其中，与该视频子片段对应的人脸标识为人脸追踪识别结果中与该视频子片段所包括的各帧对应的人脸标识。例如，该视频子片段包括8帧，其中，该8帧对应的人脸追踪识别结果中涉及2个人脸F1和F2，则这里可以用F1在该8帧中的不同人脸图像按照在该8帧中的原始顺序组成与F1对应的人脸视频子片段V1，可以用F2在该8帧中的不同人脸图像按照在该8帧中的原始顺序组成与F2对应的人脸视频子片段V2。

第二步，将所生成的每个人脸视频子片段和相应时间的音频输入音视频同步检测模型得到对应的同步检测结果。

这里，相应时间的音频可以为目标音频中与该视频子片段在目标视频中的时段相对应的视频片段。因此，每个输入音视频同步检测模型的是相同时间段的视频和相应的音频。

这里，音视频同步检测模型用于表征输入该模型的视频和音频是否为视频中的说话人是否在说音频对应的内容。如果同步检测结果表明是，则可以认为视频中的人在说音频对应的内容。反之，如果同步检测结果表明否，则可以认为视频中的人没有在说音频对应的内容。

由于每个场景视频片段中所包括的人脸图像是较为固定的，对场景视频片段进行切分得到的每个视频子片段中所包括的人脸图像也是较为固定的，因而所生成的与该视频子片段对应的每个人脸标识对应的人脸视频子片段的长度也基本是与该视频子片段长度相同的。进而，输入音视频同步检测模型的每个人脸视频子片段和相应时间的音频时间长度也是基本相同的，可以检测出每个人脸视频子片段是否和相应时间的音频是否同步。

例如，继续沿用上述举例，可以将F1的人脸视频子片段V1和相应时间的音频输入音视频同步检测模型得到V1对应的同步检测结果，即得到人脸视频子片段V1对应的人脸F1是否在说相应时间的音频对应的内容。以及，将F2的人脸视频子片段V2和相应时间的音频输入音视频同步检测模型得到V2对应的同步检测结果，即得到人脸视频子片段V2对应的人脸F2是否在说相应时间的音频对应的内容。

第三步，根据所生成的每个人脸视频子片段对应的同步检测结果，确定该视频子片段中各帧对应的说话人人脸标识。

例如，对于上述举例中，若人脸视频子片段V1对应的同步检测结果表明V1对应的人脸F1在说相应时间的音频，而人脸视频子片段V2对应的同步检测结果表明V2对应的人脸F2没有在说相应时间的音频，则可以将F1确定为该视频子片段中各帧对应的说话人人脸标识。

按照上述可选实施方式，可以在小的视频片段级别实现说话人检测，相对于帧级别的说话人检测可以减少计算量，而且由于是在场景视频片段内进行视频切分，切分得到的视频子片段中所包括人脸图像相对固定，不会降低说话人检测效果。

步骤203，对目标视频对应的目标音频进行切片处理得到音频片段序列。

这里，目标音频为目标视频所对应的音频数据。而上述执行主体可以采用各种实现方式对目标音频进行切片处理得到音频片段序列。例如，上述执行主体可以按照时间先后顺序，从目标视频的起始时间开始对目标视频进行连续均匀切分，切分得到的每个音频片段时间长度为第一预设时间长度(例如，1.5秒)，直到最后一个音频片段的时间长度小于等于第一预设时间长度。

在一些可选的实施方式中，步骤203也可以如下执行：按照预设滑动窗口从目标音频的起点开始截取音频得到音频片段序列。这里，预设滑动窗口可以包括窗口长度和滑动步长，而预设滑动窗口的窗口长度可大于滑动步长。例如，窗口长度可以是1.5秒，而滑动步长可以是0.75秒。其中，窗口长度为每个截取得到的音频片段的时间长度，而滑动步长为相邻两次截取操作起始时间之间的时间差。由于预设滑动窗口的窗口长度大于滑动步长，截取得到的音频片段序列中相邻两音频片段序列之间存在重叠部分，进而目标音频中音频数据全部体现在音频片段序列中，信息不会丢失。

上述执行主体可以先执行步骤201到步骤202，再执行步骤203；也可以同步执行步骤201到步骤202，以及步骤203；或者还可以先执行步骤203再执行步骤201到步骤202，本公开对此不做具体限定。

步骤204，用音频片段序列中音频片段对应的声纹特征和该音频片段对应的说话人人脸标识生成训练样本中的样本特征和样本标签。

经过步骤203已经得到目标音频对应的音频片段序列。这里，可以采用各种实现方式对音频片段序列中每个音频片段进行声纹特征提取以得到对应的声纹特征。例如，这里声纹特征可以是MFCC(Mel Frequency Cepstral Coefficient，梅尔频率倒谱系数)、PLP(Perceptual Linear Prediction，感知线性预测)、FBank(Filter Banks)等短时频谱特征，i-vector(identity-vector，身份认证向量)，x-vector等基于TDNN(Time DelayNeural Networks，时延神经网络)提取的特征等。

而音频片段序列中每个音频片段对应的说话人人脸标识可以是通过如下方式确定的：

首先，确定该音频片段对应在目标视频中的时间段。

然后，根据步骤202得到的目标视频各帧对应的说话人人脸标识，可以确定在上述时间段内，目标视频中属于上述时间段的各帧对应的说话人人脸标识。

实践中，当音频片段对应的时间段较小时，该时间段内的说话人不会变化，因而目标视频中属于上述时间段的各帧对应的说话人人脸标识也是固定不变的，因此，可以将目标视频中属于上述时间段的各帧对应的说话人人脸标识作为该音频片段对应的说话人标识。

步骤205，基于各训练样本训练初始说话人识别模型，得到说话人识别模型。

这里，训练样本中包括了样本特征和样本标签。训练过程中，可以将训练样本中的样本特征输入初始说话人识别模型，得到输出的实际说话人识别结果，再根据所得到的实际说话人识别结果与该训练样本中的样本标签的差异调整初始说话人识别模型的模型参数，直到满足预设的训练结束条件，进而可以得到说话人识别模型。

这里，说话人识别模型可以是各种现在已知或未来开发的分类器。作为示例，说话人识别模型可以是决策树、RF(Random Forest，随机森林)、GBDT(Gradient BoostingDecision Tree，梯度提升决策树)、多层感知机等。

在一些可选的实施方式中，说话人识别模型可以是各种线性分类器，例如感知器准则函数、SVM(Support Vector Machine，支持向量机)、Fisher准则或称LDA(LinearDiscriminant Analysis，线性判别分析)。采用线性分类器可以加快模型训练速度，进而快速得到说话人识别模型，以加快后续说话人识别速度。

步骤206，根据对目标音频和与目标音频对应的识别文本进行强制对齐的结果，对目标音频按照句子进行切分得到句子音频序列。

在本实施例中，与目标音频对应的识别文本可以是与目标音频对应的说话内容文本，其可以是通过人工标注或者自动语音识别方式得到的。如果识别文本是通过自动语音识别方式得到的，可以是由上述执行主体对目标音频进行语音识别得到的，也可以是由与上述执行主体网络连接的其他电子设备对目标音频进行语音识别得到的。本公开对此不做具体限定。

对目标音频和识别文本进行强制对齐可以是在上述执行主体进行的，也可以是在与上述执行主体网络连接的其他电子设备进行的。相应地，强制对齐的结果可以是直接从上述执行主体本地获取，也可以是从上述其他电子设备获取。

而将目标音频与识别文本进行强制对齐可以是采用各种实现方式。例如，可以采用各种现有的音频文本强制对齐软件进行。而强制对齐的结果可以包括识别文本中不同语句在目标音频中对应的时间段。因此，可以按照识别文本中不同语句在目标音频中对应的时间段，根据对目标音频进行切分，进而得到句子音频序列。其中，句子音频序列中每个句子音频的内容可以对应于识别文本中一个语句。

在一些可选的实施方式中，步骤206可以如下进行：

第一步，对目标音频进行自动语音识别，得到识别文本。

第二步，对目标音频和识别文本进行强制对齐，以确定识别文本中每个字符对应的时间。

这里，为了对目标视频和识别文本进行精确断句，可以对目标音频和识别文本进行字符级别的强制对齐，实践中具体可以采用一些现有音频文本强制对齐软件实现。

第三步，根据识别文本中每个字符对应的时间，对目标音频按照句子进行切分得到句子音频序列。

具体而言，可以由技术人员根据实践经验设定句子之间的停顿时间T，识别文本中相邻两字符c1和c2，其中，c1为前面字符而c2为后面字符，如果c2的起始时间与c1的结束时间之间的时间差值大于T，可以认为c1和c2属于不同的句子，可以在该相邻两字符c1和c2之间断句，即可以将目标音频在c1的结束时间或者c2的起始时间进行切分。反之，如果c2的起始时间与c1的结束时间之间的时间差值不大于T，可以认为c1和c2属于同一个句子，不需要进行句子切分。

按照该可选实施方式，可以实现更精确的对目标音频按照句子进行切分。

步骤207，将每个句子音频对应的声纹特征输入说话人识别模型，得到与该句子音频对应的说话人人脸标识。

在本实施例中，上述执行主体可以首先确定句子音频序列中每个句子音频对应的声纹特征，再将每个句子音频对应的声纹特征输入说话人识别模型，得到与该句子音频对应的说话人人脸标识。进而可以实现对目标视频中的说话人进行分类，同时可以将目标音频按照说话内容的不同语句进行切分，并确定每个语句对应的说话人。

在一些可选的实施方式中，每个句子音频对应的声纹特征可以是通过如下方式得到的：基于该句子音频所包括的各音频片段对应的声纹特征，确定该句子音频对应的声纹特征。如前述步骤204所述，这里，音频片段对应的声纹特征可以是各种声纹特征。而句子音频对应的声纹特征，可以是基于该句子音频所包括的各音频片段对应的声纹特征所得到的。例如，句子音频对应的声纹特征可以是该句子音频所包括的各音频片段对应的声纹特征的均值特征。按照该可选实施方式，可以在句子音频的声纹特征中体现该句子音频各个时段的声纹特征。

在一些可选的实施方式中，目标视频可以是至少两人对话场景视频。即按照上述流程200实现的视频中说话人分类方法，通过结合视频和音频可以实现对至少两人对话场景视频中不同说话人进行分类。

继续参见图3，图3是根据本实施例的视频中说话人分类方法的应用场景的一个示意图。在图3的应用场景中，目标视频301为相声场景视频，该视频中包括相声演员P1和P2，其对应的音频为目标音频302。对目标视频301进行转场检测，得到场景视频片段3011和3012，分别对场景视频片段3011和3012进行人脸检测和人脸追踪，得到场景视频片段3011中的场景内人脸标识30111和30112，以及场景内人脸标识30111和30112对应在场景视频片段3011中各帧图像中所在位置，以及得到场景视频片段3012中的场景内人脸标识30121，以及场景内人脸标识30121对应在场景视频片段3012中各帧图像中所在位置。而场景内人脸标识30111和30112，以及场景内人脸标识30121之间可能也存在重复，为此还需要进行聚类，即从场景视频片段3011中选取4帧并截取场景内人脸标识30111的人脸图像和场景内人脸标识30112的人脸图像，以及从场景视频片段3012中选取4帧并截取场景内人脸标识30121的人脸图像，然后对所得到的上述12个人脸图像进行聚类，得到两个人脸图像，分别是P1和P2的人脸图像，并根据聚类结果将场景人人脸标识30111和30121均关联到P1，将场景人人脸标识30112关联到P2。再分别对场景视频片段3011和3012中各帧进行说话人检测，得到场景视频片段3011中一些帧对应时段为P1在说话，而另一些帧对应时段为P2在说话，场景视频片段3011中一些帧对应时段为P1在说话。

对目标音频302进行切片处理得到音频片段序列303。然后，用音频片段序列303中各音频片段，用该音频片段对应的声纹特征和该音频片段对应的说话人人脸标识生成训练样本中的样本特征和样本标签。再基于各训练样本训练初始说话人识别模型304，得到说话人识别模型304。根据对目标音频302和与目标音频对应的识别文本305进行强制对齐的结果，对目标音频按照句子进行切分得到句子音频序列306。将每个句子音频对应的声纹特征307输入说话人识别模型304，得到与该句子音频对应的说话人人脸标识。

本公开的上述实施例提供的视频中说话人分类方法，通过用人脸识别检测、追踪和聚类得出的说话人标签，再利用不同说话人标签对应的音频数据声纹特征实时训练说话人识别模型，并利用该说话人识别模型对每个句子音频对应的声纹特征做分类，进而得到每个句子音频对应的说话人标识，即实现对视频进行说话人分类以及将目标视频按照说话内容进行句子级别切分并确定相应的说话人。该方案通过音频和语音识别文本的强制对齐提高了断句的精确度，以及通过上述整个过程提高了说话人分类的精确度，减少误判的产生。另外，整个方案不需预先训练模型，减少算法复杂度。

进一步参考图4，作为对上述各图所示方法的实现，本公开提供了一种视频中说话人分类装置的一个实施例，该装置实施例与图2A所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图4所示，本实施例的视频中说话人分类装置400包括：人脸追踪单元401、说话人检测单元402、音频切片单元403、训练样本生成单元404、模型训练单元405、句子切分单元406和分类单元407。其中，人脸追踪单元401，被配置成对目标视频进行人脸追踪得到人脸追踪识别结果，上述人脸追踪识别结果包括上述目标视频中视频帧所包括的人脸图像位置和相应的人脸标识；说话人检测单元402，被配置成基于上述人脸追踪识别结果，对上述目标视频进行说话人检测以确定上述目标视频各帧对应的说话人人脸标识；音频切片单元403，被配置成对上述目标视频对应的目标音频进行切片处理得到音频片段序列；训练样本生成单元404，被配置成用上述音频片段序列中音频片段对应的声纹特征和该音频片段对应的说话人人脸标识生成训练样本中的样本特征和样本标签；模型训练单元405，被配置成基于各上述训练样本训练初始说话人识别模型，得到说话人识别模型；句子切分单元406，被配置成根据对上述目标音频和与上述目标音频对应的识别文本进行强制对齐的结果，对上述目标音频按照句子进行切分得到句子音频序列；分类单元407，被配置成将每个句子音频对应的声纹特征输入上述说话人识别模型，得到与该句子音频对应的说话人人脸标识。

在本实施例中，视频中说话人分类装置400的人脸追踪单元401、说话人检测单元402、音频切片单元403、训练样本生成单元404、模型训练单元405、句子切分单元406和分类单元407的具体处理及其所带来的技术效果可分别参考图2A对应实施例中步骤201、步骤202、步骤203、步骤204、步骤205、步骤206和步骤207的相关说明，在此不再赘述。

在一些可选的实施方式中，上述人脸追踪单元401可以进一步被配置成：

对上述目标视频进行转场检测，得到场景视频片段序列；

基于各上述场景视频片段的人脸图像位置追踪结果，对各上述场景视频片段所包括的人脸图像进行聚类，以及根据聚类结果确定上述人脸追踪识别结果。

在一些可选的实施方式中，所说话人检测单元402可以进一步被配置成：

对于上述目标视频中的视频帧，执行以下说话人标识确定操作：按照上述人脸追踪识别结果中与该视频帧相应的各人脸图像位置截取人脸图像；对所截取的各人脸图像进行唇动检测，并分别得到用于表征各人脸图像中人脸是否在说话的说话检测结果；根据所得到的各人脸图像对应的说话检测结果和相应说话人标识，确定与该视频帧对应的说话人标识。

在一些可选的实施方式中，所说话人检测单元402还可以进一步被配置成：

对于每个场景视频片段对应的每个视频子片段，执行以下说话人确定操作：基于上述人脸追踪识别结果中与该视频子片段对应的人脸图像位置和人脸标识，生成与该视频子片段对应的每个人脸标识对应的人脸视频子片段；将所生成的每个人脸视频子片段和相应时间的音频输入音视频同步检测模型得到对应的同步检测结果；根据所生成的每个人脸视频子片段对应的同步检测结果，确定该视频子片段中各帧对应的说话人人脸标识。

在一些可选的实施方式中，上述句子切分单元406可以进一步被配置成：

对上述目标音频进行自动语音识别，得到识别文本；

对上述目标音频和上述识别文本进行强制对齐，以确定上述识别文本中每个字符对应的时间；

根据上述识别文本中每个字符对应的时间，对上述目标音频按照句子进行切分得到句子音频序列。

在一些可选的实施方式中，每个句子音频对应的声纹特征可以是通过如下方式得到的：

在一些可选的实施方式中，上述基于该句子音频所包括的各音频片段对应的声纹特征，确定该句子音频对应的声纹特征，可以包括：

在一些可选的实施方式中，上述目标视频可以为至少两人对话场景视频。

在一些可选的实施方式中，上述音频切片单元403可以进一步被配置成：

按照预设滑动窗口从上述目标音频的起点开始截取音频得到上述音频片段序列，其中，上述预设滑动窗口的窗口长度大于滑动步长。

在一些可选的实施方式中，上述说话人识别模型可以为线性分类器。

需要说明的是，本公开的实施例提供的视频中说话人分类装置中各单元的实现细节和技术效果可以参考本公开中其它实施例的说明，在此不再赘述。

下面参考图5，其示出了适于用来实现本公开的电子设备的计算机系统500的结构示意图。图5示出的计算机系统500仅仅是一个示例，不应对本公开的实施例的功能和使用范围带来任何限制。

如图5所示，计算机系统500可以包括处理装置(例如中央处理器、图形处理器等)501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储装置508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中，还存储有计算机系统500操作所需的各种程序和数据。处理装置501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

通常，以下装置可以连接至I/O接口505：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风等的输入装置506；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置507；包括例如磁带、硬盘等的存储装置508；以及通信装置509。通信装置509可以允许计算机系统500与其他设备进行无线或有线通信以交换数据。虽然图5示出了具有各种装置的电子设备的计算机系统500，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置509从网络上被下载和安装，或者从存储装置508被安装，或者从ROM 502被安装。在该计算机程序被处理装置501执行时，执行本公开的实施例的方法中限定的上述功能。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备实现如图2A所示的实施例及其可选实施方式示出的视频中说话人分类方法。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开的实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称在某种情况下并不构成对该单元本身的限定，例如，音频切片单元还可以被描述为“对目标视频对应的目标音频进行切片处理得到音频片段序列的单元”。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种视频中说话人分类方法，包括：

对目标视频进行人脸追踪得到人脸追踪识别结果，所述人脸追踪识别结果包括所述目标视频中视频帧所包括的人脸图像位置和相应的人脸标识；

基于所述人脸追踪识别结果，对所述目标视频进行说话人检测以确定所述目标视频各帧对应的说话人人脸标识；

对所述目标视频对应的目标音频进行切片处理得到音频片段序列；

用所述音频片段序列中音频片段对应的声纹特征和该音频片段对应的说话人人脸标识生成训练样本中的样本特征和样本标签；

基于各所述训练样本训练初始说话人识别模型，得到说话人识别模型；

根据对所述目标音频和与所述目标音频对应的识别文本进行强制对齐的结果，对所述目标音频按照句子进行切分得到句子音频序列；

将每个句子音频对应的声纹特征输入所述说话人识别模型，得到与该句子音频对应的说话人人脸标识。

2.根据权利要求1所述的方法，其中，所述对目标视频进行人脸追踪得到人脸追踪识别结果，包括：

对所述目标视频进行转场检测，得到场景视频片段序列；

3.根据权利要求1所述的方法，其中，所述基于所述人脸追踪识别结果，对所述目标视频进行说话人检测以确定所述目标视频各帧对应的说话人人脸标识，包括：

4.根据权利要求2所述的方法，其中，所述基于所述人脸追踪识别结果，对所述目标视频进行说话人检测以确定所述目标视频各帧对应的说话人人脸标识，包括：

5.根据权利要求1所述的方法，其中，所述根据对所述目标音频和与所述目标音频对应的识别文本进行强制对齐的结果，对所述目标音频按照句子进行切分得到句子音频序列，包括：

对所述目标音频进行自动语音识别，得到识别文本；

6.根据权利要求5所述的方法，其中，每个句子音频对应的声纹特征是通过如下方式得到的：

7.根据权利要求6所述的方法，其中，所述基于该句子音频所包括的各音频片段对应的声纹特征，确定该句子音频对应的声纹特征，包括：

8.根据权利要求1所述的方法，其中，所述目标视频为至少两人对话场景视频。

9.根据权利要求1所述的方法，其中，所述对所述目标视频对应的目标音频进行切片处理得到音频片段序列，包括：

10.根据权利要求1所述的方法，其中，所述说话人识别模型为线性分类器。

11.一种视频中说话人分类装置，包括：

12.一种电子设备，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-10中任一所述的方法。

13.一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被一个或多个处理器执行时实现如权利要求1-10中任一所述的方法。