CN114299953B

CN114299953B - 一种结合嘴部运动分析的话者角色区分方法与系统

Info

Publication number: CN114299953B
Application number: CN202111632122.9A
Authority: CN
Inventors: 申意萍; 陈友斌; 徐一波; 张志坚
Original assignee: Hubei Micropattern Technology Development Co ltd
Current assignee: Hubei Micropattern Technology Development Co ltd
Priority date: 2021-12-29
Filing date: 2021-12-29
Publication date: 2022-08-23
Anticipated expiration: 2041-12-29
Also published as: CN114299953A

Abstract

一种结合嘴部运动分析的话者角色区分方法与系统，方法包括：步骤1：分割视频，分割后得到音频信息和视频信息；步骤2：音频信息分析，截取音频信息中出现语音特征的语音片段，记录所述语音片段的时间节点，并提取语音片段的声纹特征用于角色区分；步骤3：视频信息分析，分析视频信息中各角色的嘴部状态，检测视频中对应角色识别到嘴部状态符合说话特征的起始时间节点；步骤4：音视频融合分析划分话者角色。一方面利用音频信息，提取音频特征，并基于音频特征进行说话人转换检测，然后提取声纹特征用于话者角色区分；另一方面利用视频信息，对视频中人说话的起始时间进行判断；最后融合两种检测结果得到更准确的角色区分结果。

Description

一种结合嘴部运动分析的话者角色区分方法与系统

技术领域

本申请涉及音视频分析技术领域，尤其是涉及一种结合嘴部运动分析的话者角色区分方法与系统。

背景技术

银行、证券、保险等金融机构在销售理财产品、贵重金属、保险产品时，根据监管部门的要求必须进行录音录像(简称双录)。不仅如此，双录音视频还必须要符合监管部门的一系列规范与要求。大量的视频，需要大量的人力进行稽核，效率低下且容易出错。为解决这个问题，需要通过计算机进行自动智能稽核。而智能稽核，依赖于语音识别、声纹识别、人脸识别和行为识别技术。语音和声纹识别的作用在于理解双录中行为人说了什么，是否符合话术要求。为了更好的分析行为人说了什么，则需要对音频进行说话人(简称话者)角色区分。一旦进行了角色区分，就可以利用语音识别技术分析和理解行为人的说话内容，从而判断是谁说了什么话、所说的话是否符合话术要求。单纯基于音频分析的话者角色区分方法，在话者说话时间较短，无法提供足够的声纹信息时，会导致区分失败。而从视频图像上，话者说话的时候，嘴巴状态发生变化，这个变化很容易被视觉算法捕捉到。如果单纯基于视频分析做角色区分，那么要求整个过程中话者脸部(尤其是嘴巴)不能被遮挡，否则会区分失败。

上述中的相关现有技术存在以下缺陷：若单纯的依靠音频分析技术进行话者角色划分，如果话者说话时间较短，无法提供足够的声纹信息时，会导致区分失败现象；若单纯的依靠视频，那么要求整个过程中话者脸部(尤其是嘴巴)不能被遮挡，否则会区分失败。

发明内容

为了解决现有技术中单纯采用音频分析技术或视频分析技术进行视频中的话者角色划分都会存在区分失败的问题，本申请提供一种结合嘴部运动分析的话者角色区分方法及系统，采用如下的技术方案：

一种结合嘴部运动分析的话者角色区分方法，包括以下步骤：

步骤1：分割视频，分割后得到音频信息和视频信息；

步骤2：音频信息分析，截取音频信息中出现语音特征的语音片段，记录所述语音片段的时间节点，并提取语音片段的声纹特征用于角色区分；

步骤3：视频信息分析，分析视频信息中各角色的嘴部状态，检测视频中对应角色识别到嘴部状态符合说话特征的起始时间节点；

步骤4：音视频融合分析划分话者角色，匹配步骤2和步骤3两种分析结果的时间节点得到角色划分结果。

通过采用上述技术方案：首先将视频分割成音频信息和视频信息，然后对于音频信息，截取音频信息中出现语音特征的语音片段，记录所述语音片段的时间节点，并提取语音片段的声纹特征用于角色区分；对于视频信息分析，分析视频信息中说话人的嘴部状态，检测视频中对应角色识别到嘴部状态符合说话特征的起始时间节点，最后匹配音频信息和视频信息两种分析结果的时间节点得到角色划分结果。

可选的，所述步骤2采用以下方法具体进行音频信息分析：

Step1：语音检测，采用语音检测模型将所述音频信息帧分为语音部分和非语音部分两类；首先对音频信息进行预处理，包括分帧、降噪，然后利用双门限法、谱分析方法、或者相关法等语言检测方法得到语音部分，避免非语音部分或者噪声对后续步骤的影响；

Step2：角色转换检测，对所述语音部分进行音频分割，分割后的片段只包含单一角色，检测角色发生变化的具体时间点，并根据角色发生变化的具体时间点将语音分割成n个语音片段S₁，…，S_n，其中S_i＝{TStart_i,TEnd_i}，所述TStart_i表示该语音片段的开始时间位置，所述TEnd_i表示该语音片段的结束时间位置；

Step3：声纹特征提取，分别对分割之后的每个语音片段S_i提取对应的声纹特征F_i。

通过采用上述技术方案：利用语音检测模型将音频帧分为语音和非语音两个类别，这里非语音包括静音和环境噪声等；完成语音检测之后，需要对语音部分进行音频分割，使得分割后的片段只包含单一角色。角色转换检测的功能，就是检测角色发生变化的具体时间点，并根据角色发生变化的时间点，将语音分割成多个片段。经过分割，得到n个语音片段S₁，…，S_n，其中S_i＝{TStart_i,TEnd_i}，所述TStart_i表示该语音片段的开始时间位置，所述TEnd_i表示该语音片段的结束时间位置。

对分段之后的每个语音片段S_i提取声纹特征F_i，用于聚类分析，判断每一个片段来自哪个角色。

可选的，所述Step2中，采用基于左右窗比较的方法或窗分类的方法进行角色转换检测，抓取发生角色转换的所有节点音频帧，以所述节点音频帧为分界点，将语音部分分段，得到n个语音片段S₁，…，S_n，其中S_i＝{TStart_i,TEnd_i}。

通过采用上述技术方案：基于左右窗比较的方法或窗分类的方法进行角色转换检测，能精准的抓取发生角色转换的所有节点音频帧，并以节点音频帧为分界点得到n个语音片段S₁，…，S_n。

可选的，所述Step3中，分别对分割之后的每个语音片段S_i采用i-vector、d-vector、x-vector提取对应的声纹特征F_i，对于时间长度低于1秒的语音片段的声纹特征作留空处理。

通过采用上述技术方案：采用i-vector、d-vector、x-vector或其他深度学习方法提取语音片段S_i的声纹特征，更加高效精准，对于时间过短(一般设定时间长度低于1秒)的语音片段，有可能无法提取可靠的声纹特征，我们将其声纹特征留空。

可选的，所述步骤3采用以下步骤具体进行视频信息分析：

a.人脸检测和跟踪，对视频信息部分，进行人脸检测和跟踪，根据跟踪结果获取视频中人的数量，这里用M表示视频中人的数量；

b.角色嘴巴状态分析。对视频中每个角色的嘴巴状态进行跟踪分析，根据嘴巴动态特征，判断对应角色是否处于说话状态；

c.角色说话时间判断，根据人脸跟踪结果和嘴巴状态分析结果，判断视频中对应角色的说话时间段。

通过采用上述技术方案：对视频信息先进行人脸检测和跟踪，视频中会出现这对应角色数量的人脸；对视频中每个角色的嘴巴状态进行分析，判断嘴巴是否处于说话状态，根据人脸跟踪结果和嘴巴状态分析结果，判断视频中对应角色的说话时间段。

可选的，所述人脸检测采用Adaboost算法、MTCNN算法或one-stage算法，人脸检测之后，采用相关滤波算法、SORT、DeepSort或基于SiamNet类的跟踪算法进行跟踪，所述相关滤波算法具体是KCF跟踪算法、STAPLE跟踪算法或ECO跟踪算法。

通过采用上述技术方案：人脸检测算法可以采用传统的Adaboost算法，也可以采用MTCNN算法、SSD系列算法或者YOLO系列算法。人脸检测之后，采用KCF、STAPLE、ECO或其他相关滤波算法进行跟踪，也可以采用SORT、DeepSort或者基于SiamNet类的跟踪算法进行跟踪，采用上述方法进行人脸检测和跟踪更加精准，效率更高。

可选的，所述角色嘴巴状态分析采用ESR、SDM或者基于深度学习的人脸关键点定位算法检测嘴巴关键点位置或进行唇形检测，对角色嘴巴状态进行分析，若角色的嘴巴处于张合变化状态，则判断该角色处于说话状态。

通过采用上述技术方案：采用ESR、SDM或者基于深度学习的人脸关键点定位算法检测嘴巴关键点位置或进行唇形检测，能通过对应角色的嘴巴状态精准的检测出是否处于说话状态。

根据人脸跟踪结果和嘴巴状态分析结果判断视频中角色说话时间段，记录各角色说话的时间段为

所述

表示角色i的第j个说话时间段，所述a_i表示角色i说话时间段的次数。

通过采用上述技术方案：通过人脸跟踪结果和嘴巴状态分析结果，完成视频中对应角色的说话段的归集。

可选的，所述步骤4采用以下方法具体进行音视频融合分析划分话者角色：

d.从视频分析中获取对应于语音片段S_i的时间段{TStart_i,TEnd_i}中，各角色嘴巴处于说话状态的总时间长度，选择总时间长度最长，且长度大于p*(TEnd_i-TStart_i)的角色作为该语音片段的匹配角色，p值取0.5，得到初级划分结果R＝{Q_i|i＝1,…,M}，其中Q_i表示划分给第i个人的所有语音片段集合；

e.对于所述步骤d中无法确定说话人的语音片段S_i，若该片段可以提取声纹特征，根据其声纹特征F_i判断其说话人是否为初级划分结果中的角色或者是其他角色；

f.对于所述步骤d中无法确定说话人的语音片段S_i，若该片段无法提取声纹特征，则丢弃。

通过采用上述技术方案：可以高效的进行音视频融合分析划分话者角色，最终得到角色划分结果R＝{Q_i|i＝1,…,M}更加准确。

可选的，所述步骤e中，采用以下具体方法进行判断：

①.设初级划分结果Q_j可以提取声纹特征的一个语音片段

其声纹特征为

计算所有

的平均作为中心向量Fc_j，计算所有初级划分结果Q_j的所有语音片段声纹特征的中心向量Fc_j，j＝1,2,…,M；

②.分别计算F_i与Fc_j，j＝1,2,…,M的余弦距离，选择余弦距离最大且距离大于事先给定的阈值t的类作为S_i的话者角色，阈值t取0.6；

或分别计算F_i与Fc_j，j＝1,2,…,M的欧式距离、马氏距离、切空间距离或者街区距离，选择距离最小且距离小于事先给定的阈值t的类作为S_i的话者角色；

③.若步骤②无法确定角色，则判定该Si来自初级划分结果之外的另外角色，丢弃该语音片段。

通过采用上述技术方案：通过进一步的声纹特征中心向量比对，能够实现对步骤d中无法确定说话人的语音片段S_i的角色划分。

一种结合嘴部运动分析的话者角色区分系统，包括录音录像设备、处理器、存储器，所述存储器内预装有话者角色区分程序，所述录音录像设备采集到的视频储存在存储器，所述处理器运行存储器内的话者角色区分程序完成对录音录像设备采集到的视频的话者角色区分。

还有显示器，所述处理器通过显示器显示话者角色区分程序运行界面和结果。

通过采用上述技术方案：录音录像设备采集视频，并将视频储存在存储器，处理器运行存储器内的话者角色区分程序完成对录音录像设备采集到的视频的话者角色区分，并最终将话者角色区分结果通过显示器显示。

综上所述，本申请包括以下至少一种有益技术效果：

1.本发明提出一种结合嘴部运动分析的话者角色区分方法，一方面利用音频信息，提取音频特征，并基于音频特征进行说话人转换检测，然后提取声纹特征用于话者角色区分；另一方面利用视频信息，分析视频中说话人的嘴部状态，对视频中人说话的起始时间进行判断；最后融合两种检测结果得到更准确的角色区分结果。

2.该方法具有高效准确等优点，能够大大提高智能稽核中语音分析理解的准确性。

3.本发明的一种结合嘴部运动分析的话者角色区分系统能完成对待稽核视频的采集存储，同时完成对视频的话者角色区分，高效精准。

附图说明

图1是本发明的话者角色区分方法的流程示意图；

图2是本发明话者角色区分系统的结构原理示意图。

具体实施方式

以下结合附图1-图2对本申请作进一步详细说明。

本申请实施例公开一种结合嘴部运动分析的话者角色区分方法及系统。

参照图1，一种结合嘴部运动分析的话者角色区分方法，包括以下步骤：

步骤1：分割视频，分割后得到音频信息和视频信息；

步骤2：音频信息分析，截取音频信息中出现语音特征的语音片段，记录语音片段的时间节点，并提取语音片段的声纹特征用于角色区分；

首先将视频分割成音频信息和视频信息，然后对于音频信息，截取音频信息中出现语音特征的语音片段，记录语音片段的时间节点，并提取语音片段的声纹特征用于角色区分；对于视频信息分析，分析视频信息中说话人的嘴部状态，检测视频中对应角色识别到嘴部状态符合说话特征的起始时间节点，最后匹配音频信息和视频信息两种分析结果的时间节点得到角色划分结果。

步骤2采用以下方法具体进行音频信息分析：

Step1：语音检测，采用语音检测模型将音频信息帧分为语音部分和非语音部分两类；首先对音频信息进行预处理，包括分帧、降噪，然后利用双门限法、谱分析方法、或者相关法等语言检测方法得到语音部分，避免非语音部分或者噪声对后续步骤的影响；

Step2：角色转换检测，对语音部分进行音频分割，分割后的片段只包含单一角色，检测角色发生变化的具体时间点，并根据角色发生变化的具体时间点将语音分割成n个语音片段S₁，…，S_n，其中S_i＝{TStart_i,TEnd_i}，TStart_i表示该语音片段的开始时间位置，TEnd_i表示该语音片段的结束时间位置；

利用语音检测模型将音频帧分为语音和非语音两个类别，这里非语音包括静音和环境噪声等；完成语音检测之后，需要对语音部分进行音频分割，使得分割后的片段只包含单一角色。角色转换检测的功能，就是检测角色发生变化的具体时间点，并根据角色发生变化的时间点，将语音分割成多个片段。经过分割，得到n个语音片段S₁，…，S_n，其中S_i＝{TStart_i,TEnd_i}，TStart_i表示该语音片段的开始时间位置，TEnd_i表示该语音片段的结束时间位置。

Step2中，采用基于左右窗比较的方法或窗分类的方法进行角色转换检测，抓取发生角色转换的所有节点音频帧，以节点音频帧为分界点，将语音部分分段，得到n个语音片段S₁，…，S_n，其中S_i＝{TStart_i,TEnd_i}。

基于左右窗比较的方法或窗分类的方法进行角色转换检测，能精准的抓取发生角色转换的所有节点音频帧，并以节点音频帧为分界点得到n个语音片段S₁，…，S_n。

Step3中，分别对分割之后的每个语音片段S_i采用i-vector、d-vector、x-vector或其他深度学习方法提取对应的声纹特征F_i，对于时间长度低于1秒的语音片段的声纹特征作留空处理。

采用i-vector、d-vector、x-vector或其他深度学习方法提取语音片段S_i的声纹特征，更加高效精准，对于时间过短(一般设定时间长度低于1秒)的语音片段，有可能无法提取可靠的声纹特征，我们将其声纹特征留空。

步骤3采用以下步骤具体进行视频信息分析：

a.人脸检测和跟踪，对视频信息部分，按角色进行人脸检测和跟踪，根据跟踪结果得到视频中人的数量，这里用M表示视频中人的数量；

对视频信息先进行人脸检测和跟踪，视频中会出现这对应角色数量的人脸；对视频中每个角色的嘴巴状态进行分析，判断嘴巴是否处于说话状态，根据人脸跟踪结果和嘴巴状态分析结果，判断视频中对应角色的说话时间段。

人脸检测采用Adaboost算法、MTCNN算法或one-stage算法，人脸检测之后，采用KCF跟踪算法进行跟踪。

人脸检测算法可以采用传统的Adaboost算法，也可以采用MTCNN算法或者其他one-stage的算法。人脸检测之后，采用相关滤波算法、SORT、DeepSort或基于SiamNet类的跟踪算法进行跟踪，相关滤波算法具体是KCF跟踪算法、STAPLE跟踪算法或ECO跟踪算法；

人脸检测算法可以采用传统的Adaboost算法，也可以采用MTCNN算法、SSD系列或者YOLO系列算法。人脸检测之后，采用KCF、STAPLE、ECO或其他相关滤波算法进行跟踪，也可以采用SORT、DeepSort或者基于SiamNet类的跟踪算法进行跟踪，采用上述方法进行人脸检测和跟踪更加精准，效率更高。

角色嘴巴状态分析采用ESR、SDM或者基于深度学习的人脸关键点定位算法检测嘴巴关键点位置或进行唇形检测，对角色嘴巴状态进行分析，若角色的嘴巴处于张合变化状态，则判断该角色处于说话状态。

采用ESR、SDM或者基于深度学习的人脸关键点定位算法检测嘴巴关键点位置或进行唇形检测，能通过对应角色的嘴巴状态精准的检测出是否处于说话状态。

表示角色i的第j个说话时间段，a_i表示角色i说话时间段的次数。

通过人脸跟踪结果和嘴巴状态分析结果，完成视频中对应角色的说话段的归集。

步骤4采用以下方法具体进行音视频融合分析划分话者角色：

e.对于步骤d中无法确定说话人的语音片段S_i，若该片段可以提取声纹特征，根据其声纹特征F_i判断其说话人是否为初级划分结果中的角色或者是其他角色；

f.对于步骤d中无法确定说话人的语音片段S_i，若该片段无法提取声纹特征，则丢弃。

可以高效的进行音视频融合分析划分话者角色，最终得到角色划分结果R＝{Q_i|i＝1,…,M}更加准确。

步骤e中，采用以下具体方法进行判断：

①.设初级划分结果Q_j可以提取声纹特征的一个语音片段

其声纹特征为

计算所有

通过进一步的声纹特征中心向量比对，能够实现对步骤d中无法确定说话人的语音片段S_i的角色划分。

参照图2，一种结合嘴部运动分析的话者角色区分系统，包括录音录像设备1、处理器2、存储器3，存储器3内预装有话者角色区分程序，录音录像设备1采集到的视频储存在存储器3，处理器2运行存储器3内的话者角色区分程序完成对录音录像设备1采集到的视频的话者角色区分。

还有显示器4，处理器2通过显示器4显示话者角色区分程序运行界面和结果。

录音录像设备1采集视频，并将视频储存在存储器3，处理器2运行存储器3内的话者角色区分程序完成对录音录像设备1采集到的视频的话者角色区分，并最终将话者角色区分结果通过显示器4显示。

本申请实施例一种结合嘴部运动分析的话者角色区分方法及系统的实施原理为：

录音录像设备1采集视频，并将视频储存在存储器3，处理器2运行存储器3内的话者角色区分程序，分割视频，分割后得到音频信息和视频信息；

用语音检测模型将音频帧分为语音和非语音两个类别，这里非语音包括静音和环境噪声等；首先对音频信息进行预处理，包括分帧、降噪，然后利用双门限法、谱分析方法、或者相关法等语言检测方法得到语音部分，避免非语音部分或者噪声对后续步骤的影响；完成语音检测之后，采用基于左右窗比较的方法或窗分类的方法进行角色转换检测，抓取发生角色转换的所有节点音频帧，以节点音频帧为分界点，将语音部分分段，得到n个语音片段S₁，…，S_n，其中S_i＝{TStart_i,TEnd_i}。分别对分割之后的每个语音片段S_i采用i-vector、d-vector、x-vector或其他深度学习方法提取对应的声纹特征F_i，对于时间长度低于1秒的语音片段的声纹特征作留空处理；

对视频信息采用Adaboost算法、MTCNN算法、SSD系列或YOLO系列算法进行人脸检测，人脸检测之后，采用KCF跟踪算法进行跟踪，按人脸跟踪结果得到具体的角色数量和角色划分；采用ESR、SDM或者基于深度学习的人脸关键点定位算法检测对应角色嘴巴关键点位置或者进行唇形检测，对嘴巴的状态进行分析，如果嘴巴处于张合变化的状态，则判断嘴巴处于说话状态，对应的角色处于说话状态。根据人脸跟踪结果和嘴巴状态分析结果判断视频中角色说话时间段，记录各角色说话的时间段为

表示角色i的第j个说话时间段，a_i表示角色i说话时间段的次数，完成视频中对应角色的说话段的归集。

从视频分析中获取对应于语音片段S_i的时间段{TStart_i,TEnd_i}中，各角色嘴巴处于说话状态的总时间长度，选择总时间长度最长，且长度大于p*(TEnd_i-TStart_i)的角色作为该语音片段的匹配角色，p值取0.5，得到初级划分结果R＝{Q_i|i＝1,…,M}，其中Q_i表示划分给第i个人的所有语音片段集合；无法确定说话人的语音片段S_i，若该片段可以提取声纹特征，设对应语音片段S_i的声纹特征为F_i，设初级划分结果Q_j可以提取声纹特征的一个语音片段

其声纹特征为

计算所有

的平均作为中心向量Fc_j，计算所有初级划分结果Q_j的所有语音片段声纹特征的中心向量Fc_j，j＝1,2,…,M，分别计算F_i与Fc_j，j＝1,2,…,M的余弦距离，选择余弦距离最大且距离大于事先给定的阈值t的类作为S_i的话者角色，阈值t取0.6，或分别计算F_i与Fc_j，j＝1,2,…,M的欧式距离、马氏距离、切空间距离或者街区距离，选择距离最小且距离小于事先给定的阈值t的类作为S_i的话者角色；若还无法确定角色，则判定该S_i来自初级划分结果之外的另外角色，丢弃该语音片段。

至此就完成了对视频的音视频话者角色的划分，对于角色划分的具体结果存储在存储器3，通过显示器4显示。

该角色划分的具体结果方便后续的自动话术稽核完成对具体角色说话内容的判定。

准确的话者角色区分，可以帮助我们分析双录视频中说话人的数量以及每个说话人的准确说话时间，从而有助于更好地完成语音识别任务，便于进行自动话术稽核。

除此之外，该话者角色区分方法还可以用于智能会议，医患交流等场合。

在智能会议中，利用话者角色区分系统，可以得到准确的标注发言人的会议记录，也可以根据发言人的说话时长，对会议进行分析和分类。

在医患交流场合，借助话者角色区分系统和语音识别技术，可以得到详细的交流记录并进行结构化信息处理，提高医护人员工作效率的同时还可以进行自动诊断分析。

以上均为本申请的较佳实施例，并非依此限制本申请的保护范围，故：凡依本申请的结构、形状、原理所做的等效变化，均应涵盖于本申请的保护范围之内。

Claims

1.一种结合嘴部运动分析的话者角色区分方法，其特征在于：包括以下步骤：步骤1：分割视频，分割后得到音频信息和视频信息；步骤2：音频信息分析，截取音频信息中出现语音特征的语音片段，记录所述语音片段的时间节点，并提取语音片段的声纹特征用于角色区分；步骤3：视频信息分析，分析视频信息中各角色的嘴部状态，检测视频中对应角色识别到嘴部状态符合说话特征的起始时间节点；步骤4：音视频融合分析划分话者角色，匹配步骤2和步骤3两种分析结果的时间节点得到角色划分结果；

所述步骤2采用以下方法具体进行音频信息分析：Step1：语音检测，采用语音检测模型将音频信息帧分为语音部分和非语音部分两类；Step2：角色转换检测，对所述语音部分进行音频分割，分割后的片段只包含单一角色，检测角色发生变化的具体时间点，并根据角色发生变化的具体时间点将语音分割成n个语音片段S1，…，Sn，其中Si＝{TStarti,TEndi}，所述TStarti表示该语音片段的开始时间位置，所述TEndi表示该语音片段的结束时间位置；Step3：声纹特征提取，分别对分割之后的每个语音片段Si提取对应的声纹特征Fi；

所述步骤4采用以下方法具体进行音视频融合分析划分话者角色：d.从视频分析中获取对应于语音片段Si的时间段{TStarti,TEndi}中，各角色嘴巴处于说话状态的总时间长度，选择总时间长度最长，且长度大于p*(TEndi-TStarti)的角色作为该语音片段的匹配角色，得到初级划分结果R＝{Qi|i＝1,…,M}，其中Qi表示划分给第i个人的所有语音片段集合；e.对于所述步骤d中无法确定说话人的语音片段Si，若该片段可以提取声纹特征，根据其声纹特征Fi判断其说话人是否为初级划分结果中的角色或者是其他角色；f.对于所述步骤d中无法确定说话人的语音片段Si，若该片段无法提取声纹特征，则丢弃；

所述步骤e中，采用以下具体方法进行判断：①.设初级划分结果Qj可以提取声纹特征的一个语音片段

其声纹特征为

计算所有

的平均作为中心向量Fcj，计算所有初级划分结果Qj的所有语音片段声纹特征的中心向量Fcj，j＝1,2,…,M；②.分别计算Fi与Fcj，j＝1,2,…,M的余弦距离，选择余弦距离最大且距离大于事先给定的阈值t的类作为Si的话者角色；或分别计算Fi与Fcj，j＝1,2,…,M的欧式距离、马氏距离、切空间距离或者街区距离，选择距离最小且距离小于事先给定的阈值t的类作为Si的话者角色；③.若步骤②无法确定角色，则判定该Si来自初级划分结果之外的另外角色，丢弃该语音片段。

2.根据权利要求1所述的一种结合嘴部运动分析的话者角色区分方法，其特征在于：所述Step2中，采用基于左右窗比较的方法或窗分类的方法进行角色转换检测，抓取发生角色转换的所有节点音频帧，以所述节点音频帧为分界点，将语音部分分段，得到n个语音片段S1，…，Sn，其中Si＝{TStarti,TEndi}。

3.根据权利要求1所述的一种结合嘴部运动分析的话者角色区分方法，其特征在于：所述Step3中，分别对分割之后的每个语音片段Si采用i-vector、d-vector或x-vector提取对应的声纹特征Fi，对于时间长度低于1秒的语音片段的声纹特征作留空处理。

4.根据权利要求1-3任一所述的一种结合嘴部运动分析的话者角色区分方法，其特征在于：所述步骤3采用以下步骤具体进行视频信息分析：a.人脸检测和跟踪，对视频信息部分，进行人脸检测和跟踪，根据跟踪结果得到视频中人的数量，这里用M表示视频中人的数量；b.角色嘴巴状态分析，对视频中每个角色的嘴巴状态进行跟踪分析，根据嘴巴动态特征，判断对应角色是否处于说话状态；c.角色说话时间判断，根据人脸跟踪结果和嘴巴状态分析结果，判断视频中对应角色的说话时间段。

5.根据权利要求4所述的一种结合嘴部运动分析的话者角色区分方法，其特征在于：视频信息分析中的人脸检测采用Adaboost算法、MTCNN算法、SSD算法或者YOLO算法，人脸检测之后，采用相关滤波算法、SORT、DeepSort或基于SiamNet类的跟踪算法进行跟踪，所述相关滤波算法具体是KCF跟踪算法、STAPLE跟踪算法或ECO跟踪算法；所述角色嘴巴状态分析采用ESR、SDM或者基于深度学习的人脸关键点定位算法检测嘴巴关键点位置或进行唇形检测，对角色嘴巴状态进行分析，若角色的嘴巴处于张合变化状态，则判断该角色处于说话状态；根据人脸跟踪结果和嘴巴状态分析结果判断视频中各角色说话时间段，记录各角色说话的时间段为

所述

表示角色i的第j个说话时间段，所述ai表示角色i说话时间段的次数。

6.一种结合嘴部运动分析的话者角色区分系统，其特征在于：包括录音录像设备(1)、处理器(2)、存储器(3)，所述存储器(3)内预装有根据权利要求1-5中任一项所述方法设计的话者角色区分程序，所述录音录像设备(1)采集到的视频储存在存储器(3)，所述处理器(2)运行存储器(3)内的话者角色区分程序完成对录音录像设备(1)采集到的视频的话者角色区分。

7.根据权利要求6所述一种结合嘴部运动分析的话者角色区分系统，其特征在于：还有显示器(4)，所述处理器(2)通过显示器(4)显示话者角色区分程序运行界面和结果。