CN114282621B

CN114282621B - 一种多模态融合的话者角色区分方法与系统

Info

Publication number: CN114282621B
Application number: CN202111633230.8A
Authority: CN
Inventors: 申意萍; 陈友斌; 张志坚; 徐一波
Original assignee: Hubei Micropattern Technology Development Co ltd
Current assignee: Hubei Micropattern Technology Development Co ltd
Priority date: 2021-12-29
Filing date: 2021-12-29
Publication date: 2022-08-23
Anticipated expiration: 2041-12-29
Also published as: CN114282621A

Abstract

一种多模态融合的话者角色区分方法与系统，方法包括：步骤1：分割视频，分割后得到音频信息和视频信息；步骤2：音频信息分析，截取音频信息中出现语音特征的语音片段，记录所述语音片段的时间节点，并提取语音片段的声纹特征用于角色区分；步骤3：视频信息分析，跟踪分析视频信息中各角色的说话特征信息，所述说话特征信息包括头部状态信息、口罩信息和嘴巴状态信息。一方面利用音频信息，提取音频特征，并基于音频特征进行说话人转换检测，然后提取声纹特征用于话者角色区分；另一方面利用视频信息，分析视频中说话人的头部状态、口罩和嘴巴状态，对视频中人说话的起始时间进行判断；最后融合两种检测结果得到更准确的角色区分结果。

Description

一种多模态融合的话者角色区分方法与系统

技术领域

本申请涉及音视频分析技术领域，尤其是涉及一种多模态融合的话者角色区分方法与系统。

背景技术

在智能双录、视频会议、医疗系统等领域，为了更好的分析有哪些人参与了说话，这些人都说了什么，需要先进行说话人（简称话者）角色区分。一旦进行了角色区分，就可以利用语音识别技术分析和理解话者的说话内容，从而判断是谁说了什么话。单纯基于音频分析的话者角色区分方法，在话者说话时间较短，无法提供足够的声纹信息时，会导致区分失败。而从视频图像上，话者说话的时候，嘴巴状态发生变化，这个变化很容易被视觉算法捕捉到。人与人之间相处时经常需要佩戴口罩，这就给嘴巴状态分析带了困扰。此外，当说话人脸部背对摄像头时也无法分析嘴巴状态。

通过大量的视频分析，我们发现当人在说话的时候，根据说话内容有可能做出摇头、点头、转头等动作，同时，即使佩戴着口罩或者其他遮挡物，说话的时候，嘴巴的运动也会引起口罩的运动。因此，综合分析头部状态、口罩和嘴巴运动状态，我们也可以较可靠地判断该人是否处于说话状态。当然，头部发生运动的时候不代表人一定处于说话状态，我们使用置信度来表示发生该运动时人说话的概率，并结合优先分析嘴巴，口罩次之，头部再次之的方式来得到随时间的说话置信度曲线。

上述中的相关现有技术存在以下缺陷：若单纯的依靠音频分析技术进行话者角色划分，如果话者说话时间较短，无法提供足够的声纹信息时，会导致区分失败现象；若单纯的依靠视频，那么要求整个过程中话者脸部（尤其是嘴巴）不能被遮挡，否则会区分失败。

发明内容

为了解决现有技术中单纯采用音频分析技术或视频分析技术进行视频中的话者角色划分都会存在区分失败的问题，本申请提供一种多模态融合的话者角色区分方法与系统，采用如下的技术方案：

一种多模态融合的话者角色区分方法，包括以下步骤：

步骤1：分割视频，分割后得到音频信息和视频信息；

步骤2：音频信息分析，截取音频信息中出现语音特征的语音片段，记录所述语音片段的时间节点，并提取语音片段的声纹特征用于角色区分；

步骤3：视频信息分析，跟踪分析视频信息中各角色的说话特征信息，所述说话特征信息包括头部状态信息、口罩信息和嘴巴状态信息，跟踪视频信息中对应角色识别符合说话特征类的起始时间节点；

步骤4：音视频融合分析划分话者角色，匹配步骤2和步骤3两种分析结果的时间节点得到角色划分结果。

通过采用上述技术方案，首先将视频分割成音频信息和视频信息，然后对于音频信息，截取音频信息中出现语音特征的语音片段，记录所述语音片段的时间节点，并提取语音片段的声纹特征用于角色区分；

对于视频信息分析，跟踪分析视频信息中各角色的头部状态信息、口罩信息和嘴巴状态信息，检测视频信息中对应角色识别符合说话特征的起始时间节点，最后匹配音频信息和视频信息两种分析结果的时间节点得到角色划分结果。

可选的，所述步骤2采用以下方法具体进行音频信息分析：

Step1：语音检测，采用语音检测模型将所述音频信息帧分为语音部分和非语音部分两类；首先对音频信息进行预处理，包括分帧、降噪，然后利用双门限法、谱分析方法、或者相关法等语音检测方法得到语音部分，避免非语音部分或者噪声对后续步骤的影响；

Step2：角色转换检测，对所述语音部分进行音频分割，分割后的片段只包含单一角色，检测角色发生变化的具体时间点，并根据角色发生变化的具体时间点将语音分割成n个语音片段S1，…，Sn，其中Si={TStarti,TEndi}，所述TStarti表示该语音片段的开始时间位置，所述TEndi表示该语音片段的结束时间位置；

Step3：声纹特征提取，分别对分割之后的每个语音片段Si提取对应的声纹特征Fi。

通过采用上述技术方案，利用语音检测模型将音频帧分为语音和非语音两个类别，这里非语音包括静音和环境噪声等；完成语音检测之后，需要对语音部分进行音频分割，使得分割后的片段只包含单一角色。角色转换检测的功能，就是检测角色发生变化的具体时间点，并根据角色发生变化的时间点，将语音分割成多个片段。经过分割，得到n个语音片段S1，…，Sn，其中Si={TStarti,TEndi}，所述TStarti表示该语音片段的开始时间位置，所述TEndi表示该语音片段的结束时间位置。

对分段之后的每个语音片段Si提取声纹特征Fi，用于聚类分析，判断每一个片段来自哪个角色。

可选的，所述Step2中，采用基于左右窗比较的方法或窗分类的方法进行角色转换检测，抓取发生角色转换的所有节点音频帧，以所述节点音频帧为分界点，将语音部分分段，得到n个语音片段S1，…，Sn，其中Si={TStarti,TEndi}。

通过采用上述技术方案，基于左右窗比较的方法或窗分类的方法进行角色转换检测，能精准的抓取发生角色转换的所有节点音频帧，并以节点音频帧为分界点得到n个语音片段S1，…，Sn。

可选的，所述Step3中，分别对分割之后的每个语音片段Si采用i-vector、d-vector、x-vector提取对应的声纹特征Fi，对于时间长度低于1秒的语音片段的声纹特征作留空处理。

通过采用上述技术方案，采用i-vector、d-vector、x-vector或其他深度学习方法提取语音片段Si的声纹特征，更加高效精准，对于时间过短（一般设定时间长度低于1秒）的语音片段，有可能无法提取可靠的声纹特征，我们将其声纹特征留空。

可选的，所述步骤3采用以下步骤具体进行视频信息分析：

a.人头检测和跟踪，对视频信息部分，进行人头检测和跟踪，根据跟踪结果确定视频中角色的数量，这里用Ｍ表示视频中角色的数量；

b.角色嘴巴状态分析，首先判断嘴巴是否可见，若嘴巴可见，则进行嘴巴张合状态分析，根据嘴巴动态特征判断对应角色是否处于说话状态；若嘴巴不可见，则进行遮挡物状态分析，根据遮挡物动态特征判断对应角色是否处于说话状态；

c.角色说话时间判断，根据人脸跟踪结果和嘴巴状态分析结果，判断视频中对应角色的说话时间段和置信度。

通过采用上述技术方案，对视频信息先进行人头检测和跟踪，视频中会出现对应角色数量的人脸；如果检测到人脸，首先判断嘴巴部分是否被遮挡，如果嘴巴没有被遮挡，则对嘴巴的状态进行分析。如果嘴巴处于张合变化的状态，则判断对应角色嘴巴处于说话状态，并记录该说话状态的时间段。

可选的，采用以下步骤具体进行视频信息分析：

在人头检测区域采用Adaboost、MTCNN、RetinaFace或PyramidBox算法进行人脸检测，若检测到人脸，则调用带遮挡判断功能的关键点定位算法进行关键点定位，并判断嘴巴部分是否被遮挡；

若嘴巴可见，则进行嘴巴张合状态分析，若嘴巴处于张合变化的状态，则判断嘴巴对应的角色处于说话状态，记录该角色当前说话的时间节点，并将该角色对应时间节点的说话置信度设置为fm；

若角色嘴巴不可见，则使用光流法对遮挡嘴巴的口罩或者其他遮挡物进行光流分析，若检测到口罩运动，将判断对应角色处于说话状态，记录该角色当前说话的时间节点，并将该角色对应时间节点的说话置信度设置为fk；

若步骤a中没有检测到人脸，则对人头的运动状态进行分析，判断该角色是否处于说话附带动作状态，所述说话附带动作状态包括摇头、点头或转头，若判断该角色处于说话附带动作状态，则将判断对应角色处于说话状态，记录该角色当前说话的时间节点，并将该角色对应时间节点的说话置信度设置为fh；

对于视频信息的其它时刻，将说话置信度设为0，据此得到每个角色随时间变化的说话置信度曲线，如图3所示。

通过采用上述技术方案，在人头检测区域进行人脸检测，可采用Adaboost人脸检测算法，或者MTCNN、RetinaFace、PyramidBox等。如果检测到人脸，则调用带遮挡判断功能的关键点定位算法进行关键点定位，并判断嘴巴部分是否被遮挡。如果嘴巴没有被遮挡，则对嘴巴的状态进行分析。如果嘴巴处于张合变化的状态，则判断嘴巴处于说话状态，并将该人在当前时刻的说话置信度设置为fm。

如果嘴巴被遮挡，则使用光流法对遮挡嘴巴的口罩或者其他遮挡物进行光流分析，若检测到口罩运动，将该人在当前时刻的说话置信度设置为fk。

如果没有检测到人脸，那么对人头的运动进行分析，正常情况下，人在说话时头部都会出现摇头、点头、转头等附带运动状态，这样就可以通过这些附带运动特征的判断来对角色的是否处于说话状态进行置信度的评价，判断对应角色的人头如果处于这些附带运动状态，则将该人在当前时刻的说话置信度设置为fh。

对于其他时刻，将说话置信度置为0。据此得到每个角色随时间变化的说话置信度曲线，如图3所示。

可选的，所述步骤4采用以下方法具体进行音视频融合分析划分话者角色：

所述步骤4采用以下方法具体进行音视频融合分析划分话者角色：

d.从视频分析中获取对应于语音片段Si的时间段{TStarti,TEndi}中，各角色处于说话状态的总时间长度，选择总时间长度最长，长度大于p*(TEndi-TStarti) ，且平均置信度大于q的角色作为该语音片段的匹配角色，得到初级划分结果R={Qi|i=1,…,M}，其中Qi表示划分给第ｉ个人的所有语音片段集合；

e.对于所述步骤d中无法确定说话人的语音片段Si，若该片段可以提取声纹特征，根据其声纹特征Fi判断其说话人是否为初级划分结果中的角色或者是其他角色；

f.对于步骤d和e均无法确定说话人的可以提取声纹特征且时间长度大于t1的语音片段，使用Native聚类或谱聚类的方法得到新的角色划分，保留总说话时间长度大于t2的角色，并将其并入到步骤d和e的划分结果中，得到最终的划分结果R={Qi|i=1,…,N}，所述N=M+T，所述T为步骤e得到的角色数量；

g.对于上述步骤均无法确定说话人的语音片段Si，则丢弃。

通过采用上述技术方案，可以高效的进行音视频融合分析划分话者角色，最终得到角色划分结果R={Qi|i=1,…,N}更加准确。

可选的，所述步骤e中，采用以下具体方法进行判断：

①.设初级划分结果Qj可以提取声纹特征的一个语音片段Q，其声纹特征为F ，计算所有F 的平均作为中心向量Fcj，计算所有初级划分结果Qj的所有语音片段声纹特征的中心向量Fcj，j=1,2,…,M；

②.分别计算Fi与Fcj，j=1,2,…,M的余弦距离，选择余弦距离最大且距离大于事先给定的阈值t的类作为Si的话者角色，这里，阈值t取0.6；

或分别计算Fi与Fcj，j=1,2,…,M的欧式距离、马氏距离、切空间距离或者街区距离，选择距离最小且距离小于事先给定的阈值t的类作为Si的话者角色，这里t的取值需要根据使用的距离度量方式进行设定；

③.若步骤②无法确定角色，则判定该Si来自初级划分结果之外的另外角色。

通过采用上述技术方案，通过进一步的声纹特征中心向量比对，能够实现对步骤d中无法确定说话人的语音片段Si的角色划分。

一种话者角色区分系统，包括录音录像设备、处理器、存储器，所述存储器内预装有话者角色区分程序，所述录音录像设备采集到的视频储存在存储器，所述处理器运行存储器内的话者角色区分程序完成对录音录像设备采集到的视频的话者角色区分。

还有显示器，所述处理器通过显示器显示话者角色区分程序运行界面和结果。

通过采用上述技术方案，录音录像设备采集视频，并将视频储存在存储器，处理器运行存储器内的话者角色区分程序完成对录音录像设备采集到的视频的话者角色区分，并最终将话者角色区分结果通过显示器显示。

综上所述，本申请包括以下至少一种有益技术效果：

1.本发明的一种多模态融合的话者角色区分方法，一方面利用音频信息，提取音频特征，并基于音频特征进行说话人转换检测，然后提取声纹特征用于话者角色区分；另一方面利用视频信息，分析视频中说话人的头部状态、口罩和嘴巴状态，对视频中人说话的起始时间进行判断；最后融合两种检测结果得到更准确的角色区分结果。

该方法具有高效准确等优点，能够大大提高语音分析理解的准确性。

本发明所提出的多模态融合的话者角色区分系统能完成对待稽核视频的采集存储，同时完成对视频的话者角色区分，高效精准。

附图说明

图1是本发明的话者角色区分方法的流程示意图；

图2是本发明话者角色区分系统的结构原理示意图。

图3是本发明的话者说话置信度曲线示意图。

具体实施方式

以下结合附图1-图3对本申请作进一步详细说明。

本申请实施例公开一种话者角色区分方法及系统。

参照图1，一种多模态融合的话者角色区分方法，包括以下步骤：

步骤1：分割视频，分割后得到音频信息和视频信息；

步骤2：音频信息分析，截取音频信息中出现语音特征的语音片段，记录语音片段的时间节点，并提取语音片段的声纹特征用于角色区分；

步骤3：视频信息分析，跟踪分析视频信息中各角色的说话特征信息，说话特征信息包括头部状态信息、口罩信息和嘴巴状态信息，跟踪视频信息中对应角色识别符合说话特征类的起始时间节点；

首先将视频分割成音频信息和视频信息，然后对于音频信息，截取音频信息中出现语音特征的语音片段，记录语音片段的时间节点，并提取语音片段的声纹特征用于角色区分；

步骤2采用以下方法具体进行音频信息分析：

Step1：语音检测，采用语音检测模型将音频信息帧分为语音部分和非语音部分两类；首先对音频信息进行预处理，包括分帧、降噪，然后利用双门限法、谱分析方法、或者相关法等语音检测方法得到语音部分，避免非语音部分或者噪声对后续步骤的影响；

Step2：角色转换检测，对语音部分进行音频分割，分割后的片段只包含单一角色，检测角色发生变化的具体时间点，并根据角色发生变化的具体时间点将语音分割成n个语音片段S1，…，Sn，其中Si={TStarti,TEndi}，TStarti表示该语音片段的开始时间位置，TEndi表示该语音片段的结束时间位置；

利用语音检测模型将音频帧分为语音和非语音两个类别，这里非语音包括静音和环境噪声等；完成语音检测之后，需要对语音部分进行音频分割，使得分割后的片段只包含单一角色。角色转换检测的功能，就是检测角色发生变化的具体时间点，并根据角色发生变化的时间点，将语音分割成多个片段。经过分割，得到n个语音片段S1，…，Sn，其中Si={TStarti,TEndi}，TStarti表示该语音片段的开始时间位置，TEndi表示该语音片段的结束时间位置。

中，采用基于左右窗比较的方法或窗分类的方法进行角色转换检测，抓取发生角色转换的所有节点音频帧，以节点音频帧为分界点，将语音部分分段，得到n个语音片段S1，…，Sn，其中Si={TStarti,TEndi}。

基于左右窗比较的方法或窗分类的方法进行角色转换检测，能精准的抓取发生角色转换的所有节点音频帧，并以节点音频帧为分界点得到n个语音片段S1，…，Sn。

中，分别对分割之后的每个语音片段Si采用i-vector、d-vector、x-vector提取对应的声纹特征Fi，对于时间长度低于1秒的语音片段的声纹特征作留空处理。

采用i-vector、d-vector、x-vector或其他深度学习方法提取语音片段Si的声纹特征，更加高效精准，对于时间过短（一般设定时间长度低于1秒）的语音片段，有可能无法提取可靠的声纹特征，我们将其声纹特征留空。

步骤3采用以下步骤具体进行视频信息分析：

c.角色说话时间判断，根据人脸跟踪结果和嘴巴状态分析结果，判断视频中对应角色的说话时间段。

对视频信息先进行人头检测和跟踪，视频中会出现对应角色数量的人脸；如果检测到人脸，首先判断嘴巴部分是否被遮挡，如果嘴巴没有被遮挡，则对嘴巴的状态进行分析。如果嘴巴处于张合变化的状态，则判断对应角色嘴巴处于说话状态，并记录该说话状态的时间段。

采用以下步骤具体进行视频信息分析：

若步骤a中没有检测到人脸，则对人头的运动状态进行分析，判断该角色是否处于说话附带动作状态，说话附带动作状态包括摇头、点头或转头，若判断该角色处于说话附带动作状态，则将判断对应角色处于说话状态，记录该角色当前说话的时间节点，并将该角色对应时间节点的说话置信度设置为fh；

对于视频信息的其它时刻，将说话置信度设为0，据此得到每个角色随时间变化的说话置信度曲线。

在人头检测区域进行人脸检测，可采用Adaboost人脸检测算法，或者MTCNN、RetinaFace、PyramidBox等。如果检测到人脸，则调用带遮挡判断功能的关键点定位算法进行关键点定位，并判断嘴巴部分是否被遮挡。如果嘴巴没有被遮挡，则对嘴巴的状态进行分析。如果嘴巴处于张合变化的状态，则判断嘴巴处于说话状态，并将该人在当前时刻的说话置信度设置为fm。

步骤4采用以下方法具体进行音视频融合分析划分话者角色：

e.对于步骤d中无法确定说话人的语音片段Si，若该片段可以提取声纹特征，根据其声纹特征Fi判断其说话人是否为初级划分结果中的角色或者是其他角色；

f.对于步骤d和e均无法确定说话人的可以提取声纹特征且时间长度大于t1的语音片段，使用Native聚类或谱聚类的方法得到新的角色划分，保留总说话时间长度大于t2的角色，并将其并入到步骤d和e的划分结果中，得到最终的划分结果R={Qi|i=1,…,N}，N=M+T，T为步骤e得到的角色数量；

g.对于上述步骤均无法确定说话人的语音片段Si，则丢弃。

可以高效的进行音视频融合分析划分话者角色，最终得到角色划分结果R={Qi|i=1,…,N}更加准确。

步骤e中，采用以下具体方法进行判断：

①.设初级划分结果Qj可以提取声纹特征的一个语音片段Q ，其声纹特征为F ，计算所有F 的平均作为中心向量Fcj，计算所有初级划分结果Qj的所有语音片段声纹特征的中心向量Fcj，j=1,2,…,M；

通过进一步的声纹特征中心向量比对，能够实现对步骤d中无法确定说话人的语音片段Si的角色划分。

参照图2，一种多模态融合的话者角色区分系统，包括录音录像设备1、处理器2、存储器3，存储器3内预装有话者角色区分程序，录音录像设备1采集到的视频储存在存储器3，处理器2运行存储器3内的话者角色区分程序完成对录音录像设备1采集到的视频的话者角色区分。

还有显示器4，处理器2通过显示器4显示话者角色区分程序运行界面和结果。

录音录像设备1采集视频，并将视频储存在存储器3，处理器2运行存储器3内的话者角色区分程序完成对录音录像设备1采集到的视频的话者角色区分，并最终将话者角色区分结果通过显示器4显示。

本申请实施例一种多模态融合的话者角色区分方法与系统的实施原理为：

录音录像设备1采集视频，并将视频储存在存储器3，处理器2运行存储器3内的话者角色区分程序，分割视频，分割后得到音频信息和视频信息；

用语音检测模型将音频帧分为语音和非语音两个类别，这里非语音包括静音和环境噪声等；首先对音频信息进行预处理，包括分帧、降噪，然后利用双门限法、谱分析方法、或者相关法等语音检测方法得到语音部分，避免非语音部分或者噪声对后续步骤的影响；完成语音检测之后，采用基于左右窗比较的方法或窗分类的方法进行角色转换检测，抓取发生角色转换的所有节点音频帧，以节点音频帧为分界点，将语音部分分段，得到n个语音片段S1，…，Sn，其中Si={TStarti,TEndi}。分别对分割之后的每个语音片段Si采用i-vector、d-vector、x-vector或其他深度学习方法提取对应的声纹特征Fi，对于时间长度低于1秒的语音片段的声纹特征作留空处理；

对视频信息中的人头检测区域进行人脸检测，可采用Adaboost人脸检测算法，或者MTCNN、RetinaFace、PyramidBox等。如果检测到人脸，则调用带遮挡判断功能的关键点定位算法进行关键点定位，并判断嘴巴部分是否被遮挡。如果嘴巴没有被遮挡，则对嘴巴的状态进行分析。如果嘴巴处于张合变化的状态，则判断嘴巴处于说话状态，并将该人在当前时刻的说话置信度设置为fm。

如果嘴巴被遮挡，则使用光流法对遮挡嘴巴的口罩或者其他遮挡物进行运动分析，若检测到口罩运动，将该人在当前时刻的说话置信度设置为fk。

对于其他时刻，将说话置信度置为0。据此得到每个角色随时间变化的说话置信度曲线。

从视频分析中获取对应于语音片段Si的时间段{TStarti,TEndi}中，各角色处于说话状态的总时间长度，选择总时间长度最长，长度大于p*(TEndi-TStarti) ，且平均置信度大于q的角色作为该语音片段的匹配角色，得到初级划分结果R={Qi|i=1,…,M}，其中Qi表示划分给第ｉ个人的所有语音片段集合；

③.若步骤②无法确定角色，则判定该Si来自初级划分结果之外的另外角色，丢弃该语音片段。

对于步骤d和e均无法确定说话人的可以提取声纹特征且时间长度大于t1的语音片段，使用Native聚类或谱聚类的方法得到新的角色划分，保留总说话时间长度大于t2的角色，并将其并入到步骤d和e的划分结果中，得到最终的划分结果R={Qi|i=1,…,N}，N=M+T，T为步骤e得到的角色数量；

g.对于上述步骤均无法确定说话人的语音片段Si，则丢弃。

至此就完成了对视频的音视频话者角色的划分，对于角色划分的具体结果存储在存储器3，通过显示器4显示。

该角色划分的具体结果方便后续的自动话术稽核完成对具体角色说话内容的判定。

准确的话者角色区分，可以帮助我们分析双录视频中话者的数量以及每个角色的准确说话时间，从而有助于更好地完成语音识别任务，便于进行自动话术稽核。除此之外，话者角色区分还可以用于智能会议，医患交流等场合。在智能会议中，利用一种多模态融合的话者角色区分方法与系统，可以得到准确的标注发言人的会议记录，也可以根据发言人的说话时长，对会议进行分析和分类。在医患交流场合，借助话者角色区分系统和语音识别技术，可以得到详细的交流记录并进行结构化信息处理，提高医护人员工作效率的同时还可以进行自动诊断分析。

以上均为本申请的较佳实施例，并非依此限制本申请的保护范围，故：凡依本申请的结构、形状、原理所做的等效变化，均应涵盖于本申请的保护范围之内。

Claims

1.一种多模态融合的话者角色区分方法，其特征在于：包括以下步骤：步骤1：分割视频，分割后得到音频信息和视频信息；步骤2：音频信息分析，截取音频信息中出现语音特征的语音片段，记录所述语音片段的时间节点，并提取语音片段的声纹特征用于角色区分；步骤3：视频信息分析，跟踪分析视频信息中各角色的说话特征信息，所述说话特征信息包括头部状态信息、口罩信息和嘴巴状态信息，跟踪视频信息中对应角色识别符合说话特征类的起始时间节点；步骤4：音视频融合分析划分话者角色，匹配步骤2和步骤3两种分析结果的时间节点得到角色划分结果；

步骤3采用以下步骤进行视频信息分析：a.人头检测和跟踪，对视频信息部分，进行人头检测和跟踪，根据跟踪结果确定视频中角色的数量，这里用M表示视频中角色的数量；b.角色嘴巴状态分析，首先判断嘴巴是否可见，若嘴巴可见，则进行嘴巴张合状态分析，根据嘴巴动态特征判断对应角色是否处于说话状态；若嘴巴不可见，则进行遮挡物状态分析，根据遮挡物动态特征判断对应角色是否处于说话状态；c.角色说话时间判断，根据人头跟踪结果和嘴巴状态分析结果，判断视频中对应角色的说话时间段和置信度；

采用以下步骤具体进行视频信息分析：在人头检测区域采用Adaboost、MTCNN、RetinaFace或PyramidBox算法进行人脸检测，若检测到人脸，则调用带遮挡判断功能的关键点定位算法进行关键点定位，并判断嘴巴部分是否被遮挡；若嘴巴可见，则进行嘴巴张合状态分析，若嘴巴处于张合变化的状态，则判断嘴巴对应的角色处于说话状态，记录该角色当前说话的时间节点，并将该角色对应时间节点的说话置信度设置为fm；若角色嘴巴不可见，则使用光流法对遮挡嘴巴的口罩或者其他遮挡物进行光流分析，若检测到口罩运动，则判断对应角色处于说话状态，记录该角色当前说话的时间节点，并将该角色对应时间节点的说话置信度设置为fk；若步骤a中没有检测到人脸，则对人头的运动状态进行分析，判断该角色是否处于说话附带动作状态，所述说话附带动作状态包括摇头、点头或转头，若判断该角色处于说话附带动作状态，则将判断对应角色处于说话状态，记录该角色当前说话的时间节点，并将该角色对应时间节点的说话置信度设置为fh；对于视频信息的其它时刻，将说话置信度设为0，据此得到每个角色随时间变化的说话置信度曲线。

2.根据权利要求1所述的一种多模态融合的话者角色区分方法，其特征在于：所述步骤2采用以下方法具体进行音频信息分析：Step1：语音检测，采用语音检测模型将所述音频信息帧分为语音部分和非语音部分两类；Step2：角色转换检测，对所述语音部分进行音频分割，分割后的片段只包含单一角色：检测角色发生变化的具体时间点，并根据角色发生变化的具体时间点将语音分割成n个语音片段S1，…，Sn，其中Si＝{TStarti,TEndi}，所述TStarti表示该语音片段的开始时间位置，所述TEndi表示该语音片段的结束时间位置；Step3：声纹特征提取，分别对分割之后的每个语音片段Si提取对应的声纹特征Fi。

3.根据权利要求2所述的一种多模态融合的话者角色区分方法，其特征在于：所述Step2中，采用基于左右窗比较的方法或窗分类的方法进行角色转换检测，抓取发生角色转换的所有节点音频帧，以所述节点音频帧为分界点，将语音部分分段，得到n个语音片段S1，…，Sn，其中Si＝{TStarti,TEndi}。

4.根据权利要求2所述的一种多模态融合的话者角色区分方法，其特征在于：所述Step3中，分别对分割之后的每个语音片段Si采用i-vector、d-vector或x-vector提取对应的声纹特征Fi，对于时间长度低于1秒的语音片段的声纹特征作留空处理。

5.根据权利要求1-4任一项所述的一种多模态融合的话者角色区分方法，其特征在于：所述步骤4采用以下方法具体进行音视频融合分析划分话者角色：d.从视频分析中获取对应于语音片段Si的时间段{TStarti,TEndi}中，各角色处于说话状态的总时间长度，选择总时间长度最长，长度大于p*(TEndi-TStarti)，且平均置信度大于q的角色作为该语音片段的匹配角色，得到初级划分结果R＝{Qi|i＝1,…,M}，其中Qi表示划分给第i个人的所有语音片段集合；e.对于所述步骤d中无法确定说话人的语音片段Si，若该片段可以提取声纹特征，根据其声纹特征Fi判断其说话人是否为初级划分结果中的角色或者是其他角色；f.对于步骤d和e均无法确定说话人的可以提取声纹特征且时间长度大于t1的语音片段，使用Native聚类或谱聚类的方法得到新的角色划分，保留总说话时间长度大于t2的角色，并将其并入到步骤d和e的划分结果中，得到最终的划分结果R＝{Qi|i＝1,…,N}，所述N＝M+T，所述T为步骤e得到的角色数量；g.对于上述步骤均无法确定说话人的语音片段Si，则丢弃。

6.根据权利要求5所述的一种多模态融合的话者角色区分方法与系统，其特征在于：所述步骤e中，采用以下具体方法进行判断：①.设初级划分结果Qj可以提取声纹特征的一个语音片段其声纹特征为计算所有的平均作为中心向量Fcj，计算所有初级划分结果Qj的所有语音片段声纹特征的中心向量Fcj，j＝1,2,…,M；②.分别计算Fi与Fcj，j＝1,2,…,M的余弦距离，选择余弦距离最大且距离大于事先给定的阈值t的类作为Si的话者角色；或分别计算Fi与Fcj，j＝1,2,…,M的欧式距离、马氏距离、切空间距离或者街区距离，选择距离最小且距离小于事先给定的阈值t的类作为Si的话者角色；③.若步骤②无法确定角色，则判定该Si来自初级划分结果之外的另外角色。

7.一种多模态融合的话者角色区分系统，其特征在于：包括录音录像设备(1)、处理器(2)、存储器(3)，所述存储器(3)内预装有根据权利要求1-6中任一项所述方法设计的话者角色区分程序，所述录音录像设备(1)采集到的视频储存在存储器(3)，所述处理器(2)运行存储器(3)内的话者角色区分程序完成对录音录像设备(1)采集到的视频的话者角色区分。

8.根据权利要求7所述一种多模态融合的话者角色区分系统，其特征在于：还有显示器(4)，所述处理器(2)通过显示器(4)显示话者角色区分程序运行界面和结果。