CN114299953B - 一种结合嘴部运动分析的话者角色区分方法与系统 - Google Patents

一种结合嘴部运动分析的话者角色区分方法与系统 Download PDF

Info

Publication number
CN114299953B
CN114299953B CN202111632122.9A CN202111632122A CN114299953B CN 114299953 B CN114299953 B CN 114299953B CN 202111632122 A CN202111632122 A CN 202111632122A CN 114299953 B CN114299953 B CN 114299953B
Authority
CN
China
Prior art keywords
role
voice
video
speaker
mouth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111632122.9A
Other languages
English (en)
Other versions
CN114299953A (zh
Inventor
申意萍
陈友斌
徐一波
张志坚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hubei Micropattern Technology Development Co ltd
Original Assignee
Hubei Micropattern Technology Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hubei Micropattern Technology Development Co ltd filed Critical Hubei Micropattern Technology Development Co ltd
Priority to CN202111632122.9A priority Critical patent/CN114299953B/zh
Publication of CN114299953A publication Critical patent/CN114299953A/zh
Application granted granted Critical
Publication of CN114299953B publication Critical patent/CN114299953B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

一种结合嘴部运动分析的话者角色区分方法与系统,方法包括:步骤1:分割视频,分割后得到音频信息和视频信息;步骤2:音频信息分析,截取音频信息中出现语音特征的语音片段,记录所述语音片段的时间节点,并提取语音片段的声纹特征用于角色区分;步骤3:视频信息分析,分析视频信息中各角色的嘴部状态,检测视频中对应角色识别到嘴部状态符合说话特征的起始时间节点;步骤4:音视频融合分析划分话者角色。一方面利用音频信息,提取音频特征,并基于音频特征进行说话人转换检测,然后提取声纹特征用于话者角色区分;另一方面利用视频信息,对视频中人说话的起始时间进行判断;最后融合两种检测结果得到更准确的角色区分结果。

Description

一种结合嘴部运动分析的话者角色区分方法与系统
技术领域
本申请涉及音视频分析技术领域,尤其是涉及一种结合嘴部运动分析的话者角色区分方法与系统。
背景技术
银行、证券、保险等金融机构在销售理财产品、贵重金属、保险产品时,根据监管部门的要求必须进行录音录像(简称双录)。不仅如此,双录音视频还必须要符合监管部门的一系列规范与要求。大量的视频,需要大量的人力进行稽核,效率低下且容易出错。为解决这个问题,需要通过计算机进行自动智能稽核。而智能稽核,依赖于语音识别、声纹识别、人脸识别和行为识别技术。语音和声纹识别的作用在于理解双录中行为人说了什么,是否符合话术要求。为了更好的分析行为人说了什么,则需要对音频进行说话人(简称话者)角色区分。一旦进行了角色区分,就可以利用语音识别技术分析和理解行为人的说话内容,从而判断是谁说了什么话、所说的话是否符合话术要求。单纯基于音频分析的话者角色区分方法,在话者说话时间较短,无法提供足够的声纹信息时,会导致区分失败。而从视频图像上,话者说话的时候,嘴巴状态发生变化,这个变化很容易被视觉算法捕捉到。如果单纯基于视频分析做角色区分,那么要求整个过程中话者脸部(尤其是嘴巴)不能被遮挡,否则会区分失败。
上述中的相关现有技术存在以下缺陷:若单纯的依靠音频分析技术进行话者角色划分,如果话者说话时间较短,无法提供足够的声纹信息时,会导致区分失败现象;若单纯的依靠视频,那么要求整个过程中话者脸部(尤其是嘴巴)不能被遮挡,否则会区分失败。
发明内容
为了解决现有技术中单纯采用音频分析技术或视频分析技术进行视频中的话者角色划分都会存在区分失败的问题,本申请提供一种结合嘴部运动分析的话者角色区分方法及系统,采用如下的技术方案:
一种结合嘴部运动分析的话者角色区分方法,包括以下步骤:
步骤1:分割视频,分割后得到音频信息和视频信息;
步骤2:音频信息分析,截取音频信息中出现语音特征的语音片段,记录所述语音片段的时间节点,并提取语音片段的声纹特征用于角色区分;
步骤3:视频信息分析,分析视频信息中各角色的嘴部状态,检测视频中对应角色识别到嘴部状态符合说话特征的起始时间节点;
步骤4:音视频融合分析划分话者角色,匹配步骤2和步骤3两种分析结果的时间节点得到角色划分结果。
通过采用上述技术方案:首先将视频分割成音频信息和视频信息,然后对于音频信息,截取音频信息中出现语音特征的语音片段,记录所述语音片段的时间节点,并提取语音片段的声纹特征用于角色区分;对于视频信息分析,分析视频信息中说话人的嘴部状态,检测视频中对应角色识别到嘴部状态符合说话特征的起始时间节点,最后匹配音频信息和视频信息两种分析结果的时间节点得到角色划分结果。
可选的,所述步骤2采用以下方法具体进行音频信息分析:
Step1:语音检测,采用语音检测模型将所述音频信息帧分为语音部分和非语音部分两类;首先对音频信息进行预处理,包括分帧、降噪,然后利用双门限法、谱分析方法、或者相关法等语言检测方法得到语音部分,避免非语音部分或者噪声对后续步骤的影响;
Step2:角色转换检测,对所述语音部分进行音频分割,分割后的片段只包含单一角色,检测角色发生变化的具体时间点,并根据角色发生变化的具体时间点将语音分割成n个语音片段S1,…,Sn,其中Si={TStarti,TEndi},所述TStarti表示该语音片段的开始时间位置,所述TEndi表示该语音片段的结束时间位置;
Step3:声纹特征提取,分别对分割之后的每个语音片段Si提取对应的声纹特征Fi
通过采用上述技术方案:利用语音检测模型将音频帧分为语音和非语音两个类别,这里非语音包括静音和环境噪声等;完成语音检测之后,需要对语音部分进行音频分割,使得分割后的片段只包含单一角色。角色转换检测的功能,就是检测角色发生变化的具体时间点,并根据角色发生变化的时间点,将语音分割成多个片段。经过分割,得到n个语音片段S1,…,Sn,其中Si={TStarti,TEndi},所述TStarti表示该语音片段的开始时间位置,所述TEndi表示该语音片段的结束时间位置。
对分段之后的每个语音片段Si提取声纹特征Fi,用于聚类分析,判断每一个片段来自哪个角色。
可选的,所述Step2中,采用基于左右窗比较的方法或窗分类的方法进行角色转换检测,抓取发生角色转换的所有节点音频帧,以所述节点音频帧为分界点,将语音部分分段,得到n个语音片段S1,…,Sn,其中Si={TStarti,TEndi}。
通过采用上述技术方案:基于左右窗比较的方法或窗分类的方法进行角色转换检测,能精准的抓取发生角色转换的所有节点音频帧,并以节点音频帧为分界点得到n个语音片段S1,…,Sn
可选的,所述Step3中,分别对分割之后的每个语音片段Si采用i-vector、d-vector、x-vector提取对应的声纹特征Fi,对于时间长度低于1秒的语音片段的声纹特征作留空处理。
通过采用上述技术方案:采用i-vector、d-vector、x-vector或其他深度学习方法提取语音片段Si的声纹特征,更加高效精准,对于时间过短(一般设定时间长度低于1秒)的语音片段,有可能无法提取可靠的声纹特征,我们将其声纹特征留空。
可选的,所述步骤3采用以下步骤具体进行视频信息分析:
a.人脸检测和跟踪,对视频信息部分,进行人脸检测和跟踪,根据跟踪结果获取视频中人的数量,这里用M表示视频中人的数量;
b.角色嘴巴状态分析。对视频中每个角色的嘴巴状态进行跟踪分析,根据嘴巴动态特征,判断对应角色是否处于说话状态;
c.角色说话时间判断,根据人脸跟踪结果和嘴巴状态分析结果,判断视频中对应角色的说话时间段。
通过采用上述技术方案:对视频信息先进行人脸检测和跟踪,视频中会出现这对应角色数量的人脸;对视频中每个角色的嘴巴状态进行分析,判断嘴巴是否处于说话状态,根据人脸跟踪结果和嘴巴状态分析结果,判断视频中对应角色的说话时间段。
可选的,所述人脸检测采用Adaboost算法、MTCNN算法或one-stage算法,人脸检测之后,采用相关滤波算法、SORT、DeepSort或基于SiamNet类的跟踪算法进行跟踪,所述相关滤波算法具体是KCF跟踪算法、STAPLE跟踪算法或ECO跟踪算法。
通过采用上述技术方案:人脸检测算法可以采用传统的Adaboost算法,也可以采用MTCNN算法、SSD系列算法或者YOLO系列算法。人脸检测之后,采用KCF、STAPLE、ECO或其他相关滤波算法进行跟踪,也可以采用SORT、DeepSort或者基于SiamNet类的跟踪算法进行跟踪,采用上述方法进行人脸检测和跟踪更加精准,效率更高。
可选的,所述角色嘴巴状态分析采用ESR、SDM或者基于深度学习的人脸关键点定位算法检测嘴巴关键点位置或进行唇形检测,对角色嘴巴状态进行分析,若角色的嘴巴处于张合变化状态,则判断该角色处于说话状态。
通过采用上述技术方案:采用ESR、SDM或者基于深度学习的人脸关键点定位算法检测嘴巴关键点位置或进行唇形检测,能通过对应角色的嘴巴状态精准的检测出是否处于说话状态。
根据人脸跟踪结果和嘴巴状态分析结果判断视频中角色说话时间段,记录各角色说话的时间段为
Figure BDA0003441324450000051
所述
Figure BDA0003441324450000052
表示角色i的第j个说话时间段,所述ai表示角色i说话时间段的次数。
通过采用上述技术方案:通过人脸跟踪结果和嘴巴状态分析结果,完成视频中对应角色的说话段的归集。
可选的,所述步骤4采用以下方法具体进行音视频融合分析划分话者角色:
d.从视频分析中获取对应于语音片段Si的时间段{TStarti,TEndi}中,各角色嘴巴处于说话状态的总时间长度,选择总时间长度最长,且长度大于p*(TEndi-TStarti)的角色作为该语音片段的匹配角色,p值取0.5,得到初级划分结果R={Qi|i=1,…,M},其中Qi表示划分给第i个人的所有语音片段集合;
e.对于所述步骤d中无法确定说话人的语音片段Si,若该片段可以提取声纹特征,根据其声纹特征Fi判断其说话人是否为初级划分结果中的角色或者是其他角色;
f.对于所述步骤d中无法确定说话人的语音片段Si,若该片段无法提取声纹特征,则丢弃。
通过采用上述技术方案:可以高效的进行音视频融合分析划分话者角色,最终得到角色划分结果R={Qi|i=1,…,M}更加准确。
可选的,所述步骤e中,采用以下具体方法进行判断:
①.设初级划分结果Qj可以提取声纹特征的一个语音片段
Figure BDA0003441324450000061
其声纹特征为
Figure BDA0003441324450000062
计算所有
Figure BDA0003441324450000063
的平均作为中心向量Fcj,计算所有初级划分结果Qj的所有语音片段声纹特征的中心向量Fcj,j=1,2,…,M;
②.分别计算Fi与Fcj,j=1,2,…,M的余弦距离,选择余弦距离最大且距离大于事先给定的阈值t的类作为Si的话者角色,阈值t取0.6;
或分别计算Fi与Fcj,j=1,2,…,M的欧式距离、马氏距离、切空间距离或者街区距离,选择距离最小且距离小于事先给定的阈值t的类作为Si的话者角色;
③.若步骤②无法确定角色,则判定该Si来自初级划分结果之外的另外角色,丢弃该语音片段。
通过采用上述技术方案:通过进一步的声纹特征中心向量比对,能够实现对步骤d中无法确定说话人的语音片段Si的角色划分。
一种结合嘴部运动分析的话者角色区分系统,包括录音录像设备、处理器、存储器,所述存储器内预装有话者角色区分程序,所述录音录像设备采集到的视频储存在存储器,所述处理器运行存储器内的话者角色区分程序完成对录音录像设备采集到的视频的话者角色区分。
还有显示器,所述处理器通过显示器显示话者角色区分程序运行界面和结果。
通过采用上述技术方案:录音录像设备采集视频,并将视频储存在存储器,处理器运行存储器内的话者角色区分程序完成对录音录像设备采集到的视频的话者角色区分,并最终将话者角色区分结果通过显示器显示。
综上所述,本申请包括以下至少一种有益技术效果:
1.本发明提出一种结合嘴部运动分析的话者角色区分方法,一方面利用音频信息,提取音频特征,并基于音频特征进行说话人转换检测,然后提取声纹特征用于话者角色区分;另一方面利用视频信息,分析视频中说话人的嘴部状态,对视频中人说话的起始时间进行判断;最后融合两种检测结果得到更准确的角色区分结果。
2.该方法具有高效准确等优点,能够大大提高智能稽核中语音分析理解的准确性。
3.本发明的一种结合嘴部运动分析的话者角色区分系统能完成对待稽核视频的采集存储,同时完成对视频的话者角色区分,高效精准。
附图说明
图1是本发明的话者角色区分方法的流程示意图;
图2是本发明话者角色区分系统的结构原理示意图。
具体实施方式
以下结合附图1-图2对本申请作进一步详细说明。
本申请实施例公开一种结合嘴部运动分析的话者角色区分方法及系统。
参照图1,一种结合嘴部运动分析的话者角色区分方法,包括以下步骤:
步骤1:分割视频,分割后得到音频信息和视频信息;
步骤2:音频信息分析,截取音频信息中出现语音特征的语音片段,记录语音片段的时间节点,并提取语音片段的声纹特征用于角色区分;
步骤3:视频信息分析,分析视频信息中各角色的嘴部状态,检测视频中对应角色识别到嘴部状态符合说话特征的起始时间节点;
步骤4:音视频融合分析划分话者角色,匹配步骤2和步骤3两种分析结果的时间节点得到角色划分结果。
首先将视频分割成音频信息和视频信息,然后对于音频信息,截取音频信息中出现语音特征的语音片段,记录语音片段的时间节点,并提取语音片段的声纹特征用于角色区分;对于视频信息分析,分析视频信息中说话人的嘴部状态,检测视频中对应角色识别到嘴部状态符合说话特征的起始时间节点,最后匹配音频信息和视频信息两种分析结果的时间节点得到角色划分结果。
步骤2采用以下方法具体进行音频信息分析:
Step1:语音检测,采用语音检测模型将音频信息帧分为语音部分和非语音部分两类;首先对音频信息进行预处理,包括分帧、降噪,然后利用双门限法、谱分析方法、或者相关法等语言检测方法得到语音部分,避免非语音部分或者噪声对后续步骤的影响;
Step2:角色转换检测,对语音部分进行音频分割,分割后的片段只包含单一角色,检测角色发生变化的具体时间点,并根据角色发生变化的具体时间点将语音分割成n个语音片段S1,…,Sn,其中Si={TStarti,TEndi},TStarti表示该语音片段的开始时间位置,TEndi表示该语音片段的结束时间位置;
Step3:声纹特征提取,分别对分割之后的每个语音片段Si提取对应的声纹特征Fi
利用语音检测模型将音频帧分为语音和非语音两个类别,这里非语音包括静音和环境噪声等;完成语音检测之后,需要对语音部分进行音频分割,使得分割后的片段只包含单一角色。角色转换检测的功能,就是检测角色发生变化的具体时间点,并根据角色发生变化的时间点,将语音分割成多个片段。经过分割,得到n个语音片段S1,…,Sn,其中Si={TStarti,TEndi},TStarti表示该语音片段的开始时间位置,TEndi表示该语音片段的结束时间位置。
对分段之后的每个语音片段Si提取声纹特征Fi,用于聚类分析,判断每一个片段来自哪个角色。
Step2中,采用基于左右窗比较的方法或窗分类的方法进行角色转换检测,抓取发生角色转换的所有节点音频帧,以节点音频帧为分界点,将语音部分分段,得到n个语音片段S1,…,Sn,其中Si={TStarti,TEndi}。
基于左右窗比较的方法或窗分类的方法进行角色转换检测,能精准的抓取发生角色转换的所有节点音频帧,并以节点音频帧为分界点得到n个语音片段S1,…,Sn
Step3中,分别对分割之后的每个语音片段Si采用i-vector、d-vector、x-vector或其他深度学习方法提取对应的声纹特征Fi,对于时间长度低于1秒的语音片段的声纹特征作留空处理。
采用i-vector、d-vector、x-vector或其他深度学习方法提取语音片段Si的声纹特征,更加高效精准,对于时间过短(一般设定时间长度低于1秒)的语音片段,有可能无法提取可靠的声纹特征,我们将其声纹特征留空。
步骤3采用以下步骤具体进行视频信息分析:
a.人脸检测和跟踪,对视频信息部分,按角色进行人脸检测和跟踪,根据跟踪结果得到视频中人的数量,这里用M表示视频中人的数量;
b.角色嘴巴状态分析。对视频中每个角色的嘴巴状态进行跟踪分析,根据嘴巴动态特征,判断对应角色是否处于说话状态;
c.角色说话时间判断,根据人脸跟踪结果和嘴巴状态分析结果,判断视频中对应角色的说话时间段。
对视频信息先进行人脸检测和跟踪,视频中会出现这对应角色数量的人脸;对视频中每个角色的嘴巴状态进行分析,判断嘴巴是否处于说话状态,根据人脸跟踪结果和嘴巴状态分析结果,判断视频中对应角色的说话时间段。
人脸检测采用Adaboost算法、MTCNN算法或one-stage算法,人脸检测之后,采用KCF跟踪算法进行跟踪。
人脸检测算法可以采用传统的Adaboost算法,也可以采用MTCNN算法或者其他one-stage的算法。人脸检测之后,采用相关滤波算法、SORT、DeepSort或基于SiamNet类的跟踪算法进行跟踪,相关滤波算法具体是KCF跟踪算法、STAPLE跟踪算法或ECO跟踪算法;
人脸检测算法可以采用传统的Adaboost算法,也可以采用MTCNN算法、SSD系列或者YOLO系列算法。人脸检测之后,采用KCF、STAPLE、ECO或其他相关滤波算法进行跟踪,也可以采用SORT、DeepSort或者基于SiamNet类的跟踪算法进行跟踪,采用上述方法进行人脸检测和跟踪更加精准,效率更高。
角色嘴巴状态分析采用ESR、SDM或者基于深度学习的人脸关键点定位算法检测嘴巴关键点位置或进行唇形检测,对角色嘴巴状态进行分析,若角色的嘴巴处于张合变化状态,则判断该角色处于说话状态。
采用ESR、SDM或者基于深度学习的人脸关键点定位算法检测嘴巴关键点位置或进行唇形检测,能通过对应角色的嘴巴状态精准的检测出是否处于说话状态。
根据人脸跟踪结果和嘴巴状态分析结果判断视频中角色说话时间段,记录各角色说话的时间段为
Figure BDA0003441324450000101
表示角色i的第j个说话时间段,ai表示角色i说话时间段的次数。
通过人脸跟踪结果和嘴巴状态分析结果,完成视频中对应角色的说话段的归集。
步骤4采用以下方法具体进行音视频融合分析划分话者角色:
d.从视频分析中获取对应于语音片段Si的时间段{TStarti,TEndi}中,各角色嘴巴处于说话状态的总时间长度,选择总时间长度最长,且长度大于p*(TEndi-TStarti)的角色作为该语音片段的匹配角色,p值取0.5,得到初级划分结果R={Qi|i=1,…,M},其中Qi表示划分给第i个人的所有语音片段集合;
e.对于步骤d中无法确定说话人的语音片段Si,若该片段可以提取声纹特征,根据其声纹特征Fi判断其说话人是否为初级划分结果中的角色或者是其他角色;
f.对于步骤d中无法确定说话人的语音片段Si,若该片段无法提取声纹特征,则丢弃。
可以高效的进行音视频融合分析划分话者角色,最终得到角色划分结果R={Qi|i=1,…,M}更加准确。
步骤e中,采用以下具体方法进行判断:
①.设初级划分结果Qj可以提取声纹特征的一个语音片段
Figure BDA0003441324450000111
其声纹特征为
Figure BDA0003441324450000112
计算所有
Figure BDA0003441324450000113
的平均作为中心向量Fcj,计算所有初级划分结果Qj的所有语音片段声纹特征的中心向量Fcj,j=1,2,…,M;
②.分别计算Fi与Fcj,j=1,2,…,M的余弦距离,选择余弦距离最大且距离大于事先给定的阈值t的类作为Si的话者角色,阈值t取0.6;
或分别计算Fi与Fcj,j=1,2,…,M的欧式距离、马氏距离、切空间距离或者街区距离,选择距离最小且距离小于事先给定的阈值t的类作为Si的话者角色;
③.若步骤②无法确定角色,则判定该Si来自初级划分结果之外的另外角色,丢弃该语音片段。
通过进一步的声纹特征中心向量比对,能够实现对步骤d中无法确定说话人的语音片段Si的角色划分。
参照图2,一种结合嘴部运动分析的话者角色区分系统,包括录音录像设备1、处理器2、存储器3,存储器3内预装有话者角色区分程序,录音录像设备1采集到的视频储存在存储器3,处理器2运行存储器3内的话者角色区分程序完成对录音录像设备1采集到的视频的话者角色区分。
还有显示器4,处理器2通过显示器4显示话者角色区分程序运行界面和结果。
录音录像设备1采集视频,并将视频储存在存储器3,处理器2运行存储器3内的话者角色区分程序完成对录音录像设备1采集到的视频的话者角色区分,并最终将话者角色区分结果通过显示器4显示。
本申请实施例一种结合嘴部运动分析的话者角色区分方法及系统的实施原理为:
录音录像设备1采集视频,并将视频储存在存储器3,处理器2运行存储器3内的话者角色区分程序,分割视频,分割后得到音频信息和视频信息;
用语音检测模型将音频帧分为语音和非语音两个类别,这里非语音包括静音和环境噪声等;首先对音频信息进行预处理,包括分帧、降噪,然后利用双门限法、谱分析方法、或者相关法等语言检测方法得到语音部分,避免非语音部分或者噪声对后续步骤的影响;完成语音检测之后,采用基于左右窗比较的方法或窗分类的方法进行角色转换检测,抓取发生角色转换的所有节点音频帧,以节点音频帧为分界点,将语音部分分段,得到n个语音片段S1,…,Sn,其中Si={TStarti,TEndi}。分别对分割之后的每个语音片段Si采用i-vector、d-vector、x-vector或其他深度学习方法提取对应的声纹特征Fi,对于时间长度低于1秒的语音片段的声纹特征作留空处理;
对视频信息采用Adaboost算法、MTCNN算法、SSD系列或YOLO系列算法进行人脸检测,人脸检测之后,采用KCF跟踪算法进行跟踪,按人脸跟踪结果得到具体的角色数量和角色划分;采用ESR、SDM或者基于深度学习的人脸关键点定位算法检测对应角色嘴巴关键点位置或者进行唇形检测,对嘴巴的状态进行分析,如果嘴巴处于张合变化的状态,则判断嘴巴处于说话状态,对应的角色处于说话状态。根据人脸跟踪结果和嘴巴状态分析结果判断视频中角色说话时间段,记录各角色说话的时间段为
Figure BDA0003441324450000121
Figure BDA0003441324450000122
表示角色i的第j个说话时间段,ai表示角色i说话时间段的次数,完成视频中对应角色的说话段的归集。
从视频分析中获取对应于语音片段Si的时间段{TStarti,TEndi}中,各角色嘴巴处于说话状态的总时间长度,选择总时间长度最长,且长度大于p*(TEndi-TStarti)的角色作为该语音片段的匹配角色,p值取0.5,得到初级划分结果R={Qi|i=1,…,M},其中Qi表示划分给第i个人的所有语音片段集合;无法确定说话人的语音片段Si,若该片段可以提取声纹特征,设对应语音片段Si的声纹特征为Fi,设初级划分结果Qj可以提取声纹特征的一个语音片段
Figure BDA0003441324450000131
其声纹特征为
Figure BDA0003441324450000132
计算所有
Figure BDA0003441324450000133
的平均作为中心向量Fcj,计算所有初级划分结果Qj的所有语音片段声纹特征的中心向量Fcj,j=1,2,…,M,分别计算Fi与Fcj,j=1,2,…,M的余弦距离,选择余弦距离最大且距离大于事先给定的阈值t的类作为Si的话者角色,阈值t取0.6,或分别计算Fi与Fcj,j=1,2,…,M的欧式距离、马氏距离、切空间距离或者街区距离,选择距离最小且距离小于事先给定的阈值t的类作为Si的话者角色;若还无法确定角色,则判定该Si来自初级划分结果之外的另外角色,丢弃该语音片段。
至此就完成了对视频的音视频话者角色的划分,对于角色划分的具体结果存储在存储器3,通过显示器4显示。
该角色划分的具体结果方便后续的自动话术稽核完成对具体角色说话内容的判定。
准确的话者角色区分,可以帮助我们分析双录视频中说话人的数量以及每个说话人的准确说话时间,从而有助于更好地完成语音识别任务,便于进行自动话术稽核。
除此之外,该话者角色区分方法还可以用于智能会议,医患交流等场合。
在智能会议中,利用话者角色区分系统,可以得到准确的标注发言人的会议记录,也可以根据发言人的说话时长,对会议进行分析和分类。
在医患交流场合,借助话者角色区分系统和语音识别技术,可以得到详细的交流记录并进行结构化信息处理,提高医护人员工作效率的同时还可以进行自动诊断分析。
以上均为本申请的较佳实施例,并非依此限制本申请的保护范围,故:凡依本申请的结构、形状、原理所做的等效变化,均应涵盖于本申请的保护范围之内。

Claims (7)

1.一种结合嘴部运动分析的话者角色区分方法,其特征在于:包括以下步骤:步骤1:分割视频,分割后得到音频信息和视频信息;步骤2:音频信息分析,截取音频信息中出现语音特征的语音片段,记录所述语音片段的时间节点,并提取语音片段的声纹特征用于角色区分;步骤3:视频信息分析,分析视频信息中各角色的嘴部状态,检测视频中对应角色识别到嘴部状态符合说话特征的起始时间节点;步骤4:音视频融合分析划分话者角色,匹配步骤2和步骤3两种分析结果的时间节点得到角色划分结果;
所述步骤2采用以下方法具体进行音频信息分析:Step1:语音检测,采用语音检测模型将音频信息帧分为语音部分和非语音部分两类;Step2:角色转换检测,对所述语音部分进行音频分割,分割后的片段只包含单一角色,检测角色发生变化的具体时间点,并根据角色发生变化的具体时间点将语音分割成n个语音片段S1,…,Sn,其中Si={TStarti,TEndi},所述TStarti表示该语音片段的开始时间位置,所述TEndi表示该语音片段的结束时间位置;Step3:声纹特征提取,分别对分割之后的每个语音片段Si提取对应的声纹特征Fi;
所述步骤4采用以下方法具体进行音视频融合分析划分话者角色:d.从视频分析中获取对应于语音片段Si的时间段{TStarti,TEndi}中,各角色嘴巴处于说话状态的总时间长度,选择总时间长度最长,且长度大于p*(TEndi-TStarti)的角色作为该语音片段的匹配角色,得到初级划分结果R={Qi|i=1,…,M},其中Qi表示划分给第i个人的所有语音片段集合;e.对于所述步骤d中无法确定说话人的语音片段Si,若该片段可以提取声纹特征,根据其声纹特征Fi判断其说话人是否为初级划分结果中的角色或者是其他角色;f.对于所述步骤d中无法确定说话人的语音片段Si,若该片段无法提取声纹特征,则丢弃;
所述步骤e中,采用以下具体方法进行判断:①.设初级划分结果Qj可以提取声纹特征的一个语音片段
Figure DEST_PATH_IMAGE001
其声纹特征为
Figure DEST_PATH_IMAGE002
计算所有
Figure DEST_PATH_IMAGE003
的平均作为中心向量Fcj,计算所有初级划分结果Qj的所有语音片段声纹特征的中心向量Fcj,j=1,2,…,M;②.分别计算Fi与Fcj,j=1,2,…,M的余弦距离,选择余弦距离最大且距离大于事先给定的阈值t的类作为Si的话者角色;或分别计算Fi与Fcj,j=1,2,…,M的欧式距离、马氏距离、切空间距离或者街区距离,选择距离最小且距离小于事先给定的阈值t的类作为Si的话者角色;③.若步骤②无法确定角色,则判定该Si来自初级划分结果之外的另外角色,丢弃该语音片段。
2.根据权利要求1所述的一种结合嘴部运动分析的话者角色区分方法,其特征在于:所述Step2中,采用基于左右窗比较的方法或窗分类的方法进行角色转换检测,抓取发生角色转换的所有节点音频帧,以所述节点音频帧为分界点,将语音部分分段,得到n个语音片段S1,…,Sn,其中Si={TStarti,TEndi}。
3.根据权利要求1所述的一种结合嘴部运动分析的话者角色区分方法,其特征在于:所述Step3中,分别对分割之后的每个语音片段Si采用i-vector、d-vector或x-vector提取对应的声纹特征Fi,对于时间长度低于1秒的语音片段的声纹特征作留空处理。
4.根据权利要求1-3任一所述的一种结合嘴部运动分析的话者角色区分方法,其特征在于:所述步骤3采用以下步骤具体进行视频信息分析:a.人脸检测和跟踪,对视频信息部分,进行人脸检测和跟踪,根据跟踪结果得到视频中人的数量,这里用M表示视频中人的数量;b.角色嘴巴状态分析,对视频中每个角色的嘴巴状态进行跟踪分析,根据嘴巴动态特征,判断对应角色是否处于说话状态;c.角色说话时间判断,根据人脸跟踪结果和嘴巴状态分析结果,判断视频中对应角色的说话时间段。
5.根据权利要求4所述的一种结合嘴部运动分析的话者角色区分方法,其特征在于:视频信息分析中的人脸检测采用Adaboost算法、MTCNN算法、SSD算法或者YOLO算法,人脸检测之后,采用相关滤波算法、SORT、DeepSort或基于SiamNet类的跟踪算法进行跟踪,所述相关滤波算法具体是KCF跟踪算法、STAPLE跟踪算法或ECO跟踪算法;所述角色嘴巴状态分析采用ESR、SDM或者基于深度学习的人脸关键点定位算法检测嘴巴关键点位置或进行唇形检测,对角色嘴巴状态进行分析,若角色的嘴巴处于张合变化状态,则判断该角色处于说话状态;根据人脸跟踪结果和嘴巴状态分析结果判断视频中各角色说话时间段,记录各角色说话的时间段为
Figure DEST_PATH_IMAGE004
Figure DEST_PATH_IMAGE005
所述
Figure DEST_PATH_IMAGE006
表示角色i的第j个说话时间段,所述ai表示角色i说话时间段的次数。
6.一种结合嘴部运动分析的话者角色区分系统,其特征在于:包括录音录像设备(1)、处理器(2)、存储器(3),所述存储器(3)内预装有根据权利要求1-5中任一项所述方法设计的话者角色区分程序,所述录音录像设备(1)采集到的视频储存在存储器(3),所述处理器(2)运行存储器(3)内的话者角色区分程序完成对录音录像设备(1)采集到的视频的话者角色区分。
7.根据权利要求6所述一种结合嘴部运动分析的话者角色区分系统,其特征在于:还有显示器(4),所述处理器(2)通过显示器(4)显示话者角色区分程序运行界面和结果。
CN202111632122.9A 2021-12-29 2021-12-29 一种结合嘴部运动分析的话者角色区分方法与系统 Active CN114299953B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111632122.9A CN114299953B (zh) 2021-12-29 2021-12-29 一种结合嘴部运动分析的话者角色区分方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111632122.9A CN114299953B (zh) 2021-12-29 2021-12-29 一种结合嘴部运动分析的话者角色区分方法与系统

Publications (2)

Publication Number Publication Date
CN114299953A CN114299953A (zh) 2022-04-08
CN114299953B true CN114299953B (zh) 2022-08-23

Family

ID=80971916

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111632122.9A Active CN114299953B (zh) 2021-12-29 2021-12-29 一种结合嘴部运动分析的话者角色区分方法与系统

Country Status (1)

Country Link
CN (1) CN114299953B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115880744B (zh) * 2022-08-01 2023-10-20 北京中关村科金技术有限公司 一种基于唇动的视频角色识别方法、装置及存储介质
CN116312552B (zh) * 2023-05-19 2023-08-15 湖北微模式科技发展有限公司 一种视频说话人日志方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512348A (zh) * 2016-01-28 2016-04-20 北京旷视科技有限公司 用于处理视频和相关音频的方法和装置及检索方法和装置
CN109410954A (zh) * 2018-11-09 2019-03-01 杨岳川 一种基于音视频的无监督的多说话人识别装置和方法
CN110717067A (zh) * 2019-12-16 2020-01-21 北京海天瑞声科技股份有限公司 视频中音频聚类的处理方法和装置
CN111352348A (zh) * 2018-12-24 2020-06-30 北京三星通信技术研究有限公司 设备控制方法、装置、电子设备及计算机可读存储介质
CN112653902A (zh) * 2019-10-10 2021-04-13 阿里巴巴集团控股有限公司 说话人识别方法、装置及电子设备
CN113794927A (zh) * 2021-08-12 2021-12-14 维沃移动通信有限公司 信息显示方法、装置及电子设备

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102324232A (zh) * 2011-09-12 2012-01-18 辽宁工业大学 基于高斯混合模型的声纹识别方法及系统
US20140129207A1 (en) * 2013-07-19 2014-05-08 Apex Technology Ventures, LLC Augmented Reality Language Translation
US10026405B2 (en) * 2016-05-03 2018-07-17 SESTEK Ses velletisim Bilgisayar Tekn. San. Ve Tic A.S. Method for speaker diarization
US9824692B1 (en) * 2016-09-12 2017-11-21 Pindrop Security, Inc. End-to-end speaker recognition using deep neural network
CN106782545B (zh) * 2016-12-16 2019-07-16 广州视源电子科技股份有限公司 一种将音视频数据转化成文字记录的系统和方法
US10923139B2 (en) * 2018-05-02 2021-02-16 Melo Inc. Systems and methods for processing meeting information obtained from multiple sources
US11184534B2 (en) * 2020-03-09 2021-11-23 Susasym Llc Posture application for mobile devices
CN111462417A (zh) * 2020-03-09 2020-07-28 南京华科和鼎信息科技有限公司 一种无人银行的多信息验证系统和多信息验证方法
CN111613227A (zh) * 2020-03-31 2020-09-01 平安科技(深圳)有限公司 声纹数据生成方法、装置、计算机装置及存储介质
US11546690B2 (en) * 2020-04-27 2023-01-03 Orcam Technologies Ltd. Processing audio and video
CN111524525B (zh) * 2020-04-28 2023-06-16 平安科技(深圳)有限公司 原始语音的声纹识别方法、装置、设备及存储介质
CN112565885B (zh) * 2020-11-30 2023-01-06 清华珠三角研究院 一种视频分割方法、系统、设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512348A (zh) * 2016-01-28 2016-04-20 北京旷视科技有限公司 用于处理视频和相关音频的方法和装置及检索方法和装置
CN109410954A (zh) * 2018-11-09 2019-03-01 杨岳川 一种基于音视频的无监督的多说话人识别装置和方法
CN111352348A (zh) * 2018-12-24 2020-06-30 北京三星通信技术研究有限公司 设备控制方法、装置、电子设备及计算机可读存储介质
CN112653902A (zh) * 2019-10-10 2021-04-13 阿里巴巴集团控股有限公司 说话人识别方法、装置及电子设备
CN110717067A (zh) * 2019-12-16 2020-01-21 北京海天瑞声科技股份有限公司 视频中音频聚类的处理方法和装置
CN113794927A (zh) * 2021-08-12 2021-12-14 维沃移动通信有限公司 信息显示方法、装置及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
声纹分割聚类;BreezeDecus;《知乎》;20211005;第1-8页 *

Also Published As

Publication number Publication date
CN114299953A (zh) 2022-04-08

Similar Documents

Publication Publication Date Title
CN114299953B (zh) 一种结合嘴部运动分析的话者角色区分方法与系统
CN105632501B (zh) 一种基于深度学习技术的自动口音分类方法及装置
Sahoo et al. Emotion recognition from audio-visual data using rule based decision level fusion
US20030110038A1 (en) Multi-modal gender classification using support vector machines (SVMs)
CN105160318A (zh) 基于面部表情的测谎方法及系统
CN110309744A (zh) 一种嫌疑人识别方法及装置
CN112801000B (zh) 一种基于多特征融合的居家老人摔倒检测方法及系统
CN115512259A (zh) 一种基于多模态的短视频审核方法
CN107221324A (zh) 语音处理方法及装置
CN110750152A (zh) 一种基于唇部动作的人机交互方法和系统
WO2023088448A1 (zh) 语音处理方法、设备及存储介质
CN102254183A (zh) 一种基于AdaBoost算法的人脸检测方法
Jachimski et al. A comparative study of English viseme recognition methods and algorithms
WO2021196390A1 (zh) 声纹数据生成方法、装置、计算机装置及存储介质
CN114282621B (zh) 一种多模态融合的话者角色区分方法与系统
CN114299952B (zh) 结合多种运动分析的话者角色区分方法及系统
CN113744742B (zh) 对话场景下的角色识别方法、装置和系统
Tao et al. Improving Boundary Estimation in Audiovisual Speech Activity Detection Using Bayesian Information Criterion.
US11238289B1 (en) Automatic lie detection method and apparatus for interactive scenarios, device and medium
CN116883888A (zh) 基于多模态特征融合的银行柜面服务问题溯源系统及方法
Bock et al. Assessing the efficacy of benchmarks for automatic speech accent recognition
CN106599765B (zh) 基于对象连续发音的视-音频判断活体的方法及系统
CN113051975B (zh) 人流量统计方法及相关产品
KR20210066774A (ko) 멀티모달 기반 사용자 구별 방법 및 장치
Warule et al. Hilbert-Huang Transform-Based Time-Frequency Analysis of Speech Signals for the Identification of Common Cold

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A Speaker Role Differentiation Method and System Based on Mouth Movement Analysis

Effective date of registration: 20231009

Granted publication date: 20220823

Pledgee: Bank of China Limited Wuhan Economic and Technological Development Zone sub branch

Pledgor: HUBEI MICROPATTERN TECHNOLOGY DEVELOPMENT CO.,LTD.

Registration number: Y2022420000271

PE01 Entry into force of the registration of the contract for pledge of patent right