CN115131405A - 一种基于多模态信息的发言人跟踪方法及系统 - Google Patents

一种基于多模态信息的发言人跟踪方法及系统 Download PDF

Info

Publication number
CN115131405A
CN115131405A CN202210792440.XA CN202210792440A CN115131405A CN 115131405 A CN115131405 A CN 115131405A CN 202210792440 A CN202210792440 A CN 202210792440A CN 115131405 A CN115131405 A CN 115131405A
Authority
CN
China
Prior art keywords
face
voice
vector
image
emb
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210792440.XA
Other languages
English (en)
Inventor
张德园
刘桃
范胜旭
田健鲲
杜小勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Renmin University of China
Shenyang Aerospace University
Original Assignee
Renmin University of China
Shenyang Aerospace University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Renmin University of China, Shenyang Aerospace University filed Critical Renmin University of China
Priority to CN202210792440.XA priority Critical patent/CN115131405A/zh
Publication of CN115131405A publication Critical patent/CN115131405A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/16Image acquisition using multiple overlapping images; Image stitching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/62Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Geometry (AREA)
  • Collating Specific Patterns (AREA)

Abstract

本发明公开了一种基于多模态信息的发言人跟踪方法及系统,涉及发言人跟踪领域。可应用于线下会议或线上会议的在线的发言人跟踪任务,能够快速、准确地定位发言人,给出发言人特写;也可用于在提供的视频中标注出视频每个部分中的发言人的非在线任务。在同一画面出现多个人脸且每个人轮流交替发言的情况下,利用输入的图像及对应的音频信息计算出图像中每个人脸的发言唇动得分、音貌匹配得分以及唇形同步得分,并根据图像中的每个人脸得分定位具体发言人。同时支持提前录入注册配对的人声人脸对,并且支持在使用过程中将配对置信度高的人声人脸对录入到先验数据库中。

Description

一种基于多模态信息的发言人跟踪方法及系统
技术领域
本发明涉及发言人跟踪领域,尤其涉及一种基于多模态信息的发言人跟踪方法及系统。
背景技术
“在多人图像中识别出说话人”的问题,现有的方法有的依赖于一些物理设备如阵列麦克风进行发言人定位,有的依赖于事先注册与会者的人脸和语音,有的仅仅使用单一模态的信息如人脸图像信息或者语音信息进行发言人跟踪。这些发言人跟踪方法的精度较低,必须使用阵列麦克风或者必须事先进行注册的情况限制了其应用场景。
专利CN111263106A的方案旨在解决会议场景下,快速检测画面中多个与会人员中当前的发言人,提出通过处理图像信息获得人员的位置分布,然后根据麦克风阵列进行声音定位处理,最后结合两者的信息确定发言人所在的位置及对应的人脸图像。但这一方法对人员的分布要求严苛,当人员密集或是人员以层级分布时,主要依靠麦克风阵列的声音定位信息将难以确定真实发言人。
专利CN112633219A提出实时监测每个人的嘴唇面积,判断嘴唇面积大于预设面积阈值的人正在发言。这一方法的缺点在于精度不够高,打哈欠、吃东西、咧嘴等行为也会导致嘴唇面积高于阈值从而被误判为发言人。
专利CN112040119A提出的方案需要事先录入人员的人脸信息和人声信息,然后才能检测画面中的具体发言人,有不小的局限性。
专利CN112487978A提出了两种方案:一是根据事先录入的信息与当前的人脸和人声的数据进行比较,判断是否匹配;二是使用SyncNet模型提取人脸和人声的特征向量,计算余弦相似度,判断是否匹配。这一方案较于先前的方案效果更佳,但是对于低分辨率、唇部动作模糊的情况下效果不佳。
以上的解决方案对于视频中的声音和图片信息的挖掘都不够充分,使用的技术手段都比较简单传统,所有方案并没有考虑人类的语音和面貌之间的关联性,导致发言人跟踪精度较低,对于唇部动作模糊的场景效果不佳。同时,现有的技术方案有使用提前录入的人脸、人声数据对,但是没有设计动态更新的系统,没有将使用过程中配对可信度足够高的人脸、人声数据对记录到配对数据库中。
发明内容
为解决现有技术的不足,针对画面中的说话人定位任务,本发明提出了一种基于多模态信息的发言人跟踪方法及系统,利用输入的图像及对应的音频信息计算出图像中每个人脸的说话唇动得分、音貌匹配得分以及唇形同步得分,根据图像中的每个人脸的得分,定位具体说话人。同时支持提前录入注册配对的人声人脸对,并且支持在使用过程中将配对置信度高的人声人脸对录入到先验数据库中。
为实现上述目的,本发明采用的技术方案为:
第一方面,本发明提供了一种基于多模态信息的发言人跟踪系统,所述系统包括:语音的身份信息特征提取模块、语音的内容信息特征提取模块、图像的面貌信息特征提取模块、图像的内容特征提取模块、人脸图像质量计算模块、人脸检测与分组模块、唇形同步模块、说话唇动识别模块、音貌匹配模块及先验数据库。
采用语音的身份信息特征提取模块,对输入的音频提取得到语音身份信息特征向量;
采用语音的内容信息特征提取模块,对输入的音频提取得到语音内容信息特征向量;
采用图像的面貌信息特征提取模块,依次将r张输入图像face1…facer提取得到逐帧人脸面貌特征向量,并将每张图像输入到人脸图像质量计算模块中,计算得到每张输入图像质量得分,将r张图像的质量得分与r个逐帧人脸面貌特征向量的通道维度上进行拼接,提取得到人脸面貌特征向量。
采用图像的内容特征提取模块,将r张输入图像在时间维度上进行拼接,得到拼接后的图像拼接向量;将每张输入图像单独输入到人脸图像质量计算模块,得到每张输入图像质量得分,将每张输入图像的质量得分复制扩展后与图像拼接向量进行拼接和特征提取,得到人脸唇部内容特征向量;
人脸图像质量计算模块,将单张彩色人脸图像输入到卷积神经网络,得到图像质量得分;
人脸检测与分组模块,逐帧检测视频片段中的人脸,给出每个人脸的矩阵信息,将属于同一个人的人脸矩阵分为一组,并对缺失人脸信息的帧进行人脸信息补全,得到完整的人脸矩阵序列。
唇形同步模块,输入人脸唇部内容特征向量与语音内容信息特征向量,利用余弦相似度计算两个特征向量的相似度,得到唇形同步得分;
说话唇动识别模块,将人脸唇部内容特征向量输入到一个或多个具有激活函数的全连接层后,再输入到带有Sigmoid激活函数的全连接层,得到说话唇动得分;
音貌匹配模块,输入人脸面貌信息特征向量与语音身份信息特征向量,利用L1距离计算两个特征向量的距离,得到音貌匹配得分;
先验数据库,支持提前录入先验数据库及在使用中录入先验数据库,在发言人跟踪过程中优先使用先验数据库进行匹配。
所述语音的身份信息特征提取模块,具体为:对输入的音频,经过梅尔滤波器提取网络滤波器组(Filter Bank)特征v0;将网络滤波器组特征v0输入到第一卷积神经网络(ECAPA-TDNN)中,提取得到w1维的中间向量v1,对中间向量v1进行L2正则化,通过c1个全连接层,提取得到语音身份信息特征向量embvid
所述语音的内容信息特征提取模块,具体为:将中间向量v1进行L2正则化,通过c2个全连接层,得到w2维的中间向量v2;将中间向量v2通过c3个全连接层,得到w3维的中间向量v3;使用残差连接,将中间向量v2和v3相加,得到v4=v2+v3,再通过c4个全连接层,得到语音内容信息特征向量embvct
所述图像的面貌信息特征提取模块,具体为:依次将r张输入图像face1…facer输入到第二卷积神经网络(Inception-V1)中,提取得到w4维的中间向量
Figure BDA0003734357440000031
并进行L2正则化,通过c5个全连接层,提取得到w5维的特征向量
Figure BDA0003734357440000032
r张输入图像处理后将得到形状为(r,w5)的特征向量zfid;将每张输入图像facei单独输入到人脸图像质量计算模块中,计算得到每张输入图像质量得分qi
r张输入图像得到形状为(r,1)的质量得分向量q;将质量得分向量q和特征向量zfid拼接得到形状为(r,w5+1)维的向量,输入到循环神经网络(LSTM)中,计算得到w5+1维的中间向量z1;将中间向量z1通过c6个全连接层,得到综合r张输入图像的人脸面貌特征向量embfid
所述图像的内容特征提取模块,具体为;将r张输入图像在时间维度上进行拼接,其他维度保留,得到(c,w*r,h)大小的向量,其中,c表示输入图像的通道数,若输入的是彩色图像,则c=3;若输入的是灰度图,则c=1;其中,r表示输入图像张数;w表示输入图像宽度的像素个数;h表示的是输入图像高度的像素个数,拼接后的输入图像拼接向量为x0
将每张输入图像单独输入到人脸图像质量计算模块,得到形状为(r,1)的质量得分向量x1
将形状为(r,1)的质量得分向量x1复制拓展为形状为(1,w*r,h)的质量得分向量x2,x2[1,i,j]=x1[i%w,1],i∈[0,w*r),j∈[0,h);将输入图像拼接向量x0与质量得分向量x2在第一维度进行拼接,得到形状为(c+1,w*r,h)的特征向量x3
将特征向量x3输入到第三卷积神经网络中,提取得到w6维的特征向量,记为x4;将中间向量x4进行L2归一化,得到内容特征向量embfct
所述人脸图像质量计算模块,将单张彩色人脸图像输入到第四卷积神经网络(ResNet50),得到w7维的中间向量v,将此中间向量输入到带有Sigmoid激活函数的全连接层,得到图像质量得分scorequality∈(0,1);
所述人脸检测与分组模块:利用深度学习算法检测视频片段的每一帧中的所有人脸,得到每个人脸的矩阵信息
Figure BDA0003734357440000033
表示第j帧中检测到的第i张人脸的矩阵信息;根据相邻帧的人脸矩阵信息的交并比将所有帧中属于同一个人的人脸矩阵分组,若
Figure BDA0003734357440000041
Figure BDA0003734357440000042
的交并比大于设定的阈值,则判定这两个人脸矩阵属于同一个人,将被划分到同一组中;使用线性插值法为缺失人脸信息的帧根据相邻帧的人脸矩阵信息进行补全;根据补全后的人脸矩阵序列
Figure BDA0003734357440000043
裁剪得到人脸图像序列
Figure BDA0003734357440000044
所述唇形同步模块,输入人脸唇部内容特征向量embfct与语音内容信息特征向量embvct,利用余弦相似度计算两个特征向量的相似度,即为唇形同步得分scorect,其中scorect∈[-1,1];得分越高表示越匹配。
所述音貌匹配模块,输入人脸面貌信息特征向量embfid与语音身份信息特征向量embvid,利用L1距离计算两个特征向量的距离,即为音貌匹配得分scoreid;其中,scoreid≥0;得分越小表示越匹配。
所述说话唇动识别模块,将人脸唇部内容特征向量embfct输入到带激活函数的全连接层中,得到w8维的中间向量a1;将中间向量a1输入到带Sigmoid激活函数的全连接层,得到说话唇动得分scoretalk∈(0,1),说话唇动得分越高说明计算得到的人脸唇部内容特征向量所对应的人脸说话的可能性越高;
所述先验数据库,事先录入人员对应的若干张人脸照片及人声音频、将人脸照片序列输入到图像的面貌信息特征提取模块中,得到每个人员对应的面貌信息特征向量embfid,将人声音频进行降噪处理,输入到语音的身份信息特征提取模块,提取得到每个人员对应的语音身份信息特征向量embvid,将向量embvid和embfid保存进先验数据库中。在发言人跟踪过程中优先进行基于先验数据库的音貌匹配。
所述先验数据库支持在使用中录入或更新,在使用过程中将配对置信度高的人声人脸对录入到数据库中。具体为:根据唇形同步、音貌匹配、说话唇动检测等模块找到了匹配的语音身份信息特征向量与图像面貌信息特征向量时,将匹配得分高于录入阈值的向量对保存进先验数据库中;
所述语音的身份信息特征提取模块Modelvid与图像的面貌信息特征提取模块Modelfid共同训练,训练流程为:将同一个人员的人脸图片与人声音频分别输入到Modelfid和Modelvid中,得到embfid和embvid
使用均方误差损失函数Loss1如式(1)所示:
Loss1=MSE(embfid,embvid) (1)
所述语音的内容信息特征提取模块Modelvct与图像的内容信息特征提取模块Modelfct共同训练;
具体为:语音的内容信息特征提取模块Modelvct中的第一卷积神经网络的全部网络参数来自语音的身份信息特征提取模块Modelvid的第一卷积神经网络的参数,这些参数在训练过程中的数值大小固定、不参与反向传播过程中的参数更新;
将同一个人员的说话片段所对应的人脸图片序列和人声音频片段分别输入到Modelfct及Modelvct中,分别得到图像的唇部内容特征向量embfct及基于音频的语音内容信息特征向量embvct;将和图片序列没有对应关系的人声音频输入到Modelvct中得到不匹配的语音内容信息特征向量emb′vct;通过最大化embfct和emb′vct之间的余弦相似度,最小化embfct和embvct之间的余弦相似度来让两个模型学习得到视频中的内容信息;损失函数Loss2如式(2)所示:
Loss2=CosineSim(embfct,embvct)-CosineSim(embfct,-emb′vct) (2)
所述说话唇动识别模块表示为Modeltalk,在图像的内容信息特征提取模块提取出的embfct上进行训练;
具体为:将在说话的人脸图像序列输入到Modelfct中得到
Figure BDA0003734357440000051
将没有在说话的人脸图像序列输入到Modelfct中得到
Figure BDA0003734357440000052
Figure BDA0003734357440000053
Figure BDA0003734357440000054
输入到Modeltalk中,得到对应的说话唇动得分
Figure BDA0003734357440000055
Figure BDA0003734357440000056
使用二分类交叉熵损失训练模型,最小化
Figure BDA0003734357440000057
并且最大化
Figure BDA0003734357440000058
损失函数Loss3如式(3)所示:
Figure BDA0003734357440000059
另一方面,本发明提供了一种基于多模态信息的发言人跟踪方法,采用所述一种基于多模态信息的发言人跟踪系统实现,包括以下步骤:
S1:获取音频和视频,分别利用音频采集设备和视频采集设备获取t时刻到t+s时刻的音频片段和视频片段;
S2:人声判断与语音特征提取,判断所述音频片段中是否包含人声;若未包含人声,则判断t时刻到t+s时刻没有人发言,进入S9;若包含人声,将所述音频片段输入到语音的身份信息特征提取模块,得到语音身份信息特征向量embvid;并将所述音频片段输入到语音的内容信息特征提取模块,得到语音内容信息特征向量embvct
S3:人脸图像序列提取,将所述视频片段逐帧输入到人脸检测与分组模块,得到人脸图像序列
Figure BDA00037343574400000510
S4:图像特征提取,将人脸图像序列
Figure BDA00037343574400000511
输入到人脸图像质量计算模块,得到每一帧人脸图像所对应的图像质量得分
Figure BDA0003734357440000061
Figure BDA0003734357440000062
Figure BDA0003734357440000063
输入到图像的面貌信息特征提取模块,得到人脸面貌特征向量序列
Figure BDA0003734357440000064
Figure BDA0003734357440000065
Figure BDA0003734357440000066
输入到图像的内容特征提取模块,得到人脸唇部内容特征向量
Figure BDA0003734357440000067
S5:检索先验数据库中所有已录入的语音身份信息特征向量,判断是否有与语音身份特征向量embvid相似的录入人声;
若存在与embvid相似的录入人声向量emb′vid,则进入S6;
若不存在与语音身份特征向量embvid相似的录入人声,则进入S7;
S6:取出与emb′vid对应的目标人脸面貌特征向量
Figure BDA0003734357440000068
在给定图像中的面貌信息特征向量候选序列
Figure BDA0003734357440000069
中寻找是否有相似度高于匹配阈值thresholdmatch的特征向量,若有,则将对应的人脸矩阵序列信息标记输出,若没有,则判断当前画面中没有和对应人声符合的人脸,进入S9;
S7:依次将图像中第i个人的
Figure BDA00037343574400000610
与embvct配对输入到唇形同步模块中得到唇形同步得分
Figure BDA00037343574400000611
Figure BDA00037343574400000612
与embvid输入到音貌匹配模块中计算得到音貌匹配得分
Figure BDA00037343574400000613
Figure BDA00037343574400000614
输入到说话唇动识别模块中计算得到说话唇动得分
Figure BDA00037343574400000615
综合唇形同步得分、音貌匹配得分以及说话唇动得分,赋权计算得到最终得分
Figure BDA00037343574400000616
Figure BDA00037343574400000617
比较最终得分与识别阈值thresholdscore,若每个人的人脸图像序列的得分都低于识别阈值,则判断为没有和人声符合的人脸,进入S9;若只有一个或有多个人的人脸图像序列的得分高于识别阈值,则将得分最高者记为当前发言人;
S8:若当前发言人的最终得分高于录入阈值thresholdrecord,则将当前发言人对应的embvid与embfid登记到先验数据库中;
S9:t=t+s,返回步骤S1。
采用上述技术方案所产生的有益效果在于:
1、本发明提供了一种基于多模态信息的发言人跟踪方法及系统,综合计算人声与人脸的说话唇动得分、唇形同步得分、音貌匹配得分,对图像中当前发言人做出判断,从而支持在运算过程中将配对置信度高的数据对录入到数据库中,且数据库支持提前录入注册匹配的人脸、人声数据对。
2、本发明通过计算输入的人声与图像中每一个人脸的匹配得分,解决了传统方法中依靠麦克风阵列的声音定位信息所无法解决的人员密集、多人位于同一角度的问题。
3.本发明采用多层神经网络来提取人脸图像的深层信息,相较于使用浅层的嘴唇面积数据判断人脸是否在说话而言更加准确。
4.本发明不仅支持事先录入人脸人声数据对,同时也支持在使用过程中判断新出现的人脸与人声是否配对,并且能够将置信度高的数据对录入数据库方便后续使用。
5.本发明不仅会提取人脸的唇部动作信息,计算人脸和人声的唇形同步得分,还会提取人脸身份信息,根据人脸的面貌信息与人声的声纹信息之间的深层联系计算人脸和人声的音貌匹配得分,从而提高了当图像分辨率低、唇部动作难以识别时的人声和人脸的匹配准确度。
6、本发明综合使用多维度信息,不仅使用了唇部动作序列和音频内容信息的联系,还联合使用了人脸面貌信息与人声声纹信息之间的关系。进一步提高了匹配的准确率,缓解了唇部动作不够清晰的场景下的匹配压力,并且在一定程度上能识别图片中的说话人是否只是在对口型的情况。
附图说明
图1为本发明实施例提供的一种基于多模态信息的发言人跟踪系统模块图;
图2为本发明实施例提供的语音的身份信息特征提取模块工作流程图;
图3为本发明实施例提供的语音的内容信息特征提取模块工作流程图;
图4为本发明实施例提供的图像的面貌信息特征提取模块工作流程图;
图5为本发明实施例提供的图像的内容特征提取模块工作流程图;
图6为本发明实施例提供的人脸图像质量计算模块工作流程图;
图7为本发明实施例提供的人脸检测与分组补全模块工作流程图;
图8为本发明实施例提供的唇形同步模块工作流程图;
图9为本发明实施例提供的说话唇动识别模块工作流程图;
图10为本发明实施例提供的音貌匹配模块工作流程图;
图11为本发明实施例提供的先验数据库工作流程图;
图12为本发明实施例提供的一种基于多模态信息的发言人跟踪方法流程图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
本实施例提出了一种基于多模态信息的发言人跟踪方法,利用输入的图像音频信息计算出图像中每个人脸的说话唇动得分、音貌匹配得分以及唇形同步得分的系统,可以对图像中的每个人脸进行打分,定位具体说话人。同时支持提前录入注册配对的人声人脸对,并且支持在使用过程中将配对置信度高的人声人脸对录入到先验数据库中。
为实现上述目的,本实施例采用的技术方案为:
第一方面,本实施例提供了一种基于多模态信息的发言人跟踪系统,如图1所示,所述系统包括:语音的身份信息特征提取模块、语音的内容信息特征提取模块、图像的面貌信息特征提取模块、图像的内容特征提取模块、人脸图像质量计算模块、人脸检测与分组模块、唇形同步模块、说话唇动识别模块、音貌匹配模块及先验数据库。
语音的身份信息特征提取模块,如图2所示,对输入的音频,经过梅尔滤波器组提取网络滤波器组特征v0;将网络滤波器组特征v0输入到ECAPA-TDNN卷积神经网络模型中,提取得到512维的中间向量v1,对中间向量v1进行L2正则化,通过4个全连接层,提取得到语音身份信息特征向量embvid
语音的内容信息特征提取模块,如图3所示,将中间向量v1进行L2正则化,通过5个全连接层,得到256维的中间向量v2;将中间向量v2通过2个全连接层,得到256维的中间向量v3;使用残差连接,将中间向量v2和v3相加,得到v4=v2+v3,再通过1个全连接层,得到语音内容信息特征向量embvct
图像的面貌信息特征提取模块,如图4所示,依次将r张输入图像face1…facer输入到Inception-V1卷积神经网络中,提取得到512维的中间向量
Figure BDA0003734357440000081
并进行L2正则化,通过4个全连接层,提取得到每张图像的128维的人脸面貌特征向量
Figure BDA0003734357440000082
r张输入图像处理后将得到形状为(r,128)的特征向量zfid;将每张输入图像facei单独输入到人脸图像质量计算模块中,计算得到每张输入图像质量得分qi
得分在0~1之间,得分越高表示图像质量越高;所述图像质量通过图像中人脸的清晰度及姿态是否为正面判定,用于表示图片中的人脸是否足够清晰、是否具有足够的信息来提取特征;
r张输入图像得到形状为(r,1)的质量得分向量q;将质量得分向量q和特征向量zfid拼接得到形状为(r,129)维的向量,输入到LSTM中,得到129维的中间向量z1;将中间向量z1通过1个全连接层,得到综合r张输入图像的人脸面貌特征向量embfid
图像的内容特征提取模块,如图5所示,将r张输入图像在时间维度上进行拼接,其他维度保留,得到(c,w*r,h)大小的向量,其中,c表示输入图像的通道数,若输入的是彩色图像,则c=3;若输入的是灰度图,则c=1;其中,r表示输入图像张数;w表示输入图像宽度的像素个数;h表示输入图像高度的像素个数,拼接后的输入图像拼接向量为x0
将每张输入图像单独输入到人脸图像质量计算模块,得到形状为(r,1)的质量得分向量x1;每张输入图像质量得分在0~1之间,得分越高表示图像质量越高,所述图像质量包括图像清晰度和图像中人脸姿态。
将形状为(r,1)的质量得分向量x1复制拓展为形状为(1,w*r,h)的质量得分向量x2,x2[1,i,j]=x1[i%w,1],i∈[0,w*r),j∈[0,h);将输入图像拼接向量x0与质量得分向量x2在第一维度进行拼接,得到形状为(c+1,w*r,h)的特征向量x3
将特征向量x3输入到17层二维卷积网络中,提取得到128维的特征向量x4;将特征向量x4进行L2归一化,得到内容特征向量embfct
人脸图像质量计算模块,如图6所示,将单张彩色人脸图像输入到ResNet50卷积神经网络,得到2048维的中间向量v,将中间向量v输入到全连接层,并通过Sigmoid层,得到图像质量得分scorequality∈(0,1);
所述人脸检测与分组模块,本实施例中,采用yolo-v5或s3fd深度学习模型进行人脸检测,如图7所示,检测t时刻至t+s时刻的视频片段
Figure BDA0003734357440000091
的每一帧中的所有人脸,得到每个人脸的矩阵信息
Figure BDA0003734357440000092
其中,i表示当前帧中检测到的第i张人脸;j表示是第j帧。
Figure BDA0003734357440000093
表示覆盖第i张人脸对应的矩阵的左上角横坐标信息、左上角纵坐标信息、右下角横坐标信息、右下角纵坐标信息;根据相邻帧的人脸矩阵信息的交并比将所有帧中属于同一个人的人脸矩阵分组,若
Figure BDA0003734357440000094
Figure BDA0003734357440000095
的交并比大于设定的阈值,则判定这两个人脸矩阵属于同一个人,将被划分到同一组中,得到分组后的人脸矩阵序列。
唇形同步模块,如图8所示,输入人脸唇部内容特征向量embfct与语音内容信息特征向量embvct,利用余弦相似度计算两个特征向量的相似度,即为唇形同步得分scorect,其中scorect∈[-1,1];得分越高表示越匹配。
说话唇动识别模块,如图9所示将人脸唇部内容特征向量embfct输入到带激活函数的全连接层中,得到128维的中间向量a1;将中间向量a1输入到带Sigmoid激活函数的全连接层,得到说话唇动得分scoretalk∈(0,1),说话唇动得分越高说明计算得到的人脸唇部内容特征向量所对应的人脸说话的可能性越高;没有在说话既可以是沉默,也可以是咀嚼、微笑动作;
音貌匹配模块,如图10所示,输入人脸面貌信息特征向量embfid与语音身份信息特征向量embvid,利用L1距离计算两个特征向量的距离,即为音貌匹配得分scoreid;其中,scoreid≥0;得分越小表示越匹配;
先验数据库,如图11所示,给定录入数据库的人员对应的若干张人脸照片以及一段人声音频;将给定的人脸照片序列输入到图像的面貌信息特征提取模块中,得到每个人员对应的面貌信息特征向量embfid;将给定的人声音频进行降噪处理,输入到基于音频的身份信息特征提取模块,提取得到每个人员对应的语音身份信息特征向量embvid;将人员编号及其向量构成的三元组<ID,embvid,embfid>保存进先验数据库中。在发言人跟踪过程中优先进行基于先验数据库的音貌匹配;
所述先验数据库在使用中的自动更新,当输入的数据没有在数据库中找到对应的向量,且后续根据唇形同步、音貌匹配、说话唇动检测等模块找到了匹配的“语音身份信息特征向量embvid”与“图像面貌信息特征向量embfid”时,则将匹配得分高于录入阈值的发言人编号和向量构成的三元组<ID,embvid,embfid>保存进先验数据库中;
所述语音的身份信息特征提取模块与图像的面貌信息特征提取模块共同训练,训练流程为:需训练的模块分别是语音的身份信息特征提取模块Modelvid、图像的面貌信息特征提取模块Modelfid,输入同一个人员的人脸图片与人声音频到各个模块中,得到embvid和embfid;其中Modelvid的4个全连接层和Modelfid的4个全连接层共享网络参数。
使用均方误差损失函数Loss1如式(1)所示:
Loss1=MSE(embfid,embvid) (1)
所述语音的内容信息特征提取模块Modelvct与图像的内容信息特征提取模块Modelfct共同训练;
具体为:语音的内容信息特征提取模块Modelvct中的ECAPC-TDNN层的网络参数取值是来自语音的身份信息特征提取模块Modelvid的网络参数,在训练过程中这些参数取值固定不再变化,不参与反向传播的参数更新;
将同一个人员的说话片段所对应的人脸图片序列和人声音频片段分别输入到Modelfct及Modelvct中,分别得到图像的唇部内容特征向量embfct及基于音频的语音内容信息特征向量embvct;将和图片序列没有对应关系的人声音频输入到Modelvct中得到不匹配的语音内容信息特征向量emb′vct;为了使得从同一个视频中提取出的相互匹配的特征embfct和embvct足够接近,不匹配的特征embfct和emb′vct足够远离,计算两者之间的cosine相似度;通过最大化embfct和emb′vct之间的cosine相似度,最小化embfct和embvct之间的相似度来让两个模型学习得到视频中的内容信息;损失函数Loss2如式(2)所示:
Loss2=CosineSim(embfct,embvct)-CosineSim(embfct,-emb′vct) (2)
所述说话唇动识别模块表示为Modeltalk,在图像的内容信息特征提取模块提取出的embfct上进行训练;
具体为:将在说话的人脸图像序列输入到Modelfct中得到
Figure BDA0003734357440000101
将没有在说话的人脸图像序列输入到Modelfct中得到
Figure BDA0003734357440000102
Figure BDA0003734357440000103
Figure BDA0003734357440000104
输入到Modeltalk中,得到对应的说话唇动得分
Figure BDA0003734357440000111
Figure BDA0003734357440000112
使用二元交叉熵损失训练模型,最小化
Figure BDA0003734357440000113
并且最大化
Figure BDA0003734357440000114
损失函数Loss3如式(3)所示:
Figure BDA0003734357440000115
另一方面,本发明提供了一种基于多模态信息的发言人跟踪方法,采用所述一种基于多模态信息的发言人跟踪系统实现,如图12所示,包括以下步骤:
S1:通过云台摄像头获取t时刻到t+s时刻的视频片段,记为
Figure BDA0003734357440000116
通过麦克风或阵列麦克风获取t时刻到t+s时刻的音频片段,记为
Figure BDA0003734357440000117
S2:对于音频片段
Figure BDA0003734357440000118
提取能量大小及过零率判断这一片段中是否包含人声;若未包含人声,则t时刻到t+s时刻没有人发言,t=t+s,返回S1;若包含人声,则将人声音频
Figure BDA0003734357440000119
输入到语音的身份信息特征提取模块,得到语音身份信息特征向量embvid;将人声音频
Figure BDA00037343574400001110
输入到语音的内容信息特征提取模块,得到语音内容信息特征向量embvct
S3:将视频片段
Figure BDA00037343574400001111
输入到人脸检测与分组模块,得到每个人在各个帧中的人脸矩阵信息序列
Figure BDA00037343574400001112
i表示是第i个人的人脸,j表示是第j帧,j∈[t,t+s];
S4:由于视频中人脸可能处于移动状态,不能保证每一帧的图片都足够清晰,也因此存在人脸检测模块无法识别出有些帧的一些人脸的情况,面对这一问题,使用线性插值法为缺失人脸信息的帧根据相邻帧的人脸矩阵信息进行补全,得到更新后的人脸矩阵信息序列
Figure BDA00037343574400001113
具体为:若检测到了第i人在时刻j1和时刻j2上的人脸矩阵
Figure BDA00037343574400001114
Figure BDA00037343574400001115
在时刻j1和j2时刻之间没有检测出该人的人脸,使用线性插值法得到时刻k中第i人所对应的人脸矩阵信息
Figure BDA00037343574400001116
其中,
Figure BDA00037343574400001117
Figure BDA00037343574400001118
若第i人检测到人脸的第一帧在时刻tfirst,且tfirst>t,将使用tfirst时刻的人脸矩阵信息为时刻t到时刻tfirst之间的帧赋予人脸矩阵信息;若检测到人脸的最后一帧tfinal<t+s,则使用时刻tfinal的人脸矩阵信息为时刻tfinal后的帧赋予人脸矩阵信息。
S5:根据人脸矩阵序列
Figure BDA00037343574400001119
裁剪得到人脸图像序列
Figure BDA00037343574400001120
输入到人脸图像质量计算模块,得到每一帧人脸图像所对应的图像质量得分
Figure BDA00037343574400001121
Figure BDA00037343574400001122
Figure BDA00037343574400001123
输入到图像的面貌信息特征提取模块,得到人脸面貌特征向量序列
Figure BDA00037343574400001124
Figure BDA0003734357440000121
Figure BDA0003734357440000122
输入到图像的唇部信息特征提取模块,得到人脸唇部内容特征向量序列
Figure BDA0003734357440000123
S6:检索数据库中所有已录入的语音身份信息特征向量,判断是否有向量emb′vid满足L1(emb′vid, embvid)<thresholdvid,其中L1(*)表示两个向量的L1距离,thresholdvid为距离阈值;
若存在录入人声向量emb′vid与向量embvid之间的L1距离小于thresholdvid,配对成功,若有多个音频配对成功,则取L1距离最近的录入人声向量记为emb′vid;进入S7;
若在先验数据库中不存在与向量embvid之间的L1距离小于阈值的录入人声向量,则进入S8;
S7:将emb′vid对应的目标面貌信息特征向量取出,记为
Figure BDA0003734357440000124
遍历给定图像中的面貌信息特征向量序列
Figure BDA0003734357440000125
中的所有向量,计算与目标面貌信息特征向量
Figure BDA0003734357440000126
之间的L1距离,查看是否有满足
Figure BDA0003734357440000127
的向量,若有,则取其中与
Figure BDA0003734357440000128
之间的L1距离最小的面貌特征向量对应的人脸信息作为标记结果;若没有,则判断发言人不在画面中;
进入步骤S10;
S8:依次将图像中第i个人的
Figure BDA0003734357440000129
与embvct输入到唇形同步模块中得到唇形同步得分
Figure BDA00037343574400001210
Figure BDA00037343574400001211
与embvid输入到音貌匹配模块中计算得到音貌匹配得分
Figure BDA00037343574400001212
Figure BDA00037343574400001213
输入到说话唇动识别模块中计算得到说话唇动得分
Figure BDA00037343574400001214
综合唇形同步得分、音貌匹配得分以及说话唇动得分,赋权计算得到最终得分
Figure BDA00037343574400001215
Figure BDA00037343574400001216
比较最终得分与识别阈值thresholdscore,若每个人的人脸图像序列的得分都低于识别阈值,则判断为没有和人声符合的人脸;若只有一个或有多个人的人脸图像序列的得分高于识别阈值,则将得分最高者记为当前发言人;
S9:若当前发言人的最终得分score高于录入阈值thresholdrecord,则将当前发言人编号及其对应的embvid与embfid登记到先验数据库中;
S10:t=t+s,返回步骤S1。

Claims (10)

1.一种基于多模态信息的发言人跟踪系统,其特征在于:所述系统包括:语音的身份信息特征提取模块、语音的内容信息特征提取模块、图像的面貌信息特征提取模块、图像的内容特征提取模块、人脸图像质量计算模块、人脸检测与分组模块、唇形同步模块、说话唇动识别模块、音貌匹配模块及先验数据库;
采用语音的身份信息特征提取模块,对输入的音频提取得到语音身份信息特征向量;
采用语音的内容信息特征提取模块,对输入的音频提取得到语音内容信息特征向量;
采用图像的面貌信息特征提取模块,依次将r张输入图像face1...facer提取得到逐帧人脸面貌特征向量,并将每张图像输入到人脸图像质量计算模块中,计算得到每张输入图像质量得分,将r张图像的质量得分与r个逐帧人脸面貌特征向量的通道维度上进行拼接,提取得到人脸面貌特征向量;
采用图像的内容特征提取模块,将r张输入图像在时间维度上进行拼接,得到拼接后的图像拼接向量;将每张输入图像单独输入到人脸图像质量计算模块,得到每张输入图像质量得分,将每张输入图像的质量得分复制扩展后与图像拼接向量进行拼接和特征提取,得到人脸唇部内容特征向量;
人脸图像质量计算模块,将单张彩色人脸图像输入到卷积神经网络,得到图像质量得分;
人脸检测与分组模块,逐帧检测视频片段中的人脸,给出每个人脸的矩阵信息,将属于同一个人的人脸矩阵分为一组,并对缺失人脸信息的帧进行人脸信息补全,得到完整的人脸矩阵序列;
唇形同步模块,输入人脸唇部内容特征向量与语音内容信息特征向量,利用余弦相似度计算两个特征向量的相似度,得到唇形同步得分;
说话唇动识别模块,将人脸唇部内容特征向量输入到一个或多个具有激活函数的全连接层后,再输入到带有Sigmoid激活函数的全连接层,得到说话唇动得分;
音貌匹配模块,输入人脸面貌信息特征向量与语音身份信息特征向量,利用L1距离计算两个特征向量的距离,得到音貌匹配得分;
先验数据库,支持提前录入先验数据库及在使用中录入先验数据库,在发言人跟踪过程中优先使用先验数据库进行匹配。
2.根据权利要求1所述的基于多模态信息的发言人跟踪系统,其特征在于:
所述语音的身份信息特征提取模块,具体为:对输入的音频,经过梅尔滤波器提取网络滤波器组特征v0;将网络滤波器组特征v0输入到第一卷积神经网络中,提取得到w1维的中间向量v1,对中间向量v1进行L2正则化,通过c1个全连接层,提取得到语音身份信息特征向量embvid
所述语音的内容信息特征提取模块,具体为:将中间向量v1进行L2正则化,通过c2个全连接层,得到w2维的中间向量v2;将中间向量v2通过c3个全连接层,得到w3维的中间向量v3;使用残差连接,将中间向量v2和v3相加,得到v4=v2+v3,再通过c4个全连接层,得到语音内容信息特征向量embvct
3.根据权利要求1所述的基于多模态信息的发言人跟踪系统,其特征在于:
所述图像的面貌信息特征提取模块,具体为:依次将r张输入图像face1...facer输入到第二卷积神经网络(Inception-V1)中,提取得到w4维的中间向量
Figure FDA0003734357430000021
并进行L2正则化,通过c5个全连接层,提取得到w5维的特征向量
Figure FDA0003734357430000022
r张输入图像处理后将得到形状为(r,w5)的特征向量zfid;将每张输入图像facei单独输入到人脸图像质量计算模块中,计算得到每张输入图像质量得分qi
r张输入图像得到形状为(r,1)的质量得分向量q;将质量得分向量q和特征向量zfid拼接得到形状为(r,w5+1)维的向量,输入到循环神经网络(LSTM)中,计算得到w5+1维的中间向量z1;将中间向量z1通过c6个全连接层,得到综合r张输入图像的人脸面貌特征向量embfid
所述图像的内容特征提取模块,具体为;将r张输入图像在时间维度上进行拼接,其他维度保留,得到(c,w*r,h)大小的向量,其中,c表示输入图像的通道数,若输入的是彩色图像,则c=3;若输入的是灰度图,则c=1;其中,r表示输入图像张数;w表示输入图像宽度的像素个数;h表示的是输入图像高度的像素个数,拼接后的输入图像拼接向量为x0
将每张输入图像单独输入到人脸图像质量计算模块,得到形状为(r,1)的质量得分向量x1
将形状为(r,1)的质量得分向量x1复制拓展为形状为(1,w*r,h)的质量得分向量x2,x2[1,i,j]=x1[i%w,1],i∈[0,w*r),j∈[0,h);将输入图像拼接向量x0与质量得分向量x2在第一维度进行拼接,得到形状为(c+1,w*r,h)的特征向量x3
将特征向量x3输入到第三卷积神经网络中,提取得到w6维的特征向量,记为x4;将中间向量x4进行L2归一化,得到内容特征向量embfct
4.根据权利要求1所述的基于多模态信息的发言人跟踪系统,其特征在于:
所述人脸图像质量计算模块,将单张彩色人脸图像输入到第四卷积神经网络(ResNet50),得到w7维的中间向量v,将此中间向量输入到带有Sigmoid激活函数的全连接层,得到图像质量得分scorequality∈(0,1);
所述人脸检测与分组模块,利用深度学习算法检测视频片段的每一帧中的所有人脸,得到每个人脸的矩阵信息
Figure FDA0003734357430000031
表示第j帧中检测到的第i张人脸的矩阵信息;根据相邻帧的人脸矩阵信息的交并比将所有帧中属于同一个人的人脸矩阵分组,若
Figure FDA0003734357430000032
Figure FDA0003734357430000033
的交并比大于设定的阈值,则判定这两个人脸矩阵属于同一个人,将被划分到同一组中;使用线性插值法为缺失人脸信息的帧根据相邻帧的人脸矩阵信息进行补全;根据补全后的人脸矩阵序列
Figure FDA0003734357430000034
裁剪得到人脸图像序列
Figure FDA0003734357430000035
5.根据权利要求1所述的基于多模态信息的发言人跟踪系统,其特征在于:
所述唇形同步模块,输入人脸唇部内容特征向量embfct与语音内容信息特征向量embvct,利用余弦相似度计算两个特征向量的相似度,即为唇形同步得分scorect,其中scorect∈[-1,1];得分越高表示越匹配;
所述说话唇动识别模块,将人脸唇部内容特征向量embfct输入到带激活函数的全连接层中,得到w8维的中间向量a1;将中间向量a1输入到带Sigmoid激活函数的全连接层,得到说话唇动得分scoretalk∈(0,1),说话唇动得分越高说明计算得到的人脸唇部内容特征向量所对应的人脸说话的可能性越高。
6.根据权利要求1所述的基于多模态信息的发言人跟踪系统,其特征在于:
所述音貌匹配模块,输入人脸面貌信息特征向量embfid与语音身份信息特征向量embvid,利用L1距离计算两个特征向量的距离,即为音貌匹配得分scoreid;其中,scoreid≥0;得分越小表示越匹配。
7.根据权利要求1所述的基于多模态信息的发言人跟踪系统,其特征在于:
所述先验数据库,事先录入人员对应的若干张人脸照片及人声音频、将人脸照片序列输入到图像的面貌信息特征提取模块中,得到每个人员对应的面貌信息特征向量embfid,将人声音频进行降噪处理,输入到语音的身份信息特征提取模块,提取得到每个人员对应的语音身份信息特征向量embvid,将向量embvid和embfid保存进先验数据库中;在发言人跟踪过程中优先进行基于先验数据库的音貌匹配。
8.根据权利要求1或权利要求7所述的基于多模态信息的发言人跟踪系统,其特征在于:
所述先验数据库支持在使用中录入或更新,在使用过程中将配对置信度高的人声人脸对录入到数据库中,具体为:
根据唇形同步、音貌匹配、说话唇动检测等模块找到了匹配的语音身份信息特征向量与图像面貌信息特征向量时,将匹配得分高于录入阈值的向量对保存进先验数据库中。
9.根据权利要求1所述的基于多模态信息的发言人跟踪系统,其特征在于:
所述语音的身份信息特征提取模块Modelvid与图像的面貌信息特征提取模块Modelfid共同训练,训练流程为:将同一个人员的人脸图片与人声音频分别输入到Modelfid和Modelvid中,得到embfid和embvid
使用均方误差损失函数Loss1如式(1)所示:
Loss1=MSE(embfid,embvid) (1)
所述语音的内容信息特征提取模块Modelvct与图像的内容信息特征提取模块Modelfct共同训练;
具体为:语音的内容信息特征提取模块Modelvct中的第一卷积神经网络的全部网络参数来自语音的身份信息特征提取模块Modelvid的第一卷积神经网络的参数,这些参数在训练过程中的数值大小固定、不参与反向传播过程中的参数更新;
将同一个人员的说话片段所对应的人脸图片序列和人声音频片段分别输入到Modelfct及Modelvct中,分别得到图像的唇部内容特征向量embfct及基于音频的语音内容信息特征向量embvct;将和图片序列没有对应关系的人声音频输入到Modelvct中得到不匹配的语音内容信息特征向量emb′vct;通过最大化embfct和emb′vct之间的余弦相似度,最小化embfct和embvct之间的余弦相似度来让两个模型学习得到视频中的内容信息;损失函数Loss2如式(2)所示:
Loss2=CosineSim(embfct,embvct)-CosineSim(embfct,emb′vct) (2)
所述说话唇动识别模块表示为Modeltalk,在图像的内容信息特征提取模块提取出的embfct上进行训练;
具体为:将在说话的人脸图像序列输入到Modelfct中得到
Figure FDA0003734357430000041
将没有在说话的人脸图像序列输入到Modelfct中得到
Figure FDA0003734357430000042
Figure FDA0003734357430000043
Figure FDA0003734357430000044
输入到Modeltalk中,得到对应的说话唇动得分
Figure FDA0003734357430000045
Figure FDA0003734357430000046
使用二分类交叉熵损失训练模型,最小化
Figure FDA0003734357430000047
并且最大化
Figure FDA0003734357430000048
损失函数Loss3如式(3)所示:
Figure FDA0003734357430000049
10.一种基于多模态信息的发言人跟踪方法,采用权利要求1-9所述任意一种基于多模态信息的发言人跟踪系统实现,包括以下步骤:
S1:获取音频和视频,分别利用音频采集设备和视频采集设备获取t时刻到t+s时刻的音频片段和视频片段;
S2:人声判断与语音特征提取,判断所述音频片段中是否包含人声;若未包含人声,则判断t时刻到t+s时刻没有人发言,进入S9;若包含人声,将所述音频片段输入到语音的身份信息特征提取模块,得到语音身份信息特征向量embvid;并将所述音频片段输入到语音的内容信息特征提取模块,得到语音内容信息特征向量embvct
S3:人脸图像序列提取,将所述视频片段逐帧输入到人脸检测与分组模块,得到人脸图像序列
Figure FDA0003734357430000051
S4:图像特征提取,将人脸图像序列
Figure FDA0003734357430000052
输入到人脸图像质量计算模块,得到每一帧人脸图像所对应的图像质量得分
Figure FDA0003734357430000053
Figure FDA0003734357430000054
Figure FDA0003734357430000055
输入到图像的面貌信息特征提取模块,得到人脸面貌特征向量序列
Figure FDA0003734357430000056
Figure FDA0003734357430000057
Figure FDA0003734357430000058
输入到图像的内容特征提取模块,得到人脸唇部内容特征向量
Figure FDA0003734357430000059
S5:检索先验数据库中所有已录入的语音身份信息特征向量,判断是否有与语音身份特征向量embvid相似的录入人声;
若存在与embvid相似的录入人声向量emb′vid,则进入S6;
若不存在与语音身份特征向量embvid相似的录入人声,则进入S7;
S6:取出与emb′vid对应的目标人脸面貌特征向量
Figure FDA00037343574300000510
在给定图像中的面貌信息特征向量候选序列
Figure FDA00037343574300000511
中寻找是否有相似度高于匹配阈值thresholdmatch的特征向量,若有,则将对应的人脸矩阵序列信息标记输出,若没有,则判断当前画面中没有和对应人声符合的人脸,进入S9;
S7:依次将图像中第i个人的
Figure FDA00037343574300000512
与embvct配对输入到唇形同步模块中得到唇形同步得分
Figure FDA00037343574300000513
Figure FDA00037343574300000514
与embvid输入到音貌匹配模块中计算得到音貌匹配得分
Figure FDA00037343574300000515
Figure FDA00037343574300000516
输入到说话唇动识别模块中计算得到说话唇动得分
Figure FDA00037343574300000517
综合唇形同步得分、音貌匹配得分以及说话唇动得分,赋权计算得到最终得分
Figure FDA00037343574300000518
Figure FDA00037343574300000519
比较最终得分与识别阈值thresholdscore,若每个人的人脸图像序列的得分都低于识别阈值,则判断为没有和人声符合的人脸,进入S9;若只有一个或有多个人的人脸图像序列的得分高于识别阈值,则将得分最高者记为当前发言人;
S8:若当前发言人的最终得分高于录入阈值thresholdrecord,则将当前发言人对应的embvid与embfid登记到先验数据库中;
S9:t=t+s,返回步骤S1。
CN202210792440.XA 2022-07-07 2022-07-07 一种基于多模态信息的发言人跟踪方法及系统 Pending CN115131405A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210792440.XA CN115131405A (zh) 2022-07-07 2022-07-07 一种基于多模态信息的发言人跟踪方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210792440.XA CN115131405A (zh) 2022-07-07 2022-07-07 一种基于多模态信息的发言人跟踪方法及系统

Publications (1)

Publication Number Publication Date
CN115131405A true CN115131405A (zh) 2022-09-30

Family

ID=83382600

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210792440.XA Pending CN115131405A (zh) 2022-07-07 2022-07-07 一种基于多模态信息的发言人跟踪方法及系统

Country Status (1)

Country Link
CN (1) CN115131405A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117218324A (zh) * 2023-10-17 2023-12-12 广东迅扬科技股份有限公司 一种基于人工智能的摄像头调控系统及方法
CN117676072A (zh) * 2024-01-31 2024-03-08 国网湖北省电力有限公司信息通信公司 一种基于ar的多人复杂交互会议方法和装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117218324A (zh) * 2023-10-17 2023-12-12 广东迅扬科技股份有限公司 一种基于人工智能的摄像头调控系统及方法
CN117676072A (zh) * 2024-01-31 2024-03-08 国网湖北省电力有限公司信息通信公司 一种基于ar的多人复杂交互会议方法和装置
CN117676072B (zh) * 2024-01-31 2024-04-09 国网湖北省电力有限公司信息通信公司 一种基于ar的多人复杂交互会议方法和装置

Similar Documents

Publication Publication Date Title
Ji et al. Eamm: One-shot emotional talking face via audio-based emotion-aware motion model
US10621991B2 (en) Joint neural network for speaker recognition
CN108038420B (zh) 一种基于深度视频的人体行为识别方法
Patterson et al. Moving-talker, speaker-independent feature study, and baseline results using the CUAVE multimodal speech corpus
CN115131405A (zh) 一种基于多模态信息的发言人跟踪方法及系统
Youssif et al. Automatic facial expression recognition system based on geometric and appearance features
KR20200063292A (ko) 얼굴 영상 기반의 감정 인식 시스템 및 방법
Chetty et al. Automated lip feature extraction for liveness verification in audio-video authentication
CN111428689B (zh) 一种多池化信息融合的人脸图像特征提取方法
Yargıç et al. A lip reading application on MS Kinect camera
CN114298170A (zh) 一种多模态会议数据结构化方法、装置及计算机设备
Patrona et al. Visual voice activity detection in the wild
CN110796101A (zh) 一种嵌入式平台的人脸识别方法及系统
Kalbande et al. Lip reading using neural networks
CN116825365B (zh) 基于多角度微表情的心理健康分析方法
KR20140074201A (ko) 추적 장치
US20240135956A1 (en) Method and apparatus for measuring speech-image synchronicity, and method and apparatus for training model
CN113177531B (zh) 一种基于视频分析的说话识别方法、系统、设备及介质
CN109345427B (zh) 一种结合人脸识别和行人识别技术的教室视频点到方法
Sui et al. A 3D audio-visual corpus for speech recognition
KR101621304B1 (ko) 마우스맵을 이용한 능동형태모델 기반 입술 형태 추정 방법 및 시스템
Ouellet et al. Multimodal biometric identification system for mobile robots combining human metrology to face recognition and speaker identification
CN114466179A (zh) 语音与图像同步性的衡量方法及装置
CN114494930A (zh) 语音与图像同步性衡量模型的训练方法及装置
Pooventhiran et al. Speaker-independent speech recognition using visual features

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination