CN109410954A

CN109410954A - 一种基于音视频的无监督的多说话人识别装置和方法

Info

Publication number: CN109410954A
Application number: CN201811329163.9A
Authority: CN
Inventors: 杨岳川
Original assignee: Individual
Current assignee: Individual
Priority date: 2018-11-09
Filing date: 2018-11-09
Publication date: 2019-03-01

Abstract

一种基于音视频的无监督说话人识别装置和方法。装置包括：初始化模块，分割整个音视频得到若干包含语音的段，将视频中属于同一个人的人脸进行归类，建立人集合，建立人与段关系矩阵；画面内说话人获取模块，从人脸中定位唇部区域，根据相邻帧判断是否发生唇动，在关系矩阵中进行说话人的记录；画面外说话人获取模块，根据迭代的关系矩阵判断是否新增说话人；说话人模型训练模块，根据关系矩阵收集每个说话人的正例和反例构成训练集，训练高斯混合模型和支持向量机分类器；说话人识别模块，使用高斯混合模型和支持向量机分类器对没有识别出唯一说话人的段进行处理；说话人验证模块，检测当所有段都具有唯一说话人，并且用户反馈没有错误之后结束。

Description

一种基于音视频的无监督的多说话人识别装置和方法

技术领域

本发明涉及多说话人识别技术，尤其涉及基于音视频的多说话人识别技术。

背景技术

随着手机等音视频记录设备的广泛使用，越来越多的普通用户成为音视频的录制者，很多人在参加课堂、讲座、会议时进行音视频记录，甚至在街头采访、旅行见闻也常常用音视频来记录。面向这些音视频的内容识别和说话人识别的需求是非常庞大的。特别是对于包含多个说话人的音视频，需要将多个说话人的音视频分开。

普通用户录制的音视频，很多情况下并不像专业摄像那样规范，而是具有很大的随意性，很多情况下在录制前后也无法单独获取每个说话人的训练视频。针对这些场景下的多说话人识别，传统的监督多说话人识别技术难以应用。监督多说话人识别技术依赖于预先给定的各说话人单独的训练音视频，或者说训练音视频的各部分带有属于某一个说话人的标签，因此被称为监督学习。而无监督学习则不依赖于预先给定的训练数据，而是从原始数据自行发现类别，无监督学习常见的算法例如聚类算法。对于普通用户录制的海量音视频来说，很难要求视频中的说话人按照规定的材料和环境采集训练数据，直接给定待识别的一段音视频、从中学习出多个说话人的无监督识别技术是更值得研究的技术。值得注意的是，还有一种方式是通过用户手动标记每个说话人的视频帧作为训练数据，但对于普通用户而言对整段音视频的各个部分都标记上不同的说话人是非常繁琐的，而只标记一小部分则会造成训练样本的不足。因此需要研究一种不需要预先设置训练数据的无监督的说话人识别技术。

普通用户录制音视频的场景也更加多样，不局限于传统的课堂、讲座、会议，也可以是街头、户外等等。普通用户在记录音视频时往往只使用一台视频记录设备如手机，记录不同人在不同时刻的音频。这种记录的形式非常灵活，也不一定每时每刻都对着说话人进行记录，很多情况下会出现“画外音”，即声音的发出者并不在画面之中。在某些情况下，对于这些视频的自动分析也要求识别这些“画外音”的说话人。

目前综合利用视频和音频的说话人识别的研究比较少。而不需要预先设置训练集的无监督的相关研究则更少。此外，有一类研究是文本有关的说话人识别，例如根据台词来识别影视剧视频中的人物。但此类研究并不适合一般的讲座、报告会、街头采访等场合，因为用户很难获取到说话人使用的讲稿。并且由于说话内容的领域千差万别，利用文本的说话人识别的领域相关性太强。因而本发明针对文本无关的基于音视频的无监督的多说话人识别进行研究。

发明内容

本发明要解决的技术问题主要是在不预先获取训练样本的情况下利用视频画面信息来辅助进行音频的多说话人识别。

本发明提供了一种基于音视频的无监督说话人识别装置。装置包括：初始化模块，分割整个音视频得到若干包含语音的段，将视频中属于同一个人的人脸进行归类，建立人集合，建立人与段关系矩阵；画面内说话人获取模块，从人脸中定位唇部区域，根据相邻帧判断是否发生唇动，在关系矩阵中进行说话人的记录；画面外说话人获取模块，根据迭代的关系矩阵判断是否新增说话人；说话人模型训练模块，根据关系矩阵收集每个说话人的正例和反例构成训练集，训练高斯混合模型和支持向量机分类器；说话人识别模块，使用高斯混合模型和支持向量机分类器对没有识别出唯一说话人的段进行处理；说话人验证模块，检测当所有段都具有唯一说话人，并且用户反馈没有错误之后结束。

本发明包括初始化模块，画面内说话人获取模块，画面外说话人获取模块，说话模型训练模块，说话人识别模块，说话人验证模块。

初始化模块，按照音频中的有无语音和语句停顿分割整个音视频，得到若干段，每个段包含若干视频帧和一段音频。

视频一般按照固定的帧率录制，例如一秒30帧。然而音频是一种连续数据，具体到语音，可以分为一个一个的“段”，但并不持续固定的时长。因而音频的划分可以按照其天然的“顿挫”间隔，划分后的音频单位称之为“段”。段划分的第一步工作是辨别是否是语音。有的段没有语音，例如交通的声音，也可能是语句之间的长停顿。

初始化模块，首先对整段音频按照是否存在语音说话进行粗分割，按照时间顺序分别存储为语音块和非语音块，对语音块按照句子之间的停顿继续进行分割并按照时间顺序存储为为多个段。

按照句子之间的停顿进行分割的关键是掌握好句子之间停顿的时长。通过预先设置合适的阈值，可以适应大部分的句子的停顿时间。

作为语音识别的基本单位，一段内一般只有一个说话人在说话。在某些特殊情况下，例如两个人抢着说话，一段内也会出现多个人同时说话的情况，但多人同时说话一般不会持续很长时间。

初始化模块，计算每个段的音频的MFCC特征，利用期望最大化算法训练表示音频总体分布的UBM模型。

MFCC特征，又称为Mel-Frequency Cepstral Coefficients，是一种常用的声学特征。期望值最大化算法，Expectation Maximization Algorithm，又称为EM算法，是一种迭代算法，用于含有隐变量的概率模型的最大似然估计或极大后验概率估计。用于说话人识别的UBM模型，又称为GMM-UBM模型，2000年Reynolds首次提出了基于GMM-UBM的说话人识别技术。然而基于GMM-UBM模型的现有研究大都是有监督的。本发明针对上述现有技术的不足，提出了针对文本无关的基于音视频的无监督的多说话人识别技术。UBM模型实际上是一个表征大量非特定说话人语音特征分布的高斯混合模型，引入UBM是因为在声纹识别过程中用于训练特定说话人的语音数据通常非常少，通常无法覆盖到该说话人GMM所在的特征空间，因此Reynolds提出可以采取说话人自适应，即根据训练语音的特征调整UBM的参数来表征特定说话人的个性信息，训练语音覆盖不到的特征可以用UBM中相似的特征分布来近似。

初始化模块，从所有视频帧中检测人脸，将属于同一个人的人脸进行归类，建立人集合。

人集合作为说话人识别中的说话人的集合。初始地，人集合只包括出现在画面内的能够识别的人脸。但对于“画外音”说话人，画外音的说话人如果在音视频的其他部分也没有出现在画面中的话，在识别出来确实不属于任何已经在画面中的人之后，会被作为画面外说话人加入人集合。

人脸识别可以采用常用的人脸特征和人脸识别算法。人脸特征例如肤色特征、脸部特征点等等。人脸识别算法例如局部特征分析（Local Face Analysis）方法、特征脸（Eigenface）方法、神经网络方法等等。

建立人与段的关系矩阵，每个矩阵元素是一个表示某人是否在某段中说话的关系值；关系值的初始值为0，表示不确定，关系值最小为-1，表示该人确定没有说话，关系值最大为1，表示该人确定说话了；如果某段只与一个说话人关系值为1，则认为该段属于该说话人，该段可以作为该说话人的训练集中的正例。

人与段的关系矩阵的目的是为了给每个段标记出确定的说话人、不可能的说话人、潜在的说话人等。人与段的关系矩阵包括两个维度，人的维度和段的维度。段的维度包括了整段音视频的所有段。人的维度包括人集合中的所有人。随着人集合中增加新的人，人与段的关系矩阵也会随之扩展。人与段的关系矩阵的元素数量等于人数乘以段数。关系矩阵的每个元素的初始值为0，表示初始情况下不清楚这个人是否在这个段中说话了。

画面内说话人获取模块，从每个段的每个视频帧识别出的人脸中定位唇部区域，根据相邻视频帧唇部区域的面积变化识别是否发生唇动。

内容涉及说话人的音视频一般都会在画面中出现说话人。出现在画面中的说话人一般都会面向镜头，在某些情况下也会出现说话人不面向镜头的情况，例如说话人转身面向黑板边写边说。在此类视频中说话人天然地会成为录制的焦点，说话人的脸部特征一般是清晰的。在某些情况下也会出现脸部特征无法识别的情况，例如说话人在视频画面中分辨率太低的情况。

具体地，针对每一段的若干视频帧，从每个视频帧中分割出若干人脸区域，从每个人脸区域中定位唇部区域；提取唇部区域的图像特征，识别出左右角点、下唇外沿中点、上唇外沿两个波峰的点和一个波谷的点；六个特征点连线围成一个六边形；通过拆分六边形为三角形再计算三角形面积求和得到唇部六边形的面积，作为唇部特征。从相邻视频帧序列中定位该唇部区域并提取唇部特征，对唇部特征的序列进行唇动曲线拟合；根据唇动曲线每一点的斜率判断是否发生唇动。

唇部特征是针对每一个视频帧提取出来的。而是否发生唇动需要根据相邻帧综合判断，如果相邻帧的唇部面积发生变化，那么当前人脸的唇部正在活动。一般情况下，唇动意味着正在说话。当然也不排除有些情况下唇动不是说话的情况，由于在本部分唇动被确定性的标记为说话，因此在后续说话人验证模块提供了救济措施，即用户反馈可以标记说话人和段的关系。有些情况下，也无法判断当前人脸是否发生了唇动，例如说话人带着口罩等等。需要注意的是，说话人带着口罩并不一定意味着人脸无法识别，某些人脸识别技术利用未被口罩遮挡的人脸区域也可以正确识别出人脸。

画面内说话人获取模块，检测到唇动的人标记为说话人，检测到没有唇动的人标记为未说话人；对关系矩阵中说话人与该段的关系值赋值为1，对关系矩阵中未说话人与该段的关系值赋值为-1；对于没有出现在该段画面中的人，以及出现在画面中但无法判断唇动的人，与该段的关系值仍然为0。

在很多情况下，镜头并不总是给到当前正在说话的人。例如，当观众提问时，可能画面还是停留在主讲人身上。此外，即使视频录制的规则是镜头时时刻刻聚焦到正在说话的人身上，摄影师也很难在第一时刻把镜头转向突然插入的说话人。因此画面外说话人的识别是必要的。

在初始识别时，只有画面内说话人可以被最直接地识别出来。而画面外说话人的识别需要首先解决如下的问题：没有画面外说话人的人脸信息，只能通过声音的相似性来判断画面外说话人是谁。即当前的画面外说话人是否是已经识别出的其他段的画面内说话人，或者当前的画面外说话人不是任何已经被识别出的说话人。这就需要首先建立已经识别出的说话人的声学模型，并将当前的画面外说话人与之对比，从而得到当前说话人的类别。因此，画面外说话人的识别应当在画面内说话人的识别之后。

此外，由于人脸识别技术的成熟，画面内说话人的识别的确定性很高，因此可以是一次性的。但是画面外说话人的识别需要依赖于声学模型，结果的确定性依赖于声学模型的准确度。在这种情况下，画面外说话人的识别有必要进行多次迭代。多次迭代的目的是为了克服声学模型的准确度不足的问题。通俗的说，就是某些声音听起来既像这个人又像那个人的时候，需要反复辨认才能最终确认声音的归属。

画面外说话人获取模块，如果在迭代运行时跳转到此，则获取前次迭代的学习结果，学习结果包括更新之后的关系矩阵。

多次迭代之间的数据传递使用人与段的关系矩阵，传递的数据主要是关系矩阵中人与段的关系的变化。例如，如果人与段的关系初始值都是0，而经过声学模型学习之后，某些人与段的关系值变化了，表明该段属于某人的概率增大了或者减小了。画面外说话人获取模块主要解决的问题就是当前的说话人是否属于现有的说话人，或者是不属于任何现有的说话人。

根据某段与所有说话人的关系值都小于预先设置的阈值，即表明该段不属于任何现有的说话人，则新增一个说话人，关系矩阵增加一列该说话人与所有段的关系值，该说话人与该段的初始值为1，与其他段的关系值为0。

因此，画面外说话人获取模块的主要目的就是获取新的画面外说话人，即不属于任何其他画面内说话人的说话人。

在每次迭代中，如果人和段的归属已经暂时确定，那么就需要根据每个说话人对应的语音段来训练该说话人的声学模型。

说话人模型训练模块，对于每一个说话人，收集只与该说话人关系值为1的段，将这些段的音频放入该说话人的训练集作为正例，搜索与该说话人关系值为-1的段，将这些段的音频放入该说话人的训练集作为反例。

机器学习的模型可以划分为生成模型和判别模型。生成模型例如贝叶斯分类器、隐马尔可夫模型、高斯混合模型（GMM）等。生成模型通过计算联合概率密度来计算各个结果类别的概率。判别模型例如K近邻、支持向量机（SVM）等等。判别模型通过计算判别边界来计算测试样本在边界的哪一边。GMM模型一般只需要使用正例作为训练集。SVM模型一般需要同时使用正例和反例作为训练集。

根据UBM模型和每个说话人的训练集来计算每个说话人的GMM模型；根据每个说话人的训练集的正例和反例，为该说话人训练一个SVM分类器。

代表大量非特定说话人语音特征分布的高斯混合模型的UBM模型是在一开始就训练好的，其训练样本是整段音频，在迭代过程中UBM模型不会再次计算。利用GMM-UBM来计算每个说话人的GMM模型，每个说话人的GMM模型取决于每个说话人的训练样本。当训练样本有所调整时，该说话人的GMM模型应当重新训练。具体地，在每次迭代时，可以检测该说话人的训练样本是否有变化，来决定是否需要重新训练该说话人的GMM模型。这样可以节省不必要的重复计算。

与GMM模型类似，SVM分类器是否需要重新训练也是取决于正例和反例的集合是否变化。应当注意，正例应当是只属于该说话人的段，如果某段中有多人说话，则不应将该段作为其中任何一个人的正例训练集。反例应当是不属于该说话人的段，如果某段中有多人说话，则不应将该段作为其中任何一个人的反例训练集。

说话人识别模块，对于每一个段，计算该段在所有说话人的GMM模型中的概率，计算该段在所有说话人的SVM分类器中的分类结果，根据GMM模型的概率和SVM分类器的分类结果来修改关系矩阵中的关系值。

GMM模型是一种生成模型，统计了数据的分布，能够反映同类数据本身的相似度。而SVM分类器是一种判别模型，寻找异类数据之间的最优分类面，反映了异类数据之间的差异。通过将GMM模型和SVM分类器的分类结果进行结合，综合利用了两者的优点。

具体地，对于每一个段，如果关系矩阵中该段仅与一个说话人的关系值为1，则认为该段属于该说话人，不必调整关系值；如果关系矩阵中该段与多个说话人的关系值为1，则从上述多个说话人中选择SVM分类结果为正的说话人，从这些说话人中选择GMM模型概率最大者作为该段最可能的说话人，其关系值保留1，其余说话人与该段的关系值设置为相应的GMM模型的概率；如果关系矩阵中该段与任何一个说话人的关系值都不为1，且存在关系值不为-1的多个说话人，则从关系值不为-1的多个说话人中选择SVM分类结果为正的说话人，计算该段在分类结果为正的说话人的GMM模型中的概率，将关系矩阵中相应说话人与该段的关系值设置为相应的概率。

本发明还提供了一种基于音视频的无监督的多说话人识别方法，包括：初始化步骤，按照音频中的有无语音和语句停顿分割整个音视频，得到若干段，每个段包含若干视频帧和一段音频；计算每个段的音频的MFCC特征，利用期望最大化算法训练表示音频总体分布的UBM模型；从所有视频帧中检测人脸，将属于同一个人的人脸进行归类，建立人集合；建立人与段的关系矩阵，每个矩阵元素是一个表示某人是否在某段中说话的关系值；关系值的初始值为0，表示不确定，关系值最小为-1，表示该人确定没有说话，关系值最大为1，表示该人确定说话了；如果某段只与一个说话人关系值为1，则认为该段属于该说话人，该段可以作为该说话人的训练集中的正例。

画面内说话人获取步骤，从每个段的每个视频帧识别出的人脸中定位唇部区域，根据相邻视频帧唇部区域的面积变化识别是否发生唇动；检测到唇动的人标记为说话人，检测到没有唇动的人标记为未说话人；对关系矩阵中说话人与该段的关系值赋值为1，对关系矩阵中未说话人与该段的关系值赋值为-1；对于没有出现在该段画面中的人，以及出现在画面中但无法判断唇动的人，与该段的关系值仍然为0。

画面外说话人获取步骤，如果在迭代运行时跳转到此，则获取前次迭代的学习结果，学习结果包括更新之后的关系矩阵；根据某段与所有说话人的关系值都小于预先设置的阈值，即表明该段不属于任何现有的说话人，则新增一个说话人，关系矩阵增加一列该说话人与所有段的关系值，该说话人与该段的初始值为1，与其他段的关系值为0。

说话人模型训练步骤，对于每一个说话人，收集只与该说话人关系值为1的段，将这些段的音频放入该说话人的训练集作为正例，搜索与该说话人关系值为-1的段，将这些段的音频放入该说话人的训练集作为反例；根据UBM模型和每个说话人的训练集来计算每个说话人的GMM模型；根据每个说话人的训练集的正例和反例，为该说话人训练一个SVM分类器。

说话人识别步骤，对于每一个段，计算该段在所有说话人的GMM模型中的概率，计算该段在所有说话人的SVM分类器中的分类结果，根据GMM模型的概率和SVM分类器的分类结果来修改关系矩阵中的关系值；具体地，对于每一个段，如果关系矩阵中该段仅与一个说话人的关系值为1，则认为该段属于该说话人，不必调整关系值；如果关系矩阵中该段与多个说话人的关系值为1，则从上述多个说话人中选择SVM分类结果为正的说话人，从这些说话人中选择GMM模型概率最大者作为该段最可能的说话人，其关系值保留1，其余说话人与该段的关系值设置为相应的GMM模型的概率；如果关系矩阵中该段与任何一个说话人的关系值都不为1，且存在关系值不为-1的多个说话人，计算该段多个说话人的GMM模型中的概率，将关系矩阵中相应说话人与该段的关系值设置为相应的概率；选出超过了预定义的阈值的最大的概率值对应的说话人，如果该说话人的SVM分类器中该段的分类结果为正，则该说话人被标记为该段的说话人。

说话人验证步骤，检测是否所有的段都标记了说话人；向用户展示每一段的音视频和标记的说话人，由用户进行说话人识别错误的反馈；如果用户标记某段属于某说话人，则将关系矩阵中该说话人和该段的关系值标记为1，如果用户标记某段不属于某说话人，则将关系矩阵中该说话人和该段的关系值标记为-1；如果所有的段都标记了说话人，并且用户没有反馈错误，则结束；否则迭代跳转到画面外说话人获取步骤。

附图说明

图1是本发明实施例一的示意图。

图2是本发明实施例一的人与段的关系矩阵的示意图。

图3是本发明实施例一的第一次迭代时关系矩阵的示意图。

图4是本发明实施例一的第二次迭代时关系矩阵的示意图。

具体实施方式

下面结合附图和实施例对本发明做进一步的详细说明。可以理解的是，实施例仅仅用于解释本发明，而非对本发明的限定。为了便于理解，附图只给出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种基于音视频的无监督的多说话人识别装置的示意图。

初始化模块，按照音频中的有无语音和语句停顿分割整个音视频，得到若干段，每个段包含若干视频帧和一段音频；计算每个段的音频的MFCC特征，利用期望最大化算法训练表示音频总体分布的UBM模型；从所有视频帧中检测人脸，将属于同一个人的人脸进行归类，建立人集合；建立人与段的关系矩阵，每个矩阵元素是一个表示某人是否在某段中说话的关系值；关系值的初始值为0，表示不确定，关系值最小为-1，表示该人确定没有说话，关系值最大为1，表示该人确定说话了；如果某段只与一个说话人关系值为1，则认为该段属于该说话人，该段可以作为该说话人的训练集中的正例。

画面内说话人获取模块，从每个段的每个视频帧识别出的人脸中定位唇部区域，根据相邻视频帧唇部区域的面积变化识别是否发生唇动；检测到唇动的人标记为说话人，检测到没有唇动的人标记为未说话人；对关系矩阵中说话人与该段的关系值赋值为1，对关系矩阵中未说话人与该段的关系值赋值为-1；对于没有出现在该段画面中的人，以及出现在画面中但无法判断唇动的人，与该段的关系值仍然为0。

画面外说话人获取模块，如果在迭代运行时跳转到此，则获取前次迭代的学习结果，学习结果包括更新之后的关系矩阵；根据某段与所有说话人的关系值都小于预先设置的阈值，即表明该段不属于任何现有的说话人，则新增一个说话人，关系矩阵增加一列该说话人与所有段的关系值，该说话人与该段的初始值为1，与其他段的关系值为0。

说话人模型训练模块，对于每一个说话人，收集只与该说话人关系值为1的段，将这些段的音频放入该说话人的训练集作为正例，搜索与该说话人关系值为-1的段，将这些段的音频放入该说话人的训练集作为反例；根据UBM模型和每个说话人的训练集来计算每个说话人的GMM模型；根据每个说话人的训练集的正例和反例，为该说话人训练一个SVM分类器。

说话人识别模块，对于每一个段，计算该段在所有说话人的GMM模型中的概率，计算该段在所有说话人的SVM分类器中的分类结果，根据GMM模型的概率和SVM分类器的分类结果来修改关系矩阵中的关系值；具体地，对于每一个段，如果关系矩阵中该段仅与一个说话人的关系值为1，则认为该段属于该说话人，不必调整关系值；如果关系矩阵中该段与多个说话人的关系值为1，则从上述多个说话人中选择SVM分类结果为正的说话人，从这些说话人中选择GMM模型概率最大者作为该段最可能的说话人，其关系值保留1，其余说话人与该段的关系值设置为相应的GMM模型的概率；如果关系矩阵中该段与任何一个说话人的关系值都不为1，且存在关系值不为-1的多个说话人，则从关系值不为-1的多个说话人中选择SVM分类结果为正的说话人，计算该段在分类结果为正的说话人的GMM模型中的概率，将关系矩阵中相应说话人与该段的关系值设置为相应的概率。

说话人验证模块，对于每一个段，标记出最可能的说话人；检测每段的音频说话人与视频帧画面的说话人之间的一致性；向用户展示每一段的音视频和标记的说话人，向用户提供标记识别错误的说话人的反馈接口，如果用户标记某段属于某说话人，则将关系矩阵中该说话人和该段的关系值标记为1，如果用户标记某段不属于某说话人，则将关系矩阵中该说话人和该段的关系值标记为-1；如果一致性检测通过，用户没有反馈错误，则结束；否则迭代跳转到画面外说话人获取模块。

图2为本发明实施例一提供的人与段的关系矩阵的示意图。

首先对整段音频按照是否存在语音说话进行粗分割，按照时间顺序分别存储为语音块和非语音块，对语音块按照句子之间的停顿继续进行分割并按照时间顺序存储为多个段。例如，整个音视频在分割之后，去除掉不包含语音的音频，得到8个包含语音的段。每个段包含若干视频帧和一段音频。

画面内说话人获取模块，针对每一个段的若干视频帧，从每个视频帧中分割出若干人脸区域，从每个人脸区域中定位唇部区域；提取唇部区域的图像特征，识别出左右角点、下唇外沿中点、上唇外沿两个波峰的点和一个波谷的点；六个特征点连线围成一个六边形；通过拆分六边形为三角形再计算三角形面积求和得到唇部六边形的面积，作为唇部特征；从相邻视频帧序列中定位该唇部区域并提取唇部特征，对唇部特征的序列进行唇动曲线拟合；根据唇动曲线每一点的斜率判断是否发生唇动。例如，在对所有的段进行分析之后，检测到3个画面内说话人，人1、人2和人3，构成当前的人集合。分别是在段1、2检测到人1说话，段3、4检测到人2，段5、6检测到人3。则此时人与段的关系矩阵中相应的位置赋值1或-1。如图3所示，例如对于段1来说，只有人1说话，人2和3没有说话，则人1和段1的关系值为1，人2和段1的关系值为-1，人3和段1的关系值为-1。例如对于段7、8来说，由于没有检测到唇动，因此没有检测到说话人，这两段与所有说话人的关系值仍然是初始值0。

画面外说话人获取模块，在第一次迭代运行时，没有在前的学习结果。此时检测是否存在某段，该段与所有说话人的关系值都小于预先设置的阈值，如果存在就新增一个说话人。由于关系值0表示不确定，关系值1表示确定属于，关系值-1表示确定不属于。该阈值应当是小于0的某个值。此时段1-6都有等于1的关系值，而段7-8与所有段的值都是0。因此不满足新增加说话人的条件。

说话人模型训练模块，对于当前人集合中的3个说话人，人1、人2和人3，收集只与该说话人关系值为1的段，将这些段的音频放入该说话人的训练集作为正例，搜索与该说话人关系值为-1的段，将这些段的音频放入该说话人的训练集作为反例。如图3所示，对于人1来说，其正例集合为段1、段2，其反例集合为段3、段4、段5、段6。对于人2来说，其正例集合为段3、段4，其反例集合为段1、段2、段5、段6。对于人3来说，其正例集合为段5、段6，其反例集合为段1、段2、段3、段4。

假设人1的GMM模型为G1，SVM分类器为S1，人2的GMM模型为G2，SVM分类器为S2，人3的GMM模型为G3，SVM分类器为S3。

说话人识别模块，对于每一个段，计算该段在所有说话人的GMM模型中的概率，计算该段在所有说话人的SVM分类器中的分类结果。

此时关系矩阵中不存在与多个说话人的关系值为1的段。此时关系矩阵中段7与任何一个说话人的关系值都不为1，且存在关系值不为-1的多个说话人——人1、人2和人3（其初始值为0），段5属于这三人的概率分别进行计算。假设通过计算，段7在G1中的值为0.4，该值的有效范围为[0, 1]，将其归一化到[-1, 1]，即段7属于人1的概率为0.8。类似地，得到段7属于人2的概率为-0.2，段7属于人3的概率为-0.5。同样地，通过计算得到，段8属于人1的概率为-0.6，段8属于人2的概率为-0.5，段8属于人3的概率为-0.8。

如果关系矩阵中该段与任何一个说话人的关系值都不为1，且存在关系值不为-1的多个说话人，计算该段多个说话人的GMM模型中的概率，将关系矩阵中相应说话人与该段的关系值设置为相应的概率；选出超过了预定义的阈值的最大的概率值对应的说话人，如果该说话人的SVM分类器中该段的分类结果为正，则该说话人被标记为该段的说话人。

此时段7、段8都符合上述情况。假设此时的预定义的阈值为0.5，那么只有段7和人1的概率值0.8超过了该阈值，如果此时人1的SVM分类器中该段7的分类结果为正（也就是SVM分类器判定段7属于人1），则人1被标记为段7的说话人。由于段8与人1、人2和人3的概率值都低于该阈值，因此在本次迭代中段8没有标记说话人。

说话人验证模块，检测是否所有的段都标记了说话人；向用户展示每一段的音视频和标记的说话人，由用户进行说话人识别错误的反馈。

此时段7、段8还没有标记说话人，因此跳转到画面外说话人获取模块，进入了第二次迭代。

预先设置的阈值用来判定新增说话人，假设预先设置的阈值为-0,3，此时段8与所有说话人的关系值都小于该阈值，那么可以认为段8属于一个未知的说话人（不属于已经识别出的画面内说话人，也就是说属于画面外说话人）。此时我们增加一个新的说话人——人4。

如图4所示，人4与段8的关系值为1，与其他段的关系值为初始值0。

继续进行第二次迭代的说话人训练。与第一次迭代相比，人1、人2和人3的GMM模型和SVM分类器已经训练好。此时只需要训练人4的GMM模型和SVM分类器。假设人1的GMM模型为G4，SVM分类器为S4。此时没有需要修改的关系值。

此时所有的段都标记了相应的说话人。如果用户也没有反馈错误的话，则迭代结束。此时人1说话的段是段1、段2、段7，人2说话的段是段3、段4，人3说话的段是段5、段6，人4说话的段是段8。

注意，上述仅为本发明的较佳实施例及所运用的技术原理。本领域技术人员可以理解，本发明不限于上述特定实施例。在不脱离本发明构思的情况下，还可以包括更多其他实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种基于音视频的无监督的多说话人识别装置，包括：

初始化模块，按照音频中的有无语音和语句停顿分割整个音视频，得到若干段，每个段包含若干视频帧和一段音频；计算每个段的音频的MFCC特征，利用期望最大化算法训练表示音频总体分布的UBM模型；从所有视频帧中检测人脸，将属于同一个人的人脸进行归类，建立人集合；建立人与段的关系矩阵，每个矩阵元素是一个表示某人是否在某段中说话的关系值；关系值的初始值为0，表示不确定，关系值最小为-1，表示该人确定没有说话，关系值最大为1，表示该人确定说话了；如果某段只与一个说话人关系值为1，则认为该段属于该说话人，该段可以作为该说话人的训练集中的正例；

画面内说话人获取模块，从每个段的每个视频帧识别出的人脸中定位唇部区域，根据相邻视频帧唇部区域的面积变化识别是否发生唇动；检测到唇动的人标记为说话人，检测到没有唇动的人标记为未说话人；对关系矩阵中说话人与该段的关系值赋值为1，对关系矩阵中未说话人与该段的关系值赋值为-1；对于没有出现在该段画面中的人，以及出现在画面中但无法判断唇动的人，与该段的关系值仍然为0；

画面外说话人获取模块，如果在迭代运行时跳转到此，则获取前次迭代的学习结果，学习结果包括更新之后的关系矩阵；根据某段与所有说话人的关系值都小于预先设置的阈值，即表明该段不属于任何现有的说话人，则新增一个说话人，关系矩阵增加一列该说话人与所有段的关系值，该说话人与该段的初始值为1，与其他段的关系值为0；

说话人模型训练模块，对于每一个说话人，收集只与该说话人关系值为1的段，将这些段的音频放入该说话人的训练集作为正例，搜索与该说话人关系值为-1的段，将这些段的音频放入该说话人的训练集作为反例；根据UBM模型和每个说话人的训练集来计算每个说话人的GMM模型；根据每个说话人的训练集的正例和反例，为该说话人训练一个SVM分类器；

说话人识别模块，对于每一个段，计算该段在所有说话人的GMM模型中的概率，计算该段在所有说话人的SVM分类器中的分类结果，根据GMM模型的概率和SVM分类器的分类结果来修改关系矩阵中的关系值；具体地，对于每一个段，如果关系矩阵中该段仅与一个说话人的关系值为1，则认为该段属于该说话人，不必调整关系值；如果关系矩阵中该段与多个说话人的关系值为1，则从上述多个说话人中选择SVM分类结果为正的说话人，从这些说话人中选择GMM模型概率最大者作为该段最可能的说话人，其关系值保留1，其余说话人与该段的关系值设置为相应的GMM模型的概率；如果关系矩阵中该段与任何一个说话人的关系值都不为1，且存在关系值不为-1的多个说话人，计算该段多个说话人的GMM模型中的概率，将关系矩阵中相应说话人与该段的关系值设置为相应的概率；选出超过了预定义的阈值的最大的概率值对应的说话人，如果该说话人的SVM分类器中该段的分类结果为正，则该说话人被标记为该段的说话人；

说话人验证模块，检测是否所有的段都标记了说话人；向用户展示每一段的音视频和标记的说话人，由用户进行说话人识别错误的反馈；如果用户标记某段属于某说话人，则将关系矩阵中该说话人和该段的关系值标记为1，如果用户标记某段不属于某说话人，则将关系矩阵中该说话人和该段的关系值标记为-1；如果所有的段都标记了说话人，并且用户没有反馈错误，则结束；否则迭代跳转到画面外说话人获取模块。

2.根据权利要求1所述的装置，其特征在于，

初始化模块，首先对整段音频按照是否存在语音说话进行粗分割，按照时间顺序分别存储为语音块和非语音块，对语音块按照句子之间的停顿继续进行分割并按照时间顺序存储为多个段。

3.根据权利要求1所述的装置，其特征在于，

画面内说话人获取模块，针对每一个段的若干视频帧，从每个视频帧中分割出若干人脸区域，从每个人脸区域中定位唇部区域；提取唇部区域的图像特征，识别出左右角点、下唇外沿中点、上唇外沿两个波峰的点和一个波谷的点；六个特征点连线围成一个六边形；通过拆分六边形为三角形再计算三角形面积求和得到唇部六边形的面积，作为唇部特征；

从相邻视频帧序列中定位该唇部区域并提取唇部特征，对唇部特征的序列进行唇动曲线拟合；

根据唇动曲线每一点的斜率判断是否发生唇动。

4.根据权利要求1所述的装置，其特征在于，

说话人模型训练模块，每个说话人的训练集包括正例和反例，基于期望最大化方法利用UMB模型和每个说话人的训练集的正例计算每个说话人的GMM模型；

根据每个说话人的训练集的正例和反例训练SVM分类器，每个段的音频特征可以在每个说话人的SVM分类器中得出一个分类结果，分类结果为负表示该段不属于该说话人，分类结果为正表示该段属于该说话人。

5.一种基于音视频的无监督的多说话人识别方法，包括：

初始化步骤，按照音频中的有无语音和语句停顿分割整个音视频，得到若干段，每个段包含若干视频帧和一段音频；计算每个段的音频的MFCC特征，利用期望最大化算法训练表示音频总体分布的UBM模型；从所有视频帧中检测人脸，将属于同一个人的人脸进行归类，建立人集合；建立人与段的关系矩阵，每个矩阵元素是一个表示某人是否在某段中说话的关系值；关系值的初始值为0，表示不确定，关系值最小为-1，表示该人确定没有说话，关系值最大为1，表示该人确定说话了；如果某段只与一个说话人关系值为1，则认为该段属于该说话人，该段可以作为该说话人的训练集中的正例；

画面内说话人获取步骤，从每个段的每个视频帧识别出的人脸中定位唇部区域，根据相邻视频帧唇部区域的面积变化识别是否发生唇动；检测到唇动的人标记为说话人，检测到没有唇动的人标记为未说话人；对关系矩阵中说话人与该段的关系值赋值为1，对关系矩阵中未说话人与该段的关系值赋值为-1；对于没有出现在该段画面中的人，以及出现在画面中但无法判断唇动的人，与该段的关系值仍然为0；

画面外说话人获取步骤，如果在迭代运行时跳转到此，则获取前次迭代的学习结果，学习结果包括更新之后的关系矩阵；根据某段与所有说话人的关系值都小于预先设置的阈值，即表明该段不属于任何现有的说话人，则新增一个说话人，关系矩阵增加一列该说话人与所有段的关系值，该说话人与该段的初始值为1，与其他段的关系值为0；

说话人模型训练步骤，对于每一个说话人，收集只与该说话人关系值为1的段，将这些段的音频放入该说话人的训练集作为正例，搜索与该说话人关系值为-1的段，将这些段的音频放入该说话人的训练集作为反例；根据UBM模型和每个说话人的训练集来计算每个说话人的GMM模型；根据每个说话人的训练集的正例和反例，为该说话人训练一个SVM分类器；

说话人识别步骤，对于每一个段，计算该段在所有说话人的GMM模型中的概率，计算该段在所有说话人的SVM分类器中的分类结果，根据GMM模型的概率和SVM分类器的分类结果来修改关系矩阵中的关系值；具体地，对于每一个段，如果关系矩阵中该段仅与一个说话人的关系值为1，则认为该段属于该说话人，不必调整关系值；如果关系矩阵中该段与多个说话人的关系值为1，则从上述多个说话人中选择SVM分类结果为正的说话人，从这些说话人中选择GMM模型概率最大者作为该段最可能的说话人，其关系值保留1，其余说话人与该段的关系值设置为相应的GMM模型的概率；如果关系矩阵中该段与任何一个说话人的关系值都不为1，且存在关系值不为-1的多个说话人，计算该段多个说话人的GMM模型中的概率，将关系矩阵中相应说话人与该段的关系值设置为相应的概率；选出超过了预定义的阈值的最大的概率值对应的说话人，如果该说话人的SVM分类器中该段的分类结果为正，则该说话人被标记为该段的说话人；

6.根据权利要求5所述的方法，其特征在于，

初始化步骤，首先对整段音频按照是否存在语音说话进行粗分割，按照时间顺序分别存储为语音块和非语音块，对语音块按照句子之间的停顿继续进行分割并按照时间顺序存储为多个段。

7.根据权利要求5所述的方法，其特征在于，

画面内说话人获取步骤，针对每一个段的若干视频帧，从每个视频帧中分割出若干人脸区域，从每个人脸区域中定位唇部区域；提取唇部区域的图像特征，识别出左右角点、下唇外沿中点、上唇外沿两个波峰的点和一个波谷的点；六个特征点连线围成一个六边形；通过拆分六边形为三角形再计算三角形面积求和得到唇部六边形的面积，作为唇部特征；

根据唇动曲线每一点的斜率判断是否发生唇动。

8.根据权利要求5所述的方法，其特征在于，

说话人模型训练步骤，每个说话人的训练集包括正例和反例，基于期望最大化方法利用UMB模型和每个说话人的训练集的正例计算每个说话人的GMM模型；