CN111613227A

CN111613227A - 声纹数据生成方法、装置、计算机装置及存储介质

Info

Publication number: CN111613227A
Application number: CN202010244174.8A
Authority: CN
Inventors: 王德勋; 徐国强
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-03-31
Filing date: 2020-03-31
Publication date: 2020-09-01
Also published as: WO2021196390A1

Abstract

本发明提供一种声纹数据生成方法、装置、计算机装置及存储介质。所述声纹数据生成方法包括：获取音视频数据；对音视频数据中的原始图像序列逐帧进行人脸检测，得到多个人脸图像及其人脸框；根据多个人脸图像及其人脸框从原始图像序列中获取多个人脸图像子序列；检测每个人脸图像子序列中的每个人脸图像是否张嘴；根据每个人脸图像子序列的张嘴检测结果筛选出目标人脸图像子序列；对每个目标人脸图像子序列提取人脸特征；对目标人脸图像子序列进行聚类，得到每个目标人脸图像子序列所属的目标用户；从音视频数据的音频流中截取每个目标用户的目标图像子序列对应的音频段，得到每个目标用户的声纹数据。本发明可以高效率、低成本地获得声纹数据。

Description

声纹数据生成方法、装置、计算机装置及存储介质

技术领域

本发明涉及语音处理技术领域，具体涉及一种声纹数据生成方法、装置、计算机装置及存储介质。

背景技术

人类的语音中包含了丰富的信息，其中一种重要的信息是表征说话人身份的声纹信息。由于不同人具有相异的声腔和发声方式，任何两个人的声纹信息都不相同。声纹识别就是利用机器自动提取语音中的声纹信息并鉴别说话人身份的过程，其在安防、审核和教育等场景中发挥着重要作用。

目前主流的声纹识别方法是基于深度学习的声纹识别，通过大量的声纹样本对神经网络模型(即声纹识别模型)进行训练，使神经网络模型自动挖掘出说话人的声纹特征，根据声纹特征识别说话人身份。然而，不同于人脸数据，语音数据(如声纹数据)更具有隐私性也更难收集，并有口音、噪声、方言等多种可变因素，导致开源的声纹数据库在质量和数量上严重不足，不能得到足够的声纹样本，无法训练出高准确率的声纹识别模型。自行收集、标注声纹数据也需要投入大量的金钱和人力成本。声纹数据的不足很大程度上限制了声纹识别技术的发展和推广。

发明内容

鉴于以上内容，有必要提出一种声纹数据生成方法、装置、计算机装置及存储介质，其可以高效率、低成本地获得声纹数据。

本申请的第一方面提供一种声纹数据生成方法，所述方法包括：

获取音视频数据；

对所述音视频数据中的原始图像序列逐帧进行人脸检测，得到多个人脸图像和所述多个人脸图像的人脸框；

根据所述多个人脸图像和所述人脸框从所述原始图像序列中获取多个人脸图像子序列，每个人脸图像子序列包含同一用户的多个人脸图像；

检测每个人脸图像子序列中的每个人脸图像是否张嘴；

根据每个人脸图像子序列的张嘴检测结果筛选出目标人脸图像子序列；

对每个目标人脸图像子序列提取人脸特征；

根据每个目标人脸图像子序列的人脸特征对所述目标人脸图像子序列进行聚类，得到每个目标人脸图像子序列所属的目标用户；

从所述音视频数据的音频流中截取每个目标用户的目标图像子序列对应的音频段，得到每个目标用户的声纹数据。

另一种可能的实现方式中，所述对所述音视频数据中的原始图像序列逐帧进行人脸检测包括：

使用多任务级联卷积网络模型对所述音视频数据中的原始图像序列逐帧进行人脸检测。

另一种可能的实现方式中，所述根据所述多个人脸图像和所述人脸框从所述原始图像序列中获取多个人脸图像子序列包括：

以所述原始图像序列中的一个原始图像作为起始点，逐一选取当前原始图像和下一原始图像，得到相邻两个原始图像；

判断所述相邻两个原始图像的人脸框是否满足预设条件；

若所述相邻两个原始图像是人脸图像，并且所述相邻两个原始图像的人脸框满足预设条件，则确定所述相邻两个原始图像对应同一用户，所述相邻两个原始图像属于同一人脸图像子序列；

否则，若所述相邻两个原始图像至少一个不是人脸图像，或者所述相邻两个原始图像的人脸框不满足预设条件，则确定所述相邻两个原始图像不对应同一用户，所述相邻两个原始图像不属于同一人脸图像子序列。

另一种可能的实现方式中，所述判断所述相邻两个原始图像的人脸框是否满足预设条件包括：

判断所述相邻两个原始图像的人脸框的重叠面积比例是否大于或等于预设比例；

或者，判断所述相邻两个人脸图像的人脸框的距离是否小于或等于预设距离。

另一种可能的实现方式中，所述检测每个人脸图像子序列中的每个人脸图像是否张嘴包括：

使用Adaboost算法检测每个人脸图像子序列中的每个人脸图像是否张嘴。

另一种可能的实现方式中，所述根据每个人脸图像子序列的张嘴检测结果筛选出目标人脸图像子序列包括：

判断每个人脸图像子序列中闭嘴的人脸图像在该人脸图像子序列中的占比；

若该人脸图像子序列中闭嘴的人脸图像在该人脸图像子序列中的占比小于或等于预设比例，则该人脸图像子序列为目标人脸图像子序列。

另一种可能的实现方式中，所述对每个目标人脸图像子序列提取人脸特征包括：

使用点分布模型对每个目标人脸图像子序列提取人脸特征。

本申请的第二方面提供一种声纹数据生成装置，所述装置包括：

音视频获取模块，用于获取音视频数据；

人脸检测模块，用于对所述音视频数据中的原始图像序列逐帧进行人脸检测，得到多个人脸图像和所述多个人脸图像的人脸框；

序列获取模块，用于根据所述多个人脸图像和所述人脸框从所述原始图像序列中获取多个人脸图像子序列，每个人脸图像子序列包含同一用户的多个人脸图像；

张嘴检测模块，用于检测每个人脸图像子序列中的每个人脸图像是否张嘴；

筛选模块，用于根据每个人脸图像子序列的张嘴检测结果筛选出目标人脸图像子序列；

特征提取模块，用于对每个目标人脸图像子序列提取人脸特征；

聚类模块，用于根据每个目标人脸图像子序列的人脸特征对所述目标人脸图像子序列进行聚类，得到每个目标人脸图像子序列所属的目标用户；

截取模块，用于从所述音视频数据的音频流中截取每个目标用户的目标图像子序列对应的音频段，得到每个目标用户的声纹数据。

判断所述相邻两个原始图像的人脸框是否满足预设条件；

使用点分布模型对每个目标人脸图像子序列提取人脸特征。

本申请的第三方面提供一种计算机装置，所述计算机装置包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现所述声纹数据生成方法。

本申请的第四方面提供一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述声纹数据生成方法。

本发明获取音视频数据；对所述音视频数据中的原始图像序列逐帧进行人脸检测，得到多个人脸图像和所述多个人脸图像的人脸框；根据所述多个人脸图像和所述人脸框从所述原始图像序列中获取多个人脸图像子序列，每个人脸图像子序列包含同一用户的多个人脸图像；检测每个人脸图像子序列中的每个人脸图像是否张嘴；根据每个人脸图像子序列的张嘴检测结果筛选出目标人脸图像子序列；对每个目标人脸图像子序列提取人脸特征；根据每个目标人脸图像子序列的人脸特征对所述目标人脸图像子序列进行聚类，得到每个目标人脸图像子序列所属的目标用户；从所述音视频数据的音频流中截取每个目标用户的目标图像子序列对应的音频段，得到每个目标用户的声纹数据。本发明以发展更为成熟的人脸图像技术为指导，充分利用了音视频数据中语音与图像之间的相关性从音视频数据的音频流中提取与说话人关联的声纹数据。采用本发明对大量的音视频数据进行处理，可以得到大量的声纹数据以构建大规模的声纹数据库。本发明可以高效率、低成本地获得声纹数据，该声纹数据能够用来对声纹识别模型进行训练，解决了声纹样本难以获取的问题，有助于声纹识别技术的发展和推广。

附图说明

图1是本发明实施例提供的声纹数据生成方法的流程图。

图2是本发明实施例提供的声纹数据生成装置的结构图。

图3是本发明实施例提供的计算机装置的示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施例对本发明进行详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

优选地，本发明的声纹数据生成方法应用在一个或者多个计算机装置中。所述计算机装置是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific IntegratedCircuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机装置可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机装置可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

实施例一

图1是本发明实施例一提供的声纹数据生成方法的流程图。所述声纹数据生成方法应用于计算机装置。

所述声纹数据生成方法从音视频数据中提取出与说话人关联的声纹数据。所述声纹数据可以作为声纹样本对声纹识别模型进行训练。

如图1所示，所述声纹数据生成方法包括：

101，获取音视频数据。

音视频数据是指同时包含语音和图像的多媒体数据。所述音视频数据的内容包括，但不限于综艺、采访、电视剧等。

为了提取与说话人关联的声纹数据，获取的音视频数据包括说话人的语音和图像。

可以从预设多媒体数据库获取所述音视频数据。或者，可以控制所述计算机装置中的或者与所述计算机装置相连接的摄像设备实时采集所述音视频数据。

102，对所述音视频数据中的原始图像序列逐帧进行人脸检测，得到多个人脸图像和所述多个人脸图像的人脸框。

可以从所述音视频数据中分离出原始图像序列和音频流序列。例如，可以采用音视频编辑软件(如MediaCoder、ffmpeg)从所述音视频数据中分离出原始图像序列和音频流序列。

所述原始图像序列包括多个原始图像。

可选的，所述对所述音视频数据中的原始图像序列逐帧进行人脸检测包括：

使用MTCNN(Multi-task Cascaded Convolutional Networks，多任务级联卷积网络)模型对所述音视频数据中的原始图像序列逐帧进行人脸检测。

MTCNN由P-Net(proposal network，建议网络)、R-Net(refine network，改善网络)、O-Net(output network，输出网络)三个部分组成。三个部分是相互独立的三个网络结构。每个部分都是一个多任务网络，处理的任务包括：人脸/非人脸的判断、人脸框回归、特征点定位。

使用MTCNN模型对所述音视频数据中的原始图像序列逐帧进行人脸检测包括：

(1)使用P-Net生成候选窗。可以使用边框回归(Bounding box regression)的方法校正候选窗，使用非极大值抑制(NMS)合并重叠的候选框。

(2)使用N-Net改善候选窗。将通过P-Net的候选窗输入R-Net中，去除候选框中的非人脸框。

(3)使用O-Net输出最终的人脸框和人脸特征点的位置。

使用MTCNN模型进行人脸识别可以参考现有技术，此处不再赘述。

在其他的实施例中，可以使用其他的神经网络模型对所述音视频数据中的原始图像序列逐帧进行人脸检测。例如，可以使用faster R-CNN(faster region-basedconvolution neural network,加速区域卷积神经网络模型)或cascadeCNN(cascadeconvolution neural network,级联卷积神经网络模型)对所述音视频数据中的原始图像序列逐帧进行人脸检测。

所述人脸图像是指包含人脸的图像。

在本实施例中，若从一个原始图像检测到满足要求的人脸框，则确定该原始图像为人脸图像；若从该原始图像中没有检测到满足要求的人脸框(包括没有检测到人脸框或者检测到的人脸框不满足要求)，则确定该原始图像不是人脸图像。

在其他的实施例中，若从一个原始图像检测到人脸框，则确定该原始图像为人脸图像；若从该原始图像中没有检测到人脸框，则确定该原始图像不是人脸图像。

在本实施例中，若一个原始图像中存在多个人脸框，则选取面积最大的人脸框作为该原始图像的人脸框，使得一个人脸图像对应一个人脸框。

在本实施例中，可以判断从原始图像中检测到的人脸框的大小是否小于或等于预设阈值，若从原始图像中检测到的人脸框的大小小于或等于预设阈值，则确定该人脸框为无效的人脸框。例如，可以判断从原始图像中检测到的人脸框的宽和高是否小于或等于50个像素，若从原始图像中检测到的人脸框的宽或高小于或等于50个像素，则确定该人脸框为无效的人脸框。

在一具体实施例中，若从一个原始图像检测到的人脸框的大小大于预设阈值，则确定该原始图像为人脸图像；若从该原始图像中没有检测到人脸框或者检测到的人脸框的大小均小于或等于预设阈值，则确定该原始图像不是人脸图像。

103，根据所述多个人脸图像和所述人脸框从所述原始图像序列中获取多个人脸图像子序列，每个人脸图像子序列包含同一用户的多个人脸图像。

可选的，根据所述多个人脸图像和所述人脸框从所述原始图像序列中获取多个人脸图像子序列包括：

判断所述相邻两个原始图像的人脸框是否满足预设条件；

例如，以所述原始图像序列中的第一个原始图像作为起始点，选取所述原始图像序列中的第一个原始图像和第二个原始图像作为相邻两个原始图像，若第一个原始图像和第二个原始图像是人脸图像，并且第一个原始图像和第二个原始图像的人脸框满足预设条件，则确定第一个原始图像和第二个原始图像对应同一用户并属于第一人脸图像子序列；选取所述原始图像序列中的第二个原始图像和第三个原始图像作为相邻两个原始图像，若第二个原始图像和第三个原始图像是人脸图像，并且第二个原始图像和第三个原始图像的人脸框满足预设条件，则确定第二个原始图像和第三个原始图像对应同一用户，第三个原始图像也属于第一人脸图像子序列；……；选取所述原始图像序列中的第八个原始图像和第九个原始图像作为相邻两个原始图像，若第九个原始图像不是人脸图像，或者第八个原始图像和第九个原始图像的人脸框不满足预设条件，则确定第八个原始图像和第九个原始图像对应同一用户，第九个原始图像不属于第一人脸图像子序列。因此，获取的第一人脸图像子序列包括第一个原始图像、第二个原始图像、……、第八个原始图像。以第九个原始图像为新的起始点，获取下一个人脸图像子序列。

可以理解，可以采用其他的方法根据所述多个人脸图像和所述人脸框从所述原始图像序列中获取多个人脸图像子序列。例如，可以以一个人脸图像作为起始点，逐一选取当前人脸图像和下一人脸图像，得到两个人脸图像；

若所述两个人脸图像是所述原始图像序列中的相邻帧，并且所述两个人脸图像的人脸框满足预设条件，则确定所述两个人脸图像对应同一用户，所述两个人脸图像属于同一人脸图像子序列；

否则，若所述两个人脸图像不是所述原始图像序列中的相邻帧，或者所述两个人脸图像的人脸框不满足预设条件，则确定所述两个人脸图像不对应同一用户，所述两个人脸图像不属于同一人脸图像子序列。

可选的，判断所述相邻两个原始图像的人脸框是否满足预设条件包括：

判断所述相邻两个原始图像的人脸框的重叠面积比例(Intersection overUnion，IOU)是否大于或等于预设比例；

若所述相邻两个人脸图像的人脸框的重叠面积比例大于或等于预设比例，则确定所述相邻两个人脸图像满足预设条件。

或者，可以判断所述相邻两个人脸图像的人脸框的距离是否小于或等于预设距离，若所述相邻两个人脸图像的人脸框的距离小于或等于预设距离，则确定所述相邻两个人脸图像满足预设条件。

在对所述音视频数据中的原始图像序列逐帧进行人脸检测时，可以得到每个人脸框的位置，根据所述相邻两个人脸图像的人脸框的位置可以计算所述相邻两个人脸图像的人脸框的距离。

104，检测每个人脸图像子序列中的每个人脸图像是否张嘴。

可选的，所述检测每个人脸图像子序列中的每个人脸图像是否张嘴包括：

Adaboost是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器(弱分类器)，然后把这些弱分类器集合起来，构成一个更强的最终分类器(强分类器)。

可以使用基于Haar特征的Adaboost算法训练分类器，实现嘴的正常状态和张嘴状态的区分。

使用Adaboost算法进行特征检测(如张嘴检测)可以参考现有技术，此处不再赘述。

在其他的实施例中，可以使用其他的方法检测每个人脸图像子序列中的每个人脸图像是否张嘴。例如，可以使用MobileNetV2(移动网络V2)模型检测每个人脸图像子序列中的每个人脸图像是否张嘴。

105，根据每个人脸图像子序列的张嘴检测结果筛选出目标人脸图像子序列。

可选的，所述根据每个人脸图像子序列的张嘴检测结果筛选出目标人脸图像子序列包括：

若该人脸图像子序列中闭嘴的人脸图像在该人脸图像子序列中的占比小于或等于预设比例(例如0.3)，则该人脸图像子序列为目标人脸图像子序列。

否则，若该人脸图像子序列中闭嘴的人脸图像在该人脸图像子序列中的占比大于预设比例，则该人脸图像子序列不是目标人脸图像子序列。

或者，可以判断每个人脸图像子序列中闭嘴的人脸图像的数量是否小于或等于预设数量(例如3)。若该人脸图像子序列中闭嘴的人脸图像的数量小于或等于预设数量，则该人脸图像子序列为目标人脸图像子序列。否则，若该人脸图像子序列中闭嘴的人脸图像的数量大于预设数量，则该人脸图像子序列不是目标人脸图像子序列。

在根据每个人脸图像子序列的张嘴检测结果筛选出目标人脸图像子序列之前，可以使用中值滤波对每个人脸图像子序列的张嘴检测结果作平滑处理。

例如，中值滤波的滑窗大小取为3，即对人脸图像子序列的张嘴检测结果每3个数计算一次中值。通过中值滤波能够平滑张嘴检测结果，更好地筛选出目标人脸图像子序列。

106，对每个目标人脸图像子序列提取人脸特征。

可选的，所述对每个目标人脸图像子序列提取人脸特征包括：

使用点分布模型对每个目标人脸图像子序列提取人脸特征。

点分布模型是一种线性轮廓模型，其实现形式是主成分分析。在该模型中，人脸轮廓(即特征点坐标序列)被描述成训练样本均值与各主成分基向量的加权线性组合的和的形式。

在其他的实施例中，可以使用其他的特征提取模型或算法对每个目标人脸图像子序列提取人脸特征。例如，使用SIFT算法对每个目标人脸图像子序列提取人脸特征。

可以对每个目标人脸图像子序列中的每个人脸图像提取人脸特征，根据目标人脸图像子序列中的所有人脸图像的人脸特征确定该目标人脸图像子序列的人脸特征。例如，可以计算目标人脸图像子序列中的所有人脸图像的人脸特征的平均值，将所述平均值作为目标人脸图像子序列的人脸特征。

或者，可以从每个目标人脸图像子序列中选取一个或多个人脸图像(例如图像质量最好的一个人脸图像)，对所述一个或多个人脸图像提取人脸特征，根据所述一个或多个人脸图像的人脸特征确定目标人脸图像子序列的人脸特征。

107，根据每个目标人脸图像子序列的人脸特征对所述目标人脸图像子序列进行聚类，得到每个目标人脸图像子序列所属的目标用户。

可以使用GMM(Gaussian Mixture Model，高斯混合模型)、DBSCAN或K-Means算法对所述目标人脸图像子序列进行聚类。

具体地，对所述目标人脸图像子序列进行聚类包括：

(1)选取预设数量的目标人脸图像子序列的人脸特征作为聚类中心；

(2)计算每个目标人脸图像子序列的人脸特征到每个聚类中心的距离；

(3)根据每个目标人脸图像子序列的人脸特征到每个聚类中心的距离将每个目标人脸图像子序列划分到一个簇中；

(4)根据所述目标人脸图像子序列的划分更新所述聚类中心；

重复上述(2)-(4)，直至所述聚类中心不再改变。

每个最终得到的聚类中心对应一个目标用户。

可以计算每个目标人脸图像子序列的人脸特征到每个聚类中心的余弦相似度，以所述余弦相似度作为每个目标人脸图像子序列的人脸特征到每个聚类中心的距离。

或者，可以计算每个目标人脸图像子序列的人脸特征到每个聚类中心的欧氏距离、曼哈顿距离、马氏距离等。

108，从所述音视频数据的音频流中截取每个目标用户的目标图像子序列对应的音频段，得到每个目标用户的声纹数据。

例如，用户U1的目标图像子序列包括目标图像子序列S1、S2、S3，用户U2的目标图像子序列包括目标图像子序列S4、S5、S6、S7，用户U3的目标图像子序列包括目标图像子序列S8、S9、S10，从所述音视频数据的音频流中截取出用户U1的目标图像子序列S1、S2、S3对应的音频段A1、A2、A3，从所述音视频数据的音频流中截取用户U2的目标图像子序列S4、S5、S6、S7对应的音频段A4、A5、A6、A7，从所述音视频数据的音频流中截取用户U3的目标图像子序列S8、S9、S10对应的音频段A8、A9、A10。

可以根据每个目标用户的目标图像子序列对应的起始时间和终止时间从所述音视频数据的音频流中截取每个目标用户的目标图像子序列对应的音频段。

所述声纹数据生成方法以发展更为成熟的人脸图像技术为指导，充分利用了音视频数据中语音与图像之间的相关性从音视频数据的音频流中提取与说话人关联的声纹数据。采用所述声纹数据生成方法对大量的音视频数据进行处理，可以得到大量的声纹数据以构建大规模的声纹数据库。所述声纹数据生成方法可以高效率、低成本地获得声纹数据，该声纹数据能够用来对声纹识别模型进行训练，解决了声纹样本难以获取的问题，有助于声纹识别技术的发展和推广。

实施例二

图2是本发明实施例二提供的声纹数据生成装置的结构图。所述声纹数据生成装置20应用于计算机装置。所述声纹数据生成装置20从音视频数据中提取出与说话人关联的声纹数据。所述声纹数据可以作为声纹样本对声纹识别模型进行训练。

如图2所示，所述声纹数据生成装置20可以包括音视频获取模块201、人脸检测模块202、序列获取模块203、张嘴检测模块204、筛选模块205、特征提取模块206、聚类模块207、截取模块208。

音视频获取模块201，用于获取音视频数据。

人脸检测模块202，用于对所述音视频数据中的原始图像序列逐帧进行人脸检测，得到多个人脸图像和所述多个人脸图像的人脸框。

所述原始图像序列包括多个原始图像。

(3)使用O-Net输出最终的人脸框和人脸特征点的位置。

所述人脸图像是指包含人脸的图像。

序列获取模块203，用于根据所述多个人脸图像和所述人脸框从所述原始图像序列中获取多个人脸图像子序列，每个人脸图像子序列包含同一用户的多个人脸图像。

判断所述相邻两个原始图像的人脸框是否满足预设条件；

张嘴检测模块204，用于检测每个人脸图像子序列中的每个人脸图像是否张嘴。

筛选模块205，用于根据每个人脸图像子序列的张嘴检测结果筛选出目标人脸图像子序列。

特征提取模块206，用于对每个目标人脸图像子序列提取人脸特征。

使用点分布模型对每个目标人脸图像子序列提取人脸特征。

聚类模块207，用于根据每个目标人脸图像子序列的人脸特征对所述目标人脸图像子序列进行聚类，得到每个目标人脸图像子序列所属的目标用户。

具体地，对所述目标人脸图像子序列进行聚类包括：

(4)根据所述目标人脸图像子序列的划分更新所述聚类中心；

重复上述(2)-(4)，直至所述聚类中心不再改变。

每个最终得到的聚类中心对应一个目标用户。

截取模块208，用于从所述音视频数据的音频流中截取每个目标用户的目标图像子序列对应的音频段，得到每个目标用户的声纹数据。

所述声纹数据生成装置20以发展更为成熟的人脸图像技术为指导，充分利用了音视频数据中语音与图像之间的相关性从音视频数据的音频流中提取与说话人关联的声纹数据。采用所述声纹数据生成装置20对大量的音视频数据进行处理，可以得到大量的声纹数据以构建大规模的声纹数据库。所述声纹数据生成装置20可以高效率、低成本地获得声纹数据，该声纹数据能够用来对声纹识别模型进行训练，解决了声纹样本难以获取的问题，有助于声纹识别技术的发展和推广。

实施例三

本实施例提供一种存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述声纹数据生成方法实施例中的步骤，例如图1所示的101-108。或者，该计算机程序被处理器执行时实现上述装置实施例中各模块的功能，例如图2中的模块201-208。

实施例四

图3为本发明实施例四提供的计算机装置的示意图。所述计算机装置30包括存储器301、处理器302以及存储在所述存储器301中并可在所述处理器302上运行的计算机程序303，例如声纹数据生成程序。所述处理器302执行所述计算机程序303时实现上述声纹数据生成方法实施例中的步骤，例如图1所示的101-108。或者，该计算机程序被处理器执行时实现上述装置实施例中各模块的功能，例如图2中的模块201-208。

示例性的，所述计算机程序303可以被分割成一个或多个模块，所述一个或者多个模块被存储在所述存储器301中，并由所述处理器302执行，以完成本方法。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序303在所述计算机装置30中的执行过程。例如，所述计算机程序303可以被分割成图2中的音视频获取模块201、人脸检测模块202、序列获取模块203、张嘴检测模块204、筛选模块205、特征提取模块206、聚类模块207、截取模块208，各模块具体功能参见实施例二。

所述计算机装置30可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。本领域技术人员可以理解，所述示意图3仅仅是计算机装置30的示例，并不构成对计算机装置30的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述计算机装置30还可以包括输入输出设备、网络接入设备、总线等。

所称处理器302可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器302也可以是任何常规的处理器等，所述处理器302是所述计算机装置30的控制中心，利用各种接口和线路连接整个计算机装置30的各个部分。

所述存储器301可用于存储所述计算机程序303，所述处理器302通过运行或执行存储在所述存储器301内的计算机程序或模块，以及调用存储在存储器301内的数据，实现所述计算机装置30的各种功能。所述存储器301可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据计算机装置30的使用所创建的数据。此外，存储器301可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart MediaCard，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。

所述计算机装置30集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

上述以软件功能模块的形式实现的集成的模块，可以存储在一个存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他模块或步骤，单数不排除复数。系统权利要求中陈述的多个模块或装置也可以由一个模块或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种声纹数据生成方法，其特征在于，所述方法包括：

获取音视频数据；

检测每个人脸图像子序列中的每个人脸图像是否张嘴；

对每个目标人脸图像子序列提取人脸特征；

2.如权利要求1所述的方法，其特征在于，所述对所述音视频数据中的原始图像序列逐帧进行人脸检测包括：

3.如权利要求1所述的方法，其特征在于，所述根据所述多个人脸图像和所述人脸框从所述原始图像序列中获取多个人脸图像子序列包括：

判断所述相邻两个原始图像的人脸框是否满足预设条件；

4.如权利要求3所述的方法，其特征在于，所述判断所述相邻两个原始图像的人脸框是否满足预设条件包括：

5.如权利要求1所述的方法，其特征在于，所述检测每个人脸图像子序列中的每个人脸图像是否张嘴包括：

6.如权利要求1所述的方法，其特征在于，所述根据每个人脸图像子序列的张嘴检测结果筛选出目标人脸图像子序列包括：

7.如权利要求1-6中任一项所述的方法，其特征在于，所述对每个目标人脸图像子序列提取人脸特征包括：

使用点分布模型对每个目标人脸图像子序列提取人脸特征。

8.一种声纹数据生成装置，其特征在于，所述装置包括：

音视频获取模块，用于获取音视频数据；

9.一种计算机装置，其特征在于，所述计算机装置包括处理器，所述处理器用于执行存储器中存储的计算机程序以实现如权利要求1-7中任一项所述声纹数据生成方法。

10.一种存储介质，所述存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述声纹数据生成方法。