CN106683680B

CN106683680B - 说话人识别方法及装置、计算机设备及计算机可读介质

Info

Publication number: CN106683680B
Application number: CN201710142901.8A
Authority: CN
Inventors: 曹莹; 刘霄; 胡鹏; 周杰; 文石磊
Original assignee: Baidu Online Network Technology Beijing Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd
Priority date: 2017-03-10
Filing date: 2017-03-10
Publication date: 2022-03-25
Anticipated expiration: 2037-03-10
Also published as: US20180261236A1; CN106683680A; US10957339B2

Abstract

本发明提供一种说话人识别方法及装置、计算机设备及计算机可读介质。其所述方法包括：接收目标群体中的待识别用户的目标语音数据；根据目标语音数据、预先采集的语音数据库和预先训练的说话人识别模型，获取目标语音数据对应的语音输出特征以及语音数据库中每个语音数据对应的语音输出特征；说话人识别模型采用卷积神经网络模型；根据目标语音数据对应的语音输出特征以及语音数据库中每个语音数据对应的语音输出特征，识别目标语音数据对应的用户。本发明通过采用基于卷积神经网络模型的说话人识别模型，能够更加准确地获取各语音数据的语音输出特征，从而更加准确地对目标语音数据对应的用户进行识别，进而能够大大地提高对说话人的识别效率。

Description

说话人识别方法及装置、计算机设备及计算机可读介质

【技术领域】

本发明涉及计算机应用技术领域，尤其涉及一种说话人识别方法及装置、计算机设备及计算机可读介质。

【背景技术】

说话人识别(Speaker Recognition；SR)，还可以称为声纹识别(VoiceprintRecognition；VPR)，是生物识别技术的一种，具体地，是通过语音判断一句话是谁说的。

现有技术中的声纹识别包括文本相关(Text-Dependent)和文本无关(Text-Independent)两种。与文本有关的声纹识别系统要求用户按照规定的内容发音，每个人的声纹模型逐个被精确地建立，而识别时也必须按规定的内容发音，因此可以达到较好的识别效果，但系统需要用户配合，如果用户的发音与规定的内容不符合，则无法正确识别该用户。与文本无关的识别系统则不规定说话人的发音内容，模型建立相对困难，但用户使用方便，可应用范围较宽。例如，现有技术的、与文本无关的说话人识别方案中，主要利用混合高斯模型从大量说话以及背景音数据中学出高斯聚类中心，作为说话人的语音数据对应的i-vecotr。对于每一条待识别的语音数据，获取该待识别的语音数据的i-vecotr。然后将待识别的语音数据的i-vecotr与各个已知说话人的语音数据的i-vecotr进行相似度计算，将该待识别的说话人识别为相似度最高的语音数据对应的说话人。

但是，现有技术中利用混合高斯模型从大量说话以及背景音数据中学出高斯聚类中心，作为说话人的语音数据对应的i-vecotr，是一种线性处理方案，学出的i-vecotr不能非常准确地表征说话人的语音数据的特征，导致对说话人识别的效率较低。

【发明内容】

本发明提供了一种说话人识别方法及装置、计算机设备及计算机可读介质，用于提高对说话识别的效率。

本发明提供一种说话人识别方法，所述方法包括：

接收目标群体中的待识别用户的目标语音数据；

根据所述目标语音数据、预先采集的语音数据库和预先训练的说话人识别模型，获取所述目标语音数据对应的语音输出特征以及所述语音数据库中每个所述语音数据对应的语音输出特征；所述说话人识别模型采用卷积神经网络模型；

根据所述目标语音数据对应的语音输出特征以及所述语音数据库中每个所述语音数据对应的语音输出特征，识别所述目标语音数据对应的用户。

进一步可选地，如上所述的方法中，根据所述目标语音数据、预先采集的语音数据库和预先训练的说话人识别模型，获取所述目标语音数据对应的语音输出特征以及所述语音数据库中每个所述语音数据对应的语音输出特征之前，所述方法还包括：

采集数条已知用户标识的训练语音数据，生成训练语音数据库；

根据所述训练语音数据库中各条所述训练语音数据，获取各条所述训练语音数据的梅尔频域倒谱系数和/或感知线性预测特征，作为对应的所述训练语音数据的语音输入特征；

根据各条所述训练语音数据的语音输入特征、以及各所述训练语音数据的用户标识，训练所述说话人识别模型。

进一步可选地，如上所述的方法中，根据各条所述训练语音数据的语音输入特征、以及各所述训练语音数据的用户标识，训练所述说话人识别模型，具体包括：

将所述训练语音数据库中的各条所述训练语音数据的语音输入特征依次输入至所述说话人识别模型中，得到对应的所述训练语音数据的语音输出特征；

根据所述训练语音数据的语音输出特征和所述训练语音数据的用户标识，生成所述训练语音数据的损失函数；

计算所述训练语音数据的损失函数对所述说话人识别模型中各参数的导数；

根据所述说话人识别模型中的各所述参数以及所述训练语音数据的损失函数对各所述参数的导数，更新所述说话人识别模型中的各所述参数，从而确定本次训练后的所述说话人识别模型；

重复执行上述步骤，直至所述训练语音数据库中的数个所述训练语音数据都对所述说话人识别模型进行训练，确定本轮训练后的所述说话人识别模型。

进一步可选地，如上所述的方法中，根据各条所述训练语音数据的语音输入特征、以及各所述训练语音数据的用户标识，训练所述说话人识别模型，还包括：

按照上述每一轮训练中所述训练语音数据库中的数个所述训练语音数据对所述说话人识别模型的训练，使用所述训练语音数据库中的数个所述训练语音数据重复对所述说话人识别模型训练N轮，得到最终的所述说话人识别模型。

进一步可选地，如上所述的方法中，根据所述目标语音数据对应的语音输出特征以及所述语音数据库中每个所述语音数据对应的语音输出特征，识别所述目标语音数据对应的用户，具体包括：

分别计算所述目标语音数据对应的语音输出特征与所述语音数据库中各所述语音数据对应的语音输出特征的相似度；

获取与所述目标语音数据对应的语音输出特征的相似度大于或者等于预设相似度阈值的所述语音数据对应的用户标识，作为所述目标语音数据对应的用户的标识；或者获取与所述目标语音数据对应的语音输出特征的相似度最大的所述语音数据对应的用户标识，作为所述目标语音数据对应的用户的标识。

本发明还提供一种说话人识别装置，所述装置包括：

接收模块，用于接收目标群体中的待识别用户的目标语音数据；

特征获取模块，用于根据所述目标语音数据、预先采集的语音数据库和预先训练的说话人识别模型，获取所述目标语音数据对应的语音输出特征以及所述语音数据库中每个所述语音数据对应的语音输出特征；所述说话人识别模型采用卷积神经网络模型；

识别模块，用于根据所述目标语音数据对应的语音输出特征以及所述语音数据库中每个所述语音数据对应的语音输出特征，识别所述目标语音数据对应的用户。

进一步可选地，如上所述的装置中，还包括：采集模块和训练模块；

所述采集模块，用于采集数条已知用户标识的训练语音数据，生成训练语音数据库；

所述特征获取模块，还用于根据所述训练语音数据库中各条所述训练语音数据，获取各条所述训练语音数据的梅尔频域倒谱系数和/或感知线性预测特征，作为对应的所述训练语音数据的语音输入特征；

所述训练模块，用于根据各条所述训练语音数据的语音输入特征、以及各所述训练语音数据的用户标识，训练所述说话人识别模型。

进一步可选地，如上所述的装置中，所述训练模块，具体用于：

进一步可选地，如上所述的装置中，所述训练模块，具体还用于按照上述每一轮训练中所述训练语音数据库中的数个所述训练语音数据对所述说话人识别模型的训练，使用所述训练语音数据库中的数个所述训练语音数据重复对所述说话人识别模型训练N轮，得到最终的所述说话人识别模型。

进一步可选地，如上所述的装置中，所述识别模块，具体用于：

本发明还提供一种计算机设备，所述设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上所述的说话人识别方法。

本发明还提供一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如上所述的说话人识别方法。

本发明的说话人识别方法及装置、计算机设备及计算机可读介质，通过接收目标群体中的待识别用户的目标语音数据；根据目标语音数据、预先采集的语音数据库和预先训练的说话人识别模型，获取目标语音数据对应的语音输出特征以及语音数据库中每个语音数据对应的语音输出特征；其中说话人识别模型采用卷积神经网络模型；根据目标语音数据对应的语音输出特征以及语音数据库中每个语音数据对应的语音输出特征，识别目标语音数据对应的用户。本发明的技术方案，由于采用基于卷积神经网络模型的说话人识别模型，能够更加准确地获取各语音数据的语音输出特征，从而更加准确地对目标语音数据对应的用户进行识别，进而能够大大地提高对说话人的识别效率。

【附图说明】

图1为本发明的说话人识别方法实施例一的流程图。

图2本发明的说话人识别方法中提供的二维卷积的示意图。

图3为本发明的说话人识别方法中提供的一维卷积的示意图。

图4为本发明的说话人识别方法实施例二的流程图。

图5为本发明的说话人识别方法实施例三的流程图。

图6为本发明的说话人识别装置实施例一的结构图。

图7为本发明的说话人识别装置实施例二的结构图。

图8为本发明的计算机设备实施例的结构图。

图9为本发明提供的一种计算机设备的示例图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

图1为本发明的说话人识别方法实施例一的流程图。如图1所示，本实施例的说话人识别方法，具体可以包括如下步骤：

100、接收目标群体中的待识别用户的目标语音数据；

101、根据目标语音数据、预先采集的语音数据库和预先训练的说话人识别模型，获取目标语音数据对应的语音输出特征以及语音数据库中每个语音数据对应的语音输出特征；

102、根据目标语音数据对应的语音输出特征以及语音数据库中每个语音数据对应的语音输出特征，识别目标语音数据对应的用户。

本实施例的说话人识别方法的执行主体为说话人识别装置，该说话人识别装置可以为一个实体的电子装置，也可以为采用软件集成的装置。

本实施例的说话人识别方法是一种基于卷积神经网络模型的说话人识别方法，即本实施例的说话人识别模型具体采用卷积神经网络模型。本实施例的说话人识别方法通过对属于某目标群体中的某个用户的语音数据进行分析，从而识别该用户是目标群体中的哪个用户。也就是说，在本实施例的步骤100之前，可选地，还需要采集目标群体内每个用户的语音数据，生成语音数据库，语音数据库中的语音数据可以按照用户标识与该用户标识对应的用户的语音数据的对应关系存储，这样，可以知道每一条语音数据对应属于哪个用户。且本实施例的说话人识别模型在对用户识别之前预先进行训练得到，且本实施例的说话人识别模型训练时所使用的训练语音数据库与使用时采集的语音数据库可以没有关系，也就是说，该说话人识别模型在训练时和使用时是两个独立的过程，该说话人识别模型虽然采用训练语音数据库进行训练，但是不仅可以对该训练数据库中的各条训练语音数据的说话人进行识别，还可以对该训练数据库中之外的其他任意语音数据库中的说话人进行识别，即本实施例的说话人识别模型使用非常广泛，使用之前，仅需要采集该目标群体中的各个用户的语音数据，生成语音数据库，便可以根据语音数据对该目标群体中的任一用户进行识别。

首先，当获取到一条目标语音数据时，仅知道该目标语音数据属于哪个目标群体，但不确定该目标语音数据属于该目标群体中的哪个人时，可以将该目标语音数据输入至说话人识别装置中，以获取目标语音数据对应的语音输出特征，并根据目标语音数据的语音输出特征以及语音数据库中每个语音数据对应的语音输出特征，以对该目标语音数据的说话人进行识别。对应地，本实施例的说话人识别装置首先可以接收目标群体中的待识别用户的目标语音数据；然后可以根据目标语音数据和预先训练的说话人识别模型获取目标语音数据对应的语音输出特征，并根据预先采集的语音数据库和预先训练的说话人识别模型，获取语音数据库中每个语音数据对应的语音输出特征。即本实施例中，该说话人识别模型可以对语音数据的特征进行抽取，获取最能够表征该语音数据的特征即语音输出特征，并输出。本实施例的说话人识别模型采用卷积神经网络模型，而现有的普通卷积神经网络应用于图像数据，将一个矩形的空间区域做卷积，而声音的语音数据并没有空间维度，只有时间维，且声音的语音数据的特征不随时间变化而变化，因此可以采用一维卷积神经网络模型来作为本实施例的说话人识别模型。图2本发明的说话人识别方法中提供的二维卷积的示意图。图3为本发明的说话人识别方法中提供的一维卷积的示意图。可以参考上述图2和图3，可以将二维卷积转化为一维卷积，从而可以应用在本实施例的说话人识别模型中。

进一步可选地，本实施例的步骤101“根据目标语音数据、预先采集的语音数据库和预先训练的说话人识别模型，获取目标语音数据对应的语音输出特征以及语音数据库中每个语音数据对应的语音输出特征”，具体可以包括如下步骤：

(a1)分别提取目标语音数据和语音数据库中每个用户的语音数据的梅尔频域倒谱系数(Mel-Frequency Cepstral Coefficients；MFCC)和/或感知线性预测(PerceptualLinear Predictive；PLP)特征，作为目标语音数据的语音输入特征和每个用户的语音数据的语音输入特征；

(a2)根据目标语音数据的语音输入特征和预先训练的说话人识别模型，获取目标语音数据对应的语音输出特征；

(a3)根据每个用户的语音数据的语音输入特征和说话人识别模型，获取对应的用户的语音数据的语音输出特征。

从语音数据中提取MFCC和PLP特征的方式可以参考相关语音技术领域的提取。本实施例中对说话人识别时，所选择的语音输入特征可以仅包括MFCC或者PLP特征，也可以两者都包括。且从待识别的目标语音数据中提取的语音输入特征所包括的信息量应该与语音数据库中每个用户的语音数据的语音输入特征所包括的信息量的多少相同。即如果待识别的目标语音数据中提取的语音输入特征仅包括MFCC和PLP特征中的某一个，对应的语音数据库中每个用户的语音数据的语音输入特征也包括对应的MFCC或者PLP特征。如果待识别的目标语音数据中提取的语音输入特征包括MFCC和PLP特征两个特征，对应地语音数据库中每个用户的语音数据的语音输入特征也包括MFCC或者PLP特征两个特征。实际应用中，语音数据的语音输入特征为矩阵的形式，该矩阵的其中一个维度固定为60维，另一个维度与语音数据的长度有关，语音数据的长度越长，对应的维度越大。例如以每10ms为一个参考单位，语音数据的长度每增加10ms，对应的维度增加60，即语音数据的长度每增加1s，对应的维度增加60*100＝6000。由上述可以，对于不同时间长度的语音数据，对应的语音输入特征的维度也不相同。而现有技术中采用卷积神经网络模型做图像分类时，输入的图像大小都是一致的。因此，普通的卷积神经网络模型无法处理此类数据。本发明的作为说话人识别模型的卷积神经网络模型中，具体可以采用序列平均池化技术实现对变长的数据即变长的语音输入特征进行处理。所谓序列平均池化技术，就是将任意长度的一个序列看作一个向量，取该向量所有元素的平均值作为输出值。这样，可以保证本实施例的说话人识别模型对任意长度的语音数据的语音输入特征，均能够输出固定大小的语音输出特征。具体地，将该目标语音数据的语音输入特征输入至预先训练的说话人识别模型，该说话人识别模型可以输出目标语音数据对应的语音输出特征。分别将每个用户的语音数据的语音输入特征输入至与预先训练的说话人识别模型，该说话人识别模型可以输出该用户的语音数据的语音输出特征。且该说话人识别模型输出的目标语音数据对应的语音输出特征的向量的维度，与该说话人识别模型输出的各用户的语音数据的语音输出特征的向量的维度相同。

本实施例的说话人识别模型，由于采用卷积神经网络模型，根据语音数据的语音输入特征抽取语音数据的语音输出特征的过程，远远比现有技术的混合高斯模型采用线性方式获取i-vecotr的过程，所获取的表征语音数据的特征的内容更加丰富，也能够更加准确地表示该语音数据。

本实施例的说话人识别方法中，当采集的语音数据库和说话人识别模型确定时，也可以预先根据步骤(a3)，获取预先采集的语音数据库中每个用户的语音数据的语音输出特征，并可以将该语音输出特征也存储在语音数据库中，具体存储时，可以根据用户的索引号来存储对应的用户的语音数据的语音输出特征；或者也可以再建立一个语音输出特征数据库，专门用来存储该语音数据库中各语音数据对应的语音输出特征。当进行说话人识别时，可以仅获取目标语音数据的语音输出特征，然后直接从语音数据库或者语音输出特征数据库中获取预先存储的每个用户的语音数据的语音输出特征，然后直接进行说话人识别的后续处理即可；这样，可以节省每次说话人识别的流程，节省说话人识别的时间，提高说话人识别的效率。

进一步可选地，本实施例的步骤102“根据目标语音数据对应的语音输出特征以及语音数据库中每个语音数据对应的语音输出特征，识别目标语音数据对应的用户”，具体可以包括如下步骤：

(b1)分别计算目标语音数据对应的语音输出特征与语音数据库中各语音数据对应的语音输出特征的相似度；

(b2)获取与目标语音数据对应的语音输出特征的相似度大于或者等于预设相似度阈值的语音数据对应的用户标识，作为目标语音数据对应的用户的标识；或者获取与目标语音数据对应的语音输出特征的相似度最大的语音数据对应的用户标识，作为目标语音数据对应的用户的标识。

由于本实施例的目标语音数据对应的语音输出特征与语音数据库中各语音数据对应的语音输出特征均采用向量表示，可以计算目标语音数据对应的语音输出特征与语音数据库中各语音数据对应的语音输出特征的相似度值。然后可以从语音数据库中获取与目标语音数据对应的相似度值大于或者等于预设相似度阈值的语音输出特征对应的语音数据，并取该语音数据对应的用户标识作为目标语音数据对应的用户标识，即将该语音数据对应的用户识别为目标语音数据对应的用户。本实施例的预设相似度阈值可以根据实际需求设置为95％，90％或者0-1之间的其它百分数，优选地，预设相似度阈值至少需要大于60％。或者也可以直接根据得到的多个相似度值，从中获取最大的相似度值，并从语音数据库中获取该最大的相似度值对应的语音数据对应的用户标识，并取该语音数据对应的用户标识作为目标语音数据对应的用户标识，即将该语音数据对应的用户识别为目标语音数据对应的用户。或者上述两种方案也可以结合使用，先根据得到的多个相似度值，判断是否存在大于或者等于预设相似度阈值的相似度值，若存在，直接取大于或者等于预设相似度阈值的相似度值对应的语音数据对应的用户标识，作为目标语音数据对应的用户标识；否则若不存在，从中获取最大的相似度值，并从语音数据库中获取该最大的相似度值对应的语音数据对应的用户标识，作为目标语音数据对应的用户标识。

本实施例的说话人识别方法，通过接收目标群体中的待识别用户的目标语音数据；根据目标语音数据、预先采集的语音数据库和预先训练的说话人识别模型，获取目标语音数据对应的语音输出特征以及语音数据库中每个语音数据对应的语音输出特征；其中说话人识别模型采用卷积神经网络模型；根据目标语音数据对应的语音输出特征以及语音数据库中每个语音数据对应的语音输出特征，识别目标语音数据对应的用户。本实施例中，由于采用基于卷积神经网络模型的说话人识别模型，能够更加准确地获取各语音数据的语音输出特征，从而更加准确地对目标语音数据对应的用户进行识别，进而能够大大地提高对说话人的识别效率。

图4为本发明的说话人识别方法实施例二的流程图。本实施例的说话人识别方法，在上述图1所示实施例的技术方案的基础上，对图1所示实施例的说话人识别场景进行扩展，以对目标语音数据的说话人进行验证。如图4所示，本实施例的说话人识别方法，具体可以包括如下步骤：

200、采集目标群体内每个用户的语音数据，生成语音数据库；

具体地，语音数据库中的各个用户的语音数据按照该用户标识(如可以为用户的索引号)和该用户的语音数据的对应关系存储。详细可以参考上述实施例的相关记载，在此不再赘述。

201、接收携带待识别用户的目标语音数据和可疑用户标识的验证请求；

其中待识别用户为目标群体中的用户，可疑用户标识也为目标群体中的一个用户的标识。本实施例中的说话人识别方法，具体是用于验证该目标语音数据对应的用户是否为可疑用户。

202、从语音数据库中获取该可疑用户标识对应的语音数据；

203、分别提取目标语音数据和该可疑用户标识对应的语音数据的MFCC和PLP特征，作为目标语音数据的语音输入特征和可疑用户标识的语音数据的语音输入特征；

本实施例中以输入特征同时包括MFCC和PLP特征为例，实际应用中，也可以仅包括其中一个。

204、分别将目标语音数据的语音输入特征和可疑用户标识的语音数据的语音输入特征，输入至预先训练的说话人识别模型，获取目标语音数据对应的语音输出特征和可疑用户标识的语音数据对应的语音输出特征；

205、计算目标语音数据对应的语音输出特征和可疑用户标识的语音数据的对应的语音输出特征的相似度；

206、判断该相似度是否大于或者等于预设相似度阈值；若是，则确定目标语音数据对应的待识别用户为该可疑用户；否则确定目标语音数据对应的待识别用户不是该可疑用户。

本实施例的说话人识别方法是对上述图1所示实施例的说话人识别方法的扩展。与上述图1所示实施例的说话人识别方法的区别在于：上述图1所示实施例的说话人识别方法是用于对待识别用户是属于目标群体中的哪个用户进行识别；而图2所示实施例是对待识别用户是否为目标群体的某可疑用户进行验证，其具体识别过程是相似的，详细实现过程可疑参考上述图1所示实施例的相关记载，在此不再赘述。

本实施例的说话人识别方法，通过采用上述技术方案，由于采用基于卷积神经网络模型的说话人识别模型，能够更加准确地获取各语音数据的语音输出特征，从而更加准确地对目标语音数据对应的用户进行识别，进而大大地提高对说话人的识别效率。

图5为本发明的说话人识别方法实施例三的流程图。本实施例的说话人识别方法，在上述图1所示实施例的技术方案的基础上，在步骤101“根据目标语音数据、预先采集的语音数据库和预先训练的说话人识别模型，获取目标语音数据对应的语音输出特征以及语音数据库中每个语音数据对应的语音输出特征”之前，还可以包括如下步骤：

300、采集数条已知用户标识的训练语音数据，生成训练语音数据库；

301、根据训练语音数据库中各条训练语音数据，获取各条训练语音数据的MFCC和/或PLP特征，作为对应的训练语音数据的语音输入特征；

302、根据各条训练语音数据的语音输入特征、以及各训练语音数据的用户标识，训练说话人识别模型。

本实施例的步骤300-303是用于对说话人识别模型进行训练。本实施例在训练说话人识别模型时，首先采集数条已知用户标识的训练语音数据，生成训练语音数据库来对说话人识别模型进行训练。本实施例的训练语音数据库中包括的训练语音数据的条数越多，训练的说话人识别模型的参数越准确，后续根据该说话人识别模型得出的语音数据的语音输出特征越准确，从而对说话人的识别越准确，识别效率越高。例如本实施例的训练语音数据库中可以包括20万-30万甚至更多的训练语音数据。

本实施例中根据各训练语音数据，获取训练语音数据的语音输入特征时，与在使用该说话人识别模型识别说话人时，所获取的目标语音数据的语音输入特征所包括的信息量相同，两者必须一致。即如果训练时，采用的语音输入特征为MFCC或者PLP特征，识别时采用的语音输入特征也必须为对应的MFCC或者PLP特征。如果训练时，采用的语音输入特征为MFCC和PLP特征，识别时采用的语音输入特征也必须为对应的MFCC和PLP特征。最后根据各条训练语音数据的语音输入特征、以及各训练语音数据的用户标识，训练说话人识别模型。本实施例的各训练语音数据的用户标识具体采用的是该用户在该训练语音数据库中的一个类别标识。例如该训练语音数据库中包括10000个训练用户的30万条语音数据，每个训练用户至少包括一条训练语音数据，各个训练用户的标识可以采用采用1-10000来表示，此时对应的用户标识可以为该用户在训练语音数据库中属于该用户的类别标识。例如10000个用户中的的5个用户的标识可以表示为A_10000，5。

例如该步骤302“根据各条训练语音数据的语音输入特征、以及各训练语音数据的用户标识，训练说话人识别模型”，具体可以包括如下步骤：

(c1)将训练语音数据库中的各条训练语音数据的语音输入特征依次输入至说话人识别模型中，得到对应的训练语音数据的语音输出特征；

本实施例中，在训练说话人识别模型的过程中，说话人识别模型中的参数是不断地变化的，即说话人识别模型是在不断地变化。在每一次训练时，所采用的说话人识别模型均为上一次训练更新后的说话人识别模型。而本实施例的说话人识别模型被初次使用时各参数采用的是预设的初始值。

(c2)根据训练语音数据的语音输出特征和训练语音数据的用户标识，生成训练语音数据的损失函数；

具体地，可以先将训练语音数据的语音输出特征进行维度转化，得到与训练语音数据库中的用户类别对应的矩阵，然后对该矩阵中的所有元素进行归一化处理，归一化处理后的矩阵中的每一个元素表示当前的训练语音数据为该元素所对应的用户类别的预测概率。例如某个元素在该归一化处理后的矩阵中的位置为A_10000，57，其中10000为该训练语音数据库中的所有用户的数量，A₁₀₀₀₀，₅₇表示10000个用户中的第57个用户在该矩阵中的位置，也可以采用A_10000，57表示该用户在该训练语音数据库的类别的标识，也可以称为用户标识。该位置的元素的数值为0.78，表示当前的训练语音数据属于10000个用户中的第57个用户的概率为0.78。因此归一化处理后的矩阵也可以称为预测概率矩阵。由于预测的概率矩阵中每一个元素表示的是当前的训练语音数据属于该位置的用户的预测概率，所以该预测概率矩阵中每一个元素的数值均为大于等于0，小于等于1的数值。然后在根据该训练数据的用户标识，生成该训练数据对应的用户类别的真实概率矩阵，由于真实概率矩阵是根据该训练语音数据的真实的用户标识生成的，所以该真实概率矩阵中仅在该训练语音数据对应的用户标识的位置的元素为1，而其余位置的元素为0。例如若某条训练语音数据的用户标识正好为A_10000，57，那么则该训练语音数据对应的真实概率矩阵中，仅A_10000，57的位置处概率值为1，其余位置处的概率均为0。由于预测的概率矩阵与真实的概率矩阵存在差距，本实施例中可以根据预测概率矩阵和真实概率矩阵的差生成该训练语音数据的损失函数。损失函数的值越大，表示预测概率矩阵与真实概率矩阵差距较大，此时需要优化参数，减小损失函数，直到损失函数无限趋于零，使得说话人识别模型输出的语音输出特征能够更加真实地反应输入的语音数据。

(c3)计算训练语音数据的损失函数对说话人识别模型中各参数的导数；

(c4)根据说话人识别模型中的各参数以及训练语音数据的损失函数对各参数的导数，更新说话人识别模型中的各参数，从而确定本次训练后的说话人识别模型；

(c5)重复执行上述步骤(c1)-(c4)，直至训练语音数据库中的数条训练语音数据都对说话人识别模型进行训练，确定本轮训练后的说话人识别模型。

具体地，由于说话人识别模型中是包括多个参数，当输入的语音数据为确定时，也可以将损失函数看作是关于参数的函数，此时可以计算语音数据的损失函数对说话人识别模型中各参数的导数；对于说话人识别模型中的每一个参数，在更新时，可以将说话人识别模型中该参数更新为该参数减去损失函数对该参数的导数，每一次训练都对说话人识别模型进行更新。更新完说话人识别模型之后，然后返回到步骤(c1)开始使用下一条训练语音数据的语音输入特征对说话人识别模型进行训练，直到步骤(c4)，完成下一条训练语音数据的语音输入特征对说话人识别模型的训练，并再次更新说话人识别模型中的各参数，从而更新说话人识别模型；依次类推，直至数条训练语音数据都对说话人识别模型进行训练，确定本轮训练后的说话人识别模型。此时得到的说话人识别模型也可以应用于说话人识别中。

因为损失函数表征的是一个向梯度方向下降的值，损失函数值越大，表示说话人识别模型的对输入的语音数据的语音输入特征进行处理后输出的结果越不准确，本实施例中通过不断地调整损失函数，使得损失函数的最终点的梯度为0。损失函数的值越小，表示说话人识别模型的处理结果越准确。上述实施例的技术方案，在更新说话人识别模型的时候，具体是在朝着损失函数逐渐降低的方向更新。因此，通过不断的训练，不断地优化损失函数，不断地更新说话人识别模型的参数，从而不断的更新说话人识别模型，使得最终得到的说话人识别模型能够非常准确地对语音数据进行处理，提取出更加准确地语音输出特征。

进一步可选地，还可以按照上述步骤(c1)-(c5)所示的每一轮训练中训练语音数据库中的数条训练语音数据对说话人识别模型的训练，使用训练语音数据库中的数条训练语音数据重复对说话人识别模型训练N轮，得到最终的说话人识别模型。

例如当训练语音数据库中包括20万条训练语音数据时，按照顺序依次使用训练语音数据库中的20万条训练语音数据对说话人识别模型进行训练后，可以认为完成一轮对说话人识别模型的训练；然后按照每一轮对说话人识别模型的训练，再使用训练语音数据库中的20万条训练语音数据对说话人识别模型进行N-1轮训练，可以得到最终的说话人识别模型。本实施例中，经过多轮训练，可以将损失函数的数值趋于零，从而可以进一步提高训练得到的说话人识别模型提取的语音数据的语音输出特征的准确性，进而进一步提高基于说话人识别模型进行说话人识别的效率。本实施例中的N可以根据实际经验选取一个正整数，例如该N可以为5、6或者8、10之类的正整数。

本实施例的说话人识别方法，通过采用上述的基于卷积神经网络模型的说话人识别模型，能够更加准确地获取各语音数据的语音输出特征，从而更加准确地对目标语音数据对应的用户进行识别，进而大大地提高对说话人的识别效率。

图6为本发明的说话人识别装置实施例一的结构图。如图6所示，本实施例的说话人识别装置，具体可以包括：接收模块10、特征获取模块11和识别模块12。

其中接收模块10用于接收目标群体中的待识别用户的目标语音数据；

特征获取模块11用于根据接收模块10接收的目标语音数据、预先采集的语音数据库和预先训练的说话人识别模型，获取目标语音数据对应的语音输出特征以及语音数据库中每个语音数据对应的语音输出特征；本实施例的说话人识别模型采用卷积神经网络模型；

识别模块12用于根据特征获取模块11获取的目标语音数据对应的语音输出特征以及特征获取模块11获取的语音数据库中每个语音数据对应的语音输出特征，识别目标语音数据对应的用户。

本实施例的说话人识别装置，通过采用上述模块实现说话人识别的实现原理以及技术效果与上述相关方法实施例的实现相同，详细可以参考上述相关方法实施例的记载，在此不再赘述。

图7为本发明的说话人识别装置实施例二的结构图。如图7所示，本实施例的说话人识别装置，在上述图6所示实施例的技术方案的基础上，进一步更加详细地介绍本发明的技术方案。

如图7所示，本实施例的说话人识别装置，还包括：采集模块13和训练模块14。

其中采集模块13用于采集数条已知用户标识的训练语音数据，生成训练语音数据库；

特征获取模块11还用于根据采集模块13采集的训练语音数据库中各条训练语音数据，获取各条训练语音数据的梅尔频域倒谱系数和/或感知线性预测特征，作为对应的训练语音数据的语音输入特征；

训练模块14用于根据特征获取模块11获取的各条训练语音数据的语音输入特征、以及各训练语音数据的用户标识，训练说话人识别模型。

对应地，特征获取模块11用于根据接收模块10接收的目标语音数据、预先采集的语音数据库和训练模块14预先训练的说话人识别模型，获取目标语音数据对应的语音输出特征以及语音数据库中每个语音数据对应的语音输出特征。

进一步可选地，本实施例的说话人识别装置中，训练模块14具体用于：

将特征获取模块11获取的训练语音数据库中的各条训练语音数据的语音输入特征依次输入至说话人识别模型中，得到对应的训练语音数据的语音输出特征；本实施例的说话人识别模型被初次使用时各参数采用预设的初始值；

根据训练语音数据的语音输出特征和训练语音数据的用户标识，生成训练语音数据的损失函数；

计算训练语音数据的损失函数对说话人识别模型中各参数的导数；

根据说话人识别模型中的各参数以及训练语音数据的损失函数对各参数的导数，更新说话人识别模型中的各参数，从而确定本次训练后的说话人识别模型；重复执行上述步骤，直至训练语音数据库中的数条训练语音数据都对说话人识别模型进行训练，确定本轮训练后的说话人识别模型。

进一步可选地，本实施例的说话人识别装置中，训练模块14具体还用于按照上述每一轮训练中训练语音数据库中的数条训练语音数据对说话人识别模型的训练，使用训练语音数据库中的数条训练语音数据重复对说话人识别模型训练N轮，得到最终的说话人识别模型。

进一步可选地，本实施例的说话人识别装置中，识别模块12用于：

分别计算目标语音数据对应的语音输出特征与语音数据库中各语音数据对应的语音输出特征的相似度；

获取与目标语音数据对应的语音输出特征的相似度大于或者等于预设相似度阈值的语音数据对应的用户标识，作为目标语音数据对应的用户的标识；或者获取与目标语音数据对应的语音输出特征的相似度最大的语音数据对应的用户标识，作为目标语音数据对应的用户的标识。

图8为本发明的计算机设备实施例的结构图。如图8所示，本实施例的计算机设备，包括：一个或多个处理器30，以及存储器40，存储器40用于存储一个或多个程序，当存储器40中存储的一个或多个程序被一个或多个处理器30执行，使得一个或多个处理器30实现如上图1-图7所示实施例的说话人识别方法。图8所示实施例中以包括多个处理器30为例。

例如，图9为本发明提供的一种计算机设备的示例图。图9示出了适于用来实现本发明实施方式的示例性计算机设备12a的框图。图9显示的计算机设备12a仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图9所示，计算机设备12a以通用计算设备的形式表现。计算机设备12a的组件可以包括但不限于：一个或者多个处理器16a，系统存储器28a，连接不同系统组件(包括系统存储器28a和处理器16a)的总线18a。

总线18a表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机设备12a典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12a访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28a可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30a和/或高速缓存存储器32a。计算机设备12a可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34a可以用于读写不可移动的、非易失性磁介质(图9未显示，通常称为“硬盘驱动器”)。尽管图9中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18a相连。系统存储器28a可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明上述图1-图7各实施例的功能。

具有一组(至少一个)程序模块42a的程序/实用工具40a，可以存储在例如系统存储器28a中，这样的程序模块42a包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42a通常执行本发明所描述的上述图1-图7各实施例中的功能和/或方法。

计算机设备12a也可以与一个或多个外部设备14a(例如键盘、指向设备、显示器24a等)通信，还可与一个或者多个使得用户能与该计算机设备12a交互的设备通信，和/或与使得该计算机设备12a能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22a进行。并且，计算机设备12a还可以通过网络适配器20a与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20a通过总线18a与计算机设备12a的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备12a使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理器16a通过运行存储在系统存储器28a中的程序，从而执行各种功能应用以及数据处理，例如实现上述实施例所示的说话人识别方法。

本发明还提供一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例所示的说话人识别方法。

本实施例的计算机可读介质可以包括上述图9所示实施例中的系统存储器28a中的RAM30a、和/或高速缓存存储器32a、和/或存储系统34a。

随着科技的发展，计算机程序的传播途径不再受限于有形介质，还可以直接从网络下载，或者采用其他方式获取。因此，本实施例中的计算机可读介质不仅可以包括有形的介质，还可以包括无形的介质。

本实施例的计算机可读介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种说话人识别方法，其特征在于，所述方法包括：

接收目标群体中的待识别用户的目标语音数据；

根据所述目标语音数据、预先采集的语音数据库和预先训练的说话人识别模型，获取所述目标语音数据对应的语音输出特征以及所述语音数据库中每个所述语音数据对应的语音输出特征；所述说话人识别模型采用卷积神经网络模型，所述卷积神经网络模型采用序列平均池化技术实现对变长的语音输入特征进行处理，以使所述说话人识别模型对任意时间长度的语音数据的语音输入特征，均输出采用向量表示的向量维度相同的固定大小的语音输出特征；

根据所述目标语音数据对应的语音输出特征以及所述语音数据库中每个所述语音数据对应的语音输出特征，识别所述目标语音数据对应的用户；

其中所述说话人识别模型采用如下方式预先训练得到：

采集已知用户标识的训练语音数据；

根据各条训练语音数据的语音输入特征、以及各所述训练语音数据的用户标识，训练所述说话人识别模型；其中，

根据各条所述训练语音数据的语音输入特征、以及各所述训练语音数据的用户标识，训练所述说话人识别模型，具体包括：

利用基于各条所述训练语音数据的语音输入特征、以及各所述训练语音数据的用户标识所生成的所述训练语音数据的损失函数对所述说话人识别模型中各参数的导数，更新所述说话人识别模型中的各所述参数；

其中所述训练语音数据的损失函数由预测概率矩阵和真实概率矩阵的差得到；所述预测概率矩阵为：所述说话人识别模型对训练语音数据的语音输入特征输出语音输出特征后，对语音输出特征进行维度转化和归一化处理后得到的该训练语音数据对应各用户类别的概率矩阵；所述真实概率矩阵为：根据训练语音数据对应的用户标识，生成的该训练语音数据对应各用户类别的概率矩阵。

2.根据权利要求1所述的方法，其特征在于，所述语音输入特征包括：梅尔频域倒谱系数和/或感知线性预测特征。

3.根据权利要求1所述的方法，其特征在于，利用基于各条所述训练语音数据的语音输入特征、以及各所述训练语音数据的用户标识所生成的所述训练语音数据的损失函数对所述说话人识别模型中各参数的导数，更新所述说话人识别模型中的各所述参数，具体包括：

将各条所述训练语音数据的语音输入特征依次输入至所述说话人识别模型中，得到对应的所述训练语音数据的语音输出特征；

重复执行上述步骤，直至各条所述训练语音数据都对所述说话人识别模型进行训练，确定本轮训练后的所述说话人识别模型。

4.根据权利要求3所述的方法，其特征在于，根据各条所述训练语音数据的语音输入特征、以及各所述训练语音数据的用户标识，训练所述说话人识别模型，还包括：

5.根据权利要求1-4任一所述的方法，其特征在于，根据所述目标语音数据对应的语音输出特征以及所述语音数据库中每个所述语音数据对应的语音输出特征，识别所述目标语音数据对应的用户，具体包括：

6.一种说话人识别装置，其特征在于，所述装置包括：

特征获取模块，用于根据所述目标语音数据、预先采集的语音数据库和预先训练的说话人识别模型，获取所述目标语音数据对应的语音输出特征以及所述语音数据库中每个所述语音数据对应的语音输出特征；所述说话人识别模型采用卷积神经网络模型，所述卷积神经网络模型采用序列平均池化技术实现对变长的语音输入特征进行处理，以使所述说话人识别模型对任意时间长度的语音数据的语音输入特征，均输出采用向量表示的向量维度相同的固定大小的语音输出特征；

识别模块，用于根据所述目标语音数据对应的语音输出特征以及所述语音数据库中每个所述语音数据对应的语音输出特征，识别所述目标语音数据对应的用户；

采集模块，用于采集已知用户标识的训练语音数据；

训练模块，用于根据各条训练语音数据的语音输入特征、以及各所述训练语音数据的用户标识，训练所述说话人识别模型；其中，所述训练模块，具体用于：

7.根据权利要求6所述的装置，其特征在于，所述语音输入特征包括：梅尔频域倒谱系数和/或感知线性预测特征。

8.根据权利要求6所述的装置，其特征在于，所述训练模块，具体用于：

9.根据权利要求8所述的装置，其特征在于，所述训练模块，具体还用于按照上述每一轮训练中所述训练语音数据库中的数个所述训练语音数据对所述说话人识别模型的训练，使用所述训练语音数据库中的数个所述训练语音数据重复对所述说话人识别模型训练N轮，得到最终的所述说话人识别模型。

10.根据权利要求6-9任一所述的装置，其特征在于，所述识别模块，具体用于：

11.一种计算机设备，其特征在于，所述设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。

12.一种计算机可读介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5中任一所述的方法。