CN114400009B

CN114400009B - 声纹识别方法、装置以及电子设备

Info

Publication number: CN114400009B
Application number: CN202210232702.7A
Authority: CN
Inventors: 李亚桐; 黎荣晋
Original assignee: Voiceai Technologies Co ltd
Current assignee: Voiceai Technologies Co ltd
Priority date: 2022-03-10
Filing date: 2022-03-10
Publication date: 2022-07-12
Anticipated expiration: 2042-03-10
Also published as: CN114400009A

Abstract

本申请实施例公开了一种声纹识别方法、装置以及电子设备。该方法包括：获取待识别语音；通过声纹模型获取待识别语音对应的第一声纹特征；通过识别模型获取第一声纹特征对应的第二声纹特征，其中，识别模型为基于指定训练数据进行训练得到，指定训练数据至少包括基于源域声纹特征以及目标域的声纹特征所得到的自适应声纹特征，其中，目标域与待识别语音所属域相同或相似；将第二声纹特征与预先通过识别模型得到的注册声纹特征进行比对，以进行身份匹配识别。通过上述方式使得，可以基于源域声纹特征以及目标域的声纹特征所得到的的自适应声纹特征对识别模型进行训练，从而可以提高识别模型的准确率。

Description

声纹识别方法、装置以及电子设备

技术领域

本申请涉及计算机技术领域，更具体地，涉及一种声纹识别方法、装置以及电子设备。

背景技术

随着深度学习技术的发展，声纹识别算法得以大幅度地往前推进。然而由于音频数据的采集场景不同(例如：不同的音频采集设备、不同的语种、不同的生理情况等)，导致采集到的音频数据处于不同域内且不同域之间差异较大，从而严重削弱声纹识别系统进行声纹识别的准确性。

发明内容

鉴于上述问题，本申请提出了一种声纹识别方法、装置以及电子设备，以实现改善上述问题。

第一方面，本申请提供了一种声纹识别方法，所述方法包括：获取待识别语音；通过声纹模型获取所述待识别语音对应的第一声纹特征；通过识别模型获取所述第一声纹特征对应的第二声纹特征，其中，所述识别模型为基于指定训练数据进行训练得到，所述指定训练数据至少包括基于源域声纹特征以及目标域的声纹特征所得到的自适应声纹特征，其中，所述目标域与所述待识别语音所属域相同或相似；将所述第二声纹特征与注册声纹特征进行比对，以进行身份匹配识别，其中，所述注册声纹特征为预先通过所述识别模型得到。

第二方面，本申请提供了一种声纹识别装置，所述装置包括：语音获取单元，用于获取待识别语音；第一声纹特征获取单元，用于通过声纹模型获取所述待识别语音对应的第一声纹特征；第二声纹特征获取单元，用于通过识别模型获取所述第一声纹特征对应的第二声纹特征，其中，所述识别模型为基于指定训练数据进行训练得到，所述指定训练数据至少包括基于源域声纹特征以及目标域的声纹特征所得到的自适应声纹特征，其中，所述目标域与所述待识别语音所属域相同或相似；声纹比对单元，用于将所述第二声纹特征与注册声纹特征进行比对，以进行身份匹配识别，其中，所述注册声纹特征为预先通过所述识别模型得到。

第三方面，本申请提供了一种电子设备，包括一个或多个处理器以及存储器；一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行上述的方法。

第四方面，本申请提供的一种计算机可读存储介质，所述计算机可读存储介质中存储有程序代码，其中，在所述程序代码运行时执行上述的方法。

本申请提供的一种声纹识别方法、装置、电子设备以及存储介质，在获取待识别语音后，通过声纹模型获取所述待识别语音对应的第一声纹特征，通过识别模型获取所述第一声纹特征对应的第二声纹特征，其中，所述识别模型为基于指定训练数据进行训练得到，所述指定训练数据至少包括基于源域声纹特征以及目标域的声纹特征所得到的自适应声纹特征，其中，所述目标域与所述待识别语音所属域相同或相似，将所述第二声纹特征与注册声纹特征进行比对，以进行身份匹配识别，其中，所述注册声纹特征为预先通过所述识别模型得到。通过上述方式使得，可以基于源域声纹特征以及目标域的声纹特征所得到的自适应声纹特征对识别模型进行训练，由于自适应声纹特征所属的域为目标域，与待识别语音所属域相同或相似，从而可以提高识别模型身份匹配识别的准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请实施例提出的一种声纹识别方法的流程图；

图2示出了本申请提出的一种第一声纹特征生成方法的示意图；

图3示出了本申请提出的一种第二声纹特征生成方法的示意图；

图4示出了本申请另一实施例提出的一种声纹识别方法的流程图；

图5示出了本申请图4中S220的一种实施例方式的流程图；

图6示出了本申请提出的一种目标域特征值对角矩阵的示意图；

图7示出了本申请图4中S220的另一种实施例方式的流程图；

图8示出了本申请实施例提出的一种声纹识别装置的结构框图；

图9示出了本申请提出的一种电子设备的结构框图；

图10是本申请实施例的用于保存或者携带实现根据本申请实施例的声纹识别方法的程序代码的存储单元。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

随着深度学习技术的发展，声纹识别算法得以大幅度地往前推进，使得可以基于声纹识别系统进行身份匹配识别。

发明人在对相关研究中发现，由于音频数据的采集场景不同(例如：不同的音频采集设备、不同的语种、不同的生理情况等)，导致采集到的音频数据处于不同域内且不同域之间差异较大，从而严重削弱声纹识别系统进行声纹识别的准确性。

因此，发明人提出了本申请中的一种声纹识别方法、装置以及电子设备，在获取待识别语音后，通过声纹模型获取所述待识别语音对应的第一声纹特征，通过识别模型获取所述第一声纹特征对应的第二声纹特征，其中，所述识别模型为基于指定训练数据进行训练得到，所述指定训练数据至少包括基于源域声纹特征以及目标域的声纹特征所得到的自适应声纹特征，其中，所述目标域与所述待识别语音所属域相同或相似，将所述第二声纹特征与注册声纹特征进行比对，以进行身份匹配识别，其中，所述注册声纹特征为预先通过所述识别模型得到。通过上述方式使得，可以基于源域声纹特征以及目标域的声纹特征所得到的自适应声纹特征对识别模型进行训练，由于自适应声纹特征所属的域为目标域，与待识别语音所属域相同或相似，从而可以提高识别模型身份匹配识别的准确率。

请参阅图1，本申请提供的一种声纹识别方法，所述方法包括：

S110：获取待识别语音。

其中，待识别语音是指需要进行身份匹配识别的主体(如：人等)所发出的语音，作为一种方式可以通过具有音频采集装置的电子设备(例如：手机、固话、耳机、电脑内置麦克风和声纹采集器等)获取待识别语音，生成待识别语音对应的音频数据。

S120：通过声纹模型获取所述待识别语音对应的第一声纹特征。

其中，声纹模型是指可以对待识别语音进行特征提取的模型，例如：神经网络模型、高斯混合模型等。作为一种方式，如图2所示，可以将待识别语音输入声纹模型，以得到第一声纹特征。

S130：通过识别模型获取所述第一声纹特征对应的第二声纹特征，其中，所述识别模型为基于指定训练数据进行训练得到，所述指定训练数据至少包括基于源域声纹特征以及目标域的声纹特征所得到的自适应声纹特征，其中，所述目标域与所述待识别语音所属域相同或相似。

其中，识别模型是指可以用于身份匹配识别的模型，例如：PLDA(ProbabilisticLinear Discriminant Analysis，概率线性判别分析)、LDA(Linear DiscriminantAnalysis，线性判别分析)、SVM(support vector machines，支持向量机)、PCA(PrincipalComponent Analysis，主成分分析)等模型。作为一种方式，如图3所示，可以将第一声纹特征输入识别模型以得到第二声纹特征，其中，第一声纹特征和第二声纹特征可以是由多个维度的特征分量组合而成的声纹特征，由于识别模型可以增大不同身份所对应的声纹特征间的离散度并且降低同一身份所对应的声纹特征的离散度，所以第一声纹特征中表示身份的特征分量间的离散度小于第二声纹特征中表示身份的特征分量间的离散度，而声纹特征中表示身份的特征分量间的离散度越大，则越容易通过该声纹特征识别出声纹特征所对应的身份，使得第二声纹特征比第一声纹特征更具有区分性，因此通过第二声纹特征可以更好地进行身份匹配识别。

声纹特征的域可以理解为声纹特征所对应的音频数据的场景。可选的，声纹特征的域可以是不同属性的组合，例如：采集音频数据的设备(如：手机、固话、耳机等)，音频存储格式(如：.mp3、.mp4、.acc、.slik和.flac等)，音频数据的采样频率(如：8KHz、16KHz和44.1KHz等)，音频数据主体的语种(如：普通话、粤语、英文等)、生理情况(如：戴口罩、沙哑、感冒等)和所处空间环境等属性的组合。

其中，不同的属性还可以分为关键属性和非关键属性。关键属性是指可以将目标域与其他域明显区分开来的属性，非关键属性是指可以同时存在于目标域和其他域中的属性，并且关键属性对本申请提出的声纹识别方法在准确率存在较大影响。示例性的，若目标域的应用场景为室内，则所处空间环境可以是关键属性，采集音频数据的设备、音频数据的采样频率等可以是非关键属性。

不同属性的组合可以形成不同的域，例如：在会议室中以固话方式采集的音频数据和在车内以手机采集的音频数据属于不同的域。并且，不同域的音频数据的听感也会有所不同，例如：在会议室中以固话方式采集的音频数据听起来空洞失真，在车内以手机采集的音频数据听起来沉闷饱满。目标域是指需要应用的声纹特征所对应的音频数据的场景。相同域可以表征音频数据的场景完全相同，即对应的不同属性均完全相同；相似域可以表征音频数据的场景较为相似，即对应的不同属性中可以有部分不同，更具体地，可以是关键属性相同，非关键属性存在一些不同。

在本申请实施例中，源域声纹特征是指源域下的声纹特征，源域是与目标域不同的域，更具体地，源域声纹特征可以为预先在源域所对应的场景下音频数据的声纹特征。作为一种方式，可以将拥有大量用户的声纹识别应用程序(该应用程序中对应有识别模型)中的用户音频数据进行特征提取，得到源域声纹特征；当该应用程序需要应用于新的场景时，可以将新的场景作为目标域，基于目标域的音频数据进行特征提取，得到目标域的声纹特征。

可选的，目标域的声纹特征可以是基于某种特定的场景进行音频数据采集，并将采集到的音频数据进行特征提取而得到的声纹特征。例如：声纹识别应用程序主要的新应用场景为智能家居场景，并且在该场景中音频数据主体的语种为普通话，则可以在室内通过智能家居场景中常用的音频采集设备(如：手机等)采集普通话音频数据，并基于采集到的音频数据得到目标域声纹特征。

可选的，目标域的声纹特征可以是基于多种场景进行音频数据采集，并将采集到的音频数据进行特征提取而得到的声纹特征。例如：声纹识别应用程序需要应用于智能家居场景、会议室场景、室外等多种新场景中，并且在这些场景中音频数据主体所采用的主要语种为普通话和粤语，则可以在上述多种应用场景中通过场景中常用的音频采集设备(如：固话、手机、麦克风等)采集普通话和粤语的音频数据，并基于采集到的音频数据得到目标域声纹特征。

需要说明的是，与源域声纹特征相比，目标域声纹特征的收集是更加困难的，因为在适用于目标域的声纹识别应用程序还没有正式上线时，很难获得大量用户的音频数据，因此，作为一种方式，为了得到更多地训练数据去训练适用于目标域的声纹识别应用程序中的识别模型，可以基于大量的源域声纹特征以及有限的目标域的声纹特征得到与源域声纹特征数量相同的自适应声纹特征，其中，自适应声纹特征所属域为目标域，从而增加了适用于目标域的声纹识别应用程序中的识别模型的训练数据，进而提高了识别模型的准确率。

S140：将所述第二声纹特征与注册声纹特征进行比对，以进行身份匹配识别，其中，所述注册声纹特征为预先通过所述识别模型得到。

其中，注册声纹特征可以是当用户首次使用声纹识别应用程序时，用于注册账户的音频数据所对应的声纹特征。示例性的，当用户首次使用声纹识别应用程序时，用户需要说一段语音去注册一个用于登录该应用程序的账户，此时，该应用程序可以在采集用户的音频数据后，将采集到的音频数据依次通过声纹模型、识别模型得到注册声纹特征，并对注册声纹特征与用户身份进行关联存储，例如，对该注册声纹特征贴上表明用户身份的标签。

作为一种方式，可以有多个用户进行注册，每个用户对应有一个注册声纹特征，从而可以得到多个注册声纹特征，当通过步骤S130得到第二声纹特征后，可以基于相似性度量(例如：余弦距离、欧氏距离等)的方式将第二声纹特征与多个注册声纹特征进行比对，得到与第二声纹特征最相似的注册声纹特征，并将这个最相似的注册声纹特征所对应的身份作为第二声纹特征的身份，从而实现了身份的匹配识别。

本实施例提供的一种声纹识别方法，在获取待识别语音后，通过声纹模型获取所述待识别语音对应的第一声纹特征，通过识别模型获取所述第一声纹特征对应的第二声纹特征，其中，所述识别模型为基于指定训练数据进行训练得到，所述指定训练数据至少包括基于源域声纹特征以及目标域的声纹特征所得到的自适应声纹特征，其中，所述目标域与所述待识别语音所属域相同或相似，将所述第二声纹特征与注册声纹特征进行比对，以进行身份匹配识别，其中，所述注册声纹特征为预先通过所述识别模型得到。通过上述方式使得，可以基于源域声纹特征以及目标域的声纹特征所得到的自适应声纹特征对识别模型进行训练，由于自适应声纹特征所属的域为目标域，与待识别语音所属域相同或相似，从而可以提高识别模型身份匹配识别的准确率。

请参阅图4，本申请提供的一种声纹识别方法，所述方法包括：

S210：获取所述源域声纹特征和所述目标域的声纹特征，其中，所述源域声纹特征对应的域与所述目标域不同。

其中，作为一种方式，可以先获取源域音频数据和目标域音频数据，再将源域音频数据和目标域音频数分别输入声纹模型，以得到源域声纹特征和目标域的声纹特征。例如，源域音频数据有m条，目标域音频数据有n(m远远大于n)条，则将源域音频数据和目标域音频数据分别输入声纹模型，则可以得到源域声纹特征的集合

和目标域的声纹特征的集合

。

可选的，源域音频数据可以是拥有大量用户的声纹识别应用程序通过用户登录行为所采集到的数据；目标域音频数据可以是在目标域的应用场景下所采集到的数据。

可选的，目标域的声纹特征可以分为开发集、注册集和验证集声纹特征，其中，开发集声纹特征可以是在目标域应用场景下任意采集的声纹特征，这里的任意指的是可以不限音频内容、不限音频时长等，所以开发集声纹特征可以是没有对应身份的声纹特征，可以用于在没有用户使用识别模型时，将源域声纹特征转换为自适应声纹特征以训练识别模型；注册集声纹特征和验证集声纹特征可以是在开始有用户使用识别模型时所采集到的目标域的声纹特征，可以用于后期对识别模型的更新，使得更新后的识别模型在身份匹配识别时具有更高的准确率。

S220：基于所述源域声纹特征和所述目标域的声纹特征，得到自适应声纹特征。

其中，作为一种方式，可以先基于目标域的声纹特征，获取目标域的主要声纹特征，再基于目标域的主要声纹特征将源域声纹特征转换为自适应声纹特征。

作为一种方式，如图5所示，基于目标域的声纹特征，获取目标域的主要声纹特征，包括：

S221：基于所述目标域的声纹特征，获取目标域协方差矩阵。

其中，作为一种方式，可以将目标域的声纹特征输入协方差矩阵公式得到目标域协方差矩阵。示例性的，目标域的声纹特征可以为

，其中，

为目标域的声纹特征集合，

表示一条目标域的声纹特征，协方差矩阵公式如下：

其中，E（*）表示数学期望。

S222：对所述目标域协方差矩阵进行特征值分解，以得到目标域特征值对角矩阵。

其中，作为一种方式，可以通过对目标域协方差矩阵进行特征值分解(EigenDecomposition，EVD)，得到目标域特征值对角矩阵，目标域特征值对角矩阵可以用于表示从协方差矩阵中提取出的特征值，通过对目标域协方差矩阵进行特征值分解，可以将目标域的声纹特征中的干扰数据滤除，从而使得目标域特征值对角矩阵可以更好地表示目标域的声纹特征。其中，特征值分解结果如下：

其中，

是特征向量，

是目标域特征值对角矩阵，

为目标域特征值对角矩阵中的特征值。

S223：基于所述目标域特征值对角矩阵，获取所述目标域的主要声纹特征。

其中，每一个目标域的声纹特征对应有多个维度，目标域特征值对角矩阵的大小与目标域的声纹特征的维度相关。例如：目标域的声纹特征

可以表示为一个1×N的多维向量，则目标域特征值对角矩阵可以为N×N的对角矩阵。在目标域特征值对角矩阵中的特征值可以表示多个目标域的声纹特征在不同维度上的特征分布情况。

作为一种方式，可以基于目标域特征值对角矩阵，得到目标域的声纹特征对应的多个维度的特征值；对多个维度的特征值进行规范化处理，得到多个规范化特征值；将多个规范化特征值中的非关键规范化特征值替换为第一阈值，以得到目标域的主要声纹特征，其中，非关键规范化特征值小于第一阈值，关键规范化特征值大于或等于第一阈值。

作为一种方式，可以通过零-均值(Z-score)规范化对多个维度的特征值进行规范化处理，得到多个规范化特征值，零-均值(Z-score)规范化的计算公式如下：

其中，

表示目标域的声纹特征对应的多个维度的特征值，

为目标域的声纹特征对应的一个维度的特征值，

表示目标域的声纹特征对应的多个维度的特征值的均值，

表示目标域的声纹特征对应的多个维度的特征值的方差。

示例性的，如图6所示，可以基于图6的目标域特征值对角矩阵，得到规范化处理后的多个维度的特征值为

，当第一阈值为0.5时，可以将

分别与0.5进行比对，若哪个维度的特征值小于0.5，则可以确定该维度的特征值为非关键规范化特征值，需要将该维度的特征值替换为0.5。例如：

为0.3，则需要将

替换为0.5，此时目标域的主要声纹特征为：

。

需要说明的是，可以基于识别模型的准确性调节第一阈值，例如：当第一阈值为A时，识别模型的准确率为X，为了提高识别模型的准确率可以先尝试将第一阈值设置为B(B<A)，若当第一阈值为B时所对应的识别模型准确率有所增加，则可以继续减小第一阈值，以得到最高的识别模型准确率；若当第一阈值为B时所对应的识别模型准确率有所下降，则可以尝试将第一阈值设置为C(C>A)，若当第一阈值为C时所对应的识别模型准确率有所增加，则可以继续增大第一阈值，以得到最高的识别模型准确率。

通过对目标域的声纹特征对应的多个维度的特征值进行规范化处理，可以将多个维度的特征值进行缩放，使上述多个维度的特征值可以在一个特定范围内波动，滤除了目标域的声纹特征中的不良数据，提高了目标域的声纹特征的普适性。并且通过将非关键规范化特征值替换为第一阈值，可以约束目标域的声纹特征的最小值，从而可以滤除非关键规范化特征值并突出关键规范化特征值的表征能力，进而可以提高识别模型的准确率。

作为一种方式，如图7所示，基于目标域的主要声纹特征将源域声纹特征转换为自适应声纹特征，包括：

S225：基于所述目标域的主要声纹特征生成目标域正则协方差矩阵。

其中，作为一种方式，可以通过将目标域的主要声纹特征输入正则公式得到目标域正则协方差矩阵，该正则公式如下：

其中，

是基于目标域的主要声纹特征重构的协方差矩阵；

是对该重构协方差矩阵进行正则化的矩阵，

表示正则系数，

表示一个单元矩阵，

表示通过步骤S210得到的目标域声纹特征，

表示选取目标域的声纹特征的第二个维度的参数，也就是选取用于表示目标域的声纹特征的1×N多维向量中的N。

需要说明的是，正则系数

同步骤S223中的第一阈值一样，也是可以根据识别模型的准确性进行调节的。

S226：基于所述源域声纹特征生成源域正则协方差矩阵。

其中，作为一种方式，可以先基于源域声纹特征得到源域协方差矩阵，再基于正则公式以及源域协方差矩阵得到源域正则协方差矩阵。

其中，源域声纹特征可以为

，

为源域声纹特征集合，

表示一条源域声纹特征，每条源域声纹特征可以表示为一个1×N的多维向量。源域协方差矩阵的计算方法如下：

其中，E（*）表示数学期望。

源域正则协方差矩阵的正则公式如下：

其中，

是对源域协方差矩阵进行正则化的矩阵，

表示正则系数，

表示一个单元矩阵，

表示源域声纹特征，

表示选取源域声纹特征的第二个维度的参数，也就是选取用于表示源域声纹特征的1×N多维向量中的N。

需要说明的是，源域协方差矩阵可以在步骤S210得到源域声纹特征后以及在S226步骤之前的任意步骤中获得。

再者，需要说明的是，步骤S225和S226中的正则参数

、

可以是相同的，也可以是不同的，可以根据实际情况(如：识别模型的准确率)进行设置。

S227：基于所述源域正则协方差矩阵与所述源域声纹特征，得到白化源域声纹特征。

其中，作为一种方式，可以基于下述公式得到白化源域声纹特征：

其中，

为通过步骤S210得到的源域声纹特征，

为通过步骤S226得到的源域正则协方差矩阵。通过上述方式，可以去除源域声纹特征中表示源域的特征分量，从而使得到的白化源域声纹特征所属域与源域不同。

S228：基于所述目标域正则协方差矩阵与所述白化源域声纹特征，得到所述自适应声纹特征。

其中，作为一种方式，可以基于下述公式得到自适应声纹特征：

其中，

为通过步骤S227得到的白化源域声纹特征，

为通过步骤S225得到的目标域正则协方差矩阵。通过上述方式，可以增加白化源域声纹特征中表示目标域的特征分量，使得自适应声纹特征所属域与目标域相同或相似，从而实现了将大量的源域声纹特征转化为所属域为目标域的自适应声纹特征，增加了识别模型的可训练数据，进而提高了模型的准确率。

S230：基于所述自适应声纹特征对待训练分类模型进行训练，以得到所述识别模型。

其中，待训练分类模型可以为PLDA、LDA、SVM、PCA等模型。作为一种方式，可以将自适应声纹特征输入待训练分类模型进行训练，以将收敛的待训练分类模型进行训练作为识别模型，该识别模型对目标域下待识别语音的身份匹配识别具有较高的准确率。

本实施例提供的一种声纹识别方法，通过上述方式使得，可以基于源域声纹特征以及目标域的声纹特征所得到的自适应声纹特征对识别模型进行训练，由于自适应声纹特征所属的域为目标域，与待识别语音所属域相同或相似，从而可以提高识别模型身份匹配识别的准确率。并且，在本实施例中，通过对目标域的声纹特征进行主要声纹特征提取，并基于主要声纹特征将大量的源域声纹特征转化为所属域为目标域的自适应声纹特征，增加了识别模型的可训练数据，进而提高了模型的准确率。

请参阅图8，本申请提供的一种声纹识别装置400，运行于电子设备，所述装置400包括：

语音获取单元410，用于获取待识别语音。

第一声纹特征获取单元420，用于通过声纹模型获取所述待识别语音对应的第一声纹特征。

第二声纹特征获取单元430，用于通过识别模型获取所述第一声纹特征对应的第二声纹特征，其中，所述识别模型为基于指定训练数据进行训练得到，所述指定训练数据至少包括基于源域声纹特征以及目标域的声纹特征所得到的自适应声纹特征，其中，所述目标域与所述待识别语音所属域相同或相似。

声纹比对单元440，用于将所述第二声纹特征与注册声纹特征进行比对，以进行身份匹配识别，其中，所述注册声纹特征为预先通过所述识别模型得到。

其中，所述装置还包括：

识别模型生成单元450，用于获取所述源域声纹特征和所述目标域的声纹特征，其中，所述源域声纹特征对应的域与所述目标域不同；基于所述源域声纹特征和所述目标域的声纹特征，得到自适应声纹特征；基于所述自适应声纹特征对待训练分类模型进行训练，以得到所述识别模型。

作为一种方式，识别模型生成单元450具体用于基于所述目标域的声纹特征，获取目标域的主要声纹特征；基于所述目标域的主要声纹特征将所述源域声纹特征转换为自适应声纹特征。

其中，作为一种方式，识别模型生成单元450具体用于基于所述目标域的声纹特征，获取目标域协方差矩阵；对所述目标域协方差矩阵进行特征值分解，以得到目标域特征值对角矩阵；基于所述目标域特征值对角矩阵，获取所述目标域的主要声纹特征。

作为另一种方式，所述目标域的声纹特征对应有多个维度，识别模型生成单元450具体用于基于所述目标域特征值对角矩阵，得到所述目标域的声纹特征对应的多个维度的特征值；对所述多个维度的特征值进行规范化处理，得到多个规范化特征值；将所述多个规范化特征值中的非关键规范化特征值替换为第一阈值，以得到目标域的主要声纹特征，其中，非关键规范化特征值小于所述第一阈值。

其中，可选的，识别模型生成单元450具体用于通过零-均值规范化对所述多个维度的特征值进行规范化处理，得到多个规范化特征值。

作为又一种方式，识别模型生成单元450具体用于基于所述目标域的主要声纹特征生成目标域正则协方差矩阵；基于所述源域声纹特征生成源正则协方差矩阵；基于所述源域正则协方差矩阵与所述源域声纹特征，得到白化源域声纹特征；基于所述目标域正则协方差矩阵与所述白化源域声纹特征，得到所述自适应声纹特征。

作为又一种方式，识别模型生成单元450具体用于获取源域音频数据和目标域音频数据；将所述源域音频数据输入所述声纹模型，以得到所述源域声纹特征；将所述目标域音频数据输入所述声纹模型，以得到所述目标域的声纹特征。

下面将结合图9对本申请提供的一种电子设备进行说明。

请参阅图9，基于上述的声纹识别方法、装置，本申请实施例还提供的另一种可以执行前述声纹识别方法的电子设备100。电子设备100包括相互耦合的一个或多个(图中仅示出一个)处理器102、存储器104。其中，该存储器104中存储有可以执行前述实施例中内容的程序，而处理器102可以执行该存储器104中存储的程序。

其中，处理器102可以包括一个或者多个处理核。处理器102利用各种接口和线路连接整个电子设备100内的各个部分，通过运行或执行存储在存储器104内的指令、程序、代码集或指令集，以及调用存储在存储器104内的数据，执行电子设备100的各种功能和处理数据。可选地，处理器102可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(ProgrammableLogic Array，PLA)中的至少一种硬件形式来实现。处理器102可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器102中，单独通过一块通信芯片进行实现。

存储器104可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器104可用于存储指令、程序、代码、代码集或指令集。存储器104可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储终端100在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

请参考图10，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读存储介质800中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质1000可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质800包括非易失性计算机可读存储介质(non-transitory computer-readable storage medium)。计算机可读存储介质800具有执行上述方法中的任何方法步骤的程序代码810的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码810可以例如以适当形式进行压缩。

综上所述，本申请提供的一种声纹识别方法、装置以及电子设备，在获取待识别语音后，通过声纹模型获取所述待识别语音对应的第一声纹特征，通过识别模型获取所述第一声纹特征对应的第二声纹特征，其中，所述识别模型为基于指定训练数据进行训练得到，所述指定训练数据至少包括基于源域声纹特征以及目标域的声纹特征所得到的自适应声纹特征，其中，所述目标域与所述待识别语音所属域相同或相似，将所述第二声纹特征与注册声纹特征进行比对，以进行身份匹配识别，其中，所述注册声纹特征为预先通过所述识别模型得到。通过上述方式使得，可以基于源域声纹特征以及目标域的声纹特征所得到的自适应声纹特征对识别模型进行训练，由于自适应声纹特征所属的域为目标域，与待识别语音所属域相同或相似，从而可以提高识别模型身份匹配识别的准确率。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种声纹识别方法，其特征在于，所述方法包括：

获取源域声纹特征和目标域的声纹特征，其中，所述源域声纹特征对应的域与所述目标域不同；

基于所述目标域的声纹特征，获取目标域的主要声纹特征；

基于所述目标域的主要声纹特征生成目标域正则协方差矩阵；

基于所述源域声纹特征生成源域正则协方差矩阵；

基于所述源域正则协方差矩阵与所述源域声纹特征，得到白化源域声纹特征；

基于所述目标域正则协方差矩阵与所述白化源域声纹特征，得到自适应声纹特征；

基于所述自适应声纹特征对待训练分类模型进行训练，以得到识别模型；

获取待识别语音；

通过声纹模型获取所述待识别语音对应的第一声纹特征；

通过所述识别模型获取所述第一声纹特征对应的第二声纹特征，其中，所述识别模型为基于指定训练数据进行训练得到，所述指定训练数据至少包括基于所述源域声纹特征以及所述目标域的声纹特征所得到的所述自适应声纹特征，其中，所述自适应声纹特征所属域为所述目标域，所述目标域与所述待识别语音所属域相同或相似；

将所述第二声纹特征与注册声纹特征进行比对，以进行身份匹配识别，其中，所述注册声纹特征为预先通过所述识别模型得到。

2.根据权利要求1所述的方法，其特征在于，所述基于所述目标域的声纹特征，获取目标域的主要声纹特征，包括：

基于所述目标域的声纹特征，获取目标域协方差矩阵；

对所述目标域协方差矩阵进行特征值分解，以得到目标域特征值对角矩阵；

基于所述目标域特征值对角矩阵，获取所述目标域的主要声纹特征。

3.根据权利要求2所述的方法，其特征在于，所述目标域的声纹特征对应有多个维度，所述基于所述目标域特征值对角矩阵，获取所述目标域的主要声纹特征，包括：

基于所述目标域特征值对角矩阵，得到所述目标域的声纹特征对应的多个维度的特征值；

对所述多个维度的特征值进行规范化处理，得到多个规范化特征值；

将所述多个规范化特征值中的非关键规范化特征值替换为第一阈值，以得到目标域的主要声纹特征，其中，非关键规范化特征值小于所述第一阈值。

4.根据权利要求3所述的方法，其特征在于，所述对所述多个维度的特征值进行规范化处理，得到多个规范化特征值，包括：

通过零-均值规范化对所述多个维度的特征值进行规范化处理，得到多个规范化特征值。

5.根据权利要求1所述的方法，其特征在于，所述获取源域声纹特征和目标域的声纹特征，包括：

获取源域音频数据和目标域音频数据；

将所述源域音频数据输入所述声纹模型，以得到所述源域声纹特征；

将所述目标域音频数据输入所述声纹模型，以得到所述目标域的声纹特征。

6.一种声纹识别装置，其特征在于，所述装置包括：

识别模型生成单元，用于获取源域声纹特征和目标域的声纹特征，其中，所述源域声纹特征对应的域与所述目标域不同；基于所述目标域的声纹特征，获取目标域的主要声纹特征；基于所述目标域的主要声纹特征生成目标域正则协方差矩阵；基于所述源域声纹特征生成源域正则协方差矩阵；基于所述源域正则协方差矩阵与所述源域声纹特征，得到白化源域声纹特征；基于所述目标域正则协方差矩阵与所述白化源域声纹特征，得到自适应声纹特征；基于所述自适应声纹特征对待训练分类模型进行训练，以得到识别模型；

语音获取单元，用于获取待识别语音；

第一声纹特征获取单元，用于通过声纹模型获取所述待识别语音对应的第一声纹特征；

第二声纹特征获取单元，用于通过所述识别模型获取所述第一声纹特征对应的第二声纹特征，其中，所述识别模型为基于指定训练数据进行训练得到，所述指定训练数据至少包括基于所述源域声纹特征以及所述目标域的声纹特征所得到的所述自适应声纹特征，其中，所述目标域与所述待识别语音所属域相同或相似；

声纹比对单元，用于将所述第二声纹特征与注册声纹特征进行比对，以进行身份匹配识别，其中，所述注册声纹特征为预先通过所述识别模型得到。

7.一种电子设备，其特征在于，包括一个或多个处理器以及存储器；

一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行权利要求1-5任一所述的方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序代码，其中，在所述程序代码运行时执行权利要求1-5任一所述的方法。