CN111524526B

CN111524526B - 声纹识别方法及装置

Info

Publication number: CN111524526B
Application number: CN202010405890.XA
Authority: CN
Inventors: 宁博; 程亮; 邓洪文; 吴多
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2020-05-14
Filing date: 2020-05-14
Publication date: 2023-11-17
Anticipated expiration: 2040-05-14
Also published as: CN111524526A

Abstract

本发明公开了一种声纹识别方法及装置，其中，该方法包括：获取来自用户的包含作业指令的音频数据；将预处理后的音频数据输入至已训练的声纹识别模型，以输出识别信息，其中，声纹识别模型包括池化层，池化层为不同语音帧设置不同的权重；根据预先存储的验证音频数据对识别信息进行识别，以识别用户身份；响应于用户身份识别成功，执行作业指令。通过本发明，可以提高短语音识别的准确性。

Description

声纹识别方法及装置

技术领域

本发明涉及语音识别领域，具体涉及一种声纹识别方法及装置。

背景技术

目前，人工智能技术广泛应用于各领域，尤其是在办公领域中的应用，将大量重复性流程剥离出主要业务流程，显著地提高了办公效率及正确率。在人工智能技术领域中，声纹识别技术正逐渐应用到银行业，典型应用场景为电话银行，电话银行呼叫中心使用声纹识别作为用户身份验证的辅助手段，并基于声纹识别技术搭建声纹黑名单，在抵制电话诈骗的场景下有着广阔的应用空间。

由于声纹识别算法的局限性，要取得较理想的声纹识别准确率必须对有效长语音进行识别，而在声纹识别的实际应用中，用户讲话习惯决定用户的录音往往达不到有效长语音的要求，因而实际场景下的声纹识别准确率相对较低，在某些特定场景下甚至无法达到可应用的最低要求。

发明内容

有鉴于此，本发明提供一种声纹识别方法及装置，以解决上述提及的至少一个问题。

根据本发明的第一方面，提供一种声纹识别方法，所述方法包括：获取来自用户的包含作业指令的音频数据；将预处理后的音频数据输入至已训练的声纹识别模型，以输出识别信息，其中，所述声纹识别模型包括池化层，所述池化层为不同语音帧设置不同的权重；根据预先存储的验证音频数据对所述识别信息进行识别，以识别用户身份；响应于所述用户身份识别成功，执行所述作业指令。

根据本发明的第二方面，提供一种声纹识别装置，所述装置包括：数据获取单元，用于获取来自用户的包含作业指令的音频数据；信息识别单元，用于将预处理后的音频数据输入至已训练的声纹识别模型，以输出识别信息，其中，所述声纹识别模型包括池化层，所述池化层为不同语音帧设置不同的权重；用户身份识别单元，用于根据预先存储的验证音频数据对所述识别信息进行识别，以识别用户身份；执行单元，用于响应于所述用户身份识别成功，执行所述作业指令。

根据本发明的第三方面，提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法的步骤。

根据本发明的第四方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述方法的步骤。

由上述技术方案可知，通过将获取的用户音频数据经过预处理后，输入至已训练的声纹识别模型，以输出识别信息，之后根据预先存储的验证音频数据对识别信息进行用户身份识别，当用户身份识别成功时，执行用户音频数据中的作业指令，由于声纹识别模型的池化层可以为不同语音帧设置不同的权重，从而可以对不同的语音帧赋予不同的“注意力”，从短语音中获取足够多的声纹信息以支持短语音被更好地识别，进而可以解决传统xvector算法在短语音领域准确率低的问题，提高短语音识别的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是传统xvector算法模型的示意图；

图2是根据本发明实施例的声纹识别方法的流程图；

图3是根据本发明实施例的基于xvector算法的声纹识别模型的训练流程图；

图4是根据本发明实施例的声纹识别装置的结构框图；

图5是根据本发明实施例的声纹识别装置的详细结构框图；

图6是根据本发明实施例的模型训练单元5的结构框图；

图7是根据本发明实施例的声纹识别系统的示例结构框图；

图8为本发明实施例的电子设备600的系统构成的示意框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在实现本发明的过程中，申请人发现如下相关技术：

传统的xvector算法模型可以分为3个部分，如图1所示，第一部分为时延神经网络(Time-Delay Neural Network，TDNN)，该部分将获取不同时长的上下文语音信息。第二部分为一个统计池化层(可以简称为池化层)，该层以时延神经网络的输出作为输入，然后在时间维度上取平均，将原有不定长的特征转换为固定长度的特征，其中，h₁，h₂，……，h_t表示语音帧的特征，t为大于等于1的正整数。第三部分为全连接层加上一个softmax分类器。在模型训练时，使用一个神经网络去分类训练集中的人数，训练结束后去掉softmax分类器，剩下的全连接层就是一个xvector模型。

传统算法的不足之处在于统计池化层采取平均池化的方式。因而，基于传统xvector算法的声纹识别存在如下缺陷：

传统xvector算法的平均池化的实际意义为音频的每一帧包含的声纹信息是相同的，而实际上音频每一帧包含的声纹信息并不相同，某些帧为空语音或者不包含声纹信息，另外一些帧则包含了大量的声纹信息，从而导致了基于传统xvector算法的声纹识别的准确率较低。

基于此，本发明实施例提供一种声纹识别方法及装置，以提高语音识别的准确性。

图2是根据本发明实施例的声纹识别方法的流程图，如图2所示，该方法包括：

步骤201，获取来自用户的包含作业指令的音频数据。

步骤202，将预处理后的音频数据输入至已训练的声纹识别模型，以输出识别信息，其中，所述声纹识别模型包括池化层，所述池化层为不同语音帧设置不同的权重。

这里的预处理可以包括：vad(静音抑制)降噪、连通域去静音段、去除干扰信息等。

步骤203，根据预先存储的验证音频数据对所述识别信息进行识别，以识别用户身份。

步骤204，响应于所述用户身份识别成功，执行所述作业指令。

相应地，当用户身份识别失败时，则拒绝执行作业指令。

本发明实施例通过将获取的用户音频数据经过预处理后，输入至已训练的声纹识别模型，输出识别信息，之后根据预先存储的验证音频数据对识别信息进行用户身份识别，当用户身份识别成功时，执行用户音频数据中的作业指令，由于声纹识别模型的池化层可以为不同语音帧设置不同的权重，从而可以对不同的语音帧赋予不同的“注意力”，进而可以从短语音中获取足够多的声纹信息以支持短语音被更好地识别，可以解决传统xvector算法在短语音领域准确率低的问题。通过本发明实施例，可以提高短语音识别的准确性。

为了更好地理解本发明实施例，以下详细描述声纹识别模型的训练过程。

首先，获取历史用户的历史验证音频数据，该历史验证音频数据包括：验证过的用户信息及其语音信息。该历史验证音频数据可以作为训练数据。

之后，将预处理后的历史验证音频数据作为训练数据输入至声纹识别模型中，基于识别分类误差信息对所述声纹识别模型进行训练。

具体地，该声纹识别模型包括池化层。与传统的声纹识别模型不同的是，本发明实施例中的池化层包括神经网络，该神经网络的作用是对输入池化层的不同语音帧设置不同的权重，以此提高对短语音识别的准确性。

也就是说，基于识别分类误差信息对所述声纹识别模型进行训练主要是对池化层中的神经网络的参数优化。具体包括：基于所述识别分类误差信息与预定误差阈值对所述神经网络的参数进行调整，以为输入池化层的不同语音帧设置不同的权重；当所述识别分类误差信息小于等于预定误差阈值时，表示声纹识别模型训练完成。

优选地，可以基于语音帧中的声纹信息为不同语音帧设置不同的权重。例如，含声纹信息多的语音帧的权重被设置为高，含声纹信息少的语音帧的权重被设置为低。

图3是根据本发明实施例的基于xvector算法的声纹识别模型(或称为声纹识别神经网络)的训练流程图，如图3所示，该训练流程包括：

步骤301，构建一个基于TDNN的声纹识别神经网络，其中池化层中的权重模型为：A＝softmax(g(H^TW₁)W₂)，该权重模型即上述池化层中的神经网络，用于对语音帧设置不同的权重。

上述公式为神经网络的基本形式，其中，A为使用softmax分类器(或称为打分器)为语音帧计算的权重，g为非线性函数，H为语音帧中的特征，W₁为权重，W₂为权重。

具体而言，W₁是输入时的权重，池化层输入为H(即，语音帧特征)。

上述公式可以类比一维函数，y＝ax的概念，其中x未知量在这边是矩阵表示的H，a为矩阵表示的权重W₁。后面经过一个激活函数g(x)将其进行非线性化转换。W₂同理W₁，只不过需要把g(H^TW₁)当作整体看成一个H，因此W₂就是g(H^TW₁)的权重。

步骤302，获取历史数据，即带标签(该标签为用户信息或者音频所有者信息)的短语音音频，将获取的短语音音频输入至上述构建的神经网络中，得到识别结果。

识别结果即为通过神经网络后输出的分类，实际意义为音频所有者，用分类标签表示。例如，分别先后输入a、b、c 3个用户的音频，那么分类标签即应分别为a、b、c，某一段音频的识别结果为a或者b或者c。

步骤303，使用识别分类误差作为损失函数进行反向传播，通过随机梯度下降方法迭代训练声纹识别神经网络，直到分类误差(或称为分类残差)小于设定的误差阈值(即，上述的预定误差阈值)，即完成声纹识别神经网络的训练。

该误差阈值可以根据多次训练得到的最小残差值来确定，也可以根据某一类神经网络理论收敛的最小残差值来确定。

在实际操作中，分类残差意义为分类结果与实际分类值间的差异。声纹识别神经网络自带了残差计算方法。每一笔音频通过神经网络，都会识别得出一个分类结果，这个结果与实际值(即声纹标签)做比较，得到残差值。当残差值比较大，也就是得到的结果与实际标签差别太大，那么将自动调整神经网络参数，直到残差值不大于设定的阈值时，认为此时分类结果最优，本笔数据不再调整神经网络参数。

在具体的训练过程中，在给每一语音帧的权重赋值时，首先会随机初始化每一帧的权重值，之后语音帧进行神经网络的前向传播，最后根据识别结果，进行反向传播，并使用梯度下降方式更新每一帧的权重，在这个过程中，含有声纹信息的帧，权重就会逐渐增加，而不含或者含的较少的声纹信息的帧，权重就会逐渐减少。

在训练完成之后，就可以进行声纹识别操作，此时，将一段音频通过池化层时，原先的权重由平均权重变为本发明实施例的打分器得出的权重值，音频通过打分器后就会输出一个权重值，用于在池化层池化。

本发明实施例的关键在于，在统计池化层为每一语音帧设置合适的权重，使得算法在学习阶段可以对不同的帧赋予不同的“注意力”，从而可以从短语音中获取足够多的声纹信息以支持短语音更好地识别，从而可以解决传统xvector算法在短语音领域准确率低的问题。

基于相似的发明构思，本发明实施例还提供一种声纹识别装置，优选地，该装置可用于实现上述方法实施例中的流程。

图4是根据本发明实施例的声纹识别装置的结构框图，如图4所示，该装置包括：数据获取单元1、信息识别单元2、用户身份识别单元3和执行单元4，其中：

数据获取单元1，用于获取来自用户的包含作业指令的音频数据；

信息识别单元2，用于将预处理后的音频数据输入至已训练的声纹识别模型，以输出识别信息，其中，所述声纹识别模型包括池化层，所述池化层为不同语音帧设置不同的权重；

用户身份识别单元3，用于根据预先存储的验证音频数据对所述识别信息进行识别，以识别用户身份；

执行单元4，用于响应于所述用户身份识别成功，执行所述作业指令。

本发明实施例通过将数据获取单元1获取的用户音频数据经过预处理后，输入至已训练的声纹识别模型，信息识别单元2输出识别信息，之后用户身份识别单元3根据预先存储的验证音频数据对识别信息进行用户身份识别，当用户身份识别成功时，执行单元4执行用户音频数据中的作业指令，由于声纹识别模型的池化层可以为不同语音帧设置不同的权重，从而可以对不同的语音帧赋予不同的“注意力”，进而可以从短语音中获取足够多的声纹信息以支持短语音被更好地识别，可以解决传统xvector算法在短语音领域准确率低的问题。通过本发明实施例，可以提高短语音识别的准确性。

在一个实施例中，如图5所示，上述装置还包括：模型训练单元5，用于对所述声纹识别模型进行训练。

图6是模型训练单元5的结构框图，如图6所示，该模型训练单元5具体包括：历史数据获取模块51和训练模块52，其中：

历史数据获取模块51，用于获取历史用户的历史验证音频数据；

训练模块52，用于将预处理后的历史验证音频数据输入至声纹识别模型，并基于识别分类误差信息对所述声纹识别模型进行训练。

在本发明实施例中，声纹识别模型的池化层包括神经网络，该神经网络用于为输入所述池化层的不同语音帧设置不同的权重。

具体而言，上述训练模块具体包括：参数调整子模块和训练子模块，其中：

参数调整子模块，用于基于所述识别分类误差信息与预定误差阈值对所述神经网络的参数进行调整，以为输入所述池化层的不同语音帧设置不同的权重。该参数调整子模块可以基于语音帧中的声纹信息为不同语音帧设置不同的权重。

例如，含声纹信息多的语音帧的权重被设置为高，含声纹信息少的语音帧的权重被设置为低。

训练子模块，用于响应于所述识别分类误差信息小于等于预定误差阈值，所述声纹识别模型训练完成。

上述各单元、各模块、各子模块的具体执行过程，可以参见上述方法实施例中的描述，此处不再赘述。

在实际操作中，上述各单元、各模块、各子模块可以组合设置、也可以单一设置，本发明不限于此。

图7是根据本发明实施例的声纹识别系统的示例结构框图，如图7所示，该系统包括：用户交互模块71、数据预处理模块72、声纹引擎神经网络73、处理响应模块74，其中：

用户交互模块71，用于采集用户音频。

数据预处理模块72，用于对采集到的音频数据进行降噪、去静音段、去干扰等处理。

声纹引擎神经网络73，用于接收预处理后的音频数据并对其进行声纹识别。

处理响应模块74，用于接收声纹识别结果，当识别结果为成功时，根据用户需求响应指令。例如，识别出是本人，然后查询用户权限，根据权限来响应相关指令；当权限不足时，或者识别出非本人，则直接提示非授权用户，不响应指令。

本实施例还提供一种电子设备，该电子设备可以是台式计算机、平板电脑及移动终端等，本实施例不限于此。在本实施例中，该电子设备可以参照上述方法实施例进行实施及声纹识别装置实施例进行实施，其内容被合并于此，重复之处不再赘述。

图8为本发明实施例的电子设备600的系统构成的示意框图。如图8所示，该电子设备600可以包括中央处理器100和存储器140；存储器140耦合到中央处理器100。值得注意的是，该图是示例性的；还可以使用其他类型的结构，来补充或代替该结构，以实现电信功能或其他功能。

一实施例中，声纹识别功能可以被集成到中央处理器100中。其中，中央处理器100可以被配置为进行如下控制：

步骤201，获取来自用户的包含作业指令的音频数据。

从上述描述可知，本申请实施例提供的电子设备，通过将获取的用户音频数据经过预处理后，输入至已训练的声纹识别模型，以输出识别信息，之后根据预先存储的验证音频数据对识别信息进行用户身份识别，当用户身份识别成功时，执行用户音频数据中的作业指令，由于声纹识别模型的池化层可以为不同语音帧设置不同的权重，从而可以对不同的语音帧赋予不同的“注意力”，进而可以从短语音中获取足够多的声纹信息以支持短语音被更好地识别，可以解决传统xvector算法在短语音领域准确率低的问题。通过本发明实施例，可以提高短语音识别的准确性。

在另一个实施方式中，声纹识别装置可以与中央处理器100分开配置，例如可以将声纹识别装置配置为与中央处理器100连接的芯片，通过中央处理器的控制来实现声纹识别功能。

如图8所示，该电子设备600还可以包括：通信模块110、输入单元120、音频处理单元130、显示器160、电源170。值得注意的是，电子设备600也并不是必须要包括图8中所示的所有部件；此外，电子设备600还可以包括图8中没有示出的部件，可以参考现有技术。

如图8所示，中央处理器100有时也称为控制器或操作控件，可以包括微处理器或其他处理器装置和/或逻辑装置，该中央处理器100接收输入并控制电子设备600的各个部件的操作。

其中，存储器140，例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息，此外还可存储执行有关信息的程序。并且中央处理器100可执行该存储器140存储的该程序，以实现信息存储或处理等。

输入单元120向中央处理器100提供输入。该输入单元120例如为按键或触摸输入装置。电源170用于向电子设备600提供电力。显示器160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器，但并不限于此。

该存储器140可以是固态存储器，例如，只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器，其即使在断电时也保存信息，可被选择性地擦除且设有更多数据，该存储器的示例有时被称为EPROM等。存储器140还可以是某种其它类型的装置。存储器140包括缓冲存储器141(有时被称为缓冲器)。存储器140可以包括应用/功能存储部142，该应用/功能存储部142用于存储应用程序和功能程序或用于通过中央处理器100执行电子设备600的操作的流程。

存储器140还可以包括数据存储部143，该数据存储部143用于存储数据，例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器140的驱动程序存储部144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。

通信模块110即为经由天线111发送和接收信号的发送机/接收机110。通信模块(发送机/接收机)110耦合到中央处理器100，以提供输入信号和接收输出信号，这可以和常规移动通信终端的情况相同。

基于不同的通信技术，在同一电子设备中，可以设置有多个通信模块110，如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)110还经由音频处理器130耦合到扬声器131和麦克风132，以经由扬声器131提供音频输出，并接收来自麦克风132的音频输入，从而实现通常的电信功能。音频处理器130可以包括任何合适的缓冲器、解码器、放大器等。另外，音频处理器130还耦合到中央处理器100，从而使得可以通过麦克风132能够在本机上录音，且使得可以通过扬声器131来播放本机上存储的声音。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时以实现上述声纹识别方法的步骤。

综上所述，本发明实施例通过在池化层训练一个打分器，在进行池化的过程中对音频的每一帧赋予合适的权重，从而可以从短语音中获取更多的声纹信息，解决了传统xvector算法在短语音领域准确率低的问题，提高了短语音声纹识别的准确率。

以上参照附图描述了本发明的优选实施方式。这些实施方式的许多特征和优点根据该详细的说明书是清楚的，因此权利要求旨在覆盖这些实施方式的落入其真实精神和范围内的所有这些特征和优点。此外，由于本领域的技术人员容易想到很多修改和改变，因此不是要将本发明的实施方式限于所例示和描述的精确结构和操作，而是可以涵盖落入其范围内的所有合适修改和等同物。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种声纹识别方法，其特征在于，所述方法包括：

获取来自用户的包含作业指令的音频数据；

将预处理后的音频数据输入至已训练的声纹识别模型，以输出识别信息，其中，所述声纹识别模型包括池化层，所述池化层为不同语音帧设置不同的权重；

根据预先存储的验证音频数据对所述识别信息进行识别，以识别用户身份；

响应于所述用户身份识别成功，执行所述作业指令；

其中，池化层中的权重模型为：A＝softmax(g(H^TW1)W2)，用于对语音帧设置不同的权重，其中，A为使用softmax分类器为语音帧计算的权重，g为非线性函数，H为语音帧中的特征，W1为输入时的权重，W2为权重；

在给每一语音帧的权重赋值时，首先会随机初始化每一帧的权重值，之后语音帧进行神经网络的前向传播，最后根据识别结果，进行反向传播，并使用梯度下降方式更新每一帧的权重，在这个过程中，含有声纹信息的帧，权重就会逐渐增加，而不含或者含的较少的声纹信息的帧，权重就会逐渐减少。

2.根据权利要求1所述的方法，其特征在于，所述声纹识别模型通过如下方式训练：

获取历史用户的历史验证音频数据；

将预处理后的历史验证音频数据输入至声纹识别模型，并基于识别分类误差信息对所述声纹识别模型进行训练。

3.根据权利要求2所述的方法，其特征在于，所述池化层包括神经网络，基于识别分类误差信息对所述声纹识别模型进行训练包括：

基于所述识别分类误差信息与预定误差阈值对所述神经网络的参数进行调整，以为输入所述池化层的不同语音帧设置不同的权重；

响应于所述识别分类误差信息小于等于预定误差阈值，所述声纹识别模型训练完成。

4.根据权利要求3所述的方法，其特征在于，基于语音帧中的声纹信息为不同语音帧设置不同的权重。

5.一种声纹识别装置，其特征在于，所述装置包括：

数据获取单元，用于获取来自用户的包含作业指令的音频数据；

信息识别单元，用于将预处理后的音频数据输入至已训练的声纹识别模型，以输出识别信息，其中，所述声纹识别模型包括池化层，所述池化层为不同语音帧设置不同的权重；

用户身份识别单元，用于根据预先存储的验证音频数据对所述识别信息进行识别，以识别用户身份；

执行单元，用于响应于所述用户身份识别成功，执行所述作业指令；

6.根据权利要求5所述的装置，其特征在于，所述装置还包括：

模型训练单元，用于对所述声纹识别模型进行训练，

所述模型训练单元包括：

历史数据获取模块，用于获取历史用户的历史验证音频数据；

训练模块，用于将预处理后的历史验证音频数据输入至声纹识别模型，并基于识别分类误差信息对所述声纹识别模型进行训练。

7.根据权利要求6所述的装置，其特征在于，所述池化层包括神经网络，所述训练模块包括：

参数调整子模块，用于基于所述识别分类误差信息与预定误差阈值对所述神经网络的参数进行调整，以为输入所述池化层的不同语音帧设置不同的权重；

8.根据权利要求7所述的装置，其特征在于，所述参数调整子模块基于语音帧中的声纹信息为不同语音帧设置不同的权重。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至4中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至4中任一项所述方法的步骤。