CN106782564B

CN106782564B - 用于处理语音数据的方法和装置

Info

Publication number: CN106782564B
Application number: CN201611031726.7A
Authority: CN
Inventors: 叶璨; 彭艺宇
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2016-11-18
Filing date: 2016-11-18
Publication date: 2018-09-11
Anticipated expiration: 2036-11-18
Also published as: JP2018081297A; US20180144742A1; JP6429945B2; US10825452B2; CN106782564A; US10140984B2; US20190066665A1

Abstract

本申请公开了用于处理语音数据的方法和装置。该方法的一具体实施方式包括：接收用户终端发送的语音数据；提取语音数据中的声纹特征向量；将声纹特征向量与预先存储的用户的注册声纹向量进行匹配，并生成声纹特征向量与注册声纹向量之间的匹配度；确定匹配度是否大于等于预设的更新阈值；响应于确定出匹配度大于等于预设的更新阈值，则利用声纹特征向量和语音数据更新注册声纹向量。该实施方式提高了用户的注册声纹向量的准确度。

Description

用于处理语音数据的方法和装置

技术领域

本申请涉及计算机技术领域，具体涉及数据处理技术领域，尤其涉及用于处理语音数据的方法和装置。

背景技术

近年来，声纹识别这种新兴的生物识别手段因其安全便利性受到了很大关注。声纹识别是基于不同人的发声器官例如肺、气管、声带、口腔、鼻腔、咽腔等在尺寸和形态方面存在的生理差异，利用每个人语音中包含的独特信息，进行个人身份的识别和验证。但是现实中，每个人的语音声学特征并非绝对的、一成不变的，而是受到所处环境、使用设备等外界因素和个人身体状况、情绪波动、言语风格变化等内在因素等共同影响变化的。另外研究表明，人的语音声学特征还会随着年龄增长而出现变化。因此，对用户声纹特征的动态变化进行追踪，使得用户的声纹模型能根据新增声音样本进行自适应更新，这对于提升声纹识别系统的性能具有至关重要的意义。

目前，对用户进行身份验证时通常使用的是根据用户在注册时输入的语音数据所生成声纹模型，但是这种模型不能进行自适应更新，随着时间的推移，这种验证用户身份的方法会导致验证结果不准确。

发明内容

本申请的目的在于提出一种改进的用于处理语音数据的方法和装置，来解决以上背景技术部分提到的技术问题。

第一方面，本申请提供了一种用于处理语音数据的方法，该方法包括：接收用户终端发送的语音数据；提取语音数据中的声纹特征向量；将声纹特征向量与预先存储的用户的注册声纹向量进行匹配，并生成声纹特征向量与注册声纹向量之间的匹配度；确定匹配度是否大于等于预设的更新阈值；响应于确定出匹配度大于等于的更新阈值，则利用声纹特征向量和语音数据更新注册声纹向量。

在一些实施例中，提取语音数据中的声纹特征向量，包括：将语音数据导入预先训练的全局背景模型中进行映射得到中间向量；将中间向量进行特征变换得到声纹特征向量。

在一些实施例中，在将声纹特征向量与预先存储的用户的注册声纹向量进行匹配之前，该方法还包括生成注册声纹向量的步骤，包括：获取用户输入的预设数目个注册语音数据；将预设数目个注册语音数据导入预先训练的全局背景模型中进行映射得到预设数目个等长的中间向量；对预设数目个等长的中间向量进行特征变换得到预设数目个注册声纹特征向量；对预设数目个注册声纹特征向量进行融合，生成用户的注册声纹向量。

在一些实施例中，所述利用声纹特征向量和语音数据更新注册声纹向量包括：获取用户输入的注册语音数据的数量和用户已存储的各个声纹特征向量；根据用户已存储的各个声纹特征向量、用户已存储的语音数据的数量、注册语音数据的数量和注册声纹向量，更新注册声纹向量。

在一些实施例中，根据用户已存储的各个声纹特征向量、用户已存储的语音数据的数量、注册语音数据的数量和注册声纹向量，更新注册声纹向量，包括：对用户已存储的各个声纹特征向量进行数据标准化运算，并对数据标准化运算后的向量进行求和运算，得到用户已存储的声纹特征向量之和；利用注册语音数据的数量乘以注册声纹向量，得到注册声纹向量之积；计算声纹特征向量之和与注册声纹向量之积的向量和，并计算用户已存储的语音数据的数量与注册语音数据的数量的数量和，利用向量和除以数量和得到更新的注册声纹向量。

在一些实施例中，在更新注册声纹向量之后，该方法包括：删除用户已存储的语音数据。

在一些实施例中，获取用户输入的预设数目个注册语音数据，包括：获取用户已存储的语音数据以及语音数据的相关信息，其中，相关信息包括语音数据的输入时间点；删除输入时间点早于预设的时间分割点的语音数据，并将删除后的语音数据作为注册语音数据。

在一些实施例中，获取用户输入的预设数目个注册语音数据，还包括：利用聚类算法对用户已存储的语音数据进行聚类，生成至少一个已存储的语音数据的簇；获取各个簇的中心点；利用距离算法计算每个已存储的语音数据与每个已存储的语音数据所在簇的中心点的距离；删除距离大于预设的距离阈值的语音数据，并将删除后的语音数据作为注册语音数据。

在一些实施例中，相关信息还包括以下至少一项：语音数据的采集设备类型、语音数据的输入地点；以及在生成至少一个已存储的语音数据的簇之后，方法还包括：获取各个簇中的语音数据以及各个簇中的语音数据的相关信息；利用各个簇的语音数据重新生成用户的各个注册声纹向量，并根据各个簇的语音数据的相关信息生成各个注册声纹向量的相关信息。

在一些实施例中，在接收用户通过用户终端发送的语音数据之后，该方法还包括：获取语音数据的相关信息；以及将声纹特征向量与预先生成的用户的注册声纹向量进行匹配，包括：根据语音数据的相关信息与各个注册声纹向量的相关信息的匹配度，选择注册声纹向量；将声纹特征向量与选择的注册声纹向量进行匹配。

在一些实施例中，在所述生成所述声纹特征向量与所述注册声纹向量之间的匹配度之后，所述方法还包括：确定所述匹配度是否大于等于预设的通过阈值；响应于确定出所述匹配度大于等于预设的通过阈值，则确定用户身份验证通过并执行与验证通过相对应的操作。

第二方面，本申请提供了一种用于处理语音数据的装置，该装置包括：接收单元，配置用于接收用户终端发送的语音数据；提取单元，配置用于提取语音数据中的声纹特征向量；匹配单元，配置用于将声纹特征向量与预先存储的用户的注册声纹向量进行匹配，并生成声纹特征向量与注册声纹向量之间的匹配度；第一确定单元，配置用于确定匹配度是否大于等于预设的更新阈值；更新单元，配置用于响应于确定出匹配度大于等于预设的更新阈值，则利用声纹特征向量和语音数据更新注册声纹向量。

在一些实施例中，提取单元包括：映射模块，配置用于将语音数据导入预先训练的全局背景模型中进行映射得到中间向量；变换模块，配置用于将中间向量进行特征变换得到声纹特征向量。

在一些实施例中，该装置还包括生成单元，包括：获取模块，配置用于获取用户输入的预设数目个注册语音数据；映射模块，配置用于将预设数目个注册语音数据导入预先训练的全局背景模型中进行映射得到预设数目个等长的中间向量；变换模块，配置用于对预设数目个等长的中间向量进行特征变换得到预设数目个注册声纹特征向量；融合模块，配置用于对预设数目个注册声纹特征向量进行融合，生成用户的注册声纹向量。

在一些实施例中，更新单元包括：获取模块，配置用于获取用户输入的注册语音数据的数量和用户已存储的各个声纹特征向量；更新模块，配置用于根据用户已存储的各个声纹特征向量、用户已存储的语音数据的数量、注册语音数据的数量和注册声纹向量，更新注册声纹向量。

在一些实施例中，更新模块包括：第一计算子模块，配置用于对用户已存储的各个声纹特征向量进行数据标准化运算，并对数据标准化运算后的向量进行求和运算，得到用户已存储的声纹特征向量之和；第二计算子模块，配置用于利用注册语音数据的数量乘以注册声纹向量，得到注册声纹向量之积；更新子模块，配置用于计算声纹特征向量之和与注册声纹向量之积的向量和，并计算用户已存储的语音数据的数量与注册语音数据的数量的数量和，利用向量和除以数量和得到更新的注册声纹向量。

在一些实施例中，更新单元进一步配置用于：删除用户已存储的语音数据。

在一些实施例中，获取模块包括：第一获取子模块，配置用于获取用户已存储的语音数据以及语音数据的相关信息，其中，相关信息包括语音数据的输入时间点；第一删除子模块，配置用于删除输入时间点早于预设的时间分割点的语音数据，并将删除后的语音数据作为注册语音数据。

在一些实施例中，获取模块包括：生成子模块，配置用于利用聚类算法对用户已存储的语音数据进行聚类，生成至少一个已存储的语音数据的簇；第二获取子模块，配置用于获取各个簇的中心点；计算子模块，配置用于利用距离算法计算每个已存储的语音数据与每个已存储的语音数据所在簇的中心点的距离；第二删除子模块，配置用于删除距离大于预设的距离阈值的语音数据，并将删除后的语音数据作为注册语音数据。

在一些实施例中，相关信息还包括以下至少一项：语音数据的采集设备类型、语音数据的输入地点；以及装置还包括：第一获取单元，配置用于获取各个簇中的语音数据以及各个簇中的语音数据的相关信息；重新生成单元，配置用于利用各个簇的语音数据重新生成用户的各个注册声纹向量，并根据各个簇的语音数据的相关信息生成各个注册声纹向量的相关信息。

在一些实施例中，该装置还包括：第二获取单元，配置用于获取语音数据的相关信息；以及匹配单元包括：选择模块，配置用于根据语音数据的相关信息与各个注册声纹向量的相关信息的匹配度，选择注册声纹向量；匹配模块，配置用于将声纹特征向量与选择的注册声纹向量进行匹配。

在一些实施例中，该装置还包括：第二确定单元，配置用于确定所述匹配度是否大于等于预设的通过阈值；执行单元，配置用于响应于确定出所述匹配度大于等于预设的通过阈值，则确定用户身份验证通过并执行与验证通过相对应的操作。

本申请提供的用于处理语音数据的方法和装置，通过提取用户终端发送的语音数据中的声纹特征向量，并将声纹特征向量与预先生成的该用户的注册声纹向量进行匹配，当匹配度大于等于预设的更新阈值时，则利用该声纹特征向量和该语音数据更新注册声纹向量，从而有效利用了用户的语音数据，提高了用户的注册声纹向量的准确度。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请可以应用于其中的示例性系统架构图；

图2是根据本申请的用于处理语音数据的方法的一个实施例的流程图；

图3是本申请的图2步骤203中的用户的注册声纹向量的生成方法的一种实现方式的流程图；

图4是根据本申请的用于处理语音数据的方法的又一个实施例的流程图；

图5是根据本申请的用于处理语音数据的装置的一个实施例的结构示意图；

图6是适于用来实现本申请实施例的服务器的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的用于处理语音数据的方法或用于处理语音数据的装置的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105、106。网络104用以在终端设备101、102、103和服务器105、106之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户110可以使用终端设备101、102、103通过网络104与服务器105、106交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如购物类应用、搜索类应用、网页浏览器应用、即时通信工具、邮箱客户端、社交平台软件、支付软件等。

终端设备101、102、103可以是具有显示屏并且支持数据接收与发送，以及携带麦克风的各种电子设备，包括但不限于智能手机、平板电脑、智能手表、膝上型便携计算机和台式计算机等等。

服务器105、106可以是提供各种服务的服务器，例如对终端设备101、102、103上发送的语音数据提供支持的后台服务器。后台服务器可以对接收到的语音数据等数据进行分析等处理，并将处理结果(例如登陆成功页面或登陆失败页面)反馈给终端设备。

需要说明的是，本申请实施例所提供的用于处理语音数据的方法一般由服务器105、106执行，相应地，用于处理语音数据的装置一般设置于服务器105、106中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本申请的用于处理语音数据的方法的一个实施例的流程200。所述的用于处理语音数据的方法，包括以下步骤：

步骤201，接收用户终端发送的语音数据。

在本实施例中，用于处理语音数据的方法运行于其上的电子设备(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式从用户利用其进行用户身份验证的终端接收语音数据，其中，上述语音数据可以是用户根据上述电子设备生成的字符串进行朗读而生成的朗读信息，上述字符串可以是上述电子设备随机生成的字符串，也可以是上述用户在注册用于验证身份的系统账号时所选择的字符串集合中的字符串。需要指出的是，上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。

步骤202，提取语音数据中的声纹特征向量。

在本实施例中，上述电子设备可以提取步骤201中接收到的语音数据中的声纹特征向量。声纹是用电声学仪器显示的携带言语信息的声波频谱。现代科学研究表明，声纹不仅具有特定性，而且有相对稳定性的特点。声纹特征向量可以是标识用户的声纹频谱特征的向量。

在本实施例的一些可选的实现方式中，上述电子设备可以将上述语音数据导入预先训练的全局背景模型(Universal Background Model，UBM)中进行映射得到中间向量，然后，将上述中间向量进行特征变换得到声纹特征向量。当验证用户身份通过或不通过时，与其他偏重个体特定性的模型相比，上述全局背景模型是一个在生物识别验证系统中偏重一般性且个体通用性的模型，例如，在用户语音验证系统中，上述全局背景模型是一个由性别均衡的不同说话者的大量语音样本训练得出的、且与说话者不相关的高斯混合模型(Gaussian Mixture Model，GMM)，上述全局背景模型可以用来表征语音数据与中间向量的对应关系。可以通过联合因子分析方法(Joint Factor Analysis，JFA)对上述中间向量进行特征变换得到声纹特征向量，上述联合因子分析方法是声纹认证算法中针对信道补偿的有效算法，它通过假设说话人空间和信道空间是独立的，并可以分别用两个低维因子空间进行描述，从而估计信道因子；也可以通过概率线性判别分析算法(Probabilistic LinearDiscriminant Analysis，PLDA)对上述中间向量进行特征变换得到声纹特征向量，上述概率线性判别分析算法也是一种信道补偿算法，是概率形式的线性判别分析算法(LinearDiscriminant Analysis，LDA)；还可以通过辨识矢量(Identifying Vector，I-Vector)对上述中间向量进行特征变换得到声纹特征向量。

步骤203，将声纹特征向量与预先存储的用户的注册声纹向量进行匹配，并生成声纹特征向量与注册声纹向量之间的匹配度。

在本实施例中，上述电子设备可以将上述步骤202中提取的声纹特征向量与预先存储的上述用户的注册声纹向量进行匹配，并生成上述声纹特征向量与上述注册声纹向量之间的匹配度。上述预先存储的的注册声纹向量可以是预先生成的注册声纹向量，也可以是更新之后的注册声纹向量。上述注册声纹向量可以是上述电子设备自身生成的，也可以是上述电子设备从其它已经生成上述用户的注册声纹向量的设备上获取到的。当提取出上述用户语音数据中的声纹特征向量之后，上述电子设备可以首先检测设备本身是否已存储上述用户的注册声纹向量；若检测到设备本身存储了上述用户的注册声纹向量，则将上述声纹特征向量与该注册声纹向量进行匹配，若没有检测到设备本身中存储了上述用户的注册声纹向量，则向其它设备发送获取上述用户的注册声纹向量的请求；若接收到其它设备发送的上述用户的注册声纹向量，则将上述声纹特征向量与该注册声纹向量进行匹配，若没有接收到其它设备发送的上述用户的注册声纹向量，则上述电子设备根据用户注册时输入的多条语音数据生成该用户的注册声纹向量。计算上述声纹特征向量与上述注册声纹向量之间的匹配度时，可以采用曼哈顿距离(Manhattan Distance)进行计算，也可以采用闵可夫斯基距离(Minkowski Distance)进行计算，还可以采用余弦相似度(CosineSimilarity)进行计算。

在本实施例的一些可选的实现方式中，上述相关信息可以包括语音数据的采集设备类型，例如，手机、电脑和智能手表等等，上述相关信息还可以包括语音数据的输入地点，可以按照外界环境噪声的大小将输入地点划分为噪声大的场所，例如，地铁、商场、娱乐场所等，和噪声大的场所，例如图书馆、教室等。上述电子设备可以利用聚类算法对上述用户已存储的语音数据进行聚类，生成至少一个已存储的语音数据的簇，之后，可以获取各个簇中的语音数据以及该语音数据的相关信息，然后，可以利用各个簇的语音数据重新生成上述用户的各个注册声纹向量，并根据上述各个簇的语音数据的相关信息生成各个注册声纹向量的相关信息。上述簇也可称之为簇类，是指由类似的对象组成的多个类，由聚类所生成的簇是一组数据对象的集合，这些对象与同一簇中的对象彼此相似，与其他簇中的对象相异。作为示例，一个簇中的输入地点为噪声大的场所的语音数据的数量占该簇中所有语音数据的数量的比例为80％，则可以将利用该簇的语音数据生成的注册声纹向量的相关信息中的输入地点信息设置为噪声大的场所。

在本实施例的一些可选的实现方式中，上述电子设备在处理语音数据时，还可以获取语音数据的相关信息；之后，根据上述语音数据的相关信息与上述用户的各个注册声纹向量的相关信息的匹配度，选择注册声纹向量，例如，当获取到语音数据的输入地点为酒吧时，则可以选择相关信息中包含噪声大的场所的注册声纹向量，当获取到语音数据的采集设备为智能手表时，则可以选择相关信息中包含智能手表的注册声纹向量；最后，将该声纹特征向量与所选择的注册声纹向量进行匹配，得到匹配结果。

步骤204，确定匹配度是否大于等于预设的更新阈值。

在本实施例中，上述电子设备可以将步骤203中生成的匹配度与预设的更新阈值进行比较，确定上述匹配度是否大于或等于上述更新阈值，其中，上述更新阈值是动态的，且个性化的，用户不同，用户所对应的更新阈值也不同，上述更新阈值的设置是为了将预设比例的语音数据和声纹特征向量进行存储，以供上述电子设备根据存储的语音数据和声纹特征向量更新用户的注册声纹向量，例如，当预设比例为80％时，则上述更新阈值可以使得占用户总输入的语音数据的80％的语音数据被存储。

步骤205，响应于确定出匹配度大于等于预设的更新阈值，则利用声纹特征向量和语音数据更新注册声纹向量。

在本实施例中，当确定出上述匹配度大于或等于预设的更新阈值，则上述电子设备可以利用步骤201接收的语音数据和步骤202提取出的声纹特征向量更新上述用户的注册声纹向量。

在本实施例的一些可选的实现方式中，当确定出上述匹配度大于或等于预设的通过阈值，则上述电子设备可以确定上述用户身份验证通过，并执行与验证通过相对应的操作，例如，当用户在进行登录网站时的身份验证时，可以向上述用户返回登录成功的页面；当用户在进行密码锁的解锁操作时，可以解开密码锁。

本申请的上述实施例提供的方法通过将用户语音数据中的声纹特征向量与该用户的注册声纹向量进行匹配，并利用匹配度大于等于更新阈值的语音数据和声纹特征向量来更新用户的注册声纹向量，从而提高了用户的注册声纹向量的准确度。

继续参见图3，图3是图2步骤203中的用户的注册声纹向量的生成方法的一种实现方式的流程300。该生成用户的注册声纹向量的流程300，包括以下步骤：

步骤301，获取用户输入的预设数目个注册语音数据。

在本实施例中，用于处理语音数据的方法运行于其上的电子设备(例如图1所示的服务器)可以获取用户在注册用于验证身份的系统账号时输入的预设数目个注册语音数据，其中，上述注册语音数据可以是用户根据上述电子设备生成的字符串进行朗读而生成的朗读信息，上述字符串可以是上述电子设备随机生成的字符串，也可以是上述用户在字符串集合中选择的字符串。

在本实施例的一些可选的实现方式中，上述电子设备可以获取上述用户已存储的语音数据以及该语音数据的相关信息，其中，上述相关信息包括语音数据的输入时间点；之后，可以删除上述输入时间点早于预设的时间分割点的语音数据，并将删除后的语音数据作为注册语音数据，并利用该注册语音数据生成注册声纹向量。作为示例，当预设的时间分割点为2016年6月1日，则将输入时间点早于2016年6月1日的数据删除。

在本实施例的一些可选的实现方式中，上述电子设备可以首先利用聚类算法对上述用户已存储的语音数据进行聚类，生成至少一个已存储的语音数据的簇，其中，上述聚类算法可以包括基于划分聚类算法(例如k-means算法)、基于层次聚类算法(例如利用层次方法的平衡迭代规约和聚类(Balanced Iterative Reducing and Clustering UsingHierarchies，BIRCH))和基于密度聚类算法(例如DBSCAN算法)等；之后，上述电子设备可以获取各个簇的中心点，以k-means算法为例，在给定K值和K个簇的初始中心点的情况下，把每个点分到离其最近的中心点所代表的簇中，当所有点分配完毕后，对一个簇中的所有点重新计算(例如计算平均值)得到该簇的中心点，然后再迭代的进行分配点和更新簇的中心点的步骤，直至簇的中心点的变化很小，或者达到指定的迭代次数，再获取各个簇中的中心点；然后，可以利用距离算法计算每个已存储的语音数据与每个已存储的语音数据所在簇的中心点的距离，其中，上述距离算法可以包括欧式距离算法；最后，可以将上述距离大于预设的距离阈值的语音数据删除，并将删除后的语音数据作为注册语音数据，并利用该注册语音数据生成注册声纹向量。

在本实施例的一些可选的实现方式中，上述电子设备也可以将语音数据输入时间点早于预设的时间分割点的语音数据以及上述距离大于预设的距离阈值的语音数据均删除，并将删除后的语音数据作为注册语音数据，并利用该注册语音数据生成注册声纹向量。

步骤302，将预设数目个注册语音数据导入预先训练的全局背景模型中进行映射得到预设数目个等长的中间向量。

在本实施例中，上述电子设备可以将上述预设数目个注册语音数据导入预先训练的全局背景模型中进行映射得到预设数目个等长的中间向量。上述全局背景模型是一个由性别均衡的不同说话者的大量语音样本训练得出的、且与说话者不相关的高斯混合模型，上述全局背景模型可以用来表征语音数据与中间向量的对应关系。

步骤303，对预设数目个等长的中间向量进行特征变换得到预设数目个注册声纹特征向量。

在本实施例中，上述电子设备可以通过联合因子分析方法、概率线性判别分析算法和辨识矢量等算法对上述预设数目个等长的中间向量进行特征变换得到预设数目个注册声纹特征向量。

步骤304，对预设数目个注册声纹特征向量进行融合，生成用户的注册声纹向量。

在本实施例中，上述电子设备可以对上述预设数目个注册声纹特征向量进行融合，生成上述用户的注册声纹向量。例如，用户甲在注册过程中输入了K个注册语音数据，可以提取出K个注册声纹特征向量，可以通过下述的公式1对上述K个注册声纹特征向量进行融合得到上述用户的注册声纹向量。

其中，V为用户的注册声纹向量，K为注册语音数据的数量，v_i为用户输入的第i个注册声纹特征向量，norm(v_i)为对v_i进行数据标准化(长度归一化)操作，为对进行数据标准化(长度归一化)操作。

本申请的上述生成用户的注册声纹向量方法通过对用户的注册语音数据进行映射，特征变换以及融合等处理，生成该用户的注册声纹向量，从而以该注册声纹向量为基准，确定该用户的身份验证结果，实现了准确的用户身份识别。

进一步参考图4，其示出了用于处理语音数据的方法的又一个实施例的流程400。该用于处理语音数据的方法的流程400，包括以下步骤：

步骤401，接收用户终端发送的语音数据。

在本实施例中，用于处理语音数据的方法运行于其上的电子设备(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式从用户利用其进行用户身份验证的终端接收语音数据，其中，上述语音数据可以是用户根据上述电子设备生成的字符串进行朗读而生成的朗读信息，上述字符串可以是上述电子设备随机生成的字符串，也可以是上述用户在注册用于验证身份的系统账号时所选择的字符串集合中的字符串。

步骤402，提取语音数据中的声纹特征向量。

在本实施例中，上述电子设备可以提取步骤401中接收到的语音数据中的声纹特征向量。声纹是用电声学仪器显示的携带言语信息的声波频谱。现代科学研究表明，声纹不仅具有特定性，而且有相对稳定性的特点。声纹特征向量可以是标识用户的声纹频谱特征的向量。

步骤403，将声纹特征向量与预先存储的用户的注册声纹向量进行匹配，并生成声纹特征向量与注册声纹向量之间的匹配度。

在本实施例中，上述电子设备可以将上述步骤402中提取的声纹特征向量与预先存储的上述用户的注册声纹向量进行匹配，并生成上述声纹特征向量与上述注册声纹向量之间的匹配度。上述预先存储的的注册声纹向量可以是预先生成的注册声纹向量，也可以是更新之后的注册声纹向量。上述注册声纹向量可以是上述电子设备自身生成的，也可以是上述电子设备从其它已经生成上述用户的注册声纹向量的设备上获取到的。可以采用曼哈顿距离、闵可夫斯基距离和余弦相似度等计算上述声纹特征向量与上述注册声纹向量之间的匹配度。

步骤404，确定匹配度是否大于等于预设的更新阈值。

在本实施例中，上述电子设备可以将步骤403中生成的匹配度与预设的更新阈值进行比较，确定上述匹配度是否大于或等于上述更新阈值，其中，上述更新阈值是动态的，且个性化的，用户不同，用户所对应的更新阈值也不同，上述更新阈值的设置是为了将预设比例的语音数据和声纹特征向量进行存储，以供上述电子设备根据存储的语音数据和声纹特征向量更新用户的注册声纹向量，例如，当预设比例为90％时，则上述更新阈值可以使得占用户总输入的语音数据的90％的语音数据被存储。

在本实施例中，上述电子设备可以针对用户的各个注册声纹向量，为每个注册声纹向量设置不同的更新阈值。当将声纹特征向量与所选择的注册声纹向量进行匹配，可以将得到的匹配度与所选择的注册声纹向量所对应的更新阈值进行比较，其中，所述注册声纹向量与所述更新阈值是一一对应的。

步骤405，响应于确定出匹配度大于等于预设的更新阈值，则获取用户输入的注册语音数据的数量和用户已存储的各个声纹特征向量。

在本实施例中，当确定出上述匹配度大于或等于预设的更新阈值时，则上述电子设备可以获取用户输入的注册语音数据的数量和用户已存储的各个声纹特征向量。当确定出上述匹配度大于或等于预设的更新阈值之后，上述电子设备可以首先获取用户已存储的语音数据的数量，也可以获取状态标记为未使用的语音数据的数量；之后，确定获取到的数量是否大于预设的数量阈值，其中，上述数量阈值可以是预先设置的以供当已存储的语音数据的数量大于数量阈值时对上述注册声纹向量进行更新，若大于预设的数量阈值时，或者当到达预设的时间点时，上述电子设备可以获取上述注册语音数据的数量和上述用户已存储的各个声纹特征向量。

步骤406，对用户已存储的各个声纹特征向量进行数据标准化运算，并对数据标准化运算后的向量进行求和运算，得到用户已存储的声纹特征向量之和。

在本实施例中，上述电子设备可以对上述用户已存储的各个声纹特征向量进行数据标准化运算(或长度归一化运算)，并对数据标准化运算后的向量进行求和运算，得到上述用户已存储的声纹特征向量之和，其中，数据标准化处理主要包括数据同趋化处理和无量纲化处理两个方面。数据同趋化处理主要解决不同性质数据问题，对不同性质指标直接加总不能正确反映不同作用力的综合结果，须先考虑改变逆指标数据性质，使所有指标对测评方案的作用力同趋化，再加总才能得出正确结果。数据无量纲化处理主要解决数据的可比性。数据标准化的方法有很多种，常用的有“最小—最大标准化”、“Z-score标准化”和“按小数定标标准化”等。

步骤407，利用注册语音数据的数量乘以注册声纹向量，得到注册声纹向量之积。

在本实施例中，上述电子设备可以利用上述注册语音数据的数量乘以上述注册声纹向量，得到注册声纹向量之积。

步骤408，计算声纹特征向量之和与注册声纹向量之积的向量和，并计算用户已存储的语音数据的数量与注册语音数据的数量的数量和，利用向量和除以数量和得到更新的注册声纹向量。

在本实施例中，上述电子设备可以计算上述步骤409得到的上述声纹特征向量之和与上述步骤410得到的注册声纹向量之积的向量和，并计算上述用户已存储的语音数据的数量与上述注册语音数据的数量的数量和，利用上述向量和除以上述数量和得到更新的注册声纹向量。具体地，可以通过下述公式2得到更新的注册声纹向量。

其中，V_new为更新的注册声纹向量，n为注册语音数据的数量，V为注册声纹向量，K为已存储的语音数据的数量，v_i为第i个已存储的声纹特征向量，norm(v_i)为对v_i进行数据标准化(长度归一化)操作。

在本实施例的一些可选的实现方式中，当公式2中的K为1时，则上述注册声纹向量可以进行在线的实时更新。

在本实施例的一些可选的实现方式中，在注册声纹向量更新之后，上述电子设备可以将上述用户已存储的语音数据删除，或者将其状态标记为已使用，避免这些已使用的语音数据被反复用于更新。

从图4中可以看出，与图2对应的实施例相比，本实施例中的用于处理语音数据的方法的流程400突出了对注册声纹向量进行更新的具体步骤。由此，本实施例描述的方案可以利用用户注册时输入的语音数据和匹配度大于等于预设的更新阈值的语音数据更新用户的注册声纹向量，从而得到更准确的注册声纹向量。

进一步参考图5，作为对上述各图所示方法的实现，本申请提供了一种用于处理语音数据的装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。如图5所示，本实施例的用于处理语音数据的装置500包括：接收单元501、提取单元502、匹配单元503、第一确定单元504和更新单元505。其中，接收单元501配置用于接收用户终端发送的语音数据；提取单元502配置用于提取语音数据中的声纹特征向量；匹配单元503配置用于将声纹特征向量与预先存储的用户的注册声纹向量进行匹配，并生成声纹特征向量与注册声纹向量之间的匹配度；第一确定单元504配置用于确定所述匹配度是否大于等于预设的更新阈值；更新单元505配置用于响应于确定出所述匹配度大于等于预设的更新阈值，则利用所述声纹特征向量和所述语音数据更新所述注册声纹向量。

在本实施例中，用于处理语音数据的装置500的接收单元501可以通过有线连接方式或者无线连接方式从用户利用其进行用户身份验证的终端接收语音数据，其中，上述语音数据可以是用户根据上述电子设备生成的字符串进行朗读而生成的朗读信息，上述字符串可以是上述电子设备随机生成的字符串，也可以是上述用户在注册用于验证身份的系统账号时所选择的字符串集合中的字符串。

在本实施例中，基于接收单元501接收的语音数据，上述提取单元502可以提取上述语音数据中的声纹特征向量。声纹是用电声学仪器显示的携带言语信息的声波频谱。现代科学研究表明，声纹不仅具有特定性，而且有相对稳定性的特点。声纹特征向量可以是标识用户的声纹频谱特征的向量。

在本实施例中，基于提取单元502提取的声纹特征向量，上述匹配单元503可以将上述声纹特征向量与预先存储的上述用户的注册声纹向量进行匹配，并生成上述声纹特征向量与上述注册声纹向量之间的匹配度。上述预先存储的的注册声纹向量可以是预先生成的注册声纹向量，也可以是更新之后的注册声纹向量。上述注册声纹向量可以是上述电子设备自身生成的，也可以是上述电子设备从其它已经生成上述用户的注册声纹向量的设备上获取到的。上述匹配单元503可以采用曼哈顿距离、闵可夫斯基距离和余弦相似度计算上述声纹特征向量与上述注册声纹向量之间的匹配度。

在本实施例中，基于匹配单元503生成的匹配度，上述第一确定单元504可以将上述匹配度与预设的更新阈值进行比较，确定上述匹配度是否大于或等于上述更新阈值，其中，上述更新阈值是动态的，且个性化的，用户不同，用户所对应的更新阈值也不同，上述更新阈值的设置是为了将预设比例的语音数据和声纹特征向量进行存储，以供上述电子设备根据存储的语音数据和声纹特征向量更新用户的注册声纹向量。

在本实施例中，当确定出上述匹配度大于或等于预设的更新阈值，则上述更新单元505可以利用上述接收单元501接收的语音数据和上述提取单元502提取出的声纹特征向量更新上述用户的注册声纹向量。

在本实施例的一些可选的实现方式中，上述提取单元502可以包括映射模块(图中未示出)和变换模块(图中未示出)。其中，上述映射模块可以将上述语音数据导入预先训练的全局背景模型中进行映射得到中间向量，然后，上述变换模块可以将上述中间向量进行特征变换得到声纹特征向量。在用户语音验证系统中，上述全局背景模型是一个由性别均衡的不同说话者的大量语音样本训练得出的、且与说话者不相关的高斯混合模型，上述全局背景模型可以用来表征语音数据与中间向量的对应关系。

在本实施例的一些可选的实现方式中，用于处理语音数据的装置500还可以包括生成单元(图中未示出)。上述生成单元可以包括获取模块(图中未示出)，映射模块(图中未示出)，变换模块(图中未示出)和融合模块(图中未示出)。其中，上述获取模块可以获取用户在注册用于验证身份的系统账号时输入的预设数目个注册语音数据，其中，上述注册语音数据可以是用户根据上述电子设备生成的字符串进行朗读而生成的朗读信息；上述映射模块可以将上述预设数目个注册语音数据导入预先训练的全局背景模型中进行映射得到预设数目个等长的中间向量，上述全局背景模型是一个由性别均衡的不同说话者的大量语音样本训练得出的、且与说话者不相关的高斯混合模型，上述全局背景模型可以用来表征语音数据与中间向量的对应关系；上述变换模块可以通过联合因子分析方法、概率线性判别分析算法和辨识矢量等算法对上述预设数目个等长的中间向量进行特征变换得到预设数目个注册声纹特征向量；上述融合模块对上述预设数目个注册声纹特征向量进行融合，生成上述用户的注册声纹向量。

在本实施例的一些可选的实现方式中，上述更新单元505还可以包括获取模块(图中未示出)和更新模块(图中未示出)。其中，上述获取模块可以获取上述注册语音数据的数量和上述用户已存储的各个声纹特征向量；上述更新模块可以根据上述用户已存储的各个声纹特征向量、上述用户已存储的语音数据的数量、上述注册语音数据的数量和上述注册声纹向量，更新注册声纹向量。

在本实施例的一些可选的实现方式中，上述更新模块可以包括第一计算子模块(图中未示出)，第二计算子模块(图中未示出)和更新子模块(图中未示出)。其中，上述第一计算子模块可以对上述用户已存储的各个声纹特征向量进行数据标准化运算，并对数据标准化运算后的向量进行求和运算，得到上述用户已存储的声纹特征向量之和；上述第二计算子模块可以利用上述注册语音数据的数量乘以上述注册声纹向量，得到注册声纹向量之积；上述更新子模块可以计算上述第一计算子模块得到的上述声纹特征向量之和与上述第二计算子模块得到的注册声纹向量之积的向量和，并计算上述用户已存储的语音数据的数量与上述注册语音数据的数量的数量和，利用上述向量和除以上述数量和得到更新的注册声纹向量。

在本实施例的一些可选的实现方式中，在注册声纹向量更新之后，上述更新单元可以将上述用户已存储的语音数据删除，或者将其状态标记为已使用，避免这些已使用的语音数据被反复用于更新。

在本实施例的一些可选的实现方式中，上述获取模块可以包括第一获取子模块(图中未示出)和第一删除子模块(图中未示出)。其中，上述第一获取子模块可以获取上述用户已存储的语音数据以及该语音数据的相关信息，其中，上述相关信息包括语音数据的输入时间点；之后，上述第一删除子模块可以删除上述输入时间点早于预设的时间分割点的语音数据，并将删除后的语音数据作为注册语音数据，并利用该注册语音数据生成注册声纹向量。

在本实施例的一些可选的实现方式中，上述获取模块还可以包括生成子模块(图中未示出)，第二获取子模块(图中未示出)，计算子模块(图中未示出)和第二删除子模块(图中未示出)。其中，上述生成子模块可以利用聚类算法对上述用户已存储的语音数据进行聚类，生成至少一个已存储的语音数据的簇，其中，上述聚类算法可以包括基于划分聚类算法、基于层次聚类算法和基于密度聚类算法等；之后，上述第二获取子模块可以获取各个簇的中心点，以k-means算法为例，在给定K值和K个簇的初始中心点的情况下，把每个点分到离其最近的中心点所代表的簇中，当所有点分配完毕后，对一个簇中的所有点重新计算(例如计算平均值)得到该簇的中心点，然后再迭代的进行分配点和更新簇的中心点的步骤，直至簇的中心点的变化很小，或者达到指定的迭代次数，再获取各个簇中的中心点；然后，上述计算子模块可以利用距离算法计算每个已存储的语音数据与每个已存储的语音数据所在簇的中心点的距离，其中，上述距离算法可以包括欧式距离算法；最后，上述第二删除子模块可以将上述距离大于预设的距离阈值的语音数据删除，并将删除后的语音数据作为注册语音数据，并利用该注册语音数据生成注册声纹向量。

在本实施例的一些可选的实现方式中，上述相关信息可以包括语音数据的采集设备类型，例如，手机、电脑和智能手表等等，上述相关信息还可以包括语音数据的输入地点，可以按照外界环境噪声的大小将输入地点划分为噪声大的场所，例如，地铁、商场、娱乐场所等，和噪声大的场所，例如图书馆、教室等。用于处理语音数据的装置500还可以包括第一获取单元(图中未示出)和重新生成单元(图中未示出)。其中，上述第一获取单元可以获取各个簇中的语音数据以及该语音数据的相关信息，之后，上述重新生成单元可以利用各个簇的语音数据重新生成上述用户的各个注册声纹向量，并根据上述各个簇的语音数据的相关信息生成各个注册声纹向量的相关信息。

在本实施例的一些可选的实现方式中，用于处理语音数据的装置500还可以包括第二获取单元(图中未示出)，上述第二获取单元在处理语音数据时，还可以获取语音数据的相关信息；上述匹配单元503可以包括选择模块(图中未示出)和匹配模块(图中未示出)，根据上述语音数据的相关信息与上述用户的各个注册声纹向量的相关信息的匹配度，上述选择模块可以选择注册声纹向量，例如，当获取到语音数据的输入地点为酒吧时，则可以选择相关信息中包含噪声大的场所的注册声纹向量，当获取到语音数据的采集设备为智能手表时，则可以选择相关信息中包含智能手表的注册声纹向量；最后，上述匹配模块可以将该声纹特征向量与所选择的注册声纹向量进行匹配，得到匹配结果。

在本实施例的一些可选的实现方式中，用于处理语音数据的装置500还可以包括第二确定单元(图中未示出)和执行单元(图中未示出)。其中，当上述第二确定单元确定出上述匹配度大于或等于预设的通过阈值，则上述执行单元可以确定上述用户身份验证通过，并执行与验证通过相对应的操作，例如，当用户在进行登录网站时的身份验证时，可以向上述用户返回登录成功的页面；当用户在进行密码锁的解锁操作时，可以解开密码锁。

下面参考图6，其示出了适于用来实现本发明实施例的服务器的计算机系统600的结构示意图。

如图6所示，计算机系统600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM603中，还存储有系统600操作所需的各种程序和数据。CPU601、ROM602以及RAM603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，上述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括接收单元、提取单元、匹配单元、第一确定单元和更新单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。例如，接收单元还可以被描述为“接收用户终端发送的语音数据的单元”。

作为另一方面，本发明还提供了一种非易失性计算机存储介质，该非易失性计算机存储介质可以是上述实施例中上述装置中所包含的非易失性计算机存储介质；也可以是单独存在，未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质存储有一个或者多个程序，当上述一个或者多个程序被一个设备执行时，使得上述设备：接收用户终端发送的语音数据；提取语音数据中的声纹特征向量；将声纹特征向量与预先存储的用户的注册声纹向量进行匹配，并生成声纹特征向量与注册声纹向量之间的匹配度；确定匹配度是否大于等于预设的更新阈值；响应于确定出匹配度大于等于预设的更新阈值，则利用声纹特征向量和语音数据更新注册声纹向量。

以上描述仅为本发明的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本发明中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种用于处理语音数据的方法，其特征在于，所述方法包括：

接收用户终端发送的语音数据；

提取所述语音数据中的声纹特征向量；

将所述声纹特征向量与预先存储的所述用户的注册声纹向量进行匹配，并生成所述声纹特征向量与所述注册声纹向量之间的匹配度；

确定所述匹配度是否大于等于预设的更新阈值；

响应于确定出所述匹配度大于等于预设的更新阈值，则利用所述声纹特征向量和所述语音数据更新所述注册声纹向量；其中，

所述利用所述声纹特征向量和所述语音数据更新所述注册声纹向量包括：

获取用户输入的注册语音数据的数量和所述用户已存储的各个声纹特征向量；

根据所述用户已存储的各个声纹特征向量、所述用户已存储的语音数据的数量、所述注册语音数据的数量和所述注册声纹向量，更新注册声纹向量。

2.根据权利要求1所述的方法，其特征在于，所述提取所述语音数据中的声纹特征向量，包括：

将所述语音数据导入预先训练的全局背景模型中进行映射得到中间向量；

将所述中间向量进行特征变换得到声纹特征向量。

3.根据权利要求1所述的方法，其特征在于，在所述将所述声纹特征向量与预先存储的所述用户的注册声纹向量进行匹配之前，所述方法还包括生成注册声纹向量的步骤，包括：

获取所述用户输入的预设数目个注册语音数据；

将所述预设数目个注册语音数据导入预先训练的全局背景模型中进行映射得到预设数目个等长的中间向量；

对所述预设数目个等长的中间向量进行特征变换得到预设数目个注册声纹特征向量；

对所述预设数目个注册声纹特征向量进行融合，生成所述用户的注册声纹向量。

4.根据权利要求1所述的方法，其特征在于，所述根据所述用户已存储的各个声纹特征向量、所述用户已存储的语音数据的数量、所述注册语音数据的数量和所述注册声纹向量，更新注册声纹向量，包括：

对所述用户已存储的各个声纹特征向量进行数据标准化运算，并对数据标准化运算后的向量进行求和运算，得到所述用户已存储的声纹特征向量之和；

利用所述注册语音数据的数量乘以所述注册声纹向量，得到注册声纹向量之积；

计算所述声纹特征向量之和与所述注册声纹向量之积的向量和，并计算所述用户已存储的语音数据的数量与所述注册语音数据的数量的数量和，利用所述向量和除以所述数量和得到更新的注册声纹向量。

5.根据权利要求1所述的方法，其特征在于，在所述更新注册声纹向量之后，所述方法包括：

删除所述用户已存储的语音数据。

6.根据权利要求3所述的方法，其特征在于，所述获取所述用户输入的预设数目个注册语音数据，包括：

获取所述用户已存储的语音数据以及所述语音数据的相关信息，其中，所述相关信息包括语音数据的输入时间点；

删除所述输入时间点早于预设的时间分割点的语音数据，并将删除后的语音数据作为注册语音数据。

7.根据权利要求3所述的方法，其特征在于，所述获取所述用户输入的预设数目个注册语音数据，还包括：

利用聚类算法对所述用户已存储的语音数据进行聚类，生成至少一个已存储的语音数据的簇；

获取各个簇的中心点；

利用距离算法计算每个已存储的语音数据与每个已存储的语音数据所在簇的中心点的距离；

删除所述距离大于预设的距离阈值的语音数据，并将删除后的语音数据作为注册语音数据。

8.根据权利要求7所述的方法，其特征在于，语音数据的相关信息还包括以下至少一项：语音数据的采集设备类型、语音数据的输入地点；以及在所述生成至少一个已存储的语音数据的簇之后，所述方法还包括：

获取各个簇中的语音数据以及所述各个簇中的语音数据的相关信息；

利用各个簇的语音数据重新生成所述用户的各个注册声纹向量，并根据所述各个簇的语音数据的相关信息生成各个注册声纹向量的相关信息。

9.根据权利要求8所述的方法，其特征在于，在所述接收用户终端发送的语音数据之后，所述方法还包括：

获取所述语音数据的相关信息；以及所述将所述声纹特征向量与预先生成的所述用户的注册声纹向量进行匹配，包括：

根据所述语音数据的相关信息与各个注册声纹向量的相关信息的匹配度，选择注册声纹向量；

将所述声纹特征向量与选择的注册声纹向量进行匹配。

10.根据权利要求1所述的方法，其特征在于，在所述生成所述声纹特征向量与所述注册声纹向量之间的匹配度之后，所述方法还包括：

确定所述匹配度是否大于等于预设的通过阈值；

响应于确定出所述匹配度大于等于预设的通过阈值，则确定用户身份验证通过并执行与验证通过相对应的操作。

11.一种用于处理语音数据的装置，其特征在于，所述装置包括：

接收单元，配置用于接收用户终端发送的语音数据；

提取单元，配置用于提取所述语音数据中的声纹特征向量；

匹配单元，配置用于将所述声纹特征向量与预先存储的所述用户的注册声纹向量进行匹配，并生成所述声纹特征向量与所述注册声纹向量之间的匹配度；

第一确定单元，配置用于确定所述匹配度是否大于等于预设的更新阈值；

更新单元，配置用于响应于确定出所述匹配度大于等于预设的更新阈值，则利用所述声纹特征向量和所述语音数据更新所述注册声纹向量；其中，

所述更新单元包括：

获取模块，配置用于获取用户输入的注册语音数据的数量和所述用户已存储的各个声纹特征向量；

更新模块，配置用于根据所述用户已存储的各个声纹特征向量、所述用户已存储的语音数据的数量、所述注册语音数据的数量和所述注册声纹向量，更新注册声纹向量。

12.根据权利要求11所述的装置，其特征在于，所述提取单元包括：

映射模块，配置用于将所述语音数据导入预先训练的全局背景模型中进行映射得到中间向量；

变换模块，配置用于将所述中间向量进行特征变换得到声纹特征向量。

13.根据权利要求11所述的装置，其特征在于，所述装置还包括生成单元，包括：

获取模块，配置用于获取所述用户输入的预设数目个注册语音数据；

映射模块，配置用于将所述预设数目个注册语音数据导入预先训练的全局背景模型中进行映射得到预设数目个等长的中间向量；

变换模块，配置用于对所述预设数目个等长的中间向量进行特征变换得到预设数目个注册声纹特征向量；

融合模块，配置用于对所述预设数目个注册声纹特征向量进行融合，生成所述用户的注册声纹向量。

14.根据权利要求11所述的装置，其特征在于，所述更新模块包括：

第一计算子模块，配置用于对所述用户已存储的各个声纹特征向量进行数据标准化运算，并对数据标准化运算后的向量进行求和运算，得到所述用户已存储的声纹特征向量之和；

第二计算子模块，配置用于利用所述注册语音数据的数量乘以所述注册声纹向量，得到注册声纹向量之积；

更新子模块，配置用于计算所述声纹特征向量之和与所述注册声纹向量之积的向量和，并计算所述用户已存储的语音数据的数量与所述注册语音数据的数量的数量和，利用所述向量和除以所述数量和得到更新的注册声纹向量。

15.根据权利要求11所述的装置，其特征在于，所述更新单元进一步配置用于：

删除所述用户已存储的语音数据。

16.根据权利要求13所述的装置，其特征在于，所述获取模块包括：

第一获取子模块，配置用于获取所述用户已存储的语音数据以及所述语音数据的相关信息，其中，所述相关信息包括语音数据的输入时间点；

第一删除子模块，配置用于删除所述输入时间点早于预设的时间分割点的语音数据，并将删除后的语音数据作为注册语音数据。

17.根据权利要求13所述的装置，其特征在于，所述获取模块包括：

生成子模块，配置用于利用聚类算法对所述用户已存储的语音数据进行聚类，生成至少一个已存储的语音数据的簇；

第二获取子模块，配置用于获取各个簇的中心点；

计算子模块，配置用于利用距离算法计算每个已存储的语音数据与每个已存储的语音数据所在簇的中心点的距离；

第二删除子模块，配置用于删除所述距离大于预设的距离阈值的语音数据，并将删除后的语音数据作为注册语音数据。

18.根据权利要求17所述的装置，其特征在于，语音数据的相关信息还包括以下至少一项：语音数据的采集设备类型、语音数据的输入地点；以及所述装置还包括：

第一获取单元，配置用于获取各个簇中的语音数据以及所述各个簇中的语音数据的相关信息；

重新生成单元，配置用于利用各个簇的语音数据重新生成所述用户的各个注册声纹向量，并根据所述各个簇的语音数据的相关信息生成各个注册声纹向量的相关信息。

19.根据权利要求18所述的装置，其特征在于，所述装置还包括：

第二获取单元，配置用于获取所述语音数据的相关信息；以及所述匹配单元包括：

选择模块，配置用于根据所述语音数据的相关信息与各个注册声纹向量的相关信息的匹配度，选择注册声纹向量；

匹配模块，配置用于将所述声纹特征向量与选择的注册声纹向量进行匹配。

20.根据权利要求11所述的装置，其特征在于，所述装置还包括：

第二确定单元，配置用于确定所述匹配度是否大于等于预设的通过阈值；

执行单元，配置用于响应于确定出所述匹配度大于等于预设的通过阈值，则确定用户身份验证通过并执行与验证通过相对应的操作。