CN104184587A

CN104184587A - 声纹生成方法、服务器、客户端及系统

Info

Publication number: CN104184587A
Application number: CN201410389788.XA
Authority: CN
Inventors: 龙强; 张翔
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd; Tencent Cloud Computing Beijing Co Ltd
Priority date: 2014-08-08
Filing date: 2014-08-08
Publication date: 2014-12-03
Anticipated expiration: 2034-08-08
Also published as: CN104184587B

Abstract

本发明公开了一种声纹生成方法、服务器、客户端及系统，属于计算机技术领域。所述方法包括：获取操作客户端的合法用户的合法用户信息；获取与合法用户信息相关的注册语料；向客户端发送注册语料；分预设次数获取合法用户根据注册语料输入的注册声音数据，得到预设次数个注册声音数据；根据预设次数个注册声音数据生成注册声纹。本发明通过获取合法用户的合法用户信息，并获取与合法用户信息相关的注册语料来触发声纹生成过程。由于注册语料为与合法用户的合法用户信息相关的语料，因此，能成功获取到合法用户根据与其合法用户信息相关的注册语料输入的注册声音数据，不仅能增加声纹生成的成功率，而且使得声纹生成方法更具灵活性。

Description

声纹生成方法、服务器、客户端及系统

技术领域

本发明涉及计算机技术领域，特别涉及一种声纹生成方法、服务器、客户端及系统。

背景技术

为了保障用户信息或用户财产的安全，很多应用场景均需要对用户进行身份验证。例如，各种社交应用软件的客户端、银行应用软件的客户端在操作时均需要对操作客户端的用户进行身份验证。由于不同用户的声音往往具有不同的特征，因此，在进行身份验证时，可以根据不同用户的声音数据生成声纹，从而通过声纹对用户进行身份验证，而为了实现声纹验证，需要先生成声纹。

相关技术在生成声纹时，所采取的方法为：服务器向客户端发送预设注册语料；客户端接收该预设注册语料，分预设次数获取合法用户根据该预设注册语料输入的注册声音数据，得到预设次数个注册声音数据，并将该预设次数个注册声音数据提交至服务器；服务器接收客户端提交的预设次数个注册声音数据，并根据该预设数值个注册声音数据生成注册声纹。在后续通过声纹验证实现身份验证时，每次均使用该注册声纹实现。

在实现本发明的过程中，发明人发现相关技术至少存在以下问题：

对于不同用户的客户端，相关技术在生成声纹时，服务器均会通过向不同用户对应的客户端发送相同的预设注册语料来触发声纹生成过程。然而，由于不同用户的喜好、地域等信息各不相同，因此，向不同客户端下发相同的预设注册语料时，可能出现客户端不能根据该预设注册语料获取合法用户输入的注册声音数据，不仅可能导致声纹生成失败，使得声纹生成的成功率不高，而且声纹生成方法不够灵活。

发明内容

为了解决相关技术的问题，本发明实施例提供了一种声纹生成方法、服务器、客户端及系统。所述技术方案如下：

第一方面，提供了一种声纹生成方法，所述方法包括：

获取操作客户端的合法用户的合法用户信息；

获取与所述合法用户信息相关的注册语料，并向所述客户端发送所述注册语料；

分预设次数获取所述合法用户根据所述注册语料输入的注册声音数据，得到预设次数个注册声音数据；

根据所述预设次数个注册声音数据生成注册声纹。

第二方面，提供了一种声纹生成方法，所述方法包括：

接收服务器发送的与操作客户端的合法用户的合法用户信息相关的注册语料；

将所述预设次数个注册声音数据提交至所述服务器，使所述服务器根据所述预设次数个注册声音数据生成注册声纹。

第三方面，提供了一种声纹生成服务器，所述服务器包括：

第一获取模块，用于获取操作客户端的合法用户的合法用户信息；

第二获取模块，用于获取与所述合法用户信息相关的注册语料；

发送模块，用于向所述客户端发送所述注册语料；

第三获取模块，用于分预设次数获取所述合法用户根据所述注册语料输入的注册声音数据，得到预设次数个注册声音数据；

生成模块，用于根据所述预设次数个注册声音数据生成注册声纹。

第四方面，提供了一种客户端，所述客户端包括：

接收模块，用于接收服务器发送的与操作客户端的合法用户的合法用户信息相关的注册语料；

获取模块，用于分预设次数获取所述合法用户根据所述注册语料输入的注册声音数据，得到预设次数个注册声音数据；

提交模块，用于将所述预设次数个注册声音数据提交至所述服务器，使所述服务器根据所述预设次数个注册声音数据生成注册声纹。

第五方面，提供了一种声纹生成系统，所述系统包括服务器和客户端；

其中，所述服务器如上述第三方面所述的服务器；

所述客户端如上述第四方面所述的客户端。

本发明实施例提供的技术方案带来的有益效果是：

通过获取合法用户的合法用户信息，并获取与合法用户信息相关的注册语料来触发声纹生成过程。由于注册语料为与合法用户的合法用户信息相关的语料，因此，能成功获取到合法用户根据与其合法用户信息相关的注册语料输入的注册声音数据，不仅能增加声纹生成的成功率，而且使得声纹生成方法更具灵活性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种声纹生成方法所涉及的实施环境示意图；

图2是本发明另一实施例提供的一种声纹生成方法的流程图；

图3是本发明另一实施例提供的一种声纹生成方法的流程图；

图4是本发明另一实施例提供的一种声纹生成方法的流程图；

图5是本发明另一实施例提供的一种存储的注册声音数据及验证声音数据及每个验证声音数据对应的属性信息的示意图；

图6是本发明另一实施例提供的一种筛选进化声音数据的示意图；

图7本发明另一实施例提供的一种根据拼接的注册声音数据和进化声音数据生成进化声纹的过程示意图；

图8本发明另一实施例提供的一种服务器的结构示意图；

图9本发明另一实施例提供的一种服务器的结构示意图；

图10本发明另一实施例提供的一种客户端的结构示意图；

图11本发明另一实施例提供的一种客户端的结构示意图；

图12本发明另一实施例提供的一种声纹生成系统的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

如图1所示，其示出了本发明实施例提供的声纹生成方法所涉及的实施环境示意图。如图1所示，该实施环境包括服务器101和客户端102。其中，服务器101和客户端102通过无线网络或有线网络连接。

当需要通过声纹实现身份验证时，需要先生成操作客户端102的合法用户的声纹。其中，在生成合法用户的声纹时，服务器101通过向客户端102发送与合法用户的合法用户信息相关的注册语料来触发。客户端102接收该注册语料后，获取合法用户根据该注册语料输入的注册声音数据，并将获取到的注册声音数据提交至服务器101，服务器101根据该注册语料生成合法用户的声纹。

其中，客户端102可以是任何需要对操作该客户端102的当前用户通过声纹实现身份验证的客户端，包括但不限于社交应用客户端，财产账户客户端，等等。服务器101为与客户端102对应，且能够为客户端102提供对应服务的服务器。具体的声纹生成方法详见下述各个实施例：

图2是根据一示例性实施例提供的一种声纹生成方法的流程图。以服务器执行本发明实施例提供的方法的角度为例，参见图2，本发明实施例提供的方法流程包括：

201：获取操作客户端的合法用户的合法用户信息。

202：获取与合法用户信息相关的注册语料。

203：向客户端发送注册语料。

204：分预设次数获取合法用户根据注册语料输入的注册声音数据，得到预设次数个注册声音数据。

可选地，分预设次数获取合法用户根据注册语料输入的注册声音数据，包括：

分预设次数获取客户端分片提交的合法用户每次根据注册语料输入的注册语音数据；

拼接客户端分片提交的合法用户每次根据注册语料输入的注册语音数据，得到合法用户每次根据注册语料输入的注册语音数据；

组合合法用户每次根据注册语料输入的注册语音数据，得到预设次数个合法用户根据注册语料输入的注册声音数据。

可选地，得到预设次数个注册声音数据之后，还包括：

确定预设次数个注册声音数据之间的相似度分值是否达到声纹注册相似度分值；

如果预设次数个注册声音数据之间的相似度分值达到声纹注册相似度分值，则执行根据预设次数个注册声音数据生成注册声纹的步骤。

205：根据预设次数个注册声音数据生成注册声纹。

可选地，根据预设次数个注册声音数据生成注册声纹，包括：

拼接预设次数个注册声音数据；

根据拼接后的注册声音数据生成注册声纹。

可选地，根据预设次数个注册声音数据生成注册声纹之后，还包括：

存储注册语料、预设次数个注册声音数据及注册声纹，并形成注册语料、预设次数个注册声音数据及注册声纹的映射关系。

可选地，存储注册语料、预设次数个注册声音数据及注册声纹，包括：

对注册语料、预设次数个注册声音数据及注册声纹进行加密，并存储加密后的注册语料、预设次数个注册声音数据及注册声纹。

确定是否需要进化注册声纹；

如果确定需要进化注册声纹，则获取预设数值个进化声音数据，其中，预设数值个进化声音数据为根据每次使用注册声纹进行声纹验证，且每次声纹验证通过后存储的验证声音数据筛选的至少一个验证声音数据；

根据预设次数个注册声音数据和预设数值个进化声音数据进化注册声纹，得到进化声纹，并使用进化声纹进行后续的声纹验证。

可选地，确定是否需要进化注册声纹，包括：

确定是否接收到客户端发送的声纹进化请求；

如果接收到客户端发送的声纹进化请求，则确定需要进化注册声纹。

可选地，确定是否需要进化注册声纹，包括：

确定是否达到自动进化注册声纹的预设条件；

如果确定达到自动进化注册声纹的预设条件，则确定需要进化注册声纹。

可选地，获取预设数值个进化声音数据，包括：

获取每次声纹验证通过后存储的验证声音数据以及每个验证声音数据的属性信息；

根据每个验证声音数据的属性信息筛选预设数值个满足声纹进化条件的验证声音数据，将预设数值个满足声纹进化条件的验证声音数据作为预设数值个进化声音数据。

本发明实施例提供的方法，通过获取合法用户的合法用户信息，并获取与合法用户信息相关的注册语料来触发声纹生成过程。由于注册语料为与合法用户的合法用户信息相关的语料，因此，能成功获取到合法用户根据与其合法用户信息相关的注册语料输入的注册声音数据，不仅能增加声纹生成的成功率，而且使得声纹生成方法更具灵活性。

图3是根据一示例性实施例提供的一种声纹生成方法的流程图。以客户端执行本发明实施例提供的方法的角度为例，参见图3，本发明实施例提供的方法流程包括：

301：接收服务器发送的与操作客户端的合法用户的合法用户信息相关的注册语料。

302：分预设次数获取合法用户根据注册语料输入的注册声音数据，得到预设次数个注册声音数据。

303：将预设次数个注册声音数据提交至服务器，使服务器根据预设次数个注册声音数据生成注册声纹。

可选地，将预设次数个注册声音数据提交至服务器，包括：

分预设次数对合法用户每次根据注册语料输入的注册语音数据进行分片；

将合法用户每次根据注册语料输入的注册语音数据分片提交至服务器，使服务器分片获取合法用户每次根据注册语料输入的注册语音数据，并组合合法用户每次根据注册语料输入的注册语音数据，得到预设次数个合法用户根据注册语料输入的注册声音数据。

可选地，方法还包括：

确定是否需要进化注册声纹；

如果确定需要进化注册声纹，则向服务器发送进化注册声纹的声纹进化请求，使服务器根据声纹进化请求进化注册声纹。

本发明实施例提供的方法，通过接收服务器发送的与合法用户的合法用户信息相关的注册语料，并获取合法用户根据注册语料输入的注册声音数据后，向服务器提交获取到的合法用户根据注册语料输入的注册声音数据，并根据注册声音数据生成注册声纹。由于注册语料为与合法用户的合法用户信息相关的语料，因此，能成功获取到合法用户根据与其合法用户信息相关的注册语料输入的注册声音数据，不仅能增加服务器生成声纹的成功率，而且使得声纹生成方法更具灵活性。

图4是根据一示例性实施例提供的一种声纹生成方法的流程图。以服务器和客户端进行交互来实现本发明实施例提供的方法为例，参见图4，本发明实施例提供的方法流程包括：

401：服务器获取操作客户端的合法用户的合法用户信息，并获取与合法用户信息相关的注册语料，向客户端发送注册语料。

为了保证在生成注册声纹时，向操作客户端的合法用户展示的注册语料是合法用户感兴趣的内容，使得能够顺利生成合法用户的注册声纹，在生成注册声纹时，服务器可以获取合法用户的合法用户信息，并获取与合法用户信息相关的注册语料，从而向客户端发送与其用户信息相关的注册语料来触发声纹生成过程。

其中，本发明实施例不对合法用户信息的具体内容进行限定。具体实施时，合法用户信息包括但不限于为合法用户的爱好信息、地域信息，等等。例如，如果合法用户爱好数学，则服务器下发的注册语料可以为数字。又例如，如果合法用户为英国人，则服务器下发的注册语料可以为英文字母、英文短语、英文句子，等等。

本发明实施例不对注册语料的具体内容进行限定，具体实施时，注册语料可以为诗词歌赋、随机数字、随机字母、随机词语组合、名词名句，等等。例如，注册语料可以为“0-9”这十个数字，也可以“白日依山尽，黄河入海流”，还可以为“A-H”等。当然，注册语料还可以为诗词歌赋、随机数字、随机字母、随机词语、名词名句中的至少两种的组合，等等。

关于服务器向客户端发送注册语料的方式，本发明实施例不作具体限定。服务器通过根据合法用户的合法用户信息向客户端发送与合法用户信息相关的注册语料，使得不同用户可以使用不同类型的注册语料，不仅选择注册语料的方式灵活多变，而且保证后续生成的注册声纹差异比较大，从而便于后续的声纹验证。

需要说明的是，注册语料的具体内容与后续将注册声纹作为声纹验证的参考时，服务器向客户端下发的验证语料的具体内容有关。具体地，验证语料为与注册语料中的全部字符一致的字符串、或者为与注册语料中的部分字符一致的字符串、或者为注册语料中的全部字符组成的倒序字符串、或者为注册语料中的部分字符组成的倒序字符串、或者为注册语料中的全部字符组成的乱序字符串、或者为注册语料中的部分字符组成的乱序字符串、或者为注册语料中的至少一个字符组成的重复字符串中的一种字符串。

例如，如果注册语料为“0-9”这十个数字，则后续以生成的注册声纹为参考进行声纹验证时使用的验证语料可以为“0-9”这十个数字；也可以是“0-9”这十个数字中的任意几个数字，如“0-7”、“02468”；还可以是“0-9”这十个数字中的全部或部分数字的倒序字符串，如“9-0”、“7-0”、“86420”；还可以是“0-9”这十个数字中的全部或部分数字组成的乱序字符串，如“3698521470”、“257369”；还可以是验证语料中的至少一个字符组成的重复字符串，如“000111”、“115577”等。当然，该举例仅以注册语料为数字时，验证语料的可能形式进行了举例说明。具体实施时，当注册语料为字母、数字、诗词等文本的组合形式时，验证语料的形式与当注册语料为数字时的形式类似，此处不再举例说明。

402：客户端接收服务器发送的注册语料，分预设次数获取合法用户根据注册语料输入的注册声音数据，得到预设次数个注册声音数据，将预设次数个注册声音数据提交至服务器。

关于客户端接收服务器发送的注册语料的方式，本发明实施例不作具体限定。另外，本发明实施例同样不对客户端获取合法用户根据注册语料输入的注册声音数据的方式进行限定。具体实施时，在合法用户根据注册语料输入注册声音数据时，客户端通过录制合法用户输入的声音数据来实现。具体地，在录制注册声音数据时，可以先获取麦克风或话筒的启动指令，并根据麦克风或话筒的启动指令录制合法用户根据注册语料输入的声音数据。其中，获取麦克风或话筒的启动指令的方式可以有很多种，具体实施时，包括但不限于通过检测麦克风或话筒被长按来实现。

为了使得生成的注册声纹更加准确，以便于后续可以顺利根据生成的注册声纹进行声纹验证，客户端可以分预设次数获取合法用户根据注册语料输入的注册声音数据，从而得到合法用户的预设次数个注册声音数据。关于预设次数的具体数值，本发明实施例不作具体限定。具体实施时，可以根据需要设定。然而，为了使得生成的注册声纹更加准确，从而使得声纹验证的可靠性更高，该预设次数可以为两次，也可以为三次，等等。

关于将预设次数个注册声音数据提交至服务器的方式，本发明实施不作具体限定。具体实施时，由于声音数据比较大，因此，在提交每次获取到的注册声音数据之前，可以对每次获取到的注册声音数据进行分片。因此，在将预设次数个注册声音数据提交至服务器时，可以分预设次数对合法用户每次根据注册语料输入的注册语音数据进行分片；将合法用户每次根据注册语料输入的注册语音数据分片提交至服务器，使得服务器分预设次数获取客户端分片提交的合法用户每次根据注册语料输入的注册语音数据，并组合合法用户每次根据注册语料输入的注册语音数据，得到预设次数个合法用户根据注册语料输入的注册声音数据。

其中，在对合法用户每次根据注册语料输入的注册语音数据进行分片时，可以将合法用户每次根据注册语料输入的注册声音数据切分为相等大小的声音数据，也可以切分为不等大小的声音数据。本发明实施例不对切分后的声音数据的具体大小进行限定。例如，可以将合法用户某一次根据注册语料输入的注册声音数据切分为相等大小的三等份，得到声音数据1、声音数据2和声音数据3，因此，客户端在向服务器提交该次获取到的注册声音数据时，分别提交声音数据1、声音数据2和声音数据3。

另外，针对于不同次数获取到的合法用户的注册声音数据，可以切分同样的次数，也可以切分不同的次数，本发明实施例对此不作具体限定。具体实施时，可以根据每次获取到的注册声音数据的时长等特征决定。例如，可以将第一次获取到的注册声音数据切分3次，而将第二次获取到的注册声音数据切分4次，等等。

客户端在将预设次数个声音数据提交至服务器时，可以采用很多种方式。例如，客户端在录制合法用户的注册声音数据时，可以在录制注册声音数据的页面提供提交选项，客户端通过检测该提交选项是否被选中来确定是否将该次录制的注册声音数据提交至服务器。当客户端检测到提交选项被选中后，触发将该次录制的注册声音数据提交至服务器。

可选地，为了确保能够在安静的环境下获取合法用户的注册声音数据，以避免周围噪音或其它声音的干扰，保证获取到的合法用户的注册声音数据的质量比较高，客户端在获取合法用户根据注册语料输入的注册声音数据之前，还可以：检测周围环境音量是否满足注册声音数据的获取条件；如果周围环境音量满足注册声音数据的获取条件，则获取合法用户根据注册语料输入的注册声音数据；如果周围环境音量不满足注册声音数据的获取条件，则可以向客户端发送提示信息，以提示用户当前环境不满足注册声音数据的获取条件，需要到安静环境中获取注册声音数据。关于向客户端发送提示信息的方式，本发明实施例不作具体限定。

关于客户端检测周围环境音量是否满足注册声音数据的获取条件的方式，包括但不限于：检测周围环境音量是否达到预设阈值，如果周围环境音量未达到该预设阈值，则确定周围环境音量满足注册声音数据的获取条件。其中，周围环境音量可以是环境噪音，也可以是多个其他用户说话的声音，等等。另外，本发明实施例不对周围环境音量的预设阈值的数值大小进行限定，具体实施时，可以根据需要设定。

另外，为了保证获取到的注册声音数据确实为合法用户的声音数据，在分预设次数获取合法用户根据注册语料输入的注册声音数据之前，客户端还需要检测客户端所在的设备是否为预先认证的安全设备，且如果客户端所在的设备是否为预先认证的安全设备，则确定可以获取到合法用户的注册声音数据；否则，需要进一步验证客户端当前所在的设备是否为安全设备。

关于检测客户端所在的设备是否为预先认证的安全设备的方式，包括但不限于通过获取客户端所在的终端的标识，并将客户端所在的终端的标识与预先认证的安全设备的标识进行比对来实现。其中，获取到的客户端所在的终端的标识包括但不限于客户端所在的终端的IMEI(International Mobile EquipmentIdentification Number，国际移动设备识别码)等。另外，在获取客户端的合法用户的注册声音数据时，当检测到客户端所在的终端为预先认证的安全设备时，默认操作客户端的当前用户为操作客户端的合法用户。

进一步地，在检测客户端所在的终端是否为预先认证的安全设备之前，服务器需要预先认证安全设备。关于服务器预先认证安全设备的方式，包括但不限于通过确定该客户端在某一终端成功登录的次数是否达到预设次数来实现。如果确定该客户端在某一终端成功登录的次数达到预设次数，则将该终端认证为安全设备。其中，本发明实施例不对预设次数的具体数值进行限定，具体实施时，为了保证认证的安全设备的可靠性更高，该预设次数设置的越大越好。

403：服务器分预设次数获取合法用户根据注册语料输入的注册声音数据，得到预设次数个注册声音数据。

关于服务器分预设次数获取合法用户根据注册语料输入的注册声音数据的方式，包括但不限于：分预设次数获取客户端分片提交的合法用户每次根据注册语料输入的注册语音数据；拼接客户端分片提交的合法用户每次根据注册语料输入的注册语音数据，得到合法用户每次根据注册语料输入的注册语音数据；组合合法用户每次根据注册语料输入的注册语音数据，得到预设次数个合法用户根据注册语料输入的注册声音数据。关于拼接客户端分片提交的合法用户每次根据注册语料输入的注册语音数的方式，以及组合合法用户每次根据注册语料输入的注册语音数据的方式，本发明实施例均不作具体限定。

可选地，为了确定获取到的注册声音数据是否能够作为生成注册声纹的可用声音数据，服务器在每次获取到注册声音数据后，还可以确定每次获取到的注册声音数据是否满足预设条件。其中，本发明实施例不对预设条件的具体内容进行限定，具体实施时，预设条件可以为每个注册声音数据的持续时间是否达到预设时长，等等。另外，需要说明的是，如果该预设条件为每个注册声音数据的持续时间是否达到预设时长，则在设定该预设时长时，需要结合注册语料的具体内容而定。例如，如果根据统计经验确定普通用户读完注册语料的时长为30s(秒)，则该预设时长可以设置为25s。此时，当确定注册声音数据的持续时间达到25s，则确定该注册声音数据满足预设条件。

进一步地，如果获取到的预设次数个注册声音数据不满足预设条件，则可以向客户端下发重新获取合法用户根据注册语料输入的注册声音数据的提示信息，使合法用户根据该提示信息重新输入注册声音数据，直至服务器确定获取到的预设次数个注册声音数据满足预设条件为止。

可选地，在获取到预设次数个注册声音数据后，为了确定能否根据获取到的预设次数个注册声音数据生成注册声纹，服务器需要确定预设次数个注册声音数据之间的相似度分值是否达到声纹注册相似度分值；如果预设次数个注册声音数据之间的相似度分值达到声纹注册相似度分值，再执行步骤404。本发明实施例不对声纹注册相似度分值的具体数值进行限定，具体实施时，可以根据经验设定。然而，为了使得注册声纹可以作为后续声纹验证的可靠参考，该声纹注册相似度分值越高越好。

其中，服务器在确定预设次数个注册声音数据之间的相似度分值是否达到声纹注册相似度分值之前，需要先计算预设次数个注册声音数据之间的相似度分值。关于服务器计算预设次数个注册声音数据之间的相似度分值的方式，本发明实施例不作具体限定。具体实施时，可以结合声音数据的特征所包括的维度、每个维度的特征值以及每个维度所占的权重来实现。具体包括但不限于：分别确定每个声音数据的每个维度的特征值，并确定每个维度所占的权重；根据每两个声音数据的各个维度的特征值、每个维度所占的权重计算每两个注册声音数据之间的相似度分值。另外，在确定每两个注册声音数据之间的相似度分值之后，可以确定所有注册声音数据的相似度分值的平均值，并将该相似度分值的平均值作为预设次数个注册声音数据之间的相似度分值

例如，如果声音数据包括的维度为波长、频率、强度，且在计算每两个注册声音数据之间的相似度分值时波长、频率、强度所占的权重分别为0.3、0.4和0.3。其中，服务器获取到的一个注册声音数据的波长、频率和强度的特征值分别为73、75和85，另一个注册声音数据的波长、频率和强度的特征值分别为75、80和90，则这两个注册声音数据之间的相似度分值为：100-(0.3*(75-73)+0.4*(80-75)+0.3*(90-85))＝95.9。也就是说，两个注册声音数据之间的特征值越接近，则这两个注册声音数据之间的相似度分值越高。

关于服务器确定预设次数个注册声音数据之间的相似度分值是否达到声纹注册相似度分值的方式，包括但不限于在计算得到预设次数个注册声音数据之间的相似度分值之后，将预设次数个注册声音数据之间的相似度分值与预先设定的声纹注册相似度分值进行比对来实现。

需要说明的是，在确定预设次数个注册声音数据之间的相似度分值是否达到声纹注册相似度分值时，还可以结合预设次数的不同数值而有不同的方法。

例如，如果预设次数为两次，则获服务器取到的注册声音数据为两个，此时，在确定预设次数个注册声音数据之间的相似度分值是否达到声纹注册相似度分值时，通过确定这两次获取到的注册声音数据之间的相似度分值是否达到声纹注册相似度分值来确定预设次数个注册声音数据之间的相似度分值是否达到声纹注册相似度分值。

又例如，如果预设次数超过两个，如为三个、四个，等等，则在确定预设次数个注册声音数据之间的相似度分值是否达到声纹注册相似度分值时，可以计算每两个注册声音数据之间的相似度分值，并在确定每两个注册声音数据之间的相似度分值均达到预设声纹注册相似度分值时确定预设次数个注册声音数据之间的相似度分值达到声纹注册相似度分值。

然而，当预设次数超过两次时，在确定预设次数个注册声音数据之间的相似度分值是否达到声纹注册相似度分值时，还可以根据每两个注册声音数据之间的相似度分值达到声纹注册相似度分值的数量确定预设次数个注册声音数据之间的相似度分值是否达到声纹注册相似度分值。如果每两个注册声音数据之间的相似度分值达到声纹注册相似度分值的数量超过预设阈值，则确定预设次数个注册声音数据之间的相似度分值是否达到声纹注册相似度分值。例如，如果预设次数为三个，且当每两个注册声音数据之间的相似度分值达到声纹注册相似度分值的数量超过两个时，则确定该三个注册声音数据达到声纹注册相似度分值。

404：服务器根据预设次数个注册声音数据生成注册声纹。

关于服务器根据预设次数个注册声音数据生成注册声纹的方式，包括但不限于：拼接预设次数个注册声音数据，并根据拼接后的注册声音数据生成注册声纹。其中，在根据拼接后的注册声音数据生成注册声纹时，也可以通过一定的声纹生成算法实现。

关于服务器根据声纹生成算法将拼接后的注册声音数据生成注册声纹的方式，本发明实施例不作具体限定。具体实施时，可以通过提取拼接后的注册声音数据中的典型特征来实现。具体地，由于声音的波长、频率、强度、节奏等特征能体现用户声音的特点，因此，在根据拼接后的注册声音数据生成注册声纹时，可以提取拼接后的注册声音数据中波长、频率、强度、节奏等特征，并确定拼接后的注册声音数据中波长、频率、强度、节奏等特征的特征值，将拼接后的注册声音数据中波长、频率、强度、节奏等特征的特征值等作为注册声纹。

可选地，服务器根据拼接后的注册声音数据生成注册声纹之后，为了后续可以使用注册声音数据进化注册声纹，并不断扩充注册语料的内容，还可以存储注册语料、预设次数个注册声音数据及注册声纹，并形成注册语料、预设次数个注册声音数据及注册声纹的映射关系。

其中，本发明实施例不对存储注册语料、预设次数个注册声音数据及注册声纹的方式进行限定，具体实施时，为了保证存储的注册语料、预设次数个注册声音数据及注册声纹的映射关系的安全性，可以对注册语料、预设次数个注册声音数据及注册声纹进行加密，并存储加密后的注册语料、预设次数个注册声音数据及注册声纹。

关于对注册语料、预设次数个注册声音数据及注册声纹进行加密的方式，本发明实施例不作具体限定。关于加密时使用的密码的形式，本发明实施例同样不作具体限定。具体实施时，该密码形式可以为数字密码，也可以为图案密码，等等。

如表一所示，其示出了一种存储的注册语料、预设次数个注册声音数据及注册声纹的映射关系的表格示意图。

表一

当然，上述表一中包括的内容仅用于举例，并不构成对本发明实施例的限制。

可选地，在形成注册声纹之后，如果后续合法用户确定更换其注册声纹，则还可以通过上述步骤401至步骤404重新获取合法用户的注册声音数据，并根据重新获取的合法用户的注册声音数据重新生成注册声纹。

需要说明的是，在重新生成注册声纹时，服务器向客户端发送的注册语料可以与之前生成注册声纹时使用的注册语料不同，从而可以丰富该用户的注册语料，不仅便于后续以注册声纹为参考进行身份验证时，可以向操作客户端的合法用户发送不同类型的注册语料，而且通过向用户下发不同类型的注册语料而使用户在注册声纹的过程中获得良好的操作体验。

进一步地，服务器在根据预设次数个注册声音数据生成注册声纹之后，便可以通过注册声纹实现声纹验证，关于使用注册声纹实现声纹验证的方式，包括但不限于通过如下步骤实现：

步骤一：客户端向服务器发送携带业务类型的业务操作请求。

如果操作客户端的当前用户需要在客户端操作某一业务类型的业务，则需要通过客户端向服务器发送携带业务类型的业务操作请求。关于客户端向服务器发送携带业务类型的业务操作请求的方式，本发明实施例不作具体限定。具体实施时，客户端可以在获取到当前用户的操作指令后，触发向服务器发送携带业务类型的业务操作请求。关于客户端获取到当前用户的操作指令的方式，包括但不限于通过检测操作选项或操作按钮是否被选中来实现。其中，检测操作选项或操作按钮是否被选中的方式可以有很多种，例如，可以通过检测操作选项或操作按钮是否被点击、是否被双击、操作选项或操作按钮的触摸操作是否达到预设时间，等等。

关于业务操作类型，本发明实施例不作具体限定。具体实施时，可以结合客户端支持的业务类型而定。例如，业务类型可以为登录业务、支付业务、小区门禁业务，等等。

例如，如果业务类型为登录业务，为了触发登录操作，当前用户需要通过客户端向服务器发送携带登录业务的登录操作请求。其中，客户端向服务器发送携带登录业务的登录操作请求可以是在检测到客户端对应的登录选项被选中后触发的。在检测登录选项是否被选中时，包括但不限于通过检测登录选项是否被点击、是否被双击、登录选项上的触摸操作是否达到预设时间，等等。

例如，如果业务类型为小区门禁业务，则当前用户在进入小区之前进行身份验证时，可以通过声纹验证实现。为了触发声纹验证过程，当前用户可以通过客户端进入门禁验证页面，从而触发向服务器发送携带小区门禁业务的业务操作请求。关于当前用户进入门禁验证页面的方式，包括但不限于通过客户端与门禁管理系统建立连接来实现。其中，当前用户通过客户端与门禁管理系统建立连接的方式，包括但不限于通过关注门禁管理系统的公众号实现。

步骤二：服务器接收客户端发送的携带业务类型的业务操作请求，并根据业务操作请求向客户端发送携带验证语料的验证指令。

关于服务器接收客户端发送的携带业务类型的业务操作请求的方式，本发明实施例不作具体限定。另外，为了触发通过声纹验证对当前用户的身份进行验证，服务器根据业务操作请求向客户端发送携带验证语料的验证指令，使当前用户可以根据验证语料输入声音数据。关于根据业务操作请求向客户端发送携带验证语料的验证指令的方式，本发明实施例不作具体限定。

需要说明的是，服务器根据业务操作请求向客户端发送携带验证语料的验证指令之前，需要获取验证语料。关于获取到的验证语料的具体内容，本发明实施例不作具体限定。具体实施时，该验证语料的具体内容与形成注册声纹时使用的注册语料有关。关于验证语料与注册语料之间的关系已在步骤401中进行了具体说明，详见步骤401中的内容，在此不再赘述。

可选地，由于通常的声纹验证过程是由服务器发起的，然而，也可能出现人为伪造发起声纹验证的情况。为了保证声纹验证过程由服务器发起，避免人为伪造发起声纹验证过程，服务器在发起声纹验证过程时，可以生成一个电子票据，从而在与客户端每次进行交互的过程中，均携带该电子票据，以标识该次声纹验证过程的基本信息，保证声纹验证过程的安全性。为了生成电子票据，服务器在根据业务操作请求向客户端发送携带验证语料的验证指令之前，还需要根据业务操作请求获取当前用户的当前用户信息，并根据当前用户信息生成电子票据。

关于当前用户信息的具体内容，本发明实施例不作具体限定。为了标识声纹验证过程的基本信息，该当前用户信息至少包括业务类型、验证时刻、当前用户账号信息及当前用户的终端信息。关于根据当前用户信息生成电子票据的方式，包括但不限于通过建立电子票据标识与当前用户信息的映射关系实现。关于获取当前用户信息的方式，包括但不限于通过接收客户端提交的当前用户信息实现。

综上，如果在声纹验证过程中生成了电子票据，则在根据业务操作请求向客户端发送携带验证语料的验证指令时，可以根据业务操作请求向客户端发送携带验证语料及生成的电子票据的验证指令。关于根据业务操作请求向客户端发送携带验证语料及生成的电子票据的验证指令的方式，本发明实施例不作具体限定。

步骤三：客户端接收服务器根据业务操作请求发送的携带验证语料的验证指令，并获取当前用户根据验证语料输入的验证声音数据，将验证声音数据提交至服务器。

关于客户端接收服务器根据业务操作请求发送的携带验证语料的验证指令的方式，本发明实施例不作具体限定。通常，服务器在生成用户的声纹时，需要根据用户的声音数据生成，因此，客户端获取当前用户根据验证语料输入的验证声音数据，并将验证声音数据提交至服务器。

其中，本发明实施例不对客户端获取当前用户根据验证语料输入的验证声音数据的方式进行限定。客户端获取当前用户根据验证语料输入的验证声音数据的原理与上述步骤402中客户端获取合法用户根据注册预料输入的注册声音数据的原理一致，具体可参见上述步骤402中的内容，在此不再赘述。

可选地，客户端通过接收服务器根据业务操作请求发送的携带验证语料的验证指令后，可以显示验证指令中携带的验证语料，使得当前用户在输入验证声音数据时，可以根据显示的验证语料朗读验证语料，保证用户不会因忘记验证语料的内容而使得输入的验证声音数据不满足验证声音数据的条件，从而给用户带来良好操作体验的同时，能够提高获取当前用户的验证声音数据的效率，从而可以提高声纹验证的效率。

另外，客户端在向服务器提交验证声音数据时，由于声音数据通常比较大，因此，客户端也可以将验证声音数据切分为若干份，并分别提交切分后的验证声音数据，直至将验证声音数据提交完毕。其中，在切分验证声音数据时，可以将验证声音数据切分为相等大小的声音数据，也可以切分为不等大小的声音数据。本发明实施例不对切分后的声音数据的具体大小进行限定。例如，可以将验证声音数据切分为相等大小的三等份，得到验证声音数据1、验证声音数据2和验证声音数据3，因此，客户端在向服务器提交验证声音数据时，将分别提交验证声音数据1、验证声音数据2和验证声音数据3。

可选地，如果服务器向客户端发送携带验证语料的验证指令时，还发送了服务器生成的电子票据，则为了使服务器能够根据获得的当前用户信息生成电子票据，客户端可以向服务器提交当前用户信息，使服务器通过接收客户端提交的当前用户信息来获取该次声纹验证过程的基本信息。关于客户端向服务器提交当前用户信息的方式，本发明实施例不作具体限定。另外，当服务器生成电子票据后，服务器与客户端在每次进行交互时，均需要携带该服务器生成的电子票据。因此，客户端在接收服务器发送的携带验证语料的验证指令时，还接收了验证指令中携带的服务器生成的电子票据。此时，客户端在将验证声音数据提交至服务器时同时还将服务器生成的电子票据提交至服务器。

步骤四：服务器接收客户端获取到的操作客户端的当前用户根据验证语料输入的验证声音数据，并根据验证声音数据生成验证声纹。

为了获得当前用户的声纹，服务器接收客户端获取到的操作客户端的当前用户根据验证语料输入的验证声音数据，并根据验证声音数据生成验证声纹。其中，本发明实施例不对服务器接收客户端获取到的操作客户端的当前用户根据验证语料输入的验证声音数据的方式进行限定。另外，关于服务器根据验证声音数据生成验证声纹的方式，可以采用声纹生成算法实现。其中，服务器根据验证声音数据生成验证声纹的原理同上述步骤404中服务器根据注册声音数据生成注册声纹的原理一致，具体可参见上述步骤404中的内容，在此不再赘述。

另外，如果客户端在提交验证声音数据时，将验证声音数据切分为若干个声音数据，则服务器在生成验证声纹时，需要先拼接组成验证声音数据的每个声音数据，并根据拼接后的组成验证声音数据的每个声音数据生成验证声纹。

可选地，如果客户端提交验证声音数据时，还提交了服务器生成的电子票据，则为了保证声纹验证过程的安全性，服务器根据验证声音数据生成验证声纹之前，还需要判断客户端提交的电子票据与服务器生成的电子票据是否一致；如果客户端提交的电子票据与服务器生成的电子票据一致，则执行根据验证声音数据生成验证声纹的步骤。如果服务器确定客户端提交的电子票据与服务器生成的电子票据不一致，则确定当前用户为非法用户，并终止声纹验证，从而禁止当前用户在该客户端操作业务操作请求中携带的业务类型对应的业务。

关于服务器判断客户端提交的电子票据与服务器生成的电子票据是否一致的方式，包括但不限于判断客户端提交的电子票据相对于服务器生成的电子票据是否有改变；如果服务器判断客户端提交的电子票据相对于服务器生成的电子票据未发生改变，则确定客户端提交的电子票据与服务器生成的电子票据一致；否则，确定客户端提交的电子票据与服务器生成的电子票据不一致。

关于终止声纹验证的方法，可以有很多种。具体实施时，包括但不限于通过强制跳出客户端所在的业务类型对应的页面或者发送提示消息以提示当前用户操作失败，等等。例如，如果该次声纹验证用于对当前用户的登录业务进行验证，则可以禁止当前用户登录该客户端。

然而，为了进一步确定当前用户是否为合法用户，还可以继续对当前用户的身份进行验证。因此，服务器也可以采用其它方式对当前用户进行身份验证。其中，服务器在采用其它方式对当前用户进行身份验证时，可以通过弹出其它方式的验证界面，并获取当前用户在该验证界面输入的信息来对当前用户进行身份验证。关于根据操作当前用户在该验证界面输入的信息来对当前用户进行身份验证的具体实现过程，本发明实施例不作具体限定。

可选地，为了保证声纹验证过程在一定的时间范围内有效，服务器还可以设置电子票据的有效时间，从而将在电子票据的有效时间内的完成的声纹验证确定为合法，而如果声纹验证过程超过电子票据的有效时间，则将该声纹验证过程确定为非法。因此，服务器在接收客户端提交的电子票据及验证声音数据之后，还需要确定客户端提交的电子票据是否在生成的电子票据的预设有效时间内；如果确定客户端提交的电子票据在生成的电子票据的预设有效时间内，则执行判断客户端提交的电子票据与生成的电子票据是否一致的步骤。如果确定客户端提交的电子票据不在生成的电子票据的预设有效时间内，则确定当前用户为非法用户，并终止声纹验证。

关于确定预设有效时间的方式，本发明实施例不作具体限定。具体实施时，可以根据经验统计完成声纹验证的基本时间，并将该基本时间作为预设有效时间。当然，还可以采用其它方式确定预设有效时间。另外，本发明实施例不对预设有效时间的具体大小进行限定。

关于终止声纹验证的方式，可以有很多种，具体实施时，与上述如果服务器确定客户端提交的电子票据与服务器生成的电子票据不一致时终止声纹验证的原理一致，具体可参见上述内容，在此不再赘述。

步骤五：服务器确定验证声纹与预先存储的合法用户的注册声纹之间的相似度分值是否达到业务类型对应的预设相似度分值，其中，不同业务类型对应不同预设相似度分值。

为了确定当前用户能否在客户端操作业务类型对应的业务，服务器需要确定验证声纹与合法用户的注册声纹之间的相似度分值是否达到业务类型对应的预设相似度分值。

其中，在确定验证声纹与预先存储的注册声纹之间的相似度分值是否达到业务类型对应的预设相似度分值之前，需要先确定业务操作请求中携带的业务类型对应的预设相似度分值。关于确定业务操作请求中携带的业务类型对应的预设相似度分值的方式，包括但不限于：获取客户端支持的每个业务类型及预设相似度分值之间的映射关系，并根据该映射关系确定业务操作请求中携带的业务类型对应的预设相似度分值。

关于获取客户端支持的每个业务类型及预设相似度分值之间的映射关系的方式，本发明实施例不作具体限定。具体实施时，可以从本地获取，也可以从其它节点获取。关于根据映射关系确定业务操作请求中携带的业务类型对应的预设相似度分值的方式，包括但不限于将业务操作请求中携带的业务类型与映射关系中的每个业务类型一一比对，并将映射关系中与业务操作请求中携带的业务类型一致的业务类型对应的预设相似度分值作为业务操作请求中携带的业务类型对应的预设相似度分值。

如表二所示，其示出了一种获取客户端支持的所有业务类型及预先设定的每个业务类型对应的预设相似度分值的映射关系的表格示意图。

表二

业务类型	预设相似度分值
		登录业务	80
……	……
		支付业务	98

例如，如表二所示，如果业务操作请求中携带的业务类型为登录业务，则在确定登录业务对应的预设相似度分值时，可以将登录业务与表二包括的每个业务类型一一比对，从而确定登录业务对应的预设相似度分值为80。当然，表二中所列出的业务类型及每个业务类型对应的预设相似度分值仅仅用于举例，并不构成对本发明实施例的限制。

另外，为了确定验证声纹与预先存储的注册声纹之间的相似度分值是否达到业务类型对应的预设相似度分值，还需要确定验证声纹与注册声纹之间的相似度分值。关于确定验证声纹与注册声纹之间的相似度分值的方式，包括但不限于：获取注册声纹，并计算验证声纹与注册声纹之间的相似度分值。

关于计算验证声纹与注册声纹之间的相似度分值的方式，可以有很多种。具体实施时，可以结合声纹的特征所包括的维度、每个维度的特征值以及每个维度所占的权重来实现。具体包括但不限于：确定验证声纹的每个维度的特征值及注册声纹每个维度的特征值，并确定每个维度所占的权重；根据验证声纹每个维度的特征值、注册声纹每个维度的特征值及确定每个维度所占的权重计算验证声纹与注册声纹之间的相似度分值。

例如，如果声纹包括的维度为波长、频率、强度，且在计算验证声纹与注册声纹之间的相似度分值时波长、频率、强度所占的权重分别为0.3、0.4和0.3，验证声纹的波长、频率和强度的特征值分别为73、75和85，注册声纹的波长、频率和强度的特征值分别为75、80和90，则验证声纹与注册声纹之间的相似度分值为：100-(0.3*(75-73)+0.4*(80-75)+0.3*(90-85))＝95.9。也就是说，验证声纹与注册声纹的特征值越接近，验证声纹与注册声纹之间的相似度分值越高。

关于服务器确定验证声纹与注册声纹之间的相似度分值是否达到业务类型对应的预设相似度分值的方式，包括但不限于将计算得到的验证声纹与注册声纹之间的相似度分值与获取到的业务操作请求中携带的业务类型对应的预设相似度分值进行比较来实现。例如，如果计算得到的验证声纹与注册声纹之间的相似度分值为80，且获取到的业务操作请求中携带的业务类型对应的预设相似度分值为75，则确定验证声纹与注册声纹之间的相似度分值达到业务类型对应的预设相似度分值。

其中，由于不同的业务类型与用户的用户数据或用户财产之间的相关性不同，有的业务类型直接关系用户的数据财产安全，有的业务类型对用户数据财产安全的影响较小。因此，在本发明实施例中，可以为不同业务类型设置不同的声纹验证等级，并设置不同业务类型对应不同预设相似度分值。该部分内容将在后续进行详细说明，此处暂不赘述。

步骤六：如果服务器确定验证声纹与注册声纹之间的相似度分值达到业务类型对应的预设相似度分值，则确定当前用户通过声纹验证。

在本发明实施例中，可以为客户端支持的不同的业务类型设置不同的声纹验证等级，并设置不同的声纹验证等级对应不同的预设相似度分值。例如，可以为客户端支持的不同业务类型设置五个声纹验证等级，如低等、基本、中等、高等和极高等，并设置低等、基本、中等、高等和极高等对应的预设相似度分值为50-60、60-70、70-80、80-90及90-100。此时，当验证声纹与注册声纹之间的相似度分值落在某一等级对应的预设相似度分值范围内时，确定验证声纹与注册声纹之间的相似度达到该等级对应的预设相似度分值，否则，确定验证声纹与注册声纹之间的相似度未达到任一等级对应的预设相似度分值。其中，在该举例中仅以根据不同业务类型将声纹验证划分为五个等级，以及每个等级对应的预设相似度分值进行了举例说明，该举例中的各等级及其对应的预设相似度分值并不构成对本发明实施例的限制。

由于不同的业务类型与用户数据及用户财产的相关程度并不相同，因此，在根据不同业务类型设置不同的声纹验证等级之后，还可以根据客户端支持的业务类型为每个业务类型设置相应的声纹验证等级。例如，如果该客户端支持的业务类型包括登录业务、支付业务、小区门禁业务及声纹注册业务，且登录业务又分常用设备登录业务、新设备登录业务。其中，由于支付业务直接与用户的财产安全相关，因此，可以将支付业务的声纹验证等级设置为极高等；由于常用设备登录业务是比较敏感的操作，通常直接与用户数据相关，因此，可以将常用设备登录业务的声纹验证等级设置为高等；由于在新设备登录客户端时，往往会在声纹验证之前先获取登录客户端的密码，从而通过声纹验证对登录该客户端的当前用户进行二次身份验证，因此，可以将通过密码验证之后的新设备登录业务的声纹验证等级设置为基本等级；另外，在客户端实现对小区门禁业务进行声纹验证时，由于小区门禁业务与用户的财产及数据的相关程度比较低，因此，可以将该业务的等级设置为低等。

当然，还可以将声纹验证等级划分为其它等级，具体实施时，可以结合客户端支持的所有业务类型而定。关于客户端支持的所有业务类型的具体内容，本发明实施例不作具体限定。

通过服务器为不同业务类型设置不同预设相似度分值，并在进行声纹验证时，客户端向服务器提交当前用户的验证声音数据后，服务器生成验证声纹，并通过确定验证声纹与注册声纹之间的相似度的分值是否达到业务类型对应的预设相似度分值来进行声纹验证，从而可以针对不同的业务类型确定是否声纹验证成功，声纹验证方法更具灵活性。

可选地，由于生成注册声纹时，使用的注册声音数据的数量有限，为了使得生成的合法用户的声纹更加准确，本发明实施例提供的方法支持不断进化注册声纹。由于进化注册声纹时，需要用到很多合法用户的声音数据，而每次声纹验证通过时，则可以确定该次获取到的验证声音数据为合法用户的声音数据。因此，确定当前用户通过声纹验证之后，为了使得该次声纹验证过程使用的验证声音数据可以作为后续进化注册声纹以生成进化声纹的声音数据，服务器还可以存储验证声音数据以及验证声音数据的属性信息，以将验证声音数据以及验证声音数据的属性信息作为后续进化注册声纹时筛选进化声音数据的参考。进一步地，随着声纹验证次数的不断增多，在每次声纹验证通过之后都可以存储声纹验证过程使用的验证声音数据以及每个验证声音数据的属性信息，以将每次声纹验证使用的验证声音数据以及验证声音数据的属性信息作为后续进化注册声纹时筛选进化声音数据的参考。

其中，本发明实施例不对属性信息的具体内容进行限定。具体实施时，该属性信息至少包括验证声音数据的时长以及根据该验证声音数据生成的验证声纹与注册声纹之间的相似度分值。

如图5所示，其示出了一种存储的注册声音数据及一段时间内每次声纹验证通过后存储的验证声音数据及每个验证声音数据对应的属性信息的示意图。在图5中，注册声音数据a和注册声音数据b为生成注册声纹时根据注册语料获取到的合法用户的注册声音数据，验证声音数据1至验证声音数据n为每次声纹验证通过后存储的验证过程使用的验证声音数据。每个验证声音数据的分值为以注册声纹为参考进行身份验证时，每次进行声纹验证时验证声纹与注册声纹之间的相似度分值，每个验证声音数据的长度为每个验证声音数据的时长。例如，验证声音数据1对应的“分数”为通过验证声音数据1进行声纹验证时验证声音数据1与注册声纹之间的相似度分值，验证声音数据1对应的“长度3s(秒)”为验证声音数据1的时长。

可选地，由于本发明实施例提供的方法支持不断进化注册声纹，因此，在存储验证声音数据以及验证声音数据的属性信息之后，还可以确定是否需要进化注册声纹；如果确定需要进化注册声纹，则可以根据多次声纹验证通过后存储的验证声音数据的属性信息筛选预设数值个满足声纹进化条件的验证声音数据，将预设数值个满足声纹进化条件的验证声音数据作为预设数值个进化声音数据，从而根据注册声音数据和进化声音数据生成进化注册声纹，将进化注册声纹作为后续声纹验证时的参考。

其中，确定是否需要进化注册声纹的方式可以有很多种，具体实施时，包括但不限于通过如下两种方式来实现：

第一种方式：由客户端根据需要选择进化注册声纹。具体实施时，客户端根据需要选择进化注册声纹包括但不限于通过如下步骤来实现：

第一步：客户端确定是否需要进化注册声纹，且如果确定需要进化注册声纹，则向服务器发送进化注册声纹的声纹进化请求。

关于客户端确定是否需要进化注册声纹的方式，包括但不限于通过确定是否获取合法用户的声纹进化指令来确定是否需要进化注册声纹。如果客户端确定获取到合法用户的声纹进化指令，则确定需要进化注册声纹。其中，本发明实施例不对获取合法用户的声纹进化指令的方式进行限定。具体实施时，包括但不限于在客户端提供声纹进化选项，并通过检测该声纹进化选项是否被选中来确定是否获取到声纹进化指令。如果检测到声纹进化选项被选中，则确定获取到声纹进化指令；如果未检测到声纹进化选项被选中，则确定未获取到声纹进化指令。关于检测声纹进化选项被选中的方式，包括但不限于通过检测声纹进化选项是否被点击、长按、双击等实现。

关于客户端向服务器发送进化注册声纹的声纹进化请求的方式，本发明实施例不作具体限定。

第二步：服务器确定是否接收到客户端发送的声纹进化请求，且如果接收到客户端发送的声纹进化请求，则确定需要进化注册声纹。

当客户端确定进化注册声纹而向服务器发送声纹进化请求触发进化注册声纹后，服务器通过确定是否接收到客户端发送的声纹进化请求来确定是否进化注册声纹。如果服务器确定接收到客户端发送的声纹进化请求，则确定需要进化注册声纹。

第二种方式：由服务器触发进化注册声纹。具体为：服务器确定是否达到自动进化注册声纹的预设条件；如果服务器确定达到自动进化注册声纹的预设条件，则确定需要进化注册声纹。

其中，本发明实施例不对自动进化注册声纹的预设条件的具体内容进行限定。具体实施时，服务器可以设置当满足预设时间间隔后自动进化注册声纹，也可以设置满足预设验证次数后自动进化注册声纹。因此，自动进化注册声纹的预设条件可以为满足自动进化注册声纹的预设时间间隔或者自动进化注册声纹的预设验证次数，等等。关于预设时间间隔及预设验证次数的具体数值，本发明实施例不作具体限定。另外，也可以由服务器根据需要自动触发进化注册声纹，本发明实施例对此不作具体限定。

关于根据多次声纹验证通过后存储的验证声音数据的属性信息筛选预设数值个进化声音数据的方式，本发明实施例不作具体限定。具体实施时，由于验证声音数据的属性信息至少包括验证声音数据的时长及验证声纹与注册声纹的相似度分值，因此，可以根据每次声纹验证通过后已经存储的验证声音数据的时长及验证声纹与注册声纹的相似度分值筛选预设数值个进化声音数据。

其中，在根据验证声音数据的时长筛选进化声音数据时，可以获取已经存储的所有验证声音数据以及每个验证声音数据的时长，计算所有验证声音数据的平均值，获得平均时长。在筛选进化声音数据时，可以过滤掉时长低于平均时长的验证声音数据。在根据验证声纹与注册声纹的相似度分值时，可以设置预设阈值的相似度分值，从而在筛选进化声音数据时，将所有的验证声音数据中低于预设阈值的相似度分值的验证声音数据过滤掉。当通过验证声音数据的时长及验证声纹与注册声纹的相似度分值过滤掉一部分验证声音数据后，可以在剩余的验证声音数据中筛选同时满足验证声音数据的时长及验证声纹与注册声纹的相似度分值的验证声音数据，并将该类验证声音数据作为进化声音数据。需要说明的是，在该举例中在根据验证声音数据的时长筛选进化声音数据时，仅以按照所有验证声音数据的平均时长为例进行了说明。具体实施时，还可以采用其它时长筛选进化声音数据，本发明实施例不作具体限定。

当然，在根据多次声纹验证通过后存储的验证声音数据的属性信息筛选预设数值个进化声音数据时，还可以仅根据属性信息中的一种筛选进化声音数据。例如，可以仅根据验证声音数据的时长筛选进化声音数据，等等。另外，在进化注册声纹时，服务器也可以不筛选进化声音数据，从而将每次声纹验证通过后存储的验证声音数据均作为进化声音数据。

如图6所示，其示出了一种筛选进化声音数据的示意图。在图6中，每次声纹验证通过后已经存储的验证声音数据包括验证声音数据a、验证声音数据b、验证声音数据c和验证声音数据d。如果该次筛选声音数据采用的方法为过滤掉时长低于2s的验证声音数据，则通过按照每个验证声音数据的属性信息筛选出验证声音数据a和验证声音数据d作为进化声音数据。

关于根据注册声音数据和进化声音数据进化注册声纹，以生成进化声纹的方式，包括但不限于拼接注册声音数据和进化声音数据，并根据拼接的注册声音数据和进化声音数据生成进化声纹。其中，拼接注册声音数据和进化声音数据的原理，以及根据拼接的注册声音数据和进化声音数据生成进化声纹的原理与上述生成注册声纹时拼接预设次数个注册声音数据的原理，以及根据拼接的预设次数个注册声音数据生成注册声纹的原理一致，具体可参见上述拼接预设次数个注册声音数据的原理，以及根据拼接的预设次数个注册声音数据生成注册声纹的原理，在此不再赘述。

如图7所示，其示出了一种根据拼接的注册声音数据和进化声音数据生成进化声纹的过程示意图。在图7中，注册声音数据为注册声音数据a和注册声音数据b，筛选出的进化声音数据为验证声音数据a和验证声音数据d。因此，在生成进化声纹时，根据拼接的注册声音数据a、注册声音数据b、验证声音数据a和验证声音数据d生成进化声纹。

需要说明的是，随着操作客户端的次数越来越多，进行声纹验证的次数也越来越多，因此，可以不断存储每次声纹验证通过使使用的验证声音数据，并在后续不断进化已经进化得到的进化声纹，从而形成声纹验证、进化声音数据筛选以及声纹进化的循环系统，确保进行声纹验证时使用的声纹更具可靠性和准确性，从而使得声纹验证过程具有更高的准确性和更好的识别率。

可选地，如果在进行声纹验证的过程中生成了电子票据，且在生成电子票据时，服务器获取到当前用户信息，则服务器在确定当前用户通过声纹验证之后，还可以记录当前用户信息，并获取已经存储的上次声纹验证通过后记录的参考用户信息；确定当前用户信息是否与参考用户信息一致；如果确定当前用户信息与参考用户信息一致，则将当前用户标记为可信用户。

如，如果获取到的已经存储的上次声纹验证通过后记录的参考用户信息为用户44525445在终端X，终端ID(Identity，标识):ack5864dsghgd8984562156412，通过了登录业务的声纹验证。此时，在该次声纹验证时，会检查是否为44525445这个用户，是否为设备ack5864dsghgd8984562156412，当前操作业务是否为登录业务，如果三者都符合,则确定该用户可信，从而将当前用户标记为可信用户。当将该用户标记为可信用户后，后续如果再次检测到该用户通过该设备进行登录业务，则可以使用稍微简单的验证方法对该用户进行身份验证。

可选地，确定当前用户通过声纹验证之后，为了对当前用户在该客户端操作业务操作请求中携带的业务类型对应的业务的时间进行限制，还可以确定当前用户在客户端操作业务类型对应的业务的时间是否达到预设时间，如果当前用户在客户端操作业务类型对应的业务的时间达到预设时间，则终止当前用户在客户端操作业务类型对应的业务。

其中，本发明实施例不对预设时间的具体数值进行限定，具体实施时，可以根据不同的业务类型设置不同的预设时间。例如，针对于支付操作，由于完成支付操作通常会很快，因此，可以将支付业务对应的预设时间设置的稍微小点，如可以设置为2min(分钟)；又例如，针对于登录业务，通常用户登录客户端的时间间隔比较长，因此，可以将登录业务对应的预设时间设置的比较大，如30min，等等。

关于确定当前用户在客户端操作业务类型对应的业务的时间是否达到预设时间的方式，本发明实施例不作具体限定。具体实施时，可以声纹验证通过的时刻开始计时，从而可以通过确定当前时刻与声纹验证通过的时刻之间的差值是否达到预设时间。如果当前时刻与声纹验证通过的时刻之间的差值达到预设时间，则确定当前用户在客户端操作业务类型对应的业务的时间达到预设时间；如果当前时刻与声纹验证通过的时刻之间的差值未达到预设时间，则确定当前用户在客户端操作业务类型对应的业务的时间未达到预设时间。

可选地，如果验证声纹与注册声纹未达到业务类型对应的预设相似度分值，则确定当前用户非法，并终止声纹验证。关于终止声纹验证的方法，可以有很多种。具体实施时，包括但不限于通过跳出客户端所在页面或者发送提示消息以提示当前用户操作失败，等等。例如，如果该次声纹验证用于对当前用户的登录业务进行声纹验证，则可以禁止当前用户登录该客户端。又例如，如果该次声纹验证用于对当前用户的支付业务进行声纹验证，则可以禁止当前用户在该客户端进行支付业务，等等。

然而，为了进一步确定当前用户是否为合法用户，还可以继续对当前用户的身份进行验证。此时，服务器也可以采用其它方式对当前用户进行身份验证。其中，服务器在采用其它方式对当前用户进行身份验证时，可以通过弹出其它方式的验证界面，并获取当前用户在该验证界面输入的对应信息来对当前用户进行身份验证。关于根据操作当前用户在该验证界面输入的对应信息来对当前用户进行身份验证的具体实现过程，本发明实施例不作具体限定。

本发明实施例提供的方法，通过服务器获取与合法用户的合法用户信息相关的注册语料，并向客户端下发注册语料，使客户端获取到合法用户根据注册语料输入的注册声音数据后，向服务器提交获取到的合法用户根据注册语料输入的注册声音数据，服务器根据注册声音数据生成注册声纹。由于注册语料为与合法用户的合法用户信息相关的语料，因此，能成功获取到合法用户根据与其合法用户信息相关的注册语料输入的注册声音数据，不仅能增加声纹生成的成功率，而且使得声纹生成方法更具灵活性。

图8是根据一示例性实施例提供的一种声纹生成服务器的结构示意图。该服务器用于执行上述图2至图4所示实施例中任一实施例提供的声纹生成方法中服务器所执行的功能。参见图8，该服务器包括：

第一获取模块801，用于获取操作客户端的合法用户的合法用户信息；

第二获取模块802，用于获取与合法用户信息相关的注册语料；

发送模块803，用于向客户端发送注册语料；

第三获取模块804，用于分预设次数获取合法用户根据注册语料输入的注册声音数据，得到预设次数个注册声音数据；

生成模块805，用于根据预设次数个注册声音数据生成注册声纹。

可选地，服务器，还包括：

第一确定模块，用于确定预设次数个注册声音数据之间的相似度分值是否达到声纹注册相似度分值；

生成模块805，用于当预设次数个注册声音数据之间的相似度分值达到声纹注册相似度分值时，执行根据预设次数个注册声音数据生成注册声纹的步骤。

可选地，生成模块805，包括：

拼接单元，用于拼接预设次数个注册声音数据；

生成单元，用于根据拼接后的注册声音数据生成注册声纹。

可选地，服务器，还包括：

存储模块，用于存储注册语料、预设次数个注册声音数据及注册声纹；

形成模块，用于形成注册语料、预设次数个注册声音数据及注册声纹的映射关系。

可选地，存储模块，包括：

加密单元，用于对注册语料、预设次数个注册声音数据及注册声纹进行加密；

存储单元，用于存储加密后的注册语料、预设次数个注册声音数据及注册声纹。

可选地，第三获取模块804，包括：

第一获取单元，用于分预设次数获取客户端分片提交的合法用户每次根据注册语料输入的注册语音数据；

拼接单元，用于拼接客户端分片提交的合法用户每次根据注册语料输入的注册语音数据，得到合法用户每次根据注册语料输入的注册语音数据；

组合单元，用于组合合法用户每次根据注册语料输入的注册语音数据，得到预设次数个合法用户根据注册语料输入的注册声音数据。

可选地，服务器，还包括：

第二确定模块，用于确定是否需要进化注册声纹；

第四获取模块，用于当确定需要进化注册声纹时，获取预设数值个进化声音数据，其中，预设数值个进化声音数据为根据每次使用注册声纹进行声纹验证，且每次声纹验证通过后存储的验证声音数据筛选的至少一个验证声音数据；

进化模块，用于根据预设次数个注册声音数据和预设数值个进化声音数据进化注册声纹，得到进化声纹，并使用进化声纹进行后续的声纹验证。

可选地，第二确定模块，包括：

第一确定单元，用于确定是否接收到客户端发送的声纹进化请求；

第二确定单元，用于当接收到客户端发送的声纹进化请求时，确定需要进化注册声纹。

可选地，第二确定模块，包括：

第三确定单元，用于确定是否达到自动进化注册声纹的预设条件；

第四确定单元，用于当确定达到自动进化注册声纹的预设条件时，确定需要进化注册声纹。

可选地，第四获取模块，包括：

第二获取单元，用于获取每次声纹验证通过后存储的验证声音数据以及每个验证声音数据的属性信息；

筛选单元，用于根据每个验证声音数据的属性信息筛选预设数值个满足声纹进化条件的验证声音数据，将预设数值个满足声纹进化条件的验证声音数据作为预设数值个进化声音数据。

本发明实施例提供的服务器，通过获取合法用户的合法用户信息，并获取与合法用户信息相关的注册语料来触发声纹生成过程。由于注册语料为与合法用户的合法用户信息相关的语料，因此，能成功获取到合法用户根据与其合法用户信息相关的注册语料输入的注册声音数据，不仅能增加声纹生成的成功率，而且使得声纹生成方法更具灵活性。

图9是根据一示例性实施例示出的一种声纹生成服务器的结构示意图。参照图9，服务器900包括处理组件922，其进一步包括一个或多个处理器，以及由存储器932所代表的存储器资源，用于存储可由处理组件922的执行的指令，例如应用程序。存储器932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件922被配置为执行指令，以执行上述图2至图4所示实施例中任一实施例提供的声纹生成方法中服务器所执行的功能。

服务器900还可以包括一个电源组件926被配置为执行服务器900的电源管理，一个有线或无线网络接口950被配置为将服务器900连接到网络，和一个输入输出(I/O)接口958。服务器900可以操作基于存储在存储器932的操作系统，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

其中，一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行，一个或者一个以上程序包含用于进行以下操作的指令：

获取操作客户端的合法用户的合法用户信息；

获取与合法用户信息相关的注册语料；

向客户端发送注册语料；

分预设次数获取合法用户根据注册语料输入的注册声音数据，得到预设次数个注册声音数据；

根据预设次数个注册声音数据生成注册声纹。

假设上述为第一种可能的实施方式，则在第一种可能的实施方式作为基础而提供的第二种可能的实施方式中，服务器的存储器中，还包含用于执行以下操作的指令：得到预设次数个注册声音数据之后，还包括：

在第一种可能的实施方式作为基础而提供的第三种可能的实施方式中，服务器的存储器中，还包含用于执行以下操作的指令：根据预设次数个注册声音数据生成注册声纹，包括：

拼接预设次数个注册声音数据；

根据拼接后的注册声音数据生成注册声纹。

在第一种可能的实施方式作为基础而提供的第四种可能的实施方式中，服务器的存储器中，还包含用于执行以下操作的指令：根据预设次数个注册声音数据生成注册声纹之后，还包括：

在第四种可能的实施方式作为基础而提供的第五种可能的实施方式中，服务器的存储器中，还包含用于执行以下操作的指令：存储注册语料、预设次数个注册声音数据及注册声纹，包括：

在第一种可能的实施方式作为基础而提供的第六种可能的实施方式中，服务器的存储器中，还包含用于执行以下操作的指令：分预设次数获取合法用户根据注册语料输入的注册声音数据，包括：

在第一种至第六种可能的实施方式的任一种实施方式作为基础而提供的第七种可能的实施方式中，服务器的存储器中，还包含用于执行以下操作的指令：根据预设次数个注册声音数据生成注册声纹之后，还包括：

确定是否需要进化注册声纹；

如果确定需要进化注册声纹，则获取预设数值个进化声音数据，预设数值个进化声音数据为根据每次使用注册声纹进行声纹验证，且每次声纹验证通过后存储的验证声音数据筛选的至少一个验证声音数据；

在第七种可能的实施方式作为基础而提供的第八种可能的实施方式中，服务器的存储器中，还包含用于执行以下操作的指令：确定是否需要进化注册声纹，包括：

确定是否接收到客户端发送的声纹进化请求；

在第七种可能的实施方式作为基础而提供的第九种可能的实施方式中，服务器的存储器中，还包含用于执行以下操作的指令：确定是否需要进化注册声纹，包括：

确定是否达到自动进化注册声纹的预设条件；

在第七种可能的实施方式作为基础而提供的第十种可能的实施方式中，服务器的存储器中，还包含用于执行以下操作的指令：获取预设数值个进化声音数据，包括：

图10是根据一示例性实施例提供的一种客户端的结构示意图。该客户端用于执行上述图2至图4所示实施例中任一实施例提供的声纹生成方法中客户端所执行的功能。参见图10，该客户端包括：

接收模块1001，用于接收服务器发送的与操作客户端的合法用户的合法用户信息相关的注册语料；

获取模块1002，用于分预设次数获取合法用户根据注册语料输入的注册声音数据，得到预设次数个注册声音数据；

提交模块1003，用于将预设次数个注册声音数据提交至服务器，使服务器根据预设次数个注册声音数据生成注册声纹。

可选地，提交模块1003，包括：

分片单元，用于分预设次数对合法用户每次根据注册语料输入的注册语音数据进行分片；

提交单元，用于将合法用户每次根据注册语料输入的注册语音数据分片提交至服务器，使服务器分片获取合法用户每次根据注册语料输入的注册语音数据，并组合合法用户每次根据注册语料输入的注册语音数据，得到预设次数个合法用户根据注册语料输入的注册声音数据。

可选地，客户端还包括：

确定模块，用于确定是否需要进化注册声纹；

发送模块，用于当确定需要进化注册声纹时，向服务器发送进化注册声纹的声纹进化请求，使服务器根据声纹进化请求进化注册声纹。

本发明实施例提供的客户端，通过接收服务器发送的与合法用户的合法用户信息相关的注册语料，并获取合法用户根据注册语料输入的注册声音数据后，向服务器提交获取到的合法用户根据注册语料输入的注册声音数据，并根据注册声音数据生成注册声纹。由于注册语料为与合法用户的合法用户信息相关的语料，因此，能成功获取到合法用户根据与其合法用户信息相关的注册语料输入的注册声音数据，不仅能增加服务器生成声纹的成功率，而且使得声纹生成方法更具灵活性。

请参考图11，其示出了本发明实施例所涉及的终端的结构示意图，该终端包括上述实施例中的客户端，并可以用于实施上述图2至图4所示实施例中任一实施例提供的声纹生成方法。具体来讲：

终端1100可以包括RF(Radio Frequency，射频)电路110、包括有一个或一个以上计算机可读存储介质的存储器120、输入单元130、显示单元140、传感器150、音频电路160、WiFi(Wireless Fidelity，无线保真)模块170、包括有一个或者一个以上处理核心的处理器180、以及电源190等部件。本领域技术人员可以理解，图11中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

RF电路110可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器180处理；另外，将涉及上行的数据发送给基站。通常，RF电路110包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、LNA(Low Noise Amplifier，低噪声放大器)、双工器等。此外，RF电路110还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议，包括但不限于GSM(Global System of Mobile communication，全球移动通讯系统)、GPRS(General Packet Radio Service，通用分组无线服务)、CDMA(Code Division Multiple Access，码分多址)、WCDMA(Wideband CodeDivision Multiple Access,宽带码分多址)、LTE(Long Term Evolution,长期演进)、电子邮件、SMS(Short Messaging Service，短消息服务)等。

存储器120可用于存储软件程序以及模块，处理器180通过运行存储在存储器120的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器120可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据终端1100的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器120还可以包括存储器控制器，以提供处理器180和输入单元130对存储器120的访问。

输入单元130可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，输入单元130可包括触敏表面131以及其他输入设备132。触敏表面131，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面131上或在触敏表面131附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面131可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器180，并能接收处理器180发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面131。除了触敏表面131，输入单元130还可以包括其他输入设备132。具体地，其他输入设备132可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元140可用于显示由用户输入的信息或提供给用户的信息以及终端1100的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元140可包括显示面板141，可选的，可以采用LCD(Liquid Crystal Display，液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板141。进一步的，触敏表面131可覆盖显示面板141，当触敏表面131检测到在其上或附近的触摸操作后，传送给处理器180以确定触摸事件的类型，随后处理器180根据触摸事件的类型在显示面板141上提供相应的视觉输出。虽然在图11中，触敏表面131与显示面板141是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面131与显示面板141集成而实现输入和输出功能。

终端1100还可包括至少一种传感器150，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板141的亮度，接近传感器可在终端1100移动到耳边时，关闭显示面板141和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于终端1100还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路160、扬声器161，传声器162可提供用户与终端1100之间的音频接口。音频电路160可将接收到的音频数据转换后的电信号，传输到扬声器161，由扬声器161转换为声音信号输出；另一方面，传声器162将收集的声音信号转换为电信号，由音频电路160接收后转换为音频数据，再将音频数据输出处理器180处理后，经RF电路110以发送给比如另一终端，或者将音频数据输出至存储器120以便进一步处理。音频电路160还可能包括耳塞插孔，以提供外设耳机与终端1100的通信。

WiFi属于短距离无线传输技术，终端1100通过WiFi模块170可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图11示出了WiFi模块170，但是可以理解的是，其并不属于终端1100的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器180是终端1100的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器120内的软件程序和/或模块，以及调用存储在存储器120内的数据，执行终端1100的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器180可包括一个或多个处理核心；优选的，处理器180可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器180中。

终端1100还包括给各个部件供电的电源190(比如电池)，优选的，电源可以通过电源管理系统与处理器180逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源190还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，终端1100还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，终端的显示单元是触摸屏显示器，终端还包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行。所述一个或者一个以上程序包含用于执行以下操作的指令：

将预设次数个注册声音数据提交至服务器，使服务器根据预设次数个注册声音数据生成注册声纹。

假设上述为第一种可能的实施方式，则在第一种可能的实施方式作为基础而提供的第二种可能的实施方式中，终端的存储器中，还包含用于执行以下操作的指令：将预设次数个注册声音数据提交至服务器，包括：

在第一种可能的实施方式作为基础而提供的第三种可能的实施方式中，终端的存储器中，还包含用于执行以下操作的指令：方法还包括：

确定是否需要进化注册声纹；

本发明实施例提供的客户端，通过获取合法用户的合法用户信息，并获取与合法用户信息相关的注册语料来触发声纹生成过程。由于注册语料为与合法用户的合法用户信息相关的语料，因此，能成功获取到合法用户根据与其合法用户信息相关的注册语料输入的注册声音数据，不仅能增加声纹生成的成功率，而且使得声纹生成方法更具灵活性。

本发明实施例提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质；也可以是单独存在，未装配入终端中的计算机可读存储介质。该计算机可读存储介质存储有一个或者一个以上程序，该一个或者一个以上程序被一个或者一个以上的处理器用来执行声纹生成方法，该方法包括：

假设上述为第一种可能的实施方式，则在第一种可能的实施方式作为基础而提供的第二种可能的实施方式中，终端的存储器中，还包含用于执行以下操作的指令：

将预设次数个注册声音数据提交至服务器，包括：

确定是否需要进化注册声纹；

本发明实施例提供的计算机可读存储介质，通过获取合法用户的合法用户信息，并获取与合法用户信息相关的注册语料来触发声纹生成过程。由于注册语料为与合法用户的合法用户信息相关的语料，因此，能成功获取到合法用户根据与其合法用户信息相关的注册语料输入的注册声音数据，不仅能增加声纹生成的成功率，而且使得声纹生成方法更具灵活性。

本发明实施例中提供了一种图形用户接口，该图形用户接口用在终端上，该终端包括触摸屏显示器、存储器和用于执行一个或者一个以上的程序的一个或者一个以上的处理器；该图形用户接口包括：

本发明实施例提供的图形用户接口，通过获取合法用户的合法用户信息，并获取与合法用户信息相关的注册语料来触发声纹生成过程。由于注册语料为与合法用户的合法用户信息相关的语料，因此，能成功获取到合法用户根据与其合法用户信息相关的注册语料输入的注册声音数据，不仅能增加声纹生成的成功率，而且使得声纹生成方法更具灵活性。

图12是根据一示例性实施例提供的一种声纹生成系统的结构示意图。参见图12，该系统包括声纹生成服务器1201和客户端1202，其中：

声纹生成服务器1201如上述图8或图9所示实施例中的服务器，具体可参见上述图8或图9所示实施例对应的内容，在此不再赘述；

客户端1202如上述图10或图11所示实施例中的客户端，具体可参见上述图10或图11所示实施例对应的内容，在此不再赘述。

本发明实施例提供的系统，通过服务器获取与合法用户的合法用户信息相关的注册语料，并向客户端下发注册语料，使客户端获取到合法用户根据注册语料输入的注册声音数据后，向服务器提交获取到的合法用户根据注册语料输入的注册声音数据，服务器根据注册声音数据生成注册声纹。由于注册语料为与合法用户的合法用户信息相关的语料，因此，能成功获取到合法用户根据与其合法用户信息相关的注册语料输入的注册声音数据，不仅能增加声纹生成的成功率，而且使得声纹生成方法更具灵活性。

需要说明的是：上述实施例提供的声纹生成服务器和客户端在生成声纹时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的声纹生成服务器、客户端及声纹生成系统与声纹生成方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种声纹生成方法，其特征在于，所述方法包括：

获取操作客户端的合法用户的合法用户信息；

获取与所述合法用户信息相关的注册语料；

向所述客户端发送所述注册语料；

根据所述预设次数个注册声音数据生成注册声纹。

2.根据权利要求1所述的方法，其特征在于，所述得到预设次数个注册声音数据之后，还包括：

确定所述预设次数个注册声音数据之间的相似度分值是否达到声纹注册相似度分值；

如果所述预设次数个注册声音数据之间的相似度分值达到所述声纹注册相似度分值，则执行根据所述预设次数个注册声音数据生成注册声纹的步骤。

3.根据权利要求1所述的方法，其特征在于，所述根据所述预设次数个注册声音数据生成注册声纹，包括：

拼接所述预设次数个注册声音数据；

根据拼接后的注册声音数据生成所述注册声纹。

4.根据权利要求1所述的方法，其特征在于，所述根据所述预设次数个注册声音数据生成注册声纹之后，还包括：

存储所述注册语料、所述预设次数个注册声音数据及所述注册声纹，并形成所述注册语料、所述预设次数个注册声音数据及所述注册声纹的映射关系。

5.根据权利要求4所述的方法，其特征在于，所述存储所述注册语料、所述预设次数个注册声音数据及所述注册声纹，包括：

对所述注册语料、所述预设次数个注册声音数据及所述注册声纹进行加密，并存储加密后的注册语料、预设次数个注册声音数据及注册声纹。

6.根据权利要求1所述的方法，其特征在于，所述分预设次数获取所述合法用户根据所述注册语料输入的注册声音数据，包括：

分预设次数获取所述客户端分片提交的所述合法用户每次根据所述注册语料输入的注册语音数据；

拼接所述客户端分片提交的所述合法用户每次根据所述注册语料输入的注册语音数据，得到所述合法用户每次根据所述注册语料输入的注册语音数据；

组合所述合法用户每次根据所述注册语料输入的注册语音数据，得到预设次数个所述合法用户根据所述注册语料输入的注册声音数据。

7.根据权利要求1至6中任一权利要求所述的方法，其特征在于，所述根据所述预设次数个注册声音数据生成注册声纹之后，还包括：

确定是否需要进化所述注册声纹；

如果确定需要进化所述注册声纹，则获取预设数值个进化声音数据，所述预设数值个进化声音数据为根据每次使用所述注册声纹进行声纹验证，且每次声纹验证通过后存储的验证声音数据筛选的至少一个验证声音数据；

根据所述预设次数个注册声音数据和所述预设数值个进化声音数据进化所述注册声纹，得到进化声纹，并使用所述进化声纹进行后续的声纹验证。

8.根据权利要求7所述的方法，其特征在于，所述确定是否需要进化所述注册声纹，包括：

确定是否接收到所述客户端发送的声纹进化请求；

如果接收到所述客户端发送的声纹进化请求，则确定需要进化所述注册声纹。

9.根据权利要求7所述的方法，其特征在于，所述确定是否需要进化所述注册声纹，包括：

确定是否达到自动进化所述注册声纹的预设条件；

如果确定达到自动进化所述注册声纹的预设条件，则确定需要进化所述注册声纹。

10.根据权利要求7所述的方法，其特征在于，所述获取预设数值个进化声音数据，包括：

根据每个验证声音数据的属性信息筛选预设数值个满足声纹进化条件的验证声音数据，将所述预设数值个满足声纹进化条件的验证声音数据作为预设数值个进化声音数据。

11.一种声纹生成方法，其特征在于，所述方法包括：

12.根据权利要求11所述的方法，其特征在于，所述将所述预设次数个注册声音数据提交至所述服务器，包括：

分预设次数对所述合法用户每次根据所述注册语料输入的注册语音数据进行分片；

将所述合法用户每次根据所述注册语料输入的注册语音数据分片提交至所述服务器，使所述服务器分片获取所述合法用户每次根据所述注册语料输入的注册语音数据，并组合所述合法用户每次根据所述注册语料输入的注册语音数据，得到预设次数个所述合法用户根据所述注册语料输入的注册声音数据。

13.根据权利要求11所述的方法，其特征在于，所述方法还包括：

确定是否需要进化所述注册声纹；

如果确定需要进化所述注册声纹，则向所述服务器发送进化所述注册声纹的声纹进化请求，使所述服务器根据所述声纹进化请求进化所述注册声纹。

14.一种声纹生成服务器，其特征在于，所述服务器包括：

发送模块，用于向所述客户端发送所述注册语料；

15.根据权利要求14所述的服务器，其特征在于，所述服务器，还包括：

第一确定模块，用于确定所述预设次数个注册声音数据之间的相似度分值是否达到声纹注册相似度分值；

所述生成模块，用于当所述预设次数个注册声音数据之间的相似度分值达到所述声纹注册相似度分值时，执行根据所述预设次数个注册声音数据生成注册声纹的步骤。

16.根据权利要求14所述的服务器，其特征在于，所述生成模块，包括：

拼接单元，用于拼接所述预设次数个注册声音数据；

生成单元，用于根据拼接后的注册声音数据生成所述注册声纹。

17.根据权利要求14所述的服务器，其特征在于，所述服务器，还包括：

存储模块，用于存储所述注册语料、所述预设次数个注册声音数据及所述注册声纹；

形成模块，用于形成所述注册语料、所述预设次数个注册声音数据及所述注册声纹的映射关系。

18.根据权利要求17所述的服务器，其特征在于，所述存储模块，包括：

加密单元，用于对所述注册语料、所述预设次数个注册声音数据及所述注册声纹进行加密；

19.根据权利要求14所述的服务器，其特征在于，所述第三获取模块，包括：

第一获取单元，用于分预设次数获取所述客户端分片提交的所述合法用户每次根据所述注册语料输入的注册语音数据；

拼接单元，用于拼接所述客户端分片提交的所述合法用户每次根据所述注册语料输入的注册语音数据，得到所述合法用户每次根据所述注册语料输入的注册语音数据；

组合单元，用于组合所述合法用户每次根据所述注册语料输入的注册语音数据，得到预设次数个所述合法用户根据所述注册语料输入的注册声音数据。

20.根据权利要求14至19中任一权利要求所述的服务器，其特征在于，所述服务器，还包括：

第二确定模块，用于确定是否需要进化所述注册声纹；

第四获取模块，用于当确定需要进化所述注册声纹时，获取预设数值个进化声音数据，所述预设数值个进化声音数据为根据每次使用所述注册声纹进行声纹验证，且每次声纹验证通过后存储的验证声音数据筛选的至少一个验证声音数据；

进化模块，用于根据所述预设次数个注册声音数据和所述预设数值个进化声音数据进化所述注册声纹，得到进化声纹，并使用所述进化声纹进行后续的声纹验证。

21.根据权利要求20所述的服务器，其特征在于，所述第二确定模块，包括：

第一确定单元，用于确定是否接收到所述客户端发送的声纹进化请求；

第二确定单元，用于当接收到所述客户端发送的声纹进化请求时，确定需要进化所述注册声纹。

22.根据权利要求20所述的服务器，其特征在于，所述第二确定模块，包括：

第三确定单元，用于确定是否达到自动进化所述注册声纹的预设条件；

第四确定单元，用于当确定达到自动进化所述注册声纹的预设条件时，确定需要进化所述注册声纹。

23.根据权利要求20所述的服务器，其特征在于，所述第四获取模块，包括：

筛选单元，用于根据每个验证声音数据的属性信息筛选预设数值个满足声纹进化条件的验证声音数据，将所述预设数值个满足声纹进化条件的验证声音数据作为预设数值个进化声音数据。

24.一种客户端，其特征在于，所述客户端包括：

25.根据权利要求24所述的客户端，其特征在于，所述提交模块，包括：

分片单元，用于分预设次数对所述合法用户每次根据所述注册语料输入的注册语音数据进行分片；

提交单元，用于将所述合法用户每次根据所述注册语料输入的注册语音数据分片提交至所述服务器，使所述服务器分片获取所述合法用户每次根据所述注册语料输入的注册语音数据，并组合所述合法用户每次根据所述注册语料输入的注册语音数据，得到预设次数个所述合法用户根据所述注册语料输入的注册声音数据。

26.根据权利要求24所述的客户端，其特征在于，所述客户端还包括：

确定模块，用于确定是否需要进化所述注册声纹；

发送模块，用于当确定需要进化所述注册声纹时，向所述服务器发送进化所述注册声纹的声纹进化请求，使所述服务器根据所述声纹进化请求进化所述注册声纹。

27.一种声纹生成系统，其特征在于，所述系统包括服务器和客户端；

其中，所述服务器如上述权利要求14至23中任一权利要求所述的服务器；

所述客户端如上述权利要求24至26中任一权利要求所述的客户端。