CN107395352B

CN107395352B - 基于声纹的身份识别方法及装置

Info

Publication number: CN107395352B
Application number: CN201610321746.1A
Authority: CN
Inventors: 彭丹丹
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2016-05-16
Filing date: 2016-05-16
Publication date: 2019-05-07
Anticipated expiration: 2036-05-16
Also published as: CN107395352A; WO2017197953A1

Abstract

本发明实施例公开了一种基于声纹的身份识别方法，包括：采集即时通信应用中作为发送方的用户账号传输的语音数据；根据采集的语音数据进行声纹识别模型训练，创建与所述用户账号对应的声纹特征库；接收发起的身份验证请求，获取输入的目标用户账号和目标语音数据；查找与所述目标用户账号匹配的声纹特征库，在所述目标语音数据与所述查找到的声纹特征库匹配时，判定所述目标用户账号的身份校验通过。另外，本发明实施例还相应地公开了一种基于声纹的身份识别装置。采用本发明，可提高用户录入样本声纹的操作便利性。

Description

基于声纹的身份识别方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种基于声纹的身份识别方法及装置。

背景技术

声纹识别技术即说话人语音的识别技术，是一种通过语音信号提取代表说话人身份的相关特征，例如反映声门开合频率的基频特征、反映口腔大小形状及声道长度的频谱特征等，进而识别出说话人身份等方面的技术。它可以广泛应用于信息安全、电话银行、智能门禁以及娱乐增值等领域。声纹识别所提供的安全性可与其他生物识别技术(指纹、掌形和虹膜)相媲美，且只需电话或麦克风即可，无需特殊的设备，数据采集极为方便，造价低廉，是最为经济、可靠、简便和安全的身份识别方式。在任何时候，只需输入说话者的语音，依靠独特的声纹便可被安全地鉴别。在电话信道中的表现更突出，是唯一可用于远程控制的非接触式生物识别技术。

然而，为了提高作为样本的声纹特征的置信度，即使声纹识别的准确度得到提高，通常需要用户在录入样本声纹时，阅读大量的文字，从而提取较完整的声纹特征。这就使得用户录入样本声纹的过程耗时较长，从而导致操作的便利性不足。

发明内容

基于此，为解决传统技术中为了提取较完整的声纹特征，需要用户在录入样本声纹时阅读大量的文字，从而导致的操作便利性较差的技术问题，特提出了一种基于声纹的身份识别方法。

一种基于声纹的身份识别方法，包括：

采集即时通信应用中作为发送方的用户账号传输的语音数据；

根据采集的语音数据进行声纹识别模型训练，创建与所述用户账号对应的声纹特征库；

接收发起的身份验证请求，获取输入的目标用户账号和目标语音数据；

查找与所述目标用户账号匹配的声纹特征库，在所述目标语音数据与所述查找到的声纹特征库匹配时，判定所述目标用户账号的身份校验通过。

此外，为解决传统技术中为了提取较完整的声纹特征，需要用户在录入样本声纹时阅读大量的文字，从而导致的操作便利性较差的技术问题，还提出了一种基于声纹的身份识别装置。

一种基于声纹的身份识别装置，包括：

语音数据采集模块，用于采集即时通信应用中作为发送方的用户账号传输的语音数据；

声纹特征库创建模块，用于根据采集的语音数据进行声纹识别模型训练，创建与所述用户账号对应的声纹特征库；

目标信息获取模块，用于接收发起的身份验证请求，获取输入的目标用户账号和目标语音数据；

声纹比对模块，用于查找与所述目标用户账号匹配的声纹特征库，在所述目标语音数据与所述查找到的声纹特征库匹配时，判定所述目标用户账号的身份校验通过。

实施本发明实施例，将具有如下有益效果：

采用了上述基于声纹的身份识别方法和装置之后，用户不需要前期专门地阅读大量的训练文本来录入声纹特征从而建立声纹特征库，而可由终端或服务器采集用户日常发送的即时通信消息中的语音数据作为用户的声纹特征的训练样本，从而节省了用户录入声纹特征的时间，提高了操作的便利性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

其中：

图1为一个实施例中一种基于声纹的身份识别方法的流程示意图；

图2为一个实施例中发送语音片段的即时通信应用界面示意图；

图3为一个实施例中提供随机码阅读校验的界面示意图；

图4为一个实施例中一种基于声纹的身份识别装置的结构示意图；

图5为一个实施例中运行前述基于声纹的身份识别方法的计算机设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为解决传统技术中为了提取较完整的声纹特征，需要用户在录入样本声纹时阅读大量的文字，从而导致的操作便利性较差的技术问题，特提出了一种基于声纹的身份识别方法。该方法的实现可依赖于计算机程序，该计算机程序可运行于基于冯诺依曼体系的计算机系统之上，该计算机程序可以是即时通信应用或者具有即时通信功能的社交网络应用的客户端程序或者服务器程序，执行上述服务器程序的计算机系统可以是运行即时通信应用或具有即时通信功能的社交网络应用的客户端程序的终端设备，也可以是运行即时通信应用或具有即时通信功能的社交网络应用的服务器程序的服务器设备。

具体的，如图1所示，该基于声纹的身份识别方法包括：

步骤S102：采集即时通信应用中作为发送方的用户账号传输的语音数据。

用户在使用即时通信应用，例如微信、QQ时，这些即时通信应用均提供了语音片段通话的功能。如图2所示，用户通过长按虚拟按键，即可通过手机上的麦克风输入语音数据的片段，释放虚拟按键之后，该语音数据即可发送至接收方的用户。

用户在使用即时通信应用时，需要先登录用户账号。在本实施例中，终端只采集该登录的用户账号发送的语音数据，而不采集该登录的用户账号接收的语音数据。即时通信应用采集用户通过手机麦克风输入的语音数据时，通常将其缓存在预设的存储地址中，待采集完得到一次完整的语音数据输入时(即用户释放虚拟按键时，一次采集语音数据完成，生成相应的语音数据文件)，才将其发送给服务器或其他终端。终端在执行该基于声纹的身份识别方法时，即可在此缓存的存储地址中得到该语音数据。

步骤S104：根据采集的语音数据进行声纹识别模型训练，创建与所述用户账号对应的声纹特征库。

由于用户日常使用微信、QQ等即时通信应用的次数较多，发送语音片段的次数也较多，因此可在多次执行步骤S102时，采集到多条与同一登录的用户账号对应的语音片段(数据)。该采集到的多条语音数据可作为样本，输入到声纹识别模型中进行机器学习。

例如，可提取采集到的每条语音数据在频谱、倒频谱、共振峰、基音、反射系数、韵律、节奏、速度、语调、音量等特征向量上的特征值，然后通过现有的声纹识别模型进行训练，从而得到与该登录的用户账号对应的声纹特征库。

步骤S106：接收发起的身份验证请求，获取输入的目标用户账号和目标语音数据。

步骤S108：查找与所述目标用户账号匹配的声纹特征库，在所述目标语音数据与所述查找到的声纹特征库匹配时，判定所述目标用户账号的身份校验通过。

在声纹特征库创建之后，则可通过声纹特征库进行用户身份验证(在采集的语音特征数据较少，或声纹特征库未创建时，则可提示用户更换其他的身份验证方式)。用户在终端上登录时，即可选择声纹验证的方式，输入相应的目标用户账号，并通过麦克风输入一段语音(目标语音数据)。终端可先查找与输入的目标用户账号对应的声纹特征库，然后将目标语音数据与声纹特征库进行匹配，若匹配成功，则可判定目标用户账号的身份校验通过。

需要说明的是，上述方法也可由即时通信应用或具有即时通信应用功能社交应用执行：

在一个由服务器执行上述方法的应用场景中，终端之间发送语音片段需要通过服务器进行转发，终端之间无法直接传输音频数据。服务器可在转发终端之间传输的语音数据时，采集作为发送方的用户账号所登录的终端发送的语音数据，并建立采集到的语音数据与发送方的用户账号的映射关系。

例如，用户账号A在终端上登录后向其他好友发送的语音数据均需要通过服务器进行转发，因此服务器可将用户账号A发送的语音数据均采集到，并生成与用户账号A对应的声纹特征库。用户可使用用户账号A在其他终端上登录服务器，并通过终端输入目标语音数据之后上传至服务器，服务器查找用户账号A对应的声纹特征库，然后判断该上传的目标语音数据是否与查找到的声纹特征库匹配，若是，则用户账号A完成在服务器上的登录。

另外，上述基于声纹的身份识别方法也可不限于用户账号登录的场景，也可用于用户账号的密码找回/申诉等场景。例如，在一个应用场景中，即时通信应用QQ和微信的用户账号为相互关联的用户账号。用户使用QQ的密码找回功能时，可选择关联账号验证的方式选择微信账号。此时，服务器可查找与需要密码找回的QQ号对应的微信账号，然后查找与该微信账号对应的声纹特征库，并接收用户通过麦克风输入的用于身份验证的目标语音数据，通过匹配，在成功时，则判定身份验证通过，提示用户重置QQ密码或通过预绑定的邮箱发送密码。

进一步的，在一个应用场景中，接收发起的身份验证请求之后，还可生成目标文本内容并在终端上展示给用户。提示用户阅读上述目标文本内容。然后接收与所述展示的目标文本内容对应的目标语音数据输入，即用户阅读终端上展示的目标文本内容时输入的目标语音数据。

在本实施例中，在判定所述目标用户账号的身份校验是否通过时，还可通过语音识别将所述目标语音数据转换成文本数据；在所述文本数据与所述目标文本内容匹配时，判定所述目标用户账号的身份校验通过。

如图3所示，用户在进行身份验证时，终端还会展示一串终端或服务器生成的文本内容“85274196”，并提示用户阅读这些数字。用户阅读这些数字所生成的目标语音数据则上传至服务器。服务器不仅提取目标语音数据的频谱、倒频谱、共振峰、基音、反射系数、韵律、节奏、速度、语调或音量等特征向量，还会对语音数据进行语音识别，识别此目标语音数据的语义内容。若在其声纹匹配的前提下，其语义也为“85274196”，或者识别出的拼音为“85274196”的拼音字符串，则才判定该用户身份验证通过。

采用此种声纹验证和语义验证结合的方式对用户进行身份验证，可防止不法分子通过使用其他用户的录音来进行身份验证。例如，若仅使用声纹进行身份验证，当用户B持有用户A的录音时，其可使用用户A的账号登录，并通过播放录音来输入目标语音数据，从而可顺利身份验证通过，以用户A的身份登录系统，窃取用户隐私。而采用了上述结合声纹验证和语义验证的方式来进行身份验证，即使用户B持有用户A的录音，但由于展示给用户B提示用户阅读的文本内容可以是随机生成的，用户B只能通过播放录音通过声纹验证，但无法顺利通过语义验证，因此，提高了身份验证的安全性。

在本实施例中，为了节约计算性能，在创建与所述用户账号对应的声纹特征库之后还可判断所述创建的与所述用户账号对应的声纹特征库的置信度是否大于或等于阈值，若是，则停止采集即时通信应用中作为发送方的用户账号传输的语音数据。

例如，若服务器已经采集到了100条样本的语音数据，并生成了声纹特征库。当采集到101条样本的语音数据时，可将其与已创建的声纹特征库进行匹配，匹配成功的概率即为声纹特征库的置信度。若声纹特征库的置信度较高，则意味着声纹特征库已能够较准确地识别声纹，因此，可停止采集样本的语音数据，从而节约计算机资源。

在本实施例中，获取输入的目标用户账号和目标语音数据包括：至少接收一次输入的目标语音数据。判定所述目标用户账号的身份校验通过之前还包括：判断所述至少一次接收到的目标语音数据与所述查找到的声纹特征库的匹配次数/比例，在所述匹配次数/比例大于或等于阈值时，判定所述目标语音数据与所述查找到的声纹特征库匹配。

由于在样本较少时，声纹特征匹配可能存在不准确的情况，因此，可通过多次匹配来进行身份验证。当用户在身份验证的过程中，多次输入的目标语音数据大部分或较大比例地验证通过时，才判定身份验证通过，从而可提高身份验证的准确性。

在一个实施例中，查找与所述目标用户账号匹配的声纹特征库之后还可在所述目标语音数据与所述查找到的声纹特征库连续不匹配的次数大于或等于阈值时，锁定所述目标用户账号。

也就是说，如果用户语音进行连续多次身份验证不通过，则可将该用户登录的账号锁定，不允许其再次登录，需要用户通过其他身份验证方式解锁。或者可将该目标用户账号锁定一定的时长，待锁定时间抵达时，再对目标用户账号解锁，允许其登录系统，从而防止不法分子通过模仿声音多次尝试来进行身份验证，提高了安全性。

此外，为解决传统技术中为了提取较完整的声纹特征，需要用户在录入样本声纹时阅读大量的文字，从而导致的操作便利性较差的技术问题，在一个实施例中，还提出了一种基于声纹的身份识别装置，如图4所示，上述基于声纹的身份识别装置包括语音数据采集模块102、声纹特征库创建模块104、目标信息获取模块106以及声纹比对模块108，其中：

语音数据采集模块102，用于采集即时通信应用中作为发送方的用户账号传输的语音数据；

声纹特征库创建模块104，用于根据采集的语音数据进行声纹识别模型训练，创建与所述用户账号对应的声纹特征库；

目标信息获取模块106，用于接收发起的身份验证请求，获取输入的目标用户账号和目标语音数据；

声纹比对模块108，用于查找与所述目标用户账号匹配的声纹特征库，在所述目标语音数据与所述查找到的声纹特征库匹配时，判定所述目标用户账号的身份校验通过。

可选的，在其中一个实施例中，如图4所示，所述目标信息获取模块106还用于生成目标文本内容并展示；获取输入的目标用户账号，接收与所述展示的目标文本内容对应的目标语音数据输入。

可选的，在其中一个实施例中，所述声纹比对模块108还用于通过语音识别将所述目标语音数据转换成文本数据；在所述文本数据与所述目标文本内容匹配时，判定所述目标用户账号的身份校验通过。

可选的，在其中一个实施例中，如图4所示，上述装置还包括语音数据采集停止模块110，用于判断所述创建的与所述用户账号对应的声纹特征库的置信度是否大于或等于阈值，若是，则停止采集即时通信应用中作为发送方的用户账号传输的语音数据。

可选的，在其中一个实施例中，所述目标信息获取模块106还用于至少接收一次输入的目标语音数据；所述声纹比对模块108还用于判断所述至少一次接收到的目标语音数据与所述查找到的声纹特征库的匹配次数/比例，在所述匹配次数/比例大于或等于阈值时，判定所述目标语音数据与所述查找到的声纹特征库匹配。

可选的，在其中一个实施例中，如图4所示，上述装置还包括目标用户账号锁定模块112，用于在所述目标语音数据与所述查找到的声纹特征库不匹配时，锁定所述目标用户账号。

实施本发明实施例，将具有如下有益效果：

在一个实施例中，如图5所示，图5展示了一种运行上述基于声纹的身份识别方法的基于冯诺依曼体系的计算机系统的终端10。该计算机系统可以是智能手机、平板电脑、掌上电脑，笔记本电脑或个人电脑等终端设备。具体的，可包括通过系统总线连接的外部输入接口1001、处理器1002、存储器1003和输出接口1004。其中，外部输入接口1001可选的可至少包括网络接口10012。存储器1003可包括外存储器10032(例如硬盘、光盘或软盘等)和内存储器10034。输出接口1004可至少包括显示屏10042等设备。

在本实施例中，本方法的运行基于计算机程序，该计算机程序的程序文件存储于前述基于冯诺依曼体系的计算机系统10的外存储器10032中，在运行时被加载到内存储器10034中，然后被编译为机器码之后传递至处理器1002中执行，从而使得基于冯诺依曼体系的计算机系统10中形成逻辑上的语音数据采集模块102、声纹特征库创建模块104、目标信息获取模块106、声纹比对模块108、语音数据采集停止模块110以及目标用户账号锁定模块112。且在上述基于声纹的身份识别执行过程中，输入的参数均通过外部输入接口1001接收，并传递至存储器1003中缓存，然后输入到处理器1002中进行处理，处理的结果数据或缓存于存储器1003中进行后续地处理，或被传递至输出接口1004进行输出。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种基于声纹的身份识别方法，其特征在于，包括：

从缓存中采集多条即时通信应用中作为发送方的用户账号传输的语音数据；提取采集到的每条语音数据的特征值，所述特征值包括频谱、倒频谱、共振峰、基音、反射系数、韵律、节奏、速度、语调、音量特征向量上的特征值；

根据采集的多条语音数据的所述特征值进行声纹识别模型训练，创建与所述用户账号对应的声纹特征库；

在声纹特征库创建之后，判断所述创建的与所述用户账号对应的声纹特征库的置信度是否大于或等于阈值，若是，则停止从缓存中采集即时通信应用中作为发送方的用户账号传输的语音数据；

接收发起的身份验证请求，生成目标文本内容并展示，获取输入的目标用户账号，接收与所述展示的目标文本内容对应的目标语音数据输入，所述目标文本是由终端或服务器随机生成的文本内容；

查找与所述目标用户账号匹配的声纹特征库，在所述目标语音数据与所述查找到的声纹特征库匹配时，通过语音识别将所述目标语音数据转换成文本数据；

在所述文本数据与所述目标文本内容匹配时，判定所述目标用户账号的身份校验通过；

若声纹特征库未创建，提示用户更换其他的身份验证方式。

2.根据权利要求1所述的基于声纹的身份识别方法，其特征在于，所述获取输入的目标用户账号和目标语音数据包括：

至少接收一次输入的目标语音数据；

所述判定所述目标用户账号的身份校验通过之前还包括：判断所述至少一次接收到的目标语音数据与所述查找到的声纹特征库的匹配次数/比例，在所述匹配次数/比例大于或等于阈值时，判定所述目标语音数据与所述查找到的声纹特征库匹配。

3.根据权利要求1所述的基于声纹的身份识别方法，其特征在于，所述查找与所述目标用户账号匹配的声纹特征库之后还包括：

在所述目标语音数据与所述查找到的声纹特征库不匹配时，锁定所述目标用户账号。

4.一种基于声纹的身份识别装置，其特征在于，包括：

语音数据采集模块，用于从缓存中采集多条即时通信应用中作为发送方的用户账号传输的语音数据；

声纹特征库创建模块，用于提取采集到的每条语音数据的特征值，所述特征值包括频谱、倒频谱、共振峰、基音、反射系数、韵律、节奏、速度、语调、音量特征向量上的特征值；根据采集的多条语音数据的所述特征值进行声纹识别模型训练，创建与所述用户账号对应的声纹特征库；

语音数据采集停止模块，用于在声纹特征库创建之后，判断所述创建的与所述用户账号对应的声纹特征库的置信度是否大于或等于阈值，若是，则停止从缓存中采集即时通信应用中作为发送方的用户账号传输的语音数据；

目标信息获取模块，用于在声纹特征库创建之后，接收发起的身份验证请求，生成目标文本内容并展示；获取输入的目标用户账号，接收与所述展示的目标文本内容对应的目标语音数据输入，所述目标文本是由终端或服务器随机生成的文本内容；

声纹比对模块，用于在声纹特征库创建之后，查找与所述目标用户账号匹配的声纹特征库，在所述目标语音数据与所述查找到的声纹特征库匹配时，通过语音识别将所述目标语音数据转换成文本数据；在所述文本数据与所述目标文本内容匹配时，判定所述目标用户账号的身份校验通过。

5.根据权利要求4所述的基于声纹的身份识别装置，其特征在于，所述目标信息获取模块还用于至少接收一次输入的目标语音数据；

所述声纹比对模块还用于判断所述至少一次接收到的目标语音数据与所述查找到的声纹特征库的匹配次数/比例，在所述匹配次数/比例大于或等于阈值时，判定所述目标语音数据与所述查找到的声纹特征库匹配。

6.根据权利要求4所述的基于声纹的身份识别装置，其特征在于，所述装置还包括目标用户账号锁定模块，用于在所述目标语音数据与所述查找到的声纹特征库不匹配时，锁定所述目标用户账号。