CN111178287A

CN111178287A - 一种声像融合的端对端身份识别方法及装置

Info

Publication number: CN111178287A
Application number: CN201911411247.1A
Authority: CN
Inventors: 郑大川
Original assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-05-19

Abstract

本发明公开了一种声像融合的端对端身份识别方法及装置，包括：获取待识别的若干个个体分别录制的预设数目个视频；根据所述若干个个体分别录制的预设数目个视频对所述若干个个体进行注册，以得到注册后的若干个个体信息；获取当前个体录制的当前视频；根据所述当前视频和所述注册后的若干个个体信息，对所述当前个体进行身份识别。通过本发明的技术方案，身份识别准确率高。

Description

一种声像融合的端对端身份识别方法及装置

技术领域

本发明涉及身份识别技术领域，特别涉及一种声像融合的端对端身份识别方法及装置。

背景技术

随着网络的发展，互联网安全问题日益突出，目前身份识别包括声纹识别和人脸识别；声纹识别，通过麦克风获取用户的一段声音，通过网络提取该语音的特征，通过该特征与用户本身的特征进行对比，进而识别用户的身份；人脸识别，通过摄像头获取待识别用户的人脸图像，通过网络提取该用户的人脸特征，与预存的用户人脸特征进行对比，进行用户身份的识别。单独通过声纹识别技术或人脸识别技术对用户的身份进行识别准确率低。

发明内容

本发明提供一种声像融合的端对端身份识别方法及装置。所述技术方案如下：

根据本发明实施例的第一方面，提供了一种声像融合的端对端身份识别方法，包括：

获取待识别的若干个个体分别录制的预设数目个视频；

根据所述若干个个体分别录制的预设数目个视频对所述若干个个体进行注册，以得到注册后的若干个个体信息；

获取当前个体录制的当前视频；

根据所述当前视频和所述注册后的若干个个体信息，对所述当前个体进行身份识别。

在一个实施例中，还包括：

获取端对端神经网络；

通过所述端对端神经网络对所述当前视频进行计算，以得到活体检测分值及第一特征向量；

判断所述活体检测分值是否大于第一预设阈值，当所述活体检测分值大于所述第一预设阈值时，确定所述当前个体为活体；

当所述活体检测分值小于所述第一预设阈值时，确定所述当前个体为非活体。

在一个实施例中，所述根据所述若干个个体分别录制的预设数目个视频对所述若干个个体进行注册，以得到注册后的若干个个体信息，包括：

通过所述端对端神经网络对所述若干个个体分别录制的预设数目个视频进行计算，以得到所述若干个个体分别录制的预设数目个视频各自对应的特征向量；

对所述若干个个体分别录制的预设数目个视频各自对应的特征向量进行平均处理，以得到所述若干个个体分别对应的最终向量；

将所述若干个个体分别对应的最终向量存储至个体库中，并对所述若干个个体进行编号，以得到若干个个体ID。

在一个实施例中，所述根据所述当前视频和所述注册后的若干个个体信息，对所述当前个体进行身份识别，包括：

将所述第一特征向量与所述个体库中若干个个体分别对应的最终向量进行距离计算，得到若干个距离值；

获取所述若干个距离值中最小的值，及所述若干个距离值中最小的值对应的个体ID；

判断所述若干个距离值中最小的值是否大于第二预设阈值，当所述若干个距离值中最小的值小于所述第二预设阈值时，确定所述当前个体为若干个距离值中最小的值对应的个体，并返回所述若干个距离值中最小的值对应的个体ID；

当所述若干个距离值中最小的值大于所述第二预设阈值时，确定所述当前个体不在所述个体库中。

在一个实施例中，包括：

所述确定所述当前个体为非活体或确定所述当前个体不在所述个体库中时，结束本次识别过程，或

所述返回所述若干个距离值中最小的值对应的个体ID之后，结束本次识别过程。

根据本发明实施例的第二方面，提供了一种声像融合的端对端身份识别装置，包括：；

第一获取模块，用于获取待识别的若干个个体分别录制的预设数目个视频；

注册模块，用于根据所述若干个个体分别录制的预设数目个视频对所述若干个个体进行注册，以得到注册后的若干个个体信息；

第二获取模块，用于获取当前个体录制的当前视频；

识别模块，用于根据所述当前视频和所述注册后的若干个个体信息，对所述当前个体进行身份识别。

在一个实施例中，还包括：

第三获取模块，用于获取端对端神经网络；

计算模块，用于通过所述端对端神经网络对所述当前视频进行计算，以得到活体检测分值及第一特征向量；

判断模块，用于判断所述活体检测分值是否大于第一预设阈值，当所述活体检测分值大于所述第一预设阈值时，确定所述当前个体为活体；

所述判断模块，还用于当所述活体检测分值小于所述第一预设阈值时，确定所述当前个体为非活体。

在一个实施例中，所述注册模块，包括：

第一计算子模块，用于通过所述端对端神经网络对所述若干个个体分别录制的预设数目个视频进行计算，以得到所述若干个个体分别录制的预设数目个视频各自对应的特征向量；

处理子模块，用于对所述若干个个体分别录制的预设数目个视频各自对应的特征向量进行平均处理，以得到所述若干个个体分别对应的最终向量；

存储子模块，用于将所述若干个个体分别对应的最终向量存储至个体库中，并对所述若干个个体进行编号，以得到若干个个体ID。

在一个实施例中，所述识别模块，包括：

第二计算子模块，用于将所述第一特征向量与所述个体库中若干个个体分别对应的最终向量进行距离计算，得到若干个距离值；

获取子模块，用于获取所述若干个距离值中最小的值，及所述若干个距离值中最小的值对应的个体ID；

判断子模块，用于判断所述若干个距离值中最小的值是否大于第二预设阈值，当所述若干个距离值中最小的值小于所述第二预设阈值时，确定所述当前个体为若干个距离值中最小的值对应的个体，并返回所述若干个距离值中最小的值对应的个体ID；

所述判断子模块，还用于当所述若干个距离值中最小的值大于所述第二预设阈值时，确定所述当前个体不在所述个体库中。

在一个实施例中，包括：

本发明实施例提供的技术方案可以包括以下有益效果：

获取待识别的若干个个体分别录制的预设数目个视频，通过若干个个体分别录制的预设数目个视频对若干个个体进行注册，进而得到注册后的若干个个体信息，当需要进行身份识别时，获取当前个体录制的当前视频，且通过当前视频与注册后的若干个个体信息进行匹配，以对当前个体进行身份识别，由于进行注册的视频和当前视频中都具有个体的声音信息和人脸信息，故相比于单独进行声纹识别或者人脸识别而言，本发明技术方案的身份识别准确率更高。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明一实施例中一种声像融合的端对端身份识别方法的流程图；

图2为本发明一实施例中另一种声像融合的端对端身份识别方法的流程图；

图3为本发明一实施例中一种声像融合的端对端身份识别装置的框图；

图4为本发明一实施例中另一种声像融合的端对端身份识别装置的框图；

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

图1为本发明一实施例中一种声像融合的端对端身份识别方法的流程图，如图1所示，该方法可被实施为如下步骤S11-S14：

在步骤S11中，获取待识别的若干个个体分别录制的预设数目个视频；其中，预设数目个视频中包含个体的人脸图像及说话内容，并且预设数目个说话内容不一样。

在步骤S12中，根据若干个个体分别录制的预设数目个视频对若干个个体进行注册，以得到注册后的若干个个体信息；

在步骤S13中，获取当前个体录制的当前视频；

在步骤S14中，根据当前视频和注册后的若干个个体信息，对当前个体进行身份识别。

在一个实施例中，一种声像融合的端对端身份识别方法还包括：

获取端对端神经网络；

通过所述端对端神经网络对所述当前视频进行计算，以得到活体检测分值及第一特征向量；其中，通过图像提取器和声音提取器分别提取出当前视频中用户的人脸信息和声音信息，通过端对端神经网络对所述人脸信息和声音信息进行计算，得到活体检测分值及第一特征向量，活体检测分值是通过端对端神经网络中活体检测分支对人脸信息和声音信息进行计算得到的。

通过端对端神经网络对当前个体录制的当前视频中的人脸信息和声音信息进行计算，能够得到活体检测分值及第一特征向量，通过对活体检测分值进行判断能够得到当前正在进行身份识别的个体是活体还是非活体，进一步的保证个体身份的安全。

如图2所示，在一个实施例中，上述步骤S12可被实施为如下步骤S121-S123：

在步骤S121中，通过端对端神经网络对若干个个体分别录制的预设数目个视频进行计算，以得到若干个个体分别录制的预设数目个视频各自对应的特征向量；其中，通过图像提取器和声音提取器分别提取出预设数目个视频中若干个个体各自对应的的人脸信息和声音信息，通过端对端神经网络对这些人脸信息和声音信息进行计算，得到特征向量。

在步骤S122中，对若干个个体分别录制的预设数目个视频各自对应的特征向量进行平均处理，以得到若干个个体分别对应的最终向量；

在步骤S123中，将若干个个体分别对应的最终向量存储至个体库中，并对若干个个体进行编号，以得到若干个个体ID。

通过端对端神经网络对若干个个体分别录制的预设数目个视频中的人脸信息和声音信息进行计算，能够得到若干个个体分别录制的预设数目个视频各自对应的特征向量，再对若干个个体分别录制的预设数目个视频各自对应的特征向量进行平均化处理，得到若干个个体分别对应的最终向量，之后将若干个最终向量存储至个体库中，并且对若干个个体进行编号，通过这一过程完成了对若干个个体的注册，能够为需要进行身份识别的个体提供可靠的对比数据。

通过对第一特征向量与个体库中若干个个体分别对应的最终向量分别进行距离计算，会得到若干个距离值，选出若干个距离值进行判断，能够判断当前个体是否对应个题库中的个体，也就是说，当对应时身份识别成功，当不对应时，身份识别失败，本技术方案使得身份的识别更加智能化。

在一个实施例中，包括：

当确定当前个体为非活体或确定当前个体不在所述个体库中时，结束本次识别过程，能够提高识别效率；而返回所述若干个距离值中最小的值对应的个体ID之后，结束本次识别过程，证明本次身份识别已经成功。

对发明实施例提供的上述一种声像融合的端对端身份识别方法，本发明实施例还提供一种声像融合的端对端身份识别装置，如图3所示，该装置包括：

第一获取模块31，用于获取待识别的若干个个体分别录制的预设数目个视频；

注册模块32，用于根据所述若干个个体分别录制的预设数目个视频对所述若干个个体进行注册，以得到注册后的若干个个体信息；

第二获取模块33，用于获取当前个体录制的当前视频；

识别模块34，用于根据所述当前视频和所述注册后的若干个个体信息，对所述当前个体进行身份识别。

在一个实施例中，一种声像融合的端对端身份识别装置还包括：

第三获取模块，用于获取端对端神经网络；

如图4所示，在一个实施例中，所述注册模块32，包括：

第一计算子模块321，用于通过所述端对端神经网络对所述若干个个体分别录制的预设数目个视频进行计算，以得到所述若干个个体分别录制的预设数目个视频各自对应的特征向量；

处理子模块322，用于对所述若干个个体分别录制的预设数目个视频各自对应的特征向量进行平均处理，以得到所述若干个个体分别对应的最终向量；

存储子模块323，用于将所述若干个个体分别对应的最终向量存储至个体库中，并对所述若干个个体进行编号，以得到若干个个体ID。

在一个实施例中，所述识别模块，包括：

在一个实施例中，包括：

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种声像融合的端对端身份识别方法，其特征在于，包括：

获取待识别的若干个个体分别录制的预设数目个视频；

获取当前个体录制的当前视频；

2.如权利要求1所述的方法，其特征在于，还包括：

获取端对端神经网络；

3.如权利要求2所述的方法，其特征在于，所述根据所述若干个个体分别录制的预设数目个视频对所述若干个个体进行注册，以得到注册后的若干个个体信息，包括：

4.如权利要求3所述的方法，其特征在于，所述根据所述当前视频和所述注册后的若干个个体信息，对所述当前个体进行身份识别，包括：

5.如权利要求4所述的方法，其特征在于，包括：

6.一种声像融合的端对端身份识别装置，其特征在于，包括：；

第二获取模块，用于获取当前个体录制的当前视频；

7.如权利要求6所述的装置，其特征在于，还包括：

第三获取模块，用于获取端对端神经网络；

8.如权利要求7所述的装置，其特征在于，所述注册模块，包括：

9.如权利要求8所述的装置，其特征在于，所述识别模块，包括：

10.如权利要求9所述的装置，其特征在于，包括：