CN108446674A

CN108446674A - 电子装置、基于人脸图像与声纹信息的身份识别方法及存储介质

Info

Publication number: CN108446674A
Application number: CN201810401558.9A
Authority: CN
Inventors: 王义文; 王健宗; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-04-28
Filing date: 2018-04-28
Publication date: 2018-08-24
Also published as: WO2019205369A1

Abstract

本发明公开了一种电子装置、基于人脸图像及声纹信息的身份识别方法及存储介质，所述基于人脸图像及声纹信息的身份识别方法包括：向终端发送采集该用户的声纹信息及摄取人脸图像的指令；将所述终端返回的声纹信息以及人脸图像进行处理，得到第一特征向量；分析得到的第一特征向量与预存的第二特征向量之间的相似度，所述第二特征向量为预存的该用户的标准样本向量；若分析得到的相似度小于或等于预设的相似度阈值，则确定对该用户的身份识别通过，若分析得到的相似度大于预设的相似度阈值，则确定对该用户的身份识别不通过。能够将人脸图像和声纹信息同时进行识别，在保证身份识别效率的同时提高了身份识别的准确率。

Description

电子装置、基于人脸图像与声纹信息的身份识别方法及存储介质

技术领域

本发明涉及人脸识别技术领域，尤其涉及一种电子装置、基于人脸图像与声纹信息的身份识别方法及存储介质。

背景技术

常用的人脸识别技术通常只是识别人的面部特征，无法防止恶意者伪造和窃取他人的生物特征来冒充别人进行身份认证，产生一定的安全风险。因此，在进行人脸识别的同时还需要进行人脸活体检测。而目前对人脸活体检测的方法是通过对待识别的人脸进行指令动作配合的方式，如人脸左转、右转、张嘴、眨眼等指令动作，如果人脸对指令动作配合错误则认为是伪造欺骗。这种人脸活体检测的方法和人脸图像的识别是分开进行的，导致整个身份识别效率低下，特别是在待识别身份的人数较多的情况下，严重影响身份识别的效率，浪费大量的时间。

发明内容

有鉴于此，本发明提出一种电子装置、基于人脸图像与声纹信息的身份识别方法及存储介质，能够将人脸图像和声纹信息同时进行识别，在保证身份识别效率的同时提高了身份识别的准确率。

首先，为实现上述目的，本发明提出一种电子装置，所述电子装置包括存储器、及与所述存储器连接的处理器，所述处理器用于执行所述存储器上存储的基于人脸图像与声纹信息的身份识别程序，所述基于人脸图像与声纹信息的身份识别程序被所述处理器执行时实现如下步骤：

A1、接收到终端发送的识别用户身份的请求后，向所述终端发送采集该用户的声纹信息及摄取人脸图像的指令；

A2、根据预先训练完成的数据处理模型对所述终端返回的声纹信息以及人脸图像进行处理，得到第一特征向量；

A3、根据预定义的相似性分析算法分析得到的第一特征向量与预存的第二特征向量之间的相似度，所述第二特征向量为预存的该用户的标准样本向量；

A4、若分析得到的相似度大于预设的相似度阈值，则确定对该用户的身份识别通过，并向所述终端发送身份识别通过指令；

A5、若分析得到的相似度小于或等于预设的相似度阈值，则确定对该用户身份识别不通过，并向所述终端发送身份识别不通过指令。

优选地，所述数据处理模型为双通道卷积神经网络模型，所述双通道卷积神经网络模型包括特征提取网络及特征向量生成网络；

其中，所述特征提取网络由两个相互独立的卷积神经网络分支构成，且两个卷积神经网络分支的网络结构相同，均包括输入层、三个卷积层和两个池化层，所述特征向量生成网络包括串接层、和全连接层。

优选地，所述数据处理模型包括训练过程以及测试过程，所述数据处理模型的训练过程包括：

E1、分别获取预设数量的具有身份标识信息的声纹信息及人脸图像信息，构成预设数量的样本信息对；

F1、将所述样本信息对分为第一比例的训练子集和第二比例的测试子集；

G1、利用所述训练子集中的样本信息对训练所述数据处理模型，以得到训练好的数据处理模型；

H1、利用所述测试子集中的样本信息对对所述数据处理模型进行测试，若测试通过，则训练结束，或者，若测试不通过，则增加所述样本信息对中样本的数量并重新执行上述步骤E1、F1、G1。

优选地，所述数据处理模型的测试过程包括：

利用训练好的所述数据处理模型分别对所述测试子集中的样本信息对进行处理，以得到所述测试子集中的各个样本信息对对应的第一特征向量；

分别获取预存的所述测试子集中的各个样本信息对对应的用户的第二特征向量，生成第一特征向量与第二特征向量之间的映射关系表；

根据所述预定义的相似性分析算法分别分析所述映射关系表中的各个第一特征向量与相映射的第二特征向量之间的相似度；

若分析得到的相似度小于或等于预设相似度阈值的概率值大于预设的概率阈值，则确定针对该数据处理模型的测试不通过，或者，若分析得到的相似度小于或等于预设相似度阈值的概率值小于预设的概率阈值，则确定针对该数据处理模型的测试通过。

优选地，所述预定义的相似性分析算法为余弦相似度算法，所述余弦相似度算法的计算公式为：

其中，A为所述第一特征向量，B为所述第二特征向量。

此外，为实现上述目的，本发明还提供一种基于人脸图像与声纹信息的身份识别方法，所述方法包括如下步骤：

S1、接收到终端发送的识别用户身份的请求后，向所述终端发送采集该用户的声纹信息及摄取人脸图像的指令；

S2、根据预先训练完成的数据处理模型对所述终端返回的声纹信息以及人脸图像进行处理，得到第一特征向量；

S3、根据预定义的相似性分析算法分析得到的第一特征向量与预存的第二特征向量之间的相似度，所述第二特征向量为预存的该用户的标准样本向量；

S4、若分析得到的相似度大于预设的相似度阈值，则确定对该用户的身份识别通过，并向所述终端发送身份识别通过指令；

S5、若分析得到的相似度小于或等于预设的相似度阈值，则确定对该用户身份识别不通过，并向所述终端发送身份识别不通过指令。

E2、分别获取预设数量的具有身份标识信息的声纹信息及人脸图像信息，构成预设数量的样本信息对；

F2、将所述样本信息对分为第一比例的训练子集和第二比例的测试子集；

G2、利用所述训练子集中的样本信息对训练所述数据处理模型，以得到训练好的数据处理模型；

H2、利用所述测试子集中的样本信息对对所述数据处理模型进行测试，若测试通过，则训练结束，或者，若测试不通过，则增加所述样本信息对中样本的数量并重新执行上述步骤E2、F2、G2。

优选地，所述数据处理模型的测试过程包括：

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有基于人脸图像与声纹信息的身份识别程序，所述基于人脸图像与声纹信息的身份识别程序可被至少一个处理器执行，以使所述至少一个处理器执行如上述的基于人脸图像与声纹信息的身份识别方法的步骤。

相较于现有技术，本发明所提出的电子装置、基于人脸图像与声纹信息的身份识别方法及存储介质，首选在接收到终端发送的识别用户身份的请求后，向所述终端发送采集该用户的声纹信息及摄取人脸图像的指令；根据预先训练完成的数据处理模型对所述终端返回的声纹信息以及人脸图像进行处理，得到第一特征向量；根据预定义的相似性分析算法分析得到的第一特征向量与预存的第二特征向量之间的相似度，所述第二特征向量为预存的该用户的标准样本向量；若分析得到的相似度小于或等于预设的相似度阈值，则确定对该用户的身份识别通过，向所述终端发送身份识别通过指令，若分析得到的相似度大于预设的相似度阈值，则确定对该用户的身份识别不通过，向所述终端发送身份识别不通过指令。能够将人脸图像和声纹信息同时进行识别，在保证身份识别效率的同时提高了身份识别的准确率。

附图说明

图1是本发明提出的电子装置一可选的硬件架构的示意图；

图2是本发明电子装置一实施例中基于人脸图像与声纹信息的身份识别程序的程序模块示意图；

图3是本发明基于人脸图像与声纹信息的身份识别方法较佳实施例的实施流程图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在本发明中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

参阅图1所示，是本发明提出的电子装置一可选的硬件架构示意图。本实施例中，电子装置10可包括，但不仅限于，可通过通信总线14相互通信连接存储器11、处理器12、网络接口13。需要指出的是，图1仅示出了具有组件11-14的电子装置10，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

其中，存储器11至少包括一种类型的计算机可读存储介质，计算机可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器11可以是电子装置10的内部存储单元，例如电子装置10的硬盘或内存。在另一些实施例中，存储器11也可以是电子装置10的外包存储设备，例如电子装置10上配备的插接式硬盘，智能存储卡(SmartMedia Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，存储器11还可以既包括电子装置10的内部存储单元也包括其外包存储设备。本实施例中，存储器11通常用于存储安装于电子装置10的操作系统和各类应用软件，例如基于人脸图像与声纹信息的身份识别程序等。此外，存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器12在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。处理器12通常用于控制电子装置10的总体操作。本实施例中，处理器12用于运行存储器11中存储的程序代码或者处理数据，例如运行的基于人脸图像与声纹信息的身份识别程序等。

网络接口13可包括无线网络接口或有线网络接口，网络接口13通常用于在电子装置10与其他电子设备之间建立通信连接。

通信总线14用于实现组件11-13之间的通信连接。

图1仅示出了具有组件11-14以及基于人脸图像与声纹信息的身份识别程序的电子装置10，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

可选地，电子装置10还可以包括用户接口(图1中未示出)，用户接口可以包括显示器、输入单元比如键盘，其中，用户接口还可以包括标准的有线接口、无线接口等。

可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED触摸器等。进一步地，显示器也可称为显示屏或显示单元，用于显示在电子装置10中处理信息以及用于显示可视化的用户界面。

在一实施例中，存储器11中存储的基于人脸图像与声纹信息的身份识别程序被处理器12执行时，实现如下操作：

接收到终端发送的识别用户身份的请求后，向所述终端发送采集该用户的声纹信息及摄取人脸图像的指令；

根据预先训练完成的数据处理模型对所述终端返回的声纹信息以及人脸图像进行处理，得到第一特征向量；

根据预定义的相似性分析算法分析得到的第一特征向量与预存的第二特征向量之间的相似度，所述第二特征向量为预存的该用户的标准样本向量；

若分析得到的相似度大于预设的相似度阈值，则确定对该用户的身份识别通过，并向所述终端发送身份识别通过指令；

若分析得到的相似度小于或等于预设的相似度阈值，则确定对该用户身份识别不通过，并向所述终端发送身份识别不通过指令。

需要说明的是，在本申请的各个实施方式中，所述终端具有声纹采集功能以及人脸图像采集功能，所述终端可以是，例如门禁识别设备，具体地，在本实施例中，所述终端在接收到采集声纹信息以及人脸图像的指令后，通过预先确定的声纹信息采集方式，例如可以是，在所述终端的显示器上生成提示用户说话的信息，并通过话筒采集用户根据所述显示器的提示信息发出的声音，生成声纹信息，并在采集声音的同时，通过安装在所述显示器上的摄像头摄取该用户的人脸图像，这样可以保证采集到的用户人脸图像包含有该用户说话时的某一动作，能够进一步防止闯入者利用高像素图像闯入。

进一步地，在本实施例中，所述预先训练完成的数据处理模型可以是，例如双通道卷积神经网络模型；所述双通道卷积神经网络模型的第一部分为特征提取网络，所述特征提取网络由两个相互独立的卷积神经网络分支构成，其中，两个卷积神经网络分支的网络结构相同，均由输入层、三个卷积层和两个池化层构成；第二部分为特征向量生成网络，所述特征向量生成网络包括串接层、和全连接层；所述双通道卷积神经网络的第一层为输入层，所述输入层包含两个通道，一个通道用于输入采集的所述声纹信息，另一个通道用于输入摄取的所述人脸图像；所述双通道卷积神经网络的第二层为卷积层，在两个卷积神经网络分支中，分别采用N1个N1×H1维的卷积核对输入的声纹信息和人脸图像进行卷积，卷积响应的和经过非线性激励函数ReLU，映射得到N1个L1×L1维的特征图；所述双通道卷积神经网络的第三层为池化层，在两个卷积神经网络分支中，分别将上层卷积层输出的每个L1×L1维的特征图平均分割为L2×L2个不重叠的矩形子区域，取每个子区域的最大值进行降采样操作，生成N1个L2×L2维的特征图；所述卷积神经网络的第四层为卷积层，在两个卷积神经网络中，分别采用N2个H2×H2维的卷积核对上层池化层的输出图像进行二维卷积，卷积响应的和经过非线性激励函数ReLU，映射得到N2个L3×L3维的特征图；所述双通道卷积神经网络的第五层为池化层，在两个卷积神经网络分支中，分别将上层卷积层输出的每个L3×L3维的特征图平均分割成为L4×L4个不重叠的矩形子区域，取每个子区域的最大值进行降采样操作，生成N2个L4×L4维的特征图；所述双通道卷积神经网络的第六层为卷积层，在两个卷积神经网络分支中，分别采用N3个H3×H3维的卷积核对上层池化层的输出图像进行二维卷积，卷积响应的和经过非线性激励函数ReLU，映射得到N3个L5×L5维的特征图；所述双通道卷积神经网络的第七层为串接层，所述串接层将两个卷积神经网络分支的输出进行串接，得到N3+N3个L5×L5维的特征图；所述双通道卷积神经网络的第八层为全连接层，所述全连接层将上层的N3+N3个特征图权利啊姐到N4个神经元，经过非线性激励函数ReLU，映射得到一个N4维的特征向量，该特征向量为融合了输入样本两个通道特征的融合特征向量，在本实施例中，根据该双通道卷积神经网络模型对所述终端返回的声纹信息以及人脸图像进行处理，得到第一特征向量，该第一特征向量为融合了输入的声纹信息以及人脸图像的特征向量。

进一步地，在本实施例中，所述预定义的相似性分析算法为余弦相似度算法，该余弦相似度算法用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。相比距离度量，余弦相似度更加注重两个向量在方向上的差异，而非距离或长度上。所述余弦相似度算法的计算公式为：

在本实施例中，A为第一特征向量，B为第二特征向量。

进一步地，所述预先训练完成的数据处理模型包括模型训练过程及模型测试过程；所述数据处理模型的训练过程可以是，例如：

E、分别获取预设数量的具有身份标识信息的声纹信息及人脸图像信息，构成预设数量的样本信息对；

F、将所述样本信息对分为第一比例的训练子集和第二比例的测试子集；

G、利用所述训练子集中的样本信息对训练所述数据处理模型，以得到训练好的数据处理模型；

H、利用所述测试子集中的样本信息对对所述数据处理模型进行测试，若测试通过，则训练结束，或者，若测试不通过，则增加所述样本信息对中样本的数量并重新执行上述步骤E、F、G。

所述数据处理模型的测试过程可以是，例如：

由上述事实施例可知，本发明提出的电子装置首先在接收到终端发送的识别用户身份的请求后，向所述终端发送采集该用户的声纹信息及摄取人脸图像的指令；根据预先训练完成的数据处理模型对所述终端返回的声纹信息以及人脸图像进行处理，得到第一特征向量；根据预定义的相似性分析算法分析得到的第一特征向量与预存的第二特征向量之间的相似度，所述第二特征向量为预存的该用户的标准样本向量；若分析得到的相似度小于或等于预设的相似度阈值，则确定对该用户的身份识别通过，向所述终端发送身份识别通过指令，若分析得到的相似度大于预设的相似度阈值，则确定对该用户的身份识别不通过，向所述终端发送身份识别不通过指令。能够将人脸图像和声纹信息同时进行识别，在保证身份识别效率的同时提高了身份识别的准确率。

进一步需要说明的是，本发明的基于人脸图像与声纹信息的身份识别程序依据其各部分所实现的功能不同，可用具有相同功能的程序模块进行描述。请参阅图2所示，是本发明电子装置一实施例中基于人脸图像与声纹信息的身份识别程序的程序模块示意图。本实施例中，基于人脸图像与声纹信息的身份识别程序依据其各部分所实现的功能的不同，可以被分割成发送模块201、处理模块202、分析模块203、以及确定模块204。由上面的描述可知，本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段，比程序更适合于描述基于人脸图像与声纹信息的身份识别程序在电子装置10中的执行过程。所述模块201-204所实现的功能或操作步骤均与上文类似，此处不再详述，示例性地，例如其中：

发送模块201用于在接收到终端发送的识别用户身份的请求后，向所述终端发送采集该用户的声纹信息及摄取人脸图像的指令；

处理模块202用于根据预先训练完成的数据处理模型对所述终端返回的声纹信息以及人脸图像进行处理，得到第一特征向量；

分析模块203用于根据预定义的相似性分析算法分析得到的第一特征向量与预存的第二特征向量之间的相似度，所述第二特征向量为预存的该用户的标准样本向量；

第一确定模块204用于在若分析得到的相似度大于预设的相似度阈值，则确定对该用户的身份识别通过，并向所述终端发送身份识别通过指令；

第二确定模块205用于在若分析得到的相似度小于或等于预设的相似度阈值，则确定对该用户身份识别不通过，并向所述终端发送身份识别不通过指令。

此外，本发明还提出一种基于人脸图像与声纹信息的身份识别方法，请参阅图3所示，所述基于人脸图像与声纹信息的身份识别方法包括如下步骤：

步骤S301，接收到终端发送的识别用户身份的请求后，向所述终端发送采集该用户的声纹信息及摄取人脸图像的指令；

步骤S302，根据预先训练完成的数据处理模型对所述终端返回的声纹信息以及人脸图像进行处理，得到第一特征向量；

步骤S303，根据预定义的相似性分析算法分析得到的第一特征向量与预存的第二特征向量之间的相似度，所述第二特征向量为预存的该用户的标准样本向量；

步骤S304，若分析得到的相似度大于预设的相似度阈值，则确定对该用户的身份识别通过，并向所述终端发送身份识别通过指令；

步骤S305，若分析得到的相似度小于或等于预设的相似度阈值，则确定对该用户身份识别不通过，并向所述终端发送身份识别不通过指令。

在本实施例中，A为第一特征向量，B为第二特征向量。

所述数据处理模型的测试过程可以是，例如：

由上述事实施例可知，本发明提出的基于人脸图像与声纹信息的身份识别方法首先在接收到终端发送的识别用户身份的请求后，向所述终端发送采集该用户的声纹信息及摄取人脸图像的指令；根据预先训练完成的数据处理模型对所述终端返回的声纹信息以及人脸图像进行处理，得到第一特征向量；根据预定义的相似性分析算法分析得到的第一特征向量与预存的第二特征向量之间的相似度，所述第二特征向量为预存的该用户的标准样本向量；若分析得到的相似度小于或等于预设的相似度阈值，则确定对该用户的身份识别通过，向所述终端发送身份识别通过指令，若分析得到的相似度大于预设的相似度阈值，则确定对该用户的身份识别不通过，向所述终端发送身份识别不通过指令。能够将人脸图像和声纹信息同时进行识别，在保证身份识别效率的同时提高了身份识别的准确率。

此外，本发明还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有基于人脸图像与声纹信息的身份识别程序，所述基于人脸图像与声纹信息的身份识别程序被处理器执行时实现如下操作：

本发明计算机可读存储介质具体实施方式与上述电子装置以及基于负载权重调度发布升级版本应用的方法各实施例基本相同，在此不作累述。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种电子装置，其特征在于，所述电子装置包括存储器、及与所述存储器连接的处理器，所述处理器用于执行所述存储器上存储的基于人脸图像与声纹信息的身份识别程序，所述基于人脸图像与声纹信息的身份识别程序被所述处理器执行时实现如下步骤：

2.如权利要求1所述的电子装置，其特征在于，所述数据处理模型为双通道卷积神经网络模型，所述双通道卷积神经网络模型包括特征提取网络及特征向量生成网络；

3.如权利要求2所述的电子装置，其特征在于，所述数据处理模型包括训练过程以及测试过程，所述数据处理模型的训练过程包括：

4.如权利要求3所述的电子装置，其特征在于，所述数据处理模型的测试过程包括：

5.如权利要求1-4任一项所述的电子装置，其特征在于，所述预定义的相似性分析算法为余弦相似度算法，所述余弦相似度算法的计算公式为：

其中，A为所述第一特征向量，B为所述第二特征向量。

6.一种基于人脸图像与声纹信息的身份识别方法，其特征在于，所述方法包括如下步骤：

7.如权利要求6所述的基于人脸图像与声纹信息的身份识别方法，其特征在于，所述数据处理模型为双通道卷积神经网络模型，所述双通道卷积神经网络模型包括特征提取网络及特征向量生成网络；

8.如权利要求7所述的基于人脸图像与声纹信息的身份识别方法，其特征在于，所述数据处理模型包括训练过程以及测试过程，所述数据处理模型的训练过程包括：

9.如权利要求8所述的基于人脸图像与声纹信息的身份识别方法，其特征在于，所述数据处理模型的测试过程包括：

10.一种计算机可读存储介质，所述计算机可读存储介质存储有基于人脸图像与声纹信息的身份识别程序，所述基于人脸图像与声纹信息的身份识别程序可被至少一个处理器执行，以使所述至少一个处理器执行如权利要求6-9中任一项所述的基于人脸图像与声纹信息的身份识别方法的步骤。