CN110569707A

CN110569707A - 一种身份识别方法和电子设备

Info

Publication number: CN110569707A
Application number: CN201910556108.1A
Authority: CN
Inventors: 鞠汶奇; 张阿强; 刘子威
Original assignee: Shenzhen Heertai Home Furnishing Online Network Technology Co Ltd
Current assignee: Shenzhen Shuliantianxia Intelligent Technology Co Ltd
Priority date: 2019-06-25
Filing date: 2019-06-25
Publication date: 2019-12-13

Abstract

本发明实施例涉及一种身份识别方法和电子设备，所述方法包括：获取待识别图片，待识别图片中包括至少一个待识别人的人脸图像，基于待识别图片获得待识别人的人脸图像；基于人脸图像获取待识别人的人脸特征；获取人脸特征的第一权重系数；获取待识别人的辅助特征；获取辅助特征的第二权重系数；根据第一权重系数和第二权重系数、结合人脸特征和所述辅助特征，获得待识别人的识别特征；将待识别人的识别特征匹配已知身份的识别特征，获得待识别人的身份。结合待识别人的人脸特征和辅助特征以及各自的权重系数获得识别特征，可以结合多种特征综合判断待识别人的身份，减小由于人脸图像质量差对身份识别效果的影响，从而提高身份识别的准确性。

Description

一种身份识别方法和电子设备

技术领域

本发明实施例涉及身份识别技术领域，特别涉及一种身份识别方法和电子设备。

背景技术

身份识别技术越来越多的应用在人类的生产和生活中，目前的身份识别技术中，采用人的脸部特征进行身份识别的人脸识别技术应用较为广泛。目前的人脸识别通常利用基于机器学习的神经网络模型进行识别。即训练基于机器学习的神经网络模型，然后利用所述识别模型对已知身份的人脸图像提取人脸特征，获得已知身份的人脸特征。在对未知身份的人脸图像进行识别时，首先利用该识别模型提取人脸特征，获得未知身份的人脸特征，再将未知身份的人脸特征匹配已知身份的人脸特征，从而获得所述未知身份。

在实现本发明过程中，发明人发现相关技术中至少存在如下问题：

在利用样本图片训练所述识别模型时，需利用高质量的人脸图片进行训练。因此，在进行人脸识别时，也需要人脸没有遮挡、且光照均匀稳定，对于光照条件差或有遮挡的人脸识别效果差。

发明内容

本发明实施例的目的是提供一种识别效果好的身份识别方法和电子设备。

第一方面，本发明实施例提供了一种身份识别方法，所述方法包括：

获取待识别图片，所述待识别图片中包括至少一个待识别人的人脸图像，基于所述待识别图片获得所述待识别人的人脸图像；

基于所述人脸图像获取所述待识别人的人脸特征；

获取所述人脸特征的第一权重系数；

获取所述待识别人的辅助特征；

获取所述辅助特征的第二权重系数；

根据所述第一权重系数和所述第二权重系数、结合所述人脸特征和所述辅助特征，获得所述待识别人的识别特征；

将所述待识别人的识别特征匹配已知身份的识别特征，获得所述待识别人的身份。

在一些实施例中，所述辅助特征包括声纹特征，所述第二权重系数包括声纹系数，则所述获取所述待识别人的辅助特征，包括：

获取所述待识别人的声音信号，基于所述声音信号获取所述声纹特征，获取所述待识别图片的时间与获取所述声音信号的时间位于同一时刻或者同一时段；

所述获取所述辅助特征的第二权重系数，包括：

获取所述待识别人的声纹系数，所述声纹系数用以表示所述声纹特征针对每个所述待识别人的权重。

在一些实施例中，所述方法还包括：

将所述人脸图像分割成至少两个人脸栅格区域；

则，所述获取所述待识别人的人脸特征，包括：

利用预先获取的人脸识别模型对所述至少两个人脸栅格区域提取人脸特征，获得至少两个人脸特征，每个人脸特征对应一个人脸栅格区域。

在一些实施例中，所述获取所述人脸特征的第一权重系数，包括：

将所述至少两个人脸栅格区域输入预先获取的图像质量识别模型，获得各个人脸栅格区域对应的所述第一权重系数，所述第一权重系数用于表征每个人脸栅格区域的图像质量。

在一些实施例中，所述基于所述声音信号获取所述声纹特征，包括：

将所述声音信号转换成声音数据；

利用预先获取的声音识别模型对所述声音数据提取声纹特征，获得所述声纹特征。

在一些实施例中，所述获取所述待识别人的声纹系数，包括：

将所述声音数据输入预先获取的声音质量识别模型，获得声音系数，所述声音系数用于表征所述声音信号的质量；

从所述人脸图像中提取嘴部图像，将所述嘴部图像和所述声音数据输入预先获取的声音匹配模型，获得所述声音数据和所述人脸图像的匹配系数；

根据所述声音系数和所述匹配系数获得所述待识别人对应的所述声纹系数。

在一些实施例中，所述方法还包括：

获取已知人的人脸图像，将所述人脸图像分割成至少两个人脸栅格区域，利用所述人脸识别模型对所述至少两个人脸栅格区域提取人脸特征，获得至少两个人脸特征；

获取所述已知人的声纹特征；

获取所述已知人的人脸特征的第三权重系数，所述第三权重系数用于表征所述已知人的人脸图像的图像质量。

在一些实施例中，所述方法还包括：

根据所述第一权重系数、所述声纹系数和所述第三权重系数、结合所述已知人的人脸特征和声纹特征，获得所述已知身份的识别特征；

则，获取所述待识别人的识别特征，包括：

根据所述第一权重系数、所述声纹系数和所述第三权重系数、结合所述待识别人的人脸特征和声纹特征，获得所述待识别人的识别特征。

在一些实施例中，所述待识别图片包括至少两个图片；

则，所述根据所述第一权重系数、所述声纹系数和所述第三权重系数、结合所述待识别人的人脸特征和声纹特征，获得所述待识别人的识别特征，包括：

将所述人脸栅格区域的人脸特征结合该人脸栅格区域对应的第一权重系数和第三权重系数、获得该人脸栅格区域的分区人脸特征；

拼接每个人脸栅格区域的分区人脸特征，获得该待识别图片的全脸人脸特征；

拼接所述至少两帧图片的全脸人脸特征，获得所述待识别人的结合人脸特征；

结合所述待识别人的声纹系数和所述声纹特征获得所述待识别人的结合声纹特征；

结合所述待识别人的结合声纹特征和所述待识别人的结合人脸特征、获得所述待识别人的识别特征；

则，所述根据所述第一权重系数、所述声纹系数和所述第三权重系数、结合所述已知人的人脸特征和声纹特征，获得所述已知身份的识别特征，包括：

针对所述已知人的人脸图像，将所述人脸栅格区域的人脸特征结合该人脸栅格区域对应的第一权重系数和第三权重系数、获得该人脸栅格区域的分区人脸特征；

拼接每个人脸栅格区域的分区人脸特征，获得该已知人的全脸人脸特征；

将所述已知人的全脸人脸特征复制为所述至少两个，并拼接至少两个全脸人脸特征，获得所述已知人的结合人脸特征；

结合所述已知人的声纹特征和所述已知人的结合人脸特征、获得所述已知身份的识别特征。

在一些实施例中，所述待识别图片包括至少两帧图片，并被分成至少两组待识别图片；

则，所述方法还包括：

获取基于每组待识别图片获得的所述待识别人的身份；

从获取的所述待识别人的各个身份中、选择数量最多的身份作为所述待识别人的最终身份。

在一些实施例中，所述辅助特征包括步态特征，所述步态特征用于表征人的走路姿态。

第二方面，本发明实施例提供了一种电子设备，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述的方法。

第三方面，本发明实施例提供了一种非易失性计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，当所述计算机可执行指令被电子设备执行时，使所述电子设备执行上述的方法。

第四方面，本申请实施例还提供了一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被电子设备执行时，使所述电子设备执行上述的方法。

本发明实施例的身份识别方法和电子设备，基于待识别人的人脸图像获取待识别人的人脸特征，以及人脸特征的第一权重系数，再获取所述待识别人的辅助特征和所述辅助特征的第二权重系数，然后根据第一权重系数和第二权重系数、结合人脸特征和辅助特征获得所述待识别人的识别特征，并利用识别特征进行身份识别。结合所述待识别人的人脸特征和辅助特征以及各自的权重系数获得识别特征，可以结合多种特征综合判断待识别人的身份，减小由于人脸图像质量差对身份识别效果的影响，从而提高身份识别的准确性。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1a是本发明实施例身份识别方法和装置的其中一个应用场景示意图；

图1b是本发明实施例身份识别方法和装置的另一个应用场景示意图；

图2是本发明身份识别方法的一个实施例的流程示意图；

图3是本发明身份识别方法的另一个实施例的流程示意图；

图4是本发明身份识别装置的一个实施例的结构示意图；

图5是本发明身份识别装置的另一个实施例的结构示意图；

图6是本发明电子设备的一个实施例的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的身份识别方法、装置和电子设备适用于图1a所示的应用场景。在所述应用场景中，包括电子设备100和需要识别身份的用户200。其中，电子设备100可以为任何合适的由集成电路、晶体管、电子管等电子元器件组成，应用电子技术软件发挥作用的设备，例如智能手机、平板电脑、个人PC机、服务器、机器人等。待识别身份的用户200可以为一个或多个。

电子设备100可以基于用户200的人脸特征、声纹特征等能体现个体独特性的特征来识别用户200的身份。目前的身份识别技术中，多采用人脸特征进行身份识别，但是人脸识别依赖高质量的人脸图片，在光照条件差或者人脸有遮挡的场合，识别效果差。本发明实施例采用人的两种以上特征进行身份识别，除了常用的人脸特征外还采用其他辅助特征，例如声纹特征、步态特征(即人的步行姿态)等。结合人脸特征和辅助特征获得待识别人的识别特征，并利用识别特征进行身份识别，可以结合多种特征综合判断身份，减小由于人脸图像质量差对身份识别效果的影响，从而提高身份识别的准确性。

在其中一些应用场景中(例如图1a)，利用电子设备100自带的图像采集装置采集用户200的图像，电子设备100基于所述图像获得人脸图像，并基于人脸图像提取人脸特征。在另一些应用场景中，请参照图 1b，所述应用场景还包括单独设置的图像采集装置300，单独设置的图像采集装置300与电子设备100通信连接，图像采集装置300获得用户的图像后，将所述图像传送给电子设备100。

基于辅助特征的种类，所述应用场景中还可以设置其他硬件装置来帮助获取辅助特征，例如辅助特征为步态特征的场合，可以利用图像采集装置采集用户200的图像，电子设备100基于所述图像获取用户的步态特征。在辅助特征为声纹特征的场合，该应用场景中还需设置声音采集装置，由声音采集装置采集用户的声音信号，电子设备100基于该声音信号获取声纹特征。

其中，声音采集装置可以是电子设备100自带的(请参照图1a)，也可以是单独设置的(请参照图1b中的声音采集装置500)。声音采集装置可以为任何能将声波转换成电信号的设备，例如麦克风等。图像采集装置可以为摄像头、摄像机、照相机、扫描仪，或者其他带有拍照功能的设备。

其中，在一些实施例中，可以利用基于机器学习的神经网络模型获取人脸特征和辅助特征。以下以辅助特征为声纹特征为例、说明利用人脸特征和辅助特征进行身份识别的过程。

其大体分为三个部分，首先，训练人脸识别模型和声音识别模型。其次是注册人脸特征和声纹特征，即获取已知人的人脸图像和声音信号，基于人脸识别模型对所述人脸图像提取人脸特征，基于声音识别模型对声音信号提取声纹特征，获得该已知人的人脸特征和声纹特征。然后是身份识别，分别获取待识别图片和声音信号，并基于待识别图片获取待识别人的人脸图像，其中，获取待识别图片的时间和获取所述声音信号的时间需位于同一时刻或者同一时段内。利用人脸识别模型对待识别人的人脸图像提取人脸特征，利用声音识别模型对声音信号提取声纹特征，结合该人脸特征和声纹特征获得待识别人的识别特征。结合已知人的人脸特征和声纹特征获得已知身份的识别特征，再将待识别人的识别特征匹配已知身份的识别特征，从而获得待识别人的身份。

其中，对已知人的人脸图像提取人脸特征和对待识别人的人脸图像提取人脸特征，需基于同一神经网络模型。对已知人的声音信号提取声纹特征和对待识别人的声音信号提取声纹特征，亦需基于同一神经网络模型。

结合人脸特征和声纹特征获得识别特征，可以根据各特征对应的权重系数获得所述识别特征，即基于人脸图像的图像质量获得人脸特征的第一权重系数，基于声音信号的声音质量获得声纹特征的第二权重系数，然后根据第一权重系数和第二权重系数结合人脸特征和声纹特征获得识别特征。

其中，神经网络模型可以基于任何合适的机器学习算法，训练神经网络模型属于现有技术的范畴，可以通过大量样本数据以及样本数据对应的标签(即类别)训练获得，其训练的目的是获得神经网络模型的各个参数。

训练人脸识别模型的大体过程为，获取大量人脸图像样本(例如N 个人的K个人脸图像样本)，其中每一个样本包括两张图片，如果是相同的图片，则该样本对应的标签可以设为0(也可以设为用于表示相同图片的其他值)，如果是不同的图片，则样本对应的标签设为1(也可以设为用于表示不同图片的其他值)。将该大量的人脸图像样本及其对应的标签输入神经网络模型进行训练，从而获得神经网络模型的各个参数。

其中，人脸图像样本可以是全脸图像，基于该全脸图像样本进行训练可以获得基于神经网络的人脸识别模型。利用该全脸图像样本训练所述神经网络模型时，需利用高质量的全脸图像进行训练，在进行身份识别时，也需要待识别的人脸图像是高质量的，因此对图像质量差的人脸图像不能获得较好的识别效果。

在本发明的一些实施例中，为进一步提高身份识别的准确性，将人脸图像分割成至少两个人脸栅格区域，并基于人脸栅格区域训练神经网络模型和提取人脸特征。其中，人脸栅格区域的个数可以为合适的任意个，例如8个、16个、36个等。将人脸图像分割成至少两个人脸栅格区域，有的人脸栅格区域的图像质量好，有的人脸栅格区域的图像质量差，可以通过将图像质量好的人脸栅格区域的第一权重系数设置的较大，将图像质量差的人脸栅格区域的第一权重系数设置的较小，来减少图像质量差的区域对身份识别的影响，从而提高身份识别的准确性。

在人脸图像分割成至少两个人脸栅格区域的场合(以下以人脸图像被分割成36个人脸栅格区域为例说明)，训练人脸识别模型可以分别基于各个人脸栅格区域训练36个模型。即将人脸图像样本分成36个人脸栅格区域，选取相同位置的人脸栅格区域分别训练神经网络模型，获得 36个人脸识别模型。利用每个模型提取人脸特征时也需基于对应的人脸栅格区域进行，利用36个人脸识别模型分别针对36个人脸栅格区域提取人脸特征，获得36个人脸特征。

在另一些实施例中，每个人脸栅格区域的大小相同，即将人脸图像平均分成36个人脸栅格区域。训练人脸识别模型时，将人脸图像样本平均分成36个人脸栅格区域，将各个人脸栅格区域的人脸图像样本均输入神经网络模型进行训练，获得一个人脸识别模型。利用该人脸识别模型分别针对36个人脸栅格区域提取人脸特征，获得36个人脸特征。

训练声音识别模型，可以选择多个人的大量声音样本，例如选择10 个人的大量声音样本，每个声音样本的标签为对应人的序号(1-10)，将该声音样本及其对应的标签输入神经网络模型进行训练，获得所述声音识别模型。

其中，已知人的人脸特征和声纹特征可以存储于电子设备100本地，进行身份识别时，可以调取电子设备100本地的已知人的人脸特征和声纹特征，并结合已知人的人脸特征和声纹特征获得已知身份的识别特征，将待识别人的识别特征与已知身份的识别特征进行比对。在另一些应用场景中，请参照图1b，所述应用场景还可以包括云端服务器400，已知人的人脸特征和声纹特征存储于云端服务器400上，云端服务器400与电子设备100通信连接，电子设备100可以通过云端服务器400获得所述已知人的人脸特征和声纹特征。

需要说明的是，图1a中仅示出了一个电子设备100和两个用户200，图1b中仅示出了一个电子设备100、一个用户200、一个图像采集装置 300和一个云端服务器400，在其他应用场景中，也可以包括更多的电子设备、用户、图像采集装置和云端服务器，本发明实施例对应用场景中各组成的数量不作限制。

图2为本发明实施例提供的身份识别方法的流程示意图，所述方法可以由图1a或图1b中电子设备100执行，如图2所示，所述方法包括：

101：获取待识别图片，所述待识别图片中包括至少一个待识别人的人脸图像，基于所述待识别图片获得所述待识别人的人脸图像。

其中，待识别图片中可能包含一个待识别人的人脸图像，也可能包含多个待识别人的人脸图像。如果待识别图片中包含一个待识别人的人脸图像，则基于所述待识别图片获得一个待识别人的人脸图像，如果待识别图片中包含多个待识别人的人脸图像，则基于所述待识别图片获得多个人脸图像中的一部分人脸图像或者全部人脸图像。

在其中一些实施例中，为了提高身份识别的准确性，所述待识别人的人脸图像仅包含脸部图像，即图像采集装置获取用户的待识别图片后，电子设备从所述待识别图片中扣除获取待识别人的脸部图像。具体的，从所述待识别图片中扣除脸部图像，可以利用现有技术中的人脸检测方法检测待识别图片中脸部所在区域，再从该待识别图片中扣除脸部所在区域获得脸部图像。

在另一些实施例中，为了进一步提高身份识别的准确性，获得人脸图像后，将人脸图像缩放至预设尺寸、并分割成至少两个人脸栅格区域，即将人脸图像栅格化。例如将1024×1024大小的人脸图像用64×64的小格子进行划分，可以获得6×6个人脸栅格区域。将人脸图像分割成至少两个人脸栅格区域，在待识别的人脸图像有部分光线较暗或者部分遮挡的情况下，可以至少保证输入神经网络模型的部分图像是高质量的，从而能提高身份识别的准确性。

在另一些实施例中，为了进一步提高身份识别的准确性，将人脸图像转换至标准人脸图像。如果人脸图像分成至少两个人脸栅格区域，以 36个人脸栅格区域为例说明，可以预先训练获得图像校正模型，将分成 36个人脸栅格区域的人脸图像输入所述图像校正模型，即可获得标准人脸图像，该标准人脸图像中亦包括36个人脸栅格区域。

其中，训练图像校正模型可以基于被分成36个人脸栅格区域的大量图像样本训练获得，该图像样本对应的标签是每个人脸栅格区域的正确位置和尺寸，基于该图像样本及其对应的标签训练神经网络模型，获得所述图像校正模型。

如果人脸图像是未被分割的全脸图像，则可以采用关键点对齐的仿射变换方法将人脸图像转换至标准人脸图像。首先，设计一个预设尺寸 (以下以预设尺寸为1024×1024为例说明)的标准人脸，然后在该标准人脸中提取若干关键点，例如提取五个关键点，分别是两个眼睛位置 (100，100)、(300，100)，鼻尖位置(150，150)，两个嘴角位置 (300，100)、(300，300)。然后根据标准人脸中的两个眼睛位置、鼻尖位置和两个嘴角位置，以及待识别的人脸图像中的两个眼睛位置、鼻尖位置和两个嘴角位置，利用仿射变换方法求出待识别的人脸图像转换至标准人脸的变换矩阵，然后利用该变换矩阵将待识别的人脸图像转换至标准人脸图像。将人脸图像转换成标准人脸图像可以消除图像中的畸变和偏差。

需要说明的是，在模型训练、人脸注册以及身份识别阶段对图像的处理均采用相同的方法。例如，如果在身份识别阶段进行了脸部图像扣除，则在模型训练阶段和人脸注册阶段也需进行脸部扣除，如果在身份识别阶段将人脸图像分割成至少两个人脸栅格区域，则在模型训练和人脸注册阶段也需将人脸图像分割成至少两个人脸栅格区域，如果在身份识别阶段进行了脸部扣除和标准人脸转换，则在模型训练阶段和人脸注册阶段也需进行脸部扣除和标准人脸转换。

102：基于所述人脸图像获取所述待识别人的人脸特征。

在其中一些实施例中，可以利用预先获取的神经网络模型对人脸图像提取人脸特征，即基于所述待识别人的人脸图像，利用预先获取的人脸识别模型对所述人脸图像提取人脸特征。

如果人脸图像为全脸图像，则可以利用基于全脸图像训练的人脸识别模型提取人脸特征，如果人脸图像分割成至少两个人脸栅格区域，则可以利用基于人脸栅格区域训练的人脸识别模型、对每个人脸栅格区域提取人脸特征。以人脸图像分割成36个人脸栅格区域为例，可以获得 36个人脸特征。

103：获取所述人脸特征的第一权重系数。

其中，在一些实施例中，可以根据人脸图像的图像质量获得人脸特征的第一权重系数，如果图像质量好，则第一权重系数大，如果图像质量差，则第一权重系数小。每个第一权重系数与一个人脸特征相对应，在上述人脸图像分割成36个人脸栅格区域的实施例中，可以获得36个人脸特征、以及36个人脸特征分别对应的36个第一权重系数。获得第一权重系数可以预先训练图像质量识别模型，利用图像质量识别模型获得各个人脸栅格区域对应的第一权重系数。

在其中一些实施例中，可以基于被分成36个人脸栅格区域的整张图片样本进行模型训练，标签是每个人脸栅格区域对应的图像质量值，将该图像样本及其对应的标签输入神经网络模型进行训练，获得图像质量识别模型。将包含36个人脸栅格区域的人脸图像输入该图像质量识别模型，即可获得36个人脸栅格区域分别对应的第一权重系数。

在另一些实施例中，也可以基于图片样本的各个人脸栅格区域进行模型训练，将大量的人脸栅格区域及其对应的标签输入神经网络模型进行训练，获得图像质量识别模型。将单个人脸栅格区域输入该图像质量识别模型，可以获得该人脸栅格区域对应的第一权重系数，依次输入36 个人脸栅格区域，则可以获得36个第一权重系数。

104：获取所述待识别人的辅助特征。

105：获取所述辅助特征的第二权重系数。

其中，辅助特征例如声纹特征、步态特征等。以辅助特征为声纹特征为例，可以先获取声音信号，再将声音信号转换成机器能识别的声音数据，然后基于声音数据提取声纹特征。在其中一些实施例中，可以利用预先获取的神经网络的声音识别模型、对所述声音数据提取声纹特征。

获取声音信号的时间与获取待识别图片的时间需位于同一时刻或者同一时段，这样获得的声音信号才更有可能是待识别图片中的待识别人的声音。具体应用时，可以先获取一张或者几张待识别图片，然后获取对应时间的声音信号，也可以先获取一段声音信号，再获得对应时间段内的一张或者多张待识别图片。

在待识别图片中有可能包含一个待识别人，也有可能包含多个待识别人。声音信号有可能是一个人的声音，也有可能是多个人的声音，如果是多个人的声音，则可能声音不清晰。只有声音信号与人脸图像属于同一个待识别人、且声音清晰(清晰的声音更容易提取待识别人的声纹特征)时，该声音信号对该待识别人的身份识别才具有可借鉴性。因此，当声音信号不清晰(例如为多个人的混杂声音)时，或者声音信号与待识别人的人脸图像不匹配时，可以设置该待识别人对该声纹特征的声纹系数低。

因此，在其中一些实施例中，待识别人的声纹系数可以取决于两个因素，分别是声音系数和匹配系数(例如将声音系数与匹配系数相乘获得声纹系数)，其中，声音系数用于表征声音信号的质量，匹配系数用于表征声音信号与待识别人的匹配程度。

其中，在一些实施例中，可以通过将所述声音数据输入预先获取的声音质量识别模型，获得声音系数。其中，训练声音质量识别模型，可以获取大量声音样本，对一个人的清晰的声音样本，为其设置较大值的标签，对多个人的不清晰的声音样本，为其设置较小值的标签。将该声音样本及其对应标签输入神经网络模型进行训练，获得所述声音质量识别模型。

其中，在一些实施例中，获得匹配系数，可以在待识别人的人脸图像中提取嘴部图像，然后将嘴部图像和声音数据输入预先获取的声音匹配模型，获得声音数据和人脸图像的匹配系数，也即声音信号与该待识别人的匹配系数。其中，训练声音匹配模型，可以获取嘴部图像和声音数据的大量样本，如果两者互相匹配，则标签为0(也可以设为表示匹配的其他值)，如果两者互相不匹配，则标签为1(也可以设为表示不匹配的其他值)，将该样本及其对应标签输入神经网络模型进行训练，获得所述声音匹配模型。具体的，从人脸图像中提取嘴部图像，可以利用现有技术中的嘴部检测方法检测人脸图像中嘴部所在区域，再从该人脸图像中扣除嘴部所在区域获得嘴部图像。

106：根据所述第一权重系数和所述第二权重系数、结合所述人脸特征和所述辅助特征，获得所述待识别人的识别特征。

例如，将人脸特征和辅助特征根据各自的第一权重系数和第二权重系数进行加权和，获得待识别人的识别特征。

107：将所述待识别人的识别特征匹配已知身份的识别特征，获得所述待识别人的身份。

利用待识别人的识别特征进行身份识别前，还需进行已知人的人脸特征和声纹特征的注册。其中，已知人的人脸特征和声纹特征可以是其他装置获得之后直接加载在电子设备100上或云端服务器400上的。在另一些实施例中，已知人的人脸特征和声纹特征也可以是电子设备100 或者云端服务器400自身获得的。在电子设备100自身获得已知人的人脸特征和声纹特征的实施例中，身份识别方法还包括获得已知人的人脸特征和声纹特征的步骤。

电子设备上具有大量的已知人的人脸特征和声纹特征，因此，可以根据大量的已知人的人脸特征和声纹特征、结合第一权重系数和声纹系数获取大量的已知身份的识别特征，将待识别人的识别特征匹配已知身份的识别特征，获得其中最相似的已知身份的识别特征，该已知身份即为待识别人的身份。该实施例请参照图3中的各个步骤101a-107。

其中，在一些实施例中，判断待识别人的识别特征与已知身份的识别特征的相似性，可以计算待识别人的识别特征与各个已知身份的识别特征的欧式距离，如果其中最小的欧氏距离小于预设距离阈值，则该最小的欧式距离对应的识别特征的已知身份即为待识别人的身份。

其中，在一些实施例中，为提高身份识别的准确性，获取待识别人的识别特征时对图像的处理、采用的模型和计算方法，需与获取已知身份的识别特征时对图像的处理、采用的模型和计算方法相同。

在其中一些应用场景中，注册已知人的人脸特征和声纹特征时，采用质量好的人脸图像和声音信号，则不需要考虑人脸特征和声纹特征的权重系数。在另一些应用场景中，无法保证注册时获得高质量的人脸图像，在这种情况下，需考虑人脸特征的权重系数，则注册人脸特征时，同时获取该人脸特征的第三权重系数，该第三权重系数用于表征所述已知人的人脸图像的图像质量。同样的，该第三权重系数可以通过图像质量识别模型获得。

以下以考虑注册人脸特征的权重系数、且人脸图像分割成至少两个人脸栅格区域为例，说明获得待识别人的识别特征和已知身份的识别特征的过程。

获取待识别人的识别特征时，将人脸栅格区域的人脸特征与该人脸栅格区域对应的第一权重系数和第三权重系数相乘，获得该人脸栅格区域的分区人脸特征。拼接每个人脸栅格区域的分区人脸特征，获得该待识别人的全脸人脸特征。将待识别人的声纹系数和声纹特征相乘，获得待识别人的结合声纹特征。拼接该待识别人的结合声纹特征和全脸人脸特征，获得该待识别人的识别特征f1。其中，所述拼接即将各特征连接成一个向量。

获取已知身份的识别特征时，将已知人的人脸栅格区域的人脸特征与该人脸栅格区域对应的第一权重系数和第三权重系数相乘，获得该人脸栅格区域的分区人脸特征。拼接每个人脸栅格区域的分区人脸特征，获得该已知人的全脸人脸特征。将已知人的声纹系数和声纹特征相乘，获得该已知人的结合声纹特征。拼接该已知人的结合声纹特征和全脸人脸特征，获得该已知人的识别特征f2。将f1匹配各个f2，以获取待识别人的身份。

在另一些实施例中，为进一步提高身份识别的准确性，获取多帧待识别图片进行身份识别，该多帧待识别图片可以是连续帧图片也可以不是连续帧图片。其中，利用现有技术中的跟踪算法可以确定多帧图片中的同一个人。如果待识别图片为多帧图片(以下以m帧为例说明)，则获取每帧待识别图片的全脸人脸特征后，将各帧待识别图片的对应全脸人脸特征拼接，获得待识别人的结合人脸特征。再将结合人脸特征与结合声纹特征拼接获得识别特征f1。为了保证f1与f2的长度一致，获取已知人的一帧图片的全脸人脸特征后，将该全脸人脸特征复制为m个、并将m个全脸人脸特征进行拼接，获得已知人的结合人脸特征，再将已知人的结合人脸特征和结合声纹特征拼接获得识别特征f2。将f1匹配各个f2，以获取待识别人的身份。

在另外一些实施例中，为进一步提高身份识别的准确性，获取多帧待识别图片后，将多帧待识别图片分成至少两组，每组包含一张或者多张待识别图片。基于每组待识别图片获得一个身份，则可以获得多个身份，然后利用投票规则，选取得票最多的身份作为待识别人的最终身份。

本发明实施例中涉及的各种模型，例如人脸识别模型、图像质量识别模型、声音识别模型、声音质量识别模型和声音匹配模型等，可以是其他装置通过训练获得神经网络模型之后直接加载在电子设备100上的。在另一些实施例中，也可以是电子设备100自身通过训练神经网络模型获得的。在该实施例中，身份识别方法还包括训练其中部分或者全部模型的步骤。

需要说明的是，101、102、103、104、105、106和107仅用于代表各步骤，并不表示各步骤的先后顺序。

本发明实施例基于待识别人的人脸图像获取待识别人的人脸特征，以及人脸特征的第一权重系数，再获取所述待识别人的辅助特征和所述辅助特征的第二权重系数，然后根据第一权重系数和第二权重系数、结合人脸特征和辅助特征获得所述待识别人的识别特征，并利用识别特征进行身份识别。结合所述待识别人的人脸特征和辅助特征以及各自的权重系数获得识别特征，可以结合多种特征综合判断待识别人的身份，减小由于人脸图像质量差对身份识别效果的影响，从而提高身份识别的准确性。

在辅助特征为步态特征的场合，利用人脸特征和步态特征进行身份识别，可以先提取图片中能大体显示全身的待识别人的图像，然后基于该图像提取人脸图像和腿部图像，再基于人脸图像提取人脸特征、基于腿部图像提取腿部特征，并根据人脸图像的质量为人脸特征设置权重系数。然后基于人脸特征及其对应的权重系数结合腿部特征获得待识别人的识别特征，并通过同样的方法获得已知人的识别特征，再根据待识别人的识别特征和已知人的识别特征进行身份识别。

相应的，本发明实施例还提供了一种身份识别装置，用于图1a或图1b中的电子设备，如图4所示，身份识别装置300包括：

待识别人脸获取模块301，用于获取待识别图片，所述待识别图片中包括至少一个待识别人的人脸图像，基于所述待识别图片获得所述待识别人的人脸图像；

待识别人脸特征提取模块302，用于基于所述人脸图像获取所述待识别人的人脸特征；

第一权重系数获取模块303，用于获取所述人脸特征的第一权重系数；

待识别辅助特征获取模块304，用于获取所述待识别人的辅助特征；

第二权重系数获取模块305，用于获取所述辅助特征的第二权重系数；

待识别识别特征获取模块306，用于根据所述第一权重系数和所述第二权重系数、结合所述人脸特征和所述辅助特征，获得所述待识别人的识别特征；

身份识别模块307，用于将所述待识别人的识别特征匹配已知身份的识别特征，获得所述待识别人的身份。

在其中一些实施例中，所述辅助特征包括声纹特征，所述第二权重系数包括声纹系数；

则，所述待识别辅助特征获取模块304具体用于：

所述第二权重系数获取模块305具体用于：

在另一些实施例中，请参照图5，所述装置还包括：

人脸分区模块308，用于将所述人脸图像分割成至少两个人脸栅格区域；

则，所述待识别人脸特征提取模块302具体用于：

在其中一些实施例中，所述第一权重系数获取模块303具体用于：

在其中一些实施例中，所述待识别辅助特征获取模块304具体用于：

将所述声音信号转换成声音数据；

在其中一些实施例中，所述第二权重系数获取模块305具体用于：

在其他实施例中，请参照图5，所述装置还包括注册模块309，用于：

获取所述已知人的声纹特征；

在其他实施例中，请参照图5，所述装置还包括：

已知识别特征获取模块310，用于根据所述第一权重系数、所述声纹系数和所述第三权重系数、结合所述已知人的人脸特征和声纹特征，获得所述已知身份的识别特征；

则，待识别识别特征获取模块306具体用于：

在另一些实施例中，所述待识别图片包括至少两个图片；

则，待识别识别特征获取模块306具体用于：

则，已知识别特征获取模块310具体用于：

在另一些实施例中，所述待识别图片包括至少两帧图片，并被分成至少两组待识别图片；

则，请参照图5，所述装置还包括投票模块311，用于：

获取基于每组待识别图片获得的所述待识别人的身份；

在其中一些实施例中，所述辅助特征包括步态特征，所述步态特征用于表征人的走路姿态。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

如图6所示，为电子设备100的硬件结构示意图，请参照图6，电子设备100包括：

一个或多个处理器1以及存储器2，图6中以一个处理器1为例。

处理器1和存储器2可以通过总线或者其他方式连接，图6中以通过总线连接为例。

存储器2作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的身份识别方法对应的程序指令/模块(例如，附图4、附图5所示的各模块)。处理器1通过运行存储在存储器2中的非易失性软件程序、指令以及模块，从而执行电子设备的各种功能应用以及数据处理，即实现上述方法实施例的身份识别方法。

存储器2可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据控制器的使用所创建的数据等。此外，存储器2可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器2 可选包括相对于处理器1远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述一个或者多个模块存储在所述存储器2中，当被所述一个或者多个处理器1执行时，执行上述任意方法实施例中的身份识别方法，例如，执行以上描述的图2中的方法步骤101-107、图3中的方法步骤 101a-107；实现图4中的模块301-307、图5中的模块301-311的功能。

本申请实施例提供了一种非易失性计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行，例如图6中的一个处理器1，可使得上述一个或多个处理器可执行上述任意方法实施例中的身份识别方法，例如，执行以上描述的图2中的方法步骤101-107、图3中的方法步骤101a-107；实现图4中的模块301-307、图5中的模块301-311的功能。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施例的描述，本领域普通技术人员可以清楚地了解到各实施例可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体 (RandomAccessMemory,RAM)等。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化，为了简明，它们没有在细节中提供；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种身份识别方法，其特征在于，所述方法包括：

基于所述人脸图像获取所述待识别人的人脸特征；

获取所述人脸特征的第一权重系数；

获取所述待识别人的辅助特征；

获取所述辅助特征的第二权重系数；

2.根据权利要求1所述的方法，其特征在于，所述辅助特征包括声纹特征，所述第二权重系数包括声纹系数；

则，所述获取所述待识别人的辅助特征，包括：

所述获取所述辅助特征的第二权重系数，包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

将所述人脸图像分割成至少两个人脸栅格区域；

则，所述获取所述待识别人的人脸特征，包括：

4.根据权利要求3所述的方法，其特征在于，所述获取所述人脸特征的第一权重系数，包括：

5.根据权利要求2-4任意一项所述的方法，其特征在于，所述基于所述声音信号获取所述声纹特征，包括：

将所述声音信号转换成声音数据；

6.根据权利要求5所述的方法，其特征在于，所述获取所述待识别人的声纹系数，包括：

7.根据权利要求3-4任意一项所述的方法，其特征在于，所述方法还包括：

获取所述已知人的声纹特征；

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

则，获取所述待识别人的识别特征，包括：

9.根据权利要求8所述的方法，其特征在于，所述待识别图片包括至少两个图片；

拼接所述至少两个图片的全脸人脸特征，获得所述待识别人的结合人脸特征；

10.根据权利要求1-4、8和9任意一项所述的方法，其特征在于，所述待识别图片包括至少两帧图片，并被分成至少两组待识别图片；

则，所述方法还包括：

获取基于每组待识别图片获得的所述待识别人的身份；

11.根据权利要求1所述的方法，其特征在于，所述辅助特征包括步态特征，所述步态特征用于表征人的走路姿态。

12.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-11任一项所述的方法。

13.一种非易失性计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，当所述计算机可执行指令被电子设备执行时，使所述电子设备执行如权利要求1-11任一项所述的方法。