CN113486690A

CN113486690A - 一种用户身份识别方法、电子设备及介质

Info

Publication number: CN113486690A
Application number: CN202010463515.0A
Authority: CN
Inventors: 高伟杰; 高雪松; 陈维强
Original assignee: Hisense Co Ltd
Current assignee: Hisense Group Co Ltd; Hisense Co Ltd
Priority date: 2020-05-27
Filing date: 2020-05-27
Publication date: 2021-10-08

Abstract

本发明提供一种用户身份识别方法、电子设备及介质，所述方法包括：接收拍摄装置发送的视频流，对视频流中的图像进行人体识别；确定识别到人体时，提取人体特征数据，并与注册数据库中的人体特征数据进行对比，确定识别到对应的注册用户时，启动检测到注册用户对应的响应；确定未识别到对应的注册用户时，根据接收的视频流对图像中的人体进行跟踪，并采集与人体对应的其他身份识别信息；根据其他身份识别信息，确定识别到对应的注册用户时，将人体特征数据存储到注册数据库。利用本方法通过更新注册数据库，可覆盖人体的各种情况，增加人体识别的准确率，优化了人体识别的效果，使其识别越来越准确，解决了各个场景下，对于人体识别困难的问题。

Description

一种用户身份识别方法、电子设备及介质

技术领域

本发明涉及跨媒体融合识别领域，特别涉及一种用户身份识别方法、电子设备及介质。

背景技术

目前智慧家居在各领域应用的范围日益扩大，各个厂商也在向着实现全屋智能的目标进行发展，而实现全屋智能的前提是，对于屋内家居用户的实时识别跟踪，只有知道屋内家居用户的身份、位置、生活习惯才能更了解用户的行为习惯及偏好，从而能为用户提供更精准的服务。

目前一般采用屋内的拍摄装置先识别人脸再识别人体的方式来确定用户的身份，在日常的家居场景下，很多情况下拍摄装置难以直接捕捉到用户的面部信息，在识别不到面部信息时，备选的，一般采用识别人体的方式来确定用户身份，由于初始注册时，通常只是通过拍摄装置录入一个基本的人体图像进行注册，进行注册的人体图像难以覆盖各类场景下人体姿态及特征，因此，识别装置在初始的注册图像中提取的特征也并不丰富，这就导致在复杂的家庭场景下，即使拍摄到了人体图像，但因室内存在光线复杂、拍摄装置安装位置不固定、且人员位置姿态多变、遮挡的问题，拍摄到的人体图像难以与初始录入的人体图像进行匹配，这使得在复杂的日常家居生活中人体准确判断家居人员身份信息成为难题，单纯使用初始注册的人脸或人体图像对人员身份进行识别具有局限性，并且对于人员身份识别率低，误检测率高。

发明内容

如背景技术所记载的内容，识别装置在初始的注册图像中提取的特征并不丰富，这就导致在复杂的家庭场景下，即使拍摄到了人体图像，但因室内存在光线复杂、拍摄装置安装位置不固定、且人员位置姿态多变、遮挡的问题，拍摄到的人体图像难以与初始录入的人体图像进行匹配，这使得在复杂的日常家居生活中人体准确判断家居人员身份信息成为难题，单纯使用初始注册的人脸或人体图像对人员身份进行识别具有局限性，并且对于人员身份识别率低，误检测率高，而本发明解决了各个场景下，对于人体识别困难的问题。

本发明第一方面提供一种用户身份识别方法，所述方法包括：

接收拍摄装置发送的视频流，对视频流中的图像进行人体识别；

确定识别到人体时，提取人体特征数据，并与注册数据库中的人体特征数据进行对比，确定识别到对应的注册用户时，启动检测到注册用户对应的响应；

确定未识别到对应的注册用户时，根据接收的视频流对所述图像中的人体进行跟踪，并采集所述与人体对应的其他身份识别信息；

根据所述其他身份识别信息，确定识别到对应的注册用户时，将所述人体特征数据存储到注册数据库。

本申请的一些实施例中，采集所述与人体对应的其他身份识别信息，包括如下至少一个步骤：

对视频流中图像进行与所述人体对应的人脸识别，确定识别到人脸时，提取人脸数据特征；

接收音频采集装置发送的音频流，对所述音频流中的语音帧进行声纹识别，得到声纹数据特征。

本申请的一些实施例中，根据所述其他身份识别信息，确定识别到对应的注册用户，包括如下至少一个步骤：

确定识别到人脸时，提取人脸特征数据，与注册数据库中的人脸特征数据进行比对，确定人脸相似度，若所述人脸相似度大于人脸阈值时，确定识别到与人脸特征数据对应的第一注册用户；

确定接收到音频流时，提取音频流中的语音帧，与注册数据库中的声纹特征数据进行比对，确定声纹相似度，若所述声纹相似度大于声纹阈值时，确定识别到与声纹特征数据对应的第二注册用户。

本申请的一些实施例中，所述方法还包括：

若确定识别到所述第一注册用户及确定识别到所述第二注册用户，且所述第一注册用户与所述第二注册用户不一致时，确定所述人脸相似度和所述声纹相似度中更高的相似度对应的注册用户，为识别到的所述第一注册用户。

本申请的一些实施例中，根据接收的视频流对所述图像中的人体进行跟踪，并采集所述与人体对应的其他身份识别信息，包括：

确定跟踪的人体相对于拍摄装置的第一角度；

若对视频流中图像进行人脸识别，确定图像中人脸相对于拍摄装置的第二角度，当所述第二角度与所述第二角度一致时，提取所述人脸的人脸特征数据；

若接收音频采集装置发送的音频流时，确定所述音频流对应的声音方向相对于所述音频采集装置采集方向的第三角度，当所述第三角度与所述第一角度一致时，提取所述音频流的语音帧并进行声纹识别。

本申请的一些实施例中，确定跟踪的人体相对于拍摄装置的第一角度，包括：

计算

其中，所述α为拍摄装置横向视场角大小，所述w为图像横向像素数，所述x为图像中人体的横向坐标值。

本申请的一些实施例中，对视频流中的图像进行人体识别，包括：

每间隔n帧图像，将视频流中的图像输入到深度学习模型yolo中，得到标识人体区域的图像，所述深度学习模型yolo以标识有人体区域的图像为输入，以输出所述图像中标识的人体区域为目标进行网络模型训练，所述n为正整数。

本申请的一些实施例中，提取人体特征数据，与注册数据库中的人体特征数据进行对比，确定识别到对应的注册用户，包括：

提取人体特征数据，与注册数据库中的人体特征数据进行比对，确定人体相似度；

若所述人体相似度大于人体阈值时，确定识别到与人体特征数据对应的第三注册用户。

根据示例性的实施方式中的一方面，提供一种电子设备，所述电子设备至少包括处理器和存储器，所述处理器用于执行存储器中存储的计算机程序时实现如下步骤：

根据示例性的实施方式中的一方面，提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序指令，当所述指令在计算机上运行时，使得所述计算机执行如上述任一项实施例执行的步骤。

本申请的上述实施例中，通过不断更新注册数据库中的人体特征数据，由于添加的人体特征为人体识别无法识别的图像，可覆盖人体的各种情况，增加人体识别的准确率，通过注册数据库的动态更新，可以优化人体识别的效果，使其越来越准确。并且，由于在家庭场景下各个拍摄装置的安装位置差异较大，大多数情况下难以看到家庭人员的面部，并且声纹也不容易提取，故在优化人体识别之后可以有效的提升识别准确率，在一段时间后，即使仅通过人体识别也可进行准确的身份确认。

在符合本领域常识的基础上，上述各优选条件，可任意组合，即得本申请各较佳实施例。

附图说明

图1为一种用户身份识别系统的结构示意图；

图2为一种用户身份识别方法的步骤流程图；

图3为一种用户身份识别方法的完整步骤流程图；

图4为一种电子设备结构示意图。

具体实施方式

下面将结合附图对本发明实施例中的技术方案进行清楚、详尽地描述。其中，在本发明实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；文本中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况，另外，在本发明实施例的描述中，“多个”是指两个或多于两个。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为暗示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征，在本发明实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在实际应用过程中，智能家居希望实现全屋智能，即通过拍摄装置直接识别用户身份，从而对于屋内家居用户的实现实时识别跟踪，只有知道屋内家居用户的身份、位置、生活习惯才能更了解用户的行为习惯及偏好，从而能为用户提供更精准的服务。

下面对文中出现的一些术语进行解释：

本发明实施例中术语“人体检测算法”，为通过人体检测模型绘制图像中物体的边框，识别出图像中物体的物理类别并且输出物体所在的位置参数，其中，位置参数能够框出表示物体所在位置的矩形框。

图1示例性示出了本申请实施例提供的用户身份识别系统的结构。

如图所示，各种类型的智能监测设备(如图中所示的音频采集装置101、拍摄装置102)与用户识别设备103连接，用户识别设备103通过网络(未在图中示出)与服务器104连接。服务器104还可以通过移动通信网络105与用户的移动终端106进行通信连接。这里可允许服务器104通过局域网(Local Area Network，LAN)、无线局域网(Wireless Local AreaNetwork，WLAN)和移动终端106进行通信连接。在一些应用场景中，智能监测设备和智能音箱与用户识别设备之间可通过局域网络连接，用户识别设备可通过互联网与服务器连接。

其中，移动终端可以是个人计算机、手机、平板电脑、笔记本等具有一定计算能力并且具有通信功能的计算机设备；智能显示设备可以是智能电视、智能显示器等设备；智能家居管理设备可以为智能管家等能够控制电子家居设备的管理设备。

本申请实施例涉及的移动终端，可以是指向用户提供语音和/或数据连通性的设备，具有无线连接功能的手持式设备、或连接到无线调制解调器的其他处理设备。在不同的系统中，移动终端的名称可能也不相同，例如在5G系统中，终端设备可以称为UE(UserEquipment，用户设备)。无线终端设备可以经RAN(Radio Access Network，无线接入网)与一个或多个核心网进行通信，无线终端设备可以是移动终端设备，如移动电话(或称为“蜂窝”电话)和具有移动终端设备的计算机，例如，可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置，它们与无线接入网交换语言和/或数据。例如，PCS(PersonalCommunication Service，个人通信业务)电话、无绳电话、SIP(Session InitiatedProtocol，会话发起协议)话机、WLL(Wireless Local Loop，无线本地环路)站、PDA(Personal Digital Assistant，个人数字助理)等设备。无线终端设备也可以称为系统、订户单元(Subscriber Unit)、订户站(Subscriber Station)，移动站(Mobile Station)、移动台(Mobile)、远程站(Remote Station)、接入点(Access Point)、远程终端设备(RemoteTerminal)、接入终端设备(Access Terminal)、用户终端设备(User Terminal)、用户代理(User Agent)、用户装置(User device)，本申请实施例中并不限定。

与用户识别设备103连接的设备中具有监测功能(比如音视频数据采集功能)的设备可称为智能监测设备(比如音频采集装置101、拍摄装置102)。在一些实施例中，监测功能以及声音播报功能也可能集成在一个用户识别设备上，比如智能音箱既可以具有监测功能(比如智能音箱中设置有音频采集装置)，同时也具有声音播放功能。需要说明的是，本申请的实施例中，对于设备的分类及命名仅为示例，并不构成对本申请的限制。

智能监测设备的类型可以是一种，也可以是多种(两种或两种以上)，比如，智能监测设备可包括带有通信功能的音频采集装置、拍摄装置等。智能监测设备的数量可以是一个也可以是多个。图1仅示例性示出了音频采集装置101、拍摄装置102。其中，音频采集装置和拍摄装置可固定安装在需要进行监控的区域，比如安装在住宅内的客厅、卧室等位置。

智能监测设备具有数据采集功能和通信功能，能够将采集到的监测数据发送给用户识别设备。在一些示例中，智能监测设备包括数据采集器以及与其连接的通信器，数据采集器可用于采集监测数据，通信器可将监测数据发送给用户识别设备。在另一些示例中，智能监测设备包括数据采集器、通信器，以及与数据采集器、通信器连接的处理器，其中，数据采集器用于采集监测数据，处理器根据采集数据进行处理，通信器将数据采集器采集到的监测数据和/或处理器处理得到的信息发送给用户识别设备103。

其中，智能监测设备中的音频采集装置可以是单麦克风，也可以是麦克风阵列，比如以多个麦克风形成环绕结构的麦克风阵列。麦克风阵列具备波束形成、抑制噪声和特定波束方向的语音增强的特性，可以满足较远距离、高品质及特定方向的声音数据采集，确保更高的语音识别成功率和准确率。同时，基于麦克风阵列具备波束形成的特性，可以根据麦克风阵列中每个麦克风采集到的声音数据的差异，对声源的位置进行定位。

智能监测设备中的拍摄装置可以是彩色相机，也可以是深度相机，或者两者的组合。其中，彩色相机可以是普通彩色相机，也可以是广角彩色相机。深度相机可以是双目相机，也可以是结构光相机，还可以是基于飞行时间(Time Of Fly，TOF)的相机。

在一些实施例中，拍摄装置可以设置在云台上，以便实现对该装置的拍摄角度进行控制。其中，云台是拍摄装置的支撑部件，云台可由控制电机带动进行不同维度或角度的转动，从而带动拍摄装置调整拍摄角度，从而实现跟踪目标进行拍摄。

在一些实施例中，智能监测设备还可以包括能够实现音频数据采集以及视频数据采集功能的设备，即，可集成有音频采集装置与拍摄装置。在另一些实施例中，智能音箱也可具有音频数据采集功能，比如智能音箱集成有音频采集装置，具有音频采集功能的智能音箱也可作为智能监测设备。本申请实施例对于智能监测设备的外观形态不做限制。

用户识别设备103可以是独立设备，也可以与其他设备集成形成的，或者是通过在其他设备(比如智能家居网关或机顶盒)中增加本申请实施例提供的功能实现的。

用户识别设备103可具备声音数据处理、图像视频数据处理、数据监测控制等功能。声音数据处理功能主要用于实现对音频采集装置101检测到的声音数据进行处理和分析，比如进行音频降噪、回声消除及声纹识别等处理，还可以进行语音识别以及声源位置的具体定位等。其中，语音识别和声源位置定位功能可由用户识别设备103独立完成，也可请求服务器完成。图像视频数据处理功能主要用于实现对拍摄装置102采集的视频流数据进行处理和分析，以确定影像中的对象的行为。图像视频数据处理功能可由用户识别设备103独立完成，也可请求服务器104完成。数据监测控制主要用于实现对拍摄装置发送控制指令以唤醒拍摄装置进行图像视频数据处理并控制拍摄装置的拍摄角度，监测控制功能还能够用于实现向智能音箱发送控制指令，以触发智能音箱。

用户识别设备103可将智能监测设备采集的监测数据(比如拍摄装置采集的视频流数据)发送给服务器，以便由服务器通过移动通信网络发送给与该监测对象关联的用户所使用的移动终端106。用户识别设备103还可以提供查询功能，比如用户可通过所使用的终端(比如手机)上的应用程序(APP)向用户识别设备103发送查询请求，用户识别设备103可以响应该请求，将所请求查询的目标监测对象的音视频发送给该终端，以使得用户可通过该APP查看目标监测对象的状态。

服务器104可以是一个独立部署的服务器，也可以是分布式服务器，还可以是服务器集群。服务器104可采用云技术，以提供强大的处理能力。

基于上述架构，在一种实际应用场景中，可将一个家庭(住宅)内的一些具有监测功能的智能监测设备连接到用户识别设备103中，并接入到服务器。

当用户识别设备103确定用户身份后，被确定的用户可以通过语音信息控制家庭中的智能家居设备，比如，打开卧室的空调，查询信息等，可以通过智能音箱、智能电视等智能设备采集该用户输入的待识别语音信息。该采集待识别语音信息的智能设备，可以直接在本地，对该待识别语音信息进行意图识别，比如，进行用户意图模板匹配方法，也可以将待识别语音信息，或待识别的语音信息的文本信息发送至用户识别设备103，用户识别设备103对该待识别语音信息的文本信息进行意图识别，当确定该待识别语音信息对应的目标意图后，进行后续的一些处理，从而实现按照用户的期望控制智能家居设备。

本发明实施例提供一种用户身份识别方法，应用于上述用户识别设备103侧，如图2所示，包括如下步骤：

步骤S201，接收拍摄装置发送的视频流，对视频流中的图像进行人体识别；

利用拍摄装置102对家居场景下进行拍摄，由用户识别设备103接收拍摄得到的视频流，对视频流中的图像进行人体识别；

在一些实施例中，将视频流中的图像输入到深度学习模型yolo中，得到标识人体区域的图像，所述深度学习模型yolo以标识有人体区域的图像为输入，以输出所述图像中标识的人体区域为目标进行网络模型训练。

其中深度学习模型yolo，将目标检测问题转换为一个回归问题(Regreesionproblem)，直接预测出boudning box边框回归和相关的类别信息，深度学习模型yolo是一个可以端到端训练的single network单一网络，它不需要单独的搜索Region Proposals候选区域，也不需要单独的Classifier分类器，因此其检测速度特别快，且检测人体效果非常好，可检测出图像中被遮挡、光线较差、只包含身体部分区域的人体区域。

在本实施例中，为了降低实时检测人体的计算量，并非每帧都做人体检测，而是每间隔n帧图像，将视频流中的图像输入到深度学习模型yolo中，得到标识人体区域的图像，在本实施例中将n取5，本领域技术人员可以根据设备计算量确定检测的间隔帧数，这里不做限定。

步骤S202，确定识别到人体时，提取人体特征数据，并与注册数据库中的人体特征数据进行对比，确定识别到对应的注册用户时，启动检测到注册用户对应的响应；

由用户识别设备103获取步骤S201中检测到的标识人体区域的图像，将图像中的人体区域部分图像进行提取，并将人体区域部分图像输入到人体特征提取网络中，其中人体特征提取网络用于确定人体区域中的人体各骨骼关键点信息，所述的人体特征提取网络，是利用历史时间段内的发送的图像帧及图像帧中人体关键点作为训练样本，利用训练样本中的图像帧数据作为输入特征，将输出的人体关键点和应有的关键点位置的标注结果进行比对，根据比对的结果调整所述人体关键点检测模型的参数，得到人体关键点检测模型，本实施例中训练样本包括视频中某帧有人体关键点的图像或视频中某帧中无人体关键点的图像，具体的模型训练过程可以采用现有方式，这里不再进一步详述。

其中，在人体特征提取网络中，有至少两个级联的卷积神经网络，所述卷积神经网络的具体个数是由计算人体关键点的目标的复杂程度以及当前设备的计算能力确定的，这里不做过多限定。

首先利用各关键点的关键点信息，从标识人体区域的图像中确定出定位关键点，并根据各点关键点确定人体的骨架信息，例如，可以通过OpenPose算法，并利用各关键点实现人体动作姿态估计，OpenPose网络使用VGG-19模型从图像中提取特征，并与注册数据库中的人体特征进行比对，得到人体的相似度，其中上述提取人体特征的算法不限于上述实施例提供的算法，任何可以用于提取人体特征的算法在上述实施例中均可使用，这里不做限定。

一些实施例中，关键点信息可以采用较为常用的MSCOCO关键点数据集的骨骼点采集模型获取。该模型中能识别18个人体关键骨骼点，具体包括：0(鼻子)、1(脖子)、2(右肩)、3(右手肘)、4(右手腕)、5(左肩)、6(左手肘)、7(左手腕)、8(腹部)、9(右髋部)、10(右膝部)、11(右脚腕)、12(左髋部)、13(左膝部)、14(左脚腕)、15(右眼)、16(左眼)、17(右耳)、18(左耳)。

一些实施例中，提取人体特征数据，与注册数据库中的人体特征数据进行对比，确定识别到对应的注册用户，包括：

提取人体特征数据，与注册数据库中的人体特征数据进行比对，确定人体相似度，若所述人体相似度大于人体阈值时，确定识别到与人体特征数据对应的第三注册用户，当确定识别到对应的注册用户时，启动检测到注册用户对应的响应。

一些实施例中，为了在智能家居环境下保证较高的识别准确率，将人体阈值调整的较大，虽增加了是注册用户但却没有识别到的情况，但后续可以根据增加注册数据库中人体特征数据的更新进行优化，这样可以保证根据人体特征数据识别的准确率。

一些实施例中，确定识别到对应的注册用户时，将所述人体特征数据存储到注册数据库，具体的，在拍摄装置的视频流的某一帧识别到对应的注册用户时，将该用户在该拍摄装置中出现所采集到的人体特征数据存储到注册数据库，以提高对于人体识别的准确率。

步骤S203，确定未识别到对应的注册用户时，根据接收的视频流对所述图像中的人体进行跟踪，并采集所述与人体对应的其他身份识别信息；

在上述通过注册数据库中的人体特征数据，与视频流的某一帧中提取的人体特征数据的人体相似度低于人体阈值时，用户识别设备对上述模型识别出的图像中的人体进行跟踪，并采集所述人体对应的其他身份识别信息；

采集所述与人体对应的其他身份识别信息，包括如下至少一个步骤：

在一些实施例中，其他身份识别信息为人脸特征时，对视频流中图像进行与所述人体对应的人脸识别，具体的，确定识别到人脸时，提取人脸特征数据，与注册数据库中的人脸特征数据进行比对，确定人脸相似度，若所述人脸相似度大于人脸阈值时，确定识别到与人脸特征数据对应的第一注册用户。

其中，人脸阈值的确定方式为，提前采集大量的家居场景数据，对其进行人脸进行检测，从小到大的调整的人脸阈值，直至利用上述人脸阈值确定的用户身份不存在误识别的情况，即检测到的用户身份为一定正确结果，将该人脸阈值确定为使用的人脸阈值。

在另一些实施例中，由于在人体区域内对人脸特征的提取计算量较小，故可以采用对于每一帧都进行特征提取的方法，若没有检测到人脸则继续检测下一帧，若检测到人脸则进行人脸特征提取，将提取的人脸特征数据与注册数据库进行比对，以确定用户身份。

在一些实施例中，其他身份识别信息为声纹特征时，接收音频采集装置发送的音频流，确定接收到音频流时，提取音频流中的语音帧，与注册数据库中的声纹特征数据进行比对，确定声纹相似度，若所述声纹相似度大于声纹阈值时，确定识别到与声纹特征数据对应的第二注册用户。

其中，声纹阈值的确定方式为，提前采集大量的家居场景数据，对其进行人声进行检测，从小到大的调整的声纹阈值，直至利用上述声纹阈值确定的用户身份不存在误识别的情况，即检测到的用户身份为一定正确结果，将该声纹阈值确定为使用的声纹阈值。

在一些实施例中，根据接收的视频流对所述图像中的人体进行跟踪，并采集所述与人体对应的其他身份识别信息，包括：

具体的，需要确定在拍摄装置拍摄的图像中，人体相对于摄像装置的正对方向的角度，以及确定在采集其他身份信息时，人体的相对于智能监测设备的正对方向的角度。当跟踪的人体相对于拍摄装置的角度与其他身份识别信息的角度一致时，才能进行利用其他身份识别信息，确定用户身份的步骤。

首先确定跟踪的人体相对于拍摄装置的第一角度；

若对视频流中图像进行人脸识别，确定图像中人脸相对于拍摄装置的第二角度，当所述第二角度与所述第一角度一致时，提取所述人脸的人脸特征数据；

由于是对人体区域上的人体进行检测，也可以在确定人体相对于拍摄装置的第一角度后，在所述人体上提取所述人脸的人脸特征数据；

利用音频采集装置中的麦克风阵列对发声源进行定位，若音频流对应的声音方向确定的角度与跟踪的人体相对于拍摄装置的角度一致时，提取所述音频流的语音帧并进行声纹识别。

在一些实施例中，确定跟踪的人体相对于拍摄装置的第一角度，包括：

计算

例如，当拍摄装置的水平方向为0°，则人体与拍摄装置的角度β为：

在一些实施例中，其他身份识别信息为指纹特征时，跟踪的人体在智能家居环境下，某智能设备上进行指纹验证通过后，利用所述指纹验证的身份确定用户身份。

其中上述其他身份识别信息并不限定为上述类别特征，由用户携带的特定能够标识个人身份的RFID或蓝牙iBeacon室内定位模块等身份确定标识均可以作为身份识别信息，使用更为准确的身份识别信息确定未识别的人体特征数据，这里不做限定，本领域人员可以自由设定。

步骤S204，根据所述其他身份识别信息，确定识别到对应的注册用户时，将所述人体特征数据存储到注册数据库。

在根据上述其他身份识别信息确定用户身份信息后，将拍摄装置中拍摄到的人体区域图像提取的人体特征数据，存储在对应注册用户下的注册数据库中的人体特征数据下。

在一些实施例中，若确定识别到所述第一注册用户及确定识别到所述第二注册用户，且所述第一注册用户与所述第二注册用户不一致时，确定所述人脸相似度和所述声纹相似度中更高的相似度对应的注册用户，为识别到的所述第一注册用户。

在一些实施例中，在使用上述人脸识别和声纹识别之前，首先分别对人脸识别的方法和声纹识别的方法进行测试，利用大量采集场景中的真实数据，确定人脸识别和声纹识别之中识别准确率更高的方法，当使用上述人脸识别和声纹识别都识别出注册用户时，选取识别准确率更高的方法作为用户身份信息返回。

本实施例提供一种完整的用户识别方法的完整流程图，如图3所示，包括如下步骤：

步骤S301，在注册数据库中注册智能家居环境下的各用户的人体、人脸、声纹特征信息；

步骤S302，接收拍摄装置发送的视频流，对视频流中的图像进行人体识别；

步骤S303，确定识别到人体时，提取人体特征数据，并与注册数据库中的人体特征数据进行对比，若比对大于人体阈值时，执行步骤S304，否则执行步骤S305；

步骤S304，确定识别到对应的注册用户，启动检测到注册用户对应的响应；

步骤S305，确定未识别到对应的注册用户，对未识别到的人体图像进行跟踪，确定时，执行步骤S306，确定接收到音频流时，执行步骤S307；

步骤S306，提取人脸特征数据，与注册数据库中的人脸特征数据进行比对，确定人脸相似度，若所述人脸相似度大于人脸阈值时，且确定图像中人脸相对于拍摄装置的第二角度与跟踪的人体相对于拍摄装置的第一角度一致时，执行步骤S308；

步骤S307，提取音频流中的语音帧，与注册数据库中的声纹特征数据进行比对，确定声纹相似度，若所述声纹相似度大于声纹阈值时，确定识别到与声纹特征数据对应的第二注册用户，且所述音频采集装置采集方向的第三角度与跟踪的人体相对于拍摄装置的第一角度一致时，执行步骤S308；

步骤S308，确定所述人脸相似度和所述声纹相似度中更高的相似度对应的注册用户；

步骤S309，将所述人体特征数据存储到对应注册用户下的注册数据库中。

利用本申请提供的方法可以解决因室内存在光线复杂、拍摄装置安装位置不固定、且人员位置姿态多变、遮挡的问题，拍摄到的人体图像难以与初始录入的人体图像进行匹配，在复杂的日常家居生活中仅初始录入的人体难以准确判断家居人员身份信息的问题，在初始录入的人体特征数据无法识别人体时，对人体进行追踪，由于人脸和声纹的识别率很高，则可以确定用户身份，并将无法识别的人体特征数据存储到注册数据库中，通过不断更新注册数据库中的人体特征数据，由于添加的人体特征为人体识别无法识别的图像，可覆盖人体的各种情况，增加人体识别的准确率，通过注册数据库的动态更新，可以优化人体识别的效果，使其越来越准确。并且，由于在家庭场景下各个拍摄装置的安装位置差异较大，大多数情况下难以看到家庭人员的面部，并且声纹也不容易提取，故在优化人体识别之后可以有效的提升识别准确率，在一段时间后，即使仅通过人体识别也可进行准确的身份确认，解决了各个场景下，对于人体识别困难的问题。

图4为本申请一些实施例提供的一种电子设备的结构示意图，所述电子设备可以为上述实施例中提供的用户识别设备103，也可以为其他类别的电子设备，该电子设备可因配置或性能不同而产生比较大的差异，所述电子设备包括：处理器401、通信接口402、存储器403和通信总线404，其中，处理器401，通信接口402，存储器403通过通信总线404完成相互间的通信；

所述存储器403中存储有计算机程序，当所述程序被所述处理器401执行时，使得所述处理器401以完成上述方法中电子设备执行相应功能的步骤。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口402用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选地，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述处理器可以是通用处理器，包括中央处理器、网络处理器(NetworkProcessor，NP)等；还可以是数字指令处理器(Digital Signal Processing，DSP)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

所述处理器用于执行存储器中存储的计算机程序时实现：

在一些实施例中，处理器用于采集所述与人体对应的其他身份识别信息，包括如下至少一个步骤：

在一些实施例中，处理器用于根据所述其他身份识别信息，确定识别到对应的注册用户，包括如下至少一个步骤：

在一些实施例中，处理器还用于：

在一些实施例中，处理器用于根据接收的视频流对所述图像中的人体进行跟踪，并采集所述与人体对应的其他身份识别信息，包括：

确定跟踪的人体相对于拍摄装置的第一角度；

在一些实施例中，处理器用于确定跟踪的人体相对于拍摄装置的第一角度，包括：

计算

在一些实施例中，处理器用于对视频流中的图像进行人体识别，包括：

每间隔n帧图像，将视频流中的图像输入到深度学习模型yolo中，得到标识人体区域的图像，所述深度学习模型yolo以标识了人体区域的图像为输入，以输出标识人体区域的图像为目标进行网络模型训练，所述n为正整数。

在一些实施例中，处理器用于提取人体特征数据，与注册数据库中的人体特征数据进行对比，确定识别到对应的注册用户，包括：

提取人体特征数据，与注册数据库中的人体特征数据进行比对，确定人体相似度，若所述人体相似度大于人体阈值时，确定识别到与人体特征数据对应的第三注册用户。

在上述各实施例的基础上，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有可由电子设备执行的计算机程序，计算机可执行指令用于使计算机执行用户身份识别方法。

上述计算机可读存储介质可以是电子设备中的处理器能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器如软盘、硬盘、磁带、磁光盘(MO)等、光学存储器如CD、DVD、BD、HVD等、以及半导体存储器如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD)等。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种用户身份识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，采集所述与人体对应的其他身份识别信息，包括如下至少一个步骤：

3.根据权利要求2所述的方法，其特征在于，根据所述其他身份识别信息，确定识别到对应的注册用户，包括如下至少一个步骤：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求2所述的方法，其特征在于，根据接收的视频流对所述图像中的人体进行跟踪，并采集所述与人体对应的其他身份识别信息，包括：

确定跟踪的人体相对于拍摄装置的第一角度；

6.根据权利要求5所述的方法，其特征在于，确定跟踪的人体相对于拍摄装置的第一角度，包括：

计算

7.根据权利要求1所述的方法，其特征在于，对视频流中的图像进行人体识别，包括：

8.根据权利要求1所述的方法，其特征在于，提取人体特征数据，与注册数据库中的人体特征数据进行对比，确定识别到对应的注册用户，包括：

9.一种电子设备，其特征在于，所述电子设备至少包括处理器和存储器，所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1～8中任一所述用户身份识别方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序指令，当所述指令在计算机上运行时，使得所述计算机执行如权利要求1～8任一所述的方法。