CN115311706A

CN115311706A - 人员识别方法、装置、终端设备和存储介质

Info

Publication number: CN115311706A
Application number: CN202210824953.4A
Authority: CN
Inventors: 何巍巍; 彭庆太; 韩杰; 王艳辉
Original assignee: Visionvera Information Technology Co Ltd
Current assignee: Shilian Power Information Technology Co.,Ltd. Tibet Branch
Priority date: 2019-08-28
Filing date: 2019-08-28
Publication date: 2022-11-08
Also published as: CN110705351A

Abstract

本发明提供了一种人员识别方法、装置、终端设备和存储介质，通过获取多媒体数据，并根据多媒体数据，确定各目标人员的多个不同角度的人脸图像；根据各目标人员的多个不同角度的人脸图像，确定与各目标人员对应的综合面部特征向量；将各目标人员对应的综合面部特征向量与预先存储的全部人员对应的基准综合面部特征向量匹配，识别目标人员。各个参会的终端可以采集各自对应的参会人员的人脸图像，采用人脸识别的方式进行自动签到，还可以记录迟到、早退等情况，处理过程更加全面，签到效率更高，签到的准确性高，能够保证视联网终端前为真正的动态参会人员，而非照片等静态物体，并且多个不同角度结合的识别方式能够进一步提高人脸识别的准确性。

Description

人员识别方法、装置、终端设备和存储介质

本申请是201910804717.4的分案申请，原申请的申请日为2019.8.28，原申请的发明名称为视频会议的签到方法及系统。

技术领域

本发明涉及计算机技术领域，特别是涉及一种人员识别方法、装置、终端设备和存储介质。

背景技术

随着网络科技的快速发展，视频会议、视频教学、可视电话等双向通信在用户的生活、工作、学习等方面广泛普及。

在一些公众场合下，例如商场，或者是进行大型会议的情景下，会有很多人参与，若需要找到某个人出现的位置，通常需要人工在监控画面中一帧一帧去查找，不仅需要消耗大量的人力和时间，而且通过人眼找到目标人物的准确率也较低，如何能够快速准确地查找到目标人物是目前急需解决的问题。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种人员识别方法、装置、终端设备和存储介质。

第一方面，本发明实施例公开了一种人员识别方法，所述方法包括：

获取多媒体数据，并根据所述多媒体数据，确定各目标人员的多个不同角度的人脸图像；

根据所述各目标人员的多个不同角度的人脸图像，确定与所述各目标人员对应的综合面部特征向量；

将所述各目标人员对应的综合面部特征向量与预先存储的全部人员对应的基准综合面部特征向量匹配，识别所述目标人员。

可选地，所述将所述各目标人员对应的综合面部特征向量与预先存储的全部人员对应的基准综合面部特征向量，识别所述目标人员，包括：

在预先存储的全部人员对应的基准综合面部特征向量中，查找与所述目标人员对应的综合面部特征向量相匹配的目标人员基准综合面部特征向量；

若查找到与所述综合面部特征向量相匹配的目标人员基准综合面部特征向量，根据所述目标人员基准综合面部特征向量确定所述目标人员信息。

可选地，所述根据所述多媒体数据，确定各目标人员的多个不同角度的人脸图像，包括：

对所述多媒体数据中的图像进行解析，得到所述图像中的人脸关键点的运动轨迹；

若所述人脸关键点的运动轨迹符合预设的某个角度的运动轨迹，则将所述图像确定为人脸在所述角度的人脸图像。

可选地，所述根据所述多个不同角度的人脸图像，确定与所述目标人员对应的综合面部特征向量，包括：

分别获取预设的每个角度的人脸图像的权重值；

按照所述权重值，将所述各目标人员多个不同角度的人脸图像对应的面部特征进行加权组合，得到与所述各目标人员对应的人脸的综合面部特征向量。

若未查找到与所述综合面部特征向量相匹配的目标人员基准综合面部特征向量，将所述综合面部特征向量作为基准综合面部特征向量进行保存。

可选地，所述方法还包括：

若检测到的人员的人脸图像消失，且消失时长超过预设时长，则将目标人员的人脸的综合面部特征向量标记为消失。

第二方面，本发明实施例公开了一种人员识别装置，所述装置包括：

获取模块，用于获取多媒体数据，并根据所述多媒体数据，确定各目标人员的多个不同角度的人脸图像；

确定模块，用于根据所述各目标人员的多个不同角度的人脸图像，确定与所述各目标人员对应的综合面部特征向量；

识别模块，用于将所述各目标人员对应的综合面部特征向量与预先存储的全部人员对应的基准综合面部特征向量匹配，识别所述目标人员。

可选地，所述识别模块用于：

可选地，所述获取模块用于：

可选地，所述确定模块用于：

分别获取预设的每个角度的人脸图像的权重值；

可选地，所述识别模块还用于：

本发明实施例提供的人员识别方法、装置、终端设备和存储介质，通过获取多媒体数据，并根据多媒体数据，确定各目标人员的多个不同角度的人脸图像；根据各目标人员的多个不同角度的人脸图像，确定与各目标人员对应的综合面部特征向量；将各目标人员对应的综合面部特征向量与预先存储的全部人员对应的基准综合面部特征向量匹配，识别目标人员。由此可知，本发明实施例中一方面，若是进行会议，各个参会的终端可以采集各自对应的参会人员的人脸图像，采用人脸识别的方式进行自动签到，还可以记录迟到、早退等情况，处理过程更加全面，签到效率更高，签到的准确性高；另一方面，通过多个不同角度的人脸图像得到人脸的综合面部特征向量，根据综合面部特征向量进行匹配识别，能够保证视联网终端前为真正的动态参会人员，而非照片等静态物体，并且多个不同角度结合的识别方式能够快速准确到查找到目标人物，进一步提高人脸识别的准确性。

附图说明

图1是本发明实施例的一种人员识别方法的步骤流程图；

图2是本发明实施例的又一种人员识别方法的步骤流程图；

图3是本发明实施例的一种设备交互的示意图；

图4是本发明实施例的一种人员识别装置的结构框图；

图5是本发明的一种视联网的组网示意图；

图6是本发明的一种节点服务器的硬件结构示意图；

图7是本发明的一种接入交换机的硬件结构示意图；

图8是本发明的一种以太网协转网关的硬件结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

参照图1，示出了本发明实施例的一种人员识别方法的步骤流程图。本发明实施例的人员识别方法可以包括以下步骤：

步骤S101，获取多媒体数据，并根据所述多媒体数据，确定各目标人员的多个不同角度的人脸图像。

具体地，服务器获取各个终端发送的媒体流数据，并对该媒体流数据进行解析，从媒体流数据中获取各个目标人员的多个不同角度的人脸图像。

本发明实施例可应用于的各种不同的场景，例如获取的多媒体数据可以已经录像完成的多媒体数据，也可以获取的是各个区域的监控数据，可以实时获取多媒体数据，也可以是获取已经录制完成的多媒体数据，在本申请实施例中不做具体限定。

示例性地，多媒体数据还可以是视联网终端采集的，并将采集的多媒体数据发送至服务器，视联网终端可以为基于视联网协议的各种机顶盒(Set Top Box，STB)等。视联网终端可以连接摄像头、麦克风等外接设备，通过摄像头可以采集视频，通过麦克风可以采集音频。本发明实施例中，各个参加视频会议的视联网终端均可执行人员识别方法中的相应步骤，为了使本申请的论述更加清楚，本发明实施例以一个视联网终端进行视频会议为例进行说明。具体地，视频会议，是指位于两个或多个地点的人们，通过通信设备和网络，进行面对面交谈的会议。根据参会地点数目不同，视频会议可分为点对点会议和多点会议。日常生活中的个人，对谈话内容安全性、会议质量、会议规模没有要求，可以采用视频软件来进行视频聊天。而政府机关、企业事业单位的商务视频会议，要求有稳定安全的网络、可靠的会议质量、正式的会议环境等条件，则要使用专业的视频会议设备，组建专门的视频会议系统。

在进行视频会议前，需要参会人员进行签到。现有的签到方法通常是人工打卡或者手工签到，但是这种签到方式效率低，并且签到的准确性也较低。通过各个参加视频会议的视联网终端均可执行人员识别方法中的相应步骤实现视频会议中人员签到，从多个不同角度结合的识别方式能够进一步提高人脸识别的准确性。

在视频会议开始之前，或者在视频会议刚开始时，摄像头可以采集视频。视联网终端可以实时检测摄像头采集的视频中是否出现人会人员的人脸，并在出现参会人员的人脸后，分别获取该人脸在多个不同角度的人脸图像。

步骤S102，根据所述各目标人员的多个不同角度的人脸图像，确定与所述各目标人员对应的综合面部特征向量。

针对采集到的多个人脸图像，视联网终端分别提取每个人脸图像对应的面部特征，得到多组面部特征，之后将多组面部特征组合成该人脸的综合面部特征向量。

步骤S103，将所述各目标人员对应的综合面部特征向量与预先存储的全部人员对应的基准综合面部特征向量匹配，识别所述目标人员。

视联网终端可以基于视联网协议，将组合得到的综合面部特征向量上传至视联网服务器。视联网服务器在接收到视联网终端上传的综合面部特征向量后，获取视频会议的全部参会人员对应的基准综合面部特征向量，并确定其中是否存在与综合面部特征向量相匹配的基准综合面部特征向量，如果存在，则确定该上传的综合面部特征向量对应的参会人员签到成功。

本发明实施例提出了视频会议的签到人员识别方案，遵循视联网的协议，通过人脸识别技术在视频会议中进行签到。

在视联网视频会议中，涉及到的设备可以包括视联网服务器和多个参加视频会议的视联网终端。视联网服务器统一管理视联网中的各种业务，进行视联网业务的设备都要注册到视联网服务器中方可进行正常业务，注册成功后视联网服务器为注册的设备分配视联网号码、视联网MAC地址(Media Access Control，媒体访问控制)等信息。视联网号码是注册到视联网中的设备的识别号码，用于标识可以发起视联网业务的真实或者虚拟终端。视联网终端是基于视联网协议进行业务的终端，视联网终端注册到视联网服务器之后方可进行视联网业务。

本发明实施例中一方面，各个参会的视联网终端可以采集各自对应的参会人员的人脸图像，采用人脸识别的签到方式进行签到，签到效率高，签到的准确性高；另一方面，通过多个不同角度的人脸图像得到人脸的综合面部特征向量，根据综合面部特征向量进行匹配识别，能够保证视联网终端前为真正的动态参会人员，而非照片等静态物体，并且多个不同角度结合的识别方式能够进一步提高人脸识别的准确性。

参照图2，示出了本发明实施例的又一种人员识别方法的步骤流程图。

本发明实施例的人员识别方法可以包括以下步骤：

步骤201，视联网终端在检测到采集的视频中出现参会人员的人脸后，分别获取所述人脸在多个不同角度的人脸图像。

视联网终端实时检测摄像头采集的视频中是否出现参会人员的人脸。在一种可选实施方式中，可以根据模糊识别算法检测视频中是否出现参会人员的人脸。在实现中，可以利用Viola-Jones人脸检测器对视频中的人脸进行检测。首先组织一个样本集，求出样本集的Haar特征(人脸和非人脸)，用特征来训练分类器：根据每一层分类器中样本分类是否正确修改样本的权值，并送入下一层分类器训练，然后将每一层分类器融合起来作为最终的Adaboost决策分类器。在检测时对视频提取Haar特征，结合级联Adaboost算法，获取人脸检测率，在人脸检测率达标时确定视频中出现参会人员的人脸。

在视频中出现参会人员的人脸后，分别获取所述人脸在多个不同角度的人脸图像。在一种可选实施方式中，所述多个不同角度包括以下至少两个：正脸角度、左侧脸角度、右侧脸角度、抬头脸角度、低头脸角度。

分别获取所述人脸在多个不同角度的人脸图像的步骤可以包括：视联网终端获取所述人脸中的关键点的运动轨迹；视联网终端在确定所述运动轨迹符合预设的某个角度的运动轨迹后，从所述视频中提取一帧图像作为所述人脸在所述角度的人脸图像。

人脸中的关键点可以选取人脸中任意位于人脸垂直中线上的点，比如鼻子、嘴巴，等等。预先设置每个角度对应的运动轨迹，比如以视频画面的中心点作为坐标原点，可以设置正脸角度对应的运动轨迹为关键点在纵轴上不动，左侧脸角度对应的运动轨迹为关键点的横轴坐标向纵轴左侧移动，右侧脸角度对应的运动轨迹为关键点的横轴坐标向纵轴右侧移动，抬头脸角度对应的运动轨迹为关键点的纵轴坐标向横轴上方移动，低头脸角度对应的运动轨迹为关键点的纵轴坐标向横轴下方移动。视联网终端锁定并追踪人脸中的关键点，获取人脸中的关键点的运动轨迹，并判断运动轨迹是否符合预设的某个角度的运动轨迹，如果符合则此时从视频中提取一帧图像作为所述人脸在所述角度的人脸图像。在一种可选实施方式中，可以利用多媒体视频处理工具FFmpeg从视频中提取一帧图像。

步骤202，视联网终端分别提取每个人脸图像对应的面部特征，并将所述面部特征组合成所述人脸的综合面部特征向量。

视联网终端获取到多个不同角度的人脸图像，分别提取每个人脸图像对应的面部特征。在一种可选实施方式中，可以利用预先训练生成的卷积神经网络(ConvolutionalNeural Networks，CNN)模型分别提取每个人脸图像对应的面部特征。CNN模型包括输入层、卷积层、池化层和全连接层，将人脸图像通过输入层输入CNN模型，然后通过卷积层对其进行卷积计算，再通过池化层进行压缩，最后通过全连接层对特征进行分类，得到多个维度的面部特征。

视联网终端将多个人脸图像对应的面部特征进行组合，得到所述人脸的综合面部特征向量。在一种可选实施方式中，将所述面部特征组合成所述人脸的综合面部特征向量的步骤可以包括：分别获取预设的每个角度的人脸图像的权重值；按照所述权重值，将所述多个不同角度的人脸图像对应的面部特征进行加权组合，得到所述人脸的综合面部特征向量。

预先分别设置每个角度的人脸图像的权重值，多个角度的人脸图像的权重值的总和为1。考虑到正脸角度的人脸图像中的作用更大，因此可以设置正脸角度的人脸图像的权重值最大。对于权重值的分配，本领域技术人员根据实际经验设置任意使用的值即可，本发明实施例对此不作限制。比如，如果多个不同角度包括正脸角度、左侧脸角度、右侧脸角度、抬头脸角度、低头脸角度，则可以设置正脸角度的人脸图像的权重值为0.4，左侧脸角度的人脸图像的权重值为0.15，右侧脸角度的人脸图像的权重值为0.15，抬头脸角度的人脸图像的权重值为0.15，低头脸角度的人脸图像的权重值为0.15，等等。

按照每个角度的人脸图像的权重值，将多个不同角度的人脸图像对应的面部特征进行加权组合。比如，如果多个不同角度包括正脸角度、左侧脸角度、右侧脸角度、抬头脸角度、低头脸角度，正脸角度的人脸图像的权重值为a，正脸角度的人脸图像对应的面部特征为A，左侧脸角度的人脸图像的权重值为b，左侧脸角度的人脸图像对应的面部特征为B，右侧脸角度的人脸图像的权重值为c，右侧脸角度的人脸图像对应的面部特征为C，抬头脸角度的人脸图像的权重值为d，抬头脸角度的人脸图像对应的面部特征为D，低头脸角度的人脸图像的权重值为e，低头脸角度的人脸图像对应的面部特征为E，其中A、B、C、D、E可以为数组或向量形式。则进行加权组合后得到人脸的综合面部特征向量为a·A+b·B+c·C+d·D+e·E。

步骤203，视联网终端基于视联网协议将所述综合面部特征向量上传至所述视联网服务器。

视联网终端和视联网服务器之间基于视联网协议进行交互。视联网终端得到视频中参会人员的人脸对应的综合面部特征向量后，基于视联网协议将该综合面部特征向量封装为视联网协议数据包，并通过视联网将该视联网协议数据包上传至视联网服务器。视联网协议数据包中还可以包括视联网终端(源设备)的视联网号码、视联网终端的视联网MAC地址、视联网服务器(目的设备)的视联网号码、视联网服务器的视联网MAC地址等信息。

步骤204，视联网服务器确定视频会议的全部参会人员对应的基准综合面部特征向量中，是否存在与综合面部特征向量相匹配的基准综合面部特征向量。若存在，则执行步骤605；若不存在，则执行步骤606。

视联网服务器接收到视联网终端上传的综合面部特征向量后，获取本次视频会议的全部参会人员对应的基准综合面部特征向量。在实现中，可以预先采集全部参会人员的人脸在多个不同角度的人脸图像，并按照上述方式获取参会人员的人脸的综合面部特征向量，作为该参会人员对应的基准综合面部特征向量，并将全部参会人员对应的基准综合面部特征向量保存至数据库中。视联网服务器可以从数据库中获取本次视频会议的全部参会人员对应的基准综合面部特征向量。

图3是本发明实施例的一种设备交互的示意图,如图3所示，视联网终端可以向视联网服务器发送数据，视联网服务器可以从数据库中查询数据，数据库可以向视联网服务器返回数据。因此，视联网终端想视联网服务器发送综合面部特征向量，视联网服务器从数据库中查询本次视频会议的全部参会人员对应的基准综合面部特征向量，数据库查询到后向视联网服务器返回本次视频会议的全部参会人员对应的基准综合面部特征向量。

视联网服务器将视联网终端上传的综合面部特征向量，与全部参会人员对应的基准综合面部特征向量中的每个基准综合面部特征向量一一进行匹配，确定是否存在与综合面部特征向量相匹配的基准综合面部特征向量。

在一种可选实施方式中，可以确定综合面部特征向量与基准综合面部特征向量之间的相似度，当相似度小于预设的相似度阈值时，可以确定综合面部特征向量与该基准综合面部特征向量相匹配。对于相似度阈值的具体数值，本领域技术人员可以根据实际情况设置任意适用的值，本发明实施例对此不作限制。

两个向量之间的相似度可以根据两个向量之间的余弦距离、欧氏距离等衡量，对于具体的处理过程，本领域技术人员根据实际经验进行相关处理即可，本发明实施例在此不再详细论述。

步骤205，视联网服务器在确定存在与所述综合面部特征向量相匹配的基准综合面部特征向量后，确定所述参会人员签到成功。

视联网服务器如果确定出本次视频会议的全部参会人员对应的基准综合面部特征向量中，存在与所述综合面部特征向量相匹配的基准综合面部特征向量，则可以确定该综合面部特征向量对应的参会人员(也即该相匹配的基准综合面部特征向量对应的参会人员)签到成功。

视联网服务器还可以预先设置迟到时间阈值，在确定参会人员签到成功后，记录签到成功的时间，并将签到成功时间与迟到时间阈值进行比较，如果签到成功时间晚于迟到时间阈值，则确定并记录该参会人员迟到。

步骤206，视联网服务器在确定出不存在与所述综合面部特征向量相匹配的基准综合面部特征向量后，将所述综合面部特征向量作为所述参会人员的基准综合面部特征向量进行保存。

视联网服务器如果确定出本次视频会议的全部参会人员对应的基准综合面部特征向量中，不存在与所述综合面部特征向量相匹配的基准综合面部特征向量，则可以确定该参会人员可能为临时增加的参会人员，其并未记录到本次视频会议的全部参会人员中，因此视联网服务器还可以将该参会人员对应的综合面部特征向量作为该参会人员的基准综合面部特征向量进行保存。比如可以保存到数据库中。

视联网服务器如果确定出本次视频会议的全部参会人员对应的基准综合面部特征向量中，存在与所述综合面部特征向量均不匹配的基准综合面部特征向量，则确定不匹配的基准综合面部特征向量对应的参会人员签到失败。

步骤207，视联网终端在检测到所述参会人员的人脸消失后，如果确定消失的时长超过预设时长，则将所述人脸的综合面部特征向量标记为消失，并将标记后的综合面部特征向量上传至所述视联网服务器。

本发明实施例中，还可以监控参会人员是否早退。视联网终端在将参会人员的人脸的综合面部特征向量上传至视联网服务器后，还可以实时检测视频中参会人员的人脸是否消失，如果消失则统计消失的时长。视联网终端将消失的时长与预设时长进行比较，如果消失的时长超过预设时长，则将该参会人员的人脸的综合面部特征向量标记为消失，并将标记后的综合面部特征向量上传至视联网服务器。

对于预设时长的具体数值，本领域技术人员根据实际经验选用任意适用的数值均可，本发明实施例对此不作限制。比如，可以设置预设时长为1小时、1.5小时，等等。

步骤208，视联网服务器在确定出签到成功的参会人员对应的基准综合面部特征向量中，存在与所述标记后的综合面部特征向量相匹配的基准综合面部特征向量后，确定所述参会人员早退。

视联网服务器在接收到视联网终端上传的标记后的综合面部特征向量后，将该标记后的综合面部特征向量与签到成功的参会人员对应的基准综合面部特征向量一一进行匹配，确定是否存在与标记后的综合面部特征向量相匹配的基准综合面部特征向量。类似的，可以确定标记后的综合面部特征向量与基准综合面部特征向量之间的相似度，当相似度小于预设的相似度阈值时，可以确定标记后的综合面部特征向量与该基准综合面部特征向量相匹配。两个向量之间的相似度可以根据两个向量之间的余弦距离、欧氏距离等衡量。

视联网服务器在确定出签到成功的参会人员对应的基准综合面部特征向量中，存在与标记后的综合面部特征向量相匹配的基准综合面部特征向量后，确定标记后的综合面部特征向量对应的参会人员早退。如果不存在，则不作处理。

本发明实施例中，可以通过人脸识别进行自动签到，还可以记录迟到、早退等情况，处理过程更加全面。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图4，示出了本发明实施例的一种人员识别装置的结构框图,该人员识别装置包括：获取模块401、解析模块402、确定模块403和签到模块404，其中，

获取模块401用于获取多媒体数据，并根据所述多媒体数据，确定各目标人员的多个不同角度的人脸图像；

确定模块402用于根据所述各目标人员的多个不同角度的人脸图像，确定与所述各目标人员对应的综合面部特征向量；

识别模块403用于将所述各目标人员对应的综合面部特征向量与预先存储的全部人员对应的基准综合面部特征向量匹配，识别所述目标人员。

可选地，所述识别模块用于：

可选地，所述识别模块还用于：

可选地，所述获取模块用于：

可选地，所述确定模块用于：

分别获取预设的每个角度的人脸图像的权重值；

可选地，所述识别模块还用于：

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

视联网是网络发展的重要里程碑，是一个实时网络，能够实现高清视频实时传输，将众多互联网应用推向高清视频化，高清面对面。

视联网采用实时高清视频交换技术，可以在一个网络平台上将所需的服务，如高清视频会议、视频监控、智能化监控分析、应急指挥、数字广播电视、延时电视、网络教学、现场直播、VOD点播、电视邮件、个性录制(PVR)、内网(自办)频道、智能化视频播控、信息发布等数十种视频、语音、图片、文字、通讯、数据等服务全部整合在一个系统平台，通过电视或电脑实现高清品质视频播放。

为使本领域技术人员更好地理解本发明实施例，以下对视联网进行介绍：

视联网所应用的部分技术如下所述：

网络技术(Network Technology)

视联网的网络技术创新改良了传统以太网(Ethernet)，以面对网络上潜在的巨大第一视频流量。不同于单纯的网络分组包交换(Packet Switching)或网络电路交换(Circuit Switching)，视联网技术采用Packet Switching满足Streaming需求。视联网技术具备分组交换的灵活、简单和低价，同时具备电路交换的品质和安全保证，实现了全网交换式虚拟电路，以及数据格式的无缝连接。

交换技术(Switching Technology)

视联网采用以太网的异步和包交换两个优点，在全兼容的前提下消除了以太网缺陷，具备全网端到端无缝连接，直通用户终端，直接承载IP数据包。用户数据在全网范围内不需任何格式转换。视联网是以太网的更高级形态，是一个实时交换平台，能够实现目前互联网无法实现的全网大规模高清视频实时传输，将众多网络视频应用推向高清化、统一化。

服务器技术(Server Technology)

视联网和统一视频平台上的服务器技术不同于传统意义上的服务器，它的流媒体传输是建立在面向连接的基础上，其数据处理能力与流量、通讯时间无关，单个网络层就能够包含信令及数据传输。对于语音和视频业务来说，视联网和统一视频平台流媒体处理的复杂度比数据处理简单许多，效率比传统服务器大大提高了百倍以上。

储存器技术(Storage Technology)

统一视频平台的超高速储存器技术为了适应超大容量和超大流量的媒体内容而采用了最先进的实时操作系统，将服务器指令中的节目信息映射到具体的硬盘空间，媒体内容不再经过服务器，瞬间直接送达到用户终端，用户等待一般时间小于0.2秒。最优化的扇区分布大大减少了硬盘磁头寻道的机械运动，资源消耗仅占同等级IP互联网的20％，但产生大于传统硬盘阵列3倍的并发流量，综合效率提升10倍以上。

网络安全技术(Network Security Technology)

视联网的结构性设计通过每次服务单独许可制、设备与用户数据完全隔离等方式从结构上彻底根除了困扰互联网的网络安全问题，一般不需要杀毒程序、防火墙，杜绝了黑客与病毒的攻击，为用户提供结构性的无忧安全网络。

服务创新技术(Service Innovation Technology)

统一视频平台将业务与传输融合在一起，不论是单个用户、私网用户还是一个网络的总合，都不过是一次自动连接。用户终端、机顶盒或PC直接连到统一视频平台，获得丰富多彩的各种形态的多媒体视频服务。统一视频平台采用“菜谱式”配表模式来替代传统的复杂应用编程，可以使用非常少的代码即可实现复杂的应用，实现“无限量”的新业务创新。

视联网的组网如下所述：

视联网是一种集中控制的网络结构，该网络可以是树型网、星型网、环状网等等类型，但在此基础上网络中需要有集中控制节点来控制整个网络。

如图1所示，视联网分为接入网和城域网两部分。

接入网部分的设备主要可以分为3类：节点服务器，接入交换机，终端(包括各种机顶盒、编码板、存储器等)。节点服务器与接入交换机相连，接入交换机可以与多个终端相连，并可以连接以太网。

其中，节点服务器是接入网中起集中控制功能的节点，可控制接入交换机和终端。节点服务器可直接与接入交换机相连，也可以直接与终端相连。

类似的，城域网部分的设备也可以分为3类：城域服务器，节点交换机，节点服务器。城域服务器与节点交换机相连，节点交换机可以与多个节点服务器相连。

其中，节点服务器即为接入网部分的节点服务器，即节点服务器既属于接入网部分，又属于城域网部分。

城域服务器是城域网中起集中控制功能的节点，可控制节点交换机和节点服务器。城域服务器可直接连接节点交换机，也可直接连接节点服务器。

由此可见，整个视联网络是一种分层集中控制的网络结构，而节点服务器和城域服务器下控制的网络可以是树型、星型、环状等各种结构。

形象地称，接入网部分可以组成统一视频平台(虚线圈中部分)，多个统一视频平台可以组成视联网；每个统一视频平台可以通过城域以及广域视联网互联互通。

视联网设备分类

1.1本发明实施例的视联网中的设备主要可以分为3类：服务器，交换机(包括以太网协转网关)，终端(包括各种机顶盒，编码板，存储器等)。视联网整体上可以分为城域网(或者国家网、全球网等)和接入网。

1.2其中接入网部分的设备主要可以分为3类：节点服务器，接入交换机(包括以太网协转网关)，终端(包括各种机顶盒，编码板，存储器等)。

各接入网设备的具体硬件结构为：

节点服务器：

如图2所示，主要包括网络接口模块201、交换引擎模块202、CPU模块203、磁盘阵列模块204；

其中，网络接口模块201，CPU模块203、磁盘阵列模块204进来的包均进入交换引擎模块202；交换引擎模块202对进来的包进行查地址表205的操作，从而获得包的导向信息；并根据包的导向信息把该包存入对应的包缓存器206的队列；如果包缓存器206的队列接近满，则丢弃；交换引擎模块202轮询所有包缓存器队列，如果满足以下条件进行转发：1)该端口发送缓存未满；2)该队列包计数器大于零。磁盘阵列模块204主要实现对硬盘的控制，包括对硬盘的初始化、读写等操作；CPU模块203主要负责与接入交换机、终端(图中未示出)之间的协议处理，对地址表205(包括下行协议包地址表、上行协议包地址表、数据包地址表)的配置，以及，对磁盘阵列模块204的配置。

接入交换机：

如图3所示，主要包括网络接口模块(下行网络接口模块301、上行网络接口模块302)、交换引擎模块303和CPU模块304；

其中，下行网络接口模块301进来的包(上行数据)进入包检测模块305；包检测模块305检测包的目地地址(DA)、源地址(SA)、数据包类型及包长度是否符合要求，如果符合，则分配相应的流标识符(stream-id)，并进入交换引擎模块303，否则丢弃；上行网络接口模块302进来的包(下行数据)进入交换引擎模块303；CPU模块304进来的数据包进入交换引擎模块303；交换引擎模块303对进来的包进行查地址表306的操作，从而获得包的导向信息；如果进入交换引擎模块303的包是下行网络接口往上行网络接口去的，则结合流标识符(stream-id)把该包存入对应的包缓存器307的队列；如果该包缓存器307的队列接近满，则丢弃；如果进入交换引擎模块303的包不是下行网络接口往上行网络接口去的，则根据包的导向信息，把该数据包存入对应的包缓存器307的队列；如果该包缓存器307的队列接近满，则丢弃。

交换引擎模块303轮询所有包缓存器队列，可以包括两种情形：

如果该队列是下行网络接口往上行网络接口去的，则满足以下条件进行转发：1)该端口发送缓存未满；2)该队列包计数器大于零；3)获得码率控制模块产生的令牌；

如果该队列不是下行网络接口往上行网络接口去的，则满足以下条件进行转发：1)该端口发送缓存未满；2)该队列包计数器大于零。

码率控制模块308是由CPU模块304来配置的，在可编程的间隔内对所有下行网络接口往上行网络接口去的包缓存器队列产生令牌，用以控制上行转发的码率。

CPU模块304主要负责与节点服务器之间的协议处理，对地址表306的配置，以及，对码率控制模块308的配置。

以太网协转网关：

如图4所示，主要包括网络接口模块(下行网络接口模块401、上行网络接口模块402)、交换引擎模块403、CPU模块404、包检测模块405、码率控制模块408、地址表406、包缓存器407和MAC添加模块409、MAC删除模块410。

其中，下行网络接口模块401进来的数据包进入包检测模块405；包检测模块405检测数据包的以太网MAC DA、以太网MAC SA、以太网length or frame type、视联网目地地址DA、视联网源地址SA、视联网数据包类型及包长度是否符合要求，如果符合则分配相应的流标识符(stream-id)；然后，由MAC删除模块410减去MAC DA、MAC SA、length or frame type(2byte)，并进入相应的接收缓存，否则丢弃；

下行网络接口模块401检测该端口的发送缓存，如果有包则根据包的视联网目地地址DA获知对应的终端的以太网MAC DA，添加终端的以太网MAC DA、以太网协转网关的MACSA、以太网length or frame type，并发送。

以太网协转网关中其他模块的功能与接入交换机类似。

终端：

主要包括网络接口模块、业务处理模块和CPU模块；例如，机顶盒主要包括网络接口模块、视音频编解码引擎模块、CPU模块；编码板主要包括网络接口模块、视音频编码引擎模块、CPU模块；存储器主要包括网络接口模块、CPU模块和磁盘阵列模块。

1.3城域网部分的设备主要可以分为2类：节点服务器，节点交换机，城域服务器。其中，节点交换机主要包括网络接口模块、交换引擎模块和CPU模块；城域服务器主要包括网络接口模块、交换引擎模块和CPU模块构成。

2、视联网数据包定义

2.1接入网数据包定义

接入网的数据包主要包括以下几部分：目的地址(DA)、源地址(SA)、保留字节、payload(PDU)、CRC。

如下表所示，接入网的数据包主要包括以下几部分：

DA

SA

Reserved

Payload

CRC

其中：

目的地址(DA)由8个字节(byte)组成，第一个字节表示数据包的类型(例如各种协议包、组播数据包、单播数据包等)，最多有256种可能，第二字节到第六字节为城域网地址，第七、第八字节为接入网地址；

源地址(SA)也是由8个字节(byte)组成，定义与目的地址(DA)相同；

保留字节由2个字节组成；

payload部分根据不同的数据报的类型有不同的长度，如果是各种协议包的话是64个字节，如果是单组播数据包话是32+1024＝1056个字节，当然并不仅仅限于以上2种；

CRC有4个字节组成，其计算方法遵循标准的以太网CRC算法。

2.2城域网数据包定义

城域网的拓扑是图型，两个设备之间可能有2种、甚至2种以上的连接，即节点交换机和节点服务器、节点交换机和节点交换机、节点交换机和节点服务器之间都可能超过2种连接。但是，城域网设备的城域网地址却是唯一的，为了精确描述城域网设备之间的连接关系，在本发明实施例中引入参数：标签，来唯一描述一个城域网设备。

本说明书中标签的定义和MPLS(Multi-Protocol Label Switch，多协议标签交换)的标签的定义类似，假设设备A和设备B之间有两个连接，那么数据包从设备A到设备B就有2个标签，数据包从设备B到设备A也有2个标签。标签分入标签、出标签，假设数据包进入设备A的标签(入标签)是0x0000，这个数据包离开设备A时的标签(出标签)可能就变成了0x0001。城域网的入网流程是集中控制下的入网过程，也就意味着城域网的地址分配、标签分配都是由城域服务器主导的，节点交换机、节点服务器都是被动的执行而已，这一点与MPLS的标签分配是不同的，MPLS的标签分配是交换机、服务器互相协商的结果。

如下表所示，城域网的数据包主要包括以下几部分：

DA

SA

Reserved

标签

Payload

CRC

即目的地址(DA)、源地址(SA)、保留字节(Reserved)、标签、payload(PDU)、CRC。其中，标签的格式可以参考如下定义：标签是32bit，其中高16bit保留，只用低16bit，它的位置是在数据包的保留字节和payload之间。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种人员识别方法及系统，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种人员识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述各目标人员对应的综合面部特征向量与预先存储的全部人员对应的基准综合面部特征向量，识别所述目标人员，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述多媒体数据，确定各目标人员的多个不同角度的人脸图像，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述多个不同角度的人脸图像，确定与所述目标人员对应的综合面部特征向量，包括：

分别获取预设的每个角度的人脸图像的权重值；

5.根据权利要求1所述的方法，其特征在于，所述将所述各目标人员对应的综合面部特征向量与预先存储的全部人员对应的基准综合面部特征向量，识别所述目标人员，包括：

6.根据权利要求1-4任意一项所述的方法，其特征在于，所述方法还包括：

7.一种人员识别装置，其特征在于，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，所述识别模块用于：

9.一种终端设备，其特征在于，包括：至少一个处理器和存储器；

所述存储器存储计算机程序；所述至少一个处理器执行所述存储器存储的计算机程序，以实现权利要求1-6中任一项所述的人员识别方法。

10.一种计算机可读存储介质，其特征在于，该计算机可读存储介质中存储有计算机程序，所述计算机程序被执行时实现权利要求1-6中任一项所述的人员识别方法。