CN114005140A

CN114005140A - 一种人员识别方法、装置、设备、行人监控系统及存储介质

Info

Publication number: CN114005140A
Application number: CN202111275900.3A
Authority: CN
Inventors: 薛耿剑; 武对娣; 黄海清; 戚进; 胡洁
Original assignee: Chengdu Baixin Zhilian Technology Co ltd; Chengdu Xinchao Media Group Co Ltd
Current assignee: Chengdu Xinchao Media Group Co Ltd
Priority date: 2021-10-29
Filing date: 2021-10-29
Publication date: 2022-02-01

Abstract

本发明涉及人工智能及计算机视觉处理技术领域，公开了一种人员识别方法、装置、设备、行人监控系统及存储介质，即在获取到待检人员图像后，可以针对所述待检人员图像和给定的目标人员图像，先分别通过基于全局特征和关键点特征相融合的特征融合手段来得到对应的特征向量，然后在基于所得特征向量进行的图像相似度差异比对过程中，通过矩阵乘法计算向量内积方式来实现相似度的对比，最终得到人员识别结果，不但可以提高在图像畸变、人员姿态变化或遮挡等复杂场景下的特征描述鲁棒性，确保能够有效应对遮挡场景与人员姿态变化等情况，提高人员识别的准确度和有效性，还可降低计算复杂度，快速得到识别结果。

Description

一种人员识别方法、装置、设备、行人监控系统及存储介质

技术领域

本发明属于人工智能及计算机视觉处理技术领域，具体地涉及一种人员识别方法、装置、设备、行人监控系统及存储介质。

背景技术

随着人工智能的飞速发展和社会对于智能化服务需求的增加，作为居民楼公共场所的重要运输载体和关键通道，电梯的视频监控智能化需求也与日俱增。行人是安防系统中重要的监控对象之一，根据行人的特征并利用机器视觉对电梯监控视频中的丰富信息进行分析，对于构建智能监控系统具有重要的应用价值和意义。

电梯轿厢内的视频图像常常由于摄像头视角与位置等原因导致图像产生畸变，对后期目标检测和属性识别等研究工作带来了难度。行人智能识别与筛选是指给定待查找的行人图像(即目标图像)，从监控视频的或者在其它路径下捕获的大量图像中重新识别出该行人的过程，是近年来计算机视觉领域的研究热点，属于图像检索类问题，广泛用于智能视频监控和智能安保等领域。对跨时空领域中的目标行人进行识别和检索，关键在于选择合适的行人特征提取方法和用于特征比较的度量学习方法来探索两张图像的相似性。

传统的解决方法主要是通过“手工设计特征+距离度量”的方式实现，其中特征提取与表示方法大致可分为底层特征表达、中高层特征学习和混合模型特征表达三大类。度量学习方法有马氏距离、局部自适应决策函数以及显著性加权度量学习等。由于面临场景遮挡或姿势变化等复杂挑战，上述传统的低级视觉特征提取方法难以获取到强鲁棒性的特征，进而影响基于此类特征的度量学习方法的精准度和有效性。

近年来，神经网络等机器学习技术被广泛应用于数字图像处理领域中。基于深度学习的行人特征提取方法可大致划分为基于局部区域的方法、基于视频序列的方法以及基于生成对抗神经网络的方法。其中基于局部区域的方法主要包括利用网格特征的方法、对图像进行水平条纹等规则切块的方法以及根据姿态信息/语义分割划分局部区域的方法等，虽然可以有效地观察各个分区的差异，但是对于遮挡和姿势不对齐等问题还是存在大的挑战，对于行人图像姿势的大幅度变化的适应能力不强。而基于生成对抗网络的方法大多数是用来增强数据集或实现不同相机之间的风格迁移，一般与其他类型方法相结合共同完成识别过程，因此在面对遮挡和姿势不对齐等问题时，并没有改善效果。

因此针对电梯轿厢内的视频图像，如何解决在图像畸变或场景变化情况下的乘客识别与检索问题，并有效应对遮挡场景与乘客姿态变化等情况，提高乘客识别的准确度，是本领域技术人员亟需研究的课题。

发明内容

为了解决现有行人智能识别与筛选技术在图像畸变或场景变化情况下所存在人员识别精准度和有效性均较差的问题，本发明目的在于提供一种人员识别方法、装置、计算机设备、行人监控系统及计算机可读存储介质，不但可以提高在图像畸变、人员姿态变化或遮挡等复杂场景下的特征描述鲁棒性，确保能够有效应对遮挡场景与人员姿态变化等情况，提高人员识别的准确度和有效性，还可降低计算复杂度，快速得到识别结果，利于与进行逐个对比特征的现有技术相比，提升多人员图像的识别结果表达直观度，满足快速检索的要求。

第一方面，本发明提供了一种人员识别方法，包括：

获取待检人员图像；

针对所述待检人员图像和给定的目标人员图像，基于卷积神经网络获取到对应的全局特征图；

针对所述待检人员图像和所述目标人员图像，基于人体关键点模型和对应的全局特征图，获取到对应的多个局部特征；

针对所述待检人员图像和所述目标人员图像，将对应的多个局部特征在平均池化处理后与在对应的全局特征图中的全局特征进行串联拼接，得到对应的且包含有多维度特征值的特征行向量；

将所述待检人员图像及所述目标人员图像的特征行向量组合成特征矩阵，其中，所述特征矩阵中的各行元素为所述待检人员图像的特征行向量或所述目标人员图像的特征行向量；

对所述特征矩阵进行归一化处理，得到归一化特征矩阵；

计算所述归一化特征矩阵与其转置矩阵的内积，得到相似余弦方阵；

根据所述待检人员图像的特征行向量和所述目标人员图像的特征行向量分别在所述特征矩阵中的行位置，在所述相似余弦方阵中查找到对应行列位置的元素，并将该元素作为所述待检人员图像与所述目标人员图像的人员相似度。

基于上述发明内容，提供了一种实现全局特征和关键点特征相融合的人员识别方案，即在获取到待检人员图像后，可以针对所述待检人员图像和给定的目标人员图像，先分别通过基于全局特征和关键点特征相融合的特征融合手段来得到对应的特征向量，然后在基于所得特征向量进行的图像相似度差异比对过程中，通过矩阵乘法计算向量内积方式来实现相似度的对比，最终得到人员识别结果，不但可以提高在图像畸变、人员姿态变化或遮挡等复杂场景下的特征描述鲁棒性，确保能够有效应对遮挡场景与人员姿态变化等情况，提高人员识别的准确度和有效性，还可降低计算复杂度，快速得到识别结果，利于与进行逐个对比特征的现有技术相比，提升多人员图像的识别结果表达直观度，满足快速检索的要求。此外，由于在特征向量提取过程中，结合了由骨干网络提取的全局特征图和基于人体关键点模型的局部特征，可与单纯提取全局特征的方法相比，增强了特征的鲁棒性；以及由于使用了余弦相似度作为图像之间相对差异的判断依据，可与使用欧氏距离再归一化的方法相比，操作简单，而且不受特征值之间绝对差异的影响，便于实际应用和推广。

在一个可能的设计中，若获取到多张待检人员图像，则在得到相似余弦方阵之后，所述方法还包括：

根据所述目标人员图像的特征行向量在所述特征矩阵中的行位置，在所述相似余弦方阵中查找到对应行位置的多个元素；

对所述多个元素中的所有元素进行数值由大到小的排序，得到元素队列；

根据与待检人员图像对应的元素在所述元素队列中的排序，对所述多张待检人员图像中的所有待检人员图像进行一致性排序，得到待检人员图像队列；

将所述待检人员图像队列中的各张图像调整为统一尺寸大小的图像，并通过水平堆叠方式进行同时展示。

基于前述可能设计，可通过矩阵乘法计算向量内积来实现相似度的对比，并筛选排序展示相似度靠前的待检人员图像，使得在待检测数据库较大的情况下，能够有效降低计算冗余度，缩短花费时间，增强行人智能识别与筛选的实用性。此外，与现有逐个对比特征的方法相比，表达直观且大大降低了计算复杂度，更能满足快速检索的要求。

在一个可能的设计中，获取待检人员图像，包括：

获取监控视频图像；

调用目标检测算法对所述监控视频图像进行人员检测处理，得到人员检测结果标记框在所述监控视频图像中的位置；

根据所述人员检测结果标记框的位置，从所述监控视频图像中截取出框内图像作为待检人员图像。

在一个可能的设计中，针对所述待检人员图像和给定的目标人员图像，基于卷积神经网络获取到对应的全局特征图，包括：

将人员图像输入卷积神经网络，通过该卷积神经网络的多层卷积、池化和采样处理，使输入图像编码成全局特征图，其中，所述人员图像为所述待检人员图像或给定的目标人员图像，所述卷积神经网络的最后一次空间降采样的步长设置为一。

在一个可能的设计中，针对所述待检人员图像和所述目标人员图像，基于人体关键点模型和对应的全局特征图，获取到对应的多个局部特征，包括：

基于人体关键点模型获取到人员图像的多张局部热图，其中，所述人员图像为所述待检人员图像或所述目标人员图像；

针对所述多张局部热图中的各张局部热图，对所述人员图像的全局特征图和对应的热图先进行像素级别的乘积处理，再进行平均池化处理，得到对应的局部特征。

在一个可能的设计中，对所述特征矩阵进行归一化处理，得到归一化特征矩阵，包括：

根据ImageNet项目的均值和标准差，对所述特征矩阵进行归一化处理，得到归一化特征矩阵。

第二方面，本发明提供了一种人员识别装置，包括有图像获取模块、全局特征提取模块、局部特征提取模块、特征向量拼接模块、特征矩阵组合模块、归一化处理模块、方阵计算模块和人员相似度确定模块；

所述图像获取模块，用于获取待检人员图像；

所述全局特征提取模块，通信连接所述图像获取模块，用于针对所述待检人员图像和给定的目标人员图像，基于卷积神经网络获取到对应的全局特征图；

所述局部特征提取模块，通信连接所述图像获取模块，用于针对所述待检人员图像和所述目标人员图像，基于人体关键点模型和对应的全局特征图，获取到对应的多个局部特征；

所述特征向量拼接模块，分别通信连接所述全局特征提取模块和所述局部特征提取模块，用于针对所述待检人员图像和所述目标人员图像，将对应的多个局部特征在平均池化处理后与在对应的全局特征图中的全局特征进行串联拼接，得到对应的且包含有多维度特征值的特征行向量；

所述特征矩阵组合模块，通信连接所述特征向量拼接模块，用于将所述待检人员图像及所述目标人员图像的特征行向量组合成特征矩阵，其中，所述特征矩阵中的各行元素为所述待检人员图像的特征行向量或所述目标人员图像的特征行向量；

所述归一化处理模块，通信连接所述特征矩阵组合模块，用于对所述特征矩阵进行归一化处理，得到归一化特征矩阵；

所述方阵计算模块，通信连接所述归一化处理模块，用于计算所述归一化特征矩阵与其转置矩阵的内积，得到相似余弦方阵；

所述人员相似度确定模块，分别通信连接所述特征矩阵组合模块和所述方阵计算模块，用于根据所述待检人员图像的特征行向量和所述目标人员图像的特征行向量分别在所述特征矩阵中的行位置，在所述相似余弦方阵中查找到对应行列位置的元素，并将该元素作为所述待检人员图像与所述目标人员图像的人员相似度。

在一种可能设计中，若所述图像获取模块获取到多张待检人员图像，则还包括有方阵元素查找模块、元素排序模块、图像排序模块和图像展示模块；

所述方阵元素查找模块，分别通信连接所述特征矩阵组合模块和所述方阵计算模块，用于根据所述目标人员图像的特征行向量在所述特征矩阵中的行位置，在所述相似余弦方阵中查找到对应行位置的多个元素；

所述元素排序模块，通信连接所述方阵元素查找模块，用于对所述多个元素中的所有元素进行数值由大到小的排序，得到元素队列；

所述图像排序模块，分别通信连接所述图像获取模块和所述元素排序模块，用于根据与待检人员图像对应的元素在所述元素队列中的排序，对所述多张待检人员图像中的所有待检人员图像进行一致性排序，得到待检人员图像队列；

所述图像展示模块，通信连接所述图像排序模块，用于将所述待检人员图像队列中的各张图像调整为统一尺寸大小的图像，并通过水平堆叠方式进行同时展示。

第三方面，本发明提供了一种计算机设备，包括有通信相连的存储器和处理器，其中，所述存储器用于存储计算机程序，所述处理器用于读取所述计算机程序，执行如第一方面或第一方面中任意可能设计所述的人员识别方法。

第四方面，本发明提供了一种行人监控系统，包括有依次通信连接的摄像头、视频服务器和个人计算机PC端；

所述摄像头用于布置在行人监控场所，并采集获取所述行人监控场所的视频信号；

所述视频服务器用于对采集获取的所述视频信号进行数码转换，得到统一视频格式的视频流；

所述个人计算机PC端用于在收到所述视频流后，执行如第一方面或第一方面中任意可能设计所述的人员识别方法，并根据人员识别结果判断在所述行人监控场所中是否出现目标人员。

第五方面，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，当所述指令在计算机上运行时，执行如上第一方面或第一方面中任意可能设计所述的人员识别方法。

第六方面，本发明提供了一种包含指令的计算机程序产品，当所述指令在计算机上运行时，使所述计算机执行如上第一方面或第一方面中任意可能设计所述的人员识别方法。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的人员识别方法的流程示意图。

图2是本发明提供的在人员识别方法中所用目标检测算法的工作流程框图。

图3是本发明提供的在人员识别方法中进行特征向量获取的工作流程框图。

图4是本发明提供的在人员识别方法中进行多张人员图像排序展示的工作流程框图。

图5是本发明提供的人员识别装置的结构示意图。

图6是本发明提供的计算机设备的结构示意图。

图7是本发明提供的行人监控系统的结构示意图。

上述附图中：1-摄像头；2-视频服务器；3-个人计算机PC端；4-电梯轿厢；5-行人。

具体实施方式

下面结合附图及具体实施例来对本发明作进一步阐述。在此需要说明的是，对于这些实施例方式的说明虽然是用于帮助理解本发明，但并不构成对本发明的限定。本文公开的特定结构和功能细节仅用于描述本发明示例的实施例。然而，可用很多备选的形式来体现本发明，并且不应当理解为本发明限制在本文阐述的实施例中。

应当理解，尽管本文可能使用术语第一和第二等等来描述各种对象，但是这些对象不应当受到这些术语的限制。这些术语仅用于区分一个对象和另一个对象。例如可以将第一对象称作第二对象,并且类似地可以将第二对象称作第一对象，同时不脱离本发明的示例实施例的范围。

应当理解，对于本文中可能出现的术语“和/或”，其仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A、单独存在B或者同时存在A和B等三种情况；对于本文中可能出现的术语“/和”，其是描述另一种关联对象关系，表示可以存在两种关系，例如，A/和B，可以表示：单独存在A或者同时存在A和B等两种情况；另外，对于本文中可能出现的字符“/”，一般表示前后关联对象是一种“或”关系。

如图1所示，本实施例第一方面提供的所述人员识别方法，可以但不限于由具有一定计算资源的计算机设备执行，例如由个人计算机(Personal Computer，PC，指一种大小、价格和性能适用于个人使用的多用途计算机；台式机、笔记本电脑到小型笔记本电脑和平板电脑以及超级本等都属于个人计算机)、智能手机、个人数字助理(Personal digitalassistant，PAD)或可穿戴设备等电子设备执行，以便在获取到待检人员图像后，可以针对所述待检人员图像和给定的目标人员图像，先分别通过基于全局特征和关键点特征相融合的特征融合手段来得到对应的特征向量，然后在基于所得特征向量进行的图像相似度差异比对过程中，通过矩阵乘法计算向量内积方式来实现相似度的对比，最终得到人员识别结果，不但可以提高在图像畸变、人员姿态变化或遮挡等复杂场景下的特征描述鲁棒性，确保能够有效应对遮挡场景与人员姿态变化等情况，提高人员识别的准确度和有效性，还可降低计算复杂度，快速得到识别结果，利于与进行逐个对比特征的现有技术相比，提升多人员图像的识别结果表达直观度，满足快速检索的要求。如图1～3所示，所述人员识别方法，可以但不限于包括有如下步骤S1～S8。

S1.获取待检人员图像。

在所述步骤S1中，所述待检人员图像即为在行人智能识别与筛选过程中，从监控视频中截取的或者在其它路径下捕获的人员图像，以便与给定的目标人员图像进行人员相似对比，判断该待检人员图像中的待检人员是否为目标人员。此外，所述待检人员图像可以但不限于是从存储单元中读取而得或由传输单元传输而得。

在所述步骤S1中，具体的，获取待检人员图像，包括但不限于有如下步骤S11～S13。

S11.获取监控视频图像。

在所述步骤S11中，所述监控视频图像可以但不限于是由位于电梯轿厢内的监控摄像头采集的实时图像或历史图像，其可通过常规的传输、数码转换和解码等方式得到。

S12.调用目标检测算法对所述监控视频图像进行人员检测处理，得到人员检测结果标记框在所述监控视频图像中的位置。

在所述步骤S12中，所述目标检测算法是一种用于在图片中将里面的物体识别出来且标记出物体位置的现有人工智能识别算法，具体可以但不限于采用Faster R-CNN(Faster Regions with Convolutional Neural Networks features，由何凯明等在2015年提出目标检测算法，该算法在2015年的ILSVRV和COCO竞赛中获得多项第一)目标检测算法、SSD(Single Shot MultiBox Detector，单镜头多盒检测器，是Wei Liu在ECCV 2016上提出的一种目标检测算法，是目前流行的主要检测框架之一)目标检测算法或YOLO(Youonly look once，目前最新已经发展到V4版本，在业界的应用也很广泛，其基本原理是：首先对输入图像划分成7x7的网格，对每个网格预测2个边框，然后根据阈值去除可能性比较低的目标窗口，最后再使用边框合并的方式去除冗余窗口，得出检测结果)目标检测算法等，其中，所述Faster R-CNN目标检测算法为基于候选区的两阶段检测方法，所述SSD目标检测算法和所述YOLO目标检测算法分别为在提取特征的基础上直接进行分类回归的单一阶段检测方法。所述目标检测算法的工作流程框图可如图2所示，首先对待测图像进行网格划分处理，并为与每个网格对应的边界框生成多个预测值，然后根据置信度计算边界框的得分，再然后经过阈值对比去除低得分的目标边界框，再然后计算目标边界框与真实边界框的交并比，并通过非极大值抑制方式(Non-Maximum Suppression,NMS,顾名思义就是抑制不是极大值的元素,可以理解为局部最大搜索)快速地过滤掉重合度较高的但预测位置相对不准确的边界框，最后输出检测结果。因此通过常规的检测处理方式，可从所述监控视频图像中检测得到所识别人员的位置、类别和预测概率等信息，进而可为所识别人员绘制矩形框及标签等识别信息，得到所述人员检测结果标记框(即所识别人员在所述监控视频图像中的所在区域边界框)及其在所述监控视频图像中的位置。

S13.根据所述人员检测结果标记框的位置，从所述监控视频图像中截取出框内图像作为待检人员图像。

在所述步骤S13之后，还可将从所述监控视频图像中截取出的框内图像保存至指定路径，以便构建用于与目标人员图像进行对比的待检测数据库。

S2.针对所述待检人员图像和给定的目标人员图像，基于卷积神经网络获取到对应的全局特征图。

在所述步骤S2中，所述卷积神经网络(Convolutional Neural Networks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks)，是深度学习(deep learning)的代表算法之一，其用于作为特征向量提取的骨干网络，可以但不限于采用诸如残差网络ResNet50等的基础卷积网络结构。具体的，针对所述待检人员图像和给定的目标人员图像，基于卷积神经网络获取到对应的全局特征图，包括但不限于：将人员图像输入卷积神经网络，通过该卷积神经网络的多层卷积、池化和采样处理，使输入图像编码成全局特征图，其中，所述人员图像为所述待检人员图像或给定的目标人员图像，所述卷积神经网络的最后一次空间降采样的步长设置为一。由于所述卷积神经网络的最后一次空间降采样的步长设置为一，可既不增加参数量和不改变模型结构，又能扩大特征图的尺寸，提取更加细粒度的特征，从而提升模型性能和所述全局特征图的分辨率。

S3.针对所述待检人员图像和所述目标人员图像，基于人体关键点模型和对应的全局特征图，获取到对应的多个局部特征。

在所述步骤S3中，所述人体关键点模型是现有人体关键点检测研究中的常用算法模型，可以但不限于选用人体姿态识别项目OpenPose软件中的算法模型或HRNet神经网络模型(其是由中科大和微软亚洲研究院发布的新人体姿态估计模型，拥有与众不同的并联结构，可以随时保持高分辨率表征)。所述局部特征可通过关键点热图和均匀池化处理得到，即对于每一个局部区域，为了得到若干组关键点区域的局部特征，可将由骨干网络提取的全局特征图和由人体关键点模型提取的局部热图(即关键点热图)进行像素级别的乘积处理。具体的，针对所述待检人员图像和所述目标人员图像，基于人体关键点模型和对应的全局特征图，获取到对应的多个局部特征，包括但不限于有如下步骤S31～S32：S31.基于人体关键点模型获取到人员图像的多张局部热图，其中，所述人员图像为所述待检人员图像或所述目标人员图像；S32.针对所述多张局部热图中的各张局部热图，对所述人员图像的全局特征图和对应的热图先进行像素级别的乘积处理，再进行平均池化处理，得到对应的局部特征。其中，进行平均池化处理的目的是在保留特征的条件下降低数据维数，减少训练参数，增强模型的泛化能力，进而防止过拟合，相比最大池化处理方式，平均池化处理更能表示图像的背景信息。此外，本实施例对所述步骤S3与所述步骤S2的执行顺序并无限定，所述步骤S3可在所述步骤S2之前、之后或同时地执行。

S4.针对所述待检人员图像和所述目标人员图像，将对应的多个局部特征在平均池化处理后与在对应的全局特征图中的全局特征进行串联拼接，得到对应的且包含有多维度特征值的特征行向量。

在所述步骤S4中，所述串联拼接方式是现有特征拼接融合技术中的常用手段。所述特征行向量的维度数可用正整数m表示，其取决于所选卷积神经网络中各个卷积层的卷积核大小。

S5.将所述待检人员图像及所述目标人员图像的特征行向量组合成特征矩阵，其中，所述特征矩阵中的各行元素为所述待检人员图像的特征行向量或所述目标人员图像的特征行向量。

在所述步骤S5中，举例的，所述特征矩阵中的第一行元素即为所述目标人员图像的特征行向量，所述特征矩阵中的第二行元素即为所述待检人员图像的特征行向量。此外，所述待检人员图像可以有多张，此时所述特征矩阵可有(n+1)×m个元素，其中，n为正整数且表示所述待检人员图像的总张数。

S6.对所述特征矩阵进行归一化处理，得到归一化特征矩阵。

在所述步骤S6中，由于所述特征行向量中各个维度的元素存在取值范围不一致的情况，因此在进行内积计算之前，需要先进行归一化处理。所述归一化处理可以根据各维度元素的取值范围进行常规的归一化计算，也可根据ImageNet项目(其是一个用于视觉对象识别软件研究的大型可视化数据库，其中超过1400万的图像URL被ImageNet手动注释，以指示图片中的对象，并在至少一百万个图像中，还提供了边界框)的均值和标准差，对所述特征矩阵进行归一化处理，得到归一化特征矩阵，即归一化计算公式可如下：

式中，featurea表示归一化处理后的元素值，features表示归一化处理前的元素值，mean表示所述ImageNet项目的均值，std表示所述ImageNet项目的标准差。

S7.计算所述归一化特征矩阵与其转置矩阵的内积，得到相似余弦方阵。

在所述步骤S7中，所述其转置矩阵即为所述归一化特征矩阵的转置矩阵，因此可通过常规的线性代数来计算内积，得到具有(n+1)×(n+1)个元素的所述相似余弦方阵。

S8.根据所述待检人员图像的特征行向量和所述目标人员图像的特征行向量分别在所述特征矩阵中的行位置，在所述相似余弦方阵中查找到对应行列位置的元素，并将该元素作为所述待检人员图像与所述目标人员图像的人员相似度。

在所述步骤S8中，由于所述相似余弦方阵中的元素代表两张图像的对应特征行向量与其转置列向量的内积，可在特征归一化的条件下表示两向量的余弦距离，因此该元素可用于进行对应图像相似距离的度量，即通过对比向量的夹角的余弦值来度量它们之间的相似性；具体地，元素值(即余弦值)越接近1，就表明两图像对应特征行向量的夹角越接近0度，两个特征行向量越相似，进而可将所述相似余弦方阵中的且与所述待检人员图像和所述目标人员图像对应的元素作为两图像中人员的相似度，当相似度超过预设阈值时，即可判定所述待检人员图像中的待检人员为目标人员，实现行人智能识别与筛选的目的。举例的，若所述待检人员图像的特征行向量在所述特征矩阵中的行位置为第i行，所述目标人员图像的特征行向量在所述特征矩阵中的行位置为第j行，则可在所述相似余弦方阵中查找到第i行且第j列元素或第i列且第j行元素，作为所述待检人员图像与所述目标人员图像的人员相似度，其中，i和j分别为正整数。

由此基于前述步骤S1～S8所描述的人员识别方法，提供了一种实现全局特征和关键点特征相融合的人员识别方案，即在获取到待检人员图像后，可以针对所述待检人员图像和给定的目标人员图像，先分别通过基于全局特征和关键点特征相融合的特征融合手段来得到对应的特征向量，然后在基于所得特征向量进行的图像相似度差异比对过程中，通过矩阵乘法计算向量内积方式来实现相似度的对比，最终得到人员识别结果，不但可以提高在图像畸变、人员姿态变化或遮挡等复杂场景下的特征描述鲁棒性，确保能够有效应对遮挡场景与人员姿态变化等情况，提高人员识别的准确度和有效性，还可降低计算复杂度，快速得到识别结果，利于与进行逐个对比特征的现有技术相比，提升多人员图像的识别结果表达直观度，满足快速检索的要求。此外，由于在特征向量提取过程中，结合了由骨干网络提取的全局特征图和基于人体关键点模型的局部特征，可与单纯提取全局特征的方法相比，增强了特征的鲁棒性；以及由于使用了余弦相似度作为图像之间相对差异的判断依据，可与使用欧氏距离再归一化的方法相比，操作简单，而且不受特征值之间绝对差异的影响，便于实际应用和推广。

本实施例在前述第一方面的技术方案基础上，还提供了一种如何对多张待检人员图像进行筛选排序的可能设计一，即如图4所示，若获取到多张待检人员图像，则在得到相似余弦方阵之后，所述方法还包括但不限于有如下步骤S91～S94。

S91.根据所述目标人员图像的特征行向量在所述特征矩阵中的行位置，在所述相似余弦方阵中查找到对应行位置的多个元素。

在所述步骤S91中，若所述目标人员图像的特征行向量在所述特征矩阵中的行位置为第一行，则可在所述相似余弦方阵中查找到第一行的多个元素。

S92.对所述多个元素中的所有元素进行数值由大到小的排序，得到元素队列。

S93.根据与待检人员图像对应的元素在所述元素队列中的排序，对所述多张待检人员图像中的所有待检人员图像进行一致性排序，得到待检人员图像队列。

在所述步骤S93中，所述一致性排序是指所述待检人员图像在所述待检人员图像队列中的序号和与该待检人员图像对应的元素在所述元素队列中的序号是相同的，从而可确保相似度靠前的待检人员图像在所述待检人员图像队列中排列靠前，以便优先展示。

S94.将所述待检人员图像队列中的各张图像调整为统一尺寸大小的图像，并通过水平堆叠方式进行同时展示。

由此基于前述步骤S91～S94所描述的可能设计一，可通过矩阵乘法计算向量内积来实现相似度的对比，并筛选排序展示相似度靠前的待检人员图像，使得在待检测数据库较大的情况下，能够有效降低计算冗余度，缩短花费时间，增强行人智能识别与筛选的实用性。此外，与现有逐个对比特征的方法相比，表达直观且大大降低了计算复杂度，更能满足快速检索的要求。

如图5所示，本实施例第二方面提供了一种实现第一方面或第一方面中任一可能设计所述的人员识别方法的虚拟装置，包括有图像获取模块、全局特征提取模块、局部特征提取模块、特征向量拼接模块、特征矩阵组合模块、归一化处理模块、方阵计算模块和人员相似度确定模块；

所述图像获取模块，用于获取待检人员图像；

本实施例第二方面提供的前述装置的工作过程、工作细节和技术效果，可以参见第一方面或第一方面中任一可能设计所述的人员识别方法，于此不再赘述。

如图6所示，本实施例第三方面提供了一种执行第一方面或第一方面中任一可能设计所述人员识别方法的计算机设备，包括有通信相连的存储器和处理器，其中，所述存储器用于存储计算机程序，所述处理器用于读取所述计算机程序，执行如第一方面或第一方面中任一可能设计所述的人员识别方法。具体举例的，所述存储器可以但不限于包括随机存取存储器(Random-Access Memory，RAM)、只读存储器(Read-Only Memory，ROM)、闪存(Flash Memory)、先进先出存储器(First Input First Output，FIFO)和/或先进后出存储器(First Input Last Output，FILO)等等；所述处理器可以但不限于采用型号为STM32F105系列的微处理器。此外，所述计算机设备还可以但不限于包括有电源模块、显示屏和其它必要的部件。

本实施例第三方面提供的前述计算机设备的工作过程、工作细节和技术效果，可以参见第一方面或第一方面中任一可能设计所述的人员识别方法，于此不再赘述。

如图7所示，本实施例第四方面提供了一种采用第一方面或第一方面中任一可能设计所述人员识别方法的行人监控系统，包括有依次通信连接的摄像头1、视频服务器2和个人计算机PC端3；所述摄像头1用于布置在行人监控场所，并采集获取所述行人监控场所的视频信号；所述视频服务器2用于对采集获取的所述视频信号进行数码转换，得到统一视频格式的视频流；所述个人计算机PC端3用于在收到所述视频流后，执行如第一方面或第一方面中任一可能设计所述的人员识别方法，并根据人员识别结果判断在所述行人监控场所中是否出现目标人员。如图7所示，所述行人监控场所举例为电梯轿厢4。所述视频服务器2还可以将得到的视频流文件存储在本地，以便操作者管理和查看视频数据，并且实现对视频流的加密，有效保护居民楼内住户隐私信息。所述个人计算机PC端3可设计为一款实现乘客属性识别与筛选检索的电梯轿厢智能监控系统软件，以便在从本地选择并加载电梯监控视频后，除使之能够流畅播放之外，还可通过采用如第一方面或第一方面中任一可能设计所述的人员识别方法，对由电梯轿厢内的所述摄像头1获取的视频数据进行智能分析，实现行人智能识别与筛选的目的。

本实施例第四方面提供的前述行人监控系统的工作过程、工作细节和技术效果，可以参见第一方面或第一方面中任一可能设计所述的人员识别方法，于此不再赘述。

本实施例第五方面提供了一种存储包含第一方面或第一方面中任一可能设计所述人员识别方法的指令的计算机可读存储介质，即所述计算机可读存储介质上存储有指令，当所述指令在计算机上运行时，执行如第一方面或第一方面中任一可能设计所述的人员识别方法。其中，所述计算机可读存储介质是指存储数据的载体，可以但不限于包括软盘、光盘、硬盘、闪存、优盘和/或记忆棒(Memory Stick)等计算机可读存储介质，所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。

本实施例第五方面提供的前述计算机可读存储介质的工作过程、工作细节和技术效果，可以参见第一方面或第一方面中任一可能设计所述的人员识别方法，于此不再赘述。

本实施例第六方面提供了一种包含指令的计算机程序产品，当所述指令在计算机上运行时，使所述计算机执行如第一方面或第一方面中任一可能设计所述的人员识别方法。其中，所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。

最后应说明的是，本发明不局限于上述可选的实施方式，任何人在本发明的启示下都可得出其他各种形式的产品。上述具体实施方式不应理解成对本发明的保护范围的限制，本发明的保护范围应当以权利要求书中界定的为准，并且说明书可以用于解释权利要求书。

Claims

1.一种人员识别方法，其特征在于，包括：

获取待检人员图像；

对所述特征矩阵进行归一化处理，得到归一化特征矩阵；

2.如权利要求1所述的人员识别方法，其特征在于，若获取到多张待检人员图像，则在得到相似余弦方阵之后，所述方法还包括：

3.如权利要求1所述的人员识别方法，其特征在于，获取待检人员图像，包括：

获取监控视频图像；

4.如权利要求1所述的人员识别方法，其特征在于，针对所述待检人员图像和给定的目标人员图像，基于卷积神经网络获取到对应的全局特征图，包括：

5.如权利要求1所述的人员识别方法，其特征在于，针对所述待检人员图像和所述目标人员图像，基于人体关键点模型和对应的全局特征图，获取到对应的多个局部特征，包括：

6.如权利要求1所述的人员识别方法，其特征在于，对所述特征矩阵进行归一化处理，得到归一化特征矩阵，包括：

7.一种人员识别装置，其特征在于，包括有图像获取模块、全局特征提取模块、局部特征提取模块、特征向量拼接模块、特征矩阵组合模块、归一化处理模块、方阵计算模块和人员相似度确定模块；

所述图像获取模块，用于获取待检人员图像；

8.一种计算机设备，其特征在于，包括有依次通信连接的存储器、处理器和收发器，其中，所述存储器用于存储计算机程序，所述收发器用于收发数据，所述处理器用于读取所述计算机程序，执行如权利要求1～6中任意一项所述的人员识别方法。

9.一种行人监控系统，其特征在于，包括有依次通信连接的摄像头(1)、视频服务器(2)和个人计算机PC端(3)；

所述摄像头(1)用于布置在行人监控场所，并采集获取所述行人监控场所的视频信号；

所述视频服务器(2)用于对采集获取的所述视频信号进行数码转换，得到统一视频格式的视频流；

所述个人计算机PC端(3)用于在收到所述视频流后，执行如权利要求1～6中任意一项所述的人员识别方法，并根据人员识别结果判断在所述行人监控场所中是否出现目标人员。

10.一种计算机可读存储介质，其特征在于,所述计算机可读存储介质上存储有指令，当所述指令在计算机上运行时，执行如权利要求1～6中任意一项所述的人员识别方法。