CN108073898A

CN108073898A - 人头区域识别方法、装置及设备

Info

Publication number: CN108073898A
Application number: CN201711295898.XA
Authority: CN
Inventors: 王吉; 陈志博; 许昀璐; 严冰
Original assignee: Tencent Technology Shenzhen Co Ltd; Tencent Cloud Computing Beijing Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd; Tencent Cloud Computing Beijing Co Ltd
Priority date: 2017-12-08
Filing date: 2017-12-08
Publication date: 2018-05-25
Anticipated expiration: 2037-12-08
Also published as: CN108073898B; US20200250460A1; WO2019109793A1

Abstract

本申请公开了一种人头区域识别方法、装置及设备，属于机器学习领域。所述方法包括：获取输入图像；将输入图像输入级联的n个神经网络层中，得到人头区域的n组候选识别结果；神经网络层用于根据预设的提取框对人头区域进行识别，存在至少两个神经网络层所采用的提取框的尺寸是不同的；对n组候选识别结果进行聚合，得到输入图像中人头区域的最终识别结果。本申请通过n个神经网络层中至少有两个神经网络层所采用的提取框的尺寸是不相同的，因此解决了当人脸在监控图像中所占的面积较小时基于固定尺寸的提取框对人头区域进行识别所导致的无法识别的问题，能够对输入图像中具有不同大小的人头区域均可以识别，提高了识别的准确度。

Description

人头区域识别方法、装置及设备

技术领域

本申请涉及机器学习领域，特别涉及一种人头区域识别方法、装置及设备。

背景技术

人头识别是在公共场所的监控领域中较为关键的技术。目前，人头识别主要通过机器学习模型来完成，比如神经网络模型。

相关技术中，利用机器学习模型可对监控图像中的人头区域进行识别。该过程包括：在电梯、闸机、路口等人流量较大的区域监控得到待测图像，将待测图像输入至神经网络模型中；该神经网络模型基于固定尺寸的提取框对图像特征进行识别，当该图像特征符合人脸特征时，输出分析结果。

由于基于固定尺寸的提取框对人头区域进行识别，当人脸在监控图像中所占的面积较小时，上述方法无法识别出该人脸而造成漏识别，导致识别的准确度较低。

发明内容

本申请实施例提供了一种人头区域识别方法、装置及设备，可以解决当人脸在监控图像中所占的面积较小时，相关技术无法识别出该人脸的问题。所述技术方案如下：

一方面，提供了一种人头区域识别方法，所述方法包括：

获取输入图像；

将所述输入图像输入级联的n个神经网络层中，所述n个神经网络层中的每个神经网络层输出一组候选识别结果，得到人头区域的n组候选识别结果，n≥2；所述神经网络层用于根据预设的提取框对人头区域进行识别，存在至少两个所述神经网络层所采用的所述提取框的尺寸是不同的；

对所述n组候选识别结果进行聚合，得到所述输入图像中人头区域的最终识别结果。

另一方面，提供了一种人流监控方法，所述方法包括：

获取监控摄像头采集的监控图像；

将所述监控图像输入级联的n个神经网络层中，所述n个神经网络层中的每个神经网络层输出一组候选识别结果，得到人头区域的n组候选识别结果；所述神经网络层用于根据预设的提取框对人头区域进行识别，存在至少两个所述神经网络层所采用的所述提取框的尺寸是不同的；

对所述n组候选识别结果进行聚合，得到所述监控图像中人头区域的最终识别结果；

根据所述最终识别结果在所述监控图像上显示所述人头区域。

另一方面，提供了一种人头区域识别装置，所述装置包括：

图像获取模块，用于获取输入图像；

识别模块，用于将所述输入图像输入级联的n个神经网络层中，所述n个神经网络层中的每个神经网络层输出一组候选识别结果，得到人头区域的n组候选识别结果，n≥2；所述神经网络层用于根据预设的提取框对人头区域进行识别，存在至少两个所述神经网络层所采用的所述提取框的尺寸是不同的；

聚合模块，用于对所述n组候选识别结果进行聚合，得到所述输入图像中人头区域的最终识别结果。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现上述的人头区域识别方法。

另一方面，提供了一种人头区域识别设备，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现上述的人头区域识别方法。

本申请实施例提供的技术方案带来的有益效果是：

通过将图像输入级联的n个神经网络层中得到n组候选识别结果，对n组候选识别结果进行聚合后得到输入图像中人头区域的最终识别结果，由于n个神经网络层至少有两个神经网络层所采用的提取框的尺寸是不相同的，因此解决了当人脸在监控图像中所占的面积较小时基于固定尺寸的提取框对人头区域进行识别所导致的无法识别的问题，能够对输入图像中具有不同大小的人头区域均可以识别，提高了识别的准确度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性的实施例提供的人头区域识别方法的实施环境的示意图；

图2是本申请一个示例性的实施例提供的人头区域识别方法的方法流程图；

图3是本申请一个示例性的实施例提供的输入图像经过神经网络识别后输出最终识别结果的流程图；

图4是本申请另一个示例性的实施例提供的人头区域识别方法的方法流程图；

图5是本申请一个示例性的实施例提供的将多个候选识别结果叠加的输出图像示意图；

图6是本申请一个示例性的实施例提供的将多个候选识别结果合并后的输出图像示意图；

图7是本申请另一个示例性的实施例提供的人头区域识别方法的方法流程图；

图8是本申请一个示例性的实施例提供的人头区域识别方法的步骤框架图；

图9是本申请一个示例性的实施例提供的人流监控方法的方法流程图；

图10是本申请一个示例性的实施例提供的人头区域识别装置的框图；

图11是本申请一个示例性的实施例提供的人头区域识别设备的框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

神经网络是一种运算模型，由大量的节点(或称神经元)之间相互联接构成，每个节点对应一个策略函数，每两个节点间的连接代表一个对于通过该连接信号的加权值，称之为权重。级联的神经网络层包括多个神经网络层，第i个神经网络层的输出与第i+1个神经网络层的输入相连，第i+1个神经网络层的输出与第i+2个神经网络层的输入相连，以此类推。其中，每个神经网络层包含至少一个节点，样本输入级联的神经网络层后，通过每个神经网络层输出一个输出结果，该输出结果作为下一个神经网络层的输入样本，级联的神经网络层通过样本最终输出结果对每一个神经网络层的每个节点的策略函数和权重值进行调整，该过程被称为训练。

请参考图1，其示出了本申请一个示例性的实施例提供的人头区域识别方法的实施环境的示意图。如图1所示，该实施环境包括：监控摄像头110、服务器120以及终端130，其中，监控摄像头110通过有线或无线网络与服务器120建立通信连接，终端130通过有线或无线网络与服务器120建立通信连接。

监控摄像头110，用于拍摄监控区域的监控图像，并将监控图像传输至服务器120作为输入图像。

服务器120，用于根据监控摄像头110传输的图像作为输入图像，将输入图像输入级联的n个神经网络层中，其中，每个神经网络层输出一组候选识别结果，将每个神经网络层输出的候选识别结果汇总得到人头区域的n组候选识别结果，n≥2；其中，神经网络层用于根据预设的提取框对人头区域进行识别，存在至少两个神经网络层所采用的提取框的尺寸是不同的；对n组候选识别结果进行聚合，得到输入图像中人头区域的最终识别结果，将最终输出结果传输至终端。

终端130，用于接收并显示服务器120传输的最终输出结果。在不同的实施例中，服务器120和终端130也可以整合为一台设备。

可选的，最终输出结果可以是对目标人头的识别，也可以是识别输入图像中包含人头的区域识别结果。

请参考图2，其示出了本申请一个示例性的实施例提供的人头区域识别方法的方法流程图，该方法应用于人头区域识别设备中，该识别设备可以是如图1所述的服务器120，也可以是服务器120和终端130整合的一台设备，该方法包括：

在步骤201中，识别设备获取输入图像。

识别设备获取输入图像，该输入图像可以是监控摄像头通过有线或无线网络传输的图像帧，也可以是通过其他方式，例如拷贝在识别设备本地的图像文件，也可以是其他装置通过有线或无线网络传输的图像。

在步骤202中，识别设备将输入图像输入级联的n个神经网络层中，得到人头区域的n组候选识别结果。

识别设备将输入图像输入级联的n个神经网络层，得到候选识别结果。其中，n个神经网络层中，存在至少两个神经网络层所采用的提取框的尺寸是不相同的，其中，每一个神经网络层通过该层对应的提取框提取每一层特征图的特征。

其中，提取框是每个神经网络层提取特征的尺度，每个神经网络层在提取框的尺度下提取特征，例如，输入图像的像素为300x300，在一个提取框的尺寸为200x200的像素的神经网络层提取特征后输出的特征层就是200x200像素。

可选的，识别设备将输入图像输入n个神经网络层中的第一层神经网络层，得到第一层特征图和第一组候选识别结果。

示例性的，如图3所示，服务器120获得输入图像310，将输入图像310输入至服务器120中的第一个神经网络层321中，第一个神经网络层通过第一提取框提取图像310的特征，得到第一层特征图，并输出第一组候选识别结果331，在第一层候选识别结果331中，用第一识别框341标出人头区域所在的位置。

其中，识别框是标注人头区域所在位置的标识，每个识别框对应一个位置和相似度值。

可选的，识别设备将第i层特征图输入n个神经网络层中的第i+1层神经网络层，得到第i+1层特征图和第i+1组候选识别结果，1≤i≤n-1。

示例性的，如图3所示，第二个神经网络层通过第二提取框提取第一层特征图的特征，输出第二层特征图，并输出第二组候选识别结果332，在第二组候选识别结果332中，用第二识别框342标出人头区域所在的位置和相似度；以此类推，第i个神经网络层通过第i提取框提取第i-1层特征图，输出第i层特征图，并输出第i组候选识别结果，在第i组候选识别结果中，用第i识别框标出人头区域所在的位置，每个识别框对应的候选识别结果；最终，第n个神经网络层通过第n提取框提取第n-1层特征图，输出第n层特征图，并输出第n组候选识别结果33n，在第n组候选识别结果中，用第n识别框34n标出人头区域所在的位置和相似度。

其中，n个提取框中至少有两个尺寸不相同。可选地，每个神经网络层所对应的提取框的尺寸是各不相同的。n个神经网络层中的第i个神经网络层采用的第i提取框的尺寸大于第i+1个神经网络层采用的第i+1提取框的尺寸。

可选地，每个神经网络层输出一组候选识别结果，每组候选识别结果包括零至多个人头区域的识别框。由于同一个人头区域可能会被不同尺寸的提取框所识别，所以在不同的候选识别结果中，可以存在位置相同或相似的识别框。

在步骤203中，识别设备对n组候选识别结果进行聚合，得到输入图像中人头区域的最终识别结果。

识别设备对n组候选识别结果进行聚合后，得到输入图像中人头区域的最终识别结果。

示例性的，如图3所示，服务器120将n组候选识别结果331、332、……、33n合并，获得最终识别结果33，其中，用合并后的识别框34标出人头所在区域。

可选的，识别设备在n组候选识别结果中，将位置的相似程度大于预设阈值的识别框合并为同一个合并后的识别框，将合并后的识别框作为输入图像中人头区域的最终识别结果。

进一步的，识别设备获取位置的相似程度大于预设阈值的识别框对应的相似度值；在位置的相似程度大于预设阈值的识别框中，保留相似度值最大的识别框，删除其他的识别框；将保留的识别框作为输入图像中人头区域的最终识别结果。

由于不同的候选识别结果中，可以存在位置相同或相似的识别框，因此保留位置相同或位置相似的识别框中对应的相似度值最高的候选识别结果，删除相似度值较低的，可以去除冗余的识别框，使输出图像更清晰。

综上所述，本申请实施例中，通过将图像输入级联的n个神经网络层中得到n组候选识别结果，对n组候选识别结果进行聚合后得到输入图像中人头区域的最终识别结果，由于n个神经网络层中至少有两个神经网络层所采用的提取框的尺寸是不相同的，因此解决了当人脸在监控图像中所占的面积较小时基于固定尺寸的提取框对人头区域进行识别所导致的无法识别的问题，能够对输入图像中具有不同大小的人头区域均可以识别，提高了识别的准确度。

请参考图4，其示出了本申请另一个示例性的实施例提供的人头区域识别方法的方法流程图，该方法应用于识别设备中，该识别设备可以是如图1所述的服务器120，也可以是服务器120和终端130整合的一台设备，该方法为图2所示的步骤203的一种可选实施方式，该方法适用于如图2所示的实施例中，该方法包括：

在步骤401中，识别设备获取识别框中相似度值最高的作为第一识别框。

识别设备在n组候选识别结果对应的识别框中，获取相似度值最高的一个识别框。

对于同一人头区域，可能会对应多个识别框，需要将多个识别框合并为一个识别框，去除冗余。

示例性的，如图5所示的多组候选识别结果叠加的识别结果中包含6个识别框，对于同一人头区域501，对应3个候选识别结果，分别用识别框510、511、512标注。

每一个识别框对应一个每组候选识别结果中的一个识别结果，例如，如图5所示，识别框510对应的相似度值为95％，其对应的识别结果为(人头：95％；x₁、y₁、w₁、h₁)；识别框511对应的相似度值为80％，其对应的识别结果为(人头：80％；x₂、y₂、w₂、h₂)；候选框512对应的相似度值为70％，其对应的识别结果为(人头：70％；x₃、y₃、w₃、h₃)；识别框520对应的相似度值为92％，其对应的识别结果为(人头：92％；x₄、y₄、w₄、h₄)；识别框521对应的相似度值为50％，其对应的识别结果为(人头：50％；x₅、y₅、w₅、h₅)；识别框522对应的相似度值为70％，其对应的识别结果为(人头：70％；x₆、y₆、w₆、h₆)，其中，每一个识别框对应的识别结果都包含类别(例如：人头)、坐标值(x和y值)、宽度值(w)和高度值(h)，坐标值、宽度值和高度值为识别框的位置。

识别设备获取多组候选识别结果中相似度值最高的识别框作为第一识别框，即，图5中的识别框510。

在步骤402中，识别设备将与第一识别框重叠面积大于预设阈值的识别框删除。

识别设备将将与第一识别框重叠面积大于预设阈值的识别框删除。

示例性的，如图5所示，识别框510对应的候选识别结果为第一最大识别结果，识别框511与识别框510重叠的面积比值为80％，识别框512与识别框510重叠的面积比值为65％，识别框520、521以及522与识别框510的重叠面积比值为0％，若预设阈值为50％，则将大于预设阈值的识别框511与识别框512删除。

在步骤403中，识别设备在第一剩余识别框中获取相似度值最高的作为第二识别框。

识别设备在获取了第一识别框，删除了与第一识别框重叠面积大于预设阈值的识别框后，将剩余的识别框作为第一剩余识别框，在第一剩余识别框中获取相似度值最高的作为第二识别框。

示例性的，如图5所示，识别设备在获取了第一识别框，即识别框510后，将剩余的识别框520、521、522作为第一剩余识别框，在第一剩余识别框中，将相似度值最高的，即，识别框520作为第二识别框。

在步骤404中，识别设备将与第二识别框重叠面积大于预设阈值的识别框删除。

识别设备将与第二识别框重叠面积大于预定阈值的识别框删除。

示例性的，如图5所示，识别框520对应的候选识别结果为第二最大识别结果，识别框521与识别框520重叠的面积比值为55％，识别框522与识别框520重叠的面积比值为70％，若预设阈值为50％，则将大于预设阈值的识别框521与识别框522删除。

在步骤405中，识别设备在第j-1剩余识别框中获取相似度值最高的作为第j识别框。

参考上述步骤，识别设备在获取了第j-1识别框，删除了与第j-1识别框重叠面积大于预设阈值的识别框后，将剩余的识别框作为第j-1剩余识别框，在第j-1剩余识别框获取相似度值最高的作为第j识别框，其中，2≤j≤n。

在步骤406中，识别设备将与第j识别框重叠面积大于预设阈值的识别框删除。

识别设备将与第j识别框重叠面积大于预定阈值的识别框删除。

在步骤407中，识别设备重复上述步骤，从n组候选识别结果对应的识别框中获取k个识别框。

识别设备重复上述步骤，直到从n组候选识别结果对应的识别框中获取k个识别框，其中，最后剩余的k个识别框的重叠面积均小于预设阈值，2≤k≤n。

在步骤408中，识别设备将将k个识别框作为输入图像中人头区域的最终识别结果。

识别设备将最后剩余的k个识别框作为输入图像中人头区域的最终识别结果。

示例性的，如图6所示，在删除了识别框511、512、521、522后，识别框510和520为最终识别结果。

综上所述，本申请实施例中，通过将n组候选识别结果中位置的相似程度大于预设阈值的识别框合并为一个识别框，将合并后的识别框作为输入图像中人头区域的最终识别结果，解决了最终识别结果中同一个人头识别区域对应多个识别结果的问题，进一步提高了识别的准确度。

请参考图7，其示出了本申请另一个示例性的实施例提供的人头区域识别方法的方法流程图，该方法应用于识别设备中，该识别设备可以是如图1所述的服务器120，也可以是服务器120和终端130整合的一台设备，该识别设备可以是该方法包括：

在步骤701中，识别设备获取样本图像，样本图像中标定有人头区域。

在对输入图像进行识别之前，需要对神经网络进行训练。识别设备获取样本图像，样本图像中标定有人头区域，该人头区域包括侧视人头区域、俯视人头区域、后视人头区域和遮挡人头区域中的至少一种。

在步骤702中，识别设备根据样本图像对级联的n个神经网络层进行训练。

人头识别区域根据样本图像对级联的n个神经网络层进行训练，n≥2。

相关技术中，针对人头区域的识别对神经网络的训练方式是将标定为人脸的样本图像输入神经网络中进行训练，通常在监控图像中，人脸区域会被遮挡，且有时在图像中并未出现人脸，仅仅只有人的后脑勺或头顶等从其他方向看到的人头区域，因此仅仅通过标定有人脸的样本图像完成训练的神经网络并不能准确识别输入图像中不是人脸的人头区域。

针对该技术问题，本申请实施例中，通过标定有侧视人头区域、俯视人头区域、后视人头区域和遮挡人头区域中的至少一种的样本图像对神经网络进行训练，能够解决仅仅通过标定有人脸的样本图像完成训练的神经网络并不能准确识别输入图像中不是人脸的人头区域的问题，进一步提高了识别的准确度。

可选地，训练方法可以采用误差反向传播算法来训练。

需要说明的是，步骤701和步骤702的识别设备可以是专门的训练设备，与执行步骤703至步骤712的识别设备不是同一台设备，训练设备在执行步骤701和步骤702得到训练结果后，识别设备在训练结果的基础上执行步骤703至步骤712；执行步骤701和步骤702的识别设备，也可以是执行步骤703至步骤712的识别设备。步骤701和步骤702的训练步骤，可以是可以是预先训练好，也可以是预先训练一部分，一边执行步骤703至步骤712，一边执行步骤701和步骤702进行训练，步骤701、步骤702和后续的执行步骤的执行顺序不加限定。

在步骤703中，识别设备获取输入图像。

在步骤704中，识别设备将输入图像输入级联的n个神经网络层中，得到人头区域的n组候选识别结果。

在步骤705中，识别设备获取识别框中相似度值最高的作为第一识别框。

对于同一人头区域，可能会对应多个候选结果，需要将多个候选结果合并为同一候选结果，去除冗余。

在步骤706中，识别设备将与第一识别框重叠面积大于预设阈值的识别框删除。

在步骤707中，识别设备在第一剩余识别框中获取相似度值最高的作为第二识别框。

在步骤708中，识别设备将与第二识别框重叠面积大于预设阈值的识别框删除。

在步骤709中，识别设备在第j-1剩余识别框中获取相似度值最高的作为第j识别框。

在步骤710中，识别设备将与第j识别框重叠面积大于预设阈值的识别框删除。

在步骤711中，识别设备重复上述步骤，从n组候选识别结果对应的识别框中获取k个识别框。

在步骤712中，识别设备将将k个识别框作为输入图像中人头区域的最终识别结果。

示例性的，如图8所示，其示出了本申请一个示例的实施例的人头区域识别方法的步骤框架图。如图所示，输入图像输入基础神经网络后输出特征层和候选识别结果，通过后续的预测神经网络逐级输出候选识别结果，并将候选识别结果聚合得到最终识别结果。其中，基础神经网络层是提取框尺寸较大的神经网络层，预测神经网络层的提取框的尺寸逐级降低。

综上所述，本申请实施例中，通过将图像输入级联的n个神经网络层中得到n组候选识别结果，对n组候选识别结果进行聚合后得到输入图像中人头区域的最终识别结果，由于n个神经网络层至少有两个神经网络层所采用的提取框的尺寸是不相同的，因此解决了当人脸在监控图像中所占的面积较小时基于固定尺寸的提取框对人头区域进行识别所导致的无法识别的问题，能够对输入图像中具有不同大小的人头区域均可以识别，提高了识别的准确度。

进一步的，本申请实施例中，通过标定有侧视人头区域、俯视人头区域、后视人头区域和遮挡人头区域中的至少一种的样本图像对神经网络进行训练，能够解决仅仅通过标定有人脸的样本图像完成训练的神经网络并不能准确识别输入图像中不是人脸的人头区域的问题，进一步提高了识别的准确度。

进一步的，本申请实施例中，通过将n组候选识别结果中位置的相似程度大于预设阈值的识别框合并为一个识别框，将合并后的识别框作为输入图像中人头区域的最终识别结果，解决了最终识别结果中同一个人头识别区域对应多个识别结果的问题，进一步提高了识别的准确度。

请参考图9，其示出了本申请一个示例性的实施例提供的人流监控方法的方法流程图，该方法应用于监控设备中，该监控设备可以是如图1所述的服务器120，该方法包括：

在步骤901中，监控设备获取监控摄像头采集的监控图像。

监控摄像头采集监控区域的监控图像，并将监控图像通过有线或无线网络发送至监控设备，监控设备获取监控摄像头采集的监控图像。其中，监控区域可以是火车站、购物广场、旅游景点等人流密集区域，也可以是政府部门、军事基地、法院等涉及机密的区域。

在步骤902中，监控设备将监控图像输入级联的n个神经网络层中，得到人头区域的n组候选识别结果。

监控设备将监控图像输入级联的n个神经网络层，得到候选识别结果。其中，n个神经网络层中，存在至少两个神经网络层所采用的提取框的尺寸是不相同的，其中，每一个神经网络层通过该层对应的提取框提取每一层特征图的特征，n≥2。

可选的，监控设备将监控图像输入n个神经网络层中的第一层神经网络层，得到第一层特征图和第一组候选识别结果。

可选的，监控设备将第i层特征图输入n个神经网络层中的第i+1层神经网络层，得到第i+1层特征图和第i+1组候选识别结果，1≤i≤n-1。

在步骤903中，监控设备对n组候选识别结果进行聚合，得到监控图像中人头区域的最终识别结果。

监控设备对n组候选识别结果进行聚合后，得到监控图像中人头区域的最终识别结果。

可选的，监控设备在n组候选识别结果中，将位置的相似程度大于预设阈值的提取框合并为同一个识别结果，得到监控图像中人头区域的最终识别结果。

在步骤904中，监控设备根据最终识别结果在监控图像上显示人头区域。

监控设备根据最终识别结果在监控图像上显示人头区域，识别的人头区域可以是在监控图像中显示人流的人头区域，也可以是在监控图像中显示特定目标，例如嫌疑犯的人头区域。

综上所述，本申请实施例中，通过将监控图像输入级联的n个神经网络层中得到n组候选识别结果，对n组候选识别结果进行聚合后得到监控图像中人头区域的最终识别结果，由于n个神经网络层至少有两个神经网络层所采用的提取框的尺寸是不相同的，因此解决了当人脸在监控图像中所占的面积较小时基于固定尺寸的提取框对人头区域进行识别所导致的无法识别的问题，能够对监控图像中具有不同大小的人头区域均可以识别，提高了识别的准确度。

请参考图10，其示出了本申请一个示例性的实施例提供的人头区域识别装置的框图，该方法应用于识别设备中，该识别设备可以是如图1所述的服务器120，也可以是服务器120和终端130整合的一台设备，该装置包括图像获取模块1003、识别模块1005以及聚合模块1006。

图像获取模块1003，用于获取输入图像。

识别模块1005，用于将输入图像输入级联的n个神经网络层中，得到人头区域的n组候选识别结果，n≥2；神经网络层用于根据预设的提取框对人头区域进行识别，存在至少两个神经网络层所采用的提取框的尺寸是不同的。

聚合模块1006，用于对n组候选识别结果进行聚合，得到输入图像中人头区域的最终识别结果。

在一个可选的实施例中，

识别模块1005，还用于将输入图像输入n个神经网络层中的第一层神经网络层，得到第一层特征图和第一组候选识别结果；将第i层特征图输入n个神经网络层中的第i+1层神经网络层，得到第i+1层特征图和第i+1层候选识别结果，1≤i≤n-1；其中，n个神经网络层中的第i个神经网络层采用的第i提取框的尺寸大于第i+1个神经网络层采用的第i+1提取框的尺寸。

在一个可选的实施例中，每组候选识别结果包括至少一个人头区域的提取框，提取框具有各自的尺寸。

聚合模块1006，还用于将n组候选识别结果中，将位置的相似程度大于预设阈值的候选识别结果合并为同一个识别结果，得到输入图像中人头区域的最终识别结果。

在一个可选的实施例中，

聚合模块1006，还用于在n组候选识别结果中，获取位置的相似程度大于预设阈值的候选识别结果对应的相似度值；在位置的相似程度大于预设阈值的识别结果中，保留相似度值最大的候选识别结果，删除其他的候选识别结果；将保留的候选识别结果作为输入图像中人头区域的最终识别结果。

在一个可选的实施例中，

聚合模块1006，还用于获取n组候选识别结果中相似度值最高的作为第一最大识别结果；将与第一最大识别结果重叠面积大于预设阈值的候选识别结果删除；在第一剩余识别结果中获取相似度值最高的作为第二最大识别结果，其中，第一剩余识别结果是n组候选识别结果除去第一最大识别结果和删除的候选识别结果后剩余的候选识别结果；将与第二最大识别结果重叠面积大于预设阈值的候选识别结果删除；在第j-1剩余识别结果中获取相似度值最高的作为第j最大识别结果；第j-1剩余识别结果是n组候选识别结果除去第一最大识别结果至第j-1最大识别结果以及删除的候选识别结果后剩余的候选识别结果；将与第j最大识别结果重叠面积大于预设阈值的候选识别结果删除；重复上述步骤，从n组候选识别结果中获取k个最大识别结果；将k个最大识别结果作为输入图像中人头区域的最终识别结果。

在一个可选的实施例中，人头区域识别装置还包括预处理模块1004；

预处理模块1004，用于对输入图像进行局部提亮和/或降低分辨率处理；将局部提亮和/或降低分辨率处理后的输入图像输入级联的n个神经网络层中。

在一个可选的实施例中，人头区域识别装置还包括样本获取模块1001和训练模块1002：

样本获取模块1001，用于获取样本图像，样本图像中标定有人头区域，人头区域包括：侧视人头区域、俯视人头区域、后视人头区域和遮挡人头区域中的至少一种。

训练模块1002，用于根据样本图像对级联的n个神经网络层进行训练。

综上所述，本申请实施例中，通过识别模块将图像输入级联的n个神经网络层中得到n组候选识别结果，通过聚合模块对n组候选识别结果进行聚合后得到输入图像中人头区域的最终识别结果，由于n个神经网络层至少有两个神经网络层所采用的提取框的尺寸是不相同的，因此解决了当人脸在监控图像中所占的面积较小时基于固定尺寸的提取框对人头区域进行识别所导致的无法识别的问题，提高了识别的准确度。

进一步的，本申请实施例中，通过训练模块将标定有侧视人头区域、俯视人头区域、后视人头区域和遮挡人头区域中的至少一种的样本图像对神经网络进行训练，能够解决仅仅通过标定有人脸的样本图像完成训练的神经网络并不能准确识别输入图像中不是人脸的人头区域的问题，进一步提高了识别的准确度。

进一步的，本申请实施例中，通过识别模块将n组候选识别结果中位置的相似程度大于预设阈值的候选识别结果合并为同一个识别结果，得到输入图像中人头区域的最终识别结果，解决了最终识别结果中同一个人头识别区域对应多个识别结果的问题，进一步提高了识别的准确度。

请参见图11，其示出了本申请一个示例性的实施例提供的识别设备的框图。该识别设备包括：处理器1101、存储器1102以及网络接口1103。

网络接口1103通过总线或其它方式与处理器1101相连，用于接收输入图像或样本图像。

处理器1101可以是中央处理器(英文：central processing unit，CPU)，网络处理器(英文：network processor，NP)或者CPU和NP的组合。处理器801还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文：application-specific integratedcircuit，ASIC)，可编程逻辑器件(英文：programmable logic device，PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(英文：complex programmable logic device，CPLD)，现场可编程逻辑门阵列(英文：field-programmable gate array，FPGA)，通用阵列逻辑(英文：generic array logic，GAL)或其任意组合。

存储器1102通过总线或其它方式与处理器1101相连，存储器1102中存储有至少一条指令、至少一段程序、代码集或指令集，上述至少一条指令、至少一段程序、代码集或指令集由处理器1101加载并执行以实现如图2、图4或图7的人头区域识别方法。存储器1102可以为易失性存储器(英文：volatile memory)，非易失性存储器(英文：non-volatile memory)或者它们的组合。易失性存储器可以为随机存取存储器(英文：random-access memory，RAM)，例如静态随机存取存储器(英文：static random access memory，SRAM)，动态随机存取存储器(英文：dynamic random access memory，DRAM)。非易失性存储器可以为只读存储器(英文：read only memory image，ROM)，例如可编程只读存储器(英文：programmableread only memory，PROM)，可擦除可编程只读存储器(英文：erasable programmable readonly memory，EPROM)，电可擦除可编程只读存储器(英文：electrically erasableprogrammable read-only memory，EEPROM)。非易失性存储器也可以为快闪存储器(英文：flash memory)，磁存储器，例如磁带(英文：magnetic tape)，软盘(英文：floppy disk)，硬盘。非易失性存储器也可以为光盘。

本申请还提供一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述方法实施例提供的人头区域识别方法。

可选地，本申请还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各方面所述的人头区域识别方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种人头区域识别方法，其特征在于，所述方法包括：

获取输入图像；

2.根据权利要求1所述的方法，其特征在于，所述将所述输入图像输入级联的n个神经网络层中，得到人头区域的n组候选识别结果，包括：

将所述输入图像输入所述n个神经网络层中的第一层神经网络层，得到第一层特征图和第一组候选识别结果；

将第i层特征图输入所述n个神经网络层中的第i+1层神经网络层，得到第i+1层特征图和第i+1层候选识别结果，1≤i≤n-1；

其中，所述n个神经网络层中的第i个神经网络层采用的第i提取框的尺寸大于第i+1个神经网络层采用的第i+1提取框的尺寸。

3.根据权利要求1所述的方法，其特征在于，每组所述候选识别结果具有零至多个识别框，所述识别框具有对应的位置；

所述对所述n组候选识别结果进行聚合，得到所述输入图像中人头区域的最终识别结果，包括：

将所述n组候选识别结果中，将所述位置的相似程度大于预设阈值的识别框合并为同一个合并后的识别框，将所述合并后的识别框作为所述输入图像中人头区域的最终识别结果。

4.根据权利要求3所述的方法，其特征在于，每组所述识别框具有对应的相似度值，所述将所述n组候选识别结果中，将所述位置的相似程度大于预设阈值的识别结果合并为同一个识别结果，得到所述输入图像中人头区域的最终识别结果，包括：

获取所述位置的相似程度大于所述预设阈值的识别框对应的相似度值；

在所述位置的相似程度大于所述预设阈值的识别框中，保留相似度值最大的识别框，删除其他的识别框；

将所述保留的识别框作为所述输入图像中人头区域的最终识别结果。

5.根据权利要求4所述的方法，其特征在于，所述在所述位置的相似程度大于所述预设阈值的识别框中，保留相似度值最大的识别框，删除其他的识别框，包括：

获取所述识别框中相似度值最高的作为第一识别框；

将与所述第一识别框重叠面积大于所述预设阈值的识别框删除；

在第一剩余识别框中获取相似度值最高的作为第二识别框；所述第一剩余识别框是所述n组候选识别结果对应的识别框除去所述第一识别框和删除的识别框后剩余的识别框；

将与所述第二识别框重叠面积大于所述预设阈值的识别框删除；

在第j-1剩余识别框中获取相似度值最高的作为第j识别框；所述第j-1剩余识别框是所述n组候选识别结果对应的识别框除去第一识别框至第j-1识别框以及删除的识别框后剩余的识别框，2≤j≤n；

将与所述第j识别框重叠面积大于所述预设阈值的识别框删除；

重复上述步骤，从所述n组候选识别结果对应的识别框中获取k个识别框，2≤k≤n；

所述将所述保留的识别框作为所述输入图像中人头区域的最终识别结果，包括：

将所述k个识别框作为所述输入图像中人头区域的最终识别结果。

6.根据权利要求1至5任一项所述的方法，其特征在于，所述将所述输入图像输入级联的n个神经网络层中包括：

对所述输入图像进行局部提亮和/或降低分辨率处理；

将局部提亮和/或降低分辨率处理后的所述输入图像输入级联的n个神经网络层中。

7.根据权利要求1至5任一项所述的方法，其特征在于，所述方法还包括：

获取样本图像，所述样本图像中标定有人头区域，所述人头区域包括：侧视人头区域、俯视人头区域、后视人头区域和遮挡人头区域中的至少一种；

根据所述样本图像对所述级联的n个神经网络层进行训练。

8.一种人流监控方法，其特征在于，所述方法包括：

获取监控摄像头采集的监控图像；

将所述监控图像输入级联的n个神经网络层中，所述n个神经网络层中的每个神经网络层输出一组候选识别结果，得到人头区域的n组候选识别结果，n≥2；所述神经网络层用于根据预设的提取框对人头区域进行识别，存在至少两个所述神经网络层所采用的所述提取框的尺寸是不同的；

9.一种人头区域识别装置，其特征在于，所述装置包括：

图像获取模块，用于获取输入图像；

10.根据权利要求9所述的装置，其特征在于，

所述识别模块，还用于将所述输入图像输入所述n个神经网络层中的第一层神经网络层，得到第一层特征图和第一组候选识别结果；将第i层特征图输入所述n个神经网络层中的第i+1层神经网络层，得到第i+1层特征图和第i+1层候选识别结果，1≤i≤n-1；其中，所述n个神经网络层中的第i个神经网络层采用的第i提取框的尺寸大于第i+1个神经网络层采用的第i+1提取框的尺寸。

11.根据权利要求9所述的装置，其特征在于，每组所述候选识别结果具有零至多个识别框，所述识别框具有对应的位置；

所述聚合模块，还用于将所述n组候选识别结果中，将所述位置的相似程度大于预设阈值的识别框合并为同一个合并后的识别框，将所述合并后的识别框作为所述输入图像中人头区域的最终识别结果。

12.根据权利要求11所述的装置，其特征在于，每组所述识别框具有对应的相似度值；

所述聚合模块，还用于

在所述位置的相似程度大于所述预设阈值的识别框中，保留相似度值最大的识别框，删除其他的识别框；将所述保留的识别框作为所述输入图像中人头区域的最终识别结果。

13.根据权利要求12所述的装置，其特征在于，

所述聚合模块，还用于获取所述识别框中相似度值最高的作为第一识别框；将与所述第一识别框重叠面积大于所述预设阈值的识别框删除；在第一剩余识别框中获取相似度值最高的作为第二识别框；所述第一剩余识别框是所述n组候选识别结果对应的识别框除去所述第一识别框和删除的识别框后剩余的识别框；将与所述第二识别框重叠面积大于所述预设阈值的识别框删除；在第j-1剩余识别框中获取相似度值最高的作为第j识别框；所述第j-1剩余识别框是所述n组候选识别结果对应的识别框除去第一识别框至第j-1识别框以及删除的识别框后剩余的识别框，2≤j≤n；将与所述第j识别框重叠面积大于所述预设阈值的识别框删除；重复上述步骤，从所述n组候选识别结果对应的识别框中获取k个识别框，2≤k≤n；所述将所述保留的识别框作为所述输入图像中人头区域的最终识别结果，包括：将所述k个识别框作为所述输入图像中人头区域的最终识别结果。

14.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如权利要求1至6任一所述的人头区域识别方法。

15.一种人头区域识别设备，其特征在于，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如权利要求1至7任一所述的人头区域识别方法。