CN109829415A

CN109829415A - 基于深度残差网络的性别识别方法、装置、介质和设备

Info

Publication number: CN109829415A
Application number: CN201910074634.4A
Authority: CN
Inventors: 马潜; 李洪燕
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-01-25
Filing date: 2019-01-25
Publication date: 2019-05-31
Also published as: WO2020151300A1

Abstract

本发明提供一种基于深度残差网络的性别识别方法，包括：基于行人追踪算法从视频流中获取目标对象的预置数量视频帧；将预置数量视频帧分别输入预先训练的性别识别模型，得到分别对应所述预置数量视频帧中所述目标对象的性别预测值；其中，所述性别识别模型基于深度残差网络预先训练得到；对所述性别预测值进行加权运算，得到所述目标对象的加权性别预测值；根据所述加权性别预测值，得到所述目标对象的性别识别结果。该方法可无需基于人脸识别便可实现行人的实时性别识别，性别识别效率及准确率高，满足行人性别实时识别的实际应用需求。

Description

基于深度残差网络的性别识别方法、装置、介质和设备

技术领域

本发明涉及智能识别技术领域，具体而言，本发明涉及一种基于深度残差网络的性别识别方法、装置、计算机可读存储介质和计算机设备。

背景技术

随着人工智能技术的快速发展，越来越多的应用场景中需要智能识别人的性别。目前，大多数的性别识别基于人脸识别技术实现。然而，在实际应用场景中，人的脸部经常存在被遮挡的问题，难以基于人的脸部特征进行性别识别，故通常只能根据人的身材、穿着、及其它外观进行判断。而行人的性别判断难点在于，一些穿着中性，体型偏胖或者性别特征不明显的人群，只根据某一个角度，也难以实现性别识别。现有的性别识别方法的性别识别准确率较低，难以满足实际应用需求。

发明内容

为至少能解决上述的技术缺陷之一，本发明提供了以下技术方案的基于深度残差网络的性别识别方法及对应的装置、计算机可读存储介质和计算机设备。

本发明的实施例根据一个方面，提供了一种基于深度残差网络的性别识别方法，包括如下步骤：

基于行人追踪算法从视频流中获取目标对象的预置数量视频帧；

将预置数量视频帧分别输入预先训练的性别识别模型，得到分别对应所述预置数量视频帧中所述目标对象的性别预测值；其中，所述性别识别模型基于深度残差网络预先训练得到；

对所述性别预测值进行加权运算，得到所述目标对象的加权性别预测值；

根据所述加权性别预测值，得到所述目标对象的性别识别结果。

在一个实施例中，所述基于行人追踪算法从视频流中获取目标对象的预置数量视频帧，包括：

基于KCF目标跟踪算法从视频流中获取目标对象的预置数量视频帧。

在一个实施例中，所述对所述性别预测值进行加权运算，得到所述目标对象的加权性别预测值，包括：

获取对应所述预置数量视频帧的权重比例；其中，所述权重比例根据预置数量视频帧的权重生成，预置数量视频帧的权重分别根据视频帧对应所述视频流的时间戳的先后顺序设定；

根据所述权重比例对所述性别预测值进行加权运算，得到所述目标对象的加权性别预测值。

在一个实施例中，所述性别识别模型通过以下步骤预先训练得到：

获取包含行人人体图像和对应性别信息的训练样本；

基于所述训练样本训练深度残差网络，得到性别识别模型。

在一个实施例中，所述根据所述加权性别预测值，得到所述目标对象的性别识别结果之后，还包括：

保存所述目标对象的预置数量视频帧和性别识别结果。

在一个实施例中，所述将预置数量视频帧分别输入预先训练的性别识别模型，得到分别对应所述预置数量视频帧中所述目标对象的性别预测值之前，还包括：

判断预置数据库中是否存在与所述预置数量视频帧匹配的行人人体图像；

若是，获取所述预置数据库预存的对应所述行人人体图像的性别信息；根据所述性别信息，生成所述目标对象的性别识别结果；

若否，继续执行所述将预置数量视频帧分别输入预先训练的性别识别模型，得到分别对应所述预置数量视频帧中所述目标对象的性别预测值的步骤。

在一个实施例中，所述将预置数量视频帧分别输入预先训练的性别识别模型，得到分别对应所述预置数量视频帧中所述目标对象的性别预测值，包括：

确定所述预置数量视频帧中所述目标对象的人体区域；

根据所述人体区域，获取对应所述预置数量视频帧的预置数量行人人体图像；

将所述预置数量行人人体图像分别输入预先训练的性别识别模型，得到分别对应所述预置数量视频帧中所述目标对象的性别预测值。

此外，本发明的实施例根据另一个方面，提供了一种基于深度残差网络的性别识别装置，包括：

视频帧获取模块，用于基于行人追踪算法从视频流中获取目标对象的预置数量视频帧；

预测值获取模块，用于将预置数量视频帧分别输入预先训练的性别识别模型，得到分别对应所述预置数量视频帧中所述目标对象的性别预测值；其中，所述性别识别模型基于深度残差网络预先训练得到；

加权运算模块，用于对所述性别预测值进行加权运算，得到所述目标对象的加权性别预测值；

性别识别结果生成模块，用于根据所述加权性别预测值，得到所述目标对象的性别识别结果。

本发明的实施例根据又一个方面，提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述的基于深度残差网络的性别识别方法。

本发明的实施例根据再一个方面，提供了一种计算机设备，所述计算机包括一个或多个处理器；存储器；一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个计算机程序配置用于：执行上述的基于深度残差网络的性别识别方法。

本发明与现有技术相比，具有以下有益效果：

本发明提供的基于深度残差网络的性别识别方法、装置、计算机可读存储介质和计算机设备，通过从目标对象动态行走过程中的视频流中获取多张视频帧，并将多张视频帧输入基于深度残差网络预先训练得到的性别识别模型实现目标对象的性别识别，可无需基于人脸识别便可实现行人的实时性别识别，性别识别效率及准确率高，满足行人性别实时识别的实际应用需求。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例提供的基于深度残差网络的性别识别方法的方法流程图；

图2为本发明实施例提供的基于深度残差网络的性别识别装置的结构示意图；

图3为本发明实施例提供的计算机设备的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

本发明实施例提供了一种基于深度残差网络的性别识别方法，如图1所示，该方法包括：

步骤S110：基于行人追踪算法从视频流中获取目标对象的预置数量视频帧。

对于本实施例，所述目标对象为待进行性别识别的人物。

在实际应用场景中，首先在预置时长内基于行人追踪算法对所述目标对象进行追踪，通过视频监控工具录制所述预置时长内所述目标对象动态行走过程中的视频流；随后，从所述视频流中提取所述目标对象的预置数量视频帧，其中，可以以预置周期从所述视频流中提取关键帧的方式获取所述目标对象的预置数量视频帧，所述预置周期可以是50ms、80ms、1s等任意时长。

对于本实施例，所获取的所述预置数量视频帧用于作为输入预先训练的性别识别模型的输入数据。

其中，所述预置数量可以是5、9、15等任意数值，本领域技术人员可根据实际应用需求确定所述预置数量的具体数值，本实施例对此不做限定。

步骤S120：将预置数量视频帧分别输入预先训练的性别识别模型，得到分别对应所述预置数量视频帧中所述目标对象的性别预测值；其中，所述性别识别模型基于深度残差网络预先训练得到。

对于本实施例，所述性别识别模型用于提取目标对象的性别特征并计算性别预测值。

对于本实施例，将获取的所述预置数量视频帧先后输入预先训练的性别识别模型，可先后得到所述目标对象对应各个视频帧的性别预测值。其中，所述性别识别模型估算所述目标对象的性别预测值的运算过程具体为：根据作为输入数据的视频帧提取所述目标对象的性别特征向量，基于所述性别特征向量进一步估算所述目标对象分别为男性、女性的概率，以根据所述目标对象为男性、女性的概率实现所述目标对象的性别分类识别。

其中，深度残差网络(Deep residual network，ResNet)采用了残差结构作为网络的基本结构，该基本结构可用于解决网络深度变深以后性能的退化问题，同时可为提高性别预测值的准确率和运算效率提供有力的技术支持。

步骤S130：对所述性别预测值进行加权运算，得到所述目标对象的加权性别预测值。

对于本实施例，对对应各个视频帧的性别预测值按预置的加权方式进行加权运算，计算得到所述目标对象的加权性别预测值，通过将对应各个视频帧的性别预测值进行加权运算并计算加权性别预测值，可得到相比单张静态图像识别性别更准确的性别预测值，从而得到更准确的性别识别结果。

步骤S140：根据所述加权性别预测值，得到所述目标对象的性别识别结果。

对于本实施例，根据所述加权性别预测值，判断所述加权性别预测值是否大于预置阈值；若所述加权性别预测值大于预置阈值，判定所述目标用户的性别为男性，得到所述性别对象为男性的性别识别结果；若所述加权性别预测值小于等于预置阈值，判定所述目标用户的性别为女性，得到所述性别对象为女性的性别识别结果。

其中，所述预置阈值可为0.5，当所述性别预测值大于0.5时确定所述目标对象的性别为男性，当所述性别预测值小于等于0.5时确定所述目标对象的性别为女性。

本发明提供的基于深度残差网络的性别识别方法，通过从目标对象动态行走过程中的视频流中获取多张视频帧，并将多张视频帧输入基于深度残差网络预先训练得到的性别识别模型实现目标对象的性别识别，可无需基于人脸识别便可实现行人的实时性别识别，性别识别效率及准确率高，满足行人性别实时识别的实际应用需求。

基于KCF目标跟踪算法从视频流中获取目标对象的预置数量视频帧。所述KCF目标跟踪算法具有算法速度快、鲁棒性强的特征，可进一步提高获取所述目标对象的预置数量视频帧的效率及准确性，满足实时性要求。

对于本实施例，为所述预置数量视频帧中的各个视频帧预先设定用于加权计算的权重，得到所述预置数量视频帧的权重比例。其中，各个视频帧用于加权计算的权重可相同可不同。

对于本实施例，预置数量视频帧中的各个视频帧的权重分别根据视频帧对应所述视频流的时间戳的先后顺序设定，即针对各个视频帧预先设定的用于加权计算的权重大小分别与各自视频帧对应所述视频流的时间戳的先后顺序相关联。在实际应用场景中，考虑到初始基于行人追踪算法对所述目标对象进行追踪时获取的视频帧中可能尚未捕捉到较为完整的目标对象，容易影响目标对象的加权性别预测值的准确性，故作为一个优选例，可根据视频帧对应所述视频流的时间戳，所述时间戳的顺序越靠后的视频帧的权重越大，以使可捕捉到较为完整的目标对象的视频帧对加权性别预测值的计算贡献更大，从而提高行人性别实时识别的准确率。

对于本实施例，根据所述权重比例，将所述预置数量视频帧中各个视频帧的所述性别预测值乘以对应的权重，计算加权平均值，将所述加权平均值作为所述目标对象的加权性别预测值。

在本实施例中，通过对性别预测值进行加权运算计算所述目标对象的加权性别预测值，可进一步提高行人性别实时识别的准确率。

获取包含行人人体图像和对应性别信息的训练样本；

基于所述训练样本训练深度残差网络，得到性别识别模型。

对于本实施例，从预置行人图像库中获取用于将深度残差网络训练为性别识别模型的训练样本，其中，所述训练样本预存有数量众多的行人人体图像，所述行人人体图像为人物呈行走状态的人体图像，各个行人人体图像预先标注有对应的性别。

例如，从预置行人数据库中获取预先收集的十万张性别有男、女的行人人体图像用于作为深度残差网络的输入数据。

对于本实施例，根据所述训练样本中的行人人体图像及行人人体图像标注的性别信息，对标准的深度残差网络进行训练，得到适用于本方案性别识别任务的网络结构和权重，训练得到所述性别识别模型。

保存所述目标对象的预置数量视频帧和性别识别结果。

对于本实施例，在得到所述目标对象的性别结果之后，将所述目标对象的所述预置数量视频帧中的部分或全部视频帧，以及对应的性别识别结果保存至性别识别结果数据库中，以用于后续重复识别应用场景下的性别识别结果快速匹配及反馈。所述保存于性别识别结果数据库中视频帧及对应的性别识别结果可根据预置智能策略定时清理。

在实际应用场景中，在行人离开视频监控工具的拍摄范围外后，可能会在一段时间内再次进入拍摄范围，为降低实际应用场景中的行人性别实时识别的工作量，可在对所述目标对象进行性别识别之前预先基于已有的性别识别结果进行快速匹配。

对于本实施例，所述预置数据库为保存有历史目标对象的视频帧及对应性别识别结果的性别识别结果数据库，所述历史目标对象的视频帧为包含所述历史目标对象的行人人体图像，所述行人人体图像为人物呈行走状态的人体图像。将获取的所述目标对象预置数量视频帧中的一张或者多张视频帧与性别识别结果数据库中的视频帧进行匹配，判断性别识别结果数据库中是否存在与所述预置数量视频帧匹配的行人人体图像。若所述性别识别结果数据库中存在匹配的行人人体图像，则根据所述性别识别结果数据库中预存的所述性别识别结果，确定对应所述行人人体图像的历史目标对象的性别信息，并将所述历史目标对象的性别信息作为所述目标对象的性别识别结果。若所述性别识别结果数据库中不存在匹配的行人人体图像，才对所述目标对象进行实时性别识别。

在本实施例中，通过在对所述目标对象进行性别识别之前预先基于已有的性别识别结果进行快速匹配，可使性别识别系统无需对在预置时间段内重新进行视频拍摄范围内的目标对象进行重新性别识别，显著降低实际应用场景中的性别识别工作量，提高行人性别实时识别的效率。

确定所述预置数量视频帧中所述目标对象的人体区域；

在实际应用场景中，视频监控工具录制的是所述目标对象动态行走过程中的视频流，因此，从视频流中提取的预置数量视频帧中的图像信息可能包括拍摄范围内的除所述目标对象以外的信息，会对目标对象的性别识别结果造成干扰。因此，需要对所述预置数量视频帧进行预处理，将预处理后的预置数量视频帧用于作为所述性别识别模型的输入数据。

具体地，所述预处理包括：

确定所述预置数量视频帧中所述目标对象的人体区域，截取各个视频帧中的所述人体区域的图像，得到对应所述预置数量视频帧的预置数量行人人体图像，还可对所述行人人体图像进行归一化处理、降噪、补光等操作，将经预处理之后的预置数量行人人体图像用于作为所述性别识别模型的输入数据，将所述预置数量行人人体图像分别输入预先训练的性别识别模型，得到分别对应所述预置数量视频帧中所述目标对象的性别预测值。通过对所述性别识别模型的输入数据进行预处理，可有效保证所述性别识别模型的性别识别准确率。

此外，本发明实施例提供了一种基于深度残差网络的性别识别装置，如图2所示，所述装置包括：视频帧获取模块21、预测值获取模块22、加权运算模块23和性别识别结果生成模块24；其中，

所述视频帧获取模块21，用于基于行人追踪算法从视频流中获取目标对象的预置数量视频帧；

所述预测值获取模块22，用于将预置数量视频帧分别输入预先训练的性别识别模型，得到分别对应所述预置数量视频帧中所述目标对象的性别预测值；其中，所述性别识别模型基于深度残差网络预先训练得到；

所述加权运算模块23，用于对所述性别预测值进行加权运算，得到所述目标对象的加权性别预测值；

所述性别识别结果生成模块24，用于根据所述加权性别预测值，得到所述目标对象的性别识别结果。

在一个实施例中，所述视频帧获取模块21，具体用于：

在一个实施例中，所述预测值获取模块22，具体用于：

获取包含行人人体图像和对应性别信息的训练样本；

基于所述训练样本训练深度残差网络，得到性别识别模型。

保存所述目标对象的预置数量视频帧和性别识别结果。

在一个实施例中，所述预测值获取模块22，具体用于：

确定所述预置数量视频帧中所述目标对象的人体区域；

本发明提供的基于深度残差网络的性别识别装置可实现：通过从目标对象动态行走过程中的视频流中获取多张视频帧，并将多张视频帧输入基于深度残差网络预先训练得到的性别识别模型实现目标对象的性别识别，可无需基于人脸识别便可实现行人的实时性别识别，性别识别效率及准确率高，满足行人性别实时识别的实际应用需求。

本发明实施例提供的基于深度残差网络的性别识别装置可以实现上述提供的方法实施例，具体功能实现请参见方法实施例中的说明，在此不再赘述。

此外，本发明实施例提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现以上实施例所述的基于深度残差网络的性别识别方法。其中，所述计算机可读存储介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory，只读存储器)、RAM(RandomAcceSS Memory，随即存储器)、EPROM(EraSable Programmable Read-Only Memory，可擦写可编程只读存储器)、EEPROM(Electrically EraSable Programmable Read-Only Memory，电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是，存储设备包括由设备(例如，计算机、手机)以能够读的形式存储或传输信息的任何介质，可以是只读存储器，磁盘或光盘等。

本发明提供的计算机可读存储介质，可实现：通过从目标对象动态行走过程中的视频流中获取多张视频帧，并将多张视频帧输入基于深度残差网络预先训练得到的性别识别模型实现目标对象的性别识别，可无需基于人脸识别便可实现行人的实时性别识别，性别识别效率及准确率高，满足行人性别实时识别的实际应用需求。

本发明实施例提供的计算机可读存储介质可以实现上述提供的方法实施例，具体功能实现请参见方法实施例中的说明，在此不再赘述。

此外，本发明实施例还提供了一种计算机设备，如图3所示。本实施例所述的计算机设备可以是服务器、个人计算机以及网络设备等设备。所述计算机设备包括处理器302、存储器303、输入单元304以及显示单元305等器件。本领域技术人员可以理解，图3示出的设备结构器件并不构成对所有设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件。存储器303可用于存储计算机程序301以及各功能模块，处理器302运行存储在存储器303的计算机程序301，从而执行设备的各种功能应用以及数据处理。存储器可以是内存储器或外存储器，或者包括内存储器和外存储器两者。内存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)、快闪存储器、或者随机存储器。外存储器可以包括硬盘、软盘、ZIP盘、U盘、磁带等。本发明所公开的存储器包括但不限于这些类型的存储器。本发明所公开的存储器只作为例子而非作为限定。

输入单元304用于接收信号的输入，以及接收用户输入的关键字。输入单元304可包括触控面板以及其它输入设备。触控面板可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作)，并根据预先设定的程序驱动相应的连接装置；其它输入设备可以包括但不限于物理键盘、功能键(比如播放控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。显示单元305可用于显示用户输入的信息或提供给用户的信息以及计算机设备的各种菜单。显示单元305可采用液晶显示器、有机发光二极管等形式。处理器302是计算机设备的控制中心，利用各种接口和线路连接整个电脑的各个部分，通过运行或执行存储在存储器302内的软件程序和/或模块，以及调用存储在存储器内的数据，执行各种功能和处理数据。

作为一个实施例，所述计算机设备包括：一个或多个处理器302，存储器303，一个或多个计算机程序301，其中所述一个或多个计算机程序301被存储在存储器303中并被配置为由所述一个或多个处理器302执行，所述一个或多个计算机程序301配置用于执行以上任一实施例所述的基于深度残差网络的性别识别方法。

本发明提供的计算机设备，可实现：通过从目标对象动态行走过程中的视频流中获取多张视频帧，并将多张视频帧输入基于深度残差网络预先训练得到的性别识别模型实现目标对象的性别识别，可无需基于人脸识别便可实现行人的实时性别识别，性别识别效率及准确率高，满足行人性别实时识别的实际应用需求。

本发明实施例提供的计算机设备可以实现上述提供的方法实施例，具体功能实现请参见方法实施例中的说明，在此不再赘述。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于深度残差网络的性别识别方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的性别识别方法，其特征在于，所述基于行人追踪算法从视频流中获取目标对象的预置数量视频帧，包括：

3.根据权利要求1所述的性别识别方法，其特征在于，所述对所述性别预测值进行加权运算，得到所述目标对象的加权性别预测值，包括：

4.根据权利要求1所述的性别识别方法，其特征在于，所述性别识别模型通过以下步骤预先训练得到：

获取包含行人人体图像和对应性别信息的训练样本；

基于所述训练样本训练深度残差网络，得到性别识别模型。

5.根据权利要求1所述的性别识别方法，其特征在于，所述根据所述加权性别预测值，得到所述目标对象的性别识别结果之后，还包括：

保存所述目标对象的预置数量视频帧和性别识别结果。

6.根据权利要求1所述的性别识别方法，其特征在于，所述将预置数量视频帧分别输入预先训练的性别识别模型，得到分别对应所述预置数量视频帧中所述目标对象的性别预测值之前，还包括：

7.根据权利要求1所述的性别识别方法，其特征在于，所述将预置数量视频帧分别输入预先训练的性别识别模型，得到分别对应所述预置数量视频帧中所述目标对象的性别预测值，包括：

确定所述预置数量视频帧中所述目标对象的人体区域；

8.一种基于深度残差网络的性别识别装置，其特征在于，包括：

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至7任一项所述的基于深度残差网络的性别识别方法。

10.一种计算机设备，其特征在于，其包括：

一个或多个处理器；

存储器；

一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个计算机程序配置用于：执行根据权利要求1至7任一项所述的基于深度残差网络的性别识别方法。