CN116824419A

CN116824419A - 一种着装特征识别方法、识别模型的训练方法及装置

Info

Publication number: CN116824419A
Application number: CN202210270919.7A
Authority: CN
Inventors: 丁俊勇
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Shanghai ICT Co Ltd; CM Intelligent Mobility Network Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Shanghai ICT Co Ltd; CM Intelligent Mobility Network Co Ltd
Priority date: 2022-03-18
Filing date: 2022-03-18
Publication date: 2023-09-29

Abstract

本发明提供一种着装特征识别方法、识别模型的训练方法及装置，涉及图像处理领域，该方法包括：获取摄像头视频流数据；对所述摄像头视频流数据进行数据预处理，得到预处理后的关键帧图像数据；所述数据预处理包括：提取所述摄像头视频流数据的关键帧图像数据，并对所述关键帧图像数据进行对比度增强处理；对预处理后的关键帧图像数据进行行人检测和人脸识别，得到目标人员的人体坐标信息；将所述目标人员的人体坐标信息输入着装识别模型，输出目标人员的着装特征；将所述目标人员的着装特征与数据库中的着装特征进行特征匹配，得到匹配结果。本发明中，快速准确地检测判别特定员工的着装信息，并有效获取特定人员的工作区域信息，提高工作效率。

Description

一种着装特征识别方法、识别模型的训练方法及装置

技术领域

本发明涉及图像处理领域，尤其涉及一种着装特征识别方法、识别模型的训练方法及装置。

背景技术

随着金融科技、智慧网点的提出，视频监控被广泛应用于业务办理网点领域中，监控并检测银行等营业厅内部状况，但海量的视频监控流使得发生重要事件或者问题时，需要耗费大量的人力物力去搜索有效信息；其中，银行职员的着装识别就是出于对着装合规性考察的目的提出的，但由于营业厅中会有大量办理业务的行人出入，因此若能对视频中的众多行人中有效的自动识别出营业厅职员，便可显著的提高视频监控人员的工作效率，并且这对特定行人搜索、行人行为解析、视频的检索等问题的研究也具有重要意义。

传统方法主要是基于HOG(Histogram of Oriented Gradient，方向梯度直方图)和SVM(Support Vector Machine，支持向量机)算子实现行人检测和着装分类，通过构建外观划分模型实现基于衣着颜色直方图的分割；但存在一定的局限性，例如：通过视频监控捕获的视频图像分辨率不高，对于算法中一些精细化的识别难度较大以及在复杂场景条件下如光照剧烈变化时、不同视角下、不同摄像机间，目标外观特征会产生很大的变化。

发明内容

本发明实施例提供了一种着装特征识别方法及装置，用于解决现有技术中养老领域居住、活动空间适老化改造所遇到的功能设计复杂、个体差异大、需求不明显的问题。

为了解决上述问题，本发明是这样实现的：

第一方面，本发明提供了一种着装特征识别方法，包括：

获取摄像头视频流数据；

对所述摄像头视频流数据进行数据预处理，得到预处理后的关键帧图像数据；所述数据预处理包括：提取所述摄像头视频流数据的关键帧图像数据，并对所述关键帧图像数据进行对比度增强处理；

对预处理后的关键帧图像数据进行行人检测和人脸识别，得到目标人员的人体坐标信息；

将所述目标人员的人体坐标信息输入着装识别模型，输出目标人员的着装特征；

将所述目标人员的着装特征与数据库中的着装特征进行特征匹配，得到匹配结果。

可选的，所述对预处理后的关键帧图像数据进行行人检测和人脸识别，得到目标人员的人体坐标信息，包括：

对预处理后的关键帧图像数据进行行人检测，得到行人坐标信息；

对预处理后的关键帧图像数据进行人脸识别，得到至少一个目标人员的人脸坐标信息；

根据所述行人坐标信息和所述人脸坐标信息，进行重叠度计算，当所述重叠度满足预设阈值时，输出目标人员的人体坐标信息。

可选的，所述将所述目标人员的人体坐标信息输入着装识别模型，输出目标人员的着装特征，包括：

将所述目标人员的人体坐标信息由当前颜色空间转换为至少一种目标颜色空间，得到转换后的图像数据；

将所述转换后的图像数据输入第一块网络，得到高频特征和低频特征；所述高频特征为色彩变化大于预设范围的特征；所述低频特征为色彩变化小于等于预设范围的特征；

将所述高频特征和所述低频特征输入第二块网络进行特征联立，得到联立后的高频特征和联立后的低频联立特征；

将所述联立后的高频特征和联立后的低频联立特征进行整合，得到目标人员的着装特征。

可选的，所述颜色空间包括以下至少一项：RGB颜色空间、YUV颜色空间、HSV颜色空间、YCbCr颜色空间和YDbDr颜色空间。

第二方面，本发明提供了一种着装特征识别模型的训练方法，包括：

获取摄像头视频流数据样本；将所述摄像头视频流数据样本按照预设比例分为训练集数据和测试集数据；

对所述摄像头视频流数据样本进行数据预处理，得到预处理后的关键帧图像数据；所述数据预处理包括：提取所述摄像头视频流数据样本的关键帧图像数据，并对所述关键帧图像数据进行对比度增强处理；

将所述训练集数据对应的关键帧图像数据输入着装识别模型进行模型训练，得到训练结果；

根据所述训练结果调整所述着装识别模型的参数；

将所述测试集数据对应的关键帧图像数据输入所述着装识别模型对所述着装识别模型输出的结果进行验证，得到验证结果；

根据所述验证结果再次调整所述着装识别模型的参数，得到训练后的着装识别模型。

可选的，所述将所述训练集数据输入着装识别模型进行模型训练，得到训练结果，包括：

第三方面，本发明提供了一种着装特征识别装置，包括：

第一获取模块，用于获取摄像头视频流数据；

第一数据预处理模块，用于对所述摄像头视频流数据进行数据预处理，得到预处理后的关键帧图像数据；所述数据预处理包括：提取所述摄像头视频流数据的关键帧图像数据，并对所述关键帧图像数据进行对比度增强处理；

第一处理模块，用于对预处理后的关键帧图像数据进行行人检测和人脸识别，得到目标人员的人体坐标信息；

第一着装识别模块，用于将所述目标人员的人体坐标信息输入着装识别模型，输出目标人员的着装特征；

第一匹配模块，用于将所述目标人员的着装特征与数据库中的着装特征进行特征匹配，得到匹配结果。

可选的，所述第一处理模块，包括：

行人检测子模块，用于对预处理后的关键帧图像数据进行行人检测，得到行人坐标信息；

人脸识别子模块，用于对预处理后的关键帧图像数据进行人脸识别，得到至少一个目标人员的人脸坐标信息；

计算子模块，用于根据所述行人坐标信息和所述人脸坐标信息，进行重叠度计算，当所述重叠度满足预设阈值时，输出目标人员的人体坐标信息。

可选的，所述第一着装识别模块，包括：

转换子模块，用于将所述目标人员的人体坐标信息由当前颜色空间转换为至少一种目标颜色空间，得到转换后的图像数据；

第一处理子模块，用于将所述转换后的图像数据输入第一块网络，得到高频特征和低频特征；所述高频特征为色彩变化大于预设范围的特征；所述低频特征为色彩变化小于等于预设范围的特征；

特征联立子模块，用于将所述高频特征和所述低频特征输入第二块网络进行特征联立，得到联立后的高频特征和联立后的低频联立特征；

整合子模块，用于将所述联立后的高频特征和联立后的低频联立特征进行整合，得到目标人员的着装特征。

第四方面，本发明提供了一种着装特征识别模型的训练装置，包括：

第二处理模块，用于获取摄像头视频流数据样本；将所述摄像头视频流数据样本按照预设比例分为训练集数据和测试集数据；

第二数据预处理数据，用于对所述摄像头视频流数据样本进行数据预处理，得到预处理后的关键帧图像数据；所述数据预处理包括：提取所述摄像头视频流数据样本的关键帧图像数据，并对所述关键帧图像数据进行对比度增强处理；

第三处理模块，用于对预处理后的关键帧图像数据进行行人检测和人脸识别，得到目标人员的人体坐标信息；

训练模块，用于将所述训练集对应的关键帧图像数据数据输入着装识别模型进行模型训练，得到训练结果；

第一参数调整模块，用于根据所述训练结果调整所述着装识别模型的参数；

验证模块，用于将所述测试集数据对应的关键帧图像数据输入所述着装识别模型对所述着装识别模型输出的结果进行验证，得到验证结果；

第二参数调整模块，用于根据所述验证结果再次调整所述着装识别模型的参数，得到训练后的着装识别模型。

第五方面，本发明提供了一种服务器，包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现如第一方面中任一项所述的着装特征识别方法的步骤，或者，所述程序被所述处理器执行时实现如第二方面中任一项所述的着装特征识别模型的训练方法的步骤。

第六方面，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面中任一项所述的着装特征识别方法的步骤，或者，所述程序被所述处理器执行时实现如第二方面中任一项所述的着装特征识别模型的训练方法的步骤。

本发明中，通过对进入网点摄像头采集区域内的目标人进行数据采集，将预处理后的数据图像分别采用人脸识别和行人识别完成特定人员的身份确认，再将采集到的特定行人数据图像进行颜色空间的变换，然后传输至模型网络进行频域信息的特征提取并输出，最后与数据库内的着装特征信息进行比对；快速准确地检测判别特定员工的着装信息，并及时有效的获取特定人员的工作区域信息、为管理员工工作做有效的数据支持，提高工作效率。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本发明实施例提供的一种着装特征识别方法的流程示意图；

图2为本发明实施例提供的一种着装特征识别方法的总体流程示意图；

图3为本发明实施例提供的另一种着装特征识别方法的总体流程示意图；

图4为本发明实施例提供的一种着装特征识别方法的着装识别模型网络结构示意图；

图5为本发明实施例提供的一种着装特征识别方法的着装识别模型网络中第一块网络的结构示意图；

图6为本发明实施例提供的一种着装特征识别方法的着装识别模型网络中第二块网络的结构示意图；

图7为本发明实施例提供的一种着装特征识别方法的总体装置结构示意图；

图8为本发明实施例提供的另一种着装特征识别方法的总体装置结构示意图；

图9为本发明实施例提供的一种着装特征识别模型的训练方法的流程示意图；

图10为本发明实施例提供的一种着装特征识别装置的结构示意图；

图11为本发明实施例提供的一种着装特征识别模型的训练装置的结构示意图；

图12为本发明实施例提供的一种服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1和图2，本发明实施例提供了一种着装特征识别方法，包括：

步骤11：获取摄像头视频流数据；

步骤12：对所述摄像头视频流数据进行数据预处理，得到预处理后的关键帧图像数据；所述数据预处理包括：提取所述摄像头视频流数据的关键帧图像数据，并对所述关键帧图像数据进行对比度增强处理；

步骤13：对预处理后的关键帧图像数据进行行人检测和人脸识别，得到目标人员的人体坐标信息；

步骤14：将所述目标人员的人体坐标信息输入着装识别模型，输出目标人员的着装特征；

步骤15：将所述目标人员的着装特征与数据库中的着装特征进行特征匹配，得到匹配结果。

本发明实施例中，通过对进入网点摄像头采集区域内的目标人进行数据采集，将预处理后的数据图像分别采用人脸识别和行人识别完成特定人员的身份确认，再将采集到的特定行人数据图像进行颜色空间的变换，然后传输至模型网络进行频域信息的特征提取并输出，最后与数据库内的着装特征信息进行比对；快速准确地检测判别特定员工的着装信息，并及时有效的获取特定人员的工作区域信息、为管理员工工作做有效的数据支持，提高工作效率。

本发明实施例中，在步骤11中，获取摄像头视频流数据；其中，摄像头视频流采集得到的视频流数据主要由行人的行为数据构成，在完成摄像头配置后，可通过指定RTSP(Real Time Streaming Protocol，实时流传输协)地址进行视频的播放和采集。

本发明实施例中，在步骤12中，由于获取到的视频流数据不能够直接进行输入至模型，需要先进行抽帧处理，其中视频通常由I帧、P帧、B帧组成，本实施例采用对于关键帧I帧提取的抽取方式，并进行对比度增强处理。

本发明实施例中，在步骤13中，所述对预处理后的关键帧图像数据进行行人检测和人脸识别，得到目标人员的人体坐标信息，包括：对预处理后的关键帧图像数据进行行人检测，得到行人坐标信息；对预处理后的关键帧图像数据进行人脸识别，得到至少一个目标人员的人脸坐标信息；根据所述行人坐标信息和所述人脸坐标信息，进行重叠度计算，当所述重叠度满足预设阈值时，输出目标人员的人体坐标信息；其中，对预处理后的关键帧图像采用行人检测算法，使用yolo v3网络实现待检测的图像中行人的准确定位，将图像中每个行人进行定位，得到在此帧图像内的多个行人坐标数据；对预处理后的关键帧图像采用人脸识别算法，使用FaceNet人脸识别网络实现待检测的图像中特定人员人脸的坐标信息的输出，对图像中每个人脸进行定位，得到在此帧图像内的多个人脸坐标信息；然后结合行人识别输出的坐标信息，完成人脸坐标框和行人坐标框的IOU重叠度计算，当所述重叠度满足预设阈值时，输出特定人员的人体坐标信息。

本发明实施例中，在步骤14中，所述将所述目标人员的人体坐标信息输入着装识别模型，输出目标人员的着装特征，包括：将所述目标人员的人体坐标信息由当前颜色空间转换为至少一种目标颜色空间，得到转换后的图像数据；将所述转换后的图像数据输入第一块网络，得到高频特征和低频特征；所述高频特征为色彩变化大于预设范围的特征；所述低频特征为色彩变化小于等于预设范围的特征；将所述高频特征和所述低频特征输入第二块网络进行特征联立，得到联立后的高频特征和联立后的低频联立特征；将所述联立后的高频特征和联立后的低频联立特征进行整合，得到目标人员的着装特征；其中，所述着装识别模型主要由输入的数据、颜色空间变换、第一块网络Block 1、β个第2块网络Block 2、FC全连接层和特征连接层组成，基于坐标信息对于原图进行处理，得到特定人员的精确定位的图像，并进行深度学习模型算法建模；由于数据的主要来源是摄像头下的行人，同时建模的目的是实现对于特定行人的衣物进行判别分析，因此模型的输出与图像的颜色空间存在一定的关联性；并且由于图像不同频域之间对于特征信息的表达也具有不一样的特性，因此采用深度学习神经网络模型进行特定行人的着装识别。

本发明实施例中，在步骤15中，使用输出目标人员的着装特征，得到对应输入图像的特征向量，然后和数据库内已注册的用户进行特征比对，采用欧氏距离进行计算，选取距离最小的数值，如果小于设定的阈值则匹配成功，若不满足则匹配失败；该阈值的设定主要进行一个范围限定以及一个具体推荐值，具体的数值在实际使用中可以根据需要设定，提高了用户体验。

本发明实施例中，可选的，所述颜色空间包括以下至少一项：RGB颜色空间、YUV颜色空间、HSV颜色空间、YCbCr颜色空间和YDbDr颜色空间。

请参考图2，本发明实施例中，首先，进行摄像头视频流采集；其中，摄像头视频流采集得到的视频流数据主要由行人的行为数据构成；其次，进行数据预处理；进行抽帧处理，其中视频通常由I帧、P帧、B帧组成，本实施例采用对于关键帧I帧提取的抽取方式，并进行对比度增强处理；再次，对预处理后的关键帧图像数据进行人脸识别和行人识别，得到特定的人体坐标信息，即目标人员的人体坐标信息；再次，将所述特定的人体坐标信息和预处理后的关键帧图像原图输入着装识别模型判断是否着行装；最后，输出目标人员的着装特征存储进数据库中。

请参考图3，本发明实施例中，在S1获取摄像头中视频流数据中，数据集以营业网点内摄像头采集得到的数据为主，从中获取10个摄像头平均时长在10分钟的视频流数据；所述数据集可以根据用户不同的需求进行相应的更换；在S2视频流数据预处理中，对摄像头视频流数据进行数据预处理，采用的是H264的编码格式，通过对视频流进行分解，得到I帧、P帧和B帧，对于其中的关键帧I帧进行提取，同时采用伽马校正调节图像对比度。在S3获取特定行人数据图像中，针对预处理后得到的图像数据，使用FaceNet人脸识别算法和yolov3行人检测算法实现对指定行人的精确定位坐标信息，根据图像中的具体坐标，获取图像中特定行人的截图并传输至着装识别模型；其中，人脸识别算法和行人检测算法可以根据实际情况进行相应的更换。在S4基于深度学习进行网络模型构建中，该着装识别模型主要由输入的数据、颜色空间变换、第一块网络Block 1、β个第2块网络Block 2、FC全连接层和特征连接层组成，其中输入数据主要为特定行人的图像数据，它是经过上述步骤视频流数据在经过抽帧处理和数据增强后，再通过人脸识别和行人检测完成特定目标定位后，基于坐标信息在单帧图像上完成特定行人图像的截取。

其中，所述着装识别模型的构建主要是结合现有技术发展情况，基于图像数据增强方向和频域信息提取方向进行模型的改进和优化，考虑网点内部光线强度等方面因素的影响，从颜色空间进行图像色域的变换，减弱了光照对于图像本身的影响，使得模型可以学到更多的数据特征信息，提高模型鲁棒性；同时在原有的特征提取方式上进行了改进，引入了频域特征信息的提取，主要解决在网点内部由于高拍摄像头进行数据采集时，通常所采集到的行人数据在整体图像中占比较小，存在空间分辨率较低等问题，并且出于计算成本和内存的考虑，提出了基于网络模型上的整体优化，采用精细的细节编码完成对于较高的频率的提取以及用全局结构编码完成较低的频率的提取，同步实现网络整体参数量的减少，达到了加速网络训练和推理的目的。

请参考图4-图6，本发明实施例中，所述着装识别模型的具体网络结构，请参考图4，首先Input Image输入图像数据；通过Gamut Transformation完成对图像的颜色空间的变换，实现GRB图像转换为RGB、YUV、HSV、YCbCr和YDbDr图像。

其中，RGB转YUV的计算公式为：Y＝0.299R+0.587G+0.114B；U＝-0.147R-0.289G+0.436B；V＝0.615R-0.515G-0.100B；RGB转HSV的计算公式为：设max为r、g和b中的最大者；min为r、g和b中的最小者，h在0到360°之间，s在0到100％之间，v在0到max之间；

RGB转YCbCr的计算公式为：RGB转YDbDr的计算公式为：/>在得到不同的颜色空间Multi color space的图像之后，将其对应的图像采用第一块网络Block 1处理；第一块网络Block 1组织结构请参考图5，其中conv卷积核大小均为3*3，步长均为1，所使用的激活函数为leaky_Relu，在将不同颜色空间的特征进行拼接后，分别提取高频特征High Feature和低频特征low Feature，其中设置α实验值为0.25，表示更加关注低频信息；然后将其输出的特征输入到第二块网络Block 2，请参考图6，所述第二块网络Block2由β个，本实施例中的实验确定β＝3，相同结构的基础High-low Block组成，对于High模块和Low模块输出的结果分别进行联立，conv卷积核大小为3*3，所使用的激活函数为leaky_Relu，得到联立后的高频特征和联立后的低频联立特征；其中，FC层共由2层全连接层组成，节点数分别设置为256,n_class，在BLOCK 2的结果输出后，完成特征联立；其中所述着装识别模型还包括将联立后的结果输入至最后的全连接层，最后模型输出最终的识别结果，完成对于特定行人着装的分类结果输出；所述最终的识别结果包括对特征识别概率的识别结果。

为了保证所述着装识别模型的准确度，在S5获取特定行人数据图像中，对所述着装识别模型进行深度神经网络的训练，基于NVIDIA的v100芯片，使用keras框架，将视频流数据进行抽帧处理和数据增强，然后经自研的行人检测算法完成行人的数据图像截取，共得到约2万张行人数据图像；将所述行人图像数据分成训练集、训练集标签、测试集和测试集标签，其中所述训练集与所述测试集的比例设置为8:2，也可根据实际情况自由设置；训练集作为上述步骤S4中模型的输入实现对模型的训练优化，测试集用来完成对模型效果的整体验证；同时在模型训练的过程中，采用反向传播算法和Adam优化算法,根据前向传播Loss值的大小,来进行迭代更新每一层的权重，采用early-stopping早停法的策略，当模型的Loss损失值达到最小值时，保存训练模型；在S6着装特征输出与比对中，将输出的着装特征转换为着装特征向量与数据库中已注册的着装特征向量进行特征匹配，采用欧氏距离进行计算，其中距离最小的数值如果小于设定阈值的话，则匹配成功，身份验证通过。

请参考图7，本发明实施例中还提供一种着装识别装置，摄像头开启模块01，用于获取用户的初始输入选择，当前是否需要开启摄像头功能；视频流采集模块02，用于在边侧设备上获取摄像头的视频流数据，并上传到云端；数据预处理模块03，用于对于获取的视频流数据进行预处理，包含视频抽帧和对比度增强；AI算法模块04，结合人脸识别算法和行人检测算法完成特定行人的精确定位，再使用已训练好的AI(Artificial Intelligence，人工智能)网络模型对于处理好的行人图像数据进行分类识别，并输出对应结果；阈值修改模块05，根据用户喜好修改阈值，提高或降低判断的强度；结果存储模块06，根据模型的输出结果存储到指定的数据库内等。

请参考图8，本发明实施例中还提供一种着装识别装置，包括输入部分、输出部分、通信总线、CPU、GPU、存储部分以及驱动器；其中，输入部分包括具有视频采集的摄像头，用于对于指定空间内的行人数据的采集；输出部分可以是数据库内一条行人着装数据，用于查询和显示特定行人的着装记录；通信总线主要用于各模块间通信，包括SPI通信总线、I2C通信总线；CPU为中央处理器，用于核心算法程序运行与逻辑处理，对输入用户行为数据以及用户输入操作进行识别；GPU为图形处理器，用于根据程序逻辑算法进行相关运算，完成对输入用户行为数据的标准功能，并将处理后的结果至存储模块进行存储，通过通信总线发送至输出端进行显示；存储器，用来对特定行人的着装特征和不同时段的模型输出结果进行存储；驱动器用来提供底层驱动功能，保障上层应用程序的顺利运行。

本发明实施例中，通过获取视频流数据抽帧处理提取关键帧数据，结合人脸识别与行人检测算法，标定定位特定行人的坐标信息，并通过着装识别模型进行着装的分析与判别；通过频域数据信息完成着装特征信息的提取并输出确定类别的方法和步骤；通过视频关键帧抽取以及多种颜色空间变换，实现降低外部因素干扰的方法，快速准确地检测判别特定员工的着装信息，并及时有效的获取特定人员的工作区域信息、为管理员工工作做有效的数据支持，提高工作效率。

请参考图9，本发明提供了一种着装特征识别模型的训练方法，包括：

步骤91：获取摄像头视频流数据样本；将所述摄像头视频流数据样本按照预设比例分为训练集数据和测试集数据；

步骤92：对所述摄像头视频流数据样本进行数据预处理，得到预处理后的关键帧图像数据；所述数据预处理包括：提取所述摄像头视频流数据样本的关键帧图像数据，并对所述关键帧图像数据进行对比度增强处理；

步骤93：对预处理后的关键帧图像数据进行行人检测和人脸识别，得到目标人员的人体坐标信息；

步骤94：将所述训练集数据对应的关键帧图像数据输入着装识别模型进行模型训练，得到训练结果；

步骤95：根据所述训练结果调整所述着装识别模型的参数；

步骤96：将所述测试集数据对应的关键帧图像数据输入所述着装识别模型对所述着装识别模型输出的结果进行验证，得到验证结果；

步骤97：根据所述验证结果再次调整所述着装识别模型的参数，得到训练后的着装识别模型。

本发明实施例中，为了保证所述着装识别模型的准确度，对所述着装识别模型进行深度神经网络的训练，基于NVIDIA的v100芯片，使用keras框架，将视频流数据进行抽帧处理和数据增强，然后经自研的行人检测算法完成行人的数据图像截取，共得到约2万张行人数据图像；将所述行人图像数据分成训练集、训练集标签、测试集和测试集标签，其中所述训练集与所述测试集的比例设置为8:2，也可根据实际情况自由设置；训练集作为上述步骤S4中模型的输入实现对模型的训练优化，测试集用来完成对模型效果的整体验证；同时在模型训练的过程中，采用反向传播算法和Adam优化算法,根据前向传播Loss值的大小,来进行迭代更新每一层的权重，采用early-stopping的策略，当模型的Loss值达到最小值时，保存训练模型；引入了算法模型的运行速率作为新的变量来同步衡量算法的好坏。

本发明实施例中，可选的，所述将所述训练集数据输入着装识别模型进行模型训练，得到训练结果，包括：

本发明实施例中，通过将视频流数据进行抽帧处理和数据增强，然后经自研的行人检测算法完成行人的数据图像截取，既保证算法精确度的，又保证算法的实时性，并在原有loss函数的基础上，引入了算法模型的运行速率作为新的变量来同步衡量算法的好坏。

请参考图10，本发明提供了一种着装特征识别装置，包括：

第一获取模块101，用于获取摄像头视频流数据；

第一数据预处理模块102，用于对所述摄像头视频流数据进行数据预处理，得到预处理后的关键帧图像数据；所述数据预处理包括：提取所述摄像头视频流数据的关键帧图像数据，并对所述关键帧图像数据进行对比度增强处理；

第一处理模块103，用于对预处理后的关键帧图像数据进行行人检测和人脸识别，得到目标人员的人体坐标信息；

第一着装识别模块104，用于将所述目标人员的人体坐标信息输入着装识别模型，输出目标人员的着装特征；

第一匹配模块105，用于将所述目标人员的着装特征与数据库中的着装特征进行特征匹配，得到匹配结果。

本发明实施例中，可选的，所述第一处理模块，包括：

本发明实施例中，可选的，所述第一着装识别模块，包括：

本发明实施例提供的网络侧设备能够实现图1的方法实施例中着装特征识别方法实现的各个过程，为避免重复，这里不再赘述。

请参考图11，本发明提供了一种着装特征识别模型的训练装置，包括：

第二处理模块111，用于获取摄像头视频流数据样本；将所述摄像头视频流数据样本按照预设比例分为训练集数据和测试集数据；

第二数据预处理数据112，用于对所述摄像头视频流数据样本进行数据预处理，得到预处理后的关键帧图像数据；所述数据预处理包括：提取所述摄像头视频流数据样本的关键帧图像数据，并对所述关键帧图像数据进行对比度增强处理；

第三处理模块113，用于对预处理后的关键帧图像数据进行行人检测和人脸识别，得到目标人员的人体坐标信息；

训练模块114，用于将所述训练集对应的关键帧图像数据数据输入着装识别模型进行模型训练，得到训练结果；

第一参数调整模块115，用于根据所述训练结果调整所述着装识别模型的参数；

验证模块116，用于将所述测试集数据对应的关键帧图像数据输入所述着装识别模型对所述着装识别模型输出的结果进行验证，得到验证结果；

第二参数调整模块117，用于根据所述验证结果再次调整所述着装识别模型的参数，得到训练后的着装识别模型。

本发明实施例提供的网络侧设备能够实现图9的方法实施例中着装特征识别模型的训练方法实现的各个过程，为避免重复，这里不再赘述。

请参考图4，本发明实施例还提供一种服务器120，包括处理器121，存储器122，存储在存储器122上并可在所述处理器121上运行的计算机程序，该计算机程序被处理器121执行时实现上述着装特征识别方法实施例及着装特征识别模型的训练方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现上述着装特征识别方法实施例及着装特征识别模型的训练方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者终端等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种着装特征识别方法，其特征在于，包括：

获取摄像头视频流数据；

对所述预处理后的关键帧图像数据进行行人检测和人脸识别，得到目标人员的人体坐标信息；

2.根据权利要求1所述的着装特征识别方法，其特征在于，所述对预处理后的关键帧图像数据进行行人检测和人脸识别，得到目标人员的人体坐标信息，包括：

对所述预处理后的关键帧图像数据进行行人检测，得到行人坐标信息；

对所述预处理后的关键帧图像数据进行人脸识别，得到至少一个目标人员的人脸坐标信息；

根据所述行人坐标信息和所述人脸坐标信息，进行重叠度计算，当所述重叠度满足预设阈值时，输出所述目标人员的人体坐标信息。

3.根据权利要求1所述的着装特征识别方法，其特征在于，所述将所述目标人员的人体坐标信息输入着装识别模型，输出目标人员的着装特征，包括：

4.根据权利要求3所述的着装特征识别模型的训练方法，其特征在于，

所述颜色空间包括以下至少一项：RGB颜色空间、YUV颜色空间、HSV颜色空间、YCbCr颜色空间和YDbDr颜色空间。

5.一种着装特征识别模型的训练方法，其特征在于，包括：

根据所述训练结果调整所述着装识别模型的参数；

6.根据权利要求5所述的着装特征识别模型的训练方法，其特征在于，所述将所述训练集数据输入着装识别模型进行模型训练，得到训练结果，包括：

7.根据权利要求6所述的着装特征识别模型的训练方法，其特征在于，

8.一种着装特征识别装置，其特征在于，包括：

第一获取模块，用于获取摄像头视频流数据；

9.一种着装特征识别模型的训练装置，其特征在于，包括：

10.一种服务器，其特征在于，包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现如权利要求1-4中任一项所述的着装特征识别方法的步骤，或者，所述程序被所述处理器执行时实现如权利要求5-7中任一项所述的着装特征识别模型的训练方法的步骤。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-4中任一项所述的着装特征识别方法的步骤，或者，所述程序被所述处理器执行时实现如权利要求5-7中任一项所述的着装特征识别模型的训练方法的步骤。