CN112906464A

CN112906464A - 行人检测识别方法、装置、设备及存储介质

Info

Publication number: CN112906464A
Application number: CN202110051361.9A
Authority: CN
Inventors: 李斯; 赵齐辉
Original assignee: Dongpu Software Co Ltd
Current assignee: Dongpu Software Co Ltd
Priority date: 2021-01-15
Filing date: 2021-01-15
Publication date: 2021-06-04

Abstract

本发明涉及物流技术领域，公开了一种行人检测识别方法、装置、设备及存储介质，用于提高分拨中心监控物流配送的安全性。行人检测识别方法包括：获取多张分拨中心监控图片数据；对多张分拨中心监控图片数据依次进行图片预处理并标注，得到样本图片数据集，按照预设比例对样本图片数据集进行划分，得到训练图片数据集、验证图片数据集和测试图片数据集；构建初始训练模型，并对初始训练模型引入预设的注意力机制，得到改进后的训练模型；根据训练图片数据集和验证图片数据集对改进后的训练模型进行模型训练，得到目标训练模型，并通过目标训练模型对测试图片数据集进行检测识别，得到识别结果，识别结果用于指示分拨中心是否存在异常闯入的行人。

Description

行人检测识别方法、装置、设备及存储介质

技术领域

本发明涉及物流技术领域，尤其涉及一种行人检测识别方法、装置、设备及存储介质。

背景技术

行人检测识别是利用计算机视觉技术判断图像或者视频序列中是否存在行人并给予精确定位。该技术可与行人跟踪，行人重识别等技术结合，应用于人工智能系统、智能视频监控和人体行为分析等领域。

分拨中心是物流行业运作的经济活动组织，也就是集加工、理货、送货等多种职能于一体的物流据点。分拨中心管理目前虽然具有全方位和全时段的摄像监控，但缺乏在在非工作时段内对异常闯入的行人进行检测识别和及时报警，导致在非工作时段内分拨中心存在行人检测识别的准确性低和物流配送安全性差的问题。

发明内容

本发明提供了一种行人检测识别方法、装置、设备及存储介质，用于提高分拨中心的监测区域中行人检测识别的准确性，以及提高分拨中心监控物流配送的安全性。

为实现上述目的，本发明第一方面提供了一种行人检测识别方法，包括：获取多张分拨中心监控图片数据，所述多张分拨中心监控图片数据包括有行人的图片和无行人的图片；对所述多张分拨中心监控图片数据依次进行图片预处理并标注，得到样本图片数据集，按照预设比例对所述样本图片数据集进行划分，得到训练图片数据集、验证图片数据集和测试图片数据集；构建初始训练模型，并对所述初始训练模型引入预设的注意力机制，得到改进后的训练模型；根据所述训练图片数据集和所述验证图片数据集对所述改进后的训练模型进行模型训练，得到目标训练模型，并通过所述目标训练模型对所述测试图片数据集进行检测识别，得到识别结果，所述识别结果用于指示分拨中心的监测区域中是否存在异常闯入的行人。

一种可行的实施方式中，所述对所述多张分拨中心监控图片数据依次进行图片预处理并标注，得到样本图片数据集，按照预设比例对所述样本图片数据集进行划分，得到训练图片数据集、验证图片数据集和测试图片数据集，包括：获取预设标准尺寸，并按照所述预设标准尺寸分别对所述多张分拨中心监控图片数据进行尺寸校正，得到多张校正后的图片数据；对所述多张校正后的图片数据依次进行降噪处理、色彩调整和数据增强处理，得到多张预处理后的图像数据；通过预设标注工具或预设标注模型对所述多张预处理后的图像数据进行图像标注，得到样本图片数据集，所述样本图片数据集中的每张图片采用可扩展标记语言标注文件表示行人位置信息；按照预设比例将所述样本图片数据集随机划分为互不重叠的训练图片数据集、验证图片数据集和测试图片数据集，所述预设比例为5:4:1。

一种可行的实施方式中，所述构建初始训练模型，并对所述初始训练模型引入预设的注意力机制，得到改进后的训练模型，包括：获取并部署yolo-v3模型文件，得到部署后的yolo-v3模型；基于预设的imagenet数据集对所述部署后的yolo-v3模型进行网络参数初始化，得到初始训练模型；对所述初始训练模型中的主干特征提取网络添加预设的注意力机制，得到改进后的训练模型，所述预设的注意力机制为通道注意力机制和/或空间注意力机制，所述改进后的训练模型为基于注意力机制的yolo-v3模型。

一种可行的实施方式中，所述根据所述训练图片数据集和所述验证图片数据集对所述改进后的训练模型进行模型训练，得到目标训练模型，并通过所述目标训练模型对所述测试图片数据集进行检测识别，得到识别结果，所述识别结果用于指示分拨中心的监测区域中是否存在异常闯入的行人，包括：对所述训练图片数据集、所述验证图片数据集和所述测试图片数据集分别进行标注文件格式转换，得到转换后的训练图片数据集、转换后的验证图片数据集和转换后的测试图片数据集；将所述转换后的训练图片数据集输入至所述基于注意力机制的yolo-v3模型，并根据所述预设训练参数、所述转换后的训练图片数据集和第一预设损失函数对所述基于注意力机制的yolo-v3模型进行模型参数调整，直到模型收敛时，得到训练后的yolo-v3模型，所述预设训练参数包括预设的训练次数和模型训练类别；将所述转换后的验证图片数据集输入至所述训练后的yolo-v3模型，并根据所述转换后的验证图片数据集和第二预设损失函数对所述训练后的yolo-v3模型进行模型验证和参数微调处理，直到模型收敛时，得到目标训练模型；将所述转换后的测试图片数据集输入至所述目标训练模型，通过所述目标训练模型对所述转换后的测试图片数据集进行检测识别，得到识别结果，所述识别结果用于指示分拨中心的监测区域中是否存在异常闯入的行人。

一种可行的实施方式中，在所述根据所述训练图片数据集和所述验证图片数据集对所述改进后的训练模型进行模型训练，得到目标训练模型，并通过所述目标训练模型对所述测试图片数据集进行检测识别，得到识别结果，所述识别结果用于指示分拨中心的监测区域中是否存在异常闯入的行人之后，所述行人检测识别方法还包括：判断所述识别结果是否满足预设参考结果；若所述识别结果满足预设参考结果，则停止训练，并将所述目标训练模型设置为最终训练模型；若所述识别结果不满足预设参考结果，则将所述测试图片数据集中识别结果错误的测试图片数据添加至所述训练图片数据集中，得到更新后的训练图片数据集，并根据所述更新后的训练图片数据集对所述目标训练模型进行迭代训练，直到模型收敛时，得到最终训练模型。

一种可行的实施方式中，在所述若所述识别结果不满足预设参考结果，则将所述测试图片数据集中识别结果错误的测试图片数据添加至所述训练图片数据集中，得到更新后的训练图片数据集，并根据所述更新后的训练图片数据集对所述目标训练模型进行迭代训练，直到模型收敛时，得到最终训练模型之后，所述行人检测识别方法还包括：按照预设模型文件类型将所述最终训练模型转换为目标版本的模型文件；对所述目标版本的模型文件设置模型发布消息，将所述模型发布消息更新至预设消息队列中，并通过所述预设消息队列对所述目标版本的模型文件进行线上部署或模型导出操作。

一种可行的实施方式中，所述判断所述识别结果是否满足预设参考结果，包括：根据所述识别结果确定目标训练模型的准确率；若所述目标训练模型的准确率大于预设阈值，则确定所述识别结果满足预设参考结果；若所述目标训练模型的准确率小于或等于预设阈值，则确定所述识别结果不满足预设参考结果。

本发明第二方面提供了一种行人检测识别装置，包括：获取模块，用于获取多张分拨中心监控图片数据，所述多张分拨中心监控图片数据包括有行人的图片和无行人的图片；划分模块，用于对所述多张分拨中心监控图片数据依次进行图片预处理并标注，得到样本图片数据集，按照预设比例对所述样本图片数据集进行划分，得到训练图片数据集、验证图片数据集和测试图片数据集；改进模块，用于构建初始训练模型，并对所述初始训练模型引入预设的注意力机制，得到改进后的训练模型；识别模块，用于根据所述训练图片数据集和所述验证图片数据集对所述改进后的训练模型进行模型训练，得到目标训练模型，并通过所述目标训练模型对所述测试图片数据集进行检测识别，得到识别结果，所述识别结果用于指示分拨中心的监测区域中是否存在异常闯入的行人。

一种可行的实施方式中，所述划分模块具体用于：获取预设标准尺寸，并按照所述预设标准尺寸分别对所述多张分拨中心监控图片数据进行尺寸校正，得到多张校正后的图片数据；对所述多张校正后的图片数据依次进行降噪处理、色彩调整和数据增强处理，得到多张预处理后的图像数据；通过预设标注工具或预设标注模型对所述多张预处理后的图像数据进行图像标注，得到样本图片数据集，所述样本图片数据集中的每张图片采用可扩展标记语言标注文件表示行人位置信息；按照预设比例将所述样本图片数据集随机划分为互不重叠的训练图片数据集、验证图片数据集和测试图片数据集，所述预设比例为5:4:1。

一种可行的实施方式中，所述改进模块具体用于：获取并部署yolo-v3模型文件，得到部署后的yolo-v3模型；基于预设的imagenet数据集对所述部署后的yolo-v3模型进行网络参数初始化，得到初始训练模型；对所述初始训练模型中的主干特征提取网络添加预设的注意力机制，得到改进后的训练模型，所述预设的注意力机制为通道注意力机制和/或空间注意力机制，所述改进后的训练模型为基于注意力机制的yolo-v3模型。

一种可行的实施方式中，所述识别模块具体用于：对所述训练图片数据集、所述验证图片数据集和所述测试图片数据集分别进行标注文件格式转换，得到转换后的训练图片数据集、转换后的验证图片数据集和转换后的测试图片数据集；将所述转换后的训练图片数据集输入至所述基于注意力机制的yolo-v3模型，并根据所述预设训练参数、所述转换后的训练图片数据集和第一预设损失函数对所述基于注意力机制的yolo-v3模型进行模型参数调整，直到模型收敛时，得到训练后的yolo-v3模型，所述预设训练参数包括预设的训练次数和模型训练类别；将所述转换后的验证图片数据集输入至所述训练后的yolo-v3模型，并根据所述转换后的验证图片数据集和第二预设损失函数对所述训练后的yolo-v3模型进行模型验证和参数微调处理，直到模型收敛时，得到目标训练模型；将所述转换后的测试图片数据集输入至所述目标训练模型，通过所述目标训练模型对所述转换后的测试图片数据集进行检测识别，得到识别结果，所述识别结果用于指示分拨中心的监测区域中是否存在异常闯入的行人。

一种可行的实施方式中，所述行人检测识别装置还包括：判断模块，用于判断所述识别结果是否满足预设参考结果；设置模块，若所述识别结果满足预设参考结果，则用于停止训练，并将所述目标训练模型设置为最终训练模型；迭代训练模块，若所述识别结果不满足预设参考结果，则用于将所述测试图片数据集中识别结果错误的测试图片数据添加至所述训练图片数据集中，得到更新后的训练图片数据集，并根据所述更新后的训练图片数据集对所述目标训练模型进行迭代训练，直到模型收敛时，得到最终训练模型。

一种可行的实施方式中，所述行人检测识别装置还包括：转换模块，用于按照预设模型文件类型将所述最终训练模型转换为目标版本的模型文件；发布模块，用于对所述目标版本的模型文件设置模型发布消息，将所述模型发布消息更新至预设消息队列中，并通过所述预设消息队列对所述目标版本的模型文件进行线上部署或模型导出操作。

一种可行的实施方式中，所述判断模块具体用于：根据所述识别结果确定目标训练模型的准确率；若所述目标训练模型的准确率大于预设阈值，则确定所述识别结果满足预设参考结果；若所述目标训练模型的准确率小于或等于预设阈值，则确定所述识别结果不满足预设参考结果。

本发明第三方面提供了一种行人检测识别设备，包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；所述至少一个处理器调用所述存储器中的所述指令，以使得所述行人检测识别设备执行上述的行人检测识别方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的行人检测识别方法。

本发明提供的技术方案中，获取多张分拨中心监控图片数据，所述多张分拨中心监控图片数据包括有行人的图片和无行人的图片；对所述多张分拨中心监控图片数据依次进行图片预处理并标注，得到样本图片数据集，按照预设比例对所述样本图片数据集进行划分，得到训练图片数据集、验证图片数据集和测试图片数据集；构建初始训练模型，并对所述初始训练模型引入预设的注意力机制，得到改进后的训练模型；根据所述训练图片数据集和所述验证图片数据集对所述改进后的训练模型进行模型训练，得到目标训练模型，并通过所述目标训练模型对所述测试图片数据集进行检测识别，得到识别结果，所述识别结果用于指示分拨中心的监测区域中是否存在异常闯入的行人。本发明实施例中，通过对多张分拨中心监控图片数据依次进行图片预处理、标注和随机比例划分，得到训练图片数据集、验证图片数据集和测试图片数据集；基于训练图片数据集和验证图片数据集对增加预设的注意力机制的训练模型进行训练和验证后，得到目标训练模型，并通过目标训练模型对测试图片数据集进行行人检测识别，得到识别结果，提高了分拨中心的监测区域中行人检测识别的准确性，以及提高了分拨中心监控物流配送的安全性。

附图说明

图1为本发明实施例中行人检测识别方法的一个实施例示意图；

图2为本发明实施例中行人检测识别方法的另一个实施例示意图；

图3为本发明实施例中行人检测识别装置的一个实施例示意图；

图4为本发明实施例中行人检测识别装置的另一个实施例示意图；

图5为本发明实施例中行人检测识别设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种行人检测识别方法、装置、设备及存储介质，用于通过改进的训练模型对测试图片数据集进行行人检测识别，得到识别结果，提高分拨中心监控物流配送的安全性。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中行人检测识别方法的一个实施例包括：

101、获取多张分拨中心监控图片数据，多张分拨中心监控图片数据包括有行人的图片和无行人的图片。

其中，分拨中心是物流行业运作的经济活动组织，也就是集加工、理货、送货等多种职能于一体的物流据点。服务器可以对一个分拨中心(也就是，目标分拨中心)进行监控，也可以对多个分拨中心进行监控，并从至少一个分拨中心中按照预设数量采集多张分拨中心监控图片，多张分拨中心监控图片包括有行人的图片和无行人的图片，无行人的图片用于指示该分拨中心监控图片仅具有分拨中心的环境背景，其中，预设数量为正整数。

具体的，服务器使用预设的摄像头从至少一个分拨中心中获取多个监控视频流；服务器按照预设频率从多个监控视频流中采集多帧视频图片数据；服务器从多帧视频图片数据中删除图片的尺寸小于预设尺寸的图片，得到第一视频图片数据集；服务器从第一视频图片数据集中筛选图片的清晰度大于或等于预设清晰度阈值的第二视频图片数据集；服务器从第二视频图片数据集中筛选图片的灰度值大于或等于预设灰度值的第三视频图片数据集，其中，图片灰度值用于指示图片的亮暗程度；服务器将第三视频图片数据集设置为多张分拨中心监控图片数据，并对多张分拨中心监控图片数据进行存储。进一步地，服务器可以将多张分拨中心监控图片数据存储至预设主数据库中，其中，预设主数据库与预设从数据库之间能够实现读写分离，并进行图片数据同步，提高了图片数据读写速度。

可以理解的是，本发明的执行主体可以为行人检测识别装置，还可以是终端或者服务器，具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

102、对多张分拨中心监控图片数据依次进行图片预处理并标注，得到样本图片数据集，按照预设比例对样本图片数据集进行划分，得到训练图片数据集、验证图片数据集和测试图片数据集。

具体的，服务器接收图片预处理请求，服务器根据图片预处理请求分别对多张分拨中心监控图片数据进行图片预处理，得到多张预处理后的图片数据；服务器接收图片标注请求，并根据图片标注请求，向终端发送待标注图片数据和标注工具文件，以使得终端加载标注工具文件，得到标注工具页面，标注工具页面中包括用于对待标注图片数据进行标注的标注工具，其中，待标注图片数据为多张预处理后的图片数据中的至少一张图片数据。服务器接收终端通过标注工具页面发送的对待标注图片数据进行标注的操作请求，并根据操作请求对待标注图片数据进行标注操作，得到多张标注后的图片数据，服务器将多张标注后的图片数据设置为样本图片数据集；服务器获取随机数值，并根据随机数值设置预设比例，服务器根据预设比例对对样本图片数据集进行划分，得到训练图片数据集、测试图片数据集和验证图片数据集。其中，预设比例可以为6:3:1，也可以为5:4:1，具体此处不做限定。

需要说明的是，训练图片数据集和验证图片数据集用于训练模型，测试图片数据集用于对训练的模型进行测试。服务器调用图片标注工具(例如，标注工具labelimg)对多张分拨中心监控图片数据中的每张图片进行标注，还可以得到多个标注结果文件，并将多个标注结果文件与每张原始的分拨中心监控图片数据分别存放到不同的文件夹中，以确保每张原分拨中心监控图片数据都有对应的标注结果文件，从而构建出标注数据集。

103、构建初始训练模型，并对初始训练模型引入预设的注意力机制，得到改进后的训练模型。

具体的，服务器将yolo-v3模型设置为初始训练模型；服务器对初始训练模型中的特征提取网络中添加通道注意力机制和空间注意力机制构建的混合注意力机制，得到yolo-v3-注意力模型，服务器将yolo-v3-注意力模型设置为改进后的训练模型。

需要说明的是，注意力机制是指有选择性的处理信号，是包括人类在内的很多生物在处理外界信号时的策略机制。以使得改进后的训练模型对于目标对象(也就是行人)的检测位置更加准确。

104、根据训练图片数据集和验证图片数据集对改进后的训练模型进行模型训练，得到目标训练模型，并通过目标训练模型对测试图片数据集进行检测识别，得到识别结果，识别结果用于指示分拨中心的监测区域中是否存在异常闯入的行人。

具体的，服务器确定利用K折交叉验证算法分别对训练图片数据集和验证图片数据集对应划分，得到K组训练集(例如，S1、S2、……、Sk)和K组验证集(例如，V1、V2、……、Vk)，服务器根据每组中的训练集对改进后的训练模型进行模型训练，得到K个训练后的预测模型，服务器对应组中的验证集对每个训练后的预测模型进行验证，直到验证误差小于预设阈值时，服务器获取验证通过的预测模型，并设置验证通过的预测模型为目标训练模型；服务器通过目标训练模型对测试图片数据集进行检测识别，得到识别结果，识别结果用于指示分拨中心的监测区域中是否存在异常闯入的行人。例如，若识别结果为0.85，服务器确定分拨中心的监测区域中存在异常闯入的行人；若识别结果为0.20，服务器确定分拨中心的监测区域中不存在异常闯入的行人。进一步地，当服务器确定分拨中心的监测区域中存在异常闯入的行人时，服务器还可以按照预设方式进行预警，其中，预设方式包括邮件方式、短信方式或者触发预警装置，具体此处不做限定。

本发明实施例中，通过对多张分拨中心监控图片数据依次进行图片预处理、标注和随机比例划分，得到训练图片数据集、验证图片数据集和测试图片数据集；基于训练图片数据集和验证图片数据集对增加预设的注意力机制的训练模型进行训练和验证后，得到目标训练模型，并通过目标训练模型对测试图片数据集进行行人检测识别，得到识别结果，提高了分拨中心的监测区域中行人检测识别的准确性，以及提高了分拨中心监控物流配送的安全性。

请参阅图2，本发明实施例中行人检测识别方法的另一个实施例包括：

201、获取多张分拨中心监控图片数据，多张分拨中心监控图片数据包括有行人的图片和无行人的图片。

该步骤201与步骤101的执行过程相似，具体此处不再赘述。

202、对多张分拨中心监控图片数据依次进行图片预处理并标注，得到样本图片数据集，按照预设比例对样本图片数据集进行划分，得到训练图片数据集、验证图片数据集和测试图片数据集。

其中，多张分拨中心监控图片数据的数量可以为1000张，也可以为2000张，具体此处不做限定。服务器可以采用VOC2007数据集的方式存储多张分拨中心监控图片数据。例如，服务器在预设文件目录(例如/var/www)下创建文件目录voc2007，并在voc2007目录下分别创建多个子文件目录，多个子文件目录包括Annotations、ImageSets和JPEGImages，其中，JPEGImages用于存储样本图片数据集，Annotations用于存储与样本图片数据集分别对应的标注文件集，ImageSets中的主目录Main用于存放训练图片数据集、验证图片数据集和测试图片数据集分别对应的文件名列表。

需要说明的是，服务器还需要对多张分拨中心监控图片数据进行图像处理后，对包含行人的图片采用矩形框进行标注，以记录标注的行人的位置信息。可选的，服务器获取预设标准尺寸，并按照预设标准尺寸分别对多张分拨中心监控图片进行尺寸校正，得到多张校正后的图片数据，其中，预设标准尺寸可以为416*416，也可以为其他尺寸，具体此处不做限定，尺寸校正可以包括旋转变换、反射变换、缩放变换、平移变换和尺度变换中的至少一种；服务器对多张校正后的图片数据依次进行降噪处理、色彩调整和数据增强处理，得到多张预处理后的图像数据，其中，色彩调整可以包括对比度变换、饱和度变换和亮度变换等，具体此处不做限定；服务器通过预设标注工具或预设标注模型对多张预处理后的图像数据进行图像标注，得到样本图片数据集，样本图片数据集中的每张图片采用可扩展标记语言标注文件表示行人位置信息；服务器按照预设比例将样本图片数据集随机划分为互不重叠的训练图片数据集、验证图片数据集和测试图片数据集，预设比例为5:4:1，预设比例还可以为其他数值，具体此处不做限定。

进一步地，服务器按照预设标准尺寸设置目标坐标系，并在目标坐标系下确定每张分拨中心监控图片数据的各顶点的实际坐标和标准坐标；服务器根据各顶点的实际坐标和标准坐标计算畸变校正矩阵；服务器基于畸变校正矩阵对每张分拨中心监控图片数据进行尺寸校正处理，得到多张校正后的图片数据。

203、构建初始训练模型，并对初始训练模型引入预设的注意力机制，得到改进后的训练模型。

可以理解的是，初始训练模型可包括循环神经网络，也可包括卷积神经网络，具体此处不做限定。服务器在初始训练模型中引入预设的注意力机制，能够提高神经网络处理信息的能力。

可选的，服务器获取并部署yolo-v3模型文件，得到部署后的yolo-v3模型，其中，yolo-v3模型文件的文件类型可以为.pth，也可以为其他文件类型，具体此处不做限定，例如，yolo-v3模型文件为yolov3_202021221.pth，服务器在深度学习张量库pytorch框架下部署yolov3_202021221.pth，得到部署后的yolo-v3模型；服务器基于预设的imagenet数据集对部署后的yolo-v3模型进行网络参数初始化，得到初始训练模型；服务器对初始训练模型中的主干特征提取网络添加预设的注意力机制以实现网络模型的构建，得到改进后的训练模型，预设的注意力机制为通道注意力机制和/或空间注意力机制，改进后的训练模型为基于注意力机制的yolo-v3模型，以进行图像特征提取。其中，主干特征提取网络为深度学习框架darknet5特征提取网络，darknet5特征提取网络采用全卷积层，具有残差连接特性。

需要说明的是，服务器对初始训练模型中的主干特征提取网络引入通道注意力机制和/或空间注意力机制，其中，通道注意力机制能够在通道维度上对模型提取的特征进行池化处理(包括全局平均池化层和全局最大池化层)和加权处理等，提高了对行人的检测识别性能。而空间注意力机制则增强了对行人的位置信息定位，以使得服务器基于注意力机制的yolo-v3模型能够降低行人误检测概率，提高行人检测的准确率。

204、根据训练图片数据集和验证图片数据集对改进后的训练模型进行模型训练，得到目标训练模型，并通过目标训练模型对测试图片数据集进行检测识别，得到识别结果，识别结果用于指示分拨中心的监测区域中是否存在异常闯入的行人。

需要说明的是，训练图片数据集用于训练改进后的训练模型内参数的数据集；验证图片数据集是用于在训练过程中检验模型的状态、收敛情况以及调整超参数。并在训练过程中监控训练模型是否发生过拟合；测试图片数据集是用于评价目标训练模型的泛化能力，也就是服务器确定目标训练模型是否为最终训练模型。并且，训练图片数据集、验证图片数据集和测试图片数据集均可以按照实际应用场景分别设置为多批次的数据集。

可选的，服务器对训练图片数据集、验证图片数据集和测试图片数据集分别进行标注文件格式转换，得到转换后的训练图片数据集、转换后的验证图片数据集和转换后的测试图片数据集，也就是，服务器在预设的文件目录ImageSets/Main下根据已生成的标注文件(可扩展标记语言xml的文件格式)，制作VOC2007数据集中的训练图片数据集和验证图片数据集的合并数据集合trainval.txt、训练图片数据集train.txt、测试图片数据集test.txt和验证图片数据集val.txt，其中，trainval.txt、test.txt、train.txt和val.txt的比例可分别为样本图片数据集的50％、50％、25％和25％，.txt文件中的内容包括样本图片数据集中各样本图片的名字，并且不包含图片后缀名，例如.txt文件中的内容为000002；服务器将转换后的训练图片数据集输入至基于注意力机制的yolo-v3模型，并根据预设训练参数、转换后的训练图片数据集和第一预设损失函数对基于注意力机制的yolo-v3模型进行模型参数调整，直到模型收敛时，得到训练后的yolo-v3模型，预设训练参数包括预设的训练次数和模型训练类别，也就是，服务器确定第一预设损失函数的函数值下降到第一预设阈值以下或者达到预设的训练次数时，服务器停止训练，例如，第一预设阈值为0.1，服务器可以设置每10张转换后的训练图片数据更新一次模型参数，也可以设置每64张转换后的训练图片数据更新一次模型参数，具体此处不做限定；服务器将转换后的验证图片数据集输入至训练后的yolo-v3模型，并根据转换后的验证图片数据集和第二预设损失函数对训练后的yolo-v3模型进行模型验证和参数微调处理，直到模型收敛时，得到目标训练模型，第二预设损失函数对应的第二预设阈值可以为0.05，模型参数可以包括学习率等参数；服务器将转换后的测试图片数据集输入至目标训练模型，通过目标训练模型进行检测识别，得到识别结果，识别结果用于指示分拨中心的监测区域中是否存在异常闯入的行人。其中，识别结果可以采用1或0分别表示分拨中心的监测区域中存在或不存在异常闯入的行人，具体此处不做限定。

205、判断识别结果是否满足预设参考结果。

其中，预设参考结果用于指示预设的测试图片数据集的检测结果。可选的，服务器根据识别结果确定目标训练模型的准确率；若目标训练模型的准确率大于预设阈值，则服务器确定识别结果满足预设参考结果；若目标训练模型的准确率小于或等于预设阈值，则服务器确定识别结果不满足预设参考结果。例如，预设阈值为0.80，若目标训练模型的准确率0.95，则服务器确定识别结果满足预设参考结果，服务器执行步骤206，若目标训练模型的准确率0.60，则服务器确定识别结果不满足预设参考结果，服务器执行步骤207。

206、若识别结果满足预设参考结果，则停止训练，并将目标训练模型设置为最终训练模型。

也就是，若识别结果满足预设参考结果，则服务器停止训练，服务器将目标训练模型设置为最终训练模型，服务器确定目标训练模型满足行人检测识别的场景需求，能够应用于分拣中心的行人检测识别。

207、若识别结果不满足预设参考结果，则将测试图片数据集中识别结果错误的测试图片数据添加至训练图片数据集中，得到更新后的训练图片数据集，并根据更新后的训练图片数据集对目标训练模型进行迭代训练，直到模型收敛时，得到最终训练模型。

也就是，若识别结果不满足预设参考结果，则服务器对训练图片数据集的数量进行扩张，服务器将测试图片数据集中识别结果错误的测试图片数据添加至训练图片数据集中，同时修改标注文件trainval.txt和test.txt，并根据更新后的训练图片数据集train.txt和更新后的测试图片数据集test.txt对目标训练模型进行迭代训练，直到模型收敛时，得到最终训练模型。

进一步地，服务器按照预设模型文件类型将最终训练模型转换为目标版本的模型文件，例如，目标版本的模型文件为target_module.pth，也可以为其他类型的模型文件，具体此处不做限定；服务器对目标版本的模型文件设置模型发布消息，将模型发布消息更新至预设消息队列中，并通过预设消息队列对目标版本的模型文件进行线上部署或模型导出操作，提高了最终训练模型版本发布和导出效率。

上面对本发明实施例中行人检测识别方法进行了描述，下面对本发明实施例中行人检测识别装置进行描述，请参阅图3，本发明实施例中行人检测识别装置一个实施例包括：

获取模块301，用于获取多张分拨中心监控图片数据，多张分拨中心监控图片数据包括有行人的图片和无行人的图片；

划分模块302，用于对多张分拨中心监控图片数据依次进行图片预处理并标注，得到样本图片数据集，按照预设比例对样本图片数据集进行划分，得到训练图片数据集、验证图片数据集和测试图片数据集；

改进模块303，用于构建初始训练模型，并对初始训练模型引入预设的注意力机制，得到改进后的训练模型；

识别模块304，用于根据训练图片数据集和验证图片数据集对改进后的训练模型进行模型训练，得到目标训练模型，并通过目标训练模型对测试图片数据集进行检测识别，得到识别结果，识别结果用于指示分拨中心的监测区域中是否存在异常闯入的行人。

请参阅图4，本发明实施例中行人检测识别装置的另一个实施例包括：

可选的，划分模块302还可以具体用于：

获取预设标准尺寸，并按照预设标准尺寸分别对多张分拨中心监控图片进行尺寸校正，得到多张校正后的图片数据；

对多张校正后的图片数据依次进行降噪处理、色彩调整和数据增强处理，得到多张预处理后的图像数据；

通过预设标注工具或预设标注模型对多张预处理后的图像数据进行图像标注，得到样本图片数据集，样本图片数据集中的每张图片采用可扩展标记语言标注文件表示行人位置信息；

按照预设比例将样本图片数据集随机划分为互不重叠的训练图片数据集、验证图片数据集和测试图片数据集，预设比例为5:4:1。

可选的，改进模块303还可以具体用于：

获取并部署yolo-v3模型文件，得到部署后的yolo-v3模型；

基于预设的imagenet数据集对部署后的yolo-v3模型进行网络参数初始化，得到初始训练模型；

对初始训练模型中的主干特征提取网络添加预设的注意力机制，得到改进后的训练模型，预设的注意力机制为通道注意力机制和/或空间注意力机制，改进后的训练模型为基于注意力机制的yolo-v3模型。

可选的，识别模块304还可以具体用于：

对训练图片数据集、验证图片数据集和测试图片数据集分别进行标注文件格式转换，得到转换后的训练图片数据集、转换后的验证图片数据集和转换后的测试图片数据集；

将转换后的训练图片数据集输入至基于注意力机制的yolo-v3模型，并根据预设训练参数、转换后的训练图片数据集和第一预设损失函数对基于注意力机制的yolo-v3模型进行模型参数调整，直到模型收敛时，得到训练后的yolo-v3模型，预设训练参数包括预设的训练次数和模型训练类别；

将转换后的验证图片数据集输入至训练后的yolo-v3模型，并根据转换后的验证图片数据集和第二预设损失函数对训练后的yolo-v3模型进行模型验证和参数微调处理，直到模型收敛时，得到目标训练模型，目标训练模型用于检测识别分拨中心的监测区域中是否存在异常闯入的行人；

将转换后的测试图片数据集输入至目标训练模型，通过目标训练模型对转换后的测试图片数据集进行检测识别，得到识别结果，识别结果用于指示分拨中心的监测区域中是否存在异常闯入的行人。

可选的，行人检测识别装置还包括：

判断模块305，用于判断识别结果是否满足预设参考结果；

设置模块306，若识别结果满足预设参考结果，则用于停止训练，并将目标训练模型设置为最终训练模型；

迭代训练模块307，若识别结果不满足预设参考结果，则用于将测试图片数据集中识别结果错误的测试图片数据添加至训练图片数据集中，得到更新后的训练图片数据集，并根据更新后的训练图片数据集对目标训练模型进行迭代训练，直到模型收敛时，得到最终训练模型。

可选的，行人检测识别装置还包括：

转换模块308，用于按照预设模型文件类型将最终训练模型转换为目标版本的模型文件；

发布模块309，用于对目标版本的模型文件设置模型发布消息，将模型发布消息更新至预设消息队列中，并通过预设消息队列对目标版本的模型文件进行线上部署或模型导出操作。

可选的，判断模块305还可以具体用于：

根据识别结果确定目标训练模型的准确率；

若目标训练模型的准确率大于预设阈值，则确定识别结果满足预设参考结果；

若目标训练模型的准确率小于或等于预设阈值，则确定识别结果不满足预设参考结果。

上面图3和图4从模块化的角度对本发明实施例中的行人检测识别装置进行详细描述，下面从硬件处理的角度对本发明实施例中行人检测识别设备进行详细描述。

图5是本发明实施例提供的一种行人检测识别设备的结构示意图，该行人检测识别设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)510(例如，一个或一个以上处理器)和存储器520，一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对行人检测识别设备500中的一系列指令操作。更进一步地，处理器510可以设置为与存储介质530通信，在行人检测识别设备500上执行存储介质530中的一系列指令操作。

行人检测识别设备500还可以包括一个或一个以上电源540，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口560，和/或，一个或一个以上操作系统531，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图5示出的行人检测识别设备结构并不构成对行人检测识别设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述行人检测识别方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种行人检测识别方法，其特征在于，所述行人检测识别方法包括：

获取多张分拨中心监控图片数据，所述多张分拨中心监控图片数据包括有行人的图片和无行人的图片；

对所述多张分拨中心监控图片数据依次进行图片预处理并标注，得到样本图片数据集，按照预设比例对所述样本图片数据集进行划分，得到训练图片数据集、验证图片数据集和测试图片数据集；

构建初始训练模型，并对所述初始训练模型引入预设的注意力机制，得到改进后的训练模型；

根据所述训练图片数据集和所述验证图片数据集对所述改进后的训练模型进行模型训练，得到目标训练模型，并通过所述目标训练模型对所述测试图片数据集进行检测识别，得到识别结果，所述识别结果用于指示分拨中心的监测区域中是否存在异常闯入的行人。

2.根据权利要求1所述的方法，其特征在于，所述对所述多张分拨中心监控图片数据依次进行图片预处理并标注，得到样本图片数据集，按照预设比例对所述样本图片数据集进行划分，得到训练图片数据集、验证图片数据集和测试图片数据集，包括：

获取预设标准尺寸，并按照所述预设标准尺寸分别对所述多张分拨中心监控图片数据进行尺寸校正，得到多张校正后的图片数据；

对所述多张校正后的图片数据依次进行降噪处理、色彩调整和数据增强处理，得到多张预处理后的图像数据；

通过预设标注工具或预设标注模型对所述多张预处理后的图像数据进行图像标注，得到样本图片数据集，所述样本图片数据集中的每张图片采用可扩展标记语言标注文件表示行人位置信息；

按照预设比例将所述样本图片数据集随机划分为互不重叠的训练图片数据集、验证图片数据集和测试图片数据集，所述预设比例为5:4:1。

3.根据权利要求1所述的行人检测识别方法，其特征在于，所述构建初始训练模型，并对所述初始训练模型引入预设的注意力机制，得到改进后的训练模型，包括：

获取并部署yolo-v3模型文件，得到部署后的yolo-v3模型；

基于预设的imagenet数据集对所述部署后的yolo-v3模型进行网络参数初始化，得到初始训练模型；

对所述初始训练模型中的主干特征提取网络添加预设的注意力机制，得到改进后的训练模型，所述预设的注意力机制为通道注意力机制和/或空间注意力机制，所述改进后的训练模型为基于注意力机制的yolo-v3模型。

4.根据权利要求3所述的行人检测识别方法，其特征在于，所述根据所述训练图片数据集和所述验证图片数据集对所述改进后的训练模型进行模型训练，得到目标训练模型，并通过所述目标训练模型对所述测试图片数据集进行检测识别，得到识别结果，所述识别结果用于指示分拨中心的监测区域中是否存在异常闯入的行人，包括：

对所述训练图片数据集、所述验证图片数据集和所述测试图片数据集分别进行标注文件格式转换，得到转换后的训练图片数据集、转换后的验证图片数据集和转换后的测试图片数据集；

将所述转换后的训练图片数据集输入至所述基于注意力机制的yolo-v3模型，并根据所述预设训练参数、所述转换后的训练图片数据集和第一预设损失函数对所述基于注意力机制的yolo-v3模型进行模型参数调整，直到模型收敛时，得到训练后的yolo-v3模型，所述预设训练参数包括预设的训练次数和模型训练类别；

将所述转换后的验证图片数据集输入至所述训练后的yolo-v3模型，并根据所述转换后的验证图片数据集和第二预设损失函数对所述训练后的yolo-v3模型进行模型验证和参数微调处理，直到模型收敛时，得到目标训练模型；

将所述转换后的测试图片数据集输入至所述目标训练模型，通过所述目标训练模型对所述转换后的测试图片数据集进行检测识别，得到识别结果，所述识别结果用于指示分拨中心的监测区域中是否存在异常闯入的行人。

5.根据权利要求1-4中任意一项所述的行人检测识别方法，其特征在于，在所述根据所述训练图片数据集和所述验证图片数据集对所述改进后的训练模型进行模型训练，得到目标训练模型，并通过所述目标训练模型对所述测试图片数据集进行检测识别，得到识别结果，所述识别结果用于指示分拨中心的监测区域中是否存在异常闯入的行人之后，所述行人检测识别方法还包括：

判断所述识别结果是否满足预设参考结果；

若所述识别结果满足预设参考结果，则停止训练，并将所述目标训练模型设置为最终训练模型；

若所述识别结果不满足预设参考结果，则将所述测试图片数据集中识别结果错误的测试图片数据添加至所述训练图片数据集中，得到更新后的训练图片数据集，并根据所述更新后的训练图片数据集对所述目标训练模型进行迭代训练，直到模型收敛时，得到最终训练模型。

6.根据权利要求5所述的行人检测识别方法，其特征在于，在所述若所述识别结果不满足预设参考结果，则将所述测试图片数据集中识别结果错误的测试图片数据添加至所述训练图片数据集中，得到更新后的训练图片数据集，并根据所述更新后的训练图片数据集对所述目标训练模型进行迭代训练，直到模型收敛时，得到最终训练模型之后，所述行人检测识别方法还包括：

按照预设模型文件类型将所述最终训练模型转换为目标版本的模型文件；

对所述目标版本的模型文件设置模型发布消息，将所述模型发布消息更新至预设消息队列中，并通过所述预设消息队列对所述目标版本的模型文件进行线上部署或模型导出操作。

7.根据权利要求5所述的行人检测识别方法，其特征在于，所述判断所述识别结果是否满足预设参考结果，包括：

根据所述识别结果确定目标训练模型的准确率；

若所述目标训练模型的准确率大于预设阈值，则确定所述识别结果满足预设参考结果；

若所述目标训练模型的准确率小于或等于预设阈值，则确定所述识别结果不满足预设参考结果。

8.一种行人检测识别装置，其特征在于，所述行人检测识别装置包括：

获取模块，用于获取多张分拨中心监控图片数据，所述多张分拨中心监控图片数据包括有行人的图片和无行人的图片；

划分模块，用于对所述多张分拨中心监控图片数据依次进行图片预处理并标注，得到样本图片数据集，按照预设比例对所述样本图片数据集进行划分，得到训练图片数据集、验证图片数据集和测试图片数据集；

改进模块，用于构建初始训练模型，并对所述初始训练模型引入预设的注意力机制，得到改进后的训练模型；

识别模块，用于根据所述训练图片数据集和所述验证图片数据集对所述改进后的训练模型进行模型训练，得到目标训练模型，并通过所述目标训练模型对所述测试图片数据集进行检测识别，得到识别结果，所述识别结果用于指示分拨中心的监测区域中是否存在异常闯入的行人。

9.一种行人检测识别设备，其特征在于，所述行人检测识别设备包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述行人检测识别设备执行如权利要求1-7中任意一项所述的行人检测识别方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任意一项所述的行人检测识别方法。