CN110188690B

CN110188690B - 一种基于无人机的智能视觉分析系统、智能视觉分析系统及方法

Info

Publication number: CN110188690B
Application number: CN201910464019.4A
Authority: CN
Inventors: 胥志伟; 石志君; 张瑜; 王胜科; 曹源
Original assignee: Shandong Weiran Intelligent Technology Co ltd
Current assignee: Shandong Weiran Intelligent Technology Co.,Ltd.
Priority date: 2019-05-30
Filing date: 2019-05-30
Publication date: 2022-02-08
Anticipated expiration: 2039-05-30
Also published as: CN110188690A

Abstract

本发明涉及一种智能视觉分析系统，包括：视频获取模块、目标检测模块和行人跟踪计数模块；视频获取模块用于获取行人的视频数据，目标检测模块对视频数据进行行人检测，输出检测结果到行人跟踪计数模块，行人跟踪计数模块关联每一帧图像的检测结果，获得行人的轨迹信息，通过计算轨迹的数量统计人数。本发明的系统可以自动地统计出某一区域内行人的数量，大大减少人力成本，同时提高了计数的准确度和效率。本发明还涉及一种基于无人机的智能视觉分析系统、一种智能视觉分析方法。

Description

一种基于无人机的智能视觉分析系统、智能视觉分析系统及方法

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种基于无人机的智能视觉分析系统、智能视觉分析系统及方法。

背景技术

人流量统计是安防监控领域一项重要的任务，人流量过大极易引发踩踏等伤亡事故的发生，对某一区域进行实时的人数统计可以帮助我们及时了解该区域的人员密度，从而采取适当的措施预防各类危险事件的发生。

目前，仅仅通过固定摄像头，依靠人去完成某一区域的人数统计极其耗费人力成本，并且可计数范围小，效率和精度低，远远达不到应用的要求。

随着计算机视觉与无人机技术的发展，计算机视觉算法能够替代人工进行人数统计，如何利用计算机视觉算法进行人流量的统计，是目前亟待解决的问题。

发明内容

为解决上述现有技术中的不足，本发明的目的在于提供一种可用于人流量统计的智能视觉分析系统及方法。

本发明的技术方案是这样实现的：

根据本发明的第一方面，公开了一种智能视觉分析系统。

在一些可选实施例中，一种智能视觉分析系统，包括：视频获取模块、目标检测模块和行人跟踪计数模块；视频获取模块用于获取行人的视频数据，目标检测模块对视频数据进行行人检测，输出检测结果到行人跟踪计数模块，行人跟踪计数模块关联每一帧图像的检测结果，获得行人的轨迹信息，通过计算轨迹的数量统计人数。

可选地，所述目标检测模块为预先训练好的YOLOV3网络模型，用于对输入的图像进行处理，目标检测模块分别在三种不同尺度的特征图上检测目标。

可选地，所述目标检测模块包括：第一个分支，输入的视频帧经过由DBL模块、res模块以及卷积层构成的第一个分支后，输出第一预测结果y1；在第一个分支基础之上，所述目标检测模块还包括第二个分支，将第一个分支的高层特征图送入一个DBL模块与一个上采样层之后与第一个分支的低层特征图相结合，随后再经过6个DBL模块与1个卷积层得到第二预测结果y2；所述目标检测模块还包括第三个分支，第三个分支采取与第二个分支相同的策略得到第三预测结果y3，即将第二个分支的高层特征图送入一个DBL模块与一个上采样层之后与第一个分支的低层特征图相结合，随后再经过6个DBL模块与1个卷积层得到第三预测结果y3。

可选地，所述行人跟踪计数模块包括：特征提取模块、相似性度量模块和交并比匹配关联模块；特征提取模块用于对目标检测模块的检测结果提取外观特征，进行行人再识别；相似性度量模块根据特征提取模块提取的外观特征，使用最小欧氏距离公式完成检测结果的关联匹配；交并比匹配关联模块对未能成功匹配的检测结果以及不完整轨迹再次进行匹配。

可选地，特征提取模块为预先训练好的网络模型，对输入的检测结果进行处理，输入图像经过两层卷积层、一层最大值池化层，再经过三个由密集连接层和过渡层组成的模块以及一个密集连接层，最后将特征送入全连接层，输出一个128维特征向量，并对该特征向量进行L2归一化计算得到最后的特征向量。

可选地，密集连接层由多个卷积层组成，任何两层卷积层之间都有直接的连接，每一层的输入都是前面所有层输出的并集；过渡层由卷积层和池化层组成，主要用于给特征图降维；网络模型搭建完成后，对各层的参数进行初始化。

可选地，相似性度量模块包括：将视频第一帧图像中所有检测结果初始化为一个轨迹集合，从第二帧图像开始，根据最小欧式距离公式计算当前检测结果与当前轨迹集合中所有轨迹的最小欧氏距离值，然后取其中的最小值，当该最小值小于预设阈值，则将当前检测结果与该轨迹相匹配，否则不匹配。

可选地，相似性度量模块采用如下公式(1)中的最小欧式距离公式，计算当前检测结果与一段轨迹的最小欧氏距离值。

其中，E代表欧式距离的计算，a_j为当前检测结果的外观特征，A_i为一段轨迹的外观特征集合，

表示属于集合A_i的单个检测结果的外观特征，i(i≥1)为轨迹的索引，j(j≥1)为检测结果的索引，k(1≤k≤50)为A_i中单个检测结果外观特征的索引。

可选地，交并比匹配关联模块包括：首先使用卡尔曼滤波，根据具有不完整轨迹的目标的之前状态预测目标在当前帧的位置，计算每一个未成功匹配的检测结果与所有预测位置的交并比距离值，随后将计算得到的交并比距离值放入一个矩阵中，使用匈牙利算法根据矩阵中的值对齐预测位置与未成功匹配检测结果，进而完成上一阶段未能成功匹配的检测结果与不完整轨迹之间的关联。

可选地，交并比匹配关联模块利用如下公式(2)计算每一个未成功匹配的检测结果与所有预测位置的交并比距离值。

其中，Area(a)和Area(b)为进行交并比计算的两个区域。

可选地，智能视觉分析系统还包括解码及传输模块，解码及传输模块对视频获取模块的视频数据进行解码，并将解码后的视频数据发送到目标检测模块。

可选地，解码及传输模块将解码后的视频数据发布至某节点，目标检测模块从该节点获取视频数据。

可选地，智能视觉分析系统还包括无人机和数据回传模块，无人机相机云台上挂载有所述视频获取模块，用于获取视频数据，智能视觉分析系统的处理结果通过数据回传模块返回到用户端。

根据本发明的第二方面，公开了一种基于无人机的智能视觉分析系统。

在一些可选实施例中，一种基于无人机的智能视觉分析系统，包括前文所述的智能视觉分析系统，还包括：

无人机和数据回传模块，无人机相机云台上挂载有所述视频获取模块，用于获取视频数据，智能视觉分析系统的处理结果通过数据回传模块返回到用户端。

根据本发明的第三方面，公开了一种智能视觉分析方法。

在一些可选实施例中，一种智能视觉分析方法，包括以下步骤：步骤11，获取行人的视频数据；步骤12，对获取的视频数据进行行人检测；步骤13，根据步骤12的检测结果，关联每一帧图像的检测结果，获得行人的轨迹信息，通过计算轨迹的数量统计人数。

可选地，所述获取视频数据的步骤11，包括：通过无人机云台搭载相机获取视频数据。

可选地，所述对获取的视频数据进行行人检测的步骤12，包括：调用预先训练好的YOLOV3网络模型，用于对输入的图像进行处理，分别在三种不同尺度的特征图上检测目标。

可选地，YOLOV3网络模型的训练过程包括：对图像中的行人进行标注，用标签记录行人类别信息和位置信息；将图像与标签作为训练数据送入YOLOV3网络模型中对网络进行训练，网络每次前向传播均会产生损失值，损失值反向传播后更新网络每层的参数，当损失值收敛时，则完成YOLOV3网络模型训练过程。

可选地，所述步骤13，包括以下步骤：步骤131，对目标检测模块的检测结果提取外观特征；步骤132，根据提取的外观特征，使用最小欧氏距离公式完成检测结果的关联匹配；步骤133，对未能成功匹配的检测结果以及不完整轨迹再次进行匹配。

可选地，所述步骤131，包括：调用预先训练好的网络模型，对输入的检测结果进行处理。

可选地，所述步骤131中网络模型的训练过程包括：首先，搭建初始的网络模型，包括卷积层、池化层、密集连接层、过渡层、全连接层的排布，以及各层参数的初始化；然后，使用数据集Mars中的训练集训练网络模型的参数，网络模型每次前向传播均会产生损失值，将损失值反向传播更新网络模型每层的参数，当各层参数达到预设条件后，则可以停止训练网络模型，将网络模型各层参数进行保存得到最终的网络模型，该网络模型将用来提取行人特征；如果训练的次数达到预设的最大值依然无法达到设定条件，则对网络模型进行调整并再次尝试训练直到得到最优模型；预设条件包括：训练过程中网络模型的损失值收敛。

可选地，所述步骤132，包括：将视频第一帧图像中所有检测结果初始化为一个轨迹集合，从第二帧图像开始，根据最小欧式距离公式计算当前检测结果与当前轨迹集合中所有轨迹的最小欧氏距离值，然后取其中的最小值，当该最小值小于预设阈值，则将当前检测结果与该轨迹相匹配，否则不匹配。

可选地，所述步骤132采用如下公式(1)中的最小欧式距离公式，计算当前检测结果与一段轨迹的最小欧氏距离值。

其中，E代表欧式距离的计算，a_j为当前检测结果的外观特征，A_i为一段轨迹的外观特征集合,

可选地，所述步骤133包括：首先使用卡尔曼滤波，根据具有不完整轨迹的目标的之前状态预测目标在当前帧的位置，计算每一个未成功匹配的检测结果与所有预测位置的交并比距离值，随后将计算得到的交并比距离值放入一个矩阵中，使用匈牙利算法根据矩阵中的值对齐预测位置与未成功匹配检测结果，进而完成上一阶段未能成功匹配的检测结果与不完整轨迹之间的关联。

可选地，所述步骤133利用如下公式(2)计算每一个未成功匹配的检测结果与所有预测位置的交并比距离值，

其中，Area(a)和Area(b)为进行交并比计算的两个区域。

可选地，智能视觉分析方法包括以下步骤：

步骤21，获取视频数据。

步骤22，对获取的视频数据进行解码。

步骤23，对解码后的视频数据进行行人检测。

步骤24，根据步骤23的检测结果，关联每一帧图像的检测结果，获得行人的轨迹信息，通过计算轨迹的数量统计人数。

可选地，所述对获取的视频数据进行解码的步骤22，包括：将解码后的视频数据发布至某节点，然后再从该节点获取视频数据，进行后续的行人检测步骤23。

本发明的有益效果是：

(1)可以自动地统计出某一区域内行人的数量，大大减少人力成本，同时提高了计数的准确度和效率。

(2)无人机可以弥补固定摄像头视野小的局限性，可以更广阔更自由地采集行人视频，进行人流量统计。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为智能视觉分析系统的一个可选实施结构示意图；

图2a为目标检测模块的一个可选实施结构示意图；

图2b为DBL模块的一个可选实施结构示意图；

图2c为Res unit模块的一个可选实施结构示意图；

图2d为resn模块的一个可选实施结构示意图；

图3为YOLOV3网络模型的训练过程的一个可选实施流程图；

图4为行人跟踪计数模块的一个可选实施结构示意图；

图5为特征提取模块的一个可选实施结构示意图；

图6为特征提取模块的训练过程的一个可选实施流程图；

图7为智能视觉分析系统的另一个可选实施结构示意图；

图8为智能视觉分析方法的一个可选实施流程图；

图9为智能视觉分析方法的另一个可选实施流程图。

具体实施方式

下面结合附图对本发明的较佳实施例进行详细阐述，以使本发明的优点和特征能更易于被本领域技术人员理解，从而对本发明的保护范围做出更为清楚明确的界定。

图1示出了智能视觉分析系统的一个可选实施例。

该可选实施例中，智能视觉分析系统包括：视频获取模块1、目标检测模块3和行人跟踪计数模块10。

视频获取模块1用于获取行人的视频数据，目标检测模块对视频数据进行行人检测，输出检测结果到行人跟踪计数模块，行人跟踪计数模块10关联每一帧图像的检测结果，获得行人的轨迹信息，通过计算轨迹的数量统计人数。

采用该可选实施例，可以自动地统计出某一区域内行人的数量，大大减少人力成本，同时提高了计数的准确度和效率。

可选地，视频获取模块1为相机。

可选地，目标检测模块3为预先训练好的YOLOV3网络模型，用于对输入的图像进行处理，目标检测模块3分别在三种不同尺度的特征图上检测目标。

图2a示出了目标检测模块的一个可选实施例。

该可选实施例中，目标检测模块3为预先训练好的YOLOV3网络模型，目标检测模块包括：第一个分支，输入的视频帧经过由DBL模块、res模块以及卷积层构成的第一个分支后，输出第一预测结果y1；在第一个分支基础之上，所述目标检测模块还包括第二个分支，将第一个分支的高层特征图送入一个DBL模块与一个上采样层之后与第一个分支的低层特征图相结合，随后再经过6个DBL模块与1个卷积层得到第二预测结果y2；所述目标检测模块还包括第三个分支，第三个分支采取与第二个分支相同的策略得到第三预测结果y3，即将第二个分支的高层特征图送入一个DBL模块与一个上采样层之后与第一个分支的低层特征图相结合，随后再经过6个DBL模块与1个卷积层得到第三预测结果y3。通过上述网络结构，目标检测模块3分别在三种不同尺度的特征图上检测目标。

YOLOV3网络模型包含3个重要的模块，分别为DBL模块、Res unit模块、resn模块(res1、res2、res4、res8、……)。如图2b所示，在DBL模块中，输入特征图分别经过卷积层Conv、批量归一化层BN以及激活函数层Relu得到其输出。如图2c所示，在Res unit模块中，输入的特征图经过两个DBL模块后与原始的输入特征图进行逐元素相加操作得到其输出。如图2d所示，在resn模块中，输入特征图经过padding操作与一个DBL模块后送入n个Resunit模块得到最后的输出，n＝1、2、4、8……。

图3示出了YOLOV3网络模型的训练过程的一个可选实施例。

该可选实施例中，YOLOV3网络模型的训练过程包括：对图像中的行人进行标注，用标签记录行人类别信息和位置信息；将图像与标签作为训练数据送入YOLOV3网络模型中对网络进行训练，网络每次前向传播均会产生损失值，损失值反向传播后更新网络每层的参数，当损失值收敛时，则完成YOLOV3网络模型训练过程。

图4示出了行人跟踪计数模块的一个可选实施例。

该可选实施例中，行人跟踪计数模块10包括特征提取模块4、相似性度量模块5和交并比匹配关联模块6。特征提取模块4用于对目标检测模块3的检测结果提取外观特征，进行行人再识别。相似性度量模块5根据特征提取模块4提取的外观特征，使用最小欧氏距离公式完成检测结果的关联匹配。交并比匹配关联模块6对未能成功匹配的检测结果以及不完整轨迹再次进行匹配。

图5示出了特征提取模块的一个可选实施例。

该可选实施例中，特征提取模块为预先训练好的网络模型，对输入的检测结果进行处理，输入图像经过两层卷积层、一层最大值池化层，再经过三个由密集连接层和过渡层组成的模块以及一个密集连接层，最后将特征送入全连接层，输出一个128维特征向量，并对该特征向量进行L2归一化计算得到最后的特征向量。

该可选实施例中，密集连接层由多个卷积层组成，该结构中，任何两层卷积层之间都有直接的连接，每一层的输入都是前面所有层输出的并集。过渡层由卷积层和池化层组成，主要用于给特征图降维。网络模型搭建完成后，对各层的参数进行初始化。

上述网络模型可以提取较为精细的行人特征，使相同行人的特征极为相似，不同行人的特征具有较大差异，以此判断两个目标是否属于同一个行人，提高人流量统计的精确性。

图6示出了特征提取模块的训练过程的一个可选实施例。

该可选实施例中，特征提取模块的训练过程包括：首先，搭建初始的网络模型，包括卷积层、池化层、密集连接层、过渡层、全连接层的排布，以及各层参数的初始化。然后，使用数据集Mars中的训练集训练网络模型的参数，网络模型每次前向传播均会产生损失值，将损失值反向传播更新网络模型每层的参数，当各层参数达到预设条件后，则可以停止训练网络模型，将网络模型各层参数进行保存得到最终的网络模型，该网络模型将用来提取行人特征。如果训练的次数达到预设的最大值依然无法达到设定条件，则对网络模型进行调整并再次尝试训练直到得到最优模型。预设条件包括：训练过程中网络模型的损失值收敛。

例如，数据集Mars包含由6个摄像头拍摄得到的总共包含1261个行人的1191003张图像，其中训练集包含625个行人的509914张图像，测试集包含636个行人的681089张图像。数据集使用mat格式文件存储图片序号、行人ID以及对应摄像头ID来作为数据集中每张图片的标签，网络模型读取训练集中的图像和标签进行训练。

可选地，相似性度量模块5包括：将视频第一帧图像中所有检测结果初始化为一个轨迹集合，从第二帧图像开始，根据最小欧式距离公式计算当前检测结果与当前轨迹集合中所有轨迹的最小欧氏距离值，然后取其中的最小值，当该最小值小于预设阈值，则将当前检测结果与该轨迹(最小欧氏距离值中最小值对应轨迹)相匹配，否则不匹配。

可选地，相似性度量模块5采用如下公式(1)中的最小欧式距离公式，计算当前检测结果与一段轨迹的最小欧氏距离值。

可选地，交并比匹配关联模块6包括：首先使用卡尔曼滤波，根据具有不完整轨迹的目标的之前状态预测目标在当前帧的位置，计算每一个未成功匹配的检测结果与所有预测位置的交并比距离值，随后将计算得到的交并比距离值放入一个矩阵中，使用匈牙利算法根据矩阵中的值对齐预测位置与未成功匹配检测结果，进而完成上一阶段未能成功匹配的检测结果与不完整轨迹之间的关联。

可选地，交并比匹配关联模块6利用如下公式(2)计算每一个未成功匹配的检测结果与所有预测位置的交并比距离值。

其中，Area(a)和Area(b)为进行交并比计算的两个区域。

图7示出了智能视觉分析系统的另一个可选实施例。

该可选实施例中，智能视觉分析系统还包括解码及传输模块2，解码及传输模块2对视频获取模块1的视频数据进行解码，并将解码后的视频数据发送到目标检测模块3。

采用该可选实施例，可以进一步提高智能视觉分析系统的普适性，使得视频获取模块1与目标检测模块3的适配性更好。例如，相机获取的视频具有其特定编码方式，对视频数据解码后可以方便使用。

可选地，解码及传输模块2将解码后的视频数据发布至节点，目标检测模块从该节点获取视频数据。例如，解码及传输模块2首先以网线直连的方式建立与目标检测模块3的ROS通信，随后对获取到的视频数据进行解码，并通过ROS将解码后的视频数据发布至节点，目标检测模块3通过ROS订阅该节点的视频数据。

ROS运行时是由多个松耦合的节点组成，所有节点可以运行在一个处理器上，也可以分布式运行在多个处理器上，这种松耦合的设计使其使用较为灵活，并且使用ROS通信能非常方便地查看节点的运行状态等信息，可维护性高，还可以根据实际情况来调整发送速率、发送/接收缓冲区大小等。

在另一些可选实施例中，本申请还提出了一种基于无人机的智能视觉分析系统，包括前文所述的智能视觉分析系统，还包括无人机和数据回传模块，无人机相机云台上挂载有视频获取模块1，用于获取视频数据，智能视觉分析系统的处理结果通过数据回传模块返回到用户端。

采用该可选实施例，无人机可以弥补固定摄像头视野小的局限性，可以更广阔更自由地采集行人视频，进行人流量统计。

下面给出基于无人机的智能视觉分析系统的一个具体实施例。

该可选实施例中，智能视觉分析系统包括DJI M100无人机和NVIDIA Jetson TX2数据处理模块，在NVIDIA Jetson TX2数据处理模块中实现目标检测模块3和行人跟踪计数模块10。DJI M100无人机相机云台挂载禅思X5相机，相机云台上的8pin接口通过解码及传输模块附带的8pin接口线，连接到解码及传输模块的CAM_IN接口。解码及传输模块的CAM_OUT接口通过另一根8pin接口线连接无人机飞控的8pin接口。云台底端10pin接口通过10pin接口线与飞控的10pin接口相连接。解码及传输模块通过网线与NVIDIA Jetson TX2的网口相连接，无人机供电模块对系统进行供电。

智能视觉分析系统通过禅思X5相机获取视频数据。解码及传输模块2首先以网线直连的方式建立与NVIDIA Jetson TX2端的ROS通信，随后对获取到的视频数据进行解码，并通过ROS将解码后的视频数据发布至某节点，在NVIDIA Jetson TX2端通过ROS订阅该节点的视频数据。NVIDIA Jetson TX2接收到视频数据后，送入YOLOV3目标检测模块3中进行行人检测。然后，将检测结果送入特征提取模块4中提取外观特征。根据所提取的外观特征，最小欧式距离相似性度量模块5使用最小欧氏距离完成检测结果的关联匹配。外观特征匹配阶段完成之后，交并比匹配关联模块6对未能成功匹配的检测结果以及不完整轨迹再次进行匹配。数据回传模块7通过4G基站将NVIDIA Jetson TX2的处理结果返回到用户端。

上述具体实施例中，智能视觉分析系统通过使用搭载禅思X5相机的DJI M100无人机获取视频，解码及传输模块完成视频的解码及传输，并在所搭载的NVIDIA Jetson TX2中使用深度学习算法对视频数据进行实时的处理分析，可以自动地统计出某一区域内行人的数量，大大减少人力成本，同时提高了计数的准确度和效率。

图8示出了智能视觉分析方法的一个可选实施例。

该可选实施例中，智能视觉分析方法包括以下步骤：

步骤11，获取行人的视频数据。

步骤12，对获取的视频数据进行行人检测。

步骤13，根据步骤12的检测结果，关联每一帧图像的检测结果，获得行人的轨迹信息，通过计算轨迹的数量统计人数。

可选地，上述获取视频数据的步骤11，包括：通过无人机云台搭载相机获取视频数据。

可选地，上述对获取的视频数据进行行人检测的步骤12，包括：调用预先训练好的YOLOV3网络模型，用于对输入的图像进行处理，分别在三种不同尺度的特征图上检测目标。

可选地，如图2a所示，所述目标检测模块包括：第一个分支，输入的视频帧经过由DBL模块、res模块以及卷积层构成的第一个分支后，输出第一预测结果y1；在第一个分支基础之上，所述目标检测模块还包括第二个分支，将第一个分支的高层特征图送入一个DBL模块与一个上采样层之后与第一个分支的低层特征图相结合，随后再经过6个DBL模块与1个卷积层得到第二预测结果y2；所述目标检测模块还包括第三个分支，第三个分支采取与第二个分支相同的策略得到第三预测结果y3，即将第二个分支的高层特征图送入一个DBL模块与一个上采样层之后与第一个分支的低层特征图相结合，随后再经过6个DBL模块与1个卷积层得到第三预测结果y3。这样，YOLOV3网络模型分别在三种不同尺度的特征图上检测目标。

可选地，如图3所示，上述YOLOV3网络模型的训练过程包括：对图像中的行人进行标注，用标签记录行人类别信息和位置信息；将图像与标签作为训练数据送入YOLOV3网络模型中对网络进行训练，网络每次前向传播均会产生损失值，损失值反向传播后更新网络每层的参数，当损失值收敛时，则完成YOLOV3网络模型训练过程。

可选地，上述步骤13，包括以下步骤：

步骤131，对目标检测模块的检测结果提取外观特征。

步骤132，根据提取的外观特征，使用最小欧氏距离公式完成检测结果的关联匹配。

步骤133，对未能成功匹配的检测结果以及不完整轨迹再次进行匹配。

可选地，上述步骤131，包括：调用预先训练好的网络模型，对输入的检测结果进行处理，如图5所示，该网络模型包括：输入图像经过两层卷积层、一层最大值池化层，再经过三个由密集连接层和过渡层组成的模块以及一个密集连接层，最后将特征送入全连接层，输出一个128维特征向量，并对该特征向量进行L2归一化计算得到最后的特征向量。

可选地，如图6所示，上述步骤131中网络模型的训练过程包括：首先，搭建初始的网络模型，包括卷积层、池化层、密集连接层、过渡层、全连接层的排布，以及各层参数的初始化。然后，使用数据集Mars中的训练集训练网络模型的参数，网络模型每次前向传播均会产生损失值，将损失值反向传播更新网络模型每层的参数，当各层参数达到预设条件后，则可以停止训练网络模型，将网络模型各层参数进行保存得到最终的网络模型，该网络模型将用来提取行人特征。如果训练的次数达到预设的最大值依然无法达到设定条件，则对网络模型进行调整并再次尝试训练直到得到最优模型。预设条件包括：训练过程中网络模型的损失值收敛。

可选地，上述步骤132，包括：将视频第一帧图像中所有检测结果初始化为一个轨迹集合，从第二帧图像开始，根据最小欧式距离公式计算当前检测结果与当前轨迹集合中所有轨迹的最小欧氏距离值，然后取其中的最小值，当该最小值小于预设阈值，则将当前检测结果与该轨迹(最小欧氏距离值中最小值对应轨迹)相匹配，否则不匹配。

可选地，上述步骤132采用如下公式(1)中的最小欧式距离公式，计算当前检测结果与一段轨迹的最小欧氏距离值。

可选地，上述步骤133包括：首先使用卡尔曼滤波，根据具有不完整轨迹的目标的之前状态预测目标在当前帧的位置，计算每一个未成功匹配的检测结果与所有预测位置的交并比距离值，随后将计算得到的交并比距离值放入一个矩阵中，使用匈牙利算法根据矩阵中的值对齐预测位置与未成功匹配检测结果，进而完成上一阶段未能成功匹配的检测结果与不完整轨迹之间的关联。

可选地，上述步骤133利用如下公式(2)计算每一个未成功匹配的检测结果与所有预测位置的交并比距离值，

其中，Area(a)和Area(b)为进行交并比计算的两个区域。

图9示出了智能视觉分析方法的另一个可选实施例。

该可选实施例中，智能视觉分析方法包括以下步骤：

步骤21，获取视频数据。

步骤22，对获取的视频数据进行解码。

步骤23，对解码后的视频数据进行行人检测。

采用该可选实施例，可以进一步提高智能视觉分析系统的普适性。

可选地，上述对获取的视频数据进行解码的步骤22，包括：将解码后的视频数据发布至某节点，然后再从该节点获取视频数据，进行后续的行人检测步骤23。

在另一个可选实施例中，智能视觉分析方法还包括将人流量统计数据回传到用户端的步骤。例如，通过4G基站将人流量统计数据回传到用户端。当然，本领域技术人员也可以通过其他通讯方式将人流量统计数据回传到用户端。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种智能视觉分析系统，其特征在于，包括：视频获取模块、目标检测模块和行人跟踪计数模块；

视频获取模块用于获取行人的视频数据，目标检测模块对视频数据进行行人检测，输出检测结果到行人跟踪计数模块，行人跟踪计数模块关联每一帧图像的检测结果，获得行人的轨迹信息，通过计算轨迹的数量统计人数；

所述行人跟踪计数模块包括：特征提取模块、相似性度量模块和交并比匹配关联模块；

特征提取模块用于对目标检测模块的检测结果提取外观特征，进行行人再识别；特征提取模块为预先训练好的网络模型，对输入的检测结果进行处理，输入图像经过两层卷积层、一层最大值池化层，再经过三个由密集连接层和过渡层组成的模块以及一个密集连接层，最后将特征送入全连接层，输出一个128维特征向量，并对该特征向量进行L2归一化计算得到最后的特征向量；密集连接层由多个卷积层组成，该结构中，任何两层卷积层之间都有直接的连接，每一层的输入都是前面所有层输出的并集；过渡层由卷积层和池化层组成，用于给特征图降维；

相似性度量模块根据特征提取模块提取的外观特征，使用最小欧氏距离公式完成检测结果的关联匹配；相似性度量模块包括：将视频第一帧图像中所有检测结果初始化为一个轨迹集合，从第二帧图像开始，根据最小欧式距离公式计算当前检测结果与当前轨迹集合中所有轨迹的最小欧氏距离值，然后取其中的最小值，当该最小值小于预设阈值，则将当前检测结果与该轨迹相匹配，否则不匹配；

相似性度量模块采用如下公式(1)中的最小欧式距离公式，计算当前检测结果与一段轨迹的最小欧氏距离值，

表示属于集合A_i的单个检测结果的外观特征，i为轨迹的索引，i≥1，j为检测结果的索引，j≥1，k为A_i中单个检测结果外观特征的索引,1≤k≤50；

交并比匹配关联模块对未能成功匹配的检测结果以及不完整轨迹再次进行匹配；交并比匹配关联模块包括：首先使用卡尔曼滤波，根据具有不完整轨迹的目标的之前状态预测目标在当前帧的位置，计算每一个未成功匹配的检测结果与所有预测位置的交并比距离值，随后将计算得到的交并比距离值放入一个矩阵中，使用匈牙利算法根据矩阵中的值对齐预测位置与未成功匹配检测结果，进而完成上一阶段未能成功匹配的检测结果与不完整轨迹之间的关联；交并比匹配关联模块利用如下公式(2)计算每一个未成功匹配的检测结果与所有预测位置的交并比距离值，

其中，Area(a)和Area(b)为进行交并比计算的两个区域。

2.如权利要求1所述的一种智能视觉分析系统，其特征在于，所述目标检测模块包括：

第一个分支，输入的视频帧经过由DBL模块、res模块以及卷积层构成的第一个分支后，输出第一预测结果；

所述目标检测模块还包括第二个分支，将第一个分支的高层特征图送入一个DBL模块与一个上采样层之后与第一个分支的低层特征图相结合，随后再经过6个DBL模块与1个卷积层得到第二预测结果；

所述目标检测模块还包括第三个分支，将第二个分支的高层特征图送入一个DBL模块与一个上采样层之后与第一个分支的低层特征图相结合，随后再经过6个DBL模块与1个卷积层得到第三预测结果。

3.如权利要求1所述的一种智能视觉分析系统，其特征在于，还包括解码及传输模块，解码及传输模块对视频获取模块的视频数据进行解码，并将解码后的视频数据发送到目标检测模块。

4.一种基于无人机的智能视觉分析系统，其特征在于，包括如权利要求1至3任一项所述的智能视觉分析系统，还包括：

5.一种智能视觉分析方法，其特征在于，包括以下步骤：

步骤11，获取行人的视频数据；

步骤12，对获取的视频数据进行行人检测；

步骤13，根据步骤12的检测结果，关联每一帧图像的检测结果，获得行人的轨迹信息，通过计算轨迹的数量统计人数，包括：

步骤131，对目标检测模块的检测结果提取外观特征；调用预先训练好的网络模型，对输入的检测结果进行处理，输入图像经过两层卷积层、一层最大值池化层，再经过三个由密集连接层和过渡层组成的模块以及一个密集连接层，最后将特征送入全连接层，输出一个128维特征向量，并对该特征向量进行L2归一化计算得到最后的特征向量；密集连接层由多个卷积层组成，该结构中，任何两层卷积层之间都有直接的连接，每一层的输入都是前面所有层输出的并集；过渡层由卷积层和池化层组成，用于给特征图降维；

步骤132，根据提取的外观特征，使用最小欧氏距离公式完成检测结果的关联匹配，包括：将视频第一帧图像中所有检测结果初始化为一个轨迹集合，从第二帧图像开始，根据最小欧式距离公式计算当前检测结果与当前轨迹集合中所有轨迹的最小欧氏距离值，然后取其中的最小值，当该最小值小于预设阈值，则将当前检测结果与该轨迹相匹配，否则不匹配；所述步骤132采用如下公式(1)中的最小欧式距离公式，计算当前检测结果与一段轨迹的最小欧氏距离值；

步骤133，对未能成功匹配的检测结果以及不完整轨迹再次进行匹配，包括：首先使用卡尔曼滤波，根据具有不完整轨迹的目标的之前状态预测目标在当前帧的位置，计算每一个未成功匹配的检测结果与所有预测位置的交并比距离值，随后将计算得到的交并比距离值放入一个矩阵中，使用匈牙利算法根据矩阵中的值对齐预测位置与未成功匹配检测结果，进而完成上一阶段未能成功匹配的检测结果与不完整轨迹之间的关联；所述步骤133利用如下公式(2)计算每一个未成功匹配的检测结果与所有预测位置的交并比距离值，

其中，Area(a)和Area(b)为进行交并比计算的两个区域。

6.如权利要求5所述的一种智能视觉分析方法，其特征在于，所述获取视频数据的步骤11，包括：通过无人机云台搭载相机获取视频数据。