CN108683877B

CN108683877B - 基于Spark的分布式海量视频解析系统

Info

Publication number: CN108683877B
Application number: CN201810296322.3A
Authority: CN
Inventors: 黄凯奇; 张彰; 李俊; 李达; 余铠
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2018-03-30
Filing date: 2018-03-30
Publication date: 2020-04-28
Anticipated expiration: 2038-03-30
Also published as: CN108683877A

Abstract

本发明涉及视频数据的处理领域，提出一种基于Spark的分布式海量视频解析系统，旨在解决海量视频数据追踪、识别行人的问题。该系统中：分布式文件子系统，配置为提供非结构化数据的交互接口；资源管理模块，为上层应用提供统一的资源管理和调度服务；分布式订阅子系统，作为系统的消息中间件，进行消息和数据的传递；数据处理模块，包括多个相互协作视觉处理算法子模块，将获取的视频数据解压缩为多帧图片，并对多帧图片进行行人检测、跟踪、行人属性识别、行人身份再识别等处理任务；前台展示模块，显示视频数据的处理结果并与用户进行交互。本发明实现了在海量的视频数据中高效准确的追踪行人踪迹，识别行人身份信息。

Description

基于Spark的分布式海量视频解析系统

技术领域

本发明涉及模式识别、计算机视觉领域，尤其涉及一种基于Spark的分布式海量视频解析系统。

背景技术

随着视频监控网络系统的大量部署，产生了大量的视频数据。视频数据是一种非结构化的数据，在海量视频数据的存储和内容处理等方面面临巨大挑战。

目前，基于Hadoop和Spark的大数据处理技术应用广泛，然而，这些大数据处理技术在处理压缩的视频文件时，因压缩的视频文件中各帧之间有依赖关系，在对视频处理时需要参考视频帧前后的数据进行解压，像普通文件一样直接切分将导致文件无法解压，限制了视频的并行处理。然而，在实际应用中，通常需要从海量的离线视频文件中寻找某个兴趣目标或兴趣事件，人工查找效率低且容易出错。

因此，搭建一个新型的视频解析系统，以满足对大规模海量视频数据的处理需求，同时可以灵活方便的嵌入多种检测识别算法，具备良好的通用性和可扩展性成为亟待解决的问题。

发明内容

为了解决现有技术中的上述问题，即为了满足海量视频数据的处理需求，提供一种通用性和可扩展性良好的系统，本申请提出一种基于Spark的分布式海量视频解析系统以解决上述问题：

本发明提供一种基于Spark的分布式海量视频解析系统。该系统包括：分布式文件子系统、资源管理模块、分布式订阅子系统、数据处理模块、数据库模块和前台展示模块。上述分布式文件子系统，配置为提供非结构化数据的交互接口；上述资源管理模块，配置为上层应用提供统一的资源管理和调度服务；上述分布式订阅子系统，作为系统的消息中间件，系统的各数据处理模块通过上述子系统进行消息和数据的传递；上述数据处理模块，包括多个视觉处理算法子模块，各上述视觉处理算法子模块从上述分布式文件子系统获取视频数据，或从上述分布式订阅子系统中获取中间数据，多个上述视觉处理算法子模块协同工作将所获取到的视频数据解压缩为多帧图片，并基于所解压出的多帧图片进行数据处理，并将处理结果保存在对应的数据存储介质中，其中，上述视觉处理包括行人检测、跟踪、行人属性识别、行人身份再识别；上述数据库模块，配置为多种存储介质，用来存储各算法子模块处理的结果；上述前台展示模块，从上述数据库模块和上述分布式文件子系统中读取相应数据，向用户展示各算法子模块的处理结果并与用户进行交互。

在一些示例中，上述数据处理模块包括检测跟踪子模块、属性识别子模块、身份再识别子模块；上述检测跟踪子模块，配置为从上述视频数据中逐帧进行行人检测并跟踪目标人物的轨迹；上述属性识别子模块，配置为读取对所述目标人物进行跟踪所得的轨迹数据，利用所述轨迹数据的特征向量对上述目标人物的属性进行识别；上述身份再识别子模块，配置为根据上述目标人物的轨迹和属性来确定上述目标人物是否为之前出现的目标人物。

在一些示例中，上述数据处理模块，每个子模块都有多种算法可供选择，并配置为接收用户通过上述前台展示模块发送的算法执行顺序，从预设的多种算法中选取需要的算法进行执行。

在一些示例中，上述检测跟踪子模块利用所封装的检测跟踪算法对上述视频数据的视频帧逐帧进行行人检测，得到行人的外接矩形窗口，关联各视频帧所得到的外接矩形窗口来确定行人轨迹。

在一些示例中，上述属性识别子模块利用所封装的属性识别算法根据对行人跟踪所得的上述外接矩形窗口中的RGB数据，利用基于深度卷积神经网络的行人属性识别模型识别上述行人的属性，并将由多帧上述外接矩形窗口中的RGB数据所识别出的上述行人属性的平均值作为上述行人属性识别的结果。

在一些示例中，上述属性识别子模块还包括属性识别训练单元，上述属性识别训练单元中预设的初始识别模型根据标注了行人属性的数据集，利用深度卷积神经网络训练上述初始识别模型，得到行人属性识别模型。

在一些示例中，上述行人再识别子模块所封装的行人再识别算法根据多帧行人的上述外接矩形窗口中的RGB数据，基于训练好的模型，用分类器前一层的输出作为每一帧轨迹图像的第一特征，并将由多帧上述外接矩阵窗口中的RGB数据所得到的上述第一特征的平均值作为上述行人再识别的识别特征；结合上述识别特征和上述属性识别的结果，作为再识别过程中相似度计算的依据，从各所述外接矩形窗口的数据，查找出与各上述待查询图像所示人物相近的多个人，将所查找出的多个人与上述待查询图像与所示人物相近的相似度作为属于同一个人的概率，依此进行再辨识。

在一些示例中，数据库模块配置为图形数据库Neo4j，用于存储上述检测跟踪模块对目标人物的追踪轨迹、起始帧信息、行人属性信息以及行人再识别的结果。

在一些示例中，上述分布式文件子系统还配置为通过所述数据交互接口将行人轨迹结果以及从视频数据中截取的对应图片进行保存。

本申请实施例提供的基于Spark的分布式海量视频解析系统中，分布式文件子系统不仅存储用户的海量视频数据，并且提供数据交互接口，保存算法处理的结果，为数据提供高容错、高吞吐、低成本的存储空间；分布式订阅子系统为系统的消息中间件，可灵活订阅各类消息，各个模块通过所述分布式订阅子系统进行消息和数据的传递；上述数据处理模块包括多个算法模块，多个上述算法模块相互协作，从上述分布式文件子系统获取视频数据，并基于上述视频数据进行行人检测跟踪、行人属性分析，并对行人身份进行再识别。本发明的基于Spark的分布式海量视频解析系统可以高效的、准确的处理海量视频数据。

附图说明

图1是应用于本申请的基于Spark的分布式视频解析系统的示例性系统架构图；

图2是应用于本申请的基于Spark的分布式视频解析系统组成结构图；

图3是应用于本申请的基于Spark的分布式视频解析系统的中间信息的流转示意图。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了基于Spark的分布式海量视频解析系统的实施例的示例性系统架构。

如图1所示，系统架构包括视频获取装置101、视频解析装置102和应用装置103。上述视频获取装置101、视频解析装置102和应用装置103之间通过网络连接，上述用于在各装置之间提供通信链路介质的网络可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

上述视频获取装置101用于获取视频数据，可以是安装于街区、社区、或道路的监控摄像头；还可以是移动监控装置，例如安装于无人机上的摄像机，或者安装于移动小车上的摄像装置，用于厂区内的移动监控等。上述视频装置101至少包括摄像头以获取视频数据，还可以包括存储装置以暂存视频数据。

上述视频解析装置102用于对所获取到的视频数据进行处理，从中进行行人检测、追踪，行人属性识别，并对行人的身份进行再识别。上述视频解析装置102可以是提供各种服务的服务器，例如对上述视频获取装置所提供的视频数据进行图像处理和图像识别的处理服务器；可以理解的是，上述服务器可以为多台服务器组成的服务器集群。上述处理服务器集群可以对接收到的视频数据进行解析处理，并将处理结果(例如对行人的追踪和识别结果)反馈到应用装置103供用户使用。

上述应用装置103用于上述视频解析装置对视频数据的处理结果显示及交互。上述应用装置至少包括显示单元以显示视频解析装置的处理结果。上述应用装置103通过网络与上述视频解析装置进行信息交互，以进行信息的传输。上述应用装置103可以为具有显示屏并且支持各种应用的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

Spark是UC Berkeley AMP Lab(加州大学伯克利分校的AMP实验室)所开源的类Hadoop Map Reduce的通用并行框架，是专为大规模数据处理而设计的快速通用的计算引擎。

需要说明的是，本申请实施例所提供的基于Spark的分布式海量视频解析系统一般由视频解析装置102执行，相应的应用上述基于Spark的分布式海量视频解析系统的设置于上述视频解析装置102中。

继续参考图2，展示出了根据本申请的基于Spark的分布式海量视频解析系统的一个实施例，该实施例的系统包括：分布式文件子系统、资源管理模块、分布式订阅子系统、数据处理模块、数据库模块和前台展示模块。其中：

上述分布式文件子系统，配置为提供非结构化数据的交互接口；上述资源管理模块，配置为上层应用提供统一的资源管理和调度服务；上述分布式订阅子系统，作为系统的消息中间件，系统的各数据处理模块通过上述子系统进行消息和数据的传递；上述数据处理模块，包括多个视觉处理算法子模块，各个视觉处理算法子模块从上述分布式文件子系统获取视频数据，或从上述分布式订阅子系统中获取中间数据，多个上述视觉处理算法子模块协同工作将所获取到的视频数据解压缩为多帧图片，并基于所解压出的多帧图片进行行人检测、跟踪、行人属性识别、行人身份再识别等处理视觉分析任务，处理结果保存在对应的数据存储介质中；上述数据库模块，配置为多种存储介质，用来存储各算法子模块处理的结果；上述前台展示模块，从上述数据库模块和上述分布式文件子系统中读取相应数据向用户展示各算法子模块的处理结果并与用户进行交互。

在本实施例中，上述分布式文件子系统可以是Hadoop Distributed FileSystem，其中，Hadoop Distributed File System，简称为HDFS，是一种分布式文件系统。上述HDFS接收上述视频获取装置所获取的视频数据，或用户终端设备的视频数据，并保存所接收的视频数据。Hadoop是一个由Apache基金会所开发的分布式系统基础架构。上述HDFS保存所接收的视频数据，并通过上述HDFS提供数据交互的接口，程序或应用通过该接口可以访问视频数据，并可以在视频数据处理完成后将结果保存在HDFS中。可以理解的是，上述程序或应用可以通过URL访问上述视频数据。

上述HDFS保存上述系统对目标人物的跟踪轨迹相关的图片和外接矩形窗口坐标。

上述资源管理模块可以为Hadoop YARN，上述Hadoop YARN是一个通用资源管理子系统，为上层应用提供统一的资源管理和调度。上述资源管理模块根据应用于上述系统中的服务器集群的各个服务器的资源使用状况，调配服务器的资源，实现对服务器集群的协调管理，从而调节系统的运行效率。

上述分布式订阅子系统可以为Kafka集群，上述Kafak集群作为系统的消息中间件，系统的各个子模块通过该Kafka集群进行消息和数据的传递。

上述数据处理模块包括多个算法子模块，多个上述算法子模块相互协作，从上述分布式文件子系统获取视频数据，并基于上述视频数据进行行人检测跟踪、行人属性分析，并对行人身份进行再识别。并且将对行人进行检测跟踪、行人属性分析，并对行人身份进行再识别所得的数据保存在对应的数据存储介质中。

上述数据库模块接收上述视频数据的处理结果，并将上述处理结果展示给前台展示模块，进行显示或供用户的进一步使用。这里，上述视频数据处理结果为行人的身份信息。进一步地，上述处理结果还可以包括上述行人轨迹、行人属性等中间处理结果。

具体地，上述数据处理模块包括检测跟踪子模块、属性识别子模块和身份再识别子模块中的一个或多个；上述数据处理模块中至少包括一个上述检测跟踪子模块、一个上述属性识别子模块和一个上述身份再识别子模块；上述检测跟踪子模块配置为对上述视频数据的视频帧逐帧进行行人检测，得到行人的外接矩形窗口，关联各视频帧所得到的外接矩形窗口来确定行人轨迹，并将从视频数据中解压缩的与目标人物的轨迹相关的图片保存于上述分布式文件子系统中；上述属性识别子模块用于对上述检测跟踪模块所追踪的目标人物的属性进行识别，这里，上述属性识别子模块根据上述多帧行人轨迹矩形窗口中的RGB数据，利用基于深度卷积神经网络的行人属性识别模型识别上述行人的属性，并将由多帧行人轨迹矩形窗口中的RGB数据所识别出的上述行人属性的平均值作为上述行人属性识别的结果；上述身份再识别子模块根据上述多帧行人轨迹矩形窗口中的RGB数据，基于训练好的模型，用分类器前一层的输出作为每一帧轨迹图像的第一特征，并将由多帧行人轨迹矩形窗口中的RGB数据所得到的上述第一特征的平均值作为上述行人再识别的识别特征。上述识别特征结合上述属性识别的结果，作为再识别过程中相似度计算的依据。对于每一个可以查询的图像数据，找出与待查询图像所示人物相近的多个人，将待查询图像和上述多个人的相似度作为属于同一个人的概率，依此进行再辨识。这里可以查询的图像数据可以是上述确定了轨迹的各帧图片，例如将各个上述外接矩形窗口的图像数据作为上述可以查询的图像数据。

上述数据处理模块中预先封装好了多种视频处理算法，用户可以通过前台展示模块中的用户界面与系统交互，从而选择处理上述视频数据的算法。具体地，上述系统接收用户通过上述用户界面发送的算法封装信息执行计划，从预设的多种算法中选取上述封装算法。这里，上述各个子模块都可以有多种封装算法，每种封装算法都可以实现该子模块的功能，用户可以从中选取其一用于处理视频数据实现该模块的功能。

在上述检测跟踪子模块中封装行人检测跟踪算法，上述用于行人检测跟踪的算法通过对上述视频数据的视频帧逐帧进行行人检测，得到行人的外接矩形窗口，关联各视频帧所得到的外接矩形窗口来确定行人轨迹。这里，主要根据检测跟踪算法进行检测跟踪，算法的结果为目标人物的追踪轨迹以及从视频解压缩的与行人轨迹相关的图片。

上述属性识别子模块中封装行人属性识别算法，上述行人属性识别算法根据上述多帧行人轨迹矩形窗口中的RGB数据，利用基于深度卷积神经网络的行人属性识别模型识别上述行人的属性，并将由多帧行人轨迹矩形窗口中的RGB数据所识别出的上述行人属性的平均值作为上述行人属性识别的结果。上述行人的属性包括行人的性别、年龄、身高、体重、衣服种类及颜色等信息。可以理解地是，上述行人属性识别模块是对已经确定出行人轨迹的图片进行属性识别。

上述属性识别子模块还包括属性识别训练单元，上述属性识别训练单元中预设的初始识别模型根据预先标注了行人属性的数据集，利用深度卷积神经网络训练上述初始识别模型，得到行人属性识别模型。上述数据集可以是视频数据、还可以是由视频数据解压缩的多帧的图片等。

上述身份再识别子模块所封装的身份再识别算法是基于深度卷积神经网络的身份识别模型，上述身份识别模型是通过在已经标好的行人身份数据集上进行基于身份的多分类网络训练所得模型。上述身份识别模型基于待识别行人身份的视频或图片进行身份再识别。具体地，根据上述多帧行人轨迹矩形窗口中的RGB数据，基于训练好的模型，用分类器前一层的输出作为每一帧轨迹图像的特征，并将由多帧行人轨迹矩形窗口中的RGB数据所得到的上述特征的平均值作为上述行人再识别的特征。上述特征并结合上述属性识别的结果，作为再识别过程中相似度计算的依据。对于每一个查询图像，找出与待查询图像所示人物相近的多个人，把查询图像和上述多个人的相似度作为属于同一个人的概率，依此进行再辨识。

上述用于行人检测跟踪的算法所识别出的目标人物的追踪轨迹以及从视频解压缩的图片，为非结构化数据，保存于HDFS中；上述行人属性识别的结果为行人的属性，身份再识别的结果相似度为双精度浮点型数据，这些数据标识行人的信息以及行人之间的关系，将它们保存在Neo4j中，同时也将目标人物的追踪轨迹、起始帧信息保存在Neo4j中。

前台用户界面模块通过访问上述Neo4j和上述HDFS，向用户展示保存的结果。进一步地，用户可以通过上述用户界面选择各模块的算法，指定各算法执行顺序，同时将执行结果反馈给用户。用户可以选择符合预期的算法，以升级算法。

作为示例，参考图2中所示的基于Spark的分布式海量视频解析系统的系统组成结构。将待监控的视频数据在HDFS中的地址发送到分布式订阅子系统的Kafka集群中，作为程序的消息源。上述资源管理模块根据集群服务器的使用状况，调配处理上述视频数据的服务器资源。上述数据处理模块的应用程序根据用户的制定的计划有多种不同的执行方案。以行人检测跟踪-行人属性识别-行人身份再识别的执行方案为例，如图3所示，行人检测跟踪子模块中需要从Kafka集群中获取应用程序发送的指令信息，上述指令信息在Kafka中以字符串的形式存在，这里将其作为任务信息，从任务信息中读取视频数据的地址，处理之后生成行人轨迹作为新的任务信息，发送到Kafka集群中供后续模块使用；属性识别子模块则从任务信息中读取跟踪的轨迹数据，识别得到的属性结果存入新的任务信息中发送到Kafka中供后续模块使用；身份再识别子模块从任务信息中读取轨迹数据，得到的身份信息特征向量存入新的任务信息中发送到Kafka供后续模块使用；这些在Kafka集群中的信息，会由保存数据的子模块将数据保存在HDFS和Neo4j中。

本申请的上述实施例具有如下的效果：

将用户的海量视频原始数据存储在HDFS上，为原始数据提供高容错、高吞吐、低成本的存储空间，支持以数据流的形式访问文件系统中的数据；Kafka作为消息中间件为实时计算框架提供可靠的数据传输支撑，并运用Spark Streaming计算框架处理各个模块的数据。

将视觉处理算法、处理平台、数据结果以及前台展示分离，降低了耦合性，提高了可扩展性。

提供可扩展的算法模块的分布式海量视频数据处理架构，在满足模块间输入输出对应的情况下，可以任意指定算法的处理顺序；并可以在创建任务时指定各模块的执行参数。

集群模式的设置使得即使系统架构中的某些服务器节点宕机，也不会丢失任务与数据，在节点恢复后可以继续宕机时正在执行的任务，并接着处理尚在队列中的任务，从而提高了海量视频的分布式处理的鲁棒性。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于Spark的分布式海量视频解析系统，其特征在于，所述系统包括：分布式文件子系统、资源管理模块、分布式订阅子系统、数据处理模块、数据库模块和前台展示模块；

所述分布式文件子系统，配置为提供非结构化数据的交互接口；

所述资源管理模块，配置为上层应用提供统一的资源管理和调度服务；

所述分布式订阅子系统，作为系统的消息中间件，所述系统的各模块通过所述分布式订阅子系统进行消息和数据的传递；

所述数据处理模块，包括多个视觉处理算法子模块，各所述视觉处理算法子模块从所述分布式文件子系统获取视频数据，或从所述分布式订阅子系统中获取中间数据，多个所述视觉处理算法子模块协同工作将所获取到的视频数据解压缩为多帧图片，并基于所解压出的多帧图片进行视觉处理，并将处理结果保存在对应的数据存储介质中，其中，视觉处理包括行人检测、跟踪、行人属性识别、行人身份再识别；

所述数据库模块，配置为多种存储介质，用来存储各算法子模块处理的结果；

所述前台展示模块，从所述数据库模块和所述分布式文件子系统中读取相应数据，向用户展示各算法子模块的处理结果并与用户进行交互；

其中，所述数据处理模块包括检测跟踪子模块、属性识别子模块和身份再识别子模块；

所述检测跟踪子模块，配置为从所述视频数据中逐帧进行行人检测并跟踪目标人物的轨迹；

所述属性识别子模块，配置为读取对所述目标人物进行跟踪所得的轨迹数据，利用所述轨迹数据的特征向量对所述目标人物的属性进行识别；

所述身份再识别子模块，配置为根据所述目标人物的轨迹和属性来确定所述目标人物是否为之前出现的目标人物；

其中，所述检测跟踪子模块利用所封装的检测跟踪算法对所述视频数据的视频帧逐帧进行行人检测，得到行人的外接矩形窗口，关联各视频帧所得到的外接矩形窗口来确定行人轨迹；

其中，所述属性识别子模块利用所封装的属性识别算法根据对行人跟踪得的所述外接矩形窗口中的RGB数据，利用基于深度卷积神经网络的行人属性识别模型识别所述行人的属性，并将由多帧所述外接矩形窗口中的RGB数据所识别出的所述行人属性的平均值作为所述行人属性识别的结果；

其中，所述身份再识别子模块利用所封装的身份再识别算法，根据多帧行人的所述外接矩形窗口中的RGB数据，基于训练好的模型，用分类器前一层的输出作为每一帧轨迹图像的第一特征，并将由多帧所述外接矩形窗口中的RGB数据所得到的所述第一特征的平均值作为所述身份再识别的识别特征；结合所述识别特征和所述属性识别的结果，作为再识别过程中相似度计算的依据，从各所述外接矩形窗口的数据，查找出与各待查询图像所示人物相近的多个人，将所查找出的多个人与所述待查询图像与所示人物相近的相似度作为属于同一个人的概率，依此进行再辨识。

2.根据权利要求1所述的基于Spark的分布式海量视频解析系统，其特征在于，所述数据处理模块的各子模块都有多种算法可供选择，并配置为接收用户通过所述前台展示模块发送的算法执行顺序，从预设的多种算法中选取需要的算法进行执行。

3.根据权利要求1所述的基于Spark的分布式海量视频解析系统，其特征在于，所述属性识别子模块还包括属性识别训练单元，所述属性识别训练单元中预设的初始识别模型根据标注了行人属性的数据集，利用深度卷积神经网络训练所述初始识别模型，得到行人属性识别模型。

4.根据权利要求1所述的基于Spark的分布式海量视频解析系统，其特征在于，所述数据库模块配置为图形数据库Neo4j，用于存储上述检测跟踪子模块对目标人物的追踪轨迹、起始帧信息、行人属性信息以及行人再识别的结果。

5.根据权利要求4所述的基于Spark的分布式海量视频解析系统，其特征在于，所述分布式文件子系统还配置为通过数据交互接口将行人轨迹以及从所述视频数据截取的对应图片进行保存。