CN108268598A

CN108268598A - 一种基于视频图像数据的分析系统及分析方法

Info

Publication number: CN108268598A
Application number: CN201711368988.7A
Authority: CN
Inventors: 陈唯; 刘佳; 陈坤; 刘长鑫; 张鑫; 魏铭均; 杨芳
Original assignee: SUZHOU AEROSPACE SYSTEM ENGINEERING Co Ltd
Current assignee: SUZHOU AEROSPACE SYSTEM ENGINEERING Co Ltd
Priority date: 2017-12-18
Filing date: 2017-12-18
Publication date: 2018-07-10

Abstract

本发明公开了一种基于视频图像数据的分析系统及分析方法，所述系统包括：Spark内存计算引擎中的MLlib模块和SQL模块、分布式数据库HBase模块、深度学习的CaffeOnSpark模块和消息订阅推送Kafka模块；分析方法包括：依赖高效率系统模块，静态图片数据输入到Spark MLlib模块，识别图中的特定目标，连续的视频流输入到CaffeOnSpark模块，对扣取出来的目标进行特征建模，然后通过Spark SQL模块去HBase数据库中比对相似目标，同时将分析结果推送到Kafka模块，最后推送到订阅方。本发明分布式存储的可分类的特征库，方便扩展，同时支持快速查询相似图像并与目标信息匹配。在视频大数据中实时搜索比对特定的横向搜索目标。

Description

一种基于视频图像数据的分析系统及分析方法

技术领域

本发明属于图像处理技术领域，尤其涉及一种基于视频图像数据的分析系统及分析方法。

背景技术

在视频图像数据（非结构化数据）的分析上，目前大多是针对单张图像，采用传统算法对图像进行识别，定位特定目标（比如检测人的双眼和鼻子的位置，车的形状），然后对目标进行建模，生成目标的特征值，同时将目标图片及其特征值保存。在目标越来越多后，保存的图片和特征值也越来越多。在将待识别的图像经过分析后得到的特征值与数据库中保存的特征值比较，返回相似度最高的几个目标数据。在数据库数据很多的情况下，查询搜索的速度较慢，同时传统的算法对目标的检测效果不佳。

在分析视频流中的目标时，需要跟踪目标并获取特征，然后再与数据库中的数据比较，无法适用于几十甚至几百路视频流同时分析。

发明内容

本发明的目的在于提供一种基于视频图像数据的分析系统及分析方法，旨在解决在分析视频流中的目标时，需要跟踪目标并获取特征，然后再与数据库中的数据比较，无法适用于几十甚至几百路视频流同时分析，数据量大时查询搜索效率降低，查询时数据的可靠性和可扩展性差的问题。

本发明是这样实现的，一种基于视频图像数据的分析方法，所述基于视频图像数据的分析方法包括：

将静态图片输入内存计算机引擎Spark中MLlib模块，并识别出图中特定目标；然后将目标和目标的特征信息保存到分布式数据库HBase；人工将HBase中的目标与基础资料库匹配并标识。

将待识别的图像输入Spark MLlib模块，识别图中的特定目标；然后通过Spark的SQL模块去HBase中查询特征值相近的目标；将相似度超过所设定的阈值（人工设定）的目标及目标信息输出到前端界面并展示。

将视频流输入CaffeOnSaprk模块，再通过一系列的深度学习，目标检测，目标过滤，目标跟踪，目标扣取等算法扣取出目标特征后对其建模；然后通过Spark SQL去HBase数据库中比对相似目标；同时将分析结果推送到Kafka模块，最后推送到订阅方。

本发明的另一目的在于提供一种基于视频图像数据的分析系统，包括：

内存计算机引擎Spark中MLlib模块，用于识别静态图片中的特定目标，然后将目标和目标的特征信息保存到分布式数据库HBase；人工将HBase中的目标与基础资料库匹配；该模块还用于识别待识别的图像中的特定目标。

内存计算机引擎Spark中的SQL模块，用于去HBase数据库中查询特征值相近的目标，将相似度超过所设定的阈值的目标及目标信息输出到前端界面并展示。

CaffeOnSpark模块，用于解析连续的视频流，再通过背景学习，目标检测，目标过滤，目标跟踪，目标扣取的算法后，对扣取出来的目标进行特征建模，然后通过Spark SQL模块去HBase数据库中比对相似目标，同时将分析结果推送到Kafka模块，最后推送到订阅方。

分布式数据库HBase模块，用于数据的存储、查询、修改等操作。

Kafka订阅模块，用于推送分析结果给订阅方。

进一步，人工将HBase中的目标与基础资料库匹配的信息包括个人的基本信息。

现有技术中，随着这些年机器学习的发展，机器学习越来越多的被应用到视频图像分析上。本发明，采用机器学习的方式对静态图像和动态视频图像进行分析，并将分析结果建模，保存到分布式数据库HBase中。解决了数据量大之后，查询搜索效率降低的问题。同时引入内存计算引擎Spark来加速视频分析。在这种模式下，可以支撑大规模的视频流接入系统，同时在各个视频流中搜索特定目标。在查询时使用Spark SQL来查询HBase中的数据。鉴于HBase的分布式特性，数据的可靠性和可扩展性得到提升。

本发明分布式存储的可分类的特征库，方便扩展，同时支持快速查询相似图像并与目标信息匹配。在视频大数据中实时搜索比对特定目标（横向搜索）。

传统数据库事务性特别强，要求数据完整性及安全性，造成系统可用性以及伸缩性大打折扣。对于高并发的访问量，数据库性能不是很好，类似于互联网这样的访问量容易造成宕机。

HBase是基于列存储的数据库与传统的基于行存储的关系型数据库相比，可扩展性好。Hbase是一个面向列存储的分布式存储系统，它的优点在于可以实现高性能的并发读写操作，同时Hbase还会对数据进行透明的切分，这样就使得存储本身具有了水平伸缩性。

附图说明

图1是本发明实施例提供的基于视频图像数据的分析方法流程图。

图2是本发明实施例提供的基于视频图像数据的分析系统示意图。

图中：1、Spark MLlib模块；2、Spark SQL 模块；3、CaffeOnSpark模块；4：HBase模块；5：Kafka模块。

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎，而Sparkmillib和Spark SQL是Spark提供的库之一，其他还包含：DataFrames、GraphX、SparkStreaming，以供开发者在同一应用中无缝组合使用。

CaffeOnSpark模块是雅虎开源的一款基于hadoop/spark的分布式深度学习框架，其集Caffe和Spark之长用于大规模分布式深度学习，意在使得深度学习训练和测试能被嵌入到Spark应用程序中。

HBase是分布式存储系统。

Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者规模的网站中的所有动作流数据。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

下面结合附图对本发明的应用原理作详细描述。

如图1所示，本发明实施例提供的基于视频图像数据的分析方法，包括：

利用内存计算机引擎Spark中MLlib模块和分布式数据库HBase；将静态图片输入内存计算机引擎Spark中MLlib模块，并识别出图中特定目标；然后将目标和目标的特征信息保存到分布式数据库HBase；人工将HBase中的目标与基础资料库匹配并标识。

利用内存计算机引擎Spark中MLlib模块，SQL模块和分布式数据库HBase

利用深度学习CaffeOnSaprk模块，内存计算机引擎Spark中SQL模块，分布式数据库HBase和推送模块Kafka；将视频流输入CaffeOnSaprk模块，再通过一系列的深度学习，目标检测，目标过滤，目标跟踪，目标扣取等算法扣取出目标特征后对其建模；然后通过SparkSQL去HBase数据库中比对相似目标；同时将分析结果推送到Kafka模块，最后推送到订阅方。

如图2所示，本发明实施例提供的基于视频图像数据的分析系统，包括：

内存计算机引擎Spark中MLlib模块1，用于识别静态图片中的特定目标（比如人，车，动物等等），然后将目标和目标的特征信息保存到分布式数据库HBase模块4；人工将HBase中的目标与基础资料库匹配（比如匹配人和对应这个人的基本信息）；该模块还用于识别待识别的图像中的特定目标。

内存计算机引擎Spark中的SQL模块2，用于去HBase数据库中查询特征值相近的目标，将相似度超过所设定的阈值的目标及目标信息输出到前端界面并展示。

CaffeOnSpark模块3，用于解析连续的视频流（连续的视频帧），再通过背景学习，目标检测，目标过滤，目标跟踪，目标扣取的算法后，对扣取出来的目标进行特征建模，然后通过Spark SQL模块去HBase数据库中比对相似目标，同时将分析结果推送到Kafka模块，最后推送到订阅方。

Kafka订阅模块5，用于推送分析结果给订阅方。

现有技术中，随着这些年机器学习的发展，机器学习越来越多的被应用到视频图像分析上。本发明，采用机器学习的方式对静态图像和态视频图像进行分析，并将分析结果建模，保存到分布式数据库HBase中。解决了数据量大之后，查询搜索效率降低的问题。同时引入内存计算引擎spark来加速视频分析。在这种模式下，可以支撑大规模的视频流接入系统，同时在各个视频流中搜索特定目标。在查询时使用Spark SQL来查询HBase中的数据。鉴于HBase的分布式特性，数据的可靠性和可扩展性得到提升。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于视频图像数据的分析方法，其特征在于，所述基于视频图像数据的分析方法包括：

利用内存计算机引擎Spark中MLlib模块和分布式数据库HBase；将静态图片输入内存计算机引擎Spark中MLlib模块，并识别出图中特定目标；然后将目标和目标的特征信息保存到分布式数据库HBase；人工将HBase中的目标与基础资料库匹配并标识；

将待识别的图像输入Spark MLlib模块，识别图中的特定目标；然后通过Spark的SQL模块去HBase中查询特征值相近的目标；将相似度超过所设定的阈值（人工设定）的目标及目标信息输出到前端界面并展示；

2.一种如权利要求1所述方法的基于视频图像数据的分析系统，其特征在于，所述基于视频图像数据的分析系统，包括：

内存计算机引擎Spark中MLlib模块，用于识别静态图片中的特定目标，然后将目标和目标的特征信息保存到分布式数据库HBase；人工将HBase中的目标与基础资料库匹配；该模块还用于识别待识别的图像中的特定目标；

内存计算机引擎Spark中的SQL模块，用于去HBase数据库中查询特征值相近的目标，将相似度超过所设定的阈值的目标及目标信息输出到前端界面并展示；

CaffeOnSpark模块，用于解析连续的视频流，再通过背景学习，目标检测，目标过滤，目标跟踪，目标扣取的算法后，对扣取出来的目标进行特征建模，然后通过Spark SQL模块去HBase数据库中比对相似目标，同时将分析结果推送到Kafka模块，最后推送到订阅方；

分布式数据库HBase模块，用于数据的存储、查询、修改等操作；

Kafka订阅模块，用于推送分析结果给订阅方。

3.如权利要求2所述的基于视频图像基础数据的录入系统，其特征在于，人工将HBase中的目标与基础资料库匹配的信息包括个人的基本信息。