CN110866165A

CN110866165A - 一种网络视频采集方法及系统

Info

Publication number: CN110866165A
Application number: CN201911063184.5A
Authority: CN
Inventors: 夏光升; 孙涛
Original assignee: Tianjin Rui Digital Security System Ltd By Share Ltd
Current assignee: Tianjin Rui Digital Security System Ltd By Share Ltd
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2020-03-06

Abstract

本发明属于网络安全监控技术领域，特别涉及一种网络视频采集方法及系统。所述视频采集方法包括：对网络地址数据进行清洗处理；根据清洗处理后的所述网络地址数据，生成网页抓取任务；执行所述网页抓取任务，下载网页中的视频数据；对完成下载的所述视频数据进行保存。本发明可以对海量的视频数据实现分布式下载，处理能力强、系统可靠，可以根据处理量的规模，适应性调整系统中各服务器的数量。

Description

一种网络视频采集方法及系统

技术领域

本发明属于网络安全监控技术领域，特别涉及一种网络视频采集方法及系统。

背景技术

近年来随着计算机技术、网络技术和多媒体技术的飞速发展，媒体获取、传输和发布方式发生了巨大的变革，云计算、多媒体都得到了广泛的应用。越来越多用户已经可以方便地实现网络视频通信、订阅和播放网络上的多媒体数据，这些应用使得对网络多媒体的安全监控成为必然。多媒体安全涵盖了政治、经济、技术、文化、人身等多个层面，由于多媒体内容信息安全所占据的主导地位，在很大程度上其他的安全形态都由它延伸出来，但多媒体网络节点分散、强动态变化等特性使得其不易管理和安全性较差，因此，开展违规视频检测与分析将具有重要的意义。

在对互联网中的视频进行检测前，需要对互联网中的视频数据进行获取。由于互联网中的视频数据量大、类型多，并且不同网站的实现技术也不同，因此大批量获取互联网中不同的视频数据难度大。现提出一种网络视频采集方法及系统。

发明内容

针对上述问题，本发明提供了一种网络视频采集方法，所述视频采集方法包括：

对网络地址数据进行清洗处理；

根据清洗处理后的所述网络地址数据，生成网页抓取任务；

执行所述网页抓取任务，下载网页中的视频数据。

进一步地，所述对网络地址数据进行清洗处理包括：

通过MapReduce编程模型对存储在分布式文件系统中网络地址数据进行首次清洗处理；

将经过首次清洗处理后的网络地址数据转存至Hbase分布式存储系统；

利用HiveSql函数对所述Hbase分布式存储系统中的网络地址数据，进行二次清洗处理。

进一步地，所述清洗处理包括：删除不符合网络地址规则的网络地址数据、删除重复的网络地址数据中的一种或多种。

进一步地，所述生成网页抓取任务包括：

调取清洗处理后的网络地址数据；

将所述网络地址数据分为视频网络地址数据和非视频网络地址数据；

对所述视频网络地址数据进行流处理并保存；

根据所述非视频网络地址数据生成网页抓取任务。

进一步地，所述生成网页抓取任务还包括：

通过Kafka流处理平台调取清洗处理后的网络地址数据；

所述Kafka流处理平台将所述网络地址数据分为视频网络地址数据和非视频网络地址数据；

通过Storm分布式实时计算系统对所述视频网络地址数据进行流处理并保存；

所述Storm分布式实时计算系统根据所述非视频网络地址数据生成网页抓取任务。

进一步地，若所述执行网页抓取任务失败，则将所述网页抓取任务对应的网络地址数据保存至数据库服务器中，等待再次被调取执行。

进一步地，所述下载网页中的视频数据包括：下载所述网页抓取任务对应的网页中的视频数据、下载所述网页的链接网页中的视频数据。

本发明还提供了一种网络视频采集系统，所述视频采集系统包括：

清洗单元，用于对网络地址数据进行清洗处理；

任务生成单元，用于根据清洗处理后的所述网络地址数据，生成网页抓取任务；

视频下载单元，用于执行所述网页抓取任务，下载网页中的视频数据。

进一步地，所述清洗单元通过MapReduce编程模型对存储在分布式文件系统中的网络地址数据，进行首次清洗处理；

所述清洗单元将经过首次清洗处理后的网络地址数据转存至Hbase分布式存储系统；

所述清洗单元利用HiveSql函数对所述Hbase分布式存储系统中的网络地址数据，进行二次清洗处理。

进一步地，所述任务生成单元调取清洗处理后的网络地址数据；

所述任务生成单元将所述网络地址数据分为视频网络地址数据和非视频网络地址数据；

所述任务生成单元对所述视频网络地址数据进行流处理并保存；

所述任务生成单元根据所述非视频网络地址数据生成网页抓取任务。

本发明可以对海量的视频数据实现分布式下载，处理能力强、系统可靠，可以根据处理量的规模，适应性调整系统中各服务器的数量。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明实施例的视频采集方法的流程示意图；

图2示出了本发明实施例的视频采集方法的场景示意图；

图3示出了本发明实施例的视频采集系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地说明，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明公开了一种网络视频采集方法，如图1所示，所述方法的具体步骤如下：

步骤一：对网络地址数据进行清洗处理。

示例性地，互联网数据中心(IDC)访问日志和域名系统(DNS)解析日志自动记录普通大众用户浏览访问的网络地址数据(URL)。将上述网络地址数据(URL)存储在数据库服务器中，数据库服务器可以采用分布式文件系统(HDFS)、数据仓库工具(Hive)、Hbase分布式存储系统等Hadoop集群服务器中的一个或多个。

具体的，互联网数据中心(IDC)是指一种拥有完善的设备(包括高速互联网接入带宽、高性能局域网络、安全可靠的机房环境等)、专业化的管理、完善的应用的服务平台。在这个平台基础上，互联网数据中心(IDC)服务商为客户提供互联网基础平台服务(服务器托管、虚拟主机、邮件缓存、虚拟邮件等)以及各种增值服务(场地的租用服务、域名系统服务、负载均衡系统、数据库系统、数据备份服务等)。

具体的，域名系统(英文：Domain Name System，缩写：DNS)是互联网的一项服务。域名系统作为将域名和IP地址相互映射的一个分布式数据库，能够使人更方便地访问互联网。

具体的，Hadoop是一个由Apache基金会开发的分布式系统基础架构，是一个能够对大量数据进行分布式处理的软件框架。Hadoop的框架最核心的设计就是：分布式文件系统(HDFS)和MapReduce编程模型。分布式文件系统(HDFS)为海量的数据提供了存储，而MapReduce编程模型则为海量的数据提供了计算。

具体的，分布式文件系统(HDFS)是适合运行在通用硬件(commodity hardware)上的分布式文件系统。分布式文件系统(HDFS)具有高容错性的特点。分布式文件系统(HDFS)能够提供高吞吐量的数据访问，非常适合大规模数据集上的应用。

具体的，数据仓库工具(Hive)是一个基于Hadoop的数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的结构化查询语言(SQL)查询功能，可以将结构化查询语言(SQL)转换为MapReduce任务进行运行。

具体的，Hbase分布式存储系统是一个分布式的、面向列的、运行在HDFS之上的开源数据库，利用Hbase技术可在普通电脑服务器(PC Server)上搭建起大规模结构化存储集群。

示例性地，如图2所示，将网络地址数据(URL)以文件形式上传至分布式文件系统(HDFS)中作为基础数据源。

进一步地，将HiveSql函数、MapReduce编程模型作为数据清洗工具应对各类场景。

示例性地，利用HiveSql函数、MapReduce编程模型对网络地址数据进行清洗包括：

使用MapReduce编程模型将分布式文件系统(HDFS)中不符合地址规则的网络地址数据(URL)删除，将符合地址规则的网络地址数据保存至Hbase分布式存储系统。具体的，所述地址规则包括网络地址规则和视频网络地址规则。其中，视频网络地址规则可通过其后缀进行辨别，例如http://xxxx.com/xxxx.mp4。

将Hbase分布式存储系统中的网络地址数据映射到Hive数据库表中，使用HiveSql函数进行全表扫描、条件搜索，用于删除重复的网络地址数据(URL)、抽取指定网络地址数据(URL)等。例如：指定抽取AVI、rmvb、mp4等格式的网络地址数据(URL)。HiveSql函数、MapReduce编程模型是在离线条件下进行清洗过滤处理的。本发明采用的清洗过滤方式不限于上述几种方式。

进一步地，将清洗后的网络地址数据(URL)重新存储到Hbase分布式存储系统中，作为生产者数据源(Kafka数据源)。

本发明实施例对Hbase分布式存储系统和分布式文件系统(HDFS)进行组合使用。分布式文件系统(HDFS)只负责存储与备份未进行过处理的数据源，Hbase分布式存储系统负责存储首次清洗的网络地址数据。Hbase分布式存储系统具备索引访问的高效性(毫秒级)，通过Hbase索引(RowKey)在海量结果中可以实现快速地更新、访问等操作，便于人工对数据的分析、数据更新以及重复清洗。

具体的，未进行处理的网络地址数据存储量大，且存在各种数据错误类型，因此利用分布式文件系统(HDFS)具有存储量大、高容错性的特点，对未进行清洗的网络地址数据进行存储。清洗后的网络地址数据格式较为统一、准确，利用Hbase分布式存储系统即可满足存储要求。而数据仓库工具(Hive)可以对分布式文件系统(HDFS)中的数据清洗筛分，并将清洗后的数据存储在Hbase分布式存储系统中。即从大量数据中剔除无用的数据，保留有用的数据。利用分布式文件系统(HDFS)、数据仓库工具(Hive)和Hbase分布式存储系统配合存储、处理不同数据，提高了系统数据的稳定性和安全性。

步骤二：根据清洗处理后的所述网络地址数据，生成网页抓取任务。

利用Kafka流处理平台和Storm分布式实时计算系统，对上述清洗后的网络地址数据(URL)进行分类，生成网页抓取任务。

具体的，将上述生产者(Kafka数据源)写入Kafka流处理平台的Topic类别，Kafka流处理平台将Topic类别的信息流分发到各节点中流入Storm集群等待消费。示例性地，Kafka流处理平台将所述网络地址数据(URL)分为视频网络地址数据和非视频网络地址数据两类，并将分类后的网络地址数据(URL)分发到集群中各个节点服务器中。具体的，视频网络地址数据的后缀为视频文件类型，例如：.MP4、.AVI等。各节点服务器通过Storm分布式实时计算系统的Spout获取分类后所述网络地址数据，Spout将所述网络地址数据分发给不同的Bolt。Bolt对所述网络地址数据进行处理，将视频网络地址数据通过IO流保存；根据非视频网络地址数据则生成网页抓取任务。

各Storm分布式实时计算系统可以同时执行同一类网络地址数据(URL)对应的多个网页抓取任务。提高了每个节点服务器中网页抓取任务处理的并行度，从而实现了高速的流式分布式网页抓取架构。

具体的，Kafka流处理平台是一个开源的分布式流媒体平台，是基于发布订阅的容错消息系统。其主要包括三个功能：

(1)发布和订阅消息流，该功能类似于消息队列。

(2)以容错的方式记录消息流；具体的，Kafka流处理平台以文件的方式来存储消息流。

(3)可以在消息发布的过程中，对消息进行处理。

具体的，Storm分布式实时计算系统是一个开源式系统，可以实时处理流数据。Storm分布式实时计算系统的核心技术分为两种：Spout(喷嘴)和Bolt(闩)。

Spout是Storm分布式实时计算系统中流的来源，是拓扑(topology)的消息生产者。通常Spout从外部数据源(如Kafka流处理平台输出的消息队列)中读取元组数据(tuple，如网页抓取任务)并输送至拓扑中。在拓扑中所有的计算逻辑都是在Bolt中实现的。一个Bolt可以处理任意数量的输入流，产生任意数量的输出流。Bolt可以做函数处理、过滤、流的合并、聚合、存储到数据库等操作。Storm分布式实时计算系统中可以设置多个Spout和多个Bolt，多个Spout和多个Bolt之间可以实现信息交叉传输。

具体的，Kafka流处理平台对网络地址数据的分发处理、Storm分布式实时计算系统对网页抓取处理，上述两个处理过程可自动执行。在执行过程中，综合判断各业务节点的运转程度，监测各业务节点的任务执行情况及资源使用情况，自动将闲置的资源分配给当前急需的业务节点，实现所有业务节点的负载均衡。

步骤三：执行所述网页抓取任务，下载静态网页与动态网页的视频数据。

任务开始后加载Google Chrome驱动，在驱动中设置AJAX、JS等Web加载形式，利用浏览器自动化测试框架(Selenium)对浏览器页面进行渲染，对上述IO流中的视频网络地址数据对应网络页面中的视频进行下载。

另外，Storm分布式实时计算系统利用浏览器自动化测试框架(Selenium)执行网页抓取任务。

具体的，浏览器自动化测试框架(Selenium)是一个用于Web应用程序测试的工具。浏览器自动化测试框架(Selenium)直接运行在浏览器中，其可以模仿用户在浏览器上的操作方式。浏览器自动化测试框架(Selenium)支持的浏览器包括IE、Mozilla Firefox、Safari、Google Chrome、Opera等。

具体的，浏览器自动化测试框架(Selenium)可以驱动浏览器去执行请求和操作，这些执行请求和操作的信号不是来源于鼠标或键盘，而是来源于浏览器自动化测试框架(Selenium)的应用程序接口(API)。自然人用户通过计算机输入输出设备对网页的所有操作，浏览器自动化测试框架均可以通过驱动浏览器来实现。对网页的操作包括输入、点击、滑动、验证等。

示例性地，将浏览器自动化测试框架(Selenium)在Google Chrome浏览器上运行。浏览器自动化测试框架根据网页抓取任务，在浏览器上打开网页抓取任务对应的网络页面。由于该网络网页内无视频数据，浏览器自动化测试框架自动导航浏览器进入所述网络页面的其它链接页面。若所述链接页面存在视频数据，则获取所述链接页面对应的视频网络地址数据。对所述视频网络地址数据进行IO流处理。

进一步地，利用浏览器自动化测试框架(Selenium)对浏览器页面进行渲染，通过IO流，下载上述视频网络地址数据对应网络页面中的视频。

采用浏览器自动化测试框架(Selenium)+Google Chrome浏览器的网页信息抓取技术，实现了页面中视频网络地址数据的获取。

在页面抓取过程中，对于无法打开以及返回错误信息的网页进行自动重爬，直至超过重爬阈值。将超过重爬阈值的网络地址数据进行归档，用于后面进行迭代抓取。例如：浏览器自动化测试框架在浏览器上对某网页内容进行爬取。爬取失败后，浏览器自动化测试框架控制自动重爬，重爬失败后再次重爬。假设该网页的重爬阈值为4，即在连续四次重爬失败后，将该网页的网络地址数据归档保存至数据库服务器中，等待后期再次被调取，重新进行网页内容迭代抓取。

利用浏览器自动化测试框架爬取网页内容，不限于下载网页中的视频，也可以下载网页中的音频、图片、文字等其它数据。

步骤四：对完成下载的所述视频数据进行保存。

浏览器自动化测试框架(Selenium)驱动浏览器打开网页，在抓取到完整的渲染之后的网页内容时，对网页中的视频进行下载和保存。视频文件以MP4、AVI、RMVB或其它视频格式保存在数据库服务器中，数据库服务器可以采用分布式文件系统(HDFS)、数据仓库工具(Hive)、Hbase分布式存储系统等Hadoop集群服务器。

对网页中的其它数据(如语音、图片等)，可以按照其和视频数据的关联性，保存至关系型数据库(例如MySQL)中，可用于前台查询展示。

为实现上述视频采集方法，本发明还提供了一种网络视频采集系统，如图3所示，所述视频采集系统包括：清洗单元、任务生成单元、视频下载单元、数据库服务器。

所述清洗单元，用于对网络地址数据(URL)进行清洗处理。

所述任务生成单元，用于根据清洗处理后的所述网络地址数据，生成网页抓取任务。

所述视频下载单元，用于执行所述网页抓取任务，下载网页中的视频数据。

所述数据库服务器，用于对完成下载的所述视频数据进行保存。

所述视频采集系统还包括：其它数据下载单元，用于执行所述网页抓取任务，下载网页中的音频和/或图片和/或文字数据。

具体的，所述清洗单元通过MapReduce编程模型对存储在分布式文件系统中的网络地址数据，进行首次清洗处理；

所述清洗单元将经过首次清洗处理后的网络地址数据存储至Hbase分布式存储系统；

所述任务生成单元调取清洗处理后的网络地址数据；

本发明提出的视频采集系统可以设置多台服务器。采用多台服务器进行海量视频的分布式下载，分布式下载的优势在于处理能力强。多台服务器运行大幅提高了系统的可靠性，同时可以根据需求规模的增减，对系统的规模进行高效的动态伸缩，及时调整系统中服务器的数量。

所述视频采集系统以浏览器自动化测试框架(Selenium)为控制台，将需要爬取的搜索源根据策略划分为多个网页抓取任务，控制台将网页抓取任务以文件的形式传递给各云端爬取服务器。各服务器接收网页抓取任务之后进行域名爬取，同时将爬取到的结果存放到数据库集群服务器上。控制台对各爬虫服务器爬取到的数据进行归纳、汇总，同时为用户提供前台数据展现。

所述视频采集系统通过云存储的方式，对下载完成的视频进行留存。云存储是指通过集群应用、网络技术或分布式文件系统等功能，将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作，共同对外提供数据存储和业务访问功能的一个系统。

同时，所述视频采集系统将下载到的视频全部存放在大数据文件存储服务器上，提高了系统数据的稳定性和安全性。

尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种网络视频采集方法，其特征在于，所述视频采集方法包括：

对网络地址数据进行清洗处理；

根据清洗处理后的所述网络地址数据，生成网页抓取任务；

执行所述网页抓取任务，下载网页中的视频数据。

2.根据权利要求1所述的视频采集方法，其特征在于，所述对网络地址数据进行清洗处理包括：

3.根据权利要求1或2所述的视频采集方法，其特征在于，所述清洗处理包括：删除不符合网络地址规则的网络地址数据、删除重复的网络地址数据中的一种或多种。

4.根据权利要求1所述的视频采集方法，其特征在于，所述生成网页抓取任务包括：

调取清洗处理后的网络地址数据；

对所述视频网络地址数据进行流处理并保存；

根据所述非视频网络地址数据生成网页抓取任务。

5.根据权利要求4所述的视频采集方法，其特征在于，所述生成网页抓取任务还包括：

通过Kafka流处理平台调取清洗处理后的网络地址数据；

6.根据权利要求1所述的视频采集方法，其特征在于，若所述执行网页抓取任务失败，则将所述网页抓取任务对应的网络地址数据保存至数据库服务器中，等待再次被调取执行。

7.根据权利要求1所述的视频采集方法，其特征在于，所述下载网页中的视频数据包括：下载所述网页抓取任务对应的网页中的视频数据、下载所述网页的链接网页中的视频数据。

8.一种网络视频采集系统，其特征在于，所述视频采集系统包括：

清洗单元，用于对网络地址数据进行清洗处理；

9.根据权利要求8所述的视频采集系统，其特征在于，

所述清洗单元通过MapReduce编程模型对存储在分布式文件系统中的网络地址数据，进行首次清洗处理；

10.根据权利要求8所述的视频采集系统，其特征在于，

所述任务生成单元调取清洗处理后的网络地址数据；