CN104579833B - 一种基于Hadoop的FLASH P2P流媒体实时监测方法 - Google Patents

一种基于Hadoop的FLASH P2P流媒体实时监测方法 Download PDF

Info

Publication number
CN104579833B
CN104579833B CN201410842004.4A CN201410842004A CN104579833B CN 104579833 B CN104579833 B CN 104579833B CN 201410842004 A CN201410842004 A CN 201410842004A CN 104579833 B CN104579833 B CN 104579833B
Authority
CN
China
Prior art keywords
mapping
task
data
flash
key
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410842004.4A
Other languages
English (en)
Other versions
CN104579833A (zh
Inventor
丁杰
刁柏青
孟祥君
张伟昌
杨佩
潘森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
China Electric Power Research Institute Co Ltd CEPRI
Smart Grid Research Institute of SGCC
Original Assignee
State Grid Corp of China SGCC
China Electric Power Research Institute Co Ltd CEPRI
Global Energy Interconnection Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, China Electric Power Research Institute Co Ltd CEPRI, Global Energy Interconnection Research Institute filed Critical State Grid Corp of China SGCC
Priority to CN201410842004.4A priority Critical patent/CN104579833B/zh
Publication of CN104579833A publication Critical patent/CN104579833A/zh
Application granted granted Critical
Publication of CN104579833B publication Critical patent/CN104579833B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明涉及一种基于Hadoop的FLASH P2P流媒体实时监测方法,所述方法包括客户端启动作业,通过任务调度器获取该作业,并将其放入作业队列中;通过所述客户端开启嗅探器,获取数据包,将所述数据包发送给HDFS;从所述HDFS获取输入划分信息,创建映射任务,并将每个映射任务分配给任务跟踪器;所述任务跟踪器收到映射任务后,从HDFS获取映射化简程序MapReduce,同时对该任务执行映射和化简。由此克服了数据量庞大不能及时处理的缺陷。

Description

一种基于Hadoop的FLASH P2P流媒体实时监测方法
技术领域
本发明涉及一种实时监测方法,具体涉及一种基于Hadoop的FLASH P2P流媒体实时监测方法。
背景技术
FLASH P2P技术是现在视频网站用的比较成熟的技术。Flash P2P视频点播系统则使用Flash P2p技术,提供了一种全新分发点播视频的方式,在保证观众良好观看体验的同时降低了服务器负担和带宽使用,显著提高视频服务器的并发量和降低服务器和带宽成本。目前国内多家视频门户网站采用了Flash P2P技术,例如优酷、爱奇艺、搜狐等。
Hadoop是基于分布式技术、并行处理技术和网格计算技术发展的产物,是为了适应用海量数据和大规模计算等新需求而发展出来的模型架构。Hadoop也是一个分布式存储和分布式计算的框架,可以高效的存储海量数据,而且可以运行、编写分布式应用程序处理海量数据。一方面Hadoop在编写和运行大型分布式程序计算方面具有很大优势,主要是Hadoop具有的方便和简捷的特性。另一方面,Hadoop具有极高的拓展性,使得Hadoop在研究和应用领域得到了广泛的应用,且广受欢迎。
Hadoop数据中心由连接在一起的千上万的计算机构成,用户通过普通电脑接入就可以使用数据中心,根据自己的需求进行存储。HDFS作为Hadoop的分布式文件系统,具有高度的稳定性和存储效率;提供了高效的数据存储,为用户提供快速、稳定的数据存储服务。Map(化简)Reduce(映射)是Hadoop的核心计算数据模型,用户在使用Map(化简)Reduce(映射)模型进行大规模数据处理时,可以将主要精力放在如何编写Map(化简)和Reduce(映射)函数上,其它并行计算中的复杂问题诸如分布式文件系统、工作调度、容错、机器间通信等都交给Map(化简)Reduce(映射)系统处理,极大程度上降低了整个编程的难度。
发明内容
为了实现上述目的,本发明提出一种基于hadoop的FLASH P2P流媒体实时监测技术,提高了视频的数据处理能力,更好的分析用户行为,优化了网站内容,解决了数据量庞大而无法及时处理的问题,同时更具极高的时效性,商用性。
本发明的目的是采用下述技术方案实现的:
一种基于Hadoop的FLASH P2P流媒体实时监测方法,所述方法包括:
(1)客户端启动作业,通过任务调度器获取该作业,并将其放入作业队列中;
(2)通过所述客户端开启嗅探器,获取数据包,将所述数据包发送给HDFS;
(3)从所述HDFS获取输入划分信息,创建映射任务,并将每个映射任务分配给任务跟踪器;
(4)所述任务跟踪器收到映射任务后,从HDFS获取映射化简程序Map(化简)Reduce(映射),同时对该任务执行映射和化简。
优选的,所述步骤(1)中,所述作业用于将FLASH P2P流量从网络流量中分离;
优选的,所述步骤(2)中,每隔0.1s将获取的数据包发送给HDFS;其中,所述数据包包括TCP、UDP、HTTP和DNS。
优选的,所述步骤(4)中执行映射的方法包括:在执行映射前,确认映射任务的输入/输出的路径,并输入目录下的数据文件;获取第一<键,值>、中间<键,值>和第二<键,值>,先根据第一<键,值>进行映射计算,对其输出结果进行第二次映射计算,得到映射输出结果进行化简输出,并将数据输出到设定的目录下。
进一步地,第一次映射计算,包括通过映射函数根据数据包类型筛选UDP数据包,生成所述中间<键,值>,并删除UDP数据包外的其他数据包,其中键值为该UDP数据包类型,value值为UDP数据包。
进一步地,第二次映射计算,包括将所述中间<键,值>中的值重新作为数据,进行第二次映射计算,定义第二<键,值>;其中键值为数据包的访问端ID,如果所述访问端ID能够被4整除,则该数据包为FLASH P2P流量数据包。
进一步地,所述化简输出包括:将第二次映射的输出结果放入一个环形缓冲区,当该缓冲区快要溢出时,在本地文件系统中创建一个溢出文件,将该缓冲区中的数据写入该文件;当缓冲区中的数据到达一定大小时,开始写入硬盘;
写入前,将数据划分为与化简任务数目相同的分区;写入时,化简任务向任务调度器获取对应的映射输出位置和数据。
进一步地,所述任务跟踪器周期性的向任务调度器发送心跳包,告知任务调度器运行新的作业,此时任务调度器调动映射从HDFS获取新的数据块,无需重新获取其他信息;所述心跳携带的信息为当前映射任务完成的进度信息;当任务调度器收到作业的最后一个任务完成信息时,把该作业设置为“成功”。
与最接近的现有技术比,本发明的优异效果为:
1、改变了传统的计算模式,缩短了计算时间,通过该系统能够更加有效的监测到用户交互的实时数据。
2、通过该技术能够快速分析视频产生的庞大的数据量,迅速分离flash p2p流量。
3、可以在分离出的flash p2p流量中可以获取用户的潜藏的信息,进行商用,为客户创造更大的利益。
附图说明
图1为本发明提供的基于Hadoop的FLASH P2P2流媒体实时监测方法流程图
图2为本发明提供的基于Hadoop的FLASH P2P2流媒体实时监测框图
图3为本发明提供的基于Hadoop的FLASH P2P2流媒体实时监测时序图
具体实施方式
下面结合附图对本发明作进一步详细说明:
如图1所示,一种基于Hadoop的FLASH P2P流媒体实时监测方法,所述方法包括:
结合图2、图3所示,(1)客户端启动作业,通过Job tracker(任务调度器)获取该作业,并将其放入作业队列中;所述步骤(1)中,所述作业用于将FLASH P2P流量从网络流量中分离;
(2)通过所述客户端开启嗅探器,获取数据包,将所述数据包发送给HDFS;所述步骤(2)中,每隔0.1s将获取的数据包发送给HDFS;其中,所述数据包包括TCP、UDP、HTTP和DNS。
(3)从所述HDFS获取输入划分信息,创建Map(化简)任务,并将每个Map(化简)任务分配给Task tracker(任务跟踪器);
(4)所述Task tracker(任务跟踪器)收到Map(化简)任务后,从HDFS获取MapReduce(化简映射)程序,同时对该任务执行Map(化简)和Reduce(映射)。
所述步骤(4)中执行Map(化简)的方法包括:在执行Map(化简)前,确认Map(化简)任务的输入/输出的路径,并输入目录下的数据文件;获取第一<key,value>、中间<key,value>和第二<key,value>,先根据第一<key,value>进行Map(化简)计算,对其输出结果进行第二次Map(化简)计算,得到Map(化简)输出结果进行Reduce(映射)输出,并将数据输出到设定的目录下。
第一次Map(化简)计算,包括通过Map(化简)函数根据数据包类型筛选UDP数据包,生成所述中间<key,value>,并删除UDP数据包外的其他数据包,其中key值为该UDP数据包类型,value值为UDP数据包。
第二次Map(化简)计算,包括将所述中间<key,value>中的value重新作为数据,进行第二次Map(化简)计算,定义第二<key,value>;其中key值为数据包的(访问端ID)Sessionid,如果所述(访问端ID)Sessionid能够被4整除,则该数据包为FLASH P2P流量数据包。
所述Reduce(映射)输出包括:将第二次Map(化简)的输出结果放入一个环形缓冲区,当该缓冲区快要溢出时,在本地文件系统中创建一个溢出文件,将该缓冲区中的数据写入该文件;当缓冲区中的数据到达一定大小时,开始写入硬盘;
写入前,将数据划分为与Reduce(映射)任务数目相同的分区;写入时,Reduce(映射)任务向Job tracker(任务调度器)获取对应的Map(化简)输出位置和数据。
所述Task tracker(任务跟踪器)周期性的向Job tracker(任务调度器)发送心跳包,告知Job tracker(任务调度器)运行新的作业,此时Job tracker(任务调度器)调动Map(化简)从HDFS获取新的数据块,无需重新获取其他信息;所述心跳携带的信息为当前Map(化简)任务完成的进度信息;当Job tracker(任务调度器)收到作业的最后一个任务完成信息时,把该作业设置为“成功”。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员依然可以对本发明的具体实施方式进行修改或者等同替换,而这些未脱离本发明精神和范围的任何修改或者等同替换,其均在申请待批的本发明的权利要求保护范围之内。

Claims (6)

1.一种基于Hadoop的FLASH P2P流媒体实时监测方法,其特征在于,所述方法包括:
(1)客户端启动作业,通过任务调度器获取该作业,并将其放入作业队列中;
(2)通过所述客户端开启嗅探器,获取数据包,将所述数据包发送给HDFS;
(3)从所述HDFS获取输入划分信息,创建映射任务,并将每个映射任务分配给任务跟踪器;
(4)所述任务跟踪器收到映射任务后,从HDFS获取映射化简程序MapReduce,同时对该任务执行映射和化简;
所述步骤(4)中执行映射的方法包括:在执行映射前,确认映射任务的输入/输出的路径,并输入目录下的数据文件;获取第一<键,值>、中间<键,值>和第二<键,值>,先根据第一<键,值>进行映射计算,对其输出结果进行第二次映射计算,得到映射输出结果进行化简输出,并将数据输出到设定的目录下;
第一次映射计算,包括通过映射函数根据数据包类型筛选UDP数据包,生成所述中间<键,值>,并删除UDP数据包外的其他数据包,其中键值为该UDP数据包类型,value值为UDP数据包。
2.如权利要求1所述的FLASH P2P流媒体实时监测方法,其特征在于,所述步骤(1)中,所述作业用于将FLASH P2P流量从网络流量中分离。
3.如权利要求1所述的FLASH P2P流媒体实时监测方法,其特征在于,所述步骤(2)中,每隔0.1s将获取的数据包发送给HDFS;其中,所述数据包包括TCP、UDP、HTTP和DNS。
4.如权利要求1所述的FLASH P2P流媒体实时监测方法,其特征在于,第二次映射计算,包括将所述中间<键,值>中的值重新作为数据,进行第二次映射计算,定义第二<键,值>;其中键值为数据包的访问端ID,如果所述访问端ID能够被4整除,则该数据包为FLASH P2P流量数据包。
5.如权利要求1所述的FLASH P2P流媒体实时监测方法,其特征在于,所述化简输出包括:将第二次映射的输出结果放入一个环形缓冲区,当该缓冲区快要溢出时,在本地文件系统中创建一个溢出文件,将该缓冲区中的数据写入该文件;当缓冲区中的数据到达一定大小时,开始写入硬盘;
写入前,将数据划分为与化简任务数目相同的分区;写入时,化简任务向任务调度器获取对应的映射输出位置和数据。
6.如权利要求5所述的FLASH P2P流媒体实时监测方法,其特征在于,所述任务跟踪器周期性的向任务调度器发送心跳包,告知任务调度器运行新的作业,此时任务调度器调动映射从HDFS获取新的数据块,无需重新获取其他信息;所述心跳携带的信息为当前映射任务完成的进度信息;当任务调度器收到作业的最后一个任务完成信息时,把该作业设置为“成功”。
CN201410842004.4A 2014-12-30 2014-12-30 一种基于Hadoop的FLASH P2P流媒体实时监测方法 Active CN104579833B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410842004.4A CN104579833B (zh) 2014-12-30 2014-12-30 一种基于Hadoop的FLASH P2P流媒体实时监测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410842004.4A CN104579833B (zh) 2014-12-30 2014-12-30 一种基于Hadoop的FLASH P2P流媒体实时监测方法

Publications (2)

Publication Number Publication Date
CN104579833A CN104579833A (zh) 2015-04-29
CN104579833B true CN104579833B (zh) 2018-10-09

Family

ID=53095097

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410842004.4A Active CN104579833B (zh) 2014-12-30 2014-12-30 一种基于Hadoop的FLASH P2P流媒体实时监测方法

Country Status (1)

Country Link
CN (1) CN104579833B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104850640A (zh) * 2015-05-26 2015-08-19 华北电力大学(保定) 一种基于HBase的电网设备状态监测数据存储和查询方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102685221A (zh) * 2012-04-29 2012-09-19 华北电力大学(保定) 一种状态监测数据的分布式存储与并行挖掘方法
CN103064742A (zh) * 2012-12-25 2013-04-24 中国科学院深圳先进技术研究院 一种hadoop集群的自动部署系统及方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102685221A (zh) * 2012-04-29 2012-09-19 华北电力大学(保定) 一种状态监测数据的分布式存储与并行挖掘方法
CN103064742A (zh) * 2012-12-25 2013-04-24 中国科学院深圳先进技术研究院 一种hadoop集群的自动部署系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《基于MapReduce的Flash P2P VoD系统异常监测》;王菁菁等;《厦门大学学报》;20130728;第52卷(第4期);第459页-第461页,图1 *

Also Published As

Publication number Publication date
CN104579833A (zh) 2015-04-29

Similar Documents

Publication Publication Date Title
US10218776B2 (en) Distribution of cloud services in a cloud environment
KR102082355B1 (ko) 대용량 네트워크 데이터의 처리 기법
CN111459986B (zh) 数据计算系统及方法
CN104834722A (zh) 基于cdn的内容管理系统
CN103761309A (zh) 一种运营数据处理方法及系统
Mehdipour et al. FOG-Engine: Towards big data analytics in the fog
CN108600300B (zh) 日志数据处理方法及装置
CN108494868A (zh) 一种基于云业务系统下的负载均衡方法及系统
US20180247321A1 (en) Platform for management of marketing campaigns across multiple distribution mediums
CN104391868B (zh) 动态页面静态化的装置和方法
US20200159764A1 (en) Method for Processing and Displaying Real-Time Social Data on Map
CN105979273A (zh) 基于大数据及云计算的智能商用电视的云监控与云运维
CN102546807B (zh) 基于云计算架构的网络服务系统
Hong et al. Animation rendering on multimedia fog computing platforms
CN106815254A (zh) 一种数据处理方法和装置
CN103260050A (zh) 基于Google App Engine云平台的视频点播系统
CN109684078A (zh) 用于spark streaming的资源动态分配方法和系统
US20180150234A1 (en) Cloud volume storage
Teli et al. Big data migration between data centers in online cloud environment
CN104408047A (zh) 一种基于nfs文件服务器的文本文件多机并行上传到hdfs方法
CN104618740A (zh) 一种基于云计算环境的多媒体点播系统
CN101771703A (zh) 一种资讯服务系统和方法
CN103248636B (zh) 离线下载的系统及方法
Wang et al. Intelligent edge learning for personalized crowdsourced livecast: Challenges, opportunities, and solutions
CN104468710A (zh) 一种混合大数据处理系统及处理方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20160425

Address after: 100031 Xicheng District West Chang'an Avenue, No. 86, Beijing

Applicant after: State Grid Corporation of China

Applicant after: China Electric Power Research Institute

Applicant after: State Grid Smart Grid Institute

Address before: 100031 Xicheng District West Chang'an Avenue, No. 86, Beijing

Applicant before: State Grid Corporation of China

Applicant before: China Electric Power Research Institute

CB02 Change of applicant information

Address after: 100031 Xicheng District West Chang'an Avenue, No. 86, Beijing

Applicant after: State Grid Corporation of China

Applicant after: China Electric Power Research Institute

Applicant after: GLOBAL ENERGY INTERCONNECTION RESEARCH INSTITUTE

Address before: 100031 Xicheng District West Chang'an Avenue, No. 86, Beijing

Applicant before: State Grid Corporation of China

Applicant before: China Electric Power Research Institute

Applicant before: State Grid Smart Grid Institute

COR Change of bibliographic data
GR01 Patent grant
GR01 Patent grant