发明内容
有鉴于此,本发明提供了一种移动终端大数据处理方法、装置、大数据架构及存储介质,其可以收集、存储、处理、展示和管理移动终端数据,可以给用户和运营者提供一个安全、稳定和有效的环境。
本发明的第一个目的在于提供一种移动终端大数据处理方法。
本发明的第二个目的在于提供一种移动终端大数据处理装置。
本发明的第三个目的在于提供一种移动终端大数据架构。
本发明的第四个目的在于提供一种存储介质。
本发明的第一个目的可以通过采取如下技术方案达到:
一种移动终端大数据处理方法,所述方法包括:
获取移动终端数据;
利用计算引擎和处理框架对移动终端数据进行处理;其中,所述计算引擎用于对数据进行流处理,所述处理框架用于对数据进行批量处理。
进一步的,所述利用计算引擎和处理框架对移动终端数据进行处理,具体包括:
根据流的数量、持续时间、字节、用户数量以及时间/空间动态包,对流量数据进行分析;
从移动数据流量用户的角度,对移动终端应用完成各个子任务的相关数据进行采集和分析;
对移动终端用户的行为进行分析。
进一步的,所述获取移动终端数据之前,还包括:
接收流处理平台上传的移动终端数据;
根据应用需求,选择存储系统存储移动终端数据。
进一步的,所述根据应用需求,选择存储系统存储移动终端数据,具体包括:
针对移动终端数据,若存在访问频率大于或等于第一频率阈值的数据,则选择热存储系统存储;
针对移动终端数据,若存在访问频率小于第一频率阈值,且大于或等于第二频率阈值的数据,则选择温存储系统存储;
针对移动终端数据,若存在访问频率小于第二频率阈值的数据,则选择冷存储系统存储。
本发明的第二个目的可以通过采取如下技术方案达到:
一种移动终端大数据处理装置,所述装置包括:
获取单元,用于获取移动终端数据;
处理单元,用于利用计算引擎和处理框架对移动终端数据进行处理;其中,所述计算引擎用于对数据进行流处理,所述处理框架用于对数据进行批量处理。
进一步的,所述获取单元之前,还包括:
接收单元,用于接收流处理平台上传的移动终端数据;
选择单元,用于根据应用需求,选择存储系统存储移动终端数据。
本发明的第三个目的可以通过采取如下技术方案达到:
一种移动终端大数据架构,所述架构包括传输层、存储层、处理层和展示层,所述传输层、存储层、处理层和展示层依次相连;
所述传输层,用于收集移动终端数据,并通过流处理平台上传;
所述存储层,用于接收流处理平台上传的移动终端数据;根据应用需求,选择存储系统存储移动终端数据;
所述处理层,用于获取移动终端数据;利用计算引擎和处理框架对移动终端数据进行处理;其中,所述计算引擎用于对数据进行流处理,所述处理框架用于对数据进行批量处理;
所述展示层,用于展示处理后的移动终端数据。
进一步的,所述架构还包括数据管理中心、权限管理中心和集群管理中心;
所述数据管理中心,用于通过得到文件的使用率,从而保证数据的安全和集群的健康;
所述权限管理中心,用于对不同的用户组提供了多种权限以保障架构安全。
进一步的,所述集群管理中心包括收集模块、警示模块和调试模块;
所述收集模块,用于收集性能信息和警示数据;
所述警示模块,用于若存在性能信息超过管理员预设的阈值,则将警示消息发送给管理员;
所述调试模块,用于管理和调试机器、服务和软件。
本发明的第四个目的可以通过采取如下技术方案达到:
一种存储介质,存储有程序,所述程序被处理器执行时,实现上述的移动终端大数据处理方法。
本发明相对于现有技术具有如下的有益效果:
1、本发明对大量数据流量的收集、存储、处理、分析以及管理,同时对应数据增长的需求。具体而言,通过分析手机大数据的流、应用、以及用户行为的具体特征(如数据的体积大、应用的多样、时间空间信息)来提供基于实际数据分析的建议,从而解决无线网络中由数据增长带来的新难题。
2、本发明计算引擎和处理框架对移动终端数据进行处理,其中计算引擎可以对数据进行流处理,处理框架可以对数据进行批量处理;同时也支持周期性的分析工作,计算资源是按照处理任务的重要性来分配的。
3、本发明可以根据上层应用将数据存储在不同的存储系统中,数据存储系统有三种:热存储、温存储和冷存储,不活跃的数据(如不经常访问的数据、不会被访问的数据等)被存放在冷存储系统中,这类数据通常是用户希望保存(例如日志和非常老的数据),而频繁被访问的数据就被存放在热存储系统中,温存储系统就是取二者之间的。
4、本发明可以实现跨场景,应用于不同的业务分析场景;具有较好的延展性,存储和计算可以通过增加计算机或计算资源的数量来轻易地拓展,通过集群管理中心可以有效地监控资源的消耗和最大地利用聚集资源,集群管理中心提供了各聚集的性能分析,从而可获知各聚集的使用情况;具有较好的稳定性,通过集群管理中心还可以监控机器、设备、软件等的状态,如果遇到了异常的情况,警示消息会发送至管理员。
5、本发明能够使开发者以相关语言(如Java)编写任务,并在命令行里向集群管理中心提交,数据管理中心提供了一个基于网页地交互接口用于提交和管理任务,该接口同时提供了常规分析任务的代码包,只要有编程基础的用户即可选择输入数据及其分析代码,从而启动一个任务。
6、本发明的安全性较高,通过权限管理中心可给予不同的用户组不同的权限角色,提供了识别、认证、授权以及权限控制功能,可以保障架构的安全。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:
如图1所示,本实施例提供了一种移动终端大数据架构,该架构包括传输层、存储层、处理层和展示层,传输层、存储层、处理层和展示层依次相连,移动终端可以是手机、平板电脑等,具体说明如下:
1)传输层:采用Flume作为收集器,以及采用Kafka作为传输器,其中Flume是分布式的海量日志采集、聚合和传输的系统,Kafka为开源流处理平台,是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据,传输层通过Flume收集移动终端数据,并通过Kafka流处理平台上传。
2)存储层:接收Kafka上传的移动终端数据,这些数据可以通过处理层的Spark 进行实时处理,也可以根据应用需求,选择存储系统存储移动终端数据,具体如下:
A、热存储系统:若存在访问频率大于或等于第一频率阈值的数据,即这类数据是频繁访问的数据,则选择热存储系统存储,这类数据会直接从原始数据中处理或者提取,而且通常可以在网页接口中访问,基于热存储,开发者可以开发上层应用,如分析用户行为、业务市场等,由于热存储系统消耗最多的计算资源,只允许一小部分数据被热存储系统存储。
B、温存储系统:若存在访问频率小于第一频率阈值,且大于或等于第二频率阈值的数据,即这类数据是不太频繁被访问的数据,则选择温存储系统存储,这类数据主要是通过Hadoop分布式文件系统HDFS实现的,所以运行、处理速度会慢一点。
C、冷存储系统:若存在访问频率小于第二频率阈值的数据,则选择冷存储系统存储,即这类数据是不活跃的数据,该存储使得不活跃的数据的存放更经济。
3)处理层:在收集和存储移动终端数据后,使用Apache Hadoop和Spark来处理移动终端数据,Hadoop提供了分布式数据存储HDFS和处理框架MapReduce,Spark 为大规模数据处理而设计的快速通用的计算引擎,可以对数据进行流处理(stream processing),处理框架MapReduce可以对数据进行批量处理(batch processing),可以有效地避免了内存资源不足的异常。
利用MapReduce/Spark程序可从以下三个角度分析移动终端数据:
A、流层统计:根据流的数量、持续时间、字节、用户数量以及时间/空间动态包,对流量数据进行分析,常规模式、具体指纹或者异常流量都可以被识别用于后期分析。
B、应用层统计:移动终端应用的持续增长驱动全球4G的部署和使用,也会即将迈入5G,从移动数据流量用户的角度,对移动终端应用完成各个子任务的相关数据进行采集和分析,本实施例的移动终端应用为本地网络下的基于HTTP的移动终端应用,各个子任务的相关数据可以包括时间数据,除了时间数据,其他的数据与应用、场景有关,不同的应用和场景有不同的数据。
C、用户层分析:提升用户体验是运营者的最终目标。但是,由于QoE包括多数难以测量的主观因素(成本、可靠性、效率、隐私、安全、接口对用户的友好程度、用户置信度等),现有的无线网络生态系统缺乏对于QoE(体验质量)的考虑;为了解决这个问题,提供了对移动终端用户的行为进行分析(包括网上浏览行为和线下移动行为,如用户搜索过的关键字、使用应用时的地理位置等数据)。从而针对移动终端用户需求可以被更好地理解甚至预测。
通过流层、应用层和用户层这三个角度进行分析之后,得到的数据会更立体,多维化,结合之后的分析解决不同的需求。
4)展示层:可以展示处理层处理后的移动终端数据。
当集群越变越大,如何管理集群和保证其健康就成为了一个重要的问题,集群管理员可能会在安装、调试、修复节点上花费大量时间;同时,提升效率和确保数据安全也是至关重要,如图2所示,本实施例架构还包括数据管理中心、权限管理中心和集群管理中心,展示了数据管理、权限管理以及集群管理的功能,从传输层、存储层和处理层中采集原数据,通过发送给每个节点命令来控制整个集群;数据管理中心、权限管理中心和集群管理中心的具体说明如下:
1)集群管理中心
集群管理中心从传输层、存储层和处理层中采集原数据,其包括收集模块、警示模块和调试模块,各个模块的说明如下:
A、收集模块
使用Flume来收集性能信息和警示数据,Flume的Exec Source从集群中收集信息手段为:Hadoop/Spark/Storm/Hive/GreenPlum等信息通过其日志,API以及Java管理拓展API收集的;性能信息(CPU、内存、磁盘I/O、网络I/O)是由位于/proc目录下的文件内获取的;机器/服务/软件状态信息是通过周期性地发送PING,从监控其对应心跳而获取的;这些收集的数据通过Flume的JDBC通道存储在其数据库中。
B、警示模块
若存在性能信息超过管理员预设的阈值,则将警示消息发送给管理员,警示消息可以为警示短信、警示邮件、警示通知等,常见警示包括主要节点宕机(一级警示),节点宕机(中级警示),CPU过载(低级警示)等。
C、调试模块
通过zookeeper发送Linux命令来管理和调试机器、服务和软件,管理者一个基于生产者/消费者模型的队列和其他运行命令的机器的daemon,网页接口传输用户数据和更新zookeeper的命名空间;同时,zookeeper还负责将用户指令从服务端发送到客户端;最后,每个机器的daemon修改/删除/添加指标、启动/停止服务和软件以及根据用户指令来配置。
2)数据管理中心
数据管理中心从传输层、存储层和处理层中采集原数据,在通过得到文件的使用率从而保证数据的安全和集群的健康,通过跟踪HDFS内数据的生命周期,将不常访问的文件存储/移动到冷存储系统中、平衡频繁访问的使用数据,删除或者合并文件,锁定集群里用户异常行为,从而提升集群的性能和避免资源的浪费,但是HDFS将原始文件分成多块存储在集群中不同的奴隶节点上;因此,该数据管理中心可以同时从文件层面(用户视角)、任务层面(MapReduce视角)和块层面(HDFS/机器视角)监控数据的上传、存储、使用、移动、改变和删除。
A、追访功能:可以在网页接口上通过关键字找到相关文件。
B、统计功能:可以对于每一个文件持有者、目录、文件类型统计文件数量、大小和使用情况;同时也提供了文件分布情况,以发现并减少存储和I/O热点。
C、监控功能:可以监控任何用户对任何文件做了任何操作,同时也可以记录数据文件块的改变和移动。
3)权限管理中心
权限管理中心从存储层和处理层中采集原数据,可以对不同的用户组提供了多种权限,以保障架构安全,各种用户组的权限说明如下:
A、普通用户:不允许访问除与自己相关的数据及文件目录。
B、学生用户:可以访问公共信息,但是不能下载公共信息;密码必须定期更新。
C、超级用户:可以不使用密码来访问公共信息,但是不能下载公共信息。
C、管理员:可以增删查改位于HDFS任意目录下的数据。
权限功能还可以通过LDAP协议来管理用户账户和执行权限,所有用户的所有行为都被跟踪和记录。
如图3所示,本实施例提供了一种移动终端大数据处理方法,该方法包括以下步骤:
S301、接收流处理平台上传的移动终端数据。
S302、根据应用需求,选择存储系统存储移动终端数据。
S303、获取移动终端数据。
S304、利用计算引擎和处理框架对移动终端数据进行处理。
其中步骤S301~S302通过上述的存储层实现,步骤S303~S304通过上述的处理层实现,在此不再一一赘述。
应当注意,尽管在附图中以特定顺序描述了上述实施例的方法操作,但是这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。相反,描绘的步骤可以改变执行顺序。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
实施例2:
如图4所示,本实施例提供了一种移动终端大数据处理装置,该装置包括接收单元401、选择单元402、获取单元403和处理单元404,各个单元的具体功能如下:
所述接收单元401,用于接收流处理平台上传的移动终端数据。
所述选择单元402,用于根据应用需求,选择存储系统存储移动终端数据。
所述获取单元403,用于获取移动终端数据。
所述处理单元404,用于利用计算引擎和处理框架对移动终端数据进行处理;其中,所述计算引擎用于对数据进行流处理,所述处理框架用于对数据进行批量处理。
进一步地,所述选择单元402中,根据应用需求,选择存储系统存储移动终端数据,具体包括:
针对移动终端数据,若存在访问频率大于或等于第一频率阈值的数据,则选择热存储系统存储。
针对移动终端数据,若存在访问频率小于第一频率阈值,且大于或等于第二频率阈值的数据,则选择温存储系统存储。
针对移动终端数据,若存在访问频率小于第二频率阈值的数据,则选择冷存储系统存储。
进一步地,所述处理单元404中,利用计算引擎和处理框架对移动终端数据进行处理,具体包括:
根据流的数量、持续时间、字节、用户数量以及时间/空间动态包,对流量数据进行分析。
从移动数据流量用户的角度,对移动终端应用完成各个子任务的相关数据进行采集和分析。
对移动终端用户的行为进行分析。
本实施例中各个模块的具体实现可以参见上述实施例1的移动终端大数据处理方法,在此不再一一赘述;需要说明的是,本实施例提供的装置仅以上述各功能单元的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能单元完成,即将内部结构划分成不同的功能单元,以完成以上描述的全部或者部分功能。
实施例3:
本实施例提供了一种存储介质,该存储介质为计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时,实现上述实施例1的移动终端大数据处理方法,如下:
接收流处理平台上传的移动终端数据;
根据应用需求,选择存储系统存储移动终端数据;
获取移动终端数据;
利用计算引擎和处理框架对移动终端数据进行处理;其中,所述计算引擎用于对数据进行流处理,所述处理框架用于对数据进行批量处理。
进一步地,所述利用计算引擎和处理框架对移动终端数据进行处理,具体包括:
根据流的数量、持续时间、字节、用户数量以及时间/空间动态包,对流量数据进行分析;
从移动数据流量用户的角度,对移动终端应用完成各个子任务的相关数据进行采集和分析;
对移动终端用户的行为进行分析。
进一步地,所述根据应用需求,选择存储系统存储移动终端数据,具体包括:
针对移动终端数据,若存在访问频率大于或等于第一频率阈值的数据,则选择热存储系统存储;
针对移动终端数据,若存在访问频率小于第一频率阈值,且大于或等于第二频率阈值的数据,则选择温存储系统存储;
针对移动终端数据,若存在访问频率小于第二频率阈值的数据,则选择冷存储系统存储。
本实施例中所述的存储介质可以是磁盘、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、U盘、移动硬盘等介质。
综上所述,本发明对大量数据流量的收集、存储、处理、分析以及管理,同时对应数据增长的需求。具体而言,通过分析手机大数据的流、应用、以及用户行为的具体特征(如数据的体积大、应用的多样、时间空间信息)来提供基于实际数据分析的建议,从而解决无线网络中由数据增长带来的新难题。
以上所述,仅为本发明专利较佳的实施例,但本发明专利的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明专利所公开的范围内,根据本发明专利的技术方案及其发明构思加以等同替换或改变,都属于本发明专利的保护范围。