CN114710481A

CN114710481A - 基于大数据的流量话单分析方法、装置、设备及存储介质

Info

Publication number: CN114710481A
Application number: CN202111519346.9A
Authority: CN
Inventors: 张潭; 贺彩虹; 孙菁; 王林光
Original assignee: Yueliang Chuanqi Technology Co ltd
Current assignee: Yueliang Chuanqi Technology Co ltd
Priority date: 2021-12-13
Filing date: 2021-12-13
Publication date: 2022-07-05

Abstract

本发明实施例涉及数据处理技术领域，公开了一种基于大数据的流量话单分析方法、装置、设备及存储介质。该方法包括：对所述流量话单的数据源进行采集，获取流量话单数据；对所述流量话单数据进行预分析；所述预分析包括：通过Flume分布式集群同时处理多个Source和Sink；对所述预分析后的数据进行实时或离线分析。实施本发明实施例，可以使得这些数据在处理能力提升的同时还提高了数据的精准度。

Description

基于大数据的流量话单分析方法、装置、设备及存储介质

技术领域

本发明涉及数据处理技术领域，具体涉及一种基于大数据的流量话单分析方法、装置、设备及存储介质。

背景技术

物联网卡流量话单数据来源于移动运营商通讯设备产生的流量数据，特别是在当前物联网火爆盛行的时代，海量流量话单数据的产生给移动运营商对其数据的管理带来极大的难度。就目前现有的“PBOSS系统”物联网卡号码8000多万，每天活跃号码近2000万个，产生的流量话单数据大约有150G。面对如此海量的流量话单数据，现有系统中的技术无法在数据的精准性和时效性同时满足。

流量话单分析技术是物联网行业的大数据时代的算法利器，成为近几年的研究热点。和传统的分析技术算法相比，流量话单分析技术有着两方面的优势。一是流量话单分析技术可随着数据规模的增加不断提升其性能，而传统分析技术算法(包括基于规则的BOSS系统)难以利用海量数据持续提升其性能。二是流量话单分析技术可以将数据的时效性提高和准确性的提高，避免了数据延迟和数据错误所带来的客户投诉。流量话单分析技术所具有的优势在某些领域已经取得不错的进展。

在大数据处理技术方面，已经积累了丰富的大数据，包括针对海量数据时的处理能力和系统稳定性；但是，不同类型的数据获取的正确指标数据不均一，导致大规模话单力量数据的搜集、存储、融合分析等尚未形成统一标准，无法有效整合利用。而且，在数据的准确性和时效性上也存在弊端。

发明内容

针对所述缺陷，本发明实施例公开了一种基于大数据的流量话单分析方法、装置、设备及存储介质，提升数据处理能力和精准度。

本发明实施例第一方面公开一种基于大数据的流量话单分析方法，所述方法包括：

对所述流量话单的数据源进行采集，获取流量话单数据；

对所述流量话单数据进行预分析；所述预分析包括：通过Flume分布式集群同时处理多个Source和Sink，Source由Flume转化为数据流，通过Flume的 File channel保证所有话单数据写入磁盘，Sink进行话单批次处理，并把批次数据保存到Zookeeper集群；Sink还把原始话单写入Hadoop集群，保存到HDFS 的分布式文件系统；

对所述预分析后的数据进行实时或离线分析。

作为较佳的实施例，在本发明实施例第一方面中，对所述流量话单的数据源进行采集，获取流量话单数据，包括：

通过实时的单个接口或/和FTP的批量文件接口对所述流量话单的数据源进行采集。

作为较佳的实施例，在本发明实施例第一方面中，所述预分析还包括：对所述流量话单数据按照预设规则进行划分多个分区，并按照分区存储所述流量话单数据至文件服务器中，

所述通过Flume分布式集群同时处理多个Source和Sink，包括：

按照分区批量读取文件，再通过Flume分布式集群处理同时处理多个Source 和Sink。

作为较佳的实施例，在本发明实施例第一方面中，当对所述预分析后的数据进行实时分析时，其包括：

对所述预分析后的流量话单数据存储至Kafka集群进行实时计算分析；

按照分区和话单业务属性，建立多个Storm集群，所述多个Storm集群包括与分区数量一一对应的分区Storm集群，用于对对应分区预分析后的流量话单数据进行处理，以及一个特殊业务Storm集群，用于对特殊业务的预分析后的流量话单数据进行处理。

作为较佳的实施例，在本发明实施例第一方面中，所述方法还包括订购数据的采集、预分析以及实时分析，并将实时分析后的数据存储于Oracle数据库中和订购数据缓存中；

所述Storm集群还根据所述订购数据缓存中的订购数据进行相关业务的用量划扣或/和累计，并将所述用量划扣或/和累计结果保存至Redis集群中，所述相关业务至少包括集团、号码、流量共享池、APN以及套餐中的一种或多种。

采用Hadoop/MapReduce对所述预分析后的数据进行离线统分析，并保存至数据仓库或/和同步到MongoDB中进行缓存。

作为较佳的实施例，在本发明实施例第一方面中，所述数据仓库还包括DIM 层，所述DIM层中的每个表包含了事实表中指定属性的相关详细信息。

本发明实施例第二方面公开了基于大数据的流量话单分析装置，其包括：

采集单元，用于对所述流量话单的数据源进行采集，获取流量话单数据；

预分析单元，用于对所述流量话单数据进行预分析；所述预分析包括：通过Flume分布式集群同时处理多个Source和Sink，Source由Flume转化为数据流，通过Flume的Filechannel保证所有话单数据写入磁盘，Sink进行话单批次处理，并把批次数据保存到Zookeeper集群；Sink还把原始话单写入Hadoop集群，保存到HDFS的分布式文件系统；

分析单元，用于对所述预分析后的数据进行实时或离线分析。

作为较佳的实施例，在本发明实施例第二方面中，所述预分析单元还包括：对所述流量话单数据按照预设规则进行划分多个分区，并按照分区存储所述流量话单数据至文件服务器中；

所述通过Flume分布式集群同时处理多个Source和Sink，包括：

按照分区批量读取文件，再通过Flume分布式集群处理同时处理多个Source 和Sink；

所述分析单元采用实时分析时，其包括：

本发明实施例第三方面公开一种电子设备，包括：存储有可执行程序代码的存储器；与所述存储器耦合的处理器；所述处理器调用所述存储器中存储的所述可执行程序代码，用于执行本发明实施例第一方面公开的一种基于大数据的流量话单分析方法。

本发明实施例第四方面公开一种计算机可读存储介质，其存储计算机程序，其中，所述计算机程序使得计算机执行本发明实施例第一方面公开的一种基于大数据的流量话单分析方法。

本发明实施例第五方面公开一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行本发明实施例第一方面公开的一种基于大数据的流量话单分析方法。

本发明实施例第六方面公开一种应用发布平台，所述应用发布平台用于发布计算机程序产品，其中，当所述计算机程序产品在计算机上运行时，使得所述计算机执行本发明实施例第一方面公开的一种基于大数据的流量话单分析方法。

与现有技术相比，本发明实施例具有以下有益效果：

本发明实施例一方面通过Flume中的Source和Slink以离线统计(HDFS) 和实时计算(Kafka)的技术架构来对海量流量话单数据的预处理，使得这些数据在处理能力提升的同时还提高了数据的精准度。

本发明实施例另一方面通过使用多Kafka集群、Storm集群和Redis集群的技术架构来对海量流量话单数据的实时计算分析，使得这些数据在处理能力提升的同时还提高了数据的时效性，减少数据延迟。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人体来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例公开的一种基于大数据的流量话单分析方法的流程示意图；

图2是本发明实施例公开的基于大数据的流量话单分析系统的架构图；

图3是本发明实施例公开的基于流量话单划扣的业务处理流程示意图；

图4是本发明实施例公开的一种基于大数据的流量话单预分析方法的流程示意图；

图5是本发明实施例公开的一种基于大数据的流量话单实时分析方法的流程示意图；

图6是本发明实施例公开的一种基于大数据的流量话单分析装置的结构示意图；

图7是本发明实施例公开的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人体在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书中的术语“第一”、“第二”、“第三”、“第四”等是用于区别不同的对象，而不是用于描述特定顺序。本发明实施例的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，示例性地，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例公开了一种基于大数据的流量话单分析方法、装置、设备及存储介质，其可以使得这些数据在处理能力提升的同时还提高了数据的精准度，以下结合附图进行详细描述。

实施例一

请参阅图1，图1是本发明实施例公开的一种基于大数据的流量话单分析方法的流程示意图。如图1所示，该基于大数据的流量话单分析方法包括以下步骤：

S110，对所述流量话单的数据源进行采集，获取流量话单数据。

本发明实施例公开的一种基于大数据的流量话单分析方法，是基于大数据的流量话单分析系统的架构实现的，该基于大数据的流量话单分析系统架构的实现方式有多种，作为一种实现方式，请参照图2所示，该架构主要包括应用层、能力层、数据层、获取层以及数据源层。

其中，应用层为提供系统操作界面，供以系统使用者使用，功能包括精细化营销、智能运营、物联网应用、客服应用、指标应用、报表应用、主体分析、专题分析。

能力层用于提供各种能力，包括基础分析能力、多位分析能力、数据挖掘能力、实时分析能力、自助分析能力、数据共享能力、数据统一服务和开放SQL、 FTP、WS、API等等。

数据层是对各种流量话单数据进行分开分库存放，包括主数据仓库、分布式数据库、M/R、HBase、Hive等。

获取层用于提供流量话单数据采集能力，包括云化ETL、流数据处理、爬虫。

数据源层用于与各个流量话单的源头数据源进行对接，其中批量采集包括运营商BSS、运营商话单、业务平台；准实时采集包括终端、互联网。

在本发明较佳的实施例中，数据源主要包括结构化数据、半结构化数据和非结构化数据，其中，结构化数据可以通过实时的单个接口实现在运营商BSS、运营商话单以及业务平台中获取结构化数据，例如可以通过Webservice进行数据采集，当然还可以通过FTP的批量文件接口获取流量话单的数据源并对流量话单数据进行采集。

对于半结构化数据和非结构化数据，例如终端数据或互联网数据，可以通过准实时采集方法获取，例如爬虫技术等。

在数据获取层，对采集到的流量话单数据进行ETL(数据的抽取、转换、装载)操作，可以保存至文件服务器(例如NFS)中。

对应于上述的大数据的流量话单分析系统架构，请参照图3所示，流量话单的业务处理过程可以包括包括数据采集模块、实时分析模块、调度及流程控制、离线分析、分布式文件存储、同步各种数据存储、分析结果数据仓库等7块，各块的具体描述如下：

数据采集模块：通过实时的单个接口和FTP的批量文件接口等对流量话单的源进行采集。

实时分析模块：对采集到的源数据进行实时的分析，采用Storm/Apache Kafka作为实时数据处理。

调度及流程控制：对于不同的类型的数据采用预先设置好的流程调度规则进行控制。

离线分析：采用Hadoop/MapReduce主要处理一次批量同步的数据以及较长时间间隔才清洗计算一次的大数据。

分布式文件存储：采用Hadoop和HDFS对文件类数据进行分布式存储。

同步各种数据存储：将分析后的话单流量结果数据同步到MongoDB中进行缓存。

分析结果数据仓库：将分析后的话单流量结果数据存储到Hadoop/Hive数据仓库。

S120，对所述流量话单数据进行预分析；所述预分析包括：通过Flume分布式集群同时处理多个Source和Sink，Source由Flume转化为数据流，通过Flume 的File channel保证所有话单数据写入磁盘，Sink进行话单批次处理，并把批次数据保存到Zookeeper集群；Sink还把原始话单写入Hadoop集群，保存到HDFS 的分布式文件系统。

对流量话单数据的预分析，一方面提升了数据的处理能力，另一方面还可以提高数据的精准度。

具体地，流量话单预分析过程，首先基于预设规则对流量话单数据进行分区，一方面便于后续的统计，另一方面也加快了处理速度。预设规则根据需要可以有多种，例如可以通过省、市、县以及经济圈等划分，示例性地，当流量话单数据为广东省数据时，可以按照大区划分成六个分区。然后按照分区依次批量读取存储于NFS中的流量话单数据，通过Flume分布式集群预处理。

请参照图4所示，文件服务器(NFS)上采集了各类流量话单源数据，把话单数据按照分区进行存储，在后读取时，即可根据分区存储的数据，依次读取。

读取这些源数据后通过Flume分布式集群预处理，集群设计为高度并发，同时处理多个Source(用于确定数据获取的位置，负责监控并收集数据，相对于Channel是生产者，Channel为数据通道，相当于数据缓冲区)和Sink(用于确定数据传送的位置，负责将数据放置到指定位置，相对于Channel是消费者)。

可以理解的是，可以通过Source获取NFS中相应分区的数据进行逐个预分析，例如，将某分区中的流量、漫游、语音以及短信等数据类型的流量话单数据，分别通过一个Source进行读取，当然，还可以是一个Source读取每个分区的流量话单数据，或者设置的多个Source，每个Source对应一个分区的某种数据类型。

Source由Flume转化为数据流，通过Flume的File channel保证所有话单数据写入磁盘，因此不会丢失进程或机器关机或崩溃的数据。Sink进行话单批次处理，并把批次数据保存到Zookeeper集群(分布式协调中间件)，用于实时计算分析。

Sink还把原始话单写入Hadoop集群，保存到HDFS的分布式文件系统，为离线数据分析提供数据。

数据预分析完成后，按照设计好的分区主题保存到Kafka集群(数据缓存消息队列)，为实时计算分析提供数据。

另外，在本发明较佳的实施例中，还对订购数据进行预分析，订购数据的采集、预分析以及实时分析过程与流量话单数据处理过程相类似，这里不再赘述。

流量话单数据经过预分析后，分别同步到订购数据缓存(Redis)和订购数据存储Oracle中，用于在实时计算分析时，根据订购数据实现相应的划扣。

可以理解的是，Flume中的Source和Slink以离线统计(HDFS)和实时计算(Kafka)的技术架构来对海量流量话单数据的预处理，使得这些数据在处理能力提升的同时还提高了数据的精准度。

S130，对所述预分析后的数据进行实时或离线分析。

对预分析后的数据进行实时分析，主要是通过使用多Kafka集群、Storm集群和Redis集群的技术架构来完成的，通过该技术架构，可以使得这些数据在处理能力提升的同时还提高了数据的时效性，减少数据延迟。

具体地，请参照图5所示，在流量话单预处理中对数据处理完后存储到Kafka 集群进行实时计算分析，例如通过Kafka集群对每个分区相应的使用者(个人或集团等)的国内流量、漫游流量、短信用量和语音用量等进行统计。

按照大区划分和话单业务属性，建立了多个Storm集群，其中包括分区Storm 集群和特殊业务Storm集群，其分区Storm集群与分区数量相适配，分别对应一个分区，对对应分区的话单进行处理，特殊业务Storm集群对应两地卡、国漫等特殊业务的话单处理。每个Storm集群的节点服务器可以配置多个进程和多个现成，例如10个进程，100个线程等。

实时计算是根据批次号来判断是否重复计算，每个批次的数据都处理完了才进行下一个批次的数据处理。

基于Kafka集群的统计分析结果，以及订购数据，Storm集群将完成对集团、号码、流量共享池、APN、套餐等维度的用量划扣以及累计，并把数据结果保存到Redis集群。

离线分析是采用Hadoop/MapReduce，针对预分析后存储于HDFS分布式文件系统中的数据，或/和，直接来自数据采集模块的数据进行离线分析，主要处理一次批量同步的数据以及较长时间间隔才清洗计算一次的大数据。离线分析完成后，将分析后的话单流量结果数据同步到MongoDB中进行缓存，同时还将分析后的话单流量结果数据存储到Hadoop/Hive数据仓库中。

综上所述，通过本发明实施例的实施，对海量流量话单数据处理能力进行提升，从而提高数据处理的效率和精准度，还可以提高数据处理的时效性，减少数据延迟所带来的客户投诉等困扰。

实施例二

请参阅图6，图6是本发明实施例公开的一种基于大数据的流量话单分析装置的结构示意图。如图6所示，该基于大数据的流量话单分析装置，可以包括：

采集单元210，用于对所述流量话单的数据源进行采集，获取流量话单数据；

预分析单元220，用于对所述流量话单数据进行预分析；所述预分析包括：通过Flume分布式集群同时处理多个Source和Sink，Source由Flume转化为数据流，通过Flume的File channel保证所有话单数据写入磁盘，Sink进行话单批次处理，并把批次数据保存到Zookeeper集群；Sink还把原始话单写入Hadoop 集群，保存到HDFS的分布式文件系统；

分析单元230，用于对所述预分析后的数据进行实时或离线分析。

优选地，所述预分析单元220还包括：对所述流量话单数据按照预设规则进行划分多个分区，并按照分区存储所述流量话单数据至文件服务器中；

所述通过Flume分布式集群同时处理多个Source和Sink，包括：

所述分析单元230，其包括：

实施例三

请参阅图7，图7是本发明实施例公开的一种电子设备的结构示意图。如图 7所示，该电子设备可以包括：

存储有可执行程序代码的存储器310；

与存储器310耦合的处理器320；

其中，处理器320调用存储器310中存储的可执行程序代码，执行实施例一中的一种基于大数据的流量话单分析方法中的部分或全部步骤。

本发明实施例公开一种计算机可读存储介质，其存储计算机程序，其中，该计算机程序使得计算机执行实施例一中的一种基于大数据的流量话单分析方法中的部分或全部步骤。

本发明实施例还公开一种计算机程序产品，其中，当计算机程序产品在计算机上运行时，使得计算机执行实施例一中的一种基于大数据的流量话单分析方法中的部分或全部步骤。

本发明实施例还公开一种应用发布平台，其中，应用发布平台用于发布计算机程序产品，其中，当计算机程序产品在计算机上运行时，使得计算机执行实施例一中的一种基于大数据的流量话单分析方法中的部分或全部步骤。

在本发明的各种实施例中，应理解，所述各过程的序号的大小并不意味着执行顺序的必然先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物单元，即可位于一个地方，或者也可以分布到多个网络单元上。可根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。所述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元若以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可获取的存储器中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或者部分，可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干请求用以使得一台计算机设备(可以为个人计算机、服务器或者网络设备等，具体可以是计算机设备中的处理器)执行本发明的各个实施例所述方法的部分或全部步骤。

在本发明所提供的实施例中，应理解，“与A对应的B”表示B与A相关联，根据A可以确定B。但还应理解，根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其他信息确定B。

本领域普通技术人体可以理解所述实施例的各种方法中的部分或全部步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质包括只读存储器(Read-Only Memory，ROM)、随机存储器(Random Access Memory，RAM)、可编程只读存储器(Programmable Read-only Memory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory，OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(CompactDisc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

以上对本发明实施例公开的一种基于大数据的流量话单分析方法、装置、设备及存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人体，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于大数据的流量话单分析方法，其特征在于，包括：

对所述流量话单的数据源进行采集，获取流量话单数据；

对所述流量话单数据进行预分析；所述预分析包括：通过Flume分布式集群同时处理多个Source和Sink，Source由Flume转化为数据流，通过Flume的File channel保证所有话单数据写入磁盘，Sink进行话单批次处理，并把批次数据保存到Zookeeper集群；Sink还把原始话单写入Hadoop集群，保存到HDFS的分布式文件系统；

对所述预分析后的数据进行实时或离线分析。

2.根据权利要求1所述的基于大数据的流量话单分析方法，其特征在于，对所述流量话单的数据源进行采集，获取流量话单数据，包括：

3.根据权利要求1所述的基于大数据的流量话单分析方法，其特征在于，所述预分析还包括：对所述流量话单数据按照预设规则进行划分多个分区，并按照分区存储所述流量话单数据至文件服务器中，

所述通过Flume分布式集群同时处理多个Source和Sink，包括：

按照分区批量读取文件，再通过Flume分布式集群处理同时处理多个Source和Sink。

4.根据权利要求3所述的基于大数据的流量话单分析方法，其特征在于，当对所述预分析后的数据进行实时分析时，其包括：

5.根据权利要求4所述的基于大数据的流量话单分析方法，其特征在于，所述方法还包括订购数据的采集、预分析以及实时分析，并将实时分析后的数据存储于Oracle数据库中和订购数据缓存中；

6.根据权利要求1-5任一项所述的基于大数据的流量话单分析方法，其特征在于，当对所述预分析后的数据进行实时分析时，其包括：

7.一种基于大数据的流量话单分析装置，其特征在于，其包括：

8.根据权利要求7所述的基于大数据的流量话单分析装置，其特征在于，所述预分析单元还包括：对所述流量话单数据按照预设规则进行划分多个分区，并按照分区存储所述流量话单数据至文件服务器中；

所述通过Flume分布式集群同时处理多个Source和Sink，包括：

按照分区批量读取文件，再通过Flume分布式集群处理同时处理多个Source和Sink；

所述分析单元采用实时分析时，其包括：

9.一种电子设备，其特征在于，包括：存储有可执行程序代码的存储器；与所述存储器耦合的处理器；所述处理器调用所述存储器中存储的所述可执行程序代码，用于执行权利要求1至6任一项所述的一种基于大数据的流量话单分析方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机程序，其中，所述计算机程序使得计算机执行权利要求1至6任一项所述的一种基于大数据的流量话单分析方法。