CN108268549A - 数据稽核系统和方法 - Google Patents

数据稽核系统和方法 Download PDF

Info

Publication number
CN108268549A
CN108268549A CN201611270870.6A CN201611270870A CN108268549A CN 108268549 A CN108268549 A CN 108268549A CN 201611270870 A CN201611270870 A CN 201611270870A CN 108268549 A CN108268549 A CN 108268549A
Authority
CN
China
Prior art keywords
file
data source
acquisition
data
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611270870.6A
Other languages
English (en)
Inventor
姜文平
李彩萍
贺怀宇
吉志刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Group Hubei Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Group Hubei Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Group Hubei Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201611270870.6A priority Critical patent/CN108268549A/zh
Publication of CN108268549A publication Critical patent/CN108268549A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • G06F16/162Delete operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M15/00Arrangements for metering, time-control or time indication ; Metering, charging or billing arrangements for voice wireline or wireless communications, e.g. VoIP
    • H04M15/70Administration or customization aspects; Counter-checking correct charges

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据稽核系统和方法。其中,数据稽核系统包括:采集装置,用于基于Zookeeper调度集群调度技术,通过分布式的方式对数据源进行采集;稽核装置,用于对所采集的数据源进行稽核。本实施例基于Zookeeper调度集群调度技术,通过分布式的方式对数据源进行采集,然后对所采集的数据源进行稽核,可以对海量的数据进行分布式、并行处理,可以大幅度提高了数据采集和数据稽核的速度,还可以提高数据稽核的精度,另外,能实现采集能力随采集集群设备的增加而线性增长。

Description

数据稽核系统和方法
技术领域
本发明涉及信息技术领域,尤其涉及一种数据稽核系统和方法。
背景技术
随着信息技术的快速发展,很多事物被抽象成了数据,然后被加工处理。为了确保数据处理的准确性,通常人们采取重复校对的方式对数据进行稽核(稽查、复核),然而,当数据量较大时,现有的数据稽核方式不仅效率低而且精度低。例如,在电信领域,会有还量的数据源需要稽核。通常,采用DCC(Diameter Credit-Control,一种信用控制协议)实现的实时在线计费,通过核心网侧和业务支撑侧系统的互动,根据用户预存和信用度以及用户的资费,实时计算用户是否能使用通信网络。当用户费用(含信用度,下同)足够的情况下正常使用网络、费用不够时立即禁止用户使用网络,防止用户透支产生不良欠费。
在线计费与用户计费相关的依据有三种:1、核心网产生的话单,由于该话单与在线计费无关,称为离线话单;2、DCC消息通信记录,检查DCC消息,这是在线计费的实时通信记录,也称为在线消息话单;3、在线计费话单,只是业务支撑网根据DCC消息交互情况根据一定规则生成的话单。
以流量在线计费为例,这三种计费依据的关系如下:1、三种话单之间关于一次通信行为(指用户从通信发起到通信结束)的计费要素(含计费ID、用户位置信息、用户使用流量情况、通信时间等)理论上应该相同;2、在线消息是用户通信过程中核心网和业务支撑系统的实时消息交互,其实时性最高,在线话单是在线计费控制过程根据设定的规则准实时生成的,其实时性较DCC消息低,但远高于离线话单,离线话单是核心网根据设定规则生成,没有参与实时控制,同时由于涉及跨系统的传输,其实时性最差;3、用户的一次通信行为如果足够长或流量大,一次通信行为的三种话单都可能会包含多条分话单,这些话单的计费ID会相同,每种话单从第一张分话单开始到最终通信结束,所有的分话单会有一个从1开始序列号,并在最后一张话单会有用户通信结束的标记表示是最后一张话单,每种话单所有分话单的流量相加就是用户这次通信行为使用的总流量;4、三种不同话单的分话单的分割基本上分割点不同步,分话单条数也不相同,其中在线消息话单数远大于在线话单和离线话单,一般是在线话单数的3-5倍,在线话单多于离线话单,一般是离线话单的1.2-1.5倍;5、为了确保在线计费用户使用网络的感知,在线计费的三种话单理论上基于用户同一次通信行为应该累加的计费流量相同,但实际情况由于各个话单的产生点不同,处理程序不同,很有可能会有部分环节存在数据误差。特别是核心网的话单产生机制在设备许可时经过专门机构的检验,而在线话单的产生机制只是省内自行验证,没有专门的评测机构检测,其可靠性没有离线话单高。
三方话单稽核需要处理的话单量远大于计费系统的话单量,其总量是计费话单总量的3-5倍,传统的三方话单稽核采用小型机单机+冷备模式进行话单采集、小型机进行话单稽核比对,存在投入成本高、扩展性差、系统性能差,稽核发现问题与计费时间点时间差距有8-12小时,不利于及时发现在线计费的问题。
传统模式话单采集采用单小型机+冷备模式采集话单,设备利用率不高,面对三方稽核的海量话单采集效率低下;小型机模式的话单比对,话单比对工作处理海量数据,传统的小型机模式扩展性差,投入高,任务处理效率不高,延时大。
如何将海量数据源进行快速、准确数据稽核成为业界迫切需要解决的问题。
发明内容
鉴于以上所述的一个或多个问题,本发明实施例提供了一种数据稽核系统和方法。
第一方面,提供了一种数据稽核系统,包括:
采集装置,用于基于Zookeeper调度集群调度技术,通过分布式的方式对数据源进行采集;
稽核装置,用于对所采集的数据源进行稽核。
第二方面,提供了一种数据稽核方法,包括以下步骤:
采集基于Zookeeper调度集群调度技术,通过分布式的方式对数据源进行采集;
对所采集的数据源进行稽核。
本实施例基于Zookeeper调度集群调度技术,通过分布式的方式对数据源进行采集,然后对所采集的数据源进行稽核,可以对海量的数据进行分布式、并行处理,可以大幅度提高了数据采集和数据稽核的速度,还可以提高数据稽核的精度,另外,能实现采集能力随采集集群设备的增加而线性增长。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例的数据稽核系统的示意性架构图。
图2是本发明一个或者多个实施例的采集装置的结构示意图。
图3是本发明一实施例的采集装置采集数据源的方法的流程性示意图。
图4是本发明一个或者多个实施例的稽核装置的结构示意图。
图5是本发明一实施例的稽核装置进行数据稽核的流程示意图。
图6是本发明一实施例数据稽核方法的流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1是本发明一实施例的数据稽核系统的示意性架构图。
如图1所示,数据稽核系统1000可以包括:采集装置100和稽核装置200。其中,采集装置100可以用于基于Zookeeper调度集群调度技术,通过分布式的方式对数据源进行采集;稽核装置200可以用于对所采集的数据源进行稽核。
本实施例可以采用云化的分布式架构进行海量话单的采集和稽核。其中,采集装置100可以采用X86集群+分布式存储+分布式调度中心的采集模式,并基于Zookeeper调度集群调度技术通过分布式的采集应用节点对在线计费话单、离线话单、在线消息话单等原始话单进行采集,并将采集的原始话单根据过滤规则进行过滤,滤出无效数据等,并转换格式后存至分布式文件系统。稽核系统可以利用云化的分布式架构,通过分布式调度中心实现并行稽核,在话单到达后按话单类型、计费号码及计费ID等索引标识进行流量累加,并在三种话单的最后一张分话单到达后触发三方稽核。
本实施例可以利用云化的分布式架构,通过分布式调度中心实现采集集群的并行采集,实现高效的采集,并能实现采集能力随采集集群设备的增加而线性增长。
图2是本发明一个或者多个实施例的采集装置的结构示意图。
如图2所示,采集装置100可以包括:Zookeeper调度集群101、采集应用节点102、Hdfs文件系统103和DMDB数据库104。
在本实施例中,采集装置100可以采用分布式的云化采集架构模式,例如,可以采用X86集群+分布式存储+分布式调度中心的采集模式。
其中,数据源1、数据源2......数据源N可以是采集装置100需要采集的数据源。该数据源可以是待稽核处理的原始话单数据源,例如,是在线计费话单、离线话单、在线消息话单数据源等。
Zookeeper调度集群101可以用于云化架构中数据存储和采集应用节点102的调度管理器。在Zookeeper调度集群101中可以存储采集数据源和采集应用节点。Zookeeper调度集群101可以负责分配采集应用节点102对应的采集任务。
采集应用节点102可以按所分配的采集任务来采集数据源。采集应用节点102可以是:采集应用节点1、采集应用节点2......采集应用节点N。各个采集应用节点均可以包括:传输组件和过滤组件。其中,传输组件用于将数据源通过传输协议进行传输。过滤组件用于把采集过来的数据通过过滤规则进行过滤,比如:过滤文件名不符合要求、文件内容中单行长度不符合要求、文件记录中的无效数据等,进行过滤,减少最终存储在云化分布式存储文件系统的空间消耗。
Hdfs文件系统103可以是云化架构中分布式文件存储文件系统,可以用于存储各个采集应用节点所采集的数据源。Hdfs文件系统103可以包括:NameNode数据管理组件和DataNode 1-N数据管理组件。Namenode数据管理组件可以是分布式文件存储文件系统(Hdfs)数据管理组件。Datanode数据存储组件可以是分布式文件存储文件系统(Hdfs)数据存储组件。
由Zookeeper调度集群101和Hdfs文件系统103可以组成的Hadoop云化架构,可以是对于云化相关的功能组件的集合统称的架构。
DMDB104可以是分布式云化快速读取数据库,存储采集用应用节点所需的过滤规则数据。
在一些实施例中,采集装置100可以包括:第一调度管理器(例如,Zookeeper调度集群101)和分布式布置的多个采集应用节点(例如,采集应用节点1、采集应用节点2......采集应用节点N)。其中:第一调度管理器可以用于为各个采集应用节点分配数据源采集任务;采集应用节点可以用于按第一调度管理器所分配的采集任务来采集数据源。
在一些实施例中,第一调度管理器还用于:
a)获取位于由N个数据源所组合的队列中位置n处的采集应用节点p;
b)判断采集应用节点p是否已经建立ftp连接;
c)查看当前已经建ftp连接的采集应用节点下是否有采集文件,
当有采集文件时,转至d),否则转至e);
d)获得数据源下的文件目录列表,针对文件目录列表中的每个文件进行采集;
e)将n数加1,判断加1后的n是否小于等于N,
当n≤N时,转至a),否则,将n设置为1,再转至a)。
在一些实施例中,第一调度管理器还用于:
A)根据数据源的ID、文件名称将采集文件信息写入分布式数据库的采集断点表;
B)从文件目录列表中取当前未处理文件的文件名F,从数据源中获取文件名为F的文件,并存储至目标目录下;
C)判断目标目录下存放文件F的大小是否与文件目录列表中的文件大小一致,
当大小一致时,转至D),否则,删除目标目录下的文件名为F的文件,并转至B);
D)删除数据源中的文件F,更新断点表状态为文件采集完成,并记录完成时间;
E)将当前处理文件F在文件目录列表中更新为已处理;
F)判断文件目录列表中的所有文件是否都已处理,如果存在未处理的文件则转至B),否则结束本轮采集处理。
在一些实施例中,采集装置100可以在上述第一调度管理器和多个采集应用节点的基础上增加:文件系统(例如Hdfs文件系统103)。文件系统可以用于分布式存储过滤后的数据源。
图3是本发明一实施例的采集装置采集数据源的方法的流程性示意图。
参考图3,在本实施例中,数据源可以包括:在线计费话单、离线话单和在线消息话单。
S310,启动Zookeeper调度集群和所有采集应用节点。
S320,Zookeeper调度集群采用轮询的算法分配采集应用节点。
在本实施例中,Zookeeper调度集群读取当前的采集原始话单数据源(例如,数据源数为K)和采集应用节点(例如,采集应用节点数为M)情况,采用轮询调度算法分配采集应用节点。具体分配流程(即S420的子流程)如下:
步骤1:读取采集应用节点队列当前采集应用节点(例如采集应用节点m)的数据。
在本实施例中,该采集应用节点队列中保存有各个可用的采集应用节点(例如采集应用节点1、例如采集应用节点2......例如采集应用节点M)。
步骤2:如果已经到采集应用节点队列尾则当前分配流程中止,否则转步骤3。
步骤3:将当前采集应用节点m分配采集任务(m初始值为1)。
步骤4:m计数加1,判断m是否大于等于M,如果m>M,则将m重新初始化为1,并转到步骤1进行下一个循环分配操作。
S330,针对每一采集应用节点进行数据采集。
在本实施例中,假设该采集应用节点分配的采集源数为N,该采集应用节点的采集流程(S330的子流程)可以如下所述:
a)获取位于由N个数据源所组合的队列中位置n(n初始值为1)处的采集应用节点p;
b)判断p是否已经建立ftp(File Transfer Protocol,文件传输协议)
连接,如果没有则建立,否则取得该ftp连接lp(link point,连接点);
c)通过lp查看当前采集应用节点下是否有采集文件,如没有则转步骤e);
d)获得当前采集源下的文件目录列表(列表包括文件名和文件大小、文件状态、文件状态初始为未处理),针对目录列表中的每个文件进行采集:
e)将n数加1,判断加1后的n是否小于等于N,当n≤N时,转至a),否则,将n设置为1,再转至a)。
其中,上述的步骤d)可以包括以下步骤:
步骤1:根据采集源ID、文件名称将采集文件信息写入分布式数据库的采集断点表,记录信息包括:采集源ID、文件名称、文件大小、应用节点ID、采集开始时间、状态(本步骤的状态为准备采集);
步骤2:从文件列表中取当前未处理文件的文件名F,从采集源get文件名为F的文件;
步骤3:判断目标目录下存放文件F的大小是否与文件列表中的文件大小一致,不一致则删除目标目录下的对应文件,转步骤2;
步骤4:删除采集源上的文件F,更新断点表状态为文件采集完成,记录完成时间,将记录移出到断点历史表;
步骤5:将当前处理文件F在文件列表中更新为已处理;
步骤6:判断文件目录中的所有文件是否都处理完成,如果未完成则转步骤2,否则结束该采集源的本轮采集处理。
S340,在采集过程中出现异常时,进行异常处理。当一个采集应用节点由于宕机、处理超时等原因出现服务不可用时,Zookeeper调度集群通过应用可用性检测发现异常时,需要进行异常处理。
该异常处理流程可以如下所示:
1、将不可用的采集应用节点的AP(WirelessAccessPoint,无线访问接入点)置为不用;
2、将所有采集断点表中对应AP1的任务的目标目录下的文件删除,将相关记录以采集失败状态移入历史表;
3、读取该应用节点分配的采集源数据,针对每个采集源,查找当前应用队列中分配采集源最少的应用节点AP2(如果出现多个最少的,则按顺序选择一个),将该采集源分配到应用节点AP2。
S350,采集应用节点的数据进行过滤,最后放到分布式文件系统。采集应用节点中的过滤组件将采集的文件进行预处理转换成标准文件,并在转换过程中通过过滤规则(比如:过滤文件名不符合要求、文件内容中单行长度不符合要求、某些特殊标识文件记录无需处理等)对采集过来的话单文件进行过滤,只有满足过滤规则的数据才会最终被存储在稽核系统的云化的分布式文件系统上,减少最终存储在云化分布式存储文件系统的空间消耗。湖北移动三方稽核通过该过滤功能剔除的无效数据数约占总采集文件的43%左右,有效地降低了存储开销以及后续稽核处理的系统开销。
由此,该架构利用云化的分布式架构,通过分布式调度中心实现采集集群的并行采集,实现高效的采集,并能实现采集能力随采集集群设备的增加线性增长采集能力。
图4是本发明一个或者多个实施例的稽核装置的结构示意图。
如图4所示,稽核装置200可以包括:Zookeeper调度集群201、稽核应用节点202、Hdfs文件系统203和Map/Reduce归集判断的加工工具204。
其中,数据源1、数据源2......数据源N可以是来自采集装置100的数据源,该数据源可以是经过预先处理,例如经过过滤处理的数据源,这些数据源可以是待稽核处理的原始话单数据源,例如,是在线计费话单、离线话单、在线消息话单数据源。
Zookeeper调度集群201可以是稽核应用节点202的调度管理器。Zookeeper调度集群201可以负责分配稽核应用节点202数据源稽核任务。
稽核应用节点202可以按所分配的稽核任务来稽核数据源。稽核应用节点202可以是:稽核应用节点1、稽核应用节点2......稽核应用节点N。各个稽核应用节点均可以包括:数据归集组件和稽核判断组件。其中,数据归集组件可以用于将相同索引标识的数据源进行合并整理。例如,数据归集组件可以把含有相同索引标识数据源(线计费话单、离线话单、在线消息话单)进行合并整理。稽核判断组件可以用于对所合并整理的具有相同索引标识的数据源分别进行累加,当数据源全部累加完时,分别对所累加得到的数值进行比对。例如,稽核判断组件可以含有相同索引标识数据源归集好以后,如果满足三种类型的话单都是完整的或者是三种类型的话单超过归集时限(如超过2小时),判定三种类型话单总流量是否一致,并输出稽核判断结果到分布式云化数据库Hbase。
Hdfs文件系统203可以是云化架构中分布式文件存储文件系统,可以用于存储采集应用节点所采集的数据源。Hdfs文件系统203可以包括:Hbase分布式云化数据库和Hive分析工具。其中,Hbase分布式云化数据库可以存储稽核应用节点稽核判断的结果信息。Hive分析工具可以是分布式云化数据库分析工具。
由Zookeeper调度集群201和Hdfs文件系统203可以组成的Hadoop云化架构,可以是对于云化相关的功能组件的集合统称的架构。
Map/Reduce归集判断的加工工具204可以是稽核应用节点202中数据归集和稽核判断的数据底层加工工具。
在一些实施例中,稽核应用节点除了上述数据归集组件和稽核判断组件,还可以包括:强制稽核组件。强制稽核组件可以用于当预设时间内没有采集到新的数据源时,强制分别对所累加得到的数值进行比对。
在一些实施例中,数据源可以包括:在线计费话单、离线话单和在线消息话单。
本实施例可以利用云化的分布式架构,通过分布式调度中心实现并行稽核,在话单到达后按话单类型、计费号码及计费ID等索引标识进行流量累加,并在三种话单的最后一张分话单到达后触发三方稽核。
图5是本发明一实施例的稽核装置进行数据稽核的流程示意图。
参考图5,S510,对数据源进行预处理。
在本实施例中,原始话单源文件通过云化采集应用节点传输到稽核装置后,把三类话单文件(在线计费话单、离线话单、在线消息话单)预处理数据标准化(按照手机号码、话单时间、话单流量值、话单网络通信会话唯一标识,例如chargingid等)生成统一格式的新的数据源,方便后续稽核处理。
S520,对稽核任务进行调度。
在本实施例中,一个稽核应用节点可以对应多个预处理后话单数据源,Zookeeper调度集群可以采用轮询调度算法自动分配相应的预处理后话单数据源,稽核应用节点根据分配任务进行稽核工作,该轮询算法与采集任务分配处的轮询算法类似,此方面内容不再赘述。
S530,对稽核任务进行执行。
在本实施例中,稽核应用节点读取稽核话单文件,先对每个话单文件中的记录进行处理,处理时按相关索引标识将话单的流量进行累加,并判断话单的完整性。如果三种类型对于同一个会话的话单完整,则触发三种话单的流量比对。如果三种话单的流量一致,就认为稽核通过,如不一致则标记为稽核错误并记录稽核数据情况。以上稽核处理过程可以采用基于Hadoop的Map/Reduce模式并行处理。
S540,对稽核异常情况进行处理。
1)对于某个用户的会话,如果出现会话不完整且2个小时(该时间可以根据实际情况进行调整)内没有新的该会话的话单到达,则强制进行该会话的稽核;
2)稽核应用节点出现不可用时,相关稽核任务会通过调度模式分配给其他稽核应用节点继续处理。
图6是本发明一实施例数据稽核方法的流程示意图。
如图6所示,数据稽核方法可以包括以下步骤:S610,采集基于Zookeeper集群调度技术,通过分布式的方式对数据源进行采集;S620,对所采集的数据源进行稽核。
在一些实施例中,采集基于Zookeeper集群调度技术,通过分布式的方式对数据源进行采集(即步骤S610)可以包括以下步骤:为各个采集应用节点分配数据源采集任务;采集应用节点按所分配的采集任务来采集数据源。
在一些实施例中,为各个采集应用节点分配数据源采集任务可以包括以下步骤:
a)获取位于由N个数据源所组合的队列中位置n处的采集应用节点p;
b)判断采集应用节点p是否已经建立ftp连接;
c)查看当前已经建ftp连接的采集应用节点下是否有采集文件,
当有采集文件时,转至d),否则转至e);
d)获得数据源下的文件目录列表,针对文件目录列表中的每个文件进行采集;
e)将n数加1,判断加1后的n是否小于等于N,
当n≤N时,转至a),否则,将n设置为1,再转至a)。
在一些实施例中,获得数据源下的文件目录列表,针对文件目录列表中的每个文件进行采集(即步骤d))可以包括以下步骤:
A)根据数据源的ID、文件名称将采集文件信息写入分布式数据库的采集断点表;
B)从文件目录列表中取当前未处理文件的文件名F,从数据源中获取文件名为F的文件,并存储至目标目录下;
C)判断目标目录下存放文件F的大小是否与文件目录列表中的文件大小一致,
当大小一致时,转至D),否则,删除目标目录下的文件名为F的文件,并转至B);
D)删除数据源中的文件F,更新断点表状态为文件采集完成,并记录完成时间;
E)将当前处理文件F在文件目录列表中更新为已处理;
F)判断文件目录列表中的所有文件是否都已处理,如果存在未处理的文件则转至B),否则结束本轮采集处理。
在一些实施例中,数据稽核的方法还可以包括以下步骤:将采集应用节点所采集的数据源按预设的过滤规则进行过滤。
在一些实施例中,数据稽核的方法还可以包括以下步骤:将过滤后的数据源进行分布式存储。
在一些实施例中,对所采集的数据源进行稽核包括以下步骤:为各个稽核应用节点分配数据源稽核任务;稽核应用节点按所分配的稽核任务来稽核数据源。
在一些实施例中,稽核应用节点按所分配的稽核任务来稽核数据源,包括以下步骤:将相同索引标识的数据源进行合并整理;对所合并整理的具有相同索引标识的数据源分别进行累加,当数据源全部累加完时,分别对所累加得到的数值进行比对。
在一些实施例中,数据稽核方法还包括以下步骤:当预设时间内没有采集到新的数据源时,强制分别对所累加得到的数值进行比对。
在一些实施例中,数据源可以包括:在线计费话单、离线话单和在线消息话单。
上述可知,1、分布式的云化架构采集模式提升海量话单采集的效率;2、采集后进行数据预刷选减少后续处理数据量,节约带宽、提升系统处理效率;3、基于分布式的云化三方稽核处理,实现了准实时的三方稽核处理,从具备稽核条件(话单全部到达或超时)到稽核完成只需要5分钟;4、通信会话不完整实施超时强制稽核。
湖北移动目前三方稽核采用29台X86型号的设备,总投资约是小型机方案的20%左右。日采集并处理话单量7.8T,话单稽核延时5分钟,三方稽核话单一致率平均为98%。其中,2%不一致主要是因为:4G业务永远在线导致用户会话长期未结束而导致稽核异常。剔除这些原因后,稽核数据一致性能达到99.9%,有效地保障了湖北移动流量业务计费的正确性。
由此,采用云化架构实现分布式采集和三方稽核处理,可以提升系统的处理效率,基本能实现准实时稽核,湖北移动采用该技术后,在所有分话单到达后5分钟内能完成三方稽核;采集数据的同时进行数据预刷选,减少了后续处理数据量,节约带宽、提升系统处理效率,通过相关规则配置,湖北移动三方稽核剔除的无效数据约42%,每天节约存储3.2T;采用通信会话不完整实施超时强制稽核机制,有效地减少了无效等待的系统开销,并能及时发现话单丢失的情况。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、装置和组件的具体工作过程,可以参考前述流程实施例中的对应过程,各个实施例的内容可以相互参考和引用,相同或者类似的内容在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。

Claims (20)

1.一种数据稽核系统,其特征在于,包括:
采集装置,用于基于Zookeeper调度集群调度技术,通过分布式的方式对数据源进行采集;
稽核装置,用于对所采集的数据源进行稽核。
2.根据权利要求1所述的系统,其特征在于,所述采集装置包括:第一调度管理器和分布式布置的多个采集应用节点,其中:
所述第一调度管理器,用于为各个采集应用节点分配数据源采集任务;
所述采集应用节点,用于按所述第一调度管理器所分配的采集任务来采集所述数据源。
3.根据权利要求2所述的系统,其特征在于,所述第一调度管理器还用于:
a)获取位于由N个所述数据源所组合的队列中位置n处的采集应用节点p,N是自然数,n的初始值为1;
b)判断所述采集应用节点p是否已经建立ftp连接;
c)查看当前已经建ftp连接的采集应用节点下是否有采集文件,
当有采集文件时,转至d),否则转至e);
d)获得所述数据源下的文件目录列表,针对所述文件目录列表中的每个文件进行采集;
e)将n数加1,判断加1后的n是否小于等于N,
当n≤N时,转至a),否则,将n设置为1,再转至a)。
4.根据权利要求3所述的系统,其特征在于,所述第一调度管理器还用于:
A)根据所述数据源的ID、文件名称将所述采集文件信息写入分布式数据库的采集断点表;
B)从所述文件目录列表中取当前未处理文件的文件名F,从所述数据源中获取文件名为F的文件,并存储至目标目录下;
C)判断所述目标目录下存放文件F的大小是否与所述文件目录列表中的文件大小一致,
当大小一致时,转至D),否则,删除所述目标目录下的文件名为F的文件,并转至B);
D)删除所述数据源中的文件F,更新断点表状态为文件采集完成,并记录完成时间;
E)将当前处理文件F在所述文件目录列表中更新为已处理;
F)判断所述文件目录列表中的所有文件是否都已处理,如果存在未处理的文件则转至B),否则结束本轮采集处理。
5.根据权利要求2所述的系统,其特征在于,所述采集应用节点包括:
传输组件,用于通过传输协议传输所述数据源;
过滤组件,用于将所传输的数据源按预设的过滤规则进行过滤。
6.根据权利要求5所述的系统,其特征在于,所述采集装置还包括:
文件系统,用于分布式存储过滤后的数据源。
7.根据权利要求1-6中任一项所述的系统,其特征在于,所述稽核装置包括:第二调度管理器和分布式布置的多个稽核应用节点,其中:
所述第二调度管理器,用于为各个稽核应用节点分配数据源稽核任务;
所述稽核应用节点,用于按所述第二调度管理器所分配的稽核任务来稽核所述数据源。
8.根据权利要求7所述的系统,其特征在于,所述稽核应用节点包括:
数据归集组件,用于将相同索引标识的数据源进行合并整理;
稽核判断组件,用于对所合并整理的具有相同索引标识的数据源分别进行累加,当所述数据源全部累加完时,分别对所累加得到的数值进行比对。
9.根据权利要求8所述的系统,其特征在于,所述稽核应用节点还包括:
强制稽核组件,用于当预设时间内没有采集到新的数据源时,强制分别对所累加得到的数值进行比对。
10.根据权利要求1-6中任意一项所述的系统,其特征在于,所述数据源包括:在线计费话单、离线话单和在线消息话单。
11.一种数据稽核方法,其特征在于,包括以下步骤:
采集基于Zookeeper调度集群调度技术,通过分布式的方式对数据源进行采集;
对所采集的数据源进行稽核。
12.根据权利要求11所述的方法,其特征在于,所述采集基于Zookeeper调度集群调度技术,通过分布式的方式对数据源进行采集,包括以下步骤:
为各个采集应用节点分配数据源采集任务;
所述采集应用节点按所分配的采集任务来采集数据源。
13.根据权利要求12所述的方法,其特征在于,所述为各个采集应用节点分配数据源采集任务,包括以下步骤:
a)获取位于由N个所述数据源所组合的队列中位置n处的采集应用节点p,N是自然数,n的初始值为1;
b)判断所述采集应用节点p是否已经建立ftp连接;
c)查看当前已经建ftp连接的采集应用节点下是否有采集文件,
当有采集文件时,转至d),否则转至e);
d)获得所述数据源下的文件目录列表,针对所述文件目录列表中的每个文件进行采集;
e)将n数加1,判断加1后的n是否小于等于N,
当n≤N时,转至a),否则,将n设置为1,再转至a)。
14.根据权利要求13所述的系统,其特征在于,所述获得所述数据源下的文件目录列表,针对所述文件目录列表中的每个文件进行采集,包括以下步骤:
A)根据所述数据源的ID、文件名称将所述采集文件信息写入分布式数据库的采集断点表;
B)从所述文件目录列表中取当前未处理文件的文件名F,从所述数据源中获取文件名为F的文件,并存储至目标目录下;
C)判断所述目标目录下存放文件F的大小是否与所述文件目录列表中的文件大小一致,
当大小一致时,转至D),否则,删除所述目标目录下的文件名为F的文件,并转至B);
D)删除所述数据源中的文件F,更新断点表状态为文件采集完成,并记录完成时间;
E)将当前处理文件F在所述文件目录列表中更新为已处理;
F)判断所述文件目录列表中的所有文件是否都已处理,如果存在未处理的文件则转至B),否则结束本轮采集处理。
15.根据权利要求12所述的方法,其特征在于,还包括以下步骤:
将所述采集应用节点所采集的数据源按预设的过滤规则进行过滤。
16.根据权利要求15所述的方法,其特征在于,还包括以下步骤:
将过滤后的数据源进行分布式存储。
17.根据权利要求11-16中任一项所述的方法,其特征在于,所述对所采集的数据源进行稽核包括以下步骤:
为各个稽核应用节点分配数据源稽核任务;
所述稽核应用节点按所分配的稽核任务来稽核所述数据源。
18.根据权利要求17所述的方法,其特征在于,所述稽核应用节点按所分配的稽核任务来稽核所述数据源,包括以下步骤:
将相同索引标识的数据源进行合并整理;
对所合并整理的具有相同索引标识的数据源分别进行累加,当所述数据源全部累加完时,分别对所累加得到的数值进行比对。
19.根据权利要求18所述的方法,其特征在于,还包括以下步骤:
当预设时间内没有采集到新的数据源时,强制分别对所累加得到的数值进行比对。
20.根据权利要求11-16中任意一项所述的方法,其特征在于,所述数据源包括:在线计费话单、离线话单和在线消息话单。
CN201611270870.6A 2016-12-31 2016-12-31 数据稽核系统和方法 Pending CN108268549A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611270870.6A CN108268549A (zh) 2016-12-31 2016-12-31 数据稽核系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611270870.6A CN108268549A (zh) 2016-12-31 2016-12-31 数据稽核系统和方法

Publications (1)

Publication Number Publication Date
CN108268549A true CN108268549A (zh) 2018-07-10

Family

ID=62770574

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611270870.6A Pending CN108268549A (zh) 2016-12-31 2016-12-31 数据稽核系统和方法

Country Status (1)

Country Link
CN (1) CN108268549A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165212A (zh) * 2018-08-31 2019-01-08 浪潮软件集团有限公司 一种大数据实时监控与稽核的方法
CN109660366A (zh) * 2019-02-28 2019-04-19 携程旅游信息技术(上海)有限公司 混合云计费方法及系统
CN111367875A (zh) * 2018-12-25 2020-07-03 中移信息技术有限公司 一种话单文件处理方法、系统、设备及介质
CN112073926A (zh) * 2020-09-30 2020-12-11 北京思特奇信息技术股份有限公司 一种基于消息计费的流量稽核方法和系统
CN114003579A (zh) * 2020-07-28 2022-02-01 中国移动通信集团山东有限公司 一种对数据进行稽核的方法、装置、设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102073683A (zh) * 2010-12-22 2011-05-25 四川大学 一种分布式的实时新闻信息采集系统
CN103167202A (zh) * 2011-12-19 2013-06-19 中国移动通信集团甘肃有限公司 一种不同源话单稽核方法和装置
US20150032775A1 (en) * 2013-07-26 2015-01-29 Metamarkets Group Inc. Segment data visibility and management in a distributed database of time stamped records
CN104915259A (zh) * 2015-06-15 2015-09-16 浪潮软件集团有限公司 一种应用于分布式采集系统的任务调度方法
CN105871563A (zh) * 2015-01-21 2016-08-17 中国移动通信集团安徽有限公司 一种话单采集方法及电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102073683A (zh) * 2010-12-22 2011-05-25 四川大学 一种分布式的实时新闻信息采集系统
CN103167202A (zh) * 2011-12-19 2013-06-19 中国移动通信集团甘肃有限公司 一种不同源话单稽核方法和装置
US20150032775A1 (en) * 2013-07-26 2015-01-29 Metamarkets Group Inc. Segment data visibility and management in a distributed database of time stamped records
CN105871563A (zh) * 2015-01-21 2016-08-17 中国移动通信集团安徽有限公司 一种话单采集方法及电子设备
CN104915259A (zh) * 2015-06-15 2015-09-16 浪潮软件集团有限公司 一种应用于分布式采集系统的任务调度方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
卢丽丽 等: "《质量安全信息集成研究》", 31 December 2013, 中国质检出版社、中国标准出版社 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165212A (zh) * 2018-08-31 2019-01-08 浪潮软件集团有限公司 一种大数据实时监控与稽核的方法
CN111367875A (zh) * 2018-12-25 2020-07-03 中移信息技术有限公司 一种话单文件处理方法、系统、设备及介质
CN109660366A (zh) * 2019-02-28 2019-04-19 携程旅游信息技术(上海)有限公司 混合云计费方法及系统
CN109660366B (zh) * 2019-02-28 2022-02-11 携程旅游信息技术(上海)有限公司 混合云计费方法及系统
CN114003579A (zh) * 2020-07-28 2022-02-01 中国移动通信集团山东有限公司 一种对数据进行稽核的方法、装置、设备和存储介质
CN112073926A (zh) * 2020-09-30 2020-12-11 北京思特奇信息技术股份有限公司 一种基于消息计费的流量稽核方法和系统
CN112073926B (zh) * 2020-09-30 2022-02-01 北京思特奇信息技术股份有限公司 一种基于消息计费的流量稽核方法和系统

Similar Documents

Publication Publication Date Title
CN108268549A (zh) 数据稽核系统和方法
CN100349408C (zh) 实现网管系统和网元设备配置数据实时同步的方法
CN109829125A (zh) 展示电网调度运行数据的用户管理平台
US7130901B2 (en) Network service provider platform for supporting usage sensitive billing and operation services
CN107196804A (zh) 电力系统终端通信接入网告警集中监控系统及方法
CN110198555A (zh) 一种网络切片的配置方法和装置
CN102624554B (zh) 一种结合了设备管理和业务管理的综合网络管理方法
CN105227405B (zh) 监控方法及系统
CN102929961A (zh) 基于构建快速数据分级通道的数据处理方法及其装置
CN113190423B (zh) 业务数据的监控方法、装置及系统
CN101430357B (zh) 一种用电数据采集方法及系统和用电管理终端
CN101621463A (zh) 一种航班信息数据共享交换机及其处理方法
CN109981416A (zh) 一种区块链性能检测方法与系统
CN113448812A (zh) 微服务场景下的监控告警方法及装置
CN107993004A (zh) 一种用电信息处理系统和方法
CN102412998A (zh) 运营服务系统及其维护方法和装置
CN101226654A (zh) 银行客户短信编号排队方法
CN110572280A (zh) 一种网络监测方法及系统
CN109525448A (zh) 日志数据采集系统及方法
CN102404760B (zh) 系统性能实时测量的方法及装置
CN106383668A (zh) 一种信息存储方法、存储管理设备及客户端
CN110377489A (zh) 日志信息处理的方法和装置
CN112865311A (zh) 一种电力系统消息总线监视方法和装置
CN109474902B (zh) 消息计费装置、方法、终端及系统
CN114401158A (zh) 流量计费方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180710

RJ01 Rejection of invention patent application after publication