CN102722354A - 面向计费业务的数据实时抽取和关键性指标实时分析方法 - Google Patents

面向计费业务的数据实时抽取和关键性指标实时分析方法 Download PDF

Info

Publication number
CN102722354A
CN102722354A CN2012101817129A CN201210181712A CN102722354A CN 102722354 A CN102722354 A CN 102722354A CN 2012101817129 A CN2012101817129 A CN 2012101817129A CN 201210181712 A CN201210181712 A CN 201210181712A CN 102722354 A CN102722354 A CN 102722354A
Authority
CN
China
Prior art keywords
data
real
time
analysis
internal memory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012101817129A
Other languages
English (en)
Other versions
CN102722354B (zh
Inventor
王渊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ho whale cloud computing Polytron Technologies Inc
Original Assignee
ZTEsoft Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTEsoft Technology Co Ltd filed Critical ZTEsoft Technology Co Ltd
Priority to CN201210181712.9A priority Critical patent/CN102722354B/zh
Publication of CN102722354A publication Critical patent/CN102722354A/zh
Application granted granted Critical
Publication of CN102722354B publication Critical patent/CN102722354B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种面向计费业务的数据实时抽取和关键性指标实时分析方法,本发明面对电信、金融等行业计费数据的日以快速增长,能够实现对计费数据的实时抽取和分析,彻底解决传统的先存储再分析的滞后的数据分析方式。借助于基于内存的数据存储和处理方式,直接对计费原始话单进行实时处理,即运行,即分析,能够对相关关键性指标进行实时的反馈和跟踪,大大提高了计费领域的数据分析效率。在节省磁盘开销的同时,又保证了数据分析的实时性,相比于传统的先存储,再抽取,再分析的模式有着明显的优势。

Description

面向计费业务的数据实时抽取和关键性指标实时分析方法
技术领域
本发明涉及面向计费业务的实时数据挖掘分析方法,通过对计费原始话单的实时处理,能够对相关关键性指标进行实时的反馈和跟踪,大大提高了计费领域的数据分析效率。即运行,即分析,借助于基于内存的数据存储和处理方式,在节省磁盘开销的同时,又保证了数据分析的实时性,相比于传统的先存储,再抽取,再分析的模式有着明显的优势。
背景技术
对于计费业务来说,特点是数据量巨大,数据吞吐量高,面对巨大的数据量,如何能够通过数据分析的手段掌握关键性的数据指标,就更显得尤为重要。
传统的方式一般会采用先把话单数据进行存储到数据库,然后在定期的从数据库中抽取数据到数据仓库,最后再进行数据分析。整个分析过程属于后处理的方式,在计费业务不断增长的趋势下,这种传统的数据分析方式的不足之处已经日益凸显:
1,不具备实时性,分析滞后,关键性指标的分析结果不能体现当前的状态。
2,由于采用先存储,再分析的模式,在数据量巨大的情况下,数据准确性也会降低,而且无法对相关数据进行溯源比对。
3,由于采用磁盘存储的方式,大大增加了磁盘I/O的开销,对于细粒度的分析,完全依赖于数据库,直接的增加了数据库的负担,对于大数据量的即席查询,效率也非常低。
4,需要借助于第三方的数据仓库和挖掘工具,数据日常维护专业性要求高,成本高昂。
显而易见,在面对计费业务呈几何增长的形式下,对于运营商来说,对经营数据的实时性分析的需求就显得尤为迫切。
发明内容
本发明的目的是针对于传统计费的数据分析中所存在的分析滞后,效率低下等问题:提出的一种面向计费数据的实时抽取和关键性指标分析方法,面对电信、金融等行业计费数据的日以快速增长,能够实现对计费数据的实时抽取和分析,彻底解决传统的先存储再分析的滞后的数据分析方式。借助于基于内存的数据存储和处理方式,直接对计费原始话单进行实时处理,即运行,即分析,能够对相关关键性指标进行实时的反馈和跟踪,大大提高了计费领域的数据分析效率。在节省磁盘开销的同时,又保证了数据分析的实时性,相比于传统的先存储,再抽取,再分析的模式有着明显的优势。
本发明的技术方案是:
一种面向计费数据的实时抽取和关键性指标分析方法,该方法的实现包括以下步骤:
A、首先,建立面向计费话单文件的实时数据抽取进程和实时分析进程,设定待分析计费话单文件的关键性指标,将计费话单文件中的实时数据抽取到内存中;
B、将已抽取到内存中的实时话单数据进行并行的分流处理,然后将各路分流数据进行汇总合并。
C、通过实时分析进程,系统根据预先设定好的关键性指标,对合并的抽取数据进行实时分析,实时展现分析结果。
本发明的步骤B中,在内存中对抽取的实时话单数据进行并行的分流处理的速度不小于1000条话单数据/每秒。
本发明的步骤C中,直接对内存中的汇总数据进行实时的分析处理,通过web端的异步通讯技术进行数据指标的实时展现。
本发明的方法具体包括以下步骤:
A、在内存中建立基于多线程机制的内存存储进程和查询进程;
所述的内存存储进程包含以下步骤;
Figure BDA00001724814800031
内存参数定义步骤
Figure BDA00001724814800032
存储主实例定义步骤
Figure BDA00001724814800033
数据存储步骤
所述的查询进程包含;
Figure BDA00001724814800034
数据查询步骤
Figure BDA00001724814800035
内存回收步骤
Figure BDA00001724814800036
并发内存统一管理步骤,包括并发访问下内存的查询、更新和存储;
B、建立面向原始计费话单文件的实时数据抽取进程,其中包括对计费文件的智能容错规则库,具体包括以下内容:
Figure BDA00001724814800037
建立基于XML格式的容错规则库,规则支持标准正则表达式,能够兼容主流交换机设备的话单格式;
建立基于缓存的数据读取进程;
C、建立实时计费话单数据的多线程并行预处理进程,将抽取的话单数据,进行并行的分流处理,然后将数据进行汇总合并。
具体包括:
并行任务配置步骤
Figure BDA000017248148000310
存储使用配置步骤
Figure BDA000017248148000311
数据分流处理步骤
Figure BDA000017248148000312
数据合并步骤
D、建立面向内存处理的实时分析进程,系统根据预先设定好的关键性指标,对合并的抽取数据进行实时分析,实时展现分析结果,具体包括:
基于内存的分组查询步骤
特征分组查询即根据关键性指标,对应于各指标进行相应特征的分组查询的步骤
Figure BDA000017248148000315
汇总查询即根据指标的特征对指标进行分组查询和汇总
Figure BDA000017248148000316
定时查询任务步骤
Figure BDA000017248148000317
数据实时转换步骤
Figure BDA000017248148000318
数据实时刷新步骤。
本发明中,在内存中采用多线程技术同时开辟多个内存块,进行并行的数据整理。
本发明中,建立面向原始计费话单文件的实时数据抽取进程,其中包括对计费文件的智能容错规则库,是在兼容主流设备厂商话单格式的前提下,对不规则话单、异常话单进行自适应的容错处理。
本发明的有益效果:
一、能够实现对计费数据的实时抽取和分析,彻底解决传统的先存储再分析的滞后的数据分析方式。
二、直接对计费原始话单进行实时处理,即运行,即分析,能够对相关关键性指标进行实时的反馈和跟踪,大大提高了计费领域的数据分析效率。
三、数据抽取和分析过程全程在内存中运行,大大节省磁盘空间和I/O开销。
四、彻底解决数据量高速增长所带来的性能问题,即运行,即抽取,即分析,数据不断增长,不会影响当前的分析程序的效率,达到较高的实时性。
附图说明
图1是本发明的总体构架示意图。
图2是本发明的数据实时读取与分析流程图。
具体实施方式
下面结合附图和实施例对本发明作进一步的说明。
如图1所示,一种面向计费数据的实时抽取和关键性指标分析方法,该方法的实现包括以下步骤:
A、建立基于多线程机制的内存存储和查询系统
通过C++语言编写专用的内存存储和查询程序,程序包含以下模块功能:
Figure BDA00001724814800041
内存参数定义
Figure BDA00001724814800042
存储主实例定义
Figure BDA00001724814800043
数据存储功能
数据查询功能
Figure BDA00001724814800052
内存回收功能
Figure BDA00001724814800053
并发内存统一管理模块
B、建立面向计费原始话单文件的实时数据抽取程序,其中包括话单的智能容错规则库。具体包括以下内容:
Figure BDA00001724814800054
建立基于XML格式的容错规则库,规则支持标准正则表达式,能够兼容主流交换机设备的话单格式
Figure BDA00001724814800055
采用C++语言开发基于缓存的快速读取模块,保证实时性和高效性
C、建立话单数据的多线程并行预处理程序,将抽取的话单数据,实现并行的高速分流处理,然后将数据进行汇总合并。
具体包括:
Figure BDA00001724814800056
并行任务配置功能
存储使用配置功能
Figure BDA00001724814800058
数据分流处理功能
Figure BDA00001724814800059
数据合并功能
D、建立面向内存处理的实时分析程序,系统根据预先设定好的关键性指标,对合并的抽取数据进行实时分析,实时展现分析结果。
具体包括:
Figure BDA000017248148000510
基于内存的分组查询,
Figure BDA000017248148000511
特征分组查询,
汇总查询,
定时查询任务
数据实时转换,
Figure BDA000017248148000515
数据实时刷新
等特征。
本发明未涉及部分均与现有技术相同或可采用现有技术加以实现。

Claims (6)

1.一种面向计费数据的实时抽取和关键性指标分析方法,其特征在于,该方法的实现包括以下步骤:
A、首先,建立面向计费话单文件的实时数据抽取进程和实时分析进程,设定待分析计费话单文件的关键性指标,将计费话单文件中的实时数据抽取到内存中;
B、将已抽取到内存中的实时话单数据进行并行的分流处理,然后将各路分流数据进行汇总合并;
C、通过实时分析进程,系统根据预先设定好的关键性指标,对合并的抽取数据进行实时分析,实时展现分析结果。
2.根据权利要求1所述的面向计费数据的实时抽取和关键性指标分析方法,其特征在于步骤B中,在内存中对抽取的实时话单数据进行并行的分流处理的速度不小于1000条话单数据/每秒。
3.根据权利要求1所述的面向计费数据的实时抽取和关键性指标分析方法,其特征在于步骤C中,直接对内存中的汇总数据进行实时的分析处理,通过web端的异步通讯技术进行数据指标的实时展现。
4.根据权利要求1所述的面向计费数据的实时抽取和关键性指标分析方法,其特征在于,该方法具体包括以下步骤:
A、在内存中建立基于多线程机制的内存存储进程和查询进程;
所述的内存存储进程包含以下步骤;
Figure FDA00001724814700011
内存参数定义步骤
Figure FDA00001724814700012
存储主实例定义步骤
Figure FDA00001724814700013
数据存储步骤
所述的查询进程包含;
Figure FDA00001724814700014
数据查询步骤
Figure FDA00001724814700015
内存回收步骤
Figure FDA00001724814700016
并发内存统一管理步骤,包括并发访问下内存的查询、更新和存储;
B、建立面向原始计费话单文件的实时数据抽取进程,其中包括对计费文件的智能容错规则库,具体包括以下内容:
Figure FDA00001724814700021
建立基于XML格式的容错规则库,规则支持标准正则表达式,能够兼容主流交换机设备的话单格式;
Figure FDA00001724814700022
建立基于缓存的数据读取进程;
C、建立实时计费话单数据的多线程并行预处理进程,将抽取的话单数据,进行并行的分流处理,然后将数据进行汇总合并;
具体包括:
Figure FDA00001724814700023
并行任务配置步骤
存储使用配置步骤
数据分流处理步骤
Figure FDA00001724814700026
数据合并步骤
D、建立面向内存处理的实时分析进程,系统根据预先设定好的关键性指标,对合并的抽取数据进行实时分析,实时展现分析结果,具体包括:
Figure FDA00001724814700027
基于内存的分组查询步骤
Figure FDA00001724814700028
特征分组查询即根据关键性指标,对应于各指标进行相应特征的分组查询的步骤
Figure FDA00001724814700029
汇总查询即根据指标的特征对指标进行分组查询和汇总
Figure FDA000017248147000210
定时查询任务步骤
Figure FDA000017248147000211
数据实时转换步骤
Figure FDA000017248147000212
数据实时刷新步骤。
5.根据权利要求1所述的面向计费数据的实时抽取和关键性指标分析方法,其特征在于在内存中采用多线程技术同时开辟多个内存块,进行并行的数据整理。
6.根据权利要求1所述的面向计费数据的实时抽取和关键性指标分析方法,其特征在于建立面向原始计费话单文件的实时数据抽取进程,其中包括对计费文件的智能容错规则库,是在兼容主流设备厂商话单格式的前提下,对不规则话单、异常话单进行自适应的容错处理。
CN201210181712.9A 2012-06-04 2012-06-04 面向计费业务的数据实时抽取和关键性指标实时分析方法 Active CN102722354B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210181712.9A CN102722354B (zh) 2012-06-04 2012-06-04 面向计费业务的数据实时抽取和关键性指标实时分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210181712.9A CN102722354B (zh) 2012-06-04 2012-06-04 面向计费业务的数据实时抽取和关键性指标实时分析方法

Publications (2)

Publication Number Publication Date
CN102722354A true CN102722354A (zh) 2012-10-10
CN102722354B CN102722354B (zh) 2014-11-26

Family

ID=46948136

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210181712.9A Active CN102722354B (zh) 2012-06-04 2012-06-04 面向计费业务的数据实时抽取和关键性指标实时分析方法

Country Status (1)

Country Link
CN (1) CN102722354B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104717625A (zh) * 2013-12-12 2015-06-17 中国移动通信集团河南有限公司 一种信控处理的方法及装置
CN109039666A (zh) * 2018-07-12 2018-12-18 尚通(北京)科技发展有限公司 一种基于大数据的流量实时计费系统和方法
CN109766363A (zh) * 2019-01-08 2019-05-17 北京江融信科技有限公司 流式数据处理方法、系统、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1897025A (zh) * 2006-04-27 2007-01-17 南京联创科技股份有限公司 海量数据处理中多线程工作包并行的etl技术
CN1953490A (zh) * 2006-09-06 2007-04-25 南京中兴软创科技有限责任公司 一种利用etl技术对计费数据进行抽取提供的方法
CN101478622A (zh) * 2008-12-31 2009-07-08 中兴通讯股份有限公司 一种话单入库的系统及方法
CN101510203A (zh) * 2009-02-25 2009-08-19 南京联创科技股份有限公司 基于拆分机制并行处理实现大数据量高性能处理的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1897025A (zh) * 2006-04-27 2007-01-17 南京联创科技股份有限公司 海量数据处理中多线程工作包并行的etl技术
CN1953490A (zh) * 2006-09-06 2007-04-25 南京中兴软创科技有限责任公司 一种利用etl技术对计费数据进行抽取提供的方法
CN101478622A (zh) * 2008-12-31 2009-07-08 中兴通讯股份有限公司 一种话单入库的系统及方法
CN101510203A (zh) * 2009-02-25 2009-08-19 南京联创科技股份有限公司 基于拆分机制并行处理实现大数据量高性能处理的方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104717625A (zh) * 2013-12-12 2015-06-17 中国移动通信集团河南有限公司 一种信控处理的方法及装置
CN109039666A (zh) * 2018-07-12 2018-12-18 尚通(北京)科技发展有限公司 一种基于大数据的流量实时计费系统和方法
CN109766363A (zh) * 2019-01-08 2019-05-17 北京江融信科技有限公司 流式数据处理方法、系统、电子设备及存储介质
CN109766363B (zh) * 2019-01-08 2021-06-11 北京江融信科技有限公司 流式数据处理方法、系统、电子设备及存储介质

Also Published As

Publication number Publication date
CN102722354B (zh) 2014-11-26

Similar Documents

Publication Publication Date Title
CN107145586B (zh) 一种基于电力营销数据的标签产出方法和装置
CN104820670B (zh) 一种电力信息大数据的采集和存储方法
CN102799486B (zh) 一种MapReduce系统中的数据采样和划分方法
CN109582667A (zh) 一种基于电力调控大数据的多数据库混合存储方法及系统
CN105023196A (zh) 充电站充电交易数据的分析方法及装置
CN103092867B (zh) 一种数据管理方法及系统、数据分析装置
CN106126601A (zh) 一种社保大数据分布式预处理方法及系统
CN105069134A (zh) 一种Oracle统计信息自动收集方法
CN104391749A (zh) 一种资源分配方法及装置
CN104850629A (zh) 一种基于改进k-means算法的海量智能用电数据分析方法
CN109446783B (zh) 一种基于机器众包的图像识别高效样本采集方法及系统
CN106503276A (zh) 一种用于实时监控系统的时间序列数据库的方法与装置
CN102546247A (zh) 一种适用流式处理的大规模数据连续分析系统
CN103473276B (zh) 超大型数据存储方法、分布式数据库系统及其检索方法
CN103810238A (zh) 一种基于异步处理的大数据量Excel文件导出方法
CN102722354B (zh) 面向计费业务的数据实时抽取和关键性指标实时分析方法
CN104809246A (zh) 充电数据的处理方法及装置
CN102521374A (zh) 基于关系型联机分析处理的智能数据聚集方法及其系统
CN103353883A (zh) 一种按需聚类的大数据流式聚类处理系统及方法
CN103793756A (zh) 一种变压器经济运行特征分析方法
CN112200209A (zh) 一种基于日差分用电量的贫困用户识别方法
CN104376119A (zh) 一种适应超大规模列存数据库的数据访问方法及装置
CN105445577A (zh) 一种电能质量干扰源工况辨识方法
CN116862137A (zh) 基于数据融合的充电桩负荷柔性调度方法及装置
CN106951442A (zh) 一种异构数据库间的数据交互方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C56 Change in the name or address of the patentee
CP01 Change in the name or title of a patent holder

Address after: Affirmative road in Jiangning District of Nanjing City, Jiangsu Province, No. 888 211153

Patentee after: ZTEsoft Technology Co., Ltd.

Address before: Affirmative road in Jiangning District of Nanjing City, Jiangsu Province, No. 888 211153

Patentee before: Nanjing ZTEsoft Technology Co., Ltd.

CP03 Change of name, title or address

Address after: 210012 room 627, Ning Shuang Road, Yuhuatai District, Nanjing, Jiangsu, 627

Patentee after: Ho whale cloud computing Polytron Technologies Inc

Address before: 211153 No. 888 central square road, Jiangning District, Nanjing, Jiangsu.

Patentee before: ZTEsoft Technology Co., Ltd.

CP03 Change of name, title or address