CN102298623A - 话单数据采集方法 - Google Patents
话单数据采集方法 Download PDFInfo
- Publication number
- CN102298623A CN102298623A CN 201110233267 CN201110233267A CN102298623A CN 102298623 A CN102298623 A CN 102298623A CN 201110233267 CN201110233267 CN 201110233267 CN 201110233267 A CN201110233267 A CN 201110233267A CN 102298623 A CN102298623 A CN 102298623A
- Authority
- CN
- China
- Prior art keywords
- index field
- data
- granularity
- database
- acquisition method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种话单数据采集方法,包括以下步骤:S1:采用N个分析进程根据用户关注的指标字段分析原始话单文件,提取包含所述指标字段的数据,并将该数据存入数据库,N≥1;S2:从所述数据库中提取所述指标字段的数据,并进行汇聚,将汇聚后的结果存入数据库。本发明能够灵活地根据用户的需求,定制采集粒度和采集指标。
Description
技术领域
本发明涉及数据采集技术领域,特别涉及一种话单数据采集方法。
背景技术
一般业务数据采集的形式,都是由综合网管和业务厂家制定采集接口,由业务厂家提供数据库或者文件形式,将汇总后的数据提供给综合网管系统。这样做的话,综合网管系统只能采集到提前约定好的相关指标,如果指标发生增减,或者采集粒度发生变化,综合网管系统将受限于业务厂家所提供的数据,这样就不利于按用户的特定需求采集和展示所需要的指标数据。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是:如何在繁杂的业务数据中,采集用户关注的信息。
(二)技术方案
为解决上述技术问题,本发明提供了一种话单数据采集方法,包括以下步骤:
S1:采用N个分析进程根据用户关注的指标字段分析原始话单文件,提取包含所述指标字段的数据,并将该数据存入数据库,N≥1;
S2:从所述数据库中提取所述指标字段的数据,并进行汇聚,将汇聚后的结果存入数据库。
其中,所述步骤S1具体包括:
S1.1:每个分析进程定时读取原始话单文件,调用解析脚本对话单进行解析,所述解析脚本中指定了所述用户关注的指标字段;
S1.2:将解析后得到的所述指标字段的数据存入数据库。
其中,所述步骤S1.1中解析的方式具体包括:
解析所述用户关注的指标字段,或截取所述指标字段中的一部分数值,或根据指标字段含义进行符合数据库存储的数据类型转换,或根据指标字段值进行数制换算。
其中,所述步骤S1.2中采用数据库文本导入的方式将解析后得到的所述指标字段的数据存入数据库。
其中,所述步骤S2中以时间粒度为汇聚条件对N个分析结果进行汇聚,得到所述指标字段在开始时间和结束时间内的汇聚结果,并对所述汇聚结果做求和、平均值、最大值或最小值中的一种或多种聚合函数的计算,得出该指标字段在不同聚合函数下的时间粒度的汇聚值。
其中,进行一次汇聚之后还包括采用与前一次不同的时间粒度对前一次的汇聚结果进行汇聚。
其中,所述时间粒度包括:小时粒度、天粒度、周粒度、月粒度、季粒度、年粒度。
所述步骤S2中以业务类型为汇聚条件对所述指标字段的数据进行汇聚,得到不同业务类型中的指标字段的汇聚结果。
其中,所述步骤S1之前还包括:
登录远程话单服务器,下载原始话单文件,并将所述原始话单文件分成N个分析目录。
(三)有益效果
本发明能够灵活地根据用户的需求,定制采集粒度和采集指标,使得用户能够采集自己关注的信息。
附图说明
图1是本发明实施例的一种话单数据采集方法流程图;
图2是图1中步骤S101的具体流程图;
图3是图1中步骤S102的具体流程图;
图4是图1中步骤S103的具体流程图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
如图1所示,本发明的话单数据采集方法包括:
步骤S101,登录远程话单服务器,到指定的目录下载原始话单文件,并将原始话单文件分成N个分析目录,N≥1。具体流程如图2所示,如果下载发生错误,则舍弃该文件并报异常。话单下载完毕后,进程进入休眠状态,等待下次任务执行。若当前已存在原始话单文件,则不用下载,直接执行步骤S102。
步骤S102,采用N个分析进程分析原始话单文件,对用户关注的指标字段进行分析提取,将提取后的包含所述指标字段的数据存入数据库。具体流程如图3所示,分析话单进程启动后,定时读取话单文件,调用解析脚本对话单进行解析,可以根据用户关注的指标进行自定义解析脚本,如:只解析用户关注的某几个指标,其他字段不解析,或者某个字段只截取其中有用的一部分数值。也可以根据指标含义进行适当的数据类型转换,为下一步数据存入数据库以及最终的数据查询做好准备。如:某个字段为枚举类型的字符串型数据,则可以将该字段转换为整型字典表数据,因为整型数据比字符串型数据查询的效率要高,所以这样解析有利于最终的数据查询。还可以根据指标值进行必要的数据换算,如:将十六进制数据转换为十进制数据,或将日期型数据转换为长整型时间数据等。如果解析不成功会生成异常文件。分析后再调用数据入库脚本将数据存入中间表,如果数据入库不成功也会生成异常文件。然后将分析完的文件进行备份。所有话单文件分析完毕后,进程进入休眠状态,等待下次任务执行。
分析话单进程可以根据话单量的多少,自定义进程的数量,以最大限度的实现负载均衡。其中将解析后得到的所述指标字段的数据存入数据库,是使用了数据库文本导入的方式,这样做的优点是只占用系统内存,不占用进程的内存,处理效率相当高。
步骤S103:从所述数据库中提取步骤S102解析出的指标字段的数据进行汇聚,并将汇聚后的结果存入数据库。具体流程如图4所示,汇聚话单进程启动后,定时进行数据的提取和汇聚,再将汇聚后的数据存入数据库中。汇聚任务执行完毕后,进程进入休眠状态,等待下次任务执行。
汇聚的粒度和算法,以及汇聚后需要提取的指标,都可以根据用户的需要适时地调整,以最大限度地实现用户的个性化需求。如:用户需要小时粒度的数据,那么汇聚后会得到用户所关注指标字段在开始时间和结束时间相差1小时(一般是整点时间)内的数据,并且对该数据做求和、平均、最大、最小等一种或多种聚合函数的计算,得出的结果将是用户所关注指标字段在不同汇聚函数下的小时粒度的汇聚值。还可以针对不同的时间粒度需求,进行多次汇聚,如:将原始数据汇聚成小时、天、周、月、季、年等不同的数据粒度,以支持报表的多种日期和时间维度的查询和翻转。如果该汇聚过程较为简单,则可以用SQL语句来实现。如果汇聚过程较为复杂,如:需要针对多个指标进行多次计算,也可以用存储过程来实现。
下面以WAP网关业务为例,针对以上汇聚粒度和算法作具体说明如下:WAP网关有PULL、PUSH、RADIUS、SOCKET等几类话单,用户将与网关实时性分业务统计的相关指标建立了一个指标组,这些指标的数据都来源于PULL话单,指标的编码、含义及算法定义见表1:
表1 WAP网关业务中指标字段的信息
根据指标的算法定义,编写实现汇聚的SQL语句如表2所示,其中数据的开始时间、数据的结束时间可由汇聚粒度决定。
表2中的SQL语句即可实现汇聚,即针对网关实时性分业务统计指标组所包含的指标,进行自定义汇聚粒度的数据提取工作。此SQL语句中使用到了求和等聚合函数的计算,数据表名、分区名、数据的开始和结束时间,都可以作为参数传入,此SQL语句的执行结果,即为汇聚后的指标值。在此结果之上,还可以进行多次多种粒度的汇聚,如首次汇聚在原始粒度之上汇聚成5分钟粒度数据,二次汇聚在5分钟粒度之上汇聚成小时粒度数据,三次汇聚在小时粒度之上汇聚成天粒度数据等。
表2 实现表1中字表字段汇聚的SQL语句
以上是以网关业务为例按时间粒度进行汇聚,若用户关注的指标字段属于不同的业务类型,在步骤S103中还可以以业务类型为汇聚条件对指标字段的数据进行汇聚,得到不同业务类型中的指标字段的汇聚结果,即按用户关注的指标字段所属的业务类型进行汇聚。
还可以自定义汇聚条件对指标字段进行汇聚。当然可以采用不同的汇聚条件同时对指标字段进行汇聚。
不同的汇聚条件对应不同的SQL语句或存储过程中的查询条件。
如上述例子中,对指标字段“WAP浏览请求数”,主要以时间为条件进行汇聚,同时还设定了ResStatus<400或ResStatus=716(从wap网关返回给用户的状态码小于400或等与716)的汇聚条件。
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。
Claims (9)
1.一种话单数据采集方法,其特征在于,包括以下步骤:
S1:采用N个分析进程根据用户关注的指标字段分析原始话单文件,提取包含所述指标字段的数据,并将该数据存入数据库,N≥1;
S2:从所述数据库中提取所述指标字段的数据,并进行汇聚,将汇聚后的结果存入数据库。
2.如权利要求1所述的话单数据采集方法,其特征在于,所述步骤S1具体包括:
S1.1:每个分析进程定时读取原始话单文件,调用解析脚本对话单进行解析,所述解析脚本中指定了所述用户关注的指标字段;
S1.2:将解析后得到的所述指标字段的数据存入数据库。
3.如权利要求2所述的话单数据采集方法,其特征在于,所述步骤S1.1中解析的方式具体包括:
解析所述用户关注的指标字段,或截取所述指标字段中的一部分数值,或根据指标字段含义进行符合数据库存储的数据类型转换,或根据指标字段值进行数制换算。
4.如权利要求3所述的话单数据采集方法,其特征在于,所述步骤S1.2中采用数据库文本导入的方式将解析后得到的所述指标字段的数据存入数据库。
5.如权利要求1所述的话单数据采集方法,其特征在于,所述步骤S2中以时间粒度为汇聚条件对所述指标字段的数据进行汇聚,得到所述指标字段在开始时间和结束时间内的汇聚结果,并对所述汇聚结果做求和、平均值、最大值或最小值中的一种或多种聚合函数的计算,得出该指标字段在不同聚合函数下的时间粒度的汇聚值。
6.如权利要求5所述的话单数据采集方法,其特征在于,进行一次汇聚之后还包括采用与前一次不同的时间粒度对前一次的汇聚结果进行汇聚。
7.如权利要求6所述的话单数据采集方法,其特征在于,所述时间粒度包括:小时粒度、天粒度、周粒度、月粒度、季粒度、年粒度。
8.如权利要求1所述的话单数据采集方法,其特征在于,所述步骤S2中以业务类型为汇聚条件对所述指标字段的数据进行汇聚,得到不同业务类型中的指标字段的汇聚结果。
9.如权利要求1~8中任一项所述的话单数据采集方法,其特征在于,所述步骤S1之前还包括:
登录远程话单服务器,下载原始话单文件,并将所述原始话单文件分成N个分析目录。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201110233267 CN102298623A (zh) | 2011-08-15 | 2011-08-15 | 话单数据采集方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201110233267 CN102298623A (zh) | 2011-08-15 | 2011-08-15 | 话单数据采集方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102298623A true CN102298623A (zh) | 2011-12-28 |
Family
ID=45359037
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201110233267 Pending CN102298623A (zh) | 2011-08-15 | 2011-08-15 | 话单数据采集方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102298623A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102831168A (zh) * | 2012-07-24 | 2012-12-19 | 大唐移动通信设备有限公司 | 一种kpi指标的计算方法及装置 |
CN103345527A (zh) * | 2013-07-23 | 2013-10-09 | 深圳市博瑞得科技有限公司 | 数据智能统计系统 |
CN104615765A (zh) * | 2015-02-13 | 2015-05-13 | 中国联合网络通信集团有限公司 | 一种移动用户上网记录的数据处理方法及装置 |
CN105760977A (zh) * | 2014-12-18 | 2016-07-13 | 航天信息股份有限公司 | 一种制证方法和系统 |
CN106332052A (zh) * | 2016-08-30 | 2017-01-11 | 上海新炬网络技术有限公司 | 基于移动通信终端的微区域治安预警方法 |
CN106528067A (zh) * | 2015-09-15 | 2017-03-22 | 阿里巴巴集团控股有限公司 | 一种生成报表的方法及装置 |
CN106682100A (zh) * | 2016-12-02 | 2017-05-17 | 浙江宇视科技有限公司 | 一种基于Hbase数据库的数据统计方法与系统 |
CN107943902A (zh) * | 2017-11-17 | 2018-04-20 | 北京首信科技股份有限公司 | 话单采集方法和装置 |
CN107943912A (zh) * | 2017-11-17 | 2018-04-20 | 江苏中威科技软件系统有限公司 | 一种响应式资源目录数据可视化管理方法、终端及装置 |
CN109714494A (zh) * | 2019-01-03 | 2019-05-03 | 中国联合网络通信集团有限公司 | 话单生成方法及系统、话单生成服务器 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1933512A (zh) * | 2006-09-30 | 2007-03-21 | 华为技术有限公司 | 一种话单处理设备及方法 |
CN1987855A (zh) * | 2005-12-20 | 2007-06-27 | 英业达股份有限公司 | 数据处理方法及系统 |
CN101512570A (zh) * | 2006-07-28 | 2009-08-19 | 奥多比公司 | 用于可移植数据聚集的方法和系统 |
US20110153611A1 (en) * | 2009-12-22 | 2011-06-23 | Anil Babu Ankisettipalli | Extracting data from a report document |
-
2011
- 2011-08-15 CN CN 201110233267 patent/CN102298623A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1987855A (zh) * | 2005-12-20 | 2007-06-27 | 英业达股份有限公司 | 数据处理方法及系统 |
CN101512570A (zh) * | 2006-07-28 | 2009-08-19 | 奥多比公司 | 用于可移植数据聚集的方法和系统 |
CN1933512A (zh) * | 2006-09-30 | 2007-03-21 | 华为技术有限公司 | 一种话单处理设备及方法 |
US20110153611A1 (en) * | 2009-12-22 | 2011-06-23 | Anil Babu Ankisettipalli | Extracting data from a report document |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102831168A (zh) * | 2012-07-24 | 2012-12-19 | 大唐移动通信设备有限公司 | 一种kpi指标的计算方法及装置 |
CN102831168B (zh) * | 2012-07-24 | 2015-10-14 | 大唐移动通信设备有限公司 | 一种kpi指标的计算方法及装置 |
CN103345527A (zh) * | 2013-07-23 | 2013-10-09 | 深圳市博瑞得科技有限公司 | 数据智能统计系统 |
CN105760977A (zh) * | 2014-12-18 | 2016-07-13 | 航天信息股份有限公司 | 一种制证方法和系统 |
CN104615765A (zh) * | 2015-02-13 | 2015-05-13 | 中国联合网络通信集团有限公司 | 一种移动用户上网记录的数据处理方法及装置 |
CN106528067A (zh) * | 2015-09-15 | 2017-03-22 | 阿里巴巴集团控股有限公司 | 一种生成报表的方法及装置 |
CN106528067B (zh) * | 2015-09-15 | 2019-09-13 | 阿里巴巴集团控股有限公司 | 一种生成报表的方法及装置 |
CN106332052A (zh) * | 2016-08-30 | 2017-01-11 | 上海新炬网络技术有限公司 | 基于移动通信终端的微区域治安预警方法 |
CN106682100A (zh) * | 2016-12-02 | 2017-05-17 | 浙江宇视科技有限公司 | 一种基于Hbase数据库的数据统计方法与系统 |
CN106682100B (zh) * | 2016-12-02 | 2020-10-20 | 浙江宇视科技有限公司 | 一种基于Hbase数据库的数据统计方法与系统 |
CN107943902A (zh) * | 2017-11-17 | 2018-04-20 | 北京首信科技股份有限公司 | 话单采集方法和装置 |
CN107943912A (zh) * | 2017-11-17 | 2018-04-20 | 江苏中威科技软件系统有限公司 | 一种响应式资源目录数据可视化管理方法、终端及装置 |
CN107943912B (zh) * | 2017-11-17 | 2018-10-19 | 江苏中威科技软件系统有限公司 | 一种响应式资源目录数据可视化管理方法、终端及装置 |
CN107943902B (zh) * | 2017-11-17 | 2021-06-29 | 北京首信科技股份有限公司 | 话单采集方法和装置 |
CN109714494A (zh) * | 2019-01-03 | 2019-05-03 | 中国联合网络通信集团有限公司 | 话单生成方法及系统、话单生成服务器 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102298623A (zh) | 话单数据采集方法 | |
CN105913233A (zh) | 适用于应用客户端支付的sdk处理方法 | |
CN106295382B (zh) | 一种信息风险防控方法及装置 | |
CN102004993A (zh) | 信息推送方法和系统 | |
CN107798031A (zh) | 保单信息查询方法和装置 | |
CN103823811A (zh) | 用于处理日志的方法及其系统 | |
CN100527132C (zh) | 分类样本集的优化方法和内容相关广告服务器 | |
US20190149344A1 (en) | Intelligent search system for service cost and method thereof | |
CN103778200A (zh) | 一种报文信息源抽取方法及其系统 | |
CN105139253B (zh) | 一种自助办税的云优化方法 | |
CN108960672B (zh) | 限额限次的风控方法、装置及计算机可读存储介质 | |
CN110069561A (zh) | 账务获取方法、系统、电子设备及计算机可读介质 | |
CN111127009A (zh) | 一种应用于自助设备的错账定位方法和装置 | |
CN109598631B (zh) | 基于社保政策的人力资源外包客户账单生成方法及生成系统 | |
CN102075896B (zh) | 一种资费预演方法和系统 | |
CN104766221A (zh) | 流量精细化营销参数的选取方法 | |
CN112184402A (zh) | 会计凭证的生成方法、装置、存储介质及电子设备 | |
CN116050359A (zh) | 一种保单托管录入方法、系统、终端设备及存储介质 | |
CN113485942B (zh) | 一种基于独立模块的自动化测试方法及装置 | |
CN112614005B (zh) | 企业复工状态的处理方法和装置 | |
CN108875029A (zh) | 数据处理方法及装置、存储介质和处理器 | |
CN114265887A (zh) | 一种维度数据处理方法、装置、存储介质及电子设备 | |
CN101072275A (zh) | 一种动态折线式通信收费的计费工程方法 | |
US20120233175A1 (en) | Database, slip data management server, and index data management program | |
CN111741360A (zh) | 基于开源列式数据库的画像应用方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20111228 |