CN105868197A

CN105868197A - 一种话单数据的统计方法及统计装置

Info

Publication number: CN105868197A
Application number: CN201510028730.7A
Authority: CN
Inventors: 张爱民; 姜薇薇; 陈卓; 琚彬
Original assignee: China Mobile Shenzhen Co Ltd
Current assignee: China Mobile Shenzhen Co Ltd
Priority date: 2015-01-20
Filing date: 2015-01-20
Publication date: 2016-08-17
Anticipated expiration: 2035-01-20
Also published as: CN105868197B

Abstract

本发明提供了一种话单数据的统计方法及统计装置，该方法包括：提取第一话单数据中第一字段的记录内容和第二字段的记录内容；判断第一字段的记录内容和所述第二字段的记录内容之间是否满足预定关系；当所述第一字段的记录内容和所述第二字段的记录内容之间满足预定关系时，将所述第一话单数据创建至第一分区文件中；当所述第一字段的记录内容和所述第二字段的记录内容之间不满足预定关系时，将所述第一话单数据分别创建至所述第一分区文件和第二分区文件中；其中所述第一分区文件是依据所述第一字段的名称和记录内容的组合被命名，所述第二分区文件是依据所述第二字段的名称和记录内容的组合被命名。采用本发明能够有效提高话单数据的统计效率。

Description

一种话单数据的统计方法及统计装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种话单数据的统计方法及统计装置。

背景技术

在电信领域很多的原始数据都是通过运行设备的原始话单提供的，这样的数据处理具有几个特点：数据量大，几个月的数据就达T级；处理性能要求高，处理速度要求几千条记录/秒，也就是说，对这些大量的话单进行多维统计分析，还要保持可接受的性能，是一个很大的挑战。

对上述挑战，第一种常用的处理方法是基于关系型数据库对数据进行分区，分区指的是将同一个表的数据进行分类,分别存放到不同区域，这样在查询统计时就能直接缩小被统计数据范围，从而有效提升性能，但是常用的关系型数据库对分区技术只支持一维分区，无法做到两重分区，不能同时提高二维统计的性能；第二种常见的方法是采用内存数据库，将数据放在内存中，由于内存的读取速度快，因此可以加速统计性能，但其缺陷也是受制于内存，由于数据在内存中，其存放的数据量就会受限，通常内存数据是对磁盘数据的映射，而话单的数据量很大，不太可能全部存放到内存中，因此会不断的在内存和磁盘之间进行数据交换，导致内存数据库的性能大打折扣；第三种方法是采用集群或者云计算技术，将数据分布到多个节点，充分利用多个节点并行处理的优势来提高性能，但是该方案实时性较差，集群和云计算技术适合处理对实时性要求不太高的统计场景；其次是成本高，建设一个集群和云计算处理平台，需要投入较高的建设和运营成本，在某些情况下，高成本意味着不可行。

发明内容

本发明实施例的目的是提供一种话单数据的统计方法及统计装置，可有效提高话单数据的统计效率。

为了解决上述技术问题，本发明实施例采用如下技术方案：

依据本发明实施例的一个方面，提供了一种话单数据的统计方法，包括：

提取第一话单数据中第一字段的记录内容和第二字段的记录内容；

判断所述第一字段的记录内容和所述第二字段的记录内容之间是否满足预定关系；

当所述第一字段的记录内容和所述第二字段的记录内容之间满足预定关系时，将所述第一话单数据创建至第一分区文件中；当所述第一字段的记录内容和所述第二字段的记录内容之间不满足预定关系时，将所述第一话单数据分别创建至所述第一分区文件和第二分区文件中；其中所述第一分区文件是依据所述第一字段的名称和记录内容的组合被命名，所述第二分区文件是依据所述第二字段的名称和记录内容的组合被命名。

其中，所述第一字段的名称为话单数据的结算日期，所述第二字段的名称为话单数据的通话日期，所述预定关系为：所述第一字段的记录内容和所述第二字段的记录内容相同。

其中，在所述提取第一话单数据中第一字段的记录内容和第二字段的记录内容的步骤之前，所述方法还包括：

在原始话单数据中提取包括所述第一字段和所述第二字段的部分数据，形成所述第一话单数据。

其中，在将所述第一话单数据创建至第一分区文件和第二分区文件中，或将所述第一话单数据创建至第一分区文件中的步骤之后，所述方法还包括：

判断所述第一话单数据所在的第一分区文件和/或第二分区文件的日期是否超过在线保留的预设日期；

若超过所述预设日期，则删除所述第一分区文件和/或第二分区文件。

获取用户的话单查询数据；

根据所述话单查询数据，查询所述第一分区文件和/或所述第二分区文件，将对应话单数据发送给用户。

其中，所述根据所述话单查询数据，查询所述第一分区文件和/或所述第二分区文件，将对应话单数据发送给用户的步骤包括：

当所述话单查询数据的查询条件仅包括所述第一字段的名称和需要查询的第一字段的记录内容时，根据所述第一字段的记录内容，查找相对应命名的所述第一分区文件，获得需要查询的话单数据，并发送给用户；

当所述话单查询数据的查询条件仅包括所述第二字段的名称和需要查询的第二字段的记录内容时，根据第二字段的记录内容，查找相对应命名的所述第一分区文件和所述第二分区文件，从所述第一分区文件和所述第二分区文件分别获得需要查询的话单数据，并发送给用户；

当所述话单查询数据的查询条件既包括第一字段的名称和需要查询的第一字段的记录内容，也包括第二字段的名称和需要查询的第二字段的记录内容时，根据所述第一字段的记录内容，查找相对应命名的所述第一分区文件，获得需要查询的话单数据，并发送给用户。

依据本发明实施例的另一个方面，还提供了一种话单数据的统计装置，包括：

第一提取模块，用于提取第一话单数据中第一字段的记录内容和第二字段的记录内容；

第一判断模块，用于判断所述第一字段的记录内容和所述第二字段的记录内容之间是否满足预定关系；

创建模块，用于当所述第一字段的记录内容和所述第二字段的记录内容之间满足预定关系时，将所述第一话单数据创建至第一分区文件中；以及用于当所述第一字段的记录内容和所述第二字段的记录内容之间不满足预定关系时，将所述第一话单数据分别创建至所述第一分区文件和第二分区文件中；其中所述第一分区文件是依据所述第一字段的名称和记录内容的组合被命名，所述第二分区文件是依据所述第二字段的名称和记录内容的组合被命名。

其中，所述统计装置还包括：

第二提取模块，用于在原始话单数据中提取包括所述第一字段和所述第二字段的部分数据，形成所述第一话单数据。

其中，所述统计装置还包括：

第二判断模块，用于判断所述第一话单数据所在的第一分区文件和/或第二分区文件的日期是否超过在线保留的预设日期；

删除模块，用于当所述第二判断模块判断所述第一话单数据所在的第一分区文件和/或第二分区文件超过所述预设日期时，删除所述第一分区文件和/或第二分区文件。

其中，所述统计装置还包括：

获取模块，用于获取用户的话单查询数据；

查询模块，用于根据所述话单查询数据，查询所述第一分区文件和/或所述第二分区文件，将对应话单数据发送给用户。

其中，所述查询模块包括：

第一查询单元，用于当所述话单查询数据的查询条件仅包括所述第一字段的名称和需要查询的第一字段的记录内容时，根据所述第一字段的记录内容，查找相对应命名的所述第一分区文件，获得需要查询的话单数据，并发送给用户；

第二查询单元，用于当所述话单查询数据的查询条件仅包括所述第二字段的名称和需要查询的第二字段的记录内容时，根据第二字段的记录内容，查找相对应命名的所述第一分区文件和所述第二分区文件，从所述第一分区文件和所述第二分区文件分别获得需要查询的话单数据，并发送给用户；

第三查询单元，用于当所述话单查询数据的查询条件既包括第一字段的名称和需要查询的第一字段的记录内容，也包括第二字段的名称和需要查询的第二字段的记录内容时，根据所述第一字段的记录内容，查找相对应命名的所述第一分区文件，获得需要查询的话单数据，并发送给用户。

本发明实施例的有益效果：在本发明的实施例中，通过对话单数据进行两重分区，在提高分区范围精准度的同时，又有效提高了话单数据的统计效率。

附图说明

图1为本发明实施例的话单数据的统计方法的流程图；

图2为本发明实施例的采集话单数据的流程图；

图3为本发明实施例的查询话单数据的流程图；

图4为本发明实施例的话单数据的统计装置的结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明实施例提供了一种话单数据的统计方法，包括：提取第一话单数据中第一字段的记录内容和第二字段的记录内容；判断所述第一字段的记录内容和所述第二字段的记录内容之间是否满足预定关系；当所述第一字段的记录内容和所述第二字段的记录内容之间满足预定关系时，将所述第一话单数据创建至第一分区文件中；当所述第一字段的记录内容和所述第二字段的记录内容之间不满足预定关系时，将所述第一话单数据分别创建至所述第一分区文件和第二分区文件中；其中所述第一分区文件是依据所述第一字段的名称和记录内容的组合被命名，所述第二分区文件是依据所述第二字段的名称和记录内容的组合被命名。

在本发明的实施例中，根据话单数据的第一字段和第二字段建立两个分区文件，其中第一分区文件是依据第一字段创建和命名，第二分区文件是依据第二字段创建和命名，利用第一字段和第二字段的记录内容之间的对应关系，仅将第一字段和第二字段不满足对应关系的话单数据创建至第二分区文件中，对于所有话单数据来说，形成两个维度的分区，一个是关于第一字段的分区，另一个是关于第二字段的分区。

采用上述方式，当用户需要查询话单数据时，在按照第一字段的名称和需要查询的第一字段的记录内容查询时，根据所述第一字段的记录内容，只需查找相对应命名的所述第一分区文件，获得需要查询的话单数据；在按照第二字段的名称和需要查询的第二字段的记录内容时，根据第二字段的记录内容，查找相对应命名的所述第一分区文件和所述第二分区文件，从所述第一分区文件和所述第二分区文件分别获得需要查询的话单数据；在按照第一字段的名称和需要查询的第一字段的记录内容以及第二字段的名称和需要查询的第二字段的记录内容时，根据所述第一字段的记录内容，查找相对应命名的所述第一分区文件，获得需要查询的话单数据。

也就是说，在本发明的实施例中，在用户查询话单数据时，可以精确的确定分区范围，进而在精确的分区范围内获得需要的话单数据，从而大大提高了查询效率。

较佳地，上述的第一字段相较于第二字段为查询概率较高的字段。

其中，该统计方法具体可应用于国际漫游话单数据的统计系统中，其中，针对国际漫游话单数据的统计系统，该第一字段的名称为话单数据的结算日期，第二字段的名称为话单数据的通话日期。其中，这两个日期在大多数情况下是相同的，因为在通话发送后，话单数据通话会在当天发送到清算中心处理，但是也存在话单数据延迟发送给清算中心的情况，标准规定话单的有效期是35天，也就是说今天实际发生的通话，在今天之后的35天内发送给清算中心都是有效的，这样延迟发送的话单数据的结算日期和通话日期就不是同一天。

基于实际业务分析现有话单文件，可知话单数据的结算日期与通话日期为同一天的占比超过85％；基于结算日期的话单数据查询业务占比超过60％，基于此，我们以结算日期为标准构造第一分区文件，以通话日期为标准构造第二分区文件，这样对于大部分按照结算日期的查询都可以精确的确定分区范围，直接从第一分区文件中就可以查找数据，从而大大提高查询效率。

这里需要说明的是，本方法不仅适用于国际漫游话单数据的统计系统，也适用于对于分区维度的字段类型相同或相似(可以转换即可)的相关系统。

下面以该话单数据的统计方法应用于国际漫游话单数据的统计系统中为例，进一步说明本发明实施的实施。

如图1所示，所述方法包括：

步骤101，提取第一话单数据中第一字段的记录内容和第二字段的记录内容。

步骤102，判断所述第一字段的记录内容和所述第二字段的记录内容之间是否满足预定关系。

具体地，所述预定关系为：所述第一字段的记录内容和所述第二字段的记录内容相同。也就是说，该步骤需要判断第一话单数据的结算日期与通话日期是否一致。需要说明的是，该预定关系不限制于是相同，只要第一字段的记录内容与第二字段的记录内容有关联、可以转换的情形也适用。

步骤103，当所述第一字段的记录内容和所述第二字段的记录内容之间满足预定关系时，将所述第一话单数据创建至第一分区文件中；当所述第一字段的记录内容和所述第二字段的记录内容之间不满足预定关系时，将所述第一话单数据分别创建至所述第一分区文件和第二分区文件中；其中所述第一分区文件是依据所述第一字段的名称和记录内容的组合被命名，所述第二分区文件是依据所述第二字段的名称和记录内容的组合被命名。

具体地，第一分区文件的文件名可为：“cdr_info.sttl_dt.20141115”的第一分区文件，其中，cdr_info为文件名的一种形式，sttl_dt为结算日期的英文简写；第二分区文件的文件名可为：“cdr_info.sttl_dt.20141115”，其中，call_start_dt为通话日期的英文简写；其中，相邻的两个第一分区文件之间的时间间隔为一天，相邻的两个第二分区文件之间的时间间隔为一天。

举例说明，对于一话单数据来说，若该话单数据的结算日期为20141115，通话日期为20141115，即该话单数据第一字段的记录内容与第二字段记录的内容相同，则将该话单数据创建至以“cdr_info.sttl_dt.20141115”命名的第一分区文件中；若该话单数据的结算日期为20141116，通话日期为20141115，则将该话单数据创建至以“cdr_info.sttl_dt.20141116”命名的第一分区文件中，以“cdr_info.call_start_dt.20141115”命名的第二分区文件中。

在本发明实施例中，针对电信业务话单数据量大、话单数据的时间关联性强等特点，基于实际情况中对话单数据按照结算日期查询的需求比较大，存储数据时根据话单数据的结算日期和通话日期的预定关系进行分区和管理，大大提高了统计话单数据时的效率。

进一步地，在本发明上述实施例的步骤101之前，所述方法还包括：

具体地，由于原始话单数据中包括了大量的字段和信息量，在统计话单数据时耗时比较久，在某些情况下难以接受。而在实际的话单数据统计中，并不是需要原始话单数据中的所有字段，经过大量的统计分析，可从原始话单数据中提取一些我们常用的字段。具体可参见表1和表2，表1为本发明实施例的原始话单数据的字段信息表，表2为本发明实施例的第一话单数据的字段信息表。

表1

序号	字段名称	描述
			1	tap_file_name	话单文件名
2	customer	客户代码
			3	partner	漫游伙伴代码
4	roam_direction	漫游方向
			5	job_id	任务ID
6	proc_time	文件处理时间
			7	Sttl_dt	结算日期
8	cdr_seq_num	话单序号
			9	imsi	IMSI
10	msisdn	MSISDN
			11	called_number	被叫号码
12	dialled_digits	Dialled Digits
			13	called_place	Called Place
14	msc	MSC地址
			15	call_reference	Call Reference
16	location_area	Location Area
			17	cell_id	Cell ID
18	imei	IMEI
			19	call_start_time	通话时间
20	call_start_date	通话日期
			21	utc_time_offset	通话时间时区
22	tele_service_code	Tele Service Code
			23	call_type_level1	Call Type Level 1
24	call_type_level2	Call Type Level 2
			25	call_type_level3	Call Type Level 3
26	exchange_rate	汇率值
			27	call_duration	通话时长
28	transparency_indicator	Transparency Indicator
			29	serving_location_desc	Serv Location Description
30	operator_specific_info	Operator Specific Information
			31	chg	话单金额
32	tax	其它税金额
			33	vat	增值税金额
34	charged_units	Charged Units
			35	chargeable_units	Chargeable Units
36	cause_for_term	Cause For Termination
			37	camel_service_level	Camel Service Level
38	camel_tax	Camel税金额
			39	camel_invocation_fee	Camel费用金额
40	camel_dest_number	Camel Destination Number
			41	called_country_code	被叫国家
42	called_idd_code	被叫区号

43

destination

通话方向

表2

序号	字段名称	描述
			1	customer	客户代码
2	partner	漫游伙伴代码
			3	roam_direction	漫游方向
4	Sttl_dt	结算日期
			5	imsi	IMSI
6	call_start_date	通话日期
			7	tele_service_code	Tele Service Code
8	exchange_rate	汇率值
			9	call_duration	通话时长
10	chg	话单金额
			11	tax	其它税金额
12	vat	增值税金额
			13	chargeable_units	Chargeable Units
14	called_country_code	被叫国家
			15	destination	通话方向

由表2可知，较表1减少了近2/3的字段，字段的减少意味着话单数据统计时磁盘IO的减少，也就意味着统计速度的提升。虽然第一话单数据与原始话单数据存在一定的数据冗余存储，但是因为表字段的数据大幅较少，其存储占用量是可以接受的。

进一步地，在本发明上述实施例的在将所述第一话单数据创建至第一分区文件和第二分区文件中，或将所述第一话单数据创建至第一分区文件中的步骤之后，所述方法还包括：

判断所述第一话单数据所在的第一分区文件和/或第二分区文件的日期是否超过在线保留的预设日期；若超过所述预设日期，则删除所述第一分区文件和/或第二分区文件。

具体地，在需要删除过期分区文件时，可以通过将过期数据分区文件移除的方法，避免了从大数据表中删除部分过期数据的巨大开销。这里需要进一步说明的是，在实际情况中，一般不对单条的话单数据进行删除处理。

获取用户的话单查询数据；根据所述话单查询数据，查询所述第一分区文件和/或所述第二分区文件，将对应话单数据发送给用户。

具体地，根据所述话单查询数据，发送话单数据至用户分为三种情况：

情况1：当所述话单查询数据的查询条件仅包括所述第一字段的名称和需要查询的第一字段的记录内容时，根据所述第一字段的记录内容，查找相对应命名的所述第一分区文件，获得需要查询的话单数据，并发送给用户；

情况2：当所述话单查询数据的查询条件仅包括所述第二字段的名称和需要查询的第二字段的记录内容时，根据第二字段的记录内容，查找相对应命名的所述第一分区文件和所述第二分区文件，从所述第一分区文件和所述第二分区文件分别获得需要查询的话单数据，并发送给用户；

情况3：当所述话单查询数据的查询条件既包括第一字段的名称和需要查询的第一字段的记录内容，也包括第二字段的名称和需要查询的第二字段的记录内容时，根据所述第一字段的记录内容，查找相对应命名的所述第一分区文件，获得需要查询的话单数据，并发送给用户。

为了更好的理解本发明实施例的实施，下面结合图2及图3对本发明进一步解释。

如图2所示，为本发明实施例的采集话单数据的流程图，包括：

步骤201，插入第一话单数据。

步骤202，判断第一话单数据的sttl_dt与call_start_dt是否相同。

步骤203，若第一话单数据的sttl_dt与call_start_dt相同，判断sttl_dt对应日期区文件存在。

步骤204，若sttl_dt对应日期区文件存在，则直接将第一话单数据追加到sttl_dt对应日期分区文件。

步骤205，若sttl_dt对应日期区文件不存在，创建sttl_dt对应日期分区文件；继续步骤204。

步骤206，若第一话单数据的sttl_dt与call_start_dt不相同，判断call_start_dt对应日期分区文件存在。

步骤207，若call_start_dt对应日期区文件存在，则直接将第一话单数据追加到call_start_dt对应日期分区文件。

步骤208，若sttl_dt对应日期区文件不存在，创建call_start_dt对应日期分区文件；继续步骤207。

在步骤207之后，继续步骤204，完成整个处理流程。

也就是说，用于当所述第一字段的记录内容和所述第二字段的记录内容之间满足预定关系时，则将所述第一话单数据创建至第一分区文件中；当所述第一字段的记录内容和所述第二字段的记录内容之间不满足预定关系时，则将所述第一话单数据分别创建至所述第一分区文件和第二分区文件中。

如图3示，为本发明实施例的查询话单数据的流程图，包括：

步骤301，获取话单查询数据。

步骤302，查询条件仅包括sttl_dt时，继续步骤305；

步骤305，查询sttl_dt对应日期的第一分区文件。

步骤303，查询条件仅包括call_start_dt时，继续步骤306；

步骤306，查询call_start_dt对应日期的第二分区文件和sttl_dt对应日期的第一分区文件。

步骤304，查询条件同时包括sttl_dt和call_start_dt时，继续步骤307；

步骤307，查询sttl_dt对应日期的第一分区文件。

为了更好的理解该查询的过程，通过举例进一步说明：

例如：在日期为20141115的当天，在“cdr_info.sttl_dt.20141115”的第一分区文件中，包括80条话单数据，其中有65条话单数据是20141115当天发生的通话、当天进行的结算，另15条数据是20141115之前的某天发生的通话，但是在20141115这天结算的；在“cdr_info.sttl_dt.20141115”的第二分区文件中，包括20条数据，说明这20条数据是20141115当天发生，20141115当天没有进行结算的。当我们需要查询20141115当天结算了多少话单数据时，只需要在“cdr_info.sttl_dt.20141115”的第一分区文件中查询数据，查询结果即是80条话单数据；当我们需要查询20141115当天发生了多少通话时，我们需要在“cdr_info.sttl_dt.20141115”的第一分区文件中和“cdr_info.sttl_dt.20141115”的第二分区文件中查询，即为65条加20条为85条话单数据；当我们需要查询20141115这天发生的通话并进行结算的话单数据时，只需要在“cdr_info.sttl_dt.20141115”的第一分区文件中查询数据，即为65条，由于分区的划分精度高，从而大大减少了磁盘IO操作次数，提高了查询效率。

依据本发明实施例的另一个方面，本发明实施例还提供了一种话单数据的统计装置，所述统计装置应用于国际漫游话单数据的统计系统中，如图4所示，所示统计装置包括：

第一提取模块41，用于提取第一话单数据中第一字段的记录内容和第二字段的记录内容。

第一判断模块42，用于判断所述第一字段的记录内容和所述第二字段的记录内容之间是否满足预定关系。

创建模块43，用于当所述第一字段的记录内容和所述第二字段的记录内容之间满足预定关系时，将所述第一话单数据创建至第一分区文件中；以及用于当所述第一字段的记录内容和所述第二字段的记录内容之间不满足预定关系时，将所述第一话单数据分别创建至所述第一分区文件和第二分区文件中；其中所述第一分区文件是依据所述第一字段的名称和记录内容的组合被命名，所述第二分区文件是依据所述第二字段的名称和记录内容的组合被命名。

进一步地，所述统计装置还包括：

获取模块，用于获取用户的话单查询数据；

进一步地，所述查询模块包括：

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种话单数据的统计方法，其特征在于，包括：

2.根据权利要求1所述的话单数据的统计方法，其特征在于，所述第一字段的名称为话单数据的结算日期，所述第二字段的名称为话单数据的通话日期，所述预定关系为：所述第一字段的记录内容和所述第二字段的记录内容相同。

3.根据权利要求1所述的话单数据的统计方法，其特征在于，在所述提取第一话单数据中第一字段的记录内容和第二字段的记录内容的步骤之前，所述方法还包括：

4.根据权利要求1所述的话单数据的统计方法，其特征在于，在将所述第一话单数据创建至第一分区文件和第二分区文件中，或将所述第一话单数据创建至第一分区文件中的步骤之后，所述方法还包括：

5.根据权利要求1所述的话单数据的统计方法，其特征在于，在将所述第一话单数据创建至第一分区文件和第二分区文件中，或将所述第一话单数据创建至第一分区文件中的步骤之后，所述方法还包括：

获取用户的话单查询数据；

6.根据权利要求5所述的话单数据的统计方法，其特征在于，所述根据所述话单查询数据，查询所述第一分区文件和/或所述第二分区文件，将对应话单数据发送给用户的步骤包括：

7.一种话单数据的统计装置，其特征在于，包括：

8.根据权利要求7所述的话单数据的统计装置，其特征在于，所述第一字段的名称为话单数据的结算日期，所述第二字段的名称为话单数据的通话日期，所述预定关系为：所述第一字段的记录内容和所述第二字段的记录内容相同。

9.根据权利要求7所述的话单数据的统计装置，其特征在于，所述统计装置还包括：

10.根据权利要求7所述的话单数据的统计装置，其特征在于，所述统计装置还包括：

11.根据权利要求7所述的话单数据的统计装置，其特征在于，所述统计装置还包括：

获取模块，用于获取用户的话单查询数据；

12.根据权利要求7所述的话单数据的统计装置，其特征在于，所述查询模块包括：