CN101197876B - 一种对消息类业务数据进行多维分析的方法和系统 - Google Patents
一种对消息类业务数据进行多维分析的方法和系统 Download PDFInfo
- Publication number
- CN101197876B CN101197876B CN2006101574117A CN200610157411A CN101197876B CN 101197876 B CN101197876 B CN 101197876B CN 2006101574117 A CN2006101574117 A CN 2006101574117A CN 200610157411 A CN200610157411 A CN 200610157411A CN 101197876 B CN101197876 B CN 101197876B
- Authority
- CN
- China
- Prior art keywords
- data
- dimension
- database
- analysis
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Abstract
本发明是一种对消息类业务数据进行多维分析的方法和系统,其步骤包括、数据采集步骤、数据整合步骤,数据转换与装载模块负责将中间数据库的数据转换处理到一个具有星型架构特征的关系型数据库中,对消息类业务的各种待分析数据进行整理,将具有共同或相近特性的数据进行归类,并纳入到一个统一的维度层次结构中;对中间数据库的数据进行进一步的清洗、转换以处理到另一个多维数据库中;及数据分析与呈现步骤。对应的该系统,包括独立设置数据采集模块,数据转换与装载模块及数据分析与呈现模块,采用本发明,能在相似的增值业务系统中共享多维数据模型,减少系统的开发周期和成本。应用该模型建立的系统所具有的多维度数据分析的功能,可为运营商和设备制造商提供更为灵活方便的数据统计方法及决策支持。
Description
技术领域
本发明属于电信技术领域,涉及一种对消息类增值业务数据进行分析的方法和系统。
背景技术
增值业务是电信业一个重要的利润支撑点,消息类业务是电信增值业务中的重要收入组成部分。对增值业务的各类数据进行有效分析,将有助于指导业务开展、提高服务质量、提供决策支持、最终实现持续的利润增长,因此数据分析的重要性毋庸置疑。
现阶段增值业务的数据分析手段,通常包括两大类:
一类是增值业务设备厂商提供的O&M(运维系统)的分析手段,通过本地操作维护系统可以实现特定业务流程的信令跟踪、业务观察、性能计数器、统计报表等功能,这些功能主要用于进行问题定位、原始数据收集与汇总;
一类是增值业务的KPI数据采集及上报,比如通过SNMP(简单网管协议)、FTP、FTAM(文件传输访问和管理)等接口提供必要的规范化设备侧信息,交由运营商或者第三方进行后续汇总分析处理,这一类总的说来属于增值业务的北向数据接口。对于这种情况,通常是运营商制定统计指标规范,并由设备提供商按规范进行实现。
现实的情况是,O&M系统虽然可以深入到业务流程的内部,获得最详细的业务数据,但O&M更多关注的是特定的业务流程性信息,而北向数据接口由于受到运营商规范制定的限制,往往提供的是硬性裁剪后的二维数据,偏重于宏观的KPI指标数值,不足以揭示业务的各种丰富的内在联系。即使运营商通过BOSS系统或其它第三方系统对采集的原始CDRs进行后续处理,例如经营分析系统,也通常会缺失业务系统中有价值的原始信息。
总的来讲,现有的消息类增值业务的数据统计分析系统和方法具有以下弊端:
1.相似的增值业务系统缺少统一的数据分析模型,系统重复建设,增大了开发工作量。
2.基于二维的RDBMS(关系型数据库),业务数据的内在复杂的关联无法很好的体现,不利于实现联机事务分析和决策支持。
发明内容
为解决所述技术问题,本发明提供一种对消息类业务数据进行多维分析的方法和系统,该方法和系统能够建立简洁、快速的数据分析模型,减少开发工作量,并有利于联机支持。
本发明的另一个目的在于提供一种对消息类业务数据进行多维分析的方法和系统,该方法和系统通过星形架构的数据组织模式建立多维数据模型,从而能够快速地进行数据分析。
本发明所涉及的一种对消息类业务数据进行多维分析的方法包括如下步骤:
1、数据采集,数据采集模块负责将业务系统中分散在各个网元节点上的生产数据采集到统计分析服务器上的一个中间数据库中;
2、数据整合,数据转换与装载模块负责将中间数据库的数据转换处理到一个具有星型架构特征的关系型数据库中,并根据需要进一步处理到数据库中,整合包括:对消息类业务的各种待分析数据进行整理,将具有共同或相近特性的数据进行归类,并纳入到一个统一的维度层次结构中;对中间数据库的数据进行进一步的清洗、转换以处理到另一个多维数据库中;所述数据整合步骤中,设计星型架构作为数据组织的基本方式,即以事实数据表为中心,多个维度表通过各自的键列联接到事实数据表上;其中,根据星型架构设计与之对应的数据仓库架构,将该多维数据库采用增量更新和按分区刷新相结合的方式装载到数据仓库的Cube(多维立方体)中,所述星型架构所包含的事实表包含条数、字节流量和费用字段,且每个星型架构所包含的维度表都有且仅有一个键列联接到事实数据表,中间库中维度数据转换处理包括:
维度表数据同步更新:在DTS(数据转换服务)包里完成配置信息的初始化;建立到中间库的连接;读取中间库号码表的标志列确定本次待处理行;通过数据库基本操作指令实现维度数据的同步;将原始维度表异常数据写入异常维度信息表;更新关系型数据库维度表的属性字段信息;
中间库中事实表数据抽取与转换:
将中间库中分散在多表的原始事实数据进行规整处理,汇集到关系型数据库的一个临时表中,该临时表具备对应的星型架构事实表和维度表在最细粒度下的聚合信息;对该临时表所包含的所有维度信息进行处理,以使其与关系型数据库的维度表在最低的层次上发生关联,并经过中间转换;增量更新到关系型数据库的事实表中,通过处理将原始事实表中所有具体的维度取值转换为维度表中对应的键值;规整处理的方法主要包括库表之间的关联更新和聚合操作;中间库中零散的事实数据在多次转换后填充到星型架构的事实表中;
3、数据分析与呈现,通过数据分析与呈现模块负责对数据仓库或关系型数据库中具有多维特征的业务数据进行分析和呈现。
在数据采集步骤中,首先定义针对不同数据源的数据抽取标准方法,完成异构数据源(各类数据库、话单文件和业务日志文件)的原始数据采集工作,并保存到本地的一个中间数据库中,该中间数据库包含了业务系统所有经初步清洗的待分析数据。在原始数据采集过程中通过配置文件的方式定义待抽取库表的详细信息,包括表名、字段名、字段类型等。
所述维度数据的同步包括:
A新增维度数据处理:根据源表的最新id值将本次新增维度数据插入到关系型数据库维度表;
B维度信息更新处理:根据源表的id值确定本行是不是新增维度信息,根据源表的标志列确定本行的部分信息发生了更新,在对关系型数据库中的维度表进行更新操作中关联已确定发生了信息更新的记录以更新维度表数据;
C维度表属性字段信息通过一组存储过程来实现,以完成维度成员属性的计算。
根据该方法建立的一种对消息类业务数据进行多维分析系统,包括以下模块:
数据采集模块,负责将业务系统中分散在各个网元节点上的生产数据采集到统计分析服务器上的一个中间数据库中,具体包括文件类生产数据处理子模块和数据库类生产数据处理子模块,文件类型的生产数据采用两个独立进程分别完成文件获取与入库工作;数据库类生产数据采用链接服务器、DTS和数据库复制三种方式同步数据;
数据转换与装载模块,负责将中间数据库的数据转换处理到一个具有星型架构特征的关系型数据库中,并根据需要进一步处理到数据仓库中,数据转换具体包括三个主要模块:维度表处理模块、事实表处理模块和异常数据处理模块;维度表处理模块负责完成维度数据的收集和更新,以及对维度的属性数据进行预先计算处理;事实表处理模块负责完成事实数据的收集和更新,以及通过维护与维度表的主外键关系实现与维度表的关联;异常数据处理模块负责对系统异常数据进行额外处理;数据装载模块负责将该星型架构的多维数据库即事实表、维度表通过增量更新和按分区刷新相结合的方式装载到Cube中;
数据分析与呈现模块,负责对数据仓库或关系型数据库中具有多维特征的业务数据进行分析和呈现,具体包括预定义统计报表子模块、定制查询与报表子模块以及多维分析子模块;预定义报表子模块是将查询主体中行列定义、字段具体含义均预先定义为报表定义文件,定制查询子模块是将与报表的行列字段定义在界面中预定义,报表子模块储存各种报表文件,多维分析子模块,其是展现所有Cube维度及度量值的要素,用户首先选定某些维度的取值,之后在界面上设置一个或多个维度作为分析列、一个或多个维度作为分析行、一个或多个度量值作为数据项,通过动态展开分析行及分析列可以获得在不同维度取值影响下的度量值数据,分析行及分析列维度在不同层次(level)上自动进行数据的聚合;定制报表的数据源既包括关系型数据库,也包括数据仓库,而多维分析模块的数据源只基于数据仓库的Cube。
采用本发明,能在相似的增值业务系统中共享多维数据模型,减少系统的开发周期和成本。应用该模型建立的系统所具有的多维度数据分析的功能,可为运营商和设备制造商提供更为灵活方便的数据统计方法及决策支持。
附图说明
图1是本发明业务数据分析系统的模块构成与其它元件的连接示意图;
图2是本发明业务数据分析系统的业务数据星型架构示意图;
图3是本发明业务数据分析系统的数据转换与装载模块工作原理示意图。
具体实施方式
如图1所示,本发明的业务统计分析系统主要有以下三个模块组成,包括数据采集模块、数据转换与装载模块、数据分析与呈现模块。
数据采集模块负责将业务系统各业务处理机的话单文件、日志文件和配置文件等获取到统计服务器上并入库,同时也将业务系统各节点数据库的用户信息、原始配置、计数器数据获取到统计服务器的数据库中。
数据转换与装载模块负责将已经入库的各类原始数据进行进一步清洗和转换,使之符合星型架构的库表结构,并根据需要按照预先设计的规则将星型架构的关系型数据装载入数据仓库。
设计星型架构(图2所示)作为数据组织的基本方式,即以事实数据表为中心,多个维度表通过各自的键列联接到事实数据表上。根据业务数据自身特点及方便后续分析的考虑,为消息类业务设计多个这样的星型架构。
各星型架构的事实表的数据不重复,以保证整个业务系统数据的一致性,维度表则为所有事实表所公用。该多维数据模型覆盖业务系统中所有具有统计分析价值的数据。
通过对消息类业务的各种待分析数据进行整理,将具有共同或相近特性的数据进行归类,并纳入到一个统一的维度层次结构中。消息类业务至少可以归纳出以下维度:用户终端号码、用户终端型号、时间、服务提供商信息、业务应用类型、业务计费类型、OT话单类型、地区信息、业务状态码信息等。
对于每一个维度,进一步设计其层次结构级别和维度的成员属性,例如对于用户终端号码维度,设计为包括归属省份代码、地区代码、服务品牌代码等三个级别,在每一个级别上根据需要再设计出省份描述、地区描述、品牌编码和品牌描述等维度成员的属性。
星型架构所包含的事实表包含条数、字节流量和费用字段,且每个星型架构所包含的维度表都有且仅有一个键列联接到事实数据表。条数、字节流量和费用等作为业务多维分析的最重要的度量值,后续的统计分析都在计算它们的具体数值、研究数值的变化规律、影响因素、未来走向等。
对中间数据库的数据进行进一步的清洗、转换以处理到另一个多维数据库中,该多维数据库符合前述的星型架构模型。
根据星型架构设计与之对应的数据仓库架构,将该多维数据库采用增量更新和按分区刷新相结合的方式装载到数据仓库的Cube(多维立方体)中。
数据分析与呈现模块负责对装载入数据仓库的数据和某些原始关系型数据进行分析和呈现,该模块为用户提供统计报表、即时查询和多维分析的人机界面。
并根据每个Cube所装载的业务数据的特点,定制不同主题的统计报表。
再根据联机分析主题设计B/S界面,完成界面分析主题翻译成数据仓库操作指令,进而将查询返回结果以报表或图表的形式进行展现。
以上三个模块可以放置于一台计算机上,也可以根据系统业务量负荷分设在不同的计算机上。
以下分别对业务统计分析系统各个模块的工作原理进行说明:
1、数据采集模块
数据采集模块负责将业务系统中分散在各个节点上的生产数据收集到上。分析服务器这里所指的节点包括多个具有同等业务处理功能的业务处理机,以及话单服务器、日志服务器和操作维护服务器等。无论是MMS彩信业务还是SMS短消息业务,从功能划分上都具有这些服务器,其操作系统包括Unix、Linux和Windows等主流操作系统。各节点的数据存放的形式包括数据库(Oracle/Sybase/SQL Server)、文件(话单文件、业务日志文件、配置文件等)。
数据采集模块由独立的一组进程和基于数据库的一组任务来完成数据的采集。数据收集的手段包括文件获取及入库、基于链接服务器和数据库复制技术的数据库间数据传送。对于文件类的生产数据由该组独立进程负责采集,对于数据库类的生产数据由该组基于数据库的任务负责采集。该模块包括文件类生产数据处理子模块和数据库类生产数据处理子模块,文件类生产数据采用两个独立进程分别完成文件获取与入库工作,进程间不进行通讯。
以下说明文件类生产数据的采集处理过程:
统计服务器上包括两个独立的与文件生产数据采集相关的进程,一个是文件获取进程,一个是文件解析入库进程。
文件获取进程首先读取包括各节点IP地址、口令、文件存放路径等配置信息,之后启动FTP的客户端,将各业务节点的文件收集到统计服务器的指定目录下。文件获取进程所依赖的服务器地址信息、日志及话单文件的存放路径信息、文件的格式(文本或者二进制)、字段分隔符、文件的命名规则及扩展名信息、统计分析服务器上日志文件的存放路径等众多的信息都是可配置的。本进程的不同线程完成不同类型文件的处理。对于同类文件的处理又主要分为两个阶段,首先是将文件获取到本地一个用于中转的文件夹“中间数据库(Stagedb)”(以下均称为“中间库”)中,然后根据配置文件对本类文件进行初步分拣和信息完整性检查,对于不符合规范的错误日志将筛选并保存到独立的文件中以备后续进行额外处理。经过以上处理的文件按照文件的不同种类被放置于指定文件夹“关系型数据库(olapdb)”。
文件解析入库进程负责将已获取到分析服务器上的文件写入数据库。入库过程对于不同的目标数据库类型具有相似的处理方式。一个处理循环包括:读取各类配置信息、将待入库数据读入内存、对源文件进行改名、创建对指定目标数据库的数据库连接、组装SQL语句、完成批量入库、对已处理文件改名、重新载入新文件。
对于存放在各业务节点数据库中的数据,由于生产数据库包括Oracle、Sybase和SQL Server等,因此数据抽取方法不一样,本系统定义了两种数据抽取标准,对于Oracle和Sybase,采用链接服务器的方式;对于SQL Server,则采用数据库复制和DTS(数据转换服务)的方式。
无论是文件方式还是数据库方式,生产数据最终都被综合到stagedb中,该中间库包含了所有的经初步抽取和格式转换后的原始业务信息,也包括所有有用的系统配置信息。
对于系统注册用户数据、手机号段配置信息、SP业务信息、终端型号配置等信息,数据分布在业务系统的各个节点数据库中,其数据导入的基本过程以系统注册用户数据为例,包括:
1).制定对生产数据库的访问通道。读取配置文件和数据配置表以确定用户数据所在的服务器局号、节点号、IP地址、数据库名称、访问方式等,保存为中间变量。如果生产库位于多个节点,则循环读入上述信息。根据中间变量动态创建链接服务器以链接至对应的数据库,并测试链接的可用性;此处链接服务器根据源数据库的类型不同,设定不同的创建参数,包括使用不同数据库提供程序如Oracle Provider for OLE DB或Microsoft OLE DB Provider for ODBC等。
2).完成对生产数据库的数据采集和初步整理。建立好对各生产库的数据库访问通道后,对待抽取生产库表进行顺序读取。不同特性的生产库表在数据量上差别很大,根据待抽取数据库表的id主键取值确定本条记录是否为新增记录,根据最后更新时间字段确定本条记录是否进行过更新,并通过DTS(数据转换服务)或者存储过程完成新增及修改记录向中间库的同步。
2、数据转换与装载模块
图3是数据转换与装载模块的示意图。本模块的基本功能是对已经统一写入中间数据库stagedb的数据进行进一步清洗转换处理,处理的结果数据存放在olapdb的数据库中,该数据库的多表间具有星型架构(如图2所示)的特点,为装载入数据仓库做好准备。之后,按照已经设计完成的数据仓库架构,定时任务会触发从星型架构的olapdb表往数据仓库装载多维数据的过程。
从stagedb到olapdb的数据转换处理主要包含以下过程:
1)维度表数据同步更新;
stagedb库包含了业务系统各种维度的原始数据,但这些数据是零散的,且通常不符合维度设计的层次结构要求,因此通过DTS(数据转换服务)和存储过程来实现生产表到维度表的转换。考虑到每次维度数据同步更新涉及到的数据量可能较大,加上维度表与事实表数据之间有主外键关联关系,维度表数据不采用每次重建的方式,而是增量更新的方式。以用户号码维度的转换过程为例,处理流程依次为:在DTS包里完成配置信息的初始化;建立到中间库的连接;读取中间库号码表的标志列确定本次待处理行;通过数据库基本操作指令实现维度数据的同步;将原始维度表异常数据写入异常维度信息表;更新olapdb维度表的属性字段信息。
处理流程中所述的维度数据的同步包括:
A新增维度数据处理:根据源表的最新id值将本次新增维度数据插入到olapdb维度表;
B维度信息更新处理:根据源表的id值确定本行不是新增维度信息,根据源表的标志列确定本行的部分信息发生了更新,在对olapdb数据库中的维度表进行更新操作中关联已确定发生了信息更新的记录以更新维度表数据;
维度表属性字段信息通过一组存储过程来实现,以完成诸如注册用户数、新增注册用户数等维度成员属性的计算。
经过以上处理,将stagedb库的新增及变化了的原始维度数据以较小的计算量更新到olapdb的维度表中。
2)事实表数据抽取与转换;
一个事实表数据抽取与转换的过程包括:
首先将stagedb中分散在多表的原始事实数据进行规整处理,汇集到olapdb的一个临时表中,该临时表具备对应的星型架构事实表和维度表在最细粒度下的聚合信息,之后对该临时表所包含的所有维度信息进行处理,以使其与olapdb的维度表在最低的层次(Level)上发生关联,并经过若干中间转换,最后增量更新到olapdb的事实表中。例如,一个话单原始事实表中包含了一个日期类型的时间字段,而在话单事实表中表示该时间的字段是一个Int型字段,该字段与时间维度表的Id字段具有外键关联关系。从原始事实表转换为事实表后,原来的datetime类型的时间信息就变为对应时间维度表的一个外键值。通过一系列处理将原始事实表中所有具体的维度取值转换为维度表中对应的键值。规整处理的方法主要包括库表之间的关联更新和聚合操作(group by)。Stagedb中零散的事实数据在多次转换后填充到星型架构的事实表中。
由于业务数据的数据量设计为忙时500条/秒或更多,因此在按星型架构组织的数据库olapdb中,事实表数据采用按月分表存储。
3)质疑数据处理;
对于原始事实表中某些无法与对应的维度表产生主外键关联关系的记录,称为质疑数据。这类数据将一直被保存在异常数据表中,并在每次的事实表数据抽取与转换处理的最后阶段进行额外处理,重新试图与维度表进行匹配。若匹配上,则重新处理到事实表中,否则一直被保留在异常数据表中。
数据装载主要包括以下过程:
基于星型架构的事实表和维度表构建Cube(数据仓库立方体),根据后续OLAP(联机分析与处理)分析的热点设计聚合度,增量处理维度更新和维度属性值,根据processed标识字段增量装载事实表数据至Cube的对应分区。
数据装载具有以下特点:
A、Cube所依赖的事实表不是基于表,而是基于由多个分表所组成的联合视图。
B、Cube采用MOLAP(多维OLAP)的存储方式,同时由于大量的数据分析通常发生在少数几个连续的自然月时间粒度里,因此Cube按月进行自动分区,以加快后续OLAP分析时的相应速度。
3、数据分析与呈现模块
数据分析与呈现模块直接面向最终用户,为用户提供直观、方便的B/S界面来分析业务系统的数据。该模块所基于的数据以数据转换与装载模块中生成的数据仓库为主,也可以包括关系型数据库的数据。
数据分析与呈现模块包括预定义统计报表子模块、定制查询报表子模块以及多维分析子模块。其中,报表子模块根据数据仓库Cube的划分,又分为多个报表大类,包括综合类、终端类和SP(服务提供商)类等。预定义报表可以支持众多数据的统计分析,可采用小时报表、日报表和月报表的形式进行展现,提供几大类、几十个小类和数百个统计项,典型的统计报表如:
A、综合类:增值业务KPI统计、业务分省地区统计、业务各类成功率统计、业务流量统计、业务流量分布统计、业务量的用户分布统计等
B、终端类:系统注册终端型号数据排名、终端收发消息条数及成功率排名、终端收发SP消息条数排名及分布统计等
C、增值业务提供商类:SP业务量及成功率统计、SP上下行消息条数综合统计与排名等
预定义报表的工作流程为:通过浏览器界面选择查询统计报表的条件,程序根据查询条件拼装针对Cube和关系型数据库的查询指令,该查询指令通过预定义的数据库/数据仓库访问接口传递给数据源,界面根据返回的数据集按照设定的呈现样式展现统计报表。所述的呈现样式包括html、excel、csv、pdf和xml等。
本模块中,定制查询与报表的工作流程与预定义报表的流程区别在于:定制查询与报表的行列字段定义都是在界面中设定的,程序获取定制报表的行列字段定义进行语法分析,并进一步组装对于Cube和关系型数据库的查询指令。而预定义报表的查询主体中行列定义、字段具体含义均预先定义为报表定义文件,查询过程只传递时间、地区或业务名称等少量参数。
多维分析与预定义报表、定制报表的区别在于:
A、预定义和定制报表的查询条件和字段定义确定后,查询结果将以一张二维报表的方式进行展现。而多维分析中,界面展现所有Cube维度及度量值的要素。用户首先选定某些维度的取值,之后在界面上设置一个或多个维度作为分析列、一个或多个维度作为分析行、一个或多个度量值作为数据项。通过动态展开分析行及分析列可以获得在不同维度取值影响下的度量值数据,分析行及分析列维度在不同层次(level)上自动进行数据的聚合。
B、预定义和定制报表的数据源既包括关系型数据库,也包括数据仓库,而多维分析模块的数据源只基于数据仓库的Cube。具体地,本模块的多维分析模块针对的数据源包括ISDNCube(用户立方体)、KpiCube(KPI立方体)和SPCube(服务提供商立方体)等(如图3所示)。
下面以一个典型的实例来描述业务数据多维分析的工作过程。
原始需求:系统用户为提升服务质量,需要分析近两月以来彩信业务的所有终端到终端应用类型中,彩信终端手机收发彩信的OT话单条数、成功率变化趋势,并对成功率低于设定数值的情况,进一步分析其状态码(用于标识本条业务流程状态的编码,据此了解业务失败的原因等)的分布情况。
工作过程:
1、界面设定。
A、在用户界面中设定某些特定维度的具体取值或取值范围。包括设定终端类型维度取值为“彩信终端”、设定业务应用类型维度取值为“终端到终端”;
B、选定待分析的维度为OT话单类型维度、时间维度和状态码维度,同时设定该时间维度的起始和结束时间;
C、选定业务条数作为本次分析所关注的量化指标;
D、在界面上定义临时计算成员“成功率”及其计算公式。
2、点击分析后,B/S页面首先将界面的各种设定情况传递到统计分析的服务器端,在服务器端完成多维查询语句的封装,并送交数据仓库进行即时查询,查询结果数据不保存在服务器端,而是直接在用户界面的指定区域以多维报表或图表的方式进行呈现。
3、如果需要分析其它指标,将重新进行步骤1、2的工作流程。
综上,在完成消息类业务的数据采集、数据转换与装载后,系统具备了业务系统的多维数据模型,进而通过分析和呈现模块,提供用户预定义报表、定制查询和报表以及多维分析的方法和手段。通过这些分析和呈现手段,可为运营商和设备制造商提供更为灵活方便的数据统计方法及决策支持。
Claims (4)
1.一种对消息类业务数据进行多维分析的方法,其特征在于,该方法包括如下步骤;
1)数据采集,数据采集模块负责将业务系统中分散在各个网元节点上的生产数据采集到统计分析服务器上的一个中间数据库中;
2)数据整合,数据转换与装载模块负责将中间数据库的数据转换处理到一个具有星型架构特征的关系型数据库中,并根据需要进一步处理到数据库中,整合包括:对消息类业务的各种待分析数据进行整理,将具有共同或相近特性的数据进行归类,并纳入到一个统一的维度层次结构中;对中间数据库的数据进行进一步的清洗、转换以处理到另一个多维数据库中;所述数据整合步骤中,设计星型架构作为数据组织的基本方式,即以事实数据表为中心,多个维度表通过各自的键列联接到事实数据表上;其中,根据星型架构设计与之对应的数据仓库架构,将该多维数据库采用增量更新和按分区刷新相结合的方式装载到数据仓库的Cube(多维立方体)中,所述星型架构所包含的事实表包含条数、字节流量和费用字段,且每个星型架构所包含的维度表都有且仅有一个键列联接到事实数据表,中间库中维度数据转换处理包括:
维度表数据同步更新:在DTS(数据转换服务)包里完成配置信息的初始化;建立到中间库的连接;读取中间库号码表的标志列确定本次待处理行;通过数据库基本操作指令实现维度数据的同步;将原始维度表异常数据写入异常维度信息表;更新关系型数据库维度表的属性字段信息;
中间库中事实表数据抽取与转换:
将中间库中分散在多表的原始事实数据进行规整处理,汇集到关系型数据库的一个临时表中,该临时表具备对应的星型架构事实表和维度表在最细粒度下的聚合信息;对该临时表所包含的所有维度信息进行处理,以使其与关系型数据库的维度表在最低的层次上发生关联,并经过中间转换;增量更新到关系型数据库的事实表中,通过处理将原始事实表中所有具体的维度取值转换为维度表中对应的键值;规整处理的方法主要包括库表之间的关联更新和聚合操作;中间库中零散的事实数据在多次转换后填充到星型架构的事实表中。
3)数据分析与呈现,通过数据分析与呈现模块负责对数据仓库或关系型数据库中具有多维特征的业务数据进行分析和呈现。
2.如权利要求1所述的对消息类业务数据进行多维分析的方法,其特征在于在数据采集步骤中,首先定义针对不同数据源的数据抽取标准方法,完成异构数据源的原始数据采集工作,并保存到本地的一个中间数据库中,该中间数据库包含了业务系统所有经初步清洗的待分析数据;在原始数据采集过程中通过配置文件的方式定义待抽取库表的详细信息,包括表名、字段名、字段类型。
3.如权利要求1所述的对消息类业务数据进行多维分析的方法,其特征在于,所述维度数据的同步包括;
A新增维度数据处理:根据源表的最新id值将本次新增维度数据插入到关系型数据库维度表;
B维度信息更新处理:根据源表的id值确定本行是不是新增维度信息,根据源表的标志列确定本行的部分信息发生了更新,在对关系型数据库中的维度表进行更新操作中关联已确定发生了信息更新的记录以更新维度表数据;
C维度表属性字段信息通过一组存储过程来实现,以完成维度成员属性的计算。
4.一种对消息类业务数据进行多维分析的系统,其特征在于该系统包括独立设置的以下模块:
数据采集模块,负责将业务系统中分散在各个网元节点上的生产数据采集到统计分析服务器上的一个中间数据库中,具体包括文件类生产数据处理子模块和数据库类生产数据处理子模块,文件类型的生产数据采用两个独立进程分别完成文件获取与入库工作;数据库类生产数据采用链接服务器、DTS和数据库复制三种方式同步数据;
数据转换与装载模块,负责将中间数据库的数据转换处理到一个具有星型架构特征的关系型数据库中,并根据需要进一步处理到数据仓库中,数据转换具体包括三个主要模块;维度表处理模块、事实表处理模块和异常数据处理模块;维度表处理模块负责完成维度数据的收集和更新,以及对维度的属性数据进行预先计算处理;事实表处理模块负责完成事实数据的收集和更新,以及通过维护与维度表的主外键关系实现与维度表的关联;异常数据处理模块负责对系统异常数据进行额外处理;数据装载模块负责将该星型架构的多维数据库即事实表、维度表通过增量更新和按分区刷新相结合的方式装载到Cube中;
数据分析与呈现模块,负责对数据仓库或关系型数据库中具有多维特征的业务数据进行分析和呈现,具体包括预定义统计报表子模块、定制查询与报表子模块以及多维分析子模块;预定义报表子模块是将查询主体中行列定义、字段具体含义均预先定义为报表定义文件,定制查询子模块是将与报表的行列字段定义在界面中预定义,报表子模块储存各种报表文件,多维分析子模块,其是展现所有Cube维度及度量值的要素,用户首先选定某些维度的取值,之后在界面上设置一个或多个维度作为分析列、一个或多个维度作为分析行、一个或多个度量值作为数据项,通过动态展开分析行及分析列可以获得在不同维度取值影响下的度量值数据,分析行及分析列维度在不同层次(level)上自动进行数据的聚合;定制报表的数据源既包括关系型数据库,也包括数据仓库,而多维分析模块的数据源只基于数据仓库的Cube。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2006101574117A CN101197876B (zh) | 2006-12-06 | 2006-12-06 | 一种对消息类业务数据进行多维分析的方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2006101574117A CN101197876B (zh) | 2006-12-06 | 2006-12-06 | 一种对消息类业务数据进行多维分析的方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101197876A CN101197876A (zh) | 2008-06-11 |
CN101197876B true CN101197876B (zh) | 2012-02-29 |
Family
ID=39548013
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2006101574117A Expired - Fee Related CN101197876B (zh) | 2006-12-06 | 2006-12-06 | 一种对消息类业务数据进行多维分析的方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101197876B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103838736A (zh) * | 2012-11-21 | 2014-06-04 | 大连灵动科技发展有限公司 | 一种fMRI脑激活数据仓库的建立方法 |
Families Citing this family (89)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101957748A (zh) * | 2009-07-17 | 2011-01-26 | 中国移动通信集团黑龙江有限公司 | 一种数据逻辑分析方法、装置及系统 |
CN102075963B (zh) * | 2009-11-25 | 2013-11-06 | 中国移动通信集团贵州有限公司 | 一种移动业务数据采集分析方法及系统 |
CN101739454B (zh) * | 2009-12-29 | 2015-04-15 | 用友软件股份有限公司 | 数据处理系统 |
CN101799830A (zh) * | 2010-03-25 | 2010-08-11 | 北京国双科技有限公司 | 可实现多维度自由剖析的流量数据处理方法 |
CN101882157A (zh) * | 2010-06-21 | 2010-11-10 | 国家电网公司 | 一种辅助分析方法和模型 |
CN102571403B (zh) * | 2010-12-31 | 2016-04-13 | 亿阳信通股份有限公司 | 通用数据质量管控适配器的实现方法和装置 |
CN102567297A (zh) * | 2011-12-28 | 2012-07-11 | 用友软件股份有限公司 | 数据转换装置和数据转换方法 |
CN103186427B (zh) * | 2011-12-31 | 2016-09-07 | 中国银联股份有限公司 | 一种分析数据记录集合的系统和方法 |
CN102609504A (zh) * | 2012-02-03 | 2012-07-25 | 成都成电医星数字健康软件有限公司 | 一种关系型数据库的多维化设计方法 |
CN102662994A (zh) * | 2012-03-14 | 2012-09-12 | 北京久其软件股份有限公司 | 利用虚拟多维数据集建立数据仓库的方法和系统 |
CN103678392A (zh) * | 2012-09-20 | 2014-03-26 | 阿里巴巴集团控股有限公司 | 一种数据增量合并的方法及其装置 |
CN103020280B (zh) * | 2012-12-27 | 2016-03-16 | 北京讯鸟软件有限公司 | 一种通过多维度kpi函数对sql查询语句进行扩充的方法 |
CN103530413B (zh) * | 2013-10-28 | 2017-05-10 | 北京国双科技有限公司 | 数据处理方法和装置 |
CN104657368A (zh) * | 2013-11-20 | 2015-05-27 | 上海海典软件有限公司 | 一种关系型数据库的多维度报表生成方法 |
CN104699718B (zh) * | 2013-12-10 | 2019-04-12 | 阿里巴巴集团控股有限公司 | 用于快速引入业务数据的方法和装置 |
CN103678590B (zh) * | 2013-12-12 | 2017-05-24 | 用友网络科技股份有限公司 | 基于olap的报表采集装置和报表采集方法 |
CN103631967B (zh) * | 2013-12-18 | 2017-09-15 | 北京华环电子股份有限公司 | 一种带自增量标识字段的数据表的处理方法及装置 |
CN103745262A (zh) * | 2013-12-30 | 2014-04-23 | 远光软件股份有限公司 | 一种数据归集方法和装置 |
CN103853838B (zh) * | 2014-03-17 | 2017-09-12 | 中国联合网络通信集团有限公司 | 一种数据处理方法和装置 |
CN103955483A (zh) * | 2014-04-08 | 2014-07-30 | 方芳 | 一种rfid供应链数据的多维分析方法 |
CN105022611A (zh) * | 2014-04-18 | 2015-11-04 | 广州铭太信息科技有限公司 | 一种用于内部审计的方法 |
CN105205085A (zh) * | 2014-06-30 | 2015-12-30 | 中兴通讯股份有限公司 | 一种海量数据的多维分析方法及装置 |
CN104123477A (zh) * | 2014-08-15 | 2014-10-29 | 上海博路信息技术有限公司 | 一种基于生活数据的群租分析方法 |
CN104182544B (zh) * | 2014-09-05 | 2017-11-21 | 北京国双科技有限公司 | 分析数据库的维度剖析方法及装置 |
CN104298779A (zh) * | 2014-11-04 | 2015-01-21 | 中国银行股份有限公司 | 海量数据加工的处理方法和系统 |
CN107735781B (zh) * | 2015-01-14 | 2020-03-10 | 华为技术有限公司 | 存储查询结果的方法和装置、计算设备 |
CN104573071A (zh) * | 2015-01-26 | 2015-04-29 | 湖南大学 | 一种基于大数据技术的校情智能分析系统及方法 |
CN104574218A (zh) * | 2015-01-26 | 2015-04-29 | 云南电力调度控制中心 | 一种自组织关键性能指标的建模方法和装置 |
CN106156040A (zh) * | 2015-03-26 | 2016-11-23 | 阿里巴巴集团控股有限公司 | 多维度数据管理方法及装置 |
CN105005525B (zh) * | 2015-08-17 | 2018-02-02 | 深圳中兴网信科技有限公司 | 基于中间件的业务数据监控方法和系统 |
CN105279234A (zh) * | 2015-09-24 | 2016-01-27 | 国网山西省电力公司大同供电公司 | 一种输变电设备状态检修数据跨平台数据获取与转换方法 |
CN105405069B (zh) * | 2015-12-02 | 2019-12-06 | 国家电网公司 | 一种购电经营决策分析与数据处理方法 |
CN106897285B (zh) * | 2015-12-17 | 2020-04-07 | 北京宸瑞国新科技有限公司 | 数据要素抽取分析系统及数据要素抽取分析方法 |
CN106909555B (zh) * | 2015-12-22 | 2020-09-04 | 北京国双科技有限公司 | 数据展示的方法及装置 |
CN105787059A (zh) * | 2016-02-29 | 2016-07-20 | 四川长虹电器股份有限公司 | 基于数据仓库的财务数据整合方法 |
CN107491457A (zh) * | 2016-06-13 | 2017-12-19 | 阿里巴巴集团控股有限公司 | 一种用于业务数据标准化的方法与设备 |
CN106372985B (zh) * | 2016-08-30 | 2020-11-06 | 五八同城信息技术有限公司 | 订单数据处理方法及装置 |
CN106649687B (zh) * | 2016-12-16 | 2023-11-21 | 飞狐信息技术(天津)有限公司 | 大数据联机分析处理方法及装置 |
CN108241653A (zh) * | 2016-12-23 | 2018-07-03 | 阿里巴巴集团控股有限公司 | 数据处理方法及装置 |
CN108345602B (zh) * | 2017-01-22 | 2021-06-25 | 株式会社日立制作所 | 数据多维建模系统及数据多维建模方法 |
CN106934023A (zh) * | 2017-03-13 | 2017-07-07 | 山东浪潮云服务信息科技有限公司 | 一种数据管理方法及装置 |
CN108804459B (zh) * | 2017-05-02 | 2020-10-09 | 杭州海康威视数字技术股份有限公司 | 数据查询方法及装置 |
CN107451109B (zh) * | 2017-07-05 | 2022-01-04 | 北京京东尚科信息技术有限公司 | 报表生成方法及系统 |
CN107395418A (zh) * | 2017-07-21 | 2017-11-24 | 暴风集团股份有限公司 | 网络行为数据的统计处理方法、系统及服务器 |
CN108259552B (zh) * | 2017-07-24 | 2020-09-11 | 平安科技(深圳)有限公司 | 案件处理系统和方法 |
CN107679096B (zh) * | 2017-09-08 | 2020-06-05 | 北京京东尚科信息技术有限公司 | 数据集市间指标共享的方法和装置 |
CN110019153B (zh) * | 2017-09-13 | 2022-03-04 | 北京宸信征信有限公司 | 一种多类型批量数据处理系统及其处理方法 |
CN107729448A (zh) * | 2017-09-30 | 2018-02-23 | 深圳市华傲数据技术有限公司 | 一种基于数据仓库的数据处理系统 |
CN107992516A (zh) * | 2017-10-27 | 2018-05-04 | 平安科技(深圳)有限公司 | 电子装置、数据查询的方法及存储介质 |
CN107943863B (zh) * | 2017-11-09 | 2021-09-28 | 北京许继电气有限公司 | 基于商业智能的敏捷建模方法和系统 |
CN108038222B (zh) * | 2017-12-22 | 2022-01-11 | 冶金自动化研究设计院 | 用于信息系统建模和数据访问的实体-属性框架的系统 |
CN108470045B (zh) * | 2018-03-06 | 2020-02-18 | 平安科技(深圳)有限公司 | 电子装置、数据链式归档的方法及存储介质 |
CN108596561B (zh) * | 2018-03-29 | 2021-06-01 | 时时同云科技(成都)有限责任公司 | 一种基于大数据架构的人效服务系统及方法 |
CN108600195B (zh) * | 2018-04-04 | 2022-01-04 | 国家计算机网络与信息安全管理中心 | 一种基于增量学习的快速工控协议格式逆向推断方法 |
CN108427772B (zh) * | 2018-04-10 | 2020-07-28 | 携程商旅信息服务(上海)有限公司 | 在线报表生成方法、系统、设备及存储介质 |
CN108717426B (zh) * | 2018-05-04 | 2021-01-05 | 苏州朗动网络科技有限公司 | 企业数据的更新方法、装置、计算机设备及存储介质 |
CN108805342A (zh) * | 2018-05-29 | 2018-11-13 | 万洲电气股份有限公司 | 一种基于聚合分析管控方法的智能优化节能系统 |
CN109062768B (zh) | 2018-08-09 | 2020-09-18 | 网宿科技股份有限公司 | 缓存服务器的io性能评估方法和装置 |
CN109189764A (zh) * | 2018-09-20 | 2019-01-11 | 北京桃花岛信息技术有限公司 | 一种基于Hive的高校数据仓库分层设计方法 |
CN111159173B (zh) * | 2018-11-08 | 2023-04-18 | 王纹 | 一种构造多维语义数据库的方法 |
CN111221698A (zh) * | 2018-11-26 | 2020-06-02 | 北京京东金融科技控股有限公司 | 任务数据采集方法与装置 |
CN109408448A (zh) * | 2018-12-05 | 2019-03-01 | 江苏恒创软件有限公司 | 一种能够对数据进行集中处理一体化数据展现平台 |
CN109635042B (zh) * | 2018-12-07 | 2022-06-14 | 厦门铅笔头信息科技有限公司 | Oltp与olap一体化的汽车金融大数据系统 |
CN109788031B (zh) * | 2018-12-17 | 2022-10-11 | 平安普惠企业管理有限公司 | 业务数据获取方法、装置、计算机设备和存储介质 |
CN111324624A (zh) * | 2018-12-17 | 2020-06-23 | 中兴通讯股份有限公司 | 数据库组件的merge into功能兼容方法、设备和存储介质 |
CN109656928B (zh) * | 2018-12-24 | 2020-09-01 | 成都四方伟业软件股份有限公司 | 表间关系获得方法及装置 |
CN111491060B (zh) * | 2019-01-28 | 2021-10-01 | 百度在线网络技术(北京)有限公司 | 信息点击日志与话单拼接方法和装置 |
CN109977175B (zh) | 2019-03-20 | 2021-06-01 | 跬云(上海)信息科技有限公司 | 数据配置查询方法和装置 |
CN109977547A (zh) * | 2019-03-27 | 2019-07-05 | 北京金和网络股份有限公司 | 基于动态建模的大数据简报生成方法 |
CN110377668A (zh) * | 2019-06-18 | 2019-10-25 | 深圳市华傲数据技术有限公司 | 数据分析方法和系统 |
CN110442653B (zh) * | 2019-07-03 | 2023-09-29 | 平安科技(深圳)有限公司 | 增量构建cube模型的方法、装置、服务器及存储介质 |
CN110334088A (zh) * | 2019-07-11 | 2019-10-15 | 江苏曲速教育科技有限公司 | 教育数据管理系统 |
CN111177126A (zh) * | 2019-08-01 | 2020-05-19 | 腾讯科技(深圳)有限公司 | 一种信息处理方法、装置及设备 |
CN110490715A (zh) * | 2019-08-26 | 2019-11-22 | 北京搜狐新媒体信息技术有限公司 | 一种数据可视化指标对比分析方法及系统 |
CN110674147B (zh) * | 2019-08-28 | 2023-02-28 | 视联动力信息技术股份有限公司 | 数据处理方法、装置及计算机可读存储介质 |
CN110543377B (zh) * | 2019-09-10 | 2023-04-07 | 创新奇智(重庆)科技有限公司 | 基于windows提升IT运行维护工作的方法 |
CN110853715A (zh) * | 2019-09-23 | 2020-02-28 | 万达信息股份有限公司 | 医疗数据可视化的处理方法、系统、存储介质及电子设备 |
CN110955722B (zh) * | 2019-11-05 | 2023-02-07 | 北京天元创新科技有限公司 | 数据同步方法及装置 |
CN110990390B (zh) * | 2019-12-02 | 2024-03-08 | 东莞中国科学院云计算产业技术创新与育成中心 | 数据协同处理方法、装置、计算机设备和存储介质 |
CN111026817B (zh) * | 2019-12-09 | 2023-11-28 | 北京中电普华信息技术有限公司 | 一种多维计算方法及装置 |
CN111432077B (zh) * | 2020-03-27 | 2021-05-11 | 广西东信易联科技有限公司 | 基于cdr的规范化流量统计装置及方法 |
CN111367987A (zh) * | 2020-03-31 | 2020-07-03 | 西安震有信通科技有限公司 | 适应多种数据库类型的数据导入方法、系统及装置 |
CN111813846B (zh) * | 2020-06-29 | 2021-04-02 | 北京九章云极科技有限公司 | 一种数据分析处理系统和数据处理方法 |
CN111797279B (zh) * | 2020-07-17 | 2024-01-19 | 西安数据如金信息科技有限公司 | 一种存储数据的方法及装置 |
CN112052298B (zh) * | 2020-09-11 | 2024-03-15 | 武汉众腾智创信息技术有限公司 | 一种多维数据采集和精确关联的系统及其方法 |
CN112732841A (zh) * | 2020-12-04 | 2021-04-30 | 广州橙行智动汽车科技有限公司 | 一种数据处理的方法和装置 |
CN113111116B (zh) * | 2021-05-12 | 2022-10-18 | 国家海洋信息中心 | 海洋综合数据库的海洋水体环境数据整合方法 |
CN113722404A (zh) * | 2021-07-27 | 2021-11-30 | 张博 | 一种多维数据组织的高效分析方法 |
CN114546971B (zh) * | 2022-01-26 | 2022-11-08 | 北京元年科技股份有限公司 | 数据文件格式转换方法、装置、设备及可读存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1556611A (zh) * | 2003-12-30 | 2004-12-22 | 上海交通大学 | 基于安全应用服务器的网络信息安全综合管理方法 |
CN1617138A (zh) * | 2003-11-12 | 2005-05-18 | 鸿富锦精密工业(深圳)有限公司 | 资料整合与分析系统及方法 |
-
2006
- 2006-12-06 CN CN2006101574117A patent/CN101197876B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1617138A (zh) * | 2003-11-12 | 2005-05-18 | 鸿富锦精密工业(深圳)有限公司 | 资料整合与分析系统及方法 |
CN1556611A (zh) * | 2003-12-30 | 2004-12-22 | 上海交通大学 | 基于安全应用服务器的网络信息安全综合管理方法 |
Non-Patent Citations (2)
Title |
---|
孙泳、刘少辉、史忠植.数据仓库中多维分析的数据展现.计算机工程与应用.2004,174-177. * |
李林花、钱越英.数据仓库多维分析模型的设计.计算机工程与应用.2004,185-187. * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103838736A (zh) * | 2012-11-21 | 2014-06-04 | 大连灵动科技发展有限公司 | 一种fMRI脑激活数据仓库的建立方法 |
Also Published As
Publication number | Publication date |
---|---|
CN101197876A (zh) | 2008-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101197876B (zh) | 一种对消息类业务数据进行多维分析的方法和系统 | |
US7275053B1 (en) | Surveillance and table driven reporting tool | |
AU2004308518B2 (en) | Method and system for linking business entities | |
US7136467B2 (en) | Customer-oriented telecommunications data aggregation and analysis method and object oriented system | |
CN1949763B (zh) | 共享信息服务器系统 | |
CN101141754B (zh) | 一种增值业务分析系统及其方法 | |
US7970795B2 (en) | Data model development tool | |
CN101256650B (zh) | 一种基于业务实体的企业数据提取方法与系统 | |
CN102054025A (zh) | 交通信息资源整合处理方法及系统 | |
WO2005070094A2 (en) | Data migration and analysis | |
CN105164674A (zh) | 涉及多个数据库和执行引擎的查询 | |
CN107679708A (zh) | 一种住房公积金管理云平台系统 | |
CN112699100A (zh) | 一种基于元数据管理分析系统 | |
CN115374329A (zh) | 一种管理企业业务元数据和技术元数据的方法及系统 | |
CN114595129A (zh) | 一种可配置的多维度数据监控方法、装置及存储介质 | |
CN101192976A (zh) | 增值业务标准报表自动生成方法 | |
Mandal et al. | Integrating telecom CDR and customer data from different operational databases and data warehouses into a central data warehouse for business analysis | |
CN110633267A (zh) | 一种可支持多业务行使报表功能的方法及系统 | |
CN115409471A (zh) | 一种配网自动化终端台账自动生成方法及装置 | |
CN111723129B (zh) | 报表生成方法、报表生成装置和电子设备 | |
CN101902364A (zh) | 一种综合网管数据上报的系统及方法 | |
CN111125045A (zh) | 一种轻量级etl处理平台 | |
CN113626477B (zh) | 基于水厂物联网系统的可配置报表系统及方法 | |
CN114297165A (zh) | 指标数据的定位方法与装置 | |
TWM649436U (zh) | 交易資料轉換系統 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20120229 Termination date: 20151206 |
|
EXPY | Termination of patent right or utility model |