CN111177126B

CN111177126B - 一种信息处理方法、装置及设备

Info

Publication number: CN111177126B
Application number: CN201910707956.8A
Authority: CN
Inventors: 黄锦鸿; 张敏; 杨怀新
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-08-01
Filing date: 2019-08-01
Publication date: 2024-05-14
Anticipated expiration: 2039-08-01
Also published as: CN111177126A

Abstract

本发明实施例提供了一种信息处理方法、装置及设备；该方法包括：获取数据仓库构建需求；根据数据仓库构建需求，从数据源中萃取待萃取数据；依据预设转置责任链，对待萃取数据进行转置处理；预设转置责任链指用于对待萃取数据进行转置处理的流处理模式；将转置后的待萃取数据存储至预设表中，得到数据仓库；预设表指数据仓库中用于存储数据的表结构；当获取到数据分析请求时，响应数据分析请求，依据数据仓库进行数据分析，得到数据分析结果。通过本发明实施例，能够降低构建数据仓库的复杂度。

Description

一种信息处理方法、装置及设备

技术领域

本发明涉及数量仓库领域中的信息处理技术，尤其涉及一种信息处理方法、装置及设备。

背景技术

数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合，用来支持运营管理中的决策制定。而ETL(Extract-Transform-Load，萃取、转置和加载)是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程，目的是将企业中的分散、零乱、标准不统一的数据整合到一起，为企业的决策提供分析依据；其中，数据转置是构建数据仓库的最重要过程。

一般来说，数据仓库构建过程中，在对萃取到的数据进行转置时，如果萃取到的数据为离线数据，则采用批计算引擎进行批计算；而如果萃取到的数据为实时数据，则采用流引擎进行流计算。也就是说，数据转置是根据数据类型采用不同的引擎来实现的，如此，构建数据仓库的复杂度高。

发明内容

本发明实施例提供一种信息处理方法、装置及设备，能够降低构建数据仓库的复杂度。

本发明实施例的技术方案是这样实现的：

本发明实施例提供一种信息处理方法，包括：

获取数据仓库构建需求；

根据所述数据仓库构建需求，从数据源中萃取待萃取数据；

依据预设转置责任链，对所述待萃取数据进行转置处理；所述预设转置责任链指用于对所述待萃取数据进行转置处理的流处理模式；

将转置后的待萃取数据存储至预设表中，得到数据仓库；所述预设表指所述数据仓库中用于存储数据的表结构；

当获取到数据分析请求时，响应所述数据分析请求，依据所述数据仓库进行数据分析，得到数据分析结果。

本发明实施例提供一种信息处理装置，包括：

需求获取模块，用于获取数据仓库构建需求；

萃取模块，用于根据所述数据仓库构建需求，从数据源中萃取待萃取数据；

转置模块，用于依据预设转置责任链，对所述待萃取数据进行转置处理；所述预设转置责任链指用于对所述待萃取数据进行转置处理的流处理模式；

存储模块，用于将转置后的待萃取数据存储至预设表中，得到数据仓库；所述预设表指所述数据仓库中用于存储数据的表结构；

分析模块，用于当获取到数据分析请求时，响应所述数据分析请求，依据所述数据仓库进行数据分析，得到数据分析结果。

本发明实施例提供一种信息处理设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现上述所述的信息处理方法。

本发明实施例具有以下有益效果：由于在确定利用数据仓库进行数据分析时，依据数据仓库构建需求所构建的数据仓库，是通过预设转置责任链对从数据源中萃取到的待萃取数据进行转置处理获得的，而不论待萃取数据是离线数据还是实时数据，均能够采用预设转置责任链进行转置处理，从而，数据仓库构建的复杂度低。

附图说明

图1是本发明实施例提供的一种示例性的数据仓库的构建与应用的示意图；

图2是本发明实施例提供的信息处理系统100的一个可选的架构示意图；

图3是本发明实施例提供的信息处理服务器200的结构示意图；

图4是本发明实施例提供的信息处理方法的一个可选的流程示意图；

图5是本发明实施例提供的示例性的信息处理方法流程示意图；

图6是本发明实施例提供的信息处理方法的另一个可选的流程示意图；

图7a-7b是本发明实施例提供的示例性的预设转置责任链；

图8是本发明实施例提供的数据仓库的结构层次示意图；

图9是本发明实施例提供的一种示例性的信息处理流程示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

除非另有定义，本发明实施例所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本发明实施例中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1)数据萃取：指从不同的网络、不同的操作平台、不同的数据库、不同格式的数据和不同的应用中获取数据的过程。

2)数据转置：包括数据清洗和数据转换两个过程，其中，数据清洗指对不符合要求的数据进行清洗，这里，不符合要求的数据指不完整的数据、错误的数据和重复的数据；数据转换指对数据进行不一致数据的转换、数据粒度的转换和商务规则的计算。

3)维度表：指对待分析主题所属类型的描述，包含主键和描述性信息。比如，对于一段信息“昨天早上张三在购物平台花费200元购买了一个皮包”，当以购买为主题进行分析，可从这段信息中提取三个维度：时间维度(昨天早上)，地点维度(购物平台)，商品维度(皮包)；通常来说，维度表信息比较固定，且数据量小。

4)事实表：指对分析主题的度量，事实表包含主键和可量化的数值信息。比如，“3)”中描述的信息中，200元就是事实信息；另外，事实表包含了与各维度表相关联的外码，并通过“JOIN”方式与维度表关联。

5)批处理：用于对历史数据或离线数据进行分析，主要操作大容量静态数据集，并在计算过程完成后返回结果，适合于需要访问全套记录才能完成的计算工作，且要求在计算进行过程中数据维持自己的状态；比如，在计算总数和平均数时，必须将数据集作为一个整体加以处理，而不能将其视作多条记录的集合。

6)流处理：用于对实时进入系统的数据进行计算，是对通过系统传输的每个数据项执行操作，适合于实时处理需求的任务；比如，分析、服务器或应用程序错误日志。

7)责任链模式：将能够处理同一类请求的对象连成一条链，所提交的请求沿着链传递，链上的对象逐个判断是否有能力处理该请求，如果能则处理，如果不能则传递给链上的下一个对象。

一般来说，在进行数据仓库的构建时，数据仓库的ETL阶段是采用“Lam bda”架构实现的；“Lambda”架构指对不同类型的数据采用不同的处理过程。这里，数据的类型包括离线数据和实时数据，对于离线数据，进行的是批处理的过程，在批处理的过程中，当完成对待萃取数据的萃取之后，利用批处理引擎对待萃取数据进行批计算实现数据转置，进而将计算得到的数据加载至存储系统；而对于实时数据，进行的是流处理的过程，在流处理的过程中，当完成对待萃取数据的萃取之后，将待萃取数据放置缓存中进行数据的缓冲，并利用流处理引擎对待萃取数据进行流计算实现数据转置，进而将计算得到的数据加载至存储系统；此时，也就完成了数据仓库的构建，之后，根据分析需求，从构建好的数据仓库中获取对应的待分析数据进行分析，从而得到分析结果。

参见图1，图1是本发明实施例提供的一种示例性的数据仓库的构建与应用的示意图，如图1所示，包括数据萃取、数据转置、数据加载和数据分析四个步骤；其中，在数据萃取步骤中，比如，可以采用分布式发布订阅消息系统(比如，“Kafka”)或日志收集系统(比如，“Flume”)等方式从数据源萃取待萃取数据；在数据转置步骤中，对于批计算，采用的批计算引擎比如为“MapReduce”或者“Spark”，对于流计算，所采用的流计算引擎比如为“SparkStreaming”或“Flink”，从而实现对萃取到的待萃取数据的转置；在数据加载步骤中，将转置后的待萃取数据加载至存储设备，比如，客户/服务器关系型数据库管理系统“PostgreSQL”、“Hbase”数据库或者分布式文件系统(指文件系统管理的物理存储资源不一定直接连接在本地节点上，而是通过计算机网络与节点相连)，此时，也就完成了数据仓库的构建；在数据分析步骤中，根据分析请求获取对应的待分析数据，采用数据仓库工具(比如，“Hive”)或商业智能工具对待分析数据进行分析，至此，已完成了数据仓库的应用。另外，在上述四个步骤中，还涉及到任务调度和资源管理，依据任务调度和资源管理进行数据仓库的构建和应用。

然而，在上述方案中，“Lambda”架构进行数据转置的过程中，一方面，由于所采用的批处理引擎和流处理引擎为大数据组件，安装、配置和调用过程的复杂度高，且维护成本高；另一方面，由于对于不同类型的数据采用不同的引擎进行处理，因此，数据仓库构建过程中需要维护两套处理框架，并且，由于两套处理框架还会产生数据口径不一致的问题。

基于此，本发明实施例提供一种信息处理方法、装置及设备，能够降低数据转置的复杂度，降低维护成本，避免出现口径不一致的问题，降低数据仓库的构建复杂度，下面说明本发明实施例提供的信息处理设备的示例性应用，本发明实施例提供的信息处理设备可以实施为智能手机、平板电脑、笔记本电脑等各种类型的用户终端，也可以实施为服务器。下面，将说明设备实施为服务器时的示例性应用。

参见图2，图2是本发明实施例提供的信息处理系统100的一个可选的架构示意图，为实现支撑一个信息处理应用，终端400(示例性示出了终端400-1和终端400-2)通过网络300连接信息处理服务器200，网络300可以是广域网或者局域网，又或者是二者的组合。另外，该信息处理系统100中还包括数据源500(示例性示出了数据源500-1、数据源500-2、数据源500-3和数据源500-4)。

这里，信息处理服务器200，用于从数据源500中萃取待萃取数据之后，利用预设转置责任链对待萃取数据进行转置处理，进而将转置后的待萃取数据进行加载存储，完成数据仓库的构建；并在接收到终端400发送的数据分析请求时，响应数据分析请求，将数据分析结果返回给终端400的图形界面显示。

参见图3，图3是本发明实施例提供的信息处理服务器200的结构示意图，图3所示的信息处理服务器200包括：至少一个处理器210、存储器250、至少一个网络接口220和用户接口230。信息处理服务器200中的各个组件通过总线系统240耦合在一起。可理解，总线系统240用于实现这些组件之间的连接通信。总线系统240除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图3中将各种总线都标为总线系统240。

处理器210可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口230包括使得能够呈现媒体内容的一个或多个输出装置231，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口230还包括一个或多个输入装置232，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器250包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Onl y Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本发明实施例描述的存储器250旨在包括任意适合类型的存储器。存储器250可选地包括在物理位置上远离处理器210的一个或多个存储设备。

在一些实施例中，存储器250能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统251，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块252，用于经由一个或多个(有线或无线)网络接口220到达其他计算设备，示例性的网络接口220包括：蓝牙、无线相容性认证(Wi-Fi)、和通用串行总线(USB，Universal Serial Bus)等；

显示模块253，用于经由一个或多个与用户接口230相关联的输出装置231(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)；

输入处理模块254，用于对一个或多个来自一个或多个输入装置232之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本发明实施例提供的装置可以采用软件方式实现，图3示出了存储在存储器250中的信息处理装置255，其可以是程序和插件等形式的软件，包括以下软件模块：需求获取模块2551、萃取模块2552、转置模块2553、存储模块2554、分析模块2555、责任链构建模块2556和表构建模块2557，将在下文中说明各个模块的功能。

在另一些实施例中，本发明实施例提供的信息处理装置可以采用硬件方式实现，作为示例，本发明实施例提供的信息处理装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的信息处理方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific IntegratedCircuit)、DSP、可编程逻辑器件(PLD，Progra mmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmabl e Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

将结合本发明实施例提供的信息处理服务器的示例性应用和实施，说明本发明实施例提供的信息处理方法。

参见图4，图4是本发明实施例提供的信息处理方法的一个可选的流程示意图，将结合图4示出的步骤进行说明。

S101、获取数据仓库构建需求。

在本发明实施例中，数据仓库的构建在基于数据仓库构建需求进行的，这里，数据仓库构建需求指数据仓库的主题信息，即利用数据仓库进行数据分析时所涉及到的主题；因此，当信息处理设备明确了数据仓库的主题信息时，也就获取到了数据仓库构建需求。这里，数据仓库构建需求，又称为业务需求。

S102、根据数据仓库构建需求，从数据源中萃取待萃取数据。

在本发明实施例中，当信息处理设备获得了数据仓库构建需求之后，也就明确了数据仓库构建需求对应的数据仓库的主题信息所对应的数据来源，即数据源；此时，信息处理设备从该数据源中对待萃取数据进行萃取。这里，待萃取数据指数据仓库的主题信息所关联的数据。

需要说明的是，数据仓库构建需求指对不同数据源的中的关联数据(与主题信息关联的数据)进行数据抽取并进行整合的请求；因此，数据源可以指从不同的网络、不同的操作平台、不同的数据库、不同格式的数据和不同的应用等。

而数据萃取的过程，可以通过API(Application Programming Interface，应用程序编程接口)、RPC(Remote Procedure Call，远程过程调用)、分布式发布订阅消息系统(比如，“Kafka”)、日志收集系统(比如，“Flume”)、分布式消息队列服务(比如，“CMQ”队列)和数据采集引擎(比如，“Logstash”)等方式实现，本发明实施例对此不作具体限定。

另外，信息处理设备从数据源进行待萃取数据的萃取时，可以是根据与数据源确定的上报协议进行的。

S103、依据预设转置责任链，对待萃取数据进行转置处理；预设转置责任链指用于对待萃取数据进行转置处理的流处理模式。

在本发明实施例中，当信息处理设备萃取到待萃取数据之后，就可以对待萃取数据进行转置处理了，在转置处理过程中，是采用流处理模式对待萃取数据进行的转置处理，即通过预先设置的预设转置责任链对待萃取数据进行转置处理。这里，预设转置责任链指用于对待萃取数据进行转置处理的流处理模式。

需要说明的是，信息处理设备在预先设置预设转置责任链时，通过开源组件库实现的，比如，“Pandas”计算组件；也就是说，信息处理设备调用目标组件组成转置责任链，来进行待萃取数据的转置处理。

另外，由于数据转置包括数据清洗和数据转换两个过程，其中，数据清洗指对不完整的数据、错误的数据和重复的数据进行清洗；这里，不完整的数据主要指信息缺失的数据，比如，供应商的名称、分公司的名称和客户的区域信息缺失等，对不完整的数据清洗的过程即对缺失的数据补全的过程；错误的数据指由于业务系统的不健全，在接收数据输入时未判断导致的，比如，数据格式不正确和日期越界等，对错误的数据清洗的过程即对数据进行纠正的过程；重复的数据指多次出现的数据记录，对重复的数据进行清洗的过程即确认删除重复数据的过程。

而数据转换指对数据进行不一致数据的转换、数据粒度的转换和商务规则的计算；这里，不一致数据的转换指将不同业务系统的相同类型的数据进行统一，是一个整合的过程，比如，同一个供应商在结算系统的编码是XX0001，而在客户关系管理系统的编码是YY0001，此时，需将该供应商的编码统一为一个编码；数据粒度的转换指将数据源中数据的粒度与数据仓库中数据的粒度统一的过程；而商务规则的计算则指与业务系统所关联的数据指标和业务规则等信息的确定过程。

还需要说明的是，待萃取数据包括离线数据和实时数据两种类型，这里，不论待萃取数据是离线数据还是实时数据，都可以利用预设转置责任链对待萃取数据进行转置处理。比如，当待萃取数据是实时数据时，信息处理设备通过一条预设转置责任链对待萃取数据进行转置处理；而当待萃取数据是离线数据时，信息处理设备将离线数据作为多个实时数据进行处理，通过多条预设转置责任链对待萃取数据进行转置处理。也就是说，待萃取数据中的每一条数据源上报的数据记录，都经过预设转置责任链进行流计算来实现转置处理。

S104、将转置后的待萃取数据存储至预设表中，得到数据仓库；预设表指数据仓库中用于存储数据的表结构。

在本发明实施例中，当信息处理设备完成了对待萃取数据的转置处理之后，由于信息处理设备在数据仓库中预先设置有用于存储数据的表结构，因此，此时，信息处理设备通过将转置后的待萃取数据存储至该预设表中，也就完成了数据仓库的构建，得到了数据仓库。

S105、当获取到数据分析请求时，响应数据分析请求，依据数据仓库进行数据分析，得到数据分析结果。

在本发明实施例中，当信息处理设备获得了数据仓库之后，信息处理设备对数据分析请求进行检测，当检测到数据分析请求时，也就获取到了数据分析请求；此时，信息处理设备响应数据分析请求，从数据仓库中获取待分析数据进行数据分析，从而也就得到了数据分析结果。

需要说明的是，数据分析指对数据进行的以主题为对象的综合分析，比如，各种指标统计和输出报表等。

可以理解的是，本发明实施例提供的信息处理方法为构建轻量级数据仓库的处理方法，本发明实施例通过预设转置责任链对萃取到的待萃取数据进行转置处理并进行加载存储，完成数据仓库的构建，最终实现利用数据仓库进行数据分析的方案；由于上述数据转置的过程中，不论待萃取数据的类型是哪种类型，都能采用相同的方式完成，因此，利用数据仓库进行数据分析的复杂度低，分析效率高。

参见图5，图5是本发明实施例提供的示例性的信息处理方法流程示意图，如图5所示，包括数据萃取、数据转置、数据加载和数据分析四个步骤；其中，在数据萃取步骤中，比如，可以利用分布式消息队列服务或数据采集引擎等方式从数据源萃取待萃取数据；在数据转置步骤中，对于待萃取数据(无论是离线数据还是实时数据)，采用的“Pandas”组件的责任链模式实现对萃取到的待萃取数据的转置；在数据加载步骤中，将转置后的待萃取数据加载至存储设备，比如，客户/服务器关系型数据库管理系统，此时，也就完成了数据仓库的构建；在数据分析步骤中，根据分析请求获取对应的待分析数据，采用数据仓库工具或商业智能工具对待分析数据进行分析，至此，已完成了数据仓库的应用。另外，在上述四个步骤中，还涉及到任务调度，依据任务调度进行数据仓库的构建和应用；此外，与图1相比，本发明实施例不再需要专门的资源调度组件进行信息处理过程的资源调度，资源消耗小。

进一步地，在本发明实施例中，当信息处理设备获得了数据分析结果之后，该信息处理方法还包括S106：将数据分析结果发送至终端进行显示。

也就是说，信息处理设备通过构建数据仓库，并依据数据仓库获得的数据分析结果是通过终端呈现给用户的，以使根据显示的数据分析结果进行决策。

进一步地，参见图6，图6是本发明实施例提供的信息处理方法的另一个可选的流程示意图，将结合图6示出的步骤(S101-S109)进行说明，其中，S101-S106即上述描述的实现过程，本发明实施例在此不再赘述。

在本发明实施例中，在S102根据数据仓库构建需求，从数据源中萃取待萃取数据之后，以及S103依据预设转置责任链，对待萃取数据进行转置处理之前，该信息处理方法还包括S107-S108，其中：

S107、基于待萃取数据，构建至少一个转置节点；至少一个转置节点中的每个转置节点用于对待萃取数据进行一次数据转换。

在本发明实施例中，当信息处理设备获得了待萃取数据之后，基于待萃取数据的数据格式、数据内容和数据粒度等数据信息，也就明确了要对待萃取数据进行的至少一个功能转置处理，将该至少一个功能转置处理中的每个功能转置处理作为预设转置责任链上的一个转置节点，此时，也就获得了至少一个转置节点。这里，至少一个转置节点中的每个转置节点用于对待萃取数据进行一次数据转换。另外，比如，至少一个转置节点中的每个转置节点可以通过“Pa ndas”组件中的“Handler”来实现。

S108、将至少一个转置节点以责任链的模式连接，得到预设转置责任链。

在本发明实施例中，当信息处理设备获得了至少一个转置节点之后，利用责任链设计模式，将至少一个转置节点进行连接，即将至少一个转置节点以责任链的模式进行连接，此时，也就获得了预设转置责任链。

示例性地，参见图7a-7b，图7a-7b是本发明实施例提供的示例性的预设转置责任链；信息处理设备根据待萃取数据的数据信息，确定要对待萃取数据进行数据不一致转换、数据缺失转换和数据错误转换三次转置(转换)，则对应生成三个转置节点：转置节点a-1、转置节点a-2和转置节点a-3；当信息处理设备将这三个转置节点中以责任链模式连成一条链时，也就得到了预设转置责任链7-1；并且，该预设转置责任链中的三个转置节点，转置节点a-1用于对待萃取数据进行数据不一致转换，转置节点a-2用于对待萃取数据进行数据缺失转换，转置节点a-3用于对待萃取数据进行数据错误转换，如图7a所示。这里，当采用“Pandas”组件实现该三个转置节点，即每个转置节点继承抽象类“Ha ndler”，来实现“handle”函数时，此时，每个Handler作为一个转置节点用于实现一次转置处理，也就形成了三个“Handler”(包括“Handler b-1”、“Handl er b-2”和“Handler b-3”)组成的一条预设转置责任链7-2；并且，该预设转置责任链中的三个转置节点，“Handler b-1”用于对待萃取数据进行数据不一致转换，“Handler b-2”用于对待萃取数据进行数据缺失转换，“Handler b-3”用于对待萃取数据进行数据错误转换，如图7b所示。如此，综上可知，每一条从数据源萃取到的数据，都要依次经过数据不一致转换、数据缺失转换和数据错误转换三次转置。

进一步地，在本发明实施例中，在S104将转置后的待萃取数据存储至预设表中，得到数据仓库之前，以及S103依据预设转置责任链，对待萃取数据进行转置处理之后，该信息处理方法还包括S109：构建事实表、维度表和主题表，得到预设表；其中，事实表包括事实记录时间戳字段，维度表包括维度记录时间戳字段，主题表包括主题记录时间戳字段。

这里，S109信息处理设备构建事实表、维度表和主题表，得到预设表，包括：信息处理设备设置事实记录时间戳字段、维度记录时间戳字段和主题记录时间戳字段；并依据事实记录时间戳字段构建事实表；事实表指用于存储可量化的数值信息的表结构；依据维度记录时间戳字段构建维度表；维度表指用于存储数据所属类型的描述信息的表结构；依据主题记录时间戳字段构建主题表；主题表指用于存储待分析对象的表结构；以及将事实表、维度表和主题表作为预设表。

在本发明实施例中，数据仓库的表结构的构建过程，即信息处理设备构建事实表、维度表和主题表的过程。另外，信息处理设备所构建的事实表、维度表和主题表中的均设置有时间戳字段，即事实表包括事实记录时间戳字段，维度表包括维度记录时间戳字段，主题表包括主题记录时间戳字段。也就是说，信息处理设备在依据待萃取数据的数据信息，构建事实表、维度表和主题表时，在事实表中设置有事实记录时间戳字段来存储时间信息；在维度表中设置有维度记录时间戳字段来存储时间信息；在主题表中设置有主题记录时间戳字段来存储时间信息。

需要说明的是，事实记录时间戳字段中的时间信息用于表征事实记录的更新时间；维度记录时间戳字段中的时间信息用于表征维度记录的更新时间；主题记录时间戳字段中的时间信息用于表征主题记录的更新时间。

相应地，在本发明实施例中，S104将转置后的待萃取数据存储至预设表中，得到数据仓库，包括S1041-S1046，其中：

S1041、从转置后的待萃取数据中，获取事实数据、维度数据和主题数据；事实数据指可量化的数值信息，维度数据指数据所属类型的描述信息，主题数据指待分析对象。

在本发明实施例中，当信息处理设备获得了转置后的待萃取数据之后，将转置后的待萃取数据进行分类存储；这里，信息处理设备将待萃取数据划分为事实数据、维度数据和主题数据三类。

需要说明的是，事实数据指对主题信息的度量所对应的数据，为可量化的数值信息；维度数据指对主题信息所属类型的描述所对应的数据，即数据所属类型的描述信息；主题数据指主题信息所对应的数据，即待分析对象。

S1042、获取当前时间信息。

在本发明实施例中，信息处理设备在向预设表中存储转置后的待萃取数据时，需要将存储时间信息进行存储，这里，获取当前时间信息作为存储时间信息。

需要说明的是，存储时间信息指信息处理设备向预设表中存储转置后的待萃取数据的时间信息。

S1043、将当前时间信息作为事实记录时间戳字段的事实记录时间信息，与事实数据存储至事实表，得到事实记录表。

在本发明实施例中，信息处理设备将获取到的当前时间信息作为事实记录时间戳字段的事实记录时间信息，与事实数据进行组合作为事实记录，存储至事实表，也就得到了事实记录表。这里，当前时间信息为事实记录时间戳字段中的内容信息。

S1044、将当前时间信息作为维度记录时间戳字段的维度记录时间信息，与维度数据存储至维度表，得到维度记录表。

在本发明实施例中，信息处理设备将获取到的当前时间信息作为维度记录时间戳字段的维度记录时间信息，与维度数据进行组合作为维度记录，存储至维度表，也就得到了维度记录表。这里，当前时间信息为维度记录时间戳字段中的内容信息。

S1045、将当前时间信息作为主题记录时间戳字段的主题记录时间信息，与主题数据存储至主题表，得到主题记录表。

在本发明实施例中，信息处理设备将获取到的当前时间信息作为主题记录时间戳字段的主题记录时间信息，与主题数据进行组合作为主题记录，存储至主题表，也就得到了主题记录表。这里，当前时间信息为主题记录时间戳字段中的内容信息。

S1046、依据事实记录表、维度记录表和主题记录表，得到数据仓库。

在本发明实施例中，当信息设备获得了事实记录表、维度记录表和主题记录表之后，事实记录表、维度记录表和主题记录表也就构成了数据仓库。

进一步地，参见图8，图8是本发明实施例提供的数据仓库的结构层次示意图，如图8所示，数据仓库的结构层次为事实记录表关联维度记录表的维度标识信息，维度记录表关联主题记录表的主题标识信息。

需要说明的是，维度记录表存储着从事实记录表中抽离出来的数据粒度，事实记录表关联维度记录表的维度标识信息指，在事实记录表中维护事实数据与维度数据的引用关系，当确定了目标维度后，就能够从事实记录表中获取到目标维度所对应的维度数据；维度记录表关联主题记录表的主题标识信息指，在维度记录表中维护维度数据与主题数据的引用关系，当确定了目标主题时，就能够从维度记录表中获取到目标主题所对应的主题数据。

示例性地，当主题信息为日常工作量时，工作量具有如下属性：工作日期、人员、上班时长、加班时长、工作性质、是否外勤、工作内容和审核人，由于事实记录表存储着主题信息的主干内容，其中，上班时长和加班时长是主干，也就是工作量主题信息的基本内容；而日期、人员、性质和是否外勤都是可以被分类的，比如，日期有年月日的层次，人员也有上下级关系，外勤和正常上班是两类上班考勤记录；所以，把能够分类的属性(日期、级别和考勤类型)对应的内容信息单独列出来向维度表存储，成为维度记录表，而在事实记录表中存储着日期标识信息、级别标识信息和考勤类型标识信息，来维护事实数据与维度数据的引用关系。

还需要说明的是，数据仓库的结构层次为事实记录表关联维度记录表的维度标识，维度记录表关联主题记录表的主题标识，是因为信息处理设备在构建预设表时，通过以下步骤完成的：信息处理设备设置事实记录时间戳字段、维度记录时间戳字段、主题记录时间戳字段、维度标识字段和主题标识字段；并依据事实记录时间戳字段和维度标识字段，构建事实表；依据维度记录时间戳字段和主题标识字段构建维度表；依据主题记录时间戳字段构建主题表；以及，将事实表、维度表和主题表作为预设表。

这里，维度标识信息指维度表中的维度标识字段的内容信息，主题标记信息指主题表中的主题标识字段的内容信息。

进一步地，在本发明实施例中，S105中当获取到数据分析请求时，响应数据分析请求，依据数据仓库进行数据分析，得到数据分析结果，包括S1051-S1052，其中：

S1051、当数据分析请求为流处理请求时，响应流处理请求，依据事实记录时间戳字段和维度记录时间戳字段，从数据仓库中获取待分析流数据。

需要说明的是，信息处理设备获取到的数据分析请求包括两种类型，一种为流处理请求，指对实时数据进行数据分析的请求；对另一种为批处理请求，指对离线数据或历史数据进行数据分析的请求。

当确定数据请求为对实时数据进行数据分析的请求，即当数据分析请求为流处理请求时，响应该流处理请求，从该流处理请求中解析出待分析主题，进而根据事实记录时间戳字段和维度记录时间戳字段，从数据仓库中获取待分析流数据。

这里，由于数据仓库中事实记录表关联维度记录表的表记录，维度记录表关联主题记录表的表记录，进而S1051中当数据分析请求为流处理请求时，响应流处理请求，依据事实记录时间戳字段和维度记录时间戳字段，从数据仓库中获取待分析流数据，包括：信息处理设备依据流处理请求，从事实记录表中获取待分析事实流数据；从事实记录时间戳字段中，获取待分析事实流数据对应的事实记录时间信息；依据事实记录时间信息，从数据仓库的维度记录表中获取待分析维度流数据；从维度记录时间戳字段中，获取待分析维度流数据对应的维度记录时间信息；依据维度记录时间信息，从数据仓库的主题记录表中获取待分析主题流数据；将待分析事实流数据、待分析维度流数据和待分析主题流数据，组合为待分析流数据。

需要说明的是，信息处理设备依据流处理请求中的待分析主题，从事实记录表中获取待分析流数据，并从事实记录表的事实记录时间戳字段中，获取待分析事实流数据对应的事实记录时间信息，如果该事实记录时间信息所表征的信息在预设时间信息之后，就获取与该待分析事实流数据对应的待分析维度流数据，反之，则确定与该待分析事实流数据对应的待分析维度流数据不属于待分析数据。同样地，从所述维度记录时间戳字段中，获取所述待分析维度流数据对应的维度记录时间细心；如果维度记录时间信息所表征的信息在预设时间信息之后，就获取与待分析维度流数据对应的待分析主题流数据，反之，则确定与待分析维度流数据对应的待分析主题流数据不属于待分析数据。

这里，预设时间信息可以为当前时间信息，也可以为上次响应流处理请求的时间信息，还可以为其他预先设置的时间信息，本发明实施例对此不作具体限定。

可以理解的是，通过数据仓库中表结构中时间戳字段进行待分析数据的获取，简化了数据分析过程，提升了数据分析效率。

S1052、对待分析流数据进行分析，得到数据分析结果。

在本发明实施例中，数据分析请求中还包括待分析信息，该待分析信息指对待分析流数据的分析需求，因此，当信息处理设备获得了待分析流数据之后，就能够依据数据分析请求中的待分析信息，对待分析流数据进行分析，从而得到数据分析结果。

进一步地，在本发明实施例中，S105中当获取到数据分析请求时，响应数据分析请求，依据数据仓库进行数据分析，得到数据分析结果，还包括S1053-S1055，其中：

S1053、当数据分析请求为批处理请求时，从批处理请求中，解析出历史窗口信息。

在本发明实施例中，当数据分析请求为对离线数据的分析请求，即当数据分析请求为批处理请求时，该批处理请求中包括用于从离线数据中提取数据的筛选条件，即历史窗口信息(比如，时间条件信息：一个月或一个季度等)；因此，信息处理设备能够从批处理请求中解析出历史窗口信息。

S1054、依据历史窗口信息，从数据仓库中获取待分析批数据。

在本发明实施例中，当信息处理设备获得了历史窗口信息之后，从数据仓库中获取满足历史窗口信息的数据作为待分析批数据。

S1055、对待分析批数据进行分析，得到数据分析结果。

在本发明实施例中，数据分析请求中还包括待分析信息，该待分析信息指对待分析流数据的分析需求，因此，当信息处理设备获得了待分析批数据之后，就能够依据数据分析请求中的待分析信息，对待分析批数据进行分析，从而得到数据分析结果。

需要说明的是，本发明实施例中对待萃取数据进行转置处理时，还可以设置标准数据模型，各数据源作为信息处理设备，依据该标准数据模型对待萃取数据进行转置处理。

下面，将说明本发明实施例在一个实际的应用场景中的示例性应用。

参见图9，图9是本发明实施例提供的一种示例性的信息处理流程示意图，如图9所示，首先，针对销售业务系统，确定以构建销售主题为数据仓库构建需求，根据销售主题，从进货系统、销售系统、供应商系统和商品管理系统这些数据源500中进行进货数据、销售数据、供应商数据和商品数据这些待萃取数据的萃取。

其次，调用通过“Pandas”组件且采用责任链设计模式所生成的包含数据不一致转换9-11、数据缺失转换9-12和数据错误转换9-13的预设转置责任链9-1；不论待萃取数据是实时数据还是离线数据，对于每条数据记录，都通过该预设转置责任链9-1进行数据转置处理。

然后，将转置后的待萃取数据存入到事实表(销售表)、维度表(产品表、商店表和时间表)和主题表(销售主题表)中，得到销售记录表、产品记录表、商店记录表、时间记录表和销售主题记录表，也就完成了数据仓库9-2的构建。其中，销售表中包括产品标识符、商店标识符、日期标识符、销售额和更新时间字段(事实记录时间戳字段)；这里，产品标识符、商店标识符和日期标识符为维度标识字段；产品表中包括产品标识符、类别、大类别和更新时间字段(维度记录时间戳字段)；商店表中包括商店标识符、市名、省名、国名和更新时间字段(维度记录时间戳字段)；时间表中包括时间标识符、日期、月份、季度、年份和更新时间字段(维度记录时间戳字段)；销售主题表中包括销售情况、采购情况和更新时间字段(主题记录时间戳字段)。

最后，一种情况下，当接收到终端400-1发送的当前销售情况分析请求(流处理请求)时，从销售记录表中获取销售额记录(事实流数据)，并获得销售额记录对应的时间戳(事实记录时间信息)；如果获得的时间戳所指的信息在当前时间的前一小时(预设时间信息)，则从产品记录表、商店记录表和时间记录表中分别获取产品维度记录、商店维度记录和时间维度记录(维度流数据)，并分别获得产品维度记录、商店维度记录和时间维度记录分别对应的时间戳(维度记录时间信息)；如果获得的时间戳所指的信息在当前时间的前一小时(预设时间信息)，则从销售主题记录表中获取销售情况记录(主题流数据)，此时，也就获得了待分析数据。对销售额记录、产品维度记录、商店维度记录、时间维度记录和销售情况记录进行分析，得到数据分析结果，通过终端400-1显示该数据分析结果。

另一种情况下，当接收到终端400-2发送的本月销售情况分析请求(批处理请求)时，从销售记录表、产品记录表、商店记录表、时间记录表和销售主题记录表中获取与本月(历史窗口信息)对应的数据作为待分析数据进行分析，从而得到数据分析结果，通过终端400-2显示该数据分析结果。

下面继续说明本发明实施例提供的信息处理装置255的实施为软件模块的示例性结构，在一些实施例中，如图3所示，存储在存储器250的信息处理装置255中的软件模块可以包括：

需求获取模块2551，用于获取数据仓库构建需求；

萃取模块2552，用于根据所述数据仓库构建需求，从数据源中萃取待萃取数据；

转置模块2553，用于依据预设转置责任链，对所述待萃取数据进行转置处理；所述预设转置责任链指用于对所述待萃取数据进行转置处理的流处理模式；

存储模块2554，用于将转置后的待萃取数据存储至预设表中，得到数据仓库；所述预设表指所述数据仓库中用于存储数据的表结构；

分析模块2555，用于当获取到数据分析请求时，响应所述数据分析请求，依据所述数据仓库进行数据分析，得到数据分析结果。

进一步地，所述信息处理装置255还包括责任链构建模块2556，用于基于所述待萃取数据，构建至少一个转置节点；所述至少一个转置节点中的每个转置节点用于对待萃取数据进行一次数据转换；以及将所述至少一个转置节点以责任链的模式连接，得到所述预设转置责任链。

进一步地，所述信息处理装置255还包括表构建模块2557，用于设置事实记录时间戳字段、维度记录时间戳字段和主题记录时间戳字段；依据所述事实记录时间戳字段构建事实表；所述事实表指用于存储可量化的数值信息的表结构；依据所述维度记录时间戳字段构建维度表；所述维度表指用于存储数据所属类型的描述信息的表结构；依据所述主题记录时间戳字段构建主题表；所述主题表指用于存储待分析对象的表结构；将所述事实表、所述维度表和所述主题表作为所述预设表。

进一步地，所述存储模块2554，还用于从所述转置后的待萃取数据中，获取事实数据、维度数据和主题数据；所述事实数据指可量化的数值信息，所述维度数据指数据所属类型的描述信息，所述主题数据指待分析对象；获取当前时间信息；将所述当前时间信息作为所述事实记录时间戳字段的事实记录时间信息，与所述事实数据存储至所述事实表，得到事实记录表；将所述当前时间信息作为所述维度记录时间戳字段的维度记录时间信息，与所述维度数据存储至所述维度表，得到维度记录表；将所述当前时间信息作为所述主题记录时间戳字段的主题记录时间信息，与所述主题数据存储至所述主题表，得到主题记录表；依据所述事实记录表、所述维度记录表和所述主题记录表，得到所述数据仓库。

进一步地，所述事实记录表关联所述维度记录表的维度标识信息，所述维度记录表关联所述主题记录表的主题标识信息。

进一步地，所述分析模块2555，还用于当所述数据分析请求为流处理请求时，响应所述流处理请求，依据所述事实记录时间戳字段和所述维度记录时间戳字段，从所述数据仓库中获取待分析流数据；以及对所述待分析流数据进行分析，得到所述数据分析结果。

进一步地，所述分析模块2555，还用于依据所述流处理请求，从所述事实记录表中获取待分析事实流数据；从所述事实记录时间戳字段中，获取所述待分析事实流数据对应的事实记录时间信息；依据所述事实记录时间信息，从所述数据仓库的所述维度记录表中获取待分析维度流数据；从所述维度记录时间戳字段中，获取所述待分析维度流数据对应的维度记录时间信息；依据所述维度记录时间信息，从所述数据仓库的所述主题记录表中获取待分析主题流数据；将所述待分析事实流数据、所述待分析维度流数据和所述待分析主题流数据，组合为所述待分析流数据。

进一步地，所述分析模块2555，还用于当所述数据分析请求为批处理请求时，从所述批处理请求中，解析出历史窗口信息；并依据所述历史窗口信息，从所述数据仓库中获取待分析批数据；以及对所述待分析批数据进行分析，得到所述数据分析结果。

本发明实施例提供一种存储有可执行指令的存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本发明实施例提供的信息处理方法，例如，如图4示出的方法。

在一些实施例中，存储介质可以是FRAM、ROM、PROM、EPROM、EE PROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

综上所述，由于在确定利用数据仓库进行数据分析时，依据数据仓库构建需求所构建的数据仓库，是通过对从数据源中萃取到的待萃取数据进行转置处理获得的，而不论待萃取数据是离线数据还是实时数据，均能够采用预设转置责任链进行转置处理，从而，数据仓库构建的复杂度低。

以上所述，仅为本发明的实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本发明的保护范围之内。

Claims

1.一种信息处理方法，其特征在于，包括：

获取数据仓库构建需求；

根据所述数据仓库构建需求，通过分布式消息队列服务或数据采集引擎从数据源中萃取待萃取数据，其中，所述待萃取数据包括实时数据与离线数据；

依据预设转置责任链，对所述待萃取数据进行转置处理；其中，当所述待萃取数据为实时数据时，所述转置处理是通过一条所述预设转置责任链对所述待萃取数据进行的；当所述待萃取数据为离线数据时，所述转置处理是通过将所述离线数据作为多个实时数据，并通过多条所述预设转置责任链进行的；

所述预设转置责任链指用于对所述待萃取数据进行转置处理的流处理模式，所述预设转置责任链包括由计算组件实现的三个转置节点，所述三个转置节点用于对所述待萃取数据进行数据不一致转换、数据缺失转换和数据错误转换；

2.根据权利要求1所述的方法，其特征在于，所述根据所述数据仓库构建需求，通过分布式消息队列服务或数据采集引擎从数据源中萃取待萃取数据之后，以及所述依据预设转置责任链，对所述待萃取数据进行转置处理之前，所述方法还包括：

基于所述待萃取数据，构建所述三个转置节点；所述三个转置节点中的每个转置节点用于对所述待萃取数据进行一次数据转换；

将所述三个转置节点以责任链的模式连接，得到所述预设转置责任链。

3.根据权利要求1所述的方法，其特征在于，所述依据预设转置责任链，对所述待萃取数据进行转置处理之后，以及所述将转置后的待萃取数据存储至预设表中，得到数据仓库之前，所述方法还包括：

设置事实记录时间戳字段、维度记录时间戳字段和主题记录时间戳字段；

依据所述事实记录时间戳字段构建事实表；所述事实表指用于存储可量化的数值信息的表结构；

依据所述维度记录时间戳字段构建维度表；所述维度表指用于存储数据所属类型的描述信息的表结构；

依据所述主题记录时间戳字段构建主题表；所述主题表指用于存储待分析对象的表结构；

将所述事实表、所述维度表和所述主题表作为所述预设表。

4.根据权利要求3所述的方法，其特征在于，所述将转置后的待萃取数据存储至预设表中，得到数据仓库，包括：

从所述转置后的待萃取数据中，获取事实数据、维度数据和主题数据；所述事实数据指可量化的数值信息，所述维度数据指数据所属类型的描述信息，所述主题数据指待分析对象；

获取当前时间信息；

将所述当前时间信息作为所述事实记录时间戳字段的事实记录时间信息，与所述事实数据存储至所述事实表，得到事实记录表；

将所述当前时间信息作为所述维度记录时间戳字段的维度记录时间信息，与所述维度数据存储至所述维度表，得到维度记录表；

将所述当前时间信息作为所述主题记录时间戳字段的主题记录时间信息，与所述主题数据存储至所述主题表，得到主题记录表；

依据所述事实记录表、所述维度记录表和所述主题记录表，得到所述数据仓库。

5.根据权利要求4所述的方法，其特征在于，所述事实记录表关联所述维度记录表的维度标识信息，所述维度记录表关联所述主题记录表的主题标识信息。

6.根据权利要求5所述的方法，其特征在于，所述当获取到数据分析请求时，响应所述数据分析请求，依据所述数据仓库进行数据分析，得到数据分析结果，包括：

当所述数据分析请求为流处理请求时，响应所述流处理请求，依据所述事实记录时间戳字段和所述维度记录时间戳字段，从所述数据仓库中获取待分析流数据；

对所述待分析流数据进行分析，得到所述数据分析结果。

7.根据权利要求6所述的方法，其特征在于，所述响应所述流处理请求，依据所述事实记录时间戳字段和所述维度记录时间戳字段，从所述数据仓库中获取待分析流数据，包括：

依据所述流处理请求，从所述事实记录表中获取待分析事实流数据；

从所述事实记录时间戳字段中，获取所述待分析事实流数据对应的事实记录时间信息；

依据所述事实记录时间信息，从所述数据仓库的所述维度记录表中获取待分析维度流数据；

从所述维度记录时间戳字段中，获取所述待分析维度流数据对应的维度记录时间信息；

依据所述维度记录时间信息，从所述数据仓库的所述主题记录表中获取待分析主题流数据；

将所述待分析事实流数据、所述待分析维度流数据和所述待分析主题流数据，组合为所述待分析流数据。

8.根据权利要求1所述的方法，其特征在于，所述当获取到数据分析请求时，响应所述数据分析请求，依据所述数据仓库进行数据分析，得到数据分析结果，包括：

当所述数据分析请求为批处理请求时，从所述批处理请求中，解析出历史窗口信息；

依据所述历史窗口信息，从所述数据仓库中获取待分析批数据；

对所述待分析批数据进行分析，得到所述数据分析结果。

9.一种信息处理装置，其特征在于，包括：

需求获取模块，用于获取数据仓库构建需求；

萃取模块，用于根据所述数据仓库构建需求，通过分布式消息队列服务或数据采集引擎从数据源中萃取待萃取数据，其中，所述待萃取数据包括实时数据与离线数据；

转置模块，用于依据预设转置责任链，对所述待萃取数据进行转置处理；其中，当所述待萃取数据为实时数据时，所述转置处理是通过一条所述预设转置责任链对所述待萃取数据进行的；当所述待萃取数据为离线数据时，所述转置处理是通过将所述离线数据作为多个实时数据，并通过多条所述预设转置责任链进行的；

10.一种信息处理设备，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至8任一项所述的方法。

11.一种计算机可读存储介质，其特征在于，存储有可执行指令，用于被处理器执行时，实现权利要求1至8任一项所述的信息处理方法。