CN108959309B - 数据分析的方法和装置 - Google Patents

数据分析的方法和装置 Download PDF

Info

Publication number
CN108959309B
CN108959309B CN201710367080.8A CN201710367080A CN108959309B CN 108959309 B CN108959309 B CN 108959309B CN 201710367080 A CN201710367080 A CN 201710367080A CN 108959309 B CN108959309 B CN 108959309B
Authority
CN
China
Prior art keywords
data
data source
warehouse
task
configuration information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710367080.8A
Other languages
English (en)
Other versions
CN108959309A (zh
Inventor
张爱芸
胡帅
袁征
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201710367080.8A priority Critical patent/CN108959309B/zh
Publication of CN108959309A publication Critical patent/CN108959309A/zh
Application granted granted Critical
Publication of CN108959309B publication Critical patent/CN108959309B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据分析的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:分析输入的基础表单得到数据源配置信息;基于所述数据源配置信息对相应的数据源进行授权;将通过授权的所述数据源存储至数据仓库,以使所述数据仓库自动完成数据的抽取‑转换‑加载过程。该实施方式降低了用户的使用门槛;同时,自动化授权、自动完成数据的抽取‑转换‑加载过程等自动化逻辑的实现,提升了数据入库的效率和数据的质量。

Description

数据分析的方法和装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种数据分析的方法和装置。
背景技术
数据仓库,是在企业所有级别的决策制定过程中,为企业提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建,为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。在数据仓库中,存储着大量的业务数据,包括用户数据、商家数据、商品数据、购买行为数据等等。随着大数据时代的到来,不仅每天生产的数据量在以太字节(TB)甚至拍字节(PB)的级别增长,数据内容也是越加丰富,从传统的关系型数据库,到新型非关系型数据库的产生,数据类型日新月异,如何能够快速将复杂多样,且数据量巨大的源数据快速抽入数据仓库,快速的完成数据的抽取-转换-加载过程(ETL),就成了十分重要而紧急的问题。
现有的数据入库是人工完成的,主要包括以下步骤:
1.线上数据源授权:比如关系型数据库管理系统(mysql),需联系数据库管理员(DBA),完成线下授权;
2.在数据仓库的基础数据层创建对应的数据仓库工具(hive)表;
3.创建调度任务,配置抽取源数据、目标表、任务运行时间等。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
现有技术虽然可以通过调度任务完成自动抽取,但是前期工作复杂,耗时较长,对用户的专业水平要求较高;同时,大部分的抽数任务都是通过人工的方式来解决的,极大的降低了工作效率;此外,线下授权沟通时间长,整个流程耗时较长,影响数据的时效性。
发明内容
有鉴于此,本发明实施例提供一种数据分析的方法和装置,能够解决现有的数据入库方法前期工作复杂、耗时较长、对用户专业水平要求较高的问题。
为实现上述目的,根据本发明实施例的一个方面,提供了一种数据分析的方法。
本发明实施例的一种数据分析的方法包括分析输入的基础表单得到数据源配置信息;基于所述数据源配置信息对相应的数据源进行授权;将通过授权的所述数据源存储至数据仓库,以使所述数据仓库自动完成数据的抽取-转换-加载过程。
可选地,基于所述数据源配置信息对相应的数据源进行授权包括:将所述数据源配置信息发送至与数据源对应的授权接口,得到数据源信息;根据所述数据源信息搜索所述数据仓库以确定是否存在相应的数据源;若存在所述数据源,则在所述数据仓库中绑定所述数据源;若不存在所述数据源,则在所述数据仓库中创建数据源。
可选地,得到数据源信息包括:当所述数据源为关系型数据库,根据所述数据源配置信息得到所述数据源的从数据库的所述数据源信息。
可选地,将通过授权的所述数据源存储至数据仓库包括:根据所述数据源配置信息创建相应的字段表;根据所述字段表将所述数据源存储至数据仓库。
可选地,根据所述字段表将所述数据源存储至数据仓库包括:根据所述字段表在所述数据仓库中创建相应的数据仓库工具表和调度任务,其中,所述数据仓库工具表包括抽取数据表和加工数据表,所述调度任务包括数据抽取任务、数据加工任务和数据同步任务。
可选地,所述方法还包括:设定调度任务的依赖关系以及周期,所述依赖关系为数据同步任务依赖于数据加工任务,以及数据加工任务依赖于数据抽取任务。
为实现上述目的,根据本发明实施例的另一方面,提供了一种数据分析的装置。
本发明实施例的一种数据分析的装置包括:分析模块,用于分析输入的基础表单得到数据源配置信息;授权模块,用于基于所述数据源配置信息对相应的数据源进行授权;存储模块,用于将通过授权的所述数据源存储至数据仓库,以使所述数据仓库自动完成数据的抽取-转换-加载过程。
可选地,所述授权模块还用于:将所述数据源配置信息发送至与数据源对应的授权接口,得到数据源信息;根据所述数据源信息搜索所述数据仓库以确定是否存在相应的数据源;若存在所述数据源,则在所述数据仓库中绑定所述数据源;若不存在所述数据源,则在所述数据仓库中创建数据源。
可选地,所述授权模块进一步用于:当所述数据源为关系型数据库,根据所述数据源配置信息得到所述数据源的从数据库的所述数据源信息。
可选地,所述存储模块还用于:根据所述数据源配置信息创建相应的字段表;根据所述字段表将所述数据源存储至数据仓库。
可选地,所述存储模块进一步用于:根据所述字段表在所述数据仓库中创建相应的数据仓库工具表和调度任务,其中,所述数据仓库工具表包括抽取数据表和加工数据表,所述调度任务包括数据抽取任务、数据加工任务和数据同步任务。
可选地,所述装置还包括:设置模块,用于设定调度任务的依赖关系以及周期,所述依赖关系为数据同步任务依赖于数据加工任务,以及数据加工任务依赖于数据抽取任务。
为实现上述目的,根据本发明实施例的再一方面,提供了一种数据分析的电子设备。
本发明实施例的一种数据分析的电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例的数据分析的方法。
为实现上述目的,根据本发明实施例的又一方面,提供了一种计算机可读介质。
本发明实施例的一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明实施例的数据分析的方法。
上述发明中的一个实施例具有如下优点或有益效果:因为采用将数据入库的过程自动化的技术手段,为不同类型的数据源生成不同的基础表单,分析输入的基础表单得到数据源配置信息;基于数据源配置信息对相应的数据源进行授权;将通过授权的数据源存储至数据仓库,以使数据仓库自动完成数据的抽取-转换-加载过程,所以克服了现有的数据入库方法前期工作复杂、耗时较长、对用户专业水平要求较高、不具备时效性的技术问题,对于不同类型的数据源,使用相同加工模式及流程,用简单的流程提供了复杂多样的服务,不仅丰富了数据仓库中的数据,而且降低了用户的使用门槛;同时,自动化授权、自动完成数据的抽取-转换-加载过程等自动化逻辑的实现,提升了数据入库的效率和数据的质量。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是本发明实施例可以应用于其中的示例性系统架构图;
图2是根据本发明实施例的数据分析的方法的主要流程的示意图;
图3是根据本发明实施例的数据分析的方法的实现框架的示意图;
图4是根据本发明实施例的数据分析的方法的基础表单的示意图一;
图5是根据本发明实施例的数据分析的方法的基础表单的示意图二;
图6是根据本发明实施例的数据分析的方法的字段表的示意图;
图7是根据本发明实施例的数据分析的方法的自动授权的流程示意图;
图8是根据本发明实施例的数据分析的方法的数据源配置的示意图一;
图9是根据本发明实施例的数据分析的方法的数据源配置的示意图二;
图10是根据本发明实施例的数据分析的方法的逻辑配置示意图;
图11是根据本发明实施例的数据分析的方法的数据仓库的示意图;
图12是根据本发明实施例的数据分析的装置的主要模块的示意图;
图13是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1示出了可以应用本发明实施例的数据分析的方法或数据分析的装置的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如即时通信工具、邮箱客户端等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的邮箱客户端提供支持的后台管理服务器。后台管理服务器可以对接收到的审批请求等数据进行分析等处理,并将处理结果(例如数据源的类型信息)反馈给终端设备。
需要说明的是,本发明实施例所提供的数据分析的方法一般由服务器105执行,相应地,数据分析的装置一般设置于服务器105中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
图2是根据本发明实施例的数据分析的方法的主要流程的示意图。
如图2所示,本发明实施例的一种数据分析的方法主要包括如下步骤:
步骤S201:分析输入的基础表单得到数据源配置信息。
数据仓库是决策支持系统(dss)和联机分析应用数据源的结构化数据环境,具有面向主题、集成性、稳定性和时变性的特点。通常数据仓库中的数据来源于多种类型的数据源,例如,日志、数据库、数据库管理系统、服务器等。
在本发明实施中,每个数据源对应有固定的基础表单,该基础表单主要包括各种类型数据源的数据源配置信息,当用户需要将数据存储至数据仓库时需要填写对应的基础表单,分析输入的基础表单能够得到数据源配置信息。
步骤S202:基于数据源配置信息对相应的数据源进行授权。
由于数据源配置信息是分析用户填写的基础表单得到的,因此数据源配置信息所对应的数据源即尝试存储至数据仓库的数据的来源,基于数据源配置信息可以对该数据源进行授权,从而保证数据安全。
此外,为了进一步保证数据安全,在授权前还可以对用户的存储行为进行审核,当接收到通过指令后基于数据源配置信息对该数据源进行授权操作。
本发明实施中,步骤S202可以具体包括步骤S2021至S2022(图2中并未示出)。
步骤S2021:将数据源配置信息发送至与数据源对应的授权接口,得到数据源信息。
数据源配置信息可以包括互联网协议地址(IP)/域名、端口号、IP、库名等信息。不同的数据源类型对应于不同的授权接口。将数据源配置信息发送至与对应的授权接口能够得到数据源信息。
步骤S2022:根据数据源信息搜索数据仓库以确定是否存在相应的数据源;若存在数据源,则在数据仓库中绑定数据源;若不存在数据源,则在数据仓库中创建数据源。
当有数据尝试存储至数据仓库时,还需要在数据仓库中搜索是否存在欲存储数据的数据源,可以根据数据源信息在数据仓库中进行搜索,若存在数据源,则在数据仓库中绑定数据源,即将数据直接存储在数据仓库中该数据源下;若不存在数据源,则在数据仓库中新建数据源用以保存该数据。
通常数据库包括关系型数据库和非关系型数据库两种类型,其中,关系型数据库的数据同时保存在主数据库和从数据库中,由于从数据库为只读类型,为保证原始数据的安全性及完整性,可以仅对关系型数据库的从库进行授权,本发明实施中,当数据源为关系型数据库,根据数据源配置信息得到数据源的从数据库的数据源信息。
步骤S203:将通过授权的数据源存储至数据仓库,以使数据仓库自动完成数据的抽取-转换-加载过程。
在完成上述步骤S201和步骤S202后,可以将通过授权的数据源存储至数据仓库,从而使数据仓库自动完成数据的抽取-转换-加载(ETL)过程。
本发明实施例中,本步骤可以通过根据数据源配置信息创建相应的字段表;根据字段表将数据源存储至数据仓库。根据分析基础表单得到的数据源配置信息在数据仓库创建相应的字段表,该字段表用于配置字段描述及加工方式,为将数据源接入数据仓库的后续加工提供参考,字段表中可以包括用户添加的所有字段和数据源的信息,根据该字段表将数据源存储至数据仓库。
由于不同类型的数据源,后续需要加工的逻辑不尽相同,为了使数据能够有序、高效地存储至数据仓库,本发明实施例中,根据字段表在数据仓库中创建相应的数据仓库工具表和调度任务,其中,数据仓库工具表包括抽取数据表和加工数据表,调度任务包括数据抽取任务、数据加工任务和数据同步任务。
基于数据仓库工具表和调度任务,可以通过按固定的期自动运行调度任务,将数据存储至数据仓库并完成加工的过程,在本发明实施例中,设定调度任务的依赖关系以及周期,依赖关系为数据同步任务依赖于数据加工任务,以及数据加工任务依赖于数据抽取任务。
根据本发明实施例的数据分析的方法可以看出,因为采用将数据入库的过程自动化的技术手段,为不同类型的数据源生成不同的基础表单,分析输入的基础表单得到数据源配置信息;基于数据源配置信息对相应的数据源进行授权;将通过授权的数据源存储至数据仓库,以使数据仓库自动完成数据的抽取-转换-加载过程,所以克服了现有的数据入库方法前期工作复杂、耗时较长、对用户专业水平要求较高、不具备时效性的技术问题,对于不同类型的数据源,使用相同加工模式及流程,用简单的流程提供了复杂多样的服务,不仅丰富了数据仓库中的数据,而且降低了用户的使用门槛;同时,自动化授权、自动完成数据的抽取-转换-加载过程等自动化逻辑的实现,提升了数据入库的效率和数据的质量。
图3是根据本发明实施例的数据分析的方法的实现框架的示意图。
如图3所示,将线上数据存储到数据仓库中主要包括以下步骤:
步骤S301:获取用户填写的基础表单。
本发明实施例中,不同类型的数据源对应有不同的基础表单,基础表单主要包括存储各种类型数据源所需要的数据源配置信息,例如,图4所示的根据本发明实施例的数据分析的方法的基础表单的示意图一为来源于MYSQL的数据库所对应的基础表单;图5所示的根据本发明实施例的数据分析的方法的基础表单的示意图二为存储在Elastic Search集群的数据库所对应的基础表单。
在需要将线上数据存储到数据仓库时,获取用户填写的基础表单,基于该基础表单进行其它步骤。
步骤S302:数据审批。
为了保证数据安全,获取用户填写的基础表单之后,需要审核该基础表单所对应的数据是否可以存储到数据仓库。本步骤通过调用大数据平台公共审批流接口接入流程中心,从而获取审批人的指令,指令包括通过指令和驳回指令,若该指令为通过指令,则触发授权模块;若该指令为驳回指令,则终止本次存储。通过或驳回的处理结果可以通过实时消息队列返回至工单管理系统,工单管理系统实时更新存储状态及环节。
步骤S303:存储授权。
为了保证数据可以正确抽取,提高数据接入的效率,本发明实施例中,数据存储到数据仓库采用自动化授权的方式。基于用户填写的基础表单的信息进行数据源判重以及新建数据源或绑定数据源的操作。
步骤S304:字段配置。
获取基础表单的结构,在数据仓库创建对应的字段表,且用户添加的所有字段,都会作为字段表中的一个字段名。例如,图6所示为根据本发明实施例的数据分析的方法的字段表的示意图,字段表用简单的选项概括了复杂的数据加工逻辑,为后期的ETL自动化做了充足的准备。对于关系型数据库,利用数据库连接(JDBC连接),根据返回的用户名和密码直接访问线上数据库,获取对应的基础表单的结构;对于非关系型数据库,采用可视化配置页面,让用户选择添加字段,以及配置数据加工方式、数据抽取方式。
步骤S305:数据校验。
校验用户填写的表单是否正确,若不正确,则终止本次存储;若正确,则完成以下操作:
1.创建hive表,hive表包括抽取数据(bdm)表和加工数据表(fdm),其中,bdm表中设置有日期类型(dt)字段,用于存储数据抽取的日期,fdm表中设置有dt字段和时间(start_date、end_date、dp)字段,用于记录数据的加工日期以及数据的有效期;
2.创建相应的调度任务,包括数据抽取任务、数据加工任务和数据同步任务;
3.绑定三个任务之间的父子依赖关系,所有任务定时按顺序加工,其中,数据同步任务依赖于数据加工任务,数据加工任务依赖于数据抽取任务。
步骤S306:生成周期任务。
按用户设定的周期以及任务依赖关系,定时进行ETL,其中,数据抽取任务,可以依赖数据交换(plumber)任务将数据搬运至bdm表中;数据加工任务,可以依赖数据拉链任务,根据用户设定的加工方式将数据从bdm加工至fdm表;数据同步任务,可以将数据从数据仓库fdm表同步至其它数据仓库或数据集市。
图7是根据本发明实施例的数据分析的方法的自动授权的流程示意图。
如图7所示,本发明实施例的数据分析的方法的自动授权主要包括以下步骤:
步骤S701:将不同类型数据源的IP/域名、端口号、用户名、密码等相关字段替换为与数据源类型相对应的数据源配置信息,并传递给对应的授权接口,例如,图8所示的根据本发明实施例的数据分析的方法的数据源配置的示意图一为mysql的数据源配置界面,图9所示的根据本发明实施例的数据分析的方法的数据源配置的示意图二为结构化数据的分布式存储系统(hbase)的数据源配置界面。对于数据源配置可以由用户填写,也可以根据数据源配置信息自动生成。
需要注意的是如果是关系型数据库还需要进行主从校验,选择仅支持读操作的从库进行授权。
步骤S702:根据返回的数据源信息,在数据仓库中进行数据源查重,若已有数据源,且用户名、密码匹配,则直接绑定已有数据源;若无推荐的数据源配置,则在系统中新创建数据源。
步骤S703:在授权接口内进行连通性校验,为保证数据源的数据能够正常抽取,需要再一次对是否完成授权进行验证,验证通过表示授权完成,否则授权失败,验证方式包括校验授权语句(show grant)、验证授权机器IP。
图10是根据本发明实施例的数据分析的方法的逻辑配置示意图。
如图10所示的根据本发明实施例的数据分析的方法的逻辑配置示意图,对于不同类型的数据源,后续的加工逻辑不尽相同,基于字段表可以为不同类型的数据源的加工逻辑进行配置。对于逻辑配置可以由用户填写,也可以根据数据源类型和数据源配置信息自动生成。
加工逻辑包括数据加工方式、数据抽取方式,图中的存储方式对应于数据加工方式,抽取方式对应于数据抽取方式,其中,数据加工方式包括拉链、流水,数据抽取方式包括增量、全量。例如,mysql数据源只有插入(insert)操作,因此,建议使用拉链的数据加工方式。
同时,对于数据加工方式,由于是基于基础hive表的加工方式,因此,所有类型数据库均可共用,但是对于数据抽取方式,不同数据库类型,增量抽取的语法大不相同,例如,分布式文件存储数据库(MongoDB)由于数据存储结构与mysql数据源类似,可以采用与mysql数据源相同的配置。对于hbase,hbase的查询实现仅提供两种方式--按指定行主键(RowKey)获取唯一一条记录的方法和按指定的条件获取一批记录的扫描(scan)方法,由于scan方法获取到的大批记录,因此系统采用了scan方法,支持填写rowkey的范围,并支持过滤,其数据抽取方式可以选择增量或全量,选择增量时需要填写rowkey的起始键(startkey)和结束键(endkey);且过滤支持按行过滤或按列过滤。
图11是根据本发明实施例的数据分析的方法的数据仓库的示意图。
如图11所示,本发明实施中将数据仓库划分为四层,其中:
0层为基础数据层,用于存储bdm表,各数据源的数据经过授权、字段配置、抽取后存储于bdm表中,即从各数据源抽取的数据存储于基础数据层。
1层为数据加工层,用于存储fdm表,基础数据层的数据经过拉链或流水的加工处理后存储于fdm表中,即从各数据源抽取的数据经过数据加工后存储于数据加工层。
2层为数据同步层,用于将该数据仓库的数据同步至其它数据仓库或数据集市。其中,数据集市是一个从集合数据中为企业或科研组织提供数据挖掘技术应用的平台。
3层为数据应用层,用于在数据分析后为用户提供分析性报告和决策支持。
此外,在数据仓库中还设置有临时数据层和维度数据层,分别占用数据仓库的1、2、3层,临时数据层和维度数据层可以使用数据仓库中的全部数据。
图12是根据本发明实施例的数据分析的装置的主要模块的示意图。
如图12所示,本发明实施例的数据分析的装置1200主要包括:分析模块1201、授权模块1202、存储模块1203。
其中:
分析模块1201,用于分析输入的基础表单得到数据源配置信息;
授权模块1202,用于基于所述数据源配置信息对相应的数据源进行授权;
存储模块1203,用于将通过授权的所述数据源存储至数据仓库,以使所述数据仓库自动完成数据的抽取-转换-加载过程。
本发明实施例中,所述授权模块1202还用于:将所述数据源配置信息发送至与数据源对应的授权接口,得到数据源信息;根据所述数据源信息搜索所述数据仓库以确定是否存在相应的数据源;若存在所述数据源,则在所述数据仓库中绑定所述数据源;若不存在所述数据源,则在所述数据仓库中创建数据源。
本发明实施例中,所述授权模块1202进一步用于:当所述数据源为关系型数据库,根据所述数据源配置信息得到所述数据源的从数据库的所述数据源信息。
本发明实施例中,所述存储模块1203还用于:根据所述数据源配置信息创建相应的字段表;根据所述字段表将所述数据源存储至数据仓库。
本发明实施例中,所述存储模块1203进一步用于:根据所述字段表在所述数据仓库中创建相应的数据仓库工具表和调度任务,其中,所述数据仓库工具表包括抽取数据表和加工数据表,所述调度任务包括数据抽取任务、数据加工任务和数据同步任务。
此外,所述装置还包括:设置模块,用于设定调度任务的依赖关系以及周期,所述依赖关系为数据同步任务依赖于数据加工任务,以及数据加工任务依赖于数据抽取任务。
根据本发明实施例的数据分析的装置可以看出,因为采用将数据入库的过程自动化的技术手段,为不同类型的数据源生成不同的基础表单,分析输入的基础表单得到数据源配置信息;基于数据源配置信息对相应的数据源进行授权;将通过授权的数据源存储至数据仓库,以使数据仓库自动完成数据的抽取-转换-加载过程,所以克服了现有的数据入库方法前期工作复杂、耗时较长、对用户专业水平要求较高、不具备时效性的技术问题,对于不同类型的数据源,使用相同加工模式及流程,用简单的流程提供了复杂多样的服务,不仅丰富了数据仓库中的数据,而且降低了用户的使用门槛;同时,自动化授权、自动完成数据的抽取-转换-加载过程等自动化逻辑的实现,提升了数据入库的效率和数据的质量。
下面参考图13,其示出了适于用来实现本发明实施例的终端设备的计算机系统1300的结构示意图。图13示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图13所示,计算机系统1300包括中央处理单元(CPU)1301,其可以根据存储在只读存储器(ROM)1302中的程序或者从存储部分1308加载到随机访问存储器(RAM)1303中的程序而执行各种适当的动作和处理。在RAM 1303中,还存储有系统1300操作所需的各种程序和数据。CPU 1301、ROM 1302以及RAM 1303通过总线1304彼此相连。输入/输出(I/O)接口1305也连接至总线1304。
以下部件连接至I/O接口1305:包括键盘、鼠标等的输入部分1306;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1307;包括硬盘等的存储部分1308;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1309。通信部分1309经由诸如因特网的网络执行通信处理。驱动器1310也根据需要连接至I/O接口1305。可拆卸介质1311,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1310上,以便于从其上读出的计算机程序根据需要被安装入存储部分1308。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1309从网络上被下载和安装,和/或从可拆卸介质1311被安装。在该计算机程序被中央处理单元(CPU)1301执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括分析模块、授权模块、存储模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,分析模块还可以被描述为“分析输入的基础表单得到数据源配置信息的模块”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:步骤S201:分析输入的基础表单得到数据源配置信息;步骤S202:基于数据源配置信息对相应的数据源进行授权;步骤S203:将通过授权的数据源存储至数据仓库,以使数据仓库自动完成数据的抽取-转换-加载过程。
根据本发明实施例的技术方案,因为采用将数据入库的过程自动化的技术手段,为不同类型的数据源生成不同的基础表单,分析输入的基础表单得到数据源配置信息;基于数据源配置信息对相应的数据源进行授权;将通过授权的数据源存储至数据仓库,以使数据仓库自动完成数据的抽取-转换-加载过程,所以克服了现有的数据入库方法前期工作复杂、耗时较长、对用户专业水平要求较高、不具备时效性的技术问题,对于不同类型的数据源,使用相同加工模式及流程,用简单的流程提供了复杂多样的服务,不仅丰富了数据仓库中的数据,而且降低了用户的使用门槛;同时,自动化授权、自动完成数据的抽取-转换-加载过程等自动化逻辑的实现,提升了数据入库的效率和数据的质量。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (10)

1.一种数据分析的方法,其特征在于,包括:
分析输入的基础表单得到数据源配置信息;
基于所述数据源配置信息对相应的数据源进行授权;
将通过授权的所述数据源存储至数据仓库,以使所述数据仓库自动完成数据的抽取-转换-加载过程;
其中,基于所述数据源配置信息对相应的数据源进行授权包括:
将所述数据源配置信息发送至与数据源对应的授权接口,得到数据源信息;
根据所述数据源信息搜索所述数据仓库以确定是否存在相应的数据源;
若存在所述数据源,则在所述数据仓库中绑定所述数据源;
若不存在所述数据源,则在所述数据仓库中创建数据源;
将通过授权的所述数据源存储至数据仓库包括:
根据所述数据源配置信息创建相应的字段表;所述字段表用于配置字段描述及加工方式;
根据所述字段表将所述数据源存储至数据仓库。
2.根据权利要求1所述的方法,其特征在于,得到数据源信息包括:
当所述数据源为关系型数据库,根据所述数据源配置信息得到所述数据源的从数据库的所述数据源信息。
3.根据权利要求1所述的方法,其特征在于,根据所述字段表将所述数据源存储至数据仓库包括:
根据所述字段表在所述数据仓库中创建相应的数据仓库工具表和调度任务,其中,所述数据仓库工具表包括抽取数据表和加工数据表,所述调度任务包括数据抽取任务、数据加工任务和数据同步任务。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
设定调度任务的依赖关系以及周期,所述依赖关系为数据同步任务依赖于数据加工任务,以及数据加工任务依赖于数据抽取任务。
5.一种数据分析的装置,其特征在于,包括:
分析模块,用于分析输入的基础表单得到数据源配置信息;
授权模块,用于基于所述数据源配置信息对相应的数据源进行授权;
存储模块,用于将通过授权的所述数据源存储至数据仓库,以使所述数据仓库自动完成数据的抽取-转换-加载过程;
其中,所述授权模块还用于:
将所述数据源配置信息发送至与数据源对应的授权接口,得到数据源信息;
根据所述数据源信息搜索所述数据仓库以确定是否存在相应的数据源;
若存在所述数据源,则在所述数据仓库中绑定所述数据源;
若不存在所述数据源,则在所述数据仓库中创建数据源;
所述存储模块还用于:
根据所述数据源配置信息创建相应的字段表;所述字段表用于配置字段描述及加工方式;
根据所述字段表将所述数据源存储至数据仓库。
6.根据权利要求5所述的装置,其特征在于,所述授权模块进一步用于:
当所述数据源为关系型数据库,根据所述数据源配置信息得到所述数据源的从数据库的所述数据源信息。
7.根据权利要求5所述的装置,其特征在于,所述存储模块进一步用于:
根据所述字段表在所述数据仓库中创建相应的数据仓库工具表和调度任务,其中,所述数据仓库工具表包括抽取数据表和加工数据表,所述调度任务包括数据抽取任务、数据加工任务和数据同步任务。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
设置模块,用于设定调度任务的依赖关系以及周期,所述依赖关系为数据同步任务依赖于数据加工任务,以及数据加工任务依赖于数据抽取任务。
9.一种数据分析的电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-4中任一所述的方法。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-4中任一所述的方法。
CN201710367080.8A 2017-05-23 2017-05-23 数据分析的方法和装置 Active CN108959309B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710367080.8A CN108959309B (zh) 2017-05-23 2017-05-23 数据分析的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710367080.8A CN108959309B (zh) 2017-05-23 2017-05-23 数据分析的方法和装置

Publications (2)

Publication Number Publication Date
CN108959309A CN108959309A (zh) 2018-12-07
CN108959309B true CN108959309B (zh) 2021-05-25

Family

ID=64462312

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710367080.8A Active CN108959309B (zh) 2017-05-23 2017-05-23 数据分析的方法和装置

Country Status (1)

Country Link
CN (1) CN108959309B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112395367A (zh) * 2020-11-10 2021-02-23 中国人寿保险股份有限公司 一种数据库数据处理方法及装置
CN113111105A (zh) * 2021-04-06 2021-07-13 创意信息技术股份有限公司 基于大数据的数据定制接入方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102467570A (zh) * 2010-11-17 2012-05-23 日电(中国)有限公司 用于分布式数据仓库的连接查询系统和方法
CN104866619A (zh) * 2015-06-09 2015-08-26 北京京东尚科信息技术有限公司 数据仓库的数据监控方法和系统
CN106021422A (zh) * 2016-05-13 2016-10-12 北京思特奇信息技术股份有限公司 一种基于关系型数据库形成Hive数据仓库的方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102467570A (zh) * 2010-11-17 2012-05-23 日电(中国)有限公司 用于分布式数据仓库的连接查询系统和方法
CN104866619A (zh) * 2015-06-09 2015-08-26 北京京东尚科信息技术有限公司 数据仓库的数据监控方法和系统
CN106021422A (zh) * 2016-05-13 2016-10-12 北京思特奇信息技术股份有限公司 一种基于关系型数据库形成Hive数据仓库的方法及系统

Also Published As

Publication number Publication date
CN108959309A (zh) 2018-12-07

Similar Documents

Publication Publication Date Title
US10521404B2 (en) Data transformations with metadata
AU2018200693B2 (en) Method and design for automated testing system
CN109446274B (zh) 大数据平台bi元数据管理的方法和装置
CN107748752B (zh) 一种数据处理方法及装置
US10360394B2 (en) System and method for creating, tracking, and maintaining big data use cases
CN113326247B (zh) 云端数据的迁移方法、装置及电子设备
US11488082B2 (en) Monitoring and verification system for end-to-end distribution of messages
CN107133231B (zh) 一种数据获取方法和装置
CN110991984A (zh) 基于企业信息化异构系统的数字化经营分析平台及方法
CN112801607A (zh) 一种管理服务平台及构建方法
CN110895534A (zh) 一种数据拼接方法、装置、介质及电子设备
CN111125064A (zh) 一种生成数据库模式定义语句的方法和装置
CN108959309B (zh) 数据分析的方法和装置
CN113836237A (zh) 对数据库的数据操作进行审计的方法及装置
CN107657155B (zh) 用于鉴定用户操作权限的方法和装置
CN110083501A (zh) 接口调用计数方法和装置
CN110019440A (zh) 数据的处理方法及装置
CN111984686A (zh) 一种数据处理的方法和装置
CN113762702A (zh) 工作流部署方法、装置、计算机系统和可读存储介质
US10152556B1 (en) Semantic modeling platform
CN111177183B (zh) 一种生成数据库访问语句的方法和装置
CN111914065B (zh) 短信内容验证方法、装置、计算机系统和计算机可读介质
US11847138B2 (en) Reflection database architecture with state driven synchronization
CN115345667A (zh) 基于大数据的卡券发放拦截方法、装置、设备及存储介质
CN117573617A (zh) 一种数据均衡方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant