CN103473360A - 一种大数据智能抽取的管理方法 - Google Patents

一种大数据智能抽取的管理方法 Download PDF

Info

Publication number
CN103473360A
CN103473360A CN2013104453561A CN201310445356A CN103473360A CN 103473360 A CN103473360 A CN 103473360A CN 2013104453561 A CN2013104453561 A CN 2013104453561A CN 201310445356 A CN201310445356 A CN 201310445356A CN 103473360 A CN103473360 A CN 103473360A
Authority
CN
China
Prior art keywords
management
extraction
parameter
task
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2013104453561A
Other languages
English (en)
Inventor
邹建军
吕亚伟
赵兵旗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Inspur Software Co Ltd
Original Assignee
Shandong Inspur Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Inspur Software Co Ltd filed Critical Shandong Inspur Software Co Ltd
Priority to CN2013104453561A priority Critical patent/CN103473360A/zh
Publication of CN103473360A publication Critical patent/CN103473360A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种大数据智能抽取的管理方法,其具体步骤为:完成抽取应用的管理的步骤,完成信息同步的步骤,完成抽取规则管理的步骤,规则参数管理的步骤,抽取任务调度的步骤。该一种大数据智能抽取的管理方法和现有技术相比,在改变数据抽取工具时,不必重新开发功能,只需要对相关信息进行配置即可使用。对于运维人员也不需要精通抽取工具就可以实现对数据集中的管理。

Description

一种大数据智能抽取的管理方法
技术领域
本发明涉及计算机应用技术领域,具体的说是一种大数据智能抽取的管理方法。
背景技术
随着大数据重要性的凸显,在我国基础数据都已经完善的基础上,将分散在不同地区和部门的数据进行集中的需求日益增多。在集中过程中有直接应用数据库技术进行数据集中的,也有通过第三方数据集中工具进行集中的。应用数据库直接同步数据有很多局限性和较高硬件要求,无法在在广域网和复杂的网络环境中进行数据抽取。最为广泛的是通过数据集中工具进行数据集中。在应用数据集中工具进行数据集中时,往往需要基于不同的数据集中工具进行平台开发或者要求人员对集中工具非常熟悉。这些都将花费大量人力物力,为了减轻数据集中的工作量,我们开发了基于各种数据集中工具的抽取管理应用。本管理应用实现对同一集中工具的多个应用同时进行数据抽取,也能够实现不同抽取工具多个应用同时进行数据抽取。通过统一的集中管理界面进行数据集中的管理、调度和监控,屏蔽不同集中工具的差异,从而实现大数据的抽取。
发明内容
本发明的技术任务是解决现有技术的不足,提供一种实用性强、大数据智能抽取的管理方法。
本发明的技术方案是按以下方式实现的,该一种大数据智能抽取的管理方法,其具体步骤为:
1)完成抽取应用的管理的步骤,该步骤是指抽取数据源的选择选用至少一个抽取工具的至少一个应用:这时由于充分考虑不同的网络环境下,对不同数据源的抽取,所以在对抽取工具管理的时候,不仅能够实现一个抽取应用的管理,也对多个抽取应用进行管理,还可以对不同抽取工具的多个应用进行管理。 
2)完成信息同步的步骤,该步骤是指:
一、数据抽取规则同步;
二、监控和日志信息同步;
3)完成抽取规则管理的步骤,该步骤是指对抽取规则进行格式定义,实现对抽取规则的树形、多角度分类,并对抽取规则进行分组管理;
4)规则参数管理的步骤,该步骤是指对参数进行分类管理;
5)抽取任务调度的步骤,该步骤是指通过合理设置调度阀值,在调度时,在相同的时间内,使得运行的任务数既不超过源库的传输负荷,也不会超过抽取工具服务器的抽取负荷,完成抽取任务。
所述信息同步的详细步骤为:在该管理应用实现时,建立一整套表结构,实现抽取工具各规则表信息到平台表信息的映射,从而屏蔽各种数据集中工具信息的差异,使得能够统一同步信息、管理规则、监控任务执行情况,以及调度任务使其执行在不同的抽取工具上进行数据抽取。
所述抽取规则管理步骤中的分组管理是指:按照业务系统、业务类别、数据来源信息对规则进行分组抽取和管理,对于逻辑上关联的抽取规则,定义逻辑关系,实现任务串并联管理。
所述规则参数管理的详细步骤为:这里的参数是指不同的抽取规则对应的不同参数,该参数从范围上分别分为全局参数、局部参数、规则参数;从参数的取值方式上,将参数分为固定值、系统值和动态值,在抽取任务出错时,快速完成对参数值的修改。
所述抽取任务的调度的详细步骤为:在管理应用建设时,根据数据库服务器、抽取工具服务器、网络传输速率的硬件配置情况,设置合理的阀值;在任务启动时,根据硬件环境合理的启动并行的任务数;对执行出错的任务,根据不同的错误类型,进行不同的应对处理。
本发明与现有技术相比所产生的有益效果是:
本发明的一种大数据智能抽取的管理方法实现对各种数据抽取工具的管理功能,实现同时对多个抽取应用的管理,从而实现大数据的抽取,对开发人员来说,当新增数据抽取工具时,不必重新开发程序,只需要对相应信息进行配置即可,对运维和管理人员来讲,不必精通每一种数据抽取工具,就能够实现对数据抽取的管理和监控,有效的节约人力,提高工作效率,节省开发维护成本60%,实用性强,易于推广。
附图说明
附图1是本发明的抽取应用管理示意图。
附图2是本发明的信息同步列表示意图。
附图3是本发明的信息同步设置示意图。
附图4是本发明的抽取规则管理分组示意图。
附图5是本发明的任务调度列表示意图。
附图6是本发明的任务调度设置示意图。
具体实施方式
下面结合附图对本发明的一种大数据智能抽取的管理方法作详细说明。
本发明结合专业数据集中工具,实现大数据量抽取功能。本管理应用能够管理同一数据集中工具的多个应用同时进行数据抽取,也能管理不同数据集中工具的多个应用同时进行抽取,通过统一的集中管理界面进行数据集中的管理、调度和监控,屏蔽不同集中工具的差异,从而实现大数据的抽取。现提供一种大数据智能抽取的管理方法,其具体步骤为:
1)如附图1所示,完成抽取应用的管理的步骤,该步骤是指抽取数据源的选择选用至少一个抽取工具的至少一个应用:为支持抽取不同系统的数据,适应于不同的抽取环境,实现大数据量的抽取,本管理方法实现支持多种数据抽取工具的数据抽取。不仅能够同时管理同一抽取工具多个应用进行数据抽取,而且也可以同时支持不同抽取工具多个应用同时进行数据抽取。
2)如附图2、图3所示,完成信息同步的步骤,该步骤是指:数据抽取规则同步和监控和日志信息同步:由于上述信息在不同的抽取工具中,表结构和字段信息是不一致的,为了能能够在前台统一展现和管理。本平台定义了一整套表结构,通过定义数据抽取工具与平台的表结构的映射关系,实现前台对抽取规则和日志信息的统一管控。
其具体步骤为:由于步骤1)中提到该管理方法是基于各种数据集中工具建设的,所以在该管理应用实现时,建立一整套表结构,实现抽取工具各规则表信息到平台表信息的映射,从而屏蔽各种数据集中工具信息的差异,使得能够统一同步信息、管理规则、监控任务执行情况,以及调度任务使其执行在不同的抽取工具上进行数据抽取。
3)如附图4所示,完成抽取规则管理的步骤,该步骤是指受制于数据抽取工具的限制,抽取规则无法实现树形分类、多角度分类,以及无法实现灵活分组管理。本管理应用通过对抽取规则的格式定义,实现对抽取规则的树形、多角度分类。同时,为了实现对抽取规则的灵活管理,本管理应用增加了抽取规则的分组管理。按照业务系统、业务类别、数据来源等信息对规则进行分组抽取和管理,对于逻辑上关联的抽取规则,可以定义逻辑关系,实现任务串并联管理。
4)规则参数管理的步骤,该步骤是指对参数进行分类管理:数据集中时,抽取规则的参数往往比较多,不同的抽取规则往往对应不同的参数。为了更便捷管参数,依据数据集中的经验,对参数进行了分类管理。从范围上将参数分别分为全局参数、局部参数、规则参数;从参数的取值方式上,将参数分为固定值、系统值、动态值和引用值。根据不同的情况,可以灵活对参数进行初始化和更改。提高了运维效率,减轻了工作量。
5)如附图5、图6所示,抽取任务调度的步骤,该步骤是指:为了适用对大数据的抽取,本管理应用支持多种数据抽取工具的灵活调用。为了实现对抽取规则的调用,根据目前主流的5种数据抽取工具规则调用情况,抽象出一整套表结构,实现对抽取规则的灵活调用。在进行大数据抽取时,环境及服务器的压力,往往是管理的重点,本管理应用通过系统配置集中库、数据源库、抽取工具服务器等信息,实现动态智能调度。根据源数据库服务器和数据抽取工具服务器的情况,设置调度阀值。调度时,在相同的时间内,使得运行的任务数既不超过源库的传输负荷,也不会超过抽取工具服务器的抽取负荷。另外在第一次调度失败后,在完成抽取任务后,根据不同的错误类型,系统会自动重新调度任务,比如对无法连接的源库,会启动连接测试功能。对于抽取中断的任务,会重新自动抽取等等。
具体实施例:
本管理应用基于J2EE技术设计实现,采用ORACLE 9I及以上数据库和BEA WEBLOGIC SERVER 8.1中间件软件开发而成,实施工作步骤如下:
第一步、准备数据库环境。
在数据库中创建1个表空间和用户,如下表
用户/密码 表空间 表空间大小
根据实际情况设定 cqglpt_dat 200M
第二步、部署系统应用。
1、在建立的用户下导入已整理好的数据。
2、获得系统程序:CQGLPT。
3、按默认选项创建域:cqglpt_domain。
4、启动startWebLogic.cmd,进入weblogic控制台:
创建连接池cqglptpool(用户名/密码)和数据源。
创建数据源,注意JNDIName应为cqglpt_ds,使用cqglptpool接池。
5、选择WebApplicationModules,选择cqglpt应用进行部署。
6、启动服务并访问。
除说明书所述的技术特征外,均为本专业技术人员的公知技术。

Claims (5)

1.一种大数据智能抽取的管理方法,其特征在于,其具体步骤为:
1)完成抽取应用的管理的步骤,该步骤是指抽取数据源的选择选用至少一个抽取工具的至少一个应用;
2)完成信息同步的步骤,该步骤是指:
一、数据抽取规则同步;
二、监控和日志信息同步;
3)完成抽取规则管理的步骤,该步骤是指对抽取规则进行格式定义,实现对抽取规则的树形、多角度分类,并对抽取规则进行分组管理;
4)规则参数管理的步骤,该步骤是指对参数进行分类管理;
5)抽取任务调度的步骤,该步骤是指通过合理设置调度阀值,在调度时,在相同的时间内,使得运行的任务数既不超过源库的传输负荷,也不会超过抽取工具服务器的抽取负荷,完成抽取任务。
2.根据权利要求1所述的一种大数据智能抽取的管理方法,其特征在于,所述信息同步的详细步骤为:在该管理应用实现时,建立一整套表结构,实现抽取工具各规则表信息到平台表信息的映射,从而屏蔽各种数据集中工具信息的差异,使得能够统一同步信息、管理规则、监控任务执行情况,以及调度任务使其执行在不同的抽取工具上进行数据抽取。
3.根据权利要求1所述的一种大数据智能抽取的管理方法,其特征在于,所述抽取规则管理步骤中的分组管理是指:按照业务系统、业务类别、数据来源信息对规则进行分组抽取和管理,对于逻辑上关联的抽取规则,定义逻辑关系,实现任务串并联管理。
4.根据权利要求1所述的一种大数据智能抽取的管理方法,其特征在于,所述规则参数管理的详细步骤为:这里的参数是指不同的抽取规则对应的不同参数,该参数从范围上分别分为全局参数、局部参数、规则参数;从参数的取值方式上,将参数分为固定值、系统值和动态值,在抽取任务出错时,快速完成对参数值的修改。
5.根据权利要求1所述的一种大数据智能抽取的管理方法,其特征在于,所述抽取任务的调度的详细步骤为:在管理应用建设时,根据数据库服务器、抽取工具服务器、网络传输速率的硬件配置情况,设置合理的阀值;在任务启动时,根据硬件环境合理的启动并行的任务数;对执行出错的任务,根据不同的错误类型,进行不同的应对处理。
CN2013104453561A 2013-09-26 2013-09-26 一种大数据智能抽取的管理方法 Pending CN103473360A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2013104453561A CN103473360A (zh) 2013-09-26 2013-09-26 一种大数据智能抽取的管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2013104453561A CN103473360A (zh) 2013-09-26 2013-09-26 一种大数据智能抽取的管理方法

Publications (1)

Publication Number Publication Date
CN103473360A true CN103473360A (zh) 2013-12-25

Family

ID=49798208

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2013104453561A Pending CN103473360A (zh) 2013-09-26 2013-09-26 一种大数据智能抽取的管理方法

Country Status (1)

Country Link
CN (1) CN103473360A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104008172A (zh) * 2014-06-04 2014-08-27 浪潮软件集团有限公司 一种数据交换方法
CN104239100A (zh) * 2014-09-11 2014-12-24 浪潮软件集团有限公司 一种通用数据处理方法
CN108400800A (zh) * 2017-01-20 2018-08-14 赵李英记 资料传输架构产生聚类分群资料的方法
CN109241135A (zh) * 2018-08-23 2019-01-18 吾达软件(武汉)股份有限公司 一种智能抽取数据的挖掘系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101388038A (zh) * 2008-10-28 2009-03-18 杭州华三通信技术有限公司 数据抽取、转换和加载的执行方法和装置
US20090150362A1 (en) * 2006-08-02 2009-06-11 Epas Double Blinded Privacy-Safe Distributed Data Mining Protocol
CN101763396A (zh) * 2009-12-21 2010-06-30 金蝶软件(中国)有限公司 一种数据抽取方法、装置和数据管理系统
CN102902750A (zh) * 2012-09-20 2013-01-30 浪潮齐鲁软件产业有限公司 一种通用的数据抽取转换方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090150362A1 (en) * 2006-08-02 2009-06-11 Epas Double Blinded Privacy-Safe Distributed Data Mining Protocol
CN101388038A (zh) * 2008-10-28 2009-03-18 杭州华三通信技术有限公司 数据抽取、转换和加载的执行方法和装置
CN101763396A (zh) * 2009-12-21 2010-06-30 金蝶软件(中国)有限公司 一种数据抽取方法、装置和数据管理系统
CN102902750A (zh) * 2012-09-20 2013-01-30 浪潮齐鲁软件产业有限公司 一种通用的数据抽取转换方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘如九等: "一种通用的多数据库间数据抽取方法及应用", 《北京交通大学学报》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104008172A (zh) * 2014-06-04 2014-08-27 浪潮软件集团有限公司 一种数据交换方法
CN104239100A (zh) * 2014-09-11 2014-12-24 浪潮软件集团有限公司 一种通用数据处理方法
CN108400800A (zh) * 2017-01-20 2018-08-14 赵李英记 资料传输架构产生聚类分群资料的方法
US10657159B2 (en) 2017-01-20 2020-05-19 Ying-Jih Chao Lee Method for generating a category clustering data using a data transmission structure
CN109241135A (zh) * 2018-08-23 2019-01-18 吾达软件(武汉)股份有限公司 一种智能抽取数据的挖掘系统
CN109241135B (zh) * 2018-08-23 2021-03-05 吾达软件(武汉)股份有限公司 一种智能抽取数据的挖掘系统

Similar Documents

Publication Publication Date Title
CN107402976B (zh) 一种基于多元异构模型的电网多源数据融合方法及系统
CN106649378B (zh) 一种数据同步方法及装置
CN106202346B (zh) 一种数据加载清洗引擎、调度与存储系统
CN114357088B (zh) 核电工业数据仓库系统
CN102034152B (zh) 基于soa架构的异构软件系统数据的集成整合方法与系统
CN102508919B (zh) 数据处理方法及系统
CN103218402B (zh) 通用的数据库数据结构与数据迁移系统及其方法
CN104699541A (zh) 同步数据的方法、装置、数据传输组件及系统
CN105843182A (zh) 一种基于oms的电力调度事故预案系统及方法
CN103441900A (zh) 集中式跨平台自动化测试系统及其控制方法
CN111324610A (zh) 一种数据同步的方法及装置
CN103425672A (zh) 一种数据库索引的建立方法及装置
CN104036365A (zh) 一种企业级数据服务平台建设方法
CN112148788A (zh) 异构数据源的数据同步方法及系统
CN103338135A (zh) 一种集群存储容量的实时监控方法
CN106126528B (zh) 一种基于平台模型的小卫星测试基础信息生成方法
CN103186541A (zh) 一种映射关系生成方法及装置
CN103914307A (zh) 一种基于可复用库的交互界面快速实现方法
CN103473360A (zh) 一种大数据智能抽取的管理方法
CN108763234A (zh) 一种数据实时同步方法及系统
CN111966677A (zh) 数据报表的处理方法、装置、电子设备及存储介质
CN104615713A (zh) 一种基于多数据库类型的sql执行方法和装置
CN116662441A (zh) 一种分布式数据血缘构建及展现方法
CN109800069B (zh) 一种实现数据治理的方法及装置
CN109150964A (zh) 一种可迁移的数据管理方法及服务迁移方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20131225