CN113946633A - 基于敏捷数据仓库的运维系统及方法 - Google Patents

基于敏捷数据仓库的运维系统及方法 Download PDF

Info

Publication number
CN113946633A
CN113946633A CN202111323709.1A CN202111323709A CN113946633A CN 113946633 A CN113946633 A CN 113946633A CN 202111323709 A CN202111323709 A CN 202111323709A CN 113946633 A CN113946633 A CN 113946633A
Authority
CN
China
Prior art keywords
module
maintenance
data
agile
data warehouse
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111323709.1A
Other languages
English (en)
Inventor
王洋
孙佳亮
杜斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Building Materials Xinyun Zhilian Technology Co ltd
Cnbm Technology Corp ltd
Original Assignee
China Building Materials Xinyun Zhilian Technology Co ltd
Cnbm Technology Corp ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Building Materials Xinyun Zhilian Technology Co ltd, Cnbm Technology Corp ltd filed Critical China Building Materials Xinyun Zhilian Technology Co ltd
Priority to CN202111323709.1A priority Critical patent/CN113946633A/zh
Publication of CN113946633A publication Critical patent/CN113946633A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/219Managing data history or versioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及数据仓库运维管理技术领域,具体地说,涉及基于敏捷数据仓库的运维系统及方法。包括基建管理单元、运维作业单元、异常管理单元和定期任务单元;基建管理单元用于对基建设备进行管控;运维作业单元用于对运维工作进行分配管理;异常管理单元用于对异常情况进行监测并处理;定期任务单元用于设定定期任务对运维工作进行完善。本发明设计的系统可以减少人力投入、节省运维费用支出,可以监测数仓运行、快速发现异常,确保故障时业务不受影响,减少故障中断时间,提升数据仓库的运营能力;其运维方法可以减轻运维工作量、缩短耗时,有效减少出现检查遗漏的情况,提高运维工作的管理成效,并可统计记录运维情况,以便用户直观地查看。

Description

基于敏捷数据仓库的运维系统及方法
技术领域
本发明涉及数据仓库运维管理技术领域,具体地说,涉及基于敏捷数据仓 库的运维系统及方法。
背景技术
随着大数据的快速发展、数据量的爆炸性增长,传统数据库已经无法满足 企业的需求,数据仓库也就应运而生。数据仓库是数据库的一种概念上的升级, 可以容纳更多的数据及更加庞大的数据集,其目标是实现跨系统数据共享、解 决信息孤岛、提升数据质量、辅助决策分析及提供统一的数据服务,为企业的 决策制定过程提供所有类型数据支撑的战略集合。同时,数据仓库的运行过程 中也面临着各种挑战,主要为:随着数据仓库的建设规模越来越大,这些数据 仓库系统往往拥有很大的服务器规模,再加上其他设备,一个大型数据仓库运 行过程中需要管理同时运行的大量设备,因此随着数据仓库业务的不断变化, 也伴随着数仓设备不断出现的各类故障问题,导致数据仓库的运维工作难以 管理且运维成本高昂。从而自动化运维、远程运维、智能网管以及敏捷运维等 都纷纷产生,经过几年的技术演进,目前只有敏捷运维却变得越来越火。数据 仓库的运维方式主要是由操作员通过工作机远程登陆到数据仓库系统中的相 关主机,对主机进行调度系统、数据库、磁盘、软件环境、数据情况等方面的 检查维护操作,查找批处理的运行情况并上报以便及时处理。然而,数据仓库 的运维工作量大、运维项目繁琐,目前却没有较为完善的数据仓库的运维系统 及方法,往往需要投入大量的运维人员,导致运维工作耗时长、成本高且容易 出现遗漏,鉴于此,我们提出了基于敏捷数据仓库的运维系统及方法。
发明内容
本发明的目的在于提供基于敏捷数据仓库的运维系统及方法,以解决上 述背景技术中提出的问题。 说 明 书 2 为实现上述技术问题的解决,本发明的目的之一在于,提供了基于敏捷数 据仓库的运维系统,包括 基建管理单元、运维作业单元、异常管理单元和定期任务单元;所述基建 管理单元、所述运维作业单元、所述异常管理单元与所述定期任务单元依次通 过网络通信连接;所述基建管理单元用于对支撑系统运行的基建设备进行集 中的连接管控;所述运维作业单元用于对数仓的日常运维工作进行作业分配 和管理;所述异常管理单元用于对数仓及系统运行过程中的异常情况进行监 测并进行故障处理操作;所述定期任务单元用于通过程序设定定期的任务对 数仓的运维工作进行完善和补充;所述基建管理单元包括数据仓库模块、运维终端模块、工具管理模块和用 户管理模块; 所述运维作业单元包括数据检查模块、数库检查模块、ETL 处理模块和异 常处理模块; 所述异常管理单元包括备份系统模块、故障监测模块、业务转移模块和隔 离自愈模块; 所述定期任务单元包括数据备份模块、运维日志模块、系统重启模块和总 结统计模块。 作为本技术方案的进一步改进,所述数据仓库模块、所述运维终端模块、 所述工具管理模块与所述用户管理模块依次通过网络通信连接;所述数据仓 库模块用于根据业务需求按照常规流程搭建敏捷数据仓库的架构体系并正常 投入使用;所述运维终端模块用于在数仓架构基础上增设部分终端设备以承 载运维系统的软件平台来支撑运维工作;所述工具管理模块用于通过开发工 具开发软件自动化管理平台并载入多种敏捷运维工具来满足数仓运维的需求; 所述用户管理模块用于给用户提供访问系统的通道并根据用户的身份开放相 应的操作权限。 说 明 书 3 其中,运维终端包括但不限于计算机处理器、显示终端、输入输出设备、 智能传感器组等。 其中,用户的身份及对应操作权限应包括:数仓用户,可以查看运维系统 的所有运维工作记录;系统开发人员,可以访问运维系统的前端和后台,可以 对运维工具平台进行开发、修改、维护处理等;运维管理员,可以通过操作运 维工具对数仓进行检查、运维处理,记录每日运维日志并上报等。 作为本技术方案的进一步改进,所述工具管理模块包括自动部署模块、数 据扩容模块、资源调配模块和配置下发模块;所述自动部署模块、所述数据扩 容模块、所述资源调配模块与所述配置下发模块依次通过网络通信连接;所述 自动部署模块用于通过软件自动化管理使敏捷运维工具在平台上完成自动化 部署,并通过工具实现数仓业务的快速自动部署;所述数据扩容模块用于通过 在敏捷运维软件工具上做业务部署来实现数据中心的扩容操作,不需关注数 仓基础架构的实现,也不需增加运维人员,并可以增强运维工具的监控效果; 所述资源调配模块用于通过各敏捷软件工具之间的自动互联互通来快速进行 底层的资源调配;所述配置下发模块用于通过软件自动下发系统的底层资源 调配及网络配置。 作为本技术方案的进一步改进,所述资源调配模块中,资源调配过程中采 用作业优先级算法,其计算公式为: 𝑃𝑗 [𝑖] = 𝑃𝑜 [𝑖] +𝑁 ∗ 𝑇𝑤𝑎𝑖𝑡; 其中,𝑃𝑜 [𝑖]为作业提交时指定的优先级,𝑇𝑤𝑎𝑖𝑡为作业在队列中等待的时 间,𝑁为常数因子,随着等待时间的增加,作业优先级动态的增加,直到增加 到阈值,即最高优先级。 作为本技术方案的进一步改进,所述数据检查模块、所述数库检查模块、 所述 ETL 处理模块与所述异常处理模块依次通过网络通信连接且并列运行; 所述数据检查模块用于每日在数据仓库启动批处理程序之前对源头的数据和 说 明 书 4 生产处的数据进行检查以确保当日批处理程序正常作业;所述数库检查模块 用于每日定时查看数据仓库中包括 STAGE、APP_SPACE、PDM 等各子库的空间 情况,每日查看磁盘、磁带是否余有以便数据备份需求的足够空间,并在空间 不足时及时同时管理员来分配库空间或增加磁盘空间;所述 ETL 处理模块用 于通过 ETL 批处理工具对数据仓库运行过程中的对数据进行 ETL 全过程中的 各主要项目进行检测管理;所述异常处理模块用于由运维人员按照预设程序 查找数仓问题、找到原因并上报,指定处理方案、在获得数仓客户的授权后执 行实时,并详细记录整个处理过程。 作为本技术方案的进一步改进,所述数据检查模块包括常规数据模块、转 定长传输模块、源数据传输模块和下游系统数据模块;所述常规数据模块、所 述转定长传输模块、所述源数据传输模块与所述下游系统数据模块依次通过网络通信连接且并列运行;所述常规数据模块用于对数据仓库中现存的历史 数据进行常规的快速检查;所述转定长传输模块用于由运维制备人员通过预 设的程序命令检查每个大任务的初始化操作过程、数据装卸载及上传整个处 理模块等,查找是否存在错误,检查各模块的转定长情况及检查日志中是否存 在中断的转定长现象,最后将异常情况进行上报反馈;所述源数据传输模块用 于每日定时检查源数据的传输过程、源数据是否全部到达、源数据传输作业是 否完成等,筛查未到达的文件及检查接口文件未达到的原因,并将源数据未正 确到达的情况进行上报反馈;所述下游系统数据模块用于每日检查给下游系统的数据是否完全给出以判断下游脚本是否正常运行,筛查未给出的数据及 数据未给出的原因并进行上报反馈。 作为本技术方案的进一步改进,所述 ETL 处理模块包括报警反馈模块、 窗口监控模块、工作状态模块和数据转换模块;所述报警反馈模块、所述窗口 监控模块、所述工作状态模块与所述数据转换模块依次通过网络通信连接且 并列运行;所述报警反馈模块用于查看是否获取由客户方管理的硬件维护项 说 明 书 5 目及巡检报告;所述窗口监控模块用于按照预设的工具程序查看 ETL 监控窗 口是否存在脚本错误或其它异常的提示;所述工作状态模块用于按照预设程 序每隔一端时间查看监控窗口有否错误/异常提示以判断系统工作状态是否 正常,同时每隔一段时间查看监控窗口内是否存在长时间处于未完成状态的 作业;所述数据转换模块用于每日定时查看数据日期的转换作业完成情况并 记录完成时间,查看前一时间阶段完成的时间以作对比,并及时上报反馈存在 异常的情况。 作为本技术方案的进一步改进,所述备份系统模块、所述故障监测模块、所述业务转移模块与所述隔离自愈模块依次通过网络通信连接;所述备份系 统模块用于通过原型化可开发方法,在数据仓库的应用过程中,另外构建一个 备份的业务操作系统;所述故障监测模块用于通过敏捷软件实时对数据仓库 的运行过程进行全年无中断的监测并可快速发现应用故障;所述业务转移模 块用于在检测到应用故障时自动执行切换动作,将业务转移到备用系统中以 确保业务不受影响;所述隔离自愈模块用于通过敏捷软件工具对故障部分进 行隔离,同时可以按照预设的排障程序对故障进行自愈,以便给运维人员进行 故障抢修赢得时间。 作为本技术方案的进一步改进,所述数据备份模块、所述运维日志模块、 所述系统重启模块与所述总结统计模块依次通过网络通信连接;所述数据备 份模块用于采用永久或每日循环的方式,通过调度机制调度脚本来触发工作, 在每日业务结束后对源数据、运行脚本、日志、数据库等进行备份并存储到磁 带库;所述运维日志模块用于由运维管理人员每日记录运维日志来进行每日 检查工作,以便随时查看系统的运行状况;所述系统重启模块用于按照预设程 序,在通知客户后与客户协作完成服务器的系统重启工作,以使批处理程序能 够完全释放内存,避免因程序长期运行、系统缓存被占用造成系统资源不足导 致的程序运行失败;所述总结统计模块用于定期对数仓的运行环境、系统的运 说 明 书 6 维情况、数仓出现过的异常故障情况等进行分类的总结统计,并自动生成对应 的报表图形以便上报。 本发明的目的之二在于,提供了基于敏捷数据仓库的运维方法,包括上述 所述的基于敏捷数据仓库的运维系统,包括如下步骤: S1、根据业务场景需求,按照常规流程,构建敏捷数据仓库并正常投入使 用; S2、在原数据仓库的架构体系中增设计算机处理器组件,通过开发工具研 发软件自动化管理平台,载入多种敏捷运维工具,并将运维系统与敏捷数据仓 库业务系统连接起来; S3、运维管理人员以合法身份访问系统,根据运维规则,通过预设的程序 及对应的运维工具,每日进行数据仓库的运维检查;S4、运维人员每日对数据仓库的常规数据、转定长传输情况、源数据传输 到达情况及下游系统数据发出完成情况进行检查,并反馈异常情况; S5、运维人员每日对数据仓库的 ETL批处理过程进行巡检,包括硬件巡 检情况、脚本运行情况、工作状态、数据日期转换作业完成情况等,并反馈异 常情况; S6、运维管理人员获取上报的异常情况,制定异常处理方案并反馈给客户, 经客户批准后可执行方案来进行异常处理操作; S7、敏捷运维工具全年无休地监测系统运行过程,在发现故障情况时可自 动执行切换动作将业务转移到备用系统中,并隔离故障、尝试排障自愈,直到 运维人员完成抢修作业; S8、运维系统定期进行数据备份、记录运维日志,并按照程序定期自动进 行重启操作,以保障系统的稳定运行,系统定期自动对所有运维情况的相关数 据进行总结统计,生成对应的报表图形; S9、数仓客户以合法身份登录系统,可以查看所有运维情况的工作记录, 说 明 书 7 并可提出运维管理的建议和需求,由系统开发人员对运维系统进行修改调整。 本发明的目的之三在于,提供了基于敏捷数据仓库的运维系统的运行装 置,包括处理器、存储器以及存储在存储器中并在处理器上运行的计算机程序, 处理器用于执行计算机程序时实现上述的基于敏捷数据仓库的运维系统及方 法的步骤。 本发明的目的之四在于,提供了一种计算机可读存储介质,所述计算机可 读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述的 基于敏捷数据仓库的运维系统及方法的步骤。 与现有技术相比,本发明的有益效果:1.该基于敏捷数据仓库的运维系统通过搭建软件自动化管理平台,开发 多种敏捷软件工具,设定工具的程序和执行脚本使其自动执行,工具可以自动 化部署并实现业务的快速自动部署,减少人力的投入、节省运维费用支出,资 源调配、网络配置可以自动下发,实现数据仓库的互联互通,同时可以监测数 仓运行、快速发现异常,通过建设备用系统以确保故障时业务不受影响,并可 隔离故障为抢修留出时间,减少故障中断时间,提升数据仓库的运营能力; 2.该基于敏捷数据仓库的运维方法通过按照上述运维系统的预设程序执 行运维工作,可以全面快速地对数据仓库的运行过程进行检查维护,减轻运维 工作量、缩短耗时,有效减少出现检查遗漏的情况,提高运维工作的管理成效, 并可统计记录运维情况,运维记录可追溯,以便用户直观地查看。 附图说明 图 1 为本发明的示例性产品架构图; 图2 为本发明的整体系统装置结构图; 图 3 为本发明的局部系统装置结构图之一; 图 4为本发明的局部系统装置结构图之二; 图 5 为本发明的局部系统装置结构图之三; 说明 书 8 图 6 为本发明的局部系统装置结构图之四; 图 7 为本发明的局部系统装置结构图之五; 图 8 为本发明的局部系统装置结构图之六; 图 9 为本发明的局部系统装置结构图之七; 图 10 为本发明的运维方法流程框图; 图 11 为本发明的示例性电子计算机装置平台结构示意图。 图中: 1、处理器;2、显示器;3、数据仓库服务器;4、敏捷软件工具;5、用 户; 100、基建管理单元;101、数据仓库模块;102、运维终端模块;103、工 具管理模块;1031、自动部署模块;1032、数据扩容模块;1033、资源调配模 块;1034、配置下发模块;104、用户管理模块; 200、运维作业单元;201、数据检查模块;2011、常规数据模块;2012、 转定长传输模块;2013、源数据传输模块;2014、下游系统数据模块;202、 数库检查模块;203、ETL 处理模块;2031、报警反馈模块;2032、窗口监控 模块;2033、工作状态模块;2034、数据转换模块;204、异常处理模块; 300、异常管理单元;301、备份系统模块;302、故障监测模块;303、业 务转移模块;304、隔离自愈模块; 400、定期任务单元;401、数据备份模块;402、运维日志模块;403、系 统重启模块;404、总结统计模块。 具体实施方式 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行 清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不 是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创 造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。 说 明 书 9 实施例 1 如图 1-图 11 所示,本实施例提供了基于敏捷数据仓库的运维系统,包括 基建管理单元 100、运维作业单元 200、异常管理单元 300和定期任务单 元 400;基建管理单元 100、运维作业单元 200、异常管理单元 300 与定期任 务单元 400 依次通过网络通信连接;基建管理单元 100 用于对支撑系统运行 的基建设备进行集中的连接管控;运维作业单元 200 用于对数仓的日常运维 工作进行作业分配和管理;异常管理单元 300 用于对数仓及系统运行过程中 的异常情况进行监测并进行故障处理操作;定期任务单元 400 用于通过程序 设定定期的任务对数仓的运维工作进行完善和补充; 基建管理单元 100 包括数据仓库模块 101、运维终端模块 102、工具管理 模块 103 和用户管理模块 104; 运维作业单元 200 包括数据检查模块 201、数库检查模块202、ETL 处理 模块 203 和异常处理模块 204; 异常管理单元 300 包括备份系统模块301、故障监测模块 302、业务转移 模块 303 和隔离自愈模块 304; 定期任务单元 400包括数据备份模块 401、运维日志模块 402、系统重启 模块 403 和总结统计模块 404。本实施例中,数据仓库模块 101、运维终端模块 102、工具管理模块 103 与用户管理模块104 依次通过网络通信连接;数据仓库模块 101 用于根据业 务需求按照常规流程搭建敏捷数据仓库的架构体系并正常投入使用;运维终 端模块 102 用于在数仓架构基础上增设部分终端设备以承载运维系统的软件 平台来支撑运维工作;工具管理模块 103 用于通过开发工具开发软件自动化 管理平台并载入多种敏捷运维工具来满足数仓运维的需求;用户管理模块 104 用于给用户提供访问系统的通道并根据用户的身份开放相应的操作权限。 其中,运维终端包括但不限于计算机处理器、显示终端、输入输出设备、 说 明 书 10智能传感器组等。 其中,用户的身份及对应操作权限应包括:数仓用户,可以查看运维系统的所有运维工作记录;系统开发人员,可以访问运维系统的前端和后台,可以 对运维工具平台进行开发、修改、维护处理等;运维管理员,可以通过操作运 维工具对数仓进行检查、运维处理,记录每日运维日志并上报等。 进一步地,工具管理模块 103 包括自动部署模块1031、数据扩容模块 1032、 资源调配模块 1033 和配置下发模块 1034;自动部署模块1031、数据扩容模 块 1032、资源调配模块 1033 与配置下发模块 1034 依次通过网络通信连接; 自动部署模块 1031 用于通过软件自动化管理使敏捷运维工具在平台上完成自动化部署,并通过工具实现数仓业务的快速自动部署;数据扩容模块 1032 用 于通过在敏捷运维软件工具上做业务部署来实现数据中心的扩容操作,不需 关注数仓基础架构的实现,也不需增加运维人员,并可以增强运维工具的监控 效果;资源调配模块 1033 用于通过各敏捷软件工具之间的自动互联互通来快 速进行底层的资源调配;配置下发模块 1034用于通过软件自动下发系统的底 层资源调配及网络配置。 具体地,资源调配模块 1033中,资源调配过程中采用作业优先级算法, 其计算公式为: 𝑃𝑗 [𝑖] = 𝑃𝑜 [𝑖] + 𝑁 ∗𝑇𝑤𝑎𝑖𝑡; 其中,𝑃𝑜 [𝑖]为作业提交时指定的优先级,𝑇𝑤𝑎𝑖𝑡为作业在队列中等待的时间,𝑁为常数因子,随着等待时间的增加,作业优先级动态的增加,直到增加 到阈值,即最高优先级。 本实施例中,数据检查模块 201、数库检查模块 202、ETL 处理模块 203 与异常处理模块 204 依次通过网络通信连接且并列运行;数据检查模块 201 用于每日在数据仓库启动批处理程序之前对源头的数据和生产处的数据进行 检查以确保当日批处理程序正常作业;数库检查模块 202 用于每日定时查看 说 明 书 11 数据仓库中包括 STAGE、APP_SPACE、PDM 等各子库的空间情况,每日查看磁 盘、磁带是否余有以便数据备份需求的足够空间,并在空间不足时及时同时管 理员来分配库空间或增加磁盘空间;ETL 处理模块203 用于通过 ETL 批处理工 具对数据仓库运行过程中的对数据进行 ETL 全过程中的各主要项目进行检测 管理;异常处理模块 204 用于由运维人员按照预设程序查找数仓问题、找到 原因并上报,指定处理方案、在获得数仓客户的授权后执行实时,并详细记录 整个处理过程。 进一步地,数据检查模块 201 包括常规数据模块 2011、转定长传输模块2012、源数据传输模块 2013 和下游系统数据模块 2014;常规数据模块 2011、 转定长传输模块 2012、源数据传输模块 2013 与下游系统数据模块 2014 依次 通过网络通信连接且并列运行;常规数据模块 2011 用于对数据仓库中现存的 历史数据进行常规的快速检查;转定长传输模块 2012 用于由运维制备人员通 过预设的程序命令检查每个大任务的初始化操作过程、数据装卸载及上传整 个处理模块等,查找是否存在错误,检查各模块的转定长情况及检查日志中是 否存在中断的转定长现象,最后将异常情况进行上报反馈;源数据传输模块 2013 用于每日定时检查源数据的传输过程、源数据是否全部到达、源数据传 输作业是否完成等,筛查未到达的文件及检查接口文件未达到的原因,并将源 数据未正确到达的情况进行上报反馈;下游系统数据模块 2014 用于每日检查 给下游系统的数据是否完全给出以判断下游脚本是否正常运行,筛查未给出 的数据及数据未给出的原因并进行上报反馈。 进一步地,ETL 处理模块 203 包括报警反馈模块 2031、窗口监控模块2032、 工作状态模块 2033 和数据转换模块 2034;报警反馈模块 2031、窗口监控模 块2032、工作状态模块 2033 与数据转换模块 2034 依次通过网络通信连接且 并列运行;报警反馈模块 2031 用于查看是否获取由客户方管理的硬件维护项 目及巡检报告;窗口监控模块 2032 用于按照预设的工具程序查看 ETL 监控窗 说 明 书 12 口是否存在脚本错误或其它异常的提示;工作状态模块 2033 用于按照预设程 序每隔一端时间查看监控窗口有否错误/异常提示以判断系统工作状态是否 正常,同时每隔一段时间查看监控窗口内是否存在长时间处于未完成状态的 作业;数据转换模块 2034 用于每日定时查看数据日期的转换作业完成情况并 记录完成时间,查看前一时间阶段完成的时间以作对比,并及时上报反馈存在 异常的情况。 本实施例中,备份系统模块 301、故障监测模块 302、业务转移模块 303 与隔离自愈模块 304 依次通过网络通信连接;备份系统模块 301 用于通过原 型化可开发方法,在数据仓库的应用过程中,另外构建一个备份的业务操作系 统;故障监测模块 302 用于通过敏捷软件实时对数据仓库的运行过程进行全 年无中断的监测并可快速发现应用故障;业务转移模块 303 用于在检测到应 用故障时自动执行切换动作,将业务转移到备用系统中以确保业务不受影响; 隔离自愈模块 304 用于通过敏捷软件工具对故障部分进行隔离,同时可以按 照预设的排障程序对故障进行自愈,以便给运维人员进行故障抢修赢得时间。 本实施例中,数据备份模块 401、运维日志模块 402、系统重启模块 403 与总结统计模块 404 依次通过网络通信连接;数据备份模块 401 用于采用永 久或每日循环的方式,通过调度机制调度脚本来触发工作,在每日业务结束后 对源数据、运行脚本、日志、数据库等进行备份并存储到磁带库;运维日志模 块 402 用于由运维管理人员每日记录运维日志来进行每日检查工作,以便随 时查看系统的运行状况;系统重启模块 403 用于按照预设程序,在通知客户 后与客户协作完成服务器的系统重启工作,以使批处理程序能够完全释放内 存,避免因程序长期运行、系统缓存被占用造成系统资源不足导致的程序运行 失败;总结统计模块 404 用于定期对数仓的运行环境、系统的运维情况、数仓 出现过的异常故障情况等进行分类的总结统计,并自动生成对应的报表图形以便上报。 说 明 书 13 如图 10 所示,本实施例还提供了基于敏捷数据仓库的运维方法,包括上 述的基于敏捷数据仓库的运维系统,包括如下步骤: S1、根据业务场景需求,按照常规流程,构建敏捷数据仓库并正常投入使 用; S2、在原数据仓库的架构体系中增设计算机处理器组件,通过开发工具研 发软件自动化管理平台,载入多种敏捷运维工具,并将运维系统与敏捷数据仓 库业务系统连接起来; S3、运维管理人员以合法身份访问系统,根据运维规则,通过预设的程序 及对应的运维工具,每日进行数据仓库的运维检查; S4、运维人员每日对数据仓库的常规数据、转定长传输情况、源数据传输 到达情况及下游系统数据发出完成情况进行检查,并反馈异常情况; S5、运维人员每日对数据仓库的 ETL 批处理过程进行巡检,包括硬件巡 检情况、脚本运行情况、工作状态、数据日期转换作业完成情况等,并反馈异 常情况; S6、运维管理人员获取上报的异常情况,制定异常处理方案并反馈给客户, 经客户批准后可执行方案来进行异常处理操作; S7、敏捷运维工具全年无休地监测系统运行过程,在发现故障情况时可自 动执行切换动作将业务转移到备用系统中,并隔离故障、尝试排障自愈,直到 运维人员完成抢修作业; S8、运维系统定期进行数据备份、记录运维日志,并按照程序定期自动进 行重启操作,以保障系统的稳定运行,系统定期自动对所有运维情况的相关数 据进行总结统计,生成对应的报表图形; S9、数仓客户以合法身份登录系统,可以查看所有运维情况的工作记录, 并可提出运维管理的建议和需求,由系统开发人员对运维系统进行修改调整。 说 明 书 14 如图 1 所示,本实施例提供了基于敏捷数据仓库的运维系统的示例性产 品架构,包括处理器 1 及其配套的显示器 2,处理器 1 外通讯连接有数据仓库 服务器 3,处理器 1 内装载有敏捷软件工具 4,通过敏捷软件工具 4 对数据仓 库服务器 3 进行运维管理,用户 5 可以通过处理器 1 访问运维系统、通过显 示器 2 查看运维情况。 如图 11 所示,本实施例还提供了基于敏捷数据仓库的运维系统的运行装 置,该装置包括处理器、存储器以及存储在存储器中并在处理器上运行的计算 机程序。 处理器包括一个或一个以上处理核心,处理器通过总线与存储器相连,存 储器用于存储程序指令,处理器执行存储器中的程序指令时实现上述的基于 敏捷数据仓库的运维系统及方法。 可选的,存储器可以由任何类型的易失性或非易失性存储设备或者它们 的组合实现,如静态随时存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM), 只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。 此外,本发明还提供一种计算机可读存储介质,计算机可读存储介质存储 有计算机程序,计算机程序被处理器执行时实现上述的基于敏捷数据仓库的 运维系统及方法的步骤。 可选的,本发明还提供了一种包含指令的计算机程序产品,当其在计算机 上运行时,使得计算机执行上述各方面基于敏捷数据仓库的运维系统及方法 的步骤。 本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通 过硬件来完成,也可以通过程序来指令相关的硬件完成,程序可以存储与计算 机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。 以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业 说 明 书 15 的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中 描述的仅为本发明的优选例,并不用来限制本发明,在不脱离本发明精神和范 围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护 的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (10)

1.基于敏捷数据仓库的运维系统,其特征在于:包括 基建管理单元(100)、运维作业单元(200)、异常管理单元(300)和 定期任务单元(400);所述基建管理单元(100)、所述运维作业单元(200)、 所述异常管理单元(300)与所述定期任务单元(400)依次通过网络通信连接; 所述基建管理单元(100)用于对支撑系统运行的基建设备进行集中的连接管 控;所述运维作业单元(200)用于对数仓的日常运维工作进行作业分配和管 理;所述异常管理单元(300)用于对数仓及系统运行过程中的异常情况进行 监测并进行故障处理操作;所述定期任务单元(400)用于通过程序设定定期 的任务对数仓的运维工作进行完善和补充; 所述基建管理单元(100)包括数据仓库模块(101)、运维终端模块(102)、 工具管理模块(103)和用户管理模块(104); 所述运维作业单元(200)包括数据检查模块(201)、数库检查模块(202)、 ETL 处理模块(203)和异常处理模块(204); 所述异常管理单元(300)包括备份系统模块(301)、故障监测模块(302)、 业务转移模块(303)和隔离自愈模块(304); 所述定期任务单元(400)包括数据备份模块(401)、运维日志模块(402)、 系统重启模块(403)和总结统计模块(404)。
2.根据权利要求 1 所述的基于敏捷数据仓库的运维系统,其特征在于: 所述数据仓库模块(101)、所述运维终端模块(102)、所述工具管理模块(103) 与所述用户管理模块(104)依次通过网络通信连接;所述数据仓库模块(101) 用于根据业务需求按照常规流程搭建敏捷数据仓库的架构体系并正常投入使 用;所述运维终端模块(102)用于在数仓架构基础上增设部分终端设备以承 载运维系统的软件平台来支撑运维工作;所述工具管理模块(103)用于通过 开发工具开发软件自动化管理平台并载入多种敏捷运维工具来满足数仓运维 的需求;所述用户管理模块(104)用于给用户提供访问系统的通道并根据用 权 利要 求 书 2 户的身份开放相应的操作权限。
3.根据权利要求 2 所述的基于敏捷数据仓库的运维系统,其特征在于: 所述工具管理模块(103)包括自动部署模块(1031)、数据扩容模块(1032)、 资源调配模块(1033)和配置下发模块(1034);所述自动部署模块(1031)、 所述数据扩容模块(1032)、所述资源调配模块(1033)与所述配置下发模块 (1034)依次通过网络通信连接;所述自动部署模块(1031)用于通过软件自 动化管理使敏捷运维工具在平台上完成自动化部署,并通过工具实现数仓业 务的快速自动部署;所述数据扩容模块(1032)用于通过在敏捷运维软件工具上做业务部署来实现数据中心的扩容操作,不需关注数仓基础架构的实现,也 不需增加运维人员,并可以增强运维工具的监控效果;所述资源调配模块 (1033)用于通过各敏捷软件工具之间的自动互联互通来快速进行底层的资 源调配;所述配置下发模块(1034)用于通过软件自动下发系统的底层资源调 配及网络配置。
4.根据权利要求 3 所述的基于敏捷数据仓库的运维系统,其特征在于: 所述资源调配模块(1033)中,资源调配过程中采用作业优先级算法,其计算 公式为: 𝑃𝑗 [𝑖] = 𝑃𝑜[𝑖] + 𝑁 ∗ 𝑇𝑤𝑎𝑖𝑡; 其中,𝑃𝑜 [𝑖]为作业提交时指定的优先级,𝑇𝑤𝑎𝑖𝑡为作业在队列中等待的时 间,𝑁为常数因子,随着等待时间的增加,作业优先级动态的增加,直到增加到阈值,即最高优先级。
5.根据权利要求 2 所述的基于敏捷数据仓库的运维系统,其特征在于: 所述数据检查模块(201)、所述数库检查模块(202)、所述 ETL 处理模块 (203)与所述异常处理模块(204)依次通过网络通信连接且并列运行;所述 数据检查模块(201)用于每日在数据仓库启动批处理程序之前对源头的数据 和生产处的数据进行检查以确保当日批处理程序正常作业;所述数库检查模 权 利 要 求 书 3 块(202)用于每日定时查看数据仓库中包括STAGE、APP_SPACE、PDM 等各子 库的空间情况,每日查看磁盘、磁带是否余有以便数据备份需求的足够空间, 并在空间不足时及时同时管理员来分配库空间或增加磁盘空间;所述ETL 处 理模块(203)用于通过 ETL 批处理工具对数据仓库运行过程中的对数据进行 ETL全过程中的各主要项目进行检测管理;所述异常处理模块(204)用于由 运维人员按照预设程序查找数仓问题、找到原因并上报,指定处理方案、在获 得数仓客户的授权后执行实时,并详细记录整个处理过程。
6.根据权利要求 5 所述的基于敏捷数据仓库的运维系统,其特征在于: 所述数据检查模块(201)包括常规数据模块(2011)、转定长传输模块(2012)、 源数据传输模块(2013)和下游系统数据模块(2014);所述常规数据模块 (2011)、所述转定长传输模块(2012)、所述源数据传输模块(2013)与所 述下游系统数据模块(2014)依次通过网络通信连接且并列运行;所述常规数 据模块(2011)用于对数据仓库中现存的历史数据进行常规的快速检查;所述 转定长传输模块(2012)用于由运维制备人员通过预设的程序命令检查每个大 任务的初始化操作过程、数据装卸载及上传整个处理模块等,查找是否存在错 误,检查各模块的转定长情况及检查日志中是否存在中断的转定长现象,最后 将异常情况进行上报反馈;所述源数据传输模块(2013)用于每日定时检查源 数据的传输过程、源数据是否全部到达、源数据传输作业是否完成等,筛查未 到达的文件及检查接口文件未达到的原因,并将源数据未正确到达的情况进 行上报反馈;所述下游系统数据模块(2014)用于每日检查给下游系统的数据 是否完全给出以判断下游脚本是否正常运行,筛查未给出的数据及数据未给出的原因并进行上报反馈。
7.根据权利要求 5 所述的基于敏捷数据仓库的运维系统,其特征在于: 所述 ETL 处理模块(203)包括报警反馈模块(2031)、窗口监控模块(2032)、 工作状态模块(2033)和数据转换模块(2034);所述报警反馈模块(2031)、 权 利 要 求 书 4 所述窗口监控模块(2032)、所述工作状态模块(2033)与所述数据转换模块 (2034)依次通过网络通信连接且并列运行;所述报警反馈模块(2031)用于 查看是否获取由客户方管理的硬件维护项目及巡检报告;所述窗口监控模块 (2032)用于按照预设的工具程序查看 ETL 监控窗口是否存在脚本错误或其 它异常的提示;所述工作状态模块(2033)用于按照预设程序每隔一端时间查 看监控窗口有否错误/异常提示以判断系统工作状态是否正常,同时每隔一段 时间查看监控窗口内是否存在长时间处于未完成状态的作业;所述数据转换 模块(2034)用于每日定时查看数据日期的转换作业完成情况并记录完成时间, 查看前一时间阶段完成的时间以作对比,并及时上报反馈存在异常的情况。
8.根据权利要求 5 所述的基于敏捷数据仓库的运维系统,其特征在于: 所述备份系统模块(301)、所述故障监测模块(302)、所述业务转移模块(303) 与所述隔离自愈模块(304)依次通过网络通信连接;所述备份系统模块(301) 用于通过原型化可开发方法,在数据仓库的应用过程中,另外构建一个备份的 业务操作系统;所述故障监测模块(302)用于通过敏捷软件实时对数据仓库 的运行过程进行全年无中断的监测并可快速发现应用故障;所述业务转移模 块(303)用于在检测到应用故障时自动执行切换动作,将业务转移到备用系 统中以确保业务不受影响;所述隔离自愈模块(304)用于通过敏捷软件工具 对故障部分进行隔离,同时可以按照预设的排障程序对故障进行自愈,以便给 运维人员进行故障抢修赢得时间。
9.根据权利要求 8 所述的基于敏捷数据仓库的运维系统,其特征在于: 所述数据备份模块(401)、所述运维日志模块(402)、所述系统重启模块(403) 与所述总结统计模块(404)依次通过网络通信连接;所述数据备份模块(401) 用于采用永久或每日循环的方式,通过调度机制调度脚本来触发工作,在每日 业务结束后对源数据、运行脚本、日志、数据库等进行备份并存储到磁带库; 所述运维日志模块(402)用于由运维管理人员每日记录运维日志来进行每日 权 利 要 求 书 5 检查工作,以便随时查看系统的运行状况;所述系统重启模块(403)用于按 照预设程序,在通知客户后与客户协作完成服务器的系统重启工作,以使批处 理程序能够完全释放内存,避免因程序长期运行、系统缓存被占用造成系统资 源不足导致的程序运行失败;所述总结统计模块(404)用于定期对数仓的运 行环境、系统的运维情况、数仓出现过的异常故障情况等进行分类的总结统计, 并自动生成对应的报表图形以便上报。
10.基于敏捷数据仓库的运维方法,包括权利要求 9 所述的基于敏捷数据 仓库的运维系统,其特征在于:包括如下步骤: S1、根据业务场景需求,按照常规流程,构建敏捷数据仓库并正常投入使 用; S2、在原数据仓库的架构体系中增设计算机处理器组件,通过开发工具研 发软件自动化管理平台,载入多种敏捷运维工具,并将运维系统与敏捷数据仓 库业务系统连接起来; S3、运维管理人员以合法身份访问系统,根据运维规则,通过预设的程序 及对应的运维工具,每日进行数据仓库的运维检查; S4、运维人员每日对数据仓库的常规数据、转定长传输情况、源数据传输 到达情况及下游系统数据发出完成情况进行检查,并反馈异常情况; S5、运维人员每日对数据仓库的 ETL 批处理过程进行巡检,包括硬件巡检情况、脚本运行情况、工作状态、数据日期转换作业完成情况等,并反馈异 常情况; S6、运维管理人员获取上报的异常情况,制定异常处理方案并反馈给客户, 经客户批准后可执行方案来进行异常处理操作; S7、敏捷运维工具全年无休地监测系统运行过程,在发现故障情况时可自 动执行切换动作将业务转移到备用系统中,并隔离故障、尝试排障自愈,直到 运维人员完成抢修作业; 权 利 要 求 书 6 S8、运维系统定期进行数据备份、记录运维日志,并按照程序定期自动进 行重启操作,以保障系统的稳定运行,系统定期自动对所有运维情况的相关数 据进行总结统计,生成对应的报表图形; S9、数仓客户以合法身份登录系统,可以查看所有运维情况的工作记录, 并可提出运维管理的建议和需求,由系统开发人员对运维系统进行修改调整。
CN202111323709.1A 2021-11-10 2021-11-10 基于敏捷数据仓库的运维系统及方法 Pending CN113946633A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111323709.1A CN113946633A (zh) 2021-11-10 2021-11-10 基于敏捷数据仓库的运维系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111323709.1A CN113946633A (zh) 2021-11-10 2021-11-10 基于敏捷数据仓库的运维系统及方法

Publications (1)

Publication Number Publication Date
CN113946633A true CN113946633A (zh) 2022-01-18

Family

ID=79336923

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111323709.1A Pending CN113946633A (zh) 2021-11-10 2021-11-10 基于敏捷数据仓库的运维系统及方法

Country Status (1)

Country Link
CN (1) CN113946633A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115314364A (zh) * 2022-06-21 2022-11-08 华能南通燃机发电有限公司 环保数据传输实时监控报警系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115314364A (zh) * 2022-06-21 2022-11-08 华能南通燃机发电有限公司 环保数据传输实时监控报警系统

Similar Documents

Publication Publication Date Title
CN110794800B (zh) 一种智慧工厂信息管理的监控系统
US11507065B2 (en) Dynamically extensible control system
CN109857558A (zh) 一种数据流处理方法及系统
CN113569987A (zh) 模型训练方法和装置
CN108454879B (zh) 飞机故障处理系统和方法及计算机设备
CN110134053B (zh) 一种配变故障停电快速响应的监控配置方法、装置及设备
CN111468845B (zh) 一种激光切割设备的控制方法、系统和云服务器
CN104615486B (zh) 用于搜索推广平台的多任务调度和执行方法、装置和系统
CN112579267A (zh) 一种去中心化大数据作业流调度方法及装置
CN109298962A (zh) 定时任务的监控方法、计算机可读存储介质和终端设备
CN113946633A (zh) 基于敏捷数据仓库的运维系统及方法
CN115640107A (zh) 运行维护方法、装置、设备及介质
CN107301488B (zh) 生产物资供应链中断管理系统和生产的方法
CN116560893B (zh) 一种计算机应用程序运行数据故障处理系统
US11431571B2 (en) Monitoring time-base policy domain architecture
CN112000451A (zh) 批量作业调度系统、方法、设备及存储介质
CN116149954A (zh) 一种服务器智能运维系统及其方法
CN116976839A (zh) 一种基于网络协同制造的铅蓄电池生产管控方法
CN114579280B (zh) 一种准实时调度方法及系统
CN113419835A (zh) 作业调度方法、装置、设备及介质
CN114745409A (zh) 一种智慧物联网设备远程控制方法
CN113010277A (zh) 一种基于自动化运维的多条件触发自动作业系统和方法
CN114244865A (zh) 机器人云端监控系统、方法、计算机设备、介质、终端
CN113806051B (zh) 计算设备的任务管理方法及装置、存储介质、计算设备
CA2775165A1 (en) Automation controller for next generation testing system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication