CN113656021B - 一种面向业务场景的油气大数据分析系统及方法 - Google Patents
一种面向业务场景的油气大数据分析系统及方法 Download PDFInfo
- Publication number
- CN113656021B CN113656021B CN202110942720.XA CN202110942720A CN113656021B CN 113656021 B CN113656021 B CN 113656021B CN 202110942720 A CN202110942720 A CN 202110942720A CN 113656021 B CN113656021 B CN 113656021B
- Authority
- CN
- China
- Prior art keywords
- analysis
- flow
- big data
- business
- execution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007405 data analysis Methods 0.000 title claims abstract description 121
- 238000000034 method Methods 0.000 title claims abstract description 99
- 238000004458 analytical method Methods 0.000 claims abstract description 167
- 230000008569 process Effects 0.000 claims abstract description 74
- 238000006243 chemical reaction Methods 0.000 claims abstract description 44
- 230000000007 visual effect Effects 0.000 claims abstract description 38
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 33
- 238000013461 design Methods 0.000 claims abstract description 20
- 238000012544 monitoring process Methods 0.000 claims abstract description 20
- 238000012545 processing Methods 0.000 claims description 27
- 238000005457 optimization Methods 0.000 claims description 19
- 238000011161 development Methods 0.000 claims description 14
- 238000013507 mapping Methods 0.000 claims description 14
- 238000007726 management method Methods 0.000 claims description 10
- 238000005516 engineering process Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000005111 flow chemistry technique Methods 0.000 claims description 6
- 238000010230 functional analysis Methods 0.000 claims description 6
- 238000003860 storage Methods 0.000 claims description 6
- 230000002068 genetic effect Effects 0.000 claims description 4
- 238000013500 data storage Methods 0.000 claims description 3
- 238000000354 decomposition reaction Methods 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 3
- 238000004806 packaging method and process Methods 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 238000013433 optimization analysis Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 11
- 239000008186 active pharmaceutical agent Substances 0.000 description 9
- 238000012360 testing method Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 238000010276 construction Methods 0.000 description 4
- 230000010354 integration Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000012800 visualization Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 241000288113 Gallirallus australis Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000005206 flow analysis Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/30—Creation or generation of source code
- G06F8/34—Graphical or visual programming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/30—Creation or generation of source code
- G06F8/36—Software reuse
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/02—Agriculture; Fishing; Forestry; Mining
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Tourism & Hospitality (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Mining & Mineral Resources (AREA)
- Marine Sciences & Fisheries (AREA)
- Animal Husbandry (AREA)
- Agronomy & Crop Science (AREA)
- Economics (AREA)
- Data Mining & Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种面向业务场景的油气大数据分析系统及方法,涉及大数据分析技术领域,系统包括:分析模块管理引擎,集成多种数据分析算法为油气大数据分析提供可复用的组件;业务流程可视化编辑引擎,提供可视化的业务分析流程设计工具;分析流程转换引擎,依据转换算法将业务流程转换成可执行流程实例;流程执行优化引擎,根据分析流程数据规模和平台运行状态优化运行参数;分布式流程执行调度引擎,控制和监测分析流程的执行;大数据库,收集和存储油气大数据。本发明能够自动将油气大数据业务转化成数据分析可执行流程实例,实现面向领域专业人员自管理、自配置和自优化分析方式,降低油气大数据分析的复杂性,敏捷高效的实现油气大数据分析。
Description
技术领域
本发明涉及大数据分析技术领域,尤其涉及一种面向业务场景的油气大数据分析系统及方法。
背景技术
随着油气勘探和开发,此过程中积累了大量的数据。数据的获取、整理、综合分析是油田技术的一项重要工作,大数据分析流程的创建者逐渐从开发人员转向为产业领域人员,虽然领域人员掌握领域知识和原理模型,但面对仅提供计算框架与分析类库大数据分析软件,由于其存在专业性较高、交互性支持不够的问题,促使开发实现过程需要付出很多的时间逐步重复手动完成数据处理,并不能自主达成从问题分析到数据处理等各个环节的算法以及程序实现,致使工作效率很难提高。并且油气大数据分析除数据体量大带来的分析效率要求提高外,更重要的是对领域知识、复杂原理模型和应用场景的依赖性,现阶段的油气数据的分析工作缺乏科学原理模型和领域方法的指导。
传统数据分析是围绕关系数据库管理系统,衍生出了相关数据分析工具。以关系数据库作为核心数据引擎,提供了计算框架与算法库,例如,SPSS Modeler、MatlabSpider、SQL ServerAnalysis Services、weka和R等都提供了此类工具,它们对分析具有通用性却脱离工程实际,并且面对海量、非结构化或半结构化数据,关系数据库无法提供高效的存储管理,且分析算法与特定的应用平台过于耦合,无法满足日益复杂的大数据分析需求。以Hadoop为代表的的分布式处理平台以及计算框架得在成本可控的情况下海量数据分析成为可能,解决了大数据有效存储与高效处理的问题,但仅提供计算框架与分析类库,使用门槛高、集成困难且交互性支持不够,面对独立分析任务编写程序更是很大程度阻碍了分布式计算平台的普适与易用,提升了使用门槛与成本,并且带来了更多的重复工作。因此,构建一套面向产业领域人员和算法开发人员交互式构建大数据分析流程并高效执行的方法显得非常必要,降低大数据分析技术在油气勘探和开发过程中应用普及的门槛。
发明内容
本发明提供一种面向业务场景的油气大数据分析系统及方法,旨在解决现有技术中,传统依靠编码分析方式油气大数据分析复用性、易用性差,以及分析工具受专业技术制约数据分析流程构建过程复杂,业务分析需求提者无法敏捷高效的实现油气大数据分析的问题。
为达到以上目的,本发明采取的技术方案是:
一种面向业务场景的油气大数据分析系统,包括:
分析模块管理引擎,所述分析模块管理引擎在油气勘探和开发过程中将典型业务场景对应的数据处理算法、模型开发或封装成的可复用的组件;
业务流程可视化编辑引擎,所述业务流程可视化编辑引擎提供可视化的油气大数据分析业务流程设计工具,所述业务流程可视化编辑引擎定义一套可视化流程描述的语法、语义以及图形关系;
分析流程转换引擎,所述分析流程转换引擎接收用户通过业务流程可视化编辑引擎设计完成的业务流程,解析流程使用的分析模块,并依据模型转换算法将面向领域的业务流程转换成面向平台的大数据分析可执行流程;
流程执行优化引擎,所述流程执行优化引擎接收所述分析流程转换引擎提交的待执行分析流程实例,根据待执行分析流程应用的数据规模和平台运行状态获得最优运行配置参数;
分布式流程执行调度引擎,所述分布式流程执行调度引擎控制已发布分析流程应用的执行;
大数据库,所述大数据库包括数据资源库和分析模块库,所述数据资源库收集和存储油气大数据,所述分析模块库管理分析模块执行实体,数据被收集或分析模块被提交后发送到分布式文件系统中数据节点进行存储。
优选地,所述分布式流程执行调度引擎包括执行模块、监测模块和结果展示模块,所述执行模块为分析模块计算提供计算资源,所述监测模块进行定时和定期的分析任务运行状态监控,并监测数据服务器平台的整体运行情况。
本发明还提供了一种面向业务场景的油气大数据分析方法,所述分析方法应用于上述面向业务场景的油气大数据分析系统,所述方法包括:
所述大数据库管理待分析处理业务的数据源;
所述分析模块管理引擎为所述业务流程编辑引擎提供可选的功能性分析模块列项,可选的分析模块被业务分析提出者根据需求选取或补充设计,得到解决领域业务场景的一组分析模块;
所述业务流程可视化编辑引擎提供可视化的油气大数据分析业务流程设计环境,业务分析提出者根据特定场景需求的业务交互与组合关系,排列和组合各种功能性分析模块,在中完成业务流程设计;
所述业务流程可视化编辑引擎,在业务分析提出者创建业务流程完成后,验证业务流程的合法性,验证通过,则并将业务流程描述发送至所述业务流程转换引擎;
所述分析流程转换引擎在分析流程发布后,自动通过基于分析模块及模型驱动的模型转换算法实现流程模型之间的转换,将面向领域的大数据分析业务流程转换为面向平台的大数据分析可执行流程实例;
所述流程执行优化引擎根据大数据分析可执行流程实例的数据规模获得的执行平台最优配置参数,并与流程模型描述文件、分析模块对应任务的可执行代码和参数配置一起打成部署包,将部署包自动推送到分析流程执行引擎执行。
所述分析流程执行引擎接收具体数据处理流程实例实现部署执行,实现定时和定期分析任务运行状态、耗时等指标的监控,并在流程计算完成后返回分析结果。
优选地,建立分析流程转换引擎定义,提供领域业务驱动的大数据分析流程处理框架包括:
定义面向领域业务和面向平台的大数据流程元模型;
采用基于模型驱动的模型转换技术,建立面向领域业务和面向平台的大数据流程模型映射规则;
根据所述映射规则,建立从面向领域业务到面向平台的大数据流程转换算法;
转换算法采用自上而下目标分解流程中各节点对应的分析模块的生成可执行流程实例。
优选地,建立流程执行引擎定义,提供分析流程执行引擎最优运行配置参数包括:
建立分布式执行平台应用执行时间的性能模型;
基于性能模型,采用遗传算法进行分布式执行平台配置参数寻优,实现从高维配置参数空间自动搜索最佳配置参数。
本发明的有益效果在于:
本发明通过设置一种面向业务场景的油气大数据分析系统,提供大数据的可视化处理和可视化展示,解决应用领域复杂性高、分析任务的复用性差和数据分析的易用性差的问题,专业人员可以不用编程就可以对数据进行可视化建模,编制好的模型可以在本机系统中运行,也可以放在借助于大数据、云计算技术构建的执行引擎中运行,形成一种面向产业领域人员和算法开发人员交互式构建大数据分析流程并高效执行的方法,能更好的为海量数据处理提供技术解决,可以更好的为业务处理人员提供帮助,更好的聚焦于数据实际业务,快速得到模型结果,更好的为业务决策提供数据支撑。
附图说明
为了更清楚的说明本发明的实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中面向领域业务建模的大数据分析流程设计系统框架图。
图2为本发明实施例中大数据分析流程运行模式的示意图。
图3为本发明实施例中大数据分析流程模型转换原理的示意图。
图4为本发明实施例中参数优化模块训练及使用流程的示意图。
图5为本发明实施例中大数据分析流程执行过程的示意图。
图6为本发明实施例中面向业务场景的油气大数据分析流程设计界面的示意图。
图7为本发明实施例中试井解释业务场景的示意图。
图8为本发明实施例中分析模块列表的示意图。
图9为本发明实施例中流程执行状态监控的示意图。
图10为本发明实施例中流程子任务执行状态监控的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。同时,应当清楚,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。对于相关领域普通技术人员己知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本发明旨在于设计并提出一种领域业务驱动的大数据分析流程处理方法,以及面向业务场景的油气大数据分析系统,旨在解决现有技术中,对油气田大数据分析复用性和易用性差,脱离工程实际的问题。将大数据分析流程划分为面向领域和面向平台的双层模型,其中面向领域定义逻辑模型即业务分析流程,面向平台的定义的物理模型即可执行的数据分析实例。使用者分析特定场景需求的业务交互与组合关系,排列和组合各种功能性分析模块完成业务流程设计,即可实现特定功能需求的大数据分析,系统依据模型映射关系业务流程可自动转换为结合特定平台与算法的数据分析实例,并结合分布式计算框架优化执行。
提出一种提出领域业务驱动的大数据分析流程处理框架,其整体过程以面向用户的角度划分为三个阶段,分别为大数据分析流程的构建阶段、映射阶段和运行阶段。
1.在大数据分析流程的构建阶段,通过分析流程编辑器中提供的分析模块,用户根据领域业务定义特定的面向领域的大数据分析流程,定义完整分析过程中的子任务为分析模块,大数据分析流程就是大数据分析过程的流程化描述,分析模块是大数据分析流程建模过程中典型流程或算法的抽象描述。
2.在大数据分析流程的映射阶段,面向领域的业务分析流程转换为面向平台的的数据分析流程,即根据分析模块和算法、分析模型以及分析流程的一致性对应关系,将大数据分析流程从业务描述过程转换为数据处理过程。
3.在大数据分析流程的运行阶段,根据流程中各节点对应的分析模块实体以及输入输出模式信息和参数信息,将面向领域的大数据分析业务流程实例化为符合执行平台规范的流程实例,结合执行层的计算资源、存储资源和算法资源进行执行,并通过运行性能指标以数据驱动的方式对执行情况进行自优化。
提供一种面向业务场景的油气大数据分析系统,包括:业务流程可视化编辑引擎、分析模块管理引擎、分析流程转换引擎、流程执行优化引擎、分布式流程执行调度引擎和大数据库。
分析模块管理引擎,指将在油气勘探和开发过程中典型业务场景对应的数据处理算法、模型开发或封装成的可复用的组件,作为大数据分析流程建模的最小单元,业务场景可涵盖试井、测井以及地震数据解释。即实现将各业务场景中典型数据处理算法、模型开发或封装成的可复用的组件。
业务流程可视化编辑引擎,指提供可视化的油气大数据分析业务流程设计工具,定义了一套可视化流程描述的语法、语义以及图形关系,方便用户基于分析模块可视化的创建和编辑面向领域的大数据分析业务流程,并实现对流程中各个节点参数的可视化设置。设计者通过浏览器访问设计器,通过拖拽分析模块服务列项,设计生成业务流程描述,发送给分析流程转换引擎进行后续处理。
分析流程转换引擎接收用户通过设计分析流程设计器完成的面向领域的数据分析业务流程,并借助分析模块和模型转换算法将其转换成面向平台的大数据分析可执行流程,指提供面向领域的业务流程到面向平台的流程实例转换。
流程执行优化引擎接收提交的待执行分析流程实例,根据待执行分析流程应用的数据规模和平台运行状态获得最优运行配置参数。
分布式流程执行调度引擎控制已发布分析流程应用的执行,分为执行模块和监测模块。其中执行模块为分析模块计算提供计算资源;监测模块提供业务流监控,快速反映数据服务器平台的整体运行情况。
大数据库分为数据资源库和分析模块库,数据资源库用于收集和存储油气大数据,分析模块库用于管理分析模块执行实体,数据被收集或分析模块被提交后发送到分布式文件系统(Hadoop的HDFS文件系统)中数据节点进行存储。
实现面向领域业务的大数据分析流程模型的构建,包括以下各步骤:
(1)建立业务流程可视化编辑引擎,提供业务流可视化建模,通过分析模块抽象定义具有高级功能的数据处理节点,方便用户针对具体业务选择一组处理节点,可视化的创建和编辑这组节点并通过数据流进行连接,最终形成完成业务的业务流程。通过该种方式,业务流程可快速搭建、快速部署、重复利用、方便分享。
(2)建立分析流程转换引擎定义,提供领域业务驱动的大数据分析流程处理框架,具体实现为:
(2.1)定义面向领域业务和面向平台的大数据流程元模型。
(2.2)采用基于模型驱动的模型转换技术,建立面向领域业务和面向平台的大数据流程模型映射规则,即分析模型组合和工作流元素和结构之间直接或间接的映射关系。
(2.3)根据映射规则,建立从面向领域业务到面向平台的大数据流程转换算法。
(2.4)采用自上而下目标分解流程中各节点对应的分析模块的生成可执行流程实例,并创建大数据分析流程工作目录,并发布大数据分析服务。
(3)建立分析流程优化调度引擎,依据可执行流程实例的数据规模和分布式流程执行引擎的运行状态获得最优运行配置参数,实现大数据分析流程优化并部署运行
(4)当用户发送执行命令,执行被选中的已发布流程服务。
实施例
根据提出的面向领域业务的大数据分析流程建模方法,设计大数据分析流程设计系统整体架构分为一个基础设施层和三个子功能系统,如图1所示,各组成部分详细描述如下:
1.基础设施层:为大数据分析应用的数据存储管理和执行提供支持,基础设施层具体包括多源数据库、多源数据分析工具等,大数据分析应用可接入上述多源数据,集成上述多源数据分析工具,数据分析工具集提供众多的数据处理的API,可以有效辅助分析模块完成大数据处理,从而使油田研究人员可以将研究过程集成展示到统一平台、研究成果快速统一发布呈现。
2.业务流可视化编辑:依据业务流程可视化编辑引擎,提供自助式分析模块可视化组合功能,该部分主要完成分析模块的显示和设置,并支持基于可重用分析模块的大数据分析流程的显示和编辑,油田研究人员通过可视化的分析模块的设置、组合和编辑,不需要编写代码即可有形化表达业务分析流程,可灵活应对业务需求的变化。用户通过业务流可视化编辑,将自己的针对具体需求场景的大数据分析过程组合成为业务流程,提交给流程执行引擎后台执行应用。
分析模块基于对Hive SQL、Spark API和R等工具提供的复杂分析计算进行封装,实现一系列大数据分析的二次开发,分析模块按功能分类包含数据清洗、数据集成、数据转换、数据规约、特征提取、统计分析、关联规则、分类与回归、聚类、模型应用与评估等多项大数据分析服务,按照创建方案可分为通用和专用两种,通用分析模块为现有分析工具算法的集成,专用分析模块为现有分析工具算法二次开发或用户自定义编写实现。并抽象定义为具有高级功能的数据处理节点,其集成在独立的图形化对象中,对外仅提供拖拽、连接、设置参数等功能调用。
3.勘探开发数据分析云平台:是整体架构的关键部分,实现系统核心功能,主要包括分析流程转换引擎和分布式流程执行调度引擎。
分析流程转换引擎:实现业务流程转换,面向领域业务的大数据分析流程运行模式如图2所示,领域业务驱动的大数据分析流程处理框架打破原有的开发模式,大数据分析流程由面向领域的大数据分析流程模型来表述,即可视化业务流程编辑生成业务流程描述,转换为面向平台的大数据分析流程模型实例后,该执行模型的实例才会放到执行引擎上去真正执行。
业务流程转换使用模型转换算法,即给定一个用户建立的面向领域的业务分析流程模型FMDS和一个面向平台的数据分析流程模型FMPS,FMDS和FMPS之间的映射map是由五元组作为元素构成的一个集合{m}。m表示一个基本的映射单元,表示为<MMDS,MMPS,FMDS,FMPS,RuleSet>,其中,MMDS代表面向领域的业务分析流程元模型;MMPS代表面向平台的数据分析流程元模型,元模型定义了建模者使用的大数据分析流程模型元素,以及为这些元素在语法和语义上进行一致的和通用的定义说明。因此,采用基于模型驱动的模型转换技术,根据元模型建立映射规则,即根据分析模块和分析模型实体的一致性对应关系建立映射规则集。RuleSet就是由依据MMDS和MMPS映射规则构成的集合,TE是分析流程转换引擎,满足map(FMDS)=FMPS,使用RuleSet中的相关规则,将大数据分析流程从业务描述转换为适用于执行引擎的数据处理流程实例,转换过程如图3所示。
分布式流程执行调度引擎:提供集群式的后台服务,通过的主从结构对分析流程转换引擎发布提交的流程进行分发调度与结果推送,用户可在呈现系统发起成果请求,整体构成勘探开发数据分析工作的云服务模式。
4.流程优化与执行监控:依据流程执行优化引擎,分析待执行流程数据规模和平台运行状态获得最优运行配置参数,并监测分布式流程执行调度引擎中大数据分析服务执行结果。以及提供系统监控、业务流监控、用户监控等功能,可快速反映数据服务器平台的整体运行情况。
流程执行优化流程执行优化针对执行平台的参数进行优化,大数据分析流程中涉及两部分参数配置,一部分为分析模块相关参数设置,一部分为执行平台的参数配置。分析模块相关参数通过用户在分析流程设计过程中进行自主设定,执行平台的配置参数则通过流程执行优化引擎的参数优化模块自动选定最优的配置参数,参数优化模块的训练和使用过程如图4所示。以一种基于随机森林和遗传算法的平台配置参数优化方法。首先,建立了预测Hadoop平台应用执行时间的性能模型。其次,采用遗传算法设计了基于Hadoop配置参数调整的流程执行效率优化方法,实现从高维配置参数空间自动搜索最佳配置参数。
一种面向领域业务的大数据分析流程建模的方法,主要包括如下步骤,创建大数据分析业务流程、大数据分析业务流程提交发布、大数据分析业务流程转换计算、大数据分析结果展示,整体流程如图5所示,具体描述如下:
(1)配置数据源,大数据分析前需准备待分析处理业务的数据源;
(2)选取\设计分析模块,分析模块管理引擎为业务流程编辑引擎提供可选的功能性分析模块菜单,可选的分析模块被业务分析提出者根据需求选取或补充设计,得到解决领域业务场景的一组分析模块;
(3)分析流程创建,针对具体业务根据业务流程可视化编辑引擎引擎的分析模块菜单自助选取分析模块,并可视化的创建和编辑业务分析流程,并形成还能完整的分析流程文件。流程文件是指业务分析流程设计完成后主动生成的文件载体,以XML形式存储,包含流程中所有的分析模块、参数配置、连接状态等信息,以此可以完成分析的重组和复现;
(4)分析流程发布,创建业务流程完成后,验证业务流程的合法性,判断所提交流程是否拥有完整的输入、输出、配置参数以及计算逻辑,若验证通过,则将流程提交到勘探开发数据分析云平台进行发布。
(5)业务流程转换,流程发布后,自动通过基于分析模块及模型驱动的模型转换算法实现流程模型之间的转换,将面向领域的大数据分析业务流程转换为面向平台的大数据分析可执行流程实例;
(6)分析流程优化,流程执行优化引擎根据大数据分析可执行流程实例的数据规模获得的执行平台最优配置参数,并与流程模型描述文件、分析模块对应任务的可执行代码和参数配置一起打成部署包,将部署包自动推送到分析流程执行引擎执行;
(7)分析流程提交执行,分析流程执行引擎接收具体数据处理流程实例实现部署执行;
(8)执行状态监控,分析流程可分为全部执行和部分执行两种方式,其中,全部执行是整个数据分析流程实例的每个分析模块均将被计算,最终将获取整个分析流程的输出;部分执行是指定位置之前分析模块进行计算。分析流程执行过程中,分析流程执行引擎对调度中的任务进行监控,实现定时和定期运行状态、耗时等指标的监控;
(9)分析结果展示,流程执行完成后,可根据流程挖掘结果数据结构,个性化设计数据输出数据表或图形式。例如,流程输出决策树模型,可通过创建树图展现,获取模型的图形化显示。
大数据分析流程设计系统主界面,如图6所示,以业务流可视化编辑器为中心,左侧为分析模块组成的服务列项,分为通用和专用两种,其中通用分析模块包括数据源模块,数据统计模块,数据处理模块,关联分析模块,可视化模块,专用分析模块已添加油气生产中的试井解释领域分析模块,右侧为大数据分析业务流程列表,记录已创建的大数据分析业务流程模型的元数据信息,根据这些信息可以恢复该分析流程创建的过程,重新调整参数可以更新模型。
可选地,在本实施例中,针对试井解释业务场景,在试井解释大数据的支持下进行基于大数据的试井解释参数分析,本质是对试井大数据隐含模式的探索并对未来情况的建模,参见图7,基于大数据的试井解释参数分析共分为油藏模型分类和试井解释参数预测两个阶段;参见图8,已为试井解释领域添加了双对数曲线特征计算,油藏分类,解释参数预测特征提取,表皮系数和流动系数预测模块。
参见图9、图10,分布式流程执行调度引擎将已提交的待执行流程提交到Hadoop集群上执行,执行流程提交成功,可以通过监控界面查看应用的执行状态。
本发明实施例提供面向领域业务的大数据分析流程设计系统,提供大数据的可视化处理和可视化展示,解决应用领域复杂性高、分析任务的复用性差和数据分析的易用性差的问题,并且可以对数据进行各种分析和关联,达到解决客户现实问题的能力。能更好的为海量数据处理提供技术解决,可以更好的为业务处理人员提供帮助,更好的聚焦于数据实际业务,快速得到模型结果,更好的为业务决策提供数据支撑。
本发明解决现有技术中由于软件开发需要专门的技术人员学习大量相关知识而导致浪费学习时间和成本、对于需要反复且结合油气生产过程中原理模型执行的任务进行封装复用,避免技术人员的大量机械性地重复劳动。同时为业务人员和数据分析师提供交互式构建分析流程的平台,能够自动将大数据业务转化成分析模块的可视化工作流设置,并自动优化运行配置,简化大数据开发人员的开发工作,提高油田科研人员工作效率、加快油田研究成果分享,降低大数据分析技术在油气勘探和开发过程中应用普及的门槛。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (5)
1.一种面向业务场景的油气大数据分析系统,其特征在于,包括:
分析模块管理引擎,所述分析模块管理引擎在油气勘探和开发过程中将典型业务场景对应的数据处理算法、模型开发或封装成的可复用的组件;
业务流程可视化编辑引擎,所述业务流程可视化编辑引擎提供可视化的油气大数据分析业务流程设计工具,所述业务流程可视化编辑引擎定义一套可视化流程描述的语法、语义以及图形关系;
分析流程转换引擎,所述分析流程转换引擎接收用户通过所述业务流程可视化编辑引擎设计完成的业务流程,解析流程使用的分析模块,并依据模型转换算法将面向领域的业务流程转换成面向平台的大数据分析可执行流程;
流程执行优化引擎,所述流程执行优化引擎接收所述分析流程转换引擎提交的待执行分析流程实例,根据待执行分析流程应用的数据规模和平台运行状态获得最优运行配置参数;
分布式流程执行调度引擎,所述分布式流程执行调度引擎控制已发布分析流程应用的执行;
大数据库,所述大数据库包括数据资源库和分析模块库,所述数据资源库收集和存储油气大数据,所述分析模块库管理分析模块执行实体,数据被收集或分析模块被提交后发送到分布式文件系统中数据节点进行存储。
2.根据权利要求1所述的面向业务场景的油气大数据分析系统,其特征在于:所述分布式流程执行调度引擎包括执行模块、监测模块和结果展示模块,所述执行模块为分析模块计算提供计算资源,所述监测模块进行定时和定期的分析任务运行状态监控,并监测数据服务器平台的整体运行情况。
3.一种面向业务场景的油气大数据分析方法,其特征在于,所述分析方法应用于如权利要求1~2任一项所述的面向业务场景的油气大数据分析系统,所述方法包括:
所述大数据库管理待分析处理业务的数据源;
所述分析模块管理引擎为所述业务流程编辑引擎提供可选的功能性分析模块列项,可选的分析模块被业务分析提出者根据需求选取或补充设计,得到解决领域业务场景的一组分析模块;
所述业务流程可视化编辑引擎提供可视化的油气大数据分析业务流程设计环境,业务分析提出者根据特定场景需求的业务交互与组合关系,排列和组合各种功能性分析模块,在中完成业务流程设计;
所述业务流程可视化编辑引擎,在业务分析提出者创建业务流程完成后,验证业务流程的合法性,验证通过,则并将业务流程描述发送至所述业务流程转换引擎;
所述分析流程转换引擎在分析流程发布后,自动通过基于分析模块及模型驱动的模型转换算法实现流程模型之间的转换,将面向领域的大数据分析业务流程转换为面向平台的大数据分析可执行流程实例;
所述流程执行优化引擎根据大数据分析可执行流程实例的数据规模获得的执行平台最优配置参数,并与流程模型描述文件、分析模块对应任务的可执行代码和参数配置一起打成部署包,将部署包自动推送到分析流程执行引擎执行;
所述分析流程执行引擎接收具体数据处理流程实例实现部署执行,实现定时和定期分析任务运行状态、耗时等指标的监控,并在流程计算完成后返回分析结果。
4.根据权利要求3所述的面向业务场景的油气大数据分析方法,其特征在于,建立分析流程转换引擎定义,提供领域业务驱动的大数据分析流程处理框架包括如下步骤:
定义面向领域业务和面向平台的大数据流程元模型;
采用基于模型驱动的模型转换技术,建立面向领域业务和面向平台的大数据流程模型映射规则;
根据所述映射规则,建立从面向领域业务到面向平台的大数据流程转换算法;
转换算法采用自上而下目标分解流程中各节点对应的分析模块的生成可执行流程实例。
5.根据权利要求3所述的面向业务场景的油气大数据分析方法,其特征在于,建立流程执行引擎定义,提供分析流程执行引擎最优运行配置参数包括:
建立分布式执行平台应用执行时间的性能模型;
基于性能模型,采用遗传算法进行分布式执行平台配置参数寻优,实现从高维配置参数空间自动搜索最佳配置参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110942720.XA CN113656021B (zh) | 2021-08-17 | 2021-08-17 | 一种面向业务场景的油气大数据分析系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110942720.XA CN113656021B (zh) | 2021-08-17 | 2021-08-17 | 一种面向业务场景的油气大数据分析系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113656021A CN113656021A (zh) | 2021-11-16 |
CN113656021B true CN113656021B (zh) | 2023-08-25 |
Family
ID=78480009
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110942720.XA Active CN113656021B (zh) | 2021-08-17 | 2021-08-17 | 一种面向业务场景的油气大数据分析系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113656021B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4198713A1 (en) * | 2021-12-20 | 2023-06-21 | 3Soft Spolka Akcyjna | A method for handling and processing executable data flows based on design of a process |
CN114138257A (zh) * | 2022-02-08 | 2022-03-04 | 中国电子科技集团公司第十五研究所 | 一种应用构建方法及计算机可读存储介质 |
CN115203887B (zh) * | 2022-05-26 | 2023-04-07 | 中色蓝图科技股份有限公司 | 一种基于业务流引擎的资源环境承载能力时态模型 |
CN115426239A (zh) * | 2022-06-09 | 2022-12-02 | 北京邮电大学 | 一种业务支撑信息处理模式和低代码开发系统 |
CN115373657B (zh) * | 2022-06-30 | 2023-06-13 | 北京三维天地科技股份有限公司 | 一种基于模型驱动的自动构建应用的方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101339501A (zh) * | 2008-08-12 | 2009-01-07 | 北京航空航天大学 | 基于有向图的ws-bpel控制环路检测方法 |
WO2020065374A1 (en) * | 2018-09-25 | 2020-04-02 | Abu Dhabi National Oil Company | Integrated reservoir management system |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9729615B2 (en) * | 2013-11-18 | 2017-08-08 | Nuwafin Holdings Ltd | System and method for collaborative designing, development, deployment, execution, monitoring and maintenance of enterprise applications |
US20150235154A1 (en) * | 2014-02-19 | 2015-08-20 | Clemens UTSCHIG | Computerized method and system and method to provide business process & case modeling and execution of business processes and activities |
AU2018241092B2 (en) * | 2017-10-04 | 2019-11-21 | Accenture Global Solutions Limited | Knowledge enabled data management system |
-
2021
- 2021-08-17 CN CN202110942720.XA patent/CN113656021B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101339501A (zh) * | 2008-08-12 | 2009-01-07 | 北京航空航天大学 | 基于有向图的ws-bpel控制环路检测方法 |
WO2020065374A1 (en) * | 2018-09-25 | 2020-04-02 | Abu Dhabi National Oil Company | Integrated reservoir management system |
Non-Patent Citations (1)
Title |
---|
基于微服务的石油大数据挖掘平台;郭D;张卫山;徐亮;翟佳;;计算机与现代化(第05期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113656021A (zh) | 2021-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113656021B (zh) | 一种面向业务场景的油气大数据分析系统及方法 | |
CN107918600B (zh) | 报表开发系统及方法、存储介质和电子设备 | |
Saldivar et al. | Industry 4.0 with cyber-physical integration: A design and manufacture perspective | |
US9639575B2 (en) | Method and system for processing data queries | |
Ali et al. | From conceptual design to performance optimization of ETL workflows: current state of research and open problems | |
CN102508706B (zh) | 一种多源数据集成平台及其构建方法 | |
CN1713196B (zh) | 基于自动化设计网格的产品定制系统 | |
CN112860238A (zh) | 一种数据处理方法、装置、计算机设备及存储介质 | |
CN112100800B (zh) | 面向地缘环境的时空信息智能分析体系架构设计方法 | |
CN113741883B (zh) | 一种rpa轻量级数据中台系统 | |
KR101552216B1 (ko) | 빅 데이터 해석기반의 연구 능률 관리 및 운영 통합 시스템, 그리고 그 방법 | |
CN110838055A (zh) | 一种基于大数据的电力企业财务数据管理系统 | |
Büscher et al. | Semantic information modelling for factory planning projects | |
Smirnov et al. | Domain ontologies integration for virtual modelling and simulation environments | |
CN115577646A (zh) | 基于多源异构数据的数据建模方法、装置、设备和介质 | |
CN114780798A (zh) | 基于bim的知识图谱系统 | |
CN113010296B (zh) | 基于形式化模型的任务解析与资源分配方法及系统 | |
CN112632082B (zh) | 一种创建Flink作业的方法及装置 | |
Hajji et al. | Optimizations of Distributed Computing Processes on Apache Spark Platform. | |
RU2411574C2 (ru) | Интеллектуальная грид-система для высокопроизводительной обработки данных | |
KR102584032B1 (ko) | 워크 플로우 기반의 시맨틱 cad 데이터 변환 방법 및 이를 위한 장치 | |
Gueddoudj et al. | Towards a scalable and efficient etl | |
CN114707667A (zh) | 一种数据驱动的自动模型训练及应用系统 | |
CN109522356B (zh) | 一种核反应堆数字实验系统 | |
Janssen et al. | Custom Digital workflows with user-defined data transformations via property graphs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |