CN115630564A - 一种能源大数据平台的数据预测方法、平台及应用 - Google Patents
一种能源大数据平台的数据预测方法、平台及应用 Download PDFInfo
- Publication number
- CN115630564A CN115630564A CN202211179762.3A CN202211179762A CN115630564A CN 115630564 A CN115630564 A CN 115630564A CN 202211179762 A CN202211179762 A CN 202211179762A CN 115630564 A CN115630564 A CN 115630564A
- Authority
- CN
- China
- Prior art keywords
- data
- model
- algorithm
- neural network
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000005266 casting Methods 0.000 claims abstract description 99
- 229910052500 inorganic mineral Inorganic materials 0.000 claims abstract description 91
- 239000011707 mineral Substances 0.000 claims abstract description 91
- 238000012549 training Methods 0.000 claims abstract description 81
- 238000011156 evaluation Methods 0.000 claims abstract description 56
- 230000006870 function Effects 0.000 claims abstract description 45
- 238000010801 machine learning Methods 0.000 claims abstract description 45
- 230000000694 effects Effects 0.000 claims abstract description 17
- 238000013210 evaluation model Methods 0.000 claims abstract description 17
- 238000013145 classification model Methods 0.000 claims abstract description 16
- 238000004519 manufacturing process Methods 0.000 claims abstract description 13
- 238000011068 loading method Methods 0.000 claims abstract description 12
- 238000004422 calculation algorithm Methods 0.000 claims description 135
- 238000013528 artificial neural network Methods 0.000 claims description 59
- 239000011435 rock Substances 0.000 claims description 31
- 238000004458 analytical method Methods 0.000 claims description 30
- 210000002569 neuron Anatomy 0.000 claims description 30
- 238000007726 management method Methods 0.000 claims description 29
- 238000004364 calculation method Methods 0.000 claims description 28
- 238000007781 pre-processing Methods 0.000 claims description 26
- 230000011218 segmentation Effects 0.000 claims description 25
- 238000002372 labelling Methods 0.000 claims description 18
- 238000005516 engineering process Methods 0.000 claims description 16
- 238000005457 optimization Methods 0.000 claims description 14
- 238000003062 neural network model Methods 0.000 claims description 12
- 238000007405 data analysis Methods 0.000 claims description 11
- 238000009826 distribution Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 9
- 230000004927 fusion Effects 0.000 claims description 8
- 230000007246 mechanism Effects 0.000 claims description 7
- 230000000704 physical effect Effects 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 6
- 230000035699 permeability Effects 0.000 claims description 6
- 238000003708 edge detection Methods 0.000 claims description 5
- 230000010354 integration Effects 0.000 claims description 5
- 238000007637 random forest analysis Methods 0.000 claims description 5
- 238000013499 data model Methods 0.000 claims description 4
- 230000002787 reinforcement Effects 0.000 claims description 4
- 230000000007 visual effect Effects 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 210000004027 cell Anatomy 0.000 claims description 3
- 238000012512 characterization method Methods 0.000 claims description 3
- 238000000556 factor analysis Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 2
- 238000013461 design Methods 0.000 abstract description 5
- 238000013523 data management Methods 0.000 abstract description 4
- 238000012545 processing Methods 0.000 description 21
- 238000011160 research Methods 0.000 description 17
- 238000011161 development Methods 0.000 description 15
- 230000018109 developmental process Effects 0.000 description 15
- 238000012417 linear regression Methods 0.000 description 14
- 238000010276 construction Methods 0.000 description 11
- 230000010287 polarization Effects 0.000 description 11
- 238000003709 image segmentation Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 10
- 238000013473 artificial intelligence Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 6
- 238000007635 classification algorithm Methods 0.000 description 5
- 238000010606 normalization Methods 0.000 description 5
- VYPSYNLAJGMNEJ-UHFFFAOYSA-N silicon dioxide Inorganic materials O=[Si]=O VYPSYNLAJGMNEJ-UHFFFAOYSA-N 0.000 description 5
- 238000012952 Resampling Methods 0.000 description 4
- 238000004140 cleaning Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 239000002245 particle Substances 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- 239000010433 feldspar Substances 0.000 description 3
- 238000002360 preparation method Methods 0.000 description 3
- 239000010453 quartz Substances 0.000 description 3
- 230000033772 system development Effects 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 239000003245 coal Substances 0.000 description 2
- 238000010219 correlation analysis Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 235000021185 dessert Nutrition 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000011148 porous material Substances 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000001502 supplementing effect Effects 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 208000025174 PANDAS Diseases 0.000 description 1
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 238000012098 association analyses Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000005388 cross polarization Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000013079 data visualisation Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000008021 deposition Effects 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000011158 quantitative evaluation Methods 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000007711 solidification Methods 0.000 description 1
- 230000008023 solidification Effects 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Economics (AREA)
- Medical Informatics (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Marketing (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- General Business, Economics & Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Tourism & Hospitality (AREA)
- Development Economics (AREA)
- Computer Hardware Design (AREA)
- Entrepreneurship & Innovation (AREA)
- Geometry (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Game Theory and Decision Science (AREA)
- Databases & Information Systems (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于能源数据应用预测技术领域,公开了一种能源大数据平台的数据预测方法、平台及应用。该方法包括:以大数据和机器学习搭建包括数据加载、特征工程、数据标注、模型训练、效果评估和模型应用功能的机器学习平台;基于某三个区块的致密气井地质数据、测井数据及生产数据形成统一的数据管理,基于以上数据构建参数评价模型与产能分类模型;根据采集的铸体薄片图像,建立铸体薄片矿物的智能鉴定模型。本发明设计与开发基于机器学习的地学辅助工具,提高地学科研人员在致密气测井评价、铸体薄片图像鉴定领域的工作效率和质量。本发明实现了智能化应用,助力挖掘隐藏在数据中的数据规律和业务价值。
Description
技术领域
本发明属于能源数据预测技术领域,尤其涉及一种能源大数据平台的数据预测方法、能源大数据平台、图像标注工具。
背景技术
随着测井技术的发展,数据类型越来越多、格式多样化,实际工作中通常要对测井数据进行多次解释,测井解释结果被广泛应用到油气勘探开发之中,具有十分重要的意义。从现状来看,测井方法在评价常规油气储层产能上得到了广泛的应用,形成了针对常规油气储层的产能评价模型,如综合评价指数模型、多元回归分析模型、随机森林模型等,而专门针对致密气储层的测井产能评价研究则很少,并未从理论和技术上形成完善的体系。
致密气测井评价研究专业性强,严重依赖专家经验,业务人员短时间内很难掌握。地质数据、测井曲线、化验数据及排采资料无法快速匹配,基础数据整理繁琐、工作量大、效率低。传统致密气测井评价获取的储层参数主要反映的是储层的静态特征,对动态特征极少直接反映。
现有技术在铸体薄片鉴定上,铸体薄片鉴定结果被广泛地应用于地层沉积环境、储层物性特征等方面的研究。铸体薄片鉴定是最基本、最重要的室内鉴定工作,可以为沉积相的确定提供必要的微观证据,并提供矿物组分含量等定量数据,对于新区油气田勘探开发有着十分重要的意义。
铸体薄片鉴定工作长期依赖于专家经验,对专业知识水平和鉴定经验要求很高,业务人员短时间内很难掌握。铸体薄片鉴定除了对矿物岩石专业知识水平要求较高,同时也需要较高的偏光显微镜操作水平,而普通地质人员对偏光显微镜接触较少,无法独立操作完成。受业务研究人员的主观因素影响,肉眼观察岩石铸体薄片特征与实际岩石特征存在一定差别,而且没有相关的专业软件支撑应用。
通过上述分析,现有技术存在的问题及缺陷为:现有技术没有基于人工智能、深度学习、大数据等关键技术,搭建统一的人工智能机器学习平台,使得提面向致密气测井评价和铸体薄片图像鉴定中的关键业务,不能实现智能化应用,以及不能助力挖掘隐藏在数据中的数据规律和业务价值,使得获得的能源数据准确低,不能为下一步生产提供技术支持。
发明内容
为克服相关技术中存在的问题,本发明公开实施例提供了一种能源大数据平台、数据标准方法、预测算法及工具。本发明针对各个场景当前存在的问题,提出了对应的技术解决思路,搭建面向勘探开发的大数据分析平台,打造智能引擎,驱动业务创新,实现专家知识的固化、传承和普惠,赋予海洋油气综合研究能力,综合开发工作提供智能服务。
所述技术方案如下:一种能源大数据平台的数据预测方法包括以下步骤:
S1,构建机器学习平台:以大数据和机器学习搭建包括数据加载、特征工程、数据标注、模型训练、效果评估和模型应用功能的机器学习平台;
S2,致密气智能测井评价:基于某三个区块的致密气井地质数据、测井数据及生产数据形成统一的数据集,基于以上数据集构建参数评价模型与产能分类模型;
S3,铸体薄片图像鉴定:根据采集的铸体薄片图像,建立铸体薄片矿物的智能鉴定模型。
在一个实施例中,在步骤S1中,构建的机器学习平台具有:
使用Spark分布式计算能力结合TensorFlow分布式计算和TensorFlow GPU计算能力为模型训练与智能应用提供计算服务;
集成多个开源算法库至机器学习平台;
通过微服务架构实现应用灵活部署和弹性扩充;
通过应用BI数据分析,管理数据分析的业务对象、分析主题信息,提供主题的检索与展示。
在一个实施例中,在步骤S2中,构建参数评价模型与产能分类模型具体包括:
(1)样本数据收集整理及预处理;包括针对测井数据进行数据预处理算法的开发并发布成服务,包括重采样、数据清洗、归一化。
(2)通过主控因素分析,确定致密岩结构、含气量、渗透率预测和产能级别预测的敏感因素;结合传统的判别机理规则、先验知识和专家经验,进行多条测井曲线的多维度特征信息相互补充完善,建立多维度神经元产能预测模型(Multi-dimension NeuronProductivity Forecast Model)。
(3)建立致密气参数及产能级别预测样本库;
(4)通过分析对比大数据算法,确定最优算法,建立致密岩结构、含气量、渗透率预测模型和产能级别预测模型,并对模型进行验证与优化。利用相关的优化算法从经验公式库、参数模型库、大数据模型库中优选符合当前数据分布和特征的评价模型,从而实现评价模型的自主优选。
在一个实施例中,在步骤S2中致密气智能测井评价还包括:
(1)测井曲线多维智慧表征:以测井曲线为基础,进行多维度特征的提取和融合,深度强化学习表征多维信息特征,打通数据域到特征域的映射;
(2)多维度神经元产能预测模型:多维度神经元产能预测模型(Multi-dimensionNeuron Productivity Forecast Model MNPF),依据机理分析、先验知识和专家经验,进行多条测井曲线的多维度特征信息相互补充完善,建立神经网络模型,进行产能级别预测;
(3)模型自主优选评价:利用多元回归、随机森林、XGBoost、MSLIC算法等相关算法从经验公式库、参数模型库、大数据模型库中优选符合当前数据分布和特征的评价模型,进行评价模型的自主优选。
在一实施例中,在步骤S2中致密气智能测井评价还包括:
构建不同关键参数预测与产能级别判别的样本库,基于测井曲线数据,开展多维度特征的提取和融合,深度强化学习表征多维特征,打通数据域到特征域的映射,为精准建模提供特征基础;依据机理分析、先验知识和专家经验,进行多条测井曲线的多维度特征信息相互补充完善,形成多维度神经元产能预测模型(Multi-dimension NeuronProductivity Forecast Model),进行产能级别预测;最后结合机器学习技术,建立参数预测及产能级别预测模型,对致密储层物性参数及产能级别的预测。
在一个实施例中,在步骤S3中,建立铸体薄片矿物的智能鉴定模型包括:
1)利用铸体薄片图像数据预处理算法;
2)建立铸体薄片样本库;
3)通过分析对比大数据算法,确定最优算法,建立铸体薄片图像鉴定模型并进行验证与优化;
所述最优算法为训练后的改进算法,包括:
利用TensorFlow搭建长短时神经网络模型,利用神经网络对输入铸体薄片图像进行训练,得到训练后的改进的长短时神经网络模型并保存;
在长短时神经网络模型中,inputs表示输入值,rnn_layer为定义的神经网络,rnn_layer模块中的weights为训练的权重值,biases为训练的偏置值,rnn为神经网络的核心单元,rnn中的_cell为神经网络中的神经元,其中又在训练gates和candidate中的权重值和偏置值;输入模块inputs中的输入值流入rnn_layer模块中进行神经网络的学习训练;
所述利用神经网络对输入铸体薄片图像进行训练具体包括:
1)所述神经网络具体为TensorFlow中的神经网络模块;所述神经网络隐藏单元的数量选取为8,即中的隐藏神经元的个数为8;其中的隐藏神经元的输出值定义公式为:
y=W·x+b
式中,y表示输出值,x表示输入值,W表示权重值,b表示偏置值;
2)利用神经网络对输入铸体薄片图像进行训练时,利用损失函数评估神经网络目标和实际输出差距的函数,其中函数值越小说明实际输出与目标输出的差值越小,也就是说明权值越合适;
训练中的损失函数定义公式为:
式中,loss表示损失值,yi表示每次神经元的输出值,yreal表示真实的原始数据;将神经元的输出值yi减去真实值yreal,再进行平方,最后使用计算平均计算得到方差;得到的方差也就是损失函数的损失值;
3)使用TensorFlow中的优化器采用Adam算法对损失函数进行优化,定义梯度下降法的学习率为0.003,进行每次优化训练模型的下降梯度;
4)基于铸体薄片鉴定结果,实现铸体薄片自动定名。
在步骤3)通过分析对比大数据算法,确定最优算法,建立铸体薄片图像鉴定模型并进行验证与优化包括:利用人工神经网络算法训练薄片鉴定模型,利用训练好的模型实现对待鉴定的薄片所含矿物的自动分割及矿物类别的智能识别,并进一步统计各种矿物类别占比;
所述步骤4)基于铸体薄片图像鉴定结果,实现铸体薄片自动定名包括:结合岩石物理专业三角图版,对铸体薄片自动进行岩性命名,进行不同井段的岩石定名。
在一个实施例中,在步骤S3中,铸体薄片图像鉴定还包括:
(i)基于边缘检测算法的标注:基于语义分割算法训练的模型,在少量标记点的情况下,薄片矿物边界自动识别;
(ii)多角度铸体薄片矿物分割算法:基于深度神经网络的实例分割,应用铸体薄片图像标注数据,训练铸体薄片图像实例分割模型;
(iii)基于神经网络的铸体薄片图像鉴定模型:基于铸体薄片单矿物样本库数据,按照矿物分类业务特征优化模型分类目标,应用神经网络进行模型训练,提取各类型矿物的典型特征,得到矿物分类模型,进行铸体薄片矿物自动分类鉴定。
本发明的另一目的在于提供一种能源大数据平台所述能源大数据平台包括:数据层、业务逻辑层、业务展现层;
所述数据层用于建立统一的数据结构存储系统数据,为业务逻辑层、业务展现层提供数据支持;
业务逻辑层利用计算逻辑和业务逻辑建立完整的算法集成框架,用于支撑业务展现层的数据计算需求;算法包括计算任务调度引擎、算法注册管理、算法公用接口,并支持加入第三方算法,支持算法的集群部署,支持大数据平台进行大数据计算;
业务展现层用于建设多个业务场景,用于进行通用场景分析、致密气智能测井评价、铸体薄片智能鉴定并可视化示出。
本发明的另一目的在于提供一种用于古生物和铸体薄片鉴定的图像标注工具,所述图像标注工具所述的能源大数据平台的数据预测方法。
结合上述的所有技术方案,本发明所具备的优点及积极效果为:
能源大数据平台的建设为能源行业具体业务与人工智能技术的结合提供了融合创新的智能化解决方案,形成AI应用技术体系,形成了统一的算法框架和开放的AI服务体系。实现了AI计算全流程管理,包括数据处理标注,特征工程,算法构建,模型训练,评估,管理部署和对外的AI应用服务,整个过程灵活便捷,具体应用场景基于该平台可以灵活定制或扩展。
基于测井数据的智能化评价模型大大提升致密气测井解释的工作效率,为寻找勘探开发的甜点地区提供了交互的技术基础和模型基础,甜点的识别关键在于工业组分、物性参数和产能级别参数的预测,该模型预测精度达到了80%以上,超过了测井专家水平,同时大大提升了工作效率。
铸体薄片的智能鉴定模型实现了薄片中矿物的边界识别和矿物含量的定量计算,为最终岩石的智能定名做好技术、模型和数据准备。同时为后续的孔隙结构预测,储层物性特征研究做好铺垫。彻底解决了薄片鉴定周期长,定量评估难,效率低下等问题。目前大力支撑了实验中心的薄片鉴定业务工作。
本发明为解决现有技术存在的问题,根据业务需求,提出了致密气测井评价、铸体薄片鉴定三个方面的机器学习应用,并且对系统架构和模型应用做了一定的分析。本发明设计与开发基于机器学习的地学辅助工具,提高地学科研人员在致密气测井评价、铸体薄片图像鉴定领域的工作效率和质量。基于人工智能、深度学习、大数据等关键技术,搭建统一的人工智能机器学习平台,提供一站式机器学习能力,面向致密气测井评价和铸体薄片图像鉴定中的关键业务,实现智能化应用,助力挖掘隐藏在数据中的数据规律和业务价值。
本发明提供的所述最优算法为训练后的改进算法,对输入铸体薄片图像进行训练后,获得的图像相比于现有技术更加逼真。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是本发明实施例提供的能源大数据平台的数据预测方法流程图;
图2是本发明实施例提供的能源大数据平台示意图;
图3是本发明实施例提供的致密气智能测井评价原理图;
图4是本发明实施例提供的铸体薄片智能鉴定原理图;
图5是本发明实施例提供的基于边缘检测算法的矿物标注效果图;
图6是本发明实施例提供的多角度铸体薄片分割流程效果图;
图7是本发明实施例提供的基于神经网络的铸体薄片图像鉴定模型流程示意图;
图8是本发明实施例提供的铸体薄片智能鉴定流程图;
图中:1、数据层;2、业务逻辑层;3、业务展现层。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其他方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施的限制。
一、解释说明实施例:
如图1所示,本发明实施例提供的能源大数据平台的数据预测方法提出“一个通用平台与三大场景应用”开展,“一个通用平台”即机器学习平台,“两大场景应用”即致密气智能测井评价和铸体薄片图像智能鉴定场景。
具体包括以下步骤:
S101,构建机器学习平台:以大数据和机器学习技术搭建包括数据加载、特征工程、数据标注、模型训练、效果评估和模型应用等功能的“一站式”机器学习平台。对平台进行部署和应用。
S102,致密气智能测井评价:基于某三个区块的致密气井地质数据、测井数据及生产数据形成统一的数据管理,基于以上数据构建参数评价模型与产能分类模型。
具体包括以下内容:
(2.1)样本数据收集整理及预处理;
(2.2)通过主控因素分析,确定致密岩结构、含气量、渗透率预测和产能级别预测的敏感因素;
(2.3)建立致密气参数及产能级别预测样本库;
(2.4)通过分析对比大数据算法,确定最优算法,建立致密岩结构、含气量、渗透率预测模型和产能级别预测模型,并对模型进行验证与优化。
所述最优算法为训练后的改进算法,包括:
利用TensorFlow搭建长短时神经网络模型,利用神经网络对输入铸体薄片图像进行训练,得到训练后的改进的长短时神经网络模型并保存;
在长短时神经网络模型中,inputs表示输入值,rnn_layer为定义的神经网络,rnn_layer模块中的weights为训练的权重值,biases为训练的偏置值,rnn为神经网络的核心单元,rnn中的_cell为神经网络中的神经元,其中又在训练gates和candidate中的权重值和偏置值;输入模块inputs中的输入值流入rnn_layer模块中进行神经网络的学习训练;
所述利用神经网络对输入铸体薄片图像进行训练具体包括:
1)所述神经网络具体为TensorFlow中的神经网络模块;所述神经网络隐藏单元的数量选取为8,即中的隐藏神经元的个数为8;其中的隐藏神经元的输出值定义公式为:
y=W·x+b
式中,y表示输出值,x表示输入值,W表示权重值,b表示偏置值;
2)利用神经网络对输入铸体薄片图像进行训练时,利用损失函数评估神经网络目标和实际输出差距的函数,其中函数值越小说明实际输出与目标输出的差值越小,也就是说明权值越合适;
训练中的损失函数定义公式为:
式中,loss表示损失值,yi表示每次神经元的输出值,yreal表示真实的原始数据;将神经元的输出值yi减去真实值yreal,再进行平方,最后使用计算平均计算得到方差;得到的方差也就是损失函数的损失值;
3)使用TensorFlow中的优化器采用Adam算法对损失函数进行优化,定义梯度下降法的学习率为0.003,进行每次优化训练模型的下降梯度。
S103,铸体薄片图像鉴定:基专家采集的铸体薄片图像(不少于100张,并对铸体薄片图像中的石英、长石和岩屑矿物进行标注),建立铸体薄片矿物的智能鉴定模型。
具体包括以下内容:
(3.1)提出铸体薄片图像数据预处理算法;
(3.2)建立铸体薄片样本库;
(3.3)通过分析对比大数据算法,确定最优算法,建立铸体薄片图像鉴定模型并进行验证与优化。
(3.4)基于铸体薄片鉴定结果,实现铸体薄片自动定名。
实施例1
如图2所示,本发明实施例提供的能源大数据平台包括:数据层1、业务逻辑层2、业务展现层3。其中:
数据层1(数据存储层):建立统一的数据结构存储系统数据,为整个系统提供数据支持。
业务逻辑层2:包括强大的计算逻辑和业务逻辑,在服务平台中建立完整的算法集成框架,支撑业务展现层的数据计算需求。算法包括计算任务调度引擎、算法注册管理、算法公用接口三部分,可支持加入第三方算法,支持算法的集群部署,支持大数据平台进行大数据计算。
业务展现层3:建设一个通用平台和两个业务场景,实现通用场景研究、致密气智能测井评价、铸体薄片智能鉴定。
在本发明实施例中,数据层1中的数据存储主要为结构化数据与非结构化数据,存储主要包括数据库服务器和文件服务器,数据库服务器数据库采用MySQL、PostgreSQL。
实施例2
基于实施例提供的能源大数据平台的数据预测方法,进一步优选的,步骤S101构建机器学习平台包括:
(1)高性能平台计算能力
平台使用Spark分布式计算能力结合TensorFlow分布式计算和TensorFlow GPU计算能力解决计算量大的问题,为模型训练与智能应用提供高性能计算能力。
Spark分布式计算:Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎。
TensorFlow分布式计算:TensorFlow是一个基于数据流编程(dataflowprogramming)的符号数学系统,被广泛应用于各类机器学习(machine learning)算法的编程实现。
TensorFlow GPU计算:TensorFlow程序可以通过tf.device函数来指定运行每一个操作的设备,这个设备可以是本地的CPU或者GPU,也可以是某一台远程的服务器。
TensorFlowOnSpark:通过结合深度学习框架TensorFlow和大数据框架ApacheSpark和Apache Hadoop的显著特性,TensorFlowOnSpark可在GPU和CPU服务器集群上实现分布式深度学习。
(2)丰富的机器学习算法群
集成多个开源算法库至机器学习平台,包括Keras、Pandas、XGBoost、Numpy、SciPy等,以满足不同智能应用的需要。
数据输入和输出类:负责数据接入和输出;
数据转换类:包括各种数据抽取、清洗整理功能;
流程控制类:是为了实现循环和条件功能;
建模类:包括分类回归建模、关联分析、聚类分析等功能;
评估类:包括多重交叉检验、自助法检验等功能;
扩展类:扩展R算法、Python算法等。
(3)微服务
平台通过微服务架构实现应用灵活部署和弹性扩充。
(4)BI数据可视化
通过应用BI数据分析,管理数据分析的业务对象、分析主题等信息,提供主题的检索与展示。
在本发明实施例中,平台整体采用B/S架构建设,采用前后端分离的架构设计,后台以微服务的形式提供应用服务。
实施例3
如图3所示,基于实施例提供的能源大数据平台的数据预测方法,进一步优选的,步骤S102致密气智能测井评价包括:
构建参数预测与产能级别预处样本库,基于大数据分析计算技术,建立参数预测及产能级别预测模型,实现对煤层物性参数及产能级别快速准确的预测,提高致密气测井评价的准确率和智能分析能力。
具体包括以下步骤:构建不同关键参数预测与产能级别判别的样本库,基于测井曲线数据,开展多维度特征的提取和融合,深度强化学习表征多维特征,打通数据域到特征域的映射,为精准建模提供特征基础;依据机理分析、先验知识和专家经验,进行多条测井曲线的多维度特征信息相互补充完善,形成多维度神经元产能预测模型(Multi-dimensionNeuron Productivity Forecast Model),实现产能级别预测;最后结合机器学习技术,建立参数预测及产能级别预测模型,实现对致密储层物性参数及产能级别快速准确的预测,提高非常规测井评价的准确率和智能分析能力。
在本发明实施例中,致密气智能测井评价还包括:
(1)测井曲线多维智慧表征:以测井曲线为基础,开展多维度特征的提取和融合,深度强化学习表征多维信息特征,打通数据域到特征域的映射,为精准建模提供特征基础。
(2)多维度神经元产能预测模型(MNPF):多维度神经元产能预测模型(Multi-dimension Neuron Productivity Forecast Model),是依据机理分析、先验知识和专家经验,进行多条测井曲线的多维度特征信息相互补充完善,建立神经网络模型,进行产能级别预测。
(3)模型自主优选评价:由于数据分布、数据特征的不一致,使得统一的评价模型无法满足评价与生产的要求。利用相关的优化算法从经验公式库、参数模型库、大数据模型库中优选符合当前数据分布和特征的评价模型,从而实现评价模型的自主优选。
实施例4
如图4所示,基于实施例提供的能源大数据平台的数据预测方法,进一步优选的,步骤S103铸体薄片智能鉴定具体包括:
建立铸体薄片矿物样本数据库,利用神经网络算法训练铸体薄片鉴定模型,实现对待鉴定的铸体薄片图像进行矿物自动分割及矿物种类智能识别,并进一步统计各种矿物类别占比,对铸体薄片进行自动岩性命名。
具体包括以下步骤:
建立铸体薄片矿物样本数据库,利用人工神经网络算法训练薄片鉴定模型,利用训练好的模型实现对待鉴定的薄片所含矿物的自动分割及矿物类别的智能识别,并进一步统计各种矿物类别占比,并结合岩石物理专业三角图版,对铸体薄片自动进行岩性命名,从而快速实现不同井段的岩石定名。
在本发明实施中,铸体薄片智能鉴定还包括:
(1)基于边缘检测算法的标注技术:基于语义分割算法训练的模型,能够在点击少量标记点的情况下,实现薄片矿物边界自动识别,提高业务人员标注的质量与效率。基于边缘检测算法的矿物标注效果如图5所示。
(2)多角度铸体薄片矿物分割算法:基于深度神经网络的实例分割技术,应用铸体薄片图像标注数据,训练铸体薄片图像实例分割模型,保证较高精度的同时避免过拟合现象,为铸体薄片矿物鉴定奠定基础。图6为多角度铸体薄片分割流程示意图。
(3)基于神经网络的铸体薄片图像鉴定模型:基于铸体薄片单矿物样本库数据(单偏光+正交偏光),按照矿物分类业务特征优化模型分类目标,应用神经网络技术进行模型训练,提取各类型矿物的典型特征,得到矿物分类模型,实现铸体薄片矿物自动分类鉴定。图7为基于神经网络的铸体薄片图像鉴定模型流程示意图。
在本发明实施例中,提供的平台及方法运行环境和开发环境为:
开发语言:平台前端开发采用VUE+HTML5,后端开发采用JAVA;
数据库:MySQL、PostgreSQL;
中间件:Nginx;
服务器操作系统:Linux 7.5。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
上述装置/单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
二、应用实施例:
应用例1
本发明实施例提供的能源大数据平台包括:
1、一站式机器学习平台
搭建面向油气业务勘探开发的大数据分析平台,实现一站式建模与应用,为xxx公司的综合研究工作提供智能服务。该平台提供了特征工程、样本库构建、模型设计、海量数据计算等AI通用能力,提供统一的算法框架和开放的AI服务,为快速构建油气业务的智能化应用提供基础。
平台包含数据分析管理、智能建模、智能应用等模块,实现AI计算全流程管理。从数据预处理与标注、特征工程、模型训练、评估、管理,到模型部署和应用,整个过程灵活简洁,在各种应用场景下可以按需使用。梳理72个算法内置于机器学习平台,满足多样化的数据特征工程处理、机器学习与深度学习模型训练需求。
其中,(1.1)平台门户首页
开发平台门户首页,提供各个功能场景的入口,方便用户使用。用户登录增加AD域验证,门户完成单点登录的集成。
(1.2)总览
统计展示项目各类数据集(包括原始数据集、标注数据集)、算法、模型、应用的情况,便于用户对项目使用情况进行整体把控。
(1.3)数据加载
用于加载各类数据用于机器学习研究,支持csv、excel、las、wis、图片、文档等格式,并支持对segy格式三维地震数据体的加载。
(1.4)数据集管理
用于管理平台所有数据集,包括原始数据集、标注数据集、预处理数据集等。
为了支撑地震相关业务场景的人工智能研究,平台开发了地震数据体处理的相关功能,主要包括三维地震数据体上传插件、解析算法以及可视化模块,实现对三维地震数据体的加载、解析与可视化。三维地震数据体上传插件支持多任务上传以及断点续传等功能。
(1.5)特征工程
特征工程的目标是最大限度地从原始数据中提取特征以供算法和模型使用。用户可以自定义数据处理流程,对数据进行特征提取和预处理。
(1.6)数据标注
平台提供了多种数据标注工具,包括二维数据标注、图片分类标注、物体拾取标注、测井曲线标注,方便用户进行样本标注。
(1.7)模型训练
基于数据准备提供的数据,应用人工智能算法,开展模型训练研究,并对训练模型结果进行管理和评估。
模型评价是模型应用的重要环节,对业务人员评估模型、理解模型具有重要的作用。除了常用的评价指标以外,平台针对不同类型的算法模型提供不同的可视化评价方式,力求做到对模型的评价准确、全面、直观。
分类算法使用混淆矩阵、ROC曲线和指标柱状图等指标评价;
回归算法使用均方根误差、相对误差、预测散点图等指标评价;
聚类算法使用类间距、轮廓系数、聚类散点图等指标评价。
(1.8)模型应用
利用模型训练的成果模型,开展预测应用,将模型应用于实际生产预测。支持将模型发布为服务供外部调用。
(1.9)资源管理
资源管理主要包括数据源管理、算法管理和标签管理。分别用于管理数据库链接、管理平台算法、管理标注标签。
(1.10)系统管理
系统管理提供了日志管理、用户管理、角色管理、微服务管理、项目管理、算法服务监控、算法任务监控等系统管理功能,方便系统管理员对系统进行维护操作.
2.完成致密气智能测井评价场景建设。
处理1800余口致密气测井数据和60余口参数井实验分析数据,形成机器学习样本库。探索机器学习方法在致密岩结构、工业组分、含气量预测以及产能级别预测方面的应用。受不同区块数据质量的影响,参数预测以及产能级别预测结果差异较大。工业组分的预测最小误差在10%以内,含气量的预测最小误差在47%,致密岩结构预测准确率最高可达88%以上,产能级别预测平均准确率最高可达85%以上,可大大提高致密气测井解释的效率。
根据场景建设功能需求,建设致密气智能测井评价系统,实现对致密气参数智能评价和产能级别智能分类。
2.1算法分析
基于测井曲线、实验分析、排采生产等数据,构建样本数据库,通过大数据分析计算技术建立参数预测及产能级别预测模型,提高评价准确率和产能的预测、分析能力。
致密气测井专题的算法研究完成了样本库构建、数据预处理、模型训练、智能评价等相关工作,建设3个参数预测样本库、设计训练36个算法与模型。
样本库建设:在合作大学提供的数据的基础之上,根据不同区块建立3个参数预测样本库,其中,A区块样本库共4620个样本,C区块样本库共4300个样本,B区块样本库共4620个样本。
数据预处理:针对测井数据进行数据预处理算法的开发并发布成服务,包括重采样、数据清洗、归一化。
模型训练:针对致密气参数预测,实现多种训练算法并发布成服务,包括线性回归算法、多元回归算法、XGBoost算法等;针对致密气产能级别预测,实现多种训练算法并发布成服务,包括随机森林、BP神经网络、长短时神经网络等。
智能评价:实现致密气参数的智能预测,并可自主选择最优模型进行应用,包括工业组分模型、含气量模型、致密岩结构模型;实现致密气产能级别智能评价。
(2.1.1)数据处理
数据预处理包括:曲线重采样、缺失值处理、异常值处理、数据归一化、数据融合等预处理步骤。通过数据预处理,为后续模型训练提供数据基础。
曲线重采样:不同采样步长的测井曲线进行采样步长的统一
缺失值处理:对数据缺失的测井曲线用无效值(-999.25)进行填充
异常值处理:根据各条测井曲线的数值分布,采用砍尾法或者三σ原则进行数据清洗
数据归一化:对各条测井曲线采用距离归一化,进行无量纲化处理
数据融合:将测井曲线与实验数据等数据进行数据融合
(2.1.2)模型训练
①工业组分预测模型
按照不同区块,选择线性回归、多元回归、XGBoost算法分别进行建模。综合来看,按区块分别建模效果优于三区块合并建模效果,灰分、挥发分、水分三种工业组分线性回归模型误差较低,效果较好。
表1区块1工业组分预测模型误差分析表
目标 | 算法 | 相对误差 |
灰分 | 线性回归 | 17.52% |
灰分 | 多元回归 | 19.17% |
灰分 | XGBoost | 68.45% |
挥发分 | 线性回归 | 12.71% |
挥发分 | 多元回归 | 43.39% |
挥发分 | XGBoost | 69.48% |
水分 | 线性回归 | 84.36% |
水分 | 多元回归 | 63.97% |
水分 | XGBoost | 17.87% |
表2区块2工业组分预测模型误差分析表
目标 | 算法 | 相对误差 |
灰分 | 线性回归 | 26.74% |
灰分 | 多元回归 | 29.17% |
灰分 | XGBoost | 83.28% |
挥发分 | 线性回归 | 8.88% |
挥发分 | 多元回归 | 10.17% |
挥发分 | XGBoost | 65.53% |
水分 | 线性回归 | 12.86% |
水分 | 多元回归 | 54.02% |
水分 | XGBoost | 21.44% |
表3区块3工业组分预测模型误差分析表
表4三个区块工业组分预测模型误差分析表
目标 | 算法 | 相对误差 |
灰分 | 线性回归 | 27.85% |
灰分 | 多元回归 | 33.54% |
灰分 | XGBoost | 51.61% |
挥发分 | 线性回归 | 21.22% |
挥发分 | 多元回归 | 22.60% |
挥发分 | XGBoost | 65.84% |
水分 | 线性回归 | 204.58% |
水分 | 多元回归 | 108.55% |
水分 | XGBoost | 73.46% |
②含气量预测模型
针对含气量,按照不同区块,选择线性回归、多元回归、XGBoost算法分别进行建模。A区块无含气量数据,综合来看分区块建模跟合并建模效果相差不大,多元回归算法误差较低,效果较好。
③致密岩结构预测模型
针对致密岩结构,按照不同区块,选择线性回归、多元回归、XGBoost算法分别进行建模。综合来看由于各区块致密岩结构类型不全,合并建模较好,且XGBoost算法准确率较高。
表5A区块、B区块、C区块致密岩结构预测模型误差分析表
④产能级别预测模型
针对产能级别,按照不同区块,选择随机森林、BP神经网络、长短时神经网络算法分别进行建模。综合来看,由于各区块产能类型分布不均,合并建模较好,且长短时神经网络算法准确率较高。
表6三个区块产能级别预测模型误差分析表
2.2系统开发
按照设计要求,完成了3个模块,11个功能的开发工作。通过应用建设,实现了数据管理功能、致密气测井参数预测功能以及产能级别评价功能。
(2.2.1)数据加载:加载致密气测井评价所需要的数据,包括井基础数据、实验数据、分层数据、测井解释成果数据、排采数据、测井曲线数据、煤层分层数据和排采指标数据。
(2.2.2)数据维护
对已加载的数据进行维护,包括数据增加、编辑、删除、查询等功能。
(2.2.3)原始数据管理
管理项目非结构化文档数据,包括目录管理、文档上传、文档下载等功能。
(2.2.4)参数预测-样本库管理
管理参数预测所需要的样本数据,可通过此功能标注样本,支持样本批量加载
(2.2.5)参数预测-数据预处理
对样本数据进行数据预处理,建立样本与测井曲线之间的联系,输出参数预测模型训练所需要的数据,并支持对预处理结果数据进行相关性分析。
(2.2.6)参数预测-智能建模
基于数据预处理输出的数据,综合运用多种机器学习、深度学习算法,进行工业组分、含气量、致密岩结构的模型训练,并可对训练结果进行可视化评估。
(2.2.7)参数预测-专业模型
管理致密气测井参数计算相关的专业模型,支持致密岩结构模型、含气量模型、临界解析压力模型、兰氏参数模型。
(2.2.8)参数预测-模型应用
运用智能建模训练的模型或专业模型,利用测井曲线,开展单井参数预测应用.
(2.2.9)产能级别预测-样本库管理
管理产能级别预测所需要的样本数据,可通过此功能进行样本标注,支持样本批量加载.
(2.2.10)产能级别预测-数据预处理
对样本数据进行数据预处理,建立样本与测井曲线之间的联系,输出产能级别预测模型训练所需要的数据,并支持对预处理结果数据进行相关性分析。
(2.2.11)产能级别预测-智能建模
基于数据预处理输出的数据,综合运用多种机器学习、深度学习算法,进行产能级别的模型训练,并可对训练结果进行可视化评估。
(2.2.12)产能级别预测-模型应用
运用智能建模训练的模型,利用测井曲线数据,开展单井产能级别预测应用.
3.完成铸体薄片智能鉴定系统建设:
基于完成标注的20000余个矿物颗粒,建立矿物识别样本库和鉴定知识库,探索适用于矿物分割的图像分割算法与适用于分类的矿物分类算法,建立矿物分类模型和实例分割模型,为矿物含量计算和岩石自动鉴定提供基础,为孔隙结构、储层物性特征研究工作提供依据。石英、长石、岩屑三类矿物分类平均准确度达到85%以上。
根据场景建设功能需求,建设铸体薄片智能鉴定系统,实现对铸体薄片的智能鉴定。
3.1算法研究
建设铸体薄片矿物样本库,采用神经网络算法,实现铸体薄片图像智能鉴定,提高地学科研人员在铸体薄片鉴定的工作效率和质量。
受限于铸体薄片矿物的鉴定难点如矿物分布密集、多光性多特征、部分矿物种类相似度高等,通过与xxx公司勘探院及天津实验中心业务专家深度沟通,结合矿物鉴定业务知识,经过反复实验研究使铸体薄片图像分割精度及矿物分类精度均有大幅提升,达到了较好的效果。
铸体薄片矿物鉴定算法研究包括样本库建设、图像预处理、模型训练、智能鉴定等相关工作,建设1个铸体薄片矿物样本库、设计训练7个算法与模型。
样本库建设:在天津实验中心标注样本的基础上,对样本数据进行筛选,建立1个铸体薄片矿物样本库(单偏光+正交偏光),共筛选铸体薄片图像198张、标注矿物样本16818组。
图像预处理:针对多角度单偏光及正交偏光铸体薄片图像,实现图像自动对齐处理及单矿物提取,包括1个基于ORB特征图像对齐算法以及1个薄片单矿物多维筛选提取算法。
模型训练:针对铸体薄片图像矿物鉴定特点,实现了图像分割训练算法以及矿物分类训练算法,包括2个图像分割算法以及1个矿物分类算法。
智能鉴定:基于大量试验研究,分别优化出图像分割模型以及矿物分类模型,实现智能鉴定,包括1个图像分割模型以及1个矿物分类模型。
3.1.1图像对齐
不同角度的单偏光/正交偏光铸体薄片图片视域范围存在差异,为了满足后续分割/分类算法的输入要求,对同一样本的多角度图片进行基于ORB特征的对齐处理.
3.1.2样本提取
为了取得高质量数据进行矿物分类模型训练,需要从经过对齐处理的多角度单偏光及正交偏光铸体薄片中提取单矿物数据,并从多个维度构建过滤规则,保证提取单矿物数据质量。
建立样本过滤规则对标注样本数据进行过滤,经过处理得到16818组单矿物样本。剔除符合以下过滤原则的样本数据,过滤规则如下:
位于图像边缘
面积过小
极端长宽比
标注点数过少
仅存在单角度样本
仅存单光性样本
3.1.3图像分割
结合多角度单/正交偏光铸体薄片图像,使用基于超像素的MSLIC算法取得较好分割效果。为了克服以上分割方法的缺点,进一步基于深度神经网络的实例分割模型进行实验,选择MaskRCNN模型结构,取得了不错的图像分割效果,可在保证较高精度的同时避免过拟合现象。
3.1.4矿物分类
基于提取的铸体薄片单矿物样本库数据(单偏光+正交偏光),按照矿物分类业务特征优化模型分类目标,应用EfficientNet模型结构进行训练,提取各类型矿物的典型特征,得到矿物分类模型,实现铸体薄片矿物自动分类鉴定。
3.2系统开发
按照设计要求,完成了5个模块、9个功能的开发工作。通过应用建设,不仅满足了普通业务人员快捷鉴定铸体薄片化石的需求,同时也满足了业务专家对于样本标注、模型训练、评估等方面的深度需求,实现了铸体薄片智能鉴定。
3.2.1数据加载
对铸体薄片图像原始数据集进行管理,包括图像上传、查看、图像质量处理、删除。
3.2.2图像准备
对铸体薄片图像进行预处理,将多角度的单偏光与正交偏光进行对齐,为样本标注和智能鉴定提供数据基础。
3.2.3样本工程
标注铸体薄片图像,将标注后的铸体薄片图像生成样本集,为智能建模提供样本数据.
3.2.4样本管理
对样本标注过程中生成的样本数据集进行管理,查看每个样本数据集的样本类型分布。
3.2.5专家知识
查看样本数据集中每个铸体薄片矿物样本所标注的特征信息。
3.2.6模型训练
基于样本数据以及内置的铸体薄片图像分割和矿物分类算法进行模型训练,并可查看模型训练评估参数。
3.2.7模型管理
对训练的模型进行管理,可对训练好的模型进行共享管理。
3.2.8智能鉴定
基于训练的智能鉴定模型,对预处理后的铸体薄片化石图像进行智能鉴定,实现铸体薄片矿物智能分割与智能分类,自动统计分析鉴定结果进行薄片自动定名。
3.2.9标签管理
管理铸体薄片图像标注的矿物标签与特征。
4.建成图像标注工具
成功研发xxx公司首个可以自动识别目标边界的图像标注工具,该图像标注工具可以在复杂背景下自动识别目标边界,提高标注效率和质量,并且能够保存数据的分类特征,形成专家标识知识库模型,为后续模型优化提供专家经验。
通过图像标注工具的开发应用,实现了薄片图像分类标注与铸体薄片图像矿物物体标注,有力地支撑了铸体薄片类别鉴定方法研究专题,得到了古生物专家和铸体薄片鉴定专家的高度认可。
4.1算法分析
铸体薄片的图像标注过程中需要对每个矿物颗粒的类别和范围进行标定。传统方法需要标注人员在颗粒边缘点击数十个点,费时费力。为提高标注效率,应用了DEXTR交互式分割标注算法开发自动标注功能,实现矿物边界自动识别。
4.2系统开发
快速完成图像标注工具的开发及部署工作,
4.2.1标注数据集管理
管理所有标注数据集。
4.2.2铸体薄片图像标注
实现对铸体薄片矿物的快速标注。
4.2.3有孔虫化石图像标注
实现对有孔虫化石图像进行快速标注。
应用例2
本发明实施例还提供了一种计算机设备,该计算机设备包括:至少一个处理器、存储器以及存储在所述存储器中并可在所述至少一个处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意各个方法实施例中的步骤。
应用例3
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现上述各个方法实施例中的步骤。
应用例4
本发明实施例还提供了一种信息数据处理终端,所述信息数据处理终端用于实现于电子装置上执行时,提供用户输入接口以实施如上述各方法实施例中的步骤,所述信息数据处理终端不限于手机、电脑、交换机。
应用例5
本发明实施例还提供了一种服务器,所述服务器用于实现于电子装置上执行时,提供用户输入接口以实施如上述各方法实施例中的步骤。
应用例6
本发明实施例提供了一种计算机程序产品,当计算机程序产品在电子设备上运行时,使得电子设备执行时可实现上述各个方法实施例中的步骤。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(RandomAccessMemory,RAM)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。
三、实施例相关效果的证据:
实验效果:
1.机器学习平台
平台“低代码”实现了AI应用全流程,并且可根据需要进行不断优化、扩展、丰富平台的机器学习算法,满足不同智能应用的需要。训练好的模型可发布为API服务,提供给其他专业系统进行调用。平台可提供基础的人工智能环境、计算能力与资源,为应用场景集成提供软硬件基础。
目前平台已经有200余用户登录使用,致密气测井智能解释场景已上传48口井的基础数据、实验数据、测井数据,20余口井的原始数据,建立算法模型20余个。
机器学习平台具有低门槛,用户专注业务,资源知识共享,高效应用等特点,打造了新的人工智能分析流程。
2.致密气智能测井评价
处理1800余口致密气测井数据和60余口参数井实验分析数据,形成机器学习样本库。探索机器学习方法在致密岩结构、工业组分、含气量预测以及产能级别预测方面的应用。受不同区块数据质量的影响,参数预测以及产能级别预测结果差异较大。工业组分的预测最小误差在10%以内,含气量的预测最小误差在47%,致密岩结构预测准确率最高可达88%以上,产能级别预测平均准确率最高可达85%以上,可大大提高致密气测井解释的效率。
3.铸体薄片智能鉴定
基于各类矿物在单偏光与正交偏光下的典型特征,实现铸体薄片图像矿物颗粒自动分割与智能鉴定,并可根据鉴定结果实现铸体薄片样本岩性智能定名,如图8铸体薄片智能鉴定流程所示。
矿物分类模型准确度平均可达86%,其中:石英类为82%、长石类88%、岩屑类89%。
以上所述,仅为本发明较优的具体的实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种能源大数据平台的数据预测方法,其特征在于,该方法包括以下步骤:
S1,构建机器学习平台:以大数据和机器学习搭建包括数据加载、特征工程、数据标注、模型训练、效果评估和模型应用的机器学习平台;
S2,致密气智能测井评价:基于区块的致密气井地质数据、测井数据及生产数据形成统一的数据集,基于以上数据集构建参数评价模型与产能分类模型;
S3,铸体薄片图像鉴定:根据采集的铸体薄片图像,建立铸体薄片矿物的智能鉴定模型。
2.根据权利要求1所述的能源大数据平台的数据预测方法,其特征在于,在步骤S1中,构建机器学习平台包括:
使用Spark分布式计算结合TensorFlow分布式计算和TensorFlow GPU计算,为模型训练与智能应用提供计算服务;
集成多个开源算法库至机器学习平台;
通过微服务架构实现应用部署和弹性扩充;
通过应用BI数据分析,管理数据分析的业务对象、分析主题信息,提供主题的检索与展示。
3.根据权利要求1所述的能源大数据平台的数据预测方法,其特征在于,在步骤S2中,构建参数评价模型与产能分类模型具体包括:
(1)样本数据收集整理及预处理;
(2)通过主控因素分析,确定致密岩结构、含气量、渗透率预测和产能级别预测的敏感因素;
(3)建立致密气参数及产能级别预测样本库;
(4)通过分析对比大数据算法,确定最优算法,建立致密岩结构、含气量、渗透率预测模型和产能级别预测模型,并对模型进行验证与优化。
4.根据权利要求1所述的能源大数据平台的数据预测方法,其特征在于,在步骤S2中,所述致密气智能测井评价包括:
(1)测井曲线多维智慧表征:以测井曲线为基础,进行多维度特征的提取和融合,深度强化学习表征多维信息特征,打通数据域到特征域的映射;
(2)多维度神经元产能预测模型:多维度神经元产能预测模型依据机理分析、先验知识和专家经验数据,进行多条测井曲线的多维度特征信息相互补充完善,建立神经网络模型,进行产能级别预测;
(3)模型自主优选评价:利用多元回归、随机森林、XGBoost算法、MSLIC算法,从经验公式库、参数模型库、大数据模型库中优选符合当前数据分布和特征的评价模型,进行评价模型的自主优选。
5.根据权利要求4所述的能源大数据平台的数据预测方法,其特征在于,所述致密气智能测井评价还包括:
构建不同关键参数预测与产能级别判别的样本库,基于测井曲线数据,开展多维度特征的提取和融合,深度强化学习表征多维特征,打通数据域到特征域的映射,为精准建模提供特征基础;
依据机理分析、先验知识和专家经验数据,进行多条测井曲线的多维度特征信息相互补充完善,形成多维度神经元产能预测模型,进行产能级别预测;
结合机器学习技术,建立参数预测及产能级别预测模型,对致密储层物性参数及产能级别的预测。
6.根据权利要求1所述的能源大数据平台的数据预测方法,其特征在于,在步骤S3中,建立铸体薄片矿物的智能鉴定模型包括:
(1)利用铸体薄片图像数据预处理算法;
(2)建立铸体薄片图像样本库;
(3)通过分析对比大数据算法,确定最优算法,建立铸体薄片图像鉴定模型并进行验证与优化;
步骤(3)中的所述最优算法为训练后的改进算法,包括:
利用TensorFlow搭建长短时神经网络模型,利用神经网络对输入铸体薄片图像进行训练,得到训练后的改进的长短时神经网络模型并保存;
在长短时神经网络模型中,inputs表示输入值,rnn_layer为定义的神经网络,rnn_layer模块中的weights为训练的权重值,biases为训练的偏置值,rnn为神经网络的核心单元,rnn中的_cell为神经网络中的神经元,其中又在训练gates和candidate中的权重值和偏置值;输入模块inputs中的输入值流入rnn_layer模块中进行神经网络的学习训练;
所述利用神经网络对输入铸体薄片图像进行训练具体包括:
1)所述神经网络具体为TensorFlow中的神经网络模块;所述神经网络隐藏单元的数量选取为8,即中的隐藏神经元的个数为8;其中的隐藏神经元的输出值定义公式为:
y=W·x+b
式中,y表示输出值,x表示输入值,W表示权重值,b表示偏置值;
2)利用神经网络对输入铸体薄片图像进行训练时,利用损失函数评估神经网络目标和实际输出差距的函数,其中函数值越小说明实际输出与目标输出的差值越小,也就是说明权值越合适;
训练中的损失函数定义公式为:
式中,Loss表示损失值,yi表示每次神经元的输出值,yreal表示真实的原始数据;将神经元的输出值yi减去真实值yreal,再进行平方,最后使用计算平均计算得到方差;得到的方差也就是损失函数的损失值;
3)使用TensorFlow中的优化器采用Adam算法对损失函数进行优化,定义梯度下降法的学习率为0.003,进行每次优化训练模型的下降梯度;
(4)基于铸体薄片图像鉴定结果,实现铸体薄片自动定名。
7.根据权利要求6所述的能源大数据平台的数据预测方法,其特征在于,在步骤(3)中,通过分析对比大数据算法,确定最优算法,建立铸体薄片图像鉴定模型并进行验证与优化包括:利用人工神经网络算法训练薄片鉴定模型,利用训练好的模型实现对待鉴定的薄片所含矿物的自动分割及矿物类别的智能识别,并进一步统计各种矿物类别占比;
所述步骤(4)中,基于铸体薄片图像鉴定结果,实现铸体薄片自动定名包括:结合岩石物理专业三角图版,对铸体薄片自动进行岩性命名,进行不同井段的岩石定名。
8.根据权利要求1所述的能源大数据平台的数据预测方法,其特征在于,在步骤S3中,铸体薄片图像鉴定包括:
(i)基于边缘检测算法的标注:基于语义分割算法训练的模型,在少量标记点的情况下,薄片矿物边界自动识别;
(ii)多角度铸体薄片矿物分割算法:基于深度神经网络的实例分割,应用铸体薄片图像标注数据,训练铸体薄片图像实例分割模型;
(iii)基于神经网络的铸体薄片图像鉴定模型:基于铸体薄片单矿物样本库数据,按照矿物分类业务特征优化模型分类目标,应用神经网络进行模型训练,提取各类型矿物的典型特征,得到矿物分类模型,进行铸体薄片矿物自动分类鉴定。
9.一种实现如权利要求1-8任意一项所述能源大数据平台的数据预测方法的能源大数据平台,其特征在于,所述能源大数据平台包括:
数据层(1),用于建立统一的数据结构存储系统数据,为业务逻辑层(2)、业务展现层(3)提供数据支持;
业务逻辑层(2),利用计算逻辑和业务逻辑建立完整的算法集成框架,用于支撑业务展现层(3)的数据计算需求;算法包括计算任务调度引擎、算法注册管理、算法公用接口,并支持加入第三方算法,支持算法的集群部署,支持大数据平台进行大数据计算;
业务展现层(3),用于建设多个业务场景,用于进行通用场景分析、致密气智能测井评价、铸体薄片智能鉴定并可视化示出。
10.一种用于古生物和铸体薄片鉴定的图像标注工具,其特征在于,所述图像标注工具权利要求1-8任意一项所述的能源大数据平台的数据预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211179762.3A CN115630564A (zh) | 2022-09-27 | 2022-09-27 | 一种能源大数据平台的数据预测方法、平台及应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211179762.3A CN115630564A (zh) | 2022-09-27 | 2022-09-27 | 一种能源大数据平台的数据预测方法、平台及应用 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115630564A true CN115630564A (zh) | 2023-01-20 |
Family
ID=84904313
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211179762.3A Withdrawn CN115630564A (zh) | 2022-09-27 | 2022-09-27 | 一种能源大数据平台的数据预测方法、平台及应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115630564A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116227714A (zh) * | 2023-03-14 | 2023-06-06 | 西华大学 | 一种出行方式选择预测与分析方法和系统 |
CN116911216A (zh) * | 2023-09-12 | 2023-10-20 | 北京凯博瑞石油科技有限公司 | 一种储层油井产能因素评估与预测方法 |
-
2022
- 2022-09-27 CN CN202211179762.3A patent/CN115630564A/zh not_active Withdrawn
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116227714A (zh) * | 2023-03-14 | 2023-06-06 | 西华大学 | 一种出行方式选择预测与分析方法和系统 |
CN116227714B (zh) * | 2023-03-14 | 2023-10-27 | 西华大学 | 一种出行方式选择预测与分析方法和系统 |
CN116911216A (zh) * | 2023-09-12 | 2023-10-20 | 北京凯博瑞石油科技有限公司 | 一种储层油井产能因素评估与预测方法 |
CN116911216B (zh) * | 2023-09-12 | 2023-11-24 | 北京凯博瑞石油科技有限公司 | 一种储层油井产能因素评估与预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yoshimura et al. | Deep learning architect: classification for architectural design through the eye of artificial intelligence | |
Kraus et al. | Classifying and segmenting microscopy images with deep multiple instance learning | |
Höllt et al. | Cytosplore: interactive immune cell phenotyping for large single‐cell datasets | |
CN115630564A (zh) | 一种能源大数据平台的数据预测方法、平台及应用 | |
CN106407278A (zh) | 一种大数据平台的架构设计系统 | |
CN103136337A (zh) | 用于复杂网络的分布式知识数据挖掘装置和挖掘方法 | |
Konikov et al. | Research of the possibilities of application of the Data Warehouse in the construction area | |
Götz et al. | On scalable data mining techniques for earth science | |
Bayer et al. | Big data mining and business intelligence trends | |
CN117453764A (zh) | 一种数据挖掘分析方法 | |
Cvetkov-Iliev et al. | Relational data embeddings for feature enrichment with background information | |
Li et al. | Big data and its key technology in the future | |
CN111708919B (zh) | 一种大数据处理方法及系统 | |
CN117473305A (zh) | 一种近邻信息增强的储层参数预测方法及系统 | |
Mengqi et al. | Exploring spatiotemporal changes in cities and villages through remote sensing using multibranch networks | |
Riedel et al. | High productivity data processing analytics methods with applications | |
Adil et al. | A framework for weak signal detection in competitive intelligence using semantic clustering algorithms | |
Yi et al. | An Effective Approach for determining Rock Discontinuity sets using a modified Whale optimization Algorithm | |
Kravets et al. | Development of a module for predictive modeling of technological development trends | |
CN115438115A (zh) | 油田综合研究大数据样本标注方法 | |
Gonzalez Obando et al. | Icytomine: A user-friendly tool for integrating workflows on whole slide images | |
Srinivasarao et al. | Introduction to data science: Review, challenges, and opportunities | |
Kosmopoulos et al. | The use of deep learning in the classification of buildings at the post-revolutionary city of Athens | |
Ulizko et al. | Graph visualization of the characteristics of complex objects on the example of the analysis of politicians | |
Ahmed et al. | XML-based data model and architecture for a knowledge-based grid-enabled problem-solving environment for high-throughput biological imaging |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20230120 |
|
WW01 | Invention patent application withdrawn after publication |