CN118051492A - 基于分布式架构的井数据管理方法和系统 - Google Patents
基于分布式架构的井数据管理方法和系统 Download PDFInfo
- Publication number
- CN118051492A CN118051492A CN202211429286.6A CN202211429286A CN118051492A CN 118051492 A CN118051492 A CN 118051492A CN 202211429286 A CN202211429286 A CN 202211429286A CN 118051492 A CN118051492 A CN 118051492A
- Authority
- CN
- China
- Prior art keywords
- well
- file
- quality inspection
- files
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000013523 data management Methods 0.000 title claims abstract description 29
- 238000007689 inspection Methods 0.000 claims abstract description 131
- 230000001360 synchronised effect Effects 0.000 claims abstract description 25
- 238000012795 verification Methods 0.000 claims abstract description 11
- 230000007246 mechanism Effects 0.000 claims abstract description 9
- 238000013528 artificial neural network Methods 0.000 claims description 23
- 239000011159 matrix material Substances 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 11
- 238000003062 neural network model Methods 0.000 claims description 10
- 238000012360 testing method Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000003908 quality control method Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 claims description 3
- BTCSSZJGUNDROE-UHFFFAOYSA-N gamma-aminobutyric acid Chemical compound NCCCC(O)=O BTCSSZJGUNDROE-UHFFFAOYSA-N 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000000275 quality assurance Methods 0.000 claims description 3
- 230000002123 temporal effect Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 2
- 238000013517 stratification Methods 0.000 claims description 2
- 238000007726 management method Methods 0.000 abstract description 8
- 238000011160 research Methods 0.000 description 5
- 210000004027 cell Anatomy 0.000 description 4
- 239000003208 petroleum Substances 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000003129 oil well Substances 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 101150035983 str1 gene Proteins 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了基于分布式架构的井数据管理方法和系统,所述方法包括以下步骤:分站点根据命名规则将井文件进行上传;对分站点上传的井文件进行质检校验,对质检合格的井文件进行入库。在各站点之间,去建一个统一的标准管理的机制,按照统一的命名标准去收集数据,使各站点收集井数据的命名都保持一致性,收集的井数据能够在各站点之间做同步,实现站点间的数据共享。
Description
技术领域
本发明涉及石油石化技术领域,尤其涉及基于分布式架构的井数据管理方法和系统。
背景技术
石油研究工作需要应用大量井数据,井数据根据地质单元划分,有明确命名规则。在目前的油井研究过程中,研究人员根据工作需求自行收集所要研究的油井的数据,并且收集后由该研究人员自己管理,各单位人员收集的数据不共享。但是,目前的研究人员在数据收集和管理由各自自由进行,没有统一的标准,从而导致同样的数据命名不一致。
全国范围内存在众多需要研究井数据的研究单位,并且研究单位分布在全国多个地区,不同单位之间会对同一地区的数据做研究。也就是不同单位需要用到同一个井的数据,因此,井数据的规范化存储和管理是非常有必要的。
发明内容
本发明目的在于提供基于分布式架构的井数据管理方法和系统,将各地站点收集井文件数据的命名都是保持一致性。
为实现上述目的,本发明提供一种基于分布式架构的井数据管理方法,包括:
分站点根据命名规则将井文件进行上传;
对分站点上传的井文件进行质检校验,对质检合格的井文件进行入库。
进一步的,分站点根据命名规则将井文件进行上传,包括,
中心站点建立井数据的命名规则,并同步至分站点;
分站点根据井数据的命名规则将井文件进行上传。
进一步的,对分站点上传的井文件进行质检校验,对质检合格的井文件进行入库,包括,
对上传的井文件进行解析,获得解析后的井文件;
对解析后的井文件进行特征提取,再确定井文件的类型;
对确定类型后的井文件进行各个字段的匹配,将完成匹配的井文件进行质检,对质检合格的井文件进行入库。
进一步的,对上传的井文件进行解析,获得解析后的井文件,包括,
利用智能数据文件解析的方式,识别每种井文件类型的扩展名;
根据不同的井文件的扩展名采取不同方式进行文件读取;
并将井文件中的字符串数据转换成数组形式,生成转换后的井文件;
利用DataFrame对转换后的井文件进行解析。
进一步的,对解析后的井文件进行特征提取,包括,
通过正则匹配的方式,依次提取解析后的井文件中的各个字段的特征;
其中,提取的各个字段的特征包括元素长度特征、纯数字类型特征、时间类型特征以及组合方式类型特征。
进一步的,提取的各个字段的特征包括元素长度特征、纯数字类型特征、时间类型特征以及组合方式类型特征,包括,
所述元素长度特征包括:提取对应字段的元素长度位数;
所述纯数字类型特征包括:判断提取的对应字段的数据类型是否全部为数值型:若是,则提取对应字段的最小值、最大值、均值、方差和最小位数;若否,则将所述字段的纯数字特征中记录为空;
所述时间类型特征包括:判断提取的对应字段是否含有时间特征:若是则在对应字段的时间类型特征中标记为1;若否,则将对应字段的时间类型记录为空;
所述组合方式类型特征包括:判断提取的对应字段是否全部为一种数据类型组成,若是,则将对应字段的组合方式类型特征记录为空;若否,则记录对应字段中各种文字、数字和符号相对应的信息。
进一步的,再确定井文件的类型,包括,
通过与不同类型的井文件的最少字段进行匹配,以实现井文件类型相似度的匹配,包括:
依次提取解析后的井文件中各个字段的特征后,依次计算所述解析后的井文件的各个字段与不同类型井文件中的各个最少字段的相似度,确定所述解析后的井文件类型;
其中,所述最少字段表示该类型的井文件上传必须有的字段;
井文件类型包括井头文件、井轨迹文件、测井曲线文件、井分层文件和岩性文件。
进一步的,依次计算所述解析后的井文件的各个字段与不同类型井文件中各个最少字段的相似度,包括,
在对其中一类型的目标井文件进行相似度匹配比较时,分别计算解析后的井文件中各个字段的特征与所述目标井文件的最少字段的相似度,获得相似度矩阵;
根据相似度矩阵中每个最少字段的最高相似度计算相似度平均值,获取所述解析后的井文件与所述目标井文件的最终相似度。
进一步的,通过下式计算解析后的井文件中各个字段的特征与所述目标井文件的最少字段的相似度:
其中,Simis,ls表示解析后的井文件中字段s与目标井文件中最少字段ls的相似度,F(s,ls),f表示解析后的井文件中字段s与目标井文件中最少字段ls在特征f下的差异度,Hf表示特征f的权重;f表示字段的特征,包括字段的元素长度特征、纯数字类型特征、时间类型特征以及组合方式类型特征。
进一步的,所述差异度采用Needleman-Wunsch算法计算;
采用基于投票机制的权重计算策略,计算每种井文件中字段特征的权重。
进一步的,计算每种井文件类型中字段特征的权重,包括,
提取解析后的井文件的所有字段特征作为数据集,并将数据集划分为训练集和测试集;
基于所述训练集,分别训练出四个与特征有关的基于LSTM的神经网络模型;其中,所述每个所述神经网络模型都是单特征的分类器;
基于测试集分别测试四个所述分类器的分类效果,统计并获得正确分类个数;其中,所述正确分类个数分别表示四个特征下的正确分类数;
对特征的正确分类数进行归一化处理,获取对应特征的权重。
进一步的,对确定类型后的井文件进行各个字段的匹配,包括,
计算确定类型后的井文件中的各个字段与对应类型井文件的所有字段的相似度;
采用对应类型井文件相似度高的字段名作为确定类型后的井文件中对应字段的字段名。
进一步的,将完成匹配的井文件进行质检,对质检合格的井文件进行入库,包括,
上传至目标数据库时,根据智能质检算法对完成匹配的井文件与目标数据库中已有的对应类型井文件进行质检比较;
质检合格的井文件才能进行入库上传至对应的目标数据库中。
进一步的,质检合格的井文件才能进行入库上传至对应的目标数据库中,包括,
根据质检后的井文件的质检得分,确定质检后的井文件是否能够入库,包括:
若质检后的井文件的质检得分大于等于第一阈值,则对质检后的井文件进行入库操作;
若质检后的井文件的质检得分小于第一阈值且大于等于第二阈值,则对质检后的井文件进行人工判断是否入库或者放弃入库;
若质检后的井文件的质检得分小于第二阈值,则质检后的井文件放弃入库。
进一步的,通过下式计算所述井文件的质检得分:
其中,acc表示质检后的井文件的质检得分,n表示质检因子总数,i表示质检因子数,D(a,b),i表示在质检因子等于i时,匹配后的井文件a与目标数据库中对应类型井文件b的相关程度;其中Wi表示质检因子i的权重系数。
进一步的,根据所述井文件的质检得分公式,获得质检后的井文件是否入库取决于质检因子的相关程度;
其中,不同类型的井文件有不同的质检因子数量;
质检因子的相关程度通过Levenshtein ratio算法,获取匹配后的井文件和目标数据库中已有的该类型井文件的编辑距离。
进一步的,所述质检因子的权重系数根据模糊TS神经网络确定,包括:
根据完成匹配的井文件的类型,确定对应类型井文件的质检因子的相关数据,并组成数据集;
将所述数据集输入至所述模糊TS神经网络中完成分类,并统计模糊TS神经网络模型中正确预测的个数;
对所述正确预测的个数进行归一化,作为该匹配后的井文件得到质检因子的权重系数。
进一步的,质检合格的井文件才能进行入库上传至对应的目标数据库中,包括,
上传井文件至分站点数据时,通过质检比较,确定完成上传的井文件数据与分站点数据库中的信息是否存在重复,将质检合格的井文件数据上传至分站点数据库中;和/或,
将分站点数据库中的井文件同步至中心站点时,通过质检比较,确定分站点数据库中的井文件数据与中心站点数据库中的信息是否存在重复,将质检合格的井文件数据同步至中心站点数据库中;和/或,
将中心站点数据库中的井文件数据同步至分站点时,通过质检比较,确定中心站点数据库中的井文件数据与分站点数据库中的信息是否存在重复,将质检合格的井文件数据同步至分站点数据库中。
本发明还提供一种基于分布式架构的井数据管理系统,所述系统包括分站点、同步模块;
所述分站点,用于根据命名规则将井文件进行上传;
所述同步模块,用于对分站点上传的井文件数据进行质检校验。
进一步的,所述系统包括中心站点;
所述中心站点用于建立井数据的命名规则并同步至分站点;所述中心站点用于对通过同步模块质检的分站点中的井文件数据,进行同步入库;
所述中心站点还用于将各分站点同步汇总的井文件数据,根据业务需求推送至其他需要所述井文件数据的分站点中;
所述同步模块用于对分站点同步至中心站点或中心站点同步至分站点的井文件数据进行质检校验;
所述分站点用于对通过同步模块质检的分站点上传或中心站点同步的井文件数据进行入库。
本发明的技术效果和优点:在各站点之间,去建一个统一的标准管理的机制,按照统一的命名标准去收集数据,使各站点收集井数据的命名都保持一致性,收集的井数据能够在各站点之间做同步,实现站点间的数据共享。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的基于分布式架构的井数据管理方法的步骤流程;
图2为本发明实施例的基于分布式架构的井数据管理方法的详细步骤流程图;
图3为本发明实施例的模糊神经网络的结构图;
图4为本发明实施例的基于分布式架构的井数据管理系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在石油的基本管理要求中,每一个油井都有各自的命名规则,命名规则与地质单元有关。由于个人收集的标准和命名的不一致。因此,将各地收集数据的命名都是保持一致性。收集的数据能够在各单位之间做同步,实现单位间的数据共享。在各单位之间,去建一个统一的标准管理的机制,按照统一的命名标准去收集数据。各地收集数据的命名都保持一致性。
由于用户收集的数据体量比较大,所以不能将全部的数据都存放在统一平台,用户通过网络去做这种远程的调用。因此,一般的石油行业的研究数据应用都存放在本地。但是,由于要对整体的数据规则和内容进行管理,因此,要建立整套的平台管理体系。包括中心站点和分站点,中心站点是固定的;分站点不是固定的,用户在哪,分站点就设置在哪里。
为解决现有技术的不足,本发明实施例公开了一种基于分布式架构的井数据管理方法,如图1所示,包括以下步骤:
S1:分站点根据命名规则将井文件进行上传;
S2:对分站点上传的井文件数据进行校验,对质检合格的井文件进行入库。
具体步骤如下:
为了保证各地收集的井数据的命名保持一致性,建立一个统一的标准管理机制,按照统一的命名标准去收集数据。
设置中心站点和各个分站点,在中心站点建立井数据的命名规则,并同步至各个分站点。
分站点的研究人员在各自研究井数据时,根据命名规则在本站点将井文件上传至平台程序上。
平台程序对分站点上传的井文件进行校验,检验通过的井文件能够同步至中心站点中,以便中心站点对所有的井数据进行管理;如图2所示,具体为:
平台程序对上传的原始井文件数据进行解析,获得解析后的井文件;然后对解析后的井文件进行特征提取,并确定井文件的类型;对确定类型后的井文件进行各个字段的匹配,将完成匹配的井文件进行质检,通过质检的井文件才能够进行入库。
具体操作为:
在构建勘探地震地质数据资源池的过程中,收集到的数据均为原始井文件数据,这类数据呈现数据量大、文件类型多、文件命名方式不统一的现象。因此,利用智能数据文件解析的方式,识别每种井文件类型的扩展名;根据不同的井文件的扩展名采取不同方式进行文件读取,并将井文件中的字符串处理成数组形式,最后利用DataFrame解析数据,解析后的数据为固定的结构。
其中,主要的井文件包括测井曲线文件、井头文件、井轨迹文件、井分层文件、岩性文件等。井文件类型包括.las类型的、excel类型、prn、txt、dat等。
通过正则匹配的方式,依次提取解析后的井文件中的各个字段的特征;提取的特征主要包括元素长度特征、纯数字类型特征、时间类型特征以及组合方式类型特征。
其中,元素长度特征主要提取该字段的元素长度是多少位;例如元素“abc”长度为3位。
纯数字类型特征首先判断该字段的类型是否全为数值型,若是,则提取该列数据最小值、最大值、均值、方差和最小位数;若否,则将该字段的纯数字特征记录为空。
时间类型特征通过判断该类数据是否含有时间特征(比如含有两个“:”,或是两个“-”),若是,则在时间类型特征中标记为1;若否,则将该字段的时间类型特征记录为空。
组合方式特征首先判断该字段是否全部由一种数据类型组成,若是,则将该字段的组合方式类型特征记录为空;若否,则记录数据中的中文,英文,数字、符号等信息,具体的匹配方式如表1所示:
表1组合方式下的正则匹配方法
为了确定井文件的所属类型,包括:
通过与不同类型的井文件的各个最少字段进行匹配,以实现井文件类型相似度的匹配;
具体各个井文件的最少字段如表2所示:
表2不同井文件的最少字段
文件类型 | 字段名 |
井头文件 | 井名、X坐标、Y坐标、海拔 |
井轨迹文件 | 测深、井斜角、方位角 |
测井曲线文件 | 深度、线值 |
井分层文件 | 井名、层名、底深 |
岩性文件 | 井名、岩性、底深 |
具体的匹配方法为:
首先依次提取解析后的井文件中各个字段的特征(为上述所描述的长度特征、纯数字类型特征、时间类型特征以及组合方式类型特征);
然后依次计算解析后的井文件的各个字段与不同类型井文件中的最少字段的相似度,以确定所述解析后的井文件类型;其中,最少字段表示为该类型的井文件上传必须有的一些字段。
其中,相似度计算的过程包括:在对其中一类型的目标井文件进行匹配比较时,分别计算解析后的井文件中各个字段的特征与该目标井文件的最少字段的相似度,获得相似度矩阵;
根据相似度矩阵中每个最少字段的最高相似度计算相似度平均值,获取所述解析后的井文件与该目标井文件的最终相似度;其中每个最少字段的最高相似度表示相对应的解析后的井文件的字段。
相似度矩阵的形式如表3所示,其中,待上传文件表示解析后的井文件,目标井文件表示解析后的井文件进行相似度匹配比较时的其中一个类型的目标井文件。
表3相似度矩阵
例如,解析后的井文件在与井分层文件进行匹配比较时,是将待上传文件的每一列的特征分别与井分层文件的井名,层名,底深的特征(长度特征、纯数字类型特征、时间类型特征以及组合方式类型特征)计算相似度,得出相似度矩阵,相似度矩阵中的最高相似度,即为解析后的井文件中的字段对应的目标井文件中的最少字段;
通过表3发现,最少字段1的最高相似度为0.74,最少字段2的最高相似度为0.84,最少字段3的最高相似度为0.93,因此,字段1对应表中最少字段1,字段3对应表中最少字段3,字段7对应表中最少字段2,通过将匹配后的每个最少字段的最高相似度计算其平均值,即为该解析后的井文件与此目标井文件的最终相似度。
假如该该解析后的井文件与井分层文件的最终相似度为0.933,与岩性文件的最终相似度为0.54,与井头文件的最终相似度为0.32,则最终该解析后的井文件将被认定为井分层文件。
其中,通过下式计算解析后的井文件中各个字段的特征与所述目标井文件的最少字段的相似度:
其中,Simis,ls表示解析后的井文件中字段s与目标井文件中最少字段ls的相似度,F(s,ls),f表示解析后的井文件中字段s与目标井文件中最少字段ls在特征f下的差异度,Hf表示特征f的权重;f表示字段的特征,包括字段的元素长度特征、纯数字类型特征、时间类型特征以及组合方式类型特征。
其中,相似度的计算主要由两部分组成,各特征的权重以及待上传文件与目标文件在某特征下的差异度两部分决定。
差异度是采用Needleman-Wunsch算法,该算法可以动态的比较任意两序列A和B之间的差异程度LCS(A,B)。
若A=a1a2……aN,表示A是由a1a2……aN这N个字符组成,Len(A)=N;
若B=b1b2……bM,表示B是由b1b2……bM这M个字符组成,Len(B)=M;
定义LCS(t,j)=LCS(a1a2……at,b1b2……bj),其中0≤t≤N,0≤j≤M;
故:LCS(N,M)=LCS(A,B),LCS(0,0)=0,LCS(0,j)=0,LCS(t,0)=0
对于1≤t≤N,1≤j≤M,获得下列公式(3):
若at=bj,则LCS(t,j)=LCS(t-1,j-1)+1
若at≠bj,则LCS(t,j)=Max(LCS(t-1,j-1),LCS(t-1,j),LCS(t,j-1))
举例说明,假如有两个序列A与B,A=GGATCGA,B=GAATTCAGTTA,计算LCS(A,B)
第一步:初始化LCS矩阵
G | A | A | T | T | C | A | G | T | T | A | ||
0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | |
G | 0 | |||||||||||
G | 0 | |||||||||||
A | 0 | |||||||||||
T | 0 | |||||||||||
C | 0 | |||||||||||
G | 0 | |||||||||||
A | 0 |
第二步:利用上述公式(3),计算矩阵的第一行
G | A | A | T | T | C | A | G | T | T | A | ||
0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | |
G | 0 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 |
G | 0 | |||||||||||
A | 0 | |||||||||||
T | 0 | |||||||||||
C | 0 | |||||||||||
G | 0 | |||||||||||
A | 0 |
第三步:利用上述公式(3),计算矩阵的其余各行
则,两个序列A和B之间的差异程度LCS(A,B)=LCS(7,11)=6。
为了得出每种井文件类型的权重,本专利采用基于投票机制的权重计算策略,计算每种井文件中字段特征的权重;
其中,投票机制广泛使用在机器学习中,该方式有效的避免了由一种分类器进行判别会产生较大误差的情况,基于投票机制的算法,也可称为多专家算法,是通过同时训练多个分类器,并将各个分类器的结果进行综合作为最终的结果。
计算权重的具体步骤为:
提取解析后的井文件的所有字段特征作为数据集,并将数据集划分为训练集和测试集;
基于所述训练集,分别训练出四个与特征有关的基于LSTM的神经网络模型;其中,所述每个所述神经网络模型都是单特征的分类器;
基于测试集分别测试四个所述分类器的分类效果,统计并获得正确分类个数;其中,所述正确分类个数分别表示四个特征下的正确分类数;
对特征的正确分类数进行归一化处理,获取对应特征的权重。
确定井文件的类型后,依次匹配确定类型后的井文件中的各个字段的字段名;字段名的匹配方式同样根据“井文件类型确定”中的相似度计算的方式进行确定相似度,同样采用相似度高的字段名作为该字段的字段名。
举例说明,比如确定类型后的井文件已经确定为是井分层文件,则将确定类型后的井文件中的每个字段依次与井分层文件中的所有字段进行相似度计算,得出相似度矩阵如表4所示,进而完成字段名的匹配;
如表4可知,待上传文件表示为确定类型后的井文件,待上传文件的字段1对应目标井文件的字段1,待上传文件的字段2对应目标井文件的字段4,待上传文件的字段3对应目标井文件的字段3,待上传文件的字段4对应目标井文件的字段5,待上传文件的字段5对应目标井文件的字段6,待上传文件的字段6对应目标井文件的字段2。
表4待上传文件与确定文件的各字段相似度矩阵
将完成匹配的井文件进行质检,对通过质检的井文件进行入库,具体为:
上传至目标数据库时,根据智能质检算法对完成匹配的井文件与目标数据库中已有的该类型井文件进行质检比较;
质检合格的井文件才能进行入库上传至对应的目标数据库中,最终上传至中心站点数据库中进行同步。
其中,根据质检后的井文件的质检得分,确定质检后的井文件是否能够入库,包括:
通过下式计算所述井文件的质检得分:
其中,acc表示质检后的井文件的质检得分,n表示质检因子总数,i表示质检因子数,D(a,b),i表示在因子等于i时,匹配后的井文件a与目标数据库中该类型井文件b的相关程度;其中Wi表示质检因子i的权重系数,当i等于1时表示质检因子数量等于1,即是否入库仅取决于质检因子的相关度。
若质检后的井文件的质检得分≥第一阈值(列如0.85),则对质检后的井文件进行入库操作;
若第二阈值(列如0.75)≤质检后的井文件的质检得分<第一阈值(列如0.85),则对质检后的井文件进行人工判断是否入库或者放弃入库;
若质检后的井文件的质检得分<第二阈值(列如0.75),则质检后的井文件放弃入库。
其中,如表5所示,不同类型的井文件有不用的质检因子数量;
表5不同类型的文件的质检因子数
文件类型 | 质检因子 |
井头 | 井名、井口X、Y坐标、井底X、Y坐标 |
井轨迹 | 井名 |
测井曲线 | 井名、深度、曲线值 |
分层 | 井名、层名、底深 |
质检因子的相关程度通过Levenshtein ratio算法,获取匹配后的井文件和目标数据库中已有的该类型井文件的编辑距离。
其中,Levenshtein.ratio是通过计算莱文斯坦比来得到相似度。
首先介绍Levenshtein距离,也称为编辑距离。所谓编辑距离,就是用来计算从原串(str1)转换到目标串(str2)所需要的最少的操作次数(操作次数也称为编辑距离),在其中的操作包括插入、删除、替换。
以计算字符串“abc”“abe”的相似度为例。
a)初始化二维数组:
空 | a | b | c | |
空 | 0 | 1 | 2 | 3 |
a | 1 | ① | ||
b | 2 | |||
e | 3 |
这里初始化为1表示从空字符串变到a,需要插入一次,编辑距离为12表示从空字符串变到ab需要插入两次,编辑距离为2,3同理。
b)处理其他单元格:
以①这个单元格为例,这一单元格的数值取决于他左侧、上侧和左上角的位置。
1)左侧+1删除,
2)上侧+1插入,
3)如果格子对应行列字母不同,左上角+1,否则+0替换,取三者的最小值,即为当前单元格的值,①填0。
依次填完整个表,如下:
空 | a | b | c | |
空 | 0 | 1 | 2 | 3 |
a | 1 | 0 | 1 | 2 |
b | 2 | 1 | 0 | 1 |
e | 3 | 2 | 1 | 1 |
最后发现,从abc变到abe只需要1步(编辑距离),即为右下角的值。
最后计算相似度r=1-step/maxlen(str1,str2)=1-1/3=2/3。
接下来介绍Levenshteinratio算法,如公式(4)所示:
Levenshtein.ratio和Levenshtein.distance主要是计算方式上有细微不同。
Levenshtein.ratio是通过计算莱文斯坦比来得到相似度。
r=(sum-ldist))/sum (4)
其中sum是指str1和str2字串的长度总和,ldist是类编辑距离。
注:这里的类编辑距离不是上述所说的编辑距离,Levenshtein.distance中三种操作中每个操作+1,而在此处,删除、插入依然+1,但是替换+2。
这样设计的目的:以ratio(‘a’,‘c’)为例,需要替换一次,总长度sum=2。按Levenshtein距离方法计算,替换操作+1,则r=(2-1)/2=0.5,但是‘a’和‘c’没有重合,显然不合算,如果替换操作+2,就可以解决这个问题。
“abc”变“abe”的二维数组就变为:
空 | a | b | c | |
空 | 0 | 1 | 2 | 3 |
a | 1 | 0 | 1 | 2 |
b | 2 | 1 | 0 | 1 |
e | 3 | 2 | 1 | 2 |
从abc变到abe需要2步,r=(6-2)/6=2/3。
所述质检因子的权重系数根据模糊TS神经网络确定,模糊神经网络(FuzzyNeural Network)是模糊理论以及神经网络相结合的产物,它汇集了神经网络与模糊理论的优点,是具有模糊权系数的神经网络。
模糊神经网络的本质是将常规的模型神经网络赋予模糊的输入信息和模糊权值,所以模糊神经网络的神经元构造方式和神经网络的学习算法紧密相连的。模糊神经网络按照模糊逻辑的步骤进行分层构造,再利用神经网络的训练算法来调节参数。
下面介绍本文所使用的模糊TS神经网络模型的结构。网络整体分为四层,包括输入层、模糊化层、模糊推理层以及输出层,为方便理解本文以简单的示意图的形式表示模糊神经网络的示意图,如图3所示,其中x表示输入,y表示输出。
模糊TS神经网络将TS多项式形式作为模糊规则的输出,TS多项式的表达式如公式(5)所示:
fTS(x1,…,xn)=p0+p1x1+…+pnxn (5)
其中,fTS(x1,…,xn)表示TS多项式的表达式,xn表示第n个输入,pn表示常系数;
模糊TS神经网络的模糊规则表述如下:
模糊TS神经网络的基本结构与模糊小波神经网络基本相同,采用公式(6)表示:
其中,uiλ表示输入变量xi对模糊子集Fiλ的隶属度函数。对应的高斯函数对输入进行模糊化,模糊算子采用其中,xi表示输入变量,miλ和σiλ分别对应第λ条规则中第i个输入的中心和宽度。
具体步骤包括:
根据完成匹配的井文件的类型,确定对应类型井文件的质检因子的相关数据,并组成数据集;
将所述数据集输入至所述模糊TS神经网络中完成分类,并统计模糊TS神经网络模型中正确预测的个数;
对所述正确预测的个数进行归一化,作为该匹配后的井文件得到质检因子的权重系数。
质检合格的井文件才能进行入库上传至对应的目标数据库中,有三种情况,包括,
当需要上传井文件至分站点数据库时需要进行质检比较,确定完成匹配后的井文件数据信息与目标数据库(即分站点数据库)中的信息是否重复,将质检合格的井文件数据上传至分站点数据库中;
当分站点需要将分站点数据库中的井文件数据同步至中心站点时,需要进行质检比较,确定分站点数据库的井文件数据信息与目标数据库(即中心站点数据库)中的信息是否存在重复,对质检合格的井文件数据同步至中心站点数据库。
当中心站点需要将中心站点数据库中的井文件数据,同步至分站点时,需要进行质检比较,确定中心站点数据库中的井文件数据信息与目标数据库(即其他分站点数据库)中的信息是否存在重复,对质检合格的井文件数据同步至分站点数据库中;
其中,相同井名的井文件数据可能存在不同的版本。因此,井文件数据同步时,还需要确定所同步的数据所属的版本。若重复,则可以不进行同步或覆盖原来的数据,若不重复,则可能需要进行多版本的管理。
井数据包括井头和井斜,代表了井的地表坐标和井的地下轨迹,其唯一界定了一个井。但是也有些其他数据,例如,测井曲线、分层等,因此,就有了同一个井的不同版本的数据。在不同的版本中,还有不同年份版本的数据。例如,测井曲线有不同年份的版本数据。分站点在需要相关的井数据时,可以选择不同的版本进行研究。
通过以上步骤即完成了文件从输入、解析、确定文件类型、依次匹配字段以及是否进行入库等一些列操作。
本发明实施例还提供一种基于分布式架构的井数据管理系统,如图4所示,所述系统包括分站点、同步模块和中心站点;
所述中心站点,用于建立井数据的命名规则,并同步至分站点;所述中心站点还用于对通过同步模块质检的分站点中的井文件数据,进行同步入库;
所述中心站点还用于将各分站点同步汇总的井数据,根据业务需求推送至其他需要所述井文件数据的分站点中。
所述分站点,用于根据命名规则将井文件进行上传;所述分站点还用于对通过同步模块质检的分站点上传或中心站点同步的井文件数据进行入库;
所述同步模块,用于对分站点上传的井文件数据进行校验,以及用于对分站点同步至中心站点或中心站点同步至分站点的井文件数据进行质检校验。
关于上述实施例中的系统,其中各个单元模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
以下是应用本发明方法的实施例:
井命名规范:
同一地质单元下井名唯一,管理员按要求定义井名字典;
斜井在直井的基础上加X后缀,如LH1_X井;
一、单版本数据(以井筒为例)
通过井筒类型判断是单井或丛式井
单井:井名、井口X、Y坐标(相同或有3m内误差);
例:LH1井,X坐标:12345678.9,Y坐标:1234567.8;
lh1井,X坐标:12345679.9,Y坐标:1234568.8;
判断LH1和lh1为同一口井,同步时可去重;
丛式井:井名、井口X、Y坐标(相同或有3m内误差)、井底X、Y坐标(相同或有3m内误差);
例:B14井,井口X坐标:12345678.9,井口Y坐标:1234567.8;井底X坐标:12344678.9,井底Y坐标:1234467.8;
b14井,井口X坐标:12345678.9,井口Y坐标:1234567.8;井底X坐标:12344678.9,井底Y坐标:1234467.8;
B18井,井口X坐标:12345680.9,井口Y坐标:1234565.8;井底X坐标:12345478.9,井底Y坐标:1234547.8;
①B14井和b14井,井口坐标和井底坐标均相同,判断为同一口井,同步时可去重;
②B14井和B18井,井口坐标在3m误差内,井底坐标不同,判断为丛式井,同步时作为不同实体同步汇总。
二、多版本数据(以测井曲线为例)
①井名相似(大小写)则进行下一步质检,不相似则没有井筒数据无法录入/同步;
例:B14和b14井,进入第二步质检;
②分析文件“深度”和“曲线值”,同一深度对应的曲线值均相同则认为是重复数据,录入/同步时可跳过,不相同则认为是其他版本,在当前站点“版本号”+1入库。
例:B14井的深度和测井曲线值对应关系为:
b14井的深度和测井曲线值对应关系为
则判断是其他版本,在当前站点“版本号”+1入库。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (20)
1.基于分布式架构的井数据管理方法,其特征在于,包括:
分站点根据命名规则将井文件进行上传;
对分站点上传的井文件进行质检校验,对质检合格的井文件进行入库。
2.根据权利要求1所述的基于分布式架构的井数据管理方法,其特征在于,分站点根据命名规则将井文件进行上传,包括,
中心站点建立井数据的命名规则,并同步至分站点;
分站点根据井数据的命名规则将井文件进行上传。
3.根据权利要求1所述的基于分布式架构的井数据管理方法,其特征在于,对分站点上传的井文件进行质检校验,对质检合格的井文件进行入库,包括,
对上传的井文件进行解析,获得解析后的井文件;
对解析后的井文件进行特征提取,再确定井文件的类型;
对确定类型后的井文件进行各个字段的匹配,将完成匹配的井文件进行质检,对质检合格的井文件进行入库。
4.根据权利要求3所述的基于分布式架构的井数据管理方法,其特征在于,对上传的井文件进行解析,获得解析后的井文件,包括,
利用智能数据文件解析的方式,识别每种井文件类型的扩展名;
根据不同的井文件的扩展名采取不同方式进行文件读取;
并将井文件中的字符串数据转换成数组形式,生成转换后的井文件;
利用DataFrame对转换后的井文件进行解析。
5.根据权利要求3或4所述的基于分布式架构的井数据管理方法,其特征在于,对解析后的井文件进行特征提取,包括,
通过正则匹配的方式,依次提取解析后的井文件中的各个字段的特征;
其中,提取的各个字段的特征包括元素长度特征、纯数字类型特征、时间类型特征以及组合方式类型特征。
6.根据权利要求5所述的基于分布式架构的井数据管理方法,其特征在于,提取的各个字段的特征包括元素长度特征、纯数字类型特征、时间类型特征以及组合方式类型特征,包括,
所述元素长度特征包括:提取对应字段的元素长度位数;
所述纯数字类型特征包括:判断提取的对应字段的数据类型是否全部为数值型:若是,则提取对应字段的最小值、最大值、均值、方差和最小位数;若否,则将所述字段的纯数字特征中记录为空;
所述时间类型特征包括:判断提取的对应字段是否含有时间特征:若是则在对应字段的时间类型特征中标记为1;若否,则将对应字段的时间类型记录为空;
所述组合方式类型特征包括:判断提取的对应字段是否全部为一种数据类型组成,若是,则将对应字段的组合方式类型特征记录为空;若否,则记录对应字段中各种文字、数字和符号相对应的信息。
7.根据权利要求3所述的基于分布式架构的井数据管理方法,其特征在于,再确定井文件的类型,包括,
通过与不同类型的井文件的最少字段进行匹配,以实现井文件类型相似度的匹配,包括:
依次提取解析后的井文件中各个字段的特征后,依次计算所述解析后的井文件的各个字段与不同类型井文件中的各个最少字段的相似度,确定所述解析后的井文件类型;
其中,所述最少字段表示该类型的井文件上传必须有的字段;
井文件类型包括井头文件、井轨迹文件、测井曲线文件、井分层文件和岩性文件。
8.根据权利要求7所述的基于分布式架构的井数据管理方法,其特征在于,依次计算所述解析后的井文件的各个字段与不同类型井文件中各个最少字段的相似度,包括,
在对其中一类型的目标井文件进行相似度匹配比较时,分别计算解析后的井文件中各个字段的特征与所述目标井文件的最少字段的相似度,获得相似度矩阵;
根据相似度矩阵中每个最少字段的最高相似度计算相似度平均值,获取所述解析后的井文件与所述目标井文件的最终相似度。
9.根据权利要求8所述的基于分布式架构的井数据管理方法,其特征在于,
通过下式计算解析后的井文件中各个字段的特征与所述目标井文件的最少字段的相似度:
其中,Simis,ls表示解析后的井文件中字段s与目标井文件中最少字段ls的相似度,F(s,ls),f表示解析后的井文件中字段s与目标井文件中最少字段ls在特征f下的差异度,Hf表示特征f的权重;f表示字段的特征,包括字段的元素长度特征、纯数字类型特征、时间类型特征以及组合方式类型特征。
10.根据权利要求9所述的基于分布式架构的井数据管理方法,其特征在于,
所述差异度采用Needleman-Wunsch算法计算;
采用基于投票机制的权重计算策略,计算每种井文件中字段特征的权重。
11.根据权利要求10所述的基于分布式架构的井数据管理方法,其特征在于,计算每种井文件类型中字段特征的权重,包括,
提取解析后的井文件的所有字段特征作为数据集,并将数据集划分为训练集和测试集;
基于所述训练集,分别训练出四个与特征有关的基于LSTM的神经网络模型;其中,所述每个所述神经网络模型都是单特征的分类器;
基于测试集分别测试四个所述分类器的分类效果,统计并获得正确分类个数;其中,所述正确分类个数分别表示四个特征下的正确分类数;
对特征的正确分类数进行归一化处理,获取对应特征的权重。
12.根据权利要求3所述的基于分布式架构的井数据管理方法,其特征在于,对确定类型后的井文件进行各个字段的匹配,包括,
计算确定类型后的井文件中的各个字段与对应类型井文件的所有字段的相似度;
采用对应类型井文件相似度高的字段名作为确定类型后的井文件中对应字段的字段名。
13.根据权利要求3所述的基于分布式架构的井数据管理方法,其特征在于,将完成匹配的井文件进行质检,对质检合格的井文件进行入库,包括,
上传至目标数据库时,根据智能质检算法对完成匹配的井文件与目标数据库中已有的对应类型井文件进行质检比较;
质检合格的井文件才能进行入库上传至对应的目标数据库中。
14.根据权利要求3所述的基于分布式架构的井数据管理方法,其特征在于,质检合格的井文件才能进行入库上传至对应的目标数据库中,包括,
根据质检后的井文件的质检得分,确定质检后的井文件是否能够入库,包括:
若质检后的井文件的质检得分大于等于第一阈值,则对质检后的井文件进行入库操作;
若质检后的井文件的质检得分小于第一阈值且大于等于第二阈值,则对质检后的井文件进行人工判断是否入库或者放弃入库;
若质检后的井文件的质检得分小于第二阈值,则质检后的井文件放弃入库。
15.根据权利要求14所述的基于分布式架构的井数据管理方法,其特征在于,
通过下式计算所述井文件的质检得分:
其中,acc表示质检后的井文件的质检得分,n表示质检因子总数,i表示质检因子数,D(a,b),i表示在质检因子等于i时,匹配后的井文件a与目标数据库中对应类型井文件b的相关程度;其中Wi表示质检因子i的权重系数。
16.根据权利要求15所述的基于分布式架构的井数据管理方法,其特征在于,
根据所述井文件的质检得分公式,获得质检后的井文件是否入库取决于质检因子的相关程度;
其中,不同类型的井文件有不同的质检因子数量;
质检因子的相关程度通过Levenshtein ratio算法,获取匹配后的井文件和目标数据库中已有的该类型井文件的编辑距离。
17.根据权利要求16所述的基于分布式架构的井数据管理方法,其特征在于,所述质检因子的权重系数根据模糊TS神经网络确定,包括:
根据完成匹配的井文件的类型,确定对应类型井文件的质检因子的相关数据,并组成数据集;
将所述数据集输入至所述模糊TS神经网络中完成分类,并统计模糊TS神经网络模型中正确预测的个数;
对所述正确预测的个数进行归一化,作为该匹配后的井文件得到质检因子的权重系数。
18.根据权利要求13所述的基于分布式架构的井数据管理方法,其特征在于,质检合格的井文件才能进行入库上传至对应的目标数据库中,包括,
上传井文件至分站点数据时,通过质检比较,确定完成上传的井文件数据与分站点数据库中的信息是否存在重复,将质检合格的井文件数据上传至分站点数据库中;和/或,
将分站点数据库中的井文件同步至中心站点时,通过质检比较,确定分站点数据库中的井文件数据与中心站点数据库中的信息是否存在重复,将质检合格的井文件数据同步至中心站点数据库中;和/或,
将中心站点数据库中的井文件数据同步至分站点时,通过质检比较,确定中心站点数据库中的井文件数据与分站点数据库中的信息是否存在重复,将质检合格的井文件数据同步至分站点数据库中。
19.基于分布式架构的井数据管理系统,其特征在于,所述系统包括分站点、同步模块;
所述分站点,用于根据命名规则将井文件进行上传;
所述同步模块,用于对分站点上传的井文件数据进行质检校验。
20.根据权利要求19所述的基于分布式架构的井数据管理系统,其特征在于,所述系统包括中心站点;
所述中心站点用于建立井数据的命名规则并同步至分站点;所述中心站点用于对通过同步模块质检的分站点中的井文件数据,进行同步入库;
所述中心站点还用于将各分站点同步汇总的井文件数据,根据业务需求推送至其他需要所述井文件数据的分站点中;
所述同步模块用于对分站点同步至中心站点或中心站点同步至分站点的井文件数据进行质检校验;
所述分站点用于对通过同步模块质检的分站点上传或中心站点同步的井文件数据进行入库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211429286.6A CN118051492A (zh) | 2022-11-15 | 2022-11-15 | 基于分布式架构的井数据管理方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211429286.6A CN118051492A (zh) | 2022-11-15 | 2022-11-15 | 基于分布式架构的井数据管理方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118051492A true CN118051492A (zh) | 2024-05-17 |
Family
ID=91050794
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211429286.6A Pending CN118051492A (zh) | 2022-11-15 | 2022-11-15 | 基于分布式架构的井数据管理方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118051492A (zh) |
-
2022
- 2022-11-15 CN CN202211429286.6A patent/CN118051492A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110674841B (zh) | 一种基于聚类算法的测井曲线识别方法 | |
CN112989708B (zh) | 一种基于lstm神经网络的测井岩性识别方法及系统 | |
CN110597735A (zh) | 一种面向开源软件缺陷特征深度学习的软件缺陷预测方法 | |
CN111861756B (zh) | 一种基于金融交易网络的团伙检测方法及其实现装置 | |
CN110619084B (zh) | 一种根据图书馆读者借阅行为进行图书推荐的方法 | |
CN104462184A (zh) | 一种基于双向抽样组合的大规模数据异常识别方法 | |
CN110633371A (zh) | 一种日志分类方法及系统 | |
CN115906675B (zh) | 基于时序多目标预测模型的井位及注采参数联合优化方法 | |
CN112633328A (zh) | 一种基于深度学习的致密油藏改造效果评价方法 | |
CN110990718A (zh) | 一种公司形象提升系统的社会网络模型构建模块 | |
CN109885694B (zh) | 一种文献选择及其学习先后次序确定方法 | |
CN114896466A (zh) | 有字段名的井文件字段名自动匹配方法、系统、介质和计算机设备 | |
CN113742396A (zh) | 一种对象学习行为模式的挖掘方法及装置 | |
CN105447767A (zh) | 一种基于联合矩阵分解模型的电力用户细分方法 | |
CN114896468B (zh) | 基于神经网络的文件类型匹配方法和数据智能录入方法 | |
CN118051492A (zh) | 基于分布式架构的井数据管理方法和系统 | |
CN114862007A (zh) | 一种面向碳酸盐岩气井的短周期产气量预测方法及系统 | |
CN115471012A (zh) | 一种致密油藏水平井产能预测方法、介质及系统 | |
CN116542345A (zh) | 用于测井岩性预测的机器学习模型训练方法 | |
CN115144900A (zh) | 一种基于地震多属性聚类融合的碳酸盐岩储层厚度识别方法、系统、装置及存储介质 | |
CN116484266B (zh) | 一种精细城市用地类型识别模型训练方法 | |
CN110598776A (zh) | 一种基于类内视觉模式分享的图像分类方法 | |
CN117539920B (zh) | 基于房产交易多维度数据的数据查询方法及系统 | |
CN116578611B (zh) | 一种孕育知识的知识管理方法和系统 | |
CN114896467B (zh) | 基于神经网络的字段匹配方法和数据智能录入方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |