CN117648590B - 一种全方位伽马测井数据优化处理方法 - Google Patents
一种全方位伽马测井数据优化处理方法 Download PDFInfo
- Publication number
- CN117648590B CN117648590B CN202410124191.6A CN202410124191A CN117648590B CN 117648590 B CN117648590 B CN 117648590B CN 202410124191 A CN202410124191 A CN 202410124191A CN 117648590 B CN117648590 B CN 117648590B
- Authority
- CN
- China
- Prior art keywords
- data point
- data
- residual error
- data points
- residual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 8
- 238000005457 optimization Methods 0.000 title abstract description 7
- 230000002159 abnormal effect Effects 0.000 claims abstract description 62
- 230000005251 gamma ray Effects 0.000 claims abstract description 29
- 239000011435 rock Substances 0.000 claims abstract description 14
- 238000012545 processing Methods 0.000 claims abstract description 8
- 238000000034 method Methods 0.000 claims description 30
- 238000000354 decomposition reaction Methods 0.000 claims description 16
- 238000011156 evaluation Methods 0.000 claims description 16
- 238000010606 normalization Methods 0.000 claims description 4
- 238000003860 storage Methods 0.000 abstract description 12
- 238000005516 engineering process Methods 0.000 abstract description 4
- 230000001932 seasonal effect Effects 0.000 abstract description 3
- 230000015572 biosynthetic process Effects 0.000 description 8
- 230000002285 radioactive effect Effects 0.000 description 7
- 238000013144 data compression Methods 0.000 description 6
- 230000005856 abnormality Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 230000006835 compression Effects 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 229910052500 inorganic mineral Inorganic materials 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 239000011707 mineral Substances 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 230000035699 permeability Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000005855 radiation Effects 0.000 description 2
- 239000004576 sand Substances 0.000 description 2
- ZSLUVFAKFWKJRC-IGMARMGPSA-N 232Th Chemical compound [232Th] ZSLUVFAKFWKJRC-IGMARMGPSA-N 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 239000004215 Carbon black (E152) Substances 0.000 description 1
- 229910052776 Thorium Inorganic materials 0.000 description 1
- 229910052770 Uranium Inorganic materials 0.000 description 1
- 230000002378 acidificating effect Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- TVFDJXOCXUVLDH-RNFDNDRNSA-N cesium-137 Chemical compound [137Cs] TVFDJXOCXUVLDH-RNFDNDRNSA-N 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 229930195733 hydrocarbon Natural products 0.000 description 1
- 150000002430 hydrocarbons Chemical class 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 159000000001 potassium salts Chemical class 0.000 description 1
- 239000000523 sample Substances 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- JFALSRSLKYAFGM-UHFFFAOYSA-N uranium(0) Chemical compound [U] JFALSRSLKYAFGM-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
- G06F18/15—Statistical pre-processing, e.g. techniques for normalisation or restoring missing data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Measurement Of Radiation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及数据处理技术领域,尤其涉及一种全方位伽马测井数据优化处理方法,该方法在对地下岩石进行全方位伽马测井时,获取任一类伽马射线的强度时序序列,将强度时序序列分解为趋势项、季节项和残差项;根据残差项中的每个数据点的偏离程度,获取最优邻域半径;根据最优邻域半径对残差项中的所有数据点进行聚类,获取每个数据点的聚类等级值,根据残差项中的每个数据点的偏离程度和聚类等级值,获取异常数据点;对残差项中的异常数据点进行标记,对趋势项、季节项和标记后的残差项分别进行压缩存储,在对全方位伽马测井技术下的任一类时序数据进行压缩存储的同时又保留了异常数据指标,实现了对伽马测井时序数据的优化存储。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种全方位伽马测井数据优化处理方法。
背景技术
全方位伽马测井是一种测井技术,用于获取地下岩石的放射性特征和含油气性质信息,它利用了多个探测器来记录不同方向上的伽马射线响应,提供更详细和准确的测量结果。全方位伽马测井通常使用一个或多个探头,每个探头包括多个伽马探测器,这些探测器安装在一个环形阵列中,分布在不同方向上,当源辐射发出伽马射线时,不同方向上的探测器会记录并测量反射回来的伽马射线强度。而通过记录不同方向上的伽马射线响应,全方位伽马测井可以采集自然伽马射线、闪烁伽马射线等多种重要指标的时序数据,对油气勘探和生产决策具有重要意义。
而对于大量的伽马测井时序数据而言,为了提高数据的采集存储效率通常会使用数据压缩的方式进行处理,现有技术中,对伽马测井时序数据进行数据压缩时,通常使用传统的时序分解方式,获取对伽马测井时序数据分解后的趋势项、季节项和残差项,然后分别对分解后的趋势项、季节项和残差项分别进行数据压缩处理。但是,对于无法被趋势项和季节项所解释的残差项中,由于其造成原因的多样性,导致伽马测井时序数据中可能包含噪声、非周期性波动以及异常值的多重可能性,因此,需要得到残差项中的异常数据指标,但使用传统的时序分解方式进行数据压缩时对残差项中的非噪声异常数据指标难以识别和区分。
故,如何识别残差项中的非噪声异常数据指标,以优化伽马测井时序数据的数据压缩效果成为亟需解决的问题。
发明内容
有鉴于此,本发明实施例提供了一种全方位伽马测井数据优化处理方法,以解决如何识别残差项中的非噪声异常数据指标,以优化伽马测井时序数据的数据压缩效果的问题。
本发明实施例中提供了一种全方位伽马测井数据优化处理方法,该方法包括以下步骤:
在对地下岩石进行全方位伽马测井时,获取任一类伽马射线的强度时序序列,基于时序分解法将所述强度时序序列分解为趋势项、季节项和残差项;
根据所述残差项中相邻数据点之间的幅值差异,分别获取所述残差项中的每个数据点的偏离程度,根据所述残差项中的每个数据点的偏离程度,获取对所述残差项中的所有数据点进行聚类时的最优邻域半径;
根据所述最优邻域半径对所述残差项中的所有数据点进行聚类,获取所述残差项中的每个数据点的聚类等级值,根据所述残差项中的每个数据点的偏离程度和聚类等级值,获取所述残差项中的异常数据点;
对所述残差项中的异常数据点进行标记,得到标记后的残差项,对所述趋势项、季节项和所述标记后的残差项分别进行压缩存储。
进一步的,所述根据所述残差项中相邻数据点之间的幅值差异,分别获取所述残差项中的每个数据点的偏离程度,包括:
根据所述残差项中的每个数据点的幅值,计算幅值均值;
针对所述残差项中的任一数据点,计算所述数据点的幅值与所述幅值均值之间的第一差值绝对值,在所述残差项中获取所述数据点的左相邻数据点和右相邻数据点,获取所述左相邻数据点和所述右相邻数据点之间的幅值相加结果,获取所述数据点的二倍幅值与所述幅值相加结果之间的第二差值绝对值;
对所述第一差值绝对值和所述第二差值绝对值进行加权求和,得到对应的加权求和结果,对所述加权求和结果进行正比例归一化,得到对应的归一化值作为所述数据点的偏离程度。
进一步的,所述根据所述残差项中的每个数据点的偏离程度,获取对所述残差项中的所有数据点进行聚类时的最优邻域半径,包括:
获取预设的偏离程度阈值,若所述残差项中的任一数据点的偏离程度小于或等于所述偏离程度阈值,则将所述数据点作为目标数据点;
获取所述残差项中的所有目标数据点,根据所有目标数据点之间的距离差异,获取对所述残差项中的所有数据点进行聚类时的最优邻域半径。
进一步的,所述根据所有目标数据点之间的距离差异,获取对所述残差项中的所有数据点进行聚类时的最优邻域半径,包括:
针对任一目标数据点,获取所述目标数据点的左相邻目标数据点和右相邻目标数据点,获取所述目标数据点与所述左相邻目标数据点之间的第一欧式距离,获取所述目标数据点和所述右相邻目标数据点之间的第二欧式距离,取所述第一欧式距离和所述第二欧式距离中的最小值作为所述目标数据点的特征值;
根据所有目标数据点的特征值,计算特征值均值,将所述特征值均值作为对所述残差项中的所有数据点进行聚类时的最优邻域半径。
进一步的,所述根据所述最优邻域半径对所述残差项中的所有数据点进行聚类,获取所述残差项中的每个数据点的聚类等级值,包括:
使用所述最优邻域半径和预设的最小数据点数量,对所述残差项中的所有数据点进行聚类,将所述残差项中的数据点划分为核心点、边界点和离群点;
所述核心点的聚类等级值为第一预设值,所述边界点的聚类等级值为第二预设值,所述离群点的聚类等级值为第三预设值,且所述第一预设值小于所述第二预设值,所述第二预设值小于所述第三预设值。
进一步的,所述使用所述最优邻域半径和预设的最小数据点数量,对所述残差项中的所有数据点进行聚类,将所述残差项中的数据点划分为核心点、边界点和离群点,包括:
针对所述残差项中的任一数据点,以所述数据点为聚类中心,利用所述最优邻域半径获取所述数据点的邻域范围,若所述数据点的邻域范围内所包含的数据点数量大于所述最小数据点数量,则确定所述数据点为核心点;
若所述数据点的邻域范围内所包含的数据点数量小于所述最小数据点数量,且所述数据点又属于其他数据点的邻域范围内的数据点,则确定所述数据点为边界点;
若所述数据点的邻域范围内所包含的数据点数量小于所述最小数据点数量,且所述数据点不属于其他数据点的邻域范围内的数据点,则确定所述数据点为离群点。
进一步的,所述根据所述残差项中的每个数据点的偏离程度和聚类等级值,获取所述残差项中的异常数据点,包括:
针对所述残差项中的任一数据点,对所述数据点的偏离程度和聚类等级值进行加权求和,得到的加权求和结果作为所述数据点的异常评估指标;
若所述数据点的异常评估指标大于或等于预设的异常评估指标阈值,则确定所述数据点为异常数据点。
本发明实施例与现有技术相比存在的有益效果是:
本发明在对地下岩石进行全方位伽马测井时,获取任一类伽马射线的强度时序序列,基于时序分解法将所述强度时序序列分解为趋势项、季节项和残差项;根据所述残差项中相邻数据点之间的幅值差异,分别获取所述残差项中的每个数据点的偏离程度,根据所述残差项中的每个数据点的偏离程度,获取对所述残差项中的所有数据点进行聚类时的最优邻域半径;根据所述最优邻域半径对所述残差项中的所有数据点进行聚类,获取所述残差项中的每个数据点的聚类等级值,根据所述残差项中的每个数据点的偏离程度和聚类等级值,获取所述残差项中的异常数据点;对所述残差项中的异常数据点进行标记,得到标记后的残差项,对所述趋势项、季节项和所述标记后的残差项分别进行压缩存储。其中,首先通过对任一类伽马射线的强度时序序列进行时序分解,以识别出残差项中的异常数据点并进行标记,然后对分解得到的趋势项、季节项以及标记后的残差项分别进行压缩存储,在对全方位伽马测井技术下的任一类时序数据进行压缩存储的同时又保留了异常数据指标,实现了对伽马测井时序数据的优化存储。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的一种全方位伽马测井数据优化处理方法的方法流程图。
具体实施方式
下面详细描述本公开的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本公开,而不能理解为对本公开的限制。
需要说明的是,本公开的说明书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与本公开的一些方面相一致的装置和方法的例子。
为了说明本发明的技术方案,下面通过具体实施例来进行说明。
参见图1,是本发明实施例一提供的一种全方位伽马测井数据优化处理方法的方法流程图,如图1所示,该方法可以包括:
步骤S101,在对地下岩石进行全方位伽马测井时,获取任一类伽马射线的强度时序序列,基于时序分解法将强度时序序列分解为趋势项、季节项和残差项。
伽马测井是沿井身测量岩层的天然伽马射线强度的方法。岩石一般都含有不同数量的放射性元素,并且不断地放出射线。例如,在火成岩中,愈近酸性,放射性强度愈大;在沉积岩中含泥质愈多,其放射性愈强。利用这些规律,根据自然伽马测井结果就有可能划分出钻孔的地质剖面、确定砂泥岩剖面中砂岩泥质含量和定性地判断岩层的渗透性。伽马测井的一个直接用途是用来找出放射性矿产(铀、钍等),以及具有放射性的其他矿产,如钾盐。
因此,在对地下岩石进行全方位伽马测井时,能够获取任一类伽马射线的强度时序序列,例如:自然伽马射线,自然伽马测井是通过测量地层中的天然放射性元素发射的伽马射线强度来评估地层的放射性性,通过获取自然伽马曲线能够记录伽马射线的强度随深度(或时间)的变化;闪烁伽马射线,闪烁伽马测井使用闪烁计数器来测量地层中短寿命放射性同位素(如铯-137)发射的闪烁伽马射线,通过获取闪烁伽马曲线能够记录闪烁伽马射线的强度随深度(或时间)的变化。
需要说明的是,在对地下岩石进行全方位伽马测井时,还可以获取电阻率(ILD或LLD)曲线,电阻率测井用于测量地层的电阻率,以评估地层的孔隙度、渗透率和岩石类型,通过获取电阻率曲线能够记录地层的电阻率随深度(或时间)的变化;还可以获取密度(DEN)曲线,密度测井通过测量地层中的物质密度来确定地层的岩石组成和孔隙度,通过获取密度曲线能够记录地层的物质密度随深度(或时间)的变化。这些曲线数据可以显示在测井图上,用于分析地层特征、判定岩性、评估孔隙度、确定含油气层等,通过对这些时序数据的观察和分析,相关专业人员能够获取关于地层的详细信息,并作出相应的决策。
至此,能够获取任一类伽马射线的强度时序序列以及其他指标的时序序列。在获取到强度时序序列以及其他指标的时序序列之后,对任一时序序列使用STL时序分解法,将该时序序列分解为趋势项、季节项和残差项。值得说明的是,STL时序分解法属于现有技术,此处不再赘述。
步骤S102,根据残差项中相邻数据点之间的幅值差异,分别获取残差项中的每个数据点的偏离程度,根据残差项中的每个数据点的偏离程度,获取对残差项中的所有数据点进行聚类时的最优邻域半径。
通常对时序分解所得的残差项进行异常值检测时采用预设的异常阈值法,也即是通过残差项的均值和标准差定义一个上下限阈值,例如:均值加减3倍标准差,如果残差项超过这个阈值,则认为其是异常值,但该类方式中将残差项中的离散数据点进行筛选和区分,剩余数据点仍然存在由非周期性波动或算法误差等多种原因噪声的异常可能性,因此,需要结合残差项中的数据点分布特征,将残差项中由于数据本身异常和非周期波动或算法误差所致的异常数据进行区分,以实现残差项中异常数据的提取。
本发明实施例中,考虑到残差项中数据本身异常的异常数据通常表现为高于或低于时序数据的均值,也即是相对于相邻时间节点的数值是具有一定的突变特征,而由于原始数据的非周期性波动或算法误差导致异常数据,其在分解的残差项中距离残差中心线(横轴)较近且具有一定的结构或模式,不像残差项中数据本身异常的异常数据表现出明显的偏离于残差中心线,由此,根据残差项中相邻数据点之间的幅值差异,分别获取残差项中的每个数据点的偏离程度,具体过程为:
根据所述残差项中的每个数据点的幅值,计算幅值均值;
针对所述残差项中的任一数据点,计算所述数据点的幅值与所述幅值均值之间的第一差值绝对值,在所述残差项中获取所述数据点的左相邻数据点和右相邻数据点,获取所述左相邻数据点和所述右相邻数据点之间的幅值相加结果,获取所述数据点的二倍幅值与所述幅值相加结果之间的第二差值绝对值;
对所述第一差值绝对值和所述第二差值绝对值进行加权求和,得到对应的加权求和结果,对所述加权求和结果进行正比例归一化,得到对应的归一化值作为所述数据点的偏离程度。
在一实施方式中,以残差项中的第x个数据点为例,则第x个数据点的偏离程度的计算表达式为:
其中,表示残差项中的第x个数据点的偏离程度,/>表示正比例归一化函数,/>表示第一权重,/>表示残差项中的第x个数据点的幅值,/>表示残差项中包含的数据点总数量,/>表示残差项中的第i个数据点的幅值,/>表示第二权重,/>表示残差项中的第x+1个数据点的幅值,也即是第x个数据点的右相邻数据点的幅值,/>表示残差项中的第x-1个数据点的幅值,也即是第x个数据点的左相邻数据点的幅值,| |表示绝对值符号。
优选的,本发明实施例中设定经验值,此处不做限制。
需要说明的是,通过获取残差项中的第x个数据点的幅值与残差项中的所有数据点的幅值均值之间的差异,用于表征残差项中的第x个数据点的幅值异常,差异越大,说明第x个数据点的偏离浮动程度越高,对应第x个数据点的偏离程度越大;的值用于表征第x个数据点的幅值与其相邻数据点的幅值之间的差异,差异越大,说明第x个数据点的幅值突变性越大,对应第x个数据点的偏离程度越大。
同理,利用残差项中的第x个数据点的偏离程度的获取方法,能够获取残差项中的每个数据点的偏离程度。
进一步的,由于非周期波动或算法误差所致的异常数据为无法被趋势、季节性成分所解释的一般波动或变化,这些异常数据中可能包含一些随机或未知的因素,但在总体上仍具有一定程度的结构或模式,也即是其分布特征为:数据点相互之间数值差异不大、趋势相对同向,在时序空间中分布相对密集。因此,针对该类分布特征,对残差项中的所有数据点进行聚类操作,使用DBSCAN自适应调整聚类参数针对于该场景下的当前特征具有良好的鲁棒性,且DBSCAN聚类算法为一种基于密度的聚类方式,需要设定两个参数,邻域半径和最小数据点数量MinPts,本发明实施例中,设置最小数据点数量MinPts为1,此处不做作限制,对于邻域半径,根据残差项中的每个数据点的偏离程度,获取对残差项中的所有数据点进行聚类时的最优邻域半径,则最优邻域半径的具体获取方法为:
(1)获取预设的偏离程度阈值,若所述残差项中的任一数据点的偏离程度小于或等于所述偏离程度阈值,则将所述数据点作为目标数据点;
具体的,设置偏离程度阈值为0.8,若残差项中的任一数据点的偏离程度小于或等于0.8,则确定该数据点属于正常幅值波动范围内的数据点,将该数据点作为目标数据点。
(2)获取所述残差项中的所有目标数据点,根据所有目标数据点之间的距离差异,获取对所述残差项中的所有数据点进行聚类时的最优邻域半径。
具体的,针对任一目标数据点,获取所述目标数据点的左相邻目标数据点和右相邻目标数据点,获取所述目标数据点与所述左相邻目标数据点之间的第一欧式距离,获取所述目标数据点和所述右相邻目标数据点之间的第二欧式距离,取所述第一欧式距离和所述第二欧式距离中的最小值作为所述目标数据点的特征值;
根据所有目标数据点的特征值,计算特征值均值,将所述特征值均值作为对所述残差项中的所有数据点进行聚类时的最优邻域半径。
在一实施方式中,最优邻域半径的计算表达式为:
其中,表示对残差项中的所有数据点进行聚类时的最优邻域半径,/>表示取均值函数,/>表示第i个目标数据点与第i-t个目标数据点之间的欧式距离,也即是第i个目标数据点与其左相邻目标数据点之间的第一欧式距离,/>表示第i个目标数据点与第i+t个目标数据点之间的欧式距离,也即是第i个目标数据点与其右相邻目标数据点之间的第二欧式距离,/>表示取最小值函数,/>表示残差项中的目标数据点的数量。
需要说明的是,通过上述公式获取的最优邻域半径能够使得偏离浮动值并在邻域半径下含有的最小数据点数量基本为0,也即是聚类最终结果为离群点,而对于非周期波动或算法误差所致的异常数据在邻域半径下大多为核心点或是边界点。
步骤S103,根据最优邻域半径对残差项中的所有数据点进行聚类,获取残差项中的每个数据点的聚类等级值,根据残差项中的每个数据点的偏离程度和聚类等级值,获取残差项中的异常数据点。
本发明实施例中,在得到最优邻域半径之后,即可根据最优邻域半径对残差项中的所有数据点进行DBSCAN聚类,以获取残差项中的每个数据点的聚类等级值,则聚类等级值的获取方法为:
使用所述最优邻域半径和预设的最小数据点数量,对所述残差项中的所有数据点进行聚类,将所述残差项中的数据点划分为核心点、边界点和离群点;
所述核心点的聚类等级值为第一预设值,所述边界点的聚类等级值为第二预设值,所述离群点的聚类等级值为第三预设值,且所述第一预设值小于所述第二预设值,所述第二预设值小于所述第三预设值。
在一实施方式中,在已知最优邻域半径和最小数据点数量MinPts之后,对残差项中的所有数据点进行DBSCAN聚类,以将差项中的数据点划分为核心点、边界点和离群点,进而根据每个数据点属于的数据类型确定每个数据点的聚类等级值,聚类等级值越大,说明数据点的离群程度越大,对应数据点越异常。其中,设置核心点的聚类等级值为0.3,边界点的聚类等级值为0.6,离群点的聚类等级值为0.9,此处不做限制。
其中,使用所述最优邻域半径和预设的最小数据点数量,对所述残差项中的所有数据点进行聚类,将所述残差项中的数据点划分为核心点、边界点和离群点,包括:
针对所述残差项中的任一数据点,以所述数据点为聚类中心,利用所述最优邻域半径获取所述数据点的邻域范围,若所述数据点的邻域范围内所包含的数据点数量大于所述最小数据点数量,则确定所述数据点为核心点;
若所述数据点的邻域范围内所包含的数据点数量小于所述最小数据点数量,且所述数据点又属于其他数据点的邻域范围内的数据点,则确定所述数据点为边界点;
若所述数据点的邻域范围内所包含的数据点数量小于所述最小数据点数量,且所述数据点不属于其他数据点的邻域范围内的数据点,则确定所述数据点为离群点。
在一实施方式中,由于聚类时的最小数据点数量MinPts为1,因此,当残差项中的任一数据点的邻域范围内所包含的数据点数量大于1时,则确定该数据点为核心点;当残差项中的任一数据点的邻域范围内所包含的数据点数量小于1且该数据点又属于其他数据点的邻域范围内的数据点时,则确定该数据点为边界点;当残差项中的任一数据点的邻域范围内所包含的数据点数量小于1且该数据点不属于其他数据点的邻域范围内的数据点时,则确定该数据点为离群点。至此完成对残差项中的所有数据点的划分。
进一步的,根据上述步骤S102和步骤S103的过程,能够获取残差项中每个数据点的偏离程度和聚类等级值之后,根据残差项中的每个数据点的偏离程度和聚类等级值,获取残差项中的异常数据点,具体过程为:
针对所述残差项中的任一数据点,对所述数据点的偏离程度和聚类等级值进行加权求和,得到的加权求和结果作为所述数据点的异常评估指标;
若所述数据点的异常评估指标大于或等于预设的异常评估指标阈值,则确定所述数据点为异常数据点。
在一实施方式中,以残差项中的第x个数据点为例,则残差项中的第x个数据点的异常评估指标的计算表达式为:
其中,表示残差项中的第x个数据点的异常评估指标,/>表示第一权重系数,/>表示残差项中的第x个数据点的聚类等级值,/>表示第二权重系数,/>表示残差项中的第x个数据点的偏离程度。
优选的,本发明实施例中设置经验值,此处不做限制。
需要说明的是,残差项中的第x个数据点的偏离程度越大,说明第x个数据点越异常,同理,第x个数据点的聚类等级值越大,说明第x个数据点越异常,对应残差项中的第x个数据点的异常评估指标越大。
至此,根据差项中的第x个数据点的异常评估指标的获取方法,分别获取残差项中的每个数据点的异常评估指标。同时,设置异常评估指标阈值为0.8,若残差项中的任一数据点的异常评估指标大于或等于0.8,则确定该数据点为异常数据点,从而获取残差项中的所有异常数据点。
步骤S104,对残差项中的异常数据点进行标记,得到标记后的残差项,对趋势项、季节项和标记后的残差项分别进行压缩存储。
本发明实施例中,在确定了残差项中的异常书店之后,对残差项中的异常数据点进行标记,得到标记后的残差项,并对标记后的残差项进行正常存储处理,而对于步骤S101中时序分解得到的趋势项,可以使用多项式拟合、曲线拟合或简化模型等方法来减少存储空间,例如,可以使用较低阶的多项式来逼近趋势项,或者采用特定的函数形式来表示趋势项;对于步骤S101中时序分解得到的季节项,可以使用不同的编码策略来压缩数据,其中一种常见的方法是使用季节性模式的平均值或差异表示,例如,在具有明显周期性的时间序列中,可以只存储一个完整周期的季节项,并根据需要进行复制或插值,至此能够在减少采集存储空间的同时,又能够突出显示残差项中的重要异常变化数据,从而实现全方位伽马测井技术下的伽马测井时序数据的优化存储。
综上所述,本发明实施例中在对地下岩石进行全方位伽马测井时,获取任一类伽马射线的强度时序序列,基于时序分解法将强度时序序列分解为趋势项、季节项和残差项;根据残差项中相邻数据点之间的幅值差异,分别获取残差项中的每个数据点的偏离程度,根据残差项中的每个数据点的偏离程度,获取对残差项中的所有数据点进行聚类时的最优邻域半径;根据最优邻域半径对残差项中的所有数据点进行聚类,获取残差项中的每个数据点的聚类等级值,根据残差项中的每个数据点的偏离程度和聚类等级值,获取残差项中的异常数据点;对残差项中的异常数据点进行标记,得到标记后的残差项,对趋势项、季节项和标记后的残差项分别进行压缩存储。其中,首先通过对任一类伽马射线的强度时序序列进行时序分解,以识别出残差项中的异常数据点并进行标记,然后对分解得到的趋势项、季节项以及标记后的残差项分别进行压缩存储,在对全方位伽马测井技术下的任一类时序数据进行压缩存储的同时又保留了异常数据指标,实现了对伽马测井时序数据的优化存储。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (4)
1.一种全方位伽马测井数据优化处理方法,其特征在于,所述一种全方位伽马测井数据优化处理方法包括:
在对地下岩石进行全方位伽马测井时,获取任一类伽马射线的强度时序序列,基于时序分解法将所述强度时序序列分解为趋势项、季节项和残差项;
根据所述残差项中相邻数据点之间的幅值差异,分别获取所述残差项中的每个数据点的偏离程度,根据所述残差项中的每个数据点的偏离程度,获取对所述残差项中的所有数据点进行聚类时的最优邻域半径;
根据所述最优邻域半径对所述残差项中的所有数据点进行聚类,获取所述残差项中的每个数据点的聚类等级值,根据所述残差项中的每个数据点的偏离程度和聚类等级值,获取所述残差项中的异常数据点;
对所述残差项中的异常数据点进行标记,得到标记后的残差项,对所述趋势项、季节项和所述标记后的残差项分别进行压缩存储;
所述根据所述残差项中相邻数据点之间的幅值差异,分别获取所述残差项中的每个数据点的偏离程度,包括:
根据所述残差项中的每个数据点的幅值,计算幅值均值;
针对所述残差项中的任一数据点,计算所述数据点的幅值与所述幅值均值之间的第一差值绝对值,在所述残差项中获取所述数据点的左相邻数据点和右相邻数据点,获取所述左相邻数据点和所述右相邻数据点之间的幅值相加结果,获取所述数据点的二倍幅值与所述幅值相加结果之间的第二差值绝对值;
对所述第一差值绝对值和所述第二差值绝对值进行加权求和,得到对应的加权求和结果,对所述加权求和结果进行正比例归一化,得到对应的归一化值作为所述数据点的偏离程度;
所述根据所述残差项中的每个数据点的偏离程度,获取对所述残差项中的所有数据点进行聚类时的最优邻域半径,包括:
获取预设的偏离程度阈值,若所述残差项中的任一数据点的偏离程度小于或等于所述偏离程度阈值,则将所述数据点作为目标数据点;
获取所述残差项中的所有目标数据点,根据所有目标数据点之间的距离差异,获取对所述残差项中的所有数据点进行聚类时的最优邻域半径;
所述根据所述残差项中的每个数据点的偏离程度和聚类等级值,获取所述残差项中的异常数据点,包括:
针对所述残差项中的任一数据点,对所述数据点的偏离程度和聚类等级值进行加权求和,得到的加权求和结果作为所述数据点的异常评估指标;
若所述数据点的异常评估指标大于或等于预设的异常评估指标阈值,则确定所述数据点为异常数据点。
2.根据权利要求1所述的一种全方位伽马测井数据优化处理方法,其特征在于,所述根据所有目标数据点之间的距离差异,获取对所述残差项中的所有数据点进行聚类时的最优邻域半径,包括:
针对任一目标数据点,获取所述目标数据点的左相邻目标数据点和右相邻目标数据点,获取所述目标数据点与所述左相邻目标数据点之间的第一欧式距离,获取所述目标数据点和所述右相邻目标数据点之间的第二欧式距离,取所述第一欧式距离和所述第二欧式距离中的最小值作为所述目标数据点的特征值;
根据所有目标数据点的特征值,计算特征值均值,将所述特征值均值作为对所述残差项中的所有数据点进行聚类时的最优邻域半径。
3.根据权利要求1所述的一种全方位伽马测井数据优化处理方法,其特征在于,所述根据所述最优邻域半径对所述残差项中的所有数据点进行聚类,获取所述残差项中的每个数据点的聚类等级值,包括:
使用所述最优邻域半径和预设的最小数据点数量,对所述残差项中的所有数据点进行聚类,将所述残差项中的数据点划分为核心点、边界点和离群点;
所述核心点的聚类等级值为第一预设值,所述边界点的聚类等级值为第二预设值,所述离群点的聚类等级值为第三预设值,且所述第一预设值小于所述第二预设值,所述第二预设值小于所述第三预设值。
4.根据权利要求3所述的一种全方位伽马测井数据优化处理方法,其特征在于,所述使用所述最优邻域半径和预设的最小数据点数量,对所述残差项中的所有数据点进行聚类,将所述残差项中的数据点划分为核心点、边界点和离群点,包括:
针对所述残差项中的任一数据点,以所述数据点为聚类中心,利用所述最优邻域半径获取所述数据点的邻域范围,若所述数据点的邻域范围内所包含的数据点数量大于所述最小数据点数量,则确定所述数据点为核心点;
若所述数据点的邻域范围内所包含的数据点数量小于所述最小数据点数量,且所述数据点又属于其他数据点的邻域范围内的数据点,则确定所述数据点为边界点;
若所述数据点的邻域范围内所包含的数据点数量小于所述最小数据点数量,且所述数据点不属于其他数据点的邻域范围内的数据点,则确定所述数据点为离群点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410124191.6A CN117648590B (zh) | 2024-01-30 | 2024-01-30 | 一种全方位伽马测井数据优化处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410124191.6A CN117648590B (zh) | 2024-01-30 | 2024-01-30 | 一种全方位伽马测井数据优化处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117648590A CN117648590A (zh) | 2024-03-05 |
CN117648590B true CN117648590B (zh) | 2024-04-19 |
Family
ID=90049974
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410124191.6A Active CN117648590B (zh) | 2024-01-30 | 2024-01-30 | 一种全方位伽马测井数据优化处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117648590B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117931094B (zh) * | 2024-03-21 | 2024-06-14 | 山东奥斯瑞特检验检测有限公司 | 基于区块链的环境空气监测数据可靠存储方法 |
CN117972318B (zh) * | 2024-04-02 | 2024-06-14 | 山东万洋石油科技有限公司 | 一种高速自发电剪切阀脉冲波形测试方法及系统 |
CN118035780B (zh) * | 2024-04-12 | 2024-06-25 | 东莞市杰瑞智能科技有限公司 | 基于多维传感器的河流状态评估方法及系统 |
CN118335273A (zh) * | 2024-05-31 | 2024-07-12 | 深圳泰康医疗设备有限公司 | 一种普通外科手术智能采集存储系统 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108376982A (zh) * | 2017-11-24 | 2018-08-07 | 上海泰豪迈能能源科技有限公司 | 负载相序的识别方法及装置 |
US11061934B1 (en) * | 2018-04-06 | 2021-07-13 | Intuit Inc. | Method and system for characterizing time series |
CN113591401A (zh) * | 2021-08-24 | 2021-11-02 | 华北电力大学(保定) | 一种基于时间序列分解的电力变压器数据清洗方法 |
CN115329910A (zh) * | 2022-10-17 | 2022-11-11 | 南通坤鹏科技有限公司 | 一种企业生产排放数据智能处理方法 |
CN116627707A (zh) * | 2023-07-20 | 2023-08-22 | 中孚安全技术有限公司 | 一种用户异常操作行为的检测方法及系统 |
CN116702081A (zh) * | 2023-08-07 | 2023-09-05 | 西安格蒂电力有限公司 | 基于人工智能的配电设备智能巡检方法 |
CN116735807A (zh) * | 2023-08-09 | 2023-09-12 | 山东优控智能技术有限公司 | 基于多传感器数据的空气质量检测评估方法 |
CN116773186A (zh) * | 2023-08-22 | 2023-09-19 | 浙江恒齿传动股份有限公司 | 基于多模态数据的减速机运行检测方法及系统 |
CN116864020A (zh) * | 2023-09-05 | 2023-10-10 | 山东鲁扬新材料科技有限公司 | 应用于egda生成过程的数据管理系统 |
CN116933216A (zh) * | 2023-09-18 | 2023-10-24 | 湖北华中电力科技开发有限责任公司 | 一种基于柔性负荷资源聚合特征分析的管理系统及方法 |
CN117057517A (zh) * | 2023-10-12 | 2023-11-14 | 国网吉林省电力有限公司长春供电公司 | 基于数字孪生的电力数据高效处理方法及系统 |
-
2024
- 2024-01-30 CN CN202410124191.6A patent/CN117648590B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108376982A (zh) * | 2017-11-24 | 2018-08-07 | 上海泰豪迈能能源科技有限公司 | 负载相序的识别方法及装置 |
US11061934B1 (en) * | 2018-04-06 | 2021-07-13 | Intuit Inc. | Method and system for characterizing time series |
CN113591401A (zh) * | 2021-08-24 | 2021-11-02 | 华北电力大学(保定) | 一种基于时间序列分解的电力变压器数据清洗方法 |
CN115329910A (zh) * | 2022-10-17 | 2022-11-11 | 南通坤鹏科技有限公司 | 一种企业生产排放数据智能处理方法 |
CN116627707A (zh) * | 2023-07-20 | 2023-08-22 | 中孚安全技术有限公司 | 一种用户异常操作行为的检测方法及系统 |
CN116702081A (zh) * | 2023-08-07 | 2023-09-05 | 西安格蒂电力有限公司 | 基于人工智能的配电设备智能巡检方法 |
CN116735807A (zh) * | 2023-08-09 | 2023-09-12 | 山东优控智能技术有限公司 | 基于多传感器数据的空气质量检测评估方法 |
CN116773186A (zh) * | 2023-08-22 | 2023-09-19 | 浙江恒齿传动股份有限公司 | 基于多模态数据的减速机运行检测方法及系统 |
CN116864020A (zh) * | 2023-09-05 | 2023-10-10 | 山东鲁扬新材料科技有限公司 | 应用于egda生成过程的数据管理系统 |
CN116933216A (zh) * | 2023-09-18 | 2023-10-24 | 湖北华中电力科技开发有限责任公司 | 一种基于柔性负荷资源聚合特征分析的管理系统及方法 |
CN117057517A (zh) * | 2023-10-12 | 2023-11-14 | 国网吉林省电力有限公司长春供电公司 | 基于数字孪生的电力数据高效处理方法及系统 |
Non-Patent Citations (2)
Title |
---|
An anomaly detection framework for time series data: An interval-based approach;Yanjun Zhou 等;Knowledge-Based Systems;20210510;1-10 * |
基于三次指数平滑模型与DBSCAN聚类的电量数据异常检测;肖勇 等;电网技术;20200331;44(03);1099-1104 * |
Also Published As
Publication number | Publication date |
---|---|
CN117648590A (zh) | 2024-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117648590B (zh) | 一种全方位伽马测井数据优化处理方法 | |
US10324229B2 (en) | System and method of pore type classification for petrophysical rock typing | |
US5461562A (en) | Method and apparatus for detecting and quantifying hydrocarbon bearing laminated reservoirs on a workstation | |
Grana et al. | Quantitative log interpretation and uncertainty propagation of petrophysical properties and facies classification from rock-physics modeling and formation evaluation analysis | |
US4310887A (en) | Verification and calibration of well logs and reconstruction of logs | |
US8244473B2 (en) | System and method for automated data analysis and parameter selection | |
JPH0156397B2 (zh) | ||
Dobróka et al. | Interval inversion of well-logging data for automatic determination of formation boundaries by using a float-encoded genetic algorithm | |
Joshi et al. | Prediction of sonic log and correlation of lithology by comparing geophysical well log data using machine learning principles | |
CN108957554B (zh) | 一种地球物理勘探中的地震反演方法 | |
AU2014290779B2 (en) | System and method for estimating porosity distribution in subterranean reservoirs | |
Singh et al. | Machine learning assisted petrophysical logs quality control, editing and reconstruction | |
US20230029072A1 (en) | Systems and methods for subsurface formation modelling | |
Cuddy et al. | The application of fuzzy logic and genetic algorithms to reservoir characterization and modeling | |
Kurniadi et al. | Local mean imputation for handling missing value to provide more accurate facies classification | |
Emelyanova et al. | Detecting specific facies in well-log data sets using knowledge-driven hierarchical clustering | |
Smith Jr et al. | A multi-function compensated spectral natural gamma ray logging system | |
Descalzi et al. | Synergetic log and core data treatment through Cluster Analysis: a methodology to improve reservoir description | |
GB1584060A (en) | Processing well logging data for example for verification and calibration of well logs | |
Lim et al. | Artificial intelligence approach for well-to-well log correlation | |
Lim et al. | Interwell log correlation using artificial intelligence approach and multivariate statistical analysis | |
Milad et al. | Machine learning to predict large pores and permeability in carbonate reservoirs using standard logs | |
CN117174203B (zh) | 用于砂岩铀矿的测井曲线响应分析方法 | |
Figiel et al. | Identification of Strata from Irregularities in Well Logs Using Chaos Quantifiers | |
Tengelidi et al. | Fourier spectrums clustering for automated facies recognition of Field Y |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |