CN113506007B - 钻井式数据采样方法及其在大数据价值风险评估中的应用 - Google Patents

钻井式数据采样方法及其在大数据价值风险评估中的应用 Download PDF

Info

Publication number
CN113506007B
CN113506007B CN202110813235.2A CN202110813235A CN113506007B CN 113506007 B CN113506007 B CN 113506007B CN 202110813235 A CN202110813235 A CN 202110813235A CN 113506007 B CN113506007 B CN 113506007B
Authority
CN
China
Prior art keywords
well
value
data
flow data
width
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110813235.2A
Other languages
English (en)
Other versions
CN113506007A (zh
Inventor
章昭辉
徐付娟
刘科
杨如萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Qizhen Network Technology Co ltd
Original Assignee
Shanghai Qizhen Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Qizhen Network Technology Co ltd filed Critical Shanghai Qizhen Network Technology Co ltd
Priority to CN202110813235.2A priority Critical patent/CN113506007B/zh
Publication of CN113506007A publication Critical patent/CN113506007A/zh
Application granted granted Critical
Publication of CN113506007B publication Critical patent/CN113506007B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • G06Q50/265Personal security, identity or safety

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Geophysics And Detection Of Objects (AREA)

Abstract

本发明涉及一种钻井式数据采样方法。本发明的另一个技术方案是提供了一种上述的钻井式数据采样方法在大数据价值风险评估中的应用方法。为解决大数据价值安全评估问题,本发明首先提供了一种“钻井式”的流式大数据的适量高效采集方法。该方法对不断产生的流数据进行“钻井”操作,建立流数据大小相对确定机制,并动态调整井间距,再分别对井内数据进行分析采样,观察其是否含有足够信息。这样能够很好的避免在整个流数据集上进行操作,导致过度的存取计算问题。其次,本发明将“钻井式”的流式大数据的适量高效采集方法应用在有效的数据价值安全评估中,对被采集的数据集进行价值评估。

Description

钻井式数据采样方法及其在大数据价值风险评估中的应用
技术领域
本发明涉及一种钻井式数据采样方法以及该数据采样方法在大数据价值风险评估中的应用。
背景技术
大数据已经被认为是一种数据资产。作为数据资产的大数据价值主要体现在数据本身所含的价值以及开发利用大数据的代价。从数据价值风险安全角度看,其中一种重要的表现是,大数据被未授权采集的一定量的数据是否体现了整体数据集的价值大小。如果采集的数据能够基本反映整体数据的特性,则意味着数据存在数据价值泄露的不安全。然而,现有的大数据价值安全还缺乏有效评估方法。特别地,对于流式大数据,由于数据量大、变化快等特性,在实际应用场景下,整体的数据价值评估难以采用全量的传统法。因此,要实现大数据价值安全的评估,必须要解决大数据整体价值的首要问题:能高效准确地体现整体价值的适量大数据采样问题。
发明内容
本发明的目的是:高效准确地体现整体价值的适量大数据采样。
为了达到上述目的,本发明的技术方案是提供了一种钻井式数据采样方法,其特征在于,包括以下步骤:
步骤1、井内波峰波谷采样:
针对流数据大小的不确定性,以井的宽度限定井内数据量的大小,使得流数据的大小相对确定,将井的宽度记为W,从异常值携带信息量较多的角度出发,采集每个井的局部异常值,每个井的局部异常值为波峰波谷,具体包括以下步骤:
S101、计算均值贡献率MCR:
计算井内流数据值的均值,将井内每个流数据值对均值的影响定义为均值贡献率MCR,则井内第i个流数据值valuei对均值贡献程度MCRi的计算公式为:
Figure BDA0003168985330000011
S102、设置均值贡献率MCR的阈值上限θupper和阈值下限θlower
S103:计算井内疑似波峰波谷:
当井内流数据值的均值贡献率MCRi≥θupper,则将该流数据值标记为疑似波峰;当井内流数据值的均值贡献率MCRi≤θlower,则将该流数据值标记为疑似波谷,将疑似波峰及疑似波谷的集合记为PT,则PT表示为:
{(i,MCRi)|MCRi≥θupperor MCRi≤θ1ower,i∈[1,W]and MCRi∈MCR}
S104:计算井内真实波峰波谷:
遵循波峰波谷交替出现的原则,当集合PT中连续出现波峰或波谷,则比较连续波峰或波谷的大小,若连续出现波峰,则保留其中最大的流数据值作为真实波峰,若连续出现波谷,则保留其中最小的流数据值作为真实波谷,进而得到真实的波峰波谷集合;
步骤2、井间距动态调整:
在相邻井之间设置钻井间距,设初始井的宽度W是初始钻井间距宽度WSinit的m倍,即有:W=m×WSinit;利用每个井内所携带的信息量的差异来动态调整井间距宽度,包括以下步骤:
采用标准差来描述每个井内流数据的波动程度,并根据每个井的标准差来动态调整井间距宽度:标准差越大,则波动越剧烈,数据分布越不稳定,缩小井间距宽度;标准差越小,则波动越平缓,数据分布越稳定,保持井间距宽度不变;
步骤3、流数据集访问率计算:
令流数据集的大小为N,井间距采样率为p;设初始井的宽度W是初始钻井间距宽度WSinit的m倍,即有:W=m×WSinit;设钻井间距宽度的取值为
Figure BDA0003168985330000021
则步骤3包括以下步骤:
S301:计算流数据集访问率范围:
当流数据集第一个井间距的初始钻井间距宽度为WSinit,其它井间距的初始钻井间距宽度全部为
Figure BDA0003168985330000022
时,流数据集的访问率AR1为:
Figure BDA0003168985330000023
当流数据集第一个井间距的初始钻井间距宽度为WSinit,其它井间距的初始钻井间距宽度全部为
Figure BDA0003168985330000024
时,流数据集的访问率AR2为:
Figure BDA0003168985330000025
当流数据集第一个井间距的初始钻井间距宽度为WSinit,其它井间距的初始钻井间距宽度全部为
Figure BDA0003168985330000031
时,流数据集的访问率AR3为:
Figure BDA0003168985330000032
当流数据集井间距的初始钻井间距宽度全部为WSinit,流数据集的访问率AR4为:
Figure BDA0003168985330000033
则有访问率取值上限为AR1,下限为AR4,则
Figure BDA0003168985330000034
Figure BDA0003168985330000035
Figure BDA0003168985330000036
Figure BDA0003168985330000037
得到流数据集的
Figure BDA0003168985330000038
Figure BDA0003168985330000039
则访问率受井的宽度W和钻井间距宽度的倍数关系m和井间距采样率p的影响。
优选地,步骤S102中,设定所述阈值上限θupper和所述阈值下限θlower两者之间的关系如下式所示:
θupperlower=2,θlower∈(0,1]andθupper∈[1,2)
所述阈值上限θupper和所述阈值下限θlower的具体值根据要求指定。
优选地,所述步骤2包括以下步骤:
S201:计算井内数据标准差:
假设对不断产生的流数据钻井的数量为WN,则第i个井的井内数据集合表示为welli={(j,timej,valuej)|1≤j≤W and 1≤i≤WN},timej表示第i个井内第j个流数据到达的时间,valuej表示第i个井内第j个流数据值,则第i个井的井内数据标准差wstdi采用下式计算:
Figure BDA00031689853300000310
S202:构建井内标准差序列四分位数:
定义由步骤S201计算得到的所有井内数据标准差组成的标准差集合为WSTD,标准差集合WSTD的长度为n-1,n-1<WN,则有:WSTD=(wstd1,wstd2,…,wstdn-1),则由标准差集合WSTD的上限Qmax、下限Qmin、第一四分位数Q1、第二四分位数Q2、第三四分位数Q3将标准差集合WSTD划分为四个不同的区域,第一四分位数Q1为标准差集合WSTD中从小到大排列25%的位置数,第二四分位数Q2为标准差集合WSTD中的中位数,第三四分位数Q3为标准差集合WSTD中从小到大排列75%的位置数;
S203:动态调整钻井间距宽度:
计算第n个井的钻井间距宽度WSn,若wstdn<Q1,则说明第n个井内的流数据波动较小,分布相对平缓,保持钻井间距宽度WSn不变;若Q1≤wstdn<Q2,则说明第n个井的井内流数据相对于平缓数据来说波动有所变大,需轻微缩小钻井间距宽度WSn;若Q2≤wstdn<Q3,说明第n个井的井内流数据波动逐渐剧烈,已超出中位数水平,需加剧钻井间距宽度WSn的缩小程度;若Q3≤wstdn<Qmax,说明第n个井的井内流数据波动剧烈,极有可能出现波峰波谷,携带重要信息,需将钻井间距宽度WSn调整至最小,具体调整方式如下所述:
WSn={WSinit|Qmin≤wstdn<Q1}
Figure BDA0003168985330000041
Figure BDA0003168985330000042
Figure BDA0003168985330000043
本发明的另一个技术方案是提供了一种上述的钻井式数据采样方法在大数据价值风险评估中的应用方法,其特征在于,包括以下步骤:
第一步、获得被评估流数据集的采集要求;
第二步、通过如权利要求1所述的钻井式数据采样方法获得访问率取值范围,在访问率取值范围内利用如权利要求1所述的钻井式数据采样方法对被评估流数据集进行采样,采样得到的流数据可以反映被评估流数据集的整体数据特性,将采样得到的流数据值作为被评估流数据集的整体价值;
同时,根据第一步获得的采集要求对被评估流数据集进行采样,采样得到的流数据同样可以反映反映被评估流数据集的整体数据特性,将采样得到的流数据值作为被评估流数据集的受限价值;
第三步、计算整体价值与受限价值之间的差值,得到价值差;
第四步、根据价值差确定被评估流数据集的风险等级。
优选地,第四步中,所述风险等级分为高、中、低三种风险级别。
为解决大数据价值安全评估问题,本发明首先提供了一种“钻井式”的流式大数据的适量高效采集方法。该方法对不断产生的流数据进行“钻井”操作,建立流数据大小相对确定机制,并动态调整井间距,再分别对井内数据进行分析采样,观察其是否含有足够信息。这样能够很好的避免在整个流数据集上进行操作,导致过度的存取计算问题。其次,本发明将“钻井式”的流式大数据的适量高效采集方法应用在有效数据价值安全评估中,对被采集的数据集进行价值评估,并与大数据的整体价值进行对比。进而根据对比的两种价值差,将数据价值安全分为高、中、低三种风险级别。
附图说明
图1为实施例的总体流程图;
图2为实施例中的数据价值风险评估系统组成;
图3为实施例公开的一种钻井式的适量数据采样方法的流程图;
图4为真实波峰波谷识别采样流程;
图5为识别波峰波谷说明图;
图6为不同m、p取值下访问率变化范围。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
如图1所示,本发明公开的一种大数据价值风险评估方法,包括以下步骤:
第一步、获得被评估流数据集的采集要求;
第二步、通过如钻井式数据采样方法获得访问率取值范围,在访问率取值范围内利用钻井式数据采样方法对被评估流数据集进行采样,采样得到的流数据可以反映被评估流数据集的整体数据特性,将采样得到的流数据值作为被评估流数据集的整体价值;
同时,根据第一步获得的采集要求对被评估流数据集进行采样,采样得到的流数据同样可以反映反映被评估流数据集的整体数据特性,将采样得到的流数据值作为被评估流数据集的受限价值;
第三步、计算整体价值与受限价值之间的差值,得到价值差;
第四步、根据价值差确定被评估流数据集的风险等级,风险等级分为高、中、低三种风险级别。
上述大数据价值风险评估方法主要包括以下内容:
(1)数据采集受限的价值评估:即采用现有的采样方法获取存在数据采集限制的数据来反映其整体数据的特性以评估整体数据价值,其评估的准确程度代表着数据所有方数据价值泄露程度的高低。
(2)整体数据价值评估:关于整体价值的评估,首先要解决的是采样问题,由此本发明提出的“钻井式”的适量数据采集方法得到的样本集能够很好的代表整体数据的价值。
(3)价值差计算及风险等级确定:即将数据采集受限的价值评估与整体数据价值评估进行对比,以此来反映数据所有方数据价值泄露的风险等级。若价值差较大,则说明数据所有方可供采集的数据价值泄露风险低;若价值差较小,则说明数据价值泄露风险高。
本发明最主要的是解决整体数据价值评估的问题,因此本发明提供了一种“钻井式”的适量数据采样方法。在该方法中关键技术在于如何在有限访问流数据集的前提下识别并采样局部波峰波谷及井间距宽度的动态调整。主要有以下三点:一是如何识别局部波峰波谷;二是采用何种井间距动态调整策略;三是计算流数据的访问率。
针对上述问题,本发明在有限访问流数据集的前提下进行采样。首先以钻井的形式使得流数据的大小相对确定,考虑到井内数据对均值贡献程度的差异,提出均值贡献率采样井内波峰波谷的方法;然后设置井间距,并提出标准差四分位数井间距动态调整策略;最后根据井的宽度与井间距宽度之间的倍数关系及井间距采样率,计算流数据的访问率范围,使得可以在指定访问率范围内对流数据进行采样。
根据以上思想,本发明提供的一种“钻井式”的适量数据采样方法包括以下步骤:
(1)井内波峰波谷采样:针对流数据大小的不确定性,提出了“井”的概念,以“井”的宽度限定井内数据量的大小,使得流数据的大小相对确定。对于“井”的宽度,将其记为:W。那么如何确定井内采集什么样的数据?以前的研究重心大都放在特征权重大的数据上,而忽视异常值对数据特征的影响。根据信息熵的相关理论可知,发生概率越高的事件,其携带的信息量越少,相反,发生概率越低的事件,其携带的信息量越多,即突然出现的异常值会导致信息熵变大。结合在某些特定领域,如:股票交易、车流量实时统计等,异常值往往携带大量信息,是数据分析中不容忽视的一部分。因此,本发明主要从异常值携带信息量较多的角度出发,采集每个“井”的局部异常值(即:波峰波谷)。
S101:计算均值贡献率(MCR):
计算井内的均值,并将井内每个流数据对均值的影响,称为均值贡献率MCRi。因此井内每个流数据值valuei对均值贡献程度MCRi的计算公式如下:
Figure BDA0003168985330000071
S102:设置均值贡献率的阈值上限θupper和阈值下限θlower
由于井内每个值对均值有一定的贡献程度,波峰波谷作为异常值对井内的均值影响最大,即离均值线最远。为了采样得到的波峰波谷可以在最大限度上不破坏其对原始流数据集统计特征的破坏。因此本发明设定均值贡献率的上限θupper和下限θlower两者之间的关系如下所示,具体值可根据要求指定。
θupperlower=2,θlower∈(0,1]andθupper∈[1,2)
S103:计算井内疑似波峰波谷:
当井内数据值的MCR≥θupper,则将其标记为疑似波峰;当井内数据值的MCR≤θlower,则将其标记为疑似波谷。将疑似为波峰波谷的集合记为PT,计算公式如下:
PT={(i,MCRi)|MCRi≥θupperor MCRi≤θ1ower,i∈[1,W]and MCRi∈MCR}
S104:计算井内真实波峰波谷:
遵循波峰波谷交替出现的原则,当检测到连续出现波峰或波谷需要比较连续波峰或波谷的大小,保留其中最大或最小的数据值,如图3所示。
如图5所示,假设井宽度W=20,θupper=1.5,θlower=0.5,点3,9,16的MCR≥θupper,为疑似波峰;点7,11,18,19,20的MCR≤θlower,为疑似波谷;其中3,7,9,11,16为波峰波谷交替出现,点18,19,20为连续波谷,取三者中最小值作为波谷即点20。因此该井内的真实的波峰波谷集合为:点3,7,9,11,16,20。
(2)井间距动态调整策略:为了避免访问整体流数据,节约存储计算资源,在相邻井之间设置了钻井间距,设初始井的宽度W是初始钻井间距宽度WSinit的m倍,即:W=m×WSinit。对于井间距的设置,考虑到每个井内所携带的信息量存在差异,并且充分利用这种差异来动态调整井间距宽度。此处采用标准差来描述每个井内数据的波动程度,并根据每个井的标准差来动态调整井间距,标准差越大,波动越剧烈,数据分布越不稳定;标准差越小,波动越平缓,数据分布越稳定。包括以下几个步骤。
S201:计算井内数据标准差(WSTD):
假设对不断产生的流数据钻井的数量为WN,每个井内数据集合为welli={(j,timej,valuej)|1≤j≤W and 1≤i≤WN},则每个井的标准差计算如下所示:
Figure BDA0003168985330000081
S202:构建井内标准差序列四分位数:
令标准差的长度为n-1,集合为:WSTD=(wstd1,wstd2,…,wstdn-1),n-1<WN。那么WSTD的上限Qmax(最大值)、下限Qmin(最小值)、第一四分位数Q1(从小到大排列25%的位置数)、第二四分位数Q2(中位数)、第三四分位数Q3(从小到大排列75%的位置数)将标准差集合划分为四个不同的区域。
S203:动态调整井间距宽度:
计算第n个井的钻井间距宽度WSn,若wstdn<Q1,则说明第n个井内的流数据波动较小,分布相对平缓,保持钻井间距宽度WSn不变;若Q1≤wstdn<Q2,则说明第n个井的井内流数据相对于平缓数据来说波动有所变大,需轻微缩小钻井间距宽度WSn;若Q2≤wstdn<Q3,说明第n个井的井内流数据波动逐渐剧烈,已超出中位数水平,需加剧钻井间距宽度WSn的缩小程度;若Q3≤wstdn<Qmax,说明第n个井的井内流数据波动剧烈,极有可能出现波峰波谷,携带重要信息,需将钻井间距宽度WSn调整至最小。具体调整方式如下:
WSn={WSinit|Qmin≤wstdn<Q1}
Figure BDA0003168985330000091
Figure BDA0003168985330000092
Figure BDA0003168985330000093
(3)流数据集访问率:为了确定流数据集访问率受哪些因素的影响。首先,令流数据集的大小为N(未知),井间距采样率为p;其次,设置初始井的宽度W为初始钻井间距WSinit的m倍,即:W=m×WSinit;最后,由S203可知井间距宽度的取值为
Figure BDA0003168985330000094
S301:计算流数据集访问率:
当流数据集第一个井间距为WSinit,其他井间距全部为
Figure BDA0003168985330000095
时,流数据集的访问率为:
Figure BDA0003168985330000096
当流数据集第一个井间距为WSinit,其他井间距全部为
Figure BDA0003168985330000097
时,流数据集的访问率为:
Figure BDA0003168985330000098
当流数据集第一个井间距为WSinit,其他井间距全部为
Figure BDA0003168985330000099
时,流数据集的访问率为:
Figure BDA00031689853300000910
当流数据集井间距全部为WSinit,流数据集的访问率为:
Figure BDA00031689853300000911
那么访问率取值上限为AR1,下限为AR4,根据AR1和AR4的计算公式可知,
Figure BDA00031689853300000912
Figure BDA00031689853300000913
Figure BDA00031689853300000914
Figure BDA00031689853300000915
因此流数据集的
Figure BDA00031689853300000916
可见访问率主要受井大小和间距的倍数关系(m)和采样率(p)两个因素的影响。如图6所示,例如:设置m=0.5、1.0、1.5,p的取值范围为[0,1.0],可知随着则m和p的增大,访问率的上下限均上移。当m=1.5时,即W=1.5×WSinit,最低访问率为60%;当m=1时,即W=WSinit,最低访问率为50%;当m=0.5时,即W=0.5×WSinit,最低访问率为34%。因此通过提出的采样方法,可以有效地避免访问全局流数据,以降低存储计算资源。

Claims (5)

1.一种钻井式数据采样方法,其特征在于,包括以下步骤:
步骤1、井内波峰波谷采样:
针对流数据大小的不确定性,以井的宽度限定井内数据量的大小,使得流数据的大小相对确定,将井的宽度记为W,从异常值携带信息量较多的角度出发,采集每个井的局部异常值,每个井的局部异常值为波峰波谷,具体包括以下步骤:
S101、计算均值贡献率MCR:
计算井内流数据值的均值,将井内每个流数据值对均值的影响定义为均值贡献率MCR,则井内第i个流数据值valuei对均值贡献程度MCRi的计算公式为:
Figure FDA0003168985320000011
S102、设置均值贡献率MCR的阈值上限θupper和阈值下限θlower
S103:计算井内疑似波峰波谷:
当井内流数据值的均值贡献率MCRi≥θupper,则将该流数据值标记为疑似波峰;当井内流数据值的均值贡献率MCRi≤θlower,则将该流数据值标记为疑似波谷,将疑似波峰及疑似波谷的集合记为PT,则PT表示为:
{(i,MCRi)|MCRi≥θupperor MCRi≤θlower,i∈[1,W]and MCRi∈MCR}
S104:计算井内真实波峰波谷:
遵循波峰波谷交替出现的原则,当集合PT中连续出现波峰或波谷,则比较连续波峰或波谷的大小,若连续出现波峰,则保留其中最大的流数据值作为真实波峰,若连续出现波谷,则保留其中最小的流数据值作为真实波谷,进而得到真实的波峰波谷集合;
步骤2、井间距动态调整:
在相邻井之间设置钻井间距,设初始井的宽度W是初始钻井间距宽度WSinit的m倍,即有:W=m×WSinit;利用每个井内所携带的信息量的差异来动态调整井间距宽度,包括以下步骤:
采用标准差来描述每个井内流数据的波动程度,并根据每个井的标准差来动态调整井间距宽度:标准差越大,则波动越剧烈,数据分布越不稳定,缩小井间距宽度;标准差越小,则波动越平缓,数据分布越稳定,保持井间距宽度不变;
步骤3、流数据集访问率计算:
令流数据集的大小为N,井间距采样率为p;设初始井的宽度W是初始钻井间距宽度WSinit的m倍,即有:W=m×WSinit;设钻井间距宽度的取值为
Figure FDA0003168985320000021
则步骤3包括以下步骤:
S301:计算流数据集访问率范围:
当流数据集第一个井间距的初始钻井间距宽度为WSinit,其它井间距的初始钻井间距宽度全部为
Figure FDA0003168985320000022
时,流数据集的访问率AR1为:
Figure FDA0003168985320000023
当流数据集第一个井间距的初始钻井间距宽度为WSinit,其它井间距的初始钻井间距宽度全部为
Figure FDA0003168985320000024
时,流数据集的访问率AR2为:
Figure FDA0003168985320000025
当流数据集第一个井间距的初始钻井间距宽度为WSinit,其它井间距的初始钻井间距宽度全部为
Figure FDA0003168985320000026
时,流数据集的访问率AR3为:
Figure FDA0003168985320000027
当流数据集井间距的初始钻井间距宽度全部为WSinit,流数据集的访问率AR4为:
Figure FDA0003168985320000028
则有访问率取值上限为AR1,下限为AR4,则
Figure FDA0003168985320000029
Figure FDA00031689853200000210
Figure FDA00031689853200000211
Figure FDA00031689853200000212
Figure FDA00031689853200000213
得到流数据集的访问率取值范围为
Figure FDA00031689853200000214
则访问率受井的宽度W和钻井间距宽度的倍数关系m和井间距采样率p的影响。
2.如权利要求1所述的一种钻井式数据采样方法,其特征在于,步骤S102中,设定所述阈值上限θupper和所述阈值下限θlower两者之间的关系如下式所示:
θupperlower=2,θlower∈(0,1]andθupper∈[1,2)
所述阈值上限θupper和所述阈值下限θlower的具体值根据要求指定。
3.如权利要求1所述的一种钻井式数据采样方法,其特征在于,所述步骤2包括以下步骤:
S201:计算井内数据标准差:
假设对不断产生的流数据钻井的数量为WN,则第i个井的井内数据集合表示为welli={(j,timej,valuej)|1≤j≤W and 1≤i≤WN},timej表示第i个井内第j个流数据到达的时间,valuej表示第i个井内第j个流数据值,则第i个井的井内数据标准差wstdi采用下式计算:
Figure FDA0003168985320000031
S202:构建井内标准差序列四分位数:
定义由步骤S201计算得到的所有井内数据标准差组成的标准差集合为WSTD,标准差集合WSTD的长度为n-1,n-1<WN,则有:WSTD=(wstd1,wstd2,…,wstdn-1),则由标准差集合WSTD的上限Qmax、下限Qmin、第一四分位数Q1、第二四分位数Q2、第三四分位数Q3将标准差集合WSTD划分为四个不同的区域,第一四分位数Q1为标准差集合WSTD中从小到大排列25%的位置数,第二四分位数Q2为标准差集合WSTD中的中位数,第三四分位数Q3为标准差集合WSTD中从小到大排列75%的位置数;
S203:动态调整钻井间距宽度:
计算第n个井的钻井间距宽度WSn,若wstdn<Q1,则说明第n个井内的流数据波动较小,分布相对平缓,保持钻井间距宽度WSn不变;若Q1≤wstdn<Q2,则说明第n个井的井内流数据相对于平缓数据来说波动有所变大,需轻微缩小钻井间距宽度WSn;若Q2≤wstdn<Q3,说明第n个井的井内流数据波动逐渐剧烈,已超出中位数水平,需加剧钻井间距宽度WSn的缩小程度;若Q3≤wstdn<Qmax,说明第n个井的井内流数据波动剧烈,极有可能出现波峰波谷,携带重要信息,需将钻井间距宽度WSn调整至最小,具体调整方式如下所述:
WSn={WSinit|Qmin≤wstdn<Q1}
Figure FDA0003168985320000032
Figure FDA0003168985320000033
Figure FDA0003168985320000041
4.一种如权利要求1所述的钻井式数据采样方法在大数据价值风险评估中的应用方法,其特征在于,包括以下步骤:
第一步、获得被评估流数据集的采集要求;
第二步、通过如权利要求1所述的钻井式数据采样方法获得访问率取值范围,在访问率取值范围内利用如权利要求1所述的钻井式数据采样方法对被评估流数据集进行采样,采样得到的流数据可以反映被评估流数据集的整体数据特性,将采样得到的流数据值作为被评估流数据集的整体价值;
同时,根据第一步获得的采集要求对被评估流数据集进行采样,采样得到的流数据同样可以反映被评估流数据集的整体数据特性,将采样得到的流数据值作为被评估流数据集的受限价值;
第三步、计算整体价值与受限价值之间的差值,得到价值差;
第四步、根据价值差确定被评估流数据集的风险等级。
5.如权利要求4所述的一种应用方法,其特征在于,第四步中,所述风险等级分为高、中、低三种风险级别。
CN202110813235.2A 2021-07-19 2021-07-19 钻井式数据采样方法及其在大数据价值风险评估中的应用 Active CN113506007B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110813235.2A CN113506007B (zh) 2021-07-19 2021-07-19 钻井式数据采样方法及其在大数据价值风险评估中的应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110813235.2A CN113506007B (zh) 2021-07-19 2021-07-19 钻井式数据采样方法及其在大数据价值风险评估中的应用

Publications (2)

Publication Number Publication Date
CN113506007A CN113506007A (zh) 2021-10-15
CN113506007B true CN113506007B (zh) 2022-05-20

Family

ID=78013785

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110813235.2A Active CN113506007B (zh) 2021-07-19 2021-07-19 钻井式数据采样方法及其在大数据价值风险评估中的应用

Country Status (1)

Country Link
CN (1) CN113506007B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108764760A (zh) * 2018-06-25 2018-11-06 成都北方石油勘探开发技术有限公司 一种基于数据挖掘的井间连通性分析与预警方法
CN109026130A (zh) * 2018-08-17 2018-12-18 西安科技大学 一种矿井瓦斯数据异常的识别方法
CN109150868A (zh) * 2018-08-10 2019-01-04 海南大学 网络安全态势评估方法及装置
CN109302419A (zh) * 2018-11-21 2019-02-01 贵州电网有限责任公司 一种基于行为分析的网络应用流异常检测方法
CN109540212A (zh) * 2018-11-30 2019-03-29 湖南世优电力科技股份有限公司 一种基于大数据的电缆井状态评估预警系统及方法
CN110443488A (zh) * 2019-07-31 2019-11-12 中国石油大学(华东) 基于卷积神经网络的钻井溢漏风险识别方法、系统及设备
CN110795853A (zh) * 2019-11-01 2020-02-14 西南石油大学 一种油气钻井过程中早期溢流层位随钻识别方法
CN111695626A (zh) * 2020-06-10 2020-09-22 湖南湖大金科科技发展有限公司 基于混合采样与特征选择的高维度不平衡数据分类方法
CN112348237A (zh) * 2020-10-23 2021-02-09 中海油能源发展股份有限公司 一种动态钻井数据异常趋势检测方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110161133A1 (en) * 2007-09-29 2011-06-30 Schlumberger Technology Corporation Planning and Performing Drilling Operations
AU2016261915B2 (en) * 2015-05-13 2021-05-20 Conocophillips Company Big drilling data analytics engine

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108764760A (zh) * 2018-06-25 2018-11-06 成都北方石油勘探开发技术有限公司 一种基于数据挖掘的井间连通性分析与预警方法
CN109150868A (zh) * 2018-08-10 2019-01-04 海南大学 网络安全态势评估方法及装置
CN109026130A (zh) * 2018-08-17 2018-12-18 西安科技大学 一种矿井瓦斯数据异常的识别方法
CN109302419A (zh) * 2018-11-21 2019-02-01 贵州电网有限责任公司 一种基于行为分析的网络应用流异常检测方法
CN109540212A (zh) * 2018-11-30 2019-03-29 湖南世优电力科技股份有限公司 一种基于大数据的电缆井状态评估预警系统及方法
CN110443488A (zh) * 2019-07-31 2019-11-12 中国石油大学(华东) 基于卷积神经网络的钻井溢漏风险识别方法、系统及设备
CN110795853A (zh) * 2019-11-01 2020-02-14 西南石油大学 一种油气钻井过程中早期溢流层位随钻识别方法
CN111695626A (zh) * 2020-06-10 2020-09-22 湖南湖大金科科技发展有限公司 基于混合采样与特征选择的高维度不平衡数据分类方法
CN112348237A (zh) * 2020-10-23 2021-02-09 中海油能源发展股份有限公司 一种动态钻井数据异常趋势检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
一种多源感知数据流上的连续真值发现技术;李天义等;《软件学报》;20160322(第07期);全文 *
大数据环境下入侵风险评估优化模型仿真分析;郑宏等;《计算机仿真》;20160915(第09期);全文 *
演化数据流上的连续异常检测;胡雪艳等;《计算机工程与应用》;20080301(第07期);全文 *

Also Published As

Publication number Publication date
CN113506007A (zh) 2021-10-15

Similar Documents

Publication Publication Date Title
Bergland et al. Benefit transfer: testing for accuracy and reliability
Kisgyörgy et al. Travel time prediction by advanced neural network
US7376090B2 (en) Method of detecting distributed denial of service based on grey theory
Branisavljević et al. Improved real-time data anomaly detection using context classification
US20190220217A1 (en) Automated predictive tiered storage system
Micevski et al. Regionalisation of the parameters of the log‐Pearson 3 distribution: A case study for New South Wales, Australia
Gu et al. Real-time passenger flow anomaly detection considering typical time series clustered characteristics at metro stations
Zounemat-Kermani Investigating chaos and nonlinear forecasting in short term and mid-term river discharge
JP7366304B1 (ja) 期間内の降雨流出回数の適応分割方法
Srivastava et al. A unified approach to evaluating precipitation frequency estimates with uncertainty quantification: Application to Florida and California watersheds
Gore et al. Congestion index and reliability-based freeway level of service
CN111325451B (zh) 智能楼宇多级调度方法、智能楼宇调度中心及系统
Ou et al. A data‐driven approach to determining freeway incident impact areas with fuzzy and graph theory‐based clustering
CN113506007B (zh) 钻井式数据采样方法及其在大数据价值风险评估中的应用
Nie Dynamics of the price–volume information flow based on surrogate time series
Bao et al. Evaluation of uncertainty in flood magnitude estimator on annual expected damage costs of hydraulic structures
Johnson et al. Application of Bayesian GLSR to estimate sub daily rainfall parameters for the IFD revision project
CN106991817B (zh) 多级路网路段交通容量确定方法
Rafsanjani et al. QARIMA: A new approach to prediction in queue theory
CN114064204A (zh) 一种微服务环境下基于业务预测动态扩容的方法
Dunn Bootstrap confidence intervals for predicted rainfall quantiles
Adamowski et al. Annual maxima and partial duration flood series analysis by parametric and non‐parametric methods
CN113535819B (zh) 一种交通态势感知分析方法、装置、计算机存储介质及终端
CN117828371B (zh) 一种综合运维平台的业务信息智能分析方法
Sakalauskas et al. Entropy-based indicator for predicting stock price trend reversal

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant