CN104537001A - 一种油气信息数据挖掘平台及方法 - Google Patents

一种油气信息数据挖掘平台及方法 Download PDF

Info

Publication number
CN104537001A
CN104537001A CN201410776335.2A CN201410776335A CN104537001A CN 104537001 A CN104537001 A CN 104537001A CN 201410776335 A CN201410776335 A CN 201410776335A CN 104537001 A CN104537001 A CN 104537001A
Authority
CN
China
Prior art keywords
data
algorithm
interface
data mining
mining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410776335.2A
Other languages
English (en)
Inventor
张倩
米石云
张光亚
李大伟
王红军
杨秋琳
巴丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Petroleum and Natural Gas Co Ltd
Original Assignee
China Petroleum and Natural Gas Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Petroleum and Natural Gas Co Ltd filed Critical China Petroleum and Natural Gas Co Ltd
Priority to CN201410776335.2A priority Critical patent/CN104537001A/zh
Publication of CN104537001A publication Critical patent/CN104537001A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Water Supply & Treatment (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种油气信息数据挖掘平台及方法,所述平台包括:用于存储油气信息数据源的数据库;数据预处理模块,包括:格式转换接口;用于将所述数据库中不同格式的数据转化为数据表,并将所述数据表存储于数据库中;数据挖掘算法模块,用于根据用户输入的挖掘请求信息,对所述数据预处理模块处理后的数据进行挖掘;数据挖掘结果展示模块,用于对所述数据挖掘算法模块的挖掘结果进行分析和处理,展示所述分析和处理后的挖掘结果。本申请实施例提供的一种油气信息数据挖掘平台及方法,可以提高数据挖掘工作的效率。

Description

一种油气信息数据挖掘平台及方法
技术领域
本申请涉及信息技术领域,特别涉及一种油气信息数据挖掘平台及方法。
背景技术
随着信息技术的飞速发展,人们结合统计学、数据库、机器学习等技术,提出应用数据挖掘技术处理大量数据,从而得到有益的信息。相应地,对油气信息系统的数据库数据进行深入挖掘,尽可能提取有用信息,也可以为油气资源评价、勘探风险评价等研究乃至油气企业做出决策提供重要的统计数据。
现有技术中没有用于油气企业的数据挖掘平台,油气企业工作人员目前所采用的数据挖掘技术通常包括:准备数据、通过编码实现挖掘算法、再对挖掘算法进行评估。
在实现本申请过程中,发明人发现现有技术中至少存在如下问题:现有的数据挖掘技术不能为工作人员提供统一交互的平台,导致目前的数据挖掘工作效率较低。
发明内容
本申请实施例的目的是提供一种油气信息数据挖掘平台及方法,以提高数据挖掘工作的效率。
为解决上述技术问题,本申请实施例提供一种油气信息数据挖掘平台及方法是这样实现的:
一种油气信息数据挖掘平台,包括:
用于存储油气信息数据源的数据库;
数据预处理模块,包括:格式转换接口;用于将所述数据库中不同格式的数据转化为数据表,并将所述数据表存储于数据库中;
数据挖掘算法模块,用于根据用户输入的挖掘请求信息,对所述数据预处理模块处理后的数据进行挖掘;
数据挖掘结果展示模块,用于对所述数据挖掘算法模块的挖掘结果进行分析和处理,展示所述分析和处理后的挖掘结果。
优选方案中,所述数据预处理模块还包括:遗漏值处理接口;所述遗漏值处理接口用于选择一个值填充所述数据库中数据缺少的值;包括:使用一个常量填充所述遗漏值;或者,使用所述数据属性的平均值填充所述遗漏值;或者,使用与给定数据属同一类型的样本的平均值填充所述遗漏值;或者,使用出现频率最大的值填充所述遗漏值。
优选方案中,所述数据预处理模块还包括:噪音数据处理接口;所述噪音数据处理接口用于检测所述数据库中数据的异常值,并采用一个合理值代替所述异常值。
优选方案中,所述数据挖掘算法模块包括:算法编辑接口、算法调试接口和算法调用接口;
所述算法编辑接口,用于提供算法编辑窗口;所述算法编辑接口支持采用Java语言进行编辑;
所述算法调试接口,用于对所述算法编辑接口或所述算法调用接口获得的算法代码进行调试,包括单步执行算法代码、设置算法代码断点、监视堆栈或局部变量、以及对算法代码的语法错误进行定位;
所述算法调试接口支持采用Java语言进行调试;所述算法调用接口,用于调用已有的挖掘算法代码;所述已有的挖掘算法代码包括:Matlab语言编写的算法代码;或,R语言编写的算法代码;或,多种语言混合编写的算法代码。
优选方案中,所述展示模块包括:联机分析处理接口和挖掘结果展示接口;所述联机分析处理接口,用于对所述数据挖掘的结果进行数据联机分析处理,包括下述中的至少一种:数据的频率分析、极大极小值分析、平均值分析、相关性分析;所述展示接口,用于根据用户输入的展示要求展示所述联机分析处理接口的结果,包括:采用二维图图形展示所述结果;或者,采用三维图图形展示所述结果;或者,采用序列图图形展示所述结果。
一种油气信息数据挖掘方法,包括:
接收用户输入的数据源,对所述数据源数据进行预处理,并将处理后的数据存储至数据库;
接收用户输入的挖掘信息,根据所述挖掘信息对所述数据库中的数据进行数据挖掘;
分析所述数据挖掘的结果,展示所述分析结果。
优选方案中,所述挖掘信息包括:编辑数据挖掘算法;或,调用已有的数据挖掘算法;或,调试数据挖掘算法。
优选方案中,所述根据所述挖掘信息对所述数据库中的数据源进行数据挖掘,包括:
当所述挖掘信息包括编辑数据挖掘算法时,提供算法编辑窗口,接收用户在所述编辑窗口输入的算法代码;所述算法编辑支持采用Java语言进行编辑;
当所述挖掘信息包括调用数据挖掘算法时,调用已有的挖掘算法代码;所述已有的挖掘算法代码包括:Matlab语言编写的算法代码;或,R语言编写的算法代码;或,多种语言混合编写的算法代码;
当所述挖掘信息包括调试数据挖掘算法时,对所述编辑或所述调用算法代码进行调试,包括单步执行算法代码、设置算法代码断点、监视堆栈或局部变量、以及对算法代码的语法错误进行定位;所述算法调试采用Java语言进行调试。
优选方案中,所述分析数据挖掘的结果包括对所述数据挖掘的结果进行联机分析处理;具体包括下述中的至少一种:数据的频率分析、极大极小值分析、平均值分析、相关性分析。
优选方案中,所述展示数据挖掘结果包括:采用二维图图形展示所述结果;或者,采用三维图图形展示所述结果;或者,采用序列图图形展示所述结果。
由以上本申请实施例提供的技术方案可见,上述实施例提供的油气信息数据挖掘平台及方法,可以为用户提供数据处理功能、高效可扩展的数据挖掘算法及数据展示功能,同时,本申请信息数据挖掘平台采用混合编程技术,所述平台采用的接口可以采用Java语言调用Matlab语言、R类编程语言,并设置了可调用的经典数据挖掘算法接口及支持Java语言的算法编辑接口,通过应用本申请提供的数据挖掘平台,可以使数据挖掘技术的应用更加迅速方便,从而可以提高数据挖掘工作的效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请油气信息数据挖掘平台一个实施例的组成示意图;
图2是本申请油气信息数据挖掘平台实施例中数据预处理模块的组成示意图;
图3是本申请油气信息数据挖掘平台实施例中数据挖掘算法模块的组成示意图;
图4是本申请油气信息数据挖掘平台实施例中数据挖掘结果展示模块的组成示意图;
图5是本申请油气信息数据挖掘方法一个实施例的流程图。
具体实施方式
本申请实施例提供一种油气信息数据挖掘平台及方法。
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
图1是本申请油气信息数据挖掘平台一个实施例的组成示意图。如图1所示,所述油气信息数据挖掘平台可以包括:数据库100、数据预处理模块200、数据挖掘算法模块300、数据挖掘结果展示模块400。
所述数据库100,可以用于存储油气信息数据源。所述数据源中的油气信息可以包括:结构化信息/或能转化为结构化信息的非结构化信息。所述油气信息数据可以包括:盆地数据、油气田数据、岩性地层数据等。所述油气信息数据的格式可以包括:带分隔符的ASCII文本、Excel文件等。
所述数据预处理模块200,所述可以用于将所述数据库100中不同格式的数据转化为数据表,并将所述数据表存储于数据库100中。
图2是本申请油气信息数据挖掘平台实施例中数据预处理模块的组成示意图。如图2所示,所述数据预处理模块200,可以包括:格式转换接口201。所述格式转换接口201,可以用于将所述数据库100中不同格式的数据转化为数据表。
所述数据预处理模块还可以包括:遗漏值处理接口202和噪音数据处理接口203。
所述遗漏值处理接口202,可以用于选择一个值填充所述数据库100中数据缺少的值。所述遗漏值处理接口202可以根据用户输入的处理命令进行填充,具体可以包括下述中的任意一种:使用一个常量填充所述遗漏值;或者,使用所述数据属性的平均值填充所述遗漏值;或者,使用与给定数据属同一类型的样本的平均值填充所述遗漏值;或者,使用出现频率最大的值填充所述遗漏值。
所述噪音数据处理接口203,可以用于检测所述数据库100中数据的异常值,并采用一个合理值代替所述异常值。具体可以用于:根据用户输入的分类要求对所述数据进行分类,利用分类后的数据之间数据各项属性值的差别的总和确定差异值,并采用回归模型的预测值代替所述差异值。所述分类要求可以包括:预设的属性值或预设的属性值的范围。所述利用分类后的数据之间数据各项属性值的差别的总和确定差异值,可以包括:所述各项属性值的差别的总和大于第一预设值的,所述属性值对应的数据可以为差异值。
所述数据挖掘算法模块300,可以用于根据用户输入的挖掘请求信息,对所述数据预处理模块200处理后的数据进行挖掘。
图3是本申请油气信息数据挖掘平台实施例中数据挖掘算法模块的组成示意图。如图3所示,所述数据挖掘算法模块300可以包括:算法编辑接口301、算法调试接口302和算法调用接口303。
所述算法编辑接口301,可以用于提供算法编辑窗口。所述算法编辑接口可以采用Java语言进行编辑。
所述算法调试接口302,可以用于对所述算法编辑接口301或所述算法调用接口303获得的算法代码进行调试,包括单步执行算法代码、设置算法代码断点、监视堆栈或局部变量、以及对算法代码的语法错误进行定位。所述算法调试接口302可以采用Java语言进行调试。
所述算法调用接口303,可以用于调用已有的挖掘算法代码。所述已有的挖掘算法代码可以包括Matlab语言或R语言或多种语言混合编写的算法代码。
所述数据挖掘结果展示模块400,可以用于对所述数据挖掘算法模块300的挖掘结果进行分析和处理,展示所述分析和处理后的挖掘结果。
图4是本申请油气信息数据挖掘平台实施例中数据挖掘结果展示模块的组成示意图。如图4所示,所述数据挖掘结果展示模块400,可以包括:联机分析处理接口401和展示接口402。
所述联机分析处理接口401,可以用于对所述数据挖掘的结果进行数据联机分析处理(OLAP)。所述数据分析可以包括下述中的至少一种:数据的频率分析、极大极小值分析、平均值分析、相关性分析。所述数据分析可以通过绘图、生成表格、方程拟合或计算特征向量等方式实现。
所述展示接口402可以根据用户输入的展示要求展示所述联机分析处理接口401的结果。例如,具体地,可以对盆地数据可以按照发现年份、盆地类型等维度信息展示油气资源量信息、盆地个数等;可以对油气田数据按照年份展示油田产量、采收率、可采储量等信息;可以对岩性地层数据按照类型展示盆地个数、年代、储量等信息。所述展示联机分析处理接口401的结果可以包括:采用二维图图形展示所述结果;或者,采用三维图图形展示所述结果;或者,采用序列图图形展示所述结果。
上述实施例提供的一种油气信息数据挖掘平台,可以为用户提供数据处理功能、高效可扩展的数据挖掘算法及数据展示功能等,极大减少了油气企业在数据挖掘技术的投入,并能加快其数据挖掘业务的推出。同时,本申请信息数据挖掘平台采用混合编程技术,所述平台采用的接口可以采用Java语言调用Matlab语言、R类编程语言,设置了可调用的经典数据挖掘算法接口及支持Java语言的算法编辑接口,通过应用本申请提供的数据挖掘平台,可以使数据挖掘技术的应用更加迅速方便。因此本申请实施例提供的一种油气信息数据挖掘平台可以提高数据挖掘工作的效率。
下面介绍采用本申请油气信息数据挖掘平台进行数据挖掘的油气信息数据挖掘方法实施例。
图5是本申请油气信息数据挖掘方法一个实施例的流程图。如图5所示所述油气信息数据挖掘方法可以包括:
S501:接收用户输入的数据源,对所述数据源数据进行预处理,并将处理后的数据存储至数据库。
可以接收用户输入的数据源。所述数据源为油气信息数据源。所述油气信息数据源可以包括盆地数据源、油田数据源、岩性地层数据源等。
可以采用数据挖掘平台的数据预处理模块对所述数据的数据进行预处理。具体可以包括:将所述数据源中不同格式的数据转化为数据表。
采用数据挖掘平台的数据预处理模块对所述数据的数据进行预处理,还可以包括选择一个值填充所述数据源中的数据缺少的值。具体可以包括下述中的任意一种:使用一个常量填充所述遗漏值,或者,使用所述数据属性的平均值填充所述遗漏值;或者,使用与给定数据属同一类型的样本的平均值填充所述遗漏值;或者,使用出现频率最大的值填充所述遗漏值。
采用数据挖掘平台的数据预处理模块对所述数据的数据进行预处理,还可以包括检测所述数据源中数据的异常值,并采用一个合理值代替所述异常值。具体可以包括:根据用户输入的分类要求对所述数据进行分类,利用分类后的数据之间数据各项属性值的差别的总和确定差异值,并采用回归模型的预测值代替所述差异值。所述分类要求可以包括:预设的属性值或预设的属性值的范围。所述利用分类后的数据之间数据各项属性值的差别的总和确定差异值,可以包括:所述各项属性值的差别的总和大于第一预设值的,所述属性值对应的数据可以为差异值。
可以将处理后的数据存储至数据库中。
S502:接收用户输入的挖掘信息,根据所述挖掘信息对所述数据库中的数据进行数据挖掘。
可以接收用户输入的挖掘信息。所述用户输入的挖掘信息可以包括:编辑数据挖掘算法、调用已有的数据挖掘算法或者调试数据挖掘算法。
根据所述挖掘信息可以对所述数据库中的数据源进行数据挖掘。
当所述挖掘信息包括编辑数据挖掘算法时,可以提供算法编辑窗口,接收用户在所述编辑窗口输入的算法代码。所述算法编辑可以采用Java语言进行编辑。
当所述挖掘信息包括调用数据挖掘算法时,可以调用已有的挖掘算法代码。所述已有的挖掘算法代码可以包括Matlab语言或R语言或多种语言混合编写的算法代码。
当所述挖掘信息包括调试数据挖掘算法时,可以对所述编辑或所述调用算法代码进行调试,包括单步执行算法代码、设置算法代码断点、监视堆栈或局部变量、以及对算法代码的语法错误进行定位。所述算法调试可以采用Java语言进行调试。
S503:分析所述数据挖掘的结果,展示所述分析结果。
可以对所述数据挖掘的结果进行联机分析处理(OLAP),可以包括下述中的至少一种:数据的频率分析、极大极小值分析、平均值分析、相关性分析。所述分析可以通过绘图、生成表格、方程拟合或计算特征向量等方式实现。
所述展示分析结果,可以包括:采用二维图图形展示所述结果;或者,采用三维图图形展示所述结果;或者,采用序列图图形展示所述结果。例如,可以对盆地数据可以按照发现年份、盆地类型等维度信息展示油气资源量信息、盆地个数等;可以对油气田数据按照年份展示油田产量、采收率、可采储量等信息;可以对岩性地层数据按照类型展示盆地个数、年代、储量等信息。
上述实施例公开的数据挖掘方法采用本申请提供的数据挖掘平台实现,可以保证能方便迅速地应用数据挖掘技术,可以提高数据挖掘工作的效率。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片2。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware Description Language)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java HardwareDescription Language)、Lava、Lola、MyHDL、PALASM、RHDL(Ruby Hardware DescriptionLanguage)等,目前最普遍使用的是VHDL(Very-High-Speed Integrated Circuit HardwareDescription Language)与Verilog2。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、AtmelAT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。
本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。该计算机软件产品可以包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。该计算机软件产品可以存储在内存中,内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括短暂电脑可读媒体(transitory media),如调制的数据信号和载波。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
虽然通过实施例描绘了本申请,本领域普通技术人员知道,本申请有许多变形和变化而不脱离本申请的精神,希望所附的权利要求包括这些变形和变化而不脱离本申请的精神。

Claims (10)

1.一种油气信息数据挖掘平台,其特征在于,包括:
用于存储油气信息数据源的数据库;
数据预处理模块,包括:格式转换接口;用于将所述数据库中不同格式的数据转化为数据表,并将所述数据表存储于数据库中;
数据挖掘算法模块,用于根据用户输入的挖掘请求信息,对所述数据预处理模块处理后的数据进行挖掘;
数据挖掘结果展示模块,用于对所述数据挖掘算法模块的挖掘结果进行分析和处理,展示所述分析和处理后的挖掘结果。
2.如权利要求1所述的一种油气信息数据挖掘平台,其特征在于,所述数据预处理模块还包括:遗漏值处理接口;
所述遗漏值处理接口用于选择一个值填充所述数据库中数据缺少的值;包括:使用一个常量填充所述遗漏值;或者,使用所述数据属性的平均值填充所述遗漏值;或者,使用与给定数据属同一类型的样本的平均值填充所述遗漏值;或者,使用出现频率最大的值填充所述遗漏值。
3.如权利要求2所述的一种油气信息数据挖掘平台,其特征在于,所述数据预处理模块还包括:噪音数据处理接口;
所述噪音数据处理接口用于检测所述数据库中数据的异常值,并采用一个合理值代替所述异常值。
4.如权利要求1所述的一种油气信息数据挖掘平台,其特征在于,所述数据挖掘算法模块包括:算法编辑接口、算法调试接口和算法调用接口;
所述算法编辑接口,用于提供算法编辑窗口;所述算法编辑接口支持采用Java语言进行编辑;
所述算法调试接口,用于对所述算法编辑接口或所述算法调用接口获得的算法代码进行调试,包括单步执行算法代码、设置算法代码断点、监视堆栈或局部变量、以及对算法代码的语法错误进行定位;所述算法调试接口支持采用Java语言进行调试;
所述算法调用接口,用于调用已有的挖掘算法代码;所述已有的挖掘算法代码包括:Matlab语言编写的算法代码;或,R语言编写的算法代码;或,多种语言混合编写的算法代码。
5.如权利要求1所述的一种油气信息数据挖掘平台,其特征在于,所述展示模块包括:联机分析处理接口和挖掘结果展示接口;
所述联机分析处理接口,用于对所述数据挖掘的结果进行数据联机分析处理,包括下述中的至少一种:数据的频率分析、极大极小值分析、平均值分析、相关性分析;
所述展示接口,用于根据用户输入的展示要求展示所述联机分析处理接口的结果,包括:采用二维图图形展示所述结果;或者,采用三维图图形展示所述结果;或者,采用序列图图形展示所述结果。
6.一种油气信息数据挖掘方法,其特征在于,包括:
接收用户输入的数据源,对所述数据源数据进行预处理,并将处理后的数据存储至数据库;
接收用户输入的挖掘信息,根据所述挖掘信息对所述数据库中的数据进行数据挖掘;
分析所述数据挖掘的结果,展示所述分析结果。
7.如权利要求6所述的一种油气信息数据挖掘方法,其特征在于,所述挖掘信息包括:编辑数据挖掘算法;或,调用已有的数据挖掘算法;或,调试数据挖掘算法。
8.如权利要求7所述的一种油气信息数据挖掘方法,其特征在于,所述根据所述挖掘信息对所述数据库中的数据源进行数据挖掘,包括:
当所述挖掘信息包括编辑数据挖掘算法时,提供算法编辑窗口,接收用户在所述编辑窗口输入的算法代码;所述算法编辑支持采用Java语言进行编辑;
当所述挖掘信息包括调用数据挖掘算法时,调用已有的挖掘算法代码;所述已有的挖掘算法代码包括:Matlab语言编写的算法代码;或,R语言编写的算法代码;或,多种语言混合编写的算法代码;
当所述挖掘信息包括调试数据挖掘算法时,对所述编辑或所述调用算法代码进行调试,包括单步执行算法代码、设置算法代码断点、监视堆栈或局部变量、以及对算法代码的语法错误进行定位;所述算法调试采用Java语言进行调试。
9.如权利要求6所述的一种油气信息数据挖掘方法,其特征在于,所述分析数据挖掘的结果包括对所述数据挖掘的结果进行联机分析处理;具体包括下述中的至少一种:数据的频率分析、极大极小值分析、平均值分析、相关性分析。
10.如权利要求6所述的一种油气信息数据挖掘方法,其特征在于,所述展示数据挖掘结果包括:采用二维图图形展示所述结果;或者,采用三维图图形展示所述结果;或者,采用序列图图形展示所述结果。
CN201410776335.2A 2014-12-15 2014-12-15 一种油气信息数据挖掘平台及方法 Pending CN104537001A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410776335.2A CN104537001A (zh) 2014-12-15 2014-12-15 一种油气信息数据挖掘平台及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410776335.2A CN104537001A (zh) 2014-12-15 2014-12-15 一种油气信息数据挖掘平台及方法

Publications (1)

Publication Number Publication Date
CN104537001A true CN104537001A (zh) 2015-04-22

Family

ID=52852529

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410776335.2A Pending CN104537001A (zh) 2014-12-15 2014-12-15 一种油气信息数据挖掘平台及方法

Country Status (1)

Country Link
CN (1) CN104537001A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105303045A (zh) * 2015-10-27 2016-02-03 中国石油天然气股份有限公司 一种长输管道线性数据关联规则挖掘方法
CN106484914A (zh) * 2016-10-26 2017-03-08 国云科技股份有限公司 一种快速实现数据挖掘分析的模块组件化方法
CN106484844A (zh) * 2016-09-30 2017-03-08 广州特道信息科技有限公司 大数据挖掘方法及系统
CN106503039A (zh) * 2016-09-20 2017-03-15 南京邮电大学 一种可视化实时数据挖掘系统及方法
CN106951539A (zh) * 2017-03-23 2017-07-14 苏州大学 一种信息真伪验证方法及系统
CN107248118A (zh) * 2017-07-24 2017-10-13 国网节能服务有限公司 数据挖掘方法、装置和系统
CN107831719A (zh) * 2017-09-28 2018-03-23 浙江海洋大学 一种基于物联网的医疗环境智能诊断和管理系统
CN109325756A (zh) * 2018-08-03 2019-02-12 上海小渔数据科技有限公司 用于数据算法交易的数据处理方法及装置、服务器

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1975720A (zh) * 2006-12-27 2007-06-06 章毅 一种基于Web的数据挖掘系统及其控制方法
CN103870595A (zh) * 2014-04-01 2014-06-18 深圳市科盾科技有限公司 一种数据挖掘系统及方法
CN104123312A (zh) * 2013-04-28 2014-10-29 国际商业机器公司 一种数据挖掘方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1975720A (zh) * 2006-12-27 2007-06-06 章毅 一种基于Web的数据挖掘系统及其控制方法
CN104123312A (zh) * 2013-04-28 2014-10-29 国际商业机器公司 一种数据挖掘方法和装置
CN103870595A (zh) * 2014-04-01 2014-06-18 深圳市科盾科技有限公司 一种数据挖掘系统及方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
《中国优秀硕士学位论文全文数据库》 *
《数理医药学杂志》 *
《电子技术与软件工程》 *
沈雪: "基于贝叶斯方法的缺失数据补全研究", 《中国优秀硕士学位论文全文数据库》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105303045A (zh) * 2015-10-27 2016-02-03 中国石油天然气股份有限公司 一种长输管道线性数据关联规则挖掘方法
CN105303045B (zh) * 2015-10-27 2018-05-04 中国石油天然气股份有限公司 一种长输管道线性数据关联规则挖掘方法
CN106503039A (zh) * 2016-09-20 2017-03-15 南京邮电大学 一种可视化实时数据挖掘系统及方法
CN106484844A (zh) * 2016-09-30 2017-03-08 广州特道信息科技有限公司 大数据挖掘方法及系统
CN106484844B (zh) * 2016-09-30 2019-06-25 云润大数据服务有限公司 大数据挖掘方法及系统
CN106484914A (zh) * 2016-10-26 2017-03-08 国云科技股份有限公司 一种快速实现数据挖掘分析的模块组件化方法
CN106951539A (zh) * 2017-03-23 2017-07-14 苏州大学 一种信息真伪验证方法及系统
CN107248118A (zh) * 2017-07-24 2017-10-13 国网节能服务有限公司 数据挖掘方法、装置和系统
CN107831719A (zh) * 2017-09-28 2018-03-23 浙江海洋大学 一种基于物联网的医疗环境智能诊断和管理系统
CN109325756A (zh) * 2018-08-03 2019-02-12 上海小渔数据科技有限公司 用于数据算法交易的数据处理方法及装置、服务器

Similar Documents

Publication Publication Date Title
CN104537001A (zh) 一种油气信息数据挖掘平台及方法
US9904694B2 (en) NoSQL relational database (RDB) data movement
US9336184B2 (en) Representation of an interactive document as a graph of entities
Minelli et al. Software analytics for mobile applications--insights & lessons learned
US9960974B2 (en) Dependency mapping among a system of servers, analytics and visualization thereof
US20120159333A1 (en) Representation of an interactive document as a graph of entities
US9208059B2 (en) ETL debugger
CN110543571A (zh) 用于水利信息化的知识图谱构建方法以及装置
US9563421B2 (en) Refining data understanding through impact analysis
US9940380B2 (en) Automatic modeling of column and pivot table layout tabular data
CN103309647A (zh) 应用程序多语言支持系统及方法
CN110990274A (zh) 一种生成测试案例的数据处理方法、装置及系统
US20170300461A1 (en) Representation of an Interactive Document as a Graph of Entities
KR20220166241A (ko) 데이터 처리 방법, 장치, 전자기기, 저장매체 및 프로그램
CN113419789A (zh) 数据模型脚本的生成方法和装置
US9037994B2 (en) Navigation to a data definition in a diff context
US10754622B2 (en) Extracting mobile application workflow from design files
US20160266875A1 (en) Software automatic configuration apparatus, software automatic configuration method, and storage media
Borowski et al. Graph Buddy—an interactive code dependency browsing and visualization tool
US20160350201A1 (en) Etl data flow design assistance through progressive context matching
CN105426676B (zh) 一种钻井数据处理方法和系统
KR20140068943A (ko) 유연성을 갖춘 메타데이터 구성 기법
CN108920241A (zh) 一种显示状态调整方法、装置及设备
Alsarraj et al. Designing and implementing a tool to transform source code to UML diagrams
CN105404650A (zh) 一种gis数据处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20150422