CN112711604A - 物探训练数据集构建方法及装置 - Google Patents

物探训练数据集构建方法及装置 Download PDF

Info

Publication number
CN112711604A
CN112711604A CN201911021730.9A CN201911021730A CN112711604A CN 112711604 A CN112711604 A CN 112711604A CN 201911021730 A CN201911021730 A CN 201911021730A CN 112711604 A CN112711604 A CN 112711604A
Authority
CN
China
Prior art keywords
training data
seismic data
data
picking
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911021730.9A
Other languages
English (en)
Other versions
CN112711604B (zh
Inventor
陈德武
杨午阳
魏新建
李海山
常德宽
李冬
禄娟
何欣
王万里
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Petrochina Co Ltd
Original Assignee
Petrochina Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Petrochina Co Ltd filed Critical Petrochina Co Ltd
Priority to CN201911021730.9A priority Critical patent/CN112711604B/zh
Publication of CN112711604A publication Critical patent/CN112711604A/zh
Application granted granted Critical
Publication of CN112711604B publication Critical patent/CN112711604B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Geophysics And Detection Of Objects (AREA)

Abstract

本发明提供一种物探训练数据集构建方法及装置,其中,该方法包括以下步骤:导入原始地震数据、标签地震数据和与地震数据相关的特征信息;在原始地震数据和标签地震数据上拾取训练数据;从与地震数据相关的特征信息中确定与训练数据相关的特征信息;保存训练数据和与训练数据相关的特征信息;按设定的条件检索已保存的训练数据,确定检索的结果;根据检索的结果生成训练数据集。本发明能够自动拾取训练数据构建训练数据集,提高构建物探训练数据集的规模和效率,节省人力和时间,提供了一种方便、灵活、高效的智能化物探训练数据集构建方案。

Description

物探训练数据集构建方法及装置
技术领域
本发明涉及石油天然气地震勘探智能化研究技术领域,特别涉及一种物探训练数据集构建的方法及装置。
背景技术
目前,国内外以深度学习为代表的人工智能技术在计算机视觉、自然语言处理、语音识别等领域已广泛使用,并且已经构建了很多完备的数据集,这些数据集规模大、类型全、检索方便,被相关领域的研究人员广泛应用。下面是几个目前人工智能领域广泛应用的数据集。
ImageNet是一个计算机视觉系统识别项目,是目前世界上图像识别最大的数据库,包括1400万张图像,分为2万多个类别;2010年,来自斯坦福大学、普林斯顿大学及哥伦比亚大学的科学家们启动ImageNet大规模视觉识别挑战赛(ImageNet Large ScaleVisual Recognition Challenge,ILSVRC)。
MNIST是一个手写数字数据库,是由Google实验室的Corinna Cortes和纽约大学柯朗研究所的Yann LeCun创建的,训练库有60,000张手写数字图像,测试库有10,000张。对应的手写识别模型为LeNet。
CIFAR-10是一个用于普适物体识别的数据集。CIFAR-10数据集包含60000个32*32的彩色图像,共有10类。有50000个训练图像和10000个测试图像。数据集分为5个训练块和1个测试块,每个块有10000个图像,测试块包含从每类随机选择的1000个图像。这个数据集最大的特点在于将识别迁移到了普适物体,而且应用于多分类(姊妹数据集Cifar-100达到100类,ILSVRC比赛则是1000类)。同已经成熟的人脸识别相比,普适物体识别挑战巨大,数据中含有大量特征、噪声,识别物体比例不一,而且分类庞大。
Million Song Dataset是由一百万首当代流行音乐曲目的音频特征和元数据组成,其目的是帮助新研究人员在MIR领域从事研究。
目前深度学习在智能化物探领域的研究还没有构建统一的训练数据集。对于深度学习训练数据集的构建,国内外的研究团队都采用商业软件手工收集拾取训练数据,按自定的规则存储起来,如哈尔滨工业大学马建伟教授创建的智能去噪数据集、DownUnderGeosolutions公司创建的智能断层识别数据集等。这种方式构建的训练数据集规模有限。由于手动拾取训练数据过程非常耗费人力和时间,在人手有限的情况下,手动拾取方式构建的训练数据集规模都很小,构建效率低下。
发明内容
本发明实施例提供了一种物探训练数据集构建方法,用以提高构建物探训练数据集的规模和效率,节省人力和时间,该方法包括:
导入原始地震数据、标签地震数据和与地震数据相关的特征信息;
在原始地震数据和标签地震数据上拾取训练数据;从与地震数据相关的特征信息中确定与训练数据相关的特征信息;
保存训练数据和与训练数据相关的特征信息;
按设定的条件检索已保存的训练数据,确定检索的结果;
根据检索的结果生成训练数据集。
本发明实施例还提供了一种物探训练数据集构建装置,用以提高构建物探训练数据集的规模和效率,节省人力和时间,该装置包括:
地震数据导入模块,用于导入原始地震数据、标签地震数据和与地震数据相关的特征信息;
训练数据拾取模块,用于在原始地震数据和标签地震数据上拾取训练数据;从与地震数据相关的特征信息中确定与训练数据相关的特征信息;
训练数据保存模块,用于保存训练数据和与训练数据相关的特征信息;
训练数据检索模块,用于按设定的条件检索已保存的训练数据,确定检索的结果;
训练数据集生成模块,用于根据检索的结果生成训练数据集。
本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述所述方法。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述所述方法的计算机程序。
本发明实施例中,通过导入原始地震数据、标签地震数据和与地震数据相关的特征信息;在原始地震数据和标签地震数据上拾取训练数据;从与地震数据相关的特征信息中确定与训练数据相关的特征信息;保存训练数据和与训练数据相关的特征信息;按设定的条件检索已保存的训练数据,确定检索的结果;根据检索的结果生成训练数据集,与现有技术中手动拾取训练数据构建训练数据集的方案相比,能够自动拾取训练数据构建训练数据集,提高构建物探训练数据集的规模和效率,节省人力和时间,提供了一种方便、灵活、高效的智能化物探训练数据集构建方案。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例中物探训练数据集构建方法流程示意图。
图2a是本发明实施例提供的导入的原始地震数据与标签地震数据和拾取训练数据特征信息数据库表设计图;
图2b是本发明实施例提供的导入原始地震数据与标签地震数据的示例的示意图;
图3是本发明实施例提供的原始地震数据和标签地震数据插值变密度方式的联动显示的示意图;
图4是本发明实施例提供的手动拾取训练数据的示例的示意图;
图5是本发明实施例提供的定位拾取训练数据的示例的示意图;
图6是本发明实施例提供的根据步长自动拾取连续训练数据的示例的示意图;
图7是本发明实施例提供的根据开始结束时窗位置自动拾取连续训练数据的示例的示意图;
图8是本发明实施例提供的栅格方式自动拾取连续训练数据的示例的示意图;
图9a是本发明实施例提供在磁盘上保存从原始地震数据拾取的文件和图片的示例的示意图;
图9b是本发明实施例提供在磁盘上保存从标签地震数据拾取的文件和图片的示例的示意图;
图10是本发明实施例提供的保存到数据库的训练数据特征信息的示意图;
图11是本发明实施例提供的检索已保存训练数据的界面的示意图;
图12是本发明实施例提供的将检索出来的训练数据投影显示到原始地震数据和标签地震数据的示意图;
图13是本发明实施例提供的用检索出的训练数据生成训练数据集的界面的示意图;
图14是本发明实施例提供的从原始地震数据上拾取的训练数据生成训练数据集的示例的示意图;
图15是本发明实施例提供的从标签地震数据上拾取的训练数据生成训练数据集的示例的示意图。
图16是本发明实施例中物探训练数据集构建装置结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
发明人发现:目前深度学习在智能化物探领域的研究还没有构建统一的训练数据集。对于深度学习训练数据集的构建,国内外的研究团队都采用商业软件手工收集拾取训练数据,按自定的规则存储起来,如哈尔滨工业大学马建伟教授创建的智能去噪数据集、DownUnder Geosolutions公司创建的智能断层识别数据集等。这种方式构建的训练数据集规模有限。由于手动拾取训练数据过程非常耗费人力和时间,在人手有限的情况下,手动拾取方式构建的训练数据集规模都很小,构建效率低下。ImageNet等广泛应用的数据集都是使用自动分类算法分类之后打标签生成的。
基于此,在本发明实施例中为石油天然气地震勘探智能化研究人员提供一种自动高效的智能化物探训练数据集构建方法,该方法通过在原始地震数据和标签地震数据上拾取训练数据,可生成训练数据集,又可通过设定的条件实现精确且高效的检索训练数据,解决了目前智能化物探研究领域科研人员拾取的训练数据集规模有限的缺点,提供了一种方便、灵活、高效的智能化物探训练数据集构建方案。
图1是本发明实施例中物探训练数据集构建方法流程示意图,如图1所示,本发明实施例中物探训练数据集构建方法可以包括:
步骤101:导入原始地震数据、标签地震数据和与地震数据相关的特征信息;
步骤102:在原始地震数据和标签地震数据上拾取训练数据;从与地震数据相关的特征信息中确定与训练数据相关的特征信息;
步骤103:保存训练数据和与训练数据相关的特征信息;
步骤104:按设定的条件检索已保存的训练数据,确定检索的结果;
步骤105:根据检索的结果生成训练数据集。
由图1所示流程可以得知,本发明实施例可以通过在原始地震数据和标签地震数据上拾取训练数据,可自动生成训练数据集,又可通过设定的条件实现精确且高效的检索训练数据,解决了目前智能化物探研究领域科研人员拾取的训练数据集规模有限的缺点,提供了一种方便、灵活、高效的智能化物探训练数据集构建方案。
具体实施时,先导入原始地震数据、标签地震数据和与地震数据相关的特征信息。实施例中,在导入地震数据前还可以包括预先操作的软件安装的步骤。本发明实施例的方法可编程实现并编译为可执行文件,借助软件安装包制作工具InstallShield,将可执行文件、地震数据显示相关组件打包成一个软件安装包,供用户安装使用。
具体实施时,在导入原始地震数据、标签地震数据和与地震数据相关的特征信息时,可以将原始地震数据文件、标签地震数据文件存储到磁盘;将原始地震数据文件名、与原始地震数据相关的特征信息关联存储到数据库中;将标签地震数据文件名、与标签地震数据相关的特征信息关联存储到数据库中。
本发明实施例实现了导入原始地震数据和标签地震数据的功能。可以对原始地震数据和标签地震数据很方便地附加多种特征信息。
实施例中,将原始地震数据文件、标签地震数据文件存储到硬盘,将地震数据文件相关的特征信息存储到MySQL数据库。导入原始地震数据文件和标签地震数据文件时,附上与地震数据相关的特征信息。与地震数据相关的特征信息可以包括:采集环境和位置(地表条件、工区位置)、数据信息(数据类型、数据格式)、采样信息(道间距)等其中之一或任意组合,将这些特征信息和原始地震数据文件名、标签地震数据文件名关联存储到数据库中。
具体实施时,还包括在导入原始地震数据和标签地震数据后,显示原始地震数据和标签地震数据。并按如下显示方式之一或组合显示原始地震数据和标签地震数据:曲线显示方式,正负填充显示方式,变密度显示方式,插值变密度显示方式,联动显示方式,自动增益联动显示方式。实现了联动对比查看原始地震数据和标签地震数据的功能,可以实现一对数据显示之间的平移联动和缩放联动。
本发明实施例提供了一种便捷地管理不同地域、不同采集方式、不同数据类型的原始地震数据和标签地震数据的功能,将成对的原始地震数据和标签地震数据导入之后,可以以不同显示比例不同显示方式联动对比查看,检查标签数据制作的效果。
实施例中,打开一对导入的原始地震数据和标签地震数据之后,可以以曲线、正/负填充、变密度、插值变密度等方式联动显示,也可以自动增益联动显示,从而可以以不同的形式很方便地查看标签数据的制作效果。
具体实施时,还包括将检索的结果投影显示于原始地震数据和标签地震数据上。
实施例中,检索出的结果包括检索出的原始时窗数据和检索出的标签时窗数据,可以将检索出的结果分别投影显示到原始地震数据和标签地震数据上面,且检索出的结果是在同时投影到原始地震数据文件和标签地震数据文件上。如果检索出的训练数据不是在当前显示的原始地震数据和标签地震数据上拾取的,则无法投影显示,投影显示的数据经过修改(删除或移动位置)之后可以覆盖保存。也可以将检索出的两套训练数据的图片和数据文件导出到指定目录,智能化物探研究人员可以将导出的训练数据输入到深度学习神经网络中进行训练,训练出准确的模型之后即可进行目标的识别或预测。
举一例,将一系列的特征信息组合作为检索条件,从已保存的训练数据中检索出满足条件的训练数据,将满足条件的训练数据投影显示到对应的原始地震数据和标签地震数据,或者导出到指定的目录训练深度学习神经网络。
具体实施时,在原始地震数据和标签地震数据上拾取训练数据,包括:
在不同位置和地表条件工区中的不同类型、不同格式、不同道间距、不同时间采样间隔或点数的原始地震数据和标签地震数据中,拾取不同道方向样点数和不同时间方向长度的训练数据。
具体实施时,在原始地震数据和标签地震数据上拾取训练数据,可以包括:
以手动拾取方式、定位拾取方式和自动拾取方式之一或组合,在原始地震数据和标签地震数据上拾取训练数据。
以手动拾取方式在原始地震数据和标签地震数据上拾取训练数据,包括:设置待拾取训练数据的时窗大小,在原始地震数据和标签地震数据的选定位置上拾取所设置的时窗中的数据;
以定位拾取方式在原始地震数据和标签地震数据上拾取训练数据,包括:设置待拾取训练数据的中心点位置以及长和宽,按设置的中心点位置以及长和宽拾取训练数据;
以自动拾取方式在原始地震数据和标签地震数据上拾取训练数据,包括:根据起点、终点以及设置的步长自动拾取训练数据。
根据起点、终点以及设置的步长自动拾取训练数据,包括:
按如下方式之一或组合拾取训练数据:
根据设置的道间隔步长和时间间隔步长从起点开始依次拾取到终点;
根据起点和终点的位置以及设置的道间隔步长计算时间间隔步长,根据起点和终点以及道间隔步长和时间间隔步长依次拾取;
根据起点和终点的位置以及道间隔步长和时间间隔步长按照从左往右从上到下的顺序依次拾取。
本发明实施例解决了现有技术中存在的规模有限的问题。现有技术中由于手动拾取训练数据过程非常耗费人力和时间,在人手有限的情况下,手动拾取方式构建的训练数据集规模都很小,构建效率低下。ImageNet等广泛应用的数据集都是使用自动分类算法分类之后打标签生成的。而本发明实施例提供了手动拾取、定位拾取和自动拾取三大类五小类的训练数据拾取方式,保存的训练数据文件和图片可以基于灵活的检索条件实现快速检索,拾取方式灵活多样,效率较高。
本发明实施例提供了多种拾取训练数据的功能,可以从一对原始地震数据和标签地震数据上联动拾取训练数据,拾取方式灵活多样,拾取效率大幅提高。拾取训练数据的特征信息、数据文件和图片文件都保存到数据库或硬盘,针对保存的特征信息创建了详细的数据库索引。
实施例中,以不同的时窗大小实现了一种手动联动拾取、一种定位联动拾取和三种自动联动拾取训练数据的功能:
①手动拾取用于拾取某些分散的训练数据,设置矩形时窗大小后,在原始地震数据或标签地震数据某个位置上拾取一个时窗,即可完成一对时窗数据联动拾取,如果拾取的不合适,可以联动删除,也可以拖拽联动改变位置。手动拾取方式的拾取位置是用鼠标选择的。
②定位拾取是通过设置要拾取训练数据的中心点位置以及长和宽来拾取的,拾取数据的中心位置由中心点道序号和中心点时间决定,长和宽由道方向长度和时间方向长度决定。定位拾取的拾取、删除和移动也是两个窗口联动的,如果定位拾取的训练数据不合适,可以删除,也可以拖拽改变位置。
③自动拾取是根据起点、终点以及设置的步长自动拾取一系列具有连续重复特征的训练数据。起点和终点是在手动或定位拾取的训练数据上设置,步长可以同时设置道间隔步长和时间间隔步长,也可以只设置道间隔步长,自动拾取方式具体又分为三种:根据步长拾取、根据开始结束时窗位置拾取和栅格方式拾取。
根据步长拾取方式是根据设置的道间隔步长和时间间隔步长从起点开始依次拾取到终点;
根据开始结束时窗位置拾取方式的时间间隔步长是根据起点和终点的位置以及设置的道间隔步长计算出来的,然后根据起点和终点以及两个步长依次拾取;
栅格方式拾取是根据起点和终点的位置以及道间隔步长和时间间隔步长按照从左往右从上到下的顺序依次拾取所有训练数据;
具体实施时,保存训练数据和与训练数据相关的特征信息,可以包括:
将训练数据的文件名和图片名,与训练数据相关的特征信息保存到数据库;
将训练数据文件和图片保存到磁盘。保存训练数据,包括:以二进制格式保存训练数据。
本发明实施例中拾取的训练数据文件以二进制方式保存,可以实现快速保存到硬盘,文件名和附加的特征信息也以批量方式保存到数据库,实现了保存拾取的训练数据的功能。本发明实施例解决了现有技术中类型不全的问题,现有技术下智能化物探研究者手动创建的小规模数据集只适用于各自局部的研究方向,无法应用于其它研究方向。
实施例中,保存拾取的训练数据时,选择保存类型为数据(二进制采样点数据)或图片,并选择应用领域(去噪、地质异常体识别、层位追踪、建模反演、油气检测和其它),拾取数据的文件名(数据文件名和图片文件名相同)和特征信息保存到数据库,数据文件和图片文件保存到磁盘,并按应用领域创建的目录分目录存储,从原始地震数据和标签地震数据上拾取的训练数据又分别存放到两个文件夹中。
实施例中,拾取的训练数据文件保存为二进制格式,保存和读取的效率都非常高,
具体实施时,根据与训练数据相关的特征创建数据库索引;
按设定的条件检索已保存的训练数据,包括:利用数据库索引,按设定的条件检索已保存的训练数据。
本发明实施例中基于特征信息来检索训练数据的效率也非常高。
实施例中,针对拾取的训练数据的特征信息创建了数据库索引,从而提高了基于特征信息检索训练数据的效率。
具体实施时,按设定的条件检索已保存的训练数据,确定检索的结果,设定的条件为如下一个或多个:与训练数据相关的特征信息中的采集环境、采集位置、数据信息、数据格式、采样信息,保存训练数据时设置的保存类型、应用领域、保存时间,地震数据中的道方向采样点数、道方向采样间隔、时间采样点数、时间采样间隔。
本发明实施例解决了现有技术中没有灵活的检索方式的问题,现有技术下智能化物探领域手动构建的小规模数据集只存储了图片或数据,没有创建高效完备的索引,只能根据文件名来检索,检索方式单一,检索效率低下。本发明实施例中可以将标签地震数据和已保存训练数据的特征信息随机组合成检索条件,从数据库高效地检索出训练数据的文件名,从而从磁盘指定位置读取出要检索的训练数据。
实施例中,对于已经保存的训练数据,可以设置不同的条件进行检索。检索的条件包括:地表条件、工区位置、数据类型、数据格式、应用领域、道方向采样点数、道方向采样间隔、时间采样点数、时间采样间隔以及保存时间,检索结果为分页显示的数据简要信息,包括文件名、是否已保存数据、是否已保存图片。
可以在不同位置和地表条件工区中的不同类型、不同格式、不同道间距、不同时间采样间隔/点数的原始地震数据和标签地震数据中拾取不同道方向样点数和不同时间方向长度的训练数据,将其数据文件保存到磁盘的同时将这些特征信息和数据文件名关联保存到数据库,从而可以将这些特征信息随机组合成检索条件,灵活高效地检索出所需要的训练数据。
具体实施时,根据检索的结果生成训练数据集,包括:
将检索出的训练数据合并成训练数据集;和/或,对检索出的训练数据,选取时窗,通过滑动扫描方式生成训练数据集。
本发明实施例提供了通过不同的特征信息组合检索条件,基于创建的特征信息数据库索引,高效检索保存的训练数据,可以通过直接合并或小时窗滑动扫描的方式快速生成训练数据集,输入到智能化物探科研人员的深度学习神经网络中进行模型训练或目标识别。
实施例中,用检索出来的训练数据可以生成原始地震数据和标签地震数据的训练数据集,生成训练数据集的方式有两种:第一种是将检索出来的训练数据直接合并成训练数据集,如果检索出来的训练数据时窗大小不一致,则无法合并;第二种方式是对于每个训练数据文件,选取小时窗使用滑动扫描的方式生成训练数据集,需要设置的参数包括道方向样本大小、时间方向样本大小、道方向拾取步长、时间方向拾取步长,就是以道方向样本大小和时间方向样本大小为长或宽的矩形,横向以道方向拾取步长为步长,纵向以时间方向拾取步长为步长进行从左往右从上往下顺序的光栅扫描,将扫描的所有矩形合并起来生成两套大的训练数据集。
可以将特征信息随机组合起来作为检索条件从已保存的训练数据中检索出需要的训练数据,直接导出或者合并为训练数据集提供给深度学习神经网络使用,合并的方式有两种:直接合并或者对每个训练数据依次进行小时窗滑动扫描获取小时窗数据并合并。
本发明实施例中还提供了一具体实例:以构建塔里木沙漠区某工区地震数据去噪训练数据集为例,用户安装软件之后,具体的操作过程如下:
1.导入原始地震数据和标签地震数据。选择成对的原始地震数据和标签地震数据文件,选择地表条件、工区位置、数据类型,输入道间距,完成导入过程。图2a是导入的原始地震数据与标签地震数据和拾取训练数据特征信息数据库表设计图;图2b是导入原始地震数据与标签地震数据的示例的示意图。
2.显示原始地震数据和标签地震数据。打开已导入的一对原始地震数据和标签地震数据文件,联动对比查看标签数据的制作效果,如图3所示。
3.在原始地震数据和标签地震数据上拾取训练数据。在原始地震数据和标签地震数据显示上以手动拾取、定位拾取或自动拾取的方式联动拾取所需要的训练数据。提供的手动拾取训练数据的示例的示意图如图4所示;设置中心点道序号为200,中心点时间为600ms,道方向长度为30,时间方向长度为800ms,定位拾取训练数据的示意图如图5所示;设置道间隔步长为6,时间间隔步长为300ms,根据步长自动拾取连续训练数据的示例的示意图如图6所示;设置道间隔步长为6,根据开始结束时窗位置自动拾取连续训练数据的示例的示意图如图7所示;设置道间隔步长为15,时间间隔步长为500ms,根据栅格方式自动拾取连续训练数据的示例的示意图如图8所示。
4.保存拾取的训练数据。将训练数据的文件和图片保存到磁盘,数据文件名和关联的特征信息保存到数据库。将训练数据的文件和图片保存到磁盘如图9a、图9b所示,其中在磁盘上保存从原始地震数据拾取的文件和图片的示例的示意图如图9a所示,在磁盘上保存从标签地震数据拾取的文件和图片的示例的示意图如图9b所示;数据文件名和关联的特征信息保存到数据库如图10所示。
5.按条件检索已保存的训练数据。将一系列的特征信息组合作为检索条件,从已保存的训练数据中检索出满足条件的训练数据如图11所示。将一系列的特征信息组合作为检索条件,从已保存的训练数据中检索出满足条件的训练数据,将满足条件的训练数据投影显示到对应的原始地震数据和标签地震数据如图12所示,或者导出到指定的目录训练深度学习神经网络。
6.使用检索的训练数据生成训练数据集。对于检索出的训练数据使用直接合并或者对每个训练数据依次进行小时窗滑动扫描获取小时窗数据并合并的方式生成训练数据集提供给深度学习神经网络使用,如图13、图14、图15所示。
基于同一发明构思,本发明实施例中还提供了一种物探训练数据集构建装置,如下面的实施例所述。由于物探训练数据集构建装置解决问题的原理与物探训练数据集构建方法相似,因此物探训练数据集构建装置的实施可以参见物探训练数据集构建方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图16是本发明实施例的物探训练数据集构建装置的一种结构框图,如图16所示,包括:
地震数据导入模块01,用于导入原始地震数据、标签地震数据和与地震数据相关的特征信息;
训练数据拾取模块02,用于在原始地震数据和标签地震数据上拾取训练数据;从与地震数据相关的特征信息中确定与训练数据相关的特征信息;
训练数据保存模块03,用于保存训练数据和与训练数据相关的特征信息;
训练数据检索模块04,用于按设定的条件检索已保存的训练数据,确定检索的结果;
训练数据集生成模块05,用于根据检索的结果生成训练数据集。
在一个实施例中,地震数据导入模块具体用于:
将原始地震数据文件、标签地震数据文件存储到磁盘;
将原始地震数据文件名、与原始地震数据相关的特征信息关联存储到数据库中;
将标签地震数据文件名、与标签地震数据相关的特征信息关联存储到数据库中;
在一个实施例中,物探训练数据集构建装置还包括:地震数据显示模块,具体用于显示原始地震数据和标签地震数据。
在一个实施例中,地震数据显示模块,还用于:按如下显示方式之一或组合显示原始地震数据和标签地震数据:
曲线显示方式,正负填充显示方式,变密度显示方式,插值变密度显示方式,联动显示方式,自动增益联动显示方式。
在一个实施例中,地震数据显示模块,还用于:将检索的结果投影显示于原始地震数据和标签地震数据上。
在一个实施例中,训练数据拾取模块,具体用于:在不同位置和地表条件工区中的不同类型、不同格式、不同道间距、不同时间采样间隔或点数的原始地震数据和标签地震数据中,拾取不同道方向样点数和不同时间方向长度的训练数据。
在一个实施例中,训练数据拾取模块,还用于:以手动拾取方式、定位拾取方式和自动拾取方式之一或组合,在原始地震数据和标签地震数据上拾取训练数据。
在一个实施例中,训练数据拾取模块,还用于:以手动拾取方式在原始地震数据和标签地震数据上拾取训练数据,包括:设置待拾取训练数据的时窗大小,在原始地震数据和标签地震数据的选定位置上拾取所设置的时窗中的数据。
在一个实施例中,训练数据拾取模块,还用于:以定位拾取方式在原始地震数据和标签地震数据上拾取训练数据,包括:设置待拾取训练数据的中心点位置以及长和宽,按设置的中心点位置以及长和宽拾取训练数据。
在一个实施例中,训练数据拾取模块,还用于:以自动拾取方式在原始地震数据和标签地震数据上拾取训练数据,包括:
根据起点、终点以及设置的步长自动拾取训练数据。
在一个实施例中,训练数据拾取模块,还用于:根据起点、终点以及设置的步长自动拾取训练数据,包括:
按如下方式之一或组合拾取训练数据:
根据设置的道间隔步长和时间间隔步长从起点开始依次拾取到终点;
根据起点和终点的位置以及设置的道间隔步长计算时间间隔步长,根据起点和终点以及道间隔步长和时间间隔步长依次拾取;
根据起点和终点的位置以及道间隔步长和时间间隔步长按照从左往右从上到下的顺序依次拾取。
在一个实施例中,训练数据保存模块,具体用于:将训练数据的文件名和图片名,与训练数据相关的特征信息保存到数据库;
将训练数据文件和图片保存到磁盘。
在一个实施例中,训练数据保存模块,具体用于:以二进制格式保存训练数据。
在一个实施例中,物探训练数据集构建装置还包括:数据库索引创建模块,具体用于:
根据与训练数据相关的特征创建数据库索引;
按设定的条件检索已保存的训练数据,包括:利用数据库索引,按设定的条件检索已保存的训练数据。
在一个实施例中,训练数据检索模块,具体用于:按设定的条件检索已保存的训练数据,确定检索的结果,设定的条件为如下一个或多个:
与训练数据相关的特征信息中的采集环境、采集位置、数据信息、数据格式、采样信息,保存训练数据时设置的保存类型、应用领域、保存时间,地震数据中的道方向采样点数、道方向采样间隔、时间采样点数、时间采样间隔。
在一个实施例中,训练数据集生成模块具体用于:
将检索出的训练数据合并成训练数据集;和/或,对检索出的训练数据,选取时窗,通过滑动扫描方式生成训练数据集。
本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述所述方法。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述所述方法的计算机程序。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (28)

1.一种物探训练数据集构建方法,其特征在于,包括:
导入原始地震数据、标签地震数据和与地震数据相关的特征信息;
在原始地震数据和标签地震数据上拾取训练数据;从与地震数据相关的特征信息中确定与训练数据相关的特征信息;
保存训练数据和与训练数据相关的特征信息;
按设定的条件检索已保存的训练数据,确定检索的结果;
根据检索的结果生成训练数据集。
2.如权利要求1所述的方法,其特征在于,导入原始地震数据、标签地震数据和与地震数据相关的特征信息,包括:
将原始地震数据文件和图片、标签地震数据文件和图片存储到磁盘;
将原始地震数据文件名和图片名、与原始地震数据相关的特征信息关联存储到数据库中;
将标签地震数据文件名和图片名、与标签地震数据相关的特征信息关联存储到数据库中。
3.如权利要求1所述的方法,其特征在于,还包括:
在导入原始地震数据和标签地震数据后,显示原始地震数据和标签地震数据。
4.如权利要求3所述的方法,其特征在于,显示原始地震数据和标签地震数据,包括:
按如下显示方式之一或组合显示原始地震数据和标签地震数据:
曲线显示方式,正负填充显示方式,变密度显示方式,插值变密度显示方式,联动显示方式,自动增益联动显示方式。
5.如权利要求3所述的方法,其特征在于,还包括:
将检索的结果投影显示于原始地震数据和标签地震数据上。
6.如权利要求1所述的方法,其特征在于,在原始地震数据和标签地震数据上拾取训练数据,包括:
在不同位置和地表条件工区中的不同类型、不同格式、不同道间距、不同时间采样间隔或点数的原始地震数据和标签地震数据中,拾取不同道方向样点数和不同时间方向长度的训练数据。
7.如权利要求1所述的方法,其特征在于,在原始地震数据和标签地震数据上拾取训练数据,包括:
以手动拾取方式、定位拾取方式和自动拾取方式之一或组合,在原始地震数据和标签地震数据上拾取训练数据。
8.如权利要求7所述的方法,其特征在于,以手动拾取方式在原始地震数据和标签地震数据上拾取训练数据,包括:设置待拾取训练数据的时窗大小,在原始地震数据和标签地震数据的选定位置上拾取所设置的时窗中的数据。
9.如权利要求7所述的方法,其特征在于,以定位拾取方式在原始地震数据和标签地震数据上拾取训练数据,包括:设置待拾取训练数据的中心点位置以及长和宽,按设置的中心点位置以及长和宽拾取训练数据。
10.如权利要求7所述的方法,其特征在于,以自动拾取方式在原始地震数据和标签地震数据上拾取训练数据,包括:
根据起点、终点以及设置的步长自动拾取训练数据。
11.如权利要求10所述的方法,其特征在于,根据起点、终点以及设置的步长自动拾取训练数据,包括:
按如下方式之一或组合拾取训练数据:
根据设置的道间隔步长和时间间隔步长从起点开始依次拾取到终点;
根据起点和终点的位置以及设置的道间隔步长计算时间间隔步长,根据起点和终点以及道间隔步长和时间间隔步长依次拾取;
根据起点和终点的位置以及道间隔步长和时间间隔步长按照从左往右从上到下的顺序依次拾取。
12.如权利要求1所述的方法,其特征在于,保存训练数据和与训练数据相关的特征信息,包括:
将训练数据的文件名和图片名,与训练数据相关的特征信息保存到数据库;
将训练数据文件和图片保存到磁盘。
13.如权利要求1所述的方法,其特征在于,保存训练数据,包括:
以二进制格式保存训练数据。
14.如权利要求1所述的方法,其特征在于,还包括:
根据与训练数据相关的特征信息创建数据库索引;
按设定的条件检索已保存的训练数据,包括:利用数据库索引,按设定的条件检索已保存的训练数据。
15.如权利要求1所述的方法,其特征在于,设定的条件为如下一个或多个:
与训练数据相关的特征信息中的采集环境、采集位置、数据信息、数据格式、采样信息,保存训练数据时设置的保存类型、应用领域、保存时间,地震数据中的道方向采样点数、道方向采样间隔、时间采样点数、时间采样间隔。
16.如权利要求1所述的方法,其特征在于,根据检索的结果生成训练数据集,包括:
将检索出的训练数据合并成训练数据集;
和/或,
对检索出的训练数据,选取时窗,通过滑动扫描方式生成训练数据集。
17.一种物探训练数据集构建装置,其特征在于,包括:
地震数据导入模块,用于导入原始地震数据、标签地震数据和与地震数据相关的特征信息;
训练数据拾取模块,用于在原始地震数据和标签地震数据上拾取训练数据;从与地震数据相关的特征信息中确定与训练数据相关的特征信息;
训练数据保存模块,用于保存训练数据和与训练数据相关的特征信息;
训练数据检索模块,用于按设定的条件检索已保存的训练数据,确定检索的结果;
训练数据集生成模块,用于根据检索的结果生成训练数据集。
18.如权利要求17所述的装置,其特征在于,地震数据导入模块具体用于:
将原始地震数据文件、标签地震数据文件存储到磁盘;
将原始地震数据文件名、与原始地震数据相关的特征信息关联存储到数据库中;
将标签地震数据文件名、与标签地震数据相关的特征信息关联存储到数据库中。
19.如权利要求17所述的装置,其特征在于,还包括:
地震数据显示模块,用于显示原始地震数据和标签地震数据。
20.如权利要求19所述的装置,其特征在于,地震数据显示模块还用于:
将检索的结果投影显示于原始地震数据和标签地震数据上。
21.如权利要求17所述的装置,其特征在于,训练数据拾取模块具体用于:
在不同位置和地表条件工区中的不同类型、不同格式、不同道间距、不同时间采样间隔或点数的原始地震数据和标签地震数据中,拾取不同道方向样点数和不同时间方向长度的训练数据。
22.如权利要求17所述的装置,其特征在于,训练数据拾取模块具体用于:
以手动拾取方式、定位拾取方式和自动拾取方式之一或组合,在原始地震数据和标签地震数据上拾取训练数据。
23.如权利要求17所述的装置,其特征在于,训练数据保存模块具体用于:
将训练数据的文件名和图片名,与训练数据相关的特征信息保存到数据库;
将训练数据文件和图片保存到磁盘。
24.如权利要求17所述的装置,其特征在于,训练数据保存模块还用于:
以二进制格式保存训练数据。
25.如权利要求17所述的装置,其特征在于,还包括:数据库索引创建模块,用于:根据与训练数据相关的特征信息创建数据库索引;
训练数据检索模块,具体用于:
利用数据库索引,按设定的条件检索已保存的训练数据。
26.如权利要求17所述的装置,其特征在于,训练数据集生成模块具体用于:
将检索出的训练数据合并成训练数据集;
和/或,
对检索出的训练数据,选取时窗,通过滑动扫描方式生成训练数据集。
27.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至16任一所述方法。
28.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有执行权利要求1至16任一所述方法的计算机程序。
CN201911021730.9A 2019-10-25 2019-10-25 物探训练数据集构建方法及装置 Active CN112711604B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911021730.9A CN112711604B (zh) 2019-10-25 2019-10-25 物探训练数据集构建方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911021730.9A CN112711604B (zh) 2019-10-25 2019-10-25 物探训练数据集构建方法及装置

Publications (2)

Publication Number Publication Date
CN112711604A true CN112711604A (zh) 2021-04-27
CN112711604B CN112711604B (zh) 2023-10-31

Family

ID=75541377

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911021730.9A Active CN112711604B (zh) 2019-10-25 2019-10-25 物探训练数据集构建方法及装置

Country Status (1)

Country Link
CN (1) CN112711604B (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MX2012007176A (es) * 2011-06-20 2012-12-19 Logined Bv Atributo sismico de buzamiento.
CN103969683A (zh) * 2014-05-20 2014-08-06 南京大学 一种三维地震解释中基于约束的批量拾取层位面的方法
CN104133678A (zh) * 2014-07-22 2014-11-05 中国石油天然气股份有限公司 构建、运行交互地震解释系统的方法及装置
US20150154249A1 (en) * 2013-12-02 2015-06-04 Qbase, LLC Data ingestion module for event detection and increased situational awareness
WO2016171778A1 (en) * 2015-04-24 2016-10-27 Exxonmobil Upstream Research Company Seismic stratigraphic surface classification
CN106407649A (zh) * 2016-08-26 2017-02-15 中国矿业大学(北京) 基于时间递归神经网络的微震信号到时自动拾取方法
US20180096057A1 (en) * 2016-10-03 2018-04-05 Sap Se Collecting event related tweets
CN108470040A (zh) * 2018-02-11 2018-08-31 中国石油天然气股份有限公司 一种非结构化数据的入库方法及装置
US20180293683A1 (en) * 2017-04-11 2018-10-11 International Business Machines Corporation Humanitarian Crisis Analysis Using Secondary Information Gathered By a Focused Web Crawler
CN109212597A (zh) * 2018-10-16 2019-01-15 中国矿业大学(北京) 基于深度信念网络和扫描叠加的微震源自动定位方法
CN109917457A (zh) * 2019-04-10 2019-06-21 苏州浪潮智能科技有限公司 一种地震波初至点的拾取方法以及设备
CN110210296A (zh) * 2019-04-25 2019-09-06 长江大学 一种结合U-net网络和DenseNet网络的微地震有效信号检测方法
CN110308484A (zh) * 2019-06-11 2019-10-08 中国石油大学(北京) 一种基于深度学习智能筛选初至的层析反演方法及系统

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MX2012007176A (es) * 2011-06-20 2012-12-19 Logined Bv Atributo sismico de buzamiento.
US20150154249A1 (en) * 2013-12-02 2015-06-04 Qbase, LLC Data ingestion module for event detection and increased situational awareness
CN103969683A (zh) * 2014-05-20 2014-08-06 南京大学 一种三维地震解释中基于约束的批量拾取层位面的方法
CN104133678A (zh) * 2014-07-22 2014-11-05 中国石油天然气股份有限公司 构建、运行交互地震解释系统的方法及装置
WO2016171778A1 (en) * 2015-04-24 2016-10-27 Exxonmobil Upstream Research Company Seismic stratigraphic surface classification
CN106407649A (zh) * 2016-08-26 2017-02-15 中国矿业大学(北京) 基于时间递归神经网络的微震信号到时自动拾取方法
US20180096057A1 (en) * 2016-10-03 2018-04-05 Sap Se Collecting event related tweets
US20180293683A1 (en) * 2017-04-11 2018-10-11 International Business Machines Corporation Humanitarian Crisis Analysis Using Secondary Information Gathered By a Focused Web Crawler
CN108470040A (zh) * 2018-02-11 2018-08-31 中国石油天然气股份有限公司 一种非结构化数据的入库方法及装置
CN109212597A (zh) * 2018-10-16 2019-01-15 中国矿业大学(北京) 基于深度信念网络和扫描叠加的微震源自动定位方法
CN109917457A (zh) * 2019-04-10 2019-06-21 苏州浪潮智能科技有限公司 一种地震波初至点的拾取方法以及设备
CN110210296A (zh) * 2019-04-25 2019-09-06 长江大学 一种结合U-net网络和DenseNet网络的微地震有效信号检测方法
CN110308484A (zh) * 2019-06-11 2019-10-08 中国石油大学(北京) 一种基于深度学习智能筛选初至的层析反演方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王万里等: "初至自动拾取在地震采集质控中的应用", 中国石油学会2019 年物探技术研讨会, pages 1429 - 1432 *
王万里等: "髙效髙精度的初至自动拾取方法研究及其在采集质量监控的应用", 2017年物探技术研讨会, pages 1143 - 1146 *

Also Published As

Publication number Publication date
CN112711604B (zh) 2023-10-31

Similar Documents

Publication Publication Date Title
CN109635171B (zh) 一种新闻节目智能标签的融合推理系统和方法
KR102061288B1 (ko) 이미지 검색 방법, 실시간 그리기 프롬프팅 방법 및 그 장치
CN112541490A (zh) 一种基于深度学习的档案影像信息结构化构建方法及装置
CN102646070B (zh) 一种基于区域的时空轨迹数据存储方法
CN103530652B (zh) 一种基于人脸聚类的视频编目方法、检索方法及其系统
US11036790B1 (en) Identifying visual portions of visual media files responsive to visual portions of media files submitted as search queries
Chen et al. Learning-based spatio-temporal vehicle tracking and indexing for transportation multimedia database systems
CN106951400A (zh) 一种pdf文件的信息抽取方法及装置
CN105612513A (zh) 图像检索方法、图像检索系统以及信息记录介质
CN105027162A (zh) 图像解析装置、图像解析系统、图像解析方法
CN106600965B (zh) 基于尖锐度的交通流早晚高峰时段自动识别方法
Lee et al. Video indexing: an approach based on moving object and track
Seidl et al. Automated classification of petroglyphs
CN111797772B (zh) 发票图像自动分类方法、系统、装置
CN111736217A (zh) 地震属性融合方法及装置
CN103678593A (zh) 一种基于空间场景草图描述的交互式空间场景检索方法
CN111427976B (zh) 道路鲜度的获取方法及装置
CN116597149B (zh) 一种基于工业生产的点云语义分割系统和方法
CN112711604B (zh) 物探训练数据集构建方法及装置
CN113282781B (zh) 图像检索方法及装置
CN115114352A (zh) 一种用于典型污染物快速分析管理系统
CN109902139B (zh) 一种基于r树的轨迹数据压缩方法
Loglisci et al. Mining Trajectory Data for Discovering Communities of Moving Objects.
CN107704609B (zh) 视频内容检索方法及装置、计算机可读存储介质、终端
CN112131669B (zh) 特征缩略图处理系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant