CN114896468A

CN114896468A - 基于神经网络的文件类型匹配方法和数据智能录入方法

Info

Publication number: CN114896468A
Application number: CN202210436508.0A
Authority: CN
Inventors: 任钰; 申瑞彩; 王博涵; 武鑫
Original assignee: Beijing Yuexin Times Technology Co ltd
Current assignee: Beijing Yuexin Times Technology Co ltd
Priority date: 2022-04-24
Filing date: 2022-04-24
Publication date: 2022-08-12
Anticipated expiration: 2042-04-24
Also published as: CN114896468B

Abstract

本发明涉及人工智能领域，具体涉及一种基于神经网络的文件类型匹配方法和数据智能录入方法，旨在解决人工识别并上传数据时效率太低的问题。本发明的基于神经网络的文件类型匹配方法包括：解析待匹配文件，构建第一结构化数据；将第一结构化数据输入到文件类型匹配模型，得到待匹配文件的类型。其中，待匹配文件为地震地质勘探中获取的数据文件；待匹配文件的类型包括井头文件、井轨迹文件、分层文件或岩性文件。本发明的数据智能录入方法包括：采用上述文件类型匹配方法，判断待录入文件的类型；确定待录入文件中每列数据的字段名；根据待录入文件的类型和每列数据的字段名，将待录入文件中的数据上传到数据资源池。本发明极大地提高了上传效率。

Description

基于神经网络的文件类型匹配方法和数据智能录入方法

技术领域

本发明涉及人工智能领域，具体涉及一种基于神经网络的文件类型匹配方法和数据智能录入方法。

背景技术

地震勘探是利用地下介质的弹性和密度差异，通过观测和分析大地对人工激发地震波的响应，推断地下岩层的性质和形态的地球物理勘探方法。地震勘探是地球物理勘探中最重要、解决油气勘探问题最有效的一种方法。它是钻探前勘测石油与天然气资源的重要手段，在煤田和工程地质勘查、区域地质研究和地壳研究等方面，也得到广泛应用。构建勘探地震地质数据资源池，对于分析和研究地质构造具有非常重要的意义。

在构建勘探地震地质数据资源池的过程中，收集到的数据均为原始井文件数据，这类数据呈现数据量大、文件类型多、文件中的字段命名方式不统一的现象。

传统的方式是通过人工手动甄别文件名称是否与数据内容匹配以及逐一检查字段名与字段内容是否匹配，若匹配则直接上传，若不匹配则人工校正后上传。上述方法虽可实现数据的上传，但会带来较长的时间耗费，以及较低的效率。

发明内容

为了解决现有技术中的上述问题，本发明提出了一种基于神经网络的文件类型匹配方法和数据智能录入方法，极大地提高了数据上传的效率。

本发明的一方面，提出了一种基于神经网络的文件类型匹配方法，所述方法包括：

解析待匹配文件，构建第一结构化数据；

将所述第一结构化数据输入到文件类型匹配模型，得到所述待匹配文件的类型；

其中，

所述待匹配文件为地震地质勘探中获取的数据文件；

所述待匹配文件的类型包括：井头文件、井轨迹文件、分层文件或岩性文件；

所述文件类型匹配模型为神经网络模型。

优选地，“解析待匹配文件，构建第一结构化数据”的步骤包括：

提取所述待匹配文件中的数据；

在提取的数据中，对非数字的数据进行one-hot编码(热独编码)；

采用末尾补零的方式，令每一数据行中包含的数据个数都达到预设的第一数据维度，从而得到所述第一结构化数据。

优选地，“将所述第一结构化数据输入到文件类型匹配模型，得到所述待匹配文件的类型”的步骤包括：

按顺序从所述第一结构化数据中每次读取一行数据输入到所述文件类型匹配模型，分别得到每行数据对应的文件类型；

根据各行数据对应的文件类型，通过投票法确定所述待匹配文件的类型。

优选地，所述文件类型匹配模型的训练方法包括：

按顺序每次从第一训练集中读取一行数据输入到所述文件类型匹配模型中，得到输出结果；

根据所述输出结果以及该行数据对应的标签，计算第一损失函数；

利用梯度下降法进行迭代，逐步调整模型参数并减小所述第一损失函数，直到达到预设的迭代次数。

优选地，所述文件类型匹配模型的训练方法还包括：

获取多个已知类型的原始文件；

删除所述原始文件中冗余的空行；

提取所述原始文件中的数据，组成结构化的第一原始数据集；

对所述结构化的第一原始数据集中每个非数字的数据进行one-hot编码；

采用末尾补零的方式，令每一数据行中包含的数据个数都达到预设的第一数据维度；

将所述原始文件的类型作为每一行数据对应的标签，得到结构化的第一数据集；

按照预设的比例对所述结构化的第一数据集进行划分，得到所述第一训练集和第一测试集；

其中，

所述原始文件为地震地质勘探中获取的数据文件；

所述第一测试集用于对训练后的所述文件类型匹配模型进行效果验证。

本发明的另一方面，提出了一种基于神经网络的数据智能录入方法，所述方法包括：

根据如上面所述的基于神经网络的文件类型匹配方法，判断待录入文件的类型；

确定所述待录入文件中每列数据的字段名；

根据所述待录入文件的类型和每列数据的字段名，将所述待录入文件中的数据上传到所述数据资源池；

其中，

所述待录入文件为地震地质勘探中获取的数据文件；

所述待录入文件的类型包括：井头文件、井轨迹文件、分层文件或岩性文件。

优选地，所述待录入文件的类型还包括：测井曲线文件；

在“根据如上面所述的基于神经网络的文件类型匹配方法，判断所述待录入文件的类型”的步骤之前，所述基于神经网络的数据智能录入方法还包括：

判断所述待录入文件的后缀是否为.1as，若是，则确定所述待录入文件为测井曲线文件；否则，

判断所述待录入文件中所有数据是否均为浮点型数据，且其中一列数据为等差数列；若是，则确定所述待录入文件为测井曲线文件；

在所述待录入文件为测井曲线文件的情况下，从所述待录入文件中获取井名、曲线名和数据并上传到所述数据资源池。

优选地，“确定所述待录入文件中每列数据的字段名”的步骤包括：

提取所述待录入文件中的数据；

针对提取的数据中第一行文字，计算非数字的字符所占百分比；

根据计算结果和预设的百分比阈值，判断提取的数据中是否含有表头；

若是，则删除所述表头；

提取的数据中，对非数字的字段进行one-hot编码；

采用末尾补零的方式，令每一数据列中包含的数据个数都达到预设的第二数据维度，从而得到第二结构化数据；

根据所述待录入文件的类型，选择对应的字段匹配模型；

按顺序从所述第二结构化数据中每次读取一列数据输入选择的字段匹配模型，从而得到每列数据对应的字段名。

优选地，所述字段匹配模型为神经网络模型，且除测井曲线文件外，每种文件类型均对应一个字段匹配模型；

每个字段匹配模型的训练方法包括：

按顺序从第二训练集中每次读取一列数据输入到所述字段匹配模型中，得到输出结果；

根据所述输出结果以及该列数据对应的字段名标签，计算第二损失函数；

利用梯度下降法进行迭代，逐步调整模型参数并减小所述第二损失函数，直到达到预设的迭代次数。

优选地，在“确定所述待录入文件中每列数据的字段名”的步骤之后，在“根据所述待录入文件的类型和每列数据的字段名，将所述待录入文件中的数据上传到所述数据资源池”的步骤之前，所述方法还包括：

确定所述待录入文件中每列数据的单位。

与最接近的现有技术相比，本发明具有如下有益效果：

本发明提出的基于神经网络的文件类型匹配方法，通过解析待匹配文件并构建第一结构化数据，然后将第一结构化数据按行输入到预先训练好的文件类型匹配模型中，每一行得出一个匹配结果，最后用投票法判断出待匹配文件属于哪种类型。本发明在训练模型的时候，通过对数据做前期处理(删除冗余的空行、对非数字的数据进行one-hot编码、对长度不足的样本进行末尾补零等)，使得输入到神经网络中的训练样本都是数字的形式、而且是同样的维度。利用本发明的文件类型匹配方法，可以通过神经网络自动识别文件的类型，比起人工打开文件进行类型识别，显然提高了识别效率。

本发明提出的基于神经网络的数据智能录入方法，首先判断待录入文件是否为测井曲线，若是，则提取井名、曲线名和数据上传到数据资源池。否则，利用文件类型匹配模型判断文件类型，然后根据文件类型选择与之对应的字段匹配模型，对文件中每列数据的字段名进行判断。最后根据文件类型、字段名，将文件中未做one-hot编码和补零的数据上传到数据资源池。由于每种文件类型可能包含几十个甚至几百个字段信息，且不同字段对应的数据特征可能相近，如果直接将数据进行字段匹配，则容易匹配出错。本发明针对每种文件类型都训练了一个对应的字段匹配模型，采用上述双阶段匹配法，即首先进行文件类型匹配，接下来再基于文件类型进行字段匹配，缩小了匹配范围，提高了匹配的精度。利用本发明可以高效地集成管理数据，避免了人工识别文件类型和字段名的繁琐工作，减少了数据上传人员的工作量，极大地提高了上传效率，增加数据资源平台的易用性。

附图说明

图1是本发明实施例中采用的BP神经网络的算法示意图；

图2是本发明的基于神经网络的文件类型匹配方法实施例的主要步骤示意图；

图3是本发明实施例中从待匹配文件中提取出的部分数据的截图；

图4是本发明实施例中文件类型匹配模型的训练方法主要步骤示意图；

图5是本发明的基于神经网络的数据智能录入方法实施例一的主要步骤示意图；

图6是本发明的基于神经网络的数据智能录入方法实施例二的主要步骤示意图；

图7是本发明实施例中测井曲线文件的截图；

图8是本发明实施例中待录入文件中含有表头的例子；

图9是本发明实施例中待录入文件中不含表头但是含有单位的例子；

图10是本发明实施例中字段匹配模型的训练方法主要步骤示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本申请实施例中的技术方案进行清楚、完整的描述，显然，本申请所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本申请的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明的保护范围。

需要说明的是，在本发明的描述中，术语“第一”、“第二”仅仅是为了便于描述，而不是指示或暗示所述装置、元件或参数的相对重要性，因此不能理解为对本发明的限制。另外，本发明中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，如无特殊说明，一般表示前后关联对象是一种“或”的关系。

神经网络是受到生物神经网络的启发而提出的一种网络模型，该网络由输入层、隐藏层、输出层组成，从输入层开始逐层提取特征，将上层提取到的特征作为下一层的输入，并通过梯度下降法来不断调整数量众多的权重和阈值，使损失函数不断趋近于零，最终确定网络的权重，建立出最终的模型，使输出结果无限接近人工结果。

图1是本发明实施例中采用的BP神经网络的算法示意图。如图1所示，该模型的输入特征数为d个，输出特征数为l个，即表示为l分类模型。将数据x输入到输入层，图中x＝[x₁，x₂，...，x_i，...，x_d]，根据公式(1)的计算方法对输入层各神经元加权，得到隐藏层的输入α，α＝[α₁，α₂，...，α_h，...，α_q]，如公式(1)所示：

其中，v_ih为权重。

隐藏层的输入α经过激活函数进行非线性变换，得到隐藏层的输出b＝f(α)，其中，f为激活函数，b＝[b₁，b₂，...，b_h，...，b_q]。接下来，再根据公式(2)的计算方法将隐藏层节点进行加权计算得到β，如公式(2)所示：

其中，β＝[β₁，β₂，...，β_j，...，β_l]，w_hj为权重。将β输入到输出层中，输出层经过非线性变换，得到最终的输出结果y＝f(β)。其中，y＝[y₁，y₂，...，y_j，...，y_l]，y_j表示数据x属于第j个类别的概率。

本发明实施例中采用的损失函数为交叉熵函数。在二分类的情况下，我们假定一共有两个类别：A类和B类，该损失函数的表达式如公式(3)所示：

其中，U为损失数值，M为训练样本数量，U_m为第m个训练样本对应的损失结果，t_m为第m个训练样本的类别标签，q_m为第m个训练样本预测为A类的概率，1-q_m为第m个训练样本预测为B类的概率。

本发明中用神经网络模型来进行文件类型和字段名的分类，在多分类的情况下，该损失函数的表达式如公式(4)所示：

其中，L为损失数值，N为训练样本数量，L_n为第n个训练样本对应的损失结果，G为分类的总类别数，y_nc为第n个训练样本实际属于第c类的概率，p_nc为第n个训练样本被预测为第c类的概率。

本发明实施例中，利用带泄露修正线性单元(Leaky ReLU)的激活函数代替原有的修正线性单元(Rectified linear unit，ReLU)激活函数，Leaky ReLU激活函数将输入为负值的神经元输出为一个趋近于0的负数，有效避免了大面积神经元坏死的情况，使模型能够较好地完成训练。Leaky ReLU激活函数如公式(5)所示：

其中，γ为一个参数，范围在0到1之间，取值一般为0.01。

在地震地质勘探中获取的数据文件的格式可以为.dat、.las、.txt、.xls、.xlsx、.prn等多种格式，其文件类型可以分为井头、井轨迹、分层、岩性和测井曲线等类型。因为测井曲线文件的格式比较特殊，所以不需要使用模型就能判断出来(后面的实施例中将会描述如何判断测井曲线文件)，下面先针对另外几种文件，描述如何利用文件类型匹配模型来判断文件类型。

图2是本发明的基于神经网络的文件类型匹配方法实施例的主要步骤示意图。如图2所示，本实施例的文件类型匹配方法主要包括步骤A10-A20：

步骤A10，解析待匹配文件，构建第一结构化数据。

步骤A20，将第一结构化数据输入到文件类型匹配模型，得到待匹配文件的类型。

本实施例中的文件类型匹配模型为神经网络模型，优选为如图1所示的BP神经网络模型，包括输入层、隐藏层和输出层，共三层结构。

在一种可选的实施例中，步骤A10可以具体包括步骤A11-A13：

步骤A11，提取待匹配文件中的数据。

其中，待匹配文件为地震地质勘探中获取的数据文件；待匹配文件的类型包括：井头文件、井轨迹文件、分层文件或岩性文件等。

步骤A12，在提取的数据中，对非数字的数据进行one-hot编码。

图3是本发明实施例中从待匹配文件中提取出的部分数据的截图。下面以这部分数据为例，对后续的one-hot编码和补零操作进行说明。

如图3所示，第一列为井名，全部是非数字的数据(英文字母、数字和中划线的组合)；第四列为岩性，第四列的倒数第1至5行中也都是非数字的数据(英文、中划线和下划线的组合)。因此，需要对这两列非数字的数据进行one-hot编码，以便后面输入到模型中的数据都是数字形式的。图3中共包含10种非数字数据，假设文件类型匹配模型所涉及的非数字数据(模型的所有训练样本中涉及的非数字数据)也只有这10种，则图3中非数字数据与one-hot编码的对应关系，可以如表1所示：

表1非数字数据与one-hot编码的对应关系

数据	one-hot编码
		TZ1-1	(1，0，0，0，0，0，0，0，0，0)
TZ1-2	(0，1，0，0，0，0，0，0，0，0)
		TZ2-1H	(0，0，1，0，0，0，0，0，0，0)
TZ2-2C	(0，0，0，1，0，0，0，0，0，0)
		TZ3C-H	(0，0，0，0，1，0，0，0，0，0)
F-OFFSHORE_BAR	(0，0，0，0，0，1，0，0，0，0)
		F-FLOODPLAIN_FINES	(0，0，0，0，0，0，1，0，0，0)
F-BAY_MDST	(0，0，0，0，0，0，0，1，0，0)
		F-BAY_SANDSTONE	(0，0，0，0，0，0，0，0，1，0)
F-BAY_MDST	(0，0，0，0，0，0，0，0，0，1)

在图3的基础上对其中的非数字数据进行one-hot编码以后得到的数据形式如表2所示：

表2 one-hot编码后每行数据的形式

表2中第“1”至“10”组数据分别对应图3中的第1行至第10行数据，从表2中可以看出这10组中包含的数据个数不统一，为了适应文件类型匹配模型中预设的第一数据维度，需要采用如下步骤A13进行补零操作。

步骤A13，采用末尾补零的方式，令每一数据行中包含的数据个数都达到预设的第一数据维度，从而得到第一结构化数据。

假设预设的第一数据维度为23，需要采取末尾补零的方式，令表2中每组数据中包含的数据个数都达到23个，表3为补零以后的形式：

表3 one-hot编码后每行数据的形式

1	(1，0，0，0，0，0，0，0，0，0，16345727.3，5126798，0，0，0，0，0，0，0，0，0，0，0)
		2	(0，1，0，0，0，0，0，0，0，0，16345727.3，5126798，0，0，0，0，0，0，0，0，0，0，0)
3	(0，0，1，0，0，0，0，0，0，0，16344998.9，5125757.5，0，0，0，0，0，0，0，0，0，0，0)
		4	(0，0，0，1，0，0，0，0，0，0，16344998.9，5125757.5，0，0，0，0，0，0，0，0，0，0，0)
5	(0，0，0，0，1，0，0，0，0，0，16345788.5，5126392.8，0，0，0，0，0，0，0，0，0，0，0)
		6	(1，0，0，0，0，0，0，0，0，0，2757.3298,2765.5186，0，0，0，0，0，1，0，0，0，0，60.12)
7	(1，0，0，0，0，0，0，0，0，0，2765.5186，2766.2007，0，0，0，0，0，0，1，0，0，0，70.51)
		8	(1，0，0，0，0，0，0，0，0，0，2766.2007，2773.7983，0，0，0，0，0，0，0，1，0，0，60.98)
9	(1，0，0，0，0，0，0，0，0，0，2773.7983，2773.9114，0，0，0，0，0，0，0，0，1，0，57.64)
		10	(1，0，0，0，0，0，0，0，0，0，2773.9114，2781.2458，0，0，0，0，0，0，0，0，0，1，85.63)

在另一种可选的实施例中，步骤A20可以具体包括步骤A21-A22：

步骤A21，按顺序从第一结构化数据中每次读取一行数据输入到文件类型匹配模型，分别得到每行数据对应的文件类型。

步骤A22，根据各行数据对应的文件类型，通过投票法确定待匹配文件的类型。

图4是本发明实施例中文件类型匹配模型的训练方法主要步骤示意图。如图4所示，本实施例的文件类型匹配模型的训练方法主要包括步骤B10-B30：

步骤B10，按顺序每次从第一训练集中读取一行数据输入到文件类型匹配模型中，得到输出结果。

步骤B20，根据输出结果以及该行数据对应的标签，计算第一损失函数。第一损失函数的形式可以采用如上面的公式(4)所示的计算方法。

步骤B30，利用梯度下降法进行迭代，逐步调整模型参数并减小第一损失函数，直到达到预设的迭代次数。

可选地，在步骤B10之前，还可以包括构建训练集的步骤B1-B7：

步骤B1，获取多个已知类型的原始文件。

其中，原始文件为地震地质勘探中获取的数据文件。

步骤B2，删除原始文件中冗余的空行。

删除空行是为了防止冗余部分对解析出的数据产生干扰。

步骤B3，提取原始文件中的数据，组成结构化的第一原始数据集。

步骤B4，对结构化的第一原始数据集中每个非数字的数据进行one-hot编码。

需要说明的是，这里需要统计出数据集中包含的所有非数字的数据，采用one-hot编码格式对其进行编码。在上面的文件类型匹配方法实施例中，步骤A12对待匹配文件中提取出的数据进行one-hot编码时也要跟此处数据集中的one-hot编码对应起来，同样一个非数字的数据例如“TZ1-1”，在数据集中的编码和在步骤A12中的编码应一致。

步骤B5，采用末尾补零的方式，令每一数据行中包含的数据个数都达到预设的第一数据维度。

这里，训练集中的“预设的第一数据维度”与在上面的文件类型匹配方法实施例中从待匹配文件中提取数据并构建的第一结构化数据中“预设的第一数据维度”相等。

步骤B6，将原始文件的类型作为每一行数据对应的标签，得到结构化的第一数据集。

本实施例中，各文件类型对应的类别标签为{井分层：0，井头：1，井轨迹：2，岩性：3}。构造后的第一数据集中每类的个数分别为{′井分层′：83，′井头′：65，′井轨迹′：191，′岩性′：2492}。

步骤B7，按照预设的比例对结构化的第一数据集进行划分，得到第一训练集和第一测试集。其中，第一测试集用于对训练后的文件类型匹配模型进行效果验证。

本实施例中预设的比例为8∶2，将结构化的第一数据集按8∶2的比例划分为第一训练集和第一测试集，其中第一训练集的大小为(2263，304)，表示为2263条(数据的行数)304维(每行数据的维度，由每一行中数字数据和非数字数据的one-hot编码拼接后得到)的数据；第一测试集大小为(568,304)，表示为568条304维的数据。

进一步地，基于上述文件类型匹配方法，本发明还提供了基于神经网络的数据智能录入方法实施例一和实施例二，下面进行详细说明。

图5是本发明的基于神经网络的数据智能录入方法实施例一的主要步骤示意图。如图5所示，本实施例的数据智能录入方法主要包括步骤C10-C30：

步骤C10，根据上面所述的基于神经网络的文件类型匹配方法，判断待录入文件的类型。

步骤C20，确定待录入文件中每列数据的字段名。

步骤C30，根据待录入文件的类型和每列数据的字段名，将待录入文件中的数据上传到数据资源池。

其中，待录入文件为地震地质勘探中获取的数据文件；待录入文件的类型包括：井头文件、井轨迹文件、分层文件或岩性文件等。

由于每种文件类型可能包含几十个甚至几百个字段信息，且不同字段对应的数据特征可能相近，如果直接将数据进行字段匹配，则容易匹配出错。因此本发明采用双阶段匹配法，即首先进行文件类型匹配，接下来基于文件类型选择相应的字段匹配模型进行字段匹配，缩小了匹配范围，提高了匹配的精度。由于测井曲线文件与其它文件类型的数据不同，它完整地包含了每条曲线的名字和数据，不需要对其数据进行字段的匹配，只需要解析出井名、曲线名和数据就可以上传到数据资源池。

图6是本发明的基于神经网络的数据智能录入方法实施例二的主要步骤示意图。本实施例中，待录入文件的类型除了可能是井头文件、井轨迹文件、分层文件或岩性文件等以外，还可能是测井曲线文件。如图6所示，本实施例的数据智能录入方法主要包括步骤D10-D60：

步骤D10，判断待录入文件的后缀是否为.1as，若是，则确定待录入文件为测井曲线文件，转至步骤D30。

步骤D20，判断待录入文件中所有数据是否均为浮点型数据，且其中一列数据为等差数列；若是，则确定待录入文件为测井曲线文件；否则，转至步骤D40。

步骤D30，在待录入文件为测井曲线文件的情况下，从待录入文件中获取井名、曲线名和数据并上传到数据资源池，录入过程结束。

图7是本发明实施例中测井曲线文件的截图。如图7所示，文件中“～Ascii”字符串以下为测量的数据，“～Ascii”以上为头文件信息。井名和曲线名可以从头文件信息中获取。为了醒目起见，图7中从上到下用三个方框分别标出了井名、曲线名和数据所在的位置。

关于井名的获取：可以在该文件头部的头文件信息中查找字符串“UWI”或“WELL”，并获取该字符串后面的井名“TZ4”；在查找字符串“UWI”或“WELL”失败的情况下，还可以通过分析待录入文件的文件名获取井名。

关于曲线名的获取：如果有“～Curve”，从“～Curve”读到“～Parameter”或“～Ascii”，否则，由于曲线名与数据的列数是对应的，一个曲线名对应一列数据，因此可以先读数据，判断有多少列数据，再从“～Ascii”往上读几行去查找。

关于数据的获取：从“～Ascii”往下可以读取文件对应的数据。

步骤D40，根据上面所述的基于神经网络的文件类型匹配方法，判断待录入文件的类型。

步骤D50，确定待录入文件中每列数据的字段名。

步骤D60，根据待录入文件的类型和每列数据的字段名，将待录入文件中的数据上传到数据资源池。

需要说明的是，最终上传到数据资源池中的数据还是待录入文件中未经过one-hot编码，也未做过末尾补零的数据。

在一种可选的实施例中，步骤D50中确定待录入文件中每列数据字段名的操作可以具体包括步骤D51-D58：

步骤D51，提取待录入文件中的数据。

步骤D52，针对提取的数据中第一行文字，计算非数字的字符所占百分比。

因为待录入文件中可能包含表头，可能不包含表头，因此要先判断第一行数据是否为表头数据，根据第一行中字母或中文的占比来判断这一行是否为表头。图8是本发明实施例中待录入文件中含有表头的例子。如图8所示，文件中第一行的表头中包含了4个字段名：WELL_NAME(井名)、ELEV_TYPE(海拔类型)、ground_elevat(地面海拔)和TOTAL_ZEPTH(井深)。在第一行下面的都是数据，其中KB表示补心海拔(kelly bushing)。

步骤D53，根据计算结果和预设的百分比阈值(本实施例中为80％)，判断提取的数据中是否含有表头。

步骤D54，在提取的数据中含有表头的情况下，删除表头。

步骤D55，在提取的数据中，对非数字的字段进行one-hot编码。

步骤D56，采用末尾补零的方式，令每一数据列中包含的数据个数都达到预设的第二数据维度，从而得到第二结构化数据。

步骤D57，根据待录入文件的类型，选择对应的字段匹配模型。

步骤D58，按顺序从第二结构化数据中每次读取一列数据输入选择的字段匹配模型，从而得到每列数据对应的字段名。

在另一种可选的实施例中，在步骤D58和步骤D60之间，还可以包括步骤D59：

步骤D59，确定待录入文件中每列数据的单位。

根据对现有文件的分析，单位主要包含[′m′，′us/m′，′g/cm3′，′mm′，′API′，′ohmm′，′g/cc′，′％′，′mv′，′omm′，′fraction′，′d′，′m/s′，′m/s*g/cc′]这几种，将文件中对应的数据与单位列表进行对比，如果包含字段对应的单位信息，则提取其单位数据。图9是本发明实施例中待录入文件中不含表头但是含有单位的例子。如图9所示，文件中第一行有两个单位都是m(米)，分别对应第三列和第四列数据的单位，第一列的井名和第二列的海拔类型都没有单位。

本实施例中，字段匹配模型为神经网络模型，且除测井曲线文件外，每种文件类型均对应一个字段匹配模型。优选地，可以采用如图1所示的BP神经网络模型，该模型包括输入层、隐藏层和输出层，共三层。

图10是本发明实施例中字段匹配模型的训练方法主要步骤示意图。如图10所示，本实施例中每个字段匹配模型的训练方法主要包括步骤E10-E30：

步骤E10，按顺序从第二训练集中每次读取一列数据输入到字段匹配模型中，得到输出结果。

步骤E20，根据输出结果以及该列数据对应的字段名标签，计算第二损失函数。第二损失函数的形式可以采用如上面的公式(4)所示的计算方法。

步骤E30，利用梯度下降法进行迭代，逐步调整模型参数并减小第二损失函数，直到达到预设的迭代次数。

本实施例中，针对四种文件类型(井头文件、井轨迹文件、分层文件和岩性)分别构建了各自的字段匹配模型，因此会针对四种字段匹配模型分别构建四套数据集用于模型训练。

本实施例中构造第二训练集的方法可以具体包括步骤(1)-(5)：

(1)从数据资源池中获取特定文件类型对应的所有字段名，并获取字段名对应的预设数量的数据列，得到结构化的第二原始数据集。

其中，特定文件类型包括：井头文件、井轨迹文件、分层文件或岩性文件。

(2)将结构化的第二原始数据集中每个数据列对应的字段名，作为该数据列的字段名标签。

(3)统计该数据集中的全部非数字的字段，并对非数字的字段进行one-hot编码。

(4)采用末尾补零的方式，令该数据集中每一数据列中包含的数据个数都达到预设的第二数据维度，从而得到结构化的第二数据集。

(5)按照预设的比例对结构化的第二数据集进行划分，得到第二训练集和第二测试集。

其中，第二测试集用于对训练后的字段匹配模型进行效果验证。

本实施例主要是利用神经网络实现数据智能录入，通过神经网络的方式可以自动提取数据中主要特征，实现数据的字段匹配，与传统方法中人为提取特征或者人工校验字段等方式相比，提高了匹配的精度和效率。本发明采用Python编程，利用现有数据集进行实验，对不同类别的数据进行字段匹配，匹配精度较高。

上述实施例中虽然将各个步骤按照上述先后次序的方式进行了描述，但是本领域技术人员可以理解，为了实现本实施例的效果，不同的步骤之间不必按照这样的次序执行，其可以同时(并行)执行或以颠倒的次序执行，这些简单的变化都在本发明的保护范围之内。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案。但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于神经网络的文件类型匹配方法，其特征在于，所述方法包括：

解析待匹配文件，构建第一结构化数据；

其中，

所述待匹配文件为地震地质勘探中获取的数据文件；

所述文件类型匹配模型为神经网络模型。

2.根据权利要求1所述的基于神经网络的文件类型匹配方法，其特征在于，“解析待匹配文件，构建第一结构化数据”的步骤包括：

提取所述待匹配文件中的数据；

在提取的数据中，对非数字的数据进行one-hot编码；

3.根据权利要求1所述的基于神经网络的文件类型匹配方法，其特征在于，“将所述第一结构化数据输入到文件类型匹配模型，得到所述待匹配文件的类型”的步骤包括：

4.根据权利要求1所述的基于神经网络的文件类型匹配方法，其特征在于，

所述文件类型匹配模型的训练方法包括：

5.根据权利要求4所述的基于神经网络的文件类型匹配方法，其特征在于，所述文件类型匹配模型的训练方法还包括：

获取多个已知类型的原始文件；

删除所述原始文件中冗余的空行；

其中，

所述原始文件为地震地质勘探中获取的数据文件；

6.一种基于神经网络的数据智能录入方法，其特征在于，所述方法包括：

根据如权利要求1-5中任一项所述的基于神经网络的文件类型匹配方法，判断待录入文件的类型；

确定所述待录入文件中每列数据的字段名；

其中，

所述待录入文件为地震地质勘探中获取的数据文件；

7.根据权利要求6所述的基于神经网络的数据智能录入方法，其特征在于，

所述待录入文件的类型还包括：测井曲线文件；

在“根据如权利要求1-5中任一项所述的基于神经网络的文件类型匹配方法，判断待录入文件的类型”的步骤之前，所述基于神经网络的数据智能录入方法还包括：

判断所述待录入文件的后缀是否为.las，若是，则确定所述待录入文件为测井曲线文件；否则，

8.根据权利要求6所述的基于神经网络的数据智能录入方法，其特征在于，“确定所述待录入文件中每列数据的字段名”的步骤包括：

提取所述待录入文件中的数据；

若是，则删除所述表头；

在提取的数据中，对非数字的字段进行one-hot编码；

根据所述待录入文件的类型，选择对应的字段匹配模型；

9.根据权利要求8所述的基于神经网络的数据智能录入方法，其特征在于，所述字段匹配模型为神经网络模型，且除测井曲线文件外，每种文件类型均对应一个字段匹配模型；

每个字段匹配模型的训练方法包括：

10.根据权利要求6所述的基于神经网络的数据智能录入方法，其特征在于，在“确定所述待录入文件中每列数据的字段名”的步骤之后，在“根据所述待录入文件的类型和每列数据的字段名，将所述待录入文件中的数据上传到所述数据资源池”的步骤之前，所述方法还包括：

确定所述待录入文件中每列数据的单位。