CN114896352A

CN114896352A - 无字段名的井文件字段名自动匹配方法、系统、介质和计算机设备

Info

Publication number: CN114896352A
Application number: CN202210355937.5A
Authority: CN
Inventors: 申瑞彩; 方杰; 李昊庆; 张行行
Original assignee: Beijing Yuexin Times Technology Co ltd
Current assignee: Beijing Yuexin Times Technology Co ltd
Priority date: 2022-04-06
Filing date: 2022-04-06
Publication date: 2022-08-12
Anticipated expiration: 2042-04-06
Also published as: CN114896352B

Abstract

本申请涉及无字段名的井文件字段名自动匹配方法，其包括步骤：获取待匹配文件的文件名，获取待匹配文件的用户数据，计算用户数据的特征与数据库字段的特征的相似度，得到基于用户数据的字段相似度矩阵，基于获取到的基于用户数据的字段相似度矩阵，选择最高相似度特征对应的字段名作为待匹配文件的字段名，可用自动化匹配字段名的方式代替传统的人工方式，以减轻工作人员的工作量，该方法可更为准确且快速为待匹配文件匹配合适的字段名。

Description

无字段名的井文件字段名自动匹配方法、系统、介质和计算机设备

技术领域

本申请涉及数据处理技术领域，尤其是涉及无字段名的井文件字段名自动匹配方法、系统、介质和计算机设备。

背景技术

在构建勘探地震地质数据资源池的过程中，收集到的数据均为原始井文件数据，这类数据呈现数据量大、文件类型多、文件命名方式不统一的现象。

主要的井数据文件包括测井曲线文件、井头文件、井轨迹文件、井分层文件、岩性文件等。文件类型也是五花八门，有.las类型的、excel类型、prn、txt、dat等类型；

关于字段名的命名方式至今没有统一的规则及标准，现有的文件中可能存在没有字段名的情况。

针对这一现象，传统的方式是通过人工手动逐一为字段匹配上合适的字段名，再将文件上传到勘探地震地质数据资源池。上述方法虽可实现数据的上传，但是人工检查以及人工校正井数据文件的方式，会耗费较长的时间，效率较低。因此迫切需要一种智能的、自动化的方式代替传统的人工方式，以减轻工作人员的工作量。

发明内容

为了提高对文件的字段名的匹配效率，本申请提供无字段名的井文件字段名自动匹配方法。

第一方面，本申请提供的无字段名的井文件字段名自动匹配方法，采用如下的技术方案：

无字段名的井文件字段名自动匹配方法，包括如下步骤：

获取待匹配文件的文件名，获取待匹配文件的用户数据(字段)，计算所述用户数据的特征与数据库字段的特征的相似度，得到基于用户数据的字段相似度矩阵，其中，数据库字段指的是数据库中所述文件名对应的字段，

基于获取到的基于用户数据的字段相似度矩阵，选择最高相似度特征对应的字段名作为待匹配文件的字段名。

通过以上的技术方案，当文件中没有字段名时，可用自动化匹配字段名的方式代替传统的人工方式，以减轻工作人员的工作量，采用数据特征计算与数据库中表的每个字段的特征的相似度，可更为准确且快速为待匹配文件匹配合适的字段名。

作为较优的技术方案，所述基于获取到的基于用户数据的字段相似度矩阵，选择最高相似度特征对应的字段名作为待匹配文件的字段名具体包括：

采用双向匹配的方法选择最高相似度特征对应的字段名作为待匹配文件的字段名，所述双向匹配的方法包括：选择相似度矩阵中对应行和列的最大值。

通过以上的技术方案，与常规单向匹配方式不同，单向匹配方式是在为每一列数据匹配列名时只考虑该列数据与比较的不同字段之间的相似度关系，选出最高相似度对应的列名，单向匹配方式容易带来的弊端，即多个待匹配列最终可能被确定为同一个字段名，为了避免这一问题的出现，本技术方案采用了双向匹配的方法，即不仅要考虑列名选定的字段，还要考虑字段选定的列名，当出现待匹配列1与待匹配列2同时指向同一个字段时，要比较二者的相似度，更高者为字段同时选定的列。

作为较优的技术方案，对于未匹配字段名的待匹配文件，计算用户数据的特征与剩余数据库字段的特征的相似度，选择相似度最大的数据库字段对应的字段名作为最终的匹配字段名。

通过以上的技术方案，可实现所有待匹配文件的字段名自动匹配，可减少人工投入，提高字段名匹配的效率。

作为较优的技术方案，所述获取待匹配文件的文件名步骤中，若待匹配文件无文件名，则先执行文件名匹配步骤：

获取待匹配文件的用户数据(字段)，计算所述用户数据的特征与所述数据库中所有文件名对应的字段的特征的相似度，得到基于用户数据的文件名相似度矩阵，

基于获取到的基于用户数据的文件名相似度矩阵，选择最高相似度对应的文件名作为待匹配文件的文件名。

通过以上的技术方案，当出现待匹配文件没有文件名时，可自动为该文件匹配合适的文件名，与人工匹配文件名相比，可大大提高工作效率。

作为优选的技术方案，所述获取待匹配文件的文件名步骤之前，先执行文件名纠正步骤：

判断待匹配文件的固有文件名是否含有扩展名，如果是，

则获取待匹配文件的固有文件名的扩展名，根据所述扩展名为所述待匹配文件匹配新的文件名。

通过以上的技术方案，针对待匹配文件有文件名且有扩展名的情况，可以根据扩展名自动为待匹配文件匹配合适的文件名，与人工匹配文件名相比，可大大提高工作效率。

作为优选的技术方案，所述文件名纠正步骤中，如果待匹配文件的固有文件名没有扩展名，则执行文件名匹配步骤：获取待匹配文件的用户数据(字段)，计算所述用户数据的特征与所述数据库中所有文件名对应的字段的特征的相似度，得到基于用户数据的文件名相似度矩阵，

基于获取到基于用户数据的文件名相似度矩阵，选择最高相似度对应的文件名作为待匹配文件的文件名。

通过以上的技术方案，如果待匹配文件有文件名，但没有扩展名，则无法确定所述文件名是否正确，因此需要重新为该待匹配文件匹配合适的文件名，本技术方案用自动化匹配文件名的方式代替传统的人工方式，以减轻工作人员的工作量，采用数据特征分别计算与数据库中表的每个文件名特征的相似度，可更为准确且快速为待匹配文件匹配合适的文件名。

作为优选的技术方案，相似度的计算方法具体包括：将待匹配文件中每列数据的特征依次与数据库中字段的特征的最小规范列进行相似度比较。

通过以上的技术方案，与最小规范列进行匹配的方式不仅可以达到快速锁定文件的目的，还可加快匹配速度，缩短匹配时间。

作为优选的技术方案，所述数据库中字段的特征包括元素长度、纯数字、时间类型以及组合方式，用户数据的特征也包括元素长度、纯数字、时间类型以及组合方式。

由于每类文件中的每列数据均含有各自的特点，例如井头文件中的Y X坐标数据位数超过6位，如果在井头文件中，某列数据的数据位数超过6位将被大概率认定为XY坐标，这即是XY坐标的数据特点，又或是在岩性文件中的岩性颜色列中，当出现表示颜色的字眼，

如“黑”，“黑色”，该列数据将被大概率认定为岩性颜色列。基于当前数据的特点，通过分析最终从4方面来提取数据特征，即元素长度、纯数字、时间类型以及组合方式，采用的技术手段主要为正则匹配的方式。由于充分分析了各种数据特征，选取以上的四个方面来提取数据特征，将使得数据特征的提取更为准确可用。

作为优选的技术方案，所述用户数据的特征的提取方法如下：

元素长度的提取：判断该列数据的元素长度是否超过A位，若是则将元素长度记录为“>A”，若否则将元素长度记录为空；

和/或，

纯数字的提取：判断该列数据的类型是否为数值型，若是则对该列数据主要提取特征：最小值和最大值和均值和方差和最小位数，并记录该特征，若否则将纯数字记录为空；

和/或，

时间类型的提取：判断该类数据是否含有时间特征，若是则将时间类型记录为所述时间类型，若否则将时间类型记录为空，其中，所述时间特征包括含有两个“：”符号或含有两个“/”符号；

和/或，

组合方式的提取：判断该列数据是否不全由一种数据类型组成，若是则将所有的数据类型信息进行记录，若否则记录为空，其中，所述数据类型包括中文，英文，数字、符号。

通过以上的技术方案，可快速锁定特征并进行提取，提高特征提取的效率。

作为优选的技术方案，所述计算所述用户数据的特征与数据库字段的特征的相似度，具体如下：

相似度值的初始值默认为0，

依次将某列用户数据的特征与数据库中的某个字段特征进行比较：

a依次判断用户数据的元素长度和数据库的某个字段的元素长度是否相等，相等则相似度值加值A，不相等则不加；

b判断用户数据的时间类型和数据库的某个字段的时间类型是否相同，相等则相似度值加值B，不相等则不加；

c判断是否是纯数字，若是，则判断用户数据的纯数字和数据库的某个字段的纯数字的相似度，如果最小值之差的绝对值小于10则加值C，如果最大值之差的绝对值小于M1则加值D，如果均值之差的绝对值小于M2则加值E，如果方差的差异的绝对值小于M3则加值F，得到C D E F后，将C D E F的值依次与相应的权重相乘得到最终的的相似度值，其中的M1,M2,M3均是设定值，若否则不加；

d判断是否是组合方式，若是，依次判断用户数据的组合方式和数据库的某个字段的组合方式的相似度并记录相似度值，若否则不加；

将abcd四个步骤的相似度求和，得到最终的相似度。

通过以上的技术方案，从四个维度计算用户数据的特征与数据库字段的特征的相似度，再对四个相似度值进行求和，可使得相似度计算更为准确。

第二方面，本申请提供的一种无字段名的井文件字段名自动匹配系统，采用如下的技术方案：

一种无字段名的井文件字段名自动匹配系统，包括如下模块：

文件名获取模块：用于获取待匹配文件的文件名，

矩阵生成模块：用于获取待匹配文件的用户数据(字段)，计算所述用户数据的特征与数据库字段的特征的相似度，得到基于用户数据的字段相似度矩阵，其中，数据库字段指的是数据库中所述文件名对应的字段，字段名匹配模块：用于基于获取到的字段相似度矩阵，选择最高相似度特征对应的字段名作为待匹配文件的字段名。

通过以上的技术方案，当文件中缺乏字段名时，可用自动化匹配字段名的方式代替传统的人工方式，以减轻工作人员的工作量，采用数据特征计算与数据库中表的每个字段的特征的相似度，可更为准确且快速为待匹配文件匹配合适的字段名。

第三方面，本申请提供的一种计算机可读存储介质，采用如下的技术方案：

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器调用时，执行以上任一技术方案所述的无字段名的井文件字段名自动匹配方法的步骤。

通过以上的技术方案，当文件中缺乏字段名时，可用自动化匹配字段名的方式代替传统的人工方式，以减轻工作人员的工作量，采用数据特征分别计算与数据库中表的每个字段名的特征的相似度，可更为准确且快速为待匹配文件匹配合适的字段名。

第四方面，本申请提供的一种计算机设备，采用如下的技术方案：

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被处理器调用时，执行以上任一技术方案所述的无字段名的井文件字段名自动匹配方法的步骤。

综上所述，本申请主要包括以下有益技术效果：

1、当文件中缺乏字段名时，可用自动化匹配字段名的方式代替传统的人工方式，以减轻工作人员的工作量，采用数据特征分别计算与数据库中表的每个字段名的特征的相似度，可更为准确且快速为待匹配文件匹配合适的字段名。

其次的，本申请还包括以下有益技术效果：

2、当文件中文件名命名的方式存在有文件名但与字段内容不匹配或者有文件名且与字段内容匹配，但字段名的命名规则不统一，有全中文命名，全英文命名，中英文混合的，或是各种简写的形式等情况时，可用自动化匹配文件名的方式代替传统的人工方式，以减轻工作人员的工作量，采用数据特征计算与数据库中表的每个字段的特征的相似度，可更为准确且快速为待匹配文件匹配合适的字段名。

3、采用双向匹配的方法选择最高相似度特征对应的字段名作为待匹配文件的字段名，可解决单向匹配方式容易带来的弊端，即多个待匹配列最终可能被确定为同一个字段名。

4、将待匹配文件中每列数据的特征依次与数据库中字段的特征的最小规范列进行相似度比较，不仅可以达到快速锁定文件的目的，还可加快匹配速度，缩短匹配时间。

5、通过分析井文件的数据特点，选取要提取的特征包括元素长度、纯数字、时间类型以及组合方式，将使得数据特征的提取更为准确可用。

6、制定适合井文件的特征提取方法，可快速锁定特征并进行提取，提高特征提取的效率。

附图说明

图1是本申请实施例的无字段名的井文件字段名自动匹配方法的流程图；

图2是本申请实施例的文件名自动匹配方法的流程图；

图3至图4为井头文件的字段的示意图；

图5是井轨迹文件的文件名的示意图；

图6和图7是井分层文件的井名和分层名的字段示意图；

图8至图10是井分层文件的深度和地下海拔的字段示意图；

图11是岩性文件的字段示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图1-11及实施例，对本申请作进一步详细说明。

关于字段名的命名方式没有统一的规则及标准，现有的文件中可能存在没有字段名的情况。

针对这一现象，传统的方式是通过人工手动逐一为没有字段名的字段匹配上合适的字段名，最后将文件上传到勘探地震地质数据资源池。上述方法虽可实现文件的上传，但是人工检查以及人工匹配井数据文件的字段名的方式，会耗费较长的时间，效率较低。因此本申请提供一种智能的、自动化的方式代替传统的人工方式，以减轻工作人员的工作量。

常见的井文件主要包括测井曲线文件、井头文件、井轨迹文件、井分层文件、岩性文件。

通过分析现有文件的数据情况，在识别文件类型时主要分为测井曲线文件识别以及其它类型文件识别两类。由于测井曲线文件的数据特点较为明显，较为容易被识别，可以不使用本申请的字段名匹配方法。

接下来将详细说明如何进行井头文件、井轨迹文件、井分层文件、岩性文件的字段名匹配过程。

对于无字段名的文件，可通过以下方法进行字段名匹配。

实施例1。

本实施例提供的无字段名的井文件字段名自动匹配方法，采用如下的技术方案：无字段名的井文件字段名自动匹配方法，如图1所示，包括如下步骤：

基于获取到基于用户数据的字段相似度矩阵，选择最高相似度特征对应的字段名作为待匹配文件的字段名。

下面介绍根据用户数据(字段)，计算与数据库中对应表的各字段名相似度流程。

所述数据库中字段的特征包括元素长度、纯数字、时间类型以及组合方式，用户数据的特征也包括元素长度、纯数字、时间类型以及组合方式。

由于每类文件中的每列数据均含有各自的特点，例如井头文件中的Y X坐标数据位数超过6位，如果在井头文件中，某列数据的数据位数超过6位将被大概率认定为XY坐标，这即是XY坐标的数据特点，又或是在岩性文件中的岩性颜色列中，当出现表示颜色的字眼，如“黑”，“黑色”，该列数据将被大概率认定为岩性颜色列。基于当前数据的特点，通过分析最终从4方面来提取数据特征，即元素长度、纯数字、时间类型以及组合方式，采用的技术手段主要为正则匹配的方式。由于充分分析了各种数据特征，选取以上的四个方面来提取数据特征，将使得数据特征的提取更为准确可用。

所述用户数据的特征的提取方法如下：

所述计算所述用户数据的特征与数据库字段的特征的相似度，具体如下：

相似度值的初始值默认为0，

将abcd四个步骤的相似度求和，得到最终的相似度。

需要说明的是：以上的A、B、C、D、E、F可根据实际需要设置，只要方便计算即可。

以下举例说明相似度计算的具体过程：

一、组合方式相似度比较：

假设数据库中某一列的特征(用F1表示)，用户文件中某一列的特征(用U1表示)，假如F1和U1都是组合方式时使用以下步骤进行比较得出相似度，如果其中一个不是组合方式则相似度为0，

U1＝{“中文”：[‘井’，‘高’，‘溪’，“角度”],

“英文”：[‘wq’,'jh','hj'],

“符号”：[],

“数字”:[7,2,1,12]}，

F1＝{“中文”：[‘金’，‘高’，‘西湖’，“金山”，“模”]，

“英文”：[‘wq’,'j','x','ac','zt'],

“符号”：[‘-’,'|','/'],

“数字”:[1,2,13,12]}，

依次比较组合方式中各项的相似度：

中文相似度(chin_simi):提取U1和F1中的中文特征，

chin_u＝[‘井’，‘高’，‘溪’，“角度”]，

chin_f＝[‘金’，‘高’，‘西湖’，“金山”，“模”]，

chin_simi＝同时在chin_u与chin_f中的元素个数/chin_u的总个数，

其中“同时在chin_u与chin_f中的元素个数”＝chin_u&chin_f，结果为[‘高’]

chin_simi＝1/4。

英文相似度(eng_simi):提取U1和F1中的英文特征，

eng_u＝[‘wq’,'jh','hj']，

eng_f＝[‘wq’,'j','x','ac','zt']，

eng_simi＝同时在eng_u与eng_f中的元素个数/eng_u的总个数，

其中“同时在eng_u与eng_f中的元素个数”＝eng_u&eng_f，结果为[‘wq’]

eng_simi＝1/3。

符号相似度(sim_simi):提取U1和F1中的符号特征，

sim_u＝[],

sim_f＝[‘wq’,'j','x','ac','zt']，

sim_simi＝同时在sim_u与sim_f中的元素个数/simg_u的总个数，

其中“同时在sim_u与sim_f中的元素个数”＝sim_u&sim_f，结果为[]，

sim_simi＝0/3。

数字相似度(num_simi):提取U1和F1中的数字特征，

num_u＝[7,2,1,12]，

num_f＝[1,2,13,12]，

num_simi＝同时在num_u与num_f中的元素个数/num_u的总个数，

其中“同时在num_u与num_f中的元素个数”＝num_u&num_f，结果为[1,2,12]

num_simi＝3/4。

同时根据现有数据的情况，在组合类型中，根据每一种类型的重要性分配权重，比如使用的权重是中文1.8，英文1.8，符号0.84，数字0.36，因此组合方式的最终相似度为：组合方式相似度＝1.8*chin_simi+1.8*eng_simi+0.84*sim_simi+0.36*num_simi＝1.8*1/4+1.8*1/3+0.84*0/3+0.36*3/4＝1.32。

二，纯数字方式相似度比较：

假如F1和U1都是纯数字方式，使用以下方式进行比较得出相似度，如果其中一个不是纯数字方式则相似度为0。

U1表示用户某一列的特征，F1表示数据库中某一列的特征，

U1＝{'最小值':16344876.0,

'最大值':18345788.5,

'均值':17545415.057142857,

'方差':979795.9780970784,

'最小位数':8}；

F1＝{'最小值':16344890.5,

'最大值':18345794.4,

'均值':17545420.142857144,

'方差':979789.6293675191,

'最小位数':8}。

依次进行比较，

比较两者的最小值之差的绝对值如果小于10则加1，否则为0，

Min_sim＝16344890.5-16344876.0＝14.5，记为0，

比较两者的最大值之差的绝对值如果小于10则加1，否则为0，

Max_sim＝18345794.4-18345788.5＝5.9，记为0，

比较两者的均值之差的绝对值如果小于8则加1，否则为0，

Mean_sim＝17545420.142857144-17545415.057142857＝5.085714287，加1，

比较两者的方差之差的绝对值如果小于3则加1，否则为0，

Std_sim＝979795.9780970784-979789.6293675191＝6.3487295593，记为0，

比较两者的最小位数之差的绝对值如果小于3则加0.8，否则为0，

Digit_sim＝8-8＝0，加0.8。

纯数字方式相似度＝Min_sim+Max_sim+Mean_sim+Std_sim+Digit_sim＝0+0+1+0+0.8＝1.8。

三.时间类型相似度比较：

假如F1和U1都是时间类型方式，使用以下计算方法进行比较得出相似度，如果其中一个不是则相似度为0，完全相似加某个值，比如4，

U1＝['含有两个-或者两个/']

F1＝['含有两个-或者两个/']

如果U1与F1都是上述情况，则最终相似度＝4，如果其中一个不是，其中则相似度为0。

四、元素长度进行比较：

假如F1和U1都是元素长度方式，使用以下计算方法进行比较得出相似度，如果其中一个不是则相似度为0，完全相似加某个值，比如4，

U1＝['>32']

F1＝['>32']。

最后将四个相似度进行求和可以得到最终的相似度值。

实施例2。

本实施例的无字段名的井文件字段名自动匹配方法，其他步骤和实施例1相同，不同之处在于：

所述基于获取到的基于用户数据的字段相似度矩阵，选择最高相似度特征对应的字段名作为待匹配文件的字段名具体包括：

在进行上述相似度比较时，主要采用的方式为双向匹配的方式，与常规单向匹配方式不同，单向匹配方式是在为每一列数据匹配列名时只考虑该列数据与比较的不同字段之间的相似度关系，选出最高相似度对应的列名。举例说明，下表表示待匹配列1分别与某一文件类型的3个最少字段进行相似度比较时，常规方式是选择相似度最高者对应的字段名，即待匹配列1匹配的字段名为字段1。

单向匹配的方式如下表：

	字段1	字段2	字段3
				待匹配列1	0.72	0.67	0.35

上述单向匹配方式容易带来的弊端，即多个待匹配列最终可能被确定为同一个字段名。若根据上述单向匹配方式下表中的待匹配列1与待匹配列2将均被认定为匹配的字段名为字段1。在同一个检测文件中为两列数据分配同一个字段名是不正确的做法，因此为了避免这一问题的出现，本实施例提出了双向匹配的方法，即不仅要考虑列名选定的字段，还要考虑字段选定的列名，当出现待配列1与待匹配列2同时指向同一个字段时，要比较二者的相似度，更高者为字段同时选定的列。体现在下表中可知待匹配列1与待匹配列2均在字段1中具有较高的相似度，但待匹配列2的相似度比待匹配列1的相似度更高，最终待匹配列2的匹配字段为字段1，待匹配列1选择次高者即字段2作为匹配的字段。

双向匹配的方式如下表：

	字段1	字段2	字段3
				待匹配列1	0.72	0.67	0.35
待匹配列2	0.87	0.32	0.14

基于获取到的相似度矩阵，进行双向匹配，即如果该值为矩阵中对应行和列的最大值，则匹配成功。

实施例3。

本实施例的无字段名的井文件字段名自动匹配方法，其他步骤和实施例1相同，不同之处在于：对于剩余没有匹配成功的用户字段，计算用户字段的特征与剩余数据库字段的特征的相似度，选择相似度最大的数据库字段作为最终的匹配字段。

本实施例中，可实现所有待匹配文件的字段名自动匹配，可减少人工投入，提高字段名匹配的效率。

实施例4。

如图2所示，所述获取待匹配文件的文件名步骤中，若待匹配文件无文件名，则先执行文件名匹配步骤：

基于用户字段的文件名相似度矩阵，选择最高相似度对应的文件名作为待匹配文件的文件名。

具体如下：

对于无文件名也无字段名的文件需要依次提取文件中每列数据的特征，并与数据库中每种文件名对应的字段的特征表进行相似度计算，由于是进行文件名的确定，在与数据库中某张特征表进行相似度匹配时只需与该表的最小规范列进行匹配即可。最终相似度最高的字段的特征对应的文件名即为待匹配文件的文件名。例如与井头文件的相似度为0.89，岩性文件的相似度0.32，井分层文件的相似度为0.42，则待匹配文件将被认定为是井头文件。

下面分析井文件的字段特征：

井头文件：

请参阅图3至图4，图3至图4为井头文件的字段的示意图。

字段特征：

井名：元数据中有英文、有数字、有字符甚至有中文数字混合；

Y X坐标：元数据中位数超过6位数的是X、Y坐标，国内X坐标小数点前8位数，Y坐标小数点前7位数；

井轨迹文件：

字段特征：

根据文件名识别井名，文件名中的井有中文的，也有英文的，将文件名进行分割，拿着分割的文件名到数据库的表中对比匹配相似度最高的井。

请参阅图5，图5是井轨迹文件的文件名的示意图。

井分层文件：

字段特征：

井名、分层名：有两列英文、字母、数字、特殊字符在一起的数据，其中一列识别出来是井名，那另外一列必然是分层名。

请参阅图6和图7，图6和图7是井分层文件的井名和分层名的字段示意图。

深度：有两个深度的，同一层位的深度值小的是顶深，深度值大的是底深；只有一列深度值那就是底深。

地下海拔：值带着负号，值递减。

请参阅图8至图10，图8至图10是井分层文件的深度和地下海拔的字段示意图。

岩性文件：

字段特征：

井名：元数据中有英文、有数字、有字符甚至有中文数字混合的有可能就是井名或者岩性名；如果井名和岩性两列都是中文的，带***岩的必然是岩性；

深度：两列深度值，同一层位的深度值小的是顶深，深度值大的是底深，如果只有一列深度值那就是底深。

请参阅图11，图11是岩性文件的字段示意图。

该匹配过程的几个重要阶段：

(1)文件特征库的建立

由于每类文件中的每列数据均含有各自的特点，例如井头文件中的Y X坐标数据位数超过6位，如果在井头文件中，某列数据的数据位数超过6位将被大概率认定为XY坐标，这即是XY坐标的数据特点，又或是在岩性文件中的岩性颜色列中，当出现表示颜色的字眼，如“黑”，“黑色”，该列数据将被大概率认定为岩性颜色列，上述例子意在举例各列数据的特点。

基于当前数据的特点，通过分析最终决定将从4方面入手来提取数据特征，即元素长度、纯数字、时间类型以及组合方式，采用的技术手段主要为正则匹配的方式。

元素长度主要记录元素长度是否超过32位，若是则记录为“>32”，若不是则为空。

纯数字主要记录数据的数字特征，例如最小值、最大值、均值、方差、最小位数等信息。若该列数据类型为数值型，则提取最小值和最大值和均值和方差和最小位数等特征，并记录上述特征，若不是则为空。

时间类型主要记录用以判断是否为时间数据的依据，如含有两个“：”符号或含有两个“/”符号，若该列数据符合这一特点将对数据特征进行记录，否则为空。

组合方式表示该列数据不全由一种数据类型组成，若数据符合这一形式，将对数据中含有的中文，英文，数字、符号等的信息进行记录。

(2)相似度计算

为加快匹配效率，在进行文件名匹配时主要将待检测文件中的每列数据与各文件的字段特征的最少字段(又称为最小规范列)的特征进行相似度比较。具体的实现步骤为：

步骤一：提取待检测文件中每列数据的特征，通过正则匹配的方式将待检测文件中的每列数据进行特征提取，提取的特征与上述介绍的文件名中的特征一致，即元素长度、纯数字、时间以及组合方式；

步骤二：将步骤一中提取的特征与数据库中各文件名中的字段特征的最小规范字段进行匹配，得出待检测文件属于某文件名的相似度；

步骤三：将步骤二中得到的相似度进行比较，选择最高相似度对应的文件名作为最终文待检测文件的文件名。

在进行上述相似度比较时，主要采用的方式为双向匹配的方式，双向匹配的方式与实施例2阐述的相同，在此不再赘述。

本实施例中，当出现待匹配文件没有文件名时，可自动为该文件匹配合适的文件名，与人工匹配文件名相比，可大大提高工作效率。

实施例5。

针对待匹配文件有文件名，但文件名与字段内容不匹配，或者，有文件名且与字段内容匹配，但文件名的命名规则不统一，有全中文命名，全英文命名，中英文混合的，或是各种简写的形式等等，在所述获取待匹配文件的文件名步骤之前，先执行文件名纠正步骤：

判断待匹配文件的固有文件名是否含有扩展名，如果是，

本实施例中，针对待匹配文件有文件名且有扩展名的情况，可以根据扩展名自动为待匹配文件匹配合适的文件名，与人工匹配文件名相比，可大大提高工作效率。

所述文件名纠正步骤中，如果否，则执行文件名匹配步骤：

本实施例中，如果待匹配文件有文件名，但没有扩展名，则无法确定所述文件名是否正确，因此需要重新为该待匹配文件匹配合适的文件名，本技术方案用自动化匹配文件名的方式代替传统的人工方式，以减轻工作人员的工作量，采用数据特征计算与数据库中表的每个字段的相似度，根据字段的相似度对应的文件名，可更为准确且快速为待匹配文件匹配合适的文件名。

需要说明的是，文件名匹配过程的文件名相似度矩阵生成方法和前面实施例的字段名匹配过程的字段相似度矩阵生成方法相同，在此不再赘述。

实施例6。

本实施例与其他实施例的不同之处在于：相似度的计算方法具体包括：将待匹配文件中每列数据的特征依次与数据库中字段的特征的最小规范列进行相似度比较，其中，最小规范列可用于唯一判别所属文件类型的列的集合，该集合具有以下特点，含有最少的列，列的数量随着文件名的不同而不同，使用该列可唯一标识文件名。

字段名匹配的核心思想是将待匹配文件中每列数据的特征依次与数据库中各文件的最小规范列进行匹配，在匹配最小规范列时即可得出各待匹配文件属于该类型文件的总相似度。根据属于各文件的总相似度即可得出待匹配文件属于某类文件的相似度。

度。

下面说明最小规范列(即下面的最少字段)的选取规则：

(1)井头文件：

最少字段：4列井名、X坐标、Y坐标、海拔；

标准字段：6列井名、X坐标、Y坐标、海拔、海拔类型、深度。

(2)井轨迹文件：

最少字段：3列测深、井斜角、方位角；

标准字段：3-6列测深、垂深、井斜角、方位角、X偏移量、Y偏移量。

(3)井分层文件：

最少字段：3列井名、层名、底深；

标准字段：4列井名、层英文名、顶深、底深。

(4)岩性文件：

最少字段：3列井名、岩性、底深；

标准字段：4列井名、岩性英文名、顶深、底深。

举例说明上述匹配过程的含义，在进行待匹配文件属于某种字段名/文件名的匹配时只需要将待匹配文件与某种文件的最小规范列进行匹配，也就是说待匹配文件的列≥某文件的最小规范列。为了更清晰地描述，下表中显示了待匹配文件的所有列，以及3种不同字段名的所有列及其最小规范列的情况。

在确定字段名时将待匹配文件的所有列与字段名的最小规范列进行相似度比较，相似度比较的前提为提取待匹配文件的各列特征。

假如通过相似度比较后待匹配文件与各字段名的相似度结果如下：

待匹配文件与字段名1的各相似度表示如下：

同理可得待匹配文件与字段名2以及字段名3的总相似度，选取总相似度最高者，即为待匹配文件属于的字段名。这种与最小规范列进行匹配的方式不仅可以达到快速锁定文件的目的，还可加快匹配速度，缩短匹配时间。

本实施例的方法也适用于文件名的匹配。

实施例7。

在字段名匹配时，进行相似度计算的过程中，需要提取各列数据的特征，对于数据库的数据同样需要提取数据特征，利用数据特征进一步做相似度计算。

针对井文件(主要针对井头文件、井轨迹文件、井分层文件、岩性文件)的特点，确定文件特征库的特征包括元素长度、纯数字、时间类型以及组合方式，用户数据的特征也包括元素长度、纯数字、时间类型以及组合方式。具体的特征提取可参考实施例4的文件特征库的建立，在此不再赘述。

通过以上的技术方案，可快速锁定特征并进行提取，提高特征提取的效率和准确度。

实施例8。

本实施例提供一种无字段名的井文件字段名自动匹配系统，采用如下的技术方案：一种无字段名的井文件字段名自动匹配系统，包括如下模块：

文件名获取模块：用于获取待匹配文件的文件名，

矩阵生成模块：用于获取待匹配文件的用户数据(字段)，计算所述用户数据的特征与数据库字段的特征的相似度，得到基于用户数据的字段相似度矩阵，其中，数据库字段指的是数据库中所述文件名对应的字段，字段名匹配模块：用于基于获取到的基于用户数据的字段相似度矩阵，选择最高相似度特征对应的字段名作为待匹配文件的字段名。

本实施例中，当文件中缺乏字段名时，可用自动化匹配字段名的方式代替传统的人工方式，以减轻工作人员的工作量，采用数据特征计算与数据库中表的每个字段的特征的相似度，可更为准确且快速为待匹配文件匹配合适的字段名。

实施例9。

本实施例提供的一种计算机可读存储介质，采用如下的技术方案：

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器调用时，执行以上任一实施例所述的无字段名的井文件字段名自动匹配方法的步骤。

实施例10。

本实施例提供一种计算机设备，采用如下的技术方案：

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被处理器调用时，执行以上任一实施例所述的无字段名的井文件字段名自动匹配方法的步骤。

可以理解，本申请实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。

非易失性存储器可以是ROM、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electricallyEPROM，EEPROM)或闪存。

易失性存储器可以是RAM，其用作外部高速缓存。RAM有多种不同的类型，例如静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(dynamic RAM，DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhancedSDRAM，ESDRAM)、同步连接动态随机存取存储器(synch link DRAM，SLDRAM)和直接内存总线随机存取存储器。

上述任一处提到的处理器，可以是一个CPU，微处理器，ASIC，或一个或多个用于控制上述的反馈信息传输的方法的程序执行的集成电路。该处理单元和该存储单元可以解耦，分别设置在不同的物理设备上，通过有线或者无线的方式连接来实现该处理单元和该存储单元的各自的功能，以支持该系统芯片实现上述实施例中的各种功能。或者，该处理单元和该存储器也可以耦合在同一个设备上。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个计算机可读存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的计算机可读存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上均为本申请的较佳实施例，并非依此限制本申请的保护范围，故：凡依本申请的结构、形状、原理所做的等效变化，均应涵盖于本申请的保护范围之内。

Claims

1.无字段名的井文件字段名自动匹配方法，其特征在于：所述方法包括如下

步骤：

获取待匹配文件的文件名，

获取待匹配文件的用户数据，计算所述用户数据的特征与数据库字段的特征的相似度，得到基于用户数据的字段相似度矩阵，其中，数据库字段指的是数据库中所述文件名对应的字段，基于获取到的基于用户数据的字段相似度矩阵，选择最高相似度特征对应的字段名作为待匹配文件的字段名。

2.根据权利要求1所述的无字段名的井文件字段名自动匹配方法，其特征在

于：所述基于获取到的基于用户数据的字段相似度矩阵，选择最高相似度特征对应的字段名作为待匹配文件的字段名具体包括：

3.根据权利要求1所述的无字段名的井文件字段名自动匹配方法，其特征在于：对于未匹配字段名的待匹配文件，计算用户数据的特征与剩余数据库字段的特征的相似度，选择相似度最大的数据库字段对应的字段名作为最终的匹配字段名。

4.根据权利要求1所述的无字段名的井文件字段名自动匹配方法，其特征在于：所述获取待匹配文件的文件名步骤中，若待匹配文件无文件名，则先执行文件名匹配步骤：

获取待匹配文件的用户数据，计算所述用户数据的特征与所述数据库中所有文件名对应的字段的特征的相似度，得到基于用户数据的文件名相似度矩阵，

5.根据权利要求1所述的无字段名的井文件字段名自动匹配方法，其特征在于：所述获取待匹配文件的文件名步骤之前，先执行文件名纠正步骤：

判断待匹配文件的固有文件名是否含有扩展名，如果是，

6.根据权利要求5所述的无字段名的井文件字段名自动匹配方法，其特征在于：所述文件名纠正步骤中，如果否，则执行文件名匹配步骤：

7.根据权利要求1或3或4或6所述的无字段名的井文件字段名自动匹配方法，其特征在于：相似度的计算方法具体包括：将待匹配文件中每列数据的特征依次与数据库中字段的特征的最小规范列进行相似度比较。

8.根据权利要求1或3或4或6所述的无字段名的井文件字段名自动匹配方法，其特征在于：所述数据库中字段的特征包括元素长度、纯数字、时间类型以及组合方式，所述用户数据的特征也包括元素长度、纯数字、时间类型以及组合方式。

9.根据权利要求8所述的无字段名的井文件字段名自动匹配方法，其特征在于：所述用户数据的特征的提取方法如下：

和/或，

10.根据权利要求9所述的无字段名的井文件字段名自动匹配方法，其特征在于：所述计算所述用户数据的特征与数据库字段的特征的相似度，具体如下：

相似度值的初始值默认为0，

c判断是否是纯数字，若是，则判断用户数据的纯数字和数据库的某个字段的纯数字的相似度，如果最小值之差的绝对值小于10则加值C，如果最大值之差的绝对值小于M1则加值D，如果均值之差的绝对值小于M2则加值E，如果方差的差异的绝对值小于M3则加值F，得到CD E F后，将C D E F的值依次与相应的权重相乘得到最终的的相似度值，其中的M1,M2,M3均是设定值，若否则不加；

将abcd四个步骤的相似度求和，得到最终的相似度。

11.一种无字段名的井文件字段名自动匹配系统，其特征在于：所述系统包括如下模块：

文件名获取模块：用于获取待匹配文件的文件名，

矩阵生成模块：用于获取待匹配文件的用户数据，计算所述用户数据的特征与数据库字段的特征的相似度，得到基于用户数据的字段相似度矩阵，其中，数据库字段指的是数据库中所述文件名对应的字段，

字段名匹配模块：用于基于获取到的字段相似度矩阵，选择最高相似度特征对应的字段名作为待匹配文件的字段名。

12.一种计算机可读存储介质，存储有计算机程序，其特征在于：所述计算机程序被处理器调用时，执行权利要求1至10任一项所述的无字段名的井文件字段名自动匹配方法的步骤。

13.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于：所述计算机程序被处理器调用时，执行权利要求1至10任一项所述的无字段名的井文件字段名自动匹配方法的步骤。