CN114896466A - 有字段名的井文件字段名自动匹配方法、系统、介质和计算机设备 - Google Patents
有字段名的井文件字段名自动匹配方法、系统、介质和计算机设备 Download PDFInfo
- Publication number
- CN114896466A CN114896466A CN202210360322.1A CN202210360322A CN114896466A CN 114896466 A CN114896466 A CN 114896466A CN 202210360322 A CN202210360322 A CN 202210360322A CN 114896466 A CN114896466 A CN 114896466A
- Authority
- CN
- China
- Prior art keywords
- field
- file
- name
- matched
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Remote Sensing (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及有字段名的井文件字段名自动匹配方法,其包括步骤:获取待匹配文件的文件名,获取待匹配文件的用户字段,计算用户字段与数据库字段名的相似度,得到基于用户字段的字段相似度矩阵,获取待匹配文件的用户数据,计算用户数据与数据库字段的相似度,得到基于用户数据的字段相似度矩阵,将基于用户字段的字段相似度矩阵与基于用户数据的字段相似度矩阵进行加权求和,得到最终的字段相似度矩阵,基于获取到的字段相似度矩阵,选择最高相似度对应的字段名作为待匹配文件的字段名,可用自动化匹配字段名的方式代替传统的人工方式,以减轻工作人员的工作量,该方法可更为准确且快速为待匹配文件匹配合适的字段名。
Description
技术领域
本申请涉及数据处理技术领域,尤其是涉及有字段名的井文件字段名自动匹配方法、系统、介质和计算机设备。
背景技术
在构建勘探地震地质数据资源池的过程中,收集到的数据均为原始井文件数据,这类数据呈现数据量大、文件类型多、文件命名方式不统一的现象。
主要的井数据文件包括测井曲线文件、井头文件、井轨迹文件、井分层文件、岩性文件等。文件类型也是五花八门,有.las类型的、excel类型、prn、txt、dat等类型;
字段名的命名方式至今没有统一的规则及标准,现有的文件中字段名命名的方式存在以下情况:(1)有字段名但与字段内容不匹配;(3)有字段名且与字段内容匹配,但字段名的命名规则不统一,有全中文命名,全英文命名,中英文混合的,或是各种简写的形式等等。
针对这一现象,传统的方式是通过人工手动逐一检查字段名与字段内容是否匹配,字段名命名是否规范等,若匹配且规范则直接上传勘探地震地质数据资源池,若不匹配或不规范则人工校正后上传勘探地震地质数据资源池。上述方法虽可实现数据的上传,但是人工检查以及人工校正井数据文件的方式,会耗费较长的时间,效率较低。因此迫切需要一种智能的、自动化匹配文件名的方式代替传统的人工方式,以减轻工作人员的工作量。
发明内容
为了提高对文件的字段名的校正效率,本申请提供有字段名的井文件字段名自动匹配方法。
第一方面,本申请提供的有字段名的井文件字段名自动匹配方法,采用如下的技术方案:
有字段名的井文件字段名自动匹配方法,包括如下步骤:
获取待匹配文件的文件名,
获取待匹配文件的用户字段,计算所述用户字段的特征与数据库字段名的特征的相似度,得到基于用户字段的字段相似度矩阵,其中,所述数据库字段名指的是数据库中所述文件名对应的字段名,
获取待匹配文件的用户数据(字段),计算所述用户数据的特征与数据库字段的特征的相似度,得到基于用户数据的字段相似度矩阵,其中,数据库字段指的是数据库中所述文件名对应的字段,
将基于用户字段的字段相似度矩阵与基于用户数据的字段相似度矩阵进行计算,得到最终的字段相似度矩阵,
基于获取到的字段相似度矩阵,选择最高相似度对应的字段名作为待匹配文件的字段名。
通过以上的技术方案,当文件中字段名命名的方式存在有字段名但与字段内容不匹配或者有字段名且与字段内容匹配,但字段名的命名规则不统一,有全中文命名,全英文命名,中英文混合的,或是各种简写的形式等情况时,可用自动化匹配字段名的方式代替传统的人工方式,以减轻工作人员的工作量,采用字段名特征和数据特征分别计算与数据库中表的每个字段名的相似度,将两个相似度进行计算,得到相似度矩阵,在相似度矩阵中选择最高相似度的特征对应的字段名作为该待匹配文件的字段名,可更为准确且快速为待匹配文件匹配合适的字段名。
作为较优的技术方案,所述计算的计算方法包括加权求和。
通过以上的技术方案,设定权重进行加权求和,一方面同时考虑了基于用户字段进行匹配的结果以及基于用户数据的匹配结果,通过为二者分配不同的权重实现了更为人性化,智能化的结果划分,在匹配准确率上可以说这种方式通过较好的分配权重,提高了匹配的准确率,降低了匹配误差;另外,加权求和的权重均为0-1之间,且二者的权重之和为1,保证了得到的两个相似度矩阵的值均是在小于1的范围内,也符合传统的概率的表现形式;最后方便两个矩阵间的计算。
作为较优的技术方案,所述获取待匹配文件的用户字段,计算所述用户字段的特征与数据库字段名的特征的相似度,得到基于用户字段的字段相似度矩阵具体包括:利用TF-ID加权技术计算出字段名中每个字的权重,并采用Levenshtein ratio算法计算用户字段中每个字与数据库中字段名中每个字的相似度,将所述权重和所述相似度进行加权求和,得到基于用户字段的字段相似度矩阵,将所述相似度和所述权重进行加权求和,得到基于用户字段的字段相似度矩阵,
和/或,
所述获取待匹配文件的用户数据(字段),计算所述用户数据的特征与数据库字段的特征的相似度,得到基于用户数据的字段相似度矩阵具体包括:
利用TF-ID加权技术计算出字段中每个字的权重,并采用Levenshtein ratio算法计算用户数据中每个字与数据库中字段中每个字的相似度,将所述权重和所述相似度进行加权求和,得到基于用户数据的字段相似度矩阵。
通过以上的技术方案,在进行用户字段匹配时是将字段拆分成一个字一个字的形式,采用Levenshtein ratio算法配合TF-ID加权技术,得到的相似度矩阵的数据更为准确。
作为较优的技术方案,所述基于获取到的字段相似度矩阵,选择最高相似度对应的字段名作为待匹配文件的字段名具体包括:
采用双向匹配的方法选择最高相似度对应的字段名作为待匹配文件的字段名,所述双向匹配的方法包括:选择相似度矩阵中对应行和列的最大值。
通过以上的技术方案,与常规单向匹配方式不同,单向匹配方式是在为每一列数据匹配列名时只考虑该列数据与比较的不同字段之间的相似度关系,选出最高相似度对应的列名,单向匹配方式容易带来的弊端,即多个待匹配列最终可能被确定为同一个字段名,为了避免这一问题的出现,本技术方案采用了双向匹配的方法,即不仅要考虑列名选定的字段,还要考虑字段选定的列名,当出现待匹配列1与待匹配列2同时指向同一个字段时,要比较二者的相似度,更高者为字段同时选定的列。
作为较优的技术方案,所述数据库为字段名知识库,将每个字段拆分成词,拆分的方式包括:1)英文:按下划线等字符拆分为词;2)中文:将每个字进行拆分。
通过以上的技术方案,将每个字段拆分成词,方便后期的特征提取和相似度计算。
作为较优的技术方案,对于未匹配字段名的待匹配文件,计算用户数据的特征与剩余数据库字段名的特征的相似度,选择相似度最大的数据库字段名作为最终的匹配字段名。
通过以上的技术方案,可实现所有待匹配文件的字段名自动匹配,可减少人工投入,提高字段名匹配的效率。
作为较优的技术方案,所述获取待匹配文件的文件名步骤中,若待匹配文件无文件名,则先执行文件名匹配步骤:
获取待匹配文件的用户字段(用户字段指的是用户上传文件对应的表头,即字段名),计算所述用户字段的特征与所述数据库中所有文件名对应的字段名的特征的相似度,得到基于用户字段的文件名相似度矩阵,
获取待匹配文件的用户数据(字段),计算所述用户数据的特征与所述数据库中所有文件名对应的字段的特征的相似度,得到基于用户数据的文件名相似度矩阵,
将基于用户字段的文件名相似度矩阵与基于用户数据的文件名相似度矩阵进行加权求和,得到最终的文件名相似度矩阵,
基于获取到的文件名相似度矩阵,选择最高相似度对应的文件名作为待匹配文件的文件名。
通过以上的技术方案,当出现待匹配文件没有文件名时,可自动为该文件匹配合适的文件名,与人工匹配文件名相比,可大大提高工作效率。
作为优选的技术方案,所述获取待匹配文件的文件名步骤之前,先执行文件名纠正步骤:
判断待匹配文件的固有文件名是否含有扩展名,如果是,
则获取待匹配文件的固有文件名的扩展名,根据所述扩展名为所述待匹配文件匹配新的文件名。
通过以上的技术方案,针对待匹配文件有文件名且有扩展名的情况,可以根据扩展名自动为待匹配文件匹配合适的文件名,与人工匹配文件名相比,可大大提高工作效率。
作为优选的技术方案,所述文件名纠正步骤中,如果待匹配文件的固有文件名没有扩展名,则执行文件名匹配步骤:获取待匹配文件的用户字段(用户字段指的是用户上传文件对应的表头,即字段名),计算所述用户字段的特征与所述数据库中所有文件名对应的字段名的特征的相似度,得到基于用户字段的文件名相似度矩阵,
获取待匹配文件的用户数据(字段),计算所述用户数据的特征与所述数据库中所有文件名对应的字段的特征的相似度,得到基于用户数据的文件名相似度矩阵,
将基于用户字段的文件名相似度矩阵与基于用户数据的文件名相似度矩阵进行加权求和,得到最终的文件名相似度矩阵,
基于获取到的文件名相似度矩阵,选择最高相似度对应的文件名作为待匹配文件的文件名。
通过以上的技术方案,如果待匹配文件有文件名,但没有扩展名,则无法确定所述文件名是否正确,因此需要重新为该待匹配文件匹配合适的文件名,本技术方案用自动化匹配文件名的方式代替传统的人工方式,以减轻工作人员的工作量,采用字段名特征和数据特征分别计算与数据库中表的每个文件名特征的相似度,将两个相似度进行计算,得到最终的综合考量结果,可更为准确且快速为待匹配文件匹配合适的文件名。
作为优选的技术方案,相似度的计算方法具体包括:将待匹配文件中每列数据的特征依次与数据库中所有文件的特征的最小规范列进行相似度比较。
通过以上的技术方案,与最小规范列进行匹配的方式不仅可以达到快速锁定文件的目的,还可加快匹配速度,缩短匹配时间。
作为优选的技术方案,所述数据库字段的特征包括元素长度、纯数字、时间类型以及组合方式,所述用户数据的特征提取也包括元素长度、纯数字、时间类型以及组合方式。
由于每类文件中的每列数据均含有各自的特点,例如井头文件中的Y X坐标数据位数超过6位,如果在井头文件中,某列数据的数据位数超过6位将被大概率认定为XY坐标,这即是XY坐标的数据特点,又或是在岩性文件中的岩性颜色列中,当出现表示颜色的字眼,
如“黑”,“黑色”,该列数据将被大概率认定为岩性颜色列。基于当前数据的特点,通过分析最终从4方面来提取数据特征,即元素长度、纯数字、时间类型以及组合方式,采用的技术手段主要为正则匹配的方式。由于充分分析了各种数据特征,选取以上的四个方面来提取数据特征,将使得数据特征的提取更为准确可用。
作为优选的技术方案,所述用户数据的特征的提取方法如下:
元素长度的提取:判断该列数据的元素长度是否超过A位,若是则将元素长度记录为“>A”,若否则将元素长度记录为空;
和/或,
纯数字的提取:判断该列数据的类型是否为数值型,若是则对该列数据主要提取特征:最小值和最大值和均值和方差和最小位数,并记录该特征,若否则将纯数字记录为空;
和/或,
时间类型的提取:判断该类数据是否含有时间特征,若是则将时间类型记录为所述时间类型,若否则将时间类型记录为空,其中,所述时间特征包括含有两个“:”符号或含有两个“/”符号;
和/或,
组合方式的提取:判断该列数据是否不全由一种数据类型组成,若是则将所有的数据类型信息进行记录,若否则记录为空,其中,所述数据类型包括中文,英文,数字、符号。
通过以上的技术方案,可快速锁定特征并进行提取,提高特征提取的效率。
第二方面,本申请提供的一种有字段名的井文件字段名自动匹配系统,采用如下的技术方案:
一种有字段名的井文件字段名自动匹配系统,包括如下模块:
文件名获取模块:用于获取待匹配文件的文件名,
第一矩阵生成模块:用于获取待匹配文件的用户字段,计算所述用户字段的特征与数据库字段名的特征的相似度,得到基于用户字段的字段相似度矩阵,其中,所述数据库字段名指的是数据库中所述文件名对应的字段名,
第二矩阵生成模块:用于获取待匹配文件的用户数据(字段),计算所述用户数据的特征与数据库字段的特征的相似度,得到基于用户数据的字段相似度矩阵,其中,数据库字段指的是数据库中所述文件名对应的字段,
最终矩阵生成模块:用于将基于用户字段的字段相似度矩阵与基于用户数据的字段相似度矩阵进行加权求和,得到最终的字段相似度矩阵,字段名匹配模块:用于基于获取到的字段相似度矩阵,选择最高相似度对应的字段名作为待匹配文件的字段名。
通过以上的技术方案,当文件中字段名命名的方式存在有字段名但与字段内容不匹配或者有字段名且与字段内容匹配,但字段名的命名规则不统一,有全中文命名,全英文命名,中英文混合的,或是各种简写的形式等情况时,可用自动化匹配字段名的方式代替传统的人工方式,以减轻工作人员的工作量,采用字段名特征和数据特征分别计算与数据库中表的每个字段名的相似度,将两个相似度进行计算,得到相似度矩阵,在相似度矩阵中选择最高相似度的特征对应的字段名作为该待匹配文件的字段名,可更为准确且快速为待匹配文件匹配合适的字段名。
第三方面,本申请提供的一种计算机可读存储介质,采用如下的技术方案:
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器调用时,执行以上任一技术方案所述的有字段名的井文件字段名自动匹配方法的步骤。
通过以上的技术方案,当文件中字段名命名的方式存在有字段名但与字段内容不匹配或者有字段名且与字段内容匹配,但字段名的命名规则不统一,有全中文命名,全英文命名,中英文混合的,或是各种简写的形式等情况时,可用自动化匹配字段名的方式代替传统的人工方式,以减轻工作人员的工作量,采用字段名特征和数据特征分别计算与数据库中表的每个字段名的相似度,将两个相似度进行计算,得到相似度矩阵,在相似度矩阵中选择最高相似度的特征对应的字段名作为该待匹配文件的字段名,可更为准确且快速为待匹配文件匹配合适的字段名。
第四方面,本申请提供的一种计算机设备,采用如下的技术方案:
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被处理器调用时,执行以上任一技术方案所述的有字段名的井文件字段名自动匹配方法的步骤。
通过以上的技术方案,当文件中字段名命名的方式存在有字段名但与字段内容不匹配或者有字段名且与字段内容匹配,但字段名的命名规则不统一,有全中文命名,全英文命名,中英文混合的,或是各种简写的形式等情况时,可用自动化匹配字段名的方式代替传统的人工方式,以减轻工作人员的工作量,采用字段名特征和数据特征分别计算与数据库中表的每个字段名的相似度,将两个相似度进行计算,得到相似度矩阵,在相似度矩阵中选择最高相似度的特征对应的字段名作为该待匹配文件的字段名,可更为准确且快速为待匹配文件匹配合适的字段名。
综上所述,本申请主要包括以下有益技术效果:
1、当文件中字段名命名的方式存在有字段名但与字段内容不匹配或者有字段名且与字段内容匹配,但字段名的命名规则不统一,有全中文命名,全英文命名,中英文混合的,或是各种简写的形式等情况时,可用自动化匹配字段名的方式代替传统的人工方式,以减轻工作人员的工作量,采用字段名特征和数据特征分别计算与数据库中表的每个字段名的相似度,将两个相似度进行计算,得到相似度矩阵,在相似度矩阵中选择最高相似度的特征对应的字段名作为该待匹配文件的字段名,可更为准确且快速为待匹配文件匹配合适的字段名。
其次的,本申请还包括以下有益技术效果:
2、当文件中文件名命名的方式存在有文件名但与字段内容不匹配或者有文件名且与字段内容匹配,但文件名的命名规则不统一,有全中文命名,全英文命名,中英文混合的,或是各种简写的形式等情况时,可用自动化匹配文件名的方式代替传统的人工方式,以减轻工作人员的工作量,采用字段名特征和数据特征分别计算与数据库中所有表的每个字段名的相似度,将两个相似度进行计算,得到相似度矩阵,在相似度矩阵中选择最高相似度的特征对应的文件名作为该待匹配文件的文件名,可更为准确且快速为待匹配文件匹配合适的字段名。
3、采用Levenshtein ratio算法配合TF-ID加权技术,得到的相似度矩阵的数据更为准确。
4、采用双向匹配的方法选择最高相似度对应的字段名作为待匹配文件的字段名,可解决单向匹配方式容易带来的弊端,即多个待匹配列最终可能被确定为同一个字段名。
5、将待匹配文件中每列数据的特征依次与数据库中所有文件的特征的最小规范列进行相似度比较,不仅可以达到快速锁定文件的目的,还可加快匹配速度,缩短匹配时间。
6、通过分析井文件的数据特点,选取要提取的特征包括元素长度、纯数字、时间类型以及组合方式,将使得数据特征的提取更为准确可用。
7、制定适合井文件的特征提取方法,可快速锁定特征并进行提取,提高特征提取的效率。
附图说明
图1是本申请实施例的有字段名的井文件字段名自动匹配方法的流程图;
图2是本申请实施例的文件名自动匹配方法的流程图;
图3至图4为井头文件的字段的示意图;
图5是井轨迹文件的文件名的示意图;
图6和图7是数据库中井轨迹文件的字段名可能出现的字段示意图;
图8和图9是井分层文件的井名和分层名的字段示意图;
图10至图12是井分层文件的深度和地下海拔的字段示意图;
图13是岩性文件的字段示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图1-13及实施例,对本申请作进一步详细说明。
在构建勘探地震地质数据资源池的过程中,收集到的数据均为原始井文件数据,这类数据呈现数据量大、文件类型多、文件命名方式不统一的现象。
主要的井数据文件包括测井曲线文件、井头文件、井轨迹文件、井分层文件、岩性文件等。文件类型也是五花八门,有.las类型的、excel类型、prn、txt、dat等类型;
关于字段名的命名方式没有统一的规则及标准,现有的文件中字段名命名的方式存在以下情况:(1)有字段名但与字段内容不匹配;(3)有字段名且与字段内容匹配,但字段名的命名规则不统一,有全中文命名,全英文命名,中英文混合的,或是各种简写的形式等等。
针对这一现象,传统的方式是通过人工手动逐一检查字段名与字段内容是否匹配,字段名命名是否规范等,若匹配且规范则直接上传勘探地震地质数据资源池,若不匹配或不规范则人工校正后上传勘探地震地质数据资源池。上述方法虽可实现数据的上传,但是人工检查以及人工校正井数据文件的方式,会耗费较长的时间,效率较低。因此本申请提供一种智能的、自动化匹配文件名的方式代替传统的人工方式,以减轻工作人员的工作量。
常见的井文件主要包括测井曲线文件、井头文件、井轨迹文件、井分层文件、岩性文件。
通过分析现有文件的数据情况,在识别文件类型时主要分为测井曲线文件识别以及其它类型文件识别两类。由于测井曲线文件的数据特点较为明显,较为容易被识别,可以不使用本申请的字段名匹配方法。
接下来将详细说明如何进行井头文件、井轨迹文件、井分层文件、岩性文件的字段名匹配过程。
实施例1。
对于文件具有字段名(但字段名与字段内容不匹配或者字段名的命名规则不统一)的文件,可通过以下方法进行字段名匹配。
具体的,本申请提供的有字段名的井文件字段名自动匹配方法,采用如下的技术方案:
有字段名的井文件字段名自动匹配方法,如图1所示,包括如下步骤:
获取待匹配文件的文件名,
获取待匹配文件的用户字段,计算所述用户字段的特征与数据库字段名的特征的相似度,得到基于用户字段的字段相似度矩阵,其中,所述数据库字段名指的是数据库中所述文件名对应的字段名,
获取待匹配文件的用户数据(字段),计算所述用户数据的特征与数据库字段的特征的相似度,得到基于用户数据的字段相似度矩阵,其中,数据库字段指的是数据库中所述文件名对应的字段,
将基于用户字段的字段相似度矩阵与基于用户数据的字段相似度矩阵进行加权求和,得到最终的字段相似度矩阵,
基于获取到的字段相似度矩阵,选择最高相似度对应的字段名作为待匹配文件的字段名。
通过以上的技术方案,当文件中字段名命名的方式存在有字段名但与字段内容不匹配或者有字段名且与字段内容匹配,但字段名的命名规则不统一,有全中文命名,全英文命名,中英文混合的,或是各种简写的形式等情况时,可用自动化匹配字段名的方式代替传统的人工方式,以减轻工作人员的工作量,采用字段名特征和数据特征分别计算与数据库中表的每个字段名的相似度,将两个相似度进行计算,得到相似度矩阵,在相似度矩阵中选择最高相似度的特征对应的字段名作为该待匹配文件的字段名,可更为准确且快速为待匹配文件匹配合适的字段名。
下面介绍根据用户数据,计算与数据库中对应表的各字段名相似度流程。
第一步:字段名知识库建立:
根据经验,人工统计数据库的表中字段对应的可能出现的字段名,建立一个可能出现的字段名的知识库,该知识库在后续匹配过程中会不断累计补充。
第二步:实现数据准备(设定每个字段名的权重):
为了获取字段名的关键性,利用上述字段名知识库,将每个字段名拆分成词,拆分的方式主要采用:1)英文:按下划线等字符拆分为词;2)中文:将每个字拆分。采用TF-IDF技术获取每个词的重要系数,该重要系数也即为每个词的权重。该权重在后续计算字段名之间的相似度起着一定的作用。
第三步:形成基于用户字段的字段相似度矩阵:
采用Levenshtein ratio方式,计算每个用户字段的特征与每个数据库中字段的特征的相似度,同时利用TF-ID获取每个字段名的权重,将相似度和权重进行加权求和,得到最终的基于用户字段的字段相似度矩阵。
需要说明的是:根据用户字段,计算与数据库中对应表的各字段名的相似度流程,得到基于用户字段的字段相似度矩阵的流程与根据用户数据的计算流程相同,在此不再赘述。
得到基于用户字段的字段相似度矩阵和基于用户数据的字段相似度矩阵后,将基于用户字段的字段相似度矩阵与基于用户数据的字段相似度矩阵进行加权求和,得到最终的字段相似度矩阵,
基于获取到的字段相似度矩阵,选择最高相似度对应的字段名作为待匹配文件的字段名。
下面详细说明基于获取到的字段相似度矩阵,选择最高相似度对应的字段名作为待匹配文件的字段名的过程:
整个匹配过程的每个阶段都针对没有匹配的用户字段进行匹配。以上所述的用户字段指的是用户上传文件对应的字段名(也称为表头),数据库字段指的是数据库中该文件名对应的字段名。
需要说明的是:计算相似度之前,利用字段名知识库中所有可能出现的字段名对用户字段进行一次筛选,将出现在字段名知识库中的字段名直接匹配。
下面详细讲述Levenshtein ratio算法和TF-IDF技术:
本实施例采用Levenshtein ratio算法,是因为其比Levenshtein distance算法更为准确。
下面介绍Levenshtein distance算法:
首先介绍Levenshtein距离,也称为编辑距离。所谓编辑距离,就是用来计算从原串(str1)转换到目标串(str2)所需要的最少的操作次数(操作次数也称为编辑距离),在其中的操作包括插入、删除、替换。
以计算字符串“abc”“abe”的相似度为例。
1.初始化二维数组:
空 | a | b | c | |
空 | 0 | 1 | 2 | 3 |
a | 1 | |||
b | 2 | |||
e | 3 |
这里初始化为1表示从空字符串变到a,需要插入一次,编辑距离为1,2表示从空字符串变到ab需要插入两次,编辑距离为2,3同理。
2、处理其他单元格:
以①这个单元格为例,这一单元格的数值取决于他左侧、上侧和左上角的位置。
1)左侧+1删除,
2)上侧+1插入,
3)如果格子对应行列字母不同,左上角+1,否则+0替换,取三者的最小值,即为当前单元格的值,①填0。
依次填完整个表,如下:
空 | a | b | c | |
空 | 0 | 1 | 2 | 3 |
a | 1 | 0 | 1 | 2 |
b | 2 | 1 | 0 | 1 |
e | 3 | 2 | 1 | 1 |
最后发现,从abc变到abe只需要1步(编辑距离),即为右下角的值。
最后计算相似度r=1-step/maxlen(str1,str2)=1-1/3=2/3。
比较一下Levenshtein ratio算法:
Levenshtein.ratio和Levenshtein.distance主要是计算方式上有细微不同。
Levenshtein.ratio是通过计算莱文斯坦比来得到相似度。
计算公式为:r=(sum-ldist))/sum
其中sum是指str1和str2字串的长度总和,ldist是类编辑距离。
注:这里的类编辑距离不是上述所说的编辑距离,Levenshtein.distance中三种操作中每个操作+1,而在此处,删除、插入依然+1,但是替换+2。
这样设计的目的:以ratio(‘a’,‘c’)为例,需要替换一次,总长度sum=2。按2.1中计算,替换操作+1,则r=(2-1)/2=0.5,但是’a’和’c’没有重合,显然不合算,如果替换操作+2,就可以解决这个问题。
“abc”变“abe”的二维数组就变为:
空 | a | b | c | |
空 | 0 | 1 | 2 | 3 |
a | 1 | 0 | 1 | 2 |
b | 2 | 1 | 0 | 1 |
e | 3 | 2 | 1 | 2 |
从abc变到abe需要2步,r=(6-2)/6=2/3。
下面讲述TF-IDF技术:
TF-IDF是一种加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
(1)TF为词频
词频(TF)表示词条(关键字)在文本中出现的频率,
(2)IDF为逆文档频率,
一个词越常见,逆文档频率就越小。
(3)计算TF-IDF,
TF-IDF=TF×IDF,
该公式可看出,TF-IDF与一个词在文档中的出现次数成正比,与该词在整个语料库中的出现次数成反比。
实施例2。
本实施例的有字段名的井文件字段名自动匹配方法,其他步骤和实施例1相同,不同之处在于:
所述基于获取到的字段相似度矩阵,选择最高相似度对应的字段名作为待匹配文件的字段名具体包括:
采用双向匹配的方法选择最高相似度对应的字段名作为待匹配文件的字段名,所述双向匹配的方法包括:选择相似度矩阵中对应行和列的最大值。
在进行上述相似度比较时,主要采用的方式为双向匹配的方式,与常规单向匹配方式不同,单向匹配方式是在为每一列数据匹配列名时只考虑该列数据与比较的不同字段之间的相似度关系,选出最高相似度对应的列名。举例说明,下表表示待匹配列1分别与某一文件类型的3个最少字段进行相似度比较时,常规方式是选择相似度最高者对应的字段名,即待匹配列1匹配的字段名为字段1。
单向匹配的方式如下表:
上述单向匹配方式容易带来的弊端,即多个待匹配列最终可能被确定为同一个字段名。若根据上述单向匹配方式下表中的待匹配列1与待匹配列2将均被认定为匹配的字段名为字段1。在同一个检测文件中为两列数据分配同一个字段名是不正确的做法,因此为了避免这一问题的出现,本实施例提出了双向匹配的方法,即不仅要考虑列名选定的字段,还要考虑字段选定的列名,当出现待配列1与待匹配列2同时指向同一个字段时,要比较二者的相似度,更高者为字段同时选定的列。体现在下表中可知待匹配列1与待匹配列2均在字段1中具有较高的相似度,但待匹配列2的相似度比待匹配列1的相似度更高,最终待匹配列2的匹配字段为字段1,待匹配列1选择次高者即字段2作为匹配的字段。
双向匹配的方式如下表:
字段1 | 字段2 | 字段3 | |
待匹配列1 | 0.72 | 0.67 | 0.35 |
待匹配列2 | 0.87 | 0.32 | 0.14 |
基于获取到的相似度矩阵,进行双向匹配,即如果该值为矩阵中对应行和列的最大值,则匹配成功。
实施例3。
本实施例的有字段名的井文件字段名自动匹配方法,其他步骤和实施例1相同,不同之处在于:对于剩余没有匹配成功的用户字段,计算该用户字段的特征与剩余数据库字段的特征的相似度,选择相似度最大的数据库字段作为最终的匹配字段。
本实施例中,可实现所有待匹配文件的字段名自动匹配,可减少人工投入,提高字段名匹配的效率。
实施例4。
本实施例的有字段名的井文件字段名自动匹配方法,其他步骤和实施例1相同,不同之处在于:
如图2所示,所述获取待匹配文件的文件名步骤中,若待匹配文件无文件名,则先执行文件名匹配步骤:
获取待匹配文件的用户字段(用户字段指的是用户上传文件对应的表头,即字段名),计算所述用户字段的特征与所述数据库中所有文件名的字段名的特征的相似度,得到基于用户字段的文件名相似度矩阵,
获取待匹配文件的用户数据(字段),计算所述用户数据的特征与所述数据库中所有文件名对应的字段的特征的相似度,得到基于用户数据的文件名相似度矩阵,
将基于用户字段的文件名相似度矩阵与基于用户数据的文件名相似度矩阵进行加权求和,得到最终的文件名相似度矩阵,基于获取到的文件名相似度矩阵,选择最高相似度对应的文件名作为待匹配文件的文件名。
本实施例中,当出现待匹配文件没有文件名时,可自动为该文件匹配合适的文件名,与人工匹配文件名相比,可大大提高工作效率。
实施例5。
本实施例的有字段名的井文件字段名自动匹配方法,其他步骤和实施例1相同,不同之处在于:
针对待匹配文件有文件名,但文件名与字段内容不匹配,或者,有文件名且与字段内容匹配,但文件名的命名规则不统一,有全中文命名,全英文命名,中英文混合的,或是各种简写的形式等等,
在所述获取待匹配文件的文件名步骤之前,先执行文件名纠正步骤:
判断待匹配文件的固有文件名是否含有扩展名,如果是,
则获取待匹配文件的固有文件名的扩展名,根据所述扩展名为所述待匹配文件匹配新的文件名。
本实施例中,针对待匹配文件有文件名且有扩展名的情况,可以根据扩展名自动为待匹配文件匹配合适的文件名,与人工匹配文件名相比,可大大提高工作效率。
所述文件名纠正步骤中,如果否,则执行文件名匹配步骤:获取待匹配文件的用户字段(用户字段指的是用户上传文件对应的表头,即字段名),计算所述用户字段的特征与所述数据库中所有文件名对应的字段名的特征的相似度,得到基于用户字段的文件名相似度矩阵,
获取待匹配文件的用户数据(字段),计算所述用户数据的特征与所述数据库中所有文件名对应的字段的特征的相似度,得到基于用户数据的文件名相似度矩阵,
将基于用户字段的文件名相似度矩阵与基于用户数据的文件名相似度矩阵进行加权求和,得到最终的文件名相似度矩阵,
基于获取到的文件名相似度矩阵,选择最高相似度对应的文件名作为待匹配文件的文件名。
本实施例中,如果待匹配文件有文件名,但没有扩展名,则无法确定所述文件名是否正确,因此需要重新为该待匹配文件匹配合适的文件名,本技术方案用自动化匹配文件名的方式代替传统的人工方式,以减轻工作人员的工作量,采用字段名特征和数据特征分别计算与数据库中表的每个文件名的特征的相似度,将两个相似度进行加权求和,得到最终的综合考量结果,可更为准确且快速为待匹配文件匹配合适的文件名。
需要说明的是,文件名匹配过程的文件名相似度矩阵生成方法和前面实施例的字段名匹配过程的字段相似度矩阵生成方法相同,在此不再赘述。
实施例6。
本实施例与其他实施例的不同之处在于:相似度的计算方法具体包括:将待匹配文件中每列数据的特征依次与数据库中所有文件的特征的最小规范列进行相似度比较,其中,最小规范列可用于唯一判别所属文件类型的列的集合,该集合具有以下特点,含有最少的列,列的数量随着文件名的不同而不同,使用该列可唯一标识文件名。
字段名匹配的核心思想是将待匹配文件中每列数据的特征依次与数据库中各文件的最小规范列的特征进行匹配,在匹配最小规范列时即可得出各待匹配文件属于该类型文件的总相似度。根据属于各文件的总相似度即可得出待匹配文件属于某类文件的相似度。
下面说明最小规范列(即下面的最少字段)的选取规则:
(1)井头文件:
最少字段:4列井名、X坐标、Y坐标、海拔;
标准字段:6列井名、X坐标、Y坐标、海拔、海拔类型、深度。
(2)井轨迹文件:
最少字段:3列测深、井斜角、方位角;
标准字段:3-6列测深、垂深、井斜角、方位角、X偏移量、Y偏移量。
(3)井分层文件:
最少字段:3列井名、层名、底深;
标准字段:4列井名、层英文名、顶深、底深。
(4)岩性文件:
最少字段:3列井名、岩性、底深;
标准字段:4列井名、岩性英文名、顶深、底深。举例说明上述匹配过程的含义,在进行待匹配文件属于某种字段名/文件名的匹配时只需要将待匹配文件与某种文件的最小规范列进行匹配,也就是说待匹配文件的列≥某文件的最小规范列。为了更清晰地描述,下表中显示了待匹配文件的所有列,以及3种不同字段名的所有列及其最小规范列的情况。
在确定字段名时将待匹配文件的所有列与字段名的最小规范列进行相似度比较,相似度比较的前提为提取待匹配文件的各列特征。
假如通过相似度比较后待匹配文件与各字段名的相似度结果如下:
待匹配文件与字段名1的各相似度表示如下:
同理可得待匹配文件与字段名2以及字段名3的总相似度,选取总相似度最高者,即为待匹配文件属于的字段名。这种与最小规范列进行匹配的方式不仅可以达到快速锁定文件的目的,还可加快匹配速度,缩短匹配时间。
本实施例的方法也适用于文件名的匹配。
实施例7。
在进行相似度计算的过程中,需要提取各列数据的特征,对于数据库的数据同样需要提取数据特征,利用数据特征进一步做相似度计算。
下面分析井文件的字段特征:
井头文件:
请参阅图3至图4,图3至图4为井头文件的字段的示意图。
字段特征:
井名:元数据中有英文、有数字、有字符甚至有中文数字混合;
Y X坐标:元数据中位数超过6位数的是X、Y坐标,国内X坐标小数点前8位数,Y坐标小数点前7位数;
井轨迹文件:
字段特征:
根据文件名识别井名,文件名中的井有中文的,也有英文的,将文件名进行分割,拿着分割的文件名到数据库的表中对比匹配相似度最高的井。
请参阅图5,图5是井轨迹文件的文件名的示意图。
请参阅图6和图7,图6和图7是数据库中井轨迹文件的字段名可能出现的字段示意图。
井分层文件:
字段特征:
井名、分层名:有两列英文、字母、数字、特殊字符在一起的数据,其中一列识别出来是井名,那另外一列必然是分层名。
请参阅图8和图9,图8和图9是井分层文件的井名和分层名的字段示意图。
深度:有两个深度的,同一层位的深度值小的是顶深,深度值大的是底深;只有一列深度值那就是底深。
地下海拔:值带着负号,值递减。
请参阅图10至图12,图10至图12是井分层文件的深度和地下海拔的字段示意图。
岩性文件:
字段特征:
井名:元数据中有英文、有数字、有字符甚至有中文数字混合的有可能就是井名或者岩性名;如果井名和岩性两列都是中文的,带***岩的必然是岩性;
深度:两列深度值,同一层位的深度值小的是顶深,深度值大的是底深,如果只有一列深度值那就是底深。
请参阅图13,图13是岩性文件的字段示意图。
因此,本实施例针对井文件(主要针对井头文件、井轨迹文件、井分层文件、岩性文件)的特点,确定文件特征库的特征包括元素长度、纯数字、时间类型以及组合方式,所述用户数据的特征提取也包括元素长度、纯数字、时间类型以及组合方式。
理由如下:
由于每类文件中的每列数据均含有各自的特点,例如井头文件中的Y X坐标数据位数超过6位,如果在井头文件中,某列数据的数据位数超过6位将被大概率认定为XY坐标,这即是XY坐标的数据特点,又或是在岩性文件中的岩性颜色列中,当出现表示颜色的字眼,如“黑”,“黑色”,该列数据将被大概率认定为岩性颜色列。基于当前数据的特点,通过分析最终从4方面来提取数据特征,即元素长度、纯数字、时间类型以及组合方式,采用的技术手段主要为正则匹配的方式。由于充分分析了各种数据特征,选取以上的四个方面来提取数据特征,将使得数据特征的提取更为准确可用。
具体的,所述用户数据的特征的提取方法如下:
元素长度的提取:判断该列数据的元素长度是否超过32位,若是则将元素长度记录为“>32”,若否则将元素长度记录为空;
纯数字的提取:判断该列数据的类型是否为数值型,若是则主要提取最小值和最大值和均值和方差和最小位数等特征并记录该些特征,若否则将纯数字记录为空;
时间类型的提取:判断该类数据是否含有时间特征,若是则将时间类型记录为所述时间类型,若否则将时间类型记录为空,其中,所述时间特征包括含有两个“:”符号或含有两个“/”符号;
组合方式的提取:判断该列数据是否不全由一种数据类型组成,若是则将所有的数据类型信息进行记录,若否则记录为空,其中,所述数据类型包括中文,英文,数字、符号。
通过以上的技术方案,可快速锁定特征并进行提取,提高特征提取的效率,提取的特征与字段的匹配度高。
实施例8。
本实施例提供一种有字段名的井文件字段名自动匹配系统,采用如下的技术方案:一种有字段名的井文件字段名自动匹配系统,包括如下模块:
文件名获取模块:用于获取待匹配文件的文件名,
第一矩阵生成模块:用于获取待匹配文件的用户字段,计算所述用户字段的特征与数据库字段名的特征的相似度,得到基于用户字段的字段相似度矩阵,其中,所述数据库字段名指的是数据库中所述文件名对应的字段名,
第二矩阵生成模块:用于获取待匹配文件的用户数据(字段),计算所述用户数据的特征与数据库字段的特征的相似度,得到基于用户数据的字段相似度矩阵,其中,数据库字段指的是数据库中所述文件名对应的字段,
最终矩阵生成模块:用于将基于用户字段的字段相似度矩阵与基于用户数据的字段相似度矩阵进行加权求和,得到最终的字段相似度矩阵,
字段名匹配模块:用于基于获取到的字段相似度矩阵,选择最高相似度对应的字段名作为待匹配文件的字段名。
本实施例中,当文件中字段名命名的方式存在有字段名但与字段内容不匹配或者有字段名且与字段内容匹配,但字段名的命名规则不统一,有全中文命名,全英文命名,中英文混合的,或是各种简写的形式等情况时,可用自动化匹配字段名的方式代替传统的人工方式,以减轻工作人员的工作量,采用字段名特征和数据特征分别计算与数据库中表的每个字段名的相似度,将两个相似度进行计算,得到相似度矩阵,在相似度矩阵中选择最高相似度的特征对应的字段名作为该待匹配文件的字段名,可更为准确且快速为待匹配文件匹配合适的字段名。
实施例9。
本实施例提供的一种计算机可读存储介质,采用如下的技术方案:
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器调用时,执行以上任一实施例所述的有字段名的井文件字段名自动匹配方法的步骤。
本实施例中,当文件中字段名命名的方式存在有字段名但与字段内容不匹配或者有字段名且与字段内容匹配,但字段名的命名规则不统一,有全中文命名,全英文命名,中英文混合的,或是各种简写的形式等情况时,可用自动化匹配字段名的方式代替传统的人工方式,以减轻工作人员的工作量,采用字段名特征和数据特征分别计算与数据库中表的每个字段名的相似度,将两个相似度进行计算,得到相似度矩阵,在相似度矩阵中选择最高相似度的特征对应的字段名作为该待匹配文件的字段名,可更为准确且快速为待匹配文件匹配合适的字段名。
实施例10。
本实施例提供一种计算机设备,采用如下的技术方案:
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被处理器调用时,执行以上任一实施例所述的有字段名的井文件字段名自动匹配方法的步骤。
本实施例中,当文件中字段名命名的方式存在有字段名但与字段内容不匹配或者有字段名且与字段内容匹配,但字段名的命名规则不统一,有全中文命名,全英文命名,中英文混合的,或是各种简写的形式等情况时,可用自动化匹配字段名的方式代替传统的人工方式,以减轻工作人员的工作量,采用字段名特征和数据特征分别计算与数据库中表的每个字段名的相似度,将两个相似度进行计算,得到相似度矩阵,在相似度矩阵中选择最高相似度的特征对应的字段名作为该待匹配文件的字段名,可更为准确且快速为待匹配文件匹配合适的字段名。
可以理解,本申请实施例中的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。
非易失性存储器可以是ROM、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electricallyEPROM,EEPROM)或闪存。
易失性存储器可以是RAM,其用作外部高速缓存。RAM有多种不同的类型,例如静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(dynamic RAM,DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhancedSDRAM,ESDRAM)、同步连接动态随机存取存储器(synch link DRAM,SLDRAM)和直接内存总线随机存取存储器。
上述任一处提到的处理器,可以是一个CPU,微处理器,ASIC,或一个或多个用于控制上述的反馈信息传输的方法的程序执行的集成电路。该处理单元和该存储单元可以解耦,分别设置在不同的物理设备上,通过有线或者无线的方式连接来实现该处理单元和该存储单元的各自的功能,以支持该系统芯片实现上述实施例中的各种功能。或者,该处理单元和该存储器也可以耦合在同一个设备上。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个计算机可读存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的计算机可读存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上均为本申请的较佳实施例,并非依此限制本申请的保护范围,故:凡依本申请的结构、形状、原理所做的等效变化,均应涵盖于本申请的保护范围之内。
Claims (13)
1.有字段名的井文件字段名自动匹配方法,其特征在于:所述方法包括如下
步骤:
获取待匹配文件的文件名,
获取待匹配文件的用户字段,计算所述用户字段的特征与数据库字段名的特征的相似度,得到基于用户字段的字段相似度矩阵,其中,所述数据库字段名指的是数据库中所述文件名对应的字段名,
获取待匹配文件的用户数据,计算所述用户数据的特征与数据库字段的特征的相似度,得到基于用户数据的字段相似度矩阵,其中,数据库字段指的是数据库中所述文件名对应的字段,
将基于用户字段的字段相似度矩阵与基于用户数据的字段相似度矩阵进行计算,得到最终的字段相似度矩阵,
基于获取到的字段相似度矩阵,选择最高相似度对应的字段名作为待匹配文件的字段名。
2.根据权利要求1所述的有字段名的井文件字段名自动匹配方法,其特征在
于:所述获取待匹配文件的用户字段,计算所述用户字段的特征与数据库字段名的特征的相似度,得到基于用户字段的字段相似度矩阵具体包括:利用TF-ID 加权技术计算出字段名中每个字的权重,并采用 Levenshtein ratio算法计算用户字段中每个字与数据库中字段名中每个字的相似度,将所述权重和所述相似度进行加权求和,得到基于用户字段的字段相似度矩阵,
和/或,
所述获取待匹配文件的用户数据,计算所述用户数据的特征与数据库字段的特征的相似度,得到基于用户数据的字段相似度矩阵具体包括:
利用TF-ID 加权技术计算出每个字段中每个字的权重,并采用 Levenshtein ratio算法计算用户数据中每个字与数据库字段中的每个字的相似度,,将所述权重和所述数据库相似度进行加权求和,得到基于用户字段的字段相似度矩阵。
3.根据权利要求1所述的有字段名的井文件字段名自动匹配方法,其特征在
于:所述基于获取到的字段相似度矩阵,选择最高相似度对应的字段名作为待匹配文件的字段名具体包括:
采用双向匹配的方法选择最高相似度对应的字段名作为待匹配文件的字段名,所述双向匹配的方法包括:选择相似度矩阵中对应行和列的最大值。
4.根据权利要求1所述的有字段名的井文件字段名自动匹配方法,其特征在于:对于未匹配字段名的待匹配文件,计算用户数据的特征与剩余数据库字段名的特征的相似度,选择相似度最大的数据库字段名作为最终的匹配字段名。
5.根据权利要求1所述的有字段名的井文件字段名自动匹配方法,其特征在于:所述获取待匹配文件的文件名步骤中,若待匹配文件无文件名,则先执行文件名匹配步骤:
获取待匹配文件的用户字段,计算所述用户字段的特征与所述数据库中所有文件名对应的字段名的特征的相似度,得到基于用户字段的文件名相似度矩阵,
获取待匹配文件的用户数据,计算所述用户数据的特征与所述数据库中所有文件名对应的字段的特征的相似度,得到基于用户数据的文件名相似度矩阵,
将基于用户字段的文件名相似度矩阵与基于用户数据的文件名相似度矩阵进行计算,得到最终的文件名相似度矩阵,
基于获取到的文件名相似度矩阵,选择最高相似度对应的文件名作为待匹配文件的文件名。
6.根据权利要求1所述的有字段名的井文件字段名自动匹配方法,其特征在于:所述获取待匹配文件的文件名步骤之前,先执行文件名纠正步骤:
判断待匹配文件的固有文件名是否含有扩展名,如果是,
则获取待匹配文件的固有文件名的扩展名,根据所述扩展名为所述待匹配文件匹配新的文件名。
7.根据权利要求6所述的有字段名的井文件字段名自动匹配方法,其特征在于:所述文件名纠正步骤中,如果否,则执行文件名匹配步骤:获取待匹配文件的用户字段,计算所述用户字段的特征与所述数据库中所有文件名对应的字段名的特征的相似度,得到基于用户字段的文件名相似度矩阵,
获取待匹配文件的用户数据,计算所述用户数据的特征与所述数据库中所有文件名对应的字段的特征的相似度,得到基于用户数据的文件名相似度矩阵,
将基于用户字段的文件名相似度矩阵与基于用户数据的文件名相似度矩阵进行计算,得到最终的文件名相似度矩阵,
基于获取到的文件名相似度矩阵,选择最高相似度对应的文件名作为待匹配文件的文件名。
8.根据权利要求1或5或7所述的有字段名的井文件字段名自动匹配方法,其特征在于:相似度的计算方法具体包括:将待匹配文件中每列数据的特征依次与数据库中所有文件的特征的最小规范列进行相似度比较。
9.根据权利要求1所述的有字段名的井文件字段名自动匹配方法,其特征在于:所述数据库字段的特征包括元素长度、纯数字、时间类型以及组合方式,所述用户数据的特征提取也包括元素长度、纯数字、时间类型以及组合方式。
10.根据权利要求9所述的有字段名的井文件字段名自动匹配方法,其特征在于:所述用户数据的特征的提取方法如下:
元素长度的提取:判断该列数据的元素长度是否超过A位,若是则将元素长度记录为“>A”,若否则将元素长度记录为空;
和/或,
纯数字的提取:判断该列数据的类型是否为数值型,若是则对该列数据主要提取特征:最小值和最大值和均值和方差和最小位数,并记录该特征,若否则将纯数字记录为空;
和/或,
时间类型的提取:判断该类数据是否含有时间特征,若是则将时间类型记录为所述时间类型,若否则将时间类型记录为空,其中,所述时间特征包括含有两个“:”符号或含有两个“/”符号;
和/或,
组合方式的提取:判断该列数据是否不全由一种数据类型组成,若是则将所有的数据类型信息进行记录,若否则记录为空,其中,所述数据类型包括中文,英文,数字、符号。
11.一种有字段名的井文件字段名自动匹配系统,其特征在于:所述系统包括如下模块:
文件名获取模块:用于获取待匹配文件的文件名,
第一矩阵生成模块:用于获取待匹配文件的用户字段,计算所述用户字段的特征与数据库字段名的特征的相似度,得到基于用户字段的字段相似度矩阵,其中,所述数据库字段名指的是数据库中所述文件名对应的字段名,
第二矩阵生成模块:用于获取待匹配文件的用户数据,计算所述用户数据的特征与数据库字段的特征的相似度,得到基于用户数据的字段相似度矩阵,其中,数据库字段指的是数据库中所述文件名对应的字段,
最终矩阵生成模块:用于将基于用户字段的字段相似度矩阵与基于用户数据的字段相似度矩阵进行计算,得到最终的字段相似度矩阵,
字段名匹配模块:用于基于获取到的字段相似度矩阵,选择最高相似度对应的字段名作为待匹配文件的字段名。
12.一种计算机可读存储介质,存储有计算机程序,其特征在于:所述计算机程序被处理器调用时,执行权利要求1至10任一项所述的有字段名的井文件字段名自动匹配方法的步骤。
13.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于:所述计算机程序被处理器调用时,执行权利要求1至10任一项所述的有字段名的井文件字段名自动匹配方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210360322.1A CN114896466A (zh) | 2022-04-06 | 2022-04-06 | 有字段名的井文件字段名自动匹配方法、系统、介质和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210360322.1A CN114896466A (zh) | 2022-04-06 | 2022-04-06 | 有字段名的井文件字段名自动匹配方法、系统、介质和计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114896466A true CN114896466A (zh) | 2022-08-12 |
Family
ID=82716183
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210360322.1A Pending CN114896466A (zh) | 2022-04-06 | 2022-04-06 | 有字段名的井文件字段名自动匹配方法、系统、介质和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114896466A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115186650A (zh) * | 2022-09-07 | 2022-10-14 | 中国中金财富证券有限公司 | 数据检测方法及相关装置 |
CN116361283A (zh) * | 2022-12-01 | 2023-06-30 | 北京码牛科技股份有限公司 | 识别海量数据关联关系的方法、系统、终端及存储介质 |
-
2022
- 2022-04-06 CN CN202210360322.1A patent/CN114896466A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115186650A (zh) * | 2022-09-07 | 2022-10-14 | 中国中金财富证券有限公司 | 数据检测方法及相关装置 |
CN115186650B (zh) * | 2022-09-07 | 2022-12-09 | 中国中金财富证券有限公司 | 数据检测方法及相关装置 |
CN116361283A (zh) * | 2022-12-01 | 2023-06-30 | 北京码牛科技股份有限公司 | 识别海量数据关联关系的方法、系统、终端及存储介质 |
CN116361283B (zh) * | 2022-12-01 | 2023-09-26 | 北京码牛科技股份有限公司 | 识别海量数据关联关系的方法、系统、终端及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10515090B2 (en) | Data extraction and transformation method and system | |
CN114896466A (zh) | 有字段名的井文件字段名自动匹配方法、系统、介质和计算机设备 | |
US11829401B2 (en) | Method for table extraction from journal literature based on text state characteristics | |
CN104765876B (zh) | 海量gnss小文件云存储方法 | |
CN107766555B (zh) | 基于软约束无监督型跨模态哈希的图像检索方法 | |
US10671586B2 (en) | Optimal sort key compression and index rebuilding | |
CN109684428A (zh) | 空间数据建设方法、装置、设备及存储介质 | |
WO2018090468A1 (zh) | 视频节目的搜索方法和装置 | |
US9146988B2 (en) | Hierarchal clustering method for large XML data | |
CN102063508A (zh) | 基于广义后缀树的中文搜索引擎模糊自动补全方法 | |
CN114511452B (zh) | 融合多尺度空洞卷积和三元组注意力的遥感图像检索方法 | |
CN114896352B (zh) | 无字段名的井文件字段名自动匹配方法、系统、介质和计算机设备 | |
CN111027249B (zh) | 一种基于机器学习的井间连通性评价方法 | |
US20220366129A1 (en) | Spreadsheet table transformation | |
CN107562693B (zh) | 土地利用/覆被要素多特征变化转移矩阵矢量化提取方法 | |
CN107133348B (zh) | 大规模图片集中基于语义一致性的近似搜索方法 | |
CN110990376B (zh) | 一种基于多因子混合排序机制的学科分类自动标引方法 | |
CN112148735A (zh) | 一种用于结构化表格数据知识图谱的构建方法 | |
CN114511027B (zh) | 通过大数据网络进行英语远程数据提取方法 | |
CN107402974B (zh) | 基于多种二进制HoG描述符的草图检索方法 | |
Yao et al. | Applying an improved DBSCAN clustering algorithm to network intrusion detection | |
CN109189966A (zh) | 一种基于形状特征的服饰纹样检索方法 | |
CN114880996B (zh) | 基于分段加权相似度匹配算法的机构名称归一化方法 | |
CN115495617A (zh) | 一种属性图的压缩索引及查询方法 | |
CN115563941B (zh) | 复合文档处理方法、装置、存储介质及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |