CN112364206A - 一种对多格式数据文件进行解析翻译的方法及装置 - Google Patents

一种对多格式数据文件进行解析翻译的方法及装置 Download PDF

Info

Publication number
CN112364206A
CN112364206A CN202011261021.0A CN202011261021A CN112364206A CN 112364206 A CN112364206 A CN 112364206A CN 202011261021 A CN202011261021 A CN 202011261021A CN 112364206 A CN112364206 A CN 112364206A
Authority
CN
China
Prior art keywords
data
information
format
file
variable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011261021.0A
Other languages
English (en)
Inventor
冯涛
林鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Sea Star Ocean Sci And Tech Co ltd
Original Assignee
Guangdong Sea Star Ocean Sci And Tech Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Sea Star Ocean Sci And Tech Co ltd filed Critical Guangdong Sea Star Ocean Sci And Tech Co ltd
Priority to CN202011261021.0A priority Critical patent/CN112364206A/zh
Publication of CN112364206A publication Critical patent/CN112364206A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/84Mapping; Conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例涉及计算机技术领域,公开了一种对多格式数据文件进行解析翻译的方法,包括:检测当前的科学数据文件对应的格式信息;根据所述格式信息调取相应的解析组件来对所述科学数据文件进行解析以得到数据变量信息;根据字段映射关系对所述数据变量信息进行关系映射以得到标准数据信息,所述字段映射关系包括个性字段与标准字段的映射关系。本发明实施例的方案通过内置多种解析包来对输入的不同格式的数据文件进行数据解析,并且预先存储有设定好的字段映射关系来对所有的数据文件按照统一的内容以及格式进行存储。使得本发明实施的方案读取科学数据文件更加的方便快捷,避免不同文件不同读取方式的操作复杂性。

Description

一种对多格式数据文件进行解析翻译的方法及装置
技术领域
本发明涉及计算机技术领域,具体涉及一种对多格式数据文件进行解析翻译的方法及装置。
背景技术
目前,在计算机技术领域,读取科学数据文件的工具相对较少,并且实用性也很差,所以在平常工作和生活中去读取解析多种科学数据文件时很不方便;并且,现有的科学数据文件的文件结构相差很大,目前市场上没有工具可以同时读取多种科学数据格式文件的工具,目前存在的数据读取工具的通用性很差。除此之外,现有的科学数据文件解析读取后的内容会产生指代不一的情况,比如同一个属性可能不同的科学数据文件表示的字段不一致,这就给工作人员对同一属性的理解上造成了很多的误解。因此,设计一种通用性更好的读取数据文件的方法成为本领域技术人员亟待解决的技术问题。
发明内容
针对所述缺陷,本发明实施例公开了一种对多格式数据文件进行解析翻译的方法,其使得读取科学数据文件更加的便捷和使用,避免了不同文件不同读取方式操作的复杂性。
本发明实施例第一方面公开了对多格式数据文件进行解析翻译的方法,包括:
检测当前的科学数据文件对应的格式信息;
根据所述格式信息调取相应的解析组件来对所述科学数据文件进行解析以得到数据变量信息;
根据字段映射关系对所述数据变量信息进行关系映射以得到标准数据信息,所述字段映射关系包括个性字段与标准字段的映射关系。
作为一种可选的实施方式,在本发明实施例第一方面中,所述格式信息包括nc文件格式、grb文件格式、tiff文件格式和h5文件格式中的一种或者多种,所述解析组件包括netCDF4解析包、xarray解析包和opencv解析包;所述根据所述格式信息调取相应的解析组件来对所述科学数据文件进行解析翻译以得到数据变量信息,包括:
根据nc文件格式调用netCDF4解析包来对科学数据文件进行解析以得到维度内容和变量内容;
对所述变量内容进行数据读取以得到各个变量的属性和属性值,将维度信息、属性和属性值存储为数据变量信息;或者,
根据grb文件格式调用xarry解析包来对科学数据文件进行解析以得到纬度内容、局部变量内容和全局变量内容;
对将所述局部变量内容进行数据读取以得到各个变量的属性、属性值、数据类型和尺寸信息,将维度内容、各个变量的属性、属性值、数据类型、尺寸信息和全局变量内容存储为数据变量信息;或者,
根据h5文件格式调用netCDF4解析包遍历科学数据文件中的第一层变量,以获取变量的属性、属性值、数据类型和尺寸信息;
判断所述第一层变量是否存在下层变量,如果是,则遍历获取下层变量的属性、属性值、数据类型和尺寸信息;
将读取到的第一层变量和下层变量存储为数据变量信息;或者,
根据tiff文件格式调用opencv解析包来对科学数据文件进行解析以得到对应的数据结构和数据类型;
将所述数据结构和数据类型存储为数据变量信息。
作为一种可选的实施方式,在本发明实施例第一方面中,所述字段映射关系通过如下步骤获取得到:
获取多种格式的科学历史数据;
对所述科学历史数据进行聚类操作以得到个性字段和标准字段之间的映射关系。
作为一种可选的实施方式,在本发明实施例第一方面中,在所述根据字段映射关系对所述数据变量信息进行关系映射以得到标准数据信息之后,还包括:
对所述标准数据信息进行显示;或,
按照预设格式对所述标准数据信息进行数据存储,所述预设格式包括json格式。
作为一种可选的实施方式,在本发明实施例第一方面中,在所述根据字段映射关系对所述数据变量信息进行关系映射以得到标准数据信息之后,还包括:
对所述标准数据信息进行标准化解析以生成解析索引文件,对所述解析索引文件进行信息存储。
作为一种可选的实施方式,在本发明实施例第一方面中,在所述对所述标准数据信息进行标准化解析以生成解析索引文件之后,还包括:
接收用户的发送的信息查询操作,对所述解析索引文件中的数据进行信息调用。
作为一种可选的实施方式,在本发明实施例第一方面中,所述数据变量信息的数据格式包括字符串;在所述检测当前的科学数据文件对应的格式信息之前,还包括:
接收用户的信息读取操作,发送冲突词选择框至用户端;
接收用户的选择结果以对字段映射关系进行更新。
本发明实施例第二方面公开一种对多格式数据文件进行解析翻译的装置,包括:
检测模块:用于检测当前的科学数据文件对应的格式信息;
解析模块:用于根据所述格式信息调取相应的解析组件来对所述科学数据文件进行解析以得到数据变量信息;
映射模块:用于根据字段映射关系对所述数据变量信息进行关系映射以得到标准数据信息,所述字段映射关系包括个性字段与标准字段的映射关系。
本发明实施例第三方面公开一种电子设备,包括:存储有可执行程序代码的存储器;与所述存储器耦合的处理器;所述处理器调用所述存储器中存储的所述可执行程序代码,用于执行本发明实施例第一方面公开的对多格式数据文件进行解析翻译的方法。
本发明实施例第四方面公开一种计算机可读存储介质,其存储计算机程序,其中,所述计算机程序使得计算机执行本发明实施例第一方面公开的对多格式数据文件进行解析翻译的方法。
与现有技术相比,本发明实施例具有以下有益效果:
本发明实施例的方案通过内置多种解析包来对输入的不同格式的数据文件进行数据解析,并且预先存储有设定好的字段映射关系来对所有的数据文件按照统一的内容以及格式进行存储。使得本发明实施的方案读取科学数据文件更加的方便快捷,避免不同文件不同读取方式的操作复杂性。由于对不同文件同一属性读取后的字段按照同一字段进行表示,避免同一属性不同字段表示的差异;提升后续数据索引效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例公开的对多格式数据文件进行解析翻译的方法的流程示意图;
图2是本发明实施例公开的对多格式数据文件进行解析翻译的方法的简化示意图;
图3是本发明实施例提供的一种对多格式数据文件进行解析翻译的装置的结构示意图;
图4是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书中的术语“第一”、“第二”、“第三”、“第四”等是用于区别不同的对象,而不是用于描述特定顺序。本发明实施例的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,示例性地,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在计算机技术领域,读取科学数据文件(例如:nc、grb、tiff、h5等格式文件)的工具很少,并且实用性也很差,所以读取解析科学数据文件在平时的工作和生活中很不方便。本申请实施例提供的多格式科学数据文件解析和翻译标准化方法是用编程的方法读取科学数据文件,使得读取科学数据文件的操作更加的便捷、实用。
科学数据文件(例如:nc、grb、tiff、h5等格式文件)的文件结构相差很大,目前市场上没有工具可以同时读取nc、grb、tiff、h5等格式文件,这样读取文件工具的通用性很差。本申请实施例提供的多格式科学数据文件解析和翻译标准化方法可以同时对nc、grb、tiff、h5等格式文件进行读取,避免了不同文件不同读取方式的操作复杂性。
在计算机领域,科学数据文件解析读取后的内容指代不一,比如同一个属性可能不同的科学数据文件表示的字段不一致,这就给工作人员对同一属性的理解上造成了很多的误解。本申请实施例提供的多格式科学数据文件解析和翻译标准化方法对不同文件同一属性读取后的字段表示一致,避免了同一属性不同字段表示的差异。
现有的科学数据文件的文件结构相差很大,目前市场上没有工具可以同时读取多种科学数据格式文件的工具,目前存在的数据读取工具的通用性很差。除此之外,现有的科学数据文件解析读取后的内容会产生指代不一的情况,比如同一个属性可能不同的科学数据文件表示的字段不一致,这就给工作人员对同一属性的理解上造成了很多的误解。基于此,本发明实施例提供的对多格式数据文件进行解析翻译的方法通过内置多种解析包来对输入的不同格式的数据文件进行数据解析,并且预先存储有设定好的字段映射关系来对所有的数据文件按照统一的内容以及格式进行存储。使得本发明实施的方案读取科学数据文件更加的方便快捷,避免不同文件不同读取方式的操作复杂性。由于对不同文件同一属性读取后的字段按照同一字段进行表示,避免同一属性不同字段表示的差异;提升后续数据索引效率。
实施例一
请参阅图1,图1是本发明实施例公开的对多格式数据文件进行解析翻译的方法的流程示意图。该方法适用于具有处理功能的手机、平板电脑等智能设备以及计算机、服务器等计算设备,甚至也可以是具有处理功能的图像采集装置。如图1和图2所示,该基于对多格式数据文件进行解析翻译的方法包括以下步骤:
S101:检测当前的科学数据文件对应的格式信息。
用户需要先将科学数据文件进行信息录入,比如在终端将nc、grb、tiff、h5等格式文件输入;输入之后对其进行数据检测时,用户可以直接通过科学数据文件的后缀判断格式文件的类型,然后判断出其具体的数据类型。判断科学数据文件的格式信息是要是为了便于后续调用相应的解析组件来进行处理,比如,虽然nc文件我们一直在用,不过其实这个数据的具体格式对很多人来说依然是个未知数,就像一个黑匣子一样。究其原因,很大程度上是因为nc文件相比一般的二进制文件、文本文件,包含了除了数据本身之外的维度、属性等信息,如果要读取nc文件,必须得调用专门的函数进行解码、识别。而这一操作是相当麻烦的,不够便利。因此,在本申请实施例中需要先设置格式检测,通过检测文件后缀来识别相应的文件格式。
S102:根据所述格式信息调取相应的解析组件来对所述科学数据文件进行解析以得到数据变量信息。
针对不同格式的数据文件需要调用不同的解析包来进行操作;在本申请实施例中需要将多种不同的解析包组合在一起构建成解析组件,所述解析组件包括netCDF4解析包、xarray解析包和opencv解析包;上述解析包可以解析不同格式的文件。
具体的,所述格式信息包括nc文件格式、grb文件格式、tiff文件格式和h5文件格式中的一种或者多种,所述根据所述格式信息调取相应的解析组件来对所述科学数据文件进行解析翻译以得到数据变量信息,包括:
S102a1:根据nc文件格式调用netCDF4解析包来对科学数据文件进行解析以得到维度内容和变量内容;
S102a2:对所述变量内容进行数据读取以得到各个变量的属性和属性值,将维度信息、属性和属性值存储为数据变量信息。
上述主要是针对于nc文件格式的数据进行数据读取,先用netCDF4的python包读取nc文件,通过读取的内容获取nc文件的维度(dimensions)和变量(variables)内容,然后再通过变量内容读取每个变量的属性和属性值等信息,将读取的信息以json格式存储成索引文件。再从数据库读取个性字段和标准字段表示映射,将索引文件以字符串的形式进行加载,在字符串中匹配映射中的个性字段,然后用映射对应的标准字段替换字符串中的个性字段,再将字符串以进行保存,从而得到标准化的解析索引文件。
S102b1:根据grb文件格式调用xarry解析包来对科学数据文件进行解析以得到纬度内容、局部变量内容和全局变量内容;
S102b2:对将所述局部变量内容进行数据读取以得到各个变量的属性、属性值、数据类型和尺寸信息,将维度内容、各个变量的属性、属性值、数据类型、尺寸信息和全局变量内容存储为数据变量信息。
用xarray的python包读取grb文件,通过读取的内容获取grb文件的维度(dimensions)、局部变量(variables)和全局变量内容,然后再通过局部变量内容读取每个变量的属性、属性值、数据类型、尺寸等信息,将读取的信息以json格式存储成索引文件。S102c1:根据h5文件格式调用netCDF4解析包遍历科学数据文件中的第一层变量,以获取变量的属性、属性值、数据类型和尺寸信息;
S102c2:判断所述第一层变量是否存在下层变量,如果是,则遍历获取下层变量的属性、属性值、数据类型和尺寸信息;
S102c3:将读取到的第一层变量和下层变量存储为数据变量信息。
用netCDF4的python包读取h5文件,通过读取的内容获取h5文件的第一层变量,遍历第一层变量,获取变量的属性、属性值、数据类型、尺寸等信息,查看第一层变量是否有下层变量,如果有的话,遍历获取下层变量的属性、属性值、数据类型、尺寸等信息,以此类推,最后将读取的信息以json格式存储成索引文件。
S102d1:根据tiff文件格式调用opencv解析包来对科学数据文件进行解析以得到对应的数据结构和数据类型;
S102d2:将所述数据结构和数据类型存储为数据变量信息。
用opencv的python包读取tiff文件,通过读取的内容获取tiff文件的结构和数据类型,然后将读取的信息存储成索引文件。也即是采用图像识别的方式来对相应的数据内容进行信息读取编排,使得后续用户读取数据以及查询数据更为的方便。上述即是几种具体的读取相应数据文件的方式,上述提及的索引文件即是数据变量信息。
具体的,如果想要在进行nc文件的读取,不但需要在编译的时候注明netCDF库的路径,同时读取时需要经历这样的步骤:nc文件id获取>变量id获取>变量维数id获取>为变量分配内存空间>读取,这样繁琐的步骤。其中,如果搞错了变量维数、变量数据类型、变量id,就算是一点差错都会导致读取不成功或者读取到错误的结果。nc文件对象a有一个属性叫做variable,顾名思义指代的是文件中的变量信息,而变量信息又有一个属性叫做keys,指代了这些变量的名字。通过调用a.varibles.keys()就可以查看该文件中的变量名了。可以发现hgt1973.nc中包含了5个变量,分别为层次、维度、经度和高度场。如果是在Fortran中,知道了变量名我们还需要去查看变量的维数,才能最终确定需要分配的数组空间。不过Python作为一门动态语言是不需要考虑变量维数这一说的:赋值的同时即内存空间的分配,然后按照预设的格式来对数据进行存储以防止数据读取失败的情况出现。上述仅仅依据nc文件进行具体阐述,并不表明进行具体数据处理,只可以对nc文件进行处理。
S103:根据字段映射关系对所述数据变量信息进行关系映射以得到标准数据信息,所述字段映射关系包括个性字段与标准字段的映射关系。
本步骤提及的字段映射关系及时个性字段与标准字段之间的关系,由于现有的数据文件中很多都会采用字母来表示相应的数据量,比如采用t表示时间,v表示速度等,因此需要对其做相应的映射关系的建立,只有当两者映射关系构建完成之后后续进行翻译比对则更为的快速。
更为优选的,所述字段映射关系通过如下步骤获取得到:
获取多种格式的科学历史数据;
对所述科学历史数据进行聚类操作以得到个性字段和标准字段之间的映射关系。
确定个性字段与标准字段的映射关系可以通过用户的项目经验来确定,也可以通过其他的形式来进行确认,在本实施例中采用聚类的方式进行,通过获取大量的历史数据来进行聚类进而确认个性字段与标准字段之间的关系,比如当出现t与时间的对应关系超过预设次数时,则确认两者存在直接的映射关系。在实际操作过程中,还存在t与温度之间有映射关系的情况,如果其关联关系出现的次数也超过预设次数,则也对其进行存储,也即是在数据库中对两者均进行存储。
由于会出现翻译冲突的情况,可以采用如下方式来进行消除,比如可以先对所有数据均进行翻译,然后得到最终的翻译结果,对出现冲突的词汇进行标注或者着重显示来供用户进行筛选,用户可以选择t与时间的映射关系,也可以选择t与温度之间的映射关系;根据选择之后的内容来进行数据存储。
除了对结果进行操作的方式之外,还可以在进行数据解析前进行数据处理,在所述检测当前的科学数据文件对应的格式信息之前,还包括:
接收用户的信息读取操作,发送冲突词选择框至用户端;
接收用户的选择结果以对字段映射关系进行更新。
也即是在用户对数据文件进行解析翻译前,将所有可能出现冲突的词汇汇聚在一起,将这样的信息表发送至用户端来供用户进行选择,用户选择之后则可以对字段映射关系进行更新,使得在本次解析翻译过程中能够进行快速准确对数据进行翻译。进行冲突词选择提供时,可以直接提供所有冲突词供用户选择,也可以先检测数据文件中具体内容,然后对出现的冲突词进行显示以供用户选择。比如此次数据文件中,只存在t、p、s等存在多种映射关系的内容,则只对上述特定冲突词进行显示,而不是将获取到的所有冲突词进行显示。
更为优选的,在步骤S103之后,还包括:
对所述标准数据信息进行显示;或,
按照预设格式对所述标准数据信息进行数据存储,所述预设格式包括json格式。
上述也即是对得到的标准数据信息进行显示以供用户进行查看或者对数据进行存储,采用json格式主要是为了便于后续进行检索。
更为优选的,在步骤S103之后,还包括:
对所述标准数据信息进行标准化解析以生成解析索引文件,对所述解析索引文件进行信息存储。
也即是对所有的数据按照一定的格式进行信息存储,比如nc文件格式的内容和grb文件格式的内容按照相同的形式来进行信息存储;这样可以对所有的数据存储为相同的格式信息便于后续进行索引。
更为优选的,在步骤S103之后,还包括:
接收用户的发送的信息查询操作,对所述解析索引文件中的数据进行信息调用。
上述构建完标准数据库之后,标准数据库中存储有解析索引文件,用户可以直接查询具体的数据内容,当接收到相应的信息查询操作时,对于信息查询操作相关的数据信息进行调用。
本发明实施例提供一种多格式科学数据文件解析和翻译标准化方法,使得读取科学数据文件的操作更加的便捷、实用,可以同时对nc、grb、tiff、h5等格式文件进行读取,避免不同文件不同读取方式的操作复杂性,对不同文件同一属性读取后的字段表示一致,避免同一属性不同字段表示的差异。
本发明实施例的方案通过内置多种解析包来对输入的不同格式的数据文件进行数据解析,并且预先存储有设定好的字段映射关系来对所有的数据文件按照统一的内容以及格式进行存储。使得本发明实施的方案读取科学数据文件更加的方便快捷,避免不同文件不同读取方式的操作复杂性。由于对不同文件同一属性读取后的字段按照同一字段进行表示,避免同一属性不同字段表示的差异;提升后续数据索引效率。
实施例二
请参阅图3,图3是本发明实施例公开的对多格式数据文件进行解析翻译的装置的结构示意图。如图3所示,该对多格式数据文件进行解析翻译的装置可以包括:
检测模块:用于检测当前的科学数据文件对应的格式信息;
解析模块:用于根据所述格式信息调取相应的解析组件来对所述科学数据文件进行解析以得到数据变量信息;
映射模块:用于根据字段映射关系对所述数据变量信息进行关系映射以得到标准数据信息,所述字段映射关系包括个性字段与标准字段的映射关系。
本发明实施例的方案通过内置多种解析包来对输入的不同格式的数据文件进行数据解析,并且预先存储有设定好的字段映射关系来对所有的数据文件按照统一的内容以及格式进行存储。使得本发明实施的方案读取科学数据文件更加的方便快捷,避免不同文件不同读取方式的操作复杂性。由于对不同文件同一属性读取后的字段按照同一字段进行表示,避免同一属性不同字段表示的差异;提升后续数据索引效率。
实施例三
请参阅图4,图4是本发明实施例公开的一种电子设备的结构示意图。电子设备可以是计算机以及服务器等,当然,在一定情况下,还可以是手机、平板电脑以及监控终端等智能设备,以及具有处理功能的图像采集装置。如图4所示,该电子设备可以包括:
存储有可执行程序代码的存储器510;
与存储器510耦合的处理器520;
其中,处理器520调用存储器510中存储的可执行程序代码,执行实施例一中的对多格式数据文件进行解析翻译的方法中的部分或全部步骤。
本发明实施例公开一种计算机可读存储介质,其存储计算机程序,其中,该计算机程序使得计算机执行实施例一中的对多格式数据文件进行解析翻译的方法中的部分或全部步骤。
本发明实施例还公开一种计算机程序产品,其中,当计算机程序产品在计算机上运行时,使得计算机执行实施例一中的对多格式数据文件进行解析翻译的方法中的部分或全部步骤。
本发明实施例还公开一种应用发布平台,其中,应用发布平台用于发布计算机程序产品,其中,当计算机程序产品在计算机上运行时,使得计算机执行实施例一中的对多格式数据文件进行解析翻译的方法中的部分或全部步骤。
在本发明的各种实施例中,应理解,所述各过程的序号的大小并不意味着执行顺序的必然先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物单元,即可位于一个地方,或者也可以分布到多个网络单元上。可根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。所述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元若以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可获取的存储器中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或者部分,可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干请求用以使得一台计算机设备(可以为个人计算机、服务器或者网络设备等,具体可以是计算机设备中的处理器)执行本发明的各个实施例所述方法的部分或全部步骤。
在本发明所提供的实施例中,应理解,“与A对应的B”表示B与A相关联,根据A可以确定B。但还应理解,根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其他信息确定B。
本领域普通技术人员可以理解所述实施例的各种方法中的部分或全部步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
以上对本发明实施例公开的对多格式数据文件进行解析翻译的方法、装置、电子设备及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种对多格式数据文件进行解析翻译的方法,其特征在于,包括:
检测当前的科学数据文件对应的格式信息;
根据所述格式信息调取相应的解析组件来对所述科学数据文件进行解析以得到数据变量信息;
根据字段映射关系对所述数据变量信息进行关系映射以得到标准数据信息,所述字段映射关系包括个性字段与标准字段的映射关系。
2.如权利要求1所述的对多格式数据文件进行解析翻译的方法,其特征在于,所述格式信息包括nc文件格式、grb文件格式、tiff文件格式和h5文件格式中的一种或者多种,所述解析组件包括netCDF4解析包、xarray解析包和opencv解析包;所述根据所述格式信息调取相应的解析组件来对所述科学数据文件进行解析翻译以得到数据变量信息,包括:
根据nc文件格式调用netCDF4解析包来对科学数据文件进行解析以得到维度内容和变量内容;
对所述变量内容进行数据读取以得到各个变量的属性和属性值,将维度信息、属性和属性值存储为数据变量信息;或者,
根据grb文件格式调用xarry解析包来对科学数据文件进行解析以得到纬度内容、局部变量内容和全局变量内容;
对将所述局部变量内容进行数据读取以得到各个变量的属性、属性值、数据类型和尺寸信息,将维度内容、各个变量的属性、属性值、数据类型、尺寸信息和全局变量内容存储为数据变量信息;或者,
根据h5文件格式调用netCDF4解析包遍历科学数据文件中的第一层变量,以获取变量的属性、属性值、数据类型和尺寸信息;
判断所述第一层变量是否存在下层变量,如果是,则遍历获取下层变量的属性、属性值、数据类型和尺寸信息;
将读取到的第一层变量和下层变量存储为数据变量信息;或者,
根据tiff文件格式调用opencv解析包来对科学数据文件进行解析以得到对应的数据结构和数据类型;
将所述数据结构和数据类型存储为数据变量信息。
3.如权利要求1所述的对多格式数据文件进行解析翻译的方法,其特征在于,所述字段映射关系通过如下步骤获取得到:
获取多种格式的科学历史数据;
对所述科学历史数据进行聚类操作以得到个性字段和标准字段之间的映射关系。
4.如权利要求1-3中任意一项所述的对多格式数据文件进行解析翻译的方法,其特征在于,在所述根据字段映射关系对所述数据变量信息进行关系映射以得到标准数据信息之后,还包括:
对所述标准数据信息进行显示;或,
按照预设格式对所述标准数据信息进行数据存储,所述预设格式包括json格式。
5.如权利要求1-3中任意一项所述的对多格式数据文件进行解析翻译的方法,其特征在于,在所述根据字段映射关系对所述数据变量信息进行关系映射以得到标准数据信息之后,还包括:
对所述标准数据信息进行标准化解析以生成解析索引文件,对所述解析索引文件进行信息存储。
6.如权利要求5所述的对多格式数据文件进行解析翻译的方法,其特征在于,在所述对所述标准数据信息进行标准化解析以生成解析索引文件之后,还包括:
接收用户的发送的信息查询操作,对所述解析索引文件中的数据进行信息调用。
7.如权利要求1-3中任意一项所述的对多格式数据文件进行解析翻译的方法,其特征在于,所述数据变量信息的数据格式包括字符串;在所述检测当前的科学数据文件对应的格式信息之前,还包括:
接收用户的信息读取操作,发送冲突词选择框至用户端;
接收用户的选择结果以对字段映射关系进行更新。
8.一种对多格式数据文件进行解析翻译的装置,其特征在于,包括:
检测模块:用于检测当前的科学数据文件对应的格式信息;
解析模块:用于根据所述格式信息调取相应的解析组件来对所述科学数据文件进行解析以得到数据变量信息;
映射模块:用于根据字段映射关系对所述数据变量信息进行关系映射以得到标准数据信息,所述字段映射关系包括个性字段与标准字段的映射关系。
9.一种电子设备,其特征在于,包括:存储有可执行程序代码的存储器;与所述存储器耦合的处理器;所述处理器调用所述存储器中存储的所述可执行程序代码,用于执行权利要求1至7任一项所述的对多格式数据文件进行解析翻译的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机程序,其中,所述计算机程序使得计算机执行权利要求1至7任一项所述的对多格式数据文件进行解析翻译的方法。
CN202011261021.0A 2020-11-12 2020-11-12 一种对多格式数据文件进行解析翻译的方法及装置 Pending CN112364206A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011261021.0A CN112364206A (zh) 2020-11-12 2020-11-12 一种对多格式数据文件进行解析翻译的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011261021.0A CN112364206A (zh) 2020-11-12 2020-11-12 一种对多格式数据文件进行解析翻译的方法及装置

Publications (1)

Publication Number Publication Date
CN112364206A true CN112364206A (zh) 2021-02-12

Family

ID=74515384

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011261021.0A Pending CN112364206A (zh) 2020-11-12 2020-11-12 一种对多格式数据文件进行解析翻译的方法及装置

Country Status (1)

Country Link
CN (1) CN112364206A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113066174A (zh) * 2021-04-27 2021-07-02 深圳市商汤科技有限公司 点云数据处理方法、装置、计算机设备及存储介质
CN113343635A (zh) * 2021-05-31 2021-09-03 中国工商银行股份有限公司 一种主机数据交换处理方法、装置、设备及存储介质
CN113535842A (zh) * 2021-09-13 2021-10-22 深圳世纪网通数据有限公司 兼容性数据导入的线索分析方法、系统及可读存储介质
CN113742407A (zh) * 2021-08-31 2021-12-03 浙江惠瀜网络科技有限公司 数据转换方法及装置
CN114186873A (zh) * 2021-12-14 2022-03-15 平安银行股份有限公司 加工变量验证方法、装置及相关设备
CN114416104A (zh) * 2022-03-30 2022-04-29 清华大学 一种结构化数据文件处理方法及装置
CN114942781A (zh) * 2022-05-17 2022-08-26 电信科学技术第十研究所有限公司 一种用于数据读取的数据格式适配方法及装置
CN117648289A (zh) * 2024-01-22 2024-03-05 北京梦天门科技股份有限公司 一种县域医共体多类型数据的统一整合的方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030182623A1 (en) * 2002-03-21 2003-09-25 International Business Machines Corporation Standards-based formatting of flat files into markup language representations
US20050273573A1 (en) * 2004-05-06 2005-12-08 Peiya Liu System and method for GUI supported specifications for automating form field extraction with database mapping
US20090063555A1 (en) * 2007-04-27 2009-03-05 Microsoft Corporation File formats for external specification of object-relational mapping
CN103177045A (zh) * 2011-12-26 2013-06-26 中国移动通信集团广东有限公司 文本解析方法及装置
CN103984773A (zh) * 2014-06-05 2014-08-13 南京信息工程大学 一种多格式天气雷达基数据文件转NetCDF文件方法
CN107784049A (zh) * 2016-12-05 2018-03-09 上海壹账通金融科技有限公司 多格式文件解析的方法和装置
CN110781193A (zh) * 2019-11-01 2020-02-11 泰康保险集团股份有限公司 医疗数据处理方法、装置、设备及存储介质
CN110928849A (zh) * 2019-11-27 2020-03-27 上海眼控科技股份有限公司 气象数据的预处理方法、装置、计算机设备和存储介质
CN111339041A (zh) * 2020-03-10 2020-06-26 中国建设银行股份有限公司 文件解析入库、文件生成方法及装置
CN111352907A (zh) * 2020-03-30 2020-06-30 见知数据科技(上海)有限公司 流水文件解析方法、装置、计算机设备和存储介质
CN111367988A (zh) * 2020-03-31 2020-07-03 中国建设银行股份有限公司 数据导入方法及装置
CN111858472A (zh) * 2020-08-03 2020-10-30 平安国际智慧城市科技股份有限公司 文件格式转换方法、装置、计算机设备及存储介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030182623A1 (en) * 2002-03-21 2003-09-25 International Business Machines Corporation Standards-based formatting of flat files into markup language representations
US20050273573A1 (en) * 2004-05-06 2005-12-08 Peiya Liu System and method for GUI supported specifications for automating form field extraction with database mapping
US20090063555A1 (en) * 2007-04-27 2009-03-05 Microsoft Corporation File formats for external specification of object-relational mapping
CN103177045A (zh) * 2011-12-26 2013-06-26 中国移动通信集团广东有限公司 文本解析方法及装置
CN103984773A (zh) * 2014-06-05 2014-08-13 南京信息工程大学 一种多格式天气雷达基数据文件转NetCDF文件方法
CN107784049A (zh) * 2016-12-05 2018-03-09 上海壹账通金融科技有限公司 多格式文件解析的方法和装置
CN110781193A (zh) * 2019-11-01 2020-02-11 泰康保险集团股份有限公司 医疗数据处理方法、装置、设备及存储介质
CN110928849A (zh) * 2019-11-27 2020-03-27 上海眼控科技股份有限公司 气象数据的预处理方法、装置、计算机设备和存储介质
CN111339041A (zh) * 2020-03-10 2020-06-26 中国建设银行股份有限公司 文件解析入库、文件生成方法及装置
CN111352907A (zh) * 2020-03-30 2020-06-30 见知数据科技(上海)有限公司 流水文件解析方法、装置、计算机设备和存储介质
CN111367988A (zh) * 2020-03-31 2020-07-03 中国建设银行股份有限公司 数据导入方法及装置
CN111858472A (zh) * 2020-08-03 2020-10-30 平安国际智慧城市科技股份有限公司 文件格式转换方法、装置、计算机设备及存储介质

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113066174A (zh) * 2021-04-27 2021-07-02 深圳市商汤科技有限公司 点云数据处理方法、装置、计算机设备及存储介质
CN113343635A (zh) * 2021-05-31 2021-09-03 中国工商银行股份有限公司 一种主机数据交换处理方法、装置、设备及存储介质
CN113742407A (zh) * 2021-08-31 2021-12-03 浙江惠瀜网络科技有限公司 数据转换方法及装置
CN113742407B (zh) * 2021-08-31 2024-04-30 浙江惠瀜网络科技有限公司 数据转换方法及装置
CN113535842A (zh) * 2021-09-13 2021-10-22 深圳世纪网通数据有限公司 兼容性数据导入的线索分析方法、系统及可读存储介质
CN114186873A (zh) * 2021-12-14 2022-03-15 平安银行股份有限公司 加工变量验证方法、装置及相关设备
CN114186873B (zh) * 2021-12-14 2024-05-17 平安银行股份有限公司 加工变量验证方法、装置及相关设备
CN114416104A (zh) * 2022-03-30 2022-04-29 清华大学 一种结构化数据文件处理方法及装置
CN114416104B (zh) * 2022-03-30 2022-08-09 清华大学 一种结构化数据文件处理方法及装置
CN114942781A (zh) * 2022-05-17 2022-08-26 电信科学技术第十研究所有限公司 一种用于数据读取的数据格式适配方法及装置
CN117648289A (zh) * 2024-01-22 2024-03-05 北京梦天门科技股份有限公司 一种县域医共体多类型数据的统一整合的方法

Similar Documents

Publication Publication Date Title
CN112364206A (zh) 一种对多格式数据文件进行解析翻译的方法及装置
CN115236260B (zh) 一种色谱数据储存方法、装置、电子设备及存储介质
CN111176996A (zh) 测试用例生成方法、装置、计算机设备及存储介质
CN109308254B (zh) 一种测试方法、装置及测试设备
CN109241384B (zh) 一种科研信息的可视化方法及装置
CN113627168B (zh) 一种元器件封装冲突的检查方法、装置、介质及设备
CN109189395B (zh) 一种数据解析方法及装置
CN112463800A (zh) 数据读取方法、装置、服务器及存储介质
CN114238381A (zh) 数据质量校验方法、设备及计算机可读存储介质
CN110489032B (zh) 用于电子书的词典查询方法及电子设备
CN113626558B (zh) 一种基于智能推荐的字段标准化的方法和系统
CN111881183A (zh) 企业名称匹配方法和装置、以及存储介质和电子设备
CN115438740A (zh) 一种多源数据的汇聚融合方法和系统
CN112115063A (zh) 一种软件本地化测试方法、装置、终端及存储介质
US20160162496A1 (en) Computer implemented system and method for investigative data analytics
CN107632986B (zh) 搜索方法及装置
CN117271478A (zh) 数据迁移方法、装置、存储介质以及电子设备
CN113821496B (zh) 数据库迁移方法、系统、设备及计算机可读存储介质
CN115221874A (zh) 倒排索引的构建方法、名单筛查方法、装置、电子设备
CN111722881A (zh) 一种容器云平台的资源扩展方法、系统及装置
CN112650559B (zh) 数据处理方法、装置、计算机可读存储介质及电子设备
CN115052035B (zh) 消息推送方法、设备及存储介质
US11327748B2 (en) Software cooperation possibility determination apparatus and software cooperation possibility determination method
CN113468125B (zh) 一种文件服务方法、系统、设备及计算机可读存储介质
CN117112654A (zh) 城市数据展示方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination