CN117555867A - 针对大科学装置的科学实验数据管理方法、装置和系统 - Google Patents

针对大科学装置的科学实验数据管理方法、装置和系统 Download PDF

Info

Publication number
CN117555867A
CN117555867A CN202311408184.0A CN202311408184A CN117555867A CN 117555867 A CN117555867 A CN 117555867A CN 202311408184 A CN202311408184 A CN 202311408184A CN 117555867 A CN117555867 A CN 117555867A
Authority
CN
China
Prior art keywords
data
stored
storage
scientific
scientific experiment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311408184.0A
Other languages
English (en)
Inventor
周子豪
魏一雄
高超霖
丁洁瑶
李大松
程达
王硕
周娜
唐枫
陈卓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202311408184.0A priority Critical patent/CN117555867A/zh
Publication of CN117555867A publication Critical patent/CN117555867A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/172Caching, prefetching or hoarding of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/178Techniques for file synchronisation in file systems
    • G06F16/1794Details of file format conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种针对大科学装置的科学实验数据管理方法、装置和系统。所述方法包括:获取待存储目标数据;基于预设的数据类型将待存储目标数据进行分割,得到与科学实验一一对应的至少一种待存储实验数据,并将所有待存储实验数据存储至预设的私有存储系统中;获取对应于待存储目标数据的存储指令,基于存储指令从待存储实验数据中确定公有文件,并将公有文件基于私有存储系统上传到预设的公有存储系统中,得到对应于待存储目标数据的存储结果。采用本方法能够提高科学装置相关的数据存储效率,并提高针对实验数据的管理效率。

Description

针对大科学装置的科学实验数据管理方法、装置和系统
技术领域
本申请涉及软件技术领域,特别是涉及一种针对大科学装置的科学实验数据管理方法、装置和系统。
背景技术
随着我国对于科技创新的投入,以北京正负电子对撞机、核聚变托克马克装置EAST和HL-2M、郭守敬望远镜LAMOST等为代表的一批大科学装置得到了快速发展,科学数据采集能力也在持续提升。大科学装置产生的科学数据资源是科研活动的重要成果,往往具有大规模、异构、产生速度快、领域专业性强等特点。
在实际应用中,大科学装置中包含或产生的数据,除物理装置自身的固定配置数据外,还包括运行状态采集数据,构建的模型数据及其参数,实验记录以及实验输出结果等数据,产生的数据种类繁多且规模庞大,现有技术中对于相关数据的采集、存储、共享等行为通常会存在步骤冗余、数据存储混乱等问题。
目前,针对大科学装置相关的数据存储管理效率低下的问题,尚未提出有效的解决方案。
发明内容
基于此,有必要针对上述技术问题,提供一种针对大科学装置的科学实验数据管理方法、装置和系统。
第一方面,本申请提供了一种针对大科学装置的科学实验数据管理方法。
所述方法包括:
获取待存储目标数据;
从待存储目标数据中确认与科学实验对应的待存储实验数据,并对待存储实验数据进行整合处理,得到待存储实验文件,并将待存储实验文件存储至预设的私有系统中;
获取对应于待存储目标数据的存储指令,基于存储指令从待存储实验文件中确定公有文件,并将公有文件基于私有存储系统上传到预设的公有存储系统中,得到对应于待存储目标数据的存储结果。
在其中一个实施例中,上述方法还包括:
建立数据信息表;其中,数据信息表中包括至少一种数据信息描述;
根据待存储目标数据,生成待存储科学实验数据;
基于待存储科学实验数据以及存储结果,确定对应于数据信息描述的科学实验数据信息,将所有科学实验数据信息保存至预设的数据信息存储系统中,其中,所述科学实验数据信息用于指示对应于所述数据信息描述的标准含义。
在其中一个实施例中,上述方法还包括:
基于科学实验数据信息确定高频访问数据,并将高频访问数据存储至预设的高频数据库中。
在其中一个实施例中,科学实验数据信息包括绝对数据信息以及非绝对数据信息;基于待存储科学实验数据以及存储结果,确定对应于数据信息描述的科学实验数据信息,包括:
确定存储结果中的绝对存储结果,并基于绝对存储结果得到绝对数据信息;
确定存储结果中的至少两个初始非绝对存储结果,基于所有初始非绝对存储结果之间的相似度对非绝对存储结果进行划分,得到至少一种非绝对存储结果,基于所有非绝对存储结果得到对应的非绝对存储表达式;
基于非绝对存储表达式得到非绝对数据信息。
在其中一个实施例中,非绝对存储结果包括非绝对存储路径,基于所有非绝对存储结果得到对应的非绝对存储表达式,包括:
基于所有非绝对存储路径之间的相似结果,确定针对非绝对存储路径的路径表达式,其中,非绝对存储表达式包括路径表达式。
在其中一个实施例中,将所有科学实验数据信息保存至预设的数据信息存储系统中之后,包括:
获取下一批待存储目标数据;
遍历科学实验数据信息中的科学实验数据名称,基于科学实验数据名称在下一批待存储目标数据中确定新增数据;
基于新增数据更新科学实验数据信息。
在其中一个实施例中,对待存储实验数据进行整合处理,得到待存储实验文件,包括:
获取预设的存储格式;
基于存储格式对待存储实验数据进行格式转换,得到与科学实验对应的待存储实验文件。
第二方面,本申请还提供了一种针对大科学装置的科学实验数据管理装置。所述装置包括:
获取模块,用于获取待存储目标数据;
计算模块,用于从待存储目标数据中确认与科学实验对应的待存储实验数据,并对待存储实验数据进行整合处理,得到待存储实验文件,并将待存储实验文件存储至预设的私有系统中;
生成模块,用于获取对应于待存储目标数据的存储指令,基于存储指令从待存储实验文件中确定公有文件,并将公有文件基于私有存储系统上传到预设的公有存储系统中,得到对应于待存储目标数据的存储结果。
第三方面,本申请还提供了一种针对大科学装置的科学实验数据管理系统,该系统包括数据采集设备,以及针对大科学装置的科学实验数据管理装置;其中,数据采集设备,用于将待存储目标数据发送至针对大科学装置的科学实验数据管理装置;
科学实验数据管理装置,用于基于待存储目标数据执行如上述任一项针对大科学装置的科学实验数据管理方法。
第四方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待存储目标数据;
从待存储目标数据中确认与科学实验对应的待存储实验数据,并对待存储实验数据进行整合处理,得到待存储实验文件,并将待存储实验文件存储至预设的私有系统中;
获取对应于待存储目标数据的存储指令,基于存储指令从待存储实验文件中确定公有文件,并将公有文件基于私有存储系统上传到预设的公有存储系统中,得到对应于待存储目标数据的存储结果。
上述针对大科学装置的科学实验数据管理方法、装置和系统,首先获取对应于科学实验的待存储目标数据,而后从待存储目标数据中确定与科学实验对应的待存储实验数据,该待存储实验数据为与科学实验强相关的数据,对该待存储实验数据进行整合处理,得到待存储实验文件,并将该待存储实验文件存储至私有系统中,最后,获取存储指令,根据存储指令在待存储实验数据中确定公有文件,并将公有文件基于私有存储系统上传到预设的公有存储系统中,得到存储结果。通过上述方法,一方面,考虑到科学实验数据通常具有异构、大规模、产生速度快、领域专业性强等特点,对于获取到的待存储目标数据中的待存储实验数据进行整合,得到与科学实验对应的多个待存储实验文件,有助于提高存储效率,以及便于后续对实验数据进行访问;另一方面,本申请提供从私有存储系统上传到公有存储系统的方法,在保证了数据安全性的同时也提高了数据的访问效率,使科学实验数据资源价值得到有效、充分的利用。
附图说明
图1为一个实施例中科学实验数据管理方法的应用环境图;
图2为一个实施例中科学实验数据管理方法的流程示意图;
图3为一个优选实施例中科学实验数据的存储步骤的流程示意图;
图4为另一个实施例中数据采集及上传的流程示意图;
图5为一个实施例中科学实验数据管理装置的结构框图;
图6为一个实施例中科学实验数据管理系统的结构框图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的科学实验数据管理方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。从获取到的待存储目标数据中确定与科学实验对应的待存储实验数据,并将待存储实验数据进行整合处理,得到待存储实验文件,而后基于存储指令从待存储实验文件中确定公有文件,并将公有文件基于私有存储系统上传到公有存储系统中,得到存储结果。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种针对大科学装置的科学实验数据管理方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤S202,获取待存储目标数据。
其中,需要说明的是,该待存储目标数据为与科学实验相关的所有数据,如装置本身相关的数据以及科学实验相关的数据等等,如实验数据、外围辅助系统产生的数据以及装置本身的规格、世界坐标等参数数据,进一步地,以将上述方法应用在大科学装置上为例,该待存储目标数据为与该装置对应的数字孪生数据。
步骤S204,从待存储目标数据中确认与科学实验对应的待存储实验数据,并对待存储实验数据进行整合处理,得到待存储实验文件,并将待存储实验文件存储至预设的私有系统中。
其中,从待存储目标数据中确定待存储实验数据,该待存储实验数据为与科学实验强相关的数据,如基于大科学装置内部子系统采集的到的实验数据,以及大科学装置外围辅助系统采集到的数据等,其中,针对大科学装置内部子系统数据的采集,可以通过工业物联网的模式进行采集,即对于各子系统需要的相关数据,使用遥感信息传感器、电流传感器、光电传感器等高精度工业传感器进行采集。测量子系统提供信号接口连接数据采集卡,数据采集卡根据需要进行数据收集,并传输给上位机,即测量子系统服务器进行数据预处理、数据整合等操作后将数据上传至数据存储集群;大科学装置外围辅助系统,如供电系统、冷却系统等,其本身具有一定的信息处理能力,从而针对辅助系统数据的采集可以通过与系统服务器直连等方式,将每次实验的控制数据或其他相关系统输入数据上传至数据存储集群。而除上述待存储实验数据之外,待存储目标数据中还包括并非与科学实验强相关的数据,如大科学装置本身的规格参数等待保存参数数据,将该待保存参数数据直接保存至上述私有系统中,而将待存储实验数据进行整合处理,得到待存储实验文件;其中进一步地,上述整合处理操作包括但不限于,将该待存储实验数据中不同类别的数据进行统一存储处理、或将待存储实验数据进行格式转换等。
步骤S206,获取对应于待存储目标数据的存储指令,基于存储指令从所述待存储实验文件中确定公有文件,并将公有文件基于私有存储系统上传到预设的公有存储系统中,得到对应于待存储目标数据的存储结果。
其中,该存储指令可以由相关技术人员输入,用于在待存储实验数据中确定哪些数据可以公开,哪些数据不能公开,进一步地,相关技术人员也可在数据保存至私有存储系统之前就对数据的访问权限进行设定,若数据为全量开放,则数据在存储至私有存储系统时自动通过私有存储系统和公有存储系统之间的单向网关向公有存储系统上传数据,若数据为部分开放,则基于技术人员输入的存储指令确定公有文件,优选的,在公有文件上传至公有存储系统之前,需要由管理员进行确认,确认通过后,才可以上传至公有存储系统。进一步地,针对待存储目标数据中的私有文件则在私有存储系统中进行存储。
通过步骤S202至步骤S206,对待存储目标数据中的待存储实验数据进行整合并保存,有助于对数据的逻辑整合和高效访问,也便于对数据进行维护;进一步地,本申请中基于存储指令确定公有文件,并上传至公有存储系统,可以有效保证数据的完整性以及有效性,提高数据的访问效率,也使得科学实验的数据资源价值得到有效、充分的利用。
在其中一个实施例中,上述方法还包括:
建立数据信息表;其中,所述数据信息表中包括至少一种数据信息描述;
根据待存储目标数据,生成待存储科学实验数据;
基于待存储科学实验数据以及存储结果,确定对应于数据信息描述的科学实验数据信息,将所有科学实验数据信息保存至预设的数据信息存储系统中,其中,所述科学实验数据信息用于指示对应于所述数据信息描述的标准含义。
具体地,上述数据信息表用于记录所有的数据对应的描述以及相关信息,即上述数据信息描述,该数据信息描述至少包括:数据名称、数据种类、数据创建时间、数据存储类型、数据保密级别、数据存储位置、数据描述、数据访问频繁程度等,该数据信息描述用于指示获取到的待存储目标数据中的数据类型。先由技术人员确定所需的数据信息表,而后录入上述待存储科学实验数据,而在数据录入时,会出现有部分数据信息描述暂时缺失的情况,如数据存储位置、数据存储类型等(因为此时数据还没有真正保存完成),将部分信息暂时空缺,在对数据处理完成后,得到存储结果,该存储结果中即包括上述数据存储位置、数据存储类型等信息,则进一步根据存储结果对数据信息表进行完善,得到上述科学实验数据信息并进行保存,优选的,包括但不限于可以保存至PostgreSQL数据库的数据表中;其中,上述待存储科学实验数据为针对于待存储目标数据的解释说明,可以理解为待存储目标数据的元数据信息。上述科学实验数据信息为基于待存储科学实验数据以及存储结果得到的与数据信息表中的数据信息描述一一对应的数据信息,该科学实验数据信息不仅用于解释说明待存储目标数据,也用于指示数据的存储结果等。进一步地,在一个实施例中,也可以为在相关技术人员完成数据信息表的建立后,根据实验已知的信息得到上述科学实验数据信息,来对数据信息表中的部分内容进行填写,而后再进行科学实验得到待存储目标数据,并基于上述实施例中的技术步骤完成对于待存储目标数据的保存,而后根据实验数据以及存储结果对该数据信息表进行补充。综上,科学实验的数据信息表的填写与基于科学实验得到的待存储目标数据是否存储完成,并无直接的关联性,本领域技术人员可根据实际情况完成对于数据信息表的填写。通过上述方法,可以使数据管理者对于当前存放的数据类别、权限以及状态信息有清晰认知,以便于规范并优化数据的管理工作,对于用户而言,由于科学实验涉及的数据种类繁多,较为复杂并且专业性强,而科学实验数据信息可以提供对于某条数据的语义和结构的一致性解读,并且有助于提高数据的共享性,进一步地,用户可以在门户中访问科学实验数据信息中的部分信息,以筛选对自己的需求有价值的数据,并明确数据的获取路径。
在其中一个实施例中,上述方法还包括:
基于科学实验数据信息确定高频访问数据,并将高频访问数据存储至预设的高频数据库中。
具体地,可以由相关技术人员直接在获取到的数据中指定高频访问数据,并单独存入高频数据库中,也可以在上述科学实验数据信息中指定某些数据为高频访问数据,在指定完成后,当实验数据录入时,高频访问数据便可自动同步至上述高频数据库中。优选的,该高频数据库可以为PostgreSQL数据库。通过上述方法,可以方便用户的检索和筛选下载需求,在需要获取高频访问数据时无需读取整个数据文件,进一步提高效率。
在其中一个实施例中,科学实验数据信息包括绝对数据信息以及非绝对数据信息;基于待存储科学实验数据以及存储结果,确定对应于数据信息描述的科学实验数据信息,包括:
确定存储结果中的绝对存储结果,并基于绝对存储结果得到绝对数据信息;
确定存储结果中的至少两个初始非绝对存储结果,基于所有初始非绝对存储结果之间的相似度对非绝对存储结果进行划分,得到至少一种非绝对存储结果,基于所有非绝对存储结果得到对应的非绝对存储表达式;
基于非绝对存储表达式得到非绝对数据信息。
具体地,上述绝对存储结果为,数据在完成存储后得到的一个确定的结果,如对应于某个数据的确定且唯一的存储位置、如对应于某个数据的在某个时间段中的访问频率等,基于该存储结果可以得到与该数据一一对应的绝对数据信息,其中,绝对数据信息即为根据绝对存储结果得到的且符合科学实验数据信息格式的。进一步地,上述非绝对存储结果即为一个或多个数据在完成存储后得到的一个或多个不能唯一确定的结果,如多个相似数据存储在相近的位置,则对应于该所有相似数据即可得到一个或多个不能确定唯一存储位置的、具有概括性的存储位置,即为上述非绝对存储结果,非绝对存储表达式即为根据该非绝对存储结果得到的且符合科学实验数据信息格式的表达式,该表达式可以为表示多个相似数据存储结果的相对表达式。可以理解的是,非绝对存储结果为针对多个数据之间的相对存储结果,即在实际应用中,该多个数据应为相似的数据,因此在获取到大量实验数据后,可根据实验数据之间的相似程度对大批量数据进行划分,得到多种非绝对存储结果。
通过上述方法,将存储结果划分为绝对存储结果以及非绝对存储结果,可以使得用户在存储大批量数据时更加灵活,根据实际需要选择所需的存储方法,进而也可以保证在后续对数据访问时更加便捷。
在其中一个实施例中,非绝对存储结果包括非绝对存储路径,基于所有非绝对存储结果得到对应的非绝对存储表达式,包括:
基于所有非绝对存储路径之间的相似结果,确定针对非绝对存储路径的路径表达式,其中,非绝对存储表达式包括路径表达式。
具体地,在实际应用中,科学实验会产生大量的实验数据,从而在存储实验数据时便会得到多个存储位置,即上述非绝对存储路径,如存储在SQL表中,则提供多个SQL服务URL及对应的数据库名和表名。此时可以根据数据的管理目录存储,数据存放路径的正则表达式,以提供数据存放位置的部分信息,上述路径表达式则用来反映数据存放位置的科学路径数据信息。上述方法可以使得查找数据位置更为便捷,以便于提供更高效的数据检索与筛选下载,需要说明的是,在用户进行数据查找访问时,需要预先检测该用户的访问权限,来审核该用户是否有权限对对应的数据进行查询。
在其中一个实施例中,上述方法还包括:
获取下一批待存储目标数据;
遍历科学实验数据信息中的科学实验数据名称,基于科学实验数据名称在下一批待存储科学实验数据中确定新增数据;
基于新增数据更新科学实验数据信息。
具体地,当获取到下一批待存储科学实验数据时,或相关技术人员在系统中录入数据时,首先需要根据科学实验数据信息判断是否为新数据,其中具体的,为了使得确定新数据的方法更高效,也可以只基于数据名或数据ID等科学实验数据名称判断是否为新数据,该科学实验数据名称为数据的唯一标识信息。若是新数据,则在上述科学实验数据信息添加该数据的记录信息,若存在尚未确定的数据信息,如存储位置等可以暂时空缺。若不是新数据,则还是基于上述实施例中的存储方法对数据进行存储处理。通过上述方法可以提高数据管理的效率,使得科学实验的数据资源得到充分利用。
在其中一个实施例中,上述方法还包括:
获取预设的存储格式;
基于所述存储格式对所述待存储实验数据进行格式转换,得到与所述科学实验对应的待存储实验文件。
具体地,获取针对于待存储实验数据的预设的存储格式,该存储格式可以为HDF5(Hierarchical Data Format)、NetCDF(network Common Data Form)等,以转换为HDF5文件进行存储为例,HDF5文件通常由Group、Dataset和Attribute三种组织单元构成,具有自描述、部分I/O、透明压缩、多路径链接等功能特性,有利于数据的逻辑整合和高效访问,对于重要数据或高频使用的科学数据,建立对应的数据库表在PostgreSQL数据库中进行存储,以便于提供高效的数据检索与筛选下载。本申请中,在建立好对应的存储格式和数据模型,如上述HDF5存储格式后,在脚本中调用HDF5提供的API,实验或者模拟时会自动执行脚本将产生的数据存入HDF5指定的位置,从而完成上述格式转换,得到待存储实验文件。通过上述方法,可以基于对应的存储格式和数据模型对数据进行转换,进一步节省数据的存储空间,并提升数据的访问效率。
本实施例还提供了一种针对科学实验数据的存储方法的具体实施例,如图3所示,图3是一个优选实施例中针对科学实验数据的存储方法的流程示意图。
首先,在实际应用中考虑到进行科学实验的科学实验装置系统结构复杂,子系统及辅助系统较多的特点,装置内部子系统的数据收集可通过添加统一的测量子系统来收集需要的数据,对于装置外围的辅助系统(如供电系统等)通过系统之间的数据传输来收集运行数据,保证数据采集的完整性和有效性,通过该方法收集到上述待存储目标数据。其中具体的,对于实验装置内部的子系统,可以设计并建立一个测量子系统,用于采集实验装置中所有子系统涉及的相关数据;进一步地,采用工业物联网的模式,对于各子系统需要的相关数据,使用遥感信息传感器、电流传感器、光电传感器等高精度工业传感器进行采集;而后,测量子系统提供信号接口连接数据采集卡,数据采集卡根据需要进行数据收集,并传输给上位机,即测量子系统服务器进行数据预处理、数据整合等操作后将数据上传至数据存储集群;进一步地,对于实验装置外的外围辅助系统,其本身具有信息处理能力,可通过与系统服务器直连等方式,将每次实验的控制数据或其他相关系统输入数据上传至数据存储集群,如图4为一个实施例中数据采集以及上传的流程示意图。
而后,在PostgreSQL中建立统一的数据信息表,并对上述所有数据,即基于待存储目标数据得到的待存储科学实验数据,如装置自身参数、结构模型、算法模型、实验记录、实验结果数据等,基于该待存储科学实验数据补充该表,得到科学实验数据信息,该科学实验数据信息用于维护各类数据的访问权限级别、创建日期、存储位置、存储格式、数据描述等,当数据信息发生变动时需同步在待存储科学实验数据中进行更新,从而可以优化对数字孪生相关数据的管理效率,增强数据的可维护性。需要说明的是,上述数据信息表的建立与科学实验的进行并无明确的先后关系,优选的,在实际应用中可以先建立完成数据信息表,并在数据信息表中填写部分已知的科学实验数据信息,如实验进行日期,实验装置规格等,而后再开始进行实验,得到与上述待存储目标数据。
其次,考虑到待存储目标数据具有异构、大规模、产生速度快、领域专业性强等特点,对于全量科学数据文件的存储,提供统一从原始格式转换为预设的存储格式的方案,优选的,该预设的存储格式可以设置为HDF5格式。HDF5格式的数据提供透明压缩和多路径链接特性可节约数据的存储空间,同时部分I/O及自描述特性能够提高访问效率。进一步地,对于部分使用频繁的重点数据,建立对应的PostgreSQL数据库进行存储,可提高数据的检索效率和筛选下载效率。
最后,本申请提供对数据统一透明访问的门户,对于上述数据可以考虑使用Mysql进行持久化存储,并使用Redis对高频数据进行缓存,以提高Web门户响应速度。进一步地,搭建私有云以及公有云,将数据及算法模型等文件使用分布式对象存储系统MINIO进行存储,实现对于非结构化文件对象的快速获取,上传和更新,以实现保护文件对象的安全性。其中具体的,本申请中建立数据的私有存储系统以及公有存储系统,对于可进行开放共享的数据以文件对象的形式存储公有存储系统,并在门户平台上暴露对应的访问和下载链接,管理人员可在统一门户上提供数据访问权限的修改入口,建立数据权限修改的各级人员审批机制,对于可以对外开放的数据,也可进一步将权限分为部分开放或全量开放,对于可全量开放的数据,可以从私有存储系统向公有存储系统进行复制,并提供公有存储系统上统一下载的URL,对于部分开放的数据,需要人工输入开放的实验编号或是其他数据范围信息,在私有存储系统中进行过滤后把过滤结果推送至公有云。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的针对科学实验数据的存储方法的针对科学实验数据的存储装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个针对科学实验数据的存储装置实施例中的具体限定可以参见上文中对于针对科学实验数据的存储方法的限定,在此不再赘述。
在一个实施例中,如图5所示,提供了一种针对科学实验数据的存储装置,包括:获取模块51、计算模块52和生成模块53,其中:
获取模块51,用于获取待存储目标数据;
计算模块52,用于从待存储目标数据中确认与科学实验对应的待存储实验数据,并对待存储实验数据进行整合处理,得到待存储实验文件,并将待存储实验文件存储至预设的私有系统中;
生成模块53,用于获取对应于待存储目标数据的存储指令,基于存储指令从待存储实验文件中确定公有文件,并将公有文件基于私有存储系统上传到预设的公有存储系统中,得到对应于待存储目标数据的存储结果。
具体地,获取模块51获取到大批量的与科学实验相关的待存储目标数据,该待存储目标数据为与科学实验相关的所有数据,而后将待存储目标数据发送至计算模块52,计算模块52从待存储目标数据中确认与科学实验对应的待存储实验数据,并对该待存储实验数据进行整合处理,得到待存储实验文件,并进一步将待存储实验文件存储至预设的私有系统中;在计算模块52存储完成后,生成模块53根据获取到的存储指令,在待存储实验文件中确定公有文件,并将公有文件上传到预设的公有存储系统中,得到存储结果。
通过上述装置,可以实现科学实验装置相关数据的同一有效的存储管理,大大降低数据维护成本,提高数据的访问效率,有效避免了“信息孤岛”等问题的产生,也使得科学装置的相关数据发挥其本身的巨大价值。
上述针对大科学装置的科学实验数据管理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中提供了一种针对大科学装置的科学实验数据管理系统,如图6所示,该系统包括数据采集设备61,以及针对大科学装置的科学实验数据管理装置62;其中,数据采集设备61,用于将待存储目标数据发送至针对大科学装置的科学实验数据管理装置62;科学实验数据管理装置62,用于基于待存储目标数据执行如上述任一项所述的针对大科学装置的科学实验数据管理方法。
具体地,在本实施例中,上述数据采集设备61,包括但不限于针对装置大科学装置内部子系统涉及到的相关数据进行采集的设备;对大科学装置外围的辅助系统的每次实验的控制数据或其他相关系统输入数据进行采集的设备等。进一步地,数据采集设备61获取到上述待存储目标数据后,将该待存储目标数据发送至针对大科学装置的科学实验数据管理装置62,该科学实验数据管理装置62基于上文中所记载的科学实验数据管理方法进行处理,得到对应于待存储目标数据的存储结果。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储以上各实施例中的针对科学实验数据的存储方案。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种针对科学实验数据的存储方法。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取待存储目标数据;
从待存储目标数据中确认与科学实验对应的待存储实验数据,并对待存储实验数据进行整合处理,得到待存储实验文件,并将待存储实验文件存储至预设的私有系统中;
获取对应于待存储目标数据的存储指令,基于存储指令从待存储实验文件中确定公有文件,并将公有文件基于私有存储系统上传到预设的公有存储系统中,得到对应于待存储目标数据的存储结果。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (10)

1.一种针对大科学装置的科学实验数据管理方法,其特征在于,所述方法包括:
获取待存储目标数据;
从所述待存储目标数据中确认与所述科学实验对应的待存储实验数据,并对所述待存储实验数据进行整合处理,得到待存储实验文件,并将所述待存储实验文件存储至预设的私有存储系统中;
获取对应于所述待存储目标数据的存储指令,基于所述存储指令从所述待存储实验文件中确定公有文件,并将所述公有文件基于所述私有存储系统上传到预设的公有存储系统中,得到对应于所述待存储目标数据的存储结果。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
建立数据信息表;其中,所述数据信息表中包括至少一种数据信息描述;
根据所述待存储目标数据,生成待存储科学实验数据;
基于所述待存储科学实验数据以及所述存储结果,确定对应于所述数据信息描述的科学实验数据信息,将所有所述科学实验数据信息保存至预设的数据信息存储系统中,其中,所述科学实验数据信息用于指示对应于所述数据信息描述的标准含义。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
基于所述科学实验数据信息确定高频访问数据,并将所述高频访问数据存储至预设的高频数据库中。
4.根据权利要求2所述的方法,其特征在于,所述科学实验数据信息包括绝对数据信息以及非绝对数据信息;所述基于所述待存储科学实验数据以及所述存储结果,确定对应于所述数据信息描述的科学实验数据信息,包括:
确定所述存储结果中的绝对存储结果,并基于所述绝对存储结果得到所述绝对数据信息;
确定所述存储结果中的至少两个初始非绝对存储结果,基于所有所述初始非绝对存储结果之间的相似度对所述非绝对存储结果进行划分,得到至少一种非绝对存储结果,基于所有所述非绝对存储结果得到对应的非绝对存储表达式;
基于所述非绝对存储表达式得到所述非绝对数据信息。
5.根据权利要求4所述的方法,其特征在于,所述非绝对存储结果包括非绝对存储路径,所述基于所有所述非绝对存储结果得到对应的非绝对存储表达式,包括:
基于所有所述非绝对存储路径之间的相似结果,确定针对所述非绝对存储路径的路径表达式,其中,所述非绝对存储表达式包括所述路径表达式。
6.根据权利要求2所述的方法,其特征在于,所述将所有所述科学实验数据信息保存至预设的数据信息存储系统中之后,包括:
获取下一批待存储目标数据;
遍历所述科学实验数据信息中的科学实验数据名称,基于所述科学实验数据名称在所述下一批待存储目标数据中确定新增数据;
基于所述新增数据更新所述科学实验数据信息。
7.根据权利要求1所述的方法,其特征在于,所述对所述待存储实验数据进行整合处理,得到待存储实验文件,包括:
获取预设的存储格式;
基于所述存储格式对所述待存储实验数据进行格式转换,得到与所述科学实验对应的待存储实验文件。
8.一种针对大科学装置的科学实验数据管理装置,其特征在于,所述装置包括:
获取模块,用于获取待存储目标数据;
计算模块,用于从所述待存储目标数据中确认与所述科学实验对应的待存储实验数据,并对所述待存储实验数据进行整合处理,得到待存储实验文件,并将所述待存储实验文件存储至预设的私有系统中;
生成模块,用于获取对应于所述待存储目标数据的存储指令,基于所述存储指令从所述待存储实验文件中确定公有文件,并将所述公有文件基于所述私有存储系统上传到预设的公有存储系统中,得到对应于所述待存储目标数据的存储结果。
9.一种针对大科学装置的科学实验数据管理系统,其特征在于,所述系统包括数据采集设备,以及如权利要求8所述的针对大科学装置的科学实验数据管理装置;其中,所述数据采集设备,用于将待存储目标数据发送至所述针对大科学装置的科学实验数据管理装置;
所述科学实验数据管理装置,用于基于所述待存储目标数据执行如权利要求1至7任一项所述的针对大科学装置的科学实验数据管理方法。
10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
CN202311408184.0A 2023-10-26 2023-10-26 针对大科学装置的科学实验数据管理方法、装置和系统 Pending CN117555867A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311408184.0A CN117555867A (zh) 2023-10-26 2023-10-26 针对大科学装置的科学实验数据管理方法、装置和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311408184.0A CN117555867A (zh) 2023-10-26 2023-10-26 针对大科学装置的科学实验数据管理方法、装置和系统

Publications (1)

Publication Number Publication Date
CN117555867A true CN117555867A (zh) 2024-02-13

Family

ID=89819427

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311408184.0A Pending CN117555867A (zh) 2023-10-26 2023-10-26 针对大科学装置的科学实验数据管理方法、装置和系统

Country Status (1)

Country Link
CN (1) CN117555867A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101628676B1 (ko) * 2015-12-22 2016-06-21 한국과학기술정보연구원 대용량 과학 데이터 파일의 분산 저장 시스템 및 방법
US20190027232A1 (en) * 2017-03-20 2019-01-24 Celmatix Inc. System and method for processing electronic medical and genetic/genomic information using machine learning and other advanced analytics techniques
CN109582699A (zh) * 2018-11-21 2019-04-05 金色熊猫有限公司 基于混合云数据聚合的方法、系统、设备及存储介质
CN114117516A (zh) * 2021-11-08 2022-03-01 中国科学院合肥物质科学研究院 一种水冷磁体实验数据的认证方法
CN114143007A (zh) * 2021-11-08 2022-03-04 中国科学院合肥物质科学研究院 一种基于nft的实验数据共享方法
CN115934654A (zh) * 2023-02-03 2023-04-07 北京联合伟世科技股份有限公司 实验资源的打包方法、装置、设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101628676B1 (ko) * 2015-12-22 2016-06-21 한국과학기술정보연구원 대용량 과학 데이터 파일의 분산 저장 시스템 및 방법
US20190027232A1 (en) * 2017-03-20 2019-01-24 Celmatix Inc. System and method for processing electronic medical and genetic/genomic information using machine learning and other advanced analytics techniques
CN109582699A (zh) * 2018-11-21 2019-04-05 金色熊猫有限公司 基于混合云数据聚合的方法、系统、设备及存储介质
CN114117516A (zh) * 2021-11-08 2022-03-01 中国科学院合肥物质科学研究院 一种水冷磁体实验数据的认证方法
CN114143007A (zh) * 2021-11-08 2022-03-04 中国科学院合肥物质科学研究院 一种基于nft的实验数据共享方法
CN115934654A (zh) * 2023-02-03 2023-04-07 北京联合伟世科技股份有限公司 实验资源的打包方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
成春香;张伟;徐涛;: "一种基于云存储的数据安全与隐私保护系统", 北京信息科技大学学报(自然科学版), no. 02, 15 April 2013 (2013-04-15), pages 87 - 90 *

Similar Documents

Publication Publication Date Title
US11941017B2 (en) Event driven extract, transform, load (ETL) processing
US11093466B2 (en) Incremental out-of-place updates for index structures
US20170017708A1 (en) Entity-relationship modeling with provenance linking for enhancing visual navigation of datasets
CN103812939A (zh) 一种大数据存储系统
CN110196847A (zh) 数据处理方法和装置、存储介质及电子装置
CN102281312A (zh) 一种数据加载方法、系统和数据处理方法、系统
Ahsaan et al. Big data analytics: challenges and technologies
CN113721856A (zh) 一种数字化社区管理数据存储系统
CN117555867A (zh) 针对大科学装置的科学实验数据管理方法、装置和系统
CN115858322A (zh) 日志数据处理方法、装置和计算机设备
CN114356945A (zh) 数据处理方法、装置、计算机设备和存储介质
CN114282620A (zh) 一种多源信息物理孪生数据融合管理方法与管理系统
CN111782588A (zh) 一种文件读取方法、装置、设备和介质
CN110866005A (zh) 一种物联网数据采集管理方法及系统、存储介质及终端
Mellone et al. A novel approach for large‐scale environmental data partitioning on cloud and on‐premises storage for compute continuum applications
CN111104558A (zh) 一种分布式的多源数据处理方法及系统
CN115390912B (zh) 资源发现方法、装置、计算机设备和存储介质
US11550760B1 (en) Time-based partitioning to avoid in-place updates for data set copies
US20230394043A1 (en) Systems and methods for optimizing queries in a data lake
CN116266144A (zh) 建筑数据管理方法及装置
US20210011826A1 (en) Flattened Historical Material Extracts
CN115904238A (zh) 基于数据整合的存储方法、装置、计算机设备及存储介质
CN116415914A (zh) 业务数据处理方法、装置、计算机设备和存储介质
CN117648336A (zh) 数据查询方法、装置、计算机设备和存储介质
CN115809249A (zh) 一种基于专有化数据集的数据湖管理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination