CN109460184A - 电镜数据转储方法、存储介质和装置 - Google Patents

电镜数据转储方法、存储介质和装置 Download PDF

Info

Publication number
CN109460184A
CN109460184A CN201811035834.0A CN201811035834A CN109460184A CN 109460184 A CN109460184 A CN 109460184A CN 201811035834 A CN201811035834 A CN 201811035834A CN 109460184 A CN109460184 A CN 109460184A
Authority
CN
China
Prior art keywords
file
predetermined directory
copynum
electron microscopic
dump
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811035834.0A
Other languages
English (en)
Other versions
CN109460184B (zh
Inventor
杨涛
阮华斌
王亚坤
贾安宝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201811035834.0A priority Critical patent/CN109460184B/zh
Publication of CN109460184A publication Critical patent/CN109460184A/zh
Application granted granted Critical
Publication of CN109460184B publication Critical patent/CN109460184B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0646Horizontal data movement in storage systems, i.e. moving data in between storage devices or systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/061Improving I/O performance
    • G06F3/0611Improving I/O performance in relation to response time
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种电镜数据转储方法、存储介质和装置,包括:步骤11:预设转储进程数为copynum,根据copynum确定源端服务器与目标端服务器的目标带宽,并配置源端服务器与目标端服务器之间的链路带宽不低于目标带宽;步骤13:在源端服务器创建copynum个并行进程,每个进程用于将第一预设目录下的一个待传输文件传输至第二预设目录下;监控copynum个进程,当任一进程结束后,再创建一个新的进程用于传输第一预设目录下另一个待传输文件,直至第一预设目录下的所有待传输文件均传输完毕。基于本发明提供的电镜数据转储方法,可以实现对电镜数据的快速转储,以支持对电镜数据的大数据管理。

Description

电镜数据转储方法、存储介质和装置
技术领域
本发明涉及计算机领域,特别涉及一种电镜数据转储方法、存储介质和装置。
背景技术
随着硬件技术的进步,应用冷冻电镜技术解析生物大分子的结构正在成为一个崭新的结构生物学研究方向。近年来,不少研究团队基于冷冻电镜技术在国际顶级学术期刊Nature、Science、Cell等发表了数十篇高分辨率的关于蛋白质三维结构解析成果,对生命科学的发展产生了重大影响,而冷冻电镜在这其中发挥着举足轻重的作用。
为了重构出高精度的分子结构,冷冻电镜需要拍摄大量二维的高分辨率图像,由于冷冻电镜在拍摄过程中很难避免诸如欠焦等问题,从而会导致丢失一些图像信息,为了避免有效信息的丢失,冷冻电镜通常会在不同的欠焦水平和不同的角度下拍摄大量高分辨率的二维图像加以合成,以弥补单一图像丢失的信息,最终利用所拍摄的大量的高分辨率的二维图像,通过相关的三维重构软件如Relion等重构出高分辨率的分子结构。
然而,在重构三维分子结构的过程中,为了构建精确的高分辨率的三维分子结构,冷冻电镜需要从不同的角度拍摄大量的高分辨率的二维图像,细微的角度变化均需要拍摄大量的二维图像,在电镜满负荷工作的情况下,每天会产生数几十TB的电镜数据,以清华大学生命学院电镜平台Titan为例,每台Titan的拍摄速率7GB/分钟,即每分钟产生7GB左右的图像数据,这样一台电镜在一天中就能产生7GB/分钟*60分钟/小时*24小时=10.08TB的数据,从而导致每年将消耗高达4PB的存储容量。
大数据治理,是目前普遍存在的一大问题。对数据分而治之,即对数据进行分门别类式的个性化管理,是数据管理的基本出发点和原则。比如,对冷数据、非重点数据进行数据转储或迁移操作,使之沉淀到低速、低成本、大容量存储系统中,以读写时间为代价换取存储空间和成本的最大收益。事实上,这种代价是完全可以被接受的。
但是另一方面,实现大数据治理,首先需要解决如何将大容量的电镜数据从一个存储系统转移到另一个存储系统?
发明内容
有鉴于此,本发明提供一种电镜数据转储方法、存储介质和装置,可以解决将大容量的电镜数据从一个存储系统快速转移到另一个存储系统的问题。
本发明提供一种电镜数据转储方法,该方法用于将源端存储系统第一预设目录下的电镜数据文件转储到目标端存储系统的第二预设目录,源端存储系统挂载于源端服务器,目标端存储系统挂载于目标端服务器,包括:
步骤11:预设转储进程数为copynum,根据copynum确定源端服务器与目标端服务器的目标带宽,并配置源端服务器与目标端服务器之间的链路带宽不低于目标带宽;
步骤13:在源端服务器创建copynum个并行进程,每个进程用于将第一预设目录下的一个待传输文件传输至第二预设目录下;监控copynum个进程,当任一进程结束后,再创建一个新的进程用于传输第一预设目录下另一个待传输文件,直至第一预设目录下的所有待传输文件均传输完毕。
本发明还提供一种非瞬时计算机可读存储介质,非瞬时计算机可读存储介质存储指令,指令在由处理器执行时使得处理器执行上述的电镜数据转储方法中的步骤。
本发明还提供一种电镜数据转储装置,包括处理器和上述的非瞬时计算机可读存储介质。
本发明电镜数据转储方法,并行转储效率高,用时少,可以实现对电镜数据的快速或极速转储,对提高电镜数据解析的高通量能力具有良好的效果,能满足电镜数据的用户使用需求和管理需求,具有较好的应用前景和推广价值。
附图说明
图1为本发明电镜数据转储方法的流程图;
图2为本发明电镜数据转储系统的结构图;
图3为本发明电镜数据转储方法的第一实施例;
图4为本发明电镜数据转储方法的第二实施例;
图5为本发明电镜数据转储装置的结构图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用来区别类似的对象,而不必用于描述特定的顺序和先后次序。应该理解,这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
在实际工作中,电镜数据存储面临的主要挑战是:成倍数增长的电镜原始数据和过程数据,对存储系统容量、用户配额分配管理策略带来了极大的挑战,并间接影响到科研效率和整体进度。具体包括以下层面:
1.数据量弹性大:冷冻电镜领域是当前特别活跃的一个科研领域,各种软硬件技术革新层出不穷;同一套原始数据结合不同的分析流程会产生多种过程和结果数据,数据规模会日趋庞大而复杂;课题组与课题组之间,课题组与校外机构合作研究时会产生大量的数据副本,虽可同时满足数据共享便利性和原始数据完整性等多样化需求,却也为存储系统带来容量压力。因此,电镜采集的数据具备很大的弹性。在存储系统合理化使用和数据副本管理方面缺乏更高效、更经济的管理策略。
2.数据管理相关信息孤立分散、缺乏基于内容的感知:大部分电镜数据由科研人员自行管理,尚无统一的管理策略,大量离线数据的日常管理占用了课题组过多精力。同时,管理员基于系统优化目的对数据进行调整、迁移,此类信息如何更加快捷、准确地面向科研人员发布,也是一个有待解决的问题。
3.管理滞后:管理员用户权限与数据权限分离,平台管理者难以挖掘用户使用规律并深入配合科研业务需求及时调整平台管理策略和长期运营规划,应对解决方案一定程度上存在滞后性,在辅助科研成果高效产出过程中缺少主动性。
4.手工数据迁移任务太繁重:缺乏有效的自动化或半自动化工具软件或脚本,管理员对数据的迁移任务工作量太繁重,并容易导致操作事故。
本发明针对上述第4个问题,提出一种电镜数据转储方法,该方法用于将源端存储系统第一预设目录下的电镜数据文件转储到目标端存储系统的第二预设目录,源端存储系统挂载于源端服务器,目标端存储系统挂载于目标端服务器,如图1所示,该方法包括:
步骤11:预设转储进程数为copynum,根据copynum确定源端服务器与目标端服务器的目标带宽,并配置源端服务器与目标端服务器之间的链路带宽不低于目标带宽。
为了实现转储,本发明构建了如图2所示的转储系统,包括101源端存储系统、102目标端存储系统、103源端服务器和104目标端服务器,101源端存储系统挂载于103源端服务器,102目标端存储系统挂载于104目标端服务器,103源端服务器与104目标端服务器通过可扩容光纤和/或电缆连接,例如可采用一个或多条单模光纤连接。
步骤11还设置了转储进程数copynum,根据copynum确定源端服务器与目标端服务器的目标带宽,例如copynum=50时,copynum×单进程带宽=目标带宽,单进程带宽可以通过测试数据得到,假设计算得到的目标带宽为160G,一条单模光纤的带宽为40G,则源端服务器与目标端服务器至少需配置4条单模光纤,如图2所示。
步骤13:在源端服务器创建copynum个并行进程,每个进程用于将第一预设目录下的一个待传输文件传输至第二预设目录下;监控copynum个进程,当任一进程结束后,再创建一个新的进程用于传输第一预设目录下另一个待传输文件,直至第一预设目录下的所有待传输文件均传输完毕。
例如,第一预设目录为:/ShareEM2018/TitanD3418/。
第二预设目录为:@40.40.103.12:/Share/Transfer/bak/,其中@40.40.103.12为目标端服务器的IP地址。
则步骤13一种实现方式,如下述代码所示:
其中第100行的代码将第一下预设目录下的一个待传输文件(*cor2*.mrc)赋值给i,第102行代码是使用rsync–av命令启动一个进程将待传输文件i传输到第二预设目录,第103行至105行代码是监控进程池,如果进程池的进程总数(rsync_num)大于等于50,则一直执行第105行代码刷新当前进程总数(rsync_num),如果否,则返回第100行代码。
上述本发明电镜数据转储方法,采用并行转储,效率高、用时少,可以实现对电镜数据的快速或极速转储,对提高电镜数据解析的高通量能力具有良好的效果,能满足电镜数据的用户使用需求和管理需求,具有较好的应用前景和推广价值。
rsync本身是一个同步命令,本发明将rsync与进程相结合构建并行传输框架,同时动态监控进程池,使得本发明图1的方法可以有序高效的运转。现有的每个电镜数据文件(*cor2*.mrc)大小、格式都较为统一,也使得图1的方案运行时面对进程切换也可以有序进行、避免冲突。
进一步地,如图3所示,在步骤13之后还包括步骤14。
步骤14:判断第一预设目录下是否存在传输失败的文件,如果是,则将传输失败的文件标记为待传输文件,返回步骤13,如果否,则转储任务完成。
例如,可以通过比较第一预设目录和第二预设目录下的文件名称和文件大小确定第一预设目录是否存在传输失败的文件,然后将传输失败的文件标记为待传输文件,传输成功的文件标记为已传输文件。
鉴于电镜数据文件之间存在较高的相似度,相邻数据文件之间的波动非常少,丢失部分数据,例如一个目录下的5%的数据,并不影响数据重构结果,因此步骤14判断是否存在传输失败的文件时,也可以放宽要求,在少量文件未同步成功的情况下,也可以认为该目录转储成功。
传输校验除了采用步骤14的方法之外,还可以采用现有技术的其他方法,本发明对此不做限定。
可选地,如图4所示,步骤11之后以及步骤13之前还包括:
步骤12:验证用户信息,通过验证后执行步骤13。
为了简化认证,避免用户繁琐输入用户信息,可选地,可使用无密码身份验证技术,无密码身份验证技术包括sshpass、ssh等。
例如在第100行代码之前执行:
99ssh wyk@40.40.103.12“mkdir/Share/Transfer/bak/${WORKDIR}”
其中WORKDIR为用户信息,包括用户名和密码,执行第99行代码后,用户首次登录时,会记录用户信息到“WORKDIR”,下次再登录时,就可以免密码登录,简化认证。
为了方便用户交互或了解转储任务的时间信息,还可以记录步骤13开始的时间和步骤14结束的时间,例如在步骤13第100行代码之前显示当前系统时间,在步骤14中退出任务之前显示当前系统时间,或者每个待传输文件传输完后,显示该文件名和当前系统时间。
本发明还提供一种非瞬时计算机可读存储介质,非瞬时计算机可读存储介质存储指令,指令在由处理器执行时使得处理器执行上述的电镜数据转储方法中的步骤。
本发明还提供一种电镜数据转储装置,包括处理器和上述的非瞬时计算机可读存储介质。
如图5所示,本发明的电镜数据转储装置用于将源端存储系统第一预设目录下的电镜数据文件转储到目标端存储系统的第二预设目录,源端存储系统挂载于源端服务器,目标端存储系统挂载于目标端服务器,包括:
初始化设置模块:预设转储进程数为copynum,根据copynum确定源端服务器与目标端服务器的目标带宽,并配置源端服务器与目标端服务器之间的链路带宽不低于目标带宽;
转储模块:在源端服务器创建copynum个并行进程,每个进程用于将第一预设目录下的一个待传输文件传输至第二预设目录下;监控copynum个进程,当任一进程结束后,再创建一个新的进程用于传输第一预设目录下另一个待传输文件,直至第一预设目录下的所有待传输文件均传输完毕。
可选地,在转储模块之后还包括:
校验模块:判断第一预设目录下是否存在传输失败的文件,如果是,则将传输失败的文件标记为待传输文件,返回转储模块,如果否,则转储任务完成。
进一步地,确定第一预设目录是否存在传输失败的文件包括:通过比较第一预设目录和第二预设目录下的文件名称和文件大小确定第一预设目录是否存在传输失败的文件。
可选地,初始化设置模块之后以及转储模块之前还包括:
用户登录模块:验证用户信息,通过验证后执行转储模块。
进一步地,验证用户信息包括:使用无密码身份验证技术验证用户信息。
可选地,记录转储模块开始的时间和校验模块结束的时间。
可选地,在源端服务器创建copynum个并行进程包括:使用rsync命令在源端服务器创建copynum个并行进程。
进一步地,rsync命令为rsync-av。
需要说明的是,本发明的电镜数据转储装置的实施例,与电镜数据转储方法的实施例原理相同,相关之处可以互相参照。
以上所述仅为本发明的较佳实施例而已,并不用以限定本发明的包含范围,凡在本发明技术方案的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种电镜数据转储方法,其特征在于,所述方法用于将源端存储系统第一预设目录下的电镜数据文件转储到目标端存储系统的第二预设目录,所述源端存储系统挂载于源端服务器,所述目标端存储系统挂载于目标端服务器,所述方法包括:
步骤11:预设转储进程数为copynum,根据所述copynum确定所述源端服务器与目标端服务器的目标带宽,并配置所述源端服务器与目标端服务器之间的链路带宽不低于所述目标带宽;
步骤13:在所述源端服务器创建copynum个并行进程,每个进程用于将所述第一预设目录下的一个待传输文件传输至所述第二预设目录下;监控所述copynum个进程,当任一进程结束后,再创建一个新的进程用于传输所述第一预设目录下另一个待传输文件,直至所述第一预设目录下的所有待传输文件均传输完毕。
2.根据权利要求1所述的方法,其特征在于,所述步骤13之后还包括:
步骤14:判断所述第一预设目录下是否存在传输失败的文件,如果是,则将所述传输失败的文件标记为待传输文件,返回步骤13,如果否,则转储任务完成。
3.根据权利要求2所述的方法,其特征在于,所述确定所述第一预设目录是否存在传输失败的文件包括:通过比较所述第一预设目录和第二预设目录下的文件名称和文件大小确定所述第一预设目录是否存在传输失败的文件。
4.根据权利要求1所述的方法,其特征在于,所述步骤11之后以及所述步骤13之前还包括:
步骤12:验证用户信息,通过验证后执行步骤13。
5.根据权利要求4所述的方法,其特征在于,所述验证用户信息包括:使用无密码身份验证技术验证用户信息。
6.根据权利要求2所述的方法,其特征在于,记录步骤13开始的时间和步骤14结束的时间。
7.根据权利要求1所述的方法,其特征在于,所述在所述源端服务器创建copynum个并行进程包括:使用rsync命令在所述源端服务器创建copynum个并行进程。
8.根据权利要求7所述的方法,其特征在于,所述rsync命令为rsync-av。
9.一种非瞬时计算机可读存储介质,所述非瞬时计算机可读存储介质存储指令,其特征在于,所述指令在由处理器执行时使得所述处理器执行如权利要求1至8中任一所述的电镜数据转储方法中的步骤。
10.一种电镜数据转储装置,其特征在于,包括处理器和如权利要求9所述的非瞬时计算机可读存储介质。
CN201811035834.0A 2018-09-06 2018-09-06 电镜数据转储方法、存储介质和装置 Active CN109460184B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811035834.0A CN109460184B (zh) 2018-09-06 2018-09-06 电镜数据转储方法、存储介质和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811035834.0A CN109460184B (zh) 2018-09-06 2018-09-06 电镜数据转储方法、存储介质和装置

Publications (2)

Publication Number Publication Date
CN109460184A true CN109460184A (zh) 2019-03-12
CN109460184B CN109460184B (zh) 2021-04-16

Family

ID=65606541

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811035834.0A Active CN109460184B (zh) 2018-09-06 2018-09-06 电镜数据转储方法、存储介质和装置

Country Status (1)

Country Link
CN (1) CN109460184B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130080699A1 (en) * 2011-09-26 2013-03-28 Fujitsu Limited Information processing apparatus control method, computer-readable recording medium, and information processing apparatus
CN108052278A (zh) * 2017-10-09 2018-05-18 清华大学 电镜数据的存储控制方法和存储系统
CN108121925A (zh) * 2017-11-23 2018-06-05 清华大学 电镜数据标签及其生成方法和生成系统
CN108205424A (zh) * 2017-12-29 2018-06-26 北京奇虎科技有限公司 基于磁盘的数据迁移方法、装置及电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130080699A1 (en) * 2011-09-26 2013-03-28 Fujitsu Limited Information processing apparatus control method, computer-readable recording medium, and information processing apparatus
CN108052278A (zh) * 2017-10-09 2018-05-18 清华大学 电镜数据的存储控制方法和存储系统
CN108121925A (zh) * 2017-11-23 2018-06-05 清华大学 电镜数据标签及其生成方法和生成系统
CN108205424A (zh) * 2017-12-29 2018-06-26 北京奇虎科技有限公司 基于磁盘的数据迁移方法、装置及电子设备

Also Published As

Publication number Publication date
CN109460184B (zh) 2021-04-16

Similar Documents

Publication Publication Date Title
CN109669986A (zh) 基于区块链的黑名单共享方法、装置、设备和存储介质
CN110557276B (zh) 基于Fabric架构的区块链机房管理系统
CN108632265A (zh) 客户端的通讯连接方法、装置、系统和存储介质
Takahashi et al. The measurement of dialogue: From a case study of the workshop using world café as a collective dialogue method
Nikitenko et al. Resolving frontier problems of mastering large-scale supercomputer complexes
CN106060092A (zh) 面向企业对象的教育系统信息交互方法、装置和系统
CN106060017A (zh) 一种数据管控的云平台及方法
CN110059128A (zh) 一种教育资源共享系统
CN109460184A (zh) 电镜数据转储方法、存储介质和装置
CN109033444A (zh) 基于对象存储技术实现跨组织边界数据共享的方法及装置
JP6971042B2 (ja) 情報処理装置
CN109726187A (zh) 一种面向Hadoop的自适应权限控制方法及装置
CN111754658B (zh) 培训管理方法、装置和电子设备
CN109522152A (zh) 电镜数据灾备方法、存储介质和装置
CN112948405A (zh) Obt组织架构系统的数据更新方法、系统、设备和介质
CN105808439B (zh) 智能卡应用程序远程测试系统
Cogburn et al. Virtual Teams, Organizations, and Networks
Nataraj et al. Cloud for Education
Vijayakumar Protrack: A Student-Teacher Project Management Tool
Kumar et al. Web based admission system
Jovanovic et al. Teaching storage infrastructure management and security
Thompson Mobility for GCSS-MC through virtual PCs
Gerber et al. DOE High Performance Computing Operational Review (HPCOR): Enabling Data-Driven Scientific Discovery at HPC Facilities
Milliron et al. Catching the Waves
Hancock et al. Jetstream2: Research Clouds as a Convergence Accelerator

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant