CN111461054B - 一种关于冷冻电镜单颗粒分析数据全流程自动分析的方法 - Google Patents

一种关于冷冻电镜单颗粒分析数据全流程自动分析的方法 Download PDF

Info

Publication number
CN111461054B
CN111461054B CN202010288696.8A CN202010288696A CN111461054B CN 111461054 B CN111461054 B CN 111461054B CN 202010288696 A CN202010288696 A CN 202010288696A CN 111461054 B CN111461054 B CN 111461054B
Authority
CN
China
Prior art keywords
data
storage
refined
value
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010288696.8A
Other languages
English (en)
Other versions
CN111461054A (zh
Inventor
吴弘
张翔
王松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Yuexinshengke Information Technology Co ltd
Original Assignee
Shanghai Yuexinshengke Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Yuexinshengke Information Technology Co ltd filed Critical Shanghai Yuexinshengke Information Technology Co ltd
Priority to CN202010288696.8A priority Critical patent/CN111461054B/zh
Publication of CN111461054A publication Critical patent/CN111461054A/zh
Application granted granted Critical
Publication of CN111461054B publication Critical patent/CN111461054B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/695Preprocessing, e.g. image segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/698Matching; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种关于冷冻电镜单颗粒分析数据全流程自动分析的方法,本发明通过公开的相应方法,对冷冻电镜进行单颗粒分析,且这一过程现阶段也有相应的技术体现;之后得到了针对性的处理完成的数据后,借助存储系统进行存储;具体为首先借助数据获取单元获取到处理出来的精修数据,将精修数据传输到身份绑定单元,借助身份绑定单元得到用户身份对应的特值,之后将特值连带精修数据传输到处理器,借助存储监管单元对精修数据进行监控,得到精修数据的初存时间,之后利用相关的技术得到特值组Pi、内存占用值组Zi、访问次数组Fi和存储时间组Ci;根据这些参数计算得到排值,并根据排值对精修数据进行从大到小的排序。

Description

一种关于冷冻电镜单颗粒分析数据全流程自动分析的方法
技术领域
本发明属于冷冻电镜数据领域,涉及冷冻电镜颗粒分析技术,具体是一种关于冷冻电镜单颗粒分析数据全流程自动分析的方法。
背景技术
公开号为CN108898180A的专利公开了一种面向单颗粒冷冻电镜图像的深度聚类方法,包括以下步骤:第一步,数据预处理,并将数据送入自编码器进行预训练;第二步,训练自编码器:用编码器的输出向量特征聚类;用聚类结果计算损失函数;用随机梯度下降方法优化自编码器权值;第三步,将所有颗粒图像数据输入自编码器,得到聚类结果并分析聚类准确率,判断损失函数以及准确率变化是否小于阈值,如果小于阈值,输出聚类结果,结束;否则,转第二步。本发明可以在多种噪声数据下进行预训练,提高网络的降噪能力;并利用随机梯度下降方法自适应地训练损失函数的权重,进一步提高分类准确率。
但是,其并未提出一种合理的针对冷冻电镜进行单颗粒分析时,数据全流程的自动分析方法,当前公开的方法并不能做到足够的智能,而且对于处理完的数据,没有针对不同的人存储的不同数据,进行针对性处理和管理,缺乏一种有效的管理方式,为了弥补这一不足,现提供一种解决方案。
发明内容
本发明的目的在于提供一种关于冷冻电镜单颗粒分析数据全流程自动分析的方法。
本发明的目的可以通过以下技术方案实现:
一种关于冷冻电镜单颗粒分析数据全流程自动分析的方法,该方法包括下述步骤:
步骤一:数据导入选择数据目录和工作目录;选择已有的参数设置,用户导入先前的运算参数设置;
选择已有的reference,2D-reference作为挑颗粒模板以及3D-reference作为三维分类及精修模板;
步骤二:进行对原始数据的无损压缩和打包;
步骤三:数据流程处理,具体包括:
S1:首先进行预处理流程,预处理流程包含漂移矫正和CTF矫正;此两项为承接关系,每一张图片先进行数据的漂移矫正后进行CTF矫正;漂移矫正借助motioncor2实现,CTF矫正借助CTFFIND4或者GCTF实现;通过参数接口修改参数;显示接口显示预处理后的结果,包括图片略缩图、CTF图、motion曲线及一些数值信息,并提供筛选接口供用户筛选;
S2:进行颗粒挑选流程,具体为:
将标样数据挑出;标样数据包括20S/apoferrtin/80S;运行参数接口提供不同软件对应的参数,并提供测试接口便于用户修改参数后实时显示某张数据挑颗粒结果以便测试参数;提供抓取接口提取颗粒;
步骤四:进行二维分类;
S10:对提取后的颗粒进行二维分类;每抓取1万个颗粒则进行二维分类,提供自动挑选分组的参数接口和手动挑选的接口,每一组挑选出来后就把好的分组颗粒融到一块以备下一步任务;
S20:运行参数接口提供不同软件对应的参数,显示界面实时显示当组分类的结果,以及上组挑选的分组结果;提供保留接口将所选的2D分组保留成2D-reference进行颗粒挑选;
步骤五:进行三维初始模型建模;
S1:二维分组后的颗粒需要reference来进行三维分类,若用户无已有的reference,则需要从头重构出一个初始模型;初始模型中颗粒数达到万级别;投影角度为指定数量的不同方向投影的颗粒来建立有效模型,指定数量超过X1,X1为预设值;
S2:提供测试接口进行数据及参数的计算测试;运行参数接口提供不同软件对应的参数,显示界面实时显示每轮的3D投影及截面图,或者显示每轮的3D图像;
步骤六:进行三维分组;
S1:当有一个可信的reference后,二维分组颗粒需要进行三维分组;与二维分类策略一样,采用“批量”计算的方式,“批量”指代同时处理数量超过X2,X2为预设值;根据对称性来决定颗粒数,具体为提交颗粒数=指定非对称颗粒数/对称性;
S2:提供自动挑选分组的参数接口和手动挑选的接口,每一组挑选出来后就把好的分组颗粒融到一块以备下一步任务;
步骤七:三维精修;
当有足够多三维分组的颗粒,可以进行进一步的精修;同样采用“批量”计算的方式,根据对称性来决定颗粒数,具体为:提交颗粒数=指定非对称颗粒数/对称性;
每有新的一组运算结束后,会融合在一块根据已有的Euler值重构出新一轮的精修结果,得到精修数据。
步骤八:对精修数据借助存储系统进行存储,且自动进行管理过程。
进一步地,所述数据目录是用户通过采集软件拍摄的原始数据存放目录,由用户设定;工作目录是软件在计算时产生的中间文件和结果文件所在的总目录,由用户设定,设置在固态硬盘的SSD路径里。
进一步地,所述存储系统包括数据获取单元、身份绑定单元、身份库、处理器、用户单元、存储监管单元、云存储单元、本地存储单元和自管理单元;
其中,所述数据获取单元用于获取处理好的精修数据,并将对应的精修数据及用户的身份信息一同传输到身份绑定单元,所述身份绑定单元用于结合身份库对精修数据及身份信息进行特值赋予过程,得到对应身份信息的特值;
所述身份绑定单元用于将精修数据及其对应的特值传输到处理器,所述处理器用于将精修数据及其对应的特值传输到存储监管单元,所述存储监管单元用于结合本地存储单元完成存储监控操作,得到由精修数据、初存时间和特值构成的精修存储信息;
所述自管理单元接收存储监管单元传输的精修存储信息,并结合云存储单元对本地存储单元内存储的精修数据,进行存储自管理,存储自管理的具体步骤如下:
S010:获取到所有本地存储单元存储的精修数据,将其标记为Ji,i=1...m;
S020:令i=1,选取对应的精修数据;
S030:获取到其近两个月的访问次数,访问次数获取方式为:
S031:当对应用户对该精修数据进行查看或调用中任一动作时,且在预设时间T1内并未再次对该精修数据进行任何操作时,精修数据访问次数加一;
S032:滤除所有不符合时间限制的该精修数据的访问次数,不符合时间限制指定对应访问精修数据的时间超出了两个月范围,两个月范围为从当下最新时间往前推两个月;
S033:获取到所有符合时间限制的对应精修数据的访问次数,将访问次数对应标记为F1;
S040:根据精修存储信息获取到对应精修数据的初存时间,根据初存时间,获取到当下距离初存时间的时间,将该时间标记为存储时间,对应将存储时间标记为C1;
S050:获取到精修数据的内存占用大小,将其标记为内存占用值Z1;
S060:获取到精修数据的特值,将特值标记为P1;
S070:令i=i+1,获取到对应的精修数据;
S080:重复步骤S030-S060,获取到对应精修数据的特值、内存占用值、访问次数和存储时间;
S090:重复步骤S070-S090,直到对所有的精修数据处理完成,得到所有精修数据的特值组Pi、内存占用值组Zi、访问次数组Fi和存储时间组Ci,其中i=1...m,且Pi、Zi、Fi、Ci与Ji均为一一对应;
S100:对本地存储单元进行存储预测,得到备份信号或清理信号;
S110:根据Pi、Zi、Fi和Ci来计算Ji的排值Qpi,具体计算公式为:
Qpi=0.28*Pi+0.22/Zi+0.296*Fi+0.204/Ci;
式中,0.28、0.22、0.296和0.204均为权值,因为各个因素对最终结果影响不同,故此处引入权值;
S120:根据Qpi值从大到小的顺序对精修数据Ji进行排序;
当产生备份信号时,将排名前X8的精修数据标记为备份精修数据,将其传输到云存储单元;X8为预设值;
当产生清理信号时,将备份精修数据删除,之后按照排名依次从后往前对精修数据Ji进行删除,直到剩余存储量占本地存储单元总存储量的X9以上,X9<1,且X9为预设值。
进一步地,所述特值赋予过程的具体步骤为:
S10:首先获取到精修数据及其对应的身份信息;
S20:身份库内存储有身份信息对应的特值,特值划分方法为:
S21:根据用户身份将用户划分为若干个等级,从等级一到等级n,得到n个等级信息;
S22:根据用户身份的等级信息,对应设置特值,特值等于n,n为对应的等级;
S30:将身份信息与身份库进行比对,获取到对应身份信息的特值。
进一步地,所述存储监控操作的具体步骤为:
SS1:获取到精修数据;
SS2:获取到接收到精修数据的时间戳,将该时间戳标记为初存时间;
SS3:将精修数据与初存时间、特值绑定融合,形成精修存储信息;
SS4:将精修存储信息传输到自管理单元;
SS5:将精修数据传输到本地存储单元进行实时存储。
进一步地,所述存储预测的具体方式为:
S101:获取到近X3天的单天存储量,单天存储量获取方式为每天在固定时间获取一次今天相较于昨天该同一时间的增长量,将其视为单天存储量,将单天存储量标记为Dtj,j=1...X3;X3为预设值;
S102:计算得到单天存储量Dti的平均值,将其标记为单天均量Dp;
S103:利用公式求取稳值W,
S104:去除数据单天存储量Dt1,之后按照S102-S103的相同原理获取到去除数据Dt1之后,剩余的Dtj,j=2...X3的稳值,将其标记为W1;
S105:按照i=2...X3的顺序依次去除对应的单天存储量数据,得到对应的稳值Wj,j=1...X3;
S106:将满足W-Wj>X4,对应的Dtj删除;计算剩余单天存储量的均值,将该均值标记为单天预增量Dy;X4为预设值;
S107:获取到本地存储单元内的剩余存储量Sr,以及总容量Zr;
S108:利用公式Yt=Qz{(Sr-(Zr*X5))/Dy},计算得到预测天数,其中Qz{*}表示为对中括号内的数据取整;X5为预设值;
S109当Yt≤X6时,产生备份信号;X6为预设值;
当Yt≤X7时,产生清理信号,X7为预设值,且X7<X6。
进一步地,所述自管理单元用于将备份精修数据传输到云存储单元,所述云存储单元接收自管理单元传输的备份精修数据并进行云存储;
所述用户单元用于录入所有的预设值X1-X9以及T1。
本发明的有益效果:
本发明通过公开的相应方法,对冷冻电镜进行单颗粒分析,且这一过程现阶段也有相应的技术体现;之后得到了针对性的处理完成的数据后,借助存储系统进行存储;
具体为首先借助数据获取单元获取到处理出来的精修数据,将精修数据传输到身份绑定单元,借助身份绑定单元得到用户身份对应的特值,之后将特值连带精修数据传输到处理器,借助存储监管单元对精修数据进行监控,得到精修数据的初存时间,之后利用相关的技术得到特值组Pi、内存占用值组Zi、访问次数组Fi和存储时间组Ci;根据这些参数计算得到排值,并根据排值对精修数据进行从大到小的排序;
同时将精修数据存储到本地存储单元后,能够借助自管理单元判定此时本地存储单元的存储情况,根据实时的存储情况处理出不同的信号,针对备份信号和清理信号,并结合精修数据的排序,在出现备份信号时对其进行备份,否则对其进行清理,清理过程按照对应公开技术进行,保证了本地存储单元的存储空间以及重要因素的云存储;本发明简单有效且易于实用。
附图说明
为了便于本领域技术人员理解,下面结合附图对本发明作进一步的说明。
图1为本发明存储系统的系统框图。
具体实施方式
如图1所示,一种关于冷冻电镜单颗粒分析数据全流程自动分析的方法,该方法具体包括下述步骤:
步骤一:数据导入选择数据目录和工作目录;数据目录是用户通过采集软件拍摄的原始数据存放目录,由用户设定;工作目录是软件在计算时产生的中间文件和结果文件所在的总目录,由用户设定,通常在固态硬盘的SSD路径里,以保证计算时的IO速度;不同阶段的任务会产生相应的子目录,目录结构可参考RELION;选择已有的参数设置,用户可导入先前的运算参数设置;
选择已有的reference,2D-reference作为挑颗粒模板以及3D-reference作为三维分类及精修模板;
步骤二:进行对原始数据的无损压缩和打包;
步骤三:数据流程处理,具体包括:
S1:首先进行预处理流程,预处理流程包含漂移矫正和CTF矫正;此两项为承接关系,每一张图片先进行数据的漂移矫正后进行CTF矫正;漂移矫正所用软件为motioncor2,CTF矫正所用软件用户可选为CTFFIND4或者GCTF;用户可通过参数接口修改参数;显示接口显示预处理后的结果,包括图片略缩图、CTF图、motion曲线及一些数值信息,并提供筛选接口供用户筛选;
S2:进行颗粒挑选流程,具体为:
提供多种软件接口进行颗粒挑选;由于冷冻电镜数据属于极低信噪比的图像,因此颗粒挑选是一个难点,但又是至关重要的一点;自动挑选颗粒的算法有很多,有基于灰度或边界的,有基于神经网络的,不同的蛋白样品的数据所适合的软件不一定一致,这里我们需集成多种不同算法的软件来保证正常数据的颗粒大部分都能够正确挑选出来;在beta版中,做到标样数据如20S/apoferrtin/80S等能够被正确挑出;运行参数接口提供不同软件对应的参数,并提供测试接口便于用户修改参数后实时显示某张数据挑颗粒结果以便测试参数。提供抓取接口提取颗粒;
步骤四:进行二维分类;
S10:对提取后的颗粒进行二维分类;做2维分类对颗粒数有一定要求,这里可采用“批量”计算的方式,即每抓取1万个颗粒则进行二维分类,提供自动挑选分组的参数接口和手动挑选的接口,每一组挑选出来后就把好的分组颗粒融到一块以备下一步任务;运行参数接口提供不同软件对应的参数,显示界面实时显示当组分类的结果,以及上组挑选的分组结果。提供保留接口将所选的2D分组保留成2D-reference进行颗粒挑选。
步骤五:进行三维初始模型建模;
二维分组后的颗粒需要reference来进行三维分类,若用户无已有的reference,则需要从头重构出一个初始模型;初始模型对颗粒数及投影角度有一定要求,颗粒数一般是万级别,需要不同方向投影的颗粒来建立有效模型,这里提供策略能够自动识别不同的投影分组,也需要提供手动挑选的接口。提供测试接口进行数据及参数的计算测试。运行参数接口提供不同软件对应的参数,显示界面实时显示每轮的3D投影及截面图,或者显示每轮的3D图像。
步骤六:进行三维分组;
当有一个可信的reference后,二维分组颗粒需要进行三维分组。与二维分类策略一样,可采用“批量“计算的方式,根据对称性来决定颗粒数(提交颗粒数=指定非对称颗粒数/对称性)。这里可提供测试接口进行单组的颗粒三维分类处理,来判断reference及参数的情况。
提供自动挑选分组的参数接口和手动挑选的接口,每一组挑选出来后就把好的分组颗粒融到一块以备下一步任务。运行参数接口提供不同软件对应的参数,显示界面实时显示每轮的3D投影及截面图,或者显示每轮的3D图像,以及上组挑选的分组结果。
步骤七:三维精修;
当有足够多三维分组的颗粒,可以进行进一步的精修。同样采用“批量“计算的方式,根据对称性来决定颗粒数(提交颗粒数=指定非对称颗粒数/对称性)。每有新的一组运算结束后,会融合在一块根据已有的Euler值重构出新一轮的精修结果。运行参数接口提供不同软件对应的参数,显示界面实时显示每轮的3D投影及截面图,或者显示每轮的3D图像,以及分辨率数值及FSC曲线。
步骤八:对精修数据借助存储系统进行存储,且自动进行管理过程。
所述存储系统包括数据获取单元、身份绑定单元、身份库、处理器、用户单元、存储监管单元、云存储单元、本地存储单元和自管理单元;
其中,所述数据获取单元用于获取处理好的精修数据,并将对应的精修数据及用户的身份信息一同传输到身份绑定单元,所述身份绑定单元用于结合身份库对精修数据及身份信息进行特值赋予过程,具体特值赋予过程为:
S10:首先获取到精修数据及其对应的身份信息;
S20:身份库内存储有身份信息对应的特值,特值划分方法为:
S21:根据用户身份将用户划分为若干个等级,从等级一到等级n,得到n个等级信息;
S22:根据用户身份的等级信息,对应设置特值,特值等于n,n为对应的等级;
S30:将身份信息与身份库进行比对,获取到对应身份信息的特值;
所述身份绑定单元用于将精修数据及其对应的特值传输到处理器,所述处理器用于将精修数据及其对应的特值传输到存储监管单元,所述存储监管单元用于结合本地存储单元完成存储监控操作,具体操作步骤为:
SS1:获取到精修数据;
SS2:获取到接收到精修数据的时间戳,将该时间戳标记为初存时间;
SS3:将精修数据与初存时间、特值绑定融合,形成精修存储信息;
SS4:将精修存储信息传输到自管理单元;
SS5:将精修数据传输到本地存储单元进行实时存储;
所述自管理单元接收存储监管单元传输的精修存储信息,并结合云存储单元对本地存储单元内存储的精修数据,进行存储自管理,存储自管理的具体步骤如下:
S010:获取到所有本地存储单元存储的精修数据,将其标记为Ji,i=1...m;
S020:令i=1,选取对应的精修数据;
S030:获取到其近两个月的访问次数,访问次数获取方式为:
S031:当对应用户对该精修数据进行查看或调用中任一动作时,且在预设时间T1内并未再次对该精修数据进行任何操作时,精修数据访问次数加一;
S032:滤除所有不符合时间限制的该精修数据的访问次数,不符合时间限制指定对应访问精修数据的时间超出了两个月范围,两个月范围为从当下最新时间往前推两个月;
S033:获取到所有符合时间限制的对应精修数据的访问次数,将访问次数对应标记为F1;
S040:根据精修存储信息获取到对应精修数据的初存时间,根据初存时间,获取到当下距离初存时间的时间,将该时间标记为存储时间,对应将存储时间标记为C1;
S050:获取到精修数据的内存占用大小,将其标记为内存占用值Z1;
S060:获取到精修数据的特值,将特值标记为P1;
S070:令i=i+1,获取到对应的精修数据;
S080:重复步骤S030-S060,获取到对应精修数据的特值、内存占用值、访问次数和存储时间;
S090:重复步骤S070-S090,直到对所有的精修数据处理完成,得到所有精修数据的特值组Pi、内存占用值组Zi、访问次数组Fi和存储时间组Ci,其中i=1...m,且Pi、Zi、Fi、Ci与Ji均为一一对应;
S100:对本地存储单元进行存储预测,存储预测的具体方式为:
S101:获取到近X3天的单天存储量,单天存储量获取方式为每天在固定时间获取一次今天相较于昨天该同一时间的增长量,将其视为单天存储量,将单天存储量标记为Dtj,j=1...X3;X3为预设值;
S102:计算得到单天存储量Dti的平均值,将其标记为单天均量Dp;
S103:利用公式求取稳值W,
S104:去除数据单天存储量Dt1,之后按照S102-S103的相同原理获取到去除数据Dt1之后,剩余的Dtj,j=2...X3的稳值,将其标记为W1;
S105:按照i=2...X3的顺序依次去除对应的单天存储量数据,得到对应的稳值Wj,j=1...X3;
S106:将满足W-Wj>X4,对应的Dtj删除;计算剩余单天存储量的均值,将该均值标记为单天预增量Dy;X4为预设值;
S107:获取到本地存储单元内的剩余存储量Sr,以及总容量Zr;
S108:利用公式Yt=Qz{(Sr-(Zr*X5))/Dy},计算得到预测天数,其中Qz{*}表示为对中括号内的数据取整;X5为预设值;
S109当Yt≤X6时,产生备份信号;X6为预设值;
当Yt≤X7时,产生清理信号,X7为预设值,且X7<X6;
S110:根据Pi、Zi、Fi和Ci来计算Ji的排值Qpi,具体计算公式为:
Qpi=0.28*Pi+0.22/Zi+0.296*Fi+0.204/Ci;
式中,0.28、0.22、0.296和0.204均为权值,因为各个因素对最终结果影响不同,故此处引入权值;
S120:根据Qpi值从大到小的顺序对精修数据Ji进行排序;
当产生备份信号时,将排名前X8的精修数据标记为备份精修数据,将其传输到云存储单元;X8为预设值;
当产生清理信号时,将备份精修数据删除,之后按照排名依次从后往前对精修数据Ji进行删除,直到剩余存储量占本地存储单元总存储量的X9以上,X9<1,且X9为预设值;
所述自管理单元用于将备份精修数据传输到云存储单元,所述云存储单元接收自管理单元传输的备份精修数据并进行云存储;
所述用户单元用于录入所有的预设值X1-X9以及T1。
一种关于冷冻电镜单颗粒分析数据全流程自动分析的方法,首先通过本申请公开的相应方法,对冷冻电镜进行单颗粒分析,且这一过程现阶段也有相应的技术体现;之后得到了针对性的处理完成的数据后,借助存储系统进行存储;
具体为首先借助数据获取单元获取到处理出来的精修数据,将精修数据传输到身份绑定单元,借助身份绑定单元得到用户身份对应的特值,之后将特值连带精修数据传输到处理器,借助存储监管单元对精修数据进行监控,得到精修数据的初存时间,之后利用相关的技术得到特值组Pi、内存占用值组Zi、访问次数组Fi和存储时间组Ci;根据这些参数计算得到排值,并根据排值对精修数据进行从大到小的排序;
同时将精修数据存储到本地存储单元后,能够借助自管理单元判定此时本地存储单元的存储情况,根据实时的存储情况处理出不同的信号,针对备份信号和清理信号,并结合精修数据的排序,在出现备份信号时对其进行备份,否则对其进行清理,清理过程按照对应公开技术进行,保证了本地存储单元的存储空间以及重要因素的云存储;本发明简单有效且易于实用。
以上内容仅仅是对本发明结构所作的举例和说明,所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离发明的结构或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。

Claims (2)

1.一种关于冷冻电镜单颗粒分析数据全流程自动分析的方法,其特征在于,该方法包括下述步骤:
步骤一:数据导入选择数据目录和工作目录;选择已有的参数设置,用户导入先前的运算参数设置;
选择已有的reference,2D-reference作为挑颗粒模板以及3D-reference作为三维分类及精修模板;
步骤二:进行对原始数据的无损压缩和打包;
步骤三:数据流程处理,具体包括:
S1:首先进行预处理流程,预处理流程包含漂移矫正和CTF矫正;此两项为承接关系,每一张图片先进行数据的漂移矫正后进行CTF矫正;漂移矫正借助motioncor2实现,CTF矫正借助CTFFIND4或者GCTF实现;通过参数接口修改参数;显示接口显示预处理后的结果,包括图片略缩图、CTF图、motion曲线及一些数值信息,并提供筛选接口供用户筛选;
S2:进行颗粒挑选流程,具体为:
将标样数据挑出;标样数据包括20S/apoferrtin/80S;运行参数接口提供不同软件对应的参数,并提供测试接口便于用户修改参数后实时显示某张数据挑颗粒结果以便测试参数;提供抓取接口提取颗粒;
步骤四:进行二维分类;
S10:对提取后的颗粒进行二维分类;每抓取1万个颗粒则进行二维分类,提供自动挑选分组的参数接口和手动挑选的接口,每一组挑选出来后就把好的分组颗粒融到一块以备下一步任务;
S20:运行参数接口提供不同软件对应的参数,显示界面实时显示当组分类的结果,以及上组挑选的分组结果;提供保留接口将所选的2D分组保留成2D-reference进行颗粒挑选;
步骤五:进行三维初始模型建模;
S1:二维分组后的颗粒需要reference来进行三维分类,若用户无已有的reference,则需要从头重构出一个初始模型;初始模型中颗粒数达到万级别;投影角度为指定数量的不同方向投影的颗粒来建立有效模型,指定数量超过X1,X1为预设值;
S2:提供测试接口进行数据及参数的计算测试;运行参数接口提供不同软件对应的参数,显示界面实时显示每轮的3D投影及截面图,或者显示每轮的3D图像;
步骤六:进行三维分组;
S1:当有一个可信的reference后,二维分组颗粒需要进行三维分组;与二维分类策略一样,采用“批量”计算的方式,“批量”指代同时处理数量超过X2,X2为预设值;根据对称性来决定颗粒数,具体为提交颗粒数=指定非对称颗粒数/对称性;
S2:提供自动挑选分组的参数接口和手动挑选的接口,每一组挑选出来后就把好的分组颗粒融到一块以备下一步任务;
步骤七:三维精修;
当有足够多三维分组的颗粒,可以进行进一步的精修;同样采用“批量”计算的方式,根据对称性来决定颗粒数,具体为:提交颗粒数=指定非对称颗粒数/对称性;
每有新的一组运算结束后,会融合在一块根据已有的Euler值重构出新一轮的精修结果,得到精修数据;
步骤八:对精修数据借助存储系统进行存储,且自动进行管理过程;
所述数据目录是用户通过采集软件拍摄的原始数据存放目录,由用户设定;工作目录是软件在计算时产生的中间文件和结果文件所在的总目录,由用户设定,设置在固态硬盘的SSD路径里;
所述存储系统包括数据获取单元、身份绑定单元、身份库、处理器、用户单元、存储监管单元、云存储单元、本地存储单元和自管理单元;
其中,所述数据获取单元用于获取处理好的精修数据,并将对应的精修数据及用户的身份信息一同传输到身份绑定单元,所述身份绑定单元用于结合身份库对精修数据及身份信息进行特值赋予过程,得到对应身份信息的特值;
所述身份绑定单元用于将精修数据及其对应的特值传输到处理器,所述处理器用于将精修数据及其对应的特值传输到存储监管单元,所述存储监管单元用于结合本地存储单元完成存储监控操作,得到由精修数据、初存时间和特值构成的精修存储信息;
所述自管理单元接收存储监管单元传输的精修存储信息,并结合云存储单元对本地存储单元内存储的精修数据,进行存储自管理,存储自管理的具体步骤如下:
S010:获取到所有本地存储单元存储的精修数据,将其标记为Ji,i=1...m;
S020:令i=1,选取对应的精修数据;
S030:获取到其近两个月的访问次数,访问次数获取方式为:
S031:当对应用户对该精修数据进行查看或调用中任一动作时,且在预设时间T1内并未再次对该精修数据进行任何操作时,精修数据访问次数加一;
S032:滤除所有不符合时间限制的该精修数据的访问次数,不符合时间限制指定对应访问精修数据的时间超出了两个月范围,两个月范围为从当下最新时间往前推两个月;
S033:获取到所有符合时间限制的对应精修数据的访问次数,将访问次数对应标记为F1;
S040:根据精修存储信息获取到对应精修数据的初存时间,根据初存时间,获取到当下距离初存时间的时间,将该时间标记为存储时间,对应将存储时间标记为C1;
S050:获取到精修数据的内存占用大小,将其标记为内存占用值Z1;
S060:获取到精修数据的特值,将特值标记为P1;
S070:令i=i+1,获取到对应的精修数据;
S080:重复步骤S030-S060,获取到对应精修数据的特值、内存占用值、访问次数和存储时间;
S090:重复步骤S070-S090,直到对所有的精修数据处理完成,得到所有精修数据的特值组Pi、内存占用值组Zi、访问次数组Fi和存储时间组Ci,其中i=1...m,且Pi、Zi、Fi、Ci与Ji均为一一对应;
S100:对本地存储单元进行存储预测,得到备份信号或清理信号;
S110:根据Pi、Zi、Fi和Ci来计算Ji的排值Qpi,具体计算公式为:
Qpi=0.28*Pi+0.22/Zi+0.296*Fi+0.204/Ci;
式中,0.28、0.22、0.296和0.204均为权值,因为各个因素对最终结果影响不同,故此处引入权值;
S120:根据Qpi值从大到小的顺序对精修数据Ji进行排序;
当产生备份信号时,将排名前X8的精修数据标记为备份精修数据,将其传输到云存储单元;X8为预设值;
当产生清理信号时,将备份精修数据删除,之后按照排名依次从后往前对精修数据Ji进行删除,直到剩余存储量占本地存储单元总存储量的X9以上,X9<1,且X9为预设值;
所述特值赋予过程的具体步骤为:
S10:首先获取到精修数据及其对应的身份信息;
S20:身份库内存储有身份信息对应的特值,特值划分方法为:
S21:根据用户身份将用户划分为若干个等级,从等级一到等级n,得到n个等级信息;
S22:根据用户身份的等级信息,对应设置特值,特值等于n,n为对应的等级;
S30:将身份信息与身份库进行比对,获取到对应身份信息的特值;
所述存储监控操作的具体步骤为:
SS1:获取到精修数据;
SS2:获取到接收到精修数据的时间戳,将该时间戳标记为初存时间;
SS3:将精修数据与初存时间、特值绑定融合,形成精修存储信息;
SS4:将精修存储信息传输到自管理单元;
SS5:将精修数据传输到本地存储单元进行实时存储;
所述存储预测的具体方式为:
S101:获取到近X3天的单天存储量,单天存储量获取方式为每天在固定时间获取一次今天相较于昨天该同一时间的增长量,将其视为单天存储量,将单天存储量标记为Dtj,j=1...X3;X3为预设值;
S102:计算得到单天存储量Dti的平均值,将其标记为单天均量Dp;
S103:利用公式求取稳值W,
S104:去除数据单天存储量Dt1,之后按照S102-S103的相同原理获取到去除数据Dt1之后,剩余的Dtj,j=2...X3的稳值,将其标记为W1;
S105:按照i=2...X3的顺序依次去除对应的单天存储量数据,得到对应的稳值Wj,j=1...X3;
S106:将满足W-Wj>X4,对应的Dtj删除;计算剩余单天存储量的均值,将该均值标记为单天预增量Dy;X4为预设值;
S107:获取到本地存储单元内的剩余存储量Sr,以及总容量Zr;
S108:利用公式Yt=Qz{(Sr-(Zr*X5))/Dy},计算得到预测天数,其中Qz{*}表示为对中括号内的数据取整;X5为预设值;
S109当Yt≤X6时,产生备份信号;X6为预设值;
当Yt≤X7时,产生清理信号,X7为预设值,且X7<X6。
2.根据权利要求1所述的一种关于冷冻电镜单颗粒分析数据全流程自动分析的方法,其特征在于,所述自管理单元用于将备份精修数据传输到云存储单元,所述云存储单元接收自管理单元传输的备份精修数据并进行云存储;
所述用户单元用于录入所有的预设值X1-X9以及T1。
CN202010288696.8A 2020-04-14 2020-04-14 一种关于冷冻电镜单颗粒分析数据全流程自动分析的方法 Active CN111461054B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010288696.8A CN111461054B (zh) 2020-04-14 2020-04-14 一种关于冷冻电镜单颗粒分析数据全流程自动分析的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010288696.8A CN111461054B (zh) 2020-04-14 2020-04-14 一种关于冷冻电镜单颗粒分析数据全流程自动分析的方法

Publications (2)

Publication Number Publication Date
CN111461054A CN111461054A (zh) 2020-07-28
CN111461054B true CN111461054B (zh) 2021-04-27

Family

ID=71684512

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010288696.8A Active CN111461054B (zh) 2020-04-14 2020-04-14 一种关于冷冻电镜单颗粒分析数据全流程自动分析的方法

Country Status (1)

Country Link
CN (1) CN111461054B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102571842A (zh) * 2010-12-16 2012-07-11 中国移动通信集团公司 一种存储内容删除方法、系统及设备
CN104537713A (zh) * 2015-01-05 2015-04-22 清华大学 一种新型三维重构系统
CN106951918A (zh) * 2017-03-01 2017-07-14 上海交通大学 一种用于冷冻电镜分析的单颗粒图像聚类方法
CN110377562A (zh) * 2019-07-23 2019-10-25 宿州星尘网络科技有限公司 基于Hadoop开源平台的大数据安全存储方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10118996B2 (en) * 2012-02-24 2018-11-06 Purdue Research Foundation Polyrotaxanes and uses thereof
US9201906B2 (en) * 2012-12-21 2015-12-01 Commvault Systems, Inc. Systems and methods to perform data backup in data storage systems
US20140181038A1 (en) * 2012-12-21 2014-06-26 Commvault Systems, Inc. Systems and methods to categorize unprotected virtual machines
CN107888635A (zh) * 2016-09-30 2018-04-06 中国电信股份有限公司 用于实现移动边缘存储的方法和装置
CN109639758B (zh) * 2018-10-31 2020-05-12 中国科学院信息工程研究所 内容中心网络中用户行为隐私的保护方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102571842A (zh) * 2010-12-16 2012-07-11 中国移动通信集团公司 一种存储内容删除方法、系统及设备
CN104537713A (zh) * 2015-01-05 2015-04-22 清华大学 一种新型三维重构系统
CN106951918A (zh) * 2017-03-01 2017-07-14 上海交通大学 一种用于冷冻电镜分析的单颗粒图像聚类方法
CN110377562A (zh) * 2019-07-23 2019-10-25 宿州星尘网络科技有限公司 基于Hadoop开源平台的大数据安全存储方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于GPU的单颗粒冷冻电镜三维重构并行优化与实现;温文;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190115(第1期);E059-165 *
基于集群规模调整的节能存储策略研究;陈浩;《中国优秀硕士学位论文 信息科技辑》;20170315(第3期);I137-315 *
金黄色葡萄球菌噬菌体80αSak结构生物学研究和光修复酶phr相关蛋白表达纯化;朱孔福;《中国优秀硕士学位论文全文数据库 医药卫生科技辑》;20200215(第2期);I138-2258 *

Also Published As

Publication number Publication date
CN111461054A (zh) 2020-07-28

Similar Documents

Publication Publication Date Title
CN106796716B (zh) 用于为低分辨率图像提供超分辨率的设备和方法
CN110957009B (zh) 一种基于深度混合网络的单细胞转录组缺失值填补方法
US5995651A (en) Image content classification methods, systems and computer programs using texture patterns
CN110554958A (zh) 图数据库测试方法、系统、设备和存储介质
CN109685097A (zh) 一种基于gan的图像检测方法及装置
CN112463859B (zh) 基于大数据和业务分析的用户数据处理方法及服务器
CN112447265B (zh) 基于模块化密集卷积网络的赖氨酸乙酰化位点预测方法
CN106327468A (zh) 曲线检测方法和曲线检测装置
CN113239869A (zh) 基于关键帧序列和行为信息的两阶段行为识别方法及系统
CN112819821A (zh) 一种细胞核图像检测方法
CN113723535A (zh) 基于CycleGAN深度学习的细胞微核组学图像处理方法及存储介质
CN115391561A (zh) 图网络数据集的处理方法、装置、电子设备、程序及介质
CN115730947A (zh) 银行客户流失预测方法及装置
CN111832727A (zh) 跨数据、信息、知识模态与量纲的本质识别方法及组件
CN111461054B (zh) 一种关于冷冻电镜单颗粒分析数据全流程自动分析的方法
JP6733984B2 (ja) 画像解析装置
CN113033650A (zh) 图像分类方法、分类模型的训练方法、装置及存储介质
CN112150612A (zh) 三维模型构建方法、装置、计算机设备及存储介质
CN115631192B (zh) 一种阀门试压机的控制方法、装置、设备及介质
CN110781755A (zh) 一种建筑钢筋智能识别计量方法及系统
CN110308873A (zh) 一种数据存储方法、装置、设备及介质
CN116311492A (zh) 一种基于深度相机和轮廓提取的手势识别方法及系统
CN112613521B (zh) 基于数据转换的多层次数据分析系统及方法
CN115269438A (zh) 针对图像处理算法的自动化测试方法及装置
CN110730342B (zh) 一种视频质量分析方法、装置、服务器及终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant