CN115809027B - 一种生物数据采集及管理系统、装置及方法 - Google Patents

一种生物数据采集及管理系统、装置及方法 Download PDF

Info

Publication number
CN115809027B
CN115809027B CN202310039826.8A CN202310039826A CN115809027B CN 115809027 B CN115809027 B CN 115809027B CN 202310039826 A CN202310039826 A CN 202310039826A CN 115809027 B CN115809027 B CN 115809027B
Authority
CN
China
Prior art keywords
data
segment
storage
biological
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310039826.8A
Other languages
English (en)
Other versions
CN115809027A (zh
Inventor
高俊顺
高俊莉
王炜欣
李相辰
张�浩
关虹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Guangke Ander Biotechnology Co ltd
Original Assignee
Hangzhou Guangke Ander Biotechnology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Guangke Ander Biotechnology Co ltd filed Critical Hangzhou Guangke Ander Biotechnology Co ltd
Priority to CN202310039826.8A priority Critical patent/CN115809027B/zh
Publication of CN115809027A publication Critical patent/CN115809027A/zh
Application granted granted Critical
Publication of CN115809027B publication Critical patent/CN115809027B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Abstract

本发明公开了一种生物数据采集及管理系统、装置及方法,其中的生物数据采集及管理系统包括采集器、服务器和存储器,其中的服务器用于接收采集器发送的生物数据,将单个生物数据划分成N个大小相同的数据片段P,记为P1、P2、……、Pn、……PN,其中N>2;用于为每个数据片段分配存储地址,并在每个数据片段P中附加索引信息,数据片段Pn的索引信息包括数据片段Pn‑1的索引信息、及数据片段Pn+1的索引信息;用于创建校验片段;用于将数据片段P发送给存储器。以上所述的生物数据采集及管理系统可以对生物数据进行有序管理,提高生物数据的使用效率,同时提高数据的安全性。

Description

一种生物数据采集及管理系统、装置及方法
技术领域
本发明涉及数据处理领域,尤其涉及一种生物数据采集及管理系统、装置及方法。
背景技术
现代医学在一定程度上是统计科学,也即基于大量生物数据的统计分析,评估身体健康状况,并最终得出结论。在这个过程中需要统计和分析大量的生物数据,而当前生物数据的存储普遍存在无序随机的问题,容易降低存储空间的利用率,也降低了数据分析操作的效率,对生物数据的存储和利用造成不便。同时,生物数据往往涉及隐私,在数据存储和应用的过程中还需要充分考虑数据安全和隐私保护的问题。
发明内容
本发明要解决的技术问题是提供一种生物数据采集及管理系统、装置及方法,对生物数据进行有序管理,提高生物数据的使用效率,同时提高数据的安全性。
为了解决上述技术问题,本发明提供的技术方案如下:一种生物数据采集及管理系统,至少包括:
采集器,用于采集生物数据,并发送给服务器;
服务器,用于接收采集器发送的生物数据,将单个生物数据划分成N个大小相同的数据片段P,记为P1、P2、……、Pn、…、PN,其中N>2;用于为每个数据片段分配存储地址,并在每个数据片段P中附加索引信息,数据片段Pn的索引信息包括数据片段Pn-1的索引信息、及数据片段Pn+1的索引信息;
用于创建校验片段;
用于将数据片段P发送给存储器;
用于建立和维护数据索引文件,其中的索引文件记录每一个生物数据所对应的第一个数据片段P1的存储地址和片段尺寸、及校验片段的存储地址和片段尺寸;
存储器,包括生物数据存储模块,生物数据存储模块的数量不小于N+1;用于接收并存储服务器发送的数据片段P,每一生物数据的任意两个数据片段P存储在不同的生物数据存储模块内。
作为优选,还包括系统存储模块,服务器在系统存储模块中保存和维护数据索引文件。
作为优选,服务器还用于将各个生物数据存储模块的逻辑块空间划分为若干连续的存储区间;各个存储区间的空间大小相同,且存储区间的空间大小为数据片段P大小的整数倍;
服务器还用于创建和维护可用存储区间列表,可用存储区间列表记录各个生物数据存储模块中存储区间的信息,包括所述生物数据存储模块编号、存储区间地址、存储区间剩余空间大小和存储区间剩余空间地址段。
作为优选,服务器还用于当任一存储区间内存储有数据,且剩余空间不为0时,在可用存储区间列表中对应存储区间的记录增加“已使用”标识;
服务器在对数据片段P分配存储地址时,优先从可用存储区间列表中选择带有“已使用”标记的存储区间作为存放第一个数据片段P1的存储区间;若无带有“已使用”标记的存储区间,再选择不带有“已使用”标记的存储区间作为存放第一个数据片段P1的存储区间,并在可用存储区间列表中为对应存储区间的记录增加“已使用”标记;
服务器还用于当任一存储区间在增加数据片段P后剩余空间为0时,将对应存储区间从可用存储区间列表中删除。
作为优选,服务器还用于当其中一个数据片段缺失时,根据现有数据片段和校验片段修复缺失的数据片段。
作为优选,服务器还用于在收到数据更新需求时,接收替换数据,并将替换数据划分成与原始数据大小相同的数据片段P,记为P1 、P2 、……、Ps 、…、PS ,其中S>2;服务器用于将P1的存储地址附加给P1 ,P2的存储地址附加给P2 ,以此类推;
服务器用于重新创建与替换数据匹配的校验分片;
服务器还用于重新对数据分片P和校验分片附加索引信息,并更新数据索引文件。
一种生物数据的管理装置,至少包括:
数据接收单元,用于接收采集器采集的生物数据;
数据预处理单元,用于将生物数据划分成N个大小相同的数据片段P,记为P1、P2、……、Pn、…、PN,其中N>2;用于对每个数据片段P分配存储地址,并附加索引信息,第n个数据片段Pn的索引信息包括数据片段Pn-1的索引信息、及数据片段Pn+1的索引信息;用于创建校验片段;
片段索引单元,用于创建和维护数据索引文件,记录每一个生物数据所对应的第一个数据片段P1的存储地址和片段尺寸、及校验片段的存储地址和片段尺寸;
数据操作单元,用于对经过预处理的生物数据进行存储和提取操作。
作为优选,还包括数据异常修复单元,用于当其中一个数据片段缺失时,根据现有数据片段和校验片段修复缺失的数据片段。
作为优选,还包括数据存储单元,用于接收并保存生物数据;
还包括存储空间维护单元,用于将各个生物数据存储单元的逻辑块空间划分为若干连续的存储区间;各个存储区间的空间大小相同,且存储区间的空间大小为数据片段P大小的整数倍;
用于创建和维护可用存储区间列表,可用存储区间列表记录各个生物数据存储模块中存储区间的信息,包括所述生物数据存储模块编号、存储区间地址、存储区间剩余空间大小和存储区间剩余空间地址段。
一种生物数据的管理方法,包括:
服务器接收生物数据,将生物数据划分成N个大小相同的数据片段P,记为P1、P2、……、Pn、…、PN,其中N>2;对每个数据片段P分配存储地址,并附加索引信息;数据片段Pn的索引信息包括数据片段Pn-1的索引信息、及数据片段Pn+1的索引信息;
创建校验片段;
服务器建立数据索引文件,将每一个生物数据所对应的第一个数据片段P1的存储地址和片段尺寸、及校验片段的存储地址和片段尺寸记录在数据索引文件中;;
服务器将各个数据片段P发送给存储器,并存储在对应的地址。
采用本发明的生物数据采集及管理系统、装置及方法,至少具有以下有益效果:
1.生物数据以数据片段P的形式进行存储,通过控制数据片段P的大小,可以做到生物数据的有序存储,提高存储空间的利用率。
2.生物数据以数据片段P的形式进行存储,在提取时需要将单个生物数据对应的所有数据片段P均获取后才能得到完整数据信息,对生物数据起到了保护作用,数据安全性更好。
3.对每个数据片段P附加索引信息,构成一个包含双向指针的查询回路,可以根据当前数据片段的索引信息,迅速获知上一个数据片段和下一个数据片段的存储地址,提高数据提取的效率。
4.数据索引文件的建立可以准确获知数据第一个片段及校验片段的存储地址,便于快速的完成数据查询操作。
5.通过设置校验片段,可以对检索到的数据片段P进行校验,提高准确率。同时当其中一个数据片段Pn丢失时,根据现有数据片段和校验片段修复缺失的数据片段Pn,提高数据的整体恢复能力。
6.通过将存储模块划分成多个存储区间,并建立可用存储区间列表,对各个存储区间的使用情况进行记录,可以进一步提高数据存储的有序性,并提高存储器的空间利用率。
附图说明
图1为本实施例生物数据采集及管理系统的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
实施例
一种生物数据的管理方法,包括:
数据采集:采集器采集生物数据,并发送给服务器,生物数据包括图片数据,采集器通过iscsi协议将图片数据发送给服务器。
数据预处理:服务器接收生物数据,将生物数据划分成N个大小相同的数据片段P,记为P1、P2、……、Pn、…、PN,其中N>2。对每个数据片段P分配存储地址,并附加索引信息。数据片段Pn的索引信息包括数据片段Pn-1的索引信息、及数据片段Pn+1的索引信息。
服务器创建校验片段。
服务器建立数据索引文件,将每一个生物数据所对应的第一个数据片段P1的存储地址和片段尺寸、及校验片段的存储地址和片段尺寸记录在数据索引文件中。
数据存储:服务器将各个数据片段P发送给存储器,并存储在对应的地址。
数据提取:当需要使用生物数据,有提取生物数据需求时,向服务器发送数据提取请求,服务器接收数据提取请求后,从数据索引文件中查找该生物数据第一个数据分片P1的存储地址,提取第一个数据分片P1,并根据第一个数据分片P1中的索引信息,查找第二个数据分片P2,以此类推,直至提取最后一个数据分片PN,合成完整数据后反馈,完成数据提取操作。
数据修复:当数据提取过程中发现某个数据片段P缺失时,或者存储器部分损坏造成部分数据片段P丢失时,需要进行数据修复操作。服务器根据现有数据片段和校验片段修复缺失的数据片段Pn
具体的,数据修复时,需要考虑缺失数据片段在整个数据片段中所述的位置,至少需要考虑三种情况,即第一个数据片段缺失、中间的数据片段缺失和最后一个数据片段缺失。
当缺失的数据片段为第一个数据片段P1时,服务器从数据索引文件中查找该生物数据对应的校验片段的起始地址,并从校验片段的索引信息中找到最后一个数据片段PN的起始地址,以此类推,以倒序形式寻找出每个数据片段P。最终可以找齐除了第一数据片段P1之外的其他所有数据片段P,并基于这些数据片段P恢复损坏的第一个数据片段P1
当缺失的数据片段为中间的数据片段Pn时,服务器从数据索引文件中查找该生物数据对应的第一个数据片段P1和校验片段的起始地址,并从第一个数据片段P1从前往后依次寻找出P1—Pn-1这n-1个数据片段,同时从校验片段的索引信息中找到最后一个数据片段PN的起始地址,以此类推,以倒序形式寻找出数据片段Pn+1—PN。最终可以找齐除了缺失数据片段之外的其他所有数据片段P,并基于这些数据片段P恢复损坏的缺失数据片段。
当缺失的数据片段为最后一个数据片段PN时,服务器从数据索引文件中查找该生物数据对应的第一个数据片段P1的起始地址,并从第一个数据片段P1从前往后依次寻找出P1—PN-1这N-1个数据片段,并基于这些数据片段P恢复损坏的数据片段PN
数据更改:当生物数据更新时,需要将新的生物数据覆盖原始生物数据。首先确定原始生物数据的各个片段大小及存储地址,将替换数据按照原始生物数据的数据片段大小进行分割,并依次将各个新的数据片段P分配至对应原始数据片段的存储地址。
具体的,服务器接收替换数据,并将替换数据划分成与原始数据大小相同的数据片段P,记为P1 、P2 、……、Ps 、…、PS ,其中S>2;服务器用于将P1的存储地址分配给P1 ,P2的存储地址分配给P2 ,以此类推。服务器重新创建与替换数据匹配的校验分片。服务器重新对数据分片P和校验分片附加索引信息,并更新数据索引文件。
在数据更改时,至少需要考虑三种情况,即替换数据的大小大于原始数据、替换数据的大小与原始数据相同、及替换数据的大小小于原始数据。
当替换数据的大小大于原始数据时,也即替换数据的数据片段P数量大于原始数据的数据片段P数量,首先将替换数据生成的数据片段P逐一覆盖原始数据的数据片段P。对于多出的部分数据片段P,视为新数据的保存,分配未使用的存储地址。
当替换数据的大小与原始数据相同时,也即替换数据的数据片段P数量等于原始数据的数据片段P数量,只需将替换数据生成的数据片段P逐一覆盖原始数据的数据片段P即可。
当替换数据的大小小于原始数据时,也即替换数据的数据片段P数量小于原始数据的数据片段P数量,首先将替换数据生成的数据片段P逐一覆盖原始数据的数据片段P。此时原始数据占据的存储区间仍有剩余,服务器将剩余的存储区间撤除空间占用,修改可用存储区间列表中记录的对应存储区间的剩余空间尺寸和剩余空间地址段。具体的,将撤除前无剩余空间的存储区间重新放入可用存储区间列表中;若存储区间因为撤除数据片段后成为了空单元,则在可用存储区间列表的记录中删除“已使用”标记。
具体的,以图片数据为例具体说明数据预处理步骤,当服务器收到来自生物数据采集仪器的图片数据,先将图片数据进行分片成数据片段P,各个数据片段P的大小相同。若最后一个数据片段的大小小于第一个数据片段,则用NULL填充。
分片的目的有两个,一是提供隐私保护,例如生理图像包含人脸,分片后,依据单个数据片段P将无法识别病人的身份信息;二是提供数据恢复能力,系统依据图像的多个数据片段P计算校验信息,若其中一个数据片段P丢失或损坏,可以依据其他数据片段P和校验片段实现该丢失数据片段P的信息恢复。
分片时,服务器可以设定各个数据片段P的尺寸。数据片段P的实际尺寸是数据自身的尺寸+前后两个数据索引信息的尺寸。
数据片段P的尺寸设定遵循如下原则:1.图像至少能够分成N个数据片段P,N大于2,具体可以设置,这是为了便于提供校验和恢复机制;2.图像分片后的数量小于等于硬盘数量,这是为了避免一块硬盘损坏无法恢复数据;3.在满足前两条的情况下,选择剩余空间符合要求的存储区间,若存在多个存储区间符合要求,则选择剩余空间最小的存储区间,这样可以避免存储区间的空间浪费。
具体的,存储器包括生物数据存储模块,生物数据存储模块的数量不小于N+1,具体的,每个硬盘对应一个生物数据存储模块,也即硬盘的数量不少于数据片段P的数量。存储器接收并存储服务器发送的数据片段P,在保存时确保每一生物数据的任意两个数据片段P存储在不同的生物数据存储模块内。还包括系统存储模块,服务器在系统存储模块中保存和维护数据索引文件。为了更好的保护数据索引文件。
具体的,在数据存储步骤中,服务器将各个生物数据存储模块的逻辑块空间划分为若干连续的存储区间,各个存储区间的空间大小相同,且存储区间的空间大小为数据片段P大小的整数倍。存储空间的大小及数据片段的具体大小都可以预先设定。每一个存储区间可以保存多个数据片段P,可以充分利用存储器的空间,同时做到数据的有序管理。
为了更好的对存储器的空间进行管理,服务器在系统存储模块中创建和维护可用存储区间列表,可用存储区间列表记录各个生物数据存储模块中存储区间的信息,包括所述生物数据存储模块编号、存储区间地址、存储区间剩余空间大小和存储区间剩余空间地址段。
当任一存储区间内存储有数据,且剩余空间不为0时,服务器在可用存储区间列表中对应存储区间的记录增加“已使用”标识。
服务器在对数据片段P分配存储地址时,优先从可用存储区间列表中选择带有“已使用”标记的存储区间作为存放第一个数据片段P1的存储区间。若无带有“已使用”标记的存储区间,再选择不带有“已使用”标记的存储区间作为存放第一个数据片段P1的存储区间,并在可用存储区间列表中为对应存储区间的记录增加“已使用”标记。对后续数据片段采用相同方法分配存储地址。
服务器还用于当任一存储区间在增加数据片段P后剩余空间为0时,则将对应存储区间从可用存储区间列表中删除。
具体的,在数据预处理步骤中,在对数据片段Pn附加索引信息时,附加信息包括数据片段Pn-1及数据片段Pn+1所在的存储区间地址及相对于存储区间地址的偏移量。其中第一个数据片段P1所附加的索引信息为第二个数据片段P2的存储区间地址及相对于存储区间地址的偏移量,最后一个数据片段PN所附加的索引信息为上一个数据片段PN-1和校验片段的存储区间地址及相对于存储区间地址的偏移量,校验片段附加的索引信息包含第一个数据片段和最后一个数据片段的的存储区间地址及相对于存储区间地址的偏移量。
具体的,在数据预处理步骤中,校验片段的大小与数据片段P的大小相同,校验片段由数据片段P按照RAID5算法生成。
具体的,在数据预处理步骤中,数据索引文件记录的存储地址包括对应片段所在的存储区间地址和片段相对存储区间地址的偏移量。
具体的,在数据修复步骤中,当第一个数据片段缺失时,服务器首先从数据索引文件中查询校验片段的存储地址,通过校验片段进一步查询到最后一个数据片段的地址,并最终以倒序方式依次查询出除第一个数据片段之外所有数据片段,并根据这些数据片段恢复第一个数据片段。
如图1所示,一种生物数据采集及管理系统,至少包括:
采集器,用于采集生物数据,并发送给服务器。
服务器,用于接收采集器发送的生物数据,将单个生物数据划分成N个大小相同的数据片段P,记为P1、P2、……、Pn、…、PN,其中N>2;用于为每个数据片段分配存储地址,并在每个数据片段P中附加索引信息,数据片段Pn的索引信息包括数据片段Pn-1的索引信息、及数据片段Pn+1的索引信息。用于创建校验片段。用于将数据片段P发送给存储器。用于建立和维护数据索引文件,其中的索引文件记录每一个生物数据所对应的第一个数据片段P1的存储地址和片段尺寸、及校验片段的存储地址和片段尺寸。
存储器,包括生物数据存储模块,生物数据存储模块的数量不小于N+1;用于接收并存储服务器发送的数据片段P,每一生物数据的任意两个数据片段P存储在不同的生物数据存储模块内。
作为优选,还包括系统存储模块,服务器在系统存储模块中保存和维护数据索引文件。
作为优选,服务器还用于将各个生物数据存储模块的逻辑块空间划分为若干连续的存储区间;各个存储区间的空间大小相同,且存储区间的空间大小为数据片段P大小的整数倍;
服务器还用于创建和维护可用存储区间列表,可用存储区间列表记录各个生物数据存储模块中存储区间的信息,包括所述生物数据存储模块编号、存储区间地址、存储区间剩余空间大小和存储区间剩余空间地址段。
作为优选,校验片段的大小与数据片段P的大小相同,校验片段由数据片段P按照RAID5算法生成。
作为优选,服务器还用于当其中一个数据片段缺失时,根据现有数据片段和校验片段修复缺失的数据片段。
作为优选,服务器还用于当任一存储区间内存储有数据,且剩余空间不为0时,在可用存储区间列表中对应存储区间的记录增加“已使用”标识。
服务器在对数据片段P分配存储地址时,优先从可用存储区间列表中选择带有“已使用”标记的存储区间作为存放第一个数据片段P1的存储区间;若无带有“已使用”标记的存储区间,再选择不带有“已使用”标记的存储区间作为存放第一个数据片段P1的存储区间,并在可用存储区间列表中为对应存储区间的记录增加“已使用”标记。
作为优选,服务器还用于当任一存储区间在增加数据片段P后剩余空间为0时,则将对应存储区间从可用存储区间列表中删除。
服务器还用于在收到数据更新需求时,接收替换数据,并将替换数据划分成与原始数据大小相同的数据片段P,记为P1 、P2 、……、Ps 、…、PS ,其中S>2;服务器用于将P1的存储地址附加给P1 ,P2的存储地址附加给P2 ,以此类推。服务器用于重新创建与替换数据匹配的校验分片。服务器还用于重新对数据分片P和校验分片附加索引信息,并更新数据索引文件。
一种生物数据的管理装置,至少包括:
数据接收单元,用于接收采集器采集的生物数据。
数据预处理单元,用于将生物数据划分成N个大小相同的数据片段P,记为P1、P2、……、Pn、…、PN,其中N>2;用于对每个数据片段P分配存储地址,并附加索引信息,第n个数据片段Pn的索引信息包括数据片段Pn-1的索引信息、及数据片段Pn+1的索引信息。用于创建校验片段。
片段索引单元,用于创建和维护数据索引文件,记录每一个生物数据所对应的第一个数据片段P1的存储地址和片段尺寸、及校验片段的存储地址和片段尺寸。
数据操作单元,用于对经过预处理的生物数据进行存储和提取操作。
作为优选,还包括数据异常修复单元,当其中一个数据片段缺失时,根据现有数据片段和校验片段修复缺失的数据片段。
作为优选,还包括数据存储单元,用于接收并保存生物数据;
还包括存储空间维护单元,用于将各个生物数据存储单元的逻辑块空间划分为若干连续的存储区间,各个存储区间的空间大小相同,且存储区间的空间大小为数据片段P大小的整数倍。
用于创建和维护可用存储区间列表,可用存储区间列表记录各个生物数据存储模块中存储区间的信息,包括所述生物数据存储模块编号、存储区间地址、存储区间剩余空间大小和存储区间剩余空间地址段。
总之,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,所能轻易想到的各种等效的修改、替换和改进等都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims (8)

1.一种生物数据采集及管理系统,其特征在于,至少包括:
采集器,用于采集生物数据,并发送给服务器;
服务器,用于接收采集器发送的生物数据,将单个生物数据划分成N个大小相同的数据片段P,记为P1、P2、……、Pn、…、PN,其中N>2;用于为每个数据片段分配存储地址,并在每个数据片段P中附加索引信息,数据片段Pn的索引信息包括数据片段Pn-1的索引信息、及数据片段Pn+1的索引信息;
用于创建校验片段;
用于将数据片段P发送给存储器;
用于建立和维护数据索引文件,其中的索引文件记录每一个生物数据所对应的第一个数据片段P1的存储地址和片段尺寸、及校验片段的存储地址和片段尺寸;
服务器还用于数据提取:服务器接收数据提取请求后,从数据索引文件中查找该生物数据第一个数据分片P1的存储地址,提取第一个数据分片P1,并根据第一个数据分片P1中的索引信息,查找第二个数据分片P2,以此类推,直至提取最后一个数据分片PN,合成完整数据后反馈,完成数据提取操作;
服务器还用于当其中一个数据片段缺失时,根据现有数据片段和校验片段修复缺失的数据片段:
当缺失的数据片段为第一个数据片段P1时,服务器从数据索引文件中查找该生物数据对应的校验片段的起始地址,并从校验片段的索引信息中找到最后一个数据片段PN的起始地址,以此类推,以倒序形式寻找出每个数据片段P,最终可以找齐除了第一数据片段P1之外的其他所有数据片段P,并基于这些数据片段P恢复损坏的第一个数据片段P1
当缺失的数据片段为中间的数据片段Pn时,服务器从数据索引文件中查找该生物数据对应的第一个数据片段P1和校验片段的起始地址,并从第一个数据片段P1从前往后依次寻找出P1—Pn-1这n-1个数据片段,同时从校验片段的索引信息中找到最后一个数据片段PN的起始地址,以此类推,以倒序形式寻找出数据片段Pn+1—PN,最终可以找齐除了缺失数据片段之外的其他所有数据片段P,并基于这些数据片段P恢复损坏的缺失数据片段;
当缺失的数据片段为最后一个数据片段PN时,服务器从数据索引文件中查找该生物数据对应的第一个数据片段P1的起始地址,并从第一个数据片段P1从前往后依次寻找出P1—PN-1这N-1个数据片段,并基于这些数据片段P恢复损坏的数据片段PN
存储器,包括生物数据存储模块,生物数据存储模块的数量不小于N+1;用于接收并存储服务器发送的数据片段P,每一生物数据的任意两个数据片段P存储在不同的生物数据存储模块内。
2.根据权利要求1所述的生物数据采集及管理系统,其特征在于:还包括系统存储模块,服务器在系统存储模块中保存和维护数据索引文件。
3.根据权利要求1所述的生物数据采集及管理系统,其特征在于:服务器还用于将各个生物数据存储模块的逻辑块空间划分为若干连续的存储区间;各个存储区间的空间大小相同,且存储区间的空间大小为数据片段P大小的整数倍;
服务器还用于创建和维护可用存储区间列表,可用存储区间列表记录各个生物数据存储模块中存储区间的信息,包括生物数据存储模块编号、存储区间地址、存储区间剩余空间大小和存储区间剩余空间地址段。
4.根据权利要求3所述的生物数据采集及管理系统,其特征在于:服务器还用于当任一存储区间内存储有数据,且剩余空间不为0时,在可用存储区间列表中对应存储区间的记录增加“已使用”标识;
服务器在对数据片段P分配存储地址时,优先从可用存储区间列表中选择带有“已使用”标记的存储区间作为存放第一个数据片段P1的存储区间;若无带有“已使用”标记的存储区间,再选择不带有“已使用”标记的存储区间作为存放第一个数据片段P1的存储区间,并在可用存储区间列表中为对应存储区间的记录增加“已使用”标记;
服务器还用于当任一存储区间在增加数据片段P后剩余空间为0时,将对应存储区间从可用存储区间列表中删除。
5.根据权利要求1-4中任一项所述的生物数据采集及管理系统,其特征在于:服务器还用于在收到数据更新需求时,接收替换数据,并将替换数据划分成与原始数据大小相同的数据片段P,记为P1 、P2 、……、Ps 、…、PS ,其中S>2;服务器用于将P1的存储地址附加给P1 ,P2的存储地址附加给P2 ,以此类推;
服务器用于重新创建与替换数据匹配的校验分片;
服务器还用于重新对数据分片P和校验分片附加索引信息,并更新数据索引文件。
6.一种生物数据的管理装置,其特征在于,至少包括:
数据接收单元,用于接收采集器采集的生物数据;
数据预处理单元,用于将生物数据划分成N个数据片段大小相同的P,记为P1、P2、……、Pn、…、PN,其中N>2;用于对每个数据片段P分配存储地址,并附加索引信息,第n个数据片段Pn的索引信息包括数据片段Pn-1的索引信息、及数据片段Pn+1的索引信息;用于创建校验片段;
片段索引单元,用于创建和维护数据索引文件,记录每一个生物数据所对应的第一个数据片段P1的存储地址和片段尺寸、及校验片段的存储地址和片段尺寸;
数据操作单元,用于对经过预处理的生物数据进行存储和提取操作;
数据提取单元,用于从数据索引文件中查找该生物数据第一个数据分片P1的存储地址,提取第一个数据分片P1,并根据第一个数据分片P1中的索引信息,查找第二个数据分片P2,以此类推,直至提取最后一个数据分片PN,合成完整数据后反馈,完成数据提取操作
数据修复单元,用于当其中一个数据片段缺失时,根据现有数据片段和校验片段修复缺失的数据片段:
当缺失的数据片段为第一个数据片段P1时,服务器从数据索引文件中查找该生物数据对应的校验片段的起始地址,并从校验片段的索引信息中找到最后一个数据片段PN的起始地址,以此类推,以倒序形式寻找出每个数据片段P,最终可以找齐除了第一数据片段P1之外的其他所有数据片段P,并基于这些数据片段P恢复损坏的第一个数据片段P1
当缺失的数据片段为中间的数据片段Pn时,服务器从数据索引文件中查找该生物数据对应的第一个数据片段P1和校验片段的起始地址,并从第一个数据片段P1从前往后依次寻找出P1—Pn-1这n-1个数据片段,同时从校验片段的索引信息中找到最后一个数据片段PN的起始地址,以此类推,以倒序形式寻找出数据片段Pn+1—PN,最终可以找齐除了缺失数据片段之外的其他所有数据片段P,并基于这些数据片段P恢复损坏的缺失数据片段;
当缺失的数据片段为最后一个数据片段PN时,服务器从数据索引文件中查找该生物数据对应的第一个数据片段P1的起始地址,并从第一个数据片段P1从前往后依次寻找出P1—PN-1这N-1个数据片段,并基于这些数据片段P恢复损坏的数据片段PN
7.根据权利要求6所述的管理装置,其特征在于:还包括数据存储单元,用于接收并保存生物数据;
还包括存储空间维护单元,用于将各个生物数据存储单元的逻辑块空间划分为若干连续的存储区间;各个存储区间的空间大小相同,且存储区间的空间大小为数据片段P大小的整数倍;
用于创建和维护可用存储区间列表,可用存储区间列表记录各个生物数据存储模块中存储区间的信息,包括所述生物数据存储模块编号、存储区间地址、存储区间剩余空间大小和存储区间剩余空间地址段。
8.一种生物数据的管理方法,其特征在于,包括:
服务器接收生物数据,将生物数据划分成N个大小相同的数据片段P,记为P1、P2、……、Pn、…、PN,其中N>2;对每个数据片段P分配存储地址,并附加索引信息;数据片段Pn的索引信息包括数据片段Pn-1的索引信息、及数据片段Pn+1的索引信息;
创建校验片段;
服务器建立数据索引文件,将每一个生物数据所对应的第一个数据片段P1的存储地址和片段尺寸、及校验片段的存储地址和片段尺寸记录在数据索引文件中;
服务器将各个数据片段P发送给存储器,并存储在对应的地址;
当需要使用生物数据,有提取生物数据需求时,向服务器发送数据提取请求,服务器接收数据提取请求后,从数据索引文件中查找该生物数据第一个数据分片P1的存储地址,提取第一个数据分片P1,并根据第一个数据分片P1中的索引信息,查找第二个数据分片P2,以此类推,直至提取最后一个数据分片PN,合成完整数据后反馈,完成数据提取操作;
当数据提取过程中发现某个数据片段P缺失时,或者存储器部分损坏造成部分数据片段P丢失时,需要进行数据修复操作,服务器根据现有数据片段和校验片段修复缺失的数据片段Pn
具体的,当缺失的数据片段为第一个数据片段P1时,服务器从数据索引文件中查找该生物数据对应的校验片段的起始地址,并从校验片段的索引信息中找到最后一个数据片段PN的起始地址,以此类推,以倒序形式寻找出每个数据片段P,最终可以找齐除了第一数据片段P1之外的其他所有数据片段P,并基于这些数据片段P恢复损坏的第一个数据片段P1
当缺失的数据片段为中间的数据片段Pn时,服务器从数据索引文件中查找该生物数据对应的第一个数据片段P1和校验片段的起始地址,并从第一个数据片段P1从前往后依次寻找出P1—Pn-1这n-1个数据片段,同时从校验片段的索引信息中找到最后一个数据片段PN的起始地址,以此类推,以倒序形式寻找出数据片段Pn+1—PN,最终可以找齐除了缺失数据片段之外的其他所有数据片段P,并基于这些数据片段P恢复损坏的缺失数据片段;
当缺失的数据片段为最后一个数据片段PN时,服务器从数据索引文件中查找该生物数据对应的第一个数据片段P1的起始地址,并从第一个数据片段P1从前往后依次寻找出P1—PN-1这N-1个数据片段,并基于这些数据片段P恢复损坏的数据片段PN
CN202310039826.8A 2023-01-11 2023-01-11 一种生物数据采集及管理系统、装置及方法 Active CN115809027B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310039826.8A CN115809027B (zh) 2023-01-11 2023-01-11 一种生物数据采集及管理系统、装置及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310039826.8A CN115809027B (zh) 2023-01-11 2023-01-11 一种生物数据采集及管理系统、装置及方法

Publications (2)

Publication Number Publication Date
CN115809027A CN115809027A (zh) 2023-03-17
CN115809027B true CN115809027B (zh) 2023-05-30

Family

ID=85487452

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310039826.8A Active CN115809027B (zh) 2023-01-11 2023-01-11 一种生物数据采集及管理系统、装置及方法

Country Status (1)

Country Link
CN (1) CN115809027B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115994236B (zh) * 2023-03-23 2023-08-04 杭州派迩信息技术有限公司 一种航空数据的协同处理方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104394476A (zh) * 2014-11-28 2015-03-04 乐视致新电子科技(天津)有限公司 一种时移播放方法及媒体播放器
CN105446652A (zh) * 2014-08-08 2016-03-30 杭州海康威视数字技术股份有限公司 进行摄像数据存储的方法及装置
WO2016191964A1 (zh) * 2015-05-29 2016-12-08 华为技术有限公司 一种文件系统的管理方法及装置
CN114927169A (zh) * 2021-07-09 2022-08-19 中国科学院微生物研究所 一种分布式阵列存储及基于微生物的高容纠错DNA存储技术(Bio-RAID)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170123714A1 (en) * 2015-10-31 2017-05-04 Netapp, Inc. Sequential write based durable file system
CN107590019B (zh) * 2016-07-07 2021-03-16 北京金山云网络技术有限公司 一种数据存储的方法和装置
CN113722271B (zh) * 2021-07-20 2023-11-21 湖南艾科诺维科技有限公司 用于数据采集回放的文件管理方法、系统及介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105446652A (zh) * 2014-08-08 2016-03-30 杭州海康威视数字技术股份有限公司 进行摄像数据存储的方法及装置
CN104394476A (zh) * 2014-11-28 2015-03-04 乐视致新电子科技(天津)有限公司 一种时移播放方法及媒体播放器
WO2016191964A1 (zh) * 2015-05-29 2016-12-08 华为技术有限公司 一种文件系统的管理方法及装置
CN114927169A (zh) * 2021-07-09 2022-08-19 中国科学院微生物研究所 一种分布式阵列存储及基于微生物的高容纠错DNA存储技术(Bio-RAID)

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Fang Yuan ; Bin Tian.Double-Parity-Check CA-SCL Encoding and Decoding for Polar Codes.IEEE.2019,全文. *
一种基于源端数据重删的数据备份和恢复系统设计与实现;王兴虎;何安元;;南京师大学报(自然科学版)(第02期);全文 *
基于GE码的HDFS优化方案;朱媛媛;王晓京;;计算机应用(第03期);全文 *
基于文本挖掘的语词典研究;严建军;彭雯;;无线互联科技(第11期);全文 *

Also Published As

Publication number Publication date
CN115809027A (zh) 2023-03-17

Similar Documents

Publication Publication Date Title
CN103593256B (zh) 一种基于多层排重的虚机快照备份方法和系统
CN101855619B (zh) 数据处理设备和数据处理方法
US7577808B1 (en) Efficient backup data retrieval
US6397309B2 (en) System and method for reconstructing data associated with protected storage volume stored in multiple modules of back-up mass data storage facility
US7536424B2 (en) System and methods for efficiently managing incremental data backup revisions
CN102246137B (zh) 身份副本删除之后的delta压缩
US6665815B1 (en) Physical incremental backup using snapshots
CN102292720B (zh) 用于管理数据存储系统的数据对象的方法和设备
CN101855620B (zh) 数据处理设备和数据处理方法
JP3579389B2 (ja) ディスクアレイ装置及び同装置におけるデータ復旧方法
KR20170054299A (ko) 메모리 관리 시의 중복 제거를 위해서 기준 세트로 기준 블록을 취합하는 기법
CN102378973A (zh) 用于数据重复删除的系统及方法
CN115809027B (zh) 一种生物数据采集及管理系统、装置及方法
US6636941B1 (en) Enhanced stable disk storage
WO2013044726A1 (zh) 数据索引的故障恢复方法和装置
CN112612576B (zh) 虚拟机备份方法、装置、电子设备及存储介质
US20230176773A1 (en) Efficiency sets for determination of unique data
CN110737389B (zh) 存储数据的方法和装置
CN111984601A (zh) 日志文件删除方法、装置、电子设备及存储介质
US20110004630A1 (en) Method for reliable and efficient filesystem metadata conversion
CN111459399A (zh) 一种数据写入方法、数据读取方法及装置
US5809435A (en) Efficient index arrangement and method for identifying valid records stored on logging digital data storage subsystem
JP2007109123A (ja) 記録装置
CN115994236B (zh) 一种航空数据的协同处理方法及系统
EP3734457A2 (en) Method of storing items of data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant