CN115472232A - 一种基于分类算法的dna数据存储动态压缩方法 - Google Patents

一种基于分类算法的dna数据存储动态压缩方法 Download PDF

Info

Publication number
CN115472232A
CN115472232A CN202211029286.7A CN202211029286A CN115472232A CN 115472232 A CN115472232 A CN 115472232A CN 202211029286 A CN202211029286 A CN 202211029286A CN 115472232 A CN115472232 A CN 115472232A
Authority
CN
China
Prior art keywords
file
data
files
sequence
base sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211029286.7A
Other languages
English (en)
Inventor
赵祥伟
毕昆
赖鑫
陆祖宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202211029286.7A priority Critical patent/CN115472232A/zh
Publication of CN115472232A publication Critical patent/CN115472232A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/50Compression of genetic data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • G06F11/10Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
    • G06F11/1004Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's to protect a block of data words, e.g. CRC or checksum
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1744Redundancy elimination performed by the file system using compression, e.g. sparse files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Genetics & Genomics (AREA)
  • Quality & Reliability (AREA)
  • Bioethics (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Security & Cryptography (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于分类算法的DNA数据存储动态压缩方法,包括:1)选择需要存储的文件;2)选择分类器,对选择的文件进行分类处理;3)按照分类结果对每种文件使用压缩算法;4)将压缩后的文件数据单独进行碱基转换;5)把文件的名称和转换后的碱基个数保存成单独的碱基序列,作为文件目录;6)将文件碱基序列及文件目录信息拼接成长的碱基序列;7)将拼接后的长碱基序列划分为若干等长序列,添加地址码,纠错码;8)还原文件时,读取文件目录信息,按需还原,得到输入文件。本方法提高了DNA数据存储中数据压缩率,可以根据文件的性质选择压缩算法,从而达到提高文件数据压缩率的目的。

Description

一种基于分类算法的DNA数据存储动态压缩方法
技术领域
本发明涉及DNA数据存储压缩方法,特别涉及基于分类算法的DNA数据存储动态压缩方法。
背景技术
随着信息数据的指数级增长,依靠现代光学和磁介质的数据存储介质无法将无法满足未来大数据存储的需求。因此,需要使用信息存储密度更大、成本更低的存储技术。
脱氧核糖核酸(DNA)是一种天然的信息存储介质,其存储密度是传统磁介质存储的107倍,可以达到1018B/mm3,并且可以保存数百年不会丢失信息。DNA存储的写入过程将数字数据映射为DNA核苷酸序列(核苷酸是DNA的基本组成部分),合成相应的DNA分子,并将它们存储起来。现代生物技术已经开发出可以操作DNA的基本工具,包括合成及读取DNA。这些技术的出现都为DNA数据存储的发展提供了支持。目前DNA数据存储存在的主要问题是成本过高,到2020年为止,合成DNA的成本约为5.3亿美元/tb,读取成本约为0.01万美元/tb,传统的磁介质存储约为16美元/tb。但是,利用磁介质的数据中心每年需要花费数百万美元的维护费用,而DNA存储只需要其千分之一的费用。随着DNA合成及测序技术的发展,相应的费用也在迅速下降。
由于当前DNA数据存储的成本较高,可以使用这项技术来存储冷数据及大数据备份,其中冷数据是那些活动不频繁、不会经常被访问甚至永远都不会被访问,但仍需要保存的这一部分数据,据统计,在数据集中,约有80%的部分属于冷数据。可以利用DNA存储的高密度,保存时间长的特性来存储这些数据,相较于传统磁介质存储,DNA存储占据了优势。
在对数据进行存储之前,通常会对数据进行压缩处理,经过压缩后的数据能够有效的减少存储所占据的空间。因此在对数据使用DNA存储技术进行保存时,需要对数据进行压缩处理,这样能够减少所需要合成碱基数量,间接的减少合成的成本。
目前多数学者的研究工作主要围绕DNA编码及合成技术,通过优化或者创新的编码方式、新颖的合成技术来降低DNA存储中的合成成本。
发明目的
发明目的:本发明提供一种基于分类算法的DNA数据存储动态压缩方法。
技术方案:所述基于分类算法的DNA数据存储动态压缩方法,包括如下步骤:
I.选择需要存储的a个文件,可根据需要选择任意类型及大小的文件(例如txt、mp4等,文件大小无上限),数量不限。
II.选择机器学习分类器(任意分类器均可),对选择的文件根据文件类型及大小进行分类处理。
其训练流程包括如下步骤:
1)获取训练使用的t个文件数据,包含一种或者多种类型(例如txt、mp4等不同文件类型),任意大小的文件。
2)对获取的文件进行压缩处理,使用d种压缩算法(例如BZIP2、DEFLATE等压缩算法)对每个文件都进行单独压缩处理。
3)将每个文件用d种压缩算法压缩后的结果进行比较,对于每个文件使用d种压缩算法得到的d个压缩数据D1,…,Dd,选择min{D1,…,Dd},得到压缩比最高的一种算法。
4)将文件类型,文件大小及所使用压缩比最高的压缩算法保存成向量形式(文件类型,文件大小,压缩算法),其中文件类型为字符串形式,文件大小为整数范围0<size≤∞,压缩算法为字符串形式,作为数据集。
5)利用转换编码(例如热独编码、目标编码等)将文件类型由字符串转换成数字形式的向量。
6)利用数据标准化方式(例如z-score标准化、线性比例标准化等),将文件大小转换成一定范围0<size<j的数据。
7)把数据集按照m:n分成训练集和测试集两部分,其中
0.5≤m≤1,0≤n≤0.5,m+n=1。
8)使用机器学习的分类算法对训练集进行训练,利用测试数据对分类器的效果进行验证。
9)保存训练好的模型(例如保存为.pkl模型文件)。
其分类流程包括如下步骤:
1)将待分类的文件信息保存成向量形式(文件类型,文件大小),其中文件类型为字符串形式,文件大小为整数范围0<size≤∞。
2)利用转换编码(例如热独编码、目标编码等)将文件类型由字符串转换成数字形式的向量。
3)利用数据标准化方式(例如z-score标准化、线性比例标准化等),将文件大小转换成一定范围0<size<j的数据。
4)调用训练好的分类器文件(例如调用.pkl文件)。
5)得到文件的分类结果,分类结果共有s种,其中0≤s≤d,其中d为使用的压缩算法种类。
III.对分类完的文件,按照分类结果{S1,S2,…,Ss}对每种类别中的文件使用类别对应的压缩算法,Si使用di对应的压缩算法,其中Si至多包含a个文件。
IV.将压缩后的每个文件ai数据单独进行碱基序列转换,即把文件的二进制序列转换成碱基序列,得到e条碱基序列,其中e=a。
V.将a个文件的基本信息(文件名,文件类型)及转换后的碱基个数保存成一个单独的碱基序列,碱基个数为ai文件数据转换成的碱基序列ei所包含的碱基个数,形成一个文件信息目录,并在文件目录前后添加一段标志序列。
VI.将所有文件碱基序列及文件目录信息拼接成一个长的碱基序列。
VII.根据DNA合成长度的要求,将拼接后的长碱基序列划分为L条长度为h序列,在每条序列Li前添加地址码,地址码按照递增顺序排列,其范围为0≤address≤L,在序列Li末尾添加r位纠错码。
VIII.数据还原时,根据碱基测序的结果,按照每条碱基序列的地址码对序列进行排序处理,并根据每条序列中的纠错码对序列的可能出现的错误进行处理。
IX.完成排序后的序列,按照顺序去除地址码和纠错码后,将L条序列按照地址码顺序拼接成长的碱基序列。
X.根据设置的标志序列,读取碱基序列的文件目录部分,根据目录中的碱基个数信息按需还原,得到输入文件。
所述步骤II、III、IV中,其特征在于,构建了对于待存储文件先进行分类再压缩的数据处理流程,文件与文件之间单独压缩后按照DNA存储的碱基转换规则将数据转换成碱基序列。
所述步骤II中,所使用的压缩算法包括目前常见的压缩算法,例如BZIP2、DEFLATE、PPMD等。所使用的分类算法可以使用任意的机器学习分类算法,包括监督学习、半监督学习、无监督学习,例如K邻近、决策树、随机森林、梯度提升、自适应增强、朴素贝叶斯、支持向量机等。
进一步地,所述步骤V、VI中,所述碱基序列结构为:
文件目录由a个文件的信息构成,按文件读入顺序排列:
(文件名1,文件1碱基个数)+(文件名2,文件2碱基个数)+...+(文件名a,文件a碱基个数)
在文件目录后按目录中的文件顺序排列各个文件的碱基序列:
文件目录碱基序列+文件1碱基序列+文件2碱基序列+...+文件a碱基序列
进一步地,所述步骤VIII中,按需还原的寻址方式为:首先计算所需还原文件前的包含的碱基总数,得到所需还原文件的开始位置位置,结合文件目录中的该文件碱基个数,可得到该文件在长碱基序列中的位置,读取该部分碱基序列即可完成按需还原。针对以上问题,通过提升待存储数据的压缩比,来达到降低DNA存储合成成本的目的。现有的压缩算法中,各种压缩算法都有其优势的地方,但是还没有一种压缩算法能够使其对任意文件类型都拥有最优的压缩效果,提出利用机器学习分类算法对待存储的文件进行分类,对分类后的文件使用较优的压缩算法,充分利用不同压缩算法的优势,节省存储所使用的空间。采用先对文件进行分类再进行压缩的方式,相较于将所有文件直接进行压缩,会花费更多的时间,但是能够提升文件数据的压缩比,降低压缩后数据的大小。因为这个方法是使用在DNA数据存储中的,压缩数据时多花费的时间成本对比DNA合成的时间可以忽略不计。
本发明方法针对DNA数据存储中,数据压缩率不高,导致DNA数据存储的成本增加的问题,将利用机器学习分类算法对待存储文件进行分类处理,对分类后的文件根据类别使用不同的压缩算法,每种类别中使用的压缩算法都是该类别中最优的算法,利用先分类再压缩可以提高数据的压缩比,减少转换成碱基后的碱基数量,可以降低DNA数据存储中的合成成本。
有益效果:本发明与现有技术相比,具有如下优势:
1.本方法对待压缩的数据文件,根据文件的类型及大小特征进行分类处理,把分类后的文件再使用压缩算法进行压缩处理,能够最大程度的利用不同压缩算法的优势,提高数据的压缩率,有效降低DNA数据存储的成本。
2.在压缩数据时,对单个文件进行单独压缩,可以按需还原文件,降低数据还原的时间。
附图说明
图1为方法流程示意图;
图2为分类算法的流程示意图;
图3为碱基序列拼接示意图。
具体实施方式
选择5000个文件数据作为训练分类器的数据集,这些文件从互联网中任意获取(任意大小和类型),这些文件包含10种文件类型,每种文件类型各500个。此外,额外选择100个文件数据作为测试数据,其中包含10种不同的文件类型。
I.将100个包含10种文件类型的文件作为此次需要存储的文件。
II.训练机器学习分类器(任意分类器),对选择的文件根据文件类型及大小进行分类处理,使用K邻近算法作为其中一个例子。
其训练流程包括如下步骤:
1)将5000个包含10种文件类型文件数据作为训练使用的文件数据。
2)对5000个文件的数据集都使用上述五种压缩算法(BZIP2、DEFLATE、PPMD、BROTLI、LZMA2)进行压缩。
3)对每个文件的压缩结果进行比较,得到压缩比最高的一种结果。
4)将文件类型,文件大小及所使用压缩比最高的压缩算法保存成向量形式(文件类型,文件大小,压缩算法),作为数据集,得到一个包含5000条数据(文件类型,文件大小,压缩算法)的记录。其中文件大小是文件压缩之前的大小,压缩算法为当前文件在使用5种压缩算法分别压缩后的压缩比最高的算法。
5)利用热独编码将文件类型由字符串转换成数字形式的向量。对得到的5000条数据中的文件类型进行转换处理,转换为以下结果:
Txt:(1,0,…,0,0)
Jpg:(0,1,…,0,0)
...
Mp3:(0,0,…,1,0)
其中txt、jpg等为文件类型,这里只展示部分的转换结果。
得到11维的向量,其中前10维代表10种文件类型中的一种,第11维代表未知文件类型。
6)对得到的5000条数据中的文件大小进行标准化处理,数据标准化计算公式为:
Figure BDA0003815828690000051
其中x*为转换后样本数据值,μ为样本数据均值,σ为所有样本数据的标准差。
经过5)6)步骤之后,数据为13维的特征向量,其中前11维表示文件的类型,第12维表示文件的大小,第13维为所使用的压缩算法,也就是分类的标签结果。
7)把数据集按照7:3分成两部分,其中3500条数据作为训练数据,1500条数据作为测试数据。
8)使用KNN分类算法对训练集进行训练,利用测试数据对分类器的效果进行验证,得到的分类正确率为87%。
其分类流程包括如下步骤:
1)将100个待分类的文件信息保存成向量形式(文件类型,文件大小)。
2)利用热独编码将文件类型由字符串转换成数字形式的向量。
3)利用数据标准化方式,将文件大小转换成均值为0,标准差为1的数据。
4)计算所述数据与训练集中每个数据的距离距离计算公式为:
Figure BDA0003815828690000061
5)找到15个距离所述数据最近的点,统计15个数据中所属类别的频率。
6)将所述文件数据归类为频率最高的一类。
III.对分类完的文件,按照分类结果对每种文件使用最优的压缩算法。
IV.将压缩后的每个文件数据单独进行碱基序列转换,即把文件的二进制序列转换成碱基序列。转换规则为三进制转换规则,规则如下:
表1转换规则
Figure BDA0003815828690000062
V.对100个文件的名称及编码后的碱基个数进行编码,合并成文件目录,并在文件目录前后添加AAAA作为标志序列。
VI.将100个文件的碱基序列及文件目录信息拼接成一个长的碱基序列。
VII.根据DNA合成长度的要求,将拼接后的长碱基序列划分为若干长度为150bp的序列,添加20位地址码,10位RS纠错码。
VIII.数据还原时,根据碱基测序的结果,按照每条碱基序列的地址码对序列进行排序处理,并根据每条序列中的纠错码对序列的可能出现的错误进行处理。
IX.完成排序后的序列,按照顺序去除地址码和纠错码后拼接回长的碱基序列。
X.根据设置的标志序列,读取碱基序列的文件目录部分,根据目录中的文件信息按需还原,得到输入文件。
表2压缩比及序列条数对比表
分类方法 压缩比 序列条数
本文所用压缩方法 16.9% 5,630,000
传统压缩方法 14.8% 5,750,000

Claims (5)

1.一种基于分类算法的DNA数据存储动态压缩方法,其特征在于:包括如下步骤:
I.选择需要存储的a个文件,根据需要选择任意类型及大小的文件,数量不限;
II.选择机器学习分类器,对选择的文件根据文件类型及大小进行分类处理;
其训练流程包括如下步骤:
1)获取训练使用的t个文件数据,包含一种或者多种类型,任意大小的文件;
2)对获取的文件进行压缩处理,使用d种压缩算法对每个文件都进行单独压缩处理;
3)将每个文件用d种压缩算法压缩后的结果进行比较,对于每个文件使用d种压缩算法得到的d个压缩数据D1,…,Dd,选择min{D1,…,Dd},得到压缩比最高的一种算法;
4)将文件类型,文件大小及所使用压缩比最高的压缩算法保存成向量形式,其中文件类型为字符串形式,文件大小为整数范围0<size≤∞,压缩算法为字符串形式,作为数据集;
5)利用转换编码将文件类型由字符串转换成数字形式的向量;
6)利用数据标准化方式,将文件大小转换成一定范围0<size<j的数据;
7)把数据集按照m:n分成训练集和测试集两部分,其中,
0.5≤m≤1,0≤n≤0.5,m+n=1,
8)使用机器学习的分类算法对训练集进行训练,利用测试数据对分类器的效果进行验证;
9)保存训练好的模型,
其分类流程包括如下步骤:
1)将待分类的文件信息保存成向量形式,文件类型,文件大小,其中文件类型为字符串形式,文件大小为整数范围0<size≤∞,
2)利用转换编码将文件类型由字符串转换成数字形式的向量;
3)利用数据标准化方式,将文件大小转换成一定范围0<size<j的数据;
4)调用训练好的分类器文件;
5)得到文件的分类结果,分类结果共有s种,其中0≤s≤d,其中d为使用的压缩算法种类,
III.对分类完的文件,按照分类结果{S1,S2,…,Ss}对每种类别中的文件使用类别对应的压缩算法,Si使用di对应的压缩算法,其中Si至多包含a个文件,
IV.将压缩后的每个文件ai数据单独进行碱基序列转换,即把文件的二进制序列转换成碱基序列,得到e条碱基序列,其中e=a,
V.将a个文件的基本信息及转换后的碱基个数保存成一个单独的碱基序列,碱基个数为ai文件数据转换成的碱基序列ei所包含的碱基个数,形成一个文件信息目录,并在文件目录前后添加一段标志序列,
VI.将所有文件碱基序列及文件目录信息拼接成一个长的碱基序列,
VII.根据DNA合成长度的要求,将拼接后的长碱基序列划分为L条长度为h序列,在每条序列Li前添加地址码,地址码按照递增顺序排列,其范围为0≤address≤L,在序列Li末尾添加r位纠错码;
VIII.数据还原时,根据碱基测序的结果,按照每条碱基序列的地址码对序列进行排序处理,并根据每条序列中的纠错码对序列的可能出现的错误进行处理;
IX.完成排序后的序列,按照顺序去除地址码和纠错码后,将L条序列按照地址码顺序拼接成长的碱基序列;
X.根据设置的标志序列,读取碱基序列的文件目录部分,根据目录中的碱基个数信息按需还原,得到输入文件。
2.根据权利要求1所述的基于分类算法的DNA数据存储动态压缩方法,其特征在于,所述步骤II、III、IV中,构建了对于待存储文件先进行分类再压缩的数据处理流程,文件与文件之间单独压缩后按照DNA存储的碱基转换规则将数据转换成碱基序列。
3.根据权利要求1所述的基于分类算法的DNA数据存储动态压缩方法,其特征在于,所述步骤II中,所使用的压缩算法包括BZIP2、DEFLATE、PPMD,所使用的分类算法可以使用任意的机器学习分类算法,包括监督学习、半监督学习、无监督学习,例如K近邻、决策树、随机森林、梯度提升、自适应增强、朴素贝叶斯、支持向量机。
4.根据权利要求1所述的基于分类算法的DNA数据存储动态压缩方法,其特征在于,所述步骤V、VI中,所述碱基序列结构为:
文件目录由a个文件的信息构成,按文件读入顺序排列:
(文件名1,文件1碱基个数)+(文件名2,文件2碱基个数)+...+(文件名a,文件a碱基个数),
在文件目录后按目录中的文件顺序排列各个文件的碱基序列:
文件目录碱基序列+文件1碱基序列+文件2碱基序列+...+文件a碱基序列。
5.根据权利要求1所述的基于分类算法的DNA数据存储动态压缩方法,其特征在于,所述步骤VIII中,按需还原的寻址方式为:首先计算所需还原文件前的包含的碱基总数,得到所需还原文件的开始位置位置,结合文件目录中的该文件碱基个数,可得到该文件在长碱基序列中的位置,读取该部分碱基序列即可完成按需还原。
CN202211029286.7A 2022-08-25 2022-08-25 一种基于分类算法的dna数据存储动态压缩方法 Pending CN115472232A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211029286.7A CN115472232A (zh) 2022-08-25 2022-08-25 一种基于分类算法的dna数据存储动态压缩方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211029286.7A CN115472232A (zh) 2022-08-25 2022-08-25 一种基于分类算法的dna数据存储动态压缩方法

Publications (1)

Publication Number Publication Date
CN115472232A true CN115472232A (zh) 2022-12-13

Family

ID=84369329

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211029286.7A Pending CN115472232A (zh) 2022-08-25 2022-08-25 一种基于分类算法的dna数据存储动态压缩方法

Country Status (1)

Country Link
CN (1) CN115472232A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116318172A (zh) * 2023-05-25 2023-06-23 山东华云三维科技有限公司 一种设计仿真软件数据自适应压缩方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116318172A (zh) * 2023-05-25 2023-06-23 山东华云三维科技有限公司 一种设计仿真软件数据自适应压缩方法

Similar Documents

Publication Publication Date Title
CN109325032B (zh) 一种索引数据存储及检索方法、装置及存储介质
JP4261779B2 (ja) データ圧縮装置および方法
US8838551B2 (en) Multi-level database compression
CN111600609B (zh) 一种优化中文存储的dna存储编码方法
CN111324750B (zh) 一种大规模文本相似度计算及文本查重方法
CN109979540B (zh) 一种dna信息存储编码方法
CN103995887A (zh) 位图索引压缩方法和位图索引解压方法
CN101751416A (zh) 一种对字符串排序和查找的方法
CN112100982B (zh) Dna存储方法、系统和存储介质
CN115472232A (zh) 一种基于分类算法的dna数据存储动态压缩方法
CN114268323B (zh) 支持行存的数据压缩编码方法、装置及时序数据库
US5815096A (en) Method for compressing sequential data into compression symbols using double-indirect indexing into a dictionary data structure
CN112434085B (zh) 基于Roaring Bitmap的用户数据统计方法
Fan et al. Codebook-softened product quantization for high accuracy approximate nearest neighbor search
CN117278058A (zh) 一种气候投融资项目数据采集处理方法
Wu et al. HD-code: End-to-end high density code for DNA storage
CN114678074B (zh) 一种隐藏寻址的dna存储编码设计方法
CN115940958A (zh) 一种基于Fasta、Fastq生物大数据的压缩方法
US8918374B1 (en) Compression of relational table data files
CN111681290B (zh) 一种基于dna编码技术的图片存储方法
CN113254257B (zh) 数据存储媒体的损坏数据列的筛选方法
CN108595508B (zh) 一种基于后缀数组的自适应索引构建方法及系统
CN115249509A (zh) 基于脱氧核糖核酸技术的数据编码方法及解码方法
KR102317205B1 (ko) 압축된 데이터를 복원하는 방법 및 장치
CN118466865B (zh) 一种基金数据的二进制序列化压缩存储处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination