CN115391284A - 基因数据文件快速识别方法、系统和计算机可读存储介质 - Google Patents
基因数据文件快速识别方法、系统和计算机可读存储介质 Download PDFInfo
- Publication number
- CN115391284A CN115391284A CN202211347438.8A CN202211347438A CN115391284A CN 115391284 A CN115391284 A CN 115391284A CN 202211347438 A CN202211347438 A CN 202211347438A CN 115391284 A CN115391284 A CN 115391284A
- Authority
- CN
- China
- Prior art keywords
- file
- gene data
- files
- module
- data file
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 82
- 238000000034 method Methods 0.000 title claims abstract description 30
- 230000004048 modification Effects 0.000 claims abstract description 7
- 238000012986 modification Methods 0.000 claims abstract description 7
- VYZAMTAEIAYCRO-UHFFFAOYSA-N Chromium Chemical compound [Cr] VYZAMTAEIAYCRO-UHFFFAOYSA-N 0.000 claims description 9
- 238000012795 verification Methods 0.000 claims description 7
- 101150010487 are gene Proteins 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 abstract description 13
- 238000007726 management method Methods 0.000 abstract description 5
- 238000013523 data management Methods 0.000 abstract description 2
- 230000035772 mutation Effects 0.000 description 5
- 230000002159 abnormal effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 210000000349 chromosome Anatomy 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 238000003766 bioinformatics method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000012268 genome sequencing Methods 0.000 description 1
- 230000008826 genomic mutation Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000007481 next generation sequencing Methods 0.000 description 1
- 230000007170 pathology Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/14—Details of searching files based on file metadata
- G06F16/148—File search processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/16—File or folder operations, e.g. details of user interfaces specifically adapted to file systems
- G06F16/164—File meta data generation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Library & Information Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Bioethics (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于测序数据管理技术领域,具体涉及一种基因数据文件快速识别方法、系统和计算机可读存储介质。本发明的识别方法是利用特征值对比识别所述基因数据文件,所述特征值包括:文件大小、文件内容摘要、文件的用户ID和组ID、文件修改的时间戳、文件权限、文件名称、文件创建的时间戳和文件路径。本发明能够准确、简便和高效地识别和查找基因数据文件,可减少因人为造成的管理错误,提高人员的管理效率,同时提高计算机资源的使用效率,具有很好的应用前景。
Description
技术领域
本发明属于测序数据管理技术领域,具体涉及一种基因数据文件快速识别方法、系统和计算机可读存储介质。
背景技术
二代测序(Next Generation Sequencing)广泛应用,同时基因技术开始进入普及,高通量测序的广泛应用、测序设备自动化程度的提高,测序数据正成几何增长。据测算,一个人一生与健康相关的数据整合起来大约10TB,一百万人的数据量约为10EB。此外,还有大量动植物基因组测序分析等科研服务项目,数据类型和数量异常庞大。而且,测序仪运行产生的原始数据并不能直接提供关于疾病的信息,测序企业需要依据生物信息学的方法,对海量的测序数据进行复杂的过滤、比对、拼接、处理和数据分析等重重步骤,在这些重重的步骤中需要生成更多的基因数据文件,才能获得基因组上的变异信息,再结合遗传学、病理学以及其他组学等信息共同分析,最终才能转化为人们可理解的生物学数据,为疾病的诊疗提供参考和指导。
在二代测序技术中,一个样本从原始数据文件(测序仪器下机数据)到最后注释文件(可理解的生物学数据),需要经过处理至少生成8个文件(原始文件2个,过滤文件2个,比对文件1个,变异检测文件2个,注释文件1个等)。假设每个样本对应8个文件,那么一万个样本,对应八万个文件,随着样本的增多,如何快速准确方便的识别这些基因数据文件将成为一个难题。
现有的识别基因数据文件的方法通常是通过文件名来查找。然而,由于文件名非常容易被人为修改,因此查找到相关文件后,还要通过MD5检查文件的完整性。MD5检查文件的方法是对整个文件内容校验,耗时长。因此,本领域亟需一种能够简便、高效识别和查找基因数据文件的方法。
发明内容
针对现有技术的问题,本发明提供一种基因数据文件快速识别方法和系统,目的在于简便、高效地识别和查找基因数据文件。
一种基因数据文件快速识别方法,利用特征值对比识别所述基因数据文件,所述特征值包括:文件大小、文件内容摘要、文件的用户ID和组ID、文件修改的时间戳、文件权限、文件名称、文件创建的时间戳和文件路径。
优选的,所述文件内容摘要的生成方式为:从所述基因数据文件中按比例读取内容。
优选的,所述文件内容摘要的生成方式如下:
1)对于FASTA文件,提取第一行由大于号">"开头的任意文字说明;
2)对于FASTQ文件,提取第一行序列标识以及相关的描述信息,以‘@’开头;
3)对于GTF或GFF文件,提取如下九列的前100行内容:seqid、source、type、start、end、score、strand、phase和attributes;
4)对于SAM、BAM或CRAM文件,提取头部注释部分;
5)对于BED或INTERVAL文件,提取如下三列的前100行内容:第一列为chrom或者scaffold名称,第二列为chrom中的起始位置,第三列为chrom中的终止位置;
6)对于BAI、CSI或TBI文件,提取整个文件内容;
7)对于VCF或GVCF文件,提取如下五列的前100行内容:POS、ID、REF、ALT和QUAL。
本发明还提供一种用于实现基因数据文件快速识别方法的系统,包括:
文件查找模块,用于循环遍历所有文件,判断是否是基因数据文件;
文件读取模块,用于获取基因数据文件的特征值;
特征值对比模块,用于将文件读取模块获得的特征值与已存在的索引文件列表里面的文件比对,把特征值比对的结果信息更新到索引文件列表中;
索引列表文件模块,用于通过索引文件列表的形式存储基因数据文件的信息,实现根据特定的特征值查找对应的基因数据文件。
优选的,文件查找模块通过文件名称后缀字符判断文件是否是基因数据文件,所述文件名称后缀包括fasta、fa、gff、gtf、fq、fastq、sam、bam、cram、bai、csi、tbi、bed、interval、vcf、gvcf或g.vcf的为基因数据文件。
优选的,所述索引列表文件模块具有如下实施如下三类操作的功能:
1)向所述索引文件列表中添加新的文件信息;
2)根据特定的特征值查找对应的基因数据文件;
3)删除所述索引文件列表中不存在的基因数据文件的文件信息。
优选的,还包括异常处理模块,用于记录系统运行过程中的异常信息。
优选的,还包括MD5校验模块,用于对所述基因数据文件进行MD5校验。
本发明还提供一种计算机可读存储介质,其上存储有用于实现上述基因数据文件快速识别方法的计算机程序或用于实现上述系统的计算机程序。
本发明中,所述“基因数据文件”是指二代测序方法中产生的基因数据文件。
本发明针对二代测序数据的特点,构建了一系列用于识别基因数据文件的特征值,利用这些特征值能够简单、快速地识别和查找基因数据文件。相比于现有技术中的文件名查找和MD5校验的方法,本发明兼顾了文件查找的准确性和效率。因此,在二代测序数据的管理中,本发明的方法和系统具有很好的应用前景。
显然,根据本发明的上述内容,按照本领域的普通技术知识和惯用手段,在不脱离本发明上述基本技术思想前提下,还可以做出其它多种形式的修改、替换或变更。
以下通过实施例形式的具体实施方式,对本发明的上述内容再作进一步的详细说明。但不应将此理解为本发明上述主题的范围仅限于以下的实例。凡基于本发明上述内容所实现的技术均属于本发明的范围。
附图说明
图1为本发发明实施例1的流程示意图。
具体实施方式
需要特别说明的是,实施例中未具体说明的数据采集、传输、储存和处理等步骤的算法,以及未具体说明的硬件结构、电路连接等均可通过现有技术已公开的内容实现。
实施例1 基因数据文件快速识别方法和系统
本实施例的系统包括:
文件查找模块,用于循环遍历所有文件,判断是否是基因数据文件;
文件读取模块,用于获取基因数据文件的特征值;
特征值对比模块,用于将文件读取模块获得的特征值与已存在的索引文件列表里面的文件比对,把特征值比对的结果信息更新到索引文件列表中;
索引列表文件模块,用于通过索引文件列表的形式存储基因数据文件的信息,实现根据特定的特征值查找对应的基因数据文件;
异常处理模块,用于记录系统运行过程中的异常信息;
MD5校验模块,用于对所述基因数据文件进行MD5校验。
上述系统的工作工作流程如图1所示,具体如下:
A1) 文件查找模块循环遍历所有文件,判读是否是基因数据文件,解析文件名称,文件名称后缀字符包含fasta、fa、gff、gtf、fq、fastq、sam、bam、cram、bai、csi、tbi、bed、interval、vcf、gvcf或g.vcf,就是需要处理的基因数据文件,其他文件不会处理。
A2)根据用户输入的选项,共两个选项选择,第一个选项就是快速查找,快速查找的策略就是利用特征值对基因数据文件识别的方法,此方法速度快,准确率高,可用于所有场景。但是在某些特殊情况下,可使用第二个选项,就是传统的MD5校验方法,此选项耗时长,但是能百分百的确认基因数据文件。
A3)文件读取模块,获取基因数据文件的特征值,特征值包括:文件大小、文件内容摘要、文件的用户ID和组ID、文件修改的时间戳、文件权限、文件名称、文件创建的时间戳和文件路径。
文件内容摘要的提取可选择两种策略,第一个策略是不解析文件内容,直接读取文件内容,例如,对于10G大小的基因数据文件,每1G内容读取1KB的内容生成摘要作为特征值。第二种策略是解析文件内容,通过基因数据文件特定文件格式,提取不同的文件内容作为唯一的特征值。不同基因数据文件根据其格式,提取的文件内容如下:
B1)提取FASTA文件内容为:第一行由大于号">"开头的任意文字说明,用于序列标记,为了保证后续分析软件能够区分每条序列,单个序列的标识必须是唯一的。
B2)提取FASTQ文件内容为:第一行序列标识以及相关的描述信息,以‘@’开头;
B3)提取GTF和GFF文件内容为:如下九列前100行内容;
第一列是seqid, 代表序列ID, 通常是染色体的ID, 每条染色体拥有一个唯一的ID。
第二列是source, 代表基因结构的来源,可以是数据库的名称,比如来自genebank数据库,也可以是软件的名称,比如用GeneScan软件预测得到,当然,也可以为空,用.点号填充。
第三列是type, 代表区间对应的特征类型,比如gene, exon等。
第四列是start, 代表区间的起始位置。
第四列是end, 代表区间的终止位置。
第六列是score, 软件提供了统计值,如果没有,就用“. ”填充。
第七列是strand, 代表正负链的信息, +表示正链,-表示负链,符号“问号”表示不清楚正负链的信息,当正负链信息没有意义时,可以用.填充。
第八列是phase,当描述的是CDS区间信息时,需要指定翻译时开始的位置,取值范围包括0,1,2。
第九列是attributes, 表示属性,每种属性采用key=value 的形式,多个属性之间用分号分隔。
B4)提取SAM/BAM/CRAM的文件内容:整个头部注释部分,@HD:说明VN的版本以及比对有无排列顺序,这个例子没有排序。@SQ:参考序列目录。SN:参考序列名字。LN:参考序列长度。@PG:使用的比对程序名。
B5) 提取BED/INTERVAL的文件内容:以下三列前100行内容;
第一列是chrom或者scaffold名称;
第二列是在chrom中的起始位置(前坐标);
第三列是在chrom中的终止位置(后坐标)。
B6)提取BAI/CSI/TBI的文件内容:整个文件内容(因为这类文件都是索引文件,文件很小)。
B7)提取VCF/GVCF的文件内容:以下五列的前100行;
第一列是POS [position],参考基因组突变碱基位置,如果是INDEL(插入缺失),位置是INDEL的第一个碱基位置。
第二列是ID [identifier],突变的名称。若没有,则用“. ”表示其为一个新变种。
第三列是REF [reference bases],参考染色体的碱基,必须是ATCGN中的一个,N表示不确定碱基。
第四列是ALT [alternate bases],与参考序列比较,发生突变的碱基;多个的话以“,”连接,可选符号为ATCGN*,大小写敏感。
第五列是QUAL [quality],Phred标准下的质量值,表示在该位点存在突变的可能性;该值越高,则突变的可能性越大;计算方法:Phred值 = -10 * log (1-p) p为突变存在的概率。
A4)获取基因数据文件的八个特征值后,根据特征值比对文件,每个特征值赋予其两个属性。
D1)第一个属性是终止性,拥有此属性的特质值为文件大小(C1)和文件部分内容摘要(C2)。
如果文件大小(C1)和文件部分内容摘要(C2)其中有一个不同,即可以判定是不同的基因数据文件。
D2)第二个属性是辨识性,每个特征值都具有此属性。
当判定两个基因数据文件是同一个文件时,按照文件大小(C1)至文件路径(C8)的顺序依次判定。
A5)把每个基因数据文件特征值比对完后,记录这些特征值的相关信息,写到文件里,生成每个基因数据文件的索引信息列表。有了索引信息列表,每次运行程序,可以进行三类操作:添加、查找和删除。
E1)添加操作,第一次运行生成索引信息列表文件都是添加,后续运行时会增加新的基因数据文件,索引列表文件已存在的相同文件信息,如果发生变化也会增加。
E2)查找操作,如果用户想要查找某个文件,可以通过记录的八项特征值生成的索引文件列表,快速查找到想要的基因数据文件。
E3)删除操作,当发现之前的基因数据文件已经不存在了,可以通过标签DEL标注此文件已删除(方便用户追溯历史记录),也可以在索引信息列表中直接删除此条记录。
A6)异常处理模块收到异常后,不会中断执行,只是记录异常信息,记录的信息包括,异常样本的文件名、获取文件特征值错误、文件读取错误、文件解析错误、写入索引文件列表错误。
A7)用户使用该系统的使用方法:执行程序的时候,参数必须输入基因数据文件存放的目录和索引列表文件的存放目录,默认使用快速查找选项。程序会根据目录找出所有基因数据文件,生成一个索引列表文件(每行一个基因数据文件和八个特征值相关的信息)。其他异常情况,会生成一个异常错误的文件,供用户查看并处理异常的基因数据文件。用户也是通过选项使用传统的MD5对基因数据文件进行校验。
下面对本实施例的系统识别文件出现错误的概率进行估计:
第一项特征值文件大小,基因数据文件的大小范围在几百字节到几百G字节的范围,一个基因数据文件大小和索引文件列表里面的文件大小相同,估计概率是0.1%。
第二项特征值文件部分内容摘要,基因数据文件平均都是几G,例如一个10G的基因数据文件,若只是获取其内容的10KB,是整个文件内容的百万分之一,其查找速度的提高也是成正比的。对于测序下机的基因数据文件其存在相同的概率,设定概率是0.01%。
仅仅通过以上两个特征值相同来判定这个文件与索引文件列表里的文件相同,出现错误的概率也是千万分之一。
第三项特征值文件的用户ID和组ID,一般文件拷贝,移动等操作并不会改变文件所属用户,大部分情况此值变化的概率也很小,设定概率是1%
第四项特征值文件修改的时间戳,基因数据文件都是有特定程序生成,需要人为去修改的概率也很低,设定概率是1%
第五项特征值文件的权限,基因数据文件默认都是拥有读写权限的,读写权限基本满足日常需求,其被修改的概率很低,设定概率是1%
第六项特征值文件名称,此属性如果需要修改的话工作量比较大,一般需要修正命名规范或者人为误操作才会被修改,设定概率是10%
第七项特征值文件创建的时间戳,此属性只有再拷贝和移动的时候修改,设定概率是50%
第八项特征值文件路径,此属性只有再拷贝和移动的时候修改,设定概率是50%
根据特征值快速识别基因数据文件,这个基因数据文件与索引文件里的某个文件的相同特征值的错误概率相乘,会得到这两个文件是同一文件的判断错误概率,如果这个错误概率在千万分之一以上(包含),就认定此基因数据文件和索引文件列表里的文件相同。
通过上述实施例可以看到,本发明针对二代测序数据提供了基因数据文件快速识别方法和系统,能够准确、简便和高效地识别和查找基因数据文件。本发明可减少因人为造成的管理错误,提高人员的管理效率,同时提高计算机资源的使用效率,具有很好的应用前景。
Claims (9)
1.一种基因数据文件快速识别方法,其特征在于:利用特征值对比识别所述基因数据文件,所述特征值包括:文件大小、文件内容摘要、文件的用户ID和组ID、文件修改的时间戳、文件权限、文件名称、文件创建的时间戳和文件路径。
2.按照权利要求1所述的基因数据文件快速识别方法,其特征在于:所述文件内容摘要的生成方式为:从所述基因数据文件中按比例读取内容。
3.按照权利要求1所述的基因数据文件快速识别方法,其特征在于:所述文件内容摘要的生成方式如下:
1)对于FASTA文件,提取第一行由大于号">"开头的任意文字说明;
2)对于FASTQ文件,提取第一行序列标识以及相关的描述信息,以‘@’开头;
3)对于GTF或GFF文件,提取如下九列的前100行内容:seqid、source、type、start、end、score、strand、phase和attributes;
4)对于SAM、BAM或CRAM文件,提取头部注释部分;
5)对于BED或INTERVAL文件,提取如下三列的前100行内容:第一列为chrom或者scaffold名称,第二列为chrom中的起始位置,第三列为chrom中的终止位置;
6)对于BAI、CSI或TBI文件,提取整个文件内容;
7)对于VCF或GVCF文件,提取如下五列的前100行内容:POS、ID、REF、ALT和QUAL。
4.一种用于实现权利要求1-3任一项所述基因数据文件快速识别方法的系统,其特征在于,包括:
文件查找模块,用于循环遍历所有文件,判断是否是基因数据文件;
文件读取模块,用于获取基因数据文件的特征值;
特征值对比模块,用于将文件读取模块获得的特征值与已存在的索引文件列表里面的文件比对,把特征值比对的结果信息更新到索引文件列表中;
索引列表文件模块,用于通过索引文件列表的形式存储基因数据文件的信息,实现根据特定的特征值查找对应的基因数据文件。
5.按照权利要求4所述的系统,其特征在于:文件查找模块通过文件名称后缀字符判断文件是否是基因数据文件,所述文件名称后缀包括fasta、fa、gff、gtf、fq、fastq、sam、bam、cram、bai、csi、tbi、bed、interval、vcf、gvcf或g.vcf的为基因数据文件。
6.按照权利要求4所述的系统,其特征在于:所述索引列表文件模块具有如下实施如下三类操作的功能:
1)向所述索引文件列表中添加新的文件信息;
2)根据特定的特征值查找对应的基因数据文件;
3)删除所述索引文件列表中不存在的基因数据文件的文件信息。
7.按照权利要求4所述的系统,其特征在于:还包括异常处理模块,用于记录系统运行过程中的异常信息。
8.按照权利要求4所述的系统,其特征在于:还包括MD5校验模块,用于对所述基因数据文件进行MD5校验。
9.一种计算机可读存储介质,其特征在于:其上存储有用于实现权利要求1-3任一项所述基因数据文件快速识别方法的计算机程序或用于实现权利要求4-8任一项所述系统的计算机程序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211347438.8A CN115391284B (zh) | 2022-10-31 | 2022-10-31 | 基因数据文件快速识别方法、系统和计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211347438.8A CN115391284B (zh) | 2022-10-31 | 2022-10-31 | 基因数据文件快速识别方法、系统和计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115391284A true CN115391284A (zh) | 2022-11-25 |
CN115391284B CN115391284B (zh) | 2023-02-03 |
Family
ID=84115039
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211347438.8A Active CN115391284B (zh) | 2022-10-31 | 2022-10-31 | 基因数据文件快速识别方法、系统和计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115391284B (zh) |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103714180A (zh) * | 2014-01-08 | 2014-04-09 | 浪潮(北京)电子信息产业有限公司 | 一种生物信息学数据库系统和数据处理方法 |
US20140337928A1 (en) * | 2013-05-10 | 2014-11-13 | Ricoh Company, Ltd. | Information processing device, information management method, and information processing system |
CN106021980A (zh) * | 2016-05-13 | 2016-10-12 | 万康源(天津)基因科技有限公司 | 一种dna及蛋白质水平突变分析系统 |
CN106021981A (zh) * | 2016-05-13 | 2016-10-12 | 万康源(天津)基因科技有限公司 | 一种基于功能网络多疾病变异位点分析平台 |
CN108229103A (zh) * | 2018-01-15 | 2018-06-29 | 臻和(北京)科技有限公司 | 循环肿瘤dna重复序列的处理方法及装置 |
CN109416928A (zh) * | 2016-06-07 | 2019-03-01 | 伊路米纳有限公司 | 用于进行二级和/或三级处理的生物信息学系统、设备和方法 |
CN110008217A (zh) * | 2019-04-08 | 2019-07-12 | 湖南大地同年生物科技有限公司 | 一种面向基因组突变数据的存储和索引处理方法 |
CN110506272A (zh) * | 2016-10-11 | 2019-11-26 | 基因组系统公司 | 用于访问以访问单元结构化的生物信息数据的方法和装置 |
US20190370116A1 (en) * | 2018-05-30 | 2019-12-05 | Druva Technologies Pte. Ltd. | Index based smart folder scan system and method for cloud-computing provider network |
CN111309677A (zh) * | 2020-02-11 | 2020-06-19 | 西安奥卡云数据科技有限公司 | 一种分布式文件系统的文件管理方法及装置 |
CN111400258A (zh) * | 2020-03-20 | 2020-07-10 | 深圳市凯沃尔电子有限公司 | 一种数据文件存储方法和装置 |
CN112131218A (zh) * | 2020-09-04 | 2020-12-25 | 苏州浪潮智能科技有限公司 | 一种基因对比的哈希查表方法、装置、设备及存储介质 |
CN113096736A (zh) * | 2021-03-26 | 2021-07-09 | 北京源生康泰基因科技有限公司 | 一种基于纳米孔测序的病毒实时自动分析方法及系统 |
CN113488106A (zh) * | 2021-07-02 | 2021-10-08 | 苏州赛美科基因科技有限公司 | 一种快速获取目标基因组区域比对结果数据的方法 |
CN113901006A (zh) * | 2021-10-13 | 2022-01-07 | 国家计算机网络与信息安全管理中心 | 大规模基因测序数据存储与查询系统 |
CN114328399A (zh) * | 2022-03-15 | 2022-04-12 | 四川大学华西医院 | 一种基因测序多样本数据文件自动配对的方法和系统 |
-
2022
- 2022-10-31 CN CN202211347438.8A patent/CN115391284B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140337928A1 (en) * | 2013-05-10 | 2014-11-13 | Ricoh Company, Ltd. | Information processing device, information management method, and information processing system |
CN103714180A (zh) * | 2014-01-08 | 2014-04-09 | 浪潮(北京)电子信息产业有限公司 | 一种生物信息学数据库系统和数据处理方法 |
CN106021980A (zh) * | 2016-05-13 | 2016-10-12 | 万康源(天津)基因科技有限公司 | 一种dna及蛋白质水平突变分析系统 |
CN106021981A (zh) * | 2016-05-13 | 2016-10-12 | 万康源(天津)基因科技有限公司 | 一种基于功能网络多疾病变异位点分析平台 |
CN109416928A (zh) * | 2016-06-07 | 2019-03-01 | 伊路米纳有限公司 | 用于进行二级和/或三级处理的生物信息学系统、设备和方法 |
CN110506272A (zh) * | 2016-10-11 | 2019-11-26 | 基因组系统公司 | 用于访问以访问单元结构化的生物信息数据的方法和装置 |
CN108229103A (zh) * | 2018-01-15 | 2018-06-29 | 臻和(北京)科技有限公司 | 循环肿瘤dna重复序列的处理方法及装置 |
US20190370116A1 (en) * | 2018-05-30 | 2019-12-05 | Druva Technologies Pte. Ltd. | Index based smart folder scan system and method for cloud-computing provider network |
CN110008217A (zh) * | 2019-04-08 | 2019-07-12 | 湖南大地同年生物科技有限公司 | 一种面向基因组突变数据的存储和索引处理方法 |
CN111309677A (zh) * | 2020-02-11 | 2020-06-19 | 西安奥卡云数据科技有限公司 | 一种分布式文件系统的文件管理方法及装置 |
CN111400258A (zh) * | 2020-03-20 | 2020-07-10 | 深圳市凯沃尔电子有限公司 | 一种数据文件存储方法和装置 |
CN112131218A (zh) * | 2020-09-04 | 2020-12-25 | 苏州浪潮智能科技有限公司 | 一种基因对比的哈希查表方法、装置、设备及存储介质 |
CN113096736A (zh) * | 2021-03-26 | 2021-07-09 | 北京源生康泰基因科技有限公司 | 一种基于纳米孔测序的病毒实时自动分析方法及系统 |
CN113488106A (zh) * | 2021-07-02 | 2021-10-08 | 苏州赛美科基因科技有限公司 | 一种快速获取目标基因组区域比对结果数据的方法 |
CN113901006A (zh) * | 2021-10-13 | 2022-01-07 | 国家计算机网络与信息安全管理中心 | 大规模基因测序数据存储与查询系统 |
CN114328399A (zh) * | 2022-03-15 | 2022-04-12 | 四川大学华西医院 | 一种基因测序多样本数据文件自动配对的方法和系统 |
Non-Patent Citations (2)
Title |
---|
宋亚奇等: "云平台下输变电设备状态监测大数据存储优化与并行处理", 《中国电机工程学报》 * |
谢小芳等: "植物GH3基因家族的生物信息学分析", 《基因组学与应用生物学》 * |
Also Published As
Publication number | Publication date |
---|---|
CN115391284B (zh) | 2023-02-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7814111B2 (en) | Detection of patterns in data records | |
CN112579155B (zh) | 代码相似性检测方法、装置以及存储介质 | |
CN101233509A (zh) | 对双标记序列进行处理和/或基因组定位的方法 | |
WO2018218788A1 (zh) | 一种基于全局种子打分优选的三代测序序列比对方法 | |
CN111382184A (zh) | 一种对药品文档进行校验的方法和药品文档校验系统 | |
CN112926299B (zh) | 一种文本比对方法、合同审阅方法、审核系统 | |
CN112597345A (zh) | 一种实验室数据自动采集与匹配方法 | |
CN118013364A (zh) | 一种多维数据智能标识方法 | |
CN112489727A (zh) | 一种快速获取罕见病致病位点的方法和系统 | |
CN115391284B (zh) | 基因数据文件快速识别方法、系统和计算机可读存储介质 | |
CN117409922A (zh) | 一种用于临床辅助决策的循证方法 | |
CN112750501A (zh) | 一种宏病毒组流程的优化分析方法 | |
CN116453591A (zh) | 基于RNA-seq数据分析、变异评级和报告生成系统及方法 | |
CN109493918B (zh) | 一种生物数据管理及系统发育分析流程化方法 | |
CN114090673A (zh) | 一种多数据源的数据处理方法、设备及存储介质 | |
CN114627967A (zh) | 一种精确注释三代全长转录本的方法 | |
CN118280456B (zh) | 一种线粒体dna数据规范化方法及集成应用平台 | |
Maciel et al. | Step-by-Step Bioinformatics Analysis of Schistosoma Mansoni Long non-Coding RNA Sequences | |
CN112559195B (zh) | 数据库死锁的检测方法、装置、测试终端及介质 | |
CN114186536B (zh) | 一种数据记录自动分析生成的方法、系统和存储介质 | |
CN117389980B (zh) | 日志文件分析方法及装置、计算机设备和可读存储介质 | |
Sánchez | Practical Transcriptomics: Differential gene expression applied to food production | |
WO2024077568A1 (zh) | 参考序列的构建方法、宏基因组数据压缩方法和电子设备 | |
Nord | Mirage: A Novel Multiple Protein Sequence Alignment Tool | |
CN118053497A (zh) | 一种微卫星位点筛选分析方法、系统、计算机设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |