CN115391284B

CN115391284B - 基因数据文件快速识别方法、系统和计算机可读存储介质

Info

Publication number: CN115391284B
Application number: CN202211347438.8A
Authority: CN
Inventors: 陈一龙; 应志野; 辜永红; 于浩澎; 杨绪亮; 葛平; 成孝禹; 于鹏佳; 程岭; 黄蓉
Original assignee: Saile Gene Technology Beijing Co ltd; Huawei Technologies Co Ltd; West China Hospital of Sichuan University
Current assignee: Saile Gene Technology Beijing Co ltd; Huawei Technologies Co Ltd; West China Hospital of Sichuan University
Priority date: 2022-10-31
Filing date: 2022-10-31
Publication date: 2023-02-03
Anticipated expiration: 2042-10-31
Also published as: CN115391284A

Abstract

本发明属于测序数据管理技术领域，具体涉及一种基因数据文件快速识别方法、系统和计算机可读存储介质。本发明的识别方法是利用特征值对比识别所述基因数据文件，所述特征值包括：文件大小、文件内容摘要、文件的用户ID和组ID、文件修改的时间戳、文件权限、文件名称、文件创建的时间戳和文件路径。本发明能够准确、简便和高效地识别和查找基因数据文件，可减少因人为造成的管理错误，提高人员的管理效率，同时提高计算机资源的使用效率，具有很好的应用前景。

Description

基因数据文件快速识别方法、系统和计算机可读存储介质

技术领域

本发明属于测序数据管理技术领域，具体涉及一种基因数据文件快速识别方法、系统和计算机可读存储介质。

背景技术

二代测序（Next Generation Sequencing）广泛应用，同时基因技术开始进入普及，高通量测序的广泛应用、测序设备自动化程度的提高，测序数据正成几何增长。据测算，一个人一生与健康相关的数据整合起来大约10TB，一百万人的数据量约为10EB。此外，还有大量动植物基因组测序分析等科研服务项目，数据类型和数量异常庞大。而且，测序仪运行产生的原始数据并不能直接提供关于疾病的信息，测序企业需要依据生物信息学的方法，对海量的测序数据进行复杂的过滤、比对、拼接、处理和数据分析等重重步骤，在这些重重的步骤中需要生成更多的基因数据文件，才能获得基因组上的变异信息，再结合遗传学、病理学以及其他组学等信息共同分析，最终才能转化为人们可理解的生物学数据，为疾病的诊疗提供参考和指导。

在二代测序技术中，一个样本从原始数据文件（测序仪器下机数据）到最后注释文件（可理解的生物学数据），需要经过处理至少生成8个文件（原始文件2个，过滤文件2个，比对文件1个，变异检测文件2个，注释文件1个等）。假设每个样本对应8个文件，那么一万个样本，对应八万个文件，随着样本的增多，如何快速准确方便的识别这些基因数据文件将成为一个难题。

现有的识别基因数据文件的方法通常是通过文件名来查找。然而，由于文件名非常容易被人为修改，因此查找到相关文件后，还要通过MD5检查文件的完整性。MD5检查文件的方法是对整个文件内容校验，耗时长。因此，本领域亟需一种能够简便、高效识别和查找基因数据文件的方法。

发明内容

针对现有技术的问题，本发明提供一种基因数据文件快速识别方法和系统，目的在于简便、高效地识别和查找基因数据文件。

一种基因数据文件快速识别方法，利用特征值对比识别所述基因数据文件，所述特征值包括：文件大小、文件内容摘要、文件的用户ID和组ID、文件修改的时间戳、文件权限、文件名称、文件创建的时间戳和文件路径。

优选的，所述文件内容摘要的生成方式为：从所述基因数据文件中按比例读取内容。

优选的，所述文件内容摘要的生成方式如下：

1）对于FASTA文件，提取第一行由大于号">"开头的任意文字说明；

2）对于FASTQ文件，提取第一行序列标识以及相关的描述信息，以‘@’开头；

3）对于GTF或GFF文件，提取如下九列的前100行内容：seqid、source、type、start、end、score、strand、phase和attributes；

4）对于SAM、BAM或CRAM文件，提取头部注释部分；

5）对于BED或INTERVAL文件，提取如下三列的前100行内容：第一列为chrom或者scaffold名称，第二列为chrom中的起始位置，第三列为chrom中的终止位置；

6）对于BAI、CSI或TBI文件，提取整个文件内容；

7）对于VCF或GVCF文件，提取如下五列的前100行内容：POS、ID、REF、ALT和QUAL。

本发明还提供一种用于实现基因数据文件快速识别方法的系统，包括：

文件查找模块，用于循环遍历所有文件，判断是否是基因数据文件；

文件读取模块，用于获取基因数据文件的特征值；

特征值对比模块，用于将文件读取模块获得的特征值与已存在的索引文件列表里面的文件比对，把特征值比对的结果信息更新到索引文件列表中；

索引列表文件模块，用于通过索引文件列表的形式存储基因数据文件的信息，实现根据特定的特征值查找对应的基因数据文件。

优选的，文件查找模块通过文件名称后缀字符判断文件是否是基因数据文件，所述文件名称后缀包括fasta、fa、gff、gtf、fq、fastq、sam、bam、cram、bai、csi、tbi、bed、interval、vcf、gvcf或g.vcf的为基因数据文件。

优选的，所述索引列表文件模块具有如下实施如下三类操作的功能：

1）向所述索引文件列表中添加新的文件信息；

2）根据特定的特征值查找对应的基因数据文件；

3）删除所述索引文件列表中不存在的基因数据文件的文件信息。

优选的，还包括异常处理模块，用于记录系统运行过程中的异常信息。

优选的，还包括MD5校验模块，用于对所述基因数据文件进行MD5校验。

本发明还提供一种计算机可读存储介质，其上存储有用于实现上述基因数据文件快速识别方法的计算机程序或用于实现上述系统的计算机程序。

本发明中，所述“基因数据文件”是指二代测序方法中产生的基因数据文件。

本发明针对二代测序数据的特点，构建了一系列用于识别基因数据文件的特征值，利用这些特征值能够简单、快速地识别和查找基因数据文件。相比于现有技术中的文件名查找和MD5校验的方法，本发明兼顾了文件查找的准确性和效率。因此，在二代测序数据的管理中，本发明的方法和系统具有很好的应用前景。

显然，根据本发明的上述内容，按照本领域的普通技术知识和惯用手段，在不脱离本发明上述基本技术思想前提下，还可以做出其它多种形式的修改、替换或变更。

以下通过实施例形式的具体实施方式，对本发明的上述内容再作进一步的详细说明。但不应将此理解为本发明上述主题的范围仅限于以下的实例。凡基于本发明上述内容所实现的技术均属于本发明的范围。

附图说明

图1为本发发明实施例1的流程示意图。

具体实施方式

需要特别说明的是，实施例中未具体说明的数据采集、传输、储存和处理等步骤的算法，以及未具体说明的硬件结构、电路连接等均可通过现有技术已公开的内容实现。

实施例1 基因数据文件快速识别方法和系统

本实施例的系统包括：

文件读取模块，用于获取基因数据文件的特征值；

索引列表文件模块，用于通过索引文件列表的形式存储基因数据文件的信息，实现根据特定的特征值查找对应的基因数据文件；

异常处理模块，用于记录系统运行过程中的异常信息；

MD5校验模块，用于对所述基因数据文件进行MD5校验。

上述系统的工作工作流程如图1所示，具体如下：

A1) 文件查找模块循环遍历所有文件，判读是否是基因数据文件，解析文件名称，文件名称后缀字符包含fasta、fa、gff、gtf、fq、fastq、sam、bam、cram、bai、csi、tbi、bed、interval、vcf、gvcf或g.vcf，就是需要处理的基因数据文件，其他文件不会处理。

A2）根据用户输入的选项，共两个选项选择，第一个选项就是快速查找，快速查找的策略就是利用特征值对基因数据文件识别的方法，此方法速度快，准确率高，可用于所有场景。但是在某些特殊情况下，可使用第二个选项，就是传统的MD5校验方法，此选项耗时长，但是能百分百的确认基因数据文件。

A3）文件读取模块，获取基因数据文件的特征值，特征值包括：文件大小、文件内容摘要、文件的用户ID和组ID、文件修改的时间戳、文件权限、文件名称、文件创建的时间戳和文件路径。

文件内容摘要的提取可选择两种策略，第一个策略是不解析文件内容，直接读取文件内容，例如，对于10G大小的基因数据文件，每1G内容读取1KB的内容生成摘要作为特征值。第二种策略是解析文件内容，通过基因数据文件特定文件格式，提取不同的文件内容作为唯一的特征值。不同基因数据文件根据其格式，提取的文件内容如下：

B1）提取FASTA文件内容为：第一行由大于号">"开头的任意文字说明，用于序列标记，为了保证后续分析软件能够区分每条序列，单个序列的标识必须是唯一的。

B2）提取FASTQ文件内容为：第一行序列标识以及相关的描述信息，以‘@’开头；

B3）提取GTF和GFF文件内容为：如下九列前100行内容；

第一列是seqid, 代表序列ID, 通常是染色体的ID, 每条染色体拥有一个唯一的ID。

第二列是source, 代表基因结构的来源，可以是数据库的名称，比如来自genebank数据库，也可以是软件的名称，比如用GeneScan软件预测得到，当然，也可以为空，用.点号填充。

第三列是type, 代表区间对应的特征类型，比如gene, exon等。

第四列是start, 代表区间的起始位置。

第四列是end, 代表区间的终止位置。

第六列是score, 软件提供了统计值，如果没有，就用“. ”填充。

第七列是strand, 代表正负链的信息, +表示正链，-表示负链，符号“问号”表示不清楚正负链的信息，当正负链信息没有意义时，可以用.填充。

第八列是phase，当描述的是CDS区间信息时，需要指定翻译时开始的位置，取值范围包括0,1,2。

第九列是attributes, 表示属性，每种属性采用key=value 的形式，多个属性之间用分号分隔。

B4）提取SAM/BAM/CRAM的文件内容：整个头部注释部分，@HD：说明VN的版本以及比对有无排列顺序，这个例子没有排序。@SQ：参考序列目录。SN：参考序列名字。LN：参考序列长度。@PG：使用的比对程序名。

B5) 提取BED/INTERVAL的文件内容：以下三列前100行内容；

第一列是chrom或者scaffold名称；

第二列是在chrom中的起始位置(前坐标)；

第三列是在chrom中的终止位置(后坐标)。

B6）提取BAI/CSI/TBI的文件内容：整个文件内容（因为这类文件都是索引文件，文件很小）。

B7）提取VCF/GVCF的文件内容：以下五列的前100行；

第一列是POS [position]，参考基因组突变碱基位置，如果是INDEL(插入缺失)，位置是INDEL的第一个碱基位置。

第二列是ID [identifier]，突变的名称。若没有，则用“. ”表示其为一个新变种。

第三列是REF [reference bases]，参考染色体的碱基，必须是ATCGN中的一个，N表示不确定碱基。

第四列是ALT [alternate bases]，与参考序列比较，发生突变的碱基;多个的话以“,”连接，可选符号为ATCGN*，大小写敏感。

第五列是QUAL [quality]，Phred标准下的质量值，表示在该位点存在突变的可能性;该值越高，则突变的可能性越大;计算方法：Phred值 = -10 * log (1-p) p为突变存在的概率。

A4）获取基因数据文件的八个特征值后，根据特征值比对文件，每个特征值赋予其两个属性。

D1)第一个属性是终止性，拥有此属性的特质值为文件大小（C1）和文件部分内容摘要（C2）。

如果文件大小（C1）和文件部分内容摘要（C2）其中有一个不同，即可以判定是不同的基因数据文件。

D2)第二个属性是辨识性，每个特征值都具有此属性。

当判定两个基因数据文件是同一个文件时，按照文件大小（C1）至文件路径（C8）的顺序依次判定。

A5）把每个基因数据文件特征值比对完后，记录这些特征值的相关信息，写到文件里，生成每个基因数据文件的索引信息列表。有了索引信息列表，每次运行程序，可以进行三类操作：添加、查找和删除。

E1)添加操作，第一次运行生成索引信息列表文件都是添加，后续运行时会增加新的基因数据文件，索引列表文件已存在的相同文件信息，如果发生变化也会增加。

E2)查找操作，如果用户想要查找某个文件，可以通过记录的八项特征值生成的索引文件列表，快速查找到想要的基因数据文件。

E3)删除操作，当发现之前的基因数据文件已经不存在了，可以通过标签DEL标注此文件已删除（方便用户追溯历史记录），也可以在索引信息列表中直接删除此条记录。

A6）异常处理模块收到异常后，不会中断执行，只是记录异常信息，记录的信息包括，异常样本的文件名、获取文件特征值错误、文件读取错误、文件解析错误、写入索引文件列表错误。

A7）用户使用该系统的使用方法：执行程序的时候，参数必须输入基因数据文件存放的目录和索引列表文件的存放目录，默认使用快速查找选项。程序会根据目录找出所有基因数据文件，生成一个索引列表文件（每行一个基因数据文件和八个特征值相关的信息）。其他异常情况，会生成一个异常错误的文件，供用户查看并处理异常的基因数据文件。用户也是通过选项使用传统的MD5对基因数据文件进行校验。

下面对本实施例的系统识别文件出现错误的概率进行估计：

第一项特征值文件大小，基因数据文件的大小范围在几百字节到几百G字节的范围，一个基因数据文件大小和索引文件列表里面的文件大小相同，估计概率是0.1%。

第二项特征值文件部分内容摘要，基因数据文件平均都是几G，例如一个10G的基因数据文件，若只是获取其内容的10KB，是整个文件内容的百万分之一，其查找速度的提高也是成正比的。对于测序下机的基因数据文件其存在相同的概率，设定概率是0.01%。

仅仅通过以上两个特征值相同来判定这个文件与索引文件列表里的文件相同，出现错误的概率也是千万分之一。

第三项特征值文件的用户ID和组ID，一般文件拷贝，移动等操作并不会改变文件所属用户，大部分情况此值变化的概率也很小，设定概率是1%

第四项特征值文件修改的时间戳，基因数据文件都是有特定程序生成，需要人为去修改的概率也很低，设定概率是1%

第五项特征值文件的权限，基因数据文件默认都是拥有读写权限的，读写权限基本满足日常需求，其被修改的概率很低，设定概率是1%

第六项特征值文件名称，此属性如果需要修改的话工作量比较大，一般需要修正命名规范或者人为误操作才会被修改，设定概率是10%

第七项特征值文件创建的时间戳，此属性只有再拷贝和移动的时候修改，设定概率是50%

第八项特征值文件路径，此属性只有再拷贝和移动的时候修改，设定概率是50%

根据特征值快速识别基因数据文件，这个基因数据文件与索引文件里的某个文件的相同特征值的错误概率相乘，会得到这两个文件是同一文件的判断错误概率，如果这个错误概率在千万分之一以上（包含），就认定此基因数据文件和索引文件列表里的文件相同。

通过上述实施例可以看到，本发明针对二代测序数据提供了基因数据文件快速识别方法和系统，能够准确、简便和高效地识别和查找基因数据文件。本发明可减少因人为造成的管理错误，提高人员的管理效率，同时提高计算机资源的使用效率，具有很好的应用前景。

Claims

1.一种基因数据文件快速识别方法，其特征在于：利用特征值对比识别所述基因数据文件，所述特征值包括：文件大小、文件内容摘要、文件的用户ID和组ID、文件修改的时间戳、文件权限、文件名称、文件创建的时间戳和文件路径；

所述文件内容摘要的生成方式如下：

1)对于FASTA文件，提取第一行由大于号">"开头的任意文字说明；

2)对于FASTQ文件，提取第一行序列标识以及相关的描述信息，以‘@’开头；

3)对于GTF或GFF文件，提取如下九列的前100行内容：seqid、source、type、start、end、score、strand、phase和attributes；

4)对于SAM、BAM或CRAM文件，提取头部注释部分；

5)对于BED或INTERVAL文件，提取如下三列的前100行内容：第一列为chrom或者scaffold名称，第二列为chrom中的起始位置，第三列为chrom中的终止位置；

6)对于BAI、CSI或TBI文件，提取整个文件内容；

7)对于VCF或GVCF文件，提取如下五列的前100行内容：POS、ID、REF、ALT和QUAL。

2.按照权利要求1所述的基因数据文件快速识别方法，其特征在于：所述文件内容摘要的生成方式为：从所述基因数据文件中按比例读取内容。

3.一种用于实现权利要求1或2所述基因数据文件快速识别方法的系统，其特征在于，包括：

文件读取模块，用于获取基因数据文件的特征值；

所述特征值包括：文件大小、文件内容摘要、文件的用户ID和组ID、文件修改的时间戳、文件权限、文件名称、文件创建的时间戳和文件路径；

所述文件内容摘要的生成方式如下：

4)对于SAM、BAM或CRAM文件，提取头部注释部分；

6)对于BAI、CSI或TBI文件，提取整个文件内容；

4.按照权利要求3所述的系统，其特征在于：文件查找模块通过文件名称后缀字符判断文件是否是基因数据文件，所述文件名称后缀包括fasta、fa、gff、gtf、fq、fastq、sam、bam、cram、bai、csi、tbi、bed、interval、vcf、gvcf或g.vcf的为基因数据文件。

5.按照权利要求3所述的系统，其特征在于：所述索引列表文件模块具有如下实施如下三类操作的功能：

1)向所述索引文件列表中添加新的文件信息；

2)根据特定的特征值查找对应的基因数据文件；

3)删除所述索引文件列表中不存在的基因数据文件的文件信息。

6.按照权利要求3所述的系统，其特征在于：还包括异常处理模块，用于记录系统运行过程中的异常信息。

7.按照权利要求3所述的系统，其特征在于：还包括MD5校验模块，用于对所述基因数据文件进行MD5校验。

8.一种计算机可读存储介质，其特征在于：其上存储有用于实现权利要求1或2所述基因数据文件快速识别方法的计算机程序或用于实现权利要求3-7任一项所述系统的计算机程序。