CN114328399A - 一种基因测序多样本数据文件自动配对的方法和系统 - Google Patents

一种基因测序多样本数据文件自动配对的方法和系统 Download PDF

Info

Publication number
CN114328399A
CN114328399A CN202210252377.0A CN202210252377A CN114328399A CN 114328399 A CN114328399 A CN 114328399A CN 202210252377 A CN202210252377 A CN 202210252377A CN 114328399 A CN114328399 A CN 114328399A
Authority
CN
China
Prior art keywords
file
sample data
sequencing
gene sequencing
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210252377.0A
Other languages
English (en)
Other versions
CN114328399B (zh
Inventor
应志野
辜永红
陈一龙
于浩澎
杨绪亮
葛平
成孝禹
盛玖
黄蓉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Saile Gene Technology Beijing Co ltd
Huawei Technologies Co Ltd
West China Hospital of Sichuan University
Original Assignee
Saile Gene Technology Beijing Co ltd
Huawei Technologies Co Ltd
West China Hospital of Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Saile Gene Technology Beijing Co ltd, Huawei Technologies Co Ltd, West China Hospital of Sichuan University filed Critical Saile Gene Technology Beijing Co ltd
Priority to CN202210252377.0A priority Critical patent/CN114328399B/zh
Publication of CN114328399A publication Critical patent/CN114328399A/zh
Application granted granted Critical
Publication of CN114328399B publication Critical patent/CN114328399B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供了一种基因测序多样本数据文件自动配对的方法和系统,前述方法包括对FASTQ格式的文件进行读取,获取测序片段ID的信息,采用信息摘要算法计算得到各临时文件的摘要和对比匹配摘要一致的文件的步骤。本发明方法和实现该方法的系统能够快速准确地配对样本数据文件,并区分同一样本模板链文件和互补链文件,减少因人为造成的程序执行错误问题,提高计算机资源的使用效率。

Description

一种基因测序多样本数据文件自动配对的方法和系统
技术领域
本发明属于信息处理领域,具体涉及一种基因测序多样本数据文件自动配对的方法和系统。
背景技术
在基因测序过程中,单端测序是最简单的测序方法,采用单一的测序引物,使得PCR沿着该测序引物的方向进行,因此所有测序片段(reads)只能按照一个方向读取,但测序的质量会随着测序进行而下降,导致越往后测序,reads越不准确。为了克服这一缺点,双末端测序技术开始普及,从两端向中间进行两个不同方向的测序,获得两个方向的reads,每一个read的长度都要超过整个待测序列的一半,再根据匹配的两个reads重合的部分进行拼接计算,得到最终确认的基因序列,不但可以大大提高测序准确率,而且还有利于检测出单端测序数据无法检出的插入缺失变异。
随着基因测序技术的不断发展,第二代测序(Next-generation sequencing,NGS)作为一种基于PCR和基因芯片发展而来的DNA测序技术,具有测序通量高、速度快、成本低的优势,取得了越来越广泛的应用。然而,高通量测序检测的样本量非常庞大,因此双通量测序方法会获得大量记载reads信息的文件,要进行后续的基因数据计算,必须将记载了对同一样本测序得到的两个方向的reads信息的一对数据文件(模板链文件和互补链文件)进行匹配,因此,在多样本的基因测序数据文件中如何快速准确地配对每个样本的模板链和互补链文件是一大难题。
现有的配对方法多是通过测序生成的样本的文件名称来进行模板链文件和互补链文件匹配,以及模板链和互补链的区分,然而,大量测序样本的数据文件仅通过文件名称难以管理,且文件名称很容易被人为修改,最终导致配对程序无法正常执行。
因此,随着测序样本越来越多,针对以上难题,提供一种能够快速准确地配对样本数据文件,并区分同一样本模板链文件和互补链文件的技术具有重要意义。
发明内容
本发明的目的在于提供一种基因测序多样本数据文件自动配对的方法和系统。
本发明提供了一种基因测序多样本数据文件自动配对的方法,包括如下步骤:
(1)读取待配对基因测序多样本数据文件的内容;
(2)获取测序片段ID的信息,分别将每个基因测序多样本数据文件的测序片段ID信息保存为对应的临时文件;
(3)采用信息摘要算法计算得到各临时文件的摘要;
(4)对比各临时文件的摘要,摘要一致的即为配对的基因测序多样本数据文件;
所述基因测序多样本数据文件为符合国家标准GB/T 35890-2018的FASTQ格式的文件。
进一步地,步骤(1)所述读取为按行读取FASTQ文件的内容,并去除行首和行尾的特殊字符;所述特殊字符包括空格字符、回车字符。
进一步地,步骤(2)所述获取测序片段ID的信息是获取文件中以字符@开头的一行信息。
进一步地,步骤(3)所述信息摘要算法是MD5算法。
更进一步地,步骤(1)所述待配对基因测序多样本数据文件是通过如下步骤获取的:
(a)查找确认存放目录下双末端测序得到的所有基因测序多样本数据文件;
(b)判断文件查找模块确认的基因测序多样本数据文件是否是压缩文件,对压缩文件解压;
优选地,步骤(a)所述查找确认的方法是:解析文件名称,文件名称后缀字符包含fq或fastq即确认进行步骤(b);
和/或步骤(b)所述判断是否是压缩文件的方法是:解析文件名称,文件名称后缀字符为gz、zip或bz的文件为压缩文件。
进一步地,上述方法还包括区分配对的2个基因测序多样本数据文件中模板链文件和互补链文件的步骤:比较配对的2个基因测序多样本数据文件中测序片段ID信息中的标识信息大小,数值小的是模板链文件,数值大的是互补链文件。
本发明还提供了一种基因测序多样本数据文件自动配对的系统,它包括按照上述的方法对基因测序多样本数据文件进行配对的模块。
进一步地,它包括如下模块:
文件读取模块:读取带配对基因测序多样本数据文件的内容;
文件解析模块:获取测序片段ID的信息,分别将每个基因测序多样本数据文件的测序片段ID信息保存为对应的临时文件;
信息摘要算法模块:采用信息摘要算法计算得到各临时文件的摘要;
配对模块:对比各临时文件的摘要,摘要一致的确定为配对的基因测序多样本数据文件。
更进一步地,它还包括如下模块:
文件查找模块:查找确认存放目录下双末端测序得到的所有需要处理的基因测序多样本数据文件;
文件解压模块:判断文件查找模块确认的文件是否是压缩文件,对压缩文件解压;
优选地,它还包括异常处理模块:记录其它模块处理过程中出现的异常信息;
和/或它还包括区分模块:比较配对的2个基因测序多样本数据文件中测序片段ID信息中的标识信息大小,数值小的是模板链文件,数值大的是互补链文件。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序用于实现上述的基因测序多样本数据文件自动配对的方法。
基因数据具有海量性,本发明方法可以方便管理大量基因测序数据文件,减少因人为造成的程序执行错误问题,提高计算机资源的使用效率。
除另有说明外,本发明涉及的术语与国家标准GB/T 35890-2018中定义的术语和描述规范的含义一致。
本发明所述的“测序片段ID信息中的标识信息”,是指通过双端测序直接自动生成的FASTQ文件中的测序片段ID行的标识信息,例如对于Illumina测序得到的FASTQ文件而言,就是以字符“/”(早期数据)或者是字符空格“ ”(后期数据)后的数值大小来标识模板链或互补链。
显然,根据本发明的上述内容,按照本领域的普通技术知识和惯用手段,在不脱离本发明上述基本技术思想前提下,还可以做出其它多种形式的修改、替换或变更。
以下通过实施例形式的具体实施方式,对本发明的上述内容再作进一步的详细说明。但不应将此理解为本发明上述主题的范围仅限于以下的实例。凡基于本发明上述内容所实现的技术均属于本发明的范围。
附图说明
图1为本发明方法对文件进行配对处理的流程图。
具体实施方式
实施例1、本发明方法配对基因测序多样本数据文件
1)文件查找模块判读是否是文件,然后遍历所有文件,解析文件名称,文件名称后缀字符包含fq和fastq,就是需要处理的FASTQ文件,其他文件不会处理。
2)文件解压模块判断文件名称后缀为.gz、.zip和.bz的文件为压缩文件,需要进行解压处理,解压成文本文件,其他文件不处理。处理过程中,如果出现异常由异常处理模块处理。
3)文件读取模块按行读取FASTQ文件内容,去除行首和行尾的空格和回车等特殊字符。处理过程中,如果出现异常由异常处理模块处理。
4)文件解析模块按照《高通量测序数据序列格式规范》(国家标准号:GB/T 35890-2018)6.1节“FASTQ格式”中规定的规范解析文件,首字符@开头的行为测序片段的信息行,每个数据文件只需要存储测序片段的信息行。处理过程中,如果出现异常由异常处理模块处理。
5) 信息摘要算法模块用MD5算法对每个临时中间文件存储的测序片段信息行生成摘要。摘要信息一致的就是配对的样本,配对的样本应该只有一对,即两个文件。如果配对的文件不是两个(一个文件或多个文件),则交给异常处理模块处理。
6)区分模块将配对成功的样本,根据测序片段ID的标识信息大小就可以区分出模板链文件及互补链文件(数值小的是模板链,数值大的是模板链)。
7)异常处理模块收到异常后,不会中断执行,只是记录异常信息,记录的信息包括,异常样本的文件名,文件解压错误、文件读取错误、文件解析错误,没有配对的样本(一个样本文件或多个样本文件)。
8)使用方法:执行程序的时候,参数必须输入FASTQ文件存放的目录。程序会根据目录找出所有样本,生成一个配对成功的文件(每行一个配对的样本)。其他异常情况,会生成一个异常错误的文件,供用户查看并处理异常的样本。图1为上述方法对文件进行配对处理的流程图。
以下通过实验例证明本发明的有益效果。
实验例1、本发明方法的自动配对效果
在/fastq1目录下,存放有1450个样本的2900个FASTQ数据文件,传统方式是由人工通过文件名称整理每个样本的配对数据文件至少需要1个小时。
使用本发明实施例1自动配对的方法系统可以快速将文件进行匹配输出,并作出模板链和互补链的区分标识,两个配对数据文件的文件名前缀相同,后缀包含R1字符的为模板链数据文件,后缀包含R2字符的为互补链数据文件。整个过程仅需要不到3秒的时间,同时还有效发现两个错误,分别为数据文件匹配不上和文件解压的错误。
可见,本发明方法可以准确、有效、快速地对大量基因测序多样本数据文件进行配对处理,大大缩短人工整理的时间成本,具有推广应用价值。

Claims (8)

1.一种基因测序多样本数据文件自动配对的方法,其特征在于,包括如下步骤:
(1)读取待配对基因测序多样本数据文件的内容;
(2)获取测序片段ID的信息,分别将每个基因测序多样本数据文件的测序片段ID信息保存为对应的临时文件;
(3)采用信息摘要算法计算得到各临时文件的摘要;
(4)对比各临时文件的摘要,摘要一致的即为配对的基因测序多样本数据文件;
所述基因测序多样本数据文件为符合国家标准GB/T 35890-2018的FASTQ格式的文件。
2.如权利要求1所述的方法,其特征在于,步骤(1)所述读取为按行读取FASTQ文件的内容,并去除行首和行尾的特殊字符;所述特殊字符包括空格字符、回车字符。
3.如权利要求1所述的方法,其特征在于,步骤(2)所述获取测序片段ID的信息是获取文件中以字符@开头的一行信息。
4.如权利要求1所述的方法,其特征在于,步骤(3)所述信息摘要算法是MD5算法。
5.如权利要求1所述的方法,其特征在于,步骤(1)所述待配对基因测序多样本数据文件是通过如下步骤获取的:
(a)查找确认存放目录下双末端测序得到的所有基因测序多样本数据文件;
(b)判断确认的基因测序多样本数据文件是否是压缩文件,对压缩文件解压;
优选地,步骤(a)所述查找确认的方法是:解析文件名称,文件名称后缀字符包含fq或fastq即确认进行步骤(b);
和/或步骤(b)所述判断确认的基因测序多样本数据文件是否是压缩文件的方法是:解析文件名称,文件名称后缀字符为gz、zip或bz的文件为压缩文件。
6.如权利要求1所述的方法,其特征在于,它还包括区分配对的2个基因测序多样本数据文件中模板链文件和互补链文件的步骤:比较配对的2个基因测序多样本数据文件中测序片段ID信息中的标识信息大小,数值小的是模板链文件,数值大的是互补链文件。
7.一种基因测序多样本数据文件自动配对的系统,其特征在于,它包括按照权利要求1~6任一项所述的方法对基因测序多样本数据文件进行配对的模块;所述模块包括:
文件读取模块:读取待配对基因测序多样本数据文件的内容;
文件解析模块:获取测序片段ID的信息,分别将每个基因测序多样本数据文件的测序片段ID信息保存为对应的临时文件;
信息摘要算法模块:采用信息摘要算法计算得到各临时文件的摘要;
配对模块:对比各临时文件的摘要,摘要一致的确定为配对的基因测序多样本数据文件。
8.如权利要求7所述的系统,其特征在于,它还包括如下模块:
文件查找模块:查找确认存放目录下双末端测序得到的所有需要处理的基因测序多样本数据文件;
文件解压模块:判断文件查找模块确认的基因测序多样本数据文件是否是压缩文件,对压缩文件解压;
优选地,它还包括异常处理模块:记录其它模块处理过程中出现的异常信息;
和/或它还包括区分模块:比较配对的2个基因测序多样本数据文件中测序片段ID信息中的标识信息大小,数值小的是模板链文件,数值大的是互补链文件。
CN202210252377.0A 2022-03-15 2022-03-15 一种基因测序多样本数据文件自动配对的方法和系统 Active CN114328399B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210252377.0A CN114328399B (zh) 2022-03-15 2022-03-15 一种基因测序多样本数据文件自动配对的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210252377.0A CN114328399B (zh) 2022-03-15 2022-03-15 一种基因测序多样本数据文件自动配对的方法和系统

Publications (2)

Publication Number Publication Date
CN114328399A true CN114328399A (zh) 2022-04-12
CN114328399B CN114328399B (zh) 2022-05-24

Family

ID=81033423

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210252377.0A Active CN114328399B (zh) 2022-03-15 2022-03-15 一种基因测序多样本数据文件自动配对的方法和系统

Country Status (1)

Country Link
CN (1) CN114328399B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115391284A (zh) * 2022-10-31 2022-11-25 四川大学华西医院 基因数据文件快速识别方法、系统和计算机可读存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106778071A (zh) * 2015-11-20 2017-05-31 财团法人资讯工业策进会 用以分析细菌菌种的测序数据的系统及其方法
CN106845155A (zh) * 2016-12-29 2017-06-13 安诺优达基因科技(北京)有限公司 一种用于检测内部串联重复的装置
CN111424075A (zh) * 2020-04-10 2020-07-17 西咸新区予果微码生物科技有限公司 一种基于第三代测序技术的微生物检测方法及系统
CN112259168A (zh) * 2020-10-22 2021-01-22 深圳华大基因科技服务有限公司 基因测序数据处理方法和基因测序数据处理装置
CN112779321A (zh) * 2021-01-18 2021-05-11 生物岛实验室 用于检测gck-mody基因突变的方法及其试剂盒
CN112802549A (zh) * 2021-01-26 2021-05-14 武汉大学 Dna序列完整性校验和纠错的编解码方法
CN113066529A (zh) * 2021-03-26 2021-07-02 四川大学华西医院 基于全外显子数据的近亲家系鉴定方法、装置及设备
CN113223619A (zh) * 2021-06-17 2021-08-06 南京诺因生物科技有限公司 比对不同全基因组测序方法的测序结果覆盖率的方法
US20210257047A1 (en) * 2020-02-18 2021-08-19 Tempus Labs, Inc. Methods and systems for refining copy number variation in a liquid biopsy assay
CN113488106A (zh) * 2021-07-02 2021-10-08 苏州赛美科基因科技有限公司 一种快速获取目标基因组区域比对结果数据的方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106778071A (zh) * 2015-11-20 2017-05-31 财团法人资讯工业策进会 用以分析细菌菌种的测序数据的系统及其方法
CN106845155A (zh) * 2016-12-29 2017-06-13 安诺优达基因科技(北京)有限公司 一种用于检测内部串联重复的装置
US20210257047A1 (en) * 2020-02-18 2021-08-19 Tempus Labs, Inc. Methods and systems for refining copy number variation in a liquid biopsy assay
CN111424075A (zh) * 2020-04-10 2020-07-17 西咸新区予果微码生物科技有限公司 一种基于第三代测序技术的微生物检测方法及系统
CN112259168A (zh) * 2020-10-22 2021-01-22 深圳华大基因科技服务有限公司 基因测序数据处理方法和基因测序数据处理装置
CN112779321A (zh) * 2021-01-18 2021-05-11 生物岛实验室 用于检测gck-mody基因突变的方法及其试剂盒
CN112802549A (zh) * 2021-01-26 2021-05-14 武汉大学 Dna序列完整性校验和纠错的编解码方法
CN113066529A (zh) * 2021-03-26 2021-07-02 四川大学华西医院 基于全外显子数据的近亲家系鉴定方法、装置及设备
CN113223619A (zh) * 2021-06-17 2021-08-06 南京诺因生物科技有限公司 比对不同全基因组测序方法的测序结果覆盖率的方法
CN113488106A (zh) * 2021-07-02 2021-10-08 苏州赛美科基因科技有限公司 一种快速获取目标基因组区域比对结果数据的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
曾劲 等: "一个分布式的短序列匹配系统", 《计算机研究与发展》 *
郑钢: "基于下一代测序的短序列匹配与支架算法研究", 《中国优秀博硕士学位论文全文数据库(硕士)基础科学辑》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115391284A (zh) * 2022-10-31 2022-11-25 四川大学华西医院 基因数据文件快速识别方法、系统和计算机可读存储介质

Also Published As

Publication number Publication date
CN114328399B (zh) 2022-05-24

Similar Documents

Publication Publication Date Title
CN111081318B (zh) 一种融合基因检测方法、系统和介质
CN101770470A (zh) 一种文件类型识别分析方法及系统
KR20130069427A (ko) 차세대 시퀀싱을 이용하여 획득된 유전 정보를 압축 및 압축해제하는 방법 및 장치
CN114328399B (zh) 一种基因测序多样本数据文件自动配对的方法和系统
CN107480466B (zh) 基因组数据存储方法及电子设备
CN113066532B (zh) 基于高通量测序技术的宿主中病毒来源sRNA数据分析方法
CN117873905B (zh) 一种代码同源检测的方法、装置、设备及介质
CN110782946A (zh) 识别重复序列的方法及装置、存储介质、电子设备
CN118134422A (zh) 文件内容审核的方法、装置、设备、存储介质及产品
CN112750501B (zh) 一种宏病毒组流程的优化分析方法
CN116312776B (zh) 一种检测差异化rna编辑位点的方法
CN114334006B (zh) 过滤酶切建库方式引入噪音的方法和装置
CN115794997A (zh) 基于企业标签的企业匹配度处理方法及装置
CN102591941B (zh) 一种SQLite空闲链表节点的解析方法和装置
CN115662512A (zh) 基于多重pcr测序中检测点突变的方法、装置、设备和介质
CN116226047A (zh) 一种快速读取gzip压缩的stdf文件MIR信息的方法及装置
CN115712601A (zh) 一种基于springbatch批量读取定长文件的方法
CN115083530A (zh) 基因测序数据压缩方法、装置、终端设备和存储介质
CN117831620A (zh) 基因融合位点的检测方法和电子装置
CN110797082A (zh) 基因测序数据的存储读取方法及系统
CN115391284B (zh) 基因数据文件快速识别方法、系统和计算机可读存储介质
CN112309500B (zh) 一种基于单细胞测序数据唯一片段序列捕获方法
CN110708074B (zh) Sam及bam文件cigar域的压缩及解压还原方法、系统和介质
CN112256634B (zh) 一种基于http的低内存大文件解析方法
WO2024077568A1 (zh) 参考序列的构建方法、宏基因组数据压缩方法和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant