CN109920484A - 一种测序仪用的基因检测数据的分析方法及系统 - Google Patents
一种测序仪用的基因检测数据的分析方法及系统 Download PDFInfo
- Publication number
- CN109920484A CN109920484A CN201910116664.7A CN201910116664A CN109920484A CN 109920484 A CN109920484 A CN 109920484A CN 201910116664 A CN201910116664 A CN 201910116664A CN 109920484 A CN109920484 A CN 109920484A
- Authority
- CN
- China
- Prior art keywords
- data
- analysis
- genetic test
- sequenator
- mutation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
本发明公开了一种测序仪用的基因检测数据的分析方法及系统,该分析方法包括:对测序仪中的基因检测数据进行数据质控,使扩增片段的覆盖率达到预设覆盖率且扩增片段的覆盖深度达到预设覆盖深度且扩增片段的均一性达到预设值,过滤掉待处理数据中的无效扩增片段数据以及无效碱基数据,以得到有效数据,从有效数据中筛选出具有突变特征的碱基数据,对具有突变特征的碱基数据进行多层次注释,以得到分析结果数据;该分析系统包括质控模块、分析模块及注释模块。本发明在测序仪上对测序下机数据自动进行数据批量数据质控、分析、注释,大大减小了人为引入误差、显著提高了基因检测数据分析的客观性,而且极大降低了成本。
Description
技术领域
本发明涉及基因检测数据分析技术领域,更为具体来说,本发明为一种测序仪用的基因检测数据的分析方法及系统。
背景技术
常见的遗传疾病往往导致严重的后果,比如,家族性高胆固醇血症易导致个体过早的心血管疾病。尽管如此,大多数患者仍未确诊,即使确诊似乎是肯定的,治疗也往往是次优的。
分子技术的进步正在重塑我们对这种状况的理解,包括提高人口流行率。此外,在许多患者中,致病基因位点的范围、罕见致病变异的类型和类别的广度以及表型的多基因基础暴露了潜在的病理生理学复杂性。家族性高胆固醇血症等某种疾病可以被想象为一组相关疾病,临床症状、血脂异常、心血管疾病家族史以及罕见的致病变种的存在都增加了诊断的确定性。虽然基因测试并不总是有帮助或确定的,但是,很多情况下基因检测数据能够辅助医生进行合理的诊断和治疗。传统的基因检测数据分析方法往往需要依赖经验丰富的分析人员,分析的准确性受分析人员经验、知识水平、工作状态等因素影响极大,而且需要下载巨大数据量的测序数据来进行分析,所以现有基因检测数据分析方法存在客观性较差、人力和物力投入过大、时间成本过高等问题。
因此,如何提高基因检测数据分析过程的客观性,以及如何有效降低基因检测数据分析过程的人力成本、物力成本及时间成本,成为了本领域技术人员亟待解决的技术问题和始终研究的重点。
发明内容
为解决现有基因检测数据分析方案存在的客观性难以保证、时间长、成本高等问题,本发明创新地提供了一种测序仪用的基因检测数据的分析方法及系统,以实现对基因测序下机数据自动化的数据质控、分析及注释。
为实现上述技术目的,本发明公开了一种测序仪用的基因检测数据的分析方法,该分析方法包括如下步骤;
步骤1,对测序仪中的基因检测数据进行数据质控:保留扩增片段的覆盖率达到预设覆盖率且扩增片段的覆盖深度达到预设覆盖深度且扩增片段的均一性达到预设值的基因检测数据作为待处理数据;
步骤2,过滤掉所述待处理数据中的无效扩增片段数据以及无效碱基数据,从而得到有效数据,从所述有效数据中筛选出具有突变特征的碱基数据;
步骤3,对所述具有突变特征的碱基数据进行多层次注释,将多层次注释过程形成的数据和所述具有突变特征的碱基数据共同作为分析结果数据。
进一步地,步骤2中,通过将所述有效数据与参考序列数据进行对比的方式确定具有突变特征的碱基数据,所述参考序列数据来源于参考基因组数据库。
进一步地,步骤2中,还包括将具有突变特征的碱基数据存储为第一预设格式的中间文件的步骤;
步骤3中,还包括解析所述第一预设格式的中间文件以及对解析后得到的数据进行多层次注释的步骤。
进一步地,步骤3中,所述多层次注释包括突变位点的突变频率注释、突变位点的基因组位置注释及突变位点的出现频率注释。
进一步地,步骤3中,还包括将分析结果数据存储为第二预设格式的注释文件的步骤。
为实现上述技术目的,本发明还公开了一种测序仪用的基因检测数据的分析系统,该分析系统包括质控模块、分析模块及注释模块;
所述质控模块,用于对测序仪中的基因检测数据进行数据质控:保留扩增片段的覆盖率达到预设覆盖率且扩增片段的覆盖深度达到预设覆盖深度且扩增片段的均一性达到预设值的基因检测数据作为待处理数据;
所述分析模块,用于过滤掉所述待处理数据中的无效扩增片段数据以及无效碱基数据、得到有效数据,以及用于从所述有效数据中筛选出具有突变特征的碱基数据;
所述注释模块,用于对所述具有突变特征的碱基数据进行多层次注释,以及用于将多层次注释过程形成的数据和所述具有突变特征的碱基数据共同作为分析结果数据。
进一步地,所述分析模块,用于通过将所述有效数据与参考序列数据进行对比的方式确定具有突变特征的碱基数据,所述参考序列数据来源于参考基因组数据库。
进一步地,所述分析模块,用于将具有突变特征的碱基数据存储为第一预设格式的中间文件;
所述注释模块,用于解析所述第一预设格式的中间文件以及用于对解析后得到的数据进行多层次注释。
进一步地,所述多层次注释包括突变位点的突变频率注释、突变位点的基因组位置注释及突变位点的出现频率注释。
进一步地,所述注释模块,用于将所述分析结果数据存储为第二预设格式的注释文件。
本发明的有益效果为:
本发明能够在测序仪上对测序下机数据自动进行数据批量数据质控、分析、注释,中间极少有人为干预,从而大大减小了人为引入误差、显著提高了基因检测数据分析的客观性,并缩短了工作周期,适于推广应用。
附图说明
图1为一种测序仪用的基因检测数据的分析方法的流程示意图。
图2为一种测序仪用的基因检测数据的分析系统的组成示意图。
具体实施方式
下面结合说明书附图对本发明涉及的一种测序仪用的基因检测数据的分析方法及系统进行详细的解释和说明。
实施例一:
如图1中所示,本实施例公开了一种测序仪用的基因检测数据的分析方法,对基因测序下机数据进行自动化处理,本实施例是对二代测序数据进行自动、批量化分析,与现有技术相比,本发明彻底解决传统人工分析方法存在的客观性较差、时间长、成本高等问题,具体来说,该分析方法包括如下步骤。
准备步骤:实验人员在服务器(比如,二代测序服务器)上进行相关配置:本实施例以高胆固醇血症的基因检测数据分析过程为例,实验人员在创建测序计划时完成测序的基本配置,在插件分析选项勾选上用于基因检测数据分析的相关插件(比如,iAnalyses插件),从多种疾病(比如,高胆固醇血症、主动脉疾病、血液肿瘤、妇科肿瘤等)选项中选择高胆固醇血症选项;在测序仪进行测序完成后就能对家族性高胆固醇血症的基因检测测序数据自动进行质控、分析及注释。
步骤1,对测序仪中的基因检测数据进行数据质控:保留扩增片段的覆盖率达到预设覆盖率且扩增片段的覆盖深度达到预设覆盖深度且扩增片段的均一性达到预设值的基因检测数据作为待处理数据,即待处理数据中的扩增片段的覆盖深度达到预设覆盖深度且扩增片段的均一性达到预设值,其中,预设值可以根据具体情况进行合理而明智的设定,本实施例不再赘述。本实施例通过对测序下机数据进行质控的方式对本次实验和测序进行评估,以保证后续分析的准确性和可靠性。
步骤2,过滤掉待处理数据中的无效扩增片段数据以及无效碱基数据,从而得到有效数据,从有效数据中筛选出具有突变特征的碱基数据;本实施例步骤2中,通过将有效数据与参考序列数据进行对比的方式确定具有突变特征的碱基数据,可在对比过程中使用多个数据分析参数进行对比,以此提高数据分析的准确性,其中,参考序列数据来源于参考基因组数据库。具体实施时,本步骤包括将具有突变特征的碱基数据存储为第一预设格式的中间文件的步骤,本实施例中的为第一预设格式可为vcf格式。
步骤3,首先解析第一预设格式的中间文件以及对解析后得到的数据进行多层次注释,具体对具有突变特征的碱基数据进行多层次注释,将多层次注释过程形成的数据和具有突变特征的碱基数据共同作为分析结果数据,从而检测出突变位点的所有信息。本步骤中,多层次注释能够注释上突变位点的统计信息,多层次注释包括突变位点的突变频率注释、突变位点的基因组位置注释及突变位点的出现频率注释,另外,多层次注释还能注释上多种疾病、人群频率、蛋白功能预测、剪切预测、保守性预测等。最后,本步骤还包括将分析结果数据存储为第二预设格式的注释文件的步骤,本实施例中的为第二预设格式可为vcf格式。
实施例二:
如图2所示,本实施例与实施例一基于相同的发明构思,具体公开了一种测序仪用的基因检测数据的分析系统,可以理解为基因检测数据知识解释系统,本实施例将该分析系统直接嵌入测序仪,以此避免了下载大量测序数据的过程,节省了时间和存储资源;具体来说,该分析系统包括:质控模块、分析模块及注释模块。
质控模块,用于对测序仪中的基因检测数据进行数据质控:保留扩增片段的覆盖率达到预设覆盖率且扩增片段的覆盖深度达到预设覆盖深度且扩增片段的均一性达到预设值的基因检测数据作为待处理数据。
分析模块,用于过滤掉待处理数据中的无效扩增片段数据以及无效碱基数据、得到有效数据,以及用于从有效数据中筛选出具有突变特征的碱基数据。本实施例中,分析模块用于通过将有效数据与参考序列数据进行对比的方式确定具有突变特征的碱基数据,其中,参考序列数据来源于参考基因组数据库,比如家族性高胆固醇血症知识库。另外,分析模块还用于将具有突变特征的碱基数据存储为第一预设格式的中间文件;本实施例的分析模块可为建立的基因检测数据分析模型。
注释模块,首先用于解析第一预设格式的中间文件以及用于对解析后得到的数据进行多层次注释,具体用于对具有突变特征的碱基数据进行多层次注释,以及用于将多层次注释过程形成的数据和具有突变特征的碱基数据共同作为分析结果数据。本实施例中,多层次注释包括突变位点的突变频率注释、突变位点的基因组位置注释及突变位点的出现频率注释。注释模块还用于将分析结果数据存储为第二预设格式的注释文件。
在本说明书的描述中,参考术语“本实施例”、“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明实质内容上所作的任何修改、等同替换和简单改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种测序仪用的基因检测数据的分析方法,其特征在于:该分析方法包括如下步骤;
步骤1,对测序仪中的基因检测数据进行数据质控:保留扩增片段的覆盖率达到预设覆盖率且扩增片段的覆盖深度达到预设覆盖深度且扩增片段的均一性达到预设值的基因检测数据作为待处理数据;
步骤2,过滤掉所述待处理数据中的无效扩增片段数据以及无效碱基数据,从而得到有效数据,从所述有效数据中筛选出具有突变特征的碱基数据;
步骤3,对所述具有突变特征的碱基数据进行多层次注释,将多层次注释过程形成的数据和所述具有突变特征的碱基数据共同作为分析结果数据。
2.根据权利要求1所述的测序仪用的基因检测数据的分析方法,其特征在于:
步骤2中,通过将所述有效数据与参考序列数据进行对比的方式确定具有突变特征的碱基数据,所述参考序列数据来源于参考基因组数据库。
3.根据权利要求1或2所述的测序仪用的基因检测数据的分析方法,其特征在于:
步骤2中,还包括将具有突变特征的碱基数据存储为第一预设格式的中间文件的步骤;
步骤3中,还包括解析所述第一预设格式的中间文件以及对解析后得到的数据进行多层次注释的步骤。
4.根据权利要求3所述的测序仪用的基因检测数据的分析方法,其特征在于:
步骤3中,所述多层次注释包括突变位点的突变频率注释、突变位点的基因组位置注释及突变位点的出现频率注释。
5.根据权利要求4所述的测序仪用的基因检测数据的分析方法,其特征在于:
步骤3中,还包括将分析结果数据存储为第二预设格式的注释文件的步骤。
6.一种测序仪用的基因检测数据的分析系统,其特征在于:该分析系统包括质控模块、分析模块及注释模块;
所述质控模块,用于对测序仪中的基因检测数据进行数据质控:保留扩增片段的覆盖率达到预设覆盖率且扩增片段的覆盖深度达到预设覆盖深度且扩增片段的均一性达到预设值的基因检测数据作为待处理数据;
所述分析模块,用于过滤掉所述待处理数据中的无效扩增片段数据以及无效碱基数据、得到有效数据,以及用于从所述有效数据中筛选出具有突变特征的碱基数据;
所述注释模块,用于对所述具有突变特征的碱基数据进行多层次注释,以及用于将多层次注释过程形成的数据和所述具有突变特征的碱基数据共同作为分析结果数据。
7.根据权利要求6所述的测序仪用的基因检测数据的分析系统,其特征在于:
所述分析模块,用于通过将所述有效数据与参考序列数据进行对比的方式确定具有突变特征的碱基数据,所述参考序列数据来源于参考基因组数据库。
8.根据权利要求6或7所述的测序仪用的基因检测数据的分析系统,其特征在于:
所述分析模块,用于将具有突变特征的碱基数据存储为第一预设格式的中间文件;
所述注释模块,用于解析所述第一预设格式的中间文件以及用于对解析后得到的数据进行多层次注释。
9.根据权利要求8所述的测序仪用的基因检测数据的分析系统,其特征在于:所述多层次注释包括突变位点的突变频率注释、突变位点的基因组位置注释及突变位点的出现频率注释。
10.根据权利要求9所述的测序仪用的基因检测数据的分析系统,其特征在于:
所述注释模块,用于将所述分析结果数据存储为第二预设格式的注释文件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910116664.7A CN109920484A (zh) | 2019-02-14 | 2019-02-14 | 一种测序仪用的基因检测数据的分析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910116664.7A CN109920484A (zh) | 2019-02-14 | 2019-02-14 | 一种测序仪用的基因检测数据的分析方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109920484A true CN109920484A (zh) | 2019-06-21 |
Family
ID=66961615
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910116664.7A Pending CN109920484A (zh) | 2019-02-14 | 2019-02-14 | 一种测序仪用的基因检测数据的分析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109920484A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110299964A (zh) * | 2019-06-28 | 2019-10-01 | 京东数字科技控股有限公司 | 数据传输方法及其装置、计算机可存储介质 |
WO2021164270A1 (zh) * | 2020-02-20 | 2021-08-26 | 苏州金唯智生物科技有限公司 | 数据分析方法、装置、设备及存储介质 |
CN113707218A (zh) * | 2020-05-22 | 2021-11-26 | 苏州安智因医学检验所有限公司 | 一种用于人类遗传病基因检测的智能解读方法及系统 |
CN114627968A (zh) * | 2022-03-18 | 2022-06-14 | 四川大学华西医院 | 一种多模态组学数据管理系统 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104762402A (zh) * | 2015-04-21 | 2015-07-08 | 广州定康信息科技有限公司 | 超快速检测人类基因组单碱基突变和微插入缺失的方法 |
CN106407749A (zh) * | 2016-08-30 | 2017-02-15 | 上海华点云生物科技有限公司 | 寻找样本的染色体突变位点的分析方法和分析装置 |
CN107002121A (zh) * | 2014-09-18 | 2017-08-01 | 亿明达股份有限公司 | 用于分析核酸测序数据的方法和系统 |
CN107292125A (zh) * | 2016-04-01 | 2017-10-24 | 深圳华大基因科技有限公司 | 设计目标区域特异性液相探针的方法和系统 |
CN107358056A (zh) * | 2017-07-24 | 2017-11-17 | 扬州医联生物科技有限公司 | 一种自动在线全面分析基因组序列的方法 |
CN107577921A (zh) * | 2017-08-25 | 2018-01-12 | 云壹生物技术(大连)有限公司 | 一种肿瘤靶向基因测序数据解析方法 |
CN108256291A (zh) * | 2016-12-28 | 2018-07-06 | 杭州米天基因科技有限公司 | 一种生成具有较高可信度基因突变检测结果的方法 |
CN108920901A (zh) * | 2018-07-24 | 2018-11-30 | 中国医学科学院北京协和医院 | 一种测序数据突变分析系统 |
CN109033749A (zh) * | 2018-06-29 | 2018-12-18 | 深圳裕策生物科技有限公司 | 一种肿瘤突变负荷检测方法、装置和存储介质 |
CN109182493A (zh) * | 2018-09-12 | 2019-01-11 | 湖北省妇幼保健院(湖北省妇女儿童医院) | 人16p11.2微缺失综合征检测的引物和试剂盒及其检测方法 |
-
2019
- 2019-02-14 CN CN201910116664.7A patent/CN109920484A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107002121A (zh) * | 2014-09-18 | 2017-08-01 | 亿明达股份有限公司 | 用于分析核酸测序数据的方法和系统 |
CN104762402A (zh) * | 2015-04-21 | 2015-07-08 | 广州定康信息科技有限公司 | 超快速检测人类基因组单碱基突变和微插入缺失的方法 |
CN107292125A (zh) * | 2016-04-01 | 2017-10-24 | 深圳华大基因科技有限公司 | 设计目标区域特异性液相探针的方法和系统 |
CN106407749A (zh) * | 2016-08-30 | 2017-02-15 | 上海华点云生物科技有限公司 | 寻找样本的染色体突变位点的分析方法和分析装置 |
CN108256291A (zh) * | 2016-12-28 | 2018-07-06 | 杭州米天基因科技有限公司 | 一种生成具有较高可信度基因突变检测结果的方法 |
CN107358056A (zh) * | 2017-07-24 | 2017-11-17 | 扬州医联生物科技有限公司 | 一种自动在线全面分析基因组序列的方法 |
CN107577921A (zh) * | 2017-08-25 | 2018-01-12 | 云壹生物技术(大连)有限公司 | 一种肿瘤靶向基因测序数据解析方法 |
CN109033749A (zh) * | 2018-06-29 | 2018-12-18 | 深圳裕策生物科技有限公司 | 一种肿瘤突变负荷检测方法、装置和存储介质 |
CN108920901A (zh) * | 2018-07-24 | 2018-11-30 | 中国医学科学院北京协和医院 | 一种测序数据突变分析系统 |
CN109182493A (zh) * | 2018-09-12 | 2019-01-11 | 湖北省妇幼保健院(湖北省妇女儿童医院) | 人16p11.2微缺失综合征检测的引物和试剂盒及其检测方法 |
Non-Patent Citations (1)
Title |
---|
邵谦之等: ""全基因组测序及其在遗传性疾病研究及诊断中的应用"", 《遗传》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110299964A (zh) * | 2019-06-28 | 2019-10-01 | 京东数字科技控股有限公司 | 数据传输方法及其装置、计算机可存储介质 |
WO2021164270A1 (zh) * | 2020-02-20 | 2021-08-26 | 苏州金唯智生物科技有限公司 | 数据分析方法、装置、设备及存储介质 |
CN113707218A (zh) * | 2020-05-22 | 2021-11-26 | 苏州安智因医学检验所有限公司 | 一种用于人类遗传病基因检测的智能解读方法及系统 |
CN114627968A (zh) * | 2022-03-18 | 2022-06-14 | 四川大学华西医院 | 一种多模态组学数据管理系统 |
CN114627968B (zh) * | 2022-03-18 | 2023-10-20 | 四川大学华西医院 | 一种多模态组学数据管理系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109920484A (zh) | 一种测序仪用的基因检测数据的分析方法及系统 | |
CN109033749B (zh) | 一种肿瘤突变负荷检测方法、装置和存储介质 | |
JP7100336B2 (ja) | デジタル病理学のために、画像を処理し、処理された画像を分類するためのシステムおよび方法 | |
CN107391965A (zh) | 一种基于高通量测序技术的肺癌体细胞突变检测分析方法 | |
CN109767810B (zh) | 高通量测序数据分析方法及装置 | |
CN115036002B (zh) | 一种基于多模态融合模型的治疗效果预测方法及终端设备 | |
CN109686439A (zh) | 遗传病基因检测的数据分析方法、系统及存储介质 | |
CN110544508B (zh) | 一种单基因遗传病基因的分析方法、装置及电子设备 | |
CN112164423B (zh) | 基于RNAseq数据的融合基因检测方法、装置和存储介质 | |
CN110060733A (zh) | 基于单样本的二代测序肿瘤体细胞变异检测装置 | |
CN107256344A (zh) | 数据处理方法、装置以及放疗管理系统 | |
CN110164504B (zh) | 二代测序数据的处理方法、装置及电子设备 | |
CN110211632A (zh) | 一种基于神经网络的核苷酸单位点变异检测方法 | |
CN113628761A (zh) | 抗血管生成药物联合免疫检查点抑制剂治疗疗效预测方法 | |
CN112907581A (zh) | 一种基于深度学习的mri多类脊髓肿瘤分割方法 | |
CN111192632B (zh) | 整合dna和rna的深度测序数据提取基因融合免疫治疗新抗原的方法和装置 | |
CN115910379B (zh) | 一种肾结石术后疗效评估方法、系统、设备及存储介质 | |
CN108319817A (zh) | 循环肿瘤dna重复序列的处理方法及装置 | |
WO2017202713A1 (de) | Verfahren und system zur dokumentation eines diagnostischen tests | |
CN112760384B (zh) | 一种胰腺癌预后判定方法及装置 | |
CN114743693A (zh) | 基于医患对话的诊中质控方法以及诊中质控装置 | |
CN114822690A (zh) | 应用于全基因组表达谱数据的多类别多功能智能分类方法 | |
Lara et al. | A web tool to discover full-length sequences—Full-Lengther | |
CN113674827A (zh) | 电子病历的生成方法、装置、电子设备及计算机可读介质 | |
CN113269868A (zh) | 一种人体肿瘤三维虚拟模型的建立方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190621 |