CN107463797B - 高通量测序的生物信息分析方法及装置、设备及存储介质 - Google Patents

高通量测序的生物信息分析方法及装置、设备及存储介质 Download PDF

Info

Publication number
CN107463797B
CN107463797B CN201710619197.0A CN201710619197A CN107463797B CN 107463797 B CN107463797 B CN 107463797B CN 201710619197 A CN201710619197 A CN 201710619197A CN 107463797 B CN107463797 B CN 107463797B
Authority
CN
China
Prior art keywords
gene sequence
gene
sample
throughput sequencing
parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710619197.0A
Other languages
English (en)
Other versions
CN107463797A (zh
Inventor
杨剑锋
丁肖凡
朱卫东
何火强
李清荣
马淑雯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Gaoxin Daan Medical Science Inspection Co ltd
Gaoxin Daan Health Industry Investment Co ltd
Shanghai Daan Medical Science Examination Institute Co ltd
Guangzhou Daan Center For Clinical Laboratory Co ltd
Original Assignee
Chengdu Gaoxin Daan Medical Science Inspection Co ltd
Gaoxin Daan Health Industry Investment Co ltd
Shanghai Daan Medical Science Examination Institute Co ltd
Guangzhou Daan Center For Clinical Laboratory Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Gaoxin Daan Medical Science Inspection Co ltd, Gaoxin Daan Health Industry Investment Co ltd, Shanghai Daan Medical Science Examination Institute Co ltd, Guangzhou Daan Center For Clinical Laboratory Co ltd filed Critical Chengdu Gaoxin Daan Medical Science Inspection Co ltd
Priority to CN201710619197.0A priority Critical patent/CN107463797B/zh
Publication of CN107463797A publication Critical patent/CN107463797A/zh
Application granted granted Critical
Publication of CN107463797B publication Critical patent/CN107463797B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

一种高通量测序的生物信息分析方法、装置、计算机设备及存储介质,一个实施例中的方法包括:获取待测基因序列的高通量测序数据;对所述高通量测序数据进行分析处理,获得所述待测基因序列的基因序列参数;提取获得与所述待测基因序列对应的用户信息参数;通过训练获得的分类模型对包括所述基因序列参数和所述用户信息参数的变量特征进行分类,获得所述待测基因序列的基因分类结果。本实施例方案降低了检测成本,同时也能够校正之前出现的假阳性和假阴性的结果,提高了检测准确率。

Description

高通量测序的生物信息分析方法及装置、设备及存储介质
技术领域
本发明涉及生物技术领域,特别涉及高通量测序技术,具体涉及一种高通量测序的生物信息分析方法、一种高通量测序的生物信息分析装置、一种计算机设备及一种计算机存储介质。
背景技术
随着基因组高通量测序技术的快速发展,极大地推动了生物医学、生命科学等领域的发展。目前基因组高通量测序技术已经应用于临床,譬如家系遗传病遗传学诊断、无创产前检测(non-invasive prenatal testing,NIPT)、胚胎植入前遗传诊断和肿瘤等复杂疾病个性化医疗等,同时越来越多研究者采用高通量测序来进行科研。
目前基于高通量测序法的无创产前检测的生物信息分析方法,基本都是基于比对序列的覆盖深度,经过GC含量(GC content,在DNA4种碱基中,鸟嘌呤和胞嘧啶所占的比率)校正后进行Z检验(一种用于大样本平均值差异性检验的方法)来检测可能存在的染色体非整倍体,主要包括21、18和13号染色体,从而预测相关疾病如唐氏综合征(21三体)、爱德华氏综合症(18三体)和帕陶氏综合症(13三体)的风险。这种基于比对序列数据的Z检验数值来评估无创产前筛查风险的方法,通过技术实践发现,一般约有1-10%的临界数值难以判断,这样的结果被划分到“灰度区”,需要重新检测,这就造成效率降低,成本上升,而且有较大的出错概率,造成假阴性和假阳性。
发明内容
基于此,本发明实施例的目的在于提供一种高通量测序的生物信息分析方法、一种高通量测序的生物信息分析装置、一种计算机设备及一种计算机存储介质,以提高处理效率和准确率。
为达到上述目的,本发明的一个实施例采用以下技术方案:
一种高通量测序的生物信息分析方法,包括步骤:
获取待测基因序列的高通量测序数据;
对所述高通量测序数据进行分析处理,获得所述待测基因序列的基因序列参数;
提取获得与所述待测基因序列对应的用户信息参数;
通过训练获得的分类模型对包括所述基因序列参数和所述用户信息参数的变量特征进行分类,获得所述待测基因序列的基因分类结果。
一种高通量测序的生物信息分析装置,包括:
待测序列数据获取模块,用于获取待测基因序列的高通量测序数据;
待测序列基因参数模块,用于对所述高通量测序数据进行分析处理,获得所述待测基因序列的基因序列参数;
待测序列用户信息参数模块,用于提取获得与所述待测基因序列对应的用户信息参数;
分类模块,用于通过训练获得的分类模型对包括所述基因序列参数和所述用户信息参数的变量特征进行分类,获得所述待测基因序列的基因分类结果。
一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的方法的步骤。
一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的方法的步骤。
基于如上所述的实施例的方案,在需要对待测基因序列进行分析时,通过对待测基因序列的高通量测序数据进行分析处理,获得待测基因序列的基因序列参数,并提取与待测基因序列对应的用户信息参数,然后用训练获得的分类模型对包括基因序列参数和用户信息参数的变量特征进行分类,从而获得待测基因序列的基因分类结果。其通过机器分类学习的方法,基于包含基因序列参数和用户信息参数的变量特征,在已知数据的基础上进行训练获得分类模型,并基于分类模型对待测基因序列的变量特征进行分类,据此获得的待测基因序列的基因分类结果准确度高,降低了由于重新读取而增加的检测成本,同时也能够校正之前出现的假阳性和假阴性的结果,提高了检测准确率。
附图说明
图1是一个实施例中的高通量测序的生物分析方法的流程示意图;
图2是一个具体示例中的高通量测序的生物分析方法的原理示意图;
图3是应用本实施例方法的一个应用示例的原理示意图;
图4是一个实施例中的高通量测序的生物分析装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“或/及”包括一个或多个相关的所列项目的任意的和所有的组合。
图1示出了一个实施例中的高通量测序的生物信息分析方法的流程示意图。如图1所示,该实施例中的方法包括步骤S101至步骤S104。
步骤S101:获取待测基因序列的高通量测序数据。
高通量测序又称下一代测序技术,其可以一次并行地对几十万到几百万条DNA(Deoxyribonucleic acid,脱氧核糖核酸,是一种分子,可组成遗传指令,以引导生物发育与生命机能运作)分子进行序列测定,以能一次并行对几十万到几百万条DNA分子进行序列测定和一般读长较短等为标志。具体的获得待测基因序列的高通量测序数据的方式,可以采用已有的高通量测序技术进行。
步骤S102:对所述高通量测序数据进行分析处理,获得所述待测基因序列的基因序列参数。
在一个示例中,对所述高通量测序数据进行分析处理,获得所述待测基因序列的基因序列参数时,可以采用下述方式进行:
对所述高通量测序数据进行多重校正处理,所述多重校正处理包括:数据总量校正、GC含量校正和缩尾处理,这里的数据总量校正、GC含量校正、缩尾处理的方式,可以采用已有的及以后可能出现的任何方式进行;
对所述多重校正处理后的高通量测序数据进行参数计算,获得所述基因序列参数。
其中,具体的进行参数计算获得基因序列参数的方式,基于基因序列参数的类型的不同,可以采用与基因序列参数相对应的方式进行。
在一个具体示例中,上述基因序列参数可以包括:胎儿DNA含量、序列读长平均值、参照样本基线值的Z检验值(为了与其他的Z检验值区分,在本实施例中称之为第一Z检验值)、参照样本基线阳性预测值的Z检验值(为了与其他的Z检验值区分,在本实施例中称之为第二Z检验值)、染色体内参值的Z检验值(为了与其他的Z检验值区分,在本实施例中称之为第三Z检验值)、染色体内参阳性预测值的Z检验值(为了与其他的Z检验值区分,在本实施例中称之为第四Z检验值)、样本独立基线值的Z检验值(为了与其他的Z检验值区分,在本实施例中称之为第五Z检验值)、以及样本独立基线阳性预测值的Z检验值(为了与其他的Z检验值区分,在本实施例中称之为第六Z检验值)。
在计算确定胎儿DNA含量、序列读长平均值、第一Z检验值、第二Z检验值、第三Z检验值、第四Z检验值、第五Z检验值、第六Z检验值时,可以采用任何可能的与该参数相对应的计算方式进行,本实施例中不做具体限定。
在一个具体示例中,在上述对所述高通量测序数据进行分析处理,获得所述待测基因序列的基因序列参数之前,还可以包括步骤:
对所述高通量测序数据进行序列比对、去重处理和质控校正。
从而,在获得待测基因序列的高通量测序数据之后,通过序列比对、去重处理和质控校正,可以在一定程度上减少后续进行分析处理的高通量测序数据的数据量且提高高通量测序数据的准确性,以进一步提高处理效率和准确度。
步骤S103:提取获得与所述待测基因序列对应的用户信息参数。
在一个具体示例中,可以从临床病例中提取获得与待测基因序列对应的用户信息参数。在实际技术应用中,一个待测基因序列会对应到一个具体的用户,具体可体现为该用户的一个唯一标识,例如用户姓名、用户的诊疗卡号、用户的身份证号码或者其他能够对应一个唯一的用户的信息。因此,基于该用户的唯一标识,可以对应到该用户的临床病例,从而可以从临床病例中提取到对应的用户信息参数。在本实施例中,该用户信息参数可以包括孕妇年龄和怀孕周数。
步骤S104:通过训练获得的分类模型对包括所述基因序列参数和所述用户信息参数的变量特征进行分类,获得所述待测基因序列的基因分类结果。
一个具体示例中获得的通过训练获得的分类模型,可以是支持向量分类模型。获得的待测基因序列的基因分类结果,可以包括确定的待测基因序列的分类类型(如是阳性还是阴性),以及对应的概率。
基于如上所述的实施例的方案,在需要对待测基因序列进行分析时,通过对待测基因序列的高通量测序数据进行分析处理,获得待测基因序列的基因序列参数,并提取与待测基因序列对应的用户信息参数,然后用训练获得的分类模型对包括基因序列参数和用户信息参数的变量特征进行分类,从而获得待测基因序列的基因分类结果。其通过机器分类学习的方法,基于包含基因序列参数和用户信息参数的变量特征,在已知数据的基础上进行训练获得分类模型,并基于分类模型对待测基因序列的变量特征进行分类,据此获得的待测基因序列的基因分类结果准确度高,降低了由于重新读取而增加的检测成本,同时也能够校正之前出现的假阳性和假阴性的结果,提高了检测准确率。
在另一个实施例中,在上述获取待测基因序列的高通量测序数据之前,还可以包括训练获得上述分类模型的步骤。
一个具体示例中,训练获得分类模型的过程可以包括如下步骤:
获取各样本基因序列的高通量测序数据;
对各样本基因序列的高通量测序数据进行分析处理,获得各样本基因序列的基因序列参数;
提取各样本基因序列的用户信息参数,获得各样本基因序列的所述变量特征;
获取已确定的各样本基因序列的基因分类类型;
将任意一个样本基因序列的变量特征以及对应的基因分类类型作为一条样本数据,对各样本基因序列的样本数据进行训练,获得所述分类模型。
可以理解地,在上述确定获得分类模型的过程中,对各样本基因序列的高通量测序数据进行分析处理、提取样本基因序列的用户信息参数的过程,可以与上述对待测基因序列的高通量测序数据进行分析处理以及提取待测基因序列的高通量测序数据的方式相同。
在一个示例中,在上述步骤S104获得待测基因序列的基因分类结果之后,可将该基因分类结果在临床上进行验证,并在临床验证通过后,将该待测基因序列作为一条新的样本基因序列,对各所述样本基因序列进行更新,获得更新后的样本基因序列;并对更新后的各样本基因序列的样本数据进行训练,获得更新后的所述分类模型。
从而,在获得基因分类结果并经临床验证后,可将其变量特征数据添加到样本基因序列中并重新训练分类模型,从而可以进一步提高训练获得的分类模型的准确性,从而进一步提高在对待测基因序列进行生物分析时的准确度。
基于如上所述的实施例,图2示出了一个具体示例中的高通量测序的生物分析方法的原理示意图,该示意图是结合训练分类模型以及对待测基因序列的高通量测序数据进行分析确定待测基因序列的基因分类结果的过程为例进行说明。图3示出了应用本实施例方法的一个应用示例的原理示意图。
为了提高无创产前基因测序的准确性,降低造成极大危害的假阴性和假阳性的比例,同时大幅减少无法判断结果的灰度区的比例,降低生产成本,本实施例方案中,通过机器学习的方式,对已知的样本数据进行训练获得分类模型,并用该分类模型对未知的数据进行分析,来预测未知数据的结果。在通过机器学习进行训练时,一个具体示例总可以采用支持向量机(Support Vector Machine,SVM)作为分类算法进行机器学习训练,在此基础上对无创产前基因测序的高通量测序数据进行生物信息分析,来预测待测基因序列这一未知数据的基因分类结果。
如图2所示,在实施例中,通过对已知阳性和阴性的样本数据进行分析、提取变量特征后,构建支持向量机模型并进行训练,获得训练得到的分类模型,并用训练得到的分类模型对位置数据的变量特征进行分析,获得精准预测的基因分类结果。而所得的结果经临床验证后可加入到已有的分类模型中,进一步完善分类模型,提高准确性。
结合图2、图3所示,在实施例方案中,针对已经获得基因分类类型(如阳性或阴性)的各样本基因序列,在进行无创产前基因测序获得各样本基因序列的高通量测序数据后,该高通量测序数据经过序列比对、质控校正和去重等处理后,形成目标文件,一般以bam格式为主。形成的目标文件可以进行存储,从而在后续需要进行模型训练时,可以直接从目标文件中提取到经过上述处理后的各样本基因序列的高通量测序数据。
在需要进行模型训练时,可以从存储的目标文件中提取获得各经过上述处理后的各样本基因序列的高通量测序数据,并对各样本基因序列的高通量测序数据进行分析处理,包括进行多重校正和多个参数的计算。其中多重校正的方式包括:数据总量校正、GC含量校正和缩尾处理。而多个参数的计算获得的基因序列参数,包括:1、胎儿DNA含量;2、序列读长发平均值;3、唯一序列数;4、多重Z统计检验分析,分别是:参照样本基线值及其阳性预测值的Z检验、染色体内参值及其阳性预测值的Z检验和样本独立基线值及其阳性预测值的Z检验。同时从临床病历中提取与各样本基因序列对应的孕妇年龄和怀孕周数等数值。
经过上述参数的计算和提取后,形成一系列的变量特征,包括:1、胎儿DNA含量;2、序列读长平均值;3、孕妇年龄;4、怀孕周数;5、参照样本基线值的Z检验值(第一Z检验值);6、参照样本基线阳性预测值的Z检验值(第二Z检验值);7、染色体内参值的Z检验值(第三Z检验值);8、染色体内参阳性预测值的Z检验值(第四Z检验值);9、样本独立基线值的Z检验值(第五Z检验值);10、样本独立基线阳性预测值的Z检验值(第六Z检验值)。
上述10个变量作为机器学习的变量特征被提取出来,并连同对应的分类结果,即阳性和阴性,进行分类模型的构建和训练。在一个具体示例中,可以是进行支持向量分类模型的构建。在进行支持向量分类模型的构建时,可以是将任意一个样本基因序列的变量特征以及对应的基因分类类型(即是阳性还是阴性)作为一条样本数据,对各样本基因序列的样本数据进行训练,获得所述分类模型。具体的进行模型训练的方式可以采用任何可能的模型训练的方式进行。在一个具体示例中,可以选择基于惩罚因子C的SVM(support vectormachine,支持向量机)类型以及基于径向的核函数RBF(Radical Basis Function)来进行模型训练。在进行模型训练的过程中,支持向量机通过计算阳性和阴性分类相关的支持向量,训练出一个分类模型。训练得到的分类模型,可应用于无创产前基因测序数据的分析,准确预测出结果是阴性还是阳性。
在实际应用时,对于某个未知样本,同样经过上述无创产前基因测序获得各样本基因序列的高通量测序数据,并对高通量测序数据进行分析处理、提取用户信息参数,从而提取获得该未知样本的10个变量特征,并将提取获得的该未知样本的10个变量特征输入上述训练好的分类模型进行预测,获得的预测结果(即基因分类结果)为是阳性或阴性的判定结果以及对应的概率。
在实际技术应用中,上述获得的判定结果(基因分类结果)可以发放到无创产前基因测序的报告中,作为无创产前基因测序的报告结果。所得结果经临床验证后,可将其变量特征数据加入到已知数据中,作为样本基因序列的变量特征数据,重新训练模型,从而进一步提高支持向量分类模型的准确性。作为样本基因序列的变量特征的数据越多,则有效的支持向量越多,经过机器学习训练出来的分类模型越准确,从而最终在实际技术实践中获得的结果也更准确。
可以理解的是,基于上述实施例的方案,在一个具体应用示例中,针对不同的测试类型,可以分别构建不同的分类模型,例如针对21号染色体、18号染色体、13号染色体等分别构建和训练对应的分类模型。在构建不同的分类模型时,样本数据库可以是相同的用户的基因测序数据。
基于如上所述的本发明的实施例,可以有效地将已有方式确定的进入灰度区的样本判读为准确的结果,降低由于灰度区而增加的检测成本;同时能校正之前出现的假阴性和假阳性结果,提高检测准确率。以下结合其中相关的试验数据对技术效果进行验证。
在该技术效果的验证过程中,有5518例的无创产前基因测序数据,该5518例无创产前基因测序数据,都已知其样本的临床验证结果。除去766例(13.9%)唯一序列数不足3000000条或胎儿DNA比例不足5%外,有4752例符合质控要求。
一、对于21号染色体,统计结果如下。
4752例中有4691例通过现有NIPT方法的Z检验能得出明显的阴性和阳性结果,61例是属于无法通过现有NIPT方法的Z检验值判断结果的灰度区,占所有符合质控样本数的1.3%。
对其中134例样本,包括16例已知阳性样本和118例已知阴性样本,提取上述10项变量特征作为支持向量,通过机器学习,训练出支持向量分类模型。
将训练获得的分类模型应用于全部4691例已知结果的样本数据中,获得100%的准确率(19例阳性,4672例阴性,灵敏度100%,特异性100%)。
将训练获得的分类模型应用于61例无法通过Z检验值判断结果的灰度区样本数据中,获得100%的准确率(4例阳性,57例阴性,灵敏度100%,特异性100%)。更重要的是,4例被准确预测为阳性的样本中有2例是曾经被判断为阴性的假阴性样本,原来NIPT的Z检验值分别为2.44和2.52,这证明分类模型能准确有效找出潜在的假阴性风险。
综合来看,对于4752例符合质控要求的样本,分类模型获得100%准确率(23例阳性,4729例阴性,灵敏度100%,特异性100%),同时有效消除1.3%的灰度区。对比目前临床中的NIPT统计数据:21号染色体的检测灵敏度99.17%,特异性99.95%,本发明实施例方式的准确性更高。
除此之外,对于766例不符合质控要求的样本,应用该训练获得的分类模型进行预测时,获得了100%的准确率(4例阳性,762例阴性,灵敏度100%,特异性100%)。证明了本发明实施例的支持向量分类模型,能对质控不符要求的无创产前基因测序数据,进行准确的生物信息分析预测。
二、对于18号染色体,统计结果如下。
4752例中有4704例通过现有NIPT方法的Z检验能得出明显的阴性和阳性结果,48例是属于无法通过现有NIPT方法的Z检验值判断结果的灰度区,占所有符合质控样本数的1.0%。对其中189例样本,包括7例已知阳性样本和182例已知阴性样本,提取上述10项变量特征作为支持向量,通过机器学习,训练出支持向量分类模型。
将训练获得的分类模型应用于全部4704例已知结果的样本数据中,获得100%的准确率(7例阳性,4697例阴性,灵敏度100%,特异性100%)。
将训练获得的分类模型应用于48例无法通过Z检验值判断结果的灰度区样本数据中,获得100%的准确率(4例阳性,44例阴性,灵敏度100%,特异性100%)。
综合来看,对于4752例符合质控要求的样本,分类模型获得100%准确率(11例阳性,4741例阴性,灵敏度100%,特异性100%),同时有效消除1.0%的灰度区。对比目前临床中的NIPT统计数据:18号染色体的检测灵敏度98.24%,特异性99.95%,本发明实施例方式的准确性更高。
除此之外,对于766例不符合质控要求的样本,应用训练获得的分类模型进行预测时,获得了99.48%的准确率(4例阳性,762例阴性,灵敏度75%,特异性99.61%)。其中有1例阳性被预测为阴性,但分类概率是52%,属于非显著的判断;另外有3例阴性被预测为阳性,分类概率分别为50%,92%和99%。可见,本发明实施例方式还能够对大部分质控不符要求的无创产前基因测序数据进行准确的生物信息分析预测。
三、对于13号染色体,统计结果如下。
4752例中有4710例通过现有NIPT方法的Z检验能得出明显的阴性和阳性结果,42例是属于无法通过现有NIPT方法的Z检验值判断结果的灰度区,占所有符合质控样本数的0.9%。对其中211例样本,包括4例已知阳性样本和207例已知阴性样本,提取上述10项变量特征作为支持向量,通过机器学习,训练出支持向量分类模型。
将训练获得的分类模型应用于全部4710例已知结果的样本数据中,获得100%的准确率(4例阳性,4706例阴性,灵敏度100%,特异性100%)。
将训练获得的分类模型应用于42例无法通过Z检验值判断结果的灰度区样本数据中,获得100%的准确率(0例阳性,42例阴性,特异性100%)。综合来看,对于4752例符合质控要求的样本,分类模型获得100%准确率(4例阳性,4748例阴性,灵敏度100%,特异性100%),同时有效消除0.9%的灰度区。对比目前临床中的NIPT统计数据:13号染色体的检测灵敏度100%,特异性99.96%,本发明实施例方式的准确性更高。
除此之外,对于766例不符合质控要求的样本,应用训练获得的分类模型进行预测时,获得了99.87%的准确率(1例阳性,765例阴性,特异性100%)。其中一例当次检测的Z值为2.79的阳性样本(正式报告是3.01阳性)被预测为阴性。这证明,本发明实施例方案还可以对大部分质控不符要求的无创产前基因测序数据进行准确的生物信息分析预测。
结合上述三种不同类型的染色体的统计分析,综合来看,对于全部质控合格的4752例样本,对所有3种染色体非整倍体的检测中,分类模型获得100%准确率(38例阳性,4714例阴性,灵敏度100%,特异性100%),有效消除之前无法判断的灰度区151例(占3.2%)。对比目前临床中的NIPT统计数据:3种染色体的总体检测灵敏度99.06%,特异性99.86%,本发明实施例的准确性更高。对于质控不符合要求的766例样本,分类模型获得99.35%准确率(9例阳性,757例阴性,灵敏度77.78%,特异性99.6%),所获得的数据可以作为较好的参考意见。
另一方面,基于上述实施例方式中训练获得的分类模型,对6例假阳性和9例假阴性数据进行重新分析。此15例NIPT数据之前是根据现有的Z检验值来做判断并发放报告的。6例假阳性的数据中,3例13三体假阳、2例18三体假阳和1例21三体假阳。分别应用对应的支持向量分类模型,6例假阳性全部被判定为阴性。9例假阴性的数据中,2例13三体假阴、4例18三体假阴和3例21三体假阴。分别应用对应的支持向量分类模型,9例假阴性全部被判定阳性。由此可见,基于本发明实施例方案确定的支持向量分类模型能有效校正之前仅凭Z检验值做判断而产生的假阳性和假阴性,降低假阳性和假阴性所造成的重大危害。
综上所述,基于本发明实施例方案的支持向量分类算法的无创产前生物信息分析方法,能准确有效地预测结果,比现有的仅凭Z检验值的方法有更高的准确性;能降低假阴性和假阳性发生的可能性从而降低这些错误造成的危害;减少仅凭Z检验值无法判断结果的灰度区的比例从而减少相关重新检测的成本;同时对于不符合质控要求的样本,也能做出准确的预测。
基于与上述方法相同的思想,本发明一个实施例中还提供一种高通量测序的生物信息测序装置。图4中示出了一个实施例中的高通量测序的生物信息测序装置的结构示意图。
如图4所示,该实施例中的高通量测序的生物信息分析装置,包括:
待测序列数据获取模块401,用于获取待测基因序列的高通量测序数据;
待测序列基因参数模块402,用于对所述高通量测序数据进行分析处理,获得所述待测基因序列的基因序列参数;
待测序列用户信息参数模块403,用于提取获得与所述待测基因序列对应的用户信息参数;
分类模块404,用于通过训练获得的分类模型对包括所述基因序列参数和所述用户信息参数的变量特征进行分类,获得所述待测基因序列的基因分类结果。
高通量测序又称下一代测序技术,其可以一次并行地对几十万到几百万条DNA(Deoxyribonucleic acid,脱氧核糖核酸,是一种分子,可组成遗传指令,以引导生物发育与生命机能运作)分子进行序列测定,以能一次并行对几十万到几百万条DNA分子进行序列测定和一般读长较短等为标志。待测序列数据获取模块401获得待测基因序列的高通量测序数据的具体的方式,可以采用已有的高通量测序技术进行。
在一个具体示例中,上述待测序列基因参数模块402,可以对所述高通量测序数据进行多重校正处理,所述多重校正处理包括:数据总量校正、GC含量校正和缩尾处理;并对所述多重校正处理后的高通量测序数据进行参数计算,获得所述基因序列参数。
其中,具体的进行参数计算获得基因序列参数的方式,基于基因序列参数的类型的不同,可以采用与基因序列参数相对应的方式进行。
在一个具体示例中,上述基因序列参数可以包括:胎儿DNA含量、序列读长平均值、参照样本基线值的Z检验值(为了与其他的Z检验值区分,在本实施例中称之为第一Z检验值)、参照样本基线阳性预测值的Z检验值(为了与其他的Z检验值区分,在本实施例中称之为第二Z检验值)、染色体内参值的Z检验值(为了与其他的Z检验值区分,在本实施例中称之为第三Z检验值)、染色体内参阳性预测值的Z检验值(为了与其他的Z检验值区分,在本实施例中称之为第四Z检验值)、样本独立基线值的Z检验值(为了与其他的Z检验值区分,在本实施例中称之为第五Z检验值)、以及样本独立基线阳性预测值的Z检验值(为了与其他的Z检验值区分,在本实施例中称之为第六Z检验值)。
在计算确定胎儿DNA含量、序列读长平均值、第一Z检验值、第二Z检验值、第三Z检验值、第四Z检验值、第五Z检验值、第六Z检验值时,可以采用任何可能的与该参数相对应的计算方式进行,本实施例中不做具体限定。
在一个具体示例中,如图4所示,本实施例装置中的待测序列基因参数模块402可以包括:
去重模块4021,用于对所述高通量测序数据进行序列比对、去重处理和质控校正;
分析模块4022,用于对所述去重模块4021序列比对、去重处理和质控校正后的高通量测序数据进行分析处理,获得所述待测基因序列的基因序列参数。
从而,在获得待测基因序列的高通量测序数据之后,通过序列比对、去重处理和质控校正,可以在一定程度上减少后续进行分析处理的高通量测序数据的数据量且提高高通量测序数据的准确性,以进一步提高处理效率和准确度。
在一个示例中,待测序列用户信息参数模块403可以从临床病历中提取所述用户信息参数,所述用户信息参数包括:孕妇年龄、怀孕周数。
在实际技术应用中,一个待测基因序列会对应到一个具体的用户,具体可体现为该用户的一个唯一标识,例如用户姓名、用户的诊疗卡号、用户的身份证号码或者其他能够对应一个唯一的用户的信息。因此,基于该用户的唯一标识,可以对应到该用户的临床病例,从而可以从临床病例中提取到对应的用户信息参数。在本实施例中,该用户信息参数可以包括孕妇年龄和怀孕周数。
一个具体示例中获得的通过训练获得的分类模型,可以是支持向量分类模型。获得的待测基因序列的基因分类结果,可以包括确定的待测基因序列的分类类型(如是阳性还是阴性),以及对应的概率。
如图4所示,本实施例中的装置还可以包括:
分类模型训练模块400,用于获取各样本基因序列的高通量测序数据,对各样本基因序列的高通量测序数据进行分析处理,获得各样本基因序列的基因序列参数;提取各样本基因序列的用户信息参数,获得各样本基因序列的所述变量特征;获取已确定的各样本基因序列的基因分类类型;并将任意一个样本基因序列的变量特征以及对应的基因分类类型作为一条样本数据,对各样本基因序列的样本数据进行训练,获得所述分类模型。
可以理解地,在上述确定获得分类模型的过程中,对各样本基因序列的高通量测序数据进行分析处理、提取样本基因序列的用户信息参数的过程,可以与上述对待测基因序列的高通量测序数据进行分析处理以及提取待测基因序列的高通量测序数据的方式相同。
在一个具体示例中,上述分类模型训练模块400,还用于在所述基因分类结果经过临床验证后,将所述待测基因序列作为一条新的样本基因序列,对各所述样本基因序列进行更新,获得更新后的样本基因序列;并对更新后的各样本基因序列的样本数据进行训练,获得更新后的所述分类模型。
基于如上所述的示例,在一个实施例中还提供一种计算机设备,该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行所述程序时实现如上述各实施例中的任意一种高通量测序的生物分析方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性的计算机可读取存储介质中,如本发明实施例中,该程序可存储于计算机系统的存储介质中,并被该计算机系统中的至少一个处理器执行,以实现包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
据此,在一个实施例中还提供一种存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如上述各实施例中的任意一种高通量测序的生物分析方法。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (5)

1.一种高通量测序的生物信息分析方法,其特征在于,包括步骤:
获取待测基因序列的高通量测序数据;
对所述高通量测序数据进行序列比对、去重处理和质控校正;
对序列比对、去重处理和质控校正后的所述高通量测序数据进行分析处理,获得所述待测基因序列的基因序列参数,所述基因序列参数包括:胎儿DNA含量、序列读长平均值、参照样本基线值的第一Z检验值、参照样本基线阳性预测值的第二Z检验值、染色体内参值的第三Z检验值、染色体内参阳性预测值的第四Z检验值、样本独立基线值的第五Z检验值、以及样本独立基线阳性预测值的第六Z检验值;
提取获得与所述待测基因序列对应的用户信息参数,所述用户信息参数包括:孕妇年龄、怀孕周数;
通过训练获得的分类模型对包括所述基因序列参数和所述用户信息参数的变量特征进行分类,获得所述待测基因序列的基因分类结果,所述分类模型为根据样本基因序列的高通量测序数据、基因序列参数、对应的用户信息参数以及对应的基因分类类型训练得到;
在所述基因分类结果经过临床验证后,将所述待测基因序列作为一条新的样本基因序列,对各所述样本基因序列进行更新,获得更新后的样本基因序列;
对更新后的各样本基因序列的样本数据进行训练,获得更新后的所述分类模型;
训练获得所述分类模型的方式包括:
针对已经获得基因分类类型的各样本基因序列,在进行无创产前基因测序获得各样本基因序列的高通量测序数据后,对高通量测序数据经过序列比对、质控校正和去重处理后,形成bam格式的目标文件,并将该bam格式的目标文件进行存储;
在需要进行训练时,从存储的目标文件中提取获得各经过上述处理后的各样本基因序列的高通量测序数据,并对各样本基因序列的高通量测序数据进行分析处理,所述分析处理包括多重校正和多个参数的计算,所述多重校正包括:数据总量校正、GC含量校正和缩尾处理,多个参数的计算获得所述基因序列参数;
从临床病历中提取与各样本基因序列对应的所述用户信息参数,获得各样本基因序列的所述变量特征;
将所述基因序列参数和对应的所述变量特征,连同对应的分类结果,针对21号染色体、18号染色体、13号染色体,分别进行分类模型的构建和训练,其中,基于惩罚因子C的SVM类型以及基于径向的核函数RBF进行模型训练。
2.根据权利要求1所述的高通量测序的生物信息分析方法,其特征在于,对所述高通量测序数据进行分析处理,获得所述待测基因序列的基因序列参数的方式包括:
对所述高通量测序数据进行多重校正处理,所述多重校正处理包括:数据总量校正、GC含量校正和缩尾处理;
对所述多重校正处理后的高通量测序数据进行参数计算,获得所述基因序列参数。
3.一种高通量测序的生物信息分析装置,其特征在于,包括:
待测序列数据获取模块,用于获取待测基因序列的高通量测序数据;
待测序列基因参数模块,用于对所述高通量测序数据进行分析处理,获得所述待测基因序列的基因序列参数,所述基因序列参数包括:胎儿DNA含量、序列读长平均值、参照样本基线值的第一Z检验值、参照样本基线阳性预测值的第二Z检验值、染色体内参值的第三Z检验值、染色体内参阳性预测值的第四Z检验值、样本独立基线值的第五Z检验值、以及样本独立基线阳性预测值的第六Z检验值;
待测序列用户信息参数模块,用于提取获得与所述待测基因序列对应的用户信息参数,所述用户信息参数包括:孕妇年龄、怀孕周数;
分类模块,用于通过训练获得的分类模型对包括所述基因序列参数和所述用户信息参数的变量特征进行分类,获得所述待测基因序列的基因分类结果,所述分类模型为根据样本基因序列的高通量测序数据、基因序列参数、对应的用户信息参数以及对应的基因分类类型训练得到;
所述待测序列基因参数模块包括:
去重模块,用于对所述高通量测序数据进行序列比对、去重处理和质控校正;
分析模块,用于对所述去重模块序列比对、去重处理和质控校正后的高通量测序数据进行分析处理,获得所述待测基因序列的基因序列参数;
分类模型训练模块,用于针对已经获得基因分类类型的各样本基因序列,在进行无创产前基因测序获得各样本基因序列的高通量测序数据后,对高通量测序数据经过序列比对、质控校正和去重处理后,形成bam格式的目标文件,并将该bam格式的目标文件进行存储;在需要进行训练时,从存储的目标文件中提取获得各经过上述处理后的各样本基因序列的高通量测序数据,对各样本基因序列的高通量测序数据进行分析处理,所述分析处理包括多重校正和多个参数的计算,所述多重校正包括:数据总量校正、GC含量校正和缩尾处理,多个参数的计算获得各样本基因序列的基因序列参数;从临床病历中提取与各样本基因序列对应的所述用户信息参数,获得各样本基因序列的所述变量特征;将所述基因序列参数和对应的所述变量特征,连同对应的分类结果,针对21号染色体、18号染色体、13号染色体,分别进行分类模型的构建和训练,获得所述分类模型,其中,基于惩罚因子C的SVM类型以及基于径向的核函数RBF进行模型训练;
所述分类模型训练模块,还用于在所述基因分类结果经过临床验证后,将所述待测基因序列作为一条新的样本基因序列,对各所述样本基因序列进行更新,获得更新后的样本基因序列;并对更新后的各样本基因序列的样本数据进行训练,获得更新后的所述分类模型。
4.一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1或2所述的方法的步骤。
5.一种计算机存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1或2所述的方法的步骤。
CN201710619197.0A 2017-07-26 2017-07-26 高通量测序的生物信息分析方法及装置、设备及存储介质 Active CN107463797B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710619197.0A CN107463797B (zh) 2017-07-26 2017-07-26 高通量测序的生物信息分析方法及装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710619197.0A CN107463797B (zh) 2017-07-26 2017-07-26 高通量测序的生物信息分析方法及装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN107463797A CN107463797A (zh) 2017-12-12
CN107463797B true CN107463797B (zh) 2021-04-09

Family

ID=60547443

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710619197.0A Active CN107463797B (zh) 2017-07-26 2017-07-26 高通量测序的生物信息分析方法及装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN107463797B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110718270B (zh) * 2018-06-27 2023-10-03 苏州金唯智生物科技有限公司 基因测序结果类型的检测方法、装置、设备及存储介质
CN109411015B (zh) * 2018-09-28 2020-12-22 深圳裕策生物科技有限公司 基于循环肿瘤dna的肿瘤突变负荷检测装置及存储介质
CN110349626B (zh) * 2018-12-26 2024-02-02 北京百迈客生物科技有限公司 基于生物云平台的测序数据分析系统及方法
CN109628568A (zh) * 2019-01-10 2019-04-16 上海境象生物科技有限公司 一种用于判别和校准高通量测序污染的内标及其应用

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106611106B (zh) * 2016-12-06 2019-05-03 北京荣之联科技股份有限公司 基因变异检测方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
First Trimester Noninvasive Prenatal Diagnosis:A Computational Intelligence Approach;Andreas C. Neocleous等;《IEEE JOURNAL OF BIOMEDICAL AND HEALTH INFORMATICS》;20160930;第20卷(第5期);第1427-1438页 *
Noninvasive prenatal diagnosis of common fetal chromosomal aneuploidies by maternal plasma DNA sequencing;Tze Kin Lau等;《Journal of Maternal-Fetal and Neonatal Medicine》;20131231;第1-5页 *

Also Published As

Publication number Publication date
CN107463797A (zh) 2017-12-12

Similar Documents

Publication Publication Date Title
CN107463797B (zh) 高通量测序的生物信息分析方法及装置、设备及存储介质
Wang et al. Guidelines for bioinformatics of single-cell sequencing data analysis in Alzheimer’s disease: review, recommendation, implementation and application
JP6253644B2 (ja) 統合バイアス補正およびクラス予測を用いてバイオマーカシグネチャを生成するためのシステムおよび方法
US9940383B2 (en) Method, an arrangement and a computer program product for analysing a biological or medical sample
US20150302042A1 (en) Data analysis apparatus and data analysis method
JP2015527635A (ja) 統合デュアルアンサンブルおよび一般化シミュレーテッドアニーリング技法を用いてバイオマーカシグネチャを生成するためのシステムおよび方法
WO2024187890A1 (zh) 基于snp数据的预测方法、装置、设备及存储介质
KR20230110615A (ko) 태아 염색체 이상을 검출하는 방법 및 시스템
CN114613430A (zh) 一种假阳性核苷酸变异位点的过滤方法及计算设备
CN111226281B (zh) 确定染色体非整倍性、构建分类模型的方法和装置
CN103975329A (zh) 鲁棒的变异识别和验证
WO2024140881A1 (zh) 胎儿dna浓度的确定方法及装置
KR102124193B1 (ko) 기계 학습을 이용한 우울증 또는 자살 위험 예측용 마커 발굴 방법, 우울증 또는 자살 위험 예측용 마커, 및 기계 학습을 이용한 우울증 또는 자살 위험 예측 방법
US20180181705A1 (en) Method, an arrangement and a computer program product for analysing a biological or medical sample
TWI399661B (zh) 從微陣列資料中分析及篩選疾病相關基因的系統
US20200105374A1 (en) Mixture model for targeted sequencing
CN113971984A (zh) 分类模型构建方法及装置、电子设备、存储介质
CN110751983A (zh) 一种筛选特征mRNA用于诊断早期肺癌的方法
CN116646010B (zh) 人源性病毒检测方法及装置、设备、存储介质
CN116168761B (zh) 核酸序列特征区域确定方法、装置、电子设备及存储介质
Kucarov et al. Teaching Machine Learning for Oncogenicity Prediction Based on NGS Genomic Metadata
CN116994652B (zh) 基于神经网络的信息预测方法、装置及电子设备
EP4138003A1 (en) Neural network for variant calling
O’Fallon et al. Algorithmic improvements for discovery of germline copy number variants in next-generation sequencing data
CN115807083A (zh) 结直肠癌基因突变的识别方法、设备和应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant