CN117238365A - 基于高通量测序技术的新生儿遗传病早筛方法及装置 - Google Patents
基于高通量测序技术的新生儿遗传病早筛方法及装置 Download PDFInfo
- Publication number
- CN117238365A CN117238365A CN202311072286.XA CN202311072286A CN117238365A CN 117238365 A CN117238365 A CN 117238365A CN 202311072286 A CN202311072286 A CN 202311072286A CN 117238365 A CN117238365 A CN 117238365A
- Authority
- CN
- China
- Prior art keywords
- data
- mutation
- wes
- sequencing data
- sequencing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012216 screening Methods 0.000 title claims abstract description 81
- 238000000034 method Methods 0.000 title claims abstract description 44
- 208000026350 Inborn Genetic disease Diseases 0.000 title claims abstract description 33
- 208000016361 genetic disease Diseases 0.000 title claims abstract description 33
- 238000005516 engineering process Methods 0.000 title claims abstract description 25
- 238000012165 high-throughput sequencing Methods 0.000 title claims abstract description 19
- 238000012163 sequencing technique Methods 0.000 claims abstract description 184
- 230000035772 mutation Effects 0.000 claims abstract description 154
- 238000001514 detection method Methods 0.000 claims abstract description 40
- 230000002068 genetic effect Effects 0.000 claims abstract description 24
- 238000003062 neural network model Methods 0.000 claims abstract description 22
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 22
- 238000003908 quality control method Methods 0.000 claims abstract description 22
- 238000010801 machine learning Methods 0.000 claims abstract description 18
- 238000011068 loading method Methods 0.000 claims abstract description 11
- 238000004806 packaging method and process Methods 0.000 claims abstract description 9
- 108020004414 DNA Proteins 0.000 claims description 53
- 239000012634 fragment Substances 0.000 claims description 26
- 201000010099 disease Diseases 0.000 claims description 21
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 21
- 239000002773 nucleotide Substances 0.000 claims description 21
- 125000003729 nucleotide group Chemical group 0.000 claims description 21
- 238000012217 deletion Methods 0.000 claims description 19
- 230000037430 deletion Effects 0.000 claims description 19
- 238000004458 analytical method Methods 0.000 claims description 17
- 238000003780 insertion Methods 0.000 claims description 17
- 230000037431 insertion Effects 0.000 claims description 17
- 230000011218 segmentation Effects 0.000 claims description 17
- 239000013598 vector Substances 0.000 claims description 13
- 206010064571 Gene mutation Diseases 0.000 claims description 12
- 238000012408 PCR amplification Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 9
- 108091081062 Repeated sequence (DNA) Proteins 0.000 claims description 8
- 238000010219 correlation analysis Methods 0.000 claims description 6
- 238000000354 decomposition reaction Methods 0.000 claims description 6
- 238000000513 principal component analysis Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 102000054765 polymorphisms of proteins Human genes 0.000 claims description 5
- 108091029865 Exogenous DNA Proteins 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 4
- 238000011109 contamination Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000000746 purification Methods 0.000 claims description 4
- 230000007423 decrease Effects 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 230000035935 pregnancy Effects 0.000 claims description 3
- 238000013441 quality evaluation Methods 0.000 claims description 3
- 238000012856 packing Methods 0.000 claims 1
- 239000000523 sample Substances 0.000 description 35
- 239000002585 base Substances 0.000 description 16
- 230000001717 pathogenic effect Effects 0.000 description 9
- 230000014509 gene expression Effects 0.000 description 4
- 238000003752 polymerase chain reaction Methods 0.000 description 4
- 238000007405 data analysis Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000007614 genetic variation Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000003745 diagnosis Methods 0.000 description 2
- 238000011331 genomic analysis Methods 0.000 description 2
- 108091026890 Coding region Proteins 0.000 description 1
- 102000053602 DNA Human genes 0.000 description 1
- 238000007400 DNA extraction Methods 0.000 description 1
- 238000001712 DNA sequencing Methods 0.000 description 1
- 108700024394 Exon Proteins 0.000 description 1
- 108091092724 Noncoding DNA Proteins 0.000 description 1
- 238000003559 RNA-seq method Methods 0.000 description 1
- 238000012271 agricultural production Methods 0.000 description 1
- 239000003513 alkali Substances 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000037429 base substitution Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007622 bioinformatic analysis Methods 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 108091036078 conserved sequence Proteins 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009509 drug development Methods 0.000 description 1
- 238000013401 experimental design Methods 0.000 description 1
- 238000010195 expression analysis Methods 0.000 description 1
- 230000004547 gene signature Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000007918 pathogenicity Effects 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提出基于高通量测序技术的新生儿遗传病早筛方法及装置,方法为获取新生儿的DNA样本和临床信息,并将DNA样本和临床信息导入至全外显子测序程序中以输出第一WES测序数据;对第一WES测序数据进行质量控制、比对和变异检测的处理,筛选出第二WES测序数据;对第二WES测序数据载入正/负离子链数据,以通过正/负离子链数对第二WES测序数据中的各项子数据进行细项分割,经数据打包后生成第三WES测序数据;利用基因组学大数据和机器学习算法,从第三WES测序数据中提取基因特征;将第三WES测序数据及其对应的基因特征输入至预设的突变筛选神经网络模型中,以通过突变筛选神经网络模型输出突变分类表;输出突变分类表。
Description
技术领域
本发明涉及医疗数据处理技术领域,尤其涉及一种基于高通量测序技术的新生儿遗传病早筛方法及装置。
背景技术
基因组学技术,被广泛应用于生命科学领域。技术已经促进了对生物体内基因表达的深入理解,从而为药物开发、疾病治疗和农业生产等方面提供了有力的支持。基因组学技术则主要研究生物体内基因的结构、功能和表达等方面。这些技术包括DNA测序、RNA测序、基因芯片等,可以帮助研究人员解析基因组结构、寻找新的基因、确定基因表达模式等;现有的及基因组学技术已然运用于新生儿遗传病早筛方法当中。
目前比较先进的基因组学技术进行新生儿遗传病早筛方法之一是新生儿全外显子测序(WES)。新生儿WES技术可以对新生儿DNA中所有外显子区域进行高通量测序,以检测新生儿患有的遗传病或携带的致病基因。这项技术可以覆盖大部分人类基因组,包括那些已知的遗传病致病基因和未知的基因变异。通过WES技术,医生可以在出生后的早期阶段快速、准确地诊断遗传病,提供更好的治疗机会。然而,新生儿WES技术也存在一些弊端。首先,WES技术虽然可以检测到大多数的致病基因,但并不能涵盖整个基因组,也无法检测某些类型的基因突变,例如非编码区变异或大片段缺失等。此外,新生儿WES技术的成本较高,需要较长的数据分析时间和严格的质量控制标准,因此在某些地区或医疗机构中可能无法广泛使用。
发明内容
为了解决上述问题,本发明提出一种基于高通量测序技术的新生儿遗传病早筛方法及装置,通过利用机器学习算法和基因组学大数据的优势,快速而准确地对WES数据中的突变进行分类和筛选,提高新生儿遗传病早筛的准确性和效率。
本发明通过以下技术方案实现的:
本发明提出的基于高通量测序技术的新生儿遗传病早筛方法,包括:
获取新生儿的DNA样本和临床信息,并将所述DNA样本和临床信息导入至全外显子测序程序中以输出第一WES测序数据;
对所述第一WES测序数据进行质量控制、比对和变异检测的处理,筛选出具有单核苷酸多态性和小片段插入/缺失变异的第二WES测序数据;
对所述第二WES测序数据载入正/负离子链数据,以通过所述正/负离子链数对所述第二WES测序数据中的各项子数据进行细项分割,经数据打包后生成第三WES测序数据;
利用基因组学大数据和机器学习算法,从所述第三WES测序数据中提取基因特征,其中所述基因特征包括但不限于突变类型、位置、功能影响、频率和遗传模式;
将所述第三WES测序数据及其对应的基因特征输入至预设的突变筛选神经网络模型中,以通过所述突变筛选神经网络模型输出突变分类表,所述突变分类表包括疾病突变子表;
输出所述突变分类表。
进一步的,所述获取新生儿的DNA样本和临床信息,并将所述DNA样本和临床信息导入至全外显子测序程序中以输出第一WES测序数据的步骤,包括:
获取新生儿的临床信息,并获取进行提取和纯化后的新生儿的DNA样本,所述临床信息包括家族史、孕期检查结果、出生情况;
利用高通量测序平台,对新生儿DNA样本进行全外显子测序,得到结合临床信息后的DNA样本;
通过将结合临床信息后的所述DNA样本与参考基因组比对,并利用SNP/Indel检测进行突变检测和注释,生成第一WES测序数据。
进一步的,所述对所述第一WES测序数据进行质量控制、比对和变异检测的处理,筛选出具有单核苷酸多态性和小片段插入/缺失变异的第二WES测序数据的步骤中,对所述第一WES测序数据进行质量控制的方法包括:
去除低质量的碱基和读长:对所述第一WES测序数据中每个测序read进行碱基质量进行评估,以去除质量较差的碱基和读长;
去除接头序列和污染序列:测序过程中存在外源性DNA污染或者PCR扩增产生的接头序列,因此将其从第一WES测序数据中去除;
过滤重复序列:在样本库构建过程中,判断PCR扩增影响并将第一WES测序数据中重复序列进行过滤。
进一步的,所述对所述第一WES测序数据进行质量控制、比对和变异检测的处理,筛选出具有单核苷酸多态性和小片段插入/缺失变异的第二WES测序数据的步骤中,对所述第一WES测序数据进行比对的方法包括:
选用BWA比对工具对第一WES测序数据与参考基因组进行基因组版本、样本大小、测序深度的比对,生成比对结果;
将所述比对结果以SAM/BAM格式存储,其中包含了每个位点的碱基信息和映射质量的信息。
进一步的,所述对所述第一WES测序数据进行质量控制、比对和变异检测的处理,筛选出具有单核苷酸多态性和小片段插入/缺失变异的第二WES测序数据的步骤中,对所述第一WES测序数据进行变异检测的方法包括:
SNV/INDEL检测:利用检测算法对所述比对结果进行变异检测,生成变异信息,所述检测算法包括GATK、VarScan、SAMtools;
注释变异信息:对所述变异信息进行注释和筛选。所述变异信息包括基因名称、变异类型、功能影响、频率的信息,以生成第二WES测序数据。
进一步的,所述对所述第二WES测序数据载入正/负离子链数据,以通过所述正/负离子链数对所述第二WES测序数据中的各项子数据进行细项分割,经数据打包后生成第三WES测序数据的步骤,包括:
对所述第二WES测序数据中的各项子数据进行正/负离子链数据的操作;
通过所述正/负离子链数据对各项所述子数据进行标定,其中所述正/负离子链数据的标定依据是通过DNA双链结构编码进行标定,并以单核苷酸作为节点;
对标定后的各项所述子数据进行细项分割,并生成所述第三WES测序数据。
进一步的,所述利用基因组学大数据和机器学习算法,从所述第三WES测序数据中提取基因特征的步骤包括:
对所述第三WES测序数据中各个子数据进行相关性分析、方差分析以及互信息分析的特征选择操作,其中,所述相关性分析包括计算各个子数据基因突变与目标疾病之间的相关性,所述方差分析包括计算各个子数据基因突变在不同样本中的方差,所述互信息分析包括计算各个子数据基因突变与目标疾病之间的互信息量;
对所述第三WES测序数据中各个子数据进行主成分分析和奇异值分解的特征提取操作,其中,所述主成分分析包括将各个子数据投影到一个新的坐标系中使得各维度上的方差逐渐减小,所述奇异值分解包括将各个子数据分解为三个矩阵的乘积以提取出的各个特征向量。
进一步的,所述将所述第三WES测序数据及其对应的基因特征输入至预设的突变筛选神经网络模型中,以通过所述突变筛选神经网络模型输出突变分类表的步骤包括:
将各个所述特征向量输入训练好的突变筛选模型中,进行突变分类;
根据突变与遗传病之间的关联程度,选择阈值对所述特征向量进行突变筛选;
根据突变筛选结果,生成疾病突变子表。
本发明还提出基于高通量测序技术的新生儿遗传病早筛装置,包括:
获取单元,用于获取新生儿的DNA样本和临床信息,并将所述DNA样本和临床信息导入至全外显子测序程序中以输出第一WES测序数据;
预处理单元,用于对所述第一WES测序数据进行质量控制、比对和变异检测的处理,筛选出具有单核苷酸多态性和小片段插入/缺失变异的第二WES测序数据;
分割单元,用于对所述第二WES测序数据载入正/负离子链数据,以通过所述正/负离子链数对所述第二WES测序数据中的各项子数据进行细项分割,经数据打包后生成第三WES测序数据;
特征提取单元,用于利用基因组学大数据和机器学习算法,从所述第三WES测序数据中提取基因特征,其中所述基因特征包括但不限于突变类型、位置、功能影响、频率和遗传模式;
特征分析单元,用于将所述第三WES测序数据及其对应的基因特征输入至预设的突变筛选神经网络模型中,以通过所述突变筛选神经网络模型输出突变分类表,所述突变分类表包括疾病突变子表;
输出单元,用于输出所述突变分类表。
本发明的有益效果:
(1)高效性:采用全外显子测序技术可以同时检测出数千个基因的突变,而使用机器学习算法能够快速而准确地对WES数据中的突变进行分类和筛选,从而提高新生儿遗传病早筛的效率。
(2)精准性:采用机器学习算法能够对复杂的突变信息进行深入挖掘和分析,较为准确地判断是否存在潜在风险基因,从而减少“假阳性”和“假阴性”的发生,提高新生儿遗传病早筛的精度。
(3)可靠性:基于基因组学大数据和机器学习算法的突变筛选神经网络模型,能够根据大量数据训练出可靠的模型,并通过不断的优化提高模型的表现。
(4)通用性:该方案采用了通用的WES技术,适用于多种遗传病的早期筛查,同时也便于将该方案推广到更广泛的临床应用领域中。
(5)可扩展性:该方案的机器学习算法可以通过增加更多的训练数据和改变模型参数等方式进行不断优化和扩展,以适应新生儿遗传病早筛中出现的新突变类型和新基因。
附图说明
图1为本发明的基于高通量测序技术的新生儿遗传病早筛方法的流程示意图;
图2为本发明的基于高通量测序技术的新生儿遗传病早筛方法及装置的结构框图;
本申请为目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
实施方式
为了更加清楚完整的说明本发明的技术方案,下面结合附图对本发明作进一步说明。
请参考图1为本发明提出的基于高通量测序技术的新生儿遗传病早筛方法的流程示意图,包括:
S1,获取新生儿的DNA样本和临床信息,并将所述DNA样本和临床信息导入至全外显子测序程序中以输出第一WES测序数据;
S2,对所述第一WES测序数据进行质量控制、比对和变异检测的处理,筛选出具有单核苷酸多态性和小片段插入/缺失变异的第二WES测序数据;
S3,对所述第二WES测序数据载入正/负离子链数据,以通过所述正/负离子链数对所述第二WES测序数据中的各项子数据进行细项分割,经数据打包后生成第三WES测序数据;
S4,利用基因组学大数据和机器学习算法,从所述第三WES测序数据中提取基因特征,其中所述基因特征包括但不限于突变类型、位置、功能影响、频率和遗传模式;
S5,将所述第三WES测序数据及其对应的基因特征输入至预设的突变筛选神经网络模型中,以通过所述突变筛选神经网络模型输出突变分类表,所述突变分类表包括疾病突变子表;
S6,输出所述突变分类表。
在一个实施例中,所述获取新生儿的DNA样本和临床信息,并将所述DNA样本和临床信息导入至全外显子测序程序中以输出第一WES测序数据的步骤,包括:
获取新生儿的临床信息,并获取进行提取和纯化后的新生儿的DNA样本,所述临床信息包括家族史、孕期检查结果、出生情况;需要从新生儿身上提取DNA样本。提取DNA样本的方法可以采用标准的血样或口腔拭子等方法进行,同时需要进行纯化处理以保证DNA质量。提取和纯化后的DNA样本可以用于后续的全外显子测序。
利用高通量测序平台,对新生儿DNA样本进行全外显子测序,得到结合临床信息后的DNA样本;是一种高通量测序平台,可以用于全外显子测序。在使用该平台进行全外显子测序时,首先需要将新生儿DNA样本进行文库构建和准备。具体来说,需要将DNA片段连接到文库接头上,并进行PCR扩增等步骤。然后,将所制备的文库加载到测序仪上进行测序。该测序仪会对DNA片段进行大规模并行测序,得到数百万甚至数千万条读取序列。这些读取序列可以覆盖整个基因组的外显子区域,包括编码蛋白质的外显子以及非编码区域中的保守序列。最后,将这些读取序列与参考基因组进行比对,就可以得到新生儿的全外显子序列信息。根据这些信息,可以进行基因变异分析和筛选,以检测是否存在潜在的致病基因突变。同时,结合临床信息,可以更加精准地判断突变的致病性和风险等级。
通过将结合临床信息后的所述DNA样本与参考基因组比对,并利用SNP/Indel检测进行突变检测和注释,生成第一WES测序数据。将DNA片段文库构建:将DNA分成小片段,并在每个片段两端加上适当的引物,使其能够与测序仪中的探针配对。进行PCR扩增:使用聚合酶链式反应(PCR)扩增DNA片段,以便能够在测序仪中读取它们,测序:使用测序仪对扩增的DNA片段进行测序,得到原始的测序数据。数据处理:将原始的测序数据进行质量控制、去除接头序列和低质量序列等处理,得到清洁的序列数据。比对和注释:将清洁的序列数据与参考基因组比对,通过SNP/Indel检测技术找出新生儿DNA样本与参考基因组的差异,即突变信息,并对这些突变进行注释,确定其可能的功能和病理意义。生成第一WES测序数据:将所有突变信息整合起来,形成第一WES测序数据,为后续的突变筛选和分析提供基础数据。
在一个实施例中,所述对所述第一WES测序数据进行质量控制、比对和变异检测的处理,筛选出具有单核苷酸多态性和小片段插入/缺失变异的第二WES测序数据的步骤中,对所述第一WES测序数据进行质量控制的方法包括:
去除低质量的碱基和读长:对所述第一WES测序数据中每个测序read进行碱基质量进行评估,以去除质量较差的碱基和读长;在进行全外显子测序(WES)时,由于测序仪的误差和其他因素,会产生一些质量较差的测序reads,这些reads可能会影响后续数据分析的准确性。因此,需要对第一WES测序数据中每个测序read进行碱基质量评估,以去除质量较差的碱基和读长。通常情况下,会根据不同实验设计和数据需求,设置不同的质量阈值进行筛选。例如,常用的质量阈值为Q20或Q30,表示只保留碱基质量值大于等于20或30的reads,从而得到更加准确的WES数据。
去除接头序列和污染序列:测序过程中存在外源性DNA污染或者PCR扩增产生的接头序列,因此将其从第一WES测序数据中去除;在进行全外显子测序(WES)时,为了使DNA样本能够与探针配对并进行测序,通常需要在每个DNA片段的两端加上适当的引物,这些引物在测序过程中被称为接头序列。此外,在DNA提取、PCR扩增等操作过程中,还可能会引入一些外源性DNA污染。这些接头序列和污染序列可能会影响WES数据的质量和准确性,因此需要将其从第一WES测序数据中去除。
过滤重复序列:在样本库构建过程中,判断PCR扩增影响并将第一WES测序数据中重复序列进行过滤。在新生儿全外显子测序(WES)技术中,需要对DNA进行PCR扩增,然后进行测序。但是在PCR扩增过程中,可能会产生一些偏向性扩增的区域,导致某些序列被扩增多次,而其他区域则没有被扩增到。这就会导致测序数据中出现一些重复的序列,从而影响数据的准确性和可靠性。因此,在样本库构建过程中,需要对PCR扩增影响并将第一次WES测序数据中重复序列进行过滤。这个步骤通常被称为数据预处理中的“去除重复序列”或“去重”。
在一个实施例中所述对所述第一WES测序数据进行质量控制、比对和变异检测的处理,筛选出具有单核苷酸多态性和小片段插入/缺失变异的第二WES测序数据的步骤中,对所述第一WES测序数据进行比对的方法包括:
选用BWA比对工具对第一WES测序数据与参考基因组进行基因组版本、样本大小、测序深度的比对,生成比对结果;可用于将测序数据与参考基因组进行比对,从而确定样本中的各个DNA片段的位置和序列。在新生儿全外显子测序(WES)技术中,第一次测序得到的原始数据需要与参考基因组进行比对,以确定每个外显子的位置和序列信息。这个过程中,需要考虑基因组版本、样本大小和测序深度等因素的影响。为此,可以选用BWA比对工具,通过设置不同的参数,进行基因组版本、样本大小和测序深度的比对,并生成比对结果,为后续的数据分析提供基础。
将所述比对结果以SAM/BAM格式存储,其中包含了每个位点的碱基信息和映射质量的信息。
在一个实施例中,所述对所述第一WES测序数据进行质量控制、比对和变异检测的处理,筛选出具有单核苷酸多态性和小片段插入/缺失变异的第二WES测序数据的步骤中,对所述第一WES测序数据进行变异检测的方法包括:
SNV/INDEL检测:利用检测算法对所述比对结果进行变异检测,生成变异信息,所述检测算法包括GATK、VarScan、SAMtools;比对结果是将新生儿基因组序列与参考基因组进行比对后得到的结果。这些比对结果可以用来检测出样本中存在的单核苷酸变异(SNV)和插入/缺失变异(INDEL),例如一个碱基替换或者一个碱基的添加或删除。为了检测这些变异,需要使用特定的算法对比对结果进行分析和处理,以识别出可能存在的变异位点,并生成变异信息。这个过程被称为“SNV/INDEL检测”。SNV/INDEL检测算法可以根据不同的方法和策略进行,包括利用参考基因组和样本序列的差异性、利用样本中的变异频率、利用生物信息学特征等方面。这些算法可以帮助鉴定出潜在的致病基因变异,从而提高新生儿遗传病早筛的准确性和效率
注释变异信息:对所述变异信息进行注释和筛选。所述变异信息包括基因名称、变异类型、功能影响、频率的信息,以生成第二WES测序数据。
在一个实施例中,所述对所述第二WES测序数据载入正/负离子链数据,以通过所述正/负离子链数对所述第二WES测序数据中的各项子数据进行细项分割,经数据打包后生成第三WES测序数据的步骤,包括:
对所述第二WES测序数据中的各项子数据进行正/负离子链数据的操作;
通过所述正/负离子链数据对各项所述子数据进行标定,其中所述正/负离子链数据的标定依据是通过DNA双链结构编码进行标定,并以单核苷酸作为节点;
对标定后的各项所述子数据进行细项分割,并生成所述第三WES测序数据。
再具体实施的过程中,对第二次WES测序数据中的各项子数据进行正/负离子链数据的操作:在DNA双链结构中,存在着正向链和负向链两种不同的方向。这一步骤是将第二次WES测序数据中的各项子数据按照它们所在的正/负离子链进行分类和分割,以便后续的标定和处理。通过正/负离子链数据对各项子数据进行标定:在DNA分子中,每个碱基都会与相邻的碱基通过化学键相连形成一个双链结构。这一步骤是利用这种双链结构对各项子数据进行标定,以单核苷酸作为节点。具体来说,将每个子数据中的每个碱基都与其相邻的碱基进行比对,确定其所处的正/负离子链和位置信息,并以此进行标定。对标定后的各项子数据进行细项分割:在标定完成后,可以根据需要对各项子数据进行进一步的细项分割,例如按照基因组位置、功能注释等进行分组和分类。生成第三次WES测序数据:最后,将经过标定和分割后的子数据重新组合,形成新的第三次WES测序数据。这些数据可以用于进一步的生物信息学分析和研究,例如寻找潜在的致病突变或者进行基因表达分析等。
在一个实施例中,所述利用基因组学大数据和机器学习算法,从所述第三WES测序数据中提取基因特征的步骤包括:
对所述第三WES测序数据中各个子数据进行相关性分析、方差分析以及互信息分析的特征选择操作,其中,所述相关性分析包括计算各个子数据基因突变与目标疾病之间的相关性,所述方差分析包括计算各个子数据基因突变在不同样本中的方差,所述互信息分析包括计算各个子数据基因突变与目标疾病之间的互信息量;
对所述第三WES测序数据中各个子数据进行主成分分析和奇异值分解的特征提取操作,其中,所述主成分分析包括将各个子数据投影到一个新的坐标系中使得各维度上的方差逐渐减小,所述奇异值分解包括将各个子数据分解为三个矩阵的乘积以提取出的各个特征向量。
在一个实施例中,所述将所述第三WES测序数据及其对应的基因特征输入至预设的突变筛选神经网络模型中,以通过所述突变筛选神经网络模型输出突变分类表的步骤包括:
将各个所述特征向量输入训练好的突变筛选模型中,进行突变分类;
根据突变与遗传病之间的关联程度,选择阈值对所述特征向量进行突变筛选;
根据突变筛选结果,生成疾病突变子表。
在具体实施的过程中,将各个所述特征向量输入训练好的突变筛选模型中,进行突变分类:在突变筛选模型训练阶段,可以使用已知的基因突变和相关疾病的数据作为训练集,利用机器学习算法生成一个能够自动识别和分类突变的模型。在实际应用中,可以将新生儿WES数据中的各个特征向量输入到这个模型中,根据模型预测结果进行突变分类。根据突变与遗传病之间的关联程度,选择阈值对所述特征向量进行突变筛选:在突变分类完成后,可以根据突变与遗传病之间的关联程度选择一个阈值,以确定哪些突变是可能致病的。例如,如果一个突变在已知遗传病患者中出现的频率较高,则有可能是致病突变。根据这个阈值,可以对所述特征向量进行筛选,将可能致病的突变保留下来。根据突变筛选结果,生成疾病突变子表:最后,根据突变筛选的结果,可以生成一个疾病突变子表。疾病突变子表包括所有被认为是可能致病的突变信息,可以用于进一步的遗传病诊断和治疗。
本发明还提出基于高通量测序技术的新生儿遗传病早筛装置包括:
获取单元1,用于获取新生儿的DNA样本和临床信息,并将所述DNA样本和临床信息导入至全外显子测序程序中以输出第一WES测序数据;
预处理单元2,用于对所述第一WES测序数据进行质量控制、比对和变异检测的处理,筛选出具有单核苷酸多态性和小片段插入/缺失变异的第二WES测序数据;
分割单元3,用于对所述第二WES测序数据载入正/负离子链数据,以通过所述正/负离子链数对所述第二WES测序数据中的各项子数据进行细项分割,经数据打包后生成第三WES测序数据;
特征提取单元4,用于利用基因组学大数据和机器学习算法,从所述第三WES测序数据中提取基因特征,其中所述基因特征包括但不限于突变类型、位置、功能影响、频率和遗传模式;
特征分析单元5,用于将所述第三WES测序数据及其对应的基因特征输入至预设的突变筛选神经网络模型中,以通过所述突变筛选神经网络模型输出突变分类表,所述突变分类表包括疾病突变子表;
输出单元6,用于输出所述突变分类表。
综上所述,获取新生儿的DNA样本和临床信息,并将其导入全外显子测序程序中以生成第一WES测序数据。对第一WES测序数据进行质量控制、比对和变异检测处理,筛选出具有单核苷酸多态性和小片段插入/缺失变异的第二WES测序数据。对第二WES测序数据进行正/负离子链载入,并通过正/负离子链数对各项子数据进行细项分割,最终生成第三WES测序数据。利用基因组学大数据和机器学习算法,从第三WES测序数据中提取基因特征,包括但不限于突变类型、位置、功能影响、频率和遗传模式。将第三WES测序数据及其对应的基因特征输入预设的突变筛选神经网络模型中,以输出突变分类表,其中包括疾病突变子表。最后,输出突变分类表,以帮助医生对新生儿进行遗传病早期筛查和诊断。总的来说,该结合全外显子测序、基因组学大数据和机器学习算法的新生儿遗传病早期筛查方法,能够快速、准确地识别可能存在的遗传突变,并为医生提供有力的诊断支持。
当然,本发明还可有其它多种实施方式,基于本实施方式,本领域的普通技术人员在没有做出任何创造性劳动的前提下所获得其他实施方式,都属于本发明所保护的范围。
Claims (9)
1.基于高通量测序技术的新生儿遗传病早筛方法,其特征在于,包括:
获取新生儿的DNA样本和临床信息,并将所述DNA样本和临床信息导入至全外显子测序程序中以输出第一WES测序数据;
对所述第一WES测序数据进行质量控制、比对和变异检测的处理,筛选出具有单核苷酸多态性和小片段插入/缺失变异的第二WES测序数据;
对所述第二WES测序数据载入正/负离子链数据,以通过所述正/负离子链数对所述第二WES测序数据中的各项子数据进行细项分割,经数据打包后生成第三WES测序数据;
利用基因组学大数据和机器学习算法,从所述第三WES测序数据中提取基因特征,其中所述基因特征包括但不限于突变类型、位置、功能影响、频率和遗传模式;
将所述第三WES测序数据及其对应的基因特征输入至预设的突变筛选神经网络模型中,以通过所述突变筛选神经网络模型输出突变分类表,所述突变分类表包括疾病突变子表;
输出所述突变分类表。
2.根据权利要求1所述的基于高通量测序技术的新生儿遗传病早筛方法,其特征在于,所述获取新生儿的DNA样本和临床信息,并将所述DNA样本和临床信息导入至全外显子测序程序中以输出第一WES测序数据的步骤,包括:
获取新生儿的临床信息,并获取进行提取和纯化后的新生儿的DNA样本,所述临床信息包括家族史、孕期检查结果、出生情况;
利用高通量测序平台,对新生儿DNA样本进行全外显子测序,得到结合临床信息后的DNA样本;
通过将结合临床信息后的所述DNA样本与参考基因组比对,并利用SNP/Indel检测进行突变检测和注释,生成第一WES测序数据。
3.根据权利要求2所述的基于高通量测序技术的新生儿遗传病早筛方法,其特征在于,所述对所述第一WES测序数据进行质量控制、比对和变异检测的处理,筛选出具有单核苷酸多态性和小片段插入/缺失变异的第二WES测序数据的步骤中,对所述第一WES测序数据进行质量控制的方法包括:
去除低质量的碱基和读长:对所述第一WES测序数据中每个测序read进行碱基质量进行评估,以去除质量较差的碱基和读长;
去除接头序列和污染序列:测序过程中存在外源性DNA污染或者PCR扩增产生的接头序列,因此将其从第一WES测序数据中去除;
过滤重复序列:在样本库构建过程中,判断PCR扩增影响并将第一WES测序数据中重复序列进行过滤。
4.根据权利要求3所述的基于高通量测序技术的新生儿遗传病早筛方法,其特征在于,所述对所述第一WES测序数据进行质量控制、比对和变异检测的处理,筛选出具有单核苷酸多态性和小片段插入/缺失变异的第二WES测序数据的步骤中,对所述第一WES测序数据进行比对的方法包括:
选用BWA比对工具对第一WES测序数据与参考基因组进行基因组版本、样本大小、测序深度的比对,生成比对结果;
将所述比对结果以SAM/BAM格式存储,其中包含了每个位点的碱基信息和映射质量的信息。
5.根据权利要求4所述的基于高通量测序技术的新生儿遗传病早筛方法及装置,其特征在于,所述对所述第一WES测序数据进行质量控制、比对和变异检测的处理,筛选出具有单核苷酸多态性和小片段插入/缺失变异的第二WES测序数据的步骤中,对所述第一WES测序数据进行变异检测的方法包括:
SNV/INDEL检测:利用检测算法对所述比对结果进行变异检测,生成变异信息,所述检测算法包括GATK、VarScan、SAMtools;
注释变异信息:对所述变异信息进行注释和筛选。所述变异信息包括基因名称、变异类型、功能影响、频率的信息,以生成第二WES测序数据。
6.根据权利要求1-5任一项所述的基于高通量测序技术的新生儿遗传病早筛方法,其特征在于,所述对所述第二WES测序数据载入正/负离子链数据,以通过所述正/负离子链数对所述第二WES测序数据中的各项子数据进行细项分割,经数据打包后生成第三WES测序数据的步骤,包括:
对所述第二WES测序数据中的各项子数据进行正/负离子链数据的操作;
通过所述正/负离子链数据对各项所述子数据进行标定,其中所述正/负离子链数据的标定依据是通过DNA双链结构编码进行标定,并以单核苷酸作为节点;
对标定后的各项所述子数据进行细项分割,并生成所述第三WES测序数据。
7.根据权利要求1所述的基于高通量测序技术的新生儿遗传病早筛方法,其特征在于,所述利用基因组学大数据和机器学习算法,从所述第三WES测序数据中提取基因特征的步骤包括:
对所述第三WES测序数据中各个子数据进行相关性分析、方差分析以及互信息分析的特征选择操作,其中,所述相关性分析包括计算各个子数据基因突变与目标疾病之间的相关性,所述方差分析包括计算各个子数据基因突变在不同样本中的方差,所述互信息分析包括计算各个子数据基因突变与目标疾病之间的互信息量;
对所述第三WES测序数据中各个子数据进行主成分分析和奇异值分解的特征提取操作,其中,所述主成分分析包括将各个子数据投影到一个新的坐标系中使得各维度上的方差逐渐减小,所述奇异值分解包括将各个子数据分解为三个矩阵的乘积以提取出的各个特征向量。
8.根据权利要求7所述的基于高通量测序技术的新生儿遗传病早筛方法,其特征在于,所述将所述第三WES测序数据及其对应的基因特征输入至预设的突变筛选神经网络模型中,以通过所述突变筛选神经网络模型输出突变分类表的步骤包括:
将各个所述特征向量输入训练好的突变筛选模型中,进行突变分类;
根据突变与遗传病之间的关联程度,选择阈值对所述特征向量进行突变筛选;
根据突变筛选结果,生成疾病突变子表。
9.一种基于高通量测序技术的新生儿遗传病早筛装置,其特征在于,包括:
获取单元,用于获取新生儿的DNA样本和临床信息,并将所述DNA样本和临床信息导入至全外显子测序程序中以输出第一WES测序数据;
预处理单元,用于对所述第一WES测序数据进行质量控制、比对和变异检测的处理,筛选出具有单核苷酸多态性和小片段插入/缺失变异的第二WES测序数据;
分割单元,用于对所述第二WES测序数据载入正/负离子链数据,以通过所述正/负离子链数对所述第二WES测序数据中的各项子数据进行细项分割,经数据打包后生成第三WES测序数据;
特征提取单元,用于利用基因组学大数据和机器学习算法,从所述第三WES测序数据中提取基因特征,其中所述基因特征包括但不限于突变类型、位置、功能影响、频率和遗传模式;
特征分析单元,用于将所述第三WES测序数据及其对应的基因特征输入至预设的突变筛选神经网络模型中,以通过所述突变筛选神经网络模型输出突变分类表,所述突变分类表包括疾病突变子表;
输出单元,用于输出所述突变分类表。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311072286.XA CN117238365A (zh) | 2023-08-24 | 2023-08-24 | 基于高通量测序技术的新生儿遗传病早筛方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311072286.XA CN117238365A (zh) | 2023-08-24 | 2023-08-24 | 基于高通量测序技术的新生儿遗传病早筛方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117238365A true CN117238365A (zh) | 2023-12-15 |
Family
ID=89086981
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311072286.XA Pending CN117238365A (zh) | 2023-08-24 | 2023-08-24 | 基于高通量测序技术的新生儿遗传病早筛方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117238365A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108108592A (zh) * | 2017-12-29 | 2018-06-01 | 北京聚道科技有限公司 | 一种用于遗传变异致病性打分的机器学习模型的构建方法 |
CN110648722A (zh) * | 2019-09-19 | 2020-01-03 | 北京市儿科研究所 | 新生儿遗传病患病风险评估的装置 |
CN110846411A (zh) * | 2019-11-21 | 2020-02-28 | 上海仁东医学检验所有限公司 | 一种基于二代测序的单独肿瘤样本区分基因突变类型的方法 |
KR102204509B1 (ko) * | 2020-09-21 | 2021-01-19 | 주식회사 쓰리빌리언 | 기계학습을 이용한 유전자 변이의 병원성 예측 시스템 |
US20220148679A1 (en) * | 2020-11-06 | 2022-05-12 | International Business Machines Corporation | Identification of Signature Mutations and Targeted Treatments |
CN117637033A (zh) * | 2023-12-01 | 2024-03-01 | 国家卫生健康委科学技术研究所 | 一种基于遗传知识库的新致病基因位点机器学习挖掘方法 |
-
2023
- 2023-08-24 CN CN202311072286.XA patent/CN117238365A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108108592A (zh) * | 2017-12-29 | 2018-06-01 | 北京聚道科技有限公司 | 一种用于遗传变异致病性打分的机器学习模型的构建方法 |
CN110648722A (zh) * | 2019-09-19 | 2020-01-03 | 北京市儿科研究所 | 新生儿遗传病患病风险评估的装置 |
CN110846411A (zh) * | 2019-11-21 | 2020-02-28 | 上海仁东医学检验所有限公司 | 一种基于二代测序的单独肿瘤样本区分基因突变类型的方法 |
KR102204509B1 (ko) * | 2020-09-21 | 2021-01-19 | 주식회사 쓰리빌리언 | 기계학습을 이용한 유전자 변이의 병원성 예측 시스템 |
US20220148679A1 (en) * | 2020-11-06 | 2022-05-12 | International Business Machines Corporation | Identification of Signature Mutations and Targeted Treatments |
CN117637033A (zh) * | 2023-12-01 | 2024-03-01 | 国家卫生健康委科学技术研究所 | 一种基于遗传知识库的新致病基因位点机器学习挖掘方法 |
Non-Patent Citations (4)
Title |
---|
SALOOM R H 等: "" A survey for the methods of detection and classification of genetic mutations"", INDONESIAN JOURNAL OF ELECTRICAL ENGINEERING AND COMPUTER SCIENCE, vol. 28, no. 3, 31 December 2022 (2022-12-31), pages 1796 - 1816 * |
WISESTY UN 等: ""Temporal convolutional network for a Fast DNA mutation detection in breast cancer data"", PLOS ONE, vol. 18, no. 5, 25 May 2023 (2023-05-25), pages 1 - 18 * |
赵恒强: ""基于大规模多组学数据的骨骼发育不良遗传病因识别算法研究"", 中国博士学位论文全文数据库 医药卫生科技辑, no. 1, 15 January 2023 (2023-01-15), pages 066 - 66 * |
高山: ""蛋白质点突变效果预测与突变数据库研究"", 中国博士学位论文全文数据库 医药卫生科技辑, no. 7, 15 July 2011 (2011-07-15), pages 006 - 30 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10991453B2 (en) | Alignment of nucleic acid sequences containing homopolymers based on signal values measured for nucleotide incorporations | |
CN109767810B (zh) | 高通量测序数据分析方法及装置 | |
JP5938484B2 (ja) | ゲノムのコピー数変異の有無を判断する方法、システム及びコンピューター読み取り可能な記憶媒体 | |
US11043283B1 (en) | Systems and methods for automating RNA expression calls in a cancer prediction pipeline | |
KR102113896B1 (ko) | 모체 혈장으로부터의 비침습적 산전 분자 핵형분석 | |
CN105844116B (zh) | 测序数据的处理方法和处理装置 | |
CN110846411B (zh) | 一种基于二代测序的单独肿瘤样本区分基因突变类型的方法 | |
CN111081315B (zh) | 一种同源假基因变异检测的方法 | |
US11929148B2 (en) | Systems and methods for enriching for cancer-derived fragments using fragment size | |
Smart et al. | A novel phylogenetic approach for de novo discovery of putative nuclear mitochondrial (pNumt) haplotypes | |
English et al. | Benchmarking of small and large variants across tandem repeats | |
CN109461473B (zh) | 胎儿游离dna浓度获取方法和装置 | |
JP2024056939A (ja) | 生体試料のフィンガープリンティングのための方法 | |
CN113789371A (zh) | 一种基于批次矫正的拷贝数变异的检测方法 | |
JP2022549823A (ja) | キットおよびキットの使用方法 | |
CN114898803B (zh) | 突变检测分析的方法、设备、可读介质及装置 | |
CN117238365A (zh) | 基于高通量测序技术的新生儿遗传病早筛方法及装置 | |
CN111433855A (zh) | 筛查系统和方法 | |
RU2772912C1 (ru) | Способ анализа митохондриальной ДНК для неинвазивного пренатального тестирования | |
US20240233872A9 (en) | Component mixture model for tissue identification in dna samples | |
US20240136018A1 (en) | Component mixture model for tissue identification in dna samples | |
WO2024140881A1 (zh) | 胎儿dna浓度的确定方法及装置 | |
WO2017136606A1 (en) | Apparatus, systems, and methods for dna amplification with post-sequencing data filtering and cell isolation | |
Padre | Modeling Sequencing Artifacts in Artificial Low Frequency Cancer Data | |
Veeramachaneni | Data Analysis in Rare Disease Diagnostics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |