CN110245685B - 基因组单位点变异致病性的预测方法、系统及存储介质 - Google Patents
基因组单位点变异致病性的预测方法、系统及存储介质 Download PDFInfo
- Publication number
- CN110245685B CN110245685B CN201910401771.4A CN201910401771A CN110245685B CN 110245685 B CN110245685 B CN 110245685B CN 201910401771 A CN201910401771 A CN 201910401771A CN 110245685 B CN110245685 B CN 110245685B
- Authority
- CN
- China
- Prior art keywords
- data
- pathogenicity
- variation
- model
- site
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/30—Data warehousing; Computing architectures
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Artificial Intelligence (AREA)
- Biotechnology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Analytical Chemistry (AREA)
- Mathematical Physics (AREA)
- Chemical & Material Sciences (AREA)
- Databases & Information Systems (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Bioethics (AREA)
- Genetics & Genomics (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及生物信息学技术领域,提供一种基因组单位点变异致病性的预测方法、系统及存储介质。其中,方法包括:根据基因组单位点变异位置和变异情况,获取基因组单位点变异数据和辅助进化保守性数据;对基因组单位点变异数据和辅助进化保守性数据进行预处理,生成矩阵;加载模型,输入矩阵,并分别通过密集连接卷积神经网络进行特征提取,采用多层感知机拼合特征数据并进行计算,输出预测结果。采用本发明能够解决现有技术中基因组单位点变异致病性的预测准确率不高、可信度低、成本昂贵的问题。
Description
技术领域
本发明涉及生物信息学技术领域,特别是涉及一种基因组单位点变异致病性的预测方法、系统及存储介质。
背景技术
随着生物医学技术的发展,高通量测序的质量不断提高、成本不断降低,使得基因组测序在人类精准医疗的应用范围越来越广泛,尤其是通过测序对受试者潜在疾病风险的诊断和筛查更是精准医疗中的一大研究热点。与此同时,近年来机器学习方法的快速发展使得人们开始尝试使用机器学习来解决医疗领域中的一些问题。然而,受限于医疗诊断数据的匮乏和人们对基因组序列特性的了解不足,对于基因组单位点变异致病性的预测一直缺少一种高准确率、高泛用性的方法。该类预测目前也存在着以下问题:1.许多辅助测序数据存在着成本高昂、数据特异性强的问题,增大了形成工具的难度;2.使用传统机器学习方法分析序列的单位点变异致病性的准确率不高,需要引入新的技术改进效果;3.此前,采用深度学习分析基因组序列的方法多为学术研究,作用范围不明确,和医疗领域结合不密切。针对以上问题,引入有泛化能力和参考价值的辅助数据并采用深度学习方法共同进行预测,是一种有效的解决方案。但是目前也少有技术实现该类方法。
发明内容
本发明的目的在于提供一种基因组单位点变异致病性的预测方法、系统及存储介质,以解决现有技术中基因组单位点变异致病性的预测准确率不高、可信度低、成本昂贵的问题。
上述目的是通过以下技术方案实现的:
根据本发明一个方面,本发明提供的一种基因组单位点变异致病性的预测方法,包括:
根据基因组单位点变异位置和变异情况,获取基因组单位点变异数据和辅助进化保守性数据;
对基因组单位点变异数据和辅助进化保守性数据进行预处理,生成矩阵;
加载模型,即输入矩阵并分别通过密集连接卷积神经网络进行特征提取,再采用多层感知机拼合特征,并进行计算,输出预测结果。
优选地,所述模型是通过循环执行以下的训练步骤直至收敛至最高训练预测准确率得到:采用密集连接卷积神经网络分别进行特征提取;通过多层感知机拼合特征数据,得到预测结果;计算所述预测结果与数据标签的最小均方误差,使得误差最小化;根据反向传播公式,采用策略梯度算法更新密集连接卷积神经网络和多层感知机。
优选地,加载模型,输入矩阵并分别通过密集连接卷积神经网络进行特征提取,再采用多层感知机拼合特征并进行计算,输出预测结果的步骤中,包括:加载(整体)模型,输入矩阵,在密集连接卷积神经网络中进行特征提取,采用多层感知机拼合特征数据并进行计算,给出单位点变异的整体致病性概率;如果整体致病性概率不高于设定阈值,直接输出单位点变异致病性预测结果;如果整体致病性概率高于设定阈值,加载分疾病子模型,即输入所述矩阵,在密集连接卷积神经网络中进行特征提取,采用多层感知机拼合特征数据并进行计算,给出预测结果,并根据不同疾病模型下预测值的大小进行排名并输出。
优选地,所述分疾病子模型的构建及训练,包括以下步骤:将(整体)模型中预处理后的基因组单位点变异数据,按照对应疾病的类别进行分类,生成子训练集,其中,每一个子训练集对应一种疾病;在所述(整体)模型不变,且其中的辅助进化保守性数据对应密集连接卷积神经网络参数固定不变的情况下,采用子训练集循环执行所述训练步骤直至预测准确率达到最优。
优选地,根据基因组单位点变异位置和变异情况,得到基因组单位点变异数据和辅助进化保守性数据的步骤中,包括:根据基因组单位点变异位置和变异情况,获取变异位点上下设定距离区域的序列;根据变异情况,从辅助进化保守性数据中获取多个物种对应该变异位点处的基因组情况。
优选地,对基因组单位点变异数据和辅助进化保守性数据进行预处理,生成矩阵的步骤中,包括:对基因组单位点变异数据采用独热编码,将序列转换为矩阵;对于辅助进化保守性数据,根据各物种该位点和变异情况的异同,编码成矩阵。
优选地,所述密集连接卷积神经网络中每一层的输入数据为原始输入数据和之前所有层输出数据的拼接,采用下式表示:
xi=Hi([input,x1,x2...,xi-2,xi-1])
其中,xi为密集连接卷积神经网络第i层的卷积输出,[input,x1,x2...,xi-2,xi-1]代表对前i-1层的输出以及原始输入的拼接,Hi代表对拼接后数据进行的归一化、非线性处理以及卷积计算。
优选地,加载模型输出预测结果的步骤之后,还包括:根据阈值对预测结果的连续值进行离散化,输出1或0,即获得致病(输出值为1)或不致病(输出值为0)的离散输出。
根据本发明另一个方面,本发明提供的一种基因组单位点变异致病性的预测系统,包括:预处理单元,用于对测序得到的基因组单位点变异数据、辅助进化保守性数据、以及需要测试的基因组单位点变异数据进行预处理,分别得到输入矩阵、辅助输入矩阵,以及测试数据;模型构建及训练单元,采用输入矩阵和辅助输入矩阵,基于密集连接卷积神经网络和多层感知机,构建整体模型并训练整体模型,构建分疾病子模型并训练分疾病子模型;保存单元,用于保存训练后的整体模型和分疾病子模型,并保存整体模型中的辅助进化保守性数据对应的密集连接卷积神经网络的权重参数;测试单元,采用所述测试数据,通过所述整体模型进行整体致病性概率测试,通过所述分疾病模型进行不同疾病下的致病性概率测试。
根据本发明的还一个方面,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中包括计算机程序,所述计算机程序被处理器执行时,实现上述基因组单位点变异致病性的预测方法的步骤。
本发明基因组单位点变异致病性的预测方法、系统及存储介质具有如下有益效果:
(1)本发明能够对基因组上的单位点变异的致病性进行预测,只需要变异位置和变异情况,不需要任何和病人相关的辅助信息,节约成本的同时保护了病人隐私。
(2)本发明根据需求不同,既可以预测单位点变异整体的致病可能,也可以按照疾病种类进行专门的概率预测,方便医疗领域进行对症的使用。
(3)本发明使用深度学习的方法,产生的结果具有较高的准确率和可信度。
附图说明
通过参考以下结合附图的说明,并且随着对本发明的更全面理解,本发明的其它目的及结果将更加明白及易于理解。附图中:
图1是本发明实施例基因组单位点变异致病性的预测方法的模型训练阶段的流程示意图;
图2是本发明实施例基因组单位点变异致病性的预测方法的模型测试阶段的流程示意图;
图3是本发明实施例基因组单位点变异致病性的预测方法的数据预处理阶段的流程示意图;
图4是本发明实施例基因组单位点变异致病性的预测方法中的模型结构示意图;
图5是本发明实施例基因组单位点变异致病性的预测系统的结构示意图。
具体实施方式
下面将结合本发明实施例及实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述:
本发明提供的基因组单位点变异致病性的预测方法是基于深度学习方法,以测序得到的基因组单位点变异数据和多种物种的参考基因组序列(又称进化保守性数据)作为训练数据,以医疗诊断结果作为类别标签,训练后得到的模型可以根据不同需要,对各种单位点变异的数据进行计算并预测其导致遗传类疾病的概率。
本发明的模型基础是卷积神经网络和多层感知机的混合。卷积神经网络的目的是分别对单位点变异的位置周边的基因组序列以及进化保守性数据进行训练并提取出有效特征;多层感知机则负责将提取的特征进行学习最后分辨出该样本致病性概率。最终转化为一个分类误差最小化问题。
其中,卷积神经网络已在计算机图像识别领域取得了显著的效果,但其在基因组序列领域的应用却并不广泛。本发明考虑到基因组序列的构成形式类似于一段自然语言文本序列,然而同时根据科学研究,基因组序列的作用方式是在连续转录翻译的基础上,通过高阶不连续片段的组合起到生物功能,这一点和图像中的局部边缘特征的特性十分接近。因此,针对基因组序列的数据构成问题,本发明对输入序列进行了以下操作使其能够被作为图像类型的矩阵格式进行处理:
1)对于致病位点序列,本发明取变异位置上下一定距离区域的序列,根据DNA序列的调控特性,一般选取上下游长度为50到100单位距离,和变异位点构成完整的基因组序列。因为基因组序列的每个字节都由ATCG四种字符之一组成,因此本发明采用独热编码,将序列转换为宽度为4,长度为序列长度的矩阵。该矩阵可理解为一个二值图像,从而便于后续使用密集连接卷积神经网络进行处理。
2)对于辅助的进化保守性数据,本发明关注在不同的物种的参考基因组序列中,单位点变异位置处的数据情况,根据和人类参考基因组相同/和变异之后的情况相同/和两种情况都不同三种可能,将序列分别编码为“10”/“01”/“00”三种模式,根据输入的物种数量n,形成2*n的矩阵,同样可理解为二值图像,方便后续用卷积神经网络进行处理。
在对输入的基因组序列和进化保守性数据进行编码处理,由序列格式转换为矩阵格式后,便可使用卷积神经网络进行特征提取。传统的卷积神经网络存在着诸如梯度计算容易陷入死区等不足,使得特征提取的效果受到限制。针对此问题,本发明在传统卷积神经网络进行改良,引入了输入复用的想法,设计了密集连接卷积神经网络,密集连接卷积神经网络是一种卷积神经网络级联的结构,和传统的卷积神经网络级联相比,其最大的区别在于每一层的输入数据都是原始输入数据和之前所有层输出数据的拼接。经测试,密集连接卷积神经网络在预测单位点变异致病性方面具有很好的契合性。
基于以上改进,本发明如图4所示的模型的构建方式如下:
在特征提取部分,输入端的单位点变异数据和辅助的进化保守性数据分别各连接一个密集连接卷积神经网络,网络对输入端的矩阵进行多次卷积操作,从而提取不同范围的信息作为输出。
在判别器部分,将两个密集连接卷积神经网络得到的提取特征拼接起来,通过多层感知机,给出对于输入变异的致病性评分。在原始数据中,具有致病性的数据标签为1,无害变异的标签为0,判别器输出的是一个0到1之间的值,代表其判别该变异位点具有致病性的概率值。优选地,在实际输出时,可以取不同的阈值将这一连续值进行离散化获得“致病”或“不致病”的离散输出,其中阈值的大小可以根据训练过程中分类的效果决定。
一个可选实施例中,本发明考虑到以上模型可以对基因组序列中的单位点变异进行致病性预测打分,但是,并不能预测可能致病的单位点变异具体会导致何种疾病。针对医疗上的特殊需求,本发明通过调整输入端的输入类型,在辅助序列对应网络参数和权重不变的前提下,对每一种疾病下单位点变异端的密集连接卷积神经网络进行训练和参数保存,从而实现对于每一种特定疾病,该模型都能给出相应的致病概率。
基于以上模型,提供的基因组单位点变异致病性预测方法的整体流程如下,其中,包括训练阶段和识别预测阶段:
一、训练阶段
首先,对全体输入数据按照上面提到的方法进行预处理,生成整体训练数据集;使用所述整体训练数据集进行模型训练,目标是对标签预测准确率的最大化;对于结果最优的模型,保存整体模型参数,同时提取其中辅助数据对应的密集连接卷积神经网络的权重参数并单独保存。
然后,对于单位点变异的训练数据,根据所对应的疾病类别的不同,将训练集分成多个子训练集,每一个子训练集对应一种疾病;对于每一种疾病对应的子训练集,在整体模型不变、辅助数据对应密集连接卷积神经网络参数固定为上面单独保存参数的情况下,进行训练直至预测准确率达到最优;并分别保存每一种疾病对应的模型的整体参数和权重。
二、识别预测阶段
给定单位点变异的位置和变异情况,生成变异周边的序列矩阵和辅助的多物种对照序列进化保守性矩阵作为测试数据。
将测试数据放在全局最优模型中进行训练,首先识别其是致病单位点变异的概率。
如果认为不是致病单位点变异,直接输出结果;如果预测概率大于一定的阈值,则将测试数据分别在每一种疾病对应的模型中进行识别预测,按照预测得到的概率从大至小进行排名,即为该单位点变异可能导致疾病的风险排行。
下面参考附图对本发明的可选实施例进行描述:
图1示意性地示出了基因组单位点变异致病性的预测方法的模型训练阶段的流程。图2示意性地示出了基因组单位点变异致病性的预测方法的测试阶段的流程。图3示意性地示出了基因组单位点变异致病性的预测方法的数据预处理阶段的流程。
本发明提供的一种基因组单位点变异致病性的预测方法包括训练阶段和测试阶段,其中,
一、训练阶段如图1所示,具体包括以下步骤:
1.对输入的基因组单位点变异数据进行预处理,结合辅助数据生成训练数据集。其中,
所述预处理过程包括:①根据单位点变异位置和变异情况,抽取上下一定距离区域的序列形成输入矩阵(即变异位点周边序列矩阵)。②根据变异情况,从辅助数据的其他物种参考基因组序列按照对应位置的基因组情况(即进化保守性情况)形成辅助输入矩阵(即进化保守性数据矩阵)。
具体地如图3所示:根据输入基因单位点变异位置和变异情况,获取变异位点上下游一定距离内的基因组片段,构成连续序列;并获取其他各个物种该位点的核苷酸情况。然后根据独热编码将连续序列转换为矩阵格式(即输入矩阵);根据各物种该位点和变异情况的异同,编码成进化保守性矩阵(即辅助输入矩阵),以用于密集连续卷积神经网络的处理。
2.构建整体训练模型并训练整体模型。其中,
所述整体训练模型如图4所示,根据基因组单位点变异位置和情况得到变异位点周边序列矩阵和辅助进化保守性矩阵;两者分别与密集连接卷积神经网络1和密集连接卷积神经网络2连接,进行卷积并提取特征;然后通过多层感知机计算输出致病性预测结果。
循环执行如下过程中的①②③直至模型收敛至最高训练预测准确率。如图1所示,判断网络是否收敛至最优,若是则保存模型并固化参数,若否则继续执行以下过程:
①使用密集连接卷积神经网络对输入的单位点变异序列和辅助参考基因组对照序列进行卷积并提取特征。其中,所述密集连接卷积神经网络中每一层的输入数据为原始输入数据以及之前所有层输出数据的拼接。即和原始输入的拼接。第i层输出采用下式表示:
xi=Hi([input,x1,x2...,xi-2,xi-1])
其中,xi为密集连接卷积神经网络第i层的卷积输出,代表对前i-1层的输出以及原始输入的拼接,Hi代表对拼接后数据进行归一化、非线性处理以及卷积计算等操作。
③根据反向传播公式,使用策略梯度算法(梯度更新策略)更新多层感知机(判别器)和用于提取特征的密集连接卷积神经网络。其中,
更新多层感知机的公式如下:
其中,y为多层感知机全m层最终的输出,li为第i层的输出,Wi为第i层的权值矩阵,αi为第i层对应的学习率。
更新密集连接卷积神经网络的公式如下:
其中,L代表密集连接卷积神经网络的最终输出,li代表第i层卷积层的输出,convi代表第i层卷积层的输入,oi代表li经过归一化和非线性之后的输出结果,Wi代表卷积层中的特征权重矩阵,αi代表第i层的学习率。
3.构建分疾病子模型并训练子模型(图1未示出)
①对训练阶段1中的输入数据,按照对应导致疾病(遗传病)的类别进行分类,生成分疾病的子训练集。
②与训练阶段2类似地,构建分疾病子模型并训练子模型直至模型收敛至最高训练预测准确率。其中,对于每一种疾病对应的子训练集,在整体模型不变、辅助数据对应密集连接卷积神经网络参数固定为单独保存参数的情况下,进行训练直至预测准确率达到最优,然后保存每一种疾病对应的模型的整体参数和权重。
二、测试阶段,具体包括:给定要测试的基因组单位点变异信息,结合辅助数据生成测试输入数据;将输入数据输入整体模型,得到单位点变异的整体致病性概率;如果整体致病性概率高于设定阈值,将输入数据输入分疾病子模型并得到变异在不同疾病下的致病性概率;按照不同疾病下概率进行排名,获得致病性对照疾病可能性的列表。
下面参考图2,详细描述基因组单位点变异致病性的测试过程:
输入基因组单位点变异位置和情况;
通过预处理,生成变异位点周边序列矩阵和进化保守性数据矩阵;
加载整体(预测)模型,输入两种矩阵,在密集连接卷积神经网络中进行特征提取;
拼合特征数据,使用多层感知机进行计算,给出预测结果,根据阈值进行离散化;
判断是否具有致病性;其中,
若无,直接输出单位点变异致病性预测的结果。
若有,则分别加载各个分疾病的(子)模型,输入两种矩阵,在密集连接卷积神经网络中进行特征提取;拼合特征数据,使用多层感知机进行计算,给出预测结果;根据不同疾病模型下预测值的大小,获得致病性可能性排名;输出单位变异致病性预测的结果。
图5示意性地示出了本发明实施例的基因组单位点变异致病性的预测系统的结构。如图5所示,所述基因组单位点变异致病性的预测系统包括:预处理单元10,模型构建及训练单元20,保存单元30,以及测试单元40。
所述预处理单元10,用于对测序得到的基因组单位点变异数据、辅助进化保守性数据、以及需要测试的基因组单位点变异数据进行预处理,分别得到输入矩阵、辅助输入矩阵,以及测试数据。其中,所述预处理单元10包括:基因组序列获取模块,用于获取变异位置上下游一定长度区域,构成基因组序列,用于获取其他各个物种该位点的核苷酸情况;编码处理模块,用于将序列格式转化为矩阵格式。
所述模型构建及训练单元20,采用输入矩阵和辅助输入矩阵,基于密集连接卷积神经网络和多层感知机,构建整体模型并训练整体模型,构建分疾病子模型并训练分疾病子模型。其中,所述模型构建及训练单元20包括:整体模型构建及训练模块,用于完成整体模型的构建的训练;分疾病子模型构建及训练模块,用于完成分疾病子模型的构建和训练;特征提取模块,用于将输入端的单位点变异数据和辅助的进化保守性数据分别各连接一个密集连接卷积神经网络,进行卷积并提取特征;判别器模块,用于将两个网络得到的提取特征拼接起来,通过多层感知机,给出对于输入变异的致病性评分,所述判别器输出的是一个0到1之间的值,代表其判别该变异位点具有致病性的概率值。其中,构建分疾病子模型并训练分疾病子模型,是通过调整整体模型的输入端的输入类型(疾病种类),在辅助序列对应网络参数和权重不变的情况下,对每一种疾病下单位点变异端的密集连接卷积神经网络进行训练和参数保存,从而实现对于每一种特定疾病,该分疾病子模型都能给出相应的致病概率。
所述保存单元30,用于保存训练后的整体模型和分疾病子模型,并保存整体模型中的辅助进化保守性数据对应的密集连接卷积神经网络的权重参数,以构建并训练分疾病子模型。
所述测试单元40,采用所述测试数据,通过所述整体模型进行整体致病性概率测试,通过所述分疾病模型进行不同疾病下的致病性概率测试并排名。其中,将给定(需测试的)单位点变异的位置和变异情况,生成变异周边的序列矩阵和辅助的多物种对照序列矩阵作为测试数据,进行测试。
本发明提供的电子装置,可以是电视机、智能手机、平板电脑、计算机等终端设备。所述电子装置包括:存储器、处理器以及存储在存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本发明基因组单位点变异致病性的预测方法的步骤。
示例性的,计算机程序可以被分割成一个或多个模块/单元,一个或者多个模块/单元被存储在存储器中,并由处理器执行,以完成本发明。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序在电子装置中的执行过程。例如,基因组单位点变异致病性的预测程序可以被分割成基因组单位点变异致病性的预测系统中的预处理单元10,模型构建及训练单元20,保存单元30,以及测试单元40。其功能作用在上文中有详细描述,在此不一一赘述。
处理器执行计算机程序时实现本发明基因组单位点变异致病性的预测方法的步骤与上文类似,此处不再详述。
所述处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以是电子装置的内部存储单元,例如电子装置的硬盘或内存。存储器可以是电子装置的外部存储设备,例如电子装置上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器还可以既包括电子装置的内部存储单元也包括外部存储设备。存储器用于存储计算机程序以及电子设备所需的其他程序和数据。存储器还可以用于暂时地存储已经输出或者将要输出的数据。
本发明提供的计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时,实现本发明基因组单位点变异致病性的预测方法的步骤和基因组单位点变异致病性的预测系统各单元的功能,为避免重复,这里不再赘述。
一个可选实施例中,计算机可读存储介质可以是任何包含或存储程序或指令的有形介质,其中的程序可以被执行,通过存储的程序指令相关的硬件实现相应的功能。例如,计算机可读存储介质可以是计算机磁盘、硬盘、随机存取存储器、只读存储器等。本发明并不限于此,可以是以非暂时性方式存储指令或软件以及任何相关数据文件或数据结构并且可提供给处理器以使处理器执行其中的程序或指令的任何装置。所述计算机可读存储介质中包括基因组单位点变异致病性的预测程序,所述基因组单位点变异致病性的预测程序被处理器执行时,实现上述的基因组单位点变异致病性的预测方法,为避免重复,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (8)
1.一种基因组单位点变异致病性的预测方法,其特征在于,该方法包括:
根据基因组单位点变异位置和变异情况,获取基因组单位点变异数据和辅助进化保守性数据;
对基因组单位点变异数据和辅助进化保守性数据进行预处理,生成矩阵;
加载模型,输入所述矩阵,分别通过密集连接卷积神经网络进行特征提取,采用多层感知机拼合特征,并进行计算,输出单位点变异的整体致病性概率;如果整体致病性概率不高于设定阈值,直接输出单位点变异致病性预测结果,如果整体致病性概率高于设定阈值,加载分疾病子模型,给出预测结果,且根据不同疾病模型下预测值的大小进行排名并输出。
2.根据权利要求1所述的基因组单位点变异致病性的预测方法,其特征在于,该方法还包括基于密集连接卷积神经网络和多层感知机构建及训练模型的步骤,所述模型通过循环执行以下的训练步骤直至收敛至最高训练预测准确率得到:
对测序得到的基因组单位点变异数据和进化保守性数据进行预处理,生成矩阵;
采用密集连接卷积神经网络分别进行特征提取;
通过多层感知机拼合特征数据,得到预测结果;
计算所述预测结果与数据标签的最小均方误差,使得误差最小化;
根据反向传播公式,采用策略梯度算法更新密集连接卷积神经网络和多层感知机。
3.根据权利要求1所述的基因组单位点变异致病性的预测方法,其特征在于,所述分疾病子模型的构建及训练,包括以下步骤:
将模型中预处理后的基因组单位点变异数据,按照对应疾病的类别进行分类,生成子训练集,其中,每一个子训练集对应一种疾病;
在所述模型不变,且其中的辅助进化保守性数据对应密集连接卷积神经网络参数固定不变的情况下,采用子训练集循环执行所述训练步骤直至预测准确率达到最高。
4.根据权利要求1~3任一项所述的基因组单位点变异致病性的预测方法,其特征在于,对基因组单位点变异数据和辅助进化保守性数据进行预处理,生成矩阵的步骤中,包括:
对基因组单位点变异数据采用独热编码,将序列转换为矩阵;
对于辅助进化保守性数据,根据各物种该位点和变异情况的异同,编码成矩阵。
5.根据权利要求1~3任一项所述的基因组单位点变异致病性的预测方法,其特征在于,所述密集连接卷积神经网络中每一层的输入数据为原始输入数据和之前所有层输出数据的拼接,采用下式表示:
xi=Hi([input,x1,x2...,xi-2,xi-1])
其中,xi为密集连接卷积神经网络第i层的卷积输出,[input,x1,x2...,xi-2,xi-1]代表对前i-1层的输出以及原始输入的拼接,Hi代表对拼接后数据进行的归一化、非线性处理以及卷积计算。
6.根据权利要求1所述的基因组单位点变异致病性的预测方法,其特征在于,输出预测结果的步骤之后,还包括:根据阈值对预测结果的连续值进行离散化,获得离散输出。
7.一种基因组单位点变异致病性的预测系统,其特征在于,所述预测系统采用权利要求1至6中任一项所述的基因组单位点变异致病性的预测方法进行预测,该系统包括:
预处理单元,用于对测序得到的基因组单位点变异数据、辅助进化保守性数据、以及需要测试的基因组单位点变异数据进行预处理,分别得到输入矩阵、辅助输入矩阵,以及测试数据;
模型构建及训练单元,采用输入矩阵和辅助输入矩阵,基于密集连接卷积神经网络和多层感知机,构建整体模型并训练整体模型,构建分疾病子模型并训练分疾病子模型;
保存单元,用于保存训练后的整体模型和分疾病子模型,并保存整体模型中的辅助进化保守性数据对应的密集连接卷积神经网络的权重参数;
测试单元,采用所述测试数据,通过所述整体模型进行整体致病性概率测试,通过所述分疾病模型进行不同疾病下的致病性概率测试。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括计算机程序,所述计算机程序被处理器执行时,实现如权利要求1至7中任一项所述的基因组单位点变异致病性的预测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910401771.4A CN110245685B (zh) | 2019-05-15 | 2019-05-15 | 基因组单位点变异致病性的预测方法、系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910401771.4A CN110245685B (zh) | 2019-05-15 | 2019-05-15 | 基因组单位点变异致病性的预测方法、系统及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110245685A CN110245685A (zh) | 2019-09-17 |
CN110245685B true CN110245685B (zh) | 2022-03-25 |
Family
ID=67884026
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910401771.4A Active CN110245685B (zh) | 2019-05-15 | 2019-05-15 | 基因组单位点变异致病性的预测方法、系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110245685B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11210554B2 (en) | 2019-03-21 | 2021-12-28 | Illumina, Inc. | Artificial intelligence-based generation of sequencing metadata |
US11347965B2 (en) | 2019-03-21 | 2022-05-31 | Illumina, Inc. | Training data generation for artificial intelligence-based sequencing |
US11593649B2 (en) | 2019-05-16 | 2023-02-28 | Illumina, Inc. | Base calling using convolutions |
CN112988921A (zh) * | 2019-12-13 | 2021-06-18 | 北京四维图新科技股份有限公司 | 地图信息变化的识别方法和装置 |
CN110993028B (zh) * | 2019-12-17 | 2022-03-29 | 清华大学 | 突变数据识别方法、训练方法、处理装置及存储介质 |
KR20220143854A (ko) | 2020-02-20 | 2022-10-25 | 일루미나, 인코포레이티드 | 인공 지능 기반 다-대-다 염기 호출 |
KR102279056B1 (ko) * | 2021-01-19 | 2021-07-19 | 주식회사 쓰리빌리언 | 지식전이를 이용한 유전자변이의 병원성 예측 시스템 |
US20220336054A1 (en) | 2021-04-15 | 2022-10-20 | Illumina, Inc. | Deep Convolutional Neural Networks to Predict Variant Pathogenicity using Three-Dimensional (3D) Protein Structures |
IL307667A (en) * | 2021-04-15 | 2023-12-01 | Illumina Inc | Vocalizetown is effective for deep learning |
JP2024513994A (ja) * | 2021-04-15 | 2024-03-27 | イルミナ インコーポレイテッド | 3次元(3d)タンパク質構造を用いて変異体病原性を予測する深層畳み込みニューラルネットワーク |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105980578A (zh) * | 2013-12-16 | 2016-09-28 | 考利达基因组股份有限公司 | 用于使用机器学习进行dna测序的碱基判定器 |
CN108268753A (zh) * | 2018-01-25 | 2018-07-10 | 清华大学 | 一种微生物组识别方法和装置、设备 |
CN109411016A (zh) * | 2018-11-14 | 2019-03-01 | 钟祥博谦信息科技有限公司 | 基因变异位点检测方法、装置、设备及存储介质 |
CN109616155A (zh) * | 2018-11-19 | 2019-04-12 | 江苏科技大学 | 一种编码区域遗传变异致病性分类的数据处理系统与方法 |
WO2019084559A1 (en) * | 2017-10-27 | 2019-05-02 | Apostle, Inc. | SOMATIC MUTATION CANCER PATHOGENIC IMPACT PREDICTION USING DEEP LEARNING BASED METHODS |
-
2019
- 2019-05-15 CN CN201910401771.4A patent/CN110245685B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105980578A (zh) * | 2013-12-16 | 2016-09-28 | 考利达基因组股份有限公司 | 用于使用机器学习进行dna测序的碱基判定器 |
WO2019084559A1 (en) * | 2017-10-27 | 2019-05-02 | Apostle, Inc. | SOMATIC MUTATION CANCER PATHOGENIC IMPACT PREDICTION USING DEEP LEARNING BASED METHODS |
CN108268753A (zh) * | 2018-01-25 | 2018-07-10 | 清华大学 | 一种微生物组识别方法和装置、设备 |
CN109411016A (zh) * | 2018-11-14 | 2019-03-01 | 钟祥博谦信息科技有限公司 | 基因变异位点检测方法、装置、设备及存储介质 |
CN109616155A (zh) * | 2018-11-19 | 2019-04-12 | 江苏科技大学 | 一种编码区域遗传变异致病性分类的数据处理系统与方法 |
Non-Patent Citations (2)
Title |
---|
Integrating distal and proximal information to predict gene expression via a densely connected convolutional neural network;wangwen zeng等;《Bioinformatics》;20180608;摘要、第1节、第2.2.1节 * |
基于卷积神经网络的序列特异性预测研究;范航恺;《中国优秀硕士学位论文全文数据库》;20170215(第02期);摘要、第1.1节、第2.2.1节、第3.4节、第4.1节、第4.4.2节、第5.2节 * |
Also Published As
Publication number | Publication date |
---|---|
CN110245685A (zh) | 2019-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110245685B (zh) | 基因组单位点变异致病性的预测方法、系统及存储介质 | |
Amin et al. | End-to-end deep learning model for corn leaf disease classification | |
Chikontwe et al. | Multiple instance learning with center embeddings for histopathology classification | |
CN111126386B (zh) | 场景文本识别中基于对抗学习的序列领域适应方法 | |
CN113593631A (zh) | 一种预测蛋白质-多肽结合位点的方法及系统 | |
KR20190102399A (ko) | 정제된 인공지능 강화학습 데이터 생성을 통한 의료영상 판독 시스템 및 그 방법 | |
KR20210091671A (ko) | 의료 사실의 검증 방법 및 장치 | |
CN111564179B (zh) | 一种基于三元组神经网络的物种生物学分类方法及系统 | |
CN113076927A (zh) | 基于多源域迁移的指静脉识别方法及系统 | |
CN111354338A (zh) | 基于pso卷积核优化稀疏迁移学习的帕金森语音识别系统 | |
CN111694954B (zh) | 图像分类方法、装置和电子设备 | |
CN113764037A (zh) | 模型训练、抗体改造和结合位点预测的方法与装置 | |
CN117711525B (zh) | 活性预测模型训练及活性预测相关产品 | |
CN113705092B (zh) | 基于机器学习的疾病预测方法及装置 | |
CN112784601B (zh) | 关键信息提取方法、装置、电子设备和存储介质 | |
CN116189800B (zh) | 基于气体检测的模式识别方法、装置、设备及存储介质 | |
Fan et al. | A medical pre-diagnosis system for histopathological image of breast cancer | |
CN114913871A (zh) | 目标对象分类方法、系统、电子设备及存储介质 | |
CN111582404B (zh) | 内容分类方法、装置及可读存储介质 | |
CN114706971A (zh) | 生物医学文献类型判定方法及装置 | |
Ranjan et al. | MCWS-transformers: towards an efficient modeling of protein sequences via multi context-window based scaled self-attention | |
CN117708570B (zh) | 癫痫预测方法、装置、电子设备及存储介质 | |
US20230395194A1 (en) | Detection of deletions in oligonucleotide sequences | |
KR102416924B1 (ko) | 영상 영역 분할 방법, 영상 영역 분할 장치 및 영상 영역 분할 프로그램 | |
KR102491451B1 (ko) | 심층 신경망 기반의 악성코드 탐지 분류체계의 유사도를 반영하는 시그니처 생성 장치, 이를 위한 방법 및 이 방법을 수행하기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록매체 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |