CN117292753A

CN117292753A - 基于生物信息的单核苷酸变异致病性分类方法及系统

Info

Publication number: CN117292753A
Application number: CN202311082624.8A
Authority: CN
Inventors: 郝凡昌; 柏苛
Original assignee: Shandong Jianzhu University
Current assignee: Shandong Jianzhu University
Priority date: 2023-08-24
Filing date: 2023-08-24
Publication date: 2023-12-26

Abstract

本发明涉及基于生物信息的单核苷酸变异致病性分类方法及系统，包括以下步骤：获取每个DNA的多重序列比对，经预处理获得每个核苷酸的位置及每条核苷酸序列的重要性，将得到的重要性作为权重分配到对应的核苷酸序列上，形成输入矩阵；根据得到的输入矩阵对DNA序列采样，基于带有自注意力机制的变分自回归模型器，学习DNA序列的概率分布；根据得到的概率分布计算每个单核苷酸变异序列的进化指数，进化指数为单核苷酸变异序列与野生型序列的对数似然差异；将得到的进化指数拟合成为多个簇，分别对应单核苷酸变异序列的致病性概率，将单核苷酸变异序列的致病性概率划分为良性、可能良性、可能致病、致病和不确定意义五个类别。

Description

基于生物信息的单核苷酸变异致病性分类方法及系统

技术领域

本发明涉及生物信息计算技术领域，具体为基于生物信息的单核苷酸变异致病性分类方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

随着基因测序技术的发展，产生了大量的基因序列数据，例如多重序列比对(Multiple Sequence Alignment；MSA)，其中单核苷酸变异(Single NucleotideVariants，SNV)会导致囊胞性纤维症、马方综合征、早老性痴呆、癌症等超过6000种疾病，单核苷酸变异对个体的遗传特征和疾病风险具有重要影响，通过传统的生物实验方法确定单核苷酸变异对个体影响时，需要依赖细胞培养与转染，表达分析与功能鉴定等复杂的实验过程，导致成本高且耗时长。

而采用机器学习的方式时，以监督学习方法为例，需要大量带有标签的数据作为训练数据集，标签的质量以及数目对机器学习的效果有重要影响，而单核苷酸变异的致病性标签需要进行生物实验验证或人工标注，需要消耗大量的时间、资源和人力。

其次，人体的基因组中大约有300万个单核苷酸变异，但目前确定的致病性标签数目不过几千条，对于大多数单核苷酸变异，尤其是罕见的变异，则缺乏准确的致病性标签，这会使得标签稀疏并且不平衡，使得训练得到的模型对少数类别(例如致病性)的学习效果不足，容易出现误差。

再次，生物实验方法的选择和可行性也可能对标签的准确性产生影响。某些实验方法可能无法完全模拟单核苷酸变异在真实生物环境中的作用，从而导致标签的偏差。与此同时，由于不同患者之间的遗传背景、环境因素和疾病特征的差异，对于相同的单核苷酸变异可能存在不一致的临床表现和致病性评估，这种异质性可能导致标签出现噪声和偏差，影响模型的学习效果。

发明内容

为了解决上述背景技术中存在的技术问题，本发明提供基于生物信息的单核苷酸变异致病性分类方法及系统，使用通道注意力机制对数据进行预处理，之后使用改进的变分自回归(Variational Auto Regressive，VAR)模型学习DNA的序列分布，并学习出该DNA每个单核苷酸变异的进化指数，使用高斯混合模型对进化指数进行聚类，最终得到每个单核苷酸变异致病性的细化分类。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供基于生物信息的单核苷酸变异致病性分类方法，包括以下步骤：

获取每个DNA的多重序列比对，经预处理获得每个核苷酸的位置及每条核苷酸序列的重要性，将得到的重要性作为权重分配到对应的核苷酸序列上，形成输入矩阵；

根据得到的输入矩阵对DNA序列采样，基于带有自注意力机制的变分自回归模型器，学习DNA序列的概率分布；

根据得到的概率分布计算每个单核苷酸变异序列的进化指数，进化指数为单核苷酸变异序列与野生型序列的对数似然差异；

将得到的进化指数拟合成为多个簇，分别对应单核苷酸变异序列的致病性概率，将单核苷酸变异序列的致病性概率划分为良性、可能良性、可能致病、致病和不确定意义五个类别。

获取每个DNA的多重序列比对，经预处理获得每个核苷酸位置及每条核苷酸序列的重要性；具体为：

获取每个DNA的多重序列比对文件，对序列进行独热编码，编码中至少包含序列长度和核苷酸种类数，并进行转置处理；

基于通道注意力机制并行处理，获取每个核苷酸位置及每条核苷酸序列的重要性。

基于通道注意力机制并行处理，获取每个核苷酸位置及每条核苷酸序列的重要性，将得到的重要性作为权重分配到对应的核苷酸序列上，形成输入矩阵；具体为：

基于全局平均池化将压缩每个通道的维度至一维；

基于稀疏Softmax编码，得到一维矩阵的相对重要性；

将得到的相对重要性作为权重，分配到对应的序列及核苷酸列上，得到经预处理后的数据作为输入矩阵。

基于带有自注意力机制的变分自回归模型器包括参数对应的编码器和解码器；

编码器根据给定的多重序列比对S中，每条序列S_i都服从一个后验分布，基于自注意力机制与线性层拟合后验分布的均值和标准差，实现编码；

解码器使用自回归模型将输入的隐变量重构为近似序列s_i'，并输出DNA序列的近似概率分布。

编码器的具体过程为：

将线性层学到的序列分布式特征表示通过跨通道信息整合和一维卷积映射到查询矩阵、键矩阵和值矩阵；

对查询矩阵和键矩阵执行矩阵乘法计算二者的相关性；

归一化处理得到注意力概率分布；

将注意力概率分布作为值矩阵的权重系数与原始特征进行加权求和，得到注意力模块的输出；

通过线性层获取均值μ和标准差σ，采用重参数化技巧采样得到隐变量z＝μ+rnv·σ，其中rnv为从标准正态分布N(0,1)中采样得到的随机变量。

解码器的具体过程为：

将隐变量z与输入序列进行拼接，对拼接后的增强输入进行嵌入，将其转化为一个固定维度的向量表示，对嵌入向量进行位置编码，保留隐变量和序列的相对位置；

经过编码器对序列中不同位置间的关系进行建模，并进一步处理序列的表示；

经过解码器中的掩码多注意力机制、自注意力机制和前馈神经网络的迭代，逐步生成DNA的近似序列；

通过输出层对每个位置上的核苷酸进行概率建模。

将得到的进化指数拟合成为多个簇，分别对应单核苷酸变异序列的致病性概率，将单核苷酸变异序列的致病性概率划分为良性、可能良性、可能致病、致病和不确定意义五个类别；具体为：

在所有DNA的进化指数上训练高斯混合模型，即全局高斯，该全局模型的参数用于初始化特定DNA的高斯混合模型，即局部高斯；

根据全局与局部高斯计算该特定DNA的单核苷酸变异序列的致病性分数；

得到的致病性分数将单核苷酸变异序列划分为良性、可能良性、可能致病和致病四个类别；

基于预测熵计算每个单核苷酸变异序列类别划分结果的不确定性，将具有最高不确定性中设定百分比的类别作为不确定意义。

本发明的第二个方面提供实现上述方法所需的系统，包括：

预处理模块，被配置为：获取每个DNA的多重序列比对，经预处理获得每个核苷酸的位置及每条核苷酸序列的重要性，将得到的重要性作为权重分配到对应的核苷酸序列上，形成输入矩阵；

DNA分布学习模块，被配置为：根据得到的输入矩阵对DNA序列采样，基于带有自注意力机制的变分自回归模型器，学习DNA序列的概率分布；

进化指数模块，被配置为：根据得到的概率分布计算每个单核苷酸变异序列的进化指数，进化指数为单核苷酸变异序列与野生型序列的对数似然差异；

分类模块，被配置为：将得到的进化指数拟合成为多个簇，分别对应不同区间的致病性概率。

本发明的第三个方面提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的基于生物信息的单核苷酸变异致病性分类方法中的步骤。

本发明的第四个方面提供一种计算机设备。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的基于生物信息的单核苷酸变异致病性分类方法中的步骤。

与现有技术相比，以上一个或多个技术方案存在以下有益效果：

1、通过从DNA的多重序列比对数据(来源于MSA文件)中，学习DNA的序列分布，并学习出该DNA每个单核苷酸变异的进化指数，经聚类后根据每个单核苷酸变异的致病性概率将其划分到不同的类别中，整体方法为无监督方法，相较于监督学习的方法，无需使用稀疏、有偏差且有噪声的带标签数据，从而改善了模型的学习效果。

2、由于采用了机器学习的方式，减少研究人员的实验操作，没有前期诱导准备及长期追踪实验，通过使用自注意力机制和变分自回归模型，可以更好的捕捉DNA序列的重要模式和分布，相比于高通量生物实验技术更容易迁移到大量DNA序列数据。

3、使用了并行通道注意力机制，可以同时对序列和列进行重要性加权，提高了对关键序列和列的关注度，从而更好地捕捉序列的重要特征。

4、自主寻找聚焦列和聚焦序列。在数据预处理时，摒弃了间隙阈值，改用并行的通道注意力机制寻找聚焦列和聚焦序列，为每条序列重新赋权。特别地，在注意力机制中使用稀疏Softmax代替原本的激活函数Softmax，该操作只保留前k个计算出的概率，其中k为人工选取的超参数，将Softmax的结果稀疏化，有助于避免过度学习，提高后续分类的精度。

5、减弱长序列建模过程中的信息衰减。高质量的生物序列是尽可能长，并且无间隙部分占比尽可能大的，因此在编码器部分添加了自注意力机制，能够聚合相似性网络节点，计算潜在特征，同时整合上下文信息，能够有效避免长序列建模过程的信息衰减问题，从而增强模型捕捉长期依赖关系的能力，提高最终生成序列的质量。

6、结合了通道注意力机制，一维的长短期记忆网络层和编码器，利用这些模型和方法的优势，可以提供通道级的重要性权重，处理序列的时序信息，变分自回归模型可以学习序列的分布特征。综合使用不同模型和方法的策略可以在一定程度上提高模型的表达能力。

7、相比于传统的无监督模型，使用了包括同义突变序列在内的更多的单氨基酸变异变异数据，扩大了数据集，并且依据公共数据集细化了分类类别。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明一个或多个实施例提供的致病性分类流程示意图；

图2是本发明一个或多个实施例提供的使用融合稀疏Softmax的通道注意力机制并行获取权重示意图；

图3是本发明一个或多个实施例提供的使用添加了注意力机制的VAR学习DNA序列分布示意图；

图4是本发明一个或多个实施例提供的建模策略示意图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

正如背景技术中所描述的，单核苷酸变异(Single Nucleotide Variants，SNV)会导致一些疾病，通过给定一个DNA的多对齐序列(Multiple Sequence Alignment，MSA)，判断该DNA所有SNV的致病性类别，如果能从基因的序列信息中提前发现具有致病性的SNV，则有利于临床上进行针对性的预防。

因此，以下实施例给出基于生物信息的单核苷酸变异致病性分类方法及系统，使用通道注意力机制对数据进行预处理，之后使用改进的变分自回归(Variational AutoRegressive，VAR)模型学习DNA的序列分布，并学习出该DNA每个单核苷酸变异的进化指数，使用高斯混合模型对进化指数进行聚类，最终得到每个单核苷酸变异致病性的细化分类。将发生单核苷酸变异后的DNA序列按照致病性概率划分为良性、可能良性、可能致病性、致病性以及不确定意义五个类别。

术语解释：

SNV，单核苷酸变异(Single Nucleotide Variants，SNV)。

MSA，多对齐序列(Multiple Sequence Alignment，MSA)。

MVMA，基于变分多注意力自回归模型的致病性分类方法(Method based onVariational Multi-Attention autoregressive，MVMA)。

实施例一：

(1)传统生物实验包括以下步骤：

确定研究目标：明确要研究的SNV，例如特定的基因或基因区域，以及研究的目的，如功能分析、突变影响等；

数据收集和选择：收集相关的SNV数据，可以来自公共数据库、文献报道或研究组自己的测序数据。根据研究目标选择合适的SNV进行进一步实验；

克隆构建：使用克隆技术构建包含目标SNV的重组载体。这可能涉及PCR扩增目标DNA片段、连接到适当的表达载体或报告基因等步骤；

细胞培养和转染：将重组载体转染到合适的细胞系或细胞模型中，以便进一步研究SNV的功能。这可能包括常用的细胞系，如HEK293、CHO等，或特定的细胞系，如癌细胞株等；

表达分析和功能鉴定：通过蛋白质表达分析(如免疫印迹、免疫荧光)、功能酶活性分析、细胞增殖或凋亡分析等方法，评估SNV对基因功能的影响，从而确定SNV的功能和可能的致病性。

可以发现，传统的生物实验方式存在以下问题：

(A)耗时和昂贵：传统的生物实验方法通常需要耗费大量的时间和资源。例如，克隆、表达、纯化和功能鉴定等过程可能需要数周甚至数月的时间。此外，购买和维护实验设备以及进行复杂的实验操作通常占用极高的成本。

(B)依赖于细胞和动物模型：许多生物实验方法需要使用细胞或动物模型来研究SNV的功能和影响。这些模型的建立和维护需要专门的技术和设施，并且可能存在伦理和动物保护的问题。

(C)可能存在技术限制：某些SNV的功能可能难以通过传统的生物实验方法直接测量或检测。例如，某些SNV可能对蛋白质的稳定性、互作伙伴或细胞信号通路产生微妙的影响，这可能需要高级的实验技术或特殊的分析方法才能检测到。

(D)有限的覆盖范围：传统的生物实验方法通常是针对特定的SNV进行设计和实施，因此其覆盖范围有限。这意味着在大规模SNV研究中，传统实验方法可能无法高通量地评估和分析大量的SNV。

(F)可能存在技术困难和复杂性：某些SNV可能涉及复杂的基因调控、表观遗传修饰或非编码RNA等机制。对于这些复杂的SNV，传统的生物实验方法可能无法提供足够的解决方案或技术支持。

(2)机器学习方法包括以下步骤：

(A)监督学习方法：

(a)DEOGEN2使用支持向量机(Support Vector Machine,SVM)模型结合处理蛋白质早期折叠残基的预测数。对每个变异序列，进一步整合各种异质信息，获得其早期折叠，并计算与野生型预测的差异，从而解释得到的毒性分数与其他变异的关系。

(b)REVEL使用具有1000个二分类树的随机森林集成多个使用不同训练数据和特征的预测因子，并且使用最近发现的与预测因子不重叠的致病性和中性错义变异作为训练集进行预测。

(c)CADD使用超过60个基因组特征的综合注释，使用机器学习模型，对模拟出的未被自然选择的新生变异与已发生在人类和黑猩猩种群中的固定下来的变异进行了二分类学习。最终可以得到人类基因组中参考汇编的单核苷酸变异排名的评分。

监督学习方法依赖于标签数据，标签的质量以及数目对方法的性能有着重要的影响：

数据标注困难：SNV的致病性标注需要进行生物实验验证或专家的人工标注。这通常需要耗费大量的时间、资源和人力，一次实验需要耗费几周甚至数月的时间，此外还需考虑对实验结果进行验证等工作，以确保结果的一致性和可靠性。当需要对大规模的SNV数据集进行标注时，成本会显著增加；

标签稀疏、不平衡：一个人的基因组中大约有300万个SNV，但数据库中的致病性标签数目不过几千条，对于大多数SNV，尤其是罕见的变异，我们缺乏准确的致病性标签。并且SNV的致病性通常是不平衡的，即致病性SNV的数量相对较少，而良性SNV的数量相对较多。这会导致在训练监督学习模型时，模型对于少数类别(如致病性)的学习不足，容易出现偏差；

标签偏差、噪声：生物实验方法的选择和可行性也可能对标签的准确性产生影响。某些实验方法可能无法完全模拟SNV在真实生物环境中的作用，从而导致标签的偏差。另一方面，由于不同患者之间的遗传背景、环境因素和疾病特征的差异，对于相同的SNV可能存在不一致的临床表现和致病性评估。这种异质性可能导致标签的噪声和不确定性。并且SNV的功能和致病性通常是复杂的，可能受到多个因素的影响。对于SNV进行功能注释和致病性评估涉及到复杂的数据解读和整合过程，可能存在主观性和误差。

(B)无监督方法包括以下步骤：

Eigen使用SNV和功能基因组注释作为数据集，将二者之间的关系建模为一个谱问题。使用谱聚类捕捉不同功能基因组注释与SNV之间的关系，并用于预测SNV的功能影响。

EVE使用3218个蛋白质的MSA序列作为数据集，之后通过变分自编码器(Variational Auto Encoders，VAE)对每个蛋白质的序列分布进行建模，最终得到每个单氨基酸变异的致病性分数。

无监督方法存在以下问题：

(a)Eigen：数据依赖性：Eigen的性能取决于所使用的功能基因组注释的质量和可靠性，若注释出现错误或不准确，将会影响模型性能。并且某些注释可能缺乏在特定基因组区域或特定变异类型上的数据，数据的稀疏在一定程度上会影响模型的预测结果。

(b)EVE：

i.预处理会忽略有价值的变异位点：EVE使用间隙阈值寻找聚焦列和聚焦序列，这种数据预处理方式具有一定主观性，会忽视一些具有重要致病性研究价值的变异位点，进而丢失对应数据，后续学习的核苷酸分布就会有偏差，因此从分布中采样的进化指数会不够准确，一定程度上影响高斯聚类的效果，从而减弱最终的预测性能。

ii.对致病性类别的划分不够清晰：公共数据集中将单核苷酸变异分为5类：良性、可能良性、可能致病性、致病性和不确定意义。但EVE将致病性和可能致病性都归类为致病性，良性和可能良性都归类为良性。根据美国医学遗传学与基因组学学会(AmericanCollege of Medical Genetics and Genomics，ACMG)的评级规则及变异位点诊断证据使用指南，每种类别的变异致病概率显著不同，对应的证据强度也各异。

iii.信息扩散：所有输入的信息都通过编码器的均值和方差产生隐空间表示。这可能导致信息在编码过程中扩散，并丧失了输入中的局部结构和重要特征。

iv.固定权重分配：对于不同输入序列的处理方式是固定的，无法根据输入序列的特点和重要性进行灵活的调整。这可能导致模型对于不同序列的编码能力受限，无法充分捕捉输入的关键特征。

vi.使用的数据不够全面：EVE使用的是蛋白质的单氨基酸变异序列，但是公共数据集中存在着大量的同义突变(不改变氨基酸序列)，同义突变也与多种疾病的发生有关。

因此，本实施提出的基于生物信息的单核苷酸变异致病性分类方法，如图1所示，包括数据预处理、学习每个DNA的核苷酸分布、计算进化指数以及分类，四个步骤。

具体的：

1.数据预处理：

(1)获取每个DNA的MSA文件D＝{D₁,D₂,...,D_N}，其中N为MSA中的序列数目。

(2)如图2所示，对序列进行独热编码得到其中S为序列长度，H为核苷酸种类数，进行转置得到/>

(3)使用通道注意力机制SENet并行获取每个核苷酸位置及每条核苷酸序列的重要性：

(A)使用全局平均池化将每个通道转化为一个标量值：

即将的维度压缩至1×1×N。

(B)使用稀疏的Softmax编码一维矩阵的相对重要性：

其中，m＝1,2为参数T的下标，对应不同的通道；p为向量；

其中，p_i为向量p中的每个分量；

其中，[K]＝{1,2,...K}，k为集合[K]中的元素。

(C)将相对重要性作为权重，分配到对应的序列及核苷酸列上。

(4)得到预处理后的输入矩阵D^SE。

2学习每个DNA的核苷酸分布：

(1)根据重新分配的权重对序列进行采样，采样得到的批量数据会经过一维LSTM层。

(2)如图3所示，使用添加了自注意力机制的变分自回归模型器学习DNA序列的概率分布，该网络有两个组件：具有参数φ的编码器和具有参数θ的解码器。具体的，对于给定DNA的MSA序列S＝{s₁,s₂,...,s_n}，假设S的每条序列s_i都服从一个后验分布Q_φ(z|s_i)，其中z＝{z₁,z₂,...,z_m}是隐变量，并假设该分布是独立多元的正态分布。

(A)编码器：给定MSA序列S并假定使用自注意力机制与线性层拟合Q_φ(z|s_i)的均值和标准差，实现编码，如下：

(a)将线性层学到的序列分布式特征表示通过跨通道信息整合和一维卷积映射到查询矩阵、键矩阵和值矩阵，具体的：

查询矩阵Q＝reshape(F_CNN(D^SE；θ₁))；

键矩阵K＝reshape(F_CNN(D^SE；θ₂))；

值矩阵V＝reshape(D^SE)；

(b)对Q和K执行矩阵乘法计算二者的相关性；

(c)使用Softmax函数进行归一化得到注意力概率分布：

(d)将A作为V的权重系数与原始特征进行加权求和得到注意力模块的输出其中β初始化为0，在学习的过程中逐渐分配到更大的权重；

(e)通过线性层获取均值μ和标准差σ，采用重参数化技巧采样得到隐变量z＝μ+rnv·σ，其中rnv为从标准正态分布N(0,1)中采样得到的随机变量。

(B)解码器使用自回归模型Transformer建模条件分布P_θ(s_i|z)将从分布Q_φ(z|s_i)采样出来的z_i生成为近似序列s_i'，如下：

(a)将隐变量z与输入序列D^SE进行拼接，对拼接后的增强输入进行嵌入，将其转化为一个固定维度的向量表示，对嵌入向量进行位置编码，保留隐变量和序列的相对位置；

(c)经过Transformer的编码器，其中包括了自注意力机制和前馈神经网络，对序列中不同位置间的关系进行建模，并进一步处理序列的表示；

(d)经过Transformer的解码器，其中包括了掩码多注意力机制、自注意力机制和前馈神经网络三个组件，通过这三个组件的迭代，逐步生成DNA的近似序列；

(e)通过输出层和Softmax函数对每个位置上的核苷酸进行概率建模；

(C)损失函数使用变分似然证据下界(Evidence Lower Bound，ELBO)：

3计算进化指数

对步骤2中学习的近似后验分布Q_φ(S|z)进行采样，计算每个SNV序列s_i的进化指数其中进化指数为s_i与野生型序列w_i的对数似然差异。实际上精确的对数似然计算是很难处理的，因此使用ELBO近似：

4分类

使用高斯混合模型(Gaussian Mixture Model，GMM)将进化指数拟合成四个簇。

(1)在所有DNA的进化指数上训练一个全局的四分量GMM。

(2)使用全局GMM的参数来初始化特定DNA的GMM。在得到的四个簇中，均值较高的簇包含了具有较高进化指数的SNV序列，即该序列的致病性概率较高。

(3)根据全局GMM与特定DNA的GMM计算s的MVMA分数，即：MVMA_s＝α*p(X_s＝(1,0),(1,1)|E_s,θ_p)+(1-α)*p(X_s＝(0,1),(0,0)|E_s,θ_g)；

其中，X_s为二位二进制随机变量，α为特定DNA的GMM在全局GMM中的相对权重，θ_p和θ_g分别为特定DNA的GMM和全局GMM的参数，该MAE分数量化了s的致病性倾向。

(4)特别的，这里步骤(3)中的分类是强制分类，本实施例允许有不确定意义的分类结果。通过使用预测熵PE衡量DNA的聚类分配的总不确定性：

将具有最高不确定性的25％的SNV类别设置为不确定，这将有助于提高分类的准确率。

图4中：

For each protein，对于每种蛋白质。

Bayesian variational autoencoder，贝叶斯变分自编码器。

Inferring constraints at each protein by learning the distribution ofsequences in evolutionary data，通过研究进化数据序列的分布来推断每个蛋白质的约束条件。

One-hot encoding of MSA sequences，MSA序列的独热编码。

VAEreconstruction，变分自编码器的重构。

We sample from the approx posterior，从近似后验分布中采样。

Evolutionary index，进化指数。

Approximating the negative log-likelihood ratio of mutant versus wildtype，近似于突变型与野生型的负对数似然比。

Gaussian mixture model，高斯混合模型。

Computing EVE pathogenicity scores and filtering out most uncertainpredictions，计算EVE致病性评分并过滤掉最不确定的预测。

效果对比：

1、MVMA在预处理时使用融合了稀疏Softmax的通道注意力机制

如图4所示，EVE(evolutionary model of variant effect，变异效应的进化模型)并没有将预处理作为单独的步骤在建模策略图中呈现，它通过计算间隙数目，并设定间隙阈值α_{gap_sequence}、α_{gap_column}确定输入序列的聚焦序列和聚焦列，对3218个蛋白质家族的所有MSA序列，计算每条序列以及每列的空隙数目，删除空隙占比超过α_{gap_sequence}的序列，将空隙占比超过α_{gap_column}的列作为非聚焦列，小写非聚焦列上的氨基酸。对序列进行独热编码，并使用公式对序列重新加权修正数据偏差。

2、MVMA在学习序列分布时使用VAR，EVE使用贝叶斯VAE学习蛋白质的序列分布，其中贝叶斯VAE的编码器为全连接神经网络，解码器部分为贝叶斯神经网络.

3、MVMA对SNV进行精细化的五分类，EVE则是对单氨基酸变异序列进行了三分类，EV使用高斯聚类分离致病性和良性变异：在所有变异序列的进化指数上拟合具有两个分量的全局高斯，在特定蛋白质的进化指数上拟合具有两个分量的局部高斯，据此计算EVE分数用来量化给定变异序列的致病性分数。之后使用预测熵预测聚类分配的不确定性，将具有最高25％不确定性的变异序列的类别设置为不确定。

本实施例的预处理使用了并行通道注意力机制，可以同时对序列和列进行重要性加权，提高了对关键序列和列的关注度，从而更好地捕捉序列的重要特征。

本实施例将稀疏的Softmax与SENet融合，通过稀疏性约束，可以进一步凸显序列中的关键部分，增强了对重要信息的学习能力。

本实施例使用一维LSTM处理输入数据后再传入编码器，可以帮助模型学习序列数据中的上下文信息和序列依赖性，从而更好地建模DNA序列的分布。

本实施例在编码器中加入自注意力机制，可以聚合相似性网络节点，计算潜在特征，同时整合上下文信息，能够有效避免长序列建模过程的信息衰减问题，从而增强模型捕捉长期依赖关系的能力，提高最终生成序列的质量

本实施例使用Transformer作为VAR的解码器，可以并行计算序列中不同位置的信息，并允许每个位置直接关注到序列中的其他位置，进行全局的信息交互，有助于学习序列的分布。

本实施例对SNV进行精细化分类，依据ACMG指南及公共数据集的标准，提供更细粒度的分类结果，便于医学和生物研究领域对SNV的分析。

因此，本实施例给出的方法适用于DNA序列的学习，易推广。无需专业生物研究人员的操作，没有前期诱导准备及长期追踪实验，通过使用自注意力机制和变分自回归模型，可以更好的捕捉DNA序列的重要模式和分布，相比于高通量生物实验技术更容易迁移到大量DNA序列数据。

不需要有标签数据参与分类：本实施例给出的方法使用了无监督的深度生成模型VAE，相比于监督模型，无需使用稀疏、有偏差、有噪声的有标签数据。

使用了并行通道注意力机制：可以同时对序列和列进行重要性加权，提高了对关键序列和列的关注度，从而更好地捕捉序列的重要特征。

自主寻找聚焦列和聚焦序列：在数据预处理时，摒弃了间隙阈值，改用并行的通道注意力机制寻找聚焦列和聚焦序列，为每条序列重新赋权。特别地，在注意力机制中使用稀疏Softmax代替原本的激活函数Softmax，该操作只保留前k个计算出的概率，其中k为人工选取的超参数，将Softmax的结果稀疏化，此举有助于避免过度学习，提高后续分类的精度。

减弱长序列建模过程中的信息衰减：高质量的生物序列是尽可能长，并且无间隙部分占比尽可能大的，因此在编码器部分添加了自注意力机制，并结合LSTM和Transformer架构，可以聚合相似性网络节点，计算潜在特征，同时整合上下文信息，能够有效避免长序列建模过程的信息衰减问题，从而增强模型捕捉长期依赖关系的能力，提高最终生成序列的质量。

结合多种模型和方法提高模型的表达能力：结合了通道注意力机制SENet，一维LSTM层和改进的VAR，利用这些模型和方法的优势：SENet可以提供通道级的重要性权重，LSTM层可以处理序列的时序信息，变分自回归模型可以学习序列的分布特征。这种综合使用不同模型和方法的策略可以在一定程度上提高模型的表达能力。

数据量增大、类别划分细化：相比于EVE使用了包括同义突变序列在内的更多的SNV变异数据，扩大了数据集，并且依据ACMG指南及公共数据集细化了分类类别。

实施例二：

实现上述方法的系统，包括：

预处理模块，被配置为：获取每个DNA的多重序列比对，经预处理获得每个核苷酸位置及每条核苷酸序列的重要性，将得到的重要性作为权重分配到对应的核苷酸序列上，形成输入矩阵；

实施例三：

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例一所述的基于生物信息的单核苷酸变异致病性分类方法中的步骤。

实施例四：

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例一所述的基于生物信息的单核苷酸变异致病性分类方法中的步骤。

以上实施例二至四中涉及的各步骤或网络与实施例一相对应，具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质；还应当被理解为包括任何介质，所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于生物信息的单核苷酸变异致病性分类方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于生物信息的单核苷酸变异致病性分类方法，其特征在于，获取每个DNA的多重序列比对，经预处理获得每个核苷酸位置及每条核苷酸序列的重要性；具体为：

3.如权利要求2所述的基于生物信息的单核苷酸变异致病性分类方法，其特征在于，基于通道注意力机制并行处理，获取每个核苷酸位置及每条核苷酸序列的重要性，将得到的重要性作为权重分配到对应的核苷酸序列上，形成输入矩阵；具体为：

基于全局平均池化将压缩每个通道的维度至一维；

基于稀疏Softmax编码，得到一维矩阵的相对重要性；

4.如权利要求1所述的基于生物信息的单核苷酸变异致病性分类方法，其特征在于，基于带有自注意力机制的变分自回归模型器包括参数对应的编码器和解码器；

5.如权利要求4所述的基于生物信息的单核苷酸变异致病性分类方法，其特征在于，编码器实现编码的具体过程为：

对查询矩阵和键矩阵执行矩阵乘法计算二者的相关性；

归一化处理得到注意力概率分布；

6.如权利要求4所述的基于生物信息的单核苷酸变异致病性分类方法，其特征在于，解码器输出DNA序列的概率分布的具体过程为：

通过输出层对每个位置上的核苷酸进行概率建模。

7.如权利要求1所述的基于生物信息的单核苷酸变异致病性分类方法，其特征在于，将得到的进化指数拟合成为多个簇，分别对应单核苷酸变异序列的致病性概率，将单核苷酸变异序列的致病性概率划分为良性、可能良性、可能致病、致病和不确定意义五个类别；具体为：

基于预测熵计算每个单核苷酸变异序列的类别划分的不确定性，将具有最高不确定性中设定百分比的类别作为不确定意义。

8.基于生物信息的单核苷酸变异致病性分类系统，其特征在于，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述权利要求1-7任一项所述的基于生物信息的单核苷酸变异致病性分类方法中的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如权利要求1-7任一项所述的基于生物信息的单核苷酸变异致病性分类方法中的步骤。