CN114582429B

CN114582429B - 基于层次注意力神经网络的结核分枝杆菌耐药性预测方法及装置

Info

Publication number: CN114582429B
Application number: CN202210206029.XA
Authority: CN
Inventors: 孙群; 蒋中华; 于中华; 陈黎; 卢永美; 刘卓翀
Original assignee: Sichuan Shengmeisida Biotechnology Co ltd; Sichuan University
Current assignee: Sichuan Shengmeisida Biotechnology Co ltd; Sichuan University
Priority date: 2022-03-03
Filing date: 2022-03-03
Publication date: 2023-06-13
Anticipated expiration: 2042-03-03
Also published as: CN114582429A

Abstract

本发明公开了一种基于层次注意力神经网络的结核分枝杆菌耐药性预测方法及装置，涉及生物信息学、深度学习与计算机应用技术领域。本发明利用自然语言处理（NLP）技术解决耐药性预测的问题，将菌株基因上的突变视为词、相应基因中所有突变视为句子、将一个菌株（或样本）视为由这种句子组成的文档。通过使用全基因组突变及其位置信息作为输入，从而预测耐药性以及识别耐药性相关基因和突变。本发明对结核分枝杆菌耐药性预测方法克服了以往大多数研究无法有效处理全基因组数据进行耐药性预测的缺陷，显示了发现新型耐药性相关基因和突变的可能性。本发明方法可以作为一种通用方法，以高效率和高精确度探索基于全基因组突变的其他细菌耐药预测的问题。

Description

基于层次注意力神经网络的结核分枝杆菌耐药性预测方法及装置

技术领域

本发明涉及生物信息学、深度学习与计算机应用技术领域，更具体地说涉及一种基于层次注意力神经网络的结核分枝杆菌耐药性预测方法及装置。

背景技术

致病微生物的耐药性对全球公共卫生构成了严重的挑战，而结核病（TB）是当今世界最致命的传染病杀手和主要死亡原因之一。

耐药性结核病是一个严重公共卫生威胁。对耐药结核病的快速诊断和正确治疗对预防和控制结核并具有积极意义。另一方面，由于对一些抗结核药物的耐药机制研究较少，发现潜在的耐药基因和突变将有助于了解抗生素的耐药机制，促进药物的改进和发展。

由于结核分枝杆菌的耐药突变基因仅在染色体上存在，其耐药基因不会从一个细胞跑到另一个细胞中，基因结核分枝杆菌耐药突变基因的上述特性，可以通过对结核分枝杆菌的耐药性基因进行分析，从而确定该结核分枝杆菌对某种抗结核药物的耐药性预测。

抑制结核分枝杆菌的抗结核药物有很多种，且该抑制结核分枝杆菌的抗结核药物多多少少会对病患身体造成一定的损伤，医生在对肺结核患者进行用药之前，并不清楚该患者对哪种抗结核药物具有耐药性，而对于结核分枝杆菌的耐药性结核分枝杆菌（MTB）的表型药敏试验（DST）往往需要几周时间，若等待药敏试验结果再进行用药，则会大大耽误病患的病情。现有医院针对肺结核病患的用药方式尽量采用耐药性少的抗结核药物，若该抗结核药物无法起到抑制效果，再更换其他抗结核药物，这种方式给病患身体带来较大的负担。

国家知识产权局于2021年8月31日，公开了一件公开号为CN113330123A，名称为“结核病耐药性预测方法”的发明专利公开文本，公开了一种预测分枝杆菌耐药性的方法，包括从样品中分离分枝杆菌核酸，从该核酸获得样品序列，将该样品序列与参考序列进行比对和比较，并对每个参考位置确定该样品序列值是否与表中分配至该位置的特定序列值相同。如果两个值相同，则将位置权重值分配给该位置。通过将所有位置权重值相加获得预测值，并将预测值与阈值进行比较。如果预测值小于阈值，则预测为耐药。

上述现有技术中的结核病耐药性预测方法的预测原理是：判定样品的序列中是否含有已知耐药基因位点进行耐药预测，对于耐药位点不明确的药物，预测效果不佳。这种方法也被称为直接关联法，其无法对耐药机制不明的药物做出耐药预测。且现有技术中，大多数研究只使用预选基因的突变基因作为预测输入，使用独热编码对突变进行编码，且之用“1”和“0”来表示突变的存在或不存在，数据过于稀疏，徒增计算量，同时也忽略了突变和相应基因之间的关系。

发明内容

为了克服上述现有技术中存在的缺陷和不足，本发明提供了一种基于层次注意力神经网络的结核分枝杆菌耐药性预测方法及装置。本发明的发明目的在于提供一种结核分枝杆菌耐药性预测的改进方法，以解决现有技术中结核分枝杆菌耐药性预测方法预测精度低、处理全基因组数据效率低，且无法发现新的耐药基因的问题。本发明首创将突变信息与突变相对于基因的位置信息、以及突变基因相对于菌株全基因组的位置信息相结合作为预测输入，利用NLP技术解决耐药性预测的问题，将菌株基因上的突变视为词、相应基因中所有突变视为句子、将一个菌株（或样本）视为由这种句子组成的文档。以层次注意力神经网络作为基础，将全基因组突变及其位置信息作为输入来预测耐药性和识别耐药性相关基因和突变，解决了以往研究无法有效处理全基因组数据的缺陷，显示了发现新型耐药性相关基因和突变的可能性，且本发明预测效率高，预测结果准确度高。

为了解决上述现有技术中存在的问题，本发明是通过下述技术方案实现的。

本发明第一方面提供了一种基于层次注意力神经网络的结核分枝杆菌耐药性预测方法，该方法包括以下步骤：

S1、从离体的样本中分离出结核分枝杆菌临床分离株，对分离株进行培养，提取菌株核酸；

S2、对菌株核酸进行全基因组测序，获得菌株的全基因组测序数据；

S3、全基因组测序数据被传输到基因数据质控工具中进行数据质控处理，处理完成后形成质控合格的全基因组测序数据；

S4、质控合格的全基因组测序数据被传输到比对工具中，将质控合格的全基因组测序数据比对到参考基因组上，每个样本生成一个比对结果数据文件；

S5、比对结果数据文件被传输到排序工具中，根据比对坐标，对比对结果数据进行排序；

S6、排序后的比对结果数据被传输到去除重复工具中，进行去PCR重复处理，处理完成后得到去除PCR重复的数据；

S7、去除PCR重复的数据被传输到基因突变点识别工具中，对去除PCR重复的数据进行突变点位识别及硬过滤，生成突变点位识别结果数据；

S8、突变点位识别结果数据被传输到过滤工具中，以去除高变异的PE/PPE基因家族、重复区域和移动原件中的突变；得到过滤后的突变点位识别结果数据；

S9、过滤后的突变点位识别结果数据被传输到注释工具中，对过滤后的突变点位识别结果数据中的突变点位进行突变类型注释，剔除同义突变的突变，得到注释的突变点位识别结果数据；

S10、从S9步骤中得到的注释的突变点位识别结果数据中构建用于根据突变位置关系进行耐药性预测的突变位置嵌入向量和突变嵌入向量；

所述的突变位置嵌入向量包括突变点位相对于其所在基因的位置信息和该突变的基因在全基因组的位置信息；

所述突变嵌入向量包括发生突变点位的核苷酸替代信息，当变异类型是插入或缺失时，所述突变嵌入向量还包括插入类型标识和插入的序列，以及缺失类型标识和缺失的序列；

所述用于根据突变位置关系进行耐药性预测的突变位置嵌入向量和突变嵌入向量的构建过程是：

根据参考基因组的注释文件中基因的出现顺序，为各基因进行编号，从注释文件中提取各基因的起始位置；从步骤S9得到的突变点位识别结果数据中把每个突变转换为词并定位到相应的基因上，具体为：将每个突变的参考碱基和替代碱基提取出来组合为突变词，若突变类型为插入时，突变词由插入类型标识和插入的序列表示；若突变类型为缺失时，突变词由缺失类型标识和缺失的序列表示；将该突变在全基因组的位置信息减去其所在基因的起始位置，获得该突变在相应基因的相对位置和该基因相对于全基因组的位置信息；

S11、以S10步骤得到的突变嵌入向量和突变位置嵌入向量作为输入，分别传输到结核分枝杆菌的耐药性预测模型工具中，结核分枝杆菌的耐药性预测模型工具根据输入的突变嵌入向量和突变位置嵌入向量进行预测计算，输出预测结果；

所述结核分枝杆菌的耐药性预测模型工具中封装有结核分枝杆菌对多种抗结核药物的耐药性预测模型，其中一个结核分枝杆菌耐药性预测模型对应一种抗结核药物；结核分枝杆菌的耐药性预测模型工具中的多种结核分枝杆菌耐药性预测模型根据输入的突变嵌入向量和突变位置嵌入向量进行预测计算，输出该结核分枝杆菌对多种抗结核药物的耐药性预测结果；所述结核分枝杆菌耐药性预测模型是基于层次注意力神经网络训练得到的。

进一步的，结核分支杆菌的耐药性预测模型工具中，封装有结核分枝杆菌对异烟肼、利福平、乙胺丁醇、吡嗪酰胺、链霉素、乙硫异烟胺、阿米卡星、卷曲霉素、环丙沙星、左氧氟沙星、贝达喹啉、对氨基水杨酸、卡那霉素、莫西沙星和/或氧氟沙星中一种或多种抗结核药物的耐药性预测模型。

进一步的，基于层次注意力神经网络训练结核分枝杆菌耐药性预测模型的训练过程包括：

A、获取已知对某种抗结核药物的药敏测试结果的结核分枝杆菌菌株的全基因组测序数据，作为结核分枝杆菌菌株对该种抗结核药物的耐药性预测模型训练的样本原始数据；

B、对样本原始数据中每一株结核分枝杆菌菌株的全基因测序数据，分别进行上述S3步骤至S9步骤的处理，得到每一株结核分枝杆菌全基因组测序数据中注释的突变点位识别结果数据；

C、从B步骤得到的注释的突变点位识别结果数据中，构建每一株结核分枝杆菌的突变位置嵌入向量和突变嵌入向量；将每一株结核分枝杆菌的突变位置嵌入向量、突变嵌入向量和药敏测试结果进行对应，并将样本原始数据中所有结核分枝杆菌的突变位置嵌入向量、突变嵌入向量和药敏测试结果汇总在一起，形成训练样本集；

D、从得到的训练样本集中随机选出一部分作为训练子集，一部分作为验证子集，一部分作为测试子集；训练子集、验证子集和测试子集三者之间的比例为8:1:1；

E、将训练子集作为数据输入，输入到层次注意力神经网络中进行训练，得到菌株的嵌入表达

；将获得的菌株的嵌入表达

输入到前馈神经网络中，得到菌株是否耐药的概率

；使用二分类交叉熵损失函数作为损失函数来训练模型，训练得到结核分枝杆菌的耐药性预测模型；

F、将验证子集作为输入，输入到E步骤中得到的结核分枝杆菌的耐药性预测模型中，对耐药性预测模型的模型参数进行调整；

G、将测试子集作为输入，对F步骤调整模型参数后的耐药性预测模型进行测试。

更进一步的，所述层次注意力神经网络包括突变编码器和基因编码器，突变编码器通过编码每个突变的上下文信息来捕捉突变基因中的突变之间的关系，并通过突变级的注意力机制将突变的表示进一步聚合到突变基因的嵌入中；基因编码器捕捉菌株中基因的上下文信息，利用基因级的注意力机制将菌株中所有基因嵌入汇总到整个菌株表征中。

所述突变级的注意力机制是指根据突变的权重将突变嵌入到突变基因的编码中。

突变编码器采用CNN编码方式编码每个突变的上下文信息；具体的，

给定一个突变

，其对应的初始化嵌入向量

，是由突变嵌入

和突变位置嵌入

构成，其中d是嵌入向量的维度；

对于一个基因

，其是由N个突变构成，即

，

表示基因

中第

个突变；对于一个菌株

来说，其是由L个基因构成，即

，

表示菌株

中第

个基因；

CNN用于获取基因的嵌入表达：令

表示一个宽度为

的卷积核，

表示

中突变

的串联，那么

通过式子

计算，其中

是偏置项和，

是CNN中使用的滤波器尺寸大小；在CNN编码时，使用了SAME进行填充操作；对于一个卷积核

和一个基因

，能够得到N个不同特征的序列

；对于序列

，在其基础上加入注意力获得当前卷积核

下的基因

的嵌入表达

，注意力公式如下所示：

；

；

；

其中

是权重矩阵和

是偏置项，

是查询向量，

是基因

中第

个突变所占权重；因此，假设有K个不同的卷积核，那么基因

的嵌入表达

。

突变编码器采用Bi-LSTM编码方式编码每个突变的上下文信息；具体的，

给定一个突变

，其对应的初始化嵌入向量

，是由突变嵌入

和突变位置嵌入

构成，其中d是嵌入向量的维度；对于一个基因

，其是由N个突变构成，即

，

表示基因

中第

个突变；对于一个菌株

，其是由L个基因构成，即

，

表示菌株

中第

个基因；

Bi-LSTM用于获取基因的嵌入表达：对于每个突变

，Bi-LSTM通过拼接

的前向隐藏层输出

和后向隐藏层输出

获得其对应的上下文编码

：

；

其中

表示向量拼接；因此，获得N个突变的上下文编码

；

Bi-LSTM上通过注意力机制获得基因

的嵌入表达；对于基因

，通过以下注意力公式获得基因

的嵌入表达

；

；

；

；

通过上述步骤，可以获得菌株

中L个基因对应的嵌入表达

。

对于每个基因，在其上加入对应的位置向量

，即：

，作为基因编码器的输入。

所述基因编码器采用Bi-LSTM来捕捉菌株中基因的上下文信息，然后利用基因级的注意力机制将菌株中所有基因的嵌入汇总到整体表征中；

获得菌株

中L个基因对应的嵌入表达

；对于每个基因，在其上加入对应的位置向量

，即

，作为基因编码器的输入；

基因编码器通过Bi-LSTM融合基因之间的上下文信息以丰富基因的嵌入编码；通过下式获得菌株

的

的上下文编码

：

；

同样地，在获得L个基因的上下文编码之后，引入注意力机制对这些上下文编码进一步聚集，如下所示：

；

；

；

其中

是权重矩阵和

是偏置项。

所述层次注意力神经网络采用两层Transformer编码器；其中每一层由两个子层组成，包括一个多头自注意机制和一个引入位置的全连接前馈网络。

将突变的初始嵌入

作为输入，将其输入第一层以获得每个基因

的嵌入表达

；之后，基因嵌入

和它们的位置嵌入被馈送到第二层以形成菌株

的嵌入表达

。

将获得的菌株

的嵌入表达

输入一个前馈神经网络中去预测菌株是否具有耐药性，通过以下公式计算：

；

sigmoid是激活函数，FFNN表示前馈神经网络；

使用二分类交叉熵损失函数作为损失函数来训练模型；假设一个训练集

，其中

表示

中第

个菌株；模型损失函数通过如下所示：

；

其中

是标签集，1表示耐药，0表示敏感；

表示训练集

的长度。

所述基因数据质控工具包括fastp工具、Trimmomatic工具或FastQC工具。

所述比对工具包括BWA-MEM工具、BWA-MEM2工具、SNAP工具、Minimap2工具或Bowtie2工具。

所述排序工具包括Samtools工具或 sambamba工具。

所述去除重复工具包括GATK工具、Sambamba工具、samtools工具或picard工具。

所述基因突变点识别工具包括GATK工具、varscan工具、bcftools工具或platypus工具。

所述过滤工具包括VCFtools工具。

所述注释工具包括ANNOVAR工具、SnpEff工具或Ensembl VEP工具。

本发明第二方面提供了一种基于层次注意力神经网络的结核分枝杆菌耐药性预测装置，包括：

数据输入模块，用于接收从离体的样本中分离出的结核分枝杆菌的临床菌株的全基因组测序数据，并将菌株的全基因组测序数据传输至基因数据质控模块中；

基因数据质控模块，用于接收数据输入模块传输的菌株的全基因组测序数据，并对菌株的全基因组测序数据进行数据质控处理，输出质控合格的全基因组测序数据并传输至比对模块中；

比对模块，用于接收基因数据质控模块输出的质控合格的全基因组测序数据，并将质控合格的全基因组测序数据比对到参考基因组上，生成比对结果数据文件，并传输至排序模块；

排序模块，用于接收比对模块生成的比对结果数据文件，对其进行排序，将排序后的比对结果数据文件传输至去除重复工具中；

去除重复模块，用于对排序后的比对结果数据进行去PCR重复，并将去除PCR重复后的数据传输至基因变异点识别模块中；

基因变异点识别模块，用对去除PCR重复的数据进行突变点位识别及硬过滤，并将突变点位识别结果传输至过滤模块中；

过滤模块，用于从变异点识别结果中去除高变异的PE/PPE基因家族、重复区域和移动原件中的突变；并将过滤后的突变点位识别结果数据传输至注释工具中；

注释模块，用于对过滤后的突变点位识别结果数据中的突变点位进行突变类型注释，剔除同义突变的突变，并将注释的突变点位识别结果数据传输至突变信息提取模块；

突变信息提取模块，用于从注释的突变点位识别结果数据中构建用于根据突变位置关系进行耐药性预测的突变位置嵌入向量和突变嵌入向量；并将突变位置嵌入向量和突变嵌入向量传输至耐药性预测模块中；

所述突变嵌入向量包括发生突变点位的参考碱基和替代碱基，当变异类型是插入或缺失时，所述突变嵌入向量还包括插入类型标识和插入的碱基，以及缺失类型标识和缺失的碱基；

耐药性预测模块，封装有结核分枝杆菌对多种抗结核药物的耐药性预测模型，其中一个结核分枝杆菌耐药性预测模型对应一种抗结核药物；多种结核分枝杆菌耐药性预测模型根据输入的突变嵌入向量和突变位置嵌入向量进行预测计算，输出该结核分枝杆菌对多种抗结核药物的耐药性预测结果；所述结核分枝杆菌耐药性预测模型是基于层次注意力神经网络训练得到的。

进一步的，所述耐药性预测模块中封装有结核分枝杆菌对异烟肼、利福平、乙胺丁醇、吡嗪酰胺、链霉素、乙硫异烟胺、阿米卡星、卷曲霉素、环丙沙星、左氧氟沙星、贝达喹啉、对氨基水杨酸、卡那霉素、莫西沙星和/或氧氟沙星中一种或多种抗结核药物的耐药性预测模型。

进一步的，所述数据输入模块包括测序数据1端输入子模块和测序数据2端输入子模块。

所述基因数据质控模块中封装有fastp软件程序。所述比对模块中封装有BWA-MEM软件程序。所述排序模块中封装有Samtools软件程序。所述去除重复模块中封装有GATK或Sambamba软件程序。，所述基因变异点识别模块中封装有GATK软件程序。所述过滤模块中封装有VCFtools软件程序。所述注释模块中封装有ANNOVAR或SnpEff软件程序。

所述突变信息提取模块为利用Python进行编程的脚本。

本发明第三方面提供了一种计算机设备，包括处理器、输入设备、输出设备和存储器，处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行本申请结核分枝杆菌耐药性预测方法中的步骤。

本发明第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行本申请结核分枝杆菌耐药性预测方法中的步骤。

本发明的基于层次注意力神经网络的结核分枝杆菌耐药性预测方法及装置，其主要发明点在于：

（1）采用菌株的全基因组测序数据中的全部突变数据进行过滤后，进行结核分枝杆菌耐药性预测；

（2）引入突变（突变）相对于其所在基因的位置关系，以及该突变基因相对于其所在全基因组中的位置关系，作为结核分枝杆菌对某种抗结核药物的耐药性预测的参考要素；

（3）将样本的基因组信息作为文档数据，其中，将每一个突变作为单词，将突变基因作为句子，将耐药性预测作为文档分类问题进行处理，采用层次注意力神经网络作为基础，对结核分枝杆菌耐药性模型进行训练。

与现有技术相比，本发明所带来的有益的技术效果表现在：

1、本发明采用菌株的全基因组测序数据中的全部突变数据进行过滤后，进行结核分枝杆菌耐药性预测，且引入突变（突变）相对于其所在基因的位置关系，以及该突变基因相对于其所在全基因组中的位置关系，作为结核分枝杆菌对某种抗结核药物的耐药性预测的参考要素；可以有效解决现有技术中只使用预选基因的突变基因作为预测输入而带来的数据量大的问题。本发明虽然采用菌株的全基因组测序数据的全部突变数据进行过滤后作为耐药性预测输入，但其并未增加数据计算量，而是由于引入突变（突变）相对于其所在基因的位置关系，以及该突变基因相对于其所在全基因组中的位置关系，作为结核分枝杆菌对某种抗结核药物的耐药性预测的参考要素；使得数据计算量减少，将基因耐药性预测问题作为文档分类问题进行处理。

2、本发明的结核分枝杆菌耐药性预测方法，采用菌株的全基因组测序数据进行耐药性预测，通过变异点识别和注释，构建用于根据突变位置关系进行耐药性预测的突变位置嵌入向量和突变嵌入向量，然后通过结核分枝杆菌的耐药性预测模型工具的计算，得到耐药性预测结果。本发明采用全基因组测序数据，根据突变基因在菌株的上下文信息，以及突变在基因上下文信息，得到该突变基因的位置信息，将位置信息与耐药性进行关联，在进行耐药性预测计算式，将突变在基因中的位置信息，以及突变基因在菌株的位置信息作为考量因素，可以确保经结核分枝杆菌的耐药性预测模型工具计算得到的耐药性预测结果更加准确，参考性更强，给医生对病患的用药医嘱提供较好的指导意见。

3、本发明中虽然采用全基因组测序数据，但是相比于现有技术而言，其预测效率更高，具体表现在：本申请是从全基因组测序数据中提取突变点位信息以及，突变在基因中的位置关系和突变基因在菌株的位置关系，相较于现有技术中用“0”和“1”表示突变是否存在的处理方式而言，数据处理量小，运算效率高。通过本发明的预测方法，在获取到菌株的全基因组测序数据之后，经过本发明的预测方法，十分钟左右即可得到该结核分枝杆菌对多种抗结核药物的耐药性预测结果，大大提高了耐药性预测的效率，节约时间，给病患赢得十分重要的治疗时间，大大有利于对病患的病情的指导治疗。

4、本发明中基于层次注意力神经网络训练得到的耐药性预测模型包含了突变和相应基因的相对位置信息以及它们之间的相互作用，它有助于发现耐药性相关的基因和突变，并获得更多可解释的生物学结果。它不仅能捕捉到一个突变基因中的突变之间的相互作用，还能捕捉到一个分离物中的突变基因之间的相互作用。对于异烟肼（INH）、利福平（RIF）、乙胺丁醇（EMB）和吡嗪酰胺（PZA）这四种一线药物，HANN取得了最佳ROC曲线下面积（AUC）分别为97.90%、99.05%、96.44%和95.14%，最佳灵敏度为94.63%、96.31%、92.56%、87.05%。该模型识别的耐药性相关基因和突变与以往研究证实的一致，更重要的是，它还发现了一个潜在的耐药性相关基因。

5、通过将耐药性预测作为一个文件分类问题来处理，本发明还提出了一种新颖的编码基因数据的方法，其中包含了突变和相应基因的相对位置信息以及它们之间的相互作用。我们的研究结果表明，该方法克服了以往大多数研究无法有效处理全基因组数据进行耐药性预测的缺陷，即使在训练数据高度不平衡的情况下，该方法在四种一线药物的敏感性、特异性和AUC方面都取得了令人满意的预测性能。

6、本发明中，利用自定义的Python脚本，联合标准菌株H37Rv的基因组注释gff文件，将每个突变转换为词并定位到相应的基因上。这样的构建方式，可以快速的提取出突变点位相对于其所在基因的位置信息和该突变的基因在全基因组的位置信息。

7、本发明中，得益于层次注意力机制的引入，只要有充足的药敏表型数据和基因组数据，对于那些研究较少的药物，不但可以对耐药性进行预测，还能挖掘候选耐药基因及耐药位点。

附图说明

图1为本发明结核分枝杆菌耐药性预测方法的流程图；

图2为本发明结核分枝杆菌耐药性预测装置的结构示意图；

图3为本发明结核分枝杆菌耐药性预测模型的神经网络架构图；

图4为来自实验室DST结果的四种一线药物的耐药性和药敏性图；

图5为分离物的基因数量统计图；

图6为本发明层次注意力神经网络与TBProfiler对异烟肼的ROC曲线；

图7为本发明层次注意力神经网络与TBProfiler对利福平的ROC曲线；

图8为本发明层次注意力神经网络与TBProfiler对乙胺丁醇的ROC曲线；

图9为本发明层次注意力神经网络与TBProfiler对吡嗪酰胺的ROC曲线；

图10为本发明层次注意力神经网络与TBProfiler对异烟肼的PR曲线；

图11为本发明层次注意力神经网络与TBProfiler对利福平的PR曲线；

图12为本发明层次注意力神经网络与TBProfiler对乙胺丁醇的PR曲线；

图13为本发明层次注意力神经网络与TBProfiler对吡嗪酰胺的PR曲线；

图14为异烟肼的候选耐药突变；

图15为利福平的候选耐药突变；

图16为乙胺丁醇的候选耐药突变；

图17为吡嗪酰胺的候选耐药突变。

具体实施方式

下面将结合具体实施例，对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

作为本发明的一种实施例，参照说明书附图1所示，本实施例公开了一种基于层次注意力神经网络的结核分枝杆菌耐药性预测方法，本实施例中所述的结核分枝杆菌耐药性预测方法是对患有肺结核的病患对某种抗菌药物的耐药性预测。具体步骤如下：

首先从患有肺结核的病患身体上采集样本，标本的选择根据感染部位。可取痰、支气管灌洗液、尿、粪、脑脊液或胸、腹水。其他肺外感染可取血或相应部位分泌液或组织细胞。一般采集的样本包括痰液，采集的痰液样本要满足结核病检测试验要求，一般采集晨痰，采集方式是：晨起先漱口，用力可出气管深处的痰液1~2口，盛于清洁的痰盒内。该盛于清洁的痰盒内的样本即为离体的样本。

从离体的样本中分离出结核分枝杆菌的分离株菌株，对分离株菌株进行培养，提取分离株菌株的核酸；对分离株菌株的核酸进行全基因组测序，获得分离株菌株的全基因组测序数据。其中，采用主流的测序平台对分离株菌株核酸进行全基因组测序，包括二代测序平台Illumina HiSeq、Illumina MiSeq、Illumina Novaseq等，其主要流程包括文库构建、扩增、测序；及三代测序平台PacBio sequel II、Nanopore PromethION 48等，其主要流程包括文库构建、测序。

全基因组测序数据被传输到基因数据质控工具中进行数据质控处理，对测序数据进行质控，去除接头、过滤低质量序列、较多N的序列、过短序列；处理完成后形成质控合格的全基因组测序数据；质控合格的全基因组测序数据被传输到比对工具中，将质控合格的全基因组测序数据比对到参考基因组上，每一个样本生成一个比对结果数据文件；比对结果数据文件被传输到排序工具中，根据比对坐标，对比对结果数据进行排序；排序后的比对结果数据被传输到去除重复工具中，进行去PCR重复处理，处理完成后得到去除PCR重复的数据；去除PCR重复的数据被传输到基因突变点识别工具中，对去除PCR重复的数据进行突变点位识别及硬过滤，生成突变点位识别结果数据；突变点位识别结果数据被传输到过滤工具中，以去除高变异的PE/PPE基因家族、重复区域和移动原件中的突变；得到过滤后的突变点位识别结果数据；过滤后的突变点位识别结果数据被传输到注释工具中，对过滤后的突变点位识别结果数据中的突变点位进行突变类型注释，剔除同义突变的突变，得到注释的突变点位识别结果数据。

从上述得到的注释的突变点位识别结果数据中构建用于根据突变位置关系进行耐药性预测的突变位置嵌入向量和突变嵌入向量；所述突变嵌入向量包括发生突变点位的核苷酸替代信息，当变异类型是插入或缺失时，所述突变嵌入向量还包括插入类型标识和插入的序列，以及缺失类型标识和缺失的序列；

从NCBI下载结核分枝杆菌标准菌株H37Rv的gff注释文件，根据注释文件中基因的出现顺序为各基因从1到N编号；利用自定义的Python脚本从注释文件中提取各基因的起始位置，从S9得到突变点位识别结果把每个突变转换为词并定位到相应的基因上，具体为：将每个突变的参考碱基和替代碱基提取出来组合为突变词，如果该突变类型为插入时，用词‘ins’和插入的序列表示，突变类型为缺失时，用词‘del’和缺失的序列表示。该突变在全基因组的位置信息减去其所在基因的起始位置，获得该突变在相应基因的相对位置和该基因相对于全基因组的位置信息。给定一个突变

，其对应的初始化嵌入向量

，是由突变嵌入

和突变位置嵌入

构成，其中d是嵌入向量的维度；

以得到的突变嵌入向量和突变位置嵌入向量作为输入，分别传输到结核分枝杆菌的耐药性预测模型工具中，结核分枝杆菌的耐药性预测模型工具根据输入的突变嵌入向量和突变位置嵌入向量进行预测计算，输出预测结果；

实施例2

作为本发明又一较佳实施例，作为实施例1的注释的突变点位识别结果数据的获取过程的一种实施方式，本实施方式定制了一个生物信息学管道，获得离体样本中分离出的分离株菌株的全基因组测序数据，首先使用fastp（0.20.1版本）清理原始序列，进行基因数据质控，然后使用BWA-MEM（0.7.17版本）将清理后的序列数据映射到H37Rv参考基因组（NC_000962.3），SAMtools（1.10版本）评估基因组覆盖率，并对比对结果数据进行排序，GATK或Sambamba进去去PCR重复，以及GATK调用突变。此外，为了获得高质量的突变，使用GATK VariantFiltration对突变进行硬过滤，并通过VcfTools（0.1.16版本）取出高变异的PE/PPE基因家族、重复区域和移动元素中的突变。最后用SnpEff（5.0e版本）或ANNOVAR进行突变注释，被注释为同义突变的突变不在分析中，将其剔除。

实施例3

作为本发明又一较佳实施例，作为实施例1中耐药性预测模型工具的一种实施方式，耐药性预测模型工具中，可以封装对多种抗菌药物的耐药性预测模型，突变嵌入向量和突变位置嵌入向量分别输入到多种抗菌药物的耐药性预测模型中分别进行计算，计算出结果，从结果中得到该肺结核病患具体对哪种抗菌药物具备耐药性。

例如，所述结核分枝杆菌的耐药性预测模型工具，分别进行结核分枝杆菌对异烟肼、利福平、乙胺丁醇、吡嗪酰胺、链霉素、乙硫异烟胺、阿米卡星、卷曲霉素、环丙沙星、左氧氟沙星、贝达喹啉、对氨基水杨酸、卡那霉素、莫西沙星和/或氧氟沙星中一种或多种药品的耐药性预测计算。

实施例4

作为本发明又一较佳实施例，作为实施例1中耐药性预测模型的一种实施方式。上述结核分枝杆菌的耐药性预测模型工具中的结核分枝杆菌的耐药性预测模型是通过层次注意力神经网络训练得到的。

在本实施方式中，以异烟肼、利福平、乙胺丁醇和吡嗪酰胺四种一线抗菌药物为例，通过层次注意力神经网络训练结核分枝杆菌的耐药性预测模型的训练过程包括：

获取已知对某种药物（以异烟肼、利福平、乙胺丁醇和吡嗪酰胺四种一线抗菌药物为例）的药敏测试结果的MTB菌株的全基因组测序数据作为MTB菌株对该种药物耐药性预测模型训练的样本原始数据；具体的：

本实施例中汇集了来自于NCBI-SRA数据库的WGS（全基因组测序）数据作为本发明的样本原始数据。目前采用了12378个结核分枝杆菌（MTB）菌株的SRA登录号及其实验室DST结果，包括四种一线药物，异烟肼（INH）、利福平（RIF）、乙胺丁醇（EMB）和吡嗪酰胺（PZA）。分离物的系谱是从TBProfiler（3.0.3版本）中获得的。汇集形成样本原始数据。

对上述样本原始数据中每一株MTB菌株的全基因组测序数据，根据变异识别流程进行数据分析；具体的，首先使用fastp（0.20.1版本）清理原始序列，进行基因数据质控，然后使用BWA-MEM（0.7.17版本）将清理后的序列数据映射到H37Rv参考基因组（NC_000962.3），SAMtools（1.10版本）评估基因组覆盖率，并对比对结果数据进行排序，GATK或Sambamba进去去PCR重复，以及GATK调用突变。此外，为了获得高质量的突变，使用GATKVariantFiltration对突变进行硬过滤，并通过VcfTools（0.1.16版本）取出高变异的PE/PPE基因家族、重复区域和移动元素中的突变。最后用SnpEff（5.0e版本）或ANNOVAR进行突变注释，被注释为同义突变的突变不在分析中，将其剔除；进过上述处理后得到数据分析结果。

从数据分析结果中提取突变点位相对于其所在基因的位置信息，该突变的基因在全基因组的位置信息，形成突变位置嵌入向量集；从数据分析结果中提取发生突变的点位的参考碱基和替代碱基，当变异类型是插入或缺失时，分别采用不同的标记进行标识，形成突变嵌入向量集；将样本原始数据中所有MTB菌株的突变位置嵌入向量、突变嵌入向量集和药敏测试结果汇总在一起，形成训练样本集。

从得到的训练样本集中随机选出80%的样本作为训练子集，10%的样本作为验证子集，剩余10%的样本作为测试子集。

将训练子集作为数据输入，输入到层次注意力神经网络中进行训练，得到菌株的嵌入表达；将获得的菌株的嵌入表达输入到前馈神经网络中，得到菌株是否耐药的概率；使用二分类交叉熵损失函数作为损失函数来训练模型，训练得到结核分枝杆菌的耐药性预测模型。

将验证子集作为输入，输入到上述得到的结核分枝杆菌的耐药性预测模型中，对耐药性预测模型的模型参数进行调整。

将测试子集作为输入，对上述调整模型参数后的耐药性预测模型进行测试。

实施例5

作为本发明又一较佳实施例，参照说明书附图3所示，作为本实施例的又一种实施方式，提出了一个用于预测耐药性的HANN（层次注意力神经网络）模型，其中考虑了突变和相应基因的相对位置信息及其相互作用，如附图3所示，为结核分枝杆菌耐药性预测模型的神经网络架构图。

在本实施例方式中，将耐药性预测作为一个文档问题进行处理，其中将突变视为单词，将一个突变基因视为句子，它包含了该基因中的所有变异，包括其上游100个碱基对的启动子区域，而菌株作为一个文档。如图3所示，突变编码器的目的是捕捉突变基因中的突变的上下文信息，而突变级的注意力是根据变异基因的权重将突变嵌入到突变基因的编码中。然后，我们利用基因编码器将背景信息进一步整合到一个菌株中，然后通过基因级的注意将基因嵌入到菌株的表示中。最后，采用二值分类器对分离物的耐药性进行预测。

更进一步的，上述的层次注意力神经网络包括突变编码器和基因编码器，突变编码器通过编码每个突变的上下文信息来捕捉突变基因中的突变之间的关系，并通过突变级的注意力机制将突变的表示进一步聚合到突变基因的嵌入中；基因编码器捕捉菌株中基因的上下文信息，利用基因级的注意力机制将菌株中所有基因嵌入汇总到整个菌株表征中。所述突变级的注意力机制是指根据突变的权重将突变嵌入到突变基因的编码中。

实施例6

作为本发明又一种实施方式，作为实施例5中突变编码器的一种实施方式，所述突变编码器采用CNN编码方式编码每个突变的上下文信息；具体的，给定一个突变

，其对应的初始化嵌入向量

，是由突变嵌入

和突变位置嵌入

构成，其中d是嵌入向量的维度；

对于一个基因

，其是由N个突变构成，即

，

表示基因

中第

个突变；对于一个菌株

来说，其是由L个基因构成，即

，

表示菌株

中第

个基因；

CNN用于获取基因的嵌入表达：令

表示一个宽度为

的卷积核，

表示

中突变

的串联，那么

通过式子

计算，其中

是偏置项和，

和一个基因

，能够得到N个不同特征的序列

；对于序列

，在其基础上加入注意力获得当前卷积核

下的基因

的嵌入表达

，注意力公式如下所示：

；

；

；

其中

是权重矩阵和

是偏置项，

是查询向量，

是基因

中第

个突变所占权重；因此，假设有K个不同的卷积核，那么基因

的嵌入表达

。

实施例7

作为本发明又一种实施方式，作为实施例5中突变编码器的又一种实施方式，突变编码器采用Bi-LSTM编码方式编码每个突变的上下文信息；具体的，给定一个突变

，其对应的初始化嵌入向量

，是由突变嵌入

和突变位置嵌入

构成，其中d是嵌入向量的维度；对于一个基因

，其是由N个突变构成，即

，

表示基因

中第

个突变；对于一个菌株

，其是由L个基因构成，即

，

表示菌株

中第

个基因；

Bi-LSTM用于获取基因的嵌入表达：对于每个突变

，Bi-LSTM通过拼接

的前向隐藏层输出

和后向隐藏层输出

获得其对应的上下文编码

：

；

其中

表示向量拼接；因此，获得N个突变的上下文编码

；

Bi-LSTM上通过注意力机制获得基因

的嵌入表达；对于基因

，通过以下注意力公式获得基因

的嵌入表达

；

；

；

；

通过上述步骤，可以获得菌株

中L个基因对应的嵌入表达

。

对于每个基因，在其上加入对应的位置向量

，即：

，作为基因编码器的输入。

实施例8

作为本发明又一较佳实施例，作为实施例5中基因编码器的一种实施方式；

其中，突变编码器可以采用上述CNN编码方式或Bi-LSTM编码方式，基因编码器采用Bi-LSTM来捕捉菌株中基因的上下文信息，然后利用基因级的注意力机制将菌株中所有基因的嵌入汇总到整体表征中。可以获得菌株

中L个基因对应的嵌入表达

，对于每个基因，在其上加入对应的位置向量

，即：

，作为基因编码器的输入。

基因编码器的输入是变异基因嵌入和其位置嵌入的总和，即

；基因编码器目的是获得菌株

的嵌入表达。

基因编码器通过Bi-LSTM融合基因之间的上下文信息以丰富基因的嵌入编码。因此，通过下式获得菌株

的

的上下文编码

：

；

；

；

；

其中

是权重矩阵和

是偏置项。

实施例9

作为本发明又一较佳实施例，作为实施例4中层次注意力神经网络的又一种实施方式，所述层次注意力神经网络采用Transformer编码器；其中每一层由两个子层组成，包括一个多头自注意机制和一个引入位置的全连接前馈网络。我们将突变的初始嵌入

作为输入，将其输入第一层以获得每个基因

的嵌入表达

；之后，基因嵌入

和它们的位置嵌入被馈送到第二层以形成菌株

的嵌入表达

。

实施例10

作为本发明又一较佳实施例，作为实施例4中耐药性预测模型训练过程的一种实施方式，将获得的菌株

的嵌入表达

；

sigmoid是激活函数，FFNN表示前馈神经网络；

，其中

表示

中第

个菌株；模型损失函数通过如下所示：

；

其中

是标签集，1表示耐药，0表示敏感；

表示训练集

的长度。

实施例11

作为本发明一较佳实施例，本实施例提供了上述实施例1-10中所述的耐药性预测模型的模型设置和评价指标的实施方式，在本实施方式中，创造了两个突变集，一个包含23个耐药相关基因的变异（常规方法），另一个包含全基因组的变异。同时，为单个药物构建单独的数据库子集（即INH、RIF、EMB和PZA）。每个子集随机分为训练集（80%）、验证集（10%）和测试集（10%）。采用10折交叉验证方法进行评价，并以实验室DST结果为金标准，计算ROC曲线下面积（AUC）、精确率（P）、召回率（R）、准确率（ACC）、敏感性（Sens）、特异性（Spec）和F1分数的平均值。他们相应的95%置信区间是经过10倍交叉验证后得到的。

上述所有HANN模型的超参数都在验证集上进行调整。突变嵌入和位置嵌入的初始维度为128。我们使用CNN编码器，滤波器大小为300，窗口大小为1、2和3。突变和基因编码器被实现为单层双向LSTM网络，其中突变编码器有150个隐藏单元，并且根据突变编码器的数目改变基因编码器中隐藏单元的数量，即900来自基于CNN的突变编码器，300来自Bi-LSTM变型编码器。对于两层 Transformer编码器，他们使用4头自注意力机制和128个隐藏单元。

本实施方式中的研究包括12378个分离物，如图4所示，是来自实验室DST结果的四种一线药物的耐药性和药敏性图。在过滤突变后，每个分离物的变异基因数量如图5所示；大多数分离物的变异基因在400到800之间，每个分离物平均有787个突变。

在上述实施例中设计的层次注意力神经网络中，提出了突变编码器和基因编码器的不同组合，其中实施例6中突变编码器为CNN，与实施例8中基因编码器为Bi-LSTM组合形成的层次注意力神经网络HANN-CB；实施例7中突变编码器为Bi-LSTM与实施例8中基因编码器为Bi-LSTM组合形成的层次注意力神经网络HANN-BB；实施例9中采用突变编码器为Transformer，基因编码器也为Transformer形成的层次注意力神经网络HANN-TT。

在本实施方式中，使用不同的突变数据集（即部分和整个基因组）和不同的突变嵌入初始化方式（即随机和预训练）来评估HANN性能。将模型在使用部分突变集是，被命名为HANN-i，从而与使用全基因组突变集的HANN相区别。

其中HANN-i的性能如下：对于RIF和INH，三个HANN-i衍生的模型（随机或预训练的突变嵌入）对同一药物取得了相似的性能。然而，对于EMB和PZA，HANN-Ti（无论是随机还是预训练的突变嵌入）产生了比其他两个模型更好的灵敏度。一般来说，HANN对这四种药物的总体预测性能略低于HANN-i的预测性能。然而，这并不令我们惊讶；当使用部分突变数据集时，每个样本的平均突变数量从787个减少到11个，这大大减少了特征的数量，这对预测任务是有利的。当样本包含的词太少时，预训练的突变嵌入不能很好地学习上下文语义信息，这可能是HANN-i对不同突变嵌入初始化不敏感的原因。尽管HANN-i的结果令人印象深刻，但其输入不是全基因组突变的事实限制了它对预选基因以外的遗传信息的探索。

HANN的性能：对于INH和RIF，突变嵌入的不同初始化方式和不同的模型对预测性能的影响不大。然而，预训练的突变嵌入使HANN-TT对EMB的灵敏度提高了2.9%，对PZA的灵敏度提高了4.3%。无论是哪种初始化方式，由HANN-TT生成的PZA的灵敏度都高于由HANN-CB和HANN-BB生成的灵敏度。当使用预训练的突变嵌入时，与HANN-CB和HANN-BB相比，HANN-TT对PZA的灵敏度分别提高了19.9%和15.6%。对于包括INH、RIF和EMB在内的药物，结果也显示这三个模型都有类似的性能，而对于PZA，HANN-TT获得了最好的性能，特别是在灵敏度这个指标上。据报道，PZA相关基因pncA的全长上，遗传突变变化很大且分散，这可能导致HANN-CB和HANN-BB不能很好地学习注意权重，而HANN-TT中的多头自我注意机制可以通过多次捕捉不同表示子空间的相对语义特征。

鉴于HANN在预训练突变嵌入方面的出色表现，我们用其结果来代表我们的方法，HANN与其他模型比较结果见下表1、表2、表3和表4所示。表1至表4中展显示了特异性（Sens）、敏感性（Spec）、F1分数和ROC曲线下面积（AUC）。正如预期的那样，相对于HANN，三个机器学习基线（SVM、LR和RF）在所有指标上的表现都要差很多。原因是突变嵌入在机器学习基线的训练过程中无法更新，而且它们也忽略了变异基因中突变之间的关系以及基因组中基因之间的相关性。因此，我们把重点放在HANN和TBProfiler的性能比较上。在INH和RIF的情况下，HANN（无论是HANN-CB、HANN-BB还是HANN-TT）显示出与TBProfiler类似的结果。HANN-TT的结果是对PZA的最佳灵敏度为87.05%，AUC为95.14%。此外，还绘制了不同模型对四种一线药物的ROC曲线（如图6至图9所示）和PR曲线（图10和图13），以观察HANN和TBProfiler在不同阈值水平下的表现。可以发现，在所有四种药物的auROC值方面，所有三个HANN衍生的模型都优于TBProfiler，至于四种药物的auPRC值，部分HANN衍生的模型仍然优于TBProfiler。

表1为针对INH的HANN模型与其他模型的比较结果。

表2为针对RIF的HANN模型与其他模型的比较结果。

表3为针对EMB的HANN模型与其他模型的比较结果。

表4为针对PZA的HANN模型与其他模型的比较结果。

在预训练突变嵌入的情况下，我们进一步提取了四个一线药物的候选耐药突变。图14、图15、图16和图17显示了INH、RIF、EMB和PZA的候选耐药突变。图14、图15、图16和图17中带*号的耐药突变是TBProfiler库中的耐药相关突变。如图15所示，结果是令人鼓舞的，因为所展示的大部分突变都是TBProfiler库中的耐药相关突变。INH、RIF和EMB的耐药性相关突变的频率分布是不平衡的。在INH的情况下，katG p.Ser315Thr的频率高达0.8。对于RIF，rpoB p.Ser450Leu的频率超过0.6。至于EMB，embB p.Met306Val和embB p.Met306Ile的总频率高于0.6。对于PZA，最主要的一个突变pncA c.-11A>G的频率低于0.07，大多数与pncA有关的突变出现的频率较低，并分散在整个基因中。这些结果与以前的现有研究一致。

实施例12

作为本发明又一较佳实施例，参照说明书附图2，本实施例公开了一种基于层次注意力神经网络的结核分枝杆菌耐药性预测装置，该装置包括：

实施例13

作为本发明又一较佳实施例，参照说明书附图2所示，结核分枝杆菌耐药性预测装置可以集成封装在网页中，集成为一个web应用。通过访问目标网站，选择并上传MTB的WGS数据，通过该web应用，最终输出预测结果显示在目标网站中。

所述数据输入模块包括测序数据1端输入子模块和测序数据2端输入子模块。将WGS数据的两端分别从测序数据1段输入子模块输入和测序数据2段输入子模块输入。

更进一步的，所述基因数据质控模块中封装有fastp、Trimmomatic或FastQC软件程序。所述比对模块中封装有BWA-MEM、 BWA-MEM2、SNAP、Minimap2或Bowtie2软件程序。所述排序模块中封装有Samtools或 sambamba软件程序。所述去除重复模块中封装有GATK、samtools、picard或Sambamba软件程序。所述基因变异点识别模块中封装有GATK 、varscan、bcftools或platypus软件程序。所述过滤模块中封装有VCFtools软件程序。所述注释模块中封装有ANNOVAR、Ensembl VEP或SnpEff软件程序。

在本实施例中，针对数据质控模块、比对模块、排序模块、去除重复模块、基因变异点识别模块、过滤模块和注释模块中封装的软件，均为现有软件，且并不仅仅限定于使用上述软件，现有及未来开发出的用于数据质控、比对、排序、去除重复、基因变异点识别、过滤和注释的相关软件，均可以进行封装和替换。

实施例14

作为本发明又一较佳实施例，为了实现上述目的，根据本申请的另一方面，还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述实施例1-10中结核分枝杆菌耐药性预测方法的步骤。

在本实施例中处理器可以为中央处理器(Central Processing Unit，CPU)。处理器还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及单元，如本发明上述方法实施例中对应的程序单元。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块，从而执行处理器的各种功能应用以及作品数据处理，即实现上述方法实施例中的方法。

存储器可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储处理器所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述一个或者多个单元存储在所述存储器中，当被所述处理器执行时，执行上述实施例1至实施例10中的方法。

实施例15

作为本发明又一较佳实施例，本实施例公开了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述实施例1至实施例10中的结核分枝杆菌耐药性预测方法。

Claims

1.基于层次注意力神经网络的结核分支杆菌耐药性预测方法，其特征在于，该方法包括以下步骤：

所述结核分枝杆菌的耐药性预测模型工具中封装有结核分枝杆菌对多种抗结核药物的耐药性预测模型，其中一个结核分枝杆菌耐药性预测模型对应一种抗结核药物；结核分枝杆菌的耐药性预测模型工具中的多种结核分枝杆菌耐药性预测模型根据输入的突变嵌入向量和突变位置嵌入向量进行预测计算，输出该结核分枝杆菌对多种抗结核药物的耐药性预测结果；所述结核分枝杆菌耐药性预测模型是基于层次注意力神经网络训练得到的；

所述层次注意力神经网络包括突变编码器和基因编码器，突变编码器通过编码每个突变的上下文信息来捕捉突变基因中的突变之间的关系，并通过突变级的注意力机制将突变的表示进一步聚合到突变基因的嵌入中；基因编码器捕捉菌株中基因的上下文信息，利用基因级的注意力机制将菌株中所有基因嵌入汇总到整个菌株表征中；

或者，所述层次注意力神经网络采用两个Transformer编码器；其中一个Transformer编码器作为突变编码器，另一个Transformer编码器作为基因编码器，每个Transformer编码器由两个子层组成，包括一个多头自注意机制和一个引入位置的全连接前馈网络。

2.如权利要求1所述的基于层次注意力神经网络的结核分枝杆菌耐药性预测方法，其特征在于：结核分支杆菌的耐药性预测模型工具中，封装有结核分枝杆菌对异烟肼、利福平、乙胺丁醇、吡嗪酰胺、链霉素、乙硫异烟胺、阿米卡星、卷曲霉素、环丙沙星、左氧氟沙星、贝达喹啉、对氨基水杨酸、卡那霉素、莫西沙星和/或氧氟沙星中一种或多种抗结核药物的耐药性预测模型。

3.如权利要求1所述的基于层次注意力神经网络的结核分枝杆菌耐药性预测方法，其特征在于：基于层次注意力神经网络训练结核分枝杆菌耐药性预测模型的训练过程包括：

E、将训练子集作为数据输入，输入到层次注意力神经网络中进行训练，得到菌株的嵌入表达；将获得的菌株的嵌入表达输入到前馈神经网络中，得到菌株是否耐药的概率；使用二分类交叉熵损失函数作为损失函数来训练模型，训练得到结核分枝杆菌的耐药性预测模型；

4.如权利要求1-3任意一项所述的基于层次注意力神经网络的结核分枝杆菌耐药性预测方法，其特征在于：所述突变级的注意力机制是指根据突变的权重将突变嵌入到突变基因的编码中。

5.如权利要求1所述的基于层次注意力神经网络的结核分枝杆菌耐药性预测方法，其特征在于：突变编码器采用CNN编码方式编码每个突变的上下文信息；具体的，

给定一个突变

，其对应的初始化嵌入向量

，是由突变嵌入

和突变位置嵌入

构成，其中d是嵌入向量的维度；

对于一个基因

，其是由N个突变构成，即

，

表示基因

中第i个突变；对于一个菌株

来说，其是由L个基因构成，即

，

表示菌株

中第i个基因；

CNN用于获取基因的嵌入表达：令k表示一个宽度为

的卷积核，

表示

中突变

，

，…，and

的串联，那么

通过式子

计算，其中b是偏置项和，

是CNN中使用的滤波器尺寸大小；在CNN编码时，使用了SAME进行填充操作；对于一个卷积核k和一个基因

，能够得到N个不同特征的序列

；对于序列

，在其基础上加入注意力获得当前卷积核k下的基因

的嵌入表达

，注意力公式如下所示：

；

；

；

其中

是权重矩阵和

是偏置项，

是查询向量，

是基因

中第i个突变所占权重；因此，假设有K个不同的卷积核，那么基因

的嵌入表达

。

6.如权利要求1所述的基于层次注意力神经网络的结核分枝杆菌耐药性预测方法，其特征在于：突变编码器采用Bi-LSTM编码方式编码每个突变的上下文信息；具体的，

给定一个突变

，其对应的初始化嵌入向量

，是由突变嵌入

和突变位置嵌入

构成，其中d是嵌入向量的维度；对于一个基因

来说，其是由N个突变构成，即

，

表示基因

中第i个突变；对于一个菌株

来说，其是由L个基因构成，即

，

表示菌株

中第i个基因；

Bi-LSTM用于获取基因的嵌入表达：对于每个突变

，Bi-LSTM通过拼接

的前向隐藏层输出

和后向隐藏层输出

获得其对应的上下文编码

：

其中[;]表示向量拼接；因此，获得N个突变的上下文编码

；

Bi-LSTM上通过注意力机制获得基因

的嵌入表达；对于基因

，通过以下注意力公式获得基因

的嵌入表达z；

；

；

；

其中

是权重矩阵和

是偏置项，

是查询向量，

是基因

中第i个突变所占权重；通过上述步骤，可以获得菌株

中L个基因对应的嵌入表达

。

7.如权利要求5或6所述的基于层次注意力神经网络的结核分枝杆菌耐药性预测方法，其特征在于：

对于每个基因，在其上加入对应的位置向量

，即：

，作为基因编码器的输入。

8.如权利要求1-3或5或6任意一项所述的基于层次注意力神经网络的结核分枝杆菌耐药性预测方法，其特征在于：所述基因编码器采用Bi-LSTM来捕捉菌株中基因的上下文信息，然后利用基因级的注意力机制将菌株中所有基因的嵌入汇总到整体表征中；

获得菌株

中L个基因对应的嵌入表达

；对于每个基因，在其上加入对应的位置向量

，即：

，作为基因编码器的输入；

的

的上下文编码

：

；

；

；

其中

是权重矩阵和

是偏置项。

9.如权利要求1所述的基于层次注意力神经网络的结核分枝杆菌耐药性预测方法，其特征在于：

将突变的初始嵌入

作为输入，将其输入第一层以获得每个基因

的嵌入表达z；之后，基因嵌入z和它们的位置嵌入被馈送到第二层以形成菌株

的嵌入表达h。

10.如权利要求3或9所述的基于层次注意力神经网络的结核分枝杆菌耐药性预测方法，其特征在于：

将获得的菌株

的嵌入表达h输入一个前馈神经网络中去预测菌株是否具有耐药性，通过以下公式计算：

sigmoid()是激活函数，FFNN表示前馈神经网络；

,其中

表示

中第i个菌株；模型损失函数通过如下所示：

；

其中

是标签集，1表示耐药，0表示敏感；

表示训练集

的长度。

11.如权利要求1所述的基于层次注意力神经网络的结核分枝杆菌耐药性预测方法，其特征在于：所述基因数据质控工具包括fastp工具、Trimmomatic工具或FastQC工具。

12.如权利要求1所述的基于层次注意力神经网络的结核分枝杆菌耐药性预测方法，其特征在于：所述比对工具包括BWA-MEM工具、BWA-MEM2工具、SNAP工具、Minimap2工具或Bowtie2工具。

13. 如权利要求1所述的结核分枝杆菌耐药性预测方法，其特征在于：所述排序工具包括Samtools工具或 sambamba工具。

14.如权利要求1所述的结核分枝杆菌耐药性预测方法，其特征在于：所述去除重复工具包括GATK工具、Sambamba工具、samtools工具或picard工具。

15.如权利要求1所述的结核分枝杆菌耐药性预测方法，其特征在于：所述基因突变点识别工具包括GATK工具、varscan工具、bcftools工具或platypus工具。

16.如权利要求1所述的结核分枝杆菌耐药性预测方法，其特征在于：所述过滤工具包括VCFtools工具。

17.如权利要求1所述的结核分枝杆菌耐药性预测方法，其特征在于：所述注释工具包括ANNOVAR工具、SnpEff工具或Ensembl VEP工具。

18.基于层次注意力神经网络的结核分枝杆菌耐药性预测装置，其特征在于：包括

耐药性预测模块，封装有结核分枝杆菌对多种抗结核药物的耐药性预测模型，其中一个结核分枝杆菌耐药性预测模型对应一种抗结核药物；多种结核分枝杆菌耐药性预测模型根据输入的突变嵌入向量和突变位置嵌入向量进行预测计算，输出该结核分枝杆菌对多种抗结核药物的耐药性预测结果；所述结核分枝杆菌耐药性预测模型是基于层次注意力神经网络训练得到的；

19.如权利要求18所述的基于层次注意力神经网络的结核分枝杆菌耐药性预测装置，其特征在于：所述耐药性预测模块中封装有结核分枝杆菌对异烟肼、利福平、乙胺丁醇、吡嗪酰胺、链霉素、乙硫异烟胺、阿米卡星、卷曲霉素、环丙沙星、左氧氟沙星、贝达喹啉、对氨基水杨酸、卡那霉素、莫西沙星和/或氧氟沙星中一种或多种抗结核药物的耐药性预测模型。

20.如权利要求18或19所述的基于层次注意力神经网络的结核分枝杆菌耐药性预测装置，其特征在于：所述数据输入模块包括测序数据1端输入子模块和测序数据2端输入子模块。

21.一种计算机设备，其特征在于：包括处理器、输入设备、输出设备和存储器，处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1-17任意一项所述的方法。

22.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-17任意一项所述的方法。