CN114582429B - 基于层次注意力神经网络的结核分枝杆菌耐药性预测方法及装置 - Google Patents

基于层次注意力神经网络的结核分枝杆菌耐药性预测方法及装置 Download PDF

Info

Publication number
CN114582429B
CN114582429B CN202210206029.XA CN202210206029A CN114582429B CN 114582429 B CN114582429 B CN 114582429B CN 202210206029 A CN202210206029 A CN 202210206029A CN 114582429 B CN114582429 B CN 114582429B
Authority
CN
China
Prior art keywords
mutation
drug resistance
gene
mycobacterium tuberculosis
strain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210206029.XA
Other languages
English (en)
Other versions
CN114582429A (zh
Inventor
孙群
蒋中华
于中华
陈黎
卢永美
刘卓翀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Shengmeisida Biotechnology Co ltd
Sichuan University
Original Assignee
Sichuan Shengmeisida Biotechnology Co ltd
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Shengmeisida Biotechnology Co ltd, Sichuan University filed Critical Sichuan Shengmeisida Biotechnology Co ltd
Priority to CN202210206029.XA priority Critical patent/CN114582429B/zh
Publication of CN114582429A publication Critical patent/CN114582429A/zh
Application granted granted Critical
Publication of CN114582429B publication Critical patent/CN114582429B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioethics (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Biotechnology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种基于层次注意力神经网络的结核分枝杆菌耐药性预测方法及装置,涉及生物信息学、深度学习与计算机应用技术领域。本发明利用自然语言处理(NLP)技术解决耐药性预测的问题,将菌株基因上的突变视为词、相应基因中所有突变视为句子、将一个菌株(或样本)视为由这种句子组成的文档。通过使用全基因组突变及其位置信息作为输入,从而预测耐药性以及识别耐药性相关基因和突变。本发明对结核分枝杆菌耐药性预测方法克服了以往大多数研究无法有效处理全基因组数据进行耐药性预测的缺陷,显示了发现新型耐药性相关基因和突变的可能性。本发明方法可以作为一种通用方法,以高效率和高精确度探索基于全基因组突变的其他细菌耐药预测的问题。

Description

基于层次注意力神经网络的结核分枝杆菌耐药性预测方法及 装置
技术领域
本发明涉及生物信息学、深度学习与计算机应用技术领域,更具体地说涉及一种基于层次注意力神经网络的结核分枝杆菌耐药性预测方法及装置。
背景技术
致病微生物的耐药性对全球公共卫生构成了严重的挑战,而结核病(TB)是当今世界最致命的传染病杀手和主要死亡原因之一。
耐药性结核病是一个严重公共卫生威胁。对耐药结核病的快速诊断和正确治疗对预防和控制结核并具有积极意义。另一方面,由于对一些抗结核药物的耐药机制研究较少,发现潜在的耐药基因和突变将有助于了解抗生素的耐药机制,促进药物的改进和发展。
由于结核分枝杆菌的耐药突变基因仅在染色体上存在,其耐药基因不会从一个细胞跑到另一个细胞中,基因结核分枝杆菌耐药突变基因的上述特性,可以通过对结核分枝杆菌的耐药性基因进行分析,从而确定该结核分枝杆菌对某种抗结核药物的耐药性预测。
抑制结核分枝杆菌的抗结核药物有很多种,且该抑制结核分枝杆菌的抗结核药物多多少少会对病患身体造成一定的损伤,医生在对肺结核患者进行用药之前,并不清楚该患者对哪种抗结核药物具有耐药性,而对于结核分枝杆菌的耐药性结核分枝杆菌(MTB)的表型药敏试验(DST)往往需要几周时间,若等待药敏试验结果再进行用药,则会大大耽误病患的病情。现有医院针对肺结核病患的用药方式尽量采用耐药性少的抗结核药物,若该抗结核药物无法起到抑制效果,再更换其他抗结核药物,这种方式给病患身体带来较大的负担。
国家知识产权局于2021年8月31日,公开了一件公开号为CN113330123A,名称为“结核病耐药性预测方法”的发明专利公开文本,公开了一种预测分枝杆菌耐药性的方法,包括从样品中分离分枝杆菌核酸,从该核酸获得样品序列,将该样品序列与参考序列进行比对和比较,并对每个参考位置确定该样品序列值是否与表中分配至该位置的特定序列值相同。如果两个值相同,则将位置权重值分配给该位置。通过将所有位置权重值相加获得预测值,并将预测值与阈值进行比较。如果预测值小于阈值,则预测为耐药。
上述现有技术中的结核病耐药性预测方法的预测原理是:判定样品的序列中是否含有已知耐药基因位点进行耐药预测,对于耐药位点不明确的药物,预测效果不佳。这种方法也被称为直接关联法,其无法对耐药机制不明的药物做出耐药预测。且现有技术中,大多数研究只使用预选基因的突变基因作为预测输入,使用独热编码对突变进行编码,且之用“1”和“0”来表示突变的存在或不存在,数据过于稀疏,徒增计算量,同时也忽略了突变和相应基因之间的关系。
发明内容
为了克服上述现有技术中存在的缺陷和不足,本发明提供了一种基于层次注意力神经网络的结核分枝杆菌耐药性预测方法及装置。本发明的发明目的在于提供一种结核分枝杆菌耐药性预测的改进方法,以解决现有技术中结核分枝杆菌耐药性预测方法预测精度低、处理全基因组数据效率低,且无法发现新的耐药基因的问题。本发明首创将突变信息与突变相对于基因的位置信息、以及突变基因相对于菌株全基因组的位置信息相结合作为预测输入,利用NLP技术解决耐药性预测的问题,将菌株基因上的突变视为词、相应基因中所有突变视为句子、将一个菌株(或样本)视为由这种句子组成的文档。以层次注意力神经网络作为基础,将全基因组突变及其位置信息作为输入来预测耐药性和识别耐药性相关基因和突变,解决了以往研究无法有效处理全基因组数据的缺陷,显示了发现新型耐药性相关基因和突变的可能性,且本发明预测效率高,预测结果准确度高。
为了解决上述现有技术中存在的问题,本发明是通过下述技术方案实现的。
本发明第一方面提供了一种基于层次注意力神经网络的结核分枝杆菌耐药性预测方法,该方法包括以下步骤:
S1、从离体的样本中分离出结核分枝杆菌临床分离株,对分离株进行培养,提取菌株核酸;
S2、对菌株核酸进行全基因组测序,获得菌株的全基因组测序数据;
S3、全基因组测序数据被传输到基因数据质控工具中进行数据质控处理,处理完成后形成质控合格的全基因组测序数据;
S4、质控合格的全基因组测序数据被传输到比对工具中,将质控合格的全基因组测序数据比对到参考基因组上,每个样本生成一个比对结果数据文件;
S5、比对结果数据文件被传输到排序工具中,根据比对坐标,对比对结果数据进行排序;
S6、排序后的比对结果数据被传输到去除重复工具中,进行去PCR重复处理,处理完成后得到去除PCR重复的数据;
S7、去除PCR重复的数据被传输到基因突变点识别工具中,对去除PCR重复的数据进行突变点位识别及硬过滤,生成突变点位识别结果数据;
S8、突变点位识别结果数据被传输到过滤工具中,以去除高变异的PE/PPE基因家族、重复区域和移动原件中的突变;得到过滤后的突变点位识别结果数据;
S9、过滤后的突变点位识别结果数据被传输到注释工具中,对过滤后的突变点位识别结果数据中的突变点位进行突变类型注释,剔除同义突变的突变,得到注释的突变点位识别结果数据;
S10、从S9步骤中得到的注释的突变点位识别结果数据中构建用于根据突变位置关系进行耐药性预测的突变位置嵌入向量和突变嵌入向量;
所述的突变位置嵌入向量包括突变点位相对于其所在基因的位置信息和该突变的基因在全基因组的位置信息;
所述突变嵌入向量包括发生突变点位的核苷酸替代信息,当变异类型是插入或缺失时,所述突变嵌入向量还包括插入类型标识和插入的序列,以及缺失类型标识和缺失的序列;
所述用于根据突变位置关系进行耐药性预测的突变位置嵌入向量和突变嵌入向量的构建过程是:
根据参考基因组的注释文件中基因的出现顺序,为各基因进行编号,从注释文件中提取各基因的起始位置;从步骤S9得到的突变点位识别结果数据中把每个突变转换为词并定位到相应的基因上,具体为:将每个突变的参考碱基和替代碱基提取出来组合为突变词,若突变类型为插入时,突变词由插入类型标识和插入的序列表示;若突变类型为缺失时,突变词由缺失类型标识和缺失的序列表示;将该突变在全基因组的位置信息减去其所在基因的起始位置,获得该突变在相应基因的相对位置和该基因相对于全基因组的位置信息;
S11、以S10步骤得到的突变嵌入向量和突变位置嵌入向量作为输入,分别传输到结核分枝杆菌的耐药性预测模型工具中,结核分枝杆菌的耐药性预测模型工具根据输入的突变嵌入向量和突变位置嵌入向量进行预测计算,输出预测结果;
所述结核分枝杆菌的耐药性预测模型工具中封装有结核分枝杆菌对多种抗结核药物的耐药性预测模型,其中一个结核分枝杆菌耐药性预测模型对应一种抗结核药物;结核分枝杆菌的耐药性预测模型工具中的多种结核分枝杆菌耐药性预测模型根据输入的突变嵌入向量和突变位置嵌入向量进行预测计算,输出该结核分枝杆菌对多种抗结核药物的耐药性预测结果;所述结核分枝杆菌耐药性预测模型是基于层次注意力神经网络训练得到的。
进一步的,结核分支杆菌的耐药性预测模型工具中,封装有结核分枝杆菌对异烟肼、利福平、乙胺丁醇、吡嗪酰胺、链霉素、乙硫异烟胺、阿米卡星、卷曲霉素、环丙沙星、左氧氟沙星、贝达喹啉、对氨基水杨酸、卡那霉素、莫西沙星和/或氧氟沙星中一种或多种抗结核药物的耐药性预测模型。
进一步的,基于层次注意力神经网络训练结核分枝杆菌耐药性预测模型的训练过程包括:
A、获取已知对某种抗结核药物的药敏测试结果的结核分枝杆菌菌株的全基因组测序数据,作为结核分枝杆菌菌株对该种抗结核药物的耐药性预测模型训练的样本原始数据;
B、对样本原始数据中每一株结核分枝杆菌菌株的全基因测序数据,分别进行上述S3步骤至S9步骤的处理,得到每一株结核分枝杆菌全基因组测序数据中注释的突变点位识别结果数据;
C、从B步骤得到的注释的突变点位识别结果数据中,构建每一株结核分枝杆菌的突变位置嵌入向量和突变嵌入向量;将每一株结核分枝杆菌的突变位置嵌入向量、突变嵌入向量和药敏测试结果进行对应,并将样本原始数据中所有结核分枝杆菌的突变位置嵌入向量、突变嵌入向量和药敏测试结果汇总在一起,形成训练样本集;
D、从得到的训练样本集中随机选出一部分作为训练子集,一部分作为验证子集,一部分作为测试子集;训练子集、验证子集和测试子集三者之间的比例为8:1:1;
E、将训练子集作为数据输入,输入到层次注意力神经网络中进行训练,得到菌株的嵌入表达
Figure DEST_PATH_IMAGE001
;将获得的菌株的嵌入表达
Figure 261120DEST_PATH_IMAGE001
输入到前馈神经网络中,得到菌株是否耐药的概率
Figure DEST_PATH_IMAGE002
;使用二分类交叉熵损失函数作为损失函数来训练模型,训练得到结核分枝杆菌的耐药性预测模型;
F、将验证子集作为输入,输入到E步骤中得到的结核分枝杆菌的耐药性预测模型中,对耐药性预测模型的模型参数进行调整;
G、将测试子集作为输入,对F步骤调整模型参数后的耐药性预测模型进行测试。
更进一步的,所述层次注意力神经网络包括突变编码器和基因编码器,突变编码器通过编码每个突变的上下文信息来捕捉突变基因中的突变之间的关系,并通过突变级的注意力机制将突变的表示进一步聚合到突变基因的嵌入中;基因编码器捕捉菌株中基因的上下文信息,利用基因级的注意力机制将菌株中所有基因嵌入汇总到整个菌株表征中。
所述突变级的注意力机制是指根据突变的权重将突变嵌入到突变基因的编码中。
突变编码器采用CNN编码方式编码每个突变的上下文信息;具体的,
给定一个突变
Figure DEST_PATH_IMAGE003
,其对应的初始化嵌入向量
Figure DEST_PATH_IMAGE004
,是由突变嵌入
Figure DEST_PATH_IMAGE005
和突变位置嵌入
Figure DEST_PATH_IMAGE006
构成,其中d是嵌入向量的维度;
对于一个基因
Figure DEST_PATH_IMAGE007
,其是由N个突变构成,即
Figure DEST_PATH_IMAGE008
Figure DEST_PATH_IMAGE009
表示基因
Figure 253959DEST_PATH_IMAGE007
中第
Figure DEST_PATH_IMAGE010
个突变;对于一个菌株
Figure DEST_PATH_IMAGE011
来说,其是由L个基因构成,即
Figure DEST_PATH_IMAGE012
Figure DEST_PATH_IMAGE013
表示菌株
Figure DEST_PATH_IMAGE014
中第
Figure 722112DEST_PATH_IMAGE010
个基因;
CNN用于获取基因的嵌入表达:令
Figure DEST_PATH_IMAGE015
表示一个宽度为
Figure DEST_PATH_IMAGE016
的卷积核,
Figure DEST_PATH_IMAGE017
表示
Figure 382900DEST_PATH_IMAGE007
中突变
Figure DEST_PATH_IMAGE018
的串联,那么
Figure DEST_PATH_IMAGE019
通过式子
Figure DEST_PATH_IMAGE020
计算,其中
Figure DEST_PATH_IMAGE021
是偏置项和,
Figure DEST_PATH_IMAGE022
是CNN中使用的滤波器尺寸大小;在CNN编码时,使用了SAME进行填充操作;对于一个卷积核
Figure 741813DEST_PATH_IMAGE015
和一个基因
Figure 33117DEST_PATH_IMAGE007
,能够得到N个不同特征的序列
Figure DEST_PATH_IMAGE023
;对于序列
Figure DEST_PATH_IMAGE024
,在其基础上加入注意力获得当前卷积核
Figure 706675DEST_PATH_IMAGE015
下的基因
Figure 374417DEST_PATH_IMAGE007
的嵌入表达
Figure DEST_PATH_IMAGE025
,注意力公式如下所示:
Figure DEST_PATH_IMAGE026
Figure DEST_PATH_IMAGE027
Figure DEST_PATH_IMAGE028
其中
Figure DEST_PATH_IMAGE029
是权重矩阵和
Figure DEST_PATH_IMAGE030
是偏置项,
Figure DEST_PATH_IMAGE031
是查询向量,
Figure DEST_PATH_IMAGE032
是基因
Figure 604148DEST_PATH_IMAGE007
中第
Figure 190987DEST_PATH_IMAGE010
个突变所占权重;因此,假设有K个不同的卷积核,那么基因
Figure 414158DEST_PATH_IMAGE007
的嵌入表达
Figure DEST_PATH_IMAGE033
突变编码器采用Bi-LSTM编码方式编码每个突变的上下文信息;具体的,
给定一个突变
Figure 964219DEST_PATH_IMAGE003
,其对应的初始化嵌入向量
Figure 81079DEST_PATH_IMAGE004
,是由突变嵌入
Figure 979765DEST_PATH_IMAGE005
和突变位置嵌入
Figure 300019DEST_PATH_IMAGE006
构成,其中d是嵌入向量的维度;对于一个基因
Figure 43984DEST_PATH_IMAGE007
,其是由N个突变构成,即
Figure 280931DEST_PATH_IMAGE008
Figure 84939DEST_PATH_IMAGE009
表示基因
Figure 889559DEST_PATH_IMAGE007
中第
Figure 561849DEST_PATH_IMAGE010
个突变;对于一个菌株
Figure 528668DEST_PATH_IMAGE011
,其是由L个基因构成,即
Figure 34736DEST_PATH_IMAGE012
Figure 329582DEST_PATH_IMAGE013
表示菌株
Figure 680929DEST_PATH_IMAGE014
中第
Figure 626888DEST_PATH_IMAGE010
个基因;
Bi-LSTM用于获取基因的嵌入表达:对于每个突变
Figure 648065DEST_PATH_IMAGE009
,Bi-LSTM通过拼接
Figure 820420DEST_PATH_IMAGE009
的前向隐藏层输出
Figure DEST_PATH_IMAGE034
和后向隐藏层输出
Figure DEST_PATH_IMAGE035
获得其对应的上下文编码
Figure DEST_PATH_IMAGE036
Figure DEST_PATH_IMAGE037
其中
Figure DEST_PATH_IMAGE038
表示向量拼接;因此,获得N个突变的上下文编码
Figure DEST_PATH_IMAGE039
Bi-LSTM上通过注意力机制获得基因
Figure 647562DEST_PATH_IMAGE007
的嵌入表达;对于基因
Figure 461410DEST_PATH_IMAGE007
,通过以下注意力公式获得基因
Figure 43701DEST_PATH_IMAGE007
的嵌入表达
Figure DEST_PATH_IMAGE040
Figure DEST_PATH_IMAGE041
Figure DEST_PATH_IMAGE042
Figure DEST_PATH_IMAGE043
通过上述步骤,可以获得菌株
Figure DEST_PATH_IMAGE044
中L个基因对应的嵌入表达
Figure DEST_PATH_IMAGE045
对于每个基因,在其上加入对应的位置向量
Figure DEST_PATH_IMAGE046
,即:
Figure DEST_PATH_IMAGE047
,作为基因编码器的输入。
所述基因编码器采用Bi-LSTM来捕捉菌株中基因的上下文信息,然后利用基因级的注意力机制将菌株中所有基因的嵌入汇总到整体表征中;
获得菌株
Figure 578718DEST_PATH_IMAGE044
中L个基因对应的嵌入表达
Figure 271868DEST_PATH_IMAGE045
;对于每个基因,在其上加入对应的位置向量
Figure 677572DEST_PATH_IMAGE046
,即
Figure 430765DEST_PATH_IMAGE047
,作为基因编码器的输入;
基因编码器通过Bi-LSTM融合基因之间的上下文信息以丰富基因的嵌入编码;通过下式获得菌株
Figure 577712DEST_PATH_IMAGE044
Figure DEST_PATH_IMAGE048
的上下文编码
Figure DEST_PATH_IMAGE049
Figure DEST_PATH_IMAGE050
同样地,在获得L个基因的上下文编码之后,引入注意力机制对这些上下文编码进一步聚集,如下所示:
Figure DEST_PATH_IMAGE051
Figure DEST_PATH_IMAGE052
Figure DEST_PATH_IMAGE053
其中
Figure DEST_PATH_IMAGE054
是权重矩阵和
Figure DEST_PATH_IMAGE055
是偏置项。
所述层次注意力神经网络采用两层Transformer编码器;其中每一层由两个子层组成,包括一个多头自注意机制和一个引入位置的全连接前馈网络。
将突变的初始嵌入
Figure DEST_PATH_IMAGE056
作为输入,将其输入第一层以获得每个基因
Figure 517348DEST_PATH_IMAGE007
的嵌入表达
Figure 43138DEST_PATH_IMAGE040
;之后,基因嵌入
Figure 436073DEST_PATH_IMAGE040
和它们的位置嵌入被馈送到第二层以形成菌株
Figure 194951DEST_PATH_IMAGE011
的嵌入表达
Figure 964324DEST_PATH_IMAGE001
将获得的菌株
Figure 875779DEST_PATH_IMAGE011
的嵌入表达
Figure 439615DEST_PATH_IMAGE001
输入一个前馈神经网络中去预测菌株是否具有耐药性,通过以下公式计算:
Figure DEST_PATH_IMAGE057
sigmoid是激活函数,FFNN表示前馈神经网络;
使用二分类交叉熵损失函数作为损失函数来训练模型;假设一个训练集
Figure DEST_PATH_IMAGE058
,其中
Figure DEST_PATH_IMAGE059
表示
Figure DEST_PATH_IMAGE060
中第
Figure 558225DEST_PATH_IMAGE010
个菌株;模型损失函数通过如下所示:
Figure DEST_PATH_IMAGE061
其中
Figure DEST_PATH_IMAGE062
是标签集,1表示耐药,0表示敏感;
Figure DEST_PATH_IMAGE063
表示训练集
Figure 537814DEST_PATH_IMAGE060
的长度。
所述基因数据质控工具包括fastp工具、Trimmomatic工具或FastQC工具。
所述比对工具包括BWA-MEM工具、BWA-MEM2工具、SNAP工具、Minimap2工具或Bowtie2工具。
所述排序工具包括Samtools工具或 sambamba工具。
所述去除重复工具包括GATK工具、Sambamba工具、samtools工具或picard工具。
所述基因突变点识别工具包括GATK工具、varscan工具、bcftools工具或platypus工具。
所述过滤工具包括VCFtools工具。
所述注释工具包括ANNOVAR工具、SnpEff工具或Ensembl VEP工具。
本发明第二方面提供了一种基于层次注意力神经网络的结核分枝杆菌耐药性预测装置,包括:
数据输入模块,用于接收从离体的样本中分离出的结核分枝杆菌的临床菌株的全基因组测序数据,并将菌株的全基因组测序数据传输至基因数据质控模块中;
基因数据质控模块,用于接收数据输入模块传输的菌株的全基因组测序数据,并对菌株的全基因组测序数据进行数据质控处理,输出质控合格的全基因组测序数据并传输至比对模块中;
比对模块,用于接收基因数据质控模块输出的质控合格的全基因组测序数据,并将质控合格的全基因组测序数据比对到参考基因组上,生成比对结果数据文件,并传输至排序模块;
排序模块,用于接收比对模块生成的比对结果数据文件,对其进行排序,将排序后的比对结果数据文件传输至去除重复工具中;
去除重复模块,用于对排序后的比对结果数据进行去PCR重复,并将去除PCR重复后的数据传输至基因变异点识别模块中;
基因变异点识别模块,用对去除PCR重复的数据进行突变点位识别及硬过滤,并将突变点位识别结果传输至过滤模块中;
过滤模块,用于从变异点识别结果中去除高变异的PE/PPE基因家族、重复区域和移动原件中的突变;并将过滤后的突变点位识别结果数据传输至注释工具中;
注释模块,用于对过滤后的突变点位识别结果数据中的突变点位进行突变类型注释,剔除同义突变的突变,并将注释的突变点位识别结果数据传输至突变信息提取模块;
突变信息提取模块,用于从注释的突变点位识别结果数据中构建用于根据突变位置关系进行耐药性预测的突变位置嵌入向量和突变嵌入向量;并将突变位置嵌入向量和突变嵌入向量传输至耐药性预测模块中;
所述的突变位置嵌入向量包括突变点位相对于其所在基因的位置信息和该突变的基因在全基因组的位置信息;
所述突变嵌入向量包括发生突变点位的参考碱基和替代碱基,当变异类型是插入或缺失时,所述突变嵌入向量还包括插入类型标识和插入的碱基,以及缺失类型标识和缺失的碱基;
耐药性预测模块,封装有结核分枝杆菌对多种抗结核药物的耐药性预测模型,其中一个结核分枝杆菌耐药性预测模型对应一种抗结核药物;多种结核分枝杆菌耐药性预测模型根据输入的突变嵌入向量和突变位置嵌入向量进行预测计算,输出该结核分枝杆菌对多种抗结核药物的耐药性预测结果;所述结核分枝杆菌耐药性预测模型是基于层次注意力神经网络训练得到的。
进一步的,所述耐药性预测模块中封装有结核分枝杆菌对异烟肼、利福平、乙胺丁醇、吡嗪酰胺、链霉素、乙硫异烟胺、阿米卡星、卷曲霉素、环丙沙星、左氧氟沙星、贝达喹啉、对氨基水杨酸、卡那霉素、莫西沙星和/或氧氟沙星中一种或多种抗结核药物的耐药性预测模型。
进一步的,所述数据输入模块包括测序数据1端输入子模块和测序数据2端输入子模块。
所述基因数据质控模块中封装有fastp软件程序。所述比对模块中封装有BWA-MEM软件程序。所述排序模块中封装有Samtools软件程序。所述去除重复模块中封装有GATK或Sambamba软件程序。,所述基因变异点识别模块中封装有GATK软件程序。所述过滤模块中封装有VCFtools软件程序。所述注释模块中封装有ANNOVAR或SnpEff软件程序。
所述突变信息提取模块为利用Python进行编程的脚本。
本发明第三方面提供了一种计算机设备,包括处理器、输入设备、输出设备和存储器,处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行本申请结核分枝杆菌耐药性预测方法中的步骤。
本发明第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行本申请结核分枝杆菌耐药性预测方法中的步骤。
本发明的基于层次注意力神经网络的结核分枝杆菌耐药性预测方法及装置,其主要发明点在于:
(1)采用菌株的全基因组测序数据中的全部突变数据进行过滤后,进行结核分枝杆菌耐药性预测;
(2)引入突变(突变)相对于其所在基因的位置关系,以及该突变基因相对于其所在全基因组中的位置关系,作为结核分枝杆菌对某种抗结核药物的耐药性预测的参考要素;
(3)将样本的基因组信息作为文档数据,其中,将每一个突变作为单词,将突变基因作为句子,将耐药性预测作为文档分类问题进行处理,采用层次注意力神经网络作为基础,对结核分枝杆菌耐药性模型进行训练。
与现有技术相比,本发明所带来的有益的技术效果表现在:
1、本发明采用菌株的全基因组测序数据中的全部突变数据进行过滤后,进行结核分枝杆菌耐药性预测,且引入突变(突变)相对于其所在基因的位置关系,以及该突变基因相对于其所在全基因组中的位置关系,作为结核分枝杆菌对某种抗结核药物的耐药性预测的参考要素;可以有效解决现有技术中只使用预选基因的突变基因作为预测输入而带来的数据量大的问题。本发明虽然采用菌株的全基因组测序数据的全部突变数据进行过滤后作为耐药性预测输入,但其并未增加数据计算量,而是由于引入突变(突变)相对于其所在基因的位置关系,以及该突变基因相对于其所在全基因组中的位置关系,作为结核分枝杆菌对某种抗结核药物的耐药性预测的参考要素;使得数据计算量减少,将基因耐药性预测问题作为文档分类问题进行处理。
2、本发明的结核分枝杆菌耐药性预测方法,采用菌株的全基因组测序数据进行耐药性预测,通过变异点识别和注释,构建用于根据突变位置关系进行耐药性预测的突变位置嵌入向量和突变嵌入向量,然后通过结核分枝杆菌的耐药性预测模型工具的计算,得到耐药性预测结果。本发明采用全基因组测序数据,根据突变基因在菌株的上下文信息,以及突变在基因上下文信息,得到该突变基因的位置信息,将位置信息与耐药性进行关联,在进行耐药性预测计算式,将突变在基因中的位置信息,以及突变基因在菌株的位置信息作为考量因素,可以确保经结核分枝杆菌的耐药性预测模型工具计算得到的耐药性预测结果更加准确,参考性更强,给医生对病患的用药医嘱提供较好的指导意见。
3、本发明中虽然采用全基因组测序数据,但是相比于现有技术而言,其预测效率更高,具体表现在:本申请是从全基因组测序数据中提取突变点位信息以及,突变在基因中的位置关系和突变基因在菌株的位置关系,相较于现有技术中用“0”和“1”表示突变是否存在的处理方式而言,数据处理量小,运算效率高。通过本发明的预测方法,在获取到菌株的全基因组测序数据之后,经过本发明的预测方法,十分钟左右即可得到该结核分枝杆菌对多种抗结核药物的耐药性预测结果,大大提高了耐药性预测的效率,节约时间,给病患赢得十分重要的治疗时间,大大有利于对病患的病情的指导治疗。
4、本发明中基于层次注意力神经网络训练得到的耐药性预测模型包含了突变和相应基因的相对位置信息以及它们之间的相互作用,它有助于发现耐药性相关的基因和突变,并获得更多可解释的生物学结果。它不仅能捕捉到一个突变基因中的突变之间的相互作用,还能捕捉到一个分离物中的突变基因之间的相互作用。对于异烟肼(INH)、利福平(RIF)、乙胺丁醇(EMB)和吡嗪酰胺(PZA)这四种一线药物,HANN取得了最佳ROC曲线下面积(AUC)分别为97.90%、99.05%、96.44%和95.14%,最佳灵敏度为94.63%、96.31%、92.56%、87.05%。该模型识别的耐药性相关基因和突变与以往研究证实的一致,更重要的是,它还发现了一个潜在的耐药性相关基因。
5、通过将耐药性预测作为一个文件分类问题来处理,本发明还提出了一种新颖的编码基因数据的方法,其中包含了突变和相应基因的相对位置信息以及它们之间的相互作用。我们的研究结果表明,该方法克服了以往大多数研究无法有效处理全基因组数据进行耐药性预测的缺陷,即使在训练数据高度不平衡的情况下,该方法在四种一线药物的敏感性、特异性和AUC方面都取得了令人满意的预测性能。
6、本发明中,利用自定义的Python脚本,联合标准菌株H37Rv的基因组注释gff文件,将每个突变转换为词并定位到相应的基因上。这样的构建方式,可以快速的提取出突变点位相对于其所在基因的位置信息和该突变的基因在全基因组的位置信息。
7、本发明中,得益于层次注意力机制的引入,只要有充足的药敏表型数据和基因组数据,对于那些研究较少的药物,不但可以对耐药性进行预测,还能挖掘候选耐药基因及耐药位点。
附图说明
图1为本发明结核分枝杆菌耐药性预测方法的流程图;
图2为本发明结核分枝杆菌耐药性预测装置的结构示意图;
图3为本发明结核分枝杆菌耐药性预测模型的神经网络架构图;
图4为来自实验室DST结果的四种一线药物的耐药性和药敏性图;
图5为分离物的基因数量统计图;
图6为本发明层次注意力神经网络与TBProfiler对异烟肼的ROC曲线;
图7为本发明层次注意力神经网络与TBProfiler对利福平的ROC曲线;
图8为本发明层次注意力神经网络与TBProfiler对乙胺丁醇的ROC曲线;
图9为本发明层次注意力神经网络与TBProfiler对吡嗪酰胺的ROC曲线;
图10为本发明层次注意力神经网络与TBProfiler对异烟肼的PR曲线;
图11为本发明层次注意力神经网络与TBProfiler对利福平的PR曲线;
图12为本发明层次注意力神经网络与TBProfiler对乙胺丁醇的PR曲线;
图13为本发明层次注意力神经网络与TBProfiler对吡嗪酰胺的PR曲线;
图14为异烟肼的候选耐药突变;
图15为利福平的候选耐药突变;
图16为乙胺丁醇的候选耐药突变;
图17为吡嗪酰胺的候选耐药突变。
具体实施方式
下面将结合具体实施例,对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
作为本发明的一种实施例,参照说明书附图1所示,本实施例公开了一种基于层次注意力神经网络的结核分枝杆菌耐药性预测方法,本实施例中所述的结核分枝杆菌耐药性预测方法是对患有肺结核的病患对某种抗菌药物的耐药性预测。具体步骤如下:
首先从患有肺结核的病患身体上采集样本,标本的选择根据感染部位。可取痰、支气管灌洗液、尿、粪、脑脊液或胸、腹水。其他肺外感染可取血或相应部位分泌液或组织细胞。一般采集的样本包括痰液,采集的痰液样本要满足结核病检测试验要求,一般采集晨痰,采集方式是:晨起先漱口,用力可出气管深处的痰液1~2口,盛于清洁的痰盒内。该盛于清洁的痰盒内的样本即为离体的样本。
从离体的样本中分离出结核分枝杆菌的分离株菌株,对分离株菌株进行培养,提取分离株菌株的核酸;对分离株菌株的核酸进行全基因组测序,获得分离株菌株的全基因组测序数据。其中,采用主流的测序平台对分离株菌株核酸进行全基因组测序,包括二代测序平台Illumina HiSeq、Illumina MiSeq、Illumina Novaseq等,其主要流程包括文库构建、扩增、测序;及三代测序平台PacBio sequel II、Nanopore PromethION 48等,其主要流程包括文库构建、测序。
全基因组测序数据被传输到基因数据质控工具中进行数据质控处理,对测序数据进行质控,去除接头、过滤低质量序列、较多N的序列、过短序列;处理完成后形成质控合格的全基因组测序数据;质控合格的全基因组测序数据被传输到比对工具中,将质控合格的全基因组测序数据比对到参考基因组上,每一个样本生成一个比对结果数据文件;比对结果数据文件被传输到排序工具中,根据比对坐标,对比对结果数据进行排序;排序后的比对结果数据被传输到去除重复工具中,进行去PCR重复处理,处理完成后得到去除PCR重复的数据;去除PCR重复的数据被传输到基因突变点识别工具中,对去除PCR重复的数据进行突变点位识别及硬过滤,生成突变点位识别结果数据;突变点位识别结果数据被传输到过滤工具中,以去除高变异的PE/PPE基因家族、重复区域和移动原件中的突变;得到过滤后的突变点位识别结果数据;过滤后的突变点位识别结果数据被传输到注释工具中,对过滤后的突变点位识别结果数据中的突变点位进行突变类型注释,剔除同义突变的突变,得到注释的突变点位识别结果数据。
从上述得到的注释的突变点位识别结果数据中构建用于根据突变位置关系进行耐药性预测的突变位置嵌入向量和突变嵌入向量;所述突变嵌入向量包括发生突变点位的核苷酸替代信息,当变异类型是插入或缺失时,所述突变嵌入向量还包括插入类型标识和插入的序列,以及缺失类型标识和缺失的序列;
所述用于根据突变位置关系进行耐药性预测的突变位置嵌入向量和突变嵌入向量的构建过程是:
从NCBI下载结核分枝杆菌标准菌株H37Rv的gff注释文件,根据注释文件中基因的出现顺序为各基因从1到N编号;利用自定义的Python脚本从注释文件中提取各基因的起始位置,从S9得到突变点位识别结果把每个突变转换为词并定位到相应的基因上,具体为:将每个突变的参考碱基和替代碱基提取出来组合为突变词,如果该突变类型为插入时,用词‘ins’和插入的序列表示,突变类型为缺失时,用词‘del’和缺失的序列表示。该突变在全基因组的位置信息减去其所在基因的起始位置,获得该突变在相应基因的相对位置和该基因相对于全基因组的位置信息。给定一个突变
Figure 897251DEST_PATH_IMAGE003
,其对应的初始化嵌入向量
Figure 366410DEST_PATH_IMAGE004
,是由突变嵌入
Figure 178508DEST_PATH_IMAGE005
和突变位置嵌入
Figure 696208DEST_PATH_IMAGE006
构成,其中d是嵌入向量的维度;
以得到的突变嵌入向量和突变位置嵌入向量作为输入,分别传输到结核分枝杆菌的耐药性预测模型工具中,结核分枝杆菌的耐药性预测模型工具根据输入的突变嵌入向量和突变位置嵌入向量进行预测计算,输出预测结果;
所述结核分枝杆菌的耐药性预测模型工具中封装有结核分枝杆菌对多种抗结核药物的耐药性预测模型,其中一个结核分枝杆菌耐药性预测模型对应一种抗结核药物;结核分枝杆菌的耐药性预测模型工具中的多种结核分枝杆菌耐药性预测模型根据输入的突变嵌入向量和突变位置嵌入向量进行预测计算,输出该结核分枝杆菌对多种抗结核药物的耐药性预测结果;所述结核分枝杆菌耐药性预测模型是基于层次注意力神经网络训练得到的。
实施例2
作为本发明又一较佳实施例,作为实施例1的注释的突变点位识别结果数据的获取过程的一种实施方式,本实施方式定制了一个生物信息学管道,获得离体样本中分离出的分离株菌株的全基因组测序数据,首先使用fastp(0.20.1版本)清理原始序列,进行基因数据质控,然后使用BWA-MEM(0.7.17版本)将清理后的序列数据映射到H37Rv参考基因组(NC_000962.3),SAMtools(1.10版本)评估基因组覆盖率,并对比对结果数据进行排序,GATK或Sambamba进去去PCR重复,以及GATK调用突变。此外,为了获得高质量的突变,使用GATK VariantFiltration对突变进行硬过滤,并通过VcfTools(0.1.16版本)取出高变异的PE/PPE基因家族、重复区域和移动元素中的突变。最后用SnpEff(5.0e版本)或ANNOVAR进行突变注释,被注释为同义突变的突变不在分析中,将其剔除。
实施例3
作为本发明又一较佳实施例,作为实施例1中耐药性预测模型工具的一种实施方式,耐药性预测模型工具中,可以封装对多种抗菌药物的耐药性预测模型,突变嵌入向量和突变位置嵌入向量分别输入到多种抗菌药物的耐药性预测模型中分别进行计算,计算出结果,从结果中得到该肺结核病患具体对哪种抗菌药物具备耐药性。
例如,所述结核分枝杆菌的耐药性预测模型工具,分别进行结核分枝杆菌对异烟肼、利福平、乙胺丁醇、吡嗪酰胺、链霉素、乙硫异烟胺、阿米卡星、卷曲霉素、环丙沙星、左氧氟沙星、贝达喹啉、对氨基水杨酸、卡那霉素、莫西沙星和/或氧氟沙星中一种或多种药品的耐药性预测计算。
实施例4
作为本发明又一较佳实施例,作为实施例1中耐药性预测模型的一种实施方式。上述结核分枝杆菌的耐药性预测模型工具中的结核分枝杆菌的耐药性预测模型是通过层次注意力神经网络训练得到的。
在本实施方式中,以异烟肼、利福平、乙胺丁醇和吡嗪酰胺四种一线抗菌药物为例,通过层次注意力神经网络训练结核分枝杆菌的耐药性预测模型的训练过程包括:
获取已知对某种药物(以异烟肼、利福平、乙胺丁醇和吡嗪酰胺四种一线抗菌药物为例)的药敏测试结果的MTB菌株的全基因组测序数据作为MTB菌株对该种药物耐药性预测模型训练的样本原始数据;具体的:
本实施例中汇集了来自于NCBI-SRA数据库的WGS(全基因组测序)数据作为本发明的样本原始数据。目前采用了12378个结核分枝杆菌(MTB)菌株的SRA登录号及其实验室DST结果,包括四种一线药物,异烟肼(INH)、利福平(RIF)、乙胺丁醇(EMB)和吡嗪酰胺(PZA)。分离物的系谱是从TBProfiler(3.0.3版本)中获得的。汇集形成样本原始数据。
对上述样本原始数据中每一株MTB菌株的全基因组测序数据,根据变异识别流程进行数据分析;具体的,首先使用fastp(0.20.1版本)清理原始序列,进行基因数据质控,然后使用BWA-MEM(0.7.17版本)将清理后的序列数据映射到H37Rv参考基因组(NC_000962.3),SAMtools(1.10版本)评估基因组覆盖率,并对比对结果数据进行排序,GATK或Sambamba进去去PCR重复,以及GATK调用突变。此外,为了获得高质量的突变,使用GATKVariantFiltration对突变进行硬过滤,并通过VcfTools(0.1.16版本)取出高变异的PE/PPE基因家族、重复区域和移动元素中的突变。最后用SnpEff(5.0e版本)或ANNOVAR进行突变注释,被注释为同义突变的突变不在分析中,将其剔除;进过上述处理后得到数据分析结果。
从数据分析结果中提取突变点位相对于其所在基因的位置信息,该突变的基因在全基因组的位置信息,形成突变位置嵌入向量集;从数据分析结果中提取发生突变的点位的参考碱基和替代碱基,当变异类型是插入或缺失时,分别采用不同的标记进行标识,形成突变嵌入向量集;将样本原始数据中所有MTB菌株的突变位置嵌入向量、突变嵌入向量集和药敏测试结果汇总在一起,形成训练样本集。
从得到的训练样本集中随机选出80%的样本作为训练子集,10%的样本作为验证子集,剩余10%的样本作为测试子集。
将训练子集作为数据输入,输入到层次注意力神经网络中进行训练,得到菌株的嵌入表达;将获得的菌株的嵌入表达输入到前馈神经网络中,得到菌株是否耐药的概率;使用二分类交叉熵损失函数作为损失函数来训练模型,训练得到结核分枝杆菌的耐药性预测模型。
将验证子集作为输入,输入到上述得到的结核分枝杆菌的耐药性预测模型中,对耐药性预测模型的模型参数进行调整。
将测试子集作为输入,对上述调整模型参数后的耐药性预测模型进行测试。
实施例5
作为本发明又一较佳实施例,参照说明书附图3所示,作为本实施例的又一种实施方式,提出了一个用于预测耐药性的HANN(层次注意力神经网络)模型,其中考虑了突变和相应基因的相对位置信息及其相互作用,如附图3所示,为结核分枝杆菌耐药性预测模型的神经网络架构图。
在本实施例方式中,将耐药性预测作为一个文档问题进行处理,其中将突变视为单词,将一个突变基因视为句子,它包含了该基因中的所有变异,包括其上游100个碱基对的启动子区域,而菌株作为一个文档。如图3所示,突变编码器的目的是捕捉突变基因中的突变的上下文信息,而突变级的注意力是根据变异基因的权重将突变嵌入到突变基因的编码中。然后,我们利用基因编码器将背景信息进一步整合到一个菌株中,然后通过基因级的注意将基因嵌入到菌株的表示中。最后,采用二值分类器对分离物的耐药性进行预测。
更进一步的,上述的层次注意力神经网络包括突变编码器和基因编码器,突变编码器通过编码每个突变的上下文信息来捕捉突变基因中的突变之间的关系,并通过突变级的注意力机制将突变的表示进一步聚合到突变基因的嵌入中;基因编码器捕捉菌株中基因的上下文信息,利用基因级的注意力机制将菌株中所有基因嵌入汇总到整个菌株表征中。所述突变级的注意力机制是指根据突变的权重将突变嵌入到突变基因的编码中。
实施例6
作为本发明又一种实施方式,作为实施例5中突变编码器的一种实施方式,所述突变编码器采用CNN编码方式编码每个突变的上下文信息;具体的,给定一个突变
Figure 175731DEST_PATH_IMAGE003
,其对应的初始化嵌入向量
Figure 737162DEST_PATH_IMAGE004
,是由突变嵌入
Figure 908993DEST_PATH_IMAGE005
和突变位置嵌入
Figure 89439DEST_PATH_IMAGE006
构成,其中d是嵌入向量的维度;
对于一个基因
Figure 548102DEST_PATH_IMAGE007
,其是由N个突变构成,即
Figure 155801DEST_PATH_IMAGE008
Figure 817857DEST_PATH_IMAGE009
表示基因
Figure 536415DEST_PATH_IMAGE007
中第
Figure 115164DEST_PATH_IMAGE010
个突变;对于一个菌株
Figure 893764DEST_PATH_IMAGE011
来说,其是由L个基因构成,即
Figure 43116DEST_PATH_IMAGE012
Figure 424419DEST_PATH_IMAGE013
表示菌株
Figure 342828DEST_PATH_IMAGE014
中第
Figure 695924DEST_PATH_IMAGE010
个基因;
CNN用于获取基因的嵌入表达:令
Figure 457207DEST_PATH_IMAGE015
表示一个宽度为
Figure 907780DEST_PATH_IMAGE016
的卷积核,
Figure 70908DEST_PATH_IMAGE017
表示
Figure 66677DEST_PATH_IMAGE007
中突变
Figure 580835DEST_PATH_IMAGE018
的串联,那么
Figure 303940DEST_PATH_IMAGE019
通过式子
Figure 587154DEST_PATH_IMAGE020
计算,其中
Figure 19403DEST_PATH_IMAGE021
是偏置项和,
Figure 755278DEST_PATH_IMAGE022
是CNN中使用的滤波器尺寸大小;在CNN编码时,使用了SAME进行填充操作;对于一个卷积核
Figure 547654DEST_PATH_IMAGE015
和一个基因
Figure 419795DEST_PATH_IMAGE007
,能够得到N个不同特征的序列
Figure 22946DEST_PATH_IMAGE023
;对于序列
Figure 246116DEST_PATH_IMAGE024
,在其基础上加入注意力获得当前卷积核
Figure 576604DEST_PATH_IMAGE015
下的基因
Figure 568830DEST_PATH_IMAGE007
的嵌入表达
Figure 339953DEST_PATH_IMAGE025
,注意力公式如下所示:
Figure 784841DEST_PATH_IMAGE026
Figure 919019DEST_PATH_IMAGE027
Figure 31331DEST_PATH_IMAGE028
其中
Figure 710705DEST_PATH_IMAGE029
是权重矩阵和
Figure 908469DEST_PATH_IMAGE030
是偏置项,
Figure 580758DEST_PATH_IMAGE031
是查询向量,
Figure 547577DEST_PATH_IMAGE032
是基因
Figure 397853DEST_PATH_IMAGE007
中第
Figure 82912DEST_PATH_IMAGE010
个突变所占权重;因此,假设有K个不同的卷积核,那么基因
Figure 558893DEST_PATH_IMAGE007
的嵌入表达
Figure 380218DEST_PATH_IMAGE033
实施例7
作为本发明又一种实施方式,作为实施例5中突变编码器的又一种实施方式,突变编码器采用Bi-LSTM编码方式编码每个突变的上下文信息;具体的,给定一个突变
Figure 666974DEST_PATH_IMAGE003
,其对应的初始化嵌入向量
Figure 573750DEST_PATH_IMAGE004
,是由突变嵌入
Figure 587843DEST_PATH_IMAGE005
和突变位置嵌入
Figure 794833DEST_PATH_IMAGE006
构成,其中d是嵌入向量的维度;对于一个基因
Figure 718402DEST_PATH_IMAGE007
,其是由N个突变构成,即
Figure 112475DEST_PATH_IMAGE008
Figure 930258DEST_PATH_IMAGE009
表示基因
Figure 991755DEST_PATH_IMAGE007
中第
Figure 744947DEST_PATH_IMAGE010
个突变;对于一个菌株
Figure 767261DEST_PATH_IMAGE011
,其是由L个基因构成,即
Figure 732943DEST_PATH_IMAGE012
Figure 242422DEST_PATH_IMAGE013
表示菌株
Figure 41881DEST_PATH_IMAGE014
中第
Figure 410546DEST_PATH_IMAGE010
个基因;
Bi-LSTM用于获取基因的嵌入表达:对于每个突变
Figure 711077DEST_PATH_IMAGE009
,Bi-LSTM通过拼接
Figure 75062DEST_PATH_IMAGE009
的前向隐藏层输出
Figure 435637DEST_PATH_IMAGE034
和后向隐藏层输出
Figure 166963DEST_PATH_IMAGE035
获得其对应的上下文编码
Figure 740027DEST_PATH_IMAGE036
Figure 489677DEST_PATH_IMAGE037
其中
Figure 755574DEST_PATH_IMAGE038
表示向量拼接;因此,获得N个突变的上下文编码
Figure 705688DEST_PATH_IMAGE039
Bi-LSTM上通过注意力机制获得基因
Figure 207076DEST_PATH_IMAGE007
的嵌入表达;对于基因
Figure 421020DEST_PATH_IMAGE007
,通过以下注意力公式获得基因
Figure 733184DEST_PATH_IMAGE007
的嵌入表达
Figure 157212DEST_PATH_IMAGE040
Figure 337657DEST_PATH_IMAGE041
Figure 547053DEST_PATH_IMAGE042
Figure 154752DEST_PATH_IMAGE043
通过上述步骤,可以获得菌株
Figure 331655DEST_PATH_IMAGE044
中L个基因对应的嵌入表达
Figure 50212DEST_PATH_IMAGE045
对于每个基因,在其上加入对应的位置向量
Figure 379694DEST_PATH_IMAGE046
,即:
Figure 158294DEST_PATH_IMAGE047
,作为基因编码器的输入。
实施例8
作为本发明又一较佳实施例,作为实施例5中基因编码器的一种实施方式;
其中,突变编码器可以采用上述CNN编码方式或Bi-LSTM编码方式,基因编码器采用Bi-LSTM来捕捉菌株中基因的上下文信息,然后利用基因级的注意力机制将菌株中所有基因的嵌入汇总到整体表征中。可以获得菌株
Figure 822493DEST_PATH_IMAGE044
中L个基因对应的嵌入表达
Figure 610321DEST_PATH_IMAGE045
,对于每个基因,在其上加入对应的位置向量
Figure 918942DEST_PATH_IMAGE046
,即:
Figure 740880DEST_PATH_IMAGE047
,作为基因编码器的输入。
基因编码器的输入是变异基因嵌入和其位置嵌入的总和,即
Figure 767742DEST_PATH_IMAGE047
;基因编码器目的是获得菌株
Figure 218315DEST_PATH_IMAGE044
的嵌入表达。
基因编码器通过Bi-LSTM融合基因之间的上下文信息以丰富基因的嵌入编码。因此,通过下式获得菌株
Figure 647022DEST_PATH_IMAGE044
Figure 767425DEST_PATH_IMAGE048
的上下文编码
Figure 156949DEST_PATH_IMAGE049
Figure 286579DEST_PATH_IMAGE050
同样地,在获得L个基因的上下文编码之后,引入注意力机制对这些上下文编码进一步聚集,如下所示:
Figure 428848DEST_PATH_IMAGE051
Figure 985731DEST_PATH_IMAGE052
Figure 987185DEST_PATH_IMAGE053
其中
Figure 264714DEST_PATH_IMAGE054
是权重矩阵和
Figure 668013DEST_PATH_IMAGE055
是偏置项。
实施例9
作为本发明又一较佳实施例,作为实施例4中层次注意力神经网络的又一种实施方式,所述层次注意力神经网络采用Transformer编码器;其中每一层由两个子层组成,包括一个多头自注意机制和一个引入位置的全连接前馈网络。我们将突变的初始嵌入
Figure 520432DEST_PATH_IMAGE056
作为输入,将其输入第一层以获得每个基因
Figure 478023DEST_PATH_IMAGE007
的嵌入表达
Figure 824822DEST_PATH_IMAGE040
;之后,基因嵌入
Figure 82628DEST_PATH_IMAGE040
和它们的位置嵌入被馈送到第二层以形成菌株
Figure 715735DEST_PATH_IMAGE011
的嵌入表达
Figure 816415DEST_PATH_IMAGE001
实施例10
作为本发明又一较佳实施例,作为实施例4中耐药性预测模型训练过程的一种实施方式,将获得的菌株
Figure 825959DEST_PATH_IMAGE011
的嵌入表达
Figure 938272DEST_PATH_IMAGE001
输入一个前馈神经网络中去预测菌株是否具有耐药性,通过以下公式计算:
Figure 638154DEST_PATH_IMAGE057
sigmoid是激活函数,FFNN表示前馈神经网络;
使用二分类交叉熵损失函数作为损失函数来训练模型;假设一个训练集
Figure 835917DEST_PATH_IMAGE058
,其中
Figure 773786DEST_PATH_IMAGE059
表示
Figure 740605DEST_PATH_IMAGE060
中第
Figure 856459DEST_PATH_IMAGE010
个菌株;模型损失函数通过如下所示:
Figure 541519DEST_PATH_IMAGE061
其中
Figure 17499DEST_PATH_IMAGE062
是标签集,1表示耐药,0表示敏感;
Figure 104404DEST_PATH_IMAGE063
表示训练集
Figure 250215DEST_PATH_IMAGE060
的长度。
实施例11
作为本发明一较佳实施例,本实施例提供了上述实施例1-10中所述的耐药性预测模型的模型设置和评价指标的实施方式,在本实施方式中,创造了两个突变集,一个包含23个耐药相关基因的变异(常规方法),另一个包含全基因组的变异。同时,为单个药物构建单独的数据库子集(即INH、RIF、EMB和PZA)。每个子集随机分为训练集(80%)、验证集(10%)和测试集(10%)。采用10折交叉验证方法进行评价,并以实验室DST结果为金标准,计算ROC曲线下面积(AUC)、精确率(P)、召回率(R)、准确率(ACC)、敏感性(Sens)、特异性(Spec)和F1分数的平均值。他们相应的95%置信区间是经过10倍交叉验证后得到的。
上述所有HANN模型的超参数都在验证集上进行调整。突变嵌入和位置嵌入的初始维度为128。我们使用CNN编码器,滤波器大小为300,窗口大小为1、2和3。突变和基因编码器被实现为单层双向LSTM网络,其中突变编码器有150个隐藏单元,并且根据突变编码器的数目改变基因编码器中隐藏单元的数量,即900来自基于CNN的突变编码器,300来自Bi-LSTM变型编码器。对于两层 Transformer编码器,他们使用4头自注意力机制和128个隐藏单元。
本实施方式中的研究包括12378个分离物,如图4所示,是来自实验室DST结果的四种一线药物的耐药性和药敏性图。在过滤突变后,每个分离物的变异基因数量如图5所示;大多数分离物的变异基因在400到800之间,每个分离物平均有787个突变。
在上述实施例中设计的层次注意力神经网络中,提出了突变编码器和基因编码器的不同组合,其中实施例6中突变编码器为CNN,与实施例8中基因编码器为Bi-LSTM组合形成的层次注意力神经网络HANN-CB;实施例7中突变编码器为Bi-LSTM与实施例8中基因编码器为Bi-LSTM组合形成的层次注意力神经网络HANN-BB;实施例9中采用突变编码器为Transformer,基因编码器也为Transformer形成的层次注意力神经网络HANN-TT。
在本实施方式中,使用不同的突变数据集(即部分和整个基因组)和不同的突变嵌入初始化方式(即随机和预训练)来评估HANN性能。将模型在使用部分突变集是,被命名为HANN-i,从而与使用全基因组突变集的HANN相区别。
其中HANN-i的性能如下:对于RIF和INH,三个HANN-i衍生的模型(随机或预训练的突变嵌入)对同一药物取得了相似的性能。然而,对于EMB和PZA,HANN-Ti(无论是随机还是预训练的突变嵌入)产生了比其他两个模型更好的灵敏度。一般来说,HANN对这四种药物的总体预测性能略低于HANN-i的预测性能。然而,这并不令我们惊讶;当使用部分突变数据集时,每个样本的平均突变数量从787个减少到11个,这大大减少了特征的数量,这对预测任务是有利的。当样本包含的词太少时,预训练的突变嵌入不能很好地学习上下文语义信息,这可能是HANN-i对不同突变嵌入初始化不敏感的原因。尽管HANN-i的结果令人印象深刻,但其输入不是全基因组突变的事实限制了它对预选基因以外的遗传信息的探索。
HANN的性能:对于INH和RIF,突变嵌入的不同初始化方式和不同的模型对预测性能的影响不大。然而,预训练的突变嵌入使HANN-TT对EMB的灵敏度提高了2.9%,对PZA的灵敏度提高了4.3%。无论是哪种初始化方式,由HANN-TT生成的PZA的灵敏度都高于由HANN-CB和HANN-BB生成的灵敏度。当使用预训练的突变嵌入时,与HANN-CB和HANN-BB相比,HANN-TT对PZA的灵敏度分别提高了19.9%和15.6%。对于包括INH、RIF和EMB在内的药物,结果也显示这三个模型都有类似的性能,而对于PZA,HANN-TT获得了最好的性能,特别是在灵敏度这个指标上。据报道,PZA相关基因pncA的全长上,遗传突变变化很大且分散,这可能导致HANN-CB和HANN-BB不能很好地学习注意权重,而HANN-TT中的多头自我注意机制可以通过多次捕捉不同表示子空间的相对语义特征。
鉴于HANN在预训练突变嵌入方面的出色表现,我们用其结果来代表我们的方法,HANN与其他模型比较结果见下表1、表2、表3和表4所示。表1至表4中展显示了特异性(Sens)、敏感性(Spec)、F1分数和ROC曲线下面积(AUC)。正如预期的那样,相对于HANN,三个机器学习基线(SVM、LR和RF)在所有指标上的表现都要差很多。原因是突变嵌入在机器学习基线的训练过程中无法更新,而且它们也忽略了变异基因中突变之间的关系以及基因组中基因之间的相关性。因此,我们把重点放在HANN和TBProfiler的性能比较上。在INH和RIF的情况下,HANN(无论是HANN-CB、HANN-BB还是HANN-TT)显示出与TBProfiler类似的结果。HANN-TT的结果是对PZA的最佳灵敏度为87.05%,AUC为95.14%。此外,还绘制了不同模型对四种一线药物的ROC曲线(如图6至图9所示)和PR曲线(图10和图13),以观察HANN和TBProfiler在不同阈值水平下的表现。可以发现,在所有四种药物的auROC值方面,所有三个HANN衍生的模型都优于TBProfiler,至于四种药物的auPRC值,部分HANN衍生的模型仍然优于TBProfiler。
表1为针对INH的HANN模型与其他模型的比较结果。
Figure DEST_PATH_IMAGE064
表2为针对RIF的HANN模型与其他模型的比较结果。
Figure DEST_PATH_IMAGE065
表3为针对EMB的HANN模型与其他模型的比较结果。
Figure DEST_PATH_IMAGE066
表4为针对PZA的HANN模型与其他模型的比较结果。
Figure DEST_PATH_IMAGE067
在预训练突变嵌入的情况下,我们进一步提取了四个一线药物的候选耐药突变。图14、图15、图16和图17显示了INH、RIF、EMB和PZA的候选耐药突变。图14、图15、图16和图17中带*号的耐药突变是TBProfiler库中的耐药相关突变。如图15所示,结果是令人鼓舞的,因为所展示的大部分突变都是TBProfiler库中的耐药相关突变。INH、RIF和EMB的耐药性相关突变的频率分布是不平衡的。在INH的情况下,katG p.Ser315Thr的频率高达0.8。对于RIF,rpoB p.Ser450Leu的频率超过0.6。至于EMB,embB p.Met306Val和embB p.Met306Ile的总频率高于0.6。对于PZA,最主要的一个突变pncA c.-11A>G的频率低于0.07,大多数与pncA有关的突变出现的频率较低,并分散在整个基因中。这些结果与以前的现有研究一致。
实施例12
作为本发明又一较佳实施例,参照说明书附图2,本实施例公开了一种基于层次注意力神经网络的结核分枝杆菌耐药性预测装置,该装置包括:
数据输入模块,用于接收从离体的样本中分离出的结核分枝杆菌的临床菌株的全基因组测序数据,并将菌株的全基因组测序数据传输至基因数据质控模块中;
基因数据质控模块,用于接收数据输入模块传输的菌株的全基因组测序数据,并对菌株的全基因组测序数据进行数据质控处理,输出质控合格的全基因组测序数据并传输至比对模块中;
比对模块,用于接收基因数据质控模块输出的质控合格的全基因组测序数据,并将质控合格的全基因组测序数据比对到参考基因组上,生成比对结果数据文件,并传输至排序模块;
排序模块,用于接收比对模块生成的比对结果数据文件,对其进行排序,将排序后的比对结果数据文件传输至去除重复工具中;
去除重复模块,用于对排序后的比对结果数据进行去PCR重复,并将去除PCR重复后的数据传输至基因变异点识别模块中;
基因变异点识别模块,用对去除PCR重复的数据进行突变点位识别及硬过滤,并将突变点位识别结果传输至过滤模块中;
过滤模块,用于从变异点识别结果中去除高变异的PE/PPE基因家族、重复区域和移动原件中的突变;并将过滤后的突变点位识别结果数据传输至注释工具中;
注释模块,用于对过滤后的突变点位识别结果数据中的突变点位进行突变类型注释,剔除同义突变的突变,并将注释的突变点位识别结果数据传输至突变信息提取模块;
突变信息提取模块,用于从注释的突变点位识别结果数据中构建用于根据突变位置关系进行耐药性预测的突变位置嵌入向量和突变嵌入向量;并将突变位置嵌入向量和突变嵌入向量传输至耐药性预测模块中;
所述的突变位置嵌入向量包括突变点位相对于其所在基因的位置信息和该突变的基因在全基因组的位置信息;
所述突变嵌入向量包括发生突变点位的参考碱基和替代碱基,当变异类型是插入或缺失时,所述突变嵌入向量还包括插入类型标识和插入的碱基,以及缺失类型标识和缺失的碱基;
耐药性预测模块,封装有结核分枝杆菌对多种抗结核药物的耐药性预测模型,其中一个结核分枝杆菌耐药性预测模型对应一种抗结核药物;多种结核分枝杆菌耐药性预测模型根据输入的突变嵌入向量和突变位置嵌入向量进行预测计算,输出该结核分枝杆菌对多种抗结核药物的耐药性预测结果;所述结核分枝杆菌耐药性预测模型是基于层次注意力神经网络训练得到的。
实施例13
作为本发明又一较佳实施例,参照说明书附图2所示,结核分枝杆菌耐药性预测装置可以集成封装在网页中,集成为一个web应用。通过访问目标网站,选择并上传MTB的WGS数据,通过该web应用,最终输出预测结果显示在目标网站中。
所述数据输入模块包括测序数据1端输入子模块和测序数据2端输入子模块。将WGS数据的两端分别从测序数据1段输入子模块输入和测序数据2段输入子模块输入。
更进一步的,所述基因数据质控模块中封装有fastp、Trimmomatic或FastQC软件程序。所述比对模块中封装有BWA-MEM、 BWA-MEM2、SNAP、Minimap2或Bowtie2软件程序。所述排序模块中封装有Samtools或 sambamba软件程序。所述去除重复模块中封装有GATK、samtools、picard或Sambamba软件程序。所述基因变异点识别模块中封装有GATK 、varscan、bcftools或platypus软件程序。所述过滤模块中封装有VCFtools软件程序。所述注释模块中封装有ANNOVAR、Ensembl VEP或SnpEff软件程序。
在本实施例中,针对数据质控模块、比对模块、排序模块、去除重复模块、基因变异点识别模块、过滤模块和注释模块中封装的软件,均为现有软件,且并不仅仅限定于使用上述软件,现有及未来开发出的用于数据质控、比对、排序、去除重复、基因变异点识别、过滤和注释的相关软件,均可以进行封装和替换。
实施例14
作为本发明又一较佳实施例,为了实现上述目的,根据本申请的另一方面,还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述实施例1-10中结核分枝杆菌耐药性预测方法的步骤。
在本实施例中处理器可以为中央处理器(Central Processing Unit,CPU)。处理器还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及单元,如本发明上述方法实施例中对应的程序单元。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及作品数据处理,即实现上述方法实施例中的方法。
存储器可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述一个或者多个单元存储在所述存储器中,当被所述处理器执行时,执行上述实施例1至实施例10中的方法。
实施例15
作为本发明又一较佳实施例,本实施例公开了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述实施例1至实施例10中的结核分枝杆菌耐药性预测方法。

Claims (22)

1.基于层次注意力神经网络的结核分支杆菌耐药性预测方法,其特征在于,该方法包括以下步骤:
S1、从离体的样本中分离出结核分枝杆菌临床分离株,对分离株进行培养,提取菌株核酸;
S2、对菌株核酸进行全基因组测序,获得菌株的全基因组测序数据;
S3、全基因组测序数据被传输到基因数据质控工具中进行数据质控处理,处理完成后形成质控合格的全基因组测序数据;
S4、质控合格的全基因组测序数据被传输到比对工具中,将质控合格的全基因组测序数据比对到参考基因组上,每个样本生成一个比对结果数据文件;
S5、比对结果数据文件被传输到排序工具中,根据比对坐标,对比对结果数据进行排序;
S6、排序后的比对结果数据被传输到去除重复工具中,进行去PCR重复处理,处理完成后得到去除PCR重复的数据;
S7、去除PCR重复的数据被传输到基因突变点识别工具中,对去除PCR重复的数据进行突变点位识别及硬过滤,生成突变点位识别结果数据;
S8、突变点位识别结果数据被传输到过滤工具中,以去除高变异的PE/PPE基因家族、重复区域和移动原件中的突变;得到过滤后的突变点位识别结果数据;
S9、过滤后的突变点位识别结果数据被传输到注释工具中,对过滤后的突变点位识别结果数据中的突变点位进行突变类型注释,剔除同义突变的突变,得到注释的突变点位识别结果数据;
S10、从S9步骤中得到的注释的突变点位识别结果数据中构建用于根据突变位置关系进行耐药性预测的突变位置嵌入向量和突变嵌入向量;
所述的突变位置嵌入向量包括突变点位相对于其所在基因的位置信息和该突变的基因在全基因组的位置信息;
所述突变嵌入向量包括发生突变点位的核苷酸替代信息,当变异类型是插入或缺失时,所述突变嵌入向量还包括插入类型标识和插入的序列,以及缺失类型标识和缺失的序列;
所述用于根据突变位置关系进行耐药性预测的突变位置嵌入向量和突变嵌入向量的构建过程是:
根据参考基因组的注释文件中基因的出现顺序,为各基因进行编号,从注释文件中提取各基因的起始位置;从步骤S9得到的突变点位识别结果数据中把每个突变转换为词并定位到相应的基因上,具体为:将每个突变的参考碱基和替代碱基提取出来组合为突变词,若突变类型为插入时,突变词由插入类型标识和插入的序列表示;若突变类型为缺失时,突变词由缺失类型标识和缺失的序列表示;将该突变在全基因组的位置信息减去其所在基因的起始位置,获得该突变在相应基因的相对位置和该基因相对于全基因组的位置信息;
S11、以S10步骤得到的突变嵌入向量和突变位置嵌入向量作为输入,分别传输到结核分枝杆菌的耐药性预测模型工具中,结核分枝杆菌的耐药性预测模型工具根据输入的突变嵌入向量和突变位置嵌入向量进行预测计算,输出预测结果;
所述结核分枝杆菌的耐药性预测模型工具中封装有结核分枝杆菌对多种抗结核药物的耐药性预测模型,其中一个结核分枝杆菌耐药性预测模型对应一种抗结核药物;结核分枝杆菌的耐药性预测模型工具中的多种结核分枝杆菌耐药性预测模型根据输入的突变嵌入向量和突变位置嵌入向量进行预测计算,输出该结核分枝杆菌对多种抗结核药物的耐药性预测结果;所述结核分枝杆菌耐药性预测模型是基于层次注意力神经网络训练得到的;
所述层次注意力神经网络包括突变编码器和基因编码器,突变编码器通过编码每个突变的上下文信息来捕捉突变基因中的突变之间的关系,并通过突变级的注意力机制将突变的表示进一步聚合到突变基因的嵌入中;基因编码器捕捉菌株中基因的上下文信息,利用基因级的注意力机制将菌株中所有基因嵌入汇总到整个菌株表征中;
或者,所述层次注意力神经网络采用两个Transformer编码器;其中一个Transformer编码器作为突变编码器,另一个Transformer编码器作为基因编码器,每个Transformer编码器由两个子层组成,包括一个多头自注意机制和一个引入位置的全连接前馈网络。
2.如权利要求1所述的基于层次注意力神经网络的结核分枝杆菌耐药性预测方法,其特征在于:结核分支杆菌的耐药性预测模型工具中,封装有结核分枝杆菌对异烟肼、利福平、乙胺丁醇、吡嗪酰胺、链霉素、乙硫异烟胺、阿米卡星、卷曲霉素、环丙沙星、左氧氟沙星、贝达喹啉、对氨基水杨酸、卡那霉素、莫西沙星和/或氧氟沙星中一种或多种抗结核药物的耐药性预测模型。
3.如权利要求1所述的基于层次注意力神经网络的结核分枝杆菌耐药性预测方法,其特征在于:基于层次注意力神经网络训练结核分枝杆菌耐药性预测模型的训练过程包括:
A、获取已知对某种抗结核药物的药敏测试结果的结核分枝杆菌菌株的全基因组测序数据,作为结核分枝杆菌菌株对该种抗结核药物的耐药性预测模型训练的样本原始数据;
B、对样本原始数据中每一株结核分枝杆菌菌株的全基因测序数据,分别进行上述S3步骤至S9步骤的处理,得到每一株结核分枝杆菌全基因组测序数据中注释的突变点位识别结果数据;
C、从B步骤得到的注释的突变点位识别结果数据中,构建每一株结核分枝杆菌的突变位置嵌入向量和突变嵌入向量;将每一株结核分枝杆菌的突变位置嵌入向量、突变嵌入向量和药敏测试结果进行对应,并将样本原始数据中所有结核分枝杆菌的突变位置嵌入向量、突变嵌入向量和药敏测试结果汇总在一起,形成训练样本集;
D、从得到的训练样本集中随机选出一部分作为训练子集,一部分作为验证子集,一部分作为测试子集;训练子集、验证子集和测试子集三者之间的比例为8:1:1;
E、将训练子集作为数据输入,输入到层次注意力神经网络中进行训练,得到菌株的嵌入表达;将获得的菌株的嵌入表达输入到前馈神经网络中,得到菌株是否耐药的概率;使用二分类交叉熵损失函数作为损失函数来训练模型,训练得到结核分枝杆菌的耐药性预测模型;
F、将验证子集作为输入,输入到E步骤中得到的结核分枝杆菌的耐药性预测模型中,对耐药性预测模型的模型参数进行调整;
G、将测试子集作为输入,对F步骤调整模型参数后的耐药性预测模型进行测试。
4.如权利要求1-3任意一项所述的基于层次注意力神经网络的结核分枝杆菌耐药性预测方法,其特征在于:所述突变级的注意力机制是指根据突变的权重将突变嵌入到突变基因的编码中。
5.如权利要求1所述的基于层次注意力神经网络的结核分枝杆菌耐药性预测方法,其特征在于:突变编码器采用CNN编码方式编码每个突变的上下文信息;具体的,
给定一个突变
Figure QLYQS_1
,其对应的初始化嵌入向量
Figure QLYQS_2
,是由突变嵌入
Figure QLYQS_3
和突变位置嵌入
Figure QLYQS_4
构成,其中d是嵌入向量的维度;
对于一个基因
Figure QLYQS_6
,其是由N个突变构成,即
Figure QLYQS_8
Figure QLYQS_10
表示基因
Figure QLYQS_7
中第i个突变;对于一个菌株
Figure QLYQS_9
来说,其是由L个基因构成,即
Figure QLYQS_11
Figure QLYQS_12
表示菌株
Figure QLYQS_5
中第i个基因;
CNN用于获取基因的嵌入表达:令k表示一个宽度为
Figure QLYQS_16
的卷积核,
Figure QLYQS_19
表示
Figure QLYQS_23
中突变
Figure QLYQS_14
Figure QLYQS_17
,…,and
Figure QLYQS_21
的串联,那么
Figure QLYQS_25
通过式子
Figure QLYQS_13
计算,其中b是偏置项和,
Figure QLYQS_18
是CNN中使用的滤波器尺寸大小;在CNN编码时,使用了SAME进行填充操作;对于一个卷积核k和一个基因
Figure QLYQS_22
,能够得到N个不同特征的序列
Figure QLYQS_26
;对于序列
Figure QLYQS_15
,在其基础上加入注意力获得当前卷积核k下的基因
Figure QLYQS_20
的嵌入表达
Figure QLYQS_24
,注意力公式如下所示:
Figure QLYQS_27
Figure QLYQS_28
Figure QLYQS_29
其中
Figure QLYQS_30
是权重矩阵和
Figure QLYQS_31
是偏置项,
Figure QLYQS_32
是查询向量,
Figure QLYQS_33
是基因
Figure QLYQS_34
中第i个突变所占权重;因此,假设有K个不同的卷积核,那么基因
Figure QLYQS_35
的嵌入表达
Figure QLYQS_36
6.如权利要求1所述的基于层次注意力神经网络的结核分枝杆菌耐药性预测方法,其特征在于:突变编码器采用Bi-LSTM编码方式编码每个突变的上下文信息;具体的,
给定一个突变
Figure QLYQS_38
,其对应的初始化嵌入向量
Figure QLYQS_42
,是由突变嵌入
Figure QLYQS_45
和突变位置嵌入
Figure QLYQS_39
构成,其中d是嵌入向量的维度;对于一个基因
Figure QLYQS_43
来说,其是由N个突变构成,即
Figure QLYQS_46
Figure QLYQS_48
表示基因
Figure QLYQS_37
中第i个突变;对于一个菌株
Figure QLYQS_41
来说,其是由L个基因构成,即
Figure QLYQS_44
Figure QLYQS_47
表示菌株
Figure QLYQS_40
中第i个基因;
Bi-LSTM用于获取基因的嵌入表达:对于每个突变
Figure QLYQS_49
,Bi-LSTM通过拼接
Figure QLYQS_50
的前向隐藏层输出
Figure QLYQS_51
和后向隐藏层输出
Figure QLYQS_52
获得其对应的上下文编码
Figure QLYQS_53
Figure QLYQS_54
其中[;]表示向量拼接;因此,获得N个突变的上下文编码
Figure QLYQS_55
Bi-LSTM上通过注意力机制获得基因
Figure QLYQS_56
的嵌入表达;对于基因
Figure QLYQS_57
,通过以下注意力公式获得基因
Figure QLYQS_58
的嵌入表达z;
Figure QLYQS_59
Figure QLYQS_60
Figure QLYQS_61
其中
Figure QLYQS_62
是权重矩阵和
Figure QLYQS_63
是偏置项,
Figure QLYQS_64
是查询向量,
Figure QLYQS_65
是基因
Figure QLYQS_66
中第i个突变所占权重;通过上述步骤,可以获得菌株
Figure QLYQS_67
中L个基因对应的嵌入表达
Figure QLYQS_68
7.如权利要求5或6所述的基于层次注意力神经网络的结核分枝杆菌耐药性预测方法,其特征在于:
对于每个基因,在其上加入对应的位置向量
Figure QLYQS_69
,即:
Figure QLYQS_70
,作为基因编码器的输入。
8.如权利要求1-3或5或6任意一项所述的基于层次注意力神经网络的结核分枝杆菌耐药性预测方法,其特征在于:所述基因编码器采用Bi-LSTM来捕捉菌株中基因的上下文信息,然后利用基因级的注意力机制将菌株中所有基因的嵌入汇总到整体表征中;
获得菌株
Figure QLYQS_71
中L个基因对应的嵌入表达
Figure QLYQS_72
;对于每个基因,在其上加入对应的位置向量
Figure QLYQS_73
,即:
Figure QLYQS_74
,作为基因编码器的输入;
基因编码器通过Bi-LSTM融合基因之间的上下文信息以丰富基因的嵌入编码;通过下式获得菌株
Figure QLYQS_75
Figure QLYQS_76
的上下文编码
Figure QLYQS_77
Figure QLYQS_78
同样地,在获得L个基因的上下文编码之后,引入注意力机制对这些上下文编码进一步聚集,如下所示:
Figure QLYQS_79
Figure QLYQS_80
Figure QLYQS_81
其中
Figure QLYQS_82
是权重矩阵和
Figure QLYQS_83
是偏置项。
9.如权利要求1所述的基于层次注意力神经网络的结核分枝杆菌耐药性预测方法,其特征在于:
将突变的初始嵌入
Figure QLYQS_84
作为输入,将其输入第一层以获得每个基因
Figure QLYQS_85
的嵌入表达z;之后,基因嵌入z和它们的位置嵌入被馈送到第二层以形成菌株
Figure QLYQS_86
的嵌入表达h。
10.如权利要求3或9所述的基于层次注意力神经网络的结核分枝杆菌耐药性预测方法,其特征在于:
将获得的菌株
Figure QLYQS_87
的嵌入表达h输入一个前馈神经网络中去预测菌株是否具有耐药性,通过以下公式计算:
Figure QLYQS_88
sigmoid()是激活函数,FFNN表示前馈神经网络;
使用二分类交叉熵损失函数作为损失函数来训练模型;假设一个训练集
Figure QLYQS_89
,其中
Figure QLYQS_90
表示
Figure QLYQS_91
中第i个菌株;模型损失函数通过如下所示:
Figure QLYQS_92
其中
Figure QLYQS_93
是标签集,1表示耐药,0表示敏感;
Figure QLYQS_94
表示训练集
Figure QLYQS_95
的长度。
11.如权利要求1所述的基于层次注意力神经网络的结核分枝杆菌耐药性预测方法,其特征在于:所述基因数据质控工具包括fastp工具、Trimmomatic工具或FastQC工具。
12.如权利要求1所述的基于层次注意力神经网络的结核分枝杆菌耐药性预测方法,其特征在于:所述比对工具包括BWA-MEM工具、BWA-MEM2工具、SNAP工具、Minimap2工具或Bowtie2工具。
13. 如权利要求1所述的结核分枝杆菌耐药性预测方法,其特征在于:所述排序工具包括Samtools工具或 sambamba工具。
14.如权利要求1所述的结核分枝杆菌耐药性预测方法,其特征在于:所述去除重复工具包括GATK工具、Sambamba工具、samtools工具或picard工具。
15.如权利要求1所述的结核分枝杆菌耐药性预测方法,其特征在于:所述基因突变点识别工具包括GATK工具、varscan工具、bcftools工具或platypus工具。
16.如权利要求1所述的结核分枝杆菌耐药性预测方法,其特征在于:所述过滤工具包括VCFtools工具。
17.如权利要求1所述的结核分枝杆菌耐药性预测方法,其特征在于:所述注释工具包括ANNOVAR工具、SnpEff工具或Ensembl VEP工具。
18.基于层次注意力神经网络的结核分枝杆菌耐药性预测装置,其特征在于:包括
数据输入模块,用于接收从离体的样本中分离出的结核分枝杆菌的临床菌株的全基因组测序数据,并将菌株的全基因组测序数据传输至基因数据质控模块中;
基因数据质控模块,用于接收数据输入模块传输的菌株的全基因组测序数据,并对菌株的全基因组测序数据进行数据质控处理,输出质控合格的全基因组测序数据并传输至比对模块中;
比对模块,用于接收基因数据质控模块输出的质控合格的全基因组测序数据,并将质控合格的全基因组测序数据比对到参考基因组上,生成比对结果数据文件,并传输至排序模块;
排序模块,用于接收比对模块生成的比对结果数据文件,对其进行排序,将排序后的比对结果数据文件传输至去除重复工具中;
去除重复模块,用于对排序后的比对结果数据进行去PCR重复,并将去除PCR重复后的数据传输至基因变异点识别模块中;
基因变异点识别模块,用对去除PCR重复的数据进行突变点位识别及硬过滤,并将突变点位识别结果传输至过滤模块中;
过滤模块,用于从变异点识别结果中去除高变异的PE/PPE基因家族、重复区域和移动原件中的突变;并将过滤后的突变点位识别结果数据传输至注释工具中;
注释模块,用于对过滤后的突变点位识别结果数据中的突变点位进行突变类型注释,剔除同义突变的突变,并将注释的突变点位识别结果数据传输至突变信息提取模块;
突变信息提取模块,用于从注释的突变点位识别结果数据中构建用于根据突变位置关系进行耐药性预测的突变位置嵌入向量和突变嵌入向量;并将突变位置嵌入向量和突变嵌入向量传输至耐药性预测模块中;
所述的突变位置嵌入向量包括突变点位相对于其所在基因的位置信息和该突变的基因在全基因组的位置信息;
所述突变嵌入向量包括发生突变点位的核苷酸替代信息,当变异类型是插入或缺失时,所述突变嵌入向量还包括插入类型标识和插入的序列,以及缺失类型标识和缺失的序列;
耐药性预测模块,封装有结核分枝杆菌对多种抗结核药物的耐药性预测模型,其中一个结核分枝杆菌耐药性预测模型对应一种抗结核药物;多种结核分枝杆菌耐药性预测模型根据输入的突变嵌入向量和突变位置嵌入向量进行预测计算,输出该结核分枝杆菌对多种抗结核药物的耐药性预测结果;所述结核分枝杆菌耐药性预测模型是基于层次注意力神经网络训练得到的;
所述层次注意力神经网络包括突变编码器和基因编码器,突变编码器通过编码每个突变的上下文信息来捕捉突变基因中的突变之间的关系,并通过突变级的注意力机制将突变的表示进一步聚合到突变基因的嵌入中;基因编码器捕捉菌株中基因的上下文信息,利用基因级的注意力机制将菌株中所有基因嵌入汇总到整个菌株表征中;
或者,所述层次注意力神经网络采用两个Transformer编码器;其中一个Transformer编码器作为突变编码器,另一个Transformer编码器作为基因编码器,每个Transformer编码器由两个子层组成,包括一个多头自注意机制和一个引入位置的全连接前馈网络。
19.如权利要求18所述的基于层次注意力神经网络的结核分枝杆菌耐药性预测装置,其特征在于:所述耐药性预测模块中封装有结核分枝杆菌对异烟肼、利福平、乙胺丁醇、吡嗪酰胺、链霉素、乙硫异烟胺、阿米卡星、卷曲霉素、环丙沙星、左氧氟沙星、贝达喹啉、对氨基水杨酸、卡那霉素、莫西沙星和/或氧氟沙星中一种或多种抗结核药物的耐药性预测模型。
20.如权利要求18或19所述的基于层次注意力神经网络的结核分枝杆菌耐药性预测装置,其特征在于:所述数据输入模块包括测序数据1端输入子模块和测序数据2端输入子模块。
21.一种计算机设备,其特征在于:包括处理器、输入设备、输出设备和存储器,处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-17任意一项所述的方法。
22.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-17任意一项所述的方法。
CN202210206029.XA 2022-03-03 2022-03-03 基于层次注意力神经网络的结核分枝杆菌耐药性预测方法及装置 Active CN114582429B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210206029.XA CN114582429B (zh) 2022-03-03 2022-03-03 基于层次注意力神经网络的结核分枝杆菌耐药性预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210206029.XA CN114582429B (zh) 2022-03-03 2022-03-03 基于层次注意力神经网络的结核分枝杆菌耐药性预测方法及装置

Publications (2)

Publication Number Publication Date
CN114582429A CN114582429A (zh) 2022-06-03
CN114582429B true CN114582429B (zh) 2023-06-13

Family

ID=81776257

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210206029.XA Active CN114582429B (zh) 2022-03-03 2022-03-03 基于层次注意力神经网络的结核分枝杆菌耐药性预测方法及装置

Country Status (1)

Country Link
CN (1) CN114582429B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115273979B (zh) * 2022-07-04 2024-09-13 苏州大学 基于自注意力机制的单核苷酸无义突变致病性预测系统
CN117079716B (zh) * 2023-09-13 2024-04-05 江苏运动健康研究院 一种基于基因检测的肿瘤用药方案的深度学习预测方法
CN117540282B (zh) * 2024-01-10 2024-03-22 青岛科技大学 一种变温环境下水产品货架期高精度预测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015172734A1 (zh) * 2014-05-15 2015-11-19 中国疾病预防控制中心传染病预防控制所 结核分枝杆菌四种二线药物耐药基因特异片段组合及其应用
WO2019084559A1 (en) * 2017-10-27 2019-05-02 Apostle, Inc. SOMATIC MUTATION CANCER PATHOGENIC IMPACT PREDICTION USING DEEP LEARNING BASED METHODS
CN111254206A (zh) * 2019-11-21 2020-06-09 辽宁中晨优智医疗技术有限公司 一种结核分枝杆菌耐药菌株的检测方法
CN113621716A (zh) * 2020-05-08 2021-11-09 深圳华大因源医药科技有限公司 结核分枝杆菌多线耐药基因鉴定的方法和装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101285062B (zh) * 2008-04-29 2011-07-20 博奥生物有限公司 一种从痰中提取细菌核酸的方法、试剂盒及其应用
CN113957124A (zh) * 2015-02-10 2022-01-21 香港中文大学 用于癌症筛查和胎儿分析的突变检测
WO2017191274A2 (en) * 2016-05-04 2017-11-09 Curevac Ag Rna encoding a therapeutic protein
US10339450B2 (en) * 2017-09-08 2019-07-02 DeepCube LTD. System and method for efficient evolution of deep convolutional neural networks using filter-wise recombination and propagated mutations
AU2019356597A1 (en) * 2018-10-12 2021-05-20 Human Longevity, Inc. Multi-omic search engine for integrative analysis of cancer genomic and clinical data
EP3887551A1 (en) * 2018-11-29 2021-10-06 Universität Zürich Tuberculosis resistance prediction method
US11705226B2 (en) * 2019-09-19 2023-07-18 Tempus Labs, Inc. Data based cancer research and treatment systems and methods
CN110706755A (zh) * 2019-08-26 2020-01-17 上海科技发展有限公司 结核菌耐药性检测方法、装置、计算机设备和存储介质
CN111860939B (zh) * 2020-06-02 2022-04-08 合肥工业大学 基于注意力机制和rclstm网络的客流量预测方法及系统
CN112863693B (zh) * 2021-02-04 2021-09-28 东北林业大学 基于多通道图卷积网络的药物靶标相互作用预测方法
CN113643758B (zh) * 2021-09-22 2023-04-07 华南农业大学 面向肠杆科细菌获得抗β-内酰胺类耐药性基因的预测方法
CN114068038A (zh) * 2021-11-26 2022-02-18 东南大学成贤学院 一种融合改进cnn和lstm的抗菌药物耐药性预测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015172734A1 (zh) * 2014-05-15 2015-11-19 中国疾病预防控制中心传染病预防控制所 结核分枝杆菌四种二线药物耐药基因特异片段组合及其应用
WO2019084559A1 (en) * 2017-10-27 2019-05-02 Apostle, Inc. SOMATIC MUTATION CANCER PATHOGENIC IMPACT PREDICTION USING DEEP LEARNING BASED METHODS
CN111254206A (zh) * 2019-11-21 2020-06-09 辽宁中晨优智医疗技术有限公司 一种结核分枝杆菌耐药菌株的检测方法
CN113621716A (zh) * 2020-05-08 2021-11-09 深圳华大因源医药科技有限公司 结核分枝杆菌多线耐药基因鉴定的方法和装置

Also Published As

Publication number Publication date
CN114582429A (zh) 2022-06-03

Similar Documents

Publication Publication Date Title
CN114582429B (zh) 基于层次注意力神经网络的结核分枝杆菌耐药性预测方法及装置
Namkung Machine learning methods for microbiome studies
Xia et al. Statistical analysis of microbiome data with R
Wilkinson et al. CowPI: a rumen microbiome focussed version of the PICRUSt functional inference software
Bang et al. Establishment and evaluation of prediction model for multiple disease classification based on gut microbial data
Pataki et al. Understanding and predicting ciprofloxacin minimum inhibitory concentration in Escherichia coli with machine learning
CN114566209B (zh) 基于层次注意力神经网络的结核分枝杆菌耐药性预测模型的训练方法及应用
CN113764034B (zh) 基因组序列中潜在bgc的预测方法、装置、设备及介质
Karanth et al. Exploring the predictive capability of advanced machine learning in identifying severe disease phenotype in Salmonella enterica
Albanese et al. Explaining diversity in metagenomic datasets by phylogenetic-based feature weighting
Wang et al. MetaBoot: a machine learning framework of taxonomical biomarker discovery for different microbial communities based on metagenomic data
CN115116624A (zh) 基于半监督迁移学习的药物敏感性预测方法和装置
CN115485778A (zh) 用于检测细菌基因组中基因组序列的分子技术
Heyse et al. Predicting the presence and abundance of bacterial taxa in environmental communities through flow cytometric fingerprinting
Te Molder et al. Machine learning approaches to predict the Plant-associated phenotype of Xanthomonas strains
Ross et al. Metagenomic predictions: a review 10 years on
Carrieri et al. A fast machine learning workflow for rapid phenotype prediction from whole shotgun metagenomes
Nykrynova et al. Using deep learning for gene detection and classification in raw nanopore signals
Paulson Normalization and differential abundance analysis of metagenomic biomarker-gene surveys
US20210257059A1 (en) Information processing apparatus, information processing method, and program
CN111028953B (zh) 一种对医学数据进行提示性标注的控制方法
KR101853916B1 (ko) 단백질 도메인의 생물경로 특이성 판단 방법, 및 이를 이용한 질병 유전자 발굴 방법
Zheng TLsub: A transfer learning based enhancement to accurately detect mutations with wide-spectrum sub-clonal proportion
Inda Díaz New AI-based methods for studying antibiotic-resistant bacteria
CN118296442B (zh) 多组学癌症亚型分类方法、系统、设备、介质及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230423

Address after: No.1 South Ring Road, Chengdu 6100424, Sichuan Province

Applicant after: SICHUAN University

Applicant after: Sichuan shengmeisida Biotechnology Co.,Ltd.

Address before: 610015 No. 24 south part of Wuhou District first ring road, Chengdu, Sichuan.

Applicant before: SICHUAN University

GR01 Patent grant
GR01 Patent grant