CN109448781B - 一种流感病毒抗原变化的预测方法 - Google Patents
一种流感病毒抗原变化的预测方法 Download PDFInfo
- Publication number
- CN109448781B CN109448781B CN201811310950.9A CN201811310950A CN109448781B CN 109448781 B CN109448781 B CN 109448781B CN 201811310950 A CN201811310950 A CN 201811310950A CN 109448781 B CN109448781 B CN 109448781B
- Authority
- CN
- China
- Prior art keywords
- influenza virus
- sequence
- change
- bit
- amino acid
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 241000712461 unidentified influenza virus Species 0.000 title claims abstract description 51
- 230000008859 change Effects 0.000 title claims abstract description 39
- 239000000427 antigen Substances 0.000 title claims abstract description 32
- 102000036639 antigens Human genes 0.000 title claims abstract description 32
- 108091007433 antigens Proteins 0.000 title claims abstract description 32
- 238000000034 method Methods 0.000 title claims abstract description 21
- 230000000890 antigenic effect Effects 0.000 claims abstract description 23
- 238000013528 artificial neural network Methods 0.000 claims abstract description 8
- 150000001413 amino acids Chemical class 0.000 claims description 21
- 238000012549 training Methods 0.000 claims description 16
- 241000700605 Viruses Species 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 8
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 101100478633 Escherichia coli O157:H7 stcE gene Proteins 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 101150115529 tagA gene Proteins 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 abstract description 2
- 239000000284 extract Substances 0.000 abstract 1
- 235000001014 amino acid Nutrition 0.000 description 22
- 206010022000 influenza Diseases 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 101710154606 Hemagglutinin Proteins 0.000 description 6
- 101710093908 Outer capsid protein VP4 Proteins 0.000 description 6
- 101710135467 Outer capsid protein sigma-1 Proteins 0.000 description 6
- 101710176177 Protein A56 Proteins 0.000 description 6
- 239000000185 hemagglutinin Substances 0.000 description 5
- 230000035772 mutation Effects 0.000 description 4
- 241000252870 H3N2 subtype Species 0.000 description 3
- QNAYBMKLOCPYGJ-REOHCLBHSA-N L-alanine Chemical compound C[C@H](N)C(O)=O QNAYBMKLOCPYGJ-REOHCLBHSA-N 0.000 description 3
- 235000004279 alanine Nutrition 0.000 description 3
- KZSNJWFQEVHDMF-BYPYZUCNSA-N L-valine Chemical compound CC(C)[C@H](N)C(O)=O KZSNJWFQEVHDMF-BYPYZUCNSA-N 0.000 description 2
- 102000005348 Neuraminidase Human genes 0.000 description 2
- 108010006232 Neuraminidase Proteins 0.000 description 2
- KZSNJWFQEVHDMF-UHFFFAOYSA-N Valine Natural products CC(C)C(N)C(O)=O KZSNJWFQEVHDMF-UHFFFAOYSA-N 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 230000027645 antigenic variation Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 229960003971 influenza vaccine Drugs 0.000 description 2
- 239000004474 valine Substances 0.000 description 2
- 241000134304 Influenza A virus H3N2 Species 0.000 description 1
- 102000018697 Membrane Proteins Human genes 0.000 description 1
- 108010052285 Membrane Proteins Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000005180 public health Effects 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 230000001932 seasonal effect Effects 0.000 description 1
- 230000000405 serological effect Effects 0.000 description 1
- 239000013638 trimer Substances 0.000 description 1
- 229960005486 vaccine Drugs 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000003612 virological effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/80—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for detecting, monitoring or modelling epidemics or pandemics, e.g. flu
Landscapes
- Public Health (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Medicines Containing Antibodies Or Antigens For Use As Internal Diagnostic Agents (AREA)
- Peptides Or Proteins (AREA)
Abstract
本发明属于生物信息学领域,公开了一种流感病毒抗原变化的预测方法。该方法首先针对流感病毒以及流感病毒抗原变化分析的特点,对流感病毒序列对进行编码,其次用深度神经网络在流感病毒对上自动提取抗原性变化的主要特征,然后基于提取的特征对流感病毒对进行抗原变化预测。
Description
技术领域
本发明属于生物信息学领域,涉及一种流感病毒抗原变化的预测方法,更为具体地讲,涉及一种基于深度学习的流感抗原性的预测方法。
背景技术
季节性流感在全世界范围内对公众健康都是一个巨大的威胁。流感病毒根据表面蛋白血凝素(hemagglutinin, HA)和神经氨酸酶(neuraminidase, NA)的差异,可分为不同的亚型如H1N1和H3N2。流感病毒主要通过HA的高突变产生抗原变异株以逃避人体免疫。HA蛋白是由相同亚基组成的三聚体,每个亚基由两条链HA1和HA2组成,分别为329和175个残基。HA1比HA2变异更频繁,并且会经历强烈的免疫选择,从而突变出免疫学上不同的毒株。迄今为止,流感疫苗被认为是阻止流感疫情的最有效手段。然而,HA高突变会导致抗原持续漂移,这对正确选择疫苗株是一个巨大的挑战。流感病毒对间抗原变化的程度主要通过血凝素抑制(haemagglutinin inhibition, HI)实验测得。然而,血清学实验耗时且劳动强度大。事实上,相对于大量HA序列,只有少量文献报道HI实验结果。另一方面,可以通过高通量测序来获得新病毒株的序列,并且随着时间的推移其成本也会越来越低。因此,基于氨基酸序列比较预测流感病毒抗原性是非常好的替代办法,预测有助于减少流感病毒抗原的检测时间,扩大流感监测范围,提高流感疫苗删选的效率。
过去40年来,H3N2流感是人类感染最常见的流感亚型,因此已经有很多研究报道了基于HA1氨基酸序列比较预测甲型H3N2流感病毒抗原变化。但是现有的方法都依赖于特征的选择,例如Huang等人提出的“Co-evolution positions and rules for antigenicvariants of human influenza A/H3N2 viruses”(BMC Bioinformatics, 2009,10(1))基于信息增益和熵鉴定出19个抗原关键位点,并构建了决策树用于抗原变化预测;Cui等人提出的“Using multiple linear regression and physicochemical changes of aminoacid mutations to predict antigenic variants of influenza A/H3N2 viruses”(Bio-medical Materials and Engineering, 2014, 24(6))通过综合位点突变与抗原变异的显著性值和信息熵,鉴定出18个抗原关键位点,再在这些位点上使用多元回归分析为每个位点鉴定出引起抗原变化的8个主要的氨基酸物理化学性质,并用线性模型进行抗原变化预测。现有方法基本步骤是使用训练集选择抗原变异的关键位点,再基于关键位点建立预测模型。然而,选择关键位点往往需要建立选择指标。目前,没有证据表明现有的指标已经找到了最佳策略;其次,这种方法可能忽略掉氨基酸某些潜在特征以及特征之间的非线性关系;第三,流感病毒非常活跃,突变是比较常见的,如果下一代毒株突变的位点超出预测模型的关键位点,那么建立的模型鲁棒性就比较薄弱。
深度学习不仅可以尽可能地避免特征工程的影响,还可以自动从样本中学习主要特征,已经成为图像处理、自然语言处理的一种主流手段。本发明利用深度神经神经网络自动获取流感病毒的抗原性变化的主要特征,并在此基础上实现流感病毒抗原性变化的预测。
发明内容
针对现有技术中存在的不足,本发明在现有技术的基础上提出一种流感病毒抗原变化的预测方法,首先对流感病毒对进行建模,利用深度神经网络自动捕捉流感病毒的抗原性变化的主要特征,并进一步实现流感病毒抗原性的预测。具体来说,本发明具体技术方案包括:
S1:流感病毒编码;
由氨基酸对的抗原变化编码和氨基酸特征编码组成;
其中,的抗原变化编码为20维二进制串,每一维和一个氨基酸一一对应;如果上发生变异则该位对应的变异编码中有且仅有两位取1,其它取0,如果上没有发生变异,则该位上对应的变异编码中有且仅有一位取1,其它取0;
S2:搭建深度神经网络的流感病毒抗原变化预测模型;
预测模型包括输入层、CNN层、门控RNN层和输出层;其中,输入层依次输入训练样本集中两两流感病毒对比序列C以及抗原变化标签Y;CNN层将输入序列C,经过卷积操作、池化操作转换为序列X;门控RNN层将序列X转换为序列H;输出层将序列H转换为抗原变化预测序列;
S3:定义目标函数,用训练集训练模型,得到更新之后的模型参数为θ * ;
S4:对深度神经网络的流感病毒抗原变化预测模型,以及模型参数θ * ,将两条不同流感病毒(P i ,P j )的对比特征编码c输入模型,使用标签作为(P i ,P j )的抗原变化预测,其中,是所有抗原变化标签集合,是模型参数和编码c条件下抗原变化标签的概率函数,y *是在中使函数最大化的标签。
以上技术方案可以看出,本发明具有如下的有益效果:
(1)本发明将流感病毒抗原变化,通过流感病毒对进行编码,该编码不仅可以为流感预测分析提供基础,也为其它氨基酸特性扩充到编码中提供基础和参考;
(2)本发明可以充分挖掘病毒序列中每一位上的氨基酸特征及其他们之间的非线性关系,为提高流感预测的准确性和鲁棒性提供技术支持。
附图说明
图1预测模型;
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
图1为本发明实施例提供的方法流程图,如图1所示,该方法可以包括以下步骤:
步骤101:流感病毒数据集预处理;
本实施例中,取m=329;
例如,第k位上的两条病毒的氨基酸分别为丙氨酸和缬氨酸,那么抗原变化的编码为11000000000000000000;
例如第k位上的两条病毒的氨基酸都为丙氨酸,则编码为10000000000000000000;
本实施里中,通过同源比对获得第k位氨基酸的几何结构特征;
步骤102:搭建流感病毒抗原变化预测模型;
其中,具体模型主要包括以下内容:
第一,输入层:输入层依次输入训练样本集中两两流感病毒对比序列C以及抗原变化标签Y;
第二,CNN层:将序列C转换成序列X;
本实施例中,δ可以公知的ReLu函数;
第三,门控RNN层:
门控RNN层将序列X转换为序列H;门控RNN层通过引入门控循环单元LSTM或者GRU对序列实现进一步的特征提取,即序列的转换;本实施方案可以选择GRU,对该层的输入序列x,GRU在t时刻的状态可以按照下面进行更新:
其中,
在此基础上,进一步定义预测标签条件概率:
其中,θ是模型的所有参数集合;Y c 表示所有c可能标签序列的集合,本实施案例可以取Y c ={1,0},表示抗原变化或不变;
步骤103:模型训练;
其中α是学习率。此外,模型训练可以采用Dropout和正则化策略来避免过拟合程度,同时也采用Early stopping策略,根据验证集的性能决定模型训练的终止时刻,避免训练过程中发生过拟合。
步骤104:流感病毒的抗原变化预测;
Claims (3)
1.一种流感病毒抗原变化的预测方法,该方法的特征在于包括:
S1:流感病毒编码;
S2:搭建深度神经网络的流感病毒抗原变化预测模型;
预测模型包括输入层、CNN层、门控RNN层和输出层;其中,输入层依次输入训练样本集中两两流感病毒对比序列C以及抗原变化标签Y;CNN层将输入序列C,经过卷积操作、池化操作转换为序列X;门控RNN层将序列X转换为序列H;输出层将序列H,转换为抗原变化预测序列;
S3:定义目标函数,用训练集训练模型,得到更新之后的模型参数为θ * ;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811310950.9A CN109448781B (zh) | 2018-11-06 | 2018-11-06 | 一种流感病毒抗原变化的预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811310950.9A CN109448781B (zh) | 2018-11-06 | 2018-11-06 | 一种流感病毒抗原变化的预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109448781A CN109448781A (zh) | 2019-03-08 |
CN109448781B true CN109448781B (zh) | 2021-09-14 |
Family
ID=65550793
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811310950.9A Active CN109448781B (zh) | 2018-11-06 | 2018-11-06 | 一种流感病毒抗原变化的预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109448781B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021080990A1 (en) * | 2019-10-21 | 2021-04-29 | Sanofi Pasteur, Inc. | Systems and methods for designing vaccines |
CN111883262B (zh) * | 2020-09-28 | 2021-01-15 | 平安科技(深圳)有限公司 | 疫情趋势预测方法、装置、电子设备及存储介质 |
CN112582074B (zh) * | 2020-11-02 | 2022-10-18 | 吉林大学 | 基于Bi-LSTM与TF-IDF的新冠疫情预测与分析方法 |
CN116741268B (zh) * | 2023-04-04 | 2024-03-01 | 中国人民解放军军事科学院军事医学研究院 | 筛选病原体关键突变的方法、装置及计算机可读存储介质 |
CN118486369A (zh) * | 2024-01-18 | 2024-08-13 | 云南大学 | 一种优势毒株预测模型训练方法、应用方法及相关装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101847179A (zh) * | 2010-04-13 | 2010-09-29 | 中国疾病预防控制中心病毒病预防控制所 | 通过模型预测流感抗原的方法及应用 |
CN101970483A (zh) * | 2007-12-06 | 2011-02-09 | 达纳-法伯癌症研究公司 | 抗流感病毒抗体及其使用方法 |
CN102264896A (zh) * | 2008-12-25 | 2011-11-30 | 国立大学法人大阪大学 | 抗人流感病毒人型抗体 |
WO2015023596A1 (en) * | 2013-08-12 | 2015-02-19 | Genentech, Inc. | Compositions and method for treating complement-associated conditions |
CN105664149A (zh) * | 2016-02-24 | 2016-06-15 | 华东理工大学 | 一种多抗原流感通用疫苗及其制备方法 |
CN107075588A (zh) * | 2014-10-21 | 2017-08-18 | 优比欧迈公司 | 用于微生物组来源的诊断和治疗的方法及系统 |
CN107750253A (zh) * | 2015-04-08 | 2018-03-02 | 达纳-法伯癌症研究所公司 | 人源化流感单克隆抗体及其使用方法 |
-
2018
- 2018-11-06 CN CN201811310950.9A patent/CN109448781B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101970483A (zh) * | 2007-12-06 | 2011-02-09 | 达纳-法伯癌症研究公司 | 抗流感病毒抗体及其使用方法 |
CN102264896A (zh) * | 2008-12-25 | 2011-11-30 | 国立大学法人大阪大学 | 抗人流感病毒人型抗体 |
CN101847179A (zh) * | 2010-04-13 | 2010-09-29 | 中国疾病预防控制中心病毒病预防控制所 | 通过模型预测流感抗原的方法及应用 |
WO2015023596A1 (en) * | 2013-08-12 | 2015-02-19 | Genentech, Inc. | Compositions and method for treating complement-associated conditions |
CN107075588A (zh) * | 2014-10-21 | 2017-08-18 | 优比欧迈公司 | 用于微生物组来源的诊断和治疗的方法及系统 |
CN107750253A (zh) * | 2015-04-08 | 2018-03-02 | 达纳-法伯癌症研究所公司 | 人源化流感单克隆抗体及其使用方法 |
CN105664149A (zh) * | 2016-02-24 | 2016-06-15 | 华东理工大学 | 一种多抗原流感通用疫苗及其制备方法 |
Non-Patent Citations (1)
Title |
---|
基于机器学习预测H1 亚型流感病毒抗原变异的研究;王佳;《信息通信》;20180915(第9期);63-64 * |
Also Published As
Publication number | Publication date |
---|---|
CN109448781A (zh) | 2019-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109448781B (zh) | 一种流感病毒抗原变化的预测方法 | |
CN110489968B (zh) | 基于RNN和CNN的Android恶意软件检测方法及系统 | |
CN110472417A (zh) | 基于卷积神经网络的恶意软件操作码分析方法 | |
Yin et al. | IAV-CNN: a 2D convolutional neural network model to predict antigenic variants of influenza A virus | |
Pappas et al. | Virus bioinformatics | |
Xia et al. | A deep learning approach for predicting antigenic variation of influenza A H3N2 | |
CN115527605A (zh) | 基于深度图模型的抗体结构预测方法 | |
Shi et al. | Artificial intelligence redefines RNA virus discovery | |
Feng et al. | Artificial intelligence in bioinformatics: Automated methodology development for protein residue contact map prediction | |
US20230298692A1 (en) | Method, System and Computer Program Product for Determining Presentation Likelihoods of Neoantigens | |
Zheng et al. | B-Cell Epitope Predictions Using Computational Methods | |
CN117497043A (zh) | 基于生成对抗网络的流感病毒蛋白质序列生成方法及装置 | |
Zhang et al. | Predicting binding affinities of emerging variants of SARS-CoV-2 using spike protein sequencing data: observations, caveats and recommendations | |
Murad et al. | Spike2CGR: an efficient method for spike sequence classification using chaos game representation | |
CN116130005B (zh) | 多表位疫苗的串联设计方法及装置、设备、存储介质 | |
CN107273842A (zh) | 基于csjoga算法的选择性集成人脸识别方法 | |
US20160232281A1 (en) | High-order sequence kernel methods for peptide analysis | |
CN114023443A (zh) | 一种流感病毒抗原相异性计算方法及系统 | |
Trinquier et al. | SWAMPNN: End-to-end protein structures alignment | |
Forghani et al. | An Artificial Neural Network Based Ensemble Model for Predicting Antigenic Variants: Application of Reduced Amino Acid Alphabets and Word2Vec | |
Kou et al. | Predicting Cross‐Species Infection of Swine Influenza Virus with Representation Learning of Amino Acid Features | |
Forghani et al. | Reduced amino acid alphabet-based encoding and its impact on modeling influenza antigenic evolution | |
Yin | Meta-analysis on the lethality of influenza a viruses using machine learning approaches | |
Sun et al. | B-cell epitope prediction method based on deep ensemble architecture and sequences | |
Howe et al. | Protein residue contact prediction using support vector machine |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
OL01 | Intention to license declared | ||
OL01 | Intention to license declared | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20190308 Assignee: Yunnan Jianze Medical Technology Development Co.,Ltd. Assignor: YUNNAN University Contract record no.: X2024980016908 Denomination of invention: A prediction method for influenza virus antigen changes Granted publication date: 20210914 License type: Open License Record date: 20240930 |