CN116344067A - 流感易感标志物和基于该标志物的流感高危人群预测模型的构建方法与应用 - Google Patents
流感易感标志物和基于该标志物的流感高危人群预测模型的构建方法与应用 Download PDFInfo
- Publication number
- CN116344067A CN116344067A CN202310108655.XA CN202310108655A CN116344067A CN 116344067 A CN116344067 A CN 116344067A CN 202310108655 A CN202310108655 A CN 202310108655A CN 116344067 A CN116344067 A CN 116344067A
- Authority
- CN
- China
- Prior art keywords
- influenza
- genes
- susceptibility
- high risk
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 206010022000 influenza Diseases 0.000 title claims abstract description 107
- 239000003550 marker Substances 0.000 title claims abstract description 16
- 238000010276 construction Methods 0.000 title claims abstract description 8
- 238000012216 screening Methods 0.000 claims abstract description 27
- 102100027205 B-cell antigen receptor complex-associated protein alpha chain Human genes 0.000 claims abstract description 8
- 102100021568 B-cell scaffold protein with ankyrin repeats Human genes 0.000 claims abstract description 8
- 102100036504 Dehydrogenase/reductase SDR family member 9 Human genes 0.000 claims abstract description 8
- 102100030689 Histone H2B type 1-D Human genes 0.000 claims abstract description 8
- 101000914489 Homo sapiens B-cell antigen receptor complex-associated protein alpha chain Proteins 0.000 claims abstract description 8
- 101000971155 Homo sapiens B-cell scaffold protein with ankyrin repeats Proteins 0.000 claims abstract description 8
- 101000928746 Homo sapiens Dehydrogenase/reductase SDR family member 9 Proteins 0.000 claims abstract description 8
- 101000776154 Homo sapiens E3 ubiquitin-protein ligase AMFR Proteins 0.000 claims abstract description 8
- 101001084684 Homo sapiens Histone H2B type 1-D Proteins 0.000 claims abstract description 8
- 101001125116 Homo sapiens Putative serine/threonine-protein kinase PRKY Proteins 0.000 claims abstract description 8
- 101000773122 Homo sapiens Thioredoxin domain-containing protein 5 Proteins 0.000 claims abstract description 8
- 102100029403 Putative serine/threonine-protein kinase PRKY Human genes 0.000 claims abstract description 8
- 108091006954 SLC35E2A Proteins 0.000 claims abstract description 8
- 102100032276 Solute carrier family 35 member E2A Human genes 0.000 claims abstract description 8
- 102100030269 Thioredoxin domain-containing protein 5 Human genes 0.000 claims abstract description 8
- 108090000623 proteins and genes Proteins 0.000 claims description 103
- 230000014509 gene expression Effects 0.000 claims description 26
- 238000000034 method Methods 0.000 claims description 26
- 230000004186 co-expression Effects 0.000 claims description 24
- 241000252870 H3N2 subtype Species 0.000 claims description 22
- 238000007637 random forest analysis Methods 0.000 claims description 19
- 238000010195 expression analysis Methods 0.000 claims description 12
- 238000003012 network analysis Methods 0.000 claims description 12
- 238000001514 detection method Methods 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 7
- 210000004369 blood Anatomy 0.000 claims description 6
- 239000008280 blood Substances 0.000 claims description 6
- 239000003153 chemical reaction reagent Substances 0.000 claims description 3
- 102100037513 40S ribosomal protein S23 Human genes 0.000 claims description 2
- 102100036006 Adenosine receptor A3 Human genes 0.000 claims description 2
- 102100034614 Ankyrin repeat domain-containing protein 11 Human genes 0.000 claims description 2
- 102100034618 Annexin A3 Human genes 0.000 claims description 2
- 102000049320 CD36 Human genes 0.000 claims description 2
- 108010045374 CD36 Antigens Proteins 0.000 claims description 2
- 102100039455 Cytochrome b-c1 complex subunit 6, mitochondrial Human genes 0.000 claims description 2
- 102100021202 Desmocollin-1 Human genes 0.000 claims description 2
- 101100054330 Dictyostelium discoideum abhd gene Proteins 0.000 claims description 2
- 101001097953 Homo sapiens 40S ribosomal protein S23 Proteins 0.000 claims description 2
- 101000783645 Homo sapiens Adenosine receptor A3 Proteins 0.000 claims description 2
- 101000924476 Homo sapiens Ankyrin repeat domain-containing protein 11 Proteins 0.000 claims description 2
- 101000924454 Homo sapiens Annexin A3 Proteins 0.000 claims description 2
- 101000746783 Homo sapiens Cytochrome b-c1 complex subunit 6, mitochondrial Proteins 0.000 claims description 2
- 101000968043 Homo sapiens Desmocollin-1 Proteins 0.000 claims description 2
- 101000880960 Homo sapiens Desmocollin-3 Proteins 0.000 claims description 2
- 101000833892 Homo sapiens Peroxisomal acyl-coenzyme A oxidase 1 Proteins 0.000 claims description 2
- 101000611643 Homo sapiens Protein phosphatase 1 regulatory subunit 15A Proteins 0.000 claims description 2
- 102100026798 Peroxisomal acyl-coenzyme A oxidase 1 Human genes 0.000 claims description 2
- 102100040714 Protein phosphatase 1 regulatory subunit 15A Human genes 0.000 claims description 2
- 238000002360 preparation method Methods 0.000 claims description 2
- 102100030378 Hemoglobin subunit theta-1 Human genes 0.000 abstract description 7
- 101000843063 Homo sapiens Hemoglobin subunit theta-1 Proteins 0.000 abstract description 7
- 102100032045 E3 ubiquitin-protein ligase AMFR Human genes 0.000 abstract description 6
- 241000134304 Influenza A virus H3N2 Species 0.000 abstract description 4
- 238000013058 risk prediction model Methods 0.000 abstract 1
- 208000037797 influenza A Diseases 0.000 description 10
- 230000001932 seasonal effect Effects 0.000 description 10
- 230000000694 effects Effects 0.000 description 7
- 208000015181 infectious disease Diseases 0.000 description 7
- 239000000523 sample Substances 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000002493 microarray Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 241000712461 unidentified influenza virus Species 0.000 description 5
- 238000013145 classification model Methods 0.000 description 4
- 201000010099 disease Diseases 0.000 description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 241000700605 Viruses Species 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 108020004707 nucleic acids Proteins 0.000 description 3
- 150000007523 nucleic acids Chemical class 0.000 description 3
- 102000039446 nucleic acids Human genes 0.000 description 3
- 208000024891 symptom Diseases 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000013518 transcription Methods 0.000 description 3
- 230000035897 transcription Effects 0.000 description 3
- 229960005486 vaccine Drugs 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 241000712431 Influenza A virus Species 0.000 description 2
- 238000002790 cross-validation Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- TWXDDNPPQUTEOV-FVGYRXGTSA-N methamphetamine hydrochloride Chemical compound Cl.CN[C@@H](C)CC1=CC=CC=C1 TWXDDNPPQUTEOV-FVGYRXGTSA-N 0.000 description 2
- 210000005259 peripheral blood Anatomy 0.000 description 2
- 239000011886 peripheral blood Substances 0.000 description 2
- 230000002265 prevention Effects 0.000 description 2
- 230000001681 protective effect Effects 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 230000002103 transcriptional effect Effects 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 208000034048 Asymptomatic disease Diseases 0.000 description 1
- 108020004414 DNA Proteins 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 238000012408 PCR amplification Methods 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000003766 bioinformatics method Methods 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 208000030204 developmental and epileptic encephalopathy 2 Diseases 0.000 description 1
- 208000030249 developmental and epileptic encephalopathy 5 Diseases 0.000 description 1
- 208000029702 developmental and epileptic encephalopathy, 2 Diseases 0.000 description 1
- 208000016720 developmental and epileptic encephalopathy, 5 Diseases 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000011081 inoculation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000002547 new drug Substances 0.000 description 1
- 230000035764 nutrition Effects 0.000 description 1
- 235000016709 nutrition Nutrition 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000005180 public health Effects 0.000 description 1
- 208000023504 respiratory system disease Diseases 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009385 viral infection Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/80—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for detecting, monitoring or modelling epidemics or pandemics, e.g. flu
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- Pathology (AREA)
- Molecular Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Genetics & Genomics (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Primary Health Care (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了流感易感标志物和基于该标志物的流感高危人群预测模型的构建方法与应用,该流感易感标志物为“AMFR”、“HBQ1”、“DHRS9”、“SLC35E2A”、“BANK1”、“CD79A”、“TXNDC5”、“H2BC5”和“PRKY”的组合。该标志物和基于其建立的流感风险预测模型是基于健康成年人基线水平转录组的数据得到的,能够用于筛选健康成年人中甲型流感H3N2易感个体,AUC为0.94、准确度为0.91、精确度为1、召回率为0.75、F1评分为0.86,具有较好的准确度。
Description
技术领域
本发明属于分子生物学领域,具体涉及流感易感标志物和基于该标志物的流感高危人群预测模型的构建方法与应用。
背景技术
流感病毒在人类和动物中定期引起季节性流行病,偶尔还会引起严重的流行病。全球每年约有300万至500万例严重病例,约有29万至65万人死于季节性流感引起的呼吸系统疾病,在全世界范围造成严重的公共卫生问题,亟需开发更有效的药物、疫苗及相关的防护措施来遏制流感病毒的传播、流行与爆发。因此,开发设计更有效、更具针对性的药物、疫苗及相关的防护措施是当前流感病毒研究的重中之重。
流感病毒的感染范围广,可感染任何年龄段的人。但是暴露在同一流感病毒环境的人往往会出现不同的结局,例如有的人症状轻微,有的人症状危重,但有的人无症状。这表明个体对流感的易感性存在差异。流感易感性的差异导致人群患病风险不同。精准识别高风险人群,对流感的精准预防和治疗以及新药和疫苗的研发至关重要,将有助于减轻人类流感的疾病负担。
相关技术中,发现造成宿主对流感易感性差异的原因是非常复杂的,有包括来自病毒、宿主和环境等多方面因素牵涉其中,例如接触史、遗传因素、年龄、营养等等。但目前在转录水平进行流感易感性的研究还比较少。相关技术中,主要关注的是易感与不易感人群在感染后的转录特征差异,并且分类模型大多依赖感染后的特征,而缺乏对于感染前高风险人群的识别。高风险人群的识别更具意义和实际应用价值的地方是在于在病毒感染前捕捉到机体的特点,也就是关注基线水平易感与不易感人的异同。此外,目前的研究大多数集中在老年人、儿童、孕妇等特殊人群的易感研究上,针对健康成年人的易感性研究还非常少。然而健康成年人在总人口中占相当大的比例,并且其流动性高、活动范围广泛。不仅如此,健康成年人在家庭、工作及社会中扮演着重要的支柱角色,是社会生产的主要劳动力。这些原因使得健康成年人一旦患上流感,则传播风险更高,危害更大。
因此,本发明将重点关注健康成年人的流感易感性,并致力于在基线转录水平寻找与易感性相关的基因,并且利用这些基因构建能够面向健康人群进行早期风险筛查的预测模型,以克服现有技术中对于该方面的研究空白。
发明内容
本发明旨在至少解决上述现有技术中存在的技术问题之一。为此,本发明提出一组流感易感标志物和基于该标志物的流感高危人群预测模型的构建方法与应用。本发明通过从流感患者基因基线数据中筛分出有症状和无症状受试者数据,分别进行差异表达分析和共表达网络分析,结合随机森林模型成功构建得到了一种能够准确分析流感高危人群的预测模型,其AUC可达到0.94,准确率高,从而能够在极早期的发现流感高危人群,有效实施干预措施或治疗手段,精准控制流感的发生和传播,降低其对于人群健康的危害。
本发明的第一个方面,提供一组流感易感标志物,所述流感易感标志物为“AMFR”、“HBQ1”、“DHRS9”、“SLC35E2A”、“BANK1”、“CD79A”、“TXNDC5”、“H2BC5”和“PRKY”。
在本发明的一些实施方式中,所述流感包括H3N2。
在本发明的一些实施方式中,所述流感为H3N2。
本发明的第二个方面,提供一种流感高危人群预测模型的构建方法,包括如下步骤:
(1)采集受试者样本中的基因数据,筛选出流感相关的基线数据进行使用;
(2)从基线数据中筛分出有症状和无症状受试者数据,分别进行差异表达分析和共表达网络分析,选取差异表达分析和共表达网络分析后的交集基因作为候选基因;
(3)基于候选基因,采用随机森林构建得到流感高危人群预测模型。
其中,所述候选基因包括本发明第一个方面所述的流感易感标志物,具体为“AMFR”、“HBQ1”、“DHRS9”、“SLC35E2A”、“BANK1”、“CD79A”、“TXNDC5”、“H2BC5”和“PRKY”的组合。
在本发明的一些实施方式中,所述差异表达分析中设置参数pfp≤0.05。
在本发明的一些实施方式中,所述共表达网络分析的步骤包括:
(1)采用R中的Hclust函数分层聚类方法对样本进行聚类;
(2)利用WGCNAR包中的函数选择软阈值计算软阈值功率β,计算皮尔逊相关性,并使用皮尔逊相关性结果构造具有软阈值功率β的加权邻接矩阵;
(3)将加权邻接矩阵转化为拓扑重叠测度,根据拓扑重叠测度的差异度量进行平均连锁层次聚类,从而将表达模式相似的基因划分在同一模块中,即可。
在本发明的一些实施方式中,所述阈值β设置为6~8。
在本发明的一些实施方式中,所述阈值β设置为6,R2可达0.9。
在本发明中,经过测试,发现阈值β设置为6时,平均连通性相对较高。
在本发明的一些实施方式中,所述拓扑重叠测度(TOM)用于估计其中基因的网络连通性。
在本发明的一些实施方式中,所述平均连锁层次聚类的相关参数设置为:TOMType=“unsigned”,min Module Size=15,reassign Threshold=0,merge Cut Height=0.25,deepsplit=2。
在本发明中,经过测试,共得到18个模块,其中5个与易感和非易感密切相关的模块,具体为:"MECyan"、"MEMidnightblue"、"MEBlue"、"MEGreenyellow"、"MEGrey60",共计466个基因。
在本发明的一些实施方式中,所述差异表达分析(DEGs)是基于RankProd(版本3.18.0)的方法确定无症状和有症状宿主之间的差异表达基因(DEGs)。在本发明中,共从8478个基因中筛选出223个差异表达基因。
在本发明中,术语“差异表达基因(DEGs)”是指在RNA水平处在不同状态或条件下,表达有显著性差异的基因。
在本发明的一些实施方式中,共表达网络分析是利用R包WGCNA使用8478个基因中的前20%的变异基因(1696个基因)构建共表达网络。
在本发明的一些实施方式中,选取差异表达分析和共表达网络分析后的交集基因作为候选基因的具体操作为:使用模块筛选为基础进行代表性基因(候选基因)的筛选,模块筛选具体为在一个模块中随机挑选两个基因,利用挑选出的2个基因和其他2个模块中的所有基因的表达谱构建随机森林模型,利用五折交叉验证评价该模型的准确性。测试该模块中所有2个基因与其他2个模块基因构成的随机森林模型情况,比较其准确性,选择该模块中准确性最高的模型,组成该模型的2个基因即为从该模块中挑选出的与流感易感性相关程度最高的2个基因。
在本发明的一些实施方式中,还可以借助机器学习中如方差阈值、SelectKBesT、递归特征消除、SelectFromModel特征选择、顺序特征选择等方法进行候选基因。
在本发明的一些实施方式中,所述流感高危人群预测模型的构建方法还包括后续对模型的进一步手动调参、网格调参等方式对模型的参数进行调试,以优化预测模型。
在本发明的一些实施方式中,所述流感包括H3N2。
在本发明的一些实施方式中,所述流感为H3N2。
在本发明的一些实施方式中,所述流感高危人群预测模型的构建方法具体为:
(1)从基因表达综合数据库(GEO)收集基于流感挑战实验的与A/H3N2流感相关的微阵列数据,提取数据集在基线(第0天)的微阵列数据,其中,总共包含30个有症状的宿主和19个无症状的宿主,并通过数据整合和预处理,最终得到包含8478个基因的在49个样本(其30个有症状宿主,19个无症状宿主)中的表达谱;
(2)利用生物学分析方法对包含8478个基因的表达谱进行初步筛选,其中,通过差异表达分析筛选出在有症状和无症状宿主之间存在表达差异的基因,通过共表达网络分析得到与季节性流感A/H3N2易感性相关的共表达模块中的基因,根据综合差异表达基因和共表达模块的基因分析结果,提取出既在感染季节性流感A/H3N2后有、无症状宿主间存在差异表达,同时又属于季节性流感A/H3N2易感性相关共表达模块的基因作为初步筛选的结果;
(3)使用基于共表达模块的筛选方法进一步筛选出候选基因:分别在每一个共表达模块中,利用随机森林模型进一步筛选每个共表达模块与流感易感性最相关的两个基因,综合每个模块的结果,可以筛选出与流感易感性相关程度最高的候选基因。
(4)基于得到的候选基因表达谱数据,使用随机森林的方法构建分类模型,来预测个体是否易感。
在本发明中,所述预测模型是基于健康人群基线血液转录组,通过筛选流感易感性相关基因,从而构建得到的基于靶向基因的面向普通人群流感易感性预测模型,与现有技术中流感风险评估模型的数据基础和判定标准完全不同,是唯一一种面向普通人群流感易感性的预测模型。
早期筛查对于流感的控制具有极为重要的意义,对于具有高发病风险的个体,可以针对感染甲型流感的高危因素,尤其是环境因素等方面,采取针对性的措施,进行更为精准的预防干预。针对高危人群的重点预防策略更符合成本效益原则,可以使有限的医疗资源发挥其最大的效益,在很大程度上减少医疗资源和社会经济的浪费。同时,通过阻断对甲型流感高度易感的个体感染,切断了流感的多条传播链,保护其他可能感染流感的个体。能达到进一步降低甲型流感H3N2在人群中的发病风险、减轻流感的疾病负担、保护人群健康的效果。
在本发明中,术语“易感性”是指指个体患病的风险。即在相同环境下,不同个体患病的风险,可能与遗传,环境等多方面因素相关。
本发明的第三个方面,提供定量检测本发明第一个方面所述流感易感标志物的产品在制备流感高危人群预测产品中的应用。
在本发明的一些实施方式中,所述流感高危人群预测产品包括检测试剂、检测试剂盒、检测芯片、风险预测系统。
在本发明的一些实施方式中,所述风险预测系统中,定量检测本发明第一个方面所述流感易感标志物的产品作为检测端,通过检测端得到的数据将传输至载有本发明中的流感高危人群预测模型的分析端进行分析,从而得到预测结果,借由预测结果直接输出人群判定结果。
在本发明的一些实施方式中,所述流感包括H3N2。
在本发明的一些实施方式中,所述流感为H3N2。
在本发明的一些实施方式中,所述流感高危人群预测产品的使用方法包括如下步骤:定量待测样品中的流感易感标志物含量,将其带入预测模型中,根据预测模型得到的结果判定是否属于流感高危人群。
在本发明的一些实施方式中,所述预测模型为由基因“AMFR”、“HBQ1”、“DHRS9”、“SLC35E2A”、“BANK1”、“CD79A”、“TXNDC5”、“H2BC5”和“PRKY”为特征组成的随机森林分类模型,只需带入患者的这些基因在血液中的表达量,模型就可以判断该患者是否为流感高危人群。
在本发明的一些实施方式中,流感高危人群的判定标准为:若模型输出为1,则判定为流感高危人群;若模型输出为0,则判定为流感低风险或无风险人群。
在本发明中,本发明旨在提供一组与流感易感性相关的基因,使得能够在基线水平基于这几个基因的血液转录组筛查就能够通过模型预测健康成年人对季节性流感A/H3N2患病风险高低。
本发明的有益效果是:
1.本发明只基于健康成年人基线水平转录组的数据,发现了与流感易感性相关的标志物组合:“AMFR”、“HBQ1”、“DHRS9”、“SLC35E2A”、“BANK1”、“CD79A”、“TXNDC5”、“H2BC5”和“PRKY”,并基于该标志物构建了随机森林分类模型,用于筛选健康成年人中甲型流感H3N2易感个体,并且具有较好的准确度;而且在该标志物筛选中,充分考虑了其生物学意义,也考虑到同一个模块中的基因有相似的表达模式且目前输入特征较多会容易导致输入数据太多造成过度拟合的问题,实现了有效的最优化。
2.本发明中的构建方法是基于基线转录信息,筛选流感易感性相关的基因,并构建随机森林模型,预测健康成人对季节性流感A/H3N2的易感性,该方法简单方便、得到的模型具有较高灵敏度;而且,该方法中重点关注了差异表达基因和共表达模块中的差异性,得到的模型能根据实际情况进行调整优化,可通过其他原则进行或者不进行初步筛选,具有较高的灵活性。
3.本发明中的模型是基于健康成年人转录组基线水平的基因表达,预测个体针对甲型流感病毒H3N2的易感性,可以面向社会广泛适用于人群对甲型流感易感性的筛查,不具有人群限定性,且该模型的AUC为0.94、准确度为0.91、精确度为1、召回率为0.75、F1评分为0.86,表明其具有良好的预测效果。
4.本发明中的模型利用的是外周血转录组数据对健康成年人中流感易感性个体进行预测,获取外周血组织是相对无创的医学检查手段,群众接受程度高,可行性程度高,而且可以及时发现并筛选出健康人群中对流感高度易感的人群,从而在个体因素方面确定甲型流感的高危人群。
附图说明
图1为以独立数据集GSE61754作为验证集,使用本发明中的预测模型得到的ROC曲线。
具体实施方式
为了使本发明的发明目的、技术方案及其技术效果更加清晰,以下结合具体实施方式,对本发明进行进一步详细说明。应当理解的是,本说明书中描述的具体实施方式仅仅是为了解释本发明,并非为了限定本发明。
所使用的实验材料和试剂,若无特别说明,均为常规可从商业途径所获得的耗材和试剂。
流感高危人群预测模型的构建
在本实施例中,以季节性流感A/H3N2为例,展示了通过模型利用基线转录信息预测健康成人对流感的的易感性,具体包括以下步骤:
1.数据收集:
从基因表达综合数据库(GEO)中收集3个微阵列数据集:GSE73072_DEE2、GSE73072_DEE5、GSE61754。上述3个微阵列数据集均来自于人类流感挑战实验。该试验是基于对志愿者接种A/H1N1或A/H3N2流感病毒后的基线和其他几个时间点采集得到的血液样本,在转录水平上对采集的样本进行测序后得到的数据,详细信息见表1。在本实施例中,仅提取与A/H3N2流感相关的基线数据进行使用。
基于流感实验室检测和自我报告的改良Jackson评分的症状状态,上述数据集中的个体被定义为有症状(代表易感个体)和无症状(代表非易感个体)的宿主。具体地,所用数据集总共包括49名受试者,其中为30个有症状的宿主和19个无症状的宿主。
表1流感挑战实验数据集信息
GEO ID | 病毒 | 无症状 | 有症状 | 芯片 | 参考文章 |
GSE61754 | H3N2 | 3 | 8 | Illumina | Emma E et al.2015 |
GSE73072_DEE2 | H3N2 | 8 | 9 | Affymetrix | Yu Liu,et al.2016 |
GSE73072_DEE5 | H3N2 | 8 | 13 | Affymetrix | Yu Liu,et al.2016 |
2.数据预处理:
为了消除实验平台和处理方法对数据的影响,对上述的3个微阵列实验中的数据集进行预处理,具体步骤如下:首先,在对数组探针进行注释后,将所有数据合并成一个单一的矩阵,其中,行表示基因,列表示样本,并对矩阵进行对数变换。经保留所有3个数据中的基因信息,最终的基因表达矩阵共包含了49个样本的8478个基因。对得到的基因信息采用R包limma(版本3.48.3.)中的“标准化间数组”方法对原始矩阵进行归一化。然后,使用具有默认参数(版本3.40.0)的R包sva中的ComBat方法去除批次效应。最后,选取数据集GSE73072_DEE2和GSE73072_DEE2作为训练集(总共包含38个样本,其中16个无症状样本,22个有症状样本),以独立数据集GSE61754作为独立验证集(其中包含3个无症状样本,8个有症状样本),用于评价模型。
3.易感性相关基因初筛:
在本发明实施例中,易感性相关基因的筛选是基于生物信息学分析的方法,具体为利用差异表达基因和共表达网络分析对预处理后的基因表达数据进行初步筛选。
(1)差异表达分析(DEGs):
使用RankProd(版本3.18.0)(percentage of false predictions(pfp)<=0.05)的方法确定无症状和有症状宿主之间的差异表达基因(DEGs)。
在本实施例中,共从8478个基因中筛选出223个差异表达基因。
(2)共表达网络分析:
利用R包WGCNA使用8478个基因中的前20%的变异基因(1696个基因)构建共表达网络。
具体步骤为:
为了检验是否存在异常值,首先采用R中的Hclust函数分层聚类方法对样本进行聚类。然后利用WGCNAR包中的函数选择软阈值计算软阈值功率β。其中,阈值β设置为6,R2可达0.9,平均连通性相对较高,符合无标度网络的标准。计算皮尔逊相关性,并使用皮尔逊相关性结果构造一个具有软阈值功率β的加权邻接矩阵。将加权邻接矩阵转化为一个拓扑重叠测度(TOM)。得到的TOM可以用来估计其中任意一个基因的网络连通性。基于TOM的差异度量进行平均连锁层次聚类,将表达模式相似的基因划分为模块。其中,平均连锁层次聚类的相关参数设置为:TOM Type=“unsigned”,min Module Size=15,reassign Threshold=0,merge Cut Height=0.25,deepsplit=2。
最终共得到18个模块,其中5个与易感和非易感密切相关的模块,具体为"MECyan"、"MEMidnightblue"、"MEBlue"、"MEGreenyellow"、"MEGrey60",共计466个基因。
(3)易感性相关基因初步筛选:
通过上述(1)和(2)中的步骤,实现了基于共表达网络找到了和流感易感性相关的模块,而这些模块当中包含了潜在的和流感易感性相关的基因。此外,差异表达分析也从另外一个角度找到了在基线状态下,有症状和无症状群体表达不一样的基因。通过对比两者中找到的流感易感性相关的基因,仅同时均为差异表达基因才对于区分流感易感和不易感人群更有意义。最终,通过比对分析后得到的5个显著共表达模块的基因集和DEGs之间的交集基因,选取了共119个基因作为候选基因,以供下一步构建模型。
4.基于模块的易感基因筛选:
为了进一步筛选与流感易感性相关的基因,同时避免单个数据集造成偏差以及潜在过拟合,考虑到同一个模块中的基因有相似的表达模式及相似的功能,本发明采用基于模块筛选代表性基因。
具体筛选方法为:在一个模块中随机挑选两个基因,利用挑选出的2个基因和其他2个模块中的所有基因的表达谱构建随机森林模型,利用五折交叉验证评价该模型的准确性。测试该模块中所有2个基因与其他2个模块基因构成的随机森林模型情况,比较其准确性,选择该模块中准确性最高的模型,组成该模型的2个基因即为从该模块中挑选出的与流感易感性相关程度最高的2个基因。
通过在每个共表达模块中重复上述筛选操作,最终从5个共表达模块中共选取了相关程度最高的9个基因作为最终的预测模型特征。最终得到的关于甲型季节性流感病毒A/H3N2易感性相关的9个重要基因为:“AMFR”、“HBQ1”、“DHRS9”、“SLC35E2A”、“BANK1”、“CD79A”、“TXNDC5”、“H2BC5”、“PRKY”。
进一步利用手动调参、网格调参等方式对模型的参数进行调试,优化预测模型,找到了预测准确性最高的模型。
得到的模型代码为:
该预测模型为由基因“AMFR”、“HBQ1”、“DHRS9”、“SLC35E2A”、“BANK1”、“CD79A”、“TXNDC5”、“H2BC5”和“PRKY”为特征组成的随机森林分类模型,只需带入患者的这些基因在血液中的表达量,模型就可以判断该患者是否为流感高危人群。若模型输出为1,则判定为流感高危人群;若模型输出为0,则判定为流感低风险或无风险人群。
效果验证
采用上述实施例中获得的基于甲型季节性流感病毒A/H3N2易感性相关的9个重要基因的随机森林预测模型进行预测效果验证。
具体步骤为:
以独立数据集GSE61754作为验证集,基于上述步骤筛选得到的9个重要基因,从基因表达谱中提取这些基因对应的表达数据并在训练集中通过R包randomForest按照上述实施例中的方法构建随机森林分类预测模型。
使用独立数据集GSE61754来对模型效果进行评价,分别计算了准确度、精度、召回率、F1评分、曲线下面积AUC;并且也绘制了对应的ROC曲线,结果见表2和图1。
表2随机森林预测模型在选定的训练数据集上预测A/H3N2流感易感人群的性能
分类模型 | 准确性 | 精确度 | 召回率 | F1评分 | AUC |
随机森林 | 0.91 | 1 | 0.75 | 0.86 | 0.94 |
从表1中可以看出,通过上述实施例中得到的流感高危人群预测模型能够极好的区分出流感高危人群,准确率高,特异性强,AUC可以达到0.94。
实际使用方法
在实际使用中,通过从收集得到的受试者样品中提取核酸分子(DNA,可采用市售核酸提取试剂盒或其他产品),并通过核酸定量检测技术(如针对上述ADORA3、CD36、ANXA3、PPP1R15A、ABHD2、ANKRD11、RPS23、UQCRH、ACOX1、DSC1的PCR扩增技术或测序技术)得到对应基因在受试者样品中的含量,将其带入上述模型中,当模型输出为1,则判定为流感高危人群;若模型输出为0,则判定为流感低风险或无风险人群。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (10)
1.一组流感易感标志物,其特征在于,所述流感易感标志物为ADORA3、CD36、ANXA3、PPP1R15A、ABHD2、ANKRD11、RPS23、UQCRH、ACOX1和DSC1;所述流感优选包括H3N2。
2.一种流感高危人群预测模型的构建方法,包括如下步骤:
(1)采集受试者样本中的基因数据,筛选出流感相关的基线数据进行使用;
(2)从基线数据中筛分出有症状和无症状受试者数据,分别进行差异表达分析和共表达网络分析,选取差异表达分析和共表达网络分析后的交集基因作为候选基因;
(3)基于候选基因,采用随机森林构建得到流感高危人群预测模型;
其中,所述候选基因包括权利要求1所述的流感易感标志物。
3.根据权利要求2所述的构建方法,其特征在于,所述差异表达分析中错误预测百分比的基因≤0.05。
4.根据权利要求2所述的构建方法,其特征在于,所述共表达网络分析的步骤包括:
(1)采用R中的Hclust函数分层聚类方法对样本进行聚类;
(2)利用WGCNAR包中的函数选择软阈值计算软阈值功率β,计算皮尔逊相关性,并使用皮尔逊相关性结果构造具有软阈值功率β的加权邻接矩阵;
(3)将加权邻接矩阵转化为拓扑重叠测度,根据拓扑重叠测度的差异度量进行平均连锁层次聚类,从而将表达模式相似的基因划分在同一模块中,即可。
5.定量检测权利要求1所述流感易感标志物的产品在制备流感高危人群预测产品中的应用。
6.根据权利要求5所述的应用,其特征在于,所述流感高危人群预测产品包括检测试剂、检测试剂盒、检测芯片、风险预测系统。
7.根据权利要求5所述的应用,其特征在于,所述流感包括H3N2。
8.根据权利要求5所述的应用,其特征在于,所述流感高危人群预测产品的使用方法包括如下步骤:定量待测样品中的流感易感标志物含量,将其带入预测模型中,根据预测模型得到的结果判定是否属于流感高危人群。
9.根据权利要求8所述的应用,其特征在于,所述预测模型为由基因“AMFR”、“HBQ1”、“DHRS9”、“SLC35E2A”、“BANK1”、“CD79A”、“TXNDC5”、“H2BC5”和“PRKY”为特征组成的随机森林分类模型,只需带入患者的这些基因在血液中的表达量,模型就可以判断该患者是否为流感高危人群。
10.根据权利要求8所述的应用,其特征在于,流感高危人群的判定标准为:若模型输出为1,则判定为流感高危人群;若模型输出为0,则判定为流感低风险或无风险人群。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310108655.XA CN116344067A (zh) | 2023-01-17 | 2023-01-17 | 流感易感标志物和基于该标志物的流感高危人群预测模型的构建方法与应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310108655.XA CN116344067A (zh) | 2023-01-17 | 2023-01-17 | 流感易感标志物和基于该标志物的流感高危人群预测模型的构建方法与应用 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116344067A true CN116344067A (zh) | 2023-06-27 |
Family
ID=86892076
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310108655.XA Pending CN116344067A (zh) | 2023-01-17 | 2023-01-17 | 流感易感标志物和基于该标志物的流感高危人群预测模型的构建方法与应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116344067A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101374964A (zh) * | 2005-12-09 | 2009-02-25 | 贝勒研究院 | 外周血液白细胞转录模式的模块水平分析 |
US20150376723A1 (en) * | 2014-06-27 | 2015-12-31 | University Health Network | Prognostic biomarkers for influenza |
CN107922481A (zh) * | 2015-08-20 | 2018-04-17 | 基亚生物科技股份有限公司 | 抗甲型h1n1流感病毒中和抗体 |
CN111020020A (zh) * | 2019-07-05 | 2020-04-17 | 深圳华大生命科学研究院 | 一种精神分裂症的生物标志物组合、其应用及metaphlan2筛选方法 |
CN114242259A (zh) * | 2020-09-07 | 2022-03-25 | 奇美医疗财团法人奇美医院 | 高龄流感病情预测系统、程序产品及其建立与使用方法 |
-
2023
- 2023-01-17 CN CN202310108655.XA patent/CN116344067A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101374964A (zh) * | 2005-12-09 | 2009-02-25 | 贝勒研究院 | 外周血液白细胞转录模式的模块水平分析 |
US20150376723A1 (en) * | 2014-06-27 | 2015-12-31 | University Health Network | Prognostic biomarkers for influenza |
CN107922481A (zh) * | 2015-08-20 | 2018-04-17 | 基亚生物科技股份有限公司 | 抗甲型h1n1流感病毒中和抗体 |
CN111020020A (zh) * | 2019-07-05 | 2020-04-17 | 深圳华大生命科学研究院 | 一种精神分裂症的生物标志物组合、其应用及metaphlan2筛选方法 |
CN114242259A (zh) * | 2020-09-07 | 2022-03-25 | 奇美医疗财团法人奇美医院 | 高龄流感病情预测系统、程序产品及其建立与使用方法 |
Non-Patent Citations (1)
Title |
---|
JING TANG, QIUMEI XU, KANG TANG, XIAOYAN YE, ZICHENG CAO 2, 5 , MIN ZOU, JINFENG ZENG, XINYAN GUAN, JINGLIN HAN, YIHAN WANG, LAN Y: "Susceptibility identi fi cation for seasonal in fl uenza A/H3N2 based on baseline blood transcriptome", 《FRONTIERS IN IMMUNOLOGY》, 12 January 2023 (2023-01-12), pages 1 - 10 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111785328B (zh) | 基于门控循环单元神经网络的冠状病毒序列识别方法 | |
CN112133365A (zh) | 评估肿瘤微环境的基因集、评分模型及其应用 | |
CN105653846A (zh) | 基于集成的相似性度量和双向随机游走的药物重定位方法 | |
CN102007407A (zh) | 基因组鉴定系统 | |
CN108319813A (zh) | 循环肿瘤dna拷贝数变异的检测方法和装置 | |
WO2022170909A1 (zh) | 药物敏感预测方法、电子设备及计算机可读存储介质 | |
CN108323184A (zh) | 验证生物标志物测量 | |
CN110904213B (zh) | 一种基于肠道菌群的溃疡性结肠炎生物标志物及其应用 | |
CN111440869A (zh) | 一种用于预测原发性乳腺癌发生风险的dna甲基化标记物及其筛选方法和应用 | |
CN111020020A (zh) | 一种精神分裂症的生物标志物组合、其应用及metaphlan2筛选方法 | |
CN113362894A (zh) | 一种对协同致死的癌症驱动基因进行预测的方法 | |
CN116287204A (zh) | 检测特征基因的突变情况在制备静脉血栓栓塞症风险检测产品中的应用 | |
Rolling et al. | Customization of a DADA2-based pipeline for fungal internal transcribed spacer 1 (ITS1) amplicon data sets | |
CN111763738A (zh) | 一种特征mRNA表达谱组合及肝癌早期预测方法 | |
CN111733251A (zh) | 一种特征miRNA表达谱组合及肾透明细胞癌早期预测方法 | |
Hobbs et al. | Biostatistics and bioinformatics in clinical trials | |
CN116344067A (zh) | 流感易感标志物和基于该标志物的流感高危人群预测模型的构建方法与应用 | |
CN105177130B (zh) | 用来评估艾滋病人发生免疫重建炎性综合症的标志物 | |
US20030194701A1 (en) | Diffuse large cell lymphoma diagnosis and outcome prediction by expression analysis | |
CN113930526A (zh) | 用于鉴别甲基苯丙胺涉毒人群的方法、组合物及其应用 | |
CN114974432A (zh) | 一种生物标志物的筛选方法及其相关应用 | |
CN115044665A (zh) | Arg1在制备脓毒症诊断、严重程度判断或预后评估试剂或试剂盒中的应用 | |
WO2019206217A1 (zh) | 多发性骨髓瘤分子分型及应用 | |
Lauria | Rank‐Based miRNA Signatures for Early Cancer Detection | |
CN111020021A (zh) | 一种基于肠道菌群的小规模精神分裂症生物标志物组合、其应用及mOTU筛选方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |