CN116344067A

CN116344067A - 流感易感标志物和基于该标志物的流感高危人群预测模型的构建方法与应用

Info

Publication number: CN116344067A
Application number: CN202310108655.XA
Authority: CN
Inventors: 杜向军; 唐静; 韩婧琳; 魏杰; 王奕涵; 林毅珊; 唐康; 曾金锋; 邱泽凯; 陈绎霖; 程佩文
Original assignee: Sun Yat Sen University; Sun Yat Sen University Shenzhen Campus
Current assignee: Sun Yat Sen University; Sun Yat Sen University Shenzhen Campus
Priority date: 2023-01-17
Filing date: 2023-01-17
Publication date: 2023-06-27

Abstract

本发明公开了流感易感标志物和基于该标志物的流感高危人群预测模型的构建方法与应用，该流感易感标志物为“AMFR”、“HBQ1”、“DHRS9”、“SLC35E2A”、“BANK1”、“CD79A”、“TXNDC5”、“H2BC5”和“PRKY”的组合。该标志物和基于其建立的流感风险预测模型是基于健康成年人基线水平转录组的数据得到的，能够用于筛选健康成年人中甲型流感H3N2易感个体，AUC为0.94、准确度为0.91、精确度为1、召回率为0.75、F1评分为0.86，具有较好的准确度。

Description

流感易感标志物和基于该标志物的流感高危人群预测模型的构建方法与应用

技术领域

本发明属于分子生物学领域，具体涉及流感易感标志物和基于该标志物的流感高危人群预测模型的构建方法与应用。

背景技术

流感病毒在人类和动物中定期引起季节性流行病，偶尔还会引起严重的流行病。全球每年约有300万至500万例严重病例，约有29万至65万人死于季节性流感引起的呼吸系统疾病，在全世界范围造成严重的公共卫生问题，亟需开发更有效的药物、疫苗及相关的防护措施来遏制流感病毒的传播、流行与爆发。因此，开发设计更有效、更具针对性的药物、疫苗及相关的防护措施是当前流感病毒研究的重中之重。

流感病毒的感染范围广，可感染任何年龄段的人。但是暴露在同一流感病毒环境的人往往会出现不同的结局，例如有的人症状轻微，有的人症状危重，但有的人无症状。这表明个体对流感的易感性存在差异。流感易感性的差异导致人群患病风险不同。精准识别高风险人群，对流感的精准预防和治疗以及新药和疫苗的研发至关重要，将有助于减轻人类流感的疾病负担。

相关技术中，发现造成宿主对流感易感性差异的原因是非常复杂的，有包括来自病毒、宿主和环境等多方面因素牵涉其中，例如接触史、遗传因素、年龄、营养等等。但目前在转录水平进行流感易感性的研究还比较少。相关技术中，主要关注的是易感与不易感人群在感染后的转录特征差异，并且分类模型大多依赖感染后的特征，而缺乏对于感染前高风险人群的识别。高风险人群的识别更具意义和实际应用价值的地方是在于在病毒感染前捕捉到机体的特点，也就是关注基线水平易感与不易感人的异同。此外，目前的研究大多数集中在老年人、儿童、孕妇等特殊人群的易感研究上，针对健康成年人的易感性研究还非常少。然而健康成年人在总人口中占相当大的比例，并且其流动性高、活动范围广泛。不仅如此，健康成年人在家庭、工作及社会中扮演着重要的支柱角色，是社会生产的主要劳动力。这些原因使得健康成年人一旦患上流感，则传播风险更高，危害更大。

因此，本发明将重点关注健康成年人的流感易感性，并致力于在基线转录水平寻找与易感性相关的基因，并且利用这些基因构建能够面向健康人群进行早期风险筛查的预测模型，以克服现有技术中对于该方面的研究空白。

发明内容

本发明旨在至少解决上述现有技术中存在的技术问题之一。为此，本发明提出一组流感易感标志物和基于该标志物的流感高危人群预测模型的构建方法与应用。本发明通过从流感患者基因基线数据中筛分出有症状和无症状受试者数据，分别进行差异表达分析和共表达网络分析，结合随机森林模型成功构建得到了一种能够准确分析流感高危人群的预测模型，其AUC可达到0.94，准确率高，从而能够在极早期的发现流感高危人群，有效实施干预措施或治疗手段，精准控制流感的发生和传播，降低其对于人群健康的危害。

本发明的第一个方面，提供一组流感易感标志物，所述流感易感标志物为“AMFR”、“HBQ1”、“DHRS9”、“SLC35E2A”、“BANK1”、“CD79A”、“TXNDC5”、“H2BC5”和“PRKY”。

在本发明的一些实施方式中，所述流感包括H3N2。

在本发明的一些实施方式中，所述流感为H3N2。

本发明的第二个方面，提供一种流感高危人群预测模型的构建方法，包括如下步骤：

(1)采集受试者样本中的基因数据，筛选出流感相关的基线数据进行使用；

(2)从基线数据中筛分出有症状和无症状受试者数据，分别进行差异表达分析和共表达网络分析，选取差异表达分析和共表达网络分析后的交集基因作为候选基因；

(3)基于候选基因，采用随机森林构建得到流感高危人群预测模型。

其中，所述候选基因包括本发明第一个方面所述的流感易感标志物，具体为“AMFR”、“HBQ1”、“DHRS9”、“SLC35E2A”、“BANK1”、“CD79A”、“TXNDC5”、“H2BC5”和“PRKY”的组合。

在本发明的一些实施方式中，所述差异表达分析中设置参数pfp≤0.05。

在本发明的一些实施方式中，所述共表达网络分析的步骤包括：

(1)采用R中的Hclust函数分层聚类方法对样本进行聚类；

(2)利用WGCNAR包中的函数选择软阈值计算软阈值功率β，计算皮尔逊相关性，并使用皮尔逊相关性结果构造具有软阈值功率β的加权邻接矩阵；

(3)将加权邻接矩阵转化为拓扑重叠测度，根据拓扑重叠测度的差异度量进行平均连锁层次聚类，从而将表达模式相似的基因划分在同一模块中，即可。

在本发明的一些实施方式中，所述阈值β设置为6～8。

在本发明的一些实施方式中，所述阈值β设置为6，R²可达0.9。

在本发明中，经过测试，发现阈值β设置为6时，平均连通性相对较高。

在本发明的一些实施方式中，所述拓扑重叠测度(TOM)用于估计其中基因的网络连通性。

在本发明的一些实施方式中，所述平均连锁层次聚类的相关参数设置为：TOMType＝“unsigned”，min Module Size＝15，reassign Threshold＝0，merge Cut Height＝0.25，deepsplit＝2。

在本发明中，经过测试，共得到18个模块，其中5个与易感和非易感密切相关的模块，具体为："MECyan"、"MEMidnightblue"、"MEBlue"、"MEGreenyellow"、"MEGrey60"，共计466个基因。

在本发明的一些实施方式中，所述差异表达分析(DEGs)是基于RankProd(版本3.18.0)的方法确定无症状和有症状宿主之间的差异表达基因(DEGs)。在本发明中，共从8478个基因中筛选出223个差异表达基因。

在本发明中，术语“差异表达基因(DEGs)”是指在RNA水平处在不同状态或条件下，表达有显著性差异的基因。

在本发明的一些实施方式中，共表达网络分析是利用R包WGCNA使用8478个基因中的前20％的变异基因(1696个基因)构建共表达网络。

在本发明的一些实施方式中，选取差异表达分析和共表达网络分析后的交集基因作为候选基因的具体操作为：使用模块筛选为基础进行代表性基因(候选基因)的筛选，模块筛选具体为在一个模块中随机挑选两个基因，利用挑选出的2个基因和其他2个模块中的所有基因的表达谱构建随机森林模型，利用五折交叉验证评价该模型的准确性。测试该模块中所有2个基因与其他2个模块基因构成的随机森林模型情况，比较其准确性，选择该模块中准确性最高的模型，组成该模型的2个基因即为从该模块中挑选出的与流感易感性相关程度最高的2个基因。

在本发明的一些实施方式中，还可以借助机器学习中如方差阈值、SelectKBesT、递归特征消除、SelectFromModel特征选择、顺序特征选择等方法进行候选基因。

在本发明的一些实施方式中，所述流感高危人群预测模型的构建方法还包括后续对模型的进一步手动调参、网格调参等方式对模型的参数进行调试，以优化预测模型。

在本发明的一些实施方式中，所述流感包括H3N2。

在本发明的一些实施方式中，所述流感为H3N2。

在本发明的一些实施方式中，所述流感高危人群预测模型的构建方法具体为：

(1)从基因表达综合数据库(GEO)收集基于流感挑战实验的与A/H3N2流感相关的微阵列数据，提取数据集在基线(第0天)的微阵列数据，其中，总共包含30个有症状的宿主和19个无症状的宿主，并通过数据整合和预处理，最终得到包含8478个基因的在49个样本(其30个有症状宿主，19个无症状宿主)中的表达谱；

(2)利用生物学分析方法对包含8478个基因的表达谱进行初步筛选，其中，通过差异表达分析筛选出在有症状和无症状宿主之间存在表达差异的基因，通过共表达网络分析得到与季节性流感A/H3N2易感性相关的共表达模块中的基因，根据综合差异表达基因和共表达模块的基因分析结果，提取出既在感染季节性流感A/H3N2后有、无症状宿主间存在差异表达，同时又属于季节性流感A/H3N2易感性相关共表达模块的基因作为初步筛选的结果；

(3)使用基于共表达模块的筛选方法进一步筛选出候选基因：分别在每一个共表达模块中，利用随机森林模型进一步筛选每个共表达模块与流感易感性最相关的两个基因，综合每个模块的结果，可以筛选出与流感易感性相关程度最高的候选基因。

(4)基于得到的候选基因表达谱数据，使用随机森林的方法构建分类模型，来预测个体是否易感。

在本发明中，所述预测模型是基于健康人群基线血液转录组，通过筛选流感易感性相关基因，从而构建得到的基于靶向基因的面向普通人群流感易感性预测模型，与现有技术中流感风险评估模型的数据基础和判定标准完全不同，是唯一一种面向普通人群流感易感性的预测模型。

早期筛查对于流感的控制具有极为重要的意义，对于具有高发病风险的个体，可以针对感染甲型流感的高危因素，尤其是环境因素等方面，采取针对性的措施，进行更为精准的预防干预。针对高危人群的重点预防策略更符合成本效益原则，可以使有限的医疗资源发挥其最大的效益，在很大程度上减少医疗资源和社会经济的浪费。同时，通过阻断对甲型流感高度易感的个体感染，切断了流感的多条传播链，保护其他可能感染流感的个体。能达到进一步降低甲型流感H3N2在人群中的发病风险、减轻流感的疾病负担、保护人群健康的效果。

在本发明中，术语“易感性”是指指个体患病的风险。即在相同环境下，不同个体患病的风险，可能与遗传，环境等多方面因素相关。

本发明的第三个方面，提供定量检测本发明第一个方面所述流感易感标志物的产品在制备流感高危人群预测产品中的应用。

在本发明的一些实施方式中，所述流感高危人群预测产品包括检测试剂、检测试剂盒、检测芯片、风险预测系统。

在本发明的一些实施方式中，所述风险预测系统中，定量检测本发明第一个方面所述流感易感标志物的产品作为检测端，通过检测端得到的数据将传输至载有本发明中的流感高危人群预测模型的分析端进行分析，从而得到预测结果，借由预测结果直接输出人群判定结果。

在本发明的一些实施方式中，所述流感包括H3N2。

在本发明的一些实施方式中，所述流感为H3N2。

在本发明的一些实施方式中，所述流感高危人群预测产品的使用方法包括如下步骤：定量待测样品中的流感易感标志物含量，将其带入预测模型中，根据预测模型得到的结果判定是否属于流感高危人群。

在本发明的一些实施方式中，所述预测模型为由基因“AMFR”、“HBQ1”、“DHRS9”、“SLC35E2A”、“BANK1”、“CD79A”、“TXNDC5”、“H2BC5”和“PRKY”为特征组成的随机森林分类模型，只需带入患者的这些基因在血液中的表达量，模型就可以判断该患者是否为流感高危人群。

在本发明的一些实施方式中，流感高危人群的判定标准为：若模型输出为1，则判定为流感高危人群；若模型输出为0，则判定为流感低风险或无风险人群。

在本发明中，本发明旨在提供一组与流感易感性相关的基因，使得能够在基线水平基于这几个基因的血液转录组筛查就能够通过模型预测健康成年人对季节性流感A/H3N2患病风险高低。

本发明的有益效果是：

1.本发明只基于健康成年人基线水平转录组的数据，发现了与流感易感性相关的标志物组合：“AMFR”、“HBQ1”、“DHRS9”、“SLC35E2A”、“BANK1”、“CD79A”、“TXNDC5”、“H2BC5”和“PRKY”，并基于该标志物构建了随机森林分类模型，用于筛选健康成年人中甲型流感H3N2易感个体，并且具有较好的准确度；而且在该标志物筛选中，充分考虑了其生物学意义，也考虑到同一个模块中的基因有相似的表达模式且目前输入特征较多会容易导致输入数据太多造成过度拟合的问题，实现了有效的最优化。

2.本发明中的构建方法是基于基线转录信息，筛选流感易感性相关的基因，并构建随机森林模型，预测健康成人对季节性流感A/H3N2的易感性，该方法简单方便、得到的模型具有较高灵敏度；而且，该方法中重点关注了差异表达基因和共表达模块中的差异性，得到的模型能根据实际情况进行调整优化，可通过其他原则进行或者不进行初步筛选，具有较高的灵活性。

3.本发明中的模型是基于健康成年人转录组基线水平的基因表达，预测个体针对甲型流感病毒H3N2的易感性，可以面向社会广泛适用于人群对甲型流感易感性的筛查，不具有人群限定性，且该模型的AUC为0.94、准确度为0.91、精确度为1、召回率为0.75、F1评分为0.86，表明其具有良好的预测效果。

4.本发明中的模型利用的是外周血转录组数据对健康成年人中流感易感性个体进行预测，获取外周血组织是相对无创的医学检查手段，群众接受程度高，可行性程度高，而且可以及时发现并筛选出健康人群中对流感高度易感的人群，从而在个体因素方面确定甲型流感的高危人群。

附图说明

图1为以独立数据集GSE61754作为验证集，使用本发明中的预测模型得到的ROC曲线。

具体实施方式

为了使本发明的发明目的、技术方案及其技术效果更加清晰，以下结合具体实施方式，对本发明进行进一步详细说明。应当理解的是，本说明书中描述的具体实施方式仅仅是为了解释本发明，并非为了限定本发明。

所使用的实验材料和试剂，若无特别说明，均为常规可从商业途径所获得的耗材和试剂。

流感高危人群预测模型的构建

在本实施例中，以季节性流感A/H3N2为例，展示了通过模型利用基线转录信息预测健康成人对流感的的易感性，具体包括以下步骤：

1.数据收集：

从基因表达综合数据库(GEO)中收集3个微阵列数据集：GSE73072_DEE2、GSE73072_DEE5、GSE61754。上述3个微阵列数据集均来自于人类流感挑战实验。该试验是基于对志愿者接种A/H1N1或A/H3N2流感病毒后的基线和其他几个时间点采集得到的血液样本，在转录水平上对采集的样本进行测序后得到的数据，详细信息见表1。在本实施例中，仅提取与A/H3N2流感相关的基线数据进行使用。

基于流感实验室检测和自我报告的改良Jackson评分的症状状态，上述数据集中的个体被定义为有症状(代表易感个体)和无症状(代表非易感个体)的宿主。具体地，所用数据集总共包括49名受试者，其中为30个有症状的宿主和19个无症状的宿主。

表1流感挑战实验数据集信息

GEO ID	病毒	无症状	有症状	芯片	参考文章
						GSE61754	H3N2	3	8	Illumina	Emma E et al.2015
GSE73072_DEE2	H3N2	8	9	Affymetrix	Yu Liu,et al.2016
						GSE73072_DEE5	H3N2	8	13	Affymetrix	Yu Liu,et al.2016

2.数据预处理：

为了消除实验平台和处理方法对数据的影响，对上述的3个微阵列实验中的数据集进行预处理，具体步骤如下：首先，在对数组探针进行注释后，将所有数据合并成一个单一的矩阵，其中，行表示基因，列表示样本，并对矩阵进行对数变换。经保留所有3个数据中的基因信息，最终的基因表达矩阵共包含了49个样本的8478个基因。对得到的基因信息采用R包limma(版本3.48.3.)中的“标准化间数组”方法对原始矩阵进行归一化。然后，使用具有默认参数(版本3.40.0)的R包sva中的ComBat方法去除批次效应。最后，选取数据集GSE73072_DEE2和GSE73072_DEE2作为训练集(总共包含38个样本，其中16个无症状样本，22个有症状样本)，以独立数据集GSE61754作为独立验证集(其中包含3个无症状样本，8个有症状样本)，用于评价模型。

3.易感性相关基因初筛：

在本发明实施例中，易感性相关基因的筛选是基于生物信息学分析的方法，具体为利用差异表达基因和共表达网络分析对预处理后的基因表达数据进行初步筛选。

(1)差异表达分析(DEGs)：

使用RankProd(版本3.18.0)(percentage of false predictions(pfp)<＝0.05)的方法确定无症状和有症状宿主之间的差异表达基因(DEGs)。

在本实施例中，共从8478个基因中筛选出223个差异表达基因。

(2)共表达网络分析：

利用R包WGCNA使用8478个基因中的前20％的变异基因(1696个基因)构建共表达网络。

具体步骤为：

为了检验是否存在异常值，首先采用R中的Hclust函数分层聚类方法对样本进行聚类。然后利用WGCNAR包中的函数选择软阈值计算软阈值功率β。其中，阈值β设置为6，R²可达0.9，平均连通性相对较高，符合无标度网络的标准。计算皮尔逊相关性，并使用皮尔逊相关性结果构造一个具有软阈值功率β的加权邻接矩阵。将加权邻接矩阵转化为一个拓扑重叠测度(TOM)。得到的TOM可以用来估计其中任意一个基因的网络连通性。基于TOM的差异度量进行平均连锁层次聚类，将表达模式相似的基因划分为模块。其中，平均连锁层次聚类的相关参数设置为：TOM Type＝“unsigned”，min Module Size＝15，reassign Threshold＝0，merge Cut Height＝0.25,deepsplit＝2。

最终共得到18个模块，其中5个与易感和非易感密切相关的模块，具体为"MECyan"、"MEMidnightblue"、"MEBlue"、"MEGreenyellow"、"MEGrey60"，共计466个基因。

(3)易感性相关基因初步筛选：

通过上述(1)和(2)中的步骤，实现了基于共表达网络找到了和流感易感性相关的模块，而这些模块当中包含了潜在的和流感易感性相关的基因。此外，差异表达分析也从另外一个角度找到了在基线状态下，有症状和无症状群体表达不一样的基因。通过对比两者中找到的流感易感性相关的基因，仅同时均为差异表达基因才对于区分流感易感和不易感人群更有意义。最终，通过比对分析后得到的5个显著共表达模块的基因集和DEGs之间的交集基因，选取了共119个基因作为候选基因，以供下一步构建模型。

4.基于模块的易感基因筛选：

为了进一步筛选与流感易感性相关的基因，同时避免单个数据集造成偏差以及潜在过拟合，考虑到同一个模块中的基因有相似的表达模式及相似的功能，本发明采用基于模块筛选代表性基因。

具体筛选方法为：在一个模块中随机挑选两个基因，利用挑选出的2个基因和其他2个模块中的所有基因的表达谱构建随机森林模型，利用五折交叉验证评价该模型的准确性。测试该模块中所有2个基因与其他2个模块基因构成的随机森林模型情况，比较其准确性，选择该模块中准确性最高的模型，组成该模型的2个基因即为从该模块中挑选出的与流感易感性相关程度最高的2个基因。

通过在每个共表达模块中重复上述筛选操作，最终从5个共表达模块中共选取了相关程度最高的9个基因作为最终的预测模型特征。最终得到的关于甲型季节性流感病毒A/H3N2易感性相关的9个重要基因为：“AMFR”、“HBQ1”、“DHRS9”、“SLC35E2A”、“BANK1”、“CD79A”、“TXNDC5”、“H2BC5”、“PRKY”。

进一步利用手动调参、网格调参等方式对模型的参数进行调试，优化预测模型，找到了预测准确性最高的模型。

得到的模型代码为：

该预测模型为由基因“AMFR”、“HBQ1”、“DHRS9”、“SLC35E2A”、“BANK1”、“CD79A”、“TXNDC5”、“H2BC5”和“PRKY”为特征组成的随机森林分类模型，只需带入患者的这些基因在血液中的表达量，模型就可以判断该患者是否为流感高危人群。若模型输出为1，则判定为流感高危人群；若模型输出为0，则判定为流感低风险或无风险人群。

效果验证

采用上述实施例中获得的基于甲型季节性流感病毒A/H3N2易感性相关的9个重要基因的随机森林预测模型进行预测效果验证。

具体步骤为：

以独立数据集GSE61754作为验证集，基于上述步骤筛选得到的9个重要基因，从基因表达谱中提取这些基因对应的表达数据并在训练集中通过R包randomForest按照上述实施例中的方法构建随机森林分类预测模型。

使用独立数据集GSE61754来对模型效果进行评价，分别计算了准确度、精度、召回率、F1评分、曲线下面积AUC；并且也绘制了对应的ROC曲线，结果见表2和图1。

表2随机森林预测模型在选定的训练数据集上预测A/H3N2流感易感人群的性能

分类模型	准确性	精确度	召回率	F1评分	AUC
						随机森林	0.91	1	0.75	0.86	0.94

从表1中可以看出，通过上述实施例中得到的流感高危人群预测模型能够极好的区分出流感高危人群，准确率高，特异性强，AUC可以达到0.94。

实际使用方法

在实际使用中，通过从收集得到的受试者样品中提取核酸分子(DNA，可采用市售核酸提取试剂盒或其他产品)，并通过核酸定量检测技术(如针对上述ADORA3、CD36、ANXA3、PPP1R15A、ABHD2、ANKRD11、RPS23、UQCRH、ACOX1、DSC1的PCR扩增技术或测序技术)得到对应基因在受试者样品中的含量，将其带入上述模型中，当模型输出为1，则判定为流感高危人群；若模型输出为0，则判定为流感低风险或无风险人群。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一组流感易感标志物，其特征在于，所述流感易感标志物为ADORA3、CD36、ANXA3、PPP1R15A、ABHD2、ANKRD11、RPS23、UQCRH、ACOX1和DSC1；所述流感优选包括H3N2。

2.一种流感高危人群预测模型的构建方法，包括如下步骤：

(3)基于候选基因，采用随机森林构建得到流感高危人群预测模型；

其中，所述候选基因包括权利要求1所述的流感易感标志物。

3.根据权利要求2所述的构建方法，其特征在于，所述差异表达分析中错误预测百分比的基因≤0.05。

4.根据权利要求2所述的构建方法，其特征在于，所述共表达网络分析的步骤包括：

(1)采用R中的Hclust函数分层聚类方法对样本进行聚类；

5.定量检测权利要求1所述流感易感标志物的产品在制备流感高危人群预测产品中的应用。

6.根据权利要求5所述的应用，其特征在于，所述流感高危人群预测产品包括检测试剂、检测试剂盒、检测芯片、风险预测系统。

7.根据权利要求5所述的应用，其特征在于，所述流感包括H3N2。

8.根据权利要求5所述的应用，其特征在于，所述流感高危人群预测产品的使用方法包括如下步骤：定量待测样品中的流感易感标志物含量，将其带入预测模型中，根据预测模型得到的结果判定是否属于流感高危人群。

9.根据权利要求8所述的应用，其特征在于，所述预测模型为由基因“AMFR”、“HBQ1”、“DHRS9”、“SLC35E2A”、“BANK1”、“CD79A”、“TXNDC5”、“H2BC5”和“PRKY”为特征组成的随机森林分类模型，只需带入患者的这些基因在血液中的表达量，模型就可以判断该患者是否为流感高危人群。

10.根据权利要求8所述的应用，其特征在于，流感高危人群的判定标准为：若模型输出为1，则判定为流感高危人群；若模型输出为0，则判定为流感低风险或无风险人群。