CN117743957A

CN117743957A - 一种基于机器学习的Th2A细胞的数据分选方法及相关设备

Info

Publication number: CN117743957A
Application number: CN202410167723.4A
Authority: CN
Inventors: 门月华; 初明; 陈曦; 江麟; 吴雯婷
Original assignee: Peking University; Peking University Third Hospital Peking University Third Clinical Medical College
Current assignee: Peking University; Peking University Third Hospital Peking University Third Clinical Medical College
Priority date: 2024-02-06
Filing date: 2024-02-06
Publication date: 2024-03-22
Anticipated expiration: 2044-02-06
Also published as: CN117743957B

Abstract

本发明提供了一种基于机器学习的Th2A细胞的数据分选方法及相关设备，应用于数据处理技术领域。本申请获取训练样本集和目标数据集；对所述训练样本集进行预处理，生成带有标识信息的训练样本集，其中，所述标识信息用于标识与Th2A细胞相关联的基因信息；基于预设处理规则构建初始细胞分类模型；基于所述带有标识信息的训练样本集对所述初始细胞分类模型进行训练，生成目标细胞分类模型；基于所述目标细胞分类模型对所述目标数据集进行处理，生成Th2A细胞。通过比较线性SVM分类器与线性核、多项式核的分类精度或应用10倍交叉验证的径向基函数核，选择线性SVM具有多项式核的分类器，通过分类器对目标数据集进行处理从而识别出Th2A细胞。

Description

一种基于机器学习的Th2A细胞的数据分选方法及相关设备

技术领域

本发明涉及数据处理技术领域，特别涉及一种基于机器学习的Th2A细胞的数据分选方法及相关设备。

背景技术

过敏性疾病，如特应性皮炎 (AD)、食物过敏 (FA)、过敏性鼻炎 (AR) 和过敏性哮喘，是一种难治性慢性炎症性疾病，常见于特应性个体，共同影响超过15%的世界人口，被认为是全球公共卫生问题。过敏性疾病的基础病理生理学是异常活化的 Th2 细胞对无害变应原的反应，随后产生 Th2 细胞因子包括导致2型炎症的IL-4、IL-5、IL-9和IL-13。因此，变应原特异性Th2 细胞对过敏性炎症性疾病的发病机制至关重要，并被认为是致病性 Th细胞群的亚群。

在更多研究，Wambre等人表明，Th2A亚群表现出不同于常规 Th2 细胞，并在变应原特异性免疫治疗 (AIT) 期间优先删除。值得注意的是，Th2A亚群与致病性 Th2(Tpath2)具有多个功能属性过敏性疾病背景下以杀伤细胞凝集素样蛋白表达为特征的细胞群受体亚家族 B 成员1(KLRB1)、白细胞介素-1受体样1(IL1RL1)、白细胞介素-17受体 B(IL17RB)和造血前列腺素 D 合成酶 (HPGDS)。为了更好了解 Th2 细胞在过敏性疾病中的异质性，Wambre等定义了记忆 Th2 细胞局限于特应性个体，包括所有变应原特异性Th2细胞，如Th2A 细胞，其特征是稳定共表达PTDGR2、KLRB1和整合素α-4(ITGA4) 和 CD27 和受体型酪氨酸蛋白 (PTPRC) 的低表达。新出现的证据显示，跨越不同过敏性疾病的 Th2A 细胞具有一个核心表型并显示重叠的功能属性。2018年，Chiang等人发现了一种异质性花生过敏个体外周血中 Th2 细胞群，具有高度与 Th2A 具有几个共同特征的IL-4、IL-5、IL-9、IL-13和 IL17RB 的相关表达细胞亚群。外周血花生反应性 Th2A 细胞水平与血清花生特异性IgE 和 IgG4 水平、对花生的 T 细胞反应性和临床敏感性。在花生口服免疫治疗 (OIT)过程中，积极的结果与对花生反应性CD4 + T细胞（GATA3、PTGDR2和IL17RB）的抑制作用更强，表明Th2A 亚群与 Th2A 在花生过敏中的作用的证据一致，Luce等揭示了监测 OIT 后多食物过敏个体 Th2A 细胞频率的价值，以及将该观察结果扩展至屋尘螨中表达 Th2A 细胞的循环 CD38 降低(HDM) 接受 HDM 免疫治疗的过敏个体。因此，如何更好的识别出Th2A细胞，是本领域技术人员急需解决的问题。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本申请的目的在于提供一种基于机器学习的Th2A细胞的数据分选方法及相关设备，至少在一定程度上克服现有技术存在的问题，开发了一种新的基于机器学习的scDS来表征Th2A 细胞在scRNA-seq数据集，进一步研究验证Th2A 细胞是异常活化 Th2 细胞的亚群仅限于过敏性疾病，并在托法替布干预后显著抑制。通过比较线性-SVM 分类器与线性核、多项式核的分类精度或应用10倍交叉验证的径向基函数核，选择线性-SVM具有多项式核的分类器，具有识别Th2A 细胞，进而更好的对Th2A细胞进行分选。

本申请的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本发明的实践而习得。

根据本申请的一个方面，提供一种基于机器学习的Th2A细胞的数据分选方法，包括：获取训练样本集和目标数据集；对所述训练样本集进行预处理，生成带有标识信息的训练样本集，其中，所述标识信息用于标识与Th2A细胞相关联的基因信息；基于预设处理规则构建初始细胞分类模型；基于所述带有标识信息的训练样本集对所述初始细胞分类模型进行训练，生成目标细胞分类模型；基于所述目标细胞分类模型对所述目标数据集进行处理，生成Th2A细胞。

在本申请的一个实施例中，所述对所述训练样本集进行预处理，生成带有标识信息的训练样本集，包括：对所述训练样本集进行特征提取，确定原始特征库；根据所述原始特征库划分各个特征数据集，生成训练数据集和测试数据集；利用分类器对原始特征库划分各个测试数据集进行预测，确定预测结果；使用预设算法在原始特征库划分各个训练数据集进行训练，得到测试集类预测结果；根据预测结果以及测试集类预测结果，生成融合特征数据集；基于预设基因筛选规则对所述融合特征数据集进行处理，生成标识信息，其中，所述标识信息用于标识与Th2A细胞相关联的基因信息。

在本申请的一个实施例中，所述基于预设处理规则构建初始细胞分类模型，包括：分别获取具有线性函数核的线性SVM分类器、具有多项式函数核的线性SVM分类器和径向基函数核的线性SVM分类器；基于算法决策模型对上述线性SVM分类器进行处理，生成AUC值，其中，所述算法决策模型包括用于生成AUC值的计算公式，所述公式为：；/>；其中，AUC为ROC曲线下方的面积大小，M是Th2A细胞的数量，N是非Th2A细胞的数量，Xi和Xj表示第i个和第j个概率评分；基于所述AUC值选择具有多项式函数核的线性SVM分类器作为初始细胞分类模型，其中，所述多项式函数核的线性SVM分类器的AUC值为上述线性SVM分类器中分值最大的。

在本申请的一个实施例中，所述基于所述目标细胞分类模型对所述目标数据集进行处理，生成Th2A细胞之后，还包括：基于流式细胞术和标识信息对所述目标数据集进行处理，生成目标细胞信息；若所述目标细胞信息为Th2A细胞，则生成测试结果，其中，所述测试结果为所述标识信息为用于标识与Th2A细胞相关联的基因信息，所述目标数据集中包括Th2A细胞。

在本申请的一个实施例中，所述基于所述带有标识信息的训练样本集对所述初始细胞分类模型进行训练，生成目标细胞分类模型，包括：将所述带有标识信息的训练样本集按照预设比例划分为用于训练所述初始细胞分类模型的训练集和用于测试所述初始细胞分类模型的测试集；从所述训练集中提取多组数据组，其中，每组数据组均包含预设数量的数据样本，其中，至少一个数据样本包括标识信息；基于多组所述数据组中的数据样本对所述初始细胞分类模型进行训练，生成训练后的细胞分类模型；基于所述测试集对所述训练后的细胞分类模型进行处理，生成测试结果；若所述测试结果中包含标识信息的数据样本为Th2A细胞，则将所述训练后的细胞分类模型作为目标细胞分类模型。

在本申请的一个实施例中，所述从所述训练集中提取多组数据组，包括：基于标识信息对所述训练集进行划分，生成若干数量的数类样本；获取所述训练集中任一数量较少的数类样本；基于所述任一数量较少的数类样本与同类别的其他数量较少的数类样本之间的距离，生成相邻样本，其中，所述相邻样本包括所述任一数量较少的数类样本的预设数量；对所述相邻样本进行采样，生成预设数量的采样样本；基于任一少数类样本与每个采样样本，生成多组数据组。

在本申请的一个实施例中，所述对所述相邻样本进行采样，生成预设数量的采样样本，包括：基于所述训练集中各数类样本的数量，确定采样比例；基于所述采样比例，确定采样比率；基于所述采样比率对所述相邻样本进行采样，生成预设数量的采样样本。

本申请的另一个方面，一种基于机器学习的Th2A细胞的数据分选装置，其特征在于，包括：获取模块，用于获取训练样本集和目标数据集；处理模块，用于对所述训练样本集进行预处理，生成带有标识信息的训练样本集，其中，所述标识信息用于标识与Th2A细胞相关联的基因信息；基于预设处理规则构建初始细胞分类模型；基于所述带有标识信息的训练样本集对所述初始细胞分类模型进行训练，生成目标细胞分类模型；基于所述目标细胞分类模型对所述目标数据集进行处理，生成Th2A细胞。

根据本申请的再一个方面，一种电子设备，其特征在于，包括：第一处理器；以及存储器，用于存储所述第一处理器的可执行指令；其中，所述第一处理器配置为经由执行所述可执行指令来执行实现上述的基于机器学习的Th2A细胞的数据分选方法。

根据本申请的又一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被第二处理器执行时实现上述的基于机器学习的Th2A细胞的数据分选方法。

根据本申请的又一个方面，提供一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被第三处理器执行时实现上述的基于机器学习的Th2A细胞的数据分选方法。

本申请所提供的一种基于机器学习的Th2A细胞的数据分选方法及相关设备，由服务器获取训练样本集和目标数据集；对训练样本集进行预处理，生成带有标识信息的训练样本集，其中，标识信息用于标识与Th2A细胞相关联的基因信息；基于预设处理规则构建初始细胞分类模型；基于带有标识信息的训练样本集对初始细胞分类模型进行训练，生成目标细胞分类模型；基于目标细胞分类模型对目标数据集进行处理，生成Th2A细胞。通过比较线性SVM 分类器与线性核、多项式核的分类精度或应用10倍交叉验证的径向基函数核，选择线性SVM具有多项式核的分类器，通过分类器对目标数据集进行处理从而识别出Th2A 细胞。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

图1示出本申请一实施例所提供的一种基于机器学习的Th2A细胞的数据分选方法的流程图；

图2示出了本申请一实施例所提供的一种基于机器学习的Th2A细胞的数据分选装置的结构示意图；

图3示出了本申请一实施例所提供的一种电子设备的结构示意图；

图4示出了本申请一实施例所提供的一种存储介质的示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

下面结合图1来描述根据本申请示例性实施方式的基于机器学习的Th2A细胞的数据分选方法。需要注意的是，下述应用场景仅是为了便于理解本申请的精神和原理而示出，本申请的实施方式在此方面不受任何限制。相反，本申请的实施方式可以应用于适用的任何场景。

一种实施方式中，本申请还提出一种基于机器学习的Th2A细胞的数据分选方法及相关设备。图1示意性地示出了根据本申请实施方式的一种基于机器学习的Th2A细胞的数据分选方法的流程示意图。如图1所示，该方法应用于服务器，包括：

S101，获取训练样本集和目标数据集。

一种实施方式中，训练样本集可采用GSE126250、GSE175930和 GSE153760数据集，目标数据集可采用scRNA-seq 数据集或真实的受试者数据。

S102，对所述训练样本集进行预处理，生成带有标识信息的训练样本集。

一种实施方式中，标识信息用于标识与Th2A细胞相关联的基因信息，其中，用于标记Th2A细胞的基因信息选自GSE126250、GSE175930和 GSE153760数据集，仅Th2A 细胞簇中比例最高的基因，且中位数表达至少是其他簇的两倍被考虑。

对训练样本集进行特征提取，确定原始特征库，其中，特征提取包括原始特征、统计特征、频域特征、时域特征四种特征，所提取的常用特征具体介绍如下：原始特征：原始特征是将收集得到的数据，经过预处理之后，使用每个样本数据矩阵中的所有信息，用于模型的训练。为不丢失样本信息，直接将样本Xi的每条曲线展开，拉伸为行向量。统计特征：统计特征是考虑曲线上所有数据点的变化趋势。通过提取统计特征，可降低数据样本的维度，方便对基因数据进行分析，加快模型训练时的收敛速度。所提取的统计特征包括最大值、最小值、均值、方差、标准差。频域特征：对数据集进行小波变换，将二阶小波变换得到的系数作为新的特征，构成频域特征。时域特征：时域特征主要是从时间的角度出发，研究信号与系统的变化规律，时域特征可以反应曲线数据在时间变化之中的信息。该过程主要提取数据集的一阶前向差分构成一阶差分时域特征，并采用指数移动平均特征处理方法。

根据原始特征库划分各个特征数据集，生成训练数据集和测试数据集，利用现有的技术对原始特征库进行划分，生成训练数据集和测试数据集，本实施例中只要能进行划分即可，采用什么方式并不作任何限制。

利用分类器对原始特征库划分各个测试数据集进行预测，确定预测结果，使用预设算法在原始特征库划分各个训练数据集进行训练，得到测试集类预测结果，根据预测结果以及测试集类预测结果，生成融合特征数据集。判断Evalfeature和Evaloriginal的分类结果，若Evalfeature与Evaloriginal相比得到提高，则将该特征并入Dfusion，待遍历结束后得到最终的融合特征数据集Dfusion。具体地，获取训练数据集对应的数据分类结果，因为每个训练数据集的分类结果都是事先能够确定的，可以直接在外界获取得到该数据。对比预测结果与数据分类结果，确定第一对比结果；对比测试集类预测结果与数据分类结果，确定第二对比结果；判断第二对比结果与第一对比结果是否满足预设要求时，当满足预设要求时，将对应的各个特征确定为融合特征数据集。

基于预设基因筛选规则对融合特征数据集进行处理，生成标识信息，其中，标识信息用于标识与Th2A细胞相关联的基因信息。用于标注Th2A细胞的基因信息选自GSE126250、GSE175930和 GSE153760数据集，此外，仅 Th2A 细胞簇中比例最高的基因，且中位数表达至少是其他簇的两倍被纳入为表征Th2A细胞相关的基因信息。本方案采用了10个 scRNA-seq皮肤系统疾病、消化系统疾病和呼吸系统疾病的不同数据集系统疾病，其中AD、EoE、FA、哮喘和 HDM 反应性哮喘为过敏性疾病，而银屑病、炎症性肠病 (IBD)、慢性阻塞性肺疾病(COPD)和冠状病毒病 (COVID-19) 为非过敏性疾病 (15,27-29,34-39)。Th2A细胞仅在过敏性疾病中被鉴定。而且，鉴定出的 Th2A 细胞来源于不同过敏性疾病在转录组水平上表现出高度相似性。而且，Th2A 细胞的标记基因包括CD3E、KLRB1、GPR183、PTGS2和 ZC2HC1A是在过敏性疾病中广泛表达。

另一种实施方式中，为了在翻译水平验证用于表征Th2A细胞的基因的表达，申请人进行了详细的48例临床诊断AD患者和7例健康受试者PBMC的流式细胞分析供体。据申请人调研可知，Th2A细胞被定义为CD3 + ,CD4 + ,CD27-,KLRB1hi和PTGDR2hi 细胞亚群。此外，申请人的数据显示 Th2A 细胞共表达CD3，KLRB1，基于最优 SVM 模型的 GPR183 和PTGS2。因此，荧光微球偶联抗体选择抗CD3、CD4、CD27、KLRB1、PTGDR2、GPR183和 PTGS2 表型 Th2A细胞。与健康供者比较，PBMC中CD3 + T细胞比例，CD4 + ThCD3 + T细胞中的细胞和CD4 + Th细胞中的终末分化 CD27-Th 细胞未显示AD患者PBMC的显著差异。与预期一致，显著终末分化的CD3 + CD4 + 中KLRB1 + PTGDR2 + Th2A细胞的比例较高相对于健康供体，观察到AD患者的CD27-Th 细胞 (p<0.0001)(6D)。同样，AD患者CD3 + T细胞中KLRB1 +GPR183 + 细胞的比例也是高于健康供者 (p<0.05)(6E)。此外，KLRB1 +的比例AD 患者CD3+ T细胞共表达 PTGS2 的GPR183 +细胞显著升高与健康供体相比 (p<0.0001)。值得注意的是，很少有KLRB + GPR183 + PTGS2 + 细胞存在于健康供体的CD3+T细胞中。与直接进入Th2A 细胞一致根据CD3、CD4、CD27、KLRB1和 PTGDR2 差异表达，CD3 +、KLRB1hi、GPR183hi和 PTGS2hi 表型也能可靠地鉴定局限于AD的Th2A 细胞患者。

S103，基于预设处理规则构建初始细胞分类模型。

一种实施方式中，分别获取具有线性函数核的线性SVM分类器、具有多项式函数核的线性SVM分类器和径向基函数核的线性SVM分类器；基于算法决策模型对上述线性SVM分类器进行处理，生成AUC值（即ROC曲线下方的面积大小），其中，算法决策模型包括用于生成AUC值的计算公式，公式为：；/>；其中，AUC为ROC曲线下方的面积大小，M是Th2A 细胞的数量，N是非Th2A细胞的数量，Xi和Xj表示第i个和第j个概率评分；基于AUC值选择具有多项式函数核的线性SVM分类器作为初始细胞分类模型，其中，多项式函数核的线性SVM分类器的AUC值为上述线性SVM分类器中分值最大的，初始细胞分类模型一个合适的基于机器学习的分类模型，具体为具有多项式函数核的线性 SVM分类器。

本方案为Th2A 细胞选择一个合适的基于机器学习 (ML) 的分类模型鉴别。据申请人的调研发现，线性支持向量机在细胞类型识别中表现良好。在此，本方案进一步评估了线性SVM分类器的性能，通过比较基于曲线下面积 (AUC) 评分的多项式或径向基函数核在pROC 包上，发现具有多项式核的线性 SVM 总体上具有最好的性能。而且，当伽马和成本的值分别为0.1和1.0时，线性SVM分类器的最小误差度为0.011。此外，还估计了用于训练的分类器性能的基因数量，排列靠前的标记基因数为5～7个，排名当标记基因的数量从5增加到15时，排列减少。而且，据申请人观察到排列由5～10个 maker 基因组成，准确度不断提高，直至基因数达到4，并保持从4到10稳定。因此，用于产生排列的标记基因的数量是控制在10以内，以避免过度训练。本实施例将通过低通量的基因测序技术或流式细胞分选技术来筛选Th2A细胞，其中，低通量代表标记基因的数量低于预设数量，预设数量的个数可根据实际需求进行设置，本方案并不进行任何限制。本实施例中只要能通过低通量的检测技术来筛选Th2A细胞即可，采用什么方式并不作任何限制。

S104，基于所述带有标识信息的训练样本集对所述初始细胞分类模型进行训练，生成目标细胞分类模型。

一种实施方式中，据申请人调研可知，Wambre等正式将Th2细胞的促过敏亚群表示为Th2A 细胞，并报道了Th2A 细胞相对于常规Th2细胞的差异基因。在此基础上，申请人选择了153个Th2A细胞簇中比例最高的标记基因，并以中位数表达比GSE126250、GSE175930和GSE126250 的其他簇至少高两倍。基因本体 (GO) 富集表明这些用于标记Th2A的基因与T细胞活化、淋巴细胞分化和细胞因子活性有关。此外，京都基因与基因组通路百科全书(KEGG) 通路富集分析显示参与细胞因子受体相互作用、T细胞受体途径、JAK-STAT通路和哮喘信号通路，表明这些标志基因紧密与过敏性疾病有关。然后，这153个中共有1.540615×1015个排列生成用于标记Th2A的基因作为训练 Th2A 细胞SVM模型的输入。结果CD3E、KLRB1、PTGS2、GPR183、ZC2HC1A、GLIPR1、ABLIM1、CD3D和 PTGDR 高频出现在Th2A细胞的SVM模型中，AUC评分大于0.50。而且，AUC大于0.70的SVM 模型的性能。值得注意的是，由CD3E、KLRB1、GPR183、PTGS2和 ZC2HC1A 组成的 SVM 模型达到最佳在 Th2A 细胞鉴定上的性能，AUC为0.772301。

另一种实施例中，将带有标识信息的训练样本集按照预设比例划分为用于训练初始细胞分类模型的训练集和用于测试初始细胞分类模型的测试集，其中，比例可以按照需要来设定，比如1:8或者1:5等；从训练集中提取多组数据组，其中，每组数据组均包含预设数量的数据样本，其中，至少一个数据样本包括标识信息。基于多组数据组中的数据样本对初始细胞分类模型进行训练，生成训练后的细胞分类模型，基于测试集对训练后的细胞分类模型进行处理，生成测试结果，若测试结果中包含标识信息的数据样本为Th2A细胞，则将训练后的细胞分类模型作为目标细胞分类模型。

S105，基于所述目标细胞分类模型对所述目标数据集进行处理，生成Th2A细胞。

一种实施方式中，使用GSE175930 生成的内部测试集测试最优SVM 模型数据集。当Th2A 细胞的比率和非Th2A 细胞增加，在 Th2A 细胞鉴定上的表现在外部测试数据集(GSE153760) 甚至优于内部测试集，这揭示 Th2A 细胞仅存在于AD 患者中。此外，申请人以 Th2A 上3个模型的性能为基准细胞鉴定包括最佳SVM模型（CD3E、KLRB1、GPR183、PTGS2和ZC2HC1A）、已报道的标记基因（CD3E、CD27、PTGDR2和KLRB1）和单个签名基因 (KLRB1)，最终，最优 SVM 模型总体上表现出最佳性能。

另一种实施方式中，申请人采用了10个 scRNA-seq皮肤系统疾病、消化系统疾病和呼吸系统疾病的不同数据集系统疾病，其中AD、EoE、FA、哮喘和 HDM 反应性哮喘为过敏性疾病，而银屑病、炎症性肠病 (IBD)、慢性阻塞性肺疾病 (COPD)和冠状病毒病 (COVID-19) 为非过敏性疾病 (15,27-29,34-39)。Th2A细胞仅在过敏性疾病中被鉴定。而且，鉴定出的 Th2A 细胞来源于不同过敏性疾病在转录组水平上表现出高度相似性。而且，Th2A 细胞的标记基因包括CD3E、KLRB1、GPR183、PTGS2和 ZC2HC1A 是在过敏性疾病中广泛表达。

另一种实施方式中，为了分析Th2A细胞和常规Th2细胞之间的异质性，申请人选择了明确注释Th2细胞簇的GSE146170数据集。基于scDS，使用RTh2Asorting，申请人在GSE146170 数据集中鉴定了Th2A细胞，并揭示了Th2A细胞仅存在于Th2 簇中。在其他Th中未发现 Th2A 细胞，证明 scDS方法具有特异性。此外，通过比较Th2A细胞与其他Th2细胞，报道的Th2A细胞特征基因如KLRB1,IL1RL1和IL-17RB,是Th2A细胞中的高表达高于常规Th2细胞。此外，Th2A相对于常规 Th2 细胞，细胞产生更多的GATA3、IL-4、IL-5和IL-13，而IFNG在Th2A和常规Th2细胞亚群中缺失。值得注意的是，Th2A细胞也参与 JAK/STAT 信号转导的高表达基因，在发病机制中发挥核心作用的过敏性疾病如JAK1、JAK3和STAT3，表明JAK 抑制剂可能抑制Th2A 细胞的活性。已知托法替布可抑制 JAK1和JAK3，对JAK2的抑制程度较低。因此，申请人进一步研究了托法替布对难治性药物诱导Th2A细胞的影响。超敏反应综合征/药物反应伴嗜酸粒细胞增多症和全身症状 (DiHS/DRESS)使用 GSE132802数据集。索引患者由磺胺甲恶唑/甲氧苄啶诱导(SMX/TMP) 并诊断为DiHS/DRESS。鉴于常规治疗的失败和缺乏替代治疗选择，进行 scRNA-seq 以确定转录组在DiHS/DRESS中确定JAK-STAT 通路为潜在治疗靶标的变更。通过托法替布进行的干预能够控制疾病并逐渐减少其他免疫抑制剂的剂量。

在此，申请人首先从外周血单个核细胞 (PBMC) 中鉴定出Th2A细胞，基于R包Th2分类的DiHS/DRESS 患者。投射已鉴定的 Th2A 细胞到Umap图上发现Th2A 细胞主要存在于DiHS/DRESS患者的PBMC中托法替尼治疗前。DiHS/DRESS PBMC中 Th2A 细胞的数量托法替尼干预2周后下降。与年龄和性别相比在匹配的健康供体中，托法替布治疗后Th2A细胞中的基因表达升高，而下降处理。此外，申请人分析了培养的CD4 + T细胞中Th2A 细胞的变化来自接受或未接受托法替布治疗的 DiHS/DRESS 患者。在PBMC，Th2A细胞主要存在于SMX/TMP诱导的CD4 + T细胞中，Th2A的数量托法替尼处理后细胞下降。Th2A细胞中基因的表达升高在用SMX/TMP培养的CD4 + T细胞中，而用托法替尼干预后下降。利用Mfuzz 软件包，鉴定出8个基因表达变化簇，其中簇6呈上升趋势，而簇2呈下降趋势。基因簇8中的表达值先降低后升高；相反，簇1、3、4、5和7先增加后减少，显著富集于T细胞受体信号通路，Th1和 Th2 细胞分化和细胞因子-细胞因子受体相互作用。

本申请中由服务器获取训练样本集和目标数据集；对训练样本集进行预处理，生成带有标识信息的训练样本集，其中，标识信息用于标识与Th2A细胞相关联的基因信息；基于预设处理规则构建初始细胞分类模型；基于带有标识信息的训练样本集对初始细胞分类模型进行训练，生成目标细胞分类模型；基于目标细胞分类模型对目标数据集进行处理，生成Th2A细胞。通过比较线性SVM 分类器与线性核、多项式核的分类精度或应用10倍交叉验证的径向基函数核，选择线性SVM具有多项式核的分类器，通过分类器对目标数据集进行处理从而识别出Th2A 细胞。

可选地，在基于本申请上述方法的另一个实施例中，所述基于所述目标细胞分类模型对所述目标数据集进行处理，生成Th2A细胞之后，还包括：

基于流式细胞术和标识信息对所述目标数据集进行处理，生成目标细胞信息；

若所述目标细胞信息为Th2A细胞，则生成测试结果，其中，所述测试结果为所述标识信息为用于标识与Th2A细胞相关联的基因信息，所述目标数据集中包括Th2A细胞。

一种实施方式中，采用Ficoll-Paque Plus（GE Healthcare,Pittsburgh,PA）。用固定蓝色死细胞染色试剂盒（ThermoScientific,Waltham,MA），清洗并染色表面标记物，包括CD3、CD4、CD27、PTGDR2、KLRB1、IL1RL1和GPR183。为了检测细胞内PTGS2，细胞被洗涤，采用细胞内固定和透化缓冲液（ThermoScientific,Waltham,MA），然后用 PE 标记的 PTGS2单克隆抗体（ThermoScientific,Waltham,MA），最后生成目标细胞信息。通过流式细胞术分析，发现CD3 +、KLRB1 hi、GPR183 hi和 PTGS2 hi 表型能可靠地鉴定特应性皮炎外周血中的 Th2A 细胞。

可选地，在基于本申请上述方法的另一个实施例中，所述从所述训练集中提取多组数据组，包括：

基于标识信息对所述训练集进行划分，生成若干数量的数类样本；

获取所述训练集中任一数量较少的数类样本；

基于所述任一数量较少的数类样本与同类别的其他数量较少的数类样本之间的距离，生成相邻样本，其中，所述相邻样本包括所述任一数量较少的数类样本的预设数量；

对所述相邻样本进行采样，生成预设数量的采样样本；

基于任一少数类样本与每个采样样本，生成多组数据组。

一种实施方式中，任一数量较少的数类样本与同类别的其他每个任一数量较少的数类样本之间的距离可以是欧氏距离，也可以是其他余弦距离，此处不作具体限定。可以将其他所有任一数量较少的数类样本按与其他任一数量较少的数类样本的距离由近到远的顺序进行排列，然后选取排列结果中位于排列结果前几位的数据作为相邻样本。过采样的目的是使少数类样本的个数增加，以实现初始样本集中少数类样本与多数类样本的个数平衡。此处，过采样可以通过采样算法实现，此处不做具体限定。在过采样之后，可以根据过采样所得结果，结合训练集确定出多组数据组。此时，数据组中各属性类别标签对应的描述数据样本的个数相当，不存在数量较少的数类样本或数量较多的数类样本。本实施例通过先对训练集先进行初步划分，在对数量较少的数类样本与其他数量较多的数类样本进行合并。

可选地，在基于本申请上述方法的另一个实施例中，所述对所述相邻样本进行采样，生成预设数量的采样样本，包括：

基于所述训练集中各数类样本的数量，确定采样比例；

基于所述采样比例，确定采样比率；

基于所述采样比率对所述相邻样本进行采样，生成预设数量的采样样本。

一种实施方式中，先获取训练集中包括哪些数据组，确认各个数据组中的数类样本分别有多少，并根据各个数据组的数类样本的个数确定采样比例，然后利用采样比例，确定采样比率。采样比例可以根据需要进行设定，例如可以均为50％，也可以是其他比例，此处不作具体限定。最后，利用采样比率对预设数量的相邻样本进行采样，得到指定数量的采样样本，可以将其他所有数量较少的数类样本按与任一数量较少的数类样本的距离由近到远的顺序进行排列，然后选取排列结果中排名前预设数量的样本作为近邻样本，预设数量可以根据实际情况进行设定，此处不作具体限定。基于任一数量较少的数类样本与每个采样样本，生成新的样本，并将其作为新的数据组，如此可以进一步提升数量较少的数据组与其他数量较多的数据组的平衡效果更佳。

通过应用以上技术方案，服务器获取训练样本集和目标数据集；对训练样本集进行特征提取，确定原始特征库；根据原始特征库划分各个特征数据集，生成训练数据集和测试数据集；利用分类器对原始特征库划分各个测试数据集进行预测，确定预测结果；使用预设算法在原始特征库划分各个训练数据集进行训练，得到测试集类预测结果；根据预测结果以及测试集类预测结果，生成融合特征数据集；基于预设基因筛选规则对融合特征数据集进行处理，生成标识信息，其中，标识信息用于标识与Th2A细胞相关联的基因信息。

此外，服务器还将分别获取具有线性函数核的线性SVM分类器、具有多项式函数核的线性SVM分类器和径向基函数核的线性SVM分类器；基于算法决策模型对上述线性SVM分类器进行处理，生成AUC值，其中，算法决策模型包括用于生成AUC值的计算公式，公式为：

；

基于AUC值选择具有多项式函数核的线性SVM分类器作为初始细胞分类模型，其中，多项式函数核的线性SVM分类器的AUC值为上述线性SVM分类器中分值最大的。

将带有标识信息的训练样本集按照预设比例划分为用于训练初始细胞分类模型的训练集和用于测试初始细胞分类模型的测试集；基于标识信息对训练集进行划分，生成若干数量的数类样本；获取训练集中任一数量较少的数类样本；基于任一数量较少的数类样本与同类别的其他数量较少的数类样本之间的距离，生成相邻样本，其中，相邻样本包括任一数量较少的数类样本的预设数量；基于训练集中各数类样本的数量，确定采样比例；基于采样比例，确定采样比率；基于采样比率对相邻样本进行采样，生成预设数量的采样样本；基于任一少数类样本与每个采样样本，生成多组数据组，其中，每组数据组均包含预设数量的数据样本，其中，至少一个数据样本包括标识信息；基于多组数据组中的数据样本对初始细胞分类模型进行训练，生成训练后的细胞分类模型；基于测试集对训练后的细胞分类模型进行处理，生成测试结果；若测试结果中包含标识信息的数据样本为Th2A细胞，则将训练后的细胞分类模型作为目标细胞分类模型；基于目标细胞分类模型对目标数据集进行处理，生成Th2A细胞。基于流式细胞术和标识信息对目标数据集进行处理，生成目标细胞信息；若目标细胞信息为Th2A细胞，则生成测试结果，其中，测试结果为标识信息为用于标识与Th2A细胞相关联的基因信息，目标数据集中包括Th2A细胞。开发了一种新的基于机器学习的scDS来表征Th2A 细胞在scRNA-seq数据集，进一步研究验证Th2A 细胞是异常活化Th2 细胞的亚群仅限于过敏性疾病，并在托法替布干预后显著抑制。通过比较线性-SVM 分类器与线性核、多项式核的分类精度或应用10倍交叉验证的径向基函数核，选择线性-SVM具有多项式核的分类器，具有识别Th2A 细胞，进而更好的对Th2A细胞进行分选。

一种实施方式中，如图2所示，本申请还提供一种基于机器学习的Th2A细胞的数据分选装置，包括：

获取模块201，用于获取训练样本集和目标数据集；

处理模块202，用于对所述训练样本集进行预处理，生成带有标识信息的训练样本集，其中，所述标识信息用于标识与Th2A细胞相关联的基因信息；基于预设处理规则构建初始细胞分类模型；基于所述带有标识信息的训练样本集对所述初始细胞分类模型进行训练，生成目标细胞分类模型；基于所述目标细胞分类模型对所述目标数据集进行处理，生成Th2A细胞。

在本申请的另外一种实施方式中，所述处理模块202，被配置为所述对所述训练样本集进行预处理，生成带有标识信息的训练样本集，包括：

对所述训练样本集进行特征提取，确定原始特征库；

根据所述原始特征库划分各个特征数据集，生成训练数据集和测试数据集；

利用分类器对原始特征库划分各个测试数据集进行预测，确定预测结果；

使用预设算法在原始特征库划分各个训练数据集进行训练，得到测试集类预测结果；

根据预测结果以及测试集类预测结果，生成融合特征数据集；

基于预设基因筛选规则对所述融合特征数据集进行处理，生成标识信息，其中，所述标识信息用于标识与Th2A细胞相关联的基因信息。

在本申请的另外一种实施方式中，所述处理模块202，被配置为所述基于预设处理规则构建初始细胞分类模型，包括：

分别获取具有线性函数核的线性SVM分类器、具有多项式函数核的线性SVM分类器和径向基函数核的线性SVM分类器；

基于算法决策模型对上述线性SVM分类器进行处理，生成AUC值，其中，所述算法决策模型包括用于生成AUC值的计算公式，所述公式为：

；

其中，AUC为ROC曲线下方的面积大小，M是Th2A 细胞的数量，N是非Th2A细胞的数量，Xi和Xj表示第i个和第j个概率评分；

基于所述AUC值选择具有多项式函数核的线性SVM分类器作为初始细胞分类模型，其中，所述多项式函数核的线性SVM分类器的AUC值为上述线性SVM分类器中分值最大的。

在本申请的另外一种实施方式中，所述处理模块202，被配置为所述基于所述目标细胞分类模型对所述目标数据集进行处理，生成Th2A细胞之后，还包括：

在本申请的另外一种实施方式中，所述处理模块202，被配置为所述基于所述带有标识信息的训练样本集对所述初始细胞分类模型进行训练，生成目标细胞分类模型，包括：

将所述带有标识信息的训练样本集按照预设比例划分为用于训练所述初始细胞分类模型的训练集和用于测试所述初始细胞分类模型的测试集；

从所述训练集中提取多组数据组，其中，每组数据组均包含预设数量的数据样本，其中，至少一个数据样本包括标识信息；

基于多组所述数据组中的数据样本对所述初始细胞分类模型进行训练，生成训练后的细胞分类模型；

基于所述测试集对所述训练后的细胞分类模型进行处理，生成测试结果；

若所述测试结果中包含标识信息的数据样本为Th2A细胞，则将所述训练后的细胞分类模型作为目标细胞分类模型。

在本申请的另外一种实施方式中，所述处理模块202，被配置为所述从所述训练集中提取多组数据组，包括：

获取所述训练集中任一数量较少的数类样本；

基于任一数量较少的数类样本与同类别的其他数量较少的数类样本之间的距离，生成相邻样本，其中，所述相邻样本包括所述任一数量较少的数类样本的预设数量；

对所述相邻样本进行采样，生成预设数量的采样样本；

基于所述任一少数类样本与每个采样样本，生成多组数据组。

在本申请的另外一种实施方式中，所述处理模块202，被配置为所述对所述相邻样本进行采样，生成预设数量的采样样本，包括：

基于所述训练集中各数类样本的数量，确定采样比例；

基于所述采样比例，确定采样比率；

；

本申请实施例提供了一种电子设备，如图3所示，电子设备3包括第一处理器300，存储器301，总线302和通信接口303，所述第一处理器300、通信接口303和存储器301通过总线302连接；所述存储器301中存储有可在所述第一处理器300上运行的计算机程序，所述第一处理器300运行所述计算机程序时执行本申请前述任一实施方式所提供的所述基于机器学习的Th2A细胞的数据分选方法。

其中，存储器301可能包含高速随机存取存储器（RAM：Random Access Memory），也可能还包括非不稳定的存储器（non-volatile memory），例如至少一个磁盘存储器。通过至少一个通信接口303（可以是有线或者无线）实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网、广域网、本地网、城域网等。

总线302可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。其中，存储器301用于存储程序，所述第一处理器300在接收到执行指令后，执行所述程序，前述本申请实施例任一实施方式揭示的所述基于机器学习的Th2A细胞的数据分选方法可以应用于第一处理器300中，或者由第一处理器300实现。

第一处理器300可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过第一处理器300中的硬件的集成逻辑电路或者软件形式的指令完成。上述的第一处理器300可以是通用处理器，包括中央处理器(Central ProcessingUnit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器301，第一处理器300读取存储器301中的信息，结合其硬件完成上述方法的步骤。

本申请的上述实施例提供的电子设备与本申请实施例提供的基于机器学习的Th2A细胞的数据分选方法出于相同的发明构思，具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。

本申请实施例提供了一种计算机可读存储介质，如图4所示，所述计算机可读存储介质存储401有计算机程序，所述计算机程序被第二处理器402读取并运行时，实现如前述的基于机器学习的Th2A细胞的数据分选方法。

本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台电子设备(可以是空调器，制冷装置，个人计算机，服务器，或者网络设备等)或processor(处理器)执行本申请实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

本申请的上述实施例提供的计算机可读存储介质与本申请实施例提供的基于机器学习的Th2A细胞的数据分选方法出于相同的发明构思，具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。

本申请实施例提供了一种计算机程序产品，包括计算机程序，所述计算机程序被第三处理器执行实现如前述所述的方法。

本申请的上述实施例提供的计算机程序产品与本申请实施例提供的基于机器学习的Th2A细胞的数据分选方法出于相同的发明构思，具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。

需要说明的是，在本申请中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者还是包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本申请中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于评估基于机器学习的Th2A细胞的数据分选方法、电子装置、电子设备、以及可读存储介质实施例而言，由于其基本相似于上述所述的基于机器学习的Th2A细胞的数据分选方法实施例，所以描述的比较简单，相关之处参见上述所述的基于机器学习的Th2A细胞的数据分选方法实施例的部分说明即可。

虽然本申请披露如上，但本申请并非限定于此。任何本领域技术人员，在不脱离本申请的精神和范围内，均可作各种更动与修改，因此本申请的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种基于机器学习的Th2A细胞的数据分选方法，其特征在于，包括：

获取训练样本集和目标数据集；

对所述训练样本集进行预处理，生成带有标识信息的训练样本集，其中，所述标识信息用于标识与Th2A细胞相关联的基因信息；

基于预设处理规则构建初始细胞分类模型；

基于所述带有标识信息的训练样本集对所述初始细胞分类模型进行训练，生成目标细胞分类模型；

基于所述目标细胞分类模型对所述目标数据集进行处理，生成Th2A细胞。

2.如权利要求1所述的方法，其特征在于，所述对所述训练样本集进行预处理，生成带有标识信息的训练样本集，包括：

对所述训练样本集进行特征提取，确定原始特征库；

3.如权利要求1所述的方法，其特征在于，所述基于预设处理规则构建初始细胞分类模型，包括：

；/>；

4.如权利要求1所述的方法，其特征在于，所述基于所述目标细胞分类模型对所述目标数据集进行处理，生成Th2A细胞之后，还包括：

5.如权利要求1所述的方法，其特征在于，所述基于所述带有标识信息的训练样本集对所述初始细胞分类模型进行训练，生成目标细胞分类模型，包括：

6.如权利要求5所述的方法，所述从所述训练集中提取多组数据组，包括：

获取所述训练集中任一数量较少的数类样本；

对所述相邻样本进行采样，生成预设数量的采样样本；

基于任一少数类样本与每个采样样本，生成多组数据组。

7.如权利要求6所述的方法，所述对所述相邻样本进行采样，生成预设数量的采样样本，包括：

基于所述训练集中各数类样本的数量，确定采样比例；

基于所述采样比例，确定采样比率；

8.一种基于机器学习的Th2A细胞的数据分选装置，其特征在于，所述装置包括：

获取模块，用于获取训练样本集和目标数据集；

处理模块，用于对所述训练样本集进行预处理，生成带有标识信息的训练样本集，其中，所述标识信息用于标识与Th2A细胞相关联的基因信息；基于预设处理规则构建初始细胞分类模型；基于所述带有标识信息的训练样本集对所述初始细胞分类模型进行训练，生成目标细胞分类模型；基于所述目标细胞分类模型对所述目标数据集进行处理，生成Th2A细胞。

9.一种电子设备，其特征在于，包括：

第一处理器；以及存储器，用于存储所述第一处理器的可执行指令；

其中，所述第一处理器配置为经由执行所述可执行指令来执行权利要求 1～7中任意一项所述的基于机器学习的Th2A细胞的数据分选方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被第二处理器执行时实现权利要求1～7中任意一项所述的基于机器学习的Th2A细胞的数据分选方法。