CN115223661A

CN115223661A - 生物组学数据分析系统

Info

Publication number: CN115223661A
Application number: CN202210730991.3A
Authority: CN
Inventors: 臧泽林; 夏翰宸; 耿雨岚; 徐永杰; 李子青
Original assignee: Westlake University
Current assignee: Westlake University
Priority date: 2022-06-24
Filing date: 2022-06-24
Publication date: 2022-10-21
Anticipated expiration: 2042-06-24
Also published as: CN115223661B

Abstract

本发明涉及生物组学研究，尤其涉及用于研究生物特征的生物组学数据分析系统，包括生物组学数据采集子系统、生物组学数据分析子系统、生物组学数据输出子系统，在生物组学数据分析子系统中将组学数据输入生物组学数据分析子系统，然后训练输入‑输出变换神经网络，网络将在损失函数的作用下自动筛选有用特征，并且将特征映射到低维空间，通过端到端方法将以统一的目标进行数据处理，能够保证数据结构、减小对数据的破坏，在下游任务上有更好表现。

Description

生物组学数据分析系统

技术领域

本发明涉及生物组学研究，尤其涉及用于研究生物特征的生物组学数据分析系统。

背景技术

生物组学主要包括基因组学、蛋白组学、代谢组学、转录组学、脂类组学、免疫组学、糖组学、RNA组学、影像组学、超声组学等，通过组学方法，能够更快速的发现各特征之间的关系。

在组学研究中因为采集的生物组学数据拥有数量庞大的维度而很难进行分类、聚类和可视化等下游操作，传统方法是进行特征选择(FS)和特征投影(FP)两个处理步骤，现有的方法中两个子步骤是分别进行的，有各自的优化目标，因为目标的冲突而破坏了原始数据的结构，例如在特征选择中，去掉了重要的特征，影响到下游的数据分类、聚类和可视化等工作，降维(DR)将高维数据映射到低维潜在空间，并将其转化为最小化目标函数的优化任务，降维方法通常分为两类：特征选择(FS)和特征投影(FP)，FS着重于选择一个关键的维度的子集，但有可能破坏数据的分布(结构)，另一方面，FP保持了结构，但缺乏可解释性和稀疏性，FS和FP在传统上是不相容的类别。

当前降维方法“AE-basedFS”的缺陷，基于AE-based FS在AE的输入层和隐藏层之间增加了一个一对一的层，以衡量每个特征的重要性。利用了该层权重的稀疏L1正则化，为该层的权重提供FS，正式地，将AE-based FS定义为：

其中，W＝Diag(w)，w∈R^D指征特征的重要性，编码器f_θ将输入数据xW嵌入到一个潜空间，解码器g_φ将潜空间的数据映射回到原空间并计算重构损失，L1损失会控制权重w范数的增长，而最小化重构损失会提高了重要特征的权重，这两种损失协同作用，引导重要的特征拥有更高的权重，AE-based FS已经被证明是有效的，然而，实验表明这类方法在以下两个方面不尽人意。

具体为，Offline的特征选择过程，AE在训练过程中不中断任何特征的前向训练过程中的任何特征的前向传播，而是只是简单地降低权重，最终在算法优化的最后选择重要的特征，由于部分特征的信息完全忽略，这种方案得到的DR结果是不可信的；忽略了数据的结构，基于AE的方法更注重所选特征是否能重构的所有成分(包括冗余和噪声)，而忽略了数据的基本结构，而忽略了数据的基本结构，尽管AE是目前最先进的FS方法但我们不能把它作为FS&FP的基线，此外，忽略数据的结构信息会破坏该方法的判别性能，因此，没有一个统一的框架将两种方法结合，得到的生物组学数据分析系统在数据分类、聚类和可视化等下游工作中表现不佳。

发明内容

本发明的目的在于克服现有技术中的不足，提供一种能够保证数据结构、减小对数据的破坏，在下游任务上有更好表现的生物组学数据分析系统。

本发明是通过以下技术方案实现的：一种生物组学数据分析系统，包括生物组学数据采集子系统、生物组学数据分析子系统、生物组学数据输出子系统，

所述生物组学数据采集子系统包括生物组学数据录入装置，录入后得到生物组学数据集；

所述生物组学数据分析子系统用于建立数学模型，将高维度空间的生物组学数据集映射至低纬度空间，选择重要的组学成分，得到最小化目标函数；

所述生物组学数据输出子系统包括分类模块，和\或可视化模块，和\或聚类模块。

所述生物组学数据分析子系统执行以下步骤，

S1，使用生物组学数据采集子系统采集生物组学数据，并且将生物组学数据转化为图结构数据，生成图G(V,E,X)，

其中，V是生物组学样本的集合，n＝|V|，n为生物组学样本数，

E是生物组学样本边的集合，e＝|E|，e是生物组学样本边的数量，e表征生物组学样本在语义上的近邻关系，

X＝[x₁,x₂,…,x_n]：生物组学样本属性的集合,其中x_i∈R^D，D是属性的维数，生物组学样本属性表征丰富度，

S2、对图G(V,E,X)进行数据增强，生成一个伴随图G′(V′,E′,X′)，

其中，

V′＝{v₁,…,v_n,v′₁,…v′_n}，

E′＝E∪E′∪E″，

X′＝{x₁,…,x_n,τ(x₁),…,τ(x_n)}，

v_i代表原始生物组学样本，v′_i代表增强生物组学样本，

E由三种边组成，分别为分别是原始生物组学样本与原始生物组学样本之间的边E，原始生物组学样本与增强生物组学样本之间的边E′，增强生物组学样本与增强生物组学样本之间的边E″；

S3、对伴随图G′(V′,E′,X′)通过特征选择网络进行特征选择得到图G^h(V′,E′,Z^h)；

S4、计算图G^h(V′,E′,Z^h)中各生物组学样本的相似度；

计算图G^h(V′,E′,Z^h)中各生物组学样本的相似度，计算相似度将描述生物组学样本间的相似度关系，从而使用网络将数据聚类、分组、可视化，

S5、对图G^h(V′,E′,Z^h)通过特征投影网络进行特征投影得到图G^l(V′,E′,Z^l)；

S6、根据图图G^h(V′,E′,Z^h)和图G^l(V′,E′,Z^l)构建出保图结构的损失函数，

S7、根据损失函数训练特征选择网络和特征投影网络；

S8、重复S2-S8，直到达到指定次数；

S9、经过训练的特征选择网络和特征投影网络参数中提取特征的重要性，得到重要的组学成分；

S10、训练过的特征选择网络和特征投影网络用于处理对图G(V,E,X)，将图G(V,E,X)映射到低维空间，

生物组学数据分析子系统的用途是从原始的D维特征空间中选择d个特征子集，且d＜＜D，以及将具有所选特征的数据X^h映射到潜空间Z，得到的特征子集和嵌入结果尽可能代表原始数据。

一般来说，使用k-NN图来构建无监督背景下的边的结构，

E＝{(v_i,v_j)|v_j∈N^k(v_i),v_i∈V}

其中N(v_i)是节点v_i的kNN邻域集合，使用图描述好处是很容易与有监督的情况兼容，

E＝{(v_i,v_j)|v_j∈N^k(v_i)∩Y(v_i),v_i∈V}

其中Y(v_i)是与v_i有相同标签的节点的集合。

进一步地，所述生物组学数据为基因组学数据、蛋白组学数据、代谢组学数据、转录组学数据、脂类组学数据、免疫组学数据、糖组学数据和RNA组学数据其中的一种。

进一步地，步骤S4中，图G^h(V′,E′,Z^h)中各生物组学样本的相似度为

其中，k(·)为核函数，

等维情况下，核函数选用高斯核函数，

降维情况下，核函数选用t分布核函数，

将函数节点的距离关系转变为相似度，σ²是高斯核的宽度，υ是t分布的自由度参数。

进一步地，步骤S3中，所述特征选择网络为f_θ,w(·)，f_θ,w(·)在线学习稀疏特征子集，然后将具有选定特征的数据映射到高维嵌入Z^h中，

Z^h＝f_θ(X^h)

FS方法涉及到一个离线特征选择策略，它包括两个步骤，(1)使用各种目标函数对所有特征的重要性进行评分；(2)选择前k个基本特征，这样一个离线方案给FS&FP的统一造成了障碍，模型训练过程中需要选择准确的特征子集，然后才能进行后续的FP，

所述特征选择网络为g_φ(·)，前向传播过程为：Z^l＝g_φ(Z^h)，

FS在线学习稀疏特征子集，然后将具有选定特征的数据映射到高维嵌入Z^h中；FP网络进一步将Z^h映射到低维嵌入Z^l中，两个网络在不改变V′和E′的条件下映射数据值X′，最后我们可以得到两个图G^h(V′,E′,Z^h)和G^l(V′,E′,Z^l)。

进一步地，步骤S6中，损失函数为min_w,θ,φL_tp+λL_r,Lr＝‖w‖₁，

其中，

为G^h(V′,E′,Z^h)的高维节点相似度，S^l为G^l(V′,E′,Z^l)的低维节点相似度，通过结合从G^h计算的高维节点相似度

从G^l计算的低维节点相似度S^l和图结构E′，目标是建立一个损失函数，在FS和FP过程中尽可能地减少结构损失，损失函数的目标如下：

(1)该方法应以一致的目标执行FS和FP任务，避免性能损失，

(2)该方法应着重于结构性信息，并避免过度关注输入数据的像素特征，因为可能存在噪声和无用信息，

(3)该方法应该对FS过程不敏感，并且不应该因为去掉某些特征而导致学习目标的急剧变化，

为了实现(1)，没有堆叠训练好的DRN，而是通过反向传播和结构保全损失来优化所有参数，为了实现(2)和(3)，使用边缘E′来描述原始结构(或在监督情况下的给定结构)，并使用节点相似度S来描述数据嵌入的结构，然后，设计了流形放大法，通过引入高维嵌入图

来补偿S和E′的分布差异，流形放大的概念来自于一个简单的想法，即在降维过程中把最近的邻居节点拉进来，把非最近的邻居节点挤出去，在降维过程中，拉入最近的邻居节点并推掉非最近的邻居节点，这样一个推拉操作是基于一个给定的结构E′，因此在FS和FP过程中，逐步引导的DRN保持结构。

本发明的有益效果在于：生物组学数据分析系统，包括生物组学数据采集子系统、生物组学数据分析子系统、生物组学数据输出子系统，在生物组学数据分析子系统中将组学数据输入生物组学数据分析子系统，然后训练网络，网络将在损失函数的作用下自动筛选有用特征，并且将特征映射到低维空间，通过端到端方法将以统一的目标进行数据处理，能够保证数据结构、减小对数据的破坏，在下游任务上有更好表现。

附图说明

图1为生物组学数据分析子系统执行流程示意图；

图2为实施例1与其它FS方法在不同数据集下性能对照表；

图3为实施例1与其它组学方法判别性能对照表；

图4为实施例1与其它组学方法结构损失对照表；

图5为实施例1与其它组学方法投影到潜空间后的结果图。

具体实施方式

下面将结合发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

一种生物组学数据分析系统，包括生物组学数据采集子系统、生物组学数据分析子系统、生物组学数据输出子系统，

其中生物组学数据为蛋白质组学数据，

生物组学数据采集子系统包括生物组学数据录入装置，生物组学数据录入装置选用Orbitrap Fusion Lumos Tribrid质谱仪，录入后得到生物组学数据集，生成图G(V,E,X)，

其中，V是蛋白质组学数据的集合，n＝|V|，n为蛋白质组学数据数，

E是蛋白质组学数据边的集合，e＝|E|，e是蛋白质组学数据边的数量，

X＝[x₁,x₂,…,x_n]：蛋白质组学数据属性的集合,其中x_i∈R^D，D是属性的维数；

生物组学数据分析子系统用于建立数学模型，将高维度空间的生物组学数据集映射至低纬度空间，选择重要的组学成分，得到最小化目标函数，具体为，

生物组学数据分析子系统执行以下步骤，

S1，将生物组学数据集生成图G(V,E,X)，

X＝[x₁,x₂,…,x_n]：蛋白质组学数据属性的集合,其中x_i∈R^D，D是属性的维数，

其中，

V′＝{v₁,…,v_n,v′₁,…v′_n}，

E′＝E∪E′∪E″，

X′＝{x₁,…,x_n,τ(x₁),…,τ(x_n)}，

v_i代表原始蛋白质组学数据样本，v′_i代表增强蛋白质组学数据样本，

E由三种边组成，分别为分别是原始蛋白质组学数据样本与原始蛋白质组学数据样本之间的边E，原始蛋白质组学数据样本与增强蛋白质组学数据样本之间的边E′，增强蛋白质组学数据样本与增强蛋白质组学数据样本之间的边E″，对图G(V,E,X)进行数据增强可以提高数据的多样性以克服过拟合，并且通过与损失函数共同促进模型的更好的训练，

S3、对伴随图G′(V′,E′,X′)进行特征选择得到图G^h(V′,E′,Z^h)，特征选择通过特征选择网络实现，所述特征选择网络为f_θ,w(·)，f_θ,w(·)在线学习稀疏特征子集，然后将具有选定特征的数据映射到高维嵌入Z^h中，

Z^h＝f_θ(X^h)

S4、计算图G^h(V′,E′,Z^h)中各蛋白质组学数据样本的相似度，

计算图G^h(V′,E′,Z^h)中各蛋白质组学数据样本的相似度，图G^h(V′,E′,Z^h)中各蛋白质组学数据样本的相似度为

其中，κ(·)为核函数，

等维情况下，核函数选用高斯核函数，

降维情况下，核函数选用t分布核函数，

将函数节点的距离关系转变为相似度，σ²是高斯核的宽度，υ是t分布的自由度参数，计算相似度将描述生物组学样本间的相似度关系，从而使用网络将数据聚类、分组、可视化，

S5、对图G^h(V′,E′,Z^h)进行特征投影得到图G^l(V′,E′,Z^l)，

特征投影通过特征投影网络实现，所述特征投影网络为g_φ(·)，前向传播过程为：Z^l＝g_φ(Z^h)，

FS在线学习稀疏特征子集，然后将具有选定特征的数据映射到高维嵌入Z^h中；FP网络进一步将Z^h映射到低维嵌入Z^l中，两个网络在不改变V′和E′的条件下映射数据值X′，最后我们可以得到两个图G^h(V′,E′,Z^h)和G^l(V′,E′,Z^l)；

S6、构建出保图结构的损失函数，损失函数为min_w,θ,φL_tp+λL_r,L_r＝‖w‖₁，其中，

(1)该方法应以一致的目标执行FS和FP任务，避免性能损失，

来补偿S和E′的分布差异，流形放大的概念来自于一个简单的想法，即在降维过程中把最近的邻居节点拉进来，把非最近的邻居节点挤出去，在降维过程中，拉入最近的邻居节点并推掉非最近的邻居节点，这样一个推拉操作是基于一个给定的结构E′，因此在FS和FP过程中，逐步引导的DRN保持结构，

S7、根据损失函数训练模型；

S8、重复S2-S8，直到达到指定次数；

S9、经过训练的模型参数中提取特征的重要性，得到重要的组学成分；

S10、训练过的模型用于处理对图G(V,E,X)，将图G(V,E,X)映射到低维空间。

蛋白质组学数据分析子系统的用途是从原始的D维特征空间中选择d个特征子集，且d＜＜D，以及将具有所选特征的数据X^h映射到潜空间Z，得到的特征子集和嵌入结果尽可能代表原始数据。

一般来说，使用k-NN图来构建无监督背景下的边的结构，

E＝{(v_i,v_j)|v_j∈N^k(v_i),v_i∈V}

E＝{(v_i,v_j)|v_j∈N^k(v_i)∩Y(v_i),v_i∈V}

其中Y(v_i)是与v_i有相同标签的节点的集合。

步骤S6中，损失函数为min_w,θ,φL_tp+λL_r,L_r＝‖w‖₁，其中，

(1)该方法应以一致的目标执行FS和FP任务，避免性能损失，

构建出保图结构的损失函数，本文设计了参数正则损失函数，这个损失函数将引导网络丢弃所有的特征。而又设计了结构保持损失函数，这个损失函数将阻碍重要的(能够起到保持输出数据的结构与先验结构相似的)特征的丢弃过程，两个损失函数的对抗将导致只有重要的特征被保留。

生物组学数据输出子系统包括分类模块，和\或可视化模块，和\或聚类模块，

其中，分类模块可选用svm方法、随机森林；

可视化模块可选用UMAP、tSNE；

聚类模块可选用Kmeans、谱聚类等。

将实施例1提供的生物组学数据分析系统进行测试，具体为，

参数设置，将FS层的权重初始化为0.2，并使用Kaiming初始化器初始化另一个NN。采用AdamW优化器[Loshchilov and Hutter,2017]，学习率为0.001。所有实验都使用固定的MLP网络结构，f_θ,w:[-1,500,300,80],g_φ:[80,500,2]。其中-1是数据集的特征数。为了让DRN选择指定数量的特征，设置一个自适应的λ＝0模型，然后λ＝L_r/0.1‖w‖₁并增长0.5％，直到特征个数满足要求。对于所有实验，β＝0.01。对于附图2到附图3中的实验，使用伯努利型FMH增强，并设置p_B＝0.4。为了公平比较，我们选择特征并在训练集(80％数据)上训练ET树，在验证集(10％)上选择最佳超参数，并在测试集上报告结果(10％)。

与特征选择(FS)方法的分类性能对比，使用了2个图像数据集(MNIST、KMNIST)和3个生物诊断数据集(HCL、Gast、和MCA)，使用网格搜索方法来确定所有基线方法的最佳参数。附图2为在特征选择后的数据集进行分类测试的性能测试结果。

与特征选择(FS)方法的结构保持性能对比，判别性能与所选特征在分类、聚类和其他判别任务中的属性有关。在FAE[Wuetal.,2021]和CAE[Abidet al.,2020]之后，使用ET树分类器来评估判别性能，即算法将数据映射到潜空间后，用低维潜空间数据点对ET树分类器进行训练，比较训练后分类的准确率。

结构保存性能评估所选特征的结构是否与先验结构(无监督情况下原始数据的结构)相同。为此，使用基于rand的直观度量，最近邻结构匹配度(SMD)，进行比较，结果见附图3和附图4。

由附图3和附图4可以知道，基于AE的方法专注于重建所有输入特征，可能会忽略所选特征的结构；由于过拟合问题，传统的结构保留方法对DRN来说不是最优的，DRN在结构保持性能方面显示出优势。

本发明选出的特征最能够保证数据的结构，意味着相同的类别的数据不会因为本申请的特征选择和映射而混合在一起。导致本申请处理过的数据能够很好的用于组学数据分析，性能超过其他基线方法。

与特征嵌入(FP)方法对比，本申请通过λ＝0禁用稀疏化操作以与FP方法进行比较，为了公平比较，用2D嵌入训练ET树分类器通过FP方法获得，其他设置与前文相同，结果见附图5。

对比了各方法将数据投影到潜空间后的结果图(根据类别标签染色)如下：

可视化结果显示，本申请的方法(右边三列)，各个类别(颜色)的区分更加清晰，表示本申请可以做到更加准确的分类，而且需要更加少的特征数(第一行括号里标注了选出的特征的数量)。

综上，本申请提出的生物组学数据分析系统；

所要解决的技术问题是，得到一个对特定的庞大组学数据进行分析输出的分析系统；

采用的技术手段是：对采集的数据进行特征选择、映射选择、结果输出；

核心技术是：在特征选择、特征映射的过程中通过数学手段，使得到的数据能够更好的保留原数据的结构，进而在结果输出时有更好的表现。

通过本申请提供的生物组学数据分析系统，在生物组学数据分析子系统中将组学数据输入生物组学数据分析子系统，然后训练网络，网络将在损失函数的作用下自动筛选有用特征，并且将特征映射到低维空间，通过端到端方法将以统一的目标进行数据处理，能够保证数据结构、减小对数据的破坏，在下游任务上有更好表现。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。