CN115223661A - 生物组学数据分析系统 - Google Patents

生物组学数据分析系统 Download PDF

Info

Publication number
CN115223661A
CN115223661A CN202210730991.3A CN202210730991A CN115223661A CN 115223661 A CN115223661 A CN 115223661A CN 202210730991 A CN202210730991 A CN 202210730991A CN 115223661 A CN115223661 A CN 115223661A
Authority
CN
China
Prior art keywords
data
biological
omics
graph
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210730991.3A
Other languages
English (en)
Other versions
CN115223661B (zh
Inventor
臧泽林
夏翰宸
耿雨岚
徐永杰
李子青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Westlake University
Original Assignee
Westlake University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Westlake University filed Critical Westlake University
Priority to CN202210730991.3A priority Critical patent/CN115223661B/zh
Publication of CN115223661A publication Critical patent/CN115223661A/zh
Application granted granted Critical
Publication of CN115223661B publication Critical patent/CN115223661B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Epidemiology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及生物组学研究,尤其涉及用于研究生物特征的生物组学数据分析系统,包括生物组学数据采集子系统、生物组学数据分析子系统、生物组学数据输出子系统,在生物组学数据分析子系统中将组学数据输入生物组学数据分析子系统,然后训练输入‑输出变换神经网络,网络将在损失函数的作用下自动筛选有用特征,并且将特征映射到低维空间,通过端到端方法将以统一的目标进行数据处理,能够保证数据结构、减小对数据的破坏,在下游任务上有更好表现。

Description

生物组学数据分析系统
技术领域
本发明涉及生物组学研究,尤其涉及用于研究生物特征的生物组学数据分析系统。
背景技术
生物组学主要包括基因组学、蛋白组学、代谢组学、转录组学、脂类组学、免疫组学、糖组学、RNA组学、影像组学、超声组学等,通过组学方法,能够更快速的发现各特征之间的关系。
在组学研究中因为采集的生物组学数据拥有数量庞大的维度而很难进行分类、聚类和可视化等下游操作,传统方法是进行特征选择(FS)和特征投影(FP)两个处理步骤,现有的方法中两个子步骤是分别进行的,有各自的优化目标,因为目标的冲突而破坏了原始数据的结构,例如在特征选择中,去掉了重要的特征,影响到下游的数据分类、聚类和可视化等工作,降维(DR)将高维数据映射到低维潜在空间,并将其转化为最小化目标函数的优化任务,降维方法通常分为两类:特征选择(FS)和特征投影(FP),FS着重于选择一个关键的维度的子集,但有可能破坏数据的分布(结构),另一方面,FP保持了结构,但缺乏可解释性和稀疏性,FS和FP在传统上是不相容的类别。
当前降维方法“AE-basedFS”的缺陷,基于AE-based FS在AE的输入层和隐藏层之间增加了一个一对一的层,以衡量每个特征的重要性。利用了该层权重的稀疏L1正则化,为该层的权重提供FS,正式地,将AE-based FS定义为:
Figure BDA0003713444780000011
其中,W=Diag(w),w∈RD指征特征的重要性,编码器fθ将输入数据xW嵌入到一个潜空间,解码器gφ将潜空间的数据映射回到原空间并计算重构损失,L1损失会控制权重w范数的增长,而最小化重构损失会提高了重要特征的权重,这两种损失协同作用,引导重要的特征拥有更高的权重,AE-based FS已经被证明是有效的,然而,实验表明这类方法在以下两个方面不尽人意。
具体为,Offline的特征选择过程,AE在训练过程中不中断任何特征的前向训练过程中的任何特征的前向传播,而是只是简单地降低权重,最终在算法优化的最后选择重要的特征,由于部分特征的信息完全忽略,这种方案得到的DR结果是不可信的;忽略了数据的结构,基于AE的方法更注重所选特征是否能重构的所有成分(包括冗余和噪声),而忽略了数据的基本结构,而忽略了数据的基本结构,尽管AE是目前最先进的FS方法但我们不能把它作为FS&FP的基线,此外,忽略数据的结构信息会破坏该方法的判别性能,因此,没有一个统一的框架将两种方法结合,得到的生物组学数据分析系统在数据分类、聚类和可视化等下游工作中表现不佳。
发明内容
本发明的目的在于克服现有技术中的不足,提供一种能够保证数据结构、减小对数据的破坏,在下游任务上有更好表现的生物组学数据分析系统。
本发明是通过以下技术方案实现的:一种生物组学数据分析系统,包括生物组学数据采集子系统、生物组学数据分析子系统、生物组学数据输出子系统,
所述生物组学数据采集子系统包括生物组学数据录入装置,录入后得到生物组学数据集;
所述生物组学数据分析子系统用于建立数学模型,将高维度空间的生物组学数据集映射至低纬度空间,选择重要的组学成分,得到最小化目标函数;
所述生物组学数据输出子系统包括分类模块,和\或可视化模块,和\或聚类模块。
所述生物组学数据分析子系统执行以下步骤,
S1,使用生物组学数据采集子系统采集生物组学数据,并且将生物组学数据转化为图结构数据,生成图G(V,E,X),
其中,V是生物组学样本的集合,n=|V|,n为生物组学样本数,
E是生物组学样本边的集合,e=|E|,e是生物组学样本边的数量,e表征生物组学样本在语义上的近邻关系,
X=[x1,x2,…,xn]:生物组学样本属性的集合,其中xi∈RD,D是属性的维数,生物组学样本属性表征丰富度,
S2、对图G(V,E,X)进行数据增强,生成一个伴随图G′(V′,E′,X′),
其中,
V′={v1,…,vn,v′1,…v′n},
E′=E∪E′∪E″,
X′={x1,…,xn,τ(x1),…,τ(xn)},
vi代表原始生物组学样本,v′i代表增强生物组学样本,
E由三种边组成,分别为分别是原始生物组学样本与原始生物组学样本之间的边E,原始生物组学样本与增强生物组学样本之间的边E′,增强生物组学样本与增强生物组学样本之间的边E″;
S3、对伴随图G′(V′,E′,X′)通过特征选择网络进行特征选择得到图Gh(V′,E′,Zh);
S4、计算图Gh(V′,E′,Zh)中各生物组学样本的相似度;
计算图Gh(V′,E′,Zh)中各生物组学样本的相似度,计算相似度将描述生物组学样本间的相似度关系,从而使用网络将数据聚类、分组、可视化,
S5、对图Gh(V′,E′,Zh)通过特征投影网络进行特征投影得到图Gl(V′,E′,Zl);
S6、根据图图Gh(V′,E′,Zh)和图Gl(V′,E′,Zl)构建出保图结构的损失函数,
S7、根据损失函数训练特征选择网络和特征投影网络;
S8、重复S2-S8,直到达到指定次数;
S9、经过训练的特征选择网络和特征投影网络参数中提取特征的重要性,得到重要的组学成分;
S10、训练过的特征选择网络和特征投影网络用于处理对图G(V,E,X),将图G(V,E,X)映射到低维空间,
生物组学数据分析子系统的用途是从原始的D维特征空间中选择d个特征子集,且d<<D,以及将具有所选特征的数据Xh映射到潜空间Z,得到的特征子集和嵌入结果尽可能代表原始数据。
一般来说,使用k-NN图来构建无监督背景下的边的结构,
E={(vi,vj)|vj∈Nk(vi),vi∈V}
其中N(vi)是节点vi的kNN邻域集合,使用图描述好处是很容易与有监督的情况兼容,
E={(vi,vj)|vj∈Nk(vi)∩Y(vi),vi∈V}
其中Y(vi)是与vi有相同标签的节点的集合。
进一步地,所述生物组学数据为基因组学数据、蛋白组学数据、代谢组学数据、转录组学数据、脂类组学数据、免疫组学数据、糖组学数据和RNA组学数据其中的一种。
进一步地,步骤S4中,图Gh(V′,E′,Zh)中各生物组学样本的相似度为
Figure BDA0003713444780000041
其中,k(·)为核函数,
等维情况下,核函数选用高斯核函数,
Figure BDA0003713444780000042
降维情况下,核函数选用t分布核函数,
Figure BDA0003713444780000043
将函数节点的距离关系转变为相似度,σ2是高斯核的宽度,υ是t分布的自由度参数。
进一步地,步骤S3中,所述特征选择网络为fθ,w(·),fθ,w(·)在线学习稀疏特征子集,然后将具有选定特征的数据映射到高维嵌入Zh中,
Figure BDA0003713444780000051
Zh=fθ(Xh)
FS方法涉及到一个离线特征选择策略,它包括两个步骤,(1)使用各种目标函数对所有特征的重要性进行评分;(2)选择前k个基本特征,这样一个离线方案给FS&FP的统一造成了障碍,模型训练过程中需要选择准确的特征子集,然后才能进行后续的FP,
所述特征选择网络为gφ(·),前向传播过程为:Zl=gφ(Zh),
FS在线学习稀疏特征子集,然后将具有选定特征的数据映射到高维嵌入Zh中;FP网络进一步将Zh映射到低维嵌入Zl中,两个网络在不改变V′和E′的条件下映射数据值X′,最后我们可以得到两个图Gh(V′,E′,Zh)和Gl(V′,E′,Zl)。
进一步地,步骤S6中,损失函数为minw,θ,φLtp+λLr,Lr=‖w‖1
其中,
Figure BDA0003713444780000052
Figure BDA0003713444780000053
Figure BDA0003713444780000054
为Gh(V′,E′,Zh)的高维节点相似度,Sl为Gl(V′,E′,Zl)的低维节点相似度,通过结合从Gh计算的高维节点相似度
Figure BDA0003713444780000055
从Gl计算的低维节点相似度Sl和图结构E′,目标是建立一个损失函数,在FS和FP过程中尽可能地减少结构损失,损失函数的目标如下:
(1)该方法应以一致的目标执行FS和FP任务,避免性能损失,
(2)该方法应着重于结构性信息,并避免过度关注输入数据的像素特征,因为可能存在噪声和无用信息,
(3)该方法应该对FS过程不敏感,并且不应该因为去掉某些特征而导致学习目标的急剧变化,
为了实现(1),没有堆叠训练好的DRN,而是通过反向传播和结构保全损失来优化所有参数,为了实现(2)和(3),使用边缘E′来描述原始结构(或在监督情况下的给定结构),并使用节点相似度S来描述数据嵌入的结构,然后,设计了流形放大法,通过引入高维嵌入图
Figure BDA0003713444780000061
来补偿S和E′的分布差异,流形放大的概念来自于一个简单的想法,即在降维过程中把最近的邻居节点拉进来,把非最近的邻居节点挤出去,在降维过程中,拉入最近的邻居节点并推掉非最近的邻居节点,这样一个推拉操作是基于一个给定的结构E′,因此在FS和FP过程中,逐步引导的DRN保持结构。
本发明的有益效果在于:生物组学数据分析系统,包括生物组学数据采集子系统、生物组学数据分析子系统、生物组学数据输出子系统,在生物组学数据分析子系统中将组学数据输入生物组学数据分析子系统,然后训练网络,网络将在损失函数的作用下自动筛选有用特征,并且将特征映射到低维空间,通过端到端方法将以统一的目标进行数据处理,能够保证数据结构、减小对数据的破坏,在下游任务上有更好表现。
附图说明
图1为生物组学数据分析子系统执行流程示意图;
图2为实施例1与其它FS方法在不同数据集下性能对照表;
图3为实施例1与其它组学方法判别性能对照表;
图4为实施例1与其它组学方法结构损失对照表;
图5为实施例1与其它组学方法投影到潜空间后的结果图。
具体实施方式
下面将结合发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
一种生物组学数据分析系统,包括生物组学数据采集子系统、生物组学数据分析子系统、生物组学数据输出子系统,
其中生物组学数据为蛋白质组学数据,
生物组学数据采集子系统包括生物组学数据录入装置,生物组学数据录入装置选用Orbitrap Fusion Lumos Tribrid质谱仪,录入后得到生物组学数据集,生成图G(V,E,X),
其中,V是蛋白质组学数据的集合,n=|V|,n为蛋白质组学数据数,
E是蛋白质组学数据边的集合,e=|E|,e是蛋白质组学数据边的数量,
X=[x1,x2,…,xn]:蛋白质组学数据属性的集合,其中xi∈RD,D是属性的维数;
生物组学数据分析子系统用于建立数学模型,将高维度空间的生物组学数据集映射至低纬度空间,选择重要的组学成分,得到最小化目标函数,具体为,
生物组学数据分析子系统执行以下步骤,
S1,将生物组学数据集生成图G(V,E,X),
其中,V是蛋白质组学数据的集合,n=|V|,n为蛋白质组学数据数,
E是蛋白质组学数据边的集合,e=|E|,e是蛋白质组学数据边的数量,
X=[x1,x2,…,xn]:蛋白质组学数据属性的集合,其中xi∈RD,D是属性的维数,
S2、对图G(V,E,X)进行数据增强,生成一个伴随图G′(V′,E′,X′),
其中,
V′={v1,…,vn,v′1,…v′n},
E′=E∪E′∪E″,
X′={x1,…,xn,τ(x1),…,τ(xn)},
vi代表原始蛋白质组学数据样本,v′i代表增强蛋白质组学数据样本,
E由三种边组成,分别为分别是原始蛋白质组学数据样本与原始蛋白质组学数据样本之间的边E,原始蛋白质组学数据样本与增强蛋白质组学数据样本之间的边E′,增强蛋白质组学数据样本与增强蛋白质组学数据样本之间的边E″,对图G(V,E,X)进行数据增强可以提高数据的多样性以克服过拟合,并且通过与损失函数共同促进模型的更好的训练,
S3、对伴随图G′(V′,E′,X′)进行特征选择得到图Gh(V′,E′,Zh),特征选择通过特征选择网络实现,所述特征选择网络为fθ,w(·),fθ,w(·)在线学习稀疏特征子集,然后将具有选定特征的数据映射到高维嵌入Zh中,
Figure BDA0003713444780000081
Zh=fθ(Xh)
FS方法涉及到一个离线特征选择策略,它包括两个步骤,(1)使用各种目标函数对所有特征的重要性进行评分;(2)选择前k个基本特征,这样一个离线方案给FS&FP的统一造成了障碍,模型训练过程中需要选择准确的特征子集,然后才能进行后续的FP,
S4、计算图Gh(V′,E′,Zh)中各蛋白质组学数据样本的相似度,
计算图Gh(V′,E′,Zh)中各蛋白质组学数据样本的相似度,图Gh(V′,E′,Zh)中各蛋白质组学数据样本的相似度为
Figure BDA0003713444780000091
其中,κ(·)为核函数,
等维情况下,核函数选用高斯核函数,
Figure BDA0003713444780000092
降维情况下,核函数选用t分布核函数,
Figure BDA0003713444780000093
将函数节点的距离关系转变为相似度,σ2是高斯核的宽度,υ是t分布的自由度参数,计算相似度将描述生物组学样本间的相似度关系,从而使用网络将数据聚类、分组、可视化,
S5、对图Gh(V′,E′,Zh)进行特征投影得到图Gl(V′,E′,Zl),
特征投影通过特征投影网络实现,所述特征投影网络为gφ(·),前向传播过程为:Zl=gφ(Zh),
FS在线学习稀疏特征子集,然后将具有选定特征的数据映射到高维嵌入Zh中;FP网络进一步将Zh映射到低维嵌入Zl中,两个网络在不改变V′和E′的条件下映射数据值X′,最后我们可以得到两个图Gh(V′,E′,Zh)和Gl(V′,E′,Zl);
S6、构建出保图结构的损失函数,损失函数为minw,θ,φLtp+λLr,Lr=‖w‖1,其中,
Figure BDA0003713444780000094
Figure BDA0003713444780000095
Figure BDA0003713444780000096
为Gh(V′,E′,Zh)的高维节点相似度,Sl为Gl(V′,E′,Zl)的低维节点相似度,通过结合从Gh计算的高维节点相似度
Figure BDA0003713444780000097
从Gl计算的低维节点相似度Sl和图结构E′,目标是建立一个损失函数,在FS和FP过程中尽可能地减少结构损失,损失函数的目标如下:
(1)该方法应以一致的目标执行FS和FP任务,避免性能损失,
(2)该方法应着重于结构性信息,并避免过度关注输入数据的像素特征,因为可能存在噪声和无用信息,
(3)该方法应该对FS过程不敏感,并且不应该因为去掉某些特征而导致学习目标的急剧变化,
为了实现(1),没有堆叠训练好的DRN,而是通过反向传播和结构保全损失来优化所有参数,为了实现(2)和(3),使用边缘E′来描述原始结构(或在监督情况下的给定结构),并使用节点相似度S来描述数据嵌入的结构,然后,设计了流形放大法,通过引入高维嵌入图
Figure BDA0003713444780000101
来补偿S和E′的分布差异,流形放大的概念来自于一个简单的想法,即在降维过程中把最近的邻居节点拉进来,把非最近的邻居节点挤出去,在降维过程中,拉入最近的邻居节点并推掉非最近的邻居节点,这样一个推拉操作是基于一个给定的结构E′,因此在FS和FP过程中,逐步引导的DRN保持结构,
S7、根据损失函数训练模型;
S8、重复S2-S8,直到达到指定次数;
S9、经过训练的模型参数中提取特征的重要性,得到重要的组学成分;
S10、训练过的模型用于处理对图G(V,E,X),将图G(V,E,X)映射到低维空间。
蛋白质组学数据分析子系统的用途是从原始的D维特征空间中选择d个特征子集,且d<<D,以及将具有所选特征的数据Xh映射到潜空间Z,得到的特征子集和嵌入结果尽可能代表原始数据。
一般来说,使用k-NN图来构建无监督背景下的边的结构,
E={(vi,vj)|vj∈Nk(vi),vi∈V}
其中N(vi)是节点vi的kNN邻域集合,使用图描述好处是很容易与有监督的情况兼容,
E={(vi,vj)|vj∈Nk(vi)∩Y(vi),vi∈V}
其中Y(vi)是与vi有相同标签的节点的集合。
步骤S6中,损失函数为minw,θ,φLtp+λLr,Lr=‖w‖1,其中,
Figure BDA0003713444780000111
Figure BDA0003713444780000112
Figure BDA0003713444780000113
为Gh(V′,E′,Zh)的高维节点相似度,Sl为Gl(V′,E′,Zl)的低维节点相似度,通过结合从Gh计算的高维节点相似度
Figure BDA0003713444780000114
从Gl计算的低维节点相似度Sl和图结构E′,目标是建立一个损失函数,在FS和FP过程中尽可能地减少结构损失,损失函数的目标如下:
(1)该方法应以一致的目标执行FS和FP任务,避免性能损失,
(2)该方法应着重于结构性信息,并避免过度关注输入数据的像素特征,因为可能存在噪声和无用信息,
(3)该方法应该对FS过程不敏感,并且不应该因为去掉某些特征而导致学习目标的急剧变化,
为了实现(1),没有堆叠训练好的DRN,而是通过反向传播和结构保全损失来优化所有参数,为了实现(2)和(3),使用边缘E′来描述原始结构(或在监督情况下的给定结构),并使用节点相似度S来描述数据嵌入的结构,然后,设计了流形放大法,通过引入高维嵌入图
Figure BDA0003713444780000115
来补偿S和E′的分布差异,流形放大的概念来自于一个简单的想法,即在降维过程中把最近的邻居节点拉进来,把非最近的邻居节点挤出去,在降维过程中,拉入最近的邻居节点并推掉非最近的邻居节点,这样一个推拉操作是基于一个给定的结构E′,因此在FS和FP过程中,逐步引导的DRN保持结构。
构建出保图结构的损失函数,本文设计了参数正则损失函数,这个损失函数将引导网络丢弃所有的特征。而又设计了结构保持损失函数,这个损失函数将阻碍重要的(能够起到保持输出数据的结构与先验结构相似的)特征的丢弃过程,两个损失函数的对抗将导致只有重要的特征被保留。
生物组学数据输出子系统包括分类模块,和\或可视化模块,和\或聚类模块,
其中,分类模块可选用svm方法、随机森林;
可视化模块可选用UMAP、tSNE;
聚类模块可选用Kmeans、谱聚类等。
将实施例1提供的生物组学数据分析系统进行测试,具体为,
参数设置,将FS层的权重初始化为0.2,并使用Kaiming初始化器初始化另一个NN。采用AdamW优化器[Loshchilov and Hutter,2017],学习率为0.001。所有实验都使用固定的MLP网络结构,fθ,w:[-1,500,300,80],gφ:[80,500,2]。其中-1是数据集的特征数。为了让DRN选择指定数量的特征,设置一个自适应的λ=0模型,然后λ=Lr/0.1‖w‖1并增长0.5%,直到特征个数满足要求。对于所有实验,β=0.01。对于附图2到附图3中的实验,使用伯努利型FMH增强,并设置pB=0.4。为了公平比较,我们选择特征并在训练集(80%数据)上训练ET树,在验证集(10%)上选择最佳超参数,并在测试集上报告结果(10%)。
与特征选择(FS)方法的分类性能对比,使用了2个图像数据集(MNIST、KMNIST)和3个生物诊断数据集(HCL、Gast、和MCA),使用网格搜索方法来确定所有基线方法的最佳参数。附图2为在特征选择后的数据集进行分类测试的性能测试结果。
与特征选择(FS)方法的结构保持性能对比,判别性能与所选特征在分类、聚类和其他判别任务中的属性有关。在FAE[Wuetal.,2021]和CAE[Abidet al.,2020]之后,使用ET树分类器来评估判别性能,即算法将数据映射到潜空间后,用低维潜空间数据点对ET树分类器进行训练,比较训练后分类的准确率。
结构保存性能评估所选特征的结构是否与先验结构(无监督情况下原始数据的结构)相同。为此,使用基于rand的直观度量,最近邻结构匹配度(SMD),进行比较,结果见附图3和附图4。
Figure BDA0003713444780000131
由附图3和附图4可以知道,基于AE的方法专注于重建所有输入特征,可能会忽略所选特征的结构;由于过拟合问题,传统的结构保留方法对DRN来说不是最优的,DRN在结构保持性能方面显示出优势。
本发明选出的特征最能够保证数据的结构,意味着相同的类别的数据不会因为本申请的特征选择和映射而混合在一起。导致本申请处理过的数据能够很好的用于组学数据分析,性能超过其他基线方法。
与特征嵌入(FP)方法对比,本申请通过λ=0禁用稀疏化操作以与FP方法进行比较,为了公平比较,用2D嵌入训练ET树分类器通过FP方法获得,其他设置与前文相同,结果见附图5。
对比了各方法将数据投影到潜空间后的结果图(根据类别标签染色)如下:
可视化结果显示,本申请的方法(右边三列),各个类别(颜色)的区分更加清晰,表示本申请可以做到更加准确的分类,而且需要更加少的特征数(第一行括号里标注了选出的特征的数量)。
综上,本申请提出的生物组学数据分析系统;
所要解决的技术问题是,得到一个对特定的庞大组学数据进行分析输出的分析系统;
采用的技术手段是:对采集的数据进行特征选择、映射选择、结果输出;
核心技术是:在特征选择、特征映射的过程中通过数学手段,使得到的数据能够更好的保留原数据的结构,进而在结果输出时有更好的表现。
通过本申请提供的生物组学数据分析系统,在生物组学数据分析子系统中将组学数据输入生物组学数据分析子系统,然后训练网络,网络将在损失函数的作用下自动筛选有用特征,并且将特征映射到低维空间,通过端到端方法将以统一的目标进行数据处理,能够保证数据结构、减小对数据的破坏,在下游任务上有更好表现。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种生物组学数据分析系统,其特征在于,包括生物组学数据采集子系统、生物组学数据分析子系统、生物组学数据输出子系统,
所述生物组学数据采集子系统包括生物组学数据录入装置,录入后得到生物组学数据集;
所述生物组学数据分析子系统用于建立数学模型,将高维度空间的生物组学数据集映射至低纬度空间,选择重要的组学成分,得到最小化目标函数;
所述生物组学数据输出子系统包括分类模块,和\或可视化模块,和\或聚类模块,
所述生物组学数据分析子系统执行以下步骤,
S1,使用生物组学数据采集子系统采集生物组学数据,并且将生物组学数据转化为图结构数据,生成图G(V,E,X),
其中,V是生物组学样本的集合,n=|V|,n为生物组学样本的数量,
E是生物组学样本边的集合,e=|E|,e是生物组学样本边的数量,
X=[x1,x2,...,xn],为生物组学样本属性的集合,其中xi∈RD,D是属性的维数;
S2、对图G(V,E,X)进行数据增强,生成一个伴随图G′(V′,E′,X′),
其中,
V′={v1,...,vn,v′1,...v′n},
E′=E∪E′∪E″,
X′={x1,…,xn,τ(x1),…,τ(xn)},
vi代表原始生物组学样本,v′i代表增强生物组学样本,
E由三种边组成,分别为原始生物组学样本与原始生物组学样本之间的边E,原始生物组学样本与增强生物组学样本之间的边E′,增强生物组学样本与增强生物组学样本之间的边E″;
S3、对伴随图G′(V′,E′,X′)通过特征选择网络进行特征选择得到图Gh(V′,E′,Zh);
S4、计算图Gh(V′,E′,Zh)中各生物组学样本的相似度;
S5、对图Gh(V′,E′,Zh)通过特征投影网络进行特征投影得到图Gl(V′,E′,Zl);
S6、根据图图Gh(V′,E′,Zh)和图Gl(V′,E′,Zl)构建出保图结构的损失函数;
S7、根据损失函数训练特征选择网络和特征投影网络;
S8、重复S2-S8,直到达到指定次数;
S9、经过训练的特征选择网络和特征投影网络参数中提取特征的重要性,得到重要的组学成分;
S10、训练过的特征选择网络和特征投影网络用于处理对图G(V,E,X),将图G(V,E,X)映射到低维空间。
2.根据权利要求1所述的生物组学数据分析系统,其特征在于,所述生物组学数据为基因组学数据、蛋白组学数据、代谢组学数据、转录组学数据、脂类组学数据、免疫组学数据、糖组学数据和RNA组学数据其中的一种。
3.根据权利要求1所述的生物组学数据分析系统,其特征在于,所述录入装置用于采集和录入组学数据。
4.根据权利要求1所述的生物组学数据分析系统,其特征在于,步骤S4中,图Gh(V′,E′,Zh)中各节点的相似度为
Figure FDA0003713444770000021
其中,κ(·)为核函数,
等维情况下,核函数选用高斯核函数,
Figure FDA0003713444770000022
降维情况下,核函数选用t分布核函数,
Figure FDA0003713444770000023
σ2是高斯核的宽度,υ是t分布的自由度参数。
5.根据权利要求4所述的生物组学数据分析系统,其特征在于,步骤S3中,所述特征选择网络为fθ,w(·),fθ,w(·)在线学习稀疏特征子集,然后将具有选定特征的数据映射到高维嵌入Zh中,
Figure FDA0003713444770000031
Zh=fθ(Xh)
其中,Xh为稀疏特征数据,fθ(·)为MLP;W=Diag(w)是一个特征权重矩阵;∈是一个超参数阈值;
Figure FDA0003713444770000032
是Hadamard积;1W>∈是一个阀门层用于筛选特征,所述特征选择网络为gφ(·),前向传播过程为:Zl=gφ(Zh)。
6.根据权利要求5所述的生物组学数据分析系统,其特征在于,步骤S6中,损失函数为minw,θ,φLtp+λLr,Lr=||w||1
其中,
Figure FDA0003713444770000033
Figure FDA0003713444770000034
Figure FDA0003713444770000035
为Gh(V′,E′,Zh)的高维节点相似度,Sl为Gl(V′,E′,Zl)的低维节点相似度,B为一个批处理中的节点数,
Figure FDA0003713444770000036
Ltp为结构保持损失函数,w是一个用于评价生物组学数据重要性的特征权重矩阵,θ是网络fθ(·)的模型参数,φ是网络gφ(·)的模型参数,λ是两个损失函数的比例权重,Lr是正则损失。
CN202210730991.3A 2022-06-24 2022-06-24 生物组学数据分析系统 Active CN115223661B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210730991.3A CN115223661B (zh) 2022-06-24 2022-06-24 生物组学数据分析系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210730991.3A CN115223661B (zh) 2022-06-24 2022-06-24 生物组学数据分析系统

Publications (2)

Publication Number Publication Date
CN115223661A true CN115223661A (zh) 2022-10-21
CN115223661B CN115223661B (zh) 2023-04-14

Family

ID=83609913

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210730991.3A Active CN115223661B (zh) 2022-06-24 2022-06-24 生物组学数据分析系统

Country Status (1)

Country Link
CN (1) CN115223661B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104598898A (zh) * 2015-02-13 2015-05-06 合肥工业大学 一种基于多任务拓扑学习的航拍图像快速识别系统及其快速识别方法
CN106991132A (zh) * 2017-03-08 2017-07-28 南京信息工程大学 一种基于图集重构与图核降维的图分类方法
CN112241478A (zh) * 2020-11-12 2021-01-19 广东工业大学 一种基于图神经网络的大规模数据可视化降维方法
CN113392332A (zh) * 2021-05-17 2021-09-14 杭州电子科技大学 面向大规模多元网络数据的简化可视分析方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104598898A (zh) * 2015-02-13 2015-05-06 合肥工业大学 一种基于多任务拓扑学习的航拍图像快速识别系统及其快速识别方法
CN106991132A (zh) * 2017-03-08 2017-07-28 南京信息工程大学 一种基于图集重构与图核降维的图分类方法
CN112241478A (zh) * 2020-11-12 2021-01-19 广东工业大学 一种基于图神经网络的大规模数据可视化降维方法
CN113392332A (zh) * 2021-05-17 2021-09-14 杭州电子科技大学 面向大规模多元网络数据的简化可视分析方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
RONG WANG ET AL.: "Sparse and Flexible Projections for Unsupervised Feature Selection" *
万源等: "低秩稀疏图嵌入的半监督特征选择" *

Also Published As

Publication number Publication date
CN115223661B (zh) 2023-04-14

Similar Documents

Publication Publication Date Title
Kuo et al. Green learning: Introduction, examples and outlook
CN107766933B (zh) 一种解释卷积神经网络的可视化方法
CN111564183A (zh) 融合基因本体和神经网络的单细胞测序数据降维方法
CN112784921A (zh) 任务注意力引导的小样本图像互补学习分类算法
CN116152554A (zh) 基于知识引导的小样本图像识别系统
CN113361346B (zh) 一种替换调节参数的尺度参数自适应的人脸识别方法
CN114417975A (zh) 基于深度pu学习与类别先验估计的数据分类方法及系统
CN113360732A (zh) 一种大数据多视图图聚类方法
Sajedi et al. Actinobacterial strains recognition by Machine learning methods
CN115223661B (zh) 生物组学数据分析系统
CN111916204A (zh) 一种基于自适应稀疏深度神经网络的脑疾病数据评估方法
Vandaele et al. The curse revisited: When are distances informative for the ground truth in noisy high-dimensional data?
Wiling Locust Genetic Image Processing Classification Model-Based Brain Tumor Classification in MRI Images for Early Diagnosis
Vitria et al. Bayesian classification of cork stoppers using class-conditional independent component analysis
Naik et al. Leukemia Prediction Using Random Forest Algorithm
Karthikeyan et al. Machine Learning based Algorithmic approach for Detection and Classification of Leukemia
CN114548197A (zh) 一种基于自律学习sdl模型的聚类方法
Połap et al. Meta-heuristic algorithm as feature selector for convolutional neural networks
Hintz-Madsen et al. Design and evaluation of neural classifiers
Sánchez et al. Diatom classification including morphological adaptations using CNNs
CN111046745A (zh) 基于软块对角的多视聚类方法
Cui Weighted Multi-view Feature Selection with Genetic Algorithm
Vajargah et al. Improving the LDA Linear Discriminant Analysis Method By Eliminating Redundant Variables for the Diagnosis Of COVID-19 Patients.
Kao A Deep Learning Architecture For Histology Image Classification
Li et al. Design and Application of Tobacco Impurity Removal Model Based on Convolutional Neural Network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant