CN115691702A - 一种化合物可视化分类方法及系统 - Google Patents
一种化合物可视化分类方法及系统 Download PDFInfo
- Publication number
- CN115691702A CN115691702A CN202211428657.9A CN202211428657A CN115691702A CN 115691702 A CN115691702 A CN 115691702A CN 202211428657 A CN202211428657 A CN 202211428657A CN 115691702 A CN115691702 A CN 115691702A
- Authority
- CN
- China
- Prior art keywords
- compound
- category
- class
- data set
- filtering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种化合物可视化分类方法及系统,涉及化合物分类领域,方法包括对原始质谱数据进行预处理,得到化合物信息;选择化合物分子式中分子式评分最高的作为最佳分子式;选择最佳分子式的化合物结构的概率最高的作为结构数据集;根据优先级参数、后验概率、设定阈值和化合物所在类别的概率对最佳分子式的化合物所在类别进行筛选,得到类别数据集;根据设定条件类别数据集进行过滤,得到过滤类别数据集;对过滤类别数据集进行聚类,得到多个聚类团;根据多个聚类团生成分子网络;结构数据集映射到分子网络。本发明能够实现从非靶向分析切换到靶向分析,直观的聚焦到研究者感兴趣的化合物或者化学类。
Description
技术领域
本发明涉及化合物分类领域,特别是涉及一种化合物可视化分类方法及系统。
背景技术
非靶向质谱是生物学研究的有力工具,但研究人员普遍将时间花在数据集解析上。由于数据量大,谱图复杂,化合物结构多样,非靶向液相色谱串联质谱(LC-MS/MS)数据的分析尤为复杂。对碎片光谱的解析鉴定是其主要难点。如今已存在几种用于分析碎片光谱的策略,包括1)光谱库匹配。该方法目前仍然是主流,具有较高的准确度。然而,与结构数据库(PubChem拥有超过1亿条记录)相比,光谱库的规模太小,限制了质谱的应用。2)与计算机模拟的碎片谱匹配。3)使用机器学习的方法学习对碎片光谱进行预测。计算机预测的方法发展迅速。SIRIUS 4这一尖端技术与许多先进的人工智能算法相结合,在结构库中检索时的准确率达到70%。该方法有助于识别光谱库范围以外的代谢物。虽然计算机预测技术促进了化学鉴定,但仍然缺乏一种将最新技术纳入并利用到生物学研究中的方法,即在非靶向质谱数据集中发现生物标记物。手动鉴定和筛选生物标记物非常耗时,而且结果会受到主观因素的影响。在鉴定方面,分子网络由于其可视化和数据透明性而日益流行。
化学分类的历史至少可以追溯到上世纪中叶,德温特世界专利索引(DWPI)于1963年开发的化学碎片编码系统。近年来,人们更系统地提出了化学分类,如基因本体论(GO),并将其与分类学和本体论结合起来。ClassyFire由于其计算可用性和系统性,无论是在海量数据集分析中还是在非海量数据集分析中,都越来越多地用于复合注释。化学的分类学和本体论是有益的。例如,有人提出了一种基于分层分类的方法,称为Qemistree,以在数据集范围内处理化学关系。然而,化学的分类学或本体论并不是药理学或生物学研究的一劳永逸方法。化学类中的许多关键代谢物或药物分布在不同的层次中,如“胆汁酸、醇和衍生物”(subclass)、“吲哚和衍生物”(class)、“酰基肉碱”(level 5)。这些类别代表一个具有类似生物功能或活性的化合物家族,然而,功能或活性独立的化合物分散在不同分类等级的不同分支上。
因此,需要一种可以从非靶向分析切换到靶向分析,能够直观的聚焦到研究者感兴趣的化合物或者化学类的方案。
发明内容
本发明的目的是提供一种化合物可视化分类方法及系统,以实现从非靶向分析切换到靶向分析,直观的聚焦到研究者感兴趣的化合物或者化学类。
为实现上述目的,本发明提供了如下方案:
一种化合物可视化分类方法,包括:
获取化合物的原始质谱数据;
对所述原始质谱数据进行预处理,得到化合物信息;所述化合物信息包括化合物分子式、分子式评分、化合物所在类别的概率和化合物结构的概率;
选择所述化合物分子式中所述分子式评分最高的作为最佳分子式;
选择所述最佳分子式的化合物结构的概率最高的作为结构数据集;
根据优先级参数、后验概率、设定阈值和所述化合物所在类别的概率对所述最佳分子式的化合物所在类别进行筛选,得到类别数据集;
根据设定条件对所述类别数据集进行过滤,得到过滤类别数据集;所述设定条件包括化学官能团位置、类别特征的最大拥有量、类别特征的最小拥有量、相同特征和相似度分数;
对所述过滤类别数据集进行聚类,得到多个聚类团;
根据多个所述聚类团生成分子网络;所述结构数据集映射到所述分子网络;所述分子网络用于可视化显示所述化合物的类别和结构;所述分子网络的点包括化合物的类别和结构;所述分子网络的边是通过不同化合物的所述原始质谱数据的二级碎片相似度确定的。
可选地,所述对所述原始质谱数据进行预处理,得到化合物信息,具体包括:
将所述原始质谱数据进行格式转换,得到可扩展标记语言;
对所述可扩展标记语言利用MZmine2进行特征检测和利用SIRIUS进行分析,得到化合物信息。
可选地,所述根据优先级参数、后验概率、设定阈值和所述化合物所在类别的概率对所述最佳分子式的化合物所在类别进行筛选,得到类别数据集,具体包括:
根据所述优先级参数对所述最佳分子式的化合物所在类别进行初步筛选,得到初步筛选结果;
根据所述后验概率、所述设定阈值和所述化合物所在类别的概率对所述初步筛选结果进行二次筛选,得到类别数据集。
可选地,所述根据设定条件所述类别数据集进行过滤,得到过滤类别数据集,具体包括:
删除所述类别数据集中代表所述化学官能团位置的类别,得到一级过滤结果;
删除所述一级过滤结果中所述类别特征的最大拥有量的类别和类别特征的最小拥有量的类别,得到二级过滤结果;
删除所述二级过滤结果中包含所有所述相同特征的类别,得到三级过滤结果;
计算每两个类别的相似度分数;
删除所述三级过滤结果中相似度分数小于最小达到率的类别,得到过滤类别数据集。
一种化合物可视化分类系统,包括:
获取模块,用于获取化合物的原始质谱数据;
预处理模块,用于对所述原始质谱数据进行预处理,得到化合物信息;所述化合物信息包括化合物分子式、分子式评分、化合物所在类别的概率和化合物结构的概率;
最佳分子式确定模块,用于选择所述化合物分子式中所述分子式评分最高的作为最佳分子式;
结构数据集确定模块,用于选择所述最佳分子式的化合物结构的概率最高的作为结构数据集;
筛选模块,用于根据优先级参数、后验概率、设定阈值和所述化合物所在类别的概率对所述最佳分子式的化合物所在类别进行筛选,得到类别数据集;
过滤模块,用于根据设定条件对所述类别数据集进行过滤,得到过滤类别数据集;所述设定条件包括化学官能团位置、类别特征的最大拥有量、类别特征的最小拥有量、相同特征和相似度分数;
聚类模块,用于对所述过滤类别数据集进行聚类,得到多个聚类团;
生成模块,用于根据多个所述聚类团生成分子网络;所述结构数据集映射到所述分子网络;所述分子网络用于可视化显示所述化合物的类别和结构;所述分子网络的点包括化合物的类别和结构;所述分子网络的边是通过不同化合物的所述原始质谱数据的二级碎片相似度确定的。
可选地,所述预处理模块,具体包括:
格式转换单元,用于将所述原始质谱数据进行格式转换,得到可扩展标记语言;
特征检测和分析单元,用于对所述可扩展标记语言利用MZmine2进行特征检测和利用SIRIUS进行分析,得到化合物信息。
可选地,所述筛选模块,具体包括:
初步筛选单元,用于根据所述优先级参数对所述最佳分子式的化合物所在类别进行初步筛选,得到初步筛选结果;
二次筛选单元,用于根据所述后验概率、所述设定阈值和所述化合物所在类别的概率对所述初步筛选结果进行二次筛选,得到类别数据集。
可选地,所述过滤模块,具体包括:
一级过滤单元,用于删除所述类别数据集中代表所述化学官能团位置的类别,得到一级过滤结果;
二级过滤单元,用于删除所述一级过滤结果中所述类别特征的最大拥有量的类别和类别特征的最小拥有量的类别,得到二级过滤结果;
三级过滤单元,用于删除所述二级过滤结果中包含所有所述相同特征的类别,得到三级过滤结果;
计算单元,用于计算每两个类别的相似度分数;
过滤类别数据集确定单元,用于删除所述三级过滤结果中相似度分数小于最小达到率的类别,得到过滤类别数据集。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明获取化合物的原始质谱数据;对所述原始质谱数据进行预处理,得到化合物信息;所述化合物信息包括化合物分子式、分子式评分、化合物所在类别的概率和化合物结构的概率;选择所述化合物分子式中所述分子式评分最高的作为最佳分子式;选择所述最佳分子式的化合物结构的概率最高的作为结构数据集;根据优先级参数、后验概率、设定阈值和所述化合物所在类别的概率对所述最佳分子式的化合物所在类别进行筛选,得到类别数据集;根据设定条件对所述类别数据集进行过滤,得到过滤类别数据集;所述设定条件包括化学官能团位置、类别特征的最大拥有量、类别特征的最小拥有量、相同特征和相似度分数;对所述过滤类别数据集进行聚类,得到多个聚类团;根据多个所述聚类团生成分子网络;所述结构数据集映射到所述分子网络;所述分子网络用于可视化显示所述化合物的类别和结构;所述分子网络的点包括化合物的类别和结构;所述分子网络的边是通过不同化合物的所述原始质谱数据的二级碎片相似度确定的,从而实现从非靶向分析切换到靶向分析,直观的聚焦到研究者感兴趣的化合物或者化学类。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的化合物可视化分类方法流程图;
图2为本发明提供的化合物可视化分类方法实际应用示意图;
图3为本发明提供的化合物可视化分类方法数据层次示意图;
图4为本发明提供的化合物可视化分类方法具体实例可视化图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种化合物可视化分类方法及系统,以实现从非靶向分析切换到靶向分析,直观的聚焦到研究者感兴趣的化合物或者化学类。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1至图3所示,本发明提供的一种化合物可视化分类方法,包括:
步骤101:获取化合物的原始质谱数据。
步骤102:对所述原始质谱数据进行预处理,得到化合物信息;所述化合物信息包括化合物分子式、分子式评分、化合物所在类别的概率和化合物结构的概率。
步骤102,具体包括:
将所述原始质谱数据进行格式转换,得到可扩展标记语言。通过MSconvertProteowizard将原始质谱数据(.raw)转换为m/z可扩展标记语言(mzML)。
对所述可扩展标记语言利用MZmine2进行特征检测和利用SIRIUS进行分析,得到化合物信息。
通过MZmine2(版本2.53)执行特征检测。执行SIRIUS分析工作流程,涉及SIRIUS、ZODIAX、CSI:fingerID、CANOPUS。
步骤103:选择所述化合物分子式中所述分子式评分最高的作为最佳分子式。
MCnebula(Multi-chemical nebula)处理工作流被实现到一个R包中。在R控制台或studio中,通过加载MCnebula包并使用多个功能,完成数据整理、集成和可视化。
对于每个特征,作为计算结果,可能存在多个分子式候选。MCnebula综合考虑了ZODIAC和CSI:fingerID的分数,以获得最佳分子式。如果CSI:fingerID检索到任何结构候选,在默认设置下,MCnebula优先选择得分最高的结构分子式。如果没有结构候选者,MCnebula会选择ZODIAC得分最高的分子式。挑选ZODIAC得分或CSI:fingerID得分最高的分子式的优先顺序可以手动逆转。最佳分子式的选取将会决定下述算法中结构式和PPCP数据的选取。具体而言,由于每一个化合物的预测过程中,会形成多个分子式候选项,而每个分子式又会有各自的PPCP候选数据集和结构候选项,因此,最佳分子式的决定尤为重要,处在上游分析的岔路口。随后,所有特征的最佳分子式被收集为MCnebula分子式集(.MCn.formula_set)。
步骤104:选择所述最佳分子式的化合物结构的概率最高的作为结构数据集。
根据.MCn.formula_set,对于每个特征,只考虑最佳分子式,MCnebula在候选的CSI:fingerID化学结构中获取最佳结构(即获取得分最高的结构)。然后,所选结构被收集为MCnebula结构集(.MCn.structure_set)。
步骤105:根据优先级参数、后验概率、设定阈值和所述化合物所在类别的概率对所述最佳分子式的化合物所在类别进行筛选,得到类别数据集。
步骤105,具体包括:
根据所述优先级参数对所述最佳分子式的化合物所在类别进行初步筛选,得到初步筛选结果。
根据所述后验概率、所述设定阈值和所述化合物所在类别的概率对所述初步筛选结果进行二次筛选,得到类别数据集。
整理化合物类别预测后验概率(Posterior probability of classificationprediction,PPCP)。同样,根据.MCn.formula_set,对于每个特征,只考虑最佳分子式,MCnebula提取所有分类的PPCP数据(该数据集为文本数据集,以R语言读取并与对应目录合并)。这些数据被收集为MCnebulaPPCP数据集(.MCn.ppcp_dataset)。
总结类别数据集。在.MCn.ppcp_dataset中,对于每一个特征,都存在数千个类别预测的后验概率。设置了一个阈值(默认为Tppcp=0.5)来过滤这些数据。此外,还设置了一个化学分类的优先级参数(默认为Phierarchy.priority=c(6,5,4,3),相当于ClassyFire的level 5、subclass、class、superclass)来过滤和排序这些类别。原始的.MCn.ppcp_dataset包含大量的亚结构或优势结构类预测数据。这一步骤旨在获得那些有利于识别的类。经过过滤,数据集被收集为类别数据集(.MCn.nebula_class)。
步骤106:根据设定条件对所述类别数据集进行过滤,得到过滤类别数据集;所述设定条件包括化学官能团位置、类别特征的最大拥有量、类别特征的最小拥有量、相同特征和相似度分数。
步骤106,具体包括:
删除所述类别数据集中代表所述化学官能团位置的类别,得到一级过滤结果。
删除所述一级过滤结果中所述类别特征的最大拥有量的类别和类别特征的最小拥有量的类别,得到二级过滤结果。
删除所述二级过滤结果中包含所有所述相同特征的类别,得到三级过滤结果。
计算每两个类别的相似度分数。
删除所述三级过滤结果中相似度分数小于最小达到率的类别,得到过滤类别数据集。
总结nebula-index。尽管通过上一步对原始的.MCn.ppcp_dataset进行了过滤,但所有这些类别仍然过于冗余,无法对非靶向LC-MS数据集的分类进行总体的可视化。在这一步,通过以下步骤来实现自动过滤。
删除代表化学官能团位置的类。事实上,MS/MS光谱并不善于区分位置异构。由于国际应用化学规则(IUPAC规则)的特点,这一措施是通过删除那些在模式匹配中涉及阿拉伯数字的类名来实现的。
通过一个类的最大拥有量和最小拥有量设置的特征进行过滤。使用之前过滤的类来遍历.MCn.ppcp_dataset。对于那些任何一个类,当一个特征的PPCP达到Tppcp时,该特征将被整理为这个类的index。之后,分别列出所有类的index中的特征编号,并确定该类别是否会被过滤掉。最小占有量Tmin.absence是以绝对数确定的,而最大占有量Tmmax.absence是以相对数确定的(例如,所有特征数的20%)。前者旨在过滤掉具有稀疏特征的类别,后者旨在过滤掉覆盖范围过大的化合物类别。
筛除包含几乎相同特征的类。确定最高化学分类层次(默认情况下Tiden.top.hierarchy=4,即ClassyFire中的级别)和相同因子(默认情况下Tiden.factor=0.7)的标准。所有低于Tiden.top.hierarchy的类都以二元方式进行比较。当彼此拥有超过Tiden.factor的相同特征时,拥有较少特征的类会被过滤掉。
过滤掉结构鉴定程度低的特征类。在大多数情况下,不正确的分子式会导致从相应的碎片树中预测的指纹失败。结构和PPCP都是根据指纹来匹配或计算的。错误的分子式会导致结构鉴定和类别预测的错误。从类别上看,有些类别具有丰富的特征,但几乎没有结构被匹配,或者所有匹配的结构的相似度很低。为了过滤掉这些类,定义一种基于相似度得分的算法。首先,对相似度分数类型进行评估(默认情况下Psimi.score=“Tanimotosimilarity”)。然后,设定相似性分数的截止值(默认为Tsimi.score=0.3)。所有小于最小达到率(默认为Tmin.reach=0.6)的特征的类被过滤掉。最终,其余的类和相关特征被收集为MCnebula nebula-index(.MCn.nebula_index)。
步骤107:对所述过滤类别数据集进行聚类,得到多个聚类团。
步骤108:根据多个所述聚类团生成分子网络;所述结构数据集映射到所述分子网络;所述分子网络用于可视化显示所述化合物的类别和结构;所述分子网络的点包括化合物的类别和结构;所述分子网络的边是通过不同化合物的所述原始质谱数据的二级碎片相似度确定的。
生成母星云(parent-nebula)与分子网络类似,母星云由节点(nodes)和边(edge)数据组成。其中,节点为特征信息或注释的载体,边为碎片光谱相似性的注释。为了获得边和节点数据并合并为母星云,MCnebula实现:
评估特征间的经过过滤的质谱数据的二级碎片相似度。MCnebula集成了MSnbaseR软件包的‘compareSpectra’功能,计算MS/MS光谱之间的余弦相似度。与流行的光谱比较方法不同,MCnebula没有使用原始的MS/MS光谱,而是整理了所有经过噪声过滤的MS/MS光谱进行比较。噪声过滤后的光谱来自SIRIUS项目空间。一个特征的不同分子式候选者,其对应的MS/MS光谱可能会被赋予不同的“有效”或“噪声”峰。仅“有效”峰被用于和原始碎片光谱计算余弦相似度。为了与上述算法保持一致,所有的光谱都是基于.MCn.formula_set中的分子式进行采集的。此外,为了减少计算的耗时,只计算同一nebula-index(Piden.class)内的光谱相似性;只考虑等于或低于特定分类级别(Tmin.hierarchy=5,默认情况下,即ClassyFire的subclass)。此外,如果总特征数超过2000(默认情况下),ZODIAC分数(默认为Tmin.zodiac=0.9)和Tanimoto相似度分数(默认为Tmin.tanimoto=0.4)被用来减少需计算的特征。之后,设置一个边阈值(默认为Tedge.filter=0.3)来过滤掉低相似度。结果被格式化为边缘数据(.MCn.parentredges)。
多个数据集的合并。MCnebula将.MCn.formula_set与.MCn.structural_set合并为节点数据(.MCn.parent_nodes)。
将.MCn.parent_nodes和.MCn.parent_edges整合为igraph R包的‘graph’项目(.MCn.parent_graph)。此外,母星云的.grahml格式文件被导出,以便在Cytoscape中进行交互式探索。
生成子星云(child-nebula)。根据.MCn.nebula_index,.MCn.parent_nodes和.MCn.parent_edges被相应地划分并收集为各种“graph”项目用于生成子星云。同时,对于一个节点,定义了一个最大拥有量(默认情况下Tmax.edges=5),以减少边,使子星云的可视化效果更好。这意味着较低相似度的边会优先被切断。最后,所有的子星云“图”都被保存到.MCn.child_graph_list中,同时也被导出为.graphml格式文件。
可视化母星云和子星云,子星云如图4所示。多种R包被用于可视化,如ggplot2,ggrah等。
本发明提供的分析方法涉及数据集丰富的化学类、分类、结构、亚结构特征和碎片相似性。许多最先进的技术和流行的方法被纳入了MCnebula的工作流程,以促进化学发现。MCnebula可以用于探索未知化合物的分类和结构特征,这些未知化合物超出了光谱库的限制。MCnebula首次集成在R软件包中。
本发明还提供一种化合物可视化分类系统,包括:
获取模块,用于获取化合物的原始质谱数据。
预处理模块,用于对所述原始质谱数据进行预处理,得到化合物信息;所述化合物信息包括化合物分子式、分子式评分、化合物所在类别的概率和化合物结构的概率。
最佳分子式确定模块,用于选择所述化合物分子式中所述分子式评分最高的作为最佳分子式。
结构数据集确定模块,用于选择所述最佳分子式的化合物结构的概率最高的作为结构数据集。
筛选模块,用于根据优先级参数、后验概率、设定阈值和所述化合物所在类别的概率对所述最佳分子式的化合物所在类别进行筛选,得到类别数据集。
过滤模块,用于根据设定条件对所述类别数据集进行过滤,得到过滤类别数据集;所述设定条件包括化学官能团位置、类别特征的最大拥有量、类别特征的最小拥有量、相同特征和相似度分数。
聚类模块,用于对所述过滤类别数据集进行聚类,得到多个聚类团。
生成模块,用于根据多个所述聚类团生成分子网络;所述结构数据集映射到所述分子网络;所述分子网络用于可视化显示所述化合物的类别和结构;所述分子网络的点包括化合物的类别和结构;所述分子网络的边是通过不同化合物的所述原始质谱数据的二级碎片相似度确定的。
作为一种可选地实施方式,所述预处理模块,具体包括:
格式转换单元,用于将所述原始质谱数据进行格式转换,得到可扩展标记语言。
特征检测和分析单元,用于对所述可扩展标记语言利用MZmine2进行特征检测和利用SIRIUS进行分析,得到化合物信息。
作为一种可选地实施方式,所述筛选模块,具体包括:
初步筛选单元,用于根据所述优先级参数对所述最佳分子式的化合物所在类别进行初步筛选,得到初步筛选结果。
二次筛选单元,用于根据所述后验概率、所述设定阈值和所述化合物所在类别的概率对所述初步筛选结果进行二次筛选,得到类别数据集。
作为一种可选地实施方式,所述过滤模块,具体包括:
一级过滤单元,用于删除所述类别数据集中代表所述化学官能团位置的类别,得到一级过滤结果。
二级过滤单元,用于删除所述一级过滤结果中所述类别特征的最大拥有量的类别和类别特征的最小拥有量的类别,得到二级过滤结果。
三级过滤单元,用于删除所述二级过滤结果中包含所有所述相同特征的类别,得到三级过滤结果。
计算单元,用于计算每两个类别的相似度分数。
过滤类别数据集确定单元,用于删除所述三级过滤结果中相似度分数小于最小达到率的类别,得到过滤类别数据集。
本发明提供的方法,称为MCnebula,用于非靶向LC-MS/MS数据集分析。MCnebula利用最先进的计算机预测技术——SIRIUS工作流(SIRIUS,ZODIAC,CSI:fingerID,CANOPUS)进行化合物分子式预测、结构检索和类预测。MCnebula首次将基于丰度的类选择算法集成到化合物注释中。MCnebula还融合了分子网络的优点,即直观的可视化和大量可集成的信息。借助MCnebula,从非靶向分析切换到靶向分析,精准地聚焦于研究者感兴趣的化合物或化学类。MCnebula具有许多的潜在功能,涉及代谢物识别、分类生物标记物追踪、药物发现、化学变化探索等。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (8)
1.一种化合物可视化分类方法,其特征在于,包括:
获取化合物的原始质谱数据;
对所述原始质谱数据进行预处理,得到化合物信息;所述化合物信息包括化合物分子式、分子式评分、化合物所在类别的概率和化合物结构的概率;
选择所述化合物分子式中所述分子式评分最高的作为最佳分子式;
选择所述最佳分子式的化合物结构的概率最高的作为结构数据集;
根据优先级参数、后验概率、设定阈值和所述化合物所在类别的概率对所述最佳分子式的化合物所在类别进行筛选,得到类别数据集;
根据设定条件对所述类别数据集进行过滤,得到过滤类别数据集;所述设定条件包括化学官能团位置、类别特征的最大拥有量、类别特征的最小拥有量、相同特征和相似度分数;
对所述过滤类别数据集进行聚类,得到多个聚类团;
根据多个所述聚类团生成分子网络;所述结构数据集映射到所述分子网络;所述分子网络用于可视化显示所述化合物的类别和结构;所述分子网络的点包括化合物的类别和结构;所述分子网络的边是通过不同化合物的所述原始质谱数据的二级碎片相似度确定的。
2.根据权利要求1所述的化合物可视化分类方法,其特征在于,所述对所述原始质谱数据进行预处理,得到化合物信息,具体包括:
将所述原始质谱数据进行格式转换,得到可扩展标记语言;
对所述可扩展标记语言利用MZmine2进行特征检测和利用SIRIUS进行分析,得到化合物信息。
3.根据权利要求1所述的化合物可视化分类方法,其特征在于,所述根据优先级参数、后验概率、设定阈值和所述化合物所在类别的概率对所述最佳分子式的化合物所在类别进行筛选,得到类别数据集,具体包括:
根据所述优先级参数对所述最佳分子式的化合物所在类别进行初步筛选,得到初步筛选结果;
根据所述后验概率、所述设定阈值和所述化合物所在类别的概率对所述初步筛选结果进行二次筛选,得到类别数据集。
4.根据权利要求1所述的化合物可视化分类方法,其特征在于,所述根据设定条件所述类别数据集进行过滤,得到过滤类别数据集,具体包括:
删除所述类别数据集中代表所述化学官能团位置的类别,得到一级过滤结果;
删除所述一级过滤结果中所述类别特征的最大拥有量的类别和类别特征的最小拥有量的类别,得到二级过滤结果;
删除所述二级过滤结果中包含所有所述相同特征的类别,得到三级过滤结果;
计算每两个类别的相似度分数;
删除所述三级过滤结果中相似度分数小于最小达到率的类别,得到过滤类别数据集。
5.一种化合物可视化分类系统,其特征在于,包括:
获取模块,用于获取化合物的原始质谱数据;
预处理模块,用于对所述原始质谱数据进行预处理,得到化合物信息;所述化合物信息包括化合物分子式、分子式评分、化合物所在类别的概率和化合物结构的概率;
最佳分子式确定模块,用于选择所述化合物分子式中所述分子式评分最高的作为最佳分子式;
结构数据集确定模块,用于选择所述最佳分子式的化合物结构的概率最高的作为结构数据集;
筛选模块,用于根据优先级参数、后验概率、设定阈值和所述化合物所在类别的概率对所述最佳分子式的化合物所在类别进行筛选,得到类别数据集;
过滤模块,用于根据设定条件对所述类别数据集进行过滤,得到过滤类别数据集;所述设定条件包括化学官能团位置、类别特征的最大拥有量、类别特征的最小拥有量、相同特征和相似度分数;
聚类模块,用于对所述过滤类别数据集进行聚类,得到多个聚类团;
生成模块,用于根据多个所述聚类团生成分子网络;所述结构数据集映射到所述分子网络;所述分子网络用于可视化显示所述化合物的类别和结构;所述分子网络的点包括化合物的类别和结构;所述分子网络的边是通过不同化合物的所述原始质谱数据的二级碎片相似度确定的。
6.根据权利要求5所述的化合物可视化分类系统,其特征在于,所述预处理模块,具体包括:
格式转换单元,用于将所述原始质谱数据进行格式转换,得到可扩展标记语言;
特征检测和分析单元,用于对所述可扩展标记语言利用MZmine2进行特征检测和利用SIRIUS进行分析,得到化合物信息。
7.根据权利要求5所述的化合物可视化分类系统,其特征在于,所述筛选模块,具体包括:
初步筛选单元,用于根据所述优先级参数对所述最佳分子式的化合物所在类别进行初步筛选,得到初步筛选结果;
二次筛选单元,用于根据所述后验概率、所述设定阈值和所述化合物所在类别的概率对所述初步筛选结果进行二次筛选,得到类别数据集。
8.根据权利要求5所述的化合物可视化分类系统,其特征在于,所述过滤模块,具体包括:
一级过滤单元,用于删除所述类别数据集中代表所述化学官能团位置的类别,得到一级过滤结果;
二级过滤单元,用于删除所述一级过滤结果中所述类别特征的最大拥有量的类别和类别特征的最小拥有量的类别,得到二级过滤结果;
三级过滤单元,用于删除所述二级过滤结果中包含所有所述相同特征的类别,得到三级过滤结果;
计算单元,用于计算每两个类别的相似度分数;
过滤类别数据集确定单元,用于删除所述三级过滤结果中相似度分数小于最小达到率的类别,得到过滤类别数据集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211428657.9A CN115691702A (zh) | 2022-11-15 | 2022-11-15 | 一种化合物可视化分类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211428657.9A CN115691702A (zh) | 2022-11-15 | 2022-11-15 | 一种化合物可视化分类方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115691702A true CN115691702A (zh) | 2023-02-03 |
Family
ID=85052076
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211428657.9A Pending CN115691702A (zh) | 2022-11-15 | 2022-11-15 | 一种化合物可视化分类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115691702A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115938490A (zh) * | 2023-03-07 | 2023-04-07 | 之江实验室 | 一种基于图表示学习算法的代谢物鉴定方法、系统和设备 |
-
2022
- 2022-11-15 CN CN202211428657.9A patent/CN115691702A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115938490A (zh) * | 2023-03-07 | 2023-04-07 | 之江实验室 | 一种基于图表示学习算法的代谢物鉴定方法、系统和设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2019236757B2 (en) | Self-Service Classification System | |
US6654744B2 (en) | Method and apparatus for categorizing information, and a computer product | |
Liu et al. | Story forest: Extracting events and telling stories from breaking news | |
US11971892B2 (en) | Methods for stratified sampling-based query execution | |
Chou et al. | Identifying prospective customers | |
KR20070089449A (ko) | 문서 분류방법 및 그 문서 분류방법을 컴퓨터에서 실행시키기 위한 프로그램을 포함하는 컴퓨터로 읽을 수있는 기록매체. | |
AU2019350649B2 (en) | Hybrid machine learning model for code classification | |
CN110737805B (zh) | 图模型数据的处理方法、装置和终端设备 | |
WO2010120684A2 (en) | Method and apparatus for selecting clusterings to classify a predetermined data set | |
CN108304382A (zh) | 基于制造过程文本数据挖掘的质量分析方法与系统 | |
CN112860685A (zh) | 对数据集的分析的自动推荐 | |
CN115688760A (zh) | 一种智能化导诊方法、装置、设备及存储介质 | |
CN113052225A (zh) | 基于聚类算法和时序关联规则的报警收敛方法及装置 | |
Neto et al. | Efficient computation and visualization of multiple density-based clustering hierarchies | |
Reas et al. | SuperPart: Supervised graph partitioning for record linkage | |
Valero-Mas et al. | On the suitability of Prototype Selection methods for kNN classification with distributed data | |
CN115691702A (zh) | 一种化合物可视化分类方法及系统 | |
Liu et al. | Clustering via decision tree construction | |
Nurhachita et al. | A comparison between naïve bayes and the k-means clustering algorithm for the application of data mining on the admission of new students | |
Danesh et al. | Ensemble-based clustering of large probabilistic graphs using neighborhood and distance metric learning | |
CN110609901B (zh) | 一种基于向量化特征的用户网络行为预测方法 | |
Eherler et al. | Responder profiling with CHAID and dependency analysis | |
KR102158049B1 (ko) | Cf 트리를 활용한 범위 질의 기반의 데이터 클러스터링 장치 및 방법 | |
US12052134B2 (en) | Identification of clusters of elements causing network performance degradation or outage | |
Veparala et al. | Big Data and Different Subspace Clustering Approaches: From social media promotion to genome mapping |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |