CN117409962B - 一种基于基因调控网络的微生物标记物的筛选方法 - Google Patents

一种基于基因调控网络的微生物标记物的筛选方法 Download PDF

Info

Publication number
CN117409962B
CN117409962B CN202311721701.XA CN202311721701A CN117409962B CN 117409962 B CN117409962 B CN 117409962B CN 202311721701 A CN202311721701 A CN 202311721701A CN 117409962 B CN117409962 B CN 117409962B
Authority
CN
China
Prior art keywords
gene
genes
determining
network
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311721701.XA
Other languages
English (en)
Other versions
CN117409962A (zh
Inventor
艾冬梅
李雨珈
杜洋
程龙威
张天鹏
王明媚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology Beijing USTB
Original Assignee
University of Science and Technology Beijing USTB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology Beijing USTB filed Critical University of Science and Technology Beijing USTB
Priority to CN202311721701.XA priority Critical patent/CN117409962B/zh
Publication of CN117409962A publication Critical patent/CN117409962A/zh
Application granted granted Critical
Publication of CN117409962B publication Critical patent/CN117409962B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/80ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for detecting, monitoring or modelling epidemics or pandemics, e.g. flu
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供一种基于基因调控网络的微生物标记物的筛选方法,涉及数据处理技术领域,方法包括:通过基因调控网络,确定关键调控基因;根据免疫细胞比例,确定差异免疫细胞;根据关键调控基因和差异免疫细胞,对样本进行分类,确定出肿瘤组与正常组;确定肿瘤组样本中的各类微生物的丰度;构建微生物相互作用网络;对微生物相互作用网络中的节点按照MCC值由高到低的顺序进行排序,将排序靠前的第一预设数量的微生物确定为关键微生物。在本发明中,可以找到肿瘤类样本高风险组与低风险组间具备差异的关键微生物,为肿瘤诊断确定可靠的微生物特征,提升肿瘤预后治疗的科学性。

Description

一种基于基因调控网络的微生物标记物的筛选方法
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于基因调控网络的微生物标记物的筛选方法。
背景技术
结直肠癌是常见的恶性肿瘤,目前,已有许多对结直肠癌进行风险评估的方法,比如通过组织活检并进行病理学分析,观察肿瘤的类型、分级、浸润深度等特征,以对结直肠癌进行风险评估。以及利用医学影像学,如CT扫描、MRI等,评估肿瘤的大小、位置、扩散情况等对结直肠癌进行风险评估。
目前的现有技术,通常需要依赖于医师的主观判断,根据病理学分析以及医学影像学,凭借从医经验进行结直肠癌的风险评估,仍缺少可靠的微生物特征用于结直肠癌风险的科学评估。
发明内容
为了解决现有技术存在的通常需要依赖于医师的主观判断,根据病理学分析以及医学影像学,凭借从医经验进行结直肠癌的风险评估,仍缺少可靠的微生物特征用于结直肠癌风险的科学评估的技术问题,本发明提供了一种基于基因调控网络的微生物标记物的筛选方法。
本发明提供的技术方案如下:
本发明提供的一种基于基因调控网络的微生物标记物的筛选方法,包括:
S1:通过基因调控网络,确定关键调控基因;
S2:根据免疫细胞比例,确定差异免疫细胞;
S3:根据所述关键调控基因和所述差异免疫细胞,对样本进行分类,确定出肿瘤组与正常组;
S4:确定肿瘤组样本中的各类微生物的丰度;
S5:根据各类微生物的丰度,确定各类微生物之间的相关性,构建微生物相互作用网络;
S6:对所述微生物相互作用网络中的节点按照MCC值由高到低的顺序进行排序,将排序靠前的第一预设数量的微生物确定为关键微生物;
所述筛选方法为非诊断目的的。
上述技术方案,与现有技术相比至少具有如下有益效果:
(1)在本发明中,综合关键调控基因和差异免疫细胞对样本进行分类,将基因调控网络和免疫细胞水平的信息结合起来,有助于更全面、多角度地了解样本的生物学特征,提高对样本分类的全面性和准确性。
(2)在本发明中,根据各类微生物的丰度,确定各类微生物之间的相关性,构建微生物相互作用网络,对所述微生物相互作用网络中的节点按照由高到低进行排序,将排序靠前的第一预设数量的微生物确定为关键微生物,找到肿瘤类样本高风险组与低风险组间具备差异的关键微生物,为肿瘤诊断确定可靠的微生物特征,可以为临床肿瘤的诊断和治疗、预后提供新的理论支持,提升肿瘤评估的科学性,有助于肿瘤的早期诊断和制定更精准的治疗策略,同时有助于更好地了解患者的疾病发展趋势。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种基于基因调控网络的微生物标记物的筛选方法的流程示意图;
图2为本发明提供的一种基因调控网络的示意图;
图3为本发明提供的一种微生物相互作用网络的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另外定义,本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。同样,“一个”、“一”或者“该”等类似词语也不表示数量限制,而是表示存在至少一个。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。
需要说明的是,本发明中使用的“上”、“下”、“左”、“右”“前”“后”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
参考说明书附图1,示出了本发明提供的一种基于基因调控网络的微生物标记物的筛选方法的流程示意图。
需要说明的是,本发明实施例提供的基于基因调控网络的微生物标记物的筛选方法为非诊断目的的。
本发明实施例提供了一种基于基因调控网络的微生物标记物的筛选方法,包括:
S1:通过基因调控网络,确定关键调控基因。
其中,基因调控网络(GeneRegulatoryNetwork,GRN)是通过分析基因表达谱数据,发现基因之间的共表达关系,并将这些关系以网络的形式呈现出来的一种生物信息学工具。基因调控网络反映了基因在生物体内同时调控或协同表达的关系,有助于揭示基因的功能、相互作用以及在生物体内的调控网络。
参考说明书附图2,示出了本发明提供的一种基因调控网络的示意图。
其中,关键调控基因是指在基因调控网络中具有重要调控作用的基因。这些基因对于维持生物体内正常的生理状态、发育过程以及对抗外部环境变化等方面起着关键的作用。关键调控基因在基因调控网络中可能担任重要的中枢节点,对其他基因的表达产生显著影响,或者在特定的生物过程中扮演关键的调控角色。
进一步地,关键调控基因指ADAMDEC1、CLDN8、GNA11、INSL5、SST等。相关研究表明这些基因与结直肠癌紧密相关。
在一种可能的实施方式中,S1具体包括子步骤S101至S107:
S101:通过WGCNA,确定与结直肠癌相关的hub基因。
其中,WGCNA(WeightedGeneCo-expressionNetworkAnalysis)是一种用于分析基因表达数据的生物信息学方法。它主要用于构建基因共表达网络,并将基因分组成模块,以揭示基因之间的相关性模式。WGCNA假设基因网络是符合无标度分布的。真实的生物学网络大多属于无标度网络。在无标度网络中存在一些节点,它们的少部分度极高,远超平均度,这些节点被称为hub节点。hub节点和许多节点都相连,它们主导无标度网络。
其中,hub基因是指基因调控网络中具有较高连接度的基因,即在网络中有着相对较多的相互作用或连接的基因。hub节点和许多节点都相连,它们主导无标度网络。
在一种可能的实施方式中,子步骤S101具体包括孙步骤S1011至S1014:
S1011:通过WGCNA,构建加权基因共表达网络,确定各个基因之间的相似性:
其中,sij表示第i个基因与第j个基因之间的相似性,cor()表示相似性计算函数,xi表示第i个基因,yi表示第j个基因。
在本发明中,WGCNA构建的基因共表达网络具有模块化特性,能够将基因分组成具有相似表达模式的模块,有助于识别与结直肠癌相关的基因集合,揭示基因之间的关联性模式。
S1012:引入软阈值,根据各个基因之间的相似性,计算各个基因之间的相关性:
其中,aij表示第i个基因与第j个基因之间的相关性,β表示软阈值。
需要说明的是,相似性经幂函数处理后,少数强相关性不受影响或者影响较小,而相关性弱的取β次幂后,相关性明显下降。对两个基因的相关性进行β次幂运算弱化了弱相关,使基因间的连接网络转化为无标度网络。进一步地,可以去除一些在生物学上没意义的相互关系,同时保留那些具有生物意义的相互关系。
在本发明中,引入软阈值有助于对相似性进行调节,凸显网络中具有生物学意义的强相关性,同时抑制不相关基因之间的连接,有助于构建更为准确和生物学意义的基因共表达网络。
S1013:基于基因之间的相关性,通过层次聚类,对基因进行筛选。
在本发明中,通过层次聚类,对基因进行筛选,进一步强调具有相似表达模式的基因集合,有助于缩小关注范围,提高与结直肠癌关联的基因的发现效率。
S1014:对筛选后的基因,根据基因显著性和模块显著性,确定与结直肠癌相关的hub基因。
在本发明中,通过WGCNA构建基因共表达网络,采用无标度网络分析和软阈值引入的策略,识别出结直肠癌相关的hub基因,强调了在网络中具有重要调控地位的基因集合,提高了鉴定与结直肠癌相关的关键调控基因的准确性和可信度。
S102:通过R语言中的limma包,对基因表达谱数据进行分析,确定差异表达基因。
其中,R语言是一种用于统计计算和数据可视化的编程语言和环境。
其中,limma(LinearModelsforMicroarrayData)是一款用于处理微阵列数据的R语言包,主要用于分析差异表达基因。该包采用线性模型的方法,能够处理高通量基因表达数据,如RNA-seq和微阵列数据。limma包的设计旨在提高数据的准确性和可重复性,特别适用于小样本高维数据的分析。
在一种可能的实施方式中,子步骤S102具体包括孙步骤S1021至S1023:
S1021:通过Wilcoxon检验,确定基因的对数折叠变化logFC:
其中,logFC表示基因的对数折叠变化,表示基因在肿瘤组中的均值,/>表示基因在正常组中的均值。
其中,Wilcoxon检验,也称为Wilcoxon秩和检验,是一种非参数统计检验方法,用于比较两个相关样本或配对样本的差异。它基于秩和的比较,而不是对实际数值的差异进行分析,因此对于数据不满足正态分布的情况具有较好的鲁棒性。
其中,对数折叠变化(LogFoldChange,简称logFC)是在基因表达谱分析中常用的一个指标,用于衡量两组样本之间基因表达水平的差异。
在本发明中,采用Wilcoxon检验,对于数据不满足正态分布的情况也能够有效地进行差异分析,使得差异表达分析更具有鲁棒性,适用于不同分布特性的基因表达数据。
在一种可能的实施方式中,还可以通过R语言中的FDR校正工具包对p-value值进行校正。
其中,FDR(FalseDiscoveryRate,假发现率)是统计学中用于多重比较校正的概念。它是指在进行多个假设检验时,被错误地判定为显著的比例,即实际上是无效假设但被错误地接受的比例。
其中, p-value值是用于判断实验数据对原假设的支持程度的一个指标。p-value值表示在假设原假设为真的情况下,观察到的统计量或更极端的结果的概率。
在本发明中,采用FDR校正对p-value值进行调整,以控制多重检验的错误率,有助于减少因多次比较而引起的假阳性,提高结果的可靠性。
S1022:当基因的对数折叠变化logFC满足且/>时,确定基因为差异表达基因。
在本发明中,通过R语言中的limma包,对基因表达谱数据进行分析,可以精确地确定了差异表达基因,而且为后续的功能注释和生物学解释提供了可靠的基础,有助于深入理解基因在不同条件下的表达变化与潜在的生物学意义。
S103:对hub基因和差异表达基因取交集,确定出交集基因。
在本发明中,通过取hub基因和差异表达基因的交集,得到的交集基因集合融合了两者的信息,有助于综合考虑基因调控网络中的重要性和在癌症中差异表达的基因,提高了研究的全面性。
S104:根据交集基因的基因表达谱数据,计算各个交集基因之间的CMI2值。
在一种可能的实施方式中,S104具体包括:
根据以下公式,计算各个交集基因之间的CMI2值:
其中,表示基因X与基因Y之间的CMI2值,基因Y由基因X直接调控或者间接通过基因/>调控,/>表示去除边缘/>时X、Y和Z的介入概率分布,/>表示去除边缘/>时X、Y和Z的介入概率分布,/>表示从P到/>的Kullback-Leible散度,/>表示从P到/>的Kullback-Leible散度。
其中,的计算方式为:
其中,表示条件概率,P(x, z)表示条件概率分布,P(x)表示x的边际概率分布。
其中,CMI2是一种基于因果强度的有效无偏测量方法,可以量化基因之间的因果关联。CMI2值是一种用于度量随机变量之间相互关系的统计量,特别用于评估基因调控网络中基因之间的因果关联。CMI2值是条件互信息的一种扩展,它考虑了条件概率分布,从而更准确地反映了变量之间的依赖关系。
在本发明中,通过计算各个交集基因之间的CMI2值,有助于理解交集基因之间的复杂关系。进一步地,有助于深入挖掘基因间的相互作用,为疾病机制提供更深层次的理解。
S105:当交集基因之间的CMI2值小于预设值时,去除交集基因之间的边缘,得到基因调控网络。
其中,本领域技术人员可以根据实际情况设置预设值的大小,本发明不做限定。
需要说明的是,通过计算CMI2对基因进行预选,去除网络中的独立基因,即与其他基因都没有关联的那些基因,然后选择剩余基因基于集成回归算法构建调控网络。
在本发明中,基因调控网络中的边缘表示基因之间的相互作用或调控关系。通过设定CMI2值的阈值,可以去除弱相关或不显著的边缘,从而简化基因调控网络。进一步地,降低网络复杂性有助于更清晰地理解网络结构,减少噪音和不相关信息的影响。
S106:通过PoLoBag集成回归算法,确定基因之间的调控关系。
其中,调控关系包括调控方向和调控性质,调控性质包括激活和抑制。
其中,PoLoBag是一种集成回归算法,将调控网络构建问题划分为每个目标基因的单独回归任务。每个回归任务都是使用Bagging框架中的Lasso模型集合来执行的。每个Lasso模型都是在Bootstrap样本上训练的,该样本集是通过随机选择样本创建的。每个这样的样本集都使用一组随机的多项式特征。
需要说明的是,PoLoBag算法包含多项式特征,其不仅包含线性特征(随机选取基因特征),还包括非线性特征(基因与基因相乘得到的特征)。根据基于集成回归的PoLoBag算法会得到调控基因和靶基因之间的调控关系,可以得知调控方向及调控性质(激活/抑制)。
在本发明中,集成学习方法如PoLoBag通过整合多个模型的预测结果,可以显著提高整体模型的准确性。不同的回归模型可能对数据中不同的模式和关系有不同的捕捉能力,集成这些模型可以弥补单一模型的不足,从而更准确地确定基因之间的调控关系。
S107:根据基因之间的调控关系,计算基因调控网络中基因节点的出度。
S108:根据基因调控网络中基因节点的出度,选择出度排序靠前的第二预设数量的基因作为关键调控基因。
其中,出度(Outdegree)是一个节点指向其他节点的边的数量。在有向图中,每个节点都有一个出度,表示从该节点出发的边的数量。出度是描述网络中节点对其他节点的直接影响力或连接度的度量。
其中,本领域技术人员可以根据实际情况设置第二预设数量的大小,本发明不做限定。
需要说明的是,选择出度较高的基因作为关键调控基因可以帮助识别对其他基因有重要影响的核心基因,这些基因可能在生物调控网络中扮演着重要的调控角色。同时,出度排序可以反映基因在调控网络中的相对重要性和层级。选择出度排序靠前的基因有助于揭示基因调控网络中的层级结构,找到处于调控层级较高的基因,这些基因可能对整体调控网络的稳定性和功能具有重要影响。
在本发明中,提高了对结直肠癌相关关键调控基因的准确性和可信度,同时深入解析了这些基因在基因调控网络中的重要调控关系,为揭示结直肠癌的分子机制提供了有力支持。
S2:根据免疫细胞比例,确定差异免疫细胞。
在一种可能的实施方式中,S2具体包括子步骤S201和S202:
S201:通过CIBERSORT运用线性支持向量回归对表达矩阵进行去卷积,从基因表达谱数据中推算出免疫细胞比例。
其中,CIBERSORT运用线性支持向量回归对表达矩阵进行去卷积,从而实现了从大量基因表达谱数据中推算免疫细胞比例的功能。通过结合特征筛选和强大的数学优化技术,该方法有效提升了反卷积的性能。
需要说明的是,CIBERSORT对于仅由免疫细胞类型组成的特征矩阵,可以选择过滤非造血和癌症特异性基因,以减少非免疫细胞对解卷积结果的影响。通过选择最小化条件数的功能,CIBERSORT改善了签名矩阵的稳定性,并进一步降低了多重共线性的影响。
S202:通过Wilcoxon检验,当目标免疫细胞在正常组和肿瘤组中的p值差异大于预设差异值时,确定目标免疫细胞为差异免疫细胞。
其中,本领域技术人员可以根据实际情况设置预设差异值的大小,本发明不做限定。
在本发明中,能够准确推算免疫细胞比例,识别在正常组和肿瘤组中存在显著差异的免疫细胞类型。利用CIBERSORT的数学优化技术,提高解卷积的性能,同时通过Wilcoxon检验确定差异免疫细胞,有助于深入理解免疫系统在肿瘤环境中的变化,为个性化的研究提供了灵活性。这一过程为深入研究肿瘤免疫微环境提供了可靠的基础。
S3:根据关键调控基因和差异免疫细胞,对样本进行分类,确定出肿瘤组与正常组。
在一种可能的实施方式中,S3具体为:根据关键调控基因和差异免疫细胞,通过支持向量机算法,对样本进行分类,确定出肿瘤组与正常组。
其中,支持向量机算法(SVM)是常用的二分类方法之一,其基本思想是在多维空间中找到一个最优超平面。SVM算法在处理小样本的情况时,能够有效地简化复杂的分类和回归任务,从而提高算法的效率和准确性。SVM算法结构简单、泛化能力强、参数少,得到广泛应用。SVM通过采用核函数方法,克服了维数灾难和非线性可分的问题,从而避免了计算复杂度增加的问题。
在本发明中,采用支持向量机算法能够基于关键调控基因和差异免疫细胞对样本进行准确分类。简单结构、强大的泛化能力以及对非线性关系的处理能力,使得分类结果更加可靠,为深入了解样本的生物学特征提供了可靠的基础。
在一种可能的实施方式中,在S3之后,还包括:
通过Cox比例风险模型,根据以下公式,计算肿瘤组样本的风险值:
其中,h(t)表示t时刻的风险值,h0(t)表示t时刻的基准风险值,exp()表示以e为底的指数函数,Yi表示第i个影响因素,αi表示第i个影响因素的偏回归系数,,p表示影响因素的总数。
其中,Cox比例风险模型,又称Cox回归模型,是一种用于生存分析的统计模型,描述了某一事件(例如生存时间的终点,或失败时间)发生的速率随时间的变化。Cox比例风险模型的主要假设是风险的比例性,即两个个体之间的风险比在任何时间点都是常数。
需要说明的是,Cox比例风险模型可以分析多个基因对生存时间的影响,找到对患者危害比较大的因素。
判断肿瘤组样本的风险值是否大于预设风险值。若是,确定样本为高风险样本,存入高风险组。否则,确定肿瘤组样本为低风险样本,存入低风险组。
其中,本领域技术人员可以根据实际情况设置预设风险值的大小,本发明不做限定。
在本发明中,通过Cox比例风险模型计算样本的风险值,可以实现个体风险的个性化评估。Cox比例风险模型考虑了多个影响因素的贡献,并基于这些因素的权重为每个样本计算相对风险。
在本发明中,通过基因调控网络,确定关键调控基因,根据免疫细胞比例,确定差异免疫细胞,根据所述关键调控基因和所述差异免疫细胞,对样本进行分类,进一步地,通过Cox比例风险模型,对样本进行风险评估,确定出高风险组和低风险组,可以自动化地对患有结直肠癌的风险进行评估,无需依赖于医师的主观判断,省时省力,避免受到主观因素的影响,提升结直肠癌的风险评估的准确性与一致性。
S4:确定肿瘤组样本中的各类微生物的丰度。
其中,丰度是指一个生物群体或者特定物种在一个给定环境中的相对数量或频率。对于微生物群体而言,丰度描述了不同微生物种类的相对存在量。
S5:根据各类微生物的丰度,确定各类微生物之间的相关性,构建微生物相互作用网络。
在一种可能的实施方式中,S5具体包括子步骤S501至S503:
S501:根据各类微生物的丰度,确定各类微生物之间的斯皮尔曼相关系数。
其中,斯皮尔曼相关系数(Spearman's rank correlation coefficient)是一种用于衡量两个变量之间单调关系的非参数统计方法。斯皮尔曼相关系数不要求变量呈线性关系,而是基于变量的秩次进行计算。斯皮尔曼相关系数将每个变量的观测值转化为排名,并计算排名之间的皮尔逊相关系数。由于使用了秩次而不是原始观测值,斯皮尔曼相关系数对于异常值的影响较小,更适用于非正态分布或存在离群点的数据集。
S502:当两类微生物之间的斯皮尔曼相关系数小于预设相关系数值时,去除两类微生物之间的边缘。
其中,本领域技术人员可以根据实际情况设置预设相关系数值的大小,本发明不做限定。
在本发明中,去除相关系数较低的微生物之间的边缘可以降低微生物相互作用网络的复杂性,使网络更加简化。这有助于聚焦于那些在相互作用方面更为显著的微生物,减少无关或噪声性的关系,提高网络的解释性和可解释性。同时,去除低相关性的微生物边缘可以增强网络的稳健性和可靠性。通过过滤掉较弱的相关性,可以减少潜在的误导性信息,确保网络中的关系更具生物学意义,从而更可靠地反映微生物群落的真实关联。
S503:通过Cytoscape,根据微生物之间的斯皮尔曼相关系数,构建微生物相互作用网络。
参考说明书附图3,示出了本发明提供的一种微生物相互作用网络的示意图。
其中,Cytoscape是一款用于生物网络分析和可视化的开源软件。该软件提供了强大的工具和算法,使研究人员能够分析和理解生物学网络中的复杂关系,包括基因调控网络、蛋白质相互作用网络、代谢网络等。
在本发明中,通过构建微生物相互作用网络有助于揭示微生物群体之间的潜在相互作用关系,为肿瘤的发生发展提供了更深层次的理解。进一步地,有望识别出在结直肠癌样本中具有重要生物学意义的关键微生物,为相关疾病的早期诊断和治疗提供新的理论支持。
S6:对微生物相互作用网络中的节点按照MCC值由高到低的顺序进行排序,将排序靠前的第一预设数量的微生物确定为关键微生物。
其中,本领域技术人员可以根据实际情况设置第一预设数量的大小,本发明不做限定。
在一种可能的实施方式中,S6具体包括子步骤S601和S602:
S601:计算微生物相互作用网络中的节点的MCC值:
其中,MCC(v)表示节点v的MCC值,v表示节点序号,S(v)表示包含节点v的最大群的集合,表示所有小于/>的正整数的乘积,C表示S(v)中的集合,/>表示集合C中的元素数。
S602:按照各个节点的MCC值,对微生物相互作用网络中的节点按照由高到低进行排序,将排序靠前的第一预设数量的微生物确定为关键微生物。
在本发明中,通过MCC值进行排序和选取关键微生物,有助于精确而高效地提取微生物相互作用网络中对于研究问题重要的节点,为后续的生物学解释和实验设计提供有力支持。
S603:通过Wilcoxon检验,筛选所述高风险组与所述低风险组之间的差异微生物,结合所述关键微生物,确定微生物标记物。
其中,Wilcoxon检验,又称为Wilcoxon秩和检验,是一种用于比较两个相关样本或配对样本的非参数性统计检验方法。它的主要用途是检验两组相关样本的中位数是否有显著差异,而不需要假定数据满足正态分布。
在本发明中,通过Wilcoxon检验在高风险组与低风险组之间筛选差异微生物,有助于确定个性化的微生物标记物,考虑了不同风险群体之间的微生物组差异。
上述技术方案,与现有技术相比至少具有如下有益效果:
(1)在本发明中,综合关键调控基因和差异免疫细胞对样本进行分类,将基因调控网络和免疫细胞水平的信息结合起来,有助于更全面、多角度地了解样本的生物学特征,提高对样本分类的全面性。
(2)在本发明中,根据各类微生物的丰度,确定各类微生物之间的相关性,构建微生物相互作用网络,对所述微生物相互作用网络中的节点按照由高到低进行排序,将排序靠前的第一预设数量的微生物确定为关键微生物,找到肿瘤类高风险组与低风险组间具备差异的关键微生物,为肿瘤诊断确定可靠的微生物特征,可以为临床肿瘤的诊断和治疗、预后提供新的理论支持,提升肿瘤评估的科学性,有助于肿瘤的早期诊断和制定更精准的治疗策略,同时有助于更好地了解患者的疾病发展趋势。
有以下几点需要说明:
(1)本发明实施例附图只涉及到与本发明实施例涉及到的结构,其他结构可参考通常设计。
(2)为了清晰起见,在用于描述本发明的实施例的附图中,层或区域的厚度被放大或缩小,即这些附图并非按照实际的比例绘制。可以理解,当诸如层、膜、区域或基板之类的元件被称作位于另一元件“上”或“下”时,该元件可以“直接”位于另一元件“上”或“下”或者可以存在中间元件。
(3)在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合以得到新的实施例。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,本发明的保护范围应以权利要求的保护范围为准。

Claims (6)

1.一种基于基因调控网络的微生物标记物的筛选方法,其特征在于,包括:
S1:通过基因调控网络,确定关键调控基因;
S2:根据免疫细胞比例,确定差异免疫细胞;
S3:根据所述关键调控基因和所述差异免疫细胞,对样本进行分类,确定出肿瘤组与正常组;
S4:确定肿瘤组样本中的各类微生物的丰度;
S5:根据各类微生物的丰度,确定各类微生物之间的相关性,构建微生物相互作用网络;
S6:对所述微生物相互作用网络中的节点按照MCC值由高到低的顺序进行排序,将排序靠前的第一预设数量的微生物确定为关键微生物;
所述筛选方法为非诊断目的的;
其中,所述S1的通过基因调控网络,确定关键调控基因,包括:
S101:通过WGCNA,确定与结直肠癌相关的hub基因;
S102:通过R语言中的limma包,对基因表达谱数据进行分析,确定差异表达基因;
S103:对所述hub基因和所述差异表达基因取交集,确定出交集基因;
S104:根据交集基因的基因表达谱数据,计算各个交集基因之间的CMI2值;
S105:当交集基因之间的CMI2值小于预设值时,去除交集基因之间的边缘,得到基因调控网络;
S106:通过PoLoBag集成回归算法,确定基因之间的调控关系,所述调控关系包括调控方向和调控性质,所述调控性质包括激活和抑制;
S107:根据基因之间的调控关系,计算所述基因调控网络中基因节点的出度;
S108:根据所述基因调控网络中基因节点的出度,选择出度排序靠前的第二预设数量的基因作为所述关键调控基因;
其中,在S3之后,还包括:
通过Cox比例风险模型,根据以下公式,计算肿瘤组样本的风险值:
h(t)=h0(t)exp(α1Y12Y2+…+αnYn)
其中,h(t)表示t时刻的风险值,h0(t)表示t时刻的基准风险值,exp()表示以e为底的指数函数,Yi表示第i个影响因素,αi表示第i个影响因素的偏回归系数,i=1,2,…,n,n表示影响因素的总数;
判断肿瘤组样本的风险值是否大于预设风险值;若是,确定肿瘤组样本为高风险样本,存入高风险组;否则,确定肿瘤组样本为低风险样本,存入低风险组;
其中,所述S5的根据各类微生物的丰度,确定各类微生物之间的相关性,构建微生物相互作用网络,包括:
S501:根据各类微生物的丰度,确定各类微生物之间的斯皮尔曼相关系数;
S502:当两类微生物之间的斯皮尔曼相关系数小于预设相关系数值时,去除两类微生物之间的边缘;
S503:通过Cytoscape,根据微生物之间的斯皮尔曼相关系数,构建微生物相互作用网络;
其中,所述S6的对所述微生物相互作用网络中的节点按照MCC值由高到低的顺序进行排序,将排序靠前的第一预设数量的微生物确定为关键微生物,包括:
S601:计算所述微生物相互作用网络中的节点的MCC值:
其中,MCC(v)表示节点v的MCC值,v表示节点序号,S(v)表示包含节点v的最大群的集合,(|C|-1)!表示所有小于|C|的正整数的乘积,C表示S(v)中的集合,|C|表示集合C中的元素数;
S602:按照各个节点的MCC值,对所述微生物相互作用网络中的节点按照由高到低进行排序,将排序靠前的第一预设数量的微生物确定为关键微生物;
S603:通过Wilcoxon检验,筛选所述高风险组与所述低风险组之间的差异微生物,结合所述关键微生物,确定微生物标记物。
2.根据权利要求1所述的基于基因调控网络的微生物标记物的筛选方法,其特征在于,所述S101的通过WGCNA,确定与结直肠癌相关的hub基因,包括:
S1011:通过WGCNA,构建加权基因共表达网络,确定各个基因之间的相似性:
sij=|cor(xi,xj)|
其中,sij表示第i个基因与第j个基因之间的相似性,cor()表示相似性计算函数,xi表示第i个基因,xj表示第j个基因;
S1012:引入软阈值,根据各个基因之间的相似性,计算各个基因之间的相关性:
aij=|sij|β
其中,aij表示第i个基因与第j个基因之间的相关性,β表示软阈值;
S1013:基于基因之间的相关性,通过层次聚类,对基因进行筛选;
S1014:对筛选后的基因,根据基因显著性和模块显著性,确定与结直肠癌相关的hub基因。
3.根据权利要求1所述的基于基因调控网络的微生物标记物的筛选方法,其特征在于,所述S102的通过R语言中的limma包,对基因表达谱数据进行分析,确定差异表达基因,包括:
S1021:通过Wilcoxon检验,确定基因的对数折叠变化logFC:
其中,logFC表示基因的对数折叠变化,表示基因在肿瘤组中的均值,/>表示基因在正常组中的均值;
S1022:当基因的对数折叠变化logFC满足|log FC|>1且p<0.05时,确定基因为差异表达基因。
4.根据权利要求1所述的基于基因调控网络的微生物标记物的筛选方法,其特征在于,所述S104根据交集基因的基因表达谱数据,计算各个交集基因之间的CMI2值,包括:
根据以下公式,计算各个交集基因之间的CMI2值:
CMI2(X,Y|Z)=(DKL(P||PX→Y)+DKL(P||PY→X))/2
其中,CMI2(X,Y|Z)表示基因X与基因Y之间的CMI2值,基因Y由基因X直接调控或者间接通过基因Z调控,PX→Y表示去除边缘X→Y时X、Y和Z的介入概率分布,PY→X表示去除边缘Y→X时X、Y和Z的介入概率分布,DKL(P||PX→Y)表示从P到PX→Y的Kullback-Leible散度,DKL(P||PY→X)表示从P到PY→X的Kullback-Leible散度;
其中,PX→Y的计算方式为:
其中,P(y|z,x)表示条件概率,P(x,z)表示条件概率分布,P(x)表示x的边际概率分布。
5.根据权利要求1所述的基于基因调控网络的微生物标记物的筛选方法,其特征在于,所述S2的根据免疫细胞比例,确定差异免疫细胞,包括:
S201:通过CIBERSORT运用线性支持向量回归对表达矩阵进行去卷积,从基因表达谱数据中推算出免疫细胞比例;
S202:通过Wilcoxon检验,当目标免疫细胞在正常组和肿瘤组中的p值差异大于预设差异值时,确定所述目标免疫细胞为所述差异免疫细胞。
6.根据权利要求1所述的基于基因调控网络的微生物标记物的筛选方法,其特征在于,所述S3的根据所述关键调控基因和所述差异免疫细胞,对样本进行分类,确定出肿瘤组与正常组,包括:
根据所述关键调控基因和所述差异免疫细胞,通过支持向量机算法,对样本进行分类,确定出肿瘤组与正常组。
CN202311721701.XA 2023-12-14 2023-12-14 一种基于基因调控网络的微生物标记物的筛选方法 Active CN117409962B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311721701.XA CN117409962B (zh) 2023-12-14 2023-12-14 一种基于基因调控网络的微生物标记物的筛选方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311721701.XA CN117409962B (zh) 2023-12-14 2023-12-14 一种基于基因调控网络的微生物标记物的筛选方法

Publications (2)

Publication Number Publication Date
CN117409962A CN117409962A (zh) 2024-01-16
CN117409962B true CN117409962B (zh) 2024-03-29

Family

ID=89496619

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311721701.XA Active CN117409962B (zh) 2023-12-14 2023-12-14 一种基于基因调控网络的微生物标记物的筛选方法

Country Status (1)

Country Link
CN (1) CN117409962B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117912570B (zh) * 2024-03-19 2024-05-14 北京科技大学 一种基于基因共表达网络的分类特征确定方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201913690D0 (en) * 2019-09-23 2019-11-06 Univ Southampton Molecular phenotype classification
CN112435714A (zh) * 2020-11-03 2021-03-02 北京科技大学 一种肿瘤免疫亚型分类方法及系统
CN112687342A (zh) * 2020-11-16 2021-04-20 徐同鹏 基于tcga数据库鉴定的一组免疫相关分子标志物在食管癌预后预测中的应用
CN112837744A (zh) * 2021-02-07 2021-05-25 南京邮电大学 一种前列腺癌预后显著相关ceRNA调控网络的构建方法
CN113140258A (zh) * 2021-04-28 2021-07-20 上海海事大学 基于肿瘤浸润性免疫细胞筛选肺腺癌的潜在预后生物标志物的方法
CN114093426A (zh) * 2021-11-11 2022-02-25 大连理工大学 基于基因调控网络构建的标志物筛选方法
CN114925837A (zh) * 2022-03-23 2022-08-19 华中农业大学 基于混合熵优化互信息的基因调控网络构建方法
CN115798601A (zh) * 2023-02-03 2023-03-14 北京灵迅医药科技有限公司 肿瘤特征基因识别方法、装置、设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201913690D0 (en) * 2019-09-23 2019-11-06 Univ Southampton Molecular phenotype classification
CN112435714A (zh) * 2020-11-03 2021-03-02 北京科技大学 一种肿瘤免疫亚型分类方法及系统
CN112687342A (zh) * 2020-11-16 2021-04-20 徐同鹏 基于tcga数据库鉴定的一组免疫相关分子标志物在食管癌预后预测中的应用
CN112837744A (zh) * 2021-02-07 2021-05-25 南京邮电大学 一种前列腺癌预后显著相关ceRNA调控网络的构建方法
CN113140258A (zh) * 2021-04-28 2021-07-20 上海海事大学 基于肿瘤浸润性免疫细胞筛选肺腺癌的潜在预后生物标志物的方法
CN114093426A (zh) * 2021-11-11 2022-02-25 大连理工大学 基于基因调控网络构建的标志物筛选方法
CN114925837A (zh) * 2022-03-23 2022-08-19 华中农业大学 基于混合熵优化互信息的基因调控网络构建方法
CN115798601A (zh) * 2023-02-03 2023-03-14 北京灵迅医药科技有限公司 肿瘤特征基因识别方法、装置、设备及存储介质

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
CIBERSORT反卷积算法计算胃腺癌免疫浸润的研究;安覃景;梁成通;李玉武;李思思;韩崇旭;;国际检验医学杂志;20200713(13);全文 *
三阴性乳腺癌肿瘤微环境特征免疫相关生物学标志物筛选及功能预测分析;苏芃;毛晓韵;关舒;崔梦遥;金紫凝;金锋;;中国肿瘤外科杂志;20200820(04);全文 *
周石磊 ; 孙悦 ; 岳哿丞 ; 张航 ; 王周强 ; 刘世崇 ; 彭瑞哲 ; 苑世超 ; 李再兴 ; 崔建升 ; .雄安新区-白洋淀冬季冰封期水体好氧反硝化菌群落空间分布特征及驱动因素.环境科学.(05),全文. *
突变型与野生型胃肠道间质瘤基因筛选及信号通路分析;何毅刚;石鑫;于建平;王婧;张亚男;刘宏斌;陈为凯;;医学研究杂志;20200415(04);全文 *
肾透明细胞癌关键枢纽基因的筛选及生物信息学分析;李灿楦;陈洁;徐争光;林晏廷;李晓;;暨南大学学报(自然科学与医学版);20200616(04);全文 *
覃桂敏 ; 刘佳妍 ; 殷雨 ; 杨璐琼 ; .基因调控网络中的癌症标记物预测方法.西安电子科技大学学报.(06),全文. *
郭鹏飞 ; 贺平安 ; .乳腺癌癌症干细胞的特异基因识别.浙江理工大学学报(自然科学版).(03),全文. *

Also Published As

Publication number Publication date
CN117409962A (zh) 2024-01-16

Similar Documents

Publication Publication Date Title
Lähnemann et al. Eleven grand challenges in single-cell data science
Shannon et al. Analyzing microarray data using cluster analysis
US7653491B2 (en) Computer systems and methods for subdividing a complex disease into component diseases
US20030009295A1 (en) System and method for retrieving and using gene expression data from multiple sources
US20030171876A1 (en) System and method for managing gene expression data
US10275711B2 (en) System and method for scientific information knowledge management
US8364665B2 (en) Directional expression-based scientific information knowledge management
CN111899882B (zh) 一种预测癌症的方法及系统
US20060111849A1 (en) Computer systems and methods that use clinical and expression quantitative trait loci to associate genes with traits
CN117409962B (zh) 一种基于基因调控网络的微生物标记物的筛选方法
EP1550074A1 (en) Prediction by collective likelihood from emerging patterns
US20120253960A1 (en) Methods, software arrangements, storage media, and systems for providing a shrinkage-based similarity metric
Wu Differential gene expression detection using penalized linear regression models: the improved SAM statistics
CN111913999B (zh) 基于多组学与临床数据的统计分析方法、系统和存储介质
Tran et al. Omics-based deep learning approaches for lung cancer decision-making and therapeutics development
Jia et al. Clustering expressed genes on the basis of their association with a quantitative phenotype
WO2002071059A1 (en) A system and method for managing gene expression data
CN113838519B (zh) 基于自适应基因交互正则化弹性网络模型的基因选择方法及系统
CN115274136A (zh) 整合多组学与必需基因的肿瘤细胞系药物响应预测方法
AU2012255722B2 (en) Computer-implemented method and system for detecting interacting DNA loci
Ghanegolmohammadi et al. Assignment of unimodal probability distribution models for quantitative morphological phenotyping
Guidi et al. A new procedure to optimize the selection of groups in a classification tree: Applications for ecological data
CN107710206B (zh) 用于根据生物学数据的亚群检测的方法、系统和装置
Kallus et al. MM-PCA: integrative analysis of multi-group and multi-view data
CN115631799B (zh) 样本表型的预测方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant