CN115798601A - 肿瘤特征基因识别方法、装置、设备及存储介质 - Google Patents

肿瘤特征基因识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115798601A
CN115798601A CN202310054076.1A CN202310054076A CN115798601A CN 115798601 A CN115798601 A CN 115798601A CN 202310054076 A CN202310054076 A CN 202310054076A CN 115798601 A CN115798601 A CN 115798601A
Authority
CN
China
Prior art keywords
gene
network
genes
network structure
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310054076.1A
Other languages
English (en)
Inventor
赵纪永
王维玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Lingxun Pharmaceutical Technology Co ltd
Original Assignee
Beijing Lingxun Pharmaceutical Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Lingxun Pharmaceutical Technology Co ltd filed Critical Beijing Lingxun Pharmaceutical Technology Co ltd
Priority to CN202310054076.1A priority Critical patent/CN115798601A/zh
Publication of CN115798601A publication Critical patent/CN115798601A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及数据处理技术领域,公开了一种肿瘤特征基因识别方法、装置、设备及存储介质,该方法包括:获取卵巢癌患者和正常人的差异表达基因;对差异表达基因进行KEGG通路富集分析,获得第一分析基因;根据第一分析基因和贝叶斯网络结构学习构建目标基因调控网络;根据目标基因调控网络识别肿瘤特征基因。由于本发明是通过对卵巢癌患者和正常人的差异表达基因进行KEGG通路富集,根据分析结果获得第一分析基因,然后根据贝叶斯网络结构学习构建目标基因调控网络,再通过目标基因调控网络实现肿瘤特征基因识别,相比于现有技术,本发明通过贝叶斯网络结构学习构建目标基因调控网络反映基因之间的调控关系,进而提高了肿瘤特征基因识别的准确率。

Description

肿瘤特征基因识别方法、装置、设备及存储介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种肿瘤特征基因识别方法、装置、设备及存储介质。
背景技术
卵巢癌是临床上常见的妇科癌症,由于卵巢癌患者确诊时往往已是癌症晚期,因此卵巢癌的病死率较高,在妇科肿瘤中排首位。大多数患者在化疗初期取得良好的效果,但是在接下来的治疗中患者常出现不同程度的抗化疗反应。因此,迫切需要研究卵巢癌化疗敏感性的内在机制,这是实现卵巢癌患者个体化治疗以及改善患者预后的关键。对高通量组学数据进行分析能揭示化疗敏感性的潜在机制,但是传统的统计学方法不适于对其分析。
目前贝叶斯网络作为一种概率图形模型,具有发现变量间依赖关系的能力,是揭示疾病潜在机制的有效工具。贝叶斯网络结构学习的方法可以分为基于约束的算法、搜索得分算法。基于约束的算法其独立性检验依赖于事先设定的显著性水平,并且搜索过程中的前一步的误差将会为接下来的学习带来层叠效益,整体误差逐渐增加,得出的结构也逐渐偏离真实结构。另外,高阶的独立性检验需要较大的样本量。而对于高维组学数据,样本量往往不足以得出可靠的高阶独立性检验结果,这将会大大提高结果的假阳性而导致所预测的生物学网络准确性降低。搜索得分算法虽然能灵活地处理数据集中的缺失值,并且能识别出一些基于约束的算法无法得到的结构。然而该算法的缺点是学习速度相对较慢,尤其当网络结构规模变大时,可能的结构数量将随着节点数量的增加呈指数级增长。
因此,亟需一种肿瘤特征基因识别方法,解决现有技术中如何通过贝叶斯网络提高肿瘤特征基因识别准确率的技术问题。
发明内容
本发明的主要目的在于提供了一种肿瘤特征基因识别方法、装置、设备及存储介质,旨在解决现有技术中如何通过贝叶斯网络提高肿瘤特征基因识别准确率的技术问题。
为实现上述目的,本发明提供了一种肿瘤特征基因识别方法,所述方法包括以下步骤:
获取卵巢癌患者和正常人的差异表达基因;
对所述差异表达基因进行KEGG通路富集分析,获得第一分析基因;
根据所述第一分析基因和贝叶斯网络结构学习构建目标基因调控网络;
根据所述目标基因调控网络识别肿瘤特征基因。
可选地,所述获取肿瘤患者和正常人的差异表达基因的步骤,具体包括:
从TCGA数据库获取多例卵巢癌患者和多例正常人健康对照的基因表达谱数据;
根据所述基因表达谱数据筛选出差异表达基因。
可选地,所述根据所述基因表达谱数据筛选差异表达基因的步骤,具体包括:
获取所述基因表达谱数据中的基因;
对所述基因进行置换检验,根据置换检验结果筛选出差异表达基因。
可选地,所述根据所述第一分析基因和贝叶斯网络结构学习构建目标基因调控网络的步骤,包括:
根据所述第一分析基因和贝叶斯网络结构学习构建Bootstrap贝叶斯网络;
通过得分函数和预设搜索策略,确定所述Bootstrap贝叶斯网络中得分最高的网络结构;
将所述网络结构对应的所述Bootstrap贝叶斯网络作为目标基因调控网络。
可选地,所述根据所述第一分析基因和贝叶斯网络结构学习构建Bootstrap贝叶斯网络的步骤,具体包括:
通过对所述第一分析基因随机重抽样,获得多个Bootstrap数据集;
对所述Bootstrap数据集进行贝叶斯网络结构学习,获得多个Bootstrap贝叶斯网络。
可选地,所述通过得分函数和预设搜索策略,确定所述Bootstrap贝叶斯网络中得分最高的网络结构的步骤,包括:
通过得分函数确定所述Bootstrap贝叶斯网络与所述Bootstrap数据集拟合程度最优的网络,并将所述网络作为第一目标网络;
对所述第一目标网络的结构进行贪婪爬山搜索法,并结合随机重搜索确定得分最高的网络结构。
可选地,所述对所述第一目标网络的结构进行贪婪爬山搜索法,并结合随机重搜索确定得分最高的网络结构的步骤之后,还包括:
获取所述网络结构中任意两节点相连接的概率,并将所述概率作为置信度估计值;
将所述置信度估计值与预设阈值相比较;
根据比较结果,确定目标网络结构。
此外,为实现上述目的,本发明还提出一种肿瘤特征基因识别装置,所述装置包括:
获取模块,用于获取卵巢癌患者和正常人的差异表达基因;
分析模块,用于对所述差异表达基因进行KEGG通路富集分析,获得第一分析基因;
构建模块,用于根据所述第一分析基因和贝叶斯网络结构学习构建目标基因调控网络;
识别模块,用于根据所述目标基因调控网络识别肿瘤特征基因。
此外,为实现上述目的,本发明还提出一种肿瘤特征基因识别设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的肿瘤特征基因识别程序,所述肿瘤特征基因识别程序配置为实现如上文所述的肿瘤特征基因识别方法的步骤。
此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有肿瘤特征基因识别程序,所述肿瘤特征基因识别程序被处理器执行时实现如上文所述的肿瘤特征基因识别方法的步骤。
本发明通过获取卵巢癌患者和正常人的差异表达基因;对所述差异表达基因进行KEGG通路富集分析,获得第一分析基因;根据所述第一分析基因和贝叶斯网络结构学习构建目标基因调控网络;根据所述目标基因调控网络识别肿瘤特征基因。由于本发明是通过对卵巢癌患者和正常人的差异表达基因进行KEGG通路富集,根据分析结果获得第一分析基因,然后根据第一分析基因和贝叶斯网络结构学习构建目标基因调控网络,再通过目标基因调控网络实现肿瘤特征基因识别,相比于现有技术,本发明通过贝叶斯网络结构学习构建目标基因调控网络反映基因之间的调控关系,进而提高了肿瘤特征基因识别的准确率。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的肿瘤特征基因识别设备的结构示意图;
图2为本发明肿瘤特征基因识别方法第一实施例的流程示意图;
图3为本发明肿瘤特征基因识别方法第二实施例的流程示意图;
图4为本发明肿瘤特征基因识别方法第三实施例的流程示意图;
图5为本发明肿瘤特征基因识别装置第一实施例的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的肿瘤特征基因识别设备结构示意图。
如图1所示,该肿瘤特征基因识别设备可以包括:处理器1001,例如中央处理器(CentralProcessing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(Wireless-Fidelity,WI-FI)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory,RAM),也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对肿瘤特征基因识别设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及肿瘤特征基因识别程序。
在图1所示的肿瘤特征基因识别设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明肿瘤特征基因识别设备中的处理器1001、存储器1005可以设置在肿瘤特征基因识别设备中,所述肿瘤特征基因识别设备通过处理器1001调用存储器1005中存储的肿瘤特征基因识别程序,并执行本发明实施例提供的肿瘤特征基因识别方法。
本发明实施例提供了一种肿瘤特征基因识别方法,参照图2,图2为本发明肿瘤特征基因识别方法第一实施例的流程示意图。
本实施例中,所述肿瘤特征基因识别方法包括以下步骤:
步骤S10:获取卵巢癌患者和正常人的差异表达基因。
需要说明的是,需要说明的是,本实施例的执行主体可以是一种具有数据处理以及程序运行功能的计算服务设备,例如平板电脑、个人电脑等,或者是一种能够实现相同或相似功能的电子设备,例如上述图1所示的肿瘤特征基因识别设备等。以下以肿瘤特征基因识别设备为例,对本实施例及下述各实施例进行举例说明。
应理解的是,若获取的基因样本数量少,网络结构学习的结果可能会存在偶然性,因此需要样本的数目越多,网络的结构学习就越准确。
可理解的是,获取卵巢癌患者和正常人的差异表达基因之前,需要先分别获取卵巢癌患者的基因表达值和正常人的基因表达值,可以从特定的数据库或者网络中获取巢癌患者和正常人的基因表达谱数据,然后根据基因表达谱数据测得卵巢癌患者和正常人的基因表达值。
进一步地,根据根据基因表达谱数据测得卵巢癌患者和正常人的基因表达值确定卵巢癌患者和正常人的差异表达基因。
需要解释的是,差异表达基因是指在不同的细胞或同一细胞的不同发育阶段,细胞表达的特定的基因,因而产生了特定的蛋白质,从而导致细胞在形态、结构和功能上的差异。基因差异表达的结果使不同细胞产生了特有的蛋白质,例如:奢侈蛋白(luxuryprotein),如成红细胞的β珠蛋白、胰岛B-细胞中的胰岛素、肝实质细胞的白蛋白等。
步骤S20:对所述差异表达基因进行KEGG通路富集分析,获得第一分析基因。
需要说明的是,KEGG(京都基因和基因组百科全书)数据库是日本京都大学生物信息学中心的Kanehisa实验室于1995年建立了的生物信息学数据库。现在是基因组测序和其他高通量实验技术产生的大规模分子数据集的整合和解释的重要生物信息数据参考知识库。KEGG是一个整合了基因组、化学和系统功能信息的数据库。其中最核心的为 KEGGPATHWAY和KEGG ORTHOLOGY 数据库。而在 KEGG PATHWAY 数据库中,将生物代谢通路划分为 6 类,分别为:细胞过程、环境信息处理、遗传信息处理、人类疾病、新陈代谢、生物体系统。
需要解释的是,通路富集分析对实验结果有提示的作用,通过差异基因的通路分析,可以得到与主流表达趋势相关的所有基因参与的显著、靶向的通路,寻找不同样品的差异基因可能和哪些细胞通路的改变有关,同时将上下调的差异基因映射到每一个通路上,进而定位关键通路的关键基因。
KEGG作为参考知识库,可以用于预测各种细胞过程的蛋白质相互作用网络,整合了当前关于分子相互作用网络的知识,如路径和复合物,以及关于基因组计划产生的基因和蛋白质的信息(GENES / SSDB / KO数据库)和有关生化化合物和反应的信息。因此在生物信息学分析过程中,KEGG通路富集分析常常应用于差异表达基因的功能注释,了解差异表达基因的相关功能与作用通路。
进一步地,通路是以图的形式来表示的,节点代表不同的分子(蛋白质、化合物、酶等),边代表节点之间不同的关系,如激活、抑制等,这些边往往代表一些酶的催化作用,这些酶根据不同的实验条件由一个或者多个基因编译而成。由于这些通路都以图的形式表示,因此很容易从中提取出基因网络、化合物和蛋白质网络。
步骤S30:根据所述第一分析基因和贝叶斯网络结构学习构建目标基因调控网络。
需要解释的是,贝叶斯网络又称信度网络,是Bayes方法的扩展,是目前不确定知识表达和推理领域最有效的理论模型之一。一个贝叶斯网络是一个有向无环图,由代表变量结点及连接这些结点有向边构成。结点代表随机变量,结点间的有向边代表了结点间的互相关系(由父结点指向其子结点),用条件概率进行表达关系强度,没有父结点的用先验概率进行信息表达。
进一步地,贝叶斯网络结构学习就是从给定的数据集中学出贝叶斯网络结构,即各节点之间的依赖关系;只有确定了结构才能继续学得网络参数,即表示各节点之间依赖强弱的条件概率。
可理解的是,基因调控网络,简称调控网络是一个抽象概念,指细胞内(或特定一个基因组内)基因和基因之间的相互作用关系所形成的网络。
目标基因调控网络可以以网络图形的表现方式直观地展示基因之间的调控关系,并能给出条件概率解释这种关系的强度,从而实现根据基因之间的调控关系识别肿瘤特征基因。
步骤S40:根据所述目标基因调控网络识别肿瘤特征基因。
本实施例通过获取卵巢癌患者和正常人的差异表达基因;然后对所述差异表达基因进行KEGG通路富集分析,获得第一分析基因;再根据所述第一分析基因和贝叶斯网络结构学习构建目标基因调控网络;最后根据所述目标基因调控网络识别肿瘤特征基因。由于本发明是通过对卵巢癌患者和正常人的差异表达基因进行KEGG通路富集,根据分析结果获得第一分析基因,然后根据第一分析基因和贝叶斯网络结构学习构建目标基因调控网络,再通过目标基因调控网络实现肿瘤特征基因识别,相比于现有技术,本发明通过贝叶斯网络结构学习构建目标基因调控网络反映基因之间的调控关系,进而提高了肿瘤特征基因识别的准确率。
参考图3,图3为本发明肿瘤特征基因识别方法第二实施例的流程示意图。
基于上述第一实施例,在本实施例中,所述步骤S10,具体包括:
步骤S101:从TCGA数据库获取多例卵巢癌患者和多例正常人健康对照的基因表达谱数据。
需要解释的是,TCGA数据库是由National Cancer Institute ( NCI,美国国家癌症研究所) 和 National Human Genome Research Institute(NHGRI,国家人类基因组研究所) 合作建立的癌症研究项目(Cancer Genome Atlas,TCGA),通过收集整理癌症相关的各种组学数据,提供了一个大型的、免费的癌症研究参考数据库。
基因表达谱(gene expression profile)是指构建处于某一特定状态下的细胞或组织的非偏性cDNA文库,通过大规模的cDNA测序,收集cDNA序列片段、定性、定量分析其mRNA群体组成,从而描绘该特定细胞或组织在特定状态下的基因表达种类和丰度信息,这样编制成的数据表就称为基因表达谱。
步骤S102:根据所述基因表达谱数据筛选出差异表达基因。
进一步地,为了能提高建模的效率,同时使后续构建的网络更加合理,步骤S102,具体包括:
步骤S1021:获取所述基因表达谱数据中的基因。
步骤S1022:对所述基因进行置换检验,根据置换检验结果筛选出差异表达基因。
需要说明的是,基因表达谱代表了细胞中基因表达的状况。通过比较肿瘤细胞和相应正常组织细胞的基因表达谱所获得的信息,就可获得在肿瘤和正常细胞中差异表达基因。
可理解的是,差异表达基因是指在不同的细胞或同一细胞的不同发育阶段,细胞表达的特定的基因,因而产生了特定的蛋白质,从而导致细胞在形态、结构和功能上的差异。上述差异表达基因是指与卵巢癌相关的基因。
需要解释的是,上述置换检验可以是使用基于Wilcoxon秩和检验的置换检验,可以是使用基于两独立样本t检验的置换检验,也可以是其他置换检验的方法,本实施例对此不加以限制。
例如,在具体实现中,可以对基因表达谱获取的基因使用基于Wilcoxon秩和检验的置换检验或使用基于两独立样本t检验的置换检验,进行1000次置换,根据置换检验的结果筛选出符合预设条件的差异表达基因。
本实施例从TCGA数据库获取多例卵巢癌患者和多例正常人健康对照的基因表达谱数据;获取所述基因表达谱数据中的基因;对所述基因进行置换检验,根据置换检验结果筛选出差异表达基因;然后对所述差异表达基因进行KEGG通路富集分析,获得第一分析基因;再根据所述第一分析基因和贝叶斯网络结构学习构建目标基因调控网络;最后根据所述目标基因调控网络识别肿瘤特征基因。由于本发明是通过从TCGA数据库获取多例卵巢癌患者和多例正常人健康对照的基因表达谱数据;然后获取所述基因表达谱数据中的基因;对所述基因进行置换检验,根据置换检验结果筛选出差异表达基因,然后对差异表达基因进行KEGG通路富集,根据分析结果获得第一分析基因,然后根据第一分析基因和贝叶斯网络结构学习构建目标基因调控网络,再通过目标基因调控网络实现肿瘤特征基因识别,相比于现有技术,本发明通过贝叶斯网络结构学习构建目标基因调控网络反映基因之间的调控关系,进而提高了肿瘤特征基因识别的准确率。
参考图4,图4为本发明肿瘤特征基因识别方法第三实施例的流程示意图。
基于上述各实施例,在本实施例中,所述步骤S30,包括:
步骤S301:根据所述第一分析基因和贝叶斯网络结构学习构建Bootstrap贝叶斯网络。
需要说明的是,为了有效提高肿瘤特征基因识别的准确率,减少随机误差,步骤S301构建Bootstrap贝叶斯网络具体包括:
步骤S3011:通过对所述第一分析基因随机重抽样,获得多个Bootstrap数据集。
可理解的是,随机重抽样是根据随机性原则,从总体单位中抽取部分单位作为样本进行调查,以其结果推断总体有关指标的一种抽样方法。通过对所述第一分析基因进行随机重抽样可以减少随机误差,提高肿瘤特征基因识别的准确率。
步骤S3012:对所述Bootstrap数据集进行贝叶斯网络结构学习,获得多个Bootstrap贝叶斯网络。
需要解释的是,贝叶斯网络是一个有向无环图,可以表示成一组随机变量的联合概率分布。形式上一组随机变量
Figure SMS_3
的贝叶斯网络可以用
Figure SMS_5
表示,其中第一个成分
Figure SMS_10
表示一个有向无环图,图中节点代表随机变量,节点之间的边代表变量之间的直接依赖关系。第二个成分
Figure SMS_1
,代表一组量化网络的参数
Figure SMS_7
Figure SMS_9
,以条件概率分布的形式表示,即
Figure SMS_12
,其中
Figure SMS_2
表示变量
Figure SMS_6
在图
Figure SMS_8
中的父节点集。贝叶斯网络
Figure SMS_11
给一组变量
Figure SMS_4
定义的联合概率分布可以表示为:
Figure SMS_13
贝叶斯网络结构学习可以归结为:对于给定的数据训练集
Figure SMS_14
,寻找一个网络
Figure SMS_15
使之能与数据集
Figure SMS_16
最匹配。贝叶斯网络结构学习就是从给定的数据集中学出贝叶斯网络结构,即各节点之间的依赖关系;只有确定了结构才能继续学得网络参数,即表示各节点之间依赖强弱的条件概率。
步骤S302:通过得分函数和预设搜索策略,确定所述Bootstrap贝叶斯网络中得分最高的网络结构。
需要说明的是,得分函数可以衡量评价网络结构与数据的匹配程度,按其基本原理可以分为两大类:第一类,带惩罚项的似然函数,如Akaike信息准则(Akaike’sinformation criteria, AIC)和贝叶斯信息准则(bayesian information criteria,BIC),第二类,贝叶斯得分函数,如BDe得分(bayesian dirichlet equivalent, BDe)。
预设搜索策略可以贪婪爬山搜索法,并结合随机重搜索的搜索策略。
需要解释的是,步骤S302确定得分最高的网络结构具体包括:
步骤S3021:通过得分函数确定所述Bootstrap贝叶斯网络与所述Bootstrap数据集拟合程度最优的网络,并将所述网络作为第一目标网络。
步骤S3022:对所述第一目标网络的结构进行贪婪爬山搜索法,并结合随机重搜索确定得分最高的网络结构。
在具体实现中,采用BIC得分函数,并运用贪婪爬山搜索法(greed hill-climbing)结合随机重搜索确定得分最高的网络结构,这种方法能够避免陷入局部最优。
网络的拟合程度使用BIC准则确定,BIC得分越大,构建的网络越好,其计算公式为
Figure SMS_17
式中N为数据的总例数,d为网络的参数个数。
需要说明的是,为了提高肿瘤特征基因识别准确率,确定得分最高的网络结构之后,还包括:
获取所述网络结构中任意两节点相连接的概率,并将所述概率作为置信度估计值;将所述置信度估计值与预设阈值相比较;根据比较结果,确定目标网络结构。
对于网络
Figure SMS_19
的结构,感兴趣的特征可以是某条有向边
Figure SMS_22
,也可以是无向边
Figure SMS_26
。总之,可以将这些边用字母
Figure SMS_20
来表示,并通过网络结构的函数转换成集合
Figure SMS_23
表示,
Figure SMS_25
表示节点和节点
Figure SMS_27
和节点
Figure SMS_18
不连接,
Figure SMS_21
表示两节点连接,简记为
Figure SMS_24
现用
Figure SMS_28
表示以数据
Figure SMS_29
作为输入得到的网络结构,定义
Figure SMS_30
Figure SMS_31
表示贝叶斯网络
Figure SMS_32
中抽到一个任意两节点是否相连网络的概率。如果结构学习过程一致,则希望当样本量
Figure SMS_33
足够大时,
Figure SMS_34
会收敛于
Figure SMS_35
。也就是说,如果真实网络结构
Figure SMS_36
中确实存在节点相连特征
Figure SMS_37
,则它的置信度应该接近1,相反如果不存在则应该接近于0。
在具体实现中,采用基于信息准则的BIC得分函数确定最优网络,搜索过程采用贪婪爬山搜索法,Bootstrap重抽样次数为300次。为了避免陷入局部最优,在搜索过程中结合随机重搜索。通过这个过程尝试寻找在能使得分提高最多的网络结构,直到结构的改变无法继续提高得分为止。一旦爬山法陷入局部最优,将随机扰动网络结构中的边(添加、删除和反向)并重新开始搜索。在重启一定次数后终止搜索,选出得分最高的网络作为结果。最后,根据设定的三个不同的阈值t=0.5、0.7、0.9,将
Figure SMS_38
的所有连接边输出得到最终结果网络。
步骤S303:将所述网络结构对应的所述Bootstrap贝叶斯网络作为目标基因调控网络。
本实施例从TCGA数据库获取多例卵巢癌患者和多例正常人健康对照的基因表达谱数据;获取所述基因表达谱数据中的基因;对所述基因进行置换检验,根据置换检验结果筛选出差异表达基因;然后对所述差异表达基因进行KEGG通路富集分析,获得第一分析基因;再根据所述第一分析基因和贝叶斯网络结构学习构建Bootstrap贝叶斯网络;通过得分函数和预设搜索策略,确定所述Bootstrap贝叶斯网络中得分最高的网络结构;将所述网络结构对应的所述Bootstrap贝叶斯网络作为目标基因调控网络;最后根据所述目标基因调控网络识别肿瘤特征基因。相比于现有技术,本发明通过对数据集有放回地重抽样,然后通过对多个Bootstrap数据集进行学习得出多个网络,采用BIC得分函数,并运用贪婪爬山搜索法(greed hill-climbing)结合随机重搜索确定得分最高的网络结构,避免了陷入局部最优,最后通过置信度估计值确定网络的有效性,有效的实现了通过贝叶斯网络结构学习构建目标基因调控网络反映基因之间的调控关系,进而提高了肿瘤特征基因识别的准确率。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有肿瘤特征基因识别程序,所述肿瘤特征基因识别程序被处理器执行时实现如上文所述的肿瘤特征基因识别方法的步骤。
参照图5,图5为本发明肿瘤特征基因识别装置第一实施例的结构框图。
如图5所示,本发明实施例提出的肿瘤特征基因识别装置包括:获取模块501、分析模块502、构建模块503、识别模块504。
所述获取模块501,用于获取卵巢癌患者和正常人的差异表达基因;
所述分析模块502,用于对所述差异表达基因进行KEGG通路富集分析,获得第一分析基因;
所述构建模块503,用于根据所述第一分析基因和贝叶斯网络结构学习构建目标基因调控网络;
所述识别模块504,用于根据所述目标基因调控网络识别肿瘤特征基因。
本实施例通过获取卵巢癌患者和正常人的差异表达基因;然后对所述差异表达基因进行KEGG通路富集分析,获得第一分析基因;再根据所述第一分析基因和贝叶斯网络结构学习构建目标基因调控网络;最后根据所述目标基因调控网络识别肿瘤特征基因。由于本发明是通过对卵巢癌患者和正常人的差异表达基因进行KEGG通路富集,根据分析结果获得第一分析基因,然后根据第一分析基因和贝叶斯网络结构学习构建目标基因调控网络,再通过目标基因调控网络实现肿瘤特征基因识别,相比于现有技术,本发明通过贝叶斯网络结构学习构建目标基因调控网络反映基因之间的调控关系,进而提高了肿瘤特征基因识别的准确率。
基于本发明上述肿瘤特征基因识别装置第一实施例,提出本发明肿瘤特征基因识别装置的第二实施例。
在本实施例中,所述获取模块501,还用于从TCGA数据库获取多例卵巢癌患者和多例正常人健康对照的基因表达谱数据;根据所述基因表达谱数据筛选出差异表达基因。
所述获取模块501,还用于获取所述基因表达谱数据中的基因;对所述基因进行置换检验,根据置换检验结果筛选出差异表达基因。
本发明肿瘤特征基因识别装置的其他实施例或具体实现方式可参照上述各方法实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器/随机存取存储器、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种肿瘤特征基因识别方法,其特征在于,所述方法包括以下步骤:
获取卵巢癌患者和正常人的差异表达基因;
对所述差异表达基因进行KEGG通路富集分析,获得第一分析基因;
根据所述第一分析基因和贝叶斯网络结构学习构建目标基因调控网络;
根据所述目标基因调控网络识别肿瘤特征基因。
2.如权利要求1所述的方法,其特征在于,所述获取肿瘤患者和正常人的差异表达基因的步骤,具体包括:
从TCGA数据库获取多例卵巢癌患者和多例正常人健康对照的基因表达谱数据;
根据所述基因表达谱数据筛选出差异表达基因。
3.如权利要求2所述的方法,其特征在于,所述根据所述基因表达谱数据筛选差异表达基因的步骤,具体包括:
获取所述基因表达谱数据中的基因;
对所述基因进行置换检验,根据置换检验结果筛选出差异表达基因。
4.如权利要求1所述的方法,其特征在于,所述根据所述第一分析基因和贝叶斯网络结构学习构建目标基因调控网络的步骤,包括:
根据所述第一分析基因和贝叶斯网络结构学习构建Bootstrap贝叶斯网络;
通过得分函数和预设搜索策略,确定所述Bootstrap贝叶斯网络中得分最高的网络结构;
将所述网络结构对应的所述Bootstrap贝叶斯网络作为目标基因调控网络。
5.如权利要求4所述的方法,其特征在于,所述根据所述第一分析基因和贝叶斯网络结构学习构建Bootstrap贝叶斯网络的步骤,具体包括:
通过对所述第一分析基因随机重抽样,获得多个Bootstrap数据集;
对所述Bootstrap数据集进行贝叶斯网络结构学习,获得多个Bootstrap贝叶斯网络。
6.如权利要求4所述的方法,其特征在于,所述通过得分函数和预设搜索策略,确定所述Bootstrap贝叶斯网络中得分最高的网络结构的步骤,包括:
通过得分函数确定所述Bootstrap贝叶斯网络与所述Bootstrap数据集拟合程度最优的网络,并将所述网络作为第一目标网络;
对所述第一目标网络的结构进行贪婪爬山搜索法,并结合随机重搜索确定得分最高的网络结构。
7.如权利要求6所述的方法,其特征在于,所述对所述第一目标网络的结构进行贪婪爬山搜索法,并结合随机重搜索确定得分最高的网络结构的步骤之后,还包括:
获取所述网络结构中任意两节点相连接的概率,并将所述概率作为置信度估计值;
将所述置信度估计值与预设阈值相比较;
根据比较结果,确定目标网络结构。
8.一种肿瘤特征基因识别装置,其特征在于,所述装置包括:
获取模块,用于获取卵巢癌患者和正常人的差异表达基因;
分析模块,用于对所述差异表达基因进行KEGG通路富集分析,获得第一分析基因;
构建模块,用于根据所述第一分析基因和贝叶斯网络结构学习构建目标基因调控网络;
识别模块,用于根据所述目标基因调控网络识别肿瘤特征基因。
9.一种肿瘤特征基因识别设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的肿瘤特征基因识别程序,所述肿瘤特征基因识别程序配置为实现如权利要求1至7中任一项所述的肿瘤特征基因识别方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有肿瘤特征基因识别程序,所述肿瘤特征基因识别程序被处理器执行时实现如权利要求1至7任一项所述的肿瘤特征基因识别方法的步骤。
CN202310054076.1A 2023-02-03 2023-02-03 肿瘤特征基因识别方法、装置、设备及存储介质 Pending CN115798601A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310054076.1A CN115798601A (zh) 2023-02-03 2023-02-03 肿瘤特征基因识别方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310054076.1A CN115798601A (zh) 2023-02-03 2023-02-03 肿瘤特征基因识别方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN115798601A true CN115798601A (zh) 2023-03-14

Family

ID=85429641

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310054076.1A Pending CN115798601A (zh) 2023-02-03 2023-02-03 肿瘤特征基因识别方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115798601A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117409962A (zh) * 2023-12-14 2024-01-16 北京科技大学 一种基于基因调控网络的微生物标记物的筛选方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018089927A1 (en) * 2016-11-11 2018-05-17 University Of Pittsburgh - Of The Commonwealth System Of Higher Education Identification of instance-specific somatic genome alterations with functional impact
CN111899882A (zh) * 2020-08-07 2020-11-06 北京科技大学 一种预测癌症的方法及系统
CN115375640A (zh) * 2022-08-11 2022-11-22 哈尔滨医科大学 一种肿瘤异质性识别方法、装置、电子设备、存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018089927A1 (en) * 2016-11-11 2018-05-17 University Of Pittsburgh - Of The Commonwealth System Of Higher Education Identification of instance-specific somatic genome alterations with functional impact
CN111899882A (zh) * 2020-08-07 2020-11-06 北京科技大学 一种预测癌症的方法及系统
CN115375640A (zh) * 2022-08-11 2022-11-22 哈尔滨医科大学 一种肿瘤异质性识别方法、装置、电子设备、存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李海龙 等: "基于bootstrap方法的贝叶斯网络结构学习算法在构建基因调控网络中的应用" *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117409962A (zh) * 2023-12-14 2024-01-16 北京科技大学 一种基于基因调控网络的微生物标记物的筛选方法
CN117409962B (zh) * 2023-12-14 2024-03-29 北京科技大学 一种基于基因调控网络的微生物标记物的筛选方法

Similar Documents

Publication Publication Date Title
Maleki et al. Gene set analysis: challenges, opportunities, and future research
Tseng Penalized and weighted K-means for clustering with scattered objects and prior information in high-throughput biological data
EP3520006B1 (en) Phenotype/disease specific gene ranking using curated, gene library and network based data structures
Zeng et al. Review of statistical learning methods in integrated omics studies (an integrated information science)
McDermott et al. Challenges in biomarker discovery: combining expert insights with statistical analysis of complex omics data
Dalmasso et al. A simple procedure for estimating the false discovery rate
Nikolsky et al. Functional analysis of OMICs data and small molecule compounds in an integrated “knowledge-based” platform
Lee et al. A graph-theoretic modeling on GO space for biological interpretation of gene clusters
Lee et al. Diffusion kernel-based logistic regression models for protein function prediction
US7660709B2 (en) Bioinformatics research and analysis system and methods associated therewith
JP5464503B2 (ja) 医療分析システム
Tanaka et al. A multi-label approach using binary relevance and decision trees applied to functional genomics
CN108830045B (zh) 一种基于多组学的生物标记物系统筛选方法
Pihur et al. Reconstruction of genetic association networks from microarray data: a partial least squares approach
Maudsley et al. Bioinformatic approaches to metabolic pathways analysis
Liang et al. Dynamic modeling and network approaches for omics time course data: overview of computational approaches and applications
Balasubramanian et al. A graph-theoretic approach to testing associations between disparate sources of functional genomics data
Kasa et al. Gaussian mixture copulas for high-dimensional clustering and dependency-based subtyping
Dubovenko et al. Functional analysis of OMICs data and small molecule compounds in an integrated “knowledge-based” platform
Pham et al. Analysis of microarray gene expression data
CN115798602A (zh) 基因调控网络构建方法、装置、设备及存储介质
Ma et al. Omics informatics: from scattered individual software tools to integrated workflow management systems
CN115335912A (zh) 逆合成相关合成可行性
CN115798601A (zh) 肿瘤特征基因识别方法、装置、设备及存储介质
Li et al. C-DEVA: Detection, evaluation, visualization and annotation of clusters from biological networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20230314