CN115798601A - 肿瘤特征基因识别方法、装置、设备及存储介质 - Google Patents
肿瘤特征基因识别方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN115798601A CN115798601A CN202310054076.1A CN202310054076A CN115798601A CN 115798601 A CN115798601 A CN 115798601A CN 202310054076 A CN202310054076 A CN 202310054076A CN 115798601 A CN115798601 A CN 115798601A
- Authority
- CN
- China
- Prior art keywords
- gene
- network
- genes
- network structure
- analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 243
- 206010028980 Neoplasm Diseases 0.000 title claims abstract description 81
- 238000000034 method Methods 0.000 title claims abstract description 67
- 230000014509 gene expression Effects 0.000 claims abstract description 61
- 230000033228 biological regulation Effects 0.000 claims abstract description 42
- 238000004458 analytical method Methods 0.000 claims abstract description 41
- 206010033128 Ovarian cancer Diseases 0.000 claims abstract description 29
- 206010061535 Ovarian neoplasm Diseases 0.000 claims abstract description 29
- 238000010201 enrichment analysis Methods 0.000 claims abstract description 14
- 230000006870 function Effects 0.000 claims description 21
- 238000012360 testing method Methods 0.000 claims description 14
- 238000012216 screening Methods 0.000 claims description 13
- 238000012952 Resampling Methods 0.000 claims description 6
- 230000001105 regulatory effect Effects 0.000 claims description 6
- 230000009194 climbing Effects 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 4
- 239000012491 analyte Substances 0.000 claims description 3
- 230000008901 benefit Effects 0.000 abstract description 7
- 238000012545 processing Methods 0.000 abstract description 4
- 210000004027 cell Anatomy 0.000 description 17
- 230000008569 process Effects 0.000 description 11
- 230000037361 pathway Effects 0.000 description 8
- 102000004169 proteins and genes Human genes 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000007689 inspection Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000006854 communication Effects 0.000 description 5
- 201000011510 cancer Diseases 0.000 description 4
- 238000002512 chemotherapy Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000001558 permutation test Methods 0.000 description 4
- 239000002299 complementary DNA Substances 0.000 description 3
- 150000001875 compounds Chemical class 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 102000004190 Enzymes Human genes 0.000 description 2
- 108090000790 Enzymes Proteins 0.000 description 2
- 238000000585 Mann–Whitney U test Methods 0.000 description 2
- 230000033077 cellular process Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- NOESYZHRGYRDHS-UHFFFAOYSA-N insulin Chemical compound N1C(=O)C(NC(=O)C(CCC(N)=O)NC(=O)C(CCC(O)=O)NC(=O)C(C(C)C)NC(=O)C(NC(=O)CN)C(C)CC)CSSCC(C(NC(CO)C(=O)NC(CC(C)C)C(=O)NC(CC=2C=CC(O)=CC=2)C(=O)NC(CCC(N)=O)C(=O)NC(CC(C)C)C(=O)NC(CCC(O)=O)C(=O)NC(CC(N)=O)C(=O)NC(CC=2C=CC(O)=CC=2)C(=O)NC(CSSCC(NC(=O)C(C(C)C)NC(=O)C(CC(C)C)NC(=O)C(CC=2C=CC(O)=CC=2)NC(=O)C(CC(C)C)NC(=O)C(C)NC(=O)C(CCC(O)=O)NC(=O)C(C(C)C)NC(=O)C(CC(C)C)NC(=O)C(CC=2NC=NC=2)NC(=O)C(CO)NC(=O)CNC2=O)C(=O)NCC(=O)NC(CCC(O)=O)C(=O)NC(CCCNC(N)=N)C(=O)NCC(=O)NC(CC=3C=CC=CC=3)C(=O)NC(CC=3C=CC=CC=3)C(=O)NC(CC=3C=CC(O)=CC=3)C(=O)NC(C(C)O)C(=O)N3C(CCC3)C(=O)NC(CCCCN)C(=O)NC(C)C(O)=O)C(=O)NC(CC(N)=O)C(O)=O)=O)NC(=O)C(C(C)CC)NC(=O)C(CO)NC(=O)C(C(C)O)NC(=O)C1CSSCC2NC(=O)C(CC(C)C)NC(=O)C(NC(=O)C(CCC(N)=O)NC(=O)C(CC(N)=O)NC(=O)C(NC(=O)C(N)CC=1C=CC=CC=1)C(C)C)CC1=CN=CN1 NOESYZHRGYRDHS-UHFFFAOYSA-N 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 102000009027 Albumins Human genes 0.000 description 1
- 108010088751 Albumins Proteins 0.000 description 1
- 208000009849 Female Genital Neoplasms Diseases 0.000 description 1
- 102100021519 Hemoglobin subunit beta Human genes 0.000 description 1
- 108091005904 Hemoglobin subunit beta Proteins 0.000 description 1
- 102000004877 Insulin Human genes 0.000 description 1
- 108090001061 Insulin Proteins 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 210000003719 b-lymphocyte Anatomy 0.000 description 1
- 238000003766 bioinformatics method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000003197 catalytic effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000011223 gene expression profiling Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010832 independent-sample T-test Methods 0.000 description 1
- 238000011337 individualized treatment Methods 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 229940125396 insulin Drugs 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 210000004185 liver Anatomy 0.000 description 1
- 108020004999 messenger RNA Proteins 0.000 description 1
- 230000037353 metabolic pathway Effects 0.000 description 1
- 230000004060 metabolic process Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004001 molecular interaction Effects 0.000 description 1
- 210000003924 normoblast Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000004393 prognosis Methods 0.000 description 1
- 230000006916 protein interaction Effects 0.000 description 1
- 238000004451 qualitative analysis Methods 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012353 t test Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
- 210000004881 tumor cell Anatomy 0.000 description 1
Images
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明涉及数据处理技术领域,公开了一种肿瘤特征基因识别方法、装置、设备及存储介质,该方法包括:获取卵巢癌患者和正常人的差异表达基因;对差异表达基因进行KEGG通路富集分析,获得第一分析基因;根据第一分析基因和贝叶斯网络结构学习构建目标基因调控网络;根据目标基因调控网络识别肿瘤特征基因。由于本发明是通过对卵巢癌患者和正常人的差异表达基因进行KEGG通路富集,根据分析结果获得第一分析基因,然后根据贝叶斯网络结构学习构建目标基因调控网络,再通过目标基因调控网络实现肿瘤特征基因识别,相比于现有技术,本发明通过贝叶斯网络结构学习构建目标基因调控网络反映基因之间的调控关系,进而提高了肿瘤特征基因识别的准确率。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种肿瘤特征基因识别方法、装置、设备及存储介质。
背景技术
卵巢癌是临床上常见的妇科癌症,由于卵巢癌患者确诊时往往已是癌症晚期,因此卵巢癌的病死率较高,在妇科肿瘤中排首位。大多数患者在化疗初期取得良好的效果,但是在接下来的治疗中患者常出现不同程度的抗化疗反应。因此,迫切需要研究卵巢癌化疗敏感性的内在机制,这是实现卵巢癌患者个体化治疗以及改善患者预后的关键。对高通量组学数据进行分析能揭示化疗敏感性的潜在机制,但是传统的统计学方法不适于对其分析。
目前贝叶斯网络作为一种概率图形模型,具有发现变量间依赖关系的能力,是揭示疾病潜在机制的有效工具。贝叶斯网络结构学习的方法可以分为基于约束的算法、搜索得分算法。基于约束的算法其独立性检验依赖于事先设定的显著性水平,并且搜索过程中的前一步的误差将会为接下来的学习带来层叠效益,整体误差逐渐增加,得出的结构也逐渐偏离真实结构。另外,高阶的独立性检验需要较大的样本量。而对于高维组学数据,样本量往往不足以得出可靠的高阶独立性检验结果,这将会大大提高结果的假阳性而导致所预测的生物学网络准确性降低。搜索得分算法虽然能灵活地处理数据集中的缺失值,并且能识别出一些基于约束的算法无法得到的结构。然而该算法的缺点是学习速度相对较慢,尤其当网络结构规模变大时,可能的结构数量将随着节点数量的增加呈指数级增长。
因此,亟需一种肿瘤特征基因识别方法,解决现有技术中如何通过贝叶斯网络提高肿瘤特征基因识别准确率的技术问题。
发明内容
本发明的主要目的在于提供了一种肿瘤特征基因识别方法、装置、设备及存储介质,旨在解决现有技术中如何通过贝叶斯网络提高肿瘤特征基因识别准确率的技术问题。
为实现上述目的,本发明提供了一种肿瘤特征基因识别方法,所述方法包括以下步骤:
获取卵巢癌患者和正常人的差异表达基因;
对所述差异表达基因进行KEGG通路富集分析,获得第一分析基因;
根据所述第一分析基因和贝叶斯网络结构学习构建目标基因调控网络;
根据所述目标基因调控网络识别肿瘤特征基因。
可选地,所述获取肿瘤患者和正常人的差异表达基因的步骤,具体包括:
从TCGA数据库获取多例卵巢癌患者和多例正常人健康对照的基因表达谱数据;
根据所述基因表达谱数据筛选出差异表达基因。
可选地,所述根据所述基因表达谱数据筛选差异表达基因的步骤,具体包括:
获取所述基因表达谱数据中的基因;
对所述基因进行置换检验,根据置换检验结果筛选出差异表达基因。
可选地,所述根据所述第一分析基因和贝叶斯网络结构学习构建目标基因调控网络的步骤,包括:
根据所述第一分析基因和贝叶斯网络结构学习构建Bootstrap贝叶斯网络;
通过得分函数和预设搜索策略,确定所述Bootstrap贝叶斯网络中得分最高的网络结构;
将所述网络结构对应的所述Bootstrap贝叶斯网络作为目标基因调控网络。
可选地,所述根据所述第一分析基因和贝叶斯网络结构学习构建Bootstrap贝叶斯网络的步骤,具体包括:
通过对所述第一分析基因随机重抽样,获得多个Bootstrap数据集;
对所述Bootstrap数据集进行贝叶斯网络结构学习,获得多个Bootstrap贝叶斯网络。
可选地,所述通过得分函数和预设搜索策略,确定所述Bootstrap贝叶斯网络中得分最高的网络结构的步骤,包括:
通过得分函数确定所述Bootstrap贝叶斯网络与所述Bootstrap数据集拟合程度最优的网络,并将所述网络作为第一目标网络;
对所述第一目标网络的结构进行贪婪爬山搜索法,并结合随机重搜索确定得分最高的网络结构。
可选地,所述对所述第一目标网络的结构进行贪婪爬山搜索法,并结合随机重搜索确定得分最高的网络结构的步骤之后,还包括:
获取所述网络结构中任意两节点相连接的概率,并将所述概率作为置信度估计值;
将所述置信度估计值与预设阈值相比较;
根据比较结果,确定目标网络结构。
此外,为实现上述目的,本发明还提出一种肿瘤特征基因识别装置,所述装置包括:
获取模块,用于获取卵巢癌患者和正常人的差异表达基因;
分析模块,用于对所述差异表达基因进行KEGG通路富集分析,获得第一分析基因;
构建模块,用于根据所述第一分析基因和贝叶斯网络结构学习构建目标基因调控网络;
识别模块,用于根据所述目标基因调控网络识别肿瘤特征基因。
此外,为实现上述目的,本发明还提出一种肿瘤特征基因识别设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的肿瘤特征基因识别程序,所述肿瘤特征基因识别程序配置为实现如上文所述的肿瘤特征基因识别方法的步骤。
此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有肿瘤特征基因识别程序,所述肿瘤特征基因识别程序被处理器执行时实现如上文所述的肿瘤特征基因识别方法的步骤。
本发明通过获取卵巢癌患者和正常人的差异表达基因;对所述差异表达基因进行KEGG通路富集分析,获得第一分析基因;根据所述第一分析基因和贝叶斯网络结构学习构建目标基因调控网络;根据所述目标基因调控网络识别肿瘤特征基因。由于本发明是通过对卵巢癌患者和正常人的差异表达基因进行KEGG通路富集,根据分析结果获得第一分析基因,然后根据第一分析基因和贝叶斯网络结构学习构建目标基因调控网络,再通过目标基因调控网络实现肿瘤特征基因识别,相比于现有技术,本发明通过贝叶斯网络结构学习构建目标基因调控网络反映基因之间的调控关系,进而提高了肿瘤特征基因识别的准确率。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的肿瘤特征基因识别设备的结构示意图;
图2为本发明肿瘤特征基因识别方法第一实施例的流程示意图;
图3为本发明肿瘤特征基因识别方法第二实施例的流程示意图;
图4为本发明肿瘤特征基因识别方法第三实施例的流程示意图;
图5为本发明肿瘤特征基因识别装置第一实施例的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的肿瘤特征基因识别设备结构示意图。
如图1所示,该肿瘤特征基因识别设备可以包括:处理器1001,例如中央处理器(CentralProcessing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(Wireless-Fidelity,WI-FI)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory,RAM),也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对肿瘤特征基因识别设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及肿瘤特征基因识别程序。
在图1所示的肿瘤特征基因识别设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明肿瘤特征基因识别设备中的处理器1001、存储器1005可以设置在肿瘤特征基因识别设备中,所述肿瘤特征基因识别设备通过处理器1001调用存储器1005中存储的肿瘤特征基因识别程序,并执行本发明实施例提供的肿瘤特征基因识别方法。
本发明实施例提供了一种肿瘤特征基因识别方法,参照图2,图2为本发明肿瘤特征基因识别方法第一实施例的流程示意图。
本实施例中,所述肿瘤特征基因识别方法包括以下步骤:
步骤S10:获取卵巢癌患者和正常人的差异表达基因。
需要说明的是,需要说明的是,本实施例的执行主体可以是一种具有数据处理以及程序运行功能的计算服务设备,例如平板电脑、个人电脑等,或者是一种能够实现相同或相似功能的电子设备,例如上述图1所示的肿瘤特征基因识别设备等。以下以肿瘤特征基因识别设备为例,对本实施例及下述各实施例进行举例说明。
应理解的是,若获取的基因样本数量少,网络结构学习的结果可能会存在偶然性,因此需要样本的数目越多,网络的结构学习就越准确。
可理解的是,获取卵巢癌患者和正常人的差异表达基因之前,需要先分别获取卵巢癌患者的基因表达值和正常人的基因表达值,可以从特定的数据库或者网络中获取巢癌患者和正常人的基因表达谱数据,然后根据基因表达谱数据测得卵巢癌患者和正常人的基因表达值。
进一步地,根据根据基因表达谱数据测得卵巢癌患者和正常人的基因表达值确定卵巢癌患者和正常人的差异表达基因。
需要解释的是,差异表达基因是指在不同的细胞或同一细胞的不同发育阶段,细胞表达的特定的基因,因而产生了特定的蛋白质,从而导致细胞在形态、结构和功能上的差异。基因差异表达的结果使不同细胞产生了特有的蛋白质,例如:奢侈蛋白(luxuryprotein),如成红细胞的β珠蛋白、胰岛B-细胞中的胰岛素、肝实质细胞的白蛋白等。
步骤S20:对所述差异表达基因进行KEGG通路富集分析,获得第一分析基因。
需要说明的是,KEGG(京都基因和基因组百科全书)数据库是日本京都大学生物信息学中心的Kanehisa实验室于1995年建立了的生物信息学数据库。现在是基因组测序和其他高通量实验技术产生的大规模分子数据集的整合和解释的重要生物信息数据参考知识库。KEGG是一个整合了基因组、化学和系统功能信息的数据库。其中最核心的为 KEGGPATHWAY和KEGG ORTHOLOGY 数据库。而在 KEGG PATHWAY 数据库中,将生物代谢通路划分为 6 类,分别为:细胞过程、环境信息处理、遗传信息处理、人类疾病、新陈代谢、生物体系统。
需要解释的是,通路富集分析对实验结果有提示的作用,通过差异基因的通路分析,可以得到与主流表达趋势相关的所有基因参与的显著、靶向的通路,寻找不同样品的差异基因可能和哪些细胞通路的改变有关,同时将上下调的差异基因映射到每一个通路上,进而定位关键通路的关键基因。
KEGG作为参考知识库,可以用于预测各种细胞过程的蛋白质相互作用网络,整合了当前关于分子相互作用网络的知识,如路径和复合物,以及关于基因组计划产生的基因和蛋白质的信息(GENES / SSDB / KO数据库)和有关生化化合物和反应的信息。因此在生物信息学分析过程中,KEGG通路富集分析常常应用于差异表达基因的功能注释,了解差异表达基因的相关功能与作用通路。
进一步地,通路是以图的形式来表示的,节点代表不同的分子(蛋白质、化合物、酶等),边代表节点之间不同的关系,如激活、抑制等,这些边往往代表一些酶的催化作用,这些酶根据不同的实验条件由一个或者多个基因编译而成。由于这些通路都以图的形式表示,因此很容易从中提取出基因网络、化合物和蛋白质网络。
步骤S30:根据所述第一分析基因和贝叶斯网络结构学习构建目标基因调控网络。
需要解释的是,贝叶斯网络又称信度网络,是Bayes方法的扩展,是目前不确定知识表达和推理领域最有效的理论模型之一。一个贝叶斯网络是一个有向无环图,由代表变量结点及连接这些结点有向边构成。结点代表随机变量,结点间的有向边代表了结点间的互相关系(由父结点指向其子结点),用条件概率进行表达关系强度,没有父结点的用先验概率进行信息表达。
进一步地,贝叶斯网络结构学习就是从给定的数据集中学出贝叶斯网络结构,即各节点之间的依赖关系;只有确定了结构才能继续学得网络参数,即表示各节点之间依赖强弱的条件概率。
可理解的是,基因调控网络,简称调控网络是一个抽象概念,指细胞内(或特定一个基因组内)基因和基因之间的相互作用关系所形成的网络。
目标基因调控网络可以以网络图形的表现方式直观地展示基因之间的调控关系,并能给出条件概率解释这种关系的强度,从而实现根据基因之间的调控关系识别肿瘤特征基因。
步骤S40:根据所述目标基因调控网络识别肿瘤特征基因。
本实施例通过获取卵巢癌患者和正常人的差异表达基因;然后对所述差异表达基因进行KEGG通路富集分析,获得第一分析基因;再根据所述第一分析基因和贝叶斯网络结构学习构建目标基因调控网络;最后根据所述目标基因调控网络识别肿瘤特征基因。由于本发明是通过对卵巢癌患者和正常人的差异表达基因进行KEGG通路富集,根据分析结果获得第一分析基因,然后根据第一分析基因和贝叶斯网络结构学习构建目标基因调控网络,再通过目标基因调控网络实现肿瘤特征基因识别,相比于现有技术,本发明通过贝叶斯网络结构学习构建目标基因调控网络反映基因之间的调控关系,进而提高了肿瘤特征基因识别的准确率。
参考图3,图3为本发明肿瘤特征基因识别方法第二实施例的流程示意图。
基于上述第一实施例,在本实施例中,所述步骤S10,具体包括:
步骤S101:从TCGA数据库获取多例卵巢癌患者和多例正常人健康对照的基因表达谱数据。
需要解释的是,TCGA数据库是由National Cancer Institute ( NCI,美国国家癌症研究所) 和 National Human Genome Research Institute(NHGRI,国家人类基因组研究所) 合作建立的癌症研究项目(Cancer Genome Atlas,TCGA),通过收集整理癌症相关的各种组学数据,提供了一个大型的、免费的癌症研究参考数据库。
基因表达谱(gene expression profile)是指构建处于某一特定状态下的细胞或组织的非偏性cDNA文库,通过大规模的cDNA测序,收集cDNA序列片段、定性、定量分析其mRNA群体组成,从而描绘该特定细胞或组织在特定状态下的基因表达种类和丰度信息,这样编制成的数据表就称为基因表达谱。
步骤S102:根据所述基因表达谱数据筛选出差异表达基因。
进一步地,为了能提高建模的效率,同时使后续构建的网络更加合理,步骤S102,具体包括:
步骤S1021:获取所述基因表达谱数据中的基因。
步骤S1022:对所述基因进行置换检验,根据置换检验结果筛选出差异表达基因。
需要说明的是,基因表达谱代表了细胞中基因表达的状况。通过比较肿瘤细胞和相应正常组织细胞的基因表达谱所获得的信息,就可获得在肿瘤和正常细胞中差异表达基因。
可理解的是,差异表达基因是指在不同的细胞或同一细胞的不同发育阶段,细胞表达的特定的基因,因而产生了特定的蛋白质,从而导致细胞在形态、结构和功能上的差异。上述差异表达基因是指与卵巢癌相关的基因。
需要解释的是,上述置换检验可以是使用基于Wilcoxon秩和检验的置换检验,可以是使用基于两独立样本t检验的置换检验,也可以是其他置换检验的方法,本实施例对此不加以限制。
例如,在具体实现中,可以对基因表达谱获取的基因使用基于Wilcoxon秩和检验的置换检验或使用基于两独立样本t检验的置换检验,进行1000次置换,根据置换检验的结果筛选出符合预设条件的差异表达基因。
本实施例从TCGA数据库获取多例卵巢癌患者和多例正常人健康对照的基因表达谱数据;获取所述基因表达谱数据中的基因;对所述基因进行置换检验,根据置换检验结果筛选出差异表达基因;然后对所述差异表达基因进行KEGG通路富集分析,获得第一分析基因;再根据所述第一分析基因和贝叶斯网络结构学习构建目标基因调控网络;最后根据所述目标基因调控网络识别肿瘤特征基因。由于本发明是通过从TCGA数据库获取多例卵巢癌患者和多例正常人健康对照的基因表达谱数据;然后获取所述基因表达谱数据中的基因;对所述基因进行置换检验,根据置换检验结果筛选出差异表达基因,然后对差异表达基因进行KEGG通路富集,根据分析结果获得第一分析基因,然后根据第一分析基因和贝叶斯网络结构学习构建目标基因调控网络,再通过目标基因调控网络实现肿瘤特征基因识别,相比于现有技术,本发明通过贝叶斯网络结构学习构建目标基因调控网络反映基因之间的调控关系,进而提高了肿瘤特征基因识别的准确率。
参考图4,图4为本发明肿瘤特征基因识别方法第三实施例的流程示意图。
基于上述各实施例,在本实施例中,所述步骤S30,包括:
步骤S301:根据所述第一分析基因和贝叶斯网络结构学习构建Bootstrap贝叶斯网络。
需要说明的是,为了有效提高肿瘤特征基因识别的准确率,减少随机误差,步骤S301构建Bootstrap贝叶斯网络具体包括:
步骤S3011:通过对所述第一分析基因随机重抽样,获得多个Bootstrap数据集。
可理解的是,随机重抽样是根据随机性原则,从总体单位中抽取部分单位作为样本进行调查,以其结果推断总体有关指标的一种抽样方法。通过对所述第一分析基因进行随机重抽样可以减少随机误差,提高肿瘤特征基因识别的准确率。
步骤S3012:对所述Bootstrap数据集进行贝叶斯网络结构学习,获得多个Bootstrap贝叶斯网络。
需要解释的是,贝叶斯网络是一个有向无环图,可以表示成一组随机变量的联合概率分布。形式上一组随机变量的贝叶斯网络可以用表示,其中第一个成分表示一个有向无环图,图中节点代表随机变量,节点之间的边代表变量之间的直接依赖关系。第二个成分,代表一组量化网络的参数,,以条件概率分布的形式表示,即,其中表示变量在图中的父节点集。贝叶斯网络给一组变量定义的联合概率分布可以表示为:
贝叶斯网络结构学习可以归结为:对于给定的数据训练集,寻找一个网络使之能与数据集最匹配。贝叶斯网络结构学习就是从给定的数据集中学出贝叶斯网络结构,即各节点之间的依赖关系;只有确定了结构才能继续学得网络参数,即表示各节点之间依赖强弱的条件概率。
步骤S302:通过得分函数和预设搜索策略,确定所述Bootstrap贝叶斯网络中得分最高的网络结构。
需要说明的是,得分函数可以衡量评价网络结构与数据的匹配程度,按其基本原理可以分为两大类:第一类,带惩罚项的似然函数,如Akaike信息准则(Akaike’sinformation criteria, AIC)和贝叶斯信息准则(bayesian information criteria,BIC),第二类,贝叶斯得分函数,如BDe得分(bayesian dirichlet equivalent, BDe)。
预设搜索策略可以贪婪爬山搜索法,并结合随机重搜索的搜索策略。
需要解释的是,步骤S302确定得分最高的网络结构具体包括:
步骤S3021:通过得分函数确定所述Bootstrap贝叶斯网络与所述Bootstrap数据集拟合程度最优的网络,并将所述网络作为第一目标网络。
步骤S3022:对所述第一目标网络的结构进行贪婪爬山搜索法,并结合随机重搜索确定得分最高的网络结构。
在具体实现中,采用BIC得分函数,并运用贪婪爬山搜索法(greed hill-climbing)结合随机重搜索确定得分最高的网络结构,这种方法能够避免陷入局部最优。
网络的拟合程度使用BIC准则确定,BIC得分越大,构建的网络越好,其计算公式为
式中N为数据的总例数,d为网络的参数个数。
需要说明的是,为了提高肿瘤特征基因识别准确率,确定得分最高的网络结构之后,还包括:
获取所述网络结构中任意两节点相连接的概率,并将所述概率作为置信度估计值;将所述置信度估计值与预设阈值相比较;根据比较结果,确定目标网络结构。
表示贝叶斯网络中抽到一个任意两节点是否相连网络的概率。如果结构学习过程一致,则希望当样本量足够大时,会收敛于。也就是说,如果真实网络结构中确实存在节点相连特征,则它的置信度应该接近1,相反如果不存在则应该接近于0。
在具体实现中,采用基于信息准则的BIC得分函数确定最优网络,搜索过程采用贪婪爬山搜索法,Bootstrap重抽样次数为300次。为了避免陷入局部最优,在搜索过程中结合随机重搜索。通过这个过程尝试寻找在能使得分提高最多的网络结构,直到结构的改变无法继续提高得分为止。一旦爬山法陷入局部最优,将随机扰动网络结构中的边(添加、删除和反向)并重新开始搜索。在重启一定次数后终止搜索,选出得分最高的网络作为结果。最后,根据设定的三个不同的阈值t=0.5、0.7、0.9,将的所有连接边输出得到最终结果网络。
步骤S303:将所述网络结构对应的所述Bootstrap贝叶斯网络作为目标基因调控网络。
本实施例从TCGA数据库获取多例卵巢癌患者和多例正常人健康对照的基因表达谱数据;获取所述基因表达谱数据中的基因;对所述基因进行置换检验,根据置换检验结果筛选出差异表达基因;然后对所述差异表达基因进行KEGG通路富集分析,获得第一分析基因;再根据所述第一分析基因和贝叶斯网络结构学习构建Bootstrap贝叶斯网络;通过得分函数和预设搜索策略,确定所述Bootstrap贝叶斯网络中得分最高的网络结构;将所述网络结构对应的所述Bootstrap贝叶斯网络作为目标基因调控网络;最后根据所述目标基因调控网络识别肿瘤特征基因。相比于现有技术,本发明通过对数据集有放回地重抽样,然后通过对多个Bootstrap数据集进行学习得出多个网络,采用BIC得分函数,并运用贪婪爬山搜索法(greed hill-climbing)结合随机重搜索确定得分最高的网络结构,避免了陷入局部最优,最后通过置信度估计值确定网络的有效性,有效的实现了通过贝叶斯网络结构学习构建目标基因调控网络反映基因之间的调控关系,进而提高了肿瘤特征基因识别的准确率。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有肿瘤特征基因识别程序,所述肿瘤特征基因识别程序被处理器执行时实现如上文所述的肿瘤特征基因识别方法的步骤。
参照图5,图5为本发明肿瘤特征基因识别装置第一实施例的结构框图。
如图5所示,本发明实施例提出的肿瘤特征基因识别装置包括:获取模块501、分析模块502、构建模块503、识别模块504。
所述获取模块501,用于获取卵巢癌患者和正常人的差异表达基因;
所述分析模块502,用于对所述差异表达基因进行KEGG通路富集分析,获得第一分析基因;
所述构建模块503,用于根据所述第一分析基因和贝叶斯网络结构学习构建目标基因调控网络;
所述识别模块504,用于根据所述目标基因调控网络识别肿瘤特征基因。
本实施例通过获取卵巢癌患者和正常人的差异表达基因;然后对所述差异表达基因进行KEGG通路富集分析,获得第一分析基因;再根据所述第一分析基因和贝叶斯网络结构学习构建目标基因调控网络;最后根据所述目标基因调控网络识别肿瘤特征基因。由于本发明是通过对卵巢癌患者和正常人的差异表达基因进行KEGG通路富集,根据分析结果获得第一分析基因,然后根据第一分析基因和贝叶斯网络结构学习构建目标基因调控网络,再通过目标基因调控网络实现肿瘤特征基因识别,相比于现有技术,本发明通过贝叶斯网络结构学习构建目标基因调控网络反映基因之间的调控关系,进而提高了肿瘤特征基因识别的准确率。
基于本发明上述肿瘤特征基因识别装置第一实施例,提出本发明肿瘤特征基因识别装置的第二实施例。
在本实施例中,所述获取模块501,还用于从TCGA数据库获取多例卵巢癌患者和多例正常人健康对照的基因表达谱数据;根据所述基因表达谱数据筛选出差异表达基因。
所述获取模块501,还用于获取所述基因表达谱数据中的基因;对所述基因进行置换检验,根据置换检验结果筛选出差异表达基因。
本发明肿瘤特征基因识别装置的其他实施例或具体实现方式可参照上述各方法实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器/随机存取存储器、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种肿瘤特征基因识别方法,其特征在于,所述方法包括以下步骤:
获取卵巢癌患者和正常人的差异表达基因;
对所述差异表达基因进行KEGG通路富集分析,获得第一分析基因;
根据所述第一分析基因和贝叶斯网络结构学习构建目标基因调控网络;
根据所述目标基因调控网络识别肿瘤特征基因。
2.如权利要求1所述的方法,其特征在于,所述获取肿瘤患者和正常人的差异表达基因的步骤,具体包括:
从TCGA数据库获取多例卵巢癌患者和多例正常人健康对照的基因表达谱数据;
根据所述基因表达谱数据筛选出差异表达基因。
3.如权利要求2所述的方法,其特征在于,所述根据所述基因表达谱数据筛选差异表达基因的步骤,具体包括:
获取所述基因表达谱数据中的基因;
对所述基因进行置换检验,根据置换检验结果筛选出差异表达基因。
4.如权利要求1所述的方法,其特征在于,所述根据所述第一分析基因和贝叶斯网络结构学习构建目标基因调控网络的步骤,包括:
根据所述第一分析基因和贝叶斯网络结构学习构建Bootstrap贝叶斯网络;
通过得分函数和预设搜索策略,确定所述Bootstrap贝叶斯网络中得分最高的网络结构;
将所述网络结构对应的所述Bootstrap贝叶斯网络作为目标基因调控网络。
5.如权利要求4所述的方法,其特征在于,所述根据所述第一分析基因和贝叶斯网络结构学习构建Bootstrap贝叶斯网络的步骤,具体包括:
通过对所述第一分析基因随机重抽样,获得多个Bootstrap数据集;
对所述Bootstrap数据集进行贝叶斯网络结构学习,获得多个Bootstrap贝叶斯网络。
6.如权利要求4所述的方法,其特征在于,所述通过得分函数和预设搜索策略,确定所述Bootstrap贝叶斯网络中得分最高的网络结构的步骤,包括:
通过得分函数确定所述Bootstrap贝叶斯网络与所述Bootstrap数据集拟合程度最优的网络,并将所述网络作为第一目标网络;
对所述第一目标网络的结构进行贪婪爬山搜索法,并结合随机重搜索确定得分最高的网络结构。
7.如权利要求6所述的方法,其特征在于,所述对所述第一目标网络的结构进行贪婪爬山搜索法,并结合随机重搜索确定得分最高的网络结构的步骤之后,还包括:
获取所述网络结构中任意两节点相连接的概率,并将所述概率作为置信度估计值;
将所述置信度估计值与预设阈值相比较;
根据比较结果,确定目标网络结构。
8.一种肿瘤特征基因识别装置,其特征在于,所述装置包括:
获取模块,用于获取卵巢癌患者和正常人的差异表达基因;
分析模块,用于对所述差异表达基因进行KEGG通路富集分析,获得第一分析基因;
构建模块,用于根据所述第一分析基因和贝叶斯网络结构学习构建目标基因调控网络;
识别模块,用于根据所述目标基因调控网络识别肿瘤特征基因。
9.一种肿瘤特征基因识别设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的肿瘤特征基因识别程序,所述肿瘤特征基因识别程序配置为实现如权利要求1至7中任一项所述的肿瘤特征基因识别方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有肿瘤特征基因识别程序,所述肿瘤特征基因识别程序被处理器执行时实现如权利要求1至7任一项所述的肿瘤特征基因识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310054076.1A CN115798601A (zh) | 2023-02-03 | 2023-02-03 | 肿瘤特征基因识别方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310054076.1A CN115798601A (zh) | 2023-02-03 | 2023-02-03 | 肿瘤特征基因识别方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115798601A true CN115798601A (zh) | 2023-03-14 |
Family
ID=85429641
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310054076.1A Pending CN115798601A (zh) | 2023-02-03 | 2023-02-03 | 肿瘤特征基因识别方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115798601A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117409962A (zh) * | 2023-12-14 | 2024-01-16 | 北京科技大学 | 一种基于基因调控网络的微生物标记物的筛选方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018089927A1 (en) * | 2016-11-11 | 2018-05-17 | University Of Pittsburgh - Of The Commonwealth System Of Higher Education | Identification of instance-specific somatic genome alterations with functional impact |
CN111899882A (zh) * | 2020-08-07 | 2020-11-06 | 北京科技大学 | 一种预测癌症的方法及系统 |
CN115375640A (zh) * | 2022-08-11 | 2022-11-22 | 哈尔滨医科大学 | 一种肿瘤异质性识别方法、装置、电子设备、存储介质 |
-
2023
- 2023-02-03 CN CN202310054076.1A patent/CN115798601A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018089927A1 (en) * | 2016-11-11 | 2018-05-17 | University Of Pittsburgh - Of The Commonwealth System Of Higher Education | Identification of instance-specific somatic genome alterations with functional impact |
CN111899882A (zh) * | 2020-08-07 | 2020-11-06 | 北京科技大学 | 一种预测癌症的方法及系统 |
CN115375640A (zh) * | 2022-08-11 | 2022-11-22 | 哈尔滨医科大学 | 一种肿瘤异质性识别方法、装置、电子设备、存储介质 |
Non-Patent Citations (1)
Title |
---|
李海龙 等: "基于bootstrap方法的贝叶斯网络结构学习算法在构建基因调控网络中的应用" * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117409962A (zh) * | 2023-12-14 | 2024-01-16 | 北京科技大学 | 一种基于基因调控网络的微生物标记物的筛选方法 |
CN117409962B (zh) * | 2023-12-14 | 2024-03-29 | 北京科技大学 | 一种基于基因调控网络的微生物标记物的筛选方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Maleki et al. | Gene set analysis: challenges, opportunities, and future research | |
Tseng | Penalized and weighted K-means for clustering with scattered objects and prior information in high-throughput biological data | |
EP3520006B1 (en) | Phenotype/disease specific gene ranking using curated, gene library and network based data structures | |
Zeng et al. | Review of statistical learning methods in integrated omics studies (an integrated information science) | |
McDermott et al. | Challenges in biomarker discovery: combining expert insights with statistical analysis of complex omics data | |
Dalmasso et al. | A simple procedure for estimating the false discovery rate | |
Nikolsky et al. | Functional analysis of OMICs data and small molecule compounds in an integrated “knowledge-based” platform | |
Lee et al. | A graph-theoretic modeling on GO space for biological interpretation of gene clusters | |
Lee et al. | Diffusion kernel-based logistic regression models for protein function prediction | |
US7660709B2 (en) | Bioinformatics research and analysis system and methods associated therewith | |
JP5464503B2 (ja) | 医療分析システム | |
Tanaka et al. | A multi-label approach using binary relevance and decision trees applied to functional genomics | |
CN108830045B (zh) | 一种基于多组学的生物标记物系统筛选方法 | |
Pihur et al. | Reconstruction of genetic association networks from microarray data: a partial least squares approach | |
Maudsley et al. | Bioinformatic approaches to metabolic pathways analysis | |
Liang et al. | Dynamic modeling and network approaches for omics time course data: overview of computational approaches and applications | |
Balasubramanian et al. | A graph-theoretic approach to testing associations between disparate sources of functional genomics data | |
Kasa et al. | Gaussian mixture copulas for high-dimensional clustering and dependency-based subtyping | |
Dubovenko et al. | Functional analysis of OMICs data and small molecule compounds in an integrated “knowledge-based” platform | |
Pham et al. | Analysis of microarray gene expression data | |
CN115798602A (zh) | 基因调控网络构建方法、装置、设备及存储介质 | |
Ma et al. | Omics informatics: from scattered individual software tools to integrated workflow management systems | |
CN115335912A (zh) | 逆合成相关合成可行性 | |
CN115798601A (zh) | 肿瘤特征基因识别方法、装置、设备及存储介质 | |
Li et al. | C-DEVA: Detection, evaluation, visualization and annotation of clusters from biological networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20230314 |