CN113870948A - 影响医学结局变量关键分子的筛选方法、系统、终端和存储介质 - Google Patents
影响医学结局变量关键分子的筛选方法、系统、终端和存储介质 Download PDFInfo
- Publication number
- CN113870948A CN113870948A CN202110961035.1A CN202110961035A CN113870948A CN 113870948 A CN113870948 A CN 113870948A CN 202110961035 A CN202110961035 A CN 202110961035A CN 113870948 A CN113870948 A CN 113870948A
- Authority
- CN
- China
- Prior art keywords
- key molecules
- medicine
- outcome variables
- screening
- sampling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012216 screening Methods 0.000 title claims abstract description 47
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000005070 sampling Methods 0.000 claims abstract description 59
- 239000003814 drug Substances 0.000 claims abstract description 54
- 230000006870 function Effects 0.000 claims description 27
- 238000000611 regression analysis Methods 0.000 claims description 27
- 108090000623 proteins and genes Proteins 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000007477 logistic regression Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 8
- 102000004169 proteins and genes Human genes 0.000 claims description 7
- 230000007717 exclusion Effects 0.000 claims description 5
- 238000001325 log-rank test Methods 0.000 claims description 5
- 230000036962 time dependent Effects 0.000 claims description 5
- 238000013517 stratification Methods 0.000 claims description 3
- 238000012800 visualization Methods 0.000 claims description 2
- 238000012165 high-throughput sequencing Methods 0.000 abstract description 13
- 238000012163 sequencing technique Methods 0.000 abstract description 10
- 230000009467 reduction Effects 0.000 abstract description 7
- 238000004422 calculation algorithm Methods 0.000 abstract description 6
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 238000006243 chemical reaction Methods 0.000 abstract description 2
- 238000011156 evaluation Methods 0.000 abstract description 2
- 108091027963 non-coding RNA Proteins 0.000 description 9
- 102000042567 non-coding RNA Human genes 0.000 description 9
- 208000006990 cholangiocarcinoma Diseases 0.000 description 7
- 206010004593 Bile duct cancer Diseases 0.000 description 6
- 206010028980 Neoplasm Diseases 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 6
- 208000026900 bile duct neoplasm Diseases 0.000 description 6
- 230000004083 survival effect Effects 0.000 description 6
- 230000014509 gene expression Effects 0.000 description 5
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 4
- 108020004414 DNA Proteins 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 108010026552 Proteome Proteins 0.000 description 2
- 101001037160 Xenopus laevis Homeobox protein Hox-D1 Proteins 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 208000005623 Carcinogenesis Diseases 0.000 description 1
- 206010061819 Disease recurrence Diseases 0.000 description 1
- 108091046869 Telomeric non-coding RNA Proteins 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 201000009036 biliary tract cancer Diseases 0.000 description 1
- 208000020790 biliary tract neoplasm Diseases 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 230000036952 cancer formation Effects 0.000 description 1
- 231100000504 carcinogenesis Toxicity 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000012268 genome sequencing Methods 0.000 description 1
- 101150044508 key gene Proteins 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Biotechnology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Genetics & Genomics (AREA)
- Computational Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Operations Research (AREA)
- Artificial Intelligence (AREA)
- Epidemiology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioethics (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本申请提供了一种影响医学结局变量关键分子的筛选方法、系统、智能终端和计算机可读存储介质。本申请基于多次有放回分层随机取样的回归算法,能够实现高通测序数据的降维,进而精准地筛选出在高通量测序数据中对特定的结局变量有显著影响的关键分子。除此之外,本申请还提供了一种评价回归模型稳定性的方法,实现了关键分子的稳定性评价,即通过计算自变量x的稳定系数γ来评价自变量对结局变量影响的稳定性大小,实现了关键分子影响稳定性的量化,该方法简洁有效,实用性强。本申请的技术方案有助于解决医学中回归模型不稳定且重复性差的技术难题,并提高高通量测序大数据的临床转化效率。
Description
技术领域
本发明涉及高通量测序领域,特别是涉及一种基于高通量测序数据筛选影响医学中的结局变量的关键分子的算法。
背景技术
随着高通量测序技术(High-throughput sequencing technology)的发展,借助高通量测序的技术手段,探索发育进程、肿瘤发生已经日益普遍。高通量测序技术主要包括基因组测序、转录组测序、蛋白质组测序、修饰蛋白质组测序以及代谢组测序。高通量测序数据是对遗传信息的横断面解析,反映的是生物体在某个时间点上所有遗传物质的突变、修饰或者表达状况。例如人的高通量测序就是对人体所有基因在某个时间点上的分析,因此,高通量测序将产生巨量的数据。对测序数据进行深入、正确的分析是生物信息学家面临的重要课题。借助计算机的强大算力对高通量测序数据进行解析是目前生物信息学发展的主要方式。面对高通量测序数据,分析的方向主要由两个:聚类和降维。聚类的思想是把具有类似模式的样本聚集在一起,从而实现对样本亚群的新认知;降维的思想是将数据从高通量的“高维”降低到关键分子(包括DNA、RNA和蛋白质)的“低维”,从大量数据中筛选出关键分子,用于后续的分析。目前,降维的方法主要依靠公共数据库的注释,但是并没有出现对于医学中的某个特定结局变量(例如,患者复发与否、患者死亡与否、药物敏感性等)有显著且稳定影响的数据的降维方法。
发明内容
为了克服现有技术中的没有出现对于医学中的某个特定结局变量有稳定影响的数据的降维方法的技术缺陷,本发明的第一个方面提供了一种影响医学结局变量关键分子的筛选方法,包括以下步骤:
步骤S1:生成随机分层样本表,具体包括以下步骤:
步骤S1.1:对全部样本进行样本分层:根据医学中的结局变量的不同,将全部样本集合S划分为子集S1,S2,...,Sn,全部样本的总数量大于50;
S=S1∪S2∪...∪Sn,|S|>50
其中,S1,S2,...,Sn之间两两互斥;
步骤S1.2:进行多次有放回分层随机取样:在步骤S1.1之后,对于每一层进行随机取样,每一次分层随机取样的样本数量N的计算公式为:
N=k1×r+k2×r+……+kn×r
其中,r为每一个子样本层的每次取样的比例,分层随机取样的总次数m≥100次,最终生成随机分层样本表;
步骤S2:分别对每一次分层随机取样获得的抽取样本进行回归分析:
对于医学中的与时间有关的结局变量,采用COX比例风险回归,COX比例风险回归的计算公式为:
ln[h(t,X)/h0(t)]=ln RR=β1x1+β2x2+…+βmxm
其中,h(t,X)为t时刻发生X事件的危险度;h0(t)表示所有协变量取值为0时的风险函数,也称为基准风险函数;RR表示相对危险度;x1,x2,...,xm分别为影响X事件发生的协变量;β1、β2、βm分别为协变量系数,负值表示X事件的保护因素,正值表示X事件的危险因素,其绝对值表示对X事件影响力的大小,采用常规log-rank方法计算P值;
对于医学中的与时间无关的二分类结局变量,采用Logistic回归,Logistic回归的计算公式为:
logitP=α+β1x1+β2x2+…+βmxm
其中,P为结局变量的发生概率,α是为了使得等式成立而由计算得出的常数项,x1,x2,...,xm为协变量;β1、β2、βm分别为协变量系数;
步骤S3:筛选出对医学中的结局变量有显著影响的关键分子:对于步骤S2中的分层随机取样获得的抽取样本进行m次回归分析,对回归结果进行log-rank检验得到P值,分别记为P1,P2,P3,...,Pm,以P<0.05为统计有显著意义,筛选出在至少75%的抽样次数中均有显著意义的关键分子,即得对医学中的结局变量有显著影响的关键分子;
步骤S4:筛选出对医学中的结局变量有显著且稳定影响的关键分子:统计结果有意义的次数n,以稳定系数γ表示自变量x(自变量x是指不同的关键分子)对结局变量y影响的稳定程度,则自变量x对结局变量y影响的稳定系数γ为:
然后按照稳定系数γ的大小,将在至少75%的抽样次数中均有显著意义的关键分子进行降序排列,从而筛选出对医学中的结局变量有显著且稳定影响的关键分子。
进一步地,步骤S1进一步包括:
步骤S1.3:可视化所述随机分层样本表:使用基于R语言的pheatmap函数展示每次参与回归分析的样本;并使用基于R语言的ggplot2函数展示每个样本参与回归分析的频率。
进一步地,在步骤S1.2中,每一个子样本层的每次取样的比例r为50%~90%。
进一步地,所述关键分子选自DNA、RNA、蛋白质中的任一种或两种以上。
本发明的第二个方面提供一种影响医学中的结局变量的关键分子的筛选系统,包括:随机分层样本表生成模块、回归分析模块和筛选模块;
所述随机分层样本表生成模块包括分层模块和取样模块,
所述分层模块用于对全部样本进行样本分层:根据医学中的结局变量的不同,将全部样本集合S划分为子集S1,S2,...,Sn,全部样本的总数量大于50;
S=S1∪S2∪...∪Sn,|S|>50
其中,S1,S2,...,Sn之间两两互斥;
所述取样模块用于进行多次有放回的分层随机取样:在步骤S11之后,对于每一层进行随机取样,每一次分层随机取样的样本数量N的计算公式为:
N=k1×r+k2×r+……+kn×r
其中,r为每一个子样本层的每次取样的比例,分层随机取样的总次数m≥100次,最终生成随机分层样本表;
所述回归分析模块用于分别对每一次分层随机取样获得的抽取样本进行回归分析:
对于医学中的与时间有关的结局变量,采用COX比例风险回归,COX比例风险回归的计算公式为:
ln[h(t,X)/h0(t)]=ln RR=β1x1+β2x2+…+βmxm
其中,h(t,X)为t时刻发生X事件的危险度;h0(t)表示所有协变量取值为0时的风险函数,也称为基准风险函数;RR表示相对危险度;x1,x2,...,xm分别为影响X事件发生的协变量;β1、β2、βm分别为协变量系数,负值表示X事件的保护因素,正值表示X事件的危险因素,其绝对值表示对X事件影响力的大小,采用常规log-rank方法计算P值;
对于医学中的与时间无关的二分类结局变量,采用Logistic回归,Logistic回归的计算公式为:
logitP=α+β1x1+β2x2+…+βmxm
其中,P为结局变量的发生概率,α是为了使得等式成立而由计算得出的常数项,x1,x2,...,xm为协变量;β1、β2、βm分别为协变量系数;
所述筛选模块用于筛选出对医学中的结局变量有显著影响的关键分子:对于步骤S2中的分层随机取样获得的抽取样本进行m次回归分析,对回归结果进行log-rank检验得到P值,分别记为P1,P2,P3,...,Pm,以P<0.05为统计有显著意义,筛选出在至少75%的抽样次数中均有显著意义的关键分子,即得对医学中的结局变量有显著影响的关键分子;
所述筛选模块还用于筛选出对医学中的结局变量有显著且稳定影响的关键分子:统计结果有意义的次数n,以稳定系数γ表示自变量x对结局变量y影响的稳定程度,则自变量x对结局变量y影响的稳定系数γ为:
然后按照稳定系数γ的大小,将在至少75%的抽样次数中均有显著意义的关键分子进行降序排列,从而筛选出对医学中的结局变量有显著且稳定影响的关键分子。
进一步地,所述影响医学中的结局变量的关键分子的筛选系统进一步包括可视化模块,所述可视化模块用于可视化所述随机分层样本表:使用基于R语言的pheatmap函数展示每次参与回归分析的样本;并使用基于R语言的ggplot2函数展示每个样本参与回归分析的频率。
进一步地,每一个子样本层的每次取样的比例r为50%~90%。
进一步地,所述关键分子选自DNA、RNA、蛋白质中的任一种或两种以上。
本发明的第三个方面提供一种智能终端,包括:
存储器,所述存储器用于存储可执行程序代码;以及
处理器,所述处理器用于读取所述存储器中存储的可执行程序代码以执行上述影响医学中的结局变量的关键分子的筛选方法。
所述智能终端包括但不限于PC、便携计算机、移动终端等具有显示和处理功能的设备。
本发明的第四个方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时,实现上述影响医学中的结局变量的关键分子的筛选方法。所述计算机可读存储介质包括但不限于:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
采用了上述技术方案后,与现有技术相比,具有以下有益效果:
本申请提供了一种新的计算机算法,即通过多次有放回分层随机取样的回归算法,能够实现高通测序数据的降维,能够精准地筛选出在高通量测序数据对特定的结局变量(包括但不限于疾病复发或者不复发、用药敏感或者不敏感、患者死亡或者生存等结局变量)有显著影响的关键分子(包括DNA、RNA和蛋白质)。除此之外,本申请的算法还提供了一种简洁有效地评价回归模型稳定性的方法,实现了关键分子的稳定性评价,即通过计算自变量x的稳定系数γ来评价自变量对结局变量/事件影响的稳定性大小,实现了对关键分子稳定性的量化。本申请的技术方案有助于解决医学中回归模型不稳定且重复性差的技术难题,并提高测序高通量大数据的临床转化效率,有助于推动生物信息学的进步和发展。本发明利用回归的方法,设计了利用多次回归的方法筛选高通量测序数据中关键基因筛选算法,实现了从高通量数据中筛选出对结局变量有影响的关键基因,为下游的功能研究和机制研究奠定基础。
附图说明
图1为在本申请一实施例中,对随机分层样本表进行可视化后的热图,X轴表示用于回归分析的次序,用数字1-100表示;Y轴表示每个样本的名称(样本名称从左到右依次为:TCGA-W5-AA2Q,TCGA-ZU-A8S4,12T,3T,TCGA-ZD-A8I3,TCGA-W5-AA39,20T,30T,10T,TCGA-3X-AAV9,TCGA-ZH-A8Y1,TCGA-3X-AAVB,TCGA-4G-AAZT,2T,TCGA-3X-AAVA,TCGA-ZH-A8Y6,11T,4T,TCGA-W5-AA34,29T,7T,14T,TCGA-ZH-A8Y8,TCGA-W5-AA2U,TCGA-W5-AA2O,28T,TCGA-3X-AAVE,27T,TCGA-ZH-A8Y2,TCGA-3X-AAVC,5T,TCGA-ZH-A8Y4,15T,26T,25T,18T,TCGA-W6-AA0S,17T,24T,19T,TCGA-W5-AA2W,TCGA-W5-AA2H,22T,21T,13T,TCGA-W5-AA30,TCGA-4G-AAZO,TCGA-W5-AA2T,TCGA-ZH-A8Y5,31T,TCGA-W5-AA36,TCGA-W5-AA33,16T,TCGA-W5-AA38,TCGA-W5-AA2R,TCGA-W5-AA2Z,8T,TCGA-W5-AA2I,TCGA-W5-AA2G,6T,1T);热图中黑色表示该样本参与该次回归,灰色表示该样本不参与该次回归;
图2为在本申请一实施例中,对随机分层样本表进行可视化后的柱状图,X轴表示每个样本的名称;Y轴表示该样本的参与回归分析的频率。本次测试中共进行了100次抽样,每次抽取75%的样本数进行回归分析。
具体实施方式
以下结合附图与具体实施例进一步阐述本发明的优点。本领域技术人员应当理解,下面所具体描述的内容是说明性的而非限制性的,不应以此限制本发明的保护范围。
应当理解,尽管在本公开可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身并没有特定的意义。因此,“模块”与“部件”可以混合地使用。
实施例1筛选对胆管癌患者无瘤生存时长有显著且稳定影响的长链非编码RNA
以COX比例风险回归为例,从61个胆管癌转录组测序样本中筛选到927个在胆管癌组织中显著高表达的长链非编码RNA,在其基因表达量矩阵(TPM表达矩阵,矩阵的行为基因名称,列为样本名称,矩阵中为基因在样本中的表达量)中,筛选对胆管癌患者无瘤生存时长有显著且稳定影响的长链非编码RNA(即关键分子)。
在某一个智能终端的存储器存储有可执行程序代码,智能终端的处理器读取所述存储器中存储的可执行程序代码以执行下述影响医学中的结局变量的关键分子(即长链非编码RNA)的筛选方法,包括以下步骤:
步骤S1:生成随机分层样本表,具体包括以下步骤:
步骤S1.1:对全部样本进行样本分层:根据医学中的结局变量的不同,将全部样本集合S划分为子集S1,S2,…,Sn,全部样本的总数量大于50;
S=S1∪S2∪…∪Sn,|S|>50
其中,S1,S2,…,Sn之间两两互斥;
步骤S1.2:进行多次有放回的分层随机取样:在步骤S1.1之后,对于每一层进行随机取样,每一次分层随机取样的样本数量N的计算公式为:
N=k1×r+k2×r+……+kn×r
其中,r为每一个子样本层的每次取样的比例,分层随机取样的总次数m≥100次,最终生成随机分层样本表,r为50%~90%;
步骤S1.3:可视化所述随机分层样本表:使用基于R语言的pheatmap函数展示每次参与回归分析的样本;并使用基于R语言的ggplot2函数展示每个样本参与回归分析的频率。
pheatmap函数的参数设置如下:
pheatmap(myindex,color=c('#2a93d4','#D11C16'),
border_color='#040000',cluster_rows=F,
legend=F,
cluster_cols=F,angle_col=0,
fontsize_col=11,fontsize_row=8,
main="",
width=10,height=6)
其中,myindex表示要可视化的样本表;color=c('#2a93d4','#D11C16')表示可视化的颜色;border_color='#040000'表示边框颜色;cluster_rows=F表示不进行行聚类;legend=F表示无图例;cluster_cols=F表示不进行列聚类;angle_col=0表示label的角度为0度;fontsize_col=11,fontsize_row=8表示字体大小;main=""表示无图标题;width=10,height=6表示图大小。
ggplot2函数参数设置如下:
ggplot(data=anno,aes(x=row.names(anno),y=anno$Freq))+
geom_hline(yintercept=c(65,70,75,80),color='black',linetype=8)+
geom_bar(stat='identity',width=1.00,fill='#ff8a5c',color='black')+
theme_classic()+
scale_y_continuous(expand=c(0,0),breaks=c(65,70,75,80))+
ylab(label='Freq')+xlab(label=NULL)+
theme(axis.text.y=element_text(face='bold',size=8,colour='black'))+scale_x_discrete(labels=row.names(anno))+
theme(axis.text.x=element_text(face='bold',size=6,colour='black',angle=45,hjust=1.0,vjust=1.0))
其中,data=anno表示每次进行抽样的样本个数所组成的数据框;aes(x=row.names(anno),y=anno$Freq)表示x轴为每次抽样(为1-100个数字),anno$Freq表示每次抽样的频数;geom_hline(yintercept=c(65,70,75,80),color='black',linetype=8)表示在65,70,75和80的位置绘制横线作为对照,颜色为黑色,横线类型为8(虚线);geom_bar(stat=′identity′,width=1.00,fill=′#ff8a5c′,color=′black′)表示直方图的参数,其中直方图宽度为1,填充的颜色为#ff8a5c,描边颜色为黑色;theme_classic()表示我们用的绘图主题;scale_y_continuous(expand=c(0,0),breaks=c(65,70,75,80))表示y轴的起始点为0点,并标注65,70,75,80四个值所在的位置,与前横线相对应;ylab(label=′Freq′)+xlab(label=NULL)表示y轴的标签为Freq,横轴标签为空;theme(axis.text.y=element_text(face=′bold′,size=8,colour=′black′))+scale_x_discrete(labels=row.names(anno))表示y轴标签的字体参数;theme(axis.text.x=element_text(face=′bold′,size=6,colour=′black′,angle=45,hjust=1.0,vjust=1.0))表示x轴的字体参数。
步骤S2:分别对每一次分层随机取样获得的抽取样本进行回归分析:
对于医学中的与时间有关的结局变量,采用COX比例风险回归,COX比例风险回归的计算公式为:
ln[h(t,X)/h0(t)]=ln RR=β1x1+β2x2+…+βmxm
其中,h(t,X)为t时刻发生X事件的危险度;h0(t)表示所有协变量取值为0时的风险函数,也称为基准风险函数;RR表示相对危险度;x1,x2,...,xm分别为影响X事件发生的协变量;β1、β2、βm分别为协变量系数,负值表示X事件的保护因素,正值表示X事件的危险因素,其绝对值表示对X事件影响力的大小,采用常规log-rank方法计算P值;
对于医学中的与时间无关的二分类结局变量,采用Logistic回归,Logistic回归的计算公式为:
logitP=α+β1x1+β2x2+…+βmxm
其中,P为结局变量的发生概率,α是为了使得等式成立而由计算得出的常数项,x1,x2,...,xm为协变量;β1、β2、βm分别为协变量系数。
步骤S3:筛选出对医学中的结局变量有显著影响的关键分子:对于步骤S2中的分层随机取样获得的抽取样本进行m次回归分析,对回归结果进行log-rank检验得到P值,分别记为P1,P2,P3,...,Pm,以P<0.05为统计有显著意义,筛选出在至少75%的抽样次数中均有显著意义的关键分子,即得对医学中的结局变量有显著影响的关键分子;
步骤S4:筛选出对医学中的结局变量有显著且稳定影响的关键分子:统计结果有意义的次数n,以稳定系数γ表示自变量x对结局变量y影响的稳定程度,则自变量x对结局变量y影响的稳定系数γ为:
然后按照稳定系数γ的大小,将在至少75%的抽样次数中均有显著意义的关键分子进行降序排列,从而筛选出对医学中的结局变量有显著且稳定影响的关键分子。
对61个样本进行有放回的分层抽样100次,通过COX回归计算每次抽样样本中927个长链非编码RNA的表达对胆管癌患者无瘤生存的影响,以P<0.05为有显著统计学意义,筛选在至少75%的抽样次数中均有意义的长链非编码RNA,最后按照稳定系数γ的大小进行降序排列,结果如表1,从而筛选出对医学中的结局变量有显著且稳定影响的关键分子,即从927个在胆管癌组织高表达的长链非编码RNA中筛选对胆管癌患者无瘤生存有显著且稳定影响的长链非编码RNA。表1中所有样本的长链非编码RNA序列均为已知,详见网址:https://portal.gdc.cancer.gov/;https://www.ncbi.nlm.nih.gov/geo/。表1中的γ表示稳定系数,P_value表示P值,RR表示相对危险度,Low.95.CI表示相对危险度95%可信区间的下限,High.95.CI表示相对危险度95%可信区间的上限。
表1按照γ降序排列的对胆管癌患者无瘤生存有显著且稳定影响的长链非编码RNA
本领域内的技术人员应明白,本发明的实施例可提供为计算机程序产品、系统、智能终端或计算机可读存储介质。因此,本发明可采用完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可执行程序代码(计算机程序指令)的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式,该计算机程序产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器执行本申请所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现本申请的影响医学中的结局变量的关键分子的筛选方法中的全部或部分步骤的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现本申请的影响医学中的结局变量的关键分子的筛选方法中的全部或部分步骤的功能。
应当注意的是,本发明的实施例有较佳的实施性,且并非对本发明作任何形式的限制,任何熟悉该领域的技术人员可能利用上述揭示的技术内容变更或修饰为等同的有效实施例,但凡未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何修改或等同变化及修饰,均仍属于本发明技术方案的范围内。
Claims (10)
1.一种影响医学中的结局变量的关键分子的筛选方法,其特征在于,包括以下步骤:
步骤S1:生成随机分层样本表,具体包括以下步骤:
步骤S1.1:对全部样本进行样本分层:根据医学中的结局变量的不同,将全部样本集合S划分为子集S1,S2,…,Sn,全部样本的总数量大于50;
S=S1∪S2∪…∪Sn,|S|>50
其中,S1,S2,…,Sn之间两两互斥;
步骤S1.2:进行多次有放回的分层随机取样:在步骤S11之后,对于每一层进行随机取样,每一次分层随机取样的样本数量N的计算公式为:
N=k1×r+k2×r+……+kn×r
其中,r为每一个子样本层的每次取样的比例,分层随机取样的总次数m≥100次,最终生成随机分层样本表;
步骤S2:分别对每一次分层随机取样获得的抽取样本进行回归分析:
对于医学中的与时间有关的结局变量,采用COX比例风险回归,COX比例风险回归的计算公式为:
ln[h(t,X)/h0(t)]=ln RR=β1x1+β2x2+…+βmxm
其中,h(t,X)为t时刻发生X事件的危险度;h0(t)表示所有协变量取值为0时的风险函数,也称为基准风险函数;RR表示相对危险度;x1,x2,…,xm分别为影响X事件发生的协变量;β1、β2、βm分别为协变量系数,负值表示X事件的保护因素,正值表示X事件的危险因素,其绝对值表示对X事件影响力的大小,采用常规log-rank方法计算P值;
对于医学中的与时间无关的二分类结局变量,采用Logistic回归,Logistic回归的计算公式为:
logitP=α+β1x1+β2x2+…+βmxm
其中,P为结局变量的发生概率,α是为了使得等式成立而由计算得出的常数项,x1,x2,…,xm为协变量;β1、β2、βm分别为协变量系数;
步骤S3:筛选出对医学中的结局变量有显著影响的关键分子:对于步骤S2中的分层随机取样获得的抽取样本进行m次回归分析,对回归结果进行log-rank检验得到P值,分别记为P1,P2,P3,…,Pm,以P<0.05为统计有显著意义,筛选出在至少75%的抽样次数中均有显著意义的关键分子,即得对医学中的结局变量有显著影响的关键分子;
步骤S4:筛选出对医学中的结局变量有显著且稳定影响的关键分子:统计结果有意义的次数n,以稳定系数γ表示自变量x对结局变量y影响的稳定程度,则自变量x对结局变量y影响的稳定系数γ为:
然后按照稳定系数γ的大小,将在至少75%的抽样次数中均有显著意义的关键分子进行降序排列,从而筛选出对医学中的结局变量有显著且稳定影响的关键分子。
2.如权利要求1所述的影响医学中的结局变量的关键分子的筛选方法,其特征在于,步骤S1进一步包括:
步骤S1.3:可视化所述随机分层样本表:使用基于R语言的pheatmap函数展示每次参与回归分析的样本;并使用基于R语言的ggplot2函数展示每个样本参与回归分析的频率。
3.如权利要求1所述的影响医学中的结局变量的关键分子的筛选方法,其特征在于,在步骤S1.2中,每一个子样本层的每次取样的比例r为50%~90%。
4.如权利要求1-3任一项所述的影响医学中的结局变量的关键分子的筛选方法,其特征在于,所述关键分子选自DNA、RNA、蛋白质中的任一种或两种以上。
5.一种影响医学中的结局变量的关键分子的筛选系统,其特征在于,包括:随机分层样本表生成模块、回归分析模块和筛选模块;
所述随机分层样本表生成模块包括分层模块和取样模块,
所述分层模块用于对全部样本进行样本分层:根据医学中的结局变量的不同,将全部样本集合S划分为子集S1,S2,…,Sn,全部样本的总数量大于50;
S=S1∪S2∪…∪Sn,|S|>50
其中,S1,S2,…,Sn之间两两互斥;
所述取样模块用于进行多次有放回的分层随机取样:在步骤S11之后,对于每一层进行随机取样,每一次分层随机取样的样本数量N的计算公式为:
N=k1×r+k2×r+……+kn×r
其中,r为每一个子样本层的每次取样的比例,分层随机取样的总次数m≥100次,最终生成随机分层样本表;
所述回归分析模块用于分别对每一次分层随机取样获得的抽取样本进行回归分析:
对于医学中的与时间有关的结局变量,采用COX比例风险回归,COX比例风险回归的计算公式为:
ln[h(t,X)/h0(t)]=ln RR=β1x1+β2x2+…+βmxm
其中,h(t,X)为t时刻发生X事件的危险度;h0(t)表示所有协变量取值为0时的风险函数,也称为基准风险函数;RR表示相对危险度;x1,x2,…,xm分别为影响X事件发生的协变量;β1、β2、βm分别为协变量系数,负值表示X事件的保护因素,正值表示X事件的危险因素,其绝对值表示对X事件影响力的大小,采用常规log-rank方法计算P值;
对于医学中的与时间无关的二分类结局变量,采用Logistic回归,Logistic回归的计算公式为:
logitP=α+β1x1+β2x2+…+βmxm
其中,P为结局变量的发生概率,α是为了使得等式成立而由计算得出的常数项,x1,x2,…,xm为协变量;β1、β2、βm分别为协变量系数;
所述筛选模块用于筛选出对医学中的结局变量有显著影响的关键分子:对于步骤S2中的分层随机取样获得的抽取样本进行m次回归分析,对回归结果进行log-rank检验得到P值,分别记为P1,P2,P3,…,Pm,以P<0.05为统计有显著意义,筛选出在至少75%的抽样次数中均有显著意义的关键分子,即得对医学中的结局变量有显著影响的关键分子;
所述筛选模块还用于筛选出对医学中的结局变量有显著且稳定影响的关键分子:统计结果有意义的次数n,以稳定系数γ表示自变量x对结局变量y影响的稳定程度,则自变量x对结局变量y影响的稳定系数γ为:
然后按照稳定系数γ的大小,将在至少75%的抽样次数中均有显著意义的关键分子进行降序排列,从而筛选出对医学中的结局变量有显著且稳定影响的关键分子。
6.如权利要求5所述的影响医学中的结局变量的关键分子的筛选系统,其特征在于,进一步包括可视化模块,所述可视化模块用于可视化所述随机分层样本表:使用基于R语言的pheatmap函数展示每次参与回归分析的样本;并使用基于R语言的ggplot2函数展示每个样本参与回归分析的频率。
7.如权利要求5所述的影响医学中的结局变量的关键分子的筛选系统,其特征在于,每一个子样本层的每次取样的比例r为50%~90%。
8.如权利要求5-7任一项所述的影响医学中的结局变量的关键分子的筛选系统,其特征在于,所述关键分子选自DNA、RNA、蛋白质中的任一种或两种以上。
9.一种智能终端,其特征在于,包括:
存储器,所述存储器用于存储可执行程序代码;以及
处理器,所述处理器用于读取所述存储器中存储的可执行程序代码以执行权利要求1-4中任一项所述影响医学中的结局变量的关键分子的筛选方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时,实现如权利要求1-4中任一项所述影响医学中的结局变量的关键分子的筛选方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110961035.1A CN113870948B (zh) | 2021-08-20 | 2021-08-20 | 影响医学结局变量关键分子的筛选方法、系统、终端和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110961035.1A CN113870948B (zh) | 2021-08-20 | 2021-08-20 | 影响医学结局变量关键分子的筛选方法、系统、终端和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113870948A true CN113870948A (zh) | 2021-12-31 |
CN113870948B CN113870948B (zh) | 2023-04-18 |
Family
ID=78987992
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110961035.1A Expired - Fee Related CN113870948B (zh) | 2021-08-20 | 2021-08-20 | 影响医学结局变量关键分子的筛选方法、系统、终端和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113870948B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105447521A (zh) * | 2015-11-25 | 2016-03-30 | 大连理工大学 | 一种K-means聚类的初值选择方法 |
CN105512477A (zh) * | 2015-12-03 | 2016-04-20 | 万达信息股份有限公司 | 基于降维组合分类算法非计划性再入院风险评估预测模型 |
CN106407689A (zh) * | 2016-09-27 | 2017-02-15 | 牟合(上海)生物科技有限公司 | 一种基于基因表达谱的胃癌预后标志物筛选及分类方法 |
CN108682457A (zh) * | 2018-04-17 | 2018-10-19 | 中国医学科学院阜外医院 | 患者长期预后定量预测和干预系统及方法 |
CN109785973A (zh) * | 2019-01-25 | 2019-05-21 | 中国医学科学院阜外医院 | 一种手术患者在围手术期发生并发症的定量预测方法 |
CN109859796A (zh) * | 2019-01-04 | 2019-06-07 | 王俊 | 一种关于胃癌的dna甲基化谱的降维分析方法 |
CN110189799A (zh) * | 2019-05-20 | 2019-08-30 | 西安交通大学 | 基于变量重要性评分和奈曼皮尔逊检验的宏基因组特征选择方法 |
CN112375832A (zh) * | 2020-11-09 | 2021-02-19 | 浙江省立同德医院 | 一种用于表征肺腺癌气阴两虚证的肠道菌群组合及筛选及模型建立方法 |
-
2021
- 2021-08-20 CN CN202110961035.1A patent/CN113870948B/zh not_active Expired - Fee Related
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105447521A (zh) * | 2015-11-25 | 2016-03-30 | 大连理工大学 | 一种K-means聚类的初值选择方法 |
CN105512477A (zh) * | 2015-12-03 | 2016-04-20 | 万达信息股份有限公司 | 基于降维组合分类算法非计划性再入院风险评估预测模型 |
CN106407689A (zh) * | 2016-09-27 | 2017-02-15 | 牟合(上海)生物科技有限公司 | 一种基于基因表达谱的胃癌预后标志物筛选及分类方法 |
CN108682457A (zh) * | 2018-04-17 | 2018-10-19 | 中国医学科学院阜外医院 | 患者长期预后定量预测和干预系统及方法 |
CN109859796A (zh) * | 2019-01-04 | 2019-06-07 | 王俊 | 一种关于胃癌的dna甲基化谱的降维分析方法 |
CN109785973A (zh) * | 2019-01-25 | 2019-05-21 | 中国医学科学院阜外医院 | 一种手术患者在围手术期发生并发症的定量预测方法 |
CN110189799A (zh) * | 2019-05-20 | 2019-08-30 | 西安交通大学 | 基于变量重要性评分和奈曼皮尔逊检验的宏基因组特征选择方法 |
CN112375832A (zh) * | 2020-11-09 | 2021-02-19 | 浙江省立同德医院 | 一种用于表征肺腺癌气阴两虚证的肠道菌群组合及筛选及模型建立方法 |
Non-Patent Citations (1)
Title |
---|
肖美丽等: ""随机森林算法在产后抑郁风险预测中的应用"", 《中南大学学报(医学版)》 * |
Also Published As
Publication number | Publication date |
---|---|
CN113870948B (zh) | 2023-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Meyer et al. | MulteeSum: a tool for comparative spatial and temporal gene expression data | |
Torkkola et al. | Self-organizing maps in mining gene expression data | |
Ding et al. | Diabetic complication prediction using a similarity-enhanced latent Dirichlet allocation model | |
Xu et al. | Likelihood‐based inference for discretely observed birth–death‐shift processes, with applications to evolution of mobile genetic elements | |
Bussy et al. | C-mix: A high-dimensional mixture model for censored durations, with applications to genetic data | |
WO2021062198A1 (en) | Single cell rna-seq data processing | |
Li et al. | Multi-task learning based survival analysis for multi-source block-wise missing data | |
Shang et al. | Tailoring the mechanical properties of 3D microstructures: A deep learning and genetic algorithm inverse optimization framework | |
Wei et al. | Secuer: Ultrafast, scalable and accurate clustering of single-cell RNA-seq data | |
Narayanan et al. | IntelliGenes: Interactive and user-friendly multimodal AI/ML application for biomarker discovery and predictive medicine | |
Liu et al. | Are dropout imputation methods for scRNA-seq effective for scATAC-seq data? | |
Emura et al. | A survival tree based on stabilized score tests for high-dimensional covariates | |
CN113870948B (zh) | 影响医学结局变量关键分子的筛选方法、系统、终端和存储介质 | |
Wang et al. | Network-adjusted Kendall’s Tau measure for feature screening with application to high-dimensional survival genomic data | |
Du et al. | Scccl: single-cell data clustering based on self-supervised contrastive learning | |
Le Cao et al. | Package ‘mixOmics’ | |
Wieder et al. | PathIntegrate: Multivariate modelling approaches for pathway-based multi-omics data integration | |
Nguyen et al. | Gene Family Abundance Visualization based on Feature Selection Combined Deep Learning to Improve Disease Diagnosis. | |
Bonazzola et al. | Unsupervised ensemble-based phenotyping enhances discoverability of genes related to left-ventricular morphology | |
Wu et al. | Machine learning and deep learning in genetics and genomics | |
Liu et al. | Integrating reduced amino acid composition into PSSM for improving copper ion-binding protein prediction | |
Kebschull et al. | Exploring genome-wide expression profiles using machine learning techniques | |
Zhang et al. | A novel method for feature selection based on molecular interactive effect network | |
JP6318334B2 (ja) | 相関ネットワーク解析プログラム | |
Czauderna et al. | Information visualization for biological data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20230418 |