CN118043894A - 时间特性预测器 - Google Patents
时间特性预测器 Download PDFInfo
- Publication number
- CN118043894A CN118043894A CN202280057500.1A CN202280057500A CN118043894A CN 118043894 A CN118043894 A CN 118043894A CN 202280057500 A CN202280057500 A CN 202280057500A CN 118043894 A CN118043894 A CN 118043894A
- Authority
- CN
- China
- Prior art keywords
- sample
- embedded
- data
- dataset
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims abstract description 124
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 100
- 238000013518 transcription Methods 0.000 claims abstract description 29
- 230000035897 transcription Effects 0.000 claims abstract description 29
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 20
- 201000010099 disease Diseases 0.000 claims abstract description 13
- 239000011159 matrix material Substances 0.000 claims description 29
- 230000037361 pathway Effects 0.000 claims description 24
- 238000013507 mapping Methods 0.000 claims description 20
- 230000009466 transformation Effects 0.000 claims description 20
- 230000001131 transforming effect Effects 0.000 claims description 9
- 208000035475 disorder Diseases 0.000 claims description 6
- 208000024827 Alzheimer disease Diseases 0.000 claims description 5
- 208000018737 Parkinson disease Diseases 0.000 claims description 5
- 230000004770 neurodegeneration Effects 0.000 claims description 5
- 208000015122 neurodegenerative disease Diseases 0.000 claims description 4
- 206010028980 Neoplasm Diseases 0.000 claims description 3
- 201000011510 cancer Diseases 0.000 claims description 3
- 210000004027 cell Anatomy 0.000 description 101
- 238000012937 correction Methods 0.000 description 28
- 238000012549 training Methods 0.000 description 28
- 230000014509 gene expression Effects 0.000 description 26
- 239000013598 vector Substances 0.000 description 25
- 230000032683 aging Effects 0.000 description 14
- 230000015654 memory Effects 0.000 description 12
- 230000008569 process Effects 0.000 description 10
- 238000012545 processing Methods 0.000 description 10
- 210000001519 tissue Anatomy 0.000 description 9
- 230000004071 biological effect Effects 0.000 description 8
- 230000002068 genetic effect Effects 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 241000699666 Mus <mouse, genus> Species 0.000 description 6
- 238000001943 fluorescence-activated cell sorting Methods 0.000 description 6
- 230000009467 reduction Effects 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 210000002216 heart Anatomy 0.000 description 5
- 238000003860 storage Methods 0.000 description 5
- 241000699670 Mus sp. Species 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000008236 biological pathway Effects 0.000 description 4
- 238000000354 decomposition reaction Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 210000003414 extremity Anatomy 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000001965 increasing effect Effects 0.000 description 4
- 210000004072 lung Anatomy 0.000 description 4
- 238000005259 measurement Methods 0.000 description 4
- 210000003205 muscle Anatomy 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000031018 biological processes and functions Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 230000001973 epigenetic effect Effects 0.000 description 3
- 210000000952 spleen Anatomy 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 239000000090 biomarker Substances 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 210000002889 endothelial cell Anatomy 0.000 description 2
- 239000013604 expression vector Substances 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 230000008929 regeneration Effects 0.000 description 2
- 238000011069 regeneration method Methods 0.000 description 2
- 230000008672 reprogramming Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000002560 therapeutic procedure Methods 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- GRNHLFULJDXJKR-UHFFFAOYSA-N 3-(2-sulfanylethyl)-1h-quinazoline-2,4-dione Chemical compound C1=CC=C2C(=O)N(CCS)C(=O)NC2=C1 GRNHLFULJDXJKR-UHFFFAOYSA-N 0.000 description 1
- 206010061818 Disease progression Diseases 0.000 description 1
- 238000003559 RNA-seq method Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000003712 anti-aging effect Effects 0.000 description 1
- 210000003719 b-lymphocyte Anatomy 0.000 description 1
- 238000001574 biopsy Methods 0.000 description 1
- 238000004113 cell culture Methods 0.000 description 1
- 230000010307 cell transformation Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000005750 disease progression Effects 0.000 description 1
- 238000010201 enrichment analysis Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 210000002950 fibroblast Anatomy 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012606 in vitro cell culture Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000033001 locomotion Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 210000002901 mesenchymal stem cell Anatomy 0.000 description 1
- 230000011987 methylation Effects 0.000 description 1
- 238000007069 methylation reaction Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 210000001616 monocyte Anatomy 0.000 description 1
- 230000000626 neurodegenerative effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 201000008482 osteoarthritis Diseases 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000009758 senescence Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000012174 single-cell RNA sequencing Methods 0.000 description 1
- 210000000419 skeletal muscle satellite cell Anatomy 0.000 description 1
- 210000002460 smooth muscle Anatomy 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003393 splenic effect Effects 0.000 description 1
- 238000012066 statistical methodology Methods 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
- 230000017423 tissue regeneration Effects 0.000 description 1
- 230000002103 transcriptional effect Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
- G16B5/30—Dynamic-time models
Landscapes
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Genetics & Genomics (AREA)
- Physiology (AREA)
- Artificial Intelligence (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
提供了获得用于基于基因转录数据预测时变特性的预测器的计算机实现的方法。该方法包括接收包括从具有不同值的时变特性的相应的细胞样本获得的数据样本的数据集,每个数据样本包括一定数目的转录水平以及针对每个数据样本的细胞样本的时变特性的相应的实际值,其中每个转录水平是个体基因转录物的转录水平或个体基因的多个基因转录物的池化转录水平;生成嵌入数据集,该嵌入数据集包括针对每个数据样本的嵌入样本,其中嵌入样本的维度的数目小于转录水平的数目;将嵌入数据集作为输入应用到预测器,以针对每个嵌入样本产生时变特性的预测值;以及通过调整预测器的预测系数以减少时变特性的相应的预测值与实际值之间的预测误差的误差测量,获得预测器。时变特性可以是年龄,例如疾病、病况或病症的进展、或生物学年龄。
Description
技术领域
本公开涉及用于获得用于预测来自基因转录物的时变特性的预测器的计算机实现方法以及对应的计算机程序产品、计算机可读介质和系统。具体地但非排他地,本公开涉及用于疾病、病况或病症的进展、生物学年龄或实足年龄的预测器。本公开的另一个非排他性方面涉及估计对不同基因或基因转录物的预测的贡献。
背景技术
许多疾病具有衰老成分,例如帕金森病、阿尔茨海默病和骨关节炎。越来越有兴趣寻找通过新疗法诱导细胞和组织再生的方法,这些新疗法可以释放非常年轻的细胞中存在的潜在再生能力。在过去五年中,在部分表观遗传重编程的领域中的科学已经取得了许多进展,该领域前景广阔。
此前已知的诱导细胞变换为更年轻状态的唯一综合方法是创建iPSC(例如使用山中(Yamanake)因子)。不幸的是,经历这种向多能性转变的细胞也会改变它们的身份,因此该技术不能用于创建抗衰老疗法,也不能用于延长健康寿命。
现在从部分表观遗传重编程的研究中得知,年龄逆转成分可以与细胞身份成分解耦合,并且目前正在努力将该过程变换为临床。
衰老时钟是一种了解如何驱动细胞再生过程的优雅方式。第一衰老时钟是由Horvath等人开发的(例如参见US20160222448A1和US20190185938A1)并且是基于甲基化水平,因此被描述为表观遗传时钟。尽管表观遗传时钟能够高度准确地预测年龄,但它也有一些局限性,包括难以做出生物学推论,以及目前无法验证或针对个体位点以获得潜在的治疗益处。因此,注意力转向了转录组时钟,它根据RNA表达水平预测年龄。例如在US10325673B2中和由Holzscheck等人(npj Aging Mech Dis 7,15(2021))已经描述转录组时钟。然而,这些转录组时钟的一个显著特征是它们在对应的基因通路的总和的转录水平上运行,因此需要预先了解基因通路才能制作此类时钟。发明人已经认识到这具有许多缺点,如下所述。因此,本领域需要一种克服这些限制的时钟(衰老的预测器)。
发明内容
本发明的各方面在所附独立权利要求中阐述。一些实施例的可选特征在从属权利要求中阐述。
本公开提供了一种获得用于基于基因转录数据(即,RNA表达水平)预测时变特性的预测器的计算机实现方法。衰老时钟是时变特性(年龄)的预测器的示例,但是应当理解,本公开不限于年龄作为时变特性并且适用于其他时变特性。
该方法包括接收数据集,该数据集包括从具有不同值的时变特性的相应的细胞样本获得的数据样本。细胞样本可以是单个细胞或多个细胞的集合,转录水平在其上被池化以形成数据样品。例如,细胞样本可以从体外细胞培养获得。替代的,细胞样本可以从个体获得,例如通过活组织检查。获得细胞样本的步骤通常不构成该方法的一部分。每个数据样本包括一定数目的转录水平。每个数据样本还包括针对每个数据样本的细胞样本的时变特性的相应的实际值。时变特性可以是疾病或病症的进展或阶段、生物学年龄或实足年龄,例如癌症或神经退行性病症(诸如阿尔茨海默病或帕金森病)等。因此可以看出,虽然相应的细胞样本具有不同值的时变特性,但是相应的细胞样本可以全部同时采集,但是代表例如疾病或病症的不同进展阶段。时变特性可以是关于从其已经获得细胞样本的一个或多个生物体或受试方的。
每个转录水平是个体基因转录物的转录水平或个体基因的多个基因转录物的池化转录水平。因此,可以根据相应的细胞样本中的多个个体基因或多个基因转录物的相应转录计数获得转录水平。例如,在一些实施方式中,转录计数可以使用诸如RNA-Seq等转录组技术来获得。
由于该方法对多个个体基因转录物或多个基因进行操作,因此可以避免与通路的定义和选择相关联的任何偏差。此外,在一些实施方式中,可以发现涉及带来时变特性的新基因。由于不需要基因通路或生物活性的知识,与现有技术的现有方法不同,从细胞样本中的基因转录物的转录计数得到的转录水平可以用于分析,而不需要使用基因通路或生物活性的知识。
该方法包括根据个体转录水平生成嵌入数据集,该嵌入数据集包括针对每个数据样本的嵌入样本。嵌入样本的维度的数目小于转录水平的数目,使得嵌入提供了降维。在一些实施方式中,嵌入样本的维度的数目可以基于具有不同相应的维度的数目的嵌入数据集相应的预测性能来选择。有利的是,通过减少维度的数目,提高了计算效率并且可以帮助减少由技术噪声驱动的方差量。这在单细胞样本的情况下可能特别有利,这是因为与生物信号相比,技术噪音可能很大。
在一些实施方式中,该方法可以包括对数据集应用变换以生成嵌入数据集。该变换可以通过对数据集进行操作来获得,例如通过对数据集的协方差矩阵进行操作。在一些实施方式中,该变换可以在不使用基因通路的知识的情况下被获得。
在一些实施方式中,该嵌入可以包括转录数据集的线性变换以生成嵌入数据集,并且在一些特定的实施方式中,嵌入数据集包括转录数据集的主成分的子集。在一些实施方式中,可以使用非线性映射。
在一些实施方式中,该方法可以包括对预测系数应用逆映射以将预测系数投影到转录数据集的维度上。逆映射从嵌入细胞样本映射到对应的细胞样本。以这种方式,可以针对每个基因或转录物得到对预测时变特性的值的贡献的测量。在一些情况下,变换的(可能近似的)逆映射可以用于(至少近似地)将预测系数投影到数据集维度上。在线性变换的情况下,逆映射可以是通过矩阵求逆找到的逆映射。在某些情况下,诸如PCA,由于特征向量的矩阵中的特征向量是正交的,因此逆映射可以是线性变换的转置或线性变换本身。在一些实施方式中,变换可以是非线性的以及该变换的逆运算,从嵌入数据样本映射到对应的数据样本的逆映射可以用于至少近似地将预测系数投影或转换为数据集维度。逆映射可以是近似的,例如通过数值优化找到的。系数的逆映射可以充当转录数据集的维度的重要性的测量,即每个对应的基因或转录物对于预测的重要性。因此,逆映射可以用于指导数据驱动的基因或转录物的发现,这些基因或转录物关联于驱动对生物学年龄、实足年龄和/或疾病的预测的贡献。每个基因或转录物的系数可以在基因集的富集分析中聚集,以指导为预测生物学年龄、实足年龄和/或疾病做出贡献的生物通路、过程和功能的发现。
然后,将嵌入数据集作为输入应用到预测器,以产生针对每个嵌入样本的时变特性的预测值,并且调整预测器的预测系数,以减少时变特性的相应的预测值与实际值之间的预测误差的测量。在一些实施方式中,还可以不在使用任何基因通路或生物活性信息的情况下获得预测器。在一些实施方式中,首先可以以这种方式获得预测器,然后可以使用基因通路或生物活性的现有知识或者从预测器的预测系数得到的生物知识来优化预测器。
在一些实施方式中,嵌入数据集可以被缩放以具有跨维度基本恒定的方差。例如,与未加权的PCA回归相反,这增强了嵌入数据集的较低方差维度对预测系数调整的初始贡献。发明人已经认识到,高方差成分不一定与时变特性相关,而是可能代表生物或技术变异的其他来源。通过对所有成分的变异性进行同等加权,较低方差成分在回归优化中具有相同的起点,这可能有助于揭露生物学相关的成分。
在一些实施方式中,预测器是线性预测器。有利的是,这使得预测系数能够被容易地解释,例如如上所述。在一些实施方式中,线性预测器可以包括正则化方法以促进预测系数的稀疏性,这还可以有助于可解释性,这是因为更少的系数将对预测做出显著贡献。例如,在一些实施方式中,调整预测系数包括弹性网络回归。在一些实施方式中,预测误差可以是中值绝对预测误差。
一些实施方式涉及接收另外的数据集。该另外的数据集包括从具有时变特性的不同值的相应的另外的细胞样本获得的另外的数据样本,每个另外的数据样本包括一定数目的另外的转录水平以及每个另外的数据样本的另外的细胞样本的时变特性的相应的另外的实际值。该另外的转录水平已经由另外的细胞样本中基因转录物的另外的转录计数得到,而不使用基因通路的知识,如上所述。这些实施方式还涉及将数据集和另外的数据集变换成包括数据样本和另外的数据样本的公共数据集,其中将数据集和另外的数据集变换包括减少数据样本和另外的数据样本对于数据集和另外的数据集非公共的变异性。在这些实施方式中,生成嵌入数据集包括针对公共数据集中的每个数据样本生成嵌入样本。
一些实施方式具体地能够通过使用标记的数据集来预测针对未标记的数据集的特性来预测针对新数据集的时变特性。这些实施方式还涉及接收另外的数据集,但在这种情况下没有时变特性值。同样地,将数据集和另外的数据集变换成包括数据样本和另外的数据样本的公共数据集包括:减少数据样本和另外的数据样本对于数据集和另外的数据集非公共的变异性,并且生成嵌入数据集包括:针对公共数据集中的每个数据样本生成嵌入样本。在这些实施方式中,将嵌入数据集作为输入应用到预测器包括:仅将与基因转录数据样本相对应的嵌入样本作为输入进行应用,以产生针对与数据样本相对应的嵌入数据样本的时变特性的相应的预测值。这些实施方式包括:在获得预测器之后,将与另外的数据样本对应的嵌入样本应用到预测器以预测针对另外的细胞样本的时变特性的相应的值。
所描述的实施方式还可以包括生成报告,该报告标识已获得其细胞的一个或多个个体或受试方的时变特性的值和/或对数据集中的基因或转录物的预测的贡献的指示。报告可以以任何合适的形式存储,例如数字地存储在一个或多个存储介质上,可以显示在显示屏上和/或打印在纸张或另一合适的介质上。
本公开还延伸至一种包括计算机代码指令的计算机程序产品,该计算机代码指令当在处理器上执行时实现所描述的方法并且特别是上文所描述的方法,例如包括此类计算机代码指令的计算机可读介质。本公开还延伸至包括处理器和此类计算机可读介质的系统,其中处理器被配置为执行计算机代码指令,并且还延伸至包括用于实施所描述的方法(特别是如上所述的方法)的部件的系统。
附图说明
下面参考附图,以举例的方式对所公开的至少一项发明进行特定的实施方式的描述。包括标题只是为了清楚地阐述,并且不用于对本公开内容的任何解释。在附图中:
图1示出了获得用于细胞样本的时变特性的预测器的计算机实现方法;
图2示出了获得用于细胞样本的时变特性的预测器的计算机实现方法,包括合并与不同批次的细胞样本相对应的数据集;
图3示出了获得用于细胞样本的时变特性的预测器的计算机实现方法,包括合并与不同批次的细胞样本相对应的数据集,以及使用从一个批次获得的预测器来预测另一批次的时变特性;
图4示出了适合于实现所公开的方法的示例硬件实施方式;
图5显示了中值绝对误差(MAE)在衰老时钟的预测年龄中的分布,衰老时钟使用不同数目的主成分作为输入进行训练;
图6A至G展示了直接在基因表达上训练的时钟(“Expr.时钟”)和通过本文描述的方法(“RD时钟”)在来自不同小鼠机体的测试集的单细胞中进行训练的时钟的性能;
图7显示了执行时钟训练的单次迭代所需的平均时间与用于训练过程的细胞的数目的关系;以及
图8示出了不同衰老时钟的性能度量的比较。
具体实施方式
参考图1,在步骤110针对一批次的细胞样本接收基因转录数据集。细胞样本和数据集可以以任何合适的方式获得,例如如上所述。该数据集是根据原始基因转录计数(个体转录物的计数或按基因求和)、每个转录物或基因的一个计数、细胞样本和测量时间点生成的,以给出每个细胞样本和时间点的表达水平的一个表达载体。数据样本可以从单个细胞(单个细胞样本)的计数获得,或者可以从几个细胞的样本的池化计数获得。数据集被处理或已经被处理以使用计数数据的常规数值条件来得到表达水平,包括标准化数据、对数变换数据以及将经对数变换的数据标准化以具有零均值和单位标准差,例如,注意到总体比例因子当然可以随意改变。至关重要的是,每个转录水平因此是针对个体基因转录物或针对该基因池化(例如,求和)的个体基因的基因转录物。因此,在生成表达载体的过程中不需要基因通路或生物活性的现有知识。此外,后续描述的处理可以在不使用基因通路或生物活性的现有知识的情况下完成。当然,应当理解,附加的处理步骤,诸如回归后对预测系数的进一步调整可以使用此类现有知识或可以使用从回归本身获得的生物学知识,例如关于某些基因如何预测时变特性,这可以例如从预测系数得到,如下所述。
术语“基因通路”是指共同发挥作用以执行具体生物过程的基因网络。此类生物过程也可称为“生物通路”,即细胞中分子之间的一系列相互作用,其导致生物效应,例如细胞的变异或产物的产生。这些分子是由基因编码的,因此可以看出,基因通路中基因网络的结果将是生物通路。可以获得有关基因通路和生物通路的知识,例如根据“Hallmark”通路汇集(Liberzon,A.et al.The molecular signatures database Hallmark Gene SetCollection.Cell Syst.1,417–425(2015))或公开地可用的数据库(诸如KEGG通路数据库(https:///www.kegg.jp/))。
所得到的基因转录数据集被组织(或接收)为矩阵E,该矩阵E具有作为行向量的转录向量,其中每个细胞样本和时间点一行。使用诸如特征分解或更典型的奇异值分解之类的任何合适的技术来找到特征向量矩阵W和特征向量的对角矩阵(用基向量W变换的E的方差)。
ETEW=WΛ 等式1
在步骤120,使用与最大特征值(或所解释的方差)Λi,i相关联的k列特征向量(或主成分)Wi的矩阵υ和对角缩放矩阵S形成嵌入数据集X,
υ=[w1 w2 w3 … wk] 等式2
该对角缩放矩阵S通过细胞样本之间的逆标准差来缩放主成分,以便在主成分的较高方差成分与较低方差成分之间的回归的初始贡献中保持公平的竞争环境,如上所述。
k可以被选择为合适的,具有需要更多的计算、但可能包括更多的生物学相关信息的较高的值。已找到k=50在大多数设置中是合适的最大值,并且在一些实施方式中,k可以例如在20与30之间。还可以通过比较下面描述的针对k的不同值的系数拟合的性能并且选择实现最佳或至少令人满意的性能的值来以迭代方式选择k。在一些实施方式中,替代选择具有k个最大特征值的成分,可以根据不同的准则来选择成分,例如在一些实施方式中基于如上所述的性能,在特征值范围的中间或在特征值的特定序数处。
数据集的每个数据样本还包括细胞样本(或获得细胞样本的生物体)的时变特性的实际值,注意数据集包含多个时间点的多个细胞样本并且每个细胞样本和时间点有一个此类的值。实际值可以在每个时间点测量,例如通过测量诸如指示生物学年龄或与疾病轨迹有关的生物标志物的量,实际值可以对于生物体单独已知,诸如疾病进展或阶段,或者可能只是时间点本身,就像实足年龄一样。诸如表观遗传时钟测量之类的衰老时钟测量可以用作指示生物学年龄的生物标志物。除了生物学年龄或实足年龄或疾病病症(例如,诸如阿尔茨海默病或帕金森病等神经退行性病症)的阶段或进展之外,可以使用细胞样本或细胞样本来源的生物体的任何其他时变特性。
实际值被组织或接收在列向量y中,该列向量y具有与E相同的行数,对于每个数据样本一个。通过在步骤130将嵌入数据集应用到线性预测器来针对嵌入数据集X训练线性预测器,以通过在步骤140调整包含针对回归中的主成分的线性权重的向量β中的预测系数和偏移β0来预测时变特性y的值y*。
y*=Xβ+β0 等式4
调整系数以最小化y与y*之间的误差的测量,例如平方误差的平均值或绝对误差的中值/>可以使用各种最小化方法,包括简单的最小二乘回归。在一些实施方式中,已经找到使用弹性网络线性回归是有利的(参见Zou,H.,&Hastie,T.(2005)Regularization and Variable Selection via the elastic net;Journal of theRoyal Statistical Society:Series B(Statistical Methodology),67(2),301-320;https://doi.org/10.1111/j.1467-9868.2005.00503.x,通过引用并入本文,其还讨论了可能在某些实施方式中使用的几种替代回归方法)。有利的是,弹性网络回归促进了预测系数的稀疏性,即,对于大多数系数而言,系数往往较小,其中大量系数集中在更具预测性的回归变量(在这种情况下,更具预测性的主成分)。这有助于解释主成分(以及对应的转录水平)在时变特性捕获的过程中的生物相关性。
系数的训练和调整可以以任何合适的方式来实现。为了减少过度拟合问题,使用n折交叉验证来训练参数可能是有利的。此外,某些数据可能会保留为纯测试数据,以评估模型在未见过的数据上的性能。任何线性预测器都可以根据特定的实施方式来使用,并且可以组合嵌入和回归步骤。可以使用的一种线性预测器是偏最小二乘法或其变体,其包括E和y两者的嵌入。然而,本公开不限于线性预测器,并且可以使用诸如前馈神经网络或循环神经网络之类的其他预测器来提供时变特性的值的预测器。值得注意的是,线性预测器的优势不仅在于其算法简单性和效率,而且还在于预测系数的可解释性,如下所述。
为了评估每个表达水平对时变特性的预测的贡献,即确定哪些表达水平比其他表达水平更具预测性,预测系数可以通过以下方式投影回表达水平的空间中的贡献系数β*:
其中R“取消缩放”系数以补偿回归期间S的缩放。因此,β*的元素提供了与相应转录水平对应的基因或转录对于时变特性的预测程度的测量。
在可选步骤150,可以接收新转录样本并且可以使用经训练的预测器来预测新转录样本的时变特性的值。新转录样本可以是从用于获得用于训练的样本的同一实验/事件或实验/事件的集合获得的样本,其时变特性的值不可用,或者新转录样本可以是新获得的。为了获得良好的预测,必须仔细控制获得新获得的样本的条件,以匹配获得训练样本的条件,以避免由于技术噪声的差异而降低预测性能而导致显著的批次效应。在许多情况下,这可能是一个挑战,下面讨论纠正此类批次效应的方法,将新的训练数据添加到现有的训练数据中,或者将未标记的新数据与一个或多个训练数据集相结合以提高预测性能。
在进一步可选的步骤160,可以生成报告,提供用于每个基因/转录物的β*的一个或两个元素,以允许评估它们的预测性以及一个或多个新数据样本(如果适用)的时变特性的预测值。报告的其他元素可以是回归系数或其他拟合优度指标、残差和/或可以有助于数据和预测器的解释的任何其他量。
用于训练预测器并且使用组合数据集进行预测的过程包括:接收第一基因转录数据集E的步骤210和接收第二(另外的)基因转录数据集的步骤212,每个步骤均如上文步骤110所述。在步骤214,将两个数据集组合成一个组合数据集,
其中{·|·}是数据集组合操作,在最简单的实施方式中是两个数据集的级联。在一些实施方式中,组合操作包括对个体数据集进行适当的标准化,例如用针对每个细胞样本计算的余弦范数来替换表达水平在一些实施方式中,数据集组合操作包括对不同批次的数据集之间的差异(通常由技术噪声引起)的校正。在一些实施方式中,从第二批次中的每个数据样本中减去批次校正向量,或者按照批次校正行向量的批次校正矩阵B来减去批次校正向量,
然后可以在步骤220以与步骤120类似的方式形成嵌入数据集X,如下:
其中知/>分别是在步骤120和等式3中用C代替E解释的特征向量/主成分和特征值/方差。训练预测器的步骤230、调整预测系数的步骤240以及提供报告的步骤250则类似于上述步骤130、140和160,并且据此应用相应的公开内容。有利的是,通过组合来自不同批次的数据集,例如来自不同实验、同一实验随时间的不同实例、具体生物体的不同个体等,可以创建并且使用更丰富的数据集来获得改进的预测器。
在一些实施方式中,组合步骤214、等式6和7的数据集包括将数据集变换到不同的坐标系。在特定的实施方式中,找到组合数据集的主成分,并且使用与k个最大特征值相关联的组合数据集的主成分的矩阵对组合数据集进行变换,
然后如上所述使用变换后的数据集。
计算组合数据集的主成分包括:以要合并的每个数据集的均值的平均值为中心(而不仅仅是组合数据集的均值),并且通过要合并的相应数据集中的细胞样本的数目的倒数来加权每个细胞样本对协方差矩阵的贡献(或者等效地,通过使用要合并的数据集的协方差矩阵的平均值作为用于主成分分析的协方差矩阵)。然后以常规方式,例如使用特征分解或奇异值分解,针对组合数据集计算主成分。
然后,如上文参考等式6和7所述对组合数据集的选定主成分进行批次校正。在这些实施方式中,组合数据集的维度通过批次校正保持正交,并且虽然可以使用等式8来形成组合的嵌入数据集X,但却没有必要这样做,并且可以使用相同选定的k个维度的C来形成组合的嵌入数据集,
其中Vi,i是C的协方差矩阵V的非零对角线项。当然,可以选择较少数目的维度的C。
用于计算批次校正向量B的各种方法是已知的并且可以在实施方式中使用。在一些实施方式中,使用相互最近邻(MNN)方法,参见Haghverdi,L.,Lun,A.T.L.,Morgan,M.D.,&Maroni,J.C.(2018)Batch effects in single-cell RNA-sequencing data arecorrected by matching mutual nearest neighbors;Nature Biotechnology,36(5),421-427;https://doi.org/10.1038/nbt.4091和https://marionilab.github.io/FurtherMNN2018/theory/description.html,每一个都通过引用并入本文。通过首先针对中的每个En创建K个最近邻的列表,并且然后针对E中的每个/>创建K个最近邻的列表,定义MNN。如果在/>的列表中找到n并且在/>的列表中找到n,则相应数据集中的两个细胞样本n和/>是MNN。K是基于经验或以经验为主地针对具有大量最近邻的每个数据集选择的,增加了对噪声的鲁棒性,并且将最近邻采样到每个细胞样本云的更深处,但增加了计算成本。实际上K=20是一个合适的选择。
针对MNN的MNN批次校正向量是差向量在直接基于表达水平找到MNN的实施方式中,无需正交化和/或降维,诸如PCA,如上所述。在这些实施方式中,可以使用高度可变的基因(HVG)来找到MNN,正如本领域公共的那样。虽然在一些实施方式中可以使用HVG找到MNN,但是在计算批次校正向量的这个阶段可以包括所有感兴趣的基因或所有可用的基因,或者可以针对每个感兴趣的基因集计算单独的批次校正向量。
上述导致产生了针对MNN的批次校正向量集,或MNN批次校正向量。然后从MNN批次校正向量中找到针对非MNN的其他数据样本的批次校正向量,例如,通过将它们与高斯(Gaussian)核组合,使用另一种形式的加权平均,仅使用每个细胞样本的最近邻的MNN批次校正向量,等等。这为所有数据样本提供了局部变异的批次校正向量,然后将其用于如上所述的等式7中。
在一些实施方式中,在应用如上所述的MNN批次向量之前,将每个批次中的细胞样本投影到垂直于每个数据集中的MNN批次向量的平均向量的相应平分平面上(但针对MNN细胞样本本身的投影进行调整)。这确保了合并的细胞样本混合在一起,而不仅仅是像接触的云一样聚集在一起,即使K不够大,无法对批次的理论上面对的表面之外的最近邻进行采样。替代地,批次校正之后的结合数据集中的细胞样本可以被投影到垂直于平均MNN批次校正向量的公共平分平面中,或者可以省略此步骤,尤其是对于足够大的K值。
上文引用的Haghverdi等人(2018)阐述了与上述一致的批次校正方法的全部细节。,其中Haghverdi等人(2018)也描述了可用作batchelor R包的一部分的补充信息和软件包。请参阅https://marionilab.github.io/FurtherMNN2018/theory/description.html了解进一步的相关实施方式,该实施方式在应用批次校正向量之前压缩每个数据集中平均MNN批次校正向量的变异,如上所述。同样可以使用输出校正数据集的降维嵌入的批次校正的替代方法,例如Seurat v3,其以与上述类似的方式在识别“锚”之前实现规范相关性分析。
参考图3,接收第一基因转录数据集310和第二基因转录数据集312的步骤、生成组合数据集314、生成组合嵌入数据集320、训练预测器330以及调整预测系数340类似于上述步骤210、212、214、220、230和240,并且据此应用对应的公开内容,例外的是,仅第一基因转录数据集包括时变特性的实际值y,并且在步骤312该信息不与第二基因转录数据一起接收(或被忽略)。因此,在步骤330和340,仅使用来自特性值可用的第一数据集的数据样本来训练预测器并且调整预测系数,然后所得到的预测器被用来预测第二数据集的数据样本的特性的相应值。通过这种方式,可以预测特性的未知值,例如,针对从生物体的新个体获得的样本,其时变特性是未知的。准备报告的步骤360类似于上述步骤160,包括第二数据集中的样本的预测值。
所描述的实施方式使用主成分分析(例如使用SVD来实现)来计算嵌入,并且选择多个主成分以用于降维。获得嵌入的其他方法同样适用于各种实施方式并且可以用来代替PCA来进行嵌入。例如,可以使用非线性方法(诸如核方法,例如核PCA(kPCA))或非线性方法(诸如训练自动编码器(AE))来找到嵌入。kPCA将特征分解或SVD应用于使用核函数从数据得到的核矩阵,其方式与PCA应用于协方差矩阵的方式类似。基因的预测系数可以用与上面针对PCA描述的类似的方式被恢复,使用逆映射找到基因空间中的权重。可以通过数值优化来找到逆映射,并且可以至少近似地恢复所得到的基因预测系数。AE是经过训练以将其输入与其输出相匹配的神经网络,并且包括隐藏嵌入层,该隐藏嵌入层的单元数少于提供嵌入的输入层和输出层的单元数。可以使用网络的隐藏嵌入层与输出层之间的经训练的解码网络从嵌入的预测系数至少近似地恢复基因预测系数。一般而言,通过将嵌入变换的逆映射应用到嵌入的预测系数,可以从嵌入的预测系数中找到至少近似的基因预测系数。逆映射可以对应于数学逆运算,或者可以是从嵌入到基因空间的任何其他操作映射,即从嵌入数据样本到对应的数据样本的映射。因此,对(非嵌入)数据集的维度的这种投影可以是近似的(例如通过数值方法或神经网络训练找到)或数学上精确的(例如通过矩阵求逆或转置发现,如上面详细描述的PCA作为嵌入的情况)。
硬件实施方式示例
图4示出了计算设备400的一种实施方式的框图,该计算设备中具有可以执行用于使计算设备执行本文所讨论的任何一种或多种的方法中的指令集。在一些替代的实现方式中,计算设备可以连接(例如,联网的)到局域网(LAN)、内联网、外联网或互联网中的其他机器。计算设备可以以客户端-服务器的网络环境中的服务器或客户端机器的能力进行操作,或者作为对等(或分布式)网络环境中的对等机器进行操作。计算设备可以是个人计算机(PC)、平板计算机、机顶盒(STB)、个人数字助理(PDA)、蜂窝电话、网络设备、服务器、网络路由器、交换机或网桥,或者任何能够执行指令集(顺序或其他)的机器,这些指令指定该机器要采取的操作。此外,虽然仅示出了单个计算设备,但术语“计算设备”还应当被理解为包括单独或联合执行一个(或多个)指令集以执行本文讨论的任何一种或多种的方法的机器(例如,计算机)的任何汇集。
示例计算设备400包括处理设备402、主存储器404(例如,只读存储器(ROM)、闪存、动态随机存取存储器(DRAM)(诸如同步DRAM(SDRAM)或Rambus DRAM(RDRAM)等)、静态存储器406(例如闪存、静态随机存取存储器(SRAM)等)和辅助存储器(例如,数据存储设备418),它们经由总线430彼此通信。
处理设备402代表一个或多个通用处理器,诸如微处理器、中央处理单元等。更特别地,处理设备402可以是复杂指令集计算(CISC)微处理器、精简指令集计算(RISC)微处理器、超长指令字(VLIW)微处理器、实现其他指令集的处理器或者实现指令集的组合的处理器。处理设备402还可以是一个或多个专用处理设备,诸如专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)、网络处理器等。处理设备402被配置为执行处理逻辑(指令422)以用于执行本文讨论的操作和步骤。
计算设备400还可以包括网络接口设备408。计算设备400还可以包括视频显示单元410(例如,液晶显示器(LCD)或阴极射线管(CRT))、字母数字输入设备412(例如,键盘或触摸屏)、光标控制设备414(例如,鼠标或触摸屏)和音频设备416(例如,扬声器)。
数据存储设备418可以包括一个或多个机器可读存储介质(或更具体地,一个或多个非暂态计算机可读存储介质)428,其上存储了体现本文描述的任何一种或多种方法或功能的一个或多个指令集422。指令422还可以在由计算机系统400执行期间完全地或至少部分地驻留在主存储器404内和/或处理设备402内,主存储器404和处理器402也构成计算机可读存储介质。
上述各种方法可以通过计算机程序来实现。计算机程序可以包括被布置为指示计算机执行上述各种方法中的一种或多种方法的功能的计算机代码。用于执行此类方法的计算机程序和/或代码可以在一个或多个计算机可读介质上或者更一般地在计算机程序产品上提供给诸如计算机之类的装置。计算机可读介质可以是暂态的或非暂态的。一个或多个计算机可读介质可以是例如电子、磁、光、电磁、红外或半导体系统,或者用于数据传输(例如用于通过互联网下载代码)的传播介质。替代地,一个或多个计算机可读介质可以采用一个或多个物理计算机可读介质的形式,诸如半导体存储器或固态存储器、磁带、可移动计算机软盘、随机存取存储器(RAM)、只读存储器(ROM)、硬磁盘和光盘,诸如CD-ROM、CD-R/W或DVD。
在一种实施方式中,本文描述的模块、组件和其他特征可以被实现为分立组件或集成在诸如ASICS、FPGA、DSP或类似设备的硬件成分的功能中。
“硬件组件”是能够执行某些操作并且可以以某种物理方式配置或布置的有形(例如,非暂态)物理组件(例如,一个或多个处理器的集合)。硬件组件可以包括被永久配置为执行某些操作的专用电路或逻辑。硬件组件可以是或包括专用处理器,诸如现场可编程门阵列(FPGA)或ASIC。硬件组件还可以包括由软件临时配置以执行某些操作的可编程逻辑或电路。
因此,短语“硬件组件”应当被理解为涵盖可以被物理构造、永久配置(例如,硬连线)或临时配置(例如,编程)为以某种方式操作或执行本文描述的某些操作的有形实体。
另外,模块和组件可以被实现为硬件设备内的固件或功能电路。此外,模块和组件可以以硬件设备和软件组件的任何组合来实现,或者仅以软件(例如,存储或以其他方式体现在机器可读介质或传输介质中的代码)来实现。
除非另有明确说明,从以下讨论中可以明显看出,应当理解,在整个描述中,讨论使用诸如“接收”、“确定”、“比较”、“使能”、“维持”、“标识”、“获得”、“接收”、“生成”、“应用”、“调整”、“产生”、“缩放”、“得到”等术语,是指计算机系统或类似电子计算设备的动作和过程,其操纵计算机系统的寄存器和存储器内表示为物理(电子)量的数据并且将其转换为类似地表示为计算机系统存储器或寄存器或其他此类信息存储、传输或显示装置内的物理量的其他数据。
示例
为了证明衰老时钟方法,发明人分析了来自Tabula Muris Senis的单细胞基因表达数据(Tabula Muris Consortium.A single-cell transcriptomic atlascharacterizes ageing tissues in the mouse.Nature583,590–595(2020)。https://doi.org/10.1038/s41586-020-2496-1,通过引用并入),该数据包含来自已知实足年龄的小鼠的多个组织的细胞的转录组。从微流体(“液滴”)方法获得的数据包含四个具有足够时间点来尝试时钟训练的组织:心脏、肺、四肢肌肉和脾脏。在这些组织内,选择了最普遍的细胞类型(由原作者注释),从而得出表1中概述的选择。分析也仅限于雄性小鼠,以防止任何性别影响。
表1-表格概述了Tabula Muris Senis中的组织及其贡献细胞类型,其中有足够的细胞来可靠地训练单细胞衰老时钟。
中值绝对误差(MAE)被发现对于本文描述的训练过程来说是一个很好的损失函数。图5是显示中值绝对误差(MAE)在衰老时钟的预测年龄中的分布的示例,衰老时钟使用来自心脏内皮细胞的不同数目的主成分作为输入进行训练。在经较少的主成分训练的时钟中,最后的已被丢弃。对于每个数目的主成分,训练过程重复10次。虚线是接近最佳模型的阈值,阴影框是可以产生具有这种性能的时钟的主成分的最低数目。通过首先标识产生具有最低平均值MAE的时钟的主成分的数目来计算阈值。然后将由使用该数目的主成分训练的10个时钟产生的MAE的标准误差添加到该组时钟的平均值MAE中。
时钟测试
图6A至G示出了在来自小鼠心脏(A和B)、肺(C和D)、四肢肌肉(E和F)和脾脏(G)的测试集的单细胞中通过本文描述的方法直接在基因表达上进行训练的时钟的性能(在图中称为“RD时钟”);个体细胞类型被标记如下。
字母 | 组织:细胞类型 |
A | 心脏:内皮细胞 |
B | 心脏:成纤维细胞 |
C | 肺:经典单核细胞 |
D | 肺:支气管平滑肌 |
E | 四肢肌肉:间充质干细胞 |
F | 四肢肌肉:骨骼肌卫星细胞 |
G | 脾脏:B细胞 |
每个箱线图代表来自单个供体小鼠的细胞的预测年龄的分布:分组箱线图对应于相同年龄的小鼠,在x方向上抖动以辅助可视化。上枢纽和下枢纽分别对应于第75个百分位数和第25个百分位数,中间枢纽表示中值。胡须从外部枢纽扩展1.5*四分位数范围,落在该范围之外的点由黑点表示。每个图的每个细胞的中值绝对误差(MAE)以月为单位显示,皮尔逊(Pearson)相关系数(Cor.)也是如此,并且y=x由黑色虚线表示。
当在单个数据集中进行训练和测试时,本文描述的方法的误差(由MAE测量)与直接在前2000个高度可变基因上训练的时钟的误差相似,如图6A至G所示。然而,由于后来的主成分已从本文描述的时钟中被丢弃,因此模型将受到技术噪声的影响较小,并且可能较少因“过度拟合”而产生偏差。因此,本文描述的时钟的准确性比直接基因表达时钟的准确性更少膨胀。
从图7中可以看出,另一个好处是减少了时钟训练所需的时间,并且这种时间减少随着用于训练的细胞的数目的增加而增加。图7显示了执行(直接在基因表达上的[“Expr.”,方形]或通过本文描述的方法的[“RD”,圆形])时钟训练的单次迭代所需的平均时间与用于训练过程的细胞的数目的关系。这些点根据用于训练的组织和细胞类型进行字母标注,并且已经使用线性回归拟合直线。插图:来自时钟方法的值使用与主图相同的x轴来被显示,但使用截断的y轴以辅助可视化。使用AMD Ryzen 7 5800X 8核处理器(3.80GHz)和32GB RAM进行训练。
鉴于在训练和优化期间训练过程往往需要重复数千次,这种时间减少是显著的。作为参考,“现实”训练集大小约为5000个细胞(脾B细胞),本文描述的方法大约快60倍。
在数据集之间转移时钟
衰老时钟方法可以用于预测数据集中单个细胞的供体的年龄,这些数据集很少或没有先前的年龄注释。发明人再次使用Tabula Muris Senis来证明这一点,这是因为它还包含针对之前使用的四种组织的单细胞表达数据,这些数据是通过基于荧光激活细胞分选(FACS)的不同测序方法收集的。在3、18和24个月时收集雄性小鼠的细胞。然而,由于在通过液滴法概况的所有组织中缺乏1个月与18个月之间的雄性小鼠样本,因此3个月大的细胞被排除在进一步分析之外。
图8显示了针对本文所述的衰老时钟(“RD”)和针对直接在基因表达上训练的时钟(“Expr.”)的性能度量的比较。在每个面板中,度量被归一化到本文描述的时钟的度量。A:单个数据集中每次ELN训练迭代所花费的时间;B:在单个数据集上训练和测试时钟时每个细胞的MAE;C:在时钟在一个数据集中进行训练并且用于预测单独数据集中的细胞的年龄时每个细胞的MAE。在C中,本文描述的时钟在由针对液滴细胞的MNN方法产生的校正PCA矩阵上进行训练,并且在FACS细胞上进行测试;将图6A至G中训练的直接表达时钟直接应用于FACS细胞;时钟还在根据MNN校正PCA矩阵重建的表达矩阵(“Expr.recon.”)上被训练。
如上所述,将之前在液滴数据上训练的直接表达时钟应用于FACS数据;平均而言,在批次校正后,它们的表现比本文描述的在液滴数据上训练并且在FACS数据上测试的时钟差(图8C)。本文所述时钟的MAE平均降低了37%;在批次效应更显著的数据集中,这种改进也可能更大。
当直接表达时钟被批次转移时,对技术噪声的过度拟合也会导致直接表达时钟相对于本文描述的时钟的误差增加。一般来说,过度拟合会降低直接表达时钟的普遍性以及由此得到的任何生物学结论。这意味着在数据集中训练的直接表达时钟在该数据集的生物复制中表现不佳,即使在绝对零批次效应(极不可能)的情况下也是如此。由于后者的条件很难满足,可以研究这些时钟的通用性的一种方法是使用批次校正的输出。由于MNN方法的输出是类似于校正PCA矩阵的校正矩阵,因此可以通过与本文描述的方法类似的方法根据该矩阵重建“校正”基因表达矩阵。需要注意的是,由于细胞在PCA空间中的强制运动,所得到的“表达”矩阵将高度扭曲,并且通常不应用作针对真实基因表达的数学替代。然而,该矩阵代表唯一实用的方法,通过该方法可以将本文所述的时钟的通用性与不存在批次效应的直接表达时钟进行比较。在这些条件下,本文描述的时钟方法产生了减少的误差(平均MAE减少=30%,图8C),这表明根据本公开的时钟中没有过度拟合而产生了显著的益处。
应当理解,以上描述旨在是说明性的,而不是限制性的。在阅读并理解以上描述后,许多其他实施方式对于本领域技术人员来说将是显而易见的。尽管已经参考特定示例实施方式描述了本公开,但是应当认识到,本公开不限于所描述的实施方式,而是可以在所附权利要求的精神和范围内通过修改和改变来实践。因此,说明书和附图应当被认为是说明性的意义而不是限制性的意义。因此,本公开的范围应当参考所附权利要求以及这些权利要求所享有的等同物的完整范围来确定。
公开的方面和实施例包括以下编号的条款:
1.一种获得用于基于基因转录数据预测时变特性的预测器的计算机实现方法,该方法包括:
接收数据集,数据集包括从具有不同值的时变特性的相应的细胞样本获得的数据样本,每个数据样本包括一定数目的转录水平以及针对每个数据样本的细胞样本的时变特性的相应的实际值,其中每个转录水平是个体基因转录物的转录水平或个体基因的多个基因转录物的池化转录水平;
生成嵌入数据集,该嵌入数据集包括针对每个数据样本的嵌入样本,其中嵌入样本的维度的数目小于转录水平的数目;
将嵌入数据集作为输入应用到预测器,以针对每个嵌入样本产生时变特性的预测值;
通过调整预测器的预测系数以减少时变特性的相应的预测值与实际值之间的预测误差的误差测量,获得预测器。
2.根据条款1所述的方法,包括:对数据集应用变换以生成嵌入数据集,所述方法还包括:通过对数据集进行操作来获得变换。
3.根据条款2所述的方法,包括:不使用基因通路的知识来获得变换。
4.根据条款2或3所述的方法,包括:通过对数据集的协方差矩阵进行操作来获得变换。
5.根据任一前述条款所述的方法,包括:缩放嵌入数据集以具有跨维度基本恒定的方差。
6.根据任一前述条款所述的方法,包括:对转录数据集应用线性变换以生成嵌入数据集。
7.根据条款6所述的方法,其中嵌入数据集包括转录数据集的主成分的子集。
8.根据任一前述条款的方法,包括:对预测系数应用从嵌入数据样本映射到数据样本的逆映射,以将预测系数投影到数据集的维度上,从而得到对预测针对每个基因或转录物的时变特性的值的贡献的测量。
9.根据条款8所述的方法,当从属于权利要求6和7时,其中逆映射包括线性变换的矩阵求逆。
10.根据任一前述条款所述的方法,其中预测器是线性预测器。
11.根据条款10所述的方法,其中线性预测器包括正则化方法以促进预测系数的稀疏性。
12.根据任一前述条款所述的方法,其中调整预测系数包括弹性网络回归。
13.根据任一前述条款所述的方法,其中预测误差是中值绝对预测误差。
14.根据任一前述条款所述的方法,还包括:
接收另外的数据集,该另外的数据集包括从具有时变特性的不同值的相应的另外的细胞样本获得的另外的数据样本,每个另外的数据样本包括一定数目的另外的转录水平以及针对每个另外的数据样本的另外的细胞样本的时变特性的相应的另外的实际值,其中每个另外的转录水平是个体基因转录物的转录水平或个体基因的多个基因转录物的池化转录水平;
将数据集和另外的数据集变换成包括数据样本和另外的数据样本的公共数据集,从而减少数据样本和另外的数据样本对于数据集和另外的数据集非公共的变异性,以及
其中生成嵌入数据集包括:针对公共数据集中的每个数据样本生成嵌入样本。
15.根据条款1至14中任一项所述的方法,还包括:
接收另外的数据集,该另外的数据集包括从具有不同值的时变特性的相应的另外的细胞样本获得的另外的数据样本,每个另外的数据样本包括一定数目的另外的转录水平,其中每个另外的转录水平是个体基因转录物的转录水平或个体基因的多个基因转录物的池化转录水平;
将数据集和另外的数据集变换成包括数据样本和另外的数据样本的公共数据集,从而减少数据样本和另外的数据样本对于数据集和另外的数据集非公共的变异性,
其中生成嵌入数据集包括:针对公共数据集中的每个数据样本生成嵌入样本,并且
其中将嵌入数据集作为输入应用到预测器包括:仅将与基因转录数据样本相对应的嵌入样本作为输入进行应用,以产生针对与数据样本相对应的嵌入数据样本的时变特性的相应的预测值;以及
在获得预测器之后,将与另外的数据样本相对应的嵌入样本应用到预测器,以预测针对另外的细胞样本的时变特性的相应的值。
16.根据任一前述条款所述的方法,其中嵌入样本的维度的数目是基于具有不同的相应数目的维度的嵌入数据集相应的预测性能来选择的。
17.根据任一前述条款所述的方法,其中时变特性是关于已经从其获得细胞样本的一个或多个生物体或受试方的。
18.根据条款16所述的方法,还包括:生成标识一个或多个生物体或受试方的时变特性的报告。
19.根据条款1至16中任一项所述的方法,其中细胞是已经从细胞培养物中获得的。
20.根据任一前述条款所述的方法,其中细胞样本均为单个细胞的单细胞样本。
21.根据任一前述条款所述的方法,其中时变特性是生物学年龄。
22.根据条款1至20中任一项所述的方法,其中时变特性是实足年龄。
23.根据条款1至20中任一项所述的方法,其中时变特性是病症或疾病的进展状态。
24.根据条款23所述的方法,其中病症或疾病是神经退行性疾病。
25.根据条款24所述的方法,其中神经退行性是阿尔茨海默病。
26.根据条款24所述的方法,其中神经退行性是帕金森病。
27.根据条款1至20中任一项所述的方法,其中时变特性是癌症的进展状态。
28.根据任一前述条款所述的方法,其中转录水平以及在存在情况下的另外的转录水平,在不使用基因通路的知识的情况下已经由细胞样本中基因转录物的转录计数得到。
29.根据条款28所述的方法,包括:不使用基因通路的知识的情况下,生成嵌入数据集。
30.根据条款28所述的方法,包括:在不使用基因通路的知识的情况下,应用嵌入数据集并且获得预测器。
31.根据任一前述条款所述的方法,还包括:在获得预测器之后,使用基因通路或生物活性的现有知识、任何其他现有生物学知识或从预测系数得到的知识来优化预测器。
32.一种计算机程序产品,包括计算机代码指令,该计算机代码指令当在处理器上执行时,实现根据任一前述条款所述的方法。
33.一种计算机可读介质,包括计算机代码指令,该计算机代码指令当在处理器上执行时,实现根据条款1至31中任一项所述的方法。
34.一种系统,包括处理器和如条款33中所定义的计算机可读介质,其中处理器被配置为执行计算机代码指令。
35.一种系统,包括用于实现如在条款1至31中任一项所定义的方法的部件。
Claims (17)
1.一种获得用于基于基因转录数据预测时变特性的预测器的计算机实现方法,所述方法包括:
接收数据集,所述数据集包括从具有不同值的所述时变特性的相应的细胞样本获得的数据样本,每个数据样本包括一定数目的转录水平以及针对每个数据样本的细胞样本的所述时变特性的相应的实际值,其中每个转录水平是个体基因转录物的转录水平或个体基因的多个基因转录物的池化转录水平;
生成嵌入数据集,所述嵌入数据集包括针对每个数据样本的嵌入样本,其中所述嵌入样本的维度的数目小于所述转录水平的数目;
将所述嵌入数据集作为输入应用到所述预测器,以针对每个嵌入样本产生所述时变特性的预测值;
调整所述预测器的预测系数以减少所述时变特性的相应的预测值与实际值之间的预测误差的误差测量。
2.根据权利要求1所述的方法,包括:对所述数据集应用变换以生成所述嵌入数据集,所述方法还包括:通过对所述数据集进行操作来获得所述变换。
3.根据权利要求2所述的方法,包括:不使用基因通路的知识来获得所述变换。
4.根据权利要求2或3所述的方法,包括:通过对所述数据集的协方差矩阵进行操作来获得所述变换。
5.根据任一前述权利要求所述的方法,包括:缩放所述嵌入数据集以具有跨维度基本恒定的方差。
6.根据任一前述权利要求所述的方法,包括:对所述转录数据集应用线性变换以生成所述嵌入数据集。
7.根据权利要求6所述的方法,其中所述嵌入数据集包括所述转录数据集的主成分的子集。
8.根据任一前述权利要求所述的方法,包括:对所述预测系数应用从所述嵌入数据样本映射到所述数据样本的逆映射,以将所述预测系数投影到所述数据集的所述维度上,从而得到对预测针对每个基因或转录物的所述时变特性的值的贡献的测量。
9.根据上述任一项权利要求所述的方法,其中所述预测器是线性预测器。
10.根据任一前述权利要求所述的方法,还包括:
接收另外的数据集,所述另外的数据集包括从具有不同值的所述时变特性的相应的另外的细胞样本获得的另外的数据样本,每个另外的数据样本包括一定数目的另外的转录水平以及针对每个另外的数据样本的所述另外的细胞样本的所述时变特性的相应的另外的实际值,其中每个另外的转录水平是个体基因转录物的转录水平或个体基因的多个基因转录物的池化转录水平;
将所述数据集和所述另外的数据集变换成包括所述数据样本和所述另外的数据样本的公共数据集,从而减少所述数据样本和所述另外的数据样本对于所述数据集和所述另外的数据集非公共的变异性,以及
其中生成所述嵌入数据集包括:针对所述公共数据集中的每个数据样本生成嵌入样本。
11.根据权利要求1到10中任一项所述的方法,还包括:
接收另外的数据集,所述另外的数据集包括从具有不同值的所述时变特性的相应的另外的细胞样本获得的另外的数据样本,每个另外的数据样本包括一定数目的另外的转录水平,其中每个另外的转录水平是个体基因转录物的转录水平或个体基因的多个基因转录物的池化转录水平;
将所述数据集和所述另外的数据集变换成包括所述数据样本和所述另外的数据样本的公共数据集,从而减少所述数据样本和所述另外的数据样本对于所述数据集和所述另外的数据集非公共的变异性,
其中生成所述嵌入数据集包括:针对所述公共数据集中的每个数据样本生成嵌入样本,并且
其中将所述嵌入数据集作为输入应用到所述预测器包括:仅将与所述基因转录数据样本相对应的所述嵌入样本作为输入进行应用,以产生针对与所述数据样本相对应的所述嵌入数据样本的所述时变特性的相应的预测值;以及
在获得所述预测器之后,将与所述另外的数据样本相对应的所述嵌入样本应用到所述预测器,以预测针对所述另外的细胞样本的所述时变特性的相应的值。
12.根据任一前述权利要求所述的方法,其中所述嵌入样本的所述维度的所述数目是基于具有不同的相应数目的维度的嵌入数据集的相应的预测性能来选择的。
13.根据任一前述权利要求所述的方法,其中所述时变特性是已经从其中获得所述细胞样本的一个或多个生物体或受试方的时变特性,并且还包括生成标识所述一个或多个生物体或受试方的所述时变特性的值的报告。
14.根据任一前述权利要求所述的方法,其中所述细胞样本均为单个细胞的单细胞样本。
15.根据任一前述权利要求所述的方法,其中所述时变特性是病症或疾病的进展状态、生物学年龄或实足年龄,可选地其中所述病症或疾病是神经退行性疾病或癌症,可选地其中所述神经退行性疾病是阿尔茨海默病或帕金森病。
16.根据任一前述权利要求所述的方法,其中所述转录水平以及在存在情况下的所述另外的转录水平,在不使用基因通路的知识的情况下已经由所述细胞样本中基因转录物的转录计数得到。
17.根据权利要求16所述的方法,包括:在不使用基因通路的知识的情况下生成所述嵌入数据集和/或在不使用基因通路的知识的情况下应用所述嵌入数据集并且获得所述预测器。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP21186218.0 | 2021-07-16 | ||
EP21186218.0A EP4120278A1 (en) | 2021-07-16 | 2021-07-16 | Temporal property predictor |
PCT/EP2022/069899 WO2023285673A1 (en) | 2021-07-16 | 2022-07-15 | Temporal property predictor |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118043894A true CN118043894A (zh) | 2024-05-14 |
Family
ID=76958871
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202280057500.1A Pending CN118043894A (zh) | 2021-07-16 | 2022-07-15 | 时间特性预测器 |
Country Status (3)
Country | Link |
---|---|
EP (2) | EP4120278A1 (zh) |
CN (1) | CN118043894A (zh) |
WO (1) | WO2023285673A1 (zh) |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015048665A2 (en) | 2013-09-27 | 2015-04-02 | The Regents Of The University Of California | Method to estimate the age of tissues and cell types based on epigenetic markers |
EP3494210A4 (en) | 2016-08-05 | 2020-03-11 | The Regents Of The University Of California | MORTALITY PRONOSTICER BASED ON DNA METHYLATION |
US10325673B2 (en) | 2017-07-25 | 2019-06-18 | Insilico Medicine, Inc. | Deep transcriptomic markers of human biological aging and methods of determining a biological aging clock |
-
2021
- 2021-07-16 EP EP21186218.0A patent/EP4120278A1/en not_active Withdrawn
-
2022
- 2022-07-15 CN CN202280057500.1A patent/CN118043894A/zh active Pending
- 2022-07-15 EP EP22751356.1A patent/EP4371117A1/en active Pending
- 2022-07-15 WO PCT/EP2022/069899 patent/WO2023285673A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
EP4371117A1 (en) | 2024-05-22 |
EP4120278A1 (en) | 2023-01-18 |
WO2023285673A1 (en) | 2023-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mulder | Prior adjusted default Bayes factors for testing (in) equality constrained hypotheses | |
EP3822625B1 (en) | Method for measuring concentration of a biometric measurement object by using artificial intelligence deep learning | |
WO2019213860A1 (en) | Advanced ensemble learning strategy based semi-supervised soft sensing method | |
Tjärnberg et al. | Optimal tuning of weighted kNN-and diffusion-based methods for denoising single cell genomics data | |
Dunkler et al. | Statistical analysis principles for Omics data | |
US20210311001A1 (en) | Information processing apparatus, control method of information processing apparatus, and computer-readable storage medium therefor | |
Tiwari et al. | Bayesian model selection for join point regression with application to age-adjusted cancer rates | |
Simon | Resampling strategies for model assessment and selection | |
Mantini et al. | Independent component analysis for the extraction of reliable protein signal profiles from MALDI-TOF mass spectra | |
Lyu et al. | Discriminating sample groups with multi-way data | |
CN113056672A (zh) | 信息处理装置、信息处理装置的控制方法、程序、计算装置和计算方法 | |
Liu et al. | Function-on-scalar quantile regression with application to mass spectrometry proteomics data | |
Fouskakis et al. | Power-expected-posterior priors for generalized linear models | |
Zhou et al. | Doubly robust augmented model accuracy transfer inference with high dimensional features | |
Li et al. | Efficient Bayesian estimation for GARCH-type models via Sequential Monte Carlo | |
Ito et al. | Grouped generalized estimating equations for longitudinal data analysis | |
Koo et al. | Analysis of Metabolomic Profiling Data Acquired on GC–MS | |
Liu et al. | Characteristic gene selection via weighting principal components by singular values | |
Wang et al. | A dynamic wavelet-based algorithm for pre-processing tandem mass spectrometry data | |
CN118043894A (zh) | 时间特性预测器 | |
JP4873483B2 (ja) | 信号強度の時系列情報の解析方法、解析プログラム、並びに解析装置 | |
JP2020106340A (ja) | 情報処理装置、情報処理装置の制御方法、及びプログラム | |
TW202324151A (zh) | 用於分析基因數據之電腦實施的方法及裝置 | |
Wang et al. | RobNorm: model-based robust normalization method for labeled quantitative mass spectrometry proteomics data | |
Turek et al. | OmicsON–Integration of omics data with molecular networks and statistical procedures |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |