CN115565608A - 一种鉴定样本中间充质干细胞的组织来源的方法及其用途 - Google Patents

一种鉴定样本中间充质干细胞的组织来源的方法及其用途 Download PDF

Info

Publication number
CN115565608A
CN115565608A CN202210710572.3A CN202210710572A CN115565608A CN 115565608 A CN115565608 A CN 115565608A CN 202210710572 A CN202210710572 A CN 202210710572A CN 115565608 A CN115565608 A CN 115565608A
Authority
CN
China
Prior art keywords
mscs
sample
gene
hmscs
machine learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210710572.3A
Other languages
English (en)
Inventor
张可华
孟淑芳
纳涛
贾春翠
韩晓燕
吴婷婷
张丽霞
吴雪伶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institutes for Food and Drug Control
Original Assignee
National Institutes for Food and Drug Control
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institutes for Food and Drug Control filed Critical National Institutes for Food and Drug Control
Priority to CN202210710572.3A priority Critical patent/CN115565608A/zh
Priority to PCT/CN2022/110507 priority patent/WO2023245827A1/zh
Publication of CN115565608A publication Critical patent/CN115565608A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本申请涉及药学与医学领域,具体涉及一种构建鉴定间充质干细胞(MSCs)组织来源的模型的方法,还涉及一种鉴定样本中MSCs的组织来源的方法和装置,还涉及用于确定样品中生物标志物水平的试剂在制备试剂盒中的用途。

Description

一种鉴定样本中间充质干细胞的组织来源的方法及其用途
技术领域
本申请涉及生物学与医学领域,具体涉及一种构建鉴定间充质干细胞(MSCs)组织来源的模型的方法,还涉及一种鉴定样本中MSCs的组织来源的方法和装置,还涉及用于确定样品中生物标志物水平的试剂在制备试剂盒中的用途。
背景技术
人间充质干细胞(human mesenchymal stem cells,hMSCs)是一类具有多能性的成体干细胞,具有分化成中胚层谱系细胞的潜能,并且具有较强的调节免疫、抗凋亡、抗纤维化、促进组织修复再生的作用。由于hMSCs存在于体内多种组织中、易于分离和体外培养,hMSCs具有了较高的临床应用价值。国内目前以研究MSC安全性和有效性为目的开展的临床研究有100余项,涉及到的适应症有骨关节炎、移植物抗宿主病(GvHD)、糖尿病、卵巢早衰等。
hMSCs最初在骨髓中被分离鉴定,后续大量研究表明hMSCs广泛存在于人体各种组织中,例如脂肪组织、牙髓和牙囊等牙组织、毛囊、以及胎儿脐带和胎盘等围产期组织。许多研究已经观察到不同组织来源的hMSCs除了起源不同之外,细胞特性存在很大的差异。例如骨髓来源hMSCs具有较强的成骨分化能力和较弱的增殖能力,脂肪来源hMSCs则具有较强的成脂分化能力和增殖能力,更强的IDO1活性;围产期来源hMSCs具有最强的增殖能力,成骨和成脂分化能力却较弱(Front.Med.,20September 2021|https://doi.org/10.3389/fmed.2021.728496)。除了已经报道的特性差异之外,组学研究表明不同组织来源hMSCs之间具有独特的转录组表达谱(Biotechnol Lett.2020Jul;42(7):1287-1304.doi:10.1007/s10529-020-02898-x.Epub 2020May 5.)。随着人们对不同组织来源hMSCs的生物学特性的认识逐渐加深,以及针对各种临床适应症的临床研究数据积累,有目的的选择合适的组织来源的MSC进行相应的疾病的治疗探索更加合理而有效。
建立hMSCs组织来源特异性鉴别方法具有重要的意义。第一,临床用hMSCs细胞制剂或中间体细胞库的组织来源目前只能通过采集和制备记录进行追踪,在质量控制过程中尚无有效的方法进行鉴别,一旦发生混淆或交叉污染将无法正确识别。第二,承担干细胞产品质量复核的监管机构/实验室也需要通过检测数据来鉴别和复核生产单位送检的hMSCs的组织来源。第三,一些研究者试图通过多能干细胞诱导分化成与各类组织来源的hMSCs性质相近或相同的细胞产品,用于特定适应症的治疗研究,这种情形下,鉴别hMSCs的组织来源变得尤为重要。
然而,hMSCs组织来源特异性鉴别国际上尚无方法可用。尽管国际细胞治疗学会(ISCT)在2006年提出了hMSCs的最低标准,但该定义是非特异性的,未能解决来自不同组织hMSCs以及hMSCs和成纤维细胞之间的差异。后续一些研究试图通过表面标志物分子、转录组学表达谱、分泌组特征等研究不同组织来源hMSCs的特征性的鉴别方法,但是目前尚没有建立有效的方法,一方面由于许多标志物分子本身不具有非常好的特异性,例如,CD29通常认为是脂肪干细胞表面标志物,但在胎盘来源的hMSCs中同样高表达,CD146在骨髓MSC和脐带hMSCs中均有表达、CD271则在骨髓和脂肪来源hMSCs中均表达(Stem Cells,Volume 32,Issue 6,June 2014,Pages 1408–1419,),其次,一些个别的研究试图探索组织来源特征性的蛋白表达谱或分泌谱,但研究往往受取材限制,仅局限于比较一两种组织来源的hMSCs,不能涵盖临床研究中常见的各种hMSCs。
因此,需要提供一种方法,以便能够对临床研究中常见的不同组织来源的hMSCs的组织来源进行准确地鉴别。
发明内容
本申请通过对hMSCs进行转录组测序,利用机器学习方法筛选到了能够鉴定hMSCs组织来源的生物标志物组合,通过机器学习方法对137株hMSCs的生物标志物基因的表达量与其组织来源分类进行训练和验证,从而构建了一个基于生物标志物组合鉴定hMSCs组织来源的机器学习模型。该模型可以对临床研究中常见的不同组织来源的hMSCs的组织来源进行准确地鉴别。
因此,在第一方面,本申请提供了一种构建鉴定间充质干细胞(MSCs)组织来源的模型的方法,其包括:
步骤(1):提供n株来源于不同组织的MSCs,收集所述MSCs转录组测序的信息,其中,所述n为大于等于10的整数;
步骤(2):从所述转录组测序的信息中获得mRNA的信息;
步骤(3):从所述mRNA的信息中获得TPMmax大于10的基因;
步骤(4):将步骤(3)获得的基因的表达量做为特征向量,通过机器学习方法对所述特征向量进行筛选,并获得目标特征向量;
步骤(5):利用所述目标特征向量的表达量对机器学习模型进行训练,以构建鉴定间充质干细胞(MSCs)组织来源的模型。
在某些实施方案中,在步骤(4)中,所述基因的表达量为基因的TPM值。
在某些实施方案中,在步骤(5)中,所述目标特征向量的表达量为目标特征向量的TPM值。
在某些实施方案中,在步骤(5)中,从所述n株来源于不同组织的MSCs中随机提取55%至95%的样本作为训练集,利用训练集的目标特征向量对机器学习模型进行训练,以构建鉴定间充质干细胞(MSCs)组织来源的模型。
在某些实施方案中,所述方法还包括步骤(6):将提取至训练集以外的MSCs作为测试集,利用测试集的目标特征向量对机器学习模型进行测试,以确定所述模型的准确度、灵敏度和特异性。
在某些实施方案中,所述机器学习模型选自Lasso回归,岭回归,支持向量机或线性判别。
在某些实施方案中,所述机器学习模型为Lasso回归。
在某些实施方案中,在步骤(5)中,从所述n株来源于不同组织的MSCs中随机提取55%,60%,65%,70%,75%,80%,85%,90%或95%的样本作为训练集。
在某些实施方案中,所述目标特征向量包含下述基因或者包含下述基因的转录产物:ACVRL1,ARMC9,BCHE,CD55,EBP,FN1,FST,HOTAIRM1,LIMK2,MECOM,METTL26,MSX1,NBPF3,NECTIN3,NRXN2,PDE5A,RIN3,RPA2,RSL24D1,TSSC2和ZIC1。
在某些实施方案中,所述目标特征向量选自下述基因或者选自下述基因的转录产物:ACVRL1,ARMC9,BCHE,CD55,EBP,FN1,FST,HOTAIRM1,LIMK2,MECOM,METTL26,MSX1,NBPF3,NECTIN3,NRXN2,PDE5A,RIN3,RPA2,RSL24D1,TSSC2,ZIC1,或其任意组合。
在某些实施方案中,所述n为10至50之间的整数,51至100之间的整数,101至150之间的整数,151至200之间的整数,201至250之间的整数,251至300之间的整数,301至500之间的整数,或501至1000之间的整数。
在某些实施方案中,所述n株来源于不同组织的MSCs的来源选自骨髓,脐带,胎盘或其部分(例如,胎盘羊膜),脂肪,牙髓,毛囊,皮肤,血液,或其任意组合。
在某些实施方案中,所述MSCs是来源于哺乳动物(例如,小鼠,人)的MSCs。
在某些实施方案中,所述MSCs是来源于人的MSC(hMSCs)。
在某些实施方案中,所述基因ACVRL1的Entrez Gene ID为94。
在某些实施方案中,所述基因ARMC9的Entrez Gene ID为80210。
在某些实施方案中,所述基因BCHE的Entrez Gene ID为590。
在某些实施方案中,所述基因CD55的Entrez Gene ID为1604。
在某些实施方案中,所述基因EBP的Entrez Gene ID为10682。
在某些实施方案中,所述基因FN1的Entrez Gene ID为2335。
在某些实施方案中,所述基因FST的Entrez Gene ID为10468。
在某些实施方案中,所述基因HOTAIRM1的Entrez Gene ID为100506311。
在某些实施方案中,所述基因LIMK2的Entrez Gene ID为3985。
在某些实施方案中,所述基因MECOM的Entrez Gene ID为2122。
在某些实施方案中,所述基因METTL26的Entrez Gene ID为84326。
在某些实施方案中,所述基因MSX1的Entrez Gene ID为4487。
在某些实施方案中,所述基因NBPF3的Entrez Gene ID为84224。
在某些实施方案中,所述基因NECTIN3的Entrez Gene ID为25945。
在某些实施方案中,所述基因NRXN2的Entrez Gene ID为9379。
在某些实施方案中,所述基因PDE5A的Entrez Gene ID为8654。
在某些实施方案中,所述基因RIN3的Entrez Gene ID为79890。
在某些实施方案中,所述基因RPA2的Entrez Gene ID为6118。
在某些实施方案中,所述基因RSL24D1的Entrez Gene ID为51187。
在某些实施方案中,所述基因TSSC2的Entrez Gene ID为650368。
在某些实施方案中,所述基因ZIC1的Entrez Gene ID为7545。
在某些实施方案中,所述基因ACVRL1的Ensembl Gene ID为ENSG00000139567。
在某些实施方案中,所述基因ARMC9的Ensembl Gene ID为ENSG00000135931。
在某些实施方案中,所述基因BCHE的Ensembl Gene ID为ENSG00000114200。
在某些实施方案中,所述基因CD55的Ensembl Gene ID为ENSG00000196352。
在某些实施方案中,所述基因EBP的Ensembl Gene ID为ENSG00000147155。
在某些实施方案中,所述基因FN1的Ensembl Gene ID为ENSG00000115414。
在某些实施方案中,所述基因FST的Ensembl Gene ID为ENSG00000134363。
在某些实施方案中,所述基因HOTAIRM1的Ensembl Gene ID为ENSG00000233429。
在某些实施方案中,所述基因LIMK2的Ensembl Gene ID为ENSG00000182541。
在某些实施方案中,所述基因MECOM的Ensembl Gene ID为ENSG00000085276。
在某些实施方案中,所述基因METTL26的Ensembl Gene ID为ENSG00000130731。
在某些实施方案中,所述基因MSX1的Ensembl Gene ID为ENSG00000163132。
在某些实施方案中,所述基因NBPF3的Ensembl Gene ID为ENSG00000142794。
在某些实施方案中,所述基因NECTIN3的Ensembl Gene ID为ENSG00000177707。
在某些实施方案中,所述基因NRXN2的Ensembl Gene ID为ENSG00000110076。
在某些实施方案中,所述基因PDE5A的Ensembl Gene ID为ENSG00000138735。
在某些实施方案中,所述基因RIN3的Ensembl Gene ID为ENSG00000100599。
在某些实施方案中,所述基因RPA2的Ensembl Gene ID为ENSG00000117748。
在某些实施方案中,所述基因RSL24D1的Ensembl Gene ID为ENSG00000137876。
在某些实施方案中,所述基因TSSC2的Ensembl Gene ID为ENSG00000223756。
在某些实施方案中,所述基因ZIC1的Ensembl Gene ID为ENSG00000152977。
在另一方面,本申请提供了一种机器学习模型,所述机器学习模型由如前所述的方法构建而成。
在某些实施方案中,所述机器学习模型用于鉴定样本中一种或多种MSCs的组织来源(例如,骨髓,脐带,胎盘或其部分(例如,胎盘羊膜),脂肪,牙髓,毛囊,皮肤,血液,或其任意组合)。
在另一方面,本申请提供了如前所述的机器学习模型在鉴定样本中一种或多种MSCs的组织来源的用途。
在另一方面,本申请提供了一种鉴定样本中MSCs的组织来源的方法,包括:
步骤(a):提供所述样本中MSCs的目标特征向量的表达量,所述目标特征向量包含下述基因或者包含由下述基因的转录产物:ACVRL1,ARMC9,BCHE,CD55,EBP,FN1,FST,HOTAIRM1,LIMK2,MECOM,METTL26,MSX1,NBPF3,NECTIN3,NRXN2,PDE5A,RIN3,RPA2,RSL24D1,TSSC2和ZIC1;
步骤(b):将所述目标特征向量的表达量输入如前所构建的机器学习模型,以鉴定样本中MSCs的组织来源。
在某些实施方案中,在步骤(a)中,所述表达量为TPM值。
在某些实施方案中,所述TPM值通过转录组测序获得。
在某些实施方案中,所述目标特征向量包含下述基因或者包含由下述基因所表达的蛋白:ACVRL1,ARMC9,BCHE,CD55,EBP,FN1,FST,HOTAIRM1,LIMK2,MECOM,METTL26,MSX1,NBPF3,NECTIN3,NRXN2,PDE5A,RIN3,RPA2,RSL24D1,TSSC2和ZIC1。
在某些实施方案中,所述样本中含有一种或多种MSCs。
在某些实施方案中,在上述步骤(a)中,通过对所述样本中的MSCs进行转录组测序,以获得所述样本中MSCs的目标特征向量的表达量;或者,在上述步骤(a)中,通过对所述样本中MSCs的目标特征向量进行表达谱芯片检测、单细胞转录组测序、RT-qPCR测定、数字PCR测定,以获得所述样本中MSCs的目标特征向量的表达量。
在某些实施方案中,所述MSCs的组织来源选自骨髓,脐带,胎盘或其部分(例如,胎盘羊膜),脂肪,牙髓,毛囊,胎盘中其他部位的组织,皮肤,血液,或其任意组合。
在某些实施方案中,所述MSCs是来源于哺乳动物(例如,小鼠,人)的MSCs。
在某些实施方案中,所述MSCs是来源于人的MSC(hMSCs)。
在某些实施方案中,所述样本含有的脂肪hMSCs的比例大于等于30%。
在某些实施方案中,所述样本含有的骨髓hMSCs的比例大于等于40%。
在某些实施方案中,所述样本含有的牙髓hMSCs的比例大于等于40%。
在某些实施方案中,所述样本含有的毛囊hMSCs的比例大于等于30%。
在某些实施方案中,所述样本含有的脐带hMSCs的比例大于等于20%。
在某些实施方案中,所述样本含有的胎盘羊膜hMSCs的比例大于等于40%。
在另一方面,本申请提供了一种鉴定间充质干细胞组织来源的装置,包括:
存储器,被配置为存储指令;
处理器,耦合到存储器,处理器被配置为基于存储器存储的指令执行实现如前所述的方法。
在另一方面,本申请提供了一种计算机可读存储介质,其中,计算机可读存储介质存储有计算机指令,指令被处理器执行时实现如前所述的方法。
在另一方面,本申请提供了一种用于鉴定样本中一种或多种MSCs的组织来源的试剂盒,所述试剂盒包含用于确定样品中生物标志物水平的试剂,所述生物标志物包含ACVRL1,ARMC9,BCHE,CD55,EBP,FN1,FST,HOTAIRM1,LIMK2,MECOM,METTL26,MSX1,NBPF3,NECTIN3,NRXN2,PDE5A,RIN3,RPA2,RSL24D1,TSSC2和ZIC1。
在某些实施方案中,所述生物标志物的水平是所述生物标志物的蛋白质或mRNA水平。
在某些实施方案中,所述MSCs是来源于哺乳动物(例如,小鼠,人)的MSCs。
在某些实施方案中,所述MSCs是来源于人的MSC(hMSCs)。
在另一方面,本申请提供了用于确定样品中生物标志物水平的试剂在制备试剂盒中的用途,所述试剂盒用于鉴定样本中一种或多种MSCs的组织来源;其中,所述生物标志物包含ACVRL1,ARMC9,BCHE,CD55,EBP,FN1,FST,HOTAIRM1,LIMK2,MECOM,METTL26,MSX1,NBPF3,NECTIN3,NRXN2,PDE5A,RIN3,RPA2,RSL24D1,TSSC2和ZIC1。
在某些实施方案中,所述生物标志物的水平是所述生物标志物的蛋白质或mRNA水平。
在某些实施方案中,所述MSCs是来源于哺乳动物(例如,小鼠,人)的MSCs。
在某些实施方案中,所述MSCs是来源于人的MSC(hMSCs)。
术语定义
在本公开中,除非另有说明,否则本文中使用的科学和技术名词具有本领域技术人员所通常理解的含义。并且,本文中所用的细胞培养、分子遗传学、核酸化学、免疫学实验室操作步骤均为相应领域内广泛使用的常规步骤。同时,为了更好地理解本公开,下面提供相关术语的定义和解释。
如本文中所使用的,术语“样品”是指从受试者获得的生物样品,所述样品可以是含有或推测含有人间充质干细胞的样品。
如本文中所使用的,术语“机器学习模型”或“机器学习方法”或“统计学习方法”代表相同的含义,可以互换使用。其是指参数和函数的集合,能够通过训练样品中的测量特征(目标特征向量)以建立相应的训练模型。在某些实施方案中,所述训练模型可以在优化参数的训练过程中从训练样品中学习,以提供用于分类新样品的最佳质量度量(例如,准确性)。在某些实施方案中,所述参数和函数可以是线性代数运算、非线性代数运算和张量代数运算的集合。在某些实施方案中,所述参数和函数可以包含统计函数、检验和概率模型。在某些实施方案中,所述训练样品中的测量特性是基因的表达量。
如本文中所使用的,术语“特异性(specificity)”是指本身被正确地鉴定的实际阴性的比例。
如本文中所使用的,术语“灵敏度(sensitivity)”是指本身被正确地鉴定的实际阳性的比例。
如本文中所使用的,术语“转录组测序”或“RNA-seq”是指通过测序平台(例如,二代测序平台)快速全面地获得某一物种特定细胞或组织在某一状态下的几乎所有的转录本及基因序列。其可以用于研究基因表达量、基因功能、结构、可变剪接和新转录本预测等。通常,在转录组测序的分析中,有三个经典的数值,即count,FPKM以及TPM值。
如本文中所使用的,术语“count”是指测序数据中比对到某个基因上的读段(reads)的总数目,即,将测得的读段比对到参考基因组上,然后通过软件来计算比对到该基因上的读段的总数量。
如本文中所使用的,术语“FPKM(fragments per kilobase million)”是指比对到的某个基因的片段(Fragment)数目,对测序深度进行归一化,然后再对基因长度进行归一化,以消除不同测序样本间由于测序深度和基因长度对结果的影响。
如本文中所使用的,术语“TPM(transcripts per million)”是指比对到的某个基因的片段(Fragment)数目,先对基因长度进行归一化,然后再对测序深度进行归一化,以消除不同测序样本间由于测序深度和基因长度对结果的影响。在某些实施方案中,TPM可以做为基因表达量的衡量指标。
如本文中所使用的,术语“TPMmax”,其是指一组样本中某基因的TPM值的最大值。
有益效果
本申请提供了一种鉴定间充质干细胞(MSCs)组织来源的模型以及构建该模型的方法,能够对临床研究中常见的不同组织来源的MSCs的组织来源进行准确地鉴别。该模型经过训练集,测试集以及外部数据集的多次验证,准确度,灵敏度和特异性均能够达到95%及以上(甚至能高达100%)。此外,本申请建立的模型还能够鉴定样品中多种混合的间充质干细胞各自的组织来源,且准确度,灵敏度和特异性也能够达到100%,具有了较高的临床应用价值。
附图说明
图1显示了实施例2中机器学习模型对训练集的准确度、灵敏度和特异性的检测结果。
图2显示了实施例2中机器学习模型对测试集的准确度、灵敏度和特异性的检测结果。
图3显示了实施例2中机器学习模型对外部数据集的准确度、灵敏度和特异性的检测结果。
图4显示了实施例3中机器学习模型对混合细胞的预测能力,其中,图4A为模拟混合样本1的中2种不同来源的hMSCs的检测结果,图4B为模拟混合样本2中2种不同来源的hMSCs的检测结果,图4C为模拟混合样本3中2种不同来源的hMSCs的检测结果。
图5显示了实施例3中机器学习模型对模拟混合样本4的中3种不同来源的hMSCs的检测结果。
具体实施方式
现参照下列意在举例说明本发明(而非限定本发明)的实施例来描述本发明。除非特别指明,否则基本上按照本领域内熟知的以及在各种参考文献中描述的常规方法进行实施例中描述的实验和方法。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
另外,实施例中未注明具体条件者,按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者,均为可以通过市购获得的常规产品。本领域技术人员知晓,实施例以举例方式描述本发明,且不意欲限制本发明所要求保护的范围。本文中提及的全部公开案和其他参考资料以其全文通过引用合并入本文。
实施例1.试验材料和设备
1、用于建立机器学习模型的hMSCs细胞共137株,均来自于中国食品药品检定研究院细胞资源保藏研究中心,组织来源及数量见下述表1。
表1.建立机器学习模型的hMSCs细胞
Figure BDA0003707810320000121
2、收集了共99株hMSCs细胞数据,作为进一步测试的外部数据集,组织来源及数量见下述表2。
表2.外部数据集的hMSCs细胞
Figure BDA0003707810320000122
Figure BDA0003707810320000131
3、试验所使用的具体材料和设备见下述表3。
表3.材料及设备
Figure BDA0003707810320000132
实施例2.机器学习模型的建立
一、建立机器学习模型
1、转录组测序
实施例1中的137株hMSCs细胞采用Trizol法提取RNA,通过表3中的cDNA文库构建试剂盒,将提取的RNA反转录成cDNA并建立cDNA文库,通过表3中的测序试剂盒进行转录组测序,获得137株hMSCs细胞的转录组测序的信息。
2、转录组测序后数据分析
转录组测序后每个样本得到约6G的cleanbase,分析流程如下述表4所示。
表4.转录组测序过程
Figure BDA0003707810320000141
经过上述分析后,得到137株hMSCs细胞的基因的转录表达水平,其中,包括转录本的count值、FPKM和TPM。
3、统计学习数据预处理
预处理软件:R(ver=4.1.3),R包tidyverse(ver=1.3.1)。
从转录本中根据Official Symbol识别过滤出mRNA,共得到38735个基因,利用R包tidyverse从中过滤出高丰度表达基因(TPMmax>10),共得到13315个基因。
4、统计学习建模
统计学习建模平台:R;软件glmnet和tidymodel。
将137个hMSCs转录组数据分成训练集(70%)和测试集(30%),将13315个基因做为特征向量,采用lasso回归(10折交叉验证)进行特征向量筛选,方法为:cv.glmnet(x,y,type.measure=“class”,nfolds=10,family=“multinomial”,alpha=1,type.multinomial=“grouped”)。10折交叉验证结果显示λ=0.02552时,错分率为0,同时目标特征向量可缩小为21个。
通过上述特征向量筛选最终得到21个目标特征向量,即21个基因,具体如表5所示。
表5.筛选到的21个基因
Figure BDA0003707810320000142
Figure BDA0003707810320000151
以上述21个基因再次进行lasso回归,并建立机器学习模型。
二、机器学习模型的初步建立与评估
将训练集(总样本量的70%)的21个基因的表达量(即,TPM值)输入上述建立的机器学习模型中,并对模型的预测性能准确度、灵敏度、特异性进行检测。准确度的检测结果如表6所示和图1所示。
表6.模型检测的准确度
Figure BDA0003707810320000152
结果显示,建立的机器学习模型在训练集中对hMSCs的组织来源实现了100%的预测准确性。不仅如此,结果显示,机器学习模型的灵敏度和特异性也均为100%。
接着,将测试集(总样本量的30%)的21个基因的表达量输入上述建立的机器学习模型中,并对模型的预测性能准确度、灵敏度、特异性进行检测。准确度的检测结果如表7和图2所示。
表7.模型检测的准确度
Figure BDA0003707810320000161
结果显示,建立的机器学习模型在测试集中对hMSCs的组织来源实现了100%的预测准确性。不仅如此,结果显示,机器学习模型的灵敏度和特异性也均为100%。
进一步的,将实施例1所述的外部数据集(共99株hMSCs)按照如上所述的方法进行转录组测序,并将获得的21个基因的表达量输入上述建立的机器学习模型中,对模型的预测性能准确度、灵敏度、特异性进行检测。准确度的检测结果如表8和图3所示。
表8.模型检测的准确度
Figure BDA0003707810320000162
结果显示,建立的机器学习模型在外部数据集中对hMSCs的组织来源实现了100%的预测准确性。不仅如此,结果显示,机器学习模型的灵敏度和特异性也均为100%。
实施例3.机器学习模型对混合细胞的预测能力
在实际应用中,检测样本中可能混合了几种不同组织来源的hMSCs,因此本实施例模拟了几种不同组织来源的hMSCs混合的情况。
首先,将hMSCs转录组测序后reads抽取1,000,000(1M)条、2,000,000(2M)条、…10,000,000(10M)条,将不同组织来源hMSCs测序reads按照不同比例进行混合,生成新的混合样本。具体混合样本如下:
第一组模拟数据包含脂肪来源hMSCs和骨髓来源hMSCs以不同比例混合的11个样本,具体如表9所示:
表9.第一组模拟数据
脂肪hMSCs测序reads数 骨髓hMSCs测序reads数
混合样本1 0M 10M
混合样本2 1M 9M
混合样本3 2M 8M
混合样本4 3M 7M
混合样本5 4M 6M
混合样本6 5M 5M
混合样本7 6M 4M
混合样本8 7M 3M
混合样本9 8M 2M
混合样本10 9M 1M
混合样本11 10M 0M
第二组模拟数据包含牙髓来源hMSCs和毛囊来源hMSCs以不同比例混合的11个样本,具体如表10所示:
表10.第二组模拟数据
Figure BDA0003707810320000171
Figure BDA0003707810320000181
第三组模拟数据包含脐带来源hMSCs和胎盘羊膜来源hMSCs以不同比例混合的11个样本,具体如表11所示:
表11.第三组模拟数据
脐带hMSCs测序reads数 胎盘羊膜hMSCs测序reads数
混合样本1 0M 10M
混合样本2 1M 9M
混合样本3 2M 8M
混合样本4 3M 7M
混合样本5 4M 6M
混合样本6 5M 5M
混合样本7 6M 4M
混合样本8 7M 3M
混合样本9 8M 2M
混合样本10 9M 1M
混合样本11 10M 0M
将上述三组混合样本按照如上所述的方法进行组织来源鉴别分析,结果如图4所示。结果显示,准确的预测出了多组混合样本中hMSCs的不同组织来源。
进一步的,将3种不同组织来源的hMSCs按照不同比例进行混合。具体混合样本如下:混合样本包含脂肪、骨髓和毛囊来源的hMSCs,混合后得到第四组的11个混合样本,具体如表12所示:
表12.三种不同来源的hMSCs的混合样本
Figure BDA0003707810320000182
Figure BDA0003707810320000191
按照如上所述的方法进行组织来源鉴别检测,图5为第四组模拟混合样本中3种不同来源的hMSCs的检测结果。结果显示,本申请建立的模型准确的预测出了混合样本中多种hMSCs的不同组织来源。因此,本申请建立的模型能够用于hMSCs的混合样本(含一种或多种不同来源的hMSCs)的检测。
实施例4.不同的机器学习方法的比较
本实施例为了比较不同机器学习模型对于建立的鉴定间充质干细胞(MSCs)组织来源的模型的准确性的影响,分别选用5种不同的机器学习模型/方法,按照实施例2所述的方法建立上述鉴定MSCs组织来源的模型(本实施例所使用的方法与实施例2的唯一不同之处在于采用了不同的机器学习模型/方法),并验证建立的模型对于MSCs组织来源鉴定的准确性的差别。
实验结果如表9所示,与实施例2中的lasso回归方法相比(通过lasso回归方法建立的模型对训练集、测试集和外部数据集的鉴定准确度均为100%),岭回归,支持向量机,以及线性判别的方法同样能够达到较高的准确度,可作为Lasso回归建模的替代性方法,用于建立本申请的鉴定间充质干细胞(MSCs)组织来源的模型。
表9.本实施例采用的机器学习方法
Figure BDA0003707810320000192
Figure BDA0003707810320000201
尽管本公开的具体实施方式已经得到详细的描述,但本领域技术人员将理解:根据已经公布的所有教导,可以对细节进行各种修改和变动,并且这些改变均在本公开的保护范围之内。本公开的全部分为由所附权利要求及其任何等同物给出。

Claims (11)

1.一种构建鉴定间充质干细胞(MSCs)组织来源的模型的方法,其包括:
步骤(1):提供n株来源于不同组织的MSCs,收集所述MSCs转录组测序的信息,其中,所述n为大于等于10的整数;
步骤(2):从所述转录组测序的信息中获得mRNA的信息;
步骤(3):从所述mRNA的信息中获得TPMmax大于10的基因;
步骤(4):将步骤(3)获得的基因的表达量做为特征向量,通过机器学习方法对所述特征向量进行筛选,并获得目标特征向量;
步骤(5):利用所述目标特征向量的表达量对机器学习模型进行训练,以构建鉴定间充质干细胞(MSCs)组织来源的模型;
优选地,在步骤(5)中,从所述n株来源于不同组织的MSCs中随机提取55%至95%的样本作为训练集,利用训练集的目标特征向量对机器学习模型进行训练,以构建鉴定间充质干细胞(MSCs)组织来源的模型;
更优选地,所述方法还包括步骤(6):将提取至训练集以外的MSCs作为测试集,利用测试集的目标特征向量对机器学习模型进行测试,以确定所述模型的准确度、灵敏度和特异性;
优选地,在步骤(4)中,所述基因的表达量为基因的TPM值;
优选地,在步骤(5)中,所述目标特征向量的表达量为目标特征向量的TPM值。
2.权利要求1的方法,其中,所述机器学习模型选自Lasso回归,岭回归,支持向量机或线性判别;
优选地,所述机器学习模型为Lasso回归。
3.权利要求1或2的方法,其中,所述方法具有选自下列的一项或多项特征:
(1)在步骤(5)中,从所述n株来源于不同组织的MSCs中随机提取55%,60%,65%,70%,75%,80%,85%,90%或95%的样本作为训练集;
(2)所述目标特征向量包含下述基因或者包含下述基因的转录产物:ACVRL1,ARMC9,BCHE,CD55,EBP,FN1,FST,HOTAIRM1,LIMK2,MECOM,METTL26,MSX1,NBPF3,NECTIN3,NRXN2,PDE5A,RIN3,RPA2,RSL24D1,TSSC2和ZIC1;
(3)所述目标特征向量选自下述基因或者选自下述基因的转录产物:ACVRL1,ARMC9,BCHE,CD55,EBP,FN1,FST,HOTAIRM1,LIMK2,MECOM,METTL26,MSX1,NBPF3,NECTIN3,NRXN2,PDE5A,RIN3,RPA2,RSL24D1,TSSC2,ZIC1,或其任意组合;
(4)所述n为10至50之间的整数,51至100之间的整数,101至150之间的整数,151至200之间的整数,201至250之间的整数,251至300之间的整数,301至500之间的整数,或501至1000之间的整数;
(5)所述n株来源于不同组织的MSCs的来源选自骨髓,脐带,胎盘或其部分(例如,胎盘羊膜),脂肪,牙髓,毛囊,皮肤,血液,或其任意组合;
(6)所述MSCs是来源于哺乳动物(例如,小鼠,人)的MSCs;
(7)所述MSCs是来源于人的MSC(hMSCs);
优选地,所述转录产物选自rRNA,tRNA,mRNA,或非编码RNA;
优选地,所述转录产物是mRNA。
4.一种机器学习模型,所述机器学习模型由权利要求1-3任一项所述的方法构建而成;
优选地,所述机器学习模型用于鉴定样本中一种或多种MSCs的组织来源(例如,骨髓,脐带,胎盘或其部分(例如,胎盘羊膜),脂肪,牙髓,毛囊,皮肤,血液,或其任意组合)。
5.权利要求4所述的机器学习模型在鉴定样本中一种或多种MSCs的组织来源的用途。
6.一种鉴定样本中MSCs的组织来源的方法,包括:
步骤(a):提供所述样本中MSCs的目标特征向量的表达量,所述目标特征向量包含下述基因或者包含由下述基因的转录产物:ACVRL1,ARMC9,BCHE,CD55,EBP,FN1,FST,HOTAIRM1,LIMK2,MECOM,METTL26,MSX1,NBPF3,NECTIN3,NRXN2,PDE5A,RIN3,RPA2,RSL24D1,TSSC2和ZIC1;
步骤(b):将所述目标特征向量的表达量输入权利要求4所构建的机器学习模型,以鉴定样本中MSCs的组织来源;
优选地,步骤(a)中,所述表达量为TPM值;
优选地,所述TPM值通过转录组测序获得。
7.权利要求6所述的方法,其中,所述样本中含有一种或多种MSCs;
优选地,在上述步骤(a)中,通过对所述样本中的MSCs进行转录组测序,以获得所述样本中MSCs的目标特征向量的表达量;或者,在上述步骤(a)中,通过对所述样本中MSCs的目标特征向量进行表达谱芯片检测、单细胞转录组测序、RT-qPCR测定、数字PCR测定,以获得所述样本中MSCs的目标特征向量的表达量;
优选地,所述MSCs的组织来源选自骨髓,脐带,胎盘或其部分(例如,胎盘羊膜),脂肪,牙髓,毛囊,胎盘中其他部位的组织,皮肤,血液,或其任意组合;
优选地,所述MSCs是来源于哺乳动物(例如,小鼠,人)的MSCs;
优选地,所述MSCs是来源于人的MSC(hMSCs)。
8.一种鉴定间充质干细胞组织来源的装置,包括:
存储器,被配置为存储指令;
处理器,耦合到存储器,处理器被配置为基于存储器存储的指令执行实现如权利要求6或7所述的方法。
9.一种计算机可读存储介质,其中,计算机可读存储介质存储有计算机指令,指令被处理器执行时实现如权利要求6或7所述的方法。
10.一种用于鉴定样本中一种或多种MSCs的组织来源的试剂盒,所述试剂盒包含用于确定样品中生物标志物水平的试剂,所述生物标志物包含ACVRL1,ARMC9,BCHE,CD55,EBP,FN1,FST,HOTAIRM1,LIMK2,MECOM,METTL26,MSX1,NBPF3,NECTIN3,NRXN2,PDE5A,RIN3,RPA2,RSL24D1,TSSC2和ZIC1;
优选地,所述生物标志物的水平是所述生物标志物的蛋白质或mRNA水平;
优选地,所述MSCs是来源于哺乳动物(例如,小鼠,人)的MSCs;
优选地,所述MSCs是来源于人的MSC(hMSCs)。
11.用于确定样品中生物标志物水平的试剂在制备试剂盒中的用途,所述试剂盒用于鉴定样本中一种或多种MSCs的组织来源;其中,所述生物标志物包含ACVRL1,ARMC9,BCHE,CD55,EBP,FN1,FST,HOTAIRM1,LIMK2,MECOM,METTL26,MSX1,NBPF3,NECTIN3,NRXN2,PDE5A,RIN3,RPA2,RSL24D1,TSSC2和ZIC1;
优选地,所述生物标志物的水平是所述生物标志物的蛋白质或mRNA水平;
优选地,所述MSCs是来源于哺乳动物(例如,小鼠,人)的MSCs;
优选地,所述MSCs是来源于人的MSC(hMSCs)。
CN202210710572.3A 2022-06-22 2022-06-22 一种鉴定样本中间充质干细胞的组织来源的方法及其用途 Pending CN115565608A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210710572.3A CN115565608A (zh) 2022-06-22 2022-06-22 一种鉴定样本中间充质干细胞的组织来源的方法及其用途
PCT/CN2022/110507 WO2023245827A1 (zh) 2022-06-22 2022-08-05 一种鉴定样本中间充质干细胞的组织来源的方法及其用途

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210710572.3A CN115565608A (zh) 2022-06-22 2022-06-22 一种鉴定样本中间充质干细胞的组织来源的方法及其用途

Publications (1)

Publication Number Publication Date
CN115565608A true CN115565608A (zh) 2023-01-03

Family

ID=84737399

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210710572.3A Pending CN115565608A (zh) 2022-06-22 2022-06-22 一种鉴定样本中间充质干细胞的组织来源的方法及其用途

Country Status (2)

Country Link
CN (1) CN115565608A (zh)
WO (1) WO2023245827A1 (zh)

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1886658A (zh) * 2003-09-29 2006-12-27 帕斯沃克斯资讯有限公司 用于检测生物学特征的系统和方法
CN103459592B (zh) * 2010-12-09 2016-05-25 诺未科技(北京)有限公司 亚全能干细胞产品及其表观遗传修饰标签
US20170258843A1 (en) * 2016-03-14 2017-09-14 AngioStem, Inc. Stem cell mediated neuroregeneration and neuroprotection
CA3030577A1 (en) * 2016-07-12 2018-01-18 Mindshare Medical, Inc. Medical analytics system
CN110402146A (zh) * 2016-11-03 2019-11-01 埃克森蒂姆生物技术公司 间充质干细胞群、其产物及其用途
CN107513571B (zh) * 2017-09-30 2020-07-07 首都医科大学附属北京口腔医院 miRNA的应用
AU2019403269A1 (en) * 2018-12-18 2021-06-17 Grail, Llc Methods for detecting disease using analysis of RNA
AU2019403273A1 (en) * 2018-12-19 2021-08-05 Grail, Llc Cancer tissue source of origin prediction with multi-tier analysis of small variants in cell-free dna samples
EP3969622A1 (en) * 2019-05-13 2022-03-23 Grail, Inc. Model-based featurization and classification

Also Published As

Publication number Publication date
WO2023245827A1 (zh) 2023-12-28

Similar Documents

Publication Publication Date Title
Farlik et al. DNA methylation dynamics of human hematopoietic stem cell differentiation
CN108034724B (zh) 用于预测结直肠癌预后及死亡风险的环状rna分子标记物及其应用
EP3444357B1 (en) Noninvasive detection method for screening healthily-growing blastulas
CN111778326B (zh) 用于子宫内膜容受性评估的基因标志物组合及其应用
US20200370112A1 (en) Methods utilizing single cell genetic data for cell population analysis and applications thereof
WO2019074615A2 (en) IN VITRO METHODS FOR DISCOVERING THERAPEUTIC COMPOUNDS FOR THE SKIN USING SKIN AGING BIOMARKERS
Loyfer et al. A human DNA methylation atlas reveals principles of cell type-specific methylation and identifies thousands of cell type-specific regulatory elements
Schaum et al. Single-cell transcriptomic characterization of 20 organs and tissues from individual mice creates a Tabula Muris
CN115537462A (zh) 一种同时检测病原菌和宿主基因表达量的测序方法及在细菌性脑膜炎诊断和预后中的应用
Chen et al. Genome-wide molecular recording using Live-seq
TW201105965A (en) Method for determining the cardio-generative potential of mammalian cells
WO2023134390A1 (en) Method for evaluating the quality of stem cells
CN115565608A (zh) 一种鉴定样本中间充质干细胞的组织来源的方法及其用途
CN103911439A (zh) 系统性红斑狼疮羟甲基化状态的差异表达基因的分析方法和应用
US20230066188A1 (en) Biomarker identifying method and cell producing method
CN115011695A (zh) 基于游离环状dna基因的多癌种识别标志物、试剂盒及应用
CN115948521A (zh) 一种检测非整倍体缺失染色体信息的方法
RU2020132226A (ru) Измерение потери метилирования днк, связанной с репликацией
CN114807115A (zh) 一种衰老细胞的构建方法及评价抗衰老功效的方法
CN114563330A (zh) 一种自身蛋白与间充质干细胞Th1免疫调节相关性的评估方法
Hernandez-Lopez et al. Lossy compression of quality scores in differential gene expression: A first assessment and impact analysis
CN107312779B (zh) 用于分离滋养层细胞的核酸适配体、分离滋养层细胞的方法和染色体拷贝数变异分析的方法
US20160209427A1 (en) Biomarkers for lower urinary tract symptoms (luts)
WO2023134391A1 (en) System for evaluating quality of stem cells
JP2019150018A (ja) 細胞判定装置、細胞判定方法及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination