CN112908407B - 一种用tRNA组学来质控蛋白生物合成体系的方法 - Google Patents

一种用tRNA组学来质控蛋白生物合成体系的方法 Download PDF

Info

Publication number
CN112908407B
CN112908407B CN202110141068.1A CN202110141068A CN112908407B CN 112908407 B CN112908407 B CN 112908407B CN 202110141068 A CN202110141068 A CN 202110141068A CN 112908407 B CN112908407 B CN 112908407B
Authority
CN
China
Prior art keywords
trna
omics
quality control
systems
difference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110141068.1A
Other languages
English (en)
Other versions
CN112908407A (zh
Inventor
夏青
张浩然
史宁宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN202110141068.1A priority Critical patent/CN112908407B/zh
Priority to GB2104204.9A priority patent/GB2613760B/en
Publication of CN112908407A publication Critical patent/CN112908407A/zh
Application granted granted Critical
Publication of CN112908407B publication Critical patent/CN112908407B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2539/00Reactions characterised by analysis of gene expression or genome comparison

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Wood Science & Technology (AREA)
  • Molecular Biology (AREA)
  • Zoology (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Peptides Or Proteins (AREA)

Abstract

本发明公开了一种用tRNA组学来质控蛋白生物合成体系的方法,包括以下步骤:S1、对蛋白生物合成体系的tRNA进行测序归档;S2、对单个体系的tRNA进行组学分析;S3、对多个体系的tRNA进行组学比较;S4、建立公式化的质控指标,形成基于tRNA组学的质控指标及报告。本发明通过对蛋白生物合成体系的tRNA进行测序和组学分析,评估蛋白翻译环节的总体tRNA供给状态,与参比体系进行tRNA组学相似度计算、tRNA组学匹配查询和tRNA组学差异量化,从而实现对蛋白生物合成体系的鉴定、表征和质控等目的。具有适用范围广、指标可量化、稳定性和区分性好等优势,可以从总体tRNA供给角度对蛋白生物合成体系进行多维度量化质控。

Description

一种用tRNA组学来质控蛋白生物合成体系的方法
技术领域
本发明涉及高通量测序技术和生物信息分析技术领域,具体是涉及一种用tRNA组学来质控蛋白生物合成体系的方法。
背景技术
蛋白生物合成体系(protein biosynthesis systems)是指包含信使RNA、转运RNA、核糖体以及蛋白质合成相关酶类的生物体系,常见的蛋白生物合成体系包括:细胞、组织、器官、胚胎、干细胞、类器官、嵌合体、菌株等。当前对蛋白生物合成体系的质控方法有:外观形态法、生物化学法、免疫学检测(例如用抗体染特定抗原标志物)、遗传学检测(例如染色质核型,DNA指纹图谱)等,通常选择不止一种方法进行质控,目前尚未将tRNA组学纳入常规质控的范畴。
转运RNA(简称tRNA)是参与蛋白生物合成的重要元件,其主要执行从密码子序列到蛋白质的翻译功能(图2)。细胞或组织等蛋白生物合成体系内的tRNA组成和含量具有特异性,tRNA组学可以反映这些蛋白生物合成体系的综合状态,可以从tRNA组成、含量、供应状态等角度来表征蛋白翻译过程。通过tRNA测序归档技术(tRNA sequencing andprofiling technique)可以获得细胞或组织等蛋白生物合成体系的tRNA组学信息,步骤包括:从蛋白生物合成体系提取总RNA,通过酶降解其他RNA和长度筛选获取其中<200nt的成分,去氨酰化之后构建tRNA测序文库,再次做长度筛选(170~210bp)后进行高通量测序,将测序结果与该物种精简化的tRNA标准库进行序列比对和归档,从而获得体系中tRNA的种类、组成和表达量信息。现有技术已支持获取tRNA组学,但是如何将tRNA组学用于评估蛋白生物合成体系,如何建立量化的质控指标等问题,仍有待解决。
发明内容
针对上述存在的技术问题,本发明提供了一种用tRNA组学来质控蛋白生物合成体系的方法。
本发明所采用的的技术方案如下:
一种用tRNA组学来质控蛋白生物合成体系的方法,包括以下步骤:
S1、对蛋白生物合成体系的tRNA进行测序归档,其中,所述蛋白生物体系包括待测体系B和参比体系A;
S2、对上述待测体系B和/或参比体系A的单个体系tRNA组学进行分析:将测序归档得到的数据经标准化处理和/或数学转换后,获得tRNA表达量信息;将tRNA表达量按照其对应的氨基酸和/或反密码子进行分类汇总,获取多个级别(tRNA、反密码子、氨基酸级别,以及由配对衍生的密码子级别)的tRNA表达量信息,再对tRNA表达量信息进行数据分析和/或数据可视化处理;
S3、对多个体系的tRNA进行组学比较:采用tRNA组学的相似度计算方法、tRNA组学的匹配查询方法及tRNA组学差异的量化方法对多个体系的tRNA进行组学比较,获得待测体系B和参比体系A之间的tRNA组学差异以及参比体系A内部或待测体系B内部的tRNA组学差异;
S4、基于上述S3中获得的待测体系B和参比体系A之间的tRNA组学差异以及参比体系A内部或待测体系B内部的tRNA组学差异,建立公式化的质控指标,形成基于tRNA组学的质控指标及报告。
说明:在蛋白生物合成体系中,不同种类或结构的tRNA与20种氨基酸在相关酶的作用下形成氨酰化的tRNA,进入核糖体后,反密码子与密码子进行配对,tRNA将所携带的氨基酸添加到新生多肽链上,从而完成蛋白翻译。体系中的不同种类或结构的tRNA及其表达量共同构成tRNA组学,其主要作用是为蛋白生物合成体系供应不同类型的氨酰化tRNA,是蛋白生物合成体系的重要成员。不同的蛋白生物合成体系具有不全相同的tRNA组成,也就是说,tRNA组学具有潜在的体系特异性,可以作为体系的指纹特征用于鉴定或质控等目的。
基于其结构,tRNA具有两个天然的属性:反密码子和对应的氨基酸。根据文献中的定义,拥有相同的反密码子但其他骨架序列不同的tRNA互称为isodecoder,对应的氨基酸相同但反密码子不同的tRNA互称为isoacceptor。因此,通过tRNA测序归档技术获得某一体系中所有tRNA的表达量信息后,可以根据tRNA的反密码子或对应的氨基酸,对表达量进行分类汇总,从而获得多个级别的tRNA组学数据,后续的数据分析和数据可视化可以针对一个或多个级别进行。
将测序归档得到的数据经标准化处理和/或数学转换具体为:由tRNA测序归档技术得到的tRNA计数(Count)数据经过标准化处理后转换成百万分数(Count Per Million,CPM),再经过对数转换后得到对数百万分数(logCPM),两者都可以用作tRNA表达量的衡量指标,并用于后续的数据分析和可视化,其公式如下:
Figure BDA0002928615310000031
进一步地,在上述方案中,所述蛋白生物合成体系包含:信使RNA、tRNA、核糖体以及蛋白质合成相关酶类的生物体系,常见的例子有细胞、组织、器官、胚胎、干细胞、类器官、嵌合体、菌株。
进一步地,在上述方案中,所述待测体系B指的是待测定的、质量特征未知的蛋白生物合成体系,所述参比体系A是指充当参照物的、质量特征已知的蛋白生物合成体系。
进一步地,在上述方案中,所述多个级别的tRNA表达量信息包括:tRNA级别、反密码子级别、氨基酸级别和由反密码子配对衍生的密码子级别的tRNA表达量信息。
更进一步地,根据所述tRNA级别、反密码子级别、氨基酸级别和衍生密码子级别的tRNA表达量信息,可以选择所述级别中的任意一个或多个级别进行tRNA表达量信息的数据分析和/或数据可视化处理,亦可使用原始的或数学转换后的tRNA表达量信息。
进一步地,在上述方案中,所述tRNA组学的相似度计算方法为:使用体系两两比较的散点图来表示tRNA表达量信息的相似性,计算tRNA表达量信息的相关系数用来量化不同体系tRNA组学的相似度,使用热图来呈现相关系数矩阵,使用树图来表示不同体系在tRNA组学方面的亲缘关系,使用降维主成分图来表示不同体系在tRNA组学方面的相似度,以及上述方法的任意组合或复合形式,所用的tRNA表达量信息是按级别汇总的、原始的或数学转换后的tRNA表达量信息。
更进一步地,所述tRNA组学的相似度计算方法具体为:针对多个体系进行两两比较,将tRNA的logCPM值绘制成散点图,进而组成散点图矩阵;计算体系两两比较时logCPM值或CPM值的相关系数,得到相关系数矩阵,并用热图呈现;生成相关系数的热图时可以进行聚类分析,生成附属的树图,可以表示体系间的亲缘关系;对tRNA的CPM值做主成分分析(Principal Component Analysis,PCA),其目的是降维,得到多个体系在各个成分上的坐标分量,取主成分绘制降维主成分图(亦称为PCA图);按照反密码子或对应氨基酸对tRNA的CPM值进行分类汇总,使用汇总后的CPM值或logCPM值执行上述分析和绘图步骤,得到反密码子级别或氨基酸级别的散点图矩阵、相关系数热图、树图和降维主成分图,这些图及其包含的量化信息均可用于评估多个体系tRNA组学的相似度。
进一步地,在上述方案中,所述tRNA组学的匹配查询方法为:获取待测体系B和一系列参比体系A的tRNA组学数据,采用主成分分析法和相关系数矩阵树图聚类,通过计算tRNA组学的相似度和/或数据可视化,得到降维主成分图,并结合树图来寻找参比体系A中与待测体系B相似度较高的一个或多个作为匹配查询的结果。
进一步地,在上述方案中,所述tRNA组学差异的量化方法为:对多个体系的tRNA组学数据进行降维分析,用其在主成分上的坐标差异进行量化比较。
更进一步地,主成分分析还可用于量化tRNA组学差异,可以用各体系在主成分上坐标分量的差异来表示,在降维主成分图上体现为一个箭头,箭头起点对应于体系A或其生物学重复的重心,箭头终点对应于体系B或其生物学重复的重心,箭头长度及其在各轴上的投影可以反映体系A和B的tRNA组学差异大小。
进一步地,在上述方案中,S4所述建立公式化的质控指标,具体方法为:
用已知质量标准的蛋白生物合成体系作为参比体系A,用未知质量标准的蛋白生物合成体系作为待测体系B,设定若干生物学重复,执行主成分分析,用重心法确定体系A和B之间的量化tRNA组学差异,即组间差异,用平均距离法确定参比体系A内部的量化tRNA组学差异,即组内差异,以组间差异是组内差异的多少倍作为量化质控指标,公式如下:
Figure BDA0002928615310000051
更进一步地,可以对量化质控指标设定一系列参考阈值,将所建立的公式化的质控指标与预设的参考阈值比较,用于评价优劣。例如:
待测体系B的量化质控指标小于1,评定为“与标准体系极其接近”;
待测体系B的量化质控指标介于1和2之间,评定为“与标准体系较为接近”;
待测体系B的量化质控指标介于2和4之间,评定为“与标准体系较为偏离”;
待测体系B的量化质控指标超过4,评定为“与标准体系非常偏离”。
以上参考阈值可以根据样品类型或实际情况有所调整,亦可采用统计学检验的方法对两种体系的tRNA组学差异或量化质控指标进行分析。待测体系B可以设定多个生物学重复,以考察其量化质控指标的稳定性。最后,将质控指标和相关数据图片等内容整理成质控报告。
本发明的有益效果是:本发明提供的一种用tRNA组学来质控蛋白生物合成体系的方法,是对当前已有质控方法集合的补充,具有适用范围广、指标可量化、稳定性和区分性好等优势,可以从总体tRNA供给角度对蛋白生物合成体系进行多维度量化质控。
附图说明
图1为本发明的方法流程图。
图2为tRNA组学的定义及其在蛋白生物合成中的作用——为蛋白翻译过程供应氨酰化tRNA。
图3为本发明实施例1中的用多级别饼图表示单个体系(SK-N-SH细胞)中的tRNA组成。
图4为本发明实施例1中的单个体系(BEAS-2B细胞)tRNA组成从反密码子级别衍生到密码子级别的实现方法。
图5为本发明实施例2中的用散点复合热图表示多个体系间的tRNA组学相似度。
图6为本发明实施例2中的用降维主成分图表示多个体系间的tRNA组学相似度。
图7为本发明实施例3中的待测体系在参比体系tRNA组学数据库中的匹配查询。
图8为本发明实施例4中的将同源体系的tRNA组学差异量化从而构建质控指标。
图9为本发明实施例5中的用tRNA组学来质控不同阶段的类脑器官所导出的质控报告。
图10为本发明实施例6中的用tRNA组学来质控不同部位的小鼠组织所导出的质控报告。
具体实施方式
为了更好地说明本发明所解决的问题、所采用的技术方案和所达到的效果,现结合具体实施例进一步阐述。需要说明的是,本发明内容包含但不限于以下实施例及其组合实施方式。
需要说明的是,本发明实施例中未注明具体技术或条件的,按照本领域内的文献所描述的技术或条件或者按照相关产品说明书进行。所用试剂或仪器未注明生产厂商者,均为可以通过市购等途径获得的常规产品。
如图1所示的一种用tRNA组学来质控蛋白生物合成体系的方法,包括以下步骤:
S1、对蛋白生物合成体系的tRNA进行测序归档,
蛋白生物合成体系包含:信使RNA、tRNA、核糖体以及蛋白质合成相关酶类的生物体系,常见的例子有细胞、组织、器官、胚胎、干细胞、类器官、嵌合体、菌株;
按照在质控中的用途,所述的蛋白生物合成体系可分为待测体系B和参比体系A;所述待测体系B指的是待测定的、质量特征未知的蛋白生物合成体系,所述参比体系A是指充当参照物的、质量特征已知的蛋白生物合成体系;
S2、对上述待测体系B和/或参比体系A的单个体系tRNA组学进行分析:将测序归档得到的数据经标准化处理和/或数学转换后,获得tRNA表达量信息;
所述tRNA表达量信息包括:tRNA级别、反密码子级别、氨基酸级别和由反密码子配对衍生的密码子级别的tRNA表达量信息;
获取多个级别的tRNA表达量信息后,使用多级别饼图可以同时呈现多个级别的tRNA组成,亦可针对其中的任意一个或多个级别使用饼图或堆积柱形图进行可视化,饼图和柱形图一般适合单个体系tRNA组学信息的可视化;
将tRNA表达量按照其对应的氨基酸和/或反密码子进行分类汇总和级别衍生,获取多个级别的tRNA表达量信息,再对tRNA表达量信息进行数据分析和/或数据可视化处理;
将测序归档得到的数据经标准化处理和/或数学转换具体为:由tRNA测序归档技术得到的tRNA计数(Count)数据经过标准化处理后转换成百万分数(Count Per Million,CPM),再经过对数转换后得到对数百万分数(logCPM),两者都可以用作tRNA表达量的衡量指标,并用于后续的数据分析和可视化,其公式如下:
Figure BDA0002928615310000081
S3、对多个体系的tRNA进行组学比较:采用tRNA组学的相似度计算方法、tRNA组学的匹配查询方法及tRNA组学差异的量化方法对多个体系的tRNA进行组学比较,获得待测体系B和参比体系A之间的tRNA组学差异以及参比体系A内部或待测体系B内部的tRNA组学差异;
其中,所述tRNA组学的相似度计算方法具体为:针对多个体系进行两两比较,将tRNA的logCPM值绘制成散点图,进而组成散点图矩阵;计算体系两两比较时logCPM值或CPM值的相关系数,得到相关系数矩阵,并用热图呈现;生成相关系数的热图时可以进行聚类分析,生成附属的树图,可以表示体系间的亲缘关系;对tRNA的CPM值做主成分分析(Principal Component Analysis,PCA),得到多个体系在各个成分上的坐标分量,取主成分绘制降维主成分图(亦称为PCA图);按照反密码子或对应氨基酸对tRNA的CPM值进行分类汇总,使用汇总后的CPM值或logCPM值执行上述分析和绘图步骤,得到反密码子级别或氨基酸级别的散点图矩阵、相关系数热图、树图和降维主成分图,这些图及其包含的量化信息均可用于评估多个体系tRNA组学的相似度;
所述tRNA组学的匹配查询方法为:获取待测体系B和一系列参比体系A的tRNA组学数据,采用主成分分析法和相关系数矩阵树图聚类,通过计算tRNA组学的相似度和/或数据可视化,得到降维主成分图,并结合树图来寻找参比体系A中与待测体系B相似度较高的一个或多个作为匹配查询的结果;
所述tRNA组学差异的量化方法为:对多个体系的tRNA组学数据进行降维分析,用其在主成分上的坐标差异进行量化比较;
S4、基于上述S3中获得的待测体系B和参比体系A之间的tRNA组学差异以及参比体系A内部或待测体系B内部的tRNA组学差异,建立公式化的质控指标,形成基于tRNA组学的质控指标及报告;
所述建立公式化的质控指标,具体方法为:
用已知质量标准的蛋白生物合成体系作为参比体系A,用未知质量标准的蛋白生物合成体系作为待测体系B,设定若干生物学重复,执行主成分分析,用重心法确定体系A和B之间的量化tRNA组学差异,即组间差异,用平均距离法确定参比体系A内部的量化tRNA组学差异,即组内差异,以组间差异是组内差异的多少倍作为量化质控指标,公式如下:
Figure BDA0002928615310000091
对量化质控指标设定一系列参考阈值,将所建立的公式化的质控指标与预设的参考阈值比较,用于评价优劣。例如:
待测体系B的量化质控指标小于1,评定为“与标准体系极其接近”;
待测体系B的量化质控指标介于1和2之间,评定为“与标准体系较为接近”;
待测体系B的量化质控指标介于2和4之间,评定为“与标准体系较为偏离”;
待测体系B的量化质控指标超过4,评定为“与标准体系非常偏离”。
以上参考阈值可以根据样品类型或实际情况有所调整,亦可采用统计学检验的方法对两种体系的tRNA组学差异或量化质控指标进行分析。待测体系B可以设定多个生物学重复,以考察其量化质控指标的稳定性。最后,将质控指标和相关数据图片等内容整理成质控报告。
实施例1
本实施例介绍的是单个体系的tRNA组学分析方法,使用多级别饼图来表示单个体系的tRNA组成。
以体外培养的SK-N-SH细胞系作为蛋白生物合成体系的例子,通过tRNA测序归档技术和数据处理后得到体系中所有tRNA的CPM值,并将CPM值按照反密码子和氨基酸进行分类汇总,从而得到三个级别的tRNA表达量信息,将其绘制成多级别饼图(图3),可以直观地呈现单个体系的tRNA组成。例如在SK-N-SH细胞中,按氨基酸级别汇总(内环),含量最高的三类tRNA分别是tRNA-Glu,tRNA-Gly和tRNA-Gln;按反密码子级别汇总(中环),含量最高的是tRNA-Glu-CTC;按tRNA级别汇总(外环),含量最高的是tRNA-Glu-CTC-1-1,约占13%。根据目的,亦可选择呈现其中一个或多个级别的饼图,在一些软件或插件中可以直接实现饼图级别的增减和样品间的切换,例如Excel与Krona模板的组合。
除了tRNA级别、反密码子级别和氨基酸级别三个主级别之外,还可以对单个体系的tRNA组成做一些衍生级别的汇总分析,例如从反密码子级别衍生到密码子级别(图4)。针对BEAS-2B细胞的tRNA表达量或百万分数,首先按照反密码子进行汇总,然后根据反密码子和密码子的配对关系和效率,对可以与某个密码子配对的一类tRNA进行表达量或百万分数汇总,最终可以获得密码子级别的tRNA组学信息。
实施例2
本实施例介绍的是多个体系的tRNA组学比较方法,可用于计算或表示多个体系tRNA组学的相似度。
在本实施例中共设定5个细胞系(即U251,SK-N-MC,SK-N-SH,HEK293T和HEK293T+3CD),每个细胞系设定两个生物学重复(后缀为R1和R2),总共10个样品/体系,分别用tRNA测序归档技术和tRNA组学分析获得所有样品的tRNA表达量信息,转换成logCPM形式。
对所有10个体系进行两两比较,将logCPM绘制成散点图矩阵,每个散点表示某条tRNA在所比较的两个体系中的logCPM值(图5)。若这条tRNA在两个体系中的表达量接近,那么其散点将位于对角线附近。如果两个体系的tRNA组成较为接近,那么所有散点将会集中分布在对角线的附近。因此,体系两两比较的散点图可以用来直观表示tRNA表达量和组成的相似性,散点分布越窄则两个体系的tRNA组学相似度越高。
可以计算每个散点图上logCPM值的相关系数,用相关系数来量化不同体系tRNA组学的相似度,相关系数越接近于1则两个体系的tRNA组学相似度越高,相关系数越偏离于1则两个体系的tRNA组学相似度越低。可以使用热图来呈现相关系数矩阵,同时生成树图来表示不同体系在tRNA组学方面的亲缘关系,在树图上处于相邻的分支表示亲缘关系越近或tRNA组学相似度越高。此外,亦可将散点图、热图、树图复合在一起进行可视化(图5)。
为了更简洁地表示不同体系在tRNA组学方面的相似度,可以对不同体系的tRNA组学数据进行主成分分析或其他降维分析,例如分析后将10个体系在主成分1和主成分2上的坐标进行可视化(图6),可以发现SK-N-MC和SK-N-SH的四个散点非常接近,表示两个细胞系在tRNA组学方面相似度比较高,这与两个细胞系均为神经瘤细胞有关。HEK293T+3CD是由HEK293T衍生的稳定细胞系,其散点也较为接近。也就是说,降维主成分图上的散点距离或坐标差异可以用来量化地表示多个体系的tRNA组学相似度或tRNA组学差异。此外,从降维主成分图上还可看到,生物学重复之间的距离通常比细胞系之间的距离小,即组内差异小于组间差异,说明tRNA组学具有一定的细胞特异性,也证明本发明所提供的tRNA组学分析方法具有良好的稳定性和区分性。
实施例3
本实施例介绍的是tRNA表达量信息在tRNA、反密码子、氨基酸三个级别分别进行的tRNA组学分析和比较。
tRNA组学分析和比较可以在tRNA、反密码子、氨基酸三个级别分别进行,三者在稳定性和区分性方面有所差异,反密码子级别和氨基酸级别还可以用于跨物种的tRNA组学分析和比较。
稳定性:tRNA级别<反密码子级别<氨基酸级别。
区分性:tRNA级别>反密码子级别>氨基酸级别。
本实施例中已建立多个参比体系的tRNA组学数据库(图7),现有一个未知的待测体系,使用反密码子级别的主成分分析和降维主成分图,可以实现待测体系在参比体系tRNA组学数据库中的匹配查询,从而用于体系的鉴定。例如圆圈里的两个点是待测的细胞系(已经传代了若干次的HEK293T细胞),其与参比体系中最接近的是标准质量的HEK293T细胞系,而与其他参比细胞系的散点偏离都比较远,从而证明了tRNA组学匹配查询方法的可行性。此时,降维主成分图上待测HEK293T细胞系和参比HEK293T细胞系的重心差异,可以用于反映待测细胞系的质量。
实施例4
本实施例介绍的是同源体系tRNA组学差异的量化方法,并构建量化质控指标。
取A549、BEAS-2B、HEK293T三个标准质量的细胞系(图8)作为参比体系,设定其生物学重复为2(图上对应后缀为R1和R2)。取流感病毒感染过的A549、BEAS-2B、HEK293T细胞作为待测体系,其与前述的三个体系分别同源。通过本发明的tRNA组学分析方法,可以获得这些体系的散点复合热图、降维主成分图、按氨基酸或反密码子汇总的CPM堆积柱形图等。在其中的降维主成分图上,A549细胞感染流感病毒前后的tRNA组学差异(以实线箭头表示),大约是参比A549细胞内部的tRNA组学差异(以A549_R1和A549_R2两点距离表示)的4.3倍,表明感染了流感病毒后A549细胞的tRNA组学发生了很大变化,其质量已非常偏离标准A549细胞系。亦可只考虑主成分1(即降到一维),实线箭头在X轴上的分量,大约是A549_R1和A549_R2两点X坐标差异的4.56倍,此指标亦可用作量化质控指标。
同理,可以得到BEAS-2B和HEK293T细胞感染流感病毒前后的tRNA组学差异(以实线箭头表示),分别计算其是参比细胞系内部差异的多少倍,得到量化质控指标。此外,亦可用实线箭头在主成分1或主成分2上的分量来分别计算单维度的量化质控指标。
实施例5
本实施例介绍的是用tRNA组学来质控蛋白生物合成体系的方法所适用的一些常规质控体系。
本发明提供的用tRNA组学来质控蛋白生物合成体系的方法,有着广泛的用途,可以质控的体系包括但不限于:细胞、组织、器官、胚胎、干细胞、类器官、嵌合体、菌株等。
以体外培养的类脑器官为例(图9),按照文献中的标准步骤将类脑器官培养至不同阶段:
Day 0,初始阶段即HUES9细胞;
Day 11,神经外胚层阶段;
Day 30,类脑器官成型阶段。
以人脑组织作为最终对照,对各阶段的蛋白生物合成体系进行tRNA测序归档和质控。
从质控结果可以看到,Day 30的类脑器官在降维主成分图上最接近于人脑组织,表明此时的类脑器官已初步成型,但跟在体组织尚有一定差距。相对的,其他阶段都比较远离人脑组织。
实施例6
本实施例介绍的是用tRNA组学来质控蛋白生物合成体系的方法在鉴定或质控组织、器官等复杂体系方面的应用。
本发明提供的用tRNA组学来质控蛋白生物合成体系的方法,亦可用于鉴定或质控组织、器官等复杂体系。从一只小鼠体内分离心、肝、脾、肺、肾、大脑皮层、小脑、肌肉组织作为标准参比体系(图10),从另一只小鼠体内出分离心和肌肉组织(分别记为Heart_R2和Muscle_R2)作为未知待测体系。从质控报告的降维主成分图可以看出,与Heart_R2最接近的是Heart_R1,故鉴定Heart_R2为心组织。与Muscle_R2较接近的有Muscle_R1和Cerebral_cortex_R1两个,此时可以结合质控报告中的树图来综合判断,在树图上Muscle_R1和Muscle_R2处于最为相邻的分支,故初步鉴定Muscle_R2为肌肉组织。
此外,降维主成分图还表明,小鼠的心组织在tRNA组学方面与其他组织具有比较大的差异。
对小鼠组织的tRNA表达量按照其对应氨基酸进行汇总,标准化之后呈现为条形图,可以看到小鼠不同组织的tRNA表达量参差不齐,即tRNA组学具有组织特异性,亦可以用于组织的质控。

Claims (9)

1.一种用tRNA组学来质控蛋白生物合成体系的方法,其特征在于,包括以下步骤:
S1、对蛋白生物合成体系的tRNA进行测序归档,其中,所述蛋白生物体系包括待测体系B和参比体系A;
S2、对上述待测体系B和参比体系A的单个体系tRNA组学进行分析:将测序归档得到的数据做标准化处理和/或数学转换后,获得tRNA表达量信息;将tRNA表达量按照其对应的氨基酸和/或反密码子进行分类汇总,获取多个级别的tRNA表达量信息,再对tRNA表达量信息进行数据分析和/或数据可视化处理;
所述将测序归档得到的数据经标准化处理和/或数学转换,其具体方法为:由tRNA测序归档技术得到的tRNA计数数据经过标准化处理后转换成百万分数,再经过对数转换后得到对数百万分数,两者都可以用作tRNA表达量的衡量指标,并用于后续的数据分析和可视化,其公式如下:
Figure DEST_PATH_IMAGE002
Figure DEST_PATH_IMAGE004
其中,Count为tRNA计数;CPM为tRNA计数数据经过标准化处理后转换成百万分数;logCPM为CPM再经过对数转换后得到对数百万分数;
S3、对多个体系的tRNA进行组学比较:采用tRNA组学的相似度计算方法、tRNA组学的匹配查询方法及tRNA组学差异的量化方法对多个体系的tRNA进行组学比较,获得待测体系B和参比体系A之间的tRNA组学差异以及参比体系A内部或待测体系B内部的tRNA组学差异;
S4、基于上述S3中获得的待测体系B和参比体系A之间的tRNA组学差异以及参比体系A内部或待测体系B内部的tRNA组学差异,建立公式化的质控指标,形成基于tRNA组学的质控指标及报告;
S4所述建立公式化的质控指标,具体方法为:
用已知质量标准的蛋白生物合成体系作为参比体系A,用未知质量标准的蛋白生物合成体系作为待测体系B,设定若干生物学重复,执行主成分分析,用重心法确定体系A和B之间的量化tRNA组学差异,即组间差异,用平均距离法确定参比体系A内部的量化tRNA组学差异,即组内差异,以组间差异是组内差异的多少倍作为量化质控指标,公式如下:
Figure DEST_PATH_IMAGE006
2.根据权利要求1所述的一种用tRNA组学来质控蛋白生物合成体系的方法,其特征在于,所述蛋白生物合成体系包含:信使RNA、tRNA、核糖体以及蛋白质合成相关酶类的生物体系,所述蛋白生物合成体系位于以下结构中:细胞、组织、器官、胚胎、干细胞、类器官、嵌合体、菌株。
3.根据权利要求1所述的一种用tRNA组学来质控蛋白生物合成体系的方法,其特征在于,所述待测体系B指的是待测定的、质量特征未知的蛋白生物合成体系,所述参比体系A是指充当参照物的、质量特征已知的蛋白生物合成体系。
4.根据权利要求1所述的一种用tRNA组学来质控蛋白生物合成体系的方法,其特征在于,所述多个级别的tRNA表达量信息包括:tRNA级别、反密码子级别、氨基酸级别和由反密码子配对衍生的密码子级别的tRNA表达量信息。
5.根据权利要求4所述的一种用tRNA组学来质控蛋白生物合成体系的方法,其特征在于,根据所述tRNA级别、反密码子级别、氨基酸级别和衍生密码子级别的tRNA表达量信息,可以选择所述级别中的任意一个或多个级别进行tRNA表达量信息的数据分析和/或数据可视化处理,亦可使用原始的或数学转换后的tRNA表达量信息。
6.根据权利要求1所述的一种用tRNA组学来质控蛋白生物合成体系的方法,其特征在于,所述tRNA组学的相似度计算方法为:使用体系两两比较的散点图来表示tRNA表达量信息的相似性,计算tRNA表达量信息的相关系数用来量化不同体系tRNA组学的相似度,使用热图来呈现相关系数矩阵,使用树图来表示不同体系在tRNA组学方面的亲缘关系,使用降维主成分图来表示不同体系在tRNA组学方面的相似度;所用的tRNA表达量信息是按级别汇总的、原始的或数学转换后的tRNA表达量信息。
7.根据权利要求1所述的一种用tRNA组学来质控蛋白生物合成体系的方法,其特征在于,所述tRNA组学的匹配查询方法为:获取待测体系B和一系列参比体系A的tRNA组学数据,通过计算tRNA组学相似度和/或数据可视化,寻找参比体系A中与待测体系B相似度较高的一个或多个作为匹配查询的结果。
8.根据权利要求1所述的一种用tRNA组学来质控蛋白生物合成体系的方法,其特征在于,所述tRNA组学差异的量化方法为:对多个体系的tRNA组学数据进行降维分析,用其在主成分上的坐标差异进行量化比较。
9.根据权利要求1所述的一种用tRNA组学来质控蛋白生物合成体系的方法,其特征在于,对量化质控指标设定一系列参考阈值,将所建立的公式化的质控指标与预设的参考阈值比较,用于评价优劣。
CN202110141068.1A 2021-02-02 2021-02-02 一种用tRNA组学来质控蛋白生物合成体系的方法 Active CN112908407B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110141068.1A CN112908407B (zh) 2021-02-02 2021-02-02 一种用tRNA组学来质控蛋白生物合成体系的方法
GB2104204.9A GB2613760B (en) 2021-02-02 2021-03-25 Method for performimg quality control on protein biosynthesis system by tRNA omics

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110141068.1A CN112908407B (zh) 2021-02-02 2021-02-02 一种用tRNA组学来质控蛋白生物合成体系的方法

Publications (2)

Publication Number Publication Date
CN112908407A CN112908407A (zh) 2021-06-04
CN112908407B true CN112908407B (zh) 2021-10-01

Family

ID=75783843

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110141068.1A Active CN112908407B (zh) 2021-02-02 2021-02-02 一种用tRNA组学来质控蛋白生物合成体系的方法

Country Status (2)

Country Link
CN (1) CN112908407B (zh)
GB (1) GB2613760B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114187969A (zh) * 2021-11-19 2022-03-15 厦门大学 一种处理单细胞多模态组学数据的深度学习方法及系统

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10336705A1 (de) * 2003-08-06 2005-03-10 Rina Netzwerk Rna Technologien Verfahren zur Herstellung eines Lysats zur zellfreien Proteinbiosynthese
US20150176073A1 (en) * 2012-07-18 2015-06-25 Exosome Diagnostics, Inc. Use of microvesicles in diagnosis, prognosis, and treatment of medical diseases and conditions
US10347361B2 (en) * 2012-10-24 2019-07-09 Nantomics, Llc Genome explorer system to process and present nucleotide variations in genome sequence data
CN106815492B (zh) * 2016-12-20 2019-02-12 上海派森诺生物科技股份有限公司 一种用于16S rRNA基因的细菌群落组成和多样性分析的自动化方法
CN110046714A (zh) * 2019-03-25 2019-07-23 天津大学 基于多特征信息融合的长链非编码rna亚细胞定位方法
CN111243665A (zh) * 2020-01-07 2020-06-05 广州基迪奥生物科技有限公司 一种核糖体印记测序数据分析方法及系统
CN111261229B (zh) * 2020-01-17 2020-11-06 广州基迪奥生物科技有限公司 一种MeRIP-seq高通量测序数据的生物分析流程
CN111354418B (zh) * 2020-01-19 2023-02-10 上海欧易生物医学科技有限公司 基于参考基因组注释文件的高通量测序技术动物tRFs数据分析方法

Also Published As

Publication number Publication date
GB202104204D0 (en) 2021-05-12
GB2613760A (en) 2023-06-21
CN112908407A (zh) 2021-06-04
GB2613760B (en) 2024-02-14

Similar Documents

Publication Publication Date Title
Diggins et al. Methods for discovery and characterization of cell subsets in high dimensional mass cytometry data
Cox et al. Integrating gene and protein expression data: pattern analysis and profile mining
CN104508671B (zh) 通过偏差校正和分类预测生成生物标记签名的系统和方法
CN104866863B (zh) 一种生物标志物筛选方法
CA2906725C (en) Characterization of biological material using unassembled sequence information, probabilistic methods and trait-specific database catalogs
CA3213187A1 (en) System for identifying and developing food ingredients from natural sources by machine learning and database mining combined with empirical testing for a target function
Curran et al. Computer aided manual validation of mass spectrometry-based proteomic data
CN112908407B (zh) 一种用tRNA组学来质控蛋白生物合成体系的方法
WO2012096015A1 (ja) 核酸情報処理装置およびその処理方法
CN103439441B (zh) 一种基于子集错误率估计的肽鉴定方法
WO2015101510A1 (en) A method of predicting a performance characteristic of a plant or yeast hydrolysate and its use
WO2012096016A1 (ja) 核酸情報処理装置およびその処理方法
CN108595914A (zh) 一种烟草线粒体rna编辑位点高精度预测方法
CN116072302A (zh) 基于有偏随机森林模型的医疗不平衡数据分类方法
CN106650284B (zh) 一种疾病康复评价系统
WO2012157778A1 (ja) 網羅的フラグメント解析における遺伝子同定方法および発現解析方法
Yona et al. A unified sequence-structure classification of protein sequences: combining sequence and structure in a map of the protein space
Giacoletto et al. The history and conceptual framework of assays and screens
JP7155281B2 (ja) 細胞情報処理方法
Parks et al. Microba’s community profiler enables precise measurement of the gut microbiome
Ming et al. FIRM: fast Integration of singlecell RNA-sequencing data across multiple platforms
CN110223730A (zh) 蛋白质与小分子结合位点预测方法、预测装置
WO2022264640A1 (ja) 状態推定システム及び状態推定方法
US20240016179A1 (en) Selecting food ingredients from vector representations of individual proteins using cluster analysis and precision fermentation
Pollo et al. MinION re-sequencing of Giardia genomes and de novo assembly of a new Giardia isolate

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant