CN107403074B

CN107403074B - 一种突变蛋白的检测方法及装置

Info

Publication number: CN107403074B
Application number: CN201710429915.8A
Authority: CN
Inventors: 张耀洲; 冯建华; 吴玉乾; 张树军; 李冬梅; 焦春彬; 陈玉皎; 胖铁良; 王文雅
Original assignee: Tianjin Binhu Pangu Genetic Science Development Co Ltd
Current assignee: Tianjin Binhu Pangu Genetic Science Development Co Ltd
Priority date: 2017-06-09
Filing date: 2017-06-09
Publication date: 2018-05-29
Anticipated expiration: 2037-06-09
Also published as: CN107403074A

Abstract

本发明提供了一种突变蛋白的检测方法及装置，方法包括：获取样品对应的转录组数据；将所述转录组数据与线粒体数据库进行比对，根据与线粒体数据库的比对结果输出非线粒体序列；将非线粒体序列中的核苷酸序列转化成氨基酸序列，并将转化后的氨基酸序列与蛋白数据库进行比对，并在与蛋白数据库的比对结果中提取同源率在第一设定范围内、且氨基酸长度在第二设定范围内的氨基酸序列；将提取的同源率在第一设定范围内、且氨基酸长度在第二设定范围内的氨基酸序列与NCBI进行比对，根据与NCBI的比对结果确定发生了突变的蛋白。本方案可以检测出样品中发生了突变的蛋白。

Description

一种突变蛋白的检测方法及装置

技术领域

本发明涉及生物技术领域，特别涉及一种突变蛋白的检测方法及装置。

背景技术

癌症是指起源于上皮组织的恶性肿瘤，常见的恶性肿瘤有肝癌、肺癌等。在世界范围内，由恶性肿瘤引起的死亡人数占总死亡人数的八分之一，比艾滋病、肺结核和疟疾的总死亡人数还要多，而且恶性肿瘤的发生率呈逐年上涨趋势。而恶性肿瘤的发生是环境和基因共同作用的结果，而基因的突变会导致蛋白发生突变，因此，对突变蛋白的研究仍然是研究热点。

现有技术中，一般是通过建立一系列电泳，通过分析样品中的DNA构象来进行蛋白突变的分析，而现有技术只是针对某一种蛋白进行分析其是否发生了突变，而无法检测出样品中发生了突变的蛋白有哪些。

发明内容

本发明实施例提供了一种突变蛋白的检测方法及装置，以检测出样品中发生了突变的蛋白。

第一方面，本发明实施例提供了一种突变蛋白的检测方法，包括：

获取样品对应的转录组数据；

将所述转录组数据与线粒体数据库进行比对，根据与线粒体数据库的比对结果输出非线粒体序列；

将非线粒体序列中的核苷酸序列转化成氨基酸序列，并将转化后的氨基酸序列与蛋白数据库进行比对，并在与蛋白数据库的比对结果中提取同源率在第一设定范围内、且氨基酸长度在第二设定范围内的氨基酸序列；

将提取的同源率在第一设定范围内、且氨基酸长度在第二设定范围内的氨基酸序列与NCBI进行比对，根据与NCBI的比对结果确定发生了突变的蛋白。

优选地，所述根据与NCBI的比对结果确定发生了突变的蛋白，包括：

确定样品对应的目标物种；

确定与NCBI的比对结果中氨基酸序列与所述目标物种的同源率，以及确定与NCBI的比对结果中氨基酸序列与除所述目标物种之外的其他物种的同源率；

在与所述目标物种的同源率不小于与所述其他物种的同源率时，将与所述目标物种的同源率未处于第三设定范围内的氨基酸序列确定为发生了突变的蛋白；

在与所述目标物种的同源率小于与所述其他物种的同源率时，将与NCBI比对的所有氨基酸序列均确定为发生了突变的蛋白。

优选地，所述第三设定范围为：99％-100％。

优选地，所述获取样品对应的转录组数据，包括：

采集用于检测的组织或血液作为样品，并在采集的组织或血液中提取RNA；

将提取的RNA进行反转录成cDNA，并将所述cDNA扩增为双链DNA；

对所述双链DNA进行建库处理，利用单分子测序仪对建库处理后的所述双链DNA进行单分子测序，从所述单分子测序仪中拷贝出测序后的转录组数据。

优选地，在所述将提取的同源率在第一设定范围内、且氨基酸长度在第二设定范围内的氨基酸序列与NCBI进行比对之前，进一步包括：

获取包括有同源率在第一设定范围内、且氨基酸长度在第二设定范围内的氨基酸序列的比对报告，根据所述比对报告将插入或缺失的氨基酸个数在第四设定范围内的氨基酸序列筛选出来，并根据筛选出来的氨基酸序列执行所述与NCBI进行比对的操作。

优选地，所述第四设定范围为不小于5个氨基酸。

优选地，在所述根据与NCBI的比对结果确定发生了突变的蛋白之后，进一步包括：

确定发生了突变的蛋白对应的参考蛋白结构；

预测出发生了突变的蛋白对应的目标蛋白结构；

将所述目标蛋白结构与所述参考蛋白结构进行各方位视图的比对，并对每一方位视图对应比对结果中的突变位置进行标识；

根据每一方位视图对应比对结果中标识的突变位置进一步验证确定为发生了突变的蛋白是否发生了突变。

优选地，进一步包括：对确定为发生了突变的蛋白进行蛋白通路注释。

优选地，所述第一设定范围为：50％-97％；

优选地，所述第二设定范围为：不小于70个氨基酸。

第二方面，本发明实施例还提供了一种突变蛋白的检测装置，包括：

获取单元，用于获取样品对应的转录组数据；

第一比对单元，用于将所述转录组数据与线粒体数据库进行比对，根据与线粒体数据库的比对结果输出非线粒体序列；

转化单元，用于将非线粒体序列中的核苷酸序列转化成氨基酸序列；

第二比对单元，用于将转化后的氨基酸序列与蛋白数据库进行比对；

提取单元，用于在与蛋白数据库的比对结果中提取同源率在第一设定范围内、且氨基酸长度在第二设定范围内的氨基酸序列；

第三比对单元，用于将提取的同源率在第一设定范围内、且氨基酸长度在第二设定范围内的氨基酸序列与NCBI进行比对，根据与NCBI的比对结果确定发生了突变的蛋白。

本发明实施例提供了一种突变蛋白的检测方法及装置，通过获取样品对应的转录组数据，将转录组数据与线粒体数据库进行比对，比对不上的即为非线粒体序列，通过将非线粒体序列转化的氨基酸序列与蛋白数据库进行比对，可以提取出同源率在第一设定范围内、且氨基酸长度在第二设定范围内的氨基酸序列，以进一步缩小突变蛋白的范围，通过将同源率在第一设定范围内、且氨基酸长度在第二设定范围内的氨基酸序列与NCBI进行对比，确定出发生了突变的蛋白，从而实现了在样品中检测出发生了突变的蛋白有哪些。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例提供的一种突变蛋白的检测方法流程图；

图2是本发明一个实施例提供的另一种突变蛋白的检测方法流程图；

图3是本发明一个实施例提供的一种氨基酸序列的目标蛋白结构示意图；

图4是本发明一个实施例提供的一种氨基酸序列的参考蛋白结构示意图；

图5是本发明一个实施例提供的一种突变蛋白的检测装置结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供了一种突变蛋白的检测方法，该方法可以包括以下步骤：

步骤101：获取样品对应的转录组数据；

步骤102：将所述转录组数据与线粒体数据库进行比对，根据与线粒体数据库的比对结果输出非线粒体序列；

步骤103：将非线粒体序列中的核苷酸序列转化成氨基酸序列，并将转化后的氨基酸序列与蛋白数据库进行比对，并在与蛋白数据库的比对结果中提取同源率在第一设定范围内、且氨基酸长度在第二设定范围内的氨基酸序列；

步骤104：将提取的同源率在第一设定范围内、且氨基酸长度在第二设定范围内的氨基酸序列与NCBI进行比对，根据与NCBI的比对结果确定发生了突变的蛋白。

本发明上述实施例，通过获取样品对应的转录组数据，将转录组数据与线粒体数据库进行比对，比对不上的即为非线粒体序列，通过将非线粒体序列转化的氨基酸序列与蛋白数据库进行比对，可以提取出同源率在第一设定范围内、且氨基酸长度在第二设定范围内的氨基酸序列，以进一步缩小突变蛋白的范围，通过将同源率在第一设定范围内、且氨基酸长度在第二设定范围内的氨基酸序列与NCBI进行对比，确定出发生了突变的蛋白，从而实现了在样品中检测出发生了突变的蛋白有哪些，本方案多次进行筛选比对，可以进一步提高检测结果的准确度。

需要说明的是，若样品是人类的血液或组织，那么在步骤102的比对过程中，需要与人类线粒体数据库进行比对，以及在步骤103中的比对过程中，需要与人体蛋白数据库进行比对；若样品是某种动物的血液或组织，那么在步骤102的比对过程中，需要与该种动物的线粒体数据库进行比对，以及在步骤103中的比对过程中，需要与该种动物的蛋白数据库进行比对。

在本发明一个实施例中，由于NCBI(National Center for BiotechnologyInformation，美国国立生物技术信息中心)是基因生物的数据库集合，因此，其对应各个物种，为了确定样品中发生了突变的蛋白，至少可以通过如下一种方式来根据与NCBI的比对结果确定发生了突变的蛋白，包括：

确定样品对应的目标物种；

若直接将与所述目标物种的同源率未处于第三设定范围内的氨基酸序列确定为发生了突变的蛋白，那么可能在处于第三设定范围内的氨基酸序列中存在发生了突变的蛋白，影响检测结果的准确率，因此，通过将与目标物种的同源率和与其他物种的同源率进行比较，根据比较结果来确定发生了突变的蛋白，从而可以提高检测结果的准确率。

为了检测样品中发生了突变的蛋白，本发明实施例可以对样品对应的转录组数据进行检测，为了获取样品对应的转录组数据，可以使用高通量测序仪对样品进行高通量测序，或者使用单分子测序仪对样品进行单分子测序，其中，高通量测序以能一次并行对几十万到几百万条DNA分子进行序列测定和一般读长较短等为标志，由于高通量测序仪读长较短，输出的转录组数据为多条，需要进行组装才可以进行检测，而在组装过程中容易发生组装错误，影响后续检测的准确性。而单分子测序仪读长较长，输出的转录组数据为一整条，因此无需组装即可以进行检测，从而可以保证后续检测的准确性。

因此，本发明实施例可以使用单分子测序仪来获取样品对应的转录组数据，该方法可以包括：采集用于检测的组织或血液作为样品，并在采集的组织或血液中提取RNA；

将提取的RNA进行反转录成cDNA，并将所述cDNA扩增为双链DNA；

对所述双链DNA进行建库处理，利用单分子测序仪对建库处理后的所述双链DNA进行单分子测序，从单分子测序仪中拷贝出测序后的转录组数据。

在本发明一个实施例中，由于在将转化后的氨基酸序列与蛋白数据库进行比对时，提取的氨基酸序列是根据同源率和氨基酸长度进行筛选的，为了进一步提高检测结果的准确度，可以在所述将提取的同源率在第一设定范围内、且氨基酸长度在第二设定范围内的氨基酸序列与NCBI进行比对之前，进一步包括：获取包括有同源率在第一设定范围内、且氨基酸长度在第二设定范围内的氨基酸序列的比对报告，根据所述比对报告将插入或缺失的氨基酸个数在第四设定范围内的氨基酸序列筛选出来，并根据筛选出来的氨基酸序列执行所述与NCBI进行比对的操作。

例如，该第四设定范围为不小于5个氨基酸。

若在一个氨基酸序列中，大部分连续的氨基酸均不变，而只有一小部分变化了，那么可以确定为该氨基酸序列发生了突变。而若该变化的一小部分为一个或两个氨基酸，那么该变化对氨基酸序列的影响不大，因此，根据经验该可以将该第四设定范围设置为不小于5个氨基酸。

在本发明一个实施例中，为了对确定为突变蛋白的氨基酸序列是否为真的为突变蛋白，可以进行进一步的验证，

在所述根据与NCBI的比对结果确定发生了突变的蛋白之后，进一步包括：

确定发生了突变的蛋白对应的参考蛋白结构；

预测出发生了突变的蛋白对应的目标蛋白结构；

本发明上述实施例，通过利用发生了突变的蛋白对应的参考蛋白结构对预测出的目标蛋白结构进行验证，从而可以验证出确定为突变蛋白的氨基酸序列是否为突变蛋白，从而进一步提高了检测的准确度。

下面以测量某个人体具有哪些突变蛋白，以及使用单分子测序仪来获取该人体的样品对应的转录组数据为例，对本发明实施例提供的一种突变蛋白的检测方法进行说明，请参考图2，该方法可以包括以下步骤：

步骤201：采集用于检测的组织或血液作为样品，在采集的组织或血液中提取RNA。

优选地，可以采集外周血作为检测样品。

其中，在组织或血液中提取RNA的方法可以采用现有的提取方式，在此本实施例不作赘述。

步骤202：将提取的RNA进行反转录成cDNA，并将cDNA扩增为双链DNA。

其中，反转录是以RNA为模板，通过反转录酶，合成DNA的过程。

通过反转录合成的DNA为cDNA(complementary DNA，互补脱氧核糖核酸)，而cDNA为具有与某mRNA(信使RNA)链呈互补的碱基序列的单链DNA，因此，需要进一步将cDNA扩增为双链DNA。

步骤203：取双链DNA进行建库处理。

在将cDNA扩增为双链DNA时，可能扩增完成的双链DNA存在被漏掉的碱基，若双链DNA的碱基不完整，会对后续过程中突变蛋白检测的准确性造成影响，因此，需要对双链DNA进行修复。

在本发明实施例中，可以通过建库的方式实现对双链DNA的修复处理，该建库的过程可以包括以下内容：

首先，对双链DNA的中间部位进行损伤修复处理。

由于双链DNA在中间部位和两端都有可能会有损伤，因此，本步骤是对双链DNA中间部位出现的损伤进行修复。该修复方法至少可以通过如下表1所示的试剂配比来实现：

表1：

其中，Sheared DNA是指扩增后的双链DNA即样品；ThermoPol Reaction Buffer是ThermoPol公司生产的反应缓冲液，对于反应缓冲液的原浓度为10*，用于表征加入的反应缓冲液的体积是试剂总体积的十分之一；NAD+(Nicotinamide adenine dinucleotide，烟酰胺腺嘌呤二核苷酸)是一种转递质子的辅酶，其原浓度为100*，同理，用于表征加入的NAD+的体积是试剂总体积的一百分之一；dNTP(deoxy-ribonucleoside triphosphate，脱氧核糖核苷三磷酸)是在生物DNA合成中，以及各种PCR(聚合酶链式反应)中起原料作用；PreCRRepaired Mix是PCR修复酶。

将上述表1中所列试剂混合，并在37℃的温度下孵育30min，孵育结束后即实现了对双链DNA中间部位损伤的修复。

若一次性实现中间部位修复完成的双链DNA的量较大，可以对中间部位修复完成的双链DNA进行保存，在本发明一个实施例中，可以将中间部位修复完成的双链DNA放置在4℃的环境温度下保存。

由于在对双链DNA的中间部位进行损伤修复的过程中，加入了用于修复中间部位损伤的试剂(如上表1)，因此为了不影响后续过程中突变蛋白检测的准确度，需要对中间部位损伤修复处理后的双链DNA进行纯化，在本发明一个实施例中，可以使用1:1体积的纯化磁珠进行对双链DNA进行纯化，并使用42.5μL的EB(洗脱液)进行溶解。

其次，对双链DNA的末端部位进行损伤修复处理。

其中，对双链DNA的末端部位进行损伤修复，至少可以通过如下表2中试剂的配比来实现：

表2：

其中，表2中的DNA即为进行了中间部位的损伤修复后的双链DNA；End RepairReaction Buffer为末端修复反应缓冲液；End Repair Enzyme为末端修复酶。

将上述表2中的试剂进行混合，并在20℃的温度下孵育30min，孵育结束后即实现了对双链DNA的末端部位损伤的修复。

若一次性实现末端部位修复完成的双链DNA的量较大，可以对末端部位修复完成的双链DNA进行保存，在本发明一个实施例中，可以将末端部位修复完成的双链DNA放置在4℃的环境温度下保存。

同理，由于在对双链DNA的末端部位进行损伤修复的过程中，加入了用于修复末端部位损伤的试剂(如上表2)，因此，为了不影响后续过程中突变蛋白检测的准确度，需要对末端部位损伤修复处理后的双链DNA进行纯化，在本发明一个实施例中，可以使用1:1体积的纯化磁珠对双链DNA进行纯化，并使用32μL的EB进行溶解。

再次，对修复好的双链DNA进行T4反应，以给双链DNA添加接头。

其中，至少可以通过如下表3中试剂的配比来实现T4反应：

表3：

其中，Blunt Adapter为接头，T4DNA Ligased DNA Reaction Buffer为T4连接反应缓冲液，T4Ligase为T4连接酶。

在将上述表3中的试剂混合之后，可以在25℃的温度下孵育过夜或16h，并在65℃的温度进行灭火10min。

最后，给添加了T4接头的双链DNA进行外切反应。

其中，至少可以通过如下表4中试剂的配比来实现外切反应：

表4：

试剂	原浓度	体积	终浓度
				DNA(Ligased DNA)		40μL
ExoIII	100U/μL	1.0μL	5U/μL
				ExoVII	10U/μL	1.0μL	0.5U/μL
Total Volume		42.0μL

其中，DNA(Ligased DNA)为进行了T4连接反应后的DNA；ExoIII和ExoVII均为外切酶。

将上述表4中的试剂混合之后，可以在37℃的温度下孵育75min，孵育完成后即实现了对双链DNA的外切反应。在本发明一个实施例中，可以将完成了外切反应的双链DNA在4℃的环境温度进行保存。

相应的，需要对孵育完成的双链DNA进行纯化。

步骤204：利用单分子测序仪对建库处理后的双链DNA进行单分子测序，并从单分子测序仪中拷贝出测序后的转录组数据。

由于单分子测序仪其读长较长，测序出的转录组数据是一整条序列，因此，无需进行组装，即可进行后续的比对过程。由于高通量测序需要进行组装，而在组装过程中可能会出现错误，影响后续蛋白检测的准确度，因此，单分子测序相对于高通量测序可以提高蛋白检测的准确度。

根据样品大小不同，测序出的转录组数据的数据量也不同，其中，转录组数据为多条，每一条转录组数据均包括：序列信息和序列。以部分转录组数据为例，例如，得到如下4条转录组数据：

>c2228224/f1p3/584

isoform＝c2228224；full_length_coverage＝1；non_full_length_coverage＝3；isoform_length＝584

ACACACTCGCTTCTGGAACGTCTGAGGTTATCAATAAGCTCCTAGTCCAGACGCCATGGGTCATTTCACAGAGGAGGACAAGGCTACTATCACAAGCCTGTGGGGCAAGGTGAATGTGGAAGATGCTGGAGGAGAAACCCTGGGAAGGCTCCTGGTTGTCTACCCATGGACCCAGAGGTTCTTTGACAGCTTTGGCAACCTGTCCTCTGCCTCTGCCATCATGGGCAACCCCAAAGTCAAGGCACATGGCAAGAAGGTGCTGACTTCCTTGGGAGATGCCATAAAGCACCTGGATGATCTCAAGGGCACCTTTGCCCAGCTGAGTGAACTGCACTGTGACAAGTTGCATGTGGATCCTGAGAACTTCAAGCTCCTGGGAAATGTGCTGGTGACCGTTTTGGCAATCCATTTCGGCAAAGAATTCACCCCTGAGGTGCAGGCTTCCTGGCAGAAGATGGTGACTGCAGTGGCCAGTGCCCTGTCCTCCAGATACCACTGAGCCTCTTGCCCATGATTCAGAGCTTTCAAGGATAGGCTTTATTCTGCAAGCAATACAAATAATAAATCTATTCTGCTGAGAGATC

>c2228225/f1p0/395

isoform＝c2228225；full_length_coverage＝1；non_full_length_coverage＝0；isoform_length＝395

CACCACGCCTCCTCCAAGTCCCAGCGAACCCGCGTGCAACCTGTCCCGACTCTAGCCGCCTCTTCAGCTCGCCATGGATCCCAACTGCTCCTGCGCCGCCGGTGACTCCTGCACCTGCGCCGGCTCCTGCAAATGCAAAGAGTGCAAATGCACCTCCTGCAAGAAAAGCTGCTGCTCCTGCTGCCCTGTGGGCTGTGCCAAGTGTGCCCAGGGCTGCATCTGCAAAGGGGCGTCGGACAAGTGCAGCTGCTGCGCCTGATGCTGGGACAGCCCCGCTCCCAGATGTAAAGAACGCGACTTCCACAAACCTGGATTTTTTATGTACAACCCTGACCCTGACCGTTTGCTATATTCCTTTTTCTATGAAATAATGTGAATGATAATAAACAGCTTTG

>c2228226/f1p4/537

isoform＝c2228226；full_length_coverage＝1；non_full_length_coverage＝4；isoform_length＝537

CTTTTTTTTTCTTCAGCGAGGCGGCCGAGCTGGTTGGTGGCGGCGGTCGTGCGGACGCAAACATGCAGATCTTTGTGAAGACCCTCACTGGCAAAACCATCACCCTTGAGGTCGAGCCCAGTGACACCATTGAGAATGTCAAAGCCAAAATTCAAGACAAGGAGGGTATCCCACCTGACCAGCAGCGTCTGATATTTGCCGGCAAACAGCTGGAGGATGGCCGCACTCTCTCAGACTACAACATCCAGAAAGAGTCCACCCTGCACCTGGTGTTGCGCCTGCGAGGTGGCATTATTGAGCCTTCTCTCCGCCAGCTTGCCCAGAAATACAACTGCGACAAGATGATCTGCCGCAAGTGCTATGCTCGCCTTCACCCTCGTGCTGTCAACTGCCGCAAGAAGAAGTGTGGTCACACCAACAACCTGCGTCCCAAGAAGAAGGTCAAATAAGGTGGTTCTTTCCTTGAAGGGCAGCCTCCTGCCCAGGCCCCGTGGCCCTGGAGCCTCAATAAAGTGTCCCTTTCATTGACTGGAGCAG

>c2228227/f1p6/623

isoform＝c2228227；full_length_coverage＝1；non_full_length_coverage＝6；isoform_length＝623

ACATTTGCTTCTGACACAACTGTGTTCACTAGCAACCTCAAACAGACACCATGGTGCACCTGACTCCTGAGGAGAAGTCTGCCGTTACTGCCCTGTGGGGCAAGGTGAACGTGGATGAAGTTGGTGGTGAGGCCCTGGGCAGGCTGCTGGTGGTCTACCCTTGGACCCAGAGGTTCTTGAGTCCTTTGGGGATCTGTCCACTCCTGATGCTGTTATGGGCAACCCTAAGGTGAAGGCTCATGGCAAGAAAGTGCTCGGTGCCTTTAGTGATGGCCTGGCTCACCTGGACAACCTCAAGGGCACCTTTGCCACACTGAGTGAGCTGCACTGTGACAAGCTGCACGTGGATCCTGAGAACTTCAGGCTCCTGGGCAACGTGCTGGTCTGTGTGCTGGCCCATCACTTTGGCAAAGAATTCACCCCACCAGTGCAGGCTGCCTATCAGAAAGTGGTGGCTGGTGTGGCTAATGCCCTGGCCCACAAGTATCACTAAGCTCGCTTTCTTGCTGTCCAATTTCTATTAAAGGTTCCTTTGTTCCCTAAGTCCAACTACTAAACTGGGGGATATTATGAAGGGCCTTGAGCATCTGGATTCTGCCTAATAAAAAACATTTATTTTCATT

其中，以上述转录组数据中的第一条转录组数据为例，该条转录组数据中的序列信息包括：>c2228224/f1p3/584isoform＝c2228224；full_length_coverage＝1；non_full_length_coverage＝3；isoform_length＝584，其中，c2228224为该条转录组数据的名字，该命名方式为系统自动生成的。f1p3用于表征该条转录组数据全部序列被测出的次数为1次，该条转录数据中的部分序列被测出的次数为3次。584用于表征该条转录组数据中序列的长度。

步骤205：将所述转录组数据与人类线粒体数据库进行比对，根据与线粒体数据库的比对结果输出非线粒体序列。

其中，人类线粒体数据库中包括有大量人类的线粒体数据，在将转录组数据在与人类线粒体数据库比对时，可以针对每一条转录组数据在人类线粒体数据库中进行遍历，若人类线粒体数据库中遍历到该条转录组数据，即该条转录组数据被比对上，那么表明该条转录组数据是线粒体序列；若人类线粒体数据库中未遍历到该条转录组数据，即该条转录组数据未被比对上，那么表明该条转录组数据是非线粒体序列。

因此，根据上述比对结果可以得出转录组数据中的非线粒体序列，例如，得到如下非线粒体序列：

>c2228224/f1p3/584

>c2228225/f1p0/395

>c2228226/f1p4/537

根据得出的上述非线粒体序列以及上述获取到的转录组数据可知，获取到的转录组数据中，前三条转录组数据均为非线粒体序列，而第四条转录组数据为线粒体序列。

步骤206：将非线粒体序列中的核苷酸序列转化成氨基酸序列，并将转化后的氨基酸序列与人类蛋白数据库进行比对，并在与蛋白数据库的比对结果中提取同源率在第一设定范围内、且氨基酸长度在第二设定范围内的氨基酸序列。

在实际检测过程中，得到的转录组数据可能有成千上万条，在与人类线粒体数据库比对之后得到的非线粒体序列的条数可能也相当多，因此，为了进一步提高检测结果的准确度，以及降低检测工作量，在本发明实施例中，可以将非线粒体序列与人类蛋白数据库进行一次比对。

其中，人类蛋白数据库可以是5000酶数据库，该人类蛋白数据库中是氨基酸序列，而非线粒体序列是核苷酸序列，因此，为了顺利的将非线粒体序列与人类蛋白数据库进行比对，在本发明实施例中，可以将非线粒体序列中的核苷酸序列转化为氨基酸序列，然后在将氨基酸序列与人类蛋白数据库进行比对。

在将转化后的氨基酸序列与人类蛋白数据库进行比对时，若某一条非线粒体序列转化后的氨基酸序列与人类蛋白数据库的同源率越高，例如，同源率为100％，那么表明该条非线粒体序列发生突变的概率越小，可以记为同源率为100％的非线粒体序列未发生突变。而若某一条非线粒体序列转化后的氨基酸序列与人类蛋白数据库的同源率越低，例如同源率为10％，那么表明该条非线粒体序列未与人类蛋白数据库比对上，可以将其排除，表明其未发生突变。

在本发明一个实施例中，该第一设定范围可以是50％-97％。

在本发明一个实施例中，该第二设定范围可以是不小于70个氨基酸。

因此，在非线粒体序列转化的氨基酸序列中，摘出同源率在50％-97％，且氨基酸长度为不小于70的氨基酸序列作为第二氨基酸序列，进行后续的比对过程，不仅可以提高比对的准确度，还可以降低比对工作量。

步骤207：获取包括有同源率在第一设定范围内、且氨基酸长度在第二设定范围内的氨基酸序列的比对报告，根据所述比对报告将插入或缺失的氨基酸个数在第四设定范围内的氨基酸序列筛选出来。

例如，该第四设定范围为不小于5个氨基酸。

步骤208：将筛选出来的氨基酸序列与NCBI进行比对，确定样品对应的目标物种，确定与NCBI的比对结果中氨基酸序列与所述目标物种的同源率，以及确定与NCBI的比对结果中氨基酸序列与除所述目标物种之外的其他物种的同源率。

其中，该样品对应的模板物种为人。

步骤209：比较与目标物种的同源率和与其他物种的同源率，若不小于，则将与所述目标物种的同源率未处于第三设定范围内的氨基酸序列确定为发生了突变的蛋白；若小于，将与NCBI比对的所有氨基酸序列均确定为发生了突变的蛋白。

在正常情况下，在将筛选后的氨基酸序列与NCBI进行比对，可以在筛选后的氨基酸序列中进一步确定出哪些发生了突变，若各个氨基酸序列与NCBI比对时的同源率越高，表明比对上的概率越高，其发生突变的概率越低；同理，若各个氨基酸序列与NCBI比对时的同源率越低，表明比对上的概率越低，其发生突变的概率越高，因此，可以直接将同源率未处于第三设定范围内的氨基酸序列确定为发生了突变的蛋白。

进一步地，由于NCBI是基因生物的数据库集合，其对应各个物种，若直接将与人的同源率未处于第三设定范围内的氨基酸序列确定为发生了突变的蛋白，那么可能在处于第三设定范围内的氨基酸序列中存在发生了突变的蛋白，影响检测结果的准确率，因此，通过将与人的同源率和与其他物种的同源率进行比较，根据比较结果来确定发生了突变的蛋白，从而可以提高检测结果的准确率。

在本发明一个实施例中，该第三设定范围可以为99％-100％。

步骤210：确定各个发生了突变的蛋白分别对应的参考蛋白结构，以及预测出发生了突变的蛋白分别对应的目标蛋白结构。

步骤211：针对每一个发生了突变的蛋白，将其目标蛋白结构与其参考蛋白结构进行各方位视图的比对，并对每一方位视图对应比对结果中的突变位置进行标识，并根据每一方位视图对应比对结果中标识的突变位置进一步验证该确定为发生了突变的蛋白是否发生了突变。

在本发明一个实施例中，针对确定发生了突变的各个蛋白，可以进一步对其发生的突变进行验证。该验证方式可以是通过蛋白结构来验证。

其中，参考蛋白结构是该蛋白若未发生变异其对应的蛋白结构，目标蛋白结构是该发生了变异的蛋白对应实际的蛋白结构。通过针对每一个蛋白，可以将其目标蛋白结构与其参考蛋白结果进行个方位视图的比对来验证该确定为发生了突变蛋白是否真的发生了突变。

在本发明一个实施例中，至少可以将确定为发生了上传至下述网站来进行目标蛋白结构的预测：http://zhanglab.ccmb.med.umich.edu/I-TASSER/。并利用该网站对目标蛋白结构与参考蛋白结构进行比较，以标识出突变位置。

例如，以某个确定发生了突变的蛋白的正视图为例，请参考图3，为该确定发生了突变的蛋白对应的目标蛋白结构正视图，请参考图4，为该确定发生了突变的蛋白对应的参考蛋白结构正视图。

在图3中用圆圈标识出的即为突变位置，图4中用圆圈标识出的是未发生突变时该位置的结构。由此得出，该确定为发生了突变的蛋白验证结果为确实发生了突变。

步骤212：将确定为发生了突变的蛋白进行蛋白通路注释。

在本实施了中，至少可以利用kobas对突变蛋白进行蛋白通路注释。

请参考图5，本发明实施例还提供了一种突变蛋白的检测装置，包括：

获取单元501，用于获取样品对应的转录组数据；

第一比对单元502，用于将所述转录组数据与线粒体数据库进行比对，根据与线粒体数据库的比对结果输出非线粒体序列；

转化单元503，用于将非线粒体序列中的核苷酸序列转化成氨基酸序列；

第二比对单元504，用于将转化后的氨基酸序列与蛋白数据库进行比对；

提取单元505，用于在与蛋白数据库的比对结果中提取同源率在第一设定范围内、且氨基酸长度在第二设定范围内的氨基酸序列；

第三比对单元506，用于将提取的同源率在第一设定范围内、且氨基酸长度在第二设定范围内的氨基酸序列与NCBI进行比对，根据与NCBI的比对结果确定发生了突变的蛋白。

综上，本发明各个实施例至少可以实现如下有益效果：

1、在本发明实施例中，通过获取样品对应的转录组数据，将转录组数据与线粒体数据库进行比对，比对不上的即为非线粒体序列，通过将非线粒体序列转化的氨基酸序列与蛋白数据库进行比对，可以提取出同源率在第一设定范围内、且氨基酸长度在第二设定范围内的氨基酸序列，以进一步缩小突变蛋白的范围，通过将同源率在第一设定范围内、且氨基酸长度在第二设定范围内的氨基酸序列与NCBI进行对比，确定出发生了突变的蛋白，从而实现了在样品中检测出发生了突变的蛋白有哪些。

2、在本发明实施例中，由于单分子测序仪的读长较长，输出的转录组数据为一整条，因此无需组装即可以进行检测，因此通过使用单分子测序仪对样品进行测序，以获得转录组数据，从而可以保证后续检测的准确性。

3、在本发明实施例中，通过利用参考蛋白结构对预测的目标蛋白结构进行验证，从而进一步对确定为发生了突变的蛋白进行验证，从而进一步提高了检测的准确度。

上述装置内的各单元之间的信息交互、执行过程等内容，由于与本发明方法实施例基于同一构思，具体内容可参见本发明方法实施例中的叙述，此处不再赘述。

需要说明的是，在本文中，诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个······”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储在计算机可读取的存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。

最后需要说明的是：以上所述仅为本发明的较佳实施例，仅用于说明本发明的技术方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种突变蛋白的检测方法，其特征在于，包括：

获取样品对应的转录组数据；

将所述转录组数据与线粒体数据库进行比对，根据与线粒体数据库的比对结果输出非线粒体序列；其中，线粒体数据库中包括若干条线粒体数据；

将提取的同源率在第一设定范围内、且氨基酸长度在第二设定范围内的氨基酸序列与NCBI进行比对，根据与NCBI的比对结果确定发生了突变的蛋白；

所述将所述转录组数据与线粒体数据库进行比对，根据与线粒体数据库的比对结果输出非线粒体序列，包括：针对所述转录组数据在线粒体数据库中进行遍历，若未遍历到所述转录组数据，则将所述转录组数据作为非线粒体序列输出。

2.根据权利要求1所述的突变蛋白的检测方法，其特征在于，所述根据与NCBI的比对结果确定发生了突变的蛋白，包括：

确定样品对应的目标物种；

3.根据权利要求2所述的突变蛋白的检测方法，其特征在于，所述第三设定范围为：99％-100％。

4.根据权利要求1所述的突变蛋白的检测方法，其特征在于，所述获取样品对应的转录组数据，包括：

将提取的RNA进行反转录成cDNA，并将所述cDNA扩增为双链DNA；

5.根据权利要求1所述的突变蛋白的检测方法，其特征在于，在所述将提取的同源率在第一设定范围内、且氨基酸长度在第二设定范围内的氨基酸序列与NCBI进行比对之前，进一步包括：

6.根据权利要求5所述的突变蛋白的检测方法，其特征在于，所述第四设定范围为不小于5个氨基酸。

7.根据权利要求1所述的突变蛋白的检测方法，其特征在于，在所述根据与NCBI的比对结果确定发生了突变的蛋白之后，进一步包括：

确定发生了突变的蛋白对应的参考蛋白结构；

预测出发生了突变的蛋白对应的目标蛋白结构；

8.根据权利要求1所述的突变蛋白的检测方法，其特征在于，进一步包括：对确定为发生了突变的蛋白进行蛋白通路注释。

9.根据权利要求1-8中任一所述的突变蛋白的检测方法，其特征在于，

所述第一设定范围为：50％-97％；

和/或，

所述第二设定范围为：不小于70个氨基酸。

10.一种突变蛋白的检测装置，其特征在于，包括：

获取单元，用于获取样品对应的转录组数据；

第一比对单元，用于将所述转录组数据与线粒体数据库进行比对，根据与线粒体数据库的比对结果输出非线粒体序列；其中，线粒体数据库中包括若干条线粒体数据；

第三比对单元，用于将提取的同源率在第一设定范围内、且氨基酸长度在第二设定范围内的氨基酸序列与NCBI进行比对，根据与NCBI的比对结果确定发生了突变的蛋白；

所述第一比对单元，具体用于针对所述转录组数据在线粒体数据库中进行遍历，若未遍历到所述转录组数据，则将所述转录组数据作为非线粒体序列输出。