CN115631790A

CN115631790A - 单细胞转录组测序数据的体细胞突变提取方法及装置

Info

Publication number: CN115631790A
Application number: CN202211212629.3A
Authority: CN
Inventors: 沈宁; 张天韵
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2022-09-30
Filing date: 2022-09-30
Publication date: 2023-01-20
Also published as: US20240120026A1

Abstract

本发明实施例涉及一种单细胞转录组测序数据的体细胞突变提取方法及装置，该方法包括：将单细胞转录组原始测序数据采用第一比对识别方法进行处理，得到多个第一体细胞突变位点；将单细胞转录组原始测序数据采用第二比对识别方法进行处理，得到多个第二体细胞突变位点；根据多个第一体细胞突变位点和多个第二体细胞突变位点整合，得到多个候选体细胞突变位点；对多个候选体细胞突变位点进行突变筛选，得到最终体细胞突变位点。本发明实施例的技术方案，在尽可能保留最大数量真实突变的同时，实现了最小化比对和突变提取算法本身导致的偏差，并有效去除了由于提取算法本身导致被错误识别的噪音，解决了单细胞数据噪音较多的问题。

Description

单细胞转录组测序数据的体细胞突变提取方法及装置

技术领域

本发明实施例涉及转录组数据分析技术领域，尤其涉及一种单细胞转录组测序数据的体细胞突变提取方法及装置。

背景技术

癌症是由于细胞的基因组突变引起的一系列改变，作用于细胞的基因组、表观组、转录组等多个层面。癌细胞的组织异质性与快速进化是肿瘤发展与治疗耐受的关键点与研究难点。近年来，单细胞转录组技术得到了飞速发展与广泛应用，在肿瘤组织转录表达谱的异质性与耐药进化方面取得了一系列进展。然而，单细胞基因组水平体细胞突变等基因组突变方面的检测分析，受单细胞基因组测序技术的发展限制依然存在重重困难。而在单细胞水平同时检测基因组与转录组，从而实现单细胞水平基因型到表型研究更是难上加难。

由于单细胞转录组测序数据(scRNA-seq)实验本身在单细胞水平所覆盖的基因组区域较少，造成了可检测突变的稀疏性。而实验过程中又会引入大量伪信号与噪音信号，进一步增加了在这一数据类型中高精准度检测体细胞突变的难度。

发明内容

基于现有技术的上述情况，本发明实施例的目的在于提供一种单细胞转录组测序数据的体细胞突变提取方法及装置，通过提供高精准度的生物信息学算法框架，实现了从单细胞转录组测序数据(scRNA-seq)中直接并高精确度提取体细胞突变信息。

为达到上述目的，根据本发明的一个方面，提供了一种单细胞转录组测序数据的体细胞突变提取方法，包括：

将单细胞转录组原始测序数据采用第一比对识别方法进行处理，以得到多个第一体细胞突变位点；

将单细胞转录组原始测序数据采用第二比对识别方法进行处理，以得到多个第二体细胞突变位点；

根据多个第一体细胞突变位点和多个第二体细胞突变位点进行整合，得到多个候选体细胞突变位点；

对多个候选体细胞突变位点进行突变筛选，得到最终体细胞突变位点。

进一步的，将单细胞转录组原始测序数据采用第一比对识别方法进行处理，以得到多个第一体细胞突变位点，包括：

采用第一比对模式对单细胞转录组原始测序数据和参考基因组数据进行比对，得到第一比对信息记录文件；

对第一比对信息记录文件添加标注；

针对标注后的第一比对信息记录文件进行校正和注释，获得多个第一体细胞突变位点；其中，所述校正包括序列校正和碱基质量校正，所述注释包括对编码蛋白质功能影响的注释以及生殖细胞突变和RNA编辑的数据库注释。

进一步的，将单细胞转录组原始测序数据采用第二比对识别方法进行处理，以得到多个第二体细胞突变位点，包括：

采用第二比对模式对单细胞转录组原始测序数据和参考基因组数据进行比对；

针对比对得到的结果，采用第二识别模式识别获得多个第二体细胞突变位点。

进一步的，根据多个第一体细胞突变位点和多个第二体细胞突变位点进行整合，得到多个候选体细胞突变位点，包括：

对多个第一体细胞突变位点进行过滤，得到多个过滤后的第一体细胞位点；

将多个过滤后第一体细胞突变位点与所述多个第二体细胞突变位点进行比较，得到多个候选体细胞突变位点。

进一步的，对多个第一体细胞突变位点进行过滤，包括：

排除第一体细胞突变位点中位于预设排除区域的突变位点；

对其余第一体细胞突变位点进行注释后，利用数据库进行位点筛选，得到过滤后的第一体细胞突变位点。

进一步的，将多个过滤后的第一体细胞突变位点与多个第二体细胞突变位点进行比较，以得到多个候选体细胞突变位点，包括：

针对每个单细胞，将多个过滤后的第一体细胞突变位点与多个第二体细胞突变位点中共有的位点作为候选体细胞突变位点；

针对每个单细胞，将仅在多个过滤后的第一体细胞突变位点或者多个第二体细胞突变位点中出现的位点作为噪音位点。

进一步的，对多个候选体细胞突变位点进行突变筛选，得到最终体细胞突变位点，包括：

采用第一质量条件、第二质量条件和第一复现条件对所得到的候选体细胞突变位点和噪音位点筛选。

进一步的，将同时符合第一质量条件、第二质量条件和第一复现条件的候选体细胞突变位点作为最终体细胞突变位点；

将同时不符合第一质量条件、第二质量条件和第一复现条件的噪音位点作为最终噪音位点；

将其余候选体细胞突变位点和噪音位点作为待定候选位点。

进一步的，所述方法还包括：

采用最终体细胞突变位点和最终噪音位点作为训练数据训练突变提取模型；

采用训练好的突变提取模型对所述待定候选位点进行预测，以在待定候选位点中筛选体细胞突变位点。

进一步的，所述突变提取模型包括第一逻辑回归模型和第二逻辑回归模型；

利用突变位点的检测质量值、reads覆盖度、归一化后的各基因型的可能性、两种碱基各自支持的碱基数量以及突变的等位基因占该位点所有reads数目的比例来建立第一逻辑回归模型；

利用突变位点的突变类型、突变位点前后一位碱基信息以及突变谱的信息来建立第二逻辑回归模型。

进一步的，采用以下公式对第一逻辑回归模型和第二逻辑回归模型的输出结果进行整合，以得到突变提取模型的预测结果：

其中，w为整合系数，P≥0.5时，w＝1，否则，w＝0；P()表示候选位点是真实突变的概率函数，pos_classifier表示候选位点，P_qual表示对于同一候选突变点，第一逻辑回归模型的输出结果，P_seq表示对于同一候选突变点，第二逻辑回归模型的输出结果。

根据本发明的第二个方面，提供了一种单细胞转录组测序数据的体细胞突变提取装置，包括：

第一比对识别模块，用于将单细胞转录组原始测序数据采用第一比对识别方法进行处理，以得到多个第一体细胞突变位点；

第二比对识别模块，用于将单细胞转录组原始测序数据采用第二比对识别方法进行处理，以得到多个第二体细胞突变位点；

候选体细胞突变位点获取模块，用于根据多个第一体细胞突变位点和多个第二体细胞突变位点进行整合，得到多个候选体细胞突变位点；

突变筛选模块，用于对多个候选体细胞突变位点进行突变筛选，得到最终体细胞突变位点。

根据本发明的第三个方面，提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的可执行指令，所述处理器执行所述程序时实现如本发明第一个方面所述的方法。

根据本发明的第四个方面，提供了一种计算机可读存储介质，其上存储有计算机可执行指令，所述可执行指令被处理器执行时实现如本发明第一个方面所述的方法。

综上所述，本发明实施例提供了一种单细胞转录组测序数据的体细胞突变提取方法及装置，该方法包括：将单细胞转录组原始测序数据采用第一比对识别方法进行处理，以得到多个第一体细胞突变位点；将单细胞转录组原始测序数据采用第二比对识别方法进行处理，以得到多个第二体细胞突变位点；根据多个第一体细胞突变位点和多个第二体细胞突变位点进行整合，得到多个候选体细胞突变位点；对多个候选体细胞突变位点进行突变筛选，得到最终体细胞突变位点。本发明实施例相对于现有技术具有如下有益的技术效果：

(1)本发明实施例的技术方案，通过将单细胞转录组原始测序数据和参考基因组数据进行比对，并采用两种比对方法的复用，在尽可能保留最大数量的真实突变的同时，实现了最小化比对和突变提取算法本身导致的偏差，并有效去除了由于提取算法本身导致被错误识别的噪音。

(2)本发明实施例的技术方案，针对比对后的数据进行过滤以排除干扰，并进一步进行突变筛选，分别设置质量条件和复现条件来实现该筛选，从而有效地降低了各个阶段噪音对结果的影响，解决了单细胞数据噪音较多的问题。

(3)本发明实施例的技术方案，还可以通过联合逻辑回归模型构建突变提取模型，对所得到的待定候选位点进行进一步预测，在保证了整个提取方法精确度的同时，还提高了该提取方法的灵敏度。

附图说明

图1是本发明实施例提供的单细胞转录组测序数据的体细胞突变提取方法的流程图；

图2是本发明第二个实施例提供的单细胞转录组测序数据的体细胞突变提取方法的流程图；

图3是本发明实施例提供的单细胞转录组测序数据的体细胞突变提取装置的构成框图；

图4是本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

需要说明的是，除非另外定义，本发明一个或多个实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本发明一个或多个实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

目前在单细胞水平同时检测基因组与转录组，从而实现单细胞水平基因型到表型研究存在一定困难。首先，从实验方面，在单细胞转录组测序基础上结合靶向碱基突变(targeted sequencing/genotyping)的实验方法，或结合单细胞转录组测序与传统批量外显子(bulk whole exome sequencing，bulk WES)或基因组测序(bulk whole genomesequencing,bulk WGS)来分析单细胞转录组水平的碱基突变方法已被陆续报道。另外，基于整合单细胞转录组测序数据(scRNA-seq)与传统批量外显子或基因组测序进行肿瘤进化与谱系追踪研究的计算与分析方法也有所报道。然而这类方法不仅需要大量的生物样本，完善的实验设计和实验技术，并且只有非常有限的检测灵敏度，因而此类基于同一样本的多组学数据并不多见。相应的算法也难以得到广泛使用。

相比而言，直接从单细胞转录组测序数据(scRNA-seq)中提取mRNA携带的基因组突变信息的生物信息学算法则更加高效。由于许多基因组DNA层面的体细胞突变会被相应的转录本mRNA所携带，而相比于沉默不表达的体细胞突变，被转录到mRNA水平并高表达携带的体细胞突变则有更大可能在癌细胞中发挥功能。并且直接在单细胞转录组测序数据(scRNA-seq)中检测高表达的体细胞突变无需进行额外的实验，即可以实现在同一单细胞中同时提取基因组突变信息与基因表达信息，真正实现单细胞水平基因型到表型的研究。

本发明实施例中提供了单细胞转录组测序数据的体细胞突变提取方法及装置，解决了单细胞转录组测序数据(scRNA-seq)实验本身在单细胞水平所覆盖的基因组区域较少，造成了可检测突变的稀疏性，以及实验过程中会引入大量伪信号与噪音信号的技术问题。

下面对结合附图对本发明的技术方案进行详细说明。本发明的第一个实施例中，提供了一种单细胞转录组测序数据的体细胞突变提取方法，图1中示出了该方法的流程图，包括如下步骤：

S102、将单细胞转录组原始测序数据采用第一比对识别方法进行处理，以得到多个第一体细胞突变位点。

S104、将单细胞转录组原始测序数据采用第二比对识别方法进行处理，以得到多个第二体细胞突变位点。

上述步骤S102和S104中，通过将单细胞转录组原始测序数据和参考基因组数据分别采用第一比对识别方法和第二比对识别方法进行比对识别，可以产生确定等待后续识别的突变位点。其中，参考基因组数据可以通过现有的数据库下载获得。上述步骤的目标是在候选基因池中尽可能保留最大数量的真实突变。为了最小化比对和突变鉴定算法本身导致的偏差，采用了两种不同的比对和变异检测算法，分别为第一比对识别方法和第二比对识别方法，通过后续比较两组不同比对识别方法的结果，以实现最小化算法本身偏差，从而可以有效去除由于识别算法本身导致被错误识别的噪音。其中，第一比对识别方法包括基于质量特征、以及包含生殖细胞突变(germline mutations)和RNA编辑等信息的数据库筛选的比对识别方法；第二比对方法包括基于长噪音读段(Long noisy read aligner)和混合分布模型的比对识别方法。与传统aligner相比，本发明实施例中选用了一个可以针对长读长(例如100MB)的数据进行比对的软件实现基于长噪音读段的比对，该软件还能有效应对长读长中包含的噪音信息。

步骤S102中，将单细胞转录组原始测序数据采用第一比对识别方法进行处理，以得到多个第一体细胞突变位点，可以包括如下步骤：

S1021、采用第一比对模式对单细胞转录组原始测序数据和参考基因组数据进行比对，得到第一比对信息记录文件。第一比对模式例如可以采用STAR TWO-PASS模式对原始测序数据进行比对(STAR是一中单细胞转录组测序数据(scRNA-seq)专用的比对软件)，获得初步的比对信息记录文件(BAM文件)。

S1022、对第一比对信息记录文件添加标注。在第一比对信息记录文件的基础上，可以通过Picard添加reads组信息和标注重复，其中，Picard是一种处理高通量测试数据的SAM/BAM/VCF等类型的软件包。本发明实施例中所采用的测序数据为双端测序数据，在双端测序数据中，存在两个文件为read1和read，分别表示双端测序中两个端的测序数据。该步骤用于对第一比对信息记录文件(BAM文件)中的信息是来源于哪一个双端测序文件进行标注。

S1023、针对标注后的第一比对信息记录文件进行校正和注释，获得多个第一体细胞突变位点。本实施例中，例如使用专为转录组测序数据(RNA-seq)开发的SplitNCigarReads工具分离落在外显子上的序列，去除N错误碱基(其中，N代表没有测定的碱基)，去除内含子区域的序列。序列碱基质量则通过GATK提供的BaseRecalibrator和ApplyBQSR碱基质量校正工具进行调整。GATK的HaplotypeCaller可以提供初步变异检测，在此过程中设定只有碱基测序质量(Phred-scale quality scores)数值大于20的位点会被认为是高质量的变异并予以保留，从而实现了对上述信息记录文件的校正。注释过程中，对上述信息记录文件中的位点，首先利用SnpEff(SnpEff是一种蛋白质功能注释软件)对突变是否对编码蛋白质基因造成影响进行注释和预测；再分别利用RNAediting和dbSNP数据库或者用户给定的生殖细胞突变信息进行进一步注释；最后去除位于距离reads结尾不超过6个碱基的突变。在测序数据中，测序的碱基读数都有固定长度。对于位于测序读长边缘的碱基极有可能因为测序仪器或者实验过程的噪音污染而产生突变。为了提高识别结果的准确度，在该步骤的最后去除位于读长末尾的碱基。

通过上述第一比对识别方法，实现了变异位点的初步检测，可以为后续分析提供更多信息。

步骤S104中，将单细胞转录组原始测序数据采用第二比对识别方法进行处理，以得到多个第二体细胞突变位点，可以包括如下过程：采用第二比对模式对单细胞转录组原始测序数据和参考基因组数据进行比对，针对比对得到的结果，采用第二识别模式识别获得多个第二体细胞突变位点。该步骤中，为了最小化检测算法本身偏差，采用另外一种完全不同的比对模式。例如，该实施例中可以采用minimap2比对算法作为第二比对模式，相比STAR比对算法，minimap2比对算法能够处理长噪音读段的转录组测序数据(RNA-seq)。比对完成后，可以采用Strelka这一用于突变检测的算法作为第二识别模式，从而确定突变位点候选池。Strelka用于针对minimap2输出的bam文件，对该bam文件进行体细胞突变检测。其原理主要通过将输出的bam文件与参考基因组数据再次比较建立混合分布模型，通过使用该混合分布模型对每一个输入的待预测位点，估计其属于变异突变的概率和属于噪音的概率，来估计突变率和噪音率，从而实现体细胞突变检测。

S106、根据多个第一体细胞突变位点和多个第二体细胞突变位点进行整合，得到多个候选体细胞突变位点。该步骤中，将基于上述比对步骤得到的第一体细胞突变位点和第二体细胞突变位点进行整合，以实现更进一步的筛选和识别，具体可以包括如下步骤：

S1061、对多个第一体细胞突变位点进行过滤，得到多个过滤后的第一体细胞位点。对第一比对方法所识别的体细胞突变(即第一体细胞突变位点)进行过滤筛选，仅保留候选突变池中位于外显子区域并且非生殖突变的突变，以确保排除生殖突变的影响；再将筛选所得的突变位点与第二比对方法中识别的突变(即第二体细胞突变位点)进行比较，保留共有部分，以最小化算法本身误差。可以通过以下步骤实现：排除第一体细胞突变位点中位于预设排除区域的突变位点；对其余第一体细胞突变位点进行注释后，利用数据库进行位点筛选，得到过滤后的第一体细胞突变位点。例如，针对第一体细胞突变位点，排除其中位于chrM和GL区域的突变位点；然后利用ANNOVAR(ANNOVAR是一种用于SNP等变异位点注释的软件)基于ensGene数据对各第一体细胞突变位点进行注释，通过再次过滤，保证各第一体细胞突变位点都位于外显子区域。其中，Ensembl是一项生物信息学研究计划，旨在开发一种能够对真核生物基因组进行自动诠释(automatic annotation)并加以维护的软件。由该项目提供的数据库即为ensGene。通过gnomAD30数据库中人群常见突变，对候选突变进行过滤，排除常见突变的干扰，再利用基于人类参考基因组hg38的人类RNA编辑数据库RNAedit数据，从第一体细胞突变位点中剔除RNA编辑位点。通过上述过滤步骤，可以排除生殖细胞突变对有限识别体细胞突变的干扰。

S1062、将多个过滤后的第一体细胞突变位点与多个第二体细胞突变位点进行比较，保留两者共有部分作为真实体细胞突变的候选体细胞突变位点：针对每个单细胞，将多个过滤后的第一体细胞突变位点与多个第二体细胞突变位点中共有的位点作为候选体细胞突变位点；针对每个单细胞，将仅在多个过滤后的第一体细胞突变位点或者多个第二体细胞突变位点中出现的位点作为噪音位点。

S108、对多个候选体细胞突变位点进行突变筛选，得到最终体细胞突变位点。该步骤中，通过数据质量对单个细胞中的突变进一步筛选，保留高质量的突变以此排除部分噪音的影响。并且对于单一突变，若该突变在同一样本的多个细胞中重复出现，则认为该突变为高度可信的体细胞突变，这一条件能够非常有效的排除噪音。因为噪音更多是随机出现，无法跨多个细胞复现。对于满足上述条件的突变，将其定义为高度可信的最终体细胞突变。而对于仅在单一识别算法中出现，并且无法满足质量和复现条件的突变，将其定义为噪音。对于剩余仅能满足部分条件的体细胞突变，我们定义为无法确定的组别，以待后续建模检验。突变筛选过程可以通过采用第一质量条件、第二质量条件和第一复现条件对所得到的候选体细胞突变位点和噪音位点筛选：

将同时符合第一质量条件、第二质量条件和第一复现条件的候选体细胞突变位点作为最终体细胞突变位点；将同时不符合第一质量条件、第二质量条件和第一复现条件的噪音位点作为最终噪音位点；将其余候选体细胞突变位点和噪音位点作为待定候选位点。

该步骤中突变筛选基于真实体细胞突变位点在质量信息方面需要满足下列条件：

第一质量条件：变异信息的检测质量不小于30。该位点测序深度大于设定的参数(默认为3)，通过Fisher检验(Fisher检验是一种精确检验，用来检验一次随机实验的结果是否支持对于某个随机实验的假设)评估当前变异可能是链偏差(strand bias)的结果不大于30。

第二质量条件：如果存在BaseQRankSum(BaseQRankSum表示比较支持变异的碱基和支持参考基因组的碱基的质量,负值表示支持变异的碱基质量值不及支持参考基因组的)和支ClippingRankSum则要求其的数值不小于-2.33不大于2.33，以及MQRankSum和ReadPosRankSum的值不小于-2.33不大于2.33。其中，hard clipping表示若读长无法比对参考基因组，则删除这一读长。ClippingRankSum是对被删除的碱基位于参考碱基和突变碱的数据进行基位秩和检验；MQRankSum表示位于参考碱基和突变碱基的比对质量进行秩和检验；ReadPosRankSum表示对位于参考碱基和突变碱基在读长中的相对位置进行秩和检验。

第一复现条件：统计单一样本所有细胞中各个突变位点出现的次数，若突变位点出现次数不小于3或整体细胞数的5％并且不大于整体细胞数的80％，则认为该突变位点为真实的体细胞突变位点，符合该第一复现条件。

上述各步骤中，首先通过注释和相关数据库排除了非外显子区域和生殖细胞突变的干扰，再通过质量筛选条件和突变复现次数条件，有效降低各个阶段噪音对结果的影响，从而解决了单细胞数据噪音较多的问题。

本发明提供的第二个实施例中，该方法还可以包括如下步骤：

S110、采用最终体细胞突变位点和最终噪音位点作为训练数据训练突变提取模型；采用训练好的突变提取模型对所述待定候选位点进行预测，以在待定候选位点中筛选体细胞突变位点。采用训练的模型进行预测，作为可选的实施例，旨在提高提取方法的灵敏度。图2中示出了第二个实施例提供的提取方法的流程图。鉴于上述步骤中已经识别出可信的体细胞突变和噪音，可以采用监督学习模型来构建模型。此外由于对于单一突变，在通过上述步骤中的注释之后会包含质量相关特征和序列相关特征。由于这两类特征的不同属性，不同于以往混合建模，本发明该实施例中采取对两类特征分别训练模型，以避免任一类特征对整体模型产生较大影响。在基于序列相关特征建立模型时，引入了突变谱(mutationspectrum)这一概念，即在不同类型的细胞系或者癌症类型中，不同类型的突变发生率不同。因此通过对该类特征构建模型，以实现对不同类型癌症或者细胞系样本的特异性建模。而基于质量相关特征的模型训练则更专注于对于不同类型癌症或者细胞系样本的共性进行建模。最后通过整合上述两个模型，形成联合逻辑回归模型，在无法确定的组别中进行预测。数据的稀疏性是直接从单细胞数据中提取体细胞突变的另一难点，通过本发明实施例上述各步骤中提供的条件过滤后，获得的突变位点数量相对较少，为了进一步提升算法灵敏度，对于包含较多体细胞突变的癌症组织和细胞系样本，可以采用联合逻辑回归模型，通过监督学习模型，先根据已知的体细胞突变和噪音信息训练模型，再对无法确定类别的数据进行预测。由于真实体细胞突变和噪音的数量存在一定程度上的不平衡，在训练模型之前，可以通过过采样来调整整体数据不平衡问题。

本发明该实施例中，突变提取模型主要包含两个独立的逻辑回归模型。第一逻辑回归模型基于质量特征，第二逻辑回归模型基于序列特征。可以利用突变位点的测序数据检测质量值、reads覆盖度(测序数据对每个位点的覆盖程度)、归一化后的各基因型的可能性、两种碱基各自支持的碱基数量(参考碱基和突变碱基的数量)以及突变的等位基因占该位点所有reads数目的比例来建立第一逻辑回归模型。其中，基因型是指某一生物个体全部基因组合的总称，归一化后的各基因型的可能性是指对数据进行归一化处理后，各种基因型的比例；变异等位基因分数是指在基因组某个位点支持参考碱基/突变碱基(reference/alternative allele)的reads覆盖深度占该位点总reads覆盖深度的比例。可以利用突变位点的突变类型，突变位点前后一位碱基信息以及突变谱的信息来建立第二逻辑回归模型。上述建立模型过程所涉及的质量特征，在前述步骤得到的突变位点的文件中，均可直接获得。序列特征可以通过R包MutationalPatterns(R包MutationalPatterns是一个基于R语言开发的根据突变位置等信息，对突变位点进行突变图谱注释的软件)基于前述步骤得到的突变位置信息进行注释得到。

由于训练样本数量较少，为了避免过拟合，可以引入正则化惩罚项。针对第一逻辑回归模型，由于对于质量特征，需要避免异常值对模型的影响，因此可以选择L1正则化。针对第二逻辑回归模型，为了避免模型过度集中于常见的突变类型，而忽略相对较少发生的突变类型，选择L2正则化。本发明实施例中，采用以下公式对第一逻辑回归模型和第二逻辑回归模型的输出结果进行整合，以得到突变提取模型的预测结果：

其中，w为整合系数，P≥0.5时，w＝1，否则，w＝0。P()表示候选位点是真实突变的概率函数，pos_classifier表示候选位点，P_qual表示对于同一候选突变点，第一逻辑回归模型的输出结果；P_seq表示对于同一候选突变点，第二逻辑回归模型的输出结果。第一逻辑回归模型和第二逻辑回归模型的输出结果为对于同一候选突变点，预测该点为真实突变的概率。

通过以上步骤，实现了在保证了整个提取方法精确度的同时，还提高了该提取方法的灵敏度。

为了评估整个方法的精确度，分别将本发明实施例的方法应用于8个细胞系和模拟组织测试数据集中。

表1

表1中示出了将本发明第一个实施例和第二个实施例的方法分别应用于8个细胞系和模拟组织数据集中的体细胞突变提取精确度的数据。其中，Enge_2017、Maynard_2020、Varscan、Hovestadt_2019、BCFTools为现有技术中采用到的体细胞突变提取方法。

对于模拟组织测试数据集，该测试数据集中包含婴幼儿数据。将多种不同癌症细胞系的体细胞突变通过计算模拟加入婴幼儿组织样本中进行数据模拟。之后将本发明实施例提供的提取方法和其他5种现有的提取方法应用于该测试数据集，表2中示出了数据模拟的精确度结果比较。结果显示，相比现有技术的其他方法，本发明第一个实施例提供的提取方法可以实现稳定的高精确度体细胞突变检测。并且，本发明第二个实施例提供的方法在包含较多体细胞突变的模拟数据中，可以实现比本发明第一个实施例提供的提取方法更高的灵敏度，但在包含较少体细胞突变的模拟数据中，本发明第二个实施例提供的方法的精确度要低于本发明第一个实施例提供的方法。因此，对于包含较少体细胞突变的数据中，只应用本发明第一个实施例提供的提取方法，可以实现高精确度的识别体细胞突变，为后续癌症或者药物靶点研究提供精准方向。而针对包含较多体细胞突变样本，应用本发明第二个实施例提供的提取方法，可以在保证高精确度的前提下，一定程度提升算法灵敏度。

表2

本发明的第三个实施例，还提供了一种单细胞转录组测序数据的体细胞突变提取装置，图3中示出了该装置的构成框图，该装置包括：

第一比对识别模块301，用于将单细胞转录组原始测序数据采用第一比对识别方法进行处理，以得到多个第一体细胞突变位点；

第二比对识别模块302，用于将单细胞转录组原始测序数据采用第二比对识别方法进行处理，以得到多个第二体细胞突变位点；

候选体细胞突变位点获取模块303，用于根据多个第一体细胞突变位点和多个第二体细胞突变位点进行整合，得到多个候选体细胞突变位点；

突变筛选模块304，用于对多个候选体细胞突变位点进行突变筛选，得到最终体细胞突变位点。

本发明该实施例中各模块实现其功能的具体过程与本发明上述实施例中单细胞转录组测序数据的体细胞突变提取方法的各步骤相同，此处将省略其重复描述。

本发明的第四个实施例中，还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的可执行指令，所述处理器执行所述程序时实现如本发明上述实施例中所述的方法。图4所示为本发明该实施例提供的电子设备400的结构示意图。如图4所示，该电子设备400包括：一个或多个处理器401和存储器402；以及存储在存储器402中的计算机可执行指令，可执行指令在被处理器401运行时使得处理器401执行如上述实施例的单细胞转录组测序数据的体细胞突变提取方法。处理器401可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备中的其他组件以执行期望的功能。存储器402可以包括一个或多个计算机程序产品，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器401可以运行程序指令，以实现上文的本发明实施例的单细胞转录组测序数据的体细胞突变提取方法中的步骤以及/或者其他期望的功能。在一些实施例中，电子设备400还可以包括：输入装置403和输出装置404，这些组件通过总线系统和/或其他形式的连接机构(图4中未示出)互连。例如，在该电子设备是单机设备时，该输入装置403可以是通信网络连接器，用于从外部的可移动设备接收所采集的输入信号。此外，该输入设备403还可以包括例如键盘、鼠标、麦克风等。该输出装置404可以向外部输出各种信息，例如可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等。

本发明的实施例中，还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如本发明上述实施例中所述的方法中的步骤。计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器((RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

应当理解的是，本发明实施例中的处理器可以为中央处理单元(CentralProcessing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

综上所述，本发明实施例涉及一种单细胞转录组测序数据的体细胞突变提取方法及装置，该方法包括：将单细胞转录组原始测序数据采用第一比对识别方法进行处理，以得到多个第一体细胞突变位点；将单细胞转录组原始测序数据采用第二比对识别方法进行处理，以得到多个第二体细胞突变位点；根据多个第一体细胞突变位点和多个第二体细胞突变位点进行整合，得到多个候选体细胞突变位点；对多个候选体细胞突变位点进行突变筛选，得到最终体细胞突变位点。本发明实施例的技术方案，通过将单细胞转录组原始测序数据和参考基因组数据进行比对，并采用两种比对方法的复用，在尽可能保留最大数量的真实突变的同时，实现了最小化比对和突变提取算法本身导致的偏差，并有效去除了由于提取算法本身导致被错误识别的噪音。针对比对后的数据进行过滤以排除干扰，并进一步进行突变筛选，分别设置质量条件和复现条件来实现该筛选，从而有效地降低了各个阶段噪音对结果的影响，解决了单细胞数据噪音较多的问题。本发明实施例提供的技术方案还可以通过联合逻辑回归模型构建突变提取模型，对所得到的待定候选位点进行进一步预测，在保证了整个提取方法精确度的同时，还提高了该提取方法的灵敏度。

应当理解的是，以上任何实施例的讨论仅为示例性的，并非旨在暗示本发明的范围(包括权利要求)被限于这些例子；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明一个或多个实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种单细胞转录组测序数据的体细胞突变提取方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，将单细胞转录组原始测序数据采用第一比对识别方法进行处理，以得到多个第一体细胞突变位点，包括：

对第一比对信息记录文件添加标注；

3.根据权利要求1所述的方法，其特征在于，将单细胞转录组原始测序数据采用第二比对识别方法进行处理，以得到多个第二体细胞突变位点，包括：

4.根据权利要求1所述的方法，其特征在于，根据多个第一体细胞突变位点和多个第二体细胞突变位点进行整合，得到多个候选体细胞突变位点，包括：

5.根据权利要求4所述的方法，其特征在于，对多个第一体细胞突变位点进行过滤，包括：

排除第一体细胞突变位点中位于预设排除区域的突变位点；

6.根据权利要求4所述的方法，其特征在于，将多个过滤后的第一体细胞突变位点与多个第二体细胞突变位点进行比较，以得到多个候选体细胞突变位点，包括：

7.根据权利要求1-6中任一项所述的方法，其特征在于，对多个候选体细胞突变位点进行突变筛选，得到最终体细胞突变位点，包括：

采用第一质量条件、第二质量条件和第一复现条件对所得到的候选体细胞突变位点和噪音位点筛选；

将同时符合第一质量条件、第二质量条件和第一复现条件的候选体细胞突变位点作为最终体细胞突变位点。

8.根据权利要求7中所述的方法，其特征在于，所述方法还包括：

将其余候选体细胞突变位点和噪音位点作为待定候选位点。

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

10.根据权利要求9所述的方法，其特征在于，所述突变提取模型包括第一逻辑回归模型和第二逻辑回归模型；

11.根据权利要求10所述的方法，其特征在于，采用以下公式对第一逻辑回归模型和第二逻辑回归模型的输出结果进行整合，以得到突变提取模型的预测结果：

12.一种单细胞转录组测序数据的体细胞突变提取装置，其特征在于，包括：

13.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的可执行指令，其特征在于，所述处理器执行所述程序时实现如权利要求1-11任一项所述的方法。

14.一种计算机可读存储介质，其上存储有计算机可执行指令，其特征在于，所述可执行指令被处理器执行时实现如权利要求1-11任一项所述的方法。