CN117672343A - 测序饱和度评估方法及装置、设备及存储介质 - Google Patents

测序饱和度评估方法及装置、设备及存储介质 Download PDF

Info

Publication number
CN117672343A
CN117672343A CN202410143201.0A CN202410143201A CN117672343A CN 117672343 A CN117672343 A CN 117672343A CN 202410143201 A CN202410143201 A CN 202410143201A CN 117672343 A CN117672343 A CN 117672343A
Authority
CN
China
Prior art keywords
sequencing
saturation
sequence
data
sequences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410143201.0A
Other languages
English (en)
Inventor
梁文宇
徐枣旭
王谷丰
赵陆洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Sailu Medical Technology Co ltd
Original Assignee
Shenzhen Sailu Medical Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Sailu Medical Technology Co ltd filed Critical Shenzhen Sailu Medical Technology Co ltd
Priority to CN202410143201.0A priority Critical patent/CN117672343A/zh
Publication of CN117672343A publication Critical patent/CN117672343A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开一种测序饱和度评估方法及装置、设备及存储介质,所述方法包括:构建表征测序饱和度与测序深度之间关系的测序饱和度评估模型;其中所述测序饱和度评估模型为以测序序列数量为自变量、测序饱和度为因变量、发现独特序列的最大速率为第一常参数和达到所述最大速率一半时的测序深度为第二常参数的函数关系模型;在测序流程中,获取目标测序饱和度,基于所述目标测序饱和度和所述测序饱和度评估模型,通过所述测序饱和度评估模型预测所述目标测序饱和度对应的估计测序序列总量;基于所述估计测序序列总量和当前测序序列量,进行当前测序饱和度评估。

Description

测序饱和度评估方法及装置、设备及存储介质
技术领域
本发明涉及基因技术领域,特别涉及一种测序饱和度评估方法及装置、基因测序仪及计算机可读存储介质。
背景技术
测序仪是一种广泛用于基因组测序的测序仪器,它可以快速、准确地测定DNA序列。在生物信息学和高通量测序领域,测序饱和度是一个衡量测序实验接近其能够揭示样本全部分子多样性的程度的指标。简而言之,测序饱和度关注的是随着测序努力的增加,能否继续发现新的独特序列(unique reads),独特序列如独特的转录本或者独特的基因组区段,一旦新的独特序列数量增长缓慢,即认为接近饱和。这个概念对于确保使用有限的资源获得最大的数据信息量至关重要。
在传统上,评估测序饱和度的方法可能是简单的直观判断或者依赖于特定阈值的判断,例如,如果新的独特序列数量占总序列量(total reads) 的比例小于某个固定的百分比,就认为测序已经饱和。还有现有的测序饱和度评估方法基于线性增长的假设,这在测序初期是合理的,然而随着测序深度的增加,新的独特序列的发现率往往会呈现非线性的饱和曲线。现有技术通常无法准确反映这种非线性关系,导致在高测序深度时对测序饱和度的估计不准确。因此,传统方法可能缺乏预测未来测序深度下测序饱和度的能力,研究者可能无法提前知道所需的测序深度以确保数据的全面性和代表性。
发明内容
为了解决现有存在的技术问题,本发明实施例提供一种测序饱和度评估方法、装置、设备及计算机可读存储介质,能够准确预估测序反应中测序深度与测序饱和度的关系,从而在生物信息学和高通量测序数据分析中发挥重要作用,可以帮助研究人员合理规划测序实验,在保证数据全面性的同时优化资源分配和降低成本效益。
第一方面,提供一种测序饱和度评估方法,包括:
构建表征测序饱和度与测序深度之间关系的测序饱和度评估模型;其中所述测序饱和度评估模型为以测序序列数量为自变量、测序饱和度为因变量、发现独特序列的最大速率为第一常参数和达到所述最大速率一半时的测序深度为第二常参数的函数关系模型;
在测序流程中获取目标测序饱和度,基于所述目标测序饱和度和所述测序饱和度评估模型,通过所述测序饱和度评估模型预测所述目标测序饱和度对应的估计测序序列总量;
基于所述估计测序序列总量和当前测序序列量,进行当前测序饱和度评估。
第二方面,提供一种测序饱和度评估装置,包括:
构建模块,用于构建表征测序饱和度与测序深度之间关系的测序饱和度评估模型;其中所述测序饱和度评估模型为以测序序列数量为自变量、测序饱和度为因变量、发现独特序列的最大速率为第一常参数和达到所述最大速率一半时的测序深度为第二常参数的函数关系模型;
预测模块,用于在测序流程中获取目标测序饱和度,基于所述目标测序饱和度和所述测序饱和度评估模型,通过所述测序饱和度评估模型预测所述目标测序饱和度对应的估计测序序列总量;
评估模块,用于基于所述估计测序序列总量和当前测序序列量,进行当前测序饱和度评估。
第三方面,提供一种测序饱和度评估设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行本申请实施例所提供的测序饱和度评估方法的步骤。
第四方面,提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行本申请实施例所提供的测序饱和度评估方法的步骤。
在上述实施例中,通过构建表征测序饱和度与测序深度之间关系的测序饱和度评估模型,该测序饱和度评估模型以测序序列数量为自变量、测序饱和度为因变量、发现独特序列的最大速率为第一常参数和达到所述最大速率一半时的测序深度为第二常参数,通过这些参数构建的模型能够反应测序过程中独特序列的发现率的复杂动态变化,尤其是在高测序深度条件下能够准确预估测序饱和度与测序深度间的非线性关系,通过测序饱和度评估模型预测目标测序饱和度对应的估计测序序列总量,并能基于所述估计测序序列总量和当前测序序列量,对当前测序饱和度评估,因此,本申请能够准确预估测序反应中测序深度与测序饱和度的关系,从而在生物信息学和高通量测序数据分析中发挥重要作用,可以帮助研究人员合理规划测序实验,在保证数据全面性的同时优化资源分配和降低成本效益。
附图说明
图1为一实施例中基因测序仪的简要示意图;
图2为一实施例中测序饱和度评估方法的流程图;
图3为一实施例中测序饱和度评估装置的示意图;
图4为一实施例中基因测序仪的结构示意图。
具体实施方式
以下结合说明书附图及具体实施例对本发明技术方案做进一步的详细阐述。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明的保护范围。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。
在以下的描述中,涉及到“一些实施例”的表述,其描述了所有可能实施例的子集,但是应当理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
基因测序是指分析待测数据的DNA 片段的碱基序列,也就是腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)与鸟嘌呤(G)的排列方式。目前普遍使用荧光标记的方法进行基因测序,基因测序光学系统用激光激发测序芯片上荧光标记物产生荧光,并收集荧光信号,四种碱基结合不同的荧光标记物而产生四种不同的荧光波段,以此识别碱基。
二代测序技术,以Illumina测序仪为例,利用不同的荧光分子具有不同的荧光发射波长,当这些荧光分子受到激光照射时,它们会发出相应波长的荧光信号,通过在激光照射后使用滤光片来选择性地过滤掉非特定波长的光线,以获取到特定波长的荧光信号,因此通过获取荧光信号,对荧光信号进行分析可以识别出碱基类型。主要包括样品制备、簇生成、测序及数据分析。
样品制备:将需要测序的DNA样品进行提取和纯化处理,然后进行DNA片段化及适配体连接。在可选示例中,通常采用超声波或限制性内切酶将DNA样品进行切割,将DNA样品切割成较小的大量的DNA片段。然后在DNA片段两端连接适配体,适配体包含特定序列用于后续连接和测序反应。
簇生成:该过程是对DNA片段进行扩增形成固定的DNA片段以便于后续将一个DNA片段形成一个碱基簇。在可选示例中,具体地,通过聚合酶链式反应(Polymerase ChainReaction,PCR)或桥式扩增等方法将DNA片段进行扩增,使得每个DNA片段形成数以百万计的复制品,将扩增的DNA片段固定在固定板上。每个DNA片段在固定板上形成一个独立的簇。
测序, 是指针对Flowcell上的每个碱基簇进行测序读段,测序加进带有荧光标记dNTP测序引物,dNTP化学式的一个端连接了叠氮基团,可以在测序的链延伸时候阻止聚合,确保一个循环(cycle)只能延长一个碱基,对应生成一个测序读段,也即边合成边测序。一次循环中,针对每一碱基簇通过荧光标记dNTP识别一个碱基,通过特定颜色的荧光信号分别对应不同碱基类型的测序信号响应,通过激光扫描可根据发出的荧光颜色来判断当前循环内针对每一碱基簇对应的是哪个碱基。一次循环中,数以千万的碱基簇在Flowcell被同时测序,一个荧光点代表一个碱基簇发出的荧光,一个碱基簇则对应fastq当中的一条read。在测序阶段,通过红外相机拍摄Flowcell表面的荧光图像,对荧光图像进行图像处理和荧光点位置定位进行碱基簇检测,根据与不同碱基类型的测序信号响应对应的多张荧光图像的碱基簇检测结果进行模板构建,构建出Flowcell上所有碱基簇模板点(cluster)的位置。根据模板,对滤波后图像进行荧光强度的提取,然后对荧光强度进行矫正,最终根据各碱基簇模板点位置的最大强度识别碱基计算得分,输出fastq碱基序列文件。
基因测序仪还可包括光学平台,光学平台可包括操作台和相机,其中,测序芯片可置于操作台上,基因测序仪用激光激发测序芯片上荧光标记物产生荧光,并收集荧光信号,四种碱基结合不同的荧光标记物而产生四种不同的荧光波段。也即四种碱基类型的荧光图像。通过相机对测序芯片进行拍照,捕获测试芯片上的电荷耦合器件(CCD)上产生的荧光信号的荧光图像,在一张荧光图像中有很多荧光点,荧光图像中的一个荧光点代表一个碱基簇发出的荧光。
基因测序仪的成像方式可以是四通道成像系统或者双通道成像系统。对于双通道成像系统,每个相机需要在测试芯片的同一位置曝光两次。对于四通道成像系统,每个通道的相机在样品同一位置拍摄一次,分别得到四种碱基类型的荧光图像。例如分别得到A碱基类型的荧光图像、分别代表着A碱基类型的荧光图像、C碱基类型的荧光图像、G碱基类型的荧光图像及T碱基类型的荧光图像。由于通过在激光照射后使用滤光片来选择性地过滤掉非特定波长的光线,以获取到特定波长的荧光信号,则每种碱基类型对应不同的荧光信号,在同一个循环(Cycle)反应中,同一类型碱基簇在其对应的类别碱基类型发光的亮度远远大于其它类别的碱基,每个通道发光的碱基簇理论上不会有重复。
基因测序仪获取到荧光图像后,会对采集的图像进行基因图像重构,基因图像配准、基因碱基识别(基因basecall),从而获取基因序列。
其中基因图像重构用于提高荧光图像的分辨率,以提高图像的清晰度,以减小样本间的串扰影响。基因图像重构包括但不限于去卷积等常规操作。
基因图像配准是对四个碱基类型的荧光图像进行校正,使四个碱基类型的荧光图像能够重合,才能提取到同一个位置的4个通道的荧光亮度,便于后续的碱基识别。基因图像配准包括但不限于同一通道的图像配准、全局或局部的仿射配准。
基因识别过程是根据配准后的图像,判断图像中的碱基簇属于A、C、G、T四种碱基的某一种。待测数据经过基因识别后,待测数据息从数字图像转化为A、C、G、T四种碱基的序列信息,即为样本的DNA序列结果,以供后续分析与评估。
数据分析:根据图像数据和序列信息进行测序数据的分析和解读。将序列信息与参考基因组进行比对用于突变识别。
对一个待测数据的测序的过程称为一次运行Run,一个待测数据的测序过程是由多个循环(Cycle)组成,一个循环对应一个反应周期,也即对应测序芯片中的一次碱基类型的识别。测序时,是边合成边测序。在一次循环中,数以千万的碱基簇被同时测序。
一个待测数据包括很多个DNA片段,在上述测序过程中,每个DNA片段会添加一个碱基,因此待测数据的DNA的碱基序列的长度决定了循环的次数。每一循环中,基因测序仪可得到ACGT四个碱基类型各一张荧光图像,在对待测数据进行测序时,基因测序仪能够获取到多个循环的ACGT通道的荧光图像。
需要说明的是,上述是以Illumina测序技术作为大规模平行测序技术(MPS)的一种示例对测序流程进行说明,通过将待测DNA分子通过特定的扩增技术进行扩增,针对每一DNA片段(单链文库分子)扩增形成碱基簇,以碱基簇检测结果构建测序芯片上碱基簇的模板点,以便于后续能够根据碱基簇的模板点进行碱基识别等操作,提升碱基识别效率和准确性。可以理解的是,本申请实施例所提供的基于荧光标记dNTP基因测序的碱基识别方法,是基于测序芯片上单链文库分子扩增后的碱基簇进行定位检测和碱基类型识别,这里,每个碱基簇即指一个碱基信号采集单元,从而其并不受限于针对单链文库分子所采用的哪一种扩增技术,也即,本申请实施例所提供的测序饱和度评估方法,同样可以适用于其它大规模平行测序技术中针对测序芯片的碱基信号采集单元的定位检测和碱基类型识别,比如,碱基信号采集单元可以指Illumina测序技术中利用桥式扩增技术得到的碱基簇,也包括通过滚环扩增技术(RCA, Rolling Circle Amplification)得到的纳米球,等等,本申请对此不作限制。在以下实施例中,为了便于理解,以碱基信号采集单元为碱基簇为例进行说明。
参阅图1,为一实施例中基因测序仪的简要示意图。基因测序仪还可包括操作台和相机,其中测序芯片可置于操作台上,基因测序芯片上有按照阵列排列或随机分布的若干碱基簇。通过染色试剂,在测序反应时对不同类型的碱基簇会分别被接上不同的荧光标记物之一,这些荧光标记物通过激光照射后会发出荧光信号,通过滤光片选择性地过滤掉非特定地波长地荧光信号,以获取特定波长的荧光信号。不同的荧光标记物中的荧光分子具有不同的荧光发射波长,这样不同的碱基簇对应不同的荧光信号。通过相机获取荧光图像,对荧光图像进行分析以对每个碱基簇的碱基类别进行识别。其中相机可以是光学显微镜。
在一次基因测序过程中,对一个待测基因样本的测序的过程称为一次运行Run,一个待测基因样本会被打断成M条待测碱基序列,也可以称为短链,每条待测碱基序列包括N个碱基簇,在一次循环中,同时对这M条短链的顶端的碱基簇,在测序芯片上进行测序反应。在测序芯片上,正在测序的每个碱基簇对应一个位置,在一次循环中,数以千万的碱基簇被同时测序。N决定了测试的循环数,N越大,循环数越多。在不同的循环下,分别对这M条待测碱基序列中的碱基簇进行测序。例如一个待测基因样本被打断成一万条短链,每条短链的长度是100个碱基,那么就需要100个循环的测序反应进行碱基类型的识别。在每次循环下,这一万条短链的顶端的碱基簇在测序芯片上进行测序反应。在一次基因测序完成后,从测序结果文件中能够获取到多条已完成测序的测序序列,即能获取到很多条已经完成测序的短链,一条测序序列即为一条短链或一条read。
测序饱和度是反映当前测序序列量与文库复杂度相关性的指标,其大小主要取决于测序深度和文库复杂度。测序饱和度受测序深度影响。一般来说,测序reads越多,被检测到的独特序列就越多。被检测到的独特序列会随着测序深度的增加而增加,但当测序深度达到一定程度,被检测到独特序列量的增加程度逐渐变缓,直到不再随测序深度增加而增加即达到饱和。最终可检测到的基因数量取决于细胞类型。测序饱和度还受文库复杂度的限制。通常来说,不同类型的细胞含有不同数量、不同类型的RNA,因此不同类型细胞建成的文库中也包含着不同数量、不同类型的转录本,即文库复杂度存在差异。复杂度高的文库中转录本的数量和类型更多,检测一个新转录本所需的额外reads数量也就更多,即增加测序饱和度需要测定的reads更多。因此,需要准确预估反映测序饱和度与测序深度之间的关系,从而可以帮助研究人员合理规划测序实验,从而在保证数据全面性的同时优化资源分配和降低成本效益。
请参阅图2,为本申请一实施例提供的测序饱和度评估方法的流程图。测序饱和度评估方法应用于基因测序仪中,该测序饱和度评估方法包括如下步骤:
S11、构建表征测序饱和度与测序深度之间关系的测序饱和度评估模型。
在本实施例中,测序饱和度评估模型用于表示测序饱和度与测序深度之间非线性关系,其中所述测序饱和度评估模型为以测序序列数量为自变量、测序饱和度为因变量、发现独特序列的最大速率为第一常参数和达到所述最大速率一半时的测序深度为第二常参数的函数关系模型。测序饱和度评估模型为非线性模型,该测序饱和度评估模型以发现独特序列的最大速率为第一常参数和以达到所述最大速率一半时的测序深度为第二常参数建立的非线性模型,通过这些参数能够反应测序过程中独特序列的发现率的复杂动态变化。尤其是在高测序深度条件下能够准确预估测序饱和度与测序深度间的非线性关系。
在一些实施例中,测序饱和度评估模型是基于数据集,利用迭代算法拟合得到的,数据集包括多组数据,每组数据包括已完成测序的测序序列的数量和对应的测序饱和度。数据集越大,拟合出的测序饱和度评估模型就越精确。
S12、在测序流程中获取目标测序饱和度,基于所述目标测序饱和度和所述测序饱和度评估模型,通过所述测序饱和度评估模型预测所述目标测序饱和度对应的估计测序序列总量。
在本实施例中,测序饱和度评估设备获取输入的目标测序饱和度。在一可选实施例中,测序饱和度评估设备提供用户界面,用户界面上设有饱和度设置项,饱和度设置项可以是下拉框、选框、输入框等等,用户在用户界面上输入期望达到的测序饱和度,根据用户对饱和度设置项的设置获取目标测序饱和度。
目标测序饱和度指示期望达到的饱和度。将目标测序饱和度作为测序饱和度评估模型中的因变量,能够通过测序饱和度评估模型推算出目标测序饱和度对应的估计测序序列总量。
S13、基于所述估计测序序列总量和当前测序序列量,进行当前测序饱和度评估。
在本实施例中,测序饱和度评估设备先获取当前测序序列量及当前测序饱和度。在一可选实施例中,测序饱和度评估设备提供用户界面,用户界面上设有当前测序数据设置项,当前测序数据设置项可以是下拉框、选框、输入框等等,用户在用户界面上输入当前测序序列量及当前测序饱和度。在另一可选实施例中,测序饱和度评估设备从测序结果文件中获取当前已经完成的测序序列,并计算当前已经完成的测序序列的数量及当前已经完成的测序序列的饱和度,分别得到当前测序序列量及当前测序饱和度。
估计测序序列总量是根据目标测序饱和度预估计的序列量,当前测序序列量指示当前状态下实际的序列量,当前测序饱和度指示当前状态下实际的测序饱和度。因此根据估计测序序列总量与当前测序序列量的对比,能够估计当前测序饱和度是否达标。
在上述实施例中,通过构建表征测序饱和度与测序深度之间关系的测序饱和度评估模型,该测序饱和度评估模型以测序序列数量为自变量、测序饱和度为因变量、发现独特序列的最大速率为第一常参数和达到所述最大速率一半时的测序深度为第二常参数,通过这些参数能够反应测序过程中独特序列的发现率的复杂动态变化,尤其是在高测序深度条件下能够准确预估测序饱和度与测序深度间的非线性关系,通过测序饱和度评估模型预测目标测序饱和度对应的估计测序序列总量,并能基于所述估计测序序列总量和当前测序序列量,进行当前测序饱和度评估,因此,本申请能够准确预估测序反应中测序深度与测序饱和度的关系,从而在生物信息学和高通量测序数据分析中发挥重要作用,可以帮助研究人员合理规划测序实验,在保证数据全面性的同时优化资源分配和降低成本效益。
在一些实施例中,所述构建表征测序饱和度与测序深度之间关系的测序饱和度评估模型还包括:
获取数据集,所述数据集包括多组数据,每组数据包括已完成测序的测序序列的数量及对应的测序饱和度;
建立已完成测序的测序序列的数量和测序饱和度之间以所述第一常参数和所述第二常参数为拟合参数的目标函数,通过所述多组数据对所述目标函数进行迭代计算,直至达到迭代终止条件,得到所述第一常参数和所述第二常参数的取值。
在本实施例中,从测序结果文件中获取每条已经完成测序的测序序列,即已经完成测序的read,对于每条测序序列而言,对应一个唯一的条码barcode及分子标签(UniqueMolecular Indentifier,UMI),barcode是用来区分细胞或空间组学中的空间位置,唯一的分子标签UMI是一种分子条形码,可以在测序过程中错误校正,提高准确性,这些分子条形码均为短序列,可特异性的标记样本文库中的每个分子。 UMI可用于各种测序应用,许多是与DNA和cDNA的PCR重复相关的应用。因此,对于每条测序序列而言,都具有唯一标识。
从测序结果文件中获取已经完成测序的测序序列后,将获取的测序序列分成多组数据,每组数据中包括已完成测序的测序序列的数量及对应的测序饱和度。组数越多,相当于模拟点越多,在拟合模型时,足够多的模拟点可以提高模型拟合的准确度。
对于每组数据而言,分别计算每组数据的真实测序饱和度,在计算测序饱和度时,遍历检查每一条测序序列是否在当前是第一次出现,如果是,则该条测序序列标记为独特序列;反之,其为非独特序列,在遍历完该组数据中的所有测序序列后,计算独特序列的个数,根据以下的测序饱和度公式计算该组的测序饱和度,
测序饱和度计算公式:
其中数表示该组中出现的独特序列的个数,/>表示该组中测序序列的总数。
目标函数是以第一常参数和所述第二常参数为拟合参数,第一常参数表示发现独特序列的最大速率,第二常参数表示以达到最大速率一半时的测序深度,第一常参数及第二常参数是基于发现独特序列的速率的参数,因此第一常参数及第二常参数能够反应测序过程中独特序列的发现率的复杂动态变化,尤其是在高测序深度条件下能够准确预估测序饱和度与测序深度间的非线性关系。
对于每组数据而言,每组数据中的测序饱和度都是真实的,而且多组数据来自于测序过程中的测序结果文件,通过以多组数据为基础,将每组数据作为一个测序过程中的模拟点,利用迭代算法对目标函数中的拟合参数进行拟合,从而得到测序过程中测序饱和度与测序深度间的非线性关系,在迭代拟合过程达到迭代终止条件,得到第一常参数和所述第二常参数的取值,从而可以准确预估第一常参数和所述第二常参数的取值。其中迭代算法包括但不限于梯度下降法等。迭代终止条件包括但不限于迭代次数大于预设次数、寻找到目标函数的局部解、寻找到目标函数的全局解等等。
可选的,所述测序饱和度评估模型为:
其中,表示测序饱和度,/>表示测序序列量,/>为第一常参数,/>为第二常参数,/>表示能发现独特序列的最大速率,/>表示达到最大速率的一半时的测序深度。
所述目标函数为:
其中表示第/>组数据对应的测序饱和度,/>表示第/>组数据对应的测序序列量,/>表示组的总数量。
在上述拟合过程中,每次迭代过程中更新第一常参数值及第二常参数值,直至达到迭代终止条件,然后将迭代终止后的第一常参数值作为饱和度评估模型中的第一常参数的取值,将将迭代终止后的第二常参数值作为饱和度评估模型中的第二常参数的取值。
在上述实施例中,将数据集分成多组数据,每组数据中包括测序序列数量及真实的测序饱和度,以多组数据为基础,将每组数据作为一个模拟点,对目标函数进行拟合,得到目标函数中的第一常参数和所述第二常参数,因此基于已知测序过程中的数据形成目标函数,并对目标函数进行拟合得到拟合参数,从而得到的测序饱和度评估模型能够准确反应测序饱和度与测序深度的变化趋势。
在一些实施例中,所述多组数据中任意两组数据中一组数据的已完成测序的测序序列的数量多于另一组数据中已完成测序的测序序列的数量,所述一组数据包含所述另一组数据的至少部分。
为了模拟随着测序序列量增加与测序饱和度间的变化关系,将多组数据按照测序序列量从小到大排序时,测序序列量多的组别包括测序序列量少的组别的数据。例如分成三组数据,第一组数据:测序序列的数量为N、测序饱和度为38%;第二组数据:测序序列的数量为2N、测序饱和度为49%;第三组数据:测序序列的数量为3N、测序饱和度为54%。其中第二组数据的测序序列是在第一组数据的测序序列的基础上再添加N条,第三组数据的测序序列是在第二组数据的测序序列的基础上再添加N条,通过在原有组别基础上增加测序序列得到新的组别,再计算新的组别的饱和度,从而得到多组数据。以这种多组数据,对目标函数进行拟合得到的拟合参数和测序饱和度评估模型能够更真实反应测序过程中测序序列与测序饱和度间的变化关系。
在上述实施例中,多组数据中任意两组数据中一组数据的已完成测序的测序序列的数量多于另一组数据中已完成测序的测序序列的数量,所述一组数据包含所述另一组数据的至少部分,通过在原有组别基础上增加测序序列得到新的组别,再计算新的组别的饱和度,从而得到多组数据,以这种多组数据,对目标函数进行拟合得到的拟合参数和测序饱和度评估模型能够更真实反应测序过程中测序序列与测序饱和度间的变化关系。
在一些实施例中,所述获取数据集包括:
从测序结果文件中获取多条测序序列,随机调整获取的多条测序序列的顺序,得到调整后的测序序列;
基于调整后的测序序列,得到所述多组数据。
因为在测序过程中,测序序列的产生也是随机的,所以在从测序结果文件中获取到所有测序序列后,为了真实模拟测序过程中的测序深度与测序饱和度的关系,需要使每条测序序列的出现顺序随机化。随机调整获取的测序序列的顺序,得到调整后的测序序列,然后再对调整后的测序序列进行分组,得到组数据。
在上述实施例中,在分组前使获取到的所有测序序列的出现顺序随机化,从而可以更真实模拟测序过程中的测序深度与测序饱和度的关系,从而能够得到更准确的测序饱和度评估模型,以便于准确评估测序过程中的当前测序深度及当前测序饱和度。
在一些实施例中,所述基于所述估计测序序列总量和当前测序序列量,进行当前测序饱和度评估包括:
根据所述估计测序序列总量和所述当前测序序列量,确定需要补充的测序序列增量。
估计测序序列总量是根据目标测序饱和度及测序饱和度评估模型预估计的序列量,当前测序序列量指示当前状态下实际的序列量,当前测序饱和度指示当前状态下实际的测序饱和度。在估计测序序列总量大于所述当前测序序列量时,表示要达到目标测序饱和度,还需要增加测序序列量,即确定需要补充测序序列增量。在估计测序序列总量小于或者等于当前测序序列量时,表示增加测序序列量已经不能增加饱和度,当前测序序列量已经足够。在一可选实施例中,测序序列增量等于估计测序序列总量减去当前测序序列量。
例如,如在某次实验中,测序共生成N条reads,当前测序饱和度为68%,若需要达到90%的目标测序饱和度,根据测序饱和度评估模型预估需要M条reads,若M大于N,需要补充的测序序列增量为(M-N)。
在上述实施例中,根据目标测序饱和度及测序饱和度评估模型预估得到估计测序序列总量,估计测序序列总量能够反应要达到目标测序饱和度的测序序列量,将估计测序序列总量与当前测序序列量进行对比,从而便于工作人员判断当前测序深度是否足够,从而可以帮助研究人员合理规划测序实验,在保证数据全面性的同时优化资源分配和降低成本效益。
在一些实施例中,所述方法还包括:
通过以下至少一种方式输出并提示所述测序序列增量:
将测序饱和度评估的关联数据显示在用户界面上,所述关联数据包括以下至少一种:目标测序饱和度、当前测序饱和度、估计测序序列总量、当前测序序列量、指示需要继续补充的测序序列增量;
以趋势图表示更新后的测序序列量与更新后的测序序列量对应的测序饱和度间的趋势变化,其中更新后的测序序列量表示在当前测序序列量上增加测序数量后的序列量。
测序饱和度评估设备提供用户界面,在用户界面上显示关联数据,从而使工作人员直观地了解当前测序过程中的测序深度及测序饱和度的相关数据。还可以在当前测序序列量上逐步增加测序序列,并得到每次更新后的测序序列量及对应的饱和度,以趋势图表示多次更新后的测序序列量与更新后的测序序列量对应的测序饱和度间的趋势变化,从而让工作人员直观了解测序深度与测序饱和度间的关系。
在上述实施例中,通过用户界面展示测序饱和度评估的数据,并可以以趋势图展示数据,从而让工作人员直观了解测序深度与测序饱和度间的关系。
请参阅图3,本申请一实施例提供一种基于半监督学习的碱基识别装置,包括:构建模块21,用于构建表征测序饱和度与测序深度之间关系的测序饱和度评估模型;其中所述测序饱和度评估模型为以测序序列数量为自变量、测序饱和度为因变量、发现独特序列的最大速率为第一常参数和达到所述最大速率一半时的测序深度为第二常参数的函数关系模型;预测模块22,用于在测序流程中,获取目标测序饱和度,基于所述目标测序饱和度和所述测序饱和度评估模型,通过所述测序饱和度评估模型预测所述目标测序饱和度对应的估计测序序列总量;评估模块23,用于基于所述估计测序序列总量和当前测序序列量,进行当前测序饱和度评估。
可选的,构建模块21还用于:
获取数据集,所述数据集包括多组数据,每组数据包括已完成测序的测序序列的数量及对应的测序饱和度;
建立已完成测序的测序序列的数量和测序饱和度之间以所述第一常参数和所述第二常参数为拟合参数的目标函数,通过所述多组数据对所述目标函数进行迭代计算,直至达到迭代终止条件,得到所述第一常参数和所述第二常参数的取值。
可选的,所述多组数据中任意两组数据中一组数据的已完成测序的测序序列的数量多于另一组数据中已完成测序的测序序列的数量,所述一组数据包含所述另一组数据的至少部分。
可选的,所述测序饱和度评估模型为:
其中,表示测序饱和度,/>表示测序序列量,/>为第一常参数,/>为第二常参数,/>表示能发现独特序列的最大速率,/>表示达到最大速率的一半时的测序深度。
所述目标函数为:
其中表示第/>组数据对应的测序饱和度,/>表示第/>组数据对应的测序序列量,/>表示组的总数量。
可选的,构建模块21还用于:
从测序结果文件中获取多条测序序列,随机调整获取的多条测序序列的顺序,得到调整后的测序序列;
基于调整后的测序序列,得到所述多组数据。
可选的,评估模块23还用于:
根据所述估计测序序列总量和所述当前测序序列量,确定需要补充的测序序列增量。
可选的,评估模块23还用于:
通过以下至少一种方式输出并提示所述测序序列增量:
将测序饱和度评估的关联数据显示在用户界面上,所述关联数据包括以下至少一种:目标测序饱和度、当前测序饱和度、估计测序序列总量、当前测序序列量、指示需要继续补充的测序序列增量;
以趋势图表示更新后的测序序列量与更新后的测序序列量对应的测序饱和度间的趋势变化,其中更新后的测序序列量表示在当前测序序列量上增加测序数量后的序列量。
本领域技术人员可以理解的是,图3中测序饱和度评估装置的结构并不构成对测序饱和度评估装置的限定,所述各个模块可以全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的控制器中,也可以以软件形式存储于计算机设备中的存储器中,以便于控制器调用执行以上各个模块对应的操作。在其他实施例中,测序饱和度评估装置中可以包括比图示更多或更少的模块。
请参阅图4,本申请实施例的另一方面,还提供了一种测序饱和度评估设备200,包括存储器3011和处理器3012,存储器3011存储有计算机程序,计算机程序被处理器执行时,使得处理器3012执行本申请上述任一实施例所提供的测序饱和度评估方法的步骤。测序饱和度评估设备200可包括基因测序仪、计算设备(例如,台式计算机、膝上型计算机、平板计算机、手持式计算机、智能扬声器、服务器等)、移动电话(例如,智能电话、无线电话等)、可穿戴设备(例如,一对智能眼镜或智能手表)或类似设备。
其中处理器3012是控制中心,利用各种接口和线路连接整个计算机设备的各个部分,通过运行或执行存储在存储器3011内的软件程序和/或模块,以及调用存储在存储器3011内的数据,执行计算机设备的各种功能和处理数据。可选的,处理器3012可包括一个或多个处理核心;优选的,处理器3012可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户页面和应用程序等,调制解调处理器主要处理无线通讯。可以理解的是,上述调制解调处理器也可以不集成到处理器3012中。
存储器3011可用于存储软件程序以及模块,处理器3012通过运行存储在存储器3011的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器3011可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器3011可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器3011还可以包括存储器控制器,以提供处理器3012对存储器3011的访问。
本申请实施例另一方面,还提供一种存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行本申请上述任一实施例所提供的测序饱和度评估方法的步骤。
本领域普通技术人员可以理解实现上述实施例所提供的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。本发明的保护范围应以所述权利要求的保护范围以准。

Claims (10)

1.一种测序饱和度评估方法,其特征在于,包括:
构建表征测序饱和度与测序深度之间关系的测序饱和度评估模型;其中所述测序饱和度评估模型为以测序序列数量为自变量、测序饱和度为因变量、发现独特序列的最大速率为第一常参数和达到所述最大速率一半时的测序深度为第二常参数的函数关系模型;
在测序流程中获取目标测序饱和度,基于所述目标测序饱和度和所述测序饱和度评估模型,通过所述测序饱和度评估模型预测所述目标测序饱和度对应的估计测序序列总量;
基于所述估计测序序列总量和当前测序序列量,进行当前测序饱和度评估。
2.如权利要求1所述的测序饱和度评估方法,其特征在于,所述构建表征测序饱和度与测序深度之间关系的测序饱和度评估模型还包括:
获取数据集,所述数据集包括多组数据,每组数据包括已完成测序的测序序列的数量及对应的测序饱和度;
建立已完成测序的测序序列的数量和测序饱和度之间以所述第一常参数和所述第二常参数为拟合参数的目标函数,通过所述多组数据对所述目标函数进行迭代计算,直至达到迭代终止条件,得到所述第一常参数和所述第二常参数的取值。
3.如权利要求2所述的测序饱和度评估方法,其特征在于,所述多组数据中任意两组数据中一组数据的已完成测序的测序序列的数量多于另一组数据中已完成测序的测序序列的数量,所述一组数据包含所述另一组数据的至少部分。
4.如权利要求2所述的测序饱和度评估方法,其特征在于,所述测序饱和度评估模型为:
其中,表示测序饱和度,/>表示测序序列量,/>为第一常参数,/>为第二常参数,表示能发现独特序列的最大速率,/>表示达到最大速率的一半时的测序深度;
所述目标函数为:
其中表示第/>组数据对应的测序饱和度,/>表示第/>组数据对应的测序序列量,/>表示组的总数量。
5.如权利要求2所述的测序饱和度评估方法,其特征在于,所述获取数据集包括:
从测序结果文件中获取多条测序序列,随机调整获取的多条测序序列的顺序,得到调整后的测序序列;
基于调整后的测序序列,得到所述多组数据。
6.如权利要求1所述的测序饱和度评估方法,其特征在于,所述基于所述估计测序序列总量和当前测序序列量,进行当前测序饱和度评估包括:
根据所述估计测序序列总量和所述当前测序序列量,确定需要补充的测序序列增量。
7.如权利要求6所述的测序饱和度评估方法,其特征在于,所述方法还包括:
通过以下至少一种方式输出并提示所述测序序列增量:
将测序饱和度评估的关联数据显示在用户界面上,所述关联数据包括以下至少一种:目标测序饱和度、当前测序饱和度、估计测序序列总量、当前测序序列量、指示需要继续补充的测序序列增量;
以趋势图表示更新后的测序序列量与更新后的测序序列量对应的测序饱和度间的趋势变化,其中更新后的测序序列量表示在当前测序序列量上增加测序数量后的序列量。
8.一种测序饱和度评估装置,其特征在于,包括:
构建模块,用于构建表征测序饱和度与测序深度之间关系的测序饱和度评估模型;其中所述测序饱和度评估模型为以测序序列数量为自变量、测序饱和度为因变量、发现独特序列的最大速率为第一常参数和达到所述最大速率一半时的测序深度为第二常参数的函数关系模型;
预测模块,用于在测序流程中获取目标测序饱和度,基于所述目标测序饱和度和所述测序饱和度评估模型,通过所述测序饱和度评估模型预测所述目标测序饱和度对应的估计测序序列总量;
评估模块,用于基于所述估计测序序列总量和当前测序序列量,进行当前测序饱和度评估。
9.一种测序饱和度评估设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至7任一项所述方法的步骤。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至7任一项所述方法的步骤。
CN202410143201.0A 2024-02-01 2024-02-01 测序饱和度评估方法及装置、设备及存储介质 Pending CN117672343A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410143201.0A CN117672343A (zh) 2024-02-01 2024-02-01 测序饱和度评估方法及装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410143201.0A CN117672343A (zh) 2024-02-01 2024-02-01 测序饱和度评估方法及装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN117672343A true CN117672343A (zh) 2024-03-08

Family

ID=90086678

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410143201.0A Pending CN117672343A (zh) 2024-02-01 2024-02-01 测序饱和度评估方法及装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN117672343A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110232951A (zh) * 2018-12-06 2019-09-13 苏州金唯智生物科技有限公司 判断测序数据饱和的方法、计算机可读介质和应用
US20210380972A1 (en) * 2020-06-09 2021-12-09 Illumina, Inc. Methods for increasing yield of sequencing libraries
WO2023081639A1 (en) * 2021-11-03 2023-05-11 Foundation Medicine, Inc. System and method for identifying copy number alterations
WO2023147073A1 (en) * 2022-01-28 2023-08-03 A-Alpha Bio Digital counting of cell fusion events using dna barcodes

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110232951A (zh) * 2018-12-06 2019-09-13 苏州金唯智生物科技有限公司 判断测序数据饱和的方法、计算机可读介质和应用
US20210380972A1 (en) * 2020-06-09 2021-12-09 Illumina, Inc. Methods for increasing yield of sequencing libraries
WO2023081639A1 (en) * 2021-11-03 2023-05-11 Foundation Medicine, Inc. System and method for identifying copy number alterations
WO2023147073A1 (en) * 2022-01-28 2023-08-03 A-Alpha Bio Digital counting of cell fusion events using dna barcodes

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YONG ZHANG ET AL: "Model-based Analysis of ChIP-Seq (MACS)", 《GENOME BIOLOGY》, vol. 9, no. 9, 17 September 2008 (2008-09-17), pages 137, XP021046980, DOI: 10.1186/gb-2008-9-9-r137 *

Similar Documents

Publication Publication Date Title
US10991453B2 (en) Alignment of nucleic acid sequences containing homopolymers based on signal values measured for nucleotide incorporations
RU2610691C2 (ru) Способ обнаружения микроделеций в области хромосомы с днк-маркирующим участком
CN110326051B (zh) 用于识别生物样本中的表达区别要素的方法和分析系统
US20050159896A1 (en) Apparatus and method for analyzing data
Ghaffari et al. Modeling the next generation sequencing sample processing pipeline for the purposes of classification
EP2761302B1 (en) Method and systems for image analysis identification
CN117351485B (zh) 基因测序训练数据集的增强方法及装置、设备及存储介质
CN116596933B (zh) 碱基簇检测方法及装置、基因测序仪及存储介质
KR102572274B1 (ko) 염기서열 시퀀싱 데이터 분석 장치 및 그 동작 방법
US20090319450A1 (en) Protein search method and device
CN108182348A (zh) 基于种子序列信息的dna甲基化数据检测方法及其装置
JP6280910B2 (ja) 分光システムの性能を測定するための方法
CN117672343A (zh) 测序饱和度评估方法及装置、设备及存储介质
Chong et al. SeqControl: process control for DNA sequencing
CN117523559B (zh) 碱基识别方法及装置、基因测序仪及存储介质
EP1134687A2 (en) Method for displaying results of hybridization experiments
CN117315654B (zh) 端到端的基因测序方法及装置、基因测序仪及存储介质
KR20190061771A (ko) Geo에 공개된 차세대 염기서열 데이터를 이용한 유전체 분석 방법
CN109920474A (zh) 绝对定量方法、装置、计算机设备和存储介质
CN116092585B (zh) 基于机器学习的多重pcr扩增优化方法、系统、设备及介质
CN117877025A (zh) 三维碱基识别方法及装置、基因测序仪及存储介质
Kreutz Statistical Approaches for Molecular and Systems Biology
Belyaev et al. The Assessment of Methods for Preimplantation Genetic Testing for Aneuploidies (PGT-A) Using a Universal Parameter: Implications for Costs and Mosaicism Detection
Belyaev et al. The Assessment of Methods for Preimplantation Genetic Testing for Aneuploidies (PGT-A) Using a Universal Parameter: Implications for Costs and Mosaicism Detection
Dezem et al. Spatially Resolved Single-Cell Omics: Methods, Challenges, and Future Perspectives

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination