CN117726621A

CN117726621A - 基于深度学习的基因测序碱基质量评估方法、产品、设备及介质

Info

Publication number: CN117726621A
Application number: CN202410160733.5A
Authority: CN
Inventors: 陈伟; 彭宽宽; 周祎楠; 王谷丰; 赵陆洋
Original assignee: Shenzhen Sailu Medical Technology Co ltd
Current assignee: Shenzhen Sailu Medical Technology Co ltd
Priority date: 2024-02-05
Filing date: 2024-02-05
Publication date: 2024-03-19

Abstract

本申请提供一种基于深度学习的基因测序碱基质量评估方法、产品、设备及介质，所述方法包括：将包含碱基信号采集单元的待测荧光图像数据作为基于深度学习模型训练后的碱基识别模型的输入，获取碱基识别模型的输出层的输入数据；输入数据包括与多个碱基类别分别对应的多个通道的多通道特征数据；根据所述输入数据，基于多个碱基信号采集单元分别对应的多通道特征数据经归一化处理得到对应的标准化数据，基于多个碱基信号采集单元的标准化数据和碱基类别是否正确的统计建立质量评估表；在基因测序流程中，针对每一碱基信号采集单元，根据多通道特征数据预测对应的碱基类别，并基于质量评估表确定对应所述碱基类别的质量评估值。

Description

基于深度学习的基因测序碱基质量评估方法、产品、设备及介质

技术领域

本申请涉及基因测序技术领域，尤其是涉及一种基于深度学习的基因测序碱基质量评估方法、计算机程序产品、基因测序设备及计算机可读存储介质。

背景技术

基因测序是指在微观层面上，通过一定技术手段对基因样本进行识别与分析的过程。

二代测序仪是一种广泛用于基因组测序的测序仪器，它可以快速、准确地测定DNA序列。测序整个流程主要包含：通过光学系统获取样本荧光图像，基因Basecall过程，获取测序结果与评估。基因Basecall过程（碱基识别算法）是将样本荧光图像通过激光（不同碱基类别对应的测序信号）下不同碱基激发的不同亮度信息，判断其属于A、C、G、T四种碱基类别的某一种。经过基因Basecall后，样本信息从数字图像转化为序列信息，即为样本的DNA序列结果，以供后续分析与评估。

碱基识别算法对碱基序列进行测序的准确性和质量至关重要。深度学习由于其强大的拟合能力，目前已经有很多研究将深度学习应用于二代测序仪的碱基识别，本申请发明人在研究中，将目前已知的深度学习应用于基因测序的方式进行如下分析：1）将图像输入到深度学习模型中，然后输出碱基信息；2）将未经过校正的荧光亮度信息（从图像上提取的荧光亮度，未去除光学干扰，生化干扰等干扰因素）输入到深度学习模型中，然后输出碱基信息；3）将经过校正的荧光亮度信息（荧光亮度去除光学、生化等因素）输入到深度学习模型中，然后输出碱基信息。深度学习的方案能够极大的提高碱基识别的准确率。

然而，由于深度学习模型的处理过程的不可解释性，而基因测序过程中碱基质量（碱基类别的准确性）作为重要信息对后续生信分析流程的意义重大，因此不可解释性的基因测序结果会大大阻碍深度学习模型在基因测序领域的推广应用。

发明内容

为解决现有存在的技术问题，本申请提供一种能够提供对深度学习的基因测序结果的质量评估体系、且基因测序质量评估精准性更高的基于深度学习的基因测序碱基质量评估方法、计算机程序产品、基因测序设备及计算机可读存储介质。

本申请实施例第一方面，提供一种基于深度学习的基因测序碱基质量评估方法，包括：

将包含碱基信号采集单元的待测荧光图像数据作为基于深度学习模型训练后的碱基识别模型的输入，获取所述碱基识别模型的输出层的输入数据；所述输入数据包括与多个碱基类别分别对应的多个通道的多通道特征数据；

根据所述输入数据，基于多个所述碱基信号采集单元分别对应的所述多通道特征数据经归一化处理得到对应的标准化数据，基于多个所述碱基信号采集单元的所述标准化数据和碱基类别是否正确的统计建立质量评估表；

在基因测序流程中，针对每一所述碱基信号采集单元，根据所述多通道特征数据预测对应的碱基类别，并基于所述质量评估表确定对应所述碱基类别的质量评估值。

第二方面，提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如本申请任一实施例所述的基于深度学习的基因测序碱基质量评估方法的步骤。

第三方面，提供一种基因测序设备，包括处理器及与所述处理器连接的存储器，所述存储器上存储有可被所述处理器执行的计算机程序，所述计算机程序被所述处理器执行时实现如本申请任一实施例所述的基于深度学习的基因测序碱基质量评估方法的步骤。

第四方面，提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现本申请任一实施例所述的基于深度学习的基因测序碱基质量评估方法的步骤。

上述实施例中，通过获取碱基识别模型的输出层的输入数据，利用输入到输出层的多个通道的多通道特征数据经归一化处理得到对应的标准化数据，基于多个碱基信号采集单元的标准化数据和碱基类别是否正确的统计建立质量评估表，后续基因测序流程中，针对每一碱基信号采集单元的碱基类别的预测结果，均可以基于质量评估表确定对应所述碱基类别的质量评估值。如此，构建质量评估表所利用的数据为经碱基识别模型的输出层处理前的原始数据，以此进行归一化处理后结合碱基类别的正确情况进行统计来建立质量评估表，可以提升对碱基类别预测质量进行评估的准确性，后续基因测序流程中，通过碱基识别模型对每一碱基信号采集单元的碱基类别进行预测得到预测结果的同时，可对照质量评估表判断当前得到的预测结果的质量评估值，通过质量评估值来反映当前的碱基类别的预测结果的可靠性程度，使得基于深度学习的碱基识别模型的处理过程能够可视化，更具解释性。

上述实施例中，计算机程序产品、基因测序设备及计算机可读存储介质与对应的基于深度学习的基因测序碱基质量评估方法实施例属于同一构思，从而与对应的基于深度学习的基因测序碱基质量评估方法实施例具有相同的技术效果，在此不再赘述。

附图说明

图1为一实施例中基于深度学习的基因测序碱基质量评估方法的流程示意图；

图2为一实施例中碱基识别模型的输出层的原理示意图；

图3为一实施例中基于深度学习的基因测序碱基质量评估方法的原理示意图；

图4为一可选的具体示例中基于深度学习的基因测序碱基质量评估方法的流程示意图；

图5为一实施例中基于深度学习的基因测序碱基质量评估装置的结构示意图；

图6为一实施例中基因测序设备的结构示意图。

具体实施方式

以下结合说明书附图及具体实施例对本发明技术方案做进一步的详细阐述。

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”的表述，其描述了所有可能实施例的子集，需要说明的是，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一、第二、第三”仅仅是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一、第二、第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

在基因测序技术领域，基于深度学习模型强大的拟合能力，越来越多的研究将深度学习用于基因测序仪中的碱基识别，利用各种深度学习模型通过训练得到碱基识别模型来进行碱基类别预测。而为了能够解决深度学习模型的处理过程的不可解释性所带来的应用阻碍，本申请发明人对目前已知的深度学习应用于基因测序的方式进行了总结分析，将碱基识别模型进行碱基类别的输入主要分为如下三类：测序流程实时采集到的荧光图像、从荧光图像中经提取得到的荧光亮度信息（未经校正的荧光图像的荧光亮度信息）、对荧光图像进行预处理后再经提取得到的荧光亮度信息（经校正后的荧光图像的荧光亮度信息）。碱基识别模型的这些不同类的输入，本质上均是碱基识别模型基于测序流程中实时采集的荧光图像中包含的碱基信号采集单元的荧光亮度信息，经特征提取和分类预测来对不同测序循环中各碱基信号采集单元的碱基类别进行识别，本申请实施例中，将碱基识别模型的不同类的输入：荧光图像、未经校正的荧光图像的荧光亮度信息、经校正的荧光图像的荧光亮度信息均归类于包含碱基信号采集单元的待测荧光图像数据的范围内。

在此基础上，本申请发明人对碱基识别模型的处理过程如何具备可解释性的研究过程中，做了如下研究和分析：碱基识别模型的输出层的主要作用一是将输出值映射至0-1之间，二是保证与碱基类别对应的多通道的输出值的和为1，三是便于梯度下降过程中求导计算，如此，输出层会引入的指数运算可能会使得多通道的数据之间的相对关系发生失真，指数运算会放大多个通道之间输出值的距离。

为了便于理解，以输出层为softmax层为例进行说明。softmax层进行碱基类别的分类预测，计算的是A、T、C、G四个类别的碱基之间的相对关系，这种相对值消除了绝对值信息导致一些关键信息的丢失，导致利用碱基识别模型的输出值结果来做碱基质量值的评估不准。例如，假设有两个碱基簇cluster A和cluster B，其中clusterA因为各种原因反应不充分各个通道的亮度都很低，在softmax层之前的四个值分别为：0.054，-2.44，-2.44，-2.44，经过softmax层后四个通道对应的值为：0.802，0.065， 0.065， 0.065；clusterB正常发光，在softmax层之前的四个值分别为：2，-0.5，-0.5，-0.5，经过softmax层后四个通道对应的值为：0.802，0.065，0.065，0.065。由此可以看到，clusterA和clusterB经过碱基识别模型进行碱基类别预测的输出结果基本上是一致的，若以碱基识别模型的输出值结果来评估碱基质量值，则clusterA和clusterB的质量评估值也将是相近的。但是因为clusterA反应不充分，信号较弱，信噪比低，容易受其他干扰因素干扰，clusterA的正确率必然没有clusterB的正确率高，从而利用碱基识别模型的softmax层的输出值结果来做碱基质量值的评估不准。同理可知，其它以碱基识别模型的输出层的输出值作为碱基质量评估依据都一定程度上存在类似的问题。

基于此，本申请发明人提出了以碱基识别模型的输出层的输入数据为依据构建质量值评估体系的技术思路，将输出层之前的碱基识别模型提取到的表征碱基类别的特征数据作为碱基质量评估依据，建立后续基因测序流程中对碱基类别的质量评估值进行指导的质量评估表，不仅使得后续基因测序流程的处理过程可视化，更具解释性，而且提升了碱基质量评估的精准性。

请参阅图1，为本申请一实施例提供的基于深度学习的基因测序碱基质量评估方法，包括如下步骤：

S101，将包含碱基信号采集单元的待测荧光图像数据作为基于深度学习模型训练后的碱基识别模型的输入，获取所述碱基识别模型的输出层的输入数据；所述输入数据包括与多个碱基类别分别对应的多个通道的多通道特征数据。

基因测序流程，是通过将待测DNA分子通过特定的扩增技术进行扩增，针对每一DNA片段（单链文库分子）扩增形成碱基簇，以碱基簇检测结果构建测序芯片上碱基簇的模板点，再通过据碱基簇的模板点进行碱基识别等操作来进行碱基识别，得到碱基序列的过程。可以理解的是，本申请实施例所提供的基于深度学习的基因测序碱基质量评估方法，是利用深度学习模型训练的策略来提升碱基识别精度，碱基识别模型的输入，是基于测序芯片上单链文库分子扩增后的碱基簇得到的荧光图像进行碱基簇定位检测和碱基类别识别，这里，每个碱基簇即指一个碱基信号采集单元，从而其并不受限于针对单链文库分子所采用的哪一种扩增技术，也即，其它大规模平行测序技术中针对测序芯片的碱基信号采集单元的碱基类型识别同样适用，比如，碱基信号采集单元可以指Illumina测序技术中利用桥式扩增技术得到的碱基簇，也包括通过滚环扩增技术（RCA, Rolling CircleAmplification）得到的纳米球，等等，本申请对此不作限制。

需要说明的是，包含碱基信号采集单元的待测荧光图像数据，可以直接是荧光图像，也可以是基于荧光图像提取得到的碱基信号采集单元对应的荧光亮度信息，这些荧光亮度信息直接或间接来自于荧光图像，从而也属于待测荧光图像数据的范围。

碱基识别模型的输出层，是指神经网络模型（也称深度学习模型）的最后一层，用于对输入的处理结果的输出。通常，神经网络模型还包括作为第一层的输入层和连接于输入层和输出层之间的隐藏层，输入层用于与外界交互获得输入数据，并将输入数据转换为神经网络内部可以处理的格式，如数据向量形式；隐藏层是对输入数据进行处理转换为更高层次的特征表示；输出层的设计需要根据具体任务进行调整，输出通常是神经网络对输入数据的预测或分类结果，如在分类任务中，输出层通常采用softmax函数来计算每个类别的概率分布；在回归任务中，输出层通常只有一个神经元，其输出值表示对于输入数据的预测值。输出层的输出与真实值之间的误差是神经网络的损失函数，而深度学习模型的训练过程的目标是最小化损失函数。如此，碱基识别模型的输出层的输入数据，是指隐藏层对包含碱基信号采集单元的待测荧光图像数据进行处理转换得到的，输入到输出层以作为进行类别概率预测依据的特征数据。

S103，根据所述输入数据，基于多个所述碱基信号采集单元分别对应的所述多通道特征数据经归一化处理得到对应的标准化数据，基于多个所述碱基信号采集单元的所述标准化数据和碱基类别是否正确的统计建立质量评估表。

多个通道分别与多个碱基类别一一对应，以碱基类别为A、T、C、G四个类别为例，通道相应为四个通道。针对每一碱基信号采集单元，根据输出层的输入数据，也即根据分别与A、T、C、G四个碱基类别对应的四个通道分别输出的特征数据，来相应确定当前的碱基信号采集单元属于A、T、C、G四个碱基类别的概率。

其中，每一个碱基信号采集单元对应的四个通道的特征数据为一个多通道特征数据。针对每一个多通道特征数据进行归一化处理得到对应的标准化数据，首先，针对每一个碱基信号采集单元的标准化数据是基于通道的特征数据经归一化处理得到的，其次，这些通道的特征数据也是作为确定当前的碱基信号采集单元所属碱基类别的依据，质量评估表，是通过对多个碱基信号采集单元经归一化处理后的标准化数据的分布进行分析、以及结合这些碱基信号采集单元的碱基类别是否正确的结果进行统计而建立的，如此，质量评估表通过利用一定量的碱基信号采集单元的标准化数据的分布情况和不同分布情况下的正确率而构建的。

S105，在基因测序流程中，针对每一所述碱基信号采集单元，根据所述多通道特征数据预测对应的碱基类别，并基于所述质量评估表确定对应所述碱基类别的质量评估值。

基于一定量的碱基信号采集单元的统计建立质量评估表后，在基因测序流程中，可通过确定每一碱基信号采集单元的标准化数据的分布，依据质量评估表来相应确定该碱基信号采集单元的质量评估值。

上述实施例中，通过获取碱基识别模型的输出层的输入数据，利用输入到输出层的多个通道的多通道特征数据经归一化处理得到对应的标准化数据，再基于多个碱基信号采集单元的标准化数据和碱基类别是否正确的统计建立质量评估表，在后续的基因测序流程中，针对每一碱基信号采集单元的碱基类别的预测结果，均可以基于质量评估表确定对应所述碱基类别的质量评估值。如此，构建质量评估表所利用的数据为经碱基识别模型的输出层处理前的原始数据，以此进行归一化处理后结合碱基类别的正确情况进行统计来建立质量评估表，可以提升对碱基类别预测质量进行评估的准确性，后续基因测序流程中，通过碱基识别模型对每一碱基信号采集单元的碱基类别进行预测得到预测结果的同时，可对照质量评估表判断当前得到的预测结果的质量评估值，通过质量评估值来反映当前的碱基类别的预测结果的可靠性程度，使得基于深度学习的碱基识别模型的处理过程能够可视化，更具解释性。

在一些实施例中，步骤S103，包括：

根据所述输入数据，基于多个所述碱基信号采集单元分别对应的所述多通道特征数据经归一化处理得到对应的标准化数据；

基于多个所述碱基信号采集单元的所述标准化数据分别对应所属的质量评估区间及碱基类别是否正确，统计不同所述质量评估区间对应的碱基类别正确率，建立包含质量评估区间及碱基类别正确率对应关系的质量评估表。

每一个碱基信号采集单元对应的多通道特征数据经归一化处理得到对应的标准化数据，均可视为表示当前的碱基信号采集单元分别属于不同碱基类别的概率参数。在建立质量指标表时，可通过划定多个质量评估区间，通过统计一定量的碱基信号采集单元的标准化数据对应所属的质量评估区间及依据多通道特征数据预测得到的碱基类别的结果是否正确，从而可以获得各个质量评估区间分别对应的碱基类别正确率。

上述实施例中，质量评估表设置为包含质量评估区间及碱基类别正确率对应关系，可以用质量评估区间的数量来形成相应数量的评估等级，不仅使得质量评估表的建立逻辑更加简化，也便于得到更加直观、易于可视化理解的质量评估结果。

在一些实施例中，所述基于多个所述碱基信号采集单元的所述标准化数据分别对应所属的质量评估区间及碱基类别是否正确，统计不同所述质量评估区间对应的碱基类别正确率包括：

基于0到1以预设间隔进行划分确定多个数值区间，基于所述数值区间之间的组合划分质量评估区间；

针对每一所述碱基信号采集单元对应的所述标准化数据，确定所述标准化数据对应所属的质量评估区间，并确定所述碱基信号采集单元的预测碱基类别是否正确；

根据多个所述碱基信号采集单元的统计结果，获得不同所述质量评估区间对应的碱基类别正确率。

数值区间，是指可以对应表示标准化数据的大小的数值区间，数值区间的组合，是指多个标准化数据分别落入到不同数值区间的组合方式。本实施例中，预设间隔为0.1，将0到1以0.1为间隔划分为十个数值区间（Q1，Q2，Q3，Q4，Q5，Q6，Q7，Q8，Q9，Q10），基于十个数值区间的组合方式（如Q1 Q2、Q1 Q3…）得到10×10的质量评估区间，针对每一个碱基信号采集单元，输出层的输入数据为对应的四个通道的特征数据，将四个通道的特征数据经归一化处理后得到的四通道对应的一组标准化数据（NO_A，NO_C，NO_G，NO_T），根据一组标准化数据中的最大值（NO_Max）和最小值（NO_Min）分别落入的两个数值区间（如Q2，Q10），将当前碱基信号采集单元归类到对应的质量评估区间中，然后将每质量评估区间内碱基信号采集单元的正确率作为该类别的指导正确率，得到对应的10×10的质量评估表。

上述实施例中，基于碱基信号采集单元对应的标准化数据所属数值区间的分布情况来设置质量评估表中的质量评估区间，并统计这些碱基信号采集单元对应所在的质量评估区间的碱基类别预测结果的正确率，从而可以建立能够覆盖到更多的数据范围变化可能性下的碱基类别质量指导的质量评估表，便于根据每一个碱基信号采集单元的特征数据的范围，得到更加精准地的质量评估值。

在一些实施例中，所述碱基识别模型中，输出层为softmax层，所述碱基识别模型包括输入层、隐藏层和所述输出层；其中，所述输入数据包括所述隐藏层输出的基于对所述待测荧光图像数据进行特征提取得到的多通道特征数据、所确定的表征所述待测荧光图像数据中碱基信号采集单元分别所属各个碱基类别对应的对数几率。

请结合参阅图2，输出层为softmax层，则输出层的输入数据为碱基识别模型输出表示碱基信号采集单元分别属于四个碱基类别的四个通道的原始分数，输出层根据四个通道的原始分数进行计算，转换为表示碱基信号采集单元分别属于四个碱基类别的概率分布输出。具体的，隐藏层基于对碱基识别模型的输入经特征提取得到的特征数据进行处理和转换，确定当前提取得到的特征数据表征相应的碱基信号采集单元分别属于四个碱基类别的对数几率（Z_A、Z_C、Z_G、Z_T），softmax层基于对数几率的输入数据，输出碱基信号采集单元分别所属四个碱基类别的概率值（Y_A、Y_C、Y_G、Y_T）。

上述实施例中，碱基识别模型中通常采用softmax层作为输出层的实施方案中，利用softmax层的输入数据来建立后续作为对碱基类别的预测结果质量评价指导的质量评价体系，有利于提升质量评估的准确性，相对于利用softmax输出值来建立质量评估体系的应用方式而言也可以有效减小计算资源消耗，碱基识别模型的输出层的输出值与正确率之间的对应关系是一个较为复杂的非线性映射方程，在基因测序的应用中将每个碱基序列都通过这样一个变换，速度和计算资源的消耗较大。

在一些实施例中，在步骤S103中，所述根据所述输入数据，基于多个所述碱基信号采集单元分别对应的所述多通道特征数据经归一化处理得到对应的标准化数据，包括：

根据所述碱基识别模型以标准荧光图像作为待测荧光图像数据输入，得到的所述碱基识别模型的输出层的输入数据，基于所述输入数据中多个所述碱基信号采集单元分别对应的所述多通道特征数据，经预设的归一化方法统计分析确定对应的归一化参数，基于所述归一化参数分别对各所述碱基信号采集单元的所述多通道特征数据进行处理，得到各通道对应的标准化数据。

其中，碱基识别模型的输入为荧光图像。标准荧光图像，是指已知包含的各碱基信号采集单元对应的碱基类别的荧光图像。在一个可选示例中，标准荧光图像，可以是采用传统算法对荧光图像中的各碱基信号采集单元的位置、相应位置的碱基信号采集单元的碱基类别进行计算而确定。建立质量评估表，需要用到一定量的碱基信号采集单元的碱基类别的预测结果作为统计对象，这里，一定量的碱基信号采集单元可以是来自于同一张标准荧光图像中的碱基信号采集单元，也可以是来自多张标准荧光图像。在基因测序流程中，针对一个碱基信号采集单元的一次碱基类别的识别，可称为一次循环，输出层的一个输入数据，相应是指一次循环中四个通道输出所组成的一个四通道特征数据。标准化数据的取值，相应与对多通道特征数据执行归一化处理所采用的归一化参数的类型相关，也即相应与所采用的归一化方法对应，本实施例中，得到标准化数据采用的归一化参数可以是指，利用对标准荧光图像包含的碱基信号采集单元进行统计得到的一组预设的指定类型的归一化参数值。

上述实施例中，提供了利用碱基识别模型对标准荧光图像包含的碱基信号采集单元的碱基类别的预测情况来建立质量评估表的实现方式，标准荧光图像可以重复用于不同碱基识别模型来建立质量评估表的指导，对于碱基识别模型的碱基质量评估的准确性更具说明力。

根据所述碱基识别模型以当前测序获得的实时待测荧光图像为输入，得到的所述碱基识别模型的输出层的输入数据，基于所述输入数据中多个所述碱基信号采集单元分别对应的所述多通道特征数据，经预设的归一化方法统计分析确定对应的归一化参数，基于所述归一化参数分别对各所述碱基信号采集单元的所述多通道特征数据进行处理，得到各通道对应的标准化数据。

其中，碱基识别模型的输入为荧光图像。建立质量评价表的过程中，碱基识别模型的输入为当前测序获得的实时待测荧光图像。建立质量评估表，需要用到一定量的碱基信号采集单元的碱基类别的预测结果作为统计对象，这里，一定量的碱基信号采集单元可以是来自于同一张实时待测荧光图像中的碱基信号采集单元，也可以是来自多张实时待测荧光图像。利用实时待测荧光图像中包含的碱基信号采集单元的数据来建立质量评价表的实现方案中，可以采用传统算法对实时待测荧光图像中各碱基信号采集单元的位置、相应位置的碱基信号采集单元的碱基类别进行计算而确定，利用传统算法获得的碱基类别的结果来判断碱基识别模型输出的碱基类别的预测结果是否正确，以便于能够利用一定量的碱基信号采集单元的碱基类别的预测结果的正确率来建立该质量评价表。

上述实施例中，提供了利用碱基识别模型对实时待测荧光图像包含的碱基信号采集单元的碱基类别的预测情况来建立质量评估表的实现方式，实时待测荧光图像可以包含当前测序设备及当前测序环境下的特征，依此获得荧光图像建立的质量评估表，对当前测序流程中采集到的荧光图像中碱基信号采集单元的碱基类别的测序结果的指导可以更具有针对性。

具体可以是：针对每一次测序流程，碱基识别模型采用前一个或前几个循环中采集的实时待测荧光图像来用于建立质量评估表，一方面，碱基识别模型对这些实时待测荧光图像进行碱基类别的识别处理中，将碱基识别模型的输出层的输入数据通过归一化处理得到对应的标准化数据；另一方面，也采用传统算法确定这些实时待测荧光图像中各碱基信号采集单元的位置、相应位置的碱基信号采集单元的碱基类别，以用于判断碱基识别模型针对这些实时待测荧光图像进行碱基类别的识别处理所得到的碱基信号采集单元的碱基类别的预测结果是否正确；如此，基于来自于这些实时待测荧光图像的碱基信号采集单元的处理，完成质量评估表的建立后，针对后续的基因测序流程中，均可基于质量评估表确定每一碱基信号采集单元的质量评估值，利用质量评估值可以对碱基识别模型的碱基类别识别的处理过程进行表征，一定程度上实现了对碱基识别模型的处理结果的准确性进行客观评估的目的。

在一些实施例中，所述基于所述输入数据中多个所述碱基信号采集单元分别对应的所述多通道特征数据，经预设的归一化方法统计分析确定对应的归一化参数，包括如下之一：

基于所述输入数据中多个所述碱基信号采集单元分别对应的所述多通道特征数据采用最值归一化进行统计分析，得到各通道对应的归一化最大值和归一化最小值；

基于所述输入数据中多个所述碱基信号采集单元分别对应的所述多通道特征数据采用均值方差归一化进行统计分析，得到归一化均值和归一化方差；

基于所述输入数据中多个所述碱基信号采集单元分别对应的所述多通道特征数据采用分位数归一化进行统计分析，以各通道对应的归一化最大值的预设比例得到对应的归一化分数最大值、以及归一化最小值的预设比例得到对应的归一化分数最小值。

在建立质量评估表的过程中，针对碱基识别模型的输出层的输入数据，归一化处理的方法包括但不限于最值归一化、均值方差归一化和分位数归一化。在最值归一化中，针对多个碱基信号采集单元分别对应的四个通道对应的四通道特征数据，采用预设的归一化方法统计分析得到对应的归一化参数，基于归一化参数对四通道特征数据进行归一化处理后得到四通道各自对应的标准化数据，根据四通道各自对应的标准化数据中的最大值和最小值分别对应所在的数据区间来确定质量评估区间。在均值方差归一化中，针对每一碱基信号采集单元的四个通道对应的四通道特征数据，归一化方法统计后得到均值和方差，根据均值和方差对四通道特征数据进行归一化处理后得到对应的标准化数据，根据标准化数据所在的数据区间来确定质量评估区间。在分位数归一化中，针对四通道各自对应的标准化数据中的最大值和最小值，分别按照最大值和最小值的一定比例来相应替换最大值和最小值，也即得到归一化分数最大值和归一化分数最小值作为标准化参数，根据归一化分数最大值和归一化分数最小值对四通道特征数据进行归一化处理后得到对应的标准化数据，根据标准化数据分别对应所在的数据区间来确定质量评估区间。

上述实施例中，提供了多种可选的归一化处理方法，在实际应用过程中，可以选择其中之一来实现本申请实施例所述的基于深度学习的基因测序碱基质量评估方法，也可以采用多种归一化方法分别执行并进行对比后，在选定其中之一来实现本申请实施例所述的基于深度学习的基因测序碱基质量评估方法，更便于满足不同应用场景下的不同需求。

在一些实施例中，步骤S105，包括：

在基因测序流程中，针对每一所述碱基信号采集单元，根据所述多通道特征数据经归一化处理得到对应的标准化数据，根据所述多个通道对应的标准化数据预测所述碱基信号采集单元的碱基类别，并基于所述标准化数据确定其在所述质量评估表中对应所属的质量评估区间，根据所述质量评估区间对应的碱基类别正确率确定对应所述碱基类别的质量评估值。

其中，质量评估表可以与碱基识别模型一一对应建立，也即，针对同一个碱基识别模型，仅需建立一次质量评估表即可；或者，质量评估表也可以是与碱基识别模型的每一次基因测序流程一一对应建立，也即，同一个碱基识别模型在执行一次基因测序之前即重新建立对应的质量评估表。请结合参阅图3，针对训练后的碱基识别模型建立质量评估表包括：①，将包含碱基信号采集单元的待测荧光图像数据（如标准荧光图像、一次基因测序流程中前一个循环或前几个循环中采集到的实时待测荧光图像）输入到碱基识别模型中；②，获取碱基识别模型的输出层的输入数据，每一个输入数据，相应是指表征一个碱基信号采集单元分别属于不同碱基类别由多个通道输出的多通道特征数据，即碱基识别模型输出的原始分数；③，对输出层的输入数据进行预处理，即对大量碱基信号采集单元的多通道特征数据经统计分析确定归一化参数，利用统计分析确定的归一化参数对每一碱基信号采集单元的多通道特征数据分别进行归一化处理，得到各通道对应的标准化数据；⑤，根据标准化数据确定当前碱基信号采集单元所属质量评估区间，并将当前的碱基信号采集单元的碱基类别的预测结果是否正确进行统计；⑥，通过统计一定量的碱基信号采集单元对应到质量评估区间的分类和正确率，建立质量评估表。在基因测序流程中，利用质量评估表来确定碱基类别的质量评估值包括：⑦，在基因测序流程中，实时采集待测荧光图像数据输入到碱基识别模型中；⑧，获取碱基识别模型的输出层的输入数据，每一个输入数据，相应是指表征一个碱基信号采集单元分别属于不同碱基类别由多个通道输出的多通道特征数据，即碱基识别模型输出的原始分数；⑨，对输出层的输入数据进行预处理，即对多通道特征数据依照先前统计分析确定的归一化参数进行归一化处理，得到各通道对应的标准化数据；⑩，根据质量评估表，确定当前的碱基信号采集单元的标准化数据所在的质量评估区间，将对应所述质量评估区间的正确率作为当前得到的碱基类别的预测结果的质量评估值。

上述实施例中，在基因测序流程中，针对实时采集的待测荧光图像数据中碱基信号采集单元的碱基类别的预测，可以根据多通道特征数据归一化后的标准化数据来预测碱基信号采集单元的碱基类别，碱基类别的预测和质量评估值的确定，可以共用碱基识别模型的输出层的输入数据进行归一化处理的结果，实现碱基类别预测和碱基质量评估同步，减小计算量且提升碱基质量评估精度。

在一些实施例中，步骤S105，包括：

在基因测序流程中，针对每一所述碱基信号采集单元，根据所述输出层的输出结果预测所述碱基信号采集单元的碱基类别，并基于所述输出层的所述输入数据中所述多个通道的多通道特征数据经归一化处理得到对应的标准化数据，基于所述标准化数据确定其在所述质量评估表中对应所属的质量评估区间，根据所述质量评估区间对应的碱基类别正确率确定对应所述碱基类别的质量评估值。

其中，针对训练后的碱基识别模型建立质量评估表、在基因测序流程中利用质量评估表来确定碱基类别的质量评估值的流程可如前所述。本实施例中，在基因测序流程中，针对实时采集的待测荧光图像数据中碱基信号采集单元的碱基类别的预测，可以保留碱基识别模型的输出层对碱基类别的预测结果，而根据多通道特征数据经归一化处理后的标准化数据来对输出层得到的碱基类别的预测结果的质量评估值进行确定。

上述实施例中，碱基识别模型采用输出层的结果来进行碱基类别的确定，并采用非输出层的结果来作为碱基质量评估依据，在保留碱基识别模型的原有的完整碱基识别功能的基础上，增加对当前得到的碱基类别的预测结果的准确性进行评估的碱基质量评估体系。

为了能够对本申请实施例所提供的基于深度学习的基因测序碱基质量评估方法具有更加整体的理解，请参阅图4，下面通过一具体示例进行说明，基于深度学习的基因测序碱基质量评估方法包括：

S11，将包含碱基信号采集单元的待测荧光图像数据作为碱基识别模型的输入，提取碱基识别模型的输出层的输入数据，进行数据预处理。

以碱基识别模型的输出层为softmax层为例，输出层的输入数据为logits（对数几率），如图2中所示的碱基识别模型输出的原始分数，通过一定的方式对各通道分别做归一化。归一化方法包括但不限于：分位数归一化、最值归一化、均值方差归一化等。选定归一化方法后，对各通道按选定的归一化方法做归一化可以是：方案1：预设归一化参数，通过统计大批量的碱基信号采集单元得到四个通道的归一化参数；方案2：统计当前批次的碱基信号采集单元得到的四个通道的归一化参数。

S12，对数据预处理结果进行统计分析，建立质量评估表。

将碱基识别模型输出的原始分数经过步骤S11中的预处理后，按照某种规则把数据划分为成N类，然后分别统计每类数据的正确率，最后将该正确率作为该类数据的指导正确率，得到一个碱基质量评估表TableQ。某种规则包括但不限定以下方案：假设碱基识别模型输出的原始分数经过步骤S11预处理后的数据为归一化分数：NO_A，NO_C，NO_G，NO_T。统计每个碱基信号采集单元（cluster）四个通道的归一化分数的最大值（NO_Max）和最小值(NO_Min)，然后将0到1以0.1为间隔划分为10个区间（Q1，Q2，Q3，Q4，Q5，Q6，Q7，Q8，Q9，Q10），然后分别判断每个cluster的NO_Max和NO_Min落在哪个区间，以此将cluster划分到100类中，然后分别统计这100类中cluster的类别预测的正确率作为该类cluster的指导正确率，由此得到一个10×10的碱基质量评估表。

S13，在基因测序中，利用质量评估表对碱基识别模型的碱基类别预测结果的质量进行评估。

在基因测序中，将实时采集的荧光图像数据作为碱基识别模型的输入，将碱基识别模型输出的原始分数经过步骤S11预处理后，按照某种规则判断该cluster属于的类别X，然后索引步骤S12生成的碱基质量评估表TableQ，得到该cluster的指导质量值。

本申请实施例提供的基于深度学习的基因测序碱基质量评估方法，采用碱基识别模型的原始分数作为碱基质量值的评估依据，并采用统计的方式来得到碱基质量评估的体系，如此，一方面，通过采用非输出层的结果作为碱基质量评估依据，使得碱基质量评估的更加精准；另一方面，通过非拟合的方式，结合统计的方式来得到质量值评估体系，可以减少碱基质量评估带来的计算量。

本申请另一方面，提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现本申请任一实施例所述的基于深度学习的基因测序碱基质量评估方法的步骤。

其中，所述计算机程序产品中，实现该方法各步骤的计算机程序的程序模块架构的可选实现形式为基于深度学习的基因测序碱基质量评估装置。请参阅图5，所述基于深度学习的基因测序碱基质量评估装置包括：获取模块11，用于将包含碱基信号采集单元的待测荧光图像数据作为基于深度学习模型训练后的碱基识别模型的输入，获取所述碱基识别模型的输出层的输入数据；所述输入数据包括与多个碱基类别分别对应的多个通道的多通道特征数据；质量体系构建模块12，用于根据所述输入数据，基于多个所述碱基信号采集单元分别对应的所述多通道特征数据经归一化处理得到对应的标准化数据，基于多个所述碱基信号采集单元的所述标准化数据和碱基类别是否正确的统计建立质量评估表；评估模块13，用于在基因测序流程中，针对每一所述碱基信号采集单元，根据所述多通道特征数据预测对应的碱基类别，并基于所述质量评估表确定对应所述碱基类别的质量评估值。

可选的，所述质量体系构建模块12，用于根据所述输入数据，基于多个所述碱基信号采集单元分别对应的所述多通道特征数据经归一化处理得到对应的标准化数据；基于多个所述碱基信号采集单元的所述标准化数据分别对应所属的质量评估区间及碱基类别是否正确，统计不同所述质量评估区间对应的碱基类别正确率，建立包含质量评估区间及碱基类别正确率对应关系的质量评估表。

可选的，所述质量体系构建模块12，还用于基于0到1以预设间隔进行划分确定多个数值区间，基于所述数值区间之间的组合划分质量评估区间；针对每一所述碱基信号采集单元对应的所述标准化数据，确定所述标准化数据对应所属的质量评估区间，并确定所述碱基信号采集单元的预测碱基类别是否正确；根据多个所述碱基信号采集单元的统计结果，获得不同所述质量评估区间对应的碱基类别正确率。

可选的，所述输出层为softmax层，所述碱基识别模型包括输入层、隐藏层和所述输出层；其中，所述输入数据包括所述隐藏层输出的基于对所述待测荧光图像数据进行特征提取得到的多通道特征数据、所确定的表征所述待测荧光图像数据中碱基信号采集单元分别所属各个碱基类别对应的对数几率。

可选的，所述质量体系构建模块12，还用于根据所述碱基识别模型以标准荧光图像作为待测荧光图像数据输入，得到的所述碱基识别模型的输出层的输入数据，基于所述输入数据中多个所述碱基信号采集单元分别对应的所述多通道特征数据经预设的归一化方法进行处理，得到各通道对应的标准化数据。

可选的，所述质量体系构建模块12，还用于根据所述碱基识别模型以当前测序获得的实时待测荧光图像为输入，得到的所述碱基识别模型的输出层的输入数据，基于所述输入数据中多个所述碱基信号采集单元分别对应的所述多通道特征数据经预设的归一化方法进行处理，得到各通道对应的标准化数据。

可选的，可选的，所述质量体系构建模块12，还用于基于所述输入数据中多个所述碱基信号采集单元分别对应的所述多通道特征数据经最值归一化进行处理，得到各通道对应的归一化最大值和归一化最小值；基于所述输入数据中多个所述碱基信号采集单元分别对应的所述多通道特征数据经均值方差归一化进行处理，得到归一化均值和归一化方差；基于所述输入数据中多个所述碱基信号采集单元分别对应的所述多通道特征数据经分位数归一化进行处理，以各通道对应的归一化最大值的预设比例得到对应的归一化分数最大值、以及归一化最小值的预设比例得到对应的归一化分数最小值。

可选的，所述评估模块13，还用于在基因测序流程中，针对每一所述碱基信号采集单元，根据所述多通道特征数据经归一化处理得到对应的标准化数据，根据所述多个通道对应的标准化数据预测所述碱基信号采集单元的碱基类别，并基于所述标准化数据确定其在所述质量评估表中对应所属的质量评估区间，根据所述质量评估区间对应的碱基类别正确率确定对应所述碱基类别的质量评估值。

可选的，所述评估模块13，还用于在基因测序流程中，针对每一所述碱基信号采集单元，根据所述输出层的输出结果预测所述碱基信号采集单元的碱基类别，并基于所述输出层的所述输入数据中所述多个通道的多通道特征数据经归一化处理得到对应的标准化数据，基于所述标准化数据确定其在所述质量评估表中对应所属的质量评估区间，根据所述质量评估区间对应的碱基类别正确率确定对应所述碱基类别的质量评估值。

需要说明的是：上述实施例提供的基于深度学习的基因测序碱基质量评估装置在执行基因测序同时进行碱基质量评估的过程中，仅以上述各程序模块的划分进行举例说明，在实际应用中，可以根据需要而将上述处理分配由不同的程序模块完成，即可将装置的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分方法步骤。另外，上述实施例提供的基于深度学习的基因测序碱基质量评估装置与基于深度学习的基因测序碱基质量评估方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本申请另一方面，还提供一种基因测序设备。请参阅图6，为基因测序设备的一个可选的硬件结构示意图，所述基因测序设备包括处理器212及与所述处理器212连接的存储器211，存储器211内存储有用于实现本申请任一实施例提供的基于深度学习的基因测序碱基质量评估方法的计算机程序，以使得相应所述计算机程序被所述处理器执行时，实现本申请任一实施例提供的基于深度学习的基因测序碱基质量评估方法的步骤。加载有相应计算机程序的基因测序设备与对应的方法实施例具有相同的技术效果，为避免重复，这里不再赘述。

本申请实施例另一方面，还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述基于基于深度学习的基因测序碱基质量评估方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-OnlyMemor，简称ROM)、随机存取存储器(RandomAccessMemory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机、计算机，服务器，空间组学测序平台、基因测序仪、或网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围之内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于深度学习的基因测序碱基质量评估方法，其特征在于，包括：

2.如权利要求1所述的基于深度学习的基因测序碱基质量评估方法，其特征在于，所述根据所述输入数据，基于多个所述碱基信号采集单元分别对应的所述多通道特征数据经归一化处理得到对应的标准化数据，基于多个所述碱基信号采集单元的所述标准化数据和碱基类别的正确率的统计建立质量评估表，包括：

3.如权利要求2所述的基于深度学习的基因测序碱基质量评估方法，其特征在于，所述基于多个所述碱基信号采集单元的所述标准化数据分别对应所属的质量评估区间及碱基类别是否正确，统计不同所述质量评估区间对应的碱基类别正确率包括：

4.如权利要求3所述的基于深度学习的基因测序碱基质量评估方法，其特征在于，所述输出层为softmax层，所述碱基识别模型包括输入层、隐藏层和所述输出层；其中，所述输入数据包括所述隐藏层输出的基于对所述待测荧光图像数据进行特征提取得到的多通道特征数据、所确定的表征所述待测荧光图像数据中碱基信号采集单元分别所属各个碱基类别对应的对数几率。

5.如权利要求2所述的基于深度学习的基因测序碱基质量评估方法，其特征在于，所述根据所述输入数据，基于多个所述碱基信号采集单元分别对应的所述多通道特征数据经归一化处理得到对应的标准化数据，包括：

6.如权利要求2所述的基于深度学习的基因测序碱基质量评估方法，其特征在于，所述根据所述输入数据，基于多个所述碱基信号采集单元分别对应的所述多通道特征数据经归一化处理得到对应的标准化数据，包括：

7.如权利要求5或6所述的基于深度学习的基因测序碱基质量评估方法，其特征在于，所述基于所述输入数据中多个所述碱基信号采集单元分别对应的所述多通道特征数据，经预设的归一化方法统计分析确定对应的归一化参数，包括如下之一：

8.如权利要求1所述的基于深度学习的基因测序碱基质量评估方法，其特征在于，所述在基因测序流程中，针对每一所述碱基信号采集单元，根据所述多通道特征数据预测对应的碱基类别，并基于所述质量评估表确定对应所述碱基类别的质量评估值，包括：

9.如权利要求1所述的基于深度学习的基因测序碱基质量评估方法，其特征在于，所述在基因测序流程中，针对每一所述碱基信号采集单元，根据所述多通道特征数据预测对应的碱基类别，并基于所述质量评估表确定对应所述碱基类别的质量评估值，包括：

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至9中任一项所述方法的步骤。

11.一种基因测序设备，包括存储器、处理器及存储在所述存储器上的计算机程序，其特征在于，所述处理器执行所述计算机程序以实现如权利要求1至9中任一项所述方法的步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至9中任一项所述方法的步骤。