CN117995284A

CN117995284A - 基于深度学习的基因测序的结果可视化方法、产品、设备及介质

Info

Publication number: CN117995284A
Application number: CN202410379233.0A
Authority: CN
Inventors: 陈伟; 彭宽宽; 周祎楠; 王谷丰; 赵陆洋
Original assignee: Shenzhen Sailu Medical Technology Co ltd
Current assignee: Shenzhen Sailu Medical Technology Co ltd
Priority date: 2024-03-29
Filing date: 2024-03-29
Publication date: 2024-05-07

Abstract

本申请提供一种基于深度学习的基因测序的结果可视化方法、产品、设备及介质，所述方法包括：获取针对测序芯片采集的包含碱基信号采集单元的待测荧光图像；将所述待测荧光图像作为基于深度学习模型训练后得到的碱基识别模型的输入，通过所述碱基识别模型对所述待测荧光图像进行特征提取和识别，输出各所述待测荧光图像分别对应的碱基识别结果；基于对所述待测荧光图像进行抽样确定参考荧光图像；通过预设的碱基识别算法对所述参考荧光图像进行亮度信息提取和处理，输出所述参考荧光图像对应的测序指标信息。测序指标信息可以用来表征当前碱基识别模型的碱基识别结果的可靠性程度，实现将基于深度学习的基因测序的结果进行可视化展示的目的。

Description

基于深度学习的基因测序的结果可视化方法、产品、设备及介质

技术领域

本申请涉及基因测序技术领域，尤其是涉及一种基于深度学习的基因测序的结果可视化方法、计算机程序产品、基因测序设备及计算机可读存储介质。

背景技术

基因测序是指在微观层面上，通过一定技术手段对基因样本进行识别与分析的过程。

二代测序仪是一种广泛用于基因组测序的测序仪器，它可以快速、准确地测定DNA序列。测序整个流程主要包含：通过光学系统获取样本荧光图像，基因Basecall过程，获取测序结果与评估。基因Basecall过程（碱基识别算法）是将样本荧光图像通过激光（不同碱基类别对应的测序信号）下不同碱基激发的不同亮度信息，判断其属于A、C、G、T四种碱基类别的某一种。经过基因Basecall后，样本信息从数字图像转化为序列信息，即为样本的DNA序列结果，以供后续分析与评估。

碱基识别算法对碱基序列进行测序的准确性和质量至关重要。深度学习由于其强大的拟合能力，目前已经有很多研究将深度学习应用于二代测序仪的碱基识别。深度学习的方案能够极大的提高碱基识别的准确率，然而，深度学习模型的处理过程具有不可解释性，而基因测序过程中测序指标信息作为重要信息对后续故障排查及实验改进的意义重大，因此不可解释性的基因测序结果会大大阻碍深度学习模型在基因测序领域的推广应用。

发明内容

为解决现有存在的技术问题，本申请提供一种能够将深度学习的基因测序结果进行可视化展示的基于深度学习的基因测序的结果可视化方法、计算机程序产品、基因测序设备及计算机可读存储介质。

本申请实施例第一方面，提供一种基于深度学习的基因测序的结果可视化方法，包括：

获取针对测序芯片采集的包含碱基信号采集单元的待测荧光图像；

将所述待测荧光图像作为基于深度学习模型训练后得到的碱基识别模型的输入，通过所述碱基识别模型对所述待测荧光图像进行特征提取和识别，输出各所述待测荧光图像分别对应的碱基识别结果；其中，所述碱基识别结果包括各所述碱基信号采集单元位置处对应所属碱基类型的识别结果；

基于对所述待测荧光图像进行抽样确定参考荧光图像；

通过预设的碱基识别算法对所述参考荧光图像进行亮度信息提取和处理，输出所述参考荧光图像对应的测序指标信息，作为所述碱基识别模型的可视化参考信息；其中，所述测序指标信息包括如下至少之一：荧光亮点个数信息、荧光亮点亮度值信息、不同碱基类型对应通道的通道间串扰比例信息、循环间串扰比例信息。

第二方面，提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如本申请任一实施例所述的基于深度学习的基因测序的结果可视化方法的步骤。

第三方面，提供一种基因测序设备，包括处理器及与所述处理器连接的存储器，所述存储器上存储有可被所述处理器执行的计算机程序，所述计算机程序被所述处理器执行时实现如本申请任一实施例所述的基于深度学习的基因测序的结果可视化方法的步骤。

第四方面，提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现本申请任一实施例所述的基于深度学习的基因测序的结果可视化方法的步骤。

上述实施例中，在基因测序流程中，采用基于深度学习模型训练后的碱基识别模型对采集的待测荧光图像进行碱基识别，获得碱基识别结果的同时，通过抽样选取待测荧光图像作为参考荧光图像，通过预设的碱基识别算法对参考荧光图像进行处理输出指定的测序指标信息，这些测序指标信息可以用来表征当前碱基识别模型的碱基识别结果的可靠性程度，作为对碱基识别模型的测序结果质量评价的指导，从而实现将基于深度学习的基因测序的结果进行可视化展示的目的；此外，测序指标信息可以及时地反映出碱基识别模型的测序质量偏差，且便于在测序质量不佳时排查影响质量不佳的原因，使得碱基识别模型的测序结果可控。

上述实施例中，计算机程序产品、基因测序设备及计算机可读存储介质与对应的基于深度学习的基因测序的结果可视化方法实施例属于同一构思，从而与对应的基于深度学习的基因测序的结果可视化方法实施例具有相同的技术效果，在此不再赘述。

附图说明

图1为一实施例中基于深度学习的基因测序的结果可视化方法的流程示意图；

图2为一实施例中测序指标信息（各碱基类型对应的荧光亮点个数）的示意图；

图3为一实施例中测序指标信息（各碱基类型对应的荧光亮点亮度值）的示意图；

图4为一实施例中测序指标信息（各碱基类型对应的模板点浓度）的示意图；

图5为一实施例中测序指标信息（各碱基类型对应的浓度趋势）的示意图；

图6为一实施例中测序指标信息（各碱基类型的循环间干扰超前反应率）的示意图；

图7为一实施例中测序指标信息（各碱基类型的循环间干扰滞后反应率）的示意图；

图8为一实施例中测序指标信息（不同碱基类型之间的通道间串扰）的示意图；

图9为另一实施例中基于深度学习的基因测序的结果可视化方法的流程图；

图10为一实施例中基于深度学习的基因测序的结果可视化装置的结构示意图；

图11为一实施例中基因测序设备的结构示意图。

具体实施方式

以下结合说明书附图及具体实施例对本发明技术方案做进一步的详细阐述。

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”的表述，其描述了所有可能实施例的子集，需要说明的是，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一、第二、第三”仅仅是用于区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一、第二、第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

在基因测序技术领域，基于深度学习模型强大的拟合能力，越来越多的研究将深度学习用于基因测序仪中的碱基识别，利用各种深度学习模型通过训练得到碱基识别模型来进行碱基类别预测。而为了能够解决深度学习模型的处理过程的不可解释性所带来的应用阻碍，本申请发明人对目前已知的深度学习应用于基因测序的方式进行了总结分析，将碱基识别模型进行碱基类别的输入主要分为如下三类：测序流程实时采集到的荧光图像、从荧光图像中经提取得到的荧光亮度信息（未经校正的荧光图像的荧光亮度信息）、从荧光图像中提取并经过光学和生化因素校正的荧光亮度信息（经校正后的荧光图像的荧光亮度信息）。碱基识别模型的这些不同类的输入，本质上均是碱基识别模型基于测序流程中实时采集的荧光图像中包含的碱基信号采集单元的荧光亮度信息，经特征提取和分类预测来对不同测序循环中各碱基信号采集单元的碱基类别进行识别，本申请实施例中，将碱基识别模型的不同类的输入：荧光图像、未经校正的荧光图像的荧光亮度信息、经校正的荧光图像的荧光亮度信息均归类于包含碱基信号采集单元的待测荧光图像的数据范围内。

请参阅图1，为本申请一实施例提供的基于深度学习的基因测序的结果可视化方法，包括如下步骤：

S101，获取针对测序芯片采集的包含碱基信号采集单元的待测荧光图像。

基因测序流程，是通过将待测DNA分子通过特定的扩增技术进行扩增，针对每一DNA片段（单链文库分子）扩增形成碱基簇，以碱基簇检测结果构建测序芯片上碱基簇的模板点，再通过碱基簇的模板点进行碱基识别等操作来进行碱基识别，得到碱基序列的过程。可以理解的是，本申请实施例所提供的基于深度学习的基因测序的结果可视化方法，通过基于深度学习模型训练后得到的碱基识别模型对待测荧光图像进行特征提取和识别获得碱基识别结果，是利用深度学习模型训练的策略来提升碱基识别精度，碱基识别模型的输入，是基于测序芯片上单链文库分子扩增后的碱基簇得到的荧光图像进行碱基簇定位检测和碱基类别识别，这里，每个碱基簇即指一个碱基信号采集单元，从而其并不受限于针对单链文库分子所采用的哪一种扩增技术，也即，其它大规模平行测序技术中针对测序芯片的碱基信号采集单元的碱基类型识别同样适用，比如，碱基信号采集单元可以指Illumina测序技术中利用桥式扩增技术得到的碱基簇，也包括通过滚环扩增技术（RCA, RollingCircle Amplification）得到的纳米球，等等，本申请对此不作限制。

需要说明的是，包含碱基信号采集单元的待测荧光图像，可以直接是原始荧光图像，也可以是经过降噪、除光学干扰等图像预处理后的荧光图像。

S103，将所述待测荧光图像作为基于深度学习模型训练后得到的碱基识别模型的输入，通过所述碱基识别模型对所述待测荧光图像进行特征提取和识别，输出各所述待测荧光图像分别对应的碱基识别结果；其中，所述碱基识别结果包括各所述碱基信号采集单元位置处对应所属碱基类型的识别结果。

其中，深度学习模型可以是各种已知神经网络模型。

碱基识别结果可以有不同呈现形式，还体现在表征碱基信号采集单元的识别结果的形式可以是标识有当前循环内各碱基信号采集单元的碱基类型的数据矩阵、或标识有各碱基信号采集单元的碱基类型的图像。在一个可选示例中，碱基识别模型输出的碱基识别结果为与不同碱基类型一一对应的多通道输出，每一通道输出对应一个碱基类型的碱基信号采集单元的识别结果，如不同碱基类型包括A、C、G、T四种类型，通道1可以是A碱基类型的碱基信号采集单元中心的位置信息的坐标数据矩阵，从而通道1输出的坐标数据矩阵表示的当前循环内对A碱基类型的碱基信号采集单元的识别结果；与此同理，通道2的坐标数据矩阵则对应C碱基类型的碱基信号采集单元的识别结果，通道3的坐标数据矩阵则对应G碱基类型的碱基信号采集单元的识别结果，通道4的坐标数据矩阵则对应T碱基类型的碱基信号采集单元的识别结果。在另一可选示例中，碱基识别模型的碱基识别结果为包含同一循环内多个碱基类型的碱基信号采集单元的识别结果的单路输出，如通道1、2、3、4得到的A、C、G、T的识别结果，形成当前循环的一个包含全部碱基类型的碱基信号采集单元中心的相应位置处标识有碱基类型标签的坐标数据矩阵。需要说明的是，虽然碱基识别模型的输出是包含了碱基信号采集单元中心的坐标数据矩阵，但是表达的是识别到了当前循环内不同碱基信号采集单元处所属的碱基类型，实现的是碱基类型识别。

上述坐标数据矩阵，可采用其它能够表征各碱基信号采集单元中心处所属碱基类型的形式，如表示像素点是否为某一碱基类型的碱基信号采集单元中心所在位置的概率数据矩阵，碱基信号采集单元中心所在位置处的概率值表示的是该碱基信号采集单元属于A、C、G或T碱基类型的概率。

表征各碱基信号采集单元处所属碱基类型的其它形式也可以是图像形式，如根据坐标数据矩阵、概率数据矩阵所获得的A、C、G、T碱基类型的碱基信号采集单元中心的位置，直接输出当前循环的各碱基信号采集单元中心的位置处标注有碱基类型标签的荧光图像。

根据上述提供的碱基识别结果的多种可能呈现形式，可知碱基识别模型输出的碱基识别结果，是针对当前循环内采集的多张待测荧光图像经碱基识别模型的处理后，得到的能够知晓当前循环内各碱基信号采集单元的位置处对应所属的碱基类型的碱基识别结果，其可以不限于某一种具体形式，在此不做限制。

基于深度学习的碱基识别模型，具有强大的非线性建模能力、自动提取特征的能力和自学习能力，不同的碱基识别结果的输出可通过提供相应标签的训练样本对深度学习模型进行训练后得到。

S105，基于对所述待测荧光图像进行抽样确定参考荧光图像。

在基因测序流程中，通过碱基识别模型以实时采集的待测荧光图像为输入进行碱基识别输出对应的碱基识别结果的同时，从作为碱基识别模型输入的待测荧光图像中随机抽取部分图像作为参考荧光图像。其中，在基因测序流程中的不同阶段，抽样可以有不同的比例，在一个可选示例中，针对基因测序流程的前几个循环内，可以增加抽样的比例，以便能够在基因测序流程的前几个循环增加参考荧光图像的数量来获得测序指标信息，利用测序指标信息作为碱基识别模型得到当前的碱基识别结果的解释性指标，可辅助确认碱基识别模型的测序质量，指导测序实验和排查影响测序质量的原因，从而将基于深度学习的碱基识别模型的结果进行可视化展示。

S107，通过预设的碱基识别算法对所述参考荧光图像进行亮度信息提取和处理，输出所述参考荧光图像对应的测序指标信息，作为所述碱基识别模型的可视化参考信息；其中，所述测序指标信息包括如下至少之一：荧光亮点个数信息、荧光亮点亮度值信息、不同碱基类型对应通道的通道间串扰比例信息、循环间串扰比例信息。

预设的碱基识别算法，可以是指已知的传统的碱基识别算法。传统的碱基识别算法对参考荧光图像进行处理，相对于基于深度学习的碱基识别模型而言碱基识别的质量更加稳定和可靠，便于通过算法算式的设定来获得所需类型的计算结果，但计算量大，识别效率较低而容易影响基因测序效率。本实施例中，利用传统的碱基识别算法对抽样确定的参考荧光图像进行亮度信息提取和处理输出对应的测序指标信息，将这些测序指标信息作为基于深度学习的碱基识别模型的碱基识别质量评估的可视化参考信息。

测序指标信息与表征碱基识别结果中碱基信号采集单元的数量、位置或碱基类型等识别结果准确性的要素关联，通过测序指标信息中包含的表征识别结果准确性的要素，可供了解当前碱基识别准确性和质量的相关情况，比如，通过测序指标信息反映出的荧光亮点个数信息，知晓基因测序中碱基有效反应数量，若碱基有效反应数量过低，则可以及时判定基于深度学习的碱基识别模型的碱基识别结果不准确，通过测序指标排查出原因并及时进行针对性解决。本实施例中，测序指标信息可以是荧光亮点个数信息、荧光亮点亮度值信息、不同碱基类型对应通道的通道间串扰比例信息、循环间串扰比例信息中的一个或多个。

上述实施例中，在基因测序流程中，采用基于深度学习模型训练后的碱基识别模型对采集的待测荧光图像进行碱基识别，获得碱基识别结果的同时，通过抽样选取待测荧光图像作为参考荧光图像，通过预设的碱基识别算法对参考荧光图像进行处理输出指定的测序指标信息，这些测序指标信息可以用来表征当前碱基识别模型的碱基识别结果的可靠性程度，作为对碱基识别模型的测序结果质量评价的指导，从而实现将基于深度学习的基因测序的结果进行可视化展示的目的；此外，测序指标信息可以及时地反映出基于深度学习的碱基识别模型的测序质量，且便于在测序质量不佳时排查影响质量不佳的原因，使得碱基识别模型的测序结果可控。

在一些实施例中，在步骤S107中，输出所述参考荧光图像对应的测序指标信息，作为所述碱基识别模型的可视化参考信息，包括：

确定所述参考荧光图像中的荧光亮点个数，根据同一循环内与不同碱基类型对应的多张所述参考荧光图像中所述荧光亮点个数的和，得到表征当前测序流程中有效碱基信号采集单元数量的可视化参考信息。

本实施例中，测序指标信息是指荧光亮点个数信息。需要说明的是，荧光亮点个数信息可以是数值、图像、数值与图像结合等不同展示形式。通过传统的碱基识别算法对参考荧光图像进行处理，找出参考荧光图像中的荧光亮点个数，利用同一循环内与A、C、G、T碱基类型分别对应的参考荧光图像各自对应的荧光亮点个数，得到当前测序流程中测序芯片上的有效碱基信号采集单元的数量，本实施例中，碱基信号采集单元具体是指碱基簇。荧光亮点个数，可以反映芯片上的当前有效碱基簇的数量，该指标也会受到图像对焦、均衡度、杂质、背景噪音等因素的影响，通过输出荧光亮点个数信息这一测序指标信息，以作为碱基识别模型得到当前的碱基识别结果的解释性指标之一。需要说明的是，执行本申请实施例所述的基于深度学习的基因测序的结果可视化方法的应用程序界面包括测序指标信息的显示区域，如图2所示，将抽样确定的各个循环内采集的荧光图像经传统的碱基识别算法进行处理得到每一循环内不同碱基类型的荧光图像中荧光亮点个数，得到碱基类型A、C、G、T分别对应的荧光亮点个数（Peak Number）这一测序指标信息的曲线图。

确定所述参考荧光图像中的荧光亮点亮度，根据同一循环内与不同碱基类型对应的多张所述参考荧光图像中所述荧光亮点亮度的均值，得到表征当前测序流程中有效碱基信号采集单元的信号强度的可视化参考信息。

本实施例中，测序指标信息是指荧光亮点亮度。需要说明的是，荧光亮点亮度值信息可以是数值、图像、数值与图像结合等不同展示形式。通过传统的碱基识别算法对参考荧光图像进行处理，找出参考荧光图像中的荧光亮点并提取其相应位置的亮度值，利用同一循环内与A、C、G、T碱基类型分别对应的参考荧光图像各自对应的荧光亮点的亮度值，得到当前测序流程中测序芯片上有效碱基信号采集单元的信号强度，本实施例中，碱基信号采集单元具体是指碱基簇。在一个可选的具体示例中，荧光亮点亮度值，是指通过传统的碱基识别算法从对应的参考荧光图像中提取到的荧光亮点位置处的灰度值，根据相应参考荧光图像中所有荧光亮点位置处的灰度值计算得到的荧光亮点亮度的均值。荧光亮点亮度值，受基因测序流程中测序信号激光强度的影响，在基因测序流程中越稳定则通常表示测序结果质量越好，如此，通过输出荧光亮点亮度值这一测序指标信息，以作为碱基识别模型得到当前的碱基识别结果的解释性指标之一。需要说明的是，执行本申请实施例所述的基于深度学习的基因测序的结果可视化方法的应用程序界面包括测序指标信息的显示区域，如图3所示，将抽样确定的各个循环内采集的荧光图像经传统的碱基识别算法进行处理后，得到每一循环内不同碱基类型（A、C、G、T）的荧光图像中荧光亮点亮度的均值，并得到碱基类型A、C、G、T分别对应的荧光亮点亮度（Raw Ave Intensity）这一测序指标信息的曲线图。

在一些实施例中，在步骤S107，输出所述参考荧光图像对应的测序指标信息，作为所述碱基识别模型的可视化参考信息，包括：

确定所述参考荧光图像中的荧光亮点位置，统计同一循环内指定碱基类型的荧光亮点在对应通道的亮度平均值，得到表征当前测序流程中碱基有效反应轮数趋势的可视化参考信息。

本实施例中，测序指标信息是指不同碱基类型对应的荧光亮点分别在其对应通道上的亮度平均值所表示的识别碱基亮度。需要说明的是，识别碱基亮度可以是数值、图像、数值与图像结合等不同展示形式。通过传统的碱基识别算法对参考荧光图像进行处理，找出参考荧光图像中的同一碱基类型的所有荧光亮点位置，以碱基类型A对应的通道1为例，在通道1的参考荧光图像中，统计所有碱基类型A的位置用于确定碱基类型A的模板点位置，提取所有碱基类型A的荧光亮点在通道1执行归一化之前的亮度值，然后求平均值，以此表示碱基类型A的识别碱基亮度（Base Intensity）。这里，识别碱基亮度的计算用到的荧光亮点的亮度经过了通道串扰（crosstalk）矫正，但未进行循环串扰（phasing/prephasing）矫正，可用于反映碱基反应效率的趋势，通常，随着基因测序流程的进行，反应越久，碱基簇的损伤越严重（也即一个碱基簇经过多轮反应和拷贝，随着反应轮数的增加会产生损伤），若识别碱基亮度下降越快，则可测读长越短，从而可用于测序估计参考。通过输出指定碱基类型的荧光亮点在对应通道的亮度平均值表示相应碱基类型的识别碱基亮度，从而相应表示当前循环内的碱基有效反应轮数这一测序指标信息，以作为碱基识别模型得到当前的碱基识别结果的解释性指标之一。需要说明的是，执行本申请实施例所述的基于深度学习的基因测序的结果可视化方法的应用程序界面包括测序指标信息的显示区域，如图4所示，将抽样确定的各个循环内采集的荧光图像经传统的碱基识别算法进行处理得到每一循环内指定碱基类型的荧光亮点在对应通道的亮度平均值，可分别得到碱基类型A、C、G、T分别对应的识别碱基亮度这一测序指标信息的曲线图，以表征各循环内的碱基有效反应轮数趋势。

确定所述参考荧光图像中的荧光亮度位置，统计同一循环内指定碱基类型的荧光亮点在对应通道的亮度平均值，根据先后两个循环的所述指定碱基类型的荧光亮点的亮度平均值的比值，得到表征当前测序流程中测序信号激光器的功率影响的可视化参考信息。

荧光亮点个数本质上反映了有效碱基信号采集单元的数量，本实施例中，碱基信号采集单元具体是指碱基簇，而荧光亮点亮度值是用于确定荧光亮点个数的基础数据，通过利用传统的碱基识别算法对参考荧光图像进行处理，找出参考荧光图像中的同一碱基类型的所有荧光亮点位置，以碱基类型A对应的通道1为例，在通道1的参考荧光图像中，统计所有碱基类型A的位置用于确定碱基类型A的模板点位置，提取所有碱基类型A的荧光亮点在通道1执行归一化之前的亮度值，然后求平均值，以此表示碱基类型A的识别碱基亮度（Base Intensity），将在后循环中碱基类型A的荧光亮点的亮度平均值与在先循环中碱基类型A的荧光亮点的亮度平均值的比值，以此表示碱基类型A的亮度梯度趋势（IntensityTrend）。通过亮度梯度趋势，从百分比维度分析基因测序中碱基反应效率的下降程度和趋势，趋势越平缓则表示测序实验环境越好。

在一个可选的具体示例中，先后两个循环中，在先循环是指基因测序流程中的第一循环（first cycle），亮度梯度趋势Intensity Trend = n_cycle Base Intensity/first cycle Base Intensity，即以第一循环的强度作为基准，以计算随着基因测序流程的持续进展过程中碱基有效反映效率的下降趋势，以用于指导基因测序实验。通过输出指定碱基类型的荧光亮点在对应通道的亮度平均值的比值的变化趋势这一测序指标信息，以此作为碱基识别模型得到当前的碱基识别结果的解释性指标之一。需要说明的是，执行本申请实施例所述的基于深度学习的基因测序的结果可视化方法的应用程序界面包括测序指标信息的显示区域，如图5所示，将抽样确定的各个循环内采集的荧光图像经传统的碱基识别算法进行处理，得到每一循环内指定碱基类型的荧光亮点在对应通道的亮度平均值，计算当前循环的亮度平均值与第一循环的亮度平均值的比值，可分别得到碱基类型A、C、G、T分别对应的亮度梯度趋势这一测序指标信息的曲线图，以表征当前测序流程中测序信号激光器的功率影响问题。

确定所述参考荧光图像中的荧光亮点亮度，计算同一循环内与不同碱基类型对应的多张所述参考荧光图像分别对应的荧光亮点的亮度，并根据相邻的多个循环内同一碱基类型的所述荧光亮点亮度的变化，计算各循环的超前反应率/滞后反应率，得到表征当前测序流程中循环间串扰干扰程度的可视化参考信息。

超前反应率（Prephasing），用于记录滞后反应率，如本应在cycleN反应的碱基，在cycleN+n才反应。滞后反应率（Phasing），用于记录超前反应率，如本应在cycleN反应的碱基，却在cycleN-n已经反应。根据相邻的多个循环内同一碱基类型的所述荧光亮点亮度的变化，计算各循环的超前反应率/滞后反应率可利用马尔可夫模型进行统计计算，通过累积效应，通过先后多个循环中各碱基类型分别对应的荧光亮点的亮度的变化来统计超前反应率/滞后反应率。在一个可选的具体实施例中，分别统计不同碱基类型A、C、G、T在各循环的超前滞后反应率，是以当前循环的前后各两个循环作为参考，也即，针对一个碱基类型，均是以五个循环内其对应的荧光亮点亮度的变化来统计超前滞后反应率，通过多元线性回归进行多因子分析，得到多元线性回归因子来衡量整个测序实验过程中的超前反应率/滞后反应率。通过输出各碱基类型的超前反应率/滞后反应率这一测序指标信息，以此作为碱基识别模型得到当前的碱基识别结果的解释性指标之一。

需要说明的是，执行本申请实施例所述的基于深度学习的基因测序的结果可视化方法的应用程序界面包括测序指标信息的显示区域，如图6和图7所示，将抽样确定的各个循环内采集的荧光图像经传统的碱基识别算法进行处理，根据相邻的多个循环内同一碱基类型的所述荧光亮点亮度的变化，计算各循环的超前反应率/滞后反应率，可分别得到碱基类型A、C、G、T分别对应的超前反应率和滞后反应率这一测序指标信息的曲线图。超前反应率/滞后反应率，可表示循环间串扰干扰程度，使得基于深度学习的碱基识别模型输出碱基识别结果的测序质量能够被可视化表征，且可以根据循环间串扰干扰程度来指导基因测序实验和排查问题。

确定所述参考荧光图像中的荧光亮点亮度，根据同一循环内与不同碱基类型对应的多张所述参考荧光图像中所述荧光亮点亮度按照碱基类型两两组合计算比值，得到表征当前测序流程中通道间串扰干扰程度的可视化参考信息。

不同碱基类型对应的测序信号通道间的串扰，可以形成于任意的碱基类型两两组合之间，以碱基类型A、C、G、T为例，分别对应四个通道，四个通道中两两组合总共12组通道串扰组合，如AC用于表示A对C的串扰，CA用于表示C对A的串扰，其它同理，这个值主要与测序信号激光波长相关，通常可认为是定值或恒值。通过同一循环内两两碱基类型组合的荧光亮点亮度的差值，得到对应碱基类型组合的通道间串扰干扰，如此，通过基于碱基类型对应的荧光亮点强度进行线性拟合，计算荧光亮点亮度按照碱基类型两两组合的比值输出以表示通道间串扰程度（Crosstalk）这一测序指标信息，以表征当前测序流程中通道间串扰干扰程度，以此作为碱基识别模型得到当前的碱基识别结果的解释性指标之一。

需要说明的是，执行本申请实施例所述的基于深度学习的基因测序的结果可视化方法的应用程序界面包括测序指标信息的显示区域，如图8所示，将抽样确定的各个循环内采集的荧光图像经传统的碱基识别算法进行处理，根据同一循环内碱基类型组合中荧光亮点亮度的比值，计算各循环中不同碱基类型的通道间串扰干扰程度，而跟随基因测序流程的进展，基于不同循环内荧光亮点亮度而计算得到的通道间串扰串扰程度的变化，可分别得到不同碱基类型组合间在基因测序流程的不同阶段的通道间串扰干扰程度这一测序指标信息的曲线图。找出通道间串扰干扰程度较大的碱基类型组合，使得基于深度学习的碱基识别模型输出碱基识别结果的测序质量能够被可视化表征，且可以根据通道间串扰干扰程度来指导基因测序实验和排查问题，为基因测序实验中光学和生化优化提供参考。

在一些实施例中，所述基于深度学习的基因测序的结果可视化方法，还包括：

通过所述预设的碱基识别算法输出碱基识别参照结果；

确定参考荧光图像的碱基识别参照结果与对应的待测荧光图像的碱基识别结果的差异；

若差异超过阈值，更换以所述待测荧光图像未经校正的荧光亮度信息为输入的碱基识别模型执行后续测序流程；或，更换以所述待测荧光图像经校正后的荧光亮度信息为输入的碱基识别模型执行后续测序流程。

碱基识别参考结果，是指与基于深度学习的碱基识别模型输出的碱基识别结果相同或对应的识别结果。与碱基识别结果相同，是指碱基识别模型输出的碱基识别结果的呈现形式相同，如碱基识别结果为包含全部碱基类型的碱基信号采集单元中心的相应位置处标识有碱基类型标签的坐标数据矩阵，碱基识别参考结果同样为包含全部碱基类型的碱基信号采集单元中心的相应位置处标识有碱基类型标签的坐标数据矩阵。与碱基识别结果对应，是指与碱基识别模型输出的碱基识别结果的呈现形式不同，但同样包含有可确定当前循环内各碱基信号采集单元的碱基类型的识别结果信息。

请参阅图9，为本申请实施例提供的基于深度学习的基因测序的结果可视化方法的流程图，包括如下步骤：

S21，基因测序仪实时获取荧光图像。

S22，通过基于深度学习模型训练后的碱基识别模型，对荧光图像进行特征提取和识别，得到碱基识别结果。

S23，输出碱基识别结果。

S24，判断荧光图像是否为抽样确定的参考荧光图像。若是，执行S25。

S25，通过传统的碱基识别算法对参考荧光图像进行处理，得到传统算法下的碱基识别参照结果及各项关键测序指标。

S26，输出传统算法下的碱基识别参照结果及各项关键测序指标。

在基因测序流程中，采用基于深度学习模型训练后的碱基识别模型对采集的待测荧光图像进行碱基识别，获得碱基识别结果的同时，通过抽样选取待测荧光图像作为参考荧光图像，通过预设的碱基识别算法通过对参考荧光图像进行处理输出碱基识别参考结果，通过传统的碱基识别算法获得的碱基识别参考结果与基于深度学习的碱基识别模型得到的碱基识别结果进行对比，确定参考荧光图像的碱基识别参照结果与对应的待测荧光图像的碱基识别结果的差异，通过该差异可辅助识别基于深度学习的碱基识别模型的识别结果的偏差，从而可以表征当前碱基识别模型的碱基识别结果的可靠性程度，实现对碱基识别模型的测序结果质量评价的指导。如此，即保留了传统的碱基识别算法通过预设的算法算式对荧光图像进行处理来获得碱基识别结果可以获得相对更加稳定、可靠和识别结果可控的优势，同时也可以用相对较小的代价（计算资源的消耗）得到所需的关键测序指标和用于作为参照的碱基识别结果，通过这些关键测序指标，可以及时地反映出基因测序流程中可能出现的样本质量问题、实验环境问题、深度学习模型的泛化能力问题，用以指导基因测序实验和排查问题。

需要说明的是，在本申请发明人提出的基于传统的碱基识别算法并行对抽样确定的参考荧光图像进行处理，以输出测序指标信息的技术教导下，测序指标信息的数量、类型、显示形式等均可以有各种变化。

在一些实施例中，测序指标信息还包括各循环的所述待测荧光图像的图像质量指标信息、所述待测荧光图像的背景亮度信息、所述待测荧光图像的亮点亮度分布直方图。图像质量指标信息可以是各种已知的能够对图像质量进行评价的参数类型，如亮度均匀性、分辨率等，图像质量指标信息、图像的背景亮度信息以及亮点亮度分布直方图，可以是结合图像处理技术领域中已知的图像处理算法得到，在此不做赘述。

需要说明的是，本申请实施例中，测序指标信息不限于通过传统的碱基识别算法对参考荧光图像进行亮度信息提取和处理得到，还可以包括能够表征基因测序实验环境、条件的各种指标信息。

获取测序设备的工作性能参数，基于所述工作性能参数输出其它测序指标信息；所述其它测序指标信息包括芯片旋转角度、芯片偏移量。

测序设备具体可以是指基因测序仪。将测序设备的工作性能参数作为其它测序指标信息，可以对基因测序流程的测试实验环境、条件的问题进行排查，本实施例中，其它测序指标信息包括芯片旋转角度、芯片偏移量。

需要说明的是，执行本申请实施例所述的基于深度学习的基因测序的结果可视化方法的应用程序界面中，可以显示有多个测序指标信息分别对应的待选操作按键，所述基于深度学习的基因测序的结果可视化方法，还包括：

获取对目标类型的测序指标信息的选定指令，根据所述选定指令在测序指标信息的显示区域显示所述目标类型的测序指标信息的详细信息。

本实施例中，在基因测序流程中，通过采用基于深度学习的碱基识别模型进行识别并输出对应的碱基识别结果的同时，通过应用程序界面显示通过传统的碱基识别算法对抽样确定的参考荧光图像进行处理而输出的各项测序指标信息，提供用户选定想要查阅的测序指标信息，以辅助实时了解当前碱基识别模型的碱基识别结果的可靠性程度。

本申请另一方面，提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现本申请任一实施例所述的基于深度学习的基因测序的结果可视化方法的步骤。

其中，所述计算机程序产品中，实现该方法各步骤的计算机程序的程序模块架构的可选实现形式为基于深度学习的基因测序的结果可视化装置。请参阅图10，所述基于深度学习的基因测序的结果可视化装置包括：获取模块311，用于获取针对测序芯片采集的包含碱基信号采集单元的待测荧光图像。基于深度学习的碱基识别模型312，用于将所述待测荧光图像作为输入，通过所述碱基识别模型对所述待测荧光图像进行特征提取和识别，输出各所述待测荧光图像分别对应的碱基识别结果；其中，所述碱基识别结果包括各所述碱基信号采集单元位置处对应所属碱基类型的识别结果。抽样模块313，用于基于对所述待测荧光图像进行抽样确定参考荧光图像。测序指标模块314，用于通过预设的碱基识别算法对所述参考荧光图像进行亮度信息提取和处理，输出所述参考荧光图像对应的测序指标信息，作为所述碱基识别模型的可视化参考信息；其中，所述测序指标信息包括如下至少之一：荧光亮点个数信息、荧光亮点亮度值信息、不同碱基类型对应通道的通道间串扰比例信息、循环间串扰比例信息。

可选的，所述测序指标模块314，具体用于确定所述参考荧光图像中的荧光亮点个数，根据同一循环内与不同碱基类型对应的多张所述参考荧光图像中所述荧光亮点个数的和，得到表征当前测序流程中有效碱基信号采集单元数量的可视化参考信息。

可选的，所述测序指标模块314，具体用于确定所述参考荧光图像中的荧光亮点亮度，根据同一循环内与不同碱基类型对应的多张所述参考荧光图像中所述荧光亮点亮度的均值，得到表征当前测序流程中有效碱基信号采集单元的信号强度的可视化参考信息。

可选的，所述测序指标模块314，具体用于确定所述参考荧光图像中的荧光亮点位置，统计同一循环内指定碱基类型的荧光亮点在对应通道的亮度平均值，得到表征当前测序流程中碱基有效反应轮数趋势的可视化参考信息。

可选的，所述测序指标模块314，具体用于确定所述参考荧光图像中的荧光亮度位置，统计同一循环内指定碱基类型的荧光亮点在对应通道的亮度平均值，根据先后两个循环的所述指定碱基类型的荧光亮点的亮度平均值的比值，得到表征当前测序流程中测序信号激光器的功率影响的可视化参考信息。

可选的，所述测序指标模块314，具体用于确定所述参考荧光图像中的荧光亮点亮度，计算同一循环内与不同碱基类型对应的多张所述参考荧光图像分别对应的荧光亮点的亮度，并根据相邻的多个循环内同一碱基类型的所述荧光亮点亮度的变化，计算各循环的超前反应率/滞后反应率，得到表征当前测序流程中循环间串扰干扰程度的可视化参考信息。

可选的，所述测序指标模块314，具体用于确定所述参考荧光图像中的荧光亮点亮度，根据同一循环内与不同碱基类型对应的多张所述参考荧光图像中所述荧光亮点亮度按照碱基类型两两组合计算比值，得到表征当前测序流程中通道间串扰干扰程度的可视化参考信息。

可选的，所述测序指标模块314，还用于通过所述预设的碱基识别算法输出碱基识别参照结果；确定参考荧光图像的碱基识别参照结果与对应的待测荧光图像的碱基识别结果的差异；若差异超过阈值，更换以所述待测荧光图像未经校正的荧光亮度信息为输入的碱基识别模型执行后续测序流程；或，更换以所述待测荧光图像经校正后的荧光亮度信息为输入的碱基识别模型执行后续测序流程。

可选的，所述测序指标信息还包括各循环的所述待测荧光图像的图像质量指标信息、所述待测荧光图像的背景亮度信息、所述待测荧光图像的亮点亮度分布直方图。

可选的，所述测序指标模块314，还用于获取测序设备的工作性能参数，基于所述工作性能参数输出其它测序指标信息；所述其它测序指标信息包括芯片旋转角度、芯片偏移量。

需要说明的是：上述实施例提供的基于深度学习的基因测序的结果可视化装置在通过深度学习模型执行基因测序同时，利用传统碱基识别算法输出测序指标信息以辅助将深度学习模型的基因测序结果进行可视化展示的过程中，仅以上述各程序模块的划分进行举例说明，在实际应用中，可以根据需要而将上述处理分配由不同的程序模块完成，即可将装置的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分方法步骤。另外，上述实施例提供的基于深度学习的基因测序的结果可视化装置与基于深度学习的基因测序的结果可视化方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本申请另一方面，还提供一种基因测序设备。请参阅图11，为基因测序设备的一个可选的硬件结构示意图，所述基因测序设备包括处理器212及与所述处理器212连接的存储器211，存储器211内存储有用于实现本申请任一实施例提供的基于深度学习的基因测序的结果可视化方法的计算机程序，以使得相应所述计算机程序被所述处理器执行时，实现本申请任一实施例提供的基于深度学习的基因测序的结果可视化方法的步骤。加载有相应计算机程序的基因测序设备与对应的方法实施例具有相同的技术效果，为避免重复，这里不再赘述。

本申请实施例另一方面，还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述基于基于深度学习的基因测序的结果可视化方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-OnlyMemor，简称ROM)、随机存取存储器(RandomAccessMemory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机、计算机，服务器，空间组学测序平台、基因测序仪、或网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围之内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于深度学习的基因测序的结果可视化方法，其特征在于，包括：

基于对所述待测荧光图像进行抽样确定参考荧光图像；

2.如权利要求1所述的基于深度学习的基因测序的结果可视化方法，其特征在于，所述输出所述参考荧光图像对应的测序指标信息，作为所述碱基识别模型的可视化参考信息，包括：

3.如权利要求1所述的基于深度学习的基因测序的结果可视化方法，其特征在于，所述输出所述参考荧光图像对应的测序指标信息，作为所述碱基识别模型的可视化参考信息，包括：

4.如权利要求1所述的基于深度学习的基因测序的结果可视化方法，其特征在于，所述输出所述参考荧光图像对应的测序指标信息，作为所述碱基识别模型的可视化参考信息，包括：

5.如权利要求1所述的基于深度学习的基因测序的结果可视化方法，其特征在于，所述输出所述参考荧光图像对应的测序指标信息，作为所述碱基识别模型的可视化参考信息，包括：

6.如权利要求1所述的基于深度学习的基因测序的结果可视化方法，其特征在于，所述输出所述参考荧光图像对应的测序指标信息，作为所述碱基识别模型的可视化参考信息，包括：

7.如权利要求1所述的基于深度学习的基因测序的结果可视化方法，其特征在于，所述输出所述参考荧光图像对应的测序指标信息，作为所述碱基识别模型的可视化参考信息，包括：

8.如权利要求1至7中任一项所述的基于深度学习的基因测序的结果可视化方法，其特征在于，还包括：

通过所述预设的碱基识别算法输出碱基识别参照结果；

9.如权利要求1至7中任一项所述的基于深度学习的基因测序的结果可视化方法，其特征在于，所述测序指标信息还包括各循环的所述待测荧光图像的图像质量指标信息、所述待测荧光图像的背景亮度信息、所述待测荧光图像的亮点亮度分布直方图；或，

所述基于深度学习的基因测序的结果可视化方法，还包括：

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至9中任一项所述方法的步骤。

11.一种基因测序设备，包括存储器、处理器及存储在所述存储器上的计算机程序，其特征在于，所述处理器执行所述计算机程序以实现如权利要求1至9中任一项所述方法的步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至9中任一项所述方法的步骤。