CN117351485B

CN117351485B - 基因测序训练数据集的增强方法及装置、设备及存储介质

Info

Publication number: CN117351485B
Application number: CN202311642892.0A
Authority: CN
Inventors: 周祎楠; 彭宽宽; 陈伟; 王谷丰; 赵陆洋
Original assignee: Shenzhen Sailu Medical Technology Co ltd
Current assignee: Shenzhen Sailu Medical Technology Co ltd
Priority date: 2023-12-04
Filing date: 2023-12-04
Publication date: 2024-03-08
Anticipated expiration: 2043-12-04
Also published as: CN117351485A

Abstract

本发明公开一种基因测序训练数据集的增强方法及装置、设备及存储介质，所述方法包括:获取多次循环中的荧光图像，形成图像数据集；从所述图像数据集中，分别选取与多种碱基类型分别对应的多张荧光图像作为待截取荧光图像组，其中每一所述待截取荧光图像组中荧光图像对应的碱基类型包括至少两种不同的碱基类型；针对每一所述待截取荧光图像组，对每张荧光图像进行截取，分别得到每一所述待截取荧光图像组中每张荧光图像对应的子荧光图像；对与不同碱基类型对应的多张所述子荧光图像进行拼接，得到拼接后的样本荧光图像，将所述样本荧光图像加入训练样本集中。

Description

基因测序训练数据集的增强方法及装置、设备及存储介质

技术领域

本发明涉及基因技术领域，特别涉及一种基因测序训练数据集的增强方法及装置、计算设备及计算机可读存储介质。

背景技术

测序仪是一种广泛用于基因组测序的测序仪器，它可以快速、准确地测定DNA序列。目前测序仪的测序算法已经从不依赖数据集的传统测序算法发展到了依赖数据集进行训练得到基于深度学习的测序算法。深度学习是一种基于包括训练样本及标签的数据集对深度学习网络进行训练，在训练过程中以标签为训练目标训练深度学习网络，并获得训练样本对应的经过深度学习网络拟合的相似标签。因此，深度学习的效果取决于数据集与网络模型两个方面，其中数据集是基础，获得一个完备且具有表征能力的数据集更有利于提高基于深度学习的测序算法的碱基识别精度。

基因测序是指分析待测数据的DNA 片段的碱基序列，也就是腺嘌呤（A）、胸腺嘧啶（T）、胞嘧啶（C）与鸟嘌呤（G）的排列方式，基因测序的输入图像为包含多种碱基类型的碱基簇的图像。在基因样本染色后，在特定激光下激发荧光，被镜头捕捉。通过不同激光功率激发基因样本散发不同亮度的荧光，可以得到不同激光功率下捕获的四张荧光图像，即A碱基荧光图像、T碱基荧光图像、C碱基荧光图像及G碱基荧光图像。对捕获的荧光图像中的亮度进行分析以实现对待测数据中的每个碱基簇的碱基类别的识别。但由于不同激光功率下捕获的四张图像中，每张荧光图像只包含一种碱基类型的碱基的信息，信息量有限。而且由于激光功率不同，四张图像背景亮度也不同，会有高功率捕获图像整体比低功率捕获图像更亮的情况，这样就会造成不同碱基类型的荧光图像间的背景差距较大。在训练深度学习网络模型时由于训练样本间的较大的背景差异，会让深度学习网络模型更关注背景差异带来的分类结果，而不是基因簇本身亮度差异带来的分类结果，使深度学习网络模型不易收敛，从而增加了训练难度。

发明内容

为了解决现有存在的技术问题，本发明实施例提供一种基因测序训练数据集的增强方法、装置、设备及计算机可读存储介质，使训练样本中的信息更丰富，更有利于基于深度学习的基因测序模型的训练，从而减少训练难度。

第一方面，提供一种基因测序训练数据集的增强方法，包括：

获取多次循环中的荧光图像，形成图像数据集；

从所述图像数据集中，分别选取与多种碱基类型分别对应的多张荧光图像作为待截取荧光图像组，其中每一所述待截取荧光图像组中荧光图像对应的碱基类型包括至少两种不同的碱基类型；

针对每一所述待截取荧光图像组，对每张荧光图像进行截取，分别得到每一所述待截取荧光图像组中每张荧光图像对应的子荧光图像；

对与不同碱基类型对应的多张所述子荧光图像进行拼接，得到拼接后的样本荧光图像，将所述样本荧光图像加入训练样本集中。

第二方面，提供一种基因测序训练数据集的增强装置，包括：

获取模块，用于获取多次循环中的荧光图像，形成图像数据集；

选取模块，用于从所述图像数据集中，分别选取与多种碱基类型分别对应的多张荧光图像作为待截取荧光图像组，其中每一所述待截取荧光图像组中荧光图像对应的碱基类型包括至少两种不同的碱基类型；

截取模块，用于针对每一所述待截取荧光图像组，对每张荧光图像进行截取，分别得到每一所述待截取荧光图像组中每张荧光图像对应的子荧光图像；

拼接模块，用于对与不同碱基类型对应的多张所述子荧光图像进行拼接，得到拼接后的样本荧光图像，将所述样本荧光图像加入训练样本集中。

第三方面，提供一种计算设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行本申请实施例所提供的基因测序训练数据集的增强方法的步骤。

第四方面，提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行本申请实施例所提供的基因测序训练数据集的增强方法的步骤。

上述实施例所提供的基因测序训练数据集的增强方法及装置、基因测试仪、计算机可读存储介质，从采集的数据集中选取多种碱基类型分别对应的多张荧光图像作为待截取荧光图像组，每一所述待截取荧光图像组中荧光图像对应的碱基类型包括至少两种不同的碱基类型，然后在每个待截取荧光图像组中的荧光图像上截取子荧光图像，这样得到多张子荧光图像，这多张子荧光图像对应的碱基类型也是多种碱基类型，对这多张子荧光图像拼接后得到拼接后的样本荧光图像，这样拼接后的样本荧光图像的碱基类型包括多种碱基类型。因此，拼接后的样本荧光图像的碱基类型更丰富，从而使每个训练样本的信息更丰富，更有利于基于深度学习的基因测序模型的训练；而且由于拼接后的样本荧光图像的碱基类型包括多张碱基类型，拼接后的样本荧光图像中的背景亮度包括不同激光功率下的图像背景亮度，这样可以减少每个训练样本间的背景差异，以减少训练样本间的背景差异对碱基分类的影响，从而在训练基于深度学习的基因测序模型时，可以加快模型的收敛。

附图说明

图1为一实施例中基因测序训练数据集的增强方法的应用环境图；

图2为一实施例中基因测序训练数据集的增强方法的流程图；

图3为一实施例中拼接子图像的示意图；

图4为一实施例中截取的子荧光图像的示意图；

图5为一实施例中截取子标签图像的示意图；

图6为一实施例中拼接后的标签图像的示意图；

图7为一实施例中基因测序训练数据集的增强装置的示意图；

图8为一实施例中计算设备的结构示意图。

具体实施方式

以下结合说明书附图及具体实施例对本发明技术方案做进一步的详细阐述。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明的保护范围。本文所使用的术语“和／或”包括一个或多个相关的所列项目的任意的和所有的组合。

在以下的描述中，涉及到“一些实施例”的表述，其描述了所有可能实施例的子集，但是应当理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

基因测序是指分析待测数据的DNA 片段的碱基序列，也就是腺嘌呤（A）、胸腺嘧啶（T）、胞嘧啶（C）与鸟嘌呤（G）的排列方式。目前普遍使用荧光标记的方法进行基因测序，基因测序光学系统用激光激发测序芯片上荧光标记物产生荧光，并收集荧光信号，四种碱基结合不同的荧光标记物而产生四种不同的荧光波段，以此识别碱基。

二代测序技术利用不同的荧光分子具有不同的荧光发射波长，当这些荧光分子受到激光照射时，它们会发出相应波长的荧光信号，通过在激光照射后使用滤光片来选择性地过滤掉非特定波长的光线，以获取到特定波长的荧光信号，因此通过获取荧光信号，对荧光信号进行分析可以识别出碱基类型。主要包括样品制备、簇生成、测序及数据分析。

样品制备：将需要测序的DNA样品进行提取和纯化处理，然后进行DNA片段化及适配体连接。在可选示例中，通常采用超声波或限制性内切酶将DNA样品进行切割，将DNA样品切割成较小的大量的DNA片段。然后在在DNA片段两端连接适配体，适配体包含特定序列用于后续连接和测序反应。

簇生成：该过程是对DNA片段进行扩增形成固定的DNA片段以便于后续将一个DNA片段形成一个碱基簇。在可选示例中，具体地，通过聚合酶链式反应（Polymerase ChainReaction，PCR）或桥式扩增等方法将DNA片段进行扩增，使得每个DNA片段形成数以百万计的复制品，将扩增的DNA片段固定在固定板上。每个DNA片段在固定板上形成一个独立的簇。

测序，是指针对测序芯片上的每个碱基簇进行测序读段，测序加进带有荧光标记dNTP测序引物，dNTP化学式的一个端连接了叠氮基团，可以在测序的链延伸时候阻止聚合，确保一个循环（cycle）只能延长一个碱基，对应生成一个测序读段，也即边合成边测序。

在对测序芯片Flowcell上的每个碱基簇进行测序读段时，测序时加进带有荧光标记的测序引物，通过引物识别和链延伸等技术对固定的DNA片段进行测序反应，每个DNA片段会在测序反应中逐个添加碱基，并利用荧光信号记录每个碱基的顺序。一个基因分子含有多个碱基，测序时，其中一个碱基会被接上一个荧光标记物，荧光标记物受激光激发会产生荧光。其中不同的碱基有不同的感光信号（例如荧光信号）。

然后使用相机捕获测试芯片上的电荷耦合器件（CCD）上产生的荧光信号的荧光图像。基因测序仪用激光激发基因测序芯片上荧光标记物产生荧光，并收集荧光信号，四种碱基结合不同的荧光标记物而产生四种不同的荧光波段。也即四种碱基类型的荧光图像。

基因测序仪还可包括光学平台，光学平台可包括操作台和相机，其中，测序芯片可置于操作台上，通过相机对测序芯片进行拍照可以得到荧光图像，在一张荧光图像中有很多荧光点，荧光图像中的一个荧光点代表一个碱基簇发出的荧光。

基因测序仪的成像方式可以是四通道成像系统或者双通道成像系统。对于双通道成像系统，每个相机需要在测试芯片的同一位置曝光两次。对于四通道成像系统，每个通道的相机在样品同一位置拍摄一次，分别得到四种碱基类型的荧光图像。例如分别得到A碱基类型的荧光图像、分别代表着A碱基类型的荧光图像、C碱基类型的荧光图像、G碱基类型的荧光图像及T碱基类型的荧光图像。由于通过在激光照射后使用滤光片来选择性地过滤掉非特定波长的光线，以获取到特定波长的荧光信号，则每种碱基类型对应不同的荧光信号，在同一个循环（Cycle）反应中，同一类型碱基簇在其对应的类别碱基类型发光的亮度远远大于其它类别的碱基，每个通道发光的碱基簇理论上不会有重复。

基因测序仪获取到荧光图像后，会对采集的图像进行基因图像重构，基因图像配准、基因碱基识别（基因basecal），从而获取基因序列。

其中基因图像重构用于提高荧光图像的分辨率，以提高图像的清晰度，以减小样本间的串扰影响。基因图像重构包括但不限于去卷积等常规操作。

基因图像配准是对四个碱基类型的荧光图像进行校正，使四个碱基类型的荧光图像能够重合，才能提取到同一个位置的4个通道的荧光亮度，便于后续的碱基识别。基因图像配准包括但不限于同一通道的图像配准、全局或局部的仿射配准。

基因识别过程是根据配准后的图像，判断图像中的碱基簇属于A、C、G、T四种碱基的某一种。待测数据经过基因识别后，待测数据息从数字图像转化为A、C、G、T四种碱基的序列信息，即为样本的DNA序列结果，以供后续分析与评估。

数据分析：根据图像数据和序列信息进行测序数据的分析和解读。将序列信息与参考基因组进行比对用于突变识别。

对一个待测数据的测序的过程称为一次运行Run，一个待测数据的测序过程是由多个循环（Cycle)组成，一个循环对应一个反应周期，也即对应测序芯片中的一次碱基类型的识别。测序时，是边合成边测序。在一次循环中，数以千万的碱基簇被同时测序。

一个待测数据包括很多个DNA片段，在上述测序过程中，每个DNA片段会添加一个碱基，因此待测数据的DNA的碱基序列的长度决定了循环的次数。每一循环中，基因测序仪可得到ACGT四个碱基类型各一张荧光图像，在对待测数据进行测序时，基因测序仪能够获取到多个循环的ACGT通道的荧光图像。

参阅图1，为一实施例中基因测序训练数据集的增强方法的应用环境图。基因测序训练数据集的增强方法应用于基因测序仪，基因测序仪还可包括操作台和相机，其中测序芯片可置于操作台上，基因测序芯片上有按照阵列排列或随机分布的若干碱基簇。通过染色试剂，在测序反应时对不同类型的碱基簇会分别被接上不同的荧光标记物之一，这些荧光标记物通过激光照射后会发出荧光信号，通过滤光片选择性地过滤掉非特定地波长地荧光信号，以获取特定波长的荧光信号。不同的荧光标记物中的荧光分子具有不同的荧光发射波长，这样不同的碱基簇对应不同的荧光信号。通过相机获取荧光图像，对荧光图像进行分析以对每个碱基簇的碱基类别进行识别。其中相机可以是光学显微镜。

请参阅图2，为本申请一实施例提供的基因测序训练数据集的增强方法的流程图。基因测序训练数据集的增强方法应用于计算设备中，该基因测序训练数据集的增强方法包括如下步骤：

S11、获取多次循环中的荧光图像，形成图像数据集。

对一个待测数据的测序的过程称为一次运行Run，一个待测数据的测序过程是由多个循环（Cycle)组成，一个循环对应一个反应周期，也即对应测序芯片中的一次碱基类型的识别。测序时，是边合成边测序。在一次循环中，数以千万的碱基簇被同时测序。例如一个基因样本被打断成一万条短链，每条短链的长度是100个碱基，那么就需要100个循环的测序反应进行碱基类型的识别。在每次循环下，这一万条短链的顶端的碱基在测序芯片上进行测序反应，基因测序仪的相机调整相机视野，捕获该次循环下的拍摄视野范围内所对应的测序芯片上这一万条短链的顶端的碱基簇的荧光图像,其中一个碱基簇对应一个read,那么此时就有一万条read。

基因测序仪的测序芯片上有按照阵列排列或随机分布的若干碱基簇。通过染色试剂，在测序反应时不同类型的碱基簇会分别被接上不同的荧光标记物之一，这些荧光标记物通过不同功率的激光照射后会发出不同的荧光信号。由于通过在激光照射后使用滤光片来选择性地过滤掉非特定波长的光线以获取到特定波长的荧光信号，则每种碱基类型对应不同的荧光信号，在同一个循环（Cycle）反应中，同一类型碱基簇在其对应的类别碱基类型发光的亮度远远大于其它类别的碱基，每个通道发光的碱基簇理论上不会有重复。在获取每种碱基类型的荧光图像时，由于采用不同功率的激光去激发荧光标记物产生不同的荧光信号，因此这每种碱基类型的荧光图像的图像背景亮度也不同，会有高功率捕获图像整体比低功率捕获图像更亮。

在一次循环中，利用基因测序仪的相机，捕获该次循环下的拍摄视野范围内所对应的测序芯片上目标位置区域的荧光图像。在每个循环中，基因测序仪的相机拍摄一次，可以得到多种碱基类型对应的荧光图像，例如A碱基类型的荧光图像、C碱基类型的荧光图像、G碱基类型的荧光图像及T碱基类型的荧光图像。例如基因测序仪的成像系统是四通道的成像模式，则在一个循环中，在该次循环的视野拍摄范围内拍摄一次，可以得到四种碱基类型的荧光图像。

因此，通过采集多种多样的基因样本，并采集各个基因样本下的多次循环下的荧光图像，从而形成图像数据集。基因样本越丰富，获取到的荧光图像的信息就越丰富。

S12、从所述图像数据集中，分别选取与多种碱基类型分别对应的多张荧光图像作为待截取荧光图像组。

在本实施例中，每一待截取荧光图像组中荧光图像对应的碱基类型包括至少两种不同的碱基类型。在每一截取荧光图像组中，一种碱基类型的荧光图像可以是一张或者多张。例如从图像数据集中选取了五张荧光图像形成一个待截取图像组，其中A碱基类型的荧光图像有2张、C、G、T碱基类型的荧光图像各有1张。可以从各个基因样本对应的多次循环中的荧光图像中随机选取多张荧光图像形成一个待截取图像组，只要保证待截取图像组中荧光图像对应的碱基类型包括多种碱基类型即可。待截取图像组中的荧光图像可以是来自同一基因样本，也可以是来自不同的基因样本。在数据集中，每张荧光图像对应一种碱基类型。

S13、针对每一待截取荧光图像组，对每张荧光图像进行截取，分别得到每一待截取荧光图像组中每张荧光图像对应的子荧光图像。

在本实施例中，由于每一待截取荧光图像组中的荧光图像对应的碱基类型包括所述多种碱基类型，在每一待截取荧光图像组中截取子荧光图像时，得到每张子荧光图像对应的碱基类型与每张子荧光图像对应的荧光图像的对应的碱基类型相同。例如图3所示，子荧光图像A1从一张碱基类型为A的荧光图像上截取的，那么子荧光图像A1对应的碱基类型是A。这样对多张荧光图像截取，得到多张子荧光图像，这多张子荧光图像对应的碱基类型也是多种碱基类型。

S14、对与不同碱基类型对应的多张子荧光图像进行拼接，得到拼接后的样本荧光图像，将所述样本荧光图像加入训练样本集中。

在一些实施例中，所述对与不同碱基类型对应的多张所述子荧光图像进行拼接，得到拼接后的样本荧光图像，将所述样本荧光图像加入训练样本集中包括：

获取用于对截取的图像进行拼接的预设排列方式，其中/>大于1，/>大于1，/>指示宽度位置上的子荧光图像数量，/>指示长度位置上的子荧光图像数量；从所述截取得到的所有子荧光图像中随机选取/>数量的子荧光图像，其中/>数量的子荧光图像对应的碱基类型包括多种碱基类型。

如图3所示，为一实施例中拼接子荧光图像的示意图。预设的样本荧光图像的大小为排列方式，则需要获取四张荧光图像进行截取，这四张荧光图像分别是A、C、G、T碱基类型的荧光图像各一张。

在选取子荧光图像进行拼接时，若选取数量是NUM，则可以依次记录每次选取的子荧光图像的碱基类型，若记录的碱基类型没有包括多种碱基类型，则再从数据集中继续选取记录的碱基类型中所缺少的碱基类型的子荧光图像，直至达到选取数量NUM。

在本实施例中，拼接后的样本荧光图像是基于多张子荧光图像拼接得到的，多张子荧光图像对应的碱基类型也是多种碱基类型，因此拼接后的样本荧光图像的碱基类型包括多种碱基类型。例如，如图3所示，拼接后的样本荧光图像是由子荧光图像A1、A2、A3、A4拼接得到的，其中子荧光图像A1的碱基类型是A，子荧光图像A2的碱基类型是C，子荧光图像A3的碱基类型是G，子荧光图像A4的碱基类型是T。因此，拼接后的样本荧光图像的碱基类型包括A、C、G、T四种碱基类型，拼接后的样本荧光图像中的背景亮度包括不同激光功率下的图像背景亮度。

在得到拼接后的样本荧光图像，将拼接后的样本荧光图像加入训练样本集中，返回继续从所述各个基因样本对应的多次循环中的荧光图像中选取多个待截取荧光图像组以进行拼接得到下一张拼接后的样本荧光图像，直至满足预设终止条件，得到所述训练样本集中多张拼接后的样本荧光图像。

在上述实施例中，从采集的数据集中选取多种碱基类型分别对应的多张荧光图像作为待截取荧光图像组，每一所述待截取荧光图像组中荧光图像对应的碱基类型包括至少两种不同的碱基类型，然后在每个待截取荧光图像组中的荧光图像上截取子荧光图像，这样得到多张子荧光图像，这多张子荧光图像对应的碱基类型也是多种碱基类型，对这多张子荧光图像拼接后得到拼接后的样本荧光图像，这样拼接后的样本荧光图像的碱基类型包括多种碱基类型。因此，拼接后的样本荧光图像的碱基类型更丰富，从而使每个训练样本的信息更丰富，更有利于基于深度学习的基因测序模型的训练；而且由于拼接后的样本荧光图像的碱基类型包括多张碱基类型，拼接后的样本荧光图像中的背景亮度包括不同激光功率下的图像背景亮度，这样可以减少每个训练样本间的背景差异，以减少训练样本间的背景差异对碱基分类的影响，从而在训练基于深度学习的基因测序模型时，可以加快模型的收敛。

在一些实施例中，所述对与不同碱基类型对应的多张所述子荧光图像进行拼接，得到拼接后的样本荧光图像，将所述样本荧光图像加入训练样本集中，包括：

从同一所述待截取荧光图像组和/或从多个所述待截取荧光图像组中，选取与不同碱基类型对应的多张子荧光图像进行拼接，得到拼接后的样本荧光图像，将所述样本荧光图像加入训练样本集中。

同一待截取荧光图像组中的荧光图像至少部分位于不同的循环中及/或至少部分位于相同的循环中。

例如，在一可选示例中，在一个待截取图像组中有6张荧光图像，在这6张荧光图像中部分位于同一循环中，部分位于不同的循环中。这6张子荧光图像可以包括位于基因样本B对应的第一次循环下的A碱基类型对应的荧光图像、第一次循环下的C碱基类型对应的荧光图像、第四次循环下的T碱基类型对应的荧光图像、第七次循环下的T碱基类型对应的荧光图像、第十一次循环下的G碱基类型对应的荧光图像、第五十次循环下的A碱基类型对应的荧光图像。例如，在另一可选示例中，在一个待截取图像组中有5张荧光图像，这5张荧光图像部分位于不同基因样本的多次循环中，这5张荧光图像包括基因样本B1对应的第一次循环下的A碱基类型对应的荧光图像、基因样本B2对应的第一次循环下的T碱基类型对应的荧光图像、基因样本B3对应的第五次循环下的A碱基类型对应的荧光图像、基因样本B1对应的第六次循环下的C碱基类型对应的荧光图像、基因样本B3对应的第十次循环下的G碱基类型对应的荧光图像。

在上述实施例中，随机选取的待截取荧光图像组可以是对不同的基因样本采集的荧光图像，通过选取不同的基因样本对应的荧光图像进行截取，便于后续组合拼接得到各种基因样本对应的荧光图像，及/或随机选取的待截取荧光图像组可以是在同一基因样本对应的不同的循环中及/或至少部分位于相同的循环中采集的荧光图像，这样待截取荧光图像组可以包括多个循环下的荧光图像，可以使每一训练样本包含多个基因样本的信息及/或同一基因样本下多个循环下的荧光图像，在训练基于深度学习网络的基因测序模型时，使用包含更多信息的训练样本，可以使模型学习时更关注碱基簇本身亮度差异带来的分类结果，从而使训练后的模型的分类能力更强。

在一些实施例中，在对待截取荧光图像组中的荧光图像进行截取时，截取的图像尺寸是可以基于随机数产生的。在所有子荧光图像中至少部分子荧光图像的图像尺寸是基于包括宽度及长度的随机数对产生的，所述针对每一所述待截取荧光图像组，对每张荧光图像进行截取，分别得到对应的子荧光图像包括：

获取预设拼接方式，所述预设拼接方式包括预设总子图像数量、预设宽度尺寸、预设长度尺寸；

生成数量不大于预设总子图像数量的随机数对，其中在预设拼接方式中位于同一行上的随机数对对应的长度之和小于或等于预设长度尺寸，及位于同一列上的随机数对对应的宽度之和小于或等于预设宽度尺寸；

基于生成的随机数对，确定预设拼接方式中每个位置处的图像尺寸；

基于每个位置处的图像尺寸，随机选取每一所述待截取荧光图像组中的荧光图像进行截取，得到每一所述待截取荧光图像组中每张荧光图像对应的子荧光图像。

具体地，预设拼接方式为排列方式，其中/>大于1，/>大于1，/>指示宽度位置上的子荧光图像数量，/>指示长度位置上的子荧光图像数量。需要随机选取/>数量的子荧光图像进行拼接，其中/>数量的子荧光图像对应的碱基类型包括多种碱基类型。随机生成/>排列方式的随机数对；在/>排列方式中的每行的随机数对中的长度之和小于预设长度尺寸，每列随机数对中的宽度之和小于预设宽度尺寸；基于所述/>排列方式的随机数对，确定/>排列方式中剩余/>个位置中每个位置对应的图像尺寸。其中/>排列方式的随机数对在预设拼接/>排列方式中的位置可以是随机分配的，在随机分配了/>排列方式的随机数对的位置后，就能确定剩余/>个位置中每个位置对应的图像尺寸。利用上述实施例提供的方法能获取到/>排列方式中每个位置处对应的图像尺寸。基于/>排列方式中每个位置处对应的图像尺寸，随机对每一待截取荧光图像组中的荧光图像进行截取，得到多张子荧光图像，其中截取得到的多张子荧光图像中包括至少一张每个位置处对应的子荧光图像。然后从同一所述待截取荧光图像组和/或从多个所述待截取荧光图像组中选取每个位置处对应的子荧光图像，其中选取的子荧光图像包括多种碱基类型。也就是说随机选取的/>数量的子荧光图像在/>排列方式中对应一个唯一位置。在其他实施例中，也可以直接生成/>排列方式的随机数对，只要使生成的随机数对在预设的/>排列方式中每行的随机数对中的长度之和小于预设长度尺寸，每列随机数对中的宽度之和小于预设宽度尺寸即可。

如图4所示，图4为一实施例中截取的子荧光图像的示意图；预设拼接方式为，则需要随机选取四张待截取的荧光图像，在预设拼接方式中每行有2个子荧光图像，每列有2个子荧光图像，则根据上述方式，需要生成1个随机数对，即如图4中的随机数对（x1,y1)，随机分配随机数对（x1,y1)的位置，若随机数对位于/>的预设拼接方式中的第一行第一列的位置，则在生成了随机数对（x1,y1)后，则对位于/>的预设拼接方式中的第一行第二列的位置处的图像尺寸为（x1,Y-y1），对位于/>的预设拼接方式中的第二行第一列的位置处的图像尺寸为A3（X-x1,y1)，对位于/>的预设拼接方式中的第二行第二列的位置处的图像尺寸为A4（X-x1,Y-y1)，这样预设拼接方式中每个位置处都对应一个图像尺寸，随机选取每个位置处的子荧光图像，如图4所示，在4张待截取的荧光图像中分别截取A1、A2、A3、A4、并将截取的A1、A2、A3、A4分别放在预设拼接方式中，就能得到拼接后的子荧光图像。可以理解的是，在其他实施例中，随机数对（x1,y1)也可以随机分配在预设拼接/>方式的第一行第二列、或第二行第一列、或第二行第二列的位置。

在一些实施例中，每张子荧光图像是在每张子荧光图像对应的荧光图像中的随机位置处截取得到的图像。

在待截取的荧光图像中截取子荧光图像时，每张子荧光图像在其对应的荧光图像中的截取位置是随机的。例如如图4所示，截取的A1、A2、A3、A4这四张子荧光图像分别在四张待截取的荧光图像的不同的位置处截取的。

在上述实施例中，在一张待截取的荧光图像的随机位置处截取其对应的子荧光图像，可以使每张拼接后的子荧光图像的训练信息更丰富，在训练基于深度学习网络的基因测序模型时，使用包含更多信息的训练样本，可以使模型学习时更关注碱基簇本身亮度差异带来的分类结果，从而使训练后的模型的分类能力更强。

在一些实施例中，拼接后的样本荧光图像是对每张子荧光图像，按照随机碱基类型排列顺序拼接得到的图像。

选取的子荧光图像对应的碱基类型包括多种碱基类型，即包括至少一张A碱基类型的子荧光图像、至少一张C碱基类型的子荧光图像、至少一张G碱基类型的子荧光图像、至少一张T碱基类型的子荧光图像。在对每种子荧光图像进行拼接排列时，可以按照随机碱基类型排列顺序拼接。在利用上述一些实施例提供的方法能获取到排列方式中每个位置处对应的图像尺寸，然后随机分配/>排列方式中每个位置处的子荧光图像。由于是随机分配每个位置处的子荧光图像，每个子荧光图像对应一种碱基类型，那么/>排列方式中，每个位置处对应的碱基类型也是随机的，这样得到的拼接后的样本荧光图像中的碱基类型也是随机排列的。例如，如图4所示，在预设拼接/>方式中，第一行第一列子荧光图像的碱基类型是G，第一行第二列子荧光图像的碱基类型是T，第二行第一列子荧光图像的碱基类型是A，第二行第二列子荧光图像的碱基类型是C。由于随机数对（x1,y1)也可以随机分配在预设拼接/>方式的第一行第二列、或第二行第一列、或第二行第二列的位置。因此，在预设拼接/>方式中，碱基类型的排列顺序还可以是其他的排列方式。

在上述实施例中，在对截取的子荧光图像进行拼接时，每张子荧光图像在拼接后的样本荧光图像的位置是随机分配的，那么拼接后的样本荧光图像的碱基类型也是随机排列的，这样就可以通过排列组合得到多样信息的训练样本，训练样本越丰富。使用包含更多信息的训练样本，可以使模型学习时更关注碱基簇本身亮度差异带来的分类结果，从而使训练后的模型的分类能力更强。

在一些实施例中，在每张拼接后的样本荧光图像中每种碱基类型对应的子荧光图像的图像面积相等，在每张拼接后的样本荧光图像中多种碱基类型对应的子荧光图像的拼接顺序相同。

具体地，对于一张拼接后的样本荧光图像而言，对于每种碱基类型，可以获取预设数量的待截取的荧光图像，然后按照设定的预设图像尺寸去截取每张待截取的荧光图像，然后按照预设碱基拼接顺序排列每个子荧光图像，然后对于其他拼接后的样本荧光图像也是按照上述方法拼接得到。由于按照预设图像尺寸去截取每种碱基类型对应的预设数量的待截取的荧光图像，这样得到的每种碱基类型对应的子荧光图像的图像面积相等。然后在拼接这些子荧光图像时，按照预设碱基拼接顺序排列每个子荧光图像，就能使每种碱基类型对应的子荧光图像在拼接后的样本荧光图像中的位置是固定的。

在上述实施例中，每张拼接后的样本荧光图像中每种碱基类型对应的子荧光图像的图像面积相等，在每张拼接后的样本荧光图像中多种碱基类型对应的子荧光图像的拼接顺序相同，可以使每张训练样本间的背景差距较小，在训练基于深度学习网络的基因测序模型时，可以使模型易收敛，减少训练困难。

在一些实施例中，所述方法还包括：

获取每张子荧光图像对应的标签图像；

根据每张子荧光图像对应的在荧光图像中的截取位置及每张子荧光图像的图像尺寸，在每张子荧光图像对应的标签图像中在与每张子荧光图像对应的截取位置相同的位置处，截取与每张子荧光图像的图像尺寸相同的图像，得到每张子荧光图像对应的子标签图像；

获取拼接后的样本荧光图像中每张子荧光图像的位置，根据每张子荧光图像的位置，将每张子荧光图像对应的子标签图像进行拼接，得到拼接后的样本荧光图像对应的拼接后的标签图像。

标签图像用于在训练过程中，以标签图像为训练目标训练基于深度学习网络的基因测序模型。由于训练样本采用拼接后的样本荧光图像，因此也需要对样本荧光图像中的子荧光图像对应的标签图像进行拼接，得到拼接后的标签图像，拼接后的标签图像就能在训练过程中指导基于深度学习网络的基因测序模型基于拼接后的样本荧光图像进行训练。其中标签图像随深度学习任务不同而不同。如果深度学习任务为提高基因图像分辨率，则标签图像为训练样本对应的超分辨率特征图。如果深度学习任务为基因图像分类，标签图像为训练样本对应真实的碱基类别的图像。

在上述提供的一个或者多个实施例中，在对待截取荧光图像组中的每张荧光图像进行截取时，可以记录每张子荧光图像在每张荧光图像的截取位置及每张子荧光图像的图像尺寸。例如，如图5所示，图5为一实施例中截取子标签图像的示意图，子荧光图像B1在荧光图像B的截取位置区域的四个顶点分别为（11,200），（11,702），（578,200），（578,702），其中（11,200）表示第11行第200列。标签图像E是待荧光图像B的标签图像，标签图像E与荧光图像B的图像大小相同。子标签图像E1是从标签图像E截取的子图像，子标签图像E1在标签图像E中的截取位置区域的四个顶点分别为（11,200），（11,702），（578,200），（578,702），即子标签图像E1在从标签图像E中的相对位置与子荧光图像B1在荧光图像B的相对位置相同，子标签图像E1与子荧光图像B1的图像尺寸大小也相同。如图6所示，图6为一实施例中拼接后的标签图像的示意图，子荧光图像A1对应的子标签图像是B1，子荧光图像A2对应的子标签图像是B2，子荧光图像A3对应的子标签图像是B3，子荧光图像A4对应的子标签图像是B4，其中子荧光图像A1在拼接后的样本荧光图像中的位置与子标签图像B1在拼接后的标签图像中的位置相同，同理其他子荧光图像拼接后的样本荧光图像中的位置与子荧光图像对应的子标签图像在拼接后的标签图像中的位置相同。

在上述实施例中，对于拼接后的标签图像的拼接方式与拼接后的样本荧光图像的拼接方式相同，而且拼接后的样本荧光图像中每个子荧光图像与拼接后的标签图像中每个子荧光图像对应的子标签图像的位置相同，因此训练样本采用拼接后的样本荧光图像，拼接后的标签图像就能在训练过程中指导基于深度学习网络的基因测序模型基于拼接后的样本荧光图像进行训练，从而提高模型收敛的速度，减少训练的难度。

可以理解的是，在上述一个或者多个实施例中，得到拼接后的样本荧光图像可以是基于以下一种或者多种方式得到的：在待截取的荧光图像中截取子荧光图像的位置可以是随机位置或者固定位置；子荧光图像的图像尺寸可以是基于随机数生成的或者预设图像尺寸；子荧光图像在拼接后的样本荧光图像中的碱基类型排列顺序可以是随机顺序或者预设顺序。

请参阅图7，本申请一实施例提供一种基因测序训练数据集的增强装置，包括：获取模块21，用于获取多次循环中的荧光图像，形成图像数据集；选取模块22，用于从所述图像数据集中，分别选取与多种碱基类型分别对应的多张荧光图像作为待截取荧光图像组，其中每一所述待截取荧光图像组中荧光图像对应的碱基类型包括至少两种不同的碱基类型；截取模块23，用于针对每一所述待截取荧光图像组，对每张荧光图像进行截取，分别得到每一所述待截取荧光图像组中每张荧光图像对应的子荧光图像；拼接模块24，用于对与不同碱基类型对应的多张所述子荧光图像进行拼接，得到拼接后的样本荧光图像，将所述样本荧光图像加入训练样本集中。

可选的，拼接模块24还用于：从同一所述待截取荧光图像组和/或从多个所述待截取荧光图像组中，选取与不同碱基类型对应的多张子荧光图像进行拼接，得到拼接后的样本荧光图像，将所述样本荧光图像加入训练样本集中。

可选的，在所有子荧光图像中至少部分子荧光图像的图像尺寸是基于包括宽度及长度的随机数对产生的，截取模块23还用于：

生成不大于预设总子图像数量的随机数对，其中在预设拼接方式中位于同一行上的随机数对对应的长度之和小于或等于预设长度尺寸，及位于同一列上的随机数对对应的宽度之和小于或等于预设宽度尺寸；

可选的，每张子荧光图像是在每张子荧光图像对应的荧光图像中的随机位置处截取得到的图像。

可选的，拼接后的样本荧光图像是对每张子荧光图像，按照随机碱基类型排列顺序拼接得到的图像。

可选的，在每张拼接后的样本荧光图像中每种碱基类型对应的子荧光图像的图像面积相等，在每张拼接后的样本荧光图像中多种碱基类型对应的子荧光图像的拼接顺序相同，每种碱基类型对应的子荧光图像的在每张拼接后的样本荧光图像中位置相同。

可选的，拼接模块24还用于：

获取每张子荧光图像对应的标签图像；

本领域技术人员可以理解的是，图7中基因测序训练数据集的增强装置的结构并不构成对基因测序训练数据集的增强装置的限定，所述各个模块可以全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的控制器中，也可以以软件形式存储于计算机设备中的存储器中，以便于控制器调用执行以上各个模块对应的操作。在其他实施例中，基因测序训练数据集的增强装置中可以包括比图示更多或更少的模块。

请参阅图8，本申请实施例的另一方面,还提供了一种计算设备200，包括存储器3011和处理器3012，存储器3011存储有计算机程序，计算机程序被处理器执行时，使得处理器3012执行本申请上述任一实施例所提供的基因测序训练数据集的增强方法的步骤。计算设备200可包括计算设备(例如，台式计算机、膝上型计算机、平板计算机、手持式计算机、智能扬声器、服务器等)、移动电话(例如，智能电话、无线电话等)、可穿戴设备(例如，一对智能眼镜或智能手表)或类似设备。

其中处理器3012是控制中心，利用各种接口和线路连接整个计算机设备的各个部分，通过运行或执行存储在存储器3011内的软件程序和/或模块，以及调用存储在存储器3011内的数据，执行计算机设备的各种功能和处理数据。可选的，处理器3012可包括一个或多个处理核心；优选的，处理器3012可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户页面和应用程序等，调制解调处理器主要处理无线通讯。可以理解的是，上述调制解调处理器也可以不集成到处理器3012中。

存储器3011可用于存储软件程序以及模块，处理器3012通过运行存储在存储器3011的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器3011可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器3011可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器3011还可以包括存储器控制器，以提供处理器3012对存储器3011的访问。

本申请实施例另一方面，还提供一种存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行本申请上述任一实施例所提供的基因测序训练数据集的增强方法的步骤。

本领域普通技术人员可以理解实现上述实施例所提供的方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink）DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围应以所述权利要求的保护范围以准。

Claims

1.一种基因测序训练数据集的增强方法，其特征在于，包括：

获取多次循环中的荧光图像，形成图像数据集；

对与不同碱基类型对应的多张所述子荧光图像进行拼接，得到拼接后的样本荧光图像，将所述样本荧光图像加入训练样本集中；其中，所述样本荧光图像中子荧光图像分别是A、C、G、T碱基类型的荧光图像各一张；

获取所述样本荧光图像中每张子荧光图像对应的标签图像，基于所述标签图像分别截取各子荧光图像对应的子标签图像并拼接，得到所述样本荧光图像的标签图像；

其中，在所有子荧光图像中，至少部分子荧光图像的图像尺寸是基于包括宽度及长度的随机数对产生的；所述针对每一所述待截取荧光图像组，对每张荧光图像进行截取，分别得到对应的子荧光图像，包括：

2.如权利要求1所述的基因测序训练数据集的增强方法，其特征在于，所述对与不同碱基类型对应的多张所述子荧光图像进行拼接，得到拼接后的样本荧光图像，将所述样本荧光图像加入训练样本集中包括：

3.如权利要求1所述的基因测序训练数据集的增强方法，其特征在于，每张子荧光图像是在每张子荧光图像对应的荧光图像中的随机位置处截取得到的图像。

4.如权利要求1所述的基因测序训练数据集的增强方法，其特征在于，拼接后的样本荧光图像是对每张子荧光图像，按照随机碱基类型排列顺序拼接得到的图像。

5.如权利要求1所述的基因测序训练数据集的增强方法，其特征在于，在每张拼接后的样本荧光图像中每种碱基类型对应的子荧光图像的图像面积相等，在每张拼接后的样本荧光图像中多种碱基类型对应的子荧光图像的拼接顺序相同，每种碱基类型对应的子荧光图像的在每张拼接后的样本荧光图像中位置相同。

6.如权利要求1至5中任一项所述的基因测序训练数据集的增强方法，其特征在于，所述获取所述样本荧光图像中每张子荧光图像对应的标签图像，基于所述标签图像分别截取各子荧光图像对应的子标签图像并拼接，得到所述样本荧光图像的标签图像，包括：

获取每张子荧光图像对应的标签图像；

7.一种基因测序训练数据集的增强装置，其特征在于，包括：

拼接模块，用于对与不同碱基类型对应的多张所述子荧光图像进行拼接，得到拼接后的样本荧光图像，将所述样本荧光图像加入训练样本集中；其中，所述样本荧光图像中子荧光图像分别是A、C、G、T碱基类型的荧光图像各一张；

所述拼接模块，还用于获取所述样本荧光图像中每张子荧光图像对应的标签图像，基于所述标签图像分别截取各子荧光图像对应的子标签图像并拼接，得到所述样本荧光图像的标签图像；

在所有子荧光图像中，至少部分子荧光图像的图像尺寸是基于包括宽度及长度的随机数对产生的；所述截取模块，具体用于获取预设拼接方式，所述预设拼接方式包括预设总子图像数量、预设宽度尺寸、预设长度尺寸；生成不大于预设总子图像数量的随机数对，其中在预设拼接方式中位于同一行上的随机数对对应的长度之和小于或等于预设长度尺寸，及位于同一列上的随机数对对应的宽度之和小于或等于预设宽度尺寸；基于生成的随机数对，确定预设拼接方式中每个位置处的图像尺寸；基于每个位置处的图像尺寸，随机选取每一所述待截取荧光图像组中的荧光图像进行截取，得到每一所述待截取荧光图像组中每张荧光图像对应的子荧光图像。

8.一种计算设备，其特征在于，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至6任一项所述方法的步骤。

9.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至6任一项所述方法的步骤。