CN102676657A - 一种测序图像的识别系统及方法 - Google Patents
一种测序图像的识别系统及方法 Download PDFInfo
- Publication number
- CN102676657A CN102676657A CN2012101128003A CN201210112800A CN102676657A CN 102676657 A CN102676657 A CN 102676657A CN 2012101128003 A CN2012101128003 A CN 2012101128003A CN 201210112800 A CN201210112800 A CN 201210112800A CN 102676657 A CN102676657 A CN 102676657A
- Authority
- CN
- China
- Prior art keywords
- base
- class
- sequencer map
- signal intensity
- map picture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Investigating, Analyzing Materials By Fluorescence Or Luminescence (AREA)
Abstract
本发明涉及图像信息处理领域,提供了一种测序图像的识别系统。所述系统包括碱基处理单元、碱基矫正单元和碱基识别单元。所述碱基处理单元,用于根据荧光信号强度对每个碱基位置点上的碱基进行初步碱基识别,得不同碱基类,并确定所获得的每类碱基类的质心;所述碱基矫正单元,用于根据每个碱基位置点上的碱基到每类碱基类的质心的距离,得新的碱基类;所述碱基识别单元,用于通过新的碱基类对每个碱基位置点上的碱基进行精确碱基识别,得测序图像中每个碱基位置点上的碱基类型。本发明还提供了一种测序图像的识别方法。本发明的技术方案实现了测序图像中的碱基类型的快速且准确的识别。
Description
技术领域
本发明涉及图像信息处理领域,更具体地说,涉及一种测序图像的识别系统及方法。
背景技术
第二代测序技术的一个项关键技术就是碱基识别。在核酸测序过程中,根据碱基互补配对原则,采用不同颜色的荧光染料来标记的不同碱基(即携带标记物的碱基),使待测核酸的碱基与携带标记物的碱基发生反应,然后,利用不同颜色的激发光照射碱基,携带不同标记物的碱基在激发光的激发下,发出不同颜色的荧光,利用采图装置采集核酸测序的图像,得到测序图像,最后,对测序数据进行处理。其中,测序图像中每个碱基位置上的碱基在激发光的激发下发光,得到的图像会有不同的荧光信号,由于荧光染料不同,所以荧光信号强度不同。而对测序数据进行处理的核心就是识别测序图像中不同的碱基的荧光信号。一种荧光染料只标记一种碱基,一种激发光激发能够激发一种荧光染料发光,理论上每个碱基位置上的碱基只有一种荧光信号,根据每个碱基位置上的荧光信号强度,可以直接区分出荧光信号的类型,从而根据荧光信号的类型可以直接识别出对应的碱基。但是,由于荧光染料清洗不干净、激发光波长的区分度不明显(同一种激发光可能激发多种携带标记物的碱基发光)、beads(磁珠)结合tag(标签)不纯等原因造成同一碱基位置上会有多种的荧光信号。单纯从荧光信号很难区分该碱基位置上的碱基到底属于哪一种碱基。
现有技术中,在保证通量的情况下,测序图像有成千上万张,碱基识别速度的快慢直接影响到整个核酸检测的效率。现有技术方案中,碱基识别的方法包括如下步骤:A、获取每个位置上碱基的四色荧光的信号强度(每个位置上的碱基有四个信号强度值);B、将每个位置上的碱基至于四维空间中,得每个碱基在四维空间中的对应的点;C、在四维空间中随机选择四个点作为质心;D、计算各点到四个质心的距离,将点分类到距质心的距离最近的类中,直到将所有碱基对应的点都分到相应的类;E、根据已经分的类,再重新计算每个类的质心;F、重复步骤D和步骤E的操作,直到质心不再变化。此时,所分的四类分别代表四种碱基(A,G,C,T)。该技术方案中,随机选取四个点作为质心,在对每个碱基对应的点进行分类时,要多次重复,从而影响了碱基识别的速度。
因此,需要一种能够快速准确识别测序图像中碱基类型的测序图像的识别系统及方法。
发明内容
本发明的目的在于提供一种测序图像的识别系统及方法,旨在解决现有技术测序图像中碱基识别速度慢、碱基识别不准确等的问题。
为了实现发明目的,一种测序图像的识别系统包括:碱基处理单元、碱基矫正单元和碱基识别单元。其中:所述碱基处理单元,用于根据荧光信号强度对每个碱基位置点上的碱基进行初步碱基识别,得不同碱基类,并确定所获得的每类碱基类的质心,并将碱基类和其质心发给碱基矫正单元。所述碱基矫正单元,用于根据每个碱基位置点上的碱基到每类碱基类的质心的距离对每类碱基类进行调整,得新的碱基类,并将新的碱基类发给碱基识别单元。所述碱基识别单元,用于通过新的碱基类对每个碱基位置点上的碱基进行精确碱基识别,得测序图像中每个碱基位置点上的碱基类型。
其中,所述的碱基类型为能够一一对应实现碱基互补的碱基,该碱基类型无特殊限制,如A-U,A-T,G-C,优选为A、G、C、T或者A、G、C、U。
所述碱基处理单元包括分类模块和计算模块。其中,所述分类模块,用于根据荧光信号强度,将每个碱基位置点上的碱基归类到荧光信号强度最大的荧光信号代表的碱基所在的类,对碱基进行初步碱基识别,得不同碱基类,并将碱基类发给计算模块。所述计算模块,用于利用均值法获得每类碱基类的质心,得每类碱基类的质心。
所述碱基矫正单元包括距离度量模块和碱基归类模块。其中,所述距离度量模块,用于利用欧式距离度量每个碱基位置上的碱基到每类碱基类的质心的距离。所述碱基归类模块,与距离度量模块连接,用于获取每个碱基位置上的碱基到每类碱基类的质心的距离,并将该碱基位置上的碱基归类到距离其最近的质心所在的碱基类,得新的碱基类。
其中,所述系统还包括图像处理单元,用于获取测序图像并获取测序图像中每个碱基位置点上的碱基的荧光信号强度,并将每个碱基位置上的荧光信号强度发给碱基处理单元。
其中,所述图像处理单元包括图像获取模块和图像配准模块。其中,所述图像获取模块,用于从核酸检测装置中获取测序图像,并将获取的测序图像发给图像配准模块。所述图像配准模块,用于将测序图像进行图像配准,得每个碱基位置点上荧光信号强度。其中,所述的核酸检测装置用于根据碱基互补配对原则对核酸序列进行检测。
进一步的,所述图像处理单元还包括归一模块,与图像配准模块连接,用于将每个碱基位置上的荧光信号强度进行归一化处理。
进一步的,所述图像获取模块,用于通过USB接口、串口和红外接口中的任意一种获取测序图像。
进一步的,所述测序图像的识别系统,用于通过直接控制方式、中断控制方式、DMA控制方式和通道控制方式中的一种获取测序图像。
为了更好地实现发明目的,一种测序图像的识别方法包括如下步骤:步骤A、获取测序图像中每个碱基位置点上的碱基的荧光信号强度。步骤B、根据所述荧光信号强度对每个碱基位置点上的碱基进行初步碱基识别,得不同碱基类,并确定所获得的每类碱基类的质心。步骤C、根据每个碱基位置点上的碱基到每类碱基类的质心的距离对每类碱基类进行调整,得新的碱基类。步骤D、通过新的碱基类对每个碱基位置点上的碱基进行精确碱基识别,得测序图像中每个碱基位置点上的碱基类型。
其中,所述步骤B包括:B1、根据所述荧光信号强度,将每个碱基位置点上的碱基归类到荧光信号强度最大的荧光信号代表的碱基所在的类,对碱基进行初步碱基识别,得不同碱基类。B2、利用均值法获得每类碱基类的质心,得每类碱基类的质心。
其中,所述测序图像包括在同一采图位置上拍摄的多张测序图像。所述步骤A包括:A1、从核酸检测装置中获取测序图像。A2、将同一采图位置上的测序图像进行图像配准,得每个碱基位置点上的荧光信号强度。
进一步的,所述步骤A2之后还包括:步骤A3、将每个碱基位置上的荧光信号强度进行归一化处理。
其中,所述步骤C包括:步骤C1、利用欧式距离度量每个碱基位置上的碱基到每类碱基类的质心的距离。步骤C2、将碱基归类到距离其最近的质心所在的碱基类,得新的碱基类。
其中,所述荧光信号强度值在0到4095之间。
由上可知,本发明仅通过初步碱基识别和精确碱基识别,即可实现对于测序图像识别,从而大大提高了碱基识别的速度。
附图说明
图1是本发明一实施例中测序图像的识别系统结构示意图。
图2是本发明一实施例中测序图像的示意图。
图3是本发明一实施例中各碱基位置上不同荧光信号的强度示意图。
图4是本发明一实施例中碱基类的示意图。
图5是本发明一实施例中碱基处理单元的结构示意图。
图6是本发明一实施例中碱基矫正单元的结构示意图。
图7是本发明另一实施例中测序图像的识别系统的结构示意图。
图8是本发明一实施例中图像处理单元的结构示意图。
图9是本发明一实施例中测序图像的识别方法的方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。
本发明中荧光信号的种类无特殊限制,可以为2色荧光信号(同一个碱基位置用两个循环来检测),4色荧光信号(同一个碱基位置用一个循环来检测),8色荧光信号(同一个循环检测两个碱基位置)等等,但其原理相同,但其他多种荧光信号均属于本发明保护的范围。以下实施例仅以四色荧光信号为例。
在核酸测序过程中,采用不同颜色的荧光染料来标记不同的核苷酸,在生化领域,用碱基代表某类核苷酸,比如用碱基A代表腺嘌呤核苷酸。以下对核苷酸简称为碱基。
本发明提出第一实施例,一种测序图像的识别系统包括碱基处理单元、碱基矫正单元和碱基识别单元,如图1所示。以下将对所述单元进行详细说明。
(1)碱基处理单元1,用于根据荧光信号强度对每个碱基位置点上的碱基进行初步碱基识别,得不同碱基类,并确定所获得的每类碱基类的质心,并将碱基类和其质心发给碱基矫正单元2。
在核酸测序过程中,采用不同颜色的荧光染料来标记不同的核苷酸(称荧光标记的碱基,也称携带标记物的碱基),根据碱基互补配对原则,待测核酸的碱基与荧光标记的碱基进行互补配对,使待测核酸带上荧光染料标记物,对不同类型的荧光染料采用不同的激发光(包括激发光的波长不同)来激发荧光染料,荧光染料发光,然后,利用采图装置采集图像,得到测序图像。其中,一种的荧光染料标记一种核苷酸,当利用荧光照射时,使得每种通过碱基互补配对的碱基发出的荧光不同(包括荧光颜色不同,该荧光用荧光信号、荧光信号强度来度量)。最终使得每个碱基位置点上都有荧光信号,每种荧光信号代表一种碱基类型,但是由于目前技术中,同一碱基位置上有多种荧光信号。图3示出了同一位置上的碱基的四种荧光信号强度,每种颜色的曲线代表一种荧光信号,每种荧光信号强度值在图中显示的是曲线的高高低低,曲线上较高的点,对应的荧光信号强度大,曲线上较低的点,对应的荧光信号强度小。该图中,横坐标表示碱基位置,纵坐标表示荧光信号强度值,同一碱基位置上有四个荧光信号。经过初步识别得到的结果如图4中的a图所示,每个碱基位置点上的碱基进行初步识别,得不同碱基类。
所述荧光信号强度的度量方式无特殊限制。优选的,该荧光信号强度为该碱基位置点上该荧光信号亮度。优选的,该荧光信号强度为该碱基位置点上RGB的映射强度,即将RGB映射成亮度,先给出一示例亮度L=δ1*R+δ2*G+δ3*B,δ1+δ2+δ3=3,则可以得到该碱基位置点上RGB的映射强度,也即得到该碱基位置点上不同荧光信号的荧光信号强度。该荧光信号强度值无特殊限制,但为了实现更好的荧光信号区分,荧光信号强度值优选在0到4095之间。也即可以将亮度进行映射,得到荧光信号强度值在0到4095之间。
(2)碱基矫正单元2,用于根据每个碱基位置点上的碱基到每类碱基类的质心的距离对每类碱基类进行调整,得新的碱基类,并将新的碱基类发给碱基识别单元3。
新的碱基类是在碱基类的基础上进行的进一步精确分类,如图4中的b图所示,碱基矫正单元2重新归类(调整或舍弃了碱基处理单元1中碱基与其所在的碱基类的属性不符的碱基)。相对于图4中的a图,图4中的b图所示的碱基的分类更集中,每类碱基类几乎无重叠部分,也即碱基矫正单元2大大提高了每个碱基位置上碱基所在碱基类的准确性。
(3)碱基识别单元3,用于通过新的碱基类对每个碱基位置点上的碱基进行精确碱基识别,得测序图像中每个碱基位置点上的碱基类型。
每类新的碱基类代表一种碱基,通过碱基所在的碱基类实现对碱基位置上的碱基的识别。如图4所示,不同颜色的碱基类代表不同的碱基,每个碱基位置上的碱基属于某一类碱基类,从而实现了碱基的识别。
其中,本实施例中所述的四色荧光信号无特殊限制,优选为红、黄、绿、蓝四种荧光信号。
本实施例的技术方案通过碱基处理单元、碱基矫正单元和碱基识别单元实现了测序图像中碱基的快速且准确的识别。
本实施例中,碱基处理单元1可包括分类模块和计算模块,如图5所示。下面将对两个模块分别进行详细说明。
(1)分类模块11,用于根据荧光信号强度,将每个碱基位置点上的碱基归类到荧光信号强度最大的荧光信号代表的碱基所在的类,对碱基进行初步碱基识别,得不同碱基类,并将碱基类发给计算模块12。
分类模块11根据荧光信号强度值,将每个碱基位置上的碱基进行归类。以下对分类模块给出一优选的实施方案,当碱基位置上的几种荧光信号中,荧光信号强度最大的荧光信号至少有2个时,则认为该碱基为无法识别的碱基,该碱基不归类,当碱基位置上的几种荧光信号中,荧光信号强度最大的荧光信号只有一个,则将该碱基位置上的碱基归类到荧光信号强度最大的荧光信号代表的碱基所在的类,从而实现对所有碱基位置上的碱基的归类。如下给出一具体的示例,各碱基位置上的碱基的荧光信号强度分别为:1(1479.58,1214.52,1123.09,803.46),2(538.8,639.07,721.67,1034.47),3(1543.23,1543.23,1218.13,1220.96),4(1272.61,1554.82,875.48,918.86),5(997.94,815.69,1114.53,1171.08),6(913.73,764.51,1006.71,696.51),7(764.85,881.62,714.44,813.85),……n(xn,yn,zn,rn),……,m(xm,ym,zm,rm),其中,1,2,3,4,5,6,7,……,n……,m,……代表的是碱基位置,而碱基位置上对应的(xn,yn,zn,rn)是荧光信号强度,xn代表第一种荧光信号的荧光信号强度,yn代表第二种荧光信号的荧光信号强度,zn代表第三种荧光信号的荧光信号强度,rn代表第四种荧光信号的荧光信号强度。根据本技术方案对碱基进行归类,则1(1479.58,1214.52,1123.09,803.46)、……为一类,4(1272.61,1554.82,875.48,918.86)、7(764.85,881.62,714.44,813.85)、……为一类,6(913.73,764.51,1006.71,696.51)、……为一类,2(538.8,639.07,721.67,1034.47)、5(997.94,815.69,1114.53,1171.08)、……为一类,其中,3(1543.23,1543.23,1218.13,1220.96)、……被舍弃,得到四个碱基类。
对分类模块11给出另一优选的实施方案,当某个碱基位置上的碱基最大的多个荧光信号强度相等时,则将该碱基分别分类到多个最大的荧光信号对应的碱基类。各碱基位置上的碱基的荧光信号强度分别为:1(1479.58,1214.52,1123.09,803.46),2(538.8,639.07,721.67,1034.47),3(1543.23,1543.23,1218.13,1220.96),4(1272.61,1554.82,875.48,918.86),5(997.94,815.69,1114.53,1171.08),6(913.73,764.51,1006.71,696.51),7(764.85,881.62,714.44,813.85),……n(xn,yn,zn,rn),……,m(xm,ym,zm,rm),其中,1,2,3,4,5,6,7,……,n……,m,……表示的是碱基位置,而碱基位置上对应的(xn,yn,zn,rn)是荧光信号强度,xn代表第一种荧光信号的荧光信号强度,yn代表第二种荧光信号的荧光信号强度,zn代表第三种荧光信号的荧光信号强度,rn代表第四种荧光信号的荧光信号强度。根据本技术方案对碱基进行归类,则1(1479.58,1214.52,1123.09,803.46)、3(1543.23,1543.23,1218.13,1220.96)、……一类;3(1543.23,1543.23,1218.13,1220.96)、4(1272.61,1554.82,875.48,918.86)、7(764.85,881.62,714.44,813.85)、……一类;6(913.73,764.51,1006.71,696.51)、……一类;2(538.8,639.07,721.67,1034.47)、5(997.94,815.69,1114.53,1171.08)、……一类。
上述技术方案对碱基进行初步处理,该技术方案简单,且与现有技术方案相比,大大提高了准确性和效率。
(2)计算模块12,用于利用均值法获得每类碱基类的质心,得每类碱基类的质心。
采用均值法计算每类碱基类的质心mean,以下给出以示例,mean((x1+x2+……+xk)/k,(y1+y2+……+yk)/k,(z1+z2+……+zk)/k,(r1+r2+……+rk)/k),依次计算每类碱基类的质心,得每类碱基类的质心为mean1,mean2,mean3,mean4。
本技术方案中,能够简单且准确的获得每类碱基类的质心,从而保证了碱基处理单元的对每个碱基位置上碱基处理的精度和速度。为整个系统快速准确识别碱基奠定了基础。
本实施例中,碱基矫正单元2可包括距离度量模块和碱基归类模块,如图6所示。其中:
(1)距离度量模块21,用于利用欧式距离度量每个碱基位置上的碱基到每类碱基类的质心的距离。
度量每个碱基位置上的碱基到四类碱基类的质心的距离。其中,利用两点间的距离来计算碱基位置上的碱基到每类碱基类的质心的距离,优选的,该距离为欧式距离。
(2)碱基归类模块22,与距离度量模块连接,用于获取每个碱基位置上的碱基到每类碱基类的质心的距离,并将该碱基位置上的碱基归类到距离其最近的质心所在的碱基类,得新的碱基类。
针对碱基归类模块22,本实施例给出一示例,如某一碱基位置上的碱基的荧光信号强度N(xN,yN,zN,rN),每类碱基类的质心为mean1,mean2,mean3,mean4,碱基N到每类碱基类的质心的距离分别为N_mean1,N_mean2,N_mean3,N_mean4,假设N_mean1>N_mean2>N_mean3>N_mean4,则将碱基位置上的碱基N归类到质心为mean1的碱基类。
以下给出一优选的实施方案,碱基位置上的碱基所属的碱基类与该碱基位置上的碱基距离某碱基类的质心最近的碱基类,如果不属于同一类碱基类,则认为该碱基位置上的碱基为无效碱基,舍弃该碱基位置上的碱基;如果属于同一类碱基,则该碱基归类到该碱基类。
以下给出另一优选的实施方案,碱基位置上的碱基距离某类碱基类的质心最近,则将该碱基位置上的碱基归类到某碱基类,如果该碱基位置上的碱基距离至少两类碱基类的质心最近,则舍弃该碱基。
上述技术方案舍弃了部分由于测序反应、测序设备等本身原因造成同一碱基位置上的碱基的荧光信号的混淆而无法区分碱基,从而提高了系统的准确性和速度。
基于第一实施例,本发明提出第二实施例,本系统还可包括图像处理单元。如图7所示,所述图像处理单元0,用于获取测序图像中每个碱基位置点上的碱基的荧光信号强度,并将每个碱基位置上的荧光信号强度发给碱基处理单元1。
测序图像如图2所示,图像处理单元0获取测序图像并获取测序图像中每个碱基位置点上的荧光信号强度,如果测序图像为q色荧光采图得到的测序图像,则每个碱基位置上每个碱基有q个荧光信号,对应有q个荧光信号强度。其中,图2中a图为明场图,图2中b,c,d,e图均为荧光图。本实施例中的图像处理单元0从核酸检测装置中获取测序图像。该图像处理单元0,用于通过USB接口、串口和红外接口中的任意一种获取测序图像。优选的,图像处理单元采用USB接口获取测序图像。同时,该系统用于通过直接控制方式、中断控制方式、DMA控制方式和通道控制方式中的一种获取测序图像。该图像处理单元0可实时获取测序图像,也可根据需要随时获取测序图像。
本实施例中,所述图像处理单元可包括图像获取模块和图像配准模块。将对所述两个模块进行详细说明,如图8中a图所示。
(1)图像获取模块01,用于从核酸检测装置中获取测序图像,并将获取的测序图像发给图像配准模块。
本实施例中的核酸检测装置用于根据碱基互补配对原则对核酸序列进行检测。该核酸检测装置无特殊限制,市场上出售的高通量基因测序设备均适用于本发明中,例如:Pstar高通量基因测序仪、PacBioRS基因测序系统、Ion PGM测序仪、MiSeq测序系统、MiniON纳米孔测序仪、GS Junior测序系统等。在核酸检测装置内进行测序反应,当测序反应进行完时,先用明场灯照射测序反应区域,拍摄明场图,如图2中a图所示,所有碱基位置上的碱基均发光;然后,再利用不同的激发光激发测序反应区域,每种激发光激发一种带荧光染料的碱基发光,拍摄荧光图,四类携带标记物的碱基,用四种激发光激发,可得同一采图位置上的四种荧光图像,如图2中b,c,d,e图所示。其中,图2中a,b,c,d,e图为同一位置上的测序图像。
(2)图像配准模块02,用于将测序图像进行图像配准,得每个碱基位置点上荧光信号强度。
采用图像配准技术,即将多张采集同一位置的测序图像的对应位置进行重合,将如图2所示的b,c,d,e图与a图分别匹配,得到每个碱基位置上的四个荧光信号,根据每个碱基位置上的荧光信号获得荧光信号强度。本实施例的上述技术方案采用图像配准技术对同一采图位置上的多张测序图像进行精确匹配,从而能够更准确的获取使得每个碱基位置上的碱基的几种荧光信号,该技术方案为碱基识别的准确性提供了保障。
本实施例中,所述图像处理单元还可包括归一模块。如图8中b图所示,所述的归一模块03,与图像配准模块02连接,用于将每个碱基位置上的荧光信号强度进行归一化处理。
所述归一模块将每个碱基位置上的荧光信号强度进行归一化处理,设某碱基位置上的碱基Beadn的荧光信号强度Beadn(a,g,c,t),则进行归一化处理后的碱基Beadn的荧光信号强度为(c/sqrt(c^2+t^2+a^2+g^2),t/sqrt(c^2+t^2+a^2+g^2),a/sqrt(c^2+t^2+a^2+g^2),g/sqrt(c^2+t^2+a^2+g^2))。
本技术方案中,采用归一化对碱基位置上的碱基的荧光信号强度进行处理,该技术方案简便,同时使得测序图像的微小变化对结果影响较小,从而提高了图像处理单元处理的精度,同时采用归一化大大提高了后续的单元处理对测序图像碱基识别的速度。
本发明提出第三实施例,一种测序图像的识别方法,如图9所示,将对所述方法包括可包括的步骤进行详细说明。
S1、获取测序图像中每个碱基位置点上的碱基的荧光信号强度。
所述荧光信号强度的度量方式无特殊限制。优选的,该荧光信号强度为该碱基位置点上该荧光信号的亮度。优选的,该荧光信号强度为该碱基位置点上RGB的映射强度,即将RGB映射成亮度,先给出一示例亮度L=δ1*R+δ2*G+δ3*B,δ1+δ2+δ3=3,则可以得到该碱基位置点上RGB的映射强度,也即得到该碱基位置点上不同荧光信号的荧光信号强度。
该荧光信号强度值无特殊限制,但为了实现更好的荧光信号区分,荧光信号强度值优选在0到4095之间。也即可以将亮度进行映射,得到荧光信号强度值在0到4095之间。
S2、根据所述荧光信号强度对每个碱基位置点上的碱基进行初步碱基识别,得不同碱基类,并确定所获得的每类碱基类的质心。
图3示出了同一位置上的碱基的四种荧光信号强度,每种颜色的曲线代表一种荧光信号,每种荧光信号强度值在图中显示的是曲线的高高低低,曲线上较高的点,对应的荧光信号强度大,曲线上较低的点,对应的荧光信号强度小。该图中,横坐标表示碱基位置,纵坐标表示荧光信号强度值,同一碱基位置上有四个荧光信号。经过初步识别得到的结果如图4中的a图所示,每个碱基位置点上的碱基进行初步识别,得不同碱基类。其中,每种颜色代表一种荧光信号。
S3、根据每个碱基位置点上的碱基到每类碱基类的质心的距离,得新的碱基类。
新的碱基类是在碱基类的基础上进行的进一步精确分类,如图4中的b图所示,碱基矫正单元2重新归类(调整或舍弃了碱基处理单元中碱基与其所在的碱基类的属性不符的碱基)。相对于图4中的a图,图4中的b图所示的碱基的分类更集中,每类碱基类几乎无重叠部分,也即碱基矫正单元大大提高了每个碱基位置上碱基所在碱基类的准确性。
S4、通过新的碱基类对每个碱基位置点上的碱基进行精确碱基识别,得测序图像中每个碱基位置点上的碱基类型。
每类新的碱基类代表一种碱基,通过碱基所在的类别实现对碱基位置上的碱基的识别。如图4所示,每个碱基位置上的碱基属于某一类碱基类,不同颜色的碱基类代表不同的碱基,从而实现了碱基的识别。其中,本实施例中所述的四色荧光信号无特殊限制,优选为红、黄、绿、蓝四种荧光信号。
在核酸测序过程中,采用不同颜色的荧光染料来标记不同的碱基,根据碱基互补配对原则,待测核酸进行互补配对,使得待测核酸带上荧光染料标记的碱基,对不同类型的荧光染料采用不同的激发光(包括激发光的波长和激发光的强度)来激发荧光染料发光,然后,利用采图装置采集图像,可以得到测序图像。其中,一种的荧光染料标记一种碱基,从而使得每种碱基发出的荧光不同(包括荧光的颜色和荧光信号的强度)。最终使得每个碱基位置点上都有荧光信号,每种荧光信号代表一种碱基类型,但是由于目前技术中,同一碱基位置上有不同的荧光信号,也即同一碱基位置上有多个荧光信号。
本实施例的上述技术方案能够通过对碱基位置上的碱基的初步碱基识别和精确碱基识别,最终实现测序图像的碱基精确识别,与现有技术相比,该技术方案不仅碱基识别的步骤简单,也即能够实现快速碱基识别,而且碱基识别的精度高。
本实施例中,所述测序图像包括在同一采图位置上拍摄的多张测序图像,如图2所示,a为明场图,图2中b,c,d,e图均为荧光图。
本实施例中,将对所述步骤S1可包括的步骤进行详细说明。
S11、从核酸检测装置中获取测序图像。
本实施例中的核酸检测装置用于根据碱基互补配对原则对核酸序列进行检测。该核酸检测装置无特殊限制,市场上出售的高通量基因测序设备均适用于本发明中,例如:高通量基因测序仪、PaciBioRS基因测序系统等。在核酸检测装置内进行测序反应,当测序反应进行完时,先用明场灯照射测序反应区域,拍摄明场图,如图2中a图所示,所有碱基位置上的碱基均发光;然后再利用不同的激发光激发测序反应区域,每种激发光激发一种带荧光染料的碱基发光,拍摄荧光图,四类携带标记物的碱基,用四种激发光激发,可得同一采图位置上的四种荧光图像,如图2中b,c,d,e图所示。其中,图2中a,b,c,d,e图为同一位置上的测序图像。
S12、将同一采图位置上的测序图像进行图像配准,得每个碱基位置点上的荧光信号强度。
采用图像配准技术,即将多张采集同一位置的测序图像的对应位置进行重合,将如图2所示的b,c,d,e图与a图分别匹配,得到每个碱基位置上的四个荧光信号,根据每个碱基位置上的荧光信号获得荧光信号强度。本实施例的上述技术方案采用图像配准技术对同一采图位置上的多张测序图像进行精确匹配,从而能够更准确的获取使得每个碱基位置上的碱基的几种荧光信号,该技术方案为碱基识别的准确性提供了保障。
本实施例中,将对所述步骤S1还可以包括的步骤进行详细说明。
S13、将每个碱基位置上的荧光信号强度进行归一化处理。
每个碱基位置上的荧光信号强度进行归一化处理,设某碱基位置上的碱基Beadn的荧光信号强度Beadn(a,g,c,t),则进行归一化处理后的碱基Beadn的荧光信号强度为(c/sqrt(c^2+t^2+a^2+g^2),t/sqrt(c^2+t^2+a^2+g^2),a/sqrt(c^2+t^2+a^2+g^2),g/sqrt(c^2+t^2+a^2+g^2))。
本技术方案中,采用归一化对碱基位置上的碱基的荧光信号强度进行处理,该技术方案简便,同时使得测序图像的微小变化对结果影响较小,从而提高了图像处理单元处理的精度,同时采用归一化大大提高了后续测序图像碱基识别的速度。
本实施例中,将对所述步骤S2可包括的步骤进行说明。
S21、根据所述荧光信号强度,将每个碱基位置点上的碱基归类到荧光信号强度最大的荧光信号代表的碱基所在的类,对碱基进行初步碱基识别,得不同碱基类。
针对碱基的初步识别,本实施例给出一实施方案,当碱基位置上的几种荧光信号中,荧光信号强度最大的荧光信号至少有2个时,则认为该碱基为无法识别的碱基,该碱基不归类,当碱基位置上的几种荧光信号中,荧光信号强度最大的荧光信号只有一个,则将该碱基位置上的碱基归类到荧光信号强度最大的荧光信号代表的碱基所在的类,从而实现对所有碱基位置上的碱基的归类。本实施例中给出另一实施方案,当某个碱基位置上的碱基最大的多个荧光信号强度相等时,则将该碱基分别分类到多个最大的荧光信号对应的碱基类。
S22、利用均值法获得每类碱基类的质心,得每类碱基类的质心。
采用均值法计算每类碱基类的质心mean,以下给出以示例,mean((x1+x2+……+xk)/k,(y1+y2+……+yk)/k,(z1+z2+……+zk)/k,(r1+r2+……+rk)/k),依次计算每类碱基类的质心,得每类碱基类的质心为mean1,mean2,mean3,mean4。
本技术方案中,能够简单且准确的获得每类碱基类的质心,从而保证了的碱基处理的精度和速度。为该方案能够快速、准确进行碱基识别奠定了基础。
为了便于理解,本实施例中,将对所述步骤S3可包括的步骤进行详细说明。
S31、利用欧式距离度量每个碱基位置上的碱基到每类碱基类的质心的距离。
度量每个碱基位置上的碱基到四类碱基类的质心的距离,其中,利用两点间的距离来计算碱基位置上的碱基到每类碱基类的质心的距离,优选的,该距离为欧式距离。
S32、将碱基归类到距离其最近的质心所在的碱基类,得新的碱基类。
针对碱基归类模块,本实施例给出一示例,如某一碱基位置上的碱基的荧光信号强度N(xN,yN,zN,rN),每类碱基类的质心为mean1,mean2,mean3,mean4,碱基N到每类碱基类的质心的距离分别为N_mean1,N_mean2,N_mean3,N_mean4,假设N_mean2>N_mean1>N_mean3>N_mean4,则将碱基位置上的碱基N归类到质心为mean2的碱基类。
以下给出一优选的实施方案,碱基位置上的碱基所属的碱基类与该碱基位置上的碱基距离某碱基类的质心最近的碱基类,如果不属于同一类碱基类,则认为该碱基位置上的碱基为无效碱基,舍弃该碱基位置上的碱基;如果属于同一类碱基,则该碱基归类到该碱基类。
以下给出另一优选的实施方案,碱基位置上的碱基距离某类碱基类的质心最近,则将该碱基位置上的碱基归类到某碱基类,如果该碱基位置上的碱基距离至少两类碱基类的质心相等且最近,则舍弃该碱基。
上述技术方案舍弃了部分由于测序反应、测序设备等原因造成同一碱基位置上的碱基的荧光信号的混淆而无法区分碱基,从而提高了碱基识别的准确性,也进一步提高了碱基识别的速度。
应当说明的是,本发明典型的应用但不限于测序图像碱基识别的本身,在其他类似的信息处理领域中也可以应用本发明所阐述的方法。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (15)
1.一种测序图像的识别系统,其特征在于,所述系统包括碱基处理单元、碱基矫正单元和碱基识别单元;
所述碱基处理单元,用于根据荧光信号强度对每个碱基位置点上的碱基进行初步碱基识别,得不同碱基类,并确定所获得的每类碱基类的质心,并将碱基类和其质心发给碱基矫正单元;
所述碱基矫正单元,用于根据每个碱基位置点上的碱基到每类碱基类的质心的距离对每类碱基类进行调整,得新的碱基类,并将新的碱基类发给碱基识别单元;
所述碱基识别单元,用于通过新的碱基类对每个碱基位置点上的碱基进行精确碱基识别,得测序图像中每个碱基位置点上的碱基类型。
2.根据权利要求1所述的测序图像的识别系统,其特征在于,所述碱基处理单元包括分类模块和计算模块;
所述分类模块,用于根据荧光信号强度,将每个碱基位置点上的碱基归类到荧光信号强度最大的荧光信号代表的碱基所在的类,对碱基进行初步碱基识别,得不同碱基类,并将碱基类发给计算模块;
所述计算模块,用于利用均值法获得每类碱基类的质心,得每类碱基类的质心。
3.根据权利要求1所述的测序图像的识别系统,其特征在于,所述碱基矫正单元包括距离度量模块和碱基归类模块;
所述距离度量模块,用于利用欧式距离度量每个碱基位置上的碱基到每类碱基类的质心的距离;
所述碱基归类模块,与距离度量模块连接,用于获取每个碱基位置上的碱基到每类碱基类的质心的距离,并将该碱基位置上的碱基归类到距离其最近的质心所在的碱基类,得新的碱基类。
4. 根据权利要求1所述的测序图像的识别系统,其特征在于,所述系统还包括图像处理单元,用于获取测序图像并获取测序图像中每个碱基位置点上的碱基的荧光信号强度,并将每个碱基位置上的荧光信号强度发给碱基处理单元。
5.根据权利要求4所述的测序图像的识别系统,其特征在于,所述图像处理单元包括图像获取模块和图像配准模块;
所述图像获取模块,用于从核酸检测装置中获取测序图像,并将获取的测序图像发给图像配准模块;
所述图像配准模块,用于将测序图像进行图像配准,得每个碱基位置点上荧光信号强度。
6.根据权利要求5所述的测序图像的识别系统,其特征在于,所述图像处理单元还包括归一模块,与图像配准模块连接,用于将每个碱基位置上的荧光信号强度进行归一化处理。
7.根据权利要求5或6所述的测序图像的识别系统,其特征在于,所述图像获取模块,用于通过USB接口、串口和红外接口中的任意一种获取测序图像。
8.根据权利要求5或6所述的测序图像的识别系统,其特征在于,所述测序图像的识别系统,用于通过直接控制方式、中断控制方式、DMA控制方式和通道控制方式中的一种获取测序图像。
9.一种测序图像的识别方法,其特征在于,所述方法包括步骤:
A、获取测序图像中每个碱基位置点上的碱基的荧光信号强度;
B、根据所述荧光信号强度对每个碱基位置点上的碱基进行初步碱基识别,得不同碱基类,并确定所获得的每类碱基类的质心;
C、根据每个碱基位置点上的碱基到每类碱基类的质心的距离对每类碱基类进行调整,得新的碱基类;
D、通过新的碱基类对每个碱基位置点上的碱基进行精确碱基识别,得测序图像中每个碱基位置点上的碱基类型。
10.根据权利要求9所述的测序图像的识别方法,其特征在于,所述步骤B包括:
B1、根据所述荧光信号强度,将每个碱基位置点上的碱基归类到荧光信号强度最大的荧光信号代表的碱基所在的类,对碱基进行初步碱基识别,得不同碱基类;
B2、利用均值法获得每类碱基类的质心,得每类碱基类的质心。
11.根据权利要求9所述的测序图像的识别方法,其特征在于,所述测序图像包括在同一采图位置上拍摄的多张测序图像。
12.根据权利要求11所述的测序图像识别方法,其特征在于,所述步骤A包括:
A1、从核酸检测装置中获取测序图像;
A2、将同一采图位置上的测序图像进行图像配准,得每个碱基位置点上的荧光信号强度。
13.根据权利要求12所述的测序图像的识别方法,其特征在于,所述步骤A2之后还包括:
A3、将每个碱基位置上的荧光信号强度进行归一化处理。
14.根据权利要求9所述的测序图像的识别方法,其特征在于,所述步骤C包括:
C1、利用欧式距离度量每个碱基位置上的碱基到每类碱基类的质心的距离;
C2、将碱基归类到距离其最近的质心所在的碱基类,得新的碱基类。
15.根据权利要求9至14中任一项所述的测序图像的识别方法,其特征在于,所述荧光信号强度值在0到4095之间。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210112800.3A CN102676657B (zh) | 2012-04-18 | 2012-04-18 | 一种测序图像的识别系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210112800.3A CN102676657B (zh) | 2012-04-18 | 2012-04-18 | 一种测序图像的识别系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102676657A true CN102676657A (zh) | 2012-09-19 |
CN102676657B CN102676657B (zh) | 2015-01-21 |
Family
ID=46809206
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210112800.3A Active CN102676657B (zh) | 2012-04-18 | 2012-04-18 | 一种测序图像的识别系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102676657B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104573406A (zh) * | 2015-02-04 | 2015-04-29 | 浪潮电子信息产业股份有限公司 | 一种高性能微型基因测序以及自动化分析装置的设计方法 |
CN106250720A (zh) * | 2016-08-23 | 2016-12-21 | 吕忠华 | 一种根据相似度预先分组的dna测序图像处理系统 |
CN107683340A (zh) * | 2015-05-07 | 2018-02-09 | 加利福尼亚太平洋生物科学股份有限公司 | 多处理器流水线架构 |
CN109753939A (zh) * | 2019-01-11 | 2019-05-14 | 银丰基因科技有限公司 | 一种hla测序峰图识别方法 |
WO2020035068A1 (zh) * | 2018-08-17 | 2020-02-20 | 广州市锐博生物科技有限公司 | 生成彩色碱基图像的方法与系统、碱基识别方法与装置 |
WO2021030952A1 (zh) * | 2019-08-16 | 2021-02-25 | 深圳市真迈生物科技有限公司 | 碱基识别方法、系统、计算机程序产品和测序系统 |
CN113095446A (zh) * | 2021-06-09 | 2021-07-09 | 中南大学 | 异常行为样本生成方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1358868A (zh) * | 2000-11-29 | 2002-07-17 | 株式会社岛津制作所 | 核酸序列测定方法 |
CN101886114A (zh) * | 2009-05-14 | 2010-11-17 | 上海聚类生物科技有限公司 | 基于rmi指数的高通量测序数据分析方法 |
US20110096975A1 (en) * | 2009-09-09 | 2011-04-28 | Life Technologies Corporation | Systems and methods for identifying microparticles |
-
2012
- 2012-04-18 CN CN201210112800.3A patent/CN102676657B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1358868A (zh) * | 2000-11-29 | 2002-07-17 | 株式会社岛津制作所 | 核酸序列测定方法 |
CN101886114A (zh) * | 2009-05-14 | 2010-11-17 | 上海聚类生物科技有限公司 | 基于rmi指数的高通量测序数据分析方法 |
US20110096975A1 (en) * | 2009-09-09 | 2011-04-28 | Life Technologies Corporation | Systems and methods for identifying microparticles |
Non-Patent Citations (1)
Title |
---|
叶丙刚: "高通量基因测序图像处理与数据分析", 《中国博士学位论文全文数据库信息科技辑》, 15 November 2010 (2010-11-15), pages 21 - 91 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104573406A (zh) * | 2015-02-04 | 2015-04-29 | 浪潮电子信息产业股份有限公司 | 一种高性能微型基因测序以及自动化分析装置的设计方法 |
CN107683340A (zh) * | 2015-05-07 | 2018-02-09 | 加利福尼亚太平洋生物科学股份有限公司 | 多处理器流水线架构 |
CN106250720A (zh) * | 2016-08-23 | 2016-12-21 | 吕忠华 | 一种根据相似度预先分组的dna测序图像处理系统 |
CN106250720B (zh) * | 2016-08-23 | 2019-08-09 | 山东卫康医学检验有限公司 | 一种根据相似度预先分组的dna测序图像处理系统 |
WO2020035068A1 (zh) * | 2018-08-17 | 2020-02-20 | 广州市锐博生物科技有限公司 | 生成彩色碱基图像的方法与系统、碱基识别方法与装置 |
CN109753939A (zh) * | 2019-01-11 | 2019-05-14 | 银丰基因科技有限公司 | 一种hla测序峰图识别方法 |
CN109753939B (zh) * | 2019-01-11 | 2021-04-20 | 银丰基因科技有限公司 | 一种hla测序峰图识别方法 |
WO2021030952A1 (zh) * | 2019-08-16 | 2021-02-25 | 深圳市真迈生物科技有限公司 | 碱基识别方法、系统、计算机程序产品和测序系统 |
CN113095446A (zh) * | 2021-06-09 | 2021-07-09 | 中南大学 | 异常行为样本生成方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN102676657B (zh) | 2015-01-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102676657A (zh) | 一种测序图像的识别系统及方法 | |
CN111340797B (zh) | 一种激光雷达与双目相机数据融合检测方法及系统 | |
CN102773862B (zh) | 用于室内移动机器人的快速精确定位系统及其工作方法 | |
CN106529537B (zh) | 一种数字仪表读数图像识别方法 | |
CN202702247U (zh) | 用于室内移动机器人的快速精确定位系统 | |
CN111257341B (zh) | 基于多尺度特征与堆叠式全卷积网络的水下建筑物裂缝检测方法 | |
CN106503704B (zh) | 一种自然场景中圆形交通标志定位方法 | |
CN106407924A (zh) | 基于路面特征的双目道路识别检测方法 | |
CN107845085B (zh) | 一种心肌细胞核粘连区域分离与分组的方法及系统 | |
CN110738164B (zh) | 零件异常检测方法、模型训练方法及装置 | |
CN103593695A (zh) | 一种dpm二维码区域定位的方法 | |
CN105865329A (zh) | 基于视觉的成捆圆钢端面中心坐标的获取系统和方法 | |
CN103729631A (zh) | 一种基于视觉的连接器表面特征自动识别方法 | |
CN107240112A (zh) | 一种复杂场景下个体x角点提取方法 | |
CN113012096B (zh) | 显示屏子像素定位及亮度提取方法、设备以及存储介质 | |
CN114049330A (zh) | 一种荧光原位杂交图像中荧光特征融合方法及系统 | |
CN114241226A (zh) | 一种基于混合模型多邻域特征的三维点云语义分割方法 | |
CN105740791A (zh) | 一种基于视觉的运动物体多关节位置识别的靶标系统 | |
CN113971723A (zh) | 高精地图中三维地图的构建方法、装置、设备和存储介质 | |
CN113538585A (zh) | 基于无人机的高精度多目标智能识别定位追踪方法及系统 | |
CN109461182A (zh) | 一种基于图像传感器通信的led阵列快速检测方法及装置 | |
CN111428796B (zh) | 一种基于深度学习的通用物品检测方法及系统 | |
CN111160374A (zh) | 一种基于机器学习的颜色识别方法及系统、装置 | |
CN113269195A (zh) | 读数表图像字符识别方法和装置以及可读存储介质 | |
CN102637299A (zh) | 一种利用局部极值聚类对发光二极管进行计数的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C41 | Transfer of patent application or patent right or utility model | ||
TR01 | Transfer of patent right |
Effective date of registration: 20161019 Address after: 430040 No. 388, No. 21, No. three, biological medicine accelerator, two hi tech Road, East Lake New Technology Development Zone, Hubei, Wuhan Patentee after: Wuhan Kangxinrui Gene Health Technology Co., Ltd. Address before: 518057, Guangdong, Nanshan District hi tech Zone, two science and Technology Park, two software park, 11, 4, building 402, north room, Shenzhen Patentee before: Sheng Sichong |