CN106815343A

CN106815343A - 一种数据处理方法及数据处理装置

Info

Publication number: CN106815343A
Application number: CN201710028439.9A
Authority: CN
Inventors: 张亮; 曹贵强; 和佳栋; 江平
Original assignee: Shanghai Turtle Technology Co Ltd
Current assignee: Shanghai Turtle Technology Co Ltd
Priority date: 2017-01-16
Filing date: 2017-01-16
Publication date: 2017-06-09
Anticipated expiration: 2037-01-16
Also published as: CN106815343B

Abstract

本发明涉及信息处理技术领域，公开了一种数据处理方法及数据处理装置。该数据处理方法包括：根据测序仪的采样规律，建立测序芯片中各反应单元与原始数据文件中所述各反应单元的输出数据的存储位置的一一映射关系；根据所述一一映射关系，从所述原始数据文件中提取出任一反应单元的输出数据。本发明的实施方式还公开了一种数据处理装置。本发明实施方式相对于现有技术而言，通过建立测序芯片中各反应单元与原始数据文件中所述各反应单元的输出数据的存储位置的一一映射关系，使得可根据该一一映射关系，准确地从测序仪采集的原始数据中挑选出芯片中任一反应单元的输出数据，大大节省了查找反应单元的输出数据的时间。

Description

一种数据处理方法及数据处理装置

技术领域

本发明涉及信息处理技术领域，特别涉及一种数据处理方法及数据处理装置。

背景技术

为了测试芯片的性能，需要用测序仪采集芯片中各反应单元(即芯片中进行相关反应的反应腔)的输出数据进行研究。现有技术中，为了方便数据的采集，常会设计简单的数据采样原则或采集方法。但本发明的发明人发现，测序仪根据这些数据采样原则或采集方法采集出的数据的个数要大于实际的芯片的输出数据，这样就引入了冗余数据。由于冗余数据是虚假、无效、不参与数据计算的，尤其是对于高通量测序仪而言，冗余数据个数的量级是十万、百万级别的，它们的存在不仅占用大量的内存空间，更重要的是，为了避开冗余数据，常常需要设置很多判断条件来参与数值计算，这必将造成计算时间的大量浪费。

发明内容

本发明实施方式的目的在于提供一种数据处理方法及数据处理装置，使得可剔除测序仪采集的原始数据文件中的冗余数据，准确挑选出芯片中各反应单元的输出数据。

为解决上述技术问题，本发明的实施方式提供了一种数据处理方法，包括：根据测序仪的采样规律，建立测序芯片中各反应单元与原始数据文件中所述各反应单元的输出数据的存储位置的一一映射关系；根据所述一一映射关系，从所述原始数据文件中提取出任一反应单元的输出数据。

本发明的实施方式还提供了一种数据处理装置，包括：建立模块及提取模块；所述建立模块用于根据测序仪的采样原则，建立测序芯片中各反应单元与原始数据文件中所述各反应单元的输出数据的存储位置的一一映射关系；所述提取模块用于根据所述一一映射关系，从所述原始数据文件中提取出任一反应单元的输出数据。

本发明实施方式相对于现有技术而言，通过建立测序芯片中各反应单元与原始数据文件中所述各反应单元的输出数据的存储位置的一一映射关系，使得可根据该一一映射关系，准确地从测序仪采集的原始数据中挑选出芯片中任一反应单元的输出数据，大大节省了查找反应单元的输出数据的时间。

进一步地，所述建立测试芯片中各反应单元与原始数据文件中所述各反应单元的输出数据的存储位置的一一映射关系，具体包括：获取每个反应单元的输出数据在所述原始数据文件的存储位置坐标作为第一坐标，并获取每个反应单元在测序芯片中的位置坐标作为第二坐标；确定所述每个反应单元的第一坐标和第二坐标之间的对应关系；根据任一反应单元的第一坐标在所述原始数据文件中的位置关系，确定所述任一反应单元的第一坐标在所述原始数据文件中的位置索引；根据所述位置索引以及所述第一坐标和第二坐标的对应关系，确定任一反应单元的第二坐标在所述原始数据文件中的位置索引。

进一步地，所述位置关系包括：所述第一坐标在所述原始数据文件中所属的区域、所述第一坐标相对于所属区域的标准线的距离、所属通道的编号。

进一步地，确定所述每个反应单元的第一坐标和第二坐标之间的对应关系，具体包括：获取第一坐标和第二坐标之间的行偏移量及列偏移量；根据所述行偏移量及列偏移量，获取所述每个反应单元的第一坐标和第二坐标的对应关系。

进一步地，在根据测序仪的采样规律，建立测序芯片中各反应单元与原始数据文件中所述各反应单元的输出数据的存储位置的一一映射关系之前，还包括：按照预设的采样原则，采集测序芯片中各反应单元的输出数据，并将所述采集的数据存储至原始数据文件；其中，所述采集的数据的个数大于所述反应单元输出数据的个数；所述原始数据文件包括至少一个标准线，所述原始数据文件被所述标准线划分为若干个存储区域，且每个存储区域包括若干个用于采集数据的通道。

附图说明

图1是根据本发明第一实施方式的数据处理方法的流程图；

图2是根据本发明第二实施方式的数据处理方法的流程图；

图3是根据本发明第二实施方式的原始数据采样区域的示意图；

图4是根据本发明第二实施方式的芯片中各采集单元的区域分布示意图；

图5是根据本发明第三实施方式的数据处理装置的结构示意图；

图6是根据本发明第四实施方式的数据处理装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。

本发明的第一实施方式涉及一种数据处理方法。具体流程如图1所示。

步骤101：根据测序仪的采样规律，建立芯片中各反应单元与原始数据文件中各反应单元的输出数据的存储位置的一一映射关系。

测序仪采集的是芯片中各反应单元(也称反应腔或井等)的输出数据。但由于测序仪采集的数据的个数大于实际芯片中各反应单元输出的数据的个数，因此，其采集的原始数据文件中不仅包括各反应单元的输出数据，也包括冗余数据。假设芯片中实际包含的反应单元的个数为N*P，测序仪采集的原始数据文件中原始数据的个数为M*M，为不失一般性，不妨设(M/2)<P<＝N<＝M，其中N、P为自然数(一般假设为偶数)，M＝2^(m)为自然数(一般认为m>＝10)。也就是说，冗余数据的个数为M*M-N*P。这些冗余数据并不是真实的反应单元输出的数据，一般会用一个可识别的符号进行标记，比如用0或Null表示。

本步骤中建立的即是芯片中的每个反应单元与该反应单元的输出数据在原始数据文件中的存储位置之间的对应关系。

步骤102：根据该一一映射关系，从原始数据文件中提取出任一反应单元的输出数据。

本步骤中，需要对芯片中某一反应单元进行研究时，就可根据该映射关系，从测序仪采集的原始数据文件中提取出该反应单元的输出数据。

本实施方式，通过建立测序芯片中各反应单元与原始数据文件中各反应单元的输出数据的存储位置的一一映射关系，使得可根据该一一映射关系，准确地从测序仪采集的原始数据中挑选出芯片中任一反应单元的输出数据，大大节省了查找反应单元的输出数据的时间。

本发明的第二实施方式涉及一种数据处理方法。第二实施方式是在第一实施方式的基础上做的进一步改进，主要改进之处在于：第二实施方式进一步限定了建立测序芯片中的每个反应单元与该反应单元的输出数据在原始数据文件中的存储位置之间的对应关系的方法。第二实施方式的具体流程如图2所示。

步骤201：按照预设的采样原则，采集测序芯片中各反应单元的输出数据，并将采集的数据存储至原始数据文件。

一般来说，原始数据文件包括至少一个标准线，原始数据文件被该标准线划分为若干个存储区域，且每个存储区域包括若干个用于采集数据的通道。

假设芯片中实际包含的反应单元的个数为N*P，测序仪采集的原始数据文件中原始数据的个数为M*M，为不失一般性，不妨设(M/2)<P<＝N<＝M，其中N、P为自然数(一般假设为偶数)，M＝2^(m)为自然数(一般认为m>＝10)。测序仪在进行数据采样过程中，一般可采用多通道同时采样的方式来进行。多通道采样数据时，各通道所采样出的数据存储在所生成原始数据文件中的位置也可由设计测序仪的公司(厂家或个人)来人为指定。

本实施方式以通道个数(一般来偶数)为16为例进行说明。当通道个数为16时，通道的编号范围为[0，15]，图3示出了原始数据采样区域的示意图(本实施方式中的M8＝M/8)，图4示出了芯片中各采集单元的区域分布示意图(其中，DN、DX满足0<DN<＝DX<＝M8，7*DN+DX＝N)。

假设本实施方式中，测序仪的采样原则如下：(1)每个时刻，采集各通道所有数据，各通道内采集到的数据按以下规律存储至原始数据文件中：将采集的第一个数据存储至第0通道的第一位置，将采集的第二个数据存储至第1通道的第一位置，将采集的第三个数据存储至第2通道的第一位置，以此类推，直至将采集的第16个数据存储至第15通道的第一位置。紧接着，进行下一循环，即将采集的第17个数据存储至第0通道的第二位置，将采集的第18个数据存储至第1通道的第二位置……直至将采集的M*M个数据全部存储完为止。需要强调的是，本实施方式是所述的原始数据文件中数据的存储规律仅是举例说明，然并不应以此为限，在实际应用中，原始数据文件中数据的存储规律应该与具体选择的采样原则相对应。

从图3中可以看出，每个通道对应的区域中可以存储(M/2)*M8个数据，即每一纵列可存储M8个数据，共有(M/2)个纵列。以M＝4096为例，在对应第0通道的存储区域中，第一位置(即上文所说的第0通道的第一位置)的坐标为(2047，3583)，第二位置的坐标为(2047，3582)……，第512位置的坐标为(2047，3072)，第513位置的坐标为(2046，3583)……，由此可见，第0通道的存储区域中，存储数据的顺序是：先存储该存储区域中横坐标及纵坐标都最大的位置，再以该位置为基准，按照“横坐标不变、纵坐标递减”的顺序依次存储，当一纵列存储完后，再将当前的横坐标减1，继续按照“横坐标不变、纵坐标递减”的顺序依次存储。值得一提的是，本实施方式所说的“横坐标”是对应y轴的坐标，“纵坐标”是对应x轴的坐标。

定义原始数据采样区域中的标准线分别为y＝M/2-1和y＝M/2，其中，y＝M/2-1左侧的区域为左区域，y＝M/2右侧的区域为右区域。即，通道编号分别为0、1、4、5、8、9、12、13的标准线为y＝M/2-1，通道编号分别为2、3、6、7、10、11、14、15通道的标准线为y＝M/2。可以看出，标准线为y＝M/2-1的各通道存储数据的顺序均与第0通道存储数据的顺序相同。而标准线为y＝M/2的各通道存储数据的顺序为：先存储该存储区域中横坐标及纵坐标都最小的位置，再以该位置为基准，按照“横坐标不变、纵坐标递减”的顺序依次存储，当一纵列存储完后，再将当前的横坐标加1，继续按照“横坐标不变、纵坐标递减”的顺序依次存储。

综上可知：各通道的数据采样顺序是：优先采集各通道标准线上所有反应单元的输出数据，然后采集该通道中距离上一次采集数据最近的纵列所对应的所有反应单元的输出数据，直至该通道的所有列数据采集完毕；对于同一纵列要采集的数据，按照行号递减(即纵坐标递减)的顺序来采集；若采集数据对应的反应单元是虚拟反应单元，则输出的数据用一个可识别的符号标记即可，比如用0或Null表示。

步骤202：获取每个反应单元的输出数据在原始数据文件的存储位置坐标作为第一坐标，并获取每个反应单元在测序芯片中的位置坐标作为第二坐标。

如图3、图4所示，本实施方式用(x，y)表示每个反应单元的输出数据在原始文件中的存储位置坐标，即第一坐标；用(X，Y)表示每个反应单元在芯片中的位置坐标，即第二坐标。

步骤203：确定每个反应单元的第一坐标和第二坐标之间的对应关系。即确定(x,y)与(X，Y)的对应关系。

值得一提的是，本实施方式中，“/”表示整除，“％”表示求余。

本步骤中，可通过获取第一坐标和第二坐标之间的行偏移量及列偏移量，来确定每个反应单元的第一坐标和第二坐标的对应关系。

若令列偏移量Δy＝(M-P)/2,行偏移量Δx＝M8-DN,则

对列：y＝Y+Δy

对行：当X<DX时,x＝X

当X≥DX时,x＝M8+M8*((X-DX)/DN)+Δx+((X-DX)％DN)

步骤204：确定任一反应单元的第一坐标在原始数据文件中的位置关系。即确定任一(x，y)在原始数据文件中的位置关系。

该位置关系包括：第一坐标在原始数据文件中所属的区域、第一坐标相对于所属区域的标准线的距离、所属通道的编号。

本实施方式用IR表示某个反应单元的第一坐标是否属于右区域，My表示该点与其所属区域的标准线的距离，则

当y<M/2时，My＝M/2-1-y,IR＝0(表示对应的第一坐标属于左区域)

当y≥M/2时，My＝y-M/2,IR＝1(表示对应的第一坐标属于右区域)

记Qx＝x/M8,Px＝x％M8,RI表示(x,y)所属的区域编号，则

RI＝(3-Qx/2)*4+(Qx％2)+2*IR

步骤205：根据任一反应单元的第一坐标在原始数据文件中的位置关系，确定任一反应单元的第一坐标在原始数据文件中的位置索引(Index)。即确定任一(x，y)在原始数据文件中存储的位置索引Index。

Index＝My*(2*M)+(M8-1-Px)*16+RI

＝My*(2*M)+(M8-1-Px)*16+(3-Qx/2)*4+(Qx％2)+2*IR

步骤206：根据该位置索引以及第一坐标和第二坐标的对应关系，确定任一反应单元的第二坐标在原始数据文件中的位置索引。即用(X，Y)表示Index。

当Y<P/2时，My＝M/2-1-Δy-Y,IR＝0

当Y≥P/2时，My＝Y-M/2+Δy,IR＝1

当X<DX时，Qx＝0，Px＝X

当X≥DX时，Qx＝1+(X-DX)/DN,Px＝Ox+(X-DX)％DN

若令变量Z＝1+(X-DX)/DN,T＝Δx+(X-DX)％DN，则(X,Y)与Index的关系可分如下四种情形表示：

当X<DX且Y<P/2时，有

Index＝(M/2-1-Δy-Y)*(2*M)+(M8-1-X)*16+12

当X<DX且Y≥P/2时，有

Index＝(Y-M/2+Δy)*(2*M)+(M8-1-X)*16+14

当X≥DX且Y<P/2时，有

Index＝(M/2-1-Δy-Y)*(2*M)+(M8-1-T)*16+(3-Z/2)*4+Z％2

当X≥DX且Y≥P/2时，有

Index＝(Y-M/2+Δy)*(2*M)+(M8-1-T)*16+(3-Z/2)*4+Z％2+2

到此，即建立出芯片中的每个反应单元与该反应单元的输出数据在原始数据文件中的存储位置之间的一一映射关系。

步骤207：根据该任一反应单元的第二坐标在原始数据文件中的位置索引，从原始数据文件中提取出任一反应单元的输出数据。

上面各种方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包含相同的逻辑关系，都在本专利的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该专利的保护范围内。

本发明第三实施方式涉及一种数据处理装置。如图5所示，该数据处理装置包括；建立模块51及提取模块52。

其中，建立模块51用于根据测序仪的采样原则，建立测序芯片中各反应单元与原始数据文件中所述各反应单元的输出数据的存储位置的一一映射关系。

测序仪采集的是芯片中各反应单元(也称反应腔或井等)的输出数据。但由于测序仪采集的数据的个数大于实际芯片中各反应单元输出的数据的个数，因此，其采集的原始数据文件中不仅包括各反应单元的输出数据，也包括冗余数据。这些冗余数据并不是真实的反应单元输出的数据，一般会用一个可识别的符号进行标记，比如用0或Null表示。

建立模块建立的即是芯片中的每个反应单元与该反应单元的输出数据在原始数据文件中的存储位置之间的对应关系。

提取模块52用于根据该一一映射关系，从原始数据文件中提取出任一反应单元的输出数据。

需要对芯片中某一反应单元进行研究时，提取模块就可根据该映射关系，从测序仪采集的原始数据文件中提取出该反应单元的输出数据。

不难发现，本实施方式为与第一实施方式相对应的装置实施例，本实施方式可与第一实施方式互相配合实施。第一实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在第一实施方式中。

值得一提的是，本实施方式中所涉及到的各模块均为逻辑模块，在实际应用中，一个逻辑单元可以是一个物理单元，也可以是一个物理单元的一部分，还可以以多个物理单元的组合实现。此外，为了突出本发明的创新部分，本实施方式中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入，但这并不表明本实施方式中不存在其它的单元。

本发明第四实施方式涉及一种数据处理装置。第四实施方式是在第三实施方式的基础上做的进一步改进，主要改进之处在于：第四实施方式进一步限定了建立测序芯片中的每个反应单元与该反应单元的输出数据在原始数据文件中的存储位置之间的对应关系的方法。

如图6所示，本实施方式中，数据处理装置还包括采集模块53。该采集模块53用于在根据测序仪的采样规律，建立测序芯片中各反应单元与原始数据文件中各反应单元的输出数据的存储位置的一一映射关系之前，按照预设的采样原则，采集测序芯片中各反应单元的输出数据，并将采集的数据存储至原始数据文件。

值得一提的是，采集模块采集的数据的个数大于反应单元输出数据的个数，多余的数据即为冗余数据。这些冗余数据并不是真实的反应单元输出的数据，一般会用一个可识别的符号进行标记，比如用0或Null表示。

另外，原始数据文件包括至少一个标准线，原始数据文件被该标准线划分为若干个存储区域，且每个存储区域包括若干个用于采集数据的通道。

本实施方式中，建立模块51具体包括：获取单元511、第一确定单元512、第二确定单元513及第三确定单元514。

其中，获取单元511用于获取每个反应单元的输出数据在原始数据文件的存储位置坐标作为第一坐标，并获取每个反应单元在测序芯片中的位置坐标作为第二坐标。

第一确定单元512用于确定每个反应单元的第一坐标和第二坐标之间的对应关系。本实施方式中，第一确定单元可包括：第一获取子单元及第二获取子单元(图中未示出)。其中，第一获取子单元用于获取第一坐标和第二坐标之间的行偏移量及列偏移量。第二获取子单元用于根据该行偏移量及列偏移量，获取每个反应单元的第一坐标和第二坐标的对应关系。

第二确定单元513用于根据任一反应单元的第一坐标在原始数据文件中的位置关系，确定任一反应单元的第一坐标在原始数据文件中的位置索引。

该位置关系包括第一坐标在原始数据文件中所属的区域、第一坐标相对于所属区域的标准线的距离、所属通道的编号。

第三确定单元514用于根据该位置索引以及第一坐标和第二坐标的对应关系，确定任一反应单元的第二坐标在原始数据文件中的位置索引。

由于第二实施方式与本实施方式相互对应，因此本实施方式可与第二实施方式互相配合实施。第二实施方式中提到的相关技术细节在本实施方式中依然有效，在第二实施方式中所能达到的技术效果在本实施方式中也同样可以实现，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在第二实施方式中。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种数据处理方法，其特征在于，包括：

根据测序仪的采样规律，建立测序芯片中各反应单元与原始数据文件中所述各反应单元的输出数据的存储位置的一一映射关系；

根据所述一一映射关系，从所述原始数据文件中提取出任一反应单元的输出数据。

2.根据权利要求1所述的数据处理方法，其特征在于，所述建立测试芯片中各反应单元与原始数据文件中所述各反应单元的输出数据的存储位置的一一映射关系，具体包括：

获取每个反应单元的输出数据在所述原始数据文件的存储位置坐标作为第一坐标，并获取每个反应单元在测序芯片中的位置坐标作为第二坐标；

确定所述每个反应单元的第一坐标和第二坐标之间的对应关系；

根据任一反应单元的第一坐标在所述原始数据文件中的位置关系，确定所述任一反应单元的第一坐标在所述原始数据文件中的位置索引；

根据所述位置索引以及所述第一坐标和第二坐标的对应关系，确定任一反应单元的第二坐标在所述原始数据文件中的位置索引。

3.根据权利要求2所述的数据处理方法，其特征在于，所述位置关系包括：所述第一坐标在所述原始数据文件中所属的区域、所述第一坐标相对于所属区域的标准线的距离、所属通道的编号。

4.根据权利要求2所述的数据处理方法，其特征在于，确定所述每个反应单元的第一坐标和第二坐标之间的对应关系，具体包括：

获取第一坐标和第二坐标之间的行偏移量及列偏移量；

根据所述行偏移量及列偏移量，获取所述每个反应单元的第一坐标和第二坐标的对应关系。

5.根据权利要求1所述的数据处理方法，其特征在于，在根据测序仪的采样规律，建立测序芯片中各反应单元与原始数据文件中所述各反应单元的输出数据的存储位置的一一映射关系之前，还包括：

按照预设的采样原则，采集测序芯片中各反应单元的输出数据，并将所述采集的数据存储至原始数据文件；

其中，所述采集的数据的个数大于所述反应单元输出数据的个数；

所述原始数据文件包括至少一个标准线，所述原始数据文件被所述标准线划分为若干个存储区域，且每个存储区域包括若干个用于采集数据的通道。

6.一种数据处理装置，其特征在于，包括：建立模块及提取模块；

所述建立模块用于根据测序仪的采样原则，建立测序芯片中各反应单元与原始数据文件中所述各反应单元的输出数据的存储位置的一一映射关系；

所述提取模块用于根据所述一一映射关系，从所述原始数据文件中提取出任一反应单元的输出数据。

7.根据权利要求6所述的数据处理装置，其特征在于，所述建立模块具体包括：获取单元、第一确定单元、第二确定单元及第三确定单元；

所述获取单元用于获取每个反应单元的输出数据在所述原始数据文件的存储位置坐标作为第一坐标，并获取每个反应单元在测序芯片中的位置坐标作为第二坐标；

所述第一确定单元用于确定所述每个反应单元的第一坐标和第二坐标之间的对应关系；

所述第二确定单元用于根据任一反应单元的第一坐标在所述原始数据文件中的位置关系，确定所述任一反应单元的第一坐标在所述原始数据文件中的位置索引；

所述第三确定单元用于根据所述位置索引以及所述第一坐标和第二坐标的对应关系，确定任一反应单元的第二坐标在所述原始数据文件中的位置索引。

8.根据权利要求7所述的数据处理装置，其特征在于，所述位置关系包括：所述第一坐标在所述原始数据文件中所属的区域、所述第一坐标相对于所属区域的标准线的距离、所属通道的编号。

9.根据权利要求7所述的数据处理装置，其特征在于，所述第一确定单元具体包括：第一获取子单元及第二获取子单元；

所述第一获取子单元用于获取第一坐标和第二坐标之间的行偏移量及列偏移量；

所述第二获取子单元用于根据所述行偏移量及列偏移量，获取所述每个反应单元的第一坐标和第二坐标的对应关系。

10.根据权利要求6所述的数据处理装置，其特征在于，所述数据处理装置还包括：采集模块；

所述采集模块用于在根据测序仪的采样规律，建立测序芯片中各反应单元与原始数据文件中所述各反应单元的输出数据的存储位置的一一映射关系之前，按照预设的采样原则，采集测序芯片中各反应单元的输出数据，并将所述采集的数据存储至原始数据文件；