CN106815343A - 一种数据处理方法及数据处理装置 - Google Patents

一种数据处理方法及数据处理装置 Download PDF

Info

Publication number
CN106815343A
CN106815343A CN201710028439.9A CN201710028439A CN106815343A CN 106815343 A CN106815343 A CN 106815343A CN 201710028439 A CN201710028439 A CN 201710028439A CN 106815343 A CN106815343 A CN 106815343A
Authority
CN
China
Prior art keywords
reaction member
coordinate
data
data file
raw data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710028439.9A
Other languages
English (en)
Other versions
CN106815343B (zh
Inventor
张亮
曹贵强
和佳栋
江平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Turtle Technology Co Ltd
Original Assignee
Shanghai Turtle Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Turtle Technology Co Ltd filed Critical Shanghai Turtle Technology Co Ltd
Priority to CN201710028439.9A priority Critical patent/CN106815343B/zh
Publication of CN106815343A publication Critical patent/CN106815343A/zh
Application granted granted Critical
Publication of CN106815343B publication Critical patent/CN106815343B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures

Abstract

本发明涉及信息处理技术领域,公开了一种数据处理方法及数据处理装置。该数据处理方法包括:根据测序仪的采样规律,建立测序芯片中各反应单元与原始数据文件中所述各反应单元的输出数据的存储位置的一一映射关系;根据所述一一映射关系,从所述原始数据文件中提取出任一反应单元的输出数据。本发明的实施方式还公开了一种数据处理装置。本发明实施方式相对于现有技术而言,通过建立测序芯片中各反应单元与原始数据文件中所述各反应单元的输出数据的存储位置的一一映射关系,使得可根据该一一映射关系,准确地从测序仪采集的原始数据中挑选出芯片中任一反应单元的输出数据,大大节省了查找反应单元的输出数据的时间。

Description

一种数据处理方法及数据处理装置
技术领域
本发明涉及信息处理技术领域,特别涉及一种数据处理方法及数据处理装置。
背景技术
为了测试芯片的性能,需要用测序仪采集芯片中各反应单元(即芯片中进行相关反应的反应腔)的输出数据进行研究。现有技术中,为了方便数据的采集,常会设计简单的数据采样原则或采集方法。但本发明的发明人发现,测序仪根据这些数据采样原则或采集方法采集出的数据的个数要大于实际的芯片的输出数据,这样就引入了冗余数据。由于冗余数据是虚假、无效、不参与数据计算的,尤其是对于高通量测序仪而言,冗余数据个数的量级是十万、百万级别的,它们的存在不仅占用大量的内存空间,更重要的是,为了避开冗余数据,常常需要设置很多判断条件来参与数值计算,这必将造成计算时间的大量浪费。
发明内容
本发明实施方式的目的在于提供一种数据处理方法及数据处理装置,使得可剔除测序仪采集的原始数据文件中的冗余数据,准确挑选出芯片中各反应单元的输出数据。
为解决上述技术问题,本发明的实施方式提供了一种数据处理方法,包括:根据测序仪的采样规律,建立测序芯片中各反应单元与原始数据文件中所述各反应单元的输出数据的存储位置的一一映射关系;根据所述一一映射关系,从所述原始数据文件中提取出任一反应单元的输出数据。
本发明的实施方式还提供了一种数据处理装置,包括:建立模块及提取模块;所述建立模块用于根据测序仪的采样原则,建立测序芯片中各反应单元与原始数据文件中所述各反应单元的输出数据的存储位置的一一映射关系;所述提取模块用于根据所述一一映射关系,从所述原始数据文件中提取出任一反应单元的输出数据。
本发明实施方式相对于现有技术而言,通过建立测序芯片中各反应单元与原始数据文件中所述各反应单元的输出数据的存储位置的一一映射关系,使得可根据该一一映射关系,准确地从测序仪采集的原始数据中挑选出芯片中任一反应单元的输出数据,大大节省了查找反应单元的输出数据的时间。
进一步地,所述建立测试芯片中各反应单元与原始数据文件中所述各反应单元的输出数据的存储位置的一一映射关系,具体包括:获取每个反应单元的输出数据在所述原始数据文件的存储位置坐标作为第一坐标,并获取每个反应单元在测序芯片中的位置坐标作为第二坐标;确定所述每个反应单元的第一坐标和第二坐标之间的对应关系;根据任一反应单元的第一坐标在所述原始数据文件中的位置关系,确定所述任一反应单元的第一坐标在所述原始数据文件中的位置索引;根据所述位置索引以及所述第一坐标和第二坐标的对应关系,确定任一反应单元的第二坐标在所述原始数据文件中的位置索引。
进一步地,所述位置关系包括:所述第一坐标在所述原始数据文件中所属的区域、所述第一坐标相对于所属区域的标准线的距离、所属通道的编号。
进一步地,确定所述每个反应单元的第一坐标和第二坐标之间的对应关系,具体包括:获取第一坐标和第二坐标之间的行偏移量及列偏移量;根据所述行偏移量及列偏移量,获取所述每个反应单元的第一坐标和第二坐标的对应关系。
进一步地,在根据测序仪的采样规律,建立测序芯片中各反应单元与原始数据文件中所述各反应单元的输出数据的存储位置的一一映射关系之前,还包括:按照预设的采样原则,采集测序芯片中各反应单元的输出数据,并将所述采集的数据存储至原始数据文件;其中,所述采集的数据的个数大于所述反应单元输出数据的个数;所述原始数据文件包括至少一个标准线,所述原始数据文件被所述标准线划分为若干个存储区域,且每个存储区域包括若干个用于采集数据的通道。
附图说明
图1是根据本发明第一实施方式的数据处理方法的流程图;
图2是根据本发明第二实施方式的数据处理方法的流程图;
图3是根据本发明第二实施方式的原始数据采样区域的示意图;
图4是根据本发明第二实施方式的芯片中各采集单元的区域分布示意图;
图5是根据本发明第三实施方式的数据处理装置的结构示意图;
图6是根据本发明第四实施方式的数据处理装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。
本发明的第一实施方式涉及一种数据处理方法。具体流程如图1所示。
步骤101:根据测序仪的采样规律,建立芯片中各反应单元与原始数据文件中各反应单元的输出数据的存储位置的一一映射关系。
测序仪采集的是芯片中各反应单元(也称反应腔或井等)的输出数据。但由于测序仪采集的数据的个数大于实际芯片中各反应单元输出的数据的个数,因此,其采集的原始数据文件中不仅包括各反应单元的输出数据,也包括冗余数据。假设芯片中实际包含的反应单元的个数为N*P,测序仪采集的原始数据文件中原始数据的个数为M*M,为不失一般性,不妨设(M/2)<P<=N<=M,其中N、P为自然数(一般假设为偶数),M=2^(m)为自然数(一般认为m>=10)。也就是说,冗余数据的个数为M*M-N*P。这些冗余数据并不是真实的反应单元输出的数据,一般会用一个可识别的符号进行标记,比如用0或Null表示。
本步骤中建立的即是芯片中的每个反应单元与该反应单元的输出数据在原始数据文件中的存储位置之间的对应关系。
步骤102:根据该一一映射关系,从原始数据文件中提取出任一反应单元的输出数据。
本步骤中,需要对芯片中某一反应单元进行研究时,就可根据该映射关系,从测序仪采集的原始数据文件中提取出该反应单元的输出数据。
本实施方式,通过建立测序芯片中各反应单元与原始数据文件中各反应单元的输出数据的存储位置的一一映射关系,使得可根据该一一映射关系,准确地从测序仪采集的原始数据中挑选出芯片中任一反应单元的输出数据,大大节省了查找反应单元的输出数据的时间。
本发明的第二实施方式涉及一种数据处理方法。第二实施方式是在第一实施方式的基础上做的进一步改进,主要改进之处在于:第二实施方式进一步限定了建立测序芯片中的每个反应单元与该反应单元的输出数据在原始数据文件中的存储位置之间的对应关系的方法。第二实施方式的具体流程如图2所示。
步骤201:按照预设的采样原则,采集测序芯片中各反应单元的输出数据,并将采集的数据存储至原始数据文件。
一般来说,原始数据文件包括至少一个标准线,原始数据文件被该标准线划分为若干个存储区域,且每个存储区域包括若干个用于采集数据的通道。
假设芯片中实际包含的反应单元的个数为N*P,测序仪采集的原始数据文件中原始数据的个数为M*M,为不失一般性,不妨设(M/2)<P<=N<=M,其中N、P为自然数(一般假设为偶数),M=2^(m)为自然数(一般认为m>=10)。测序仪在进行数据采样过程中,一般可采用多通道同时采样的方式来进行。多通道采样数据时,各通道所采样出的数据存储在所生成原始数据文件中的位置也可由设计测序仪的公司(厂家或个人)来人为指定。
本实施方式以通道个数(一般来偶数)为16为例进行说明。当通道个数为16时,通道的编号范围为[0,15],图3示出了原始数据采样区域的示意图(本实施方式中的M8=M/8),图4示出了芯片中各采集单元的区域分布示意图(其中,DN、DX满足0<DN<=DX<=M8,7*DN+DX=N)。
假设本实施方式中,测序仪的采样原则如下:(1)每个时刻,采集各通道所有数据,各通道内采集到的数据按以下规律存储至原始数据文件中:将采集的第一个数据存储至第0通道的第一位置,将采集的第二个数据存储至第1通道的第一位置,将采集的第三个数据存储至第2通道的第一位置,以此类推,直至将采集的第16个数据存储至第15通道的第一位置。紧接着,进行下一循环,即将采集的第17个数据存储至第0通道的第二位置,将采集的第18个数据存储至第1通道的第二位置……直至将采集的M*M个数据全部存储完为止。需要强调的是,本实施方式是所述的原始数据文件中数据的存储规律仅是举例说明,然并不应以此为限,在实际应用中,原始数据文件中数据的存储规律应该与具体选择的采样原则相对应。
从图3中可以看出,每个通道对应的区域中可以存储(M/2)*M8个数据,即每一纵列可存储M8个数据,共有(M/2)个纵列。以M=4096为例,在对应第0通道的存储区域中,第一位置(即上文所说的第0通道的第一位置)的坐标为(2047,3583),第二位置的坐标为(2047,3582)……,第512位置的坐标为(2047,3072),第513位置的坐标为(2046,3583)……,由此可见,第0通道的存储区域中,存储数据的顺序是:先存储该存储区域中横坐标及纵坐标都最大的位置,再以该位置为基准,按照“横坐标不变、纵坐标递减”的顺序依次存储,当一纵列存储完后,再将当前的横坐标减1,继续按照“横坐标不变、纵坐标递减”的顺序依次存储。值得一提的是,本实施方式所说的“横坐标”是对应y轴的坐标,“纵坐标”是对应x轴的坐标。
定义原始数据采样区域中的标准线分别为y=M/2-1和y=M/2,其中,y=M/2-1左侧的区域为左区域,y=M/2右侧的区域为右区域。即,通道编号分别为0、1、4、5、8、9、12、13的标准线为y=M/2-1,通道编号分别为2、3、6、7、10、11、14、15通道的标准线为y=M/2。可以看出,标准线为y=M/2-1的各通道存储数据的顺序均与第0通道存储数据的顺序相同。而标准线为y=M/2的各通道存储数据的顺序为:先存储该存储区域中横坐标及纵坐标都最小的位置,再以该位置为基准,按照“横坐标不变、纵坐标递减”的顺序依次存储,当一纵列存储完后,再将当前的横坐标加1,继续按照“横坐标不变、纵坐标递减”的顺序依次存储。
综上可知:各通道的数据采样顺序是:优先采集各通道标准线上所有反应单元的输出数据,然后采集该通道中距离上一次采集数据最近的纵列所对应的所有反应单元的输出数据,直至该通道的所有列数据采集完毕;对于同一纵列要采集的数据,按照行号递减(即纵坐标递减)的顺序来采集;若采集数据对应的反应单元是虚拟反应单元,则输出的数据用一个可识别的符号标记即可,比如用0或Null表示。
步骤202:获取每个反应单元的输出数据在原始数据文件的存储位置坐标作为第一坐标,并获取每个反应单元在测序芯片中的位置坐标作为第二坐标。
如图3、图4所示,本实施方式用(x,y)表示每个反应单元的输出数据在原始文件中的存储位置坐标,即第一坐标;用(X,Y)表示每个反应单元在芯片中的位置坐标,即第二坐标。
步骤203:确定每个反应单元的第一坐标和第二坐标之间的对应关系。即确定(x,y)与(X,Y)的对应关系。
值得一提的是,本实施方式中,“/”表示整除,“%”表示求余。
本步骤中,可通过获取第一坐标和第二坐标之间的行偏移量及列偏移量,来确定每个反应单元的第一坐标和第二坐标的对应关系。
若令列偏移量Δy=(M-P)/2,行偏移量Δx=M8-DN,则
对列:y=Y+Δy
对行:当X<DX时,x=X
当X≥DX时,x=M8+M8*((X-DX)/DN)+Δx+((X-DX)%DN)
步骤204:确定任一反应单元的第一坐标在原始数据文件中的位置关系。即确定任一(x,y)在原始数据文件中的位置关系。
该位置关系包括:第一坐标在原始数据文件中所属的区域、第一坐标相对于所属区域的标准线的距离、所属通道的编号。
本实施方式用IR表示某个反应单元的第一坐标是否属于右区域,My表示该点与其所属区域的标准线的距离,则
当y<M/2时,My=M/2-1-y,IR=0(表示对应的第一坐标属于左区域)
当y≥M/2时,My=y-M/2,IR=1(表示对应的第一坐标属于右区域)
记Qx=x/M8,Px=x%M8,RI表示(x,y)所属的区域编号,则
RI=(3-Qx/2)*4+(Qx%2)+2*IR
步骤205:根据任一反应单元的第一坐标在原始数据文件中的位置关系,确定任一反应单元的第一坐标在原始数据文件中的位置索引(Index)。即确定任一(x,y)在原始数据文件中存储的位置索引Index。
Index=My*(2*M)+(M8-1-Px)*16+RI
=My*(2*M)+(M8-1-Px)*16+(3-Qx/2)*4+(Qx%2)+2*IR
步骤206:根据该位置索引以及第一坐标和第二坐标的对应关系,确定任一反应单元的第二坐标在原始数据文件中的位置索引。即用(X,Y)表示Index。
当Y<P/2时,My=M/2-1-Δy-Y,IR=0
当Y≥P/2时,My=Y-M/2+Δy,IR=1
当X<DX时,Qx=0,Px=X
当X≥DX时,Qx=1+(X-DX)/DN,Px=Ox+(X-DX)%DN
若令变量Z=1+(X-DX)/DN,T=Δx+(X-DX)%DN,则(X,Y)与Index的关系可分如下四种情形表示:
当X<DX且Y<P/2时,有
Index=(M/2-1-Δy-Y)*(2*M)+(M8-1-X)*16+12
当X<DX且Y≥P/2时,有
Index=(Y-M/2+Δy)*(2*M)+(M8-1-X)*16+14
当X≥DX且Y<P/2时,有
Index=(M/2-1-Δy-Y)*(2*M)+(M8-1-T)*16+(3-Z/2)*4+Z%2
当X≥DX且Y≥P/2时,有
Index=(Y-M/2+Δy)*(2*M)+(M8-1-T)*16+(3-Z/2)*4+Z%2+2
到此,即建立出芯片中的每个反应单元与该反应单元的输出数据在原始数据文件中的存储位置之间的一一映射关系。
步骤207:根据该任一反应单元的第二坐标在原始数据文件中的位置索引,从原始数据文件中提取出任一反应单元的输出数据。
上面各种方法的步骤划分,只是为了描述清楚,实现时可以合并为一个步骤或者对某些步骤进行拆分,分解为多个步骤,只要包含相同的逻辑关系,都在本专利的保护范围内;对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计,但不改变其算法和流程的核心设计都在该专利的保护范围内。
本发明第三实施方式涉及一种数据处理装置。如图5所示,该数据处理装置包括;建立模块51及提取模块52。
其中,建立模块51用于根据测序仪的采样原则,建立测序芯片中各反应单元与原始数据文件中所述各反应单元的输出数据的存储位置的一一映射关系。
测序仪采集的是芯片中各反应单元(也称反应腔或井等)的输出数据。但由于测序仪采集的数据的个数大于实际芯片中各反应单元输出的数据的个数,因此,其采集的原始数据文件中不仅包括各反应单元的输出数据,也包括冗余数据。这些冗余数据并不是真实的反应单元输出的数据,一般会用一个可识别的符号进行标记,比如用0或Null表示。
建立模块建立的即是芯片中的每个反应单元与该反应单元的输出数据在原始数据文件中的存储位置之间的对应关系。
提取模块52用于根据该一一映射关系,从原始数据文件中提取出任一反应单元的输出数据。
需要对芯片中某一反应单元进行研究时,提取模块就可根据该映射关系,从测序仪采集的原始数据文件中提取出该反应单元的输出数据。
本实施方式,通过建立测序芯片中各反应单元与原始数据文件中各反应单元的输出数据的存储位置的一一映射关系,使得可根据该一一映射关系,准确地从测序仪采集的原始数据中挑选出芯片中任一反应单元的输出数据,大大节省了查找反应单元的输出数据的时间。
不难发现,本实施方式为与第一实施方式相对应的装置实施例,本实施方式可与第一实施方式互相配合实施。第一实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在第一实施方式中。
值得一提的是,本实施方式中所涉及到的各模块均为逻辑模块,在实际应用中,一个逻辑单元可以是一个物理单元,也可以是一个物理单元的一部分,还可以以多个物理单元的组合实现。此外,为了突出本发明的创新部分,本实施方式中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入,但这并不表明本实施方式中不存在其它的单元。
本发明第四实施方式涉及一种数据处理装置。第四实施方式是在第三实施方式的基础上做的进一步改进,主要改进之处在于:第四实施方式进一步限定了建立测序芯片中的每个反应单元与该反应单元的输出数据在原始数据文件中的存储位置之间的对应关系的方法。
如图6所示,本实施方式中,数据处理装置还包括采集模块53。该采集模块53用于在根据测序仪的采样规律,建立测序芯片中各反应单元与原始数据文件中各反应单元的输出数据的存储位置的一一映射关系之前,按照预设的采样原则,采集测序芯片中各反应单元的输出数据,并将采集的数据存储至原始数据文件。
值得一提的是,采集模块采集的数据的个数大于反应单元输出数据的个数,多余的数据即为冗余数据。这些冗余数据并不是真实的反应单元输出的数据,一般会用一个可识别的符号进行标记,比如用0或Null表示。
另外,原始数据文件包括至少一个标准线,原始数据文件被该标准线划分为若干个存储区域,且每个存储区域包括若干个用于采集数据的通道。
本实施方式中,建立模块51具体包括:获取单元511、第一确定单元512、第二确定单元513及第三确定单元514。
其中,获取单元511用于获取每个反应单元的输出数据在原始数据文件的存储位置坐标作为第一坐标,并获取每个反应单元在测序芯片中的位置坐标作为第二坐标。
第一确定单元512用于确定每个反应单元的第一坐标和第二坐标之间的对应关系。本实施方式中,第一确定单元可包括:第一获取子单元及第二获取子单元(图中未示出)。其中,第一获取子单元用于获取第一坐标和第二坐标之间的行偏移量及列偏移量。第二获取子单元用于根据该行偏移量及列偏移量,获取每个反应单元的第一坐标和第二坐标的对应关系。
第二确定单元513用于根据任一反应单元的第一坐标在原始数据文件中的位置关系,确定任一反应单元的第一坐标在原始数据文件中的位置索引。
该位置关系包括第一坐标在原始数据文件中所属的区域、第一坐标相对于所属区域的标准线的距离、所属通道的编号。
第三确定单元514用于根据该位置索引以及第一坐标和第二坐标的对应关系,确定任一反应单元的第二坐标在原始数据文件中的位置索引。
由于第二实施方式与本实施方式相互对应,因此本实施方式可与第二实施方式互相配合实施。第二实施方式中提到的相关技术细节在本实施方式中依然有效,在第二实施方式中所能达到的技术效果在本实施方式中也同样可以实现,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在第二实施方式中。
本领域的普通技术人员可以理解,上述各实施方式是实现本发明的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。

Claims (10)

1.一种数据处理方法,其特征在于,包括:
根据测序仪的采样规律,建立测序芯片中各反应单元与原始数据文件中所述各反应单元的输出数据的存储位置的一一映射关系;
根据所述一一映射关系,从所述原始数据文件中提取出任一反应单元的输出数据。
2.根据权利要求1所述的数据处理方法,其特征在于,所述建立测试芯片中各反应单元与原始数据文件中所述各反应单元的输出数据的存储位置的一一映射关系,具体包括:
获取每个反应单元的输出数据在所述原始数据文件的存储位置坐标作为第一坐标,并获取每个反应单元在测序芯片中的位置坐标作为第二坐标;
确定所述每个反应单元的第一坐标和第二坐标之间的对应关系;
根据任一反应单元的第一坐标在所述原始数据文件中的位置关系,确定所述任一反应单元的第一坐标在所述原始数据文件中的位置索引;
根据所述位置索引以及所述第一坐标和第二坐标的对应关系,确定任一反应单元的第二坐标在所述原始数据文件中的位置索引。
3.根据权利要求2所述的数据处理方法,其特征在于,所述位置关系包括:所述第一坐标在所述原始数据文件中所属的区域、所述第一坐标相对于所属区域的标准线的距离、所属通道的编号。
4.根据权利要求2所述的数据处理方法,其特征在于,确定所述每个反应单元的第一坐标和第二坐标之间的对应关系,具体包括:
获取第一坐标和第二坐标之间的行偏移量及列偏移量;
根据所述行偏移量及列偏移量,获取所述每个反应单元的第一坐标和第二坐标的对应关系。
5.根据权利要求1所述的数据处理方法,其特征在于,在根据测序仪的采样规律,建立测序芯片中各反应单元与原始数据文件中所述各反应单元的输出数据的存储位置的一一映射关系之前,还包括:
按照预设的采样原则,采集测序芯片中各反应单元的输出数据,并将所述采集的数据存储至原始数据文件;
其中,所述采集的数据的个数大于所述反应单元输出数据的个数;
所述原始数据文件包括至少一个标准线,所述原始数据文件被所述标准线划分为若干个存储区域,且每个存储区域包括若干个用于采集数据的通道。
6.一种数据处理装置,其特征在于,包括:建立模块及提取模块;
所述建立模块用于根据测序仪的采样原则,建立测序芯片中各反应单元与原始数据文件中所述各反应单元的输出数据的存储位置的一一映射关系;
所述提取模块用于根据所述一一映射关系,从所述原始数据文件中提取出任一反应单元的输出数据。
7.根据权利要求6所述的数据处理装置,其特征在于,所述建立模块具体包括:获取单元、第一确定单元、第二确定单元及第三确定单元;
所述获取单元用于获取每个反应单元的输出数据在所述原始数据文件的存储位置坐标作为第一坐标,并获取每个反应单元在测序芯片中的位置坐标作为第二坐标;
所述第一确定单元用于确定所述每个反应单元的第一坐标和第二坐标之间的对应关系;
所述第二确定单元用于根据任一反应单元的第一坐标在所述原始数据文件中的位置关系,确定所述任一反应单元的第一坐标在所述原始数据文件中的位置索引;
所述第三确定单元用于根据所述位置索引以及所述第一坐标和第二坐标的对应关系,确定任一反应单元的第二坐标在所述原始数据文件中的位置索引。
8.根据权利要求7所述的数据处理装置,其特征在于,所述位置关系包括:所述第一坐标在所述原始数据文件中所属的区域、所述第一坐标相对于所属区域的标准线的距离、所属通道的编号。
9.根据权利要求7所述的数据处理装置,其特征在于,所述第一确定单元具体包括:第一获取子单元及第二获取子单元;
所述第一获取子单元用于获取第一坐标和第二坐标之间的行偏移量及列偏移量;
所述第二获取子单元用于根据所述行偏移量及列偏移量,获取所述每个反应单元的第一坐标和第二坐标的对应关系。
10.根据权利要求6所述的数据处理装置,其特征在于,所述数据处理装置还包括:采集模块;
所述采集模块用于在根据测序仪的采样规律,建立测序芯片中各反应单元与原始数据文件中所述各反应单元的输出数据的存储位置的一一映射关系之前,按照预设的采样原则,采集测序芯片中各反应单元的输出数据,并将所述采集的数据存储至原始数据文件;
其中,所述采集的数据的个数大于所述反应单元输出数据的个数;
所述原始数据文件包括至少一个标准线,所述原始数据文件被所述标准线划分为若干个存储区域,且每个存储区域包括若干个用于采集数据的通道。
CN201710028439.9A 2017-01-16 2017-01-16 一种数据处理方法及数据处理装置 Active CN106815343B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710028439.9A CN106815343B (zh) 2017-01-16 2017-01-16 一种数据处理方法及数据处理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710028439.9A CN106815343B (zh) 2017-01-16 2017-01-16 一种数据处理方法及数据处理装置

Publications (2)

Publication Number Publication Date
CN106815343A true CN106815343A (zh) 2017-06-09
CN106815343B CN106815343B (zh) 2020-06-05

Family

ID=59111270

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710028439.9A Active CN106815343B (zh) 2017-01-16 2017-01-16 一种数据处理方法及数据处理装置

Country Status (1)

Country Link
CN (1) CN106815343B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330106A (zh) * 2017-07-07 2017-11-07 郑州云海信息技术有限公司 一种基于fpga的数据过滤方法及装置
CN111961710A (zh) * 2020-08-12 2020-11-20 苏州金唯智生物科技有限公司 一种样本处理方法及设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030093439A1 (en) * 2001-11-12 2003-05-15 Kazuhiko Mogi Method and apparatus for relocating data related to database management system
CN102722549A (zh) * 2012-05-28 2012-10-10 中国科学院遥感应用研究所 一种基于集群的遥感数据集实时渲染服务
CN102916160A (zh) * 2011-08-03 2013-02-06 三星Sdi株式会社 用于形成电极板的装置
CN103091328A (zh) * 2011-11-07 2013-05-08 欧姆龙株式会社 对检查结果的目视检验操作进行辅助的系统、装置及方法
CN106201673A (zh) * 2016-06-24 2016-12-07 中国石油天然气集团公司 一种地震数据处理方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030093439A1 (en) * 2001-11-12 2003-05-15 Kazuhiko Mogi Method and apparatus for relocating data related to database management system
CN102916160A (zh) * 2011-08-03 2013-02-06 三星Sdi株式会社 用于形成电极板的装置
KR101264742B1 (ko) * 2011-08-03 2013-05-14 삼성에스디아이 주식회사 전극판 형성 장치
CN103091328A (zh) * 2011-11-07 2013-05-08 欧姆龙株式会社 对检查结果的目视检验操作进行辅助的系统、装置及方法
CN102722549A (zh) * 2012-05-28 2012-10-10 中国科学院遥感应用研究所 一种基于集群的遥感数据集实时渲染服务
CN106201673A (zh) * 2016-06-24 2016-12-07 中国石油天然气集团公司 一种地震数据处理方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330106A (zh) * 2017-07-07 2017-11-07 郑州云海信息技术有限公司 一种基于fpga的数据过滤方法及装置
CN107330106B (zh) * 2017-07-07 2020-11-20 苏州浪潮智能科技有限公司 一种基于fpga的数据过滤方法及装置
CN111961710A (zh) * 2020-08-12 2020-11-20 苏州金唯智生物科技有限公司 一种样本处理方法及设备
WO2022032885A1 (zh) * 2020-08-12 2022-02-17 苏州金唯智生物科技有限公司 一种样本处理方法及设备
CN111961710B (zh) * 2020-08-12 2024-04-26 苏州金唯智生物科技有限公司 一种样本处理方法及设备

Also Published As

Publication number Publication date
CN106815343B (zh) 2020-06-05

Similar Documents

Publication Publication Date Title
CN107577771A (zh) 一种大数据挖掘系统
CN106844324B (zh) 一种变动列数据导出为Excel格式的方法
CN108182972A (zh) 基于分词网络的中文疾病诊断的智能编码方法及系统
CN106709032A (zh) 抽取电子表格文档中结构化信息的方法及装置
CN104462184A (zh) 一种基于双向抽样组合的大规模数据异常识别方法
CN104252507B (zh) 一种企业数据匹配方法和装置
CN105843982B (zh) 用于可编程逻辑器件的位流生成方法、装置及设计系统
CN115145906A (zh) 一种面向结构化数据的预处理和补全方法
CN106815343A (zh) 一种数据处理方法及数据处理装置
CN103176905B (zh) 一种缺陷关联方法及装置
CN101493340A (zh) 一种车辆导航系统中兴趣点信息的快速检索方法
CN106407233A (zh) 一种数据处理方法和设备
CN103310205B (zh) 一种手写体数字识别方法及装置
CN116839900B (zh) 基于因果注意的时序卷积网络的故障诊断方法
CN102855278B (zh) 一种仿真方法和系统
CN108052587B (zh) 基于决策树的大数据分析方法
CN115525235A (zh) 一种基于存储结构的数据运算方法及系统
CN107992590B (zh) 一种有利于信息比对的大数据系统
CN106997462A (zh) 一种量子线路图像识别方法
CN112559590A (zh) 一种测绘数据资源处理方法、装置及服务器
CN104239314A (zh) 一种扩展检索词的方法和系统
CN112702407A (zh) 一种基于区块链的大数据的处理系统及处理方法
US20190354459A1 (en) Method and apparatus for tracing common cause failure in integrated drawing
CN105718702A (zh) 一种Def库与3D集成电路bookshelf库转换的方法
CN105117733A (zh) 一种确定聚类样本差异的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A data processing method and data processing device

Effective date of registration: 20230626

Granted publication date: 20200605

Pledgee: Fengxian Branch of Shanghai Rural Commercial Bank Co.,Ltd.

Pledgor: SHANGHAI TURTLE TECHNOLOGY Co.,Ltd.

Registration number: Y2023310000297

PE01 Entry into force of the registration of the contract for pledge of patent right