CN111961710A - 一种样本处理方法及设备 - Google Patents
一种样本处理方法及设备 Download PDFInfo
- Publication number
- CN111961710A CN111961710A CN202010807364.6A CN202010807364A CN111961710A CN 111961710 A CN111961710 A CN 111961710A CN 202010807364 A CN202010807364 A CN 202010807364A CN 111961710 A CN111961710 A CN 111961710A
- Authority
- CN
- China
- Prior art keywords
- sample
- sample arrangement
- sets
- arrangement sets
- fitness
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title abstract description 17
- 238000012360 testing method Methods 0.000 claims abstract description 81
- 238000012163 sequencing technique Methods 0.000 claims abstract description 52
- 238000012216 screening Methods 0.000 claims abstract description 32
- 238000000034 method Methods 0.000 claims abstract description 27
- 108091028043 Nucleic acid sequence Proteins 0.000 claims description 28
- 238000012545 processing Methods 0.000 claims description 12
- 238000010606 normalization Methods 0.000 claims description 10
- 108091034117 Oligonucleotide Proteins 0.000 claims description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 108090000623 proteins and genes Proteins 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000035772 mutation Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 108700028369 Alleles Proteins 0.000 description 1
- 108020004414 DNA Proteins 0.000 description 1
- 102000053602 DNA Human genes 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000003915 cell function Effects 0.000 description 1
- 239000003153 chemical reaction reagent Substances 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000002986 genetic algorithm method Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000007873 sieving Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
- C12Q1/6874—Methods for sequencing involving nucleic acid arrays, e.g. sequencing by hybridisation
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Chemical & Material Sciences (AREA)
- Organic Chemistry (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Microbiology (AREA)
- Immunology (AREA)
- Biotechnology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Analytical Chemistry (AREA)
- Physics & Mathematics (AREA)
- Biochemistry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Genetics & Genomics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明实施例公开了一种样本处理方法及设备,该方法包括:为每个样本分配至少一条测试通道,所有样本基于分配的测试通道形成多个样本排列集合;从多个样本排列集合中筛选出符合第一设定条件的至少两个样本排列集合;将筛选出每两个样本排列集合中的测试通道进行交叉互换,并将交叉互换后的样本排列集合进行测试通道的变异,得到多个新样本排列集合以及将每个新样本排列集合作为样本排列集合;返回从多个样本排列集合中筛选出符合第一设定条件的至少两个样本排列集合操作,直至达到终止条件为止,则选择符合第二设定条件的样本排列集合作为最终的样本排列集合,可以快速准确地给出样本在测序芯片中的测试通道排列的情况,提高效率。
Description
技术领域
本发明实施例涉及数据处理技术,尤其涉及一种样本处理方法及设备。
背景技术
随着技术的进步,采用测序仪(MGI)测序对细胞功能确定、遗传基因研究、疾病诊断等起着关键的重要作用。
在采用测序仪进行测序之前,需要对样本进行制备,其中,制备样本的主要步骤包括:片段化和/或筛分指定长度的目标序列;将目标片段转化成双链DNA;在目标片段末端连上寡核苷酸接头序列;以及定量最终的测序文库。
目前在测序文库中,每个样本在测序芯片中的测试通道的排列情况只能通过人工的方式进行计算,工作繁琐,效率较低。
发明内容
本发明实施例提供了一种样本处理方法及设备,可以快速准确地给出样本在测序芯片中的测试通道排列的情况,提高效率。
第一方面,本发明实施例提供了一种样本处理方法,包括:
为每个样本分配至少一条测试通道,所有样本基于分配的测试通道形成多个样本排列集合;其中,所述样本为待测的DNA序列或者RNA序列;
从所述多个样本排列集合中筛选出符合第一设定条件的至少两个样本排列集合;
将筛选出的样本排列集合中的每两个样本排列集合中的测试通道进行交叉互换,并将交叉互换后的样本排列集合进行测试通道的变异,得到多个新样本排列集合以及将每个新样本排列集合作为样本排列集合;
返回从所述多个样本排列集合中筛选出符合第一设定条件的至少两个样本排列集合操作,直至达到终止条件为止,则选择符合第二设定条件的样本排列集合作为最终的样本排列集合。
第二方面,本发明实施例还提供了一种样本处理方法,包括:
将测序芯片的每条测试通道中的样本匹配Index序列;其中,所述样本为待测的DNA序列或者RNA序列;
判断所述测试通道中样本匹配的Index序列是否符合设定条件;
若是,则确定所述样本与所述Index序列真实匹配,并基于真实匹配的Index序列对所述样本进行测序。
第三方面,本发明实施例还提供了一种设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例提供的方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明实施例提供的方法。
本发明实施例提供的技术方案,通过为每个样本分配至少一条测试通道(lane),所有样本基于分配的lane形成多个样本排列集合,筛选出符合第一设定条件的至少两个样本排列集合,并将筛选出的样本排列集合中的每两个样本排列集合中的测试通道进行交叉互换,并将交叉互换后的样本排列集合进行测试通道的变异,得到多个新样本排列集合,并将每个新样本排列集合作为样本排列集合,返回筛选样本排列集合的操作,直至达到终止条件为止,则筛选出符合第二设定条件的样本排列集合作为最终的样本排列集合,即通过为每个样本分配至少一条lane,所有样本基于分配的lane形成多个样本排列集合,通过对多个样本排列集合的筛选,以及对筛选得到的样本排列集合的交叉互换,变异,并返回筛选样本排列集合的操作,经过多次迭代,选择合适的样本排列集合作为最终的样本排列集合,可以快速准确地给出样本在测序芯片中排lane的情况,提高效率。
附图说明
图1a是本发明实施例提供的一种样本处理方法流程图;
图1b是Index序列的示意图;
图2是本发明实施例提供的一种样本处理方法流程图;
图3a是本发明实施例提供的一种样本处理方法流程图;
图3b是本发明实施例提供的一种样本处理方法流程图;
图4是本发明实施例提供的一种样本处理装置结构框图;
图5是本发明实施例提供的一种样本处理装置结构框图;
图6是本发明实施例提供的一种设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
图1a是本发明实施例提供的一种样本处理方法流程图,所述方法可以由样本处理装置来执行,所述装置可以由软件和/或硬件来实现,所述装置可以配置计算机、服务器等设备中,所述方法可以应用于对已完成建库的寡核苷酸接头Index序列以及对应的样本进行测试通道(lane)排列的场景中。
如图1a所示,本发明实施例提供的技术方案包括:
S110:为每个样本分配多条测试通道,所有样本基于分配的多条测试通道形成多个样本排列集合;其中,所述样本为待测的DNA序列或者RNA序列。
在本发明实施例中,样本为待测的DNA序列或者RNA序列,其中,来源单一的样本为单样本,来源于多处的样本为多样本。测序用的样本可以是单样本,也可以将一些样本混合在一起(多样本)进行测序。
在本发明实施例中,每个样本属于已建测序文库,其中,每个样本匹配有Index序列,但是没有提供样本在测序芯片中的排lane情况。其中,lane:表示测序芯片上的一条流通槽,测序文库与试剂均在lane中,测序信号的扫描也是按照一条lane上的一个tile进行。其中,可以采用测序仪(MGI)进行测序,MGI通过荧光信号识别lane中样本的序列。
其中,表1为输入的样本的信息,其中,I5为样本匹配的Index序列,Data为样本的数据量(G),Name为样本的名称,可以将表1的内容输入到设备中,从而输入的内容进行处理。
表1
Name | ID | I5 | Date(G) |
Sample49 | 162 | CGTTGAGT | 2 |
Sample50 | 161 | TTCCTGTG | 2 |
Sample51 | 160 | TCGTCTCA | 2 |
Sample52 | 138 | GTGCTTAC | 2 |
Sample53 | 29 | GCACAACT | 2 |
Sample54 | 277 | AACGGTCA | 2 |
Sample55 | 63 | GATGTGTG | 2 |
Sample56 | 262 | TCTCCGAT | 2 |
其中,建立测序文库的需要满足如下的条件:
A:每条lane中样本的数据量在第一预设数据范围内,且多条lane之间的样本的数据量之间的差值在第二预设数据范围内。具体的,每条lane的数据量范围:130G≥总数据量≥90G;若有多条lane,每条lane之间的数据量不要相差太多。
B:每条lane中样本匹配的Index序列不存在重复。
C:每条lane中样本匹配的Index序列各个位置的碱基比例同时大于或者等于预设比例。具体的,每条lane中Index序列(Index序列暂时不限制长度)每个位置的A,G,C,T碱基比例必须同时≥12.5%。
其中,每个位置碱基比例的计算方法可以是如下方法:每个位置的碱基比例要考虑Index序列的数据量。具体可以是:每个位置的x碱基比例=在相同位置存在碱基x的数据量/总数据量。其中,x可以是A,G,C,T。例如,如图1b所示,第一个位置C碱基的比例=(S1+S3)数据量/(S1+S2+S3+S4)总数据量。
在本发明实施例中可以采用遗传算法的方法给测序文库中的每个样本初始化一个样本排列的情况,形成样本排列集合;需要给每个样本初始化多条lane,所有样本中的每个样本基于初始化的一条lane形成样本排列集合,所有样本中的每个样本基于初始化的多条lane形成多个样本排列集合。其中,遗传算法的基本步骤可以包括初始化,适应度函数计算,选择,交叉互换,变异。其中,样本排列集合中的元素为在分配的测试通道上的样本,在每个样本排列集合中,样本为基因,lane的排列情况为等位基因。其中,形成的多个样本排列集合可以是100个,或者也可以是其他数量。
S120:从所述多个样本排列集合中筛选出符合第一设定条件的至少两个样本排列集合。
在本发明实施例中,采用自然选择的方法(例如,锦标赛方法)从多个样本排列集合中筛选出符合第一设定条件的n个样本排列集合。其中,第一设定条件可以是适应度大于第一设定值,或者还可以是其他条件。其中,适应度的计算可以参考下述实施例的介绍。
S130:将筛选出的样本排列集合中的每两个样本排列集合中的测试通道进行交叉互换,并将交叉互换后的样本排列集合进行测试通道的变异,得到多个新样本排列集合。
在本发明实施例中,在筛选出的样本排列集合中,将每两个样本排列集合中样本的lane进行交叉互换,并将交叉互换后的样本排列集合按照设定的规则进行lane的变异,得到多个新样本排列集合,并将新样本排列集合作为样本排列集合,得到多个样本排列集合。其中,设定的规则可以根据需要进行设定,其中,交叉互换后的样本排列集合中lane的变异率小于或者等于预设变异率,预设变异率可以是10%。
在本发明实施例中,对于本步骤进行举例说明,例如存在A,B,C,D和E五个样本,该五个样本分配的lane分别是1,2,1,2,1,该五个样本分配的另外的lane分别是2,1,2,2,1。则两个样本排列集合分别是S1和S2,其中,S1={A1,B2,C1,D2,E1}以及S2={A2,B1,C2,D2,E1},其中,A1表示A样本在第一条lane,样本排列集合中的其他元素表示的含义与A1类似。将S1和S2中样本分配的lane进行交叉互换,例如可以将A和B样本的lane进行交叉互换,得到交叉互换后的样本排列集合S3和S4,S3={A2,B1,C1,D2,E1},S4={A1,B2,C2,D2,E1}。在交叉互换后,可以将集合S3和S4中进行排lane的变异,例如,集合S3将A样本的排lane进行变异,变异为第一条lane,则集合S3变异后得到的新样本排列集合为{A1,B1,C1,D2,E1}。
需要说明的是,样本排列集合的形式并不局限于上述的表述形式,还可以是其他形式,例如,样本排列集合可以是样本按照lane排列形成的集合。具体的,若存在A,B,C,D和E五个样本,该五个样本分配的lane分别是1,2,1,2,1,样本排列集合S1还可以是该五个样本分配的另外的lane分别是2,1,2,2,1,则样本排列集合S2还可以是则将S1和S2进行样本的lane的交叉互换,即将A和B样本的lane进行交叉互换,从而得到交叉互换后的样本排列集合。
S140:将每个新样本排列集合作为样本排列集合。
在本发明实施例中,将筛选出的样本排列集合中的每两个样本排列集合中的测试通道进行交叉互换,并将交叉互换后的样本排列集合进行测试通道的变异,得到的新样本排列集合作为样本排列集合。
S150:判断是否达到终止条件。
若是,执行S160。若否,返回S120。
在本发明实施例中,终止条件可以是返回次数达到设定次数,或者可以是当前得到的多个样本排列集合的平均适应度与上一次得到的多个样本排列集合的平均适应度的差值在预设差值范围内,或者其他终止条件。其中,设定次数可以是100次,其中,设定次数可以根据实际情况进行设置。
S160:选择符合第二设定条件的样本排列集合作为最终的样本排列集合。
在本发明实施例中,第二设定条件可以是适应度最大,或者适应度大于第二设定值,或者其他条件。
在本发明实施例中,经过多次迭代,达到终止条件后,选择符合第二设定条件的样本排列集合作为最终的样本排列集合,最终的样本排列集合为样本排lane的较佳方案。
本发明实施例提供的技术方案,通过为每个样本分配至少一条测试通道,所有样本基于分配的测试通道形成多个样本排列集合,筛选出符合第一设定条件的至少两个样本排列集合,并将筛选出的样本排列集合中的每两个样本排列集合中的测试通道进行交叉互换,并将交叉互换后的样本排列集合进行测试通道的变异,得到多个新样本排列集合,并将每个新样本排列集合作为样本排列集合,返回筛选样本排列集合的操作,直至达到终止条件为止,筛选出符合第二设定条件的样本排列集合作为最终的样本排列集合,即通过为每个样本分配至少一条测试通道,所有样本基于分配的测试通道形成多个样本排列集合,通过对多个样本排列集合的筛选,以及对筛选得到的样本排列集合的交叉互换,变异,并返回筛选样本排列集合的操作,经过多次迭代,选择合适的样本排列集合作为最终的样本排列集合,可以快速准确地给出样本在测序芯片中排lane的情况,提高效率。
图2是本发明实施例提供的一种样本处理方法流程图,在本实施例中,可选的,所述从所述多个样本排列集合中筛选出符合第一设定条件的至少两个样本排列集合,包括:
确定所述多个样本排列集合中每个样本排列集合的适应度,筛选出适应度大于第一设定值的至少两个样本排列集合。
可选的,所述直至达到终止条件为止,则选择符合第二设定条件的样本排列集合作为最终的样本排列集合,包括:
直至返回次数达到设定次数为止,或者直至当前得到的多个样本排列集合的平均适应度与上一次得到的多个样本排列集合的平均适应度的差值在预设差值范围内为止,则在一代或者多代的多个样本排列集合中选择适应度最大的样本排列集合作为最终的样本排列集合;
其中,在多代的多个样本排列集合中,每两代样本排列集合的平均适应度的差值在预设范围内。
如图2所示,本发明实施例提供的技术方案包括:
S210:为每个样本分配至少一条测试通道,所有样本基于分配的测试通道形成多个样本排列集合;其中,所述样本为待测的DNA序列或者RNA序列。
S220:确定所述多个样本排列集合中每个样本排列集合的适应度,筛选出适应度大于第一设定值的至少两个样本排列集合。
在本发明实施例的一个实施方式中,可选的,所述确定所述多个样本排列集合中每个样本排列集合的适应度,包括:基于每个样本排列集合中的样本数据量归一化值、每条测试通道中样本匹配的寡核苷酸接头Index序列的碱基比例归一化值以及样本匹配的Index序列是否重复的结果确定所述样本排列集合的适应度。
在本发明实施例中的一个实施方式中,可选的,所述基于每个样本排列集合中的样本数据量归一化值、每条测试通道中样本的寡核苷酸接头Index序列的碱基比例归一化值以及样本的Index序列是否重复的结果确定所述样本排列集合的适应度,包括:基于如下公式确定所述样本排列集合的适应度;
fitness=A+B+C
其中,fitness为所述样本排列集合的适应度;A为所述样本数据量归一化值;B为lane中样本的Index序列的碱基比例归一化值;其中,若样本的Index序列存在重复,则C为-1,若样本的Index序列不存在重复,则C为0。
其中,上述公式为适应度函数。其中,A=所有lane中样本的最小数据量/数据量平均值,数据量平均值可以为:所有样本的数据量/lane的数量。
在本发明实施例中,lane中样本的Index序列的碱基比例归一化值的确定方法:在每条lane中,确定Index序列所有位置碱基比例的最小值,将各个lane中Index序列所有位置碱基比例的最小值相加,将最小值之和与lane的数量进行除法处理,再与预设比例进行除法处理,得到lane中样本的Index序列的碱基比例归一化值。即lane中样本的Index序列的碱基比例归一化值为:各条lane中Index序列所有位置碱基比例的最小值之和/lane的数量/预设比例。其中预设比例为0.125。
由此,通过确定各个样本排列集合的适应度,并筛选出适应度大于第一设定值的样本排列集合,可以筛选较佳的样本排列集合,提高样本排lane的效率。
S230:将筛选出的样本排列集合中的每两个样本排列集合中的测试通道进行交叉互换,并将交叉互换后的样本排列集合进行测试通道的变异,得到多个新样本排列集合。
S240:将每个新样本排列集合作为样本排列集合。
S250:判断返回次数是否达到设定次数,或者判断当前得到的多个样本排列集合的平均适应度与上一次得到的多个样本排列集合的平均适应度的差值是否在预设差值范围内。
在本发明实施例中,设定次数可以是100次。预设差值范围可以根据需要进行设置。
若是,执行S260,若否,返回S220。
S260:在一代或者多代的多个样本排列集合中选择适应度最大的样本排列集合作为最终的样本排列集合。
在本发明实施例中,在多代的多个样本排列集合中,每两代样本排列集合的平均适应度的差值在预设范围内。
在本发明实施例中,当返回次数达到设定次数后,可以在当前代的多个样本排列集合中选择适应度最大的样本排列集合作为最终的样本排列集合。或者当返回次数达到设定次数后,多代样本排列集合的平均适应度趋向平稳,则在平均适应度平稳的多代的多个样本排列集合中选择适应度最大的的样本排列集合作为最终的样本排列集合。
在上述实施例的基础上,本发明实施例提供的技术方案还可以包括:对最终的样本排列集合中的每个样本进行测序。具体的,对样本排列集合中的每个样本进行基因序列的测序,从而便于对基因序列进行分析和研究。
图3a是本发明实施例提供的一种样本处理方法流程图,所述方法可以由样本处理装置来执行,所述装置可以由软件和/或硬件来实现,所述装置可以配置计算机、服务器等设备中,所述方法可以应用于对未建库的样本进行Index序列匹配的场景中。其中,样本数据量以及样本的排lane情况已经提供。
如图3a所示,本发明实施例提供的技术方案包括:
S310:将测序芯片的每条测试通道中的样本匹配Index序列;其中,所述样本为待测的DNA序列,或者RNA序列。
在本发明实施例中,每个样本属于未建的测序文库,其中,样本的数据量和样本在测序芯片中的排lane的情况已知,但是没有提供样本的Index序列的信息。
其中,表2是输入的样本的信息,其中,lane为样本在测序芯片中所在lane的信息。表3是数据库中Index序列的信息。
表2
表3
index ID | index sequence |
A01 | CGCTACAT |
B01 | AATCCAGC |
C01 | CGTCTAAC |
D01 | AACTCGGA |
其中,测序文件建立需要满足如下条件:
A:每条lane中样本的数据量在第一预设数据范围内,且多条lane之间的样本的数据量之间的差值在第二预设数据范围内。具体的,每条lane的数据量范围:130G≥总数据量≥90G;若有多条lane,每条lane之间的数据量不要相差太多。
B:每条lane中样本匹配的Index序列不存在重复。
C:每条lane中样本匹配的Index序列各个位置的碱基比例同时大于或者等于预设比例。具体的,每条lane中Index序列(Index暂时不限制长度)每个位置的A,G,C,T碱基比例必须同时≥12.5%。
其中,每个位置碱基比例的计算方法可以是如下方法:每个位置的碱基比例要考虑Index序列的数据量。具体可以是:每个位置的x碱基比例=在相同位置存在碱基x的数据量/总数据量。其中,x可以是A,G,C,T。例如,如图1b所示,第一个位置C碱基的比例=(S1+S3)数据量/(S1+S2+S3+S4)总数据量。
在本发明实施例中,可以将测序芯片中的每条lane中的样本随机匹配Index序列,或者根据其他规则匹配Index序列。
S320:判断所述测试通道中样本匹配的Index序列是否符合设定条件。
若是,执行S330,若否,返回S310。
在本发明实施例的一个实施方式中,可选的,所述判断所述测试通道中样本匹配的Index序列是否符合设定条件,包括:所述判断匹配的Index序列是否满足如下条件:
每条所述测试通道中样本匹配的Index序列不存在重复;
每条所述测试通道中样本匹配的Index序列各个位置的碱基比例同时大于或者等于预设比例。其中,预设比例可以是0.125。
在本发明实施例中,在每条lane中,可以排列多个样本,每个lane中各个样本匹配的Index序列不存在重复。其中,样本匹配的Index序列各个位置的碱基比例的计算方法可以参考上述实施例,不再累述。其中,每条lane中样本的数据量在第一预设数据范围内,且多条lane之间的样本的数据量之间的差值在第二预设数据范围内。
S330:确定所述样本与所述Index序列真实匹配,并基于真实匹配的Index序列对所述样本进行测序。
在本发明实施例中,若lane中样本匹配的Index序列符合设定条件,确定样本与Index序列真实匹配,基于匹配的Index序列可以建立测序文库,并基于真实匹配的Index序列对样本进行测序,从而便于对基因序列进行分析和研究。
本发明实施例提供的技术方案,通过将测序芯片的每条测试通道中的样本匹配Index序列;若判断测试通道中样本匹配的Index序列符合设定条件;则确定所述样本与所述Index序列真实匹配,并基于真实匹配的Index序列对所述样本进行测序,可以快速准确地匹配Index序列,提高效率。
图3b是本发明实施例提供的一种样本处理方法流程图,如图3b所示,针对属于未建测序文库的样本,根据样本数量选择合适的Index序列建立测序文库,从而输出建立测序文库的结果和Index序列的碱基比例。针对属于已建测序文库的样本,根据样本排lane情况建立测序文库,最后输出建立测序文库的结果和Index序列的碱基比例。
图4是本发明实施例提供的一种样本处理装置结构框图,如图4所示,所述装置包括:形成模块410、筛选模块420、互换/变异模块430和返回/选择模块440。
形成模块410,用于为每个样本分配至少一条测试通道,所有样本基于分配的测试通道形成多个样本排列集合;其中,所述样本为待测的DNA序列或者RNA序列;
筛选模块420,用于从所述多个样本排列集合中筛选出符合第一设定条件的至少两个样本排列集合;
互换/变异模块430,用于将筛选出的样本排列集合中的每两个样本排列集合中的测试通道进行交叉互换,并将交叉互换后的样本排列集合进行测试通道的变异,得到多个新样本排列集合以及将每个新样本排列集合作为样本排列集合;
返回/选择模块440,用于返回从所述多个样本排列集合中筛选出符合第一设定条件的至少两个样本排列集合操作,直至达到终止条件为止,则选择符合第二设定条件的样本排列集合作为最终的样本排列集合。
可选的,筛选模块420,用于确定所述多个样本排列集合中每个样本排列集合的适应度,筛选出适应度大于第一设定值的至少两个样本排列集合。
可选的,所述直至达到终止条件为止,则选择符合第二设定条件的样本排列集合作为最终的样本排列集合,包括:
直至返回次数达到设定次数为止,或者直至当前得到的多个样本排列集合的平均适应度与上一次得到的多个样本排列集合的平均适应度的差值在预设差值范围内为止,则在一代或者多代的多个样本排列集合中选择适应度最大的样本排列集合作为最终的样本排列集合;
其中,在多代的多个样本排列集合中,每两代样本排列集合的平均适应度的差值在预设范围内。
可选的,所述确定所述多个样本排列集合中每个样本排列集合的适应度,包括:
基于每个样本排列集合中的样本数据量归一化值、每条测试通道中样本匹配的寡核苷酸接头Index序列的碱基比例归一化值以及样本匹配的Index序列是否重复的结果确定所述样本排列集合的适应度。
可选的,所述基于每个样本排列集合中的样本数据量归一化值、每条测试通道中样本的寡核苷酸接头Index序列的碱基比例归一化值以及样本的Index序列是否重复的结果确定所述样本排列集合的适应度,包括:
基于如下公式确定所述样本排列集合的适应度;
fitness=A+B+C
其中,fitness为所述样本排列集合的适应度;A为所述样本数据量归一化值;B为测试通道中样本的Index序列的碱基比例归一化值;
其中,若样本的Index序列存在重复,则C为-1,若样本的Index序列不存在重复,则C为0。
可选的,所述装置还包括测序模块,用于对最终的样本排列集合中的每个样本进行测序。
上述装置可执行本发明任意实施例所提供的方法,具备执行方法相应的功能模块和有益效果。
图5是本发明实施例提供的一种样本处理装置结构框图,如图5所示,所述装置包括:匹配模块510、判断模块520和确定/测序模块530。
其中,匹配模块510,用于将测序芯片的每条测试通道中的样本匹配Index序列;其中,所述样本为待测的DNA序列或者RNA序列;
判断模块520,用于判断所述测试通道中样本匹配的Index序列是否符合设定条件;
确定/测序模块530,用于若是,则确定所述样本与所述Index序列真实匹配,并基于真实匹配的Index序列对所述样本进行测序。
可选的,判断模块520,用于所述判断匹配的Index序列是否满足如下条件:
每条所述测试通道中样本匹配的Index序列不存在重复;
每条所述测试通道中样本匹配的Index序列各个位置的碱基比例同时大于或者等于预设比例。
可选的,每条所述测试通道中样本的数据量在第一预设数据范围内,且多条所述测试通道之间的样本的数据量之间的差值在第二预设数据范围内。
上述装置可执行本发明任意实施例所提供的方法,具备执行方法相应的功能模块和有益效果。
图6是本发明实施例提供的一种设备结构示意图,如图6所示,该设备包括:
一个或多个处理器610,图6中以一个处理器610为例;
存储器620;
所述设备还可以包括:输入装置630和输出装置640。
所述设备中的处理器610、存储器620、输入装置630和输出装置640可以通过总线或者其他方式连接,图6中以通过总线连接为例。
存储器620作为一种非暂态计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的一种样本处理方法对应的程序指令/模块(例如,附图4所示的形成模块410、筛选模块420、互换/变异模块430和返回/选择模块440,或者附图5所示的匹配模块510、判断模块520和确定/测序模块530)。处理器610通过运行存储在存储器620中的软件程序、指令以及模块,从而执行计算机设备的各种功能应用以及数据处理,即实现上述方法实施例的一种样本处理方法,即:
为每个样本分配至少一条测试通道,所有样本基于分配的测试通道形成多个样本排列集合;其中,所述样本为待测的DNA序列或者RNA序列;
从所述多个样本排列集合中筛选出符合第一设定条件的至少两个样本排列集合;
将筛选出的样本排列集合中的每两个样本排列集合中的测试通道进行交叉互换,并将交叉互换后的样本排列集合进行测试通道的变异,得到多个新样本排列集合以及将每个新样本排列集合作为样本排列集合;
返回从所述多个样本排列集合中筛选出符合第一设定条件的至少两个样本排列集合操作,直至达到终止条件为止,则选择符合第二设定条件的样本排列集合作为最终的样本排列集合。
或者,
将测序芯片的每条测试通道中的样本匹配Index序列;其中,所述样本为待测的DNA序列或者RNA序列;
判断所述测试通道中样本匹配的Index序列是否符合设定条件;
若是,则确定所述样本与所述Index序列真实匹配,并基于真实匹配的Index序列对所述样本进行测序。
存储器620可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器620可以包括高速随机存取存储器,还可以包括非暂态性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态性固态存储器件。在一些实施例中,存储器620可选包括相对于处理器610远程设置的存储器,这些远程存储器可以通过网络连接至终端设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置630可用于接收输入的数字或字符信息,以及产生与计算机设备的用户设置以及功能控制有关的键信号输入。输出装置640可包括显示屏等显示设备。
本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例提供的一种样本处理方法:
为每个样本分配至少一条测试通道,所有样本基于分配的测试通道形成多个样本排列集合;其中,所述样本为待测的DNA序列或者RNA序列;
从所述多个样本排列集合中筛选出符合第一设定条件的至少两个样本排列集合;
将筛选出的样本排列集合中的每两个样本排列集合中的测试通道进行交叉互换,并将交叉互换后的样本排列集合进行测试通道的变异,得到多个新样本排列集合以及将每个新样本排列集合作为样本排列集合;
返回从所述多个样本排列集合中筛选出符合第一设定条件的至少两个样本排列集合操作,直至达到终止条件为止,则选择符合第二设定条件的样本排列集合作为最终的样本排列集合。
或者,
将测序芯片的每条测试通道中的样本匹配Index序列;其中,所述样本为待测的DNA序列或者RNA序列;
判断所述测试通道中样本匹配的Index序列是否符合设定条件;
若是,则确定所述样本与所述Index序列真实匹配,并基于真实匹配的Index序列对所述样本进行测序。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (10)
1.一种样本处理方法,其特征在于,包括:
为每个样本分配至少一条测试通道,所有样本基于分配的测试通道形成多个样本排列集合;其中,所述样本为待测的DNA序列或者RNA序列;
从所述多个样本排列集合中筛选出符合第一设定条件的至少两个样本排列集合;
将筛选出的样本排列集合中的每两个样本排列集合中的测试通道进行交叉互换,并将交叉互换后的样本排列集合进行测试通道的变异,得到多个新样本排列集合以及将每个新样本排列集合作为样本排列集合;
返回从所述多个样本排列集合中筛选出符合第一设定条件的至少两个样本排列集合操作,直至达到终止条件为止,则选择符合第二设定条件的样本排列集合作为最终的样本排列集合。
2.根据权利要求1所述的方法,其特征在于,所述从所述多个样本排列集合中筛选出符合第一设定条件的至少两个样本排列集合,包括:
确定所述多个样本排列集合中每个样本排列集合的适应度,筛选出适应度大于第一设定值的至少两个样本排列集合。
3.根据权利要求1所述的方法,其特征在于,所述直至达到终止条件为止,则选择符合第二设定条件的样本排列集合作为最终的样本排列集合,包括:
直至返回次数达到设定次数为止,或者直至当前得到的多个样本排列集合的平均适应度与上一次得到的多个样本排列集合的平均适应度的差值在预设差值范围内为止,则在一代或者多代的多个样本排列集合中选择适应度最大的样本排列集合作为最终的样本排列集合;
其中,在多代的多个样本排列集合中,每两代样本排列集合的平均适应度的差值在预设范围内。
4.根据权利要求2所述的方法,其特征在于,所述确定所述多个样本排列集合中每个样本排列集合的适应度,包括:
基于每个样本排列集合中的样本数据量归一化值、每条测试通道中样本匹配的寡核苷酸接头Index序列的碱基比例归一化值以及样本匹配的Index序列是否重复的结果确定所述样本排列集合的适应度。
5.根据权利要求4所述的方法,其特征在于,所述基于每个样本排列集合中的样本数据量归一化值、每条测试通道中样本的寡核苷酸接头Index序列的碱基比例归一化值以及样本的Index序列是否重复的结果确定所述样本排列集合的适应度,包括:
基于如下公式确定所述样本排列集合的适应度;
fitness=A+B+C
其中,fitness为所述样本排列集合的适应度;A为所述样本数据量归一化值;B为测试通道中样本的Index序列的碱基比例归一化值;
其中,若样本的Index序列存在重复,则C为-1,若样本的Index序列不存在重复,则C为0。
6.根据权利要求1所述的方法,其特征在于,还包括:对最终的样本排列集合中的每个样本进行测序。
7.一种样本处理方法,其特征在于,包括:
将测序芯片的每条测试通道中的样本匹配Index序列;其中,所述样本为待测的DNA序列或者RNA序列;
判断所述测试通道中样本匹配的Index序列是否符合设定条件;
若是,则确定所述样本与所述Index序列真实匹配,并基于真实匹配的Index序列对所述样本进行测序。
8.根据权利要求7所述的方法,其特征在于,所述判断所述测试通道中样本匹配的Index序列是否符合设定条件,包括:
所述判断匹配的Index序列是否满足如下条件:
每条所述测试通道中样本匹配的Index序列不存在重复;
每条所述测试通道中样本匹配的Index序列各个位置的碱基比例同时大于或者等于预设比例。
9.根据权利要求7或8所述的方法,其特征在于,
每条所述测试通道中样本的数据量在第一预设数据范围内,且多条所述测试通道之间的样本的数据量之间的差值在第二预设数据范围内。
10.一种设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-9任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010807364.6A CN111961710B (zh) | 2020-08-12 | 2020-08-12 | 一种样本处理方法及设备 |
PCT/CN2020/125165 WO2022032885A1 (zh) | 2020-08-12 | 2020-10-30 | 一种样本处理方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010807364.6A CN111961710B (zh) | 2020-08-12 | 2020-08-12 | 一种样本处理方法及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111961710A true CN111961710A (zh) | 2020-11-20 |
CN111961710B CN111961710B (zh) | 2024-04-26 |
Family
ID=73365720
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010807364.6A Active CN111961710B (zh) | 2020-08-12 | 2020-08-12 | 一种样本处理方法及设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111961710B (zh) |
WO (1) | WO2022032885A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112631562A (zh) * | 2020-12-01 | 2021-04-09 | 上海欧易生物医学科技有限公司 | 基于python的二代测序样本混样方法、应用、设备、计算机可读存储介质 |
WO2022032885A1 (zh) * | 2020-08-12 | 2022-02-17 | 苏州金唯智生物科技有限公司 | 一种样本处理方法及设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106815343A (zh) * | 2017-01-16 | 2017-06-09 | 上海小海龟科技有限公司 | 一种数据处理方法及数据处理装置 |
CN107164464A (zh) * | 2017-04-27 | 2017-09-15 | 武汉华大医学检验所有限公司 | 一种检测测序平台索引序列污染的方法及引物 |
WO2018197945A1 (en) * | 2017-04-23 | 2018-11-01 | Illumina Cambridge Limited | Compositions and methods for improving sample identification in indexed nucleic acid libraries |
CN110785813A (zh) * | 2017-07-31 | 2020-02-11 | 伊鲁米那股份有限公司 | 具有多路生物样本聚合的测序系统 |
US20200131506A1 (en) * | 2017-06-21 | 2020-04-30 | Bluedot Llc | Systems and methods for identification of nucleic acids in a sample |
WO2022032885A1 (zh) * | 2020-08-12 | 2022-02-17 | 苏州金唯智生物科技有限公司 | 一种样本处理方法及设备 |
-
2020
- 2020-08-12 CN CN202010807364.6A patent/CN111961710B/zh active Active
- 2020-10-30 WO PCT/CN2020/125165 patent/WO2022032885A1/zh active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106815343A (zh) * | 2017-01-16 | 2017-06-09 | 上海小海龟科技有限公司 | 一种数据处理方法及数据处理装置 |
WO2018197945A1 (en) * | 2017-04-23 | 2018-11-01 | Illumina Cambridge Limited | Compositions and methods for improving sample identification in indexed nucleic acid libraries |
CN107164464A (zh) * | 2017-04-27 | 2017-09-15 | 武汉华大医学检验所有限公司 | 一种检测测序平台索引序列污染的方法及引物 |
US20200131506A1 (en) * | 2017-06-21 | 2020-04-30 | Bluedot Llc | Systems and methods for identification of nucleic acids in a sample |
CN110785813A (zh) * | 2017-07-31 | 2020-02-11 | 伊鲁米那股份有限公司 | 具有多路生物样本聚合的测序系统 |
WO2022032885A1 (zh) * | 2020-08-12 | 2022-02-17 | 苏州金唯智生物科技有限公司 | 一种样本处理方法及设备 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022032885A1 (zh) * | 2020-08-12 | 2022-02-17 | 苏州金唯智生物科技有限公司 | 一种样本处理方法及设备 |
CN112631562A (zh) * | 2020-12-01 | 2021-04-09 | 上海欧易生物医学科技有限公司 | 基于python的二代测序样本混样方法、应用、设备、计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111961710B (zh) | 2024-04-26 |
WO2022032885A1 (zh) | 2022-02-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3931214B2 (ja) | データ解析装置およびプログラム | |
Korn et al. | Controlling the number of false discoveries: application to high-dimensional genomic data | |
CN111961710B (zh) | 一种样本处理方法及设备 | |
US20080281819A1 (en) | Non-random control data set generation for facilitating genomic data processing | |
CN109801680B (zh) | 基于tcga数据库的肿瘤转移复发预测方法及系统 | |
KR102425673B1 (ko) | 시퀀싱 데이터 리드 재정렬 방법 | |
CN111312334A (zh) | 一种影响细胞间通讯的受体-配体系统分析方法 | |
CN113780436A (zh) | 一种基于综合度的复杂网络关键节点识别方法 | |
EP4394645A2 (en) | Genetic algorithm-based sample layout method and apparatus | |
CN107832584B (zh) | 宏基因组的基因分析方法、装置、设备及存储介质 | |
CN112669899A (zh) | 一种16s和宏基因组测序数据关联分析方法、系统及设备 | |
CN108427643A (zh) | 基于多种群遗传算法的二进制程序模糊测试方法 | |
CN109063959A (zh) | 一种样本质量控制分析方法和系统 | |
Titov et al. | A fast genetic algorithm for RNA secondary structure analysis | |
WO2023124779A1 (zh) | 基于三代测序数据检测点突变的分析方法和装置 | |
Martin et al. | Fast free-energy-based neutral set size estimates for the RNA genotype–phenotype map | |
CN109887544A (zh) | 基于非负矩阵分解的rna序列并行分类方法 | |
US20200234797A1 (en) | Generation and use of simulated genomic data | |
Provata et al. | Coupled intermittent maps modeling the statistics of genomic sequences: A network approach | |
KR20200107840A (ko) | 유전자 연관 관계 통합 기반 신규 질병유전자 예측 장치 및 방법 | |
CN113742251B (zh) | 基于集合进化的软件测试路径生成方法及系统 | |
US20230212560A1 (en) | Systems, methods, and media for determining relative quality of oligonucleotide preparations | |
US20210304844A1 (en) | Method, apparatus, and computer-readable medium for optimal pooling of nucleic acid samples for next generation sequencing | |
CN113950154B (zh) | 一种综合能源数据采集网络中的频谱分配方法及系统 | |
Lester et al. | Efficiently simulating discrete-state models with binary decision trees |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |