CN104569368A - 生物样本分析系统和方法 - Google Patents

生物样本分析系统和方法 Download PDF

Info

Publication number
CN104569368A
CN104569368A CN201410187050.5A CN201410187050A CN104569368A CN 104569368 A CN104569368 A CN 104569368A CN 201410187050 A CN201410187050 A CN 201410187050A CN 104569368 A CN104569368 A CN 104569368A
Authority
CN
China
Prior art keywords
sample
check
positive
pool
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410187050.5A
Other languages
English (en)
Other versions
CN104569368B (zh
Inventor
洪侑辰
南星赫
李勇锡
姜成洙
奇昌锡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Life Public Welfare Foundation
Samsung SDS Co Ltd
Original Assignee
Samsung Life Public Welfare Foundation
Samsung SDS Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Life Public Welfare Foundation, Samsung SDS Co Ltd filed Critical Samsung Life Public Welfare Foundation
Publication of CN104569368A publication Critical patent/CN104569368A/zh
Application granted granted Critical
Publication of CN104569368B publication Critical patent/CN104569368B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/5002Partitioning blood components

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Immunology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioethics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Epidemiology (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Hematology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Urology & Nephrology (AREA)
  • Public Health (AREA)
  • Analytical Chemistry (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • General Physics & Mathematics (AREA)
  • Medicinal Chemistry (AREA)
  • Food Science & Technology (AREA)
  • Cell Biology (AREA)
  • Pathology (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Wood Science & Technology (AREA)

Abstract

本发明公开生物样本分析系统和方法。本发明的一个实施例所提供的生物样本分析系统是利用将构成n×m矩阵的多个生物样本、以及所述矩阵中位于同一个行或列的样本汇集而生成的多个样本池,判定所述多个样本的每一个是否具有检查对象性质的系统,其包含:判断部,其根据所述多个样本的每一个的关于所述检查对象性质的检查值,判断是否存在假阳性判定可能性;追加样本选定部,经过所述判断结果,在存在假阳性判定可能性的情况下,在所述多个样本中选择需要执行关于是否具有所述检查对象性质的个别检查的最少数量的追加检查对象样本;检查结果判定部,其根据针对所述追加检查对象样本的检查值,判定所述多个样本的每一个是否具有所述检查对象性质。

Description

生物样本分析系统和方法
技术领域
本发明的实施例涉及一种用于分析生物样本的技术。
背景技术
如通过检查血液样本来检查是否感染特定的病毒,或者是否具有诱发疾病的特定变异的例子那样,为了检查作为测试对象的生物样本是否具有特定性质,通常针对每一个对象的样本个别地进行了检查。因此,当需要检查大量的样本时,需要花费对应于样本数量进行重复检查的时间和费用。
对于大量的样本进行同样的检查的最基本的方法是,针对各样本个别地进行检查的方法。此时,检查费用根据需要检查的样本的数量相应增加。例如,对于发病率较低的疾病进行分选检查的情况下,所检查的大部分样本将会表现出阴性的结果。在这种情况下,为了减少检查费用,提供有同时对多个样本进行检查的方法。
同时对多个样本进行检查的现有方法中的一种方法是,针对分别以不同的比例合并多个样本而形成的样本执行检查,并在检查结果中根据表现出特定性质的信号的强度判断所合并的样本中那些样本具有其性质。但是,需要同时检查的样本数量越多,该方法需要采取的样本的量越多。例如,为了同时检查16个样本,各试料以1:2:22:23:…:214:215的比例合并。在这种情况下,最后样本要比第一个样本多足有215(=32768)倍的量,这在现实中几乎无法适用。
现有技术文献
专利文献
美国公开专利第2010-0216666号(2010.08.26)
美国公开专利第2012-0185177号(2012.07.19)
发明内容
本发明的实施例的目的在于提供一种在对于多个生物样本进行是否出现特定性质的检查的情况下,使检查次数最少的方法。
根据本发明的一个方面,公开一种生物样本分析系统,该生物样本分析系统是利用将构成n×m矩阵的多个生物样本、以及所述矩阵中位于同一个行(row)或列(column)的样本汇集而生成的多个样本池(pool),判定所述多个样本的每一个是否具有检查对象性质的系统,该系统包含:判断部,其根据所述多个样本的每一个的关于所述检查对象性质的检查值,判断是否存在假阳性判定可能性;追加样本选定部,经过所述判断的结果,在存在假阳性判定可能性的情况下,在所述多个样本中选择需要执行关于是否具有所述检查对象性质的个别检查的最少数量的追加检查对象样本;检查结果判定部,其根据针对所述追加检查对象样本的检查值,判定所述多个样本的每一个是否具有所述检查对象性质。
所述判断部根据所述多个样本池的每一个的所述检查值来推测所述多个样本中疑似阳性样本的数量,并根据所推测的所述疑似阳性样本的数量,判断是否存在所述假阳性判定可能性。
在所推测的所述疑似阳性样本的数量的最大值和最小值不同时,所述判断部判断为存在假阳性判定可能性。
所述追加样本选定部针对根据所述检查值而被判定为阳性的每一个样本池,根据对应的样本池的检查值而在所述阳性判定样本池中所包含的疑似阳性样本中选择计算剩余样本的检查结果所需的最少数量的追加检查对象样本。
所述追加样本选定部从所述阳性判定样本池中包含的疑似阳性样本的数量最少的阳性判定样本池开始依次选定所述追加检查对象样本。
所述检查结果判定部针对每一个所述阳性判定样本池,利用对应的样本池的检查值和包含在对应的样本池中的追加检查对象样本的检查值,判定包含在对应的样本池中的剩余的疑似阳性样本是否具有所述检查对象性质。
并且,根据本发明的另一个方面,公开一种生物样本分析方法,该方法是利用将构成n×m矩阵的多个生物样本、以及所述矩阵中位于同一个行或列的样本汇集而生成的多个样本池,判定所述多个样本的每一个是否具有检查对象性质的方法,该方法包含步骤:在判断部根据所述多个样本池的每一个的关于所述检查对象性质的检查值,判断是否存在假阳性判定可能性;当所述判断的结果存在假阳性判定可能性的情况下,在追加样本选定部在所述多个样本中选择需要进行关于是否具有所述检查对象性质的个别检查的最少数量的追加检查对象样本;在检查结果判定部根据针对所述追加检查对象样本的检查值来判定所述多个样本的每一个是否具有所述检查对象性质。
所述判断步骤中,根据所述多个样本池的每一个的所述检查值来推测所述多个样本中的疑似阳性样本的数量,并根据所推测的所述疑似阳性样本的数量,判断是否存在所述假阳性判定可能性。
在所推测的所述疑似阳性样本的数量的最大值和最小值不同时,所述判断步骤中判断为存在假阳性判定可能性。
所述追加样本选定步骤中,针对根据所述检查值而被判定为阳性的每一个样本池,根据对应的样本池的检查值而在所述阳性判定样本池中所包含的疑似阳性样本中选择计算剩余样本的检查结果所需的最少数量的追加检查对象样本。
所述追加样本选定步骤中,从所述阳性判定样本池中包含的疑似阳性样本的数量最少的阳性判定样本池开始依次选定所述追加检查对象样本。
判定是否具有所述检查对象性质的步骤中,针对每一个所述阳性判定样本池,利用对应的样本池的检查值和包含在对应的样本池中的追加检查对象样本的检查值,判定包含在对应的样本池中的剩余的疑似阳性样本是否具有所述检查对象性质。
根据本发明的一个实施例的情况下,在汇集需要检查的一个以上的样本而构成样本池(pool)之后,以各样本池的检查结果为基础计算各样本的个别检查结果,因此与针对所有样本进行个别检查的情况相比,能够减少检查次数的同时获得同样的结果。
并且,根据本发明的一个实施例的情况下,在根据样本汇集方法的检查结果存在假阳性判定可能性的情况下也能够使需要进行追加个别检查的样本的数量最少化,因此可以使检查所需的时间和费用最少,而且还能获得不存在假阳性判定可能性的正确的检查结果。
附图说明
图1是用于说明本发明的一个实施例的样本汇集(pooling)过程的图。
图2是表示本发明的一个实施例的生物样本分析系统100的框图。
图3和图4是用于说明根据本发明的一个实施例的样本汇集分析方法的阳性样本推定方法的图。
图5是根据图4所示的实施例说明矩阵M生成以及由此计算最小正数(min Positive)、最大正数(max Positive)值的过程的图。
图6是用于说明本发明的一个实施例的追加检查对象样本选定算法的图。
图7是用于说明从图4中示出的实施例导出的图表的图。
图8是用于说明根据本发明的一个实施例的追加检查结果来判定各样本的检查结果的算法的图。
图9是用于说明在图7中示出的图表推定各样本的检查结果的过程的图。
图10是用于对根据本发明的实施例执行样本汇集检查时的情况和针对各样本进行个别检查时的情况下的总检查次数进行比较说明的图表。
图11是用于比较基于检查对象样本中存在的阳性样本数量的变化的总检查次数的图表。
图12是用于说明本发明的一个实施例的生物样本分析方法1200的流程图。
主要符号说明:
100:生物样本分析系统
102:判断部
104:追加样本选定部
106:检查结果判定部
具体实施方式
以下,参照附图来详细说明本发明的具体实施方式。但是,这仅仅是示例性实施例,本发明并不限定于此。
在说明本发明的过程中,如果判断出对与本发明相关的公知技术的具体说明可能不必要地导致本发明的要点变得不清楚,则省略对其说明。并且,后述的术语是考虑在本发明中的功能而定义的术语,因此可能根据用户、运营商的意图或惯例等有所不同。因此,对于术语应该以整个发明书中的内容为基础加以定义。
本发明的技术思想将由权利要求书来确定,下面的实施例仅仅是用来对本领域技术人员有效地说明本发明的技术思想而提供的一种方式。
本发明的一个实施例的生物样本分析系统100是用于判断多个生物样本的每一个是否具有特定生物性质(换句话说,对于所述特定性质是否表现出阳性反应)的系统。具体来讲,生物样本分析系统100构成为利用通过汇集构成n×m矩阵的多个生物样本和在所述矩阵中位于相同的行(row)或列(column)的样本而生成的多个样本池(pool),判断所述多个样本的每一个是否具有检查对象性质。
在说明如上所述的生物样本分析系统100的各构成要素之前,根据图1说明从检查对象样本构成样本池的过程。首先,将x个(x=n×m)检查对象样本(S1,S2,…,Sn×m)排列在n×m矩阵上。此时,n和m可以相同,也可以不同,但是n×m要与x相同。并且,x大于或等于2。所述检查对象样本是用于检查是否具有特定的生物学性质的试料,可以是包括人类的所有生物组织或体液等。
如上所述地构成矩阵后,接着将排列在矩阵上的x个检查对象样本分配到k(=n+m)个样本池(pool)中进行汇集(pooling)。此时,在所述矩阵中位于相同的行或列的样本被汇集到同一个样本池。例如,在图示的实施例中,样本池P1中汇集构成矩阵的第一个行的多个样本,Pn+1中汇集构成矩阵的第一个列的多个样本。通过这种过程,生成k个汇集的样本(P1、P2、…、Pn+m,下面便于说明而简述为“样本池”)。
接着,对于汇集了各样本的k个样本池进行检查,测定关于需要检查的特定性质的信号。在本发明的实施例中,特定性质可以指各样本是否具有如特定的单核苷酸多态性(Single Nucleotide Polymorphism;SNP)这样的遗传标记(Genetic marker)、遗传标记中的特定基因型(genotype)、特定疾病等这样的生物学特性。在所述检查中,表示是否具有样本内特定性质的信号的强度大致与样本池内具有该性质的样本的数量成比例出现。例如,当样本池内具有所述特定性质的样本的数量为2个时,与具有1个的情况相比,在所述检查中出现的信号强度可能达到大致2倍。如果在特定的样本池中测定的信号强度大到足以判断包含在该样本池中的一个以上的样本具有特定性质,则可以认为该样本池对所述特定性质表现出阳性(positive)。
例如,假设所述检查是用于检查多个样本是否具有特定的单核苷酸多态性(single nucleotide polymorphism)。在这种情况下,包含于样本中的基因的对应多态位点可能有参考基因型的AA、杂合(Heterozygous)变异基因型的AB、纯合子(Homozygous)变异基因型的BB中的任意一个。为了便于理解,本实施例中举例说明了二倍体(diploid)的情况,但本发明并不限定于此。并且,作为测定关于变异基因型的信号的方法,可以使用新一代测序技术(Next Generation Sequencing:下面记为NGS)。NGS技术针对作为目标的基因组区域大量制作作为预定长度的序列片段的短片段,如此生成的短片段被映射到参考序列(reference sequence),以映射到特定区域的短片段(lead)的序列信息为基础重新构成对应区域的序列。
在上述例子中,检查对象样本的特定位置的基因型可以通过映射到包括对应位置的区域的短片段中的对应位置的等位基因频率(allele frequency)来类推。例如,对于杂合(Heterozygous)基因型的AB,A和B的等位基因频率大致分别呈现为1/2、1/2。并且,当汇集了基因型为AB的样本和BB的样本时,A和B的等位基因频率大致分别呈现为1/4、3/4。因此,为了利用NGS技术检查样本是否具有特定的单核苷酸多态性,可以以所映射的短片段为基础测定作为变异基因型的AB和BB中存在的等位基因B的等位基因频率。
另外,当利用NGS技术根据所映射的短片段求出等位基因频率时,若作为二倍体的样本的基因型为AB,则可能发生关于交互等位基因B的等位基因频率并不一直呈现为1/2或1的情况。这可能是由序列错误或映射错误这样的一连串错误造成的。因此,鉴于这种错误,可以适用如下的对样本的检查结果值进行分配的规则:当等位基因频率呈现为0.4和0.6之间时,判定为基因型AB,当等位基因频率呈现为0.8以上时,判定为基因型BB。或者,作为基于所映射的短片段来判断样本的基因型的其他方法,还有SNVer算法(Wei et al.,SNVer:a statistical tool for variant calling in analysisof pooled or individual next-generation sequencing data,Nucleic AcidsRes.39(19),2011)这样的计算对基因型的可能性(likelihood)或概率(probability)的统计式算法。每一个样本池的检查值也可以考虑所汇集的样本的数量来应用所述规则或算法来进行判定。只是,所述规则或算法仅仅是用于执行本发明的一个实施例,本发明并不限定于此。
并且,为了容易地将NGS技术适用于本发明,需要满足在对各样本池(pool)进行测序的结果中汇集到对应的样本池的各样本的测序短片段应大致分布均匀的条件。例如,若所汇集的4个样本分别具有基因型AA、AB、AB、AA,则在对应的样本池中,关于交互等位基因B的等位基因频率大致应该呈现为2/8。
图2是表示本发明的一个实施例的生物样本分析系统100的框图。如图所示,根据本发明的一个实施例的生物样本分析系统100包含判断部102、追加样本选定部104以及检查结果判定部106。
判断部102根据从所述矩阵生成的所述多个样本池的每一个的关于所述检查对象特定性质的检查值,判断是否存在假阳性判定的可能性。
经过判断部102的判断结果,如果存在假阳性判定的可能性,则追加样本选定部104在所述多个检查对象样本中选定需要执行个别的追加检查的最小数量的追加检查对象样本。
检查结果判定部106根据所述多个样本池的每一个的检查值和对所述追加检查对象样本的检查结果,判定所述多个样本的每一个是否具有所述检查对象性质。
下面,详细说明如上所述的根据本发明的一个实施例的生物样本分析系统100的各构成要素。
(判断是否有假阳性判定的可能性)
如上所述,判断部102根据从所述矩阵生成的所述多个样本池的每一个的关于所述检查对象特定性质的检查值,判断是否存在假阳性判定的可能性。如果所述判断结果,判断出存在假阳性判定的可能性,则针对呈阳性的样本池的一部分或全部样本进行个别检查。
根据本发明的一个实施例的n×m汇集方法中,在n×m矩阵中将与呈阳性的行样本池和呈阳性的列样本池相交叉的位置所对应的样本判定为阳性。例如,如图3所示,当样本池P1、P5以及P8为阳性的情况下,判定样本S1和S13为阳性。如果样本中存在呈阳性的样本的概率较低,则足可以用这种方法判定阳性样本。
另外,如图4所示,实际上样本S1、S15、S16为阳性的情况下,样本池P1、P3、P4、P5以及P8的检查结果可能表现为阳性。但是,如果按照前述的方法判定,可能会判定S1、S3、S4、S13、S15以及S16为阳性,而其中的S3、S4、S13属于错误判定(即,假阳性样本)。因此,有必要根据各样本池的检查结果来判定是否存在假阳性样本的可能性。
在本发明的实施例中,判断部102根据所述多个样本池的每一个的检查值来推测所述多个样本中可能为阳性的样本的数量,根据所推测的所述可能为阳性的样本的数量,判断是否存在所述假阳性判定可能性。首先,判断部102基于各样本池的测定值,将样本池k(1≤k≤n+m)的值p(k)按如下方式分配。
针对每一个样本池确定了p(k)后,接着判断部102基于所分配的值生成如下所述的新的n×m矩阵M。
其中,i=行索引(1≤i≤n),j=列索引(1≤j≤m)
然后,判断部102利用所述矩阵M按照如下方式计算可能为阳性的样本数量的最小值(minPositive)和最大值(maxPositive)。此时,minPositive意味着可根据各样本池的检查结果推测的阳性样本数量的最小值,maxPositive意味着最大的值。
min Positive = MAX ( Σ k = 1 n p ( k ) , Σ k = n + 1 n + m p ( k ) )
max Positive = Σ i = 1 n Σ j = 1 m M ( i , j )
判断部102利用所计算的所述minPositive值和maxPositive值来判断假阳性判定的可能性。具体来讲,当minPositive值和maxPositive值不同时,判断部102判断为存在假阳性判定可能性。
图5是表示图4中示出的实施例,即P1、P3、P4、P5以及P8的检查结果为阳性的情况下的矩阵M以及由此计算的minPositive值和maxPositive值的图。如图所示,本实施例中,minPositive值为3,这与maxPositive值的6不同,因此存在假阳性判定可能性,由此可以得知需要进行针对部分样本的追加的个别检查。
(用于个别追加检查的最少样本的选定)
如上所述,在判断部102的判断结果存在假阳性判定可能性的情况下,追加样本选定部104在所述多个检查对象样本中选择需要进行个别追加检查的最少数量的追加检查对象样本。
在本发明的实施例中,在存在假阳性判定可能性的情况下,追加样本选定部104并不是对所有的存在阳性可能性的样本进行个别检查,而尽可能仅针对最少数量的样本进行追加的个别检查。这是由于进行追加个别检查的样本越多,其费用和时间也越增加。但是,选择最少数量的样本为检查对象的前提在于,表示样本内是否具有特定性质的信号的强度(即,各样本池的信号强度)大致与样本池内的具有对应性质的样本的数量成比例地出现。假设根据检查结果可以确认样本池内存在阳性样本,但是难以期待信号的强度与阳性样本的数量大致成比例地表现的情况下,需要对阳性样本池内的所有样本进行个别的追加检查。只是,在这种情况下,本发明也为了仅在假阳性判定可能性存在的情况下进行追加检查而判断是否存在假阳性判定可能性,因此与始终对所有的可能为阳性的样本进行追加检查的现有技术相比,在费用和时间上具有优势。
当判断为存在假阳性判定可能性时,追加样本选定部104选定需要进行追加个别检查的最少数量的样本。所述追加个别检查可以是与针对样本池进行过的检查相同的检查,也可以是利用能够测定检查对象的特定性质的其他技术的检查。
追加样本选定部104针对通过对各样本池的检查值而判定为阳性的每一个样本池(阳性判定样本池),根据对应的样本池的检查值在所述阳性判定样本池中所包含的疑似阳性的样本中选择计算剩余样本的检查结果所需的最少数量的追加检查对象样本。图6示出具体的追加检查对象样本的选定算法。
下面,利用图4中示出的例子说明图6中记载的算法。首先,追加样本选定部104将判定为阳性的样本池(P1、P3、P4、P5、P8)和由此导出的疑似阳性样本(S1、S3、S4、S13、S15、S16)分别作为顶点(vertex),将多个连接阳性判定样本池和疑似阳性样本的线作为边(edge),由此生成图表G。图7中示出根据上述方法生成的图表。
生成图表G后,追加样本选定部104在图表中所包含的样本池中选择相邻(neighbor)的个数最少的样本池,即疑似阳性样本最少的样本池,并构成由所选择的样本池的邻接点构成的集合D。在图示的实施例中,邻接点的数量最少的样本池是邻接点为2个的P1、P3以及P4,因而选择其中之一的P1。那么,D={S1,S13}。
然后,追加样本选定部104在集合D中抽出一个样本,检查集合D是否为空集合。如果抽出特定样本之后集合D也没有变为空集合,则样本选定部104将所抽出的所述特定样本选择为追加检查对象样本。例如,在所述集合D中,在抽出S1之后集合D中依然剩有S13,因此追加样本选定部104将S1选定为追加检查对象样本,并从图表G中排除。如果抽出特定样本之后集合D变为空集合,则样本选定部104不会选定所抽出的所述特定样本而直接从图表G中排除。例如,在选定所述S1之后,集合D中仅剩S13,当排除该S13的情况下,集合D变成空集合。因此,S13不会被选定为追加检查对象样本。这种过程重复进行直到所述集合D变为空集合,之后对没有被选择的其他样本池重复进行所述过程。如果按照顺序简要地记载所述过程,则如下所述。
1.选择P1(select P1)
2.将S1选定为追加检查对象样本(select S1for individual test)
3.未选定S13(skip S13)
4.选择P4(select P4)
5.将S4选定为加检查对象样本(select S4for individual test)
6.未选定S16(skip S16)
7.选择P5(select P5)
8.未选定S3(skip S3)
9.选择P8(select P8)
10.未选定S15(skip S15)
11.选择P3(select P3)
12.完成(done)
即,通过所述过程,在6个疑似阳性样本中S1和S4被选定为追加检查对象样本(在图中用灰色表示)。
(个别样本的检查结果判定)
通过如上所述的过程选定追加检查对象样本,完成对所选定的样本的追加检查之后,检查结果判定部106根据所述多个样本池的每一个的检查值和对所述追加检查对象样本的检查值,判定所述多个样本的每一个是否具有所述检查对象性质。
如上所述,为了在检查结果判定部106中判定检查结果,在检查特定的样本池时,针对特定性质所测定的信号的强度应该与样本池内的具有该性质的样本的数量大致成比例。特定样本池的检查结果值应该与该样本池中所包含的呈阳性的多个样本的检查结果值之和相同。检查结果判定部106利用这种性质,判定各样本的检查结果。换句话说,所述检查结果判定部106针对每一个阳性判定样本池,利用对应的样本池的检查值和包含在对应的样本池中的追加检查对象样本的检查结果,判定包含在对应的样本池中的剩余的疑似阳性样本是否具有所述检查对象性质。具体的检查结果判定部106中判定结果值的算法如图8所示。
通过图4的例子进行说明,可以基于针对交互等位基因(alternativeallele)B的等位基因频率,将各样本的检查结果值(图8的valS)予以分配,例如,在参考基因型的AA的情况下为0,在杂合(Heterozygous)变异基因型的AB的情况下为1,在纯合子(Homozygous)变异基因型的BB的情况下为2。此时,呈阳性的样本池的检查结果值(图8的valP)为对应样本池内的呈阳性的样本的检查结果值之和。例如,P5的检查值,即信号强度为S1、S3、S4的检查值之和(valP[5]=valS[1]+valS[3]+valS[4])。利用该原理,检查结果判定部106通过经由追加个别检查而获得的S1和S4的检查值和经由初期检查而获得的P5的检查值,可以计算S3的检查值。重复进行此过程,可以计算针对所有样本的检查值。
图9表示P1、P3、P4、P5、P8的检查值分别为2、1、1、2、2,追加检查对象样本S1、S4的检查值分别为2、0的情况下计算每一个疑似阳性样本的检查值的例子的图。如图所示,各疑似阳性样本的检查值可以按照如下方式计算。
valS[S3]=valP[P5]-valS[S1]-valS[S4]=2-2-0=0
valS[S13]=valP[P1]-valS[S1]=2-2=0
valS[S16]=valP[P4]-valS[S4]=1-0=1
valS[S15]=valP[P8]-valS[S13]-valS[S16]=2-0-1=1
如此,根据本发明的实施例,通过如上所述的多个样本的汇集,可以用仅对k个样本池进行k次的检查来代替对于x个样本进行x次个别检查,并基于此可以推测针对x个样本的个别检查结果。即,根据本发明的实施例,可通过k次检查来推测对x个的所有样本的检查结果,因此可以节省相当于(x-k)次检查的费用和时间。在所述k次检查之后,即使判定为阳性的样本中存在假阳性(false positive)的判定可能性而需要对q个样本进行追加的个别检查的情况下,也依然可以节省相当于(x-k-q)次的检查的费用和时间。
图10是用于对根据本发明的实施例执行样本汇集检查时的情况和针对各样本进行个别检查时的情况下的总检查次数进行比较说明的图表。在图示的图表中,横轴为样本的数量,左侧的柱状图是对各个样本进行个别检查时的检查次数,右侧的柱状图是根据本发明的实施例的样本汇集检查时的检查次数,线状图表示因两种检查的检查次数差异带来的费用节省效果。例如,当检查16个样本的情况下,按照现有的方法要进行16次检查,但是如果利用4×4样本汇集方法,只要进行8次检查即可,因此可以带来最多50%的费用节省效果。
在采用样本汇集方法的情况下,对所汇集的样本进行检查,对于存在假阳性判定可能性的样本,还要追加进行个别检查,因此在最糟糕的情况下,可能需要比现有方法还多次数的检查。图11是根据检查对象样本中存在的阳性样本数量的变化来比较总检查次数的图表。在图示的图表中,横轴表示检查对象样本中存在的阳性样本的数量;虚线表示在采用针对各样本进行个别检查的现有的方法(conventional test without pooling)的情况下的检查次数;深灰色线表示采用样本汇集检查方法并在有假阳性判定可能性的情况下,针对相关的所有的样本进行个别检查的情况(n×n pooling test);浅灰色线表示采用样本汇集检查方法并同时使用在有假阳性判定可能性的样本中选定需要进行个别检查的最少数量的样本的方法的情况(n×n poolingtest+Min.#of sample selection)下的检查次数。
并且,图11中示出的图表中,(a)表示关于16个样本使用4×4样本汇集方法进行检查的情况,(b)表示关于64个样本使用8×8样本汇集方法进行检查的情况。为了进行比较,针对各阳性样本数量制作在检查对象样本中随机地产生阳性样本的100个测试实例,并针对各测试实例计算了检查次数。在附图中同时表示100个测试实例中的平均检查次数和对此的标准偏差(在图标中用I字形态表示)。
首先,观察图11(a),在16个样本中存在的阳性样本的数量为3以下时,即使对有假阳性判定可能性的所有样本进行追加检查,所执行的检查次数也比使用现有方法(虚线)的检查次数少。以疾病检查为例,通常对应疾病的发病率大致为3/16(=0.188)的情况下,可以期望在16个样本中有3个样本为阳性。但是,这属于非常高的发病率,通常情况下会比该发病率低,因此实际上利用样本汇集方法通常能够带来节省检查费用的效果。并且,如果应用本发明的实施例所提供的追加个别检查对象样本的最少选定算法,比没有应用该算法的情况相比,可以期待检查次数的降低带来的14~30%左右的费用的降低。
并且,从图11(b)的结果可以看出,在64个样本均为阳性的最糟糕的情况下,如果不应用本发明的实施例所提供的算法就需要进行80次检查,但是应用该算法的情况下只要进行65次检查即可。即,即使在最糟糕的情况下,与现有方法相比,根据本发明只需多进行1次检查即可。
综上所述,通过图11的结果可知,本发明所提供的样本汇集方法即使在阳性样本数量增加的情况下,一般也依然能够期待减少费用的效果,而且在最糟糕的情况下,与现有的检查方法的检查次数相比,需要追加执行的检查次数的增加甚微。
图12是用于说明本发明的一个实施例的生物样本分析方法1200的流程图。如前所述,本发明的一个实施例的生物样本分析方法1200是利用将构成n×m矩阵的多个生物样本、以及所述矩阵中位于同一个行(row)或列(column)的样本汇集而生成的多个样本池(pool),判定所述多个样本的每一个是否具有检查对象性质的方法。
在步骤1202中,判断部102根据所述多个样本池的每一个的关于所述检查对象性质的检查值,判断是否存在假阳性判定可能性。
在步骤1204中,如果所述步骤1202的判断结果存在假阳性判定可能性,则追加样本选定部104在所述多个样本中选择需要进行关于是否具有所述检查对象性质的个别检查的最少数量的追加检查对象样本。
在步骤1206中,检查结果判定部106根据针对所述追加检查对象样本进行的检查结果来判定所述多个样本的每一个是否具有所述检查对象性质。
另外,本发明的实施例可以包含计算机可读记录介质,该计算机可读记录介质包含在计算机中执行本说明书中记载的方法的程序。所述计算机可读记录介质可以单独或组合而包含程序指令、本地数据文件、本地数据结构等。所述介质可以是专为本发明特别设计和构成的,但也可以是在计算机软件领域中具备一般知识的人员公知并使用的。作为计算机可读记录介质的例子,包含硬盘、软盘以及如磁带这样的磁性介质、如CD-ROM、DVD这样的光记录介质、如软盘这样的磁-光介质以及如只读存储器、随机存储器、闪存等以存储和执行程序指令的方式特别构成的硬盘装置。作为程序指令的例子,不仅包含如通过编译程序制作的机器码,还可以包含通过使用解释器等而由计算机执行的高级语言编码。
以上通过典型实施例对本发明进行了详细说明,但应该清楚,本发明所述技术领域的具备一般知识的人员,在不脱离本发明范围的情况下,可以对上述实施例进行各种变形。
因此,本发明的权利范围不能局限于所说明的实施例,应该由权利要求书和与权利要求书等同的内容来确定。

Claims (12)

1.一种生物样本分析系统,该生物样本分析系统是利用将构成n×m矩阵的多个生物样本、以及所述矩阵中位于同一个行或列的样本汇集而生成的多个样本池,判定所述多个样本的每一个是否具有检查对象性质的系统,其特征在于,包含:
判断部,其根据所述多个样本的每一个的关于所述检查对象性质的检查值,判断是否存在假阳性判定可能性;
追加样本选定部,经过所述判断的结果,在存在假阳性判定可能性的情况下,在所述多个样本中选择需要执行关于是否具有所述检查对象性质的个别检查的最少数量的追加检查对象样本;
检查结果判定部,其根据针对所述追加检查对象样本的检查值,判定所述多个样本的每一个是否具有所述检查对象性质。
2.根据权利要求1所述的生物样本分析系统,其特征在于,所述判断部根据所述多个样本池的每一个的所述检查值来推测所述多个样本中的疑似阳性样本的数量,并根据所推测的所述疑似阳性样本的数量,判断是否存在所述假阳性判定可能性。
3.根据权利要求2所述的生物样本分析系统,其特征在于,在所推测的所述疑似阳性样本的数量的最大值和最小值不同时,所述判断部判断为存在假阳性判定可能性。
4.根据权利要求1所述的生物样本分析系统,其特征在于,所述追加样本选定部针对根据所述检查值而被判定为阳性的每一个样本池,根据对应的样本池的检查值而在所述阳性判定样本池中所包含的疑似阳性样本中选择计算剩余样本的检查结果所需的最少数量的追加检查对象样本。
5.根据权利要求4所述的生物样本分析系统,其特征在于,所述追加样本选定部从所述阳性判定样本池中包含的疑似阳性样本的数量最少的阳性判定样本池开始依次选定所述追加检查对象样本。
6.根据权利要求4所述的生物样本分析系统,其特征在于,所述检查结果判定部针对每一个所述阳性判定样本池,利用对应的样本池的检查值和包含在对应的样本池中的追加检查对象样本的检查值,判定包含在对应的样本池中的剩余的疑似阳性样本是否具有所述检查对象性质。
7.一种生物样本分析方法,该方法是利用将构成n×m矩阵的多个生物样本、以及所述矩阵中位于同一个行或列的样本汇集而生成的多个样本池,判定所述多个样本的每一个是否具有检查对象性质的方法,其特征在于,包含步骤:
在判断部根据所述多个样本池的每一个的关于所述检查对象性质的检查值,判断是否存在假阳性判定可能性;
当所述判断的结果存在假阳性判定可能性的情况下,在追加样本选定部在所述多个样本中选择需要进行关于是否具有所述检查对象性质的个别检查的最少数量的追加检查对象样本;
在检查结果判定部根据针对所述追加检查对象样本的检查值来判定所述多个样本的每一个是否具有所述检查对象性质。
8.根据权利要求7所述的生物样本分析方法,其特征在于,所述判断步骤中,根据所述多个样本池的每一个的所述检查值来推测所述多个样本中的疑似阳性样本的数量,并根据所推测的所述疑似阳性样本的数量,判断是否存在所述假阳性判定可能性。
9.根据权利要求8所述的生物样本分析方法,其特征在于,在所推测的所述疑似阳性样本的数量的最大值和最小值不同时,所述判断步骤中判断为存在假阳性判定可能性。
10.根据权利要求7所述的生物样本分析方法,其特征在于,所述追加样本选定步骤中,针对根据所述检查值而被判定为阳性的每一个样本池,根据对应的样本池的检查值而在所述阳性判定样本池中所包含的疑似阳性样本中选择计算剩余样本的检查结果所需的最少数量的追加检查对象样本。
11.根据权利要求10所述的生物样本分析方法,其特征在于,所述追加样本选定步骤中,从所述阳性判定样本池中包含的疑似阳性样本的数量最少的阳性判定样本池开始依次选定所述追加检查对象样本。
12.根据权利要求10所述的生物样本分析方法,其特征在于,判定是否具有所述检查对象性质的步骤中,针对每一个所述阳性判定样本池,利用对应的样本池的检查值和包含在对应的样本池中的追加检查对象样本的检查值,判定包含在对应的样本池中的剩余的疑似阳性样本是否具有所述检查对象性质。
CN201410187050.5A 2013-10-11 2014-05-05 生物样本分析系统和方法 Expired - Fee Related CN104569368B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2013-0121568 2013-10-11
KR20130121568A KR101473705B1 (ko) 2013-10-11 2013-10-11 생물학적 샘플 분석 시스템 및 방법

Publications (2)

Publication Number Publication Date
CN104569368A true CN104569368A (zh) 2015-04-29
CN104569368B CN104569368B (zh) 2016-08-31

Family

ID=52679154

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410187050.5A Expired - Fee Related CN104569368B (zh) 2013-10-11 2014-05-05 生物样本分析系统和方法

Country Status (4)

Country Link
US (1) US10002232B2 (zh)
KR (1) KR101473705B1 (zh)
CN (1) CN104569368B (zh)
WO (1) WO2015053480A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111383717B (zh) * 2018-12-29 2024-10-18 北京安诺优达医学检验实验室有限公司 一种构建生物信息分析参照数据集的方法及系统
US11379578B1 (en) 2020-10-16 2022-07-05 Trend Micro Incorporated Detecting malware by pooled analysis of sample files in a sandbox
KR102547548B1 (ko) * 2020-11-03 2023-06-26 문병로 집합적 진단 제어 방법 및 그 시스템
KR102593718B1 (ko) * 2021-05-31 2023-11-14 (주) 옵투스자산운용 집합적 진단 제어 방법 및 그 시스템

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1164894A (zh) * 1994-09-09 1997-11-12 内诺金公司 自动分子生物学诊断系统
WO2002090572A2 (en) * 2001-05-09 2002-11-14 Third Wave Technologies, Inc. Nucleic acid detection in pooled samples
US20020172965A1 (en) * 1996-12-13 2002-11-21 Arcaris, Inc. Methods for measuring relative amounts of nucleic acids in a complex mixture and retrieval of specific sequences therefrom
WO2005075678A1 (en) * 2004-02-10 2005-08-18 Yissum Research Development Company Of The Hebrew University Of Jerusalem Determination of genetic variants in a population using dna pools
WO2009014787A2 (en) * 2007-04-30 2009-01-29 Nanogen, Inc. Multianalyte assay
WO2010096696A2 (en) * 2009-02-20 2010-08-26 Cold Spring Harbor Laboratory Harnessing high throughput sequencing for multiplexed specimen analysis
CN101910413A (zh) * 2007-10-31 2010-12-08 亨德里克斯基因有限公司 用于进行生物测定的合并样本的方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101054732B1 (ko) * 2000-07-18 2011-08-05 더 유나이티드 스테이츠 오브 아메리카 애즈 리프리젠티드 바이 더 세크레터리 오브 더 디파트먼트 오브 헬쓰 앤드 휴먼 써비시즈 생물학적 데이터의 숨겨진 패턴에 근거한 생물학적 상태의 식별 방법
CA2515001C (en) * 2003-01-30 2015-08-11 Mizuho Usa Inc. Method and apparatus for processing assay test results

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1164894A (zh) * 1994-09-09 1997-11-12 内诺金公司 自动分子生物学诊断系统
US20020172965A1 (en) * 1996-12-13 2002-11-21 Arcaris, Inc. Methods for measuring relative amounts of nucleic acids in a complex mixture and retrieval of specific sequences therefrom
WO2002090572A2 (en) * 2001-05-09 2002-11-14 Third Wave Technologies, Inc. Nucleic acid detection in pooled samples
WO2005075678A1 (en) * 2004-02-10 2005-08-18 Yissum Research Development Company Of The Hebrew University Of Jerusalem Determination of genetic variants in a population using dna pools
WO2009014787A2 (en) * 2007-04-30 2009-01-29 Nanogen, Inc. Multianalyte assay
CN101910413A (zh) * 2007-10-31 2010-12-08 亨德里克斯基因有限公司 用于进行生物测定的合并样本的方法
WO2010096696A2 (en) * 2009-02-20 2010-08-26 Cold Spring Harbor Laboratory Harnessing high throughput sequencing for multiplexed specimen analysis

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KATARINA LINDROOS ET AL: "Multiplex SNP genotyping in pooled DNA samples by a four-colour microarray system", 《NUCLEIC ACIDS RESEARCH》, vol. 30, no. 14, 31 December 2002 (2002-12-31), XP 002982276, DOI: doi:10.1093/nar/gnf069 *

Also Published As

Publication number Publication date
US10002232B2 (en) 2018-06-19
KR101473705B1 (ko) 2014-12-18
WO2015053480A1 (ko) 2015-04-16
CN104569368B (zh) 2016-08-31
US20150105263A1 (en) 2015-04-16

Similar Documents

Publication Publication Date Title
Purdom et al. FIRMA: a method for detection of alternative splicing from exon array data
Rice et al. Methods for handling multiple testing
Yuan et al. Probability theory-based SNP association study method for identifying susceptibility loci and genetic disease models in human case-control data
CN110010197A (zh) 基于血液循环肿瘤dna的单核苷酸变异检测方法、装置和存储介质
CN104569368A (zh) 生物样本分析系统和方法
Aguirre-Liguori et al. Evaluation of the minimum sampling design for population genomic and microsatellite studies: An analysis based on wild maize
CN105868584A (zh) 通过选取极端性状个体来进行全基因组选择育种的方法
CN113674803A (zh) 一种拷贝数变异的检测方法及其应用
Buckley et al. Best practices for analyzing imputed genotypes from low-pass sequencing in dogs
KR20180060759A (ko) 염기서열의 변이 검출방법 및 이를 이용한 염기서열의 변이 검출 디바이스
Li et al. Genome-wide distribution of genetic diversity and linkage disequilibrium in elite sugar beet germplasm
Marsh et al. SDM profiling: A tool for assessing the information-content of sampled and unsampled locations for species distribution models
US20220020449A1 (en) Vector-based haplotype identification
CN111508559A (zh) 检测目标区域cnv的方法及装置
US11435357B2 (en) System and method for discovery of gene-environment interactions
JP2007520829A (ja) アレイcghデータ及び遺伝子発現データの連携解析のための方法及びシステム
US20070134706A1 (en) Gene information display method and apparatus
US20150347674A1 (en) System and method for analyzing biological sample
CN109390039B (zh) 一种统计dna拷贝数信息的方法、装置及存储介质
CN114067908A (zh) 一种评估单样本同源重组缺陷的方法、装置和存储介质
CN114255870A (zh) 预测自闭症和神经发育障碍的新型多基因风险评分(prs)方法
Dannemann et al. The effects of probe binding affinity differences on gene expression measurements and how to deal with them
Martini et al. Meta-analysis of gene activity (maga) contributions and correlation with gene expression, through gagam
Nettleton et al. Selective transcriptional profiling for trait‐based eQTL mapping
Söylev et al. CONGA: Copy number variation genotyping in ancient genomes and low-coverage sequencing data

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160831

Termination date: 20200505

CF01 Termination of patent right due to non-payment of annual fee