CN105316223A - 生物学样品分析系统及方法 - Google Patents

生物学样品分析系统及方法 Download PDF

Info

Publication number
CN105316223A
CN105316223A CN201410602027.8A CN201410602027A CN105316223A CN 105316223 A CN105316223 A CN 105316223A CN 201410602027 A CN201410602027 A CN 201410602027A CN 105316223 A CN105316223 A CN 105316223A
Authority
CN
China
Prior art keywords
pond
sample
variation detecting
detecting unit
judged
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410602027.8A
Other languages
English (en)
Inventor
洪侑辰
南星赫
金祐延
奇昌锡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Life Public Welfare Foundation
Samsung SDS Co Ltd
Original Assignee
Samsung Life Public Welfare Foundation
Samsung SDS Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Life Public Welfare Foundation, Samsung SDS Co Ltd filed Critical Samsung Life Public Welfare Foundation
Publication of CN105316223A publication Critical patent/CN105316223A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection

Landscapes

  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开一种生物学样品分析系统及方法。根据本发明的一个实施例的生物学样品分析系统包括:第一变异检测单元,根据第一判定标准值而判断多个池中的每一个池是否保有检查对象性质;错误判断单元,根据所述第一变异检测单元的判断结果被判断为阳性的池的相对性状频率而判断所述第一变异检测单元的判断结果是否存在错误可能性;第二变异检测单元,当由所述错误判断单元判断为存在错误可能性时,根据第二判定标准值而判断所述多个池中的每一个池是否保有所述检查对象性质;检查结果判定单元,根据所述第一变异检查单元和所述第二变异检查单元的判断结果而判定多个样品中的每一个样品是否保有所述检查对象性质。

Description

生物学样品分析系统及方法
技术领域
本发明的实施例涉及一种用于分析生物学样品的技术。
背景技术
如通过检查血液样品而检查是否被特定病毒感染或者检查是否具有引发特定疾病的遗传变异等的情形一样,为了检查待测试对象的生物学样品是否具有特定性质,通常是对各个对象的样品逐一执行检查。因此,在需要检查大量的样品的情况下,需要与样品个数对应的用于反复检查的时间和费用。然而对于发病率较低的疾病的分选检查而言,检查的大部分样品将会表现出阴性结果。因此,为了节省检查成本,公开了一种先将两个以上的样品进行混合(pooling)之后检查混合样品并判定混合的样品中是否存在具有检查的特定性质的样品的混合检查方法。进而还公开了可用于识别混合的样品中具有相关性质的样品究竟是何种样品的方法。这样的混合检查具有节省检查成本的优点,然而由于将众多的样品一举检查,因此与逐个检查相比具有可能使准确率降低的缺点。
混合检查结果中发生错误的主要原因是混合的个别样品未以相同的比率或期望的比率反映于混合样品(pooledsample,以下记为“池(pool)”)。其原因可以多种多样,作为一例可以是混合为一个池的样品之间的DNA浓度差。通常,为了进行混合检查而使一个样品混合于两个以上的池,并对混合的池执行检查,从而可根据哪个池表现为阳性而识别阳性样品。此时,阳性样品指具有变异的样品,阳性池表示混合于池的样品中存在阳性样品。
作为测定用于判断池是否为阳性的信号的一种方法,可以使用下一代测序(NextGenerationSequencing:以下记为“NGS”)技术。NGS技术对作为目标的基因组区域大量生成作为预定长度的序列片段的短片段,这样生成的短片段映射于参考序列(referencesequence),并将映射于特定区域的短片段的序列信息作为基础而重新构成相关区域的序列。特定位置的基因型可以由映射于包含相关位置的区域的短片段中的相关位置处的相对性状频率(交互等位基因频率(alternativeallelefrequency))进行类推。例如,对于作为杂合(Heterozygous)基因型的AB而言,短片段中的A和B的相对性状频率将会大致上分别表现为1/2、1/2。而且,对于将基因型为AB的样品与基因型为BB的样品进行混合的情形而言,A和B的相对性状频率将会大致上分别表现为1/4、3/4。因此,为了利用NGS技术而检查样品是否具有变异,基于映射的短片段测定作为变异基因型的AB和BB中存在的相对性状B的相对性状频率即可。然而,这却假定混合为一个池的样品以相同的比率存在于池。如果阳性样本以较低的比率混合于池,则在池中观测到的相对性状频率将会表现为低于期望的水平,且相关池被判定为阴性的概率提高。似此,如果混合有相关样品的池中的一部分表现出阴性的结果,则难以准确地判断样品是否为阳性。
[现有技术文献]
[专利文献]
US2012/0185177(2012.07.19)
发明内容
本发明的实施例的目的在于提供一种在混合多个样品而检查是否存在遗传变异的混合检查中用于提高检查的准确率的技术方案。
根据本发明的示例性实施例,提供一种生物学样品分析系统,该系统利用构成n×m矩阵的多个生物学样品、以及将所述矩阵中具有相同的行(row)或列(column)的样品进行混合而生成的多个池(pool)来判定多个样品中的每一个样品是否保有检查对象性质,所述系统包括:第一变异检测单元,根据第一判定标准值而判断所述多个池中的每一个池是否保有所述检查对象性质;错误判断单元,根据由所述第一变异检测单元判断为阳性的池的相对性状频率而判断所述第一变异检测单元的判断结果是否存在错误可能性;第二变异检测单元,当由所述错误判断单元判断为存在错误可能性时,根据第二判定标准值而判断所述多个池中的每一个池是否保有所述检查对象性质;检查结果判定单元,根据所述第一变异检测单元和所述第二变异检测单元的判断结果而判定所述多个样品中的每一个样品是否保有所述检查对象性质。
所述错误判断单元将所述第一变异检测单元的判断结果被判断为阳性的池的相对性状频率与相关池内被判定为阳性的样品个数进行比较,从而可以判断是否存在所述错误可能性。
所述系统还可以包括:信号模式判断单元,当由所述错误判断单元判断为存在错误可能性时,判断所述多个池的相对性状频率是否具备有效的信号模式。
所述信号模式判断单元可将所述多个池中的每一个池的相对性状频率群集化为2个群,并利用群集化的各个群所分别对应的相对性状频率的平均值来判断是否具备有效的信号模式。
所述信号模式判断单元在所述2个群中的一个群的每一样品的相对性状频率的平均值具有0至0.1之间的值而另外的群的每一样品的相对性状频率的平均值具有0.4至1之间的值的情况下,可判断为具备有效的信号模式。
所述第二变异检测单元在所述信号模式判断单元的判断结果为所述多个池的相对性状频率具备有效的信号模式的情况下,可根据所述第二判定标准值而判断所述多个池中的每一个池是否保有所述检查对象性质。
所述第二判定标准值可以是小于所述第一判定标准值的值。
根据本发明的另一示例性实施例,提供一种生物学样品分析方法,该方法利用构成n×m矩阵的多个生物学样品、以及将所述矩阵中具有相同的行(row)或列(column)的样品进行混合而生成的多个池(pool)而判定多个样品中的每一个样品是否保有检查对象性质,所述方法包括如下步骤:第一变异检测步骤,第一变异检测单元根据第一判定标准值而判断所述多个池中的每一个池是否保有所述检查对象性质;错误可能性存在与否判断步骤,错误判断单元根据由所述第一变异检测单元判断为阳性的池的相对性状频率而判断所述第一变异检测单元的判断结果是否存在错误可能性;第二变异检测步骤,当错误可能性存在与否判断步骤的判断结果被判断为存在错误可能性时,第二变异检测单元根据第二判定标准值而判断所述多个池中的每一个池是否保有所述检查对象性质;所述检查对象性质保有与否判定步骤,检查结果判定单元根据所述第一变异检测单元和所述第二变异检测单元的判断结果而判定所述多个样品中的每一个样品是否保有所述检查对象性质。
在所述错误可能性存在与否判断步骤中,将所述第一变异检测单元的判断结果被判断为阳性的池的相对性状频率与相关池内被判定为阳性的样品个数进行比较,从而可以判断是否存在所述错误可能性。
所述方法还可以包括如下步骤:当所述错误可能性存在与否判断步骤的判断结果被判断为存在错误可能性时,由信号模式判断单元判断所述多个池的相对性状频率是否具备有效的信号模式。
在判断是否具备所述有效的信号模式的步骤中,可将所述多个池中的每一个池的相对性状频率群集化为2个群,并利用群集化的各个群所分别对应的相对性状频率的平均值来判断是否具备有效的信号模式。
在判断是否具备所述有效的信号模式的步骤中,在所述2个群中的一个群的每一样品的相对性状频率的平均值具有0至0.1之间的值而另外的群的每一样品的相对性状频率的平均值具有0.4至1之间的值的情况下,可判断为具备有效的信号模式。
在所述第二变异检测步骤中,在所述信号模式判断单元的判断结果为所述多个池的相对性状频率具备有效的信号模式的情况下,可根据所述第二判定标准值而判断所述多个池中的每一个池是否保有所述检查对象性质。
所述第二判定标准值可以是小于所述第一判定标准值的值。
根据本发明的实施例,即使在混合有阳性样品的交叉池中的一个池中没有观测到有意义的水平的信号,也可以通过变异的深度检测而追加确认相关池的阳性与否,因此在混合检查中能够使一部分样品的假阴性或假阳性判定可能性最小化,据此可以提高检查的准确率。
附图说明
图1为用于说明根据本发明的一个实施例的样品混合(pooling)过程的图。
图2至图5为用于说明根据本发明的实施例的样品混合检查中的判定错误的示例图。
图6为表示根据本发明的一个实施例的生物学样品分析系统100的模块图。
图7至图9为用于说明根据本发明的实施例的生物学样品混合检查中的信号模式(signalpattern)的示例图。
图10为用于说明根据本发明的一个实施例的生物学样品分析方法1000的流程图。
符号说明:
100:生物学样品分析系统102:第一变异检测单元
104:错误判断单元106:信号模式判断单元
108:第二变异检测单元110:检查结果判断单元
具体实施方式
以下,参照附图说明本发明的具体实施方式。然而这只是示例,本发明并不局限于此。
在说明本发明时,如果认为对有关本发明的公知技术的具体说明有可能对本发明的主旨造成不必要的混乱,则省略其详细说明。另外,后述的术语为考虑到在本发明中的功能而定义的术语,其可能因使用者、运用者的意图或惯例等而不同。因此应当将贯穿整个说明书的内容作为基础而对其进行定义。
本发明的技术思想由权利要求书确定,以下的实施例只是用于将本发明的技术思想有效地说明给本发明所属技术领域中具有普通知识的人员的一种手段。
根据本发明的一个实施例的生物学样品分析系统100为用于判定多个生物学样品中的每一个样品是否具有特定生物学性质(换言之,是否对所述特定性质表现出阳性反应)的系统。具体而言,生物学样品分析系统100构成为利用将构成n×m矩阵的多个生物学样品以及在所述矩阵中具有相同的行(row)或列(column)的样品进行混合而生成的多个池(pool)来判定多个样品中的每一个样品是否保有检查对象性质。
在说明根据本发明的一个实施例的生物学样品分析系统100的各个构成要素之前,参照图1说明由检查对象样品构成池的过程。首先,将x个(x=n×m)检查对象样品(S1、S2、...,Sn×m)排列于n×m矩阵上。此时,n与m既可以相等也可以不相等,然而n×m必须与x相等。而且,x大于或等于2。所述检查对象样品为用于检查是否具有特定的生物学性质的试样,其可以是包括人类的所有生物的组织或体液等。
如果如上所述地构成矩阵,则接着将排列于矩阵上的x个检查对象样品分配于k(=n+m)个池而进行混合(pooling)。此时,在所述矩阵中具有相同的行或列的样品混合于相同的池。例如在图示的实施例中,池X1中混合有构成矩阵的第一列的样品,而Y1中混合有构成矩阵的第一行的样品。通过这样的过程,生成k个混合的样品(X1,...,Xm,Y1,...,Yn,以下为了方便而简记为池)。
然后,对混合有各个样品的k个池执行检查,从而测定针对待检查特定性质的信号。在本发明的实施例中,所谓的特定性质可以是各个样品是否保有特定单核苷酸多态性(SingleNucleotidePolymorphism:SNP)之类的基因标记(Geneticmarker)、在基因标记中的特定遗传型(genotype)、特定疾病等的生物学特性。在所述检查中,表示样品内特定性质的保有与否的信号的强度表现为与池内具有相关性质的样品的个数大致成比例。例如,在池内具有所述特定性质的样品的个数为2的情况下,与个数为1的情形相比,基于所述检查的信号强度大约可以是2倍。如果在特定池中测定的信号强度充分到可以判断包含于相关池中的一个以上的样品具有特定性质,则可以说相关池对所述特定性质为阳性(positive)。
例如,假设所述检查是对样品的特定单核苷酸多态性保有与否进行检查。在此情况下,包含于样品中的基因的相关变异位置上可能存在作为参照基因型的AA、作为杂合(Heterozygous)变异基因型的AB、作为纯合(Homozygous)变异基因型的BB中的一种。在本例中为了易于理解而以二倍体(diploid)情形为例,然而本发明并不局限于此。并且,作为测定针对变异基因型的信号的方法,可使用下一代测序(NextGenerationSequencing,以下记为NGS)技术。NGS技术对作为目标的基因组区域大量生成作为预定长度的序列片段的短片段,这样生成的短片段映射于参考序列(referencesequence),并将映射于特定区域的短片段的序列信息作为基础而重新构成相关区域的序列。
在所述的例中,检查对象样品的特定位置的基因型可以由映射于包含相关位置的区域的短片段中的相关位置处的相对性状频率(交互等位基因频率(alternativeallelefrequency))进行类推。例如,对于作为杂合基因型的AB而言,A和B的相对性状频率将会大致上分别表现为1/2、1/2。而且,对于将基因型为AB的样品与基因型为BB的样品进行混合的情形而言,A和B的相对性状频率将会大致上分别表现为1/4、3/4。因此,为了利用NGS技术来检查样品是否具有特定单核苷酸多态性,基于映射的短片段测定作为变异基因型的AB和BB中存在的相对性状B的相对性状频率即可。
另外,为了将NGS技术轻松地应用于本发明,需要在对各个池进行测序的结果下满足混合于相关池的各个样品的测序短片段大致均等地分布的条件。例如,如果混合的4个样品分别具有基因型AA、AB、AB、AA,则在相关池中对应于相对性状B的相对性状频率应当大致上表现为2/8。然而在构成池的各个样品尤其是阳性样品没有以适当的比率混合于池的情况下,即便是阳性样品也可能使池检查结果为阴性。对此,参照图2至图5而举例说明。
图2至图5为用于说明根据本发明的实施例的样品混合检查中的判定错误的示例图。首先,如图2所示,在样品S6为阳性样品的情况下,X2和Y2这两个池应当被判定为阳性。然而,如图3所示,如果混合了样品的2个池中有一个池Y2被错误地判定为阴性,则样品S6将被错误地判定为阴性。
并且,如图4所示,在阳性样品为S6、S11这2个的情况下,如果本应判定为阳性的4个池X2、X3、Y2、Y3中有一个池Y3被错误地判定为阴性,则样品S10和S11分别被错误地判定为阳性、阴性。图5的情形也为本应被判定为阳性的池X3被错误地判定为阴性而使本应被判定为阳性的样品S10被错误地判定为阴性的情形。即,对于样品混合检查而言,在一部分池被判定为假阴性(Falsenegative)或假阳性(Falsepositive)的情况下,将对全部样品的判定结果产生影响。
图6为表示根据本发明的一个实施例的生物学样品分析系统100的模块图。如图所示,根据本发明的一个实施例的生物学样品分析系统100利用构成n×m矩阵的多个生物学样品、以及将所述矩阵中具有相同的行或列的样品进行混合而生成的多个池来判定所述多个样品中的每一个样品是否保有检查对象性质,其包括第一变异检测单元102、错误判断单元104、信号模式判断单元106、第二变异检测单元108以及检查结果判断单元110。
第一变异检测单元102根据第一判定标准值而判断所述多个池中的每一个池是否保有所述检查对象性质。
错误判断单元104根据第一变异检测单元102的判断结果被判断为阳性的池的相对性状频率而判断所述第一变异检测单元的判断结果是否存在错误可能性。
信号模式判断单元106在由错误判断单元104判断为存在错误可能性的情况下,判断所述多个池的相对性状频率是否具有有效的信号模式。
第二变异检测单元108在由错误判断单元104判断为存在错误可能性或者由信号模式判断单元106判断为所述多个池的相对性状频率具有有效的信号模式的情况下,根据作为比所述第一判定标准值更加放宽的值的第二判定标准值而判断所述多个池中的每一个池是否保有所述检查对象性质。
检查结果判断单元110根据第一变异检测单元102和第二变异检测单元108的判断结果而判定所述多个样品中的每一个样品是否保有所述检查对象性质。
以下对如上所述地构成的根据本发明的一个实施例的生物学样品分析系统100的各个构成要素进行详细说明。
池中检测变异标准(正常探寻)
首先,第一变异检测单元102根据第一判定标准值而在所述多个池之每一个池中检测变异,从而判断池是否为阳性(是否保有检查对象性质)。
例如,第一变异检测单元102可基于针对各个变异而在池中观测到的相对性状频率来判定池是否为阳性。当混合于特定池的样品中具有变异的样品为1个且该变异为杂合遗传型时,将会观测到在相关池中判定为阳性所需的最小相对性状频率。所述最小相对性状频率的标准值(第一判定标准值)例如可以如数学式1那样计算,且在观测到的相对性状频率大于计算的标准值的情况下,可判断为相关池为阳性。
[数学式1]
最小相对性状频率标准值=α×(1/混合于池的样品的个数)
在上面的数学式1中,α为假设样品以预定比率混合于池内的情况下为了检测变异标准而所需的每一样品的相对性状频率(alternativeallelefrequencypersample)的最小值。例如,假设在混合有4个样品的1个池中存在具有杂合遗传型AB变异的1个样品。理想情况下在混合有4个样品的池中相当于一个样品的短片段占池的全部短片段的1/4,且在提取为相关样品(阳性样品)的短片段中具有遗传性状A的短片段与具有遗传性状B的短片段的个数比率大致成为1∶1。在此情况下,第一变异检测单元102可将每一样品的相对性状频率的最小值取为0.5而检测变异。然而,也可以考虑到测序误差或映射误差之类的一系列误差而将α值调小而应用。
如前所述,利用最小相对性状频率值而判断池是否为阳性的方法尤其适合于映射于相关变异位置的短片段的数量足够多的情形。除了上述方法以外,第一变异检测单元102还可以使用SNVer算法之类的计算针对遗传型的可能性(likelihood)或概率(probability)的统计学算法而确认各个池是否为阳性。即,前述的规则或算法只不过是用于执行本发明的一个实施例,本发明并不局限于此。
错误可能性判断
然后,错误判断单元104根据第一变异检测单元102的判断结果被判断为阳性的池的相对性状频率而判断所述第一变异检测单元的判断结果是否存在错误可能性。具体而言,错误判断单元104基于阳性的池而判断是否存在混合有样品的池中的一部分池被错误地判定为阴性的可能性。如果所述判断结果判断为没有错误可能性,则检查结果判断单元110基于在第一变异检测单元102中判定为阳性的池而判定混合于各个池的样品是否为阳性。
在一个实施例中,错误判断单元104将第一变异检测单元102的判断结果被判断为阳性的池的相对性状频率与在相关池内被判定为阳性的样品个数进行比较,从而可以判断是否存在所述误差可能性。如前所述,池的相对性状频率与包含于相关池中的阳性样品的个数大致成比例,因此在实际判定为阳性的样品的个数相比于特定池的相对性状频率过高或过低的情况下,可判断为第一变异检测单元102的判断结果中存在错误。
例如,错误判断单元104可利用如下的数学式2而判断是否存在所述错误可能性。数学式2用于针对阳性的池计算存在有在与池内被判定为阳性的样品个数相当的阳性样品的概率。错误判断单元104可在存在计算出的概率为预定水平以下的池的情况下,判断为存在错误可能性。
[数学式2]
Pr ( S | AF ) = Pr ( AF | S ) Pr ( S ) Pr ( AF | CommonVar ) Pr ( CommonVar ) + Pr ( AF | NntCommonVar ) Pr ( NotCommonVar )
在数学式中,S表示池内的阳性样品的个数,AF表示在池中观测到的等位基因频率、CommonVar表示检查对象群体(population)中可经常出现的变异、NotCommonVar表示并不是CommonVar的变异。所述CommonVar例如可以是1000基因组(Genomes)项目(Durbinetal.Nature2010)数据中以1%以上的频率存在的变异,然而并非一定要局限于此。
另外,所述数学式2只不过是通过利用池的等位基因频率和池内的阳性样品个数来判断错误可能性的一例,需注意本发明并不局限于此。
有效信号模式检测与否判断
当由错误判断单元104判断为存在错误可能性时,接着由信号模式判断单元106确定是否需要对经过第一变异检测单元102中的标准变异检测过程而没有检测到变异的池(阴性池)进行通过第二变异检测单元108的变异深度检测。信号模式判断单元106将所述多个池的相对性状频率是否具有有效的信号模式这一点作为标准而判断是否需要所述深度检测。
具体而言,信号模式判断单元106可将所述多个池中的每一个池的相对性状频率群集化为2个群,并利用群集化的各个群所分别对应的相对性状频率的平均值而判断是否具有有效的信号模式。此时,信号模式判断单元106在所述2个群中的某一个群的每一样品的相对性状频率的平均值具有0至0.1之间的值,而另外的群的每一样品的相对性状频率的平均值具有0.4至1之间的值的情况下,将会判断为具备有效的信号模式。对此进行如下更为详细的说明。
根据本发明的实施例的生物学样品分析系统100主要利用于检查多个样品是否具有已认识到与疾病的发作相关联的稀有变异(rarevariant)。因此,混合的样品中存在具有特定稀有变异的样品的可能性也是非常小。于是对于稀有变异而言,在大部分池中将会观测到大致接近于0的相对性状频率,而只有在一部分池(即,混合有阳性样品的池)中才能够观测到对变异检测留意的水平的相对性状频率。
图7至图9为用于说明根据本发明的实施例的样品混合检查中的信号模式的示例图。
首先,图7为样品具有稀有变异的情形,在此情况下,在大部分混池X1、X3、X4、Y1、Y3、Y4中将会表现出约为0的每一样品的相对性状频率,且在一部分池品X2、Y2中表现出约为0.4至1之间的每一样品的相对性状频率。因此,在此情况下信号模式判断单元106可判断为相关池具备有效的信号模式。
然后,图8为在所有池中表现出高水平的每一样品的相对性状频率的情形。这一情形为由于全部样品当中阳性的样品的个数过多而无法通过样品混合方法获得准确的结果的情形(换言之,假阳性样品过多地出现的情形)。在此情况下,即使将池的相对性状频率作为标准而进行群集化也不会出现平均为0的群集,因此信号模式判断单元106可判断为相关池不具备有效的信号模式。
然后,图9为在大部分的池中表现出低水平的每一样品的相对性状频率的情形。这是实际上不存在阳性样品却由于系统误差(Systematicerror)等而使池内出现较低的相对性状频率的情形。在此情况下,即使将池的相对性状频率作为标准而进行群集化也不会出现平均为0.4至1之间的群集,因此信号模式判断单元106可判断为相关池不具备有效的信号模式。
如前所述,为了确认各个池的相对性状频率是否表现出有效的信号模式,信号模式判断单元106可基于池的相对性状频率并通过群集分析算法(clusteringalgorithm)而将池群集化为2个群集(cluster)。例如,信号模式判断单元106可利用作为数据挖掘技术手段之一的K-均值聚类(K-meanclustering)算法而执行群集化,然而这只不过是示例,本发明并不局限于此。然后,信号模式判断单元106计算相当于各个群集的池的相对性状频率的平均。例如,如果群集1的平均值大致接近于0,且群集2的平均值表现为对标准变异检测有意义的程度的水平(约为0.4至1之间),则信号模式判断单元106判断为表现出有效的信号模式,从而可以执行作为下一步骤的变异深度检测。
池中深度检测变异(深度探寻)
第二变异检测单元108在由错误判断单元104判断为存在错误可能性或者由信号模式判断单元106判断为所述多个池的相对性状频率具备有效的信号模式的情况下,根据作为比所述第一判定标准值更加放宽的值的第二判定标准值而判断所述多个池中的每一个池是否保有所述检查对象性质。只是,根据实施例,当信号模式判断单元106没有包含于生物学样品分析系统100时,第二变异检测单元108在由错误判断单元104判断为存在错误可能性的情况下可直接根据第二判定标准值而判断所述多个池中的每一个池是否保有所述检查对象性质。
第二变异检测单元108可利用与第一变异检测单元102相同的算法而在各个池中检测变异。只是,与第一变异检测单元102不同,第二变异检测单元108构成为即使在没有观测到为进行标准检测而值得留意的水平的信号强度的情况下只要观测到预定水平以上的信号强度就会检测变异。换言之,第二变异检测单元中的第二判定标准值可以是小于第一判定标准值的值,或者是放宽的值。
例如,假设在第一变异检测单元102和第二变异检测单元108中利用所述数学式1而检测变异,在此情况下,如果在第一变异检测单元102中作为α值选用了0.5,则第二变异检测单元108可将该值减小到约为0.1至0.2的值而应用。在此情况下,如果特定池的相对性状频率被观测出为0.4,则第一变异检测单元102将会把相关池判断为阴性,而第二变异检测单元108将会把相关池判断为阳性。然而,第二变异检测单元108也可以与此不同地构成为利用不同于第一变异检测单元102的算法而在各个池中检测变异。
判定各个样品的变异与否
然后,检查结果判断单元110根据第一变异检测单元102和第二变异检测单元108的判断结果而判定所述多个样品中的每一个是否保有所述检查对象性质。关于利用各个池的检查结果而判定各个样品是否保有检查对象性质的方法已在前面阐述。
另外,为了更加准确地判定各个样品的变异与否,可以限制判定阳性样品时混合有相关样品的池当中用深度检测方式检测出变异的池的个数。例如,假设将通过深度检测方式检测出变异的池的个数限制为1个,则为了使样品属于阳性,混合了相关样品的2个池中至少有一个应当在第一变异检测单元102中被判定为阳性。这是因为如果只用第二变异检测单元108中被判断为阳性的池判定样品是否为阳性,则假阳性判定可能性将会变高。
根据本发明的实施例的生物学样品分析系统100在无法得知从池中检测的变异究竟是与引发疾病相关联的稀有变异还是在正常的群体中经常发现的变异的情况下特别有用。
图10为用于说明根据本发明的一个实施例的生物学样品分析方法1000的流程图。
在步骤1002中,第一变异检测单元102根据已设定的第一判定标准值而判断所述多个池中的每一个池是否保有所述检查对象性质。
在步骤1004中,错误判断单元104根据由第一变异检测单元102判断为阳性的池的相对性状频率而判断所述第一变异检测单元的判断结果是否存在错误可能性。如果所述步骤1004的判断结果判断为没有错误可能性,则直接进入到步骤1010。
与此不同,如果所述步骤1004的判断结果判断为存在错误可能性,则在步骤1006中由信号模式判断单元106判断所述多个池的相对性状频率是否具备有效的信号模式。如果所述步骤1006的判断结果不存在有效的信号模式,则直接进入到步骤1010。
与此不同,如果所述步骤1006的判断结果存在有效的信号模式,则在步骤1008中由第二变异检测单元108根据第二判定标准值而判断所述多个池中的每一个池是否保有所述检查对象性质。
在步骤1010中,检查结果判定单元110根据第一变异检测单元102和/或所述第二变异检测单元108的判断结果而判定所述多个样品中的每一个样品是否保有所述检查对象性质。
另外,本发明的实施例可包括记录有用于在计算机上执行本说明书中所述的方法的程序的计算机可读记录介质。所述计算机可读记录介质可将程序命令、本地数据文件、本地数据结构等以单独或组合方式包含在内。所述介质既可以是为了本发明而特别设计并构成的介质,也可以是被计算机软件领域中具有普通知识的人员所公知而可以使用的介质。计算机可读记录介质的例中包括:硬盘、软盘以及磁带之类的磁介质;CD-ROM、DVD之类的光记录介质、软盘之类的磁光介质以及ROM、RAM、快闪存储器等为了存储并执行程序命令而特别构成的硬件装置。程序命令的例中不仅包括由编译器制作的机器语言代码,而且还可以包括通过解释器等而被计算机执行的高级语言代码。
以上已通过代表性实施例而对本发明进行了详细说明,然而本发明所属的技术领域中具有普通知识的人员应该会理解在不脱离本发明范围的限度内可以对所述的实施例进行多种多样的变形。
因此,本发明的权利范围不应局限于所述的实施例而确定,而是要由权利要求书及其等价内容来确定。

Claims (14)

1.一种生物学样品分析系统,利用构成n×m矩阵的多个生物学样品、以及将所述矩阵中具有相同的行或列的样品进行混合而生成的多个池来判定多个样品中的每一个样品是否保有检查对象性质,所述系统包括:
第一变异检测单元,根据第一判定标准值而判断所述多个池中的每一个池是否保有所述检查对象性质;
错误判断单元,根据由所述第一变异检测单元判断为阳性的池的相对性状频率而判断所述第一变异检测单元的判断结果是否存在错误可能性;
第二变异检测单元,当由所述错误判断单元判断为存在错误可能性时,根据第二判定标准值而判断所述多个池中的每一个池是否保有所述检查对象性质;
检查结果判定单元,根据所述第一变异检测单元和所述第二变异检测单元的判断结果而判定所述多个样品中的每一个样品是否保有所述检查对象性质。
2.如权利要求1所述的生物学样品分析系统,其中,所述错误判断单元将所述第一变异检测单元的判断结果被判断为阳性的池的相对性状频率与相关池内被判定为阳性的样品个数进行比较,从而判断是否存在所述错误可能性。
3.如权利要求1所述的生物学样品分析系统,其中,还包括:
信号模式判断单元,当由所述错误判断单元判断为存在错误可能性时,判断所述多个池的相对性状频率是否具备有效的信号模式。
4.如权利要求3所述的生物学样品分析系统,其中,所述信号模式判断单元将所述多个池中的每一个池的相对性状频率群集化为2个群,并利用群集化的各个群所分别对应的相对性状频率的平均值来判断是否具备有效的信号模式。
5.如权利要求4所述的生物学样品分析系统,其中,所述信号模式判断单元在所述2个群中的一个群的每一样品的相对性状频率的平均值具有0至0.1之间的值而另外的群的每一样品的相对性状频率的平均值具有0.4至1之间的值的情况下,判断为具备有效的信号模式。
6.如权利要求3所述的生物学样品分析系统,其中,所述第二变异检测单元在所述信号模式判断单元的判断结果为所述多个池的相对性状频率具备有效的信号模式的情况下,根据所述第二判定标准值而判断所述多个池中的每一个池是否保有所述检查对象性质。
7.如权利要求1所述的生物学样品分析系统,其中,所述第二判定标准值为小于所述第一判定标准值的值。
8.一种生物学样品分析方法,利用构成n×m矩阵的多个生物学样品、以及将所述矩阵中具有相同的行或列的样品进行混合而生成的多个池来判定多个样品中的每一个样品是否保有检查对象性质,所述方法包括如下步骤:
第一变异检测步骤,第一变异检测单元根据第一判定标准值而判断所述多个池中的每一个池是否保有所述检查对象性质;
错误可能性存在与否判断步骤,错误判断单元根据由所述第一变异检测单元判断为阳性的池的相对性状频率而判断所述第一变异检测单元的判断结果是否存在错误可能性;
第二变异检测步骤,当错误可能性存在与否判断步骤的判断结果被判断为存在错误可能性时,第二变异检测单元根据第二判定标准值而判断所述多个池中的每一个池是否保有所述检查对象性质;
所述检查对象性质保有与否判定步骤,检查结果判定单元根据所述第一变异检测单元和所述第二变异检测单元的判断结果而判定所述多个样品中的每一个样品是否保有所述检查对象性质。
9.如权利要求8所述的生物学样品分析方法,其中,在所述错误可能性存在与否判断步骤中,将所述第一变异检测单元的判断结果被判断为阳性的池的相对性状频率与相关池内被判定为阳性的样品个数进行比较,从而判断是否存在所述错误可能性。
10.如权利要求8所述的生物学样品分析方法,其中,还包括如下步骤:
当所述错误可能性存在与否判断步骤的判断结果被判断为存在错误可能性时,由信号模式判断单元判断所述多个池的相对性状频率是否具备有效的信号模式。
11.如权利要求10所述的生物学样品分析方法,其中,在判断是否具备所述有效的信号模式的步骤中,将所述多个池中的每一个池的相对性状频率群集化为2个群,并利用群集化的各个群所分别对应的相对性状频率的平均值来判断是否具备有效的信号模式。
12.如权利要求11所述的生物学样品分析方法,其中,在判断是否具备所述有效的信号模式的步骤中,在所述2个群中的一个群的每一样品的相对性状频率的平均值具有0至0.1之间的值而另外的群的每一样品的相对性状频率的平均值具有0.4至1之间的值的情况下,判断为具备有效的信号模式。
13.如权利要求10所述的生物学样品分析方法,其中,在所述第二变异检测步骤中,在所述信号模式判断单元的判断结果为所述多个池的相对性状频率具备有效的信号模式的情况下,根据所述第二判定标准值而判断所述多个池中的每一个池是否保有所述检查对象性质。
14.如权利要求8所述的生物学样品分析方法,其中,所述第二判定标准值为小于所述第一判定标准值的值。
CN201410602027.8A 2014-05-29 2014-10-30 生物学样品分析系统及方法 Pending CN105316223A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2014-0064878 2014-05-29
KR1020140064878A KR20150137283A (ko) 2014-05-29 2014-05-29 생물학적 샘플 분석 시스템 및 방법

Publications (1)

Publication Number Publication Date
CN105316223A true CN105316223A (zh) 2016-02-10

Family

ID=54702086

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410602027.8A Pending CN105316223A (zh) 2014-05-29 2014-10-30 生物学样品分析系统及方法

Country Status (4)

Country Link
US (1) US20150347674A1 (zh)
KR (1) KR20150137283A (zh)
CN (1) CN105316223A (zh)
SG (1) SG10201407814VA (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107423534B (zh) * 2016-05-24 2021-08-06 郝柯 基因组拷贝数变异的检测方法和系统
KR102593718B1 (ko) * 2021-05-31 2023-11-14 (주) 옵투스자산운용 집합적 진단 제어 방법 및 그 시스템

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002090572A2 (en) * 2001-05-09 2002-11-14 Third Wave Technologies, Inc. Nucleic acid detection in pooled samples
US20020172965A1 (en) * 1996-12-13 2002-11-21 Arcaris, Inc. Methods for measuring relative amounts of nucleic acids in a complex mixture and retrieval of specific sequences therefrom
KR20030074585A (ko) * 2000-07-18 2003-09-19 더 유나이티드 스테이츠 오브 아메리카 애즈 리프리젠티드 바이 더 세크레터리 오브 더 디파트먼트 오브 헬쓰 앤드 휴먼 써비시즈 생물학적 데이터의 숨겨진 패턴에 근거한 생물학적 상태의식별 방법
WO2005075678A1 (en) * 2004-02-10 2005-08-18 Yissum Research Development Company Of The Hebrew University Of Jerusalem Determination of genetic variants in a population using dna pools
WO2009014787A2 (en) * 2007-04-30 2009-01-29 Nanogen, Inc. Multianalyte assay
WO2010096696A2 (en) * 2009-02-20 2010-08-26 Cold Spring Harbor Laboratory Harnessing high throughput sequencing for multiplexed specimen analysis
CN101910413A (zh) * 2007-10-31 2010-12-08 亨德里克斯基因有限公司 用于进行生物测定的合并样本的方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020172965A1 (en) * 1996-12-13 2002-11-21 Arcaris, Inc. Methods for measuring relative amounts of nucleic acids in a complex mixture and retrieval of specific sequences therefrom
KR20030074585A (ko) * 2000-07-18 2003-09-19 더 유나이티드 스테이츠 오브 아메리카 애즈 리프리젠티드 바이 더 세크레터리 오브 더 디파트먼트 오브 헬쓰 앤드 휴먼 써비시즈 생물학적 데이터의 숨겨진 패턴에 근거한 생물학적 상태의식별 방법
WO2002090572A2 (en) * 2001-05-09 2002-11-14 Third Wave Technologies, Inc. Nucleic acid detection in pooled samples
WO2005075678A1 (en) * 2004-02-10 2005-08-18 Yissum Research Development Company Of The Hebrew University Of Jerusalem Determination of genetic variants in a population using dna pools
WO2009014787A2 (en) * 2007-04-30 2009-01-29 Nanogen, Inc. Multianalyte assay
CN101910413A (zh) * 2007-10-31 2010-12-08 亨德里克斯基因有限公司 用于进行生物测定的合并样本的方法
WO2010096696A2 (en) * 2009-02-20 2010-08-26 Cold Spring Harbor Laboratory Harnessing high throughput sequencing for multiplexed specimen analysis

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KATARINA LINDROOS ET AL: "Multiplex SNP genotyping in pooled DNA samples by a four-colour microarray system", 《NUCLEIC ACIDS RESEARCH》 *

Also Published As

Publication number Publication date
US20150347674A1 (en) 2015-12-03
SG10201407814VA (en) 2015-12-30
KR20150137283A (ko) 2015-12-09

Similar Documents

Publication Publication Date Title
ES2970286T3 (es) Plantillas de control de calidad para garantizar la validez de ensayos basados en secuenciación
ES2441807T3 (es) Diagnóstico de aneuploidía cromosómica fetal utilizando secuenciación genómica
US20210065847A1 (en) Systems and methods for determining consensus base calls in nucleic acid sequencing
CN113160882B (zh) 一种基于三代测序的病原微生物宏基因组检测方法
US11869661B2 (en) Systems and methods for determining whether a subject has a cancer condition using transfer learning
KR101936934B1 (ko) 염기서열의 변이 검출방법 및 이를 이용한 염기서열의 변이 검출 디바이스
KR20170000744A (ko) 유전자의 복제수 변이(cnv)를 분석하는 방법 및 장치
WO2021061473A1 (en) Systems and methods for diagnosing a disease condition using on-target and off-target sequencing data
US20190073445A1 (en) Identifying false positive variants using a significance model
Smart et al. A novel phylogenetic approach for de novo discovery of putative nuclear mitochondrial (pNumt) haplotypes
Hernandez et al. Singleton variants dominate the genetic architecture of human gene expression
US20220068434A1 (en) Monitoring mutations using prior knowledge of variants
CN105316223A (zh) 生物学样品分析系统及方法
CN108460248A (zh) 一种基于Bionano平台检测长串联重复序列的方法
WO2023147783A1 (en) Fragmentation for measuring methylation and disease
CN107075586B (zh) 用于鉴定多种癌症类型和亚型的糖基转移酶基因表达谱
US20070203653A1 (en) Method and system for computational detection of common aberrations from multi-sample comparative genomic hybridization data sets
TWI615474B (zh) 用於核酸樣品的測量方法
Deshpande et al. Reconstructing and characterizing focal amplifications in cancer using AmpliconArchitect
US20220399079A1 (en) Method and system for combined dna-rna sequencing analysis to enhance variant-calling performance and characterize variant expression status
Zheng et al. Analysis considerations for utilizing RNA-Seq to characterize the brain transcriptome
WO2024068399A1 (en) Detection method, computer program product, data processing unit and detection system for detecting mutations of a polynucleotide in a biological sample
Cao Analysis of Concordance and Discordance in Genetic Association Studies via Forward-Backward Scoring Scheme
Wu et al. A new method for estimating the number of non-differentially expressed genes
Chlis et al. Extracting reliable gene expression signatures through stable bootstrap validation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160210

RJ01 Rejection of invention patent application after publication