CN104968806B - 提供与基于基因序列的个人标记有关的信息的方法和装置 - Google Patents

提供与基于基因序列的个人标记有关的信息的方法和装置 Download PDF

Info

Publication number
CN104968806B
CN104968806B CN201480006935.9A CN201480006935A CN104968806B CN 104968806 B CN104968806 B CN 104968806B CN 201480006935 A CN201480006935 A CN 201480006935A CN 104968806 B CN104968806 B CN 104968806B
Authority
CN
China
Prior art keywords
quality
sequence
reliability
variation
marker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201480006935.9A
Other languages
English (en)
Other versions
CN104968806A (zh
Inventor
南宫锭贤
尹泰钧
李成坤
李秉哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Invensys Healthcare Co ltd
Original Assignee
SK Telecom Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SK Telecom Co Ltd filed Critical SK Telecom Co Ltd
Priority claimed from PCT/KR2014/000823 external-priority patent/WO2014119914A1/ko
Publication of CN104968806A publication Critical patent/CN104968806A/zh
Application granted granted Critical
Publication of CN104968806B publication Critical patent/CN104968806B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B99/00Subject matter not provided for in other groups of this subclass
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C99/00Subject matter not provided for in other groups of this subclass
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/40ICT specially adapted for the handling or processing of patient-related medical or healthcare data for data related to laboratory analysis, e.g. patient specimen analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Analytical Chemistry (AREA)
  • Organic Chemistry (AREA)
  • Molecular Biology (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Genetics & Genomics (AREA)
  • Primary Health Care (AREA)
  • Databases & Information Systems (AREA)
  • Immunology (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Biochemistry (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Microbiology (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physiology (AREA)
  • Bioethics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供了一种提供与基于基因序列的个人标记有关的信息的方法和使用该方法的装置,其中该方法包括以下步骤:从目标样品获得碱基序列信息;对获得的基因序列执行品质管理;将执行了品质管理的基因序列与参考序列进行比较;从所述序列比较结果中提取个人识别基因变异标记;基于可靠性、容易度和有用性对所提取的个人识别基因变异标记的最优性进行评价;以及输出被验证具有标记最优性的变异区域。由此,本发明能够提取个人基因变异标记并对所提取的基因变异标记的最优性进行评价,并进一步提供了可以应用于使用其他分析仪的识别测试的围绕序列信息。

Description

提供与基于基因序列的个人标记有关的信息的方法和装置
技术领域
本发明涉及提供与基于基因序列的个人标记有关的信息的方法和使用该方法的装置。
背景技术
随着人类基因组计划的完成,已经对人类DNA碱基序列进行了解码并从中发现了人类基因的各种功能。具体而言,已经发现了各种基因变异,并且已发现它们不但引起人类性状的差异,而且还充当了某些疾病的病因。因此,人类基因组分析研究越来越在加速进行。然而,难点在于确定人类基因组中出现的大量基因变异中哪些基因变异会是病因。
随着下一代测序(NGS)技术的发展,已经能够对个体人类的全基因组的碱基序列进行解码。通过对疾病组和正常组的碱基序列与变异的比较和分析,能够提取疾病特异性基因变异。此外,已经采用如下方法在现有的繁殖材料中生成唯一的分子标记:选择与性状相关联的标记,在种质(germplasm)内的一组标记中在核苷酸水平识别现有的变异,并借助靶向核苷酸交换在标记的固定区域中的位置处引入一个或更多个核苷酸而引入选择性标记(参见韩国专利申请特开No.10-2011-0094268)。
然而,现有技术的方法仅能提供高度特异性基因变异信息,因而其受限于不能提供可靠的有用信息。
发明内容
技术问题
鉴于上述问题而做出本发明,并且本发明的目的是提供一种与基于基因序列的个人标记有关的信息的方法,该方法包括以下步骤:从目标样品获得基因序列信息;使用所获得的基因序列信息提取基因序列变异标记;以及基于碱基序列的品质对所提取的变异标记的最优性进行评价,以提供与基于基因序列的个人标记有关的信息。
此外,本发明的另一目的是提供一种装置,该装置包括:序列输入部;序列品质管理(QC)部;序列比较运算部;基因变异提取部;以及从目标样品获得的碱基序列信息的变异区域序列输出部。
解决技术问题的技术方案
在本发明中,术语“可靠性评价”是指对所选择的标记的可能显著性进行评价;其实例包括:使用与支持读段(read)的数量、碱基序列的数量以及用于提取基因变异标记的序列的品质(但不限于此)有关的信息对基因变异分析结果进行评价。
在本发明中,术语“容易度评价”是指对实验标记检测的容易程度进行评价;其实例包括:分析和评价重复序列的出现、诸如GC碱基含量等序列组成特性、以及基因变异周围的附加个体变异的出现,但不限于此。
在本发明中,术语“有用性评价”是指基于与标记的生物性状的关联性对有用性进行评价;其实例包括:基于与基因标记的生物性状的关联性对有用性进行评价,例如与疾病风险性的关联性,以及与靶向抗癌剂的关联性,但不限于此。
在一个实施方式中,本发明提供了一种用于提供与基于基因序列的个人标记有关的信息的方法,该方法包括以下步骤:从目标样品获得碱基序列相关信息;对所获得的碱基序列信息是否适于分析执行品质管理;将执行了品质管理的所述碱基序列与参考序列进行比较;从序列比较结果中提取个人识别标记;对所提取的个人识别标记的最优性进行评价;以及输出已识别出标记的最优性的所述序列。
在该实施方式中,对标记的最优性进行评价的步骤提供了特征在于下述的方法:执行可靠性评价、容易度评价和有用性评价。对序列品质进行识别并执行品质管理的步骤提供了特征在于下述的方法:对基因的每个位置执行选自由修整(trimming)、N掩蔽(N-masking)和低品质读段过滤组成的组中的任意一个或更多个运算。对碱基序列进行比较的步骤提供了特征在于下述的方法:其执行选自由全局比对和局部比对组成的组中的任意一个或更多个运算。对标记进行提取的步骤提供了特征在于下述的方法:其提取单核苷酸多态性(SNP)或结构变异(SV)。对标记的可靠性进行评价的步骤提供了特征在于下述的方法:其基于所获得的碱基序列读段的数量和组成对统计可靠性进行评价。对标记的容易度进行评价的步骤提供了特征在于下述的方法:考虑重复序列的出现、GC含量等对实验的容易度进行评价。对标记的有用性进行评价的步骤提供了特征在于下述的方法:对涉及疾病风险程度以及与疾病的关联性的生物学有用性进行评价。此外,输出上述识别出序列的步骤提供了特征在于下述的方法:将包括所述基因变异的碱基序列的外围序列输出成例如fasta格式等的常规标准序列文件格式。
在一个实施方式中,本发明提供了一种用于提供与基于基因序列的个人标记有关的信息的装置,该装置包括:输入部(110),用于输入从目标样品获得的碱基序列信息;品质管理运算部(120),用于对所获得的碱基序列信息是否适于分析执行品质管理;比较运算部(130),用于将执行了品质管理的所述碱基序列与参考序列进行比较;基因变异提取部(140),用于从序列比较结果中提取个人识别标记;适用性运算部(150),用于对所提取的个人识别标记的最优性进行识别和评价;以及输出部(160),用于输出所述标记的最优性的评价结果。
在上述实施方式中,最优性运算部(150)提供了特征在于下述的装置:其选自由可靠性运算部、容易度运算部和有用性运算部组成的组中的任意一个或更多个。品质管理运算部(120)提供了特征在于下述的装置:该运算对基因的每个位置执行选自由修整、N掩蔽和低品质读段过滤组成的组中的任意一个或更多个运算。比较运算部(130)提供了特征在于下述的装置:其执行选自由全局比对和局部比对组成的组中的任意一个或更多个运算。基因变异提取部(140)提供了特征在于下述的装置:其提取单核苷酸多态性或结构变异。在最优性运算部(150)中,可靠性运算部提供了特征在于下述的装置:其基于所获得的碱基序列读段的数量和组成对统计可靠性进行评价;容易度运算部提供了特征在于下述的装置:其考虑重复序列的出现、GC含量等对实验的容易度进行评价;以及有用性运算部提供了特征在于下述的装置:其对涉及疾病风险程度以及与疾病的关联性的生物学有用性进行评价。此外,输出部(160)提供了特征在于下述的装置:将包括所述基因变异的碱基序列的外围序列呈现为例如fasta格式等常规标准序列文件格式。
发明的有益效果
由于通过从基因序列分析仪得到的核苷酸序列读段获得的基因变异信息包括不确定性,因此存在许多情形需要使用其他分析设备的识别处理。因而,通过根据本发明的用于提供与基于基因序列的个人标记有关的信息的方法和使用该方法的装置,i)执行个人基因变异标记提取;ii)基于可靠性、容易度和有用性对所提取的基因变异标记进行评价;以及iii)在不使用单独程序的情况下能够同时获得外围序列信息,从而其能够用于使用其他分析设备的识别实验。具体而言,在癌症细胞基因的情况下,其提供了对该癌症细胞特异的基因变异标记,因此能够用作用于检测源自癌细胞的基因的工具,所述源自癌细胞的基因与源自受试对象的的正常细胞的基因区别开。
附图说明
图1是示出根据本发明的一个实施方式的用于提供与基于基因序列的个人标记有关的信息的方法的总体图。
图2是用于读取来自序列分析仪的碱基序列读段、对各个读段执行品质管理并将所获得的碱基序列相对于公开的参考序列进行匹配的方法的一个具体实例。
图3是示出用于参照公开的参考序列或其他碱基序列读段提取个人基因变异标记并对信息进行呈现的方法的一个具体实例。
图4a至4h是通过执行了表1和2中所列出的可靠性计算的仿真而产生的示例性序列;图4i至图4l示出了每一个所述序列的计算结果。
图5是基于与基因标记的生物性状的关联性计算出的所发现的三个基因变异的有用性分数的一个具体实例。
具体实施方式
下面将参照附图说明本发明的优选实施方式。参照结合附图详细描述的实施方式,本发明及实现本发明的方法的优点和特征将变得明显。然而,本发明不限于下面描述的实施方式,而是旨在以许多不同形式体现。提供本发明的实施方式仅为了向本发明所属技术领域的普通技术人员完全传达本发明的概念,本发明仅由所附权利要求限定。在说明书中通篇用相同的附图标记表示相同的要素。
在本发明的一个实施方式中,图1是示出从由序列分析仪得到的碱基序列数据提取个人基因变异标记并以适于个人基因变异识别实验的形式呈现序列的方法的总体图。亦即,本方法包括以下步骤:对来自序列分析仪的碱基序列读段进行解码;对各个读段执行品质管理;利用公开的参考序列对所获得的碱基序列进行排列(arranging)和匹配;将匹配后的序列与公开的参考序列或其他比较碱基序列进行比较;提取个人基因变异标记,并提供与之有关的信息。在该情况下,为了在个人基因变异标记中选择具有最高有用性的标记作为个人识别标记,执行可靠性评价、容易度评价和有用性评价。从评价结果提取的基因信息将包括基因变异的碱基序列的外围序列呈现为例如fasta格式等常规标准序列文件格式。
在本发明的另一个具体实例中(图2),本方法包括以下步骤:从由序列分析仪得到的碱基序列数据中获得读段数据,对基因序列读段数据进行解码并将该数据存储在系统中。基于基因各个位置的品质分数执行修整、N掩蔽和低品质读段过滤。通过全局比对或局部比对将清理后的序列与参考序列进行比较。使用例如BWA、BWASW、Bowtie2等程序执行排列,以准备SAM或BAM格式的输出文件。
本发明的另一个实施方式(图3)提出了使用经过上述品质管理过程的读段文件来提取例如单核苷酸多态性(SNP)或结构变异(SV)等基因变异标记的过程。使用GATKUnifiedGenotyper和SAMtool smpileup对SNP和短INDEL变异标记的提取进行分析。为了提高所提取标记的精确度,可以进行重新比对和重新校准处理。可以利用诸如BreakDancer和Pindel等程序实现SV的提取,以发现染色体间/内重排,大插入缺失(INDEL)、倒置、大范围重复序列变异和大的结构变异。
在本发明的一个实施方式中,标记的评价划分为:i)可靠性评价;ii)容易度评价;和iii)有用性评价。在可靠性评价中,使用例如在提取基因变异中使用的支持读段的数量和序列品质等的信息来评价基因变异结果。在容易度评价中,对重复序列的出现、诸如GC含量等序列组成性质、相应基因变异附近个人基因变异的出现进行分析以评价实验的容易度。在有用性评价中,基于与生物性状的基因标记的关联性(例如与疾病风险程度的关联性以及与抗癌剂的关联性)对有用性进行评价。
在本发明的一个实施方式中,“可靠性评价”是如下过程:对基因变异的可靠性进行评价,基于支持读段数量和序列的品质、在提取基因变异时使用的不一致(discordant)的读段对和截短读段(clipped read)来指派分数,随后对各个变异的断点(break point)进行评价。根据下式如下计算:
R=f(Σij(Wi(Rij)),
其中,f()是链接函数;wi()是加权函数;Rij是考虑了各类型支持读段的匹配品质和单独序列的品质的分数。
在本发明的一个实施方式中,SNP的可靠性由如下因素定义:匹配品质(Qi M)和碱基品质(Qi B)的几何平均数(Qi)、基于品质的变异比(Ms)、含有变异的读段(支持读段)的品质(As)、相应位置的深度与整体平均深度比的乘积(Ds)。
在所发现的SNP的位置有总共n个支持读段(i=1,...,n),我们假设具有参考核苷酸序列n-m的读段。此时,碱基品质(Qi B)和匹配品质(Qi M)表示第i个读段的碱基品质和匹配品质,并且可以按下式计算。
其中,分别是必须要满足的最小碱基品质和匹配品质值,并且分别表示整个序列的平均碱基品质和相关联样品的匹配品质值。在下面的实例中,CB和CM使用作为度量常数(scale constant)。Qi,即第i个读段的品质值,由该读段的碱基品质与匹配品质的乘积定义如下。
基于品质的变异比(Ms)、支持读数的品质(As)和相应位置的深度比(Ds)分别定义如下。
Ds=m/d,
其中,d是样品的整个序列的平均深度。
SNP的可靠性如下所示。
QSNP=AsMsDs
下表1示出了通过仿真创建的两个SNP的可靠性计算示例。
表1
在本发明的一个实施方式中,结构变异(SV)的可靠性(Qsv)定义为匹配品质(Qi M)与碱基品质(Qi M)的乘积。
为了计算结构变异的可靠性,在所发现的结构变异区(亦即,在具有切割面的中心的配对端读段的情况下,与插入大小相对应的区域;而在单端读段的情况下,与读段长度的两倍相对应的区域)中有总共n个支持读段(非典型读段和切割读段),假设具有参考序列m-n的读段。此外,Qi M是除了支持读段以外其余读段的平均值。Qi B定义为如下匹配品质值。
其中,l是读段的长度。
其中,是匹配序列与参考序列的平均匹配品质值,定义如下:
其中,在下面的实例中,CB和CM使用作为度量常数。
下表2示出了计算出的通过仿真产生的两个插入的结构变异的可靠性的实例。
表2
在本发明的一个实例中,“容易度评价”是用于确定对例如PCR或靶序列分析方法提取的标记进行识别的容易度的指标,并且根据以下公式计算:
A=ΣwiAi
其中,Ai是分项的容易度,wi是每个容易度的权重。
为了计算分项容易度,区域多态性可以包括例如SMP和短INDEL,但不限于此。如果在感兴趣的标记以及周围序列中存在参考序列以及其他替代物或短INDEL,则确定其容易度。例如,可以如下计算。
Arp={在同(homo)同源SNP的情况下,为1;在同indel的情况下,为0;在异(hetero)SNP的情况下,为-1;在异indel的情况下,为-9}。
此外,引入序列复杂度以评价自组装或唯一性,并且其计算如下:
ASD=CΣf(si)
其中,字长为l,f(s)是序列相频率的函数,C是常数。
此外,“GC含量”必须能够表示例如供PCR使用的引物的熔点。因此,必须要引入到函数中的GC含量如下计算:
AGC=C1p(GC)+C2p(AT)+C3
其中,Cn是系数,p(XY)中的XY是含量。
在本发明的一个实施方式中,如果在所发现的易位基因变异切割面的上游和下游附近序列具有如下序列,则可以按如下方式计算容易度。
-BP_上游:
GACGCCCCAGGCCGCGGTGGAGTTGCGCGCGGCTTC[A]AAAGTGGAGTGG AGCAGGCCTGC
-BP_下游:
AGCACAGGCAGGCACCAGCTGGGCAGTGT[A/T]AGGATGCTGGAGCAGCA TCCGT[-]ACCCCAC
换言之,上述上游附近序列具有其中同SNP中的一个,因此在Arp中没有扣除(deduction)。另一方面,在下游的情况下,存在一个异SNP和一个同indel,因此扣除1点。在Asp的情况下,可以按与论文(Computers&Chemistry23(3-4):263-201)中公开的方法类似的方式计算。其用途是确定能够产出引物等的数量,但不限于此。Aqc是为了例如使用香农熵计算与GC含量有关的适当权重(最大值为0.5)。容易度是根据这些权重之和计算出来。例如,如果将与此处考虑的因素有关的所有权重设置为1/3,则下表3中示出了结果。
表3
在本发明的一个实施方式中,所找到的缺失基因变异切割面的侧翼序列如下所示,
-BP_上游:
GGGCGCGGGCGCGCGGGGCGGCGGTGAGGGCGGCTGGCGGGGCCGGGGGCGCCGGGGGGG
-BP_下游:
CCACTGGGGAGAGGCTGTTCTGACTCTGCAGGTGGGACAGGGACAGATGGCCACCAGGGT
下表4中示出了应用容易度计算方法的结果。
由于表4中的容易度分数类似于表3,因此可以确定容易度下降。
在本发明的一个实施方式中,“有用性评价”是基于与生物性状的关联性(例如疾病的风险程度、靶向抗癌剂的相关性和关联性),对有用性进行评价。例如,根据下式计算有用性。
U=ΣwiUi
其中,Ui是分项的有用性,wi是每个有用性的权重。
通过识别区域的功能相对于基因标记所对应区域中的官能团是否适合于用户的目的来计算各个有用性。例如,如果编码区域、调控区域和基因间隔区(intergenicregion)中的任意一个对应于感兴趣的区域,则给出c1、c2、c3(Uf=c1>c2>c3)中的每一个。在该情况下,如果靶向抗癌剂与基因标记相关联,则通过评价对药物的响应来计算有用性。当确定治疗方法时可以使用与靶向抗癌剂相关联的基因标记。例如,其可以如下计算:
Um=f(是否存在包含靶向抗癌剂有关变异的区域,1或0)。
此外,如果基因标记与疾病相关联,则对疾病的风险程度进行评价并随后计算有用性。例如,其可以由下式计算:
Ui=f(是否存在包含疾病风险因素的区域,1或0)。
在本发明的一个实施方式中(图4),与发现的三个基因变异标记有关的有用性的分数可以如下计算。在图4中基因变异2的情况下,其位于内含子处。因此,在每单位区域的功能评价部中给出0.5点。已经报告了与乳腺癌和卵巢癌的关联性,因此由于与疾病的关联性而将该分数加1点。变异位于靶向抗癌剂赫赛汀(herceptin)的目标区域处,因此由于与靶向抗癌剂的关联性而加1点。因此,根据计算公式有用性“用性得到的分数为2.5点。为此,三个基因变异中的基因变异2可以确定为最高。
在本发明的一个实施方式中,术语“本掩蔽”是指用于确定过低品质序列读段的各核苷酸的丢失值的过程。术语“低品质读段过滤”是指将一些值排除进行低品质(读段)的序列读段分析的过程。
在本发明的一个实施方式中,“全局比对”是指将读段整个序列定位在参考序列的最相似部分的方法。“局部比对”是指将一些读段序列定位在参考序列的最相似部分的方法。
在本发明的一个实施方式中,使用位于基因变异附近的读段来确定样品的基因变异和周围序列,并准备所完成的基因变异序列的输出文件。

Claims (17)

1.一种提供与基于基因序列的个人标记有关的信息的非诊断性方法,所述方法包括:
从目标样品获得碱基序列相关信息的步骤;
对从所述目标样品获得的所述碱基序列执行品质管理的步骤;
将执行了品质管理的所述碱基序列与参考序列进行比较的步骤;
从序列比较结果中提取个人识别基因变异标记的步骤;
对所提取的个人识别基因变异标记的最优性进行评价的步骤;以及
输出已识别出所述标记的最优性的序列的步骤,
其中,对标记的最优性进行评价的所述步骤通过可靠性评价、容易度评价和有用性评价来执行;
所述有用性评价包括对靶向抗癌剂的相关性和关联性的评价,
通过单核苷酸多态性(SNP)或结构变异(SV)执行对基因变异标记进行提取的步骤,
所述单核苷酸多态性(SNP)的可靠性如下所示:
QSNP=AsMsDs
其中,As是含有变异的读段的品质,Ms是基于品质的变异比,Ds是相应位置的深度与整体平均深度之比,
所述As、Ms和Ds如下所示,
<mrow> <msub> <mi>M</mi> <mi>s</mi> </msub> <mo>=</mo> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msub> <mi>Q</mi> <mi>i</mi> </msub> <mo>/</mo> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </msubsup> <msub> <mi>Q</mi> <mi>i</mi> </msub> <mo>,</mo> </mrow>
<mrow> <msub> <mi>A</mi> <mi>s</mi> </msub> <mo>=</mo> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msub> <mi>Q</mi> <mi>i</mi> </msub> <mo>,</mo> </mrow>
Ds=m/d,
其中,d是样品的整个序列的平均深度,
Qi如下所示,
<mrow> <msub> <mi>Q</mi> <mi>i</mi> </msub> <mo>=</mo> <msubsup> <mi>Q</mi> <mi>i</mi> <mi>B</mi> </msubsup> <msubsup> <mi>Q</mi> <mi>i</mi> <mi>M</mi> </msubsup> <mo>,</mo> </mrow>
其中,Qi是第i个读段的品质值,Qi M是匹配品质,Qi B是碱基品质,
所述结构变异(SV)的可靠性如下所示:
<mrow> <msup> <mi>Q</mi> <mrow> <mi>S</mi> <mi>V</mi> </mrow> </msup> <mo>=</mo> <msup> <mi>Q</mi> <mi>M</mi> </msup> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msubsup> <mi>Q</mi> <mi>i</mi> <mi>B</mi> </msubsup> <mo>.</mo> </mrow>
2.根据权利要求1所述的方法,其特征在于,通过对基因的各个位置进行选自由修整、N掩蔽和低品质读段过滤组成的组中的任意一个或更多个而执行品质管理步骤。
3.根据权利要求1所述的方法,其特征在于,通过选自由全局比对和局部比对组成的组中的任意一个或更多个来执行对序列进行比较的步骤。
4.根据权利要求1所述的方法,其特征在于,通过评价来自所获得的碱基序列读段的数量和组成的统计学可靠性而执行对所述基因变异标记可靠性进行评价的步骤。
5.根据权利要求1所述的方法,其特征在于,通过分析重复序列的出现、GC含量以及所述个人识别基因变异标记的提取频率以评价实验容易度,从而执行对标记的容易度进行评价的步骤。
6.根据权利要求1所述的方法,其特征在于,输出上述识别出的序列的步骤将包含所述基因变异的碱基序列的外围序列输出成fasta格式。
7.根据权利要求1所述的方法,其特征在于,在所述单核苷酸多态性(SNP)的可靠性的情况下Qi M和Qi B如下所示:
其中,分别是必须要满足的最小碱基品质和匹配品质值,并且CB和CM使用作为度量常数。
8.根据权利要求1所述的方法,其特征在于,在所述结构变异(SV)的可靠性的情况下Qi M和Qi B如下所示:
其中,l是读段的长度,
其中,是匹配序列与参考序列的平均匹配品质值,定义如下:
<mrow> <msup> <mover> <mi>q</mi> <mo>&amp;OverBar;</mo> </mover> <mrow> <mi>N</mi> <mi>M</mi> </mrow> </msup> <mo>=</mo> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mi>n</mi> <mo>+</mo> <mn>1</mn> </mrow> <mi>m</mi> </msubsup> <msubsup> <mi>q</mi> <mi>i</mi> <mi>M</mi> </msubsup> <mo>/</mo> <mrow> <mo>(</mo> <mi>m</mi> <mo>-</mo> <mi>n</mi> <mo>)</mo> </mrow> <mo>.</mo> </mrow>
其中,CB和CM使用作为度量常数。
9.一种提供与基于基因序列的个人标记有关的信息的装置,所述装置包括:
输入部,用于输入从目标样品获得的碱基序列信息;
品质管理运算部,用于对所获得的碱基序列执行品质管理;
比较运算部,用于将执行了所述品质管理的所述碱基序列与参考序列进行比较;
基因变异提取部,用于从所述序列比较结果中提取个人识别基因变异标记;
适用性运算部,用于对所提取的个人识别基因变异标记的最优性进行评价;以及
输出部,用于输出标记最优性的评价结果,
所述适用性运算部由可靠性运算部、容易度评价部和有用性评价部组成,
所述基因变异标记通过单核苷酸多态性(SNP)或结构变异(SV)执行,
所述单核苷酸多态性(SNP)的可靠性如下所示:
QSNP=AsMsDs
其中,As是含有变异的读段的品质,Ms是基于品质的变异比,Ds是相应位置的深度与整体平均深度之比,
所述As、Ms和Ds如下所示,
<mrow> <msub> <mi>M</mi> <mi>s</mi> </msub> <mo>=</mo> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msub> <mi>Q</mi> <mi>i</mi> </msub> <mo>/</mo> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </msubsup> <msub> <mi>Q</mi> <mi>i</mi> </msub> <mo>,</mo> </mrow>
<mrow> <msub> <mi>A</mi> <mi>s</mi> </msub> <mo>=</mo> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msub> <mi>Q</mi> <mi>i</mi> </msub> <mo>,</mo> </mrow>
Ds=m/d,
其中,d是样品的整个序列的平均深度,
Qi如下所示,
<mrow> <msub> <mi>Q</mi> <mi>i</mi> </msub> <mo>=</mo> <msubsup> <mi>Q</mi> <mi>i</mi> <mi>B</mi> </msubsup> <msubsup> <mi>Q</mi> <mi>i</mi> <mi>M</mi> </msubsup> <mo>,</mo> </mrow>
其中,Qi是第i个读段的品质值,Qi M是匹配品质,Qi B是碱基品质,
所述结构变异(SV)的可靠性如下所示:
<mrow> <msup> <mi>Q</mi> <mrow> <mi>S</mi> <mi>V</mi> </mrow> </msup> <mo>=</mo> <msup> <mi>Q</mi> <mi>M</mi> </msup> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msubsup> <mi>Q</mi> <mi>i</mi> <mi>B</mi> </msubsup> <mo>.</mo> </mrow>
10.根据权利要求9所述的装置,其特征在于,所述品质管理运算部对基因的各个位置执行选自由修整、N掩蔽和低品质读段过滤组成的组中的任意一个或更多个。
11.根据权利要求9所述的装置,其特征在于,所述比较运算部执行由全局比对和局部比对组成的组中的任意一个或更多个。
12.根据权利要求9所述的装置,其特征在于,所述可靠性运算部对来自于所获得的碱基序列读段的数量和组成的统计可靠性进行评价。
13.根据权利要求9所述的装置,其特征在于,所述容易度运算部分析重复序列的出现、GC含量以及所述个人识别基因变异标记的提取频率以评价实验容易度。
14.根据权利要求9所述的装置,其特征在于,有用性运算部对涉及疾病的风险程度以及与疾病关联性的生物学有用性进行评价。
15.根据权利要求9所述的装置,其特征在于,输出部将包含所述基因变异的碱基序列的外围序列输出成fasta格式。
16.根据权利要求9所述的装置,其特征在于,在所述单核苷酸多态性(SNP)的可靠性的情况下Qi M和Qi B如下所示:
其中,分别是必须要满足的最小碱基品质和匹配品质值,并且CB和CM使用作为度量常数。
17.根据权利要求9所述的装置,其特征在于,在所述结构变异(SV)的可靠性的情况下Qi M和Qi B如下所示:
其中,l是读段的长度,
其中,是匹配序列与参考序列的平均匹配品质值,定义如下:
<mrow> <msup> <mover> <mi>q</mi> <mo>&amp;OverBar;</mo> </mover> <mrow> <mi>N</mi> <mi>M</mi> </mrow> </msup> <mo>=</mo> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mi>n</mi> <mo>+</mo> <mn>1</mn> </mrow> <mi>m</mi> </msubsup> <msubsup> <mi>q</mi> <mi>i</mi> <mi>M</mi> </msubsup> <mo>/</mo> <mrow> <mo>(</mo> <mi>m</mi> <mo>-</mo> <mi>n</mi> <mo>)</mo> </mrow> <mo>.</mo> </mrow>
其中,CB和CM使用作为度量常数。
CN201480006935.9A 2013-02-01 2014-01-28 提供与基于基因序列的个人标记有关的信息的方法和装置 Expired - Fee Related CN104968806B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
KR10-2013-0011803 2013-02-01
KR20130011803 2013-02-01
KR1020140007344A KR101770962B1 (ko) 2013-02-01 2014-01-21 유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법 및 이를 이용한 장치
KR10-2014-0007344 2014-01-21
PCT/KR2014/000823 WO2014119914A1 (ko) 2013-02-01 2014-01-28 유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법 및 이를 이용한 장치

Publications (2)

Publication Number Publication Date
CN104968806A CN104968806A (zh) 2015-10-07
CN104968806B true CN104968806B (zh) 2018-04-03

Family

ID=51745680

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480006935.9A Expired - Fee Related CN104968806B (zh) 2013-02-01 2014-01-28 提供与基于基因序列的个人标记有关的信息的方法和装置

Country Status (3)

Country Link
US (1) US20160078169A1 (zh)
KR (1) KR101770962B1 (zh)
CN (1) CN104968806B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10395759B2 (en) 2015-05-18 2019-08-27 Regeneron Pharmaceuticals, Inc. Methods and systems for copy number variant detection
KR101882867B1 (ko) * 2016-05-04 2018-07-27 삼성전자주식회사 변이 검출 표지의 신뢰도 결정 방법 및 장치
JP7320345B2 (ja) * 2017-10-27 2023-08-03 シスメックス株式会社 遺伝子解析方法、遺伝子解析装置、遺伝子解析システム、プログラム、および記録媒体
JP7067896B2 (ja) * 2017-10-27 2022-05-16 シスメックス株式会社 品質評価方法、品質評価装置、プログラム、および記録媒体

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100065949A (ko) * 2008-12-09 2010-06-17 이화여자대학교 산학협력단 상호 연관 지도 작성법을 이용한 다목적 활용 가능 유전자 판별법
CN102144036A (zh) * 2008-07-07 2011-08-03 解码遗传学私营有限责任公司 用于乳腺癌风险评估的遗传变型

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003106706A2 (en) 2002-06-14 2003-12-24 Millenium Biologix Ag Identification of tissue/cell specific marker genes and use thereof
ZA200903761B (en) * 2006-11-30 2010-08-25 Navigenics Inc Genetic analysis systems and methods
CN101914628B (zh) * 2010-09-02 2013-01-09 深圳华大基因科技有限公司 检测基因组目标区域多态性位点的方法
WO2012034251A2 (zh) * 2010-09-14 2012-03-22 深圳华大基因科技有限公司 一种基因组结构性变异检测方法和系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102144036A (zh) * 2008-07-07 2011-08-03 解码遗传学私营有限责任公司 用于乳腺癌风险评估的遗传变型
KR20100065949A (ko) * 2008-12-09 2010-06-17 이화여자대학교 산학협력단 상호 연관 지도 작성법을 이용한 다목적 활용 가능 유전자 판별법

Also Published As

Publication number Publication date
KR20140099189A (ko) 2014-08-11
KR101770962B1 (ko) 2017-08-24
US20160078169A1 (en) 2016-03-17
CN104968806A (zh) 2015-10-07

Similar Documents

Publication Publication Date Title
Karabiber et al. QuShape: rapid, accurate, and best-practices quantification of nucleic acid probing information, resolved by capillary electrophoresis
EP2718862B1 (en) Method for assembly of nucleic acid sequence data
Hill et al. A statistical model for iTRAQ data analysis
AU2023251452A1 (en) Validation methods and systems for sequence variant calls
CN104968806B (zh) 提供与基于基因序列的个人标记有关的信息的方法和装置
Duan et al. A systematic evaluation of bioinformatics tools for identification of long noncoding RNAs
Delhomme et al. Guidelines for RNA-Seq data analysis
CN109182538A (zh) 奶牛乳腺炎关键SNPs位点rs88640083及2b-RAD基因分型和分析方法
CN103984879A (zh) 一种测定待测基因组区域表达水平的方法及系统
KR101765999B1 (ko) 암 바이오마커의 성능 평가 장치 및 방법
CN106702010B (zh) 一种遗传标记组合、个体基因身份证、二维码、试剂盒及其用途
Posada Bioinformatics for DNA sequence analysis
CN110782946A (zh) 识别重复序列的方法及装置、存储介质、电子设备
CN109524060A (zh) 一种遗传病风险提示的基因测序数据处理系统与处理方法
Dewey et al. Accurate identification of novel human genes through simultaneous gene prediction in human, mouse, and rat
JP4664280B2 (ja) 生体分子サンプルの特性を決定する方法
WO2008007630A1 (fr) Méthode et appareil de recherche de protéine
Ma et al. Genome wide approaches to identify protein-DNA interactions
CN110706747A (zh) 检测肿瘤新生抗原多肽的方法和装置
Zhang et al. MSAID: multiple sequence alignment based on a measure of information discrepancy
CN113159529A (zh) 一种肠道息肉的风险评估模型及相关系统
Shea et al. IntroMap: a signal analysis based method for the detection of genomic introgressions
WO2019091771A1 (en) Method for simultaneous multivariate feature selection, feature generation, and sample clustering
CN109182504A (zh) 奶牛乳腺炎关键SNPs位点rs20438858及2b-RAD基因分型和分析方法
Kim et al. Evaluation of low-pass genome sequencing in polygenic risk score calculation for Parkinson’s

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200420

Address after: Seoul, South Kerean

Patentee after: Invensys healthcare Co.,Ltd.

Address before: Seoul, South Kerean

Patentee before: SK TELECOM Co.,Ltd.

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180403

CF01 Termination of patent right due to non-payment of annual fee