KR102417999B1 - Method for measuring library complexity for next generation sequencing - Google Patents

Method for measuring library complexity for next generation sequencing Download PDF

Info

Publication number
KR102417999B1
KR102417999B1 KR1020160169752A KR20160169752A KR102417999B1 KR 102417999 B1 KR102417999 B1 KR 102417999B1 KR 1020160169752 A KR1020160169752 A KR 1020160169752A KR 20160169752 A KR20160169752 A KR 20160169752A KR 102417999 B1 KR102417999 B1 KR 102417999B1
Authority
KR
South Korea
Prior art keywords
nucleic acid
library
polynucleotide
pcr
complexity
Prior art date
Application number
KR1020160169752A
Other languages
Korean (ko)
Other versions
KR20180068118A (en
Inventor
정종석
손대순
박웅양
Original Assignee
삼성전자주식회사
사회복지법인 삼성생명공익재단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사, 사회복지법인 삼성생명공익재단 filed Critical 삼성전자주식회사
Priority to KR1020160169752A priority Critical patent/KR102417999B1/en
Priority to PCT/KR2017/014549 priority patent/WO2018110940A1/en
Publication of KR20180068118A publication Critical patent/KR20180068118A/en
Application granted granted Critical
Publication of KR102417999B1 publication Critical patent/KR102417999B1/en

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/6851Quantitative amplification
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2525/00Reactions involving modified oligonucleotides, nucleic acids, or nucleotides
    • C12Q2525/10Modifications characterised by
    • C12Q2525/191Modifications characterised by incorporating an adaptor

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Organic Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Analytical Chemistry (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Immunology (AREA)
  • General Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • Artificial Intelligence (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Bioethics (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

라이브러리의 복잡성을 측정하는 방법을 제공한다. 이에 따르면, 핵산 서열 분석용 라이브러리의 제조 과정 중에 실시간으로, 라이브러리 제조 후 핵산 서열 분석 과정 중, 또는 핵산 서열 분석 완료 후에 간단하고 정확한 방법으로 라이브러리의 복잡성을 측정할 수 있다.It provides a way to measure the complexity of a library. Accordingly, the complexity of the library can be measured in a simple and accurate manner in real time during the preparation of the library for nucleic acid sequence analysis, during the nucleic acid sequencing process after library preparation, or after completion of the nucleic acid sequencing analysis.

Figure R1020160169752
Figure R1020160169752

Description

차세대 핵산 서열 분석을 위한 라이브러리의 복잡성을 측정하는 방법{Method for measuring library complexity for next generation sequencing}Method for measuring library complexity for next generation sequencing

차세대 핵산 서열 분석을 위한 라이브러리의 복잡성을 측정하는 방법 및 이를 이용한 장치에 관한 것이다.It relates to a method for measuring the complexity of a library for next-generation nucleic acid sequence analysis and an apparatus using the same.

차세대 핵산 서열 분석(next generation sequencing: NGS)은 연구 및 진단의 목적으로 널리 활용되고 있다. NGS는 장비의 종류에 따라 다르지만, 크게 보면 시료의 채취, 라이브러리의 제조, 및 핵산 서열 분석의 수행의 총 3단계로 구분할 수 있다. 라이브러리의 제조 후에는 핵산 서열 분석에 들어가기에 앞서 품질 관리(quality control: QC)를 진행하고, 제조된 라이브러리로 핵산 서열 분석을 진행할지 여부를 결정한다. 핵산 서열 분석을 진행하는 중에도 실시간으로 핵산 서열 분석이 원활히 진행되는지 여부를 확인하기 위해, 라이브러리의 제조사에서 제공하는 방법으로 QC를 진행한다. 핵산 서열 분석 후에는 생성된 핵산 서열 데이터(즉, 리드(read))를 분석하여, 실질적으로 돌연변이, 유전자 변이, 유전자 발현 등의 분석 전 데이터 생성 품질을 측정한다. 이와 같이, 각 차세대 핵산 서열 분석의 단계 별로 품질을 측정하고, 품질을 결정하는 요인 중 하나는 라이브러리의 복잡성(complexity)이다. 라이브러리를 제조한 후, 핵산 서열 분석을 수행하는 도중, 또는 핵산 서열 분석을 완료한 후에 라이브러리의 복잡성을 측정하여, 핵산 서열 분석의 수행, 중단, 및 생성된 핵산 서열 데이터의 활용 등을 판단할 수 있다.Next generation nucleic acid sequencing (NGS) is widely used for research and diagnostic purposes. Although NGS differs depending on the type of equipment, broadly speaking, it can be divided into three steps: sample collection, library preparation, and nucleic acid sequence analysis. After the library is prepared, quality control (QC) is performed before starting the nucleic acid sequence analysis, and it is determined whether or not to proceed with the nucleic acid sequence analysis with the prepared library. In order to check whether the nucleic acid sequence analysis is smoothly performed in real time even during the nucleic acid sequence analysis, QC is performed by the method provided by the manufacturer of the library. After the nucleic acid sequence analysis, the generated nucleic acid sequence data (ie, read) is analyzed to substantially measure the quality of data generation before analysis of mutations, gene mutations, gene expression, and the like. As such, quality is measured for each stage of next-generation nucleic acid sequence analysis, and one of the factors determining the quality is the complexity of the library. After the library is prepared, during nucleic acid sequencing, or after nucleic acid sequencing is completed, the complexity of the library is measured to determine whether to perform, stop, and utilize the generated nucleic acid sequence data. have.

대량 핵산 서열 분석을 수행하기 전에 2회의 최소 범위 핵산 서열 분석을 수행하고 이로부터 얻은 데이터를 이용하여 라이브러리의 복잡성을 통계적 방법으로 예측하는 방법이 알려져 있다(미국 공개 번호 US20140324359 A1). 그러나, 이러한 방법은 라이브러리의 복잡성을 측정하기 위해, 우선 라이브러리에 대해 핵산 서열 분석을 2회 진행하여야 하고, 라이브러리의 복잡성을 직접적이고 실시간으로 측정할 수 없다.A method is known to perform two minimum-range nucleic acid sequencing analyzes before performing bulk nucleic acid sequencing and statistically predict the complexity of a library using the data obtained therefrom (US Publication No. US20140324359 A1). However, in this method, in order to measure the complexity of the library, nucleic acid sequence analysis must first be performed twice on the library, and the complexity of the library cannot be measured directly and in real time.

따라서, 간단하고 정확한 방법으로 핵산 서열 분석 진행 중에 실시간으로 또는 핵산 서열 분석 후에 라이브러리의 복잡성을 측정할 수 있는 방법이 요구된다.Therefore, there is a need for a method capable of measuring the complexity of a library in real time during nucleic acid sequencing or after nucleic acid sequencing in a simple and accurate manner.

핵산 서열 분석용 라이브러리의 복잡성을 측정하는 방법을 제공한다.A method for determining the complexity of a library for nucleic acid sequencing is provided.

일 양상에 따르면, 표적 시료로부터 추출된 핵산을 단편화하는 단계;According to one aspect, fragmenting the nucleic acid extracted from the target sample;

단편화된 핵산의 하나 이상의 말단에 제1 폴리뉴클레오티드를 라이게이션하여 핵산 서열 분석용 제1 라이브러리를 제조하는 단계;preparing a first library for nucleic acid sequence analysis by ligating a first polynucleotide to one or more ends of the fragmented nucleic acid;

상기 제1 라이브러리에 제2 폴리뉴클레오티드를 첨가(spiking)하여 제2 라이브러리를 준비하는 단계;preparing a second library by spiking a second polynucleotide to the first library;

상기 제2 라이브러리 및 상기 제1 폴리뉴클레오티드에 상보적인 제1 프라이머 세트를 사용한 제1 폴리머라제 연쇄 반응(polymerase chain reaction: PCR)을 수행하여 제1 Ct(threshold cycle) 값을 산출하는 단계;calculating a first threshold cycle (Ct) value by performing a first polymerase chain reaction (PCR) using the second library and a first primer set complementary to the first polynucleotide;

상기 제2 라이브러리 및 상기 제2 폴리뉴클레오티드에 상보적인 제2 프라이머 세트를 사용한 제2 PCR을 수행하여 제2 Ct 값을 산출하는 단계; 및 calculating a second Ct value by performing a second PCR using a second primer set complementary to the second library and the second polynucleotide; and

상기 제1 Ct 값에 대한 제2 Ct 값의 비율을 산출하여 상기 제1 라이브러리의 복잡성을 측정하는 단계를 포함하는, 핵산 서열 분석용 라이브러리의 복잡성을 측정하는 방법을 제공한다.It provides a method of measuring the complexity of a library for nucleic acid sequence analysis, comprising measuring the complexity of the first library by calculating a ratio of the second Ct value to the first Ct value.

상기 "핵산 서열 분석용 라이브러리"의 핵산 서열 분석은 차세대 핵산 서열 분석(next generation sequencing: NGS)일 수 있다. 용어 "차세대 핵산 서열 분석(next generation sequencing: NGS)"는 용어 "대규모 병렬 시퀀싱(massive parallel sequencing)" 또는 용어 "2세대 시퀀싱(second-generation sequencing)"과 상호 교환적으로 사용될 수 있다. NGS는 칩(chip) 기반 그리고 PCR 기반 쌍 말단(paired end) 형식으로 전장 유전체를 조각내고, 상기 조각을 혼성화 반응(hybridization)에 기초하여 초고속으로 핵산 서열 분석을 수행하는 기술을 의미한다. NGS는 대량의 단편의 핵산을 동시다발적으로 핵산 서열 분석하는 기법으로서, NGS 기반의 표적 핵산 서열 분석(targeted sequencing) 또는 패널 핵산 서열 분석(panel sequencing)을 수행할 수 있다. NGS는 예를 들어, 454 플랫폼(Roche), GS FLX 티타늄, Illumina MiSeq, Illumina HiSeq, Illumina Genome Analyzer, Solexa platform, SOLiD System(Applied Biosystems), Ion Proton(Life Technologies), Complete Genomics, Helicos Biosciences Heliscope, Pacific Biosciences의 단일 분자 실시간(SMRT™) 기술, 또는 이들의 조합에 의해 수행될 수 있다.The nucleic acid sequencing of the “library for nucleic acid sequencing” may be next generation sequencing (NGS). The term "next generation sequencing (NGS)" may be used interchangeably with the term "massive parallel sequencing" or the term "second-generation sequencing". NGS refers to a technology for fragmenting the entire genome in a chip-based and PCR-based paired-end format, and performing nucleic acid sequence analysis on the fragment at high speed based on hybridization. NGS is a technique for simultaneous nucleic acid sequence analysis of a large number of fragments of nucleic acids, and NGS-based target nucleic acid sequencing or panel sequencing can be performed. NGS is, for example, 454 platform (Roche), GS FLX Titanium, Illumina MiSeq, Illumina HiSeq, Illumina Genome Analyzer, Solexa platform, SOLiD System (Applied Biosystems), Ion Proton (Life Technologies), Complete Genomics, Helicos Biosciences Heliscope, Pacific Biosciences' Single Molecule Real Time (SMRT™) technology, or a combination thereof.

용어 "라이브러리(library)"는 핵산 단편의 집합을 말한다. 상기 라이브러리는 예를 들어 유전체 라이브러리(genomic library), 상보적 DNA 라이브러리(complementary DNA library), 또는 무작위적 돌연변이 라이브러리(randomized mutant library)이다.The term “library” refers to a collection of nucleic acid fragments. The library is, for example, a genomic library, a complementary DNA library, or a randomized mutant library.

용어 "라이브러리의 복잡성(library complexity)"은 해당 라이브러리에 존재하는 고유한(unique) 단편의 수를 말한다. 복잡성은 출발 물질인 핵산의 양, 라이브러리 제조 과정 중 소실되는 핵산의 양, PCR을 통해 증폭되는 핵산의 양 등에 영향을 받을 수 있다. 상기 라이브러리의 복잡성은 상대적인 수준으로 나타낼 수 있다.The term "library complexity" refers to the number of unique fragments present in a corresponding library. The complexity may be affected by the amount of nucleic acid as a starting material, the amount of nucleic acid lost during library preparation, the amount of nucleic acid amplified through PCR, and the like. The complexity of the library can be expressed at a relative level.

상기 방법은 표적 시료로부터 추출된 핵산을 단편화하는 단계를 포함한다.The method includes fragmenting the nucleic acid extracted from the target sample.

상기 표적 시료는 개체 또는 세포로부터 유래할 수 있다. 상기 개체는 인간, 소, 말, 돼지, 양, 염소, 개, 고양이, 및 설치류를 포함한 포유류일 수 있다. 상기 세포는 개체로부터 유래된 세포 또는 세포주일 수 있다. 상기 표적 시료는 생물학적 시료일 수 있다. 상기 생물학적 시료는 예를 들어, 혈액, 혈장, 혈청, 소변, 타액, 점막 분비물, 객담, 대변, 눈물, 또는 이들의 조합으로부터 획득된 것일 수 있다. 상기 생물학적 시료는 다양한 종으로부터 유래하는 진핵세포, 원핵세포, 바이러스, 박테리오 파지 등의 시료일 수 있다.The target sample may be derived from an individual or a cell. The subject may be a mammal, including humans, cattle, horses, pigs, sheep, goats, dogs, cats, and rodents. The cell may be a cell or cell line derived from an individual. The target sample may be a biological sample. The biological sample may be obtained from, for example, blood, plasma, serum, urine, saliva, mucosal secretions, sputum, feces, tears, or a combination thereof. The biological sample may be a sample such as eukaryotic cells, prokaryotic cells, viruses, and bacteriophages derived from various species.

상기 핵산은 유전체(genome) 또는 그의 단편일 수 있다. 용어 "유전체(genome)"는 염색체, 염색질, 또는 유전자의 전체를 총칭하는 용어이다. 상기 유전체 또는 그의 단편은 분리된 DNA, 예를 들어 세포를 포함하지 않는 핵산(cell-free DNA: cf DNA)일 수 있다. 표적 시료로부터 핵산을 추출 또는 분리하는 방법은 통상의 기술자에게 공지된 방법으로 수행될 수 있다.The nucleic acid may be a genome or a fragment thereof. The term “genome” is a generic term for the entirety of chromosomes, chromatin, or genes. The genome or fragment thereof may be isolated DNA, for example, cell-free DNA (cf DNA). A method for extracting or isolating a nucleic acid from a target sample may be performed by a method known to those skilled in the art.

상기 표적 시료로부터 핵산을 추출하는 방법은 통상의 기술자에게 알려진 방법으로 수행될 수 있다.The method of extracting the nucleic acid from the target sample may be performed by a method known to those skilled in the art.

상기 단편화(fragmentation)는 유전체를 물리적, 화학적 또는 효소적으로 절단하는 것일 수 있다. 예를 들어, 상기 단편화는 유전체를 제한효소로 절단하는 것이다.The fragmentation may be to physically, chemically, or enzymatically cut the genome. For example, the fragmentation is cutting the genome with a restriction enzyme.

상기 방법은 단편화된 핵산의 크기를 선별하는 단계를 더 포함할 수 있다. 크기를 선별하는 단계는 전기영동, 원심분리, 크로마토그래피, 또는 이들의 조합으로 수행될 수 있다. 상기 단편화된 핵산의 길이는 약 10 bp(염기쌍) 내지 약 2000 bp, 약 20 bp 내지 약 1500 bp, 약 50 bp 내지 약 1000 bp, 약 100 bp 내지 약 800 bp, 약 150 bp 내지 약 600 bp, 또는 약 300 bp 내지 약 600 bp일 수 있다.The method may further comprise selecting the size of the fragmented nucleic acid. The step of selecting the size may be performed by electrophoresis, centrifugation, chromatography, or a combination thereof. The fragmented nucleic acid has a length of about 10 bp (base pair) to about 2000 bp, about 20 bp to about 1500 bp, about 50 bp to about 1000 bp, about 100 bp to about 800 bp, about 150 bp to about 600 bp, or from about 300 bp to about 600 bp.

상기 방법은 단편화된 핵산의 하나 이상의 말단에 제1 폴리뉴클레오티드를 라이게이션하여 핵산 서열 분석용 제1 라이브러리를 제조하는 단계를 포함한다.The method includes preparing a first library for nucleic acid sequence analysis by ligating a first polynucleotide to one or more ends of the fragmented nucleic acid.

상기 제1 라이브러리를 제조하는 단계는 단편화된 핵산의 말단-수선(end-repair) 및 3'-아데노신 꼬리달기(3'-A tailing)를 더 포함할 수 있다.The step of preparing the first library may further include end-repair of the fragmented nucleic acid and 3'-adenosine tailing (3'-A tailing).

상기 제1 폴리뉴클레오티드는 어댑터일 수 있다. 상기 어댑터(adaptor)는 NGS에서 표적 핵산을 농축(enrichment)하기 위한 프라이머 서열을 포함하는 폴리뉴클레오티드일 수 있다. 상기 어댑터는 통상의 기술자에게 알려진 폴리뉴클레오티드일 수 있다. 상기 어댑터는 핵산 서열 분석용 유니버셜 서열을 포함할 수 있다. 예를 들어, 핵산 서열 분석용 라이브러리 제조 키트에 포함된 어댑터이다.The first polynucleotide may be an adapter. The adapter may be a polynucleotide including a primer sequence for enriching a target nucleic acid in NGS. The adapter may be a polynucleotide known to a person skilled in the art. The adapter may include a universal sequence for nucleic acid sequence analysis. For example, it is an adapter included in a library preparation kit for nucleic acid sequence analysis.

라이게이션은 핵산 단편들 간의 말단을 결합시키는 것을 말한다. 상기 라이게이션은 DNA 리가제(ligase)를 사용하여 수행할 수 있다.Ligation refers to joining ends between nucleic acid fragments. The ligation may be performed using a DNA ligase.

상기 제1 라이브러리는 핵산 서열 분석을 위해 제조된 라이브러리일 수 있다.The first library may be a library prepared for nucleic acid sequence analysis.

상기 방법은 제1 라이브러리에 제2 폴리뉴클레오티드를 첨가(spiking)하여 제2 라이브러리를 준비하는 단계를 포함한다.The method includes preparing a second library by spiking a second polynucleotide to the first library.

상기 첨가(spiking)는 제1 라이브러리와 소량의 제2 폴리뉴클레오티드를 혼합하는 것일 수 있다.The spiking may be mixing the first library and a small amount of the second polynucleotide.

상기 제2 폴리뉴클레오티드는 2 이상 연속 뉴클레오티드가 표적 핵산 서열과 동일한 핵산 서열을 포함하는 제1 영역, 및 상기 제1 영역의 하나 이상의 말단에 위치하고, 표적 핵산 서열의 하나 이상의 말단으로부터 2 이상 연속 뉴클레오티드와 상이한 핵산 서열을 포함하는 제2 영역을 포함할 수 있다.The second polynucleotide comprises a first region comprising a nucleic acid sequence in which at least two consecutive nucleotides are identical to a target nucleic acid sequence, and at one or more ends of the first region, and at least two consecutive nucleotides from one or more ends of the target nucleic acid sequence; a second region comprising a different nucleic acid sequence.

상기 표적 핵산 서열은 동반 진단(companion diagnostics: CDx)에 이용되는 유전적 변이를 포함할 수 있다.The target nucleic acid sequence may include a genetic variation used for companion diagnostics (CDx).

상기 제2 폴리뉴클레오티드의 길이는 약 20 뉴클레오티드(이하, 'nt'라고 함) 내지 약 500 nt, 약 30 nt 내지 약 450 nt, 약 40 nt 내지 약 400 nt, 약 50 nt 내지 약 350 nt, 약 60 nt 내지 약 300 nt, 약 70 nt 내지 약 250 nt, 약 80 nt 내지 약 200 nt, 약 90 nt 내지 약 190 nt, 약 100 nt 내지 약 180 nt, 약 110 nt 내지 약 170 nt, 약 120 nt 내지 약 160 nt, 약 130 nt 내지 약 150 nt, 또는 약 150 nt일 수 있다.The length of the second polynucleotide is about 20 nucleotides (hereinafter referred to as 'nt') to about 500 nt, about 30 nt to about 450 nt, about 40 nt to about 400 nt, about 50 nt to about 350 nt, about 60 nt to about 300 nt, about 70 nt to about 250 nt, about 80 nt to about 200 nt, about 90 nt to about 190 nt, about 100 nt to about 180 nt, about 110 nt to about 170 nt, about 120 nt to about 160 nt, about 130 nt to about 150 nt, or about 150 nt.

상기 제1 영역은 2 이상 연속 뉴클레오티드가 표적 핵산 서열과 동일한 핵산 서열을 포함할 수 있다. 상기 제1 영역은 약 10 뉴클레오티드(이하, 'nt'라고 함) 내지 약 490 nt, 약 20 nt 내지 약 440 nt, 약 30 nt 내지 약 390 nt, 약 40 nt 내지 약 340 nt, 약 50 nt 내지 약 290 nt, 약 60 nt 내지 약 240 nt, 약 70 nt 내지 약 150 nt, 약 80 nt 내지 약 180 nt, 약 90 nt 내지 약 170 nt, 약 100 nt 내지 약 160 nt, 약 110 nt 내지 약 150 nt, 약 120 nt 내지 약 150 nt, 약 130 nt 내지 약 150 nt, 약 140 nt 내지 약 150 nt, 또는 약 142 nt일 수 있다.The first region may comprise a nucleic acid sequence in which at least two consecutive nucleotides are identical to the target nucleic acid sequence. The first region is from about 10 nucleotides (hereinafter referred to as 'nt') to about 490 nt, from about 20 nt to about 440 nt, from about 30 nt to about 390 nt, from about 40 nt to about 340 nt, from about 50 nt to about 290 nt, about 60 nt to about 240 nt, about 70 nt to about 150 nt, about 80 nt to about 180 nt, about 90 nt to about 170 nt, about 100 nt to about 160 nt, about 110 nt to about 150 nt, about 120 nt to about 150 nt, about 130 nt to about 150 nt, about 140 nt to about 150 nt, or about 142 nt.

상기 제2 영역은 제1 영역의 양 말단에 위치하고, 각각의 제2 영역은 표적 핵산 서열의 5' 말단으로부터 2 이상 연속 뉴클레오티드와 상이한 서열 및 3' 말단으로부터 2 이상 연속 뉴클레오티드와 상이한 서열을 포함할 수 있다. 상기 제2 영역의 길이는 약 2 nt 내지 약 15 nt, 약 2 nt 내지 약 13 nt, 약 2 nt 내지 약 10 nt, 약 2 nt 내지 약 8 nt, 약 2 nt 내지 약 6 nt, 약 2 nt 내지 약 4 nt, 약 3 nt, 또는 약 4 nt일 수 있다.wherein said second regions are located at both ends of the first region, each second region comprising a sequence different from at least two contiguous nucleotides from the 5' end of the target nucleic acid sequence and a sequence different from at least two contiguous nucleotides from the 3' end of the target nucleic acid sequence. can The length of the second region is about 2 nt to about 15 nt, about 2 nt to about 13 nt, about 2 nt to about 10 nt, about 2 nt to about 8 nt, about 2 nt to about 6 nt, about 2 nt to about 4 nt, about 3 nt, or about 4 nt.

상기 제2 폴리뉴클레오티드는 예를 들어 그의 5'-말단으로부터 3' 방향으로 제2 영역, 제1 영역, 및 제2 영역을 포함할 수 있다.The second polynucleotide may include, for example, a second region, a first region, and a second region in a 3' direction from its 5'-end.

상기 제2 폴리뉴클레오티드는 그의 하나 이상의 말단에 상기 제1 폴리뉴클레오티드와 동일한 2 이상 연속 뉴클레오티드를 더 포함할 수 있다. 상기 제2 폴리뉴클레오티드는 예를 들어 그의 5'-말단으로부터 3' 방향으로 제1 폴리뉴클레오티드와 동일한 2 이상 연속 뉴클레오티드, 제2 영역, 제1 영역, 제2 영역, 및 제1 폴리뉴클레오티드와 동일한 2 이상 연속 뉴클레오티드를 포함할 수 있다.The second polynucleotide may further include two or more consecutive nucleotides identical to the first polynucleotide at one or more ends thereof. The second polynucleotide may be, for example, from its 5'-end 3' direction at least two consecutive nucleotides identical to the first polynucleotide, a second region, a first region, a second region, and 2 identical to the first polynucleotide It may contain more than one consecutive nucleotide.

상기 방법은 제2 라이브러리 및 제1 폴리뉴클레오티드에 상보적인 제1 프라이머 세트를 사용한 제1 폴리머라제 연쇄 반응(polymerase chain reaction: PCR)을 수행하여 제1 Ct(threshold cycle) 값을 산출하는 단계를 포함한다.The method includes calculating a first threshold cycle (Ct) value by performing a first polymerase chain reaction (PCR) using a first primer set complementary to a second library and a first polynucleotide do.

상기 PCR은 예를 들어, 정량적 PCR(quantitative PCR: qPCR), 디지탈 PCR(digital PCR: dPCR), 핫 스타트(hot start) PCR, 터치다운(touchdown) PCR, 네스티드(nested) PCR, 부스터(booster) PCR, 멀티플렉스(multiplex) PCR, 실시간(real-time) PCR, 분별 디스플레이 PCR(differential display PCR, D-PCR), cDNA 말단의 신속 증폭(rapid amplification of cDNA ends, RACE), 인버스 PCR (inverse polymerase chain reaction: IPCR), 벡토레트(vectorette) PCR, 및 TAIL-PCR(thermal asymmetric interlaced PCR)이다.The PCR is, for example, quantitative PCR (qPCR), digital PCR (dPCR), hot start PCR, touchdown PCR, nested (nested) PCR, booster (booster) ) PCR, multiplex PCR, real-time PCR, differential display PCR (D-PCR), rapid amplification of cDNA ends (RACE), inverse PCR (inverse PCR) polymerase chain reaction: IPCR), vectorette PCR, and thermal asymmetric interlaced PCR (TAIL-PCR).

상기 제1 프라이머 세트는 제1 폴리뉴클레오티드에 상보적인 폴리뉴클레오티드일 수 있다. 상기 제1 프라이머 세트는 유니버셜 프라이머 세트일 수 있다.The first primer set may be a polynucleotide complementary to the first polynucleotide. The first primer set may be a universal primer set.

상기 제2 프라이머 세트는 제2 폴리뉴클레오티드에 상보적인 폴리뉴클레오티드일 수 있다. 상기 제2 프라이머 세트는 제2 폴리뉴클레오티드에는 상보적이지만 상기 제1 폴리뉴클레오티드에는 상보적이지 않은 폴리뉴클레오티드일 수 있다.The second primer set may be a polynucleotide complementary to the second polynucleotide. The second primer set may be a polynucleotide complementary to a second polynucleotide but not complementary to the first polynucleotide.

상기 PCR 반응에서, 증폭된 핵산의 검출을 위해 표적 핵산에 상보적인 프로브를 더 사용할 수 있다. 상기 프로브는 그의 하나 이상의 말단이 형광 물질, 양자점, FRET 등으로 표지된 것일 수 있다.In the PCR reaction, a probe complementary to a target nucleic acid may be further used for detection of the amplified nucleic acid. One or more ends of the probe may be labeled with a fluorescent material, quantum dot, FRET, or the like.

Ct(threshold cycle) 값은 PCR에서 배경 신호를 초과하여 최초로 증폭 신호를 나타내는 사이클의 수를 말한다. 정량적 PCR의 경우, 형광 신호의 역치(threshold)를 나타내는 사이클의 수를 말한다. Ct 값은 증폭 반응에서 출발 물질로서 최초 핵산의 카피 수와 역의 상관관계가 있기 때문에, Ct 값은 표적 시료 중 핵산의 카피 수를 산출하는데 이용될 수 있다.Ct (threshold cycle) value refers to the number of cycles in PCR that first show an amplification signal exceeding the background signal. In the case of quantitative PCR, it refers to the number of cycles representing the threshold of the fluorescence signal. Since the Ct value has an inverse correlation with the copy number of the original nucleic acid as a starting material in the amplification reaction, the Ct value can be used to calculate the copy number of the nucleic acid in the target sample.

상기 제1 Ct 값은 제2 라이브러리의 총 리드(read)를 나타낼 수 있다. 용어 "리드(read)"는 핵산 서열 분석으로 수득된 핵산 단편의 핵산 서열 정보를 말한다.The first Ct value may represent total reads of the second library. The term "read" refers to nucleic acid sequence information of a nucleic acid fragment obtained by nucleic acid sequencing.

상기 방법은 제2 라이브러리 및 제2 폴리뉴클레오티드에 상보적인 제2 프라이머 세트를 사용한 제2 PCR을 수행하여 제2 Ct 값을 산출하는 단계를 포함한다.The method includes calculating a second Ct value by performing a second PCR using a second primer set complementary to a second library and a second polynucleotide.

상기 제2 Ct 값은 제2 라이브러리 중 제2 폴리뉴클레오티드의 리드를 나타낼 수 있다.The second Ct value may represent a read of a second polynucleotide in the second library.

상기 제1 PCR, 제2 PCR, 또는 이들의 조합은 정량적 PCR(quantitative PCR: qPCR) 또는 디지탈 PCR(digital PCR: dPCR)로 수행될 수 있다.The first PCR, the second PCR, or a combination thereof may be performed by quantitative PCR (qPCR) or digital PCR (dPCR).

상기 제1 PCR 및 제2 PCR은 동시 또는 순차로 수행될 수 있다.The first PCR and the second PCR may be performed simultaneously or sequentially.

상기 방법은 제1 Ct 값에 대한 제2 Ct 값의 비율을 산출하여 상기 제1 라이브러리의 복잡성을 측정하는 단계를 포함한다.The method includes determining the complexity of the first library by calculating a ratio of a second Ct value to a first Ct value.

상기 제1 Ct 값에 대한 제2 Ct 값의 비율이 낮을수록 상기 제1 라이브러리의 복잡성이 높을 수 있다. 상기 제1 Ct 값에 대한 제2 Ct 값의 비율이 높을수록 상기 제1 라이브러리의 복잡성이 낮을 수 있다.As the ratio of the second Ct value to the first Ct value is lower, the complexity of the first library may be higher. As the ratio of the second Ct value to the first Ct value increases, the complexity of the first library may be lower.

다른 양상은 표적 시료로부터 추출된 핵산을 단편화하는 단계;Another aspect comprises the steps of fragmenting the nucleic acid extracted from the target sample;

단편화된 핵산의 하나 이상의 말단에 제1 폴리뉴클레오티드를 라이게이션하여 핵산 서열 분석용 제1 라이브러리를 제조하는 단계;preparing a first library for nucleic acid sequence analysis by ligating a first polynucleotide to one or more ends of the fragmented nucleic acid;

상기 제1 라이브러리에 제2 폴리뉴클레오티드를 첨가하여 제2 라이브러리를 준비하는 단계로서,preparing a second library by adding a second polynucleotide to the first library,

상기 제2 폴리뉴클레오티드는 2 이상 연속 뉴클레오티드가 표적 핵산 서열과 동일한 핵산 서열을 포함하는 제1 영역, 및 상기 제1 영역의 하나 이상의 말단에 위치하고, 표적 핵산 서열의 하나 이상의 말단으로부터 2 이상 연속 뉴클레오티드와 상이한 핵산 서열을 포함하는 제2 영역을 포함하는 것인 단계;The second polynucleotide comprises a first region comprising a nucleic acid sequence in which at least two consecutive nucleotides are identical to a target nucleic acid sequence, and at one or more ends of the first region, and at least two consecutive nucleotides from one or more ends of the target nucleic acid sequence; comprising a second region comprising a different nucleic acid sequence;

상기 제2 라이브러리 및 상기 제1 폴리뉴클레오티드에 상보적인 제1 프라이머를 사용한 핵산 서열 분석(sequencing)을 수행하여 제2 라이브러리의 총 리드(read)를 수득하는 단계;performing nucleic acid sequencing using the second library and a first primer complementary to the first polynucleotide to obtain total reads of the second library;

수득된 총 리드로부터 상기 제2 폴리뉴클레오티드의 리드를 선별하여 제2 폴리뉴클레오티드의 리드를 수득하는 단계; 및selecting a read of the second polynucleotide from the total reads obtained to obtain a read of a second polynucleotide; and

총 리드의 수에 대한 제2 폴리뉴클레오티드의 리드의 수의 비율을 산출하여 상기 제1 라이브러리의 복잡성을 측정하는 단계를 포함하는,measuring the complexity of the first library by calculating a ratio of the number of reads of the second polynucleotide to the total number of reads,

핵산 서열 분석용 라이브러리의 복잡성을 측정하는 방법을 제공한다.A method for determining the complexity of a library for nucleic acid sequencing is provided.

상기 표적 시료, 핵산, 핵산 서열 분석, 단편화, 제1 폴리뉴클레오티드, 라이게이션, 첨가, 제2 폴리뉴클레오티드, PCR, Ct 값, 라이브러리, 및 라이브러리의 복잡성은 전술된 바와 같다.The target sample, nucleic acid, nucleic acid sequencing, fragmentation, first polynucleotide, ligation, addition, second polynucleotide, PCR, Ct value, library, and complexity of the library are as described above.

상기 방법은 표적 시료로부터 추출된 핵산을 단편화하는 단계를 포함한다.The method includes fragmenting the nucleic acid extracted from the target sample.

상기 방법은 단편화된 핵산의 하나 이상의 말단에 제1 폴리뉴클레오티드를 라이게이션하여 핵산 서열 분석용 제1 라이브러리를 제조하는 단계를 포함한다.The method includes preparing a first library for nucleic acid sequence analysis by ligating a first polynucleotide to one or more ends of the fragmented nucleic acid.

상기 방법은 제1 라이브러리에 제2 폴리뉴클레오티드를 첨가하여 제2 라이브러리를 준비하는 단계를 포함한다.The method includes preparing a second library by adding a second polynucleotide to the first library.

상기 방법은 제2 라이브러리 및 제1 폴리뉴클레오티드에 상보적인 제1 프라이머를 사용한 핵산 서열 분석을 수행하여 제2 라이브러리의 총 리드를 수득하는 단계를 포함한다.The method includes performing nucleic acid sequencing using a second library and a first primer complementary to the first polynucleotide to obtain total reads of the second library.

제1 프라이머는 하나의 프라이머 또는 프라이머 세트일 수 있다.The first primer may be one primer or a set of primers.

상기 방법은 수득된 총 리드로부터 제2 폴리뉴클레오티드의 리드를 선별하여 제2 폴리뉴클레오티드의 리드를 수득하는 단계를 포함한다.The method includes selecting a read of the second polynucleotide from the total reads obtained to obtain a read of the second polynucleotide.

상기 방법은 총 리드의 수에 대한 제2 폴리뉴클레오티드의 리드의 수의 비율을 산출하여 제1 라이브러리의 복잡성을 측정하는 단계를 포함한다.The method includes determining the complexity of the first library by calculating a ratio of the number of reads of the second polynucleotide to the total number of reads.

상기 총 리드의 수에 대한 제2 폴리뉴클레오티드의 리드의 수의 비율이 낮을수록 상기 제1 라이브러리의 복잡성이 높을 수 있다. 상기 총 리드의 수에 대한 제2 폴리뉴클레오티드의 리드의 수의 비율이 높을수록 상기 제1 라이브러리의 복잡성이 낮을 수 있다.The lower the ratio of the number of reads of the second polynucleotide to the total number of reads, the higher the complexity of the first library. The higher the ratio of the number of reads of the second polynucleotide to the total number of reads, the lower the complexity of the first library.

상기 방법은 핵산 서열 분석 중 실시간으로 또는 핵산 서열 분석 후 제1 라이브러리의 복잡성을 모니터링할 수 있다.The method can monitor the complexity of the first library in real time during nucleic acid sequencing or after nucleic acid sequencing.

일 양상 또는 다른 양상에 따른 라이브러리의 복잡성을 측정하는 방법에 따르면, 핵산 서열 분석용 라이브러리의 제조 과정 중에 실시간으로, 라이브러리 제조 후 핵산 서열 분석 과정 중, 또는 핵산 서열 분석 완료 후에 간단하고 정확한 방법으로 라이브러리의 복잡성을 측정할 수 있다.According to the method of measuring the complexity of a library according to one aspect or another aspect, in real time during the preparation of a library for nucleic acid sequencing, during the nucleic acid sequencing process after library preparation, or after completion of nucleic acid sequencing, the library is performed in a simple and accurate manner. can measure the complexity of

도 1a는 일 양상에 따른 NGS를 위한 라이브러리의 복잡성을 측정하는 방법의 원리를 나타내는 모식도이고, 도 1b는 라이브러리의 복잡성이 높거나 낮은 경우 전체 리드 중 인위적 서열 리드의 비율을 나타내는 모식도이다 (리드 중 ■: 어댑터, 리드 중 □: 인위적 서열).
도 2는 라이브러리 복잡도에 따른 정량적 PCR에서 Ct 값을 나타내는 그래프이다.
도 3은 라이브러리 복잡도에 따른 총 리드 중 인위적 서열 리드의 비율을 나타내는 그래프이다.
1A is a schematic diagram showing the principle of a method for measuring the complexity of a library for NGS according to an aspect, and FIG. 1B is a schematic diagram showing the ratio of artificial sequence reads among all reads when the complexity of the library is high or low (in reads) ■: adapter, in read □: artificial sequence).
2 is a graph showing Ct values in quantitative PCR according to library complexity.
3 is a graph showing the ratio of artificial sequence reads among total reads according to library complexity.

이하 본 발명을 실시예를 통하여 보다 상세하게 설명한다. 그러나, 이들 실시예는 본 발명을 예시적으로 설명하기 위한 것으로 본 발명의 범위가 이들 실시예에 한정되는 것은 아니다.Hereinafter, the present invention will be described in more detail through examples. However, these examples are for illustrative purposes only, and the scope of the present invention is not limited to these examples.

실시예Example 1. 차세대 1. Next Generation 핼산Halsan 서열 분석을 위한 라이브러리의 복잡성의 측정 Determination of the complexity of libraries for sequencing analysis

1. 인위적 서열을 함유하는 핵산 단편의 준비1. Preparation of Nucleic Acid Fragments Containing Artificial Sequences

차세대 핵산 서열 분석(next generation sequencing: NGS)을 위해, 표적 서열로서 동반 진단(companion diagnostics: CDx)에 활용되는 것으로 알려진 변이를 포함하는 유전자 KRAS, IDH1, BRAC1, ALK, 및 ERBB2 및 이들 유전자의 영역을 선정하였다. 선정된 위치를 기준으로 약 150 bp의 참조 서열을 선별하였다.For next generation nucleic acid sequencing (NGS), the genes KRAS, IDH1, BRAC1, ALK, and ERBB2 and regions of these genes containing mutations known to be utilized in companion diagnostics (CDx) as target sequences. was selected. A reference sequence of about 150 bp was selected based on the selected position.

선별된 참조 서열과 핵산 서열은 동일하지만, 그의 5' 말단으로부터 4 bp 및 3' 말단으로부터 4 bp를 인위적인 서열(artificial sequence)로 치환하고, 양 말단에 라이브러리의 어댑터 핵산 서열을 포함한 핵산 단편 (이하, "인위적 서열 함유 핵산 단편"이라고 함)을 유전자 합성 방법으로 제조하였다.Although the selected reference sequence and the nucleic acid sequence are the same, 4 bp from the 5' end and 4 bp from the 3' end are substituted with an artificial sequence, and a nucleic acid fragment containing the adapter nucleic acid sequence of the library at both ends (hereinafter , referred to as "a nucleic acid fragment containing an artificial sequence") was prepared by a gene synthesis method.

선별된 유전자, 참조 서열, 및 인위적 서열 함유 핵산 단편의 핵산 서열에서 어댑터 핵산 서열을 제외한 나머지 핵산 서열을 하기 표 1에 나타내었다.The remaining nucleic acid sequences excluding the adapter nucleic acid sequence from the nucleic acid sequences of the selected genes, reference sequences, and artificial sequence-containing nucleic acid fragments are shown in Table 1 below.

번호number 참조 유전체의 위치location of reference dielectric 참조 서열reference sequence 인위적 서열 함유 핵산 단편Nucleic Acid Fragments Containing Artificial Sequences 1One KRAS : 염색체 번호 12 :
엑손 번호: 3 :
염색체 12:25380168-25380346
KRAS: Chromosome Number 12:
exon number: 3:
Chromosome 12:25380168-25380346
5'-AGGAATCCTGAGAAGGGAGAAACACAGTCTGGATTATTACAGTGCACCTTTTACTTCAAAAAAGGTGTTATATACAACTCAACAACAAAAAATTCAATTTAAAAATGGGCAAAGGACTTGAAAAGACATTGTTCCTGCTCCAAAGATGAC-3' (서열번호 1)5'-AGGAATCCTGAGAAGGGAGAAACACAGTCTGGATTATTACAGTGCACCTTTTACTTCAAAAAAGGTGTTATATACAACTCAACAACAAAAAATTCAATTTAAAAATGGGCAAAGGACTTGAAAAGACATTGTTCCTGCTCCAAAGATGAC-3' (SEQ ID NO: 1) 5'- CTTC ATCCTGAGAAGGGAGAAACACAGTCTGGATTATTACAGTGCACCTTTTACTTCAAAAAAGGTGTTATATACAACTCAACAACAAAAAATTCAATTTAAAAATGGGCAAAGGACTTGAAAAGACATTGTTCCTGCTCCAAAGA GAAG -3' (서열번호 2)5'- CTTC ATCCTGAGAAGGGAGAAACACAGTCTGGATTATTACAGTGCACCTTTTACTTCAAAAAAGGTGTTATATACAACTCAACAACAAAAAATTCAATTTAAAAATGGGCAAAGGACTTGAAAAGACATTGTTCCTGCTCCAAAGA GAAG -3' (SEQ ID NO: 2)
22 IDH1 : 염색체 번호12
엑손 번호: 4 :
염색체 2:209113048-209113359
IDH1: chromosome number 12
exon number: 4:
Chromosome 2:209113048-209113359
5'-AGATAATGGCTTCTCTGAAGACCGTGCCACCCAGAATATTTCGTATGGTGCCATTTGGTGATTTCCACATTTGTTTCAACTTGAACTCCTCAACCCTCTTCTCATCAGGAGTGATAGTGGCACATTTGACGCCAACATTATGCTTCTTTA-3' (서열번호 3)5'-AGATAATGGCTTCTCTGAAGACCGTGCCACCCAGAATATTTCGTATGGTGCCATTTGGTGATTTCCACATTTGTTTCAACTTGAACTCCTCAACCCTCTTCTCATCAGGAGTGATAGTGGCACATTTGACGCCAACATTATGCTTCTTTA-3' (SEQ ID NO: 3) 5'- CTTC AATGGCTTCTCTGAAGACCGTGCCACCCAGAATATTTCGTATGGTGCCATTTGGTGATTTCCACATTTGTTTCAACTTGAACTCCTCAACCCTCTTCTCATCAGGAGTGATAGTGGCACATTTGACGCCAACATTATGCTTC GAAG -3' (서열번호 4)5'- CTTC AATGGCTTCTCTGAAGACCGTGCCACCCAGAATATTTCGTATGGTGCCATTTGGTGATTTCCACATTTGTTTCAACTTGAACTCCTCAACCCTCTTCTCATCAGGAGTGATAGTGGCACATTTGACGCCAACATTATGCTTC GAAG -3' (SEQ ID NO: 4)
33 BRAC1 : 염색체 번호 17
엑손 번호: 15 :
염색체 17:41222945-41223255
BRAC1: Chromosome number 17
exon number: 15:
Chromosome 17:41222945-41223255
5'-TCAATTCTGGCTTCTCCCTGCTCACACTTTCTTCCATTGCATTATACCCAGCAGTATCAGTAGTATGAGCAGCAGCTGGACTCTGGGCAGATTCTGCAACTTTCAACTTTCAATTGGGGAACTTTCAATGCAGAGGTTGAAGATGGTATG-3' (서열번호 5)5'-TCAATTCTGGCTTCTCCCTGCTCACACTTTCTTCCATTGCATTATACCCAGCAGTATCAGTAGTATGAGCAGCAGCTGGACTCTGGGCAGATTCTGCAACTTTCAACTTTCAATTGGGGAACTTTCAATGCAGAGGTTGAAGATGGTATG-3' (SEQ ID NO: 5) 5'- CTTC TTCTGGCTTCTCCCTGCTCACACTTTCTTCCATTGCATTATACCCAGCAGTATCAGTAGTATGAGCAGCAGCTGGACTCTGGGCAGATTCTGCAACTTTCAACTTTCAATTGGGGAACTTTCAATGCAGAGGTTGAAGATGG GAAG -3' (서열번호 6)5'- CTTC TTCTGGCTTCTCCCTGCTCACACTTTCTTCCATTGCATTATACCCAGCAGTATCAGTAGTATGAGCAGCAGCTGGACTCTGGGCAGATTCTGCAACTTTCAACTTTCAATTGGGGAACTTTCAATGCAGAGGTTGAAGATGG GAAG -3' (SEQ ID NO: 6)
44 ALK : 염색체 번호 2
엑손 번호: 20:
염색체 2:29446208-29446394
ALK: chromosome number 2
exon number: 20:
Chromosome 2:29446208-29446394
5'-GGTCACTGATGGAGGAGGTCTTGCCAGCAAAGCAGTAGTTGGGGTTGTAGTCGGTCATGATGGTCGAGGTGCGGAGCTTGCTCAGCTTGTACTCAGGGCTCTGCAGCTCCATCTGCATGGCTTGCAGCTCCTGGTGCTTCCGGCGGTACA-3' (서열번호 7)5'-GGTCACTGATGGAGGAGGTCTTGCCAGCAAAGCAGTAGTTGGGGTTGTAGTCGGTCATGATGGTCGAGGTGCGGAGCTTGCTCAGCTTGTACTCAGGGCTCTGCAGCTCCATCTGCATGGCTTGCAGCTCCTGGTGCTTCCGGCGGTACA-3' (SEQ ID NO: 7) 5'- CTTC ACTGATGGAGGAGGTCTTGCCAGCAAAGCAGTAGTTGGGGTTGTAGTCGGTCATGATGGTCGAGGTGCGGAGCTTGCTCAGCTTGTACTCAGGGCTCTGCAGCTCCATCTGCATGGCTTGCAGCTCCTGGTGCTTCCGGCGG GAAG -3' (서열번호 8)5'- CTTC ACTGATGGAGGAGGTCTTGCCAGCAAAGCAGTAGTTGGGGTTGTAGTCGGTCATGATGGTCGAGGTGCGGAGCTTGCTCAGCTTGTACTCAGGGCTCTGCAGCTCCATCTGCATGGCTTGCAGCTCCTGGTGCTTCCGGCGG GAAG -3' (SEQ ID NO: 8)
55 ERBB2 : 염색체 번호 17
엑손 번호: 6:
염색체 17:37864574-37864787
ERBB2: chromosome number 17
Exon number: 6:
Chromosome 17:37864574-37864787
5'-CAGGGCTACGTGCTCATCGCTCACAACCAAGTGAGGCAGGTCCCACTGCAGAGGCTGCGGATTGTGCGAGGCACCCAGCTCTTTGAGGACAACTATGCCCTGGCCGTGCTAGACAATGGAGACCCGCTGAACAATACCACCCCTGTCACA-3' (서열번호 9)5'-CAGGGCTACGTGCTCATCGCTCACAACCAAGTGAGGCAGGTCCCACTGCAGAGGCTGCGGATTGTGCGAGGCACCCAGCTCTTTGAGGACAACTATGCCCTGGCCGTGCTAGACAATGGAGACCCGCTGAACAATAACCACCCCTGTCACA-3' (SEQ ID NO: 9) 5'- CTTC GCTACGTGCTCATCGCTCACAACCAAGTGAGGCAGGTCCCACTGCAGAGGCTGCGGATTGTGCGAGGCACCCAGCTCTTTGAGGACAACTATGCCCTGGCCGTGCTAGACAATGGAGACCCGCTGAACAATACCACCCCTGT GAAG -3' (서열번호 10)5'- CTTC GCTACGTGCTCATCGCTCACAACCAAGTGAGGCAGGTCCCACTGCAGAGGCTGCGGATTGTGCGAGGCACCCAGCTCTTTGAGGACAACTATGCCCTGGCCGTGCTAGACAATGGAGACCCGCTGAACAATAACCACCCCTGT GAAG -3' (SEQ ID NO: 10)

표 1에서, 인위적 서열 함유 핵산 단편의 인위적 서열을 진한 글자 및 밑줄로 표시하였다.In Table 1, the artificial sequences of the artificial sequence-containing nucleic acid fragments are indicated in bold and underlined.

2. 2. NGSNGS 를 위한 라이브러리의 준비 및 인위적 서열 함유 핵산 단편의 첨가Preparation of library for and addition of artificial sequence-containing nucleic acid fragments

NGS를 위한 라이브러리를 제조하기 위해, 인간 유전체 시료 HapMap NA07014, NA10840, NA18595, NA18957, NA18488, NA18511, NA18867, NA18924, NA19108, 및 NA19114의 총 10 종의 시료를 동일한 몰 농도 비율로 혼합한 HapMap 혼합 시료 50 ng 또는 200 ng을 준비하였다. 준비된 혼합 시료를 Kapa hyper prep kits for illumine (Kapa Biosystems)을 사용하여, 제조자가 제공한 방법에 따라, 인간 유전체의 단편화, 말단-수선, 3'-아데노신 꼬리달기, 및 어댑터 라이게이션을 순차로 수행하였다.To prepare a library for NGS, a total of 10 human genome samples HapMap NA07014, NA10840, NA18595, NA18957, NA18488, NA18511, NA18867, NA18924, NA19108, and NA19114 were mixed at the same molar concentration ratio. 50 ng or 200 ng were prepared. Fragmentation of the human genome, end-repair, 3'-adenosine tailing, and adapter ligation were sequentially performed on the prepared mixed sample using Kapa hyper prep kits for illumine (Kapa Biosystems) according to the method provided by the manufacturer. did

실시예 1.1에서 준비된 인위적 서열 함유 핵산 단편 각각 50 atmole을 어댑터가 라이게이션된 라이브러리에 첨가(spiking)하였다. 인위적 서열 함유 핵산 단편이 첨가된 라이브러리를 캡쳐-전(pre-capture) 폴리머라제 연쇄 반응(polymerase chain reaction: PCR)을 수행한 후, 표적 농축(target enrichment)를 수행하였다. 그 후, 표적 농축된 라이브러리를 캡쳐-후(post-capture) PCR을 수행하였다.50 atmole of each of the artificial sequence-containing nucleic acid fragments prepared in Example 1.1 was spiked into the adapter-ligated library. After capturing the library to which the artificial sequence-containing nucleic acid fragment was added, a pre-capture polymerase chain reaction (PCR) was performed, and then target enrichment was performed. Thereafter, the target-enriched library was subjected to post-capture PCR.

KAPA Illumina 라이브러리 농도 측정용 정량적 PCR(quantitative PCR: qPCR) 키트를 사용하여 실시간 PCR을 수행하고, 실시간 qPCR 결과로부터 Ct(cycle threshold) 값을 산출하였다. 여기서, 산출된 Ct 값은 총 리드의 수를 나타낸다.Real-time PCR was performed using a quantitative PCR (qPCR) kit for measuring the KAPA Illumina library concentration, and a cycle threshold (Ct) value was calculated from the real-time qPCR result. Here, the calculated Ct value represents the total number of reads.

한편, 라이브러리에 포함된 인위적 서열 함유 핵산 단편의 리드 수를 측정하기 위해, 하기 표 2의 프라이머 세트 및 프로브를 사용하여 실시간 qPCR을 수행하였다. 여기서, 산출된 Ct 값은 인위적 서열 함유 핵산 단편으로부터 유래한 리드의 수를 나타낸다.Meanwhile, to measure the number of reads of the artificial sequence-containing nucleic acid fragment included in the library, real-time qPCR was performed using the primer sets and probes in Table 2 below. Here, the calculated Ct value represents the number of reads derived from the artificial sequence-containing nucleic acid fragment.

프라이머primer 핵산 서열nucleic acid sequence IDH1_인위적_정방향IDH1_artificial_forward 5'-CCACCGAGATCTACACTCTTTC-3' (서열번호 11)5'-CCACCGAGATCTACACTCTTTC-3' (SEQ ID NO: 11) IDH1_인위적_프로브IDH1_artificial_probe 5'-ACGCTCTTCCGATCTCTTCAATGGC-3' (서열번호 12)5'-ACGCTCTTCCGATCTCTTCAATGGC-3' (SEQ ID NO: 12) IDH1_인위적_역방향IDH1_artificial_reverse 5'-AAATCACCAAATGGCACCATAC-3' (서열번호 13)5'-AAATCACCAAATGGCACCATAC-3' (SEQ ID NO: 13) BRCA1_인위적_정방향BRCA1_artificial_forward 5'-GCGACCACCGAGATCTACA-3' (서열번호 14)5'-GCGACCACCGAGATCTACA-3' (SEQ ID NO: 14) BRCA1_인위적_프로브BRCA1_artificial_probe 5'-ACGACGCTCTTCCGATCTCTTCTTCT-3' (서열번호 15)5'-ACGACGCTCTTCCGATCTCTTCTTCT-3' (SEQ ID NO: 15) BRCA1_인위적_역방향BRCA1_artificial_reverse 5'-GAAAGTGTGAGCAGGGAGAAG-3' (서열번호 16)5'-GAAAGTTGGAGCAGGAGAAG-3' (SEQ ID NO: 16) ERBB2_인위적_정방향ERBB2_artificial_forward 5'-CCACCGAGATCTACACTCTTTC-3' (서열번호 17)5'-CCACCGAGATCTACACTCTTTC-3' (SEQ ID NO: 17) ERBB2_인위적_프로브ERBB2_artificial_probe 5'-ATCTCTTCGCTACGTGCTCATCGC-3' (서열번호 18)5'-ATCTCTTCGCTACGTGCTCATCGC-3' (SEQ ID NO: 18) ERBB2_인위적_역방향ERBB2_artificial_reverse 5'-CCTGCCTCACTTGGTTGT-3'(서열번호 19)5'-CCTGCCTCACTTGGTTGT-3' (SEQ ID NO: 19)

또한, 라이브러리의 복잡성에 따라 전체 리드 중 인위적 서열 리드의 비율이 변화하는지 여부를 확인하기 위해, 라이브러리 제조 과정에서 라이브러리 복잡성을 변화시킨 라이브러리를 제조하였다. Kapa hyper prep kits for illumine (Kapa Biosystems)의 제조자가 제공한 라이브러리의 제조 방법을 이용하여, 어댑터 라이게이션 단계에서 라이게이션된 산물을 1회 정제하고, 30 μM의 어댑터를 사용하고, 이 방법에 따라 제조된 라이브러리를 음성 대조군으로 사용하였다. 제조된 라이브러리의 복잡성을 인위적으로 감소시키기 위해, 라이게이션 단계에서 라이게이션된 산물의 2회 정제, 3 μM의 어댑터(즉, 1/10 희석)를 사용하거나, 또는 이들의 조합을 사용하여 복잡성이 감소된 라이브러리를 제조하였다.In addition, in order to check whether the ratio of artificial sequence reads among all reads changes depending on the complexity of the library, a library was prepared in which the library complexity was changed during the library preparation process. Using the library preparation method provided by the manufacturer of Kapa hyper prep kits for illumine (Kapa Biosystems), the ligated product in the adapter ligation step was purified once, and 30 μM of the adapter was used, according to this method. The prepared library was used as a negative control. To artificially reduce the complexity of the prepared library, double purification of the ligated product in the ligation step, use of adapters at 3 μM (i.e., 1/10 dilution), or a combination thereof A reduced library was prepared.

음성 대조군의 라이브러리와 인위적으로 복잡성을 감소시킨 라이브러리를 상기와 같은 방법으로 실시간 qPCR을 수행하고 Ct 값을 산출하였다. 라이브러리의 복잡성에 따른 산출된 Ct 값을 도 2에 나타내었다. 도 2에 나타난 바와 같이, 라이브러리의 복잡성이 감소함에 따라, 인위적 서열 함유 핵산 단편의 Ct 값이 감소하였다. 이에 반해, 총 리드의 Ct 값은 라이브러리의 복잡성의 변화에도 불구하고, 유의한 변화가 없었다.Real-time qPCR was performed on the negative control library and the library artificially reduced in complexity, and Ct values were calculated. The calculated Ct values according to the complexity of the library are shown in FIG. 2 . As shown in FIG. 2 , as the complexity of the library decreased, the Ct value of the nucleic acid fragment containing the artificial sequence decreased. In contrast, the Ct value of total reads did not change significantly, despite the change in library complexity.

제조된 라이브러리의 핵산 서열을 분석하고, 분석된 미가공된 리드 데이터를 이용하여 전체 리드의 수 및 전체 리드 중 인위적 서열 리드의 비율을 산출하였다. 복잡성의 변화에 따라, 산출된 전체 리드의 수 및 전체 리드 중 인위적 서열 리드의 비율을 도 3에 나타내었다. 도 3에서, "50 ng"은 라이브러리 제조시 인간 게놈 DNA HapMap 혼합 시료의 양이 50 ng임을 의미한다. 도 3에 나타낸 바와 같이, 전체 리드의 수 및 인위적 서열 리드의 수는 라이브러리 복잡성과 상관 관계가 없지만, 전체 리드 중 인위적 서열 리드의 비율은 라이브러리 복잡성과 역으로 상관관계가 있음을 확인하였다.The nucleic acid sequence of the prepared library was analyzed, and the number of total reads and the ratio of artificial sequence reads among the total reads were calculated using the analyzed raw read data. According to the change in complexity, the number of total reads calculated and the ratio of artificial sequence reads among the total reads are shown in FIG. 3 . In FIG. 3 , “50 ng” means that the amount of human genomic DNA HapMap mixed sample is 50 ng during library preparation. As shown in FIG. 3 , it was confirmed that the total number of reads and the number of artificial sequence reads did not correlate with library complexity, but the ratio of artificial sequence reads among total reads was inversely correlated with library complexity.

<110> SAMSUNG ELECTRONICS CO., LTD Samsung Life Public Welfare Foundation <120> Method for measuring library complexity for next generation sequencing <130> PN115614-KR <160> 19 <170> KopatentIn 2.0 <210> 1 <211> 150 <212> DNA <213> Artificial Sequence <220> <223> KRAS reference sequence <400> 1 aggaatcctg agaagggaga aacacagtct ggattattac agtgcacctt ttacttcaaa 60 aaaggtgtta tatacaactc aacaacaaaa aattcaattt aaaaatgggc aaaggacttg 120 aaaagacatt gttcctgctc caaagatgac 150 <210> 2 <211> 150 <212> DNA <213> Artificial Sequence <220> <223> Nucleic acid fragment containing artificial sequence <400> 2 cttcatcctg agaagggaga aacacagtct ggattattac agtgcacctt ttacttcaaa 60 aaaggtgtta tatacaactc aacaacaaaa aattcaattt aaaaatgggc aaaggacttg 120 aaaagacatt gttcctgctc caaagagaag 150 <210> 3 <211> 150 <212> DNA <213> Artificial Sequence <220> <223> IDH1 reference sequence <400> 3 agataatggc ttctctgaag accgtgccac ccagaatatt tcgtatggtg ccatttggtg 60 atttccacat ttgtttcaac ttgaactcct caaccctctt ctcatcagga gtgatagtgg 120 cacatttgac gccaacatta tgcttcttta 150 <210> 4 <211> 150 <212> DNA <213> Artificial Sequence <220> <223> Nucleic acid fragment containing artificial sequence <400> 4 cttcaatggc ttctctgaag accgtgccac ccagaatatt tcgtatggtg ccatttggtg 60 atttccacat ttgtttcaac ttgaactcct caaccctctt ctcatcagga gtgatagtgg 120 cacatttgac gccaacatta tgcttcgaag 150 <210> 5 <211> 150 <212> DNA <213> Artificial Sequence <220> <223> BRAC1 reference sequence <400> 5 tcaattctgg cttctccctg ctcacacttt cttccattgc attataccca gcagtatcag 60 tagtatgagc agcagctgga ctctgggcag attctgcaac tttcaacttt caattgggga 120 actttcaatg cagaggttga agatggtatg 150 <210> 6 <211> 150 <212> DNA <213> Artificial Sequence <220> <223> Nucleic acid fragment containing artificial sequence <400> 6 cttcttctgg cttctccctg ctcacacttt cttccattgc attataccca gcagtatcag 60 tagtatgagc agcagctgga ctctgggcag attctgcaac tttcaacttt caattgggga 120 actttcaatg cagaggttga agatgggaag 150 <210> 7 <211> 150 <212> DNA <213> Artificial Sequence <220> <223> ALK reference sequence <400> 7 ggtcactgat ggaggaggtc ttgccagcaa agcagtagtt ggggttgtag tcggtcatga 60 tggtcgaggt gcggagcttg ctcagcttgt actcagggct ctgcagctcc atctgcatgg 120 cttgcagctc ctggtgcttc cggcggtaca 150 <210> 8 <211> 150 <212> DNA <213> Artificial Sequence <220> <223> Nucleic acid fragment containing artificial sequence <400> 8 cttcactgat ggaggaggtc ttgccagcaa agcagtagtt ggggttgtag tcggtcatga 60 tggtcgaggt gcggagcttg ctcagcttgt actcagggct ctgcagctcc atctgcatgg 120 cttgcagctc ctggtgcttc cggcgggaag 150 <210> 9 <211> 150 <212> DNA <213> Artificial Sequence <220> <223> ERBB2 reference sequence <400> 9 cagggctacg tgctcatcgc tcacaaccaa gtgaggcagg tcccactgca gaggctgcgg 60 attgtgcgag gcacccagct ctttgaggac aactatgccc tggccgtgct agacaatgga 120 gacccgctga acaataccac ccctgtcaca 150 <210> 10 <211> 150 <212> DNA <213> Artificial Sequence <220> <223> Nucleic acid fragment containing artificial sequence <400> 10 cttcgctacg tgctcatcgc tcacaaccaa gtgaggcagg tcccactgca gaggctgcgg 60 attgtgcgag gcacccagct ctttgaggac aactatgccc tggccgtgct agacaatgga 120 gacccgctga acaataccac ccctgtgaag 150 <210> 11 <211> 22 <212> DNA <213> Artificial Sequence <220> <223> IDH1_art_Forward primer <400> 11 ccaccgagat ctacactctt tc 22 <210> 12 <211> 25 <212> DNA <213> Artificial Sequence <220> <223> IDH1_art_Probe <400> 12 acgctcttcc gatctcttca atggc 25 <210> 13 <211> 22 <212> DNA <213> Artificial Sequence <220> <223> IDH1_art_Reverse primer <400> 13 aaatcaccaa atggcaccat ac 22 <210> 14 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> BRCA1_art_Forward primer <400> 14 gcgaccaccg agatctaca 19 <210> 15 <211> 26 <212> DNA <213> Artificial Sequence <220> <223> BRCA1_art_Probe <400> 15 acgacgctct tccgatctct tcttct 26 <210> 16 <211> 21 <212> DNA <213> Artificial Sequence <220> <223> BRCA1_art_Reverse primer <400> 16 gaaagtgtga gcagggagaa g 21 <210> 17 <211> 22 <212> DNA <213> Artificial Sequence <220> <223> ERBB2_art_Forward primer <400> 17 ccaccgagat ctacactctt tc 22 <210> 18 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> ERBB2_art_Probe <400> 18 atctcttcgc tacgtgctca tcgc 24 <210> 19 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> ERBB2_art_Reverse primer <400> 19 cctgcctcac ttggttgt 18 <110> SAMSUNG ELECTRONICS CO., LTD Samsung Life Public Welfare Foundation <120> Method for measuring library complexity for next generation sequencing <130> PN115614-KR <160> 19 <170> KopatentIn 2.0 <210> 1 <211> 150 <212> DNA <213> Artificial Sequence <220> <223> KRAS reference sequence <400> 1 aggaatcctg agaagggaga aacacagtct ggattattac agtgcacctt ttacttcaaa 60 aaaggtgtta tatacaactc aacaacaaaa aattcaattt aaaaatgggc aaaggacttg 120 aaaagacatt gttcctgctc caaagatgac 150 <210> 2 <211> 150 <212> DNA <213> Artificial Sequence <220> <223> Nucleic acid fragment containing artificial sequence <400> 2 cttcatcctg agaagggaga aacacagtct ggattattac agtgcacctt ttacttcaaa 60 aaaggtgtta tatacaactc aacaacaaaa aattcaattt aaaaatgggc aaaggacttg 120 aaaagacatt gttcctgctc caaagagaag 150 <210> 3 <211> 150 <212> DNA <213> Artificial Sequence <220> <223> IDH1 reference sequence <400> 3 agataatggc ttctctgaag accgtgccac ccagaatatt tcgtatggtg ccatttggtg 60 atttccacat ttgtttcaac ttgaactcct caaccctctt ctcatcagga gtgatagtgg 120 cacattgac gccaacatta tgcttcttta 150 <210> 4 <211> 150 <212> DNA <213> Artificial Sequence <220> <223> Nucleic acid fragment containing artificial sequence <400> 4 cttcaatggc ttctctgaag accgtgccac ccagaatatt tcgtatggtg ccatttggtg 60 atttccacat ttgtttcaac ttgaactcct caaccctctt ctcatcagga gtgatagtgg 120 cacattgac gccaacatta tgcttcgaag 150 <210> 5 <211> 150 <212> DNA <213> Artificial Sequence <220> <223> BRAC1 reference sequence <400> 5 tcaattctgg cttctccctg ctcacacttt cttccattgc attataccca gcagtatcag 60 tagtatgagc agcagctgga ctctgggcag attctgcaac tttcaacttt caattgggga 120 actttcaatg cagaggttga agatggtatg 150 <210> 6 <211> 150 <212> DNA <213> Artificial Sequence <220> <223> Nucleic acid fragment containing artificial sequence <400> 6 cttcttctgg cttctccctg ctcacacttt cttccattgc attataccca gcagtatcag 60 tagtatgagc agcagctgga ctctgggcag attctgcaac tttcaacttt caattgggga 120 actttcaatg cagaggttga agatgggaag 150 <210> 7 <211> 150 <212> DNA <213> Artificial Sequence <220> <223> ALK reference sequence <400> 7 ggtcactgat ggaggaggtc ttgccagcaa agcagtagtt ggggttgtag tcggtcatga 60 tggtcgaggt gcggagcttg ctcagcttgt actcagggct ctgcagctcc atctgcatgg 120 cttgcagctc ctggtgcttc cggcggtaca 150 <210> 8 <211> 150 <212> DNA <213> Artificial Sequence <220> <223> Nucleic acid fragment containing artificial sequence <400> 8 cttcactgat ggaggaggtc ttgccagcaa agcagtagtt ggggttgtag tcggtcatga 60 tggtcgaggt gcggagcttg ctcagcttgt actcagggct ctgcagctcc atctgcatgg 120 cttgcagctc ctggtgcttc cggcgggaag 150 <210> 9 <211> 150 <212> DNA <213> Artificial Sequence <220> <223> ERBB2 reference sequence <400> 9 cagggctacg tgctcatcgc tcacaaccaa gtgaggcagg tcccactgca gaggctgcgg 60 attgtgcgag gcacccagct ctttgaggac aactatgccc tggccgtgct agacaatgga 120 gacccgctga acaataccac ccctgtcaca 150 <210> 10 <211> 150 <212> DNA <213> Artificial Sequence <220> <223> Nucleic acid fragment containing artificial sequence <400> 10 cttcgctacg tgctcatcgc tcacaaccaa gtgaggcagg tcccactgca gaggctgcgg 60 attgtgcgag gcacccagct ctttgaggac aactatgccc tggccgtgct agacaatgga 120 gacccgctga acaataccac ccctgtgaag 150 <210> 11 <211> 22 <212> DNA <213> Artificial Sequence <220> <223> IDH1_art_Forward primer <400> 11 ccaccgagat ctacactctt tc 22 <210> 12 <211> 25 <212> DNA <213> Artificial Sequence <220> <223> IDH1_art_Probe <400> 12 acgctcttcc gatctcttca atggc 25 <210> 13 <211> 22 <212> DNA <213> Artificial Sequence <220> <223> IDH1_art_Reverse primer <400> 13 aaatcaccaa atggcaccat ac 22 <210> 14 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> BRCA1_art_Forward primer <400> 14 gcgaccaccg agatctaca 19 <210> 15 <211> 26 <212> DNA <213> Artificial Sequence <220> <223> BRCA1_art_Probe <400> 15 acgacgctct tccgatctct tcttct 26 <210> 16 <211> 21 <212> DNA <213> Artificial Sequence <220> <223> BRCA1_art_Reverse primer <400> 16 gaaagtgtga gcagggagaa g 21 <210> 17 <211> 22 <212> DNA <213> Artificial Sequence <220> <223> ERBB2_art_Forward primer <400> 17 ccaccgagat ctacactctt tc 22 <210> 18 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> ERBB2_art_Probe <400> 18 atctcttcgc tacgtgctca tcgc 24 <210> 19 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> ERBB2_art_Reverse primer <400> 19 cctgcctcac ttggttgt 18

Claims (19)

표적 시료로부터 추출된 핵산을 단편화하는 단계;
단편화된 핵산의 하나 이상의 말단에 제1 폴리뉴클레오티드를 라이게이션하여 핵산 서열 분석용 제1 라이브러리를 제조하는 단계;
상기 제1 라이브러리에 제2 폴리뉴클레오티드를 첨가(spiking)하여 제2 라이브러리를 준비하는 단계로서,
상기 제2 폴리뉴클레오티드는 2 이상 연속 뉴클레오티드가 표적 핵산 서열과 동일한 핵산 서열을 포함하는 제1 영역, 및 상기 제1 영역의 하나 이상의 말단에 위치하고, 표적 핵산 서열의 하나 이상의 말단으로부터 2 이상 연속 뉴클레오티드와 상이한 핵산 서열을 포함하는 제2 영역을 포함하는 것인 단계;
상기 제2 라이브러리 및 상기 제1 폴리뉴클레오티드에 상보적인 제1 프라이머 세트를 사용한 제1 폴리머라제 연쇄 반응(polymerase chain reaction: PCR)을 수행하여 제1 Ct(threshold cycle) 값을 산출하는 단계;
상기 제2 라이브러리 및 상기 제2 폴리뉴클레오티드에 상보적인 제2 프라이머 세트를 사용한 제2 PCR을 수행하여 제2 Ct 값을 산출하는 단계; 및
상기 제1 Ct 값에 대한 제2 Ct 값의 비율을 산출하여 상기 제1 라이브러리의 복잡성을 측정하는 단계를 포함하는,
핵산 서열 분석용 라이브러리의 복잡성을 측정하는 방법.
fragmenting the nucleic acid extracted from the target sample;
preparing a first library for nucleic acid sequence analysis by ligating a first polynucleotide to one or more ends of the fragmented nucleic acid;
Preparing a second library by adding a second polynucleotide to the first library (spiking),
The second polynucleotide comprises a first region comprising a nucleic acid sequence in which at least two consecutive nucleotides are identical to a target nucleic acid sequence, and at one or more ends of the first region, and at least two consecutive nucleotides from one or more ends of the target nucleic acid sequence; comprising a second region comprising a different nucleic acid sequence;
calculating a first threshold cycle (Ct) value by performing a first polymerase chain reaction (PCR) using the second library and a first primer set complementary to the first polynucleotide;
calculating a second Ct value by performing a second PCR using a second primer set complementary to the second library and the second polynucleotide; and
measuring the complexity of the first library by calculating a ratio of a second Ct value to the first Ct value;
A method for determining the complexity of a library for nucleic acid sequencing.
청구항 1에 있어서, 상기 핵산 서열 분석은 차세대 핵산 서열 분석(next generation sequencing: NGS)인 것인 방법.The method according to claim 1, wherein the nucleic acid sequencing is next generation sequencing (NGS). 청구항 1에 있어서, 상기 표적 시료는 개체 또는 세포로부터 유래된 것인 방법.The method according to claim 1, wherein the target sample is derived from a subject or cell. 청구항 1에 있어서, 상기 핵산은 유전체(genome) 또는 그의 단편인 것인 방법.The method according to claim 1, wherein the nucleic acid is a genome or a fragment thereof. 청구항 1에 있어서, 상기 제1 폴리뉴클레오티드는 어댑터인 것인 방법.The method of claim 1 , wherein the first polynucleotide is an adapter. 청구항 1에 있어서, 상기 표적 핵산 서열은 동반 진단(companion diagnostics: CDx)에 이용되는 유전적 변이를 포함하는 것인 방법.The method of claim 1 , wherein the target nucleic acid sequence comprises a genetic variation used for companion diagnostics (CDx). 청구항 1에 있어서, 상기 제2 폴리뉴클레오티드의 길이는 20 뉴클레오티드 내지 500 뉴클레오티드인 것인 방법.The method according to claim 1, wherein the length of the second polynucleotide is 20 nucleotides to 500 nucleotides. 청구항 1에 있어서, 상기 제2 영역은 제1 영역의 양 말단에 위치하고, 각각의 제2 영역은 표적 핵산 서열의 5' 말단으로부터 2 이상 연속 뉴클레오티드와 상이한 서열 및 3' 말단으로부터 2 이상 연속 뉴클레오티드와 상이한 서열을 포함하는 것인 방법.The method according to claim 1, wherein the second region is located at both ends of the first region, and each second region comprises a sequence different from at least two consecutive nucleotides from the 5' end of the target nucleic acid sequence and at least two consecutive nucleotides from the 3' end of the target nucleic acid sequence; and different sequences. 청구항 1에 있어서, 상기 제2 영역의 길이는 2 뉴클레오티드 내지 15 뉴클레오티드인 것인 방법.The method according to claim 1, wherein the length of the second region is 2 to 15 nucleotides. 청구항 1에 있어서, 상기 제2 폴리뉴클레오티드는 그의 하나 이상의 말단에 상기 제1 폴리뉴클레오티드와 동일한 2 이상 연속 뉴클레오티드를 더 포함하는 것인 방법.The method of claim 1 , wherein the second polynucleotide further comprises two or more consecutive nucleotides identical to the first polynucleotide at one or more ends thereof. 청구항 1에 있어서, 제1 PCR 및 제2 PCR은 모두 정량적 PCR 또는 디지탈 PCR로 수행되는 것, 제1 PCR은 정량적 PCR로 수행되고 제2 PCR은 디지탈 PCR로 수행되는 것, 또는 제1 PCR은 디지탈 PCR로 수행되고 제2 PCR은 정량적 PCR로 수행되는 것인 방법.The method according to claim 1, wherein both the first PCR and the second PCR are performed by quantitative PCR or digital PCR, the first PCR is performed by quantitative PCR and the second PCR is performed by digital PCR, or the first PCR is performed by digital PCR wherein the PCR is performed and the second PCR is performed as a quantitative PCR. 청구항 1에 있어서, 상기 제1 PCR 및 제2 PCR은 동시 또는 순차로 수행되는 것인 방법.The method according to claim 1, wherein the first PCR and the second PCR are performed simultaneously or sequentially. 청구항 1에 있어서, 상기 제1 Ct 값은 제2 라이브러리의 총 리드(read)를 나타내는 것인 방법.The method of claim 1 , wherein the first Ct value represents total reads of the second library. 청구항 1에 있어서, 상기 제2 Ct 값은 제2 라이브러리 중 제2 폴리뉴클레오티드의 리드를 나타내는 것인 방법.The method of claim 1 , wherein the second Ct value represents a read of a second polynucleotide in a second library. 청구항 1에 있어서, 상기 제1 Ct 값에 대한 제2 Ct 값의 비율이 낮을수록 상기 제1 라이브러리의 복잡성이 높고, 상기 제1 Ct 값에 대한 제2 Ct 값의 비율이 높을수록 상기 제1 라이브러리의 복잡성이 낮은 것인 방법.The method according to claim 1, The lower the ratio of the second Ct value to the first Ct value, the higher the complexity of the first library, and the higher the ratio of the second Ct value to the first Ct value, the higher the ratio of the first library. The method of which the complexity is low. 표적 시료로부터 추출된 핵산을 단편화하는 단계;
단편화된 핵산의 하나 이상의 말단에 제1 폴리뉴클레오티드를 라이게이션하여 핵산 서열 분석용 제1 라이브러리를 제조하는 단계;
상기 제1 라이브러리에 제2 폴리뉴클레오티드를 첨가하여 제2 라이브러리를 준비하는 단계로서,
상기 제2 폴리뉴클레오티드는 2 이상 연속 뉴클레오티드가 표적 핵산 서열과 동일한 핵산 서열을 포함하는 제1 영역, 및 상기 제1 영역의 하나 이상의 말단에 위치하고, 표적 핵산 서열의 하나 이상의 말단으로부터 2 이상 연속 뉴클레오티드와 상이한 핵산 서열을 포함하는 제2 영역을 포함하는 것인 단계;
상기 제2 라이브러리 및 상기 제1 폴리뉴클레오티드에 상보적인 제1 프라이머를 사용한 핵산 서열 분석(sequencing)을 수행하여 제2 라이브러리의 총 리드(read)를 수득하는 단계;
수득된 총 리드로부터 상기 제2 폴리뉴클레오티드의 리드를 선별하여 제2 폴리뉴클레오티드의 리드를 수득하는 단계; 및
총 리드의 수에 대한 제2 폴리뉴클레오티드의 리드의 수의 비율을 산출하여 상기 제1 라이브러리의 복잡성을 측정하는 단계를 포함하는,
핵산 서열 분석용 라이브러리의 복잡성을 측정하는 방법.
fragmenting the nucleic acid extracted from the target sample;
preparing a first library for nucleic acid sequence analysis by ligating a first polynucleotide to one or more ends of the fragmented nucleic acid;
preparing a second library by adding a second polynucleotide to the first library,
The second polynucleotide comprises a first region comprising a nucleic acid sequence in which at least two consecutive nucleotides are identical to a target nucleic acid sequence, and at one or more ends of the first region, and at least two consecutive nucleotides from one or more ends of the target nucleic acid sequence; comprising a second region comprising a different nucleic acid sequence;
performing nucleic acid sequencing using the second library and a first primer complementary to the first polynucleotide to obtain total reads of the second library;
selecting a read of the second polynucleotide from the total reads obtained to obtain a read of a second polynucleotide; and
measuring the complexity of the first library by calculating a ratio of the number of reads of the second polynucleotide to the total number of reads,
A method for determining the complexity of a library for nucleic acid sequencing.
청구항 16에 있어서, 상기 핵산 서열 분석은 차세대 핵산 서열 분석(NGS)인 것인 방법.The method of claim 16 , wherein the nucleic acid sequencing is next-generation nucleic acid sequencing (NGS). 청구항 16에 있어서, 상기 총 리드의 수에 대한 제2 폴리뉴클레오티드의 리드의 수의 비율이 낮을수록 상기 제1 라이브러리의 복잡성이 높고, 상기 총 리드의 수에 대한 제2 폴리뉴클레오티드의 리드의 수의 비율이 높을수록 상기 제1 라이브러리의 복잡성이 낮은 것인 방법.The method according to claim 16, wherein the lower the ratio of the number of reads of the second polynucleotide to the total number of reads, the higher the complexity of the first library, the higher the number of reads of the second polynucleotide to the total number of reads. wherein the higher the ratio, the lower the complexity of the first library. 청구항 16에 있어서, 상기 방법은 핵산 서열 분석 중 실시간으로 또는 핵산 서열 분석 후 제1 라이브러리의 복잡성을 모니터링하는 것인 방법.The method of claim 16 , wherein the method monitors the complexity of the first library in real time during nucleic acid sequencing or after nucleic acid sequencing.
KR1020160169752A 2016-12-13 2016-12-13 Method for measuring library complexity for next generation sequencing KR102417999B1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020160169752A KR102417999B1 (en) 2016-12-13 2016-12-13 Method for measuring library complexity for next generation sequencing
PCT/KR2017/014549 WO2018110940A1 (en) 2016-12-13 2017-12-12 Method for measuring complexity of library for next generation sequencing

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160169752A KR102417999B1 (en) 2016-12-13 2016-12-13 Method for measuring library complexity for next generation sequencing

Publications (2)

Publication Number Publication Date
KR20180068118A KR20180068118A (en) 2018-06-21
KR102417999B1 true KR102417999B1 (en) 2022-07-06

Family

ID=62559454

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160169752A KR102417999B1 (en) 2016-12-13 2016-12-13 Method for measuring library complexity for next generation sequencing

Country Status (2)

Country Link
KR (1) KR102417999B1 (en)
WO (1) WO2018110940A1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220195504A1 (en) * 2018-11-30 2022-06-23 Illumina, Inc. Analysis of multiple analytes using a single assay

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8663920B2 (en) * 2011-07-29 2014-03-04 Bio-Rad Laboratories, Inc. Library characterization by digital assay
US10385475B2 (en) * 2011-09-12 2019-08-20 Adaptive Biotechnologies Corp. Random array sequencing of low-complexity libraries
US20140324359A1 (en) * 2013-04-25 2014-10-30 University Of Southern California Predicting the molecular complexity of sequencing libraries
US10787661B2 (en) * 2014-10-30 2020-09-29 The Board Of Trustees Of The Leland Stanford Junior University Scalable method for isolation and sequence-verification of oligonucleotides from complex libraries

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
S. Y. Anvar 외, Genome Biology (2014) 15:555.
T. Daley 외, Nature Methods 10(4), 2013.04, pp.325-327.

Also Published As

Publication number Publication date
WO2018110940A1 (en) 2018-06-21
KR20180068118A (en) 2018-06-21

Similar Documents

Publication Publication Date Title
McElhoe et al. Development and assessment of an optimized next-generation DNA sequencing approach for the mtgenome using the Illumina MiSeq
JP2023093499A (en) Methods for targeted nucleic acid sequence enrichment with applications to error-corrected nucleic acid sequencing
KR102028375B1 (en) Systems and methods to detect rare mutations and copy number variation
US11015213B2 (en) Method of preparing cell free nucleic acid molecules by in situ amplification
EP3607065B1 (en) Method and kit for constructing nucleic acid library
CN110628880B (en) Method for detecting gene variation by synchronously using messenger RNA and genome DNA template
EP3885445B1 (en) Methods of attaching adapters to sample nucleic acids
CN108070658B (en) Non-diagnostic method for detecting MSI
EP3608452A1 (en) Method for constructing amplicon library through one-step process
US20220259649A1 (en) Method for target specific rna transcription of dna sequences
US20200075123A1 (en) Genetic variant detection based on merged and unmerged reads
EP3643789A1 (en) Pcr primer pair and application thereof
EP2971082B1 (en) Non-invasive prenatal screening
JP2020512000A5 (en)
KR102417999B1 (en) Method for measuring library complexity for next generation sequencing
KR101967879B1 (en) Method for measuring integrity of unique identifier in sequencing
US11447819B2 (en) Methods for 3′ overhang repair
US20210115435A1 (en) Error-proof nucleic acid library construction method
US20220042107A1 (en) Systems and methods of scoring risk and residual disease from passenger mutations
US20210189384A1 (en) Methods and compositions for amplicon concatenation
KR20220122095A (en) Composition for improving molecular barcoding efficiency and use thereof
EP3696279A1 (en) Methods for noninvasive prenatal testing of fetal abnormalities
WO2023150640A1 (en) Methods selectively depleting nucleic acid using rnase h
US20210079481A1 (en) Diagnostic assay for cancer
김대윤 Detection of FLT3 (FMS-like Tyrosine Kinase) Internal Tandem Duplication (ITD) Mutation using Next Generation Sequencing Technology and Nested PCR

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right