JP7054133B2 - 配列解析方法、配列解析装置、参照配列の生成方法、参照配列生成装置、プログラム、および記録媒体 - Google Patents

配列解析方法、配列解析装置、参照配列の生成方法、参照配列生成装置、プログラム、および記録媒体 Download PDF

Info

Publication number
JP7054133B2
JP7054133B2 JP2017216502A JP2017216502A JP7054133B2 JP 7054133 B2 JP7054133 B2 JP 7054133B2 JP 2017216502 A JP2017216502 A JP 2017216502A JP 2017216502 A JP2017216502 A JP 2017216502A JP 7054133 B2 JP7054133 B2 JP 7054133B2
Authority
JP
Japan
Prior art keywords
sequence
reorganization
reorganized
mutation
read
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017216502A
Other languages
English (en)
Other versions
JP2019083781A (ja
Inventor
護 加藤
秀也 桑原
朋寛 佐久間
二三夫 井上
健一郎 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sysmex Corp
National Cancer Center Japan
Mitsui Knowledge Industry Co Ltd
Original Assignee
Sysmex Corp
National Cancer Center Japan
Mitsui Knowledge Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sysmex Corp, National Cancer Center Japan, Mitsui Knowledge Industry Co Ltd filed Critical Sysmex Corp
Priority to JP2017216502A priority Critical patent/JP7054133B2/ja
Priority to US16/185,987 priority patent/US11901043B2/en
Priority to EP18205386.8A priority patent/EP3483286B1/en
Priority to CN201811329017.6A priority patent/CN109949860B/zh
Publication of JP2019083781A publication Critical patent/JP2019083781A/ja
Application granted granted Critical
Publication of JP7054133B2 publication Critical patent/JP7054133B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6827Hybridisation assays for detection of mutation or polymorphism
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/20Heterogeneous data integration
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Description

本発明は、遺伝子の変異を解析するためにコンピュータによって実施される配列解析方法、配列解析装置、配列解析プログラム、および記録媒体に関する。
従来、遺伝子配列の解析は基礎研究、臨床研究、および医療のいずれにおいても重要なツールとして活用されている。近年では、次世代シーケンサー(NGS)が登場し、大量の遺伝子配列情報を高速かつ網羅的に得ることが可能になり、遺伝子配列の解析は、より広範囲の分野において活用されるようになった。
遺伝子配列の解析を活用する技術の一例として、ターゲットシーケンシングが挙げられる。ターゲットシーケンシングは、ゲノム配列全体のうち、ターゲット領域のみに限定して塩基配列を決定する手法である。ターゲットシーケンシングによって、遺伝性疾患の関連遺伝子、およびがん関連遺伝子などを含むターゲット領域の遺伝子配列のみを解析することが可能となり、シーケンスコストを低く抑えつつ、有用性の高い解析結果を得ることができる。
例えば、特定の疾患に関連する遺伝子に生じる複数の変異を、次世代シーケンサーを用いて詳細かつハイスループットに解析する遺伝子パネルは、疾患を診断するツールとして高い有用性が認められている。
特許文献1には、ターゲットシーケンシングによって得られるリード配列を迅速かつ効率的にマッピングする方法が開示されている。特許文献1に記載の方法では、ゲノム全体ではなく配列読取の対象となる標的領域のみの参照配列に対してリード配列をマッピングするため、計算効率が向上する。また、標的領域に類似するリード配列が誤って標的領域にマッピングされることを防止するため、リード配列のアライメントにおいて参照ゲノムの標的領域と類似する代替領域の参照配列も用いている。読み取られたリード配列に対する標的領域および代替領域の一致度をそれぞれ判定し、代替領域よりも標的領域に類似する場合に、リード配列は標的領域にマッピングされる。
特表2015-536661号公報
しかしながら、解析対象となる遺伝子の配列中には、多型、変異、およびメチル化などが生じる場合がある。例えば、欠損や挿入といった変異が生じている場合には、変異のない標的領域の参照配列を用いた場合にアライメント精度が低下する場合があった。
本発明は、配列中に多型、変異、およびバイサルファイト処理後のメチル化シトシンなどを含むリード配列を、より正確にマッピングする配列解析方法および配列解析装置等を実現することを目的とする。
上記の課題を解決するために、本発明の一態様に係る配列解析方法は、核酸配列を解析する方法であって、核酸配列から読み取られた複数のリード配列を取得する取得ステップと、それぞれのリード配列を、単一の参照配列を参照してアライメントすることにより核酸配列を決定する決定ステップと、を含み、参照配列中には、少なくとも第1の再編成配列、および、第1の再編成配列とは異なる第2の再編成配列を含む。
上記の構成によれば、核酸配列から読み取られた複数のリード配列を、複数の再編成配列を含む単一の参照配列を参照してアライメントする。これにより、解析対象の遺伝子の配列中に、多型、変異、およびメチル化などが生じている場合であっても、リード配列をより正確にマッピングすることができる。
また、再編成配列の数が変化した場合であっても、複数の再編成配列を含む単一の参照配列を参照してリード配列をアライメントするため、アライメントに用いる参照配列の数は変化しない。それゆえ、新しい変異に関する情報を、リード配列のアライメントに容易に反映させることができる。
「リード配列」とは、シーケンシングによって得られたポリヌクレオチド配列を意味する。「再編成配列」とは、ゲノム配列に含まれる野生型のエクソンなどに生じた公知の多型、変異、およびメチル化の少なくとも1つを含む該エクソンの部分配列または全配列である。
「参照配列」とは、リード配列が遺伝子上のどの領域に対応するか、およびリード配列が遺伝子上のどの変異に対応するかなどを判定するために、リード配列をマッピングする対象となる配列である。解析対象となる遺伝子毎に、参照配列として(1)野生型のエクソンの部分配列または全配列である野生型参照配列、および(2)野生型のエクソンの配列から公知の多型、変異を含む再編成配列を一繋がりに連結した単一の参照配列が用いられ得る。バイサルファイトシーケンスを行う場合は、バイサルファイト処理後に非メチル化シトシンがウラシルに変換された配列を野生型配列とし、シトシンのままの配列を再編成配列とすることができる。「マッピング」とは、各リード配列と、用いた参照配列中の塩基配列との一致度が高い領域に、該リード配列を整列させる処理を意味している。
「単一の参照配列」とは、解析対象となる遺伝子毎に、該解析対象となる遺伝子に関する2つ以上の再編成配列を1繋がりに連結して生成される配列である。単一の参照配列は、リード配列をマッピングするときに、再編成配列を含む唯一の参照配列として用いられる。
なお、バイサルファイトシーケンスとは、DNAのメチル化を解析する手法の1つである。DNAを構成する4種の塩基のうちシトシンがメチル化されてメチル化シトシンとなる場合があり、これをDNAのメチル化と呼ぶ。バイサルファイトシーケンスは、このメチル化シトシンを検出するために用いられるシーケンス法である。バイサルファイトシーケンスでは、試料に含まれるDNAをバイサルファイトで処理することにより、該DNAのメチル化されていないシトシンをウラシルに塩基置換する。一方、メチル化シトシンは、バイサルファイトによって処理されてもウラシルに塩基置換されない。このバイサルファイト処理の後に配列解析を行い、ウラシルに変換されなかったシトシンを決定することにより、試料DNA中においてメチル化されていたシトシンを決定することができる。
「変異」とは、遺伝子の多型、置換およびInDelなどの変異のうちの少なくともいずれかを意味する。「InDel(Insertion and/or Deletion)」は、挿入、欠失、または、挿入および欠失の両方が含まれた変異を意味している。遺伝子の「多型」は、SNV(Single Nucleotide Variant、一塩基多型)、VNTR(Variable Nucleotide of Tandem Repeat、反復配列多型)、およびSTRP(Short Tandem Repeat Polymorphism、マイクロサテライト多型)などを含む。
再編成配列は、多型、変異、およびメチル化の少なくとも1つを含む配列であってもよい。
多型は、反復配列多型、マイクロサテライト、および一塩基多型のうちのいずれかであり、変異は、置換、欠失、および挿入のうちのいずれかであってもよい。
決定ステップにおいて、リード配列を参照配列と比較し、リード配列と参照配列との一致率が最も高い参照配列上の領域にリード配列をマッピングしてもよい。
決定ステップ以前に、第1の再編成配列と第2の再編成配列とを予め取得し、第1の再編成配列と第2の再編成配列とを含む参照配列を生成する参照配列生成ステップをさらに含んでいてもよい。
第1の再編成配列、および第2の再編成配列は、変異情報データベース(3、3a)から取得される既知変異情報に基づいて生成されてもよい。
「既知変異情報」とは、公開既知変異情報および公開されていない変異情報とを含んでいてもよい。「公開既知変異情報」は、変異に関する情報に限らず、多型、およびメチル化に関する情報も含んでいてもよい。また、既知変異情報は、公開既知変異情報と同様に、変異、多型、およびメチル化に関する情報を含んでいてもよい。
変異情報データベース(3、3a)には、既知変異情報と、既知変異情報が変異情報データベース(3、3a)に記憶された日時を示す情報とが関連付けられていてもよい。
参照配列生成ステップにおいて、第1の再編成配列および第2の再編成配列の生成に用いられた既知変異情報とは異なる既知変異情報が変異情報データベース(3、3a)に新たに記憶された場合、新たに記憶された既知変異情報に基づいて生成された第3の再編成配列に基づいて、第1の再編成配列、第2の再編成配列、および第3の再編成配列を含む参照配列を生成してもよい。
参照配列生成ステップにおいて、第1の再編成配列および第2の再編成配列の生成に用いられた既知変異情報とは異なる既知変異情報が変異情報データベース(3、3a)に新たに記憶された場合、新たに記憶された既知変異情報に基づいて生成された第3の再編成配列に基づいて、第1の再編成配列または第2の再編成配列に第3の再編成配列を連結して、参照配列を生成してもよい。
変異情報データベース(3、3a)に記憶された既知変異情報のそれぞれに個別の識別情報が付与されており、第1の再編成配列、第2の再編成配列、および第3の再編成配列は、それぞれ異なる識別情報が付与された既知変異情報に基づいて生成されてもよい。
第1の再編成配列および第2の再編成配列は、多型、変異、またはメチル化を含んでおり、第1の再編成配列および第2の再編成配列は、所定の多型、変異、メチル化を有するエクソンの部分配列または全配列であってもよい。
取得ステップにおいて、核酸配列のうち、複数のベイトを用いて選択された産物の核酸配列を読み取ることによって複数のリード配列を取得してもよい。
オリゴDNAが、核酸配列を読み取るために用いられる部材表面に固定されていてもよい。核酸配列を読み取るために用いられる部材としては、例えば、図13および図14などに示すフローセルなどが挙げられる。
決定ステップにおいて、複数のリード配列の各々は、野生型参照配列および再編成配列を含む参照配列と比較されてもよい。
参照配列は、解析対象となる1以上の遺伝子について生成された再編成配列を含んでいてもよい。
リード配列の読み取りは、次世代シーケンサーを用いて実施されてもよい。
上記の課題を解決するために、本発明の別の態様に係る配列解析装置は、核酸配列を解析する配列解析装置(1)であって、核酸配列から読み取られた複数のリード配列を取得するリード配列情報取得部(111)と、それぞれのリード配列を、単一の参照配列を参照してアライメントすることにより核酸配列を決定する配列決定部(113)と、を備え、参照配列中には、少なくとも、第1の再編成配列、および、第1の再編成配列とは異なる第2の再編成配列を含む。
上記の構成によれば、核酸配列から読み取られた複数のリード配列を、複数の再編成配列を含む単一の参照配列を参照してアライメントする。これにより、解析対象の遺伝子の配列中に、多型、変異、およびメチル化などが生じている場合であっても、リード配列をより正確にマッピングすることができる。また、新しい変異に関する情報が単一の参照配列の中でアップロードできるため、再編成配列の数が変化した場合であっても、単一の参照配列を参照してリード配列をアライメントすることができ、解析プログラムのルーチンを改変しなくてもよい、という効果も奏する。
配列決定部(113)は、リード配列を参照配列と比較し、リード配列と参照配列との一致率が最も高い、参照配列上の領域を決定する構成であってもよい。
第1の再編成配列と第2の再編成配列とを含む参照配列を生成する参照配列生成部(115)とをさらに備えていてもよい。
参照配列管理部(112)は、第1の再編成配列および第2の再編成配列の生成に用いる既知変異情報を、変異情報データベース(3、3a)から取得してもよい。
参照配列生成部(115)は、第1の再編成配列、第2の再編成配列、および第1の再編成配列および第2の再編成配列の生成に用いられた既知変異情報とは異なる既知変異情報に基づいて生成した第3の再編成配列を含む参照配列を生成してもよい。
参照配列生成部(115)は、第1の再編成配列または第2の再編成配列に、第1の再編成配列および第2の再編成配列の生成に用いられた既知変異情報とは異なる既知変異情報に基づいて生成した第3の再編成配列を連結して、参照配列を生成してもよい。
変異情報データベース(3、3a)に記憶された既知変異情報のそれぞれに個別の識別情報が付与されており、参照配列管理部(112)は、第1の再編成配列、第2の再編成配列、および第3の再編成配列を、それぞれ異なる識別情報が付与された既知変異情報に基づいて生成してもよい。
配列決定部(113)は、複数のリード配列の各々を、野生型参照配列および参照配列と比較してもよい。
配列決定部(113)によって決定された核酸配列が参照配列、および野生型参照配列のいずれに一致するかに関する情報を出力する出力部(14)をさらに備えていてもよい。
上記の課題を解決するために、本発明の別の態様に係る参照配列生成方法は、シーケンサー(2)によって読み取られたリード配列の核酸配列を決定するために用いられる参照配列の生成方法であって、第1の再編成配列および第2の再編成配列を取得する再編成配列取得ステップと、第1の再編成配列と第2の再編成配列とを一繋がりに連結した参照配列を生成する参照配列生成ステップとを含む。
上記の構成によれば、第1の再編成配列と第2の再編成配列とを一繋がりに連結して、単一の参照配列を生成する。このように生成された単一の参照配列を用いたアライメントすることにより、リード配列の核酸配列を決定すれば、上記配列解析方法と同様の効果を奏する。
第1の再編成配列および第2の再編成配列は、多型、変異、およびメチル化の少なくとも1つを含む配列であってもよい。
多型は、反復配列多型、マイクロサテライト、および一塩基多型のうちのいずれかであり、変異は、置換、欠失、および挿入のうちのいずれかであってもよい。
第1の再編成配列、および第2の再編成配列は、変異情報データベース(3、3a)から取得された情報に基づいて生成されてもよい。
変異情報データベース(3、3a)には、既知変異情報と、既知変異情報が変異情報データベース(3、3a)に記憶された日時を示す情報とが関連付けられていてもよい。
参照配列生成ステップにおいて、第1の再編成配列および第2の再編成配列の生成に用いられた既知変異情報とは異なる既知変異情報が変異情報データベース(3、3a)に新たに記憶された場合、新たに記憶された既知変異情報に基づいて生成された第3の再編成配列に基づいて、第1の再編成配列、第2の再編成配列、および第3の再編成配列を含む参照配列を生成してもよい。
参照配列生成ステップにおいて、第1の再編成配列および第2の再編成配列の生成に用いられた既知変異情報とは異なる既知変異情報が変異情報データベース(3、3a)に新たに記憶された場合、新たに記憶された既知変異情報に基づいて生成された第3の再編成配列に基づいて、第1の再編成配列または第2の再編成配列に第3の再編成配列を連結して、参照配列を生成してもよい。
第1の再編成配列および第2の再編成配列は、多型、変異、またはメチル化を含んでおり、第1の再編成配列および第2の再編成配列は、多型、変異、メチル化を有するエクソンの部分配列または全配列であってもよい。
上記の課題を解決するために、本発明の別の態様に係る参照配列生成装置は、シーケンサー(2)によって読み取られたリード配列の核酸配列を決定するために用いられる参照配列を生成する参照配列生成装置であって、第1の再編成配列および第2の再編成配列を取得する参照配列管理部と、第1の再編成配列と第2の再編成配列とを一繋がりに連結した参照配列を生成する参照配列生成部とを備える。
上記の構成によれば、再編成配列の数が変化した場合であっても、リード配列をアライメントするために用いる参照配列の数は変化しない。それゆえ、新しい変異に関する情報を、リード配列のアライメントに容易に反映させることができる。
本発明の各態様に係る配列解析装置(1)は、コンピュータによって実現してもよい。また、コンピュータにて実現させる配列解析装置(1)のプログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。
本発明によれば、解析対象の遺伝子の配列中に、多型、変異、およびメチル化などが生じている場合であっても、リード配列をより正確且つ効率的にマッピングすることができる。
配列解析装置の適用例を示す図である。 配列解析装置の一例を示す機能ブロック図である。 検査機関で実施される検査の処理の流れを示したフローチャートである。 外部の変異情報データベースからダウンロードした公開既知変異情報を用いて、参照配列を生成する方法の一例を説明する概念図である。 参照配列データベースのデータ構造の例を示す図である。 遺伝子パネル情報データベースのデータ構造の例を示す図である。 参照配列の生成方法の例を説明するイメージ図である。 参照配列の生成方法の別の例を説明するイメージ図である。 参照配列を生成および更新する処理の流れの一例を説明するフローチャートである。 試料DNAの塩基配列をシーケンサーによって解析するための前処理の手順の一例を説明するフローチャートである。 シーケンシングの手順の一例を説明するフローチャートである。 試料の断片化の工程(a)、およびインデックス配列およびアダプター配列の付与の工程(b)の例について説明する図である。 ハイブリダイズの工程の一例について説明する図である。 解析対象となるDNA断片を回収する工程の一例について説明する図である。 DNA断片をフローセルに供する工程の一例について説明する図である。 解析対象となるDNA断片を増幅する工程の一例について説明する図である。 シーケンシング工程の一例について説明する図である。 配列解析装置によるリード配列の解析の流れの一例を説明するフローチャートである。 リード配列情報のファイルフォーマットの一例を示す図である。 (a)は、配列決定部によるアライメントを説明する図であり、(b)は、配列決定部のアライメント結果のフォーマットの一例を示す図である。 参照配列データベースの構造例を示す図である。 参照配列データベースに含まれる参照配列(野生型の配列を示すものでないもの)に組み込まれる既知の変異の例を示す図である。 アライメントの詳細な工程の一例を説明するフローチャートである。 参照配列を用いて行われるアライメントの概要を説明する図である。 リード配列と単一の参照配列とを比較することにより、リード配列のマッピングを行う処理の一例を示すフローチャートである。 スコア算出の一例を示す図である。 スコア算出の他の例を示す図である。 参照配列を用いた場合のスコア算出の一例を示す図である。 変異同定部が生成する結果ファイルのフォーマットの一例を示す図である。 変異データベースの構造の一例を示す図である。 変異データベース中の変異に関する情報の構造の詳細例を示す図である。 配列解析装置の適用の変形例を示す図である。 配列解析装置の適用の変形例を示す図である。
本実施の形態では、DNAを含む試料を、シーケンサーで配列を読み取るための長さに断片化し、それぞれのDNA断片の塩基配列をシーケンサーで読み取り、読み取ったリード配列を、変異を含む複数の再編成配列を一繋がりに連結した単一の参照配列にマッピングすることによってアライメントを行う。
複数の再編成配列を一繋がりに連結した単一の参照配列を利用しない場合、リード配列と2以上の再編成配列とを比較してリード配列のマッピングを行おうとすると、一般的には、まずマッピング対象のリード配列と野生型参照配列とを比較し、一つの再編成配列1を読み出して、該リード配列と再編成配列1とを比較する。次に、再編成配列2を読み出して、該リード配列と再編成配列2とを比較する。この方法では、リード配列と全ての再編成配列とを比較し終えるまで、1つずつ再編成配列を読み出してリード配列と比較する処理を繰り返す必要がある。
しかしながら、遺伝子に生じた変異に対する関心は、近年、益々高まっており、変異に関する情報は、今後も研究開発の進展に伴い全世界的に追加され、蓄積されるものと考えられる。それゆえ、リード配列のアライメントの際に、公知の変異を含む再編成配列の数は固定されるものではなく、徐々に増加したり、時には減少したりする。
1つずつ再編成配列を読み出してリード配列と比較する上述した一般的な方法では、公知の変異に関する情報がアップロードされたり、削除されたりして、公知の変異を含む再編成配列の数が変化した場合に、読み出すべき再編成配列を追加したり削除したりするためのプログラムルーチンを改変する必要がある。
一方、本実施の形態では、リード配列を、野生型参照配列と比較した後、複数の再編成配列を一繋がりに連結した単一の参照配列と比較し、リード配列との一致率が所定の基準を満たす参照配列上の位置を特定する。
このように、本実施の形態では、複数の再編成配列を一繋がりに連結した参照配列を用いることによって、再編成配列の数が変化した場合であっても、単一の参照配列の中で新しい変異に関する情報をアップロードできるため、プログラムルーチンを改変しなくてもよいという利点がある。
本発明の実施形態について、詳細に説明する。
以下では、本発明の実施形態に係る配列解析装置1が、検査機関110に設置されている場合を例に挙げて説明する。図1は、配列解析装置1の適用例を示す図である。
(検査機関110)
検査機関110は、1または複数の医療機関210から届けられる試料を検査・解析して、解析結果を医療機関210に提供する機関である。検査機関110には、図1に示すように、1台または複数台のシーケンサー2、および配列解析装置1などが設置されている。
図1に示す検査機関110では、医療機関210からの解析依頼に応じて、試料が解析され、解析結果に基づいて解析報告書が作成される。ここで、「試料」とは、「サンプル」とも換言でき、当該分野において標本、調製物と同義で用いられ、供給源としての生物材料(例えば、個体、血液、体液、尿、細胞株、組織培養物もしくは組織切片)から得られる任意の調製物が意図される。
(変異情報データベース3)
図1に示す変異情報データベース3は、検査機関110の外部において管理されている公開配列情報データベースおよび公開既知変異情報データベースなどである。公開配列情報データベースとしては、NCBI RefSeq(ウェブページ、www.ncbi.nlm.nih.gov/refseq/)、NCBI GenBank(ウェブページ、www.ncbi.nlm.nih.gov/genbank/)、UCSC Genome Browserなどが挙げられる。また、公開既知変異情報データベースとしては、COSMICデータベース(ウェブページ、www.sanger.ac.uk/genetics/CGP/cosmic/)、ClinVarデータベース(ウェブページ、www.ncbi.nlm.nih.gov/clinvar/)およびdbSNP(ウェブページ、www.ncbi.nlm.nih.gov/SNP/)などが挙げられる。なお、変異情報データベース3は、公開既知変異に関し、人種あるいは動物種別毎の頻度情報を含む公開既知変異情報データベースであってもよい。このような情報を有する公開既知変異情報データベースとしては、HapMap Genome Browser release #28、Human Genetic Variation Browser(ウェブページ、www.genome.med.kyoto-u.ac.jp/SnpDB/index.html)および1000 Genomes(ウェブページ、www.1000genomes.org/)が挙げられ、これらのデータベースからは、例えば、日本人の変異頻度情報などを入手することができる。
(シーケンサー2)
シーケンサー2は、試料に含まれる遺伝子の塩基配列を読み取るために利用される解析装置であり、例えば、DNA断片の塩基配列を同時並行で大量に読み取ることが可能な次世代シーケンサーであることが望ましい。次世代シーケンサーは、近年開発の進められている一群の塩基配列解析装置であり、クローン的に増幅したDNAテンプレートまたは単独DNA分子をフローセル内で大量に並列処理を行うことによって、飛躍的に向上した解析能力を有している。
シーケンサー2に適用可能なシークエンシング技術の例としては、イオン半導体シークエンシング、ピロシークエンシング(pyrosequencing)、可逆色素ターミネータを使用するシークエンシング・バイ・シンセシス(sequencing-by-synthesis)、シークエンシング・バイ・リゲーション(sequencing-by-ligation)、およびオリゴヌクレオチドのプローブ結紮によるシークエンシングなどの、1ラン当たりに多数のリード配列を取得可能なシーケンシング技術が挙げられる。
シーケンシングに用いるシーケンシングプライマーは特に限定されず、目的の領域を増幅させるのに適した配列に基づいて、適宜設定される。また、シーケンシングに用いられる試薬についても、用いるシーケンシング技術およびシーケンサー2に応じて好適な試薬を選択すればよい。
(配列解析装置1の構成)
配列解析装置1は、核酸配列から読み取られた複数のリード配列を取得して、それぞれのリード配列を、第1の再編成配列および第2の再編成配列を少なくとも含む単一の参照配列を参照してアライメントすることにより核酸配列を決定する装置である。
図2に示す配列解析装置1は、配列解析装置1が備える各部を統括して制御する制御部11、制御部11が使用する各種データを記憶する記憶部12、出力部14、入力部15、および通信部16を備えている。制御部11は、CPU等のプロセッサであり、リード配列情報取得部111、配列決定部113、変異同定部114、参照配列管理部112および参照配列生成部115を備えている。記憶部12は、ハードディスクドライブ等であり、遺伝子パネル情報データベース121、参照配列データベース122、および変異データベース123が記憶されている。また、記憶部12には、配列解析のためのプログラム、単一の参照配列を生成するためのプログラム等も記憶されている。出力部14は、ディスプレイ、プリンタ、スピーカ等を含む。入力部15は、キーボード、マウス、タッチセンサ等を含む。また、タッチセンサとディスプレイとが一体化されたタッチパネルのような、入力部および出力部の双方の機能を有する装置を用いてもよい。通信部16は、制御部11が外部の装置と通信するためのインターフェースである。
図3は、医療機関210から解析依頼を受け付けた場合に検査機関110で実施される検査の処理の流れを示したフローチャートである。まず、検査機関110では、配列解析に用いる単一の参照配列を生成する処理が行われる(ステップS51)。
(ステップS51:単一の参照配列の生成処理)
ステップS51の処理は、制御部11の参照配列管理部112および参照配列生成部115によって行われる。図4は、外部の変異情報データベース3からダウンロードした公開既知変異情報を用いて、参照配列を生成する方法の一例を説明する概念図である。
図4では、染色体位置「xxxx」の遺伝子「EGFR」に生じた変異「C797S」に関する情報が、研究機関Pから外部の変異情報データベース3に新たにアップロードされ、変異情報データベース3に記憶された場合を例に挙げている。研究機関Pからアップロードされた、遺伝子名「EGFR」の遺伝子の染色体位置「xxxx」に生じた変異「C797S」に関する情報は、外部の変異情報データベース3において、変異ID「yyyy」およびアップロード日「zz年z月z日」などと関連付けられて、公開既知変異情報として登録される。新たにアップロードされた情報としてここに例示した変異は、遺伝子「EGFR」から転写・翻訳された遺伝子産物であるタンパク質「EGFR」の797番目のアミノ酸残基がシステインからセリンに置換された変異である。なお、外部の変異情報データベース3には、このような変異に限定されず、多型、変異、およびメチル化などに関する情報が集められ、記憶されていてもよい。
参照配列管理部112は、変異情報データベース3に対して変異情報要求を送信し、変異情報データベース3から公開既知変異情報をダウンロードする。参照配列管理部112は、前回、公開既知変異情報をダウンロードした日以降に変異情報データベース3にアップロードされた公開既知変異情報のみをダウンロードする構成であってもよい。この構成によれば、例えば、参照配列管理部112が変異情報データベース3から公開既知変異情報を「zz年z月z日」以前にもダウンロードしていた場合、参照配列管理部112は、前回ダウンロードした公開既知変異情報のダウンロードは行わない。図4において、参照配列管理部112が「zz年z月z日」の前日に変異情報データベース3から公開既知変異情報をダウンロードし、翌「zz年z月z日」にも変異情報要求を送信した場合、参照配列管理部112は、「zz年z月z日」にアップロードされて新しく公開既知変異情報として登録された、遺伝子名「EGFR」の変異「C797S」に関する情報のみをダウンロードしてもよい。
なお、参照配列管理部112は、配列解析装置1の解析対象のすべての遺伝子についての公開既知変異情報を定期的(例えば、1か月に1回、1週間に1回、および2日に1回など)に変異情報データベース3からダウンロードする構成であってもよい。または、配列解析装置1を使用するユーザによって入力部15から入力された遺伝子パネル名に関連付けられた遺伝子パネルの解析対象となる1または複数の遺伝子、および遺伝子名などに対応する遺伝子について、該ユーザの指示に従って公開既知変異情報をダウンロードする構成であってもよい。この場合、参照配列管理部112は、遺伝子パネル情報データベース121を参照して、公開既知変異情報をダウンロードすべき遺伝子を決定する。なお、ユーザの指示に従って公開既知変異情報をダウンロードする構成の場合、参照配列管理部112は、前回、公開既知変異情報をダウンロードした日をユーザに対して提示してもよい。これにより、ダウンロードされている公開既知公開情報が新しく適切なものであるか否かを事前にユーザに知らせることができる。
ここで、入力部15を介して遺伝子パネルに関する情報が入力された場合に、参照配列管理部112が参照する遺伝子パネル情報データベース121に記憶されているデータについて、図5を用いて説明する。図5は、遺伝子パネル情報データベース121のデータ構造の例を示す図である。
遺伝子パネル情報データベース121には、図5に示すデータ121Aのように、遺伝子パネルの解析対象となり得る遺伝子の名称が遺伝子毎に付与された遺伝子IDに関連付けて記憶されている。また、遺伝子パネル情報データベース121には、図5に示すデータ121Bのように、選択可能な遺伝子パネルの名称、各遺伝子パネルに付与された遺伝子パネルID、および各遺伝子パネルが解析対象としている遺伝子の遺伝子IDが関連付けて記憶されている。
入力部15から、ユーザによって遺伝子パネル名が入力された場合、参照配列管理部112は、遺伝子パネル情報データベース121を参照して、入力された遺伝子パネル名に関連付けられた遺伝子名、遺伝子パネルIDおよび関連する遺伝子IDを抽出してもよい。
入力部15から、ユーザによって遺伝子名が入力された場合、参照配列管理部112は、遺伝子パネル情報データベース121を参照して、入力された遺伝子名に関連付けられた遺伝子ID、およびこれらの遺伝子IDが関連付けられた遺伝子パネルの遺伝子パネルIDを抽出してもよい。
なお、遺伝子パネル情報データベース121には、図5に示すデータ121Cのように、疾病に関する遺伝子パネルの名称および各遺伝子パネルの解析対象となる遺伝子名が関連付けられて記憶されていてもよい。
なお、入力部15から、ユーザによって疾患名が入力された場合、参照配列管理部112は、遺伝子パネル情報データベース121を参照して、入力された疾病名に関連付けられた遺伝子パネル名または遺伝子名から、関連する遺伝子ID、および遺伝子パネルIDを抽出してもよい。
参照配列管理部112は、ダウンロードした公開既知変異情報に基づいて、再編成配列を生成し、参照配列データベース122に追加・保存する。例えば、参照配列管理部112は、野生型の部分配列または全配列と、公開既知変異情報が示す変異の染色体番号、位置、および変異配列aとを用いて、変異配列aを含む再編成配列を生成する。これにより、再編成配列は、野生型のエクソンなどの部分配列または全配列に生じた公知の多型、変異、およびメチル化などを再現させた配列となる。
ここで、参照配列データベース122のデータ構造について、図6を用いて説明する。図6に示すデータ122Aは、参照配列管理部112によって生成された再編成配列を記憶する参照配列データベース122のデータ構造の一例を示す図である。この例では、参照配列管理部112が、遺伝子名が「EGFR」である遺伝子に生じた既知の変異を既知変異情報に基づいて生成した再編成配列を示している。生成された再編成配列は、これに限定されるものではないが、再編成配列の生成に用いた遺伝子名(あるいは、関連遺伝子ID)、再編成配列に付与された再編成配列ID、再編成配列の長さ、再編成配列の5´末端から変異配列までの長さなどと関連付けられて記憶されている。さらに、再編成配列は、再編成配列に含まれる変異の変異ID、変異配列、染色体番号、および染色体番号で示された染色体上の変異の位置が関連付けられて記憶されていてもよい。例えば、図6に示すデータ122Aにおいて再編成配列IDが「aa」である再編成配列aaは、野生型の「EGFR」の配列の全配列または部分配列における、染色体番号「CHa」の染色体上の位置「pa」に相当する位置に変異配列aを挿入することによって生成された配列である。また、この再編成配列aaは、全長が325塩基であり、5´末端から変異配列aが挿入されている位置までの長さがna塩基である。図5に示すデータ121Aの(a)に示すように、同じ遺伝子内の異なる位置における変異配列を含む再編成配列、および同じ遺伝子の同じ位置における異なる変異を含む再編成配列などには、個別の再編成配列IDが付与されている。
図4に戻り、参照配列生成部115は、参照配列データベース122から再編成配列aa、再編成配列bb、再編成配列cc、…、再編成配列xxを読み出して、所定の連結様式によって再編成配列を1つに連結して、単一の参照配列を生成する。なお、参照配列データベース122には、変異配列が組込まれた再編成配列および参照配列の他に、野生型参照配列も記憶されている。
参照配列生成部115が、再編成配列を一繋がりに連結する方法としては、図7Aに示すように、再編成配列aa(第1の再編成配列)、再編成配列bb(第2の再編成配列)、再編成配列cc(第3の再編成配列)、・・・を1塩基も挿入することなく直接連結してもよい。あるいは、図7Bに示すように、再編成配列aa、再編成配列bb、再編成配列cc、・・・の連結部分に所定の長さのスペーサー配列を挿入してもよい。スペーサー配列としては、例えば、グアニンが10連続する配列などとすることができる。なお、スペーサー配列は、A,T,G,C以外の文字列で構成されていてもよく、例えば、例えば、「AKT1」および「EGFR」などの遺伝子名、例えば、α、βなどのギリシア語のアルファベットに含まれる文字、例えば、I、VI、IXなどのローマ数字、および「20170901」などの所定数の数字を挿入してもよい。このように、A,T,G,C以外の文字列も含むスペーサー配列を挿入することにより、リード配列が、参照配列の隣り合う2つの再編成配列にまたがる領域、すなわち、2つの再編成配列を繋ぐ連結部分にマッピングされる可能性を無視できるようにすることができる。なお、英語のアルファベットに含まれる文字「N」は、参照配列において、リード配列中のA、T、C、Gのいずれにも一致するヌクレオチドを意味する文字として用いられる場合がある。それゆえ、スペーサー配列として「N」を利用することは、可能な限り避けることが望ましい。
参照配列生成部115が生成した参照配列は、参照配列管理部112によって、例えば「egfr-20170801」といった参照配列IDが付与され、参照配列データベース122に保存される。
図6に示すデータ122Bは、参照配列生成部115によって生成された参照配列を記憶する参照配列データベース122のデータ構造の一例を示す図である。参照配列は、参照配列生成部115が該参照配列を生成した生成日および参照配列IDと関連付けられて記憶されている。なお、参照配列IDに、各参照配列が生成された生成日を示す情報を含むようにしてもよい。例えば、図6に示すデータ122Aの例では、2017年9月1日に、遺伝子名「BRAF」の遺伝子について生成された参照配列には、「braf-20170901」という参照配列IDが付与されている。また、2017年8月1日に、遺伝子名「EGFR」の遺伝子について生成された参照配列には、「egfr-20170801」という参照配列IDが付与されている。このように、再編成配列を1つに連結して生成した参照配列IDなどに、該参照配列の生成日を示す情報を含ませることで、ユーザに対して参照配列がいつ生成されたかを容易に知らせることができる。なお、参照配列管理部112が変異情報データベース3から公開既知変異情報を取得したとき、あるいは、変異情報データベース3aの既知変異情報が更新されたときなどに、参照配列生成部115が参照配列を生成する構成が望ましいが、これに限定されるものではない。
参照配列データベース122に記憶された参照配列は、配列決定部113が各核酸断片のリード配列のアライメントを実行する場合に配列決定部113によって参照される。
<単一の参照配列を生成および更新する処理の流れ>
単一の参照配列を生成および更新する処理の流れの一例を図8のフローチャートに沿って説明する。
まず、図8のステップS1において、参照配列管理部112は、解析対象となる遺伝子を特定する。例えば、参照配列管理部112は、配列解析装置1の解析対象のすべての遺伝子を定期的に特定してもよいし、解析対象とする遺伝子としてユーザによって入力部15から遺伝子パネル名、および遺伝子名などの入力を受け付けてもよい。
特定した遺伝子が、配列解析装置1を用いて初めて解析される遺伝子である場合(ステップS2にてYES)、参照配列管理部112は、当該遺伝子のすべての公開既知変異情報、各公開既知変異情報に付与された変異ID、および各変異に関する情報がアップロードされた日付などを、変異情報データベース3からダウンロードする(ステップS3)。ただし、これに限定されるものではなく、外部の変異情報データベース3からダウンロードした変異に関する情報に基づいて、ユーザが特定のファイルを作成し、作成したファイルを検査機関110が備える変異情報データベース3aにアップロードする構成であってもよい。なお、ダウンロードする「公知の変異の配列情報」を、変異情報データベース3にアップロードされているすべての公開既知変異情報でなくてもよい。例えば、特定した遺伝子に生じた多型、変異、およびメチル化の中から、疾患に関連することが知られている公開既知変異情報に限定してもよい。
具体的には、参照配列管理部112は、通信部16を介して、特定した遺伝子の遺伝子IDと変異情報要求とを変異情報データベース3へ送信し、この要求によって指定された所望の公開既知変異情報を変異情報データベース3からダウンロードする。なお、変異情報要求は、所定の間隔(例えば、毎日、1週間に1回、1か月に1回など)で定期的に送信されてもよいし、配列解析装置1をユーザが使用するたびに送信されてもよい。あるいは、変異情報データベース3に新たな変異に関する情報がアップロードされた旨の通知を配列解析装置1が取得してもよく、この場合、該通知を取得する毎に変異情報要求を配列解析装置1から送信してもよい。
次に、参照配列管理部112は、ステップS3においてダウンロードした各公開既知変異情報に対応する再編成配列を生成し、参照配列データベース122に保存する(ステップS4)。
参照配列生成部115は、参照配列データベース122から、生成された再編成配列を読み出して、所定の連結様式によって再編成配列を1つに連結して、参照配列を生成する(ステップS5)。
参照配列生成部115が生成した参照配列は、参照配列管理部112によって参照配列IDが付与され、参照配列データベース122に保存される(ステップS6)。
一方、特定した遺伝子が、配列解析装置1を用いて初めて解析される遺伝子ではない場合(ステップS2にてNO)、参照配列管理部112は、当該遺伝子について、公開既知変異情報を前回ダウンロードした日付より後に変異情報データベース3にアップロードされた変異に関する情報の有無を判定する(ステップS7)。
前回に公開既知変異情報をダウンロードした日付よりも後にアップロードされた変異に関する情報が有る場合(ステップS7にてYES)、参照配列管理部112は、新しい公開既知変異情報をダウンロードして、該公開既知変異情報を用いて再編成配列を生成・保存する(ステップS8)。
参照配列生成部115は、参照配列データベース122に記憶されている参照配列、および新しく生成された再編成配列を取得して、これらを所定の連結様式によって1つに連結して、新しい参照配列を生成する(ステップS9)。すなわち、参照配列生成部115は、参照配列データベース122に記憶されている参照配列を読み出し、参照配列管理部112が新たに生成した再編成配列(例えば、図4に示す変異「C797S」を含む再編成配列)を、既に参照配列に含まれている再編成配列と連結することにより、参照配列を更新する。なお、図4に示す例では、参照配列生成部115は、参照配列データベース122から読み出した参照配列の末尾の再編成配列に、変異「C797S」を含む再編成配列を連結している。しかし、これに限定されず、参照配列生成部115は、参照配列データベース122から読み出した参照配列に含まれている再編成配列の連結部分に、参照配列管理部112が新たに生成した再編成配列を挿入して、参照配列を更新してもよい。
参照配列生成部115によって生成された参照配列は、参照配列データベース122に記憶される(ステップS10)。図6に示すデータ122Cのように、参照配列は、参照配列毎に付与された参照配列IDと連結情報とが関連付けられて記憶されている。連結情報とは、参照配列の生成に用いられた再編成配列の再編成配列ID、各再編成配列の長さの情報、および連結順などを含む情報である。なお、連結情報として、スペーサーの有無、およびスペーサーの長さに関する情報が含まれていてもよい。
一方、前回公開既知変異情報をダウンロードした日付よりも後にアップロードされた変異に関する情報が無い場合(ステップS7にてNO)、参照配列管理部112は、公開既知変異情報のダウンロードを行わない。また、参照配列生成部115は、参照配列を更新しない。なお、参照配列生成部115が参照配列を更新しない場合であっても、参照配列管理部112は、参照配列データベース122に記憶されている参照配列の参照配列IDを更新することが望ましい。これにより、参照配列が最新の公開既知変異情報を反映して生成されたものであることをユーザに知らせることができる。例えば、2017年9月1日に参照配列ID「egfr-20170801」の参照配列に含まれている再編成配列に新しい再編成配列を連結したか否かに関係なく、参照配列IDの「20170801」の部分を「20170901」に更新した新しい参照配列IDを付与してもよい。
ここでは、参照配列生成部115が、遺伝子毎に、再編成配列を連結して1つの参照配列を生成する場合を例に挙げて説明したが、これに限定されない。例えば、遺伝子毎に、野生型参照配列および再編成配列を一繋がりに連結した参照配列を作成してもよいし、ステップ1においてユーザによって入力された遺伝子パネルの解析対象となる遺伝子についての、すべての再編成配列を一繋がりに連結した参照配列としてもよい。
また、ステップ1においてユーザによって入力された遺伝子パネルの解析対象となる遺伝子についての、すべての野生型参照配列および再編成配列を一繋がりに連結した参照配列を作成してもよい。例えば、遺伝子パネル名「A パネル」がユーザによって入力された場合、参照配列生成部115は、遺伝子パネル情報データベース121を参照して、入力された遺伝子パネル名に関連付けられた遺伝子ID、または遺伝子名を決定する。決定される遺伝子名および遺伝子IDの数は1または複数である。参照配列生成部115は、参照配列データベース122から、決定した遺伝子名に対応付けられた野生型配列および再編成配列を読み出して、これらを一繋がりに連結してもよい。このようにして生成された参照配列は、遺伝子パネルを用いた解析におけるリード配列情報のアライメントに使用される再編成配列を含む唯一の参照配列となる。この参照配列には、生成された生成日に加え、遺伝子パネルを示す情報(例えば遺伝子パネル名)を含む参照配列ID(例えば、「A Ppanel 20170901」など)が付与されてもよい。
次に、検査機関110では、試料DNAの塩基配列をシーケンサー2によって解析するための前処理が行われる(図3のステップS52)。前処理の流れを図9Aのフローチャートに沿って説明する。
(ステップS52:前処理)
まず、図10の(a)に示すように、DNAを含む試料(DNA)を、シーケンサー2で配列を読み取るための長さに断片化する(図9AのステップS101)。試料DNAの断片化は、例えば、超音波処理や、核酸を断片化する試薬による処理などの公知の方法によって行うことができる。ただし、ステップS101の断片化処理を必要としない場合もあるため、この断片化処理は必須の前処理ではない。得られるDNA断片(核酸断片)は、例えば、数十から数百bpの長さであり得る。以下では、解析対象となる遺伝子がDNAである場合を例に挙げて説明するが、解析対象となる遺伝子はRNAであってもよい。
続いて、図10の(b)に示すように、ステップS101で得られたDNA断片の両端(3´末端および5´末端)に、使用するシーケンサー2の種類やシーケンシングプロトコルに対応するアダプター配列を付与する(図9AのステップS102)。ただし、本工程は、シーケンサー2が、イルミナ社のシーケンサー、または、イルミナ社のシーケンサーと同様の方式を採用する装置である場合には必須の工程であるが、他の種類のシーケンサー2を用いる場合には、省略できる場合もある。
アダプター配列は、後の工程においてシーケンシングを実行するために使用する配列であり、一実施形態において、Bridge PCR法において、フローセルに固定化したオリゴDNAにハイブリダイズするための配列であり得る。
一態様において、図10の(b)の上段に示すように、DNA断片の両端に直接アダプター1配列およびアダプター2配列(アダプター1配列およびアダプター2配列)を付加してもよい。DNA断片へのアダプター配列の付加は、当該分野において公知の手法を用いることができる。例えば、DNA配列を平滑化し、アダプター配列をライゲーションしてもよい。
また、他の一態様において、図10の(b)の下段に示すように、DNA断片の両端とアダプター配列との間に、インデックス配列を挿入してもよい。
インデックス配列は、各試料のデータを区別するための、試料毎、遺伝子パネル毎、および遺伝子パネルを提供している会社毎に固有の配列である。インデックス配列として用いられる塩基配列は、これに限定されるものではないが、例えば、アデニンが10~14連続する配列、アデニンが5~7連続し、グアニンが5~7連続するなどの配列パターン、および所与の長さを有している。インデックス配列は、その配列パターンおよび長さに基づいて、当該インデックス配列が付加されたDNA断片の配列について、どの試料のシーケンスデータか、用いられた遺伝子パネルは何か、用いられた遺伝子パネルを提供している会社はどの会社か、などに関する情報を識別するために用いることができる。
例えば、遺伝子パネルAを用いた解析におけるインデックス配列を、アデニンが14連続する配列パターンとし、遺伝子パネルBを用いた解析におけるインデックス配列を、アデニンが7連続した後にグアニンが7連続する配列パターンとしてもよい。あるいは、遺伝子パネルAを用いた解析におけるインデックス配列を、アデニンが14連続する配列(すなわち、インデックス配列の長さは14)とし、遺伝子パネルCを用いた解析におけるインデックス配列を、アデニンが10連続する配列(すなわち、インデックス配列の長さは10)としてもよい。
DNA断片へのインデックス配列およびアダプター配列の付加は、当該分野において公知の手法を用いることができる。例えば、DNA配列を平滑化し、インデックス配列をライゲーションし、さらに、アダプター配列をライゲーションさせてもよい。
次に、図11に示すように、アダプター配列を付与したDNA断片に対し、ビオチン化RNAベイトライブラリをハイブリダイズさせる(図9のステップS103)。ビオチン化RNAベイトライブラリは、解析対象となる遺伝子とハイブリダイズするビオチン化RNA(以下、RNAベイトと称する。)によって構成されている。RNAベイトの長さは任意であるが、例えば、特異性を高めるために120bp程度のロングオリゴRNAベイトを使用してもよい。
なお、本実施形態におけるシーケンサー2を用いたパネル検査では、例えば、100以上の多数の遺伝子(例えば、100以上)が解析対象の遺伝子となる。パネル検査で用いられる試薬には、当該多数の遺伝子の各々に対応するRNAベイトのセットが含まれる。パネルが異なれば、解析対象の遺伝子の数および種類が異なるため、パネル検査で用いられる試薬に含まれるRNAベイトのセットも異なる。
そして、図12に示すように、解析対象となるDNA断片を回収する(図9のステップS104)。詳細には、図12の上段に示すように、ビオチン化RNAベイトライブラリをハイブリダイズさせたDNA断片に対し、ストレプトアビジンと磁性ビーズとが結合したストレプトアビジン磁性ビーズを混合する。これにより、図12の中段に示すように、ストレプトアビジン磁性ビーズのストレプトアビジン部分と、RNAベイトのビオチン部分とが結合する。そして、図12の下段に示すように、ストレプトアビジン磁性ビーズを、磁石で集磁するとともに、RNAベイトとハイブリダイズしていない断片(即ち、解析対象とならないDNA断片)を洗浄により除去する。これにより、RNAベイトとハイブリダイズしたDNA断片、すなわち、解析対象となるDNA断片を選択・濃縮することができる。シーケンサー2は、このように複数のRNAベイトを用いて選択されたDNA断片の核酸配列を読み取ることによって複数のリード配列を取得する。
さらに、図13の左欄から中央欄に示すように、濃縮されたDNA断片からストレプトアビジン磁性ビーズおよびRNAベイトを外し、PCR法によって増幅することにより、前処理を完了させる。
次に、検査機関110では、試料DNAの塩基配列を読み取るためのシーケンシングが行われる(図3のステップS53)。シーケンシングの流れを図9Bのフローチャートに沿って説明する。
なお、本実施形態において使用することができるシーケンサー2の種類は特に限定されず、複数の解析対象を一度のランで解析することができるシーケンサーを好適に用いることができる。このようなシーケンサーには、例えば、イルミナ社(サンディエゴ、CA)のMySeq9(登録商標)、HiSeq(登録商標)、NextSeq(登録商標)、サーモ・フィッシャー社(ウォルサム、MA)のIon Proton(登録商標)、Ion PGM(登録商標)、ロシュ社(バーゼル、スイス)のGS FLX +(登録商標)、およびGS Junior(登録商標)などが挙げられる。以下では、一例として、イルミナ社のシーケンサー、または、イルミナ社のシーケンサーと同様の方式を採用する装置を用いる場合について説明する。イルミナ社のシーケンサーは、Bridge PCR法とSequencing-by-synthesisという手法との組合せにより、フローセル上で膨大な数の解析対象となるDNAを増幅させ、合成しながらシーケンシングを行うことができる。
(ステップS53:シーケンシング)
まず、図13の右欄に示すように、増幅されたDNA断片をフローセルに供する(図9BのステップS105)。続いて、図14に示すように、フローセル上において、Bridge PCR法により、解析対象となるDNA断片を増幅する(図9BのステップS106)。
すなわち、解析対象となるDNA断片(図14中のTemplate DNA)は、上述した前処理によって、両末端に2種類の異なるアダプター1配列(アダプター1配列およびアダプター2配列)が付加された状態であり(図14の「1」)、このDNA断片を1本鎖にし、5’末端側のアダプター1配列をフローセル上に固定させる(図14の「2」)。フローセル上には予め5’末端側のアダプター2配列が固定されており、DNA断片の3’末端側のアダプター2配列が、フローセル上の5’末端側のアダプター2配列と結合することにより、橋渡しをしたような状態(ブリッジ)が形成される(図14の「3」)。この状態でDNAポリメラーゼによってDNA伸長反応を行い(図14の「4」)、変性させると、2本の1本鎖DNA断片が得られる(図14の「5」)。このようなブリッジの形成、DNA伸長反応および変性をこの順に繰り返すことにより、多数の1本鎖DNA断片を局所的に増幅固定させて、クラスターを形成することができる(図14の「6」~「9」)。
そして、図14に示すように、クラスターを形成する1本鎖DNAを鋳型として、Sequencing-by-synthesisにより、配列を読み取る(図9BのステップS107)。
まず、フローセル上に固定されたオリゴDNA(例えば、図15の上段左欄に示す1本鎖DNA)に対し、DNAポリメラーゼ、および、蛍光標識され、3’末端側がブロックされたdNTPを添加し(図15の上段中央欄)、さらに、シーケンスプライマーを添加する(図15の上段右欄)。シーケンスプライマーは、例えば、アダプター配列の一部分にハイブリダイズするように設計されていればよい。換言すれば、シーケンスプライマーは、試料DNA由来のDNA断片を増幅するように設計されていればよく、インデックス配列を付加した場合には、さらにインデックス配列を増幅するように設計されていればよい。
シーケンスプライマーを添加後、DNAポリメラーゼによって3’末端ブロック蛍光dNTPの1塩基伸長反応を行う。3’末端側がブロックされたdNTPを用いるため、1塩基分伸長したところで、ポリメラーゼ反応は停止する。そして、DNAポリメラーゼを除去し(図15の中段右欄)、1塩基伸長した1本鎖DNA(図15の下段右欄)に対し、レーザー光により塩基に結合している蛍光物質を励起させて、そのときに起こる発光を写真として記録する(図15の下段左欄)。写真は、蛍光顕微鏡を用いて、4種類の塩基を決定させるために、波長フィルタを変更しながら、A、C、G、Tそれぞれに対応する蛍光色毎に撮影する。すべての写真を取り込んだ後、写真データから塩基を決定する。そして、蛍光物質および3’末端側をブロックしている保護基を除去して、次のポリメラーゼ反応に進む。この流れを1サイクルとして、2サイクル目、3サイクル目と繰り返していくことにより、全長をシーケンシングすることができる。
以上の手法によれば、解析できる鎖長は150塩基×2までに達し、ピコタイタープレートよりもはるかに小さい単位での解析が可能である。それゆえ、高密度化することにより、1回の解析において40~200Gbという膨大な配列情報を入手することができる。
シーケンサー2によるリード配列の読み取りに用いられる遺伝子パネルは、上述したように、複数の解析対象を一度のランで解析するための解析キットを意味し、一実施形態において、特定の疾病に関する複数の遺伝子配列を解析するための解析キットであり得る。
本明細書中にて使用される場合、用語「キット」は、特定の材料を内包する容器(例えば、ボトル、プレート、チューブ、ディッシュなど)を備えた包装が意図される。容器としては、例えば、ボトル、プレート、チューブ、ディッシュなどが挙げられる。好ましくは各材料を使用するための指示書を備える。本明細書中にてキットの局面において使用される場合、「備えた(備えている)」は、キットを構成する個々の容器のいずれかの中に内包されている状態が意図される。また、キットは、複数の異なる組成物を1つに梱包した包装であり得る。ここで、組成物の形態は上述したような形態であり得、溶液形態の場合は容器中に内包されていてもよい。キットは、物質Aおよび物質Bを同一の容器に混合して備えていても別々の容器に備えていてもよい。「指示書」には、キット中の各構成についての情報、例えば、治療および/または診断に該キットを適用する場合の手順に関する情報などが示されている。なお、「指示書」は、紙またはその他の媒体に書かれていても印刷されていてもよく、あるいは磁気テープ、コンピュータ読み取り可能ディスクまたはテープ、CD-ROMなどのような電子媒体に付されてもよい。キットはまた、希釈剤、溶媒、洗浄液またはその他の試薬を内包した容器を備え得る。さらに、キットは、治療および/または診断に適用するために必要な器具をあわせて備えていてもよい。
一実施形態において、遺伝子パネルは、上述した、核酸を断片化する試薬、ライゲーション用試薬、洗浄液、dNTP、DNAポリメラーゼなどのPCR試薬(dNTP、DNAポリメラーゼなど)などの試薬、および磁性ビーズのうち一つ以上を備えていてもよい。また、遺伝子パネルは、断片化したDNAにアダプター配列を付加するためのオリゴヌクレオチド、断片化したDNAにインデックス配列を付加するためのオリゴヌクレオチド、RNAベイトライブラリ、シーケンシングに用いるシーケンスプライマーなどのうち一つ以上を備えていてもよい。さらに、遺伝子パネルは、所定のオリゴDNAが表面の少なくとも一部に固定化されたフローセル、およびフローセルの表面の少なくとも一部にオリゴDNAを固定化するための試薬などを含んでいてもよい。
特に、各遺伝子パネルが備えるインデックス配列は、当該遺伝子パネル固有の、当該遺伝子パネルを識別するための配列であり得る。また、各遺伝子パネルが備えるRNAベイトライブラリは、当該遺伝子パネルの各検査遺伝子に対応するRNAベイトを含む、当該遺伝子パネル固有のライブラリであり得る。
次に、検査機関110では、読み取られたリード配列の解析処理が行われる(図3のステップS54)。
(ステップS54:リード配列の解析)
リード配列の解析処理は、制御部11のリード配列情報取得部111、配列決定部113、および変異同定部114によって行われる。解析の流れの一例を図16のフローチャートに沿って説明する。
まず、リード配列情報取得部111は、シーケンサー2から提供されたリード配列情報を読み込む(図16のステップS21)。
リード配列情報は、シーケンサー2で読み取られた塩基配列を示すデータである。シーケンサー2は、多数の核酸断片をシーケンシングして、それらの配列情報を読み取り、リード配列情報として配列解析装置1に提供する。読み取られたリード配列情報は、パネル検査において読み取られた、解析対象となる遺伝子の配列であってもよい。
一態様において、リード配列情報には、読み取られた配列と共に、配列中の各塩基のクオリティスコアが含まれていてもよい。また、被検体の病変部位から採取されたFFPE試料をシーケンサー2に供して得られたリード配列情報と、同被検体の血液試料をシーケンサー2に供して得られたリード配列情報との両方が、配列解析装置1に入力される。ここで、「被検体」とは、ヒト被検体並びにヒトではない被検体、例えば、哺乳類、無脊椎動物、脊椎動物、菌類、酵母、細菌、ウイルスおよび植物などを指す。また、「FFPE試料」とは、ホルマリン固定パラフィン包埋された試料を指す。
図17は、リード配列情報のファイルフォーマットの一例を示す図である。図17に示す例では、リード配列情報には、配列名、配列、および、クオリティスコアが含まれている。配列名は、シーケンサー2が出力するリード配列情報に付与された配列ID等を示す。配列は、シーケンサー2で読み取られた塩基配列を示す。クオリティスコアは、シーケンサー2による塩基割当が正しく行われない確率を示す。任意の塩基のシーケンスクオリティスコア(Q)は、次の式により表される。
Q=-10log10
この式において、Eは、塩基割当が正しく行われない確率の推定値を表す。Q値が高いほど、エラーの確率が低いことを意味する。Q値が低いほど、そのリードは使用できない部分が大きくなる。また、偽陽性の変異割当も増加し、結果の精度が低下する恐れがある。
ここで、「偽陽性」は、リード配列が判定対象となる真の変異を有していないにもかかわらず、変異を有すると判断されることを意味する。なお、「陽性」は、リード配列が判定対象となる真の変異を有していることを意味し、「陰性」は、リード配列が対象となる変異を有していないことを意味する。
続いて、配列決定部113は、リード配列情報取得部111が読み込んだリード配列情報に基づいて、リード配列情報に含まれる各核酸断片のリード配列のアライメントを実行する(図16のステップS22)。なお、ここでは、FFPE試料をシーケンサー2に供して得られたリード配列情報から配列を決定する場合を例に挙げて説明するがこれに限定されない。
図18は、配列決定部113によるアライメントを説明する図である。配列決定部113は、参照配列データベース122に格納された野生型参照配列および単一の参照配列を参照し、各核酸断片のリード配列を、参照配列に対してマッピングすることにより、アライメントを実行する。
また、配列決定部113は、被検体の病変部位から採取されたFFPE試料をシーケンサー2に供して得られたリード配列情報と、同被検体の血液試料をシーケンサー2に供して得られたリード配列情報との両方について、アライメントを実行する。
配列決定部113のアライメント結果を出力するファイルのフォーマットの一例を示す図である。アライメント結果のフォーマットは、リード配列、参照配列およびマッピング位置をそれぞれ特定し得るものであれば特に限定されないが、参照配列情報、リード配列名、ポジション情報、マップ品質および配列を含むものであってもよい。「参照配列情報」は、参照配列名、参照配列ID、参照配列の配列長等を示す情報である。「リード配列名」は、アライメント対象となった各リード配列の名称、リード配列ID等である。「ポジション情報」は、リード配列の最左塩基(5’末端の塩基)がマッピングされた参照配列上の位置を示す情報である。「マップ品質」は、リード配列に対応するマッピング品質に関する情報である。「配列」は各リード配列に対応する塩基配列を示す情報である。
参照配列情報は、例えば、参照配列データベース122における参照配列名、参照配列ID、参照配列の配列長等を示す情報である。リード配列名は、アライメント対象となった各リード配列の名称またはリード配列IDを示す情報である。ポジション情報は、リード配列の最左塩基がマッピングされた参照配列上の位置を示す情報である。マップ品質は、当該リード配列に対応するマッピング品質を示す情報である。配列は、各リード配列に対応する塩基配列(例: …GTAAGGCACGTCATA…)を示す情報である。
図19は、参照配列データベース122の構造例を示す図である。図19に示すように、参照配列データベース122には、野生型の配列を示す野生型参照配列(例えば、染色体#1~23のゲノム配列)と、野生型の配列に対して既知の変位配列が組み込まれた再編成配列と、2以上の再編成配列が一繋がりに連結された参照配列が記憶されている。
図19では、あるエクソンの配列に生じた変異配列a、変異配列b、変異配列cをそれぞれ含む再編成配列aa、再編成配列bb、および再編成配列ccなどを順に連結して成る単一の参照配列を示しているが、これに限定されない。例えば、連結の順番には限定されない。また、各再編成配列の連結部分に、前述のようなスペーサー配列を挿入する構成であってもよい。例えば、再編成配列aaの直後に再編成配列ccを連結してもよいし、再編成配列bbの直後に再編成配列ccを連結してもよい。
図20は、参照配列データベース122に含まれる再編成配列および参照配列に組み込まれる既知の変異の例を示す図である。既知の変異は、例えば、例えば、COSMIC、ClinVar等の外部の変異情報データベース3に登録された変異であり、図20に示すように、染色体位置、遺伝子名および変異が特定されているものである。図20の例では、アミノ酸の変異が特定されているが、核酸の変異が特定されていてもよい。変異の種類は、特に限定されず、置換、InDel、メチル化など様々な変異であり得、他の染色体の一部の配列または逆相補配列が結合している変異であってもよい。
図21は、図16のステップS22におけるアライメントの詳細な工程の一例を説明するフローチャートである。
図21のステップS11において、配列決定部113は、リード配列情報取得部111が取得したリード配列情報に含まれる各核酸断片のリード配列のうち、アライメントを行っていないものを選択して、参照配列データベース122から取得した参照配列(野生型参照配列および単一の参照配列)と比較する。図22Bは、リード配列と単一の参照配列とを比較することにより、リード配列のマッピングを行う処理の一例を示すフローチャートである。図22Bに示すように、配列決定部113は、リード配列を読み出し(ステップS111)、参照配列データベース122から野生型参照配列を読み出し、該リード配列と野生型参照配列とを比較する(ステップS112)。次に、配列決定部113は、参照配列データベース122から単一の参照配列を読み出し(ステップS113)、該リード配列と参照配列とを比較する(ステップS114)。なお、リード配列と野生型参照配列との比較、およびリード配列と参照配列との比較の順番は逆であってもよい。そして、ステップS12において、配列決定部113は、リード配列との一致率が所定の基準を満たす参照配列上の位置を特定する。ここで、一致率とは、取得したリード配列情報と参照配列とがどの程度一致しているかを示す値であり、例えば、一致する塩基の数や割合等が一例として挙げられる。
一態様において、配列決定部113は、リード配列と参照配列の一致率を示すスコアを算出する。一致率を示すスコアは、例えば2つの配列間の同一性のパーセンテージとすることができる。図22Aに示すように、配列決定部113は、例えば、リード配列の塩基と、野生型参照配列および単一の参照配列の塩基とが同一となる位置の数を特定し、一致した位置の数を求め、一致した位置の数を参照配列と比較されたリード配列の塩基数で除算することによってパーセンテージを算出する。このように算出されたパーセンテージが一致率を示すスコアである。
図23Aは、スコア算出の一例を示す図である。一態様において、図23Aに示す位置において、リード配列R1と参照配列との一致率のスコアは、リード配列13塩基中13塩基が一致しているため100%となり、リード配列R2と参照配列との一致率のスコアは、リード配列13塩基中12塩基が一致しているため92.3%となる。
また、配列決定部113は、リード配列と参照配列の一致率を示すスコアの計算において、リード配列が参照配列に対して所定の変異(例えば、InDel)を含む場合には、通常の計算よりも低いスコアが付くように計算してもよい。
一態様において、配列決定部113は、リード配列が参照配列に対して挿入および欠失の少なくとも一方を含む配列について、例えば、上述したような通常計算で算出されたスコアに、InDelに対応する塩基数に応じた重み係数を乗算することで、スコアを補正してもよい。重み係数Wは、例えば、W={1-(1/100)×(InDelに対応する塩基数)}で計算してもよい。
図23Bは、スコア算出の他の例を示す図である。一態様において、図23Bに示す位置において、リード配列R3と参照配列との一致率のスコアは、通常計算では、リード配列17塩基(欠失を示す*も一塩基として計算)中15塩基が一致しているため88%となり、補正後のスコアは88%×0.98=86%となる。また、リード配列R4と参照配列との一致率のスコアは、通常計算では、リード配列21塩基中17塩基が一致しているため81%となり、補正後のスコアは81%×0.96=77.8%となる。
参照配列上の図23Cに示す位置において、リード配列R3と参照配列との一致率のスコアは100%となり、リード配列R4と参照配列との一致率のスコアも100%となる。このように、参照配列を参照すれば、リード配列と参照配列との一致率のスコアは高くなる。それゆえ、リード配列を誤った位置にマッピングする可能性を低減し、アライメントの正確性を向上させることができる。
配列決定部113は、各参照配列に対するリード配列のマッピング位置を変えながら一致率のスコアを算出することにより、リード配列との一致率が所定の基準を満たす参照配列上の位置を特定する。その際、動的計画法、FASTA法、BLAST法等の当該分野において公知のアルゴリズムを使用してもよい。
図21に戻り、次に、配列決定部113は、リード配列との一致率が所定の基準を満たす参照配列上の位置が単一の位置であった場合には(ステップS13にてNO)、当該位置にリード配列をアライメントし、リード配列との一致率が所定の基準を満たす参照配列上の位置が複数の位置であった場合には(ステップS13にてYES)、配列決定部113は、最も一致率が高い位置に、リード配列をアライメントする(ステップS14)。
配列決定部113は、リード配列情報取得部111が取得したリード配列情報に含まれる全リード配列をアライメントしていない場合には(ステップS15にてNO)、ステップS21に戻り、リード配列情報に含まれる全リード配列をアライメントした場合には(ステップS15にてYES)、図16のフローチャートの処理にリターンする。
続いて、制御部11の変異同定部114は、被検体の病変部位から採取された試料を供して得られたリード配列がアライメントされたアライメント配列と、同被検体の血液試料を供して得られたリード配列がアライメントされたアライメント配列とを比較する(図16のステップS23)。そして、変異同定部114は、両アライメント配列間の相違を、変異として抽出する(図16のステップS24)。例えば、同じ解析対象の遺伝子の同じ位置に対する血液検体由来のアライメント配列がATCGAであり、腫瘍組織由来のアライメント配列がATCCAであれば、変異同定部114は、GとCとの相違を変異として抽出する。なお、被検体がFFPE試料ではなく血液試料である場合には、セルフリー(cell free)DNAが血液試料に含まれる可能性が有るため、ステップS23の処理は行わずに、ステップS24へ進む。
一態様において、変異同定部114は、抽出した変異に基づいて結果ファイルを生成する。図24は、変異同定部114が生成する結果ファイルのフォーマットの一例を示す図である。当該フォーマットは、例えば、Variant Call Format(VCF)に基づくものであり得る。図24に示すように、結果ファイルには、抽出された変異毎に、位置情報、参照塩基および変異塩基が記述されている。位置情報は、参照ゲノム上の位置を示し、例えば、染色体番号と、該染色体上の位置とを含む。参照塩基は、上記位置情報が示す位置における参照塩基(A,T,C,Gなど)を示す。変異塩基は、参照塩基の変異後の塩基を示す。参照塩基は、血液検体由来のアライメント配列上の塩基であり、変異塩基は、腫瘍組織由来のアライメント配列上の塩基である。
なお、図24において、参照塩基がC、変異塩基がGである変異は、置換変異の例であり、参照塩基がC、変異塩基がCTAGである変異は、挿入(Insertion)変異の例である。また、参照塩基がTCG、変異塩基がTである変異は、欠失(Deletion)変異の例である。そして、変異塩基がG]17:198982]、]13:123456]T、C[2:321682[、または、[17:198983[Aである変異は、他の染色体の一部の配列または逆相補配列が結合している変異の例である。
図16に戻り、続いて、変異同定部114は、変異データベース123を検索する(ステップS25)。そして、変異同定部114は、変異データベース123の変異情報を参照して、結果ファイルに含まれる変異にアノテーションを付与することで、変異を同定する(ステップS26)。
図25は、図2に記載される変異データベース123の構造の一例を示す図である。変異データベース123は、例えば、COSMICやClinVarなどの外部の変異情報データベース3を基に構築される。また、一態様において、データベース中の各変異情報には、遺伝子パネルに関する情報に関するメタデータが付与されている。図25に示す例では、データベース中の各変異情報には、解析対象の遺伝子の遺伝子IDがメタデータとして付与されている。
変異データベース123に含まれる変異情報には、変異ID、変異の位置情報(例えば、「CHROM」、および「POS」)、「REF」、「ALT」、「Annotation」が含まれていてもよい。変異IDは、変異を識別するための識別子である。変異の位置情報のうち、「CHROM」は染色体番号を示し、「POS」は染色体番号上の位置を示す。「REF」は、野生型(Wild type)における塩基を示し、「ALT」は、変異後の塩基を示す。「Annotation」は、変異に関する情報を示す。「Annotation」は、例えば、「EGFR C2573G」、「EGFR L858R」といったアミノ酸の変異を示す情報であってもよい。例えば、「EGFR C2573G」は、タンパク質「EGFR」の2573残基目のシステインがグリシンに置換した変異であることを示す。
上記の例のように、変異情報の「Annotation」は、塩基情報に基づく変異を、アミノ酸情報に基づく変異に変換するための情報であってもよい。この場合、変異同定部114は、参照した「Annotation」の情報に基づいて、塩基情報に基づく変異を、アミノ酸情報に基づく変異に変換可能である。
変異同定部114は、結果ファイルに含まれる変異を特定する情報(例えば、変異の位置情報と変異に対応する塩基情報)をキーとして、変異データベース123を検索する。例えば、変異同定部114は、「CHROM」、「POS」、「REF」および「ALT」の情報のいずれかをキーとして変異データベース123を検索してもよい。変異同定部114は、血液検体由来のアライメント配列と、病変部位由来のアライメント配列とを比較することで抽出した変異が変異データベース123に登録されていた場合に、当該変異を試料中に存在する変異として同定し、結果ファイルに含まれる当該変異にアノテーション(例えば、「EGFR L858R」、「BRAF V600E」など)を付与する。
図16に戻り、制御部11は、配列決定部113によって決定された核酸配列が、参照配列に含まれる再編成配列、および該再編成配列に対応する野生型参照配列のいずれに一致するかに関する情報を、出力部14を介して出力する(ステップS27)。具体的には、出力部14は、配列決定部113によってマッピングされたリード配列のアライメント結果、および各変異に付与されたアノテーションなどの変異同定部114によって同定された変異に関する情報を出力してもよい。出力部14は、解析結果をデータとして送信してもよい。解析結果のデータの送信先は、例えば、図1に示すような医療機関210であってもよいし、検査機関110であってもよい。また、出力部14は、配列解析装置1と接続されているプリンタであってもよく、この場合、該プリンタによって印刷された後に、紙媒体として、検査機関110にて利用されてもよいし、検査機関110から医療機関210へ提供されてもよい。
あるいは、出力部14は、制御部11の各部の処理に関する情報を表示するディスプレイであってもよい。例えば、リード配列情報取得部111が読み取ったリード配列情報を表示させて、各リード配列情報の5´末端部分および3´末端部分に含まれるアダプター配列およびインデックス配列(図10参照)を表示させてもよい。または、配列決定部113によるアライメント結果を、参照配列とリード配列情報とを含む画面表示として示してもよい。または、変異同定部114が同定した変異に関する情報を表示させてもよい。
以上のように、検査機関110において検査が実施され、解析結果に基づいて作成された解析報告書が、解析依頼を行った医療機関210に送付される。
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。
たとえば、図27Aに示すように、検査機関110には、配列解析装置1は設置せず、シーケンサー2、および情報端末5などを設置し、配列解析装置1は外部の解析機関120に設置されていてもよい。その場合、情報端末5は、(1)シーケンサー2によって読み取られた配列情報を取得する機能、(2)外部の機関、例えば、図27Aに示す解析機関120、に該情報を送信する機能、および(3)解析機関120から解析結果を受信する機能、などを有している。なお、医療機関210は、ネットワーク4を介して、検査機関110に対して解析依頼を送信したり、解析結果のデータおよび解析報告書を受信したりする構成であってもよい。
図27Aに示す検査機関110では、医療機関210からの解析依頼に応じて、試料に含まれる遺伝子の配列がシーケンサー2によって読み取られる。検査機関110は、読み取ったリード配列情報を解析機関120に送信し、解析を依頼する。そして、検査機関110は、解析機関120から解析結果を受け取り、該解析結果に基づいて解析報告書を作成する。このように作成された解析報告書は、検査機関110から解析依頼元の医療機関210に提供される。
図27Aに示す変異情報データベース3aは、解析機関120において管理されており、外部の変異情報データベース3からダウンロードした公開既知変異情報、および外部の変異情報データベース3とは異なる情報源から取得した既知変異情報等を記憶していてもよい。
なお、変異情報データベース3bが、図27Bに示すように検査機関110に備えられ、検査機関110によって管理されていてもよい。このように、変異情報データベース3bは、配列解析装置1と同じ機関内に設けられている点で、外部の変異情報データベース3とは異なっている。変異情報データベース3と配列解析装置1とは、インターネットなどのネットワーク4を介して接続され得る。一方、変異情報データベース3bと配列解析装置1とは、ローカルエリアネットワーク(LAN)およびイントラネットなどを介して接続され得る。
図2における参照配列管理部112は、公開既知変異情報を外部の変異情報データベース3から参照配列データベース122にダウンロードしているがこれに限定されない。例えば、図27Aに示す解析機関120のように、外部の変異情報データベース3からダウンロードした、多型、変異、およびメチル化などに関する情報を記憶する変異情報データベース3aを備える構成の場合、変異情報データベース3aに記憶される既知変異情報の更新は、定期的(例えば、1か月に1回、1週間に1回、および2日に1回など)に自動で行われるように構成されていてもよいし、変異情報データベース3aを管理する者によって適宜行われてもよい。なお、変異情報データベース3aには、既知変異情報と、既知変異情報が変異情報データベース3aに記憶された日時を示す情報とが関連付けて記憶されていてもよい。なお、関連して記憶する日時を示す情報は、変異情報データベースの更新日時であってもよい。
なお、図27Aに示す配列解析装置1が変異情報データベース3aから既知変異情報を取得する場合、参照配列管理部112は、変異情報データベース3aの既知変異情報が更新された場合に再編成配列を生成する構成であってもよい。なお、変異情報データベース3aには、公開既知変異情報だけではなく、公開されていない既知変異情報も記憶されていてもよい。それゆえ、再編成配列には、公開既知変異情報に基づいて生成されたもののみではなく、公開されていない既知変異情報に基づいて生成されたものが含まれていてもよい。
また、上記では、参照配列管理部112が既知変異情報に基づいて再編成配列を生成する場合を例に挙げて説明したがこれに限定されない。例えば、解析機関120に属する者などが、変異情報データベース3aから既知変異情報を取得して、再編成配列を生成してもよい。生成された再編成配列は変異情報データベース3aに格納されてもよく、この場合には、参照配列管理部112は、再編成配列を変異情報データベース3aから取得すればよい。すなわち、配列解析装置1に対して、配列解析装置1と異なる装置(例えば、変異情報データベース3a)が再編成配列を提供する構成であってもよい。
また、上記では、変異情報データベース3からダウンロードした各公開既知変異情報に対応する再編成配列が参照配列管理部112によって生成され、参照配列データベース122に保存されている場合を例に挙げて説明したがこれに限定されない。例えば、変異情報データベース3aに、各既知変異情報に対応する再編成配列、再編成配列ID、および再編成配列が含む変異の変異IDなどが関連付けられて記憶されていてもよい。このような場合、参照配列管理部112は、通信部16を介して、変異情報データベース3aから各既知変異情報に対応する再編成配列、再編成配列ID、および再編成配列が含む変異の変異IDなどを取得し、参照配列データベース122に格納する。
なお、医療機関210、検査機関110、解析機関120は一つであることに限定されない。すなわち、医療機関210は、複数の検査機関110に対して解析を依頼してもよく、検査機関110は、複数の医療機関210からの解析依頼を受け付けてもよい。また、検査機関110は、複数の解析機関120に対して解析を依頼してもよく、解析機関120は、複数の検査機関110からの解析依頼を受け付けてもよい。すなわち、医療機関210、検査機関110、および解析機関120のそれぞれが、複数であってもよい。また、例えば、臨床施設と検査施設とを兼備した研究所、および大学病院などの、医療機関210と検査機関110との双方の機能を有する機関、あるいは、検査機関110、解析機関120、および医療機関210が一体となっている機関においても、配列解析装置1を適用することができる。
例えば、配列解析装置1とは別体の装置が、参照配列管理部112、および参照配列生成部115の機能を備え、該装置が配列解析装置1に対して、再編成配列および参照配列を出力する参照配列生成装置として機能する構成であってもよい。この参照配列生成装置は、配列解析装置1とネットワーク4を介して接続されている管理サーバ3を含む外部サーバであってもよい。この場合、参照配列は、参照配列生成装置の機能を有する外部サーバから、配列解析装置1に提供されてもよい。例えば、配列解析装置1は、リード配列情報取得部111、配列決定部113、および変異同定部114を備える第1の装置、参照配列管理部112および参照配列生成部115を備える第2の装置、および記憶部12と同様の機能を有する第3の装置(またはデータベース)を含むシステムとして構成することも可能である。
1 配列解析装置
2 シーケンサー
3、3a、3b 変異情報データベース
14 出力部
15 表示部
111 リード配列情報取得部
113 配列決定部
112 参照配列管理部
115 参照配列生成部

Claims (36)

  1. 核酸配列を解析する方法であって、
    前記核酸配列から読み取られた複数のリード配列を取得する取得ステップと、
    それぞれのリード配列を、単一の参照配列を参照してアライメントすることにより前記核酸配列を決定する決定ステップと、を含み、
    前記参照配列は、少なくとも、第1の再編成配列、および前記第1の再編成配列とは異なる第2の再編成配列を含み、
    前記第1の再編成配列は、多型、変異、及びメチル化の少なくとも1つを表す第1部分配列を一部に含む配列であり、
    前記第2の再編成配列は、多型、変異、及びメチル化の少なくとも1つを表す第2部分配列を一部に含む配列であり、
    前記第2の再編成配列の前記第2部分配列以外の配列は、前記第1の再編成配列の前記第1部分配列以外の配列と同一の配列を含むことを特徴とする配列解析方法。
  2. 前記多型は、反復配列多型、マイクロサテライト、および一塩基多型のうちのいずれかであり、
    前記変異は、置換、欠失、および挿入のうちのいずれかであることを特徴とする請求項に記載の配列解析方法。
  3. 前記決定ステップにおいて、前記リード配列を前記参照配列と比較し、前記リード配列と前記参照配列との一致率が最も高い、前記参照配列上の領域に前記リード配列をマッピングすることを特徴とする請求項1または2に記載の配列解析方法。
  4. 前記第1の再編成配列と前記第2の再編成配列とを含む前記参照配列を生成する参照配列生成ステップをさらに含むことを特徴とする請求項1からのいずれか1項に記載の配列解析方法。
  5. 前記第1の再編成配列、および前記第2の再編成配列は、変異情報データベースから取得される既知変異情報に基づいて生成されることを特徴とする請求項1からのいずれか1項に記載の配列解析方法。
  6. 前記変異情報データベースには、前記既知変異情報と、前記既知変異情報が前記変異情報データベースに記憶された日時を示す情報とが関連付けられていることを特徴とする請求項に記載の配列解析方法。
  7. 前記参照配列生成ステップにおいて、前記第1の再編成配列および前記第2の再編成配列の生成に用いられた既知変異情報とは異なる既知変異情報が変異情報データベースに新たに記憶された場合、前記新たに記憶された既知変異情報に基づいて生成された第3の再編成配列に基づいて、前記第1の再編成配列、前記第2の再編成配列、および前記第3の再編成配列を含む前記参照配列を生成することを特徴とする請求項に記載の配列解析方法。
  8. 前記参照配列生成ステップにおいて、前記第1の再編成配列および前記第2の再編成配列の生成に用いられた既知変異情報とは異なる既知変異情報が変異情報データベースに新たに記憶された場合、前記新たに記憶された既知変異情報に基づいて生成された第3の再編成配列に基づいて、前記第1の再編成配列または前記第2の再編成配列に前記第3の再編成配列を連結して、参照配列を生成することを特徴とする請求項に記載の配列解析方法。
  9. 前記変異情報データベースに記憶された既知変異情報のそれぞれに個別の識別情報が付与されており、
    前記第1の再編成配列、前記第2の再編成配列、および前記第3の再編成配列は、それぞれ異なる識別情報が付与された既知変異情報に基づいて生成されることを特徴とする請求項またはに記載の配列解析方法。
  10. 前記第1の再編成配列および前記第2の再編成配列は、多型、変異、またはメチル化の少なくとも1つを有するエクソンの部分配列または全配列であることを特徴とする請求項1からのいずれか1項に記載の配列解析方法。
  11. 前記取得ステップにおいて、前記核酸配列のうち、複数のベイトを用いて選択された核酸配列を読み取ることによって前記複数のリード配列を取得することを特徴とする請求項1から10のいずれか1項に記載の配列解析方法。
  12. オリゴDNAが、前記核酸配列を読み取るために用いられる部材表面に固定されていることを特徴とする請求項11に記載の配列解析方法。
  13. 前記決定ステップにおいて、前記複数のリード配列の各々は、野生型参照配列および参照配列と比較されることを特徴とする請求項1から12のいずれか1項に記載の配列解析方法。
  14. 前記参照配列は、解析対象となる1または2以上の遺伝子について生成された再編成配列を含むことを特徴とする請求項1から13のいずれか1項に記載の配列解析方法。
  15. 前記リード配列の読み取りは、次世代シーケンサーを用いて実施されることを特徴とする請求項1から14のいずれか1項に記載の配列解析方法。
  16. 核酸配列を解析する配列解析装置であって、
    前記核酸配列から読み取られた複数のリード配列を取得するリード配列情報取得部と、
    それぞれのリード配列を、単一の参照配列を参照してアライメントすることにより前記核酸配列を決定する配列決定部と、を備え、
    前記参照配列は、少なくとも、第1の再編成配列、および前記第1の再編成配列とは異なる第2の再編成配列を含み、
    前記第1の再編成配列は、多型、変異、及びメチル化の少なくとも1つを表す第1部分配列を一部に含む配列であり、
    前記第2の再編成配列は、多型、変異、及びメチル化の少なくとも1つを表す第2部分配列を一部に含む配列であり、
    前記第2の再編成配列の前記第2部分配列以外の配列は、前記第1の再編成配列の前記第1部分配列以外の配列と同一の配列を含むことを特徴とする配列解析装置。
  17. 前記配列決定部は、前記リード配列を前記参照配列と比較し、前記リード配列と前記参照配列との一致率が最も高い、前記参照配列上の領域を決定することを特徴とする請求項16に記載の配列解析装置。
  18. 前記第1の再編成配列と前記第2の再編成配列とを含む前記参照配列を生成する参照配列生成部をさらに備えることを特徴とする請求項16または17に記載の配列解析装置。
  19. 前記第1の再編成配列および前記第2の再編成配列の生成に用いる既知変異情報を、変異情報データベースから取得する参照配列管理部をさらに備えることを特徴とする請求項18に記載の配列解析装置。
  20. 前記参照配列生成部は、前記第1の再編成配列、前記第2の再編成配列、および前記第1の再編成配列および前記第2の再編成配列の生成に用いられた既知変異情報とは異なる既知変異情報に基づいて生成した第3の再編成配列を含む前記参照配列を生成することを特徴とする請求項19に記載の配列解析装置。
  21. 前記参照配列生成部は、前記第1の再編成配列または前記第2の再編成配列に、前記第1の再編成配列および前記第2の再編成配列の生成に用いられた既知変異情報とは異なる既知変異情報に基づいて生成した第3の再編成配列を連結して、参照配列を生成することを特徴とする請求項19または20に記載の配列解析装置。
  22. 前記変異情報データベースに記憶された前記第1の再編成配列、前記第2の再編成配列、および前記第3の再編成配列のそれぞれに個別の識別情報が付与されており、
    前記参照配列管理部は、前記第1の再編成配列、前記第2の再編成配列、および前記第3の再編成配列は、それぞれ異なる識別情報が付与された既知変異情報に基づいて生成することを特徴とする請求項20または21に記載の配列解析装置。
  23. 前記配列決定部は、前記複数のリード配列の各々を、野生型参照配列および参照配列と比較することを特徴とする請求項16から22のいずれか1項に記載の配列解析装置。
  24. 前記配列決定部によって決定された前記核酸配列が前記参照配列、および前記野生型参照配列のいずれに一致するかに関する情報を出力する出力部をさらに備えることを特徴とする請求項23に記載の配列解析装置。
  25. シーケンサーによって読み取られたリード配列の核酸配列を決定するために用いられる参照配列の生成方法であって、
    第1の再編成配列および第2の再編成配列を取得する再編成配列取得ステップと、
    前記第1の再編成配列と前記第2の再編成配列とを一繋がりに連結した参照配列を生成する参照配列生成ステップとを含み、
    前記第1の再編成配列は、多型、変異、及びメチル化の少なくとも1つを表す第1部分配列を一部に含む配列であり、
    前記第2の再編成配列は、多型、変異、及びメチル化の少なくとも1つを表す第2部分配列を一部に含む配列であり、
    前記第2の再編成配列の前記第2部分配列以外の配列は、前記第1の再編成配列の前記第1部分配列以外の配列と同一の配列を含むことを特徴とする参照配列の生成方法。
  26. 前記多型は、反復配列多型、マイクロサテライト、および一塩基多型のうちのいずれかであり、
    前記変異は、置換、欠失、および挿入のうちのいずれかであることを特徴とする請求項25に記載の参照配列の生成方法。
  27. 前記第1の再編成配列、および前記第2の再編成配列は、変異情報データベースから取得された情報に基づいて生成されることを特徴とする請求項25または26に記載の参照配列の生成方法。
  28. 前記変異情報データベースには、既知変異情報と、前記既知変異情報が前記変異情報データベースに記憶された日時を示す情報とが関連付けられていることを特徴とする請求項27に記載の参照配列の生成方法。
  29. 前記参照配列生成ステップにおいて、前記第1の再編成配列および前記第2の再編成配列の生成に用いられた既知変異情報とは異なる既知変異情報が前記変異情報データベースに新たに記憶された場合、前記新たに記憶された既知変異情報に基づいて生成された第3の再編成配列に基づいて、前記第1の再編成配列、前記第2の再編成配列、および前記第3の再編成配列を含む前記参照配列を生成することを特徴とする請求項27または28に記載の参照配列の生成方法。
  30. 前記参照配列生成ステップにおいて、前記第1の再編成配列および前記第2の再編成配列の生成に用いられた既知変異情報とは異なる既知変異情報が前記変異情報データベースに新たに記憶された場合、前記新たに記憶された既知変異情報に基づいて生成された第3の再編成配列に基づいて、前記第1の再編成配列または前記第2の再編成配列に前記第3の再編成配列を連結して、参照配列を生成することを特徴とする請求項27から29のいずれか1項に記載の参照配列の生成方法。
  31. 記第1の再編成配列および前記第2の再編成配列は、前記多型、変異、メチル化を有するエクソンの部分配列または全配列であることを特徴とする請求項25から30のいずれか1項に記載の参照配列の生成方法。
  32. シーケンサーによって読み取られたリード配列の核酸配列を決定するために用いられる参照配列を生成する参照配列生成装置であって、
    第1の再編成配列および第2の再編成配列を取得する参照配列管理部と、
    前記第1の再編成配列と前記第2の再編成配列とを一繋がりに連結した参照配列を生成する参照配列生成部とを備え
    前記第1の再編成配列は、多型、変異、及びメチル化の少なくとも1つを表す第1部分配列を一部に含む配列であり、
    前記第2の再編成配列は、多型、変異、及びメチル化の少なくとも1つを表す第2部分配列を一部に含む配列であり、
    前記第2の再編成配列の前記第2部分配列以外の配列は、前記第1の再編成配列の前記第1部分配列以外の配列と同一の配列を含むことを特徴とする参照配列生成装置。
  33. ンピュータに、
    核酸配列から読み取られた複数のリード配列を取得する工程と、
    それぞれのリード配列を、第1の再編成配列および第2の再編成配列を少なくとも含む単一の参照配列を参照してアライメントすることにより核酸配列を決定する工程と、
    を実行させるためのプログラムであって、
    前記第1の再編成配列は、多型、変異、及びメチル化の少なくとも1つを表す第1部分配列を一部に含む配列であり、
    前記第2の再編成配列は、多型、変異、及びメチル化の少なくとも1つを表す第2部分配列を一部に含む配列であり、
    前記第2の再編成配列の前記第2部分配列以外の配列は、前記第1の再編成配列の前記第1部分配列以外の配列と同一の配列を含むことを特徴とする、遺伝子の配列情報を解析するプログラム
  34. 請求項33に記載のプログラムを記録したコンピュータ読取り可能な記録媒体。
  35. ンピュータに、
    第1の再編成配列および第2の再編成配列を取得する工程と、
    前記第1の再編成配列と前記第2の再編成配列とを一繋がりに連結した参照配列を生成する工程と
    を実行させるためのプログラムであって、
    前記第1の再編成配列は、多型、変異、及びメチル化の少なくとも1つを表す第1部分配列を一部に含む配列であり、
    前記第2の再編成配列は、多型、変異、及びメチル化の少なくとも1つを表す第2部分配列を一部に含む配列であり、
    前記第2の再編成配列の前記第2部分配列以外の配列は、前記第1の再編成配列の前記第1部分配列以外の配列と同一の配列を含むことを特徴とする、シーケンサーによって読み取られたリード配列の核酸配列を決定するために用いられる参照配列を生成するプログラム。
  36. 請求項35に記載のプログラムを記録したコンピュータ読取り可能な記録媒体。
JP2017216502A 2017-11-09 2017-11-09 配列解析方法、配列解析装置、参照配列の生成方法、参照配列生成装置、プログラム、および記録媒体 Active JP7054133B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2017216502A JP7054133B2 (ja) 2017-11-09 2017-11-09 配列解析方法、配列解析装置、参照配列の生成方法、参照配列生成装置、プログラム、および記録媒体
US16/185,987 US11901043B2 (en) 2017-11-09 2018-11-09 Sequence analysis method, sequence analysis apparatus, reference sequence generation method, reference sequence generation apparatus, program, and storage medium
EP18205386.8A EP3483286B1 (en) 2017-11-09 2018-11-09 Sequence analysis method, sequence analysis apparatus, and reference sequence generation apparatus
CN201811329017.6A CN109949860B (zh) 2017-11-09 2018-11-09 序列解析方法及装置、参照序列生成方法及装置及程序及记录介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017216502A JP7054133B2 (ja) 2017-11-09 2017-11-09 配列解析方法、配列解析装置、参照配列の生成方法、参照配列生成装置、プログラム、および記録媒体

Publications (2)

Publication Number Publication Date
JP2019083781A JP2019083781A (ja) 2019-06-06
JP7054133B2 true JP7054133B2 (ja) 2022-04-13

Family

ID=64401975

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017216502A Active JP7054133B2 (ja) 2017-11-09 2017-11-09 配列解析方法、配列解析装置、参照配列の生成方法、参照配列生成装置、プログラム、および記録媒体

Country Status (4)

Country Link
US (1) US11901043B2 (ja)
EP (1) EP3483286B1 (ja)
JP (1) JP7054133B2 (ja)
CN (1) CN109949860B (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110504007B (zh) * 2019-08-27 2023-03-14 上海美吉生物医药科技有限公司 一键化完成多场景菌种鉴定的工作方法及系统
JP6883077B2 (ja) 2019-09-30 2021-06-09 シスメックス株式会社 専門家会議をコンピュータを用いて支援する方法、支援装置、専門家会議を支援するためのコンピュータプログラム、支援システム。
JP6883076B2 (ja) 2019-09-30 2021-06-09 シスメックス株式会社 検査依頼をコンピュータにより管理する方法、管理装置、管理コンピュータプログラム、管理システム。
US20210292830A1 (en) * 2020-03-17 2021-09-23 Western Digital Technologies, Inc. Reference-guided genome sequencing
CN111599408B (zh) * 2020-04-15 2022-05-06 至本医疗科技(上海)有限公司 基因变异顺反位置关系检测方法、装置、设备和存储介质
JP2023526441A (ja) * 2020-05-19 2023-06-21 ラボラトリー コーポレイション オブ アメリカ ホールディングス 複合遺伝子バリアントの検出およびフェージングのための方法およびシステム
JP2023067270A (ja) * 2021-10-29 2023-05-16 シスメックス株式会社 制御方法、及び解析システム

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015180193A (ja) 2014-01-29 2015-10-15 アジレント・テクノロジーズ・インクAgilent Technologies, Inc. 次世代シーケンシングの標的濃縮用の高速ハイブリダイゼーション
JP2015536661A (ja) 2012-11-29 2015-12-24 エフ.ホフマン−ラ ロシュ アーゲーF. Hoffmann−La Roche Aktiengesellschaft 標的シーケンシングリードの正確かつ迅速なマッピング
US20160340722A1 (en) 2014-01-22 2016-11-24 Adam Platt Methods And Systems For Detecting Genetic Mutations
JP2017500004A (ja) 2013-10-18 2017-01-05 セブン ブリッジズ ジェノミクス インコーポレイテッド 遺伝子試料について遺伝子型解析するための方法およびシステム
JP2017033046A (ja) 2015-07-28 2017-02-09 株式会社理研ジェネシス 変異判定方法、変異判定プログラムおよび記録媒体
WO2017053683A1 (en) 2015-09-24 2017-03-30 Microgenics Corporation Formalin fixed paraffin embedded (ffpe) control reagents
JP2016536698A5 (ja) 2014-08-21 2017-08-31

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140024270A (ko) 2010-12-30 2014-02-28 파운데이션 메디신 인코포레이티드 종양 샘플의 다유전자 분석의 최적화
CN103797486A (zh) 2011-06-06 2014-05-14 皇家飞利浦有限公司 用于组装核酸序列数据的方法
CN102766688B (zh) * 2012-04-17 2014-04-02 盛司潼 一种检测基因序列的方法
DE202013012824U1 (de) 2012-09-04 2020-03-10 Guardant Health, Inc. Systeme zum Erfassen von seltenen Mutationen und einer Kopienzahlvariation
US11913065B2 (en) 2012-09-04 2024-02-27 Guardent Health, Inc. Systems and methods to detect rare mutations and copy number variation
US10876152B2 (en) 2012-09-04 2020-12-29 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
US20160040229A1 (en) 2013-08-16 2016-02-11 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
US20140066317A1 (en) 2012-09-04 2014-03-06 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
WO2014041380A1 (en) 2012-09-11 2014-03-20 Kps Zrt. Method and computer program product for detecting mutation in a nucleotide sequence
KR101600660B1 (ko) * 2013-05-09 2016-03-07 삼성에스디에스 주식회사 리드의 퀄리티를 고려한 염기 서열 처리 시스템 및 방법
US9116866B2 (en) 2013-08-21 2015-08-25 Seven Bridges Genomics Inc. Methods and systems for detecting sequence variants
US9898575B2 (en) 2013-08-21 2018-02-20 Seven Bridges Genomics Inc. Methods and systems for aligning sequences
CN105793859B (zh) * 2013-09-30 2020-02-28 七桥基因公司 用于检测序列变异体的系统
ES2822125T3 (es) 2013-12-28 2021-04-29 Guardant Health Inc Métodos y sistemas para detectar variantes genéticas
US20220389489A1 (en) 2015-09-15 2022-12-08 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015536661A (ja) 2012-11-29 2015-12-24 エフ.ホフマン−ラ ロシュ アーゲーF. Hoffmann−La Roche Aktiengesellschaft 標的シーケンシングリードの正確かつ迅速なマッピング
JP2017500004A (ja) 2013-10-18 2017-01-05 セブン ブリッジズ ジェノミクス インコーポレイテッド 遺伝子試料について遺伝子型解析するための方法およびシステム
US20160340722A1 (en) 2014-01-22 2016-11-24 Adam Platt Methods And Systems For Detecting Genetic Mutations
JP2015180193A (ja) 2014-01-29 2015-10-15 アジレント・テクノロジーズ・インクAgilent Technologies, Inc. 次世代シーケンシングの標的濃縮用の高速ハイブリダイゼーション
JP2016536698A5 (ja) 2014-08-21 2017-08-31
JP2017033046A (ja) 2015-07-28 2017-02-09 株式会社理研ジェネシス 変異判定方法、変異判定プログラムおよび記録媒体
WO2017053683A1 (en) 2015-09-24 2017-03-30 Microgenics Corporation Formalin fixed paraffin embedded (ffpe) control reagents

Also Published As

Publication number Publication date
EP3483286A1 (en) 2019-05-15
EP3483286B1 (en) 2022-03-30
US11901043B2 (en) 2024-02-13
JP2019083781A (ja) 2019-06-06
CN109949860A (zh) 2019-06-28
CN109949860B (zh) 2023-08-18
US20190156914A1 (en) 2019-05-23

Similar Documents

Publication Publication Date Title
JP7054133B2 (ja) 配列解析方法、配列解析装置、参照配列の生成方法、参照配列生成装置、プログラム、および記録媒体
JP7051900B2 (ja) 不均一分子長を有するユニーク分子インデックスセットの生成およびエラー補正のための方法およびシステム
JP6946292B2 (ja) ゲノム分析のためのシステムおよび方法
JP7067896B2 (ja) 品質評価方法、品質評価装置、プログラム、および記録媒体
US8700341B2 (en) Partition defined detection methods
US20210343367A1 (en) Methods for detecting mutation load from a tumor sample
JP2020529648A (ja) 既知又は未知の遺伝子型の複数のコントリビューターからのdna混合物の分解及び定量化のための方法並びにシステム
US20200350035A1 (en) Gene analysis method, gene analysis apparatus, management server, gene analysis system, program, and storage medium
EP3627513A1 (en) Analysis method, information processing apparatus, gene analysis system, and non-transitory storage medium
JP2019083011A5 (ja)
JP2023139180A (ja) 遺伝子解析方法および遺伝子解析装置
US20170076047A1 (en) Systems and methods for genetic testing
WO2018026576A1 (en) Genomic analysis of cord blood
EP3617327A1 (en) Analysis method, information processing apparatus, gene analysis system, and non-transitory storage medium
EP3588508A1 (en) Analysis method, information processing apparatus, and non-transitory computer readable medium
WO2024059487A1 (en) Methods for detecting allele dosages in polyploid organisms
WO2024073544A1 (en) System and method for genotyping structural variants
Clarke Bioinformatics challenges of high-throughput SNP discovery and utilization in non-model organisms
Hambuch et al. Whole Genome Sequencing in the Clinical Laboratory

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200915

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210630

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210713

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20210908

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211111

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220222

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220323

R150 Certificate of patent or registration of utility model

Ref document number: 7054133

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150