JP6891150B2 - 解析方法、情報処理装置、遺伝子解析システム、プログラム、記録媒体 - Google Patents

解析方法、情報処理装置、遺伝子解析システム、プログラム、記録媒体 Download PDF

Info

Publication number
JP6891150B2
JP6891150B2 JP2018163953A JP2018163953A JP6891150B2 JP 6891150 B2 JP6891150 B2 JP 6891150B2 JP 2018163953 A JP2018163953 A JP 2018163953A JP 2018163953 A JP2018163953 A JP 2018163953A JP 6891150 B2 JP6891150 B2 JP 6891150B2
Authority
JP
Japan
Prior art keywords
nucleic acid
sequence
sequence information
information
subject
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018163953A
Other languages
English (en)
Other versions
JP2020036536A (ja
Inventor
尊規 鷲尾
尊規 鷲尾
玲子 渡辺
玲子 渡辺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sysmex Corp
Riken Genesis Co Ltd
Original Assignee
Sysmex Corp
Riken Genesis Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sysmex Corp, Riken Genesis Co Ltd filed Critical Sysmex Corp
Priority to JP2018163953A priority Critical patent/JP6891150B2/ja
Priority to EP19193572.5A priority patent/EP3627513A1/en
Priority to US16/552,653 priority patent/US20200082911A1/en
Priority to CN201910807439.8A priority patent/CN110875083A/zh
Publication of JP2020036536A publication Critical patent/JP2020036536A/ja
Application granted granted Critical
Publication of JP6891150B2 publication Critical patent/JP6891150B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Analytical Chemistry (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Organic Chemistry (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Wood Science & Technology (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Zoology (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Biochemistry (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Description

本発明は、遺伝子の塩基配列を解析する解析方法および情報処理装置等に関する。
従来、遺伝子の塩基配列を解析する技術は、基礎研究、臨床研究、および医療などの分野で重要な解析手法として利用されてきた。近年では、被検者(例えば患者など)の遺伝子における異常を、NGSを用いて網羅的に調べることが可能な遺伝子パネルを用いたパネル検査が登場している。パネル検査は、個別化医療において重要な役割を担う技術として期待されている。ここで、個別化医療とは、患者の遺伝的背景、生理的状態、および疾患の状態などの特性を考慮して、患者毎に適切な治療方針を選択する医療である。
遺伝子の塩基配列を解析する技術の中でも、次世代シーケンシング(next generation sequencing:NGS)は、遺伝子の塩基配列における異常を網羅的に検出するために不可欠な技術となっている。例えば、非特許文献1には、NGSを用いて複数の被検者の試料由来の遺伝子の塩基配列を同時に解析する手法が記載されている。
NGSを用いて複数の被検者の遺伝子の塩基配列を同時に解析する場合、例えば、図60に示す工程I〜Vによって実施される。図60は、複数の被検者の遺伝子の塩基配列を同時に解析するために行われる工程の一例を示す図である。
工程Iでは、試料AおよびBは断片化され、試料AのライブラリAおよび試料BのライブラリBが調製される。ここで、「試料A」は、例えば、被検者Aから採取された組織由来の遺伝子であり、「試料B」は、被検者Bから採取された組織由来の遺伝子であってもよい。この工程において、試料Aおよび試料Bの断片にはアダプター配列が付加される。また、この工程において、試料Aの断片(例えば、DNA断片)にはインデックス配列1(図中の「AAAAAAAA」)が付加され、試料Bの断片(例えば、DNA断片)にはインデックス配列2(図中の「BBBBBBBB」)が付加される。なお、「アダプター配列」とは、シーケンシングを実行するシーケンサー用のフローセルにおいてシーケンシング反応を行わせるために、断片を捕捉するために欠く断片に付加されたオリゴヌクレオチドである。また、「インデックス配列」とは、後の工程IVにおいて試料Aの断片由来の配列情報と試料B由来の配列情報とを識別するために、各断片に付加された数塩基〜数十塩基の長さを有するオリゴヌクレオチドである。
続いて、工程IIでは、ライブラリAとライブラリBは混合され、フローセルに注入される。工程IIIでは、フローセル上でのシーケンシング反応が行われ、配列情報が取得される。取得される配列情報には、試料Aの断片の塩基配列データと、試料Bの断片の塩基配列データとが含まれている。
次に、工程IVでは、配列情報に含まれているインデックス配列に基づいて仕分けられ、試料毎に作成されたファイルに格納される。そして、工程Vでは、各ファイルから配列情報が読み出され、試料AおよびBそれぞれについてのアライメントが行われる。
NGSを用いて複数の被検者の遺伝子の塩基配列を同時に解析する場合、使用するシーケンサーおよび使用する遺伝子パネルについて推奨されるプロトコルに基づいて各工程が決定される。また、遺伝子の塩基配列の解析に用いる既存の解析プログラムも、推奨されるプロトコルに基づいて決定された各種基準値が設定されている。
例えば、使用するシーケンサーに適合するフローセルの仕様、および遺伝子パネルに含まれるプライマーおよびプローブなどの量に応じて、好適なプロトコルが推奨されている。それゆえ、図60に示す工程IおよびIIでは、1回のシーケンシングランに供される核酸の総量が最適な量となるように、予め定められた核酸の量を含むライブラリが調製され、フローセルに注入される。
例えば、図61に示すように、フローセルの流路の表面には塩基配列を読み取る対象となるDNA断片を捕捉するための補足分子として機能する一定数(例えば、数万分子)のオリゴDNAが固定化されている。フローセルに注入された核酸のうち、フローセル上のオリゴDNAによって捕捉された核酸に対してシーケンシング反応が行われ、配列情報が取得される。それゆえ、フローセルに注入される核酸の量が多くなれば、フローセル上のオリゴDNAによって捕捉される核酸の数が増え、フローセルに注入される核酸の量が少なくなれば、フローセル上のオリゴDNAによって捕捉される核酸の数が減る。すなわち、フローセル上に捕捉される核酸の数が変動すれば、フローセル上でのシーケンシング反応においてプライマーおよびプローブと接するDNA断片のフローセル上における密度が変動してしまう。シーケンシング反応に供されるプライマーおよびプローブの量が一定であるため、DNA断片のフローセル上における密度が変動すれば、シーケンシング反応の結果にばらつきが生じ、一定の品質の測定結果を得ることができない。シーケンシング反応の結果におけるばらつきの発生を防ぐためには、フローセルに注入する核酸の量が予め定められた核酸の量になるように混合した試料をフローセルに注入する必要がある。
"An introduction to Next-Generation Sequencing Technology"、[online]、イルミナ株式会社、[平成30年8月30日検索]、インターネット<https://www.illumina.com/content/dam/illumina-marketing/documents/products/illumina_sequencing_introduction.pdf>
しかしながら、被検者由来の試料数が少ない場合など、フローセルに注入すべき理想的な試料数を揃えることができない場合も想定される。一度解析を終えた試料のうちの一部のみについて再解析を行う必要が生じる場合もあり得る。1回のシーケンシングランに供される試料数が変動すると、1試料あたりに取得される配列情報のデータ量が変動することになる。なぜならば、フローセルに注入されるライブラリに含まれる核酸の総量は一定になるように調製される必要があり、その結果、フローセルに注入される核酸分子の総量における1試料あたりの核酸の量が変動してしまうからである。
例えば、理想的な試料数(例えば48試料)の1/3の試料数(例えば16試料)でシーケンシングする場合、1試料あたりの核酸の量は、理想的な試料数にてシーケンシングした場合の3倍となる。その結果、1試料あたりに取得される配列情報のデータ量は、理想的な試料数にてシーケンシングした場合の3倍となることが見込まれる。
遺伝子の塩基配列の解析結果の品質を一定に保つためには、1試料あたりに取得される配列情報のデータ量が、シーケンシングランごとに変動しないことが望ましい。しかし、シーケンシングランに供される試料数の変動によって、1試料あたりに取得される配列情報のデータ量が変動してしまうとその結果に合わせて、遺伝子の塩基配列の解析に用いる既存の解析プログラムの改訂などが必要となる。
NGSを医療分野において利用し、被検者の疾患の診断や治療に役立てるためには、常に一定の品質の解析結果を出力することが重要である。そのためには、1回のシーケンシングランに供される検体数が変動する場合であっても、1試料あたりに取得される配列情報のデータ量を一定に保ち、既存の解析プログラムをそのまま使用することが望ましい。
本発明は、遺伝子検査において、測定試料を調製するための被検者由来の核酸を含む試料数が変動する場合であっても、被検者由来の核酸の配列情報に対して一定の品質の解析を効率的に行う解析方法などを実現することを目的とする。
上記の課題を解決するために、本発明の一態様に係る解析方法は、被検者由来の核酸を含む試料と、被検者由来ではない核酸を含む試料とを被検者由来の核酸を含む試料の数に応じて混合して、予め定められた核酸の量となるように調製された測定試料に含まれる核酸の配列情報を、シーケンサー(2)により取得する工程(S1)と、取得された配列情報に対して解析を行う工程(S3)と、を含み、解析を行う工程において、取得された配列情報のうち、被検者由来の核酸の配列情報に対して解析を行い(S52)、取得された配列情報のうち、被検者由来ではない核酸の配列情報に対し、被検者由来の核酸の配列情報に対して行う解析の少なくとも一部を行わない(S53)。
ここで、「被検者」とは、例えば、パネル検査などの遺伝子検査を受ける患者などを意図している。また、「測定試料」とは、シーケンシングに供するために調製される試料を意図している。また、「予め定められた核酸の量」とは、使用するシーケンサー2および使用する試薬について推奨されるプロトコルに基づいて決定された核酸の量を意図している。すなわち、「予め定められた核酸の量」は、1回のシーケンシングランに供する試料数として推奨される数の試料数が満たされている場合の核酸の量である。なお、「試料数」とは、配列情報が個別に取得される試料の数を意図している。例えば、1被検者について、組織から抽出された核酸を含む試料が1つ、および血液から抽出された核酸を含む試料が1つ調製された場合、1被検者あたりの試料数は2つとなる。
上記の構成によれば、測定試料は、被検者由来の核酸を含む試料と、被検者由来ではない核酸を含む試料とを混合して、予め定められた核酸の量となるように調製される。そして、取得された配列情報のうち、前記被検者由来の核酸の配列情報に対して解析を行い、被検者由来ではない核酸の配列情報に対し、被検者由来の核酸の配列情報に対して行う解析の少なくとも一部を行わない。
上記の解析方法を採用することにより、遺伝子検査において、測定試料を調製するための被検者由来の核酸を含む試料数が変動する場合であっても、被検者由来の核酸の配列情報に対して一定の品質の解析を効率的に行うことができる。
被検者由来の核酸の配列情報は、インデックス配列を含み、測定試料の核酸の配列情報のうち、インデックス配列を含む配列情報に対して解析を行う構成であってもよい。
被検者由来の核酸の配列情報は、複数の被検者由来の核酸の配列情報を含み、異なる被検者由来の核酸の配列情報には、異なるインデックス配列が含まれる構成であってもよい。
被検者由来ではない核酸の配列情報は、インデックス配列を含まない構成であってもよい。
測定試料の核酸の配列情報のうち、インデックス配列を含む配列情報に対して解析を行い(S52)、インデックス配列を含まない配列情報に対し、インデックス配列を含む配列情報に対して行う解析の少なくとも一部を行わない(S53)構成であってもよい。
測定試料の核酸の配列情報は、第1のインデックス配列を含む配列情報と、第1のインデックス配列とは異なる第2のインデックス配列を含む配列情報とを含み、第1のインデックス配列を含む配列情報に対して解析を行い、第2のインデックス配列を含む配列情報に対し、第1のインデックス配列を含む配列情報に対して行う解析の少なくとも一部を行わない構成であってもよい。
上記において、解析は、被検者由来の核酸の配列情報に基づいて前記被検者の遺伝子に関する情報を取得することを含んでいてもよい。また、上記において、被検者の遺伝子に関する情報は、配列情報に対応する遺伝子名、および遺伝子の変異情報を含んでいてもよい。
測定試料を調製する工程(S304b)において、配列情報の品質を評価するための品質管理試料をさらに加えた測定試料が調製され、測定試料の核酸の配列情報のうち、品質管理試料の配列情報から、前記測定試料の品質に関する情報を取得するための処理を行う工程(S110)をさらに含む構成であってもよい。
品質管理試料の核酸は、前記被検者由来ではない核酸と同一であり、測定試料の核酸の配列情報のうち、被検者由来ではない核酸の配列情報の少なくとも一部に対して品質に関する情報を取得するための処理を行う工程をさらに含む構成であってもよい。
測定試料を調製する工程(S304b)において用いられる被検者由来の核酸を含む試料の数によらず、測定試料における1試料由来の核酸の量はほぼ等しくてもよい。
配列情報を取得する工程(S1)において取得された測定試料の核酸の配列情報における1試料あたりの配列情報のデータ量はほぼ等しくてもよい。
これにより、被検者由来の核酸の配列情報の解析において、品質を一定に保つことができる。
配列情報を取得する工程(S1)において取得された測定試料の核酸の配列情報における1試料あたりの配列情報のデータ量は、測定試料の調製に用いた被検者由来の核酸を含む試料の数によらず、測定試料の核酸の配列情報のデータ量において所定の割合を占めていてもよい。
ここで、所定の割合とは、例えば、測定試料を調製するために推奨されている、被検者由来の核酸を含む試料数に応じて決定される値である。
測定試料の調製に用いた被検者由来の核酸を含む試料の数が変化した場合の、測定試料の核酸の配列情報における1試料あたりの配列情報のデータ量のばらつきは±10%の範囲内であってもよい。
上記の構成によれば、遺伝子の塩基配列の解析結果の品質を、パネル検査などの遺伝子検査の検査結果として許容可能な範囲内におさめることができる。
配列情報を取得する工程(S1)において取得された配列情報のうち、被検者由来ではない核酸の配列情報のデータ量は、配列情報を取得する工程(S1)において取得された測定試料の核酸の配列情報における1試料あたりの配列情報のデータ量以上であってもよい。
被検者由来ではない核酸の配列情報のデータ量が増しても、被検者由来の核酸の配列情報の品質には影響しない。
核酸の量は、核酸のモル数であってもよい。核酸のモル数は、260nmにおける吸光度などの測定値、平均分子量、および核酸のモル比吸光係数などに基づいて算出することができる。
測定試料に含まれる核酸の配列情報を取得する工程(S1)において、核酸を捕捉するための捕捉分子によって捕捉された測定試料の核酸の配列情報を取得し、捕捉分子は、測定試料に含まれる核酸の少なくとも一部と相補的な塩基配列を含んでいてもよい。
配列情報は、シーケンサーで読み取られた前記核酸の塩基配列であってもよい。
上記の課題を解決するために、本発明の別の態様に係る情報処理装置(1)は、制御部(11)と記憶部(12)を備える情報処理装置(1)であって、制御部(11)は、被検者由来の核酸を含む試料と、被検者由来ではない核酸を含む試料とを前記被検者由来の核酸を含む試料の数に応じて混合して、予め定められた核酸の量となるように調製された測定試料の核酸の配列情報を、シーケンサー(2)から取得して記憶部(12)に記憶し、取得された配列情報に対して解析を行うものであり、制御部は、取得された配列情報のうち、被検者由来の核酸の配列情報に対して解析を行い、取得された配列情報のうち、被検者由来ではない核酸の配列情報に対し、被検者由来の核酸の配列情報に対して行う解析の少なくとも一部を行わない。
上記の構成によれば、情報処理装置(1)は、配列情報を取得して、被検者由来の核酸の配列情報に対して解析し、被検者由来ではない核酸の配列情報に対し、被検者由来の核酸の配列情報に対して行う解析の少なくとも一部を行わない。これにより、例えば、遺伝子検査において、測定試料を調製するための被検者由来の核酸を含む試料数が変動する場合であっても、一定の品質の解析を効率的に行うことができる。
取得された配列情報に対して行われる解析は、取得した配列情報を参照配列に対してマッピングするアライメント処理(S12)を含み、被検者由来ではない核酸の配列情報に対し、アライメント処理を行わない構成であってもよい。
例えば、被検者由来ではない核酸を含む試料として、バクテリオファージ由来の核酸である「PhiX DNA」(イルミナ社)を用いた場合、アライメント処理を行う必要は無い。上記の構成によれば、不必要な処理を適切に省略することができる。
取得された配列情報に対して行われる解析は、核酸の変異を抽出する変異抽出処理(S14)を含み、被検者由来ではない核酸の配列情報に対し、変異抽出処理を行わない構成であってもよい。
例えば、被検者由来ではない核酸を含む試料として、配列情報の品質を評価するための品質管理試料を用いた場合、変異抽出処理を行う必要は無い。上記の構成によれば、不必要な処理を適切に省略することができる。
上記の課題を解決するために、本発明の他の態様に係る遺伝子解析システム(100)は、被検者由来の核酸を含む試料と、被検者由来ではない核酸を含む試料とを前記被検者由来の核酸を含む試料の数に応じて混合して、予め定められた核酸の量となるように調製された測定試料の核酸の配列情報を取得するシーケンサー(2)と、前記シーケンサー(2)により取得された前記配列情報に対して解析を行う情報処理装置(1)と、を備え、情報処理装置は、取得された前記配列情報のうち、前記被検者由来の核酸の配列情報に対して解析を行い、取得された配列情報のうち、被検者由来ではない核酸の配列情報に対し、被検者由来の核酸の配列情報に対して行う解析の少なくとも一部を行わない。
上記の構成によれば、シーケンサー(2)は、被検者由来の核酸を含む試料と、被検者由来ではない核酸を含む試料とを混合して、予め定められた核酸の量となるように調製された測定試料についてシーケンシングを行う。そして、情報処理装置(1)は、配列情報を取得して被検者由来の核酸の配列情報に対して解析した解析を行い、取得された配列情報のうち、被検者由来ではない核酸の配列情報に対し、被検者由来の核酸の配列情報に対して行う解析の少なくとも一部を行わない。
これにより、例えば、遺伝子検査において、測定試料を調製するための被検者由来の核酸を含む試料数が変動する場合であっても、一定の品質の解析を効率的に行うことができる。
上記の課題を解決するために、本発明の他の態様に係るプログラムは、被検者由来の核酸を含む試料と、被検者由来ではない核酸を含む試料とを前記被検者由来の核酸を含む試料の数に応じて混合して、予め定められた核酸の量となるように調製された測定試料の核酸の配列情報を、シーケンサー(2)により取得する工程(S1)と、取得された配列情報に対して解析を行う工程(S52)と、をコンピュータに実行させ、解析を行う工程において、取得された配列情報のうち、被検者由来の核酸の配列情報に対して解析を行い(S52)、取得された配列情報のうち、被検者由来ではない核酸の配列情報に対し、被検者由来の核酸の配列情報に対して行う解析の少なくとも一部を行わない(S53)。
この構成によれば、例えば、遺伝子検査において、測定試料を調製するための被検者由来の核酸を含む試料数が変動する場合であっても、一定の品質の解析を効率的に行うことができる。
また、上記プログラムを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。
本発明は、以下のように記載することも可能である。
本発明の一態様に係る解析方法は、被検者由来の核酸を含む試料と、被検者由来ではない核酸を含む試料とを混合して、予め定められた核酸の量となるように調製された測定試料に含まれる核酸の配列情報を取得する工程(S1)と、測定試料の調製に用いた被検者由来の核酸を含む試料の数によらず、被検者由来の核酸を含む1試料あたりの配列情報のデータ量が所定の量である配列情報を出力する工程(S2)と、を含む。
ここで、「被検者」とは、例えば、パネル検査などの遺伝子検査を受ける患者などを意図している。また、「測定試料」とは、シーケンシングに供するために調製される試料を意図している。また、「予め定められた核酸の量」とは、使用するシーケンサー2および使用する試薬について推奨されるプロトコルに基づいて決定された核酸の量を意図している。すなわち、「予め定められた核酸の量」は、1回のシーケンシングランに供する試料数として推奨される数の試料数が満たされている場合の核酸の量である。また、「所定の量」とは推奨される数の試料を用いて、測定試料が調製されているときに取得される、1試料あたりの配列情報のデータ量を意図している。
上記の構成によれば、測定試料は、被検者由来の核酸を含む試料と、被検者由来ではない核酸を含む試料とを混合して、予め定められた核酸の量となるように調製される。そして、測定試料中の核酸の配列情報を取得し、1試料あたりの配列情報のデータ量が所定の量である配列情報を出力する。
配列情報を解析した結果の信頼性を一定に保つためには、配列情報の品質が適切に評価される必要がある。上記の解析方法を採用することにより、遺伝子検査において、測定試料を調製するための被検者由来の核酸を含む試料数が変動する場合であっても、1試料あたりの配列情報のデータ量の変動を所定の範囲内におさめ、一定の品質の解析結果を出力することができる。よって、1回のシーケンシングランに供される測定試料を調製するための被検者由来の核酸を含む試料数が推奨される試料数より少ない場合であっても、1試料あたりの配列情報のデータ量の変動を所定の範囲内におさめることができる。
測定試料を調製する工程(S304b)において、測定試料における被検者由来の核酸を含む1試料由来の核酸の量はほぼ等しくてもよい。
配列情報を出力する工程(S2)において、測定試料の調製に用いた被検者由来の核酸を含む試料の数によらず、1試料あたりの配列情報のデータ量が、取得された測定試料の核酸の配列情報のデータ量において所定の割合を占めていてもよい。
測定試料の調製に用いた被検者由来の核酸を含む試料の数が変化した場合の、1試料あたりの配列情報のデータ量のばらつきは±10%の範囲内であってもよい。
上記の構成によれば、遺伝子の塩基配列の解析結果の品質を、パネル検査などの遺伝子検査の検査結果として許容可能な範囲内におさめることができる。
配列情報を取得する工程(S1)において取得された配列情報のうち、被検者由来ではない核酸の配列情報のデータ量は、1試料あたりの配列情報のデータ量以上であってもよい。
被検者由来ではない核酸の配列情報のデータ量が増しても、被検者由来の核酸の配列情報の品質には影響しない。
上記において、所定の割合は、測定試料を調製する工程(S304b)において用いられた被検者由来の核酸を含む試料の数に依らない。
第一の測定試料は、第一の被検者群由来の核酸を含む試料と、被検者由来ではない核酸を含む試料とを混合して調製され、第二の測定試料は、第二の被検者群由来の核酸を含む試料と、被検者由来ではない核酸を含む試料とを混合して調製されており、第一の被検者群の被検者数と第二の被検者群の被検者数とが異なっていてもよい。
測定試料の調製に供される被検者群由来の核酸を含む試料の数が測定試料毎に変動しても、1試料あたりの配列情報のデータ量の変動は所定の範囲内におさまるため、被検者由来の核酸の配列情報の品質には影響しない。
測定試料中の被検者由来ではない核酸の量を、測定試料を調製する工程(S304b)において用いられた、被検者由来の核酸を含む試料の数に応じて変えてもよい。
核酸の量は、核酸のモル数であってもよい。核酸のモル数は、260nmにおける吸光度などの測定値、平均分子量、および核酸のモル比吸光係数などに基づいて算出することができる。
測定試料を調製する工程(S304b)において、各測定試料に含まれる核酸の量は予め定められた核酸の量となってもよい。
測定試料に含まれる1試料あたりの核酸の量のばらつきは±10%の範囲内であってもよい。
上記の構成によれば、遺伝子の塩基配列の解析結果の品質を、パネル検査などの遺伝子検査の検査結果として許容可能な範囲内におさめることができる。
測定試料中に含まれる被検者由来でない核酸の量は、少なくとも測定試料中に含まれる1試料あたりの核酸の量以上であってもよい。
これにより、測定試料の調製において被検者由来の核酸を含む試料数が不足しても、その分を被検者由来でない核酸によって補填することができる。
上記の課題を解決するために、本発明の別の態様に係る情報処理装置(1)は、制御部(11)および記憶部(12)を備える情報処理装置(1)であって、制御部(11)は、被検者由来の核酸を含む試料と、被検者由来ではない核酸を含む試料とを混合して、予め定められた核酸の量となるように調製された測定試料の核酸の配列情報を取得して記憶部(12)に記憶し、測定試料の調製に用いた被検者由来の核酸を含む試料の数によらず、被検者由来の核酸を含む1試料あたりの配列情報のデータ量が所定の量である配列情報を出力する。
上記の構成によれば、情報処理装置(1)は、測定試料の調製に用いた被検者由来の核酸を含む試料の数によらず、1試料あたりの配列情報のデータ量が所定の量である配列情報を解析する。
これにより、例えば、遺伝子検査において、測定試料を調製するための被検者由来の核酸を含む試料数が変動する場合であっても、1試料あたりの配列情報のデータ量の変動を所定の範囲内におさめ、一定の品質の解析結果を出力することができる。
上記の課題を解決するために、本発明の他の態様に係る遺伝子解析システム(100)は、被検者由来の核酸を含む試料と、被検者由来ではない核酸を含む試料とを混合して、予め定められた核酸の量となるように調製された測定試料の核酸の配列情報を読み取るシーケンサー(2)と、配列情報を取得して解析した解析結果を出力する情報処理装置(1)と、を備え、測定試料の調製に用いた被検者由来の核酸を含む試料の数によらず、配列情報における1試料あたりの配列情報のデータ量が所定の量である。
上記の構成によれば、シーケンサー(2)は、被検者由来の核酸を含む試料と、被検者由来ではない核酸を含む試料と、を混合して、予め定められた核酸の量となるように調製された測定試料についてシーケンシングを行う。そして、情報処理装置(1)は、測定試料の調製に用いた被検者由来の核酸を含む試料の数によらず、1試料あたりの配列情報のデータ量が所定の量である配列情報を解析する。
これにより、例えば、遺伝子検査において、測定試料を調製するための被検者由来の核酸を含む試料数が変動する場合であっても、1試料あたりの配列情報のデータ量の変動を所定の範囲内におさめ、一定の品質の解析結果を出力することができる。
上記の課題を解決するために、本発明の他の態様に係るプログラムは、被検者由来の核酸を含む試料と、被検者由来ではない核酸を含む試料とを混合して、予め定められた核酸の量となるように調製された測定試料の核酸の配列情報であって、1試料あたりの配列情報のデータ量が、測定試料の核酸の配列情報のデータ量において所定の割合を占めるデータ量である配列情報を取得する工程(S1)と、配列情報を解析する工程(S109)と、解析結果を出力する工程(S111)と、をコンピュータに実行させ、核酸の配列情報を取得する工程(S1)において、測定試料の調製に用いた被検者由来の核酸を含む試料の数によらず、被検者由来の核酸を含む1試料あたりの配列情報のデータ量が所定の量である。
この構成によれば、例えば、遺伝子検査において、測定試料を調製するための被検者由来の核酸を含む試料数が変動する場合であっても、1試料あたりの配列情報のデータ量の変動を所定の範囲内におさめ、一定の品質の解析結果を出力することができる。
また、上記プログラムを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。
本発明によれば、遺伝子検査において、測定試料を調製するための被検者由来の核酸を含む試料数が変動する場合であっても、被検者由来の核酸の配列情報に対して一定の品質の解析を効率的に行うことができる。
本発明の一実施形態に係る解析方法における処理の流れの概要を示すフローチャートである。 本発明の一実施形態に係る解析方法による解析結果を含むレポートを作成する情報処理装置、シーケンサー、およびシーケンサーから取得した配列情報を管理・記憶する機能を備える補助装置からなるシステム構成例を示す図である。 情報処理装置およびシーケンサーからなるシステム構成例を示す図である。 図3に示す情報処理装置が、被検者由来の核酸の配列情報に対して解析を行う処理の流れの概要を示すフローチャートである。 シーケンサーおよび情報処理装置を備える遺伝子解析システムの構成例を示す図である。 遺伝子解析システムにおいて行われる主要な処理の例を示すシーケンス図である。 試料を収容する容器に付されたラベルの一例を示す図である。 試料を収容する容器に付されたラベルの他の一例を示す図である。 管理サーバに記憶されているデータのデータ構造の例を示す図である。 情報処理装置の構成の例を示す図である。 遺伝子パネルに関する情報の入力を受け付ける処理の流れの一例を示すフローチャートである。 遺伝子パネルに関する情報の入力に用いられるGUIの例を示す図である。 遺伝子パネル関連情報データベースのデータ構造の例を示す図である。 遺伝子パネルに関する情報の入力に用いられるGUIの別の例を示す図である。 疾患を識別するための識別情報の入力に用いられるGUIの別の例を示す図である。 遺伝子パネルに関する情報を操作者が更新する場合に用いられるGUIの例を示す図である。 遺伝子パネルに関する情報を操作者が更新する場合に用いられるGUIの別の例を示す図である。 試料の遺伝子の塩基配列を解析するための処理の流れの一例を示すフローチャートである。 試料の遺伝子の塩基配列をシーケンサーによって解析するための前処理の手順の一例を説明するフローチャートである。 試料の遺伝子の塩基配列をシーケンサーによって解析するための前処理の手順の別の一例を説明するフローチャートである。 試料の遺伝子の塩基配列をシーケンサーによって解析するための前処理の手順の他の一例を説明するフローチャートである。 試料の遺伝子の塩基配列をシーケンサーによって解析するための前処理の手順の他の一例を説明するフローチャートである。 品質管理試料の一例を説明する図である。 遺伝子パネル関連情報データベースのデータ構造の例を示す図である。 品質管理試料の具体例を示す図である。 試料の断片化の工程(a)、およびインデックス配列およびアダプター配列の付与の工程(b)の例について説明する図である。 ハイブリダイズの工程の一例について説明する図である。 解析対象となるDNA断片を回収する工程の一例について説明する図である。 フローセルに注入される測定試料を調製する手順の一例を説明するフローチャートである。 シーケンシングに供する測定試料の調製時に作成される測定試料シートの一例を示す図である。 解析対象となる被検者由来の試料のライブラリを複数混合することによって測定試料を調製する方法について説明する図である。 解析対象となる被検者由来の試料数が不足している場合の測定試料の調製方法の一例を説明する図である。 解析対象となる被検者由来の試料数が不足している場合の測定試料の調製方法の別の一例を説明する図である。 DNA断片をフローセルに供する工程の一例について説明する図である。 試料DNAの塩基配列をシーケンサーによって解析する手順の一例を説明するフローチャートである。 解析対象となるDNA断片を増幅する工程の一例について説明する図である。 シーケンシング工程の一例について説明する図である。 図32に示す方法で測定試料を調製した場合の情報処理装置の処理の流れの一例を示すフローチャートである。 図33に示す方法で測定試料を調製した場合の情報処理装置の処理の流れの一例を示すフローチャートである。 情報処理装置による解析の流れの一例を説明するフローチャートである。 配列情報のファイルフォーマットの一例を示す図である。 (a)は、データ調整部によるアライメントを説明する図であり、(b)は、データ調整部のアライメント結果のフォーマットの一例を示す図である。 参照配列データベースの構造例を示す図である。 参照配列データベースに含まれる参照配列(野生型の配列を示すものでないもの)に組み込まれる既知の変異の例を示す図である。 アライメントの詳細な工程の一例を説明するフローチャートである。 (a)は、スコア算出の一例を示す図であり、(b)は、スコア算出の他の例を示す図である。 変異同定部が生成する結果ファイルのフォーマットの一例を示す図である。 変異データベースの構造の一例を示す図である。 変異データベース中の変異情報の構造の詳細例を示す図である。 (a)は、解析対象の遺伝子と位置情報との対応関係を示すテーブルであり、(b)は、遺伝子パネルに関する情報に対応しない変異を、結果ファイルから除外した様子を示す図である。 薬剤検索部が変異に関する薬剤のリストを生成する処理の一例を示すフローチャートである。 薬剤データベースのデータ構造の例を示す図である。 薬剤データベースのデータ構造の例を示す図である。 薬剤検索部が変異に関する薬剤に関する情報を含むリストを生成する処理の一例を示すフローチャートである。 薬剤データベースのデータ構造の例を示す図である。 遺伝子パネルに関する情報の入力に用いられるGUIの別の例を示す図である。 作成されるレポートの一例を示す図である。 品質評価指標の一例を示す図である。 遺伝子検査の流れの一例を示すフローチャートである。 複数の被検体由来の遺伝子の塩基配列を同時に解析するために行われる工程の一例を示す図である。 フローセルに注入されたDNA断片が捕捉分子によって捕捉された様子を示す模式図である。
〔実施形態1〕
本発明の一実施形態に係る解析方法は、遺伝子検査において品質が一定である解析結果を出力する方法である。この解析方法を適用すれば、1回のシーケンシングランに供される試料数が推奨される試料数より少ない場合であっても、1試料あたりの配列情報のデータ量が所定の範囲を超えて大きく変動することを回避して、一定の品質の解析結果を出力することができる。
(遺伝子検査の流れ)
はじめに、遺伝子検査がどのように行われるのかについて、図59を用いて説明する。図59は、遺伝子検査の流れの一例を示すフローチャートである。
被検者の診断および治療方法を決定するために遺伝子検査を受けることが有利であると考えられる場合、被検者の主治医は被検者にその旨を説明し、遺伝子検査を利用することに対する被検者による同意を得る(ステップS91)。被検者が同意した場合、遺伝子検査における試料となる被検者の組織および血液の採取が行われる(ステップS92)。採取された試料は、所定の容器に収容される。
次に、試料から抽出され遺伝子の前処理、およびシーケンシングが行われる(ステップS93)。そして、シーケンシングの結果得られた配列情報が解析され、解析対象の遺伝子における異常が検出され(ステップS94)、遺伝子検査の品質を示す品質評価指標、および検出された異常に関する情報を含むレポートが作成される(ステップS95)。
その後、遺伝子検査における複数人の専門家で構成されたエキスパートパネルによる、レポートに含まれる情報の意義付けがなされる(ステップS96)。被検者の主治医は、レポートに基づいて遺伝子検査の結果を被検者に説明し、被検者と相談の上で治療方法の選択を行う(ステップS97)。
(解析方法の概要)
本発明の一実施形態に係る解析方法の概要について、図1を用いて説明する。図1は、本発明の一実施形態に係る解析方法における処理の流れを示すフローチャートである。
ステップS1は、予め定められた核酸の量となるように調製された測定試料に含まれる核酸の配列情報を取得する工程である。測定試料は、被検者由来の核酸を含む試料を用いて調製され得る。被検者由来の核酸を含む試料は、例えば、被検者(例えば患者など)から採取された組織および血液などから、DNAおよびRNAなどの核酸を任意の公知の方法を用いて抽出したものである。なお、シーケンシングとは、前処理にて回収された解析対象となる1または複数の遺伝子の断片(解析対象がDNAである場合はDNA断片)の塩基配列を読み取り、配列情報を生成する処理を含んでいる。
なお、測定試料とは、シーケンサー2によるシーケンシングに供するために調製される試料を意図している。被検者由来の試料の核酸の量が、予め定められた核酸の量に満たない場合、被検者由来ではない試料を混合することによって、予め定められた核酸の量となるように測定試料が調製される。
ここで、「被検者由来ではない核酸」とは、例えば、ウイルス由来、微生物由来、植物由来、および昆虫由来の核酸などを意図している。「被検者由来ではない核酸」としては、例えば、イルミナ社から提供されている「PhiX DNA」などが好適に使用され得る。PhiX DNAは、バクテリオファージ由来の核酸であり、分子量が小さく、配列に高い多様性がある、という特徴を備えている。
また、「予め定められた核酸の量」とは、使用するシーケンサー2および使用する試薬について推奨されるプロトコルに基づいて決定された核酸の量を意図している。すなわち、「予め定められた核酸の量」は、1回のシーケンシングランに供する試料数として推奨される数の試料数が満たされている場合の核酸の量である。「予め定められた核酸の量」は、シーケンシングの結果得られる塩基配列の解析結果の品質が一定以上であることを担保するためのものであり、上限量および下限量との間の量として規定される量であってもよい。
配列情報は、例えば、フローセルの流路の表面に設けられた捕捉分子によって捕捉された核酸の配列情報である。配列情報の取得は、所定のフローセルに測定試料を注入する作業、およびフローセルをシーケンサー2にセットする作業の他は、シーケンサー2によって実行される。ある場合において、核酸を捕捉するための捕捉分子は、シーケンサー2に適用することが推奨されている所定のフローセルなどの固相の表面に固定されている。なお、捕捉分子は、測定試料に含まれる核酸の少なくとも一部と相補的な塩基配列を含んでいる。
上記ステップS1に含まれる作業の一部(例えば、フローセルに測定試料を注入する作業およびフローセルをシーケンサー2にセットする作業)は、シーケンサー2のオペレータ、あるいは、検査担当者によって行われている。しかし、ステップS1の作業のいずれかを、以下に示すような1または複数の作業ロボットによって行う構成であってもよい。
・(作業ロボット1)測定試料の調製に使用する被検者由来の核酸を含む試料、および被検者由来ではない核酸を含む試料がセットされ、それぞれに含まれる核酸のモル濃度が入力されると、自動的に予め定められた核酸の量となるようにそれぞれの試料を分注して測定試料を調製する。
・(作業ロボット2)調製された測定試料をフローセルに注入する。
・(作業ロボット3)シーケンサー2内の所定の位置にフローセルを搬送しセットする。
ステップS2は、測定試料の調製に用いた被検者由来の核酸を含む試料の数によらず、1試料あたりの配列情報のデータ量が、所定の量である配列情報を出力する工程である。ここで、「所定の量」とは、上限量および下限量との間の量として規定される量であってもよい。所定のデータ量とは、ステップS1にて取得された配列情報のデータ量における所定の割合を占めるデータ量である。この工程は、シーケンシングの一部であり、シーケンサー2によって実行される。
例えば、測定試料を調製するために推奨されている、被検者由来の核酸を含む試料数が3であれば、1試料あたりの配列情報のデータ量は、取得された配列情報のデータ量においておよそ1/3(すなわち、およそ33%)を占める。測定試料を調製するために推奨されている、被検者由来の核酸を含む試料数が8であれば、1試料あたりの配列情報のデータ量は、取得された配列情報のデータ量においておよそ1/8(すなわち、およそ12.5%)を占める。このように、所定の割合とは、測定試料を調製するために推奨されている、被検者由来の核酸を含む試料数に応じた値である。
なお、測定試料の調製に用いた被検者由来の核酸を含む試料の数が変化した場合の、1試料あたりの配列情報のデータ量のばらつきは±10%の範囲内であることが望ましい。この場合、取得された配列情報のうち、被検者由来ではない核酸の配列情報のデータ量が、少なくとも配列情報中に含まれる1試料あたりの核酸の配列情報のデータ量に相当する量またはそれ以上となってもよい。
ステップS5は、配列情報を解析し、解析結果を出力する工程である。この工程は、情報処理装置1によって実行される。なお、情報処理装置1は、読み取られた塩基配列データに基づいてシーケンサー2によって生成・出力された、解析対象となる配列情報に対して解析を行うコンピュータである。なお、塩基配列データとは、シーケンシングによって得られたポリヌクレオチド配列データを意味しており、シーケンサー2から出力される塩基配列データを指している。
遺伝子の塩基配列の解析結果の品質を一定に保つためには、配列情報の品質が適切に評価される必要がある。しかし、1試料あたりに取得される配列情報のデータ量が変動すれば、その変動に合わせて、配列情報の品質を評価するための指標も変動させなければならない、という問題が生じる。
例えば、配列情報の品質を評価するための指標の1つにデプス(depth)が挙げられる。デプスは、解析対象の遺伝子に含まれる各塩基について、その塩基を読み取った配列情報の総数に基づく品質評価指標である。一般的に、デプスに関する基準値は、理想的な試料数でシーケンシングされた場合に合わせて予め精密に設定されており、デプスが所与の基準値以上であるか否かによって、配列情報の品質が評価される。遺伝子の塩基配列の解析結果の品質を一定に保つためには、1回のシーケンシングランに供される試料数の変動に合わせて、遺伝子の塩基配列の解析に用いる既存の解析プログラムにおけるデプスの基準値を変更しなければならない。
図1のステップS1〜S4を採用することにより、遺伝子検査において、1回のシーケンシングランに供される試料数が推奨される試料数より少ない場合であっても、1試料あたりの配列情報のデータ量の変動を所定の範囲内におさめ、一定の品質の解析結果を出力することができる。
さらに、1試料あたりに取得される配列情報のデータ量が変動すれば、その変動に合わせて、解析対象の遺伝子における異常を検出するための基準も変動させなければならない、という問題も生じる。
例えば、パネル検査の検出対象となる遺伝子の異常には、一塩基多型(SNP、Single Nucleotide Polymorphism)、およびコピー数多型(CNV、Copy Number Variation)などの多型も含まれる。1試料あたりに取得される配列情報のデータ量の変動によって多型を検出する精度にばらつきが生じないように、1回のシーケンシングランに供される試料数に合わせて、遺伝子の塩基配列の解析に用いる既存の解析プログラムにおける多型を検出する基準を設定しなければならない。
図1のステップS1〜S4を採用することにより、1回のシーケンシングランに供される検体数が変動する場合であっても、1試料あたりに取得される配列情報のデータ量が一定であるため、既存の解析プログラムをそのまま使用することができる。
(システム構成例)
図2は、本発明の一実施形態に係る解析方法による解析結果を含むレポートを作成する情報処理装置1、シーケンサー2、およびシーケンサー2から取得した配列情報を管理・記憶する機能を備える補助装置2aからなるシステム構成例を示す図である。シーケンサー2が生成した配列情報は、例えば、シーケンサー2に接続された補助装置2aが備える記憶装置21aに格納される。情報処理装置1は、記憶装置21aから解析対象の配列情報を取得する構成であってもよい。情報処理装置1は、シーケンサー2が生成した配列情報を解析し、遺伝子異常の有無を解析する。なお、補助装置2aは、シーケンサー2から取得した配列情報を被検者毎または試料毎に仕分けて記憶装置21aに格納してもよい。情報処理装置1は、解析の対象となる配列情報を、通信回線を介して補助装置2aから受信してもよい。
なお、情報処理装置1が、図2の補助装置2aの機能を備える構成であってもよい。この場合、図3に示すように、情報処理装置1およびシーケンサー2からなるシステム構成であればよい。シーケンサー2が生成した配列情報は、情報処理装置1が備える記憶部12に格納される。情報処理装置1は、シーケンサー2が生成した配列情報を取得し、配列情報を被検者毎または試料毎に仕分けて記憶部12に格納してもよい。
補助装置2aの機能を備えている情報処理装置1が、被検者由来の核酸の配列情報に対して解析を行う処理の流れについて図4を用いて説明する。図4は、図3に示す情報処理装置1が、被検者由来の核酸の配列情報に対して解析を行う処理の流れの概要を示すフローチャートである。情報処理装置1は、シーケンサー2から取得した配列情報のうち、被検者由来の核酸の配列情報のみを対象として解析を行う。すなわち、情報処理装置1は、被検者由来の核酸の配列情報であれば(ステップS51にてYES)解析を行い(ステップS52)、被検者由来ではない核酸の配列情報であれば(ステップS51にてNO)、被検者由来の核酸の配列情報に対して行う解析の少なくとも一部を行わない(ステップS53)。
被検者由来の核酸の配列情報であるか否かの判別のために、図1のステップS1において取得される配列情報のうち、被検者由来の核酸の配列情報にはインデックス配列が含まれている。それゆえ、シーケンサー2から取得した配列情報の中から、被検者由来の核酸の配列情報を選択的に抽出し、解析を行うことができる。
以下、本発明の一実施形態について、詳細に説明する。
(遺伝子解析システム100の適用例)
まず、本発明の一実施形態に係る情報処理装置1を含む遺伝子解析システム100の概略について、図5を用いて説明する。図5は、シーケンサー2および情報処理装置1を備える遺伝子解析システム100の構成例を示す図である。遺伝子解析システム100は、遺伝子の配列情報を解析するシステムであって、情報処理装置1、シーケンサー2、および管理サーバ3を備えている。
図5に示す遺伝子解析システム100は、検査機関120において実行される解析全般を管理する解析システム管理機関130、および医療機関210からの解析依頼に応じて、提供された試料を解析して、解析結果を医療機関210に提供する検査機関120において適用されている。
検査機関120は、医療機関210から提供された試料を検査・解析し、解析結果に基づいたレポートを作成し、医療機関210に該レポートを提供する機関である。図5に示す例では、検査機関120には、シーケンサー2、および情報処理装置1などが設置されているがこれに限定されない。例えば、検査機関120が、情報処理装置1が設置されている施設とシーケンサー2が設置されている別の施設とを備える構成であってもよい。
解析システム管理機関130は、遺伝子解析システム100を利用する各検査機関120において実行される解析全般を管理する機関である。解析システム管理機関130は、検査機関120と同一の機関であってもよい。
医療機関210は、医師、看護師、薬剤師等が患者に対して診断、治療、調剤等の医療行為を行う機関であり、例えば、病院、診療所、薬局等が挙げられる。
なお、図5は、検査機関120と医療機関210とが個別の機関である場合を例示しているが、検査機関120および医療機関210が一体となった施設、例えば、大学病院などにおいても、遺伝子解析システム100を好適に利用することが可能である。
(遺伝子解析システム100を適用例における処理)
続いて、図5に示す遺伝子解析システム100の適用例における処理の流れについて、図6を用いてより具体的に説明する。図6は、遺伝子解析システム100において行われる主要な処理の例を示すシーケンス図である。なお、図6に示された処理は、各機関で行われる処理の一部分に過ぎない。
<遺伝子解析システム利用の申請および利用開始>
まず、遺伝子解析システム100の利用を希望する検査機関120は、情報処理装置1を導入する。そして、遺伝子解析システム100の利用を解析システム管理機関130に申請する(ステップS101)。S101は省略可能である。例えば、解析システム管理機関130が検査機関120と同一である場合、S101は省略される。
検査機関120および解析システム管理機関130は複数の契約種別の中から、遺伝子解析システム100の利用に関して、事前に所望の契約を締結することができる。例えば、解析システム管理機関130から検査機関120に提供されるサービス内容、解析システム管理機関130が検査機関120に対して請求するシステム利用料の決定方法、およびシステム利用料の支払い方法などが異なる複数の契約種別から選択されたものであってもよい。解析システム管理機関130の管理サーバ3は、検査機関120からの申請に応じて、検査機関120との間で締結された契約の内容を特定する(ステップS102)。S102は省略可能である。例えば、解析システム管理機関130が検査機関120と同一である場合、S102は省略される。
次に、解析システム管理機関130によって管理されている管理サーバ3は、契約を締結した検査機関120の情報処理装置1に対して、検査機関IDを付与し、各種サービスの提供を開始する(ステップS103)。S103は省略可能である。例えば、解析システム管理機関130が検査機関120と同一である場合、S103は省略される。解析システム管理機関130が検査機関120と同一である場合、検査機関IDや各種サービスは、検査機関120自身で管理される。
情報処理装置1は、遺伝子の塩基配列の解析処理、および該解析の結果に基づくレポートの作成などを制御するためのプログラムや情報等を、管理サーバ3から受信する。これにより、検査機関120は、解析システム管理機関130から各種サービスを受けることが可能となる。そして、情報処理装置1は、入力された遺伝子パネルに関する情報に適合した、解析結果およびレポートなどを出力できる。解析システム管理機関130が検査機関120と同一である場合、遺伝子の塩基配列の解析処理、および該解析の結果に基づくレポートの作成などを制御するためのプログラムや情報等は、検査機関120自身で管理される。
遺伝子パネルは、多くの場合、プライマーやプローブなどの一揃いの試薬を含んでいる。なお、遺伝子パネルは、遺伝子に生じた変異、一塩基多型(SNP、Single Nucleotide Polymorphism)、およびコピー数多型(コピー数異常)(CNV、Copy Number Variation)などの多型を解析するために用いられてもよい。また、遺伝子パネルは、解析対象遺伝子全体の変異などの量に関する情報(Tumor Mutation Burdenなどとも呼ばれる)の出力や、メチル化頻度の算出に用いられてもよい。
なお、本明細書において、「遺伝子パネル」とは、複数の遺伝子における複数の異常を一括で分析することが可能であり、複数の疾患に関する試料を検査可能な遺伝子パネルである。このような遺伝子パネルは、「マルチパネル」および「ラージパネル」とも呼称され、複数の疾患に関連する遺伝子を解析対象とする遺伝子パネルである。このような遺伝子パネルにおいては、塩基長が10Mb(1000万塩基)以上のエクソン領域から読み取られた塩基配列が解析対象となる。
<検査機関120への解析依頼>
医療機関210では、医師等が必要に応じて、被検者の病変部位の組織および血液などの試料を採取する。採取した試料の解析を検査機関120に依頼する場合、例えば、医療機関210に設けられた通信端末5から解析依頼が送信される(ステップS105)。検査機関120に試料の解析を依頼する場合、医療機関210は、解析依頼の送信とともに、試料毎に付与された試料IDを検査機関120に提供する。試料毎に付与された試料IDは、各試料が採取された被検者に関する情報(例えば、患者IDなど)および該被検者の疾患を識別するための識別情報(例えば、疾患名および疾患ID)などと各試料とを対応付けるものである。なお、医療機関210から検査機関120に、試料IDと共に、被検者IDおよび疾患IDなども送信されてもよい。検査機関120では、試料IDおよび被検者IDと疾患IDとが対応付けて管理される。
以下では、医療機関210が、パネル検査を検査機関120に解析を依頼する場合を例に挙げて説明する。なお、パネル検査は臨床検査に限らず、研究用途の検査も含む。
なお、本明細書において「被検者」とは、ヒトを意図している。しかしながら、本発明の概念はヒト以外の任意の動物などの生物由来のゲノムに適用でき、医療、獣医学および動物科学などの分野においても有用である。
医療機関210から遺伝子パネル検査が依頼される場合、所望の遺伝子パネルが指定されてもよい。それゆえ、図6のステップS105において医療機関210から送信される解析依頼には、遺伝子パネルに関する情報が含まれ得る。ここで、遺伝子パネルに関する情報は、遺伝子パネルを特定するために用いられ得る情報であればよく、例えば遺伝子パネル名、およびパネル検査における解析対象の遺伝子の名などであってよい。
<検査機関120での解析>
情報処理装置1は、医療機関210から解析依頼を受信する(S106)。さらに、情報処理装置1は、該解析依頼の送信元である医療機関210から試料を受け取る。医療機関210(および検査機関120)では、被検者名、被検者ID、疾患名、疾患ID、および試料IDなどを関連付けて記録・管理している。
医療機関210から提供される試料は、図7および図8に示すような容器に収容されている。図7は、試料を収容する容器P1に付されたラベルL1の一例を示す図である。試料を収容する各容器P1には、被検者IDおよび試料IDなどが表示されたラベルL1が付されており、このラベルL1にはバーコードL11などの記録手段が表示されている。ラベルL1に表示されているバーコードL11などの記録手段を読み取ることにより、被検者の被検者ID、試料ID、および疾患の識別情報である疾患IDなどを取得することが可能である。なお、バーコードL11の読み取りは、検査担当者によって人為的に行われてもよいし、情報処理装置1によって自動的に行われてもよい。
あるいは、図8に示すように、各容器P1には被検者IDおよび試料IDなどが表示されたラベルL2が付されており、このラベルL2にRFIDタグL21などの記録手段が添付されている構成であってもよい。ラベルL2に添付されているRFIDタグL21などの記録手段を読み取ることにより、被検者の被検者ID、試料ID、および被検者の疾患の識別情報である疾患IDを取得することが可能である。なお、図7および図8では、被検者から採取された組織を収容する容器の例を示したが、被検者から採取された血液を収容する容器についても同様である。
検査機関120が医療機関210から依頼を受ける解析において用いられ得る遺伝子パネルは複数あり、かつ、解析対象の遺伝子群は遺伝子パネル毎に決まっている。検査機関120は、複数の遺伝子パネルを解析の目的に合わせて使い分けることも可能である。すなわち、医療機関210から提供された第1試料について、第1の解析対象遺伝子群を解析するためには第1遺伝子パネルが使用され、第2試料について、第2の解析対象遺伝子群を解析するためには第2遺伝子パネルが使用され得る。
情報処理装置1は、操作者から、試料を解析するために使用する遺伝子パネルに関する情報の入力を受け付ける(ステップS107)。
検査機関120では、受け取った試料に対して遺伝子パネルを用いて前処理を行い、シーケンサー2を用いたシーケンシングが行われる(ステップS108)。
また、検査機関120では、被検者由来の試料のシーケンシングとは別に、遺伝子パネルに対応する所定の品質管理試料に対して遺伝子パネルを用いて前処理を行い、シーケンサー2を用いたシーケンシングを行う(ステップS108)ことにより、精度管理を行っている。
品質管理試料を前処理、シーケンシング、および配列解析などの遺伝子検査に供した場合の結果は、パネル検査の品質評価指標として利用される。
遺伝子パネル毎に、1または複数の品質管理試料が対応付けられていてもよく、例えば、遺伝子パネル毎に、対応する品質管理試料が予め調製されていてもよい。また、品質管理試料は単独で測定してもよいし、医療機関210から提供された試料と共に測定してもよい。
前処理とは、測定試料を調製するための一連の処理である。前処理は、図1のステップS1〜S2に相当し、試料に含まれるDNAなどの遺伝子を断片化して、断片化された遺伝子を回収する処理などが含まれる。また、シーケンシングとは、図1のステップS3に相当し、前処理にて回収された解析対象となる1または複数のDNA断片の塩基配列を読み取る処理を含んでいる。シーケンサー2によるシーケンシングによって読み取られた塩基配列データ含む配列情報のうち、解析対象となる配列情報は情報処理装置1に入力される。なお、前処理には、被検者由来の試料、および被検者由来ではない試料に含まれるDNAなどの遺伝子を断片化して、断片化された遺伝子を回収する処理が含まれる。
シーケンサー2は、遺伝子の塩基配列の読み取り工程に関する品質評価指標であるクオリティスコアを含む配列情報を情報処理装置1に出力してもよい。また、シーケンサー2は、解析対象となるDNA断片の増幅工程に関する品質評価指標であるクラスター濃度を情報処理装置1に出力してもよい。なお、「クオリティスコア」、および「クラスター濃度」については、後に説明する。
情報処理装置1は、シーケンサー2から配列情報を取得して、遺伝子の塩基配列の解析を行う(ステップS109)。
なお、品質管理試料もまた、医療機関210から提供された試料のパネル検査において行われる工程と同じ工程にて処理される。これにより、品質管理試料の遺伝子の配列情報も医療機関210から提供された試料と同様に解析される。品質管理試料を解析した結果に基づいて、パネル検査の品質を評価するための品質評価指標が生成される。
次に、情報処理装置1は、品質管理部117によって生成された品質評価指標に基づいて、パネル検査の品質を評価する(ステップS110)。具体的には、情報処理装置1は、図10の品質評価基準126に記憶されている品質評価指標毎に設定された評価基準と、生成された品質評価指標とを比較した比較結果に基づいて、各パネル検査の品質が評価され得る。
なお、品質管理試料は、被検者由来ではない核酸を含む試料である。情報処理装置1は、測定試料の核酸の配列情報のうち、被検者由来ではない核酸を含む試料の配列情報の少なくとも一部に対して品質に関する情報を取得するための処理を行ってもよい。この場合、被検者由来ではない核酸を含む試料の配列情報の少なくとも一部が、品質管理試料の配列情報の代替として用いられる。
情報処理装置1は、ステップS109における解析結果、および品質管理試料を解析した結果に基づいて生成された指標に基づいてレポートを作成し(ステップS111)、作成したレポートを通信端末5に送信する(ステップS112)。レポートには、例えば、配列情報のアライメント結果のデータ、および同定された遺伝子変異等に関するデータ等の情報処理装置1が解析した結果のデータ自身、およびパネル検査の品質に関する情報が含まれていてもよい。
なお、作成したレポートは検査機関120にて印刷されてもよく、例えば、検査機関120は作成されたレポートを紙媒体として医療機関210へ送付してもよい。
遺伝子解析システム100を利用する検査機関120の情報処理装置1は、管理サーバ3に、解析に用いた遺伝子パネルに関する情報、解析した遺伝子に関する情報、解析実績、および、行われた遺伝子検査について生成された品質評価指標などを通知する(ステップS114)。S114は省略可能である。例えば、解析システム管理機関130が検査機関120と同一である場合、S114は省略される。この場合、検査機関120自身が、解析実績・品質評価指標などを管理する。
管理サーバ3は、例えば通信回線4を介して、遺伝子解析システム100を利用する各検査機関120の情報処理装置1から、検査機関ID、遺伝子パネルID、遺伝子ID、および解析実績などを取得する。また、管理サーバ3は、取得した検査機関ID、遺伝子パネルID、遺伝子ID、解析実績、および品質評価指標などを対応付けて記憶する(ステップS115)。S115は省略可能である。例えば、解析システム管理機関130が検査機関120と同一である場合、S115は省略される。この場合、検査機関120自身が、解析実績・品質評価指標などを管理する。
なお、検査機関IDは、遺伝子の配列解析を行う検査機関120を特定する情報であり、情報処理装置1を利用する検査機関120に所属している操作者毎に付与されている識別情報である操作者IDであってもよい。
遺伝子パネルIDは、解析対象の遺伝子の解析に用いる遺伝子パネルを特定するために付与される識別情報である。遺伝子パネルに付与された遺伝子パネルIDは、遺伝子パネル名および該遺伝子パネルを提供している会社名などと対応付けられる。
遺伝子IDは、解析対象の遺伝子を特定するために遺伝子毎に付与された識別情報である。
解析実績は、遺伝子の配列情報の解析状況に関する情報である。解析実績は、例えば、情報処理装置1において所定の遺伝子パネルを用いた解析が実行された配列解析回数であってもよいし、解析された遺伝子数であってもよいし、同定された遺伝子変異の数などの累計であってもよい。あるいは、解析において処理されたデータ量に関する情報であってもよい。
管理サーバ3は、所定の期間(例えば、日、週、月、年など任意の期間)における解析実績を検査機関120毎に集計し、集計結果および契約種別に応じたシステム利用料を決定する(ステップS116)。解析システム管理機関130は、決定したシステム利用料を検査機関120に対して請求し、システム利用料を解析システム管理機関130に支払うように要求してもよい。S116は省略可能である。例えば、解析システム管理機関130が検査機関120と同一である場合、S116は省略される。
(遺伝子解析システム100の構成例)
遺伝子解析システム100は、遺伝子の配列情報を解析するシステムであって、少なくとも情報処理装置1と、管理サーバ3とを備える。情報処理装置1はイントラネットおよびインターネットなどの通信回線4を介して管理サーバ3と接続されている。
(シーケンサー2)
シーケンサー2は、試料に含まれる遺伝子の塩基配列を読み取るために利用される塩基配列解析装置である。
本実施形態に係るシーケンサー2は、好ましくは、次世代シーケンシング技術を用いたシーケンシングを行う次世代シーケンサー、または第3世代のシーケンサーであることが好ましい。次世代シーケンサーは、近年開発の進められている一群の塩基配列解析装置であり、クローン的に増幅したDNAテンプレートまたは単独DNA分子をフローセル内で大量に並列処理を行うことによって、飛躍的に向上した解析能力を有している。
また、本実施形態において使用可能なシーケンシング技術は、同一の領域を重複して読むこと(ディープシーケンシング)により複数のリードを取得するシーケンシング技術であり得る。
本実施形態において使用可能なシーケンシング技術の例としては、イオン半導体シーケンシング、パイロシーケンシング(pyrosequencing)、可逆色素ターミネータを使用するシーケンシング・バイ・シンセシス(sequencing-by-synthesis)、シーケンシング・バイ・リゲーション(sequencing-by-ligation)、およびオリゴヌクレオチドのプローブ結紮によるシーケンシングなど、1シーケンシングラン当たりに多数のリードを取得可能なシーケンシング技術が挙げられる。また、特定の領域の塩基配列ではなく、ゲノム全体の塩基配列を解析するホールゲノムシークエンス(whole genome sequencing)に本発明を適用してもよい。ホールゲノムシークエンスは、複数の疾患に関連する遺伝子を解析対象とする遺伝子パネルに適用され、10Mb(1000万塩基)以上のエクソン領域から塩基配列を読み取ることが可能である。
シーケンシングに用いるシーケンシングプライマーは特に限定されず、目的の領域を増幅させるのに適した配列に基づいて、適宜設定される。また、シーケンシングに用いられる試薬についても、用いるシーケンシング技術およびシーケンサー2に応じて好適な試薬を選択すればよい。前処理からシーケンシングまでの手順については、後に具体例を挙げて説明する。
(管理サーバ3)
次に、管理サーバ3に格納されているデータについて、図9を用いて説明する。図9は、管理サーバ3に記憶されているデータのデータ構造の例を示す図である。解析システム管理機関130は、図9に示す各データに基づいて、各検査機関に請求するシステム利用料を決定する。管理サーバ3は、遺伝子の配列解析を行う検査機関120を特定する情報(例えば、検査機関ID)と、使用された遺伝子パネルに関する情報と、遺伝子の配列の解析状況に関する情報(例えば、解析実績)とを含む情報を、情報処理装置1から通信回線4を介して受信する。なお、図9では、「遺伝子パネルA」は「Aパネル」、「遺伝子パネルB」は「Bパネル」などと表記されており、「遺伝子パネルID」は「パネルID」と表記されている。
データ3Aでは、遺伝子解析システム100を利用する検査機関の名称と、検査機関毎に付与された検査機関IDとが関連付けられている。データ3Bでは、解析システム管理機関130が検査機関120との間で締結する契約の種別と、各契約を締結した検査機関に対して提供されるサービス(例えば、使用可能な遺伝子パネル)と、システム利用料とが関連付けられている。
例えば、検査機関「P機関」が解析システム管理機関130との間で「プラン1」の契約を締結している場合、解析システム管理機関130は検査機関Pに対して、動作回数に応じた利用料を請求する。なお、「動作回数」とは、例えば、情報処理装置1が行ったパネル検査の回数である。遺伝子解析システム100の利用を開始する場合、検査機関Pは、検査機関Pの検査機関IDおよびパスワードを用いて、遺伝子解析システム100にログインする。管理サーバ3は、ログイン時に入力された検査機関IDに基づいて、検査機関名、および契約種別などを特定することができる。
「プラン3」は、「プラン1」に「CDx用途」に用いることが可能な補助情報の提供が付加された、「プラン1」の上位プランである。したがって、「プラン3」の契約を締結するためには、「プラン1」の契約を締結するための費用よりも高額であってもよい。
「プラン3」の契約を締結した検査機関に対しては、コンパニオン診断(CDx)に適用可能な薬剤の奏功性に関連する補助情報を含むレポートを作成するために必要なCDx情報が提供される(図6のS104参照)。例えば、検査機関「Q機関」が解析システム管理機関130との間で「プラン3」の契約を締結している場合、管理サーバ3は、検査機関Qが遺伝子解析システム100にログインする時に入力された検査機関IDに基づいて、検査機関名、および契約種別などを特定し、CDxに適用可能な薬剤の奏功性に関連する補助情報を検査機関Qに対して提供する。これにより、検査機関Qは、医療機関210に対して、CDxに適用可能な薬剤の奏功性に関連する補助情報を含むレポートを提供することができる。
データ3C〜3Eはそれぞれ、遺伝子解析システム100を利用する検査機関が2017年8月1日〜2017年8月31日までの期間に行った動作回数、解析した遺伝子、および同定した遺伝子変異の総数、に関する解析実績である。これらの解析実績は、情報処理装置1から管理サーバ3に送信され、管理サーバ3において記憶される。解析システム管理機関130は、これらの解析実績のデータに基づいて、各検査機関に請求するシステム利用料を決定する。実績の集計期間は、上記に限らず、日、週、月、年など任意の期間で集計すればよい。
なお、解析システム管理機関130がシステム利用料を決定する場合、検査に用いられた遺伝子パネルを提供(例えば、製造または販売)する会社によって提供したものであるかに応じて、システムの利用料を変えてもよい。この場合、管理サーバ3には、データ3Fを記憶しておけばよい。データ3Fでは、「A社」、「B社」などの遺伝子パネルを提供する会社名と、遺伝子パネルIDと、およびシステム利用料に関する取り決め(例えば、システム利用料の要否など)とが関連付けられている。
「P機関」が、解析システム管理機関130との間で「プラン1」の契約を締結しており、その解析実績が図9に示すようなものであった場合を例に挙げて説明する。P機関は、A社によって提供された遺伝子パネル(遺伝子パネルID「AAA」)を用いた検査を5回行い、B社によって提供された遺伝子パネル(遺伝子パネルID「BBB」)を用いた検査を10回行っている。図9に示すデータ3Fによれば、A社によって提供された遺伝子パネルを用いた5回分についてはシステム利用料が不要である。それゆえ、解析システム管理機関130はP機関に対し、A社によって提供された遺伝子パネルを用いた検査の回数は除外して、システム利用料を決定する。
(情報処理装置1の構成例)
図10は、情報処理装置1の構成の一例である。
情報処理装置1は、シーケンサー2により読み取られた塩基配列データを含む解析対象となる配列情報および解析対象となる複数の遺伝子を含む遺伝子パネルに関する情報とを取得する制御部11と、制御部11が取得した遺伝子パネルに関する情報に基づいた、配列情報の解析結果を出力する出力部13と、を備える装置である。情報処理装置1は、コンピュータを用いて構成することができる。例えば、制御部11は、CPU(Central Processing Unit)等のプロセッサであり、記憶部12は、ハードディスクドライブである。
また、記憶部12には、配列解析のためのプログラム、単一の参照配列を生成するためのプログラム等も記憶されている。出力部13は、ディスプレイ、プリンタ、スピーカ等を含む。入力部17は、キーボード、マウス、タッチセンサ等を含む。また、タッチセンサとディスプレイとが一体化されたタッチパネルのような、入力部および出力部の双方の機能を有する装置を用いてもよい。通信部14は、制御部11が外部の装置と通信するためのインターフェースである。
情報処理装置1は、情報処理装置1が備える各部を統括して制御する制御部11、解析実行部110が使用する各種データを記憶する記憶部12、出力部13、通信部14、および入力部17を備えている。制御部11は、解析実行部110および管理部116を備えている。さらに、解析実行部110は、配列データ読取部111、情報選択部112、データ調整部113、変異同定部114、品質管理部117、薬剤検索部118、およびレポート作成部115を備えている。記憶部12には、遺伝子パネル関連情報データベース121、参照配列データベース122、変異データベース123、薬剤データベース124、および解析実績ログ151が記憶されている。
情報処理装置1は、解析毎に異なる遺伝子パネルが使用された場合であっても、使用された遺伝子パネルに対応した解析結果を含むレポートを作成する。遺伝子解析システム100を利用する操作者は、遺伝子パネルの種別によらず、共通の解析プログラムでパネル検査の結果を解析し、レポートを作成することが可能となる。よって、パネル検査を実施する場合に、遺伝子パネル毎に使用する解析プログラムを使い分けたり、解析プログラムに対して使用する遺伝子パネル毎に特殊な設定を行ったりしなければならないという煩わしさが解消され、操作者の利便性が向上する。
情報処理装置1の操作者が入力部17から遺伝子パネルに関する情報を入力した場合、情報選択部112は、遺伝子パネル関連情報データベース121を参照し、入力された遺伝子パネルに関する情報に応じて、解析プログラムが解析対象の遺伝子の解析を実行するように、解析プログラムのアルゴリズムを制御する。
ここで、遺伝子パネルに関する情報は、シーケンサー2による測定に用いた遺伝子パネルを特定するものであればよく、例えば、遺伝子パネル名、遺伝子パネルの解析対象となっている遺伝子名、および遺伝子パネルIDなどである。
配列データ読取部111は、シーケンサー2によって生成された配列情報を取得する。情報処理装置1が、図2に示す補助装置2aの機能を備えていない場合、配列データ読取部111は、補助装置2aから解析対象の配列情報を取得する。一方、情報処理装置1が、図2に示す補助装置2aの機能を備えている場合には、配列データ読取部111は、シーケンサー2から配列情報を取得し、これを被検者ID毎または試料ID毎に仕分けて記憶部12に格納する。そして、配列データ読取部111は、記憶部12から解析対象となる配列情報を読み出し、解析対象ではない配列情報は読み出さない。
情報選択部112は、入力部17から入力された遺伝子パネルに関する情報に基づいて、該遺伝子パネルに関する情報が示す遺伝子パネルの解析対象である遺伝子に対応した解析を行うための解析アルゴリズムを変更する。
情報選択部112は、データ調整部113、変異同定部114、薬剤検索部118、およびレポート作成部115の少なくとも何れか1つに対し、遺伝子パネルに関する情報に基づいた指示を出力する。この構成を採用することより、情報処理装置1は、配列情報を解析した結果を、入力された遺伝子パネルに関する情報に基づいて出力することができる。
すなわち、情報選択部112は、解析対象となる複数の遺伝子を含む遺伝子パネルに関する情報を取得し、取得した遺伝子パネルに関する情報に基づいて、配列情報を解析した結果が出力部13から出力されるように制御する機能ブロックである。
パネル検査を実施する検査機関120によってさまざまな試料に含まれる遺伝子が解析される場合、試料毎の解析対象遺伝子群に応じてさまざまな遺伝子パネルが用いられる。
情報処理装置1は、種々の組合せの解析対象遺伝子がさまざまな遺伝子パネルを用いて解析された場合であっても、情報選択部112を備えることにより、配列情報を解析した結果を適切に出力することができる。
すなわち、操作者に対して、解析対象遺伝子毎に配列情報の解析に用いる解析プログラムを設定させたり、解析を行わせたりすることなく、遺伝子パネルに関する情報を選択させるだけで、各配列情報の解析結果を適切に出力することが可能である。
例えば、情報選択部112が、データ調整部113に対して遺伝子パネルに関する情報に基づいた指示を出力する場合には、データ調整部113によって該遺伝子パネルに関する情報を反映したアライメント処理などが行われる。
情報選択部112は、遺伝子パネルに関する情報に応じて、データ調整部113が配列情報のマッピングに用いる参照配列(野生型のゲノム配列および変異配列が組込まれた参照配列)を、遺伝子パネルに関する情報に対応する遺伝子に関する参照配列のみに限定するよう指示する。
この場合、データ調整部113による処理の結果には既に遺伝子パネルに関する情報が反映されているため、情報選択部112は、データ調整部113による処理の次に処理を行う変異同定部114に対して、遺伝子パネルに関する情報に基づいた指示を出力しなくてもよい。
例えば、情報選択部112が、変異同定部114に対し、遺伝子パネルに関する情報に基づいた指示を出力する場合には、変異同定部114によって該遺伝子パネルに関する情報を反映した処理が行われる。
例えば、情報選択部112は、遺伝子パネルに関する情報に応じて、変異同定部114が参照する変異データベース123の領域を、遺伝子パネルに関する情報に対応する遺伝子に関する変異のみに限定するよう指示する。これにより、変異同定部114による処理の結果に遺伝子パネルに関する情報が反映されることになる。
(遺伝子パネルに関する情報の入力)
ここでは、図6のステップS107に示す、遺伝子パネルに関する情報の入力を受け付ける処理について、図11を用いて説明する。図11は、遺伝子パネル関する情報の入力を受け付ける処理の流れの一例を示すフローチャートである。
ここでは、制御部11が遺伝子パネルに関する情報を入力するためのGUIを入力部17に表示させて、操作者に遺伝子パネルに関する情報を入力させる構成を例に挙げて説明する。ここでは、入力部17が、操作者に対して提示したGUIに対する入力操作が可能なタッチパネルを備えた構成である場合を例に挙げて説明する。
まず、情報処理装置1の制御部11は、入力部17に遺伝子パネルに関する情報を操作者に選択させるためのGUIを表示させる。GUIに対する操作者の入力操作に基づいて、遺伝子パネルに関する情報の取得を行う(ステップS201)。
情報選択部112は、GUIとして表示させた情報のうち、操作者によって選択された情報に基づいて遺伝子パネル関連情報データベース121を検索し、選択された情報に対応する遺伝子パネルに関する情報を読み出す。
また、情報処理装置1は、医療機関210から受け付けた解析依頼に含まれる遺伝子パネルに関する情報を読み出す。
選択された情報に対応する遺伝子パネルが、遺伝子パネル関連情報データベース121に登録されており(ステップS202にてYES)、かつその遺伝子パネルが医療機関210から受け付けた解析依頼に含まれる遺伝子パネルと一致している場合(ステップS203にてYES)には、情報選択部112は該入力を受け付ける。そして、情報選択部112は、入力部17に対し入力された遺伝子パネルが使用可能である旨のメッセージを表示する(ステップS204)。
一方、選択された情報に対応する遺伝子パネルが、遺伝子パネル関連情報データベース121に登録されていない場合、すなわち、未登録の遺伝子パネルが選択された場合(ステップS202にてNO)、情報選択部112は、情報選択部112は入力部17に、入力された遺伝子パネルが使用不可である旨のメッセージを表示し(ステップS205)、情報処理装置1による解析を禁止する。
この場合、遺伝子パネルが使用不可である旨のメッセージに代えてエラーを知らせるメッセージを表示させてもよい。このようなメッセージとしては、例えば、「選択された遺伝子パネルは登録されていません。」というメッセージであってもよいし、さらに「遺伝子パネルに関する情報を入力し直してください」などの再入力を促すメッセージを加えたものであってもよい。
また、選択された情報に対応する遺伝子パネルが、医療機関210から受け付けた解析依頼に含まれる遺伝子パネルと一致していない場合(ステップS203にてNO)には、情報選択部112は入力部17に、入力された遺伝子パネルが使用不可である旨のメッセージを表示し(ステップS205)、情報処理装置1による解析を禁止する。
この場合にも、遺伝子パネルが使用不可である旨のメッセージに代えてエラーを知らせるメッセージを表示させてもよい。このようなメッセージとしては、例えば、「選択された遺伝子パネルがオーダと異なります。」というメッセージであってもよいし、さらに「遺伝子パネルに関する情報を入力し直してください」などの再入力を促すメッセージを加えたものであってもよい。
このような処理により、不適切な遺伝子パネルを使用してシーケンスを行ったり、また、不要な解析動作を実行したりすることが防止され、遺伝子パネルの無駄な使用や遺伝子解析システム100の無駄な稼働をなくすことができる。
(遺伝子パネルに関する情報の入力に用いられるGUIの例)
続いて、図12を用いて、遺伝子パネルに関する情報を操作者に入力させるGUIについて説明する。図12は、遺伝子パネルに関する情報の入力に用いられるGUIの例を示す図である。
図12に示すように、遺伝子パネルに関する情報として、「xxxxx」、「yyyyy」などの遺伝子パネル名のリストをGUIに表示し、リストに示した遺伝子パネルの中から所望の遺伝子パネルを操作者に選択させてもよい。
GUIに表示される遺伝子パネル名のリストは、遺伝子パネル関連情報データベース121に登録されている、遺伝子パネルIDが付与された遺伝子パネルの遺伝子パネル名を基に表示される。
図12に示すGUIでは、「遺伝子パネル2(遺伝子パネル名:「yyyyy」)」が操作者によって選択された様子が示されている。情報選択部112は、選択された遺伝子パネル名「yyyyy」に関連付けられた遺伝子パネルIDをキーとして用い、遺伝子パネル関連情報データベース121を検索して、入力された遺伝子パネル名に対応する遺伝子パネルに関する情報を取得する。
(遺伝子パネル関連情報データベース121)
次に、入力部17を介して遺伝子パネルに関する情報が入力された場合に、情報選択部112が参照する遺伝子パネル関連情報データベース121に記憶されているデータについて、図13を用いて説明する。図13は、遺伝子パネル関連情報データベース121のデータ構造の例を示す図である。
遺伝子パネル関連情報データベース121には、図13に示すデータ121Aのように、解析対象となり得る遺伝子の名称および遺伝子毎に付与された遺伝子IDが、遺伝子パネル毎に記憶されている。遺伝子パネル「Aパネル」「Bパネル」「Cパネル」は、複数の疾患に関連する、複数の遺伝子における複数の異常を一括で分析することが可能な遺伝子パネル(いわゆる「ラージパネル」)である。
また、遺伝子パネル関連情報データベース121には、図13に示すデータ121Bのように、選択可能な遺伝子パネルの名称、各遺伝子パネルに付与された遺伝子パネルID、各遺伝子パネルが解析対象としている遺伝子の遺伝子ID(関連遺伝子ID)、およびCDxフラグが関連付けられて記憶されている。CDxフラグは、CDx対象の遺伝子パネルか否かを示すフラグである。なお、CDx対象の遺伝子パネルとは、CDx対象の遺伝子変異を検出可能な遺伝子パネルである。なお、各遺伝子パネルについて、公的機関(例えば、日本の厚生労働省等)によってその使用が承認されているか否かに関する情報も対応付けられていてもよい。
図12に示すように、GUIに提示した遺伝子パネルの中から操作者に所望の遺伝子パネルを選択させた場合には、情報選択部112は、遺伝子パネル関連情報データベース121を参照して、選択された遺伝子パネル名に関連付けられた遺伝子パネルIDおよび関連遺伝子IDを抽出すればよい。
図14に示すように、GUIに提示した遺伝子名の中から解析対象の遺伝子を選択させた場合、情報選択部112は、遺伝子パネル関連情報データベース121を参照して、選択された遺伝子名に関連付けられた遺伝子ID、およびこれらの遺伝子IDを関連遺伝子IDに含む遺伝子パネルの遺伝子パネルIDを抽出する。
複数の疾患に関連する、複数の遺伝子における複数の異常を一括で分析することが可能な遺伝子パネルを用いたパネル検査を実施する場合、各試料が如何なる疾患に関連するものであるのかを入力させてもよい。例えば、図15に示すように、GUIに提示した疾患名のリストの中から、疾患を識別するための識別情報を選択させればよい。情報選択部112は、選択・入力された疾患名(または疾患ID)を、データ調整部113、変異同定部114、薬剤検索部118、品質管理部117、およびレポート作成部115などに出力する。なお、情報選択部112が、試料IDに基づいて、各試料IDに対応付けられている被検者の疾患名および疾患IDを自動で取得する構成であってもよい。
図7および図8に示すように、被検者由来の組織および血液などを収容している容器に付されているバーコードL11およびRFIDタグL21などの記録手段から、各試料の試料ID、被検者の疾患名、および疾患IDなどを読み取って取得する構成であってもよい。バーコードL11を読み取って試料IDおよび疾患IDなどを取得する場合、入力部17はバーコードリーダであればよい。RFIDタグL21から試料IDおよび疾患IDなどを取得する場合、入力部17は、RFIDタグL21からの信号を受信する機能を備える受信装置であればよい。
<遺伝子パネル関連情報データベース121の更新>
ここでは、遺伝子パネル関連情報データベース121に記憶されている情報の更新について、図16および図17を用いて説明する。図16および図17は、遺伝子パネル関連情報データベース121を操作者が更新する場合に用いられるGUIの例を示す図である。
遺伝子パネル関連情報データベース121に記憶されている情報の更新は、解析システム管理機関130から検査機関120に提供される更新パッチによって行われ得る。
なお、解析システム管理機関130からの更新パッチの提供は、システム利用料を納付済の検査機関120を対象にして行う構成であってもよい。例えば、解析システム管理機関130は、提供可能な更新パッチが存在すること、およびシステム利用料が支払われることが更新パッチの提供の条件である旨を検査機関120に通知してもよい。このように通知することによって、システム利用料の支払いを、検査機関120に対して適切に促すことができる。
複数の遺伝子を一括して更新する場合、図16に示すように、「登録ファイル名」を入力させる欄を表示させ、その欄に、「遺伝子パネル対象遺伝子.csv」など、遺伝子名が記載されたファイル名を入力させてもよい。図16に示す例では、この「遺伝子パネル対象遺伝子.csv」には、RET、CHEK2、PTEN、MEK1という複数の遺伝子名が含まれている。
ファイル名が入力された後に「登録」ボタンが押下されると、該ファイルに含まれている遺伝子名に対応する遺伝子に関する情報の更新要求が、検査機関IDと対応付けられ、通信部14を介して管理サーバ3に送信される。この更新要求の生成および検査機関IDとの対応付けは、例えば、図10の制御部11が行う構成であってもよい。
解析システム管理機関130は、管理サーバ3が受信した更新要求に含まれる遺伝子名に対して付与した遺伝子ID、および該遺伝子を解析対象とする遺伝子パネルに対して付与した遺伝子パネルIDを含む情報を情報処理装置1がダウンロードすることを許可する。
あるいは、操作者が遺伝子名を個別に入力して更新する場合、図17に示すように、「遺伝子名」を入力させる欄を表示させ、その欄に、「FBXW7」など、遺伝子名を入力させてもよい。
遺伝子名が入力された後に「登録」ボタンが押下されると、該遺伝子名に対応する遺伝子に関する情報の更新要求が、検査機関IDと対応付けられ、通信部14を介して管理サーバ3に送信される。解析システム管理機関130は、管理サーバ3が受信した更新要求に含まれる遺伝子名に対して付与した遺伝子ID、および該遺伝子を解析対象とする遺伝子パネルに対して付与した遺伝子パネルIDを含む情報を情報処理装置1がダウンロードすることを許可する。
なお、図16の「登録ファイル名」を入力させる欄、および図17の「遺伝子名」を入力させる欄には、入力候補をサジェスチョンとして表示させる構成を備えていてもよい。
例えば、表示させる入力候補の情報は、予め管理サーバ3から情報処理装置1に提供され、記憶部12に記憶されている。そして、入力させる欄のGUIに対するクリック操作を検出した場合に、更新可能な遺伝子名を入力候補としてすべて提示し、その中から操作者に選択させたり、操作者が入力した文字列と一致する更新可能な遺伝子名を入力候補として提示したりすればよい。あるいは、例えば、操作者が図17の「遺伝子名」を入力させる欄に「E」と1文字を入力した時点で、「EGFR」および「ESR」などの更新可能な遺伝子名のリストを表示し、そのリストの中から操作者に選択させるようにしてもよい。このように入力候補を提示することにより、操作者による入力誤りを防止することができる。
遺伝子パネル関連情報データベース121に、各遺伝子名と、該遺伝子の遺伝子IDと、該遺伝子がコードするタンパク質名とが関連付けられて記憶されていてもよい。
この場合、入力された文字列が遺伝子名ではなく、該遺伝子がコードするタンパク質などであった場合にも、情報選択部112は、遺伝子パネル関連情報データベース121を参照して、入力されたタンパク質名に関連付けられた遺伝子名および遺伝子IDを取得することができる。
なお、「遺伝子名」を入力させる欄にタンパク質名が入力され、登録ボタンが押下された場合に、該タンパク質名に関連付けられた遺伝子名を表示させて、操作者にこの遺伝子名で間違いないことを確認させるGUIを表示させてもよい。
(管理部116)
管理部116は、解析実行部110が動作した動作回数、解析した遺伝子数、および同定した権威の総数などを含む解析実績を、遺伝子パネルID、遺伝子IDと関連付けて、随時、解析実績ログ151に記憶させる。管理部116は、任意の頻度(例えば、日毎、週毎、月毎)に、解析実績ログ151から解析実績などを含むデータを読み出して、該データを検査機関IDと対応付けて通信部14を介して管理サーバに送信する。
(通信部14)
通信部14は、情報処理装置1が通信回線4を介して、管理サーバ3と通信するためのものである。通信部14から管理サーバ3に送信されるデータには、検査機関ID、遺伝子パネルID、遺伝子ID、解析実績、更新要求などが含まれ得る。また、管理サーバ3から受信するデータには、遺伝子パネルに関する情報、更新可能な遺伝子名などが含まれ得る。
(試料の遺伝子の塩基配列を解析するための処理の流れ)
ここでは、試料の塩基配列を解析するための処理の流れについて、図18を用いて説明する。図18は、試料の遺伝子の塩基配列を解析するための処理の流れの一例を示すフローチャートである。
まず図18のステップS31において、解析対象の遺伝子の配列を解析するための前処理が行われる。前処理には、試料および品質管理試料に含まれるDNAなどの核酸を断片化して、断片化された核酸を回収するまでの処理が含まれる。なお、医療機関210から提供された試料が組織および血液などである場合、組織および血液から核酸を抽出する処理も含まれる。この場合、1被検者から、組織から抽出された核酸を含む試料、および血液から抽出された核酸を含む試料が調製される。
次に、ステップS32において、前処理を終えた試料の遺伝子および品質管理試料に含まれる核酸の塩基配列がシーケンサー2によって読み取られる。
このステップS32は、具体的には、前処理の後に回収された解析対象となる1または複数の断片化された遺伝子の塩基配列が読み取られる工程である。配列情報は、この工程で読み取られた遺伝子の塩基配列を含んでいる。前処理の後に回収された解析対象となる1または複数の断片化された核酸は、「ライブラリ」と呼称されることもある。
続いて、ステップS33において、情報処理装置1は、読み取られた遺伝子の塩基配列を解析し、配列中の変異の有無、変異の位置、変異の種別等を特定する。読み取られた遺伝子の塩基配列を解析することによって、検出された遺伝子変異が同定される。
次に、品質管理試料を測定した場合、ステップS34において、品質管理部117は、パネル検査の品質を評価するための品質評価指標を生成する。情報処理装置1は、生成した品質評価指標に基づいて、行ったパネル検査の品質を評価してもよい。
最後に、情報処理装置1は、ステップS33にて同定された遺伝子変異に関連する情報等の解析結果、およびステップS34にて品質管理部117によって生成された品質評価指標などパネル検査の品質を示す情報を含むレポートを作成する。作成したレポートは、医療機関210に提供される。
本実施形態において使用することができるシーケンサー2の種類は特に限定されず、複数の解析対象を一度のランで解析することができるシーケンサーを好適に用いることができる。以下では、一例として、イルミナ社(サンディエゴ、CA)のシーケンサー(例えば、MySeq、HiSeq、NextSeqなど)、または、イルミナ社のシーケンサーと同様の方式を採用する装置を用いる場合について説明する。
イルミナ社のシーケンサーは、Bridge PCR法とSequencing−by−synthesisという手法との組合せにより、フローセル上で膨大な数の目的DNAを増幅させ、合成しながらシーケンシングを行うことができる。また、イルミナ社のシーケンサーは、複数の被検者の遺伝子の塩基配列を同時に解析することができる。
(a.前処理)
続いて、図18のステップS31の前処理の手順について図19〜22に示す流れに沿って説明する。図19〜22は、試料の遺伝子の塩基配列をシーケンサー2によって解析するための前処理の手順の一例を説明するフローチャートである。なお、以下では、配列解析の対象となる核酸がDNAである場合を例に挙げて説明する。
<抽出>
試料および品質管理試料のそれぞれの塩基配列を解析する場合、まず、解析対象の遺伝子を含む試料、および用いる遺伝子パネルに対応する品質管理試料からDNAを抽出する(図19のステップS300)。
この場合、試料由来のDNA、および品質管理試料由来のDNAに対してそれぞれステップS301以降の処理を行う。
品質管理試料から抽出されたDNAに対して、試料から抽出されたDNAと同じ処理を行うことにより、パネル検査における配列解析の品質を評価するために有用な品質評価指標を生成することができる。
なお、品質管理試料の利用法は、これに限定されない。例えば、図20に示すように、ステップS300aにて品質管理試料のDNAのみを抽出し、ステップS301以降の処理を行ってもよい。
あるいは、図21に示すように、品質管理試料として変異を含む品質管理試料と、変異を含まない品質管理試料とを準備し、これらからDNAを抽出してもよい(ステップS300b)。
変異を含む品質管理試料由来のDNAの解析結果と、変異を含まない品質管理試料由来のDNAの解析結果とを比較することにより、パネル検査における配列解析の品質を評価するために有用な品質評価指標を生成することができる。
または、図22に示すように、解析対象の遺伝子を含む試料、変異を含む品質管理試料、および変異を含まない品質管理試料とからDNAを抽出してもよい(ステップS300c)。
解析対象の遺伝子を含む試料が、血液試料および組織(例えば、腫瘍細胞)試料の組み合わせであってもよい。この場合、1被検者について、組織から抽出された核酸を含む試料、および血液から抽出された核酸を含む試料が個別の試料としてシーケンシングに供される。
なお、ステップS301以降の処理において、試料由来のDNA、および品質管理試料由来のDNAを個別に処理するのではなく、試料由来のDNA、および品質管理試料由来のDNAを混合して、ステップS301以降の処理を行ってもよい。これにより、ステップS301以降のすべての処理において、両者の条件が同じになるため、より正確な品質評価指標を生成し得る。また、シーケンサー2に用いるフローセルのレーンの一部を、品質管理試料から調製されたDNA断片のためだけに使用する必要が無くなる。これにより、限られた数のレーンを、解析対象の遺伝子を含む試料由来のDNA断片のために有効に用いることができる。
なお、この場合、(1)品質管理試料に含まれる遺伝子である標準遺伝子と、パネル検査の解析対象遺伝子とを適切に断片化してライブラリを調製するための試薬、および(2)品質管理試料に含まれる標準遺伝子とパネル検査の解析対象遺伝子とを断片化した後に、それぞれのDNA断片を適切に捕捉するためのRNAベイトを含む試薬を利用することが望ましい。
<品質管理試料>
一実施形態では、品質管理試料は、複数の標準遺伝子を含む組成物である。品質管理試料は、複数の標準遺伝子を混合することにより調製され得る。これらの標準遺伝子を混合して単一の容器に収容した試薬を品質管理試料として検査機関120に提供することができる。また、品質管理試料として複数の標準遺伝子を別々の容器に収容してキットの形態として検査機関120に提供されてもよい。品質管理試料は、溶液の状態であってもよいし、固体(粉末)の状態であってもよい。溶液で提供される場合の溶媒としては、水、TEバッファーなど当業者に公知の水性溶媒を使用することができる。
品質管理試料について、図23を用いて説明する。図23は、品質管理試料の一例を説明する図である。
図23の(a)は、遺伝子パネルを用いたパネル検査において解析対象となり得る遺伝子のリストを示している。このリストの中の1または複数の遺伝子が、遺伝子パネルの解析対象の遺伝子として関連付けられている(図13のデータ121B参照)。
図23の(b)及び(c)は、パネル検査において検出対象となる変異種別の例を示している。検出対象となる変異種別には、「SNV(一塩基多型)」、「Insertion(挿入)」および「Deletion(欠失)」(図中では、「InDel」と表記されている)、「CNV(コピー数多型)」、および「Fusion(融合)」を示している。
遺伝子パネルAに対応する品質管理試料A1は、SNVを含む標準遺伝子、Insertionを含む標準遺伝子、Deletionを含む標準遺伝子、CNVを含む標準遺伝子、およびFusionを含む標準遺伝子のうち、少なくとも2つ含んでいる。たとえば、品質管理試料A1は、標準遺伝子として、野生型に対して「SNV」を含む遺伝子Aの部分配列と、野生型に対して「Insertion」を含む遺伝子Bの部分配列を含む。
図23の(d)は、遺伝子パネルAを用いる遺伝子検査の解析結果と品質管理試料の解析結果の出力例である。この例では、遺伝子パネルAの解析結果として、GNA11、AKT1およびPIK3CAのSNV、EGFRのLong insertionおよびLong deletion、SLC34A2とROS1の融合遺伝子、CCDC6とRETの融合遺伝子、METの遺伝子増幅、MYC−Nの遺伝子増幅、およびMYC−Cの遺伝子増幅が検出されている。遺伝子パネルAの品質管理試料は、GNA11のSNVを含む標準遺伝子、AKT1のSNVを含む標準遺伝子、PIK3CAのSNVを含む標準遺伝子、EGFRのLong insertionを含む標準遺伝子、EGFRのLong deletionを含む標準遺伝子、SLC34A2とROS1の融合配列を含む標準遺伝子、CCDC6とRETの融合配列を含む標準遺伝子、METの遺伝子増幅を含む標準遺伝子、MYC−Nの遺伝子増幅を含む標準遺伝子、およびMYC−Cの遺伝子増幅を含む標準遺伝子を含有する。ここでは、品質管理試料が10種の標準遺伝子を含む例を示しているが、これに限定されない。
品質管理試料に含まれる第1の標準遺伝子と第2の標準遺伝子は、異なるDNA分子であってもよいし、これらが連結していてもよい。第1の標準遺伝子と第2の標準遺伝子が連結している場合は、第1の標準遺伝子の配列と、第2の標準遺伝子の配列とが直接連結されていてもよいし、第1の標準遺伝子の配列と、第2の標準遺伝子の配列との間にスペーサー配列を介在させてもよい。
当該スペーサー配列は、遺伝子検査に供される試料に含まれる可能性の低い配列が好ましい。たとえば、アデニン塩基のみが複数個(たとえば、100個)連続した配列であり得る。
標準遺伝子は、解析対象の遺伝子パネルに含まれる遺伝子であってもよいし、含まれない遺伝子であってもよい。遺伝子検査の対象となる生物種の遺伝子であってもよいし、異なる生物種の遺伝子であってもよい。たとえば、遺伝子検査の対象がヒトである場合は、ヒト以外の動物、植物、細菌などの遺伝子であり得る。
標準遺伝子の合成方法は特に限定されない。たとえば、公知のDNA合成機で合成することができる。また、鋳型となる生物由来の遺伝子をPCRにより増幅し、精製することにより取得してもよい。DNA合成機で合成した標準遺伝子を鋳型としてPCR増幅し、精製することにより取得してもよい。
標準遺伝子の長さは特に限定されない。たとえば、標準遺伝子の長さは50ヌクレオチド以上であり得る。PCRで増幅する場合は、2000ヌクレオチド以内であれば簡便に増幅することができ、好適である。DNA合成機で合成する場合は数kbpまで合成することができる。
品質管理試料中の標準遺伝子の濃度は特に限定されない。たとえば、試料中のDNA濃度と同程度とすることができる。
品質管理試料中の標準遺伝子は、1本鎖であってもよいし、2本鎖であってもよい。また、直鎖状であってもよいし、環状であってもよい。
例えば、(1)置換変異を含む標準遺伝子が調製され、(2)融合変異を含む標準遺伝子が調製され、(3)品質管理試料と試料とを混合することにより配列解析用が調製される。次に、(4)配列解析用試料中の試料由来のゲノムDNAおよび標準遺伝子が前処理(断片化、DNA濃縮、タグプライマーを用いたPCR増幅等)および配列解析に供され、標的遺伝子の配列情報が取得される。配列解析に際して品質管理のための指標が取得され、標準DNA分子の配列解析の指標に基づき、標的遺伝子の解析結果の品質が評価される。操作者は当該品質評価の結果に基づき、解析対象遺伝子の解析結果の信頼性を判断することができる。
なお、上記の例では、(3)において品質管理試料と被検者由来の試料とが混合されるが、これに限定されない。例えば、品質管理試料と試料とを混合せず、各々を(4)の配列解析に供してもよい。
また、同じ遺伝子パネルを用いたパネル検査が繰り返し行われる場合、同じ品質管理試料が繰り返し使用されてもよい。図24のデータ121Dに示すように、各品質管理試料に含まれる標準遺伝子および変異種別が異なる複数種類の品質管理試料が、各遺伝子パネルに対応する品質管理試料として複数用意されていてもよい。
標準遺伝子の組み合わせが異なる複数の品質管理試料をパネル検査毎、週毎、月毎に使い分けることにより、品質管理部117は、パネル検査において変異を検出する処理の品質を評価するための品質評価指標を、より多様な標準遺伝子の変異を検出することによって生成することができる。よって、パネル検査の品質管理の網羅性が向上する。
例えば、遺伝子パネルAに対応する品質管理試料である品質管理試料Aと品質管理試料Bを図25に示す。品質管理試料Aに含まれる標準遺伝子a1、標準遺伝子a2、標準遺伝子a3が、品質管理試料Bでは、標準遺伝子b1、標準遺伝子b2、標準遺伝子b3にそれぞれ変更されている。
<断片化>
次に、図26の(a)に示すように、試料(試料由来のゲノムDNAおよび/または標準遺伝子)を、シーケンサー2で配列を読み取るための長さに断片化する(図19〜図22のステップS301)。試料DNAの断片化は、例えば、超音波処理や、核酸を断片化する試薬による処理などの公知の方法によって行うことができる。得られるDNA断片(核酸断片)は、例えば、数十から数百bpの長さであり得る。イルミナ社のシーケンサーを使用したシーケンシングを行う場合、例えば、150〜200bpのDNA断片が好適である。
<アダプター配列の付与>
続いて、図26の(b)に示すように、ステップS301で得られたDNA断片の両端(3´末端および5´末端)に、使用するシーケンサー2の種類やシーケンシングプロトコルに対応するアダプター配列を付与する(図19〜図22のステップS302)。但し、本工程は、シーケンサー2が、イルミナ社のシーケンサー、または、イルミナ社のシーケンサーと同様の方式を採用する装置である場合には必須の工程であるが、他の種類のシーケンサー2を用いる場合には、省略できる場合もある。
アダプター配列は、後の工程においてシーケンシングを実行するために使用する配列であり、一実施形態において、Bridge PCR法において、フローセルに固定化されている捕捉分子であるオリゴDNAにハイブリダイズするための配列であり得る。
一態様において、図26の(b)の上段に示すように、DNA断片の両端に直接アダプター配列(例えば、図26中のアダプター1配列およびアダプター2配列)を付加してもよい。付加されるアダプター1配列およびアダプター2配列の少なくとも片側には、後のシーケンシングで利用されるシーケンスプライマーの配列と同じ配列が含まれている。なお、アダプター1配列およびアダプター2配列は同じ塩基配列であってもよい。
DNA断片へのアダプター配列の付加は、当該分野において公知の手法を用いることができる。例えば、DNA断片に対して、解析対象の遺伝子の配列およびアダプター配列を含むPCRプライマーを用いたPCR反応を行うことによってアダプター配列を付加してもよい。あるいは、DNA断片を平滑化し、アダプター配列をライゲーションしてもよい。
<DNA断片の濃縮>
次に、図27に示すように、アダプター配列を付与したDNA断片に対し、ビオチン化RNAベイトライブラリをハイブリダイズさせる(図19〜図22のステップS303)。
ビオチン化RNAベイトライブラリは、解析対象の遺伝子とハイブリダイズするビオチン化RNA(以下、RNAベイトと称する。)によって構成されている。RNAベイトの長さは任意であるが、例えば、特異性を高めるために120bp程度のロングオリゴRNAベイトを使用してもよい。
なお、本実施形態におけるシーケンサー2を用いたパネル検査は、特定の遺伝子を解析対象の遺伝子とする検査であってもよいし、多数の遺伝子(例えば、100以上)を解析対象の遺伝子とする検査であってもよい。
パネル検査で用いられる試薬には、当該多数の遺伝子の各々に対応するRNAベイトのセットが含まれる。パネルが異なれば、検査対象の遺伝子の数および種類が異なるため、パネル検査で用いられる試薬に含まれるRNAベイトのセットも異なる。解析対象の遺伝子とは異なる遺伝子を標準遺伝子として用いる場合は、標準遺伝子に結合するベイトも用意する必要がある。
そして、図28に示すように、解析対象となるDNA断片を回収する(図19〜図22のステップS304)。詳細には、図28の上段に示すように、ビオチン化RNAベイトライブラリをハイブリダイズさせたDNA断片に対し、ストレプトアビジンと磁性ビーズとが結合したストレプトアビジン磁性ビーズを混合する。
これにより、図28の中段に示すように、ストレプトアビジン磁性ビーズのストレプトアビジン部分と、RNAベイトのビオチン部分とが結合する。そして、図28の下段に示すように、ストレプトアビジン磁性ビーズを、磁石で集磁するとともに、RNAベイトとハイブリダイズしていない断片(即ち、解析対象とならない遺伝子のDNA断片)を洗浄により除去する。
これにより、RNAベイトとハイブリダイズしたDNA断片、すなわち、解析対象となるDNA断片を選択的に回収・濃縮することができる。この処理を試料毎に行うことによって、各試料のライブラリが調製される(図60の工程I参照)。
(測定試料の調製)
複数の被検者の遺伝子の塩基配列を同時に解析する場合、フローセルに注入される測定試料は、複数の試料のライブラリが混合され調製される(図60の工程II参照)。シーケンシングによって読み取られる塩基配列の配列情報には、複数の被検者由来の試料由来のDNAの配列情報が混ざることになる。そこで、シーケンシングの前に、被検者由来の試料から調製されたDNA断片には、インデックス配列が付加される。
<インデックス配列の付与>
複数の被検者由来の試料のDNAの配列情報の中から、被検者毎あるいは試料毎に塩基配列を仕分けることを可能とするために、ライブラリ毎に異なるインデックス配列が付加される。図29は、フローセルに注入される測定試料を調製する手順の一例を説明するフローチャートである。
図29のステップS304aにおいて、被検者由来の試料から調製したDNA断片にインデックス配列を付加する。このとき、同じフローセルに注入される測定試料において混合されている被検者由来の遺伝子のライブラリの各々には、互いに異なるインデックス配列が付加される。
これにより、異なる被検者由来の試料の遺伝子に関する塩基配列の配列情報は、付加されているインデックス配列の塩基配列に基づいて互いに区別され得る。また、解析対象ではない核酸(例えば、被検者由来ではない遺伝子、品質管理試料由来の遺伝子など)にはインデックス配列を付加しないことによって、被検者由来の試料の塩基配列の配列情報のみを解析対象とすることも可能である。
DNA断片へのインデックス配列の付加は、当該分野において公知の手法を用いることができる。例えば、アジレント社のSureSelect XTを用いる場合、図22のステップS304において回収されたDNA断片に対して、インデックス配列を含むPCRプライマーを用いたPCR反応を行うことによって、DNA断片にインデックス配列が付加される。
なお、図29では、図22のステップS304において回収されたDNA断片に対して、インデックス配列を付加する場合を例に挙げたがこれに限定されない。インデックス配列の付加は、図22のステップS304より前に行われてもよい。例えば、アジレント社のSureSelect XT2を用いる場合、図22のステップS302の段階で、インデックス配列を含むPCRプライマーを用いたPCR反応を行うことによって、DNA断片にインデックス配列が付加される。
あるいは、DNA断片へのアダプター配列の付加に合わせてインデックス配列を付加してもよい。例えば、DNA断片に対して、解析対象の遺伝子の配列、インデックス配列、およびアダプター配列を含むPCRプライマーを用いたPCR反応を行うことによってインデックス配列を付加してもよい。
<測定試料シート>
次に、図29のステップS304bにおいて、インデックス配列が付加された被検者由来の試料から調製したライブラリを複数混合して測定試料が調製される。
測定試料の調製では、試料IDと、各試料のライブラリに付加されたインデックス配列およびインデックス配列IDが関連付けられた測定試料シートが作成され管理される。図30は、シーケンシングに供する測定試料の調製時に作成される測定試料シートの一例を示す図である。
測定試料シートには、測定試料に含まれるすべての試料のライブラリに共通の設定情報、および測定試料に含まれる各試料のライブラリに個別の試料情報が含まれていてもよい。設定情報は、図30に示すように、「シーケンス実施日」、シーケンサー2の操作者のIDである「オペレータID」、検査毎に割り当てられるIDである「セッションID」、およびシーケンサー2に適用されるアプリケーションの種別などを含んでいてもよい。
また、設定情報は、測定試料の調製に用いられた試料のライブラリの調製方法に関する情報である「試料遺伝子」を含んでいてもよい。「試料遺伝子」の欄には、例えば「PCR産物」あるいは「アンプリコン」などが記入され得る。
さらに、設定情報は、シーケンサー2によって読み取る塩基配列の長さの設定値である「リード配列の長さ」、アダプター1配列およびアダプター2配列に関する情報などを含んでいてもよい。ここで、リード配列とは、シーケンサー2によるシーケンシングによって読み取られた塩基配列である。
試料情報は、図30に示すように、フローセルの「レーン番号」ごとに、「試料ID」、「被検者ID」、試料に付加されたインデックス配列の「インデックス配列ID」および該インデックス配列の塩基配列である「インデックス配列」などを含んでいてもよい。
測定試料シートは、図2のシーケンサー2あるいは補助装置2aが操作者によって入力された測定試料シートを取得する構成であってもよいし、図3の情報処理装置1の入力部17から操作者に入力させる構成であってもよい。
<測定試料の調製方法>
ここでは、場合における試料の調製方法について図31〜33を用いて説明する。なお、図31〜33では、1回のシーケンシングランに供する測定試料に含めることが推奨されている試料数が8である場合を例に挙げて説明する。
図31は、解析対象となる被検者由来の試料から調製されたライブラリを複数混合することによって測定試料を調製する方法について説明する図である。図示のように、解析対象の被検者由来の試料の数が推奨されている試料数である場合には、図31に示すように、これらを混合して測定試料を調製することができる。
このように、測定試料は、推奨されている数の被検者由来の試料から調製されたライブラリを混合して、予め定められた核酸の量となるように調製される。ここで、「予め定められた核酸の量」とは、シーケンサー2に適合するフローセルの仕様、および遺伝子パネルに含まれるプライマーおよびプローブなどの量に合わせて推奨されている核酸の量を意図している。ここで、核酸の量とは、核酸のモル数である。
核酸のモル濃度は、例えば、260nmにおける吸光度、DNA断片の分子量、および核酸のモル比吸光係によって算出され得る。図29のステップS304aにおいてインデックス配列を付加するためのPCR反応を行った後のPCR産物を精製したのち、260nmにおける吸光度を測定する。測定された吸光度とモル比吸光係によって、PCR産物の濃度(例えば、ng/μl)が算出される。
例えば、PCR産物として得たライブラリの長さが100bpであり、濃度がx(ng/μl)である場合、デオキシリボヌクレオチドの平均分子量として330であることを用いれば、PCR産物のモル濃度は、x/33(pmol/μl)と算出される。このライブラリの核酸を予め定められた量(例えば、y(pmol))混合する場合、オートピペットなどを利用して33×x/y(μl)を測定試料の調製に用いればよい。
解析対象となる被検者由来の試料数が不足している場合、被検者由来の試料から調製されたライブラリを、解析対象の被検者由来の試料の数が推奨されている試料数である場合に使用する量と同じだけ混合しても、測定試料の核酸の量は、予め定められた核酸の量とはならない。しかし、予め定められた核酸の量となるように、被検者由来の試料から調製されたライブラリの量を増やしたり減らしたりして測定試料を調製した場合、1試料あたりに取得される配列情報のデータ量が、シーケンシングランごとに変動してしまう。
そこで、解析対象となる被検者由来の試料数が不足していても、被検者由来の試料から調製されたライブラリを、解析対象の被検者由来の試料の数が推奨されている試料数である場合に使用する量と同じだけ混合しつつ、測定試料の核酸の量を予め定められた核酸の量とすることが望ましい。このような測定試料の調製方法について、図32および33を用いて説明する。
図32は、解析対象となる被検者由来の試料数が不足している場合の測定試料の調製方法の一例を説明する図である。図示のように、解析対象の被検者由来の試料の数が推奨されている試料数未満である場合、アダプター配列が付与されている核酸であって被検者由来ではない核酸を用いて不足分を補い、測定試料を調製すればよい。なお、測定試料中に含まれる1試料由来の核酸の量のばらつきは±10%の範囲内であることが望ましい。
この場合、測定試料中に含まれる被検者由来でない核酸の量が、少なくとも測定試料中に含まれる1試料あたりの核酸の量に相当する量またはそれ以上となってもよい。被検者由来ではない核酸としては、イルミナ社から提供されている「PhiX DNA」などが挙げられるが、これに限定されるものではない。例えば、遺伝子パネルの品質管理試料の核酸などにアダプター配列を付加したものを使用してもよい。なお、シーケンサー2における塩基配列の読み取りの障害とならないよう、同じ塩基配列の核酸が多く含まれる低ダイバーシティの核酸(すなわち、配列の多様性が低い核酸)よりも、多様な塩基配列の核酸が混在する高ダイバーシティの核酸(すなわち、配列の多様性が高い核酸)であることが望ましい。
あるいは、解析対象の被検者由来の試料の数が推奨されている試料数未満である場合、図33に示すように、解析済(すなわち、今では解析対象ではない)の被検者由来の試料から調製されたライブラリを代替に用いて、測定試料を調製すればよい。なお、解析済の被検者由来の試料から調製されたライブラリとしては、測定試料を調製するために混合される、解析対象の被検者由来の試料から調製されたライブラリに付加されたインデックス配列のいずれとも異なるインデックス配列が付加されたライブラリを用いる。
例えば、解析対象の被検者由来の試料から調製されたライブラリには第1のインデックス配列が付加されている場合、第1のインデックス配列とは異なる第2のインデックス配列が付加されている解析済の被検者由来の試料から調製されたライブラリを用いて、測定試料が調製すればよい。
なお、この場合も、測定試料中に含まれる1試料由来の核酸の量のばらつきは±10%の範囲内であることが望ましい。測定試料中に含まれる解析済の被検者由来の核酸の量は、少なくとも測定試料中に含まれる1試料あたりの核酸の量に相当する量またはそれ以上となってもよい。
図32および図33に示す方法によって測定試料を調製すれば、測定試料中の被検者由来の試料から調製された各ライブラリの量には変動が無いため、1試料あたりに取得される配列情報のデータ量が、シーケンシングランごとに変動しない。すなわち、あるシーケンシングランにおいて解析対象となる第一の被検者群の被検者数と、別のシーケンシングランにおいて解析対象となる第二の被検者群の被検者数とが異なっていても、第一の被検者群の被検者数と第二の被検者群の被検者数との差に応じて、測定試料中の被検者由来ではない核酸の量を変えて調節すればよい。
(シーケンサー2によるリード配列の読み取り)
続いて、図35〜図37を適宜参照しながら、図18のステップS32の手順について図34に示す流れに沿って説明する。図34は、試料DNAの塩基配列をシーケンサー2によって解析する手順の一例を説明するフローチャートである。
図35の左欄から中央欄に示すように、濃縮されたDNA断片からストレプトアビジン磁性ビーズおよびRNAベイトを外し、PCR法によって増幅することにより、前処理を完了させる。ここで、増幅されたDNA断片に対して、インデックス配列を含むPCRプライマーを用いたPCR反応を行うことによって、DNA断片にインデックス配列が付加されてもよい。
なお、図35には、インデックス配列がDNA断片の5’末端側および3´末端側の双方に付加されている例を示しているがこれに限定されない。インデックス配列は、DNA断片の5’末端側のみ、または3’末端側のみに付加されてもよい。
次に、図35の右欄に示すように、図31〜33に示す方法によって調製された測定試料がフローセルに注入される(図34のステップS305)。フローセルに注入される測定試料には、アダプター配列およびインデックス配列が付加されている核酸とアダプター配列のみが付加されている核酸とが混在している。
続いて、図36に示すように、フローセル上において、Bridge PCR法により、解析対象となるDNA断片を増幅する(図34のステップS306)。
すなわち、解析対象となるDNA断片(例えば、図36中のTemplate DNA)は、上述した前処理によって、両末端に2種類の異なるアダプター配列(例えば、図36中のアダプター1配列およびアダプター2配列)が付加された状態であり(図36の「1」)、このDNA断片を1本鎖にし、5’末端側のアダプター1配列をフローセル上に固定させる(図36の「2」)。
フローセル上には予め5’末端側のアダプター2配列が固定されており、DNA断片の3’末端側のアダプター2配列が、フローセル上の5’末端側のアダプター2配列と結合することにより、橋渡しをしたような状態となり、ブリッジが形成される(図36の「3」)。
この状態でDNAポリメラーゼによってDNA伸長反応を行い(図36の「4」)、変性させると、2本の1本鎖DNA断片が得られる(図36の「5」)。
このようなブリッジの形成、DNA伸長反応および変性をこの順に繰り返すことにより、多数の1本鎖DNA断片を局所的に増幅固定させて、クラスターを形成することができる(図36の「6」〜「10」)。
そして、図37に示すように、クラスターを形成する1本鎖DNAを鋳型として、Sequencing−by−synthesisにより、配列を読み取る(図34のステップS307)。
まず、フローセル上に固定された1本鎖DNA(図37の上段左欄)に対し、DNAポリメラーゼ、および、蛍光標識され、3’末端側がブロックされたdNTPを添加し(図37の上段中央欄)、さらに、シーケンスプライマーを添加する(図37の上段右欄)。
シーケンスプライマーは、例えば、アダプター配列の一部分にハイブリダイズするように設計されていればよい。換言すれば、シーケンスプライマーは、試料DNA由来のDNA断片を増幅するように設計されていればよく、インデックス配列を付加した場合には、さらにインデックス配列を増幅するように設計されていればよい。
シーケンスプライマーを添加後、DNAポリメラーゼによって3’末端ブロック蛍光dNTPの1塩基伸長反応を行う。3’末端側がブロックされたdNTPを用いるため、1塩基分伸長したところで、ポリメラーゼ反応は停止する。そして、DNAポリメラーゼを除去し(図37の中段右欄)、1塩基伸長した1本鎖DNA(図37の下段右欄)に対し、レーザー光により塩基に結合している蛍光物質を励起させて、そのときに起こる発光を写真として記録する(図37の下段左欄)。
写真は、蛍光顕微鏡を用いて、4種類の塩基を決定させるために、波長フィルタを変更しながら、A、C、G、Tそれぞれに対応する蛍光色毎に撮影する。すべての写真を取り込んだ後、写真データから塩基を決定する。そして、蛍光物質および3’末端側をブロックしている保護基を除去して、次のポリメラーゼ反応に進む。この流れを1サイクルとして、2サイクル目、3サイクル目と繰り返していくことにより、全長をシーケンシングすることができる。
以上の手法によれば、解析できる鎖長は150塩基×2までに達し、ピコタイタープレートよりもはるかに小さい単位での解析が可能であるため、高密度化することにより、1回の解析において40〜200Gbという膨大な配列情報を入手することができる。
(遺伝子パネル)
シーケンサー2によるリード配列の読み取りに用いられる遺伝子パネルは、上述したように、複数の解析対象を一度のランで解析するための解析キットを意味し、一実施形態において、複数の疾病に関する複数の遺伝子配列を解析するための解析キットであり得る。
本明細書中にて使用される場合、用語「キット」は、特定の材料を内包する容器(例えば、ボトル、プレート、チューブ、ディッシュなど)を備えた包装が意図される。好ましくは各材料を使用するための指示書を備える。本明細書中にてキットの局面において使用される場合、「備えた(備えている)」は、キットを構成する個々の容器のいずれかの中に内包されている状態が意図される。また、キットは、複数の異なる組成物を1つに梱包した包装であり得、ここで、組成物の形態は上述したような形態であり得、溶液形態の場合は容器中に内包されていてもよい。
キットは、物質Aおよび物質Bを同一の容器に混合して備えていても別々の容器に備えていてもよい。「指示書」には、キット中の各構成を、治療および/または診断に適用する手順が示されている。なお、「指示書」は、紙またはその他の媒体に書かれていても印刷されていてもよく、あるいは磁気テープ、コンピュータ読み取り可能ディスクまたはテープ、CD−ROMなどのような電子媒体に付されてもよい。キットはまた、希釈剤、溶媒、洗浄液またはその他の試薬を内包した容器を備え得る。さらに、キットは、治療および/または診断に適用するために必要な器具をあわせて備えていてもよい。
一実施形態において、遺伝子パネルは、上述した、品質管理試料、核酸を断片化する試薬、ライゲーション用試薬、洗浄液、PCR試薬(dNTP、DNAポリメラーゼなど)などの試薬、および磁性ビーズのうち一つ以上を備えていてもよい。また、遺伝子パネルは、断片化したDNAにアダプター配列を付加するためのオリゴヌクレオチド、断片化したDNAにインデックス配列を付加するためのオリゴヌクレオチド、RNAベイトライブラリなどのうち一つ以上を備えていてもよい。
なお、各遺伝子パネルが備えるインデックス配列の場合、当該遺伝子パネル固有の、当該遺伝子パネルを識別するための配列であり得る。また、各遺伝子パネルが備えるRNAベイトライブラリは、当該遺伝子パネルの各検査遺伝子に対応するRNAベイトを含む、当該遺伝子パネル固有のライブラリであり得る。
(測定試料シートの情報に基づいた情報処理装置1の制御)
図30に示す測定試料シートに含まれる各情報が、情報処理装置1の入力部17から操作者に入力された場合、情報選択部112は、入力された情報を、データ調整部113、変異同定部114、薬剤検索部118、およびレポート作成部115の少なくとも何れか1つに提供する。
これにより、情報処理装置1は、測定試料シートの試料情報に基づいて、シーケンサー2から取得した全配列情報のうち、所定のインデックス配列が付加された、被検者由来の試料の遺伝子の配列情報のみを選択的に解析することができる。
測定試料シートの情報に基づいた情報処理装置1の制御について、図38および図39を用いて説明する。図38は、図32に示す方法で測定試料を調製した場合の情報処理装置の処理の流れの一例を示すフローチャートである。図39は、図33に示す方法で測定試料を調製した場合の情報処理装置の処理の流れの一例を示すフローチャートである。
図32に示す方法で測定試料を調製した場合、被検者由来の核酸にはアダプター配列もインデックス配列も付加されているが、被検者由来ではない核酸にはアダプター配列が付加されているのみである。
例えば、前出のイルミナ社から提供されているPhi Xは、既にアダプター配列がライゲートされており、被検者由来ではない核酸として好適に用いることができる。
情報処理装置1は、測定試料シートにおいてインデックス配列に関連付けられた配列情報(すなわち、インデックス配列を含む配列情報)であれば(ステップS51aにてYES)、解析を行い(ステップS52)、インデックス配列に関連付けられた配列情報でなければ(ステップS51aにてNO)、インデックス配列に関連付けられた配列情報に対して行う解析の少なくとも一部の解析を行わない(ステップS53)。すなわち、情報処理装置1は、シーケンサー2から取得した全配列情報のうち、インデックス配列が付加されたライブラリの核酸の配列情報に対しては選択的に図6に示すステップS109以降の処理を行い、インデックス配列が付加されていない核酸の配列情報に対しては図6に示すステップS109以降の処理を行わない。
あるいは、図33に示す方法で測定試料を調製した場合、解析済の被検者由来の核酸には、解析対象となる被検者由来の核酸に付加されているインデックス配列とは異なるインデックス配列が付加されている。ここでは、解析対象となる被検者由来の核酸に付加されているインデックス配列を、明確化のために「第1インデックス配列」と記す。
情報処理装置1は、測定試料シートにおいてインデックス配列に関連付けられた配列情報であれば(ステップS51aにてYES)、ステップS51bに進み、インデックス配列に関連付けられた配列情報でなければ(ステップS51aにてNO)、ステップS53に進む。
ステップS51bにおいて、情報処理装置1は、測定試料シートを参照して、解析対象の試料から調製された核酸に付加された第1インデックス配列に関連付けられた配列情報であれば(ステップS51bにてYES)、解析を行う(ステップS52)。一方、第1インデックス配列に関連付けられた配列情報でなければ(ステップS51aにてNO)、インデックス配列に関連付けられた配列情報に対して行う解析の少なくとも一部の解析を行わない(ステップS53)。すなわち、情報処理装置1は、シーケンサー2から取得した全配列情報のうち、第1インデックス配列が付加されたライブラリの核酸の塩基配列データに対しては選択的に図6に示すステップS109以降の処理を行い、第1インデックス配列が付加されていないライブラリの核酸の塩基配列データに対しては図6に示すステップS109以降の処理を行わない。
このように構成することにより、情報処理装置1は、解析対象となる試料の塩基配列に対してのみ効率的に解析を行うことができる。
(配列データ読取部111、データ調整部113、変異同定部114)
続いて、解析実行部110の配列データ読取部111、データ調整部113、および変異同定部114の処理について、図41〜図46を適宜参照しながら、図40に示す処理の流れに沿って説明する。
図40は、情報処理装置1による解析の流れの一例を説明するフローチャートである。なお、図40に示す処理は、図6に示すステップS109に対応している。
<配列データ読取部111>
まず、図40のステップS10において、配列データ読取部111は、シーケンサー2から提供された配列情報を取得し、インデックス配列に基づいて、試料毎にファイルを作成し、配列情報を仕分ける。インデックス配列が含まれる配列情報に対しては、インデックス配列毎に異なるファイルが作成され、インデックス配列が含まれていない配列情報は、インデックス配列毎に作成されたファイルとは別のファイルが作成される。
配列情報は、シーケンサー2で読み取られた塩基配列を示すデータである。シーケンサー2は、特定の遺伝子パネルを用いて得られた多数の核酸断片をシーケンシングして、それらの配列情報を読み取り、配列情報として情報処理装置1に提供する。
配列データ読取部111は、核酸配列のエクソン領域から読み取られた配列情報を取得してもよく、少なくとも10Mb(1000万塩基)以上のエクソン領域から読み取られた配列情報を取得してもよい。
次に、ステップS11において、配列データ読取部111は、解析対象となる配列情報のファイルに格納されている配列情報を読み込む。
一態様において、配列情報には、読み取られた配列と共に、配列中の各塩基のクオリティスコアが含まれていてもよい。また、被検者の病変部位から採取されたFFPE試料をシーケンサー2に供して得られた配列情報と、同被検者の血液試料をシーケンサー2に供して得られた配列情報との両方が、情報処理装置1に入力される。
図41は、解析対象となる配列情報が情報処理装置1に出力される場合のファイルフォーマットの一例を示す図である。図41に示す例では、配列情報には、配列名、配列、および、クオリティスコアが含まれている。配列名は、シーケンサー2が出力する配列情報に付与された配列IDなどであってもよい。配列は、シーケンサー2で読み取られた塩基配列を示す。クオリティスコアは、シーケンサー2による塩基割当が正しく行われない確率を示す。任意の塩基のシーケンスクオリティスコア(Q)は、次の式により表される。
Q=−10log10E
この式において、Eは、塩基割当が正しく行われない確率の推定値を表す。Q値が高いほど、エラーの確率が低いことを意味する。Q値が低いほど、そのリードは使用できない部分が大きくなる。
また、偽陽性の変異割当も増加し、結果の精度が低下する恐れがある。なお、「偽陽性」は、リード配列が判定対象となる真の変異を有していないにもかかわらず、変異を有すると判断されることを意味する。
なお、「陽性」は、リード配列が判定対象となる真の変異を有していることを意味し、「陰性」は、リード配列が対象となる変異を有していないことを意味する。例えば、クオリティスコアが20であれば、エラーの確率は100分の1であり、したがって、読み取った遺伝子配列中の各塩基の正確さ(「ベースコールの精度」とも呼ばれる)は99%であることを意味する。
<データ調整部113>
続いて、図40のステップS12において、データ調整部113は、配列データ読取部111が読み込んだ配列情報に基づいて、配列情報に含まれる各核酸断片の塩基配列のアライメントを実行する。
図42の(a)は、データ調整部113によるアライメントを説明する図である。データ調整部113は、参照配列データベース122に格納された参照配列を参照し、各核酸断片のリード配列を、配列情報の比較対象とすべき参照配列に対してマッピングすることにより、アライメントを実行する。一態様において、参照配列データベース122には、各解析対象の遺伝子に対応する参照配列が複数種類格納されている。
また、データ調整部113は、被検者の病変部位から採取されたFFPE試料をシーケンサー2に供して得られた配列情報と、同被検者の血液試料をシーケンサー2に供して得られた配列情報との両方について、アライメントを実行する。
図42の(b)は、データ調整部113のアライメント結果のフォーマットの一例を示す図である。アライメント結果のフォーマットは、リード配列、参照配列およびマッピング位置をそれぞれ特定し得るものであれば特に限定されないが、図42の(b)のように、参照配列情報、リード配列名、ポジション情報、マップ品質および配列を含むものであってもよい。
参照配列情報は、参照配列データベース122における参照配列名(参照配列ID)、参照配列の配列長などを示す情報である。リード配列名は、アライメント対象となった各リード配列の名称(リード配列ID)を示す情報である。ポジション情報は、リード配列の最左塩基がマッピングされた参照配列上の位置(Leftmost mapping position)を示す情報である。マップ品質は、当該リード配列に対応するマッピング品質を示す情報である。配列は、各リード配列に対応する塩基配列(例: …GTAAGGCACGTCATA…)を示す情報である。
図43は、参照配列データベース122の構造例を示す図である。図43に示すように、参照配列データベース122には、野生型の配列を示す参照配列(例えば、染色体#1〜23のゲノム配列)と、野生型の配列に対して既知の変位が組み込まれた参照配列とが記憶されている。
さらに、参照配列データベース122中の各参照配列には、遺伝子パネルに関する情報を示すメタデータが付与されている。各参照配列に付与する遺伝子パネルに関する情報は、例えば、各参照配列が対応する解析対象の遺伝子を直接的または間接的に示すものであり得る。
一実施形態において、情報選択部112は、データ調整部113が参照配列データベース122から参照配列を取得する際に、入力された遺伝子パネルに関する情報と、各参照配列のメタデータとを参照して、当該遺伝子パネルに関する情報に対応する参照配列を選択するよう制御してもよい。
例えば、一態様において、情報選択部112は、入力された遺伝子パネルに関する情報によって特定される解析対象の遺伝子に対応する参照配列を選択するようデータ調整部113を制御してもよい。これにより、データ調整部113は、使用された遺伝子パネルに関連する参照配列のみに対するマッピングを行えばよいため、解析の効率を向上させることができる。
また、他の実施形態において、情報選択部112は、上記制御を行わなくともよい。その場合、情報選択部112は、後述するように、変異同定部114またはレポート作成部115を制御すればよい。
図44は、参照配列データベース122に含まれる参照配列(野生型の配列を示すものでないもの)に組み込まれる既知の変異の例を示す図である。既知の変異は、外部のデータベース(例えば、COSMIC、ClinVarなど)に登録された遺伝子変異であり、図33に示すように、染色体位置、遺伝子名および変異が特定されているものである。図33の例では、アミノ酸の変異が特定されているが、核酸の変異が特定されていてもよい。変異種別は、特に限定されず、置換、挿入、欠失など様々な変異であってもよく、他の染色体の一部の配列または逆相補配列が結合している変異であってもよい。
図45は、図40のステップS12におけるアライメントの詳細な工程の一例を説明するフローチャートである。一態様において、図40のステップS12におけるアライメントは、図45に示すステップS401〜S205によって実行される。
図45のステップS401において、データ調整部113は、配列データ読取部111が取得した配列情報に含まれる各核酸断片のリード配列のうち、アライメントを行っていないものを選択して、参照配列データベース122から取得した参照配列と比較する。そして、ステップS402において、データ調整部113は、リード配列との一致度が所定の基準を満たす参照配列上の位置を特定する。ここで、一致度とは、取得した配列情報と参照配列とがどの程度一致しているかを示す値であり、例えば、一致する塩基の数や割合などが一例として挙げられる。
一態様において、データ調整部113は、リード配列と参照配列の一致度を示すスコアを算出する。一致度を示すスコアは、例えば2つの配列間の同一性のパーセンテージ(percentage identity)とすることができる。データ調整部113は、例えば、リード配列の塩基と参照配列の塩基とが同一となる位置の数を特定し、一致した位置の数を求め、一致した位置の数を参照配列と比較されたリード配列の塩基数(比較ウィンドウの塩基数)で除算することによってパーセンテージを算出する。
図46の(a)は、スコア算出の一例を示す図である。一態様において、図46の(a)に示す位置において、リード配列R1と参照配列との一致度のスコアは、リード配列13塩基中13塩基が一致しているため100%となり、リード配列R2と参照配列との一致度のスコアは、リード配列13塩基中12塩基が一致しているため92.3%となる。
また、データ調整部113は、リード配列と参照配列の一致度を示すスコアの計算において、リード配列が参照配列に対して所定の変異(例えば、挿入・欠失(InDel : Insertion/Deletion))を含む場合には、通常の計算よりも低いスコアが付くように計算してもよい。
一態様において、データ調整部113は、リード配列が参照配列に対して挿入および欠失の少なくとも一方を含む配列について、例えば、上述したような通常計算で算出されたスコアに、挿入・欠失に対応する塩基数に応じた重み係数を乗算することで、スコアを補正してもよい。重み係数Wは、例えば、W={1−(1/100)×(挿入・欠失に対応する塩基数)}で計算してもよい。
図46の(b)は、スコア算出の他の例を示す図である。一態様において、図46の(b)に示す位置において、リード配列R3と参照配列との一致度のスコアは、通常計算では、リード配列17塩基(欠失を示す*も一塩基として計算)中15塩基が一致しているため88%となり、補正後のスコアは88%×0.98=86%となる。また、リード配列R4と参照配列との一致度のスコアは、通常計算では、リード配列21塩基中17塩基が一致しているため81%となり、補正後のスコアは81%×0.96=77.8%となる。
データ調整部113は、各参照配列に対するリード配列のマッピング位置を変えながら一致度のスコアを算出することにより、リード配列との一致度が所定の基準を満たす参照配列上の位置を特定する。その際、動的計画法、FASTA法、BLAST法などの当該分野において公知のアルゴリズムを使用してもよい。
図45に戻り、次に、データ調整部113は、リード配列との一致度が所定の基準を満たす参照配列上の位置が単一の位置であった場合には(ステップS403にてNO)、当該位置にリード配列をアライメントし、リード配列との一致度が所定の基準を満たす参照配列上の位置が複数の位置であった場合には(ステップS403にてYES)、データ調整部113は、最も一致度が高い位置に、リード配列をアライメントする(ステップS404)。
そして、データ調整部113は、配列データ読取部111が取得した配列情報に含まれる全リード配列をアライメントしていない場合には(ステップS405にてNO)、ステップS401に戻り、配列情報に含まれる全リード配列をアライメントした場合には(ステップS405にてYES)、ステップS12の処理を完了する。
<変異同定部114>
続いて、図40に戻り、ステップS13において、変異同定部114は、被検者の病変部位から採取された試料を供して得られたリード配列がアライメントされた参照配列の配列(アライメント配列)と、同被検者の血液試料を供して得られたリード配列がアライメントされた参照配列の配列とを比較する。
そして、図40のステップS14において、両アライメント配列間の相違を、変異として抽出する(変異抽出処理)。例えば、同じ解析対象の遺伝子の同じ位置に対する血液試料由来のアライメント配列がATCGAであり、腫瘍組織由来のアライメント配列がATCCAであれば、変異同定部114は、GとCとの相違を変異として抽出する。
一態様において、変異同定部114は、抽出した遺伝子変異に基づいて結果ファイルを生成する。図47は、変異同定部114が生成する結果ファイルのフォーマットの一例を示す図である。当該フォーマットは、例えば、Variant Call Format(VCF)に基づくものであり得る。
図47に示すように、結果ファイルには、抽出された遺伝子変異毎に、位置情報、参照塩基および変異塩基が記述されている。位置情報は、参照ゲノム上の位置を示し、例えば、染色体番号と、該染色体上の位置とを含む。参照塩基は、上記位置情報が示す位置における参照塩基(A,T,C,Gなど)を示す。変異塩基は、参照塩基の変異後の塩基を示す。参照塩基は、血液試料由来のアライメント配列上の塩基であり、変異塩基は、腫瘍組織由来のアライメント配列上の塩基である。
なお、図47において、参照塩基がC、変異塩基がGである変異は、置換変異の例であり、参照塩基がC、変異塩基がCTAGである変異は、挿入(Insertion)変異の例であり、参照塩基がTCG、変異塩基がTである変異は、欠失(Deletion)変異の例である。また、変異塩基がG]17:198982]、]13:123456]T、C[2:321682[、または、[17:198983[Aである変異は、他の染色体の一部の配列または逆相補配列が結合している変異の例である。
図40に戻り、続いて、ステップS15において、変異同定部114は、変異データベース123を検索する。そして、ステップS16において、変異同定部114は、変異データベース123の変異情報を参照して、結果ファイルに含まれる変異にアノテーションを付与することで、変異を同定する。
図48は、変異データベース123の構造の一例を示す図である。変異データベース123は、例えば、COSMICやClinVarなどの外部データベースを基に構築される。また、一態様において、データベース中の各変異情報には、遺伝子パネルに関する情報に関するメタデータが付与されている。図48に示す例では、データベース中の各変異情報には、解析対象の遺伝子の遺伝子IDがメタデータとして付与されている。
図49は、変異データベース123中の変異情報の構造の詳細例を示す図である。図49に示すように、一態様において、変異データベース123に含まれる変異情報には、変異ID、変異の位置情報(例えば、「CHROM」、および「POS」)、「REF」、「ALT」、「Annotation」が含まれていてもよい。変異IDは、変異を識別するための識別子である。
変異の位置情報のうち、「CHROM」は染色体番号を示し、「POS」は染色体番号上の位置を示す。「REF」は、野生型(Wild type)における塩基を示し、「ALT」は、変異後の塩基を示す。「Annotation」は、変異に関する情報を示す。「Annotation」は、例えば、「EGFR C2573G」、「EGFR L858R」といったアミノ酸の変異を示す情報であってもよい。例えば、「EGFR C2573G」は、タンパク質「EGFR」の2573残基目のシステインがグリシンに置換した変異であることを示す。
上記の例のように、変異情報の「Annotation」は、塩基情報に基づく変異を、アミノ酸情報に基づく変異に変換するための情報であってもよい。この場合、変異同定部114は、参照した「Annotation」の情報に基づいて、塩基情報に基づく変異を、アミノ酸情報に基づく変異に変換可能である。
変異同定部114は、結果ファイルに含まれる変異を特定する情報(例えば、変異の位置情報と変異に対応する塩基情報)をキーとして、変異データベース123を検索する。例えば、変異同定部114は、「CHROM」、「POS」、「REF」および「ALT」の情報のいずれかをキーとして変異データベース123を検索してもよい。変異同定部114は、血液試料由来のアライメント配列と、病変部位由来のアライメント配列とを比較することで抽出した遺伝子変異が変異データベース123に登録されていた場合に、当該変異を試料中に存在する変異として同定し、結果ファイルに含まれる当該変異にアノテーション(例えば、「EGFR L858R」、「BRAF V600E」など)を付与する。
なお、一実施形態において、情報選択部112は、変異同定部114が、結果ファイルに基づいて変異データベース123を検索する前に、変異同定部114に入力された遺伝子パネルに関する情報に対応しない変異を、結果ファイルからマスク(除外)させてもよい。
例えば、一態様において、情報選択部112から遺伝子パネルに関する情報が通知された変異同定部114は、図50の(a)のような、解析対象の遺伝子と位置情報(例えば、「CHROM」と「POS」)との対応関係を示すテーブルを参照し、通知された遺伝子パネルに関する情報が特定する解析対象の遺伝子に対応する変異の位置を特定し、図50の(b)のように、それ以外の位置の変異を、結果ファイルからマスク(除外)させてもよい。これにより、変異同定部114は、結果ファイル中の、使用された遺伝子パネルに関連する変異のみにアノテーションを付与すればよいため、変異の同定および特定の効率を向上させることができる。
(薬剤検索部118)
薬剤検索部118が薬剤に関する情報を含むリストを生成する処理の流れについて、図51を用いて説明する。図51は、薬剤検索部118が変異に関する薬剤のリストを生成する処理の一例を示すフローチャートである。
薬剤検索部118は、変異同定部114によって同定された遺伝子変異に付与された変異IDをキーとして、薬剤データベース124を検索する(ステップS15a)。検索結果に基づいて、薬剤検索部118は、変異に関する薬剤に関する情報を含むリストを生成する(ステップS16a)。生成されたリストは、レポート作成部115が作成するレポートに組み込まれる。
(薬剤データベース124)
薬剤検索部118が薬剤データベース124を検索して薬剤リストを生成する場合に、薬剤データベース124に記憶されているデータ124Aについて、図52を用いて説明する。図52は、薬剤データベース124のデータ構造の例を示す図である。
薬剤データベース124には、図52に示すように、変異毎に付与された変異ID、関連薬剤名、および薬剤毎に付与された薬剤IDが互いに関連付けられて記憶されている。なお、図52のデータ124Aにおいて変異ID「♯3」に対して、「薬剤A」および「薬剤B」が関連付けられているように、各変異IDについて複数の関連薬剤が関連付けられてもよい。
また、薬剤データベース124の各変異IDには、遺伝子パネルに関する情報に関するメタデータである「遺伝子パネル関連情報に関するメタデータ」が付与されていてもよい。薬剤検索部118は、情報選択部112からの指示に応じて、この「遺伝子パネル関連情報に関するメタデータ」を参照する。
そして、薬剤検索部118は、薬剤データベース124を検索する範囲を、該メタデータに示された範囲に変更する。これにより、薬剤検索部118は、各薬剤に付与されている「遺伝子パネル関連情報に関するメタデータ」と入力された遺伝子パネルに関する情報に応じて、薬剤データベース中で参照すべき薬剤を絞り込むことができ、遺伝子パネルに関する情報に応じた薬剤に関する情報を含むリストを生成することができる。
薬剤検索部118は、図53に示すデータ構造を有する薬剤データベース124を検索して、変異に関連する薬剤に関する他の情報を含むリストを生成してもよい。このことに関し、図54を用いて説明する。図54は、薬剤検索部118が変異に関する薬剤に関する情報を含むリストを生成する処理の一例を示すフローチャートである。
薬剤検索部118は、図53に示すデータ124Bを記憶している薬剤データベース124から、関連薬剤が当局(FDA、PMDAなど)で承認されているか否かを検索する。具体的には、薬剤検索部118は、例えば、「変異ID」等の変異に関する情報をキーとして、変異に対応する関連薬剤が当局で承認されているかを示す「承認状況」、どの国の当局で承認されているかを示す「承認国」を検索する(ステップS15b)。
薬剤検索部118は、検索結果に基づき、変異、該変異に対応する関連薬剤、および該関連薬剤の承認に関する情報などを含むリストを生成する(ステップS16b)。
薬剤検索部118は、図53に示すデータ構造を有する薬剤データベース124を検索して、変異に関連する薬剤に関するさらに他の情報を含むリストを生成してもよい。このことに関し、図54を用いて説明する。図54は、薬剤検索部118が薬剤データベース124を検索して得た情報に基づいて、Off−label use(適用外使用)の可能性がある薬剤の有無を判定し、判定結果を含むリストを生成する処理の一例を示すフローチャートである。
薬剤検索部118は、図53に示すデータ124Bを記憶している薬剤データベース124から、関連薬剤が当局(FDA、PMDAなど)で承認されているか否かを検索する(ステップS15b)。検索された薬剤が未承認である場合(ステップS21にてNO)、薬剤検索部118は、該薬剤を未承認薬として変異に関連付け(ステップS23)、変異に関連する薬剤のレポートを作成する(ステップS16a)。
検索された薬剤が承認済みである場合(ステップS21にてYES)、薬剤検索部118は、試料が採取された被検者の疾患(疾患名あるいは疾患ID)と、薬剤データベース124から検索された関連薬剤に対応する疾患(例えば、図53に示す「対象疾患」の疾患名あるいは疾患ID)と、が一致するか否かを判定する(ステップS22)。
被検者の疾患と「対象疾患」とが一致する場合(ステップS22にてYES)、薬剤検索部118は、検索結果の薬剤を承認薬として変異に関連付けを行い(ステップS24)、変異、該変異に対応する関連薬剤、および該関連薬剤の承認に関する情報などを含むリストを生成する(ステップS16a)。
一方、被検者の疾患と「対象疾患」とが異なる場合(ステップS22にてNO)、薬剤検索部118は、検索された関連薬剤はOff−label use(適用外使用)の可能性がある薬剤であると判定し、その判定結果を変異に関連付けて(ステップS25)、変異、該変異に対応する関連薬剤、および該関連薬剤の承認に関する情報などを含むリストを生成する(ステップS16a)。
なお、被検者の疾患を識別するための識別(例えば、疾患の名称、疾患IDなど)は、例えば、遺伝子解析を実行する際に操作者などによって入力部17から入力され得る。この場合、情報選択部112は、操作者によって入力された試料に対応する疾患に関する情報を取得して、疾患を識別する。あるいは、図7に示すように、試料を収容する各容器P1に被検者IDおよび試料IDなどが表示されたラベルL1が付されており、このラベルL1に表示されているバーコードL11などの記録手段を読み取ることにより、被検者の疾患の識別情報である疾患IDを取得する構成であってもよい。あるいは、図8に示すように、試料を収容する各容器P1に被検者IDおよび試料IDなどが表示されたラベルL2が付されており、このラベルL2に添付されているRFIDタグL21などの記録手段を読み取ることにより、被検者の疾患の識別情報である疾患IDを取得する構成であってもよい。
あるいは、検査機関120では試料IDおよび被検者IDと疾患IDとが対応付けて管理されており、情報選択部112は、試料に対応する疾患IDを、被検者IDまたは試料IDに基づいて取得してもよい。例えば、情報選択部112は試料を収容する容器毎に付されたラベルの記録手段を読み取った被検者ID(または試料ID)に対応付けられている疾患IDを、通信回線を介して取得する構成であってもよい。なお、図41に示す配列情報のヘッダ領域に疾患IDが含まれており、これを情報選択部112が取得する構成であってもよい。
薬剤データベース124は、図53に示すデータ124Bのように、データベース中の各薬剤が、所定の遺伝子変異および所定の疾患との関係でCDxに関連する薬剤であるか否かを示す「CDxフラグ」を有していてもよい。薬剤検索部118は、CDxフラグが「1」である薬剤(図53における「薬剤A」および「薬剤B」)を検索した場合、所定の疾患における所定の遺伝子変異の検出結果が、検索された薬剤のCDxに適用可能であることを示す補助情報を含むリストを生成してもよい。薬剤検索部118は、所定の疾患(例えば、がんなど)を罹患している被検者から採取された試料において所定の遺伝子変異が検出されたことに応じて、検出された遺伝子変異と当該遺伝子変異に対応する薬剤とがCDxに関連しているという情報、およびこの薬剤の奏功性に関する補助情報を含むリストを作成してもよい。
このように、薬剤検索部118は、遺伝子変異、対象疾患、および薬剤が関連付けられて記憶されている薬剤データベース124を検索し、検出した遺伝子変異と、情報選択部112が特定した疾患をつきあわせることによって、試料に対応する疾患に応じたリストを作成できる。レポート作成部115は、薬剤検索部118によって作成されたリストを用いてレポートを作成する。
薬剤検索部118は、図55に示すデータ構造を有する薬剤データベース124を検索して、変異に関連する薬剤の治験に関する情報を含むリストを生成してもよい。このことに関し、図56を用いて説明する。図56は、薬剤検索部118が薬剤の治験に関する情報を含むリストを生成する処理の一例を示すフローチャートである。
薬剤検索部118は、図55に示すデータ124Cを記憶している薬剤データベース124から、関連薬剤の治験の進捗具合などの情報を検索する。具体的には、薬剤検索部118は、変異IDなどをキーとして、変異の治験に関する情報、例えば、図55に示す「治験/臨床試験状況」、治験を実施している「実施国」、および「実施機関」などを検索する(図56のステップS15c)。薬剤検索部118は、検索結果に基づき、変異、該変異に対応する関連薬剤、および該関連薬剤の治験に関する情報などを含むリストを生成する(図56のステップS16c)。
なお、図52に示すデータ124A、図53に示すデータ124B、および図55に示すデータ124Cは、一つに統合させて薬剤データベース124に記憶されていてもよいし、薬剤データベース124を含む複数のデータベースに分散させて記憶されていてもよい。
(レポート作成部115)
レポート作成部115は、変異同定部114が出力した情報、情報選択部112から提供される遺伝子パネルに関する情報、および薬剤検索部118によって生成された薬剤リストに基づいてレポートを作成する(図6のステップS111に対応)。作成されるレポートに掲載される情報は、遺伝子パネルに関する情報、同定された遺伝子変異に関連する情報、および検出された遺伝子変異に関連する薬剤の情報を含んでいる。検査機関120が「CDx用途」のプランの契約を締結している場合には、レポート作成部115は、CDxに適用可能な薬剤の、所定の疾患を有する被検者に対する奏功性に関連する補助情報を含むレポートを作成することも可能である。
レポート作成部115は、情報選択部112からの遺伝子パネルに関する情報に基づいて、レポートに掲載する対象を取捨選択し、選択されなかった情報はレポートから削除する構成であってもよい。あるいは、情報選択部112が、入力部17を介して入力された遺伝子パネルに関する情報に対応する遺伝子に関連する情報を、レポートに掲載する対象として選択し、選択されなかった情報はレポートから削除されるよう、レポート作成部115を制御する構成であってもよい。
<レポートの例>
続いて、レポート作成部115によって作成されるレポートの具体例を、図57を用いて説明する。図57は、作成されるレポートの一例を示す図である。
図57に示すレポートの例において、左上の部分には、被検者IDを示す「患者ID」、「患者の性別」、「患者の病名」、医療機関210において該被検者を担当する医師の名前である「担当医師名」、および医療機関名を示す「機関名」が記載されている。
その下には、遺伝子パネルに関する情報として、例えば、「Aパネル」などの遺伝子パネル名も含まれている。さらに、品質管理試料を用いた処理および解析結果などから得られた品質評価指標「QC指標」も、レポートに出力されている。
(出力部13)
レポート作成部115によって作成されたレポートは、配列情報の解析結果として、出力部13から、医療機関210に設置された通信端末5(図5参照)にデータ送信されてもよい(図6のステップS112に対応)。あるいは、情報処理装置1と接続されているプリンタ(図示せず)に送信され、該プリンタによって印刷された後に、紙媒体として、検査機関120から医療機関210へ送付されてもよい。
(情報処理装置1の解析対象)
情報処理装置1は、図38に示すように、インデックス配列を含む配列情報であれば解析を行い(ステップS52)、インデックス配列に関連付けられた配列情報でなければ、インデックス配列に関連付けられた配列情報に対して行う解析の少なくとも一部の解析を行わない(ステップS53)。
例えば、測定試料の調製時に、被検者由来ではない核酸として、PhiX DNAが用いられていた場合、Phi X DNAにはインデックス配列は付加されていないため、図40のステップS10において、インデックス配列毎の仕分け対象とはならず、ステップS10以降の処理は行われない。
例えば、測定試料の調製時に、解析済の被検者由来の試料から調製されたライブラリが用いられていた場合、解析対象ではないため、図40のステップS11以降の処理は行われない。
例えば、測定試料の調製時に、品質管理試料が用いられていた場合、変異を同定する必要が無いため、図40のステップS15以降の処理は行われない。
すなわち、情報処理装置1は、シーケンサー2から取得した全配列情報のうち、インデックス配列が付加されたライブラリの核酸の配列情報に対しては選択的に図40に示すステップS10以降の処理を行い、インデックス配列が付加されていない核酸の配列情報に対してはステップS10以降の少なくとも一部の処理を行わない。
(品質評価指標)
ここでは、配列情報の品質を評価するための品質評価指標について説明する。品質評価指標は、例えば、以下のようなものが挙げられる。
・指標(i):シーケンサー2による塩基情報の読み取り品質を示す品質評価指標。
・指標(ii):解析対象の複数の遺伝子に含まれる塩基のうちシーケンサー2で読み取られた塩基の割合を示す品質評価指標。
・指標(iii):配列情報のデプスを示す品質評価指標。
・指標(iv):配列情報のデプスのばらつきを示す品質評価指標。
・指標(v):品質管理試料に含まれる各標準遺伝子が有する変異が全て検出されたか否かを示す品質評価指標。
そして、指標(i)には、
指標(i−1):クオリティスコア、および
指標(i−2):クラスター濃度
が含まれ得る。
ここでは、上記の品質評価指標について、図58を用いて説明する。
指標(i−1):クオリティスコア
クオリティスコアは、シーケンサー2によって読み取られた遺伝子配列中の各塩基の正確さを示す指標である。
例えば、シーケンサー2からFASTQファイルで配列情報が出力される場合、クオリティスコアも配列情報に含まれている(図41参照)。なお、クオリティスコアの詳細については、既に説明されているため、ここではその説明を省略する。
指標(i−2):クラスター濃度
シーケンサー2は、フローセル上で多数の1本鎖DNA断片を局所的に増幅固定させて、クラスターを形成する(図36の「9」参照)。そして、蛍光顕微鏡を用いてフローセル上のクラスター群を撮像し、A、C、G、Tそれぞれに対応する蛍光色(すなわち、蛍光波長が異なっている)を検出することによって配列を読み取っていく。クラスター密度は、シーケンシングを行うときのフローセル上に形成した、各遺伝子のクラスターがどの程度近接し合っているかを示す指標である。
例えば、クラスターの密度が過度に高くなり、クラスター同士が過度に近接したり重なり合ったりしてしまうと、フローセルを撮像した画像のコントラストすなわちS/N比が低くなるため、蛍光顕微鏡のフォーカスが取りにくくなる。それゆえ、蛍光を正しく検出することができなくなり、その結果、配列を正確に読み取ることができなくなる。
指標(ii):シーケンサー2で読み取られた塩基のうちシーケンサー2で読み取られたターゲット領域の塩基の割合を示す品質評価指標
この指標は、シーケンサー2により読み取られた塩基(ターゲット領域以外も含む)のうち、どれだけのターゲット領域の塩基が読み取られたかを示す指標であり、読み取られた塩基の総数と、ターゲット領域の塩基の総数との比として算出され得る。
指標(iii)配列情報のデプスを示す品質評価指標。
この指標は、解析対象の遺伝子に含まれる各塩基について、その塩基を読み取った配列情報の総数に基づく指標であり、読み取られた塩基のうちデプスが所定の値以上である塩基の総数と、読み取られた塩基の総数との比として算出され得る。
なお、デプス(depth)とは、同一の塩基について読み取った配列情報の総数を意味している。
図58には、解析対象の遺伝子の全長がT塩基であり、読み取られた領域の塩基がt1塩基であった場合における、読み取られた各塩基のデプスを示すグラフを示している。このグラフの、横軸は塩基の位置であり、縦軸は各塩基のデプスである。図58に示す例では、読み取られた領域のt1塩基のうち、デプスが所定の値(例えば100)以上の領域の総塩基数は(t2+t3)塩基である。この場合、指標(iii)は、(t2+t3)/t1の値として生成される。
指標(iv):配列情報のデプスのばらつきを示す品質評価指標。
この指標は、デプスの均一性を示す指標である。読み取られた領域のうちのある部分を読み取った配列情報だけが極端に多い場合、デプスの均一性は低く、読み取られた領域にわたって比較的万遍なく配列情報が存在している場合、デプスの均一性は高い。デプスの均一性は、これに限定されるものではないが、例えば、四分位範囲(IQR)を用いて数値化することができる。IQRが高いほど均一性が低く、IQRが低いほど均一性が高いことを示す。
指標(v):品質管理試料に含まれる各標準遺伝子が有する変異が全て検出されたか否かを示す品質評価指標。
この指標は、品質管理試料に含まれる各標準遺伝子が有する変異が検出されて、正しく同定されたことを示す指標である。例えば、図25の(a)に示す品質管理試料Aおよび図25の(b)に示す品質管理試料Bなどに含まれる各標準遺伝子が有する変異(「Variant」の欄を参照)は既知の変異である。これらの変異の位置、変異種別などを正しく同定できたか否かを評価するための指標が品質評価指標として用いられる。
なお、情報処理装置1は、各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータである。このコンピュータは、例えば1つ以上のプロセッサを備えていると共に、上記プログラムを記憶したコンピュータ読み取り可能な記録媒体を備えている。そして、上記コンピュータにおいて、上記プロセッサが上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記プロセッサとしては、例えばCPU(Central Processing Unit)を用いることができる。上記記録媒体としては、「一時的でない有形の媒体」、例えば、ROM(Read Only Memory)等の他、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムを展開するRAM(Random Access Memory)などをさらに備えていてもよい。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。なお、本発明の一態様は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。
1 情報処理装置
2 シーケンサー
11 制御部
12 記憶部
100 遺伝子解析システム

Claims (24)

  1. 被検者由来の核酸を含む試料と、被検者由来ではない核酸を含む試料とを前記被検者由来の核酸を含む試料の数に応じて混合して、予め定められた核酸の量となるように調製された測定試料に含まれる核酸の配列情報を、シーケンサーにより取得する工程と、
    取得された前記配列情報に対して解析を行う工程と、を含み、
    前記解析を行う工程において、
    取得された前記配列情報のうち、前記被検者由来の核酸の配列情報に対して解析を行い、
    取得された前記配列情報のうち、前記被検者由来ではない核酸の配列情報に対し、前記被検者由来の核酸の配列情報に対して行う解析の少なくとも一部を行わない
    ことを特徴とする解析方法。
  2. 前記被検者由来の核酸の配列情報は、インデックス配列を含み、
    前記測定試料の核酸の配列情報のうち、前記インデックス配列を含む配列情報に対して解析を行う
    ことを特徴とする請求項1に記載の解析方法。
  3. 前記被検者由来の核酸の配列情報は、複数の被検者由来の核酸の配列情報を含み、異なる被検者由来の核酸の配列情報には、異なるインデックス配列が含まれる
    ことを特徴とする請求項1または2に記載の解析方法。
  4. 前記被検者由来ではない核酸の配列情報は、インデックス配列を含まない
    ことを特徴とする請求項1から3のいずれか1項に記載の解析方法。
  5. 前記測定試料の核酸の配列情報のうち、インデックス配列を含む配列情報に対して解析を行い、前記インデックス配列を含まない配列情報に対し、前記インデックス配列を含む配列情報に対して行う解析の少なくとも一部を行わない
    ことを特徴とする請求項1から4のいずれか1項に記載の解析方法。
  6. 前記測定試料の核酸の配列情報は、第1のインデックス配列を含む配列情報と、第1のインデックス配列とは異なる第2のインデックス配列を含む配列情報とを含み、
    前記第1のインデックス配列を含む配列情報に対して解析を行い、前記第2のインデックス配列を含む配列情報に対し、前記第1のインデックス配列を含む配列情報に対して行う解析の少なくとも一部を行わない
    ことを特徴とする請求項1から5のいずれか1項に記載の解析方法。
  7. 前記解析は、前記被検者由来の核酸の配列情報に基づいて、前記被検者の遺伝子に関する情報を取得することを含む
    ことを特徴とする請求項1から6のいずれか1項に記載の解析方法。
  8. 前記被検者の遺伝子に関する情報は、配列情報に対応する遺伝子名、および遺伝子の変異情報を含む
    ことを特徴とする請求項1から7のいずれか1項に記載の解析方法。
  9. 前記測定試料を調製する工程において、配列情報の品質を評価するための品質管理試料をさらに加えた測定試料が調製され、
    前記品質管理試料の配列情報から、前記測定試料の品質に関する情報を取得するための処理を行う工程をさらに含む
    ことを特徴とする請求項1から8のいずれか1項に記載の解析方法。
  10. 前記品質管理試料の核酸は、前記被検者由来ではない核酸と同一であり、
    前記測定試料の核酸の配列情報のうち、前記被検者由来ではない核酸の配列情報の少なくとも一部に対して品質に関する情報を取得するための処理を行う工程をさらに含む
    ことを特徴とする請求項9に記載の解析方法。
  11. 前記測定試料を調製する工程において用いられる被検者由来の核酸を含む試料の数によらず、前記測定試料における1試料由来の核酸の量はほぼ等しい
    ことを特徴とする請求項1から10のいずれか1項に記載の解析方法。
  12. 前記配列情報を取得する工程において取得された前記測定試料の核酸の配列情報における1試料あたりの配列情報のデータ量はほぼ等しい
    ことを特徴とする請求項1から11のいずれか1項に記載の解析方法。
  13. 前記配列情報を取得する工程において取得された前記測定試料の核酸の配列情報における1試料あたりの配列情報のデータ量は、前記測定試料の調製に用いた被検者由来の核酸を含む試料の数によらず、前記測定試料の核酸の配列情報のデータ量において所定の割合を占める
    ことを特徴とする請求項1から12のいずれか1項に記載の解析方法。
  14. 前記測定試料の調製に用いた被検者由来の核酸を含む試料の数が変化した場合の、前記測定試料の核酸の配列情報における1試料あたりの配列情報のデータ量のばらつきは±10%の範囲内である
    ことを特徴とする請求項1から13のいずれか1項に記載の解析方法。
  15. 前記配列情報を取得する工程において取得された配列情報のうち、前記被検者由来ではない核酸の配列情報のデータ量は、前記測定試料の核酸の配列情報における1試料あたりの配列情報のデータ量以上である
    ことを特徴とする請求項1から14のいずれか1項に記載の解析方法。
  16. 前記核酸の量は、前記核酸のモル数である
    ことを特徴とする請求項1から15のいずれか1項に記載の解析方法。
  17. 前記測定試料に含まれる核酸の配列情報を取得する工程において、核酸を捕捉するための捕捉分子によって捕捉された測定試料の核酸の配列情報を取得し、
    前記捕捉分子は、前記測定試料に含まれる核酸の少なくとも一部と相補的な塩基配列を含む
    ことを特徴とする請求項1から16のいずれか1項に記載の解析方法。
  18. 前記配列情報は、シーケンサーで読み取られた前記核酸の塩基配列である
    ことを特徴とする請求項1から17のいずれか1項に記載の解析方法。
  19. 前記解析は、取得した配列情報を参照配列に対してマッピングするアライメント処理を含み、
    前記被検者由来ではない核酸の配列情報に対し、前記アライメント処理を行わない
    ことを特徴とする請求項1から18のいずれか1項に記載の解析方法。
  20. 前記解析は、核酸の変異を抽出する変異抽出処理を含み、
    前記被検者由来ではない核酸の配列情報に対し、前記変異抽出処理を行わない
    ことを特徴とする請求項1から19のいずれか1項に記載の解析方法。
  21. 制御部および記憶部を備える情報処理装置であって、
    前記制御部は、
    被検者由来の核酸を含む試料と、被検者由来ではない核酸を含む試料とを前記被検者由来の核酸を含む試料の数に応じて混合して、予め定められた核酸の量となるように調製された測定試料の核酸の配列情報を、シーケンサーから取得して前記記憶部に記憶し、
    取得された前記配列情報に対して解析を行うものであり、
    前記制御部は、
    取得された前記配列情報のうち、前記被検者由来の核酸の配列情報に対して解析を行い、
    取得された前記配列情報のうち、前記被検者由来ではない核酸の配列情報に対し、前記被検者由来の核酸の配列情報に対して行う解析の少なくとも一部を行わない
    ことを特徴とする情報処理装置。
  22. 被検者由来の核酸を含む試料と、被検者由来ではない核酸を含む試料とを前記被検者由来の核酸を含む試料の数に応じて混合して、予め定められた核酸の量となるように調製された測定試料の核酸の配列情報を取得するシーケンサーと、
    前記シーケンサーにより取得された前記配列情報に対して解析を行う情報処理装置と、
    を備え、
    前記情報処理装置は、
    取得された前記配列情報のうち、前記被検者由来の核酸の配列情報に対して解析を行い、
    取得された前記配列情報のうち、前記被検者由来ではない核酸の配列情報に対し、前記被検者由来の核酸の配列情報に対して行う解析の少なくとも一部を行わない
    ことを特徴とする遺伝子解析システム。
  23. 被検者由来の核酸を含む試料と、被検者由来ではない核酸を含む試料とを前記被検者由来の核酸を含む試料の数に応じて混合して、予め定められた核酸の量となるように調製された測定試料の核酸の配列情報を、シーケンサーにより取得する工程と、
    取得された前記配列情報に対して解析を行う工程と、
    をコンピュータに実行させ、
    前記解析を行う工程において、
    取得された前記配列情報のうち、前記被検者由来の核酸の配列情報に対して解析を行い、
    取得された前記配列情報のうち、前記被検者由来ではない核酸の配列情報に対し、前記被検者由来の核酸の配列情報に対して行う解析の少なくとも一部を行わない
    ことを特徴とするプログラム。
  24. 請求項23に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2018163953A 2018-08-31 2018-08-31 解析方法、情報処理装置、遺伝子解析システム、プログラム、記録媒体 Active JP6891150B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2018163953A JP6891150B2 (ja) 2018-08-31 2018-08-31 解析方法、情報処理装置、遺伝子解析システム、プログラム、記録媒体
EP19193572.5A EP3627513A1 (en) 2018-08-31 2019-08-26 Analysis method, information processing apparatus, gene analysis system, and non-transitory storage medium
US16/552,653 US20200082911A1 (en) 2018-08-31 2019-08-27 Analysis method, information processing apparatus, gene analysis system and non-transitory storage medium
CN201910807439.8A CN110875083A (zh) 2018-08-31 2019-08-29 分析方法、信息处理装置、基因分析系统、记录介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018163953A JP6891150B2 (ja) 2018-08-31 2018-08-31 解析方法、情報処理装置、遺伝子解析システム、プログラム、記録媒体

Publications (2)

Publication Number Publication Date
JP2020036536A JP2020036536A (ja) 2020-03-12
JP6891150B2 true JP6891150B2 (ja) 2021-06-18

Family

ID=67766072

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018163953A Active JP6891150B2 (ja) 2018-08-31 2018-08-31 解析方法、情報処理装置、遺伝子解析システム、プログラム、記録媒体

Country Status (4)

Country Link
US (1) US20200082911A1 (ja)
EP (1) EP3627513A1 (ja)
JP (1) JP6891150B2 (ja)
CN (1) CN110875083A (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023067270A (ja) * 2021-10-29 2023-05-16 シスメックス株式会社 制御方法、及び解析システム
CN114005489B (zh) * 2021-12-28 2022-03-22 成都齐碳科技有限公司 基于三代测序数据检测点突变的分析方法和装置
CN116646010B (zh) * 2023-07-27 2024-03-29 深圳赛陆医疗科技有限公司 人源性病毒检测方法及装置、设备、存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120270739A1 (en) * 2010-01-19 2012-10-25 Verinata Health, Inc. Method for sample analysis of aneuploidies in maternal samples
CN102329876B (zh) * 2011-10-14 2014-04-02 深圳华大基因科技有限公司 一种测定待检测样本中疾病相关核酸分子的核苷酸序列的方法
WO2015131107A1 (en) * 2014-02-28 2015-09-03 Nugen Technologies, Inc. Reduced representation bisulfite sequencing with diversity adaptors
US10095831B2 (en) * 2016-02-03 2018-10-09 Verinata Health, Inc. Using cell-free DNA fragment size to determine copy number variations
JPWO2018135464A1 (ja) * 2017-01-18 2019-12-12 大学共同利用機関法人情報・システム研究機構 次世代シーケンサーを用いた迅速な遺伝子検査方法

Also Published As

Publication number Publication date
US20200082911A1 (en) 2020-03-12
CN110875083A (zh) 2020-03-10
JP2020036536A (ja) 2020-03-12
EP3627513A1 (en) 2020-03-25

Similar Documents

Publication Publication Date Title
Crossley et al. Guidelines for Sanger sequencing and molecular assay monitoring
JP7067896B2 (ja) 品質評価方法、品質評価装置、プログラム、および記録媒体
JP7320345B2 (ja) 遺伝子解析方法、遺伝子解析装置、遺伝子解析システム、プログラム、および記録媒体
Rehm et al. ACMG clinical laboratory standards for next-generation sequencing
KR102638152B1 (ko) 서열 변이체 호출을 위한 검증 방법 및 시스템
Sheikine et al. Clinical and technical aspects of genomic diagnostics for precision oncology
JP2019083011A5 (ja)
JP7054133B2 (ja) 配列解析方法、配列解析装置、参照配列の生成方法、参照配列生成装置、プログラム、および記録媒体
JP6891150B2 (ja) 解析方法、情報処理装置、遺伝子解析システム、プログラム、記録媒体
Schnekenberg et al. Next-generation sequencing in childhood disorders
JP2023139180A (ja) 遺伝子解析方法および遺伝子解析装置
JP6891151B2 (ja) 解析方法、情報処理装置、遺伝子解析システム、プログラム、記録媒体
JP7148681B2 (ja) レポートを作成する方法、情報処理装置、プログラム
Hambuch et al. Whole Genome Sequencing in the Clinical Laboratory
Clarke Bioinformatics challenges of high-throughput SNP discovery and utilization in non-model organisms
Wygant Welcome Guest United States

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200203

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200915

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20201104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210107

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210406

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20210427

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210526

R150 Certificate of patent or registration of utility model

Ref document number: 6891150

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250