JP2019191952A - プログラム、情報処理方法および情報処理装置 - Google Patents

プログラム、情報処理方法および情報処理装置 Download PDF

Info

Publication number
JP2019191952A
JP2019191952A JP2018084302A JP2018084302A JP2019191952A JP 2019191952 A JP2019191952 A JP 2019191952A JP 2018084302 A JP2018084302 A JP 2018084302A JP 2018084302 A JP2018084302 A JP 2018084302A JP 2019191952 A JP2019191952 A JP 2019191952A
Authority
JP
Japan
Prior art keywords
sequence
sequences
nucleic acid
mutation
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018084302A
Other languages
English (en)
Inventor
弘一 萩原
Koichi Hagiwara
弘一 萩原
慶明 井上
Yoshiaki Inoue
慶明 井上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nonprofit Organization North East Japan Study Group
North East Japan Study Group
Original Assignee
Nonprofit Organization North East Japan Study Group
North East Japan Study Group
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nonprofit Organization North East Japan Study Group, North East Japan Study Group filed Critical Nonprofit Organization North East Japan Study Group
Priority to JP2018084302A priority Critical patent/JP2019191952A/ja
Priority to PCT/JP2019/012294 priority patent/WO2019208052A1/ja
Priority to EP19791813.9A priority patent/EP3786960A4/en
Publication of JP2019191952A publication Critical patent/JP2019191952A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • General Business, Economics & Management (AREA)
  • Biomedical Technology (AREA)
  • Business, Economics & Management (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Epidemiology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

【課題】偽陽性の発生確率を考慮して塩基配列が変異陽性であるか変異陰性であるかを判定するプログラム等を提供すること。【解決手段】プログラムは、正常配列と該正常配列の一部が変異した変異配列とを含む参照核酸塩基配列を取得し、検体から読み取った複数の検体核酸塩基配列を取得し、前記検体核酸塩基配列のうち、前記参照核酸塩基配列に対応する読取配列数と、前記変異配列に対応する変異配列数とを判定し、核酸塩基配列を読み取る際のエラー率を取得し、前記変異配列数と、前記読取配列数と、前記エラー率と、所定の偽陽性率とに基づいて、前記検体核酸塩基配列が変異陽性であるか否かを判定する処理をコンピュータに実行させる。【選択図】図16

Description

本発明は、プログラム、情報処理方法および情報処理装置に関する。
腎がん患者から腎がん組織を採取し、腎がんに関連する遺伝子の発現レベルまたは発現量を測定して腎がんの悪性度を判別する方法が開示されている(特許文献1)。
特開2016−86678号公報
大量の遺伝子の塩基配列を高速で読み取る、次世代シーケンサが使用されている。次世代シーケンサにおいては、複数の塩基配列を平行して読み取ることにより高速化を実現している。次世代シーケンサを用いて読み取った塩基配列の変異に基づいて、適切な抗がん剤が選択される。しかしながら、塩基配列を読み取るために遺伝子を増幅する工程の間に、複製エラーが生じる場合がある。また、塩基配列を次世代シーケンサで読み取る課程でも、読み取りエラーが生じる場合がある。
複製エラー、および、次世代シーケンサ内部での読み取りエラーにより、 がん細胞を含まない検体にがん細胞が含まれると誤って判定される、偽陽性の判定が行なわれる場合がある。特許文献1に記載の方法では、偽陽性の発生確率を考慮した判定を行なえない。
一つの側面では、複製エラー、および、次世代シーケンサ内部での読み取りエラーによる偽陽性の発生確率を考慮して塩基配列が変異陽性であるか変異陰性であるかを判定するプログラム等を提供することを目的とする。
プログラムは、正常配列と当該正常配列の一部が変異した変異配列とを含む参照核酸塩基配列を取得し、検体から読み取った複数の検体核酸塩基配列を取得し、前記検体核酸塩基配列のうち、前記参照核酸塩基配列に対応する読取配列数と、前記変異配列に対応する変異配列数とを判定し、核酸塩基配列を読み取る際のエラー率を取得し、前記変異配列数と、前記読取配列数と、前記エラー率と、所定の偽陽性率とに基づいて、前記検体核酸塩基配列が変異陽性であるか否かを判定する処理をコンピュータに実行させる。
一つの側面では、偽陽性の発生確率を考慮して塩基配列が変異陽性であるか変異陰性であるかを判定するプログラム等を提供できる。
遺伝子検査を用いた治療手順の概要を説明する説明図である。 遺伝子検査方法の概要を説明する説明図である。 遺伝子検査方法の概要を説明する説明図である。 リードの例を説明する説明図である。 塩基配列の増幅過程を説明する説明図である。 塩基配列の増幅過程を説明する説明図である。 一つの標的配列に関連する変異陽性配列数Mの確率密度分布を説明する説明図である。 図7のA部拡大図である。 遺伝子検査システムの構成を説明する説明図である。 参照配列DBのレコードレイアウトを説明する説明図である。 読取データファイルの例を説明する説明図である。 読取結果DBのレコードレイアウトを説明する説明図である。 判定結果DBのレコードレイアウトを説明する説明図である。 未知変異DBのレコードレイアウトを説明する説明図である。 判定結果を表示する画面の例である。 判定結果を表示する画面の例である。 プログラムの処理の流れを説明するフローチャートである。 判定のサブルーチンの処理の流れを説明するフローチャートである。 閾値判定のサブルーチンの処理の流れを説明するフローチャートである。 統計判定のサブルーチンの処理の流れを説明するフローチャートである。 第1閾値MP算出のサブルーチンの処理の流れを説明するフローチャートである。 第2閾値MN算出のサブルーチンの処理の流れを説明するフローチャートである。 パラメータDBのレコードレイアウトを説明する説明図である。 実施の形態2の閾値判定のサブルーチンの処理の流れを説明するフローチャートである。 パラメータ調整のサブルーチンの処理の流れを説明するフローチャートである。 実施の形態3のプログラムの処理の流れを説明するフローチャートである。 実施の形態3のプログラムの処理の流れを説明するフローチャートである。 実施の形態3のプログラムの処理の流れを説明するフローチャートである。 情報処理装置の機能ブロック図である。 実施の形態5の遺伝子検査システムの構成を説明する説明図である。
[実施の形態1]
図1は、遺伝子検査を用いた治療手順の概要を説明する説明図である。以下では、肺がんの治療を例に挙げて説明する。まず、がん患者、または、がんの疑いのある患者から検体が採取される。検体の採取は、たとえば気管支内視鏡を用いた擦過細胞診、洗浄細胞診、経気管支肺生検、または、超音波気管鏡ガイド下針生検等の手技により行なわれる。これらの経内視鏡的な検体採取法は比較的低侵襲であるが、採取できる検体の量は少ない。
検体は、経皮針生検、開胸針生検、または、胸腔鏡下肺生検等の、比較的高侵襲の検体採取法により採取される場合もある。肺切除等の手術が行なわれた場合には、切除された組織の一部が遺伝子検査の検体に使用される。
検体から、核酸、すなわちDNA(Deoxyribonucleic Acid)およびRNA(Ribonucleic Acid)を抽出して、増幅させる前処理を行なう。前処理の詳細については後述する。次世代シーケンサ解析により核酸塩基配列、すなわちDNAの塩基配列およびRNAの塩基配列を読み取る。読み取られた核酸塩基配列は、たとえばFASTQフォーマット形式のファイルに保存される。以後の説明においては、核酸塩基配列を塩基配列と記載する場合がある。
保存された核酸塩基配列を所定の参照配列と比較して、どのような遺伝子変異が生じているかを判定する。遺伝子変異の状態に応じて、抗がん剤を選択する等の治療方針を決定し、治療を行なう。
図2および図3は、遺伝子検査方法の概要を説明する説明図である。検体No.1は、一人の患者から、または一つの患部から採取した検体である。検体には、正常細胞とがん細胞とが含まれている。肺がん患者から気管支鏡を用いた洗浄細胞診等により採取した検体の場合、全細胞中に占めるがん細胞の割合は数パーセント程度である。
遺伝子検査を行なう検体より、DNAおよびRNAを抽出する。逆転写酵素を用いて、RNAをcDNA(complementary Deoxyribonucleic Acid)に変換する。検体をDNA解析用と、RNA解析用とに分割する。
DNA解析用のサンプルの処理について説明する。図3に示すように、検体のDNAに含まれる標的配列を切断する。標的配列は、がん関連遺伝子の塩基配列である。図2に戻って説明を続ける。PCR(Polymerase Chain Reaction)等により標的配列を増幅する。たとえば、34サイクルのPCRを行なうことにより、標的配列の量を約170億倍に増幅できる。SPRI(Solid Phase Reversible Immobilization)技術等により、増幅した標的配列を精製する。
図3に示すように、増幅した標的配列の両端に検体識別用の識別アダプタを付加する。識別アダプタは、検体ごとに定めた塩基配列である。図2に戻って説明を続ける。識別アダプタの付加は、たとえば6サイクルのPCRにより実施する。識別アダプタを付加した標的配列を精製する。
RNA解析用のサンプルの処理について説明する。たとえば34サイクルのPCRを行い、標的配列のcDNAを増幅する。増幅した標的配列を精製する。増幅した標的配列の両端に検体識別用の識別アダプタを付加する。識別アダプタの付加は、たとえば6サイクルのPCRにより実施する。識別アダプタを付加した標的配列を精製する。
一つの検体から分割して増幅と精製を実施したDNA解析用の検体とRNA解析用の検体とを混合する。図3に示すように、識別アダプタを付与した標的配列の両端に、指定配列を付加する。指定配列は、次世代シーケンサによる増幅および塩基配列の読み取りを行なうために必要な塩基配列である。図2に戻って説明を続ける。指定配列の付加は、たとえば6サイクルのPCRにより実施する。指定配列をよび識別アダプタを付加した標的配列を精製する。
たとえば96個の検体のそれぞれについて以上の処理を行った後に混合し、次世代シーケンサ解析を行なう。次世代シーケンサは、多数の核酸塩基配列を平行して読み取り、識別アダプタごとにファイルを分けて記録する。
図4は、リードの例を説明する説明図である。リードは、1本の標的配列から読み取った塩基配列を意味する。塩基配列は、A(アデニン)、T(チミン)、G(グアニン)およびC(シトニン)の4文字により表現される。
参照配列は、標的配列に対応する正常配列、および、正常配列の一部が変異した変異配列である。なお、図4においては、1つの塩基が他の塩基に置き換えられた変異配列を例示するが、変異配列はこれに限定しない。変異配列には、正常配列の塩基の一部が脱落した配列、正常配列の途中に塩基が追加された配列、正常配列の一部に繰り返しが生じた配列等、正常配列とは異なる塩基数を有する塩基配列を含む。一つの標的配列にかかる変異配列には、第1変異配列から順次番号が付与される。
それぞれのリードは、参照配列と比較して、分類される。正常配列と一致する配列は、変異陰性に分類される。いずれかの変異配列と一致する配列は、変異陽性に分類される。参照配列とは異なる標的配列に対応する塩基配列は、無関係の配列に分類される。標的配列のそれぞれに対応する参照配列との比較と分類を行なうことにより、それぞれの標的配列の変異陰性配列数、第I変異配列と一致する第I変異陽性配列数MI、および、読取配列数nを判定できる。以下の説明においては、第I変異陽性配列数MIを変異陽性配列数Mと記載する場合がある。
図5および図6は、塩基配列の増幅過程を説明する説明図である。図5の左側は、変異のない塩基配列が正常に増幅された場合を示す。図5の左側は、変異のある塩基配列が正常に増幅された場合を示す。いずれの場合も、元の塩基配列と同じ塩基配列が増幅する。
図6の左側は、変異のない塩基配列が正常に増幅された場合を示す。元の塩基配列と同じ塩基配列が増幅する。図6の右側は、増幅過程の途中で、複製エラーによる変異が生じた場合を示す。増幅した塩基配列の一部が、元の塩基配列と異なる配列になっている。
複製エラー、および、次世代シーケンサ内部での読み取りエラーの発生確率は、標的配列の塩基配列、標的配列の長さ、前処理における増幅条件、および、次世代シーケンサの機種等により異なる。予備実験により、それぞれの標的配列について、元の塩基配列と、増幅過程を経て、次世代シーケンサにより読み取られる塩基配列とが異なる確率であるエラー率pを調査できる。 エラー率pは、複製エラーと、次世代シーケンサ内部での読み取りエラーとを合算した総エラーの発生確率である。
図7は、一つの標的配列に関連する変異陽性配列数Mの確率密度分布を説明する説明図である。図8は、図7のA部拡大図である。横軸は、変異陽性であると判定された変異陽性配列数Mであり、単位は本である。縦軸は、確率密度であり、単位は無次元である。なお、図7および図8に示すグラフは説明のための例示であり、グラフの形状は以下に説明する各パラメータにより変化する。
実線は、がん細胞が含まれない検体から取得したn本のリードに、M本の変異陽性リードが含まれる確率密度f(n,M,p)を示す。すなわち、確率密度fは、N本のリード中に偽陽性の変異陽性リードがM本生じる確率密度である。
破線は、検出限界値qでがん細胞が含まれる検体から取得したn本のリードに、M本の変異陽性リードが含まれる確率密度g(n、M、q/2)を示す。すなわち、確率密度gは、N本のリード中に真陽性の変異陽性リードがM本生じる確率密度である。
ここで、検出限界値qは検体に含まれる細胞中のがん細胞の割合の検出限界値を意味する。検出限界値qが大きい場合には、がん細胞の含有率の大きい検体を使用する必要がある。細胞診により採取された検体はがん細胞の含有率が比較的少ないため、検出限界値qは小さいことが望ましい。
以下の説明では、確率密度f(n,M,p)および確率密度g(n、M、q/2)を、変数を省略してそれぞれ確率密度fおよび確率密度gと記載する場合がある。確率密度fおよび確率密度gは、変異陽性配列数Mが0からnの範囲で積分した場合に、1になる関数である。
確率密度fは、(1)式により算出される。
Figure 2019191952
図3を使用して説明を続ける。変異陽性配列数Mが、第1閾値MP以下である場合に、検体は標的配列にかかる変異を含まないと判定される。この場合、変異陽性配列数MがMPよりも大きい場合に、判定が偽陽性になる可能性がある。図8に左下がりのハッチングで示す部分の面積が、偽陽性率Fpに対応する。
第1閾値MPは、偽陽性率Fp=(1−特異度)が所定の値以下である最大の変異陽性配列数Mになるように設定される。第1閾値MPを調整することにより、遺伝子検査の特異度を調整できる。
確率密度gは、(2)式により算出される。
Figure 2019191952
変異陽性配列数Mが、第2閾値MNより大きい場合に、検体は標的配列にかかる変異を含むと判定される。この場合、変異陽性配列数MがMN以下である場合に、判定が偽陰性になる可能性がある。図8に右下がりのハッチングで示す部分の面積が、偽陰性率Fnに対応する。
第2閾値MNは、偽陰性率Fn=(1−感度)が所定の値以下である最小の変異陽性配列数Mになるように設定される。第2閾値MNを調整することにより、遺伝子検査の感度を調整できる。
読取配列数nが小さい場合、エラー率pが大きい場合、および、検出限界値qが小さい場合には、MPがMNより大きくなる場合がある。このような場合には、検体が標的配列にかかる変異を含むか否かを判定できない。
たとえば、検出限界値qを大きく設定することにより、MPがMN以下になる場合がある。これは、検体中に含まれるがん細胞の比率が低い場合には、標的配列の変異が検出されずに、変異陰性であると判定することに対応する。
図9は、遺伝子検査システム10の構成を説明する説明図である。遺伝子検査システム10は、ネットワークを介して接続された次世代シーケンサ13、ファイルサーバ16および情報処理装置20を備える。
次世代シーケンサ13は、図2を使用して説明した前処理が行なわれた検体の塩基配列を読み取り、所定のフォーマットで記録した読取データファイル46をファイルサーバ16に保存する。次世代シーケンサ13の構成の詳細およびファイルサーバ16の構成の詳細については、説明を省略する。なお、次世代シーケンサ13とファイルサーバ16とは、一体になっていても良い。
情報処理装置20は、CPU(Central Processing Unit)21、主記憶装置22、補助記憶装置23、通信部24、入力部25、表示部26およびバスを備える。CPU21は、本実施の形態のプログラムを実行する演算制御装置である。CPU21には、一または複数のCPUまたはマルチコアCPU等が使用される。CPU21は、バスを介して情報処理装置20を構成するハードウェア各部と接続されている。
主記憶装置22は、SRAM(Static Random Access Memory)、DRAM(Dynamic Random Access Memory)、フラッシュメモリ等の記憶装置である。主記憶装置22には、CPU21が行なう処理の途中で必要な情報およびCPU21で実行中のプログラムが一時的に保存される。
補助記憶装置23は、SRAM、フラッシュメモリまたはハードディスク等の記憶装置である。補助記憶装置23には、参照配列DB41、読取結果DB42、CPU21に実行させるプログラム、およびプログラムの実行に必要な各種データが保存される。
通信部24は、情報処理装置20とネットワークとの間のデータ通信を行なうインターフェイスである。入力部25は、キーボードおよびマウス等である。表示部26は、液晶表示パネルまたは有機EL(electro-luminescence)表示パネル等である。
本実施の携帯の情報処理装置20は、汎用のパソコンまたはタブレット等の情報処理装置である。情報処理装置20は、次世代シーケンサ13またはファイルサーバ16と一体になっていても良い。情報処理装置20と、次世代シーケンサ13と、ファイルサーバ16とが一体になっていても良い。情報処理装置20は一つまたは複数の大型計算機上で動作する仮想マシンであっても良い。
参照配列DB41および読取結果DB42は、ファイルサーバ16、または、ネットワークを介して情報処理装置20に接続されたデータサーバ等の記憶装置に記憶されていても良い。各DBは、別々の記憶装置に記憶されていても良い。
図10は、参照配列DB41のレコードレイアウトを説明する説明図である。参照配列DB41は、領域名と、参照配列と、エラー率pとを関連づけて記録するDBである。参照配列DB41は、領域名フィールド、参照配列フィールドおよびエラー率pフィールドを有する。参照配列フィールドは、正常配列フィールドおよび変異配列フィールドを有する。変異配列フィールドは、第1変異配列フィールドから順次番号付けされた変異配列サブフィールドを有する。
領域名フィールドには、標的配列の領域名が記録されている。正常配列フィールドには、正常な塩基配列が記録されている。変異配列フィールドには、既知の変異配列が記録されている。なお、既知の変異配列の数は標的配列により異なる。変異配列が少ない標的領域に関するレコードにおいては、後ろの変異配列フィールドは空欄である。エラー率pフィールドには、予備実験等により算出したエラー率pが記録されている。
図11は、読取データファイル46の例を説明する説明図である。図11には、FASTQフォーマット形式のファイルの例を示す。FASTQファイル形式においては、リードID行、塩基配列行、+記号およびクオリティ行の4行に、1本のリードのデータが記録される。
リードID行には、次世代シーケンサによりリードに固有に付与されたリードIDが記録されている。塩基配列行には、次世代シーケンサにより読み取られた塩基配列が記録されている。クオリティ行には、塩基配列行に記録されたそれぞれの塩基のクオリティ値、すなわち信頼性の指標が記録されている。
前述の通り、次世代シーケンサ13は図3を使用して説明した識別アダプタごとに別々の読取データファイル46を作成する。したがって、1つの読取データファイル46には、一つの検体のリードが記録されている。次世代シーケンサ13は、一回の解析の結果を一つのフォルダに記録する。なお、読取データファイル46の形式はFASTQフォーマット形式に限定しない。
図12は、読取結果DB42のレコードレイアウトを説明する説明図である。判定結果DB43は、検体に固有に付与された検体IDと、領域名と、次世代シーケンサにより読み取った読取結果とを関連づけて記録するDBである。
読取結果DB42は、検体IDフィールド、領域名フィールド、読取配列数nフィールドおよび変異陽性配列数Mフィールドを有する。変異陽性配列数Mフィールドは、第1変異陽性配列数M1フィールド、第2変異陽性配列数M2フィールド等の第I変異陽性配列数MIフィールドを有する。
検体IDフィールドには、検体に固有に付与された検体ID(Identifier)が記録されている。領域名フィールドには、標的配列の領域名が記録されている。読取配列数nフィールドには、標的配列の読取配列数nが記録されている。
第1変異陽性配列数M1フィールドには、参照配列DB41の第1変異配列フィールドに対応する変異陽性リードの数が記録されている。第2変異陽性配列数M2フィールドには、参照配列DB41の第2変異配列フィールドに対応する変異陽性リードの数が記録されている。第I変異陽性配列数MIフィールドには、参照配列DB41の第I変異配列フィールドに対応する変異陽性リードの数が記録されている。読取結果DB42は、一つの検体の一つの領域について、一つのレコードを有する。
図13は、判定結果DB43のレコードレイアウトを説明する説明図である。判定結果DB43は、検体に固有に付与された検体IDと、領域名と、判定結果とを関連づけて記録するDBである。
判定結果DB43は、検体IDフィールド、領域名フィールド、変異配列フィールド、判定結果フィールドおよび判定条件フィールドを有する。判定条件フィールドは、特異度フィールド、感度フィールドおよび検出限界値qフィールドを有する。
検体IDフィールドには、検体に固有に付与された検体IDが記録されている。領域名フィールドには、標的配列の領域名が記録されている。変異配列フィールドには、変異配列名が記録されている。変異配列フィールドの「−」は、どの変異配列であるかを特定しないことを意味する。
判定結果フィールドには、判定結果が記録されている。「ZeroReads」はリードが検出されなかったことを、「Positive」は変異陽性を、「Negative」は変異陰性を示す。特異度フィールドには、判定に用いた特異度が記録されている。感度フィールドには、判定に用いた感度が記録されている。検出限界値qフィールドには、判定に用いた検出限界値qが記録されている。
図14は、未知変異D44Bのレコードレイアウトを説明する説明図である。未知変異DB44は、検体IDフィールド、領域名フィールド、リードフィールドおよび備考フィールドを有する。検体IDフィールドには、検体に固有に付与された検体IDが記録されている。領域名フィールドには、標的配列の領域名が記録されている。リードフィールドには、未知変異と判定されたリードの塩基配列が記録されている。なお、リードフィールドに塩基配列の代わりにリードIDを記録しても良い。備考フィールドには、備考が記録される。
未知変異について、説明する。たとえば、EGFR ex19領域、および、ALK領域は、数多くの変異型を有する。変異型の中には、まだ学会等に報告されていない、いわゆる未知変異が含まれる。
参照配列DB41の末尾の変異配列サブフィールドに、塩基配列の一部分をいわゆるワイルドカードにした変異配列を記憶しておくことにより、既知の変異配列のいずれとも一致しない未知変異を有するリードを検出できる。このようなリードの塩基配列が、リードフィールドに記録される。未知変異DB44に記録したデータを研究することにより、治療方法の研究等に役立てられる。
図15および図16は、判定結果を表示する画面の例である。図15に示す画面は、検体選択欄51、解析ボタン52および解析結果欄53を有する。解析ボタン52は、単一解析ボタン521および複数解析ボタン522を含む。解析結果欄53は、第1解析結果欄531、第2解析結果欄532、第3解析結果欄533、および第4解析結果欄534を含む。
ユーザにより、単一解析ボタン521が選択された場合、CPU21はユーザにより指定された1つの検体に対応する読取データファイル46を取得して、解析を行なう。ユーザにより、複数解析ボタン522が選択された場合、CPU21はユーザにより指定された1つのフォルダに保存された複数の読取データファイル46を取得して、解析を行なう。図15は、複数解析ボタン522が選択されて、解析が行なわれた後の画面を示す。
第1解析結果欄531には、標的配列のうち体細胞変異DNAに関する解析結果が表示される。第2解析結果欄532には、標的配列のうち生殖細胞系列DNAに関する解析結果が表示される。第3解析結果欄533には、標的配列のうち体細胞変異RNAに関する解析結果が表示される。第4解析結果欄534には、標的配列のうち生殖細胞系列RNAに関する解析結果が表示される。
第1解析結果欄531について、さらに詳細に説明する。第1解析結果欄531の1行は、一つの標的配列に関する解析結果を示す。たとえば、第1解析結果欄531の1行目は、がん遺伝子の一つであるEGFR(Epidermal Growth Factor Receptor:上皮増殖因子受容体)遺伝子のエクソン(exon)18領域が変異陰性であると判定されたことを示す。
ユーザは、検体選択欄51を使用して、所望の検体の解析結果を閲覧できる。図15においては、No.24の検体が選択されている。図16は、図15とは異なるNo.2の検体の解析結果を表示する状態を示す。
図16においては、第1解析結果欄531に、KRAS_G13C(37G>T)が変異陽性であり、検体に51.6%のがん細胞が含まれていると推定する旨が表示されている。第5解析結果欄535がポップアップ表示されており、関連するリード数の詳細が表示されている。第5解析結果欄535の下部に、解析に使用した検出限界値q、特異度および感度が表示されている。
図15の第3解析結果欄533および図16の第1解析結果欄531に例示するように、いずれかの標的配列が変異陰性である場合、解析結果欄53の表題が枠で囲まれる。ユーザは、変異陽性の標的配列が含まれることに、容易に気付ける。なお、肺がんにおいては標的配列の変異の有無によって、薬剤の治療効果が大きく異なることが知られている。したがって、ユーザは図15および図16に示す解析結果を参照することにより、患者に投与する薬剤を適切に選択できる。
CPU21は、変異陽性である標的配列に基づいて、推奨する薬剤名を表示しても良い。たとえば検体のEGFR ex19が欠失しているか、または、EGFR L858R変異が検出された場合には、CPU21は、ゲフィチニブ、エルロチニブ、アファチニブ等の薬剤名を表示する。薬剤名は、商品名を用いて表示しても良い。
図17は、プログラムの処理の流れを説明するフローチャートである。CPU21は、リード数のカウントに使用する各変数をゼロに初期化する(ステップS501)。CPU21は、参照配列DB41より1つの参照配列レコードを取得する(ステップS502)。CPU21は、読取データファイル46から1本のリードの塩基配列を取得する(ステップS503)。
CPU21は、判定のサブルーチンを起動する(ステップS504)。判定のサブルーチンは、ステップS503で取得したリードの塩基配列と、ステップS502で取得した参照配列とを対比して、リードが参照配列に対応するか否かを判定するサブルーチンである。判定のサブルーチンの処理の流れは後述する。
CPU21は、1つの読取データファイル46に記録された全リードの処理を終了したか否かを判定する(ステップS505)。終了していないと判定した場合(ステップS505でNO)、CPU21はステップS503に戻る。
終了したと判定した場合(ステップS505でYES)、CPU21は読取結果DB42に新規レコードを追加し、各フィールドにデータを記録する(ステップS506)。CPU21は閾値判定のサブルーチンを起動する(ステップS507)。閾値判定のサブルーチンは、所定の特異度、感度および検出限界値qに基づいて、標的配列が変異陽性であるか変異陰性であるかを判定する閾値を判定するサブルーチンである。閾値判定のサブルーチンの処理の流れは後述する。
CPU21は、参照配列DB41に記録されたすべてのレコードの処理を終了したか否かを判定する(ステップS508)。終了していないと判定した場合(ステップS508でNO)、CPU21はステップS501に戻る。終了したと判定した場合(ステップS508でYES)、CPU21は処理を終了する。
図18は、判定のサブルーチンの処理の流れを説明するフローチャートである。判定のサブルーチンは、リードの塩基配列と参照配列とを対比して、リードが参照配列に対応するか否かを判定するサブルーチンである。
CPU21は、リードが参照配列レコードの正常配列フィールドに記録された正常配列と一致するか否かを判定する(ステップS511)。リードが正常配列と一致しないと判定した場合(ステップS511でNO)、CPU21はカウンタIを1に設定する(ステップS521)。CPU21は、リードが参照配列レコードの第I変異配列フィールドに記録された第I変異配列と一致するか否かを判定する(ステップS522)。
第I変異配列と一致しないと判定した場合(ステップS522でNO)、CPU21は、処理中の参照配列レコードに記録されたすべての変異配列の処理を終了したか否かを判定する(ステップS523)。終了していないと判定した場合(ステップS523でNO)、CPU21はカウンタIに1を加算する(ステップS524)。CPU21はステップS522に戻る。終了したと判定した場合(ステップS523でYES)、CPU21は処理を終了する。
第I変異配列と一致すると判定した場合(ステップS522でYES)、CPU21は第I変異配列数MIをカウントする変数に1を加算する(ステップS526)。
CPU21は、処理中のリードが未知変異であるか否かを判定する(ステップS527)。前述のとおり、第I変異配列がワイルドカードを含む場合に、CPU21は処理中のリードは未知変異であると判定する。
未知変異であると判定した場合(ステップS527でYES)、CPU21は未知変異DB44にレコードを作成し、リードを記録する(ステップS528)。未知変異ではないと判定した場合(ステップS527でNO)、正常配列と一致すると判定した場合(ステップS511でYES)、または、ステップS528の終了後、CPU21は読取配列数nをカウントする変数に1を加算する(ステップS512)。CPU21は、処理を終了する。
図19は、閾値判定のサブルーチンの処理の流れを説明するフローチャートである。閾値判定のサブルーチンは、所定の特異度、感度および検出限界値に基づいて、標的配列が変異陽性であるか変異陰性であるかを判定する閾値を判定するサブルーチンである。
CPU21は、特異度、感度、および検出限界値qにかかる初期条件を取得する(ステップS531)。なお、特異度、感度、および検出限界値qにかかる初期条件は補助記憶装置23に記憶されている。CPU21は、ユーザによる初期条件の入力を受け付けても良い。
CPU21は、読取配列数nがゼロであるか否かを判定する(ステップS532)。ゼロであると判定した場合(ステップS532でYES)、CPU21は、判定結果は「ZeroReads」である、すなわち処理中の参照配列に対応するリードは読取データファイル46に含まれないと判定する(ステップS533)。
CPU21は、判定結果DB43に新規レコードを追加する。CPU21は、各フィールドに結果を記録する(ステップS534)。具体的には、CPU21は、検体IDフィールドおよび領域名フィールドに処理中の検体IDおよび領域名を記録する。CPU21は、判定結果フィールドにどの変異配列であるかを特定しないことを意味する「−」を記録する。CPU21は、判定結果フィールドに「ZeroReads」を記録する。CPU21は、判定条件フィールドに、特異度、感度および検出限界値qをそれぞれ記録する。CPU21は、処理を終了する。
読取配列数nがゼロではないと判定した場合(ステップS532でNO)、CPU21は第1閾値MP算出のサブルーチンを起動する(ステップS541)。第1閾値MP算出のサブルーチンは、図7および図8を使用して説明した、特異度に関連する第1閾値MPを算出するサブルーチンである。第1閾値MP算出のサブルーチンの処理の流れは後述する。
CPU21は第2閾値MN算出のサブルーチンを起動する(ステップS542)。第2閾値MN算出のサブルーチンは、図7および図8を使用して説明した、感度に関連する第2閾値MNを算出するサブルーチンである。第2閾値MN算出のサブルーチンの処理の流れは後述する。
CPU21は、第1閾値MPが第2閾値MN以下であるか否かを判定する(ステップS543)。第1閾値MPが第2閾値MN以下であると判定した場合(ステップS543でYES)、CPU21は統計判定のサブルーチンを起動する(ステップS544)。統計判定のサブルーチンは読取結果DB42に記録された変異陽性配列数Mと、第2閾値MNとを比較して、変異陽性であるか否かを統計的に判定するサブルーチンである。統計判定のサブルーチンの処理の流れは後述する。その後、CPU21は処理を終了する。
第1閾値MPが第2閾値MNを越えると判定した場合(ステップS543でNO)、CPU21は検出限界値qの増加が許されているか否かを判定する(ステップS545)。検出限界値qの最大値は、補助記憶装置23に記録されている。CPU21は、ユーザによる検出限界値qの最大値の入力を受け付けても良い。
増加が許されていると判定した場合(ステップS545でYES)、CPU21は検出限界値qを増加させる(ステップS546)。1回あたりの増加量は、補助記憶装置23に記録されている。CPU21は、ユーザによる検出限界値qの増加量の入力、または、増加後の検出限界値qの値の入力を受け付けても良い。CPU21は、ステップS542に戻る。
増加が許されていないと判定した場合(ステップS545でNO)、CPU21は、判定結果は「not determined」である、すなわち処理中の参照配列が変異陽性であるか、変異陰性であるかは判定できないと判定する(ステップS547)。
CPU21は、判定結果DB43に新規レコードを追加する。CPU21は、各フィールドに結果を記録する(ステップS548)。具体的には、CPU21は、検体IDフィールドおよび領域名フィールドに処理中の検体IDおよび領域名を記録する。CPU21は、判定結果フィールドにどの変異配列であるかを特定しないことを意味する「−」を記録する。CPU21は、判定結果フィールドに「not determined」を記録する。CPU21は、判定条件フィールドに、特異度、感度および検出限界値qをそれぞれ記録する。CPU21は、処理を終了する。
図20は、統計判定のサブルーチンの処理の流れを説明するフローチャートである。統計判定のサブルーチンは読取結果DB42に記録された変異陽性配列数Mと、第2閾値MNとを比較して、変異陽性であるか否かを統計的に判定するサブルーチンである。
CPU21は、カウンタIを初期値1に設定する(ステップS551)。CPU21は、判定結果DB43に新規レコードを追加する(ステップS552)。CPU21は、検体IDフィールドおよび領域名フィールドに処理中の検体IDおよび領域名を記録する。CPU21は、判定条件フィールドに、特異度、感度および検出限界値qをそれぞれ記録する。
CPU21は、検体IDおよび領域名をキーとして、読取結果DB42からレコードを抽出する。CPU21は、第I変異陽性配列数MIフィールドから、第I変異陽性配列数MIを取得する(ステップS553)。
CPU21は、第I変異陽性配列数MIが第2閾値MN以下であるか否かを判定する(ステップS554)。第I変異陽性配列数MIが第2閾値MN以下であると判定した場合(ステップS554でYES)、CPU21は、判定結果は「Negative」、すなわち変異陰性であると判定する(ステップS555)。第I変異陽性配列MIが第2閾値MN以下でないと判定した場合(ステップS554でNO)、CPU21は、判定結果は「Positive」、すなわち変異陽性であると判定する(ステップS556)。
ステップS555またはステップS556の終了後、CPU21は、ステップS551で作成したレコードの判定結果フィールドに、ステップS555またはステップS556で判定した判定結果を記録する(ステップS557)。
CPU21は、すべての変異配列リードの処理を終了したか否かを判定する(ステップS558)。終了していないと判定した場合(ステップS558でNO)、CPU21はカウンタIに1を加算する(ステップS559)。CPU21はステップS552に戻る。終了したと判定した場合(ステップS558でYES)、CPU21は処理を終了する。
図21は、第1閾値MP算出のサブルーチンの処理の流れを説明するフローチャートである。第1閾値MP算出のサブルーチンは、図7および図8を使用して説明した、特異度に関連する第1閾値MPを算出するサブルーチンである。
CPU21は、変数Fを初期値0に設定する(ステップS561)。CPU21は、変数Mを初期値1に設定する(ステップS562)。CPU21は、前述の(1)式に基づいて、f(n、M、p)を算出する(ステップS563)。nは、読取結果DB42の読取配列数nフィールドから取得した読取配列数nである。pは、参照配列DB41のエラー率pフィールドから取得したエラー率pである。
CPU21は、変数FにステップS563で算出したf(n、M、p)を加算する(ステップS564)。CPU21は、変数Fが特異度以上であるか否かを判定する(ステップS565)。変数Fが特異度未満であると判定した場合(ステップS565でNO)、CPU21は変数Mに1を加算する(ステップS566)。CPU21は、ステップS563に戻る。
変数Fが特異度以上であると判定した場合(ステップS565でYES)、CPU21は、第1閾値MPが変数Mに等しいと判定する(ステップS567)。CPU21は処理を終了する。
図22は、第2閾値MN算出のサブルーチンの処理の流れを説明するフローチャートである。第2閾値MN算出のサブルーチンは、図7および図8を使用して説明した、感度に関連する第2閾値MNを算出するサブルーチンである。
CPU21は、変数Gを初期値0に設定する(ステップS571)。CPU21は、変数Mを初期値1に設定する(ステップS572)。CPU21は、前述の(2)式に基づいて、g(n、M、q/2)を算出する(ステップS573)。nは、読取結果DB42の読取配列数nフィールドから取得した読取配列数nである。検出限界値qは、検体中に含まれるがん細胞数と、検体中に含まれる全細胞数との比率である。
CPU21は、変数GにステップS573で算出したg(n、M、q/2)を加算する(ステップS574)。CPU21は、変数Gが(1−感度)を越えるか否かを判定する(ステップS575)。変数Gが(1−感度)を越えないと判定した場合(ステップS575でNO)、CPU21は変数Mに1を加算する(ステップS577)。CPU21は、ステップS573に戻る。
変数Fが(1−感度)を越えると判定した場合(ステップS575でYES)、CPU21は、第2閾値MNが(変数M−1)に等しいと判定する(ステップS578)。CPU21は処理を終了する。
本実施の形態によると、塩基配列を増幅する際のエラーに起因する偽陽性および偽陰性の発生確率を考慮して、塩基配列が変異陽性であるか、変異陰性であるかを判定できる。判定を行なう際の、感度、特異度および検出限界値qが明確であるため、判定結果を受領した臨床医は、判定結果の信頼性を考慮して、投与する抗がん剤を選択できる。
本実施の形態によると、検出限界値qを適宜調整することにより、読取配列数nが比較的少ない場合であっても、変異陽性であるか、変異陰性であるかを判定できる。検体の質および量が不十分であり、かつ、再採取が困難である場合であっても、限界を明示した上で、可能な判定を出力することにより、臨床医の判断に寄与する情報を提供できる。
本実施の形態によると、内視鏡を用いた細胞診等により採取された、微量、かつ、検出限界値qの低い検体であっても、感度および特異度を明確にして変異陽性であるか変異陰性であるかを判定できる。
本実施の形態によると、複数の検体の塩基配列を1台の次世代シーケンサを用いて同時に読み取ることができる。たとえば、次世代シーケンサを用いた解析サービスを提供する臨床検査会社においては、次世代シーケンサの処理能力を有効に活用して、検体を受け取ってから、遺伝子変異の有無を医療機関に報告するまでの期間を短縮できる。また、それぞれの検体の処理コストを低減できる。
本実施の形態によると、検体ごとに、および、標的配列ごとに所定の感度、特異度および検出限界値qで変異陽性であるか変異陰性であるかを判定できる。したがって、同時に読み取りを行なう複数の検体の一部に、質の低い検体が含まれている場合であっても、他の検体の判定に影響を及ぼさない。ここで、質の低い検体とは、壊死組織が多く含まれている検体、または、採取した後に適切に処理されなかった検体等、十分な質および量のDNAおよびRNAを抽出できない検体を意味する。
本実施の形態によると、図2を使用して説明したように、塩基配列を増幅する処理の後に精製処理を行なう。精製処理で質の低い検体に起因するプライマダイマーを除去することにより、次世代シーケンサによる塩基配列の読み取りを安定して行なえる。
本実施の形態によると、EGFR ex19およびALKのように、多くの変異型を有する標的配列について、データベースに記録されていない未知の変異配列を検出できる。検出した未知の変異配列を、未知変異DB44に記録することにより、新たな治療法の開発等を目指す医学研究に寄与できる。
本実施の形態によると、抗がん剤の選定に影響を及ぼす重要な変異配列が新たに発見された場合、当該変異配列を参照配列DB41に追加した後に、読取データファイル46を再度解析することにより、当該変異配列に関する判定を行なえる。
検査対象は、肺がんに限定しない。遺伝子検査システム10は、消化器、泌尿器、生殖器等のさまざまな部位から採取した検体の遺伝子変異の検査に使用できる。この場合、それぞれの臓器に発現するがん遺伝子を参照配列DB41に記録する。また、前処理において対応するがん遺伝子を切断および増幅させる。
なお、本実施の形態においては、(1)式および(2)式中の変異陽性配列数Mを変数に使用して、第1閾値MPおよび第2閾値MNを算出したが、読取配列数nを変数に使用して、所定の感度および特異度に対応する閾値を算出しても良い。このようにする場合には、次世代シーケンサが実際に読んだ読取配列数nと、算出した閾値とを対比して、変異陽性であるか、変異陰性であるかを判定する。
[実施の形態2]
本実施の形態は、検出限界値q、感度および特異度を動的に変化させて判定を行なう遺伝子検査システム10に関する。実施の形態1と共通する部分については、説明を省略する。
図23は、パラメータDBのレコードレイアウトを説明する説明図である。パラメータDBは、検出限界値q、感度および特異度の特異度の組合せを記録するDBである。パラメータDBは検出限界値qフィールド、感度フィールドおよび特異度フィールドを有する。検出限界値qフィールドには検出限界値qが、感度フィールドには感度が、特異度フィールドには特異度がそれぞれ記録されている。パラメータDBの一つのレコードには、検出限界値qと、感度と、特異度との組合せが記録されている。
図24は、実施の形態2の閾値判定のサブルーチンの処理の流れを説明するフローチャートである。図24に示すサブルーチンは、図19を使用して説明したサブルーチンの代わりに使用される。ステップS543までは、図19を使用して説明したサブルーチンと同一の処理であるため、説明を省略する。
第1閾値MPが第2閾値MNを越えると判定した場合(ステップS543でNO)、CPU21はパラメータ調整のサブルーチンを起動する(ステップS581)。パラメータ調整のサブルーチンは、検出限界値q、感度および特異度の3つのパラメータを調整するサブルーチンである。パラメータ調整のサブルーチンの処理の流れは後述する。
CPU21は、パラメータ調整のサブルーチンにより、いずれか一つまたは複数のパラメータが変更されたか否かを判定する(ステップS582)。どのパラメータも変更されていないと判定した場合(ステップS582でNO)、CPU21は、判定結果は「not determined」である、すなわち処理中の参照配列が変異陽性であるか、変異陰性であるかは判定できないと判定する(ステップS583)。
CPU21は、判定結果DB43に新規レコードを追加する。CPU21は、各フィールドに結果を記録する(ステップS584)。具体的には、CPU21は、検体IDフィールドおよび領域名フィールドに処理中の検体IDおよび領域名を記録する。CPU21は、判定結果フィールドにどの変異配列であるかを特定しないことを意味する「−」を記録する。CPU21は、判定結果フィールドに「not determined」を記録する。CPU21は、判定条件フィールドに、特異度、感度および検出限界値qをそれぞれ記録する。CPU21は、処理を終了する。
パラメータが変更されたと判定した場合(ステップS582でYES)、CPU21は特異度が変更されたか否かを判定する(ステップS585)。特異度が変更されたと判定した場合(ステップS585でYES)、CPU21はステップS541に戻る。特異度が変更されていないと判定した場合(ステップS585でNO)、CPU21はステップS542に戻る。
図25は、パラメータ調整のサブルーチンの処理の流れを説明するフローチャートである。CPU21は、検出限界値q、感度および特異度の3つのパラメータを補助記憶装置23に一時的に記憶する(ステップS601)。
CPU21は、ステップS601で記憶した感度および検出限界値qをキーとして、パラメータDBから対応するレコードすべてを抽出する(ステップS602)。CPU21は、抽出したレコードから特異度を減少させるレコードを選択できるか否かを判定する(ステップS603)。
選択できると判定した場合(ステップS603でYES)、CPU21は、特異度の減少量が最も少ないレコードを選択し、当該レコードの特異度フィールドに記録された特異度を新たな特異度に設定する(ステップS604)。その後、CPU21は処理を終了する。
選択できないと判定した場合(ステップS603でNO)、CPU21は、ステップS601で記憶した特異度および検出限界値qをキーとして、パラメータDBから対応するレコードすべてを抽出する(ステップS605)。CPU21は、抽出したレコードから感度を減少させるレコードを選択できるか否かを判定する(ステップS606)。
選択できると判定した場合(ステップS606でYES)、CPU21は、感度の減少量が最も少ないレコードを選択し、当該レコードの感度フィールドに記録された感度を新たな感度に設定する(ステップS607)。その後、CPU21は処理を終了する。
選択できないと判定した場合(ステップS606でNO)、CPU21は、ステップS601で記憶した特異度および感度をキーとして、パラメータDBから対応するレコードすべてを抽出する(ステップS608)。CPU21は、抽出したレコードから検出限界値qを増加させるレコードを選択できるか否かを判定する(ステップS609)。
選択できると判定した場合(ステップS609でYES)、CPU21は、検出限界値qの増加量が最も少ないレコードを選択し、当該レコードの検出限界値qフィールドに記録された感度を新たな検出限界値qに設定する(ステップS610)。その後、CPU21は処理を終了する。選択できないと判定した場合(ステップS609でNO)、CPU21は処理を終了する。
本実施の形態によると、検出限界値qに加えて、感度および特異度も動的に変化させて判定を行なう遺伝子検査システム10を提供できる。
検出限界値q、感度および特異度の3つのパラメータのうちの1つを固定して、残りの2つを変化させても良い。検出限界値q、感度および特異度の3つのパラメータのうちの2つを固定して、残りの1つを変化させても良い。
[実施の形態3]
本実施の形態は、検出できない標的配列がある場合に、推定結果を出力する遺伝子検査システム10に関する。実施の形態1と共通する部分については、説明を省略する。
図26から図28は、実施の形態3のプログラムの処理の流れを説明するフローチャートである。図26から図28のプログラムは、実施の形態1または実施の形態2のプログラムにより、各標的配列に関する判定結果が判定結果DB43に記録された後に実行されるプログラムである。
CPU21は、検体IDをキーとして判定結果DB43から1検体分のレコードを抽出する(ステップS621)。CPU21は、表1に示す第1グループの遺伝子にかかる領域名をキーとして、ステップS621で抽出したレコードからさらにレコードを抽出する(ステップS622)。
Figure 2019191952
CPU21は、ステップS622で抽出されたレコードに、リードが検出されたレコードがあるか否かを判定する(ステップS623)。具体的には、判定結果フィールドに「ZeroReads」以外の判定結果が記録されたレコードがあるか否かを判定する。
検出されたレコードがあると判定した場合(ステップS623でYES)、CPU21はステップS622で抽出されたレコードにリードが欠落したレコードがあるか否かを判定する。具体的には、判定結果フィールドに「ZeroReads」が記録されたレコードがあるか否かを判定する(ステップS624)。欠落したレコードがあると判定した場合(ステップS624でYES)、CPU21は、当該レコードの判定結果フィールドを「Negative」に変更する(ステップS625)。
判定結果フィールドを変更する場合、CPU21は同じレコードの判定条件フィールドの各サブフィールドを「−」に変更することにより、他のレコードの判定結果に基づく推測であることを示しても良い。CPU21は、判定結果DB43に設けた備考フィールドに、他のレコードの判定結果に基づく推測であることを記録しても良い。
検出されたレコードがないと判定した場合(ステップS623でNO)、欠落したレコードがないと判定した場合(ステップS624でNO)、または、ステップS625の終了後、CPU21はステップS621で抽出したレコードから、EGFR ex20のT790M変異にかかるレコードを抽出する。CPU21は、抽出したレコードの判定結果フィールドに「Positive」が記録されているか否かを判定する(ステップS626)。
「Positive」が記録されていると判定した場合(ステップS626でYES)、CPU21はステップS621で抽出したレコードから、EGFR ex19にかかるレコードを抽出する。CPU21は、抽出したレコードの判定結果フィールドに「ZeroReads」が記録されているか否かを判定する(ステップS627)。
「ZeroReads」が記録されていると判定した場合(ステップS627でYES)、CPU21はEGFR ex19にかかるレコードの判定結果フィールドを「Positive」に変更する(ステップS628)。
「ZeroReads」が記録されていないと判定した場合(ステップS627でNO)またはステップS628の終了後、CPU21はステップS621で抽出したレコードから、EGFR L858R変異にかかるレコードを抽出する。CPU21は、抽出したレコードの判定結果フィールドに「ZeroReads」が記録されているか否かを判定する(ステップS629)。
「ZeroReads」が記録されていると判定した場合(ステップS629でYES)、CPU21はEGFR L858R変異にかかるレコードの判定結果フィールドを「Positive」に変更する(ステップS630)。
EGFR ex20のT790M変異にかかるレコードの判定結果フィールドに「Positive」が記録されていないと判定した場合(ステップS626でNO)、EGFR L858R変異にかかるレコードの判定結果フィールドに「ZeroReads」が記録されていないと判定した場合(ステップS629でNO)、または、ステップS630の終了後、CPU21はEGFR ex19にかかる領域名をキーとして参照配列DB41からレコードを抽出し、正常配列フィールドからEGFR ex19の正常配列を取得する(ステップS641)。
CPU21は、EGFR ex19にかかる領域名をキーとして未知変異DB44から1つのレコードを抽出する(ステップS642)。CPU21は、抽出したレコードのリードフィールドに記録されたリードと、ステップS641で取得した正常配列とを比較して、リードに塩基の欠失があるか否かを判定する(ステップS643)。欠失があると判定した場合(ステップS643でYES)、CPU21は欠失塩基の数は3の倍数であるか否かを判定する(ステップS644)。
3の倍数であると判定した場合(ステップS644でYES)、CPU21はステップS642で抽出したレコードの備考フィールドに、当該レコードに新規のEGFR ex19欠失リードが記録されている旨を記録する(ステップS645)。
欠失がないと判定した場合(ステップS643でNO)、3の倍数でないと判定した場合(ステップS644でNO)、またはステップS645の終了後、CPU21は、未知変異DB44に記録されたEGFR ex19にかかるレコードの処理を終了したか否かを判定する(ステップS646)。終了していないと判定した場合(ステップS646でNO)、CPU21はステップS642に戻る。
終了したと判定した場合(ステップS646でYES)、CPU21はALK遺伝子にかかる領域名をキーとして参照配列DB41からレコードを抽出し、正常配列フィールドからALL遺伝子の正常配列を取得する(ステップS651)。なお、ステップS651においてCPU21は、ALK遺伝子に含まれる各領域の正常配列をすべて取得する。
CPU21は、ALK遺伝子にかかる領域名をキーとして未知変異DB44から1つのレコードを抽出する(ステップS652)。CPU21は、抽出したレコードのリードフィールドに記録されたリードと、ステップS641で取得した正常配列とを比較して、リードがALK遺伝子と他の遺伝子Xとの融合遺伝子であるか否かを判定する(ステップS653)。
融合遺伝子であると判定した場合(ステップS653でYES)、CPU21は、ALK遺伝子と遺伝子Xとの融合部位が、ALK ex20のアクセプタ部位であるか否かを判定する(ステップS654)。ALK ex20のアクセプタ部位であると判定した場合(ステップS654でYES)、CPU21は遺伝子Xの塩基読み枠とALK遺伝子の塩基読み枠とが一致しているか否かを判定する(ステップS655)。
一致していると判定した場合(ステップS655でYES)、CPU21はステップS652で抽出したレコードの備考フィールドに、当該レコードに新規のALK融合遺伝子リードが記録されている旨を記録する(ステップS656)。
融合遺伝子でないと判定した場合(ステップS653でNO)、ALK ex20のアクセプタ部位でないと判定した場合(ステップS654でNO)、一致していないと判定した場合(ステップS655でNO)、または、ステップS656の終了後、CPU21は未知変異DB44に記録されたALK遺伝子にかかるレコードの処理を終了したか否かを判定する(ステップS657)。終了していないと判定した場合(ステップS657でNO)、CPU21はステップS652に戻る。終了していると判定した場合(ステップS657でYES)、CPU21は処理を終了する。
本実施のプログラムは、実施の形態1または実施の形態2のプログラムにより、各標的配列に関する判定結果が判定結果DB43に記録された後に自動的に実行されても、ユーザによる指示を受け付けた後に実行されても良い。本実施の形態のプログラムは、臨床検査機関から解析結果を受領した臨床医または研究者等が、検体にかかるデータを閲覧する際に実行されても良い。
本実施の形態のプログラムは、たとえばステップS621からステップS630までの欠落リードの補間と、ステップS641以降の新規の変異を推定する部分とに分けて、ユーザにより選択された部分が実行されても良い。
本実施の形態によると、検出できない標的配列がある場合に、推定結果を出力する遺伝子検査システム10を実現できる。本実施の形態によると、新規のEGFR ex19欠失および新規のALK融合遺伝子を検出する遺伝子検査システム10を提供できる。これらの新規遺伝子にかかる情報は、抗がん剤の研究に有益な情報である。
[実施の形態4]
図29は、情報処理装置20の機能ブロック図である。情報処理装置20は、参照核酸塩基配列取得部81と、検体核酸塩基配列取得部82と、判定取得部83と、エラー率取得部84と、変異陽性判定部85とを備える。
参照核酸塩基配列取得部81は、正常配列と変異配列とを含む参照核酸塩基配列を取得する。検体核酸塩基配列取得部82は、検体から読み取った複数の検体核酸塩基配列を取得する。判定取得部83は、検体核酸塩基配列取得部82が取得した検体核酸塩基配列のうち、参照核酸塩基配列取得部81が取得した参照核酸塩基配列に対応する読取配列数と、参照核酸塩基配列取得部81が取得した変異配列に対応する変異配列数とを判定する。
エラー率取得部84は、核酸塩基配列を読み取る際のエラー率pを取得する。変異陽性判定部85は、判定取得部83が判定した変異配列数および読取配列数と、エラー率取得部84が取得したエラー率pと、所定の偽陽性率とに基づいて、検体核酸塩基配列取得部82が取得した検体核酸塩基配列が変異陽性であるか否かを判定する。
[実施の形態5]
本実施の形態は、汎用のコンピュータとプログラム97とを組み合わせて動作させることにより、本実施の形態の遺伝子検査システム10を実現する形態に関する。図30は、実施の形態5の遺伝子検査システム10の構成を説明する説明図である。実施の形態1と共通する部分については、説明を省略する。
本実施の形態の遺伝子検査システム10は、ネットワークを介して接続された次世代シーケンサ13、ファイルサーバ16およびコンピュータ90を備える。コンピュータ90は、CPU21、主記憶装置22、補助記憶装置23、通信部24、入力部25、表示部26、読取部27およびバスを備える。
プログラム97は、可搬型記録媒体96に記録されている。CPU21は、読取部27を介してプログラム97を読み込み、補助記憶装置23に保存する。CPU21は、コンピュータ90に実装されたフラッシュメモリ等の半導体メモリ98に記憶されたプログラム97を読出しても良い。CPU21は、通信部24および図示しないネットワークを介して接続される図示しない他のサーバコンピュータからプログラム97をダウンロードして補助記憶装置23に保存しても良い。
プログラム97は、コンピュータ90の制御プログラムとしてインストールされ、主記憶装置22にロードして実行される。これにより、コンピュータ90は上述した情報処理装置20として機能する。
各実施例で記載されている技術的特徴(構成要件)はお互いに組合せ可能であり、組み合わせすることにより、新しい技術的特徴を形成することができる。
今回開示された実施の形態はすべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上記した意味では無く、特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
10 遺伝子検査システム
13 次世代シーケンサ
16 ファイルサーバ
20 情報処理装置
21 CPU
22 主記憶装置
23 補助記憶装置
24 通信部
25 入力部
26 表示部
27 読取部
41 参照配列DB
42 読取結果DB
43 判定結果DB
44 未知変異DB
46 読取データファイル
51 検体選択欄
52 解析ボタン
521 単一解析ボタン
522 複数解析ボタン
53 解析結果欄
531 第1解析結果欄
532 第2解析結果欄
533 第3解析結果欄
534 第4解析結果欄
535 第5解析結果欄
81 参照核酸塩基配列取得部
82 検体核酸塩基配列取得部
83 判定取得部
84 エラー率取得部
85 変異陽性判定部
90 コンピュータ
96 可搬型記録媒体
97 プログラム
98 半導体メモリ

Claims (9)

  1. 正常配列と該正常配列の一部が変異した変異配列とを含む参照核酸塩基配列を取得し、
    検体から読み取った複数の検体核酸塩基配列を取得し、
    前記検体核酸塩基配列のうち、前記参照核酸塩基配列に対応する読取配列数と、前記変異配列に対応する変異配列数とを判定し、
    核酸塩基配列を読み取る際のエラー率を取得し、
    前記変異配列数と、前記読取配列数と、前記エラー率と、所定の偽陽性率とに基づいて、前記検体核酸塩基配列が変異陽性であるか否かを判定する
    処理をコンピュータに実行させるプログラム。
  2. 前記変異配列数と、前記読取配列数と、所定の偽陰性率と、所定の検出限界値とに基づいて、前記検体核酸塩基配列が変異陽性であるか否かを判定する
    請求項1に記載のプログラム。
  3. 前記読取配列数と、前記エラー率と、所定の偽陽性率とに基づいて、前記検体核酸塩基配列が変異陽性であるか否かを判定する第1閾値を算出し、
    前記読取配列数と、所定の偽陰性率と、所定の検出限界値とに基づいて、前記検体核酸塩基配列が変異陽性であるか否かを判定する第2閾値を算出し、
    前記第2閾値が前記第1閾値以上であり、かつ、前記変異配列数が前記第2閾値以上である場合に、変異陽性であると判定する
    請求項2に記載のプログラム。
  4. 前記第1閾値は(1)式に基づいて判定し、
    前記第2閾値は(2)式に基づいて判定する
    請求項3に記載のプログラム。
    Figure 2019191952
  5. 検体核酸塩基配列は、次世代シーケンサにより読み取られる
    請求項1から請求項4のいずれか一つに記載のプログラム。
  6. 前記検体核酸塩基配列が変異陽性であると判定した場合、該検体核酸塩基配列に基づいて薬剤名を出力する
    請求項1から請求項5のいずれか一つに記載のプログラム。
  7. 複数の参照核酸塩基配列のそれぞれについて、前記読取配列数を取得し、
    第1の参照核酸塩基配列に対応する前記読取配列数が所定の値以下である場合に、他の参照核酸塩基配列に対応する前記読取配列数に基づいて、前記検体核酸塩基配列が変異陽性であるか否かを判定する
    請求項1から請求項6のいずれか一つに記載のプログラム。
  8. 正常配列と変異配列とを含む参照核酸塩基配列を取得し、
    検体から読み取った複数の検体核酸塩基配列を取得し、
    前記検体核酸塩基配列のうち、前記参照核酸塩基配列に対応する読取配列数と、前記変異配列に対応する変異配列数とを判定し、
    核酸塩基配列を読み取る際のエラー率を取得し、
    前記変異配列数と、前記読取配列数と、前記エラー率と、所定の偽陽性率とに基づいて、前記検体核酸塩基配列が変異陽性であるか否かを判定する
    処理をコンピュータに実行させる情報処理方法。
  9. 正常配列と変異配列とを含む参照核酸塩基配列を取得する参照核酸塩基配列取得部と、
    検体から読み取った複数の検体核酸塩基配列を取得する検体核酸塩基配列取得部と、
    前記検体核酸塩基配列取得部が取得した検体核酸塩基配列のうち、前記参照核酸塩基配列取得部が取得した参照核酸塩基配列に対応する読取配列数と、前記参照核酸塩基配列取得部が取得した変異配列に対応する変異配列数とを判定する判定取得部と、
    核酸塩基配列を読み取る際のエラー率を取得するエラー率取得部と、
    前記判定取得部が判定した変異配列数および読取配列数と、前記エラー率取得部が取得したエラー率と、所定の偽陽性率とに基づいて、前記検体核酸塩基配列取得部が取得した検体核酸塩基配列が変異陽性であるか否かを判定する変異陽性判定部と
    を備える情報処理装置。
JP2018084302A 2018-04-25 2018-04-25 プログラム、情報処理方法および情報処理装置 Pending JP2019191952A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018084302A JP2019191952A (ja) 2018-04-25 2018-04-25 プログラム、情報処理方法および情報処理装置
PCT/JP2019/012294 WO2019208052A1 (ja) 2018-04-25 2019-03-25 プログラム、情報処理方法および情報処理装置
EP19791813.9A EP3786960A4 (en) 2018-04-25 2019-03-25 PROGRAM, INFORMATION PROCESSING METHOD AND INFORMATION PROCESSING DEVICE

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018084302A JP2019191952A (ja) 2018-04-25 2018-04-25 プログラム、情報処理方法および情報処理装置

Publications (1)

Publication Number Publication Date
JP2019191952A true JP2019191952A (ja) 2019-10-31

Family

ID=68294974

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018084302A Pending JP2019191952A (ja) 2018-04-25 2018-04-25 プログラム、情報処理方法および情報処理装置

Country Status (3)

Country Link
EP (1) EP3786960A4 (ja)
JP (1) JP2019191952A (ja)
WO (1) WO2019208052A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113628682B (zh) * 2021-08-11 2023-10-24 上海小海龟科技有限公司 一种t790m和c797s顺反式突变类型识别及计算方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017520821A (ja) * 2014-05-12 2017-07-27 エフ.ホフマン−ラ ロシュ アーゲーF. Hoffmann−La Roche Aktiengesellschaft ウルトラディープシークエンシングにおける希少バリアントコール
JP2017212938A (ja) * 2016-05-31 2017-12-07 富士フイルム株式会社 生物情報解析方法および生物情報解析システム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6638128B2 (ja) 2014-10-30 2020-01-29 公立大学法人福島県立医科大学 腎がんの悪性度の検査マーカー及び検査方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017520821A (ja) * 2014-05-12 2017-07-27 エフ.ホフマン−ラ ロシュ アーゲーF. Hoffmann−La Roche Aktiengesellschaft ウルトラディープシークエンシングにおける希少バリアントコール
JP2017212938A (ja) * 2016-05-31 2017-12-07 富士フイルム株式会社 生物情報解析方法および生物情報解析システム

Also Published As

Publication number Publication date
EP3786960A1 (en) 2021-03-03
WO2019208052A1 (ja) 2019-10-31
EP3786960A4 (en) 2022-01-19

Similar Documents

Publication Publication Date Title
US20230167507A1 (en) Cell-free dna methylation patterns for disease and condition analysis
US9115401B2 (en) Partition defined detection methods
US20230220492A1 (en) Methods and systems for detecting colorectal cancer via nucleic acid methylation analysis
Larsson et al. Comparative microarray analysis
Huang et al. A robust method for transcript quantification with RNA-Seq data
US20210010076A1 (en) Methods and systems for abnormality detection in the patterns of nucleic acids
US20210327535A1 (en) Sensitively detecting copy number variations (cnvs) from circulating cell-free nucleic acid
CN111850108A (zh) 冠心病患者死亡风险相关的dna甲基化组合物及其筛选方法和用途
JP2023524016A (ja) 結腸細胞増殖性障害を特定するためのrnaマーカと方法
EP4314322A1 (en) Methods and systems for detecting cancer via nucleic acid methylation analysis
WO2019208052A1 (ja) プログラム、情報処理方法および情報処理装置
Peng et al. Integration of genetic signature and TNM staging system for predicting the relapse of locally advanced colorectal cancer
US20210292845A1 (en) Identifying methylation patterns that discriminate or indicate a cancer condition
KR20170032892A (ko) 난소암의 예후 예측용 유전자 선별방법
Moldovan et al. Multi-modal cell-free DNA genomic and fragmentomic patterns enhance cancer survival and recurrence analysis
JP6612509B2 (ja) 大腸癌の予後診断を補助する方法、記録媒体および判定装置
EP4191594A1 (en) Program, learning model, information processing device, information processing method, and method for generating learning model
WO2022262569A1 (zh) 一种用于区分体细胞突变和种系突变的方法
Luong Predicting Formalin-fixed Paraffin-embedded (FFPE) Sequencing Artefacts from Breast Cancer Exome Sequencing Data Using Machine Learning
Zhao Semi-Parametric Mixture Gaussian Model to Detect Breast Cancer Intra-Tumor Heterogeneity
Kamath et al. Toward a measure of classification complexity in gene expression signatures

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210202

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220426

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220613

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20221018