JP2023551517A

JP2023551517A - 人工知能ベースのがん診断及びがん種予測方法｛Ｍｅｔｈｏｄｆｏｒｄｉａｇｎｏｓｉｎｇａｎｄｐｒｅｄｉｃｔｉｎｇｃａｎｃｅｒｔｙｐｅｂａｓｅｄｏｎａｒｔｉｆｉｃｉａｌｉｎｔｅｌｌｉｇｅｎｃｅｂａｓｅｄｏｎａｒｔｉｆｉｃｉａｌｉｎｔｅｌｌｉｇｅｎｃｅ｝

Info

Publication number: JP2023551517A
Application number: JP2023532698A
Authority: JP
Inventors: チャンソクキ; ウンヘチョ; ジュンナムイ; ジンモアン; ジュヒョクソン; ゴンミンキム; ミンファンキム
Original assignee: Aima Co Ltd; GC Genome Corp
Current assignee: Aima Co Ltd; GC Genome Corp
Priority date: 2020-11-27
Filing date: 2021-11-15
Publication date: 2023-12-08
Also published as: US20230183812A1; CN117083680A; KR20220074088A; EP4254419A1; CA3200206A1; WO2022114631A1; AU2021387426A1; AU2021387426A9

Abstract

本発明は、人工知能ベースのがん診断及びがん種予測方法に関し、より具体的には、生体試料から核酸を抽出し、配列情報を取得して整列した核酸断片に基づいてベクトル化されたデータを生成した後、学習された人工知能モデルに入力して計算された値を分析する人工知能ベースのがん診断及びがん種予測方法に関する。本発明による人工知能ベースのがん診断及びがん種予測方法は、従来のリード数(read count)ベースで染色体量を決定する段階を利用する方法において、関連する値を1つ1つの定型化された値として活用するのに比べて、ベクトル化されたデータを生成してAIアルゴリズムを利用して分析するため、リードカバレッジが低くても同様の効果を発揮することができて有用である。

Description

本発明は、人工知能ベースのがん診断及びがん種予測方法に関し、より具体的には、生体試料から核酸を抽出し、配列情報を取得して整列したリードに基づいてベクトル化されたデータを生成した後、学習された人工知能モデルに入力して計算された値を分析する方法を用いた人工知能ベースのがん診断及びがん種予測方法に関する。

臨床におけるがん診断は、通常、病歴調査、物理的検査および臨床的評価の後、組織生検(tissue biopsy)を実施することで確認している。臨床実験によるがん診断は、がん細胞の数が10億個以上で、がんの直径が1cm以上である場合に限って可能である。この場合、がん細胞は、すでに転移能力を持っており、少なくともそれらの半分はすでに転移した状態である。また、組織生検は、侵襲的であり、患者にかなりの不快感を与え、がん患者を治療していると組織生検ができない場合もしばしばあるという問題がある。加えて、がんスクリーニングにおいて、がんから直接または間接的に生産される物質をモニタリングするための腫瘍マーカーが使用されているが、がんが存在する場合でも、腫瘍マーカースクリーニングの結果、半分以上が正常となり、がんがない場合でも頻繁に陽性となるため、その精度に限界がある。

このような従来のがん診断方法の問題点を補完する比較的簡単で、非侵襲的で、高い感度及び特異度を持つがん診断方法の需要により、最近、がんの診断、追跡検査に患者の体液を活用する液体生検(liquid biopsy)が多く利用されている。液体生検は、非侵襲的(non-invasive)な方法で、従来の侵襲的な診断及び検査方法の対案として注目されている診断技術である。しかし、まだがんの診断方法において液体生検の効果を確認した大規模な研究結果はなく、液体生検を通じて曖昧ながんの診断または曖昧ながん種の鑑別を行った研究結果は皆無である。

がんの健康への影響を緩和するために、かなりの研究努力ががんの診断と治療技術に専念しており、その中でもSMCT(Somatic mutation Based Cancer Typing)は、最も重要な研究テーマの1つである。SMCTは、患者の体細胞遺伝子変異に基づいてがんのタイプやサブタイプを決定し、それにより治療計画を立てることができるようにする。近年、DNAシーケンスコストの減少に伴い、DNAシーケンスデータが急激に増加し、SMCTの発展が大きく促進された。SMCTは、一般的に腫瘍の形態的外観または遺伝子発現レベル(すなわち、mRNAプロファイルまたはタンパク質プロファイル)に基づく従来のがんタイピング方法とは異なり、組織病理学的外観が類似した腫瘍を区別することができ、がん微小環境をよりよく反映して正確ながん種区分結果を提供するのに有利である(Sun, Y. et al. Sci Rep Vol. 9, 17256, 2019)。

近年、SMCTだけでなく、がん種予測において、染色体の3次元構造を利用したり、複製数異常を利用する方法が報告されている(Yuan et al. BMC Genomics, Vol. 19(Suppl 6)、pp. 565, 2018, 10-2019-0036494).

一方、工学分野において頻繁に接する入力パターンを特定のグループに分類する問題を解決する方法として、人間が持っている効率的なパターン認識方法を実際のコンピュータに適用しようとする研究が活発に行われている。

様々なコンピュータ適用研究の中には、効率的なパターン認識作用が起こる人間の脳細胞構造を工学的にモデル化した人工ニューラルネットワーク(Artificial Neural Network)に関する研究がある。入力パターンを特定のグループに分類する問題を解決するために人工ニューラルネットワークは、人間が持っている学習という能力を模倣したアルゴリズムを使用する。このアルゴリズムを通じて入力パターンと出力パターン間の写像(Mapping)を人工ニューラルネットワークが生成することができ、これを人工ニューラルネットワークが学習能力があると表現する。また、人工ニューラルネットワークは、学習された結果を基にし、学習に使用されなかった入力パターンに対して比較的正しい出力を生成することができる一般化能力がある。学習と一般化という2つの代表的な性能のため、人工ニューラルネットワークは従来の逐次プログラミング方法ではなかなか解決しにくい問題に適用されている。人工ニューラルネットワークは、その使用範囲が広く、パターン分類問題、連続写像、非線形システム識別、非線形制御及びロボット制御分野などに活発に応用されている。

人工ニューラルネットワークとは、結合線で結合された多数の人工ニューロンを利用して、生物学的なシステムの計算能力を模倣するソフトウェアやハードウェアで実装された演算モデルを示す。人工ニューラルネットワークでは、生物学的なニューロンの機能を単純化した人工ニューロンを使用する。そして、結合強度を持つ結合線を介して相互結合させ、人間の認知作用や学習過程を実行することになる。結合強度とは、結合線が持つ特定の値で、結合ウェイトとも呼ばれる。人工ニューラルネットワークの学習は、教師あり学習と教師なし学習に分けることができる。教師あり学習とは、入力データとそれに対応する出力データを一緒にニューラルネットワークに入れ、入力データに対応する出力データが出力されるように結合線の結合強度を更新させる方法である。代表的な学習アルゴリズムとしては、デルタルール(Delta Rule)と誤差逆伝播学習(Back propagation Learning)がある。教師なし学習とは、目標値なしで入力データだけを使用して人工ニューラルネットワークが自ら結合強度を学習させる方法である。教師なし学習は、入力パターン間の相関関係によって結合ウェイトを更新させていく方法である。

機械学習で適用される多くのデータは複雑になり、次元が増えるにつれて次元の呪い(curse of dimensionality)という問題が発生する。これは、必要なデータの次元が無限になればなるほど、任意の2つの点間の距離が無限に発散し、データの存在量、つまり高次元の空間では密度が多少低くなり、データの特性(Feature)を適切に反映できなくなるのである(Richard Bellman, Dynamic Programming, 2003, chapter 1)。最近の深層ニューラルネットワーク(deep learning)の発達は、入力層(input layer)と出力層(output layer)の間に隠された層(hidden layer)がある構造で、入力層から伝達される変数値の線形結合(linear combination)を非線形関数で処理しながら、画像、映像、信号データなどの高次元のデータにおける分類器(classifier)の性能を大幅に向上させたと報告された(Hinton, Geoffrey, et al., IEEESignal Processing Magazine Vol. 29.6, pp. 82-97, 2012)。

このような人工ニューラルネットワークを利用してバイオ分野に活用する様々な特許(KR 10-2017-0185041、KR 10-2017-0144237、KR 10-2018-124550)が存在するが、血液中の無細胞DNA(cell-free DNA、cfDNA)の配列分析情報を基に人工ニューラルネットワーク分析を通じてがん種を予測する方法については研究が不足しているのが現状である。

そこで、本発明者らは前記問題点を解決し、高い感度と精度の人工知能ベースの診断及びがん種予測方法を開発するために鋭意努力した結果、染色体領域に整列されるリードに基づいてベクトル化されたデータを生成し、これを学習された人工知能モデルで分析する場合、高い感度と精度でがん診断及びがん種を予測できることを確認し、本発明を完成させた。

本発明の目的は、人工知能ベースのがん診断及びがん種予測方法を提供することである。

本発明の他の目的は、人工知能ベースのがん診断及びがん種予測装置を提供することである。

本発明の別の目的は、前記の方法でがんを診断し、がん種を予測するプロセッサによって実行されるように構成されるコマンドを含むコンピュータ読み取り可能な記憶媒体を提供することである。

前記目的を達成するために、本発明は、(a) 生体試料から核酸を抽出し、配列情報を取得する段階、(b) 取得した配列情報(reads)を標準染色体配列データベース(reference genome database)に整列(alignment)する段階、(c) 前記整列された配列情報(reads)ベースの核酸断片(fragments)を利用したベクトル化されたデータを生成する段階、(d) 生成された前記ベクトル化されたデータを学習された人工知能モデルに入力して分析した出力結果値と基準値(cut-off value)を比較してがんの有無を判定する段階、及び(e) 前記出力結果値の比較を通じてがん種を予測する段階を含む人工知能ベースのがん診断及びがん種予測のための情報の提供方法を提供する。

本発明はまた、(a) 生体試料から核酸を抽出して配列情報を取得する段階、(b) 取得した配列情報(reads)を標準染色体配列データベース(reference genome database)に整列(alignment)する段階、(c) 前記整列された配列情報(reads)ベースの核酸断片(fragments)を利用したベクトル化されたデータを生成する段階、(d) 生成された前記ベクトル化されたデータを学習された人工知能モデルに入力して分析した出力結果値と基準値(cut-off value)を比較してがんの有無を判定する段階、及び(e) 前記出力結果値の比較を通じてがん種を予測する段階を含む人工知能ベースのがん診断及びがん種予測方法を提供する。

本発明はまた、生体試料から核酸を抽出して配列情報を解読する解読部、解読された配列を標準染色体配列データベースに整列させる整列部、整列された配列ベースの核酸断片を利用したベクトル化されたデータを生成するデータ生成部、生成されたベクトル化されたデータを学習された人工知能モデルに入力して分析し、基準値と比較してがんの有無を判定するがん診断部、及び出力された結果値を分析してがん種を予測するがん種予測部を含む人工知能ベースのがん診断及びがん種予測装置を提供する。

本発明はまた、コンピュータ読み取り可能な記憶媒体として、がん診断及びがん種を予測するプロセッサによって実行されるように構成されるコマンドを含むが、(a) 生体試料から核酸を抽出して配列情報を取得する段階、(b) 取得した配列情報(reads)を標準染色体配列データベース(reference genome database)に整列(alignment)する段階、(c) 前記整列された配列情報(reads)ベースの核酸断片を利用したベクトル化されたデータを生成する段階、(d) 生成された前記ベクトル化されたデータを学習された人工知能モデルに入力して分析し、基準値と比較してがんの有無を判定する段階、及び(e) 出力された結果値を分析してがん種を予測する段階を通じて、がんの有無及びがん種を予測するプロセッサによって実行されるように構成されるコマンドを含むコンピュータ読み取り可能な記憶媒体を提供する。

図１は、本発明の人工知能ベースの染色体異常を判定するための全体フローチャートである。

図２は、NGSデータをベクトル化した画像であるGCplotの例である。

図３は、本発明の一実施形態で構築したCNNモデルの構成を示す概略図である。

図４の(A)は、本発明の一実施形態により、生成したGC plot画像データを学習したディープラーニングモデルに対して、がんの有無判断の精度を確認した結果であり、(B)は、各データセット別の確率分布を示した結果である。

図５の(A)は、本発明の一実施形態により、生成したGC plot画像データを学習したディープラーニングモデルに対して、がん種予測の精度を確認した結果であり、(B)は、各データセット別の確率分布を示した結果である。

他に定義されていない限り、本明細書で使用されるすべての技術的および科学的用語は、本発明が属する技術分野における当業者によって通常理解されるのと同じ意味を有する。一般に、本明細書で使用される命名法及び以下に記載する実験方法は、本技術分野でよく知られており、通常使用されるものである。

本発明では、サンプルから取得した配列分析データを参照遺伝子に整列させた後、整列された核酸断片に基づいてベクトル化されたデータを生成し、学習された人工知能モデルでDPI値を計算して分析する場合、高い感度と精度でがん診断及びがんの種類を予測できることを確認しようとした。

すなわち、本発明の一実施形態では、血液から抽出したDNAをシーケンスして参照染色体に整列させた後、核酸断片間の距離または量を一定の染色体区間ごとに計算する一方、各遺伝領域をX軸とし、核酸断片間の距離または量をY軸とするベクトル化されたデータを生成して、これをディープラーニングモデルに学習させてDPI値を計算し、これを基準値と比較してがん診断を行い、各がん種別に計算されたDPI値のうち、最も高いDPI値を示したがん種をサンプルのがん種として決定する方法を開発した(図１)。

したがって、本発明は、一観点から、
(a) 生体試料から核酸を抽出し、配列情報を取得する段階、
(b) 取得した配列情報(reads)を標準染色体配列データベース(reference genome database)に整列(alignment)する段階、
(c) 前記整列された配列情報(reads)ベースの核酸断片(fragments)を利用したベクトル化されたデータを生成する段階、
(d) 生成された前記ベクトル化されたデータを学習された人工知能モデルに入力して分析した出力結果値と基準値(cut-off value)を比較してがんの有無を判定する段階、および
(e) 前記出力結果値の比較を通じてがん種を予測する段階、
を含む人工知能ベースのがん診断及びがん種予測のための情報の提供方法に関する。

本発明において、前記核酸断片は、生体試料から抽出した核酸の断片であれば制限なく利用できるが、好ましくは、細胞遊離核酸または細胞内核酸の断片を含むが、これらに限定されない。

本発明において、前記核酸断片は、直接配列分析するか、次世代塩基配列分析を通じて配列分析するか、または非特異的全ゲノム増幅(non-specific whole genome amplification)を通じて配列分析して得られたものであることを特徴とする。

本発明において前記核酸断片は、次世代シーケンス解析を利用する場合にはリードを意味する。

本発明において、前記がんは、固形がんまたは血液がんを含み、好ましくは、非ホジキンリンパ腫(non-Hodgkin lymphoma)、ホジキンリンパ腫(non-Hodgkin lymphoma)、急性骨髄性白血病(acute-myeloid leukemia)、急性リンパ球性白血病(acute-lymphoid leukemia)、多発性骨髄腫(multiple myeloma)、頸部がん(head and neck cancer)、肺がんである、膠芽細胞腫(glioblastoma)、大腸・直腸がん、膵臓がん、乳がん、卵巣がん、黒色腫(melanoma)、前立腺がん、甲状腺がん、胃がん、胆嚢がん、胆道がん、膀胱がん、小腸がん、子宮頸がん、原発部位不明がん、腎臓がん及び中皮腫(mesothelioma)からなる群から選択されることを特徴とするが、これらに限定されない。

本発明において、前記(a)段階は、
(a-i) 血液、精液、膣細胞、毛髪、唾液、尿、口腔細胞、胎盤細胞または胎児細胞を含む羊水、組織細胞およびこれらの混合物から核酸を得る段階、
(a-ii) 採取した核酸から塩析法(salting-out method)、カラムクロマトグラフィー法(column chromatography method)またはビーズ法(beads method)を用いてタンパク質、脂肪、およびその他の残留物を除去し、精製された核酸を得る段階、
(a-iii) 精製された核酸または酵素的切断、破砕、水圧切断法(hydroshear method)でランダム断片化(random fragmentation)された核酸に対して、シングルエンドシーケンス(single-end sequencing)またはペアエンドシーケンス(pair-end sequencing)ライブラリ(library)を作成する段階、
(a-iv) 製作されたライブラリを次世代遺伝子配列検査機(next-generation sequencer)に反応させる段階、および
(a-v) 次世代遺伝子配列検査機から核酸の配列情報(reads)を取得する段階を含むことを特徴とする。

本発明において、前記次世代遺伝子配列検査機(next-generation sequencer)は、当業界に公知の任意のシーケンシング方法により使用することができる。選択方法によって分離された核酸のシーケンシングは、典型的には次世代シーケンシング(NGS)を使用して行われる。次世代シーケンシングは、個々の核酸分子または非常に類似した方法で個々の核酸分子に対してクローン化されたプロキシの1つのヌクレオチド配列を決定する任意のシーケンシング方法を含む(例えば、105以上の分子が同時にシーケンシングされる)。一実施形態において、ライブラリ内の核酸種の相対的な存在比は、シーケンス実験によって作成されたデータにおけるその同族配列の相対的な出現数を測定することによって推定することができる。次世代シーケンシング方法は当業界に公知されており、例えば本明細書に参照として含まれる文献(Metzker, M.(2010) Nature Biotechnology Reviews 11:31-46)に記載されている。

一実施形態において、次世代シーケンシングは、個々の核酸分子のヌクレオチド配列を決定するために行われる(例えば、Helicos BioSciencesのHeliScope Gene Sequencing systemおよびPacific BiosciencesのPacBio RS system)。他の実施形態において、シーケンシング、例えば、より少ないがより長いリードを生成する他のシーケンシング方法よりも、シーケンシング単位あたりの配列のより多くの塩基を生成する大量並列のショートリードシーケンシング(例えば、カリフォルニア州サンディエゴにあるIllumina Inc.のSolexa sequencer))方法は、個々の核酸分子に対してクローン化されたプロキシのヌクレオチド配列を決定する(例えば、カリフォルニア州サンディエゴのIllumina Inc.のSolexa sequencer、454 Life Sciences(コネチカット州ブランフォード)およびIon Torrent))。次世代シーケンシングのための他の方法または機械は、以下に限定されないが、454 Life Sciences(コネチカット州ブランフォード)、Applied Biosystems(カリフォルニア州フォスターシティ、SOLiDシーケンサー)、Helicos Biosciences Corporation(マサチューセッツ州ケンブリッジ)、およびエマルジョンおよびマイクロフローシーケンス技術ナノ点滴(例えば、GnuBio点滴)によって提供される。

次世代シーケンシングのためのプラットフォームは、以下に限定されないが、ロシュ(Roche)/454のゲノムシーケンサー(Genome Sequencer: GS) FLXシステム、イルミナ(Illumina)/ソレクサ(Solexa)のゲノムアナライザー(Genome Analyzer: GA)、ライフ(Life)/APGのサポートオリゴ(Support Oligonucleotide Ligation Detection: SOLiD)システム、ポロネーター(Polonator)のG.007システム、Helicos BioSciencesのHeliScope Gene Sequencing system、Pacific BiosciencesのPacBio RSシステムを含む。

NGS技術は、例えば、鋳型製造、シーケンス、イメージングおよびデータ解析のうちの1つ以上の段階を含む。

鋳型を製造する方法は、核酸(例えば、ゲノムDNAまたはcDNA)を小さなサイズでランダムに破壊する段階およびシーケンス鋳型(例えば、単片鋳型またはメイトペア鋳型)を作成する段階などを含む。空間的に分離された鋳型は、固体表面または支持体に取り付けられるか、または固定されるが、これは大量のシーケンス反応が同時に行われるようにする。NGS反応のために使用できる鋳型のタイプとしては、例えば、単一のDNA分子に由来するクローンが増幅された鋳型および単一のDNA分子鋳型を含む。

クローンが増幅された鋳型の製造方法は、例えば、エマルジョンPCR(エマルジョンPCR：emPCR)および固相増幅を含む。

EmPCRは、NGS用の鋳型を製造するために使用することができる。典型的に、核酸断片のライブラリが作成され、ユニバーサルプライミング部位を含むアダプターは断片の末端に結紮される。その後、断片は単鎖に変性され、ビーズによって捕捉される。各ビーズは単一の核酸分子を捕捉する。増幅およびemPCRビーズの豐富化後、多量の鋳型が取りつけられることがあり、標準顕微鏡スライド(例えば、Polonator)上のポリアクリルアミドゲルに固定され、アミノコーティングされたガラス表面(例えば、Life/APG; Polonator)に化学的に架橋されるか、または個々のピコタイタープレート(PicoTiterPlate：PTP)ウェル(例えば、ロシュ(Roche)/454))上に蒸着されるが、この際にNGS反応を行うことができる。

固相増幅をNGSの鋳型を作成するために使用することもできる。典型的に、前プライマーと後プライマーは、固体支持体に共有結合する。増幅された断片の表面密度は、支持体上のプライマーと鋳型の比として定義される。固相増幅は、数百万個の空間的に分離された鋳型クラスター(例えば、Illumina/Solexa)を生成することができる。鋳型クラスターの末端は、NGS反応用のユニバーサルプライマーにハイブリダイズすることができる。

クローンで増幅された鋳型の製造のための他の方法は、例えば、多置換増幅(Multiple Displacement Amplification: MDA)(Lasken R. S. Curr Opin Microbiol：510-6)が挙げられる。MDAは、非PCRベースのDNA増幅技術である。反応は、鋳型に対してランダムなヘキサマープライマーをアニーリングする段階および一定の温度で高忠実度の酵素、典型的にはФ29によってDNAを合成する段階を伴う。MDAは、より低いエラー頻度で巨大なサイズの生成物を作ることができる。

PCRのような鋳型増幅方法は、ターゲットにNGSプラットフォームを結合させるか、またはゲノムの特異的領域を豊富化することができる(例えば、エクソン)。代表的な鋳型濃縮方法は、例えばマイクロ点滴PCR技法(Tewhey R. et al、Nature Biotech. 2009, 27:1025-1031)、カスタム設計されたオリゴヌクレオチドマイクロアレイ(例えば、ロシュ(Roche)/ニンブルジェン(NimbleGen)オリゴヌクレオチドマイクロアレイ)および溶液ベースのハイブリダイゼーション方法(例えば、分子反転プローブ(molecular inversion probe: MIP)(Porreca G. J. et al、Nature Methods, 2007, 4:931-936; Krishnakumar S. et al.USA, 2008, 105:9296-9310; Turner E. H. et al., Nature Methods, 2009, 6:315-316)およびビオチン化RNA捕捉配列(Gnirke A. et al., Nat. Biotechnol. 2009; 27(2): 182-9)を含む。

単分子鋳型は、NGS反応のために使用できる別のタイプの鋳型である。空間的に分離された単分子鋳型は、様々な方法により固体支持体上に固定することができる。1つのアプローチにおいて、個々のプライマー分子は、固体支持体に共有結合する。アダプターは鋳型に加えられ、鋳型はその次に固定されたプライマーにハイブリダイゼーションされる。別のアプローチにおいて、単分子鋳型は、固定プライマーから単鎖の単分子鋳型をプライミングし、延長することによって固体支持体に共有結合する。それからユニバーサルプライマーは鋳型にハイブリダイゼーションされる。別のアプローチにおいて、単一のポリメラーゼ分子は、プライミングされた鋳型が結合された固体支持体に付着する。

NGSのための代表的なシーケンシングおよびイメージング方法は、以下に限定されないが、サイクリックリバーシブルターミネーション(cyclic reversible termination、CRT)、結紮によるシーケンシング(sequencing by ligation、SBL)、単分子添加(パイロシーケンス(pyrosequencing))およびリアルタイムシーケンスが含まれる。

CRTは、ヌクレオチドを含み、蛍光イメージングおよび切断段階を最小限に抑えるサイクリック法で可逆的なターミネーターを使用する。典型的に、DNAポリメラーゼは、プライマーに、鋳型塩基の相補的なヌクレオチドに対して相補的な単一の蛍光修飾ヌクレオチドを含む。DNA合成は、単一ヌクレオチドの添加後に終了し、未含有ヌクレオチドは洗浄される。含まれた標識ヌクレオチドの同一性を決定するためにイメージングが行われる。その後、切断段階で、終結/阻害剤と蛍光染料を除去する。CRT法を使用する代表的なNGSプラットフォームは、以下に限定されないが、全内部反射蛍光(total internal reflection fluorescence：TIRF)によって検出された4色CRT法と結合されたクローンで増幅された鋳型法を使用するIllumina/Solexaゲノムアナライザー(GA)、およびTIRFによって検出された1色CRT法と結合された単分子鋳型法を使用するHelicos BioSciences/HeliScopeが含まれる。
SBLは、シーケンスのためにDNAリガーゼおよび1塩基暗号化されたプローブまたは2塩基暗号化されたプローブのいずれか1つを使用する。

典型的に、蛍光標識されたプローブは、プライミングされた鋳型に隣接する相補的な配列にハイブリダイズする。DNAリガーゼは、プライマーに染料で標識されたプローブを結紮させるために使用される。非結紮プローブが洗浄された後、結紮されたプローブの同一性を決定するために蛍光イメージングが行われる。蛍光染料は、次の結紮サイクルのために5'-PO4基を再生する切断可能なプローブを使用して除去することができる。あるいは、古いプライマーを除去した後、新しいプライマーを鋳型にハイブリダイズさせることもある。代表的なSBLプラットフォームは、以下に限定されないが、Life/APG/SOLiD(支持体オリゴヌクレオチド結紮検出)を含むが、これは2塩基暗号化されたプローブを使用する。

パイロシークエンス法は、異なる化学発光酵素でDNAポリメラーゼの活性を検出する段階に基づいている。典型的に、この方法は、一度に1つの塩基対に沿って相補的な鎖を合成し、各段階で実際に追加された塩基を検出することにより、DNAの単一鎖をシーケンスする。鋳型DNAは固定化されており、A、C、G、およびTヌクレオチドの溶液は順次添加され、反応から除去される。光は、ヌクレオチド溶液が鋳型の対になっていない塩基を補充するときに限って生成される。化学発光信号を生成する溶液の配列は、鋳型の配列を決定することになる。代表的なパイロシークエンスプラットフォームは、以下に限定されないが、PTPウェルに蒸着された100万から200万個のビーズによるemPCRによって製造されたDNA鋳型を使用するロシュ(Roche)/454を含む。

リアルタイムシーケンシングは、DNA合成中に染料標識されたヌクレオチドの連続的な組み込みをイメージングする段階を伴う。代表的なリアルタイムシーケンスプラットフォームは、以下に限定されないが、リン酸結合されたヌクレオチドが成長するプライマー鎖に含まれるときに配列情報を得るための個別のゼロモード導波管(zero-mode waveguide、ZMW)を含む。

検出器の表面に取り付けられたDNAポリメラーゼ分子を使用するPacific Biosciencesプラットフォーム、蛍光共鳴エネルギー伝達(fluorescence resonance energy transfer、FRET)によりヌクレオチドを組み込んだ後、強化された信号を作成するために取り付けられた蛍光染料と共に遺伝子組み換えDNAポリメラーゼを使用するLife/VisiGenプラットフォーム、およびシーケンス反応で染料量子ヌクレオチドを使用するLI-COR Biosciencesプラットフォームを含む。

NGSの他のシーケンス方法は、以下に限定されないが、ナノポアシーケンス、ハイブリダイゼーションによるシーケンス、ナノトランジスタアレイベースのシーケンス、ポロニ(polony)シーケンス、走査型電子トンネル顕微鏡(scanning tunneling microscopy、STM)ベースのシーケンス、およびナノワイヤ分子センサーベースのシーケンスを含む。

ナノポアシーケンスは、単一核酸ポリマーの分析が可能な高度に密閉された空間を提供するナノスケールのポアを通して、溶液中の核酸分子の電気泳動を伴う。ナノポアシーケンスの代表的な方法は、例えば文献[Branton D. et al., Nat Biotechnol. 2008; 26(10): 1146-53]に記載されている。

ハイブリダイゼーションによるシーケンスは、DNAマイクロアレイを使用する非酵素的な方法である。典型的に、DNAの単一プールは蛍光で標識され、公知の配列を含むアレイにハイブリダイゼーションされる。アレイ上の所定のスポットからのハイブリダイゼーション信号は、DNA配列を確認することができる。DNA二本鎖において、DNAの一方の鎖のその相補的な鎖への結合は、混成体領域が短いか、または具体化されたミスマッチ検出タンパク質が存在する場合、単一塩基のミスマッチに対しても敏感である。ハイブリダイゼーションによるシーケンシングの代表的な方法は、例えば文献(Hanna G.J. et al. J. Clin.Microbiol. 2000; 38(7)：2715-21; およびEdwards J.R. et al.2005; 573(1-2)：3-12) に記載されている。

ポロニシーケンスは、ポロニ増幅および多重単一塩基延長(FISSEQ)によるシーケンスに基づく。ポロニ増幅は、ポリアクリルアミドフィルム上でインサイチュでDNAを増幅させる方法である。代表的なポロニシーケンス方法は、例えば米国特許出願公開第2007/0087362号に記載されている。

カーボンナノチューブ電界効果トランジスタ(Carbon NanoTube Field Effect Transistor：CNTFET)などのナノトランジスタアレイベースのデバイスもNGSに使用できる。例えば、DNA分子は伸ばされ、マイクロ加工された電極によってナノチューブを横切って駆動する。DNA分子は、カーボンナノチューブの表面と順次接触され、DNA分子とナノチューブの間の電荷移動により、各塩基からの電流の流れの違いが生じる。DNAは、これらの違いを記録することでシーケンス化される。代表的なナノトランジスタアレイベースのシーケンス方法は、例えば米国特許公開第2006/0246497号に記載されている。

走査型電子顕微鏡(STM)は、NGSにも使用できる。STMは、試料のラスター走査(raster scan)を行うピエゾ電子制御プローブを使用してその表面のイメージを形成する。STMは、例えば、アクチュエータ駆動の可撓性ギャップと走査型電子トンネル顕微鏡を統合することにより、一貫した電子トンネルイメージングと分光学を作成することにより、単一DNA分子の物理的特性をイメージングするために使用する。STMを使用する代表的なシーケンス方法は、例えば米国特許出願公開第2007/0194225号に記載されている。

ナノワイヤ分子センサーからなる分子分析装置もNGSに使用することができる。このようなデバイスは、DNAなどのナノワイヤと核酸分子上に配置された窒素性物質の相互作用を検出することができる。分子ガイドは、相互作用および後続する検出を許容するために、分子センサーの近くの分子をガイドするために配置される。ナノワイヤ分子センサーを使用する代表的なシーケンス方法は、例えば米国特許出願公開第2006/0275779号に記載されている。

二重末端のシーケンス方法がNGSのために使用できる。二重末端シーケンシングは、DNAのセンスおよびアンチセンス鎖の両方をシーケンスするために、ブロッキングおよび非ブロッキングプライマーを使用する。典型的に、これらの方法は、核酸の第1鎖に未ブロッキングプライマーをアニーリングする段階、核酸の第2鎖に第2ブロッキングプライマーをアニーリングする段階、ポリメラーゼで第1鎖に沿って核酸を伸長させる段階、第1シーケンシングプライマーを終結させる段階、第2プライマーをデブロッキングする段階、および第2鎖に沿って核酸を伸長させる段階を含む。代表的な二本鎖シーケンシング方法は、例えば米国特許第7,244,567号に記載されている。

データ分析段階では、NGSリードが作成された後、それらは公知の参照配列に対して整列またはデノボアセンブリされる。

例えば、サンプル(例えば、腫瘍サンプル)において一塩基多型や構造的変異体などの遺伝的変異を確認することは、参照配列(例えば、野生型配列)に対してNGSリードを整列することによって行うことがある。NGSに対する配列整列方法は、例えば文献(Trapnell C. and Salzberg S.L. Nature Biotech., 2009, 27:455-457])に記載されている。

デノボ集合体の例は、例えば文献(Warren R. et al., Bioinformatics, 2007, 23:500-501; Butler J. et al., Genome Res., 2008, 18:810-820、およびZerbino D.R. およびBirney E., Genome Res., 2008, 18:821-829)に記載されている。

配列整列またはアセンブリは、1つ以上のNGSプラットフォームからのリードデータを使用して、例えば、ロシュ(Roche)/454およびイルミナ(Illumina)/ソレクサ(Solexa)リードデータを混合して行うことがある。本発明において、前記整列段階は、これらに限定されないが、BWAアルゴリズム及びhg19配列を利用して行われることがある。

本発明において、前記(b)段階の配列整列は、コンピュータアルゴリズムとして、ゲノム内のリード配列(例えば、次世代シーケンシングからの、例えばショートリード配列)が、リード配列と参照配列との間の類似性を評価することによって、主にリード配列と参照配列との間の類似性を評価することによって由来する可能性がある場合からの同一性に対して使用されるコンピュータによる方法またはアプローチを含む。配列整列問題には様々なアルゴリズムが適用できる。一部のアルゴリズムは比較的遅いものの、比較的高い特異性を許容する。これらは、例えば、動的プログラミングベースのアルゴリズムが含まれる。動的プログラミングは、複雑な問題をより単純な段階に分割して解決する方法である。他のアプローチは、比較的効率的だが、一般的に徹底的ではない。これは、例えば、大規模なデータベース検索用に設計されたヒューリスティック(heuristic)アルゴリズム及び確率的(probabilistic)方法を含む。

典型的に、整列過程には2つの段階がある。候補検査と配列整列である。候補検査は、可能な整列位置のより短い列挙に対して、ゲノム全体から配列整列のための検索スペースを減らす。用語が示唆するように、配列整列は、候補検査段階で提供された配列を持つ配列を整列する段階を含む。これは、広域整列(例えば、Needleman-Wunsch整列)または局所整列(例えば、Smith-Waterman整列)を使用して行うことができる。

ほとんどの属性整列アルゴリズムは、インデックス方式に基づく3つのタイプのいずれか1つを特徴とする。ハッシュテーブル(例えば、BLAST、ELAND、SOAP)、接尾辞木(例：Bowtie、BWA)、およびマージソート(例えば、Slider)に基づくアルゴリズムである。短いリード配列は典型的に、整列に使用される。短いリード配列に対する配列整列アルゴリズム/プログラムの例としては、以下に限定されないが、BFAST(Homer N. et al., PLoS One.2009; 4(11): e7767)、BLASTN(ワールドワイドウェブ上のblast.ncbi.nlm.nih.govから)、BLAT(Kent W.J. Genome Res.2002;12(4):656-64)、Bowtie(Langmead B. et al., Genome Biol. 2009;10(3)：R25)、BWA(Li H. and Durbin R. Bioinformatics, 2009, 25:1754-60)、BWA-SW(Li H. and Durbin R. Bioinformatics, 2010;26(5):589-95)、CloudBurst(Schatz M.C. Bioinformatics.2009;25(11):1363-9)、Corona Lite(Applied Biosystems, Carlsbad, California, USA)、CASHX(Fahlgren N. et al., RNA, 2009; 15, 992-1002)、CUDA-EC(Shi H. et al、J Comput Biol. 2010;17(4):603-15)、ELAND(ワールドワイドウェブ上のbioit.dbi.udel.edu/howto/elandから)、GNUMAP(Clement N.L. et al.2010;26(1):38-45)、GMAP(Wu T.D. and Watanabe C.K. Bioinformatics.2005;21(9):1859-75)、GSNAP(Wu T.D. and Nacu S., Bioinformatics.2010;26(7):873-81)、Geneious Assembler(ニュージーランドオークランドにあるBiomatters Ltd.)、LAST、MAQ(Li H. et al., Genome Res.2008;18(11):1851-8)、Mega-BLAST(ワールドワイドウェブ上のncbi.nlm.nih.gov/blast/megablast.shtmlから)、MOM(Eaves H.L. and Gao Y. Bioinformatics.2009;25(7):969-70)、MOSAIK(ワールドワイドウェブ上のbioinformatics.bc.edu/marthlab/Mosaikから)、Novoalign(ワールドワイドウェブ上のnovocraft.com/main/index.phpから)、PALMapper(ワールドワイドウェブ上の fml.tuebingen.mpg.de/raetsch/suppl/palmapper から)、PASS(Campagna D. et al、Bioinformatics.2009;25(7):967-8)、PatMaN(Prufer K. et al.2008; 24(13):1530-1)、PerM(Chen Y. et al., Bioinformatics, 2009, 25(19)：2514-2521)、ProbeMatch(Kim Y.J. et al.2009;25(11):1424-5)、QPalma(de Bona F. et al., Bioinformatics, 2008, 24(16):i174)、RazerS(Weese D. et al., Genome Research, 2009, 19:1646-1654)、RMAP(Smith A.D. et al., Bioinformatics.2009;25(21):2841-2)、SeqMap(Jiang H. et al. Bioinformatics. 2008;24:2395-2396.)、Shrec(Salmela L., Bioinformatics.2010;26(10):1284-90)、SHRiMP(Rumble S.M. et al., PLoS Comput. Biol., 2009, 5(5):e1000386)、SLIDER(Malhis N. et al., Bioinformatics, 2009, 25(1)：6-13)、SLIM Search(Muller T. et al., Bioinformatics. 2001;17 Suppl 1:S182-9)、SOAP(Li R. et al., Bioinformatics.2008;24(5):713-4)、SOAP2(Li R. et al., Bioinformatics.2009;25(15):1966-7)、SOCS(Ondov B.D. et al, Bioinformatics, 2008; 24(23):2776-7)、SSAHA(Ning Z.et al.2001;11(10):1725-9)、SSAHA2(Ning Z. et al.et al.2001;11(10):1725-9)、Stampy(Lunter G. and Goodson M. Genome Res. 2010, epub ahead of print)、Taipan(ワールドワイドウェブ上のtaipan.sourceforge.netから)、UGENE(ワールドワイドウェブ上のugene.unipro.ruから)、XpressAlign(ワールドワイドウェブ上のbcgsc.ca/platform/bioinfo/software/XpressAlignから)、およびZOOM(カナダオンタリオ州ウォータールーにあるBioinformatics Solutions Inc.)を含む。

配列整列アルゴリズムは、例えば、シーケンス技術、リードの長さ、リード数、入手可能なコンピューティング資料、感度/スコアリング必要要件を含む複数の要因に基づいて選択される。異なる配列整列アルゴリズムは、異なる速度レベル、整列感度、および整列特異性を達成する。整列特異性は、予測された整列と比較して、典型的なサブミッションに見られるように正確に整列されたターゲット配列残基の割合のパーセンテージを指す。また、整列感度は、予測された整列に見られるように、典型的なサブミッションで正確に整列されたターゲット配列残基の割合のパーセンテージを指す。

配列アルゴリズムは、例えばELANDやSOAPは、速度が考慮される第1因子である場合、基準ゲノムに対して短いリード(例えば、Illumina/Solexaシーケンサー)を整列する目的で使用することができる。BLASTやMega-BLASTなどの整列アルゴリズムは、特異性が最も重要な因子である場合、これらの方法は比較的遅いものの、短い読み取り(例えば、ロシュのFLXなど)を使用して類似性を調べる目的で使用することができる。MAQやNovoalignなどの整列アルゴリズムは、品質スコアを考慮するため、精度が重要な場合、シングルエンドまたはペアエンドのデータに対して使用することができる(例えば、高速大量のSNP検索において)。BowtieまたはBWAなどの整列アルゴリズムは、Burrows-Wheeler変換(Burrows-Wheeler Transform、BWT)を使用するため、比較的小さなメモリフットプリントを必要とする。BFAST、Perm、SHRiMP、SOCS、ZOOMなどの整列アルゴリズムは、色空間リードをマッピングするため、ABIのSOLiDプラットフォームと共に使用されることがある。一部の適用において、2つ以上の整列アルゴリズムからの結果を組み合わせることができる。

本発明において、前記(b)段階の配列情報(reads)の長さは、5ないし5,000 bpであり、使用する配列情報の数は5,000～500万個になるが、これらに限定されない。

本発明において、前記(c)段階のベクトル化されたデータは、整列されたリードベースの核酸断片を用いたベクトル化されたデータであれば制限なく利用可能であるが、好ましくはグランドキャニオンプロット(Grand Canyon plot、GC plot)であることを特徴とするが、これらに限定されない。

本発明においてベクトル化されたデータは、これらに限定されないが、好ましくは画像化されたことを特徴とする。画像は、基本的にピクセルからなるが、ピクセルで構成された画像をベクトル化させると、画像の種類によって1次元2Dベクトル(白黒)、3次元2Dベクトル(color(RGB))または4次元2Dベクトル(color(CMYK))で表現することができる。

本発明においてベクトル化されたデータは、画像に限定されず、例えばn個の白黒画像複数枚を積み重ねてn次元の2Dベクトル(Multi-dimensional Vector)を利用して人工知能モデルの入力データとして使用することができる。

本発明においてGC plotは、特定の区間を(一定のbinまたは大きさが異なるbin)をX軸に置き、核酸断片間の距離または数などの核酸断片で表現できる数値をY軸に生成したplotである。本発明において前記binは、1kb～10Mbpであるが、これらに限定されない。

本発明において、前記(c)段階の実行前に整列された核酸断片の整列一致度点数(mapping quality score)を満足する核酸断片を別に分類する段階をさらに含むことを特徴とする。

本発明において、前記整列一致度スコア(mapping quality score)は、所望の基準によって異なるが、好ましくは15～70点、より好ましくは50～70点、最も好ましくは60点である。

本発明において、前記(c)段階のGC plotは、整列された核酸断片の染色体区間別分布に対し、区間別核酸断片の数または核酸断片間の距離を計算してベクトル化されたデータとして生成することを特徴とする。

本発明において、核酸断片の数または核酸断片間の距離計算値をベクトル化する方法は、計算値をベクトル化することは公知の技術であれば制限なく利用できる。

本発明において、前記整列された配列情報の染色体区間別分布を核酸断片の数で計算することは、以下の段階を含めて行うことを特徴とする。
i) 染色体を一定区間(bin)に区分する段階、
ii) 各区間に配列された核酸断片の数を決定する段階、
iii) 各区間で決定された核酸断片数をサンプルの全体の核酸断片の数で分けて正規化(normalization)する段階、および
iv) 各区間の順序をX軸の値とし、前記iii)の段階で計算した正規化値をY軸の値としてGC plotを生成する段階。

本発明において、前記整列された配列情報の染色体区間別分布を核酸断片間の距離で計算することは、以下の段階を含めて行うことを特徴とする。
i) 染色体を一定区間(bin)に区分する段階、
ii) 各区間に整列された核酸断片間の距離(Fragments Distance、FD)を計算する段階、
iii) 各区間ごとに計算された距離値に基づいて、各区間の距離の代表値(RepFD)を決定する段階、
iv) 前記iii)段階で計算された代表値を全体の核酸断片距離の代表値で分けて正規化(normalization)する段階、および
v) 各区間の順序をX軸の値とし、前記iv)の段階で計算した正規化値をY軸の値としてGC plotを生成する段階。

本発明において、前記一定区間(bin)は、1Kb～3Gbであることを特徴とするが、これらに限定されない。

本発明においては、核酸断片をグループ化する段階を追加的に使用することができるが、この場合のグループ化基準は、整列された核酸断片のアダプター配列に基づいて行うことができる。順方向に整列された核酸断片と逆方向に整列された核酸断片に別々に区分して、選別された配列情報に対して核酸断片間の距離を計算することができる。

本発明において、前記FD値は、得られたn個の核酸断片に対して、i番目の核酸断片とi＋1ないしn番目の核酸断片から選択されるいずれか1つ以上の核酸断片の基準値との間の距離として定義されることを特徴とする。

本発明において、前記FD値は、得られたn個の核酸断片に対して、第1核酸断片と第2ないし第n個の核酸断片からなる群から選択されるいずれか1つ以上の核酸断片の基準値との距離を計算して、それらの合計、差、積、平均、積の対数、和の対数、中央値、分位数、最小値、最大値、分散、標準偏差、中央絶対偏差及び変動係数からなる群から選択された1つ以上の値及び／又は1つ以上のこれらの逆数値と、加重値を含む計算結果及びこれらに限定されない統計値をFD値として使用することができるが、これらに限定されない。

本発明において、「1つ以上の値及び／又は1つ以上のこれらの逆数値」という記載は、先に記載された数値値のうち、1つ又は2つ以上を組み合わせて使用することができるという意味で解釈される。

本発明において、前記「核酸断片の基準値」は、核酸断片の中央値から任意の値を加算または減算した値であることを特徴とする。

前記FD値は、得られたn個の核酸断片に対して、次のように定義することができる。
FD = Dist(Ri~Rj)(1<i<j<n)、
ここで、Dist関数は、選択されたRiとRjの2つの核酸断片間に含まれるすべての核酸断片の配列位置値の差の合計、差、積、平均、積の対数、和の対数、中央値、分位数、最小値、最大値、分散、標準偏差、中央絶対偏差、および変動係数からなる群から選択された1つ以上の値、および／または1つ以上のこれらの逆数値と、加重値を含む計算結果、およびこれらに限定されない統計値を計算する。

すなわち、本発明においてFD値(Fragment Distance Value)は、整列された核酸断片間の距離を意味する。ここで、距離計算のための核酸断片の選別場合の数は、次のように定義することができる。全体N個の核酸断片が存在する場合、
個の核酸断片間の距離の組み合わせが可能である。すなわち、iが1の場合、i+1は2となり、2ないしn番目の核酸断片から選択されるいずれか1つ以上の核酸断片との距離を定義することができる。

本発明において、前記FD値は、前記i番目の核酸断片内部の特定の位置と、i＋1ないしn番目のいずれか1つ以上の核酸断片内部の特定の位置との間の距離を計算することを特徴とする。

例えば、ある核酸断片の長さが50bpであり、染色体1番の4,183位置に整列されたとすると、この核酸断片の距離計算に使用できる遺伝的位置値は、染色体1番の4,183～4,232である。

前記核酸断片と隣接する50bp長さの核酸断片が染色体1番の4,232番目の位置に整列された場合、この核酸断片の距離計算に使用できる遺伝的位置値は、染色体1番の4,232～4,281であり、2つの核酸断片間のFD値は1から99になる。

別の隣接する50bpの長さの核酸断片が染色体1番の4123番目の位置に整列された場合、この核酸断片の距離計算に使用できる遺伝的位置値は、染色体1番の4,123～4,172であり、2つの核酸断片間のFD値は61～159であり、第1の例示核酸断片とのFD値は12～110であり、前記2つのFD値範囲のいずれかの値の合計、差、積、平均、積の対数、和の対数、中央値、分位数、最小値、最大値、分散、標準偏差、中央絶対偏差及び変動係数からなる群から選択された1つ以上の値及び／又は1つ以上のこれらの逆数値、及び加重値を含む計算結果及びこれらに限定されない統計値をFD値として使用することができ、好ましくは2つのFD値範囲の1つの値の逆数値であることを特徴とするが、これらに限定されない。

好ましくは、本発明において、前記FD値は、核酸断片の中央値から任意の値を加算または減算した値であることを特徴とする。

本発明において、FDの中央値は、計算されたFD値を大きさの順に並べると、最も中央に位置する値を意味する。例えば、1、2、100のように3つの値がある場合、2が最も中央にあるため、2が中央値になる。もし偶数個のFD値がある場合、中央にある2つの値の平均で中央値を決定する。例えば、1、10、90、200のFD値がある場合、中央値は10と90の平均である50になる。

本発明において、前記任意の値は、核酸断片の位置を示すことができれば制限なく利用可能であるが、好ましくは、0ないし5kbpまたは核酸断片長さの0ないし300％、0ないし3kbpまたは核酸断片長さの0ないし200％、0ないし1kbpまたは核酸断片長さの0ないし100％、さらに好ましくは0ないし500bpまたは核酸断片長さの0ないし50％であるが、これらに限定されない。

本発明において、前記FD値は、ペアエンドシーケンシング(paired-end sequencing)の場合、順方向及び逆方向配列情報(reads)の位置値に基づいて導出することを特徴とする。

例えば、50bp長さのペアエンドリードペアで、順方向リードは染色体1番の4183番目の位置に整列され、逆方向リードは4349番目の位置に整列された場合、この核酸断片の両末端は4183、4349になり、核酸断片距離に使用できる基準値は4183~4349である。この時、前記核酸断片と隣接する他のペアドエンドリードペアで、順方向リードは染色体1番の4349番目の位置に整列され、逆方向リードは4515番目に整列された場合、この核酸断片の位置値は4349~4515である。この2つの核酸断片の距離は、0～333になり、最も好ましくは、各核酸断片の中央値の距離である166になる。

本発明において、前記ペアドエンドシーケンスで配列情報を得る場合、配列情報(reads)の整列点数が基準値未満の核酸断片の場合、計算過程で除外する段階をさらに含むことを特徴とする。

本発明において、前記FD値は、シングルエンドシーケンシング(single-end sequencing)の場合、順方向または逆方向配列情報(read)の位置値の一種に基づいて導出することを特徴とする。

本発明において、前記シングルエンドシーケンシングの場合、順方向に整列された配列情報に基づいて位置値を導出する場合には、任意の値を加算し、逆方向に整列された配列情報に基づいて位置値を導出する場合には、任意の値を減算することを特徴とし、前記任意の値は、FD値が核酸断片の位置を明確に示すようにする値であれば制限なく利用可能であるが、好ましくは0ないし5kbpまたは核酸断片長さの0ないし300％、0ないし3kbpまたは核酸断片長さの0ないし200％、0ないし1kbpまたは核酸断片長さの0ないし100％、さらに好ましくは0ないし500bpまたは核酸断片長さの0ないし50％であるが、これらに限定されない。

本発明において分析しようとする核酸は、シーケンスされてリード(reads)という単位で表現する。このリードは、シーケンシング方法によってシングルエンドシーケンシング(single end sequencing read、SE)とペアードエンドシーケンシング(paired end sequencing read、PE)に分けることができる。SE方式のリードは、核酸分子の5`と3`のどちらかをランダムな方向に一定の長さでシーケンスしたことを意味し、PE方式のリードは、5`と3`の両方を一定の長さでシーケンスすることになる。このような違いから、SEモードでシーケンスする場合、1つの核酸断片から1つのリードが生じ、PEモードでは1つの核酸断片から2つのリードがペアで生成されることは、通常の技術者によく知られている事実である。

核酸断片間の正確な距離を計算するための最も理想的な方法は、核酸分子を最初から最後までシーケンスし、そのリードを整列し、整列された値の中央値(センター)を利用することである。しかし、技術的に前記の方式は、シーケンシング技術の限界及びコストの側面から制約があるのが現状である。したがって、SEやPEなどの方法でシーケンシングをすることになるが、PE方式の場合、核酸分子の始まりと終わりの位置を知ることができるため、これらの値の組み合わせを通じて核酸断片の正確な位置(中央値)を把握することができるが、SE方式の場合、核酸断片の一方の端の情報しか利用できないため、正確な位置(中央値)の計算に限界がある。

また、順方向と逆方向の双方向にシーケンスされた(整列された)すべてのリードの末端情報を利用して核酸分子の距離を計算する場合、シーケンス方向という要素のために正確でない値が計算されることがある。

したがって、シーケンス方式の技術的な理由で、順方向リードの5`末端は、核酸分子の中心位置より小さい位置値を持ち、逆方向リードの3`末端は大きな値を持つことになる。このような特徴を利用して、順方向リードの場合、任意の値(Extended bp)を加算し、逆方向リードは減算すると、核酸分子の中心位置に近い値を推定することができる。

つまり、任意の値(Extended bp)は、使用する試料によって異なる場合があり、細胞遊離核酸の場合、その核酸の平均長さが166bp程度と言われているので、約80bp程度に設定することができる。もし断片化装置(例えば、sonication)を通して実験が行われた場合、断片化の過程で設定したターゲット長さの半分程度をextended bpに設定することができる。

本発明において、前記代表値(RepFD)は、FD値の合計、差、積、平均、中央値、分位数、最小値、最大値、分散、標準偏差、中央絶対偏差及び変動係数からなる群から選択された1つ以上の値及び／又は1つ以上のこれらの逆数であることを特徴とし、好ましくはFD値の中央値、平均値又はその逆数であることを特徴とするが、これらに限定されない。

本発明において、前記ベクトル化されたデータは、1つの画像に複数の染色体別プロットを含むことを特徴とする。

本発明において、前記(d)段階の人工知能モデルは、がんの種類別画像を区別できるように学習できるモデルであれば制限なく使用可能であり、好ましくはディープラーニングモデルであることを特徴とする。

本発明において、前記人工知能モデルは、人工ニューラルネットワークに基づいてベクトル化されたデータを分析することができる人工ニューラルネットワークアルゴリズムであれば、制限なく利用することができるが、好ましくは、畳み込みニューラルネットワーク(convolutional neural network、CNN)、深層ニューラルネットワーク(Deep Neural Network、DNN)、回帰型ニューラルネットワーク(Recurrent Neural Network、RNN)及びオートエンコーダ(autoencoder)からなる群から選択されることを特徴とするが、これらに限定されない。

本発明において、前記回帰型ニューラルネットワークは、LSTM(Long-short term memory)ニューラルネットワーク、GRU(Gated Recurrent Unit)ニューラルネットワーク、バニラ回帰型ニューラルネットワーク(Vanilla recurrent neural network)及び集中的回帰型ニューラルネットワーク(attentive recurrent neural network)からなる群から選択されることを特徴とする。

本発明において、前記人工知能モデルがCNNである場合、binary classificationを行う損失関数は、後記式1で示されることを特徴とし、Multi-class classificationを行う損失関数は、後記式2で示されることを特徴とする。
式１：Binary classification

式２：Multi-class classification

本発明において、前記binary classificationは、人工知能モデルががんの有無を判定するように学習することを意味し、multi-class classificationは、人工知能モデルが2つ以上のがん種を判定するように学習することを意味する。

本発明において、前記人工知能モデルがCNNである場合、学習は以下の段階を含めて行われることを特徴とする。
i) 生産されたGC plotをtraining(学習)、validation(検証)、test(性能評価)データに分類する段階。
この時、TrainingデータはCNNモデルを学習する際に使用され、Validationデータはhyper-parameter tuning検証に使用され、Testデータは最適なモデル生産後、性能評価に使用されることを特徴とする。
ii) Hyper-parameter tuning及び学習過程を通じて最適なCNNモデルを構築する段階。
iii) Hyper-parameter tuningを通じて得られた複数のモデルの性能をvalidation dataを利用して比較し、validation dataの性能が最も良いモデルを最適なモデルとして決定する段階。

本発明において、前記Hyper-parameter tuning過程は、CNNモデルを構成する複数のparameter(convolution layer数、dense layer数、convolution filter数など)の値を最適化する過程で、Hyper-parameter tuning過程としては、Bayesian optimization及びgrid search技法を使用することを特徴とする。

本発明において、前記学習過程は、定められたhyper-parametersを利用してCNNモデルの内部parameter(weights)を最適化させ、Training lossに対してvalidation lossが増加し始めると、モデルが過適合(Overfitting)したと判断し、その前にモデル学習を中断することを特徴とする。

本発明において、前記d)段階で人工知能モデルが入力されたベクトル化されたデータから分析した結果値は、特定のscoreまたは実数であれば制限なく利用可能であり、好ましくはDPI(Deep Probability Index)値であることを特徴とするが、これらに限定されない。

本発明において、Deep probability Indexは、人工知能モデルの最後のレイヤーに対し、binary classificationの場合はsigmoid function、multi-class classificationの場合はsoftmax functionを使用して人工知能のoutputを0~1 scaleで調整して確率値で表現した値を意味する。

Binary classificationの場合は、sigmoid functionを利用して、がんの場合DPI値が1になるように学習する。例えば、乳がんサンプルと正常サンプルが入力されると、乳がんサンプルのDPI値が1に近づくように学習するのである。

Multi-class classificationの場合は、softmax functionを利用して、クラス数分のDPI値を抽出する。クラス数分のDPI値の合計は1になり、実際に該当するがん種のDPI値が1になるように学習する。例えば、乳がん、肝臓がん、正常の3つのクラスがあり、乳がんサンプルが入ったら、乳がんクラスを1に近づけるように学習するのである。

本発明において、前記(d)段階の出力結果値は、がん種別に導出されることを特徴とする。

本発明において、前記人工知能モデルは、学習する際にがんがある場合はoutput結果が1に近いように学習し、がんがない場合はoutput結果が0に近いように学習させて、0.5を基準に0.5以上であればがんがあると判断し、0.5以下であればがんがないと判断してperformance測定を行った(Training、validation、test accuracy)。
ここで、0.5の基準値はいつでも変えられる値であることは、通常の技術者には自明なことである。例えば、False positive(偽陽性)を減らそうとすれば、0.5より高い基準値を設定し、がんがあると判断される基準を厳格に取ることができ、False Negative(偽陰性)を減らそうとすれば、基準値をより低く測定し、がんがあると判断される基準を緩やかに取ることができる。

最も好ましくは、学習された人工知能モデルを利用してunseen data(学習にtrainingしていない答えを知っているデータ)を適用させて、DPI値の確率を確認して基準値を決めることができる。

本発明において、前記(e)段階の出力結果値の比較によりがん種を予測する段階は、出力結果値のうち最も高い値を示すがん種をサンプルのがんとして判定する段階を含む方法で行うことを特徴とする。

本発明は、別の観点から、生体試料から核酸を抽出し、配列情報を解読する解読部、
解読された配列を標準染色体配列データベースに整列させる整列部、
整列された配列ベースの核酸断片を利用したベクトル化されたデータを生成するデータ生成部、および
生成されたベクトル化されたデータを学習された人工知能モデルに入力して分析し、基準値と比較してがんの有無を判定するがん診断部、および
出力された結果値を分析してがん種を予測するがん種予測部を含む人工知能ベースのがん診断及びがん種予測装置に関する。

本発明において、前記解読部は、独立した装置から抽出された核酸を注入する核酸注入部、および注入された核酸の配列情報を分析する配列情報分析部を含み、好ましくはNGS分析装置であるが、これらに限定されない。

本発明において、前記解読部は、独立した装置で生成された配列情報データを受信して解読することを特徴とする。

本発明において、前記データ生成部のベクトル化されたデータは、グランドキャニオンプロット(Grand Canyon plot、GC plot)であることを特徴とする。

本発明におけるGC plotは、特定の区間を(一定のbinまたは大きさが異なるbin)をX軸に置き、核酸断片間の距離または数などの核酸断片で表現できる数値をY軸に生成したplotである。本発明において前記binは、1kb～10Mbpであるが、これらに限定されない。

本発明において、前記データ生成部は、ベクトル化されたデータを生成する前に整列された核酸断片の整列一致度点数(mapping quality score)を満足する核酸断片を別に分類する核酸断片分類部をさらに含むことを特徴とする。

本発明において、前記整列一致度点数(mapping quality score)は、所望の基準によって異なるが、好ましくは15～70点、より好ましくは50～70点、最も好ましくは60点である。

本発明において、前記データ生成部のGC plotは、整列された核酸断片の染色体区間別分布に対し、区間別核酸断片の数または核酸断片間の距離を計算してベクトル化されたデータで生成することを特徴とする。

本発明で核酸断片の数または核酸断片間の距離計算値をベクトル化する方法は、計算値をベクトル化することは公知の技術であれば制限なく利用できる。

本発明において、前記整列された配列情報の染色体区間別分布を核酸断片の数で計算することは、以下の段階を含めて行うことを特徴とする。
i) 染色体を一定区間(bin)に区分する段階、
ii) 各区間に配列された核酸断片の数を決定する段階、
iii) 各区間で決定された核酸断片数をサンプルの全核酸断片数で分けて正規化(normalization)する段階、および
iv) 各区間の順序をX軸の値とし、前記iii)の段階で計算した正規化値をY軸の値としてGC plotを生成する段階。

本発明において、前記整列された配列情報の染色体区間別分布を核酸断片間の距離で計算することは、以下の段階を含めて行うことを特徴とする。
i) 染色体を一定区間(bin)に区分する段階、
ii) 各区間に配置された核酸断片間の距離(Fragments Distance、FD)を計算する段階、
iii) 各区間ごとに計算された距離値に基づいて、各区間の距離の代表値(RepFD)を決定する段階、
iv) 前記iii)段階で計算された代表値を全核酸断片距離の代表値で分けて正規化(normalization)する段階、および
v) 各区間の順序をX軸の値とし、前記iv)の段階で計算した正規化値をY軸の値としてGC plotを生成する段階。

本発明において、前記一定区間(bin)は1Kbないし3Gbであることを特徴とするが、これらに限定されない。

本発明においては、核酸断片をグループ化する段階を追加的に使用することができ、この場合のグループ化の基準は、整列された核酸断片のアダプター配列に基づいて行うことができる。順方向に整列された核酸断片と逆方向に整列された核酸断片に別々に区分して選別された配列情報に対して核酸断片間の距離を計算することができる。

本発明において、前記FD値は、得られたn個の核酸断片に対して、第1核酸断片と第2ないし第n個の核酸断片からなる群から選択されるいずれか1つ以上の核酸断片の基準値との距離を計算して、それらの合計、差、積、平均、積の対数、和の対数、中央値、分位数、最小値、最大値、分散、標準偏差、中央絶対偏差及び変動係数からなる群から選択された1つ以上の値及び／又は1つ以上のこれらの逆数値と、重みを含む計算結果及びこれらに限定されない統計値をFD値として使用することができるが、これらに限定されない。

本発明において、前記がん診断部の人工知能モデルは、がんの種類別画像を区別できるように学習できるモデルであれば制限なく使用可能であり、好ましくはディープラーニングモデルであることを特徴とする。

本発明において、前記人工知能モデルがCNNである場合、binary classificationを行う損失関数は後記式１で示されることを特徴とし、Multi-class classificationを行う損失関数は後記式２で示されることを特徴とする。
式１：Binary classification

式２：Multi-class classification

本発明において、前記人工知能モデルがCNNである場合、学習は以下の段階を含めて行われることを特徴とする。
i) 生産されたGC plotをtraining(学習)、validation(検証)、test(性能評価)データに分類する段階。
この時、TrainingデータはCNNモデルを学習する際に使用され、Validationデータはhyper-parameter tuning検証に使用され、Testデータは最適なモデル生産後、性能評価に使用されることを特徴とする。
ii) Hyper-parameter tuning及び学習過程を通じて最適なCNNモデルを構築する段階、
iii) Hyper-parameter tuningを通じて得られた複数のモデルの性能をvalidation dataを用いて比較し、validation dataの性能が最も良いモデルを最適なモデルとして決定する段階。

本発明において、前記がん診断部において、人工知能モデルが入力されたベクトル化されたデータから分析した結果値は、特定のscoreまたは実数であれば制限なく利用可能であり、好ましくはDPI(Deep Probability Index)値であることを特徴とするが、これらに限定されない。

本発明において、Deep probability Indexは、人工知能モデルの最後のレイヤーにbinary classificationの場合はsigmoid function、multi-class classificationの場合はsoftmax functionを使用して人工知能のoutputを0~1 scaleで調整して確率値で表現した値を意味する。

Multi-class classificationの場合には、softmax functionを利用して、class数分のDPI値を抽出する。クラス数分のDPI値の合計は1になり、実際に該当するがん種のDPI値が1になるように学習する。例えば、乳がん、肝臓がん、正常の3つのクラスがあり、乳がんサンプルが入ると、乳がんクラスを1に近づけるように学習するのである。

本発明において、前記がん診断部の出力結果値は、がん種別に導出されることを特徴とする。

本発明において、前記人工知能モデルは、学習する際にがんがあればoutput結果が1に近いように学習し、がんがなければoutput結果が0に近いように学習させて、0.5を基準に0.5以上であればがんがあると判断し、0.5以下であればがんがないと判断して性能測定を行った(Training、validation、test accuracy)。
ここで、0.5の基準値はいつでも変えられる値であることは、通常の技術者には自明なことである。例えば、False positive(偽陽性)を減らそうとすれば、0.5より高い基準値を設定し、がんがあると判断される基準を厳密に取ることができ、False Negative(偽陰性)を減らそうとすれば、基準値をより低く測定し、がんがあると判断される基準を緩やかに取ることができる。

本発明において、前記がん種予測部は、出力結果値の比較を通じてがん種を予測するが、出力結果値のうち最も高い値を示すがん種をサンプルのがんと判定する段階を含む方法で行うことを特徴とする。

本発明は、別の観点から、コンピュータ読み取り可能な記憶媒体として、がんを診断し、がん種を予測するプロセッサによって実行されるように構成されるコマンドを含み、
(a) 生体試料から核酸を抽出し、配列情報を取得する段階、
(b) 取得した配列情報(reads)を標準染色体配列データベース(reference genome database)に整列(alignment)する段階、
(c) 前記整列された配列情報(reads)ベースの核酸断片を利用したベクトル化されたデータを生成する段階、
(d) 生成された前記ベクトル化されたデータを学習された人工知能モデルに入力して分析し、基準値と比較してがんの有無を判定する段階、及び
(e) 出力された結果値を分析してがん種を予測する段階を通じて、がんの有無及びがん種を予測するプロセッサによって実行されるように構成されるコマンドを含むコンピュータ読み取り可能な記憶媒体に関する。

本発明において、前記(a)段階は、事前に生成された配列情報を取得することを特徴とし、このとき、事前に生成された配列情報は、NGS装置などを利用して生体試料から核酸を抽出して生成することを特徴とする。

別の態様において、本発明による方法は、コンピュータを用いて実施することができる。一実施形態において、コンピュータは、チップセットに接続された1つ以上のプロセッサを含む。また、チップセットには、メモリ、記憶装置、キーボード、グラフィックスアダプタ(Graphics Adapter)、ポインティングデバイス(Pointing Device)及びネットワークアダプタ(Network Adapter)などが接続されている。一実施形態において、前記チップセットの性能は、メモリコントローラハブ(Memory Controller Hub)及びI/Oコントローラハブによって実現される。他の実施形態において、前記メモリは、チップセットの代わりにプロセッサに直接接続されて使用することができる。記憶装置は、ハードドライブ、CD-ROM(Compact Disk Read-Only Memory)、DVD、またはその他のメモリ装置を含む、データを保持できる任意の装置である。メモリは、プロセッサによって使用されるデータおよびコマンドに関与する。前記ポインティングデバイスは、マウス、トラックボール(Track Ball)または他のタイプのポインティングデバイスであり、キーボードと組み合わせて入力データをコンピュータシステムに送信するために使用される。前記グラフィックアダプタは、ディスプレイ上に画像やその他の情報を表示する。前記ネットワークアダプタは、近距離または長距離通信ネットワークとしてコンピュータシステムと接続される。しかし、本発明に使用されるコンピュータは、前記のような構成に限定されなく、一部の構成がないか、または追加の構成を含むことがあり、また、記憶装置領域ネットワーク(Storage Area Network、SAN)の一部であることがあり、本発明のコンピュータは、本発明による方法の実行のためのプログラムにモジュールの実行に適合するように構成することができる。

本発明でモジュールとは、本発明による技術的思想を実行するためのハードウェア及び前記ハードウェアを駆動するためのソフトウェアの機能的、構造的結合を意味する。例えば、前記モジュールは、所定のコードと前記所定のコードが実行されるためのハードウェアリソース(Resource)の論理的な単位を意味し、必ずしも物理的に接続されたコードを意味するか、一種類のハードウェアを意味するものではないことは、本発明の技術分野の当業者にとって自明なことである。

本発明による方法は、ハードウェア、ファームウェア、またはソフトウェア、またはこれらの組み合わせで実装することができる。ソフトウェアで実装される場合、記憶媒体は、コンピュータなどの装置によって読み取り可能な形で保存または伝達する任意の媒体を含む。例えば、コンピュータ読み取り可能な媒体は、ROM(Read Only Memory)、RAM(Random Access Memory)、磁気ディスク記憶媒体、光記憶媒体、フラッシュメモリ装置及びその他の電気的、光学的又は音響的信号伝達媒体などを含む。

この観点から、本発明はまた、上述の本発明による段階を含む動作を実行させるプロセッサを実行させる実行モジュールを含むコンピュータ読み取り可能な媒体に関する。

以下、実施例により本発明をさらに詳細に説明する。これらの実施例は、本発明を例示するためのものであり、本発明の範囲がこれらの実施例によって限定されると解釈されないことは、当業者にとって自明であろう。

実施例１. 血液からDNAを抽出し、次世代シーケンス解析実施
正常人184人、がん患者580人の血液を10mLずつ採取してEDTA Tubeに保管し、採取後2時間以内に1200g、4℃、15分の条件で血漿だけを1次遠心分離し、1次遠心分離された血漿を16000g、4℃、10分の条件で2次遠心分離して、沈殿物を除いた血漿上層液を分離した。分離された血漿に対してTiangenmicro DNA kit(Tiangen)を使用してcell-free DNAを抽出し、MGIEasy cell-free DNA library prep set kitを使用してlibrary preparation過程を行った後、DNBseq G400 equipment(MGI) を100 base Paired endモードでシーケンシングした。その結果、サンプルあたり約170million個のreadsが生成されることを確認した。

実施例２. 核酸断片距離ベースのGC plot生成
前記実施例1で生成したNGSデータを利用してGCplotを生成した(ベクトル化した)。hg19参照染色体をbin size 100k base基準で分割し、生成されたNGS readsを各binに割り当てる。そして、各binごとにFD(Fragment Distance)値の中央値の逆数値を計算し、X軸は各binの位置を、Y軸は先に計算したFD値の中央値の逆数値を表現する画像を生成した(図２)。

実施例３. CNNモデル構築及び学習過程
CNNモデルの基本的な構成は図３の通りである。活性関数はReLU(RectifiedLinearunit)を使用し、各convolution layerは20個の10*10 patchを使用した。Pooling方式はmaxを利用し、2x2 patchを利用した。Fully connted layerは5つを使用し、それぞれのlayerには175個のhidden nodeが含まれている。最後にsigmoid関数値を利用して最終DPI値を計算した。前記CNNモデルに使用されたhyperparameter値は、Bayesian Optimization方式で得られた値であり、使用するデータとモデルの最適化によってモデルの構成は変わることがある。

実施例４. 核酸断片距離ベースのGC plotを利用したがん診断ディープラーニングモデル構築及び性能確認
実施例１で得られたリードを利用して核酸断片間の距離に基づいたGC plotを利用して構築したディープラーニングモデルで出力したDPI値の性能をテストした。すべてのサンプルはTrain、Validation、Testグループに分けて進行し、Trainサンプルを利用してmodelを構築した後、Validationグループ及びTestグループのサンプルを利用して、Trainサンプルを利用して作ったモデルの性能を確認した。

その結果、表２及び図４に記載されているように、Accuracyは、Train、Valid、Testグループでそれぞれ100%、88.7%、90%で確認され、ROC分析結果であるAUC値は、Train、Valid、Testグループでそれぞれ1.00、0.95、0.938であることを確認した。

図４の(A)は、精度を測定する方法のうち、ROC(Receiver Operating Characteristic)curveを活用した分析で、カーブ下の面積の広さであるAUC(Area Under the Curve)値が高いほど精度が高いと解釈する。AUC値は、0-1の間の値を持ち、ランダムにラベル値を予測した時(baseline)、期待されるAUC値は0.5、完全に正確に予測した時に期待されるAUC値は1である。

図４の(B)は、本発明の人工知能モデルで計算された染色体異数性がある確率値(DPI値)を正常サンプルとがん患者サンプルグループでboxplotで示したもので、赤い線がDPI cutoffである0.5を示す。

実施例5. 核酸断片数ベースのGC plotを利用したがん診断ディープラーニングモデル構築及び性能確認
実施例１で得られたリードを利用して核酸断片の数に基づいたGC plotを利用して、ディープラーニングモデルで出力したDPI値の性能をテストした。すべてのサンプルはTrain、Validation、Testグループに分けて進行し、Trainサンプルを利用してmodelを構築した後、Validationグループ及びTestグループのサンプルを利用して、Trainサンプルを利用して作ったモデルの性能を確認した。

その結果、表４及び図５に記載されているように、Accuracyは、Train、Valid、Testグループでそれぞれ100%、91%、86.8%で確認され、ROC分析結果であるAUC値は、Train、Valid、Testグループでそれぞれ1.00、0.968、0.936であることを確認した。

図５の(A)は、精度を測定する方法のうち、ROC(Receiver Operating Characteristic)curveを活用した分析で、カーブ下の面積の広さであるAUC(Area Under the Curve)値が高いほど精度が高いと解釈する。AUC値は、0-1の間の値を持ち、ランダムにラベル値を予測した時(baseline)、期待されるAUC値は0.5、完全に正確に予測した時に期待されるAUC値は1である。

図５の(B)は、本発明の人工知能モデルで計算された染色体異数性がある確率値(DPI値)を正常サンプルとがん患者サンプルグループでboxplotで示したもので、赤い線がDPI cutoffである0.5を示す。

以上、本発明の内容の特定の部分を詳細に説明したが、当業者にとって、これらの具体的な技術は単なる好ましい実施態様に過ぎず、これによって本発明の範囲が限定されないことは明らかであろう。したがって、本発明の実質的な範囲は、添付の請求項とそれらの等価物によって定義されるといえる。

本発明による人工知能ベースのがん診断及びがん種予測方法は、従来のリード数(read count)ベースに染色体量を決定する段階を利用する方式でリードに関連する値を1つ1つの定型化された値として活用するのに比べ、ベクトル化されたデータを生成してAIアルゴリズムを利用して分析するため、リードカバレッジが低くても同様の効果を発揮することができるので有用である。

Claims

(a) 生体試料から核酸を抽出し、配列情報を取得する段階、
(b) 取得した配列情報(reads)を標準染色体配列データベース(reference genome database)に整列(alignment)する段階、
(c) 前記整列された配列情報(reads)ベースの核酸断片(fragments)を利用したベクトル化されたデータを生成する段階、
(d) 生成された前記ベクトル化されたデータを学習された人工知能モデルに入力して分析した出力結果値と基準値(cut-off value)を比較してがんの有無を判定する段階、および
(e) 前記出力結果値の比較を通じてがん種を予測する段階を含む人工知能ベースのがん診断及びがん種予測のための情報の提供方法。
前記(a)段階は、以下の段階を含む方法で行われることを特徴とする、請求項１に記載の人工知能ベースのがん診断及びがん種予測のための情報の提供方法：
(a-i) 血液、精液、膣細胞、毛髪、唾液、尿、口腔細胞、胎盤細胞または胎児細胞を含む羊水、組織細胞およびこれらの混合物から核酸を得る段階、
(a-ii) 採取した核酸から、塩析法(salting-out method)、カラムクロマトグラフィー法(column chromatography method)またはビーズ法(beads method)を用いて、タンパク質、脂肪、およびその他の残留物を除去し、精製された核酸を得る段階、
(a-iii) 精製された核酸または酵素的切断、破砕、水圧切断法(hydroshear method)でランダム断片化(random fragmentation)された核酸に対して、シングルエンドシーケンス(single-end sequencing)またはペアエンドシーケンス(pair-end sequencing)ライブラリ(library)を作成する段階、
(a-iv) 製作されたライブラリを次世代遺伝子配列検査機(next-generation sequencer)に反応させる段階、および
(a-v) 次世代遺伝子配列検査機で核酸の配列情報(reads)を取得する段階。
前記(c)段階のベクトル化されたデータは、グランドキャニオンプロット(Grand Canyon plot、GC plot)であることを特徴とする、請求項１に記載の人工知能ベースのがん診断及びがん種予測のための情報の提供方法。
前記GC plotは、整列された核酸断片の染色体区間別の分布に対し、区間別数(count)または核酸断片(fragment)間の距離を計算してベクトル化されたデータで生成することを特徴とする、請求項３に記載の人工知能ベースのがん診断及びがん種予測のための情報の提供方法。
前記染色体区間別の分布を核酸断片の数で計算することは、以下の段階を含めて行うことを特徴とする、請求項４に記載の人工知能ベースのがん診断及びがん種予測のための情報の提供方法：
i) 染色体を一定区間(bin)に区分する段階、
ii) 各区間に配列された核酸断片の数を決定する段階、
iii) 各区間で決定された核酸断片数をサンプルの全体の核酸断片数で分けて正規化(normalization)する段階、および
iv) 各区間の順序をX軸の値とし、前記iii)の段階で計算した正規化値をY軸の値とし、GC plotを生成する段階。
前記染色体区間別の分布を核酸断片間の距離で計算することは、以下の段階を含めて行うことを特徴とする、請求項４に記載の人工知能ベースのがん診断及びがん種予測のための情報の提供方法：
i) 染色体を一定区間(bin)に区分する段階、
ii) 各区間に配置された核酸断片間の距離を計算する段階、
iii) 各区間ごとに計算された距離値に基づいて、各区間の距離の代表値(RepFD)を決定する段階、
iv) 前記iii)段階で計算された代表値を全体の核酸断片間の距離値の代表値で分けて正規化(normalization)する段階、および
v) 各区間の順序をX軸の値とし、前記iv)の段階で計算した正規化値をY軸の値とし、GC plotを生成する段階。
前記代表値は、核酸断片間の距離の合計、差、積、平均、中央値、分位数、最小値、最大値、分散、標準偏差、中央絶対偏差、変動係数、これらの逆数値及び組み合わせからなる群から選択される1つ以上であることを特徴とする、請求項６に記載の人工知能ベースのがん診断及びがん種予測のための情報の提供方法。
前記(d)段階の人工知能モデルは、染色体状態が正常なベクトル化されたデータと染色体異常があるベクトル化されたデータを区別できるように学習することを特徴とする、請求項１に記載の人工知能ベースのがん診断及びがん種予測のための情報の提供方法。
前記人工知能モデルは、畳み込みニューラルネットワーク(convolutional neural network、CNN)、深層ニューラルネットワーク(Deep Neural Network、DNN)、回帰型ニューラルネットワーク(Recurrent Neural Network、RNN)及びオートエンコーダ(autoencoder)からなる群から選択されることを特徴とする、請求項８に記載の人工知能ベースのがん診断及びがん種予測のための情報の提供方法。
前記人工知能モデルがCNNであり、そしてbinary classificationを学習する場合、損失関数は後記式１で示され、前記人工知能モデルがCNNであり、そしてMulti-class classificationを学習する場合、損失関数は後記式２で示されることを特徴とする、請求項９に記載の人工知能ベースのがん診断及びがん種予測のための情報の提供方法。
式１：

式２：
前記(d)段階の人工知能モデルが入力されたベクトル化されたデータを分析して出力する結果値はDPI(Deep Probability Index)値であることを特徴とする、請求項１に記載の人工知能ベースのがん診断及びがん種予測のための情報の提供方法。
前記(d)段階の基準値は0.5であり、0.5以上の場合、がんであると判定することを特徴とする、請求項１に記載の人工知能ベースのがん診断及びがん種予測のための情報の提供方法。
前記(e)段階の出力結果値の比較を通じてがん種を予測する段階は、出力結果値のうち最も高い値を示すがん種をサンプルのがんと判定する段階を含む方法で行うことを特徴とする、請求項１に記載の人工知能ベースのがん診断及びがん種予測のための情報の提供方法。
生体試料から核酸を抽出し、配列情報を解読する解読部、
解読された配列を標準染色体配列データベースに整列する整列部、および
整列された配列ベースの核酸断片を利用したベクトル化されたデータを生成するデータ生成部、
生成されたベクトル化されたデータを学習された人工知能モデルに入力して分析し、基準値と比較してがんの有無を判定するがん診断部、および
出力された結果値を分析してがん種を予測するがん種予測部を含む人工知能ベースのがん診断及びがん種予測装置。
コンピュータ読み取り可能な記憶媒体であって、がんを診断し、がん種を予測するプロセッサによって実行されるように構成されるコマンドを含み、
(a) 生体試料から核酸を抽出し、配列情報を取得する段階、
(b) 取得した配列情報(reads)を標準染色体配列データベース(reference genome database)に整列(alignment)する段階、
(c) 前記整列された配列情報(reads)ベースの核酸断片を利用したベクトル化されたデータを生成する段階、
(d) 生成された前記ベクトル化されたデータを学習された人工知能モデルに入力して分析し、基準値と比較してがんの有無を判定する段階、及び
(e) 出力された結果値を分析してがん種を予測する段階
を通じて、がんの有無及びがん種を予測するプロセッサによって実行されるように構成されるコマンドを含むコンピュータ読み取り可能な記憶媒体。