JP2023076795A

JP2023076795A - リキッドバイオプシーデータを用いた癌診断装置及び癌診断方法

Info

Publication number: JP2023076795A
Application number: JP2022018267A
Authority: JP
Inventors: クウォン，チャンヒョク; Changhyuk Kwon
Original assignee: EONE REFERENCE LAB; EONE REFERENCE LABORATORY; Genesisego Co Ltd
Current assignee: EONE REFERENCE LAB; EONE REFERENCE LABORATORY; Genesisego Co Ltd
Priority date: 2021-11-23
Filing date: 2022-02-08
Publication date: 2023-06-02
Anticipated expiration: 2042-02-08
Also published as: JP7350112B2; US20230162813A1; EP4184514A1; CN116153491A

Abstract

【課題】最適化された方法でリキッドバイオプシーデータから癌の有無を判断し、癌の起源及び病期を判断することが可能な癌診断装置及び癌診断方法を提供する。【解決手段】癌診断装置１００において、ＤＮＡ分析部１１０は、血液より抽出された血漿からｃｔＤＮＡの配列情報を獲得し、獲得された配列情報に基づいて染色体の断片のサイズ及びコピー数多型を抽出し、獲得された配列情報を用いてＰ-ａｒｍ及びＱ-ａｒｍの断片のサイズを抽出し、獲得された配列情報を用いてミトコンドリアのコピー数多型を抽出する。制御部１３０は、染色体の断片のサイズ、コピー数多型、Ｐ-ａｒｍの断片のサイズ、Ｑ-ａｒｍの断片のサイズ及びミトコンドリアのコピー数多型のうちの少なくとも１つを、既に学習された人工知能アルゴリズムの入力値として入力し、癌の病期及び起源を出力値として出力する。【選択図】図１

Description

本発明は、リキッドバイオプシー（ｌｉｑｕｉｄｂｉｏｐｓｙ）データを用いた癌診断（ｃａｎｃｅｒｄｉａｇｎｏｓｉｓ）装置及び癌診断方法に関する。

科学技術の飛躍的発展に伴い、人々は安楽な領域にいるが（ｉｎｃｏｍｆｏｒｔｚｏｎｅ）、彼ら個々人の特性に基づいた、癌に対する個人に合わせた治療戦略を持っていない。マイクロアレイと次世代シークエンシングは、遺伝子発現、ＤＮＡのコピー数多型（ＣｏｐｙＮｕｍｂｅｒＶａｒｉａｔｉｏｎｓ）、そしてマイクロＲＮＡの活性を定量化する癌研究における主要ツール（ｃａｒｔｅｒ）である。

癌は、遺伝疾患（ｉｎｈｅｒｉｔｅｄｄｉｓｅａｓｅ）であるため、遺伝子の変異データと発現データの統合検査を開始することが、発癌のメカニズムを理解し、癌の発生を予測及び予防し、可能な治療法を見つける上で最も良い手段の１つである。９０年代初頭には、科学者らが遺伝子発現データ（ｇｅｎｅｅｘｐｒｅｓｓｉｏｎｄａｔａ）の情報処理、データの分析、知識の表現、そして管理のために人工知能（ａｒｔｉｆｉｃｉａｌｉｎｔｅｌｌｉｇｅｎｃｅ）を適用することについて研究し始めた。人工知能を用いた分類（Ｃｌａｓｓｉｆｉｃａｔｉｏｎ）は、医師が遺伝子発現データから知識を抽出して臨床的意思決定を行うようにするために、癌に対する理解をより促進することを目的とするデータ分析の一種である。

一方、専門家は知識を追跡できるが、高次元遺伝子発現データについてはそれが難しく、かなりの時間がかかる。他方、アルゴリズムは専門家なしで知識を抽出するのに利用可能であるが、良いシステムの成果のためには適していない。ある規則（Ｒｕｌｅ）を定めること、即ち人工知能においてルールは知識を表現するのに良い方法であるため、規則基盤アプローチ(rule-based approach)は、癌の診断においてモメンタムを有する（ｇａｉｎｓｍｏｍｅｎｔｕｍ）。

意思決定ツリー（ｄｅｃｉｓｉｏｎｔｒｅｅ; 決定木）は、トレーニングサンプル（ｔｒａｉｎｉｎｇｓａｍｐｌｅｓ）内の若干の偏り（ｌｏｗｂｉａｓ）がツリー構造内の大きな違い（ｓｅｒｉｏｕｓｅｒｒｏｒ）に繋がるほど敏感であるにもかかわらず、生物学的に意味のある単語（ｔｅｒｍ）を含む規則を生産するのに広く用いられる。分類ツリー（ＣｌａｓｓｉｆｉｃａｔｉｏｎＴｒｅｅ）のアンサンブルモデルも意思決定ツリーほど敏感である。データ基盤アルゴリズムによって生成された規則は、よりシンプルであるが、これらの規則は、不確実な状況において遺伝子発現の重複した動きを考慮するのに失敗した。

小森（Ｋｏｍｏｒｉ）らにより提案された規則基盤（rule-based; ルールベース）システムが遺伝子発現データからの直観的な知識の生成により癌を予測するのに適用できるが、このアプローチは、自らの学習に非常に脆弱である。ハイブリッドファジー方法（ｈｙｂｒｉｄｆｕｚｚｙｍｅｔｈｏｄ）は、メンバシップ（ｍｅｍｂｅｒｓｈｉｐ）関数のポイントを固定することで、遺伝子の個体群内の規則集合のみを表現するため、ファジーシステムを完璧にモデリングするのには失敗する。

遺伝的スワームアルゴリズム（Ｓｗａｒｍａｌｇｏｒｉｔｈｍ）は、より優れた分類正確性を有するが、これより生産されたイフゼン（ｉｆ-ｔｈｅｎ）規則(rule)は、より多くの入力（ｉｎｐｕｔ）遺伝子と言語学的変数を有しており、医師が理解し難い。アントビー（ＡｎｔＢｅｅ）アルゴリズムは、より可読性の高い規則集合を生産することによって、解析可能性-正確性の相反関係（ｔｒａｄｅｏｆｆ）を扱うことができるが、より多くの調整可能な制御パラメータを用いる、より多くの複合演算の使用により、このアプローチは多くのＣＰＵ時間を消費することになる。

ファジィオントロジー（ｆｕｚｚｙｏｎｔｏｌｏｇｙ）は、知識を迅速に抽出できるが、超高次元の遺伝子発現データから発見された不足したデータの分配により劣化する。ファジー専門システム構築内のフレームワークは、確率的な全域最適化過程（ｇｌｏｂａｌｏｐｔｉｍｉｚａｔｉｏｎｐｒｏｃｅｄｕｒｅ）を用いて、クリスプ（ｃｒｉｓｐ）規則をファジー規則に変換するが、様々な癌の専門家を利用したクリスプ規則の生成はやはり難しい。遺伝子発現データの分析に対する説得力のある（ｃｏｎｖｉｎｃｉｎｇ）焦点を維持するためには、多重カテゴリ診断を処理した方がよい。

このような点で、これまでの研究は、多数決やファジーの集成を用いて、最終的な意思決定が導き出される分類器を結合しようとする試みをしてきた。大部分のアンサンブル分類方法（ｅｎｓｅｍｂｌｅｃｌａｓｓｉｆｉｃａｔｉｏｎｍｅｔｈｏｄ）は、その焦点が、分類の成果にのみ当てられたブラックボックスアプローチに基づき、医学の根本的な疑問の理解に関する如何なる措置も提供していない。

近年、ファジーシステムによって提供される解析可能性の重大な利点を活用するために、結合方法を用いるファジー規則基盤の多重分類システム（ＦＲＢＭＳ）が提示されている。しかし、相対的に少数の患者に対する、多数のゲノム変数の存在はデータを理解し難くさせる。分類器のフュージョンと選択を共に行うように、遺伝アルゴリズム（ｇｅｎｅｔｉｃａｌｇｏｒｉｔｈｍ）をＦＲＢＭＳに用いるための試みがあったが、遺伝子発現データの歪度（ｓｋｅｗｎｅｓｓ）を満たしてはいなかった。

更に、不十分な実験により最適化されていないロバストシステム（ｒｏｂｕｓｔｓｙｓｔｅｍ）がもたらされる多重分類時には、過小適合が回避されなければならない。不正確で非線形的な多重カテゴリ値といった多数のエンカウンタ（ｅｎｃｏｕｎｔｅｒ）をプリテンディング（ｐｒｅｔｅｎｓｅ）する効果的な（ｆｒｕｉｔｆｕｌ）癌診断システムを構築するためには、精密な（ｒｉｇｏｒｏｕｓ）データ分析原則を用いる、理想的かつ適した手法について考えることが必須である。このような多様なアルゴリズムは、適当なデータセットに適用する時にのみ、最も最適化された結果が得られる。

ｃｔＤＮＡの全ゲノムシーケンスデータ（ｗｈｏｌｅｇｅｎｏｍｅｓｅｑｕｅｎｃｉｎｇｄａｔａ）は、多くの分子の情報を含んでいる。

多くの分析では、ＤＮＡ変異情報又はコピー数多型（ＣｏｐｙＮｕｍｂｅｒＶａｒｉａｔｉｏｎｓ）の違いのみを解析し、残りの情報は捨てられるケースが殆どであるため、ミトコンドリア（ｍｉｔｏｃｈｏｎｄｒｉａ）やＰ／Ｑ-ａｒｍのコピー数多型の変化、全体のコピー数多型の比較、断片のサイズ情報などに注目しない場合が殆どである。

本発明は上記事情に鑑みてなされたものであって、その目的は、最適化された方法でリキッドバイオプシーデータから癌の有無を判断し、癌の起源及び病期を判断することが可能な癌診断装置及び癌診断方法を提供することにある。

本発明が解決しようとする課題は、以上で言及した課題に限らず、言及されていない更に他の課題は、以下の記載から通常の技術者が明確に理解できるはずである。

上述した課題を解決するための本発明の一実施例に係る装置により行われるリキッドバイオプシーデータを用いた癌診断方法は、ａ）血液より抽出された血漿からｃｔＤＮＡ(Circulating tumor DNA)の配列情報（ｓｅｑｕｅｎｃｅｉｎｆｏｒｍａｔｉｏｎ）を獲得し、獲得された配列情報に基づいて染色体の断片のサイズ（ｆｒａｇｍｅｎｔｓｉｚｅ）及びコピー数多型（ＣｏｐｙＮｕｍｂｅｒＶａｒｉａｔｉｏｎｓ）を抽出する段階と、ｂ）前記獲得された配列情報を用いてＰ-ａｒｍ及びＱ-ａｒｍの断片のサイズを抽出する段階と、ｃ）前記獲得された配列情報を用いてミトコンドリア（ｍｉｔｏｃｈｏｎｄｒｉａ）のコピー数多型を抽出する段階と、ｄ）前記染色体の断片のサイズ、コピー数多型、Ｐ-ａｒｍの断片のサイズ、Ｑ-ａｒｍの断片のサイズ及びミトコンドリアのコピー数多型のうちの少なくとも１つを、既に学習されたアルゴリズムの入力値として入力し、癌が発生したか否かを出力値として出力する段階と、ｅ）前記染色体の断片のサイズ、コピー数多型、Ｐ-ａｒｍの断片のサイズ、Ｑ-ａｒｍの断片のサイズ及びミトコンドリアのコピー数多型のうちの少なくとも１つを、人工知能アルゴリズムの入力値として入力し、癌の病期及び起源を出力値として出力する段階とを含む。

実施例において、前記ａ）段階は、前記血漿からｃｔＤＮＡの配列情報を獲得し、ヒトの参照データ（ｒｅｆｅｒｅｎｃｅｄａｔａ）を用いて配列を整理する段階と、前記配列情報から、配列のクオリティ情報、マッピング情報及び重複（ｄｕｐｌｉｃａｔｉｏｎ）情報を除去して整理する段階と、前記整理された配列情報（ｓｅｑｕｅｎｃｅａｌｉｇｎｍｅｎｔｉｎｆｏｒｍａｔｉｏｎ）を用いて、常染色体（ａｕｔｏｓｏｍｅ）及び性染色体（ｓｅｘｃｈｒｏｍｏｓｏｍｅ）の、断片のサイズが第１長さから第２長さまでを抽出する段階とを含む。

実施例において、前記ｂ）段階は、前記染色体のｃｅｎｔｒｏｍｅｒｅ(セントロメア)を基準にＰ-ａｒｍ(Ｐアーム)及びＱ-ａｒｍ(Ｑアーム)のｆｒａｇｍｅｎｔｓｉｚｅ(断片サイズ)を抽出することを特徴とする。

実施例において、前記ａ）段階は、前記整理された配列情報を用いてＧＣ含量（ＧＣ-Ｃｏｎｔｅｎｔ）とマッピング率が基準値（ｃｕｔ-ｏｆｆ）以上の配列情報を抽出する段階と、各領域（ｃｈｒｏｍｏｓｏｍａｌｒｅｇｉｏｎ）を特定の大きさ以上のビン（ｂｉｎ）領域に分けて各区間の量を正規化（ｎｏｒｍａｌｉｚａｔｉｏｎ）する段階と、各ビン領域に対する平均と標準偏差を用いてＺ-ｓｃｏｒｅ(Ｚスコア)を計算する段階と、前記Ｚ-ｓｃｏｒｅを数値化してコピー数多型を抽出する段階とを含む。

実施例において、前記ｃ）段階は、ミトコンドリアのコピー数多型を計算する段階と、常染色体の平均コピー数多型を計算する段階と、ミトコンドリアのコピー数多型を常染色体の平均コピー数多型に割ってミトコンドリアのコピー数多型を抽出する段階とを含む。

実施例において、前記ｄ）段階において、前記既に学習されたアルゴリズムは、ＲａｎｄｏｍＦｏｒｅｓｔ（ＲＦ）、ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ（ＳＶＭ）、ｅＸｔｒａＧｒａｄｉｅｎｔＢｏｏｓｔ（ＸＧＢ）、ＤｅｃｉｓｉｏｎＴｒｅｅＣｌａｓｓｉｆｉｅｒ（ＤTＣ）、Ｋ-ｎｅａｒｅｓｔＮｅｉｇｈｂｏｒｓ（ＫＮＮ）、ＧａｕｓｓｉａｎＮａｉｖｅＢａｙｅｓ（ＧＮＢ）、ＳｔｏｃｈａｓｔｉｃＧｒａｄｉｅｎｔＤｅｓｃｅｎｔ（ＳＧＤ）、ＬｉｎｅａｒＤｉｓｃｒｉｍｉｎａｎｔＡｎａｌｙｓｉｓ（ＬＤＡ）、ＲｉｄｇｅＲｅｇｒｅｓｓｉｏｎ、Ｌａｓｓｏ及びＥｌａｓｔｉｃｎｅｔのうちの少なくとも１つのアルゴリズムを含むことを特徴とする。

実施例において、前記染色体の断片のサイズ及びＰ-ａｒｍとＱ-ａｒｍの割合データを統合する段階と、常染色体のコピー数多型及びミトコンドリアの割合データを統合する段階を更に含み、前記ｄ）段階及びｅ）段階は、前記統合された割合データを入力値として入力することを特徴とする。

また、本発明の一実施例に係るリキッドバイオプシーデータを用いた癌診断装置は、血液より抽出された血漿からｃｔＤＮＡの配列情報を獲得し、獲得された配列情報に基づいて染色体の断片のサイズ及びコピー数多型を抽出し、前記獲得された配列情報を用いてＰ-ａｒｍ及びＱ-ａｒｍの断片のサイズを抽出し、前記獲得された配列情報を用いてミトコンドリアのコピー数多型を抽出するＤＮＡ分析部と、前記染色体の断片のサイズ、コピー数多型、Ｐ-ａｒｍの断片のサイズ、Ｑ-ａｒｍの断片のサイズ及びミトコンドリアのコピー数多型のうちの少なくとも１つを既に学習されたアルゴリズムの入力値として入力し、癌が発生したか否かを出力値として出力する制御部とを含み、前記制御部は、前記染色体の断片のサイズ、コピー数多型、Ｐ-ａｒｍの断片のサイズ、Ｑ-ａｒｍの断片のサイズ及びミトコンドリアのコピー数多型のうちの少なくとも１つを人工知能アルゴリズムの入力値として入力し、癌の病期や起源を出力値として出力することを特徴とする。

実施例において、前記ＤＮＡ分析部は、前記血漿からｃｔＤＮＡの配列情報を獲得し、ヒトの参照データを用いて配列を整理し、前記配列情報から、配列のクオリティ情報、マッピング情報及び重複情報を除去して整理し、前記整理された配列情報を用いて、常染色体及び性染色体の、断片のサイズが第１長さから第２長さまでを抽出することを特徴とする。

実施例において、前記ＤＮＡ分析部は、前記染色体の中心体を基準にＰ-ａｒｍ及びＱ-ａｒｍの断片のサイズを抽出することを特徴とする。

実施例において、前記ＤＮＡ分析部は、前記整理された配列情報を用いてＧＣ含量とマッピング率が基準値以上の配列情報を抽出し、各領域を特定の大きさ以上のビン（ｂｉｎ）領域に分けて各区間の量を正規化し、各ビン領域に対する平均と標準偏差を用いてＺ-ｓｃｏｒｅを計算し、前記Ｚ-ｓｃｏｒｅを数値化してコピー数多型を抽出することを特徴とする。

実施例において、前記ＤＮＡ分析部は、ミトコンドリアのコピー数多型を計算し、常染色体の平均コピー数多型を計算し、ミトコンドリアのコピー数多型を常染色体の平均コピー数多型で割ってミトコンドリアのコピー数多型を抽出することを特徴とする。

実施例において、前記既に学習されたアルゴリズムは、ＲａｎｄｏｍＦｏｒｅｓｔ（ＲＦ）、ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ（ＳＶＭ）、ｅＸｔｒａＧｒａｄｉｅｎｔＢｏｏｓｔ（ＸＧＢ）、ＤｅｃｉｓｉｏｎＴｒｅｅＣｌａｓｓｉｆｉｅｒ（ＤTＣ）、Ｋ-ｎｅａｒｅｓｔＮｅｉｇｈｂｏｒｓ（ＫＮＮ）、ＧａｕｓｓｉａｎＮａｉｖｅＢａｙｅｓ（ＧＮＢ）、ＳｔｏｃｈａｓｔｉｃＧｒａｄｉｅｎｔＤｅｓｃｅｎｔ（ＳＧＤ）、ＬｉｎｅａｒＤｉｓｃｒｉｍｉｎａｎｔＡｎａｌｙｓｉｓ（ＬＤＡ）、ＲｉｄｇｅＲｅｇｒｅｓｓｉｏｎ、Ｌａｓｓｏ及びＥｌａｓｔｉｃｎｅｔのうちの少なくとも１つのアルゴリズムを含むことを特徴とする。

実施例において、前記制御部は、前記染色体の断片のサイズ及びＰ-ａｒｍとＱ-ａｒｍの割合データを統合し、常染色体のコピー数多型及びミトコンドリアの割合データを統合し、前記統合された割合データを入力値として入力することを特徴とする。

上述した課題を解決するための本発明の他の実施例に係る癌診断プログラムは、ハードウェアであるコンピュータと結合され、上述した方法のうちの何れかの方法を行うために媒体に格納される。

この他にも、本発明を具現するための他の方法、他のシステム及び前記方法を実行するためのコンピュータプログラムを記録する、コンピュータ読み取り可能な記録媒体が更に提供されうる。

本発明の一実施例に係る癌診断装置を説明する概念図である。本発明の一実施例に係る癌診断方法を説明するフローチャートである。図２で詳察した癌診断方法を説明する概念図(1)である。図２で詳察した癌診断方法を説明する概念図(2)である。図２で詳察した癌診断方法を説明する概念図(3)である。図２で詳察した癌診断方法を説明する概念図(4)である。図２で詳察した癌診断方法を説明する概念図(5)である。図２で詳察した癌診断方法を説明する概念図(6)である。図２で詳察した癌診断方法を説明する概念図(7)である。図２で詳察した癌診断方法を説明する概念図(8)である。図２で詳察した癌診断方法を説明する概念図(9)である。図２で詳察した癌診断方法を説明する概念図(10)である。図２で詳察した癌診断方法を説明する概念図(11)である。

本発明の利点及び特徴、そしてそれらを達成する方法は、添付の図面と共に詳細に後述されている実施例を参照すれば明確になる。しかし、本発明は、以下で開示される実施例に制限されるものではなく、互いに異なる多様な形態に具現することができる。但し、本実施例は、本発明の開示を完全なものにし、本発明が属する技術分野における通常の技術者に本発明の範疇を完全に理解させるために提供されるものであり、本発明は専ら請求項の範疇により定義される。

本明細書で用いられた用語は、実施例を説明するためのものであり、本発明を制限しようとするものではない。本明細書において、単数型は特に言及しない限り複数型も含む。明細書で用いられる「含む（ｃｏｍｐｒｉｓｅｓ）」及び／又は「含んでいる（ｃｏｍｐｒｉｓｉｎｇ）」は、言及された構成要素以外に１つ以上の他の構成要素の存在又は追加を排除しない。明細書全体に亘って同一の図面符号は同一の構成要素を示し、「及び／又は」は言及された構成要素のそれぞれ及び１つ以上の全ての組み合わせを含む。たとえ、「第１」、「第２」などが多様な構成要素を叙述するために用いられていても、これらの構成要素がこれらの用語により制限されないのはもちろんである。これらの用語は、単に１つの構成要素を他の構成要素と区別するために用いる。従って、以下で言及される第１構成要素は、本発明の技術的思想内で第２構成要素でもあり得るのは言うまでもない。

他の定義がなければ、本明細書で用いられる全ての用語（技術及び科学的用語を含む）は、本発明が属する技術分野における通常の技術者が共通して理解できる意味として用いられる。また、一般に用いられる辞典に定義されている用語は、明白に特に定義されていない限り、理想的に又は過度に解釈されない。

以下、添付の図面を参照し、本発明の実施例を詳細に説明する。

説明に先立ち、本明細書で用いる用語の意味を簡単に説明する。しかし、用語の説明は、本明細書の理解を促進するためのものであるので、明示的に本発明を限定する事項として記載していない場合、本発明の技術的思想を限定する意味として用いるものではないことに注意すべきである。

本明細書において、「癌診断装置」は演算処理を行ってユーザに結果を提供できる多様な装置が全て含まれる。

例えば、癌診断装置は、コンピュータ、端末、デスクトップＰＣ、ノートパソコン（ＮｏｔｅＢｏｏｋ）だけでなく、スマートフォン（Ｓｍａｒｔｐｈｏｎｅ）、タブレットＰＣ、セルラーフォン（Ｃｅｌｌｕｌａｒｐｈｏｎe）、ピーシーエスフォン（ＰＣＳＰｈｏｎｅ；ＰｅｒｓｏｎａｌＣｏｍｍｕｎｉｃａｔｉｏｎＳｅｒｖｉｃｅｐｈｏｎｅ）、同期式／非同期式ＩＭＴ-２０００（ＩｎｔｅｒｎａｔｉｏｎａｌＭｏｂｉｌｅＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎ-２０００）の移動端末、パームＰＣ（ＰａｌｍＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、携帯個人端末（ＰＤＡ；ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）なども該当し得る。

また、癌診断装置は、クライアントから要請を受信し、情報処理を行うサーバと通信を行える。

本発明の一実施例に係る癌診断装置は、図１で説明する構成要素のうちの少なくとも１つを含むように具現できる。

図１は、本発明の一実施例に係る癌診断装置を説明する概念図である。

本発明の一実施例に係る癌診断装置１００は、ＤＮＡ分析部１１０及び制御部１３０を含むことができる。

ＤＮＡ分析部１１０は、血液より抽出された血漿からｃｔＤＮＡの配列情報を獲得できる。

ＤＮＡ分析部１１０は、前記獲得した配列情報に基づいて染色体の断片のサイズ及びコピー数多型を抽出できる。

ＤＮＡ分析部１１０は、前記獲得した配列情報を用いてＰ-ａｒｍ及びＱ-ａｒｍの断片のサイズを抽出できる。

ＤＮＡ分析部１１０は、前記獲得した配列情報を用いてミトコンドリアのコピー数多型を抽出できる。

制御部１３０は、ＤＮＡ分析部１１０から抽出されたデータを用いて癌診断を行える。

具体的に、制御部１３０は、前記染色体の断片のサイズ、コピー数多型、Ｐ-ａｒｍの断片のサイズ、Ｑ-ａｒｍの断片のサイズ及びミトコンドリアのコピー数多型のうちの少なくとも１つを、既に学習されたアルゴリズムの入力値として入力し、癌の発生の有無を出力値として出力できる。

また、制御部１３０は、前記染色体の断片のサイズ、コピー数多型、Ｐ-ａｒｍの断片のサイズ、Ｑ-ａｒｍの断片のサイズ及びミトコンドリアのコピー数多型のうちの少なくとも１つを、人工知能アルゴリズムの入力値として入力し、癌の病期（ｓｔａｇｅ; ステージ）及び起源（ｏｒｉｇｉｎ）を出力値として出力できる。

また、制御部１３０は、前記出力値として出力された癌の発生の有無、癌の病期及び起源を用いて、患者の再発と転移について判断するようにモニタリングを行える。

図２は、本発明の一実施例に係る癌診断方法を説明するフローチャートであり、図３ないし図１３は、図２で詳察した癌診断方法を説明する概念図である。

本発明は、無細胞循環腫瘍核酸（ｃｔＤＮＡ）の断片データを人工知能アルゴリズムに入力し、癌又は正常の区分（癌発生の有無）だけでなく、起源及び病期まで判別することが可能な、癌診断方法及び癌診断装置を提供できる。

本発明は、次世代塩基配列解析手法（ＮｅｘｔＧｅｎｅｒａｔｉｏｎＳｅｑｕｅｎｃｉｎｇ、ＮＧＳ; 次世代シーケンシング）で生成されたデータを３Ｘ(3倍)から０.５Ｘ(0.5倍)までの低い深さ（Ｌｏｗ-ｄｅｐｔｈ; 低深度）でも判別可能である。

本発明は、染色体のコピー数多型(ＣｏｐｙＮｕｍｂｅｒＶａｒｉａｔｉｏｎｓ)の違い、染色体の断片の長さ（断片のサイズ）、ミトコンドリア、Ｐ-ａｒｍ、Ｑ-ａｒｍの割合などの多様なデータを同時に、既に学習されたアルゴリズムに入力することにより、精度を著しく高めることができる。

従って、本発明の癌診断装置及び方法は、癌を早期発見して医療費を格段に低減するだけでなく、癌による死亡率を下げ、癌の治療及び予後の予測にも有用に用いられるうる。

図２を参照すると、本発明の癌診断装置は、ＤＮＡ分析部１１０が、血液より抽出された血漿から、ｃｔＤＮＡの配列情報を獲得し、獲得した配列情報に基づいて染色体の断片のサイズ及びコピー数多型を抽出する段階が行われる（Ｓ２１０）。

制御部１３０は、遠心分離器を制御できる。

制御部１３０は、ｃｔＤＮＡ（又はｃｆＤＮＡ; Cell Free DNA）の量を最大限に増加させるために、前記遠心分離器のｒｐｍ速度制御を行うことができる。

具体的に、制御部１３０は、ａ）１段階のみ用いる分離方法では４００ｇ（重力加速度）～１０００gで１０分間血漿を抽出するのであり、ｂ）２段階で分離する方法では、ａ）方法を適用した後、６０００g以上の回転速度で血漿を抽出するように、遠心分離器を制御することができる。

遠心分離器で分離された血漿は、ＤＮＡ分析部１１０に移動され、分析に利用され得る。

ＤＮＡ分析部１１０は、全ゲノムシーケンス（ＷｈｏｌｅＧｅｎｏｍｅＳｅｑｕｅｎｃｉｎｇ、ＷＧＳ）の配列が整理されたファイルから、ｃｔＤＮＡ断片のサイズのパターンを分析できる。

また、ＤＮＡ分析部１１０は、全ゲノムシーケンス（ＷｈｏｌｅＧｅｎｏｍｅＳｅｑｕｅｎｃｉｎｇ、ＷＧＳ）の配列が整理されたファイルから、ｃｔＤＮＡのコピー数多型（ＣｏｐｙＮｕｍｂｅｒＶａｒｉａｔｉｏｎｓ）を計算できる。

制御部１３０は、大量の塩基配列分析方法によって生産されたデータのＤＮＡ断片のサイズのパターンとコピー数多型を用いて癌を診断できる。

ＤＮＡ分析部１１０は、血漿からｃｔＤＮＡの配列情報（ＦＡＳＴＱ形式のファイル又はｒｅａｄｓ）を取得し、ヒトの参照データ（Ｈｕｍａｎｒｅｆｅｒｅｎｃｅｇｅｎｏｍｅｄａｔａ）を用いて配列を整理できる。

ＤＮＡ分析部１１０は、前記配列情報から、配列のクオリティ情報、マッピング情報及び重複情報を除去して整理することができる。

また、ＤＮＡ分析部１１０は、前記整理された配列情報を用いて、常染色体、性染色体及びミトコンドリアの断片のサイズを第１長さ（例えば、７５）から第２長さ（例えば、４４０）まで抽出できる。

図３に示されるように、制御部１３０は、染色体の断片のサイズに対するパターンが確保でき、特定の断片のサイズ（例えば、１５５又は１６６）における個数が、正常である場合と癌である場合に異なって現れることが分かる。

また、ＤＮＡ分析部１１０は、前記獲得した配列情報を用いて、Ｐ-ａｒｍの断片のサイズ（ｆｒａｇｍｅｎｔｓｉｚｅ）及びＱ-ａｒｍの断片のサイズを抽出できる（Ｓ２２０）。

ＤＮＡ分析部１１０は、染色体（全ての染色体）の中心体（Ｃｅｎｔｒｏｍｅｒｅ）を基準にＰ-ａｒｍ及びＱ-ａｒｍの断片のサイズを抽出できる。

また、ＤＮＡ分析部１１０は、前記整理された配列情報を用いて、ＧＣ含量（ＧＣ-Ｃｏｎｔｅｎｔ）とマッピング率が基準値（ｃｕｔ-ｏｆｆ）以上の配列情報を抽出できる。

ＤＮＡ分析部１１０は、各領域（ｃｈｒｏｍｏｓｏｍａｌｒｅｇｉｏｎ）を特定の大きさ以上のビン（ｂｉｎ）領域に分けて各区間の量を正規化できる。

ＤＮＡ分析部１１０は、各ビン領域に対する平均と標準偏差を用いてＺ-ｓｃｏｒｅを計算し、前記Ｚ-ｓｃｏｒｅを数値化してコピー数多型を抽出できる。

具体的に、本発明のＤＮＡ分析部１１０は、前記整理された配列情報（データ）を用いてＧＣ含量とマッピング率（Ｍａｐｐａｂｉｌｉｔｙ）が基準値以上のリード（配列情報）を抽出できる。

また、ＤＮＡ分析部１１０は、各領域（ｃｈｒｏｍｏｓｏｍａｌｒｅｇｉｏｎ）を５ｋｂ以上（５ＫＢ～１０ＭＢ）のｂｉｎに分けて各区間の量を確認して正規化できる。

ＤＮＡ分析部１１０は、ｂｉｎを基準に求めた平均と標準偏差を用いてＺ-ｓｃｏｒｅを計算できる。

ＤＮＡ分析部１１０は、Ｚ-ｓｃｏｒｅの値を数値化してコピー数多型の差をデータ化できる。

具体的に、ＤＮＡ分析部１１０は、配列が整理されたデータ（ｓｅｑｕｅｎｃｅａｌｉｇｎｍｅｎｔｄａｔａ）を用いて、常染色体、性染色体、ミトコンドリアのコピー数多型（ＣｏｐｙＮｕｍｂｅｒＶａｒｉａｔｉｏｎｓ、ＣＮＶ）の差を計算できる。

ＤＮＡ分析部１１０は、配列が整理されたデータから曖昧なリード（ｓｅｑｕｅｎｃｅｉｎｆｏｒｍａｔｉｏｎ）を取り除き、完璧に整列（Ｐｅｒｆｅｃｔｍａｔｃｈ）されたリードのみを整理し、整理された配列から、ＧＣ含量とマッピング率（Ｍａｐｐａｂｉｌｉｔｙ）が基準値以上のリードを抽出できる。

ＤＮＡ分析部１１０は、各領域（ｃｈｒｏｍｏｓｏｍａｌｒｅｇｉｏｎ）を５ｋｂ以上（５ＫＢ～１０ＭＢ）のｂｉｎに分けてＺ-ｓｃｏｒｅを計算することを含むことができる。

図４は、０.１Ｘから５Ｘまでの多様なリード深さでの結果を示している。

図４は、リード深さによるコピー数多型（ＣｏｐｙＮｕｍｂｅｒＶａｒｉａｔｉｏｎｓ）の結果のグラフであり、上側から５Ｘ、３Ｘ、１Ｘ、０.５Ｘ、０.１Ｘのグラフを示す。

図４を参照すると、最終結果グラフとして０.５Ｘまでは適当であるが、０.１Ｘからはｓｃｏｒｅが急激に変化しながら低下することから、コピー数多型に変化がない健常者の結果が、深さが低いことによってコピー数多型に変化があるものと判定される。

図５のＲａｎｄｏｍｆｏｒｅｓｔの結果のように、５Ｘから０.５Ｘまでの結果はほぼ一定であるが、０.１の値は全体の結果に大きな影響を及ぼす。

一方、ＤＮＡ分析部１１０は、前記獲得された配列情報を用いて、ミトコンドリアのコピー数多型を抽出できる（Ｓ２３０）。

具体的に、ＤＮＡ分析部１１０は、ミトコンドリアのコピー数多型を計算し、常染色体の平均コピー数多型を計算できる。

ＤＮＡ分析部１１０は、ミトコンドリアのコピー数多型を常染色体の平均コピー数多型の深さで割ってミトコンドリアのコピー数多型を抽出できる。

ＤＮＡ分析部１１０は、ミトコンドリアのコピー数多型を以下のように計算できる。

ミトコンドリアコピー数多型計算＝ミトコンドリアリードの深さ／常染色体の平均リードの深さ

その後、制御部１３０は、前記染色体の断片のサイズ、コピー数多型、Ｐ-ａｒｍの断片のサイズ、Ｑ-ａｒｍの断片のサイズ及びミトコンドリアのコピー数多型のうちの少なくとも１つを、既に学習されたアルゴリズムの入力値として入力し、癌の発生の有無を出力値として出力できる（Ｓ２４０）。

前記既に学習されたアルゴリズムは、ＲａｎｄｏｍＦｏｒｅｓｔ（ＲＦ; ランダムフォレスト）、ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ（SVM; サポートベクターマシン）、ｅＸｔｒａＧｒａｄｉｅｎｔＢｏｏｓｔ（ＸＧＢ; XGBoost）、ＤｅｃｉｓｉｏｎＴｒｅｅ Classifier（ＤTＣ）、Ｋ-ｎｅａｒｅｓｔＮｅｉｇｈｂｏｒｓ（ＫＮＮ; k近傍法）、ＧａｕｓｓｉａｎＮａｉｖｅＢａｙｅｓ（ＧＮＢ; ガウシアンナイーブベイズ）、ＳｔｏｃｈａｓｔｉｃＧｒａｄｉｅｎｔＤｅｓｃｅｎｔ（ＳＧＤ; 確率的勾配降下法）、ＬｉｎｅａｒＤｉｓｃｒｉｍｉｎａｎｔＡｎａｌｙｓｉｓ（ＬＤＡ; 線形判別分析）、Ridge Regression(リッジ回帰)、Ｌａｓｓｏ及びＥｌａｓｔｉｃｎｅｔのうちの少なくとも１つのアルゴリズムを含むことができる。

また、制御部１３０は、癌の発生の有無のみならず、前記染色体の断片のサイズ、コピー数多型、Ｐ-ａｒｍの断片のサイズ、Ｑ-ａｒｍの断片のサイズ及びミトコンドリアのコピー数多型のうちの少なくとも１つを人工知能アルゴリズムの入力値として入力し、癌の病期及び起源を出力値として出力できる（Ｓ２５０）。

制御部１３０は、染色体の断片のサイズ及びＰ-ａｒｍとＱ-ａｒｍの割合データを統合し、常染色体のコピー数多型及びミトコンドリアの割合データを統合できる。

その後、制御部１３０は、前記統合された割合データを入力値として入力できる。

前記人工知能アルゴリズムは、ＲａｎｄｏｍＦｏｒｅｓｔ（ＲＦ）、ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ（SVM）、ｅＸｔｒａＧｒａｄｉｅｎｔＢｏｏｓｔ（ＸＧＢ）、ＤｅｃｉｓｉｏｎＴｒｅｅ Classifier（ＤTＣ）、Ｋ-ｎｅａｒｅｓｔＮｅｉｇｈｂｏｒｓ（ＫＮＮ）、ＧａｕｓｓｉａｎＮａｉｖｅＢａｙｅｓ（ＧＮＢ）、ＳｔｏｃｈａｓｔｉｃＧｒａｄｉｅｎｔＤｅｓｃｅｎｔ（ＳＧＤ）、ＬｉｎｅａｒＤｉｓｃｒｉｍｉｎａｎｔＡｎａｌｙｓｉｓ（ＬＤＡ）、Ridge Regression、Ｌａｓｓｏ及びＥｌａｓｔｉｃｎｅｔ分流器などのアルゴリズムを含むことができる。

人工知能アルゴリズムは、癌の発生の有無のみならず、癌の病期や起源を抽出するように設計及び学習されたアルゴリズムを意味し、制御部１３０によって予め格納され、周期的にアップデートされるのでありうる。

また、制御部１３０は、統合されたデータを用いて敵対的生成ネットワーク（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ、ＧＡＮ）、ＳＭＯＴＥ(Synthetic Minority Over-sampling Technique)、ＤｅｎｏｉｓｉｎｇＡｕｔｏｅｎｃｏｄｅｒ(デノイジングオートエンコーダ)などの多様なサンプル拡張方法を用いてサンプルを数十から数百倍まで膨らませ、人工知能及びディープラーニングの分類器で癌の有無を判別できる。

また、制御部１３０は、生成された統合されたデータを用い、敵対的生成ネットワーク（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ、ＧＡＮ）、ＳＭＯＴＥ、ＤｅｎｏｉｓｉｎｇＡｕｔｏｅｎｃｏｄｅｒなどの多様なサンプル拡張方法を用いてサンプルを数十から数百倍まで膨らませ、人工知能及びディープラーニングの分類器でもって癌の病期及び起源を判別することもできる。

このような構成により、本発明は、癌に影響を及ぼし得る生物学的分析物に、人工知能学習接近法を導入して、癌の解析と癌の起源、病期まで予測し、癌を早期発見して死亡率を下げるだけでなく、癌の治療及び予後予測も行って医療費を格段に低減させるのに有用な方法を提供できる。

また、本発明は、０.５Ｘの低い深さでも癌を予測する方法と装置により低コストで国民全体を対象に可能なサービスを提供することで、人類の幸せと福祉に貢献できる。

以下、添付の図面を参照し、本発明に係る実験結果を説明する。

癌判定の精度を詳察すると、以下の通りである。

１）断片のサイズ
断片のサイズは、従来に報告されているものとは異なり、１５５ｂｐ以下と全体の比較において、断片のサイズから類推できる全長を用いる結果が、中心値で、より良い結果を示した。

図６を参照すると、図６は、全領域を用いるＢａｓｉｃと、１５５ｂｐまでを用いるグラフとの比較図である。

図３のパターンの差において、１５５ｂｐのみをキャプチャした結果や、１５５ｂｐ以下（７４ｂｐ～１５５ｂｐ）＋１８０ｂｐ以上（１８０ｂｐ～２２０ｂｐ）の結果が、７５ｂｐ～４４０ｂｐの全体を用いた結果よりも高くなかった。

本実験は、全領域（７５ｂｐ～４４０ｂｐ）を有する結果が、より有益であることを確認した。

それぞれのアルゴリズムを比較したのであり、ＳＧＤ（ＳｔｏｃｈａｓｔｉｃＧｒａｄｉｅｎｔＤｅｓｃｅｎｔ)、ＲＦ（ＲａｎｄｏｍＦｏｒｅｓｔ)、ＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅｓ）、ＤＴＣ（ＤｅｃｉｓｉｏｎＴｒｅｅＣｌａｓｓｉｆｉｅｒ)、ＫＮＮ（Ｋ-ｎｅａｒｅｓｔＮｅｉｇｈｂｏｒｓ)、ＧＮＢ（ＧａｕｓｓｉａｎＮａｉｖｅＢａｙｅｓ)、ＸＧＢ(ｅＸｔｒａＧｒａｄｉｅｎｔＢｏｏｓｔ)の順である。すなわち、図６～９及び１１～１３中の各グラフにて、左から順に、これら７種のアルゴリズムによる結果をそれぞれ示す。なお、図５及び図１０では、２つの方式を比較するために、8対の結果を示す。

左側はＢａｓｉｃであり、右側は１５５ｂｐまでの結果である。Ｂａｓｉｃの全ての結果は、コピー数多型（ＣＮＶ、ＣｏｐｙＮｕｍｂｅｒＶａｒｉａｔｉｏｎ）を追加した結果であり、ａｃｃｕｒａｃｙの数値である。

２）ＣＮＶ、Ｆｒａｇｍｅｎｔａｔｉｏｎ、Ｐ／Ｑ-ａｒｍ領域及び分析
コピー数多型（ＣＮＶ）のデータは、５ｋｂ領域に分節化してＺ-ｓｃｏｒｅの結果データを用い、発明者の以前のＮＩＰＴ(Non-Invasive Prenatal Test; 非侵襲的出産前テスト)の韓国特許ＫＲ１０-１８１７７８５ＢとＫＲ１０-１８１７１８０Ｂの基本分析法を用いた。

図７に示されるように、１ｋｂから５ｋｂ、１ｍｂなどの結果はほぼ類似しており、ＲａｎｄｏｍＦｏｒｅｓｔの結果が０.６１の中央値を有する。

Ｆｒａｇｍｅｎｔａｔｉｏｎ領域（断片の領域）は、前述した１）の結果と、図３の７５ｂｐ～４４０ｂｐの全領域を用いる数値を用いた。

Ｆｒａｇｍｅｎｔａｔｉｏｎデータの正規化過程は、１２７５個のサンプルのｐａｉｒｅｄ-ｅｎｄの長さを用いて正確な断片のサイズを決定し、大きさ別に分布の数を決定した。

全てのデータは、断片全体に対する各長さでの割合で表すか、Ｚ-ｓｃｏｒｅを用いて求めることができる。

Ｐ／Ｑ-ａｒｍのそれぞれの領域は、下記表１のように、中心体を中心に上側はＰ-ａｒｍ領域、下側はＱ-ａｒｍに分類する一般的な基準に従っており、ＵＣＳＣＧｅｎｏｍｅＢｒｏｗｓｅｒ(genome browser hosted by the University of California, Santa Cruz)で一般的に分類して配布する基準に従った。

＜表１＞中心体（ｃｅｎｔｒｏｍｏｒｅ）を中心に選択したＰ-ａｒｍ及びＱ-ａｒｍの領域

Ｐ-ａｒｍのｐａｉｒｅｄ-ｅｎｄの長さの分布を求め、１００ｂｐ～４００ｂｐの領域のみ用い、それぞれの領域とＰ／Ｑ-armの割合を用いて分析に用いた。

図９においてＰ／Ｑ-armの割合を用いたデータ(ＣＮＶ＋Ｆｒａｇｍｅｎｔａｔｉｏｎ＋P/Q-arm)の結果から、従来のＢａｓｉｃ（ＣＮＶ＋Ｆｒａｇｍｅｎｔａｔｉｏｎ）の結果（図８）よりも良い結果が得られ、ＸＧＢの結果から、従来よりは０.２程度向上した０.７８の中心値が得られた。また、全般的に中心値が向上する結果が確認できた。

３）Ｂａｓｉｃにミトコンドリアを追加した分析及び結果
Ｂａｓｉｃ（ＣＮＶ＋Ｆｒａｇｍｅｎｔａｔｉｏｎ）のデータに加え、癌において有意な結果を示すミトコンドリアのコピー数多型（ＣｏｐｙＮｕｍｂｅｒＶａｒｉａｔｉｏｎｓ）を反映するために、全体に比べてミトコンドリアの数がどのようになるかを反映するために、（ミトコンドリアの平均ｒｅａｄｄｅｐｔｈ）／（常染色体の平均ｒｅａｄｄｅｐｔｈ）を用いて計算した。

図１０の結果において従来のデータとは異なり、３～５％の精度(ａｃｃｕｒａｃｙ)の向上があった。ＲＦの結果は中心値が８０％であり、最高８３％精度の結果もあった。ＸＧＢも類似する結果であるが、全般的に中心値と変化量の分布が少ないＲＦが良い結果を示した。

図１０は、ＳＧＤ（ＳｔｏｃｈａｓｔｉｃＧｒａｄｉｅｎｔＤｅｓｃｅｎｔ; 確率的勾配降下法）、ＲＦ（ＲａｎｄｏｍＦｏｒｅｓｔ; ランダムフォレスト）、ＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅs; サポートベクターマシン）、ＤＴＣ（ＤｅｃｉｓｉｏｎＴｒｅｅＣｌａｓｓｉｆｉｅｒ）、ＫＮＮ（Ｋ-ｎｅａｒｅｓｔＮｅｉｇｈｂｏｒｓ; k近傍法)、ＧＮＢ（ＧａｕｓｓｉａｎＮａｉｖｅＢａｙｅｓ; ガウシアンナイーブベイズ)、ＸＧＢ（ｅＸｔｒａＧｒａｄｉｅｎｔＢｏｏｓｔ; XGBoost）の順であり、ＢａｓｉｃとＢａｓｉｃＰｌｕｓＭｉｔｏ(Ｂａｓｉｃにミトコンドリアを追加)の結果が対で順に示されており、１０ｆｏｌｄの結果を１０回行った結果である。

＜表２＞

９８％の特異性(specificities)でＤＥＬＦＩは値をそのまま引用し、ＳｍａｒｔＣｆＤＮＡはＲＦ（ＲａｎｄｏｍＦｏｒｅｓｔ; ランダムフォレスト）の結果である。

４）それぞれ癌の起源（Ｏｒｉｇｉｎ）を判断する能力
本発明は、正常と癌とを区分した後に最も重要なのは、どのような癌であるかを判断することであり、図１１及び図１２を参照すれば、それぞれのデータセットで学習されたモジュールを用いて、乳癌、大腸癌、膵臓癌、胃癌、肺癌、卵巣癌、胆道癌について判断できる。

ＲＦを用いる場合、肺癌の精度は８５％であるが、８６％、９０％、８９％、９２％、８６％、８９％、または９３％の区分力があり得るのであり、大半の癌について９０％以上の精度で癌の起源（Ｏｒｉｇｉｎ）を判断しうる。

図１３を参照すると、本発明の７つの癌を区分する能力は、ＲＦで６０％（９５％ＣＩで５５～６５％）、ＸＧＢ（９５％ＣＩで５７～６６％）で６３％であり、上位２つの癌を予測する能力は、ＲＦとＸＧＢが何れも７８％である。

前述した癌診断装置の動作及び機能は、癌診断方法と同一または同様に類推適用されうる。

前記のような本発明によれば、本発明は、最適化された方法により癌の有無の診断及び癌の起源並びに病期を判別できる癌診断方法を提供できる。

また、本発明は、従来に比べて精度が高くなった癌診断方法を提供できる。

以上にて前述した本発明の一実施例に係る方法は、ハードウェアであるサーバと結合されて実行されるために、プログラム（又はアプリケーション）により具現されて媒体に格納されうる。

前述したプログラムは、前記コンピュータがプログラムを読み込んでプログラムに具現した前記方法を実行させるために、前記コンピュータのプロセッサ（ＣＰＵ）が前記コンピュータの装置インターフェースを介して読み取られるＣ、Ｃ++、ＪＡＶＡ（登録商標）、機械語などのコンピュータ言語でコード化されたコード（Ｃｏｄｅ）を含むことができる。このようなコードは、前記方法を実行するのに必要な機能を定義した関数などと関連する機能的なコード（ＦｕｎｃｔｉｏｎａｌＣｏｄｅ）を含むことができ、前記機能を前記コンピュータのプロセッサが所定の手順通りに実行させるのに必要な実行手順関連の制御コードを含むことができる。また、このようなコードは、前記機能を前記コンピュータのプロセッサが実行させるのに必要な追加の情報やメディアが、前記コンピュータの内部又は外部メモリのどの位置（アドレス）で参照されるべきかに対する、メモリ参照関連のコードを更に含むことができる。更に、前記コンピュータのプロセッサが前記機能を実行させるために、遠隔（Ｒｅｍｏｔｅ）にある任意の他のコンピュータやサーバなどとの通信が必要な場合、コードは、前記コンピュータの通信モジュールを用いて、遠隔にある任意の他のコンピュータやサーバなどと、どのように通信すべきか、通信時に如何なる情報やメディアを送受信すべきかなどに対する通信関連のコードを更に含むことができる。

前記格納される媒体は、レジスタ、キャッシュ、メモリなどといった、短い時間の間だけデータを格納する媒体ではなく、半永久的にデータを格納し、機器により読み取り（ｒｅａｄｉｎｇ）可能な媒体を意味する。具体的には、前記格納される媒体の例としては、ＲＯＭ、ＲＡＭ、ＣＤ-ＲＯＭ、磁気テープ、フロッピーディスク、光データ格納装置などがあるが、これに限らない。即ち、前記プログラムは、前記コンピュータが接続可能な多様なサーバ上の多様な記録媒体、又はユーザの前記コンピュータ上の多様な記録媒体に格納されうる。また、前記媒体は、ネットワークで接続されたコンピュータシステムに分散し、分散方式で、コンピュータが読み取れるコードが格納されることができる。

本発明の実施例と関連して説明された方法やアルゴリズムの段階は、ハードウェアに直接具現されるか、ハードウェアによって実行されるソフトウェアモジュールに具現されるか、それらの結合によって具現されうる。ソフトウェアモジュールは、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＥＰＲＯＭ（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲＯＭ）、ＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲＯＭ）、フラッシュメモリ（ＦｌａｓｈＭｅｍｏｒｙ）、ハードディスク、着脱型ディスク、又は本発明の属する技術分野において周知となっている任意の形態のコンピュータ読み取り可能な記録媒体に常に存在することもできる。

以上、添付の図面を参照して本発明の実施例を説明したが、本発明が属する技術分野における通常の技術者は、本発明が、その技術的思想や必須の特徴を変更することなく、他の具体的な形態に実施され得るということにつき理解できるはずである。従って、以上で述べた実施例はあらゆる面で例示的なものであり、制限的ではないものとして理解すべきである。

Claims

装置により行われるリキッドバイオプシーデータを用いた癌診断方法において、
ａ）血液より抽出された血漿からｃｔＤＮＡの配列情報（ｓｅｑｕｅｎｃｅｉｎｆｏｒｍａｔｉｏｎ）を獲得し、獲得された配列情報に基づいて染色体の断片のサイズ（ｆｒａｇｍｅｎｔｓｉｚｅ）及びコピー数多型（ＣｏｐｙＮｕｍｂｅｒＶａｒｉａｔｉｏｎｓ）を抽出する段階と、
ｂ）前記獲得された配列情報を用いてＰ-ａｒｍ及びＱ-ａｒｍの断片のサイズを抽出する段階と、
ｃ）前記獲得された配列情報を用いてミトコンドリアのコピー数多型を抽出する段階と、
ｄ）前記染色体の断片のサイズ、コピー数多型、Ｐ-ａｒｍの断片のサイズ、Ｑ-ａｒｍの断片のサイズ及びミトコンドリアのコピー数多型のうちの少なくとも１つを、既に学習されたアルゴリズムの入力値として入力し、癌が発生したか否かを出力値として出力する段階と、
ｅ）前記染色体の断片のサイズ、コピー数多型、Ｐ-ａｒｍの断片のサイズ、Ｑ-ａｒｍの断片のサイズ及びミトコンドリアのコピー数多型のうちの少なくとも１つを、人工知能アルゴリズムの入力値として入力し、癌の病期及び起源を出力値として出力する段階と、
を含む癌診断方法。
前記ａ）段階は、
前記血漿からｃｔＤＮＡの配列情報を獲得し、ヒトの参照データ（ｒｅｆｅｒｅｎｃｅｄａｔａ）を用いて配列を整理する段階と、
前記配列情報から、配列のクオリティ情報、マッピング情報及び重複情報を除去して整理する段階と、
前記整理された配列情報を用いて常染色体（ａｕｔｏｓｏｍｅ）及び性染色体（ｓｅｘｃｈｒｏｍｏｓｏｍｅ）の断片のサイズを第１長さから第２長さまで抽出する段階と、
を含むことを特徴とする請求項１に記載の癌診断方法。
前記ｂ）段階は、
前記染色体の中心体（ｃｅｎｔｒｏｍｅｒｅ）を基準にＰ-ａｒｍ及びＱ-ａｒｍの断片のサイズを抽出することを特徴とする請求項２に記載の癌診断方法。
前記ａ）段階は、
前記整理された配列情報を用いて、ＧＣ含量（ＧＣ-ｃｏｎｔｅｎｔ）とマッピング率が基準値（ｃｕｔ-ｏｆｆ）以上の配列情報を抽出する段階と、
各領域（ｃｈｒｏｍｏｓｏｍａｌｒｅｇｉｏｎ）を特定の大きさ以上のビン（ｂｉｎ）領域に分けて各区間の量を正規化（ｎｏｒｍａｌｉｚａｔｉｏｎ）する段階と、
各ビン領域に対する平均と標準偏差を用いてＺ-ｓｃｏｒｅを計算する段階と、
前記Ｚ-ｓｃｏｒｅを数値化してコピー数多型を抽出する段階と、
を含むことを特徴とする請求項２に記載の癌診断方法。
前記ｃ）段階は、
ミトコンドリアのコピー数多型を計算する段階と、
常染色体の平均コピー数多型を計算する段階と、
前記ミトコンドリアのコピー数多型を前記常染色体の平均コピー数多型に割って前記ミトコンドリアのコピー数多型を抽出する段階と、
を含むことを特徴とする請求項２に記載の癌診断方法。
前記ｄ）段階において、前記既に学習されたアルゴリズムは、
ＲａｎｄｏｍＦｏｒｅｓｔ（ＲＦ）、ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ（ＳＶＭ）、ｅＸｔｒａＧｒａｄｉｅｎｔＢｏｏｓｔ（ＸＧＢ）、ＤｅｃｉｓｉｏｎＴｒｅｅＣｌａｓｓｉｆｉｅｒ（ＤTＣ）、Ｋ-ｎｅａｒｅｓｔＮｅｉｇｈｂｏｒｓ（ＫＮＮ）、ＧａｕｓｓｉａｎＮａｉｖｅＢａｙｅｓ（ＧＮＢ）、ＳｔｏｃｈａｓｔｉｃＧｒａｄｉｅｎｔＤｅｓｃｅｎｔ（ＳＧＤ）、ＬｉｎｅａｒＤｉｓｃｒｉｍｉｎａｎｔＡｎａｌｙｓｉｓ（ＬＤＡ）、ＲｉｄｇｅＲｅｇｒｅｓｓｉｏｎ、Ｌａｓｓｏ及びＥｌａｓｔｉｃｎｅｔのうちの少なくとも１つのアルゴリズムを含むことを特徴とする請求項１に記載の癌診断方法。
前記染色体の断片のサイズ及び前記Ｐ-ａｒｍと前記Ｑ-ａｒｍの割合データを統合する段階と、
常染色体のコピー数多型及び前記ミトコンドリアの割合データを統合する段階を更に含み、
前記ｄ）段階及びｅ）段階は、前記統合された割合データを入力値として入力することを特徴とする請求項１に記載の癌診断方法。
リキッドバイオプシーデータを用いた癌診断装置において、
血液より抽出された血漿からｃｔＤＮＡの配列情報を獲得し、獲得された配列情報に基づいて染色体の断片のサイズ及びコピー数多型を抽出し、前記獲得された配列情報を用いてＰ-ａｒｍ及びＱ-ａｒｍの断片のサイズを抽出し、前記獲得された配列情報を用いてミトコンドリアのコピー数多型を抽出するＤＮＡ分析部と、
前記染色体の断片のサイズ、コピー数多型、Ｐ-ａｒｍの断片のサイズ、Ｑ-ａｒｍの断片のサイズ及びミトコンドリアのコピー数多型のうちの少なくとも１つを、既に学習されたアルゴリズムの入力値として入力し、癌が発生したか否かを出力値として出力する制御部とを含み、
前記制御部は、
前記染色体の断片のサイズ、コピー数多型、Ｐ-ａｒｍの断片のサイズ、Ｑ-ａｒｍの断片のサイズ及びミトコンドリアのコピー数多型のうちの少なくとも１つを人工知能アルゴリズムの入力値として入力し、癌の病期及び起源を出力値として出力することを特徴とする癌診断装置。
前記ＤＮＡ分析部は、
前記血漿からｃｔＤＮＡの配列情報を獲得し、ヒトの参照データを用いて配列を整理し、
前記配列情報から、配列のクオリティ情報、マッピング情報及び重複情報を除去して整理し、
前記整理された配列情報を用いて、常染色体及び性染色体の断片のサイズが第１長さから第２長さまで抽出することを特徴とする請求項８に記載の癌診断装置。
前記ＤＮＡ分析部は、
前記染色体の中心体を基準にＰ-ａｒｍ及びＱ-ａｒｍの断片のサイズを抽出することを特徴とする請求項９に記載の癌診断装置。
前記ＤＮＡ分析部は、
前記整理された配列情報を用いてＧＣ含量とマッピング率が基準値以上の配列情報を抽出し、
各領域を特定の大きさ以上のビン（ｂｉｎ）領域に分けて各区間の量を正規化し、
各ビン領域に対する平均と標準偏差を用いてＺ-ｓｃｏｒｅを計算し、
前記Ｚ-ｓｃｏｒｅを数値化してコピー数多型を抽出することを特徴とする請求項９に記載の癌診断装置。
前記ＤＮＡ分析部は、
ミトコンドリアのコピー数多型を計算し、常染色体の平均コピー数多型を計算し、
ミトコンドリアのコピー数多型を常染色体の平均コピー数多型で割ってミトコンドリアのコピー数多型を抽出することを特徴とする請求項９に記載の癌診断装置。
前記既に学習されたアルゴリズムは、
ＲａｎｄｏｍＦｏｒｅｓｔ（ＲＦ）、ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ（ＳＶＭ）、ｅＸｔｒａＧｒａｄｉｅｎｔＢｏｏｓｔ（ＸＧＢ）、ＤｅｃｉｓｉｏｎＴｒｅｅＣｌａｓｓｉｆｉｅｒ（ＤTＣ）、Ｋ-ｎｅａｒｅｓｔＮｅｉｇｈｂｏｒｓ（ＫＮＮ）、ＧａｕｓｓｉａｎＮａｉｖｅＢａｙｅｓ（ＧＮＢ）、ＳｔｏｃｈａｓｔｉｃＧｒａｄｉｅｎｔＤｅｓｃｅｎｔ（ＳＧＤ）、ＬｉｎｅａｒＤｉｓｃｒｉｍｉｎａｎｔＡｎａｌｙｓｉｓ（ＬＤＡ）、ＲｉｄｇｅＲｅｇｒｅｓｓｉｏｎ、Ｌａｓｓｏ及びＥｌａｓｔｉｃｎｅｔのうちの少なくとも１つのアルゴリズムを含むことを特徴とする請求項８に記載の癌診断装置。
前記制御部は、
前記染色体の断片のサイズ及びＰ-ａｒｍとＱ-ａｒｍの割合データを統合し、
常染色体のコピー数多型及びミトコンドリアの割合データを統合し、
前記統合された割合データを入力値として入力することを特徴とする請求項８に記載の癌診断装置。