JP2023504139A - 人工知能ベースの染色体異常検出方法 - Google Patents

人工知能ベースの染色体異常検出方法 Download PDF

Info

Publication number
JP2023504139A
JP2023504139A JP2022532058A JP2022532058A JP2023504139A JP 2023504139 A JP2023504139 A JP 2023504139A JP 2022532058 A JP2022532058 A JP 2022532058A JP 2022532058 A JP2022532058 A JP 2022532058A JP 2023504139 A JP2023504139 A JP 2023504139A
Authority
JP
Japan
Prior art keywords
nucleic acid
artificial intelligence
value
chromosome
values
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022532058A
Other languages
English (en)
Inventor
チャンソク キ
ウンヘ チョ
ジュンナム イ
テリム イ
ジンモ アン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GC Genome Corp
Original Assignee
GC Genome Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GC Genome Corp filed Critical GC Genome Corp
Publication of JP2023504139A publication Critical patent/JP2023504139A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B10/00ICT specially adapted for evolutionary bioinformatics, e.g. phylogenetic tree construction or analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis

Abstract

本発明は、人工知能ベースの染色体異常検出方法に関し、より具体的には、生体試料から核酸を抽出し、配列情報を取得して整列した核酸断片に基づいてベクトル化されたデータを生成した後、学習された人工知能モデルに入力し、計算された値と基準値とを比較する方法を用いる人工知能ベースの染色体異常検出方法に関する。本発明に係る人工知能ベースの染色体異常検出方法は、既存のリード個数(read count)ベースで染色体量を決定する段階を利用する方式又は整列されたリード(reads)間の距離概念を利用する検出方法などにおいてリードに関連した値として個々の定形化された値を用いることに比べて、ベクトル化されたデータを生成してAIアルゴリズムを用いて分析するので、リードカバレッジが低くとも類似の効果を発揮することができ、有用である。【選択図】 図1

Description

本発明は、人工知能ベースの染色体異常検出方法に関し、より具体的には、生体試料から核酸を抽出し、配列情報を取得して整列したリードに基づいてベクトル化されたデータを生成した後、学習された人工知能モデルに入力して計算された値と基準値とを比較する方法を用いた人工知能ベースの染色体異常検出方法に関する。
染色体異常(chromosomal abnormality)は、遺伝的欠陥及び腫瘍疾患に関連している。染色体異常は、染色体の欠失又は重複、染色体のうち一部の欠失又は重複、又は染色体内の損傷(break)、転位(translocation)、又は逆位(inversion)を意味することもある。染色体異常は、遺伝的バランス障害の一つであって、胎児死亡又は肉体及び精神状態の深刻な欠陥及び腫瘍疾患を誘発する。例えば、ダウン症候群(Down’s syndrome)は、21番染色体が3個存在(trisomy 21)して誘発される染色体数異常のありふれた形態である。エドワード症候群(Edwards syndrome)(trisomy 18)、パトウ症候群(Patau syndrome)(trisomy 13)、ターナー症候群(Turner syndrome)(XO)、及びクラインフェルター症候群(Klinefelter syndrome)(XXY)も染色体数異常に該当する。また、腫瘍患者からも染色体異常が発見される。例えば、肝癌患者(Liver Adenomas and adenocarcinomas)から4q、11q、22q領域の重複と13q領域の欠失が確認され、膵癌患者からは2p、2q、6p、11q領域の重複と6q、8p、9p、21番染色体領域の欠失が確認された。これらの領域は、腫瘍と関連した腫瘍遺伝子(Oncogene)、癌抑制遺伝子(Tumor suppressor gene)領域と関連している。
染色体異常は、核型検査(Karyotype)、FISH(Fluorescent In Situ Hybridization)を用いて検出可能である。このような検出法は、時間、努力及び正確度の側面で不利である。また、DNAマイクロアレイを染色体異常の検出に用いることができる。特に、ゲノムDNAマイクロアレイシステムは、プローブの作製が容易であり、染色体の拡張された領域の他に染色体のイントロン領域における染色体異常も検出できるが、染色体内の位置付け及び機能が確認されたDNA断片を多数作製することは困難である。
近年、次世代シーケンシング技術が染色体数異常分析に用いられている(Park,H.,Kim et al.,Nat Genet 2010,42,400-405.;Kidd,J.M.et al.,Nature 2008,453,56-64)。しかしながら、この技術は、染色体数異常分析のための高いカバレッジ読み(coverage reading)を要求し、CNV測定は、独立した立証(validation)も必要とする。このため、非常に高コストとなり、結果が理解し難いため、その当時では一般の遺伝子検索分析として不適であった。
一方、胎児染色体異常に対する既存の産前検査項目には、超音波検査、血中標識子検査、羊水検査、絨毛膜検査、経皮臍帯血検査などがある(Mujezinovic F,et al.Obstet Gynecol.2007,110(3):687-94.)。このうち、超音波検査と血中標識子検査は選別検査に、羊水染色体検査は確診検査に分類する。非侵襲的方法である超音波検査及び血中標識子検査は、胎児に対する直接の試料採取をせず、安全な方法であるが、検査の敏感度が80%以下と劣っている(ACOG Committee on Practice Bulletins.2007)。侵襲的方法である羊水検査、絨毛膜検査、経皮臍帯血検査は、胎児染色体異常を確診できるが、侵襲的医療行為による胎児の消失確率が存在するという短所がある。
1997年にLo等が母体血漿及び血清から、胎児由来遺伝物質のY染色体塩基配列分析に成功し、母体内胎児遺伝物質を産前検査に利用可能になった(Lo YM,et al.Lancet.1997,350(9076):485-7)。母体血液中の胎児遺伝物質は、胎盤再形成過程中に細胞死過程を経た栄養膜細胞の一部分が物質交換機序によって母体血液に入ったものであり、実際には胎盤に由来し、これをcff DNA(cell-free fetal DNA)と定義する。
cff DNAは、早ければ胚移植18日目から、遅くとも37日目には大部分の母体血液から発見される。cff DNAは、300bp以下の短い鎖であり、母体血液中に少量で存在する特徴を有するので、これを胎児染色体異常検出に適用する目的に、次世代塩基配列分析手法(NGS)を用いた大規模並列塩基分析技術が用いられている。大規模並列塩基分析技術を用いた非侵襲的胎児染色体異常検出性能は、染色体によって90~99%以上の検出敏感度を示しているが、偽陽性及び偽陰性の結果が1~10%に及んでおり、これに対する矯正技術が必要な現状である(Gil MM,et al.Ultrasound Obstet Gynecol.2015,45(3):249-66)。
一方、工学分野で頻繁に接し得る入力パターンを特定のグループに分類する問題を解決する方案として、人間が持つ効率的なパターン認識方法を実際のコンピュータに適用させようとする研究が活発に行われている。
様々なコンピュータ適用研究のうち、効率的なパターン認識作用が起きる人間の頭脳細胞構造を工学的にモデリングした人工神経網(Artificial Neural Network)に関する研究がある。入力パターンを特定のグループに分類する問題を解決するために、人工神経網は、人間が有する学習という能力を摸倣したアルゴリズムを利用する。このアルゴリズムを用いて入力パターンと出力パターンとの間の写像(Mapping)を人工神経網が生成することができ、これを、人工神経網に学習能力がある、と表現する。また、人工神経網は、学習された結果に基づき、学習に使用されなかった
入力パターンに対して比較的に正しい出力を生成できる一般化能力がある。学習及び一般化という2つの代表的な性能のため、人工神経網は、既存の順次的なプログラミング方法によってはなかなか解決し難い問題に適用されている。人工神経網はその使用範囲が広いので、パターン分類問題、連続写像、非線形システム識別、非線形制御及びロボット制御分野などに活発に応用されている。
人工神経網とは、連結線で連結された数多くの人工ニューロンを用いて生物学的なシステムの計算能力を摸倣するソフトウェア又はハードウェアによって具現された演算モデルを意味する。人工神経網では、生物学的なニューロンの機能を単純化させた人工ニューロンを使用する。そして、連結強度を有する連結線を介して相互連結させ、人間の認知作用又は学習過程を行うことになる。連結強度は、連結線が有する特定値であり、連結加重値ともいう。人工神経網の学習は、教師あり学習と教師なし学習とに分けられる。教師あり学習とは、入力データとそれに対応する出力データを共に神経網に入れ、入力データに対応する出力データが出力されるように連結線の連結強度を更新させる方法である。代表的な学習アルゴリズムには、デルタ規則(Delta Rule)と誤り逆伝播学習(Back propagation Learning)がある。教師なし学習とは、目標値無しで入力データのみを用いて人工神経網が自ら連結強度を学習させる方法である。教師なし学習は、入力パターン間の相関関係によって連結加重値を更新させて行く方法である。
機械学習で適用される多くのデータは、複雑化し次元が増えることにより、次元の呪い(curse of dimensionality)の問題が発生する。すなわち、これは、必要なデータの次元が無限に行くほど任意の2点間の距離が無限大に発散し、データの存在量、すなわち密度が高次元の空間では多少低くなるため、データの特性(Feature)を正しく反映できなくなってしまうことをいう(Richard Bellman,Dynamic Programming,2003,chapter 1)。近年、深層神経網(deep learning)の発達は、入力層(input layer)と出力層(output layer)との間に隠れた層(hidden layer)がある構造であって、入力層から伝達される変数値の線形結合(linear combination)を非線形関数で処理しながら、イメージ、映像、信号データなどの高次元のデータにおける分類器(classifier)の性能を大きく向上させたと報告されている(Hinton,Geoffrey,et al.,IEEESignal Processing Magazine Vol.29.6,pp.82-97,2012)。
このような人工神経網を用いてバイオ分野に活用する様々な特許(KR10-2017-0185041、KR10-2017-0144237、KR10-2018-124550)が存在しているが、cffDNAの配列分析情報に基づき、人工神経網分析を用いて染色体異常を検出する方法についての研究は足りない実情である。
そこで、本発明者らは、上記の問題点を解決し、高い敏感度及び正確度の人工知能ベースの染色体異常検出方法を開発するために鋭意努力した結果、染色体領域に整列されるリードに基づき、ベクトル化されたデータを生成し、これを学習された人工知能モデルで分析する場合に、高い敏感度及び正確度で染色体異常が検出できるということを確認し、本発明を完成するに至った。
本発明の目的は、人工知能ベースの染色体異常検出方法を提供することである。
本発明の他の目的は、人工知能ベースの染色体異常判定装置を提供することである。
本発明のさらに他の目的は、上記の方法で染色体の異常を判定するプロセッサによって実行されるように構成される命令を含むコンピュータ可読記憶媒体を提供することである。
上記の目的を達成するために、本発明は、a)生体試料から核酸を抽出して配列情報を取得する段階;b)取得した配列情報(reads)を標準染色体配列データベース(reference genome database)に整列(alignment)する段階;c)前記整列された配列情報(reads)に基づき、ベクトル化されたデータを生成する段階;d)生成された前記ベクトル化されたデータを、学習された人工知能モデルに入力して分析し、基準値(cut-off value)と比較して染色体異常の有無を判定する段階を含む、人工知能ベースの染色体異常検出方法を提供する。
本発明は、また、生体試料から核酸を抽出して配列情報を解読する解読部;解読された配列を標準染色体配列データベースに整列する整列部;整列された配列情報(read)に基づき、ベクトル化されたデータを生成するデータ生成部;生成されたベクトル化されたデータを、学習された人工知能モデルに入力して分析し、染色体異常の有無を判定する染色体異常判定部を含む、人工知能ベースの染色体異常検出装置を提供する。
本発明は、また、コンピュータ可読記憶媒体であって、染色体異常を検出するプロセッサによって実行されるように構成される命令を含むが、a)生体試料から核酸を抽出して配列情報を取得する段階;b)取得した配列情報(reads)を標準染色体配列データベース(reference genome database)に整列(alignment)する段階;c)前記整列された配列情報(reads)に基づき、ベクトル化されたデータを生成する段階;d)生成された前記ベクトル化されたデータを、学習された人工知能モデルに入力して分析し、基準値(cut-off value)と比較して染色体異常の有無を判定する段階により染色体異常を検出するプロセッサによって実行されるように構成される命令を含む、コンピュータ可読記憶媒体を提供する。
本発明の人工知能ベース染色体異常を判定するための全体フローチャートである。
本発明の一実施例によって生成したGCプロットの例示であり、X軸は、区間別染色体を表し、Y軸は、各区間に該当する核酸断片間の距離値を意味する。
(A)は、本発明の一実施例によって生成した正常サンプルのGCWプロットの例示であり、(B)は、21番染色体が3個であるサンプルのGCWプロットの例示であり、X軸は染色体、Y軸は染色体に該当する核酸断片間の距離値をZ点数に変換したものを意味する。
(A)は、本発明の一実施例によって生成した正常サンプルのGCWプロットの例示であり、(B)は21番染色体が3個であるサンプルのGCWプロットの例示であり、X軸は染色体、Y軸は染色体に該当するリードの数をZ点数に変換したものを意味する。
(A)は、本発明の一実施例によって、核酸断片間の距離に基づいて生成したGCプロットイメージデータを学習したディープラーニングモデルに対してtrisomy 21判定の正確度を確認した結果であり、(B)は、各データセット別確率分布を示した結果である。
(A)は、本発明の一実施例によって、核酸断片間の距離に基づいて生成したGCプロットイメージデータを学習したディープラーニングモデルに対してtrisomy 18判定の正確度を確認した結果であり、(B)は、各データセット別確率分布を示した結果である。
(A)は、本発明の一実施例によって、核酸断片間の距離に基づいて生成したGCプロットイメージデータを学習したディープラーニングモデルに対してtrisomy13判定の正確度を確認した結果であり、(B)は、各データセット別確率分布を示した結果である。
上パネルは、本発明の一実施例によって、核酸断片間の距離に基づいて生成したGCWプロットイメージデータを学習したディープラーニングモデルに対してtrisomy 21判定の正確度を確認した結果であり、下パネルは、各データセット別確率分布を示した結果である。
左パネルは、図8で学習したディープラーニングモデルで18番染色体の異常を検出した結果の正確度を確認した結果であり、右パネルは、確率分布を示した結果である。
左パネルは、図8で学習したディープラーニングモデルで13番染色体の異常を検出した結果の正確度を確認した結果であり、右パネルは、確率分布を示した結果である。
左パネルは、図8で学習したディープラーニングモデルで21番染色体の異常を検出するためにダウンサンプリングを試みた結果の正確度を確認した結果であり、右パネルは、確率分布を示した結果である。
上パネルは、本発明の一実施例によって、核酸断片間の距離を計算した値の逆数値に基づいて生成したGCWプロットイメージデータを学習したディープラーニングモデルに対してtrisomy 21判定の正確度を確認した結果であり、下パネルは、各データセット別確率分布を示した結果である。
上パネルは、図12で学習したディープラーニングモデルで18番染色体の異常を検出した結果の正確度を確認した結果であり、下パネルは、確率分布を示した結果である。
上パネルは、図12で学習したディープラーニングモデルで13番染色体の異常を検出した結果の正確度を確認した結果であり、下パネルは、確率分布を示した結果である。
特に断りのない限り、本明細書で使われる全ての技術的及び科学的用語は、本発明の属する技術の分野における熟練した専門家によって通常理解されるのと同じ意味を有する。一般に、本明細書における命名法及び以下に記述する実験方法は、本技術分野でよく知られており、通常使われるものである。
本発明では、サンプルから取得した配列分析データを参照遺伝体に整列した後、整列された核酸断片に基づいてベクトル化されたデータを生成した後、学習された人工知能モデルでDPI値を計算して基準値と比較して染色体異常を検出する場合に、高い敏感度及び正確度で染色体異常を検出できるということを確認しようとした。
すなわち、本発明の一実施例では、血液から抽出したDNAをシーケンシングした後、参照染色体に整列した後、核酸断片間の距離又は量を一定の染色体区間別に計算し、各遺伝領域をX軸にし、核酸断片間の距離又は量をY軸にするベクトル化されたデータを生成した後、それをディープラーニングモデルに学習させてDPI値を計算し、DPI値が基準値以上の場合に染色体異常があると決定する方法を開発した(図1)
したがって、本発明は、一観点において、
a)生体試料から核酸を抽出して配列情報を取得する段階;
b)取得した配列情報(reads)を標準染色体配列データベース(reference genome database)に整列(alignment)する段階;
c)前記整列された核酸断片(fragments)に基づき、ベクトル化されたデータを生成する段階;
d)生成された前記ベクトル化されたデータを、学習された人工知能モデルに入力して分析し、基準値(cut-off value)と比較して染色体異常の有無を判定する段階、を含む、人工知能ベースの染色体異常検出方法に関する。
本発明において、前記核酸断片は、生体試料から抽出した核酸の断片であればいずれも使用可能であるが、好ましくは、細胞遊離核酸又は細胞内核酸の断片であってよい。ただし、これに限定されるものではない。
本発明において、前記核酸断片は、直接に配列分析する、次世代塩基配列分析によって配列分析する、又は非特異的全長遺伝体増幅(non-specific whole genome amplification)によって配列分析して得たものであることを特徴とし得る。
本発明において、前記核酸断片は、次世代塩基配列分析を利用する場合にはリードを意味できる。
本発明において、用語“染色体の異常”は、染色体に発生する様々な変異を意味するが、大きく、数異常、構造異常、微細欠失、及び染色体不安定性などに区分できる。
染色体の数異常は、染色体の個数に異常が発生する場合であり、例えば、ダウン症候群(Down Syndrome,21番目染色体が1個さらに多くて全染色体の数が47個)、ターナー症候群(Turner Syndrome、単一Xを有し、染色体の数が45個)、及びクラインフェルター症候群(Klinefelter Syndrome,XXYY、XXXY、XXXXYなどの染色体数を有する)のように、全染色体の個数である23対46個から異常が発生するあらゆる場合を含むことができる。
染色体の構造異常は、欠失、重複、逆位、転座などの、染色体の個数には変化がないが、染色体の構造に変化が発生するあらゆる場合を意味する。例えば、5番染色体の一部分が欠失(猫泣き症候群)、7番染色体の一部分が欠失(ウィリアムズ症候群)、12番染色体の一部分が重複(ウォルフヒルシュホーン症候群)、9番と22番染色体との転座(慢性骨髄白血病)などが挙げられ、腫瘍患者から発見される一部の染色体領域の微細重複と微細欠失も含まれてよい。ただし、上述の内容に限定されるものではない。
本発明において、
前記a)段階は、
(a-i)血液、精液、膣細胞、毛髪、唾液、尿、口腔細胞、胎盤細胞又は胎児細胞を含む羊水、組織細胞及びそれらの混合物から核酸を得る段階;
(a-ii)採取された核酸から塩析方法(salting-out method)、カラムクロマトグラフィー方法(column chromatography method)又はビーズ方法(beads method)を用いてタンパク質、脂肪、及びその他残余物を除去し、精製された核酸を得る段階;
(a-iii)精製された核酸又は酵素的切断、粉砕、水圧切断方法(hydroshear method)で無作為断片化(random fragmentation)された核酸に対して、シングルエンドシーケンシング(single-end sequencing)又はペアエンドシーケンシング(pair-end sequencing)ライブラリー(library)を作製する段階;
(a-iv)作製されたライブラリーを次世代シークエンサー(next-generation sequencer)に反応させる段階;及び
(a-v)次世代シークエンサーで核酸の配列情報(reads)を取得する段階;を含むことを特徴とし得る。
本発明において、前記次世代シークエンサー(next-generation sequencer)は、当業界に公知の任意のシーケンシング方法で用いられてよい。選択方法によって分離された核酸のシーケンシングは、典型的には次世代シーケンシング(NGS)を用いて行われる。次世代シーケンシングは、個々の核酸分子又は高度に類似な方式で個々の核酸分子に対してクローンで拡張されたプロキシのうち一つのヌクレオチド配列を決定する任意のシーケンシング方法を含む(例えば、10個以上の分子が同時にシーケンシングされる。)。一実施形態において、ライブラリー内の核酸種の相対的存在比は、シーケンシング実験によって作られたデータからそれの同族配列の相対的発生数を計測することによって推定することができる。次世代シーケンシング方法は、当業界に公知されており、例えば、本明細書に援用により組み込まれた文献(Metzker,M.(2010)Nature Biotechnology Reviews 11:31-46)に記載されている。
一実施形態において、次世代シーケンシングは、個々の核酸分子のヌクレオチド配列を決定するために行われる(例えば、ヘリコスバイオサイエンス(Helicos BioSciences)のヘリスコープ遺伝子シーケンシングシステム(HeliScope Gene Sequencing system)及びパシフィックバイオサイエンスのパックバイオアールエスシステム(PacBio RS system))。他の実施形態において、シーケンシング、例えば、より少ないが、より長いリードを生成する他のシーケンシング方法に比べて、シーケンシング単位当たりに配列のより多い塩基を生成する大量並列の短いリードシーケンシング(例えば、カリフォルニア州サンディエゴに所在するイルミナインコポレイテッド(Illumina Inc.)ソレキサシーケンサー(Solexa sequencer))方法は、個々の核酸分子に対してクローンで拡張されたプロキシのヌクレオチド配列を決定する(例えば、カリフォルニア州サンディエゴに所在のイルミナインコポレイテッド(Illumina Inc.)ソレキサシーケンサー(Solexa sequencer);454ライフサイエンス(Life Sciences)(コネチカット州ブランフォードに所在)及びイオントレント(Ion Torrent))。次世代シーケンシングのための他の方法又は機械は、以下に制限されるものではないが、454ライフサイエンス(Life Sciences)(コネチカット州ブランフォードに所在)、アプライドバイオシーステムズ(カリフォルニア州フォスターシティに所在;SOLiDシーケンサー)、ヘリコスバイオサイエンスコポーレーション(マサチューセッツ州カンブリッジに所在)、及びエマルジョン及びマイクロ流動シーケンシング手法ナノ点滴(例えば、ジヌバイオ(GnuBio)点滴)によって提供される。
次世代シーケンシングのためのプラットホームは、以下に制限されるものではないが、ロシュ(Roche)/454のゲノムシーケンサー(Genome Sequencer:GS)FLXシステム、イルミナ(Illumina)/ソレキサ(Solexa)ゲノム分析器(Genome Analyzer:GA)、ライフ(Life)/APGのサポートオリゴ(Support Oligonucleotide Ligation Detection:SOLiD)システム、ポロネーター(Polonator)のG.007システム、ヘリコスバイオサイエンスのヘリスコープ遺伝子シーケンシングシステム(Helicos BioSciences’ HeliScope Gene Sequencing system)及びパシフィックバイオサイエンス(Pacific Biosciences)のパックバイオアールエス(PacBio RS)システム、を含む。
NGSテクノロジーズは、例えば、鋳型製造、シーケンシング及びイメージング及びデータ分析段階のうち一つ以上を含むことができる。
鋳型製造。鋳型製造のための方法は、核酸(例えば、ゲノムDNA又はcDNA)を小さいサイズに無作為に破壊する段階、及びシーケンシング鋳型(例えば、断片鋳型又はメート対鋳型)を作る段階のような段階を含むことができる。空間的に分離された鋳型は、固体表面又は支持体に付着したり又は固定されてよいが、これは、大量のシーケンシング反応が同時に行われるようにする。NGS反応のために使用可能な鋳型の類型は、例えば、単一DNA分子に由来するクローンが増幅された鋳型及び単一DNA分子鋳型を含む。
クローンが増幅された鋳型の製造方法は、例えば、エマルジョンPCR(emulsion PCR:emPCR)及び固体相増幅を含む。
EmPCRは、NGSのための鋳型を製造するために用いることができる。典型的に、核酸断片のライブラリーが作られ、通常のプライミング部位を含有するアダプターは、断片の末端に結紮される。その後、断片は単一鎖に変性され、ビーズによって捕獲される。各ビーズは、単一核酸分子を捕獲する。増幅及びemPCRビーズの豊富化後に、多量の鋳型が付着し得、標準顕微鏡スライド(例えば、ポロネーター(Polonator))上でポリアクリルアミドゲルに固定され、アミノコーティングされたガラス表面(例えば、Life/APG;ポロネーター(Polonator))に化学的に架橋される、又は個々のピコタイタプレート(PicoTiterPlate:PTP)ウェル(例えば、ロシュ(Roche)/454)上に蒸着されるが、この際、NGS反応が行われ得る。
固体相増幅もまた用いられ、NGSのための鋳型を生成することができる。典型的に、前方及び後方プライマーは、固体支持体に共有的に付着する。増幅された断片の表面密度は、支持体上でプライマー対鋳型の比として定義される。固体相増幅は、数百万個の空間的に分離された鋳型クラスター(例えば、イルミナ/ソレキサ(Illumina/Solexa))を生成できる。鋳型クラスターの末端は、NGS反応のための通常のプライマーに混成化されてよい。
クローンで増幅された鋳型の製造のための他の方法は、例えば、多重置換増幅(Multiple Displacement Amplification:MDA)(Lasken R.S.Curr Opin Microbiol.2007;10(5):510-6)を含む。MDAは、非PCRベースのDNA増幅手法である。反応は、鋳型に対して無作為にヘキサマープライマーをアニーリングする段階、及び一定の温度で高忠実度酵素、典型的にФ29によってDNAを合成する段階を伴う。MDAは、より低い誤り頻度で巨大なサイズの生成物を作ることができる。
PCRのような鋳型増幅方法は、標的にNGSプラットホームを結合させ得るか又はゲノムの特異的領域を豊富化させ得る(例えば、エクソン)。代表的な鋳型豊富化方法は、例えば、マイクロ点滴PCR手法(Tewhey R.et al.,Nature Biotech.2009,27:1025-1031)、カスタマイズ設計されたオリゴヌクレオチドマイクロアレイ(例えば、ロシュ(Roche)/ニンブルジェン(NimbleGen)オリゴヌクレオチドマイクロアレイ)及び溶液ベースの混成化方法(例えば、分子逆位プローブ(molecular inversion probe:MIP))(Porreca G.J.et al.,Nature Methods,2007,4:931-936;Krishnakumar S.et al.,Proc.Natl.Acad.Sci.USA,2008,105:9296-9310;Turner E.H.et al.,Nature Methods,2009,6:315-316)及びビオチン化されたRNA捕獲配列(Gnirke A.et al.,Nat.Biotechnol.2009;27(2):182-9)を含む。
単一分子鋳型は、NGS反応のために利用可能な鋳型の他の類型である。空間的に分離された単一分子鋳型は、様々な方法によって固体支持体上に固定されてよい。一接近において、個々のプライマー分子は、固体支持体に共有的に付着する。アダプターは鋳型に添加され、鋳型は、その次に固定されたプライマーに混成化される。他の接近において、単一分子鋳型は、固定されたプライマーから単一鎖の単一分子鋳型をプライミングし延長させることによって固体支持体に共有的に付着する。その後、通常のプライマーは、鋳型に混成化される。さらに他の接近において、単一ポリメラーゼ分子は、プライミングされた鋳型が結合した固体支持体に付着する。
シーケンシング及びイメージング。NGSのための代表的なシーケンシング及びイメージング方法は、以下に制限されるものではないが、サイクリック可逆的終結(cyclic reversible termination:CRT)、結紮によるシーケンシング(sequencing by ligation:SBL)、単一分子添加(パイロシーケンシング(pyrosequencing))及び実時間シーケンシングを含む。
CRTは、ヌクレオチド取り込み、蛍光イメージング及び切断段階を最小限に含むサイクリック方法において可逆ターミネーターを使用する。典型的に、DNAポリメラーゼは、プライマーに鋳型塩基のヌクレオチドに対して相補的な単一の蛍光で修飾されたヌクレオチドを含める。DNA合成は、単一ヌクレオチドの添加後に終結され、含まれなかったヌクレオチドは洗浄される。含まれた標識ヌクレオチドの同一性を決定するためにイメージングが行われる。その後、切断段階において、ターミネーター/インヒビター及び蛍光染料は除去される。CRT方法を用いる代表的なNGSプラットホームは、以下に制限されるものではないが、全体内部反射蛍光(total internal reflection fluorescence:TIRF)によって検出された4色CRT方法と結合したクローンで増幅された鋳型方法を用いるイルミナ(Illumina)/ソレキサ(Solexa)ゲノム分析器(GA);及びTIRFによって検出された1色CRT方法と結合した単一分子鋳型方法を用いるヘリコスバイオサイエンス(Helicos BioSciences)/ヘリスコープ(HeliScope)を含む。
SBLは、シーケンシングのためにDNAリガーゼ及び1塩基暗号化されたプローブ又は2塩基暗号化されたプローブのいずれかを使用する。
典型的に、蛍光標識されたプローブは、プライミングされた鋳型に隣接した相補的配列に混成化される。DNAリガーゼは、プライマーに染料標識されたプローブを結紮させるために用いられる。非結紮プローブが洗浄された後、結紮されたプローブの同一性を決定するために蛍光イメージングが行われる。蛍光染料は、後続の結紮周期のために5’-PO4基を再生する切断可能なプローブを用いて除去されてよい。代案として、新しいプライマーは、古くなったプライマーが除去された後、鋳型に混成化されてよい。代表的なSBLプラットホームは、以下に制限されるものではないが、ライフ(Life)/APG/SOLiD(支持体オリゴヌクレオチド結紮検出)を含むが、これは、2塩基暗号化されたプローブを使用する。
パイロシーケンシング方法は、他の化学発光酵素でDNAポリメラーゼの活性を検出する段階に基づく。典型的に、当該方法は、1回に1つの塩基対に沿って相補的鎖を合成し、各段階で実際に添加された塩基を検出することによってDNAの単一鎖をシーケンシングさせる。鋳型DNAは固定的であり、A、C、G及びTヌクレオチドの溶液は順次に添加され、反応から除去される。光は、単にヌクレオチド溶液が、鋳型の対をなしていない塩基を補充する時にのみ生成される。化学発光信号を生成する溶液の配列は、鋳型の配列を決定させる。代表的なパイロシーケンシングプラットホームは、以下に制限されるものではないが、PTPウェルに蒸着された1百万~2百万個のビーズによるemPCRによって製造されたDNA鋳型を使用するロシュ(Roche)/454を含む。
実時間シーケンシングは、DNA合成の間に染料標識されたヌクレオチドの連続的取り込みをイメージングする段階を伴う。代表的な実時間シーケンシングプラットホームは、以下に制限されるものではないが、ホスフェート連結されたヌクレオチドが成長するプライマー鎖に含まれる時に配列情報を得るための個々の0モードウェーブガイド(zero-mode waveguide,ZMW)検出器の表面に付着したDNAポリメラーゼ分子を使用するパシフィックバイオサイエンスプラットホーム(Pacific Biosciences);蛍光共鳴エネルギー伝達(fluorescence resonance energy transfer,FRET)によるヌクレオチド取り込み後に、向上した信号を作るために付着した蛍光染料と共に遺伝子操作されたDNAポリメラーゼを使用するライフ(Life)/ビシゲン(VisiGen)プラットホーム;及び、シーケンシング反応で染料クエンチャーヌクレオチドを使用するLI-CORバイオサイエンス(Biosciences)プラットホームを含む。
NGSの他のシーケンシング方法は、以下に制限されるものではないが、ナノポアシーケンシング、混成化によるシーケンシング、ナノトランジスターアレイベースのシーケンシング、ポロニー(polony)シーケンシング、走査型電子トンネルリング顕微鏡(scanning tunneling microscopy,STM)ベースのシーケンシング、及びナノワイヤー分子センサーベースのシーケンシングを含む。
ナノポアシーケンシングは、単一核酸ポリマーから分析され得る高度に密閉した空間を提供するナノ規模ポアを通じて溶液中の核酸分子の電気泳動を伴う。ナノポアシーケンシングの代表的な方法は、例えば、文献[Branton D.et al.,Nat Biotechnol.2008;26(10):1146-53]に記載されている。
混成化によるシーケンシングは、DNAマイクロアレイを使用する非酵素的方法である。典型的に、DNAの単一プールは蛍光で標識され、公知された配列を含有するアレイに混成化される。アレイ上の与えられたスポットから混成化信号はDNA配列を確認することができる。DNA二重鎖においてDNAのうち1本のそれの相補的鎖への結合は、混成体領域が短いか又は具体化したミスマッチ検出タンパク質が存在する時に、単一塩基ミスマッチに対してすら敏感である。混成化によるシーケンシングの代表的な方法は、例えば、文献(Hanna G.J.et al.,J.Clin.Microbiol.2000;38(7):2715-21;及びEdwards J.R.et al.,Mut.Res.2005;573(1-2):3-12)に記載されている。
ポロニーシーケンシングは、ポロニー増幅及び多重単一塩基延長(FISSEQ)を通じてシーケンシングに従うことに基づく。ポロニー増幅は、ポリアクリルアミドフィルム上でインシチュでDNAを増幅させる方法である。代表的なポロニーシーケンシング方法は、例えば、米国特許出願公開第2007/0087362号に記載されている。
炭素ナノチューブ電界効果トランジスター(Carbon NanoTube Field Effect Transistor:CNTFET)のようなナノトランジスターアレイベース装置も、NGSのために用いられてよい。例えば、DNA分子は伸張され、マイクロ作製された電極によってナノチューブにわたって駆動される。DNA分子は、炭素ナノチューブ表面と順次に接触し、DNA分子とナノチューブとの間の電荷伝達に起因して各塩基からの電流流れの差異が生成される。DNAはこれらの差異を記録することによってシーケンシングされる。代表的なナノトランジスターアレイベースシーケンシング方法は、例えば、米国特許公開第2006/0246497号に記載されている。
走査型電子トンネルリング顕微鏡(STM)は、また、NGSのために用いられてよい。STMは、標本のラスター走査(raster scan)を行うピエゾ電子制御プローブを用いてそれの表面のイメージを形成する。STMは、例えば、作動器駆動可撓性ギャップと走査型電子トンネルリング顕微鏡を統合させることによって一貫した電子トンネルリングイメージング及び分光学を作る単一DNA分子の物理的特性をイメージングするために用いられてよい。STMを使用する代表的なシーケンシング方法は、例えば、米国特許出願公開第2007/0194225号に記載されている。
ナノワイヤー分子センサーで構成された分子分析装置もまたNGSのために用いられてよい。このような装置は、DNAのようなナノワイヤー及び核酸分子に配置された窒素性物質の相互作用を検出できる。分子ガイドは相互作用及び後続する検出を許容するために、分子センサーに近くの分子をガイドするために配置される。ナノワイヤー分子センサーを用いる代表的なシーケンシング方法は、例えば、米国特許出願公開第2006/0275779号に記載されている。
二重末端のシーケンシング方法がNGSのために用いられてよい。二重末端シーケンシングは、DNAのセンスとアンチセンス鎖の両方をシーケンシングするために、遮断及び未遮断プライマーを使用する。典型的に、これらの方法は、核酸の第1鎖に未遮断プライマーをアニーリングさせる段階;核酸の第2鎖に第2の遮断プライマーをアニーリングさせる段階;ポリメラーゼで第1鎖に沿って核酸を延長させる段階;第1シーケンシングプライマーを終結させる段階;第2プライマーを遮断解除(deblocking)する段階;及び、第2鎖に沿って核酸を延長させる段階を含む。代表的な二重鎖シーケンシング方法は、例えば、米国特許第7,244,567号に記載されている。
データ分析段階。
NGSリードが作られた後、それらは公知の基準配列に対して整列されるか又はデノボ組立(de novo assemble)される。
例えば、サンプル(例えば、腫瘍サンプル)から単一ヌクレオチド多形性及び構造的変異体のような遺伝的修飾を確認することは、基準配列(例えば、野生型配列)に対してNGSリードを整列することによって行われてよい。NGSに対する配列整列方法は、例えば、文献(Trapnell C.and Salzberg S.L.Nature Biotech.,2009,27:455-457]に記載されている。
デノボ組立体の例は、例えば、文献(Warren R.et al.,Bioinformatics,2007,23:500-501;Butler J.et al.,Genome Res.,2008,18:810-820;及び、Zerbino D.R.and Birney E.,Genome Res.,2008,18:821-829)に記載されている。
配列整列又は組立(assembly)は、一つ以上のNGSプラットホームからのリードデータを用いて、例えば、ロシュ(Roche)/454及びイルミナ(Illumina)/ソレキサ(Solexa)リードデータを混合して行われてよい。本発明において、前記整列段階は、これに制限されないが、BWAアルゴリズム及びhg19配列を用いて行われてよい。
本発明において、前記(b)段階の配列整列は、コンピュータアルゴリズムであって、ゲノムにおいてリード配列(例えば、次世代シーケンシングからの、例えば、短いリード配列)が殆どリード配列と基準配列間の類似性を評価することによって由来する可能性がある場合から同一性に対して使用されるコンピュータ的方法又は接近を含む。配列整列問題に様々なアルゴリズムが適用されてよい。一部のアルゴリズムは相対的に遅いが、相対的に高い特異性を許容する。これらは、例えば、力動的プログラミングベースアルゴリズムを含む。力動的プログラミングは、それらがより簡単な段階に分けられることによって複雑な問題を解決する方法である。他の接近は、相対的により効率的であるが、典型的に徹底していない。これは、例えば、大量データベース検索のために設計されたヒューリスティク(heuristic)アルゴリズム及び確率的(probabilistic)方法を含む。
典型的に、整列過程に2段階があり得る:候補者検査及び配列整列。候補者検査は、可能な整列位置のより短い列挙に対して全ゲノムから配列整列のための検索空間を減少させる。用語が示唆するように、配列整列は、候補者検査段階に提供された配列を有する配列を整列させる段階を含む。これは、広域整列(例えば、ニードルマンブンシュ(Needleman-Wunsch)整列)又は局所整列(例えば、スミスウォーターマン整列)を用いて行われてよい。
大部分の属性整列アルゴリズムは、索引方法に基づく3類型のいずれか一つを特徴とし得る:ハッシュテーブル(例えば、BLAST、ELAND、SOAP)、接尾辞ツリー(例えば、Bowtie、BWA)及び併合整列(例えば、スライダー(Slider))に基づくアルゴリズム。短いリード配列は、整列のために典型的に用いられる。短いリード配列に対する配列整列アルゴリズム/プログラムの例は、以下に制限されるものではないが、BFAST(Homer N.et al.,PLoS One.2009;4(11):e7767)、BLASTN(ワールドワイドウェブ上のblast.ncbi.nlm.nih.govから)、BLAT(Kent W.J.Genome Res.2002;12(4):656-64)、ボウタイ(Bowtie)(Langmead B.et al.,Genome Biol.2009;10(3):R25)、BWA(Li H.and Durbin R.Bioinformatics,2009,25:1754-60)、BWA-SW(Li H.and Durbin R.Bioinformatics,2010;26(5):589-95)、クラウドバースト(CloudBurst)(Schatz M.C.Bioinformatics.2009;25(11):1363-9)、コロナライト(Corona Lite)(Applied Biosystems,Carlsbad,California,USA)、CASHX(Fahlgren N.et al.,RNA,2009;15,992-1002)、CUDA-EC(Shi H.et al.,J Comput Biol.2010;17(4):603-15)、ELAND(ワールドワイドウェブ上のbioit.dbi.udel.edu/howto/elandで)、GNUMAP(Clement N.L.et al.,Bioinformatics.2010;26(1):38-45)、GMAP(Wu T.D.and Watanabe C.K.Bioinformatics.2005;21(9):1859-75)、GSNAP(Wu T.D.and Nacu S.,Bioinformatics.2010;26(7):873-81)、ジー二アスアセンブラ(Geneious Assembler)(ニュージーランド、オークランドに所在のBiomatters Ltd.)、LAST、MAQ(Li H.et al.,Genome Res.2008;18(11):1851-8)、Mega-BLAST(ワールドワイドウェブ上のncbi.nlm.nih.gov/blast/megablast.shtmlで)、MOM(Eaves H.L.and Gao Y.Bioinformatics.2009;25(7):969-70)、MOSAIK(ワールドワイドウェブ上のbioinformatics.bc.edu/marthlab/Mosaikで)、ノボアライン(Novoalign)(ワールドワイドウェブ上のnovocraft.com/main/index.phpで)、パルマッパー(PALMapper)(ワールドワイドウェブ上のfml.tuebingen.mpg.de/raetsch/suppl/palmapperで)、PASS(Campagna D.et al.,Bioinformatics.2009;25(7):967-8)、PatMaN(Prufer K.et al.,Bioinformatics.2008;24(13):1530-1)、PerM(Chen Y.et al.,Bioinformatics,2009,25(19):2514-2521)、ProbeMatch(Kim Y.J.et al.,Bioinformatics.2009;25(11):1424-5)、QPalma(de Bona F.et al.,Bioinformatics,2008,24(16):i174)、RazerS(Weese D.et al.,Genome Research,2009,19:1646-1654)、RMAP(Smith A.D.et al.,Bioinformatics.2009;25(21):2841-2)、SeqMap(Jiang H.et al.Bioinformatics.2008;24:2395-2396.)、Shrec(Salmela L.,Bioinformatics.2010;26(10):1284-90)、SHRiMP(Rumble S.M.et al.,PLoS Comput.Biol.,2009,5(5):e1000386)、SLIDER(Malhis N.et al.,Bioinformatics,2009,25(1):6-13)、スリムサーチ(SLIM Search)(Muller T.et al.,Bioinformatics.2001;17 Suppl 1:S182-9)、SOAP(Li R.et al.,Bioinformatics.2008;24(5):713-4)、SOAP2(Li R.et al.,Bioinformatics.2009;25(15):1966-7)、SOCS(Ondov B.D.et al.,Bioinformatics,2008;24(23):2776-7)、SSAHA(Ning Z.et al.,Genome Res.2001;11(10):1725-9)、SSAHA2(Ning Z.et al.,Genome Res.2001;11(10):1725-9)、スタンピー(Stampy)(Lunter G.and Goodson M.Genome Res.2010,epub ahead of print)、タイパン(Taipan)(ワールドワイドウェブ上のtaipan.sourceforge.netで)、UGENE(ワールドワイドウェブ上のugene.unipro.ruで)、XpressAlign(ワールドワイドウェブ上のbcgsc.ca/platform/bioinfo/software/XpressAlignで)、及びZOOM(カナダオンタリオ州ウォータールーに所在のバイオインフォマティクスソリューションインコポレイテッド(Bioinformatics Solutions Inc.))を含む。
配列整列アルゴリズムは、例えば、シーケンシング手法、リード長さ、リード数、入手可能なコンピューティング資料及び敏感性/スコアリング必要条件を含む多数の因子に基づいて選択されてよい。異なる配列整列アルゴリズムは、異なる速度レベル、整列敏感性及び整列特異性を達成することができる。整列特異性は、予測された整列と比較して正確に整列された典型的にサブミッションから発見されるように、整列された標的配列残基の百分率のことを指す。整列敏感性は、また、サブミッションで正確に整列された一般に予測された整列から発見されるように、整列された標的配列残基の百分率のことを指す。
整列アルゴリズム、例えば、ELAND又はSOAPは、速度が考慮される第1因子である時に、基準ゲノムに対して短いリード(例えば、イルミナ(Illumina)/ソレキサ(Solexa)シーケンサー製)を整列する目的に用いられてよい。BLAST又はMega-BLASTのような整列アルゴリズムは、特異性が最も重要な因子である時に、これらの方法が相対的に遅いが、短い判読(例えば、ロシュ(Roche)FLX製)を用いて類似性調査の目的のために使用されてよい。MAQ又はノボアライン(Novoalign)のような整列アルゴリズムは、品質スコアを考慮し、よって、正確性が必須のときに、単一又はペアード末端データに対して使用されてよい(例えば、高速大量SNP検索で)。ボウタイ(Bowtie)又はBWAのような整列アルゴリズムは、バローズウィーラー変換(Burrows-Wheeler Transform:BWT)を利用し、したがって、相対的に小さいメモリフットプリント(memory footprint)を必要とする。BFAST、PerM、SHRiMP、SOCS又はZOOMのような整列アルゴリズムは、色空間リードをマッピングし、したがって、ABIのSOLiDプラットホームと共に用いられてよい。一部の適用において、2以上の整列アルゴリズムからの結果が組み合わせられてよい。
本発明において、前記b)段階の配列情報(reads)の長さは5~5000bpであり、使用する配列情報の数は5,000~50,000個でよいが、これに限定されない。
本発明において、前記c)段階のベクトル化されたデータは、整列された核酸断片に基づいて生成できるベクトル化されたデータであればいずれも利用可能であるが、好ましくは、グランドキャニオンプロット(Grand Canyon plot,GCプロット)又はゲノミックキャッスルウォールプロット(Genomic Castle Wall plot,GCWプロット)であることを特徴とし得るが、これに限定されるものではない。
本発明においてベクトル化されたデータは、これに限定されないが、好ましくは、イメージ化されたことを特徴とし得る。イメージは、基本的にピクセルで構成されるが、ピクセルで構成されたイメージをベクトル化させると、イメージの種類によって1次元2Dベクトル(白黒)、3次元2Dベクトル(カラー(RGB))又は4次元2Dベクトル(カラー(CMYK))で表現されてよい。
本発明のベクトル化されたデータは、イメージに限定されず、例えば、n個の白黒イメージを複数枚積み、n次元の2Dベクトル(Multi-dimensional Vector)を用いて人工知能モデルの入力データとして使用することができる。
本発明において、GCWプロットは、正常染色体と判別染色体の区間別差異点を明確に示すために、正常染色体と判別染色体とを交差配列して作成したグラフを意味し、例えば、染色体別RepFD値をイメージ化する場合に、正常サンプルでは全染色体においてRepFD値が類似に出るので、GCWプロットにおいてUp-Downパターンが生成されないが、染色体異数性サンプルでは、異数性のある染色体において正常染色体に比べて相対的に低いRepFD値が出るので、GCWプロットにおいて明確なUp-Downパターンが生成される。このようなパターンの差異を極大化させるために(正常染色体,異数性染色体)を反復、交差配列して人工知能モデルに学習させ、正常サンプルと染色体異数性サンプルとを区分可能にするものである。
本発明において、GCプロットは、特定の区間(一定のbin又は異なるサイズのbin)をX軸に置き、核酸断片間の距離又は数のような核酸断片で表現できる数値をY軸に生成したプロットである。
本発明において、前記c)段階を行うに先立って整列された核酸断片の整列一致度点数(mapping quality score)を満たす核酸断片を別に分類する段階をさらに含むことを特徴とし得る。
本発明において、前記整列一致度点数(mapping quality score)は、所望の基準によって変わり得るが、好ましくは15~70点、より好ましくは50~70点でよく、最も好ましくは60点でよい。
本発明において、前記c)段階のGCプロットは、整列された核酸断片の染色体区間別分布を、区間別核酸断片の数又は核酸断片間の距離を計算してベクトル化されたデータとして生成することを特徴とし得る。
本発明において、核酸断片の数又は核酸断片間の距離計算値をベクトル化する方法は、計算値をベクトル化する公知の技術であればいずれも利用可能である。
本発明において、前記整列された配列情報の染色体区間別分布を核酸断片の数で計算することは、下記の段階を含んで行うことを特徴とし得る:
i)染色体を一定区間(bin)に区分する段階;
ii)各区間に整列された核酸断片の数を決定する段階;
iii)各区間に決定された核酸断片数をサンプルの全核酸断片数で割って正規化(normalization)する段階;及び
iv)各区間の順序をX軸値とし、前記iii)段階で計算した正規化値をY軸値としてGCプロットを生成する段階。
本発明において、前記整列された配列情報の染色体区間別分布を核酸断片間の距離で計算することは、下記の段階を含んで行うことを特徴とし得る:
i)染色体を一定区間(bin)に区分する段階;
ii)各区間に整列された核酸断片間の距離(Fragments Distance,FD)を計算する段階;
iii)各区間別に計算された距離値に基づいて各区間の距離の代表値(RepFD)を決定する段階;
iv)前記iii)段階で計算された代表値を全核酸断片距離値の代表値で割って正規化(normalization)する段階;及び
v)各区間の順序をX軸値とし、前記iv)段階で計算した正規化値をY軸値としてGCプロットを生成する段階。
本発明において、前記代表値(RepFD)は、FD値の和、差、積、平均、中央値、分位数、最小値、最大値、分散、標準偏差、中央値絶対偏差、変動係数及びそれらの組合せからなる群から選ばれる一つ以上であることを特徴とし得るが、これに限定されるものではない。
本発明において、前記一定区間(bin)は、1Kb~3Gbであることを特徴とし得るが、これに限定されるものではない。
本発明では、核酸断片をグループ化する段階をさらに用いることができ、このとき、グループ化は、整列された核酸断片のアダプター配列に基づいて行うことができる。正方向に整列された核酸断片と逆方向に整列された核酸断片とに別個に区分し、選別された配列情報に対して核酸断片間の距離を計算することができる。
本発明において、前記FD値は、取得したn個の核酸断片に対して、i番目核酸断片の基準値とi+1~n番目核酸断片から選択されるいずれか一つ以上の核酸断片の基準値との間の距離として定義されることを特徴とし得る。
本発明において、前記FD値は、取得したn個の核酸断片に対して、第1核酸断片の基準値と第2~第n個の核酸断片からなる群から選ばれるいずれか一つ以上の核酸断片の基準値との距離を計算し、それらの和、差、積、平均、積のログ、和のログ、中央値、分位数、最小値、最大値、分散、標準偏差、中央値絶対偏差及び変動係数からなる群から選ばれる一つ以上の値及び/又は一つ以上のそれらの逆数値、加重値が含まれた計算結果、及びこれに限定されない統計値をFD値として使用できるが、これに限定されるものではない。
本発明において、“一つ以上の値及び/又は一つ以上のそれらの逆数値”という記載は、上述した数値のから1つ又は2つ以上が組み合わせられて使用可能であるという意味で解釈される。
本発明において、前記“核酸断片の基準値”は、核酸断片の中央値から任意の値を足した又は引いた値であることを特徴とし得る。
前記FD値は、取得したn個の核酸断片に対して、次のように定義できる。
FD=Dist(Ri~Rj)(1<i<j<n)
ここで、Dist関数は、選別されたRiとRjの両核酸断片間に含まれる全ての核酸断片の整列位置値の差の和、差、積、平均、積のログ、和のログ、中央値、分位数、最小値、最大値、分散、標準偏差、中央値絶対偏差及び変動係数からなる群から選ばれる一つ以上の値及び/又は一つ以上のそれらの逆数値、加重値が含まれた計算結果、及びこれに限定されない統計値を計算する。
すなわち、本発明において、FD値(Fragment Distance Value)は、整列された核酸断片間の距離を意味する。ここで、距離計算のための核酸断片の選別の場合の数は、次のように定義できる。合計N個の核酸断片が存在する場合に、
Figure 2023504139000002
個の核酸断片間距離の組合せが可能である。すなわち、iが1の場合に、i+1は2となり、2~n番目核酸断片から選択されるいずれか一つ以上の核酸断片との距離を定義することができる。
本発明において、前記FD値は、前記i番目核酸断片内部の特定位置とi+1~n番目のいずれか一つ以上の核酸断片内部の特定位置との間の距離を計算することを特徴とし得る。
例えば、ある核酸断片の長さが50bpであり、染色体1番の4,183位置に整列されているとすれば、この核酸断片の距離計算に使用可能な遺伝的位置値は、染色体1番の4,183~4,232である。
前記核酸断片と隣接した50bp長の核酸断片が染色体1番の4,232番目位置に整列されると、この核酸断片の距離計算に使用可能な遺伝的位置値は、染色体1番の4,232~4,281であり、両核酸断片間のFD値は、1~99になり得る。
さらに他の隣接した50bp長の核酸断片が染色体1番の4123番目位置に整列されると、この核酸断片の距離計算に使用可能な遺伝的位置値は、染色体1番の4,123~4,172であり、両核酸断片間のFD値は61~159であり、最初の例示核酸断片とのFD値は12~110であり、前記両FD値範囲の一つの値の和、差、積、平均、積のログ、和のログ、中央値、分位数、最小値、最大値、分散、標準偏差、中央値絶対偏差及び変動係数からなる群から選ばれる一つ以上の値及び/又は一つ以上のそれらの逆数値、加重値が含まれた計算結果、及びこれに限定されない統計値をFD値として使用でき、好ましくは、両FD値範囲の一つの値の逆数値であることを特徴とし得るが、これに限定されるものではない。
好ましくは、本発明において、前記FD値は、核酸断片の中央値から任意の値を足した又は引いた値であることを特徴とし得る。
本発明において、FDの中央値は、計算されたFD値を大きさの順に整列したとき、最も中央に位置する値を意味する。例えば1、2、100のように3個の値があるとき、2が最も中央にあるので、2が中央値となる。仮に、偶数個のFD値がある場合に、中央にある2つの値の平均を中央値として決定する。例えば、1、10、90、200のFD値がある場合、中央値は10及び90の平均である50となる。
本発明において、前記任意の値は、核酸断片の位置を示し得るものであればいずれも利用可能であるが、好ましくは、0~5kbp、又は核酸断片長さの0~300%、0~3kbp、又は核酸断片長さの0~200%、0~1kbp、又は核酸断片長さの0~100%、より好ましくは0~500bp又は核酸断片長さの0~50%であってよいが、これに限定されるものではない。
本発明において、前記FD値は、ペアードエンドシーケンシング(paired-end sequencing)では、正方向及び逆方向配列情報(reads)の位置値に基づいて導出することを特徴とし得る。
例えば、50bp長のペアードエンドリード対において、正方向リードは、染色体1番の4183番目位置に整列され、逆方向リードは4349番目位置に整列されると、この核酸断片の両末端は4183、4349となり、核酸断片距離に使用可能な基準値は、4183~4349である。このとき、前記核酸断片と隣接した他のペアードエンドリード対において、正方向リードは染色体1番の4349番目位置に整列され、逆方向リードは4515番目に整列されると、この核酸断片の位置値は、4349~4515である。この両核酸断片の距離は0~333になり得、最も好ましくは、各核酸断片の中央値の距離である166になり得る。
本発明において、前記ペアードエンドシーケンシングで配列情報を取得する場合に、配列情報(reads)の整列点数が基準値未満である核酸断片は、計算過程から除外する段階をさらに含むことを特徴とし得る。
本発明において、前記FD値は、シングルエンドシーケンシング(single-end sequencing)では、正方向又は逆方向配列情報(read)の位置値の一つの種類に基づいて導出することを特徴とし得る。
本発明において、前記シングルエンドシーケンシングでは、正方向に整列された配列情報に基づいて位置値を導出する場合には任意の値を足し、逆方向に整列された配列情報に基づいて位置値を導出する場合には任意の値を引くことを特徴とし、前記任意の値は、FD値が核酸断片の位置を明確に表示可能にする値であればいずれも利用可能であるが、好ましくは0~5kbp又は核酸断片長さの0~300%、0~3kbp又は核酸断片長さの0~200%、0~1kbp又は核酸断片長さの0~100%、より好ましくは0~500bp又は核酸断片長さの0~50%でよいが、これに限定されるものではない。
本発明において、分析しようとする核酸は、シーケンシングされてリード(reads)という単位で表現されてよい。このリードは、シーケンシング方法によって、シングルエンドシーケンシング(single end sequencing read,SE)及びペアードエンドシーケンシング(paired end sequencing read,PE)に分類できる。SE方式のリードは、核酸分子の5’及び3’のいずれか1箇所をランダムな方向に一定の長さだけシーケンシングしたものを意味し、PE方式のリードは、5’及び3’の両方を一定の長さだけシーケンシングする。このような相違から、SEモードでシーケンシングする場合に、1個の核酸断片から1個のリードが生成され、PEモードでは1個の核酸断片から2個のリードが対として生成されることは、通常の技術者によく知られた事実である。
核酸断片間の正確な距離を計算するための最も理想的な方式は、核酸分子を初めから終わりまでシーケンシングし、そのリードを整列し、整列された値の中央値(センター)を利用する。しかし、技術的に、上の方式は、シーケンシング技術の限界及び費用の側面において制約があるのが現状である。したがって、SE、PEのような方式でシーケンシングすることになるが、PE方式では、核酸分子の開始と終了の位置が分かるので、これらの値の組合せにより核酸断片の正確な位置(中央値)を把握できるが、SE方式では、核酸断片の片方の終了情報しか利用できず、正確な位置(中央値)計算に限界がある。
また、正方向、逆方向の両方向にシーケンシングされた(整列された)、全てのリードの末端情報を用いて核酸分子の距離計算時に、シーケンシング方向という要素のため、正確でない値が計算されることがある。
したがって、シーケンシング方式の技術的理由から、正方向リードの5’末端は、核酸分子の中心位置よりも小さい位置値を有し、逆方向リードの3’末端は大きい値を有する。このような特徴を用いて、正方向リードでは任意の値(Extended bp)を足し、逆方向リードでは引くと、核酸分子の中心位置に近い値が推定できる。
すなわち、任意の値(Extended bp)は、使用する試料によって変わってよく、細胞遊離核酸は、その核酸の平均長さが166bp程度と知られているので、約80bp程度に設定できる。万一、断片化装備(例えは、sonication)を用いて実験が行われた場合は、断片化過程において設定したターゲット長さの半分程度を延長bp(extended bp)と設定できる。
本発明において、前記代表値(RepFD)は、FD値の和、差、積、平均、中央値、分位数、最小値、最大値、分散、標準偏差、中央値絶対偏差及び変動係数からなる群から選ばれる一つ以上の値及び/又は一つ以上のそれらの逆数値であることを特徴とし、好ましくは、FD値の中央値、平均値又はこれの逆数値であることを特徴とし得るが、これに限定されるものではない。
本発明において、前記GCWプロットは、整列された核酸断片間の距離又は区間別量を染色体単位で計算し、正常染色体と異数性を判別しようとする染色体の距離値を交差配列してベクトル化されたデータとして生成することを特徴とし得る。
本発明において、前記交差配列は、x軸に沿って([正常染色体の計算値],[異数性を判別する染色体の計算値])値を配列することを意味する。例えば、Trisomy 21を判別する場合に、x軸に沿って1番染色体のRepFD値、21番染色体のRepFD、2番染色体のRepFD、21番染色体のRepFD、3番染色体のRepFD、21番染色体のRepFD…のように配列する方式を意味する。
本発明において、前記GCWプロットは、核酸断片間の距離を計算値として使用する場合に、下記の段階を含む方法で行われることを特徴とし得る。
i)各染色体別に整列された核酸断片間の距離(FD)を計算する段階;
ii)前記i)段階で計算された距離値に基づいて各区間の距離の代表値(RepFD)を決定する段階;
iii)前記ii)段階で決定された染色体別RepFD値を標準化(standardization)する段階;
iv)異数性を判別する染色体以外の染色体のうち一部を比較染色体群として選抜する段階;及び
iv)比較染色体群に属する染色体と異数性を判別する染色体をX軸に沿って順次に交差配列し、各染色体の標準化された計算値をY値とするGCWプロットを生成する段階。
本発明において、前記標準化段階は、
1)染色体異数性が非検出された正常サンプルからなる標準集団を設定する段階;
2)前記標準集団から観察される染色体別RepFD値の平均(Reference_Mean)と標準偏差(Reference_Standard_Deviation)を計算する段階;
3)前記2)段階で計算した平均と標準偏差を下記数式1に代入してZ標準化する段階;
数式1:
Zchr = ((RepFDchr - Reference_Meanchr) /Reference_Standard_Deviationchr) + 5
ここで、シーケンシング量(リード数)が多いサンプルではRepFD値が低くなりながらZchr値が負数を有する場合が発生し得るが、Zchr値が負数になると、下記段階の異数性を判別しようとする染色体のZchr値で割る過程で問題が発生するため(Up-DownパターンがDown-Upパターンとしてひっくり返されて出ることがある。)、全体的に+5をして全てを正数値に作るために+5を足す。
4)前記3)段階で計算した染色体別Zchr値を、異数性を判別しようとする染色体のZchr値で割る段階。
ここで、前記4)段階は、サンプルのシーケンシング量によってGCWプロットのyスケールが変わることを補正するために、異数性を判別しようとする染色体のZchr値で割ることであり、この過程により、サンプルのシーケンシング量に関係なくyスケールが一定のGCWプロットを生成することができる。
本発明において、前記代表値(RepFD)は、FD値の和、差、積、平均、中央値、分位数、最小値、最大値、分散、標準偏差、中央値絶対偏差及び変動係数からなる群から選ばれる一つ以上の値及び/又は一つ以上のそれらの逆数値であることを特徴とし、好ましくは、FD値の中央値、平均値又はその逆数値であることを特徴とし得るが、これに限定されるものではない。
本発明において、前記GCWプロットを核酸断片の量で示した場合に、核酸断片の量でGCWプロットを描けば、比較染色体群の棒の相対的な高さにおいて差を示すが、これを人工知能モデルに学習させることができる(図4)。
本発明において、前記比較染色体群は、判別染色体群以外のいずれの染色体の組合せも利用可能であり、好ましくは、1、2、3、4、5、6、8、9、10、11、13、14、15、18、20番染色体であるが、これに限定されるものではない。
本発明において、前記ベクトル化されたデータは、一つのイメージに複数の染色体別プロットを含むことを特徴とし得る。
本発明において、前記(d)段階の人工知能モデルは、染色体状態が正常であるイメージと、染色体異常があるイメージとを区別できるように学習できるモデルであればいずれも利用可能であり、好ましくは、ディープラーニングモデルであることを特徴とし得る。
本発明において、前記人工知能モデルは、人工神経網ベースでベクトル化されたデータを分析できる人工神経網アルゴリズムであればいずれも利用可能であるが、好ましくは、convolutional neural network(CNN)、Deep Neural Network(DNN)、Recurrent Neural Network(RNN)及びオートエンコーダ(autoencoder)からなる群から選ばれることを特徴とし得るが、これに限定されるものではない。
本発明において、前記循環神経網は、LSTM(Long-short term memory)神経網、GRU(Gated Recurrent Unit)神経網、バニラ循環神経網(Vanilla recurrent neural network)及び集中的循環神経網(attentive recurrent neural network)からなる群から選ばれることを特徴とし得る。
本発明において、前記人工知能モデルがCNNである場合に、二項分類(binary classification)を行う損失関数は、下記数式2で表示されることを特徴とし、多クラス分類(Multi-class classification)を行う損失関数は、下記数式3で表示されることを特徴とし得る。
数式2:二項分類(Binary classification)
Figure 2023504139000003
数式3:多クラス分類(Multi-class classification)
Figure 2023504139000004
本発明において、前記二項分類は、人工知能モデルが1種類の染色体異常を判別するように学習することを意味し、多クラス分類は、人工知能モデルが2種類以上の染色体異常を判別するように学習することを意味する。
本発明において、前記人工知能モデルがCNNである場合に、学習は下記段階を含んで行われることを特徴とし得る:
i)生産されたGC、GCWプロットをTraining(学習)、Validation(検証)、Test(性能評価)データに分類する段階;
この時、Trainingデータは、CNNモデルを学習する際に用いられ、Validationデータは、ハイパーパラメータチューニング(hyper-parameter tuning)検証に用いられ、Testデータは、最適のモデル生産後に性能評価に用いられることを特徴とする。
ii)ハイパーパラメータチューニング及び学習過程によって最適のCNNモデルを構築する段階;
iii)ハイパーパラメータチューニングによって得られた様々なモデルの性能をValidationデータを用いて比較し、Validationデータ性能が最も良好なモデルを最適のモデルと決定する段階;
本発明において、前記ハイパーパラメータチューニング過程は、CNNモデルをなす様々なパラメータ(畳み込み層(convolution layer)の数、全結合層(dense layer)の数、畳み込みフィルタ(convolution filter)の数など)値を最適化する過程であり、ハイパーパラメータチューニング過程としてはベイズ最適化(Bayesian optimization)及びグリッド検索(grid search)手法を用いることを特徴とし得る。
本発明において、前記学習過程は、定められたハイパーパラメータ(hyper-parameter)を用いてCNNモデルの内部パラメータ(加重値)を最適化させ、Training lossに比してValidation lossが増加し始まると、モデルが過適合(Overfitting)されたと判断し、その前にモデル学習を中断することを特徴とし得る。
本発明において、前記d)段階で人工知能モデルが入力されたベクトル化されたデータから分析した結果値は、(特定の点数(score)又は実数)であればいずれも利用可能であり、好ましくは、DPI(Deep Probability Index)値であることを特徴とし得るが、これに限定されるものではない。
本発明において、DPIは、人工知能モデルの最後のレイヤー(layer)に、二項分類の場合にシグモイド関数、多クラス分類の場合にソフトマックス関数を用いて人工知能のアウトプットを0~1スケールに調整して確率値として表現した値を意味する。
本発明において、前記d)段階の基準値が0.5であり、人工知能モデルで分析して導出した値が0.5以上である場合に、染色体異常があると判定することを特徴とし得る。
本発明において、前記人工知能モデルは、学習の際に、異数性があると、アウトプット結果が1に近いように学習し、異数性がないと、アウトプット結果が0に近いように学習することにより、0.5を基準にして0.5以上であれば異数性があると判断し、0.5以下であれば異数性がないと判断し、性能(performance)測定を行った(Training、Validation、Test精度)。
ここで、0.5の基準値はいつでも変わり得る値であるということは、通常の技術者にとって明らかである。例えば、False positive(偽陽性)を減らすには、0.5よりも高い基準値を設定することにより、異数性があると判断される基準を厳格にすることができ、False Negative(偽陰性)を減らすには、基準値をより低く測定することにより、異数性があると判断される基準を少し緩和することができる。
最も好ましくは、学習された人工知能モデルを用いてunseen data(学習にtrainingしていない解を知っているデータ)を適用させ、DPI値の隔離(probability)を確認して基準値を決めることができる。
本発明は、他の観点において、生体試料から核酸を抽出して配列情報を解読する解読部;
解読された配列を標準染色体配列データベースに整列する整列部;
整列された核酸断片(fragments)に基づき、ベクトル化されたデータを生成するデータ生成部;
生成されたベクトル化されたデータを、学習された人工知能モデルに入力して分析し、基準値と比較して染色体異常の有無を判定する染色体異常判定部を含む人工知能ベースの染色体異常検出装置に関する。
本発明は、さらに他の観点において、コンピュータ可読記憶媒体であって、染色体異常を検出するプロセッサによって実行されるように構成される命令を含むが、
a)生体試料から核酸を抽出して配列情報を取得する段階;
b)取得した配列情報(reads)を標準染色体配列データベース(reference genome database)に整列(alignment)する段階;
c)前記整列された核酸断片(fragments)に基づき、ベクトル化されたデータを生成する段階;
d)生成された前記ベクトル化されたデータを、学習された人工知能モデルに入力して分析し、基準値(cut-off value)を比較して染色体異常の有無を判定する段階によって染色体異常を検出するプロセッサによって実行されるように構成される命令を含むコンピュータ可読記憶媒体に関する。
実施例
以下、実施例を用いて本発明をより詳細に説明する。これら実施例は単に本発明を例示するためのものであり、本発明の範囲がこれらの実施例によって制限されるものと解釈されないことは、当業界における通常の知識を有する者にとって明らかであろう。
実施例1.血液からDNAを抽出し、次世代塩基配列分析を行う
正常人7,931人、Trisomy 21 170人、Trisomy 18 58人及びTrisomy 13 16人の血液を10mLずつ採取してEDTAチューブに保管し、採取2時間以内に1200g、4℃、15分の条件で血漿部分のみを1次遠心分離した後、1次遠心分離された血漿を16000g、4℃、10分の条件で2次遠心分離し、沈殿物以外の血漿上清液を分離した。分離された血漿に対してTiangenmicro DNAキット(Tiangen)を用いてcfDNA(cell-free DNA)を抽出し、Truseq Nano DNA HTライブラリー調製キット(Illumina)を用いてライブラリー調製(Library preparation)過程を行った後、Nextseq500装備(Illumina)を75シングルエンド(Single-end)モードでシーケンシング(sequencing)を行った。その結果、サンプルにつき約13,000,000個のリード(reads)が生産されることを確認した。
実施例2.核酸断片距離ベースGCプロットを用いたtrisomy 21ディープラーニングモデル構築及び性能確認
正常サンプル(n=961)とT21サンプル(n=170)を用いてDPI値の性能をテストした。全サンプルは、Train、Validation、Testのグループに分けて進行し、Trainサンプルを用いてモデルを構築した後、Validationグループ及びTestグループのサンプルを用いて、Trainサンプルを用いて作ったモデルの性能を確認した。
Figure 2023504139000005
その結果、表2及び図5に示すように、Accuracyは、Train、Valid、Testグループにおいてそれぞれ、100%、100%、100%と確認され、ROC分析結果であるAUC値は、Train、Valid、Testグループにおいてそれぞれ1.0、1.0、1.0であることを確認した。
Figure 2023504139000006
図5の(A)は、正確度を測定する方法のうちROC(Receiver Operating Characteristic)カーブ(curve)を用いた分析であり、カーブ下の面積であるAUC(Area Under the Curve)値が高いほど正確度が高いと解析する。AUC値は、0~1の間の値を有し、ランダムにラベル値を予測した時(baseline)に期待されるAUC値が0.5、完全に正確に予測した時に期待されるAUC値が1である。
図5の(B)は、本発明の人工知能モデルで計算された、染色体異数性がある確率値(DPI値)を、正常サンプルとtrisomy 21サンプルグループにおいてボックスプロット(boxplot)で示したものであり、赤い線がDPIカットオフである0.5を示す。
実施例3.核酸断片距離ベースGCプロットを用いたtrisomy 18ディープラーニングモデル構築及び性能確認
正常サンプル(n=961)とT18サンプル(n=58)を用いてDPI値の性能をテストした。全サンプルは、Train、Validation、Testのグループに分けて進行し、Trainサンプルを用いてモデルを構築した後、Validationグループ及びTestグループのサンプルを用いて、Trainサンプルを用いて作ったモデルの性能を確認した。
Figure 2023504139000007
その結果、表4及び図6に示すように、精度は、Train、Valid、Testグループにおいてそれぞれ100%、100%、100%と確認され、ROC分析結果であるAUC値は、Train、Valid、Testグループにおいてそれぞれ1.0、1.0、1.0であることを確認した。
Figure 2023504139000008
実施例4.核酸断片距離ベースGCプロットを用いたtrisomy 13ディープラーニングモデル構築及び性能確認
正常サンプル(n=961)とT13サンプル(n=16)を用いてDPI値の性能をテストした。全サンプルは、Train、Validation、Testのグループに分けて進行し、Trainサンプルを用いてモデルを構築した後、Validationグループ及びTestグループのサンプルを用いて、Trainサンプルを用いて作ったモデルの性能を確認した。
Figure 2023504139000009
その結果、表6及び図7に示すように、精度は、Train、Valid、Testグループにおいてそれぞれ100%、100%、100%と確認され、ROC分析結果であるAUC値は、Train、Valid、Testグループにおいてそれぞれ1.0、1.0、1.0であることを確認した。
Figure 2023504139000010
実施例5.核酸断片距離ベースGCWプロットを用いたtrisomy 21ディープラーニングモデル構築及び性能確認
正常サンプル(n=716)を参照集団として設定し、Z点数を計算した後、この値を用いてGCWプロットを生産した。Z点数計算のための核酸断片距離値は、核酸断片間距離値の中央値を用いた。Z点数計算のための参照集団に含まれない正常サンプル(n=7,215)とT21サンプル(n=168)を用いてDPI値の性能をテストした。全サンプルはTrain、Validation、Testのグループに分けて進行し、Trainサンプルを用いてモデルを構築した後、Validationグループ及びTestグループのサンプルを用いて、Trainサンプルを用いて作ったモデルの性能を確認した。
Figure 2023504139000011
その結果、表8及び図8に示すように、精度は、Train、Valid、Testグループにおいてそれぞれ99.8%、100%、99.8%と確認され、ROC分析結果であるAUC値は、Train、Valid、Testグループにおいてそれぞれ0.9999、1.0、0.9998であることを確認した。
Figure 2023504139000012
実施例6.核酸断片距離ベースGCWプロットを用いたtrisomy 18ディープラーニングモデル構築及び性能確認
正常サンプル(n=716)を参照集団として設定し、Z点数を計算した後、この値を用いてGCWプロットを生産した。Z点数計算のための核酸断片距離値は、核酸断片間距離値の中央値を用いた。実施例5で構築したディープラーニングモデルを用いて18番染色体の異数性を予測した。Z点数計算のための参照集団に含まれない正常サンプル(n=1743)とT18サンプル(n=58)を用いてDPI値の性能をテストした。
Figure 2023504139000013
その結果、表10及び図9に示すように、Testグループにおいて精度は99.8%であり、ROC分析結果であるAUC値は0.9994であることを確認した。
Figure 2023504139000014
実施例7.核酸断片距離ベースGCWプロットを用いたtrisomy 13ディープラーニングモデル構築及び性能確認
正常サンプル(n=716)を参照集団として設定し、Z点数を計算した後、この値を用いてGCWプロットを生産した。Z点数計算のための核酸断片距離値は、核酸断片間距離値の中央値を用いた。実施例5で構築したディープラーニングモデルを用いて13番染色体の異数性を予測した。Z点数計算のための参照集団に含まれない正常サンプル(n=1,743)とT13サンプル(n=16)を用いてDPI値の性能をテストした。
Figure 2023504139000015
その結果、表12及び図10に示すように、Testグループにおいて精度は99.7%であり、ROC分析結果であるAUC値は0.9943であることを確認した。
Figure 2023504139000016
実施例8.核酸断片距離ベースGCWプロットを用いたダウンサンプリング(Down sampling)性能確認
リードカバレッジを半分レベルに下げ(約10,000,000リード以上→5,000,000リード)、GCWプロットを描いて染色体異数性検出を試みた結果、下げる前と類似のレベルの性能を維持することを確認した。カバレッジを下げる時のTrisomy 21判別性能は、下記表13の通りである。
Figure 2023504139000017
分析の結果、Testグループにおいて精度は98.6%と確認され、ROC分析結果であるAUC値は0.998であることを確認した(表14、図11)。
Figure 2023504139000018
実施例9.核酸断片距離逆数値ベースGCWプロットを用いたtrisomy 21ディープラーニングモデル構築及び性能確認
正常サンプル(n=700)を参照集団として設定し、Z点数を計算した後、この値を用いてGCWプロットを生産した。Z点数計算のための核酸断片距離値は、核酸断片間距離値の中央値の逆数を用いた。Z点数計算のための参照集団に含まれない正常サンプル(n=991)とT21サンプル(n=163)を用いてDPI値の性能をテストした。全サンプルは、Train、Validation、Testのグループに分けて進行し、Trainサンプルを用いてモデルを構築した後、Validationグループ及びTestグループのサンプルを用いて、Trainサンプルを用いて作ったモデルの性能を確認した。
Figure 2023504139000019
その結果、表16及び図12に示すように、精度は、Train、Valid、Testグループにおいてそれぞれ99.1%、99.5%、99.1%と確認され、ROC分析結果であるAUC値は、Train、Valid、Testグループにおいてそれぞれ0.9999、0.999、0.999であることを確認した。
Figure 2023504139000020
実施例10.核酸断片距離逆数値ベースGCWプロットを用いたtrisomy 18ディープラーニングモデル構築及び性能確認
正常サンプル(n=700)を参照集団として設定し、Z点数を計算した後、この値を用いてGCWプロットを生産した。Z点数計算のための核酸断片距離値は、核酸断片間距離値の中央値の逆数を用いた。Z点数計算のための参照集団に含まれない正常サンプル(n=991)とT18サンプル(n=57)を用いてDPI値の性能をテストした。全サンプルは、Train、Validation、Testのグループに分けて進行し、Trainサンプルを用いてモデルを構築した後、Validationグループ及びTestグループのサンプルを用いて、Trainサンプルを用いて作ったモデルの性能を確認した。
Figure 2023504139000021
その結果、表17及び図13に示すように、精度は、Train、Valid、Testグループにおいてそれぞれ100%、100%、99.6%と確認され、ROC分析結果であるAUC値は、Train、Valid、Testグループにおいてそれぞれ1.0、1.0、0.972であることを確認した。
Figure 2023504139000022
実施例11.核酸断片距離逆数値ベースGCWプロットを用いたtrisomy 13ディープラーニングモデル構築及び性能確認
正常サンプル(n=700)を参照集団として設定し、Z点数を計算した後、この値を用いてGCWプロットを生産した。Z点数計算のための核酸断片距離値は、核酸断片間距離値の中央値の逆数を用いた。Z点数計算のための参照集団に含まれない正常サンプル(n=991)とT13サンプル(n=16)を用いてDPI値の性能をテストした。全サンプルは、Train、Validation、Testのグループに分けて進行し、Trainサンプルを用いてモデルを構築した後、Validationグループ及びTestグループのサンプルを用いて、Trainサンプルを用いて作ったモデルの性能を確認した。
Figure 2023504139000023
その結果、表20及び図13に示すように、精度は、Train、Valid、Testグループにおいてそれぞれ98.7%、98.5%、99.0%と確認され、ROC分析結果であるAUC値は、Train、Valid、Testグループにおいてそれぞれ0.996、0.995、1.0であることを確認した。
Figure 2023504139000024
以上、本発明内容の特定の部分を詳細に記述したところ、当業界における通常の知識を有する者にとって、このような具体的記述は単に好ましい実施の態様であるだけで、これによって本発明の範囲が制限されないという点は明らかであろう。したがって、本発明の実質的な範囲は、添付する請求項及びそれらの等価物によって定義されるといえよう。
本発明に係る人工知能ベースの染色体異常検出方法は、既存のリード個数(read count)ベースで染色体量を決定する段階を利用する方式又は整列されたリード(reads)間の距離概念を利用する検出方法などにおいてリードに関連した値として個々の定形化された値を用いることに比べて、ベクトル化されたデータを生成してAIアルゴリズムを用いて分析するので、リードカバレッジが低くとも類似の効果を発揮するこができ、有用である。

Claims (18)

  1. a)生体試料から核酸を抽出して配列情報を取得する段階;
    b)取得した配列情報(reads)を標準染色体配列データベース(reference genome database)に整列(alignment)する段階;
    c)前記整列された配列情報(reads)ベースの核酸断片(fragments)を用いたベクトル化されたデータを生成する段階;
    d)生成された前記ベクトル化されたデータを、学習された人工知能モデルに入力して分析し、基準値(cut-off value)と比較して染色体異常の有無を判定する段階を含む、人工知能ベースの染色体異常検出方法。
  2. 前記a)段階は、次の段階を含む方法で行われることを特徴とする、請求項1に記載の人工知能ベースの染色体異常検出方法:
    (a-i)血液、精液、膣細胞、毛髪、唾液、尿、口腔細胞、胎盤細胞又は胎児細胞を含む羊水、組織細胞又はその混合物から核酸を取得する段階;
    (a-ii)採取された核酸から、塩析方法(salting-out method)、カラムクロマトグラフィー方法(column chromatography method)又はビーズ方法(beads method)を用いてタンパク質、脂肪、及びその他残余物を除去し、精製された核酸を取得する段階;
    (a-iii)精製された核酸又は酵素的切断、粉砕、水圧切断方法(hydroshear method)で無作為断片化(random fragmentation)された核酸に対して、シングルエンドシーケンシング(single-end sequencing)又はペアエンドシーケンシング(pair-end sequencing)ライブラリー(library)を作製する段階;
    (a-iv)作製されたライブラリーを次世代シークエンサー(next-generation sequencer)で反応させる段階;及び
    (a-v)次世代シークエンサーで核酸の配列情報(reads)を取得する段階。
  3. 前記c)段階のベクトル化されたデータは、グランドキャニオンプロット(Grand Canyon plot,GCプロット)又はゲノミックキャッスルウォールプロット(Genomic Castle Wall plot ,GCWプロット)であることを特徴とする、請求項1に記載の人工知能ベースの染色体異常検出方法。
  4. 前記GCプロットは、整列された核酸断片の染色体区間別分布を区間別の数(count)又は核酸断片(fragment)間の距離を計算してベクトル化されたデータとして生成することを特徴とする、請求項3に記載の人工知能ベースの染色体異常検出方法。
  5. 前記染色体区間別分布を核酸断片の数で計算することは、下記の段階を含んで行うことを特徴とする、請求項4に記載の人工知能ベースの染色体異常検出方法:
    i)染色体を一定区間(bin)に区分する段階;
    ii)各区間に整列された核酸断片の数を決定する段階;
    iii)各区間に決定された核酸断片数をサンプルの全核酸断片数で割って正規化(normalization)する段階;及び
    iv)各区間の順序をX軸値とし、前記iii)段階で計算した正規化値をY軸値としてGCプロットを生成する段階。
  6. 前記染色体区間別分布を核酸断片間の距離で計算することは、下記の段階を含んで行うことを特徴とする、請求項4に記載の人工知能ベースの染色体異常検出方法:
    i)染色体を一定区間(bin)に区分する段階;
    ii)各区間に整列された核酸断片間の距離を計算する段階;
    iii)各区間別に計算された距離値に基づいて各区間の距離の代表値(RepFD)を決定する段階;
    iv)前記iii)段階で計算された代表値を全核酸断片間の距離値の代表値で割って正規化(normalization)する段階;及び
    v)各区間の順序をX軸値とし、前記iv)段階で計算した正規化値をY軸値としてGCプロットを生成する段階。
  7. 前記代表値は、核酸断片間の距離の和、差、積、平均、中央値、分位数、最小値、最大値、分散、標準偏差、中央値絶対偏差、変動係数、それらの逆数値及びそれらの組合せからなる群から選ばれる一つ以上であることを特徴とする、請求項6に記載の人工知能ベースの染色体異常検出方法。
  8. 前記GCWプロットは、整列された核酸断片間の距離を染色体単位で計算し、正常染色体と異数性を判別しようとする染色体の距離値を交差配列してグラフとして生成することを特徴とする、請求項3に記載の人工知能ベースの染色体異常検出方法。
  9. 前記GCWプロットは、下記の段階を含む方法によって行われることを特徴とする、請求項8に記載の人工知能ベースの染色体異常検出方法:
    i)各染色体別に整列された核酸断片間の距離を計算する段階;
    ii)前記i)段階で計算された距離値に基づいて各区間の距離の代表値を決定する段階;
    iii)前記ii)段階で決定された染色体別代表値を標準化(standardization)する段階;
    iv)異数性を判別する染色体以外の染色体のうち一部を比較染色体群として選抜する段階;及び
    v)比較染色体群に属する染色体と異数性を判別する染色体をX軸に沿って順次に交差配列し、各染色体の標準化された計算値をY値とするGCWプロットを生成する段階。
  10. 前記iii)段階の代表値を標準化する段階は、下記の段階を含む方法で行われることを特徴とする、請求項9に記載の人工知能ベースの染色体異常検出方法:
    1)染色体異数性が非検出された正常サンプルからなる標準集団を設定する段階;
    2)前記標準集団から観察される染色体別RepFD値の平均(Reference_Mean)と標準偏差(Reference_Standard_Deviation)を計算する段階;
    3)前記2)段階で計算した平均と標準偏差を下記数式1に代入してZ標準化する段階;
    数式1:
    Zchr = ((RepFDchr - Reference_Meanchr) /Reference_Standard_Deviationchr) + 5
    4)前記3)段階で計算した染色体別Zchr値を、異数性を判別しようとする染色体のZchr値で割る段階。
  11. 前記代表値は、核酸断片間の距離の和、差、積、平均、中央値、分位数、最小値、最大値、分散、標準偏差、中央値絶対偏差、変動係数、それらの逆数値及びそれらの組合せからなる群から選ばれる一つ以上の値であることを特徴とする、請求項9に記載の人工知能ベースの染色体異常検出方法。
  12. 前記(d)段階の人工知能モデルは、染色体状態が正常であるベクトル化されたデータと、染色体異常があるベクトル化されたデータとを区別できるように学習することを特徴とする、請求項1に記載の人工知能ベースの染色体異常検出方法。
  13. 前記人工知能モデルは、convolutional neural network(CNN)、Deep Neural Network(DNN)、Recurrent Neural Network(RNN)及びオートエンコーダ(autoencoder)からなる群から選ばれることを特徴とする、請求項12に記載の人工知能ベースの染色体異常検出方法。
  14. 前記人工知能モデルがCNNであり、二項分類(binary classification)を学習する場合に、損失関数は下記数式2で表示され、前記人工知能モデルがCNNであり、多クラス分類(Multi-class classification)を学習する場合に、損失関数は下記数式3で表示されることを特徴とする、請求項12に記載の人工知能ベースの染色体異常検出方法:
    数式2:二項分類(Binary classification)
    Figure 2023504139000025
    数式3:多クラス分類(Multi-class classification)
    Figure 2023504139000026
  15. 前記d)段階の人工知能モデルが入力されたベクトル化されたデータを分析して出力する結果値は、DPI(Deep Probability Index)値であることを特徴とする、請求項1に記載の人工知能ベースの染色体異常検出方法。
  16. 前記d)段階の基準値は0.5であり、0.5以上である場合に、染色体異常があると判定することを特徴とする、請求項1に記載の人工知能ベースの染色体異常検出方法。
  17. 生体試料から核酸を抽出して配列情報を解読する解読部;
    解読された配列を標準染色体配列データベースに整列する整列部;
    整列された配列ベースの核酸断片を用いたベクトル化されたデータを生成するデータ生成部;及び
    生成されたベクトル化されたデータを、学習された人工知能モデルに入力して分析し、基準値と比較して染色体異常の有無を判定する染色体異常判定部を含む、人工知能ベースの染色体異常検出装置。
  18. コンピュータ可読記憶媒体であって、染色体異常を検出するプロセッサによって実行されるように構成される命令を含み、
    a)生体試料から核酸を抽出して配列情報を取得する段階;
    b)取得した配列情報(reads)を標準染色体配列データベース(reference genome database)に整列(alignment)する段階;
    c)前記整列された配列情報(reads)ベースの核酸断片を用いたベクトル化されたデータを生成する段階;
    d)生成された前記ベクトル化されたデータを、学習された人工知能モデルに入力して分析し、基準値(cut-off value)を比較して染色体異常の有無を判定する段階、によって染色体異常を検出するプロセッサによって実行されるように構成される命令を含む、コンピュータ可読記憶媒体。
JP2022532058A 2019-11-29 2020-11-27 人工知能ベースの染色体異常検出方法 Pending JP2023504139A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR10-2019-0157257 2019-11-29
KR20190157257 2019-11-29
PCT/KR2020/017065 WO2021107676A1 (ko) 2019-11-29 2020-11-27 인공지능 기반 염색체 이상 검출 방법

Publications (1)

Publication Number Publication Date
JP2023504139A true JP2023504139A (ja) 2023-02-01

Family

ID=76129497

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022532058A Pending JP2023504139A (ja) 2019-11-29 2020-11-27 人工知能ベースの染色体異常検出方法

Country Status (7)

Country Link
US (1) US20230028790A1 (ja)
EP (1) EP4068291A4 (ja)
JP (1) JP2023504139A (ja)
KR (1) KR102586651B1 (ja)
AU (1) AU2020391556B2 (ja)
CA (1) CA3163405A1 (ja)
WO (1) WO2021107676A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113408533B (zh) * 2021-08-23 2021-12-10 首都医科大学附属北京妇产医院 基于胎儿超声影像特征组学的染色体异常预测模型的构建方法及诊断设备
KR20230059423A (ko) 2021-10-26 2023-05-03 주식회사 지씨지놈 메틸화된 무세포 핵산을 이용한 암 진단 및 암 종 예측방법
KR20230076686A (ko) * 2021-11-24 2023-05-31 테라젠지놈케어 주식회사 가상 데이터에 기반한 태아의 염색체이수성을 검출하는 방법
KR20230114952A (ko) * 2022-01-26 2023-08-02 권창혁 암 판별 장치 및 암 판별 방법
WO2023219263A1 (ko) * 2022-05-09 2023-11-16 테라젠지놈케어 주식회사 가상 양성 데이터 및 가상 음성 데이터에 기반한 태아의 염색체이수성을 검출하는 방법
CN115330603B (zh) * 2022-10-17 2023-01-20 湖南自兴智慧医疗科技有限公司 基于深度学习卷积神经网络的人类染色体图像摆正方法
CN116434837B (zh) * 2023-06-12 2023-08-29 广州盛安医学检验有限公司 一种基于ngs的染色体平衡易位检测分析系统
CN117473444B (zh) * 2023-12-27 2024-03-01 北京诺赛基因组研究中心有限公司 基于CNN和SVM的Sanger测序结果质检方法

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE602004024034D1 (de) 2003-01-29 2009-12-24 454 Corp Nukleinsäureamplifikation auf basis von kügelchenemulsion
CA2557841A1 (en) 2004-02-27 2005-09-09 President And Fellows Of Harvard College Polony fluorescent in situ sequencing beads
TWI287041B (en) 2005-04-27 2007-09-21 Jung-Tang Huang An ultra-rapid DNA sequencing method with nano-transistors array based devices
US20060275779A1 (en) 2005-06-03 2006-12-07 Zhiyong Li Method and apparatus for molecular analysis using nanowires
US20070194225A1 (en) 2005-10-07 2007-08-23 Zorn Miguel D Coherent electron junction scanning probe interference microscope, nanomanipulator and spectrometer with assembler and DNA sequencing applications
CN102952854B (zh) * 2011-08-25 2015-01-14 深圳华大基因科技有限公司 单细胞分类和筛选方法及其装置
RU2597981C2 (ru) * 2012-05-14 2016-09-20 БГИ Диагносис Ко., Лтд. Способ и система для определения нуклеотидной последовательности в заданной области генома плода
GB201215449D0 (en) * 2012-08-30 2012-10-17 Zoragen Biotechnologies Llp Method of detecting chromosonal abnormalities
US10319463B2 (en) * 2015-01-23 2019-06-11 The Chinese University Of Hong Kong Combined size- and count-based analysis of maternal plasma for detection of fetal subchromosomal aberrations
WO2016139545A1 (en) * 2015-03-05 2016-09-09 Indian Institute Of Science Hardware accelerator for alignment of short reads in sequencing platforms
KR101817785B1 (ko) * 2015-08-06 2018-01-11 이원다이애그노믹스(주) 다양한 플랫폼에서 태아의 성별과 성염색체 이상을 구분할 수 있는 새로운 방법
KR101686146B1 (ko) * 2015-12-04 2016-12-13 주식회사 녹십자지놈 핵산의 혼합물을 포함하는 샘플에서 복제수 변이를 결정하는 방법
KR101809599B1 (ko) * 2016-02-04 2017-12-15 연세대학교 산학협력단 약물과 단백질 간 관계 분석 방법 및 장치
KR20180124550A (ko) 2017-05-12 2018-11-21 한국전자통신연구원 연관패턴 학습을 통한 사용자 일정 추천 시스템 및 방법
KR102220653B1 (ko) * 2017-10-30 2021-03-02 서울대학교산학협력단 심화 학습 기반의 약물-표적 단백질 간 상호작용 예측 시스템 및 그 방법
US11168356B2 (en) * 2017-11-02 2021-11-09 The Chinese University Of Hong Kong Using nucleic acid size range for noninvasive cancer detection
WO2019191319A1 (en) * 2018-03-30 2019-10-03 Juno Diagnostics, Inc. Deep learning-based methods, devices, and systems for prenatal testing

Also Published As

Publication number Publication date
KR20210067931A (ko) 2021-06-08
EP4068291A1 (en) 2022-10-05
WO2021107676A1 (ko) 2021-06-03
KR102586651B1 (ko) 2023-10-11
AU2020391556A1 (en) 2022-06-23
US20230028790A1 (en) 2023-01-26
EP4068291A4 (en) 2023-12-20
AU2020391556B2 (en) 2024-01-04
CA3163405A1 (en) 2021-06-03

Similar Documents

Publication Publication Date Title
AU2020391556B2 (en) Artificial intelligence-based chromosomal abnormality detection method
IL271093A (en) Variant classifier based on deep learning
IL302199B1 (en) Determination of base changes of nucleic acids
KR20230113840A (ko) 임신 중 긴 세포유리 단편을 사용한 분자 분석
US20230183812A1 (en) Artificial-intelligence-based cancer diagnosis and cancer type prediction method
JP2024028758A (ja) 核酸断片間距離情報を用いた染色体異常検出方法
US20230260655A1 (en) Method for diagnosing cancer and predicting cancer type by using terminal sequence motif frequency and size of cell-free nucleic acid fragment
KR102452413B1 (ko) 핵산 단편간 거리 정보를 이용한 염색체 이상 검출 방법
KR20220160807A (ko) 세포유리 핵산과 이미지 분석기술 기반의 암 진단 및 암 종 예측 방법
Iqbal et al. A framework for the RNA-Seq based classification and prediction of disease
KR20220062839A (ko) 인공지능 기반 모체 시료 중 태아 분획 결정 방법
KR102662186B1 (ko) 임신 중 긴 세포유리 단편을 사용한 분자 분석
KR20220071122A (ko) 핵산 길이 비를 이용한 암 진단 및 예후예측 방법
KR20230059423A (ko) 메틸화된 무세포 핵산을 이용한 암 진단 및 암 종 예측방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220727

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230623

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230627

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20230922

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240507