JP2023504139A - 人工知能ベースの染色体異常検出方法 - Google Patents
人工知能ベースの染色体異常検出方法 Download PDFInfo
- Publication number
- JP2023504139A JP2023504139A JP2022532058A JP2022532058A JP2023504139A JP 2023504139 A JP2023504139 A JP 2023504139A JP 2022532058 A JP2022532058 A JP 2022532058A JP 2022532058 A JP2022532058 A JP 2022532058A JP 2023504139 A JP2023504139 A JP 2023504139A
- Authority
- JP
- Japan
- Prior art keywords
- nucleic acid
- artificial intelligence
- value
- chromosome
- values
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 208000031404 Chromosome Aberrations Diseases 0.000 title claims abstract description 70
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 64
- 238000001514 detection method Methods 0.000 title claims abstract description 38
- 231100000005 chromosome aberration Toxicity 0.000 title claims abstract description 17
- 150000007523 nucleic acids Chemical class 0.000 claims abstract description 179
- 210000000349 chromosome Anatomy 0.000 claims abstract description 101
- 238000000034 method Methods 0.000 claims abstract description 79
- 108020004707 nucleic acids Proteins 0.000 claims abstract description 42
- 102000039446 nucleic acids Human genes 0.000 claims abstract description 42
- 239000012472 biological sample Substances 0.000 claims abstract description 12
- 238000012163 sequencing technique Methods 0.000 claims description 63
- 239000000523 sample Substances 0.000 claims description 47
- 208000036878 aneuploidy Diseases 0.000 claims description 24
- 238000013528 artificial neural network Methods 0.000 claims description 24
- 206010008805 Chromosomal abnormalities Diseases 0.000 claims description 23
- 230000002759 chromosomal effect Effects 0.000 claims description 21
- 231100001075 aneuploidy Toxicity 0.000 claims description 20
- 238000009826 distribution Methods 0.000 claims description 16
- 238000004458 analytical method Methods 0.000 claims description 14
- 210000004369 blood Anatomy 0.000 claims description 12
- 239000008280 blood Substances 0.000 claims description 12
- 238000013527 convolutional neural network Methods 0.000 claims description 12
- 210000004027 cell Anatomy 0.000 claims description 10
- 108090000623 proteins and genes Proteins 0.000 claims description 10
- 239000012634 fragment Substances 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 9
- 230000001605 fetal effect Effects 0.000 claims description 8
- 238000003860 storage Methods 0.000 claims description 7
- 239000011324 bead Substances 0.000 claims description 6
- 102000004169 proteins and genes Human genes 0.000 claims description 6
- 230000000306 recurrent effect Effects 0.000 claims description 5
- 230000000052 comparative effect Effects 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000000638 solvent extraction Methods 0.000 claims description 4
- 108091028043 Nucleic acid sequence Proteins 0.000 claims description 3
- 210000004381 amniotic fluid Anatomy 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 230000003169 placental effect Effects 0.000 claims description 3
- 238000004440 column chromatography Methods 0.000 claims description 2
- 239000003925 fat Substances 0.000 claims description 2
- 210000004209 hair Anatomy 0.000 claims description 2
- 210000003296 saliva Anatomy 0.000 claims description 2
- 238000005185 salting out Methods 0.000 claims description 2
- 210000000582 semen Anatomy 0.000 claims description 2
- 210000001519 tissue Anatomy 0.000 claims description 2
- 210000002700 urine Anatomy 0.000 claims description 2
- 238000004422 calculation algorithm Methods 0.000 abstract description 23
- 230000000694 effects Effects 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 abstract 1
- 238000012360 testing method Methods 0.000 description 50
- 238000007481 next generation sequencing Methods 0.000 description 28
- 108020004414 DNA Proteins 0.000 description 25
- 238000013136 deep learning model Methods 0.000 description 23
- 238000010200 validation analysis Methods 0.000 description 21
- 238000004364 calculation method Methods 0.000 description 20
- 125000003729 nucleotide group Chemical group 0.000 description 18
- 239000002773 nucleotide Substances 0.000 description 17
- 201000010374 Down Syndrome Diseases 0.000 description 12
- 206010044688 Trisomy 21 Diseases 0.000 description 12
- 230000008569 process Effects 0.000 description 12
- 238000012790 confirmation Methods 0.000 description 11
- 230000002441 reversible effect Effects 0.000 description 11
- 230000005856 abnormality Effects 0.000 description 10
- 239000000047 product Substances 0.000 description 10
- 238000002864 sequence alignment Methods 0.000 description 10
- 238000010276 construction Methods 0.000 description 9
- 238000012300 Sequence Analysis Methods 0.000 description 8
- 230000003321 amplification Effects 0.000 description 8
- 238000006243 chemical reaction Methods 0.000 description 8
- 238000003199 nucleic acid amplification method Methods 0.000 description 8
- 230000035945 sensitivity Effects 0.000 description 8
- 201000006360 Edwards syndrome Diseases 0.000 description 7
- 201000009928 Patau syndrome Diseases 0.000 description 7
- 206010044686 Trisomy 13 Diseases 0.000 description 7
- 208000006284 Trisomy 13 Syndrome Diseases 0.000 description 7
- 208000007159 Trisomy 18 Syndrome Diseases 0.000 description 7
- 238000003384 imaging method Methods 0.000 description 7
- 206010053884 trisomy 18 Diseases 0.000 description 7
- 206010028980 Neoplasm Diseases 0.000 description 6
- 230000008774 maternal effect Effects 0.000 description 6
- 238000011160 research Methods 0.000 description 6
- 239000007787 solid Substances 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 238000013459 approach Methods 0.000 description 5
- 238000012217 deletion Methods 0.000 description 5
- 230000037430 deletion Effects 0.000 description 5
- 230000002068 genetic effect Effects 0.000 description 5
- 238000009396 hybridization Methods 0.000 description 5
- 235000019689 luncheon sausage Nutrition 0.000 description 5
- 238000002360 preparation method Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 102000016928 DNA-directed DNA polymerase Human genes 0.000 description 4
- 108010014303 DNA-directed DNA polymerase Proteins 0.000 description 4
- 108091034117 Oligonucleotide Proteins 0.000 description 4
- 241000283907 Tragelaphus oryx Species 0.000 description 4
- 230000003322 aneuploid effect Effects 0.000 description 4
- 230000000295 complement effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 239000002070 nanowire Substances 0.000 description 4
- 238000007841 sequencing by ligation Methods 0.000 description 4
- 230000005641 tunneling Effects 0.000 description 4
- 238000002604 ultrasonography Methods 0.000 description 4
- 102000053602 DNA Human genes 0.000 description 3
- 238000000018 DNA microarray Methods 0.000 description 3
- 208000017924 Klinefelter Syndrome Diseases 0.000 description 3
- 238000000137 annealing Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 239000000975 dye Substances 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 239000007850 fluorescent dye Substances 0.000 description 3
- 238000007672 fourth generation sequencing Methods 0.000 description 3
- 238000010348 incorporation Methods 0.000 description 3
- 239000003550 marker Substances 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 238000012175 pyrosequencing Methods 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 239000000344 soap Substances 0.000 description 3
- 239000007790 solid phase Substances 0.000 description 3
- 230000005945 translocation Effects 0.000 description 3
- 241000143060 Americamysis bahia Species 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 2
- 102000012410 DNA Ligases Human genes 0.000 description 2
- 108010061982 DNA Ligases Proteins 0.000 description 2
- 230000006820 DNA synthesis Effects 0.000 description 2
- 108090000790 Enzymes Proteins 0.000 description 2
- 102000004190 Enzymes Human genes 0.000 description 2
- 229910019142 PO4 Inorganic materials 0.000 description 2
- 230000004075 alteration Effects 0.000 description 2
- 238000002669 amniocentesis Methods 0.000 description 2
- 238000000429 assembly Methods 0.000 description 2
- 230000000712 assembly Effects 0.000 description 2
- 239000002041 carbon nanotube Substances 0.000 description 2
- 229910021393 carbon nanotube Inorganic materials 0.000 description 2
- 238000005119 centrifugation Methods 0.000 description 2
- 210000004252 chorionic villi Anatomy 0.000 description 2
- 238000003776 cleavage reaction Methods 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 239000000839 emulsion Substances 0.000 description 2
- 210000004700 fetal blood Anatomy 0.000 description 2
- 238000000799 fluorescence microscopy Methods 0.000 description 2
- 238000002866 fluorescence resonance energy transfer Methods 0.000 description 2
- 238000002509 fluorescent in situ hybridization Methods 0.000 description 2
- 238000013467 fragmentation Methods 0.000 description 2
- 238000006062 fragmentation reaction Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000002493 microarray Methods 0.000 description 2
- 238000000386 microscopy Methods 0.000 description 2
- 239000002071 nanotube Substances 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 229920002401 polyacrylamide Polymers 0.000 description 2
- 230000037452 priming Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000007017 scission Effects 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- HEANZWXEJRRYTD-UHFFFAOYSA-M 2-[(6-hexadecanoylnaphthalen-2-yl)-methylamino]ethyl-trimethylazanium;chloride Chemical compound [Cl-].C1=C(N(C)CC[N+](C)(C)C)C=CC2=CC(C(=O)CCCCCCCCCCCCCCC)=CC=C21 HEANZWXEJRRYTD-UHFFFAOYSA-M 0.000 description 1
- 101100421761 Arabidopsis thaliana GSNAP gene Proteins 0.000 description 1
- 208000032791 BCR-ABL1 positive chronic myelogenous leukemia Diseases 0.000 description 1
- 108091061744 Cell-free fetal DNA Proteins 0.000 description 1
- 208000037051 Chromosomal Instability Diseases 0.000 description 1
- 206010061764 Chromosomal deletion Diseases 0.000 description 1
- 208000036086 Chromosome Duplication Diseases 0.000 description 1
- 208000010833 Chronic myeloid leukaemia Diseases 0.000 description 1
- 206010011385 Cri-du-chat syndrome Diseases 0.000 description 1
- 230000004544 DNA amplification Effects 0.000 description 1
- KCXVZYZYPLLWCC-UHFFFAOYSA-N EDTA Chemical compound OC(=O)CN(CC(O)=O)CCN(CC(O)=O)CC(O)=O KCXVZYZYPLLWCC-UHFFFAOYSA-N 0.000 description 1
- 108700024394 Exon Proteins 0.000 description 1
- 208000001951 Fetal Death Diseases 0.000 description 1
- 206010055690 Foetal death Diseases 0.000 description 1
- 101800000863 Galanin message-associated peptide Proteins 0.000 description 1
- 102100028501 Galanin peptides Human genes 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 101000848922 Homo sapiens Protein FAM72A Proteins 0.000 description 1
- 208000033761 Myelogenous Chronic BCR-ABL Positive Leukemia Diseases 0.000 description 1
- 108700020796 Oncogene Proteins 0.000 description 1
- 206010061902 Pancreatic neoplasm Diseases 0.000 description 1
- 102100034514 Protein FAM72A Human genes 0.000 description 1
- 108700025716 Tumor Suppressor Genes Proteins 0.000 description 1
- 102000044209 Tumor Suppressor Genes Human genes 0.000 description 1
- 208000026928 Turner syndrome Diseases 0.000 description 1
- 235000009499 Vanilla fragrans Nutrition 0.000 description 1
- 244000263375 Vanilla tahitensis Species 0.000 description 1
- 235000012036 Vanilla tahitensis Nutrition 0.000 description 1
- 206010049644 Williams syndrome Diseases 0.000 description 1
- 208000006254 Wolf-Hirschhorn Syndrome Diseases 0.000 description 1
- 210000002593 Y chromosome Anatomy 0.000 description 1
- 208000009956 adenocarcinoma Diseases 0.000 description 1
- 230000000692 anti-sense effect Effects 0.000 description 1
- 238000009534 blood test Methods 0.000 description 1
- 210000004958 brain cell Anatomy 0.000 description 1
- 230000030833 cell death Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 239000002299 complementary DNA Substances 0.000 description 1
- 238000000205 computational method Methods 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000006735 deficit Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000001962 electrophoresis Methods 0.000 description 1
- 238000006911 enzymatic reaction Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 231100000479 fetal death Toxicity 0.000 description 1
- 231100000562 fetal loss Toxicity 0.000 description 1
- 210000003754 fetus Anatomy 0.000 description 1
- 230000005669 field effect Effects 0.000 description 1
- 239000000499 gel Substances 0.000 description 1
- 238000012239 gene modification Methods 0.000 description 1
- 230000009395 genetic defect Effects 0.000 description 1
- 230000005017 genetic modification Effects 0.000 description 1
- 235000013617 genetically modified food Nutrition 0.000 description 1
- 238000013412 genome amplification Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000011065 in-situ storage Methods 0.000 description 1
- 238000001802 infusion Methods 0.000 description 1
- 239000003112 inhibitor Substances 0.000 description 1
- 230000003834 intracellular effect Effects 0.000 description 1
- 150000002500 ions Chemical class 0.000 description 1
- 231100000845 liver adenoma Toxicity 0.000 description 1
- 201000007270 liver cancer Diseases 0.000 description 1
- 208000014018 liver neoplasm Diseases 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 208000015486 malignant pancreatic neoplasm Diseases 0.000 description 1
- 210000001161 mammalian embryo Anatomy 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- QJGQUHMNIGDVPM-UHFFFAOYSA-N nitrogen group Chemical group [N] QJGQUHMNIGDVPM-UHFFFAOYSA-N 0.000 description 1
- 201000003738 orofaciodigital syndrome VIII Diseases 0.000 description 1
- 201000002528 pancreatic cancer Diseases 0.000 description 1
- 208000008443 pancreatic carcinoma Diseases 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000012567 pattern recognition method Methods 0.000 description 1
- NBIIXXVUZAFLBC-UHFFFAOYSA-K phosphate Chemical compound [O-]P([O-])([O-])=O NBIIXXVUZAFLBC-UHFFFAOYSA-K 0.000 description 1
- 239000010452 phosphate Substances 0.000 description 1
- 230000000704 physical effect Effects 0.000 description 1
- 210000002826 placenta Anatomy 0.000 description 1
- 229920000642 polymer Polymers 0.000 description 1
- 102000054765 polymorphisms of proteins Human genes 0.000 description 1
- 239000011148 porous material Substances 0.000 description 1
- 239000002244 precipitate Substances 0.000 description 1
- 238000009598 prenatal testing Methods 0.000 description 1
- 125000002924 primary amino group Chemical group [H]N([H])* 0.000 description 1
- 238000007634 remodeling Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000004574 scanning tunneling microscopy Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 210000002966 serum Anatomy 0.000 description 1
- 238000000527 sonication Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 238000004611 spectroscopical analysis Methods 0.000 description 1
- 239000006228 supernatant Substances 0.000 description 1
- 210000002993 trophoblast Anatomy 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B10/00—ICT specially adapted for evolutionary bioinformatics, e.g. phylogenetic tree construction or analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/10—Ploidy or copy number detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/20—Sequence assembly
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
Abstract
Description
a)生体試料から核酸を抽出して配列情報を取得する段階;
b)取得した配列情報(reads)を標準染色体配列データベース(reference genome database)に整列(alignment)する段階;
c)前記整列された核酸断片(fragments)に基づき、ベクトル化されたデータを生成する段階;
d)生成された前記ベクトル化されたデータを、学習された人工知能モデルに入力して分析し、基準値(cut-off value)と比較して染色体異常の有無を判定する段階、を含む、人工知能ベースの染色体異常検出方法に関する。
前記a)段階は、
(a-i)血液、精液、膣細胞、毛髪、唾液、尿、口腔細胞、胎盤細胞又は胎児細胞を含む羊水、組織細胞及びそれらの混合物から核酸を得る段階;
(a-ii)採取された核酸から塩析方法(salting-out method)、カラムクロマトグラフィー方法(column chromatography method)又はビーズ方法(beads method)を用いてタンパク質、脂肪、及びその他残余物を除去し、精製された核酸を得る段階;
(a-iii)精製された核酸又は酵素的切断、粉砕、水圧切断方法(hydroshear method)で無作為断片化(random fragmentation)された核酸に対して、シングルエンドシーケンシング(single-end sequencing)又はペアエンドシーケンシング(pair-end sequencing)ライブラリー(library)を作製する段階;
(a-iv)作製されたライブラリーを次世代シークエンサー(next-generation sequencer)に反応させる段階;及び
(a-v)次世代シークエンサーで核酸の配列情報(reads)を取得する段階;を含むことを特徴とし得る。
i)染色体を一定区間(bin)に区分する段階;
ii)各区間に整列された核酸断片の数を決定する段階;
iii)各区間に決定された核酸断片数をサンプルの全核酸断片数で割って正規化(normalization)する段階;及び
iv)各区間の順序をX軸値とし、前記iii)段階で計算した正規化値をY軸値としてGCプロットを生成する段階。
i)染色体を一定区間(bin)に区分する段階;
ii)各区間に整列された核酸断片間の距離(Fragments Distance,FD)を計算する段階;
iii)各区間別に計算された距離値に基づいて各区間の距離の代表値(RepFD)を決定する段階;
iv)前記iii)段階で計算された代表値を全核酸断片距離値の代表値で割って正規化(normalization)する段階;及び
v)各区間の順序をX軸値とし、前記iv)段階で計算した正規化値をY軸値としてGCプロットを生成する段階。
個の核酸断片間距離の組合せが可能である。すなわち、iが1の場合に、i+1は2となり、2~n番目核酸断片から選択されるいずれか一つ以上の核酸断片との距離を定義することができる。
ii)前記i)段階で計算された距離値に基づいて各区間の距離の代表値(RepFD)を決定する段階;
iii)前記ii)段階で決定された染色体別RepFD値を標準化(standardization)する段階;
iv)異数性を判別する染色体以外の染色体のうち一部を比較染色体群として選抜する段階;及び
iv)比較染色体群に属する染色体と異数性を判別する染色体をX軸に沿って順次に交差配列し、各染色体の標準化された計算値をY値とするGCWプロットを生成する段階。
1)染色体異数性が非検出された正常サンプルからなる標準集団を設定する段階;
2)前記標準集団から観察される染色体別RepFD値の平均(Reference_Mean)と標準偏差(Reference_Standard_Deviation)を計算する段階;
3)前記2)段階で計算した平均と標準偏差を下記数式1に代入してZ標準化する段階;
数式1:
Zchr = ((RepFDchr - Reference_Meanchr) /Reference_Standard_Deviationchr) + 5
ここで、シーケンシング量(リード数)が多いサンプルではRepFD値が低くなりながらZchr値が負数を有する場合が発生し得るが、Zchr値が負数になると、下記段階の異数性を判別しようとする染色体のZchr値で割る過程で問題が発生するため(Up-DownパターンがDown-Upパターンとしてひっくり返されて出ることがある。)、全体的に+5をして全てを正数値に作るために+5を足す。
i)生産されたGC、GCWプロットをTraining(学習)、Validation(検証)、Test(性能評価)データに分類する段階;
この時、Trainingデータは、CNNモデルを学習する際に用いられ、Validationデータは、ハイパーパラメータチューニング(hyper-parameter tuning)検証に用いられ、Testデータは、最適のモデル生産後に性能評価に用いられることを特徴とする。
iii)ハイパーパラメータチューニングによって得られた様々なモデルの性能をValidationデータを用いて比較し、Validationデータ性能が最も良好なモデルを最適のモデルと決定する段階;
本発明において、前記ハイパーパラメータチューニング過程は、CNNモデルをなす様々なパラメータ(畳み込み層(convolution layer)の数、全結合層(dense layer)の数、畳み込みフィルタ(convolution filter)の数など)値を最適化する過程であり、ハイパーパラメータチューニング過程としてはベイズ最適化(Bayesian optimization)及びグリッド検索(grid search)手法を用いることを特徴とし得る。
解読された配列を標準染色体配列データベースに整列する整列部;
整列された核酸断片(fragments)に基づき、ベクトル化されたデータを生成するデータ生成部;
生成されたベクトル化されたデータを、学習された人工知能モデルに入力して分析し、基準値と比較して染色体異常の有無を判定する染色体異常判定部を含む人工知能ベースの染色体異常検出装置に関する。
a)生体試料から核酸を抽出して配列情報を取得する段階;
b)取得した配列情報(reads)を標準染色体配列データベース(reference genome database)に整列(alignment)する段階;
c)前記整列された核酸断片(fragments)に基づき、ベクトル化されたデータを生成する段階;
d)生成された前記ベクトル化されたデータを、学習された人工知能モデルに入力して分析し、基準値(cut-off value)を比較して染色体異常の有無を判定する段階によって染色体異常を検出するプロセッサによって実行されるように構成される命令を含むコンピュータ可読記憶媒体に関する。
Claims (18)
- a)生体試料から核酸を抽出して配列情報を取得する段階;
b)取得した配列情報(reads)を標準染色体配列データベース(reference genome database)に整列(alignment)する段階;
c)前記整列された配列情報(reads)ベースの核酸断片(fragments)を用いたベクトル化されたデータを生成する段階;
d)生成された前記ベクトル化されたデータを、学習された人工知能モデルに入力して分析し、基準値(cut-off value)と比較して染色体異常の有無を判定する段階を含む、人工知能ベースの染色体異常検出方法。 - 前記a)段階は、次の段階を含む方法で行われることを特徴とする、請求項1に記載の人工知能ベースの染色体異常検出方法:
(a-i)血液、精液、膣細胞、毛髪、唾液、尿、口腔細胞、胎盤細胞又は胎児細胞を含む羊水、組織細胞又はその混合物から核酸を取得する段階;
(a-ii)採取された核酸から、塩析方法(salting-out method)、カラムクロマトグラフィー方法(column chromatography method)又はビーズ方法(beads method)を用いてタンパク質、脂肪、及びその他残余物を除去し、精製された核酸を取得する段階;
(a-iii)精製された核酸又は酵素的切断、粉砕、水圧切断方法(hydroshear method)で無作為断片化(random fragmentation)された核酸に対して、シングルエンドシーケンシング(single-end sequencing)又はペアエンドシーケンシング(pair-end sequencing)ライブラリー(library)を作製する段階;
(a-iv)作製されたライブラリーを次世代シークエンサー(next-generation sequencer)で反応させる段階;及び
(a-v)次世代シークエンサーで核酸の配列情報(reads)を取得する段階。 - 前記c)段階のベクトル化されたデータは、グランドキャニオンプロット(Grand Canyon plot,GCプロット)又はゲノミックキャッスルウォールプロット(Genomic Castle Wall plot ,GCWプロット)であることを特徴とする、請求項1に記載の人工知能ベースの染色体異常検出方法。
- 前記GCプロットは、整列された核酸断片の染色体区間別分布を区間別の数(count)又は核酸断片(fragment)間の距離を計算してベクトル化されたデータとして生成することを特徴とする、請求項3に記載の人工知能ベースの染色体異常検出方法。
- 前記染色体区間別分布を核酸断片の数で計算することは、下記の段階を含んで行うことを特徴とする、請求項4に記載の人工知能ベースの染色体異常検出方法:
i)染色体を一定区間(bin)に区分する段階;
ii)各区間に整列された核酸断片の数を決定する段階;
iii)各区間に決定された核酸断片数をサンプルの全核酸断片数で割って正規化(normalization)する段階;及び
iv)各区間の順序をX軸値とし、前記iii)段階で計算した正規化値をY軸値としてGCプロットを生成する段階。 - 前記染色体区間別分布を核酸断片間の距離で計算することは、下記の段階を含んで行うことを特徴とする、請求項4に記載の人工知能ベースの染色体異常検出方法:
i)染色体を一定区間(bin)に区分する段階;
ii)各区間に整列された核酸断片間の距離を計算する段階;
iii)各区間別に計算された距離値に基づいて各区間の距離の代表値(RepFD)を決定する段階;
iv)前記iii)段階で計算された代表値を全核酸断片間の距離値の代表値で割って正規化(normalization)する段階;及び
v)各区間の順序をX軸値とし、前記iv)段階で計算した正規化値をY軸値としてGCプロットを生成する段階。 - 前記代表値は、核酸断片間の距離の和、差、積、平均、中央値、分位数、最小値、最大値、分散、標準偏差、中央値絶対偏差、変動係数、それらの逆数値及びそれらの組合せからなる群から選ばれる一つ以上であることを特徴とする、請求項6に記載の人工知能ベースの染色体異常検出方法。
- 前記GCWプロットは、整列された核酸断片間の距離を染色体単位で計算し、正常染色体と異数性を判別しようとする染色体の距離値を交差配列してグラフとして生成することを特徴とする、請求項3に記載の人工知能ベースの染色体異常検出方法。
- 前記GCWプロットは、下記の段階を含む方法によって行われることを特徴とする、請求項8に記載の人工知能ベースの染色体異常検出方法:
i)各染色体別に整列された核酸断片間の距離を計算する段階;
ii)前記i)段階で計算された距離値に基づいて各区間の距離の代表値を決定する段階;
iii)前記ii)段階で決定された染色体別代表値を標準化(standardization)する段階;
iv)異数性を判別する染色体以外の染色体のうち一部を比較染色体群として選抜する段階;及び
v)比較染色体群に属する染色体と異数性を判別する染色体をX軸に沿って順次に交差配列し、各染色体の標準化された計算値をY値とするGCWプロットを生成する段階。 - 前記iii)段階の代表値を標準化する段階は、下記の段階を含む方法で行われることを特徴とする、請求項9に記載の人工知能ベースの染色体異常検出方法:
1)染色体異数性が非検出された正常サンプルからなる標準集団を設定する段階;
2)前記標準集団から観察される染色体別RepFD値の平均(Reference_Mean)と標準偏差(Reference_Standard_Deviation)を計算する段階;
3)前記2)段階で計算した平均と標準偏差を下記数式1に代入してZ標準化する段階;
数式1:
Zchr = ((RepFDchr - Reference_Meanchr) /Reference_Standard_Deviationchr) + 5
4)前記3)段階で計算した染色体別Zchr値を、異数性を判別しようとする染色体のZchr値で割る段階。 - 前記代表値は、核酸断片間の距離の和、差、積、平均、中央値、分位数、最小値、最大値、分散、標準偏差、中央値絶対偏差、変動係数、それらの逆数値及びそれらの組合せからなる群から選ばれる一つ以上の値であることを特徴とする、請求項9に記載の人工知能ベースの染色体異常検出方法。
- 前記(d)段階の人工知能モデルは、染色体状態が正常であるベクトル化されたデータと、染色体異常があるベクトル化されたデータとを区別できるように学習することを特徴とする、請求項1に記載の人工知能ベースの染色体異常検出方法。
- 前記人工知能モデルは、convolutional neural network(CNN)、Deep Neural Network(DNN)、Recurrent Neural Network(RNN)及びオートエンコーダ(autoencoder)からなる群から選ばれることを特徴とする、請求項12に記載の人工知能ベースの染色体異常検出方法。
- 前記d)段階の人工知能モデルが入力されたベクトル化されたデータを分析して出力する結果値は、DPI(Deep Probability Index)値であることを特徴とする、請求項1に記載の人工知能ベースの染色体異常検出方法。
- 前記d)段階の基準値は0.5であり、0.5以上である場合に、染色体異常があると判定することを特徴とする、請求項1に記載の人工知能ベースの染色体異常検出方法。
- 生体試料から核酸を抽出して配列情報を解読する解読部;
解読された配列を標準染色体配列データベースに整列する整列部;
整列された配列ベースの核酸断片を用いたベクトル化されたデータを生成するデータ生成部;及び
生成されたベクトル化されたデータを、学習された人工知能モデルに入力して分析し、基準値と比較して染色体異常の有無を判定する染色体異常判定部を含む、人工知能ベースの染色体異常検出装置。 - コンピュータ可読記憶媒体であって、染色体異常を検出するプロセッサによって実行されるように構成される命令を含み、
a)生体試料から核酸を抽出して配列情報を取得する段階;
b)取得した配列情報(reads)を標準染色体配列データベース(reference genome database)に整列(alignment)する段階;
c)前記整列された配列情報(reads)ベースの核酸断片を用いたベクトル化されたデータを生成する段階;
d)生成された前記ベクトル化されたデータを、学習された人工知能モデルに入力して分析し、基準値(cut-off value)を比較して染色体異常の有無を判定する段階、によって染色体異常を検出するプロセッサによって実行されるように構成される命令を含む、コンピュータ可読記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2019-0157257 | 2019-11-29 | ||
KR20190157257 | 2019-11-29 | ||
PCT/KR2020/017065 WO2021107676A1 (ko) | 2019-11-29 | 2020-11-27 | 인공지능 기반 염색체 이상 검출 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023504139A true JP2023504139A (ja) | 2023-02-01 |
Family
ID=76129497
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022532058A Pending JP2023504139A (ja) | 2019-11-29 | 2020-11-27 | 人工知能ベースの染色体異常検出方法 |
Country Status (7)
Country | Link |
---|---|
US (1) | US20230028790A1 (ja) |
EP (1) | EP4068291A4 (ja) |
JP (1) | JP2023504139A (ja) |
KR (1) | KR102586651B1 (ja) |
AU (1) | AU2020391556B2 (ja) |
CA (1) | CA3163405A1 (ja) |
WO (1) | WO2021107676A1 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113408533B (zh) * | 2021-08-23 | 2021-12-10 | 首都医科大学附属北京妇产医院 | 基于胎儿超声影像特征组学的染色体异常预测模型的构建方法及诊断设备 |
KR20230059423A (ko) | 2021-10-26 | 2023-05-03 | 주식회사 지씨지놈 | 메틸화된 무세포 핵산을 이용한 암 진단 및 암 종 예측방법 |
KR20230076686A (ko) * | 2021-11-24 | 2023-05-31 | 테라젠지놈케어 주식회사 | 가상 데이터에 기반한 태아의 염색체이수성을 검출하는 방법 |
KR20230114952A (ko) * | 2022-01-26 | 2023-08-02 | 권창혁 | 암 판별 장치 및 암 판별 방법 |
WO2023219263A1 (ko) * | 2022-05-09 | 2023-11-16 | 테라젠지놈케어 주식회사 | 가상 양성 데이터 및 가상 음성 데이터에 기반한 태아의 염색체이수성을 검출하는 방법 |
CN115330603B (zh) * | 2022-10-17 | 2023-01-20 | 湖南自兴智慧医疗科技有限公司 | 基于深度学习卷积神经网络的人类染色体图像摆正方法 |
CN116434837B (zh) * | 2023-06-12 | 2023-08-29 | 广州盛安医学检验有限公司 | 一种基于ngs的染色体平衡易位检测分析系统 |
CN117473444B (zh) * | 2023-12-27 | 2024-03-01 | 北京诺赛基因组研究中心有限公司 | 基于CNN和SVM的Sanger测序结果质检方法 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE602004024034D1 (de) | 2003-01-29 | 2009-12-24 | 454 Corp | Nukleinsäureamplifikation auf basis von kügelchenemulsion |
CA2557841A1 (en) | 2004-02-27 | 2005-09-09 | President And Fellows Of Harvard College | Polony fluorescent in situ sequencing beads |
TWI287041B (en) | 2005-04-27 | 2007-09-21 | Jung-Tang Huang | An ultra-rapid DNA sequencing method with nano-transistors array based devices |
US20060275779A1 (en) | 2005-06-03 | 2006-12-07 | Zhiyong Li | Method and apparatus for molecular analysis using nanowires |
US20070194225A1 (en) | 2005-10-07 | 2007-08-23 | Zorn Miguel D | Coherent electron junction scanning probe interference microscope, nanomanipulator and spectrometer with assembler and DNA sequencing applications |
CN102952854B (zh) * | 2011-08-25 | 2015-01-14 | 深圳华大基因科技有限公司 | 单细胞分类和筛选方法及其装置 |
RU2597981C2 (ru) * | 2012-05-14 | 2016-09-20 | БГИ Диагносис Ко., Лтд. | Способ и система для определения нуклеотидной последовательности в заданной области генома плода |
GB201215449D0 (en) * | 2012-08-30 | 2012-10-17 | Zoragen Biotechnologies Llp | Method of detecting chromosonal abnormalities |
US10319463B2 (en) * | 2015-01-23 | 2019-06-11 | The Chinese University Of Hong Kong | Combined size- and count-based analysis of maternal plasma for detection of fetal subchromosomal aberrations |
WO2016139545A1 (en) * | 2015-03-05 | 2016-09-09 | Indian Institute Of Science | Hardware accelerator for alignment of short reads in sequencing platforms |
KR101817785B1 (ko) * | 2015-08-06 | 2018-01-11 | 이원다이애그노믹스(주) | 다양한 플랫폼에서 태아의 성별과 성염색체 이상을 구분할 수 있는 새로운 방법 |
KR101686146B1 (ko) * | 2015-12-04 | 2016-12-13 | 주식회사 녹십자지놈 | 핵산의 혼합물을 포함하는 샘플에서 복제수 변이를 결정하는 방법 |
KR101809599B1 (ko) * | 2016-02-04 | 2017-12-15 | 연세대학교 산학협력단 | 약물과 단백질 간 관계 분석 방법 및 장치 |
KR20180124550A (ko) | 2017-05-12 | 2018-11-21 | 한국전자통신연구원 | 연관패턴 학습을 통한 사용자 일정 추천 시스템 및 방법 |
KR102220653B1 (ko) * | 2017-10-30 | 2021-03-02 | 서울대학교산학협력단 | 심화 학습 기반의 약물-표적 단백질 간 상호작용 예측 시스템 및 그 방법 |
US11168356B2 (en) * | 2017-11-02 | 2021-11-09 | The Chinese University Of Hong Kong | Using nucleic acid size range for noninvasive cancer detection |
WO2019191319A1 (en) * | 2018-03-30 | 2019-10-03 | Juno Diagnostics, Inc. | Deep learning-based methods, devices, and systems for prenatal testing |
-
2020
- 2020-11-27 AU AU2020391556A patent/AU2020391556B2/en active Active
- 2020-11-27 KR KR1020200162184A patent/KR102586651B1/ko active IP Right Grant
- 2020-11-27 EP EP20894598.0A patent/EP4068291A4/en active Pending
- 2020-11-27 US US17/780,813 patent/US20230028790A1/en active Pending
- 2020-11-27 WO PCT/KR2020/017065 patent/WO2021107676A1/ko unknown
- 2020-11-27 CA CA3163405A patent/CA3163405A1/en active Pending
- 2020-11-27 JP JP2022532058A patent/JP2023504139A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
KR20210067931A (ko) | 2021-06-08 |
EP4068291A1 (en) | 2022-10-05 |
WO2021107676A1 (ko) | 2021-06-03 |
KR102586651B1 (ko) | 2023-10-11 |
AU2020391556A1 (en) | 2022-06-23 |
US20230028790A1 (en) | 2023-01-26 |
EP4068291A4 (en) | 2023-12-20 |
AU2020391556B2 (en) | 2024-01-04 |
CA3163405A1 (en) | 2021-06-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2020391556B2 (en) | Artificial intelligence-based chromosomal abnormality detection method | |
IL271093A (en) | Variant classifier based on deep learning | |
IL302199B1 (en) | Determination of base changes of nucleic acids | |
KR20230113840A (ko) | 임신 중 긴 세포유리 단편을 사용한 분자 분석 | |
US20230183812A1 (en) | Artificial-intelligence-based cancer diagnosis and cancer type prediction method | |
JP2024028758A (ja) | 核酸断片間距離情報を用いた染色体異常検出方法 | |
US20230260655A1 (en) | Method for diagnosing cancer and predicting cancer type by using terminal sequence motif frequency and size of cell-free nucleic acid fragment | |
KR102452413B1 (ko) | 핵산 단편간 거리 정보를 이용한 염색체 이상 검출 방법 | |
KR20220160807A (ko) | 세포유리 핵산과 이미지 분석기술 기반의 암 진단 및 암 종 예측 방법 | |
Iqbal et al. | A framework for the RNA-Seq based classification and prediction of disease | |
KR20220062839A (ko) | 인공지능 기반 모체 시료 중 태아 분획 결정 방법 | |
KR102662186B1 (ko) | 임신 중 긴 세포유리 단편을 사용한 분자 분석 | |
KR20220071122A (ko) | 핵산 길이 비를 이용한 암 진단 및 예후예측 방법 | |
KR20230059423A (ko) | 메틸화된 무세포 핵산을 이용한 암 진단 및 암 종 예측방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220727 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230623 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230627 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20230922 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231227 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240206 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240507 |