JP2024505780A - 胎児染色体異常を検出する方法およびシステム - Google Patents
胎児染色体異常を検出する方法およびシステム Download PDFInfo
- Publication number
- JP2024505780A JP2024505780A JP2023532353A JP2023532353A JP2024505780A JP 2024505780 A JP2024505780 A JP 2024505780A JP 2023532353 A JP2023532353 A JP 2023532353A JP 2023532353 A JP2023532353 A JP 2023532353A JP 2024505780 A JP2024505780 A JP 2024505780A
- Authority
- JP
- Japan
- Prior art keywords
- feature vector
- module
- array
- chromosome
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 92
- 230000001605 fetal effect Effects 0.000 title claims abstract description 62
- 208000031404 Chromosome Aberrations Diseases 0.000 title claims abstract description 46
- 206010008805 Chromosomal abnormalities Diseases 0.000 title claims abstract description 31
- 239000013598 vector Substances 0.000 claims abstract description 168
- 210000000349 chromosome Anatomy 0.000 claims abstract description 120
- 238000012163 sequencing technique Methods 0.000 claims abstract description 99
- 239000011159 matrix material Substances 0.000 claims abstract description 93
- 239000002131 composite material Substances 0.000 claims abstract description 66
- 238000001514 detection method Methods 0.000 claims abstract description 51
- 238000010801 machine learning Methods 0.000 claims abstract description 25
- 150000007523 nucleic acids Chemical group 0.000 claims abstract description 22
- 230000002159 abnormal effect Effects 0.000 claims abstract description 17
- 238000012549 training Methods 0.000 claims description 61
- 238000003062 neural network model Methods 0.000 claims description 58
- 238000011176 pooling Methods 0.000 claims description 46
- 230000002759 chromosomal effect Effects 0.000 claims description 43
- 238000013507 mapping Methods 0.000 claims description 36
- 208000036878 aneuploidy Diseases 0.000 claims description 23
- 238000012360 testing method Methods 0.000 claims description 23
- 239000012634 fragment Substances 0.000 claims description 22
- 231100001075 aneuploidy Toxicity 0.000 claims description 21
- 238000000605 extraction Methods 0.000 claims description 18
- 238000010606 normalization Methods 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 17
- 230000004913 activation Effects 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 14
- 238000004422 calculation algorithm Methods 0.000 claims description 13
- 201000010374 Down Syndrome Diseases 0.000 claims description 12
- 210000005259 peripheral blood Anatomy 0.000 claims description 12
- 239000011886 peripheral blood Substances 0.000 claims description 12
- 208000011580 syndromic disease Diseases 0.000 claims description 11
- 208000006284 Trisomy 13 Syndrome Diseases 0.000 claims description 10
- 208000007159 Trisomy 18 Syndrome Diseases 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 238000012937 correction Methods 0.000 claims description 10
- 210000003754 fetus Anatomy 0.000 claims description 10
- 210000004205 output neuron Anatomy 0.000 claims description 9
- 238000002604 ultrasonography Methods 0.000 claims description 9
- 206010011385 Cri-du-chat syndrome Diseases 0.000 claims description 6
- 238000013145 classification model Methods 0.000 claims description 6
- 238000007637 random forest analysis Methods 0.000 claims description 6
- 210000003765 sex chromosome Anatomy 0.000 claims description 6
- 238000012706 support-vector machine Methods 0.000 claims description 6
- 238000010876 biochemical test Methods 0.000 claims description 5
- 210000004185 liver Anatomy 0.000 claims description 5
- 238000007477 logistic regression Methods 0.000 claims description 5
- 210000002826 placenta Anatomy 0.000 claims description 5
- 208000031639 Chromosome Deletion Diseases 0.000 claims description 4
- 238000003745 diagnosis Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 4
- 230000009467 reduction Effects 0.000 claims description 3
- 230000003322 aneuploid effect Effects 0.000 claims description 2
- 230000002708 enhancing effect Effects 0.000 claims description 2
- 210000004700 fetal blood Anatomy 0.000 claims 1
- 239000000523 sample Substances 0.000 description 43
- 238000005070 sampling Methods 0.000 description 11
- 108091061744 Cell-free fetal DNA Proteins 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 8
- 230000008774 maternal effect Effects 0.000 description 8
- 108020004414 DNA Proteins 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 7
- 238000009609 prenatal screening Methods 0.000 description 7
- 238000007481 next generation sequencing Methods 0.000 description 6
- 108090000623 proteins and genes Proteins 0.000 description 6
- 208000037280 Trisomy Diseases 0.000 description 5
- 238000001801 Z-test Methods 0.000 description 5
- 238000002669 amniocentesis Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000002405 diagnostic procedure Methods 0.000 description 4
- 230000005856 abnormality Effects 0.000 description 3
- 238000002790 cross-validation Methods 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000002068 genetic effect Effects 0.000 description 3
- 238000012165 high-throughput sequencing Methods 0.000 description 3
- 108020004707 nucleic acids Proteins 0.000 description 3
- 102000039446 nucleic acids Human genes 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000035935 pregnancy Effects 0.000 description 3
- 238000003793 prenatal diagnosis Methods 0.000 description 3
- 238000009598 prenatal testing Methods 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 230000000405 serological effect Effects 0.000 description 3
- 206010000234 Abortion spontaneous Diseases 0.000 description 2
- 108010062540 Chorionic Gonadotropin Proteins 0.000 description 2
- 102000011022 Chorionic Gonadotropin Human genes 0.000 description 2
- 206010044688 Trisomy 21 Diseases 0.000 description 2
- 102000013529 alpha-Fetoproteins Human genes 0.000 description 2
- 108010026331 alpha-Fetoproteins Proteins 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 239000013068 control sample Substances 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 229940084986 human chorionic gonadotropin Drugs 0.000 description 2
- 208000015994 miscarriage Diseases 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003252 repetitive effect Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 208000000995 spontaneous abortion Diseases 0.000 description 2
- 238000000551 statistical hypothesis test Methods 0.000 description 2
- 230000036266 weeks of gestation Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 208000035473 Communicable disease Diseases 0.000 description 1
- 201000006360 Edwards syndrome Diseases 0.000 description 1
- 208000022471 Fetal disease Diseases 0.000 description 1
- 208000026350 Inborn Genetic disease Diseases 0.000 description 1
- 206010056254 Intrauterine infection Diseases 0.000 description 1
- AFCARXCZXQIEQB-UHFFFAOYSA-N N-[3-oxo-3-(2,4,6,7-tetrahydrotriazolo[4,5-c]pyridin-5-yl)propyl]-2-[[3-(trifluoromethoxy)phenyl]methylamino]pyrimidine-5-carboxamide Chemical compound O=C(CCNC(=O)C=1C=NC(=NC=1)NCC1=CC(=CC=C1)OC(F)(F)F)N1CC2=C(CC1)NN=N2 AFCARXCZXQIEQB-UHFFFAOYSA-N 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 208000008589 Obesity Diseases 0.000 description 1
- 201000009928 Patau syndrome Diseases 0.000 description 1
- 201000010769 Prader-Willi syndrome Diseases 0.000 description 1
- 208000037492 Sex Chromosome Aberrations Diseases 0.000 description 1
- 206010052779 Transplant rejections Diseases 0.000 description 1
- 206010044686 Trisomy 13 Diseases 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013398 bayesian method Methods 0.000 description 1
- 238000003766 bioinformatics method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000010241 blood sampling Methods 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 210000004252 chorionic villi Anatomy 0.000 description 1
- 231100000005 chromosome aberration Toxicity 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 208000035475 disorder Diseases 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 208000016361 genetic disease Diseases 0.000 description 1
- 208000002672 hepatitis B Diseases 0.000 description 1
- 230000035800 maturation Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 235000020824 obesity Nutrition 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 201000003738 orofaciodigital syndrome VIII Diseases 0.000 description 1
- 210000002966 serum Anatomy 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 210000001519 tissue Anatomy 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
- 206010053884 trisomy 18 Diseases 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/10—Ploidy or copy number detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/156—Polymorphic or mutational markers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
Landscapes
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Chemical & Material Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Medical Informatics (AREA)
- Organic Chemistry (AREA)
- Biotechnology (AREA)
- Analytical Chemistry (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- Data Mining & Analysis (AREA)
- Wood Science & Technology (AREA)
- Zoology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Public Health (AREA)
- Biochemistry (AREA)
- Microbiology (AREA)
- Immunology (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Epidemiology (AREA)
- Pathology (AREA)
- Databases & Information Systems (AREA)
- Bioethics (AREA)
- Computational Linguistics (AREA)
Abstract
本発明は、バイオ技術の分野に関する。胎児染色体異常を検出する方法およびシステムを開示する。本方法は、(1)検出対象の妊婦から無細胞核酸断片のシーケンシングデータおよび臨床表現型特徴データを取得する工程であって、前記シーケンシングデータが複数のリードセグメントを含み、前記妊婦の前記臨床表現型特徴データが前記妊婦の表現型特徴ベクトルを形成する工程と、(2)参照ゲノムの染色体配列の少なくとも一部にウィンドウ分割を行って複数のスライディングウィンドウを取得し、前記スライディングウィンドウ内に含まれる前記リードセグメントをカウントし、前記染色体配列の配列特徴行列を生成する工程と、(3)訓練済み機械学習モデルに前記配列特徴行列を入力して前記染色体配列の配列特徴ベクトルを抽出する工程と、(4)前記配列特徴ベクトルと前記妊婦の前記表現型特徴ベクトルとを組み合わせて複合特徴ベクトルを形成し、前記複合特徴ベクトルを分類検出モデルに入力することにより前記検出対象の妊婦の胎児染色体異常状態を取得する工程と、を含む。
Description
本発明は、バイオテクノロジーの分野に関し、より具体的には、胎児染色体異常を検出する方法およびシステムに関する。
染色体異数性疾患は、胎児における個々の染色体の数が増加または減少することによって正常な遺伝子発現に影響を及ぼす重篤な遺伝病の一種を指す。主に21トリソミー症候群、18トリソミー症候群、13トリソミー症候群、5p症候群などが含まれる。染色体異数性疾患は、死亡および身体障害のリスクが高く、効果的な治療法はない。現在、出生前スクリーニングおよび出生前診断が、染色体異数性の小児の出生率を低下させるために、主に使用されている。
従来の染色体異数性検出は、超音波診断検査または血清学的スクリーニングに基づく非侵襲的出生前スクリーニング、および侵襲的サンプリングに基づく出生前診断を主に含む。超音波診断検査に基づく出生前スクリーニング法では、妊娠10~14週で胎児の項部透過像(NT)の厚さをチェックすることによって、胎児染色体が異常であるかどうかを判定することができる。NTが3mmより大きい場合、胎児の染色体異数性のリスクはより高いと一般的に考えられている。血清学に基づく出生前スクリーニングは、妊娠13~16週に母体血清中のαフェトプロテイン(AFP)およびヒト絨毛性ゴナドトロピン(HCG)の濃度を検出して、妊婦の出産予定日および年齢ならびに採血時の妊娠週数と組み合わせて、胎児染色体異常の危険因子を計算することによって実施される。侵襲的サンプリングに基づく出生前診断法は、一般的に、妊娠16~24週での羊水穿刺、臍帯穿刺または直接絨毛膜サンプリングによって胎児サンプルを取得して、胎児が染色体異常を有するかどうかを検出する。超音波診断検査と血清学的検査に基づく複合スクリーニング方法は、胎児染色体を直接的に検出するのではなく、胎児病の危険性を推定することであり、検出精度は50%~95%、偽陽性率は3%~7%である[1,2]。侵襲的サンプリングに基づく方法は、胎児の異数性を正確に直接診断することができる胎児染色体異常の検出および診断の「絶対的基準」である。しかしながら、この方法は一定の流産率(0.5%~2%)があり、また、B型肝炎などの感染性疾患に罹患している妊婦は、胎児に感染するリスクがあるため侵襲的サンプリング(羊水穿刺など)に適していない。加えて、羊水穿刺はB走査超音波検査の誘導の下で実施される必要があるが、これは長い時間を要し、操作者に高い技術的要件が必要とされる。
母体末梢血における胎児の無細胞DNA(cfDNA)の発見、次世代シーケンシング(NGS)技術の成熟、シーケンシングコストの有意な低減、および情報分析技術の発展により、NGS技術に基づく非侵襲的出生前検査(NIPT)は、胎児染色体異数性疾患に最も広く使用される出生前スクリーニング方法になりつつある。NIPT技術では、母体末梢血を利用し、NGS技術によって母体末梢血(無細胞胎児DNAを含む)中の無細胞DNAの配列を決定し、バイオインフォマティクス解析と組み合わせて胎児遺伝情報を取得することにより、胎児が21トリソミー症候群(ダウン症候群)、18トリソミー症候群(エドワーズ症候群)、13トリソミー症候群(パタウ症候群)などの染色体異常疾患に罹患しているかどうかを検出することができる。
NIPT技術は、感度と特異性(T21、T18、T13のそれぞれの感度は99%以上)が高く、偽陽性率が低いため(0.1%未満)、診療で広く使用されている[3-5]。NIPT技術は、血清学的スクリーニングの偽陽性率を低下させることができ、侵襲的な出生前診断処置(羊水穿刺および絨毛膜絨毛採取など)によって引き起こされる胎児の子宮内感染および流産のリスクを回避することができる。これは、妊娠初期および中期において安全性の高い非侵襲的出生前スクリーニング技術である。
NGS技術に基づく従来のNIPTは、シーケンシングのリードカウントを計算し、ベースラインZ検定[6]を使用することによって胎児染色体異常を検出する。原理は以下の通りである。まず、妊娠12~22週の母体末梢血サンプルを採取し、NGS技術を用いて前記末梢血サンプル中の無細胞DNAをシーケンシングし、得られたシーケンシングリードセグメントをヒト参照ゲノム配列とアラインメントさせ(そして、リードカウントに対するGC含量を同時に補正し)、各染色体の一意マッピングリードの数をカウントし、サンプル中の染色体の一意マッピングリードカウントの総数に対するその割合を計算し、さらに、検出対象サンプル中の染色体のZスコアを検出対象サンプル中の染色体の一意マッピングリードの割合からコントロールサンプル(すなわち、正常サンプル)中の染色体の一意マッピングリードカウントの対応する割合の平均値を減算することによって取得する。その後、コントロールサンプル中の染色体の一意マッピングリードカウントの対応する割合の標準偏差で除算する。最後に、Zスコアを所与の閾値と比較して、Zスコアが前記閾値より大きい場合はトリソミー症候群のリスクが高いと判定し、そうでない場合はトリソミー症候群のリスクが低いと判定する。ここで、コントロール群の正常サンプル中の各染色体の一意マッピングリードカウントの平均値は、ベースライン値である。したがって、前記コントロール群中に存在する正常サンプルが多いほど、一意のマッピングリードの割合の平均値および標準偏差がより正確に得られ、結果として、Zスコアがより正確に得られる。ここで、Zスコアの前記所与の閾値は一般的に3であるが、これは、統計的に定義されている、すなわち、通常の期待値から99.9%の偏差である。
異なる統計的仮説検定は、異なるベースライン値に応じて選択することができる。例えば、参考文献[7]において、相関分析およびT検定が採用され、サンプル中の固定サイズウィンドウ内の各染色体のリードカウントの中央値をこの染色体のリードカウントを表すベースライン値として使用し、サンプル中の染色体の総リードカウントの中央値を用いてサンプルのリードカウントを表し、各染色体のリードカウントをサンプルのリードカウントで除算して対応する染色体の正規化されたリードカウントを取得し、最後に、コントロール群中の全てのサンプルの各染色体の正規化されたリードカウントを用いて信頼区間を計算し、検出対象サンプルのスコアが前記信頼区間内に含まれない場合、前記サンプルは異常であると考えられる。別の例として、参考文献[8]において、目的の染色体(第21染色体など)と同程度のGC含量の参照染色体を既知の核型のサンプルにおいて選択し、前記参照染色体のリードカウントをZ検定のベースライン値として用いることが提案されており、これにより、既知の核型のサンプル中の目的の染色体異常の検出精度が最大限となる。ベースライン値となる前記参照染色体は、いわゆる内部染色体である。別の例として、非侵襲的胎児トリソミー(NIFTY)検出法が参考文献[9]において提案されている。染色体のリードカウントを正常コントロールサンプルのリードカウントと比較することに加えて、この方法は、無細胞胎児DNAの割合も考慮する。この方法では、2値仮説検定、対数尤度比、およびFCAPS2値分割アルゴリズムを用いて検出結果を判定する。NIFTYは、ゲノム全体に基づくアプローチである。この方法は大きな母集団によって高い精度で検証されているが、プロセスは比較的複雑である。リードカウントに基づく前述の統計的仮説検定(Z検定またはT検定)方法は、現在のNIPT解析の鍵である。
リードカウントに基づく前述の統計的仮説検定(Z検定など)は、現在のところ主流のNIPT分析法であるが、これらの分析方法は以下のように明らかな制限がある。(1)現在のNIPT分析法は、個々のサンプルのシーケンシングリードセグメント分布に偏差をもたらして異なる状況におけるZ-スコア計算に変動をもたらすことにより、最終結果判断および関連する性能指標に影響を及ぼす可能性がある。(2)現在のNIPT分析法は、母体末梢血中の無細胞胎児DNAの割合に大きく依存しており、無細胞胎児DNAの割合が過度に低い(4%未満)と妊婦間の個体差が大きいために偽陰性検出のリスクが高まる可能性がある。(3)現在のNIPT分析法は、トリソミー21症候群の検出においては良好に機能するが、トリソミー18症候群およびトリソミー13症候群の検出におけるその精度は妊婦の個体差および異なる染色体におけるGC含量の偏差のために低い。(4)現在のNIPT分析法は、ダウン症候群に代表される一般的なトリソミー症候群を主に検出するが、ジョージ症候群、プラダー・ウィリー症候群などの総合的な発生率も高い染色体微小欠失症候群および微小重複症候群の検出に対する臨床効果は限定的である[14]。
さらに、NIPTシーケンシング結果を用いた機械学習モデルに基づいて染色体異常を検出する新しい技術が提案されている。例えば、参考文献[10]において、サポートベクターマシン(SVM)を用いてNIPT決定を支持する方法が提案されている。この方法では、異なるベースライン値を計算することによって6つの異なるZスコア結果を取得し、サンプルの臨床適応も追加してSVMモデルを訓練して染色体異常を判定する。別の例として、参考文献[11]において、染色体異常を判定するベイズ法が考案されている。この方法は無細胞胎児DNA割合の事前情報を利用し、隠れマルコフモデル(HMM)を用いて集団レベルの干渉および母体のCNVを排除し、GC含量補正を行い、その後、Z検定の尤度値および性染色体含有量からの無細胞胎児DNA割合の推定事前値を組み合わせることにより、ベイズ因子を計算する。同時に、妊婦の年齢などの複数の危険因子を事前確率に組み込んでベイズ因子を補正し、Zスコアおよびベイズ因子を統合して染色体が異常であるかどうかを評価する。別の例として、公開特許公報[12]において、NIPTシーケンシング結果を用いて簡易畳み込みニューラルネットワークモデルを訓練し、染色体コピー数のバラツキや染色体異数性の異常を検出することが提案されている。例えば、公開特許公報[13]において、無細胞胎児DNAおよび無細胞母体DNAをまず末梢血サンプルから単離し、前記単離された無細胞DNAから各種一塩基変異(SNV)遺伝子座を増幅し、増幅産物をシーケンシングして、複数SNV遺伝子座の遺伝子シーケンシングデータまたは遺伝子配列データを決定することが提案されている。次いで、これらの遺伝子シーケンシングデータまたは遺伝子配列データに基づいて、人工ニューラルネットワークモデルを訓練して、個々の染色体の倍数正常態、組織癌状態、または臓器移植拒絶状態を検出する。
また、NIPTシーケンシング結果を用いた機械学習モデルに基づいて染色体異常を検出する前述の方法は以下のような制限がある。これらの方法のほとんどはシーケンシングデータのリードカウントに基づいてモデル訓練のための望ましい特徴を算出し、これらの方法のほとんどはZスコアの算出に依存し、算出が複雑すぎる(例えば、参考文献[11])か、モデル設計が単純すぎる(例えば、特許公開公報[12])か、またはSNV遺伝子座に基づく遺伝子シーケンシングデータもしくは遺伝子配列データが必要であり(例えば、特許公開公報[13])、これは、臨床応用の見通し、モデルのスケーラビリティおよび検出精度を制限するため、検出精度を改善する必要がある。
染色体異常、特に異数性の検出における従来技術に存在する問題に鑑み、染色体異常をより効果的に検出するために、本発明は、少なくとも、ディープハイブリッドモデルに基づく染色体異常の検出精度をさらに向上させることを目的とする。
したがって、本発明の第1の態様の胎児染色体異常を検出する方法は、
(1)検出対象の妊婦から無細胞核酸断片のシーケンシングデータおよび臨床表現型特徴データを取得する工程であって、前記シーケンシングデータが複数のリードセグメントを含み、前記検出対象の妊婦の前記臨床表現型特徴データが前記妊婦の表現型特徴ベクトルを形成する工程と、
(2)参照ゲノムの染色体配列の少なくとも一部にウィンドウ分割を行って複数のスライディングウィンドウを取得し、前記スライディングウィンドウ内に含まれる前記リードセグメントをカウントし、前記染色体配列の配列特徴行列を生成する工程と、
(3)訓練済み機械学習モデルに前記配列特徴行列を入力して前記染色体配列の配列特徴ベクトルを抽出する工程と、
(4)前記配列特徴ベクトルと前記妊婦の前記表現型特徴ベクトルとを組み合わせて複合特徴ベクトルを形成し、前記複合特徴ベクトルを分類検出モデルに入力することにより前記検出対象の妊婦の胎児染色体異常状態を取得する工程と、
を含む。
(1)検出対象の妊婦から無細胞核酸断片のシーケンシングデータおよび臨床表現型特徴データを取得する工程であって、前記シーケンシングデータが複数のリードセグメントを含み、前記検出対象の妊婦の前記臨床表現型特徴データが前記妊婦の表現型特徴ベクトルを形成する工程と、
(2)参照ゲノムの染色体配列の少なくとも一部にウィンドウ分割を行って複数のスライディングウィンドウを取得し、前記スライディングウィンドウ内に含まれる前記リードセグメントをカウントし、前記染色体配列の配列特徴行列を生成する工程と、
(3)訓練済み機械学習モデルに前記配列特徴行列を入力して前記染色体配列の配列特徴ベクトルを抽出する工程と、
(4)前記配列特徴ベクトルと前記妊婦の前記表現型特徴ベクトルとを組み合わせて複合特徴ベクトルを形成し、前記複合特徴ベクトルを分類検出モデルに入力することにより前記検出対象の妊婦の胎児染色体異常状態を取得する工程と、
を含む。
一実施形態では、前記工程(1)において、前記無細胞核酸断片は、前記妊婦の末梢血、肝臓、および/または胎盤に由来する。
一実施形態では、前記工程(1)において、前記無細胞核酸断片は、無細胞DNAである。
一実施形態では、前記工程(1)において、前記シーケンシングデータは超低深度シーケンシングに由来し、好ましくは、前記超低深度シーケンシングのシーケンシング深度が1×、0.1×、または0.01×である。
一実施形態では、前記工程(1)において、前記リードセグメントを前記参照ゲノムにアラインメントさせて一意のマッピングリードを取得し(好ましくは、GC含量補正を行い)、好ましくは、後続の工程が前記一意のマッピングリードを用いて実行される(好ましくは、前記リードセグメントはGC含量により補正される)。
一実施形態では、前記GC含量補正は、以下のように行われる:
a.まず、長さlのフラグメントm個をヒト参照ゲノムの染色体から無作為に選択し、
b.GC含量iのフラグメントの数Niを以下の式により計算し、
式中、
であり、f(k)はフラグメントkのGC含量であり、iはGC含量(i=0%、1%、・・・、100%)を表し、
c.GC含量iのシーケンシングリードセグメントの数Fiを以下の式により計算し、
式中、
ck・IIi(f(k))はフラグメントkのGC含量を表し、FiはGC含量iおよび前記フラグメントと同じ開始サイトを有するシーケンシングリードセグメントの数を表し、
d.GC含量の観測値-期待値比率λiが以下の式により計算され、
式中、
rは以下のように定義されるグローバルスケール因子であり、
e.シーケンシングリードセグメントの数が以下の式により補正され、
式中、
Riは補正したGC含量iのシーケンシングリードセグメントの数の期待値を表す。
a.まず、長さlのフラグメントm個をヒト参照ゲノムの染色体から無作為に選択し、
b.GC含量iのフラグメントの数Niを以下の式により計算し、
c.GC含量iのシーケンシングリードセグメントの数Fiを以下の式により計算し、
ck・IIi(f(k))はフラグメントkのGC含量を表し、FiはGC含量iおよび前記フラグメントと同じ開始サイトを有するシーケンシングリードセグメントの数を表し、
d.GC含量の観測値-期待値比率λiが以下の式により計算され、
rは以下のように定義されるグローバルスケール因子であり、
Riは補正したGC含量iのシーケンシングリードセグメントの数の期待値を表す。
一実施形態では、前記工程(1)において、前記妊婦の前記臨床表現型特徴データは、年齢、妊娠週、身長、体重、BMI、出生前検査の生化学的検査結果、超音波診断結果、および血漿中の無細胞胎児DNA濃度のうちの1つまたは2つ以上の組合せから選択される。
一実施形態では、前記工程(1)において、前記妊婦の前記臨床表現型特徴データは、異常値処理、欠損値処理、および/またはヌル値処理される。
一実施形態では、前記工程(1)において、以下の記録:
a.xage<10またはxage>80;
b.xGW<5またはxGW>50;
c.xheight<40またはxheight>300;
d.xweight<10またはxweight>200;
が表示されると、前記妊婦サンプルの表現型データが異常値として判定され、これらの異常値がヌル値として設定される。
a.xage<10またはxage>80;
b.xGW<5またはxGW>50;
c.xheight<40またはxheight>300;
d.xweight<10またはxweight>200;
が表示されると、前記妊婦サンプルの表現型データが異常値として判定され、これらの異常値がヌル値として設定される。
一実施形態では、前記欠損値および前記ヌル値は、ミスフォレストアルゴリズムによってパディングされる。
一実施形態では、前記工程(2)において、前記染色体は、第21染色体、第18染色体、第13染色体および/または性染色体である。
一実施形態では、前記工程(2)は、
(2.1)長さbのウィンドウを使用して、前記参照ゲノムの長さLの染色体配列をステップサイズtで重複およびスライドさせてスライディングウィンドウを取得する工程であって、bは正の整数であり、b=[10000,10000000]であり、tは任意の正の整数であり、Lは正の整数であり、L≧bである工程と、
(2.2)前記スライディングウィンドウ各々の内に含まれる前記リードセグメントをカウントし、前記染色体配列の配列特徴行列を生成する工程と
を含む。
(2.1)長さbのウィンドウを使用して、前記参照ゲノムの長さLの染色体配列をステップサイズtで重複およびスライドさせてスライディングウィンドウを取得する工程であって、bは正の整数であり、b=[10000,10000000]であり、tは任意の正の整数であり、Lは正の整数であり、L≧bである工程と、
(2.2)前記スライディングウィンドウ各々の内に含まれる前記リードセグメントをカウントし、前記染色体配列の配列特徴行列を生成する工程と
を含む。
一実施形態では、前記工程(2)において、前記配列特徴行列は、前記スライディングウィンドウ内のリードセグメントの数、塩基品質、およびマッピング品質を含む。
一実施形態では、前記塩基品質は、前記塩基品質の平均、標準偏差、歪度、および/または尖度を含む。
一実施形態では、前記マッピング品質は、前記マッピング品質の平均、標準偏差、歪度、および/または尖度を含む。
一実施形態では、前記工程(2)において、前記配列特徴行列は以下の式で表され、
式中、hはスライディングウィンドウの数を表し、wは単一のスライディングウィンドウ内の配列特徴の数を表し、xijはi番目のスライディングウィンドウ内のj番目の配列固有値を表す。
一実施形態では、前記工程(3)において、前記配列特徴行列は正規化される。
一実施形態では、前記工程(3)において、前記配列特徴行列は、式(I)を使用して正規化され、
式中、Z(k)
i,jはサンプルkの正規化された配列特徴行列であり、X(k)
i,jはサンプルkのi番目のスライディングウィンドウにおけるj番目の配列固有値を表し、μi,jおよびσi,jは全てのサンプルのi番目のスライディングウィンドウにおけるj番目の配列固有値の平均および標準偏差をそれぞれ表す。
一実施形態では、前記工程(3)において、前記訓練済み機械学習モデルはニューラルネットワークモデルまたはオートエンコーダモデルであり、好ましくは、前記ニューラルネットワークモデルはディープニューラルネットワークモデルであり、より好ましくは、前記ニューラルネットワークモデルは1D畳み込みに基づくディープニューラルネットワークモデルである。
一実施形態では、前記ディープニューラルネットワークモデルの構造は、
前記配列特徴行列を受信する入力層と、
前記入力層からの前記配列特徴行列の第1の畳み込みおよび活性化動作を実行して特徴マップを取得する、前記入力層と接続されたプレモジュールと、
前記プレモジュールからの前記特徴マップのさらなる抽象化および特徴抽出を行い、前記ニューラルネットワークモデルの深さを効果的に増加させることによって前記ニューラルネットワークの表現能力を強化する、前記プレモジュールと接続されたコアモジュールと、
前記コアモジュールからの前記特徴マップを特徴抽象化表現する、前記コアモジュールと接続されたポストモジュールと、
前記特徴抽象化表現の前記特徴マップをベクトル化し、前記染色体配列の前記配列特徴ベクトルを出力する、前記ポストモジュールと接続された第1のグローバル平均プーリング層と、
を含む。
前記配列特徴行列を受信する入力層と、
前記入力層からの前記配列特徴行列の第1の畳み込みおよび活性化動作を実行して特徴マップを取得する、前記入力層と接続されたプレモジュールと、
前記プレモジュールからの前記特徴マップのさらなる抽象化および特徴抽出を行い、前記ニューラルネットワークモデルの深さを効果的に増加させることによって前記ニューラルネットワークの表現能力を強化する、前記プレモジュールと接続されたコアモジュールと、
前記コアモジュールからの前記特徴マップを特徴抽象化表現する、前記コアモジュールと接続されたポストモジュールと、
前記特徴抽象化表現の前記特徴マップをベクトル化し、前記染色体配列の前記配列特徴ベクトルを出力する、前記ポストモジュールと接続された第1のグローバル平均プーリング層と、
を含む。
一実施形態では、前記プレモジュールは、
(I)1D畳み込み層と、
(II)(I)に記載の1D畳み込み層と接続されたバッチ正規化層と、
(III)(II)に記載のバッチ正規化層と接続されたReLU活性化層と、
を含む。
(I)1D畳み込み層と、
(II)(I)に記載の1D畳み込み層と接続されたバッチ正規化層と、
(III)(II)に記載のバッチ正規化層と接続されたReLU活性化層と、
を含む。
一実施形態では、前記コアモジュールは、同じ構造を持つ1つ以上の残差サブモジュールで構成され、各残差モジュールの出力が、次の残差モジュールの入力である。
一実施形態では、前記残差サブモジュールは、
(A)1D畳み込み層と、前記1D畳み込み層と接続されたドロップアウト層と、前記ドロップアウト層と接続されたバッチ正規化層と、前記バッチ正規化層と接続されたReLU活性化層を各々含む、前記コアモジュールのプレサブモジュールと、
(B)(A)に記載の前記コアモジュールのプレサブモジュールと接続された第1の1D平均プーリング層と、
(C)(B)に記載の第1の1D平均プーリング層と接続されたSqueeze-Exciteモジュール(SEモジュール)および/またはSpatial Squeeze-Exciteモジュール(sSEモジュール)と、
(D)(C)に記載のSqueeze-Exciteモジュールおよび/またはSpatial Squeeze-Exciteモジュールと接続された第1の追加層(Add層)と、
(E)前記プレモジュール内の前記ReLU活性化層と接続された第2の1D平均プーリング層と、
(F)(D)に記載の第1の追加層および(E)に記載の第2の1D平均プーリング層と接続された第2の追加層(Add層)と、
を含む。
(A)1D畳み込み層と、前記1D畳み込み層と接続されたドロップアウト層と、前記ドロップアウト層と接続されたバッチ正規化層と、前記バッチ正規化層と接続されたReLU活性化層を各々含む、前記コアモジュールのプレサブモジュールと、
(B)(A)に記載の前記コアモジュールのプレサブモジュールと接続された第1の1D平均プーリング層と、
(C)(B)に記載の第1の1D平均プーリング層と接続されたSqueeze-Exciteモジュール(SEモジュール)および/またはSpatial Squeeze-Exciteモジュール(sSEモジュール)と、
(D)(C)に記載のSqueeze-Exciteモジュールおよび/またはSpatial Squeeze-Exciteモジュールと接続された第1の追加層(Add層)と、
(E)前記プレモジュール内の前記ReLU活性化層と接続された第2の1D平均プーリング層と、
(F)(D)に記載の第1の追加層および(E)に記載の第2の1D平均プーリング層と接続された第2の追加層(Add層)と、
を含む。
一実施形態では、前記SEモジュールは、
(a)(B)に記載の前記残差サブモジュールの第1の1D平均プーリング層と接続された第2のグローバル平均プーリング層と、
(b)(a)に記載の第2のグローバル平均プーリング層と接続された再形成層であって、前記再形成層の出力特徴マップの大きさが1×fであり、fが1D畳み込みカーネルの数である再形成層と、
(c)(b)に記載の再形成層と接続された第1の完全接続層であって、前記第1の完全接続層の出力ニューロンの数がf/rSEであり、fが1D畳み込みカーネルの数であり、rSEがSqueez-Exciteモジュールの減少速度である第1の完全接続層と、
(d)(c)に記載の第1の完全接続層と接続された第2の完全接続層であって、前記第2の完全接続層の出力ニューロンの数がfであり、fが1D畳み込みカーネルの数である第2の完全接続層と、
(e)(d)に記載の第2の完全接続層および(B)に記載の前記残差サブモジュールの第1の1D平均プーリング層と接続された乗算層と、
を含む。
(a)(B)に記載の前記残差サブモジュールの第1の1D平均プーリング層と接続された第2のグローバル平均プーリング層と、
(b)(a)に記載の第2のグローバル平均プーリング層と接続された再形成層であって、前記再形成層の出力特徴マップの大きさが1×fであり、fが1D畳み込みカーネルの数である再形成層と、
(c)(b)に記載の再形成層と接続された第1の完全接続層であって、前記第1の完全接続層の出力ニューロンの数がf/rSEであり、fが1D畳み込みカーネルの数であり、rSEがSqueez-Exciteモジュールの減少速度である第1の完全接続層と、
(d)(c)に記載の第1の完全接続層と接続された第2の完全接続層であって、前記第2の完全接続層の出力ニューロンの数がfであり、fが1D畳み込みカーネルの数である第2の完全接続層と、
(e)(d)に記載の第2の完全接続層および(B)に記載の前記残差サブモジュールの第1の1D平均プーリング層と接続された乗算層と、
を含む。
一実施形態では、前記sSEモジュールは、
a.活性化関数としてシグモイド関数を使用する(B)に記載の第1の1D平均プーリング層と接続された1×1の1D畳み込み層と、
b.(B)に記載の第1の1D平均プーリング層およびaに記載の1×1の1D畳み込み層と接続された乗算層と、
を含む。
a.活性化関数としてシグモイド関数を使用する(B)に記載の第1の1D平均プーリング層と接続された1×1の1D畳み込み層と、
b.(B)に記載の第1の1D平均プーリング層およびaに記載の1×1の1D畳み込み層と接続された乗算層と、
を含む。
一実施形態では、前記工程(4)において、前記複合特徴ベクトルは前記配列特徴ベクトルと前記妊婦の前記表現型特徴ベクトルとを組み合わせることにより得られる。
一実施形態では、前記工程(4)において、前記複合特徴ベクトルxは以下の式によって正規化され、
式中、x’
iは正規化された複合特徴ベクトルxのi番目の配列固有値であり、xiは前記複合特徴ベクトルxのi番目の配列固有値であり、μiは前記複合特徴ベクトルxのi番目の配列固有値の平均であり、σiは前記複合特徴ベクトルxのi番目の配列固有値の標準偏差である。
一実施形態では、前記工程(4)において、前記分類検出モデルはアンサンブル学習モデルである。
一実施形態では、前記アンサンブル学習モデルは、スタッキングまたは多数決に基づくアンサンブル学習モデルであり、好ましくは、前記アンサンブル学習モデルは、サポートベクターマシンモデル、単純ベイズ分類器、ランダムフォレスト分類器、XGBoostおよびロジスティック回帰のうちの1つ以上である。
一実施形態では、前記染色体異常は、トリソミー21症候群、トリソミー18症候群、トリソミー13症候群、5p症候群、染色体微小欠失および染色体微小重複のうちの少なくとも1つ以上を含む。
本発明の第2の態様の胎児染色体異常を検出するための分類検出モデルを構築する方法は、
(1)複数の妊婦から無細胞核酸断片のシーケンシングデータおよび臨床表現型特徴データを取得する工程であって、前記シーケンシングデータが複数のリードセグメントを含み、前記妊婦各々の胎児染色体状態が既知であり、前記妊婦各々の臨床表現型特徴データが前記妊婦の表現型特徴ベクトルを形成する工程と、
(2)前記妊婦各々について、参照ゲノムの染色体配列の少なくとも一部にウィンドウ分割を行って複数のスライディングウィンドウを取得し、前記スライディングウィンドウ内に含まれる前記リードセグメントをカウントし、前記染色体配列の配列特徴行列を生成する工程と、
(3)前記妊婦各々について、前記配列特徴行列および前記胎児染色体状態を用いて訓練データセットを構築し、機械学習モデルを訓練して前記染色体配列の配列特徴ベクトルを抽出する工程と、
(4)前記配列特徴ベクトルおよび前記妊婦各々の前記表現型特徴ベクトルを組み合わせて複合特徴ベクトルを形成し、前記妊婦の複合特徴ベクトルおよび前記胎児染色体状態を用いて分類モデルを訓練して訓練済み分類検出モデルを取得する工程と、
を含む。
(1)複数の妊婦から無細胞核酸断片のシーケンシングデータおよび臨床表現型特徴データを取得する工程であって、前記シーケンシングデータが複数のリードセグメントを含み、前記妊婦各々の胎児染色体状態が既知であり、前記妊婦各々の臨床表現型特徴データが前記妊婦の表現型特徴ベクトルを形成する工程と、
(2)前記妊婦各々について、参照ゲノムの染色体配列の少なくとも一部にウィンドウ分割を行って複数のスライディングウィンドウを取得し、前記スライディングウィンドウ内に含まれる前記リードセグメントをカウントし、前記染色体配列の配列特徴行列を生成する工程と、
(3)前記妊婦各々について、前記配列特徴行列および前記胎児染色体状態を用いて訓練データセットを構築し、機械学習モデルを訓練して前記染色体配列の配列特徴ベクトルを抽出する工程と、
(4)前記配列特徴ベクトルおよび前記妊婦各々の前記表現型特徴ベクトルを組み合わせて複合特徴ベクトルを形成し、前記妊婦の複合特徴ベクトルおよび前記胎児染色体状態を用いて分類モデルを訓練して訓練済み分類検出モデルを取得する工程と、
を含む。
一実施形態では、各妊婦の前記胎児染色体状態は、正常な二倍体、染色体異数体、部分的モノソミー症候群、染色体微小欠失および染色体微小重複の1つ以上である。
一実施形態では、前記染色体異数体は、トリソミー21症候群、トリソミー18症候群およびトリソミー13症候群の少なくとも1つ以上を含む。
一実施形態では、前記部分的モノソミー症候群は5p症候群を含む。
一実施形態では、前記妊婦の人数は10人を超え、染色体異数性の胎児の数に対する正常な二倍体の胎児の数の比は1/2~2である。
一実施形態では、前記工程(3)において、前記訓練データセットは、以下のように表され、
式中、Nは訓練サンプルの数を表し、Nは1以上の整数であり、Z(k)
i,jは訓練サンプルkの正規化された配列特徴行列であり、k∈[1,N]であり、iは1以上の整数であり、jは1以上の整数である。
前記訓練済み機械学習モデル以外は本発明の第1の態様と同じ技術的特徴を持つため、本発明の第1の態様の実施形態における定義も適用される。本態様では、前記訓練済み機械学習モデルは出力層を含む。例えば、前記ディープニューラルネットワークモデルの構造は前記第1のグローバル平均プーリング層の後の出力層を含み、前記出力層は、前記第1のグローバル平均プーリング層と接続され、前記染色体異常状態を出力するために使用される出力ニューロンの数が1の完全接続層である。
本発明の第3の態様の胎児染色体異常を検出するシステムは、
検出対象の妊婦サンプルから無細胞核酸断片のシーケンシングデータおよび臨床表現型特徴データを取得するデータ取得モジュールであって、前記シーケンシングデータが複数のリードセグメントを含み、前記検出対象の妊婦サンプルの前記臨床表現型特徴データが前記妊婦の表現型特徴ベクトルを形成するデータ取得モジュールと、
参照ゲノムの染色体配列の少なくとも一部にウィンドウ分割を行って複数のスライディングウィンドウを取得し、前記スライディングウィンドウ内に含まれる前記リードセグメントをカウントし、前記染色体配列の配列特徴行列を生成する配列特徴行列生成モジュールと、
訓練済み機械学習モデルに前記配列特徴行列を入力して前記染色体配列の配列特徴ベクトルを抽出する配列特徴ベクトル抽出モジュールと、
前記配列特徴ベクトルと前記妊婦の前記表現型特徴ベクトルとを組み合わせて複合特徴ベクトルを形成し、前記複合特徴ベクトルを分類検出モデルに入力することにより前記検出対象の妊婦の前記胎児染色体異常状態を取得する分類検出モジュールと、
を含む。
検出対象の妊婦サンプルから無細胞核酸断片のシーケンシングデータおよび臨床表現型特徴データを取得するデータ取得モジュールであって、前記シーケンシングデータが複数のリードセグメントを含み、前記検出対象の妊婦サンプルの前記臨床表現型特徴データが前記妊婦の表現型特徴ベクトルを形成するデータ取得モジュールと、
参照ゲノムの染色体配列の少なくとも一部にウィンドウ分割を行って複数のスライディングウィンドウを取得し、前記スライディングウィンドウ内に含まれる前記リードセグメントをカウントし、前記染色体配列の配列特徴行列を生成する配列特徴行列生成モジュールと、
訓練済み機械学習モデルに前記配列特徴行列を入力して前記染色体配列の配列特徴ベクトルを抽出する配列特徴ベクトル抽出モジュールと、
前記配列特徴ベクトルと前記妊婦の前記表現型特徴ベクトルとを組み合わせて複合特徴ベクトルを形成し、前記複合特徴ベクトルを分類検出モデルに入力することにより前記検出対象の妊婦の前記胎児染色体異常状態を取得する分類検出モジュールと、
を含む。
一実施形態では、前記システムは、前記シーケンシングデータのリードを参照ゲノムにアラインメントさせて一意のマッピングリードを取得するアラインメントモジュールをさらに含む。
一実施形態では、前記データ取得モジュールにおいて、前記無細胞核酸断片は前記妊婦の末梢血、肝臓、および/または胎盤に由来する。
一実施形態では、前記データ取得モジュールにおいて、前記無細胞核酸断片は無細胞DNAである。
一実施形態では、前記データ取得モジュールにおいて、前記シーケンシングデータは超低深度シーケンシングに由来し、好ましくは、前記超低深度シーケンシングのシーケンシング深度が1×、0.1×、または0.01×である。
一実施形態では、前記データ取得モジュールにおいて、前記リードセグメントを前記参照ゲノムにアラインメントさせて前記一意のマッピングリードを取得し(好ましくは、GC含量補正を行い)、好ましくは、後続の工程が前記一意のマッピングリードを用いて実行される(好ましくは、前記リードセグメントはGC含量により補正される)。
一実施形態では、前記GC含量補正は、以下のように行われる:
a.まず、長さlのフラグメントm個をヒト参照ゲノムの染色体から無作為に選択し、
b.GC含量iのフラグメントの数Niを以下の式により計算し、
式中、
であり、f(k)はフラグメントkのGC含量であり、iはGC含量(i=0%、1%、・・・、100%)を表し、
c.GC含量iのシーケンシングリードセグメントの数Fiを以下の式により計算し、
式中、
ck・IIi(f(k))はフラグメントkのGC含量を表し、FiはGC含量iおよび前記フラグメントと同じ開始サイトを有するシーケンシングリードセグメントの数を表し、
d.GC含量の観測値-期待値比率λiが以下の式により計算され、
式中、
rは以下のように定義されるグローバルスケール因子であり、
e.シーケンシングリードセグメントの数が以下の式により補正され、
式中、
Riは補正したGC含量iのシーケンシングリードセグメントの数の期待値を表す。
a.まず、長さlのフラグメントm個をヒト参照ゲノムの染色体から無作為に選択し、
b.GC含量iのフラグメントの数Niを以下の式により計算し、
c.GC含量iのシーケンシングリードセグメントの数Fiを以下の式により計算し、
ck・IIi(f(k))はフラグメントkのGC含量を表し、FiはGC含量iおよび前記フラグメントと同じ開始サイトを有するシーケンシングリードセグメントの数を表し、
d.GC含量の観測値-期待値比率λiが以下の式により計算され、
rは以下のように定義されるグローバルスケール因子であり、
Riは補正したGC含量iのシーケンシングリードセグメントの数の期待値を表す。
一実施形態では、前記データ取得モジュールにおいて、前記妊婦の前記臨床表現型特徴データは、年齢、妊娠週、身長、体重、BMI、出生前検査の生化学的検査結果、超音波診断結果、および血漿中の無細胞胎児DNA濃度のうちの1つまたは2つ以上の組合せから選択される。
一実施形態では、前記データ取得モジュールにおいて、前記妊婦の前記臨床表現型特徴データは異常値処理、欠損値処理、および/またはヌル値処理される。
一実施形態では、前記データ取得モジュールにおいて、以下の記録:
a.xage<10またはxage>80;
b.xGW<5またはxGW>50;
c.xheight<40またはxheight>300;
d.xweight<10またはxweight>200;
が表示されると、前記妊婦サンプルの表現型データは異常値として判定され、これらの異常値はヌル値として設定される。
a.xage<10またはxage>80;
b.xGW<5またはxGW>50;
c.xheight<40またはxheight>300;
d.xweight<10またはxweight>200;
が表示されると、前記妊婦サンプルの表現型データは異常値として判定され、これらの異常値はヌル値として設定される。
一実施形態では、前記欠損値および前記ヌル値はミスフォレストアルゴリズムによってパディングされる。
一実施形態では、前記配列特徴行列生成モジュールにおいて、前記染色体は第21染色体、第18染色体、第13染色体および/または性染色体である。
一実施形態では、前記配列特徴行列生成モジュールにおいて、
(2.1)長さbのウィンドウを使用して、前記参照ゲノムの長さLの染色体配列をステップサイズtで重複およびスライドさせてスライディングウィンドウを取得する工程であって、bは正の整数であり、b=[10000,10000000]であり、tは任意の正の整数であり、Lは正の整数であり、L≧bである工程と、
(2.2)前記スライディングウィンドウ各々の内に含まれる前記リードセグメントをカウントし、前記染色体配列の配列特徴行列を生成する工程と、
を行う。
(2.1)長さbのウィンドウを使用して、前記参照ゲノムの長さLの染色体配列をステップサイズtで重複およびスライドさせてスライディングウィンドウを取得する工程であって、bは正の整数であり、b=[10000,10000000]であり、tは任意の正の整数であり、Lは正の整数であり、L≧bである工程と、
(2.2)前記スライディングウィンドウ各々の内に含まれる前記リードセグメントをカウントし、前記染色体配列の配列特徴行列を生成する工程と、
を行う。
一実施形態では、前記配列特徴行列生成部において、前記配列特徴行列は前記スライディングウィンドウ内のリードセグメントの数、塩基品質、およびマッピング品質を含む。
一実施形態では、前記塩基品質は、前記塩基品質の平均、標準偏差、歪度、および/または尖度を含む。
一実施形態では、前記マッピング品質は前記マッピング品質の平均、標準偏差、歪度、および/または尖度を含む。
一実施形態では、前記配列特徴行列生成モジュールにおいて、前記配列特徴行列は以下の式で表され、
式中、hはスライディングウィンドウの数を表し、wは単一のスライディングウィンドウ内の配列特徴の数を表し、xijはi番目のスライディングウィンドウ内のj番目の配列固有値を表す。
一実施形態では、前記配列特徴ベクトル抽出モジュールにおいて、前記配列特徴行列は正規化される。
一実施形態では、前記配列特徴ベクトル抽出モジュールにおいて、前記配列特徴行列は、式(I)を使用して正規化され、
式中、Z(k)
i,jはサンプルkの正規化された配列特徴行列であり、X(k)
i,jはサンプルkのi番目のスライディングウィンドウにおけるj番目の配列固有値を表し、μi,jおよびσi,jは全てのサンプルのi番目のスライディングウィンドウにおけるj番目の配列固有値の平均および標準偏差をそれぞれ表す。
一実施形態では、前記配列特徴ベクトル抽出モジュールにおいて、前記訓練済み機械学習モデルは、ニューラルネットワークモデルまたはオートエンコーダモデルであり、好ましくは、前記ニューラルネットワークモデルはディープニューラルネットワークモデルであり、より好ましくは、前記ニューラルネットワークモデルは
1D畳み込みに基づくディープニューラルネットワークモデルである。
1D畳み込みに基づくディープニューラルネットワークモデルである。
ディープニューラルネットワークモデルについては、本発明の第1の態様の実施形態における定義も適用される。
一実施形態では、前記分類検出モジュールにおいて、前記複合特徴ベクトルは前記配列特徴ベクトルと前記妊婦の前記表現型特徴ベクトルとを組み合わせることにより得られる。
一実施形態において、前記分類検出モジュールにおいて、前記複合特徴ベクトルxは以下の式によって正規化され、
式中、x’
iは正規化された複合特徴ベクトルxのi番目の配列固有値であり、xiは前記複合特徴ベクトルxのi番目の配列固有値であり、μiは前記複合特徴ベクトルxのi番目の配列固有値の平均であり、σiは前記複合特徴ベクトルxのi番目の配列固有値の標準偏差である。
一実施形態では、前記分類検出モジュールにおいて、前記分類検出モデルはアンサンブル学習モデルである。
一実施形態では、前記アンサンブル学習モデルは、スタッキングまたは多数決に基づくアンサンブル学習モデルであり、好ましくは、前記アンサンブル学習モデルは、サポートベクターマシンモデル、単純ベイズ分類器、ランダムフォレスト分類器、XGBoostおよびロジスティック回帰のうちの1つ以上である。
本発明の第4の態様の胎児染色体異常を検出するための分類検出モデルを構築するシステムは、
妊婦から無細胞核酸断片のシーケンシングデータおよび臨床表現型特徴データを取得するデータ取得モジュールであって、前記シーケンシングデータが複数のリードセグメントを含み、前記妊婦の胎児染色体状態が既知であり、前記妊婦の臨床表現型特徴データが前記妊婦の表現型特徴ベクトルを形成するデータ取得モジュールと、
参照ゲノムの染色体配列の少なくとも一部にウィンドウ分割を行って複数のスライディングウィンドウを取得し、前記スライディングウィンドウ内に含まれる前記リードセグメントをカウントし、前記染色体配列の配列特徴行列を生成する配列特徴行列生成モジュールと、
前記配列特徴行列および前記胎児染色体状態を用いて訓練データセットを構築し、機械学習モデルを訓練して前記染色体配列の配列特徴ベクトルを抽出する配列特徴ベクトル抽出モジュールと、
前記配列特徴ベクトルと前記妊婦の前記表現型特徴ベクトルとを組み合わせて複合特徴ベクトルを形成し、前記分類モデルを複数の妊婦の複合特徴ベクトルと胎児染色体状態とを用いて訓練して訓練済み分類検出モデルを取得する分類検出モジュールと、
を含む。
妊婦から無細胞核酸断片のシーケンシングデータおよび臨床表現型特徴データを取得するデータ取得モジュールであって、前記シーケンシングデータが複数のリードセグメントを含み、前記妊婦の胎児染色体状態が既知であり、前記妊婦の臨床表現型特徴データが前記妊婦の表現型特徴ベクトルを形成するデータ取得モジュールと、
参照ゲノムの染色体配列の少なくとも一部にウィンドウ分割を行って複数のスライディングウィンドウを取得し、前記スライディングウィンドウ内に含まれる前記リードセグメントをカウントし、前記染色体配列の配列特徴行列を生成する配列特徴行列生成モジュールと、
前記配列特徴行列および前記胎児染色体状態を用いて訓練データセットを構築し、機械学習モデルを訓練して前記染色体配列の配列特徴ベクトルを抽出する配列特徴ベクトル抽出モジュールと、
前記配列特徴ベクトルと前記妊婦の前記表現型特徴ベクトルとを組み合わせて複合特徴ベクトルを形成し、前記分類モデルを複数の妊婦の複合特徴ベクトルと胎児染色体状態とを用いて訓練して訓練済み分類検出モデルを取得する分類検出モジュールと、
を含む。
一実施形態では、前記システムは、前記シーケンシングデータのリードセグメントを参照ゲノムにアラインメントさせて前記一意のマッピングリードを取得するアラインメントモジュールをさらに含む。
前記訓練済み機械学習モデル以外は本発明の第3の態様と同じ技術的特徴を持つため、本発明の第3の態様の実施形態における定義も適用される。本態様では、前記訓練済み機械学習モデルは出力層を含む。例えば、前記ディープニューラルネットワークモデルの構造は前記第1のグローバル平均プーリング層の後の出力層を含み、前記出力層は、前記第1のグローバル平均プーリング層と接続され、前記染色体異常状態を出力するために使用される出力ニューロンの数が1の完全接続層である。本発明の方法およびモデルはZ検定の代わりにシーケンシングデータの革新的なアルゴリズムに基づいており、結果スコアが「グレー領域」に含まれる場合に閾値に応じて判断することが困難であるという臨床的問題を回避する。さらに、サンプルの数(例えば、サンプルのシーケンシングデータおよび妊婦の対応する表現型データ)が増加するにつれて、本発明によって提案されるハイブリッドモデルは、自動的にアップグレードされて最適化され、検出精度を改善することができる。
本発明において、胎児染色体異常を検出する方法は胎児染色体異常を検出するシステムによって実施することができ、胎児染色体異常を検出する分類検出モデルを構築する方法は、胎児染色体異常を検出する検出モデルのシステムによって実施することができる。
本発明では、前記データ取得モジュールを使用して、妊婦の無細胞核酸断片のシーケンシングデータおよび臨床表現型特徴データを取得する。前記シーケンシングデータは複数のリードセグメントを含み、前記妊婦の胎児染色体状態は既知(訓練サンプル)または未知(検出対象サンプル)であり、前記妊婦の前記臨床表現型特徴データは前記妊婦の表現型特徴ベクトルを形成する。前記データ取得モジュールは、上記データを受信するためのデータ受信モジュールを含み得る。前記データ取得モジュールは、シーケンシングのために妊婦の無細胞核酸を入力することによってシーケンシングデータを取得することができるシーケンシング装置をさらに含むことができる。シーケンシングはハイスループットシーケンシングおよび超低深度シーケンシングであり得、前記超低深度シーケンシングのシーケンシング深度は1×、0.1×、または0.01×である。前記無細胞核酸は、妊婦の末梢血、肝臓、および/または胎盤に由来し得る。前記妊婦の前記臨床表現型特徴および前記妊婦の前記胎児染色体状態(訓練サンプル)はデータベースにおいて利用可能であり、前記妊婦の前記胎児染色体状態は染色体異数性、微小欠失および/または微小重複であり得る。
本発明では、前記アラインメントモジュールを使用して、前記リードセグメントを参照ゲノムにアラインメントして、前記一意のマッピングリードを取得する。前記配列を参照ゲノムにアラインメントさせるアプリケーションソフトウェアは、オープンソース開発者から、例えば、いくつかのオンラインウェブサイトから入手してもよいし自社で開発してもよい。
本発明では、前記配列特徴行列生成モジュールを使用して参照ゲノムの染色体配列の少なくとも一部をウィンドウ分割してスライディングウィンドウを取得し、前記スライディングウィンドウ内に含まれる前記リードセグメントをカウントし、前記染色体配列の配列特徴行列を生成する。これは固定長を有するウィンドウを使用して前記染色体配列上をスライドさせることによって実施することができ、前記固定長を有するウィンドウは10k、100k、1M、または10Mなどであってもよい。ステップサイズは任意の長さとすることができ、一般的に、計算に便利なようにスライディングウィンドウの長さの半分として設定される。染色体配列の長さは、前記スライディングウィンドウの長さより長ければよく、10k、100k、1M、10M、または100M・・・染色体全体の長さまで可能である。染色体は、例えば、21トリソミー症候群の検出に対応する第21染色体、18トリソミー症候群の検出に対応する18番染色体、13トリソミー症候群の検出に対応する13番染色体、性染色体異常の検出に対応するXY染色体、および染色体微小欠失/微小重複の検出に対応する全ての常染色体といった標的染色体であり得る。それぞれのウィンドウについて、リード数、塩基品質(シーケンシングの精度の基準)、およびマッピング品質(前記参照ゲノムに対するリードセグメントのアラインメントの精度の基準であって、マッピング品質が高いほど、前記参照ゲノムに対する前記リードセグメントのアラインメント位置が一意になる)などを含むパラメータがカウントされるが、これはコンピュータソフトウエアを用いて行うことができる。
本発明では、前記配列特徴抽出モジュールを使用して、染色体配列の配列特徴を抽出する。訓練データセットについて、前記配列特徴ベクトル生成モジュールは、前記妊婦の前記配列特徴行列および前記胎児染色体状態を使用して、前記訓練データセットを構築し、機械学習モデルを訓練して前記染色体配列の前記配列特徴ベクトルを抽出する。試験データについて、前記配列特徴ベクトル生成モジュールは、前記配列特徴行列を使用して試験データセットを構築し、ディープニューラルネットワークモデルなどの訓練済み機械学習モデルに入力して、前記染色体配列の前記配列特徴ベクトルを抽出する。
本発明では、前記訓練データセットについて、前記アンサンブル学習モデルの訓練モジュールなどの分類検出モジュールを使用して、前記配列特徴ベクトルおよび前記妊婦の前記表現型特徴ベクトルならびに前記胎児染色体状態によって形成される複合特徴ベクトルによって分類検出モデルを訓練し、前記訓練済み分類検出モデルを取得する。
前記試験データセットについて、前記分類検出モジュールを使用して、前記配列特徴ベクトルを前記妊婦の前記表現型特徴ベクトルと組み合わせて、複合特徴ベクトルを入力として形成し、前記訓練済み分類検出モデルを利用して染色体異常状態を検出する。
本発明は、異数性、微小欠失または微小重複などの染色体異常を検出する完全に革新的な方法を提案する。従来の方法とは異なり、本発明は、リードセグメントの数およびZスコアに基づいて異数性を直接検出せず、データ前処理および特徴抽出選択の余計な作業を必要としない。代わりに、本発明は前記シーケンシングデータから生成された前記配列特徴行列から配列特徴ベクトルを自動的に抽出し、前記配列特徴ベクトルを前記妊婦の前記臨床表現型特徴と組み合わせ、前記分類検出モデルを使用して検出し、最終的に前記胎児染色体に遺伝的異常があるかどうかの予測結果を取得するための機械学習モデルを設計する。
本発明では、前記機械学習モデルを使用して前記シーケンシングデータから前記配列特徴ベクトルを自動的に抽出することでNIPT全ゲノム配列特徴の従来の手動抽出の欠点を回避する。本発明の方法は前記シーケンシングデータ情報を十分にマイニングするだけでなく、妊婦の前記臨床表現型情報(モデルに追加できる表現型データ情報は出産年齢、妊娠週、身長、体重、BMI(肥満度指数)、出生前検査の生化学的検査結果、NT値などの超音波診断結果などを含む)を十分に利用し、抽出された配列特徴ベクトルを前記妊婦の表現型特徴ベクトルと組み合わせて、前記NIPTシーケンシングデータに含まれる豊富な特徴データ情報および前記妊婦の臨床表現型結果を十分にマイニングし、検出結果の信頼性および妥当性の高さを保証する。本発明の方法は、一般的なトリソミー症候群を検出するために使用することができるだけでなく、染色体コピー数のバラツキ、染色体微小欠失、染色体微小重複などの他の染色体欠損を検出するためにも使用することができる。
本発明において、前記配列特徴ベクトルの抽出は、オートエンコーダネットワークまたはバリエーションオートエンコーダネットワーク等に基づくディープニューラルネットワークモデルを使用することによっても行うことができる。
本発明において、スタッキングまたは多数決に基づくアンサンブル学習モデルは、染色体異常を検出するように訓練され、異なる分類器による異数性の発見が十分に利用されて異数性を発見する精度が大幅に改善される。
本発明において、前記参照ゲノムは例えば、hg38、hg19などのヒトゲノムプロジェクトによって作製される正常な二倍体染色体を有するヒトゲノムのマップを指す。前記参照ゲノムは、1つの染色体または複数の染色体であってもよく、または染色体の一部であってもよい。
以下、具体的な実施例により本発明をさらに説明する。ただし、本発明は実施例によって限定されるものではない。
実施例1 検出モデルの構築例
例示的な実施形態において、検出モデルを構築する例示的なモデル実施形態のプロセスおよび工程を以下に説明する。
1.NIPTシーケンシングデータおよびアラインメント結果の取得
ハイスループットシーケンシングプラットフォームBGIseq500を使用して、訓練サンプル、すなわち、妊婦の無細胞核酸断片をシーケンシングする(SE35を採用、シーケンシング深度:0.1×)。前記妊婦の胎児染色体状態は知られている。シーケンシングデータを参照ゲノムにアラインメントし、反復アラインメント配列をフィルタリングして、一意のマッピングリードを取得する。
2.上記工程1で得られた一意のマッピングリードを前処理し、ゲノムの各カバレッジ領域の配列カバレッジ深度を、GC含量とシーケンシング深度との間の関係を通して再補正する。具体的なプロセスは以下の通りである(詳しくは参考文献[15]参照)。
a.まず、長さlのフラグメントm個をヒト参照ゲノムの染色体(第21染色体など)から無作為に選択し、
b.GC含量iのフラグメントの数Niを以下の式により計算し、
式中、
であり、f(k)はフラグメントkのGC含量であり、iはGC含量(i=0%、1%、・・・、100%)を表し、
c.GC含量iの一意のマッピングリードの数Fiを以下の式により計算し、
式中、
ck・IIi(f(k))はフラグメントkのGC含量を表し、FiはGC含量iおよび前記フラグメントと同じ開始サイトを有する一意のマッピングリードの数を表し、
d.GC含量の観測値-期待値比率λiを以下の式により計算し、
式中、
rは以下のように定義されるグローバルスケール因子であり、
e.一意のマッピングリードの数を以下の式により補正し、
式中、
Riは補正後のGC含量iの一意のマッピングリードの数の期待値を表す。
a.まず、長さlのフラグメントm個をヒト参照ゲノムの染色体(第21染色体など)から無作為に選択し、
b.GC含量iのフラグメントの数Niを以下の式により計算し、
c.GC含量iの一意のマッピングリードの数Fiを以下の式により計算し、
ck・IIi(f(k))はフラグメントkのGC含量を表し、FiはGC含量iおよび前記フラグメントと同じ開始サイトを有する一意のマッピングリードの数を表し、
d.GC含量の観測値-期待値比率λiを以下の式により計算し、
rは以下のように定義されるグローバルスケール因子であり、
Riは補正後のGC含量iの一意のマッピングリードの数の期待値を表す。
3.配列特徴行列の生成
上記工程2の結果を使用して特徴行列を計算する。(図2に示されるように)計算のプロセスは以下の通りである。長さbのスライディングウィンドウを使用して、開始部位から終了部位までの長さLの標的染色体をステップサイズtでスライドさせる。以下の特徴:
a.領域内のGC補正リードの数
b.領域内の塩基品質の平均
c.領域内の塩基品質の標準偏差(std)
d.領域内の塩基品質の歪度
e.領域内の塩基品質の尖度
f.領域内のマッピング品質の平均
g.領域内のマッピング品質の標準偏差(std)
h.領域内のマッピング品質の歪度
i.領域内のマッピング品質の尖度
を、各スライディングウィンドウでカバーされる長さbの領域に対して計算し、これにより、配列特徴行列を得る:
式中、
hはスライディングウィンドウの数を表し、例えば、
であり、
wは単一のスライディングウィンドウ内の配列特徴の数を表し、例えば、w=9
(すなわち、長さbの各スライディングウィンドウについて9つの異なる特徴が計算される)であり、
xijはi番目のスライディングウィンドウにおけるj番目の配列固有値を表す。
a.領域内のGC補正リードの数
b.領域内の塩基品質の平均
c.領域内の塩基品質の標準偏差(std)
d.領域内の塩基品質の歪度
e.領域内の塩基品質の尖度
f.領域内のマッピング品質の平均
g.領域内のマッピング品質の標準偏差(std)
h.領域内のマッピング品質の歪度
i.領域内のマッピング品質の尖度
を、各スライディングウィンドウでカバーされる長さbの領域に対して計算し、これにより、配列特徴行列を得る:
hはスライディングウィンドウの数を表し、例えば、
wは単一のスライディングウィンドウ内の配列特徴の数を表し、例えば、w=9
(すなわち、長さbの各スライディングウィンドウについて9つの異なる特徴が計算される)であり、
xijはi番目のスライディングウィンドウにおけるj番目の配列固有値を表す。
塩基品質は、シーケンシング結果の精度を定量的に説明するためのものである。塩基品質の平均、標準偏差、歪度および尖度は、それぞれ、シーケンシングリードにおける全ての塩基品質の平均、標準偏差、歪度および尖度を指す。マップ品質は、参照ゲノム配列に対する所与のシーケンシングリードセグメントのアラインメントの信頼性を指し、マップ品質の平均、標準偏差、歪度および尖度はそれぞれ、所与のシーケンシングリードセグメントのマップ品質の平均、標準偏差、歪度および尖度を指す。
4.ディープニューラルネットワークモデルの構築
4.1 データセットの構築
工程3の結果を使用して訓練セット
を構築する。式中、Nはサンプルの数を表し、Nは1以上の整数であり、Z(k)はサンプルkの正規化された配列特徴行列(以下、正規化された配列特徴行列と称する)であり、k∈[1,N]であり、以下のように定義され、
式中、X(k)
i,jは前記訓練セット中のサンプルkのi番目のスライディングウィンドウにおけるj番目の配列特徴ベクトルを表し、μi,jは前記訓練セット中のi番目のスライディングウィンドウにおけるj番目の配列特徴ベクトルの平均であり、σi,jは前記訓練セット中のi番目のスライディングウィンドウにおけるj番目の配列特徴ベクトルの標準偏差であり、iは1以上の整数であり、jは1以上の整数である。
4.2 ディープニューラルネットワークモデルの構築
ディープニューラルネットワークモデルを構築し、その構造を図3に示す。ディープニューラルネットワークモデルに関与する全ての畳み込み層は、1D畳み込み演算される。特に明記しない限り、1D畳み込みカーネル(すなわち、1Dフィルタ)のパラメータは同じであり、すなわち、前記1D畳み込みカーネルの数はfであり、前記1D畳み込みカーネルの大きさはkであり、前記1D畳み込み演算のステップサイズはsであり、前記1D畳み込みはL2正則化を使用し、正則化係数はrL2であり、前記1D畳み込みカーネルの初期化関数がgであり、前記1D畳み込み演算の出力特徴マップの大きさは入力特徴マップの大きさと同じままになるように設定され、プーリングカーネルの大きさはpであり、プーリング工程大きさはpsである。
ディープニューラルネットワークモデルに関与するドロップアウト層の使用ドロップアウト比は同じであり、dと設定される。
ディープニューラルネットワークモデルの構造は以下を含む。
4.2.1 入力層
入力層を使用して、サイズがh×wの正規化配列特徴行列Z(k)を受信する。
4.2.2 プレモジュール
プレモジュールを前記入力層と接続して使用し、入力配列特徴行列の第1の畳み込みおよび活性化動作を実行して抽象表現特徴マップを取得する。前記モジュールは、1D畳み込み層と、前記1D畳み込み層と接続されたバッチ正規化層と、前記バッチ正規化層と接続されたReLU活性化層とを含む。
4.2.3 コアモジュール
コアモジュールを、前記プレモジュールと接続して使用し、前記特徴マップのさらなる抽象化および特徴抽出を行い、前記ニューラルネットワークモデルの深さを効果的に増加させることによって前記ニューラルネットワークの表現能力を強化する。前記コアモジュールは、同じ構造を有する残差モジュールの3回の繰り返し操作で構成され、各残差モジュールの出力は、次の残差モジュールの入力である。各残差モジュールは
(A)1D畳み込み層と、前記1D畳み込み層と接続されたドロップアウト層と、前記ドロップアウト層と接続されたバッチ正規化層と、前記バッチ正規化層と接続されたReLU活性化層を含み、同じ構造を各々持つ、2回繰り返される前記コアモジュールのプレサブモジュールと、
(B)(A)に記載の前記コアモジュールの第2のプレサブモジュールと接続された第1の1D平均プーリング層と、
(C)(B)に記載の第1の1D平均プーリング層と接続されたSqueeze-Exciteモジュール(SEモジュール)またはSpatial Squeeze-Exciteモジュール(sSEモジュール)と、
を含む。
まず、SEモジュールの減少速度をrSEと設定する。図4に示すように、前記SEモジュールの構造は、
(a)(B)に記載の第1の1D平均プーリング層と接続された第2のグローバル平均プーリング層と、
(b)(a)に記載の第2のグローバル平均プーリング層と接続された再形成層であって、出力特徴マップの大きさが1×fであり、fが1D畳み込みカーネルの数である再形成層と、
(c)(b)に記載の再形成層と接続された第1の完全接続層であって、その出力ニューロンの数がf/rSEであり、fが1D畳み込みカーネルの数であり、rSEが前記SEモジュールの減少速度である第1の完全接続層と、
(d)(c)に記載の第1の完全接続層と接続された第2の完全接続層であって、その出力ニューロンの数がfであり、式中、fが1D畳み込みカーネルの数である第2の完全接続層と、
(e)(B)に記載の第1の1D平均プーリング層と(d)に記載の第2の完全接続層と接続された乗算層と、を含む(詳しくは参考文献[16]参照)。
図5に示すように、sSEモジュールの構造は、
a.活性化関数としてシグモイド関数を使用する(B)に記載の第1の1D平均プーリング層と接続された1×1の1D畳み込み層、
b.(B)に記載の第1の1D平均プーリング層およびaに記載の1×1の1D畳み込み層と接続された乗算層、
(D)(C)に記載のSEモジュールおよびsSEモジュールと接続された第1の追加層(Add層)と、
(E)4.2.2に記載のプレモジュール内の前記ReLU活性化層と接続された第2の1D平均プーリング層と、
(F)(D)に記載の第1の追加層および(E)に記載の第2の1D平均プーリング層と接続された第2の追加層(Add層)と、
を含む(詳しくは参考文献[17]参照)。
上記(A)~(D)は、残差モジュールの左側の分岐であり、(E)は、残差モジュールの右側の分岐である。
4.2.4 ポストモジュール
ポストモジュールは、前記プレモジュールと同じ構造を有し、唯一の違いは、前記ポストモジュール内の1D畳み込みカーネルの数がnoutと設定されており、出力前にポストモジュールを使用して前記コアモジュールから前記特徴マップを特徴抽象化表現することである。
4.2.5 第1のグローバル平均プーリング層
第1のグローバル平均プーリング層は、前記ポストモジュールと接続して使用し、前記特徴抽象化表現の特徴マップをベクトル化する。
4.2.6 出力層
出力層は、前記第1のグローバル平均プーリング層と接続され、出力ニューロンの数が1の完全接続層であり、活性化関数は、染色体異常を出力するために使用されるシグモイド関数である。
4.2.1 入力層
入力層を使用して、サイズがh×wの正規化配列特徴行列Z(k)を受信する。
4.2.2 プレモジュール
プレモジュールを前記入力層と接続して使用し、入力配列特徴行列の第1の畳み込みおよび活性化動作を実行して抽象表現特徴マップを取得する。前記モジュールは、1D畳み込み層と、前記1D畳み込み層と接続されたバッチ正規化層と、前記バッチ正規化層と接続されたReLU活性化層とを含む。
4.2.3 コアモジュール
コアモジュールを、前記プレモジュールと接続して使用し、前記特徴マップのさらなる抽象化および特徴抽出を行い、前記ニューラルネットワークモデルの深さを効果的に増加させることによって前記ニューラルネットワークの表現能力を強化する。前記コアモジュールは、同じ構造を有する残差モジュールの3回の繰り返し操作で構成され、各残差モジュールの出力は、次の残差モジュールの入力である。各残差モジュールは
(A)1D畳み込み層と、前記1D畳み込み層と接続されたドロップアウト層と、前記ドロップアウト層と接続されたバッチ正規化層と、前記バッチ正規化層と接続されたReLU活性化層を含み、同じ構造を各々持つ、2回繰り返される前記コアモジュールのプレサブモジュールと、
(B)(A)に記載の前記コアモジュールの第2のプレサブモジュールと接続された第1の1D平均プーリング層と、
(C)(B)に記載の第1の1D平均プーリング層と接続されたSqueeze-Exciteモジュール(SEモジュール)またはSpatial Squeeze-Exciteモジュール(sSEモジュール)と、
を含む。
まず、SEモジュールの減少速度をrSEと設定する。図4に示すように、前記SEモジュールの構造は、
(a)(B)に記載の第1の1D平均プーリング層と接続された第2のグローバル平均プーリング層と、
(b)(a)に記載の第2のグローバル平均プーリング層と接続された再形成層であって、出力特徴マップの大きさが1×fであり、fが1D畳み込みカーネルの数である再形成層と、
(c)(b)に記載の再形成層と接続された第1の完全接続層であって、その出力ニューロンの数がf/rSEであり、fが1D畳み込みカーネルの数であり、rSEが前記SEモジュールの減少速度である第1の完全接続層と、
(d)(c)に記載の第1の完全接続層と接続された第2の完全接続層であって、その出力ニューロンの数がfであり、式中、fが1D畳み込みカーネルの数である第2の完全接続層と、
(e)(B)に記載の第1の1D平均プーリング層と(d)に記載の第2の完全接続層と接続された乗算層と、を含む(詳しくは参考文献[16]参照)。
図5に示すように、sSEモジュールの構造は、
a.活性化関数としてシグモイド関数を使用する(B)に記載の第1の1D平均プーリング層と接続された1×1の1D畳み込み層、
b.(B)に記載の第1の1D平均プーリング層およびaに記載の1×1の1D畳み込み層と接続された乗算層、
(D)(C)に記載のSEモジュールおよびsSEモジュールと接続された第1の追加層(Add層)と、
(E)4.2.2に記載のプレモジュール内の前記ReLU活性化層と接続された第2の1D平均プーリング層と、
(F)(D)に記載の第1の追加層および(E)に記載の第2の1D平均プーリング層と接続された第2の追加層(Add層)と、
を含む(詳しくは参考文献[17]参照)。
上記(A)~(D)は、残差モジュールの左側の分岐であり、(E)は、残差モジュールの右側の分岐である。
4.2.4 ポストモジュール
ポストモジュールは、前記プレモジュールと同じ構造を有し、唯一の違いは、前記ポストモジュール内の1D畳み込みカーネルの数がnoutと設定されており、出力前にポストモジュールを使用して前記コアモジュールから前記特徴マップを特徴抽象化表現することである。
4.2.5 第1のグローバル平均プーリング層
第1のグローバル平均プーリング層は、前記ポストモジュールと接続して使用し、前記特徴抽象化表現の特徴マップをベクトル化する。
4.2.6 出力層
出力層は、前記第1のグローバル平均プーリング層と接続され、出力ニューロンの数が1の完全接続層であり、活性化関数は、染色体異常を出力するために使用されるシグモイド関数である。
5.配列特徴ベクトルの計算
訓練セットを使用して、工程4においてディープニューラルネットワークモデルを訓練する。前記サンプルの配列特徴ベクトルは、前記訓練済みディープニューラルネットワークモデルを使用して計算される。このプロセスは、以下のとおりである。
(1)上記4.1に従って各サンプルの正規化された配列特徴ベクトルを計算し
(2)(1)で得られた正規化された配列特徴行列を前記ディープニューラルネットワークモデルに入力して計算し、
(3)4.2.5に記載のディープニューラルネットワークモデルの第1のグローバル平均プーリング層の出力を、
と定義される入力サンプルに対応する生成された配列特徴ベクトルseqとして保存する。式中、noutは4.2.4に記載のポストモジュールで定義された1D畳み込みカーネルの数である。
(1)上記4.1に従って各サンプルの正規化された配列特徴ベクトルを計算し
(2)(1)で得られた正規化された配列特徴行列を前記ディープニューラルネットワークモデルに入力して計算し、
(3)4.2.5に記載のディープニューラルネットワークモデルの第1のグローバル平均プーリング層の出力を、
6.妊婦サンプルに対応する表現型結果の取得
妊婦サンプルに対応する表現型結果を取得し、
と定義される5つの特徴を含む初期表現型特徴ベクトルpheinitを構築する。式中、xageはサンプリング時の妊婦の年齢(歳)を表し、xGWはサンプリング時の妊婦の妊娠週を表し、xheightは妊婦の身長(cm)を表し、xweightは妊婦の体重(kg)を表し、xFFは妊婦の血漿中の無細胞胎児DNAの濃度を表す。
7. 表現型データの前処理
妊婦の表現型データセットは、異常値処理および欠損値またはヌル値処理を含む、前処理を実施される。
(1)異常値処理
以下の記録:
a.xage<10またはxage>80;
b.xGW<5またはxGW>50;
c.xheight<40またはxheight>300;
d.xweight<10またはxweight>200;
が表示されると、妊婦サンプルの表現型データは異常値として判定され、これらの異常値はヌル値として設定される。
a.xage<10またはxage>80;
b.xGW<5またはxGW>50;
c.xheight<40またはxheight>300;
d.xweight<10またはxweight>200;
が表示されると、妊婦サンプルの表現型データは異常値として判定され、これらの異常値はヌル値として設定される。
(2)欠損値またはヌル値の処理
表現型データ行列Pは、以下のように定義され、
式中、(工程6で定義されるように)phei
initは前記訓練セット中のi番目のサンプルの表現型特徴ベクトルを表し、Nは前記訓練セット中のサンプルの数を表す。前記訓練セット中の前記サンプルは4.1に記載の訓練セットのサンプルと一致しているため、表現型データ行列PはサイズがN×Mの行列であり、Mは表現型特徴の数であり、M=5である。
ミスフォレストアルゴリズムを使用して、ランダムフォレストに基づくノンパラメトリック欠損値パディングアルゴリズムである欠損値パディングを行う(詳しくは参考文献[18]参照)。そのアルゴリズムは以下の通りである。
(3)BMIの計算
8.複合特徴ベクトルの生成
9.複合特徴ベクトルの正規化
8.に記載の複合特徴ベクトルは以下の式によって正規化され、
式中、x’
iは正規化された複合特徴ベクトルxのi番目の配列固有値であり、xiは前記複合特徴ベクトルxのi番目の配列固有値であり、μiは前記複合特徴ベクトルxのi番目の配列固有値の平均であり、σiは前記複合特徴ベクトルxのi番目の配列固有値の標準偏差である。
10.スタッキングに基づくアンサンブル学習モデルの構築
工程9に記載の結果を使用して、
のように表される訓練セットを構築する。式中、Nは訓練サンプルの数を表し、Nは1以上の整数であり、Z(k)
i,jは訓練サンプルkの正規化された配列特徴行列であり、k∈[1,N]であり、iは1以上の整数であり、jは1以上の整数であり、y=0は正常胎児染色体を表し、y=1は異常胎児染色体を表す。
実施例2.染色体異常の検出例
例示的な実施形態において、本発明は、非侵襲的出生前検査(NIPT)の核酸シーケンシング結果および妊婦の表現型データを一緒に使用して、遺伝的異常が胎児染色体に存在するかどうかを予測する、胎児染色体異常を検出する方法を提案する。具体的な実施形態では、胎児染色体異常を検出する方法のプロセスおよび工程を図1に示し、具体的なプロセスを以下に説明する。
1.NIPTシーケンシングデータおよびアラインメント結果の取得
ハイスループットシーケンシングプラットフォームBGIseq500を使用して、検出対象サンプルのシーケンシングを行う(SE35を採用、シーケンシング深度:0.1×)。シーケンシングデータを参照ゲノムにアラインメントし、反復アラインメント配列をフィルタリングして、一意のマッピングリードを取得する。
2.上記工程1で得られた一意のマッピングリードを前処理し、ゲノムの各カバレッジ領域の配列カバレッジ深度を、GC含量とシーケンシング深度との間の関係を通して再補正する。具体的なプロセスについては、実施例1を参照のこと。
3.配列特徴行列の生成
上記工程2の結果を使用して特徴行列を計算する。(図2に示されるように)計算のプロセスは以下の通りである。長さbのウィンドウを使用して、開始部位から終了部位までの長さLの標的染色体を、ステップサイズtでスライドさせる。以下の特徴:
a.領域内のGC補正リードの数
b.領域内の塩基品質の平均
c.領域内の塩基品質の標準偏差(std)
d.領域内の塩基品質の歪度
e.領域内の塩基品質の尖度
f.領域内のマッピング品質の平均
g.領域内のマッピング品質の標準偏差(std)
h.領域内のマッピング品質の歪度
i.領域内のマッピング品質の尖度
を、各スライディングウィンドウでカバーされる長さbの領域に対して計算し、これにより、配列特徴行列を得る:
式中、
hはスライディングウィンドウの数を表し、例えば、
であり、
wは単一のスライディングウィンドウ内の配列特徴の数を表し、例えば、w=9(すなわち、長さbの各スライディングウィンドウについて9つの異なる特徴が計算される)であり、xijはi番目のスライディングウィンドウにおけるj番目の配列固有値を表す。
a.領域内のGC補正リードの数
b.領域内の塩基品質の平均
c.領域内の塩基品質の標準偏差(std)
d.領域内の塩基品質の歪度
e.領域内の塩基品質の尖度
f.領域内のマッピング品質の平均
g.領域内のマッピング品質の標準偏差(std)
h.領域内のマッピング品質の歪度
i.領域内のマッピング品質の尖度
を、各スライディングウィンドウでカバーされる長さbの領域に対して計算し、これにより、配列特徴行列を得る:
hはスライディングウィンドウの数を表し、例えば、
wは単一のスライディングウィンドウ内の配列特徴の数を表し、例えば、w=9(すなわち、長さbの各スライディングウィンドウについて9つの異なる特徴が計算される)であり、xijはi番目のスライディングウィンドウにおけるj番目の配列固有値を表す。
塩基品質は、シーケンシング結果の精度を定量的に説明するためのものである。塩基品質の平均、標準偏差、歪度および尖度は、それぞれ、シーケンシングリードセグメントにおける全ての塩基品質の平均、標準偏差、歪度および尖度を指す。マップ品質は、参照ゲノム配列に対する所与のシーケンシングセグメントのアラインメントの信頼性を指し、マップ品質の平均、標準偏差、歪度および尖度はそれぞれ、所与のシーケンシングリードセグメントのマップ品質の平均、標準偏差、歪度および尖度を指す。
4.実施例1における訓練済みディープニューラルネットワークモデルを使用してサンプルの配列特徴ベクトルを計算する。プロセスは以下の通りである:
(1)実施例1の4.1に従って前記サンプルの正規化された配列特徴行列を計算し
(2)(1)で得られた正規化された配列特徴行列をディープニューラルネットワークモデルに入力して計算し、
(3)実施例1の4.2.5に記載のディープニューラルネットワークモデルの第1のグローバル平均プーリング層の出力を、
と定義されるサンプルに対応する生成された配列特徴ベクトルseqとして保存する。式中、noutは4.2.4に記載のポストモジュールで定義された1D畳み込みカーネルの数である。
(1)実施例1の4.1に従って前記サンプルの正規化された配列特徴行列を計算し
(2)(1)で得られた正規化された配列特徴行列をディープニューラルネットワークモデルに入力して計算し、
(3)実施例1の4.2.5に記載のディープニューラルネットワークモデルの第1のグローバル平均プーリング層の出力を、
5.検出対象の妊婦サンプルに対応する表現型結果の取得
検出対象の妊婦サンプルに対応する表現型結果を取得し、
と定義される5つの特徴を含む初期表現型特徴ベクトルpheinitを構築する。式中、xageはサンプリング時の妊婦の年齢(歳)を表し、xGWはサンプリング時の妊婦の妊娠週を表し、xheightは妊婦の身長(cm)を表し、xweightは妊婦の体重(kg)を表し、xFFは妊婦の血漿中の無細胞胎児DNAの濃度を表す。
6.表現型データの異常値処理
以下の記録:
a.xage<10またはxage>80;
b.xGW<5またはxGW>50;
c.xheight<40またはxheight>300;
d.xweight<10またはxweight>200;
が表示されると、検出対象の妊婦サンプルの表現型データは異常値として判定され、これらの異常値はヌル値として設定される。
a.xage<10またはxage>80;
b.xGW<5またはxGW>50;
c.xheight<40またはxheight>300;
d.xweight<10またはxweight>200;
が表示されると、検出対象の妊婦サンプルの表現型データは異常値として判定され、これらの異常値はヌル値として設定される。
8.複合特徴ベクトルの正規化
7.に記載の複合特徴ベクトルは以下の式によって正規化され、
式中、x’
iは正規化された複合特徴ベクトルxのi番目の配列固有値であり、xiは前記複合特徴ベクトルxのi番目の配列固有値であり、μiは前記複合特徴ベクトルxのi番目の配列固有値の平均であり、σiは前記複合特徴ベクトルxのi番目の配列固有値の標準偏差である。
9.実施例1のスタッキングに基づくアンサンブル学習モデルに合成特徴ベクトルを入力し、検出対象の妊婦の胎児染色体状態を取得する。
実施例3.検証の例
1.サンプル数
本実施例では、陽性検体として「21トリソミー(T21)」のサンプルを1205検体使用し、陰性検体として正常染色体(二倍体)のサンプルを1600検体使用する。
2.実施例1の2.に記載の工程に従って、全ての陽性検体および陰性検体のシーケンシングデータを前処理する。ランダムサンプリングフラグメントの数はm=50000000であり、フラグメントはl=180である。
3.実施例1の工程3に記載の工程に従って、全ての陽性検体および陰性検体の配列特徴行列を生成する。パラメータは、以下のように設定される。
第21染色体の長さ:L=46709983
スライディングウィンドウの長さ:b=1000000
スライディングのステップサイズ:t=500000
第21染色体の長さ:L=46709983
スライディングウィンドウの長さ:b=1000000
スライディングのステップサイズ:t=500000
したがって、各サンプルに対応する配列特徴行列は9×93の大きさ、すなわち、w=9、h=93で得られる。第21染色体の開始部分は参照ゲノム中にマッピング配列を持たないので、本実施例では配列特徴行列の最初の8列がフィルタリングされる、すなわち、実際に使用される配列特徴行列の大きさは9×85である。
4.工程3の結果に基づいて、前記訓練セット中の対応するシーケンシングデータの特徴行列を使用して、前記ディープニューラルネットワークモデルを訓練する。
(1)上記実施例1の4.1に従って、訓練セットのシーケンシングデータの特徴行列を正規化し、正規化モデルを保存する。
(2)(1)に記載のディープニューラルネットワークモデルに従って、大きさが2524×85×9の入力テンソルを取得し、前記ディープニューラルネットワークモデルを訓練する。
(3)実施例1の4.2に記載のディープニューラルネットワークモデルに従って、前記ディープニューラルネットワークモデルを訓練し、前記ディープニューラルネットワークモデルのパラメータを以下のように設定する:
1D畳み込みカーネルの数:f=32であり、
1D畳み込みカーネルの大きさ:k=8であり、
1D畳み込み演算のステップサイズ:s=1であり、
1D畳み込みカーネルのl2の正則化係数:rl2=0.0004であり、
1D畳み込みカーネルの初期化関数gは、参考文献[20]に記載の「He正規化」初期化関数を使用し、
1D畳み込み演算の出力特徴マップの大きさは、入力特徴マップの大きさと同じであり、
プーリング・カーネルの大きさ:p=2であり、
プーリングのステップサイズ:ps=2であり、
ドロップアウト層のドロップアウト比:rd=0.5であり、
SEモジュールの下降速度:rSE=16であり、
ポストモジュール内の1D畳み込みカーネルの数:nout=8である。
本実施例は、Tensorflow(バージョン=1.12.2)およびkeras(バージョン=2.2.4)のGPUバージョンに基づいて実施される。表4-1から表4-5は、上述のパラメータに基づく、ディープニューラルネットワークモデルにおける、各層の操作、出力特徴マップの大きさ、およびネットワーク接続を示す。
(4)前記訓練セット中のサンプルの80%を使用して前記ディープニューラルネットワークの訓練をし、20%を使用して検証し精度を計算する。
(5)前記ディープニューラルネットワークの訓練は、反復エポック=100およびサンプルバッチmini_batchの大きさ=64のように設定する。勾配降下の最適化アルゴリズムとしてAdamアルゴリズム(パラメータβ1=0.9、β2=0.999)を用い、初期訓練率を0.01に設定する。訓練プロセスでは、連続する2回の反復後に正解率が改善されない場合、訓練率を2倍に低減し(すなわち、0.5倍し)、10回の連続する反復後に正解率が改善されない場合、訓練を停止する。
(6)クラス重み係数を(機械訓練ライブラリscikit-learn(バージョン=0.22.2)においてcompute_class_weight()関数を使用してクラス重みを計算し、対応するクラスのサンプルにクラス重みを割り当てて)ディープニューラルネットワークモデルの訓練プロセスに導入する。
(7)訓練済みディープニューラルネットワークモデルを保存する。
(1)上記実施例1の4.1に従って、訓練セットのシーケンシングデータの特徴行列を正規化し、正規化モデルを保存する。
(2)(1)に記載のディープニューラルネットワークモデルに従って、大きさが2524×85×9の入力テンソルを取得し、前記ディープニューラルネットワークモデルを訓練する。
(3)実施例1の4.2に記載のディープニューラルネットワークモデルに従って、前記ディープニューラルネットワークモデルを訓練し、前記ディープニューラルネットワークモデルのパラメータを以下のように設定する:
1D畳み込みカーネルの数:f=32であり、
1D畳み込みカーネルの大きさ:k=8であり、
1D畳み込み演算のステップサイズ:s=1であり、
1D畳み込みカーネルのl2の正則化係数:rl2=0.0004であり、
1D畳み込みカーネルの初期化関数gは、参考文献[20]に記載の「He正規化」初期化関数を使用し、
1D畳み込み演算の出力特徴マップの大きさは、入力特徴マップの大きさと同じであり、
プーリング・カーネルの大きさ:p=2であり、
プーリングのステップサイズ:ps=2であり、
ドロップアウト層のドロップアウト比:rd=0.5であり、
SEモジュールの下降速度:rSE=16であり、
ポストモジュール内の1D畳み込みカーネルの数:nout=8である。
本実施例は、Tensorflow(バージョン=1.12.2)およびkeras(バージョン=2.2.4)のGPUバージョンに基づいて実施される。表4-1から表4-5は、上述のパラメータに基づく、ディープニューラルネットワークモデルにおける、各層の操作、出力特徴マップの大きさ、およびネットワーク接続を示す。
(4)前記訓練セット中のサンプルの80%を使用して前記ディープニューラルネットワークの訓練をし、20%を使用して検証し精度を計算する。
(5)前記ディープニューラルネットワークの訓練は、反復エポック=100およびサンプルバッチmini_batchの大きさ=64のように設定する。勾配降下の最適化アルゴリズムとしてAdamアルゴリズム(パラメータβ1=0.9、β2=0.999)を用い、初期訓練率を0.01に設定する。訓練プロセスでは、連続する2回の反復後に正解率が改善されない場合、訓練率を2倍に低減し(すなわち、0.5倍し)、10回の連続する反復後に正解率が改善されない場合、訓練を停止する。
(6)クラス重み係数を(機械訓練ライブラリscikit-learn(バージョン=0.22.2)においてcompute_class_weight()関数を使用してクラス重みを計算し、対応するクラスのサンプルにクラス重みを割り当てて)ディープニューラルネットワークモデルの訓練プロセスに導入する。
(7)訓練済みディープニューラルネットワークモデルを保存する。
5.上記実施例1の工程5に従って配列特徴ベクトルを計算する。
(1)上記実施例1における工程3に従って、全データセット(前記訓練セットおよび試験セットを含む)中の全てのサンプルに対する配列特徴行列を計算し、
(2)4.1に記載の配列正規化モデルに従って、得られた配列正規化モデルを用いて、上記(1)で得られた配列特徴行列を正規化し、
(3)上記(2)の結果を、4で得られたディープニューラルネットワークモデルに入力し、前記モデルの出力層を前記グローバル平均プーリング層(すなわち、表4-5における65番目の層)に修正し、
(4)(3)のプロセスに従って、全データセット(前記訓練セットおよび試験セットを含む)中の全てのサンプルの配列特徴ベクトルを取得する。
(1)上記実施例1における工程3に従って、全データセット(前記訓練セットおよび試験セットを含む)中の全てのサンプルに対する配列特徴行列を計算し、
(2)4.1に記載の配列正規化モデルに従って、得られた配列正規化モデルを用いて、上記(1)で得られた配列特徴行列を正規化し、
(3)上記(2)の結果を、4で得られたディープニューラルネットワークモデルに入力し、前記モデルの出力層を前記グローバル平均プーリング層(すなわち、表4-5における65番目の層)に修正し、
(4)(3)のプロセスに従って、全データセット(前記訓練セットおよび試験セットを含む)中の全てのサンプルの配列特徴ベクトルを取得する。
6.上記実施例1の工程7に従って、全データセット(前記訓練セットおよび試験セットを含む)中の全てのサンプルの表現型特徴を取得し、前記表現型特徴の異常値を処理する。
7.上記実施例1の工程7に従って、前記訓練セット中の表現型特徴を欠損値パディングし、欠損値のパディングモデルを保存する。
8.上記実施例1の工程7に従って、図6に示すように、欠損値処理後の訓練セット中の表現型特徴についてBMIを計算する。
9.上記実施例1の工程8に従って、前記訓練セット中の配列特徴ベクトルを対応するサンプルの表現型特徴ベクトルと組み合わせて複合特徴ベクトルを得る。
10.上記実施例1の工程9に従って、訓練セット中の各サンプルの複合特徴ベクトルを正規化して正規化された特徴ベクトルを取得し、複合特徴ベクトルの正規化モデルを保存する。
11.上記工程7~10のプロセスに従って、前記欠損値の保存されたパディングモデルを使用して前記試験セット中の各サンプルの表現型特徴の欠損値パディングを行い、前記試験セットの配列特徴ベクトルを対応するサンプルの表現型特徴ベクトルと組み合わせて、前記試験セットの複合特徴ベクトルを取得し、保存した前記複合特徴ベクトルの正規化モデルを使用して前記試験セット中の複合特徴ベクトルを正規化する。
12.図7に示すように、上記工程10で取得した訓練セットの正規化された特徴ベクトルを使用して、スタッキングに基づいてアンサンブル学習モデルを訓練する。本実施例はscikit-learn(バージョン=0.22.2)機械訓練ライブラリに基づいて実施されるが、クラス重み係数はそれぞれのベース分類器モデルおよび最終メタ分類器モデルに導入され、パラメータは別段の指定がない場合、デフォルトとして設定される。
(1)上記実施例1の工程10に従い、実施例で使用されるベース分類器は、
・C=0.5、カーネル=「rbf」のパラメータを持つSVC、
・ν=0.25、カーネル=「rbf」のパラメータを持つν-svc、
・ガウシアンNB(ガウシアン単純ベイズモデル)、
・n_estimators=100、criterion=「gini」、max_depth=5、min_samples_leaf=1およびmin_samples_split=2のパラメータを持つランダムフォレスト分類器、
・n_estimators=100、min_child_weight=1、gamma=0.1、colsample_bytree=0.8、subsample=0.7、reg_alpha=0.01、max_depth=5、learning_rate=0.05のパラメータを持つXGB分類器、
・C=0.5のパラメータを持つロジスティック回帰、
を含む。
(2)実施例1の工程10に従い、最終メタ分類器は、エクストラツリー分類器(極めてランダム化されたツリー分類器)である。この分類器に関与するパラメータは、それぞれ、n_estimators=110、max_depth=6、min_samples_split=3、およびmin_samples_leaf=1と設定される。
(3)スタッキングに基づくアンサンブル学習モデルに対して、5倍交差検証訓練を行い、その結果を図8に示す。これは、5倍交差検証訓練を用いて前記モデルを訓練することによって得られた平均AUCが0.96であることを示す。
(1)上記実施例1の工程10に従い、実施例で使用されるベース分類器は、
・C=0.5、カーネル=「rbf」のパラメータを持つSVC、
・ν=0.25、カーネル=「rbf」のパラメータを持つν-svc、
・ガウシアンNB(ガウシアン単純ベイズモデル)、
・n_estimators=100、criterion=「gini」、max_depth=5、min_samples_leaf=1およびmin_samples_split=2のパラメータを持つランダムフォレスト分類器、
・n_estimators=100、min_child_weight=1、gamma=0.1、colsample_bytree=0.8、subsample=0.7、reg_alpha=0.01、max_depth=5、learning_rate=0.05のパラメータを持つXGB分類器、
・C=0.5のパラメータを持つロジスティック回帰、
を含む。
(2)実施例1の工程10に従い、最終メタ分類器は、エクストラツリー分類器(極めてランダム化されたツリー分類器)である。この分類器に関与するパラメータは、それぞれ、n_estimators=110、max_depth=6、min_samples_split=3、およびmin_samples_leaf=1と設定される。
(3)スタッキングに基づくアンサンブル学習モデルに対して、5倍交差検証訓練を行い、その結果を図8に示す。これは、5倍交差検証訓練を用いて前記モデルを訓練することによって得られた平均AUCが0.96であることを示す。
13.工程12に記載のスタッキングに基づいて訓練済みアンサンブル学習モデルを、前記試験セットを使用して検証する。
(1)試験結果のROC曲線を図9に示す。AUC=0.96である。
(2)試験結果の適合率-再現率曲線を図10に示す。AP=0.95である。
(3)デフォルトの決定閾値(すなわち、0.5)での混同行列を図11に示す。再現率および適合率はそれぞれ、0.83および0.89である。
(4)判定閾値としての適合率と再現率の関数を図12に示す。
(5)最小再現率を0.95に設定する(すなわち、タイプIIエラーを制限する)。得られた結果を図12に示す。再現率および適合率はそれぞれ0.96および0.70である。
(1)試験結果のROC曲線を図9に示す。AUC=0.96である。
(2)試験結果の適合率-再現率曲線を図10に示す。AP=0.95である。
(3)デフォルトの決定閾値(すなわち、0.5)での混同行列を図11に示す。再現率および適合率はそれぞれ、0.83および0.89である。
(4)判定閾値としての適合率と再現率の関数を図12に示す。
(5)最小再現率を0.95に設定する(すなわち、タイプIIエラーを制限する)。得られた結果を図12に示す。再現率および適合率はそれぞれ0.96および0.70である。
本発明は、機械学習モデル(ディープニューラルネットワークなど)を使用してNIPTシーケンシングデータの配列特徴ベクトルを抽出し、前記配列特徴ベクトル(リードカウント、塩基品質、およびマッピング品質を含むが、これらに限定されない特徴)を妊婦の表現型特徴ベクトル(出産年齢、妊娠週、身長、体重、BMI、出生前検査の生化学的検査結果、およびNT値などの超音波診断結果を含むが、これらに限定されない妊婦の表現型特徴)と組み合わせてベクトル組み合わせを形成し、スタッキングに基づくアンサンブル学習モデルなどの分類モデルを使用して、最終的な予測異数性を取得することを提案する。本発明において、前記配列特徴ベクトルの抽出は本明細書で使用される方法に限定されず、オートエンコーダネットワークまたはバリエーションオートエンコーダネットワークを含むがこれらに限定されない方法を使用することもできる。本発明によって提案されるモデル構造はハイブリッドモデルであり、すなわち、モデルは、2つの段階を含む。第1の段階では、(ディープニューラルネットワークなどの)機械学習モデルを使用して、前記配列特徴ベクトルを計算する。第2の段階では、分類モデル(スタッキングに基づくアンサンブル学習モデルなど)を使用して、配列特徴ベクトルと表現型特徴ベクトルの組合せを用いて異数性を予測する。多数決に基づくモデルなどの他のアンサンブル学習モデルも使用することができる。
他の畳み込みニューラルネットワークと比較して、本発明の実施例で使用される検証された高度なディープニューラルネットワークモデルは、ネットワーク設計およびアーキテクチャに関する以下の特徴を有する。本発明の実施例で使用されるディープニューラルネットワークモデルは1D畳み込みモデルに基づくディープニューラルネットワークモデルであり、本発明の実施例で使用されるディープニューラルネットワークモデルは残差ネットワークに基づくネットワークモデルであり、Squeeze-ExciteネットワークのSEモジュールは本発明の実施例で使用されるディープニューラルネットワークモデルに導入される。これらの設計に基づいて、本発明の実施例で使用されるニューラルネットワークモデルはより多くの層を有し(実施例3参照)、訓練モデルのプロセスにおける勾配消失および過剰適合のリスクを効果的に低減し、安定性を改善するため、モデル予測結果の精度を効果的に改善する。
本発明は、コンピュータプログラムが記憶されるコンピュータ可読記憶媒体として実施することができ、本発明の方法を実施する工程は、コンピュータプログラムがプロセッサによって実行されるときに実行される。一例として、コンピュータプログラムがネットワークによって結合されたいくつかのコンピュータ装置またはプロセッサに分散され、その結果、コンピュータプログラムは、1つ以上のコンピュータ装置またはプロセッサによって分散された形で記憶され、アクセスされ、実行される。単一の工程/操作、または2つ以上の工程/操作は、単一のコンピュータ装置もしくはプロセッサによって、または2つ以上のコンピュータ装置もしくはプロセッサによって実行され得る。1つ以上の工程/操作は1つ以上のコンピュータ装置またはプロセッサによって実行され得、1つ以上の他の工程/操作は1つ以上の他のコンピュータ装置またはプロセッサによって実行され得る。1つ以上のコンピュータ装置またはプロセッサは、単一の工程/操作、または2つ以上の工程/操作を実行することができる。
当業者は、本発明の胎児染色体異常を検出する方法における工程の分割および順序が単なる例示であり、限定するものではなく、添付の特許請求の範囲に記載される本発明の技術的思想または技術的範囲およびその同等技術的解決策から逸脱することなく、削除、付加、置換、変更および変形が、当業者によって行われ得ることを理解するであろう。本発明の実施形態の技術的特徴は任意に組み合わせることができるが、説明を簡潔にするために、上記実施形態における技術的特徴の全ての可能な組み合わせが記載されているわけではない。ただし、これらの技術的特徴の組合せに矛盾がない場合には、本明細書の範囲に属するものとする。
例示的な実施形態を参照して本発明を説明してきたが、本発明は上記の実施形態の構成および方法に限定されないことを理解されたい。その代わりに、本発明は、様々な変更および同等の構成を包含することが意図される。加えて、本発明において開示される様々な要素および方法工程は様々な例示的な組合せおよび構成で示されるが、より多いまたはより少ない要素または方法を含む他の組合せも、本発明の範囲内に含まれる。
参考文献:
[1] Evans, Mark I., Stephanie Andriole, and Shara M. Evans. "Genetics: update on prenatal screening and diagnosis." Obstetrics and Gynecology Clinics 42.2 (2015): 193-208.
[2] Norwitz, Errol R., and Brynn Levy. "Noninvasive prenatal testing: the future is now." Reviews in obstetrics and gynecology 6.2 (2013): 48.
[3] Norton, Mary E., et al. "Cell-free DNA analysis for noninvasive examination of trisomy." New England Journal of Medicine 372.17 (2015): 1589-1597.
[4] Langlois, Sylvie, et al. "Current status in non-invasive prenatal detection of Down syndrome, trisomy 18, and trisomy 13 using cell-free DNA in maternal plasma." Journal of Obstetrics and Gynaecology Canada 35.2 (2013): 177-181.
[5] Allyse, Megan, et al. "Non-invasive prenatal testing: a review of international implementation and challenges." International journal of women's health 7 (2015): 113.
[6] Chiu, Rossa WK, et al. "Noninvasive prenatal diagnosis of fetal chromosomal aneuploidy by massively parallel genomic sequencing of DNA in maternal plasma." Proceedings of the National Academy of Sciences 105.51 (2008): 20458-20463.
[7] Fan, H. Christina, et al. "Noninvasive diagnosis of fetal aneuploidy by shotgun sequencing DNA from maternal blood." Proceedings of the National Academy of Sciences 105.42 (2008): 16266-16271.
[8] Lau, Tze Kin, et al. "Noninvasive prenatal diagnosis of common fetal chromosomal aneuploidies by maternal plasma DNA sequencing." The Journal of Maternal-Fetal & Neonatal Medicine 25.8 (2012): 1370-1374.
[9] Jiang, Fuman, et al. "Noninvasive Fetal Trisomy (NIFTY) test: an advanced noninvasive prenatal diagnosis methodology for fetal autosomal and sex chromosomal aneuploidies." BMC medical genomics 5.1 (2012): 57.
[10] Yang, Jianfeng, Xiaofan Ding, and Weidong Zhu. "Improving the calling of non-invasive prenatal testing on 13-/18-/21-trisomy by support vector machine discrimination." BioRxiv (2017): 216689.
[11] Xu, Hanli, et al. "Informative priors on fetal fraction increase power of the noninvasive prenatal screen." Genetics in Medicine 20.8 (2018): 817-824.
[12] Ehrich, Mathias, et al. "Deep learning-based methods, devices, and systems for prenatal testing", Publication number: WO2019191319A1, Filing Date: 27 March 2019.
[13] Egilsson, Agust, et al. "Methods and systems for calling ploidy status using a neural network". Publication number: WO2020018522A1, Filing date: 16 July 2019.
[14] Petersen, Andrea K., et al. "Positive predictive value estimates for cell-free noninvasive prenatal screening from data of a large referral genetic diagnostic laboratory." American journal of obstetrics and gynecology 217.6 (2017): 691-e1.
[15] Benjamini, Yuval, and Terence P. Speed. "Summarizing and correcting the GC content bias in high-throughput sequencing." Nucleic acids research 40.10 (2012): e72-e72.
[16] Hu, Jie, Li Shen, and Gang Sun. "Squeeze-and-excitation networks." Proceedings of the IEEE conference on computer vision and pattern recognition. 2018.
[17] Roy, Abhijit Guha, Nassir Navab, and Christian Wachinger. "Concurrent spatial and channel ‘squeeze & excitation’in fully convolutional networks." International Conference on Medical Image Computing and Computer-Assisted Intervention. Springer, Cham, 2018.
[18] Stekhoven, Daniel J., and Peter Buhlmann. "MissForest-non-parametric missing value imputation for mixed-type data." Bioinformatics 28.1 (2012): 112-118.
[19] Tang, J., S. Alelyani, and H. Liu. "Data Classification: Algorithms and Applications." Data Mining and Knowledge Discovery Series, CRC Press (2015): pp. 498-500.
[20] He, Kaiming, et al. "Delving deep into rectifiers: Surpassing human-level performance on imagenet classification." Proceedings of the IEEE international conference on computer vision. 2015.
参考文献:
[1] Evans, Mark I., Stephanie Andriole, and Shara M. Evans. "Genetics: update on prenatal screening and diagnosis." Obstetrics and Gynecology Clinics 42.2 (2015): 193-208.
[2] Norwitz, Errol R., and Brynn Levy. "Noninvasive prenatal testing: the future is now." Reviews in obstetrics and gynecology 6.2 (2013): 48.
[3] Norton, Mary E., et al. "Cell-free DNA analysis for noninvasive examination of trisomy." New England Journal of Medicine 372.17 (2015): 1589-1597.
[4] Langlois, Sylvie, et al. "Current status in non-invasive prenatal detection of Down syndrome, trisomy 18, and trisomy 13 using cell-free DNA in maternal plasma." Journal of Obstetrics and Gynaecology Canada 35.2 (2013): 177-181.
[5] Allyse, Megan, et al. "Non-invasive prenatal testing: a review of international implementation and challenges." International journal of women's health 7 (2015): 113.
[6] Chiu, Rossa WK, et al. "Noninvasive prenatal diagnosis of fetal chromosomal aneuploidy by massively parallel genomic sequencing of DNA in maternal plasma." Proceedings of the National Academy of Sciences 105.51 (2008): 20458-20463.
[7] Fan, H. Christina, et al. "Noninvasive diagnosis of fetal aneuploidy by shotgun sequencing DNA from maternal blood." Proceedings of the National Academy of Sciences 105.42 (2008): 16266-16271.
[8] Lau, Tze Kin, et al. "Noninvasive prenatal diagnosis of common fetal chromosomal aneuploidies by maternal plasma DNA sequencing." The Journal of Maternal-Fetal & Neonatal Medicine 25.8 (2012): 1370-1374.
[9] Jiang, Fuman, et al. "Noninvasive Fetal Trisomy (NIFTY) test: an advanced noninvasive prenatal diagnosis methodology for fetal autosomal and sex chromosomal aneuploidies." BMC medical genomics 5.1 (2012): 57.
[10] Yang, Jianfeng, Xiaofan Ding, and Weidong Zhu. "Improving the calling of non-invasive prenatal testing on 13-/18-/21-trisomy by support vector machine discrimination." BioRxiv (2017): 216689.
[11] Xu, Hanli, et al. "Informative priors on fetal fraction increase power of the noninvasive prenatal screen." Genetics in Medicine 20.8 (2018): 817-824.
[12] Ehrich, Mathias, et al. "Deep learning-based methods, devices, and systems for prenatal testing", Publication number: WO2019191319A1, Filing Date: 27 March 2019.
[13] Egilsson, Agust, et al. "Methods and systems for calling ploidy status using a neural network". Publication number: WO2020018522A1, Filing date: 16 July 2019.
[14] Petersen, Andrea K., et al. "Positive predictive value estimates for cell-free noninvasive prenatal screening from data of a large referral genetic diagnostic laboratory." American journal of obstetrics and gynecology 217.6 (2017): 691-e1.
[15] Benjamini, Yuval, and Terence P. Speed. "Summarizing and correcting the GC content bias in high-throughput sequencing." Nucleic acids research 40.10 (2012): e72-e72.
[16] Hu, Jie, Li Shen, and Gang Sun. "Squeeze-and-excitation networks." Proceedings of the IEEE conference on computer vision and pattern recognition. 2018.
[17] Roy, Abhijit Guha, Nassir Navab, and Christian Wachinger. "Concurrent spatial and channel ‘squeeze & excitation’in fully convolutional networks." International Conference on Medical Image Computing and Computer-Assisted Intervention. Springer, Cham, 2018.
[18] Stekhoven, Daniel J., and Peter Buhlmann. "MissForest-non-parametric missing value imputation for mixed-type data." Bioinformatics 28.1 (2012): 112-118.
[19] Tang, J., S. Alelyani, and H. Liu. "Data Classification: Algorithms and Applications." Data Mining and Knowledge Discovery Series, CRC Press (2015): pp. 498-500.
[20] He, Kaiming, et al. "Delving deep into rectifiers: Surpassing human-level performance on imagenet classification." Proceedings of the IEEE international conference on computer vision. 2015.
Claims (59)
- 以下の工程を含む、胎児染色体異常を検出する方法:
(1)検出対象の妊婦から無細胞核酸断片のシーケンシングデータおよび臨床表現型特徴データを取得する工程であって、
前記シーケンシングデータが複数のリードセグメントを含み、
前記検出対象の妊婦の前記臨床表現型特徴データが前記妊婦の表現型特徴ベクトルを形成する工程;
(2)参照ゲノムの染色体配列の少なくとも一部にウィンドウ分割を行って複数のスライディングウィンドウを取得し、
前記スライディングウィンドウ内に含まれる前記リードセグメントをカウントし、
前記染色体配列の配列特徴行列を生成する工程;
(3)訓練済み機械学習モデルに前記配列特徴行列を入力して前記染色体配列の配列特徴ベクトルを抽出する工程;
(4)前記配列特徴ベクトルおよび前記妊婦の前記表現型特徴ベクトルを組み合わせて複合特徴ベクトルを形成し、
前記複合特徴ベクトルを分類検出モデルに入力することにより前記検出対象の妊婦の胎児染色体異常状態を取得する工程。 - 前記工程(1)において、前記無細胞核酸断片が、前記妊婦の末梢血、肝臓、および/または胎盤に由来する、請求項1に記載の方法。
- 前記工程(1)において、前記無細胞核酸断片が、無細胞DNAである、請求項1または2に記載の方法。
- 前記工程(1)において、前記シーケンシングデータが超低深度シーケンシングに由来し、
好ましくは、前記超低深度シーケンシングのシーケンシング深度が1×、0.1×、または0.01×である、請求項1~3のいずれか一項に記載の方法。 - 前記工程(1)において、前記リードセグメントを前記参照ゲノムにアラインメントさせて一意のマッピングリードを取得し(好ましくは、GC含量補正を行い)、
好ましくは、後続の工程が前記一意のマッピングリードを用いて実行される(好ましくは、前記リードセグメントはGC含量により補正される)、請求項1~4のいずれか一項に記載の方法。 - 前記GC含量補正が以下のように行われる、請求項5に記載の方法:
a.長さlのフラグメントm個を前記ヒト参照ゲノムの染色体から無作為に選択し、
b.GC含量iのフラグメントの数Niを以下の式により計算し、
iはGC含量(i=0%、1%、・・・、100%)を表し、
c.GC含量iのシーケンシングリードセグメントの数Fiを以下の式により計算し、
ck・IIi(f(k))はフラグメントkのGC含量を表し、
Fiは、GC含量iおよび前記フラグメントと同じ開始サイトを有するシーケンシングリードセグメントの数を表し、
d.GC含量の観測値-期待値比率λiが以下の式により計算され、
rは以下のように定義されるグローバルスケール因子であり、
Riは補正したGC含量iのシーケンシングリードセグメントの数の期待値を表す。 - 前記工程(1)において、前記妊婦の前記臨床表現型特徴データが、年齢、妊娠週、身長、体重、BMI、出生前検査の生化学的検査結果、超音波診断結果、および血漿中の無細胞胎児DNA濃度のうちの1つまたは2つ以上の組合せから選択される、請求項1~6のいずれか一項に記載の方法。
- 前記工程(1)において、
前記妊婦の前記臨床表現型特徴データが、異常値処理、欠損値処理、および/またはヌル値処理される、請求項1~7のいずれか一項に記載の方法。 - 前記工程(1)において、以下の記録:
a.xage<10またはxage>80;
b.xGW<5またはxGW>50;
c.xheight<40またはxheight>300;
d.xweight<10またはxweight>200;
が表示されると、前記妊婦のサンプルの表現型データが異常値として判定され、
これらの異常値がヌル値として設定される、請求項8に記載の方法。 - 前記欠損値および前記ヌル値が、ミスフォレストアルゴリズムによってパディングされる、請求項8または9に記載の方法。
- 前記工程(2)において、前記染色体が、第21染色体、第18染色体、第13染色体および/または性染色体である、請求項1~10のいずれか一項に記載の方法。
- 前記工程(2)が、
(2.1)長さbのウィンドウを使用して、前記参照ゲノムの長さLの染色体配列をステップサイズtで重複およびスライドさせて、複数のスライディングウィンドウを取得する工程であって、
bは正の整数であり、b=[10000,10000000]であり、tは任意の正の整数であり、Lは正の整数であり、L≧bである工程と、
(2.2)前記スライディングウィンドウ各々の内に含まれる前記リードセグメントをカウントし、前記染色体配列の配列特徴行列を生成する工程と、
を含む、請求項1~11のいずれか一項に記載の方法。 - 前記工程(2)において、前記配列特徴行列が、前記スライディングウィンドウ内のリードセグメントの数、塩基品質、およびマッピング品質を含む、請求項1~12のいずれか一項に記載の方法。
- 前記塩基品質が、前記塩基品質の平均、標準偏差、歪度、および/または尖度を含む、請求項13に記載の方法。
- 前記マッピング品質が、前記マッピング品質の平均、標準偏差、歪度、および/または尖度を含む、請求項13に記載の方法。
- 前記工程(3)において、前記配列特徴行列が正規化される、請求項1~16のいずれか一項に記載の方法。
- 前記工程(3)において、前記訓練済み機械学習モデルがニューラルネットワークモデルまたはオートエンコーダモデルであり、
好ましくは、前記ニューラルネットワークモデルがディープニューラルネットワークモデルであり、
より好ましくは、前記ニューラルネットワークモデルが1D畳み込みに基づくディープニューラルネットワークモデルである、請求項1~18のいずれか一項に記載の方法。 - 前記ディープニューラルネットワークモデルの構造が、
前記配列特徴行列を受信する入力層と、
前記入力層からの前記配列特徴行列の第1の畳み込みおよび活性化動作を実行して特徴マップを取得する、前記入力層と接続されたプレモジュールと、
前記プレモジュールからの前記特徴マップのさらなる抽象化および特徴抽出を行い、前記ニューラルネットワークモデルの深さを効果的に増加させることによって前記ニューラルネットワークの表現能力を強化する、前記プレモジュールと接続されたコアモジュールと、
前記コアモジュールからの前記特徴マップを特徴抽象化表現する、前記コアモジュールと接続されたポストモジュールと、
前記特徴抽象化表現の前記特徴マップをベクトル化し、前記染色体配列の前記配列特徴ベクトルを出力する、前記ポストモジュールと接続された第1のグローバル平均プーリング層と、
を含む、請求項1~19のいずれか一項に記載の方法。 - 前記プレモジュールが、
(I)1D畳み込み層と、
(II)(I)に記載の1D畳み込み層と接続されたバッチ正規化層と、
(III)(II)に記載のバッチ正規化層と接続されたReLU活性化層と、
を含む、請求項20に記載の方法。 - 前記コアモジュールが、同じ構造を持つ1つ以上の残差サブモジュールで構成され、
各残差モジュールの出力が、次の残差モジュールの入力である、
請求項20または21に記載の方法。 - 前記残差サブモジュールが、
(A)1D畳み込み層と、前記1D畳み込み層と接続されたドロップアウト層と、前記ドロップアウト層と接続されたバッチ正規化層と、前記バッチ正規化層と接続されたReLU活性化層とを各々含む、前記コアモジュールのプレサブモジュールと、
(B)(A)に記載の前記コアモジュールのプレサブモジュールと接続された第1の1D平均プーリング層と、
(C)(B)に記載の第1の1D平均プーリング層と接続されたSqueeze-Exciteモジュールおよび/またはSpatial Squeeze-Exciteモジュールと、
(D)(C)に記載のSqueeze-Exciteモジュールおよび/またはSpatial Squeeze-Exciteモジュールと接続された第1の追加層と、
(E)前記プレモジュール内の前記ReLU活性化層と接続された第2の1D平均プーリング層と、
(F)(D)に記載の第1の追加層および(E)に記載の第2の1D平均プーリング層と接続された第2の追加層と、
を含む、請求項20~22のいずれか一項に記載の方法。 - 前記Squeeze-Exciteモジュールが、
(a) (B)に記載の前記残差サブモジュールの第1の1D平均プーリング層と接続された第2のグローバル平均プーリング層と、
(b)(a)に記載の第2のグローバル平均プーリング層と接続された再形成層であって、
前記再形成層の出力特徴マップの大きさが1×fであり、
fが1D畳み込みカーネルの数である再形成層と、
(c)(b)に記載の再形成層と接続された第1の完全接続層であって、
前記第1の完全接続層の出力ニューロンの数がf/rSEであり、
fが1D畳み込みカーネルの数であり、rSEが前記Squeez-Exciteモジュールの減少速度である第1の完全接続層と、
(d)(c)に記載の第1の完全接続層と接続された第2の完全接続層であって、
前記第2の完全接続層の出力ニューロンの数がfであり、
fが1D畳み込みカーネルの数である第2の完全接続層と、
(e)(d)に記載の第2の完全接続層および(B)に記載の前記残差サブモジュールの第1の1D平均プーリング層と接続された乗算層と、
を含む、請求項23に記載の方法。 - 前記Spatial Squeeze-Exciteモジュールが、
a.活性化関数としてシグモイド関数を使用する(B)に記載の第1の1D平均プーリング層と接続された1×1の1D畳み込み層と、
b.(B)に記載の第1の1D平均プーリング層およびaに記載の1×1の1D畳み込み層と接続された乗算層と、
を含む、請求項23または24に記載の方法。 - 前記工程(4)において、前記複合特徴ベクトルが前記配列特徴ベクトルおよび前記妊婦の前記表現型特徴ベクトルを組み合わせることにより得られる、請求項1~25のいずれか一項に記載の方法。
- 前記工程(4)において、前記分類検出モデルがアンサンブル学習モデルである、請求項1~27のいずれか一項に記載の方法。
- 前記アンサンブル学習モデルが、スタッキングまたは多数決に基づくアンサンブル学習モデルであり、
好ましくは、前記アンサンブル学習モデルが、サポートベクターマシンモデル、単純ベイズ分類器、ランダムフォレスト分類器、XGBoostおよびロジスティック回帰のうちの1つ以上である、請求項28に記載の方法。 - 前記染色体異常が、トリソミー21症候群、トリソミー18症候群、トリソミー13症候群、5p症候群、染色体微小欠失および染色体微小重複のうちの少なくとも1つ以上を含む、請求項1に記載の方法。
- 以下の工程を含む、胎児染色体異常を検出する分類検出モデルを構築する方法:
(1)複数の妊婦から無細胞核酸断片のシーケンシングデータおよび臨床表現型特徴データを取得する工程であって、
前記シーケンシングデータが複数のリードセグメントを含み、前記妊婦各々の胎児染色体状態が既知であり、前記妊婦各々の前記臨床表現型特徴データが前記妊婦の表現型特徴ベクトルを形成する工程;
(2)前記妊婦各々について、参照ゲノムの染色体配列の少なくとも一部にウィンドウ分割を行って複数のスライディングウィンドウを取得し、
前記スライディングウィンドウ内に含まれる前記リードセグメントをカウントし、
前記染色体配列の配列特徴行列を生成する工程;
(3)前記妊婦各々について、前記配列特徴行列および前記胎児染色体状態を用いて訓練データセットを構築し、機械学習モデルを訓練して前記染色体配列の配列特徴ベクトルを抽出する工程;
(4)前記配列特徴ベクトルおよび前記妊婦各々の前記表現型特徴ベクトルを組み合わせて複合特徴ベクトルを形成し、前記妊婦の複合特徴ベクトルおよび前記胎児染色体状態を用いて分類モデルを訓練して訓練済み分類検出モデルを取得する工程。 - 前記妊婦各々の前記胎児染色体状態が、正常な二倍体、染色体異数体、部分的モノソミー症候群、染色体微小欠失および染色体微小重複の1つ以上であり、
好ましくは、前記染色体異数体が、トリソミー21症候群、トリソミー18症候群およびトリソミー13症候群の少なくとも1つ以上を含み、
好ましくは、前記部分的モノソミー症候群が5p症候群を含む、
請求項31に記載の方法。 - 前記妊婦の人数が10人を超え、染色体異数性の胎児の数に対する正常な二倍体の胎児の数の比が1/2~2である、請求項32または33に記載の方法。
- 以下のモジュールを含む、胎児染色体異常を検出するシステム:
検出対象の妊婦サンプルから無細胞核酸断片のシーケンシングデータおよび臨床表現型特徴データを取得するデータ取得モジュールであって、
前記シーケンシングデータが複数のリードセグメントを含み、前記検出対象の妊婦サンプルの前記臨床表現型特徴データが前記妊婦の表現型特徴ベクトルを形成するデータ取得モジュール;
参照ゲノムの染色体配列の少なくとも一部にウィンドウ分割を行って複数のスライディングウィンドウを取得し、前記スライディングウィンドウ内に含まれる前記リードセグメントをカウントし、前記染色体配列の配列特徴行列を生成する配列特徴行列生成モジュール;
訓練済み機械学習モデルに前記配列特徴行列を入力して前記染色体配列の配列特徴ベクトルを抽出する配列特徴ベクトル抽出モジュール;
前記配列特徴ベクトルおよび前記妊婦の前記表現型特徴ベクトルを組み合わせて複合特徴ベクトルを形成し、前記複合特徴ベクトルを分類検出モデルに入力することにより前記検出対象の妊婦の前記胎児染色体異常状態を取得する分類検出モジュール。 - 前記シーケンシングデータのリードを参照ゲノムにアラインメントさせて一意のマッピングリードを取得するアラインメントモジュールをさらに含む、請求項35に記載のシステム。
- 前記データ取得モジュールにおいて、前記無細胞核酸断片が、前記妊婦の末梢血、肝臓、および/または胎盤に由来する、請求項35または36に記載のシステム。
- 前記データ取得モジュールにおいて、前記無細胞核酸断片が無細胞DNAである、請求項35~37のいずれか一項に記載のシステム。
- 前記データ取得モジュールにおいて、前記シーケンシングデータが超低深度シーケンシングに由来し、
好ましくは、前記超低深度シーケンシングのシーケンシング深度が1×、0.1×、または0.01×である、請求項35~38のいずれか一項に記載のシステム。 - 前記データ取得モジュールにおいて、前記リードセグメントを前記参照ゲノムにアラインメントさせて一意のマッピングリードを取得し(好ましくは、GC含量補正を行い)、
好ましくは、後続の工程が前記一意のマッピングリードを用いて実行される(好ましくは、前記リードセグメントはGC含量により補正される)、
請求項35~39のいずれか一項に記載のシステム。 - 前記データ取得モジュールにおいて、前記妊婦の前記臨床表現型特徴データが、年齢、妊娠週、身長、体重、BMI、出生前検査の生化学的検査結果、超音波診断結果、および血漿中の無細胞胎児DNA濃度のうちの1つまたは2つ以上の組合せから選択される、請求項35~40のいずれか一項に記載のシステム。
- 前記データ取得モジュールにおいて、前記妊婦の前記臨床表現型特徴データが、異常値処理、欠損値処理、および/またはヌル値処理される、請求項35~40のいずれか一項に記載のシステム。
- 前記データ取得モジュールにおいて、以下の記録:
a.xage<10またはxage>80;
b.xGW<5またはxGW>50;
c.xheight<40またはxheight>300;
d.xweight<10またはxweight>200;
が表示されると、前記妊婦サンプルの表現型データが異常値として判定され、
これらの異常値がヌル値として設定される、請求項35~42のいずれか一項に記載のシステム。 - 前記欠損値および前記ヌル値がミスフォレストアルゴリズムによってパディングされる、請求項42または43に記載のシステム。
- 前記配列特徴行列生成モジュールにおいて、前記染色体が、第21染色体、第18染色体、第13染色体および/または性染色体である、請求項35~44のいずれか一項に記載のシステム。
- 前記配列特徴行列生成モジュールにおいて、
(2.1)長さbのウィンドウを使用して、前記参照ゲノムの長さLの染色体配列をステップサイズtで重複およびスライドさせてスライディングウィンドウを取得する工程であって、
bは正の整数であり、b=[10000,10000000]であり、tは任意の正の整数であり、Lは正の整数であり、L≧bである工程と、
(2.2)前記スライディングウィンドウ各々の内に含まれる前記リードセグメントをカウントし、前記染色体配列の配列特徴行列を生成する工程と、
を行う請求項35~45のいずれか一項に記載のシステム - 前記配列特徴行列生成モジュールにおいて、前記配列特徴行列が、前記スライディングウィンドウ内のリードセグメントの数、塩基品質、およびマッピング品質を含む、請求項35~46のいずれか一項に記載のシステム。
- 前記塩基品質が、前記塩基品質の平均、標準偏差、歪度、および/または尖度を含む、請求項47にシステムの装置。
- 前記マッピング品質が、前記マッピング品質の平均、標準偏差、歪度、および/または尖度を含む、請求項47に記載のシステム。
- 前記配列特徴ベクトル抽出モジュールにおいて、前記配列特徴行列が正規化される、請求項35~50のいずれか一項に記載のシステム。
- 前記配列特徴ベクトル抽出モジュールにおいて、前記訓練済み機械学習モデルがニューラルネットワークモデルまたはオートエンコーダモデルであり、
好ましくは、前記ニューラルネットワークモデルが、ディープニューラルネットワークモデルであり、
より好ましくは、前記ニューラルネットワークモデルが1D畳み込みに基づくディープニューラルネットワークモデルである、
請求項35~52のいずれか一項に記載のシステム。 - 前記分類検出モジュールにおいて、前記複合特徴ベクトルが前記配列特徴ベクトルおよび前記妊婦の前記表現型特徴ベクトルを組み合わせることにより得られる、請求項35~53のいずれか一項に記載のシステム。
- 前記分類検出モジュールにおいて、前記分類検出モデルがアンサンブル学習モデルである、請求項35~55のいずれか一項に記載のシステム。
- 前記アンサンブル学習モデルが、スタッキングまたは多数決に基づくアンサンブル学習モデルであり、
好ましくは、前記アンサンブル学習モデルが、サポートベクターマシンモデル、単純ベイズ分類器、ランダムフォレスト分類器、XGBoostおよびロジスティック回帰のうちの1つ以上である、請求項56に記載のシステム。 - 以下のモジュールを含む、胎児染色体異常を検出する分類検出モデルを構築するシステム:
妊婦から無細胞核酸断片のシーケンシングデータおよび臨床表現型特徴データを取得するデータ取得モジュールであって、
前記シーケンシングデータが複数のリードセグメントを含み、前記妊婦の胎児染色体状態が既知であり、前記妊婦の臨床表現型特徴データが前記妊婦の表現型特徴ベクトルを形成するデータ取得モジュール;
参照ゲノムの染色体配列の少なくとも一部にウィンドウ分割を行って複数のスライディングウィンドウを取得し、前記スライディングウィンドウ内に含まれる前記リードセグメントをカウントし、前記染色体配列の配列特徴行列を生成する配列特徴行列生成モジュール;
前記配列特徴行列および前記胎児染色体状態を用いて訓練データセットを構築し、機械学習モデルを訓練して前記染色体配列の配列特徴ベクトルを抽出する配列特徴ベクトル抽出モジュール;
前記配列特徴ベクトルおよび前記妊婦の前記表現型特徴ベクトルを組み合わせて複合特徴ベクトルを形成し、複数の妊婦の前記複合特徴ベクトルおよび前記胎児染色体状態を用いて分類モデルを訓練して訓練済み分類検出モデルを取得する分類検出モジュール。 - 前記シーケンシングデータのリードセグメントを参照ゲノムにアラインメントさせて一意のマッピングリードを取得するアラインメントモジュールをさらに含む、請求項58に記載のシステム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2020/132331 WO2022110039A1 (zh) | 2020-11-27 | 2020-11-27 | 一种胎儿染色体异常的检测方法与系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2024505780A true JP2024505780A (ja) | 2024-02-08 |
Family
ID=81753821
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023532353A Pending JP2024505780A (ja) | 2020-11-27 | 2020-11-27 | 胎児染色体異常を検出する方法およびシステム |
Country Status (8)
Country | Link |
---|---|
US (1) | US20240013859A1 (ja) |
EP (1) | EP4254418A4 (ja) |
JP (1) | JP2024505780A (ja) |
KR (1) | KR20230110615A (ja) |
CN (1) | CN116648752A (ja) |
AU (1) | AU2020479407A1 (ja) |
CA (1) | CA3200221A1 (ja) |
WO (1) | WO2022110039A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114792548B (zh) * | 2022-06-14 | 2022-09-09 | 北京贝瑞和康生物技术有限公司 | 校正测序数据、检测拷贝数变异的方法、设备和介质 |
CN114841294B (zh) * | 2022-07-04 | 2022-10-28 | 杭州德适生物科技有限公司 | 一种检测染色体结构异常的分类器模型训练方法及装置 |
CN117095747B (zh) * | 2023-08-29 | 2024-04-30 | 广东省农业科学院水稻研究所 | 一种基于线性泛基因组和人工智能模型检测群体倒位或转座子端点基因型的方法 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1600265A (zh) * | 2004-09-27 | 2005-03-30 | 郑末晶 | 唐氏综合征和神经管缺陷产前筛查方法 |
WO2018064486A1 (en) * | 2016-09-29 | 2018-04-05 | Counsyl, Inc. | Noninvasive prenatal screening using dynamic iterative depth optimization |
WO2019055835A1 (en) * | 2017-09-15 | 2019-03-21 | The Regents Of The University Of California | DETECTION OF SOMATIC MONONUCLEOTIDE VARIANTS FROM ACELLULAR NUCLEIC ACID WITH APPLICATION TO MINIMUM RESIDUAL DISEASE SURVEILLANCE |
US11168356B2 (en) * | 2017-11-02 | 2021-11-09 | The Chinese University Of Hong Kong | Using nucleic acid size range for noninvasive cancer detection |
AU2019244115A1 (en) | 2018-03-30 | 2020-11-19 | Juno Diagnostics, Inc. | Deep learning-based methods, devices, and systems for prenatal testing |
WO2020018522A1 (en) | 2018-07-17 | 2020-01-23 | Natera, Inc. | Methods and systems for calling ploidy states using a neural network |
US20200365234A1 (en) * | 2019-05-13 | 2020-11-19 | Nvidia Corporation | Sequence variation detection using deep learning |
CN111286529A (zh) * | 2019-07-22 | 2020-06-16 | 常州市妇幼保健院 | 一种利用外周血胎儿游离dna产前筛查假阳性的试剂盒 |
KR20220122596A (ko) * | 2019-12-31 | 2022-09-02 | 비지아이 클리니컬 래보러토리즈 (셴젠) 컴퍼니 리미티드 | 염색체 이수성 판별 및 분류 모델 구성 방법 및 장치 |
CN111292802B (zh) * | 2020-02-03 | 2021-03-16 | 至本医疗科技(上海)有限公司 | 用于检测突变的方法、电子设备和计算机存储介质 |
-
2020
- 2020-11-27 EP EP20962929.4A patent/EP4254418A4/en active Pending
- 2020-11-27 CA CA3200221A patent/CA3200221A1/en active Pending
- 2020-11-27 WO PCT/CN2020/132331 patent/WO2022110039A1/zh active Application Filing
- 2020-11-27 AU AU2020479407A patent/AU2020479407A1/en active Pending
- 2020-11-27 JP JP2023532353A patent/JP2024505780A/ja active Pending
- 2020-11-27 CN CN202080107528.2A patent/CN116648752A/zh active Pending
- 2020-11-27 US US18/254,842 patent/US20240013859A1/en active Pending
- 2020-11-27 KR KR1020237021684A patent/KR20230110615A/ko active Search and Examination
Also Published As
Publication number | Publication date |
---|---|
AU2020479407A1 (en) | 2023-06-29 |
EP4254418A4 (en) | 2024-03-27 |
WO2022110039A1 (zh) | 2022-06-02 |
EP4254418A1 (en) | 2023-10-04 |
KR20230110615A (ko) | 2023-07-24 |
CA3200221A1 (en) | 2022-06-02 |
US20240013859A1 (en) | 2024-01-11 |
CN116648752A (zh) | 2023-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI822789B (zh) | 用於資料分類之卷積神經網路系統及方法 | |
JP2024505780A (ja) | 胎児染色体異常を検出する方法およびシステム | |
US20230187021A1 (en) | Methods for Non-Invasive Assessment of Genomic Instability | |
US20190316209A1 (en) | Multi-Assay Prediction Model for Cancer Detection | |
US11164655B2 (en) | Systems and methods for predicting homologous recombination deficiency status of a specimen | |
JP2024016039A (ja) | 相同組換え欠損を推定するための統合された機械学習フレームワーク | |
US20230222311A1 (en) | Generating machine learning models using genetic data | |
WO2020198068A1 (en) | Systems and methods for deriving and optimizing classifiers from multiple datasets | |
US20220215900A1 (en) | Systems and methods for joint low-coverage whole genome sequencing and whole exome sequencing inference of copy number variation for clinical diagnostics | |
Schmidt et al. | A machine-learning–based algorithm improves prediction of preeclampsia-associated adverse outcomes | |
CN113362888A (zh) | 一种基于随机森林的深度特征选择算法提高胃癌预后预测精度系统、方法、设备及介质 | |
Karim et al. | Prognostically relevant subtypes and survival prediction for breast cancer based on multimodal genomics data | |
Aonpong et al. | Genotype-guided radiomics signatures for recurrence prediction of non-small cell lung cancer | |
CN115984251B (zh) | 基于肺部ct与多基因甲基化的肺结节分类方法及产品 | |
CN109191422B (zh) | 基于常规ct图像的缺血性脑卒中早期检测系统和方法 | |
WO2021258026A1 (en) | Molecular response and progression detection from circulating cell free dna | |
CN115702457A (zh) | 使用自动编码器确定癌症状态的系统和方法 | |
CN107463797B (zh) | 高通量测序的生物信息分析方法及装置、设备及存储介质 | |
Yang et al. | Chromosome classification via deep learning and its application to patients with structural abnormalities of chromosomes | |
CN115984629B (zh) | 基于肺部CT与5mC标志物融合的肺结节分类方法及产品 | |
Li et al. | Down syndrome prediction using a cascaded machine learning framework designed for imbalanced and feature-correlated data | |
KR20170140107A (ko) | 다중 Z-score에 기반한 비침습적 산전 검사 방법 및 장치 | |
Ismaeel | Diagnose Mutations Causes Β-Thalassemia: Biomining method using an optimal neural learning algorithm | |
Bhattacharya et al. | Effects of gene–environment and gene–gene interactions in case-control studies: A novel Bayesian semiparametric approach | |
Abdullahi et al. | Pretrained convolutional neural networks for cancer genome classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230725 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20231110 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240124 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240129 |