JP7064654B2 - 遺伝子変異認識方法、装置および記憶媒体 - Google Patents

遺伝子変異認識方法、装置および記憶媒体 Download PDF

Info

Publication number
JP7064654B2
JP7064654B2 JP2021514554A JP2021514554A JP7064654B2 JP 7064654 B2 JP7064654 B2 JP 7064654B2 JP 2021514554 A JP2021514554 A JP 2021514554A JP 2021514554 A JP2021514554 A JP 2021514554A JP 7064654 B2 JP7064654 B2 JP 7064654B2
Authority
JP
Japan
Prior art keywords
gene
locus
sequence
sequencing fragment
gene sequencing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021514554A
Other languages
English (en)
Other versions
JP2022500773A (ja
Inventor
ツィキアン フ,
Original Assignee
ベイジン センスタイム テクノロジー デベロップメント カンパニー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ベイジン センスタイム テクノロジー デベロップメント カンパニー リミテッド filed Critical ベイジン センスタイム テクノロジー デベロップメント カンパニー リミテッド
Publication of JP2022500773A publication Critical patent/JP2022500773A/ja
Application granted granted Critical
Publication of JP7064654B2 publication Critical patent/JP7064654B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1093General methods of preparing gene libraries, not provided for in other subgroups
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1082Preparation or screening gene libraries by chromosomal integration of polynucleotide sequences, HR-, site-specific-recombination, transposons, viral vectors
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • CCHEMISTRY; METALLURGY
    • C40COMBINATORIAL TECHNOLOGY
    • C40BCOMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
    • C40B40/00Libraries per se, e.g. arrays, mixtures
    • C40B40/04Libraries containing only organic compounds
    • C40B40/06Libraries containing nucleotides or polynucleotides, or derivatives thereof
    • C40B40/08Libraries containing RNA or DNA which encodes proteins, e.g. gene libraries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biotechnology (AREA)
  • Genetics & Genomics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Organic Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Analytical Chemistry (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physiology (AREA)
  • Immunology (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)

Description

関連出願の相互参照
本開示は、2019年3月29日に中国特許局に提出された、出願番号201910251891.0、出願の名称「遺伝子変異認識方法、装置および記憶媒体」の中国特許出願の優先権を主張し、その開示の全てが参照によって本開示に組み込まれる。
本開示はコンピュータ技術の分野に関し、特に遺伝子変異認識方法、装置および記憶媒体に関する。
バイオ技術の発展に伴い、ヒト遺伝子の配列は遺伝子シーケンシング技術によって測定できるようになり、遺伝子配列の解析は、遺伝子のさらなる研究および組み換えの基盤となり得る。現在、第2世代の遺伝子シーケンシング技術は、第1世代の遺伝子シーケンシング技術に比べて、遺伝子シーケンシングの効率が大幅に改善され、遺伝子シーケンシングのコストが低減されるとともに、遺伝子シーケンシングの正確性が保たれている。第1代のシーケンシング技術の場合、1つのヒトゲノムのシーケンシングを完了するまで3年の時間を要することがあるが、第2世代のシーケンシング技術を使用すると、時間を僅か1週間に短縮できる。
以上に鑑み、本開示は、遺伝子変異認識の解決手段を提供する。
本開示の一態様によれば、
変異遺伝子座候補に対応する少なくとも1つの遺伝子シーケンシング断片を取得することと、
前記少なくとも1つの遺伝子シーケンシング断片の属性情報に基づいて、前記変異遺伝子座候補の、遺伝子座の位置に関連する配列特徴および非配列特徴を特定することと、
前記配列特徴および前記非配列特徴に基づいて、前記変異遺伝子座候補の遺伝子変異を認識することと、を含む遺伝子変異認識方法が提供される。
1つの可能な実施形態では、前記属性情報は、配列属性情報を含み、
前記少なくとも1つの遺伝子シーケンシング断片の属性情報に基づいて、前記変異遺伝子座候補の配列特徴を特定することは、
前記変異遺伝子座候補の遺伝子位置情報に基づいて、前記変異遺伝子座候補が位置する所定の遺伝子座区間を特定することと、
前記少なくとも1つの遺伝子シーケンシング断片の、前記所定の遺伝子座区間内に位置する各遺伝子座の、遺伝子座の位置に関連しかつ遺伝子属性を表す配列属性情報を取得することと、
前記所定の遺伝子座区間に位置する各遺伝子座の配列属性情報に基づいて、前記変異遺伝子座候補の配列特徴を生成することと、を含む。
1つの可能な実施形態では、
前記少なくとも1つの遺伝子シーケンシング断片の、前記所定の遺伝子座区間内に位置する各遺伝子座の配列属性情報を取得することは、
前記各遺伝子座において前記少なくとも1つの遺伝子シーケンシング断片の遺伝子型を特定することと、
前記各遺伝子座において遺伝子を各遺伝子型毎にカウントすることと、を含む。
1つの可能な実施形態では、
前記少なくとも1つの遺伝子シーケンシング断片の、前記所定の遺伝子座区間内に位置する各遺伝子座の配列属性情報を取得することは、
各遺伝子シーケンシング断片の遺伝子配列と参照ゲノム配列との比較結果に基づいて、前記各遺伝子座において各遺伝子シーケンシング断片の欠失遺伝子の遺伝子型を特定することと、
前記各遺伝子座において前記少なくとも1つの遺伝子シーケンシング断片の欠失遺伝子を各遺伝子型毎にカウントすることと、を含む。
1つの可能な実施形態では、
前記少なくとも1つの遺伝子シーケンシング断片の、前記所定の遺伝子座区間内に位置する各遺伝子座の配列属性情報を取得することは、
各遺伝子シーケンシング断片の遺伝子配列と参照ゲノム配列との比較結果に基づいて、前記各遺伝子座において各遺伝子シーケンシング断片の挿入遺伝子の遺伝子型を特定することと、
前記各遺伝子座において前記少なくとも1つの遺伝子シーケンシング断片の挿入遺伝子を各遺伝子型毎にカウントすることと、を含む。
1つの可能な実施形態では、
前記配列属性情報は、参照遺伝子の遺伝子型、各遺伝子型毎の遺伝子数、各遺伝子型毎の欠失遺伝子数、各遺伝子型毎の挿入遺伝子数の少なくとも1つを含む。
1つの可能な実施形態では、
前記属性情報は非配列属性情報を含み、
前記少なくとも1つの遺伝子シーケンシング断片の属性情報に基づいて、前記変異遺伝子座候補の非配列特徴を特定することは、
前記少なくとも1つの遺伝子シーケンシング断片の、遺伝子座の位置に関連しなくかつ遺伝子属性を表す非配列属性情報を取得することと、
前記少なくとも1つの遺伝子シーケンシング断片の非配列属性情報に基づいて、前記変異遺伝子座候補の非配列特徴を特定することと、を含む。
1つの可能な実施形態では、
前記非配列属性情報は、比較品質、プラス鎖およびマイナス鎖の偏り、遺伝子シーケンシング断片の長さ、エッジの偏りの少なくとも1つを含む。
1つの可能な実施形態では、
前記少なくとも1つの遺伝子シーケンシング断片の非配列属性情報に基づいて、前記変異遺伝子座候補の非配列特徴を特定することは、
各遺伝子シーケンシング断片の各遺伝子座の比較品質に基づいて、各遺伝子シーケンシング断片の比較品質を特定することであって、前記比較品質は、遺伝子シーケンシング断片の各遺伝子配列毎のシーケンシングの正確性を表すことと、
各遺伝子シーケンシング断片の比較品質に基づいて、前記変異遺伝子座候補に対応する非配列特徴を特定することと、を含む。
1つの可能な実施形態では、
前記少なくとも1つの遺伝子シーケンシング断片の非配列属性情報に基づいて、前記変異遺伝子座候補の非配列特徴を特定することは、
各遺伝子シーケンシング断片の属する遺伝子鎖がプラス鎖またはマイナス鎖のいずれであるかの情報に基づいて、前記少なくとも1つの遺伝子シーケンシング断片の、プラス鎖である遺伝子鎖とマイナス鎖である遺伝子鎖との割合を特定することと、
前記プラス鎖である遺伝子鎖とマイナス鎖である遺伝子鎖との割合に基づいて、前記変異遺伝子座候補に対応する非配列特徴を特定することと、を含む。
1つの可能な実施形態では、
前記配列特徴および前記非配列特徴に基づいて、前記変異遺伝子座候補の遺伝子変異を認識することは、
前記配列特徴および前記非配列特徴を統合し、前記変異遺伝子座候補の統合特徴を得ることと、
前記変異遺伝子座候補の統合特徴に基づいて、前記変異遺伝子座候補の遺伝子変異を認識することと、を含む。
1つの可能な実施形態では、
前記変異遺伝子座候補の統合特徴に基づいて、前記変異遺伝子座候補の遺伝子変異を認識することは、
前記変異遺伝子座候補の統合特徴に基づいて、前記変異遺伝子座候補の遺伝子の変異性を示す変異値を得ることと、
前記変異値が所定の閾値以上である場合、前記変異遺伝子座候補の遺伝子に変異があると判定することと、を含む。
1つの可能な実施形態では、
前記変異遺伝子座候補に対応する少なくとも1つの遺伝子シーケンシング断片を取得することは、
体細胞遺伝子による遺伝子シーケンシングで得られた遺伝子シーケンシング断片を取得することと、
前記遺伝子シーケンシング断片の遺伝子配列を参照ゲノム配列と比較し、比較結果を得ることと、
前記比較結果に基づいて、前記体細胞遺伝子に異常がある変異遺伝子座候補を特定することと、
前記変異遺伝子座候補に対応する少なくとも1つの遺伝子シーケンシング断片を取得することと、を含む。
本開示の別の態様によれば、
変異遺伝子座候補に対応する少なくとも1つの遺伝子シーケンシング断片を取得するための取得モジュールと、
前記少なくとも1つの遺伝子シーケンシング断片の属性情報に基づいて、前記変異遺伝子座候補の、遺伝子座の位置に関連する配列特徴および非配列特徴を特定するための特定モジュールと、
前記配列特徴および前記非配列特徴に基づいて、前記変異遺伝子座候補の遺伝子変異を認識するための認識モジュールと、を含む遺伝子変異認識装置が提供される。
1つの可能な実施形態では、
前記属性情報は、配列属性情報を含み、
前記特定モジュールは、
前記変異遺伝子座候補の遺伝子位置情報に基づいて、前記変異遺伝子座候補が位置する所定の遺伝子座区間を特定する第1の特定サブモジュールと、
前記少なくとも1つの遺伝子シーケンシング断片の、前記所定の遺伝子座区間内に位置する各遺伝子座の、遺伝子座の位置に関連しかつ遺伝子属性を表す配列属性情報を取得する第1の取得サブモジュールと、
前記所定の遺伝子座区間に位置する各遺伝子座の配列属性情報に基づいて、前記変異遺伝子座候補の配列特徴を生成する第1の生成サブモジュールと、を含む。
1つの可能な実施形態では、
前記第1の取得サブモジュールは、具体的に、
前記各遺伝子座において前記少なくとも1つの遺伝子シーケンシング断片の遺伝子型を特定することと、
前記各遺伝子座において遺伝子を各遺伝子型毎にカウントすることと、に用いられる。
1つの可能な実施形態では、
前記第1の取得サブモジュールは、具体的に、
各遺伝子シーケンシング断片の遺伝子配列と参照ゲノム配列との比較結果に基づいて、前記各遺伝子座において各遺伝子シーケンシング断片の欠失遺伝子の遺伝子型を特定することと、
前記各遺伝子座において前記少なくとも1つの遺伝子シーケンシング断片の欠失遺伝子を各遺伝子型毎にカウントすることと、に用いられる。
1つの可能な実施形態では、
前記第1の取得サブモジュールは、具体的に、
各遺伝子シーケンシング断片の遺伝子配列と参照ゲノム配列との比較結果に基づいて、前記各遺伝子座において各遺伝子シーケンシング断片の挿入遺伝子の遺伝子型を特定することと、
前記各遺伝子座において前記少なくとも1つの遺伝子シーケンシング断片の挿入遺伝子を各遺伝子型毎にカウントすることと、に用いられる。
1つの可能な実施形態では、
前記配列属性情報は、参照遺伝子の遺伝子型、各遺伝子型毎の遺伝子数、各遺伝子型毎の欠失遺伝子数、各遺伝子型毎の挿入遺伝子数の少なくとも1つを含む。
1つの可能な実施形態では、
前記属性情報は非配列属性情報を含み、
前記特定モジュールは、
前記少なくとも1つの遺伝子シーケンシング断片の、遺伝子座の位置に関連しなくかつ遺伝子属性を表す非配列属性情報を取得する第2の取得サブモジュールと、
前記少なくとも1つの遺伝子シーケンシング断片の非配列属性情報に基づいて、前記変異遺伝子座候補の非配列特徴を特定する第2の特定サブモジュールと、を含む。
1つの可能な実施形態では、
前記非配列属性情報は、比較品質、プラス鎖およびマイナス鎖の偏り、遺伝子シーケンシング断片の長さ、エッジの偏りの少なくとも1つを含む。
1つの可能な実施形態では、
前記第2の特定サブモジュールは、具体的に、
各遺伝子シーケンシング断片の各遺伝子座の比較品質に基づいて、各遺伝子シーケンシング断片の比較品質を特定することであって、前記比較品質は、遺伝子シーケンシング断片の各遺伝子配列毎のシーケンシングの正確性を表すことと、
各遺伝子シーケンシング断片の比較品質に基づいて、前記変異遺伝子座候補に対応する非配列特徴を特定することとに用いられることを特徴とする。
1つの可能な実施形態では、
前記第2の特定サブモジュールは、具体的に、
各遺伝子シーケンシング断片の属する遺伝子鎖がプラス鎖またはマイナス鎖のいずれであるかの情報に基づいて、前記少なくとも1つの遺伝子シーケンシング断片の、プラス鎖である遺伝子鎖とマイナス鎖である遺伝子鎖との割合を特定することと、
前記プラス鎖である遺伝子鎖とマイナス鎖である遺伝子鎖との割合に基づいて、前記変異遺伝子座候補に対応する非配列特徴を特定することとに用いられることを特徴とする。
1つの可能な実施形態では、
前記認識モジュールは、
具体的に前記配列特徴および前記非配列特徴を統合し、前記変異遺伝子座候補の統合特徴を得る統合サブモジュールと、
前記変異遺伝子座候補の統合特徴に基づいて、前記変異遺伝子座候補の遺伝子変異を認識する認識サブモジュールと、を含む。
1つの可能な実施形態では、
前記認識サブモジュールは、具体的に、
前記変異遺伝子座候補の統合特徴に基づいて、前記変異遺伝子座候補の遺伝子の変異性を示す変異値を得ることと、
前記変異値が所定の閾値以上である場合、前記変異遺伝子座候補の遺伝子に変異があると判定することと、に用いられる。
1つの可能な実施形態では、
前記取得モジュールは、具体的に、
体細胞遺伝子による遺伝子シーケンシングで得られた遺伝子シーケンシング断片を取得することと、
前記遺伝子シーケンシング断片の遺伝子配列を参照ゲノム配列と比較し、比較結果を得ることと、
前記比較結果に基づいて、前記体細胞遺伝子に異常がある変異遺伝子座候補を特定することと、
前記変異遺伝子座候補に対応する少なくとも1つの遺伝子シーケンシング断片を取得することと、に用いられる。
本開示の別の態様によれば、プロセッサと、プロセッサが実行可能な命令を記憶するメモリとを含み、前記プロセッサは上記方法を実行するように構成されている遺伝子変異認識装置が提供される。
本開示の別の態様によれば、コンピュータプログラム命令が記憶されている不揮発性コンピュータ可読記憶媒体であって、前記コンピュータプログラム命令がプロセッサにより実行されると、上記方法を実現する不揮発性コンピュータ可読記憶媒体が提供される。
本開示の実施例は、変異遺伝子座候補に対応する少なくとも1つの遺伝子シーケンシング断片を取得し、少なくとも1つの遺伝子シーケンシング断片の属性情報に基づいて、変異遺伝子座候補の配列特徴および非配列特徴を特定することができ、これにより、特定された配列特徴および非配列特徴に基づいて、変異遺伝子座候補の遺伝子変異を認識することができる。ここで、配列特徴は、遺伝子座の位置に関連する特徴であってよく、非配列特徴は、遺伝子座の位置に関連しない特徴であってよく、これにより、遺伝子変異認識のプロセスにおいて、遺伝子の配列特徴および非配列特徴を組み合わせて、変異遺伝子座の特徴をより全面的に解析し、生殖細胞系遺伝子の変異、およびノイズやエラーによる干渉を除去し、遺伝子変異をより良好に認識し、遺伝子変異認識の正確性を高めることができる。
以下、図面を参照しながら例示的な実施例について詳細に説明することにより、本開示の他の特徴および態様は明瞭になる。
明細書に含まれ且つ明細書の一部を構成する図面は明細書と共に本開示の例示的な実施例、特徴および態様を示し、さらに本開示の原理を解釈するものである。
本開示の一実施例に係る遺伝子変異認識方法のフローチヤ一トを示す。 本開示の一実施例に係る変異遺伝子座候補に対応する少なくとも1つの遺伝子シーケンシング断片を取得するプロセスのフローチヤ一トを示す。 本開示の一実施例に係る変異遺伝子座候補の配列特徴を特定するプロセスのフローチヤ一トを示す。 本開示の一実施例に係る変異遺伝子座候補の非配列特徴を特定するプロセスのフローチヤ一トを示す。 本開示の一実施例に係る変異遺伝子座候補の遺伝子変異を認識するプロセスのフローチヤ一トを示す。 本開示の一実施例に係るニューラルネットワークモデルのブロック図を示す。 本開示の一実施例に係る遺伝子変異認識装置のブロック図を示す。 本開示の一例示的実施例により示される遺伝子変異認識のための装置のブロック図を示す。
以下に図面を参照しながら本開示の様々な例示的実施例、特徴および態様を詳細に説明する。図面における同じ符号は同じまたは類似する機能の要素を表す。図面において実施例の様々な態様を示したが、特に断らない限り、比例で図面を作る必要がない。
ここの用語「例示的」とは、「例、実施例として用いられることまたは説明ためのなもの」を意味する。ここで「例示的」に説明するいかなる実施例も他の実施例より優れたものと理解すべきではない。
また、本開示をより効果的に説明するために、以下の具体的な実施形態において様々な具体的詳細を示す。当業者であれば、何らかの具体的詳細がなくなるにも関わらず、本開示は同様に実施できるということを理解すべきである。いくつかの実施例では、本開示の趣旨を強調するよう、当業者に既知の方法、手段、要素および回路に対する詳細な説明を省略する。
本開示の実施例により提供される遺伝子変異認識の解決手段は、変異遺伝子座候補に対応する少なくとも1つの遺伝子シーケンシング断片を取得することができ、それにより少なくとも1つの遺伝子シーケンシング断片に基づいて、変異遺伝子座候補の遺伝子変異を認識することができる。遺伝子変異認識のプロセスにおいて、少なくとも1つの遺伝子シーケンシング断片の配列属性情報に基づいて配列特徴を生成し、少なくとも1つの遺伝子シーケンシング断片の非配列属性情報に基づいて非配列特徴を生成し、その後、配列特徴および非配列特徴によって変異遺伝子座候補の遺伝子変異を認識することができ、これにより、少なくとも1つの遺伝子シーケンシング断片の配列属性情報および非配列属性情報を統合し、遺伝子シーケンシング断片の配列属性情報をより全面的に利用することができる。
関連技術では、サポートベクターマシーンや、ランダムフォレストなど従来の機械学習方法を用いて遺伝子変異認識を行うことが一般的である。このような方法は、簡単に実現できるが、変異遺伝子座候補の近傍の遺伝子配列の配列属性情報の利用が困難であり、遺伝子のデータ量が一定の程度まで増加すると、遺伝子変異認識の効果がボトルネックに入る。また、ディープラーニングの方法を用いて、ニューラルネットワークによって遺伝子変異を認識する関連技術もある。しかし、ニューラルネットワークは、遺伝子配列の非配列情報を統合し難く、遺伝子データをより全面的に解析することはできない。本開示の実施例では、遺伝子変異認識において、マルチモーダル情報が統合されたニューラルネットワークモデルを用いて変異遺伝子座候補の配列特徴および非配列特徴を抽出することができ、これにより、遺伝子配列の配列属性情報および非配列属性情報を統合し、遺伝子データをより全面的に解析し、生殖細胞系遺伝子の変異、およびノイズやエラーによる干渉を除去し、遺伝子変異をより良好に認識することができる。以下、実施例により遺伝子変異の認識プロセスを詳細に説明する。
図1は本開示の一実施例に係る遺伝子変異認識方法のフローチヤ一トを示す。該遺伝子変異の認識方法は、遺伝子変異認識装置または他の処理機器により実行される。ここで、遺伝子変異認識装置は、ユーザ機器(User Equipment、UE)、モバイル機器、ユーザ端末、端末、セルラフォン、コードレス電話機、PDA(Personal Digital Assistant)、ハンドヘルド機器、コンピュータ機器、車載機器、ウェアラブル機器などでもよい。あるいは、遺伝子変異認識装置は、サーバでもよい。いくつかの可能な実施形態では、該遺伝子変異の認識方法は、プロセッサによってメモリに記憶されているコンピュータ読み取り可能な命令を呼び出すことにより実現される。
図1に示すように、該遺伝子変異の認識方法は以下のステップを含む。
ステップ11、変異遺伝子座候補に対応する少なくとも1つの遺伝子シーケンシング断片を取得する。
本開示の実施例では、遺伝子変異認識装置は、遺伝子シーケンシングにより得られた遺伝子シーケンシング断片を取得し、その後、遺伝子シーケンシングにより得られた遺伝子シーケンシング断片から、変異遺伝子座候補に対応する少なくとも1つの遺伝子シーケンシング断片を取得することができる。ここで、遺伝子シーケンシング断片は、遺伝子シーケンシングを経て遺伝子型がラベリングされている遺伝子配列と解釈することができ、各遺伝子シーケンシング断片の長さは同一であってもよいし、異なっていてもよい。長さが異なる場合、各遺伝子シーケンシング断片の長さを所定の長さ範囲内とすることができ、これにより、各遺伝子シーケンシング断片の長さが比較的近似していることを保証できる。遺伝子型は、塩基タイプと解釈することができ、遺伝子型は、シトシン(C)、グアニン(G)、アデニン(A)、チミジン(T)を含んでよく、これにより、遺伝子シーケンシング断片は、AGCTを含む遺伝子配列であってもよい。ここで、変異遺伝子座候補は、遺伝子配列に異常がある遺伝子座であってもよい。遺伝子配列の遺伝子座は、遺伝子配列の位置を表すことができ、各遺伝子座には、少なくとも1つの遺伝子シーケンシング断片が存在し、すなわち、同じ遺伝子座には、遺伝子シーケンシングにより得られた少なくとも1つの遺伝子シーケンシング断片が存在してもよい。これに応じて、変異遺伝子座候補は少なくとも1つの遺伝子シーケンシング断片に対応し、ここで、この少なくとも1つの遺伝子シーケンシング断片は全てこの遺伝子座で異常が生じる。変異遺伝子座候補は少なくとも1つであってよく、各変異遺伝子座候補は、少なくとも1つの遺伝子シーケンシング断片に対応することが可能である。理解の便宜上、本開示の実施例は、1つの変異遺伝子座候補として説明する。
ステップ12、前記少なくとも1つの遺伝子シーケンシング断片の属性情報に基づいて、前記変異遺伝子座候補の、遺伝子座の位置に関連する配列特徴および非配列特徴を特定する。
本開示の実施例では、変異遺伝子座候補に対応する少なくとも1つの遺伝子シーケンシング断片を取得した後、該変異遺伝子座候補に対応する少なくとも1つの遺伝子シーケンシング断片の属性情報を抽出し、抽出された属性情報に基づいて、該変異遺伝子座候補の配列特徴および非配列特徴を生成することができる。属性情報は、配列属性情報および非配列属性情報を含んでもよい。配列属性情報は、遺伝子座位置に関連する、遺伝子シーケンシング断片の遺伝子属性を表す情報であってもよい。非配列属性情報は、遺伝子座の位置による制限を受けることがなく且つ遺伝子属性を表す情報であってもよい。属性情報を抽出する際に、該遺伝子座候補に対応する複数の遺伝子シーケンシング断片をランダムに選択し、ランダムに選択された複数の遺伝子シーケンシング断片の属性情報を抽出するようにしてもよく、また、該遺伝子座候補に対応する各遺伝子シーケンシング断片の属性情報を抽出してもよい。
ここで、配列属性情報を抽出する際に、該変異遺伝子座候補において少なくとも1つの遺伝子シーケンシング断片の配列属性情報を抽出してもよいし、該変異遺伝子座候補の近傍遺伝子座において少なくとも1つの遺伝子シーケンシング断片の配列属性情報を抽出してもよい。ここで、変異遺伝子座候補の配列特徴を特定する時、畳み込み層およびプーリング層を備えるニューラルネットワークモデルを利用して、変異遺伝子座候補に対応する少なくとも1つの遺伝子シーケンシング断片に対して、変異遺伝子座候補の配列特徴を抽出することができる。該ニューラルネットワークモデルは、2つの分岐構造を含み、1つの分岐は、畳み込み層およびプーリング層を含み、遺伝子シーケンシング断片の配列特徴を抽出するものである。もう1つの分岐は、遺伝子シーケンシング断片の非配列特徴を抽出するものである。これにより、該ニューラルネットワークモデルは複数種類のモーダル情報(配列属性情報および非配列属性情報)を統合し、変異遺伝子座候補の遺伝子変異を認識することができる。変異遺伝子座候補の非配列特徴を特定する時、上記ニューラルネットワークモデルを用いて、該ニューラルネットワークモデルのもう1つの分岐により少なくとも1つの遺伝子シーケンシング断片の非配列特徴を抽出することができ、該分岐構造は全結合層を含んでよく、全結合層は、位置による制限を受けることがない非配列特徴の抽出に使用され得る。
ステップ13、前記配列特徴および前記非配列特徴に基づいて、前記変異遺伝子座候補の遺伝子変異を認識する。
本開示の実施形態では、変異遺伝子座候補の配列特徴および非配列特徴を特定した後、配列特徴および非配列特徴を融合し、該変異遺伝子座候補の遺伝子変異を認識することができ、例えば、上記ニューラルネットワークモデルを用いて、該変異遺伝子座候補の遺伝子変異の有無、または該変異遺伝子座候補の遺伝子の遺伝子配列異常はノイズなどに起因するかを判断することができる。
本開示の実施例では、変異遺伝子座候補の配列特徴および非配列特徴に基づいて変異遺伝子座候補の遺伝子変異を認識することができ、これにより、遺伝子シーケンシングデータをより全面的に解析することができる。変異遺伝子座候補の遺伝子変異を認識する時、まず変異遺伝子座候補に対応する少なくとも1つの遺伝子シーケンシング断片を取得する必要がある。本開示の実施例では、変異遺伝子座候補に対応する少なくとも1つの遺伝子シーケンシング断片を取得するプロセスをさらに提供する。
図2は、本開示の一実施例に係る変異遺伝子座候補に対応する少なくとも1つの遺伝子シーケンシング断片を取得するプロセスのフローチヤ一トを示す。1つの可能な実施形態では、変異遺伝子座候補に対応する少なくとも1つの遺伝子シーケンシング断片を取得することは、以下のステップを含み得る。
ステップ111、体細胞遺伝子による遺伝子シーケンシングで得られた遺伝子シーケンシング断片を取得する。
ここで、体細胞遺伝子による遺伝子シーケンシングにより、少なくとも1つの遺伝子シーケンシング断片を得ることができ、遺伝子シーケンシング断片は、体細胞遺伝子に遺伝子型がラベリングされた配列であってもよい。体細胞遺伝子を遺伝子シーケンシングして、遺伝子シーケンシング断片における各遺伝子の遺伝子型を得ることができるだけでなく、さらに遺伝子シーケンシング断片における各遺伝子が位置する遺伝子座の遺伝子位置情報を得ることもできる。同じ遺伝子座は少なくとも1つの遺伝子シーケンシング断片に対応し得る。
1つの可能な実施形態では、体細胞遺伝子に対して遺伝子シーケンシングを行うことで少なくとも1つの遺伝子シーケンシング断片を取得することができ、遺伝子シーケンシングで得られた遺伝子シーケンシング断片を予備処理することができ、ここの予備処理方法は、交差汚染のスクリーニング、シーケンシング品質のスクリーニング、比較品質のスクリーニング、リード長さ異常のスクリーニングなどを含み得る。予備処理によって、交差汚染がある遺伝子シーケンシング断片、およびシーケンシング品質や比較品質が低く、リード長さに異常がある遺伝子シーケンシング断片を除外することができる。
ステップ112、前記遺伝子シーケンシング断片の遺伝子配列を参照ゲノム配列と比較し、比較結果を得る。
本開示の実施例では、体細胞遺伝子による遺伝子シーケンシングで得られた遺伝子シーケンシング断片を取得した後、取得された遺伝子シーケンシング断片の遺伝子配列を同じ遺伝子座の参照ゲノム配列と比較し、比較結果を得ることができる。例えば、遺伝子シーケンシングを行って得られた各遺伝子シーケンシング断片を同じ遺伝子座の参照ゲノム配列と比較し、遺伝子シーケンシング断片の遺伝子配列が参照ゲノム配列と異なる遺伝子座を特定することができる。同じ遺伝子座にある少なくとも1つの遺伝子シーケンシング断片を同じ遺伝子座の参照ゲノム配列と比較し、少なくとも1つの遺伝子シーケンシング断片の遺伝子配列が参照ゲノム配列と異なる遺伝子座を特定することもできる。
ステップ113、前記比較結果に基づいて、前記体細胞遺伝子に異常がある変異遺伝子座候補を特定する。
本開示の実施例では、比較結果に基づいて、遺伝子シーケンシング断片の遺伝子配列が参照ゲノム配列と異なる遺伝子座を特定することができ、該遺伝子座に対応する少なくとも1つの遺伝子シーケンシング断片に対して、該遺伝子座で変異が生じる遺伝子シーケンシング断片の占める割合が所定の割合より大きい場合、該遺伝子座は変異遺伝子座候補であると判断することができ、そうでない場合、該遺伝子座は変異遺伝子座候補ではないと考えてよい。該遺伝子座における遺伝子シーケンシング断片の遺伝子配列と参照ゲノム配列との違いは、シーケンシングエラーによるものである可能性があるため、このようにすれば、遺伝子シーケンシングの誤りによる遺伝子配列異常の現象を低減することができる。
ステップ114、前記変異遺伝子座候補に対応する少なくとも1つの遺伝子シーケンシング断片を取得する。
本開示の実施例では、変異遺伝子座候補を特定した後、変異遺伝子座候補に対応する少なくとも1つの遺伝子シーケンシング断片を取得することができる。ここで、各変異遺伝子座候補に対応する少なくとも1つの遺伝子シーケンシング断片における該変異遺伝子座候補の遺伝子配列は、同じ遺伝子座の参照ゲノム配列と異なってもよい。ここで、変異遺伝子座候補は少なくとも1つであってもよい。
上記の変異遺伝子座候補に対応する少なくとも1つの遺伝子シーケンシング断片を取得するプロセスによって、変異遺伝子座候補を正確に特定することができるだけでなく、遺伝子シーケンシングで得られた遺伝子シーケンシング断片から、変異遺伝子座候補に対応する少なくとも1つの遺伝子シーケンシング断片を特定することもできる。
本開示の実施例では、変異遺伝子座候補に対応する少なくとも1つの遺伝子シーケンシング断片の配列属性情報に基づいて、該変異遺伝子座候補の配列特徴を特定することができ、これにより、変異遺伝子座候補の遺伝子変異を認識する時、変異遺伝子座候補に対応する少なくとも1つの遺伝子シーケンシング断片の配列属性を考慮することができる。以下、一例により変異遺伝子座候補の配列特徴を特定するプロセスを詳細に説明する。
図3は、本開示の一実施例に係る変異遺伝子座候補の配列特徴を特定するプロセスのフローチヤ一トを示す。図3に示すように、上記ステップ12は、
前記変異遺伝子座候補の遺伝子位置情報に基づいて、前記変異遺伝子座候補が位置する所定の遺伝子座区間を特定するステップ121aと、
前記少なくとも1つの遺伝子シーケンシング断片の、前記所定の遺伝子座区間内に位置する各遺伝子座の、遺伝子座の位置に関連しかつ遺伝子属性を表す配列属性情報を取得するステップ122aと、
前記所定の遺伝子座区間に位置する各遺伝子座の配列属性情報に基づいて、前記変異遺伝子座候補の配列特徴を生成するステップ123aと、を含んでもよい。
本開示の実施例の一例では、各変異遺伝子座候補について、少なくとも1つの遺伝子シーケンシング断片が存在してもよい。遺伝子変異認識の正確性を高めるには、該変異遺伝子座候補の配列属性情報に加えて、さらに該変異遺伝子座候補の近傍の遺伝子座の配列属性情報も考慮することができる。変異遺伝子座候補の配列特徴を特定する時、変異遺伝子座候補の遺伝子位置情報に基づいて、該変異遺伝子座候補が位置する所定の遺伝子座区間を特定することができ、例えば、変異遺伝子座候補の前後の150個の塩基対の区間を変異遺伝子座候補が位置する所定の遺伝子座区間とする。その後、該所定の遺伝子座区間に位置する各遺伝子座について、該遺伝子座において少なくとも1つの遺伝子シーケンシング断片の配列属性情報を取得し、該遺伝子座の配列属性情報から該遺伝子座に対応する配列特徴を生成することが可能である。配列特徴は、配列特徴ベクトルで表すことができる。変異遺伝子座候補が位置する所定の遺伝子座区間内の少なくとも1つの遺伝子座に対応する少なくとも1つの配列特徴ベクトルから、変異遺伝子座候補の配列特徴行列を生成することができる。例えば、変異遺伝子座候補が位置する所定の遺伝子座区間は3つの遺伝子座b1、b2、b3を含み、3つの遺伝子座に対応する配列特徴ベクトルはそれぞれa1、a2、a3である場合、変異遺伝子座候補の配列特徴行列は[a1 a2 a3]となり、ここで、a1、a2、a3の配列特徴は、b1、b2、b3の配列属性情報にそれぞれ対応する。
ここで、配列属性情報は、参照ゲノムの遺伝子型、各遺伝子型毎の遺伝子数、各遺伝子型毎の欠失遺伝子数、各遺伝子型毎の挿入遺伝子数を含んでもよいが、これらに限定されない。参照ゲノムの遺伝子型は、変異遺伝子座候補における参照ゲノムの遺伝子型であってもよい。各遺伝子型毎の遺伝子数は、該変異遺伝子座候補における少なくとも1つの遺伝子シーケンシング断片の各遺伝子型毎の遺伝子数であってもよい。例えば、該変異遺伝子座候補は5つの遺伝子シーケンシング断片に対応し、該変異遺伝子座候補における各遺伝子シーケンシング断片の遺伝子型はそれぞれA、C、C、G、Gである場合、各遺伝子型毎の遺伝子数はそれぞれ、Aが1つ、Cが2つ、Gが2つである。各遺伝子型毎の欠失遺伝子数は、該変異遺伝子座候補における少なくとも1つの遺伝子シーケンシング断片の各遺伝子型毎の欠失遺伝子数であってもよい。例えば、該変異遺伝子座候補における各遺伝子シーケンシング断片の欠失の遺伝子型はそれぞれA、C、C、G、Gである場合、各遺伝子型毎の欠失遺伝子数はそれぞれ、Aが1つ、Cが2つ、Gが2つである。各遺伝子型毎の挿入遺伝子数は、該変異遺伝子座候補における少なくとも1つの遺伝子シーケンシング断片の各遺伝子型毎の挿入遺伝子数であってよもい。例えば、該変異遺伝子座候補における各遺伝子シーケンシング断片の挿入の遺伝子型はそれぞれA、C、C、G、Gである場合、各遺伝子型毎の挿入遺伝子数はそれぞれAが1つ、Cが2つ、Gが2つである。
1つの可能な実施形態では、所定の遺伝子座区間内の各遺伝子座において少なくとも1つの遺伝子シーケンシング断片の配列属性情報を取得する時、該所定の遺伝子座区間内の各遺伝子座において、少なくとも1つの遺伝子シーケンシング断片の遺伝子型を特定し、該遺伝子座に対応する遺伝子を各遺伝子型毎にカウントすることができ、これにより、変異遺伝子座候補において、該遺伝子座に対応する少なくとも1つの遺伝子シーケンシング断片の各遺伝子型毎の遺伝子数を特定することができる。
1つの可能な実施形態では、所定の遺伝子座区間内の各遺伝子座において少なくとも1つの遺伝子シーケンシング断片の配列属性情報を取得する時、各遺伝子シーケンシング断片の遺伝子配列と参照ゲノム配列との比較結果に基づき、該所定の遺伝子座区間内の各遺伝子座において、各遺伝子シーケンシング断片の欠失遺伝子の遺伝子型を特定し、該遺伝子座において少なくとも1つの遺伝子シーケンシング断片の欠失遺伝子を各遺伝子型毎にカウントし、これにより、変異遺伝子座候補において、該遺伝子座に対応する少なくとも1つの遺伝子シーケンシング断片の各遺伝子型毎の欠失遺伝子の数を特定することができる。
1つの可能な実施形態では、所定の遺伝子座区間内の各遺伝子座において少なくとも1つの遺伝子シーケンシング断片の配列属性情報を取得する時、各遺伝子シーケンシング断片の遺伝子配列と参照ゲノム配列との比較結果に基づき、該所定の遺伝子座区間内の各遺伝子座において各遺伝子シーケンシング断片の欠失遺伝子の遺伝子型を特定し、該遺伝子座において、少なくとも1つの遺伝子シーケンシング断片のの挿入遺伝子を各遺伝子型毎にカウントし、これにより、変異遺伝子座候補において、該遺伝子座に対応する少なくとも1つの遺伝子シーケンシング断片の各遺伝子型毎の挿入遺伝子数を特定することができる。
例えば、配列属性情報は参照ゲノムの遺伝子型、各遺伝子型毎の遺伝子数、各遺伝子型毎の欠失遺伝子数、各遺伝子型毎の挿入遺伝子数を含むと仮定する場合、変異遺伝子座候補の配列特徴を特定する時、変異遺伝子座候補が位置する所定の遺伝子座区間内の各遺伝子座において、変異遺伝子座候補に対応する少なくとも1つの遺伝子シーケンシング断片の上記4つの情報を抽出することができ、例えば、変異遺伝子座候補に対応する5つの遺伝子シーケンシング断片の場合、所定の遺伝子座区間内のある遺伝子座について、参照ゲノムの遺伝子型、5つの遺伝子シーケンシング断片の各遺伝子型毎の遺伝子数、5つの遺伝子シーケンシング断片の各遺伝子型毎の欠失遺伝子数、および5つの遺伝子シーケンシング断片の各遺伝子型毎の挿入遺伝子数をそれぞれ特定することができる。その後、該遺伝子座に対応する少なくとも1つの配列属性情報を統合することで、該遺伝子座の配列特徴を得ることができる。変異遺伝子座候補の配列特徴は、所定の遺伝子座区間内の各遺伝子座の配列特徴を含んでもよい。
本開示の実施例の一例では、変異遺伝子座候補の遺伝子変異を認識する時、変異遺伝子座候補に対応する少なくとも1つの遺伝子シーケンシング断片の配列属性だけでなく、さらに少なくとも1つの遺伝子シーケンシング断片の非配列属性も考慮した。以下、一例により変異遺伝子座候補の非配列特徴を特定するプロセスを詳細に説明する。
図4は本開示の一実施例に係る変異遺伝子座候補の非配列特徴を特定するプロセスのフローチヤ一トを示す。図4に示すように、上記ステップ12は、
前記少なくとも1つの遺伝子シーケンシング断片の、遺伝子座の位置に関連しなくかつ遺伝子属性を表す非配列属性情報を取得するステップ121bと、
前記少なくとも1つの遺伝子シーケンシング断片の非配列属性情報に基づいて、前記変異遺伝子座候補の非配列特徴を生成するステップ122bと、を含んでもよい。
本開示の実施例の一例では、遺伝子変異認識の正確性を高めるには、少なくとも1つの遺伝子シーケンシング断片の配列属性情報に加えて、さらに少なくとも1つの遺伝子シーケンシング断片の非配列属性情報も考慮することができる。ここで、非配列属性情報は、比較品質、プラス鎖およびマイナス鎖の偏り、遺伝子シーケンシング断片の長さ、エッジの偏りの少なくとも1つを含んでもよい。変異遺伝子座候補の非配列特徴を特定する時、少なくとも1つの遺伝子属性配列リードの非配列属性情報を取得し、その後、取得された非配列属性情報から変異遺伝子座候補の非配列特徴を生成することができる。
1つの可能な実施形態では、前記少なくとも1つの遺伝子シーケンシング断片の非配列属性情報に基づいて、前記変異遺伝子座候補の非配列特徴を特定する時、各遺伝子シーケンシング断片内の各遺伝子座の比較品質に基づいて、各遺伝子シーケンシング断片の比較品質を特定し、その後、各遺伝子シーケンシング断片の比較品質に基づいて、前記変異遺伝子座候補に対応する非配列特徴を特定することができる。ここで、比較品質は、遺伝子シーケンシング断片の各遺伝子配列の遺伝子シーケンシングの正確性を表すことができる。ある遺伝子配列の比較品質が所定の値より低い場合、該遺伝子配列の遺伝子シーケンシングによる遺伝子型が正確でないと考えられ、これにより、比較品質は変異遺伝子座候補の遺伝子変異の有無を判断するための1つの参考要素となり得る。例えば、変異遺伝子座候補は少なくとも1つの遺伝子シーケンシング断片に対応する場合、各遺伝子配列の比較品質に基づいて、各遺伝子シーケンシング断片の比較品質を特定することができ、1つの遺伝子シーケンシング断片を例として、該遺伝子シーケンシング断片に含まれる遺伝子配列の比較品質の平均値または中間値を該遺伝子シーケンシング断片の比較品質としてもよく、該遺伝子シーケンシング断片から少なくとも1つの遺伝子配列をランダムに選択し、選択された少なくとも1つの遺伝子配列の比較品質の平均値または中間値を該遺伝子シーケンシング断片の比較品質としてもよい。その後、各遺伝子シーケンシング断片の比較品質から該変異遺伝子座候補に対応する比較品質を取得し、例えば、該変異遺伝子座候補に対応する少なくとも1つの遺伝子シーケンシング断片の比較品質の平均値または中間値を計算し、該変異遺伝子座候補に対応する比較品質を取得し、これにより、該変異遺伝子座候補に対応する比較品質に基づいて変異遺伝子座候補に対応する非配列特徴を特定することができる。
1つの可能な実施形態では、少なくとも1つの遺伝子シーケンシング断片の非配列属性情報に基づいて、変異遺伝子座候補の非配列特徴を特定する時、各遺伝子シーケンシング断片の属する遺伝子鎖がプラス鎖またはマイナス鎖のいずれであるかの情報に基づいて、少なくとも1つの遺伝子シーケンシング断片の、プラス鎖である遺伝子鎖とマイナス鎖である遺伝子鎖との割合を特定し、その後、特定されたプラス鎖である遺伝子鎖とマイナス鎖である遺伝子鎖との割合に基づいて、変異遺伝子座候補に対応する非配列特徴を特定することができる。ここで、プラス鎖およびマイナス鎖の偏りは、遺伝子シーケンシング断片の属する遺伝子鎖においてプラス鎖とマイナス鎖との割合であってよく、遺伝子鎖は、プラス鎖およびマイナス鎖を含み、ここで、プラス鎖は、リボ核酸(RNA)の塩基配列と同じであるデオキシリボ核酸(DNA)単一鎖であってよく、マイナス鎖は、リボ核酸(RNA)の塩基配列に相補的なデオキシリボ核酸(DNA)単一鎖であってよい。例えば、変異遺伝子座候補は5つの遺伝子シーケンシング断片に対応し、そのうち、3つの遺伝子シーケンシング断片は遺伝子鎖のプラス鎖に対応し、2つの遺伝子シーケンシング断片は遺伝子鎖のマイナス鎖に対応する場合、プラス鎖およびマイナス鎖の偏りは3:2である。
1つの可能な実施形態では、少なくとも1つの遺伝子シーケンシング断片の非配列属性情報に基づいて、変異遺伝子座候補の非配列特徴を特定する時、各遺伝子シーケンシング断片の遺伝子シーケンシング断片長さに基づいて、変異遺伝子座候補の非配列特徴を特定することができる。遺伝子シーケンシング断片の長さは、各遺伝子シーケンシング断片が有する塩基配列の長さであってもよく、例えば、1つの遺伝子シーケンシング断片に4つの塩基配列が含まれる場合、該遺伝子シーケンシング断片の長さは4であり、各遺伝子シーケンシング断片の長さから変異遺伝子座候補の非配列特徴を特定してもよく、少なくとも1つの遺伝子シーケンシング断片の長さの中間値または平均値から変異遺伝子座候補の非配列特徴を特定してもよい。
1つの可能な実施形態では、少なくとも1つの遺伝子シーケンシング断片の非配列属性情報に基づいて、変異遺伝子座候補の非配列特徴を特定する時、各遺伝子シーケンシング断片のエッジの偏りに基づいて、変異遺伝子座候補の非配列特徴を特定することができる。ここで、エッジの偏りは、ある遺伝子座について、当該遺伝子座がエッジ位置に位置する遺伝子シーケンシング断片と当該遺伝子座が中間位置に位置する遺伝子シーケンシング断片との割合であってよい。例えば、遺伝子シーケンシング断片を3つのセグメントに均一に分けて、そのうち、遺伝子シーケンシング断片両端の2セグメントをエッジ位置とし、遺伝子シーケンシング断片中央の1セグメントを中間位置とし、変異遺伝子座候補が5つの遺伝子シーケンシング断片に対応する場合、変異遺伝子座候補は、3つの遺伝子シーケンシング断片においてエッジ位置に位置し、2つの遺伝子シーケンシング断片において中間位置に位置すれば、該変異遺伝子座候補のエッジの偏りは3:2となる。これに応じて、変異遺伝子座候補の各遺伝子シーケンシング断片でのエッジの偏りから、変異遺伝子座候補の非配列特徴を特定してもよく、少なくとも1つの遺伝子シーケンシング断片に対応するエッジの偏りの中間値または平均値から、変異遺伝子座候補の非配列特徴を特定してもよい。
以上のようにして、変異遺伝子座候補における少なくとも1つの遺伝子シーケンシング断片の非配列属性情報から変異遺伝子座候補の非配列特徴を生成することができ、遺伝子変異認識時に変異遺伝子座候補の非配列特徴を考慮することができる。これにより、遺伝子変異認識がより正確になる。非配列特徴を特定する時、非配列属性情報のいずれか1つ以上の情報の組み合わせから、少なくとも1つの遺伝子シーケンシング断片の非配列特徴を生成することができる。
以下、一例により変異遺伝子座候補の遺伝子変異を認識するプロセスを説明する。
図5は、本開示の一実施例に係る変異遺伝子座候補の遺伝子変異を認識するプロセスのフローチヤ一トを示す。図5に示すように、上記ステップ13は、
前記配列特徴および前記非配列特徴を統合し、前記変異遺伝子座候補の統合特徴を得るステップ131と、
前記変異遺伝子座候補の統合特徴に基づいて、前記変異遺伝子座候補の遺伝子変異を認識するステップ132と、を含み得る。
本開示の実施例では、変異遺伝子座候補の配列特徴および非配列次元特徴を特定した後、ニューラルネットワークモデルを用いて、配列特徴および非配列特徴を統合し、配列特徴から形成された配列特徴行列と、非配列特徴から形成された非配列特徴行列とを1つの特徴行列として合成し、特徴が統合された統合特徴行列を取得し、その後、ニューラルネットワークモデルを用いて、該統合特徴行列に基づいて変異候補遺伝子座での遺伝子変異を認識することができる。このようにして、ニューラルネットワークモデルを用いて、変異遺伝子座候補に対応する配列属性情報および非配列属性情報を統合することができ、これにより、遺伝子シーケンシングデータをより全面的に解析することができ、遺伝子変異の認識はより正確になる。トレーニング中において、トレーニングサンプルとして、一塩基多型(Single Nucleotide Polymorphism、SNP)のある遺伝子シーケンシング断片、挿入/欠失(Insertion/Deletion、InDel)のある遺伝子シーケンシング断片を選択することができ、これにより、トレーニング後に得られた遺伝子変異認識モデルはSNP、InDelの遺伝子変異を効果的に認識することができる。
1つの可能な実施形態では、前記変異遺伝子座候補の統合特徴に基づいて、前記変異遺伝子座候補の遺伝子変異を認識することは、前記変異遺伝子座候補の統合特徴に基づいて、前記変異遺伝子座候補の遺伝子の変異性を示す変異値を得ることと、前記変異値が所定の閾値以上である場合、前記変異遺伝子座候補の遺伝子に変異があると判定することと、を含んでもよい。ここで、遺伝子の変異性を示す変異値は、該変異遺伝子座候補で変異が生じる可能性を表すものであってもよい。例えば、変異値が大きいほど、該変異遺伝子座候補で変異が生じる可能性は大きい。上記ニューラルネットワークを用いて2次元特徴を処理して変異値を得て、変異値に基づいて変異遺伝子座候補の遺伝子に変異があるか否かを判断することができる。1つの可能な実施形態では、変異値を0から1の範囲内とすることができる。所定の閾値は、適用場面に応じて、例えば0.3、0.5に設定することができ、変異値が所定の閾値より大きい場合、該変異遺伝子座候補の遺伝子に変異が生じると考えてよく、そうでない場合、該変異遺伝子座候補の遺伝子に変異がないと考えてよい。
本開示の実施例では、ニューラルネットワークモデルを用いて変異遺伝子座候補の遺伝子変異を認識することができ、該ニューラルネットワークモデルは、変異遺伝子座候補の配列特徴および非配列特徴を抽出することができる。本開示の実施例では、ニューラルネットワークモデルの構造をさらに提供する。
図6は、本開示の一実施例に係るニューラルネットワークモデルのブロック図を示す。図6に示すように、ニューラルネットワークモデルは第1の分岐および第2の分岐の2つの分岐構造を含んでよもい。第1の分岐は、畳み込み層およびプーリング層を含み、変異遺伝子座候補に対応する少なくとも1つの遺伝子シーケンシング断片の配列特徴の抽出に使用される。第2の分岐は、全結合層を含み、変異遺伝子座候補に対応する少なくとも1つの遺伝子シーケンシング断片の非配列特徴の抽出に使用される。ニューラルネットワークモデルは、変異遺伝子座候補の配列特徴および非配列特徴を抽出した後、配列特徴および非配列特徴を統合し、例えば、配列特徴の配列特徴行列と非配列特徴の非配列特徴行列とを結合させ、特徴が統合された統合特徴行列を得ることができ、その後、全結合層により変異遺伝子座候補の変異値を得ることができる。
本開示の実施例では、変異遺伝子座候補に対応する少なくとも1つの遺伝子シーケンシング断片の配列属性情報および非配列属性情報を抽出し、配列属性情報および非配列属性情報を統合することで得られた統合特徴を用いて、遺伝子変異を認識し、これにより、変異遺伝子座候補に対応する配列属性情報および非配列属性情報を総合的に考慮し、遺伝子シーケンシング情報をより全面的に解析し、遺伝子候補遺伝子座での遺伝子変異をより良好に認識し、生殖細胞系遺伝子の変異、およびノイズやエラーによる干渉を除去し、遺伝子変異認識の正確率は高まる。
具体的な実施形態の上記方法において、各ステップの記述順序は厳しい実行順序であるというわけではなく、実施プロセスの何の制限にもならず、各ステップの具体的な実行順序はその機能と可能な内在的論理に依存することが当業者に理解される。
図7は、本開示の実施例に係る遺伝子変異認識装置のブロック図を示し、図7に示すように、前記遺伝子変異認識装置は、
変異遺伝子座候補に対応する少なくとも1つの遺伝子シーケンシング断片を取得する取得モジュール71と、
前記少なくとも1つの遺伝子シーケンシング断片の属性情報に基づいて、前記変異遺伝子座候補の、遺伝子座の位置に関連する配列特徴および非配列特徴を特定する特定モジュール72と、
前記配列特徴および前記非配列特徴に基づいて、前記変異遺伝子座候補の遺伝子変異を認識するための認識モジュール73と、を含む。
1つの可能な実施形態では、
前記属性情報は、配列属性情報を含み、
前記特定モジュール72は、
前記変異遺伝子座候補の遺伝子位置情報に基づいて、前記変異遺伝子座候補が位置する所定の遺伝子座区間を特定する第1の特定サブモジュールと、
前記少なくとも1つの遺伝子シーケンシング断片の、前記所定の遺伝子座区間内に位置する各遺伝子座の、遺伝子座の位置に関連しかつ遺伝子属性を表す配列属性情報を取得する第1の取得サブモジュールと、
前記所定の遺伝子座区間に位置する各遺伝子座の配列属性情報に基づいて、前記変異遺伝子座候補の配列特徴を生成する第1の生成サブモジュールと、を含む。
1つの可能な実施形態では、
前記第1の取得サブモジュールは、具体的に、
前記各遺伝子座において前記少なくとも1つの遺伝子シーケンシング断片の遺伝子型を特定することと、
前記各遺伝子座において遺伝子を各遺伝子型毎にカウントすることと、に用いられる。
1つの可能な実施形態では、
前記第1の取得サブモジュールは、具体的に、
各遺伝子シーケンシング断片の遺伝子配列と参照ゲノム配列との比較結果に基づいて、前記各遺伝子座において各遺伝子シーケンシング断片の欠失遺伝子の遺伝子型を特定することと、
前記各遺伝子座において前記少なくとも1つの遺伝子シーケンシング断片の欠失遺伝子を各遺伝子型毎にカウントすることと、に用いられる。
1つの可能な実施形態では、
前記第1の取得サブモジュールは、具体的に、
各遺伝子シーケンシング断片の遺伝子配列と参照ゲノム配列との比較結果に基づいて、前記各遺伝子座において各遺伝子シーケンシング断片の挿入遺伝子の遺伝子型を特定することと、
前記各遺伝子座において前記少なくとも1つの遺伝子シーケンシング断片の挿入遺伝子を各遺伝子型毎にカウントすることと、に用いられる。
1つの可能な実施形態では、
前記配列属性情報は、参照遺伝子の遺伝子型、各遺伝子型毎の遺伝子数、各遺伝子型毎の欠失遺伝子数、各遺伝子型毎の挿入遺伝子数の少なくとも1つを含む。
1つの可能な実施形態では、
前記属性情報は、非配列属性情報を含み、
前記特定モジュールは、
前記少なくとも1つの遺伝子シーケンシング断片の、遺伝子座の位置に関連しなくかつ遺伝子属性を表す非配列属性情報を取得する第2の取得サブモジュールと、
前記少なくとも1つの遺伝子シーケンシング断片の非配列属性情報に基づいて、前記変異遺伝子座候補の非配列特徴を特定する第2の特定サブモジュールと、を含む。
1つの可能な実施形態では、
前記非配列属性情報は、比較品質、プラス鎖およびマイナス鎖の偏り、遺伝子シーケンシング断片の長さ、エッジの偏りの少なくとも1つを含む。
1つの可能な実施形態では、
前記第2の特定サブモジュールは、具体的に、
各遺伝子シーケンシング断片の各遺伝子座の比較品質に基づいて、各遺伝子シーケンシング断片の比較品質を特定することであって、前記比較品質は、遺伝子シーケンシング断片の各遺伝子配列毎のシーケンシングの正確性を表すことと、
各遺伝子シーケンシング断片の比較品質に基づいて、前記変異遺伝子座候補に対応する非配列特徴を特定することとに用いられる。
1つの可能な実施形態では、
前記第2の特定サブモジュールは、具体的に、
各遺伝子シーケンシング断片の属する遺伝子鎖がプラス鎖またはマイナス鎖のいずれであるかの情報に基づいて、前記少なくとも1つの遺伝子シーケンシング断片の、プラス鎖である遺伝子鎖とマイナス鎖である遺伝子鎖との割合を特定することと、
前記プラス鎖である遺伝子鎖とマイナス鎖である遺伝子鎖との割合に基づいて、前記変異遺伝子座候補に対応する非配列特徴を特定することとに用いられる。
1つの可能な実施形態では、
前記認識モジュール73は、
具体的に前記配列特徴および前記非配列特徴を統合し、前記変異遺伝子座候補の統合特徴を得る統合サブモジュールと、
前記変異遺伝子座候補の統合特徴に基づいて、前記変異遺伝子座候補の遺伝子変異を認識する認識サブモジュールと、を含む。
1つの可能な実施形態では、
前記認識サブモジュールは、具体的に、
前記変異遺伝子座候補の統合特徴に基づいて、前記変異遺伝子座候補の遺伝子の変異性を示す変異値を得ることと、
前記変異値が所定の閾値以上である場合、前記変異遺伝子座候補の遺伝子に変異があると判定することと、に用いられる。
1つの可能な実施形態では、
前記取得モジュール71は、具体的に、
体細胞遺伝子による遺伝子シーケンシングで得られた遺伝子シーケンシング断片を取得することと、
前記遺伝子シーケンシング断片の遺伝子配列を参照ゲノム配列と比較し、比較結果を得ることと、
前記比較結果に基づいて、前記体細胞遺伝子に異常がある変異遺伝子座候補を特定することと、
前記変異遺伝子座候補に対応する少なくとも1つの遺伝子シーケンシング断片を取得することと、に用いられる。
いくつかの実施例では、本開示の実施例で提供された装置に備えた機能またはモジュールは、上記方法実施例に記載の方法を実行するものであって、その具現化については上記方法実施例の説明を参照してもよく、簡単化するために、ここで重複説明は割愛する。
図8は一例示的実施例により示される遺伝子変異認識のための装置1900のブロック図である。例えば、装置1900はサーバとして提供できる。図8を参照して、装置1900は、さらに一つ又は複数のプロセッサを含む処理コンポーネント1922、および、処理コンポーネント1922が実行可能な命令、例えばアプリケーションプログラムを記憶する、メモリ1932を代表とするメモリ資源を含む。メモリ1932に記憶されたアプリケーションプログラムはそれぞれが1グループの命令に対応する一つ以上のモジュールを含むことができる。また、処理コンポーネント1922は命令を実行することで上記方法を実行するように構成される。
装置1900はさらに、装置1900の電源管理を実行するように構成された一つの電源コンポーネント1926、装置1900をネットワークに接続するように構成された一つの有線または無線ネットワークインタフェース1950、および一つの入出力(I/O)インタフェース1958を含むことができる。装置1900はメモリ1932に記憶されたオペレーティングシステム、例えばWindows ServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTMまたは類似するものに基づいて動作できる。
例示的な実施例では、さらに、非揮発性のコンピュータが読み取り可能な記憶媒体、例えば、装置1900の処理コンポーネント1922によって実行されることで上記方法を実行するためのコンピュータプログラム命令が記憶されているメモリ1932が提供される。
本開示はシステム、方法および/またはコンピュータプログラム製品であってもよい。コンピュータプログラム製品は、プロセッサに本開示の各態様を実現させるためのコンピュータ可読プログラム命令がロードされているコンピュータが読み取り可能な記憶媒体を含むことができる。
コンピュータが読み取り可能な記憶媒体は、命令実行機器により使用される命令を保持および記憶可能な有形機器であってもよい。コンピュータが読み取り可能な記憶媒体は、例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置または上記の任意の適当な組み合わせであってもよいが、これらに限定されない。コンピュータが読み取り可能な記憶媒体のさらに具体的な例(非包括的リスト)としては、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、静的ランダムアクセスメモリ(SRAM)、携帯型コンパクトディスク読み取り専用メモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリスティック、フロッピーディスク、機械的符号化装置、例えば命令が記憶されているせん孔カードまたはスロット内突起構造、および上記の任意の適当な組み合わせを含む。ここで使用されるコンピュータが読み取り可能な記憶媒体は、例えば無線電波または他の自由に伝播される電磁波、導波路または他の伝送媒体を経由して伝播される電磁波(例えば、光ファイバーケーブルを通過するパルス光)、または電線を経由して伝送される電気信号のような、瞬時信号自体であると解釈されるものではない。
ここで記述したコンピュータ可読プログラム命令は、コンピュータが読み取り可能な記憶媒体から各計算/処理機器にダウンロードされてもよいし、またはネットワーク、例えばインターネット、ローカルエリアネットワーク、広域ネットワークおよび/または無線ネットワークを介して外部のコンピュータまたは外部記憶装置にダウンロードされてもよい。ネットワークは、銅伝送ケーブル、光ファイバー伝送、無線伝送、ルーター、ファイアウォール、交換機、ゲートウェイコンピュータおよび/またはエッジサーバを含むことができる。各計算/処理機器内のネットワークアダプタカードまたはネットワークインタフェースはネットワークからコンピュータ可読プログラム命令を受信し、該コンピュータ可読プログラム命令を転送し、各計算/処理機器内のコンピュータが読み取り可能な記憶媒体に記憶する。
本開示の動作を実行するためのコンピュータプログラム命令はアセンブラ命令、命令セットアーキテクチャ(ISA)命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、または一つまたは複数種類のプログラミング言語の任意の組み合わせで書かれたソースコードまたは目標コードであってもよい。前記プログラミング言語は、Smalltalk、C++などのオブジェクト指向プログラミング言語、および「C」言語または類似するプログラミング言語などの一般的な手続き型プログラミング言語を含む。コンピュータ可読プログラム命令は、完全にユーザのコンピュータにおいて実行されてもよく、部分的にユーザのコンピュータにおいて実行されてもよく、スタンドアロンソフトウェアパッケージとして実行されてもよく、部分的にユーザのコンピュータにおいてかつ部分的にリモートコンピュータにおいて実行されてもよく、または完全にリモートコンピュータもしくはサーバにおいて実行されてもよい。リモートコンピュータに関与する場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)または広域ネットワーク(WAN)を含む任意の種類のネットワークを経由してユーザのコンピュータに接続されてもよく、または、(例えばインターネットサービスプロバイダを利用してインターネットを経由して)外部コンピュータに接続されてもよい。いくつかの実施例では、コンピュータ可読プログラム命令の状態情報を利用することで、例えばプログラマブル論理回路、フィールドプログラマブルゲートアレイ(FPGA)またはプログラマブル論理アレイ(PLA)などの、コンピュータ可読プログラム命令を実行して本開示の各態様を実現できる電子回路をパーソナライズする。
なお、ここで本開示の実施例に係る方法、装置(システム)およびコンピュータプログラム製品のフローチャートおよび/またはブロック図を参照しながら本開示の各態様を説明したが、フローチャートおよび/またはブロック図の各ブロック、およびフローチャートおよび/またはブロック図の各ブロックの組み合わせは、いずれもコンピュータ可読プログラム命令によって実現できることを理解すべきである。
これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータまたは他のプログラマブルデータ処理装置のプロセッサへ提供されてもよい。それにより、これらの命令はコンピュータまたは他のプログラマブルデータ処理装置のプロセッサによって実行されると、フローチャートおよび/またはブロック図の一つまたは複数のブロックにおいて指定された機能/動作を実現する手段を創出するような機械が生じる。また、これらのコンピュータ可読プログラム命令は、コンピュータが読み取り可能な記憶媒体に記憶し、それによってコンピュータ、プログラマブルデータ処理装置および/または他の機器を特定の方式で動作させるようにしてもよい。それにより、命令が記憶されるコンピュータが読み取り可能な記憶媒体は、フローチャートおよび/またはブロック図の一つまたは複数のブロックにおいて指定された機能/動作の各態様を実現する命令を含む製品を含む。
コンピュータ可読プログラムはコンピュータ、他のプログラマブルデータ処理装置、または他の機器にロードしてもよい。これにより、コンピュータ、他のプログラマブルデータ処理装置または他の機器において一連の動作ステップを実行させて、コンピュータ実施プロセスを生成する。それにより、コンピュータ、他のプログラマブルデータ処理装置、または他の機器において実行される命令はフローチャートおよび/またはブロック図の一つまたは複数のブロックにおいて指定された機能/動作を実現する。
図面のうちフローチャートおよびブロック図は、本開示の複数の実施例に係るシステム、方法およびコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能および動作を示す。この点では、フローチャートまたはブロック図における各ブロックは一つのモジュール、プログラムセグメントまたは命令の一部分を代表することができ、前記モジュール、プログラムセグメントまたは命令の一部分は、指定された論理機能を実現するための一つまたは複数の実行可能な命令を含む。いくつかの置換としての実現形態では、ブロックに表記される機能は、図面に付したものと異なる順序で実現してもよい。例えば、二つの連続的なブロックは実質的に同時に実行してもよく、また、係る機能によって、それらは逆な順序で実行してもよい場合がある。なお、ブロック図および/またはフローチャートにおける各ブロック、およびブロック図および/またはフローチャートにおけるブロックの組み合わせは、指定される機能または動作を実行するハードウェアに基づく専用システムによって実現してもよいし、または専用ハードウェアとコンピュータ命令との組み合わせによって実現してもよいことに注意すべきである。
以上、本開示の各実施例を記述したが、上記説明は例示的なものに過ぎず、網羅的なものではなく、かつ披露された各実施例に限定されるものでもない。当業者にとって、説明された各実施例の範囲および精神から逸脱することなく、様々な修正および変更が明らかである。本明細書に選ばれた用語は、各実施例の原理、実際の適用またはマーケティングにおける技術への技術的改善を好適に解釈するか、または当該技術的分野の一般的な当業者に本文に披露された各実施例を理解させるためのものである。

Claims (15)

  1. 変異遺伝子座候補に対応する少なくとも1つの遺伝子シーケンシング断片を取得することと、
    前記少なくとも1つの遺伝子シーケンシング断片の属性情報に基づいて、前記変異遺伝子座候補の、遺伝子座の位置に関連する配列特徴および非配列特徴を特定することと、
    前記配列特徴および前記非配列特徴に基づいて、前記変異遺伝子座候補の遺伝子変異を認識することと、を含むことを特徴とする、遺伝子変異認識方法。
  2. 前記属性情報は、配列属性情報を含み、
    前記少なくとも1つの遺伝子シーケンシング断片の属性情報に基づいて、前記変異遺伝子座候補の配列特徴を特定することは、
    前記変異遺伝子座候補の遺伝子位置情報に基づいて、前記変異遺伝子座候補が位置する所定の遺伝子座区間を特定することと、
    前記少なくとも1つの遺伝子シーケンシング断片の、前記所定の遺伝子座区間内に位置する各遺伝子座の、遺伝子座の位置に関連しかつ遺伝子属性を表す配列属性情報を取得することと、
    前記所定の遺伝子座区間に位置する各遺伝子座の配列属性情報に基づいて、前記変異遺伝子座候補の配列特徴を生成することと、を含むことを特徴とする、請求項1に記載の方
    法。
  3. 前記少なくとも1つの遺伝子シーケンシング断片の、前記所定の遺伝子座区間内に位置する各遺伝子座の配列属性情報を取得することは、
    前記各遺伝子座において前記少なくとも1つの遺伝子シーケンシング断片の遺伝子型を特定することと、
    前記各遺伝子座において遺伝子を各遺伝子型毎にカウントすることと、を含むことを特徴とする、請求項2に記載の方法。
  4. 前記少なくとも1つの遺伝子シーケンシング断片の、前記所定の遺伝子座区間内に位置する各遺伝子座の配列属性情報を取得することは、
    各遺伝子シーケンシング断片の遺伝子配列と参照ゲノム配列との比較結果に基づいて、前記各遺伝子座において各遺伝子シーケンシング断片の欠失遺伝子の遺伝子型を特定する
    ことと、
    前記各遺伝子座において前記少なくとも1つの遺伝子シーケンシング断片の欠失遺伝子を各遺伝子型毎にカウントすることと、を含むことを特徴とする、請求項2に記載の方法。
  5. 前記少なくとも1つの遺伝子シーケンシング断片の、前記所定の遺伝子座区間内に位置する各遺伝子座の配列属性情報を取得することは、
    各遺伝子シーケンシング断片の遺伝子配列と参照ゲノム配列との比較結果に基づいて、前記各遺伝子座において各遺伝子シーケンシング断片の挿入遺伝子の遺伝子型を特定することと、
    前記各遺伝子座において前記少なくとも1つの遺伝子シーケンシング断片の挿入遺伝子を各遺伝子型毎にカウントすることと、を含むことを特徴とする、請求項2に記載の方法。
  6. 前記配列属性情報は、
    参照遺伝子の遺伝子型、各遺伝子型毎の遺伝子数、各遺伝子型毎の欠失遺伝子数、各遺伝子型毎の挿入遺伝子数の少なくとも1つを含むことを特徴とする、請求項2から5のいずれか一項に記載の方法。
  7. 前記属性情報は、非配列属性情報を含み、
    前記少なくとも1つの遺伝子シーケンシング断片の属性情報に基づいて、前記変異遺伝子座候補の非配列特徴を特定することは、
    前記少なくとも1つの遺伝子シーケンシング断片の、遺伝子座の位置に関連しなくかつ遺伝子属性を表す非配列属性情報を取得することと、
    前記少なくとも1つの遺伝子シーケンシング断片の非配列属性情報に基づいて、前記変異遺伝子座候補の非配列特徴を特定することと、を含むことを特徴とする、請求項1から6のいずれか一項に記載の方法。
  8. 前記非配列属性情報は、比較品質、プラス鎖およびマイナス鎖の偏り、遺伝子シーケンシング断片の長さ、エッジの偏りの少なくとも1つを含むことを特徴とする、請求項7に記載の方法。
  9. 前記少なくとも1つの遺伝子シーケンシング断片の非配列属性情報に基づいて、前記変異遺伝子座候補の非配列特徴を特定することは、
    各遺伝子シーケンシング断片の各遺伝子座の比較品質に基づいて、各遺伝子シーケンシング断片の比較品質を特定することであって、前記比較品質は、遺伝子シーケンシング断片の各遺伝子配列毎のシーケンシングの正確性を表すことと、
    各遺伝子シーケンシング断片の比較品質に基づいて、前記変異遺伝子座候補に対応する非配列特徴を特定することと、を含むことを特徴とする、請求項8に記載の方法。
  10. 前記少なくとも1つの遺伝子シーケンシング断片の非配列属性情報に基づいて、前記変異遺伝子座候補の非配列特徴を特定することは、
    各遺伝子シーケンシング断片の属する遺伝子鎖がプラス鎖またはマイナス鎖のいずれであるかの情報に基づいて、前記少なくとも1つの遺伝子シーケンシング断片の、プラス鎖である遺伝子鎖とマイナス鎖である遺伝子鎖との割合を特定することと、
    前記プラス鎖である遺伝子鎖とマイナス鎖である遺伝子鎖との割合に基づいて、前記変異遺伝子座候補に対応する非配列特徴を特定することと、を含むことを特徴とする、請求項8に記載の方法。
  11. 前記配列特徴および前記非配列特徴に基づいて、前記変異遺伝子座候補の遺伝子変異を認識することは、
    前記配列特徴および前記非配列特徴を統合し、前記変異遺伝子座候補の統合特徴を得ることと、
    前記変異遺伝子座候補の統合特徴に基づいて、前記変異遺伝子座候補の遺伝子の変異性を示す変異値を得ることと、
    前記変異値が所定の閾値以上である場合、前記変異遺伝子座候補の遺伝子に変異があると判定することと、を含むことを特徴とする、請求項1から10のいずれか一項に記載の方法。
  12. 前記変異遺伝子座候補に対応する少なくとも1つの遺伝子シーケンシング断片を取得することは、
    体細胞遺伝子による遺伝子シーケンシングで得られた遺伝子シーケンシング断片を取得することと、
    前記遺伝子シーケンシング断片の遺伝子配列を参照ゲノム配列と比較し、比較結果を得ることと、
    前記比較結果に基づいて、前記体細胞遺伝子に異常がある変異遺伝子座候補を特定することと、
    前記変異遺伝子座候補に対応する少なくとも1つの遺伝子シーケンシング断片を取得することと、を含むことを特徴とする、請求項1から11のいずれか一項に記載の方法。
  13. 変異遺伝子座候補に対応する少なくとも1つの遺伝子シーケンシング断片を取得するための取得モジュールと、
    前記少なくとも1つの遺伝子シーケンシング断片の属性情報に基づいて、前記変異遺伝子座候補の、遺伝子座の位置に関連する配列特徴および非配列特徴を特定するための特定モジュールと、
    前記配列特徴および前記非配列特徴に基づいて、前記変異遺伝子座候補の遺伝子変異を認識するための認識モジュールと、を含むことを特徴とする、遺伝子変異認識装置。
  14. プロセッサと、
    プロセッサが実行可能な命令を記憶するメモリと、を含み、
    前記プロセッサは、前記実行可能な命令を呼び出すことによって請求項1から12のいずれか一項に記載の方法を実現することを特徴とする遺伝子変異認識装置。
  15. コンピュータプログラム命令が記憶されている不揮発性コンピュータ可読記憶媒体であ
    って、前記コンピュータプログラム命令がプロセッサにより実行されると、請求項1から
    12のいずれか一項に記載の方法を実現することを特徴とする、不揮発性コンピュータ可
    読記憶媒体。
JP2021514554A 2019-03-29 2019-05-31 遺伝子変異認識方法、装置および記憶媒体 Active JP7064654B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910251891.0A CN109994155B (zh) 2019-03-29 2019-03-29 一种基因变异识别方法、装置和存储介质
CN201910251891.0 2019-03-29
PCT/CN2019/089499 WO2020199336A1 (zh) 2019-03-29 2019-05-31 一种基因变异识别方法、装置和存储介质

Publications (2)

Publication Number Publication Date
JP2022500773A JP2022500773A (ja) 2022-01-04
JP7064654B2 true JP7064654B2 (ja) 2022-05-10

Family

ID=67131990

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021514554A Active JP7064654B2 (ja) 2019-03-29 2019-05-31 遺伝子変異認識方法、装置および記憶媒体

Country Status (7)

Country Link
US (1) US20210082539A1 (ja)
JP (1) JP7064654B2 (ja)
KR (1) KR20210116454A (ja)
CN (1) CN109994155B (ja)
SG (1) SG11202011523VA (ja)
TW (1) TWI748263B (ja)
WO (1) WO2020199336A1 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111081318B (zh) * 2019-12-06 2023-06-06 人和未来生物科技(长沙)有限公司 一种融合基因检测方法、系统和介质
CN111081313A (zh) * 2019-12-13 2020-04-28 北京市商汤科技开发有限公司 基因变异的识别方法及装置、电子设备和存储介质
CN111081314A (zh) * 2019-12-13 2020-04-28 北京市商汤科技开发有限公司 基因变异的识别方法及装置、电子设备和存储介质
CN111091873B (zh) * 2019-12-13 2023-07-18 北京市商汤科技开发有限公司 基因变异的识别方法及装置、电子设备和存储介质
CN111091867B (zh) * 2019-12-18 2021-11-09 中国科学院大学 基因变异位点筛选方法及系统
CN111304308A (zh) * 2020-03-02 2020-06-19 北京泛生子基因科技有限公司 一种审核高通量测序基因变异检测结果的方法
CN113539357B (zh) * 2021-06-10 2024-04-30 阿里巴巴达摩院(杭州)科技有限公司 基因检测方法、模型训练方法、装置、设备及系统
CN113517022B (zh) * 2021-06-10 2024-06-25 阿里巴巴达摩院(杭州)科技有限公司 基因检测方法、特征提取方法、装置、设备及系统
CN113299344A (zh) * 2021-06-23 2021-08-24 深圳华大医学检验实验室 基因测序分析方法、装置、存储介质和计算机设备
CN113628683B (zh) * 2021-08-24 2024-04-09 慧算医疗科技(上海)有限公司 一种高通量测序突变检测方法、设备、装置及可读存储介质
CN115458052B (zh) * 2022-08-16 2023-06-30 珠海横琴铂华医学检验有限公司 基于一代测序的基因突变分析方法、设备和存储介质
CN115620802B (zh) * 2022-09-02 2023-12-05 蔓之研(上海)生物科技有限公司 一种基因数据的处理方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462869A (zh) 2014-11-28 2015-03-25 天津诺禾致源生物信息科技有限公司 检测体细胞单核苷酸突变的方法和装置
JP2017033046A (ja) 2015-07-28 2017-02-09 株式会社理研ジェネシス 変異判定方法、変異判定プログラムおよび記録媒体
JP2017070240A (ja) 2015-10-07 2017-04-13 国立研究開発法人国立がん研究センター 稀少突然変異の検出方法、検出装置及びコンピュータプログラム
CN106611106A (zh) 2016-12-06 2017-05-03 北京荣之联科技股份有限公司 基因变异检测方法及装置
JP2020529851A (ja) 2017-08-07 2020-10-15 延世大学校 産学協力団Yonsei University,University−Industry Foundation(Uif) 遺伝子パネルに基づいた塩基配列の変異検出方法およびこれを用いた塩基配列の変異検出デバイス

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DK2748192T3 (en) * 2011-08-23 2019-02-25 Found Medicine Inc KIF5B-RET-FUSION MOLECULES AND APPLICATIONS THEREOF
EP2959011A1 (en) * 2013-02-19 2015-12-30 Cergentis B.V. Sequencing strategies for genomic regions of interest
CN105408496A (zh) * 2013-03-15 2016-03-16 夸登特健康公司 检测稀有突变和拷贝数变异的系统和方法
KR20160010277A (ko) * 2014-07-18 2016-01-27 에스케이텔레콤 주식회사 산모의 무세포 dna의 차세대 서열분석을 통한 태아의 단일유전자 유전변이의 예측방법
CN104293940B (zh) * 2014-09-30 2017-07-28 天津华大基因科技有限公司 构建测序文库的方法及其应用
CN105989246B (zh) * 2015-01-28 2018-10-26 深圳华大智造科技有限公司 一种基于基因组组装的变异检测方法和装置
EP4343788A3 (en) * 2015-05-01 2024-09-11 Guardant Health, Inc. Diagnostic methods
CN105574361B (zh) * 2015-11-05 2018-11-02 上海序康医疗科技有限公司 一种检测基因组拷贝数变异的方法
CN106529211A (zh) * 2016-11-04 2017-03-22 成都鑫云解码科技有限公司 变异位点的获取方法及装置
KR101936933B1 (ko) * 2016-11-29 2019-01-09 연세대학교 산학협력단 염기서열의 변이 검출방법 및 이를 이용한 염기서열의 변이 검출 디바이스
CN106683081B (zh) * 2016-12-17 2020-10-30 复旦大学 基于影像组学的脑胶质瘤分子标记物无损预测方法和预测系统
CN108021788B (zh) * 2017-12-06 2022-08-05 北京新合睿恩生物医疗科技有限公司 基于细胞游离dna的深度测序数据提取生物标记物的方法和装置
CN107944228B (zh) * 2017-12-08 2021-06-01 广州漫瑞生物信息技术有限公司 一种基因测序变异位点的可视化方法
EP3587586A1 (en) * 2018-06-22 2020-01-01 Julius-Maximilians-Universität Würzburg Method for statistically determining a quantification of old and new rna
CN109326316B (zh) * 2018-09-18 2020-10-09 哈尔滨工业大学(深圳) 一种癌症相关SNP、基因、miRNA和蛋白质相互作用的多层网络模型构建方法和应用

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462869A (zh) 2014-11-28 2015-03-25 天津诺禾致源生物信息科技有限公司 检测体细胞单核苷酸突变的方法和装置
JP2017033046A (ja) 2015-07-28 2017-02-09 株式会社理研ジェネシス 変異判定方法、変異判定プログラムおよび記録媒体
JP2017070240A (ja) 2015-10-07 2017-04-13 国立研究開発法人国立がん研究センター 稀少突然変異の検出方法、検出装置及びコンピュータプログラム
CN106611106A (zh) 2016-12-06 2017-05-03 北京荣之联科技股份有限公司 基因变异检测方法及装置
JP2020529851A (ja) 2017-08-07 2020-10-15 延世大学校 産学協力団Yonsei University,University−Industry Foundation(Uif) 遺伝子パネルに基づいた塩基配列の変異検出方法およびこれを用いた塩基配列の変異検出デバイス

Also Published As

Publication number Publication date
SG11202011523VA (en) 2020-12-30
JP2022500773A (ja) 2022-01-04
WO2020199336A1 (zh) 2020-10-08
CN109994155B (zh) 2021-08-20
US20210082539A1 (en) 2021-03-18
TWI748263B (zh) 2021-12-01
TW202036582A (zh) 2020-10-01
KR20210116454A (ko) 2021-09-27
CN109994155A (zh) 2019-07-09

Similar Documents

Publication Publication Date Title
JP7064654B2 (ja) 遺伝子変異認識方法、装置および記憶媒体
Alachiotis et al. RAiSD detects positive selection based on multiple signatures of a selective sweep and SNP vectors
JP7064655B2 (ja) 遺伝子変異認識方法、装置および記憶媒体
Sessegolo et al. Transcriptome profiling of mouse samples using nanopore sequencing of cDNA and RNA molecules
CN110832596B (zh) 基于深度学习的深度卷积神经网络训练方法
Lu et al. Oxford Nanopore MinION sequencing and genome assembly
Telenti et al. Deep learning of genomic variation and regulatory network data
Schraiber et al. Methods and models for unravelling human evolutionary history
Schiffels et al. Inferring human population size and separation history from multiple genome sequences
Lopez et al. The demographic history and mutational load of African hunter-gatherers and farmers
Modolo et al. UrQt: an efficient software for the Unsupervised Quality trimming of NGS data
Biller et al. Breaking good: accounting for fragility of genomic regions in rearrangement distance estimation
CN109979530B (zh) 一种基因变异识别方法、装置和存储介质
CN113963749B (zh) 高通量测序数据自动化组装方法、系统、设备及存储介质
Klein et al. LOCAS–a low coverage assembly tool for resequencing projects
Kao et al. naiveBayesCall: an efficient model-based base-calling algorithm for high-throughput sequencing
Ferrario et al. Transferring entropy to the realm of GxG interactions
Wang et al. Tool evaluation for the detection of variably sized indels from next generation whole genome and targeted sequencing data
Kuo et al. Illuminating the dark side of the human transcriptome with TAMA Iso-Seq analysis
Rivera-Rivera et al. LS³: A method for improving phylogenomic inferences when evolutionary rates are heterogeneous among taxa
Peischl et al. A sequential coalescent algorithm for chromosomal inversions
WO2014145503A2 (en) Sequence alignment using divide and conquer maximum oligonucleotide mapping (dcmom), apparatus, system and method related thereto
CN110570908B (zh) 测序序列多态识别方法及装置、存储介质、电子设备
US20180239866A1 (en) Prediction of genetic trait expression using data analytics
Milosavljevic et al. ARPEGGIO: automated reproducible polyploid EpiGenetic GuIdance workflOw

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210316

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210316

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220118

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220401

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220419

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220422

R150 Certificate of patent or registration of utility model

Ref document number: 7064654

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150