JP2022502766A - 遺伝子変異認識方法、装置および記憶媒体 - Google Patents

遺伝子変異認識方法、装置および記憶媒体 Download PDF

Info

Publication number
JP2022502766A
JP2022502766A JP2021517044A JP2021517044A JP2022502766A JP 2022502766 A JP2022502766 A JP 2022502766A JP 2021517044 A JP2021517044 A JP 2021517044A JP 2021517044 A JP2021517044 A JP 2021517044A JP 2022502766 A JP2022502766 A JP 2022502766A
Authority
JP
Japan
Prior art keywords
locus
base sequence
mutant
candidate
gene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021517044A
Other languages
English (en)
Other versions
JP7064655B2 (ja
Inventor
ツィキアン フ,
Original Assignee
ベイジン センスタイム テクノロジー デベロップメント カンパニー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ベイジン センスタイム テクノロジー デベロップメント カンパニー リミテッド filed Critical ベイジン センスタイム テクノロジー デベロップメント カンパニー リミテッド
Publication of JP2022502766A publication Critical patent/JP2022502766A/ja
Application granted granted Critical
Publication of JP7064655B2 publication Critical patent/JP7064655B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Primary Health Care (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本開示は、変異遺伝子座候補に対応する少なくとも1つの遺伝子シーケンシング断片を取得すること(11)と、前記変異遺伝子座候補の塩基配列特徴を取得すること(12)と、前記少なくとも1つの遺伝子シーケンシング断片の、所定の遺伝子座区間における非塩基配列情報に基づいて、、前記変異遺伝子座候補の、塩基配列の順序にもかかわらず不変である非塩基配列特徴を特定すること(13)と、前記変異遺伝子座候補の塩基配列特徴および非塩基配列特徴に基づいて、前記変異遺伝子座候補の遺伝子変異を認識すること(14)と、を含む遺伝子変異認識方法、装置および記憶媒体に関する。上記方法によれば、非塩基配列特徴が塩基配列の順序により制約されない特性を考慮して、生殖細胞系遺伝子の変異、およびノイズやエラーなどの干渉による偽遺伝子変異をより良好に除去し、遺伝子変異をより良好に認識し、遺伝子変異認識の正確性を高めることができる。【選択図】図1

Description

関連出願の相互参照
本開示は、2019年3月29日に中国特許局に提出された、出願番号201910252747.9、出願の名称「遺伝子変異認識方法、装置および記憶媒体」の中国特許出願の優先権を主張し、その開示の全てが参照によって本開示に組み込まれる。
本開示はコンピュータ技術の分野に関し、特に遺伝子変異認識方法、装置および記憶媒体に関する 。
バイオ技術の発展に伴い、ヒト遺伝子の配列は遺伝子シーケンシング技術によって測定できるようになり、塩基配列の解析は、遺伝子のさらなる研究および組み換えの基盤となり得る。現在、第2世代の遺伝子シーケンシング技術は、第1世代の遺伝子シーケンシング技術に比べて、遺伝子シーケンシングの効率が大幅に改善され、遺伝子シーケンシングのコストが低減されるとともに、遺伝子シーケンシングの正確性が保たれている。第1代のシーケンシング技術では、1つのヒトゲノムのシーケンシングを完了するまで3年ほどかかるが、第2世代のシーケンシング技術なら、僅か1週間で済む。
以上に鑑み、本開示は、遺伝子変異認識の技術的解決手段を提供する。
本開示の一態様によれば、
変異遺伝子座候補に対応する少なくとも1つの遺伝子シーケンシング断片を取得することと、前記変異遺伝子座候補の塩基配列特徴を取得することと、前記少なくとも1つの遺伝子シーケンシング断片の、所定の遺伝子座区間における非塩基配列情報に基づいて、前記変異遺伝子座候補の、塩基配列の順序にもかかわらず不変である非塩基配列特徴を特定することと、前記変異遺伝子座候補の塩基配列特徴および非塩基配列特徴に基づいて、前記変異遺伝子座候補の遺伝子変異を認識することと、を含む遺伝子変異認識方法が提供される。
1つの可能な実施形態では、前記変異遺伝子座候補の塩基配列特徴を取得することは、
前記変異遺伝子座候補が位置する所定の遺伝子座区間を特定することと、参照ゲノムの前記所定の遺伝子座区間における塩基配列情報に基づいて、前記変異遺伝子座候補の、塩基配列の順序を表す塩基配列特徴を取得することと、を含む。
1つの可能な実施形態では、前記少なくとも1つの遺伝子シーケンシング断片の、前記所定の遺伝子座区間における非塩基配列情報に基づいて、前記変異遺伝子座候補の非塩基配列特徴を特定することは、
前記少なくとも1つの遺伝子シーケンシング断片の、前記所定の遺伝子座区間内に位置する各遺伝子座の非塩基配列情報を取得することと、前記所定の遺伝子座区間内に位置する各遺伝子座の非塩基配列情報に基づいて、前記変異遺伝子座候補の非塩基配列特徴を特定することと、を含む。
1つの可能な実施形態では、前記所定の遺伝子座区間内に位置する各遺伝子座の非塩基配列情報に基づいて、前記変異遺伝子座候補の非塩基配列特徴を特定することは、
前記遺伝子シーケンシング断片のうち、前記変異遺伝子座候補において参照ゲノムと塩基の種類が一致する第1の遺伝子シーケンシング断片を特定することと、前記所定の遺伝子座区間内の各遺伝子座に対応する第1の遺伝子シーケンシング断片の数に基づいて、前記変異遺伝子座候補の非塩基配列特徴を特定することと、を含む。
1つの可能な実施形態では、前記所定の遺伝子座区間内に位置する各遺伝子座の非塩基配列情報に基づいて、前記変異遺伝子座候補の非塩基配列特徴を特定することは、
前記遺伝子シーケンシング断片のうち、前記変異遺伝子座候補において参照ゲノムと塩基の種類が一致する第1の遺伝子シーケンシング断片を特定することと、前記所定の遺伝子座区間内の各遺伝子座において、前記第1の遺伝子シーケンシング断片の塩基の種類が参照ゲノムの塩基の種類と一致しない第1の遺伝子シーケンシング断片の数を、第1の遺伝子シーケンシング断片の変異数として特定することと、前記第1の遺伝子シーケンシング断片の変異数に基づいて、前記変異遺伝子座候補の非塩基配列特徴を特定することと、を含む。
1つの可能な実施形態では、前記所定の遺伝子座区間内に位置する各遺伝子座の非塩基配列情報に基づいて、前記変異遺伝子座候補の非塩基配列特徴を特定することは、
前記遺伝子シーケンシング断片のうち、前記変異遺伝子座候補において変異遺伝子座候補の変異塩基の種類と一致する第2の遺伝子シーケンシング断片を特定することと、前記所定の遺伝子座区間内の各遺伝子座に対応する第2の遺伝子シーケンシング断片の数に基づいて、前記変異遺伝子座候補の非塩基配列特徴を特定することと、を含む。
1つの可能な実施形態では、前記所定の遺伝子座区間内に位置する各遺伝子座の非塩基配列情報に基づいて、前記変異遺伝子座候補の非塩基配列特徴を特定することは、
前記遺伝子シーケンシング断片のうち、前記変異遺伝子座候補において変異遺伝子座候補の変異塩基の種類と一致する第2の遺伝子シーケンシング断片を特定することと、前記所定の遺伝子座区間内の各遺伝子座において、前記第2の遺伝子シーケンシング断片の塩基の種類が参照ゲノムの塩基の種類と一致しない第2の遺伝子シーケンシング断片の数を、第2の遺伝子シーケンシング断片の変異数として特定することと、前記第2の遺伝子シーケンシング断片の変異数に基づいて、前記変異遺伝子座候補の非塩基配列特徴を特定することと、を含む。
1つの可能な実施形態では、前記所定の遺伝子座区間内に位置する各遺伝子座の非塩基配列情報に基づいて、前記変異遺伝子座候補の非塩基配列特徴を特定することは、
前記遺伝子シーケンシング断片のうち、変異遺伝子座候補において参照ゲノムと塩基の種類が一致せず、且つ変異遺伝子座候補において塩基の種類が変異遺伝子座候補の変異塩基の種類と一致しない第3の遺伝子シーケンシング断片を特定することと、前記所定の遺伝子座区間内の各遺伝子座に対応する第3の遺伝子シーケンシング断片の数に基づいて、前記変異遺伝子座候補の非塩基配列特徴を特定することと、を含む。
1つの可能な実施形態では、前記所定の遺伝子座区間内に位置する各遺伝子座の非塩基配列情報に基づいて、前記変異遺伝子座候補の非塩基配列特徴を特定することは、
前記遺伝子シーケンシング断片のうち、変異遺伝子座候補において参照ゲノムと塩基の種類が一致せず、且つ変異遺伝子座候補において塩基の種類が変異遺伝子座候補の変異塩基の種類と一致しない第3の遺伝子シーケンシング断片を特定することと、前記所定の遺伝子座区間内の各遺伝子座において、前記第3の遺伝子シーケンシング断片の塩基の種類が参照ゲノムの塩基の種類と一致しない第3の遺伝子シーケンシング断片の数を、前記第3の遺伝子シーケンシング断片の変異数として特定することと、前記第3の遺伝子シーケンシング断片の変異数に基づいて、前記変異遺伝子座候補の非塩基配列特徴を特定することと、を含む。
1つの可能な実施形態では、前記所定の遺伝子座区間内に位置する各遺伝子座の非塩基配列情報に基づいて、前記変異遺伝子座候補の非塩基配列特徴を特定することは、
前記少なくとも1つの遺伝子シーケンシング断片のうち、正常細胞に由来する遺伝子シーケンシング断片を特定することと、前記正常細胞の遺伝子シーケンシング断片の、前記所定の遺伝子座区間内に位置する各遺伝子座の非塩基配列情報に基づいて、前記変異遺伝子座候補の非塩基配列特徴を特定することと、を含む。
1つの可能な実施形態では、前記所定の遺伝子座区間内に位置する各遺伝子座の非塩基配列情報に基づいて、前記変異遺伝子座候補の非塩基配列特徴を特定することは、
前記少なくとも1つの遺伝子シーケンシング断片のうち、病変細胞に由来する遺伝子シーケンシング断片を特定することと、前記病変細胞の遺伝子シーケンシング断片の、前記所定の遺伝子座区間内に位置する各遺伝子座の非塩基配列情報に基づいて、前記変異遺伝子座候補の非塩基配列特徴を特定することと、を含む。
1つの可能な実施形態では、前記変異遺伝子座候補の塩基配列特徴および非塩基配列特徴に基づいて、前記変異遺伝子座候補の遺伝子変異を認識することは、
前記変異遺伝子座候補の塩基配列特徴および非塩基配列特徴に基づいて、前記変異遺伝子座候補の、第1の次元特徴が前記変異遺伝子座候補の塩基配列特徴および非塩基配列特徴に対応し、且つ第2の次元特徴が前記所定の遺伝子座区間内の遺伝子座に対応する特徴行列を取得することと、前記変異遺伝子座候補の特徴行列に基づいて、前記変異遺伝子座候補の遺伝子変異を認識することと、を含む。
1つの可能な実施形態では、前記変異遺伝子座候補の特徴行列に基づいて、前記変異遺伝子座候補の遺伝子変異を認識することは、
前記変異遺伝子座候補の特徴行列に基づいて、前記変異遺伝子座候補の遺伝子の変異性を示す変異値を取得することと、前記変異値が所定の閾値以上である場合、前記変異遺伝子座候補の遺伝子に変異があると判定することと、を含む。
1つの可能な実施形態では、前記変異遺伝子座候補の塩基配列特徴および非塩基配列特徴に基づいて、前記変異遺伝子座候補の特徴行列を取得することは、
前記変異遺伝子座候補の塩基配列特徴および非塩基配列特徴に基づいて、前記所定の遺伝子座区間の各第1の次元特徴の特徴ベクトルを生成することと、前記特徴ベクトルのうち、塩基配列特徴により形成される塩基配列特徴ベクトルを特定することと、前記塩基配列特徴ベクトルをランダムに順序付け、前記変異遺伝子座候補の特徴行列を得ることと、を含む。
1つの可能な実施形態では、変異遺伝子座候補に対応する少なくとも1つの遺伝子シーケンシング断片を取得することは、
体細胞遺伝子による遺伝子シーケンシングで得られた遺伝子シーケンシング断片を取得することと、前記遺伝子シーケンシング断片の塩基配列を参照ゲノムの塩基配列と比較し、比較結果を得ることと、前記比較結果に基づいて、前記体細胞遺伝子に異常がある変異遺伝子座候補を特定することと、前記変異遺伝子座候補に対応する少なくとも1つの遺伝子シーケンシング断片を取得することと、を含む。
本開示の別の態様によれば、
変異遺伝子座候補に対応する少なくとも1つの遺伝子シーケンシング断片を取得する第1の取得モジュールと、前記変異遺伝子座候補の塩基配列特徴を取得する第2の取得モジュールと、前記少なくとも1つの遺伝子シーケンシング断片の、所定の遺伝子座区間における非塩基配列情報に基づいて、前記変異遺伝子座候補の、塩基配列の順序にもかかわらず不変である非塩基配列特徴を特定する特定モジュールと、前記変異遺伝子座候補の塩基配列特徴および非塩基配列特徴に基づいて、前記変異遺伝子座候補の遺伝子変異を認識する認識モジュールと、を含む遺伝子変異認識装置が提供される。
1つの可能な実施形態では、前記第2の取得モジュールは、
前記変異遺伝子座候補が位置する所定の遺伝子座区間を特定する第1のサブ特定モジュールと、
参照ゲノムの前記所定の遺伝子座区間における塩基配列情報に基づいて、前記変異遺伝子座候補の、塩基配列の順序を表す塩基配列特徴を取得する第2のサブ特定モジュールと、を含む。
1つの可能な実施形態では、前記特定モジュールは、
前記少なくとも1つの遺伝子シーケンシング断片の、前記所定の遺伝子座区間内に位置する各遺伝子座の非塩基配列情報を取得する第1のサブ取得モジュールと、前記所定の遺伝子座区間内に位置する各遺伝子座の非塩基配列情報に基づいて、前記変異遺伝子座候補の非塩基配列特徴を特定する第3のサブ特定モジュールと、を含む。
1つの可能な実施形態では、前記第3のサブ特定モジュールは、具体的に、
前記遺伝子シーケンシング断片のうち、前記変異遺伝子座候補において参照ゲノムと塩基の種類が一致する第1の遺伝子シーケンシング断片を特定することと、前記所定の遺伝子座区間内の各遺伝子座に対応する第1の遺伝子シーケンシング断片の数に基づいて、前記変異遺伝子座候補の非塩基配列特徴を特定することと、に用いられる。
1つの可能な実施形態では、前記第3のサブ特定モジュールは、具体的に、
前記遺伝子シーケンシング断片のうち、前記変異遺伝子座候補において参照ゲノムと塩基の種類が一致する第1の遺伝子シーケンシング断片を特定することと、前記所定の遺伝子座区間内の各遺伝子座において、前記第1の遺伝子シーケンシング断片の塩基の種類が参照ゲノムの塩基の種類と一致しない第1の遺伝子シーケンシング断片の数を、第1の遺伝子シーケンシング断片の変異数として特定することと、前記第1の遺伝子シーケンシング断片の変異数に基づいて、前記変異遺伝子座候補の非塩基配列特徴を特定することと、に用いられる。
1つの可能な実施形態では、前記第3のサブ特定モジュールは、具体的に、
前記遺伝子シーケンシング断片のうち、前記変異遺伝子座候補において変異遺伝子座候補の変異塩基の種類と一致する第2の遺伝子シーケンシング断片を特定することと、前記所定の遺伝子座区間内の各遺伝子座に対応する第2の遺伝子シーケンシング断片の数に基づいて、前記変異遺伝子座候補の非塩基配列特徴を特定することと、に用いられる。
1つの可能な実施形態では、前記第3のサブ特定モジュールは、具体的に、
前記遺伝子シーケンシング断片のうち、前記変異遺伝子座候補において変異遺伝子座候補の変異塩基の種類と一致する第2の遺伝子シーケンシング断片を特定することと、前記所定の遺伝子座区間内の各遺伝子座において、前記第2の遺伝子シーケンシング断片の塩基の種類が参照ゲノムの塩基の種類と一致しない第2の遺伝子シーケンシング断片の数を、第2の遺伝子シーケンシング断片の変異数として特定することと、前記第2の遺伝子シーケンシング断片の変異数に基づいて、前記変異遺伝子座候補の非塩基配列特徴を特定することと、に用いられる。
1つの可能な実施形態では、前記第3のサブ特定モジュールは、具体的に、
前記遺伝子シーケンシング断片のうち、変異遺伝子座候補において参照ゲノムと塩基の種類が一致せず、且つ変異遺伝子座候補において塩基の種類が変異遺伝子座候補の変異塩基の種類と一致しない第3の遺伝子シーケンシング断片を特定することと、前記所定の遺伝子座区間内の各遺伝子座に対応する第3の遺伝子シーケンシング断片の数に基づいて、前記変異遺伝子座候補の非塩基配列特徴を特定することと、に用いられる。
1つの可能な実施形態では、前記第3のサブ特定モジュールは、具体的に、
前記遺伝子シーケンシング断片のうち、変異遺伝子座候補において参照ゲノムと塩基の種類が一致せず、且つ変異遺伝子座候補において塩基の種類が変異遺伝子座候補の変異塩基の種類と一致しない第3の遺伝子シーケンシング断片を特定することと、前記所定の遺伝子座区間内の各遺伝子座において、前記第3の遺伝子シーケンシング断片の塩基の種類が参照ゲノムの塩基の種類と一致しない第3の遺伝子シーケンシング断片の数を、前記第3の遺伝子シーケンシング断片の変異数として特定することと、前記第3の遺伝子シーケンシング断片の変異数に基づいて、前記変異遺伝子座候補の非塩基配列特徴を特定することと、に用いられる。
1つの可能な実施形態では、前記第3のサブ特定モジュールは、具体的に、
前記少なくとも1つの遺伝子シーケンシング断片のうち、正常細胞に由来する遺伝子シーケンシング断片を特定することと、前記正常細胞の遺伝子シーケンシング断片の、前記所定の遺伝子座区間内に位置する各遺伝子座の非塩基配列情報に基づいて、前記変異遺伝子座候補の非塩基配列特徴を特定することと、に用いられる。
1つの可能な実施形態では、前記第3のサブ特定モジュールは、具体的に、
前記少なくとも1つの遺伝子シーケンシング断片のうち、病変細胞に由来する遺伝子シーケンシング断片を特定することと、前記病変細胞の遺伝子シーケンシング断片の、前記所定の遺伝子座区間内に位置する各遺伝子座の非塩基配列情報に基づいて、前記変異遺伝子座候補の非塩基配列特徴を特定することと、に用いられる。
1つの可能な実施形態では、前記認識モジュールは、
前記変異遺伝子座候補の塩基配列特徴および非塩基配列特徴に基づいて、前記変異遺伝子座候補の、第1の次元特徴が前記変異遺伝子座候補の塩基配列特徴および非塩基配列特徴に対応し、且つ第2の次元特徴が前記所定の遺伝子座区間内の遺伝子座に対応する特徴行列を取得するサブ生成モジュールと、前記変異遺伝子座候補の特徴行列に基づいて、前記変異遺伝子座候補の遺伝子変異を認識するサブ認識モジュールと、を含む。
1つの可能な実施形態では、前記サブ認識モジュールは、具体的に、
前記変異遺伝子座候補の特徴行列に基づいて、前記変異遺伝子座候補の遺伝子の変異性を示す変異値を取得することと、前記変異値が所定の閾値以上である場合、前記変異遺伝子座候補の遺伝子に変異があると判定することと、に用いられる。
1つの可能な実施形態では、前記サブ生成モジュールは、具体的に、
前記変異遺伝子座候補の塩基配列特徴および非塩基配列特徴に基づいて、前記所定の遺伝子座区間の各第1の次元特徴の特徴ベクトルを生成することと、前記特徴ベクトルのうち、塩基配列特徴により形成される塩基配列特徴ベクトルを特定することと、前記塩基配列特徴ベクトルをランダムに順序付け、前記変異遺伝子座候補の特徴行列を得ることと、に用いられる。
1つの可能な実施形態では、前記第1の取得モジュールは、
体細胞遺伝子による遺伝子シーケンシングで得られた遺伝子シーケンシング断片を取得する第2のサブ取得モジュールと、前記遺伝子シーケンシング断片の塩基配列を参照ゲノムの塩基配列と比較し、比較結果を得るサブ比較モジュールと、前記比較結果に基づいて、前記体細胞遺伝子に異常がある変異遺伝子座候補を特定する第4のサブ特定モジュールと、前記変異遺伝子座候補に対応する少なくとも1つの遺伝子シーケンシング断片を取得する第3のサブ取得モジュールと、を含む。
本開示の別の態様によれば、プロセッサと、プロセッサが実行可能な命令を記憶するメモリと、を含み、プロセッサは上記方法を実行するように構成される遺伝子変異認識装置が提供される。
本開示の別の態様によれば、コンピュータプログラム命令が記憶されている不揮発性のコンピュータ読み取り可能な記憶媒体であって、コンピュータプログラム命令はプロセッサにより実行されると、上記方法を実現させる不揮発性のコンピュータ読み取り可能な記憶媒体が提供される。
本開示の実施例に提供される遺伝子変異認識解決手段は、変異遺伝子座候補に対応する少なくとも1つの遺伝子シーケンシング断片を取得し、変異遺伝子座候補の塩基配列特徴を取得し、少なくとも1つの遺伝子シーケンシング断片の、所定の遺伝子座区間における塩基配列情報に基づいて、変異遺伝子座候補の非塩基配列特徴を特定することができ、これにより、変異遺伝子座候補の塩基配列特徴および非塩基配列特徴に基づいて、変異遺伝子座候補の遺伝子変異を認識することができる。ここで、非塩基配列特徴は、塩基配列の順序が変わっても、不変である。すなわち、非塩基配列特徴は、塩基配列にもかかわらず不変であるという塩基配列不変性の性質を有すると考えてよい。よって、変異遺伝子座候補の遺伝子変異を認識する時、変異遺伝子座候補の遺伝子変異が塩基配列の順序により制約されない特性を考慮して、生殖細胞系遺伝子の変異、およびノイズやエラーなどの干渉による偽遺伝子変異をより良好に除去することができ、遺伝子変異をより良好に認識して、遺伝子変異認識の正確性を高めることができる。
以上の概略的な説明と以下の詳細な説明は、例示、解釈するためのものに過ぎず、本開示を制限するものでないこと理解すべきである。
本開示の他の特徴および態様は、以下、図面を参照しながら例示的な実施例について詳細に説明することにより、明らかになる。
明細書に含まれ且つ明細書の一部を構成する図面は明細書と共に本開示の例示的な実施例、特徴および態様を示し、さらに本開示の原理を解釈するものである。
本開示の一実施例に係る遺伝子変異認識方法のフローチヤ一トを示す。 本開示の一実施例に係る変異遺伝子座候補に対応する少なくとも1つの遺伝子シーケンシング断片を取得するフローチヤ一トを示す。 本開示の一実施例に係る変異遺伝子座候補の塩基配列特徴を取得するフローチヤ一トを示す。 本開示の一実施例に係る変異遺伝子座候補の非塩基配列特徴を特定するフローチヤ一トを示す。 本開示の一実施例に係る変異遺伝子座候補の遺伝子変異を認識するフローチヤ一トを示す。 本開示の一実施例に係る変異遺伝子座候補の特徴行列を取得するフローチヤ一トを示す。 本開示の一実施例に係る遺伝子変異認識装置のブロック図を示す。 本開示の一例示的実施例により示される遺伝子変異認識のための装置のブロック図である。
以下、図面を参照しながら本開示の様々な例示的実施例、特徴および態様を詳細に説明する。図面における同じ符号は同じまたは類似する機能の要素を表す。図面において実施例の様々な態様を示したが、特に断らない限り、比例で図面を作る必要がない。
ここで用語「例示的」とは、「例や実施例として用いられることまたは説明を目的としたもの」を意味する。ここで「例示的」に説明するいかなる実施例も他の実施例より優れたものと理解すべきではない。
本明細書の用語の「および/または」は、関連対象の関連関係を記述するものに過ぎず、3種の関係が存在可能であることを示し、例えば、Aおよび/またはBは、単にAが存在し、AとBが同時に存在し、単にBが存在するという3種の場合を示すことができる。また、本明細書の用語の「少なくとも1つ」は複数のうちのいずれか1つ、または複数のうちの少なくとも2つの任意の組合を示し、例えば、A、B、Cのうちの少なくとも1つを含むということは、A、BおよびCから構成される集合から選択されるいずれか1つまたは複数の要素を含むことを示すことができる。
また、本開示をより効果的に説明するために、以下の具体的な実施形態において様々な具体的詳細を示す。当業者であれば、何らかの具体的詳細がなくなるにも関わらず、本開示は同様に実施できるということを理解すべきである。いくつかの実施例では、本開示の趣旨を強調するよう、当業者に既知の方法、手段、要素および回路に対する詳細な説明を省略する。
本開示の実施例で提供される遺伝子変異認識の解決手段は、変異遺伝子座候補に対応する少なくとも1つの遺伝子シーケンシング断片を取得することができ、これにより、少なくとも1つの遺伝子シーケンシング断片によって変異遺伝子座候補の遺伝子変異を認識することができる。遺伝子変異認識において、変異遺伝子座候補の塩基配列特徴を特定し、少なくとも1つの遺伝子シーケンシング断片の、所定の遺伝子座区間における非塩基配列情報に基づいて、変異遺伝子座候補の非塩基配列特徴を特定することができ、その後、塩基配列特徴および非塩基配列特徴によって変異遺伝子座候補の遺伝子変異を認識することができる。ここで非塩基配列特徴は、塩基配列の順序が変わっても、不変である。すなわち、変異遺伝子座候補の遺伝子変異が真の変異であるか否かは塩基配列の順序により制約されないと考えてよい。これにより、変異遺伝子座候補の遺伝子変異を認識する時、遺伝子データの塩基配列不変性を考慮して、遺伝子変異認識の正確性を高める。
関連技術では、サポートベクターマシーンや、ランダムフォレストなど従来の機械学習方法を用いて遺伝子変異認識を行うことが一般である。このような方法は、簡単に実現できるが、遺伝子のデータ量が一定の程度まで増加すると、遺伝子変異認識の効果がボトルネックに入る。また、ディープラーニングの方法を用いて、ニューラルネットワークによって遺伝子変異を認識する関連技術もある。しかし、通常、ニューラルネットワークにより抽出される特徴は、塩基配列の順序と関連し、塩基配列の順序が少しだけ変わると、得られた認識結果が異なる可能性があり、ニューラルネットワークオーバーフィッティングの問題を招くおそれがある。本開示の実施例で提供される遺伝子変異認識の解決手段は、遺伝子データの塩基配列不変性を考慮したもので、遺伝子変異認識モデルによって変異遺伝子座候補の非塩基配列特徴を抽出し、これにより、得られた認識結果は塩基配列の順序により影響されず、遺伝子変異認識モデルのロバスト性は高まり、オーバーフィッティングの問題は緩和され、遺伝子変異認識モデルトレーニングの難しさは低減される。以下、実施例により遺伝子変異認識を詳細に説明する。
図1は本開示の一実施例に係る遺伝子変異認識方法のフローチヤ一トを示す。該遺伝子変異の認識方法は、遺伝子変異認識装置または他の処理機器により実行される。ここで、遺伝子変異認識装置は、ユーザ機器(User Equipment、UE)、モバイル機器、ユーザ端末、端末、セルラフォン、コードレス電話機、PDA(Personal Digital Assistant)、ハンドヘルド機器、コンピュータ機器、車載機器、ウェアラブル機器などでもよい。あるいは、遺伝子変異認識装置は、サーバでもよい。いくつかの可能な実施形態では、該遺伝子変異の認識方法は、プロセッサによってメモリに記憶されているコンピュータ読み取り可能な命令を呼び出すことにより実現される。図1に示すように、該遺伝子変異認識方法は以下を含む。
ステップ11、変異遺伝子座候補に対応する少なくとも1つの遺伝子シーケンシング断片を取得する。
本開示の実施例では、遺伝子変異認識装置は、遺伝子シーケンシングにより得られた遺伝子シーケンシング断片を取得し、その後、遺伝子シーケンシングにより得られた遺伝子シーケンシング断片のうち、変異遺伝子座候補に対応する少なくとも1つの遺伝子シーケンシング断片を取得することができる。ここで、遺伝子シーケンシング断片は、遺伝子シーケンシングを経て塩基の種類でラベリングされた塩基配列であると解釈することができ、各遺伝子シーケンシング断片の長さは同一であってもよいし、異なってもよい。長さが異なる場合、各遺伝子シーケンシング断片の長さを所定の長さ範囲内に設定してもよい。これにより、各遺伝子シーケンシング断片の長さが比較的近似していることを確保できる。塩基の種類は、シトシン(C)、グアニン(G)、アデニン(A)、チミジン(T)を含んでもよく、これにより、遺伝子シーケンシング断片は、AGCTを含む塩基配列であってもよい。ここで、変異遺伝子座候補は、塩基配列に異常がある遺伝子座であってもよい。塩基配列の遺伝子座は、塩基配列の位置を表すことができ、各遺伝子座ごとに、少なくとも1つの遺伝子シーケンシング断片が存在し、すなわち、同じ遺伝子座には、遺伝子シーケンシングにより得られた少なくとも1つの遺伝子シーケンシング断片が存在してもよい。これに応じて、変異遺伝子座候補は少なくとも1つの遺伝子シーケンシング断片に対応し、ここで、この少なくとも1つの遺伝子シーケンシング断片は全てこの遺伝子座をカバーしている。変異遺伝子座候補は少なくとも1つであってよく、各変異遺伝子座候補は、少なくとも1つの遺伝子シーケンシング断片に対応することが可能である。理解の便宜上、本開示の実施例は、1つの変異遺伝子座候補として説明する。
ステップ12、前記変異遺伝子座候補の塩基配列特徴を取得する。
本開示の実施例では、遺伝子変異認識モデルを用いて、変異遺伝子座候補の遺伝子配列情報に基づいて、変異遺伝子座候補の塩基配列特徴を抽出することができる。ここで、塩基配列情報は、塩基配列の順序に関する情報であってもよい。例えば、ある遺伝子シーケンシング断片のある遺伝子座区間における塩基配列が順にA、C、G、Tである場合、塩基配列情報はACGTとなる。塩基配列情報は、所定の遺伝子座区間内の参照ゲノムの塩基の種類、塩基の種類ごとの遺伝子数、塩基の種類ごとの欠失遺伝子数、塩基の種類ごとの挿入遺伝子数などの情報を含んでもよい。塩基配列情報から得られた塩基配列特徴は、塩基配列の順序に関連する。
ステップ13、前記少なくとも1つの遺伝子シーケンシング断片の、所定の遺伝子座区間における非塩基配列情報に基づいて、前記変異遺伝子座候補の、塩基配列の順序にもかかわらず不変である非塩基配列特徴を特定する。
本開示の実施例では、変異遺伝子座候補に対応する少なくとも1つの遺伝子シーケンシング断片を取得した後、所定の遺伝子座区間において、該変異遺伝子座候補に対応する少なくとも1つの遺伝子シーケンシング断片の塩基配列情報を抽出し、抽出された塩基配列情報に基づいて該変異遺伝子座候補の非塩基配列特徴を生成することができる。非塩基配列情報は、塩基配列の順序により制限されない情報であってもよい。これにより、少なくとも1つの遺伝子シーケンシング断片の、所定の遺伝子座区間における非塩基配列情報に基づいて、変異遺伝子座候補の非塩基配列特徴を特定することができる。ここで、非塩基配列情報は、遺伝子座に対応する遺伝子シーケンシング断片の数、該遺伝子座で変異が生じる遺伝子シーケンシング断片の数など、塩基配列不変性を有する情報であってもよい。
ここで、非塩基配列情報を抽出する時、該変異遺伝子座候補に対応する複数の遺伝子シーケンシング断片をランダムに選択し、ランダムに選択された複数の遺伝子シーケンシング断片の非塩基配列情報を抽出するようにしてもよく、該変異遺伝子座候補に対応する各遺伝子シーケンシング断片の非塩基配列情報を抽出してもよい。少なくとも1つの遺伝子シーケンシング断片の、所定の遺伝子座区間における非塩基配列情報を抽出する時、少なくとも1つの遺伝子シーケンシング断片の該所定の遺伝子座区間内の各遺伝子座における非塩基配列情報を抽出してもよく、該所定の遺伝子座区間内の複数の隣接遺伝子座をランダムに選択し、少なくとも1つの遺伝子シーケンシング断片の複数の隣接遺伝子座における非塩基配列情報を抽出するようにしてもよい。前記変異遺伝子座候補の非塩基配列特徴を特定する時、ニューラルネットワークのトレーニングにより得られた遺伝子変異認識モデルを用いることができる。
ステップ14、前記変異遺伝子座候補の塩基配列特徴および非塩基配列特徴に基づいて、前記変異遺伝子座候補の遺伝子変異を認識する。
本開示の実施形態では、塩基配列特徴および非塩基配列特徴を特定した後、塩基配列特徴および非塩基配列特徴に基づいて、変異遺伝子座候補の特徴行列を取得し、該特徴行列によって該変異遺伝子座候補の遺伝子変異を認識することができる。例えば、上記遺伝子変異認識モデルによって、該変異遺伝子座候補の遺伝子変異は、病変に起因する真の変異であるか、ノイズなどに起因する塩基配列異常という偽の変異であるかを判断することができる。ここで、得られた変異遺伝子座候補の特徴行列は2次元の特徴行列であり、特徴行列のサイズは、特徴ベクトルの数×所定の遺伝子座区間のサイズであってもよい。ここで、特徴ベクトルは、塩基配列特徴および非塩基配列特徴に基づいて生成される。変異遺伝子座候補での遺伝子変異が病変に起因する真の遺伝子変異であるか否かは、塩基配列の順序により影響されず、変異遺伝子座候補が位置する遺伝子環境の影響、例えば、変異遺伝子座候補近傍の他の遺伝子座に変異遺伝子があるなどの遺伝子環境の影響を受けることが多く、得られた特徴行列のうち塩基配列特徴に対応する特徴ベクトルの配列順序は制限がなく、特徴行列における塩基配列特徴の特徴ベクトルの配列順序はランダムに変動でき、遺伝子変異認識の効率および正確性が高まる。
本開示の実施例では、変異遺伝子座候補の塩基配列特徴および非塩基配列特徴に基づいて変異遺伝子座候補の遺伝子変異を認識することができ、遺伝子変異の塩基配列不変性を考慮して、遺伝子変異をより良好に認識することができる。変異遺伝子座候補の遺伝子変異を認識する時、変異遺伝子座候補に対応する少なくとも1つの遺伝子シーケンシング断片を取得することができる。本開示の実施例は、変異遺伝子座候補に対応する少なくとも1つの遺伝子シーケンシング断片を取得するフローをさらに提供する。
図2は、本開示の一実施例に係る変異遺伝子座候補に対応する少なくとも1つの遺伝子シーケンシング断片を取得するフローチヤ一トを示す。1つの可能な実施形態では、変異遺伝子座候補に対応する少なくとも1つの遺伝子シーケンシング断片を取得するステップは、以下のステップを含んでよもい。
ステップ111、体細胞遺伝子による遺伝子シーケンシングで得られた遺伝子シーケンシング断片を取得する。
ここで、体細胞遺伝子による遺伝子シーケンシングは、少なくとも1つの遺伝子シーケンシング断片を得ることができ、遺伝子シーケンシング断片は、体細胞遺伝子に塩基の種類をラベリングする配列であってもよい。体細胞遺伝子に対して遺伝子シーケンシングを行った後、遺伝子シーケンシング断片における各遺伝子の塩基の種類を得ることができるだけでなく、さらに遺伝子シーケンシング断片における各遺伝子が位置する遺伝子座の遺伝子位置情報を得ることもできる。同じ遺伝子座は少なくとも1つの遺伝子シーケンシング断片に対応してもよい。
1つの可能な実施形態では、体細胞遺伝子に対して遺伝子シーケンシングを行うことで少なくとも1つの遺伝子シーケンシング断片を取得することができ、遺伝子シーケンシングで得られた遺伝子シーケンシング断片を予備処理することができる。ここで、予備処理方法は、交差汚染に対する除外、シーケンシング品質に対する除外、比較品質に対する除外、リード長さ異常に対する除外などを含んでもよい。予備処理によって、交差汚染がある遺伝子シーケンシング断片、およびシーケンシング品質や比較品質が低く、リード長さに異常がある遺伝子シーケンシング断片を除外することができる。
ステップ112、前記遺伝子シーケンシング断片の塩基配列を参照ゲノムの塩基配列と比較し、比較結果を得る。
本開示の実施例では、体細胞遺伝子による遺伝子シーケンシングで得られた遺伝子シーケンシング断片を取得した後、取得された遺伝子シーケンシング断片の塩基配列を同じ遺伝子座の参照ゲノムの塩基配列と比較し、比較結果を得ることができる。例えば、遺伝子シーケンシングを行って得られた各遺伝子シーケンシング断片を同じ遺伝子座の参照ゲノムの塩基配列と比較し、遺伝子シーケンシング断片の塩基配列が参照ゲノムの塩基配列と異なる遺伝子座を特定することができる。同じ遺伝子座にある少なくとも1つの遺伝子シーケンシング断片を同じ遺伝子座の参照ゲノムの塩基配列と比較し、少なくとも1つの遺伝子シーケンシング断片の塩基配列が参照ゲノムの塩基配列と異なる遺伝子座を特定することもできる。ここで、参照ゲノムは、正確な塩基配列がラベリングされた塩基配列であってもよい。
ステップ113、前記比較結果に基づいて、前記体細胞遺伝子に異常がある変異遺伝子座候補を特定する。
本開示の実施例では、比較結果に基づいて遺伝子シーケンシング断片の塩基配列が参照ゲノムの塩基配列と異なる遺伝子座を特定することができ、該遺伝子座に対応する少なくとも1つの遺伝子シーケンシング断片に対して、該遺伝子座で変異が生じる遺伝子シーケンシング断片が占める割合は所定の割合より大きい場合、該遺伝子座は変異遺伝子座候補であると判断することができる。そうでない場合、該遺伝子座は変異遺伝子座候補ではないと考えてよい。遺伝子シーケンシング断片の該遺伝子座における塩基配列と参照ゲノムの塩基配列との違いは、シーケンシングエラーに起因する可能性があるため、このようにすれば、遺伝子シーケンシングミスに起因する塩基配列異常の現象を低減することができる。
ステップ114、前記変異遺伝子座候補に対応する少なくとも1つの遺伝子シーケンシング断片を取得する。
本開示の実施例では、変異遺伝子座候補を特定した後、変異遺伝子座候補に対応する少なくとも1つの遺伝子シーケンシング断片を取得することができる。ここで、各変異遺伝子座候補に対応する少なくとも1つの遺伝子シーケンシング断片は、該変異遺伝子座候補における塩基配列が同じ遺伝子座の参照ゲノムの塩基配列と異なってもよい。ここで、変異遺伝子座候補は少なくとも1つであってもよい。
変異遺伝子座候補に対応する少なくとも1つの遺伝子シーケンシング断片を取得する上記フローによって、変異遺伝子座候補を正確に特定することができるだけでなく、遺伝子シーケンシングで得られた遺伝子シーケンシング断片のうち、変異遺伝子座候補に対応する少なくとも1つの遺伝子シーケンシング断片を特定することもできる。
本開示の実施例では、変異遺伝子座候補に対応する少なくとも1つの遺伝子シーケンシング断片の塩基配列情報に基づいて、該変異遺伝子座候補の塩基配列特徴を特定することができ、変異遺伝子座候補の遺伝子変異を認識する時、該塩基配列特徴に基づいて、遺伝子認識に対してデータ増強処理を行うことができる。以下、一例により変異遺伝子座候補の塩基配列特徴を特定するフローを詳細に説明する。
図3は、本開示の一実施例に係る変異遺伝子座候補の塩基配列特徴を取得するフローチヤ一トを示す。図3に示すように、上記ステップ12は、
前記変異遺伝子座候補が位置する所定の遺伝子座区間を特定するステップ121と、
参照ゲノムの前記所定の遺伝子座区間における塩基配列情報に基づいて、前記変異遺伝子座候補の、塩基配列の順序を表す塩基配列特徴を取得するステップ122と、を含んでもよい。
本開示の実施例の一例では、各変異遺伝子座候補には少なくとも1つの遺伝子シーケンシング断片が存在し得る。遺伝子変異認識の正確性を高めるには、該変異遺伝子座候補の塩基配列情報に加えて、該変異遺伝子座候補近傍の遺伝子座の塩基配列情報も考慮することができる。ここで、塩基配列情報はゲノム候補の塩基配列情報を含んでもよく。塩基配列情報がゲノム候補の塩基配列情報である場合、各遺伝子シーケンシング断片の塩基配列情報が同じであり、いずれもゲノム候補の塩基配列情報であると考えてよい。これにより、変異遺伝子座候補の遺伝子位置情報に基づいて、該変異遺伝子座候補が位置する所定の遺伝子座区間を特定することができる。例えば、変異遺伝子座候補の前後の150個の塩基からなる区間を変異遺伝子座候補が位置する所定の遺伝子座区間とする。その後、該所定の遺伝子座区間内の各遺伝子座について、参照ゲノムの所定の遺伝子座区間における塩基配列情報を取得し、参照ゲノムの所定の遺伝子座区間における塩基配列情報から変異遺伝子座候補の塩基配列特徴を生成することができる。塩基配列情報は、参照ゲノムの所定の遺伝子座区間内の各遺伝子座における塩基配列からなる。例えば、所定の遺伝子座区間は、それぞれA、C、G、Tの4つの塩基配列を含む場合、塩基配列情報はACGTの塩基配列の順序であってもよい。塩基配列特徴は、塩基配列特徴ベクトルで表すことができ、変異遺伝子座候補の特徴行列の一部であってもよい。例えば、塩基配列情報を表す塩基配列特徴ベクトルは、それぞれa1、a2、a3およびa4の4つである場合、a1、a2、a3およびa4は、特徴行列の最初の4つの次元の特徴である。
本開示の実施例の一例では、変異遺伝子座候補の遺伝子変異を認識する時、変異遺伝子座候補に対応する塩基配列特徴に加えて、さらに塩基配列不変性を有する変異遺伝子座候補の非塩基配列特徴も考慮した。以下、一例により変異遺伝子座候補の非塩基配列特徴を特定するフローを詳細に説明する。
図4は、本開示の一実施例に係る変異遺伝子座候補の非塩基配列特徴を特定するフローチヤ一トを示す。図4に示すように、上記ステップ13は、
前記少なくとも1つの遺伝子シーケンシング断片の、前記所定の遺伝子座区間内に位置する各遺伝子座の非塩基配列情報を取得するステップ131と、
前記所定の遺伝子座区間内の各遺伝子座の非塩基配列情報に基づいて、前記変異遺伝子座候補の非塩基配列特徴を特定するステップ132と、を含んでもよい。
本開示の実施例の一例では、遺伝子データが塩基配列不変性の性質を有することを考慮して、遺伝子変異認識において、少なくとも1つの遺伝子シーケンシング断片の、所定の遺伝子座区間内の各遺伝子座における非塩基配列情報を取得することができる。ここで、非塩基配列情報は、塩基配列不変性を有する情報、例えば、遺伝子座に対応する遺伝子シーケンシング断片の数や、変異数であってもよい。非塩基配列情報は複数種であってもよく、これに応じて、各種の非塩基配列情報から生成される非塩基配列特徴は1つの非塩基配列特徴ベクトルを形成してもよく、また非塩基配列特徴ベクトルは1つまたは複数であってもよい。
本開示の実施例で提供される遺伝子変異認識の解決手段は、癌と診断された患者に適用でき、遺伝子変異認識によって患者に対して薬物投与を指導することができる。したがって、遺伝子シーケンシング断片は、一部が、病変のない細胞であると考えられる正常細胞に由来し、もう一部が、病変細胞に由来してもよい。これにより、変異遺伝子座候補の非塩基配列特徴を特定する時、それぞれ正常細胞に由来する遺伝子シーケンシング断片、および病変細胞に由来する遺伝子シーケンシング断片に基づいて、変異遺伝子座候補の非塩基配列特徴を特定することができる。
1つの可能な実施形態では、変異遺伝子座候補の非塩基配列特徴を特定する時、少なくとも1つの遺伝子シーケンシング断片のうち、正常細胞に由来する遺伝子シーケンシング断片を特定し、その後、正常細胞の遺伝子シーケンシング断片の所定の遺伝子座区間内の各遺伝子座における非塩基配列情報に基づいて、変異遺伝子座候補の非塩基配列特徴を特定することができる。このように、正常細胞に由来する遺伝子シーケンシング断片に基づいて、変異遺伝子座候補の非塩基配列特徴を特定することができる。
以下、正常細胞の遺伝子シーケンシング断片に基づいて、変異遺伝子座候補の非塩基配列特徴を特定する幾つかの例を示す。
本開示の実施例の一例では、変異遺伝子座候補の非塩基配列特徴を特定する時、遺伝子シーケンシング断片のうち、変異遺伝子座候補において参照ゲノムと塩基の種類が一致する第1の遺伝子シーケンシング断片を特定し、その後、所定の遺伝子座区間内の各遺伝子座に対応する第1の遺伝子シーケンシング断片の数に基づいて、変異遺伝子座候補の非塩基配列特徴を特定することができる。
この例では、遺伝子シーケンシング断片のうち、変異遺伝子座候補において遺伝子変異が生じていない第1の遺伝子シーケンシング断片を選択し、所定の遺伝子座区間内の各遺伝子座について、該遺伝子座における第1の遺伝子シーケンシング断片の数を統計するようにしてもよい。換言すれば、該遺伝子座を含む第1の遺伝子シーケンシング断片はいくつであるかについて統計してもよい。ここで、ある遺伝子座を含む第1の遺伝子シーケンシング断片は、該遺伝子座に対応する第1の遺伝子シーケンシング断片であると考えてよい。各遺伝子シーケンシング断片の長さが互いに異なる可能性があるため、各遺伝子シーケンシング断片に対する変異遺伝子座候補の位置は異なり、例えば、変異遺伝子座候補は、遺伝子シーケンシング断片の中間位置に位置してもよく、遺伝子シーケンシング断片のエッジ位置に位置してもよく、これにより、所定の遺伝子座区間内の各遺伝子座に対応する遺伝子シーケンシング断片の数は異なる。各遺伝子座に対応する第1の遺伝子シーケンシング断片の数から、非塩基配列特徴に対応する1つの非塩基配列特徴ベクトルを生成することができる。該非塩基配列特徴ベクトルにおける各特徴要素は、対応遺伝子座の第1の遺伝子シーケンシング断片の数に対応する。
本開示の実施例の別の例では、変異遺伝子座候補の非塩基配列特徴を特定する時、遺伝子シーケンシング断片のうち、変異遺伝子座候補において参照ゲノムと塩基の種類が一致する第1の遺伝子シーケンシング断片を特定し、その後、所定の遺伝子座区間内の各遺伝子座において、第1の遺伝子シーケンシング断片の塩基の種類が参照ゲノムの塩基の種類と一致しない第1の遺伝子シーケンシング断片の数を、第1の遺伝子シーケンシング断片の変異数として特定し、第1の遺伝子シーケンシング断片の変異数に基づいて、変異遺伝子座候補の非塩基配列特徴を特定することができる。
この例では、遺伝子シーケンシング断片のうち、変異遺伝子座候補において遺伝子変異が生じていない第1の遺伝子シーケンシング断片を選択し、所定の遺伝子座区間内の各遺伝子座について、該遺伝子座において遺伝子変異が生じる第1の遺伝子シーケンシング断片の変異数を統計するようにしてもよい。ここで、遺伝子シーケンシング断片は変異遺伝子座候補において遺伝子変異が生じていない(すなわち、変異遺伝子座候補において塩基の種類が参照ゲノムと塩基の種類が一致する)が、変異遺伝子座候補以外の他の遺伝子座において遺伝子変異が生じる(すなわち、他の遺伝子座において塩基の種類が参照ゲノムの塩基の種類と一致しない)可能性がある。したがって、所定の遺伝子座区間内の各遺伝子座について、該遺伝子座の第1の遺伝子シーケンシング断片において変異が生じる変異数を統計してもよい。換言すれば、各遺伝子座について、該遺伝子座を含む第1の遺伝子シーケンシング断片のうち、該遺伝子座において変異が生じる第1の遺伝子シーケンシング断片の数を統計してもよい。各遺伝子座に対応する第1の遺伝子シーケンシング断片において変異が生じる変異数から、非塩基配列特徴に対応する1つの非塩基配列特徴ベクトルを生成することができる。該非塩基配列特徴ベクトルにおける各特徴要素は、対応遺伝子座の第1の遺伝子シーケンシング断片の変異数、換言すれば、該対応遺伝子座を含み且つ該対応遺伝子座において変異が生じる第1の遺伝子シーケンシング断片の数に対応する。
例えば、正常細胞に由来する遺伝子シーケンシング断片について、正常細胞の遺伝子シーケンシング断片のうち、変異遺伝子座候補において変異が生じていない第1の遺伝子シーケンシング断片を特定し、その後、所定の遺伝子座区間内の各遺伝子座について、各遺伝子座に対応する第1の遺伝子シーケンシング断片の数、および該遺伝子座において変異が生じる数を統計することができる。この2つの情報は、上記特徴行列における第5の次元特徴および第6の次元特徴に対応する。
本開示の実施例の別の例では、変異遺伝子座候補の非塩基配列特徴を特定する時、前記遺伝子シーケンシング断片のうち、前記変異遺伝子座候補において変異遺伝子座候補の変異塩基の種類と一致する第2の遺伝子シーケンシング断片を特定し、その後、前記所定の遺伝子座区間内の各遺伝子座に対応する第2の遺伝子シーケンシング断片の数に基づいて、前記変異遺伝子座候補の非塩基配列特徴を特定することができる。この例では、遺伝子シーケンシング断片のうち、変異遺伝子座候補での変異と一致する第2の遺伝子シーケンシング断片を選択し、所定の遺伝子座区間内の各遺伝子座について、該遺伝子座における第2の遺伝子シーケンシング断片の数を統計するようにしてもよい。各遺伝子座に対応する第2の遺伝子シーケンシング断片の数から、非塩基配列特徴に対応する1つの非塩基配列特徴ベクトルを生成する。該非塩基配列特徴ベクトルにおける各特徴要素は、対応遺伝子座の第2の遺伝子シーケンシング断片の数に対応する。
本開示の実施例の別の例では、変異遺伝子座候補の非塩基配列特徴を特定する時、前記遺伝子シーケンシング断片のうち、変異遺伝子座候補において変異遺伝子座候補の変異塩基の種類と一致する第2の遺伝子シーケンシング断片を特定し、その後、所定の遺伝子座区間内の各遺伝子座において、第2の遺伝子シーケンシング断片の塩基の種類が参照ゲノムの塩基の種類と一致しない第2の遺伝子シーケンシング断片の数を、第2の遺伝子シーケンシング断片の変異数として特定し、第2の遺伝子シーケンシング断片の変異数に基づいて、変異遺伝子座候補の非塩基配列特徴を特定することができる。この例では、遺伝子シーケンシング断片のうち、変異遺伝子座候補での変異と一致する第2の遺伝子シーケンシング断片を選択し(変異遺伝子座候補の変異塩基の種類は、遺伝子シーケンシングによって得られる)、所定の遺伝子座区間内の各遺伝子座について、該遺伝子座において遺伝子変異が生じる第2の遺伝子シーケンシング断片の変異数を統計するようにしてもよい。換言すれば、該遺伝子座を含み且つ該遺伝子座において変異が生じる第2の遺伝子シーケンシング断片の数を統計してもよい。各遺伝子座に対応する第2の遺伝子シーケンシング断片において変異が生じる変異数から、非塩基配列特徴に対応する1つの非塩基配列特徴ベクトルを生成することができる。該非塩基配列特徴ベクトルにおける各特徴要素は、対応遺伝子座の第2の遺伝子シーケンシング断片の変異数に対応する。
例えば、正常細胞に由来する遺伝子シーケンシング断片について、正常細胞の遺伝子シーケンシング断片のうち、変異遺伝子座候補での変異と一致する第2の遺伝子シーケンシング断片を選択し、その後、所定の遺伝子座区間内の各遺伝子座について、各遺伝子座に対応する第2の遺伝子シーケンシング断片の数、および該遺伝子座において変異が生じる数を統計することができる。この2つの情報は、上記特徴行列における第7の次元特徴および第8の次元特徴に対応する。
本開示の実施例の別の例では、前記変異遺伝子座候補の非塩基配列特徴を特定する時、遺伝子シーケンシング断片のうち第3の遺伝子シーケンシング断片を特定し、その後、所定の遺伝子座区間内の各遺伝子座に対応する第3の遺伝子シーケンシング断片の数に基づいて、変異遺伝子座候補の非塩基配列特徴を特定することができる。ここで、変異遺伝子座候補における第3の遺伝子シーケンシング断片の塩基の種類は、参照ゲノムの塩基の種類と一致せず、且つ、変異遺伝子座候補における第3の遺伝子シーケンシング断片の塩基の種類は、変異遺伝子座候補の変異塩基の種類と一致しない。つまり、第3の遺伝子シーケンシング断片は、遺伝子シーケンシング断片から第1の遺伝子シーケンシング断片および第2の遺伝子シーケンシング断片を除去した残りの遺伝子シーケンシング断片である。第3の遺伝子シーケンシング断片は、変異遺伝子座候補に挿入遺伝子、欠失遺伝子などがある遺伝子シーケンシング断片であってもよい。この例では、遺伝子シーケンシング断片のうち、残りの第3の遺伝子シーケンシング断片を特定し、所定の遺伝子座区間内の各遺伝子座について、該遺伝子座における第3の遺伝子シーケンシング断片の数を統計するようにしてもよい。各遺伝子座に対応する第3の遺伝子シーケンシング断片の数から、非塩基配列特徴に対応する1つの非塩基配列特徴ベクトルを生成することができる。該非塩基配列特徴ベクトルにおける各特徴要素は、対応遺伝子座の第3の遺伝子シーケンシング断片の数に対応する。
本開示の実施例の別の例では、変異遺伝子座候補の非塩基配列特徴を特定する時、遺伝子シーケンシング断片のうち第3の遺伝子シーケンシング断片を特定し、その後、所定の遺伝子座区間内の各遺伝子座において、第3の遺伝子シーケンシング断片の塩基の種類が参照ゲノムの塩基の種類と一致しない第3の遺伝子シーケンシング断片の数を、前記第3の遺伝子シーケンシング断片の変異数として特定し、第3の遺伝子シーケンシング断片の変異数に基づいて、変異遺伝子座候補の非塩基配列特徴を特定することができる。ここで、変異遺伝子座候補における第3の遺伝子シーケンシング断片の塩基の種類は、参照ゲノムの塩基の種類と一致せず、且つ、変異遺伝子座候補における第3の遺伝子シーケンシング断片の塩基の種類は、変異遺伝子座候補の変異塩基の種類と一致しない。つまり、第3の遺伝子シーケンシング断片は、遺伝子シーケンシング断片から第1の遺伝子シーケンシング断片および第2の遺伝子シーケンシング断片を除去した残りの遺伝子シーケンシング断片である。この例では、遺伝子シーケンシング断片のうち残りの第3の遺伝子シーケンシング断片を特定し、所定の遺伝子座区間内の各遺伝子座について、該遺伝子座において遺伝子変異が生じる第3の遺伝子シーケンシング断片の変異数を統計するようにしてもよい。各遺伝子座に対応する第3の遺伝子シーケンシング断片において変異が生じる変異数から、非塩基配列特徴に対応する1つの非塩基配列特徴ベクトルを生成することができる。該非塩基配列特徴ベクトルにおける各特徴要素は、対応遺伝子座の第3の遺伝子シーケンシング断片の変異数に対応する。
例えば、正常細胞に由来する遺伝子シーケンシング断片について、正常細胞の遺伝子シーケンシング断片のうち、第1の遺伝子シーケンシング断片および第2の遺伝子シーケンシング断片以外の第3の遺伝子シーケンシング断片を選択し、その後、所定の遺伝子座区間内の各遺伝子座について、各遺伝子座に対応する第3の遺伝子シーケンシング断片の数、および該遺伝子座において変異が生じる数を統計することができる。この2つの情報は、上記特徴行列における第9の次元特徴および第10の次元特徴に対応する。
1つの可能な実施形態では、変異遺伝子座候補の非塩基配列特徴を特定する時、少なくとも1つの遺伝子シーケンシング断片のうち、病変細胞に由来する遺伝子シーケンシング断片を特定し、その後、病変細胞の遺伝子シーケンシング断片の所定の遺伝子座区間内の各遺伝子座における非塩基配列情報に基づいて、変異遺伝子座候補の非塩基配列特徴を特定することができる。このように、病変細胞に由来する遺伝子シーケンシング断片に基づいて、変異遺伝子座候補の非塩基配列特徴を特定することができる。
この実現形態では、病変細胞の遺伝子シーケンシング断片に基づいて、変異遺伝子座候補の非塩基配列特徴を特定するフローは、上述した正常細胞の遺伝子シーケンシング断片に基づいて非塩基配列特徴を特定するフローを参照してよい。例えば、病変細胞に由来する遺伝子シーケンシング断片について、病変細胞の遺伝子シーケンシング断片のうち、第1、第2および第3の遺伝子シーケンシング断片を特定し、その後、所定の遺伝子座区間内の各遺伝子座について、各遺伝子座に対応する第1の遺伝子シーケンシング断片の数および変異数、第2の遺伝子シーケンシング断片の数および変異数、ならびに第3の遺伝子シーケンシング断片の数および変異数を統計することができる。これらの情報は、上記特徴行列における第11から第16の次元特徴に対応する。
以上のようにして、所定の遺伝子座区間における少なくとも1つの遺伝子シーケンシング断片の塩基配列に関する非塩基配列情報に基づいて、変異遺伝子座候補の非塩基配列特徴を特定することができ、遺伝子変異認識時に遺伝子データの塩基配列不変性を考慮して、遺伝子変異認識をより容易、且つ正確にすることができる。以下、一例により変異遺伝子座候補の遺伝子変異を認識するフローを説明する。
図5は、本開示の一実施例に係る変異遺伝子座候補の遺伝子変異を認識するフローチヤ一トを示す。図5に示すように、上記ステップ14は、
前記変異遺伝子座候補の塩基配列特徴および非塩基配列特徴に基づいて、前記変異遺伝子座候補の、第1の次元特徴が前記変異遺伝子座候補の塩基配列特徴および非塩基配列特徴に対応し、且つ第2の次元特徴が前記所定の遺伝子座区間内の遺伝子座に対応する特徴行列を取得するステップ141と、
前記変異遺伝子座候補の特徴行列に基づいて、前記変異遺伝子座候補の遺伝子変異を認識するステップ142と、を含んでもよい。
本開示の実施例の一例では、変異遺伝子座候補の塩基配列特徴および非塩基配列特徴を特定した後、ニューラルネットワークによる遺伝子変異認識モデルを用いて、塩基配列特徴および非塩基配列特徴を統合し、塩基配列特徴から形成される塩基配列特徴ベクトルと非塩基配列特徴から形成される非塩基配列特徴ベクトルを1つの特徴行列として合成することができる。特徴行列の第1の次元特徴は塩基配列情報および非塩基配列情報に対応し、第2の次元特徴は前記所定の遺伝子座区間内の遺伝子座に対応する。特徴行列のサイズは、特徴ベクトルの数×所定の遺伝子座区間のサイズである。例えば、特徴ベクトルの数が16で、所定の遺伝子座区間が150個の遺伝子座を含む場合、特徴行列のサイズは16×150となる。ここで、第1の次元特徴は16次元の特徴ベクトルに対応し、第1から第4の次元特徴ベクトルは塩基配列特徴に対応し、第5から第16の次元目特徴ベクトルは非塩基配列特徴に対応し、塩基配列不変性を有する。その後、上記遺伝子変異認識モデルを用いて、該特徴行列によって変異遺伝子座候補での遺伝子変異を認識することができる。このようにして、ニューラルネットワークモデルを用いて変異遺伝子座候補に対応する塩基配列情報および非塩基配列情報を統合することができ、遺伝子シーケンシングデータをより全面的に解析することができ、遺伝子変異認識はより正確になる。
1つの可能な実施形態では、前記変異遺伝子座候補の統合特徴に基づいて、前記変異遺伝子座候補の遺伝子変異を認識するステップは、前記変異遺伝子座候補の特徴行列に基づいて、前記変異遺伝子座候補の遺伝子の変異性を示す変異値を取得することと、前記変異値が所定の閾値以上である場合、前記変異遺伝子座候補の遺伝子に変異があると判定することと、を含んでもよい。ここで、遺伝子の変異性を示す変異値は、該変異遺伝子座候補で真の変異が生じる可能性を表すものであってもよい。例えば、変異値が大きいほど、該変異遺伝子座候補で真の変異が生じる可能性は大きい。上記遺伝子変異認識モデルを用いて、得られた2次元の特徴行列を処理して変異値を得て、変異値に基づいて変異遺伝子座候補の遺伝子変異が真の変異であるか否かを判断することができる。1つの可能な実施形態では、変異値を0から1の範囲内に設定することができる。所定の閾値は、適用場面に応じて、例えば0.3、0.5に設定することができる。変異値が所定の閾値より大きい場合、該変異遺伝子座候補の遺伝子変異は真の変異、すなわち病変に起因する遺伝子変異であると考えてよい。そうでない場合、該変異遺伝子座候補の遺伝子変異は偽の変異、すなわち干渉による遺伝子異常であると考えてよい。
本開示の実施例では、遺伝子変異認識モデルを用いて変異遺伝子座候補の遺伝子変異を認識することが可能であり、該遺伝子変異認識モデルは、トレーニングにおいて遺伝子データの塩基配列不変性を利用し、遺伝子変異認識モデルにより抽出された特徴行列の行列変換を行って、モデルトレーニングにおいて、データ増強処理を行うことができ、トレーニングされた遺伝子変異認識モデルのロバスト性が高まり、オーバーフィッティングなどの問題が低減される。
図6は、本開示の一実施例に係る変異遺伝子座候補の特徴行列を取得するフローチヤ一トを示す。
本開示の実施例では、塩基配列情報のデータ増強を遺伝子変異認識モデルのトレーニングに適用することが可能である。図6に示すように、変異遺伝子座候補の塩基配列特徴および非塩基配列特徴に基づいて、変異遺伝子座候補の特徴行列を取得するステップは、
前記変異遺伝子座候補の塩基配列特徴および非塩基配列特徴に基づいて、前記所定の遺伝子座区間の各第1の次元特徴の特徴ベクトルを生成するステップ1411と、
前記特徴ベクトルのうち、塩基配列特徴により形成される塩基配列特徴ベクトルを特定するステップ1412と、
前記塩基配列特徴ベクトルをランダムに順序付け、前記変異遺伝子座候補の特徴行列を得るステップ1413と、を含んでもよい。
ここで、第1の次元特徴は、少なくとも1つの遺伝子シーケンシング断片の前記所定の遺伝子座区間における塩基配列情報に対応し、第1の次元特徴の特徴ベクトルは、塩基配列特徴から形成される塩基配列特徴ベクトルおよび非塩基配列特徴から形成される非塩基配列特徴ベクトルを含んでもよい。非塩基配列特徴が塩基配列不変性を有するため、塩基配列特徴ベクトルの配列順序が変わっても、非塩基配列特徴は影響を受けることがない。したがって、特徴ベクトルのうち、塩基配列特徴から形成される塩基配列特徴ベクトルをランダムに順序付け、変異遺伝子座候補の特徴行列を得て、塩基配列情報のデータ増強処理を実現し、これにより、トレーニングされた遺伝子変異認識モデルは、塩基配列不変性の性質を考慮することができ、一層優れた性能が得られる。
例えば、特徴ベクトルの数は16であり、第1の次元特徴は16次元の特徴ベクトルに対応し、第1から第4の次元特徴ベクトルは塩基配列特徴に対応し、第5から第16次元特徴ベクトルは非塩基配列特徴に対応する場合、1次元目から4次元目の特徴ベクトルをランダムに順序付け、複数の特徴行列を形成することができる。
本開示の実施例では、変異遺伝子座候補の塩基配列特徴および非塩基配列特徴を抽出することにより、遺伝子変異の認識時に遺伝子データの塩基配列不変性を考慮することができ、遺伝子変異認識の認識結果はより正確になり、生殖細胞系遺伝子の変異、およびノイズやエラーによる干渉が除去され、遺伝子変異認識の正確性が高まる。
具体的な実施形態の上記方法において、各ステップの記述順序は、厳しい実行順序で実施手順を限定するものではなく、各ステップの具体的な実行順序は、その機能と可能な内在的論理により決定されることが当業者に理解される。
図7は、本開示の実施例に係る遺伝子変異認識装置のブロック図を示し、図7に示すように、前記遺伝子変異認識装置は、
変異遺伝子座候補に対応する少なくとも1つの遺伝子シーケンシング断片を取得する第1の取得モジュール71と、
前記変異遺伝子座候補の塩基配列特徴を取得する第2の取得モジュール72と、
前記少なくとも1つの遺伝子シーケンシング断片の、所定の遺伝子座区間における非塩基配列情報に基づいて、前記変異遺伝子座候補の、塩基配列の順序にもかかわらず不変である非塩基配列特徴を特定する特定モジュール73と、
前記変異遺伝子座候補の塩基配列特徴および非塩基配列特徴に基づいて、前記変異遺伝子座候補の遺伝子変異を認識する認識モジュール74と、を含む。
1つの可能な実施形態では、前記第2の取得モジュール72は、
前記変異遺伝子座候補が位置する所定の遺伝子座区間を特定する第1のサブ特定モジュールと、
参照ゲノムの前記所定の遺伝子座区間における塩基配列情報に基づいて、前記変異遺伝子座候補の、塩基配列の順序を表す塩基配列特徴を取得する第2のサブ特定モジュールと、を含む。
1つの可能な実施形態では、前記特定モジュール73は、
前記少なくとも1つの遺伝子シーケンシング断片の、前記所定の遺伝子座区間内に位置する各遺伝子座の非塩基配列情報を取得する第1のサブ取得モジュールと、
前記所定の遺伝子座区間内に位置する各遺伝子座の非塩基配列情報に基づいて、前記変異遺伝子座候補の非塩基配列特徴を特定する第3のサブ特定モジュールと、を含む。
1つの可能な実施形態では、前記第3のサブ特定モジュールは、具体的に、
前記遺伝子シーケンシング断片のうち、前記変異遺伝子座候補において参照ゲノムと塩基の種類が一致する第1の遺伝子シーケンシング断片を特定することと、前記所定の遺伝子座区間内の各遺伝子座に対応する第1の遺伝子シーケンシング断片の数に基づいて、前記変異遺伝子座候補の非塩基配列特徴を特定することと、に用いられる。
1つの可能な実施形態では、前記第3のサブ特定モジュールは、具体的に、
前記遺伝子シーケンシング断片のうち、前記変異遺伝子座候補において参照ゲノムと塩基の種類が一致する第1の遺伝子シーケンシング断片を特定することと、前記所定の遺伝子座区間内の各遺伝子座において、前記第1の遺伝子シーケンシング断片の塩基の種類が参照ゲノムの塩基の種類と一致しない第1の遺伝子シーケンシング断片の数を、第1の遺伝子シーケンシング断片の変異数として特定することと、前記第1の遺伝子シーケンシング断片の変異数に基づいて、前記変異遺伝子座候補の非塩基配列特徴を特定することと、に用いられる。
1つの可能な実施形態では、前記第3のサブ特定モジュールは、具体的に、
前記遺伝子シーケンシング断片のうち、前記変異遺伝子座候補において変異遺伝子座候補の変異塩基の種類と一致する第2の遺伝子シーケンシング断片を特定することと、前記所定の遺伝子座区間内の各遺伝子座に対応する第2の遺伝子シーケンシング断片の数に基づいて、前記変異遺伝子座候補の非塩基配列特徴を特定することと、に用いられる。
1つの可能な実施形態では、前記第3のサブ特定モジュールは、具体的に、
前記遺伝子シーケンシング断片のうち、前記変異遺伝子座候補において変異遺伝子座候補の変異塩基の種類と一致する第2の遺伝子シーケンシング断片を特定することと、前記所定の遺伝子座区間内の各遺伝子座において、前記第2の遺伝子シーケンシング断片の塩基の種類が参照ゲノムの塩基の種類と一致しない第2の遺伝子シーケンシング断片の数を、第2の遺伝子シーケンシング断片の変異数として特定することと、前記第2の遺伝子シーケンシング断片の変異数に基づいて、前記変異遺伝子座候補の非塩基配列特徴を特定することと、に用いられる。
1つの可能な実施形態では、前記第3のサブ特定モジュールは、具体的に、
前記遺伝子シーケンシング断片のうち、変異遺伝子座候補において参照ゲノムと塩基の種類が一致せず、且つ変異遺伝子座候補において塩基の種類が変異遺伝子座候補の変異塩基の種類と一致しない第3の遺伝子シーケンシング断片を特定することと、前記所定の遺伝子座区間内の各遺伝子座に対応する第3の遺伝子シーケンシング断片の数に基づいて、前記変異遺伝子座候補の非塩基配列特徴を特定することと、に用いられる。
1つの可能な実施形態では、前記第3のサブ特定モジュールは、具体的に、
前記遺伝子シーケンシング断片のうち、変異遺伝子座候補において参照ゲノムと塩基の種類が一致せず、且つ変異遺伝子座候補において塩基の種類が変異遺伝子座候補の変異塩基の種類と一致しない第3の遺伝子シーケンシング断片を特定することと、前記所定の遺伝子座区間内の各遺伝子座において、前記第3の遺伝子シーケンシング断片の塩基の種類が参照ゲノムの塩基の種類と一致しない第3の遺伝子シーケンシング断片の数を、前記第3の遺伝子シーケンシング断片の変異数として特定することと、前記第3の遺伝子シーケンシング断片の変異数に基づいて、前記変異遺伝子座候補の非塩基配列特徴を特定することと、に用いられる。
1つの可能な実施形態では、前記第3のサブ特定モジュールは、具体的に、
前記少なくとも1つの遺伝子シーケンシング断片のうち、正常細胞に由来する遺伝子シーケンシング断片を特定することと、前記正常細胞の遺伝子シーケンシング断片の、前記所定の遺伝子座区間内に位置する各遺伝子座の非塩基配列情報に基づいて、前記変異遺伝子座候補の非塩基配列特徴を特定することと、に用いられる。
1つの可能な実施形態では、前記第3のサブ特定モジュールは、具体的に、
前記少なくとも1つの遺伝子シーケンシング断片のうち、病変細胞に由来する遺伝子シーケンシング断片を特定することと、前記病変細胞の遺伝子シーケンシング断片の、前記所定の遺伝子座区間内に位置する各遺伝子座の非塩基配列情報に基づいて、前記変異遺伝子座候補の非塩基配列特徴を特定することと、に用いられる。
1つの可能な実施形態では、前記認識モジュール74は、
前記変異遺伝子座候補の塩基配列特徴および非塩基配列特徴に基づいて、前記変異遺伝子座候補の、第1の次元特徴が前記変異遺伝子座候補の塩基配列特徴および非塩基配列特徴に対応し、且つ第2の次元特徴が前記所定の遺伝子座区間内の遺伝子座に対応する特徴行列を取得するサブ生成モジュールと、
前記変異遺伝子座候補の特徴行列に基づいて、前記変異遺伝子座候補の遺伝子変異を認識するサブ認識モジュールと、を含む。
1つの可能な実施形態では、前記サブ認識モジュールは、具体的に、
前記変異遺伝子座候補の特徴行列に基づいて、前記変異遺伝子座候補の遺伝子の変異性を示す変異値を取得することと、
前記変異値が所定の閾値以上である場合、前記変異遺伝子座候補の遺伝子に変異があると判定することと、に用いられる。
1つの可能な実施形態では、前記サブ生成モジュールは、具体的に、
前記変異遺伝子座候補の塩基配列特徴および非塩基配列特徴に基づいて、前記所定の遺伝子座区間の各第1の次元特徴の特徴ベクトルを生成することと、前記特徴ベクトルのうち、塩基配列特徴により形成される塩基配列特徴ベクトルを特定することと、前記塩基配列特徴ベクトルをランダムに順序付け、前記変異遺伝子座候補の特徴行列を得ることと、に用いられる。
1つの可能な実施形態では、前記第1の取得モジュールは、
体細胞遺伝子による遺伝子シーケンシングで得られた遺伝子シーケンシング断片を取得する第2のサブ取得モジュールと、前記遺伝子シーケンシング断片の塩基配列を参照ゲノムの塩基配列と比較し、比較結果を得るサブ比較モジュールと、前記比較結果に基づいて、前記体細胞遺伝子に異常がある変異遺伝子座候補を特定する第4のサブ特定モジュールと、前記変異遺伝子座候補に対応する少なくとも1つの遺伝子シーケンシング断片を取得する第3のサブ取得モジュールと、を含む。
いくつかの実施例では、本開示の実施例で提供された装置に備えた機能またはモジュールは、上記方法実施例に記載の方法を実行するものであって、その具体化については上記方法実施例の説明を参照してもよく、簡単化するために、ここで重複説明を省略する。
図8は、一例示的実施例により示される遺伝子変異認識のための装置1900のブロック図である。例えば、装置1900はサーバとして提供できる。図8を参照して、装置1900は、さらに一つまたは複数のプロセッサを含む処理コンポーネント1922、および、処理コンポーネント1922が実行可能な命令、例えばアプリケーションプログラムを記憶する、メモリ1932を代表とするメモリ資源を含む。メモリ1932に記憶されたアプリケーションプログラムはそれぞれが1グループの命令に対応する一つ以上のモジュールを含むことができる。また、処理コンポーネント1922は命令を実行することで上記方法を実行するように構成される。
装置1900はさらに、装置1900の電源管理を実行するように構成された一つの電源コンポーネント1926、装置1900をネットワークに接続するように構成された一つの有線または無線ネットワークインタフェース1950、および一つの入出力(I/O)インタフェース1958を含むことができる。装置1900はメモリ1932に記憶されたオペレーティングシステム、例えばWindows ServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTMまたは類似するものに基づいて動作できる。
例示的な実施例では、さらに、非揮発性のコンピュータが読み取り可能な記憶媒体、例えば、装置1900の処理コンポーネント1922によって実行されることで上記方法を実行するためのコンピュータプログラム命令が記憶されているメモリ1932が提供される。
本開示はシステム、方法および/またはコンピュータプログラム製品であってもよい。コンピュータプログラム製品は、プロセッサに本開示の各態様を実現させるためのコンピュータ可読プログラム命令がロードされているコンピュータが読み取り可能な記憶媒体を含むことができる。
コンピュータが読み取り可能な記憶媒体は、命令実行機器により使用される命令を保持および記憶可能な有形機器であってもよい。コンピュータが読み取り可能な記憶媒体は、例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置または上記の任意の適当な組み合わせであってもよいが、これらに限定されない。コンピュータが読み取り可能な記憶媒体のより具体的な例(非包括的リスト)としては、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、静的ランダムアクセスメモリ(SRAM)、携帯型コンパクトディスク読み取り専用メモリ(CD−ROM)、デジタル多用途ディスク(DVD)、メモリスティック、フロッピーディスク、機械的符号化装置、例えば命令が記憶されているせん孔カードまたはスロット内突起構造、および上記の任意の適当な組み合わせを含む。ここで使用されるコンピュータが読み取り可能な記憶媒体は、例えば無線電波または他の自由に伝播される電磁波、導波路または他の伝送媒体を経由して伝播される電磁波(例えば、光ファイバーケーブルを通過するパルス光)、または電線を経由して伝送される電気信号のような、瞬時信号自体であると解釈されるものではない。
ここで記述したコンピュータ可読プログラム命令は、コンピュータが読み取り可能な記憶媒体から各計算/処理機器にダウンロードされてもよいし、またはネットワーク、例えばインターネット、ローカルエリアネットワーク、広域ネットワークおよび/または無線ネットワークを介して外部のコンピュータまたは外部記憶装置にダウンロードされてもよい。ネットワークは、銅伝送ケーブル、光ファイバー伝送、無線伝送、ルーター、ファイアウォール、交換機、ゲートウェイコンピュータおよび/またはエッジサーバを含むことができる。各計算/処理機器内のネットワークアダプタカードまたはネットワークインタフェースはネットワークからコンピュータ可読プログラム命令を受信し、該コンピュータ可読プログラム命令を転送し、各計算/処理機器内のコンピュータが読み取り可能な記憶媒体に記憶する。
本開示の動作を実行するためのコンピュータプログラム命令はアセンブラ命令、命令セットアーキテクチャ(ISA)命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、または一つまたは複数種類のプログラミング言語の任意の組み合わせで書かれたソースコードまたは目標コードであってもよい。前記プログラミング言語は、Smalltalk、C++などのオブジェクト指向プログラミング言語、および「C」言語または類似するプログラミング言語などの一般的な手続き型プログラミング言語を含む。コンピュータ可読プログラム命令は、全てユーザのコンピュータにおいて実行されてもよく、部分的にユーザのコンピュータにおいて実行されてもよく、スタンドアロンソフトウェアパッケージとして実行されてもよく、部分的にユーザのコンピュータにおいてかつ部分的にリモートコンピュータにおいて実行されてもよく、または完全にリモートコンピュータもしくはサーバにおいて実行されてもよい。リモートコンピュータに関与する場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)または広域ネットワーク(WAN)を含む任意の種類のネットワークを経由してユーザのコンピュータに接続されてもよく、または、(例えばインターネットサービスプロバイダを利用してインターネットを経由して)外部コンピュータに接続されてもよい。いくつかの実施例では、コンピュータ可読プログラム命令の状態情報を利用することで、例えばプログラマブル論理回路、フィールドプログラマブルゲートアレイ(FPGA)またはプログラマブル論理アレイ(PLA)などの、コンピュータ可読プログラム命令を実行して本開示の各態様を実現できる電子回路をパーソナライズする。
なお、ここで本開示の実施例に係る方法、装置(システム)およびコンピュータプログラム製品のフローチャートおよび/またはブロック図を参照しながら本開示の各態様を説明したが、フローチャートおよび/またはブロック図の各ブロック、およびフローチャートおよび/またはブロック図の各ブロックの組み合わせは、いずれもコンピュータ可読プログラム命令によって実現できることを理解すべきである。
これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータまたは他のプログラマブルデータ処理装置のプロセッサへ提供されてもよい。それにより、これらの命令はコンピュータまたは他のプログラマブルデータ処理装置のプロセッサによって実行されると、フローチャートおよび/またはブロック図の一つまたは複数のブロックにおいて指定された機能/動作を実現する手段を創出するような機械が生じる。また、これらのコンピュータ可読プログラム命令は、コンピュータが読み取り可能な記憶媒体に記憶し、それによってコンピュータ、プログラマブルデータ処理装置および/または他の機器を特定の方式で動作させるようにしてもよい。それにより、命令が記憶されるコンピュータが読み取り可能な記憶媒体は、フローチャートおよび/またはブロック図の一つまたは複数のブロックにおいて指定された機能/動作の各態様を実現する命令を含む製品を含む。
コンピュータ可読プログラムはコンピュータ、他のプログラマブルデータ処理装置、または他の機器にロードしてもよい。ことにより、コンピュータ、他のプログラマブルデータ処理装置または他の機器において一連の動作ステップを実行させて、、コンピュータ実施手順を生成する。それにより、コンピュータ、他のプログラマブルデータ処理装置、または他の機器において実行される命令はフローチャートおよび/またはブロック図の一つまたは複数のブロックにおいて指定された機能/動作を実現する。
図面のうちフローチャートおよびブロック図は、本開示の複数の実施例に係るシステム、方法およびコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能および動作を示す。この点では、フローチャートまたはブロック図における各ブロックは一つのモジュール、プログラムセグメントまたは命令の一部分を代表することができ、前記モジュール、プログラムセグメントまたは命令の一部分は、指定された論理機能を実現するための一つまたは複数の実行可能な命令を含む。いくつかの置換としての実現形態では、ブロックに表記される機能は、図面に付したものと異なる順序で実現してもよい。例えば、二つの連続的なブロックは実質的に同時に実行してもよく、また、係る機能によって、それらは逆な順序で実行してもよい場合がある。なお、ブロック図および/またはフローチャートにおける各ブロック、およびブロック図および/またはフローチャートにおけるブロックの組み合わせは、指定される機能または動作を実行するハードウェアに基づく専用システムによって実現してもよいし、または専用ハードウェアとコンピュータ命令との組み合わせによって実現してもよいことに注意すべきである。
以上、本開示の各実施例を記述したが、上記説明は例示的なものに過ぎず、網羅的なものではなく、かつ披露された各実施例に限定されるものでもない。当業者にとって、説明された各実施例の範囲および精神から逸脱することなく、様々な修正および変更が明らかである。本明細書に選ばれた用語は、各実施例の原理、実際の適用またはマーケティングにおける技術への技術的改善を好適に解釈するか、または当該技術的分野の一般的な当業者に本文に披露された各実施例を理解させるためのものである。

Claims (32)

  1. 変異遺伝子座候補に対応する少なくとも1つの遺伝子シーケンシング断片を取得することと、
    前記変異遺伝子座候補の塩基配列特徴を取得することと、
    前記少なくとも1つの遺伝子シーケンシング断片の、所定の遺伝子座区間における非塩基配列情報に基づいて、前記変異遺伝子座候補の、塩基配列の順序にもかかわらず不変である非塩基配列特徴を特定することと、
    前記変異遺伝子座候補の塩基配列特徴および非塩基配列特徴に基づいて、前記変異遺伝子座候補の遺伝子変異を認識することと、を含むことを特徴とする、遺伝子変異認識方法。
  2. 前記変異遺伝子座候補の塩基配列特徴を取得することは、
    前記変異遺伝子座候補が位置する所定の遺伝子座区間を特定することと、
    参照ゲノムの前記所定の遺伝子座区間における塩基配列情報に基づいて、前記変異遺伝子座候補の、塩基配列の順序を表す塩基配列特徴を取得することと、を含むことを特徴とする、請求項1に記載の方法。
  3. 前記少なくとも1つの遺伝子シーケンシング断片の、所定の遺伝子座区間における非塩基配列情報に基づいて、前記変異遺伝子座候補の非塩基配列特徴を特定することは、
    前記少なくとも1つの遺伝子シーケンシング断片の、前記所定の遺伝子座区間内に位置する各遺伝子座の非塩基配列情報を取得することと、
    前記所定の遺伝子座区間内に位置する各遺伝子座の非塩基配列情報に基づいて、前記変異遺伝子座候補の非塩基配列特徴を特定することと、を含むことを特徴とする、請求項1または2に記載の方法。
  4. 前記所定の遺伝子座区間内に位置する各遺伝子座の非塩基配列情報に基づいて、前記変異遺伝子座候補の非塩基配列特徴を特定することは、
    前記遺伝子シーケンシング断片のうち、前記変異遺伝子座候補において参照ゲノムと塩基の種類が一致する第1の遺伝子シーケンシング断片を特定することと、
    前記所定の遺伝子座区間内の各遺伝子座に対応する第1の遺伝子シーケンシング断片の数に基づいて、前記変異遺伝子座候補の非塩基配列特徴を特定することと、を含むことを特徴とする、請求項3に記載の方法。
  5. 前記所定の遺伝子座区間内に位置する各遺伝子座の非塩基配列情報に基づいて、前記変異遺伝子座候補の非塩基配列特徴を特定することは、
    前記遺伝子シーケンシング断片のうち、前記変異遺伝子座候補において参照ゲノムと塩基の種類が一致する第1の遺伝子シーケンシング断片を特定することと、
    前記所定の遺伝子座区間内の各遺伝子座において、前記第1の遺伝子シーケンシング断片の塩基の種類が参照ゲノムの塩基の種類と一致しない第1の遺伝子シーケンシング断片の数を、第1の遺伝子シーケンシング断片の変異数として特定することと、
    前記第1の遺伝子シーケンシング断片の変異数に基づいて、前記変異遺伝子座候補の非塩基配列特徴を特定することと、を含むことを特徴とする、請求項3に記載の方法。
  6. 前記所定の遺伝子座区間内に位置する各遺伝子座の非塩基配列情報に基づいて、前記変異遺伝子座候補の非塩基配列特徴を特定することは、
    前記遺伝子シーケンシング断片のうち、前記変異遺伝子座候補において変異遺伝子座候補の変異塩基の種類と一致する第2の遺伝子シーケンシング断片を特定することと、
    前記所定の遺伝子座区間内の各遺伝子座に対応する第2の遺伝子シーケンシング断片の数に基づいて、前記変異遺伝子座候補の非塩基配列特徴を特定することと、を含むことを特徴とする、請求項3に記載の方法。
  7. 前記所定の遺伝子座区間内に位置する各遺伝子座の非塩基配列情報に基づいて、前記変異遺伝子座候補の非塩基配列特徴を特定することは、
    前記遺伝子シーケンシング断片のうち、前記変異遺伝子座候補において変異遺伝子座候補の変異塩基の種類と一致する第2の遺伝子シーケンシング断片を特定することと、
    前記所定の遺伝子座区間内の各遺伝子座において、前記第2の遺伝子シーケンシング断片の塩基の種類が参照ゲノムの塩基の種類と一致しない第2の遺伝子シーケンシング断片の数を、第2の遺伝子シーケンシング断片の変異数として特定することと、
    前記第2の遺伝子シーケンシング断片の変異数に基づいて、前記変異遺伝子座候補の非塩基配列特徴を特定することと、を含むことを特徴とする、請求項3に記載の方法。
  8. 前記所定の遺伝子座区間内に位置する各遺伝子座の非塩基配列情報に基づいて、前記変異遺伝子座候補の非塩基配列特徴を特定することは、
    前記遺伝子シーケンシング断片のうち、変異遺伝子座候補において参照ゲノムと塩基の種類が一致せず、且つ変異遺伝子座候補において塩基の種類が変異遺伝子座候補の変異塩基の種類と一致しない第3の遺伝子シーケンシング断片を特定することと、
    前記所定の遺伝子座区間内の各遺伝子座に対応する第3の遺伝子シーケンシング断片の数に基づいて、前記変異遺伝子座候補の非塩基配列特徴を特定することと、を含むことを特徴とする、請求項3に記載の方法。
  9. 前記所定の遺伝子座区間内に位置する各遺伝子座の非塩基配列情報に基づいて、前記変異遺伝子座候補の非塩基配列特徴を特定することは、
    前記遺伝子シーケンシング断片のうち、変異遺伝子座候補において参照ゲノムと塩基の種類が一致せず、且つ変異遺伝子座候補において塩基の種類が変異遺伝子座候補の変異塩基の種類と一致しない第3の遺伝子シーケンシング断片を特定することと、
    前記所定の遺伝子座区間内の各遺伝子座において、前記第3の遺伝子シーケンシング断片の塩基の種類が参照ゲノムの塩基の種類と一致しない第3の遺伝子シーケンシング断片の数を、前記第3の遺伝子シーケンシング断片の変異数として特定することと、
    前記第3の遺伝子シーケンシング断片の変異数に基づいて、前記変異遺伝子座候補の非塩基配列特徴を特定することと、を含むことを特徴とする、請求項3に記載の方法。
  10. 前記所定の遺伝子座区間内に位置する各遺伝子座の非塩基配列情報に基づいて、前記変異遺伝子座候補の非塩基配列特徴を特定することは、
    前記少なくとも1つの遺伝子シーケンシング断片のうち、正常細胞に由来する遺伝子シーケンシング断片を特定することと、
    前記正常細胞の遺伝子シーケンシング断片の、前記所定の遺伝子座区間内に位置する各遺伝子座の非塩基配列情報に基づいて、前記変異遺伝子座候補の非塩基配列特徴を特定することと、を含むことを特徴とする、請求項3から9のいずれか一項に記載の方法。
  11. 前記所定の遺伝子座区間内に位置する各遺伝子座の非塩基配列情報に基づいて、前記変異遺伝子座候補の非塩基配列特徴を特定することは、
    前記少なくとも1つの遺伝子シーケンシング断片のうち、病変細胞に由来する遺伝子シーケンシング断片を特定することと、
    前記病変細胞の遺伝子シーケンシング断片の、前記所定の遺伝子座区間内に位置する各遺伝子座の非塩基配列情報に基づいて、前記変異遺伝子座候補の非塩基配列特徴を特定することと、を含むことを特徴とする、請求項3から9のいずれか一項に記載の方法。
  12. 前記変異遺伝子座候補の塩基配列特徴および非塩基配列特徴に基づいて、前記変異遺伝子座候補の遺伝子変異を認識することは、
    前記変異遺伝子座候補の塩基配列特徴および非塩基配列特徴に基づいて、前記変異遺伝子座候補の、第1の次元特徴が前記変異遺伝子座候補の塩基配列特徴および非塩基配列特徴に対応し且つ第2の次元特徴が前記所定の遺伝子座区間内の遺伝子座に対応する特徴行列を取得することと、
    前記変異遺伝子座候補の特徴行列に基づいて、前記変異遺伝子座候補の遺伝子変異を認識することと、を含むことを特徴とする、請求項1から11のいずれか一項に記載の方法。
  13. 前記変異遺伝子座候補の特徴行列に基づいて、前記変異遺伝子座候補の遺伝子変異を認識することは、
    前記変異遺伝子座候補の特徴行列に基づいて、前記変異遺伝子座候補の遺伝子の変異性を示す変異値を取得することと、
    前記変異値が所定の閾値以上である場合、前記変異遺伝子座候補の遺伝子に変異があると判定することと、を含むことを特徴とする、請求項12に記載の方法。
  14. 前記変異遺伝子座候補の塩基配列特徴および非塩基配列特徴に基づいて、前記変異遺伝子座候補の特徴行列を取得することは、
    前記変異遺伝子座候補の塩基配列特徴および非塩基配列特徴に基づいて、前記所定の遺伝子座区間の各第1の次元特徴の特徴ベクトルを生成することと、
    前記特徴ベクトルのうち、塩基配列特徴により形成される塩基配列特徴ベクトルを特定することと、
    前記塩基配列特徴ベクトルをランダムに順序付け、前記変異遺伝子座候補の特徴行列を得ることと、を含むことを特徴とする、請求項12に記載の方法。
  15. 変異遺伝子座候補に対応する少なくとも1つの遺伝子シーケンシング断片を取得することは、
    体細胞遺伝子による遺伝子シーケンシングで得られた遺伝子シーケンシング断片を取得することと、
    前記遺伝子シーケンシング断片の塩基配列を参照ゲノムの塩基配列と比較し、比較結果を得ることと、
    前記比較結果に基づいて、前記体細胞遺伝子に異常がある変異遺伝子座候補を特定することと、
    前記変異遺伝子座候補に対応する少なくとも1つの遺伝子シーケンシング断片を取得することと、を含むことを特徴とする、請求項1から14のいずれか一項に記載の方法。
  16. 変異遺伝子座候補に対応する少なくとも1つの遺伝子シーケンシング断片を取得する第1の取得モジュールと、
    前記変異遺伝子座候補の塩基配列特徴を取得する第2の取得モジュールと、
    前記少なくとも1つの遺伝子シーケンシング断片の、所定の遺伝子座区間における非塩基配列情報に基づいて、前記変異遺伝子座候補の、塩基配列の順序にもかかわらず不変である非塩基配列特徴を特定する特定モジュールと、
    前記変異遺伝子座候補の塩基配列特徴および非塩基配列特徴に基づいて、前記変異遺伝子座候補の遺伝子変異を認識する認識モジュールと、を含むことを特徴とする、遺伝子変異認識装置。
  17. 前記第2の取得モジュールは、
    前記変異遺伝子座候補が位置する所定の遺伝子座区間を特定する第1のサブ特定モジュールと、
    参照ゲノムの前記所定の遺伝子座区間における塩基配列情報に基づいて、前記変異遺伝子座候補の、塩基配列の順序を表す塩基配列特徴を取得する第2のサブ特定モジュールと、を含むことを特徴とする、請求項16に記載の装置。
  18. 前記特定モジュールは、
    前記少なくとも1つの遺伝子シーケンシング断片の、前記所定の遺伝子座区間内に位置する各遺伝子座の非塩基配列情報を取得する第1のサブ取得モジュールと、
    前記所定の遺伝子座区間内に位置する各遺伝子座の非塩基配列情報に基づいて、前記変異遺伝子座候補の非塩基配列特徴を特定する第3のサブ特定モジュールと、を含むことを特徴とする、請求項16または17に記載の装置。
  19. 前記第3のサブ特定モジュールは、具体的に、
    前記遺伝子シーケンシング断片のうち、前記変異遺伝子座候補において参照ゲノムと塩基の種類が一致する第1の遺伝子シーケンシング断片を特定することと、
    前記所定の遺伝子座区間内の各遺伝子座に対応する第1の遺伝子シーケンシング断片の数に基づいて、前記変異遺伝子座候補の非塩基配列特徴を特定することと、に用いられることを特徴とする、請求項18に記載の装置。
  20. 前記第3のサブ特定モジュールは、具体的に、
    前記遺伝子シーケンシング断片のうち、前記変異遺伝子座候補において参照ゲノムと塩基の種類が一致する第1の遺伝子シーケンシング断片を特定することと、
    前記所定の遺伝子座区間内の各遺伝子座において、前記第1の遺伝子シーケンシング断片の塩基の種類が参照ゲノムの塩基の種類と一致しない第1の遺伝子シーケンシング断片の数を、第1の遺伝子シーケンシング断片の変異数として特定することと、
    前記第1の遺伝子シーケンシング断片の変異数に基づいて、前記変異遺伝子座候補の非塩基配列特徴を特定することと、に用いられることを特徴とする、請求項18に記載の装置。
  21. 前記第3のサブ特定モジュールは、具体的に、
    前記遺伝子シーケンシング断片のうち、前記変異遺伝子座候補において変異遺伝子座候補の変異塩基の種類と一致する第2の遺伝子シーケンシング断片を特定することと、
    前記所定の遺伝子座区間内の各遺伝子座に対応する第2の遺伝子シーケンシング断片の数に基づいて、前記変異遺伝子座候補の非塩基配列特徴を特定することと、に用いられることを特徴とする、請求項18に記載の装置。
  22. 前記第3のサブ特定モジュールは、具体的に、
    前記遺伝子シーケンシング断片のうち、前記変異遺伝子座候補において変異遺伝子座候補の変異塩基の種類と一致する第2の遺伝子シーケンシング断片を特定することと、
    前記所定の遺伝子座区間内の各遺伝子座において、前記第2の遺伝子シーケンシング断片の塩基の種類が参照ゲノムの塩基の種類と一致しない第2の遺伝子シーケンシング断片の数を、第2の遺伝子シーケンシング断片の変異数として特定することと、
    前記第2の遺伝子シーケンシング断片の変異数に基づいて、前記変異遺伝子座候補の非塩基配列特徴を特定することと、に用いられることを特徴とする、請求項18に記載の装置。
  23. 前記第3のサブ特定モジュールは、具体的に、
    前記遺伝子シーケンシング断片のうち、変異遺伝子座候補において参照ゲノムと塩基の種類が一致せず、且つ変異遺伝子座候補において塩基の種類が変異遺伝子座候補の変異塩基の種類と一致しない第3の遺伝子シーケンシング断片を特定することと、
    前記所定の遺伝子座区間内の各遺伝子座に対応する第3の遺伝子シーケンシング断片の数に基づいて、前記変異遺伝子座候補の非塩基配列特徴を特定することと、に用いられることを特徴とする、請求項18に記載の装置。
  24. 前記第3のサブ特定モジュールは、具体的に、
    前記遺伝子シーケンシング断片のうち、変異遺伝子座候補において参照ゲノムと塩基の種類が一致せず、且つ変異遺伝子座候補において塩基の種類が変異遺伝子座候補の変異塩基の種類と一致しない第3の遺伝子シーケンシング断片を特定することと、
    前記所定の遺伝子座区間内の各遺伝子座において、前記第3の遺伝子シーケンシング断片の塩基の種類が参照ゲノムの塩基の種類と一致しない第3の遺伝子シーケンシング断片の数を、前記第3の遺伝子シーケンシング断片の変異数として特定することと、
    前記第3の遺伝子シーケンシング断片の変異数に基づいて、前記変異遺伝子座候補の非塩基配列特徴を特定することと、に用いられることを特徴とする、請求項18に記載の装置。
  25. 前記第3のサブ特定モジュールは、具体的に、
    前記少なくとも1つの遺伝子シーケンシング断片のうち、正常細胞に由来する遺伝子シーケンシング断片を特定することと、
    前記正常細胞の遺伝子シーケンシング断片の、前記所定の遺伝子座区間内に位置する各遺伝子座の非塩基配列情報に基づいて、前記変異遺伝子座候補の非塩基配列特徴を特定することと、に用いられることを特徴とする、請求項18から24のいずれか一項に記載の装置。
  26. 前記第3のサブ特定モジュールは、具体的に、
    前記少なくとも1つの遺伝子シーケンシング断片のうち、病変細胞に由来する遺伝子シーケンシング断片を特定することと、
    前記病変細胞の遺伝子シーケンシング断片の、前記所定の遺伝子座区間内に位置する各遺伝子座の非塩基配列情報に基づいて、前記変異遺伝子座候補の非塩基配列特徴を特定することと、に用いられることを特徴とする、請求項18から24のいずれか一項に記載の装置。
  27. 前記認識モジュールは、
    前記変異遺伝子座候補の塩基配列特徴および非塩基配列特徴に基づいて、前記変異遺伝子座候補の、第1の次元特徴が前記変異遺伝子座候補の塩基配列特徴および非塩基配列特徴に対応し、且つ第2の次元特徴が前記所定の遺伝子座区間内の遺伝子座に対応する特徴行列を取得するサブ生成モジュールと、
    前記変異遺伝子座候補の特徴行列に基づいて、前記変異遺伝子座候補の遺伝子変異を認識するサブ認識モジュールと、を含むことを特徴とする、請求項16から26のいずれか一項に記載の装置。
  28. 前記サブ認識モジュールは、具体的に、
    前記変異遺伝子座候補の特徴行列に基づいて、前記変異遺伝子座候補の遺伝子の変異性を示す変異値を取得することと、
    前記変異値が所定の閾値以上である場合、前記変異遺伝子座候補の遺伝子に変異があると判定することと、に用いられることを特徴とする、請求項27に記載の装置。
  29. 前記サブ生成モジュールは、具体的に、
    前記変異遺伝子座候補の塩基配列特徴および非塩基配列特徴に基づいて、前記所定の遺伝子座区間の各第1の次元特徴の特徴ベクトルを生成することと、
    前記特徴ベクトルのうち、塩基配列特徴により形成される塩基配列特徴ベクトルを特定することと、
    前記塩基配列特徴ベクトルをランダムに順序付け、前記変異遺伝子座候補の特徴行列を得ることと、に用いられることを特徴とする、請求項27に記載の装置。
  30. 前記第1の取得モジュールは、
    体細胞遺伝子による遺伝子シーケンシングで得られた遺伝子シーケンシング断片を取得する第2のサブ取得モジュールと、
    前記遺伝子シーケンシング断片の塩基配列を参照ゲノムの塩基配列と比較し、比較結果を得るサブ比較モジュールと、
    前記比較結果に基づいて、前記体細胞遺伝子に異常がある変異遺伝子座候補を特定する第4のサブ特定モジュールと、
    前記変異遺伝子座候補に対応する少なくとも1つの遺伝子シーケンシング断片を取得する第3のサブ取得モジュールと、を含むことを特徴とする、請求項16から29のいずれか一項に記載の装置。
  31. プロセッサと、
    プロセッサが実行可能な命令を記憶するメモリと、を含み、
    前記プロセッサは、請求項1から15のいずれか一項に記載の方法を実行するように構成されることを特徴とする、遺伝子変異認識装置。
  32. コンピュータプログラム命令が記憶されている不揮発性のコンピュータ読み取り可能な記憶媒体であって、コンピュータプログラム命令はプロセッサにより実行されると、請求項1から15のいずれか一項に記載の方法を実現させることを特徴とする、不揮発性のコンピュータ読み取り可能な記憶媒体。
JP2021517044A 2019-03-29 2019-05-31 遺伝子変異認識方法、装置および記憶媒体 Active JP7064655B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910252747.9 2019-03-29
CN201910252747.9A CN109979531B (zh) 2019-03-29 2019-03-29 一种基因变异识别方法、装置和存储介质
PCT/CN2019/089504 WO2020199337A1 (zh) 2019-03-29 2019-05-31 一种基因变异识别方法、装置和存储介质

Publications (2)

Publication Number Publication Date
JP2022502766A true JP2022502766A (ja) 2022-01-11
JP7064655B2 JP7064655B2 (ja) 2022-05-10

Family

ID=67081906

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021517044A Active JP7064655B2 (ja) 2019-03-29 2019-05-31 遺伝子変異認識方法、装置および記憶媒体

Country Status (6)

Country Link
US (1) US20210151124A1 (ja)
JP (1) JP7064655B2 (ja)
CN (1) CN109979531B (ja)
SG (1) SG11202101410WA (ja)
TW (1) TWI740262B (ja)
WO (1) WO2020199337A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111091873B (zh) * 2019-12-13 2023-07-18 北京市商汤科技开发有限公司 基因变异的识别方法及装置、电子设备和存储介质
CN111081313A (zh) * 2019-12-13 2020-04-28 北京市商汤科技开发有限公司 基因变异的识别方法及装置、电子设备和存储介质
CN111899790A (zh) * 2020-08-17 2020-11-06 天津诺禾医学检验所有限公司 测序数据的处理方法及装置
CN113539357B (zh) * 2021-06-10 2024-04-30 阿里巴巴达摩院(杭州)科技有限公司 基因检测方法、模型训练方法、装置、设备及系统
CN115458052B (zh) * 2022-08-16 2023-06-30 珠海横琴铂华医学检验有限公司 基于一代测序的基因突变分析方法、设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017033046A (ja) * 2015-07-28 2017-02-09 株式会社理研ジェネシス 変異判定方法、変異判定プログラムおよび記録媒体
JP2017070240A (ja) * 2015-10-07 2017-04-13 国立研究開発法人国立がん研究センター 稀少突然変異の検出方法、検出装置及びコンピュータプログラム
CN106611106A (zh) * 2016-12-06 2017-05-03 北京荣之联科技股份有限公司 基因变异检测方法及装置
KR20180060759A (ko) * 2016-11-29 2018-06-07 연세대학교 산학협력단 염기서열의 변이 검출방법 및 이를 이용한 염기서열의 변이 검출 디바이스

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002046462A2 (en) * 2000-12-07 2002-06-13 Isis Innovation Limited Functional genetic variants of matrix metalloproteinases (nmps)
CN103717749A (zh) * 2011-04-25 2014-04-09 伯乐生命医学产品有限公司 用于核酸分析的方法和组合物
CN104220597A (zh) * 2012-03-22 2014-12-17 和光纯药工业株式会社 使用了嵌入剂的变异基因的识别检测方法
WO2015015585A1 (ja) * 2013-07-31 2015-02-05 株式会社日立製作所 遺伝子変異分析装置、遺伝子変異分析システム及び遺伝子変異分析方法
WO2015062184A1 (en) * 2013-11-01 2015-05-07 Accurascience, Llc Method and apparatus for calling single-nucleotide variations and other variations
US20150376700A1 (en) * 2014-06-26 2015-12-31 10X Genomics, Inc. Analysis of nucleic acid sequences
JOP20200092A1 (ar) * 2014-11-10 2017-06-16 Alnylam Pharmaceuticals Inc تركيبات iRNA لفيروس الكبد B (HBV) وطرق لاستخدامها
US9988624B2 (en) * 2015-12-07 2018-06-05 Zymergen Inc. Microbial strain improvement by a HTP genomic engineering platform
BR112018068868A2 (pt) * 2016-03-18 2019-01-22 Monsanto Technology Llc plantas transgênicas com traços aprimorados
CN106529211A (zh) * 2016-11-04 2017-03-22 成都鑫云解码科技有限公司 变异位点的获取方法及装置
CN106407747A (zh) * 2016-11-04 2017-02-15 成都鑫云解码科技有限公司 肿瘤对应的基因的突变位点的获取方法及装置
CN106503489A (zh) * 2016-11-04 2017-03-15 成都鑫云解码科技有限公司 心血管系统对应的基因的突变位点的获取方法及装置
CN110914425B (zh) * 2017-06-06 2024-06-25 齐默尔根公司 用于改良刺糖多孢菌的高通量(htp)基因组工程改造平台
CN117766020A (zh) * 2018-05-07 2024-03-26 深圳市真迈生物科技有限公司 检测染色体非整倍性的方法、装置及系统
CN109033751B (zh) * 2018-07-20 2021-07-27 东南大学 一种非编码区单核苷酸基因组变异的功能预测方法
CN109411016B (zh) * 2018-11-14 2020-12-01 钟祥博谦信息科技有限公司 基因变异位点检测方法、装置、设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017033046A (ja) * 2015-07-28 2017-02-09 株式会社理研ジェネシス 変異判定方法、変異判定プログラムおよび記録媒体
JP2017070240A (ja) * 2015-10-07 2017-04-13 国立研究開発法人国立がん研究センター 稀少突然変異の検出方法、検出装置及びコンピュータプログラム
KR20180060759A (ko) * 2016-11-29 2018-06-07 연세대학교 산학협력단 염기서열의 변이 검출방법 및 이를 이용한 염기서열의 변이 검출 디바이스
CN106611106A (zh) * 2016-12-06 2017-05-03 北京荣之联科技股份有限公司 基因变异检测方法及装置

Also Published As

Publication number Publication date
TWI740262B (zh) 2021-09-21
US20210151124A1 (en) 2021-05-20
WO2020199337A1 (zh) 2020-10-08
JP7064655B2 (ja) 2022-05-10
CN109979531B (zh) 2021-08-31
CN109979531A (zh) 2019-07-05
TW202036584A (zh) 2020-10-01
SG11202101410WA (en) 2021-03-30

Similar Documents

Publication Publication Date Title
JP7064654B2 (ja) 遺伝子変異認識方法、装置および記憶媒体
JP7064655B2 (ja) 遺伝子変異認識方法、装置および記憶媒体
Schrider et al. Soft sweeps are the dominant mode of adaptation in the human genome
Girgis Red: an intelligent, rapid, accurate tool for detecting repeats de-novo on the genomic scale
Ummat et al. Resolving complex tandem repeats with long reads
CN109979530B (zh) 一种基因变异识别方法、装置和存储介质
Franssen et al. Reconstruction of haplotype-blocks selected during experimental evolution
Lau et al. LongISLND: in silico sequencing of lengthy and noisy datatypes
Georgakilas et al. Multi-branch convolutional neural network for identification of small non-coding RNA genomic loci
Sann et al. Reanalysis of the apoid wasp phylogeny with additional taxa and sequence data confirms the placement of Ammoplanidae as sister to bees
CN109558600B (zh) 翻译处理方法及装置
KR102572274B1 (ko) 염기서열 시퀀싱 데이터 분석 장치 및 그 동작 방법
Nayarisseri et al. Impact of Next-Generation Whole-Exome sequencing in molecular diagnostics
Kao et al. naiveBayesCall: An efficient model-based base-calling algorithm for high-throughput sequencing
WO2020183428A2 (en) Method and system for mapping read sequences using a pangenome reference
Fedarko et al. Analyzing rare mutations in metagenomes assembled using long and accurate reads
CN112908412A (zh) 用于复合杂合变异致病证据适用性的方法、设备和介质
Pavlovich et al. Sequences to Differences in Gene Expression: Analysis of RNA-Seq Data
Moraga et al. BrumiR: A toolkit for de novo discovery of microRNAs from sRNA-seq data
CN110570908A (zh) 测序序列多态识别方法及装置、存储介质、电子设备
Ripon et al. Machine-learning approach for ribonucleic acid primary and secondary structure prediction from images
Sheikh et al. Base-calling for bioinformaticians
CN111091873B (zh) 基因变异的识别方法及装置、电子设备和存储介质
Bian et al. Hidden Markov models in bioinformatics: SNV inference from next generation sequence
Kanaka et al. Deep Learning in Neural Networks and their Application in Genomics

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210325

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210325

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220118

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220419

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220422

R150 Certificate of patent or registration of utility model

Ref document number: 7064655

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150