JP2021508488A - データの解釈、ならびにユーザの遺伝的データ及び腸内マイクロバイオータの組成に関するデータに基づいてユーザに推奨事項を提供するシステム及び方法 - Google Patents

データの解釈、ならびにユーザの遺伝的データ及び腸内マイクロバイオータの組成に関するデータに基づいてユーザに推奨事項を提供するシステム及び方法 Download PDF

Info

Publication number
JP2021508488A
JP2021508488A JP2020541333A JP2020541333A JP2021508488A JP 2021508488 A JP2021508488 A JP 2021508488A JP 2020541333 A JP2020541333 A JP 2020541333A JP 2020541333 A JP2020541333 A JP 2020541333A JP 2021508488 A JP2021508488 A JP 2021508488A
Authority
JP
Japan
Prior art keywords
data
user
genetic
disease
microbiota
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020541333A
Other languages
English (en)
Inventor
ブラディミロヴィッチ ムシエインコ,セルゲイ
ブラディミロヴィッチ ムシエインコ,セルゲイ
ヴァレンチノヴィチ ペルフィレヴ,アンドレイ
ヴァレンチノヴィチ ペルフィレヴ,アンドレイ
アレクサンドロヴィッチ オシペンコ,ドミトリー
アレクサンドロヴィッチ オシペンコ,ドミトリー
アーカデヴィッチ ニコゴソヴ,ドミトリー
アーカデヴィッチ ニコゴソヴ,ドミトリー
グレボヴィッチ アレクシーフ,ドミトリー
グレボヴィッチ アレクシーフ,ドミトリー
ヴィクトロヴィッチ ティアカ,アレクサンドラ
ヴィクトロヴィッチ ティアカ,アレクサンドラ
Original Assignee
アトラス バイオムド グループ リミティッド
アトラス バイオムド グループ リミティッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アトラス バイオムド グループ リミティッド, アトラス バイオムド グループ リミティッド filed Critical アトラス バイオムド グループ リミティッド
Publication of JP2021508488A publication Critical patent/JP2021508488A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/40Population genetics; Linkage disequilibrium
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/40ICT specially adapted for the handling or processing of patient-related medical or healthcare data for data related to laboratory analysis, e.g. patient specimen analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/30ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to physical therapies or activities, e.g. physiotherapy, acupressure or exercising
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/60ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to nutrition control, e.g. diets
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/70ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to mental therapies, e.g. psychological therapy or autogenous training
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/60ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices
    • G16H40/63ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices for local operation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/60ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices
    • G16H40/67ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices for remote operation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B10/00ICT specially adapted for evolutionary bioinformatics, e.g. phylogenetic tree construction or analysis

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Developmental Disabilities (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Psychology (AREA)
  • Social Psychology (AREA)
  • Nutrition Science (AREA)
  • Child & Adolescent Psychology (AREA)
  • Physical Education & Sports Medicine (AREA)
  • Ecology (AREA)
  • Physiology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

この技術的決定は、遺伝学及び微生物学におけるコンピュータ技術の分野、より具体的には、遺伝的データ及び微生物学の分野におけるヒトの腸内マイクロバイオータの組成に関するデータを研究し、解釈するための新しいシステム及び方法に関する。遺伝的データ及び/または腸内マイクロバイオータの組成に関するデータに基づいて推奨事項をユーザに提供するためのシステムであって、本システムは、ユーザの遺伝的データ及び/またはユーザの腸内マイクロバイオータデータを取得するように構成された一次データ取得ユニットと、一次データ取得ユニットによって取得されたユーザの遺伝的データ及びユーザの腸内マイクロバイオータデータの品質を監視するように構成された品質管理ユニットであって、遺伝的データには一塩基多型が含まれ、マイクロバイオータデータにはリードが含まれる、品質管理ユニットと、そのユーザの遺伝的データに基づくユーザの集団組成である、父系ハプログループ及び母系ハプログループを決定するように構成されたユーザ起源決定ユニットと、メタゲノムリスクを分類する機能により実行される、マイクロバイオータデータの分類学的分析のブロックと、疾患に対する保護を決定し、ならびに病原性対立遺伝子の存在についての変異試験を行い、疾患状態評価行うように構成された疾患リスク決定ユニットと、特徴の依存関係グラフを縮小することによってユーザ機能の状態を決定するように構成された症状検出ユニットと、ユーザへの推奨事項を生成するためのユニットであって、疾患リスク決定ユニット及びユーザ属性決定ユニットのデータに基づいてユーザへの推奨事項を形成するように構成されたユニットと、を備える。
技術的な結果は、ユーザの遺伝的データ及び腸内マイクロバイオータの組成に関するデータに基づいて、ユーザに対する推奨事項の正確性を高めることである。
【選択図】図1

Description

本出願は、2017年10月3日に出願されたPCTロシア国特許出願公開第2017/000734号明細書の国内出願である。上記の出願の内容は、参照により本明細書に組み込まれる。
この技術的決定は、一般に遺伝学及び微生物学におけるコンピュータ技術の分野に関し、より具体的には、ユーザに推奨事項を作成するために微生物学の分野において、遺伝的データ及び/またはヒトの腸内マイクロバイオータの組成に関するデータを研究し、解釈するための新しいシステム及び方法に関する。
ヒトの身体は、地球上で最も密度の高い生息地のうちの1つである。こうした「生物学的系」で生息する微生物の数は約100兆個の細菌であり、ヒトのすべての組織及び臓器の真核細胞の総数よりもはるかに多い。体細胞のわずか10%が自分自身のものであり、残りの90%は細菌に属している。ヒトのすべての微生物の全体は、マイクロフローラまたはマイクロバイオータと呼ばれ、それらの遺伝子全体が、メタゲノムと呼ばれる。同時に、ヒトのメタゲノムは、ヒトのゲノム自体よりも100〜150倍大きい。微生物のほとんどは胃腸管内にあるため、これらのデータの調査及び解釈は非常に重要な技術的作業である。事実、現在、ヒトの身体の別の器官としての腸内のマイクロバイオータの概念が形成されている。これは、進化により発達した組織の複合体である生物の一部としての器官の歴史的に形成された定義と矛盾するものではなく、共通の機能、構造組織、及び発現によって統合されている。この場合、ヒトは「超生物」と見なすことができ、その代謝は、ヒトのゲノムのみでなく、すべての微生物のゲノムによってコードされた酵素の十分に編成された働きによってもたらされる。
ヒトの遺伝学は、遺伝に関する情報を運ぶDNAの一部である遺伝子を介して伝達されるヒトの先天的機能である。ヒトの遺伝学は多くの場合、最も一般的な疾患の発生に貢献している。私たちは、生活様式及び食事の決定、職業の選択、ある種のスポーツの実践などにおいて、ヒトの遺伝的特徴を無視することはできない。多因子性疾患は、例えば、生態学、生活様式、身体活動及び遺伝などのいくつかの要因の影響下で発症する。したがって、修飾可能な要因を調整するリスクを低減できる。したがって、個人の予防策を形成するためには、遺伝的リスクの知識が重要である。多くの要因が身体内のすべてのプロセスに反し、様々な疾患の発症をもたらす。これは、ヒトの遺伝的データを調査して、健康、栄養、スポーツ、生活様式などの要因に関する推奨事項を作成することで防ぐことができる。
マイクロバイオータ及び遺伝学がヒトの健康に与える影響が大きいことを考慮すると、それらの研究及び解釈に関連する取り組みを継続する必要がある。
この技術的決定は、技術レベルから既知である解決法において固有の欠点を排除することを目的としている。
この技術的決定で扱われる技術的課題または問題は、遺伝的データ及び/または腸内マイクロバイオータの組成に関するデータに基づいて、ユーザに生活様式、疾患の予防、栄養及び身体活動に関する推奨事項を形成することである。
上記の技術的問題の主な目的は、遺伝的データ及び腸内マイクロバイオータの組成に関するデータの検討事項に基づいて、ユーザに対する推奨事項の正確性を高めることである。
この技術的結果は、遺伝的データ及び/または腸内マイクロバイオータの組成に関するデータに基づいて、ユーザに推奨事項を生成するためのシステムの実装により達成され、このシステムは、ユーザから遺伝的データ及び/または腸内マイクロバイオータデータを取得するように構成された一次データ取得ユニットと、一次データ取得ユニットによって取得されたユーザの遺伝的データ及びユーザの腸内マイクロバイオームデータの品質を監視するように構成された品質管理ユニットであって、遺伝的データには一塩基多型が含まれ、マイクロバイオータデータにはリードが含まれる、品質管理ユニットと、ユーザの遺伝的データの集団組成である、父系ハプログループ及び母系ハプログループを決定するように構成された集団遺伝分析ユニットと、メタゲノムのリードを、腸内マイクロバイオータの微生物遺伝子の配列のセットで構成されるカタログにマッピングするように構成された分類学的データ分析ユニットと、
疾患に対する保護を決定し、ならびに病原性対立遺伝子の存在についての変異試験を行い、疾患状態評価行うように構成された疾患リスク決定ユニットと、機能依存関係グラフを縮小することによってユーザの機能の状態を決定するように構成された属性決定ユニットと、疾患リスク決定ユニット及びユーザ属性決定ユニットのデータに基づいてユーザへの推奨事項を策定する能力を備えた、ユーザへの推奨事項を生成するためのユニットと、を備える。
一次データ取得ユニットは、技術的決定のいくつかの実施形態では、シーケンサーから受信したFASTQまたはFASTA形式でシーケンスファイルを受信する。
技術的決定のいくつかの実施形態では、品質管理ユニットは、バイオチップスキャナによってシリコンバイオチップからユーザの遺伝的データを取得する。
技術的決定のいくつかの実施形態では、遺伝的データは、X染色体及びY染色体多型を含む、ユーザの一塩基多型の遺伝子型に関するデータを含む。
技術的決定のいくつかの実施形態では、品質管理ユニットではさらに、X染色体及びY染色体に沿った一塩基多型の数を数えることにより、ユーザの性別を決定する。
男性の性別の場合、技術的決定のいくつかの実施形態では、品質管理ユニットは、X染色体及びY染色体を有するホモ接合状態の一塩基多型をヘミ接合状態の一塩基多型に変換する。
技術的決定のいくつかの実施形態では、品質管理ユニットは、所定の閾値を下回るDNAシーケンサーから取得した平均品質値を有するリードをフィルタリング処理により取り除く。
技術的決定のいくつかの実施形態では、品質管理ユニットでは、低い品質値を有するリードエンドからその位置が削除される。
技術的決定のいくつかの実施形態では、品質管理ユニットでは、アーチファクト遺伝子配列を読み取ることにより、生物学的起源及び技術的起源の両方を有する腸内マイクロバイオータに関連しないリードからの外来遺伝情報を拒否する。
技術的決定のいくつかの実施形態では、集団遺伝分析ユニットでは、Y染色体の変異ツリー及びユーザの遺伝的データに基づいて父系ハプログループを決定する。
技術的決定のいくつかの実施形態では、集団遺伝分析ユニットは、ミトコンドリアの変異ツリー及びユーザの遺伝的データに基づいて母系ハプログループを決定する。
技術的決定のいくつかの実施形態では、集団遺伝的データ分析ユニットは、異なる集団からのヒトの遺伝子型に関するデータ及びユーザの遺伝的データに基づいて、集団組成を決定する。
技術的決定のいくつかの実施形態では、ユーザの遺伝的データ及び特定の多型でネアンデルタール人から継承された対立遺伝子のセットに基づく集団遺伝分析データユニットは、ネアンデルタール人の対立遺伝子の総数を決定する。
技術的決定のいくつかの実施形態では、分類学的データ分析ユニットによってメタゲノムリードをカタログにマッピングする場合、このカタログには、ユーザの腸内で発生する細菌及び/または古細菌及び/または真核生物のゲノム配列が含まれる。
技術的決定のいくつかの実施形態では、マイクロバイオータデータの分類学的データユニットでは、ゲノムまたは微生物種の相対的存在量を決定する。
技術的決定のいくつかの実施形態では、マイクロバイオータデータの分類学的データユニットは、属または種の分類学的レベルに加えて、他の分類学的レベルの希薄化表現テーブルを生成する。
技術的決定のいくつかの実施形態では、疾患リスク決定ユニットでは、腸内マイクロバイオータに関連することが知られていない日和見病原体または微生物のリストから、分類群のうちの1つに関連するリードの合計パーセンテージを確認することにより、試料組成の異常の程度を推定する。
技術的決定のいくつかの実施形態では、疾患リスク決定ユニットでは、参照データに基づいてマイクロバイオータデータからユーザの疾患に対する保護を決定する。
技術的決定のいくつかの実施形態では、属性決定ユニットでは、依存関係グラフ内のサイクルの確認を実行し、サイクルが存在する場合、ブロックにより、グラフを縮小することはできない。
この技術的決定の特徴及び利点は、以下の詳細な説明及び添付の図面から明らかになる。
遺伝的データ及び/または腸内マイクロバイオータの組成に関するデータに基づいてユーザに推奨事項を提供する方法のブロック図である。 遺伝的データ及び/または腸内マイクロバイオータの組成に関するデータに基づいて表示された、推奨事項をユーザに提供するためのシステムのブロック図である。 遺伝的データ及び/または腸内マイクロバイオータの組成に関するデータに基づいて推奨事項をユーザに提供するためのシステムのプロセスを示す図である。 同じユーザの試料が異なる遺伝子型を有する実施形態を示す図である。 試料の数に応じて、同じユーザの遺伝子型が異なり得る実施形態を示す図である。
以下では、技術的決定の説明で使用される用語及びその定義について詳細に分析する。
本発明において、システムとは、コンピュータシステム、ECM(電子計算機)、PNC(プログラム数値制御)、コンピュータ制御システム、及び特定の明確に定義された操作シーケンス(アクション、命令)を実行できる任意の他のデバイスを意味する。
命令ユニットとは、機械の命令(プログラム)を実行する電子アセンブリまたは集積回路(マイクロプロセッサ)を意味する。命令ユニットは、1つ以上のデータストレージデバイスから機械命令(プログラム)を実行する。ストレージデバイスとしては、これらに限定されないが、ハードドライブ(HDD)、フラッシュメモリ、ROM(リードオンリーメモリ)、ソリッドステートドライブ(SSD)、光学ドライブなどが挙げられる。
プログラムは、コンピュータ制御デバイスまたはコマンド処理デバイスによって実行されるように設計された一連の命令である。
ヒトのマイクロバイオータ(正常なマイクロフローラ、正常細菌叢)は、ヒトの身体内のすべての微生物の複合体である。
遺伝的データとは、特定の生物のすべての染色体を含む、DNA構造、DNAヌクレオチドの配列、DNA配列内の単一及びオリゴヌクレオチドの変化に関する情報である。遺伝情報は、形態学的構造、成長、発達、代謝、メンタルメイク、疾患に対する責任、及び身体の遺伝的欠損を部分的に決定する。
一塩基多型(SNP)は、同じ種のゲノム(または別の同等の配列)内または相同染色体の相同領域間の1つのヌクレオチド(A、T、G、またはC)のDNA配列である。
ハプログループは、共通の祖先を有する類似のハプロタイプのグループであり、すべての子孫に継承された変異(通常は一塩基多型)が発生する。
用語「ハプログループ」は、Y染色体(Y−DNA)、ミトコンドリアDNA(mtDNA)、及びGKGハプログループのハプログループを研究することにより、人類の遺伝的歴史を研究する科学である遺伝系図において広く使用されている。
対立遺伝子は、相同染色体の同じ領域(遺伝子座)にある同じ遺伝子の異なる形(値)である。
DNAシーケンシングとは、DNA分子内のヌクレオチドの配列を決定することである。これは、アンプリコンシーケンシング(16S rRNA遺伝子またはその断片などのPCR反応の結果として得られた単離されたDNA断片の配列を読み取ること)及び全ゲノムシーケンシング(試料内に存在する全DNAの配列を読み取ること)として理解され得る。
ホモ接合状態は、所定の遺伝子座内の対立遺伝子が相同染色体上で互いに同一である遺伝子座の状態である。
ヘテロ接合状態は、所定の遺伝子座内の対立遺伝子が相同染色体上で互いに異なる遺伝子座の状態である。
ヘミ接合状態は、相同対立遺伝子を有さない遺伝子座の状態であり、すなわち、遺伝子座が位置している染色体は、相同対を有さない。
RsIDは、個々の一塩基多型の識別子の指定である。
リードは、DNAシーケンサーで取得したDNA断片のヌクレオチド配列を表すデータである。リードは、DNAシーケンサーで取得したDNA断片のヌクレオチド配列を表すデータである。
FASTAは、DNA配列のレコード形式である。
系統発生学または系統分類学は、現代及び絶滅の両方の地球上の様々な種類の生命間の進化的関係の特定及び解明を扱う生物学的分類学の分野である。
α−多様性は、単一のニッチ内の微生物群集の多様性を特徴付ける数値である。α−多様性は、マイクロバイオータの種組成に関するデータに基づくアルゴリズムを使用して計算される。
β−多様性は、2つの微生物群集間の差の測定値を特徴付ける数値である。これは、群集間の多様性、種の分布の分化の度合いの指標、または種組成、環境の勾配に沿った種の構造の変化率の指標である。β−多様性を決定するための可能な方法は、異なる群集の種組成を比較することである。群集内でまたは勾配の異なるポイントで共通の種が少ないほど、β多様性は高くなる。
ショートリードのマッピングは、次世代シーケンシングの結果を分析するためのバイオインフォマティクス手法であり、各特定のショートリーディングを受け取る可能性が最も高いゲノムまたは遺伝子の参照塩基内の位置を決定することからなる。
DNAシーケンシングの結果として、一連のリードが作成される。現代のシーケンサーでのリード長は、数百から数千のヌクレオチドの範囲である。
ゲノムの「ゴールドスタンダード」(参照)は、特定の生物種の遺伝暗号の一般的な代表例として科学者によってコンパイルされた、デジタル形式のDNA配列である。ヒトゲノムの場合、これは、例えば、断続的な遺伝子座を有する半数体ゲノムであるGRChg37(ゲノム参照コンソーシアムヒトゲノム37)のアセンブリ型(すなわち、元々同じ配列に列挙されている対立遺伝子のバリアントが、異なる染色体上にある場合がある)であり得る。
分類学−複雑に編成された階層的に相関するエッセンスの分類及び体系化の原則及び実践の教義である。
いくつかの実施形態では、方法100は、図2に示されるように、一連のブロックであるシステム200に実装される。しかし、方法100は、代替的には、実行した微生物分析から得たデータを作成し、交換するための他の情報と共に、これらのユーザの遺伝的データ及び腸内マイクロバイオータデータを受信し、処理するように構成された任意の他の好適なシステム(複数可)を使用して実行され得る。
一次データ取得ユニット201は、少なくとも1人のユーザから試料を受け取る。上記のデータは、図3に示すように、プロセス試薬成分を有し、ユーザが採取部位から試料を受け取るように構成された試料用容器301などのサンプリングキットを使用してユーザから取得する。一次データ取得ユニットから離れた場所にいるユーザは、信頼できる様態で試料を提供できる。サンプリングキットの配達は、小包配達サービス(例えば、郵便サービス、配達サービスなど)を使用して実行されることが好ましい。追加的にまたは代替的に、サンプリングキットは、屋内または屋外に設置されたデバイスを介して直接提供され得、これは、ユーザからの試料の受け取りを容易にすることを目的とする。他の実施形態では、サンプリングキットは、臨床検査技師によって診療所または他の医療機関に配達できる。しかし、一次データ取得ユニット201におけるユーザサンプリングセット(複数可)の提供は、追加的または代替的に、任意の他の好適な方法によって実行され得る。
一次データ取得ユニット201内で提供されるサンプリングセット(複数可)は、非侵襲的な様態でユーザからの試料の受け取りを容易にするように構成されることが好ましい。いくつかの実施形態では、ヒトから試料を取得するための非侵襲的方法では、透過性基材(例えば、ヒトの身体領域を拭くことができるタンポン、トイレットペーパー、スポンジなど)、ユーザの身体領域から試料を受け取るように構成された容器(例えば、バイアル、チューブ、袋など)、及び任意の他の好適な受け取り要素(唾液、糞便、尿など)のいずれかまたはいくつかを使用できる。特定の例では、試料は、1つの臓器またはいくつかの臓器、例えば、鼻、皮膚、ヒトの性器、口腔、及び腸などから非侵襲的に収集できる(例えば、タンポン及びバイアルを使用する)。しかし、一次データ取得ユニット201内に提供される試料収集セットは、追加的または代替的に、半侵襲的様態または侵襲的様態での試料の受け取りを容易にするために使用され得る。いくつかの実施形態では、試料を受け取るための侵襲的方法は、針、シリンジ、生検マガジン(biopsy magazine)、トレフィン及び半侵襲的または侵襲的な様態で試料を収集するための任意の他の好適な器具などの物品を使用できる。特定の例では、ユーザ試料には、1つ以上の血液試料、血漿/血清試料(例えば、無細胞DNAの抽出用)、及び組織試料が含まれ得る。
入力試料は、例えば実験室で処理できる試料(唾液、尿、糞便、血液)であり得、遺伝的データ及び腸内マイクロバイオータの組成に関するデータは、シーケンシングまたはジェノタイピングによって取得される。
いくつかの実施形態では、一次データ取得ユニット201は、ユーザ(複数可)に関連するセンサ(例えば、ポータブルコンピューティングデバイスのセンサ、モバイルデバイスセンサ、ユーザに関連するバイオメトリックセンサ)からユーザ推奨事項を生成する際に考慮される追加データを受信し得る。したがって、一次データ取得ユニット201は、ユーザの身体活動またはユーザへの物理的影響(例えば、モバイルデバイスまたはユーザのウェアラブルコンピューティングデバイスからの加速度計及びジャイロデータ)、環境データ(例えば、温度データ、高度データ、気候データ、光パラメータデータなど)、ユーザ力データまたは食事データ(例えば、受信した食品の登録記録からのデータ、分光分析のデータなど)、生体認証データ(例えば、モバイルコンピューティングデバイスのユーザのセンサによって記録されたデータ)、位置データ(例えば、GPSセンサを使用する)、診断データ、または任意の他の好適なデータに関する情報を取得することを含むことができる。追加のデータセットは、追加的にまたは代替的に、医療記録及び/またはユーザ(複数可)の臨床データから取得できる。いくつかの実施形態では、追加のデータセットは、ユーザ(複数可)の1つ以上の電子医療記録(EHR)から取得できる。
品質管理ユニット202は、一次データ取得ユニット201で得られたユーザ試料に基づいて、一塩基多型及びユーザリードを受信する。
遺伝的データを取得する際の技術のレベルには、いくつかの種類のエラーがある。例えば、図4に示すように、同じユーザの試料は異なる遺伝子型を有する。または、例えば、同じユーザの遺伝子型は、試料の数に依存して異なり得る(図5)。
誤解を防ぐために、過去には、遺伝子工学のレベルは、1つの一塩基多型の病原性対立遺伝子の数及び非常に非効率的な強度インジケーターに基づいて、試料の正確さを手動で確認することを暗示していた。
一塩基多型の調製において、品質管理ユニット202は、それらの品質管理(QC−品質管理)を実行する。データは、ユーザのDNAに特異的に結合するDNAプローブの小さい片を含む、バイオチップスキャナを使用して、シリコンバイオチップから得る。バインドがこれらのデータに正常にリンクされている場合は、蛍光標識を付着させることができる。ジェノタイピング用のバイオチップにより、SNPタイピング及び遺伝子のコピー数の多様性の分析、バイオバンク用の試料のジェノタイピング、標的化したジェノタイピングを実行できる。バイオチップスキャナの作業の結果、特定のユーザの一塩基多型の遺伝子型に関する情報が得られる。これには、X染色体及びY染色体を有する多型も含まれる。上記の情報には、遺伝子多型識別子(rsID)及び1つまたは2つの対立遺伝子が含まれ得る。この場合の対立遺伝子は、A、T、G、C、−の文字列である。例えば、データは次の形式で表示できる。
最初の段階では、ユーザの性別は、X染色体及びY染色体による一塩基多型の数を数えることによって決定される。特に、ホモ接合状態にあるX染色体での一塩基多型の割合及びY染色体でジェノタイピングを実行できなかった一塩基多型の割合が計算される。X染色体での一塩基多型を計算するには、ホモ接合状態にあるX染色体での一塩基多型の数が決定され、X染色体での一塩基多型の総数、その後、染色体の最初の数と2番目の数との比率が決定される。Y染色体での一塩基多型を計算するためは、遺伝子型が決定していない一塩基多型の数が決定され、その後、Y染色体での一塩基多型の総数が得られ、その後、染色体の最初の数と2番目の数との比率が求められる。
X染色体とY染色体との性決定が一致する場合、最終的な性別が明確に決定される。男性がXで定義され、女性がYで定義される場合、結果は、ターナー症候群の兆候であるX0−である。反対の場合、クラインフェルター症候群の兆候である。いくつかの実施形態では、X染色体とY染色体との性決定が不一致の場合、欠陥について試料の追加の検査が行われ、それが欠陥であり、言及された2つの症候群ではない可能性が高い。
男性の場合の品質管理段階における品質管理ユニット202による性別判定後、X染色体及びY染色体を有するホモ接合状態の一塩基多型は、ヘミ接合状態の一塩基多型に変換され、X染色体及びY染色体を有するヘテロ接合一塩基多型はフィルター処理により除外され、遺伝的データの最終試料には含まれていない。女性の場合、Y染色体を有するすべての一塩基多型が除外され、遺伝的データの最終的な試料には含まれていない。この技術的決定における変換は、ペアから1つの対立遺伝子を取り除くことである。
また、一次データ取得ユニット201では、腸内マイクロバイオータの16S rRNAの微生物遺伝子をシーケンシングすることによってデータを取得する。いくつかの実施形態では、一次データ取得ユニット201は、シーケンサーから受信したFASTQまたはFASTA形式で、試料ごとに1つのファイルのシーケンスファイルを受信する。増幅シーケンシングが好ましい場合があるが、全ゲノムシーケンシング(WGS)が使用され得る。
シーケンシング中、シーケンサーの起動の最終段階は、塩基の呼び出しである。ここでは、デバイスの中間「生」シグナル(画像、スペクトル、強度マップ)を、品質ポイント(各ヌクレオチドの位置に対して1つのポイント)を伴うリードの数に変換する。リードは、ヌクレオチドの4つのシンボル(A、C、G、及びT)、ならびにサービスシンボルNまたは「.」または「?」で構成され、例えば、「GCAAAAAACTTACCCCGGAACAGGCCGAGCAGATCAAAACGCTACTGCAATACAGA CCATCAAGCACCAACTCCCNNNCGTAGNNNNNNTATGTTNNNNG」の形態で、この位置での値に関する全体の不確実性を示す(シーケンサーでは、ヌクレオチドを決定できない)。次の読み取りの特徴が最も重要である。1つ目は、読み取りに要する時間であり、2つ目は、発生する可能性のあるエラー及びその頻度である。品質値は、この位置でエラーが発生しない確率を特徴付ける値であり、この値は、シグナルの品質に基づいてシーケンサーによって計算される。
式中、Pは、この位置のエラー確率である。異なる実施形態では、リード及びそれらの品質値は、各試料に対して2つのファイル(FASTA形式)として生成するか、単一のファイル(FASTQ形式)に組み合わせることができる。また、ディスク容量を節約するために、これらのテキスト表現はバイナリ形式に変換され得る。
この計算を高速化するために、例えば、500MBを超えるFASTQ形式のサイズのファイルは、例えば、89951リードまでランダムに希薄化される(このリードの数は、250ヌクレオチド長のリードを有する500MBの平均的ファイルサイズに対応している)。特定の値から始めて、シーケンシングの深さを増加させても、マイクロバイオータの受け取った種組成にはほとんど影響がない。
品質管理ユニット202では、所定の閾値を下回る平均品質値を有するリードをサンプリングする。他の実施形態では、低い品質値を有する位置をリードエンドから適応的に除去することができる(例えば、固定閾値よりも高い品質値を有する位置に遭遇するまで、5’から3’端までのすべてのヌクレオチドが順次除去される)。加えて、品質管理ユニット202では、親DNAの不適切な化学修飾の結果生じるアーチファクト配列の読み取りによる非生物学的起源を有するリードにおける外来遺伝情報をフィルター処理により除去する。
品質管理プロセスを実行するとき、品質管理ユニット202は、計算方法(例えば、統計的方法、機械学習方法、人工知能技術、バイオインフォマティクス技術など)を使用できる。
次に、品質管理ユニット202は、座標(染色体及びその位置)ならびにユーザの遺伝子型を含むユーザの一塩基多型のリストを遺伝的データ分析集団ユニット203に送信する。
ハプログループには、母系ハプログループ及び父系ハプログループの2種類がある。
遺伝的データ分析集団ユニット203では、父系ハプログループは、Y染色体の変異ツリー及びユーザの遺伝的データに基づいて最初に決定される。変異ツリーは、例えば、XML形式で表すことができる。ユーザの遺伝的データには、座標(染色体及び位置)ならびにユーザの遺伝子型を含む一塩基多型のリストが含まれる。Y染色体の変異ツリーには、各ハプログループ(位置−多型)に特徴的な変異が含まれる。
母系ハプログループのデータ構造及び計算方法は、母系ハプログループが、MT染色体のSNP(一塩基多型)から計算され、父系ハプログループが、Y染色体のSNP(一塩基多型)から計算される点を除いて、父系ハプログループと同じである。その結果、男性については、父系及び母系の両方のハプログループが計算され、女性については、母系のハプログループのみが計算される。
元のハプログループを除く各ハプログループは、1つの親ハプログループ及び1つ以上の娘ハプログループを有する。各ハプログループは、変異を決定する有限のリストを有する。したがって、ハプログループのツリーが形成され、そのエッジは変異のセットによって決定される。
遺伝的データ分析集団ユニット203では、ユーザの遺伝的データである変異ツリーを使用して、父系ハプログループを決定し、次のように動作する。
変異ツリー内の各多型の出現回数を決定する(例えば、A123Gはツリー内で3回出現し、T456Cはツリー内で22回出現する)。
ツリー内の多型の最大可能出現数を個別に保存する(任意の数、例えば、30が取得される)。
次式に従って各多型を評価する。多型の最大出現数(前のステップで決定)から、ツリー内の所定の多型の出現数を差し引く。この値は、多型の重みである。
試料(ユーザデータ)と各ハプログループ間の多型の一致を検出する。
試料(ユーザデータ)と各ハプログループ間の多型間の不一致を検出する。この技術的決定に関連して、不一致多型とは、変異が逆の多型である。例えば、変異ツリー内に変異A12345Cが存在し、ユーザがA遺伝子型を有する場合、遺伝的データ分析集団ユニット203では、これは、一致する多型ではないと判断する。
変異ツリーに変異A12345Cが存在し、ユーザにCの遺伝子型もAの遺伝子型もない場合、遺伝的データ分析集団ユニット203では、変異を相補鎖にマッピングし、T12345Gが取得される。このステップでは、対立遺伝子の指定は相補的なものに変更される。すなわち、対立遺伝子はあたかもFWD鎖上にあるかのように変更され、REVになる。
各ハプログループの一致及び非一致多型の数を決定する。
ハプログループ(変異ツリーの要素)を次式により推定する:
一致した多型の重みの合計から不一致の多型の重みの合計を差し引いたもの。
変異のツリーに沿ってこうしたパスを検出し、ハプログループの推定値の合計が最大になるようにする。このようにして最終的なハプログループは、所望する父系のハプログループになる。
同様に、遺伝的データ分析集団ユニット203では、母系ハプログループを決定するが、これは、ミトコンドリアの変異ツリーに基づいており、ユーザの遺伝的データmtDNAには、変異のツリーが保存されており、安定した遺伝的マーカー(ハプログループ)がすべての子孫において反復されている。ツリーは次のように形成される。マーカーは変異中に出現し、mtDNA内に蓄積される。一致するマーカーの数によって、異なる集団の親族の関係を追跡する機会がある。一致するマーカーが多いほど、より近い関係で一致する。マーカーが特定の変異の後で一致しない場合、それは集団が分散したときに言うことができる。
次に、遺伝的データ分析集団ユニット203では、異なる集団からの人々の遺伝子型、座標(染色体及び位置)を有する一塩基多型のリスト、ならびにユーザの遺伝子型に関するデータに基づいて、ユーザの集団組成を決定する。
遺伝的データ分析集団ユニット203では、主成分法を適用することによって集団組成を決定する。集団のゲノム塩基からの各遺伝的試料は、特定の数の一塩基多型からなるセグメントに分割され、ゲノム内で連続して次に続く。ベクターは、試料の各セグメントの主成分法によって決定される。
同様に、ベクターは、入力試料の各セグメントの主成分法によって決定される。
試料の各セグメントは、以前に定義されたベクターとの比較の結果として、特定の集団を指す。
集団の割合は、この集団に割り当てられた試料のセグメント数を、試料の総数で割ったものとして計算される。
いくつかの実施形態では、試料を12個の集団成分からのベクターに分解するための主成分法を使用でき、試料は完全に供給される。
いくつかの実施形態では、遺伝的データ分析集団ユニット203は、座標(染色体及び位置)及びユーザの遺伝子型を含む一塩基多型のリスト、特定の多型においてネアンデルタール人から継承された対立遺伝子のセットに基づいて、以下のとおり、試料中のネアンデルタール対立遺伝子の総数を決定する:ネアンデルタール対立遺伝子がホモ接合状態にある場合は、結果は+2になり、ネアンデルタール対立遺伝子がヘテロ接合状態にある場合は、結果が+1になり、そうでない場合は+0になる。当初、ネアンデルタール人から継承された対立遺伝子のセットは、集団に応じて3つの部分ASN、EUR及びEURASNに分割することができ、最終的に1つのセットにマージされる。次に、染色体上の位置が、37〜38のゲノムアセンブリに転送される。
いくつかの実施形態では、マイクロバイオータ組成の全ゲノム(WGS)プロファイリングにより、マイクロバイオータデータ分類学的分析ユニット204は、メタゲノムリードを、腸内微生物の代表的なゲノムのセットからなる到達不能カタログにマッピングする。このカタログには、ヒトの腸内で見つかった細菌のゲノムのほかに古細菌を含めることができる。このカタログは、公開されている大規模なデータベース、及び技術レベルで利用可能な出版物の自動分析に基づいて作成され得る。いくつかの実施形態では、参照ゲノムのセットが拡張され、これにより、新たに公開されたゲノムを定期的に追加できる。マッピング結果は、BAMファイルに保存できる。いくつかの実施形態では、マッピングされたリードの全長(カバレッジの深さ)は、各ゲノムに対して決定される。
マイクロバイオータの全ゲノム分析では、ゲノムの長さ及びマッピングされたリードの全長にカバレッジを正規化することにより、マイクロバイオータの分類学的データ分析ユニット204によって、ゲノムの相対的存在量をさらに決定できる。
遺伝子の相対的存在量 マッピングされたリード長/遺伝子長
試料のマッピングされたリードの合計長
前処理後、マイクロバイオータが16S rRNAシーケンシングにより分析されるとき、マイクロバイオータ分類学的データ分析ユニット204は、16S rRNA(またはその断片)の各リード値が既知のいずれの細菌に属するか、及び未知の細菌からどのようにリードの特徴付けをするかを決定することにより、定量的分類学的データ分析を実行する。検索は、参照ベースのテンプレートを使用して実行される。分類学的分類は、16S rRNAの単一の配列に基づく細菌種の定義である運用分類学的ユニット(OTU)の基本概念に基づく。16S rRNA遺伝子(またはその領域)のリードのセットは、遺伝子配列の代表的な塩基と比較させる。各読み取りは、高い類似性を有する分類学的ユニットを参照する。いくつかが同時に生じる場合、これらのOTEのうちの1つに読み取り値をランダムに割り当てることができる。各レコードは、クラスター分析の結果として以前に取得された、データベース内の対応するOTEの代表的な配列である。類似性の閾値は変動し得るが、メタゲノム研究では、伝統的に、類似性の値97%を、1つの細菌種内の16S rRNAの類似性の程度のヒューリスティック推定として使用する。しかし、この値は絶対的なものではない。同じ細菌種内で、この遺伝子の配列が大きく異なる細菌が出現し得る。その一方で、2つの異なる種(例えば、エシェリキア及び赤痢菌)において、同じ配列が存在し得る。
この実施形態では、技術レベルから知られている他の2つの基本的なOTE識別戦略、デノボ検索及びハイブリッドアプローチ(テンプレート及びデノボ検索に基づく検索要素の組み合わせ)が特定の実施形態においては適用可能である。
マイクロバイオータの16S rRNAシーケンシング用に蓄積された配列は、プールされたデータベースに還元され、系統学的にアノテーションが付けられる。最新技術で最も広く使用されているデータベースは、Greengenes(16S rRNA遺伝子の完全な配列の監視ベース)、SILVA(16Sのみでなく、真核生物の18S、23S/28Sの配列も含まれる)、RDP(アノテーションの統一性は低いが、容量はGreengenesよりも多い)である。
メタゲノムのセットを16S rRNA形式で処理した結果、各試料のデータベースから各分類学的ユニット(OTE)に起因するリードの数を反映する相対存在量テーブルが取得される。希薄化された相対存在量テーブルは、次の原則に従って決定できる。
a.各分類学的単位の試料のリードの総数が閾値(例えば、5000)未満の場合、そのような試料は、品質において好適でないため、これ以後の分析から除外され、繰り返しシーケンシングが行われる。
b.各分類学的単位の試料のリードの総数が閾値(例えば、5000)以上の場合、各分類学的単位のリードの数は比例的に正規化され、これにより試料のリードの総数が閾値(例えば、5000)と等しくなる。
いくつかの実施形態では、相対的存在量は標準化されている。このために、参照データベースに正常にマッピングされた各試料のリード数がまとめられる。各分類群の正規化表現は、所定の試料のこの分類群に起因するリードの数を、この試料のマッピングされたリードの総量で割って100%を掛けて計算される。得られた正規化表現の値から、各試料のデータベースから各分類群に起因するリードの割合を含む正規化表現テーブルが作成される。
分類学的分析ユニット204では、相対的OTU存在量の非希薄化テーブルから、他の分類学的レベル(属、家族など)の希薄化表現テーブルを生成する。分類学的レベルごとに、次の方法が使用される。
a.この分類学的レベルに関連するすべてのOTUの試料のリードの数がまとめられる。
b.所定の分類学的レベルの表現テーブルは、受信した総計からコンパイルされる。
さらに、表現テーブル(各試料の分類学的レベルのうちの1つの各分類群に起因するリードの数を反映するテーブル)に基づいて、微生物遺伝子の群の相対的存在量が推定される。
このため、希薄化表現テーブルは、16S rRNAのコピー数に対して正規化されている。このために、各試料の分類群の各々に起因するリードの数は、所定の分類群に特徴的である16S rRNA遺伝子の推定コピー数で除算される。
次に、各遺伝子について、各試料の表現が次のように決定される。
特定の代謝経路及び/または異なる微生物に入るそれらの経路の中の遺伝子群の存在の既存のテーブルを使用して、遺伝子群(EC)及び代謝経路の表現テーブルが、各試料についてコンパイルされ、これは、これらの遺伝子/代謝経路が含まれている微生物に比例する。
その結果、各試料の遺伝子表現のテーブルは、結果として得られた総計からコンパイルされる。
分類学的分析ユニット204によって得られた16S rRNAの微生物群集の集団の分類学的プロファイルは、ユーザ集団の重要な特徴、すなわちアルファ及びベータ多様性を評価するために使用される。これらは、単一の微生物群集の多様性及び2つの群集の違いをそれぞれ特徴付ける数値である。シーケンシングされる試料あたりのリードが多いほど、より多くの異なる種が検出され、リードの数が増えると飽和が生じる。複雑な群集と比べて、複雑でない群集の方が早急に生じる。したがって、アルファ多様性を計算するときは、試料あたりのリード数が考慮される。アルファ多様性の最も広く使用されているエバリュエーターの中で、系統的多様性(群集が網羅する生命のツリーの一部に比例)は、この技術的決定、ならびにChao 1及びACEインデックスで使用できる。
表現の少ない分類群の事前フィルター処理は、例えば次の原則に従って行われる。総微生物集団の0.2%を超えて表現される分類群は、試料の少なくとも10%に残る。
さらに、疾患リスク決定ユニット205では、分類学的分析ユニット204に含まれる正規化された表現テーブルに基づいて、試料中のマイクロバイオータの異常な組成を前処理し、評価する。各試料について、日和見病原体のリストの分類群のそれぞれに関連するリードの合計パーセンテージが確認される。合計パーセンテージが一定のパーセンテージ(20%など)を超える試料は、異常と見なされる。いくつかの実施形態では、異常推定への寄与の重み付けの可能性など、リストからの個々の分類群の割合が考慮される。いくつかの実施形態では、各試料について、ビフィズス菌の属に関するリードの割合がさらに確認される。この割合が一定の割合を超える試料(例えば、50%)は、異常と見なす。いくつかの実施形態では、専門家が各試料の分類群の相対的存在量を検討して、条件付きで病原性のものなどのいくつかの分類群の非定型表現を検出できる。専門家の判断及び/または機械学習のアルゴリズムの作業の結果に基づいて、試料を異常と見なすこともできる。異常と認識された試料は、これ以後の分析から除外される。これらの試料を保有しているユーザには、マイクロバイオータの組成の異常が通知される。
次に、疾患リスク決定ユニット205では、正規化された表現テーブルならびに細菌及び疾患リンクのデータベースに基づいて、マイクロバイオータデータからユーザの疾患に対するセキュリティを決定する。
以前は、次のように、集団試料のマイクロバイオータ試料、比較のための参照データから、いわゆるコンテキストが作製されていた。
各分類群(属または他のレベル)について、表現の固定パーセンタイルのセットが計算される(例えば、33%−及び67%−パーセンタイル)。換言すると、表現の2つの閾値が取得される。集団試料からの試料の3分の1は、所定の細菌に対して、小さい閾値よりも小さい表現を有し、集団試料からの試料の3分の1は、所定の細菌に対して、大きい閾値よりも大きい表現を有する。
いくつかの実施形態では、パーセンタイルの閾値は、健康な個体と比較した、この疾患を有する患者(または疾患のリスクが高い個体)における分類群の相対的存在量の統計分析の結果に基づいて事前計算され得る。
各試料について、疾患リスク決定ユニット205は、各疾患に対するセキュリティを決定する。各疾患には、事前に関連付けられた微生物分類群(バイオマーカー)のリストが割り当てられている。次に、この疾患の試料をセキュリティ量に設定する。これは、次のルールに従って計算され得る。
この試料では、この疾患のバイオマーカーの各微生物(分類群)には、次のルールに従って値0、N(k)、またはM(k)が割り当てられる(式中、kはバイオマーカー番号であり、N(k)及びM(k)は、バイオマーカー定数に特異的なバイオマーカーである)。
i.所定の細菌が特定の試料に含まれていない場合、この細菌には番号0が割り当てられる。
ii.この試料内の所定の細菌の表現が上位パーセンタイルより低く、下位パーセンタイルを超える場合、この細菌には番号0が割り当てられる。
iii.細菌と疾患との関連性により、この細菌がこの疾患の影響を受けていない場合、この細菌には番号0が割り当てられる。
iv.この試料でのこの細菌の表現が上位パーセンタイルを超え、細菌と疾患のリンクのテーブルによれば、この疾患と明確に関連している場合、この細菌には番号−M(k)が割り当てられる。
v.この試料でのこの細菌の表現が下位パーセンタイルより低く、細菌と疾患との関連性によれば、この疾患と明確に関連している場合、この細菌には番号N(k)が付与される。
vi.この試料でのこの細菌の表現が上位パーセンタイルより高く、細菌と疾患の関連性によれば、この疾患に負に関連している場合、この細菌には番号1が割り当てられる。
vii.この試料でのこの細菌の表現が下位パーセンタイルより低く、細菌と疾患の関連性によれば、この疾患に負に関連している場合、この細菌には番号−1が割り当てられる。
いくつかの例示的実施形態では、すべてのバイオマーカーについて、(k=1、…)、N(k)=M(k)=1である。
この試料には、この疾患からの保護値が付与される。これは、前のステップでバイオマーカー細菌に割り当てられた値の合計に等しい。
保護のための固定パーセンタイルは、例えば、33%パーセンタイル及び67%パーセンタイルなど、各疾患に対して計算される。換言すると、2つのセキュリティ閾値が取得される。集団試料の3分の1の試料では、この閾値が小さい場合よりも、この疾患に対して低い保護を有し、集団試料の3分の1は、この閾値が大きい場合よりも、この疾患に対して高い保護を有する。
次に、ユーザのセキュリティのスケーリングされた値は、次のように疾患リスク決定ユニット205によって決定される。
マイクロバイオータ保護の量は、各疾患のコンテキスト分析で前述した方法によって計算される。
ユーザのセキュリティは、次のルールに従ってスケーリングされる。
a.コンテキストから計算された、この疾患に対する保護の低いパーセンタイルは、0について新しいスケールで採用される。
b.コンテキストから計算された、この疾患に対する保護の高いパーセンタイルは、10について新しいスケールで採用される。
c.コンテキストから計算された、この疾患に対する保護の高いパーセンタイルは、10について新しいスケールで採用される。
新しいスケールでのセキュリティ値が4未満の場合、4に設定される。得られた値は、所定の疾患からの試料の保護レベルである。
他のパーセンタイルは、技術的決定の他の実施形態で使用され得る。また、各分類群は、特徴への影響の評価、及び1、−1、または0以外の特定の試料におけるその表現から形成される、独自の個別の重みを有することができる。
ユーザの推奨事項では、疾患に負の関連があり、かつ低い(ゼロ以外の)及び/または正常な表現(上位パーセンタイルと下位パーセンタイルとの間にある)を有し、かつ他の疾患と正に関連していない場合には、細菌の相対的存在量を増量することを提案している。
いくつかの実施形態では、疾患リスク決定ユニット205は、遺伝性単一遺伝子疾患の組成を決定する。そのためには、遺伝性疾患の変異及び病原性対立遺伝子のリストを使用できる。これらのデータには、病原性変異に関する情報のみが含まれている。ユーザ試料には、変異識別子及び遺伝子型が含まれている。
疾患リスク決定ユニット205では、例えば、以下のように、病原性対立遺伝子の存在について各変異を確認し、疾患の状態を評価する。
a.0−病原性対立遺伝子なし。
b.1−1つの病原性対立遺伝子を有する変異が1つのみ。
c.2−両方の病原性対立遺伝子を有する変異が1つ以上。
d.3−1つの病原性対立遺伝子を有する変異が2つ以上(複合ヘテロ接合体)。
1つの疾患では、1つの試料が、予約の順に最初の3つのケースを同時に有し得る。2>3>1。
先行技術では、以下の種類の変異遺伝がある:常染色体劣性(AR)、常染色体優性(AD)、X連鎖劣性(XR)、X連鎖優性(XD)、Y連鎖(Y)、ミトコンドリア(MT)。
疾患の状態が2(両方の病原性対立遺伝子を有する1つ以上の変異)または3(同じ病原体対立遺伝子を有する2つ以上の変異)と推定される場合、ADとAR−ADとの組み合わせで最終的な継承タイプを割り当てる順序は、次のAR−AD>AR;XDとXR−X>XRとの組み合わせである。その結果、出力時には、疾患リスク決定ユニット205は、継承タイプを有する疾患状態を発する。
いくつかの実施形態では、疾患リスク決定ユニット205は、取得したデータ(リスク計算の結果として取得された個々のデータ、及びメタゲノム分析データ)に基づいてユーザをランク付けできる。疾患ごとに、疾患リスク決定ユニット205では、すべてのユーザを相対リスク比の観点からランク付けし、例えば、第1のグループがユーザの10%、第2のグループが20%、第3のグループが40%、第4のグループが20%、第5のグループが10%となるように、ユーザを5つのグループに分ける。
さらに、疾患リスク決定ユニット205では、例えば、リスクグループに応じて以下のユーザ分布を生成する:
1.高リスク−0〜10パーセンタイル、
2.リスクの上昇−10〜30パーセンタイル、
3.平均リスクは30〜70パーセンタイルである。
4.中程度のリスク−70〜90パーセンタイル、
5.低リスク−90〜100パーセンタイル。
上記のように、疾患リスク決定ユニット205は、メタゲノム分析の結果に基づいて、特定の疾患の発症に対する生物の保護の程度を決定する。セキュリティのレベルは、0〜10のスケールの整数で表すことができる。疾患リスク決定ユニット205では、次の原則を使用して、マイクロバイオータ保護の程度に関するデータを遺伝学でのリスクのランク付けに含む。
−0〜5ポイント−ユーザは、リスク計算の結果によって決定されたグループよりも高い(しかし、最初のグループよりは高くない)リスクグループに移動する。
−6〜7ポイント−リスクグループは変更されない。
−8−10ポイント−ユーザは、リスク計算の結果によって決定されたグループよりも低いリスクグループ(しかし、5番目のグループ以上)に移動する。
ユーザがマイクロバイオータ検査のみを受けた場合(遺伝的データは考慮しない)、リスクの分布は次のようになり得る:
1.高リスク−0〜3ポイント。
2.リスクの上昇−4〜5ポイント。
3.平均リスクは6〜7ポイントである。
4.中程度のリスク−8〜9ポイント。
5.低リスク−10ポイント。
当業者にとっては、ランク付け方法及びポイントが例示的であり限定的ではなく、技術的決定の性質に影響を及ぼさないことが明らかであろう。
いくつかの実施形態では、リスクの計算において、すべての要因(外的及び遺伝的)が互いに独立していることが想定され得る。疾患のリスクを決定するために、ロジスティックモデルを使用することができ、その出発点は、集団における疾患の平均的な発生であり、外的及び遺伝的リスク要因の寄与が考慮される。
遺伝的リスク因子については、寄与度の数値は、本疾患に関する全ゲノム関連研究(GWAS)などの研究から抽出できる。例えば、「II型糖尿病」などの疾患の場合、Morris, A.P.ら、2012。大規模な関連分析により、2型糖尿病の遺伝的構造及び病態生理学への洞察が得られる。Nature Genetics,44(9),pp.981−990。
外的リスク因子については、特定のリスク因子と本疾患を発症するリスクとの関係を示す情報源が使用される。例えば、糖尿病には、次の要因及び記事を使用できる。
いくつかの実施形態では、酪酸の合成のための代謝経路に含まれる、EU命名法(酵素コミッション番号)による遺伝子群の相対的存在量は、マイクロバイオータ試料の組成から決定される。それらの表現は、コンテキストデータと相関しており、遺伝子の各群には、疾患に対する保護を計算するための上記と同様の様態でポイントが割り当てられる。微生物の表現に関するコンテキストデータには、原核微生物の表現の分布、パーセンタイル33%及び67%の値が含まれている。ポイントは4から10まで決定され、これが酪酸の合成ポイントになる。このポイントが閾値よりも低い場合、最初のステップで表されなかった(33%パーセンタイルを下回った)遺伝子群をゲノムにおいて潜在的に保持している分類群が存在し、コンテキストデータによる表現が確認される。これらの分類も、33%パーセンタイルを下回る場合には、後にユーザへの推奨事項を策定するために使用される。
他の実施形態では、ビタミンB1、B2、B3、B5、B6、B7、B9、Kのそれぞれについて、ビタミン合成経路の一部を形成する試料中のEU遺伝子群の表現について決定が行われる。それらの表現はコンテキストデータと相関しており、各ECは段落137と同じ方法でポイントが割り当てられる。次に、すべてのビタミンの平均ポイントが考慮され、そこから全体をビタミン合成ポイントとする。このポイントが閾値未満の場合、最初のステップ(33%)で過小評価されたと考えられる、ゲノム内でこれらのECを潜在的に保有している微生物が確認され、コンテキストデータによるそれらの表現が確認される。これらの微生物も33%内となれば、今後のユーザ向け推奨事項の方法に用いられる。
いくつかの実施形態では、遺伝子の微生物機能群の別の命名法、例えば、KEGGオルソロジー群またはMetaCycベースからの遺伝子群が使用され得る。
他の実施形態では、切断の見込みは、所定のセットからの食物繊維の各タイプに対して決定される。関連データベースから、それらの微生物が分割可能であることがわかっている微生物のコンテキストデータに対する表現量の推定が行われる。それらの合計表現が33%になると、アルゴリズムにより、この繊維の分割の可能性が低いと判断される。合計表現の値に応じて、4〜10のポイントが各繊維に対して計算される。総繊維分割の可能性は、すべての食物繊維の平均ポイントと見なす。
いくつかの実施形態では、品質管理ユニット202は、遺伝子データをユーザ形質決定ユニット206に送信する。遺伝子用語の形質とは、ユーザの測定可能な特徴のことである。形質は、ユーザが記入したアンケート、遺伝子検査、ウェアラブルガジェット、医療カードなどから取得できる。
ユーザの形質の例。
−乳糖不耐症(離散状態:素因がある、素因がない、不明)。
−年齢(連続状態:30歳、49歳など);
−CYP2D6活性(離散状態:超高速代謝者、正常代謝者、代謝不良者);
−肥満のリスク(連続状態:50%のリスク、43.4%のリスクなど)。
いくつかの実施形態では、機能は、遺伝性疾患群、薬物反応、栄養症状、スポーツ属性、ハプロタイプにグループ化され得る。
ユーザ機能の種類に応じて、形質は、2つ以上の可能な状態を有し得る。いくつかの実施形態では、状態は、離散型または連続型であり得るが、同じ機能に対して同時にではない。形質は、ユーザに対して計算されるものではないが、未定義の状態を有する。いくつかの実施形態では、ユーザの形質は、他の機能の状態に依存する。依存関係の状態のすべての可能な組み合わせにより、特徴定義のドメインが形成される。
形質は、可変(コーヒー消費量)、不変(CYP2D6活性、フェニルケトン尿症の状態)、及び変化する形質に依存して条件付きで可変(いくつかのリスク)となり得る。
形質には規範的な制限を有し得、その後無効化される。すなわち、定義されていない状態になる。例えば、分析による血中コレステロール濃度は1年間有効であり、その後、この特徴はユーザの不確定な形質の状態に戻る。
可変形質及び条件付き可変形質では、制限規則の有効期限後に無効となるものを含めて、その状態の変化の履歴を記憶する。
形質はそれらの解釈において他の形質を参照し得るため、システムが機能で満たされると、形質決定ユニット206では、機能間の有向依存グラフを形成する。いずれも参照することのないグラフノードは、元のデータ(変異、アンケートへの回答、マイクロバイオータ)のノードである。他のすべてのノードは、ソースデータのノードに直接または間接的に依存する。
ユーザ形質決定ユニット206では、元のデータノードから開始してグラフを縮小することにより、特定のユーザの形質状態の決定を実行する。
[127]形質のうちの1つがその状態を変化させた場合、例えば、ユーザがアンケートで異なるように質問に回答した場合など、アンケート依存の形質はすべて再集計され、すなわち更新される。いくつかの形質の再計算を行うことにより、依存関係グラフが終了するまで他の形質が再計算される。
形質の状態を決定する前に、形質決定ユニット206では、依存関係グラフのサイクルを確認し、サイクルが存在する場合には、このユニットでは、グラフを縮小することはできない。
形質決定ユニット206は、少なくとも1つの形質の指標、形質の状態、及び遺伝的データ(一塩基多型、性別など)に基づいて、ユーザのための解釈(これらに限定されないが、スポーツ、栄養、個人の資質など)を、例えば、以下のような形態で策定することができる。
いくつかの実施形態では、形質決定ユニット206は、マイクロバイオータデータに基づいてユーザの形質を決定する。これを行うには、疾患に対する保護、食物繊維の消化の可能性、短鎖脂肪酸の合成、ビタミンの合成、及び食品と腸内マイクロバイオータとの間の関連のデータベースを計算した結果が使用される。このデータベースは、コンピュータ支援のテキスト分析アルゴリズムと、製品に関する事実に基づいて手動に追加したものとを組み合わせて作成され、これらの取り込みは、ヒトの腸に生息する特定の微生物に積極的に関連している。
データのうちの1つ(例えば、疾患に対する保護)の最終ポイントが所定の閾値未満である場合には、表現が不十分であった微生物の成長に関連する食品が、関連データベースから取り出される。異なるアルゴリズムの結果に基づいて製品が所定のユーザに推奨される頻度が高いほど、そのランクが高くなり、ユーザに推奨される確率が高くなる。
ユーザ推奨事項生成ユニット207は、疾患リスク決定ユニット205及びユーザ形質決定ユニット206のデータに基づいて、ユーザへの推奨事項を生成するように構成される。
疾患の形質、リスク、保有状況を特定した結果として得た個々のデータ、及びシステムの他のブロックからのメタゲノム解析データをユニットに供給する。
ユーザに対する推奨事項生成ユニット207の動作は、結果の出力となる条件が満たされたことに基づいて行われる。条件は、入力データに対する単純な論理演算の組み合わせである。この結果は、ユーザに特定のセットの活動の実行を促すことを目的とした推奨事項のテキストである。いくつかの実施形態における推奨事項は、以下のグループに分割される:
−望ましくない種類の負荷に関する推奨事項;
−生活様式の変更に関する推奨事項;
−特定の食品またはその群の食品の摂取量を変更するための推奨事項;
−医者を訪問するための推奨事項。
食品に関する推奨事項のグループは、ジェノタイピングデータと、腸内マイクロバイオータの組成または1つのバリアントのデータの両方を考慮して与えられる。
いくつかの実施形態では、ユーザ推奨事項生成ユニット207は、リスク低減推奨事項、自己診断推奨事項、紹介推奨事項、及び症状推奨事項を生成する。
疾患のリスクを低減するための推奨事項を策定する場合、疾患のリスクの上昇が推奨事項を表示するための前提条件である。
推奨事項により、形質のある状態から別の状態への移行が促される。すなわち、推奨事項は、実際の特徴を指す。形質は、推奨事項のアレイを有することができる。そのサイズは、異なる状態間の特定の移行の数と同じである。移行自体は、形質に影響を与えるユーザの元データが変化し、再解釈が実行された場合にのみ生じ得る。
移行には、それが実装される追加の条件を有し得る。例えば、ユーザの性別が推奨事項の発行に影響を与える可能性がある。
形質決定ユニット206によって定義される任意の機能の特定の状態が存在することにより、別の形質の特定の状態を必要とし得る、すなわち、要求者及び必要な状態が存在する。対象の状態を選択する必要がある各状態は、すべての請求者の重みで構成されている重みである。要求された状態が現在の状態と異なる場合には、移行が開始され、この移行を行うように促す推奨事項が発行される。ユーザに与えられる推奨事項の選択は、その機能の要求された状態のうちのいずれを上回るかに依存する。
ユーザが、疾患のリスクの上昇を有する場合、リスクを上昇させる状態において有する、変更された外的リスク要因を修正するための推奨事項がユーザに与えられる。例えば、推奨事項は、真性糖尿病では次のようになる:
「毎日コーヒーを飲む。
毎日の食事療法にコーヒーを含めるべきであるが、許容可能な率を超えてはならない。
毎日の食事に果物を含める。
毎日果物を食べることを推奨する。果物は、セルロース及び有用なビタミン及び微量元素が豊富である。
ビタミンEが豊富な食品を食べることを推奨する。
食物と一緒にトコフェロールの摂取量を増やす必要がある。ビタミンEは、強力な抗酸化物質であり、筋肉組織及び免疫システムに不可欠である。」
より詳細には、ユーザ推奨事項生成ユニット207において生成された推奨事項には、推奨される治療手段及び/または健康関連の目標に対処するための他の選択肢に関する通知をユーザに提供することを含み得る。推奨事項の通知は、電子デバイス(例えば、パーソナルコンピュータ、モバイルデバイス、タブレット、スマートクロックなど)を介して個人に提供され得、グラフィカルユーザインターフェイス(GUI)に表示され得る。推奨事項は、アプリケーション、ユーザの個人キャビネットのWebインターフェイス、SMSメッセージ、またはPUSH通知に表示できる。一実施形態では、ユーザに関連付けられたパーソナルコンピュータまたはラップトップのwebインターフェイスは、ユーザにユーザアカウントへのアクセスを提供でき、ユーザアカウントには、ユーザデータに関する情報、遺伝的データに関する詳細情報、及び腸内マイクロバイオータの組成に関するデータ、及び推奨事項生成ユニット207で生成された推奨事項の通知が含まれる。別の実施形態では、パーソナル電子デバイス(例えば、スマートフォン、スマートクロック、スマートヘッドデバイス)上で実行されるアプリケーションは、推奨事項に関して、推奨事項構築ブロック207の支援で得られた通知(例えば、表示またはサウンドなど)を提供するように構成され得る。通知は、追加的または代替的に、システムユーザ(例えば、世話人、配偶者、医療提供者など)に関連付けられたヒトを介して直接提供され得る。通知は、追加的または代替的に、システムユーザ(世話人、配偶者、医療提供者など)に関連付けられた担当者を介して直接提供され得る。しかし、推奨事項及び通知は、任意の他の好適な方法でシステムのユーザに提供され得る。
実施形態では、例示的なコンピューティングシステム環境に関連して記載されているが、それらは、多数のコンピューティングシステム環境、構成、ならびに汎用及び専用デバイスを使用して実装され得る。
本発明の態様での使用に好適であり得る既知のコンピューティングシステム、環境、及び/または構成の例としては、これらに限定されないが、モバイルコンピューティングデバイス、パーソナルコンピュータ、サーバーコンピュータ、ハンドヘルドデバイスまたはラップトップ、マルチプロセッサシステム、ゲームコンソール、マイクロプロセッサベースのシステム、セットトップボックス、プログラム可能な家電、携帯電話、ネットワークパーソナルコンピュータ、ミニコンピュータ、スーパーコンピュータ、上記のシステムやデバイス(フィットネスブレスレットなど)のいずれかを含む流体分散推論などが挙げられる。こうしたシステムまたはデバイスは、ジェスチャー入力及び/または音声入力を介して、キーボードまたはポインティングデバイスなどの入力デバイスなどの任意の形式でユーザからデータを受信することができる。
本発明の実施形態は、1つ以上のコンピュータまたは他のデバイスによって実行される、プログラムモジュールまたはブロックなどのコンピュータ実行可能命令の一般的なコンテキストで記載され得る。コンピュータ実行可能命令は、1つ以上のコンピュータ実行可能コンポーネントまたはモジュールに編成され得る。典型的には、プログラムモジュールとしては、これらに限定されないが、特定のタスクを実行する、または特定の抽象データ型を実装するサブルーチン、プログラム、オブジェクト、コンポーネント、及びデータ構造が挙げられる。本発明の態様は、そのようなコンポーネントまたはモジュールの任意の数及び任意の編成によって実現され得る。例えば、本発明の態様は、図に例解され、本明細書に記載の特定のコンピュータ実行可能命令または特定のコンポーネントまたはモジュールに限定されない。本発明の他の実施形態は、本明細書に例解され、記載されているよりも多いまたは少ない機能を有する他のコンピュータ実行可能命令またはコンポーネントを備え得る。
本発明の態様では、汎用コンピュータを、ユーザの遺伝的データ及び腸内マイクロバイオータの組成に関するデータを解釈するように構成された専用コンピューティングシステムに変換する。
本明細書に記載の様々な方法は、ハードウェアもしくはソフトウェアと一緒に、または、必要な場合、それらの組み合わせと一緒に実装され得ることが理解されるべきである。したがって、この主題の方法及びシステム、またはいくつかの態様またはその一部には、フロッピーディスク、CD−ROM、ハードディスクドライブ、クラウドストレージ、または任意の他の記憶媒体などの有形媒体に実装されたプログラムコード(すなわち、命令)を含み得る。ここでは、プログラムコードが、コンピュータなどの機械によってロードされて実行されると、その機械は、本発明の主題を適用するためのデバイスになる。プログラム可能なコンピュータでプログラムコードを実行する場合、コンピューティングデバイスは、基本的に、プロセッサ、プロセッサによって読み取り可能な記憶媒体(揮発性及び不揮発性メモリ及び/またはメモリ要素など)、少なくとも1つの入力デバイス、及び少なくとも1つの出力デバイスを備える。1つ以上のプログラムでは、例えば、アプリケーションプログラミングインターフェイス(API)、再利用可能なコントロールなどを使用することによって、本開示の主題に記載されるプロセスが実装され得るか、または使用され得る。このようなプログラムは、コンピュータシステムとデータを交換するために、高水準の手続き型プログラミング言語またはオブジェクト指向プログラミング言語を使用して実装され得る。しかし、必要に応じて、プログラム(複数可)は、アセンブラーまたはマシンプログラミング言語で実装され得る。いずれの場合でも、プログラミング言語はコンパイル型言語またはインタープリター型言語であり得、ハードウェア実装と組み合わせることができる。
本発明の主題は、構造的特徴及び/または方法論的機能の特定の言語によって記載されてきたが、本発明の主題は、添付の特許請求の範囲で定義されており、上記の特徴または機能を限定する必要はないことが理解される。上記の特徴及び機能は、多くの場合、特許請求の範囲の例示的な実施形態として開示されている。

Claims (20)

  1. 遺伝的データ及びユーザから得られた腸内マイクロバイオータの組成に関するデータに基づいてユーザに推奨事項を提供するためのシステムであって、
    −前記ユーザから遺伝的データ及び/または腸内マイクロバイオータデータを取得するように構成された一次データ取得ユニットと、
    −前記一次データ取得ユニットによって取得された前記ユーザの前記遺伝的データ及び/または前記ユーザの前記腸内マイクロバイオータデータの品質を確認するように構成された品質管理ユニットであって、前記遺伝的データには一塩基多型が含まれ、前記腸内マイクロバイオータデータにはリードが含まれる、品質管理ユニットと、
    −前記ユーザの父系ハプログループ及び母系ハプログループ、ならびに前記ユーザから取得した前記遺伝的データの集団組成を決定するように構成された集団遺伝分析ユニットと、
    −16S rRNA遺伝子の配列のデータベースを使用して、前記リードを分類するように構成された分類学的データ分析ユニットと、
    −疾患リスク決定ユニットであって、疾患のリスクを決定し、疾患に対する保護を評価し、病原性対立遺伝子の存在について遺伝子型を検査し、遺伝性疾患の保因者の状態を評価するように構成された疾患リスク決定ユニットと、
    −機能依存グラフを縮小することにより、前記ユーザの機能の状態を決定するように構成された属性決定ユニットと、
    −ユーザ推奨事項生成ユニットであって、前記疾患リスク決定ユニット及び前記属性決定ユニットから取得した前記データに基づいて、前記ユーザへの推奨事項を生成するように構成されたユーザ推奨事項生成ユニットと、を備える、システム。
  2. 前記一次データ取得ユニットが、FASTQまたはFASTA形式で、シーケンサーから得られたシーケンスファイルを受信することを特徴とする、請求項1に記載のシステム。
  3. 前記品質管理ユニットが、バイオチップスキャナによってシリコンバイオチップから前記ユーザの前記遺伝的データを受信することを特徴とする、請求項1に記載のシステム。
  4. 前記遺伝的データが、X染色体及びY染色体多型を含む、前記ユーザの前記一塩基多型に関するデータを含むことを特徴とする、請求項3に記載のシステム。
  5. 前記品質管理ユニットが、X染色体及びY染色体における前記一塩基多型の数を数えることによって、前記ユーザの性別をさらに決定することを特徴とする、請求項1に記載のシステム。
  6. 男性の場合、前記品質管理ユニットは、前記X染色体及び前記Y染色体を有するホモ接合状態の前記一塩基多型をヘミ接合状態の前記一塩基多型に変換し、ヘテロ接合状態の前記一塩基多型は、フィルター処理により除外されることを特徴とする、請求項5に記載のシステム。
  7. 女性の場合、前記Y染色体を有するすべての前記一塩基多型がフィルター処理により除外され、前記遺伝的データの最終出力に入らないことを特徴とする、請求項5に記載のシステム。
  8. 前記品質コントロールユニットが、所定の閾値を下回る平均品質値を有する前記リードをフィルター処理により除去することを特徴とする、請求項1に記載のシステム。
  9. 前記品質管理ユニットが、前記リードのエンドに低い品質値を有するアイテムを取り除くことを特徴とする、請求項1に記載のシステム。
  10. 前記品質管理ユニットが、アーチファクト配列の読み取りによる生物学的または非生物学的起源の前記リードにおける外来遺伝情報をフィルター処理により除去することを特徴とする、請求項1に記載のシステム。
  11. 前記集団遺伝分析ユニットが、Y染色体の変異ツリー及び前記ユーザの前記遺伝的データに基づいて前記父系ハプログループを決定することを特徴とする、請求項1に記載のシステム。
  12. 前記集団遺伝分析ユニットが、ミトコンドリアの変異ツリー及び前記ユーザの遺伝的データに基づいて前記母系ハプログループを決定することを特徴とする、請求項1に記載のシステム。
  13. 前記集団遺伝分析ユニットが、異なる集団からのヒトの遺伝子型に関するデータ及び前記ユーザの前記遺伝的データに基づいて前記集団組成を決定することを特徴とする、請求項1に記載のシステム。
  14. 前記集団遺伝分析ユニットが、前記ユーザの前記遺伝的データ及び特定の多型でネアンデルタール人から継承された対立遺伝子のセットに基づいて、ネアンデルタール人の前記対立遺伝子の総数を決定することを特徴とする、請求項1に記載のシステム。
  15. 前記16S rRNA遺伝子の配列のデータベースを使用した分類中に、前記データベースが、前記ユーザの腸で発生した細菌及び/または古細菌ゲノムのセットを含むことを特徴とする、請求項1に記載のシステム。
  16. 前記マイクロバイオータデータの前記分類学的分析ユニットが、微生物ゲノムまたは種の相対的存在量を決定することを特徴とする、請求項1に記載のシステム。
  17. 前記分類学的データ分析ユニットが、他の分類学的レベルの希薄化表現テーブルを生成することを特徴とする、請求項1に記載のシステム。
  18. 前記疾患リスク決定ユニットが、日和見病原体のリストから分類群の1つに関連する前記リードの合計パーセンテージを確認することにより、前記遺伝的データの異常を推定することを特徴とする、請求項1に記載のシステム。
  19. 前記疾患リスク決定ユニットが、参照データに基づいて前記マイクロバイオータデータから前記ユーザの疾患に対する保護を決定することを特徴とする、請求項1に記載のシステム。
  20. 前記属性決定ユニットは、依存関係グラフのサイクルを確認し、前記サイクルの存在下では前記グラフの縮小がブロックされることを特徴とする、請求項1に記載のシステム。
JP2020541333A 2017-10-03 2017-10-03 データの解釈、ならびにユーザの遺伝的データ及び腸内マイクロバイオータの組成に関するデータに基づいてユーザに推奨事項を提供するシステム及び方法 Pending JP2021508488A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
RU2017134097A RU2699284C2 (ru) 2017-10-03 2017-10-03 Система и способ интерпретации данных и предоставления рекомендаций пользователю на основе его генетических данных и данных о составе микробиоты кишечника
RU2017134097 2017-10-03
PCT/RU2017/000734 WO2019070143A1 (ru) 2017-10-03 2017-10-03 Система и способ интерпретации данных и предоставления рекомендаций пользователю на основе его генетических данных и данных о составе микробиоты кишечника

Publications (1)

Publication Number Publication Date
JP2021508488A true JP2021508488A (ja) 2021-03-11

Family

ID=65994656

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020541333A Pending JP2021508488A (ja) 2017-10-03 2017-10-03 データの解釈、ならびにユーザの遺伝的データ及び腸内マイクロバイオータの組成に関するデータに基づいてユーザに推奨事項を提供するシステム及び方法

Country Status (5)

Country Link
US (1) US20200381089A1 (ja)
EP (1) EP3693972A4 (ja)
JP (1) JP2021508488A (ja)
RU (1) RU2699284C2 (ja)
WO (1) WO2019070143A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110808102A (zh) * 2019-11-01 2020-02-18 广州红腾文化科技有限公司 一种健康平台的信息推送方法、系统及终端
EP4224486A1 (en) * 2022-02-04 2023-08-09 Universidad del País Vasco/Euskal Herriko Unibertsitatea Computer implemented method for designing a diet
CN115543499A (zh) * 2022-08-26 2022-12-30 中国银联股份有限公司 信息查验方法、装置、设备、介质及产品

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8877442B2 (en) * 2010-12-07 2014-11-04 The Board Of Trustees Of The Leland Stanford Junior University Non-invasive determination of fetal inheritance of parental haplotypes at the genome-wide scale
US20160281166A1 (en) * 2015-03-23 2016-09-29 Parabase Genomics, Inc. Methods and systems for screening diseases in subjects

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3012760A1 (en) * 2005-11-26 2016-04-27 Natera, Inc. System and method for cleaning noisy genetic data and using data to make predictions
PL3138031T3 (pl) * 2014-04-28 2023-04-11 Yeda Research And Development Co., Ltd. Sposób i urządzenie do przewidywania odpowiedzi na pokarm
RU2616280C1 (ru) * 2015-12-24 2017-04-13 федеральное государственное автономное образовательное учреждение высшего образования "Казанский (Приволжский) федеральный университет" (ФГАОУ ВО КФУ) Способ диагностики состояния микробиоты кишечника на фоне эрадикационной терапии helicobacter pylori и его применение

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8877442B2 (en) * 2010-12-07 2014-11-04 The Board Of Trustees Of The Leland Stanford Junior University Non-invasive determination of fetal inheritance of parental haplotypes at the genome-wide scale
US20160281166A1 (en) * 2015-03-23 2016-09-29 Parabase Genomics, Inc. Methods and systems for screening diseases in subjects

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
BIOINFORMATICS, vol. 32, JPN6021040749, 2016, pages 17 - 24, ISSN: 0004618341 *

Also Published As

Publication number Publication date
US20200381089A1 (en) 2020-12-03
EP3693972A1 (en) 2020-08-12
RU2017134097A3 (ja) 2019-04-03
RU2699284C2 (ru) 2019-09-04
EP3693972A4 (en) 2021-09-15
WO2019070143A1 (ru) 2019-04-11
RU2017134097A (ru) 2019-04-03

Similar Documents

Publication Publication Date Title
Bush et al. Unravelling the human genome–phenome relationship using phenome-wide association studies
Hemani et al. The MR-Base platform supports systematic causal inference across the human phenome
Bekaert et al. Improved age determination of blood and teeth samples using a selected set of DNA methylation markers
Agerbo et al. Polygenic risk score, parental socioeconomic status, family history of psychiatric disorders, and the risk for schizophrenia: a Danish population-based study and meta-analysis
Robinson et al. Explaining additional genetic variation in complex traits
TWI516969B (zh) 用於個人化行爲計劃之方法及系統
JP2024112831A (ja) がんの進化の検出および診断
RU2699517C2 (ru) Способ оценки риска заболевания у пользователя на основании генетических данных и данных о составе микробиоты кишечника
KR102258899B1 (ko) 통합적 건강 정보를 이용한 식단 및 운동 추천 방법 및 서비스 시스템
US20220183571A1 (en) Predicting fractional flow reserve from electrocardiograms and patient records
US20150337349A1 (en) Microbiome Modulation Index
JP7041614B2 (ja) 生体データにおけるパターン認識のマルチレベルアーキテクチャ
Wang et al. A meta-regression method for studying etiological heterogeneity across disease subtypes classified by multiple biomarkers
JP2020532995A (ja) 鼻マイクロバイオームに関連する鼻関連特徴解析
US20220228217A1 (en) Epiaging ; novel ecosystem for managing healthy aging
RU2699284C2 (ru) Система и способ интерпретации данных и предоставления рекомендаций пользователю на основе его генетических данных и данных о составе микробиоты кишечника
Radhachandran et al. A machine learning approach to predicting risk of myelodysplastic syndrome
Arbeev et al. Genetic model for longitudinal studies of aging, health, and longevity and its potential application to incomplete data
Hossain et al. Application of skew-normal distribution for detecting differential expression to microRNA data
Guazzo et al. Baseline Machine Learning Approaches To Predict Multiple Sclerosis Disease Progression.
KR102492977B1 (ko) 마이크로바이옴을 이용한 건강 정보 제공 방법 및 분석장치
Wu et al. Machine learning approaches for the prediction of bone mineral density by using genomic and phenotypic data of 5130 older men
Yu et al. Genetic clustering of depressed patients and normal controls based on single-nucleotide variant proportion
Wurst et al. Genetic Predisposition of Atherosclerotic Cardiovascular Disease in Ancient Human Remains
Jung et al. Machine Learning Model for Predicting Mortality in Heart Failure Patients Using Electronic Health Records and Exome Sequencing Data

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200819

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200910

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211019

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20220119

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20220317

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220411

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220809