JP2021508488A

JP2021508488A - データの解釈、ならびにユーザの遺伝的データ及び腸内マイクロバイオータの組成に関するデータに基づいてユーザに推奨事項を提供するシステム及び方法

Info

Publication number: JP2021508488A
Application number: JP2020541333A
Authority: JP
Inventors: ブラディミロヴィッチムシエインコ，セルゲイ; ヴァレンチノヴィチペルフィレヴ，アンドレイ; アレクサンドロヴィッチオシペンコ，ドミトリー; アーカデヴィッチニコゴソヴ，ドミトリー; グレボヴィッチアレクシーフ，ドミトリー; ヴィクトロヴィッチティアカ，アレクサンドラ
Original assignee: アトラスバイオムドグループリミティッド
Priority date: 2017-10-03
Filing date: 2017-10-03
Publication date: 2021-03-11
Also published as: EP3693972A4; EP3693972A1; RU2017134097A; RU2017134097A3; US20200381089A1; RU2699284C2; WO2019070143A1

Abstract

この技術的決定は、遺伝学及び微生物学におけるコンピュータ技術の分野、より具体的には、遺伝的データ及び微生物学の分野におけるヒトの腸内マイクロバイオータの組成に関するデータを研究し、解釈するための新しいシステム及び方法に関する。遺伝的データ及び／または腸内マイクロバイオータの組成に関するデータに基づいて推奨事項をユーザに提供するためのシステムであって、本システムは、ユーザの遺伝的データ及び／またはユーザの腸内マイクロバイオータデータを取得するように構成された一次データ取得ユニットと、一次データ取得ユニットによって取得されたユーザの遺伝的データ及びユーザの腸内マイクロバイオータデータの品質を監視するように構成された品質管理ユニットであって、遺伝的データには一塩基多型が含まれ、マイクロバイオータデータにはリードが含まれる、品質管理ユニットと、そのユーザの遺伝的データに基づくユーザの集団組成である、父系ハプログループ及び母系ハプログループを決定するように構成されたユーザ起源決定ユニットと、メタゲノムリスクを分類する機能により実行される、マイクロバイオータデータの分類学的分析のブロックと、疾患に対する保護を決定し、ならびに病原性対立遺伝子の存在についての変異試験を行い、疾患状態評価行うように構成された疾患リスク決定ユニットと、特徴の依存関係グラフを縮小することによってユーザ機能の状態を決定するように構成された症状検出ユニットと、ユーザへの推奨事項を生成するためのユニットであって、疾患リスク決定ユニット及びユーザ属性決定ユニットのデータに基づいてユーザへの推奨事項を形成するように構成されたユニットと、を備える。
技術的な結果は、ユーザの遺伝的データ及び腸内マイクロバイオータの組成に関するデータに基づいて、ユーザに対する推奨事項の正確性を高めることである。
【選択図】図１

Description

本出願は、２０１７年１０月３日に出願されたＰＣＴロシア国特許出願公開第２０１７／０００７３４号明細書の国内出願である。上記の出願の内容は、参照により本明細書に組み込まれる。

この技術的決定は、一般に遺伝学及び微生物学におけるコンピュータ技術の分野に関し、より具体的には、ユーザに推奨事項を作成するために微生物学の分野において、遺伝的データ及び／またはヒトの腸内マイクロバイオータの組成に関するデータを研究し、解釈するための新しいシステム及び方法に関する。

ヒトの身体は、地球上で最も密度の高い生息地のうちの１つである。こうした「生物学的系」で生息する微生物の数は約１００兆個の細菌であり、ヒトのすべての組織及び臓器の真核細胞の総数よりもはるかに多い。体細胞のわずか１０％が自分自身のものであり、残りの９０％は細菌に属している。ヒトのすべての微生物の全体は、マイクロフローラまたはマイクロバイオータと呼ばれ、それらの遺伝子全体が、メタゲノムと呼ばれる。同時に、ヒトのメタゲノムは、ヒトのゲノム自体よりも１００〜１５０倍大きい。微生物のほとんどは胃腸管内にあるため、これらのデータの調査及び解釈は非常に重要な技術的作業である。事実、現在、ヒトの身体の別の器官としての腸内のマイクロバイオータの概念が形成されている。これは、進化により発達した組織の複合体である生物の一部としての器官の歴史的に形成された定義と矛盾するものではなく、共通の機能、構造組織、及び発現によって統合されている。この場合、ヒトは「超生物」と見なすことができ、その代謝は、ヒトのゲノムのみでなく、すべての微生物のゲノムによってコードされた酵素の十分に編成された働きによってもたらされる。

ヒトの遺伝学は、遺伝に関する情報を運ぶＤＮＡの一部である遺伝子を介して伝達されるヒトの先天的機能である。ヒトの遺伝学は多くの場合、最も一般的な疾患の発生に貢献している。私たちは、生活様式及び食事の決定、職業の選択、ある種のスポーツの実践などにおいて、ヒトの遺伝的特徴を無視することはできない。多因子性疾患は、例えば、生態学、生活様式、身体活動及び遺伝などのいくつかの要因の影響下で発症する。したがって、修飾可能な要因を調整するリスクを低減できる。したがって、個人の予防策を形成するためには、遺伝的リスクの知識が重要である。多くの要因が身体内のすべてのプロセスに反し、様々な疾患の発症をもたらす。これは、ヒトの遺伝的データを調査して、健康、栄養、スポーツ、生活様式などの要因に関する推奨事項を作成することで防ぐことができる。

マイクロバイオータ及び遺伝学がヒトの健康に与える影響が大きいことを考慮すると、それらの研究及び解釈に関連する取り組みを継続する必要がある。

この技術的決定は、技術レベルから既知である解決法において固有の欠点を排除することを目的としている。

この技術的決定で扱われる技術的課題または問題は、遺伝的データ及び／または腸内マイクロバイオータの組成に関するデータに基づいて、ユーザに生活様式、疾患の予防、栄養及び身体活動に関する推奨事項を形成することである。

上記の技術的問題の主な目的は、遺伝的データ及び腸内マイクロバイオータの組成に関するデータの検討事項に基づいて、ユーザに対する推奨事項の正確性を高めることである。

この技術的結果は、遺伝的データ及び／または腸内マイクロバイオータの組成に関するデータに基づいて、ユーザに推奨事項を生成するためのシステムの実装により達成され、このシステムは、ユーザから遺伝的データ及び／または腸内マイクロバイオータデータを取得するように構成された一次データ取得ユニットと、一次データ取得ユニットによって取得されたユーザの遺伝的データ及びユーザの腸内マイクロバイオームデータの品質を監視するように構成された品質管理ユニットであって、遺伝的データには一塩基多型が含まれ、マイクロバイオータデータにはリードが含まれる、品質管理ユニットと、ユーザの遺伝的データの集団組成である、父系ハプログループ及び母系ハプログループを決定するように構成された集団遺伝分析ユニットと、メタゲノムのリードを、腸内マイクロバイオータの微生物遺伝子の配列のセットで構成されるカタログにマッピングするように構成された分類学的データ分析ユニットと、
疾患に対する保護を決定し、ならびに病原性対立遺伝子の存在についての変異試験を行い、疾患状態評価行うように構成された疾患リスク決定ユニットと、機能依存関係グラフを縮小することによってユーザの機能の状態を決定するように構成された属性決定ユニットと、疾患リスク決定ユニット及びユーザ属性決定ユニットのデータに基づいてユーザへの推奨事項を策定する能力を備えた、ユーザへの推奨事項を生成するためのユニットと、を備える。

一次データ取得ユニットは、技術的決定のいくつかの実施形態では、シーケンサーから受信したＦＡＳＴＱまたはＦＡＳＴＡ形式でシーケンスファイルを受信する。

技術的決定のいくつかの実施形態では、品質管理ユニットは、バイオチップスキャナによってシリコンバイオチップからユーザの遺伝的データを取得する。

技術的決定のいくつかの実施形態では、遺伝的データは、Ｘ染色体及びＹ染色体多型を含む、ユーザの一塩基多型の遺伝子型に関するデータを含む。

技術的決定のいくつかの実施形態では、品質管理ユニットではさらに、Ｘ染色体及びＹ染色体に沿った一塩基多型の数を数えることにより、ユーザの性別を決定する。

男性の性別の場合、技術的決定のいくつかの実施形態では、品質管理ユニットは、Ｘ染色体及びＹ染色体を有するホモ接合状態の一塩基多型をヘミ接合状態の一塩基多型に変換する。

技術的決定のいくつかの実施形態では、品質管理ユニットは、所定の閾値を下回るＤＮＡシーケンサーから取得した平均品質値を有するリードをフィルタリング処理により取り除く。

技術的決定のいくつかの実施形態では、品質管理ユニットでは、低い品質値を有するリードエンドからその位置が削除される。

技術的決定のいくつかの実施形態では、品質管理ユニットでは、アーチファクト遺伝子配列を読み取ることにより、生物学的起源及び技術的起源の両方を有する腸内マイクロバイオータに関連しないリードからの外来遺伝情報を拒否する。

技術的決定のいくつかの実施形態では、集団遺伝分析ユニットでは、Ｙ染色体の変異ツリー及びユーザの遺伝的データに基づいて父系ハプログループを決定する。

技術的決定のいくつかの実施形態では、集団遺伝分析ユニットは、ミトコンドリアの変異ツリー及びユーザの遺伝的データに基づいて母系ハプログループを決定する。

技術的決定のいくつかの実施形態では、集団遺伝的データ分析ユニットは、異なる集団からのヒトの遺伝子型に関するデータ及びユーザの遺伝的データに基づいて、集団組成を決定する。

技術的決定のいくつかの実施形態では、ユーザの遺伝的データ及び特定の多型でネアンデルタール人から継承された対立遺伝子のセットに基づく集団遺伝分析データユニットは、ネアンデルタール人の対立遺伝子の総数を決定する。

技術的決定のいくつかの実施形態では、分類学的データ分析ユニットによってメタゲノムリードをカタログにマッピングする場合、このカタログには、ユーザの腸内で発生する細菌及び／または古細菌及び／または真核生物のゲノム配列が含まれる。

技術的決定のいくつかの実施形態では、マイクロバイオータデータの分類学的データユニットでは、ゲノムまたは微生物種の相対的存在量を決定する。

技術的決定のいくつかの実施形態では、マイクロバイオータデータの分類学的データユニットは、属または種の分類学的レベルに加えて、他の分類学的レベルの希薄化表現テーブルを生成する。

技術的決定のいくつかの実施形態では、疾患リスク決定ユニットでは、腸内マイクロバイオータに関連することが知られていない日和見病原体または微生物のリストから、分類群のうちの１つに関連するリードの合計パーセンテージを確認することにより、試料組成の異常の程度を推定する。

技術的決定のいくつかの実施形態では、疾患リスク決定ユニットでは、参照データに基づいてマイクロバイオータデータからユーザの疾患に対する保護を決定する。

技術的決定のいくつかの実施形態では、属性決定ユニットでは、依存関係グラフ内のサイクルの確認を実行し、サイクルが存在する場合、ブロックにより、グラフを縮小することはできない。

この技術的決定の特徴及び利点は、以下の詳細な説明及び添付の図面から明らかになる。

遺伝的データ及び／または腸内マイクロバイオータの組成に関するデータに基づいてユーザに推奨事項を提供する方法のブロック図である。遺伝的データ及び／または腸内マイクロバイオータの組成に関するデータに基づいて表示された、推奨事項をユーザに提供するためのシステムのブロック図である。遺伝的データ及び／または腸内マイクロバイオータの組成に関するデータに基づいて推奨事項をユーザに提供するためのシステムのプロセスを示す図である。同じユーザの試料が異なる遺伝子型を有する実施形態を示す図である。試料の数に応じて、同じユーザの遺伝子型が異なり得る実施形態を示す図である。

以下では、技術的決定の説明で使用される用語及びその定義について詳細に分析する。

本発明において、システムとは、コンピュータシステム、ＥＣＭ（電子計算機）、ＰＮＣ（プログラム数値制御）、コンピュータ制御システム、及び特定の明確に定義された操作シーケンス（アクション、命令）を実行できる任意の他のデバイスを意味する。

命令ユニットとは、機械の命令（プログラム）を実行する電子アセンブリまたは集積回路（マイクロプロセッサ）を意味する。命令ユニットは、１つ以上のデータストレージデバイスから機械命令（プログラム）を実行する。ストレージデバイスとしては、これらに限定されないが、ハードドライブ（ＨＤＤ）、フラッシュメモリ、ＲＯＭ（リードオンリーメモリ）、ソリッドステートドライブ（ＳＳＤ）、光学ドライブなどが挙げられる。

プログラムは、コンピュータ制御デバイスまたはコマンド処理デバイスによって実行されるように設計された一連の命令である。

ヒトのマイクロバイオータ（正常なマイクロフローラ、正常細菌叢）は、ヒトの身体内のすべての微生物の複合体である。

遺伝的データとは、特定の生物のすべての染色体を含む、ＤＮＡ構造、ＤＮＡヌクレオチドの配列、ＤＮＡ配列内の単一及びオリゴヌクレオチドの変化に関する情報である。遺伝情報は、形態学的構造、成長、発達、代謝、メンタルメイク、疾患に対する責任、及び身体の遺伝的欠損を部分的に決定する。

一塩基多型（ＳＮＰ）は、同じ種のゲノム（または別の同等の配列）内または相同染色体の相同領域間の１つのヌクレオチド（Ａ、Ｔ、Ｇ、またはＣ）のＤＮＡ配列である。

ハプログループは、共通の祖先を有する類似のハプロタイプのグループであり、すべての子孫に継承された変異（通常は一塩基多型）が発生する。
用語「ハプログループ」は、Ｙ染色体（Ｙ−ＤＮＡ）、ミトコンドリアＤＮＡ（ｍｔＤＮＡ）、及びＧＫＧハプログループのハプログループを研究することにより、人類の遺伝的歴史を研究する科学である遺伝系図において広く使用されている。

対立遺伝子は、相同染色体の同じ領域（遺伝子座）にある同じ遺伝子の異なる形（値）である。

ＤＮＡシーケンシングとは、ＤＮＡ分子内のヌクレオチドの配列を決定することである。これは、アンプリコンシーケンシング（１６ＳｒＲＮＡ遺伝子またはその断片などのＰＣＲ反応の結果として得られた単離されたＤＮＡ断片の配列を読み取ること）及び全ゲノムシーケンシング（試料内に存在する全ＤＮＡの配列を読み取ること）として理解され得る。

ホモ接合状態は、所定の遺伝子座内の対立遺伝子が相同染色体上で互いに同一である遺伝子座の状態である。

ヘテロ接合状態は、所定の遺伝子座内の対立遺伝子が相同染色体上で互いに異なる遺伝子座の状態である。

ヘミ接合状態は、相同対立遺伝子を有さない遺伝子座の状態であり、すなわち、遺伝子座が位置している染色体は、相同対を有さない。

ＲｓＩＤは、個々の一塩基多型の識別子の指定である。

リードは、ＤＮＡシーケンサーで取得したＤＮＡ断片のヌクレオチド配列を表すデータである。リードは、ＤＮＡシーケンサーで取得したＤＮＡ断片のヌクレオチド配列を表すデータである。

ＦＡＳＴＡは、ＤＮＡ配列のレコード形式である。

系統発生学または系統分類学は、現代及び絶滅の両方の地球上の様々な種類の生命間の進化的関係の特定及び解明を扱う生物学的分類学の分野である。

α−多様性は、単一のニッチ内の微生物群集の多様性を特徴付ける数値である。α−多様性は、マイクロバイオータの種組成に関するデータに基づくアルゴリズムを使用して計算される。

β−多様性は、２つの微生物群集間の差の測定値を特徴付ける数値である。これは、群集間の多様性、種の分布の分化の度合いの指標、または種組成、環境の勾配に沿った種の構造の変化率の指標である。β−多様性を決定するための可能な方法は、異なる群集の種組成を比較することである。群集内でまたは勾配の異なるポイントで共通の種が少ないほど、β多様性は高くなる。

ショートリードのマッピングは、次世代シーケンシングの結果を分析するためのバイオインフォマティクス手法であり、各特定のショートリーディングを受け取る可能性が最も高いゲノムまたは遺伝子の参照塩基内の位置を決定することからなる。

ＤＮＡシーケンシングの結果として、一連のリードが作成される。現代のシーケンサーでのリード長は、数百から数千のヌクレオチドの範囲である。

ゲノムの「ゴールドスタンダード」（参照）は、特定の生物種の遺伝暗号の一般的な代表例として科学者によってコンパイルされた、デジタル形式のＤＮＡ配列である。ヒトゲノムの場合、これは、例えば、断続的な遺伝子座を有する半数体ゲノムであるＧＲＣｈｇ３７（ゲノム参照コンソーシアムヒトゲノム３７）のアセンブリ型（すなわち、元々同じ配列に列挙されている対立遺伝子のバリアントが、異なる染色体上にある場合がある）であり得る。

分類学−複雑に編成された階層的に相関するエッセンスの分類及び体系化の原則及び実践の教義である。

いくつかの実施形態では、方法１００は、図２に示されるように、一連のブロックであるシステム２００に実装される。しかし、方法１００は、代替的には、実行した微生物分析から得たデータを作成し、交換するための他の情報と共に、これらのユーザの遺伝的データ及び腸内マイクロバイオータデータを受信し、処理するように構成された任意の他の好適なシステム（複数可）を使用して実行され得る。

一次データ取得ユニット２０１は、少なくとも１人のユーザから試料を受け取る。上記のデータは、図３に示すように、プロセス試薬成分を有し、ユーザが採取部位から試料を受け取るように構成された試料用容器３０１などのサンプリングキットを使用してユーザから取得する。一次データ取得ユニットから離れた場所にいるユーザは、信頼できる様態で試料を提供できる。サンプリングキットの配達は、小包配達サービス（例えば、郵便サービス、配達サービスなど）を使用して実行されることが好ましい。追加的にまたは代替的に、サンプリングキットは、屋内または屋外に設置されたデバイスを介して直接提供され得、これは、ユーザからの試料の受け取りを容易にすることを目的とする。他の実施形態では、サンプリングキットは、臨床検査技師によって診療所または他の医療機関に配達できる。しかし、一次データ取得ユニット２０１におけるユーザサンプリングセット（複数可）の提供は、追加的または代替的に、任意の他の好適な方法によって実行され得る。

一次データ取得ユニット２０１内で提供されるサンプリングセット（複数可）は、非侵襲的な様態でユーザからの試料の受け取りを容易にするように構成されることが好ましい。いくつかの実施形態では、ヒトから試料を取得するための非侵襲的方法では、透過性基材（例えば、ヒトの身体領域を拭くことができるタンポン、トイレットペーパー、スポンジなど）、ユーザの身体領域から試料を受け取るように構成された容器（例えば、バイアル、チューブ、袋など）、及び任意の他の好適な受け取り要素（唾液、糞便、尿など）のいずれかまたはいくつかを使用できる。特定の例では、試料は、１つの臓器またはいくつかの臓器、例えば、鼻、皮膚、ヒトの性器、口腔、及び腸などから非侵襲的に収集できる（例えば、タンポン及びバイアルを使用する）。しかし、一次データ取得ユニット２０１内に提供される試料収集セットは、追加的または代替的に、半侵襲的様態または侵襲的様態での試料の受け取りを容易にするために使用され得る。いくつかの実施形態では、試料を受け取るための侵襲的方法は、針、シリンジ、生検マガジン（ｂｉｏｐｓｙｍａｇａｚｉｎｅ）、トレフィン及び半侵襲的または侵襲的な様態で試料を収集するための任意の他の好適な器具などの物品を使用できる。特定の例では、ユーザ試料には、１つ以上の血液試料、血漿／血清試料（例えば、無細胞ＤＮＡの抽出用）、及び組織試料が含まれ得る。

入力試料は、例えば実験室で処理できる試料（唾液、尿、糞便、血液）であり得、遺伝的データ及び腸内マイクロバイオータの組成に関するデータは、シーケンシングまたはジェノタイピングによって取得される。

いくつかの実施形態では、一次データ取得ユニット２０１は、ユーザ（複数可）に関連するセンサ（例えば、ポータブルコンピューティングデバイスのセンサ、モバイルデバイスセンサ、ユーザに関連するバイオメトリックセンサ）からユーザ推奨事項を生成する際に考慮される追加データを受信し得る。したがって、一次データ取得ユニット２０１は、ユーザの身体活動またはユーザへの物理的影響（例えば、モバイルデバイスまたはユーザのウェアラブルコンピューティングデバイスからの加速度計及びジャイロデータ）、環境データ（例えば、温度データ、高度データ、気候データ、光パラメータデータなど）、ユーザ力データまたは食事データ（例えば、受信した食品の登録記録からのデータ、分光分析のデータなど）、生体認証データ（例えば、モバイルコンピューティングデバイスのユーザのセンサによって記録されたデータ）、位置データ（例えば、ＧＰＳセンサを使用する）、診断データ、または任意の他の好適なデータに関する情報を取得することを含むことができる。追加のデータセットは、追加的にまたは代替的に、医療記録及び／またはユーザ（複数可）の臨床データから取得できる。いくつかの実施形態では、追加のデータセットは、ユーザ（複数可）の１つ以上の電子医療記録（ＥＨＲ）から取得できる。

品質管理ユニット２０２は、一次データ取得ユニット２０１で得られたユーザ試料に基づいて、一塩基多型及びユーザリードを受信する。

遺伝的データを取得する際の技術のレベルには、いくつかの種類のエラーがある。例えば、図４に示すように、同じユーザの試料は異なる遺伝子型を有する。または、例えば、同じユーザの遺伝子型は、試料の数に依存して異なり得る（図５）。

誤解を防ぐために、過去には、遺伝子工学のレベルは、１つの一塩基多型の病原性対立遺伝子の数及び非常に非効率的な強度インジケーターに基づいて、試料の正確さを手動で確認することを暗示していた。

一塩基多型の調製において、品質管理ユニット２０２は、それらの品質管理（ＱＣ−品質管理）を実行する。データは、ユーザのＤＮＡに特異的に結合するＤＮＡプローブの小さい片を含む、バイオチップスキャナを使用して、シリコンバイオチップから得る。バインドがこれらのデータに正常にリンクされている場合は、蛍光標識を付着させることができる。ジェノタイピング用のバイオチップにより、ＳＮＰタイピング及び遺伝子のコピー数の多様性の分析、バイオバンク用の試料のジェノタイピング、標的化したジェノタイピングを実行できる。バイオチップスキャナの作業の結果、特定のユーザの一塩基多型の遺伝子型に関する情報が得られる。これには、Ｘ染色体及びＹ染色体を有する多型も含まれる。上記の情報には、遺伝子多型識別子（ｒｓＩＤ）及び１つまたは２つの対立遺伝子が含まれ得る。この場合の対立遺伝子は、Ａ、Ｔ、Ｇ、Ｃ、−の文字列である。例えば、データは次の形式で表示できる。

最初の段階では、ユーザの性別は、Ｘ染色体及びＹ染色体による一塩基多型の数を数えることによって決定される。特に、ホモ接合状態にあるＸ染色体での一塩基多型の割合及びＹ染色体でジェノタイピングを実行できなかった一塩基多型の割合が計算される。Ｘ染色体での一塩基多型を計算するには、ホモ接合状態にあるＸ染色体での一塩基多型の数が決定され、Ｘ染色体での一塩基多型の総数、その後、染色体の最初の数と２番目の数との比率が決定される。Ｙ染色体での一塩基多型を計算するためは、遺伝子型が決定していない一塩基多型の数が決定され、その後、Ｙ染色体での一塩基多型の総数が得られ、その後、染色体の最初の数と２番目の数との比率が求められる。

Ｘ染色体とＹ染色体との性決定が一致する場合、最終的な性別が明確に決定される。男性がＸで定義され、女性がＹで定義される場合、結果は、ターナー症候群の兆候であるＸ０−である。反対の場合、クラインフェルター症候群の兆候である。いくつかの実施形態では、Ｘ染色体とＹ染色体との性決定が不一致の場合、欠陥について試料の追加の検査が行われ、それが欠陥であり、言及された２つの症候群ではない可能性が高い。

男性の場合の品質管理段階における品質管理ユニット２０２による性別判定後、Ｘ染色体及びＹ染色体を有するホモ接合状態の一塩基多型は、ヘミ接合状態の一塩基多型に変換され、Ｘ染色体及びＹ染色体を有するヘテロ接合一塩基多型はフィルター処理により除外され、遺伝的データの最終試料には含まれていない。女性の場合、Ｙ染色体を有するすべての一塩基多型が除外され、遺伝的データの最終的な試料には含まれていない。この技術的決定における変換は、ペアから１つの対立遺伝子を取り除くことである。

また、一次データ取得ユニット２０１では、腸内マイクロバイオータの１６ＳｒＲＮＡの微生物遺伝子をシーケンシングすることによってデータを取得する。いくつかの実施形態では、一次データ取得ユニット２０１は、シーケンサーから受信したＦＡＳＴＱまたはＦＡＳＴＡ形式で、試料ごとに１つのファイルのシーケンスファイルを受信する。増幅シーケンシングが好ましい場合があるが、全ゲノムシーケンシング（ＷＧＳ）が使用され得る。

シーケンシング中、シーケンサーの起動の最終段階は、塩基の呼び出しである。ここでは、デバイスの中間「生」シグナル（画像、スペクトル、強度マップ）を、品質ポイント（各ヌクレオチドの位置に対して１つのポイント）を伴うリードの数に変換する。リードは、ヌクレオチドの４つのシンボル（Ａ、Ｃ、Ｇ、及びＴ）、ならびにサービスシンボルＮまたは「．」または「？」で構成され、例えば、「ＧＣＡＡＡＡＡＡＣＴＴＡＣＣＣＣＧＧＡＡＣＡＧＧＣＣＧＡＧＣＡＧＡＴＣＡＡＡＡＣＧＣＴＡＣＴＧＣＡＡＴＡＣＡＧＡＣＣＡＴＣＡＡＧＣＡＣＣＡＡＣＴＣＣＣＮＮＮＣＧＴＡＧＮＮＮＮＮＮＴＡＴＧＴＴＮＮＮＮＧ」の形態で、この位置での値に関する全体の不確実性を示す（シーケンサーでは、ヌクレオチドを決定できない）。次の読み取りの特徴が最も重要である。１つ目は、読み取りに要する時間であり、２つ目は、発生する可能性のあるエラー及びその頻度である。品質値は、この位置でエラーが発生しない確率を特徴付ける値であり、この値は、シグナルの品質に基づいてシーケンサーによって計算される。

式中、Ｐは、この位置のエラー確率である。異なる実施形態では、リード及びそれらの品質値は、各試料に対して２つのファイル（ＦＡＳＴＡ形式）として生成するか、単一のファイル（ＦＡＳＴＱ形式）に組み合わせることができる。また、ディスク容量を節約するために、これらのテキスト表現はバイナリ形式に変換され得る。

この計算を高速化するために、例えば、５００ＭＢを超えるＦＡＳＴＱ形式のサイズのファイルは、例えば、８９９５１リードまでランダムに希薄化される（このリードの数は、２５０ヌクレオチド長のリードを有する５００ＭＢの平均的ファイルサイズに対応している）。特定の値から始めて、シーケンシングの深さを増加させても、マイクロバイオータの受け取った種組成にはほとんど影響がない。

品質管理ユニット２０２では、所定の閾値を下回る平均品質値を有するリードをサンプリングする。他の実施形態では、低い品質値を有する位置をリードエンドから適応的に除去することができる（例えば、固定閾値よりも高い品質値を有する位置に遭遇するまで、５’から３’端までのすべてのヌクレオチドが順次除去される）。加えて、品質管理ユニット２０２では、親ＤＮＡの不適切な化学修飾の結果生じるアーチファクト配列の読み取りによる非生物学的起源を有するリードにおける外来遺伝情報をフィルター処理により除去する。

品質管理プロセスを実行するとき、品質管理ユニット２０２は、計算方法（例えば、統計的方法、機械学習方法、人工知能技術、バイオインフォマティクス技術など）を使用できる。

次に、品質管理ユニット２０２は、座標（染色体及びその位置）ならびにユーザの遺伝子型を含むユーザの一塩基多型のリストを遺伝的データ分析集団ユニット２０３に送信する。

ハプログループには、母系ハプログループ及び父系ハプログループの２種類がある。

遺伝的データ分析集団ユニット２０３では、父系ハプログループは、Ｙ染色体の変異ツリー及びユーザの遺伝的データに基づいて最初に決定される。変異ツリーは、例えば、ＸＭＬ形式で表すことができる。ユーザの遺伝的データには、座標（染色体及び位置）ならびにユーザの遺伝子型を含む一塩基多型のリストが含まれる。Ｙ染色体の変異ツリーには、各ハプログループ（位置−多型）に特徴的な変異が含まれる。

母系ハプログループのデータ構造及び計算方法は、母系ハプログループが、ＭＴ染色体のＳＮＰ（一塩基多型）から計算され、父系ハプログループが、Ｙ染色体のＳＮＰ（一塩基多型）から計算される点を除いて、父系ハプログループと同じである。その結果、男性については、父系及び母系の両方のハプログループが計算され、女性については、母系のハプログループのみが計算される。

元のハプログループを除く各ハプログループは、１つの親ハプログループ及び１つ以上の娘ハプログループを有する。各ハプログループは、変異を決定する有限のリストを有する。したがって、ハプログループのツリーが形成され、そのエッジは変異のセットによって決定される。

遺伝的データ分析集団ユニット２０３では、ユーザの遺伝的データである変異ツリーを使用して、父系ハプログループを決定し、次のように動作する。

変異ツリー内の各多型の出現回数を決定する（例えば、Ａ１２３Ｇはツリー内で３回出現し、Ｔ４５６Ｃはツリー内で２２回出現する）。

ツリー内の多型の最大可能出現数を個別に保存する（任意の数、例えば、３０が取得される）。

次式に従って各多型を評価する。多型の最大出現数（前のステップで決定）から、ツリー内の所定の多型の出現数を差し引く。この値は、多型の重みである。

試料（ユーザデータ）と各ハプログループ間の多型の一致を検出する。

試料（ユーザデータ）と各ハプログループ間の多型間の不一致を検出する。この技術的決定に関連して、不一致多型とは、変異が逆の多型である。例えば、変異ツリー内に変異Ａ１２３４５Ｃが存在し、ユーザがＡ遺伝子型を有する場合、遺伝的データ分析集団ユニット２０３では、これは、一致する多型ではないと判断する。

変異ツリーに変異Ａ１２３４５Ｃが存在し、ユーザにＣの遺伝子型もＡの遺伝子型もない場合、遺伝的データ分析集団ユニット２０３では、変異を相補鎖にマッピングし、Ｔ１２３４５Ｇが取得される。このステップでは、対立遺伝子の指定は相補的なものに変更される。すなわち、対立遺伝子はあたかもＦＷＤ鎖上にあるかのように変更され、ＲＥＶになる。

各ハプログループの一致及び非一致多型の数を決定する。

ハプログループ（変異ツリーの要素）を次式により推定する：
一致した多型の重みの合計から不一致の多型の重みの合計を差し引いたもの。

変異のツリーに沿ってこうしたパスを検出し、ハプログループの推定値の合計が最大になるようにする。このようにして最終的なハプログループは、所望する父系のハプログループになる。

同様に、遺伝的データ分析集団ユニット２０３では、母系ハプログループを決定するが、これは、ミトコンドリアの変異ツリーに基づいており、ユーザの遺伝的データｍｔＤＮＡには、変異のツリーが保存されており、安定した遺伝的マーカー（ハプログループ）がすべての子孫において反復されている。ツリーは次のように形成される。マーカーは変異中に出現し、ｍｔＤＮＡ内に蓄積される。一致するマーカーの数によって、異なる集団の親族の関係を追跡する機会がある。一致するマーカーが多いほど、より近い関係で一致する。マーカーが特定の変異の後で一致しない場合、それは集団が分散したときに言うことができる。

次に、遺伝的データ分析集団ユニット２０３では、異なる集団からの人々の遺伝子型、座標（染色体及び位置）を有する一塩基多型のリスト、ならびにユーザの遺伝子型に関するデータに基づいて、ユーザの集団組成を決定する。

遺伝的データ分析集団ユニット２０３では、主成分法を適用することによって集団組成を決定する。集団のゲノム塩基からの各遺伝的試料は、特定の数の一塩基多型からなるセグメントに分割され、ゲノム内で連続して次に続く。ベクターは、試料の各セグメントの主成分法によって決定される。

同様に、ベクターは、入力試料の各セグメントの主成分法によって決定される。

試料の各セグメントは、以前に定義されたベクターとの比較の結果として、特定の集団を指す。

集団の割合は、この集団に割り当てられた試料のセグメント数を、試料の総数で割ったものとして計算される。

いくつかの実施形態では、試料を１２個の集団成分からのベクターに分解するための主成分法を使用でき、試料は完全に供給される。

いくつかの実施形態では、遺伝的データ分析集団ユニット２０３は、座標（染色体及び位置）及びユーザの遺伝子型を含む一塩基多型のリスト、特定の多型においてネアンデルタール人から継承された対立遺伝子のセットに基づいて、以下のとおり、試料中のネアンデルタール対立遺伝子の総数を決定する：ネアンデルタール対立遺伝子がホモ接合状態にある場合は、結果は＋２になり、ネアンデルタール対立遺伝子がヘテロ接合状態にある場合は、結果が＋１になり、そうでない場合は＋０になる。当初、ネアンデルタール人から継承された対立遺伝子のセットは、集団に応じて３つの部分ＡＳＮ、ＥＵＲ及びＥＵＲＡＳＮに分割することができ、最終的に１つのセットにマージされる。次に、染色体上の位置が、３７〜３８のゲノムアセンブリに転送される。

いくつかの実施形態では、マイクロバイオータ組成の全ゲノム（ＷＧＳ）プロファイリングにより、マイクロバイオータデータ分類学的分析ユニット２０４は、メタゲノムリードを、腸内微生物の代表的なゲノムのセットからなる到達不能カタログにマッピングする。このカタログには、ヒトの腸内で見つかった細菌のゲノムのほかに古細菌を含めることができる。このカタログは、公開されている大規模なデータベース、及び技術レベルで利用可能な出版物の自動分析に基づいて作成され得る。いくつかの実施形態では、参照ゲノムのセットが拡張され、これにより、新たに公開されたゲノムを定期的に追加できる。マッピング結果は、ＢＡＭファイルに保存できる。いくつかの実施形態では、マッピングされたリードの全長（カバレッジの深さ）は、各ゲノムに対して決定される。

マイクロバイオータの全ゲノム分析では、ゲノムの長さ及びマッピングされたリードの全長にカバレッジを正規化することにより、マイクロバイオータの分類学的データ分析ユニット２０４によって、ゲノムの相対的存在量をさらに決定できる。

遺伝子の相対的存在量マッピングされたリード長/遺伝子長
試料のマッピングされたリードの合計長

前処理後、マイクロバイオータが１６ＳｒＲＮＡシーケンシングにより分析されるとき、マイクロバイオータ分類学的データ分析ユニット２０４は、１６ＳｒＲＮＡ（またはその断片）の各リード値が既知のいずれの細菌に属するか、及び未知の細菌からどのようにリードの特徴付けをするかを決定することにより、定量的分類学的データ分析を実行する。検索は、参照ベースのテンプレートを使用して実行される。分類学的分類は、１６ＳｒＲＮＡの単一の配列に基づく細菌種の定義である運用分類学的ユニット（ＯＴＵ）の基本概念に基づく。１６ＳｒＲＮＡ遺伝子（またはその領域）のリードのセットは、遺伝子配列の代表的な塩基と比較させる。各読み取りは、高い類似性を有する分類学的ユニットを参照する。いくつかが同時に生じる場合、これらのＯＴＥのうちの１つに読み取り値をランダムに割り当てることができる。各レコードは、クラスター分析の結果として以前に取得された、データベース内の対応するＯＴＥの代表的な配列である。類似性の閾値は変動し得るが、メタゲノム研究では、伝統的に、類似性の値９７％を、１つの細菌種内の１６ＳｒＲＮＡの類似性の程度のヒューリスティック推定として使用する。しかし、この値は絶対的なものではない。同じ細菌種内で、この遺伝子の配列が大きく異なる細菌が出現し得る。その一方で、２つの異なる種（例えば、エシェリキア及び赤痢菌）において、同じ配列が存在し得る。

この実施形態では、技術レベルから知られている他の２つの基本的なＯＴＥ識別戦略、デノボ検索及びハイブリッドアプローチ（テンプレート及びデノボ検索に基づく検索要素の組み合わせ）が特定の実施形態においては適用可能である。

マイクロバイオータの１６ＳｒＲＮＡシーケンシング用に蓄積された配列は、プールされたデータベースに還元され、系統学的にアノテーションが付けられる。最新技術で最も広く使用されているデータベースは、Ｇｒｅｅｎｇｅｎｅｓ（１６ＳｒＲＮＡ遺伝子の完全な配列の監視ベース）、ＳＩＬＶＡ（１６Ｓのみでなく、真核生物の１８Ｓ、２３Ｓ／２８Ｓの配列も含まれる）、ＲＤＰ（アノテーションの統一性は低いが、容量はＧｒｅｅｎｇｅｎｅｓよりも多い）である。

メタゲノムのセットを１６ＳｒＲＮＡ形式で処理した結果、各試料のデータベースから各分類学的ユニット（ＯＴＥ）に起因するリードの数を反映する相対存在量テーブルが取得される。希薄化された相対存在量テーブルは、次の原則に従って決定できる。
ａ．各分類学的単位の試料のリードの総数が閾値（例えば、５０００）未満の場合、そのような試料は、品質において好適でないため、これ以後の分析から除外され、繰り返しシーケンシングが行われる。
ｂ．各分類学的単位の試料のリードの総数が閾値（例えば、５０００）以上の場合、各分類学的単位のリードの数は比例的に正規化され、これにより試料のリードの総数が閾値（例えば、５０００）と等しくなる。

いくつかの実施形態では、相対的存在量は標準化されている。このために、参照データベースに正常にマッピングされた各試料のリード数がまとめられる。各分類群の正規化表現は、所定の試料のこの分類群に起因するリードの数を、この試料のマッピングされたリードの総量で割って１００％を掛けて計算される。得られた正規化表現の値から、各試料のデータベースから各分類群に起因するリードの割合を含む正規化表現テーブルが作成される。

分類学的分析ユニット２０４では、相対的ＯＴＵ存在量の非希薄化テーブルから、他の分類学的レベル（属、家族など）の希薄化表現テーブルを生成する。分類学的レベルごとに、次の方法が使用される。
ａ．この分類学的レベルに関連するすべてのＯＴＵの試料のリードの数がまとめられる。
ｂ．所定の分類学的レベルの表現テーブルは、受信した総計からコンパイルされる。

さらに、表現テーブル（各試料の分類学的レベルのうちの１つの各分類群に起因するリードの数を反映するテーブル）に基づいて、微生物遺伝子の群の相対的存在量が推定される。

このため、希薄化表現テーブルは、１６ＳｒＲＮＡのコピー数に対して正規化されている。このために、各試料の分類群の各々に起因するリードの数は、所定の分類群に特徴的である１６ＳｒＲＮＡ遺伝子の推定コピー数で除算される。

次に、各遺伝子について、各試料の表現が次のように決定される。
特定の代謝経路及び／または異なる微生物に入るそれらの経路の中の遺伝子群の存在の既存のテーブルを使用して、遺伝子群（ＥＣ）及び代謝経路の表現テーブルが、各試料についてコンパイルされ、これは、これらの遺伝子／代謝経路が含まれている微生物に比例する。

その結果、各試料の遺伝子表現のテーブルは、結果として得られた総計からコンパイルされる。

分類学的分析ユニット２０４によって得られた１６ＳｒＲＮＡの微生物群集の集団の分類学的プロファイルは、ユーザ集団の重要な特徴、すなわちアルファ及びベータ多様性を評価するために使用される。これらは、単一の微生物群集の多様性及び２つの群集の違いをそれぞれ特徴付ける数値である。シーケンシングされる試料あたりのリードが多いほど、より多くの異なる種が検出され、リードの数が増えると飽和が生じる。複雑な群集と比べて、複雑でない群集の方が早急に生じる。したがって、アルファ多様性を計算するときは、試料あたりのリード数が考慮される。アルファ多様性の最も広く使用されているエバリュエーターの中で、系統的多様性（群集が網羅する生命のツリーの一部に比例）は、この技術的決定、ならびにＣｈａｏ１及びＡＣＥインデックスで使用できる。

表現の少ない分類群の事前フィルター処理は、例えば次の原則に従って行われる。総微生物集団の０．２％を超えて表現される分類群は、試料の少なくとも１０％に残る。

さらに、疾患リスク決定ユニット２０５では、分類学的分析ユニット２０４に含まれる正規化された表現テーブルに基づいて、試料中のマイクロバイオータの異常な組成を前処理し、評価する。各試料について、日和見病原体のリストの分類群のそれぞれに関連するリードの合計パーセンテージが確認される。合計パーセンテージが一定のパーセンテージ（２０％など）を超える試料は、異常と見なされる。いくつかの実施形態では、異常推定への寄与の重み付けの可能性など、リストからの個々の分類群の割合が考慮される。いくつかの実施形態では、各試料について、ビフィズス菌の属に関するリードの割合がさらに確認される。この割合が一定の割合を超える試料（例えば、５０％）は、異常と見なす。いくつかの実施形態では、専門家が各試料の分類群の相対的存在量を検討して、条件付きで病原性のものなどのいくつかの分類群の非定型表現を検出できる。専門家の判断及び／または機械学習のアルゴリズムの作業の結果に基づいて、試料を異常と見なすこともできる。異常と認識された試料は、これ以後の分析から除外される。これらの試料を保有しているユーザには、マイクロバイオータの組成の異常が通知される。

次に、疾患リスク決定ユニット２０５では、正規化された表現テーブルならびに細菌及び疾患リンクのデータベースに基づいて、マイクロバイオータデータからユーザの疾患に対するセキュリティを決定する。

以前は、次のように、集団試料のマイクロバイオータ試料、比較のための参照データから、いわゆるコンテキストが作製されていた。

各分類群（属または他のレベル）について、表現の固定パーセンタイルのセットが計算される（例えば、３３％−及び６７％−パーセンタイル）。換言すると、表現の２つの閾値が取得される。集団試料からの試料の３分の１は、所定の細菌に対して、小さい閾値よりも小さい表現を有し、集団試料からの試料の３分の１は、所定の細菌に対して、大きい閾値よりも大きい表現を有する。

いくつかの実施形態では、パーセンタイルの閾値は、健康な個体と比較した、この疾患を有する患者（または疾患のリスクが高い個体）における分類群の相対的存在量の統計分析の結果に基づいて事前計算され得る。

各試料について、疾患リスク決定ユニット２０５は、各疾患に対するセキュリティを決定する。各疾患には、事前に関連付けられた微生物分類群（バイオマーカー）のリストが割り当てられている。次に、この疾患の試料をセキュリティ量に設定する。これは、次のルールに従って計算され得る。

この試料では、この疾患のバイオマーカーの各微生物（分類群）には、次のルールに従って値０、Ｎ（ｋ）、またはＭ（ｋ）が割り当てられる（式中、ｋはバイオマーカー番号であり、Ｎ（ｋ）及びＭ（ｋ）は、バイオマーカー定数に特異的なバイオマーカーである）。
ｉ．所定の細菌が特定の試料に含まれていない場合、この細菌には番号０が割り当てられる。
ｉｉ．この試料内の所定の細菌の表現が上位パーセンタイルより低く、下位パーセンタイルを超える場合、この細菌には番号０が割り当てられる。
ｉｉｉ．細菌と疾患との関連性により、この細菌がこの疾患の影響を受けていない場合、この細菌には番号０が割り当てられる。
ｉｖ．この試料でのこの細菌の表現が上位パーセンタイルを超え、細菌と疾患のリンクのテーブルによれば、この疾患と明確に関連している場合、この細菌には番号−Ｍ（ｋ）が割り当てられる。
ｖ．この試料でのこの細菌の表現が下位パーセンタイルより低く、細菌と疾患との関連性によれば、この疾患と明確に関連している場合、この細菌には番号Ｎ（ｋ）が付与される。
ｖｉ．この試料でのこの細菌の表現が上位パーセンタイルより高く、細菌と疾患の関連性によれば、この疾患に負に関連している場合、この細菌には番号１が割り当てられる。
ｖｉｉ．この試料でのこの細菌の表現が下位パーセンタイルより低く、細菌と疾患の関連性によれば、この疾患に負に関連している場合、この細菌には番号−１が割り当てられる。

いくつかの例示的実施形態では、すべてのバイオマーカーについて、（ｋ＝１、…）、Ｎ（ｋ）＝Ｍ（ｋ）＝１である。

この試料には、この疾患からの保護値が付与される。これは、前のステップでバイオマーカー細菌に割り当てられた値の合計に等しい。

保護のための固定パーセンタイルは、例えば、３３％パーセンタイル及び６７％パーセンタイルなど、各疾患に対して計算される。換言すると、２つのセキュリティ閾値が取得される。集団試料の３分の１の試料では、この閾値が小さい場合よりも、この疾患に対して低い保護を有し、集団試料の３分の１は、この閾値が大きい場合よりも、この疾患に対して高い保護を有する。

次に、ユーザのセキュリティのスケーリングされた値は、次のように疾患リスク決定ユニット２０５によって決定される。

マイクロバイオータ保護の量は、各疾患のコンテキスト分析で前述した方法によって計算される。

ユーザのセキュリティは、次のルールに従ってスケーリングされる。
ａ．コンテキストから計算された、この疾患に対する保護の低いパーセンタイルは、０について新しいスケールで採用される。
ｂ．コンテキストから計算された、この疾患に対する保護の高いパーセンタイルは、１０について新しいスケールで採用される。
ｃ．コンテキストから計算された、この疾患に対する保護の高いパーセンタイルは、１０について新しいスケールで採用される。

新しいスケールでのセキュリティ値が４未満の場合、４に設定される。得られた値は、所定の疾患からの試料の保護レベルである。

他のパーセンタイルは、技術的決定の他の実施形態で使用され得る。また、各分類群は、特徴への影響の評価、及び１、−１、または０以外の特定の試料におけるその表現から形成される、独自の個別の重みを有することができる。

ユーザの推奨事項では、疾患に負の関連があり、かつ低い（ゼロ以外の）及び／または正常な表現（上位パーセンタイルと下位パーセンタイルとの間にある）を有し、かつ他の疾患と正に関連していない場合には、細菌の相対的存在量を増量することを提案している。

いくつかの実施形態では、疾患リスク決定ユニット２０５は、遺伝性単一遺伝子疾患の組成を決定する。そのためには、遺伝性疾患の変異及び病原性対立遺伝子のリストを使用できる。これらのデータには、病原性変異に関する情報のみが含まれている。ユーザ試料には、変異識別子及び遺伝子型が含まれている。

疾患リスク決定ユニット２０５では、例えば、以下のように、病原性対立遺伝子の存在について各変異を確認し、疾患の状態を評価する。
ａ．０−病原性対立遺伝子なし。
ｂ．１−１つの病原性対立遺伝子を有する変異が１つのみ。
ｃ．２−両方の病原性対立遺伝子を有する変異が１つ以上。
ｄ．３−１つの病原性対立遺伝子を有する変異が２つ以上（複合ヘテロ接合体）。

１つの疾患では、１つの試料が、予約の順に最初の３つのケースを同時に有し得る。２＞３＞１。

先行技術では、以下の種類の変異遺伝がある：常染色体劣性（ＡＲ）、常染色体優性（ＡＤ）、Ｘ連鎖劣性（ＸＲ）、Ｘ連鎖優性（ＸＤ）、Ｙ連鎖（Ｙ）、ミトコンドリア（ＭＴ）。

疾患の状態が２（両方の病原性対立遺伝子を有する１つ以上の変異）または３（同じ病原体対立遺伝子を有する２つ以上の変異）と推定される場合、ＡＤとＡＲ−ＡＤとの組み合わせで最終的な継承タイプを割り当てる順序は、次のＡＲ−ＡＤ＞ＡＲ；ＸＤとＸＲ−Ｘ＞ＸＲとの組み合わせである。その結果、出力時には、疾患リスク決定ユニット２０５は、継承タイプを有する疾患状態を発する。

いくつかの実施形態では、疾患リスク決定ユニット２０５は、取得したデータ（リスク計算の結果として取得された個々のデータ、及びメタゲノム分析データ）に基づいてユーザをランク付けできる。疾患ごとに、疾患リスク決定ユニット２０５では、すべてのユーザを相対リスク比の観点からランク付けし、例えば、第１のグループがユーザの１０％、第２のグループが２０％、第３のグループが４０％、第４のグループが２０％、第５のグループが１０％となるように、ユーザを５つのグループに分ける。

さらに、疾患リスク決定ユニット２０５では、例えば、リスクグループに応じて以下のユーザ分布を生成する：
１．高リスク−０〜１０パーセンタイル、
２．リスクの上昇−１０〜３０パーセンタイル、
３．平均リスクは３０〜７０パーセンタイルである。
４．中程度のリスク−７０〜９０パーセンタイル、
５．低リスク−９０〜１００パーセンタイル。

上記のように、疾患リスク決定ユニット２０５は、メタゲノム分析の結果に基づいて、特定の疾患の発症に対する生物の保護の程度を決定する。セキュリティのレベルは、０〜１０のスケールの整数で表すことができる。疾患リスク決定ユニット２０５では、次の原則を使用して、マイクロバイオータ保護の程度に関するデータを遺伝学でのリスクのランク付けに含む。
−０〜５ポイント−ユーザは、リスク計算の結果によって決定されたグループよりも高い（しかし、最初のグループよりは高くない）リスクグループに移動する。
−６〜７ポイント−リスクグループは変更されない。
−８−１０ポイント−ユーザは、リスク計算の結果によって決定されたグループよりも低いリスクグループ（しかし、５番目のグループ以上）に移動する。

ユーザがマイクロバイオータ検査のみを受けた場合（遺伝的データは考慮しない）、リスクの分布は次のようになり得る：
１．高リスク−０〜３ポイント。
２．リスクの上昇−４〜５ポイント。
３．平均リスクは６〜７ポイントである。
４．中程度のリスク−８〜９ポイント。
５．低リスク−１０ポイント。

当業者にとっては、ランク付け方法及びポイントが例示的であり限定的ではなく、技術的決定の性質に影響を及ぼさないことが明らかであろう。

いくつかの実施形態では、リスクの計算において、すべての要因（外的及び遺伝的）が互いに独立していることが想定され得る。疾患のリスクを決定するために、ロジスティックモデルを使用することができ、その出発点は、集団における疾患の平均的な発生であり、外的及び遺伝的リスク要因の寄与が考慮される。

遺伝的リスク因子については、寄与度の数値は、本疾患に関する全ゲノム関連研究（ＧＷＡＳ）などの研究から抽出できる。例えば、「ＩＩ型糖尿病」などの疾患の場合、Ｍｏｒｒｉｓ，Ａ．Ｐ．ら、２０１２。大規模な関連分析により、２型糖尿病の遺伝的構造及び病態生理学への洞察が得られる。ＮａｔｕｒｅＧｅｎｅｔｉｃｓ，４４（９），ｐｐ．９８１−９９０。

外的リスク因子については、特定のリスク因子と本疾患を発症するリスクとの関係を示す情報源が使用される。例えば、糖尿病には、次の要因及び記事を使用できる。

いくつかの実施形態では、酪酸の合成のための代謝経路に含まれる、ＥＵ命名法（酵素コミッション番号）による遺伝子群の相対的存在量は、マイクロバイオータ試料の組成から決定される。それらの表現は、コンテキストデータと相関しており、遺伝子の各群には、疾患に対する保護を計算するための上記と同様の様態でポイントが割り当てられる。微生物の表現に関するコンテキストデータには、原核微生物の表現の分布、パーセンタイル３３％及び６７％の値が含まれている。ポイントは４から１０まで決定され、これが酪酸の合成ポイントになる。このポイントが閾値よりも低い場合、最初のステップで表されなかった（３３％パーセンタイルを下回った）遺伝子群をゲノムにおいて潜在的に保持している分類群が存在し、コンテキストデータによる表現が確認される。これらの分類も、３３％パーセンタイルを下回る場合には、後にユーザへの推奨事項を策定するために使用される。

他の実施形態では、ビタミンＢ１、Ｂ２、Ｂ３、Ｂ５、Ｂ６、Ｂ７、Ｂ９、Ｋのそれぞれについて、ビタミン合成経路の一部を形成する試料中のＥＵ遺伝子群の表現について決定が行われる。それらの表現はコンテキストデータと相関しており、各ＥＣは段落１３７と同じ方法でポイントが割り当てられる。次に、すべてのビタミンの平均ポイントが考慮され、そこから全体をビタミン合成ポイントとする。このポイントが閾値未満の場合、最初のステップ（３３％）で過小評価されたと考えられる、ゲノム内でこれらのＥＣを潜在的に保有している微生物が確認され、コンテキストデータによるそれらの表現が確認される。これらの微生物も３３％内となれば、今後のユーザ向け推奨事項の方法に用いられる。

いくつかの実施形態では、遺伝子の微生物機能群の別の命名法、例えば、ＫＥＧＧオルソロジー群またはＭｅｔａＣｙｃベースからの遺伝子群が使用され得る。

他の実施形態では、切断の見込みは、所定のセットからの食物繊維の各タイプに対して決定される。関連データベースから、それらの微生物が分割可能であることがわかっている微生物のコンテキストデータに対する表現量の推定が行われる。それらの合計表現が３３％になると、アルゴリズムにより、この繊維の分割の可能性が低いと判断される。合計表現の値に応じて、４〜１０のポイントが各繊維に対して計算される。総繊維分割の可能性は、すべての食物繊維の平均ポイントと見なす。

いくつかの実施形態では、品質管理ユニット２０２は、遺伝子データをユーザ形質決定ユニット２０６に送信する。遺伝子用語の形質とは、ユーザの測定可能な特徴のことである。形質は、ユーザが記入したアンケート、遺伝子検査、ウェアラブルガジェット、医療カードなどから取得できる。

ユーザの形質の例。
−乳糖不耐症（離散状態：素因がある、素因がない、不明）。
−年齢（連続状態：３０歳、４９歳など）；
−ＣＹＰ２Ｄ６活性（離散状態：超高速代謝者、正常代謝者、代謝不良者）；
−肥満のリスク（連続状態：５０％のリスク、４３．４％のリスクなど）。

いくつかの実施形態では、機能は、遺伝性疾患群、薬物反応、栄養症状、スポーツ属性、ハプロタイプにグループ化され得る。

ユーザ機能の種類に応じて、形質は、２つ以上の可能な状態を有し得る。いくつかの実施形態では、状態は、離散型または連続型であり得るが、同じ機能に対して同時にではない。形質は、ユーザに対して計算されるものではないが、未定義の状態を有する。いくつかの実施形態では、ユーザの形質は、他の機能の状態に依存する。依存関係の状態のすべての可能な組み合わせにより、特徴定義のドメインが形成される。

形質は、可変（コーヒー消費量）、不変（ＣＹＰ２Ｄ６活性、フェニルケトン尿症の状態）、及び変化する形質に依存して条件付きで可変（いくつかのリスク）となり得る。

形質には規範的な制限を有し得、その後無効化される。すなわち、定義されていない状態になる。例えば、分析による血中コレステロール濃度は１年間有効であり、その後、この特徴はユーザの不確定な形質の状態に戻る。

可変形質及び条件付き可変形質では、制限規則の有効期限後に無効となるものを含めて、その状態の変化の履歴を記憶する。

形質はそれらの解釈において他の形質を参照し得るため、システムが機能で満たされると、形質決定ユニット２０６では、機能間の有向依存グラフを形成する。いずれも参照することのないグラフノードは、元のデータ（変異、アンケートへの回答、マイクロバイオータ）のノードである。他のすべてのノードは、ソースデータのノードに直接または間接的に依存する。

ユーザ形質決定ユニット２０６では、元のデータノードから開始してグラフを縮小することにより、特定のユーザの形質状態の決定を実行する。
［１２７］形質のうちの１つがその状態を変化させた場合、例えば、ユーザがアンケートで異なるように質問に回答した場合など、アンケート依存の形質はすべて再集計され、すなわち更新される。いくつかの形質の再計算を行うことにより、依存関係グラフが終了するまで他の形質が再計算される。

形質の状態を決定する前に、形質決定ユニット２０６では、依存関係グラフのサイクルを確認し、サイクルが存在する場合には、このユニットでは、グラフを縮小することはできない。

形質決定ユニット２０６は、少なくとも１つの形質の指標、形質の状態、及び遺伝的データ（一塩基多型、性別など）に基づいて、ユーザのための解釈（これらに限定されないが、スポーツ、栄養、個人の資質など）を、例えば、以下のような形態で策定することができる。

いくつかの実施形態では、形質決定ユニット２０６は、マイクロバイオータデータに基づいてユーザの形質を決定する。これを行うには、疾患に対する保護、食物繊維の消化の可能性、短鎖脂肪酸の合成、ビタミンの合成、及び食品と腸内マイクロバイオータとの間の関連のデータベースを計算した結果が使用される。このデータベースは、コンピュータ支援のテキスト分析アルゴリズムと、製品に関する事実に基づいて手動に追加したものとを組み合わせて作成され、これらの取り込みは、ヒトの腸に生息する特定の微生物に積極的に関連している。

データのうちの１つ（例えば、疾患に対する保護）の最終ポイントが所定の閾値未満である場合には、表現が不十分であった微生物の成長に関連する食品が、関連データベースから取り出される。異なるアルゴリズムの結果に基づいて製品が所定のユーザに推奨される頻度が高いほど、そのランクが高くなり、ユーザに推奨される確率が高くなる。

ユーザ推奨事項生成ユニット２０７は、疾患リスク決定ユニット２０５及びユーザ形質決定ユニット２０６のデータに基づいて、ユーザへの推奨事項を生成するように構成される。

疾患の形質、リスク、保有状況を特定した結果として得た個々のデータ、及びシステムの他のブロックからのメタゲノム解析データをユニットに供給する。

ユーザに対する推奨事項生成ユニット２０７の動作は、結果の出力となる条件が満たされたことに基づいて行われる。条件は、入力データに対する単純な論理演算の組み合わせである。この結果は、ユーザに特定のセットの活動の実行を促すことを目的とした推奨事項のテキストである。いくつかの実施形態における推奨事項は、以下のグループに分割される：
−望ましくない種類の負荷に関する推奨事項；
−生活様式の変更に関する推奨事項；
−特定の食品またはその群の食品の摂取量を変更するための推奨事項；
−医者を訪問するための推奨事項。

食品に関する推奨事項のグループは、ジェノタイピングデータと、腸内マイクロバイオータの組成または１つのバリアントのデータの両方を考慮して与えられる。

いくつかの実施形態では、ユーザ推奨事項生成ユニット２０７は、リスク低減推奨事項、自己診断推奨事項、紹介推奨事項、及び症状推奨事項を生成する。

疾患のリスクを低減するための推奨事項を策定する場合、疾患のリスクの上昇が推奨事項を表示するための前提条件である。

推奨事項により、形質のある状態から別の状態への移行が促される。すなわち、推奨事項は、実際の特徴を指す。形質は、推奨事項のアレイを有することができる。そのサイズは、異なる状態間の特定の移行の数と同じである。移行自体は、形質に影響を与えるユーザの元データが変化し、再解釈が実行された場合にのみ生じ得る。

移行には、それが実装される追加の条件を有し得る。例えば、ユーザの性別が推奨事項の発行に影響を与える可能性がある。

形質決定ユニット２０６によって定義される任意の機能の特定の状態が存在することにより、別の形質の特定の状態を必要とし得る、すなわち、要求者及び必要な状態が存在する。対象の状態を選択する必要がある各状態は、すべての請求者の重みで構成されている重みである。要求された状態が現在の状態と異なる場合には、移行が開始され、この移行を行うように促す推奨事項が発行される。ユーザに与えられる推奨事項の選択は、その機能の要求された状態のうちのいずれを上回るかに依存する。

ユーザが、疾患のリスクの上昇を有する場合、リスクを上昇させる状態において有する、変更された外的リスク要因を修正するための推奨事項がユーザに与えられる。例えば、推奨事項は、真性糖尿病では次のようになる：

「毎日コーヒーを飲む。

毎日の食事療法にコーヒーを含めるべきであるが、許容可能な率を超えてはならない。

毎日の食事に果物を含める。

毎日果物を食べることを推奨する。果物は、セルロース及び有用なビタミン及び微量元素が豊富である。

ビタミンＥが豊富な食品を食べることを推奨する。

食物と一緒にトコフェロールの摂取量を増やす必要がある。ビタミンＥは、強力な抗酸化物質であり、筋肉組織及び免疫システムに不可欠である。」

より詳細には、ユーザ推奨事項生成ユニット２０７において生成された推奨事項には、推奨される治療手段及び／または健康関連の目標に対処するための他の選択肢に関する通知をユーザに提供することを含み得る。推奨事項の通知は、電子デバイス（例えば、パーソナルコンピュータ、モバイルデバイス、タブレット、スマートクロックなど）を介して個人に提供され得、グラフィカルユーザインターフェイス（ＧＵＩ）に表示され得る。推奨事項は、アプリケーション、ユーザの個人キャビネットのＷｅｂインターフェイス、ＳＭＳメッセージ、またはＰＵＳＨ通知に表示できる。一実施形態では、ユーザに関連付けられたパーソナルコンピュータまたはラップトップのｗｅｂインターフェイスは、ユーザにユーザアカウントへのアクセスを提供でき、ユーザアカウントには、ユーザデータに関する情報、遺伝的データに関する詳細情報、及び腸内マイクロバイオータの組成に関するデータ、及び推奨事項生成ユニット２０７で生成された推奨事項の通知が含まれる。別の実施形態では、パーソナル電子デバイス（例えば、スマートフォン、スマートクロック、スマートヘッドデバイス）上で実行されるアプリケーションは、推奨事項に関して、推奨事項構築ブロック２０７の支援で得られた通知（例えば、表示またはサウンドなど）を提供するように構成され得る。通知は、追加的または代替的に、システムユーザ（例えば、世話人、配偶者、医療提供者など）に関連付けられたヒトを介して直接提供され得る。通知は、追加的または代替的に、システムユーザ（世話人、配偶者、医療提供者など）に関連付けられた担当者を介して直接提供され得る。しかし、推奨事項及び通知は、任意の他の好適な方法でシステムのユーザに提供され得る。

実施形態では、例示的なコンピューティングシステム環境に関連して記載されているが、それらは、多数のコンピューティングシステム環境、構成、ならびに汎用及び専用デバイスを使用して実装され得る。

本発明の態様での使用に好適であり得る既知のコンピューティングシステム、環境、及び／または構成の例としては、これらに限定されないが、モバイルコンピューティングデバイス、パーソナルコンピュータ、サーバーコンピュータ、ハンドヘルドデバイスまたはラップトップ、マルチプロセッサシステム、ゲームコンソール、マイクロプロセッサベースのシステム、セットトップボックス、プログラム可能な家電、携帯電話、ネットワークパーソナルコンピュータ、ミニコンピュータ、スーパーコンピュータ、上記のシステムやデバイス（フィットネスブレスレットなど）のいずれかを含む流体分散推論などが挙げられる。こうしたシステムまたはデバイスは、ジェスチャー入力及び／または音声入力を介して、キーボードまたはポインティングデバイスなどの入力デバイスなどの任意の形式でユーザからデータを受信することができる。

本発明の実施形態は、１つ以上のコンピュータまたは他のデバイスによって実行される、プログラムモジュールまたはブロックなどのコンピュータ実行可能命令の一般的なコンテキストで記載され得る。コンピュータ実行可能命令は、１つ以上のコンピュータ実行可能コンポーネントまたはモジュールに編成され得る。典型的には、プログラムモジュールとしては、これらに限定されないが、特定のタスクを実行する、または特定の抽象データ型を実装するサブルーチン、プログラム、オブジェクト、コンポーネント、及びデータ構造が挙げられる。本発明の態様は、そのようなコンポーネントまたはモジュールの任意の数及び任意の編成によって実現され得る。例えば、本発明の態様は、図に例解され、本明細書に記載の特定のコンピュータ実行可能命令または特定のコンポーネントまたはモジュールに限定されない。本発明の他の実施形態は、本明細書に例解され、記載されているよりも多いまたは少ない機能を有する他のコンピュータ実行可能命令またはコンポーネントを備え得る。

本発明の態様では、汎用コンピュータを、ユーザの遺伝的データ及び腸内マイクロバイオータの組成に関するデータを解釈するように構成された専用コンピューティングシステムに変換する。

本明細書に記載の様々な方法は、ハードウェアもしくはソフトウェアと一緒に、または、必要な場合、それらの組み合わせと一緒に実装され得ることが理解されるべきである。したがって、この主題の方法及びシステム、またはいくつかの態様またはその一部には、フロッピーディスク、ＣＤ−ＲＯＭ、ハードディスクドライブ、クラウドストレージ、または任意の他の記憶媒体などの有形媒体に実装されたプログラムコード（すなわち、命令）を含み得る。ここでは、プログラムコードが、コンピュータなどの機械によってロードされて実行されると、その機械は、本発明の主題を適用するためのデバイスになる。プログラム可能なコンピュータでプログラムコードを実行する場合、コンピューティングデバイスは、基本的に、プロセッサ、プロセッサによって読み取り可能な記憶媒体（揮発性及び不揮発性メモリ及び／またはメモリ要素など）、少なくとも１つの入力デバイス、及び少なくとも１つの出力デバイスを備える。１つ以上のプログラムでは、例えば、アプリケーションプログラミングインターフェイス（ＡＰＩ）、再利用可能なコントロールなどを使用することによって、本開示の主題に記載されるプロセスが実装され得るか、または使用され得る。このようなプログラムは、コンピュータシステムとデータを交換するために、高水準の手続き型プログラミング言語またはオブジェクト指向プログラミング言語を使用して実装され得る。しかし、必要に応じて、プログラム（複数可）は、アセンブラーまたはマシンプログラミング言語で実装され得る。いずれの場合でも、プログラミング言語はコンパイル型言語またはインタープリター型言語であり得、ハードウェア実装と組み合わせることができる。

本発明の主題は、構造的特徴及び／または方法論的機能の特定の言語によって記載されてきたが、本発明の主題は、添付の特許請求の範囲で定義されており、上記の特徴または機能を限定する必要はないことが理解される。上記の特徴及び機能は、多くの場合、特許請求の範囲の例示的な実施形態として開示されている。

Claims

遺伝的データ及びユーザから得られた腸内マイクロバイオータの組成に関するデータに基づいてユーザに推奨事項を提供するためのシステムであって、
−前記ユーザから遺伝的データ及び／または腸内マイクロバイオータデータを取得するように構成された一次データ取得ユニットと、
−前記一次データ取得ユニットによって取得された前記ユーザの前記遺伝的データ及び／または前記ユーザの前記腸内マイクロバイオータデータの品質を確認するように構成された品質管理ユニットであって、前記遺伝的データには一塩基多型が含まれ、前記腸内マイクロバイオータデータにはリードが含まれる、品質管理ユニットと、
−前記ユーザの父系ハプログループ及び母系ハプログループ、ならびに前記ユーザから取得した前記遺伝的データの集団組成を決定するように構成された集団遺伝分析ユニットと、
−１６ＳｒＲＮＡ遺伝子の配列のデータベースを使用して、前記リードを分類するように構成された分類学的データ分析ユニットと、
−疾患リスク決定ユニットであって、疾患のリスクを決定し、疾患に対する保護を評価し、病原性対立遺伝子の存在について遺伝子型を検査し、遺伝性疾患の保因者の状態を評価するように構成された疾患リスク決定ユニットと、
−機能依存グラフを縮小することにより、前記ユーザの機能の状態を決定するように構成された属性決定ユニットと、
−ユーザ推奨事項生成ユニットであって、前記疾患リスク決定ユニット及び前記属性決定ユニットから取得した前記データに基づいて、前記ユーザへの推奨事項を生成するように構成されたユーザ推奨事項生成ユニットと、を備える、システム。
前記一次データ取得ユニットが、ＦＡＳＴＱまたはＦＡＳＴＡ形式で、シーケンサーから得られたシーケンスファイルを受信することを特徴とする、請求項１に記載のシステム。
前記品質管理ユニットが、バイオチップスキャナによってシリコンバイオチップから前記ユーザの前記遺伝的データを受信することを特徴とする、請求項１に記載のシステム。
前記遺伝的データが、Ｘ染色体及びＹ染色体多型を含む、前記ユーザの前記一塩基多型に関するデータを含むことを特徴とする、請求項３に記載のシステム。
前記品質管理ユニットが、Ｘ染色体及びＹ染色体における前記一塩基多型の数を数えることによって、前記ユーザの性別をさらに決定することを特徴とする、請求項１に記載のシステム。
男性の場合、前記品質管理ユニットは、前記Ｘ染色体及び前記Ｙ染色体を有するホモ接合状態の前記一塩基多型をヘミ接合状態の前記一塩基多型に変換し、ヘテロ接合状態の前記一塩基多型は、フィルター処理により除外されることを特徴とする、請求項５に記載のシステム。
女性の場合、前記Ｙ染色体を有するすべての前記一塩基多型がフィルター処理により除外され、前記遺伝的データの最終出力に入らないことを特徴とする、請求項５に記載のシステム。
前記品質コントロールユニットが、所定の閾値を下回る平均品質値を有する前記リードをフィルター処理により除去することを特徴とする、請求項１に記載のシステム。
前記品質管理ユニットが、前記リードのエンドに低い品質値を有するアイテムを取り除くことを特徴とする、請求項１に記載のシステム。
前記品質管理ユニットが、アーチファクト配列の読み取りによる生物学的または非生物学的起源の前記リードにおける外来遺伝情報をフィルター処理により除去することを特徴とする、請求項１に記載のシステム。
前記集団遺伝分析ユニットが、Ｙ染色体の変異ツリー及び前記ユーザの前記遺伝的データに基づいて前記父系ハプログループを決定することを特徴とする、請求項１に記載のシステム。
前記集団遺伝分析ユニットが、ミトコンドリアの変異ツリー及び前記ユーザの遺伝的データに基づいて前記母系ハプログループを決定することを特徴とする、請求項１に記載のシステム。
前記集団遺伝分析ユニットが、異なる集団からのヒトの遺伝子型に関するデータ及び前記ユーザの前記遺伝的データに基づいて前記集団組成を決定することを特徴とする、請求項１に記載のシステム。
前記集団遺伝分析ユニットが、前記ユーザの前記遺伝的データ及び特定の多型でネアンデルタール人から継承された対立遺伝子のセットに基づいて、ネアンデルタール人の前記対立遺伝子の総数を決定することを特徴とする、請求項１に記載のシステム。
前記１６ＳｒＲＮＡ遺伝子の配列のデータベースを使用した分類中に、前記データベースが、前記ユーザの腸で発生した細菌及び／または古細菌ゲノムのセットを含むことを特徴とする、請求項１に記載のシステム。
前記マイクロバイオータデータの前記分類学的分析ユニットが、微生物ゲノムまたは種の相対的存在量を決定することを特徴とする、請求項１に記載のシステム。
前記分類学的データ分析ユニットが、他の分類学的レベルの希薄化表現テーブルを生成することを特徴とする、請求項１に記載のシステム。
前記疾患リスク決定ユニットが、日和見病原体のリストから分類群の１つに関連する前記リードの合計パーセンテージを確認することにより、前記遺伝的データの異常を推定することを特徴とする、請求項１に記載のシステム。
前記疾患リスク決定ユニットが、参照データに基づいて前記マイクロバイオータデータから前記ユーザの疾患に対する保護を決定することを特徴とする、請求項１に記載のシステム。
前記属性決定ユニットは、依存関係グラフのサイクルを確認し、前記サイクルの存在下では前記グラフの縮小がブロックされることを特徴とする、請求項１に記載のシステム。