JP2021530026A - 目的の個体群を発見する遺伝的ネットワークのフィルタリング - Google Patents
目的の個体群を発見する遺伝的ネットワークのフィルタリング Download PDFInfo
- Publication number
- JP2021530026A JP2021530026A JP2020571398A JP2020571398A JP2021530026A JP 2021530026 A JP2021530026 A JP 2021530026A JP 2020571398 A JP2020571398 A JP 2020571398A JP 2020571398 A JP2020571398 A JP 2020571398A JP 2021530026 A JP2021530026 A JP 2021530026A
- Authority
- JP
- Japan
- Prior art keywords
- nodes
- genetic
- graph
- node
- individual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B10/00—ICT specially adapted for evolutionary bioinformatics, e.g. phylogenetic tree construction or analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/40—Population genetics; Linkage disequilibrium
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/30—Unsupervised data analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B45/00—ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Genetics & Genomics (AREA)
- Physiology (AREA)
- Artificial Intelligence (AREA)
- Public Health (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Chemical & Material Sciences (AREA)
- Software Systems (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Bioethics (AREA)
- Molecular Biology (AREA)
- Ecology (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
コンピューティングサーバーは、identity-by-descent(IBD)ネットワークのようなグラフを生成する。グラフは複数のノードを含む。各ノードは、個体の1つを表す。2つ以上のノードは、エッジを介して接続されている。2つのノードを接続する各エッジは、2つのノードによって表される2つの個体の遺伝データの間の親和性に由来する重みに関連付けられる。コンピューティングシステムは、エッジまたはノードに関連付けられた特徴に基づいてグラフをフィルタリングする。フィルタリングされたグラフは、ノードのサブセットを含む。コンピューティングシステムは、フィルタリングされたグラフを複数のクラスターに分割し、フィルタリングなしでは発見できない可能性のある遺伝コミュニティを識別する。また、コンピューティングサーバーはノードによって表される個体を複数のコミュニティに割り当てるために、マルチパス階層コミュニティ検出処理を実行してもよい。
Description
本発明は、目的の個体群を発見する遺伝的ネットワークのフィルタリングに関する。
本出願は、2018年6月19日に出願された米国仮特許出願第62/687177号の利益を主張し、これはその全体が参照により本明細書に組み込まれる。開示された実施形態は、発生および繁殖した可能性がある、目的の変異種の個体群を評価すること、および人々の間の遺伝的相関パターンから歴史上の個体群を発見することに関する。
人は、遺伝学的に言えば、ほぼ完全に同一であるが、人のDNAにおける僅かな差は、個体間で観測されるいくつかの変異が原因となっている。人のゲノムの突然変異率は、1世代あたり1.1×10-8と見込まれている。これは、約300の塩基対ごとに1変異種が生じるということになる。子孫に伝えられる突然変異のほとんどは、一塩基多型(SNP)に関連している。SNPとは、ゲノムの特定の位置で起こる1つのヌクレオチドの置換である。遺伝的多型データからから個体群の構造を学ぶことは、遺伝学の重要なトピックである。
本明細書で開示される方法は、個々人および個々人の間の遺伝的相関を示すグラフを描くこと、異なる個体群における新たな遺伝的コミュニティを発見すること、および1以上の遺伝的コミュニティが混合した個々人を割り当てることに関する。一実施形態では、コンピューティングサーバーは、複数の個体に対応する複数の遺伝的データセットを引き出すことを含む方法を実行する。コンピューティングサーバーは、フルグラフを表すデータを生成する。このフルグラフは、複数のノードを含む。各ノードは1つの個体、および対応する遺伝学的データセットを表す。2つ以上のノードは、エッジを介して接続される。エッジは2つのノードを接続し、2つのノードによって表される2つの個体の遺伝的データセット間の親和性に由来する重みに関連付けられている。コンピューティングサーバーは、エッジまたはノードに関連付けられた1つ以上の特徴に基づいて、フルグラフを表すデータをフィルタリングする。フィルタリングされたデータは、ノードのサブセットを備える、フィルタリングされたグラフを表す。コンピューティングサーバーは、フィルタリングされたグラフにおけるノードのサブセットを、サブセット内のノードを接続するエッジの重みに基づいた複数のクラスターに分割する。各クラスターは遺伝的コミュニティを表す。
別の実施形態では、コンピューティングサーバーは、複数の個体に対応する複数の遺伝的データセットを引き出す。個体のうちの1つは、混合した個体である。コンピューティングサーバーは、グラフを表すデータを生成する。グラフは、同様に、個体を表す複数のノードを含む。2つ以上のノードは、2つのノードによって表される2つの個体の遺伝的データセット間の親和性に由来する、重みに関連付けられるエッジを介して接続される。複数のノードは、混合された個体を表す対象となるノードと、他の個体を表す他の対象となるノードとを含む。コンピューティングサーバーは、グラフ中のノードを、ノードを接続するエッジの重みに基づいた複数のクラスターに分割する。複数のクラスターは、複数の遺伝的コミュニティを表す。コンピューティングサーバーは、対象となるノードを、1つ以上の遺伝的コミュニティを表す1つ以上のクラスター内に含む。対象となるノードが含まれるクラスターのうち少なくとも1つに対して、コンピューティングサーバーは、クラスターを複数のサブクラスターに分割する。対象となるノードは、1つ以上のクラスターの各々において、1つ以上のサブクラスターに分類されてもよい。これは、混合された個体が、1つ以上の民族起源の1つ以上の異なる遺伝的サブコミュニティに分類されていることを表す。
さらに別の実施形態では、コンピューティングサーバーは、対象となる個体の遺伝データセットを引き出す。コンピューティングサーバーは、複数の参照パネルのサンプルを引き出す。各参照パネルのサンプルは、参照パネルの個体を表す。参照パネルの個体の少なくとも一部は、フルIBDネットワークからフィルタリングされたIBDネットワークから生成される。フィルタリングされたIBDネットワークは、エッジまたはノードの1つ以上の特徴に基づいてフィルタリングされたノードのサブセットを含む。コンピューティングサーバーは、対象となる個体に関連付けられた複数のIBDの親和性を生成する。各IBDの親和性は、対象となる個体の遺伝的データセットを参照パネルのサンプルの1つと比較することによって決定される。コンピューティングサーバーは、1つ以上のコミュニティ分類子を引き出す。各コミュニティ分類子は、個体が遺伝的コミュニティに属しているかどうかを決定するために設定されたモデルである。コンピューティングサーバーは、各コミュニティ分類子に対する特徴のセットを生成する。特徴のセットは、複数のIBDの親和性に基づいて生成されてもよい。コンピューティングサーバーは、対象となる個体が遺伝的コミュニティに属しているかどうかを決定するために、コミュニティ分類器ごとに、特徴量のセットをコミュニティ分類器に入力する。コンピューティングサーバーは、対象となる個体が属する1つ以上の遺伝的コミュニティをまとめたレポートを生成する。
図は、説明のみを目的とするため、様々な実施形態を示している。当業者は、本明細書に例示された構造および方法の代替的な実施形態が、本明細書に記載された原理から逸脱することなく採用され得ることを、以下の議論から容易に認識するであろう。
システム環境の例
図1は、一実施形態による、例示的なコンピューティングサーバー130のシステム環境100の図を示している。図1に示されるシステム環境100は、1つ以上のクライアントデバイス110、ネットワーク120、遺伝データ抽出サービスサーバー125、およびコンピューティングサーバー130を含む。いくつかの実施例においては、システム環境100は、より少ない、または追加のコンポーネントを含んでもよい。また、システム環境100は、異なるコンポーネントを含んでもよい。
図1は、一実施形態による、例示的なコンピューティングサーバー130のシステム環境100の図を示している。図1に示されるシステム環境100は、1つ以上のクライアントデバイス110、ネットワーク120、遺伝データ抽出サービスサーバー125、およびコンピューティングサーバー130を含む。いくつかの実施例においては、システム環境100は、より少ない、または追加のコンポーネントを含んでもよい。また、システム環境100は、異なるコンポーネントを含んでもよい。
クライアントデバイス110は、ネットワーク120を介してデータを送信および/または受信するだけでなく、ユーザーの入力を受信することができる1つ以上のコンピューティングデバイスである。例示的なコンピューティングデバイスは、デスクトップコンピューター、ラップトップコンピューター、パーソナルデジタルアシスタント(PDA)、スマートフォン、タブレット、ウェアラブル電子デバイス(例えば、スマートウォッチ)、スマート家電(例えば、スマートテレビ、スマートスピーカー、スマートホームハブ)、モノのインターネット(IoT)デバイス、または他の適切な電子デバイスを含む。クライアントデバイス110は、ネットワーク120を介して他のコンポーネントと通信する。一実施形態では、クライアントデバイス110は、クライアントデバイス110のユーザーがクライアントデバイスのユーザーインターフェイス115を介し、コンピューティングサーバー130と相互作用するためのグラフィカルユーザーインターフェイス(GUI)を起動するアプリケーションを実行する。例えば、クライアントデバイス110は、ネットワーク120を介してクライアントデバイス110とコンピューティングサーバー130との間の相互作用を可能にするために、Webブラウザアプリケーションを実行してもよい。別の実施形態では、ユーザーインターフェイス115は、コンピューティングサーバー130によって発行され、ユーザーデバイス110にインストールされるソフトウェアアプリケーションの形態をとってもよい。さらに別の実施形態では、クライアントデバイス110は、IOSまたはANDROIDなどのクライアントデバイス110のネイティブオペレーティングシステム上で実行されるアプリケーションプログラミングインターフェイス(API)を介して、コンピューティングサーバー130と相互作用する。
ネットワーク120は、1つ以上のサブネットワークを介してシステム環境100のコンポーネントへの接続を提供し、サブネットワークは、ローカルエリアおよび/または広域ネットワークの任意の組み合わせを含んでもよい。一実施形態においては、ネットワーク120は、標準的な通信技術および/またはプロトコルを用いる。例えば、ネットワーク120は、イーサネット802.11、Worldwide Interoperability for Microwave Access(WiMAX)、3G、4G、Long Term Evolution(LTE)、5G、符号分割多元接続(CDMA)、デジタル加入者回線(DSL)などの技術を使用した通信リンクを含んでもよい。ネットワーク120を介して通信するために使用されるネットワークプロトコルの例としては、Multi-Protocol Label Switching(MPLS)、Transmission Control Protocol/Internet Protocol (TCP/IP)、HyperText Transfer Protocol(HTTP)、Simple Mail Transfer Protocol (SMTP)、File Transfer Protocol (FTP)などが挙げられる。ネットワーク120を介して交換されるデータは、HyperText Markup Language(HTML)またはExtensible Markup Language(XML)などの任意の適切なフォーマットを使用して表現されてもよい。いくつかの実施形態では、ネットワーク120の通信リンクの全てまたは一部は、任意の適切な技術、またはSecure Sockets Layer(SSL)、Transport Layer Security (TLS)、Virtual Private Networks (VPN)、Internet Protocol Security (IPsec)などのような技術を用いて暗号化されてもよい。ネットワーク130は、インターネットのようなリンクおよびパケット交換ネットワークも含む。
コンピューティングサーバー130を運営する企業の顧客であり得る個体は、遺伝データの分析のために生体サンプルを提供する。一実施形態においては、個体は増幅および配列決定などのヌクレオチド処理技術により、遺伝データが抽出される生体サンプル(例えば、唾液、血液、毛髪、組織)を提供するために、サンプル収集キットを用いる。増幅は、ヌクレオチドサンプルのセグメントを増幅することができる、ポリメラーゼ連鎖反応(PCR)の使用を含んでもよい。配列決定は、デオキシリボ核酸(DNA)配列決定、リボ核酸(RNA)配列決定等の配列決定を含んでもよい。ヌクレオチドサンプルの配列決定は、サンガー法、全ゲノムシーケンス、パイロシーケンス、合成による配列決定、ライゲーションによる配列決定、イオン半導体配列決定などの各種次世代配列決定(NGS)技術のような大規模並列配列決定を含んでもよい。遺伝データ抽出サービスサーバー125は、コンピューティングサーバー130のユーザーから生体サンプルを受信する。遺伝データ抽出サービスサーバー125は、生体サンプルの配列決定を行い、個体の塩基対配列を決定する。遺伝データ抽出サービスサーバー125は、配列決定の結果に基づいて、個体の遺伝データを生成する。遺伝データは、DNAまたはRNAから配列決定されたデータを含んでもよく、DNAの発現領域および/または非発現領域からの塩基対を含んでもよい。
遺伝データは、異なる形態をとってもよい。例えば、一実施形態では、遺伝データは、個体の塩基対配列であってもよい。塩基対配列は、ゲノム全体、または目的の遺伝子座のようにゲノムの一部を含んでもよい。別の実施形態では、遺伝データ抽出サービスサーバー125は、遺伝データのデータ前処理を実行して、塩基対の生の配列を対象となるSNPサイトの遺伝子型の配列に変換してもよい。この例における結果は、様々なSNPサイト対応する遺伝子型の配列を含んでもよい。一実施形態では、遺伝データ抽出サービスサーバー125は、塩基対の生の配列を対象となるSNPサイトの遺伝子型の配列に変換するため、遺伝データのデータ前処理を実行してもよい。典型的なヒトゲノムは、数百万のSNPサイトのみで参照ヒトゲノムと異なる場合があるので(全ゲノムにおける数十億の塩基対とは対照的に)、遺伝データ抽出サービスサーバー125は、一組の対象となるSNPサイトにおける遺伝子型のみを抽出し、抽出されたデータを個体の遺伝データセットとしてコンピューティングサーバー130に送信してもよい。
コンピューティングサーバー130は、遺伝データの様々な分析を実行し、コンピューティングサーバー130のユーザーの遺伝および家系に関する結果を生成する。実施形態によっては、コンピューティングサーバー130は、オンラインサーバー、個体遺伝サービスサーバー、家系サーバー、家系図構築サーバー、および/またはソーシャルネットワーキングシステムとしても参照され得る。実施形態によっては、コンピューティングサーバー130は、遺伝データ抽出サービスサーバー125から遺伝データを受信し、コンピューティングサーバー130のデータストアに遺伝データを格納する。ユーザーの遺伝および家系に関する結果は、ユーザーの民族組成、父方および母方の遺伝分析、潜在的な家族関係、先祖情報、DNAデータの分析、ユーザーの潜在的または識別された表現型(例えば、病気、形質、および他の特徴)などを含んでもよい。コンピューティングサーバー130は、クライアントデバイス110に表示されたGUIを介してユーザーに結果を提示するようユーザーインターフェイス115を提示してもよいし、させてもよい。結果は、グラフィカル要素、テキスト情報、データ、および血統書を含む家系図などの他の要素を含んでもよい。
一実施形態では、コンピューティングサーバー130は、様々なユーザーがそのユーザーの1つ以上の家系プロファイルを作成することを可能にする。家系プロファイルは、ユーザーによって追加または選択され、家系記録および/または遺伝記録に基づいてコンピューティングサーバー130によって提示される個体(例えば、先祖、親戚、友人、および関心のある他の人々)のリストを含んでもよい。コンピューティングサーバー130と通信して制御されるユーザーインターフェイス115は、個体をリストで、または血統書の形式などの家系図として表示してもよい。一実施形態では、ユーザーのプライバシー設定および承認を条件として、コンピューティングサーバー130は、ユーザーの遺伝データセットがユーザープロファイルおよび1つ以上の家系図にリンクされることを許可してもよい。また、ユーザーは、コンピューティングサーバー130がそのユーザーの遺伝データセットを分析することを許可してもよい。
コンピュータサーバの構造例
図2は、一実施形態による例示的なコンピューティングサーバー130のアーキテクチャのブロック図である。図2に示す実施形態では、コンピューティングサーバー130は、家系データストア205、遺伝データストア210、サンプルプリプロセッシングエンジン215、フェージングエンジン220、IBD推定エンジン225、コミュニティアサイメントエンジン230、IBDネットワークデータストア235、参照パネルサンプルストア240、民族性推定エンジン245、およびフロントエンドインターフェイス250を含む。コンピューティングサーバー130の機能は、説明とは異なる方法で要素間に分散されてもよい。様々な実施形態では、コンピューティングサーバー130は、異なるコンポーネントと、より少ないまたは追加のコンポーネントとを含んでもよい。様々なデータストアの各々は、単一のストレージデバイス、複数のストレージデバイスを制御するサーバー、または複数のノード(例えば、クラウドストレージシステム)を介してアクセス可能な分散ネットワークであってもよい。
図2は、一実施形態による例示的なコンピューティングサーバー130のアーキテクチャのブロック図である。図2に示す実施形態では、コンピューティングサーバー130は、家系データストア205、遺伝データストア210、サンプルプリプロセッシングエンジン215、フェージングエンジン220、IBD推定エンジン225、コミュニティアサイメントエンジン230、IBDネットワークデータストア235、参照パネルサンプルストア240、民族性推定エンジン245、およびフロントエンドインターフェイス250を含む。コンピューティングサーバー130の機能は、説明とは異なる方法で要素間に分散されてもよい。様々な実施形態では、コンピューティングサーバー130は、異なるコンポーネントと、より少ないまたは追加のコンポーネントとを含んでもよい。様々なデータストアの各々は、単一のストレージデバイス、複数のストレージデバイスを制御するサーバー、または複数のノード(例えば、クラウドストレージシステム)を介してアクセス可能な分散ネットワークであってもよい。
コンピューティングサーバー130は、ユーザーの遺伝データを処理して、個体間で共有されるIBDセグメントを特定する。コンピューティングサーバー130は、遺伝データおよび家系データを含む、異なる個体の様々なデータを格納する。コンピューティングサーバー130は、ユーザープロファイルデータを含む家系データを家系データストア205に保持する。家系データストア205中で各ユーザーに対して保存されるユーザープロファイルデータの量および種類は、ユーザーに対応する提供情報に基づいて変化してもよい。ユーザーは、クライアント装置110のユーザーインターフェイス115を介してデータを提供してもよい。例えば、ユーザーは、ユーザーインターフェイスのグラフィカル要素において、ユーザーに関連する質問、および他の家系データおよび調査データを得るために処理され得る基本情報に答えるように、プロンプトされてもよい。家系データの例としては、名前(名、姓、中間、接尾辞)、性別、出生地、出生日、死亡日、結婚情報、配偶者情報の親族関係、家族歴、ライフイベント(例えば、出生および死亡)の日付および場所、その他のバイタルデータなどが挙げられる。いくつかの実施形態では、家族歴は、その個体の血統書(例えば、記録された家族内の関係)の形をとることができる。ユーザーに関連付けられた血統情報は、1つ以上の指定されたノードを含む。血統書の各ノードは、その個体、その個体に遺伝物質を受け継いだ可能性のあるその個体の先祖、および場合によっては子孫のようなその個体の他の親族を表す。家系データは、コンピューティングサーバー130のユーザー間の遺伝的な接続を含んでもよい。
ユーザーが入力するデータに加え、系図データは、公的記録や第三者のデータ収集者といった様々な情報源から得られる他の形態をとってもよい。例えば、公的な情報源から得られる家系データとしては、出生記録、結婚記録、死亡記録、国勢調査記録、裁判所記録、検認記録、養子縁組記録、死亡記録等が挙げられる。調査データの形態における家系データは、人の身体的形質(例えば、身長、髪の毛、皮膚の色素沈着、そばかす、苦味、耳たぶのタイプ、虹彩のパターン、男性型脱毛症、髪のカール)、ウェルネス表現型(例えば、乳糖耐性、カフェイン摂取量、マラリア耐性、ノロウイルス耐性、筋力、アルコールフラッシュ)、個人的嗜好(例えば、好き嫌い)などの表現型に関する情報を含む。さらに、家系データストア205は、遺伝データストア210に格納されている遺伝サンプルから推定される情報と、個体から受信した情報とを含んでもよい。例えば、どの個体が遺伝的に関連しているか、どのように関連しているか、何世代前に共通先祖を共有しているか、共有されているIBDセグメントの長さおよび位置、個体がどの遺伝コミュニティの一部であるか、個体によって担われている亜種、などに関する情報が挙げられる。
加えて、家系データは、個体の血統書、Ancestry World Treeシステム、Social Security Death Indexデータベース、World Family Treeシステム、出生証明書データベース、死亡証明書データベース、結婚証明書データベース、養子縁組データベース、徴兵登録データベース、退役軍人データベース、軍人データベース、財産記録データベース、国勢調査データベース、有権者登録データベース、電話データベース、住所データベース、新聞データベース、入国管理データベース、家族歴史記録データベース、地域歴史記録データベース、事業者登録データベース、自動車データベースなどのうちの1つ以上のデータを含んでよい。
コンピューティングサーバー130は、個体の遺伝データセットを遺伝データストア210に保持する。個体の遺伝データセットは、ヌクレオチドデータおよび対応するメタデータのデジタルデータセットであってもよい。データは、個体のゲノムの全体または一部を含んでいてもよい。また、遺伝データストア210は、個体に関連付けられた家系データストア205に関連付けられた場所へのポインタを格納してもよい。遺伝データセットは、別の形態をとってもよい。一実施形態では、遺伝データセットは、個体の配列決定結果の塩基対配列の形態をとってもよい。塩基対配列データセットは、個体の全ゲノム(例えば、全ゲノム配列決定から得られた)またはゲノムの一部(例えば、目的の遺伝子座)を含んでもよい。
別の実施形態では、遺伝データセットは、配列決定結果からフィルタリングされた対象となるSNPサイト(例えば、対立遺伝子サイト)の配列の形態をとってもよい。また、対象となるSNPサイトは、一意の識別子と関連づけられた遺伝マーカーと呼ばれてもよい。遺伝データセットは、対象となるSNPサイトの遺伝子型など、遺伝子型の配列決定を含む二倍体データの形態であってもよいし、対象となるSNPサイトの遺伝子型およびSNPと一般的に関連しない他の塩基対サイトの遺伝子型を含む塩基対配列全体の配列決定を含む、二倍体データの形態であってもよい。二倍体データセットは、遺伝子型データセットと称してもよい。個体の遺伝子型は、個体の二倍体対立遺伝子配列の集合体を参照してもよい。他の状況では、遺伝子型は、SNPサイトのような与えられた遺伝的マーカーにおいて、ある個体の2本の染色体上に存在する対立遺伝子のペアとしてもよい。
このように、SNPサイトにおける各遺伝子型は、対立遺伝子の対を含んでいてもよい。対立遺伝子の対は、ホモ接合体(例えば、A-AまたはG-G)またはヘテロ接合体(例えば、A-T、C-T)であってもよい。実際のヌクレオチドを格納する代わりに、遺伝データストア210は、ビットに変換された遺伝データを格納してもよい。多くのSNPサイトでは、2つのヌクレオチド対立遺伝子のみ(4個すべてではなく)が観察される。このように、2ビットのナンバーは、SNPサイトを表してもよい。例えば、00はホモ接合性の第1対立遺伝子を表してもよく、11はホモ接合性の第2対立遺伝子を表してもよく、01または10はヘテロ接合性の対立遺伝子を表してよい。別個のライブラリーは、所定のSNPサイトにおいて、第1の対立遺伝子に対応するヌクレオチドおよび第2の対立遺伝子に対応するヌクレオチドを格納してもよい。
また、二倍体データセットは、第1の親側に対応するものと第2の親側に対応するものとの2セットのハプロタイプデータセットに段階的に分割されてもよい。段階的に分割されたデータセットは、ハプロタイプデータセットと呼んでよい。
一実施形態では、遺伝データストア210は、個体がキャリアである既知のバリアントに関する情報(例えば、バリアントのタイプ、バリアントの位置、バリアントに関連する表現型)を追加で含んでもよい。この情報は、コンピューティングサーバー130、第三者データベース、または第三者ソフトウェアを使用して得られることができる。
サンプルプリプロセッシングエンジン215は、データをコンピューティングサーバー130が用いたフォーマットに変更するため、様々なソースから受信したデータの受信、および前処理を行う。家系データに対しては、サンプルプリプロセッシングエンジン215は、クライアントデバイス110のユーザーインターフェイス115を介して個体からデータを受信する。ユーザーデータ(例えば、家系データおよび調査データ)を収集するため、コンピューティングサーバー130は、ユーザーが家系データおよび調査データを提供することができるインターフェイス要素を表示する、クライアントデバイス110上の対話型ユーザーインターフェイスを引き起こしてもよい。これらのデータは、手動で提供されてもよいし、例えば、国勢調査記録、町または政府の記録、または印刷またはオンライン材料の任意の他の項目に対して実行される光学的文字認識(OCR)を介して自動的に抽出されてもよい。いくつかの記録は、古い国勢調査記録、出生証明書、死亡証明書などのような書かれた記録をデジタル化することによって得られてもよい。
また、サンプルプリプロセッシングエンジン215は、遺伝データ抽出サービスサーバー125から生データを受信してもよい。遺伝データ抽出サービスサーバー125は、ユーザーの生体サンプルの実験的分析を行い、デジタルデータの形で配列決定結果を生成してもよい。サンプルプリプロセッシングエンジン215は、遺伝データ抽出サービスサーバー125から生の遺伝データセットを受信してもよい。サンプルプリプロセッシングエンジン215は、生の塩基対配列を、対象となるSNPサイトの遺伝子型の配列に変換してもよい。あるいは、この変換の前処理は、遺伝データ抽出サービスサーバー125によって実行されてもよい。サンプルプリプロセッシングエンジン215は、個体の遺伝データセット内の常染色体性SNPを同定する。例えば、700,000個の常染色体SNPが個体のデータ内で同定され、遺伝データストア210に格納されてもよい。あるいは、一実施形態においては、遺伝データセットは、少なくとも10,000個のSNPサイトを含んでもよい。別の実施形態においては、遺伝データセットは、少なくとも100,000個のSNPサイトを含んでもよい。さらに別の実施形態では、遺伝学的データセットは、少なくとも500,000個のSNPサイトを含んでもよい。さらに別の実施形態では、遺伝的データセットは、少なくとも1,000,000個のSNPサイトを含んでもよい。また、サンプルプリプロセッシングエンジン215は、ヌクレオチドをビットに変換してもよい。ビットまたは他の適切なフォーマットで同定されたSNPは、各ユーザーに対する一対のハプロタイプを生成するために、個体の二倍体遺伝子型をフェージングするフェージングエンジン220に提供さてもよい。
フェージングエンジン220は、二倍体遺伝データセットを一対のハプロタイプ遺伝データセットにフェージングする。個体のハプロタイプは、両親から受け継いだ対立遺伝子のセット(例えば、対立遺伝子の配列)を参照してもよい。また、ある状況では、ハプロタイプは遺伝セグメントにおける特定の突然変異に対応する対立遺伝子のセットを参照してもよい。更に、他の状況においては、ハプロタイプは、SNPサイトにおける特定の対立遺伝子を参照してもよい。例えば、ハプロタイプの配列は、両親から遺伝する個体の配列対立遺伝子の塩基対を参照してもよい。
フェージングは、染色体への対立遺伝子(特にヘテロ接合性対立遺伝子)の割り当てを決定するプロセスを含んでもよい。配列決定条件および他の制約のために、配列決定結果は、しばしば、一対の染色体の所定のSNPサイトにおける一対の対立遺伝子に関するデータを含むが、どの対立遺伝子がどの特定の染色体に属するかを区別できない場合がある。フェージングエンジン220は、遺伝子型フェージングアルゴリズムを使用して、ある対立遺伝子を第1の染色体に割り当て、別の対立遺伝子を別の染色体に割り当てる。遺伝子型フェージングアルゴリズムは、対立遺伝子の配列の形態をしたハプロタイプが一緒にクラスタリングする傾向があるという連鎖不平衡(LD)の仮定に基づいて開発されてもよい。フェーシングエンジン220は、他の多くのサンプルにおいても一般的に観察されるフェージングされた配列を生成するように構成されている。別の言い方をすれば、異なる個体のハプロタイプ配列は、一緒にクラスター化する傾向がある。ハプロタイプ-クラスターモデルは、対立遺伝子の配列を含むハプロタイプの確率分布を決定するために生成されてもよい。ハプロタイプ-クラスターモデルは、両親と子のトリオからの既知のフェージングハプロタイプを含むラベル付けされたデータに基づいてトレーニングされてもよいが、これは、子の遺伝子型と親の遺伝データセットとを比較することにより、正確な子のフェージングハプロタイプがほぼ確実であるからである。また、ハプロタイプ-クラスターモデルは、多数のフェージングされていない遺伝子型データセットを用いて、フェージングプロセスと並行して反復的に生成されてもよい。
一例として、フェーシングエンジン220は、対象となる遺伝子型データセットのフェージングを行うために、隠れマルコフモデル(HMM)のような有向非巡回グラフモデルを用いてもよい。有向非巡回グラフは、複数のレベルを含んでもよく、各レベルは、ハプロタイプクラスターの異なる可能性を表す複数のノードを有する。また、ある遺伝子型の観測から特定のハプロタイプクラスターを持つ確率を表すノードの放出確率は、ハプロタイプ-クラスターモデルの確率分布に基づいて決定されてもよい。あるノードから別のノードへの遷移確率は、最初は0以外の値に割り当てられ、有向非巡回グラフモデルとハプロタイプ-クラスターモデルがトレーニングされるにつれて調整されてもよい。有向非巡回グラフモデルの異なるレベルをトラバースする際には、様々なパスが可能である。フェージングエンジン220は、遷移確率および放出確率に基づいて、最も確率の高いパス、または他の可能性のあるパスの少なくとも95%以上の可能性があるパスのような、統計的に確率の高いパスを決定する。ビタビアルゴリズムのような適切な動的プログラミングアルゴリズムは、パスを決定するために用いられてもよい。決定されたパスは、フェージング結果を表してもよい。特許文献1は、ハプロタイプフェージングの可能な一実施形態を述べている。
IBD推定エンジン225は、遺伝データストア210に格納されているフェージングされた遺伝子型データ(例えば、ハプロタイプデータセット)に基づいて、一対の個体間で共有されている遺伝セグメントの量を推定する。IBDセグメントとは、共通祖先からの遺伝があるとされる個体のペアで特定された染色体セグメントである。IBD推定エンジン225は、各個体について一対のハプロタイプデータセットを引き出す。IBD推定エンジン225は、各ハプロタイプデータセット配列を複数のウィンドウに分割してもよい。各ウィンドウは、固定数のSNPサイト(例えば、約100個のSNPサイト)を含む。IBD推定エンジン225は、2つの個体間のフェージングハプロタイプのうちの少なくとも1つに含まれるすべてのSNPサイトにおける対立遺伝子が同一である、1つ以上のシードウィンドウを特定する。IBD推定エンジン225は、一致したウィンドウが染色体の端に達するまで、またはホモ接合性不一致が見出されるまで、シードウィンドウから近くのウィンドウへと一致を拡大してもよく、これは不一致がフェージングにおける潜在的な誤差に起因しないことを示す。IBD推定エンジン225は、一致したセグメントの全長を決定し、これはIBDセグメントと呼ばれてよい。長さは、センチモルガン(cM)単位の遺伝的距離で測定される。コンピューティングサーバー130は、家系データストア205のように、所定の閾値(例えば、6cM)を超えるIBDセグメントの長さを共有する個々のペアに関するデータを保存してもよい。特許文献2には、IBD推定の例示的な実施形態が述べられている。
一般に、近親者は比較的多くのIBDセグメントを共有しており、IBDセグメントの長さが長くなる傾向がある(個々、または1つ以上の染色体の集合体で)。対照的に、遠縁関係にある人は、IBDセグメントの数が比較的少なく、セグメントの長さが短い傾向がある(個々、または1つ以上の染色体の集合体で)。例えば、近親者(3番目のいとこなど)は71cM以上のIBDを共有していることが多いのに対し、遠縁者は12cM以下のIBDを共有し得る。2つの個体間のIBDセグメントの観点における関連性の程度は、IBD親和性と呼ぶこともできる。例えば、IBD親和性は、2つの個体間のIBDセグメントの長さという観点で測定されてもよい。
コミュニティアサイメントエンジン230は、個体を1つ以上の遺伝コミュニティに割り当てる。遺伝コミュニティは、民族由来であってもよい。遺伝コミュニティの分類の粒度は、コミュニティを割り当てる際に使用される実施形態および方法に応じて変化してもよい。例えば、一実施形態においては、コミュニティは、アフリカ系、アジア系、ヨーロッパ系などであってもよい。別の実施形態では、ヨーロッパのコミュニティは、アイルランド人、ドイツ人、スウェーデン人などに分けられてもよい。さらに別の実施形態では、アイルランド人は、アイルランドのアイルランド人、1800年にアメリカに移住したアイルランド人、1900年にアメリカに移住したアイルランド人など、さらに分けられてもよい。また、コミュニティの分類は、人口が混同されているか混同されていないかに依存してもよい。混同された人口の場合は、地理的な地域における異なった民族性に基づいて、さらに分類を分けることができる。
コミュニティアサイメントエンジン230は、教師なし学習または教師あり学習によってトレーニングされた機械学習モデルを使用して、遺伝的データセットに基づいて、個体を1つ以上の遺伝的コミュニティに割り当ててもよい。教師なしのアプローチでは、コミュニティアサイメントエンジン230は、部分的に接続された無向グラフを表すデータを生成してもよい。このアプローチでは、コミュニティアサイメントエンジン230は、個体をノードとして表す。一部のノードは、ノードによって表される2つの個体間のIBD親和性に基づいて重みが設定されているエッジによって接続される。例えば、2つの個体の共有IBDセグメントの全長が所定の閾値を超えない場合、ノードは接続されない。2つのノードを接続するエッジは、IBD親和性に基づいて測定される重みに関連付けられる。無向グラフは、IBDネットワークと呼ぶこともできる。コミュニティアサイメントエンジン230は、モジュール性測定などのクラスタリング技術を用いて、ノードをIBDネットワーク内の異なるクラスターに分類する。各クラスターは、コミュニティを表してもよい。また、コミュニティアサイメントエンジン230は、サブコミュニティを表すサブクラスターを決定してもよい。コンピューティングサーバー130は、IBDネットワークおよびクラスターを表すデータをIBDネットワークデータストア235に保存する。特許文献3は、コミュニティ検出および割り当ての可能な一実施形態を述べている。
また、コミュニティアサイメントエンジン230は、教師付き技術を用いてコミュニティを割り当ててもよい。例えば、既知の遺伝コミュニティ(例えば、民族起源が確認された個体)の遺伝データセットを、遺伝コミュニティのラベル付けがなされたトレーニングセットとして用いてもよい。ロジスティック回帰器、サポートベクターマシン、ランダムフォレスト分類器、ニューラルネットワークなどの教師付き機械学習分類器は、ラベルが付けられたトレーニングセットを用いてトレーニングされてもよい。トレーニングされた分類器は、バイナリまたは複数のクラスを区別してもよい。例えば、バイナリ分類器は、目的のコミュニティ毎にトレーニングされ、対象となる個体の遺伝データセットが目的のコミュニティに属するか否かを判断し得る。ニューラルネットワークのような複数クラスの分類器もまた、対象となる個体の遺伝データセットが、最も可能性の高いいくつかの遺伝コミュニティのうちの1つに属するかどうかを決定するためにトレーニングされてもよい。
参照パネルサンプルストア240は、異なる遺伝コミュニティに対する参照パネルサンプルを格納する。ある個体の遺伝データは、ある遺伝コミュニティの中で最も代表的なものとなり得る。これらの遺伝データセットは、参照パネルサンプルとして機能することができる。例えば、遺伝子の対立遺伝子の中には、ある遺伝コミュニティにおいて過剰に代表的な(例えば、非常に一般的である)ものがあり得る。遺伝データセットの中には、そのコミュニティのメンバーの間で、一般的に存在する対立遺伝子が含まれているものもある。参照パネルサンプルは、対象となる遺伝データセットがコミュニティに属するかどうかを分類する際、個体の民族構成を決定する際、および分類器からの分類結果の事後確率を計算することによってなど、任意の遺伝データ分析における精度を決定する際に、様々な機械学習モデルをトレーニングするために用いることができる。
参照パネルサンプルは、異なる方法で識別されてもよい。一実施形態では、コミュニティ検出における教師なしのアプローチは、サブクラスターが閾値よりも小さいノードの数(例えば、1,000ノードよりも少ないノードを含む)を含むまで、識別された各クラスターに対してクラスタリングアルゴリズムを再帰的に適用してよい。例えば、コミュニティアサイメントエンジン230は、ノードによって表される個体のセットを含むフルIBDネットワークを構築し、クラスタリング技術を用いてコミュニティを生成してもよい。コミュニティアサイメントエンジン230は、サンプルされたIBDネットワークを生成するために、ノードのサブセットをランダムにサンプリングしてよい。コミュニティ割り当てエンジン230は、サンプリングされたIBDネットワーク内のコミュニティを生成するために、クラスタリング技術を再帰的に適用してよい。サンプリングおよびクラスタリングは、ランダムに生成された異なるサンプル化IBDネットワークに対して、様々な実行のために繰り返されてもよい。様々な実行においてサンプリングされたときに一貫して遺伝コミュニティに割り当てられたノードは、参照パネルサンプルとして分類されてもよい。コミュニティアサイメントエンジン230は、所定の閾値の観点で一貫性を測定してもよい。例えば、ノードがサンプリングされるたびに95%(または別の適切な閾値)の回数で同じコミュニティに分類されている場合、そのノードによって代表される個体に対応する遺伝データセットは、参照パネルサンプルとみなされてもよい。加えて、またはあるいは、コミュニティアサイメントエンジン230は、コミュニティの参照パネルとして、最も一貫して割り当てられたN個のノードを選択してもよい。
参照パネルサンプルを生成する他の方法も可能である。例えば、コンピューティングサーバー130は、一セットのサンプルを収集し、高品質の参照パネルサンプルが選択されるまで、サンプルを徐々にフィルタリングし、洗練させてもよい。
民族性推定エンジン245は、対象となる個体の遺伝データセットの祖先構成を推定する。使用される遺伝データセットは、遺伝子型データセットまたはハプロタイプデータセットであってもよい。例えば、民族性推定エンジン245は、対象となる個体のSNP遺伝子型またはハプロタイプに基づいて、先祖代々の起源(例えば、民族性)を推定する。アフリカ系、ヨーロッパ系、およびネイティブアメリカンに相当する3つの祖先集団の単純な例を取ると、混合されたユーザーは、[0.05, 0.65, 0.30]のような推定値で、ユーザーのゲノムがアフリカ系祖先に帰属する5%、ヨーロッパ系祖先に帰属する65%、およびネイティブアメリカン系祖先に帰属する30%であることを示すことで、3つの祖先集団すべてについてゼロではない、推定の民族性割合を有してもよい。民族性推定エンジン245は、民族組成推定値を生成し、推定された民族性を特定のユーザーと関連づけられたポインタとともにコンピューティングサーバー130のデータストアに格納する。
一実施形態では、民族性推定エンジン245は、対象となる遺伝データセットを複数のウィンドウ(例えば、約1,000個のウィンドウ)に分割する。各ウィンドウは、少数のSNPサイト(例えば、300個のSNPサイト)を含む。民族性推定エンジン245は、有向非巡回グラフモデルを用いて、対象となる遺伝データセットの民族組成を決定してもよい。有向非巡回グラフは、ウィンドウ間の隠れマルコフモデル(HMM)のトレリスを表してもよい。グラフは複数のレベルのシーケンスを含む。ウィンドウを表す各レベルは、複数のノードを含む。ノードは、ウィンドウに対する遺伝コミュニティ(例えば、民族)のラベルの、異なる可能性を表す。ノードは、1つ以上の民族ラベルでラベル付けされていてもよい。例えば、レベルは、SNPサイトのウィンドウが第1の民族に属する可能性を表す第1のラベルを有する第1のノードと、SNPサイトのウィンドウが第2の民族に属する可能性を表す第2のラベルを有する第2のノードとを含む。各レベルは、有向非巡回グラフを横断するための多くの可能なパスが存在するよう、複数のノードを含む。
有向非巡回グラフは、放出確率と遷移確率を含む。ノードに関連付けられた放出確率は、ウィンドウ内のSNPサイトの観測が与えられた場合に、そのウィンドウがそのノードをラベル付けした民族性に属する可能性を表す。民族性推定エンジン245は、対象となる遺伝データセットに対応するウィンドウ内のSNPサイトを、参照パネルサンプルストア240に格納された異なる遺伝コミュニティの様々な参照パネルサンプル内のウィンドウ内の対応するSNPサイトと比較することにより、放出確率を決定する。2つのノード間の遷移確率は、2つのレベルをまたいで1つのノードから別のノードへの遷移の可能性を表す。民族性推定エンジン245は、遷移確率および放出確率に基づいて、最も確率の高い経路または他の可能な経路の少なくとも95%よりも確率が高い経路など、統計的に可能性の高い経路を決定する。パスを決定するために、ビタビアルゴリズムやフォワードバックワードアルゴリズムのような適切な動的計画法が用いられてもよい。パスが決定された後、民族性推定エンジン245は、決定されたパスに含まれるノードのラベル組成を決定することにより、対象遺伝データセットの民族組成を決定する。特許文献4には、民族性推定の例示的な実施形態が述べられている。
フロントエンドインターフェイス250は、コンピューティングサーバー130によって決定された様々な結果を表示してもよい。結果およびデータは、ユーザーと他の個体との間のIBD親和性、ユーザーのコミュニティ割り当て、ユーザーの民族性推定、表現型予測および評価、家系データ検索、家系図および血統書、親族プロフィール、および他の情報を含んでいてもよい。フロントエンドインターフェイス250は、各種情報やグラフィカル要素を表示するグラフィカルユーザーインターフェイス(GUI)であってもよい。フロントエンドインターフェイス250は、様々な形態をとってもよい。一実施形態においては、フロントエンドインターフェイス250は、コンピュータやスマートフォンなどの電子デバイスで表示可能なソフトウェアアプリケーションであってもよい。ソフトウェアアプリケーションは、コンピューティングサーバー130を制御するエンティティによって開発され、クライアントデバイス110にダウンロードされてインストールされてもよい。別の実施形態では、フロントエンドインターフェイス250は、ユーザーがウェブブラウザを介して家系図および遺伝子解析結果にアクセスすることを可能にするコンピューティングサーバー130のウェブページインターフェースの形態をとってもよい。さらに別の実施例では、フロントエンドインターフェイス250は、アプリケーションプログラムインターフェイス(API)を提供してもよい。
IBDネットワークの例
図3Aおよび3Bは、一実施形態による例示的なアイデンティティーバイディセントネットワーク(IBDネットワーク)を示している。図3Aを参照すると、例示的なIBDネットワークは、部分的に接続された無向グラフ300であってもよい。グラフ300は、複数のノード302を含む。各ノードは、遺伝データストア210に格納された遺伝データを有する個体の1つを表す。各ノード302は、個々の遺伝データセットに対応していてもよい。例えば、そのデータに基づいて、遺伝データセットは、特徴ベクトルとして表すことができる多数の特徴に変換されてもよい。ノード302は、ベクトルの座標に基づいて特徴ベクトルに対応してもよい。ノード302の一部は、エッジ304を介して接続される。IBDネットワークでは、2つ以上のノード302がエッジ304を介して接続されているが、すべてのノード302が必ずしも互いに直接接続されているわけではない。それゆえ、グラフ300は、部分的に接続されたグラフであってもよい。例えば、特定のノード306は別のノード308に接続されているが、ノード306はノード310に直接接続されていない。グラフ300は、例示のためだけのものである。実際のIBDネットワークグラフは、数万個のノード、または数百万個のノードを含み得る。
図3Aおよび3Bは、一実施形態による例示的なアイデンティティーバイディセントネットワーク(IBDネットワーク)を示している。図3Aを参照すると、例示的なIBDネットワークは、部分的に接続された無向グラフ300であってもよい。グラフ300は、複数のノード302を含む。各ノードは、遺伝データストア210に格納された遺伝データを有する個体の1つを表す。各ノード302は、個々の遺伝データセットに対応していてもよい。例えば、そのデータに基づいて、遺伝データセットは、特徴ベクトルとして表すことができる多数の特徴に変換されてもよい。ノード302は、ベクトルの座標に基づいて特徴ベクトルに対応してもよい。ノード302の一部は、エッジ304を介して接続される。IBDネットワークでは、2つ以上のノード302がエッジ304を介して接続されているが、すべてのノード302が必ずしも互いに直接接続されているわけではない。それゆえ、グラフ300は、部分的に接続されたグラフであってもよい。例えば、特定のノード306は別のノード308に接続されているが、ノード306はノード310に直接接続されていない。グラフ300は、例示のためだけのものである。実際のIBDネットワークグラフは、数万個のノード、または数百万個のノードを含み得る。
接続されたノードについては、エッジ304は重みに関連付けられており、その値は、2つのノードによって表される2つの個体の遺伝データセット間の親和性に由来する。例えば、2つの個体の遺伝データセット間の親和性は、2つの個体のフェージングハプロタイプデータセットを比較することによって決定される、2つの個体の共有IBD遺伝的セグメントの長さに対応するIBD親和性であってもよい。例えば、特定のエッジ312は、ノード308および310によって表される2つの個体がIBDに関連していることを表す。エッジ312に関連する重みは、2つの個体の共有IBD遺伝セグメントの長さに対応する。他の方法として、2つの遺伝的データセット間の親和性を比較することも可能である。
エッジ304は、異なる重みに関連付けられていてもよく、グラフ300において異なる厚さを有するように示されている。例えば、エッジ314は、エッジ316よりも厚く、これはエッジ314によって接続された2つの個体が、エッジ316によって接続された2つの個体よりも高いIBD親和性を有することを示す。コンピューティングサーバー130は、親和性から重みの正確な値を導出してもよい。一実施形態においては、重みの値は、センチモルガンで測定されたIBD親和性であってもよい。別の実施形態では、重みの値は、IBD親和性からマッピングまたは変換されてもよい。例えば、コンピューティングサーバー130は、重みを0と1の間で正規化してもよい。
IBD親和性とエッジ重みとの間のマッピング関数は、可能な全IBDセグメント長のセットによって定義された関数領域を有する任意の連続関数または不連続関数であってもよい。一実施形態では、コンピューティングサーバー130は、(1)目標とする世代範囲を選択すること、(2)合理的に現実的なシミュレーションを使用して、その世代範囲内で共通の祖先を共有する個体のペア間の全IBD長の分布を経験的に評価すること、(3)選択した世代範囲に対応する共通の祖先を共有する家族関係から生じる総IBD長に高い重みが置かれるように親和性を定義すること、により、全IBDセグメント長をエッジ重みにマッピングする。これは、目標とする世代範囲内の共通祖先を共有する親族間のエッジをより重く重み付けする効果がある。例えば、0〜4世代前の世代範囲では、8つの減数分裂事象以下で隔てられた親族間の縁をより重視し、9つの減数分裂事象以下と、1つの減数分裂事象が親子関係に対応し、2つの減数分裂事象が兄弟関係や祖父母と子の関係に対応するような、より遠い親族間の縁をより軽視する。
一実施形態では、IBD-エッジ重みマッピング関数は、IBDネットワーク内のエッジの重みを定義するスケールパラメータα=1.1およびβ=10を有するベータ累積密度関数(CDF)(例えば、Probability(X ≦ x)(ここでxは個体の任意のペア間のIBD親和性である)に基づいて選択された。全IBD長からエッジの重みへのマッピングのための他の選択は、異なる特性を持つIBDネットワークを生成してもよい。例えば、より遠い家族関係を重視すると、異なる時間帯の人口イベントに起因する構造が明らかになり得る。
コミュニティアサイメントエンジン230などのコンピューティングシステム130のモジュールは、グラフ300を表すデータを生成する。データは、キー-値のペア形式、ベクトル形式、行列形式、テンソル形式、またはそれらの1つ以上の組み合わせを含む任意の適切な形式であってもよい。例えば、ノードは、ノードによって表される個体を識別するキーとしての識別子と、遺伝データセットから生成された特徴ベクトルである値とを関連付けてもよい。N個の個体については、エッジを表すデータは、ノードiとノードjを結ぶエッジに対するセル(i,j)の重み値を記録するN×N行列形式であってもよい。IBDに関連していない(または閾値以下のIBDセグメント長を有する)2つの個体については、セル(i,j)は、2つの個体を表す2つのノードを結ぶエッジがないことを示すために、値0またはnilを有してもよい。
遺伝コミュニティ推論
図3Bは、一実施形態による、IBDネットワークおよびコミュニティ推論におけるアプローチ例を示している。コンピューティングシステム130は、グラフ300内のノード302を、ノード302を接続するエッジ304の重みに基づいて複数のクラスターに分割する。例えば、図示のために、グラフ300は、2本の破線で囲まれた2つのクラスター320、330に分割されてもよい。決定された各クラスターは、民族などの遺伝コミュニティを表してもよい。
図3Bは、一実施形態による、IBDネットワークおよびコミュニティ推論におけるアプローチ例を示している。コンピューティングシステム130は、グラフ300内のノード302を、ノード302を接続するエッジ304の重みに基づいて複数のクラスターに分割する。例えば、図示のために、グラフ300は、2本の破線で囲まれた2つのクラスター320、330に分割されてもよい。決定された各クラスターは、民族などの遺伝コミュニティを表してもよい。
IBDネットワークをクラスター化するためには様々なアルゴリズムが用いられてもよい。例としては、各サブセット内のエッジの密度が予想よりも高いネットワークの接続されたサブセットを識別するために用いられてもよい機械学習における任意の適切な教師なしアルゴリズムが挙げられる。以下に説明するのは、IBDネットワークにおいてクラスターが識別されることができる、ふさわしい方法の1つである。代替的なネットワーククラスタリングアルゴリズムの例としては、スペクトルグラフクラスタリング法が挙げられる。他の教師なし、または半教師ありのコミュニティ検出アルゴリズム、例えば、ラベル伝搬アルゴリズム、連結成分アルゴリズム、三角形カウンティング係数アルゴリズム、平衡三角形アルゴリズムなども用いられてよい。
一実施形態では、コンピューティングサーバー130は、モジュラリティに基づくコミュニティ検出アルゴリズムであるマルチレベルルーバン法の再帰的な適用を介してコミュニティを識別する。他の実施形態では、コミュニティは、別のモジュラリティを基にしたコミュニティ検出アルゴリズムの再帰的な適用を介して識別されてもよい。モジュラリティを基にしたコミュニティ検出アルゴリズムの例としては、Fast-Greedyアルゴリズム、固有ベクトルベースのアルゴリズム、半正定値プログラム(SDP)を基にしたアルゴリズムなどが挙げられる。
モジュラリティに基づくコミュニティ検出アルゴリズムにおいて、コンピューティングサーバー130は、グラフ300の高いモジュラリティのパーティションを識別する。モジュラリティは、各パーティション内のノードを接続するエッジの重みに基づいて、パーティションがどのように定義されているかを測定する因子である。各々が重みを有するエッジMを介して互いに接続されたN個のノードを含むIBDネットワークSにおいて、モジュラリティは、あるパーティション内のノードと別のパーティション内のノードとを接続するエッジの重みに対して、同じパーティションに分類された2つのノードを接続するエッジの重みを測定する任意の好適な方法で定義されてもよい。例えば,ある事例では,ネットワーク分割のモジュラリティ値Qは次のように定義される。
Q=ΣkΣ(i,j)∈Skaij-(didj)/2m (1)
ここで、kはコミュニティインデックス、Skはコミュニティkに割り当てられた全てのノード間のエッジのセット、aijはエッジ(i,j)の重み、diはノードiの「度数」であり、ノードiを接続するエッジの全てのエッジ重みの総和と定義され、mは全ての「度数」の総和である。
Q=ΣkΣ(i,j)∈Skaij-(didj)/2m (1)
ここで、kはコミュニティインデックス、Skはコミュニティkに割り当てられた全てのノード間のエッジのセット、aijはエッジ(i,j)の重み、diはノードiの「度数」であり、ノードiを接続するエッジの全てのエッジ重みの総和と定義され、mは全ての「度数」の総和である。
一般に、モジュラリティは、同じパーティションに分類される2つのノードを結ぶエッジの重みとともに増加し、1つのパーティション内のノードを別のパーティション内のノードに結ぶエッジの重みとともに減少する値を有し得る。例えば、図3Bでは、破線で定義されたような候補となるパーティション320は、候補となる遺伝コミュニティを表すものであり、うまく定義されたパーティションを表し得る。それは、エッジの大部分が、パーティション320に分類されたノードに接続されているからである。エッジ322やその近傍のエッジのように、パーティション320内にあるノードとパーティション320外にある別のノードとを接続しているエッジは、ごくわずかである。また、エッジ322を含むそれらのエッジは、重みの値が低いことを意味する細い線である。よって、式(1)または他の適当なモジュラリティの定義に基づいて、パーティション320は高いモジュラリティの値を有する。対照的に、別の候補となる遺伝コミュニティを表す可能性があるパーティション340は、低いモジュラリティの値を有しており、これは候補となる遺伝コミュニティもまた貧弱な定義であることを示している。これは、パーティション340内のノードとパーティション340外の別のノードとを結ぶエッジが多く存在するためである。例えば、ノード342は、次数が5(5個のエッジ)であるが、すべてのエッジは、パーティション340の外側にある別のノードに接続されている。コンピューティングサーバー130は、グラフ300内のパーティションを調整するアルゴリズムを用いて、モジュラリティの値を増加させる。アルゴリズムは、IBDネットワークに関連付けられたモジュラリティを増加させるか、またはヒューリスティックに最大化する。調整されたパーティションは、IBDネットワークの最終的なクラスターであってもよい。アルゴリズムは、所定の反復回数(例えば、エポック数)を終了したとき、またはすべてのパーティションの全モジュラリティ値がそれ以上増加しない(例えば、収束する)まで停止してもよい。コミュニティ検出アルゴリズムに関連する計算時間は、エッジ数M(例えば、複雑さ=O(M))とともに線形に増大してもよい。
コミュニティ検出アルゴリズムは、N個のノードからなるネットワークSをC個のコミュニティに分割する。ネットワークのコミュニティへの分割は、(A1,A2,A3... ,AC)と表示される。コミュニティ検出アルゴリズムに続き、コミュニティ(A1,A2,A3... ,AC)は、それぞれが少なくとも所定の閾値ノード数tを含む場合、「有効」とラベル付けされる。一実施形態では、閾値ノード数未満のコミュニティAiは、有効なコミュニティとはみなされず(すなわち、「無効な」コミュニティ)、したがって、コミュニティ検出分析およびモデル学習の後続のステップから省略される(その構成ノードは、コミュニティとしてラベル付けされることなく、単独で放置されてもよい)。一実施形態では、ノードの閾値数Tは1,000である。しかし、他の実施形態では、閾値数は、0より大きい任意の整数のノード数であり、有効とラベル付けされたコミュニティのセットは、(A’1,A’2,A’3... ,A’C’)で示され、C'は、C以下である。
コミュニティの最小サイズに対するこの閾値のカットオフは、検出されたコミュニティが歴史的または地理的に重要なグループとして解釈されるのに十分な数のノードを含むことを確実にするのに有用となり得る。もし、コミュニティが閾値のノード数tよりも少ない場合、追加のコミュニティ検出アルゴリズムを適用して生成された追加のサブコミュニティは、潜在的にデータのオーバーフィットまたは過剰分析の結果である可能性が高い。これは、その分野の専門家が認識するような類似体を持っていないサブ集団を示唆し得る。ノードの閾値数は、システムの正確な実装およびIBDネットワーク300内のサンプル数に応じて、1,000〜10,000の間のどこにも取り得る。
一実施形態においては、コミュニティ検出アルゴリズムは、再帰的に適用されてもよい。コミュニティ検出の第1ラウンドを適用した後、コンピューティングサーバー130は、サブクラスターを生成するために、識別されたクラスターに再びコミュニティ検出アルゴリズムを適用し続けてもよい。コンピューティングサーバー130は、サブクラスターのすべてが十分なメンバーを持たない(閾値ノード数よりも少ない)まで、このプロセスを繰り返してもよい。コミュニティ検出アルゴリズムの繰り返しは、図7A〜図9に関連してさらに詳細に論じられる階層的コミュニティ検出アプローチと呼ばれてもよい。
一実施形態では、遺伝コミュニティおよびサブコミュニティが特定された後、コンピューティングサーバー130は、個体に関連付けられた家系データに基づいてコミュニティに注釈を付けてもよい。例えば、あるコミュニティについては、ノード302によって表される個体の少なくとも一部は、コンピューティングサーバー130の家系データストア205に格納されたプロフィールデータ、地理データ、および先祖データなどの家系データを有する。また、コンピューティングサーバー130は、民族性推定エンジン245を用いて、コミュニティメンバーの遺伝データセットを分析してもよい。様々な情報源から決定された民族性および地理的起源データに基づいて、コンピューティングサーバー130は、コミュニティのメンバーが共通して民族性および/または地理的起源を共有していると決定してもよい。コンピューティングサーバー130は、コミュニティに民族性および/または地理的起源に注釈をつけてもよい。
IBDネットワークのフィルタリング
図4は、一実施形態による、IBDネットワークをフィルタリングする例示的なプロセスを描いたフローチャートである。図5は、一実施形態による、フィルタリングされたグラフの例を示している。図4を参照し、コンピューティングサーバー130は、複数の個体に対応する複数の遺伝データセットを引き出す410。遺伝データセットは、個体の遺伝データセットまたはフェージングされたハプロタイプデータセットであってもよい。様々な数の遺伝データセットが引き出されてもよい。ある実施形態では、コンピューティングサーバー130は、1,000以上の遺伝データセットを取得してもよい。別の実施形態では、コンピューティングサーバー130は、10,000以上の遺伝データセットを取得してもよい。さらに別の実施形態では、コンピューティングサーバー130は、数十万以上、または数百万以上の遺伝データセットを取得してもよい。与えられた個体のペアの共有IBD遺伝セグメントの長さに基づいて、所定の個体のペアの遺伝データセット間の親和性を表すIBD親和性も決定されてもよいし、コンピューティングサーバー130によって予め決定されて記憶されていてもよい。
図4は、一実施形態による、IBDネットワークをフィルタリングする例示的なプロセスを描いたフローチャートである。図5は、一実施形態による、フィルタリングされたグラフの例を示している。図4を参照し、コンピューティングサーバー130は、複数の個体に対応する複数の遺伝データセットを引き出す410。遺伝データセットは、個体の遺伝データセットまたはフェージングされたハプロタイプデータセットであってもよい。様々な数の遺伝データセットが引き出されてもよい。ある実施形態では、コンピューティングサーバー130は、1,000以上の遺伝データセットを取得してもよい。別の実施形態では、コンピューティングサーバー130は、10,000以上の遺伝データセットを取得してもよい。さらに別の実施形態では、コンピューティングサーバー130は、数十万以上、または数百万以上の遺伝データセットを取得してもよい。与えられた個体のペアの共有IBD遺伝セグメントの長さに基づいて、所定の個体のペアの遺伝データセット間の親和性を表すIBD親和性も決定されてもよいし、コンピューティングサーバー130によって予め決定されて記憶されていてもよい。
コンピューティングサーバー130は、フルグラフを表すデータ420を生成する。フルグラフは、IBDネットワークであってもよい。フルグラフは複数のノードを含んでもよい。各ノードは、個体の1つを表す。2つ以上のノードは、エッジを介して接続されている。各エッジは、2つのノードを接続し、2つのノードによって表される2つの個体の遺伝データセット間の親和性に由来する重みに関連付けられる。グラフがIBDネットワークである場合、親和性はIBD親和性であってもよい。もし、グラフが、2つの個体の遺伝データセット間の類似性を測定するために他の方法を使用する場合、重みを生成するために用いられる親和性を表すため。他の種類の測定値が使用されてもよい。フルグラフは、まだフィルタリングされていないグラフを表してもよい。フルグラフは、コンピューティングサーバー130が、グラフを表すデータを生成するために利用可能な全ての遺伝データセットを用いる必要はない。
コンピューティングサーバー130は、エッジまたはノードの1つ以上の特徴に基づいて、フルグラフを表すデータをフィルタリングする430。フィルタリングされたデータは、ノードのサブセットを表す。例えば、図5は、図3Aに示されたフルグラフ300からフィルタリングされ得る、フィルタリングされたグラフ500を示している。ノード510のような実線のノードは、選択されたノードである。ノード520のような破線のノードは、非選択ノードである。フィルタリングは、エッジに関連付けられた1つ以上の特徴および/またはノードに関連付けられた1つ以上の特徴に基づいてもよい。
フルグラフをフィルタリングするために用いられる特徴は、様々なタイプのものであってよい。特徴は、グラフに直接含まれているか使用されているデータであってもよいし、ノードやエッジに関連しているが、グラフには使用されていないデータであってもよい。グラフに直接含まれる特徴は、2つの遺伝データセット間の親和性の特徴であってもよい。例えば、エッジの強さ(例えば、重みの値)は、フルグラフをフィルタリングするために用いられてもよい。対照的に、グラフに使用されない特徴は、エッジまたはノードが表すものに関連する物または人の他の特徴であってもよい。例えば、エッジは2人の個体間の接続または関係を表すので、エッジの特徴は、エッジによって接続された2人の個体によって共通に共有される人または物の特徴であってもよい。一実施形態において、例示的な特徴は、ノードがエッジによって接続されている2つの個体によって共通で共有されている先祖の特徴であってもよい。祖先が2つの個体によって共有されているので、祖先の特徴は、2つの個体間の接続を表すエッジの特徴であってもよい。先祖の特徴の例としては、先祖の誕生年が挙げられる。また、2人の個体が複数の先祖を共有している場合には、平均出生年を用いてもよい。平均出生年は、共通祖先が1人しかいない場合の出生年である。コンピューティングサーバー130は、共通祖先の出生年の時間枠(例えば、1800〜1850)に基づいて、フルグラフを表すデータをフィルタリングしてもよい。また、共通祖先の地理的起源、共通祖先の民族性、共通祖先の苗字などを含む他の祖先の特徴も、グラフをフィルタリングするために用いられてもよい。
例示的な特徴は、ノードの特徴を含んでもよい。ノードは個体を表すので、ノードの特徴は個体の特徴であってもよい。個体の特徴の例としては、個体の民族構成、個体の表現型(例えば、身体的特徴、疾患)、個体が生まれた地理的地域などが挙げられる。一実施形態では、ノードによって表される個体の遺伝データセットは、対象となる民族に遺伝する個体の遺伝セグメントの長さが閾値を超えていることを示してもよい(例えば、遺伝データセット全体の20%が対象となる民族に帰属することを示す)。コンピューティングサーバー130は、選択されたノードが少なくとも20%の対象となる民族に帰属する遺伝データを有することを要求することにより、フルグラフを表すデータをフィルタリングしてもよい。
コンピューティングサーバー130は、フィルタリングされたグラフを表すノードのサブセットを選択する際に、フルグラフを表すデータをフィルタリングするための1つ以上の特徴を用いてもよい。また、コンピューティングサーバー130は、フルグラフをフィルタリングするために、1つ以上のエッジ特徴および/または1つ以上のノード特徴を組み合わせてもよい。
コンピューティングサーバー130は、フィルタリングされたグラフのノードのサブセットを、サブセット内のノードを接続するエッジの重みに基づいて複数のクラスターに分割する440。各クラスターは、遺伝コミュニティを表してもよい。例えば、コンピューティングサーバー130は、上述したコミュニティ検出アルゴリズムを用いて、フィルタリングされたグラフ内のサブセットのノードを複数のクラスターに分割する。一実施形態では、コンピューティングサーバー130は、フィルタリングされたグラフ内に複数のパーティションを定義する。各パーティションは、候補となる遺伝コミュニティを表してもよい。最初は、定義されたパーティションは、候補となるコミュニティのメンバーが十分な接続または類似性を共有していないかもしれないことを意味する亜最適であってもよい。コンピューティングサーバー130は、パーティションの因子(例えば、モジュラリティ)を決定する。因子は、同じパーティションに分類される2つのノードを接続するエッジの重みが増加するほど増加し、一方のパーティションのノードを別のパーティションのノードに接続するエッジの重みが減少するほど減少する値を有する。コンピューティングサーバー130は、因子の値が増加するようにパーティションの境界を調整する。場合によっては、コンピューティングサーバー130は、因子を測定し、パーティションを調整するために多重の反復を使用する。最終的に調整されたパーティションは、遺伝コミュニティを表すクラスターであってもよい。
コミュニティ検出アルゴリズムが適用される前にフルグラフをフィルタリングし、フィルタリングされたグラフを生成することにより、コンピューティングサーバー130は、フルグラフを使用して発見できないかもしれない追加のコミュニティを発見することができる。例えば、図5を参照すると、フィルタリングされたグラフ500は、コンピューティングサーバー130が、コミュニティ検出アルゴリズムを使用して、フルグラフでは分離できない2つのコミュニティ530、540を識別し、分離することを可能にする。図3Bを参照すると、2つのコミュニティ530、540は、クラスター320に属しているが、フルグラフ300においては分離できない。フィルタリングアプローチを用いると、コンピューティングサーバー130は、フルグラフを使用して、以前には識別できなかった集団を識別することができる。一実施形態では、コンピューティングサーバー130は、グラフ内のノードによって表される個体の共通祖先の出生年に基づいて、フルグラフをフィルタリングする。コンピューティングサーバー130は、フィルタリングされたグラフの中で、ミシガン州、ウィスコンシン州、ミネソタ州、アイオワ州、テキサス州、ユタ州などの米国の異なる州の人口を表すクラスターを識別する。より最近の関係を含めることにより、グラフ内のすべてのエッジを使用した場合、より古い関係がより最近の構造をカバーし得るため、最近の人口構造を特定することができる。同様のアプローチを用いて、オーストラリアと南アフリカの人口を表すコミュニティもまた、様々なフィルタリングされたグラフによって識別される。
図6は、一実施形態による、2人の個体の共通祖先の出生年を時間枠に分類する例示的なプロセスを示すブロック図である。IBDネットワーク300のようなグラフでは、コンピューティングサーバー130は、グラフ内のエッジに対応する全ての共通祖先の出生年に関するデータを保有していない可能性がある。例えば、コンピューティングサーバー130は、2人の個体が近親のIBDであると判断しても、コンピューティングサーバー130にとって共通祖先が不明であるため、出生年が不明となる場合がある。しかし、IBDセグメントの長さは、2人の個体が何世代前に関連しているかと相関し得るので、モデル(例えば、分類器)は、共通祖先の誕生年を予測する、または共通の祖先を時間枠(例えば、1700〜1800、1800〜1900)に割り当てるようにトレーニングされてもよい。未知の祖先または出生年が不明な祖先に対応するエッジについては、共有のIBD遺伝セグメントの長さを入力として取るモデルを使用して、2人の個体の共有のIBD遺伝セグメントの長さから出生年を推定してもよい。出生年が推定または時間枠に分類された後、コンピューティングサーバー130は、フルグラフをフィルタリングし、コミュニティ検出アルゴリズムを実行してもよい。
コンピューティングサーバー130は、その家系データストア205からのデータを用いて、ラベル付けされたトレーニングセットを生成してもよい。例えば、コンピューティングサーバー130は、個体A602および個体B604の遺伝データセットを遺伝データストア210から取得してもよい。コンピューティングサーバー130のIBD推定エンジン225は、遺伝データセットに基づいて、個体Aと個体BがIBD共有の長さで関連しているIBDであると決定してよい。コンピューティングサーバー130は、個体AおよびBの家系図のデータなどの家系データを引き出す。個体AおよびBは、別々の家系図を持っていてもよく、彼らが関連IBDであることを知らない可能性もある。家系図データから、そして潜在的には他の家系データの検証も含めて、コンピューティングサーバー130は、個体のペアが共通祖先606を共有していると判断する。共通祖先606は、コンピューティングサーバー130で利用可能な出生年データを有する。例えば、個体AまたはBの一方が出生年を入力してもよいし、コンピューティングサーバー130は、出生記録証明書データのような公的な記録源から共通祖先606の出生年を見つけることができる。コンピューティングサーバー130は、共通祖先の出生年612とIBDセグメント長614を2つの特徴量として含むトレーニングセット610を生成し、このトレーニングセット610には、共通祖先出生年612とIBDセグメント長614が含まれる。共通祖先出生年612は、トレーニングセット610のラベルとして使用されてもよい。コンピューティングサーバー130は、そのデータストア内で、IBD関連であり、かつ出生年が既知である共通祖先を有する個体の、より多くのペアを繰り返し識別してもよい。複数のトレーニングセットが生成されてもよい。
コンピューティングサーバー130は、トレーニングセット610を用いてモデル620をトレーニングする。モデル620は、推定された出生年を可能な時間枠のいずれかに分類する分類器であってもよいし、共通祖先の出生年を予測する回帰器であってもよい。例えば、分類器としては、物流回帰分類器、ランダムフォレスト分類器、サポートベクターマシン(SVM)、ニューラルネットワーク等が用いられ得る。分類器の目的となる関数は、トレーニングセットを正しい時間枠に分類する際の誤差であってもよい。分類器のトレーニングにおいて、コンピューティングサーバー130は、座標降下または確率的座標降下(SGD)などの技術を用いて、誤差を低減または最小化するようにモデルの重みを調整する。一実施形態では、祖先の出生年の時間枠を予測するためにIBDセグメント長614を使用する物流回帰分類器が使用されてもよい。ランダムフォレストやSVMなどの非線形モデルも使用されてよい。いくつかの実施形態では、コンピューティングサーバー130は、出生年を予測するために追加の特徴を使用してもよい。例えば、様々な家系データも、共通祖先出生年の時間枠を予測するのに役立つかもしれない。コンピューティングサーバー130は、時間枠を予測するために、IBDセグメント長614および他の特徴を受信するニューラルネットワークをトレーニングしてもよい。
モデル620が十分にトレーニングされた後、トレーニングモデル630は、共通祖先出生年の時間枠636を予測するために使用されてもよい。IBDネットワークにおけるエッジの重みは、IBDセグメント長から導出されるので、IBDセグメント長は、与えられたエッジについて既知である。与えられたエッジについては、時間枠636を生成するために、IBDセグメント長634を含む入力データセット632がトレーニングされたモデルに入力されてもよい。予測された時間枠がIBDネットワークのフルグラフ内のエッジについて生成された後、コンピューティングサーバー130は、予測された時間枠に基づいてフルグラフをフィルタリングし、対象となる時間枠内に生まれたと推定された共通祖先を表すエッジを選択する。次に、コンピューティングサーバー130は、コミュニティ検出アルゴリズムを適用して、対象となる時間枠に関する遺伝コミュニティを発見する。
例えば、1700年代に存在したコネチカット州の人口は1800年代に西へ移動し、他の人口と混合した。既存の方法では、すべてのマッチが使用された場合、この人口移動に対応する構造を特定することはできなかった。対照的に、1700年代に生まれた共通祖先に対応するフィルタリングされたグラフを生成することにより、コンピューティングサーバー130は、ニューヨークへの移動に関連するその時期のコネチカット州の人口構造を特定することができる別の例としては、オーストラリアが挙げられる。コンピューティングサーバー130は、フルグラフを用いてオーストラリアのコミュニティを見つけることができないことがあり得る。しかし、1800年代のそれらのエッジのみを使用することにより、コンピューティングサーバー130は、19世紀の交配パターンに起因するオーストラリアの人口構造を特定する。
機械学習モデルを用いる代わりに、2つの個体間の共通祖先の時間を見つけることは、集団遺伝モデルを用いて近似することができる。例えば、IBDセグメント長の統計分布を生成し、共通祖先の世代を予測することができる。世代は、集団遺伝モデルが利用可能な場合、年にマッピングすることができる。
共通祖先の出生年の時間枠などのエッジ特徴を用いてフルグラフをフィルタリングすることに代わり、またはそれに加え、コンピューティングサーバー130は、ノードによって表される個体の民族性構成などのノード特徴を用いてフルグラフをフィルタリングしてもよい。このアプローチにより、コンピューティングサーバー130のデータストアに過剰に表現されている可能性のある他のグループのノイズを除去することができる。場合によっては、コンピューティングサーバー130は、特定の地域の顧客の間では、比較的大衆的があるが、別の地域では大衆的ではない場合がある。このように、構築されたIBDネットワークに偏りが生じる場合があり、いくつかの母集団構造が他の母集団構造よりも強い場合がある。場合によっては、これにより、特定の大衆的でない母集団の構造を発見することが困難になる。コンピューティングサーバー130は、関心のある特定の民族性の個体のみをフィルタリングしてもよい。例えば、フルグラフがアジア系の個体を含むようにフィルタリングされると、アジアにおけるより良く、より洗練された集団構造が発見され得る。このアプローチは、混合された集団のための、より洗練されたコミュニティ発見をもたらす。
一実施形態では、コンピューティングサーバー130は、ノードの選択されたサブセットが、対象となる民族起源に帰属する遺伝データの少なくとも一定の割合(例えば、20%)を含むことを要求することにより、フルグラフのノードをフィルタリングしてもよい。コンピューティングサーバー130は、個体の遺伝データセットを対象となる民族由来の1つ以上の参照パネルサンプルと比較することにより、対象となる民族由来に遺伝する個体の遺伝セグメント長を決定してもよい。例えば、コンピューティングサーバー130は、個体の民族構成を決定するために、民族推定エンジン245を使用してもよい。混合された個体の場合、個体を表すノードは、複数のフィルタリングされたグラフで選択されてもよい。例えば、フルグラフを表すデータをフィルタリングして第1のフィルタリングされたグラフを生成することは、個体の民族組成において提示された第1のターゲット民族に基づいてもよい。さらに、第2のフィルタリングされたグラフを生成するためにフルグラフを表すデータをフィルタリングすることは、個体の民族組成において提示された第2のターゲットの民族性に基づいてもよい。例えば、フィルタリングの基準は、各フィルタリングされたグラフが、少なくとも20%の対象となる民族性を有する個体を含むことを要求してもよい。その結果、混合された個体を表すノードが、第1のフィルタリングされたグラフと第2のフィルタリングされたグラフの両方に存在してもよい。
マルチパス階層コミュニティ検出
図7A〜図9は、一実施形態による、例示的なマルチパス階層コミュニティ検出プロセスを示している。図7Aは、シングルパスの階層コミュニティ検出プロセスのための樹形図700である。樹形図700は、複数の枝と端葉を含み、これらはそれぞれ、「1」、「2.1」、「5.2.5」、「6.3.4」などのような数値識別子によって示される。枝は、葉に到達するための経路を表す。葉は、コミュニティ検出処理におけるIBDネットワークなどのグラフにおけるクラスターに対応するコミュニティまたはサブコミュニティを表す。
図7A〜図9は、一実施形態による、例示的なマルチパス階層コミュニティ検出プロセスを示している。図7Aは、シングルパスの階層コミュニティ検出プロセスのための樹形図700である。樹形図700は、複数の枝と端葉を含み、これらはそれぞれ、「1」、「2.1」、「5.2.5」、「6.3.4」などのような数値識別子によって示される。枝は、葉に到達するための経路を表す。葉は、コミュニティ検出処理におけるIBDネットワークなどのグラフにおけるクラスターに対応するコミュニティまたはサブコミュニティを表す。
階層コミュニティ検出プロセスでは、コンピューティングサーバー130は、コミュニティ検出アルゴリズム(例えば、ルーヴァン法)をグラフ(フルグラフまたはフィルタリングされたグラフ)に適用し、グラフをコミュニティのセットを表すクラスターに分割する。コミュニティのセットが決定された後、コンピューティングサーバー130は、クラスター内のサブクラスターを特定するために、各クラスターに再びコミュニティ検出アルゴリズムを適用する。各サブクラスターは、さらに定義された遺伝コミュニティを表してもよい。コミュニティの初期セットとサブコミュニティを区別するために、コミュニティの初期セットは「レベル1」コミュニティと呼ばれてもよく、サブコミュニティは「レベル2」コミュニティと呼ばれてもよい。複数のレベルのコミュニティは、クラスターの階層的なセットとして見てもよい。
レベル1の各コミュニティAi'(i=1,2,...,C')についてサブコミュニティを特定するために、コンピューティングサーバー130は、コミュニティAi'(i=1,2,3,...,C')のセット内の各コミュニティAi'についてのサブグラフgiを表すデータを生成する。サブグラフgiは、コミュニティAi'に割り当てられたノードnのサブセットとエッジmのサブセットとによって定義され、iとjの両方がコミュニティAi’に割り当てられている場合に(i,j)がサブセットに含まれる。
コンピューティングサーバー130は、コミュニティAi'に関連付けられたサブグラフgiにクラスタリングアルゴリズム(例えば、モジュール化ベースのクラスタリング)を適用する。例えば、レベル1のコミュニティA1'がサブグラフg1に関連付けられている場合、そのサブグラフg1にクラスタリングアルゴリズムを適用する。クラスタリングアルゴリズムを、i=1,2,...,C'の各サブグラフgiに適用した後、結果は、サブコミュニティのセット(B1,B2,...,BD)となり、ここで、Dは全てのサブグラフで識別されたサブコミュニティの総数である。一実施形態では、以前に指定されたサイズを超える「有効な」コミュニティのみが保持され(これは、レベル1コミュニティを決定するために使用される(第1の)閾値tとは異なる(第2の)閾値であってもよい)、その結果、レベル2コミュニティの最終セットであるサブコミュニティ(B'1,B'2,...B'D')が得られ、その中でD'はD以下である。
上述した処理は、少なくとも1つのコミュニティが上述の閾値ノード数Tよりも大きいノードを有する限り、後続のレベルのコミュニティに対して繰り返されてもよい。例えば、レベル3のコミュニティは、再度細分化され、レベル2のコミュニティBiごとにサブグラフgiを生成し、各サブグラフgiにコミュニティ検出アルゴリズムを適用してもよい。
本説明に続いて、以下に階層型コミュニティ検出アルゴリズムのためのコンピューティングサーバー130の例示的な擬似コードを示す。
一実施形態においては、上述の例示的な擬似コードによって定義された手順は、接続されたノードのグループを再帰的に断片化または細分化することにより、コミュニティの階層をもたらす。上述の疑似コードによって例示されたアルゴリズムは、コミュニティによって定義されたサブネットワークのサイズが、1,000ノードのようなユーザー指定の変数であり得るノードの閾値数Nよりも少ないノードを含む場合に、さらなる細分化を自動的に停止する。さらに、サブグラフを作成するためには、サブネットワークの安定性が閾値Mを超える必要がある。
シングルパス階層コミュニティ検出アプローチでは、コミュニティ検出の各レベルのノードは、単一のクラスターに割り当てられ、単一のクラスターのみに割り当てられる。したがって、シングルパスアプローチでは、個体を表すノードは、葉までの単一のパスによってのみ樹形図700をトラバースすることができる。例えば、図7Aは、葉に到達する例示的なパスを示している。レベル1(例えば、コミュニティ検出アルゴリズムの第1ラウンド)では、ノードは第6のクラスターに割り当てられる。シングルパスアプローチでは、ノードは、第6クラスターと別のクラスターに同時に割り当てられない。したがって、パスは、第6クラスターを表す分岐を取るが、他のクラスターは取らない。レベル2(例えば、コミュニティ検出アルゴリズムの第2ラウンド)では、ノードは、第6クラスターの第3サブクラスター(6.3)に割り当てられる。レベル3(例えば、コミュニティ検出アルゴリズムの第3ラウンド)では、ノードは、葉6.3.1に到達し、サブクラスター6.3の第1サブクラスターに割り当てられる。
図7Bは、一実施形態による、マルチパスコミュニティ検出プロセスのための樹形図700を示している。このマルチパスアプローチでは、コミュニティ検出の各レベルにおけるグラフ内のノードは、マルチクラスターに割り当てられることが許容される。したがって、レベル1では、葉6.3.1に到達するパスに加え、ノードは、第3クラスターおよび第4クラスターにも割り当てられる。また、レベル2では、ノードは第4クラスターの第1および第4サブクラスターに同時に割り当てられる。コミュニティ検出アルゴリズムのマルチラウンドの後、コンピューティングサーバー130は、ノードをコミュニティ6.3.1、3.1、4.1、および4.4.5に割り当てる。言い換えれば、ノードは、異なるコミュニティおよびサブコミュニティに到達するためにマルチパスを取ることができる。一実施形態では、各レベルにおいて、コンピューティングサーバー130は、まずクラスタリングアルゴリズムを使用し、グラフ内のノードをマルチクラスターに分割し、対象ノードをシングルクラスターに割り当ててもよい。ルーヴァン法のような方法は、ノードを1つのクラスターにのみ割り当ててもよいので、対象ノードは、シングルクラスターにのみ割り当てられる。次に、コンピューティングサーバー130は、1つ以上の基準に基づいて、対象となるノードを付加的なクラスターに追加してもよい。例えば、基準は、上述したようなフィルタリング基準に基づいてもよい。別の実施形態では、基準は、以下でさらに詳細に論じられる安定性の因子に基づいている。
図8は、一実施形態による、マルチパスコミュニティ検出を実行するための例示的なプロセスを描いたフローチャートである。このプロセスは、混合された個体を1つ以上の遺伝コミュニティに分類するために用いることができる。コンピューティングサーバー130は、複数の個体に対応する複数の遺伝データセットを引き出す810。個体のうちの少なくとも1つは、混合された個体である。コンピューティングサーバー130は、部分的に接続された無向グラフであってもよいグラフを表すデータを生成820する。本開示で議論される他のグラフと同様に、このグラフは、複数のノードを含んでもよい。各ノードは、個体の1つを表す。2つ以上のノードは、エッジを介して接続されている。各エッジは、2つのノードを接続し、2つのノードによって表される2つの個体の遺伝データセット間の親和性に由来する重みに関連付けられる。複数のノードは、混合された個体を表す、対象となるノードを含む。
コンピューティングサーバー130は、ノードを接続するエッジの重みに基づいて、グラフ内のノードを複数のクラスターに分割830するために、コミュニティ検出アルゴリズムを適用してもよい。複数のクラスターは、複数の遺伝コミュニティを表す。コンピューティングサーバー130は、1つ以上の異なる遺伝コミュニティを表す1つ以上のクラスター内に対象となるノードを含む840。一実施形態では、対象ノードは、2つ以上の遺伝コミュニティに含まれる。例えば、コンピューティングサーバー130は、最初にコミュニティ検出アルゴリズムを用いて、1つのクラスターの対象となるノードを割り当てることができる。次に、コンピューティングサーバー130は、安定性の因子などの1つ以上の基準に基づいて、対象となるノードを付加的なクラスターに追加する。
対象ノードが含まれるクラスターの少なくとも1つについて、コンピューティングサーバー130は、クラスターを複数のサブクラスターに分割850する。例えば、コンピューティングサーバー130は、グラフ、クラスター、または任意のサブクラスターをさらに定義されたサブクラスターに分割する際に、ステップ830および850における同じコミュニティ検出アルゴリズムを適用してもよい。コンピューティングサーバー130は、対象となるノードをサブクラスターの1つに分類してもよい。対象となるノードは、混合された個体が、1つ以上の民族起源の1つ以上の異なる遺伝サブコミュニティに分類されていることを表す、1つ以上の異なるサブクラスターに分類される。矢印860で示されるように、コンピューティングサーバー130は、ステップ840および850を繰り返して階層アプローチを用い、異なるパスの下で対象となるノードをさらに多くのサブクラスターに割り当てることができる。
階層コミュニティ検出プロセスの特定のレベルにおいて、対象となるノードを付加的なクラスターに追加すべきかどうかは、対象となるノードとクラスターとの間の関連性がどの程度安定しているかを評価するための対象となるノードの安定性分析に依存してもよい。例えば、図8のステップ820に対応して、コンピューティングサーバー130は、対象となるノードが閾値を超える特定のクラスターに関する安定性を有するかどうかを決定する。コンピューティングサーバー130は、閾値を超える安定性に応答して、特定のクラスターに対象となるノードを含める。
安定性は、対象となるノードと対象となるクラスターとの間の接続を測定する安定性の因子の形態を取ってもよい。コンピューティングサーバー130は、ステップ830を所定のグラフに対して実行し、対象となるクラスターを含むクラスターのセットを生成してもよい。同じグラフに対し、コンピューティングサーバー130は、グラフの複数のノードからノードのサブセットをランダムにサンプリングする。ノードのサブセットは、サンプリングされたグラフを表し、多くの場合、与えられたグラフのノードの約一定の割合(例えば、60〜80%)を含んでいる。コンピューティングサーバー130は、サンプリングプロセスを繰り返し、複数のノードのサブセットを生成する。異なるサンプリングがされたグラフを表す、様々なサブセットが生成される。コンピューティングサーバー130は、サンプリングされたグラフの各々を複数のクラスターに分割する。分割された結果は、対象となるクラスターを含んでもよい。対象となるクラスターは、各サンプルされたグラフについて完全に同一ではなくてもよく、ランダムにサンプルされたグラフにコミュニティ検出アルゴリズムを適用すると、コミュニティの異なる数および分割が生成される可能性があるため、サンプルされていないグラフを用いて生成された対象となるクラスターと同一ではない可能性があることに留意すべきである。コンピューティングサーバー130は、非サンプル化グラフで生成された対象となるクラスターに割り当てられたノードの点で、閾値の重なり度を有するクラスターを同一の対象となるクラスターとして扱ってもよい。ノードの一定の割合(例えば、60〜80%)がサンプリングされる毎に、対象となるノードがサンプリングされ、サンプリングされたグラフのいくつかにおいて、選択されてもよい。対象となるノードがサンプリングされるそれらのサンプリングされたグラフに対し、コンピューティングサーバー130は、対象となるノードが対象となるクラスターに分類される回数を決定する。例えば、サンプリング及びコミュニティ検出プロセスは、20〜100回繰り返されてもよい。対象となるノードが、例えば14個の異なるサンプリングされたグラフに現れる場合、対象となるノードが対象となるクラスターに分類される回数は、0〜14回であってもよい。コンピューティングサーバー130は、対象となるクラスターに対する対象となるノードの安定性の因子の値を導出する。安定性の因子は、対象となるノードが対象となるクラスターに分類される回数と、対象となるノードがサンプリングされたグラフに現れる回数との比となり得る。安定性の因子が閾値(例えば、25%)を超える場合、コンピューティングサーバー130は、マルチパス階層アプローチにおけるコミュニティ検出の別のラウンドのため、ステップ840において、対象となるノードを対象となるクラスターに追加する。相対的に低い閾値(例えば、50%より低い)を設定して、対象となるノードを1つ以上のクラスターに追加してもよい。
また、コンピューティングサーバー130は、コミュニティのための参照パネルサンプルを決定するために安定性分析を用いてもよい。例えば、対象となるコミュニティにより一貫して割り当てられているノードを見つけるために、その対象となるコミュニティに対して、同じ安定性分析を実行してもよい。参照パネルサンプルを選択する際、より高い閾値(例えば、80%、90%)を安定性の因子に用いてもよい。サンプリングされる毎にノードが一貫して対象となるコミュニティに割り当てられていることは、そのノードが対象となるコミュニティの代表的な遺伝データセットとして機能する可能性があることを示している。そのようなノードは、参照パネルサンプルとして選択されてもよい。
図9は、一実施形態による、マルチパスコミュニティ検出アプローチにおける例示的なクラスタリング処理を示している。ノード910は、対象となるノードである。第1レベルのコミュニティ検出に対し、対象となるノード910は、2つのクラスターに含まれている。また、第2のパスに対しては、対象となるノードは、2つのサブクラスターに含まれている。このように、図9は、対象となるノード910を3つの異なるコミュニティまたはサブコミュニティに割り当てるための、少なくとも3つのパスを示している。
コミュニティ分類
図10は、一実施形態による、対象となる個体のコミュニティを検出するためのプロセスを描いたフローチャートを示している。コンピューティングサーバー130は、1つ以上のトレーニングされた機械学習モデルを用い、与えられた対象となる個体について、その対象となる個体をコミュニティに割り当てるためのスコア(例えば、確率)を計算する。モデルは、既存の個体、例えば、遺伝データストア210に存在する誰か、またはコンピューティングサーバー130に含めるためにDNAサンプルを提出した新しいユーザーを分類するために使用されてもよい。
図10は、一実施形態による、対象となる個体のコミュニティを検出するためのプロセスを描いたフローチャートを示している。コンピューティングサーバー130は、1つ以上のトレーニングされた機械学習モデルを用い、与えられた対象となる個体について、その対象となる個体をコミュニティに割り当てるためのスコア(例えば、確率)を計算する。モデルは、既存の個体、例えば、遺伝データストア210に存在する誰か、またはコンピューティングサーバー130に含めるためにDNAサンプルを提出した新しいユーザーを分類するために使用されてもよい。
コンピューティングサーバー130は、対象となる個体の遺伝データセットを引き出す1010。また、コンピューティングサーバー130は、参照パネルサンプルストア240から複数の参照パネルサンプルを引き出す1020。各参照パネルサンプルは、参照パネルの個体を表す。参照パネルの個体の少なくとも一部は、フルIBDネットワークからフィルタリングされたIBDネットワークによって生成される。フィルタリングされたIBDネットワークは、図4から図9を参照して説明したように、エッジまたはノードの1つ以上の特徴に基づいてフィルタリングされた、ノードのサブセットを含む。
コンピューティングサーバー130は、対象となる個体に関連付けられたIBD親和性を生成1030する。各IBD親和性は、例えば、対象となる個体の遺伝データセットと参照パネルサンプルのフェージングされた遺伝データセットを比較することにより、対象となる個体の遺伝データセットと参照パネルサンプルの1つとを比較することで決定される。コンピューティングサーバー130は、1つ以上のコミュニティ分類器を引き出す1040。各コミュニティ分類器は、個体が遺伝コミュニティに属しているかどうかを決定するためにトレーニングされたモデルとなり得る。コンピューティングサーバー130は、各コミュニティ分類器のための特徴のセットを生成1050する。いくつかの実施形態においては、いくつかの分類器は、IBD親和性または対象となる個体の遺伝データセットを特徴量として受信することができる。他の実施形態では、コンピューティングサーバー130は、IBD親和性(および、いくつかの実施形態では、民族性の推定値)および遺伝データセットを、各モデルのために選択された特徴に応じて特徴ベクトルに変換してもよい。各モデルは、どの特徴が選択され、その特定のモデルをトレーニングするために使用されたかに応じて、異なる特徴ベクトルを受信する。
識別されたコミュニティまたはサブコミュニティについて、コンピューティングサーバー130は、選択された特徴量を有するトレーニングセットを用い、そのコミュニティのための分類器モデルをトレーニングしてもよい。一例として、コンピューティングサーバー130は、分類に使用される特徴として、高い予測能力を有すると推定される特徴を選択してもよい。特徴は、遺伝データセット、IBD親和性値、民族性推定値などから抽出されてもよい。特徴量のセットは、様々なコミュニティごとに異なってもよい。特徴の選択をするために用いられ得るアルゴリズムの例としては、スパースペナルティ回帰(例えば、ラッソ回帰)、フォワード/ステップワイズ回帰法、再帰的特徴除去、および正則化ツリーなどが挙げられるが、これらに限定されるものではない。コンピューティングサーバー130は、そのコミュニティに対して選択された特徴量のセットを使用し、対応するモデルをトレーニングする。トレーニングが完了すると、モデルは対象となる個体について、その個体のコミュニティへの割り当てを予測するためのスコア、または尤度を生成することができる。一実施形態では、モデルは確率(0から1の間の実数)を出力し、1に近い数字はその個体が高い信頼性でコミュニティに分類されていることを示し、0に近い数字はその個体が高い信頼性でコミュニティのメンバーではないことを示す。
トレーニングセットは、1つ以上のコミュニティに分類された既知の個体の特徴を含んでいる。モデルの対象となるコミュニティの一部で、ある個体はそのコミュニティに分類されるべきであることを示す"1"のトレーニングラベルが割り当てられる。他のコミュニティに属している個体には、そのコミュニティに分類されるべきでないことを示す「0」のトレーニングラベルが割り当てられる。一実施形態では、トレーニングラベルの分類は、特定のコミュニティに関連する個体の安定性スコアに基づいてもよい。例えば、一実施形態では、第1の閾値よりも大きいコミュニティの安定性スコアを有する個体は"1"のトレーニングラベルが割り当てられ、第2の閾値よりも小さいコミュニティの安定性スコアを有する個体は"2"のトレーニングラベルが割り当てられる。一実施形態では、第1の閾値と第2の閾値との間の安定性スコアを有する個体は、トレーニングに使用されない。一実施形態では、個体はモデルトレーニングアルゴリズムへの入力として提供されるトレーニングセットを構築するため、およびモデルのトレーニングに使用するために、IBDネットワーク(フィルタリングされたもの、またはフル)および/または参照パネルサンプルからランダムに引き出される。他の実施形態では、入力データは異なるように選択されてもよい。個体に関連するデータは、モデルのための特徴量に変換される。
適切な機械学習モデル構造、教師ありまたは教師なしを、モデルのトレーニングのために使用してもよい。例示的な構造は、ランダムフォレスト、サポートベクターマシン(SVM)、ロジスティック回帰、ニューラルネットワークなどが挙げられるが、これらに限定されるものではない。各モデルは、重みのセットに関連付けられていてもよい。トレーニング工程は、トレーニングセットを用いて分類結果を決定し、トレーニングラベルに基づいてモデルの誤差を低減または最小化するようにモデルの重みを調整することを含む。重みの調整は、座標降下、確率的座標降下などの1つ以上の技法を含んでもよい。トレーニングは、設定された反復回数(例えば、エポック数)を終えた後、または誤差率がもはや改善されない(例えば、モデルが収束した)後に完了するように決定されてもよい。分類器モデルは1つのコミュニティに特化してトレーニングすることができるが、マルチコミュニティのためのマルチクラスの分類器も可能である。複数のコミュニティについては、マルチモデルがトレーニングされてもよい。コンピューティングサーバー130は、トレーニングされたモデルの重みを含んだモデルを、コミュニティ分類器として記憶する。
コミュニティ分類器がトレーニングされた後、コンピューティングサーバー130は、各コミュニティ分類器に対し、対象となる個体が遺伝コミュニティに属しているかどうかを決定するために、対象となる個体に関連付けられた特徴のセットをコミュニティ分類器に入力1060する。これは、各モデルについて確率などのスコアを計算することを含んでもよい。一実施形態では、トレーニングされたモデルによって計算された確率が閾値の数値を超える場合、個体は所定のコミュニティに属するものとして分類される。個体をコミュニティに分類するための閾値は、各モデルに対して同じであってもよいし、異なっていてもよい。コミュニティ予測モジュールの出力は、分類と、各コミュニティに対する事後確率(例えば、分類が正しいかどうかの信頼度)の両方を含んでもよい。
コンピューティングサーバー130は、対象となる個体が属する1つ以上の遺伝コミュニティを要約したレポートを生成1070する。ユーザーベースの広範な遺伝的多様性、異なるユーザーに対するIBD親和性の質の変化、IBDネットワーク内で識別されるコミュニティの構成の不均一性などの様々な要因のために、個体は0、1つ、またはそれ以上のコミュニティのメンバーであると予測されてもよい。一実施形態では、コミュニティ予測モジュールの出力は、生成されたドキュメントまたはGUIを介してユーザーに報告されてもよい。ドキュメントまたはGUIで報告されるデータは、コミュニティに関連付けられた注釈、およびコミュニティに関連付けられた注釈の要約から引き出される歴史的または地理的解釈に基づいてもよい。これには、コミュニティを特徴づける地理的特徴または地域、および注釈によって知らされているかもしれない、または知らされていないかもしれない、コミュニティに特徴的な他の歴史的、社会的または経済的特徴が含まれていてもよい。さらに、コンピューティングサーバー130は、IBDコネクションおよび各コミュニティに関連する他の遺伝的推定値を要約したレポートを生成してもよい。例えば、ユーザーと同じコミュニティに属していると分類される第2のいとこの数の推定値が報告されてもよい。
コンピューティングマシンのアーキテクチャ
図11は、コンピュータ可読メディアから命令を読み取り、プロセッサー(またはコントローラ)で命令を実行することができる、例示的なコンピューティングマシンのコンポーネントを示すブロック図である。本明細書に記載されたコンピュータは、図11に示された単一のコンピューティングマシン、仮想マシン、図11に示されたコンピューティングマシンの複数のノードを含む分散コンピューティングシステム、または他の任意で適切なコンピューティングデバイスを含むことができる。
図11は、コンピュータ可読メディアから命令を読み取り、プロセッサー(またはコントローラ)で命令を実行することができる、例示的なコンピューティングマシンのコンポーネントを示すブロック図である。本明細書に記載されたコンピュータは、図11に示された単一のコンピューティングマシン、仮想マシン、図11に示されたコンピューティングマシンの複数のノードを含む分散コンピューティングシステム、または他の任意で適切なコンピューティングデバイスを含むことができる。
例により、図11は、本明細書で論じられている任意の1つ以上のプロセスをマシンに実行させるための指示1124(例えば、ソフトウェア、プログラムコード、またはマシンコード)がコンピュータ可読メディアに記憶されていてもよい様な、コンピュータシステム1100の例示的な形態のコンピューティングマシンを示している。いくつかの実施形態では、コンピューティングマシンは、スタンドアロンデバイスとして動作するか、または他のマシンに接続されていてもよい(例えば、ネットワーク化されていてもよい)。ネットワーク化された展開では、マシンはサーバークライアントネットワーク環境におけるサーバーマシンまたはクライアントマシンの能力で動作してもよいし、ピアツーピア(または分散型)ネットワーク環境におけるピアマシンとして動作してもよい。
図11に記載されたコンピューティングマシンの構造は、クライアントデバイス110、コンピューティングサーバー130、および図2に示された様々なエンジン、インターフェイス、端末、および機械を含むが、これらに限定されない図1および図2に示された任意のソフトウェア、ハードウェア、または組み合わせたコンポーネントに対応することができる。図11は、様々なハードウェアおよびソフトウェア要素を示しているが、図1および図2に記載された構成要素の各々は、追加の要素を含んでもよいし、より少ない要素を含んでもよい。
コンピューティングマシンの例としては、パーソナルコンピュータ(PC)、タブレットPC、セットトップボックス(STB)、パーソナルデジタルアシスタント(PDA)、携帯電話、スマートフォン、ウェブアプライアンス、ネットワークルータ、モノのインターネット(IoT)デバイス、スイッチまたはブリッジ、またはそのマシンによって実行されるべきアクションを指定する指示1124を実行することが可能な任意のマシンであってもよい。さらに、単一のマシンのみが例示されているが、「マシン」および「コンピュータ」という用語は、本明細書で議論される方法論のうち、任意の1つ以上を実行するために個別にまたは共同で指示1124を実行する任意のマシンの集合体を含むと取られてもよい。
例示的なコンピュータシステム1100は、CPU(中央処理装置)、GPU(グラフィックス処理装置)、TPU(テンソル処理装置)、DSP(デジタル信号プロセッサー)、システムオンチップ(SOC)、コントローラ、状態装置、アプリケーション専用集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、またはこれらの任意の組み合わせなどの1つ以上のプロセッサー1102を含む。また、コンピューティングシステム1100の一部は、指示がプロセッサー1102によって直接または間接的に実行されたとき、プロセッサー1102に特定の動作を実行させることができる指示1124を含むコンピュータコードを格納するメモリー1104を含んでもよい。指示は、装置可読命令、ソースコードを含むプログラミング指示、および他の通信信号や指示など、異なる形態で記憶され得る、任意の指揮、命令、指令であってよい。指示は、一般的な意味で使用されてもよく、機械読み取り可能なコードに限定されない。
本明細書に記載の1つ以上の方法は、プロセッサー1102の動作速度を改善し、メモリー1104に要求されるスペースを削減する。例えば、本明細書に記載の機械学習方法は、プロセッサー1102のトレーニング、収束に到達するステップ、および結果を生成するステップを簡略化する1つ以上の新規な技法を適用することにより、プロセッサー1102の計算の複雑さを低減する。また、本明細書に記載されたアルゴリズムは、モデルおよびデータセットのサイズを縮小して、メモリー1104のために必要な記憶領域を縮小する。
特定の動作性能は、単一のマシン内に存在するだけでなく、いくつかのマシンにまたがって配置された、多数のプロセッサー間に分散されてもよい。いくつかの例示的な実施形態では、1つ以上のプロセッサーまたはプロセッサー実装モジュールは、単一の地理的な場所(例えば、家庭環境、オフィス環境、またはサーバファーム内)に配置されてもよい。他の例示的な実施形態では、1つ以上のプロセッサーまたはプロセッサー実装モジュールは、いくつかの地理的な場所に分散していてもよい。本明細書または特許請求の範囲では、プロセッサーによって実行されるいくつかのプロセスを参照することができるとしても、これは、多様に分散されたプロセッサーの共同動作を含むと解釈されるべきである。
コンピュータシステム1100は、バス1108を介して互いに通信するように構成されたメインメモリー1104および静的メモリー1106を含んでもよい。さらに、コンピュータシステム1100は、グラフィックスディスプレイユニット1110(例えば、プラズマディスプレイパネル(PDP)、液晶ディスプレイ(LCD)、プロジェクタ、またはブラウン管(CRT))を含んでもよい。プロセッサー1102によって制御されるグラフィックディスプレイユニット1110は、本明細書に記載されたプロセスによって生成された1つ以上の結果およびデータを表示するためのグラフィカルユーザーインターフェイス(GUI)を表示する。また、コンピュータシステム1100はアルファニューメリック入力装置1112(例えば、キーボード)、カーソル制御装置1114(例えば、マウス、トラックボール、ジョイスティック、モーションセンサ、または他のポインティング器具)、ストレージユニット1116(ハードドライブ、ソリッドステートドライブ、ハイブリッドドライブ、メモリディスクなど)、信号発生装置1118(例えば、スピーカ)、およびネットワークインターフェイス装置1120を含んでもよく、これらは、バス1108を介して通信するように構成される。
ストレージユニット1116は、本明細書に記載された方法論または機能のうちの任意の1つ以上を具現化する指示1124が格納されたコンピュータ可読メディア1122を含む。また、指示1124はコンピュータシステム1100の実行中に、完全にまたは少なくとも部分的に、メインメモリー1104内またはプロセッサー1102内(例えば、プロセッサーのキャッシュメモリー内)に存在してもよく、メインメモリー1104およびプロセッサー1102もまた、コンピュータ可読メディアを構成する。指示1124は、ネットワークインターフェイス装置1120を介し、ネットワーク1126上で送受信されてもよい。
コンピュータ可読メディア1122は、例示的な実施形態では単一のメディアであることが示されているが、「コンピュータ可読メディア」という用語は、指示(例えば、指示11024)を格納することができる単一のメディアまたは多様なメディア(例えば、集中型または分散型のデータベース、または関連するキャッシュおよびサーバー)を含むものと取られるべきである。コンピュータ可読メディアは、プロセッサー(例えば、プロセッサー1102)によって実行されるための指示(例えば、指示1124)を記憶することが可能であり、プロセッサーが本明細書に開示された方法論のうちの任意の1つ以上を実行することを引き起こす任意のメディアを含むことができる。コンピュータ可読メディアは、ソリッドステートメモリー、光学媒体、および磁気媒体の形態のデータリポジトリを含み得るが、これらに限定されない。コンピュータ可読メディアは、伝搬する信号または搬送波のような一過性のメディアを含まない。
追加考慮事項
前述の実施形態の説明は、例示の目的で提示されたものであり、網羅的なものではなく、また開示された正確な形態に特許権を限定することを意図したものではない。関連する技術の熟練者は、上記の開示に照らして、多くの変更および変形が可能であることを理解することができる。
前述の実施形態の説明は、例示の目的で提示されたものであり、網羅的なものではなく、また開示された正確な形態に特許権を限定することを意図したものではない。関連する技術の熟練者は、上記の開示に照らして、多くの変更および変形が可能であることを理解することができる。
本発明による実施形態は、方法およびコンピュータプログラム製品に向けられた添付の請求項に特に開示されており、ここで、1つの請求項のカテゴリー、例えば方法に記載された任意の特徴は、別の請求項のカテゴリー、例えばコンピュータプログラム製品、システム、記憶媒体にも同様に請求することができる。添付の特許請求の範囲の従属項または参考文献は、形式的な理由のみのために選択される。しかしながら、任意の以前の請求項(特に複合的な依存関係)への意図的な参照に起因する任意の主題も同様に請求することができ、それにより、請求項およびその特徴の任意の組み合わせが開示され、添付の請求項で選択された依存関係に関係なく請求することができる。請求することができる主題は、開示された実施形態に記載された特徴の組み合わせだけでなく、異なる実施形態に記載された特徴の他の任意の組み合わせからなる。異なる実施形態で言及された様々な特徴は、例示的な実施形態において、そのような組み合わせまたは配置を明示的に言及して組み合わせることができる。さらに、本明細書に記載または描写された実施形態および特徴のいずれかは、別の請求項および/または本明細書の記載または描写された実施形態または特徴のいずれかとの任意の組み合わせで請求することができる。
本明細書のいくつかの部分では、情報に対する操作のアルゴリズムおよび記号表現の観点から実施形態を説明している。これらの操作およびアルゴリズムの記述は、機能的に、計算的に、または論理的に記述されているが、コンピュータプログラムまたは同等の電気回路、マイクロコード、またはそれに類似するものによって実装されることが理解される。さらに、一般性を損なうことなく、これらの操作の配置をエンジンと呼ぶことが便利であることも判明している。記載された操作およびそれに関連するエンジンは、ソフトウェア、ファームウェア、ハードウェア、またはそれらの任意の組み合わせで具現化されてもよい。
本明細書に記載されたステップ、操作、またはプロセスのいずれかは、単独で、または他の装置と組み合わせて、1つ以上のハードウェアまたはソフトウェアエンジンを用いて実行または実装されてもよい。一実施形態では、ソフトウェアエンジンは、コンピュータプログラムコードを含むコンピュータ可読メディアからなるコンピュータプログラム製品を用いて実装され、このコンピュータプログラム製品は、本明細書に記載されたステップ、操作、またはプロセスのいずれかまたはすべてを実行するためにコンピュータプロセッサによって実行されることができる。用語「ステップ」は、特定の順序を強制するものではなく、また暗示するものでもない。例えば、本開示では、フローチャートに存在する矢印で順次に複数のステップを含むプロセスを記述し得るが、プロセスのステップは、本開示で主張または記載されている特定の順序で実行される必要はない。他のステップが本開示で最初に主張または記載されていたとしても、いくつかのステップが他のステップよりも先に実行されてよい。
本明細書を通して、複数の例は、単一の例として記述された構成要素、操作、または構造を実装してもよい。2つ以上の方法の個々の操作が図示され、別々の操作として記述されているが、個々の操作のうちの1つ以上は同時に実行されてもよく、操作が図示された順序で実行されることを要求するものはない。例示的な構成において別の構成要素として提示された構造および機能は、結合された構造または構成要素として実装されてもよい。同様に、単一の構成要素として提示された構造および機能は、別の構成要素として実装されてもよい。これらおよび他の変形、修正、追加、および改良は、本明細書の主題の範囲内に収まる。さらに、本明細書および特許請求の範囲で使用される用語"各"は、グループ内のすべての要素またはすべての要素が、用語"各"に関連付けられた記述に適合する必要があることを意味するものではない。例えば、"各部材が要素Aに関連付けられている"という用語は、すべての部材が要素Aに関連付けられていることを暗示するものではなく、その代わりに、用語"各"は、単数形で、ある部材(部材の一部)が要素Aに関連付けられていることを暗示するだけである。
最後に、本明細書で用いられている言語は、主に可読性と教示の目的で選択されており、特許権を明確にしたり囲んだりするために選択されたものではないことがあり得る。よって、特許権の範囲は、この詳細な説明によってではなく、むしろ、ここに基づいて出願された請求項によって限定されることが意図されている。したがって、本発明の実施形態の開示は、特許権の範囲を限定するものではなく、例示的なものであることが意図されている。
以下の出願は、すべての目的のためにその全体が参照により組み込まれる。
(1) 2015年10月19日に出願された「Haplotype Phasing Models」と題された米国特許出願第15/591,099号
(2) 2016年5月28日に出願された「Discovering Population Structure from Patterns of Identity-By-Descent」と題された米国特許出願第15/168,011号
(3) 2016年7月13日に出願された「Local Genetic Ethnicity Determination System」と題された米国特許出願第15/209,458号
(4)2013年9月17日に出願された "Identifying Ancestral Relationships Using a Continuous stream of Input "と題された米国特許出願第14/029,765号、
(1) 2015年10月19日に出願された「Haplotype Phasing Models」と題された米国特許出願第15/591,099号
(2) 2016年5月28日に出願された「Discovering Population Structure from Patterns of Identity-By-Descent」と題された米国特許出願第15/168,011号
(3) 2016年7月13日に出願された「Local Genetic Ethnicity Determination System」と題された米国特許出願第15/209,458号
(4)2013年9月17日に出願された "Identifying Ancestral Relationships Using a Continuous stream of Input "と題された米国特許出願第14/029,765号、
Claims (20)
- コンピュータ実装方法であって、
複数の個体に対応する複数の遺伝データセットを引き出す工程と、
フルグラフを生成する工程であって、
前記フルグラフは複数のノードを備え、
各ノードは前記個体の1つを表し、
2つ以上の前記ノードがエッジを介して接続され、
各エッジが2つの前記ノードを接続し、前記2つのノードによって表される前記2つの個体の前記遺伝データセット間の親和性に由来する重みと関連付けられる工程と、
前記エッジまたは前記ノードに関連付けられた1つ以上の特徴に基づいて前記フルグラフをフィルタリングし、ノードのサブセットを備えた、フィルタリングされたグラフを生成する工程と、
前記フィルタリングされたグラフのノードのサブセットを、前記サブセット内の前記ノードを接続する前記エッジの重みに基づいて複数のクラスターに分割する工程であって、前記クラスターの各々は遺伝コミュニティを表す工程と、
を備える、コンピュータ実装方法。 - 請求項1のコンピュータ実装方法であって、前記2つの個体の前記遺伝子データセット間の前記親和性が前記2つの個体の前記遺伝子データセットを比較することによって決定される、前記2人の個体の共有されたIdentity-by-descence(IBD)遺伝子セグメント長に対応する、コンピュータ実装方法。
- 請求項1のコンピュータ実装方法であって、前記フルグラフのフィルタリングが、前記エッジの特徴に基づいており、前記特徴が、各エッジに対して、前記エッジによって接続された2つのノードによって表される2つの個体の共通祖先の出生年の推定平均値に割り当てられた時間枠に対応する、コンピュータ実装方法。
- 請求項3のコンピュータ実装方法であって、少なくとも1つのエッジに対する前記時間枠が、前記2つの個体の遺伝データセットを比較することによって決定される、前記2つの個体の共有されたIdentity-by-descence(IBD)遺伝子セグメント長から決定される、コンピュータ実装方法。
- 請求項3のコンピュータ実装方法であって、少なくとも1つのエッジに対する前記時間枠が、前記2つの個体の共有されたIdentity-by-descence(IBD)遺伝セグメント長を入力として用いる機械学習モデルによって決定される、コンピュータ実装方法。
- 請求項5のコンピュータ実装方法であって、前記機械学習モデルのトレーニングが、
ユーザーの遺伝データセットに基づいて、ユーザーのペアのうちの複数のペアがIBD共有の長さによってIBDに関連していることを識別する工程と、
前記ユーザーのペアの家系図データを取得する工程と、
ユーザーの各ペアが1つ以上の共通先祖を共有していることを決定する工程と、
出生年のデータが利用可能な前記共通祖先を特定する工程と、
前記共通祖先の前記出生年の時間枠と前記IBD共有の長さを含むトレーニングセットを生成する工程と、
前記トレーニングセットを用いて機械学習モデルをトレーニングする工程と
を備える、コンピュータ実装方法。 - 請求項1のコンピュータ実装方法であって、前記フルグラフのフィルタリングが、前記ノードの特徴に基づいており、
前記特徴が、各ノードについて、前記ノードによって表される個体の遺伝データセットに対応し、
前記遺伝データセットが、対象となる民族性から遺伝する個体の遺伝セグメント長が閾値を超えることを示す、コンピュータ実装方法。 - 請求項7のコンピュータ実装方法であって、前記対象となる民族性から遺伝する個体の遺伝セグメントの長さが、前記遺伝データセットと前記対象となる民族性の1つ以上の参照パネルサンプルとを比較することによって決定される、コンピュータ実装方法。
- 請求項1のコンピュータ実装方法であって、前記フィルタリングされたグラフが第1のフィルタリングされたグラフであり、前記フルグラフのフィルタリングが、個体の民族構成要素において提示された第1の対象となる民族性に基づいており、前記コンピュータ実装方法は、
個体の民族構成要素において提示された第2の対象となる民族性に基づいてフルグラフをフィルタリングし、
第2のフィルタリングされたグラフを生成する工程であって、
前記第2のフィルタリングされたグラフ中の少なくとも1つのノードが前記第1のフィルタリングされたグラフ中にも存在する工程と、
をさらに備える、コンピュータ実装方法。 - 請求項1のコンピュータ実装方法であって、前記フィルタリングされたグラフのノードの前記サブセットを複数のクラスターに分割する工程は、前記フィルタリングされたグラフに複数のパーティションを定義する工程であって、各パーティションは候補となる遺伝コミュニティを表す工程と、
前記パーティションの因子を決定する工程であって、前記因子は同一のパーティションに分類された2つのノードを接続する前記エッジの前記重みに伴って増加し、あるパーティションのノードと別のパーティションのノードを接続するエッジの重みに伴って減少する値となる工程と、
前記因子の前記値を増加させるために前記複数のパーティションを調整する工程であって、調整されたパーティションは前記クラスターである工程と、
を備える、コンピュータ実装方法。 - コンピュータ実装方法であって、
複数の個体に対応する複数の遺伝データセットを引き出す工程であって、前記複数の個体が混合された個体を含む工程と、
グラフを生成する工程であって、前記グラフは、
複数のノードを備え、
各ノードは前記個体の1つを表し、
2つ以上のノードはエッジを介して接続され、
各エッジは2つのノードを接続し、前記2つのノードによって表される前記2つの個体の前記遺伝データセット間の親和性由来する重みに関連付けられ、
前記複数のノードは、前記混合した個体を表す対象となるノードを含む工程と、
前記ノードを接続する前記エッジの前記重みに基づいて、前記グラフ内のノードを複数のクラスターに分割する工程であって、前記複数のクラスターは複数の遺伝コミュニティを表す、工程と、
1つ以上の遺伝コミュニティを表す1つ以上のクラスターに、前記対象となるノードを含める工程と、
前記対象となるノードが含まれる前記クラスターのうちの少なくとも1つに対して、
前記クラスターのうちの少なくとも1つを複数のサブクラスターに分割し、
前記対象となるノードを1つ以上のサブクラスターに分類する工程であって、
前記対象となるノードを1つ以上の異なるサブクラスターに分類することが、混合された個体が1つ以上の民族起源の、1つ以上の異なる遺伝サブコミュニティに分類されることを表す工程と、
を備える、コンピュータ実装方法。 - 請求項11のコンピュータ実装方法であって、前記対象となるノードを1つ以上のクラスターに含める工程は、
前記対象となるノードが、閾値を超える対象となるクラスターに関して安定性を有するかどうかを決定する工程と、
前記閾値を超える前記安定性に応答して、前記対象となるクラスター内の対象となるノードを含む工程と
を備える、コンピュータ実装方法。 - 請求項12のコンピュータ実装方法であって、前記対象となるノードが閾値を超える前記対象となるクラスターに関して前記安定性を有するかどうかを決定する工程は、
複数のノードのサブセットを生成する工程であって、ノードの各サブセットは前記グラフにおける前記複数のノードからサンプリングされ、ノードの各サブセットはサンプリングされたグラフを表す工程と、
前記サンプリングされたグラフの各々を第2の複数のクラスターに分割する工程であって、前記第2の複数のクラスターのうちの1つを、前記対象となるクラスターに対応させる工程と、
前記対象となるノードがサンプリングされた前記サンプリングされたグラフに対して、前記対象となるノードが前記対象となるクラスターに分類される回数を決定する工程と、
前記回数から、前記対象となるクラスターに対する前記対象となるノードの前記安定性を導出する工程と、
前記対象となるノードの前記安定性を前記閾値と比較する工程と、
を備える、コンピュータ実装方法。 - 請求項11の記載のコンピュータ実装方法であって、前記グラフ内の前記ノードを複数のクラスターに分割する工程は、
前記グラフ内に複数のパーティションを定義する工程であって、各パーティションは候補の遺伝コミュニティを表す工程と、
前記パーティションの因子を決定する工程であって、前記因子は同じパーティションに分類された2つのノードを接続するエッジの重みに伴って増加する値となり、あるパーティションの前記ノードと別のパーティションの前記ノードを接続するエッジの重みに伴って減少する値となる工程と、
前記因子の前記値を増加させるために前記複数のパーティションを調整する工程であって、調整されたパーティションが前記クラスターである工程と、
を備える、コンピュータ実装方法。 - 請求項11のコンピュータ実装方法であって、前記対象となるノードが含まれるクラスター毎に、前記クラスターを複数のサブクラスターに分割するのと同じクラスタリングアルゴリズムを用いて、前記グラフ内の前記ノードを複数のクラスターに分割する工程を備える、コンピュータ実装方法。
- 請求項11のコンピュータ実装方法であって、前記2つの個体の遺伝データセット間の前記親和性が、前記2つの個体の前記遺伝データセットによって決定された前記2つの個体の共有されたIdentity-by-descence(IBD)遺伝子セグメント長に対応する、コンピュータ実装方法。
- 請求項11のコンピュータ実装方法であって、前記グラフが部分的に接続された無向グラフである、コンピュータ実装方法。
- コンピュータ実装方法であって、
対象となる個体の遺伝データセットを引き出す工程と、
複数の参照パネルサンプルを引き出す工程であって、
各参照パネルサンプルは参照パネル個体を表し、
前記参照パネル個体の少なくとも一部は、フルIBDネットワークからフィルタリングされたIBDネットワークから生成され、
前記フルIBDネットワークは複数のノードを備え、
各ノードは個体を表し、
2つ以上のノードはエッジを介して接続され、
各エッジは前記2つのノードを接続し、前記2つのノードによって表される前記2つの個体間のIBD親和性に由来する重みに関連付けられ、
前記フィルタリングされたIBDネットワークは、前記エッジまたは前記ノードの1つ以上の特徴に基づいてフィルタリングされたノードのサブセットを含む工程と、
前記対象となる個体に関連付けられた複数のIBD親和性を生成する工程であって、各IBD親和性は、前記対象となる個体の前記遺伝データセットを、前記参照パネルサンプルの1つと比較することによって決定される工程と、
コミュニティ分類器を引き出す工程であって、前記コミュニティ分類器は、個体が遺伝コミュニティに属しているかどうかを判断するように設定された機械学習モデルを備える工程と、
前記対象となる個体に関連付けられた特徴のセットを生成する工程であって、前記特徴のセットは、複数のIBD親和性に基づいて生成される工程と、
前記対象となる個体が前記遺伝コミュニティに属しているかどうかを判断するために、前記特徴のセットを前記コミュニティ分類器に入力する工程と、
前記対象となる個体が属する1つ以上の前記遺伝コミュニティを要約したレポートを生成する工程と、
を備える、コンピュータ実装方法。 - 請求項18のコンピュータ実装方法であって、前記フィルタリングされたIBDネットワークが、前記エッジの特徴に基づいてフィルタリングされ、前記特徴が各エッジに対して、前記エッジによって接続された前記2つのノードによって表される前記2つの個体の共通祖先の出生年の推定平均に割り当てられた時間枠に対応している、コンピュータ実装方法。
- 請求項18のコンピュータ実装方法であって、前記フィルタリングされたIBDネットワークが、前記ノードの特徴に基づいてフィルタリングされ、前記特徴が各ノードに対して、前記ノードによって表される前記個体の前記遺伝データセットに対応し、前記遺伝データセットが、対象となる民族から遺伝する前記個体の遺伝セグメント長が閾値を超えることを示す、コンピュータ実装方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862687177P | 2018-06-19 | 2018-06-19 | |
US62/687,177 | 2018-06-19 | ||
PCT/IB2019/054975 WO2019243969A1 (en) | 2018-06-19 | 2019-06-14 | Filtering genetic networks to discover populations of interest |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021530026A true JP2021530026A (ja) | 2021-11-04 |
Family
ID=68983781
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020571398A Pending JP2021530026A (ja) | 2018-06-19 | 2019-06-14 | 目的の個体群を発見する遺伝的ネットワークのフィルタリング |
Country Status (11)
Country | Link |
---|---|
US (2) | US11211149B2 (ja) |
EP (1) | EP3811366A4 (ja) |
JP (1) | JP2021530026A (ja) |
CN (1) | CN112585688A (ja) |
AU (1) | AU2019289227A1 (ja) |
BR (1) | BR112020026029A2 (ja) |
CA (1) | CA3104057A1 (ja) |
IL (1) | IL279462A (ja) |
MX (1) | MX2020014199A (ja) |
NZ (1) | NZ772029A (ja) |
WO (1) | WO2019243969A1 (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3323067B1 (en) * | 2015-07-13 | 2022-07-06 | Ancestry.com DNA, LLC | Local genetic ethnicity determination system |
US10885461B2 (en) | 2016-02-29 | 2021-01-05 | Oracle International Corporation | Unsupervised method for classifying seasonal patterns |
US10867421B2 (en) | 2016-02-29 | 2020-12-15 | Oracle International Corporation | Seasonal aware method for forecasting and capacity planning |
US11537940B2 (en) * | 2019-05-13 | 2022-12-27 | Oracle International Corporation | Systems and methods for unsupervised anomaly detection using non-parametric tolerance intervals over a sliding window of t-digests |
US11887015B2 (en) | 2019-09-13 | 2024-01-30 | Oracle International Corporation | Automatically-generated labels for time series data and numerical lists to use in analytic and machine learning systems |
US20220383349A1 (en) * | 2020-02-18 | 2022-12-01 | Grabtaxi Holdings Pte. Ltd. | System and method for partitioning geographical areas into logistical areas for dynamic pricing |
US11893256B2 (en) * | 2020-03-11 | 2024-02-06 | International Business Machines Corporation | Partitioning of deduplication domains in storage systems |
US20230161749A1 (en) * | 2021-11-24 | 2023-05-25 | Ancestry.Com Dna, Llc | Scoring method for matches based on age probability |
US11693958B1 (en) * | 2022-09-08 | 2023-07-04 | Radiant Security, Inc. | Processing and storing event data in a knowledge graph format for anomaly detection |
US20240120028A1 (en) * | 2022-10-05 | 2024-04-11 | 23Andme, Inc. | Learning Architecture and Pipelines for Granular Determination of Genetic Ancestry |
Family Cites Families (49)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050192008A1 (en) | 1999-03-31 | 2005-09-01 | Nimesh Desai | System and method for selective information exchange |
US20030208454A1 (en) | 2000-03-16 | 2003-11-06 | Rienhoff Hugh Y. | Method and system for populating a database for further medical characterization |
US6570567B1 (en) | 2000-05-31 | 2003-05-27 | Alan Eaton | System and method for using a graphical interface for the presentation of genealogical information |
US20040083226A1 (en) | 2000-05-31 | 2004-04-29 | Alan Eaton | System, mehtods, and data structures for transmitting genealogical information |
WO2002017190A1 (en) | 2000-08-22 | 2002-02-28 | Varro Technologies, Inc. | Method and system for sharing biological information |
US20030113727A1 (en) | 2000-12-06 | 2003-06-19 | Girn Kanwaljit Singh | Family history based genetic screening method and apparatus |
CN1496412B (zh) | 2001-03-14 | 2012-08-08 | 香港中文大学 | 用于评估中国血统的人种发展2型糖尿病危险性的方法和组合物 |
US7957907B2 (en) | 2001-03-30 | 2011-06-07 | Sorenson Molecular Genealogy Foundation | Method for molecular genealogical research |
US20020143578A1 (en) | 2001-04-02 | 2002-10-03 | Cole Louis Scott | Interactives system and method for recording and assessing a person's inherited risk for a range of diseases |
US20030101000A1 (en) | 2001-07-24 | 2003-05-29 | Bader Joel S. | Family based tests of association using pooled DNA and SNP markers |
US7062752B2 (en) | 2001-08-08 | 2006-06-13 | Hewlett-Packard Development Company, L.P. | Method, system and program product for multi-profile operations and expansive profile operation |
US8855935B2 (en) | 2006-10-02 | 2014-10-07 | Ancestry.Com Dna, Llc | Method and system for displaying genetic and genealogical data |
US20080154566A1 (en) | 2006-10-02 | 2008-06-26 | Sorenson Molecular Genealogy Foundation | Method and system for displaying genetic and genealogical data |
US20040126840A1 (en) | 2002-12-23 | 2004-07-01 | Affymetrix, Inc. | Method, system and computer software for providing genomic ontological data |
US20040093334A1 (en) | 2002-11-13 | 2004-05-13 | Stephen Scherer | Profile management system |
US20050147947A1 (en) | 2003-12-29 | 2005-07-07 | Myfamily.Com, Inc. | Genealogical investigation and documentation systems and methods |
US7249129B2 (en) | 2003-12-29 | 2007-07-24 | The Generations Network, Inc. | Correlating genealogy records systems and methods |
US7302261B2 (en) | 2004-01-23 | 2007-11-27 | Samsung Electronics Co., Ltd. | Apparatus and method using release order messages to change the slot cycle index of a selected mobile station in a wireless network |
US8554876B2 (en) | 2004-01-23 | 2013-10-08 | Hewlett-Packard Development Company, L.P. | User profile service |
US20070260599A1 (en) | 2004-09-15 | 2007-11-08 | Mcguire Heather A | Social network analysis |
US20070050354A1 (en) | 2005-08-18 | 2007-03-01 | Outland Research | Method and system for matching socially and epidemiologically compatible mates |
US8285486B2 (en) | 2006-01-18 | 2012-10-09 | Dna Tribes Llc | Methods of determining relative genetic likelihoods of an individual matching a population |
US7818281B2 (en) | 2006-02-14 | 2010-10-19 | Affymetrix, Inc. | Computer software for visualizing recombination events in a group of individuals from recombination breakpoints and assignments in high density SNP genotyping data by generating a color-coded view for each individual chromosome and a whole genome view for the group |
US8271201B2 (en) | 2006-08-11 | 2012-09-18 | University Of Tennesee Research Foundation | Methods of associating an unknown biological specimen with a family |
US7984421B2 (en) | 2006-10-03 | 2011-07-19 | Ning, Inc. | Web application cloning |
US20080113727A1 (en) | 2006-11-13 | 2008-05-15 | Bally Gaming, Inc. | Game and method having a multiple-progressive wheel component |
US7844604B2 (en) | 2006-12-28 | 2010-11-30 | Yahoo! Inc. | Automatically generating user-customized notifications of changes in a social network system |
US20090030985A1 (en) | 2007-07-24 | 2009-01-29 | Zheng Yuan | Family-based online social networking |
US9336177B2 (en) | 2007-10-15 | 2016-05-10 | 23Andme, Inc. | Genome sharing |
WO2009051766A1 (en) | 2007-10-15 | 2009-04-23 | 23Andme, Inc. | Family inheritance |
US8510057B1 (en) | 2007-10-15 | 2013-08-13 | 23Andme, Inc. | Summarizing an aggregate contribution to a characteristic for an individual |
JP5192352B2 (ja) | 2008-10-30 | 2013-05-08 | 株式会社日立製作所 | 記憶装置及びデータ格納領域管理方法 |
US8170805B2 (en) * | 2009-02-06 | 2012-05-01 | Syngenta Participations Ag | Method for selecting statistically validated candidate genes |
US9798855B2 (en) * | 2010-01-07 | 2017-10-24 | Affymetrix, Inc. | Differential filtering of genetic data |
US20120054190A1 (en) | 2010-08-27 | 2012-03-01 | Aiv Technology Llc | Electronic family tree generation and display system |
US20130297221A1 (en) | 2011-06-01 | 2013-11-07 | The Board Of Trustees Of The Leland Stanford Junior University | Method and System for Accurate Construction Of Long Range Haplotype |
US8769438B2 (en) | 2011-12-21 | 2014-07-01 | Ancestry.Com Operations Inc. | Methods and system for displaying pedigree charts on a touch device |
US10025877B2 (en) | 2012-06-06 | 2018-07-17 | 23Andme, Inc. | Determining family connections of individuals in a database |
US9116882B1 (en) | 2012-08-02 | 2015-08-25 | 23Andme, Inc. | Identification of matrilineal or patrilineal relatives |
US9330418B2 (en) * | 2012-09-14 | 2016-05-03 | Ancestry.Com Operations Inc. | System and method for creating a family tree data structure |
US20140108527A1 (en) | 2012-10-17 | 2014-04-17 | Fabric Media, Inc. | Social genetics network for providing personal and business services |
US9977708B1 (en) | 2012-11-08 | 2018-05-22 | 23Andme, Inc. | Error correction in ancestry classification |
US9213947B1 (en) | 2012-11-08 | 2015-12-15 | 23Andme, Inc. | Scalable pipeline for local ancestry inference |
WO2014145280A1 (en) * | 2013-03-15 | 2014-09-18 | Ancestry.Com Dna, Llc | Family networks |
US20160048608A1 (en) * | 2014-08-15 | 2016-02-18 | Good Start Genetics, Inc. | Systems and methods for genetic analysis |
NZ731820A (en) * | 2014-10-17 | 2017-05-26 | Ancestry Com Dna Llc | Haplotype phasing models |
CN107924384A (zh) * | 2015-03-11 | 2018-04-17 | 阿雅斯迪公司 | 用于使用预测学习模型预测结果的系统和方法 |
US10223498B2 (en) * | 2015-05-30 | 2019-03-05 | Ancestry.Com Dna, Llc | Discovering population structure from patterns of identity-by-descent |
US10957422B2 (en) * | 2015-07-07 | 2021-03-23 | Ancestry.Com Dna, Llc | Genetic and genealogical analysis for identification of birth location and surname information |
-
2019
- 2019-06-14 WO PCT/IB2019/054975 patent/WO2019243969A1/en unknown
- 2019-06-14 CN CN201980054512.7A patent/CN112585688A/zh active Pending
- 2019-06-14 MX MX2020014199A patent/MX2020014199A/es unknown
- 2019-06-14 BR BR112020026029-0A patent/BR112020026029A2/pt not_active Application Discontinuation
- 2019-06-14 EP EP19823025.2A patent/EP3811366A4/en active Pending
- 2019-06-14 AU AU2019289227A patent/AU2019289227A1/en active Pending
- 2019-06-14 CA CA3104057A patent/CA3104057A1/en active Pending
- 2019-06-14 JP JP2020571398A patent/JP2021530026A/ja active Pending
- 2019-06-14 NZ NZ77202919A patent/NZ772029A/xx unknown
- 2019-06-14 US US17/252,652 patent/US11211149B2/en active Active
-
2020
- 2020-12-15 IL IL279462A patent/IL279462A/en unknown
-
2021
- 2021-11-19 US US17/531,426 patent/US20220076789A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US20210257060A1 (en) | 2021-08-19 |
WO2019243969A1 (en) | 2019-12-26 |
US11211149B2 (en) | 2021-12-28 |
CN112585688A (zh) | 2021-03-30 |
CA3104057A1 (en) | 2019-12-26 |
EP3811366A4 (en) | 2022-03-23 |
MX2020014199A (es) | 2021-05-12 |
NZ772029A (ja) | 2021-01-29 |
US20220076789A1 (en) | 2022-03-10 |
IL279462A (en) | 2021-01-31 |
EP3811366A1 (en) | 2021-04-28 |
BR112020026029A2 (pt) | 2021-03-23 |
AU2019289227A1 (en) | 2021-02-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11211149B2 (en) | Filtering genetic networks to discover populations of interest | |
US20200118647A1 (en) | Phenotype trait prediction with threshold polygenic risk score | |
US11429615B2 (en) | Linking individual datasets to a database | |
AU2019370896A1 (en) | Estimation of phenotypes using DNA, pedigree, and historical data | |
US11887697B2 (en) | Graphical user interface displaying relatedness based on shared DNA | |
EP4008007B1 (en) | Clustering of matched segments to determine linkage of dataset in a database | |
US20210383900A1 (en) | Enrichment of traits and association with population demography | |
US20230196116A1 (en) | Machine learning for classification of users | |
US10896741B2 (en) | Prediction of phenotypes using recommender systems | |
AU2021207383B2 (en) | Ancestry inference based on convolutional neural network | |
US20240078265A1 (en) | Segment-specific shared data inheritance determination | |
US11238957B2 (en) | Community assignments in identity by descent networks and genetic variant origination | |
US20240061886A1 (en) | Catalog-based data inheritance determination | |
WO2023200976A1 (en) | Accelerated hidden markov models for genotype analysis |