JP6564053B2

JP6564053B2 - 細胞間または細胞群間の同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定方法

Info

Publication number: JP6564053B2
Application number: JP2017550043A
Authority: JP
Inventors: 尭之辻本
Original assignee: Fujifilm Corp
Current assignee: Fujifilm Corp
Priority date: 2015-11-10
Filing date: 2016-10-24
Publication date: 2019-08-21
Anticipated expiration: 2036-10-24
Also published as: WO2017082034A1; US20180247019A1; EP3375886A4; JPWO2017082034A1; EP3375886A1

Description

本発明は、細胞間または細胞群間の同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定方法に関する。

妊婦の末梢血中には胎盤から母体静脈に入った胎児細胞が存在していることが知られている。この胎児細胞の染色体や遺伝子を検査することにより、胎児の染色体異常や遺伝子異常の非侵襲的な出生前診断を行うことができる。

妊婦末梢血中の胎児細胞の存在頻度は有核球の頻度として１０^５〜１０^７個に１個程度であること、また、胎児細胞と母親細胞とを外見から区別することは困難であることから、母体血から抽出して得られた胎児由来とされる細胞または細胞群には母親由来の細胞が混入している可能性が高い。そのため、妊婦末梢血中の胎児細胞に基づく出生前診断では、検査対象の細胞が胎児由来であるのかまたは母親由来であるのかを遺伝子情報に基づいて識別することが必要である。

しかし、単一細胞に含まれるＤＮＡ（Deoxyribonucleic Acid；デオキシリボ核酸）は少量である。現在のところ、このような少量ＤＮＡに対するシーケンシング技術およびバイオインフォマティックス技術は発展途上にあり、ＤＮＡ増幅およびシーケンシングによる誤差が大きいため、得られる遺伝子の多型情報に誤りが頻繁に生じてしまう。例えば、ＤＮＡ増幅やシーケンシングの際のエラーのため、アレルドロップアウトやアレルドロップインなどが発生し、存在するはずのアレルが検出されなかったり、存在しないはずのアレルが検出されたりする場合がある。その結果、各細胞が胎児由来であるのかまたは母親由来であるのかを正確に判定することが困難となっている。

一方、特許文献１には、擬父が胎児の実父であるか否かを決定するために擬父の遺伝的測定値および母親の遺伝的測定値と共に妊娠中の母親から採取した血漿に関して取得した遺伝的測定値を使用することを特徴とする非侵襲性出生前親子鑑定法が開示されている。この方法は、擬父と妊婦の末梢血を採取し、血液に含まれるＳＮＰ（Single Nucleotide Polymorphism；一塩基多型）等の遺伝子情報を用いることで鑑定を行う方法である。すなわち、擬父ＤＮＡと母親胎児混合ＤＮＡとから、擬父の実父らしさを推定する方法である。

国際公開第２０１２／０８８４５６号

しかしながら、妊婦末梢血中の胎児細胞に基づく出生前診断では、胎児細胞と母親細胞とを細胞単位で区別する必要があるため、特許文献１に開示された技術をそのまま適用することはできない。

そこで、本発明は、少量ＤＮＡ（Deoxyribonucleic Acid；デオキシリボ核酸）に対する遺伝子解析において、ＤＮＡ増幅およびシーケンシングによる誤差が大きく、得られる遺伝子の多型情報に誤りが頻繁に生じてしまう場合であっても、高精度な、同一人かどうかの判定、他人かどうかの判定、親子かどうかの判定、または血縁関係かどうかの判定を行うことが可能な、複数人に由来する可能性がある細胞または細胞群の、細胞間または細胞群間の同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定方法を提供することを課題とする。

本発明者は、上記課題を解決すべく鋭意検討を重ねた結果、細胞または細胞群の遺伝子多型部位に対する遺伝型データを取得して、予め設定された重み分布で重み付けして、重み付き遺伝型データを取得する工程、および重み付き遺伝型データを用いて、細胞間または細胞群間の同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定をする工程を含み、予め設定された重み分布は、遺伝子多型部位について、測定される見かけの遺伝型と真の遺伝型との対応付けにより設定される、細胞間または細胞群間の同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定方法によれば、少量ＤＮＡ（Deoxyribonucleic Acid；デオキシリボ核酸）に対する遺伝子解析において、ＤＮＡ増幅およびシーケンシングによる誤差が大きく、得られる遺伝子の多型情報に誤りが頻繁に生じてしまう場合であっても、高精度な、同一人かどうかの判定、他人かどうかの判定、親子かどうかの判定、または血縁関係かどうかの判定を行うことが可能であることを知得し、本発明を完成させた。

すなわち、本発明は以下に掲げる［１］〜［９］である。
［１］複数人に由来する可能性がある細胞または細胞群における、細胞間または細胞群間の同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定方法であって、
細胞または細胞群の遺伝子多型部位に対する遺伝型データを取得して、予め設定された重み分布で重み付けして、重み付き遺伝型データを取得する工程、および
重み付き遺伝型データを用いて、細胞間または細胞群間の同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定をする工程を含み、
予め設定された重み分布は、遺伝子多型部位について、測定される見かけの遺伝型と真の遺伝型とを対応付けることにより設定される、
同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定方法。
［２］見かけの遺伝型と真の遺伝型との対応付けは、複数の細胞もしくは多量ＤＮＡを用いる実験および／またはシミュレーションによって推定される、上記［１］に記載の判定方法。
［３］重み付き遺伝型データを用いて細胞間または細胞群間の距離を定義し、細胞間または細胞群間の遺伝的な位置関係を判断して、上記細胞間または細胞群間の同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定をする、上記［１］または［２］に記載の判定方法。
［４］細胞または細胞群が妊婦末梢血から単離した細胞または細胞群である、上記［１］〜［３］のいずれか１つに記載の判定方法。
［５］重み分布を集団における遺伝型頻度を参照して補正する、上記［１］〜［４］のいずれか１つに記載の判定方法。
［６］重み分布を父親および／または母親の確定された遺伝型を参照して補正する、上記［１］〜［４］のいずれか１つに記載の判定方法。
［７］細胞または細胞群が、母親および胎児のいずれか一方に由来する場合において、観測された遺伝型データにＹ染色体の存在を示すデータが存在すれば、細胞または細胞群が胎児に由来すると推定する、上記［１］〜［６］のいずれか１つに記載の判定方法。
［８］距離が尤度または事後確率である、上記［３］に記載の判定方法。
［９］さらに、
Ｎ人に由来する可能性がある細胞群を構成する細胞について、細胞間の距離を算出する工程、および
同一人らしさに応じて細胞のクラスタリングを実施し、最終的なクラスタ数ｋを求め、ｋ＝１である場合に細胞群は同一人に由来する細胞からなると判定し、ｋ≠１かつｋ≦Ｎである場合に細胞群はＮ人中ｋ人に由来する細胞からなると判定し、ｋ≠１かつｋ＞Ｎである場合に細胞群はＮ人以外の人を含むｋ人に由来する細胞からなると判定する工程
を含む、上記［１］〜［７］のいずれか１つに記載の判定方法。
ただし、ここで、Ｎおよびｋは１以上の整数である。

本発明によれば、少量ＤＮＡ（Deoxyribonucleic Acid）に対する遺伝子解析において、ＤＮＡ増幅およびシーケンシングによる誤差が大きく、得られる遺伝子の多型情報に誤りが頻繁に生じてしまう場合であっても、高精度な、同一人かどうかの判定、他人かどうかの判定、親子かどうかの判定、または血縁関係かどうかの判定を行うことが可能な、複数人に由来する可能性がある細胞または細胞群の、細胞間または細胞群間の同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定方法を提供することができる。

図１は、観測された遺伝型データから重み付き遺伝型データを取得する方法を説明する模式図である。図２は、観測された塩基のデプス比（横軸：デプス比）と、観測された塩基が真の遺伝型としてヘテロで存在している条件付き確率（縦軸：条件付き確率）との関係を表すグラフである。図３は、観測された塩基のデプス比（横軸：デプス比）と、観測された塩基が真の遺伝型としてホモで存在している条件付き確率（縦軸：条件付き確率）との関係を表すグラフである。図４は、実施例１で行った階層的クラスタリングを示すデンドログラムである。枝（リネージ）に付した数値はクラスタ間の距離（同一人らしさを表す）である。

まず、本発明の従来技術に比べた特徴的な点について説明する。
特許文献１に記載された発明は、擬父および妊婦末梢血から得られた遺伝子情報を用いて、妊婦懐胎中の胎児の実父が擬父であるか否かを鑑定する方法である。具体的には、特許文献１に記載された発明は、擬父から擬父のＳＮＰ（Single Nucleotide Polymorphism；一塩基多型）等の遺伝子情報を取得し、妊婦末梢血中から妊婦と胎児のＳＮＰ等の遺伝子情報を取得し、（ａ）擬父が胎児の実父である確率を決定し、（ｂ）その確率に基づいて擬父が胎児の実父であるか否かを決定する方法である。しかし、この方法は、単一細胞を対象にしているわけではないため、母親と胎児の細胞が混在する可能性がある状況において、個々の細胞を由来毎に分別することは困難である。

これに対して、本発明は、由来の異なる細胞が混在する可能性がある状況において、ＳＮＰ（Single Nucleotide Polymorphism；一塩基多型）等遺伝子情報を用いて、個々の細胞を由来毎に分別する方法である。より詳細には、本発明は、妊婦末梢血から単離した、母親細胞および胎児細胞が混在している可能性がある細胞群からＳＮＰ等の遺伝子情報を取得し、遺伝子多型部位に対して、遺伝型と出現頻度を検討して各遺伝型に重み付けを行い、遺伝型データに重みづけを行って得られる重み付き遺伝型データを用いて、細胞間または細胞群間の同一人かどうかの判定、他人かどうかの判定、親子かどうかの判定、または血縁関係かどうかの判定を行う点が上記従来技術と相違する。その結果として、本発明は、ＤＮＡ増幅および／またはシーケンシングによる誤差が大きい単一細胞に対しても、高精度な、同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定を行うことが可能である。

以下、本発明の同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定方法について、詳細に説明する。

本発明の同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定方法は、細胞または細胞群の遺伝子多型部位に対する遺伝型データを取得して、予め設定された重み分布で重み付けして、重み付き遺伝型データを取得する工程、および上記重み付き遺伝型データを用いて、細胞間または細胞群間の同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定をする工程を含み、上記予め設定された重み分布は、上記遺伝子多型部位について、測定される見かけの遺伝型と真の遺伝型との対応付けにより設定されることを特徴とする。

<各工程の説明>
以下では、各工程を説明する。

《細胞または細胞群の遺伝子多型部位に対する遺伝型データを取得して、予め設定された重み分布で重み付けして、重み付き遺伝型データを取得する工程》
適宜、図１を参照しながら説明する。
図１に示す例では、遺伝型ＡＡ、Ａａ、ａａのそれぞれにｗ_１、ｗ_２、ｗ_３の重みを付けている。
観測された遺伝型データ（デプス比）を予め設定された重み分布で重み付けして、重み付き遺伝型データ（デプス比）を取得する。図１に示す例では、シーケンスリードから、観測された遺伝型のデプスｄ_１、ｄ_２、ｄ_３を算出し、観測データ行列Ｄとして表し、重み付き遺伝型のデプスｄ’_１、ｄ’_２、ｄ’_３を重み付きデータ行列Ｄ’として表し、Ｄ’を重み付け行列Ｗと観測データ行列Ｄとの積ＷＤとして計算している。

《細胞間または細胞群間の同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定をする工程》
重み付き遺伝型データを用いて、細胞間または細胞群間の同一人かどうかの判定、他人かどうかの判定、親子かどうかの判定、または血縁関係かどうかの判定を行う工程では、重み付き遺伝型データを用いて、細胞間または細胞群間の距離に基づく方法、全細胞をクラスタリングする方法、尤度比の大小による評価を用いる方法などにより、同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定を行うことが例示できる。

細胞間または細胞群間の距離に基づく方法では、重み付き遺伝型データ（デプス比）を用いて細胞間または細胞群間の距離を定義し、距離に基づいて同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定を行う。細胞間または細胞群間の距離は、尤度または事後確率であることが好ましい。
尤度は、ある仮説またはモデルのもとで観察されたデータが生じる確率を意味する。また、ある前提条件に従って結果が出現する場合に、逆に観察結果からみて前提条件が「何々であった」と推測する尤もらしさを表す数値を、「何々」を変数とする関数として捉えたものを尤度関数という。
事後確率は、条件付確率の一種であり、ある証拠（データまたは情報）を考慮に入れた条件で、ある変数について知られている度合を確率として表現する主観確率の一種である。

全細胞をクラスタリングする方法では、データの集まりをデータ間の類似度に基づいて複数の部分集合（クラスタ）に分けることで、同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定を行う。
本発明においては、クラスタリングは、階層的クラスタリングおよび非階層的クラスタリングのいずれを用いてもよい。
階層的クラスタリングでは、個々のデータを１つのクラスタとして設定し、クラスタ間の類似度または非類似度を計算し、最も類似しているクラスタを併合し、すべてのクラスタが１つのクラスタになるまで併合を繰り返す。クラスタ間の類似度または非類似度を求める方法としては、例えば、最も近いデータの距離を２つのクラスタの距離と定義する最近隣法、最も遠くなるデータの距離を２つのクラスタの距離と定義する最遠隣法、２つのクラスタのそれぞれの重心を求めて重心間の距離をクラスタの距離と定義する重心法などが挙げられる。データ間の距離としては、上述した尤度、事後確率などを用いてもよい。
非階層的クラスタリングでは、分割最適化手法とも呼ばれ、分割の状態を表す関数を使い、関数の値が最適解となるように探索を行うことができる。非階層的クラスタリングの方法としては、例えば、クラスタの平均を用い、与えられたクラスタ数ｋ個に分類するｋ−平均法などが挙げられる。

階層的クラスタリングの方法を、より具体的に説明する。例えば、ｎ個のデータＤ_１，Ｄ_２，・・・，Ｄ_ｎがあり、データＤ_ｉとＤ_ｊとの間の類似の度合を表わす数値ｄ_ｉｊ（１，２，・・・，ｎ）が得られているとする。ただし、ｄ_ｉｊは対称的(ｄ_ｉｊ＝ｄ_ｊｉ）であるとする。類似の度合を表わす指標として、距離のように値の小さい方が類似性が高いことを表わす場合と、相関係数のように値の大きい方が類似性が高いことを表わす場合がある。両者を総称して類似度と呼ぶこともあるが、ここでは前者の指標を非類似度、後者の指標を類似度と呼んで区別しておく。以下では、簡単のため、ｄ_ｉｊは非類似度を表わし，値が小さいほど類似性が高いことを表わすものとする。非類似度としては、距離が代表的であり、好ましい。階層的クラスタ分析法は，このような対象間の非類似度（ｄ_ｉｊ）を手がかりにして，樹形図またはデンドログラムと呼ばれる樹状の分類構造を構成することを目標とする分析法である。その樹形図を適当な断面で切ることにより、１〜ｎ個の任意個数のクラスタを得ることができる。このとき、枝の先端に近いところで切断してできる、少数の構成単位からなるクラスタは、その枝のついている、より大きい枝の根もとのところで切断してできる、多数の構成単位からなるクラスタに、そのまま含まれる。すなわち、樹形図のいろいろな断面で切ってできるクラスタは小分類−中分類−・・・−大分類という階層的構造をもっている。
凝集型の階層的クラスタ分析のプロセスは、一般に次のようなステップで構成される。
ステップ１：１つずつの対象を構成単位とするｎ個のクラスタから出発する。
ステップ２：クラスタ間の非類似度行列（ｄ_ｉｊ）を参照して、もっとも類似性の高い２つのクラスタを融合して，１つのクラスタをつくる．
ステップ３：クラスタ数が１になっていれば終了し、そうでなければ、次のステップにすすむ。
ステップ４：ステップ２で新しくつくられたクラスタと、他のクラスタとの非類似度を計算して、非類似度行列（ｄ_ｉｊ）を更新し、ステップ２に戻る。

尤度比の大小による評価を用いる方法では、例えば、対象とする遺伝子多型部位のすべてについて、重み付きデプス比に尤度関数を掛けて当該遺伝子多型部位の各遺伝型の尤度を算出し、束縛ある／なしでの最大尤度を算出し、尤度比を求め、その大小により同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定をすることができる。

本発明においては、重み付き遺伝型データを用いて細胞間または細胞群間の距離を定義し、細胞間または細胞群間の遺伝的な位置関係を判断して、細胞間または細胞群間の同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定をすることが好ましい。
遺伝的な位置関係とは、細胞間の遺伝的なつながりをいい、近縁関係にあるほど近い位置にある。より具体的な例としては、細胞間の距離であり、距離は、尤度または事後確率であることがより好ましい。

<細胞または細胞群>
複数人に由来する可能性がある細胞は特に限定されるものではないが、一細胞の遺伝型解析を行うものが好ましく、例えば、胎児細胞および母親細胞が混合している可能性が高いことから、妊婦末梢血中の有核細胞、特に有核赤血球細胞が挙げられる。妊婦末梢血から単離した細胞または細胞群である場合は、従来の判定方法では、アレルドロップアウト、アレルドロップインの問題は必発であるが、本発明によれば、より正確な判定をすることができる。また、細胞群は、１つ以上の細胞を含む細胞の集合を意味する。

<遺伝子多型部位>
上記遺伝子多型部位は、遺伝子多型が存在する座位を含むものであれば特に限定されない。遺伝子多型としては、特に限定されず、例えば、ＳＮＰ（Single Nucleotide Polymorphism；一塩基多型）、ＳＴＲ（Short Tandem Repeat；縦列型反復配列）、ＣＮＶ（Copy Number Variation；コピー数多様性）などが挙げられる。

本発明の同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定方法においては、上記遺伝子多型部位が一塩基多型部位およびコピー数多型部位のいずれか一方または両方を含むことが好ましく、一塩基多型部位を含むことがより好ましい。一塩基多型は同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定に関連する技術分野で広く利用されており、データの蓄積、解析手法の充実など、本発明を実施する上で有利な点があるからである。

また、本発明の同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定方法においては、遺伝子多型部位が一塩基多型部位であり、かつ、上記重み分布が複数の一塩基多型部位のハプロタイプを考慮して設定されることがより好ましい。ハプロタイプによっては、可能な遺伝型が限定される場合があるからである。

<重み分布>
上記重み分布は、上記遺伝子多型部位について、見かけの遺伝型と真の遺伝型とを対応付けることにより設定がされるものである。この設定は、好ましくは、見かけの遺伝型と真の遺伝型との対応付けは、複数の細胞もしくは多量ＤＮＡを用いる実験および／またはシミュレーションの結果から規定または推定することによって行われる。
以下に例を示しながら説明する。

〈例１〉観察される遺伝型と真の遺伝型との関係を確率を用いて規定する例
あるＳＮＰ（Single Nucleotide Polymorphism；一塩基多型）部位Ｘについて、遺伝型はｐ_１ｑ_１、ｐ_２ｑ_２の２通りの可能性があるものとする。また、精密な実験により、このＳＮＰ部位Ｘでは、真の遺伝型がｐ_１ｑ_１である場合に見かけの遺伝型がｐ_１ｑ_１である確率Ｐ（Ｂ_１｜Ａ_１）＝０．９０、真の遺伝型がｐ_１ｑ_１である場合に見かけの遺伝型がｐ_２ｑ_２である確率Ｐ（Ｂ_２｜Ａ_１）＝０．１０、真の遺伝型がｐ_２ｑ_２である場合に見かけの遺伝型がｐ_２ｑ_２である確率Ｐ（Ｂ_２｜Ａ_２）＝０．７０、真の遺伝型がｐ２ｑ２である場合に見かけの遺伝型がｐ_１ｑ_１である確率Ｐ（Ｂ_１｜Ａ_２）＝０．３０であることが分かっている。ただし、Ａ_１は真の遺伝型がｐ_１ｑ_１である事象、Ａ_２は真の遺伝型がｐ_２ｑ_２である事象、Ｂ_１は見かけの遺伝型がｐ_１ｑ_１である事象、Ｂ_２は見かけの遺伝型がｐ_２ｑ_２である事象とする。また、事前確率Ｐ（Ａ_１）＝Ｐ（Ａ_２）＝０．５０とする。
この条件の下で、見かけの遺伝型がｐ_１ｑ_１である場合に真の遺伝型がｐ_１ｑ_１である確率Ｐ（Ａ_１｜Ｂ_１）、および見かけの遺伝型がｐ_２ｑ_２である場合に真の遺伝型がｐ_２ｑ_２である確率Ｐ（Ａ_２｜Ｂ_２）を求める。
ベイズの定理によりＰ（Ａ_ｉ｜Ｂ_ｊ）＝｛Ｐ（Ａ_ｉ）Ｐ（Ｂ_ｊ｜Ａ_ｉ）｝／｛Σ_ｋＰ（Ａ_ｋ）Ｐ（Ｂ_ｊ｜Ａ_ｋ）｝であるから、次のとおりとなる。
Ｐ（Ａ_１｜Ｂ_１）＝｛Ｐ（Ａ_１）Ｐ（Ｂ_１｜Ａ_１）｝／｛Σ_ｋＰ（Ａ_ｋ）Ｐ（Ｂ_１｜Ａ_ｋ）｝＝（０．５０×０．９０）／（０．５０×０．９０＋０．５０×０．３０）＝０．７５
Ｐ（Ａ_２｜Ｂ_２）＝｛Ｐ（Ａ_２）Ｐ（Ｂ_２｜Ａ_２）｝／｛Σ_ｋＰ（Ａ_ｋ）Ｐ（Ｂ_２｜Ａ_ｋ）｝＝（０．５×０．７）／（０．５×０．１＋０．５×０．７）＝０．８７５
すなわち、見かけの遺伝型がｐ_１ｑ_１である場合に真の遺伝型がｐ_１ｑ_１である確率Ｐ（Ａ_１｜Ｂ_１）＝０．７５、見かけの遺伝型がｐ_２ｑ_２である場合に真の遺伝型がｐ_２ｑ_２である確率Ｐ（Ａ_２｜Ｂ_２）＝０．８７５である。
したがって、見かけの遺伝型がｐ_１ｑ_１，ｐ_２ｑ_２である場合、真の遺伝型と一致する確率は、それぞれ、０．７５、０．８７５である。
Ｐ（Ａ_１｜Ｂ_１）およびＰ（Ａ_２｜Ｂ_２）を重み付けに用いる。

〈例２〉真の遺伝型と見かけの遺伝型との関係をばらつきを用いて規定する例
あるＳＮＰ（Single Nucleotide Polymorphism；一塩基多型）座位Ｙの遺伝型として、ｒ_１ｓ_１、ｒ_１ｓ_２、ｒ_２ｓ_１、ｒ_２ｓ_２の４通りの可能性があるものとする。また、ＳＮＰ座位Ｙの遺伝型として可能性がある各遺伝型に対して得られるデプスを総デプスで正規化して得られるデータを（ｄ_１，ｄ_２，ｄ_３，ｄ_４）とする。ここで、０≦ｄ_１≦１、０≦ｄ_２≦１、０≦ｄ_３≦１、０≦ｄ_４≦１、かつ、ｄ_１＋ｄ_２＋ｄ_３＋ｄ_４＝１を満たす。
真の遺伝型がｒ_１ｓ_１である場合、理想的には（ｄ_１，ｄ_２，ｄ_３，ｄ_４）＝（１，０，０，０）であるが、特に単一細胞解析の場合には、ＡＤＯ（Allelic Drop-out；アレルドロップアウト）、ＡＤＩ（Allelic Drop-in；アレルドロップイン）の影響により、（ｄ_１，ｄ_２，ｄ_３，ｄ_４）＝（０．８，０．０５，０．０５，０．１）のようにばらつきが生じる。
次のようにして、真の遺伝型と（ｄ_１，ｄ_２，ｄ_３，ｄ_４）の分布を推定する。

ｉ）分布の推定方法−実験による推定方法
実験的に（ｄ_１，ｄ_２，ｄ_３，ｄ_４）の分布を推定する。
まず、多量ＤＮＡ（Deoxyribonucleic Acid；デオキシリボ核酸）を用いてＤＮＡ増幅およびシーケンシングを行い、真の遺伝型を確定する。次に、単一細胞を用いてＤＮＡ増幅およびシーケンシング実験を複数回行い、（ｄ_１，ｄ_２，ｄ_３，ｄ_４）と真の遺伝型との分布を推定する。
細胞間、個体間、ＰＣＲ反応の領域間の差はないものと仮定してもよいし、差を考慮してもよい。
ｉｉ）分布の推定方法−シミュレーションによる推定方法
シミュレーションにより（ｄ_１，ｄ_２，ｄ_３，ｄ_４）の分布を推定する。
まず、ＤＮＡ増幅、シーケンシング等のモデルを構築する。次に、遺伝型を仮定し、その際に得られる（ｄ_１，ｄ_２，ｄ_３，ｄ_４）をモンテカルロシミュレーションにより複数取得し、分布を推定する。
モデルを構築する際には、細胞間、個体間、ＰＣＲ反応の領域間等の差はないものと仮定してもよいし、差を考慮してもよい。
ｉｉｉ）分布の推定方法−実験およびシミュレーションによる推定方法
実験およびシミュレーションにより（ｄ_１，ｄ_２，ｄ_３，ｄ_４）の分布を推定する。
まず、上述した実験により分布を推定する方法によってパラメータを推定し、ＤＮＡ増幅、シーケンシング等のモデルを構築する。
次に、遺伝型を仮定し、その際に得られる（ｄ_１，ｄ_２，ｄ_３，ｄ_４）をモンテカルロシミュレーションにより複数取得し、分布を推定する。
このようにして推定された分布を重み付けに用いる。

〈例３〉観察される遺伝型と真の遺伝型との関係をデプスが得られたときの真の遺伝型の条件付き確率を用いて規定する例
図２および図３を参照しながら説明する。
図２は、観測された塩基のデプス比と、その塩基が真の遺伝型としてヘテロで存在している条件付き確率との関係を示すグラフである。
例えば、あるＳＮＰ（Single Nucleotide Polymorphism；一塩基多型）位置Ｚにおいて塩基Ｃがデプス比として０．５が観測された場合、真の遺伝型としてＣがヘテロで存在する条件付き確率は、図２から、約０．０２５である。
また、図３は、観測された塩基のデプス比と、その塩基が真の遺伝型としてホモで存在している条件付き確率との関係を示すグラフである。
例えば、あるＳＮＰ位置において塩基Ｃがデプス比として０．９８が観測された場合、真の遺伝型としてＣがホモで存在する条件付き確率は、図３から、約０．０２である。

〈例４〉実験的な対応付けの例
市販されているゲノムＤＮＡ（Deoxyribonucleic Acid；デオキシリボ核酸）抽出キットを用いて、大量の培養細胞（〜１０^６個程度）に対して、細胞溶解・ゲノム抽出を行う。
得られたゲノムのうち１０ｎｇ程度に対して、所望のＳＮＰ（Single Nucleotide Polymorphism；一塩基多型）を含む領域をＰＣＲ（Polymerase Chain Reaction；ポリメラーゼ連鎖反応）によって増幅し、次世代シーケンサーを用いてシーケンスする。さらに、シーケンサーの出力をリファレンスゲノムに対してBWA（Burrows-Wheeler Aligner）（Bioinformatics, 2009, 25(14): 1754-1760.； Bioinformatics, 2010, 26(5): 589-595.； http://bio-bwa.sourceforge.net/）等のアライメントツール／マッピングツールを用いてアライメント／マッピングし、所望領域のデプス情報を得る。さらに、SAMtools（SAM: Sequence Alignment/Map）（Bioinformatics, 2009, 25(16): 2078-2079；http://github.com/samtools/samtools）を用いて座位毎に数え上げ、デプス情報を取得し、BCFtools（BCF: Binary Call Format）（http://github.com/samtools/bcftools）を用いてＳＮＰコールを行い、大量細胞に対する各ＳＮＰでの遺伝型を決定する。
同様の作業を、単離された単一細胞について１００細胞分ほど実施し、デプスの分布を得る。
得られた各ＳＮＰでの真の遺伝型とデプスの分布を用いて、単一細胞でのデプスと真の遺伝型の対応付けを行う。

〈例５〉シミュレーションによる対応付けの例
増幅モデルの一例を示す。あるＳＮＰ（Single Nucleotide Polymorphism；一塩基多型）位置について、ｒ回目のＰＣＲ（Polymerase Chain Reaction；ポリメラーゼ連鎖反応）後における（Ａ，Ｃ，Ｇ，Ｔ）の割合を（Ａ（ｒ），Ｃ（ｒ），Ｇ（ｒ），Ｔ（ｒ））と書く。この場合、初期値（Ａ（０），Ｃ（０），Ｇ（０），Ｔ（０））は、例えば、Ａホモのとき（２，０，０，０）となり、ＡＣヘテロのとき（１，１，０，０）となる。ここで、ｒは１以上の整数とする。
ｒ＋１回目のＰＣＲでは、ｒ回目のＰＣＲ後の各ＤＮＡ（Deoxyribonucleic Acid；デオキシリボ核酸）断片に対して、変性、アニーリングおよび伸長が行われる。このとき、プライマーがＤＮＡ一本鎖にアニーリングする確率ｐ（０≦ｐ≦１）および正しく塩基合成を行う確率ｑ（０≦ｑ≦１）を考えると、ｒ＋１回目のＰＣＲ後における（Ａ，Ｃ，Ｇ，Ｔ）の割合（Ａ（ｒ＋１），Ｃ（ｒ＋１），Ｇ（ｒ＋１），Ｔ（ｒ＋１））は、以下のとおりである。
Ａ（ｒ＋１）＝Ａ（ｒ）＊ｐ＊ｑ＋Ｃ（ｒ）＊ｐ＊（１−ｑ）／３＋Ｇ（ｒ）＊ｐ＊（１−ｑ）／３＋Ｔ（ｒ）＊ｐ＊（１−ｑ）／３
Ｃ（ｒ＋１）＝Ｃ（ｒ）＊ｐ＊ｑ＋Ａ（ｒ）＊ｐ＊（１−ｑ）／３＋Ｇ（ｒ）＊ｐ＊（１−ｑ）／３＋Ｔ（ｒ）＊ｐ＊（１−ｑ）／３
Ｇ（ｒ＋１）＝Ｇ（ｒ）＊ｐ＊ｑ＋Ａ（ｒ）＊ｐ＊（１−ｑ）／３＋Ｃ（ｒ）＊ｐ＊（１−ｑ）／３＋Ｔ（ｒ）＊ｐ＊（１−ｑ）／３
Ｔ（ｒ＋１）＝Ｔ（ｒ）＊ｐ＊ｑ＋Ａ（ｒ）＊ｐ＊（１−ｑ）／３＋Ｃ（ｒ）＊ｐ＊（１−ｑ）／３＋Ｇ（ｒ）＊ｐ＊（１−ｑ）／３
モデルのパラメータｐおよびｑは、初期値がホモである箇所は多く存在するため、初期値がホモである箇所に対して上記の大量細胞を用いた実験により真の遺伝型とデプスの対応付けを推定し、ＫＳ検定（Kolmogorov-Smirnov test；コルモゴロフ・スミルノフ検定）により最もフィットする値を推定する。得られたｐおよびｑを用いて初期値がヘテロである際の真の塩基型とデプスの対応付けをモンテカルロシミュレーションにより推定する。図２、図３に示すグラフは、それぞれ、初期値がヘテロである場合、初期値がホモである場合の結果例に該当する。

〈重み分布または重み付き遺伝型データの補正〉
《集団における遺伝型頻度を参照した補正》
本発明の同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定方法においては、重み分布を、集団における遺伝型頻度を参照して補正することが好ましい。
集団ごとの遺伝型頻度の偏りを重み付けに取り込むためである。座位および遺伝型によっては、人種、民族間での変動が特に大きい場合がある。

《父親および／または母親の確定された遺伝型を参照した補正》
本発明の同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定方法においては、重み分布を、父親および／または母親の確定された遺伝型を参照して補正することが好ましい。
父親および／または母親の遺伝型から、子の遺伝型が限定される場合があるからである。また、子の見かけの遺伝型データが父親および／または母親の遺伝型から予測される遺伝型データと大きく異なる場合には、コンタミネーションが疑われ、その後の分析を行わないという判断をすることもできる。

《複数の単一細胞データを用いた補正》
本発明の同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定方法においては、重み分布を、複数の単一細胞データを用いて補正することが好ましい。より適切な重み付けを行えるようになることが期待できるからである。

〈Ｙ染色体の存在〉
また、本発明の同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定方法では、好ましくは、複数人に由来する可能性がある細胞または細胞群が母親および胎児のいずれか一方に由来する場合において、観測された遺伝型データにＹ染色体の存在を示すデータが存在すれば、細胞または細胞群が胎児に由来すると推定する。
母親細胞は性染色体としてＸ染色体のみを持つため、Ｙ染色体の存在は、その遺伝型データが得られた細胞が胎児に由来することを示す有力な証拠である。

〈クラスタリング〉
また、本発明の同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定方法は、さらに、Ｎ人に由来する可能性がある細胞群を構成する細胞について、上記細胞間の距離を算出する工程、および、同一人らしさに応じて上記細胞のクラスタリングを実施し、最終的なクラスタ数ｋを求め、ｋ＝１である場合に上記細胞群は同一人に由来する細胞からなると判定し、ｋ≠１かつｋ≦Ｎである場合に上記細胞群はＮ人中ｋ人に由来する細胞からなると判定し、ｋ≠１かつｋ＞Ｎである場合に上記細胞群はＮ人以外の人を含むｋ人に由来する細胞からなると判定する工程を含むことが好ましい。ただし、ここで、Ｎおよびｋは１以上の整数である。
クラスタリングの方法は、上述したものを用いることができる。

［実施例１］
（被験者）
家系Ｃ、ＤおよびＥの３家系を対象とした。家系Ｃからは、息子（シンボル：Ｃｓｏｎ）および母（シンボル：Ｃｍｏｍ）の２人を、家系Ｄからは、姉（シンボル：Ｄｓｉｓ１）、妹（シンボル：Ｄｓｉｓ２）および母（シンボル：Ｄｍｏｍ）の３人を、家系Ｅからは息子（シンボル：Ｅｓｏｎ）、母（シンボル：Ｅｍｏｍ）および父（シンボル：Ｅｄａｄ）の３人を、被験者として選んだ。
（実験方法）
１３番染色体、１８番染色体、２１番染色体およびＸ染色体上のＳＮＰ（Single Nucleotide Polymorphism；一塩基多型）を解析した。得られた重み付き遺伝型データを用いて、階層的クラスタリングを行った。得られたデンドログラムを図４に示す。枝（リネージ）に付した数値はクラスタ間の距離を表す。距離が小さいほど、同一人らしさが大きくなる。
（結果・考察）
同一人＜親子＜血縁関係（親子以外の血縁関係）＜他人（血縁関係が無い他人）の順に距離が大きくなっている。
Ｘ染色体を見ているため、家系Ｅの父（シンボル：Ｅｄａｄ）は家系Ｅの息子（シンボル：Ｅｓｏｎ）および母（シンボル：Ｅｍｏｍ）と離れている。

本発明は、特に、出生前診断における母子判別、親子判別または血縁関係判別のために有用である。

Claims

妊婦末梢血から単離された２つの細胞が同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかを判定する判定方法であって、
前記２つの細胞それぞれの１以上の遺伝子多型部位を含む領域をＤＮＡ増幅及びシーケンスすることにより、各遺伝子多型部位の遺伝型データを取得し、前記遺伝型データに予め設定された重み分布で重み付けして、重み付き遺伝型データを取得する工程、および
前記重み付き遺伝型データを用いて、細胞間の距離を定義し、前記細胞間の遺伝的な位置関係を判断して、前記２つの細胞が同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかを判定する工程を含み、
前記予め設定された重み分布は、前記各遺伝子多型部位について、測定される見かけの遺伝型と真の遺伝型との対応付けにより設定され、
前記真の遺伝型は、多量ＤＮＡを用いて前記ＤＮＡ増幅およびシーケンシングを行い、観察される遺伝型であり、
前記見かけの遺伝型とは、単一細胞から抽出されたＤＮＡを用いて前記ＤＮＡ増幅およびシーケンシングを行い、観察される遺伝型である、
判定方法。
前記見かけの遺伝型と真の遺伝型との対応付けは、
大量の細胞から抽出した前記多量のＤＮＡを用いた前記ＤＮＡ増幅及シーケンシングにより前記真の遺伝型を確定し、
前記各遺伝子多型部位について、単一細胞から抽出したＤＮＡを用いて前記ＤＮＡ増幅及びシーケンシングを行うことにより取得される、前記見かけの遺伝型及び前記見かけの遺伝型のデプスの分布に基づいて推定される、請求項１に記載の判定方法。
前記見かけの遺伝型と真の遺伝型との対応付けは、
前記各遺伝子多型部位において、ｒ回目のＰＣＲ後における塩基（Ａ,Ｃ,Ｇ,Ｔ）の割合を（Ａ（ｒ）,Ｃ（ｒ）,Ｇ（ｒ）,Ｔ（ｒ））とし、プライマーがＤＮＡ一本鎖にアニーリングする確率ｐ（０≦ｐ≦１）、正しく塩基合成を行う確率ｑ（０≦ｑ≦１）をパラメータとして、ｒ＋１回目のＰＣＲ後における塩基（Ａ,Ｃ,Ｇ,Ｔ）の割合（Ａ（ｒ＋１）,Ｃ（ｒ＋１）,Ｇ（ｒ＋１）,Ｔ（ｒ＋１））を示すＤＮＡ増幅モデルを構築し、
初期値の前記遺伝子多型部位がホモ接合体である箇所については、大量の細胞から抽出した前記多量のＤＮＡを用いた前記ＤＮＡ増幅及びシーケンシングにより前記真の遺伝型を確定し、単一細胞から抽出したＤＮＡを用いて前記ＤＮＡ増幅及びシーケンシングを行うことにより取得される、前記見かけの遺伝型と、前記見かけの遺伝型のデプスの分布、及び、コルモゴロフ・スミルノフ検定により前記パラメータｐ及びｑを推定し、
初期値の前記遺伝子多型部位がヘテロ接合体である箇所については、推定された前記パラメータｐ及びｑを用いて、前記見かけの遺伝型のデプスの分布をモンテカルロシミュレーションにより推定する
請求項１に記載の判定方法。
前記遺伝型データは、前記ＤＮＡ増幅及びシーケンシングの結果、前記各遺伝子多型部位において検出される遺伝子型、及びそのデプスの分布である請求項１〜３のいずれか１項に記載の判定方法。
前記重み分布を集団における遺伝型頻度を参照して補正する、請求項１〜４のいずれか１項に記載の判定方法。
前記重み分布を父親および／または母親の確定された遺伝型を参照して補正する、請求項１〜４のいずれか１項に記載の判定方法。
前記細胞が、母親および胎児のいずれか一方に由来する場合において、観測された前記遺伝型データにＹ染色体の存在を示すデータが存在すれば、前記遺伝型データを持つ前記細胞は胎児に由来すると推定する、請求項１〜６のいずれか１項に記載の判定方法。
前記距離が尤度または事後確率である、請求項１〜７のいずれか１項に記載の判定方法。