本発明の実施の形態について説明する。以下の実施形態は、本発明を説明するための例示であり、本発明をこの実施形態にのみ限定する趣旨ではない。本発明は、その要旨を逸脱しない限り、様々な形態で実施することができる。
本実施形態において、自律神経失調症とは、頭痛、動悸、だるさなど自律神経のバランスの崩れによって生じる症状をいう。
また、本実施形態において、本疾患は、一般には、本疾患に関する医学会の公表するガイドラインに沿って診断される疾患、医療用医薬品の添付文書において、効能・効果の欄に記載される疾患、あるいは、医薬・医療業界において汎用される用語として理解される疾患の少なくともいずれかを意味するものと解することができる。
本実施形態の方法においては、一見すると本疾患との関連性がないと認められる所定数の一塩基多型セットを用いて、本疾患のリスクを判定する。
本疾患のリスクとは、本疾患の罹りやすさや罹りにくさなどの本疾患に罹る可能性をいう。「リスクを判定する」とは、例えば、現在または将来において本疾患に罹る可能性をいくつかのレベルに分けて出力することや、数値により出力することを含む。本疾患のリスクの判定には、疾患に罹りやすい傾向にあるのか、罹りにくい傾向にあるのかといった、疾患に対する遺伝的要因あるいは遺伝的感受性についての評価が含まれる。
なお、本疾患のリスクを判定するにあたっては、本疾患のリスクの判定を受ける対象者が、本疾患のリスクの判定時において、実際に本疾患に罹患しているか(発症しているか)否かは問わない。
本実施形態の方法では、本SNPセットで特定される各SNPの遺伝子型を2つのホモ接合型(AA,BB)と、ヘテロ接合型(AB)に分類した遺伝子型のセットである、本SNPセットの遺伝子型情報を用いる。そして、本SNPセットの遺伝子型情報に基づいて、対象者の本疾患のリスクを判定する。
本実施形態の方法で用いる本SNPセットは、本疾患との関連性が従来認められていなかったSNPを含むセットである。すなわち、通常は、本SNPセットに含まれるSNPを個別に分析したとしても、本疾患のリスクを判定することはできない。しかしながら、本実施形態の方法では、本SNPセットに含まれる各SNPの遺伝子型情報を一まとまりのセットとして分析することにより、本疾患のリスクを判定することができる。また、本SNPセットを分析した場合と、比較SNPセットを分析した場合とを比較すると、本SNPセットを分析した場合の方が統計的に有意な結果が得られている。すなわち、本実施形態の方法において、本SNPセットを分析して本疾患のリスクを判定することで、高精度が高い、あるいは予測能力が高いリスクの判定方法を提供することができる。
以下、本SNPセットに含まれる各SNPに関連して、rs番号と、各SNPが存在する染色体番号(性染色体の場合には、XかYで示す)と、各SNPの染色体上の位置と、rs番号に対応する塩基配列と、を列記する。なお、各rs番号で示される塩基配列中において、SNPは[]で囲って示す。例えば、[A/G]と表記した場合には、その塩基配列の位置においてA又はGの一塩基多型があることを示す。また、各SNPに関する塩基配列や疾患などの情報は、例えば、rs番号に基づいてNCBI SNP Databaseを検索することで得られる。それらの情報は当該Databaseにより参照可能であり、また、本明細書で援用する。なお、以下に記す染色体上の位置は、assembly genomeのバージョンGRCh37に対応するものである。
rs5945326
染色体番号 X
染色体上の位置 152899922
塩基配列 ATTCCTTCCCTCCTGGGGTCTACAC[A/G]CATTGCTACGGCCCCATCCCAGAGC(配列番号1)
rs7524102
染色体番号 1
染色体上の位置 22698447
塩基配列 AATCACAGGAGAAATTTGAGATGCA[A/G]GGCCAAACCAAAAAGCCCACCAAGG(配列番号2)
rs11066280
染色体番号 12
染色体上の位置 112817783
塩基配列 AGAGGTTCTTTCCTTTGAAAACCAT[A/T]CTTCTGTGGAAATAGCTGACAAATT(配列番号3)
rs4722404
染色体番号 7
染色体上の位置 3128789
塩基配列 ACCACTAACTGAGTAGAGTTCAAGC[T/C]GGGGCAAGTCACTTGACCTCAATTT(配列番号4)
rs12688220
染色体番号 X
染色体上の位置 106244767
塩基配列 ATGTCCTTTGAGCATCATTTTTTAC[T/C]CCCATTGGGTGCTTTACATTTGTCT(配列番号5)
rs1934179
染色体番号 X
染色体上の位置 50182184
塩基配列 TGTATTTCTTCCAATAGTGACTGGC[T/C]TTTAGGAGCCAATTGATAGAAAAAT(配列番号6)
本実施形態の方法において、本SNPセットを構成する各SNPはrs番号により特定される塩基配列を参照することによって特定可能であるが、本明細書において記載するrs番号が他のrs番号と併合され、新たなrs番号が付与された場合には、本明細書において該当するrs番号は、併合後のrs番号及び併合される他のrs番号をも意味する。また、本明細書において記載するrs番号が複数のrs番号の併合により付与された番号である場合には、本明細書において該当するrs番号は、その他の元となるrs番号をも意味する。
また、SNPに関する各rs番号で示される上記塩基配列は、特定の塩基配列として示しているが、人種の相違等によって、当該塩基配列において該当するSNP以外の部分における塩基配列は変更されてもよい。
本実施形態の方法は、いずれの人種の被検者に対しても用いることができるが、特に、アジア人に好適に用いることができる。アジア人の中でも日本人等の東アジア人の被検者により好適に用いることができる。また、本実施形態の方法は、いずれの性別の被検者に対しても用いてもよい。
以下、本SNPセットの遺伝子型情報を分析することにより本疾患のリスクを判定する方法の一態様について説明する。但し、判定方法は、以下に限定されない。
はじめに、対象者の試料を用いて、試料中の本SNPセットに含まれる各SNPの遺伝子型を特定する。SNPの検出に用いる試料としては、染色体DNAを含む試料であれば特に制限されない。このような試料としては、例えば、唾液、血液、尿等の体液サンプル;口腔粘膜などの細胞サンプル;毛髪等の体毛などが挙げられる。SNPの検出には、これらの試料から常法により単離した染色体DNAを直接使用してもよいし、単離した染色体DNAを増幅して、増幅後の染色体DNAを使用してもよい。
SNPの検出は、通常の遺伝子多型解析方法によって行うことができる。例えば、DNAチップ法(DNAマイクロアレイ)、サンガー法を用いた従来型のシーケンサーや次世代シーケンサー(NGS;Next Generation Sequencer)などを用いたシーケンス解析、PCR(Polymerase Chain Reaction)、ハイブリダイゼーション、インベーダー法などが挙げられるが、これらに限定されない。
DNAチップ法では、SNP部位を含む多数のDNA断片(プローブ)を基板上に配置したDNAチップを用い、染色体DNAをチップ上のプローブとハイブリダイズさせて、結合部位を蛍光又は電流により検出することにより、染色体DNAの配列を解析する。SNP解析に用いられるDNAチップとしては、SNP部位を含む塩基配列を検出可能なオリゴヌクレオチドプローブが配置されたチップが挙げられる。
また、シーケンス解析は通常のサンガー法により行うことができる。例えば、多型を示す塩基の5'側の数十塩基の位置に設定したプライマーを使用してシーケンス反応を行い、その解析結果から、該当する位置がどの種類の塩基であるかを決定することができる。なお、シーケンス反応の前に、あらかじめSNP部位を含む断片をPCRなどによって増幅しておくことが好ましい。効率の観点からはNGS技術を使用してもよい。
また、SNPの検出は、例えば従来のPCRによる増幅の有無を調べることによって行うことができる。例えば、多型を示す塩基を含む領域に対応する配列を有し、かつ、3'末端が各多型に対応するプライマーをそれぞれ用意する。それぞれのプライマーを使用してPCRを行い、増幅産物の有無によってどのタイプの多型であるかを決定することができる。また、LAMP法(Loop−Mediated Isothermal Amplification;特許第3313358号明細書)、NASBA法(Nucleic Acid Sequence−Based Amplification;特許2843586号明細書)、ICAN法(Isothermal and Chimeric primer−initiated Amplification of Nucleic acids;特許第3433929号公報)などによって増幅の有無を調べることもできる。その他、単鎖増幅法やNGSを用いた解析法を用いてもよい。
また、SNP部位を含むDNA断片を増幅し、増幅産物の電気泳動における移動度の違いによってどのタイプの多型であるかを決定することもできる。このような方法としては、例えば、PCR−SSCP(single−strand conformation polymorphism)法(Genomics. 1992 Jan 1;12(1):139−146.)などが挙げられる。具体的には、まず、目的のSNPを含むDNAを増幅し、増幅したDNAを一本鎖DNAに解離させる。次いで、解離させた一本鎖DNAを非変性ゲル上で分離し、分離した一本鎖DNAのゲル上での移動度の違いによってどのタイプの多型であるかを決定することができる。
さらに、多型を示す塩基が制限酵素認識配列に含まれる場合は、制限酵素による切断の有無によって解析することもできる(RFLP(Restriction Fragment Length Polymorphism)法)。この場合、まず、DNA試料を制限酵素により切断する。次いで、DNA断片を分離し、検出されたDNA断片の大きさによってどのタイプの多型であるかを決定することができる。
また、ハイブリダイゼーションの有無を調べることによって多型の種類を解析することも可能である。すなわち、各塩基に対応するプローブを用意し、いずれのプローブにハイブリダイズするかを調べることによってSNPがいずれの塩基であるかを調べることもできる。
このようにして、本SNPセットの各SNPに関して、対象者の遺伝子型データを決定することができる。なおここで、「対象者の遺伝子型データ」とは、対象者の有する遺伝子型情報をいう。
次いで、本SNPセットの遺伝子型情報に基づいて、本疾患のリスクを判定する。リスクの判定には、任意のモデルを用いることができる。モデルとしては、特に制限されないが、例えば、本SNPセットの遺伝子型情報を用いて、対象者の遺伝子型データから算出される特徴量を入力とし、本疾患のリスクを出力とするロジスティック回帰モデルを用いることができる。当該ロジスティック回帰モデルは、予め、本疾患に罹患したヒトの遺伝子型データと、本疾患に罹患していないヒトの遺伝子型データと、を学習データとして用いてパラメータを機械学習している。
また、疾患のリスクを判定するモデルとしては、ロジスティック回帰モデルに代えて、多層パーセプトロン、CNN(Convolutional Neural Network)及びRNN(Recurrent Neural Network)などのニューラルネットワーク、ガウシアンカーネル等の任意のカーネル関数を用いるサポートベクターマシーン、回帰木としてモデル化したランダムフォレスト、重回帰分析、隠れマルコフモデルなどを利用したモデル、統計モデルや確率モデルなど種々の他のモデルを採用することもできる。また、種々のモデルを組み合わせて総合的な判定を行うモデルを採用することもできる。
次いで、モデルを用いた本疾患のリスク判定の一例について説明する。まず、本疾患のリスクの判定をする対象者の遺伝子型データを、モデルに入力可能な特徴量に変換する。本実施形態の方法における特徴量は、例えば、本SNPセットの各SNPについて、対象者の遺伝子型データがホモ接合型(AA)、ホモ接合型(BB)、又はヘテロ接合型(AB)のいずれであるかを示すパラメータである。遺伝子型は、相同染色体のSNPが共にG(グアニン)であることを示す“GG”や、一方がG(グアニン)で、他方がA(アデニン)であることを示す“AG”などヌクレオチドにより表記されることが一般的であるため、対象者の遺伝子型データを、本SNPセットの遺伝子型情報を用いるモデルに入力可能なパラメータに変換する。しかし、モデルが、このようなパラメータへの変換の必要がないものである場合には、上記変換は必要とされない。
対象者の遺伝子型データの特徴量への変換は、例えば、本SNPセットに含まれるSNP1つ1つに関して、対象者の遺伝子型データに値を付すことにより行うことができる。例えば、各SNPについて、対象者の遺伝子型データがホモ接合型(AA)、ホモ接合型(BB)、又はヘテロ接合型(AB)のいずれに該当するのかに応じて、そのSNPに値(例えば、0又は1)を対応づける。これにより、対象者の遺伝子型データを特徴量に変換することができる。なお、以下では、各SNPに対応させる値を0又は1とした場合を例に説明するが、SNPに対応させる値は0又は1の2つの値に限られるものではない。
接合型に対応づける値はSNPごとに決めることができる。例えば、あるSNPは、対象者の遺伝子型データがホモ接合型(AA)である場合に値1を対応付け、ホモ接合型(BB)及びヘテロ接合型(AB)である場合に値0を対応付けるようにし、他のSNPは、対象者の遺伝子型データがヘテロ接合型(AB)である場合に値1を対応付け、ホモ接合型(AA)及びホモ接合型(BB)である場合に値0を対応付けるようにしてもよい。そのほか、対象者の遺伝子型データがヘテロ接合型(AB)及びホモ接合型(BB)である場合に値1を対応付け、ホモ接合型(AA)である場合に値0を対応付けるようにしてもよい。
上記のように、対象者の遺伝子型データを特徴量に変換することができる。この特徴量への変換において対応付けに使用する値は、任意に決定することができる。例えば、上記非特許文献に基づいて、もともと各SNPが関連する疾患に関係の高い遺伝子型に対して値1を対応付けるようにし、かつ、各SNPが関連する疾患に関係の低い遺伝子型に対して値0を対応付けるようにすることができる。
このような、SNPごとの接合型とその接合型に対応付ける値の関係は、図1のような本SNPセットの遺伝子型情報をもとに、例えば、図2のような変換テーブルとして表すこともできる。図2の変換テーブルでは、網掛けをした遺伝子型と一致する場合にはそのSNPに対応付ける値を1とし、一致しない場合には対応付ける値を0とする。なお、図1及び2の具体的な遺伝子型の表記において、Aはアデニン、Gはグアニン、Cはシトシン、Tはチミンを示す。但し、特徴量の変換テーブルの形式は、図2に限定されるものではない。
最後に、本SNPセットの遺伝子型情報に基づいて、対象者の本疾患のリスクを判定する。より具体的には、本SNPセットの遺伝子型情報に基づく変換テーブルを用いて、対象者の遺伝子型データを、モデルに入力可能に変換した特徴量として算出し、当該特徴量を所定の判定モデルに入力し、対象者の本疾患のリスクを判定することができる。
判定モデルにおいて、特徴量には、本SNPセットのSNPごとに、本疾患のリスクと正の相関があることを表す重みづけや、本疾患のリスクと負の相関があることを表す重みづけをすることができる。例えば、rs1934179及びrs7524102に対応付けた値(特徴量)ついては、本疾患のリスクと正の相関があることを表す重みづけを行い、rs11066280及びrs4722404に対応付けた値(特徴量)ついては、本疾患のリスクと負の相関があることを表す重みづけを行い、rs12688220及びrs5945326に対応付けた値(特徴量)ついては、本疾患のリスクと正の相関又は負の相関があることを表す重みづけを行うことができる。
例えば、特徴量に対して重みづけを行う場合には、rs1934179の遺伝子型がTC、rs7524102の遺伝子型がAA、rs12688220の遺伝子型がTC、及びrs5945326の遺伝子型がAGである場合に、本疾患のリスクと正の相関があることを表す重みづけを行い、rs12688220の遺伝子型がCC、rs11066280の遺伝子型がTT、rs5945326の遺伝子型がGG、及びrs4722404の遺伝子型がTCである場合に、本疾患のリスクと負の相関があることを表す重みづけを行うことができる。また、特徴量として値0を対応付けた各SNPの遺伝子型の場合には、本疾患のリスクと相関がない或いは無視しうる程度に低いものと評価することができる。
このような、本疾患のリスクとの相関を表す重みづけは、本疾患に罹患したヒトの遺伝子型データと、本疾患に罹患していないヒトの遺伝子型データと、を学習データとして用いてパラメータを機械学習することにより特定される。この際、あるモデルにおいて、あるSNPが本疾患のリスクと正の相関があることを表す重み付けがなされるとした場合、他のモデルにおいても同様にそのSNPは本疾患のリスクと正の相関があることを表す重み付けがなされることが通常である。すなわち、モデルの種類等によって、あるSNPにおいて本疾患のリスクとの相関関係が逆になるような事態は想定し難い。なお、重みづけの具体的な値はモデルによって異なり、特に制限されるものではない。
ここで、本SNPセットのなかで本疾患のリスクと正の相関があることを表す重みづけを行うSNPのまとまりを「正相関SNPセット」といい、本疾患のリスクと負の相関があることを表す重みづけを行うSNPのまとまりを「負相関SNPセット」という。本SNPセットは、正相関SNPセットと負相関SNPセットとを含むものであり、このような本SNPセットの遺伝子型情報に基づくことにより、対象者の本疾患のリスクを、リスクが上昇する要因とリスクが低下する要因の両面を総合して判定することができる。
上記のようにして得られる判定結果は、本疾患の専門医が本疾患を診断する際の補助としても用いられる。また、上記のようにして判定した本疾患のリスクと、対象者からのアンケート結果とに基づいて、本疾患のリスクの判定結果は補正されしてもよい。また、本疾患のリスクと、対象者からのアンケート結果とに基づいて、対象者に対して、生活改善に関するアドバイスを出力してもよい。
本発明は、プライマーやプローブなどの検査試薬を提供することもできる。このようなプローブとしては、上記SNP部位を含み、ハイブリダイズの有無によってSNP部位の塩基の種類を判定できるプローブが挙げられる。また、プライマーとしては、上記SNP部位を増幅するためのPCRに用いることのできるプライマー、又は上記SNP部位をシーケンス解析するために用いることのできるプライマーが挙げられる。本実施形態の検査試薬はこれらのプライマーやプローブに加えて、PCR用のポリメラーゼやバッファー、ハイブリダイゼーション用試薬などを含むものであってもよい。
以下、本実施形態を実施例によりさらに具体的に説明する。但し、本実施形態はこれらの実施例に限定されない。
本SNPセットと本疾患との関連性を、以下のように検証した。
遺伝子解析サービスの利用者7万3千人以上から、利用者の同意のもと、唾液試料と、各種疾患の罹患情報を収集した。罹患情報とは、例えば、本疾患に罹患している場合に1、罹患していない場合に0となる数値である。唾液試料から、利用者ごとの遺伝子型データを特定し、利用者の遺伝子型データと各種罹患情報とを対応付けたデータベースを構築した。このデータベースの中から、本疾患に罹患している被検者1139名と、罹患していないコントロール1139名との症例対照セットを構築した。
次いで、被検者及びコントロールの本SNPセットの各SNPの遺伝子型を、2つのホモ接合型(AA,BB)と、ヘテロ接合型(AB)に分類した。そして、遺伝子型が図2に示す網掛けをした変換テーブルの遺伝子型と一致する場合には、x
iの値を1とし、一致しない場合には0として、x
1〜x
Nを以下の数式(1)で表されるロジスティック回帰モデルの説明変数とした。例えば、rs7524102の場合は、遺伝子型が“AA”であるときにx
1の値を1とし、遺伝子型が“AG”又は“GG”であるときにはx
1の値を0とした。なお、本実施例ではN=8である。また、以下の数式で表されるロジスティック回帰モデルの目的変数は、本疾患に罹患している確率を表す0から1の間の値p(罹患情報)とした。
α=0.1
1.AUCによるモデルの検証
本SNPセットを用いた判定方法の精度について説明する。上記データベースから、テスト用に、利用者の遺伝子型情報と罹患情報とを対応付けたデータセットを作成した。データセットにおける各利用者の本SNPセットの各SNPの遺伝子型を、ホモ接合型(AA,BB)と、ヘテロ接合型(AB)に分類し、分類した各遺伝子型が図2に示す網掛けをした遺伝子型と一致する場合には、xiの値を1と評価し、一致しない場合には0と評価して、x1〜xNを特徴量として算出した。
利用者毎の本SNPセットに関する特徴量を上記ロジスティック回帰モデル(以下、「判定モデル」ともいう。)に入力し、各利用者が本疾患に罹患しているか否かを予測し、その偽陽性率と真陽性率を算出し、ROC(Receiver Operating Characteristic)曲線とAUC(Area Under the Curve)をそれぞれ求めた。より具体的には、判定モデルについて5分割交差検証を行い、5つのROC曲線(ROC fold 1からROC fold 5)を求めて、その平均(Mean ROC)と標準偏差(±1std. dev.)を求めた。図3中の破線(Luck)は、本疾患に罹患しているか否かをランダムに出力する場合であり、予測能力が無いモデルのROC曲線に対応している。
また、同様にして、本SNPセットから1つのSNPを除いた各比較SNPセットに対して、上記と同様にそれぞれロジスティック回帰モデル(以下、「比較判定モデル」ともいう。)を作成した。そして、各比較SNP関する特徴量を各比較判定モデルに入力し、各利用者が本疾患に罹患しているか否かを予測し、偽陽性率と真陽性率を算出し、ROC曲線とAUCをそれぞれ求めた。その結果を図4以降に示す。
本SNPセットを用いて本疾患を判定した場合、AUCは0.72±0.02であり、ランダムな出力の場合(AUC=0.5)と比べて有意に高く、本SNPセットを用いる判定モデルの予測能力が高いことが確認できる。
一方、各比較SNPセットを用いる比較判定モデルの場合、AUCは本SNPセットを用いる場合よりも低い。従って、各比較SNPセットを用いる比較判定モデルのAUCは、ランダムな出力の場合(AUC=0.5)よりも高いものの、本SNPセットを用いる判定モデルのAUC(0.72±0.02)よりも総じて低いことが確認できる。
よって、本SNPセットに含まれるSNP全てを用いて判定することで、本SNPセットから1つのSNPを除いた各比較SNPセットを用いる場合よりも、本疾患に罹患しているか否かを高精度で予測できることが分かった。
2.ウィルコクソンの順位和検定による検証
本SNPセットを用いる判定モデルが、各比較SNPセットを用いる比較判定モデルよりも有意に優れたモデルであることを確かめるために、ノンパラメトリック検定の一種であるウィルコクソンの順位和検定を行った。具体的には、本SNPセットを用いる判定モデルのAUCと、各比較SNPセットを用いる比較判定モデルのAUCとに差が無いという帰無仮説を設定し、有意水準を0.01としてウィルコクソンの順位和検定を行った。
その結果、p値はいずれも3.96×10-18であり、帰無仮説が棄却されることが確認された。すなわち、本SNPセットを用いる判定モデルのAUCと、各比較SNPセットを用いる比較判定モデルのAUCとは、統計的に有意な差があり、本SNPセットを用いる判定モデルは、各比較SNPセットを用いる比較判定モデルよりも優れたモデルであるといえる。
上記のとおり、本実施形態の方法は、本疾患に罹患しているか否かを予測する精度が、ランダムな予測の場合の精度よりも有意に高いという効果を有する。また、本実施形態の方法は、本SNPセットの遺伝子型情報に基づく本疾患の判定の結果と、比較SNPセットの遺伝子型情報に基づく本疾患の判定の結果との間に、有意な差があるという効果を有する。当該効果は、本SNPセットの遺伝子型情報と本疾患の間に、これまで見出されていなかった潜在的な相関性があることに基づくものであると考えられる。上記で例示したロジスティック回帰モデルやその他のモデルは、本SNPセットの遺伝子型情報を前提として、本疾患に罹患したヒトと本疾患に罹患していないヒトの遺伝子型に関するデータと罹患情報を学習データとして用いてパラメータを機械学習することなどにより得られるものである。すなわち、いずれのモデルも上記潜在的な相関性を表す一つの表現型に過ぎず、本実施形態の方法の実施において使用されるモデルの種類は特に限定されるものではない。