JP2006519440A

JP2006519440A - 疾患の増大リスクの統計学的同定法

Info

Publication number: JP2006519440A
Application number: JP2006503583A
Authority: JP
Inventors: デイビッドラルフ; クリストファーアストン
Original assignee: Oklahoma Medical Research Foundation
Current assignee: Oklahoma Medical Research Foundation
Priority date: 2003-02-14
Filing date: 2004-02-13
Publication date: 2006-08-24
Also published as: US20050021236A1; CA2515783A1; WO2004075010A2; WO2004075010A3; AU2004214480A1; EP1593084A4; EP1593084A2

Abstract

疾患に関する増大リスクを統計学的に同定するための方法およびコンピュータ読み取り可能媒体が開示される。一つの態様において、リサンプリング技術を用いて、症例／対照データセットのリサンプリングサブセット内における異なる遺伝子型組み合わせについて検討する。特定の遺伝子型組み合わせに関連する疾患の増大リスクが同定され得るように、各遺伝子型組み合わせについてオッズ比および理論的p値が算出される。もう一つの態様において、症例／対照データセット内の異なる遺伝子型組み合わせが検討される。各遺伝子型組み合わせについて、オッズ比が算出される。無作為化技術を通して、オッズ比に対して経験的p値が算出される。オッズ比および／または経験的p値を用いて、特定の遺伝子型組み合わせに関連する疾患の増大リスクが同定され得る。

Description

1. 発明の分野
本発明は、一般にライフサイエンスにおける統計学的方法検索アプリケーションに関する。特に、本発明は、限定されるものではないが、一つもしくはいくつかの特定の遺伝子型の組み合わせまたはその他の暴露因子に関連する乳癌などの疾患における増大リスクを統計学的に同定するためのバイオインフォマティックス技術に関する。なお、本出願は、2003年2月14日に出願されて参照として本明細書に組み入れられる米国特許仮出願第60/447,600号に対する優先権を主張するものである。

2. 背景
癌患者にとって、早期の診断および治療はよりよい転帰のために重要である。2001年に米国では125万人が癌と診断されていると予測される。悲惨にも、2001年に550,000人を越える人々が癌で死亡していると予測される。往々にして、癌患者の生死の差は、癌が最初に検出および治療される癌のステージによって決定される。腫瘍が比較的小さくて限定的な段階で検出される患者では、転帰は通常極めて良好である。逆に、患者の癌がその原発臓器から全身の遠位部位に拡散している場合、患者の予後は治療に関わらず極めて不良である。問題は、小さくて限定的な腫瘍は、通常、症状を惹起しないという点である。従って、これらの早期段階の癌を検出するためには、疾病症状を発症していない人々をスクリーニングまたは検査する必要がある。このような一見健常なヒトの場合、癌は実際のところ非常に稀である。従って、少数の癌を検出するために多くのヒトをスクリーニングしなければならない。その結果、癌スクリーニング検査は、単位保健医療支出当たりの検出される癌の数という観点で見ると、実施は相対的に割高である。

癌スクリーニングにおける関連する問題は、完全に正確なスクリーニング試験はないという現実に由来する。すべての試験が、ある程度は、偽陽性（癌が存在しない場合に癌があることを示す）または偽陰性（実際には腫瘍が存在する場合に癌がないことを示す）の結果をもたらす。偽陽性の癌スクリーニング検査結果は、癌が実際に存在することを確認するために患者は一般に生検を含むフォローアップ検査を受けなければならないことから、このような結果は不要な保健医療費を生じる。偽陽性結果の各々について、このようなフォローアップ検査の費用は一般に元々の癌スクリーニング検査費用の何倍にもなる。さらに、偽陽性スクリーニング検査結果に関連して、患者の不快、不安および生産性低下から生じる無形または間接的費用がある。偽陰性結果にも関連する費用がある。当然、偽陰性結果によって、患者は治療遅延により癌で死亡するリスクが増大する。この影響を阻止するためには、患者が癌に関して繰り返しスクリーニングを受ける頻度を高めることが合理的であろう。しかし、これはスクリーニングの直接的コストおよびさらなる偽陽性結果に起因する間接的コストが増大することになる。現実的には、癌スクリーニング検査を勧めるかどうかの判断は、病気を持たない大規模集団にスクリーニング検査を実施するコストと偽陽性結果の関連コストに対して早期の検出および治療の利点を重み付けする費用-便益分析次第である。

癌スクリーニングの有効性および経済的効果を高めるための一般的方法は、個人の癌のリスクを層別化して、集団のハイリスク層に対してスクリーニングおよび予防措置の実施を集中させることである。乳癌のリスクを層別化するためのこのような2つの方法は、GailモデルおよびClausモデルと呼ばれる。Gailモデルは、the National Cancer Institute of the National Institutes of Healthによってそのウェブサイト上で提供される「乳癌リスクアセスメントツール」ソフトウェアとして用いられる。これらの乳癌モデルはいずれも、それらのインプットの一部として遺伝マーカーを使用していない。さらに、双方のモデルは方向性としては正しいが、ClausモデルもGailモデルも、乳癌のスクリーニングまたは化学予防療法の実施を実際に至適化するには望ましい予測力または識別精度に欠ける。

所与の個人の癌のリスクを現在可能であるよりも一層正確に層別化または識別することができるならば、これらの争点および問題点は規模を縮小したり、または排除することさえも可能であろう。実際のリスクの厳密な測定値が正確に求められれば、癌のスクリーニングおよび化学的予防対策を集団の最もハイリスクな層に集中させることができる。リスクの正確な層別化とハイリスク集団における対策の集中によって、より少ないスクリーニング検査でより多くの癌がより早期およびより治療可能な段階で検出される。スクリーニング検査が少ないということは、検査実施のコストが少なく、かつ、偽陽性結果が少ないということを意味する。検出される癌の数が多ければ多いほど、患者および医療提供者のようなその他の関係者に対する真の利点が大きいことを意味する。同様に、化学予防剤は、これらの薬剤の投与を最大の真の利益を受ける集団に絞ることによってより大きな効果を発揮することになる。

個人のリスクを層別化するための一つの可能な方法は個人の遺伝的特徴をその他の因子と共に検討することであるが、この点に関する従来の技術は全く満足できるものではない。現在、遺伝的特徴、個人歴測定値、環境要因および特定の疾患状態の複雑な相互作用を同定するための一般的方法は症例／対照関連性試験である。この方法では、ある状態または疾患を持つ一群の個人（症例）、およびこの状態または疾患を示さない適切な対照の個人の群について検討を行う。次に、対照に比して症例群において示差的に分布する何らかの要因を探す。このような試験の古典的な例は、喫煙と肺癌の関連性を同定するために用いられた試験であろう。大半の喫煙者は肺癌を起こさず、また、必ずしもすべての肺癌患者が喫煙者とは限らないが、喫煙と肺癌発症のリスクの間には明確な関連性がある。

喫煙と肺癌の関連性の同定が比較的容易である理由の一つは、喫煙が一般集団よりも肺癌患者において明らかにより広く見られる一方で、喫煙が肺癌患者と同様に一般集団のメンバーにも広く見られる特徴であったことである。一般集団のサンプルに基づく一般集団におけるイベントの頻度に関する統計学的推定は、イベントが広く見られる場合には一層正確である。または、サンプルに基づいて一般集団における稀なイベントの頻度の推定を試みる場合、精度を達成することは非常に困難である。サンプルに基づいて一般集団における稀なイベントの頻度を正確に推定することの困難さは、19世紀にフランス人数学者Simeon D. Poissonによって最初に指摘および解明されて以降、知られている。

症例／対照関連性試験では、一つの群（即ち、ある疾患を伴う人々）におけるあるイベントまたは状態の頻度をもう一つの群（即ち、疾患を伴わない個人）におけるあるイベントまたは状態の頻度と比較する。ある恣意的状態に関して、検討対象であるイベントまたは状態が症例の50％（頻度＝0.5）および対照の25％（頻度＝0.25）で発生すると仮定する。一般に、このような分析の結果はオッズ比（OR）として示される。
症例におけるイベントまたは状態の頻度をjとする。
対照におけるイベントまたは状態の頻度をkとする。

検討対象であるイベントまたは状態は、OR 3.0で症例に関連する。検討対象であるイベントまたは状態はかなり一般的であるので、jおよびkの推定値は症例および対照集団におけるサンプルサイズがかなり小さい場合であっても正確である可能性が高い。明らかに、ORの割付の精度は症例および対照集団におけるそのイベントまたは状態の頻度推定値の精度に左右される。問題は、検討対象であるイベントまたは状態が症例および／または対照において比較的稀である場合に生じる。

症例500例および対照500例のサンプルにおいてイベントまたは状態が症例15例（j＝0.03）および対照5例（k＝0.01）で発生する仮定的ケースについて検討する。OR推定値は3.06となる。jおよびkの推定値が不正確であるので、この推定値は非常に曖昧であり、不正確である可能性が高い。この問題は「ポアソン問題」と呼ばれる。

本開示の技術はポアソン問題を解決するものであり、所与の個人の疾患（癌など）のリスクを現在可能であるよりもより高い正確さで有効に層別化または識別することを可能とする。当業者に明らかとなるこれらおよびその他の理由により、本明細書で説明および特許請求される技術については確固たるニーズがある。

発明の概要
先行技術の特定の欠点は、本開示において考察される技術によって抑制または排除される。一つの例証的態様において、一つまたはそれ以上の特定の遺伝子型組み合わせが特定の疾患に関する増大リスクに関連するかどうかを調べるための大量の遺伝データの評価に統計学的技術が用いられる。このような検討を行うために、その疾患との相関性の証拠を発見すべく、多くの異なる遺伝子型組み合わせ（優に100,000通りを越える）について検討が行われることがある。

一つの面において、本発明は疾患に関する増大リスクを統計学的に同定するための方法に関する。その疾患における症例／対照データセットの多数のリサンプリングサブセットを定める。各リサンプリングサブセット内での異なる遺伝子型組み合わせに関して疾患オッズ比を求めて、それによってオッズ比分布を作製する。各リサンプリングサブセット内における各疾患オッズ比のp値を求めて、それによってp値分布を作製する。一つまたはそれ以上の特定の遺伝子型組み合わせに関連する疾患の増大リスクはオッズ比分布およびp値分布の一つまたは双方を用いて同定される。

もう一つの面において、本発明は疾患に関する増大リスクを統計学的に同定するための方法に関する。症例／対照データセット内の異なる遺伝子型組み合わせにおける疾患オッズ比を求める。データセット内における症例および対照データエントリーの名称（designation）は、並べ換えられた（permutated）複数のデータセットを定義するためにランダムに並べ換えられる。並べ換えられた各データセットについて、異なる遺伝子型組み合わせに関する並べ換えられたオッズ比を求める。疾患オッズ比に関する経験的p値は並べ換えられたオッズ比を用いて求められて、一つまたはそれ以上の特定の遺伝子型組み合わせに関連する疾患の増大リスクは疾患オッズ比および経験的p値の一つまたは双方を用いて同定される。

もう一つの観点において、本発明は上記の工程を実施するための説明書を含むコンピュータ読み取り可能媒体に関する。

本明細書で用いられるように、「一つ（a）」および「一つ（an）」は、本発明の状況から必然的かつ無条件にこのような解釈が要求される場合を除いて、「一つ（one）」という意味として解釈されるべきではない。

本明細書で用いられるように、「疾患（disease）」という用語は任意の種類の障害（disorder）を含むと広義に解釈されるべきである。

本明細書で用いられるように、「遺伝子型組み合わせ」は一つまたはそれ以上の遺伝子の具体的な対立遺伝子の組み合わせを指す。「遺伝子型組み合わせ」は遺伝的多型の組み合わせを含む。一例として、二つの対立遺伝子AおよびBを持つ遺伝子における一遺伝子の遺伝子型組み合わせはAAであり得る。異なる一遺伝子の組み合わせはABである。二遺伝子の遺伝子型組み合わせは、最初の遺伝子がAAであり、二番目の遺伝子がABであり得る。異なる二遺伝子の組み合わせは、最初の遺伝子がABであり、二番目の遺伝子がBBなどがあり得る。

特許請求または本開示自体によって別途明確に限定される場合を除いて、異なる「遺伝子型組み合わせ」という一般的表現は、異なる一遺伝子の組み合わせ、二遺伝子の組み合わせ、三遺伝子の組み合わせ、および／またはそれ以上を含む。

本明細書で用いられるように、「優性遺伝子型クラス」は優性の特徴を示す遺伝子型クラスである。例えば、BよりもAが優位である可能性を示す優性遺伝子型クラスはA*と表すことができて、このA*はAAまたはABを示す。AよりもBが優位である可能性を示す優性遺伝子型クラスはB*と表すことができて、このB*はBBまたはABを示す。

本明細書で用いられるように、オッズ比「分布」は異なるオッズ比の集まりまたは異なるオッズ比の表象（例えば、異なるオッズ比の総括または異なるオッズ比の集合体）である。同様にp値「分布」は、異なるp値の集まりまたは異なるp値の表象（例えば、異なるp値の総括または異なるp値の集合体）である。

本明細書で用いられるように、「増大リスク」は、単純に一般集団よりも高い統計学的に有意なリスクを指すというように、広義に解釈されるべきである。一つの態様において、「増大リスク」は1.0よりも高いオッズ比に関連し得る。

本明細書で用いられるように、これらのさらなる用語は次のように解釈されるべきである：

「ゲノム」：生物がその親から受け継ぐDNA全体。いくつかのウイルスはゲノムがDNAではなくRNAから構成されるが、これは特殊な例である。

「遺伝子」：従来より遺伝的解析における相補グループとして定義されて、現在の分子生物学の用語では、遺伝子とは適切な転写および機能性RNAの転写後プロセッシングのために必要な連続した一続きのDNA全体である。遺伝子は、プロモーター配列およびその他のシス作用調節配列、RNA転写のためのDNAテンプレート、ならびにイントロンスプライシングおよびポリA付加のような転写後プロセシングに必要なシス作用配列を含む。

「mRNA」：メッセンジャーRNA。メッセンジャーRNA（mRNA）は、リボソームによるタンパク質の合成を誘導する機能性RNAである。このプロセスは翻訳と呼ばれる。あるタンパク質のアミノ酸配列は、遺伝コードによって定義されるmRNAにおけるリボヌクレオチドの配列によって決定される。ヒトを含むすべての生命体における膨大な遺伝子が、mRNAである機能性RNAの合成を誘導およびコードする。典型的なmRNAには3つの部分がある。フロントエンドである5'非翻訳領域（5'UTR）、オープンリーディングフレーム（ORF）であるmRNAの転写されてタンパク質となる部分、そしてバックエンドである3'非翻訳領域（3'UTR）。5'UTRおよび3'UTRはタンパク質の部分をコードしないが、翻訳およびmRNA分解の速度を制御する重要な調節ドメインである。

「対立遺伝子」：遺伝子の特定の形態。しばしば、同一の種の異なる個体において同一の遺伝子が異なるDNA配列を持つことがある。同一遺伝子のこれらの異なる型は遺伝子の異なる対立遺伝子と呼ばれる。基本的に、すべてのヒトはそれらのゲノム内に同一セットの遺伝子を持つ。しかし、我々はこれらの遺伝子の全く異なる対立遺伝子セットを持つ可能性がある。これが、ヒトが他者と異なる所以である。

「多型性：」遺伝用語において、多型とは個体集団内の遺伝子の異なるコピーが異なるヌクレオチド配列を持ち得るゲノム内の位置である。集団における遺伝子の様々な対立遺伝子は、多型の部位（site）または複数部位（sites）を除いて、一般に同一である。一つの遺伝子に一つよりも多い多型部位が生じることができる。遺伝子の対立遺伝子は、多型が生じる部位の遺伝子であるDNA配列の決定により決定され得る。

「一塩基多型（SNP）」：遺伝子の一箇所のヌクレオチド部位における変異を伴う多型。いくつかのSNPは関連する遺伝子によってコードされるタンパク質の機能を変化させる。例えば、遺伝子は一塩基部位において異なる二つの対立遺伝子を持つことができる。このようなSNPは、タンパク質および／または制限エンドヌクレアーゼ認識部位のアミノ酸配列の変化を惹起し得る。

「遺伝子型」：個体がそのゲノム内に持つ一つまたはそれ以上の遺伝子の具体的な対立遺伝子。すべての個体がすべての常染色体遺伝子の2つのコピーを持っているので、すべての多型性常染色体遺伝子の遺伝子型に関して2つの対立遺伝子が示されなければならない。上記の具体例として、個体は次の遺伝子型、C/C、C/GまたはG/Gの一つを持つことができる。

「常染色体遺伝子」：性染色体以外のDNA上にコードされる遺伝子。

「対立遺伝子頻度」：具体的な対立遺伝子である集団内における遺伝子の全コピーの割合。上記の例において、集団内の遺伝子のコピーの70％がC対立遺伝子であり、集団内の遺伝子コピーの30％がG対立遺伝子であり得る。CおよびG対立遺伝子の対立遺伝子頻度は、それぞれ、0.7および0.3となる。対立遺伝子頻度の合計は1.0になる点に留意されたい。

「ホモ接合性」：多型遺伝子の同一対立遺伝子の2つのコピーを持つ遺伝子型を持つ状態。上記の例において、C/CまたはG/G。

「ヘテロ接合性」：同一多型遺伝子の2つの異なる対立遺伝子を持つ遺伝子型を持つ状態。上記の例において、C/G。

「Hardy-Weinberg平衡」：ランダム交配集団において一つまたはそれ以上の多型遺伝子の遺伝子型頻度を予測する数学モデル。単一の遺伝子が単一の位置で多型であり、二つの対立遺伝子の対立遺伝子頻度がそれぞれpおよびqである最も単純なケースの場合：

上記の例において、C/Cの遺伝子型を持つ個体の予測される遺伝子型頻度は（0.7）²＝0.49となる。集団内の個体の49％がC/Cの遺伝子型を持つと予測される。同様に、ヘテロ接合性遺伝子型であるC/Gを持つ個体に関する予測される遺伝子型頻度は0.42（＝2×0.7×0.3）となる。同じく、ホモ接合性遺伝子型のG/Gを持つ個体の遺伝子型頻度は0.09(0.3)²と予測される。

このモデルを、一つよりも多い多型非連鎖遺伝子における遺伝子型頻度の予測に拡大することができる。それぞれ、頻度がrおよびsである二つの対立遺伝子を持つ二番目の多型遺伝子について考える。この二番目の遺伝子における予測される遺伝子型の頻度は：

組み合わせにおける二つの遺伝子の予測される遺伝子型頻度は：

後述のように、このモデルを組み合わせにおける任意の数の遺伝子の遺伝子型頻度の予測に拡大することができる。

その他の特徴および関連する利点は、添付の図面と共に下記の具体的態様の詳細な説明を参照すれば明らかとなるであろう。

例証的態様の説明
本開示のバイオインフォマティックス技術は先行技術が持つ複数の欠点を解決する。代表的態様において、一つまたはそれ以上の疾患に関して症例／対照データセットが得られる。このデータセットにおける「症例」エントリーは特定の疾患または状態を持つ患者に対応して、「対照」エントリーは疾患または状態を持たない患者に対応する。症例／対照データセットは、患者が特定の疾患または状態を持つか持たないかという情報ばかりでなくその患者から得られる遺伝情報も含む。例えば、症例／対照データは一つまたはそれ以上の遺伝子の遺伝子型を含むことができる。代表的態様において、20の異なる遺伝子の遺伝子型が症例／対照データセットに含まれ得る。その他の態様において、症例／対照データセットは遺伝情報以外の、例えば、環境の違い（例えば、送電線、原子力発電所、有害物質排気施設の近くに居住）、ライフスタイルの違い（例えば、喫煙者、薬物使用者、運動不足）、食事の違い（例えば、高脂肪、低炭水化物）などのその他の「暴露」因子を含むことができて、その他の因子は一定の組み合わせが疾患に関する増大リスクを引き起こすかどうかを調べるために相関関係が成立するように含めることができる。

ある疾患の存在と一つまたはそれ以上の異なる遺伝子の一つまたはそれ以上の特定の遺伝子型組み合わせとの相関関係の証明を可能とする技術を提供することが、本開示の一つの目的である。分かりやすく言えば、多くの遺伝子型組み合わせを解析することによって、特定の遺伝子型組み合わせを持つことと特定の疾患を発症することの統計学的な「関連性」を明らかにすることができる。従って、単純に患者の遺伝情報を取得して患者が一つまたはそれ以上の疑わしい遺伝子型組み合わせを持つかどうかを調べることによって、疾患に対する増大リスクを統計学的に同定することができる。このような患者に、実際の定量的リスク値（例えば、「最終的に乳癌を発症する可能性は60％」など）を提供して、加えて／または一部の予防的措置を講じるべきであることを助言することができる。その患者は、より積極的にモニターを受けて、早期の発見および治療が確実に実施し得るように検査を受けることができる。

次の仮定のもと、すべての可能な遺伝子型組み合わせ（または大規模サブセット）の検討が重要である：（1）特定の疾患のリスクはしばしば遺伝子の組み合わせがあって初めて生じるものであり、これは一つまたは同時に二つを検討した場合にその遺伝子に起因するより小さなリスクの観察所見によってバックアップされる、（2）特定の有害な遺伝子型組み合わせは、それらが先ず「安全な」対立遺伝子であるように見える可能性を含むので、多くの場合、少なくとも最初は明らかでない可能性がある。従って、従来の段階的スキームでは疑わしい組み合わせに到達する方法はない。

統計学、および特に疫学における現在の教示内容では、主に偽陽性の問題のために、リスク因子の想定されるすべての組み合わせ（または、大規模サブセット）に目を向けること（しばしば、「ドブさらい検定」と表現される）は何としても避けなければならないと要求される。従って、解析者は、恐らく彼らの教育故に、このようなアプローチを敬遠する。さらに、結果を保存するための十分なディスク容量は勿論のこと、すべての、つまり大規模サブセットの組み合わせをコンピュータにより解析するプログラミングの必要性、および解析を実施するための十分な計算力と時間を持つという課題がある。

症例／対照データセットにおける遺伝情報を解析するための一つの主たるツールはオッズ比（OR）統計量であり、これは相対的リスク、即ち、暴露されたグループ以外の人々と比較した（または一般集団における平均的リスクと比較した）「暴露された」グループ（因子の特定の組み合わせを持つグループ）内の人々における疾患（例えば、乳癌）を発症する増大リスクの概算値を求める。但し、当業者は、現在または将来的に、相対的リスクを求めるための別の統計学的検定が存在し得ることを認識する。

どの組み合わせが特定の疾患の存在に相関するかを調べる工程には、多くの異なる遺伝子型組み合わせを解析する工程を伴う。例えば、実務者（practitioner）が遺伝子が二つの対立遺伝子−AおよびBのみを持つと考えているケースについて考える。優位性を考慮して、これには遺伝子当たり5つの遺伝子型クラスがある。5つの遺伝子型クラスは次の通りである：
（1）AA；
（2）AB；
（3）BB；
（4）A*（AA、ABの優性遺伝子型クラス）；および
（5）B*（BB、ABの優性遺伝子型クラス）。

二つの遺伝子の組み合わせに関して、この場合、5×5＝25通りの遺伝子型組み合わせについて考慮しなければならない。三つの遺伝子の組み合わせに関しては、この場合、5×5×5＝125通りの遺伝子型組み合わせがある。20のセットから同時に三つの遺伝子を選択する場合、（20×19×18）/（3×2×1）＝1140通りの異なる三遺伝子の選択がある。それぞれの各選択は三つの遺伝子を持ち、従って、5×5×5＝125通りの遺伝子型組み合わせがある。従って、20のセットから同時に三つの遺伝子が選択される場合は、検討されるべき遺伝子型組み合わせは合計1140×125＝142,500通りである。

一つの態様において、目的は乳癌における統計学的に有意な増大リスクに至る遺伝子型組み合わせを検索することである。一般に、統計学的検定は5％（20例中1例）の有意水準を探す。顕著な増大リスクがなく、かつ、実験が100回繰り返されたならば、平均で5回の実験が偽陽性の結果を示すことになる。その結果は、142,500回（20の全遺伝子から同時に三つの遺伝子が選択される場合の三遺伝子の遺伝子型組み合わせの数）の実験について考える場合、平均で7,125回の偽陽性の結果が得られることになり、この値は、特にこれらの各偽陽性結果が患者のライフスタイルを脅かすまたは著しく変化させ得ることを考慮すると、無視できないくらい大きな値である。

多くの異なる組み合わせについての検定における顕著な数の偽陽性の問題は、100例中1例（1425件の偽陽性）、1000例中1例（142.5件の偽陽性）等のようなより控えめな有意水準を検討することによって軽減することができる。しかし、付随して統計力が低下し、真の結果を見落とす（偽陰性の結果の）可能性が増大する。

これらの問題および先行技術の問題を回避するために、本開示の異なる態様の一つまたはそれ以上の局面−（1）遺伝子型組み合わせリサンプリングスキーム、（2）遺伝子型組み合わせ無作為化スキーム、および／または（3）Hardy- Weinbergモデリングスキームをその他の態様と組み合わせて利用して良い。リサンプリングスキームでは、実験が繰り返し行われる（リサンプリング）。症例および対照のサブセットがランダムに選択されて、試験統計量が算出され、次いでオッズ比の分布を作製するためにこの手順が繰り返し行われる（例えば、1000回またはそれよりも多い回数、計算力および実務者の根気によってのみ制限される）。1000回の実験において、観測された最小オッズ比が1.0よりも大きい場合、これが偽陽性結果である可能性は低い。しかし、これは単独では有意性を判断するp値を提供しない。しかし、各実験における漸近性のp値を算出することができて、従って、p値の分布を作製することができる。従って、その実験における「その」p値として平均p値が与えられ得る。

無作為化スキームでは、オッズ比を算出するために、症例／対照データセットのすべての有効な症例および対照を利用することができる。つまり、症例および対照の名称を無作為化して（特に帰無仮説状況を与えるため）、その無作為化された症例−対照試験におけるオッズ比を算出して、反復実施して（例えば、10,000回またはそれよりも多い回数、計算力および実務者の根気によってのみ制限される）、オッズ比の帰無分布を作製することができる。続いて、この分布を用いて当初認められたオッズ比における経験的p値を推定することができる。この技術では、症例または対照のいずれかにおける特定の組み合わせに関する件数が小さな値であるためにリサンプリングスキームで用いられる漸近説の有効性が疑わしくなるという状況が回避される。

Hardy-Weinbergスキームでは、例えば、より関連性のあるオッズ比を導くためにHardy-Weinbergモデリングを利用して良い。

図1および2は、それぞれ、例示的リサンプリングスキームおよび無作為化スキームを例証し、各々について順に考察する。

図1は、本開示の態様に従って、疾患に関する増大リスクを統計学的に同定するためのリサンプリング方法を例証するフローチャートである。このフローチャートは全体で8段階の工程を含むが、当業者にはこの数は統合すると小さくなり、または補足的工程を加えると大きくなることが明らかであろう。

工程102において、症例／対照データセットを取得する。症例／対照データセットは一般に複数の患者の遺伝情報を含んで、その中のいくつかは疾患を持ち（「症例」エントリー）、いくつかは疾患を持たない（「対照」エントリー）。データセットのサイズおよび様式は、どのアプリケーションがデータを作製したかによって大きく変わり得る。しかし、一つの態様において、症例／対照データセットは、i.d.番号、人種、状態、疾患、年齢、遺伝子1、遺伝子2、遺伝子3、・・・、遺伝子nの順序で配置された次のフィールドを含むことができる。i.d.フィールドは、（数字またはテキスト識別子によって）特定の患者を識別するために用いることができる。人種フィールドはその患者の人種を同定する。状態フィールドは、プロセッシング中に標識その他として用いることのできる一般的フィールドとして良い。疾患フィールドは、患者が特定の疾患を持っているか、または持っていないかを同定する（従って、患者は症例または対照として同定される）。年齢フィールドはその患者の年齢を同定する。各遺伝子フィールド（1〜nを表示）はその遺伝子の遺伝子型が含まれる。これらのフィールドはすべて、数字のみ、テキストおよび数字、またはその他の何らかの機械で読み取り可能な識別子で記入することができる。適切な「ルックアップ（look-up）表」を使用して、識別子をそのフィールドの価値または意義と相関させることができる。

当業者によって理解されるように、特定の解析の必要性に応じてより多いまたはより少ないフィールドを使用することができる。実際、一つの態様において、先ず症例／対照データを解析して、一つまたはそれ以上の不要なデータエントリー（サンプル）を削除してよい。例えば、症例／対照データを解析して、遺伝型が分類されていないすべてのサンプル−遺伝データが不十分なサンプルを削除して良い。同様に、年齢、i.d.番号、またはその他のいずれかのフィールドが記入されていないサンプルは、解析の実施前にデータセットから「消去」して良い。

工程104では、症例／対照データセットからのリサンプリングサブセットが決定される。症例／対照データセットに由来するサンプルのサブセットを、プロセッシングのために選択、つまりタグ付けする。一つの態様において、正確なリサンプリングサブセットをランダムに選択することができる。特に、各データエントリーについて乱数検定を行ってよい。乱数が一定の閾値を上回るまたは下回る場合、データエントリーはそのリサンプリングサブセットに入るとしてタグ付けされる。一つの態様において、症例／対照データセットの「状況」フィールドをエントリーのタグ付けのために使用することができる（例えば、乱数検定によってそのエントリーがリサンプリングサブセット内であるとして選択される場合、そのフィールドに「2」を入力し得て、そのエントリーが選択されない場合は「1」が入力され得る）。このような無作為化された選択プロセスにおいて、異なるリサンプリングサブセットの正確なサイズは変化する。しかし、乱数検定の性状を変化させることによって、サイズ分布を達成することができる。例えば、乱数検定が0から1までの乱数と0.5の閾値との比較からなる場合、リサンプリングサブセットは症例／対照データセットの約半分のサイズであると仮定することができる。閾値が0.25に設定されるとすると、リサンプリングサブセットは、その閾値がそのサブセットの包含または除外を規定するか否かに応じて、症例／対照データセットの約3/4または約1/4であり得る。その他の態様において、（無作為化法とは対照的に）より固定された常法を用いてリサンプリングサブセットを選択してよく、その常法は、例えば、リサンプリングサブセットを構成するために特定の数のサンプルを選択することができる。

工程106では、リサンプリングサブセット内の各遺伝子型組み合わせについて症例および対照の数（疾患を持つエントリーおよび疾患を持たないエントリーの数）をカウントする。一つの態様において、このカウントは次の通り実施される：一遺伝子のすべての遺伝子型組み合わせをカウントする、二遺伝子のすべての遺伝子型組み合わせをカウントする、三遺伝子のすべての遺伝子型組み合わせをカウントするなど。具体的には、プロセッシングの初回段階（一遺伝子の遺伝子型組み合わせ）では遺伝子1がAAである場合にどの位の数の症例および対照が存在するか；遺伝子1がABである場合にどの位の数の症例および対照が存在するか；遺伝子1がBBである場合にどの位の数の症例および対照が存在するか；遺伝子2がAAである場合にどの位の数の症例および対照が存在するか；…；遺伝子nがBBである場合にどの位の数の症例および対照が存在するか（即ち、一遺伝子のあらゆる遺伝子型組み合わせを網羅する）をカウントすることができる。二番目のプロセッシング段階（二遺伝子の遺伝子型組み合わせ）は、遺伝子1がAAであり遺伝子2がAAである場合にどの位の数の症例および対照が存在するか；遺伝子1がABであり遺伝子2がAAである場合にどの位の数の症例および対照が存在するか；遺伝子1がBBであり遺伝子2がAAである場合にどの位の数の症例および対照が存在するか；…など（二遺伝子のあらゆる遺伝子型組み合わせを網羅する）をカウントすることができる。三番目のプロセッシング段階（三遺伝子の遺伝子型組み合わせ）は、遺伝子1がAAであり遺伝子2がAAであり遺伝子3がAAである場合にどの位の数の症例および対照が存在するか；遺伝子1がAAであり遺伝子2がAAであり遺伝子3がABである場合にどの位の数の症例および対照が存在するか；など（三遺伝子のすべての遺伝子型組み合わせを網羅する）をカウントすることができる。

一つの態様において、カウントプロセスでは優性遺伝子型クラスについても考慮する。例えば、BよりもAが優位である可能性を示す優性遺伝子型クラスはA*と表すことができて、このA*はAAまたはABを示す。AよりもBが優位である可能性を示す優性遺伝子型クラスはB*と表すことができて、このB*はBBまたはABを示す。このように、一遺伝子の遺伝子型組み合わせのカウントにおいて、遺伝子1がA*であり遺伝子2がBBである場合にどの位の数の症例および対照が存在するか；遺伝子1がB*であり遺伝子2がA*である場合にどの位の数の症例および対照が存在するかなどを考慮しうる。

従って、優性遺伝子型クラスおよびリサンプリングサブセットの20の遺伝子を用いる2つの対立遺伝子を例とする状況において、工程106の一遺伝子のカウントは20の中から1つの遺伝子を選択する工程を伴う。これは20の選択を含む。各選択は5つの組み合わせを伴う。従って、リサンプリングサブセット内に20×5＝100通りの遺伝子型組み合わせが考えられる。工程106の二遺伝子のカウントは、20から2つの遺伝子のセットを選択する工程を伴う。これは、（20×19）/（2×1）＝190通りの選択を含む。各選択は、5×5＝25通りの組み合わせを伴う。従って、リサンプリングサブセット内に190×25＝4750通りの遺伝子型組み合わせが考えられる。工程106の三遺伝子のカウントは、20から3つの遺伝子のセットを選択する工程を伴う。これは、（20×19×18）/（3×2×1）＝1140通りの選択を伴う。各選択は、5×5×5＝125通りの組み合わせを伴う。従って、リサンプリングサブセット内に1140×125＝142,500通りの遺伝子型組み合わせが考えられる。一遺伝子、二遺伝子、および三遺伝子の遺伝子型組み合わせの数を合計すると、リサンプリングサブセット内における検討対象である100＋4750＋142,500＝147,350通りの組み合わせが得られる。明らかなように、四遺伝子の組み合わせ、五遺伝子の組み合わせ等について検討する場合も方法論は同一であるが、はるかに大きな数の組み合わせについての検討を伴う。同様に、20よりも多い遺伝子グループから選択する場合は、より多くのカウントを伴う。同じく、リサンプリンググループが大きければ大きいほど、より多くの組み合わせについて検討が必要となる（但し、症例／対照データセット全体におけるすべてのデータエントリーが使用された場合は著しく小さくなるであろう）。

本開示の利点を用いて、当業者は、症例／対照データセットのサイズ、リサンプリングサブセット、および組み合わせの規模（即ち、一遺伝子に対する二遺伝子、三遺伝子、n遺伝子）は単純に実務者が使用することのできる計算機能力に依存することを認識するであろう。電算資産が絶えず進歩して、より廉価となるにつれて、実務者は益々大きな全体的症例／対照データセットに由来する20、30、40、50などの遺伝子セットからの5、6、7、8、9、10、11、12等の遺伝子組み合わせについて定型的に検討することができる。これらの数値は専ら例示的な値であって、限定的ではない。本明細書に開示される技術、またはそれらと同等の技術を用いて、任意の数が選択され得る。

工程108では、リサンプリングサブセット内の各遺伝子型組み合わせに関する疾患オッズ比を求める。一つの態様において、これは2×2行列を用いて行ってよい：

ここで、オッズ比は（a×d）/（b×c）である。20の遺伝子のグループから一、二および三遺伝子の組み合わせをカウントする上記の例において、算出されたオッズ比は147,350となる。

工程110において、各疾患オッズ比のp値を求める。p値の算出は、当技術分野において既知の複数の方法のいずれで行っても良い。一つの態様において、p値は次式を用いて算出することができる：

p値、p＝Prob(X>u）、Xがuよりも大きい確率、ここで、Xは自由度1のカイ二乗変数として分布する。

工程110に続いて、図1においてループ状の矢印により示されるように、このプロセスは工程104に戻る。これは、リサンプリングサブセットにおいて、一旦、オッズ比およびp値が求められたら、続いて、新たなリサンプリングサブセットが選択されて、工程106、108および110が反復されることを示している。言い換えると、新しいリサンプリングサブセットが選択されて、各遺伝子型組み合わせについて症例／対照の数がカウントされ、各組み合わせについてオッズ比が算出されて、各オッズ比に対してp値が算出される。

このループが継続される回数は実務者次第であり、必要とされるまたは所望されるリサンプリングの実施回数に依存する。一つの態様において、このループは約1000回継続されるが、統計学的に有意な結果を得るために適切な任意の回数を選択してよい。（上記のように）無作為化リサンプリング選択法が用いられる場合は、各リサンプリンググループの正確なサイズは変動する可能性がある。

いくつかのリサンプリングサブセットにおけるオッズ比およびp値が算出されると、オッズ比分布およびp値分布が作製される。これは、図1において、それぞれ、工程112および114として示される。例えば、図1のフローチャートの1回目「実施」について検討する−これにより、例えば、147,350のオッズ比および147,350に対応するp値が算出され得る。二番目のリサンプリングサブセットが選択されると、もう一つの147,350のオッズ比および147,350のp値が求められる。三番目のリサンプリングサブセットが選択されると、もう一つの147,350のオッズ比および147,350のp値が求められる等。これが1,000回反復されると仮定すると、147,350のオッズ比および147,350のp値の1,000組のセットが得られる。

オッズ比およびp値の記録は、大量データの管理に適した任意の数の方法で行ってよい。一つの態様において、特定の遺伝子型組み合わせにおけるオッズ比およびp値を、平均、平均値などにまとめてよい。標準偏差、または必要に応じてその他の任意の統計学的表記を算出することができる。一定の閾値を上回るまたは下回るオッズ比および／またはp値は無視または削除してよい。情報を効率的に精製してよい読み込み可能な有用な形とするために、必要に応じてデータをグループ分けして一つまたはそれ以上のサマリーレポート、スプレッドシートなどにまとめることができる。

一つの態様において、分布内のデータは特定の平均オッズ比および／または平均p値が得られる異なる遺伝子型組み合わせを同定するためにソートすることができる。一つの態様において、最も高い平均オッズ比が得られる遺伝子型組み合わせを分布から選択することが可能であり、それらの対応する平均p値はその組み合わせにおける「その」p値として示すことができる。当業者が認識するように、工程112および114において一旦オッズ比およびp値の分布が作製されると、実務者は結果を解釈して、平均化およびソーティング以外の様々な方法でその結果を提示および／または総括することができる。

一般に、その分布によって、実務者は、図1の工程116に示されるように、リサンプリングサブセットにおける検討対象である疾患の増大リスクを同定することが可能となる。一つの態様において、オッズ比分布およびp値分布の一方または双方に基づいて、数値化されたリスク因子を割り付けることができる。例えば、その患者に存在する特定の遺伝子型組み合わせにおける特定の平均オッズ比が与えられると、実務者はその患者の、例えば乳癌発症の可能性が高まっていることを助言することができる。数値化された可能性に対する平均オッズ比（および、任意でp値）の相関性を示すルックアップ表が作製されれば、患者の、例えば乳癌発症の可能性が60％であると助言することができる可能性がある。いずれにしても、患者はより予防的な対策を受けることができる可能性があり、またその患者がより頻繁に医師の診察を受ける予定を立てることができる可能性があり、それによってその疾患は、もしも発症したとしても、早期に検出することができる。

図1のリサンプリングスキームによって、実際に実務者は過誤の影響を抑制しつつ、統計学的に重要なデータを作製することが可能となるが、これは結果が最終的には平均化されるか、あるいは別の方法でいくつかの異なるリサンプリング実験から精製されるためである。言い換えると、症例／対照データセット全体からそれぞれの遺伝子型組み合わせを一回解析するのではなく、その組み合わせは、より小さなリサンプリングサブセットとして所望されるだけ何回でも（例えば、数千回）、解析することができる。

図1の方法の一般化された態様において、各遺伝子型組み合わせのオッズ比以外の異なる統計学的検定を用いてよい。実際、任意の統計学的解析が用いられ得る。同様に、p値に加えて任意でその他の有意性の記号表現を用いてよい。さらに、異なる遺伝子型組み合わせの検討に加えて（またはこれに代わって）、ある特定の特徴と疾患発症の間の関連性または相関性を見出するために、環境要因、食事要因、またはその他の測定可能な何らかの「暴露」現象の異なる組み合わせについて検討することも可能である。

図2は、本開示の態様に従って、疾患に関する増大リスクを統計学的に同定するための無作為化法を例証するフローチャートである。このフローチャートは全体で7段階の工程を含むが、当業者にはこの数は統合すると小さくなり、または補足的工程を加えると大きくなることが明らかであろう。

工程202において、症例／対照データセットを取得する。図1の工程102がこの工程に当てはまるので、改めての説明は行わない。

工程204では、（図1において行ったリサンプリングサブセットとは対照的に）症例／対照データセット全体における各遺伝子型組み合わせについて症例および対照の数（疾患を持つエントリーおよび疾患を持たないエントリーの数）をカウントする。但し、当然、サンプルはリサンプリングスキームの場合と同様に症例／対照データセットから消去してよい。図1の方法論を用いた場合と同様に、先ず一遺伝子の組み合わせをカウントして、次に二遺伝子の組み合わせ、三番目に三遺伝子の組み合わせ等をカウントすることができる。さらに、カウントプロセスにおいて、優性遺伝子型クラスについても考慮することができる。

従って、優性遺伝子型クラスおよび症例／対照データセットの20の遺伝子を用いる二対立遺伝子の例では147,350通りの遺伝子型組み合わせについての検討が含まれる。

工程206では、症例／対照データセット内の各遺伝子型組み合わせに関する疾患オッズ比を求める。一つの態様において、これは2×2行列を用いて行ってよい：

ここで、オッズ比は（a×d）/（b×c）となる。

（複数のリサンプリングサブセットの各々についてオッズ比を算出するのとは対照的に）症例／対照データセット内における遺伝子型組み合わせの（観測された）オッズ比を一回算出したら、続いて工程208に進む。工程208では、並べ換えられた症例／データセットを定義するために、データセット内の症例および対照のデータエントリーについて名称をランダムに変更する。例えば、患者が疾患を有するかどうかを示すフィールドを持つデータエントリーについて考慮する−疾患がある場合はそのフィールドを2として（「症例」エントリー）、患者に疾患がない場合は1とする（「対照」エントリー）。工程208は疾患フィールドを1から2またはその逆にランダムに切り替える。例えば、各データエントリーにおいて、疾患フィールドは、そのフィールドのエントリーが1であるか、または2であるかを調べるために、無作為化試験を行ってよい。例えば、ランダムな数を閾値と比較することができる。ランダムな数がその閾値を越える場合、値は1とする。並べ換えられた症例／対照データセットは相応に定義される。

一つの態様において、症例および対照の総数は、ランダムな並べ換えに関わらず、一定に維持される。これは、任意の数の適切な方法で行うことができる。一つの態様において、並べ換えられたデータセット内の症例または対照の数が元々の症例／対照データセット内の症例または対照の数に達したら、ランダムな並べ換えは終了する。

図2の工程210は工程206と同様であるが、工程210の場合は算出されるオッズ比は並べ換えられたデータセットのオッズ比であって、元々の症例／対照データセットのオッズ比ではない。

工程210に続いて、図2においてループ状の矢印により示されるように、このプロセスは工程208に戻る。これは、並べ換えられたデータセットについて、一旦、オッズ比が求められると、続いて並べ換えられた新たなデータセットサブセットが選択されて、工程210が繰り返されることを示す。言い換えると、並べ換えられた新たなデータセットが作製されて、各遺伝子型組み合わせについて症例および対照の数がカウントされ、各組み合わせについてオッズ比が算出される。

このループが継続される回数は実務者次第であり、所望される無作為化の実施回数に依存する。一つの態様において、このループは約10,000回継続されるが、統計学的に有意な結果を得るために適切な任意の回数を選択してよい。

症例および対照の無作為化は、本質的に帰無仮説の状況を提供する。無作為化された症例／対照試験におけるオッズ比の算出によってオッズ比の帰無分布が作製されて、次にこれを用いて図2の工程206で算出される元々の各オッズ比に対して経験的p値を推定することができる。経験的p値の算出は工程212として示される。一つの適切な経験的p値算出方法は次の通りである：

無作為化手順から得られる特定の組み合わせに関するオッズ比の「n」数を昇順に並べる。Gは、その組み合わせに関する観測されたオッズ比と同一または上回るこれらのオッズ比の数とする。よって、経験的p値は、p＝G/n。従って、n＝10,000の場合、p値はG/10,000となる。

図1の態様と同じく、異なるオッズ比およびp値をソートして、一連のオッズ比および／または経験的p値の範囲内の異なる遺伝子型組み合わせを同定することができる。一つの態様において、最も高いオッズ比を与える遺伝子型組み合わせを選択することが可能であり、それらの対応する経験的p値はその組み合わせにおける「その」p値として示すことができる。当業者が認識する通り、一旦オッズ比およびp値が得られると、実務者は結果を解釈して、その結果を様々な方法で提示および／または総括することができる。

工程214では、工程206のオッズ比および工程212のp値の一方または双方を用いて症例／対照データセットにおける検討対象である疾患の増大リスクが同定される。一つの態様において、図1の状況で説明されるように、オッズ比および経験的p値の一方または双方に基づいて数値化されたリスク因子を割り付けてよい。

図2の無作為化スキームは、経験的p値の算出を通して、元々の症例／対照データセットにおける症例または対照のいずれかにおける特定の遺伝子型組み合わせが少数であるために（図1の場合と同様にp値算出における）漸近説の有効性が疑わしくなる状況を都合良く回避する。

図2の方法の一般化された態様において、各遺伝子型組み合わせのオッズ比とは別に、異なる統計学的検定を用いてよい。実際、任意の統計学的解析が用いられ得る。同様に、p値に加えてその他の有意性の記号表現を任意で用いてよい。さらに、異なる遺伝子型組み合わせの検討に加えて（またはこれに代わって）、ある特定の特徴と疾患発症の間の関連性または相関性を見出するために、環境要因、食事要因、またはその他の測定可能な何らかの「暴露」現象の異なる組み合わせについても考慮してよい。

図3は、より関連性の高いオッズ比を導くためのHardy Weinbergモデルの使用を示すフローチャートであり、図1もしくは図2のいずれかの方法（または図1および2の組み合わせ）と共に用いてよい。当業者には、例証される工程の数は統合すると小さくなり、または補足的工程を加えると大きくなることが明らかであろう。

図3の個々の工程について説明する前に、一般にHardy Weinbergモデルについて説明することが有益である（簡単な説明は上記の概要の項に示す）。個々の対立遺伝子の対立遺伝子頻度が分かっている場合は、Hardy-Weinberg平衡モデルによって、集団内の任意の数の非連鎖遺伝子における対立遺伝子の任意の組み合わせの任意の遺伝子型の頻度が予測される。三遺伝子（遺伝子1、2および3）の仮説的例について考える。各遺伝子は対立遺伝子頻度の明らかな2つの対立遺伝子を持つ：遺伝子1ではpおよびq；遺伝子2ではrおよびs；遺伝子3ではtおよびu。これらの三遺伝子における遺伝子型の分布は次の通りである：

展開すると：

可能な遺伝子型は27通りである。簡潔にするため、q、sおよびuの対立遺伝子頻度をそれぞれ0.35と仮定する。（p、rおよびtの対立遺伝子頻度は、いずれも0.65となる）。遺伝子1＝p/q、遺伝子2＝s/s、および遺伝子3＝u/uの遺伝子型を持つ個体の頻度を考える。この複雑な遺伝子型はp/q、s/s、u/uと表記することができる。Hardy- Weinberg平衡によって予測されるようにこの遺伝子型の頻度は2pqu²s²となる。これは、（2×.65×.35）×（0.35²）×（0.35²）、即ち、0.020に等しい。これらの対立遺伝子はいずれも集団内において一般的であるとしても、この複雑な遺伝子型は極めて稀である。ポアソン問題は、集団のサンプルからこのような稀なイベントの頻度を正確に推定することを極めて困難とする。

または、適度な試料サイズがあれば、0.35の頻度で発現するイベントの頻度を正確に推定することが可能である。稀なイベントの頻度は一般的なイベントの頻度に関する知識から予測することができるため、予測された稀なイベントの頻度はそのサンプルが取得された集団における稀なイベントの実際の頻度を推定するためのサンプルから観測された頻度よりもより正確である。対照では、一般的なイベントを観察するだけでポアソン問題全体が回避される。

機能的には、対照のデータを解析して検討対象である遺伝子の対立遺伝子頻度を求めることができる。対立遺伝子頻度を用いて複雑な遺伝子型の予測頻度を算出することができる。従って、症例における複雑な遺伝子型の観測された頻度を対照の算出遺伝子型と比較して関連するオッズ比を導くことができる。この方法ではオッズ比算出の分母（k）からポアソン問題が除かれて、よって、より正確なオッズ比が求められる。

これらの工程は図3に示される。工程302において、遺伝子の対立遺伝子頻度を求める。上記の例で見ると、データセットを解析することによってp、q、r、s、tおよびuを求めることと等しい。工程304では、一つまたはそれ以上の遺伝子型の予想頻度を算出する。この工程は、上述のHardy Weinbergの式を利用する。工程306では、データセットの直接観測から認められる遺伝子型頻度を工程304で算出される値と比較する。この比較を通してオッズ比を容易に導くことが可能であり、工程308においてポアソン問題が排除または抑制される。

本開示の状況において、Hardy-Weinbergモデルに基づく対照における遺伝子型頻度のアプリケーションには少なくとも二つの一般的態様がある。一つは、検討する個々の遺伝子における対立遺伝子頻度が求められる。続いて、Hardy-Weinbergモデルを用いて、遺伝子の1つ、2つ、3つ、4つまたは（所望される）それよりも多い組み合わせにおける予測される遺伝子型頻度が算出される。続いて、これらの予測される遺伝子型頻度を、リサンプリング過程毎に、症例における同一遺伝子型の観測された頻度と比較する。Hardy-Weinbergモデルに基づく遺伝子型頻度が対照における観測された遺伝子型頻度に置換される点を除いて、オッズ比、p値および所望のその他の統計量は前述の通りに算出される。

二番目の態様では、症例および対照のリサンプリングを前述の通り実施する。続いて、リサンプリングした対照のデータセットについて、すべての多型の対立遺伝子頻度を求める。次に、Hardy-Weinbergモデル化を用いて、リサンプリングしたデータにおける対照の遺伝子の1、2、3または（所望の）それよりも多い組み合わせについて予測される遺伝子型頻度を求める。その後、予測される遺伝子型頻度を、リサンプリングした症例における観測された遺伝子型頻度と比較する。Hardy-Weinbergモデルに基づく遺伝子型頻度が対照における観測された遺伝子型頻度に置換される点を除いて、オッズ比、p値および所望のその他の統計量は前述の通りに算出される。この態様において、Hard-Weinbergのモデル化をリサンプリング過程毎に繰り返し実施する。

Hardy-Weinbergモデルに基づく遺伝子型頻度予測の本質は、それらが大規模集団において相対的に稀な遺伝子型の真の頻度に関して、サンプルから観測可能な値よりもより正確な推定値であるという点である。

次の実施例は、本開示の具体的で非限定的な態様を実証するために含められる。当業者は、後続の実施例に開示される技術が本発明の実践において十分に機能するように発見された技術を示すものであり、従ってその実践における具体的方法を構成すると考えることができることを認識すべきである。但し、当業者は、本開示に鑑みて、開示される具体的態様において多くの変更を行うことが可能であり、本発明の精神および範囲から逸脱することなく依然として類似または同様の結果が得られることを認識すべきである。

実施例1：
本開示の技術は、乳癌発症の異なるリスク度合いに関連する遺伝的多型および個人歴測定値の組み合わせを同定するためのデータ分析方法を提供する。これらの方法は、複雑な疾患発症のリスクの測定において多くの遺伝子および多くの環境要因の相互作用が関与する多くの類似の問題に広く応用することができる。その他の種類の癌、心疾患および糖尿病発症のリスクも検討することが可能である。さらに、様々な医学的治療の有効性の予測にこの技術を用いることもできる。一言で言えば、これらは、医学的または生物学的な系における転帰を予測するために、遺伝子および環境要因の間の複雑で多因性の相互作用を定量的に分析するための方法である。

この開示は少なくとも3つの主たる態様に類型化される：
1. データのリサンプリング。
2. 症例および対照に由来するデータを偽症例および偽対照のセットに無作為に割り付けることによって、遺伝的関連性に関する帰無仮説を立てる。
3. 複雑な遺伝子型の頻度に関する算出されたHardy-Weinberg平衡推定値を用いて無限大の大規模対照集団をモデル化する。

上述のように、多くの異なる遺伝子の対立遺伝子が関与する複雑な遺伝子型の組み合わせにおける関連性を同定して、乳癌と診断されるリスクを評価することができる。乳癌発症のリスクとのそれらの総合的関連性を評価するために、複雑な遺伝子型と一部の個人歴および環境要因との相互作用も調べることができる。現在用いられている統計学的技術に伴う重大な問題は、このタイプの多変量（多遺伝子／対立遺伝子）解析が集団を多くの小グループに分割するという点である。例示的解析において、症例および対照の集団は、それぞれ1％程度の頻度で発現するグループ（jおよびk 〜0.01）に分割され得る。この範囲において、発症頻度、従ってオッズ比の推定値は不正確である可能性がある。

これらの不正確さを解決するために、従来の試験デザインは極端に大きな試料サイズを必要とする。本開示の技術は、依然大きいものの相対的に小さな試料サイズを用いて、正確なオッズ比推定値を与える一連の強力な新しい統計学的方法を含む。乳癌発症のリスクの推定に的を絞ることができるならば、本明細書に開示される分析方法は多変量遺伝子解析によって集団が多くの小グループにさらに分割されるその他の様々な問題に直ちに応用可能である。

統計学的方法−ポアソン問題の影響の制限：
リサンプリング
ポアソンが述べた通り、大きな集団の任意のサンプルにおいて観測される稀なイベントの数には極めて高い可変性がある。機能的には、このことは、集団に由来する一連のサンプルにおいて、不釣り合いな数のサンプルが著しく過多の稀なイベントを含んで、その他のサンプルは含まれるイベントが少な過ぎるかまたは含まれないということを意味する。症例および対照における稀なイベントの頻度が小さくなるに伴って、オッズ比の推定値はj/kに近づく。jおよびkのこれらの推定値がサンプルによって大きく変動すると、関連するオッズ比の推定値が大きく変動する。科学文献には、比較的稀なイベントと特定の疾患状態との関連性について大きく異なるオッズ比や時として相反するオッズ比が観測された多くの独立した症例／対照試験の例が豊富にある。

本開示に説明されたこの問題の解決策は、同一データの1回の観測から得られるよりもより変動の小さいオッズ比推定値集団が得られるようにデータをリサンプリングすることによって、オッズ比の推定における変動を抑制することである。

機能的に、症例および対照の双方において稀なイベントの多くの例が観察できる十分な大きさの試料サイズから始めてよい。経験的には、症例または対照のいずれかにおいて稀なイベントの独立した観測が7件よりも少ないと、オッズ比の推定値が不確実となる。症例および対照の双方において7件を越える独立した観測が好ましい。次に、サンプルにおけるこれらの稀なイベントの分布は症例および対照の集団全体におけるそれらの分布を代表すると仮定してよい。次いで、データにおいて症例および対照の総数の顕著な割合がリサンプリングされるまで、データセットから症例および対照をランダムに選択してよい。一つの態様において、データ全体の50〜80％を選択することができる。その後、このリサンプリングされたデータセットについて、オッズ比およびいくつかのその他の統計量（例えば、当技術分野において既知でありデータのさらなる性状分析に適切な任意の統計量）を算出することができる。結果は別の「リサンプリング結果」のデータベースとして保存することができる。その後、このプロセスを多くの回数反復することが可能であり、一つの態様において約500回反復することができる。続いて、リサンプリングデータベースに行って、オッズ比およびその他の各種統計量の平均値を算出することができる。稀なイベントのオッズ比は、データセット全体について算出されたオッズ比と同一（またはほぼ同一）となるであろう。但し、リサンプリングされたデータセットから得られるオッズ比の変動はより小さくなる。従って、ポアソン問題によって生じる極値の影響は抑制されている。この方法を用いて、実際に既存のデータよりも大きなデータセットのモデルが作製されて、モデル化されたデータセットは既存のデータのいずれの一部よりもより適切に集団全体を代表すると仮定されている。

この技術によって、選択された個人歴測定値および環境要因と共に、多くの遺伝子に由来する対立遺伝子の何千という組み合わせについて調べることが可能となる。これらの多くの組み合わせの各々は、症例および対照の集団において比較的稀なイベントとして示される。これらの各組み合わせについて、本明細書に述べられる工程を実施するための適切なソフトウェアを用いて上記の分析を実施することができる。一つの適切な例を次の実施例2に示す。

帰無仮説の設定
前記のもう一つの技術は、検討対象である稀なイベントは評価対象である疾患または状態に関連しないという帰無仮説を設定する工程を伴う。対照に対して症例における1.0から外れるオッズ比はいずれも、単純にポアソン問題に惹起される人為的値である可能性がある。この帰無仮説が真であるとすると、症例由来のデータは対照と同一集団のリサンプリングである。そこで、症例および対照の双方に由来するすべてのデータを統合して一つの大きなデータセットとする。ここで、このデータをリサンプリングして、個々のデータを症例グループまたは対照グループに無作為に割り付ける。両グループがランダムに割り付けられた症例および対照の分類を含むことから、これらのグループを偽症例および偽対照と呼ぶ。次に、オッズ比およびその他の統計量を算出して、これらの結果を結果データベースに保存する。このプロセスを多くの回数反復することが可能であり、一つの態様において約500回反復することができる。ここで、平均オッズ比およびオッズ比の標準偏差を算出することができる。予想される結果では、平均オッズ比が1.0となる。これらの統計量を用いて、実際のデータ（現実の症例および現実の対照）から得られるオッズ比が実際に帰無仮説に由来するデータのリサンプリングである確率を求めることができる。

対照のHardy-Weinbergモデル化
個々の対立遺伝子の対立遺伝子頻度が明らかであるとすると、Hardy-Weinberg平衡モデルによって、集団内の任意の数の遺伝子における対立遺伝子の任意の組み合わせの任意の遺伝子型の頻度が予測される。その集団はランダム交配プールであり、遺伝子は連鎖していない（即ち、それらの遺伝子はゲノム内で互いに近位に位置しない）と仮定する。本発明者らは、これらの仮定が検討対象である遺伝子の大半において満たされていることを明らかにしている。

Hardy-Weinbergモデルは、無限大ではないまでも極めて大きな対照集団における遺伝子型の頻度を予測する。対照のHardy-Weinbergモデル化は、前記の2つの方法のいずれかに用いることができる。

実施例2：
インタージェネティックス（Intergenetics）乳癌コホートは、古典的な症例-対照試験としてデザインされる：症例〜1000件、対照〜約4000件。解析のための主なツールはオッズ比統計量であり、これは相対的リスク、即ち、暴露を受けていないグループに比して（または一般的集団における平均リスクに比較して）暴露を受けたグループ内の人々における乳癌発症の増大リスクを概算する。この実施例における暴露は、1組の遺伝子セットに対立遺伝子の特定の組み合わせを持っている。

検討対象である遺伝子は一般に、便宜上、AおよびBと呼ばれる2つの対立遺伝子を持つ。想定される優性パターンを考慮して、これには遺伝子当たり5通りの遺伝子型クラスがある。従って、二つの遺伝子の組み合わせに関しては、5×5＝25通りの遺伝子型組み合わせが考えられて、三遺伝子の組み合わせに関しては125通りがある。従って、20の遺伝子のセットがあって、そこから一度に三つを選択するとすると（1140通りの選択）、検討対象である三遺伝子の組み合わせは142,500通りある。

この実施例の目的は、乳癌の統計学的に有意な増大リスクに至る遺伝子型組み合わせを検索することのできるソフトウェアを提供することである。補遺に示すコンピュータプログラムとして提供されるソフトウェアのソースコードは、図1と類似のリサンプリングスキームを利用している。本開示の利点を用いて、当業者は同じく図2に示す無作為化技術を実行するためにそのソースコードを容易に修正することができる。ソースコードはFORTRANであるが、統計処理の詳細を実施するために適切なその他の任意のコンピュータ言語を使用してよい。

補遺に示すコンピュータプログラムは、リサンプリングスキームプログラムのためのFORTRANソースコードの一つの態様である。そのプログラムはその後に与えられるソースコードのサブルーチンを呼び出す。これらのサブルーチンはオッズ比および理論的p値を算出する。ソースコードの最終部分は、繰り返し呼び出される出力サブルーチンである。

本開示の利点を用いて、当業者は本発明において特許請求される前述の技術が専ら例示的態様であって、修正して多くの付加的な異なるアプリケーションに応用して同一または類似の結果が達成可能であることを認識するであろう。例えば、図1の技術は図2の技術と組み合わせて用いてよい。具体的には、図1のリサンプリングスキームにおいて経験的p値を算出することが可能であり、図2の無作為化方法においてリサンプリング技術を用いてよい。同様に、図3の技術は図1、図2の技術、または図1および図2の組み合わせと一緒に用いることができる。本明細書に添付される特許請求の範囲は、本開示の範囲および精神の範囲内のこのようなすべての修正を網羅する。

補遺

本開示の技術は、本明細書に示される例示的態様の詳細な説明に加えてこれらの図面の一つまたはいくつかを参照することによって、より適切に理解され得る。
本開示の態様に従って、疾患に関する増大リスクを統計学的に同定するためのリサンプリング方法を示すフローチャートである。本開示の態様に従って、疾患に関する増大リスクを統計学的に同定するための無作為化法を示すフローチャートである。本開示の態様に従って、対照のHardy-Weinbergモデル化の使用を例証するフローチャートである。

Claims

疾患の増大リスクを統計学的に同定する方法であって、次の工程を含む方法：
その疾患における症例／対照データセットの複数のリサンプリングサブセットを決定する工程；
各リサンプリングサブセット内の異なる遺伝子型組み合わせについて疾患オッズ比を求めて、それによってオッズ比分布を作製する工程；
各リサンプリングサブセット内の各疾患オッズ比についてp値を求めて、それによってp値分布を作製する工程；および、
オッズ比分布およびp値分布の一方または双方を用いて一つまたはそれ以上の特定の遺伝子型組み合わせに関連する疾患の増大リスクを同定する工程。
疾患のオッズ比またはp値がHardy-Weinbergモデルに基づく遺伝子型頻度予測を用いて求められる、請求項1記載の方法。
複数のリサンプリングサブセットが異なるサイズである、請求項1記載の方法。
各リサンプリングサブセットのサイズがランダムに決定される、請求項3記載の方法。
異なる遺伝子型組み合わせが優性遺伝子型クラスの一つまたはそれ以上の組み合わせを含む、請求項1記載の方法。
異なる遺伝子型組み合わせが、多くの遺伝子内の多くの多型部位の群から選択される3箇所までの多型部位に関連する遺伝子型組み合わせより生じる、請求項1記載の方法。
疾患の増大リスクを同定する工程が、オッズ比分布およびp値分布の一方または双方に基づいて数値化されるリスク因子を割り付ける工程を含む、請求項1記載の方法。
複数のリサンプリングサブセットが2から1000のリサンプリングサブセットを含む、請求項1記載の方法。
複数のリサンプリングサブセットが1,000から1,000,000のリサンプリングサブセットを含む、請求項1記載の方法。
複数のリサンプリングサブセットが1,000,000から100,000,000のリサンプリングサブセットを含む、請求項1記載の方法。
リサンプリングサブセットから一つまたはそれ以上の遺伝子型非分類サンプルを排除する工程をさらに含む、請求項1記載の方法。
同定する工程が、オッズ比分布およびp値分布から得られる平均オッズ比または平均p値の一方または双方を考慮する工程を含む、請求項1記載の方法。
疾患の増大リスクを統計学的に同定する方法であって、次の工程を含む方法：
症例／対照データセットにおいて異なる遺伝子型組み合わせに関する疾患オッズ比を求める工程；
複数の並べ換えられたデータセットを定義するためにデータセット内の症例および対照データエントリーのための名称をランダムに変更する工程；
並べ換えられた各データセットにおける異なる遺伝子型組み合わせについて並べ換えられたオッズ比を求める工程；
並べ換えられたオッズ比を用いて疾患のオッズ比における経験的p値を求める工程；および、
疾患のオッズ比および経験的p値の一方または双方を用いて一つまたはそれ以上の特定の遺伝子型組み合わせに関連する疾患の増大リスクを同定する工程。
異なる遺伝子型組み合わせが優性遺伝子型クラスの一つまたはそれ以上の組み合わせを含む、請求項13記載の方法。
異なる遺伝子型組み合わせが、多くの遺伝子内の多くの多型部位の群から選択される3箇所までの多型部位に関連する遺伝子型組み合わせより生じ、各多型部位は2つまたはそれよりも多い対立遺伝子バリアントを持つ、請求項13記載の方法。
疾患の増大リスクを同定する工程が、疾患のオッズ比および経験的p値の一方または双方に基づいて数値化されるリスク因子を割り付ける工程を含む、請求項13記載の方法。
症例／対照データセットから一つまたはそれ以上の遺伝子型非分類サンプルを排除する工程をさらに含む、請求項13記載の方法。
次の工程のための説明書を含むコンピュータ読み取り可能媒体：
その疾患における症例／対照データセットの複数のリサンプリングサブセットを決定する工程；
各リサンプリングサブセット内の異なる遺伝子型組み合わせに関する疾患オッズ比を求めて、それによってオッズ比分布を作製する工程；
各リサンプリングサブセット内の各疾患オッズ比に関するp値を求めて、それによってp値分布を作製する工程；および、
オッズ比分布およびp値分布の一方または双方を用いて一つまたはそれ以上の特定の遺伝子型組み合わせに関連する疾患の増大リスクを同定する工程。
Hardy-Weinbergモデルに基づく遺伝子型頻度予測を用いて疾患のオッズ比またはp値を求める工程のための説明書をさらに含む、請求項18記載の媒体。
リサンプリングサブセットが異なるサイズである、請求項18記載の媒体。
各リサンプリングサブセットのサイズがランダムに決定される、請求項20記載の媒体。
異なる遺伝子型組み合わせが優性遺伝子型クラスの一つまたはそれ以上の組み合わせを含む、請求項18記載の媒体。
次の工程のための説明書を含むコンピュータ読み取り可能媒体：
症例／対照データセット内の異なる遺伝子型組み合わせに関する疾患オッズ比を求める工程；
複数の並べ換えられたデータセットを定義するためにデータセット内の症例および対照データエントリーのための名称をランダムに変更する工程；
並べ換えられた各データセットにおける異なる遺伝子型組み合わせに関して並べ換えられたオッズ比を求める工程；
並べ換えられたオッズ比を用いて疾患のオッズ比に関する経験的p値を求める工程；および、
疾患のオッズ比および経験的p値の一方または双方を用いて一つまたはそれ以上の特定の遺伝子型組み合わせに関連する疾患の増大リスクを同定する工程。
異なる遺伝子型組み合わせが優性遺伝子型クラスの一つまたはそれ以上の組み合わせを含む、請求項23記載の媒体。