JP2017146238A - バイオマーカー探索装置、バイオマーカー探索方法およびプログラム - Google Patents

バイオマーカー探索装置、バイオマーカー探索方法およびプログラム Download PDF

Info

Publication number
JP2017146238A
JP2017146238A JP2016029120A JP2016029120A JP2017146238A JP 2017146238 A JP2017146238 A JP 2017146238A JP 2016029120 A JP2016029120 A JP 2016029120A JP 2016029120 A JP2016029120 A JP 2016029120A JP 2017146238 A JP2017146238 A JP 2017146238A
Authority
JP
Japan
Prior art keywords
snp
biomarker
snps
search
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016029120A
Other languages
English (en)
Other versions
JP6929015B2 (ja
Inventor
滋 真矢
Shigeru Maya
滋 真矢
貴史 小磯
Takashi Koiso
貴史 小磯
研 植野
Ken Ueno
研 植野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2016029120A priority Critical patent/JP6929015B2/ja
Publication of JP2017146238A publication Critical patent/JP2017146238A/ja
Application granted granted Critical
Publication of JP6929015B2 publication Critical patent/JP6929015B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

【課題】医学上の知見を考慮に入れて、バイオマーカー候補を効率的に探索可能にする。【解決手段】バイオマーカー探索装置は、ゲノム内の複数のSNP(Single-Nucleotide Polymorphisms:一塩基多型)の中から、特定の疾病に関連があると推測される特定のSNPを指定する特定SNP指定部と、前記特定のSNPおよび検体の形質情報に基づいて、前記特定の疾病に関連があると推測されるSNPを2つ以上含むバイオマーカー候補を探索する候補探索部と、前記バイオマーカー候補を出力する候補出力部と、を備える。【選択図】図1

Description

本発明の実施形態は、バイオマーカー探索装置、バイオマーカー探索方法およびプログラムに関する。
人間のゲノムは、およそ30億の塩基対の配列が二本で構成されており、さらに22種類の染色体の常染色体とX、Yの性染色体に分かれている。各塩基対は同一民族内でほぼ一致するものの、個人によって異なる塩基対が、複数箇所に渡って存在する。その異なる塩基対は、SNP(Single-Nucleotide Polymorphisms:一塩基多型)と呼ばれている。
SNPの中には疾病の形質発現に影響を与えるものがあることが知られている。ただし形質とは、例えば疾病の有無である。また、個々のSNPは、単独では形質発現との関連性が認めにくいが、複数のSNPの組合せにより、その形質が発現する可能性も示唆されている。このような、疾病としての形質発現との関連性が認められるSNPの組合せをバイオマーカー候補と呼ぶ。
バイオマーカー候補の中で、医学的な検証や生物学的な因果分析、生活習慣などの環境要因や、年齢などの別の要因による影響の有無等の検証を経て、真にその因果関係が導出されたものがバイオマーカーとされ、公にある形質発現と関連性のある情報として、その知見を用いた治療などの実サービスに適用可能な有用な情報として認知される。
このようなSNPの組合せを検出する技術は、近年のゲノム解析技術によってもたらされた。SNPの組合せには膨大な数があるため、すべての組合せについて、疾病の形質発現への影響を調べるのは容易ではない。このため、SNPの組合せを限定して探索を行わざるを得ないのが実情である。二つまでの組合せに関しては全探索を行う手法がある。または、高々二種類のSNPの組合せを基にSNPごとのランキングを作成し、組合せの探索を行う手法もある。しかしながら、全探索を用いる場合には計算時間の問題から3つ以上の探索を行うことは困難である。また、医学的な知見として、特定の疾病への関連性が高いと認識されているSNPもあり、このようなSNPの情報を考慮に入れた上で、バイオマーカー候補を検出するのが望ましい。
しかしながら、医学的な知見によって得たSNPの情報を考慮に入れて、膨大な組合せの中からバイオマーカー候補を探索する効率的な手法は、今まで提案されていない。
特開2010−224815号公報 特開2013−175135号公報
本発明の一実施形態は、医学上の知見を考慮に入れて、バイオマーカー候補を効率的に探索可能なバイオマーカー探索装置、バイオマーカー探索方法およびプログラムを提供するものである。
本実施形態によれば、塩基配列内の複数のSNP(Single-Nucleotide Polymorphisms:一塩基多型)の中から、特定の疾病に関連があると推測される特定のSNPを指定する特定SNP指定部と、
前記特定のSNPおよび検体の形質情報に基づいて、前記特定の疾病に関連があると推測されるSNPを2つ以上含むバイオマーカー候補を探索する候補探索部と、
前記バイオマーカー候補を出力する候補出力部と、を備えるバイオマーカー候補探索装置が提供される。
一実施形態によるバイオマーカー探索装置の概略構成を示すブロック図。 疾病有無ベクトルと接合タイプ行列の一例を示す図。 SNP組合せ行列の一例を示す図。 対象の検体の疾病の有無の識別方法を示すフローチャート。 一実施形態によるバイオマーカー探索装置のより詳細なブロック図。 SNP形質DBの一例を示す図。 検体情報入力部の処理手順の一例を示すフローチャート。 検体情報登録DBの一例を示す図。 SNP情報登録DBの一例を示す図。 関連SNP登録DBの一例を示す図。 検体情報入力部と検索条件入力部を兼ねるGUI画面の一例を示す図。 本実施形態によるバイオマーカー探索装置の処理手順を示すフローチャート。 ステップS18におけるSNP組合せ行列の各接合体要素のスコアの一例を示す図。 通りの組合せのうちの3つ(以下、組合せc1〜c3)の識別誤差をそれぞれ示す図。 SNP組合せ行列の更新方法を示すフローチャート。 ステップS22の出力形態の一例を示す図。 各SNPの組合せの判別精度を示すオッズ値または−log(P値)をプロットした図。
以下、図面を参照しながら、本発明の一実施形態を説明する。図1は一実施形態によるバイオマーカー探索装置1の概略構成を示すブロック図である。図1のバイオマーカー探索装置1は、特定SNP指定部2と、候補探索部3と、候補出力部4とを備えている。
特定SNP指定部2は、ゲノム(塩基配列)内の複数のSNP(Single-Nucleotide Polymorphisms:一塩基多型)の中から、特定の疾病に関連があると指定された特定のSNPを取得する。
候補探索部3は、特定のSNPおよび検体の形質情報に基づいて、特定の疾病に関連があると推測されるSNPを2つ以上含むバイオマーカー候補を探索する。検体の形質情報は、例えば、後述する探索登録情報DBに登録されている。よって、候補探索部3は、より詳細には、特定SNP指定部2で指定された特定SNPと探索登録情報DBに基づき、特定SNP指定部2で指定したSNPを1つ以上含むSNPの組合せをK個(Kは2以上の整数)探索する。
図2は探索登録情報DB内の登録情報の一例を示す図である。図示のように、探索登録情報DB内には、疾病有無ベクトルが登録されている。図2の疾病有無ベクトルには各検体の疾病の有無情報が記録されている。値が1ならば対応する検体は疾病を有し、値が0ならば疾病を有さないことを示す。また、各SNPは2つの塩基の組合せから構成されており、A(アデニン)とT(チミン)、もしくはG(グアニン)とC(シトシン)がペアとなる。また各SNPで登場する2種類の塩基のうち数が多い方をメジャーアリル、数が少ないほうをマイナーアリルとよぶ。そのため各SNPを構成する塩基の組合せは共にメジャーアリル(メジャーホモ接合体、XX)、メジャーアリルとマイナーアリル(ヘテロ接合体、XY)、共にマイナーアリル(マイナーホモ接合体、YY)の3種類の接合体に分類できる。探索登録情報DB内には、図2に示すように、各検体の接合タイプを表した接合タイプ行列が登録されている。
図3はSNPの組合せを2個探索した例である。図3では行数が組合せ数(K)、列数がSNPの接合体数である行列をSNP組合せ行列と呼び、SNP組合せの出力を示している。SNP組合せ行列内の要素が1の値を取るものが対応するSNP組合せで用いられるものに該当する。図3の場合、T1で示す通り、組合せ数が2の場合であり1つ目の組合せが(SNP−00001がXX、SNP−00002がYY)であり、2つ目の組合せが(SNP−00003がXY、SNP−00004がXY)である。候補探索部3は、典型的には、指定した特定のSNPを含む、2つ以上のSNPが含まれる組合せを探索する。ただしデータセットと条件によっては特定のSNPが含まれない場合も想定されるため、その場合にはエラーを返す。
複数のSNPの組合せを用いた各検体の疾病の有無の識別方法は、例えば図4のフローチャートで表される。探索されたK個のSNPの組合せのうち、いずれかの組合せに用いられる全てのSNPの接合体を検体が有している場合に疾病ありと識別する。図3の場合には(SNP−00001がXXかつSNP−00002がYY)または(SNP−00003がXYかつSNP−00004がXY)の条件を満たす検体は疾病ありと識別を行う。図4のフローチャートの説明は後述する。
図1に示すように、候補探索部3は、評価値算出部5と、識別誤差算出部6と、最小識別誤差選択部7とを有する。評価値算出部5は、複数のSNPのそれぞれが前記バイオマーカー候補となりうる可能性の高さを示す評価値をSNPごとに算出する処理をV(Vは2以上の整数)回行う。より詳細には、評価値算出部5は、図3のSNP組合せ行列の各要素がSNPの組合せとして選択される可能性の高さを示す評価値を各SNPで算出する処理をV(Vは2以上の整数)回行う。本明細書では、評価値をスコアとも呼ぶ。以下では、SNP組合せ行列の各要素を、接合体要素とも呼ぶ。図3に示すように、各SNPごとに、例えばXX、XY、YYの計3個の接合体要素が設けられている。
識別誤差算出部6は、評価値算出部5による各回の評価値の最大値に対応するSNPをV個集めた中での任意のSNPの組合せについて、特定の疾病との関連性の高さを示す識別誤差を算出する。より詳細には、識別誤差算出部6は、評価値算出部5による各回の評価値の最大値に対応する接合体要素をV個集めた中での各接合体要素がSNP組合せ行列において0,1のいずれかの値を取る全ての組合せである2通りについて、SNP組合せ行列が各検体の疾病の有無を正しく識別できた度合を表す識別誤差を算出する。この場合、接合体要素が1の値を取る場合に対応する接合体要素をSNP組合せとして採用することを示し、0の値を取る場合SNP組合せとして採用しないことを示す。最小識別誤差選択部7は、各接合体要素がSNP組合せ行列において0,1のいずれかの値を取る全ての場合において識別誤差が最小のSNPの組合せを選択する。評価値算出部5および識別誤差算出部6は、最小識別誤差選択部7にて選択された接合体要素を用いてSNP組合せ行列を更新する。そして評価値算出部5からU(Uは2以上の整数)回の処理をそれぞれ繰り返し、SNP組合せ行列を更新する。候補探索部3で算出される出力結果であるSNP組合せ行列が典型的にはSNPを2つ以上含むバイオマーカー候補と対応している。
候補出力部4は、候補探索部3が探索したバイオマーカー候補を出力する。より詳細には、候補出力部4は、U回の処理後に最小識別誤差選択部7により選択されたSNPの組合せであるSNP組合せ行列をバイオマーカー候補として出力する。
候補探索部3は、SNP組合せ行列の初期値を設定する行列初期化部8を有していてもよい。
また、評価値算出部5は、最大接合体要素選択部9と複数接合体要素選択部10を有していてもよい。最大接合体要素選択部9は、SNP組合せ行列内の各接合体要素を取得して評価値を算出して、評価値が最大の接合体要素を選択する。複数接合体要素選択部10は、最大接合体要素選択部9の処理をV回繰り返して、各回にそれぞれ相違する接合体要素を総計V個選択する。
この場合、識別誤差算出部6は、複数接合体要素選択部10にて選択されたV個の接合体要素のそれぞれをSNPの組合せとして選択するか否かのすべての組合せについて、識別誤差を算出する。
図5は一実施形態によるバイオマーカー探索装置1のより詳細なブロック図である。図5のバイオマーカー探索装置1は、図1に示した各部を有する他に、SNP形質DB11と、検体情報入力部12と、検体情報登録DB13と、SNP情報登録DB14と、特定SNP登録DB15と、関連SNP登録DB16と、探索範囲SNP選択部(探索範囲取得部)17と、選択SNP登録DB18と、探索情報照合部19と、探索情報登録DB20と、検索条件入力部21と、バイオマーカー候補登録DB22とを備えている。
SNP形質DB11は、各検体に含まれる複数のSNP(SNP系列データとも呼ばれる)と、各検体が特定の形質を有するか否かの情報とを対応づけて登録したデータベースである。なお、本明細書では、「データベース」をDBと略する。
図6はSNP形質DB11の一例を示す図である。図6に示すように、SNP形質DB11には、各検体の識別番号と、各検体に含まれるSNPの情報と、各検体が特定の疾病を有するか否かの情報とが登録されている。
ここで、SNPとは遺伝子配列の中で個人により特徴が異なる塩基対である。例えば図6において、遺伝子配列位置SNP-00002では、複数の検体P-001〜P-010によって取り得る遺伝子型の組合せがCC,CT,TTの場合があり検体により異なる。このように遺伝子型の組合せが検体により異なる塩基対のことをSNPと呼ぶ。
また、図6のSNP形質DB11では、検体ごとに、2種類の疾病Trait-001とTrait-002に対する形質の有無を0と1で表している。0が形質なしで、1が形質ありである。なお、SNP形質DB11に登録される疾病の種類や数は特に問わない。
検体情報入力部12は、各検体の問診などの診断結果や、過去の病歴、親族の罹患履歴などの検体に関する属性情報および形質情報を入力する。入力された属性情報は、検体情報DBに登録される。
図7は検体情報入力部12の処理手順の一例を示すフローチャートである。検体情報入力部12は、検体番号(ステップS1)、検体の年齢(ステップS2)、国籍(ステップS3)、既往歴(ステップS4)、体型(ステップS5)を順に入力する。ステップS1〜S5の入力順序は、特に問わない。検体情報入力部12の入力は、キーボード等の情報入力機器を用いて行われる。
次に、検体情報入力部12は、ステップS1〜S5にて入力された各情報を検体情報登録DB13に登録する(ステップS6)。なお、ステップS6の処理は、ステップS1〜S5のステップごとに行ってもよい。
ステップS1〜S5で入力された各情報は、属性情報や検体情報とも呼ばれる。図7の処理により、検体情報登録DB13への登録を行うことで、検体番号P-001〜P-010のうち任意の検体番号を指定することで、その検体番号に対応する属性情報を一括して検体情報登録DB13から取得することができる。
図8は検体情報登録DB13の一例を示す図である。図8の例では、検体情報登録DB13には、検体ごとに、収縮期血圧と、拡張期血圧と、検体に対応する人間の病歴有無情報と、その人間の親族の病歴有無情報とが登録されている。図8は一例であり、検体情報登録DB13に登録する検体情報には、特に制限はない。
SNP情報登録DB14は、検体ごとに、遺伝子型を構成するSNPの情報と、複数の疾病の有無情報とを登録する。
図9はSNP情報登録DB14の一例を示す図である。図9では、各SNPを、メジャーホモ接合体、マイナーホモ接合体およびヘテロ接合体の3つに分けている。該当する接合体の場合に1の値を取る。
図9に示すように、一つのSNPについて3つの接合体があるため、列数はSNP数の3倍になる。これら3つの接合体のうち、いずれか1つのみが1になり、残り2つは0になる。
図9では、検体ごとに、ある疾病に対する形質がある場合を1、ない場合を0としている。同じ疾病に対して、複数の検体が形質ありとしてもよい。
関連SNP登録DB16は、ある共通性をグループ化したID(以下、グループID)と、その共通性と関連のあるSNPのIDとを登録したデータベースである。ある共通性とは、例えば、一般的な疾患で関連性が認められたSNP群や、染色体で免疫を司るSNP群などを指す。相関のあるSNPを有する検体で検索対象を絞り込む場合に、グループIDを指定することで、関連するSNPのID群を選定し、その遺伝子型を持つ検体のみで、特定のSNP群の探索を行うことができる。
図10は関連SNP登録DB16の一例を示す図である。図10の関連SNP登録DB16には、グループIDと関連SNPのIDとが対応づけて登録されている。例えば、グループChr-001には、関連するSNPの情報として、SNP-00001、SNP-00002、…、SNP-01000が登録されている。Chr-001〜Chr-022は染色体番号であり、HLA-001〜HLA-003はHLA領域の番号である。
探索範囲SNP選択部17は、関連SNP登録DB16に登録されているグループIDを選択し、対応するSNPの部分集合を指定し、この部分集合に対応するSNP番号を選択SNP登録DB18に登録する。選択SNP登録DB18のデータ構造は、関連SNP登録DB16と同様であり、関連SNP登録DB16の登録データの一部が選択SNP登録DB18に登録される。
図1にも示した特定SNP指定部2は、図5のSNP情報登録DB14に登録された中から、特定のSNPを指定して、特定SNP登録DB15に登録する。
探索情報照合部19は、特定SNP登録DB15に登録された特定のSNPと、SNP形質DB11内の登録情報と、検体情報登録DB13内の登録情報と、選択SNP登録DB18内の登録情報とを照合し、合致する情報を探索情報登録DB20に登録する。
図5に示す特定SNP指定部2と検索条件入力部21は、不図示の表示装置に表示されたGUI(Graphical User Interface)画面にて入力することができる。図11は検体情報入力部12と検索条件入力部21を兼ねるGUI画面の一例を示す図である。図11のGUI画面は、ウインドウw1〜w4を有する。このうち、ウインドウw1とw2は特定SNP指定部2に対応し、ウインドウw4は検索条件入力部21に対応する。
ウインドウw1(第1ウインドウ)は、特定SNP指定部2にて指定される特定のSNPを指定する。ウインドウw2(第2ウインドウ)は、指定された特定のSNPすべてを列記する。ウインドウw3(第3ウインドウ)は、特定の疾病の種類を指定する。ウインドウw3には、例えば複数の疾病名と、各疾病を選択するラジオボタンとが設けられており、ユーザは、任意のラジオボタンにチェックを付けることで、そのラジオボタンに対応した疾病を選択することができる。また、ウインドウw4では候補探索部3で必要となる各種パラメータを入力する。具体的な一例としては、評価値(スコア)を補正するためのパラメータε、識別誤差を補正するためのパラメータα、SNPの組合せ数K、候補探索部3内での繰り返し回数を表すパラメータU、Vなどである。
ユーザは、ウインドウw1〜w4の選択および設定が完了すると、画面内の右下に設けられたsubmitボタンb1を押下する。これにより、特定SNP指定部2と検索条件入力部21の処理が終了する。
検索条件入力部21は、第1補正定数入力部21aと第2補正定数入力部21bを備えていてもよい。第1補正定数入力部21aは、特定のSNPの評価値を補正するための第1補正定数(ε)を入力する。評価値算出部5は、第1補正定数に基づいて、特定のSNPの評価値を算出する。これにより、特定のSNPの評価値を他のSNPの評価値よりも優先的に高くすることができる。
第2補正定数入力部21bは、特定のSNPを含むSNPの組合せに対応する識別誤差を補正するための第2補正定数(α)を入力する。識別誤差算出部6は、第2補正定数に基づいて、特定のSNPを含むSNPの組合せに対応する識別誤差を算出する。これにより、特定のSNPを含むSNPの組合せに対応する識別誤差を小さく設定することができる。
検索条件入力部21は、バイオマーカー候補となるSNPの組合せの個数Kを入力するK入力部21cを備えていてもよい。
また、検索条件入力部21は、上述したUを入力するU入力部21dと、上述したVを入力するV入力部21eとを備えていてもよい。上述したように、Vは評価値算出部5が評価値算出部5において接合体要素を選択する個数である。また、Uは最小識別誤差選択部7が識別誤差の最小のSNPの組合せを選択する処理を行う回数である。
図12は本実施形態によるバイオマーカー探索装置1の処理手順を示すフローチャートである。まず、探索情報登録DB20から、探索範囲内のSNP系列データと検体の形質情報とを取得する(ステップS11)。以下では、探索範囲内SNP系列データを接合タイプ行列と呼び、検体の形質情報を形質ベクトルと呼び、検体の疾病有無情報を疾病有無ベクトルと呼ぶ場合もある。
図9に示すように、接合タイプ行列の行方向は検体数分の行を有し、列方向は一つのSNPに対して3種類の接合体(メジャーホモ接合体、ヘテロ接合体、マイナーホモ接合体)を有し、列方向の総数は、3×SNP数である。形質ベクトルの行方向は検体数分の行を有し、列方向は疾病数分の列を有する。
接合タイプ行列は、一つのSNPに対して、3つの要素を有する。例えば、メジャーホモ接合体では{1,0,0}、ヘテロホモ接合体では{0,1,0}、マイナーホモ接合体では{0,0,1}で表現する。接合タイプ行列は、列方向にSNP数だけ並んでおり、行方向に検体数だけ並んでいる。
接合タイプ行列と疾病有無ベクトルは、探索情報登録DB20に登録されており、ステップS11では、この探索情報登録DB20から探索範囲内のSNP系列データと検体の形質情報とを取得する。
図2は疾病有無ベクトルと接合タイプ行列の一例を示す図である。疾病有無ベクトルは、図3のSNP形質DB11内の形質を表す複数列分のうち1列を指定する。あるいは、複数列分の形質情報から、積または和演算を行って得た値を0と1に置換してもよい。
このように、図12のステップS11では、図9や図2の表データを用いて、探索範囲内の接合タイプ行列と形質ベクトルを取得する。
次に、ユーザが特定SNP指定部2にて指定した特定のSNPと、ユーザが検索条件入力部21にて入力した各種検索条件とを取得する(ステップS12)。ここで取得する検索条件は、例えば、検索条件入力部21にて入力したSNP組合せの個数(SNP組合せ行列の行数)Kと、特定のSNPの評価値を補正するための第1補正定数と、特定のSNPを含むSNPの組合せに対応する識別誤差を補正するための第2補正定数と、評価値算出部5が評価値を算出する回数Vと、最小識別誤差選択部7が識別誤差の最小のSNPの組合せを選択する処理を行う回数Uとを含む。
次に、行列初期化部8にてSNP組合せ行列を初期化する(ステップS13)。SNP組合せ行列の各要素を0または1に初期化する。初期化の際に、SNP組合せ行列の各接合体要素を0または1のいずれに設定するかは任意である。
図3はSNP組合せ行列の一例を示す図である。図3はK=2の例を示している。図12のステップS13では、SNP組合せ行列の各要素を、図3のSNP組合せ行列には、2×15=30個の接合体要素が含まれている。このように、1つのSNPには3種類の接合体があるため3つの接合体要素を有し、各接合体要素は0か1を取り得る。最終的にSNP組合せ行列の各行がSNPの組合せに相当する。
次に、反復回数を計測する変数uを0に初期化する(ステップS14)。続いて、SNP組合せ行列に含まれる複数の接合体要素の中からv番目に選択する接合体要素を表すための変数vを0に初期化する(ステップS15)。
次に、SNP組合せ行列内の複数の接合体要素から、相互情報量に基づいてv番目の接合体要素を取得する(ステップS16)。次に、以下の手順に従って、評価値であるスコアを計算する(ステップS17)。ステップS17の処理は、評価値算出部5内の最大接合体要素選択部9にて行われる。
ステップS17の計算にあたって、v−1個目までの接合体要素の選択が完了して、v個目の要素を選択することを考える。SNP組合せ行列のk番目の組合せのi番目の接合体要素の評価値であるスコアをS(k,i)とする。まず、v−1個の要素からなる既に選択された接合体要素の集合をRとする。そのうち、既に選択済の接合体要素の一つは、SNP組合せ行列におけるl(エル)番目のSNP組合せのj番目の要素とする。SNP組合せ行列におけるk番目SNP組合せのi番目の要素と、SNP組合せ行列におけるl(エル)番目のSNP組合せのj番目の要素との冗長度を示す修正付き相互情報量RIは、以下の(1)式で定義する。
ここで、TlはSNP組合せ行列のl番目のSNP組合せを除くK−1個のSNP組合せによって陰性と識別される(陰性と識別されない)検体の集合である。また、Tk,lは、TlとTkの共通部分の検体からなる集合である。
また、I(XTk,l,j,XTk,l,i)は、Tk,lに属する検体に関するj番目の接合体要素とi番目の接合体要素の相互情報量である。また、このとき、S(k,i)は、以下の(2)式で計算される。ただし、I(YT,XTk,i)はTkに属する検体に関してi番目の接合体要素と疾病の有無に関する相互情報量である。
次に、SNP組合せ行列内の全接合体要素の中から、最大のスコアを持つ接合体要素を選択する(ステップS18)。ステップS18の処理は、評価値算出部5内の最大接合体要素選択部9にて行われる。
図13はステップS18で変数vがVに達したと判定された場合のSNP組合せ行列のスコアの一例を示す図である。図13の例では、スコアが0.9であるk=2でSNP-00003-YYの接合体要素が選択される。
ここで、特定SNP指定部2で利用者が予め特定したSNPについては、S(k,i)+εとスコアの値をε(ε>0)だけ高くし、スコアの値を意図的に高くして選ばれやすくしてもよい。
このように、変数vの値ごとに、ステップS17,S18の処理を行って、(2)式のスコアが最大の接合体要素を一つ選択する。ステップS18の処理は、評価値算出部5内の複数接合体要素選択部10にて行われる。
次に、変数vが所定の制限数Vに達したか否かを判定する(ステップS19)。まだ達していなければ、変数vを1インクリメントして(ステップS20)、ステップS16〜S19の処理を繰り返す。
変数vが所定の制限数Vに達した段階では、V個の接合体要素が選抜されたことになる。そこで、これらSNP組合せ行列のV個の接合体要素がそれぞれ0もしくは1をとる2個の組合せのそれぞれ毎に識別誤差を算出し(ステップ21)、その中から識別誤差が最小となる組合せを探索し、SNP組合せ行列を更新する(ステップS22)。ただしSNP組合せ行列のV個以外の接合体要素に関しては現時点で値に基づいて識別誤差の計算を行う。ステップS21の処理は、識別誤差算出部6にて行われる。ステップS22の処理は、最小識別誤差選択部7にて行われる。
識別誤差を計算するにあたって、対象とする検体の疾病の有無を識別する必要がある。図4は対象の検体の疾病の有無を識別するフローチャートである。まず、識別対象の検体のIDを取得し(ステップS31)、次に、疾病の有無を識別するのに利用する変数Zを0に初期化する(ステップS32)。次に、SNP組合せ行列の行数を指定する変数kを1に初期化する(ステップS33)。次に、ステップS31で取得したIDの検体が、SNP組合せ行列が示すk番目のSNP組合せに含まれる各SNPの接合体をすべて有するか否かを判定する(ステップS34)。ステップS34でYESと判定されると、変数Zを1だけインクリメントする(ステップS35)。
ステップS34でNOと判定された場合、またはステップS35の処理が終了した場合は、変数kがSNP組合せ行列の行数Kに1を加えた値に達したか否かを判定する(ステップS36)。ステップS36でNOと判定された場合は、変数kを1だけインクリメントし(ステップS37)、ステップS34以降の処理を繰り返す。
ステップS36がYESの場合は、変数Zが1以上であれば、ステップS31で取得したIDの検体は疾病ありと識別し、変数Z=0であれば、疾病なしと識別する(ステップS38)。
識別誤差は、陽性と識別された検体が実際は陰性である検体数と、陰性と識別された検体が実際は陽性である検体数との和である。ただし、ユーザが指定した特定のSNPを含む場合は、識別誤差をα(0<α<1)倍に減算し、識別誤差を小さくすることで、特定のSNPが選ばれやすくする。
図14は2通りの組合せのうちの3つ(以下、組合せc1〜c3)の識別誤差をそれぞれ示す図である。図14の組合せc1の識別誤差は4、図14の組合せc2の識別誤差は3、図14の組合せc3の識別誤差は2である。よって、図12のステップS19では、識別誤差が2の図14の組合せc3における接合体要素が最終的に選択されて、これら接合体要素を含む新たなSNP組合せ行列が生成される。例えば、図14のc3のSNP組合せ行列の場合(SNP-00001がXXかつSNP-00002がYY)またはSNP-00003がYYならば、その検体は陽性であると識別する。
図15はSNP組合せ行列の更新手順の一例を示すフローチャートである。まず、現時点でのSNP組合せ行列を取得し(ステップS41)、評価値算出部5で算出されたV個の接合体要素を取得する(ステップS42)。
次に、変数iを0に初期化する(ステップS43)。次に、V個の接合体要素のそれぞれを1にするか0にするかのすべての組合せである2個の組合せの中からi番目の組合せにSNP組合せ行列を更新する(ステップS44)。次に、ステップS44で選択したSNP組合せ行列について、図12のステップS21の処理を行って、識別誤差を算出する(ステップS45)。
次に、変数iが2に達したか否かを判定する(ステップS46)。ステップS46がNOであれば、変数iを1だけインクリメントして(ステップS47)、ステップS44以降の処理を繰り返す。ステップS46がYESであれば、識別誤差の2個の組合せの中から最小の組合せにSNP組合せ行列を更新する(ステップS48)。
図12のステップS22の処理が終了すると、次に変数uが所定の制限回数Uに達したか否かを判定する(ステップS23)。まだ制限回数Uに達していなければ、変数uを1だけインクリメントして(ステップS24)、ステップS22で生成された新たなSNP組合せ行列を用いて、ステップS15以降の処理を繰り返す。
このように、図12の処理では、SNP組合せ行列を更新しながら、U回にわたって、接合体要素を更新する処理が行われる。
ステップS20で変数uが制限回数Uに達したと判定されると、最終的にステップS22で探索された接合体要素の組合せをバイオマーカー候補として出力する(ステップS25)。
図16はステップS22の出力形態の一例を示す図である。図16のウインドウw11(第1ウインドウ)は、特定SNP指定部2にて指定される特定のSNPを指定する。ウインドウw12(第2ウインドウ)は、指定された特定のSNPすべてを列記する。ウインドウw13(第3ウインドウ)は、特定の疾病の種類を指定する。ウインドウW14(第4ウインドウ)は、バイオマーカー候補内の各SNPを表示する。ユーザは、ウインドウw14のバイオマーカー候補を確認した上で、ウインドウw11にて特定のSNPの指定をやり直して、resubmitボタンb2を押下して、再度図12のバイオマーカー候補探索を行うことも可能である。
ステップS22の出力形態は、図16に示した画面表示例に限定されるものではない。例えば、図17は各SNPの組合せの識別精度を示すオッズ値または−log(P値)をプロットした図である。横軸は特定のSNPを含む個数、縦軸はオッズ値または−log(P値)である。図17の破線は利用可否識別閾値である。この利用可否識別閾値は、検索条件入力部21にてユーザが入力した域値と、オッズ値または−log(P値)の平均値または標準偏差値とを合算して生成されるものである。バイオマーカー候補のうち、ユーザが指定した特定のSNPを一つでも含む場合に、特定のSNPを利用可能として表示し、それ以外は、特定SNP利用不可23とエラー表示する。
図17の結果を受けて、ユーザは、図16を用いて、特定のSNPや検索条件などの検索条件を変更するなどして、バイオマーカー候補の再探索を行うことができる。
このように、本実施形態では、ゲノム内の複数のSNPから、特定の疾病に関連があると推測される特定のSNPを予め入力し、入力された特定のSNPと検体の形質情報とに基づいて、特定の疾病に関連があると推測されるSNPを1つ以上含むバイオマーカー候補を探索する。これにより、医師の知見により、特定のSNPが特定の疾病に関連があるという情報がわかっている場合には、その情報を考慮に入れて、バイオマーカー候補を探索できる。
また、本実施形態によれば、2以上のSNPを含むバイオマーカー候補を探索できるため、複数のSNPの組合せにより生じる疾病についても、そのSNPの組合せを精度よく探索できる。
さらに、本実施形態によれば、接合体要素の中から評価値が最大の接合体要素を選択する処理をV回行い、選択されたV個の接合体要素のそれぞれをSNPとして選択するか否かの2通りについて識別誤差を算出し、識別誤差が最小のSNPの組合せを最終的なバイオマーカー候補として選択するため、膨大なSNPの情報から該当するSNPの組合せを漏れなく、かつ短時間で選択することができる。
上述した実施形態で説明したバイオマーカー探索装置の少なくとも一部は、ハードウェアで構成してもよいし、ソフトウェアで構成してもよい。ソフトウェアで構成する場合には、バイオマーカー探索装置の少なくとも一部の機能を実現するプログラムをフレキシブルディスクやCD−ROM等の記録媒体に収納し、コンピュータに読み込ませて実行させてもよい。記録媒体は、磁気ディスクや光ディスク等の着脱可能なものに限定されず、ハードディスク装置やメモリなどの固定型の記録媒体でもよい。
また、バイオマーカー探索装置の少なくとも一部の機能を実現するプログラムを、インターネット等の通信回線(無線通信も含む)を介して頒布してもよい。さらに、同プログラムを暗号化したり、変調をかけたり、圧縮した状態で、インターネット等の有線回線や無線回線を介して、あるいは記録媒体に収納して頒布してもよい。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
1 バイオマーカー探索装置、2 特定SNP指定部、3 候補探索部、4 候補出力部、5 評価値算出部、6 識別誤差算出部、7 最小識別誤差選択部、11 SNP形質DB、12 検体情報入力部、13 検体情報登録DB、14 SNP情報登録DB、8 行列初期化部、9 最大接合体要素選択部、10 複数接合体要素選択部、11 SNP形質DB、12 建託情報入力部、13 検体情報登録DB、14 SNP情報登録DB、15 特定SNP登録DB、16 関連SNP登録DB、17 探索範囲SNP選択部、18 選択SNP登録DB、19 探索情報照合部、20 探索情報登録DB、21 検索条件入力部、22 バイオマーカー候補登録DB

Claims (15)

  1. ゲノム内の複数のSNP(Single-Nucleotide Polymorphisms:一塩基多型)の中から、特定の疾病に関連があると推測される特定のSNPを指定する特定SNP指定部と、
    前記特定のSNPおよび検体の形質情報に基づいて、前記特定の疾病に関連があると推測されるSNPを2つ以上含むバイオマーカー候補を探索する候補探索部と、
    前記バイオマーカー候補を出力する候補出力部と、を備えるバイオマーカー探索装置。
  2. 前記候補探索部は、
    複数のSNPのそれぞれが前記バイオマーカー候補となりうる可能性の高さを示す評価値をSNPごとに算出する処理をV(Vは2以上の整数)回行う評価値算出部と、
    前記評価値算出部による各回の前記評価値の最大値に対応するSNPを前記V個集めた中での任意のSNPの組合せについて、前記特定の疾病との関連性の高さを示す識別誤差を算出する識別誤差算出部と、
    前記識別誤差が最小のSNPの組合せを選択する最小識別誤差選択部と、を備え、
    前記評価値算出部および前記識別誤差算出部は、前記最小識別誤差選択部により選択されたSNPの組合せを用いて、U(Uは2以上の整数)回の処理をそれぞれ繰り返し、
    前記候補出力部は、前記U回の処理後に前記最小識別誤差選択部により選択された前記SNPの組合せを前記バイオマーカー候補とする請求項1に記載のバイオマーカー探索装置。
  3. 前記Vの値および前記Uの値を入力する検索条件入力部を備える請求項2に記載のバイオマーカー探索装置。
  4. 前記特定のSNPの前記評価値を補正する第1補正定数を入力する第1補正定数入力部を備え、
    前記評価値算出部は、前記第1補正定数に基づいて、前記特定のSNPの前記評価値を算出する請求項2または3に記載のバイオマーカー探索装置。
  5. 前記特定のSNPを含むSNPの組合せに対応する前記識別誤差を補正する第2補正定数を入力する第2補正定数入力部を備え、
    前記識別誤差算出部は、前記第2補正定数に基づいて、前記特定のSNPを含むSNPの組合せに対応する前記識別誤差を算出する請求項2乃至4のいずれか1項に記載のバイオマーカー探索装置。
  6. 前記候補探索部は、前記バイオマーカー候補となりうるSNPの組合せ数を行数とし、前記バイオマーカー候補となりうる複数のSNPについての接合体要素数を列数とするSNP組合せ行列を初期化する行列初期化部を有し、
    前記評価値算出部は、
    前記SNP組合せ行列内の各接合体要素を取得して前記評価値を算出して、前記評価値が最大の接合体要素を選択する最大接合体要素選択部と、
    前記最大接合体要素選択部の処理を前記V回繰り返して、前記処理の各回ごとにそれぞれ相違する接合体要素を総計前記V個選択する複数接合体要素選択部と、を有し、
    前記識別誤差算出部は、前記複数接合体要素選択部にて選択された前記V個の接合体要素のそれぞれをSNPとして選択するか否かのすべての組合せについて、前記識別誤差を算出する請求項2乃至5のいずれか1項に記載のバイオマーカー探索装置。
  7. 前記最大接合体要素選択部は、前記SNP組合せ行列内のk(kは1以上の整数)行目の各接合体要素について、前記SNP組合せ行列内の前記k行以外の他の行の各接合体要素との相互情報に基づいて、前記評価値を算出する請求項6に記載のバイオマーカー探索装置。
  8. 前記検体に関する属性情報を入力する検体情報入力部を備え、
    前記候補探索部は、前記属性情報に基づいて、共通の属性を有する前記検体について、前記バイオマーカー候補を探索する請求項1乃至7のいずれか1項に記載のバイオマーカー探索装置。
  9. 前記ゲノム内の複数のSNPの中から前記バイオマーカー候補を探索するSNPの範囲を指定する情報を取得する探索範囲取得部を備え、
    前記候補探索部は、前記探索範囲取得部で取得された情報に基づいて、前記バイオマーカー候補を探索する請求項1乃至8のいずれか1項に記載のバイオマーカー探索装置。
  10. 前記候補出力部は、前記バイオマーカー候補内の各SNPについて、前記バイオマーカー候補に含まれる前記特定のSNPの数と対応するSNPの有意度を表す値との対応関係を二次元平面上に表示する請求項1乃至9のいずれか1項に記載のバイオマーカー探索装置。
  11. 前記有意度を表す値は、P値およびオッズ比の少なくとも一方を含む請求項10に記載のバイオマーカー探索装置。
  12. 前記特定SNP指定部にて指定される前記特定のSNPを指定する第1ウインドウと、
    指定された前記特定のSNPすべてを列記する第2ウインドウと、
    前記特定の疾病の種類を指定する第3ウインドウと、
    前記候補探索部の条件を指定する第4ウインドウと、
    を表示装置の表示画面内に表示させる表示制御部を備える請求項1乃至11のいずれか1項に記載のバイオマーカー探索装置。
  13. 前記特定SNP指定部にて指定される前記特定のSNPを指定する第1ウインドウと、
    指定された前記特定のSNPすべてを列記する第2ウインドウと、
    前記特定の疾病の種類を指定する第3ウインドウと、
    前記バイオマーカー候補内の各SNPを表示する第4ウインドウと、を表示装置の表示画面内に表示させる表示制御部を備え、
    前記表示制御部は、前記第1ウインドウ内で指定した前記特定のSNPのうち、前記バイオマーカー候補に含まれるSNPをハイライト表示する請求項1乃至12のいずれか1項に記載のバイオマーカー探索装置。
  14. ゲノム内の複数のSNP(Single-Nucleotide Polymorphisms:一塩基多型)の中から、特定の疾病に関連があると推測される特定のSNPを指定し、
    前記特定のSNPおよび検体の形質情報に基づいて、前記特定の疾病に関連があると推測されるSNPを2つ以上含むバイオマーカー候補を探索し、
    前記バイオマーカー候補を出力するバイオマーカー探索方法。
  15. ゲノム内の複数のSNP(Single-Nucleotide Polymorphisms:一塩基多型)の中から、特定の疾病に関連があると推測される特定のSNPを指定する手順と、
    前記特定のSNPおよび検体の形質情報に基づいて、前記特定の疾病に関連があると推測されるSNPを2つ以上含むバイオマーカー候補を探索する手順と、
    前記バイオマーカー候補を出力する手順と、をコンピュータに実行させるためのプログラム。
JP2016029120A 2016-02-18 2016-02-18 バイオマーカー探索装置、バイオマーカー探索方法およびプログラム Active JP6929015B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016029120A JP6929015B2 (ja) 2016-02-18 2016-02-18 バイオマーカー探索装置、バイオマーカー探索方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016029120A JP6929015B2 (ja) 2016-02-18 2016-02-18 バイオマーカー探索装置、バイオマーカー探索方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2017146238A true JP2017146238A (ja) 2017-08-24
JP6929015B2 JP6929015B2 (ja) 2021-09-01

Family

ID=59683028

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016029120A Active JP6929015B2 (ja) 2016-02-18 2016-02-18 バイオマーカー探索装置、バイオマーカー探索方法およびプログラム

Country Status (1)

Country Link
JP (1) JP6929015B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230088626A (ko) 2020-12-11 2023-06-20 주식회사 엘지화학 딥 성형용 라텍스 조성물 유래 층을 포함하는 딥 성형품

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002063175A (ja) * 2000-08-15 2002-02-28 Pharma Design Inc 疾患関連snpの検出方法
WO2003070938A1 (fr) * 2002-02-21 2003-08-28 Ajinomoto Co., Inc. Analyseur de donnees d'expression genique et procede, programme et support d'enregistrement pour l'analyse des donnees d'expression genique

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002063175A (ja) * 2000-08-15 2002-02-28 Pharma Design Inc 疾患関連snpの検出方法
WO2003070938A1 (fr) * 2002-02-21 2003-08-28 Ajinomoto Co., Inc. Analyseur de donnees d'expression genique et procede, programme et support d'enregistrement pour l'analyse des donnees d'expression genique

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230088626A (ko) 2020-12-11 2023-06-20 주식회사 엘지화학 딥 성형용 라텍스 조성물 유래 층을 포함하는 딥 성형품

Also Published As

Publication number Publication date
JP6929015B2 (ja) 2021-09-01

Similar Documents

Publication Publication Date Title
Uffelmann et al. Genome-wide association studies
US10600217B2 (en) Methods for the graphical representation of genomic sequence data
Olson et al. Variant calling and benchmarking in an era of complete human genome sequences
KR100806436B1 (ko) 유전자 진단을 위한 마커 선택 프로그램을 포함하는 컴퓨터판독가능 매체, 마커 선택 장치 및 시스템, 및 유전자진단 함수 생성 장치 및 시스템
KR102508971B1 (ko) 질병 위험도 예측 방법 및 이를 수행하는 장치
JP2019512795A5 (ja)
Schrempf et al. Scalable empirical mixture models that account for across-site compositional heterogeneity
JP2013131211A (ja) 疾患診断のための最適の診断要素セット決定装置及び方法
KR102345994B1 (ko) Ngs 분석에서의 질병 관련 유전자 선별 방법 및 장치
WO2020086433A1 (en) Methods and apparatus for phenotype-driven clinical genomics using a likelihood ratio paradigm
WO2024187890A1 (zh) 基于snp数据的预测方法、装置、设备及存储介质
US20220392639A1 (en) Using Machine Learning-Based Trait Predictions For Genetic Association Discovery
JP2009069893A (ja) 診断支援装置及びプログラム
JP6929015B2 (ja) バイオマーカー探索装置、バイオマーカー探索方法およびプログラム
JP2005176730A6 (ja) cDNA配列をゲノム配列にマッピングする方法
JP6623774B2 (ja) パスウェイ解析プログラム、パスウェイ解析方法、及び、情報処理装置
WO2010064413A1 (ja) 薬剤の作用・副作用予測システムとそのプログラム
Huang et al. Reveel: large-scale population genotyping using low-coverage sequencing data
Schwarzerova et al. A perspective on genetic and polygenic risk scores—advances and limitations and overview of associated tools
CN117425937A (zh) 用于确定双基因或寡基因变异的组合的致病性的预测方法
Atas et al. Phylogenetic and other conservation-based approaches to predict protein functional sites
JP5782039B2 (ja) 情報システムのためのデータ入力を助ける方法およびシステム
US20190267114A1 (en) Device for presenting sequencing data
JP2021043056A (ja) 分子マーカー探索方法、分子マーカー探索装置、及びプログラム
JPWO2020085374A1 (ja) 熟練指数提供装置、熟練指数提供方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190510

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190709

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20191206

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200306

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20200306

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20200316

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20200317

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20200501

C211 Notice of termination of reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C211

Effective date: 20200508

C22 Notice of designation (change) of administrative judge

Free format text: JAPANESE INTERMEDIATE CODE: C22

Effective date: 20201211

C13 Notice of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: C13

Effective date: 20210319

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210518

C23 Notice of termination of proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C23

Effective date: 20210611

C03 Trial/appeal decision taken

Free format text: JAPANESE INTERMEDIATE CODE: C03

Effective date: 20210709

C30A Notification sent

Free format text: JAPANESE INTERMEDIATE CODE: C3012

Effective date: 20210709

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210810

R151 Written notification of patent or utility model registration

Ref document number: 6929015

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151