JP6929015B2 - Biomarker search device, biomarker search method and program - Google Patents

Biomarker search device, biomarker search method and program Download PDF

Info

Publication number
JP6929015B2
JP6929015B2 JP2016029120A JP2016029120A JP6929015B2 JP 6929015 B2 JP6929015 B2 JP 6929015B2 JP 2016029120 A JP2016029120 A JP 2016029120A JP 2016029120 A JP2016029120 A JP 2016029120A JP 6929015 B2 JP6929015 B2 JP 6929015B2
Authority
JP
Japan
Prior art keywords
snp
biomarker
snps
combination
specific
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016029120A
Other languages
Japanese (ja)
Other versions
JP2017146238A (en
Inventor
滋 真矢
滋 真矢
貴史 小磯
貴史 小磯
研 植野
研 植野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2016029120A priority Critical patent/JP6929015B2/en
Publication of JP2017146238A publication Critical patent/JP2017146238A/en
Application granted granted Critical
Publication of JP6929015B2 publication Critical patent/JP6929015B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明の実施形態は、バイオマーカー探索装置、バイオマーカー探索方法およびプログラムに関する。 Embodiments of the present invention relate to biomarker search devices, biomarker search methods and programs.

人間のゲノムは、およそ30億の塩基対の配列が二本で構成されており、さらに22種類の染色体の常染色体とX、Yの性染色体に分かれている。各塩基対は同一民族内でほぼ一致するものの、個人によって異なる塩基対が、複数箇所に渡って存在する。その異なる塩基対は、SNP(Single-Nucleotide Polymorphisms:一塩基多型)と呼ばれている。 The human genome is composed of two sequences of about 3 billion base pairs, and is further divided into 22 types of autosomal chromosomes and X and Y sex chromosomes. Although each base pair is almost the same within the same ethnic group, there are multiple base pairs that differ from person to person. The different base pairs are called SNPs (Single-Nucleotide Polymorphisms).

SNPの中には疾病の形質発現に影響を与えるものがあることが知られている。ただし形質とは、例えば疾病の有無である。また、個々のSNPは、単独では形質発現との関連性が認めにくいが、複数のSNPの組合せにより、その形質が発現する可能性も示唆されている。このような、疾病としての形質発現との関連性が認められるSNPの組合せをバイオマーカー候補と呼ぶ。 It is known that some SNPs affect the phenotypic expression of diseases. However, the trait is, for example, the presence or absence of a disease. In addition, although it is difficult to recognize the relationship between individual SNPs and trait expression alone, it has been suggested that the trait may be expressed by a combination of a plurality of SNPs. Such a combination of SNPs that is found to be related to phenotypic expression as a disease is called a biomarker candidate.

バイオマーカー候補の中で、医学的な検証や生物学的な因果分析、生活習慣などの環境要因や、年齢などの別の要因による影響の有無等の検証を経て、真にその因果関係が導出されたものがバイオマーカーとされ、公にある形質発現と関連性のある情報として、その知見を用いた治療などの実サービスに適用可能な有用な情報として認知される。 Among the biomarker candidates, the true causal relationship is derived through medical verification, biological causal analysis, verification of environmental factors such as lifestyle, and the presence or absence of influence by other factors such as age. The biomarker is used as a biomarker, and is recognized as useful information applicable to actual services such as treatment using the knowledge as information related to public trait expression.

このようなSNPの組合せを検出する技術は、近年のゲノム解析技術によってもたらされた。SNPの組合せには膨大な数があるため、すべての組合せについて、疾病の形質発現への影響を調べるのは容易ではない。このため、SNPの組合せを限定して探索を行わざるを得ないのが実情である。二つまでの組合せに関しては全探索を行う手法がある。または、高々二種類のSNPの組合せを基にSNPごとのランキングを作成し、組合せの探索を行う手法もある。しかしながら、全探索を用いる場合には計算時間の問題から3つ以上の探索を行うことは困難である。また、医学的な知見として、特定の疾病への関連性が高いと認識されているSNPもあり、このようなSNPの情報を考慮に入れた上で、バイオマーカー候補を検出するのが望ましい。 The technique for detecting such a combination of SNPs has been brought about by recent genome analysis techniques. Due to the huge number of SNP combinations, it is not easy to investigate the effect of disease on phenotypic expression for all combinations. Therefore, the actual situation is that the search must be performed by limiting the combination of SNPs. There is a method of performing a full search for combinations of up to two. Alternatively, there is also a method of creating a ranking for each SNP based on a combination of at most two types of SNPs and searching for the combination. However, when the full search is used, it is difficult to perform three or more searches due to the problem of calculation time. In addition, as medical findings, some SNPs are recognized to be highly relevant to a specific disease, and it is desirable to detect biomarker candidates in consideration of such SNP information.

しかしながら、医学的な知見によって得たSNPの情報を考慮に入れて、膨大な組合せの中からバイオマーカー候補を探索する効率的な手法は、今まで提案されていない。 However, an efficient method for searching for biomarker candidates from a huge number of combinations has not been proposed so far, taking into consideration the SNP information obtained from medical knowledge.

特開2010−224815号公報JP-A-2010-224815 特開2013−175135号公報Japanese Unexamined Patent Publication No. 2013-175135

本発明の一実施形態は、医学上の知見を考慮に入れて、バイオマーカー候補を効率的に探索可能なバイオマーカー探索装置、バイオマーカー探索方法およびプログラムを提供するものである。 One embodiment of the present invention provides a biomarker search device, a biomarker search method, and a program capable of efficiently searching for biomarker candidates in consideration of medical knowledge.

本実施形態によれば、塩基配列内の複数のSNP(Single-Nucleotide Polymorphisms:一塩基多型)の中から、特定の疾病に関連があると推測される特定のSNPを指定する特定SNP指定部と、
前記特定のSNPおよび検体の形質情報に基づいて、前記特定の疾病に関連があると推測されるSNPを2つ以上含むバイオマーカー候補を探索する候補探索部と、
前記バイオマーカー候補を出力する候補出力部と、を備えるバイオマーカー候補探索装置が提供される。
According to the present embodiment, a specific SNP designation unit that specifies a specific SNP presumed to be related to a specific disease from among a plurality of SNPs (Single-Nucleotide Polymorphisms) in the base sequence. When,
A candidate search unit that searches for biomarker candidates containing two or more SNPs that are presumed to be related to the specific disease based on the trait information of the specific SNP and the sample.
A biomarker candidate search device including the candidate output unit for outputting the biomarker candidate is provided.

一実施形態によるバイオマーカー探索装置の概略構成を示すブロック図。The block diagram which shows the schematic structure of the biomarker search apparatus by one Embodiment. 疾病有無ベクトルと接合タイプ行列の一例を示す図。The figure which shows an example of the disease presence vector and the junction type matrix. SNP組合せ行列の一例を示す図。The figure which shows an example of the SNP combination matrix. 対象の検体の疾病の有無の識別方法を示すフローチャート。A flowchart showing a method of identifying the presence or absence of a disease in a target sample. 一実施形態によるバイオマーカー探索装置のより詳細なブロック図。A more detailed block diagram of the biomarker search device according to one embodiment. SNP形質DBの一例を示す図。The figure which shows an example of the SNP trait DB. 検体情報入力部の処理手順の一例を示すフローチャート。The flowchart which shows an example of the processing procedure of the sample information input part. 検体情報登録DBの一例を示す図。The figure which shows an example of the sample information registration DB. SNP情報登録DBの一例を示す図。The figure which shows an example of the SNP information registration DB. 関連SNP登録DBの一例を示す図。The figure which shows an example of the related SNP registration DB. 検体情報入力部と検索条件入力部を兼ねるGUI画面の一例を示す図。The figure which shows an example of the GUI screen which serves as the sample information input part and the search condition input part. 本実施形態によるバイオマーカー探索装置の処理手順を示すフローチャート。The flowchart which shows the processing procedure of the biomarker search apparatus by this embodiment. ステップS18におけるSNP組合せ行列の各接合体要素のスコアの一例を示す図。The figure which shows an example of the score of each junction element of the SNP combination matrix in step S18. 通りの組合せのうちの3つ(以下、組合せc1〜c3)の識別誤差をそれぞれ示す図。2 Three of the combination of V street (hereinafter, combination c1 to c3) shows each identification error of. SNP組合せ行列の更新方法を示すフローチャート。The flowchart which shows the update method of the SNP combination matrix. ステップS22の出力形態の一例を示す図。The figure which shows an example of the output form of step S22. 各SNPの組合せの判別精度を示すオッズ値または−log(P値)をプロットした図。The figure which plotted the odds value or -log (P value) which shows the discrimination accuracy of each SNP combination.

以下、図面を参照しながら、本発明の一実施形態を説明する。図1は一実施形態によるバイオマーカー探索装置1の概略構成を示すブロック図である。図1のバイオマーカー探索装置1は、特定SNP指定部2と、候補探索部3と、候補出力部4とを備えている。 Hereinafter, an embodiment of the present invention will be described with reference to the drawings. FIG. 1 is a block diagram showing a schematic configuration of a biomarker search device 1 according to an embodiment. The biomarker search device 1 of FIG. 1 includes a specific SNP designation unit 2, a candidate search unit 3, and a candidate output unit 4.

特定SNP指定部2は、ゲノム(塩基配列)内の複数のSNP(Single-Nucleotide Polymorphisms:一塩基多型)の中から、特定の疾病に関連があると指定された特定のSNPを取得する。 The specific SNP designation unit 2 acquires a specific SNP designated as being related to a specific disease from a plurality of SNPs (Single-Nucleotide Polymorphisms) in the genome (base sequence).

候補探索部3は、特定のSNPおよび検体の形質情報に基づいて、特定の疾病に関連があると推測されるSNPを2つ以上含むバイオマーカー候補を探索する。検体の形質情報は、例えば、後述する探索情報登録に登録されている。よって、候補探索部3は、より詳細には、特定SNP指定部2で指定された特定SNPと探索情報登録DBに基づき、特定SNP指定部2で指定したSNPを1つ以上含むSNPの組合せをK個(Kは2以上の整数)探索する。
図2は探索情報登録DB内の登録情報の一例を示す図である。図示のように、探索情報登録DB内には、疾病有無ベクトルが登録されている。図2の疾病有無ベクトルには各検体の疾病の有無情報が記録されている。値が1ならば対応する検体は疾病を有し、値が0ならば疾病を有さないことを示す。また、各SNPは2つの塩基の組合せから構成されており、A(アデニン)とT(チミン)、もしくはG(グアニン)とC(シトシン)がペアとなる。また各SNPで登場する2種類の塩基のうち数が多い方をメジャーアリル、数が少ないほうをマイナーアリルとよぶ。そのため各SNPを構成する塩基の組合せは共にメジャーアリル(メジャーホモ接合体、XX)、メジャーアリルとマイナーアリル(ヘテロ接合体、XY)、共にマイナーアリル(マイナーホモ接合体、YY)の3種類の接合体に分類できる。探索情報登録DB内には、図2に示すように、各検体の接合タイプを表した接合タイプ行列が登録されている。
The candidate search unit 3 searches for biomarker candidates containing two or more SNPs that are presumed to be related to a specific disease, based on the trait information of the specific SNP and the sample. The trait information of the sample is registered in , for example, the search information registration described later. Therefore, in more detail, the candidate search unit 3 includes a combination of SNPs including one or more SNPs designated by the specific SNP designation unit 2 based on the specific SNPs designated by the specific SNP designation unit 2 and the search information registration DB. Search for K (K is an integer of 2 or more).
FIG. 2 is a diagram showing an example of registration information in the search information registration DB. As shown in the figure, a disease presence / absence vector is registered in the search information registration DB. The disease presence / absence vector of FIG. 2 records the disease presence / absence information of each sample. A value of 1 indicates that the corresponding specimen has disease, and a value of 0 indicates no disease. In addition, each SNP is composed of a combination of two bases, and A (adenine) and T (thymine) or G (guanine) and C (cytosine) are paired. Of the two types of bases that appear in each SNP, the one with the largest number is called the major allele, and the one with the smaller number is called the minor allyl. Therefore, there are three types of base combinations that make up each SNP: major allele (major homozygotes, XX), major alleles and minor alleles (heterozygotes, XY), and both minor alleles (minor homozygotes, YY). It can be classified as a conjugate. As shown in FIG. 2, a junction type matrix representing the junction type of each sample is registered in the search information registration DB.

図3はSNPの組合せを2個探索した例である。図3では行数が組合せ数(K)、列数がSNPの接合体数である行列をSNP組合せ行列と呼び、SNP組合せの出力を示している。SNP組合せ行列内の要素が1の値を取るものが対応するSNP組合せで用いられるものに該当する。図3の場合、T1で示す通り、組合せ数が2の場合であり1つ目の組合せが(SNP−00001がXX、SNP−00002がYY)であり、2つ目の組合せが(SNP−00003がXY、SNP−00004がXY)である。候補探索部3は、典型的には、指定した特定のSNPを含む、2つ以上のSNPが含まれる組合せを探索する。ただしデータセットと条件によっては特定のSNPが含まれない場合も想定されるため、その場合にはエラーを返す。 FIG. 3 is an example of searching for two SNP combinations. In FIG. 3, a matrix in which the number of rows is the number of combinations (K) and the number of columns is the number of conjugates of SNP is called an SNP combination matrix, and the output of the SNP combination is shown. An element in the SNP combination matrix that takes a value of 1 corresponds to the one used in the corresponding SNP combination. In the case of FIG. 3, as shown by T1, the number of combinations is 2, the first combination is (SNP-00001 is XX, SNP-00002 is YY), and the second combination is (SNP-00003). Is XY, and SNP-00004 is XY). The candidate search unit 3 typically searches for a combination including two or more SNPs including a specified specific SNP. However, depending on the data set and conditions, it is assumed that a specific SNP is not included, and in that case an error is returned.

複数のSNPの組合せを用いた各検体の疾病の有無の識別方法は、例えば図4のフローチャートで表される。探索されたK個のSNPの組合せのうち、いずれかの組合せに用いられる全てのSNPの接合体を検体が有している場合に疾病ありと識別する。図3の場合には(SNP−00001がXXかつSNP−00002がYY)または(SNP−00003がXYかつSNP−00004がXY)の条件を満たす検体は疾病ありと識別を行う。図4のフローチャートの説明は後述する。 A method for identifying the presence or absence of a disease in each sample using a combination of a plurality of SNPs is represented by, for example, the flowchart of FIG. When the sample has all the SNP conjugates used in any of the K SNP combinations searched, it is identified as having a disease. In the case of FIG. 3, a sample satisfying the condition of (SNP-00001 is XX and SNP-00002 is YY) or (SNP-00003 is XY and SNP-00004 is XY) is identified as having a disease. A description of the flowchart of FIG. 4 will be described later.

図1に示すように、候補探索部3は、評価値算出部5と、識別誤差算出部6と、最小識別誤差選択部7とを有する。評価値算出部5は、複数のSNPのそれぞれが前記バイオマーカー候補となりうる可能性の高さを示す評価値をSNPごとに算出する処理をV(Vは2以上の整数)回行う。より詳細には、評価値算出部5は、図3のSNP組合せ行列の各要素がSNPの組合せとして選択される可能性の高さを示す評価値を各SNPで算出する処理をV(Vは2以上の整数)回行う。本明細書では、評価値をスコアとも呼ぶ。以下では、SNP組合せ行列の各要素を、接合体要素とも呼ぶ。図3に示すように、各SNPごとに、例えばXX、XY、YYの計3個の接合体要素が設けられている。 As shown in FIG. 1, the candidate search unit 3 has an evaluation value calculation unit 5, an identification error calculation unit 6, and a minimum identification error selection unit 7. The evaluation value calculation unit 5 performs a process of calculating an evaluation value indicating a high possibility that each of the plurality of SNPs can be a biomarker candidate for each SNP V (V is an integer of 2 or more) times. More specifically, the evaluation value calculation unit 5 performs a process of calculating an evaluation value indicating a high possibility that each element of the SNP combination matrix of FIG. 3 is selected as a combination of SNPs at each SNP. Do this twice or more). In the present specification, the evaluation value is also referred to as a score. Hereinafter, each element of the SNP combination matrix is also referred to as a zygote element. As shown in FIG. 3, for each SNP, for example, a total of three joining elements of XX, XY, and YY are provided.

識別誤差算出部6は、評価値算出部5による各回の評価値の最大値に対応するSNPをV個集めた中での任意のSNPの組合せについて、特定の疾病との関連性の高さを示す識別誤差を算出する。より詳細には、識別誤差算出部6は、評価値算出部5による各回の評価値の最大値に対応する接合体要素をV個集めた中での各接合体要素がSNP組合せ行列において0,1のいずれかの値を取る全ての組合せである2通りについて、SNP組合せ行列が各検体の疾病の有無を正しく識別できた度合を表す識別誤差を算出する。この場合、接合体要素が1の値を取る場合に対応する接合体要素をSNP組合せとして採用することを示し、0の値を取る場合SNP組合せとして採用しないことを示す。最小識別誤差選択部7は、各接合体要素がSNP組合せ行列において0,1のいずれかの値を取る全ての場合において識別誤差が最小のSNPの組合せを選択する。評価値算出部5および識別誤差算出部6は、最小識別誤差選択部7にて選択された接合体要素を用いてSNP組合せ行列を更新する。そして評価値算出部5からU(Uは2以上の整数)回の処理をそれぞれ繰り返し、SNP組合せ行列を更新する。候補探索部3で算出される出力結果であるSNP組合せ行列が典型的にはSNPを2つ以上含むバイオマーカー候補と対応している。 The identification error calculation unit 6 determines the high degree of relevance to a specific disease for any combination of SNPs in a collection of V SNPs corresponding to the maximum value of each evaluation value by the evaluation value calculation unit 5. Calculate the indicated identification error. More specifically, in the identification error calculation unit 6, each joint element in the collection of V joint elements corresponding to the maximum value of each evaluation value by the evaluation value calculation unit 5 is 0 in the SNP combination matrix. About 2 V as an all combinations taking a value of either 1, it calculates the identification error representing the degree of SNP combined matrix could be correctly identified the presence or absence of disease in each sample. In this case, when the joint element takes a value of 1, it indicates that the corresponding joint element is adopted as the SNP combination, and when it takes a value of 0, it indicates that it is not adopted as the SNP combination. The minimum identification error selection unit 7 selects the combination of SNPs having the smallest identification error in all cases where each junction element takes a value of 0 or 1 in the SNP combination matrix. The evaluation value calculation unit 5 and the identification error calculation unit 6 update the SNP combination matrix using the join element selected by the minimum identification error selection unit 7. Then, the evaluation value calculation unit 5 repeats the process U (U is an integer of 2 or more) times to update the SNP combination matrix. The SNP combination matrix, which is the output result calculated by the candidate search unit 3, typically corresponds to a biomarker candidate containing two or more SNPs.

候補出力部4は、候補探索部3が探索したバイオマーカー候補を出力する。より詳細には、候補出力部4は、U回の処理後に最小識別誤差選択部7により選択されたSNPの組合せであるSNP組合せ行列をバイオマーカー候補として出力する。 The candidate output unit 4 outputs the biomarker candidate searched by the candidate search unit 3. More specifically, the candidate output unit 4 outputs an SNP combination matrix, which is a combination of SNPs selected by the minimum identification error selection unit 7 after U times of processing, as a biomarker candidate.

候補探索部3は、SNP組合せ行列の初期値を設定する行列初期化部8を有していてもよい。 The candidate search unit 3 may have a matrix initialization unit 8 that sets an initial value of the SNP combination matrix.

また、評価値算出部5は、最大接合体要素選択部9と複数接合体要素選択部10を有していてもよい。最大接合体要素選択部9は、SNP組合せ行列内の各接合体要素を取得して評価値を算出して、評価値が最大の接合体要素を選択する。複数接合体要素選択部10は、最大接合体要素選択部9の処理をV回繰り返して、各回にそれぞれ相違する接合体要素を総計V個選択する。 Further, the evaluation value calculation unit 5 may have a maximum joint element selection unit 9 and a plurality of joint element selection units 10. The maximum joint element selection unit 9 acquires each joint element in the SNP combination matrix, calculates an evaluation value, and selects the joint element having the maximum evaluation value. The plurality of joint element selection units 10 repeat the process of the maximum joint element selection unit 9 V times, and select a total of V different joint elements each time.

この場合、識別誤差算出部6は、複数接合体要素選択部10にて選択されたV個の接合体要素のそれぞれをSNPの組合せとして選択するか否かのすべての組合せについて、識別誤差を算出する。 In this case, the identification error calculation unit 6 calculates the identification error for all combinations of whether or not each of the V joint elements selected by the plurality of joint element selection units 10 is selected as the combination of SNPs. do.

図5は一実施形態によるバイオマーカー探索装置1のより詳細なブロック図である。図5のバイオマーカー探索装置1は、図1に示した各部を有する他に、SNP形質DB11と、検体情報入力部12と、検体情報登録DB13と、SNP情報登録DB14と、特定SNP登録DB15と、関連SNP登録DB16と、探索範囲SNP選択部(探索範囲取得部)17と、選択SNP登録DB18と、探索情報照合部19と、探索情報登録DB20と、検索条件入力部21と、バイオマーカー候補登録DB22とを備えている。 FIG. 5 is a more detailed block diagram of the biomarker search device 1 according to the embodiment. In addition to having each part shown in FIG. 1, the biomarker search device 1 of FIG. 5 includes an SNP trait DB 11, a sample information input unit 12, a sample information registration DB 13, an SNP information registration DB 14, and a specific SNP registration DB 15. , Related SNP registration DB 16, search range SNP selection unit (search range acquisition unit) 17, selected SNP registration DB 18, search information collation unit 19, search information registration DB 20, search condition input unit 21, and biomarker candidates. It has a registration DB 22.

SNP形質DB11は、各検体に含まれる複数のSNP(SNP系列データとも呼ばれる)と、各検体が特定の形質を有するか否かの情報とを対応づけて登録したデータベースである。なお、本明細書では、「データベース」をDBと略する。 The SNP trait DB 11 is a database in which a plurality of SNPs (also referred to as SNP series data) included in each sample and information on whether or not each sample has a specific trait are registered in association with each other. In this specification, "database" is abbreviated as DB.

図6はSNP形質DB11の一例を示す図である。図6に示すように、SNP形質DB11には、各検体の識別番号と、各検体に含まれるSNPの情報と、各検体が特定の疾病を有するか否かの情報とが登録されている。 FIG. 6 is a diagram showing an example of the SNP trait DB11. As shown in FIG. 6, in the SNP trait DB 11, the identification number of each sample, the information of SNP contained in each sample, and the information on whether or not each sample has a specific disease are registered.

ここで、SNPとは遺伝子配列の中で個人により特徴が異なる塩基対である。例えば図6において、遺伝子配列位置SNP-00002では、複数の検体P-001〜P-010によって取り得る遺伝子型の組合せがCC,CT,TTの場合があり検体により異なる。このように遺伝子型の組合せが検体により異なる塩基対のことをSNPと呼ぶ。 Here, SNP is a base pair having different characteristics depending on an individual in the gene sequence. For example, in FIG. 6, at the gene sequence position SNP-00002, the combination of genotypes that can be taken by a plurality of samples P-001 to P-010 may be CC, CT, and TT, and differs depending on the sample. A base pair whose genotype combination differs depending on the sample is called SNP.

また、図6のSNP形質DB11では、検体ごとに、2種類の疾病Trait-001とTrait-002に対する形質の有無を0と1で表している。0が形質なしで、1が形質ありである。なお、SNP形質DB11に登録される疾病の種類や数は特に問わない。 Further, in the SNP trait DB 11 of FIG. 6, the presence or absence of traits for two types of diseases Trait-001 and Trait-002 is represented by 0 and 1 for each sample. 0 is no trait and 1 is trait. The type and number of diseases registered in the SNP trait DB 11 are not particularly limited.

検体情報入力部12は、各検体の問診などの診断結果や、過去の病歴、親族の罹患履歴などの検体に関する属性情報および形質情報を入力する。入力された属性情報は、検体情報DBに登録される。 The sample information input unit 12 inputs diagnostic results such as interviews with each sample, and attribute information and trait information regarding the sample such as past medical history and morbidity history of relatives. The input attribute information is registered in the sample information DB.

図7は検体情報入力部12の処理手順の一例を示すフローチャートである。検体情報入力部12は、検体番号(ステップS1)、検体の年齢(ステップS2)、国籍(ステップS3)、既往歴(ステップS4)、体型(ステップS5)を順に入力する。ステップS1〜S5の入力順序は、特に問わない。検体情報入力部12の入力は、キーボード等の情報入力機器を用いて行われる。 FIG. 7 is a flowchart showing an example of the processing procedure of the sample information input unit 12. The sample information input unit 12 inputs the sample number (step S1), the age of the sample (step S2), the nationality (step S3), the medical history (step S4), and the body type (step S5) in this order. The input order of steps S1 to S5 is not particularly limited. The input of the sample information input unit 12 is performed using an information input device such as a keyboard.

次に、検体情報入力部12は、ステップS1〜S5にて入力された各情報を検体情報登録DB13に登録する(ステップS6)。なお、ステップS6の処理は、ステップS1〜S5のステップごとに行ってもよい。 Next, the sample information input unit 12 registers each information input in steps S1 to S5 in the sample information registration DB 13 (step S6). The process of step S6 may be performed for each step of steps S1 to S5.

ステップS1〜S5で入力された各情報は、属性情報や検体情報とも呼ばれる。図7の処理により、検体情報登録DB13への登録を行うことで、検体番号P-001〜P-010のうち任意の検体番号を指定することで、その検体番号に対応する属性情報を一括して検体情報登録DB13から取得することができる。 Each of the information input in steps S1 to S5 is also referred to as attribute information or sample information. By registering in the sample information registration DB 13 by the process of FIG. 7, by specifying an arbitrary sample number from the sample numbers P-001 to P-010, the attribute information corresponding to the sample number is collectively collected. It can be obtained from the sample information registration DB 13.

図8は検体情報登録DB13の一例を示す図である。図8の例では、検体情報登録DB13には、検体ごとに、収縮期血圧と、拡張期血圧と、検体に対応する人間の病歴有無情報と、その人間の親族の病歴有無情報とが登録されている。図8は一例であり、検体情報登録DB13に登録する検体情報には、特に制限はない。 FIG. 8 is a diagram showing an example of the sample information registration DB 13. In the example of FIG. 8, the systolic blood pressure, the diastolic blood pressure, the information on the presence or absence of a human medical history corresponding to the sample, and the information on the presence or absence of a medical history of the human relative are registered in the sample information registration DB 13 for each sample. ing. FIG. 8 is an example, and the sample information registered in the sample information registration DB 13 is not particularly limited.

SNP情報登録DB14は、検体ごとに、遺伝子型を構成するSNPの情報と、複数の疾病の有無情報とを登録する。 The SNP information registration DB 14 registers information on SNPs constituting genotypes and information on the presence or absence of a plurality of diseases for each sample.

図9はSNP情報登録DB14の一例を示す図である。図9では、各SNPを、メジャーホモ接合体、マイナーホモ接合体およびヘテロ接合体の3つに分けている。該当する接合体の場合に1の値を取る。 FIG. 9 is a diagram showing an example of the SNP information registration DB 14. In FIG. 9, each SNP is divided into three homozygotes, minor homozygotes and heterozygotes. Take a value of 1 for the applicable joint.

図9に示すように、一つのSNPについて3つの接合体があるため、列数はSNP数の3倍になる。これら3つの接合体のうち、いずれか1つのみが1になり、残り2つは0になる。 As shown in FIG. 9, since there are three joints for one SNP, the number of columns is three times the number of SNPs. Of these three conjugates, only one will be 1 and the other 2 will be 0.

図9では、検体ごとに、ある疾病に対する形質がある場合を1、ない場合を0としている。同じ疾病に対して、複数の検体が形質ありとしてもよい。 In FIG. 9, the case where there is a trait for a certain disease is set to 1 and the case where there is no trait for a certain disease is set to 0 for each sample. Multiple specimens may be traits for the same disease.

関連SNP登録DB16は、ある共通性をグループ化したID(以下、グループID)と、その共通性と関連のあるSNPのIDとを登録したデータベースである。ある共通性とは、例えば、一般的な疾患で関連性が認められたSNP群や、染色体で免疫を司るSNP群などを指す。相関のあるSNPを有する検体で検索対象を絞り込む場合に、グループIDを指定することで、関連するSNPのID群を選定し、その遺伝子型を持つ検体のみで、特定のSNP群の探索を行うことができる。 The related SNP registration DB 16 is a database in which an ID in which a certain commonality is grouped (hereinafter referred to as a group ID) and an ID of an SNP related to the commonality are registered. A certain commonality refers to, for example, an SNP group found to be related to a general disease, an SNP group that controls immunity with a chromosome, and the like. When narrowing down the search target by samples with correlated SNPs, by specifying the group ID, the ID group of the related SNPs is selected, and the search for a specific SNP group is performed only with the samples having that genotype. be able to.

図10は関連SNP登録DB16の一例を示す図である。図10の関連SNP登録DB16には、グループIDと関連SNPのIDとが対応づけて登録されている。例えば、グループChr-001には、関連するSNPの情報として、SNP-00001、SNP-00002、…、SNP-01000が登録されている。Chr-001〜Chr-022は染色体番号であり、HLA-001〜HLA-003はHLA領域の番号である。 FIG. 10 is a diagram showing an example of the related SNP registration DB 16. In the related SNP registration DB 16 of FIG. 10, the group ID and the ID of the related SNP are registered in association with each other. For example, in the group Chr-001, SNP-00001, SNP-00002, ..., SNP-01000 are registered as related SNP information. Chr-001 to Chr-022 are chromosome numbers, and HLA-001 to HLA-003 are HLA region numbers.

探索範囲SNP選択部17は、関連SNP登録DB16に登録されているグループIDを選択し、対応するSNPの部分集合を指定し、この部分集合に対応するSNP番号を選択SNP登録DB18に登録する。選択SNP登録DB18のデータ構造は、関連SNP登録DB16と同様であり、関連SNP登録DB16の登録データの一部が選択SNP登録DB18に登録される。 The search range SNP selection unit 17 selects a group ID registered in the related SNP registration DB 16, specifies a subset of the corresponding SNP, and registers the SNP number corresponding to this subset in the selection SNP registration DB 18. The data structure of the selected SNP registration DB 18 is the same as that of the related SNP registration DB 16, and a part of the registration data of the related SNP registration DB 16 is registered in the selected SNP registration DB 18.

図1にも示した特定SNP指定部2は、図5のSNP情報登録DB14に登録された中から、特定のSNPを指定して、特定SNP登録DB15に登録する。 The specific SNP designation unit 2 also shown in FIG. 1 designates a specific SNP from those registered in the SNP information registration DB 14 of FIG. 5 and registers it in the specific SNP registration DB 15.

探索情報照合部19は、特定SNP登録DB15に登録された特定のSNPと、SNP形質DB11内の登録情報と、検体情報登録DB13内の登録情報と、選択SNP登録DB18内の登録情報とを照合し、合致する情報を探索情報登録DB20に登録する。 The search information collation unit 19 collates the specific SNP registered in the specific SNP registration DB 15, the registration information in the SNP trait DB 11, the registration information in the sample information registration DB 13, and the registration information in the selected SNP registration DB 18. Then, the matching information is registered in the search information registration DB 20.

図5に示す特定SNP指定部2と検索条件入力部21は、不図示の表示装置に表示されたGUI(Graphical User Interface)画面にて入力することができる。図11は検体情報入力部12と検索条件入力部21を兼ねるGUI画面の一例を示す図である。図11のGUI画面は、ウインドウw1〜w4を有する。このうち、ウインドウw1とw2は特定SNP指定部2に対応し、ウインドウw4は検索条件入力部21に対応する。 The specific SNP designation unit 2 and the search condition input unit 21 shown in FIG. 5 can be input on a GUI (Graphical User Interface) screen displayed on a display device (not shown). FIG. 11 is a diagram showing an example of a GUI screen that also serves as a sample information input unit 12 and a search condition input unit 21. The GUI screen of FIG. 11 has windows w1 to w4. Of these, windows w1 and w2 correspond to the specific SNP designation unit 2, and window w4 corresponds to the search condition input unit 21.

ウインドウw1(第1ウインドウ)は、特定SNP指定部2にて指定される特定のSNPを指定する。ウインドウw2(第2ウインドウ)は、指定された特定のSNPすべてを列記する。ウインドウw3(第3ウインドウ)は、特定の疾病の種類を指定する。ウインドウw3には、例えば複数の疾病名と、各疾病を選択するラジオボタンとが設けられており、ユーザは、任意のラジオボタンにチェックを付けることで、そのラジオボタンに対応した疾病を選択することができる。また、ウインドウw4では候補探索部3で必要となる各種パラメータを入力する。具体的な一例としては、評価値(スコア)を補正するためのパラメータε、識別誤差を補正するためのパラメータα、SNPの組合せ数K、候補探索部3内での繰り返し回数を表すパラメータU、Vなどである。 The window w1 (first window) specifies a specific SNP designated by the specific SNP designation unit 2. Window w2 (second window) lists all the specified specific SNPs. Window w3 (third window) specifies a specific disease type. The window w3 is provided with, for example, a plurality of disease names and radio buttons for selecting each disease, and the user selects a disease corresponding to the radio button by checking an arbitrary radio button. be able to. Further, in the window w4, various parameters required by the candidate search unit 3 are input. As a specific example, a parameter ε for correcting the evaluation value (score), a parameter α for correcting the identification error, a combination number K of SNPs, and a parameter U indicating the number of repetitions in the candidate search unit 3 V and so on.

ユーザは、ウインドウw1〜w4の選択および設定が完了すると、画面内の右下に設けられたsubmitボタンb1を押下する。これにより、特定SNP指定部2と検索条件入力部21の処理が終了する。 When the selection and setting of the windows w1 to w4 are completed, the user presses the submit button b1 provided at the lower right of the screen. As a result, the processing of the specific SNP designation unit 2 and the search condition input unit 21 is completed.

検索条件入力部21は、第1補正定数入力部21aと第2補正定数入力部21bを備えていてもよい。第1補正定数入力部21aは、特定のSNPの評価値を補正するための第1補正定数(ε)を入力する。評価値算出部5は、第1補正定数に基づいて、特定のSNPの評価値を算出する。これにより、特定のSNPの評価値を他のSNPの評価値よりも優先的に高くすることができる。 The search condition input unit 21 may include a first correction constant input unit 21a and a second correction constant input unit 21b. The first correction constant input unit 21a inputs the first correction constant (ε) for correcting the evaluation value of a specific SNP. The evaluation value calculation unit 5 calculates the evaluation value of a specific SNP based on the first correction constant. As a result, the evaluation value of a specific SNP can be made higher than the evaluation value of other SNPs.

第2補正定数入力部21bは、特定のSNPを含むSNPの組合せに対応する識別誤差を補正するための第2補正定数(α)を入力する。識別誤差算出部6は、第2補正定数に基づいて、特定のSNPを含むSNPの組合せに対応する識別誤差を算出する。これにより、特定のSNPを含むSNPの組合せに対応する識別誤差を小さく設定することができる。 The second correction constant input unit 21b inputs the second correction constant (α) for correcting the identification error corresponding to the combination of SNPs including a specific SNP. The identification error calculation unit 6 calculates the identification error corresponding to the combination of SNPs including a specific SNP based on the second correction constant. Thereby, the identification error corresponding to the combination of SNPs including a specific SNP can be set small.

検索条件入力部21は、バイオマーカー候補となるSNPの組合せの個数Kを入力するK入力部21cを備えていてもよい。 The search condition input unit 21 may include a K input unit 21c for inputting the number K of combinations of SNPs that are biomarker candidates.

また、検索条件入力部21は、上述したUを入力するU入力部21dと、上述したVを入力するV入力部21eとを備えていてもよい。上述したように、Vは評価値算出部5が評価値算出部5において接合体要素を選択する個数である。また、Uは最小識別誤差選択部7が識別誤差の最小のSNPの組合せを選択する処理を行う回数である。 Further, the search condition input unit 21 may include a U input unit 21d for inputting the above-mentioned U and a V input unit 21e for inputting the above-mentioned V. As described above, V is the number of joint elements selected by the evaluation value calculation unit 5 in the evaluation value calculation unit 5. Further, U is the number of times that the minimum identification error selection unit 7 performs a process of selecting the combination of SNPs having the minimum identification error.

図12は本実施形態によるバイオマーカー探索装置1の処理手順を示すフローチャートである。まず、探索情報登録DB20から、探索範囲内のSNP系列データと検体の形質情報とを取得する(ステップS11)。以下では、探索範囲内SNP系列データを接合タイプ行列と呼び、検体の形質情報を形質ベクトルと呼び、検体の疾病有無情報を疾病有無ベクトルと呼ぶ場合もある。 FIG. 12 is a flowchart showing a processing procedure of the biomarker search device 1 according to the present embodiment. First, the SNP series data within the search range and the trait information of the sample are acquired from the search information registration DB 20 (step S11). In the following, the SNP sequence data within the search range may be referred to as a junction type matrix, the trait information of the sample may be referred to as a trait vector, and the disease presence / absence information of the sample may be referred to as a disease presence / absence vector.

図9に示すように、接合タイプ行列の行方向は検体数分の行を有し、列方向は一つのSNPに対して3種類の接合体(メジャーホモ接合体、ヘテロ接合体、マイナーホモ接合体)を有し、列方向の総数は、3×SNP数である。形質ベクトルの行方向は検体数分の行を有し、列方向は疾病数分の列を有する。 As shown in FIG. 9, the row direction of the junction type matrix has as many rows as the number of samples, and the column direction is three types of conjugates (major homozygotes, heterozygotes, minor homozygotes) for one SNP. The total number in the column direction is 3 × the number of SNPs. The row direction of the trait vector has rows for the number of samples, and the column direction has columns for the number of diseases.

接合タイプ行列は、一つのSNPに対して、3つの要素を有する。例えば、メジャーホモ接合体では{1,0,0}、ヘテロホモ接合体では{0,1,0}、マイナーホモ接合体では{0,0,1}で表現する。接合タイプ行列は、列方向にSNP数だけ並んでおり、行方向に検体数だけ並んでいる。 The junction type matrix has three elements for one SNP. For example, major homozygotes are represented by {1,0,0}, heterozygotes are represented by {0,1,0}, and minor homozygotes are represented by {0,0,1}. The junction type matrix is arranged by the number of SNPs in the column direction and by the number of samples in the row direction.

接合タイプ行列と疾病有無ベクトルは、探索情報登録DB20に登録されており、ステップS11では、この探索情報登録DB20から探索範囲内のSNP系列データと検体の形質情報とを取得する。 The junction type matrix and the disease presence / absence vector are registered in the search information registration DB 20, and in step S11, SNP sequence data within the search range and sample trait information are acquired from the search information registration DB 20.

図2は疾病有無ベクトルと接合タイプ行列の一例を示す図である。疾病有無ベクトルは、図3のSNP形質DB11内の形質を表す複数列分のうち1列を指定する。あるいは、複数列分の形質情報から、積または和演算を行って得た値を0と1に置換してもよい。 FIG. 2 is a diagram showing an example of a disease presence / absence vector and a junction type matrix. The disease presence / absence vector specifies one column out of a plurality of columns representing the trait in the SNP trait DB 11 of FIG. Alternatively, the values obtained by performing the product or sum operation from the trait information for a plurality of columns may be replaced with 0 and 1.

このように、図12のステップS11では、図9や図2の表データを用いて、探索範囲内の接合タイプ行列と形質ベクトルを取得する。 As described above, in step S11 of FIG. 12, the junction type matrix and the trait vector within the search range are acquired by using the table data of FIGS. 9 and 2.

次に、ユーザが特定SNP指定部2にて指定した特定のSNPと、ユーザが検索条件入力部21にて入力した各種検索条件とを取得する(ステップS12)。ここで取得する検索条件は、例えば、検索条件入力部21にて入力したSNP組合せの個数(SNP組合せ行列の行数)Kと、特定のSNPの評価値を補正するための第1補正定数と、特定のSNPを含むSNPの組合せに対応する識別誤差を補正するための第2補正定数と、評価値算出部5が評価値を算出する回数Vと、最小識別誤差選択部7が識別誤差の最小のSNPの組合せを選択する処理を行う回数Uとを含む。 Next, the specific SNP designated by the user in the specific SNP designation unit 2 and various search conditions input by the user in the search condition input unit 21 are acquired (step S12). The search conditions acquired here include, for example, the number of SNP combinations (the number of rows in the SNP combination matrix) K input by the search condition input unit 21, and the first correction constant for correcting the evaluation value of a specific SNP. , The second correction constant for correcting the identification error corresponding to the combination of SNPs including a specific SNP, the number of times V for the evaluation value calculation unit 5 to calculate the evaluation value, and the minimum identification error selection unit 7 for the identification error. It includes the number of times U of performing the process of selecting the minimum SNP combination.

次に、行列初期化部8にてSNP組合せ行列を初期化する(ステップS13)。SNP組合せ行列の各要素を0または1に初期化する。初期化の際に、SNP組合せ行列の各接合体要素を0または1のいずれに設定するかは任意である。 Next, the matrix initialization unit 8 initializes the SNP combination matrix (step S13). Initialize each element of the SNP combination matrix to 0 or 1. At initialization, it is arbitrary whether each junction element of the SNP combination matrix is set to 0 or 1.

図3はSNP組合せ行列の一例を示す図である。図3はK=2の例を示している。図12のステップS13では、SNP組合せ行列の各要素を、図3のSNP組合せ行列には、2×15=30個の接合体要素が含まれている。このように、1つのSNPには3種類の接合体があるため3つの接合体要素を有し、各接合体要素は0か1を取り得る。最終的にSNP組合せ行列の各行がSNPの組合せに相当する。 FIG. 3 is a diagram showing an example of an SNP combination matrix. FIG. 3 shows an example of K = 2. In step S13 of FIG. 12, each element of the SNP combination matrix is included, and the SNP combination matrix of FIG. 3 contains 2 × 15 = 30 conjugate elements. As described above, since one SNP has three types of joints, it has three joint elements, and each joint element can take 0 or 1. Finally, each row of the SNP combination matrix corresponds to the combination of SNPs.

次に、反復回数を計測する変数uを0に初期化する(ステップS14)。続いて、SNP組合せ行列に含まれる複数の接合体要素の中からv番目に選択する接合体要素を表すための変数vを0に初期化する(ステップS15)。 Next, the variable u for measuring the number of repetitions is initialized to 0 (step S14). Subsequently, the variable v for representing the v-th selected join element from the plurality of join elements included in the SNP combination matrix is initialized to 0 (step S15).

次に、SNP組合せ行列内の複数の接合体要素から、相互情報量に基づいてv番目の接合体要素を取得する(ステップS16)。次に、以下の手順に従って、評価値であるスコアを計算する(ステップS17)。ステップS17の処理は、評価値算出部5内の最大接合体要素選択部9にて行われる。 Next, the v-th junction element is acquired from the plurality of junction elements in the SNP combination matrix based on the mutual information (step S16). Next, the score, which is an evaluation value, is calculated according to the following procedure (step S17). The process of step S17 is performed by the maximum joint element selection unit 9 in the evaluation value calculation unit 5.

ステップS17の計算にあたって、v−1個目までの接合体要素の選択が完了して、v個目の要素を選択することを考える。SNP組合せ行列のk番目の組合せのi番目の接合体要素の評価値であるスコアをS(k,i)とする。まず、v−1個の要素からなる既に選択された接合体要素の集合をRとする。そのうち、既に選択済の接合体要素の一つは、SNP組合せ行列におけるl(エル)番目のSNP組合せのj番目の要素とする。SNP組合せ行列におけるk番目SNP組合せのi番目の要素と、SNP組合せ行列におけるl(エル)番目のSNP組合せのj番目の要素との冗長度を示す修正付き相互情報量RIは、以下の(1)式で定義する。 In the calculation of step S17, it is considered that the selection of the v-1 th element is completed and the vth element is selected. Let S (k, i) be the score which is the evaluation value of the i-th junction element of the k-th combination of the SNP combination matrix. First, let R be a set of already selected join element consisting of v-1 elements. Among them, one of the already selected conjugate elements is the j-th element of the l-th SNP combination in the SNP combination matrix. The modified mutual information RI indicating the redundancy between the i-th element of the k-th SNP combination in the SNP combination matrix and the j-th element of the l-th SNP combination in the SNP combination matrix is as follows (1). ) Defined by the formula.

Figure 0006929015
Figure 0006929015

ここで、TlはSNP組合せ行列のl番目のSNP組合せを除くK−1個のSNP組合せによって陰性と識別される(陰性と識別されない)検体の集合である。また、Tk,lは、TlとTkの共通部分の検体からなる集合である。 Here, T l is a set of samples that are identified as negative (not identified as negative) by K-1 SNP combinations excluding the l-th SNP combination in the SNP combination matrix. Further, T k and l are a set consisting of samples of the intersection of T l and T k.

また、I(XTk,l,j,XTk,l,i)は、Tk,lに属する検体に関するj番目の接合体要素とi番目の接合体要素の相互情報量である。また、このとき、S(k,i)は、以下の(2)式で計算される。ただし、I(YT,XTk,i)はTkに属する検体に関してi番目の接合体要素と疾病の有無に関する相互情報量である。 Further, I (X Tk, l, j , X Tk, l, i ) is a mutual information amount between the j-th junction element and the i-th junction element with respect to the sample belonging to T k, l. At this time, S (k, i) is calculated by the following equation (2). However, I (Y T , XT k , i ) is a mutual information regarding the presence or absence of disease and the i-th zygote element for the sample belonging to T k.

Figure 0006929015
Figure 0006929015

次に、SNP組合せ行列内の全接合体要素の中から、最大のスコアを持つ接合体要素を選択する(ステップS18)。ステップS18の処理は、評価値算出部5内の最大接合体要素選択部9にて行われる。 Next, the join element having the highest score is selected from all the join elements in the SNP combination matrix (step S18). The process of step S18 is performed by the maximum joint element selection unit 9 in the evaluation value calculation unit 5.

図13はステップS18で変数vがVに達したと判定された場合のSNP組合せ行列のスコアの一例を示す図である。図13の例では、スコアが0.9であるk=2でSNP-00003-YYの接合体要素が選択される。 FIG. 13 is a diagram showing an example of the score of the SNP combination matrix when it is determined that the variable v has reached V in step S18. In the example of FIG. 13, the zygote element of SNP-00003-YY is selected with k = 2 having a score of 0.9.

ここで、特定SNP指定部2で利用者が予め特定したSNPについては、S(k,i)+εとスコアの値をε(ε>0)だけ高くし、スコアの値を意図的に高くして選ばれやすくしてもよい。 Here, for the SNP specified in advance by the user in the specific SNP designation unit 2, S (k, i) + ε and the score value are increased by ε (ε> 0), and the score value is intentionally increased. It may be easy to be selected.

このように、変数vの値ごとに、ステップS17,S18の処理を行って、(2)式のスコアが最大の接合体要素を一つ選択する。ステップS18の処理は、評価値算出部5内の複数接合体要素選択部10にて行われる。 In this way, the processes of steps S17 and S18 are performed for each value of the variable v, and one junction element having the maximum score in Eq. (2) is selected. The process of step S18 is performed by the plurality of joint element selection units 10 in the evaluation value calculation unit 5.

次に、変数vが所定の制限数Vに達したか否かを判定する(ステップS19)。まだ達していなければ、変数vを1インクリメントして(ステップS20)、ステップS16〜S19の処理を繰り返す。 Next, it is determined whether or not the variable v has reached the predetermined limit number V (step S19). If it has not been reached yet, the variable v is incremented by 1 (step S20), and the processes of steps S16 to S19 are repeated.

変数vが所定の制限数Vに達した段階では、V個の接合体要素が選抜されたことになる。そこで、これらSNP組合せ行列のV個の接合体要素がそれぞれ0もしくは1をとる2個の組合せのそれぞれ毎に識別誤差を算出し(ステップ21)、その中から識別誤差が最小となる組合せを探索し、SNP組合せ行列を更新する(ステップS22)。ただしSNP組合せ行列のV個以外の接合体要素に関しては現時点で値に基づいて識別誤差の計算を行う。ステップS21の処理は、識別誤差算出部6にて行われる。ステップS22の処理は、最小識別誤差選択部7にて行われる。 When the variable v reaches the predetermined limit number V, V joined elements are selected. Therefore, the identification error is calculated for each of the 2 V combinations in which the V junction elements of the SNP combination matrix take 0 or 1, respectively (step 21), and the combination that minimizes the identification error is selected from among them. Search and update the SNP combination matrix (step S22). However, for the junction elements other than V in the SNP combination matrix, the identification error is calculated based on the values at present. The process of step S21 is performed by the identification error calculation unit 6. The process of step S22 is performed by the minimum identification error selection unit 7.

識別誤差を計算するにあたって、対象とする検体の疾病の有無を識別する必要がある。図4は対象の検体の疾病の有無を識別するフローチャートである。まず、識別対象の検体のIDを取得し(ステップS31)、次に、疾病の有無を識別するのに利用する変数Zを0に初期化する(ステップS32)。次に、SNP組合せ行列の行数を指定する変数kを1に初期化する(ステップS33)。次に、ステップS31で取得したIDの検体が、SNP組合せ行列が示すk番目のSNP組合せに含まれる各SNPの接合体をすべて有するか否かを判定する(ステップS34)。ステップS34でYESと判定されると、変数Zを1だけインクリメントする(ステップS35)。 In calculating the discrimination error, it is necessary to identify the presence or absence of disease in the target sample. FIG. 4 is a flowchart for identifying the presence or absence of a disease in the target sample. First, the ID of the sample to be identified is acquired (step S31), and then the variable Z used for identifying the presence or absence of a disease is initialized to 0 (step S32). Next, the variable k that specifies the number of rows of the SNP combination matrix is initialized to 1 (step S33). Next, it is determined whether or not the sample of the ID acquired in step S31 has all the conjugates of each SNP included in the k-th SNP combination indicated by the SNP combination matrix (step S34). If YES is determined in step S34, the variable Z is incremented by 1 (step S35).

ステップS34でNOと判定された場合、またはステップS35の処理が終了した場合は、変数kがSNP組合せ行列の行数Kに1を加えた値に達したか否かを判定する(ステップS36)。ステップS36でNOと判定された場合は、変数kを1だけインクリメントし(ステップS37)、ステップS34以降の処理を繰り返す。 If NO is determined in step S34, or if the process of step S35 is completed, it is determined whether or not the variable k has reached the value obtained by adding 1 to the number of rows K of the SNP combination matrix (step S36). .. If NO is determined in step S36, the variable k is incremented by 1 (step S37), and the processes after step S34 are repeated.

ステップS36がYESの場合は、変数Zが1以上であれば、ステップS31で取得したIDの検体は疾病ありと識別し、変数Z=0であれば、疾病なしと識別する(ステップS38)。 When step S36 is YES, if the variable Z is 1 or more, the sample with the ID acquired in step S31 is identified as having a disease, and if the variable Z = 0, it is identified as having no disease (step S38).

識別誤差は、陽性と識別された検体が実際は陰性である検体数と、陰性と識別された検体が実際は陽性である検体数との和である。ただし、ユーザが指定した特定のSNPを含む場合は、識別誤差をα(0<α<1)倍に減算し、識別誤差を小さくすることで、特定のSNPが選ばれやすくする。 The discrimination error is the sum of the number of samples in which the sample identified as positive is actually negative and the number of samples in which the sample identified as negative is actually positive. However, when a specific SNP specified by the user is included, the identification error is subtracted by α (0 <α <1) times to reduce the identification error, so that the specific SNP can be easily selected.

図14は2通りの組合せのうちの3つ(以下、組合せc1〜c3)の識別誤差をそれぞれ示す図である。図14の組合せc1の識別誤差は4、図14の組合せc2の識別誤差は3、図14の組合せc3の識別誤差は2である。よって、図12のステップS19では、識別誤差が2の図14の組合せc3における接合体要素が最終的に選択されて、これら接合体要素を含む新たなSNP組合せ行列が生成される。例えば、図14のc3のSNP組合せ行列の場合(SNP-00001がXXかつSNP-00002がYY)またはSNP-00003がYYならば、その検体は陽性であると識別する。 FIG. 14 is a diagram showing identification errors of three of the 2 V combinations (hereinafter, combinations c1 to c3). The identification error of the combination c1 of FIG. 14 is 4, the identification error of the combination c2 of FIG. 14 is 3, and the identification error of the combination c3 of FIG. 14 is 2. Therefore, in step S19 of FIG. 12, the junction elements in the combination c3 of FIG. 14 having an identification error of 2 are finally selected, and a new SNP combination matrix containing these junction elements is generated. For example, in the case of the SNP combination matrix of c3 in FIG. 14 (SNP-00001 is XX and SNP-00002 is YY) or SNP-00003 is YY, the sample is identified as positive.

図15はSNP組合せ行列の更新手順の一例を示すフローチャートである。まず、現時点でのSNP組合せ行列を取得し(ステップS41)、評価値算出部5で算出されたV個の接合体要素を取得する(ステップS42)。 FIG. 15 is a flowchart showing an example of the procedure for updating the SNP combination matrix. First, the current SNP combination matrix is acquired (step S41), and the V joined elements calculated by the evaluation value calculation unit 5 are acquired (step S42).

次に、変数iを0に初期化する(ステップS43)。次に、V個の接合体要素のそれぞれを1にするか0にするかのすべての組合せである2個の組合せの中からi番目の組合せにSNP組合せ行列を更新する(ステップS44)。次に、ステップS44で選択したSNP組合せ行列について、図12のステップS21の処理を行って、識別誤差を算出する(ステップS45)。 Next, the variable i is initialized to 0 (step S43). Next, update the SNP combination matrix i-th combination among the 2 V-number combinations are all combinations of either zero or one each of the V of the joining element (step S44). Next, with respect to the SNP combination matrix selected in step S44, the processing of step S21 of FIG. 12 is performed to calculate the identification error (step S45).

次に、変数iが2に達したか否かを判定する(ステップS46)。ステップS46がNOであれば、変数iを1だけインクリメントして(ステップS47)、ステップS44以降の処理を繰り返す。ステップS46がYESであれば、識別誤差の2個の組合せの中から最小の組合せにSNP組合せ行列を更新する(ステップS48)。 Next, it is determined whether or not the variable i has reached 2 V (step S46). If step S46 is NO, the variable i is incremented by 1 (step S47), and the processes after step S44 are repeated. If step S46 is YES, the SNP combination matrix is updated to the smallest combination from the 2 V combinations of identification errors (step S48).

図12のステップS22の処理が終了すると、次に変数uが所定の制限回数Uに達したか否かを判定する(ステップS23)。まだ制限回数Uに達していなければ、変数uを1だけインクリメントして(ステップS24)、ステップS22で生成された新たなSNP組合せ行列を用いて、ステップS15以降の処理を繰り返す。 When the process of step S22 of FIG. 12 is completed, it is next determined whether or not the variable u has reached the predetermined limit number of times U (step S23). If the limit number U has not been reached yet, the variable u is incremented by 1 (step S24), and the processing after step S15 is repeated using the new SNP combination matrix generated in step S22.

このように、図12の処理では、SNP組合せ行列を更新しながら、U回にわたって、接合体要素を更新する処理が行われる。 As described above, in the process of FIG. 12, the process of updating the junction element is performed U times while updating the SNP combination matrix.

ステップS20で変数uが制限回数Uに達したと判定されると、最終的にステップS22で探索された接合体要素の組合せをバイオマーカー候補として出力する(ステップS25)。 When it is determined in step S20 that the variable u has reached the limit number of times U, the combination of the conjugate elements finally searched in step S22 is output as a biomarker candidate (step S25).

図16はステップS22の出力形態の一例を示す図である。図16のウインドウw11(第1ウインドウ)は、特定SNP指定部2にて指定される特定のSNPを指定する。ウインドウw12(第2ウインドウ)は、指定された特定のSNPすべてを列記する。ウインドウw13(第3ウインドウ)は、特定の疾病の種類を指定する。ウインドウW14(第4ウインドウ)は、バイオマーカー候補内の各SNPを表示する。ユーザは、ウインドウw14のバイオマーカー候補を確認した上で、ウインドウw11にて特定のSNPの指定をやり直して、resubmitボタンb2を押下して、再度図12のバイオマーカー候補探索を行うことも可能である。 FIG. 16 is a diagram showing an example of the output form of step S22. The window w11 (first window) of FIG. 16 specifies a specific SNP designated by the specific SNP designation unit 2. Window w12 (second window) lists all the specified specific SNPs. Window w13 (third window) specifies a specific disease type. Window W14 (fourth window) displays each SNP in the biomarker candidate. After confirming the biomarker candidates in the window w14, the user can specify the specific SNP again in the window w11, press the resubmit button b2, and search for the biomarker candidates in FIG. 12 again. be.

ステップS22の出力形態は、図16に示した画面表示例に限定されるものではない。例えば、図17は各SNPの組合せの識別精度を示すオッズ値または−log(P値)をプロットした図である。横軸は特定のSNPを含む個数、縦軸はオッズ値または−log(P値)である。図17の破線は利用可否識別閾値である。この利用可否識別閾値は、検索条件入力部21にてユーザが入力した域値と、オッズ値または−log(P値)の平均値または標準偏差値とを合算して生成されるものである。バイオマーカー候補のうち、ユーザが指定した特定のSNPを一つでも含む場合に、特定のSNPを利用可能として表示し、それ以外は、特定SNP利用不可23とエラー表示する。 The output form of step S22 is not limited to the screen display example shown in FIG. For example, FIG. 17 is a plot of odds values or -logs (P values) indicating the identification accuracy of each SNP combination. The horizontal axis is the number including a specific SNP, and the vertical axis is the odds value or -log (P value). The broken line in FIG. 17 is the availability identification threshold. This availability identification threshold value is generated by adding the region value input by the user in the search condition input unit 21 and the average value or standard deviation value of the odds value or −log (P value). Among the biomarker candidates, when at least one specific SNP specified by the user is included, the specific SNP is displayed as available, and in other cases, the error is displayed as the specific SNP unavailable 23.

図17の結果を受けて、ユーザは、図16を用いて、特定のSNPや検索条件などの検索条件を変更するなどして、バイオマーカー候補の再探索を行うことができる。 Based on the result of FIG. 17, the user can re-search the biomarker candidate by changing the search condition such as a specific SNP or the search condition by using FIG.

このように、本実施形態では、ゲノム内の複数のSNPから、特定の疾病に関連があると推測される特定のSNPを予め入力し、入力された特定のSNPと検体の形質情報とに基づいて、特定の疾病に関連があると推測されるSNPを1つ以上含むバイオマーカー候補を探索する。これにより、医師の知見により、特定のSNPが特定の疾病に関連があるという情報がわかっている場合には、その情報を考慮に入れて、バイオマーカー候補を探索できる。 As described above, in the present embodiment, a specific SNP presumed to be related to a specific disease is input in advance from a plurality of SNPs in the genome, and based on the input specific SNP and the trait information of the sample. Therefore, biomarker candidates containing one or more SNPs that are presumed to be related to a specific disease are searched for. Thereby, when the information that a specific SNP is related to a specific disease is known from the knowledge of a doctor, the biomarker candidate can be searched by taking the information into consideration.

また、本実施形態によれば、2以上のSNPを含むバイオマーカー候補を探索できるため、複数のSNPの組合せにより生じる疾病についても、そのSNPの組合せを精度よく探索できる。 Further, according to the present embodiment, since the biomarker candidate including two or more SNPs can be searched, the combination of SNPs can be accurately searched for the disease caused by the combination of a plurality of SNPs.

さらに、本実施形態によれば、接合体要素の中から評価値が最大の接合体要素を選択する処理をV回行い、選択されたV個の接合体要素のそれぞれをSNPとして選択するか否かの2通りについて識別誤差を算出し、識別誤差が最小のSNPの組合せを最終的なバイオマーカー候補として選択するため、膨大なSNPの情報から該当するSNPの組合せを漏れなく、かつ短時間で選択することができる。 Further, according to the present embodiment, whether or not the process of selecting the joint element having the maximum evaluation value from the joint elements is performed V times and each of the selected V joint elements is selected as the SNP. calculating an identification error for Kano 2 V street, because the identification error is to select a minimum SNP combinations as final biomarker candidates, without omission combinations of SNP applicable from a large SNP information, a short time You can select with.

上述した実施形態で説明したバイオマーカー探索装置の少なくとも一部は、ハードウェアで構成してもよいし、ソフトウェアで構成してもよい。ソフトウェアで構成する場合には、バイオマーカー探索装置の少なくとも一部の機能を実現するプログラムをフレキシブルディスクやCD−ROM等の記録媒体に収納し、コンピュータに読み込ませて実行させてもよい。記録媒体は、磁気ディスクや光ディスク等の着脱可能なものに限定されず、ハードディスク装置やメモリなどの固定型の記録媒体でもよい。 At least a part of the biomarker search apparatus described in the above-described embodiment may be configured by hardware or software. When configured by software, a program that realizes at least a part of the functions of the biomarker search device may be stored in a recording medium such as a flexible disk or a CD-ROM, read by a computer, and executed. The recording medium is not limited to a removable one such as a magnetic disk or an optical disk, and may be a fixed recording medium such as a hard disk device or a memory.

また、バイオマーカー探索装置の少なくとも一部の機能を実現するプログラムを、インターネット等の通信回線(無線通信も含む)を介して頒布してもよい。さらに、同プログラムを暗号化したり、変調をかけたり、圧縮した状態で、インターネット等の有線回線や無線回線を介して、あるいは記録媒体に収納して頒布してもよい。 Further, a program that realizes at least a part of the functions of the biomarker search device may be distributed via a communication line (including wireless communication) such as the Internet. Further, the program may be encrypted, modulated, compressed, and distributed via a wired line or wireless line such as the Internet, or stored in a recording medium.

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。 Although some embodiments of the present invention have been described, these embodiments are presented as examples and are not intended to limit the scope of the invention. These novel embodiments can be implemented in various other embodiments, and various omissions, replacements, and changes can be made without departing from the gist of the invention. These embodiments and modifications thereof are included in the scope and gist of the invention, and are also included in the scope of the invention described in the claims and the equivalent scope thereof.

1 バイオマーカー探索装置、2 特定SNP指定部、3 候補探索部、4 候補出力部、5 評価値算出部、6 識別誤差算出部、7 最小識別誤差選択部、11 SNP形質DB、12 検体情報入力部、13 検体情報登録DB、14 SNP情報登録DB、8 行列初期化部、9 最大接合体要素選択部、10 複数接合体要素選択部、11 SNP形質DB、12 建託情報入力部、13 検体情報登録DB、14 SNP情報登録DB、15 特定SNP登録DB、16 関連SNP登録DB、17 探索範囲SNP選択部、18 選択SNP登録DB、19 探索情報照合部、20 探索情報登録DB、21 検索条件入力部、22 バイオマーカー候補登録DB 1 Biomarker search device, 2 Specific SNP designation unit, 3 Candidate search unit, 4 Candidate output unit, 5 Evaluation value calculation unit, 6 Identification error calculation unit, 7 Minimum identification error selection unit, 11 SNP trait DB, 12 Specimen information input Part, 13 Specimen information registration DB, 14 SNP information registration DB, 8 Matrix initialization part, 9 Maximum junction element selection unit, 10 Multiple junction element selection unit, 11 SNP trait DB, 12 Construction information input unit, 13 Samples Information registration DB, 14 SNP information registration DB, 15 specific SNP registration DB, 16 related SNP registration DB, 17 search range SNP selection unit, 18 selection SNP registration DB, 19 search information collation unit, 20 search information registration DB, 21 search conditions Input section, 22 Biomarker candidate registration DB

Claims (12)

ゲノム内の複数のSNP(Single-Nucleotide Polymorphisms:一塩基多型)の中から、特定の疾病に関連があることが知られている特定のSNPを予め指定する特定SNP指定部と、
前記特定のSNPと、各検体の疾病の有無情報とSNPの接合タイプを表した接合タイプ行列が登録されている探索情報とに基づき、SNPごとに各接合体要素がSNPの組合せとして選択される可能性の高さを示す評価値を算出する処理をV(Vは2以上の整数)回行い、各回の前記評価値の最大値に対応する前記接合体要素を前記V個集めた中での任意の前記接合体要素の組合せについて、各検体の疾病の有無を正しく識別できた度合を表す識別誤差を算出し、前記識別誤差が最小の前記接合体要素の組合せを選択し、当該選択された接合体要素にバイオマーカー候補を更新し、当該更新をU(Uは2以上の整数)回繰り返すことによって、特定の疾病に関連があると推測されるSNPを2つ以上含むバイオマーカー候補を探索する候補探索部と、
前記バイオマーカー候補を出力する候補出力部と、を備えるバイオマーカー探索装置。
A specific SNP designation unit that pre-designates a specific SNP known to be related to a specific disease from a plurality of SNPs (Single-Nucleotide Polymorphisms) in the genome.
Each conjugate element is selected as a combination of SNPs for each SNP based on the specific SNP , disease presence / absence information of each sample, and search information in which a junction type matrix representing the junction type of the SNP is registered. The process of calculating the evaluation value indicating the high possibility is performed V (V is an integer of 2 or more) times, and the V joint elements corresponding to the maximum value of the evaluation value each time are collected. For any combination of the conjugate elements, an identification error representing the degree to which the presence or absence of a disease in each sample could be correctly identified was calculated, the combination of the conjugate elements having the smallest identification error was selected, and the selection was made. By updating the biomarker candidates to the conjugate element and repeating the update U (U is an integer of 2 or more) times, a biomarker candidate containing two or more SNPs presumed to be related to a specific disease is searched for. Candidate search department and
A biomarker search device including a candidate output unit that outputs the biomarker candidate.
前記候補探索部は、前記特定の疾病に関連があることが知られているSNPを2つ以上含む前記バイオマーカー候補を探索する、請求項1に記載のバイオマーカー探索装置。 The biomarker search device according to claim 1, wherein the candidate search unit searches for the biomarker candidate containing two or more SNPs known to be related to the specific disease. 前記候補出力部は、前記U回の処理後に前記選択された前記識別誤差が最小の前記接合体要素の組合せを前記バイオマーカー候補とする請求項2に記載のバイオマーカー探索装置。 The biomarker search device according to claim 2, wherein the candidate output unit uses the combination of the joined elements selected with the minimum identification error as the biomarker candidate after the U times of processing. 前記Vの値および前記Uの値を入力する検索条件入力部を備える請求項1乃至のいずれか一項に記載のバイオマーカー探索装置。 The biomarker search device according to any one of claims 1 to 3, further comprising a search condition input unit for inputting the value of V and the value of U. 前記候補探索部は、前記バイオマーカー候補となりうるSNPの組合せ数を行数とし、前記バイオマーカー候補となりうる複数のSNPについての接合体要素数を列数とするSNP組合せ行列を初期化する行列初期化部を有し、
前記SNP組合せ行列内の各接合体要素を取得して前記評価値を算出して、前記評価値が最大の接合体要素を選択する最大接合体要素選択部と、
前記最大接合体要素選択部の処理を前記V回繰り返して、前記処理の各回ごとにそれぞれ相違する接合体要素を総計前記V個選択する複数接合体要素選択部と、
前記複数接合体要素選択部にて選択された前記V個の接合体要素のすべての組合せについて、前記識別誤差を算出する識別誤差算出部と、をさらに備える、請求項乃至のいずれか1項に記載のバイオマーカー探索装置。
The candidate search unit initializes an SNP combination matrix in which the number of combinations of SNPs that can be biomarker candidates is the number of rows and the number of conjugate elements for a plurality of SNPs that can be biomarker candidates is the number of columns. Has a chemical unit,
A maximum joint element selection unit that acquires each joint element in the SNP combination matrix, calculates the evaluation value, and selects the joint element having the maximum evaluation value.
A plurality of joint element selection units that repeat the process of the maximum joint element selection unit V times and select a total of V different joint elements for each time of the processing.
Any one of claims 1 to 4 , further comprising an identification error calculation unit for calculating the identification error for all combinations of the V joint elements selected by the plurality of joint element selection units. The biomarker search device according to the section.
前記最大接合体要素選択部は、前記SNP組合せ行列内のk(kは1以上の整数)行目の各接合体要素について、前記SNP組合せ行列内の前記k行以外の他の行の各接合体要素との相互情報に基づいて、前記評価値を算出する請求項に記載のバイオマーカー探索装置。 The maximum junction element selection unit is for each junction element in the k (k is an integer of 1 or more) rows in the SNP combination matrix, and each junction in rows other than the k row in the SNP combination matrix. The biomarker search device according to claim 5 , wherein the evaluation value is calculated based on mutual information with a body element. 前記候補出力部は、前記バイオマーカー候補内の各SNPについて、前記バイオマーカー候補に含まれる前記特定のSNPの数と対応するSNPの有意度を表す値との対応関係を二次元平面上に表示する請求項1乃至のいずれか1項に記載のバイオマーカー探索装置。 The candidate output unit displays on a two-dimensional plane the correspondence between the number of the specific SNPs included in the biomarker candidate and the value representing the significance of the corresponding SNP for each SNP in the biomarker candidate. The biomarker search apparatus according to any one of claims 1 to 6. 前記有意度を表す値は、P値およびオッズ比の少なくとも一方を含む請求項に記載のバイオマーカー探索装置。 The biomarker search apparatus according to claim 7 , wherein the value representing the significance includes at least one of a P value and an odds ratio. 前記特定SNP指定部にて指定される前記特定のSNPを指定する第1ウインドウと、
指定された前記特定のSNPすべてを列記する第2ウインドウと、
前記特定の疾病の種類を指定する第3ウインドウと、
前記候補探索部の条件を指定する第4ウインドウと、
を表示装置の表示画面内に表示させる表示制御部を備える請求項1乃至のいずれか1項に記載のバイオマーカー探索装置。
The first window that specifies the specific SNP specified by the specific SNP designation unit, and
A second window listing all of the specified SNPs,
A third window that specifies the type of the particular disease,
A fourth window for specifying the conditions of the candidate search unit, and
The biomarker search device according to any one of claims 1 to 8 , further comprising a display control unit for displaying the above on the display screen of the display device.
前記特定SNP指定部にて指定される前記特定のSNPを指定する第1ウインドウと、
指定された前記特定のSNPすべてを列記する第2ウインドウと、
前記特定の疾病の種類を指定する第3ウインドウと、
前記バイオマーカー候補内の各SNPを表示する第4ウインドウと、を表示装置の表示画面内に表示させる表示制御部を備え、
前記表示制御部は、前記第1ウインドウ内で指定した前記特定のSNPのうち、前記バイオマーカー候補に含まれるSNPをハイライト表示する請求項1乃至のいずれか1項に記載のバイオマーカー探索装置。
The first window that specifies the specific SNP specified by the specific SNP designation unit, and
A second window listing all of the specified SNPs,
A third window that specifies the type of the particular disease,
A fourth window for displaying each SNP in the biomarker candidate and a display control unit for displaying on the display screen of the display device are provided.
The biomarker search according to any one of claims 1 to 8 , wherein the display control unit highlights the SNP included in the biomarker candidate among the specific SNPs designated in the first window. Device.
ゲノム内の複数のSNP(Single-Nucleotide Polymorphisms:一塩基多型)の中から、特定の疾病に関連があることが知られている特定のSNPを予め指定し、
前記特定のSNPと、各検体の疾病の有無情報とSNPの接合タイプを表した接合タイプ行列が登録されている探索情報とに基づき、SNPごとに各接合体要素がSNPの組合せとして選択される可能性の高さを示す評価値を算出する処理をV(Vは2以上の整数)回行い、各回の前記評価値の最大値に対応する前記接合体要素を前記V個集めた中での任意の前記接合体要素の組合せについて、各検体の疾病の有無を正しく識別できた度合を表す識別誤差を算出し、前記識別誤差が最小の前記接合体要素の組合せを選択し、当該選択された接合体要素にバイオマーカー候補を更新し、当該更新をU(Uは2以上の整数)回繰り返すことによって、特定の疾病に関連があると推測されるSNPを2つ以上含むバイオマーカー候補を探索し、
前記バイオマーカー候補を出力するバイオマーカー探索方法。
From multiple SNPs (Single-Nucleotide Polymorphisms) in the genome, a specific SNP known to be related to a specific disease is specified in advance.
Each conjugate element is selected as a combination of SNPs for each SNP based on the specific SNP , disease presence / absence information of each sample, and search information in which a junction type matrix representing the junction type of the SNP is registered. The process of calculating the evaluation value indicating the high possibility is performed V (V is an integer of 2 or more) times, and the V joint elements corresponding to the maximum value of the evaluation value of each time are collected. For any combination of the conjugate elements, an identification error representing the degree to which the presence or absence of a disease in each sample could be correctly identified was calculated, the combination of the conjugate elements having the smallest identification error was selected, and the selection was made. By updating the biomarker candidates to the conjugate element and repeating the update U (U is an integer of 2 or more) times, a biomarker candidate containing two or more SNPs presumed to be related to a specific disease is searched for. death,
A biomarker search method that outputs the biomarker candidate.
ゲノム内の複数のSNP(Single-Nucleotide Polymorphisms:一塩基多型)の中から、特定の疾病に関連があることが知られている特定のSNPを予め指定する手順と、
前記特定のSNPと、各検体の疾病の有無情報とSNPの接合タイプを表した接合タイプ行列が登録されている探索情報とに基づき、SNPごとに各接合体要素がSNPの組合せとして選択される可能性の高さを示す評価値を算出する処理をV(Vは2以上の整数)回行い、各回の前記評価値の最大値に対応する前記接合体要素を前記V個集めた中での任意の前記接合体要素の組合せについて、各検体の疾病の有無を正しく識別できた度合を表す識別誤差を算出し、前記識別誤差が最小の前記接合体要素の組合せを選択し、当該選択された接合体要素にバイオマーカー候補を更新し、当該更新をU(Uは2以上の整数)回繰り返すことによって、特定の疾病に関連があると推測されるSNPを2つ以上含むバイオマーカー候補を探索する手順と、
前記バイオマーカー候補を出力する手順と、をコンピュータに実行させるためのプログラム。
A procedure for pre-designating a specific SNP known to be related to a specific disease from a plurality of SNPs (Single-Nucleotide Polymorphisms) in the genome.
Each conjugate element is selected as a combination of SNPs for each SNP based on the specific SNP , disease presence / absence information of each sample, and search information in which a junction type matrix representing the junction type of the SNP is registered. The process of calculating the evaluation value indicating the high possibility is performed V (V is an integer of 2 or more) times, and the V joint elements corresponding to the maximum value of the evaluation value of each time are collected. For any combination of the conjugate elements, an identification error representing the degree to which the presence or absence of a disease in each sample could be correctly identified was calculated, the combination of the conjugate elements having the smallest identification error was selected, and the selection was made. By updating the biomarker candidates to the conjugate element and repeating the update U (U is an integer of 2 or more) times, a biomarker candidate containing two or more SNPs presumed to be related to a specific disease is searched for. And the procedure to do
A program for causing a computer to execute the procedure for outputting the biomarker candidate.
JP2016029120A 2016-02-18 2016-02-18 Biomarker search device, biomarker search method and program Active JP6929015B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016029120A JP6929015B2 (en) 2016-02-18 2016-02-18 Biomarker search device, biomarker search method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016029120A JP6929015B2 (en) 2016-02-18 2016-02-18 Biomarker search device, biomarker search method and program

Publications (2)

Publication Number Publication Date
JP2017146238A JP2017146238A (en) 2017-08-24
JP6929015B2 true JP6929015B2 (en) 2021-09-01

Family

ID=59683028

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016029120A Active JP6929015B2 (en) 2016-02-18 2016-02-18 Biomarker search device, biomarker search method and program

Country Status (1)

Country Link
JP (1) JP6929015B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI792752B (en) 2020-12-11 2023-02-11 南韓商Lg化學股份有限公司 Dip-formed article comprising a layer derived from latex composition for dip-forming

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002063175A (en) * 2000-08-15 2002-02-28 Pharma Design Inc Method for detecting disease-related snp
JP4438414B2 (en) * 2002-02-21 2010-03-24 味の素株式会社 Gene expression information analyzing apparatus, gene expression information analyzing method, program, and recording medium

Also Published As

Publication number Publication date
JP2017146238A (en) 2017-08-24

Similar Documents

Publication Publication Date Title
Uffelmann et al. Genome-wide association studies
US10229519B2 (en) Methods for the graphical representation of genomic sequence data
US11527325B2 (en) Analysis apparatus and analysis method
JP6006081B2 (en) Apparatus and method for determining optimal diagnostic element set for disease diagnosis
CN109686439B (en) Data analysis method, system and storage medium for genetic disease gene detection
JP2019220149A (en) Graph convolution-based gene prioritization on heterogeneous networks
CN110291555B (en) Systems and methods for facilitating computational analysis of health conditions
Groth et al. Evaluating the quality of Marfan genotype–phenotype correlations in existing FBN1 databases
JP2019512795A5 (en)
US20070082353A1 (en) Genetic marker selection program for genetic diagnosis, apparatus and system for executing the same, and genetic diagnosis system
JP2019512795A (en) Relevance feedback to improve the performance of classification models that classify patients with similar profiles together
Olson et al. Variant calling and benchmarking in an era of complete human genome sequences
KR102508971B1 (en) Method and apparatus for predicting the disease risk
KR102391084B1 (en) Method of determining kinship using gene sequence variation
KR102345994B1 (en) Method and apparatus for screening gene related with disease in next generation sequence analysis
JP6929015B2 (en) Biomarker search device, biomarker search method and program
JP6152678B2 (en) Information processing method, apparatus and program
JP5436446B2 (en) Drug action / side effect prediction system and program
Newaz et al. Inference of a dynamic aging-related biological subnetwork via network propagation
Poplin et al. Challenges of accuracy in germline clinical sequencing data
JP6623774B2 (en) Pathway analysis program, pathway analysis method, and information processing apparatus
CN111223533B (en) Medical data retrieval method and system
JP5782039B2 (en) Method and system to aid data entry for information systems
US20190267114A1 (en) Device for presenting sequencing data
JP2017054268A (en) Medical examination support device, medical examination support method, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190510

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190709

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20191206

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200306

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20200306

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20200316

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20200317

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20200501

C211 Notice of termination of reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C211

Effective date: 20200508

C22 Notice of designation (change) of administrative judge

Free format text: JAPANESE INTERMEDIATE CODE: C22

Effective date: 20201211

C13 Notice of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: C13

Effective date: 20210319

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210518

C23 Notice of termination of proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C23

Effective date: 20210611

C03 Trial/appeal decision taken

Free format text: JAPANESE INTERMEDIATE CODE: C03

Effective date: 20210709

C30A Notification sent

Free format text: JAPANESE INTERMEDIATE CODE: C3012

Effective date: 20210709

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210810

R151 Written notification of patent or utility model registration

Ref document number: 6929015

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151