CN1674028A

CN1674028A - 诊断支援系统及诊断支援方法

Info

Publication number: CN1674028A
Application number: CNA2004100716130A
Authority: CN
Inventors: 齐藤聪; 光山训; 伴秀行
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2004-03-26
Filing date: 2004-07-16
Publication date: 2005-09-28
Also published as: JP4437050B2; JP2005276022A; US20050216208A1

Abstract

本发明提供一种诊断支援系统及诊断支援方法，通过考虑单元型块及遗传结构的影响，可进行高精度的诊断支援。由单元型块推断单元(13)推断单元型块的位置，对每个单元型块进行分析，由此高精度地推断个体的单元型图形。由遗传结构推断单元(15)进行利用个体的单元型图形的分组，将群体分割成几个次群体，由此消除群体中存在的遗传结构的影响。利用遗传结构信息数据库(16)和诊疗信息数据库(11)分析临床信息与基因信息的关联性，由此提供高精度的诊断支援知识。以通过分析临床信息与基因信息的关联性而得到的诊断支援知识为基础，由发病危险度计算单元(19)计算出规定的个体患疾病的危险度。

Description

诊断支援系统及诊断支援方法

技术领域

本发明涉及一种诊断支援系统及诊断支援方法，分析临床信息和基因信息的关联性，提取并提示临床上有用的信息。

背景技术

人体基因组计划大致完成了序列(sequence)测定，进入后测序(post-sequencing)的时代。今后，期待着累积的庞大的基因信息在医学上的有效利用。如果基因和疾病的关联性的研究得到发展，能够以个人的基因型为基础，预测疾病的发病危险性，能够根据个人的遗传素质进行疾病的预防、早期发现、治疗。要实现这些，需要分析临床信息和基因信息的关联性。

在临床信息和基因信息的关联性的分析中，作为强有力的方法的一种，有遗传统计学分析法。遗传统计学的分析法，是将个人的基因信息和疾病的有无做为数据，采用统计学研究与疾病有关的基因的方法，由于也有可能发现机序为未知的疾病的关联基因，因此其重要性逐渐增加。遗传统计学的分析法是利用多个基因座(染色体上的基因的位置)之间的连锁(linkage)来探索与特定的性状相关的基因区域的技术。所谓性状是以个体水平观察的各种形态的特征，疾病患病的有无、身高、眼睛或头发的颜色等为性状。所谓的连锁，是“2个不同的性状分别分离独立地遗传”的孟德尔的独立法则的例外。

在规定某2个性状的基因座在染色体上以接近位置存在的时候，这些基因不分离独立，以连结的原状态由父母遗传给孩子。此状态称为2个基因座连锁。在减数分裂(meiosis)的时候，在从亲代传下来的1对染色体之间发生部分交换，传给孩子的基因的组合有时不同于来自亲代的组合。此现象称为重组。

在1次减数分裂中，某2个基因座之间发生重组的概率称为重组率(recombination fraction)。2个基因座间的距离越近，重组率越小。即，连锁的可能性高。在遗传统计学的分析法中，以重组的信息为基础，通过检测网罗在染色体上的基因多态性(单核苷酸或微卫星等)或疾病关联基因的连锁的有无，聚焦疾病关联基因座。

到目前为止，报告了几种遗传统计学的分析法。关于单基因遗传病，通过采用大谱系数据的参数连锁分析，过去辨识了多种致病基因。在今后的疾病致病基因探索的研究中，认为对由多种遗传要素和环境要素引发疾病的多因素疾病的致病基因的研究是主流。当初，即使对于多因素疾病的致病基因，也认为通过利用多个小谱系数据的非参数连锁分析(nonparametric linkage analysis)(受累同胞配对分析：affectedsib-pair analysis)能够进行其辨识。但是，一般多难以直接辨识外显率(发病的概率)低的多因子疾病的致病基因。最近，由于其检测能力的提高和分析的容易性，在疾病群体和正常群体中，比较基因多态性的等位基因频率的相关分析(association analysis)引人注目。

在以往的相关分析中，忽略了真正与性状有关系的基因或误选择与目的性状完全无关系的基因的可能性比较高。一般，前者是作为假阴性的问题进行处理，后者是作为假阳性的问题进行处理。分析结果表明，作为产生假阴性或假阳性的理由举例有：只采用单一的基因多态性或狭窄范围的基因多态性构成的单元型(haplotype)来分析基因和性状的关系；在进行利用单元型的分析时，不考虑单元型块(haplotype block)；不考虑对象群体中存在的多样性(将其称为遗传结构)等。

所谓的单元型，指的是连锁的多个座位中的来自相同亲代的等位基因的组合。在染色体上的近距离存在的多个座位上的等位基因，以不受世代交替中的重组的影响而连锁的状态，向下一代传递。结果，在经过多达几代人的世代交替后，在近距离存在的多个座位中，发现相互的关连关系。该状态称为连锁不平衡(disequilibrium)。近年来，例如，非专利文献1(Gabriel SB et al.：The Structure of Haplotype Blocksin the Human Genome，Science，Vol.296，pp.2225-2229，2002)等，报告了在基因组上，交替存在在连锁不平衡比较强的状态下保持的称为单元型块的部分、和为了以高频率引起重组而弱化座位间的连锁不平衡的称为热点(hotspot)的部分。

该事实意味着，如果能够正确推断单元型块的位置，只要测定单元型块内的几个座位的基因型，就能够确定正确的单元型图形。此外，该事实同时还意味着，在利用跨热点的多个座位进行分析的时候，会出现很多遗传学上无意义的假阳性的结果。

一般，在进行相关分析的时候，多根据注目的性状，将对象群体分组。最有名的病例对照研究(case-control study)，是从某群体中取样多名患者和对照者，用患者群和对照者群比较着眼的等位基因的频率，检测等位基因的频率出现人为差别的多态性的座位。在对照研究中，前提是患者的群体和对照者的群体注目的性状以外是完全匹配的群体。

但是，该前提并不是始终成立。在对象群体中存在遗传结构的时候，特别成为问题。在从遗传上有差异的完全不同的群体中取样患者群和对照者群的时候，遗传结构对分析结果影响较大。举一简单的例子说明群体的遗传结构的影响。例如，如果要在美国收集镰形红细胞症(drepanocyte)的患者群和对照者群，患者群中应包括有很多来自非洲的人，对照者群中应包括很多来自欧洲的人。如果不考虑遗传结构的影响而比较该2个群体，则本来在非洲人和欧洲人中存在等位基因频率的差异的多个座位，作为镰形红细胞症的原因座位检测出来。如此，群体的遗传结构在分析结果中产生很多假阳性。此外，群体的遗传结构在分析结果中不仅产生假阳性，而且也产生假阴性。

非专利文献1：

Gabriel SB et al.：The Structure of Haplotype Blocks in the HumanGenome，Science，Vol.296，pp.2225-2229，2002

发明内容

如上所述，在进行相关分析时，在不考虑对象群体中存在的单元型块的影响或遗传结构的影响的情况下，在分析时，存在产生很多假阴性或假阳性、对分析结果产生重大影响的问题。因此，本发明的目的是，通过考虑单元型块及遗传结构的影响，提供一种进行高精度的诊断支援的系统。

为实现上述目的，本发明的诊断支援系统，具有：诊疗信息数据库，储存多个个体的诊疗信息；基因多态性信息数据库，存储与群体的基因多态性相关的信息；单元型块推断处理程序，以上述基因多态性信息数据库的信息为基础，推断上述群体的单元型块和上述单元型块内的单元型频率；单元型信息数据库，存储上述群体的推断的上述单元型块内的单元型图形及上述单元型频率；遗传结构推断处理程序，以上述单元型信息数据库的信息为基础，推断上述群体中存在的遗传结构，并将上述群体分割成多个次群体；遗传结构信息数据库，存储分割的每个上述次群体的上述单元型信息和上述各个体对上述各次群体的归属度信息；关联性分析处理程序，以上述诊疗信息数据库及上述遗传结构信息数据库的信息为基础，分析被诊断者的单元型和性状的关联性；诊断支援知识数据库，存储由上述关联性分析处理程序得到的信息；患病危险度计算处理程序，以上述诊断支援知识数据库的信息为基础，计算出规定的个体患疾病的危险度。

另外，为实现本发明目的的诊断支援方法，包括如下步骤：以存储基因多态性的相关信息的基因多态性信息数据库的信息为基础，推断单元型块和各单元型块内的单元型频率；将推断的上述各单元型块内的单元型图形及单元型频率存储在单元型信息数据库中；推断遗传结构的步骤，以上述单元型信息数据库的信息为基础，推断群体中存在的遗传结构，将上述群体分割成多个次群体；将分割的每个上述次群体的上述单元型信息和上述各个体对上述各次群体的归属度信息存储在遗传结构信息数据库中；关联性分析步骤，以存储多个个体的诊疗信息的诊疗信息数据库和上述遗传结构信息数据库的信息为基础，分析单元型和性状的关联性；将在关联性分析步骤得到的信息存储在诊断支援知识数据库中；患病危险度计算步骤，以上述诊断支援知识数据库的信息为基础，计算出规定的个体患疾病的危险度。

此外，本发明提供的诊断支援服务，可连接在诊断支援系统上接受诊断支援服务，接受上述诊断支援服务者向诊断支援系统发送从被诊断者的个体收取到的上述规定的个体基因型数据及性状数据；上述诊断支援系统计算出与上述群体中存在的遗传结构有关的信息、上述规定的个体对上述各次群体的归属度、上述规定的个体患疾病的危险度，并提供给上述诊断支援服务接受者；其中，上述诊断支援系统具有：诊疗信息数据库，储存多个个体的诊疗信息；基因多态性信息数据库，存储有关基因多态性的信息；单元型块推断处理程序，以上述基因多态性信息数据库的信息为基础，推断单元型块和上述各单元型块内的单元型频率；单元型信息数据库，存储推断的上述各单元型块内的单元型图形和上述单元型频率；遗传结构推断处理程序，以上述单元型信息数据库的信息为基础，推断上述群体中存在的遗传结构，将上述群体分割成多个次群体；遗传结构信息数据库，存储分割的每个上述次群体的上述单元型信息和上述各个体对上述各次群体的归属度信息；关联性分析处理程序，以上述诊疗信息数据库及上述遗传结构信息数据库的信息为基础，分析单元型和性状的关联性；诊断支援知识数据库，存储由上述关联性分析处理程序得到的信息；患病危险度计算处理程序，以上述诊断支援知识数据库的信息为基础，计算出规定的个体患疾病的危险度。

如上所述，本发明的诊断支援系统及诊断支援方法，利用单元型块推断单元、以基因多态性信息为基础，推断重组的位置来推断单元型块的位置，并对每个单元型块进行分析，由此高精度地推断个体的单元型图形。推断的单元型频率信息和个体的单元型图形信息存储在单元型信息数据库中。此外，由遗传结构推断单元进行利用个体的单元型图形的分组，将群体分割成几个次群体，由此能消除存在于群体中的遗传结构的影响，可高精度地分析临床信息与基因信息的关联性。由遗传结构推断单元得到的结果存储在遗传结构信息数据库中，并利用遗传结构信息数据库和诊疗信息数据库分析临床信息与基因信息的关联性，由此可提供高精度的诊断支援知识。通过分析临床信息与基因信息的关联性而得到的诊断支援知识存储在诊断支援知识数据库中，并且，以诊断支援知识数据库的信息为基础，由患病危险度计算单元计算规定的个体患疾病的危险度。

本发明的诊断支援系统及诊断支援方法，利用单元型块推断算法来推断重组的位置，以此推断单元型块的位置，并对每个单元型块进行分析，由此，能够高精度地推断个体的单元型图形。此外，通过遗传结构推断算法、利用个体的单元型图形进行分组，并将群体分割成几个次群体，由此可消除存在于群体中的遗传结构的影响，可高精度地分析临床信息与基因信息的关联性。

附图说明

图1是表示本发明的诊断支援系统的构成例的图。

图2是表示推断母群体的单元型频率和个体的双元型结构的单元型块推断处理程序13的例子的图。

图3是表示单元型块的设定所需的基本信息的存储数据例的图。

图4是表示各单元型块内的单元型图形及单元型频率信息的存储例的图。

图5是表示每个个体的单元型图形的存储例的图。

图6是说明在某个单元型块内观察单元型1～单元型5所示的5个单元型的例子的图。

图7是表示推断个体的归属度的遗传结构推断处理程序15的图。

图8是表示各次群体中的单元型图形及单元型频率信息的存储例的图。

图9是表示每个个体对各次群体的归属度信息的存储例的图。

图10是表示诊断支援知识数据库18的记述例的图。

图11是表示从外部诊疗机构112经连接通路31、32及因特网30访问本发明的诊断支援系统111、从而接受利用本发明诊断支援系统111的诊断支援时的系统例的图。

具体实施方式

图1是表示本发明的诊断支援系统的构成例的图。本发明的诊断支援系统111是以所谓个人计算机等电子计算机为主体构成。在系统总线5上连接处理器1、存储器2、输入装置3、显示装置4及外部存储装置10。在外部存储装置10内设有：诊疗信息数据库11，存储多个个体(被诊断者)的诊疗信息；基因多态性信息数据库12，存储与多个个体(被诊断者)的基因多态性相关的信息；单元型信息数据库14，以该基因多态性信息数据库12的信息为基础，推断单元型块的位置，对每个单元型块推断群体的单元型频率及个体的单元型图形，存储由此得到的每个单元型块的群体的单元型频率信息及个体的单元型图形；遗传结构信息数据库16，以该单元型信息数据库14的信息为基础，推断群体的遗传结构，对每个单元型块进行按个体的单元型图形的分组，将群体分割成几个次群体，同时存储推断各个体对各次群体的归属度而得到的、被分割的每个次群体的单元型信息及各个体对各次群体的归属度信息；诊断支援知识数据库18，以上述诊疗信息数据库11及遗传结构信息数据库16的信息为基础，分析次群体的每个单元型块中个体的单元型图形和性状的关联性，存储通过计算患疾病的危险度的关联性分析得到的知识；单元型块推断处理程序13，从上述基因多态性信息数据库12的信息，导出上述单元型信息数据库14的信息；遗传结构推断处理程序15，从上述单元型信息数据库14的信息导出上述遗传结构信息数据库16的信息；关联性分析处理程序17，从上述诊疗信息数据库11及上述遗传结构信息数据库16的信息，导出上述诊断支援知识数据库18的信息；以及患病危险度计算处理程序19，以上述诊断支援知识数据库18的信息为基础，计算规定的个体患疾病的危险度。当然，除上述构成外，还具有实现电子计算机功能所必需的数据库及处理程序。

这里，上述数据库处理群体的数据，诊断支援知识数据库18的信息对该群体是有效的。此外，这些数据库的内容，通过累积接受诊断的人的数据，会更充实。

本发明的诊断支援系统，利用单元型块推断处理程序13、以基因多态性信息为基础来推断重组的位置，并推断单元型块的位置，对每个单元型块进行分析，由此，高精度地推断个体的单元型图形。推断的单元型频率信息或个体的单元型图形信息被存储在单元型信息数据库14中。此外，通过利用遗传结构推断处理程序15进行按个体的单元型图形的分组，将群体分割成几个次群体，能够去除存在于群体中的遗传结构的影响，高精度地分析与临床信息和基因信息的关联性。利用遗传结构推断处理程序15得到的结果被存储在遗传结构信息数据库16中，并利用遗传结构信息数据库16和诊疗信息数据库11来分析与临床信息和基因信息的关联性，能够提供高精度的诊断支援知识。通过分析临床信息和基因信息的关联性而得到的诊断支援知识被存储在诊断支援知识数据库18中，利用患病危险度计算处理程序19且以诊断支援知识数据库18的信息为基础，计算规定的个体患疾病的危险度。

在诊疗信息数据库11中，存储个体的姓名、住所、出生年月日、家族构成等基本数据和有关个体的以往病史、家族病史、病人陈述病症、观察、检查结果、生活习惯、症状经过、治疗经过、药品处方的相关信息等临床数据和有关进入治疗阶段的数据等。在基因多态性信息数据库12中，存储与多态性有关的基本信息(位置、测量方法、多态性类别(SNP、STRP等)、等位基因等)、个体的基因多态性测量结果(碱排列图形、纯合体、杂合体等)、用于检查的检验体的识别信息、保存状态等检验体管理数据等。

下面，说明单元型块推断处理程序13。如前所述，在单元型块内，在比较强的状态下保持连锁不平衡。此外，例如，如前面所述的非专利文献1所示，也已知在单元型块内，单元型的多样性比较小。为了推断单元型块的位置，需要定义基因组上的某区域中的连锁不平衡的强度。

一般，多采用2个座位间的连锁不平衡系数D’表示连锁不平衡的强度。在本发明中，例如，某区域中的多个座位的连锁不平衡系数满足下式条件的情况下，以单元型块定义该区域。

Min(|D′|)＞0.8

关于推断的单元型块，推断各单元型块内的群体的单元型频率及个体的单元型图形。个体具有的2个单元型的组合称为双元型结构(diplotype configuration)。从基因型数据库推断个体的双元型结构的方法至今已提出几种。作为其有代表性的方法，例如，有采用文献：Excoffier L & Slatkin M：Maximum-likelihood estimation of molecularhaplotype frequencies in a diploid population，Mol Biol Evol，Vol.12，pp.921-927，1995中所示的EM算法的方法，或采用文献：Stephens M etal.：A new statistical method for haplotype reconstruction from populationdata，Am J Hum Genet，Vol.68，pp.978-989，2001中所示的PHAS法。

以下，说明采用EM算法推断母群体的单元型频率和个体的双元型结构的方法。首先，考虑由n个个体构成的抽样群体。在该群体中，考虑连锁的多个标记座位上的单元型，将该母群体中的频率设为F＝(F₁，F₂，…，F_M)。M是可能的单元型的总数。例如，在标记座位全是SNP座位的时候，如将座位数设为L，则M＝2^L。将各个体的连锁的多个标记座位上的基因型的观察数据设定为G＝(G₁，G₂，…，G_n)。在很多情况下，G_i为不完全数据。因而，与G_i对应的双元型结构多数情况下不确定为1个。此时，定义可能的双元型结构上的概率分布(其称为双元型分布)。关于个体i＝(1，2，…，n)，与G_i对应的双元型结构设定为D_ij(j＝1，2，…，mi)。在此，mi是相对于G_i可能的双元型的数，mi的最大值为M。

步骤21：首先，对可能的M个单元型(分别设为H₁，H₂，…，H_m)，给出单元型频率的初始值F⁽⁰⁾。单元型频率的合计为1。

然后，对于t＝0，1，2，…，通过以下的步骤22～步骤25，从F^(t)计算F^(t+1)。

步骤22：各双元型形D_ij由2个单元型H_l、H_m构成。但是，1≤l≤M、1≤m≤M。在给出母群体的单元型频率F^(t)的时候，得到D_ij的概率如式1。

式1：

因而，在基因型的观察数据G_i的条件下的、个体i的双元型结构为D_ij的事后概率Pr(D_ij|G_j)，由贝叶斯定理得出式2。

式2：

\Pr (D_{ij} | G_{i}) = \frac{\Pr (D_{ij}) \Pr (G_{i} | D_{ij})}{Σ_{k = 1}^{m_{i}} \Pr (D_{ik}) \Pr (G_{i} | D_{ik})} = \frac{\Pr (D_{ij})}{Σ_{k = 1}^{m_{i}} \Pr (D_{ik})} - - - (2)

如果计算所有的j(j＝1，2，…，mi)，可确定个体i的双元型分布。可将此用于抽样群体中的所有个体。

步骤23：

如果确定了个体的双元型分布，则能够从抽样群体中的所有个体的双元型分布计算出母群体的单元型频率的期望值。母群体的单元型频率的期望值见式3。

式3：

E [F_{i}^{(t)}] = \frac{1}{2 n} Σ_{j = 1}^{n} Σ_{k = 1}^{m_{i}} \Pr (D_{jk} | G_{j}) N_{D_{jk} i} - - - (3)

这里，ND_jki是包含在双元型结构D_jk中的H_i的数量(即0，1，2中的任一个)。

步骤24：此时，通过结合每个个体的所有双元型结构的似然度(likelihood)，再结合所有个体的似然度，整体的似然度能够用式4表示。

式4：

L (F^{(t)}) = \Pr (G | F^{(t)}) = Π_{i = 1}^{n} Σ_{j = 1}^{m_{i}} \Pr (D_{ij}) - - - (4)

步骤25：作为F^(t＝1)＝E[F^(t)]，更新F。判断L(F)的值是否收敛。如果满足L(F^(t+1))-L(F^(t))＜β，则收敛，进入步骤26；如果不满足，则返回步骤22，重复步骤25之前的动作。此处，β为阈值。

步骤26：将收敛时刻的E[F]＝F^(EM)作为母群体中的单元型频率的极大似然推断值，将此时的Pr(D|G)作为母群体中的单元型频率的极大似然推断值条件下的个体的双元型分布。

在单元型信息数据库14中，如前所述，以基因多态性信息数据库12的信息为基础，推断单元型块的位置，对每个单元型块都推断群体的单元型频率及个体的单元型图形，按由此得到的每个单元型块存储群体的单元型频率信息和个体的单元型图形，并且，存储设定单元型块所需的基本信息和各单元型块内的单元型图形及单元型频率信息。

图3是表示单元型块的设定所需的基本信息的存储数据例的图。例如，关于基因GENE_1，在表格中登录SNP多态性的多态性POL1及多态性POL_2和STRP多态性的多态性POL_3，表示POL_1、POL_2及POL_3构成单元型块HB_1。除图3所示的数据以外，也可以存储例如单元型块的长度、构成单元型块的多态性的选择标准(等位基因频率或氨基酸变异的有无等)、连锁不平衡系数、存在构成单元型块的多态性的基因的位置等。

图4是表示各单元型块内的单元型图形及单元型频率信息的存储例的图。例如，在单元型块HB_1内存在单元型HT_1、单元型HT_2、单元型HT_3及单元型HT_4等4个单元型，表示各单元型的母群体中的频率分别为0.50、0.28、0.15及0.07。

图5是表示每个个体的单元型图形的存储例的图。例如，个体PERSON_1对于单元型块HB_1具有2个单元型HT_1(具有由2个单元型HT_1构成的单元型形)，表示具有该单元型形的概率为1.00。同样，个体PERSON_1，对于单元型块HB_2表示具有由2个单元型块HT_5构成的双元型结构(概率0.95)或者由单元型HT5及单元型HT_6构成的双元型结构(概率0.05)，对于单元型块HBm，表示具有由2个单元型块HT_Y构成的双元型结构(概率1.00)。

下面，说明遗传结构推断处理程序15。在本发明中，为了推断群体的遗传结构，进行按个体的单元型图形的分组，将群体分割成几个次群体。在本发明中，重新定义由各单元型间的突变及重组的易发生度决定的距离，利用该距离进行个体的分组。以下，叙述本发明的分组方法。

图6是说明在某单元型块内观察单元型1～单元型5所示的5个单元型的例子的图。为计算各单元型间的距离，首先制作如图6所示的单元型进化系统树(haplotype evolutionary tree)。制作单元型进化系统树的方法，到目前报告了例如文献：McPeek MS & StrahsA：Assessment of linkage disequilibrium by the decay of haplotypesharing，with application to finescale genetic mapping，Am J HumGenet，Vol.65，pp.858-875，1999中所示的方法等几种方法。

在本发明中，制作进化系统树的枝(edge)表示一次突变或一次重组引起的进化的进化系统树。像从图6的单元型1向单元型5的进化那样，只通过一次突变或一次重组不能表示进化的时候，插入实际中未观察的辅助的单元型，制作进化系统树。图6的单元型6是该辅助的单元型的例子。

下面，关于制作的系统树的各个枝，确定该进化是重组引起的还是突变引起的。例如，在图6中，从单元型1向单元型4的进化认为是重组引起的进化，但从单元型1向单元型2的进化或从单元型1向单元型3的进化认为是突变引起的进化和重组引起的进化的双方。

在某一单元型H_S向其他单元型H_T进化时的似然度，用式5表示。

式5：

Pr(H_T|H_S)＝Pr(H_T|H_S，mut.)Pr(mut.|mut.or rec.)

----(5)

+Pr(H_T|H_S，rec.)Pr(rec.|mut.or rec.)

其中，mut.表示突变(mutation)，rec.表示重组(recombination)。式5表示，用假设由突变引起该进化时的似然度和假设由重组引起该进化时的似然度的和、来表示某一单元型H_S向其他单元型H_T进化时的似然度。这里，如果将某座位j上的突然变异率设为γ_j、单元型中的第k个间隙的重组率设为θ，则Pr(mut.|mut.or rec.)＝A/(A+B)，此外，Pr(rec.|mut.or rec.)＝B/(A+B)。但是，A如式6所示，B如式7所示。

式6：

A = \underset{j}{Σ} γ_{j} \underset{i &NotEqual; j}{Π} (1 - γ_{j}) - - - (6)

式7：

B = \underset{k}{Σ} θ_{k} \underset{i &NotEqual; k}{Π} (1 - θ_{k}) - - - (7)

如同从图6中的单元型1向单元型4的进化一样，在构成单元型的多态性在2个以上的座位上不同时，清楚地知道该进化是由重组引起的，Pr(H_T|H_S、mut.)＝0。在由重组引起进化的时候，例如，在从图6中的单元型1向单元型4进化的时候，即使在单元型1及单元型4的右侧共通的部分单元型GCCCTCTAT上的任意间隙(包括两端)中引起重组，外表上也形成相同的单元型。因此，H_S和H_T在第k₀个间隙之前是由外表上相同的等位基因构成(称为IBS(identical bystate))，如果在其以后的部分不同，则重组引起进化时的似然度表示为式8。

式8：

\Pr (H_{T} | H_{S}, rec .) = Σ_{k = 0}^{k_{0}} \Pr (H_{T} | H_{S}, rec ., R = k) \Pr (R = k) - - - (8)

现在，设定H_S由L个座位构成，由H_S中的座位m，m+1，…，n的部分构成的部分单元型表示为H_S ^{m:n}。如果将H_T也同样表示，则得出式9。

式9：

\Pr (H_{T} | H_{S}, rec ., R = k) \Pr (R = k)

= \Pr (H_{T}^{1 : k} IBD to H_{S}^{1 : k}, H_{T}^{(k + 1) : L} | H_{T}^{1 : k} IBS to H_{S}^{1 : k})

= \Pr (H_{T}^{1 : k} IBD to H_{S}^{1 : k} | H_{T}^{1 : k} IBS to H_{S}^{1 : k}) \Pr (H_{T}^{(k + 1) : L}) - - - (9)

这里，所谓的某2个单元型是IBD(identical by descent)，表示共有来自同祖的等位基因。此外，某2个单元型即使外表上是IBS，由于有时实际上是IBD，所以将其表示为IBS^*。

如果采用贝叶斯定理，则得出式10。

式10：

\begin{matrix} \Pr (H_{T}^{1 : k} IBD to H_{S}^{1 : k} | H_{T}^{1 : k} IBS to H_{S}^{1 : k}) \\ = \Pr (H_{T}^{1 : k} IBD to H_{S}^{1 : k}) \\ / [\Pr (H_{T}^{1 : k} IBD to H_{S}^{1 : k}) + \Pr (H_{T}^{1 : k} {IBS}^{*} to H_{S}^{1 : k}) \Pr (H_{T}^{1 : k} | H_{T}^{1 : k} {IBS}^{*} to H_{S}^{1 : k})] \end{matrix}\} - - - (10)

此处，能够假设式11。

式11：

\Pr (H_{T}^{1 : k} IBD to H_{S}^{1 : k}) = \Pr (H_{S}^{1 : k} {IBS}^{*} to H_{S}^{1 : k}) = \frac{1}{2} - - - (11)

由于式12是H_T ^{1:k}的频率，能够容易计算式10的值。

式12：

\Pr (H_{T}^{1 : k} | H_{T}^{1 : k} {IBS}^{*} to H_{S}^{1 : k}) - - - (12)

在本发明中，将式5表示的似然度作为各单元型间的距离重新定义，并采用该距离进行个体的分组。因此，对于第k个的单元型块，如式13所示地定义具有H_kak、H_kbk的单元型的个体和具有H_kck、H_kdk的单元型的个体的距离dk。

式13：

\begin{matrix} d_{k} = \frac{1}{8} [\Pr (H_{{kc}_{k}} | H_{{ka}_{k}}) + \Pr (H_{{ka}_{k}} | H_{{kc}_{k}}) + \Pr (H_{{kd}_{k}} | H_{{ka}_{k}}) + \Pr (H_{{ka}_{k}} | H_{{kd}_{k}}) \\ + \Pr (H_{{kc}_{k}} | H_{{kb}_{k}}) + \Pr (H_{{kb}_{k}} | H_{{kc}_{k}}) + \Pr (H_{k d_{k}} | H_{{kb}_{k}}) + \Pr (H_{{kb}_{k}} | H_{{kd}_{k}})] \end{matrix}\} - - - (13)

如果将单元型块的数量设为m，2个单体间的距离d结合所有单元型块中的距离而成为式14。

式14：

d = \frac{1}{m} Σ_{k = 1}^{m} d_{k} - - - (14)

下面，说明个体的归属度的推断方法、即遗传结构推断处理程序15。在本发明中，将各个体属于用如上所述的分组方法生成的次群体中的哪个次群体的信息，作为个体的归属度来定义。

步骤71：利用参照图6说明的方法，对各单元型确定单元型间的距离。

步骤72：进行基于单元型间的距离的分组。

步骤73：根据步骤72的结果，将由n个个体构成的群体分割成N个次群体。此时，如果某个体I被分类到某次群体j，则个体i向次群体j的归属度为100％，个体i向次群体j以外的次群体的归属度为0％。如果将单元型块的数量设定为m，整体的似然度可表示为式15。

式15：

L (N) = Π_{i = 1}^{n} Σ_{j = 1}^{N} Π_{k = 1}^{m} \Pr {(D | G)}_{jk}^{(i)} Q_{j}^{(i)} - - - (15)

此处，Pr(D|G)是个体的极大似然双元型分布，式16表示某次群体j的第k个单元型块中的个体i的极大似然双元型分布。

式16：

\Pr {(D | G)}_{jk}^{(i)} - - - (16)

步骤74：判断L(N)的值是否收敛。如果满足L(N_k＝1)-L(N_k)＜β，则作为收敛进入步骤75，如果不满足，则返回步骤71，重复步骤74之前的动作。此处，β为阈值。此外，式(17)是个体i向次群体j的归属度。

式17：

Q_{j}^{(i)} - - - (17)

步骤75：用式15表示的似然度达到极大时的N是此群体数的极大似然推断值。作为参数采用该极大似然推断值。

步骤76：以式15表示的似然度为基础，计算个体向各次群体的归属度。例如，有N_{k}个次群体，如果在下面的连结步骤连结次群体N_{l}和次群体N_{l+1}而形成N_{k-1}个次群体，则在该步骤中似然度无变化，且在此时似然度达到极大的情况下，对于分类为次群体N_{l}和次群体N_{l+1}的所有个体，将向次群体N_{l}和次群体N_{l+1}的归属度分别设定为50％。

在遗传结构信息数据库16中，如前所述地存储各次群体中的单元型图形及单元型频率信息和每个个体向各次群体的归属度信息。

图8是表示各次群体中的单元型图形及单元型频率信息的存储例的图。例如，在次群体SUBPOP_1及SUBPOP_2内，有单元型块HB_1、HB_2。此处表示，在次群体SUBPOP_1内存在单元型HT_1、单元型HT_2、单元型HT_3及单元型HT_4等4个单元型，在次群体SUBPOP_2内存在另外的单元型HT_7、单元型HT_8及单元型HT_9等3个单元型。

另一方面，参照图4可知，例如在单元型块HB_1内存在单元型HT_1、单元型HT_2、单元型HT_3及单元型HT_4等4个单元型，各单元型的在母群体中的频率分别为0.50、0.28、0.15及0.07。此外，在单元型块HB_1内存在另外的单元型HT_7、单元型HT_8及单元型HT_9等3个单元型，各单元型的在母群体中的频率分别为0.34、0.33及0.33。

图9是表示每个个体向各次群体的归属度信息的存储例的图。例如，个体PERSON_1向次群体SUBPOP_1的归属度为1.00(也可以按100％表示)，个体PERSON_2向次群体SUBPOP_1的归属度为0.50(50％)、向次群体SUBPOP_3的归属度为0.50(50％)。

下面，利用关联性分析处理程序17，以诊疗信息数据库11和遗传结构信息数据库16的信息为基础，说明按各次群体的每个单元型块、分析个体的单元型图形和性状的关联性的顺序。关联性分析处理程序17比较具有特定的单元型的个体群和不具有特定的单元型的个体群的之间的性状(例如，比较有无疾病发病)，计算两群间的比值比(odds ratio)等，比较具有特定的单元型的个体群与不具有特定的单元型的个体群，如此推断发病的危险性是否提高。

在本发明中，例如，作为单元型相对危险性，定义相对于具有特定的单元型的个体群的和不具有特定的单元型的个体群的比值比。在多种情况下，根据是否所有特定的单元型、疾病发病的有无(也可以是临床事件的有无或药剂的副作用的有无等)制作2×2分割表，通过该2×2分割表的独立性的检测(采用x2乘测试或费舍尔(Fisher)的直接概率法)，计算是否所有特定的单元型对疾病发病的有无的影响。在不能将性状分割成几个类别的时候，实施t测试或标记测试(Wilcoxon测试)等，也可以比较具有特定的单元型的个体群和不具有特定的单元型的的个体群的性状之差。

通过关联性分析处理程序17得到的知识，存储在诊断支援知识数据库18中。

图10是表示诊断支援知识数据库18的记述例的图。表示各次群体中的单元型相对危险性信息的存储例。就疾病发病的有无或临床事件的有无、检查结果的正常及异常、药物的副作用的有无等多种临床数据，可定义单元型相对危险性，这里，表示与心脏病、糖尿病、患病X的发病的有无相对应的每个次群体的单元型相对危险性信息的存储例。例如，单元型HT_1表示，在次群体SUBPOP_1内相对于心脏病的相对危险度为1.50、相对于糖尿病、患病X的相对危险度分别为1.35、1.00。此外，同时，单元型HT_1还表示，在次群体SUBPOP_2内相对于心脏病的相对危险度为2.00、相对于糖尿病、患病X的相对危险度分别变化为1.89、1.00。

患病危险度计算处理程序19参照遗传结构信息数据库16及诊断支援知识数据库18算出规定的个体患疾病的危险度。如果将单元型块的数量设为m、存在于群体内的次群体的数量设为N、次群体j的单元型块k中的个体i的单元型相对危险度设为r_ijk，则个体i患某种疾病的危险度R_i能够表示为式18。

式18：

R_{i} = Π_{k = 1}^{m} Σ_{j = 1}^{N} r_{ijk} Q_{j} - - - (18)

图11是表示从外部诊疗机构112经连接通路31、32及因特网30进入本发明的诊断支援系统111，接受利用本发明的诊断支援系统111的诊断支援时的系统例的图。外部诊疗机构112也具有所谓的个人计算机等电子计算机，在系统总线5上连结处理器1、存储器2、输入装置3、显示装置4及外部存储装置10。但是，外部诊疗机构112如本发明所示地不处理大规模的母群体的数据，所以，存储多个个体(被诊断者)的诊疗信息的诊疗信息数据库113和存储多个个体(被诊断者)的基因多态性相关信息的基因多态性信息数据库114可以是小规模的。只要是在被诊断者的诊断时，能个别地接受利用本发明的诊断支援系统111的诊断支援，也可以不设置诊疗信息数据库113及基因多态性信息数据库114。由此，本发明的诊断支援系统111，通过利用其的外部诊疗机构收集并提供被诊断者的数据，能够充实数据，使系统更完善。在外部诊疗机构112接受利用本发明的诊断支援系统111的诊断支援的时候，外部诊疗机构112从诊疗信息数据库113及基因多态性信息数据库114中抽取个体的基因数据及性状数据，传送给本发明的诊断支援系统111。在外部诊疗机构112不具有诊疗信息数据库113及基因多态性信息数据库114时，只要通过从输入装置3输入这些信息，传送给本发明的诊断支援系统111就可以。本发明的诊断支援系统111，向作为委托方的外部诊疗机构112提供以这些数据为基础计算出的与疾病对应的患病危险度信息、遗传结构信息、个体向各次群体的归属度信息等。计算机的处理流程无需特别说明。

Claims

1.一种诊断支援系统，其特征在于，具有：

诊疗信息数据库，储存多个个体的诊疗信息；

基因多态性信息数据库，存储与群体的基因多态性相关的信息；

单元型块推断处理程序，以上述基因多态性信息数据库的信息为基础，推断上述群体的单元型块和上述单元型块内的单元型频率；

单元型信息数据库，存储上述群体的推断的上述单元型块内的单元型图形及上述单元型频率；

遗传结构推断处理程序，以上述单元型信息数据库的信息为基础，推断上述群体中存在的遗传结构，并将上述群体分割成多个次群体；

遗传结构信息数据库，存储分割的每个上述次群体的上述单元型信息和上述各个体对上述各次群体的归属度信息；

关联性分析处理程序，以上述诊疗信息数据库及上述遗传结构信息数据库的信息为基础，分析被诊断者的单元型和性状的关联性；

诊断支援知识数据库，存储由上述关联性分析处理程序得到的信息；

患病危险度计算处理程序，以上述诊断支援知识数据库的信息为基础，计算出规定的个体患疾病的危险度。

2.如权利要求1所述的诊断支援系统，其特征在于，

上述遗传结构推断处理程序进行如下处理：

根据在存在于上述各单元型块内的单元型间定义的距离，进行分组；

求出通过上述分组而得到的每个上述次群体的上述单元型图形及上述单元型频率；

判断适当的上述次群体的数量；

求出上述各个体对得到的上述次群体的归属度。

3.如权利要求2所述的诊断支援系统，其特征在于，

根据各单元型间的重组及突变的易发生度，定义上述距离。

4.一种诊断支援方法，其特征在于，包括如下步骤：

以存储基因多态性的相关信息的基因多态性信息数据库的信息为基础，推断单元型块和各单元型块内的单元型频率；

将推断的上述各单元型块内的单元型图形及单元型频率存储在单元型信息数据库中；

推断遗传结构的步骤，以上述单元型信息数据库的信息为基础，推断群体中存在的遗传结构，将上述群体分割成多个次群体；

将分割的每个上述次群体的上述单元型信息和上述各个体对上述各次群体的归属度信息存储在遗传结构信息数据库中；

关联性分析步骤，以存储多个个体的诊疗信息的诊疗信息数据库和上述遗传结构信息数据库的信息为基础，分析单元型和性状的关联性；

将在关联性分析步骤得到的信息存储在诊断支援知识数据库中；

患病危险度计算步骤，以上述诊断支援知识数据库的信息为基础，计算出规定的个体患疾病的危险度。

5.如权利要求4所述的诊断支援方法，其特征在于，

推断上述遗传结构的步骤包括如下处理：

求出通过上述分组而得到的每个上述次群体的上述单元型图形和上述单元型频率；

判断适当的上述次群体的数量；

求出上述各个体对得到的上述次群体的归属度。

6.如权利要求5所述的诊断支援方法，其特征在于：

根据各单元型间的重组及突变的易发生度，定义上述距离。

7.一种诊断支援服务，其特征在于，

可连接在诊断支援系统上接受诊断支援服务，接受上述诊断支援服务者向诊断支援系统发送从被诊断者的个体收取到的上述规定的个体基因型数据及性状数据；上述诊断支援系统计算出与上述群体中存在的遗传结构有关的信息、上述规定的个体对上述各次群体的归属度、上述规定的个体患疾病的危险度，并提供给上述诊断支援服务接受者；

其中，上述诊断支援系统具有：

诊疗信息数据库，储存多个个体的诊疗信息；

基因多态性信息数据库，存储有关基因多态性的信息；

单元型块推断处理程序，以上述基因多态性信息数据库的信息为基础，推断单元型块和上述各单元型块内的单元型频率；

单元型信息数据库，存储推断的上述各单元型块内的单元型图形和上述单元型频率；

遗传结构推断处理程序，以上述单元型信息数据库的信息为基础，推断上述群体中存在的遗传结构，将上述群体分割成多个次群体；

关联性分析处理程序，以上述诊疗信息数据库及上述遗传结构信息数据库的信息为基础，分析单元型和性状的关联性；