CN107526940A

CN107526940A - 基因关联分析的修正方法及修正装置

Info

Publication number: CN107526940A
Application number: CN201710667074.4A
Authority: CN
Inventors: 索津莉; 鲍峰; 戴琼海
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2017-08-07
Filing date: 2017-08-07
Publication date: 2017-12-29

Abstract

本发明公开了一种基因关联分析的修正方法及修正装置，其中，方法包括：获取新的样本的基因序列；生成新的样本；对所述新的样本进行标签赋值，其中，将所述新的样本与预设的患病以及健康的样本进行比对，以确定所属类别并放弃或者保留；重复执行所述获取序列步骤、生成样本步骤和所述标签赋值步骤，以得到满足预设条件的多个样本，并获取新的数据集，以进行基于回归方程的似然比检验。该方法可以保持原有数据中内在的基因信息，同时不违背原有的统计检验框架，从而原有的统计检验方法也可以直接使用，提高修正的适用性和准确性，简单易实现。

Description

基因关联分析的修正方法及修正装置

技术领域

本发明涉及大数据分析、精准医疗与基因工程技术领域，特别涉及一种基因关联分析的修正方法及修正装置。

背景技术

GWAS(Genome-wide association study，基因关联分析)在揭示遗传疾病的致病原理方面有着重要的意义。但是，现有的GWAS方法仍然存在很多缺失的因素来完整的解释复杂遗传疾病的致病原因，造成“缺失的遗传性”现象。针对这个问题，相关技术中，许多方法从不同的角度提出可能存在的原因，来解释缺失的致病机理。但是，在统计学与生物学两个领域，目前的工作仍然无法给出一个完整的解释方案。

发明内容

本申请是基于发明人对以下问题的认识和发现作出的：

考虑可能造成缺失遗传性的一种新的致病机理，即采集数据时不同种类数据的比例差异。在针对某种疾病的传统GWAS分析中，通常是对一定数量的健康个体以及患病个体的基因数据进行采集，然后进行统计分析。但是，如果要对某种特定的疾病进行分析，或者要对特定的种群进行研究的时候，很有可能采集不到足够的患病人群样本。因为健康人群容易寻找，但是患病人群具有特异性，如果分析的是一种罕见疾病的时候，那么本身满足要求的个体数目就是非常有限的。

当收集不到足够的致病人群数据时，传统的逻辑斯特回归(Logisticregression)加卡方检验方法会发生严重的统计偏差。这是因为在逻辑斯特回归的参数求解过程中，每一个样本都会对统计误差有一个相同重要性的贡献衡量，无论其是患病个体还是健康个体。当收集的数据中患病人群的数目远远小于健康人群数目时，患病人群整体误差会远远小于健康人群所造成的误差，从而导致对逻辑斯特回归的求解过程更加偏向于减少健康人群的误差，而相对忽视患病人群的误差，从而包含在患病人群中的致病信息一并被忽视掉，造成了GWAS方法对于疾病发现性能的降低。

在机器学习领域，对于这种正负样本不平衡数据的研究主要集中在对数据进行分类领域。通常来说，这类方法利用的是上采样技术来额外生成患病样本的合成数据，来人工制造一个相对平衡的数据集。但是这种方法很难应用到现有的GWAS分析框架中去，主要存在两个限制：首先现有方法考虑的是如何提高对不同类型的分类能力，而GWAS考虑的是如何发现更显著的位点。本质上，这是两个不同类型的问题。第二个是现有的方法是在传统的正交欧式空间中建模，但是在真实的基因数据中，信息是以序列的形式进行编码的。因而，内在的基因结构需要在分析中进行明确的建模。

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种基因关联分析的修正方法，该方法可以提高修正的适用性和准确性，简单易实现。

本发明的另一个目的在于提出一种基因关联分析的修正装置。

为达到上述目的，本发明一方面实施例提出了一种基因关联分析的修正方法，包括以下步骤：获取序列步骤：根据训练的隐马尔科夫模型学到的生成概率分布获取新的样本的基因序列；生成样本步骤：根据所述新的样本的基因序列生成新的样本；标签赋值步骤：对所述新的样本进行标签赋值，其中，将所述新的样本与预设的患病以及健康的样本进行比对，以确定所属类别并放弃或者保留；似然比检验步骤：重复执行所述获取序列步骤、生成样本步骤和所述标签赋值步骤，以得到满足预设条件的多个样本，并获取新的数据集，以进行基于回归方程的似然比检验。

本发明实施例的基因关联分析的修正方法，专门针对基因关联分析中存在的数据样本补平衡问题设计，可以利用概率生成模型，对已有数据的基因结构进行建模学习，获得数据内在的信息与统计结构，然后有针对性的生成新的样本，考虑整体的数据结构关系，赋给每个样本的标签类别，保持了原有数据中内在的基因信息，同时不违背原有的统计检验框架，从而原有的统计检验方法也可以直接使用，提高修正的适用性和准确性，简单易实现。

另外，根据本发明上述实施例的基因关联分析的修正方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述训练的隐马尔科夫模型的训练方法包括：检测基因核苷酸多态性位点(SNP)s_i上游下游位置的L个SNP；根据所述L个SNP得到基因集合在所述基因集合上，通过隐马尔科夫模型对序列进行建模，并通过训练所述隐马尔科夫模型到生成模型的参数集Θ，以得到所述训练的隐马尔科夫模型。

进一步地，在本发明的一个实施例中，所述得到所述训练的隐马尔科夫模型，进一步包括：通过最大化所述参数集Θ＝{π,A,B}来计算得到最适合所述基因集合的隐马尔科夫模型，且所述隐马尔科夫模型为：

其中，π为进入HMM隐状态每种状态的概率，A＝{a_ij}为为隐状态从i到j进行转移的概率，B＝{b_jt}为从隐节点i观测到基因类型t的概率。

进一步地，在本发明的一个实施例中，所述获取新的样本的基因序列，进一步包括：获取所述新的样本的初始状态；根据学习到的隐马尔科夫模型转移矩阵生成隐状态序列；获取从所述隐状态序列按照发射矩阵进行随机观测的结果，并生成所述新的样本的基因序列。

可选地，在本发明的一个实施例中，所述预设条件为所述多个样本组成的样本集合满足正负平衡。

为达到上述目的，本发明另一方面实施例提出了一种基因关联分析的修正装置，包括：获取模块，用于根据训练的隐马尔科夫模型学到的生成概率分布获取新的样本的基因序列，以执行获取序列步骤；生成模块，用于根据所述新的样本的基因序列生成新的样本，以执行生成样本步骤；赋值模块，用于对所述新的样本进行标签赋值，其中，将所述新的样本与预设的患病以及健康的样本进行比对，以确定所属类别并放弃或者保留，以执行标签赋值步骤；检验模块，用于重复执行所述获取序列步骤、生成样本步骤和所述标签赋值步骤，以得到满足预设条件的多个样本，并获取新的数据集，以进行基于回归方程的似然比检验，以执行似然比检验步骤。

本发明实施例的基因关联分析的修正装置，专门针对基因关联分析中存在的数据样本补平衡问题设计，可以利用概率生成模型，对已有数据的基因结构进行建模学习，获得数据内在的信息与统计结构，然后有针对性的生成新的样本，考虑整体的数据结构关系，赋给每个样本的标签类别，保持了原有数据中内在的基因信息，同时不违背原有的统计检验框架，从而原有的统计检验方法也可以直接使用，提高修正的适用性和准确性，简单易实现。

另外，根据本发明上述实施例的基因关联分析的修正装置还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，还包括：训练模块，用于获取所述训练的隐马尔科夫模型，其中，所述训练模块具体用于检测基因核苷酸多态性位点(SNP)s_i上游下游位置的L个SNP，并根据所述L个SNP得到基因集合并且在所述基因集合上，通过隐马尔科夫模型对序列进行建模，并通过训练所述隐马尔科夫模型到生成模型的参数集Θ，以得到所述训练的隐马尔科夫模型。

进一步地，在本发明的一个实施例中，所述获取模块还用于获取所述新的样本的初始状态，并根据学习到的隐马尔科夫模型转移矩阵生成隐状态序列，并且获取从所述隐状态序列按照发射矩阵进行随机观测的结果，并生成所述新的样本的基因序列。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明一个实施例的基因关联分析的修正方法的流程图；

图2为根据本发明一个具体实施例的基因关联分析的修正方法的流程图；

图3为根据本发明一个实施例的基因关联分析的修正装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的基因关联分析的修正方法及修正装置，首先将参照附图描述根据本发明实施例提出的基因关联分析的修正方法。

图1是本发明一个实施例的基因关联分析的修正方法的流程图。

如图1所示，该基因关联分析的修正方法包括以下步骤：

在获取序列步骤S101中，根据训练的隐马尔科夫模型学到的生成概率分布获取新的样本的基因序列。

其中，在本发明的一个实施例中，训练的隐马尔科夫模型的训练方法包括：检测基因核苷酸多态性位点(SNP)s_i上游下游位置的L个SNP；根据L个SNP得到基因集合在基因集合上，通过隐马尔科夫模型对序列进行建模，并通过训练隐马尔科夫模型到生成模型的参数集Θ，以得到训练的隐马尔科夫模型。

进一步地，在本发明的一个实施例中，得到训练的隐马尔科夫模型，进一步包括：通过最大化参数集Θ＝{π,A,B}来计算得到最适合基因集合的隐马尔科夫模型，且隐马尔科夫模型为：

可以理解的是，如图2所示，本发明实施例提出了在小样本下的基因关联分析修正方法，从而为进行更为精确的疾病诊断提供了新的途径：

步骤S1，首先，位于需要分析的基因核苷酸多态性位点(SNP)s_i上游下游位置的L个SNP组合成一个基因集合其中i(i＝1,2,…,I)代表SNP的序号，n(n＝1,2,…,N)代表样本编号。另外，通过扩大分析范围到邻近的SNP，可以将重要的生物信息(比如连锁不平衡、序列隐含结构)一并考虑在内。

步骤S2，其次，在每个基因集合上，HMM(Hidden Markov Model，隐马尔科夫模型)用来对序列进行建模，通过训练HMM，得到该生成模型的参数集Θ。

举例而言，如图2所示，本发明实施例包括以下步骤：

1.训练隐马尔科夫模型

首先将要进行基因关联分析检测的SNP位点s_i的上下游L个SNP位点共同组成基因集合在数据集上，用隐马尔科夫模型(HMM)在N个个体的该集合上进行训练。在训练时，仅仅考虑每个个体集合的序列数据，而不管每个个体的标签y⁽ⁿ⁾。在基因集合数据上，通过最大化HMM的参数集Θ＝{π,A,B}来计算得到最适合此基因集合的HMM模型，可以表示为：

其中是初始状态，π代表着进入HMM隐状态每种状态的概率；A＝{a_ij}是转移矩阵，代表隐状态从i到j进行转移的概率；B＝{b_jt}是发射矩阵，代表着从隐节点i观测到基因类型t的概率。这三个参数约束了一个统计结构，使得能够对基因集合进行最为合适的建模。整个模型的框架可以在期望最大化算法下得到求解。

需要说明的是，在具体实现中，如设置隐节点数目可以为5，每个集合上下游50kbp位置的所有SNP共同组成所有的基因集合

在生成样本步骤S102中，根据新的样本的基因序列生成新的样本。

其中，在本发明的一个实施例中，获取新的样本的基因序列，进一步包括：获取新的样本的初始状态；根据学习到的隐马尔科夫模型转移矩阵生成隐状态序列；获取从隐状态序列按照发射矩阵进行随机观测的结果，并生成新的样本的基因序列。

可以理解的是，步骤S3，在得到训练的HMM模型之后，新的样本可以根据HMM学到的生成概率分布来产生新的样本。具体过程如下，给一个初始的状态，可以根据学习到的HMM转移矩阵来生成隐状态序列。新样本的基因型可以认为是从HMM隐状态序列按照发射矩阵进行随机观测的结果。由此，可以生成新的样本的基因序列。

进一步地，如图2所示，本发明实施例还包括以下步骤：

2.生成新的数据样本

通过HMM的建模，得到了整个基因集合的内在基因结构，并通过统计生成模型的形式给出了具体的表达结构。在此基础上，本发明利用学习到的模型，正向生成新的服从同样统计分布的新样本。

2.1利用所学习到的HMM结构，首先生成隐状态序列起点。

首先，随机赋予一个隐状态起点。利用学习得到的初始状态π，按照每种状态初始概率，随机确定初始的隐状态h_o。

2.2在初始状态确定之后，利用学习到的转移矩阵A，通过概率推理确定后续的状态。

假设已经得到了位置l-1的状态为h_l-1＝i，下一个位置SNP的具体隐节点状态h_l是通过随机对转移矩阵A的第i行{a_i,*}进行观测所确定的。重复这一过程，利用最初的初始点，逐步推理得到隐状态序列h₀,h₁,…,h_L-1，所得到的序列与整个基因集合的长度相同。

2.3生成基因序列

在得到隐节点序列之后，利用发射矩阵B，将每个位置的基因型看作是从隐节点随机观测得到的结果。具体来说，假设已经得到位置l的隐节点h_l＝i，利用发射矩阵B中的第t行，来随机观测得到基因型g_l。通过对每一隐节点独立进行观测，生成与隐节点序列相对应的基因序列：g_o,g₁,…,g_L-1。

在标签赋值步骤S103中，对新的样本进行标签赋值，其中，将新的样本与预设的患病以及健康的样本进行比对，以确定所属类别并放弃或者保留。

可以理解的是，步骤S4，生成新的样本之后，对于新样本进行标签赋值。新生成的样本通过与现有的患病以及健康的样本进行比对，确定所属类别。如果是输入多数类别的，那么该样本则丢弃，如果属于少数样本的，则该样本保留。

进一步地，如图2所示，本发明实施例还包括以下步骤：

3.确定生成样本的标签

当确定新的样本生成之后，通过对比新的样本与现有样本之间的距离来确定新样本的标签。具体来说，介绍患病与健康样本的中心位置分别为C_ca与C_co，通过直接计算每个样本每个维度的众数来得到。然后本发明实施例可以基于位置权重的距离衡量方法来判断新样本的标签，具体计算如下：

其中loc(s_i)代表着SNPs_i在集合中的位置。采用这样的设置，使得SNP的权重与距离测试的SNP位置远近成反比，如果越近，则权重越大，决定标签时作用越强烈。

最后对比与健康、患病两类个体之间的距离，决定最终的标签类型。

在似然比检验步骤S104中，重复执行获取序列步骤S101、生成样本步骤S102和标签赋值步骤S103，以得到满足预设条件的多个样本，并获取新的数据集，以进行基于回归方程的似然比检验。

可选地，在本发明的一个实施例中，预设条件可以为多个样本组成的样本集合满足正负平衡。

也就是说，不断重复执行步骤3和步骤4，直至产生足够多的样本来实现正负平衡的样本集合，组成新的数据集。在新的数据集上面，进行基于回归方程的似然比检验。即言，生成新的样本之后，组成了新的数据集，数据可以用传统的似然比检验方法进行检验。

需要说明的是，图2中，1为本发明实施例所处理的数据类型，2为HMM的估计基因结构，3为新样本标签确定方式，为减少冗余，在此不作详细赘述。

根据本发明实施例提出的基因关联分析的修正方法，专门针对基因关联分析中存在的数据样本补平衡问题设计，可以利用概率生成模型，对已有数据的基因结构进行建模学习，获得数据内在的信息与统计结构，然后有针对性的生成新的样本，考虑整体的数据结构关系，赋给每个样本的标签类别，保持了原有数据中内在的基因信息，同时不违背原有的统计检验框架，从而原有的统计检验方法也可以直接使用，提高修正的适用性和准确性，简单易实现。

其次参照附图描述根据本发明实施例提出的基因关联分析的修正装置。

图3是本发明一个实施例的基因关联分析的修正装置的结构示意图。

如图3所示，该基因关联分析的修正装置10包括：获取模块100、生成模块200、赋值模块300和检验模块400。

其中，获取模块100用于根据训练的隐马尔科夫模型学到的生成概率分布获取新的样本的基因序列，以执行获取序列步骤。生成模块200用于根据新的样本的基因序列生成新的样本，以执行生成样本步骤。赋值模块300用于对新的样本进行标签赋值，其中，将新的样本与预设的患病以及健康的样本进行比对，以确定所属类别并放弃或者保留，以执行标签赋值步骤。检验模块400用于重复执行获取序列步骤、生成样本步骤和标签赋值步骤，以得到满足预设条件的多个样本，并获取新的数据集，以进行基于回归方程的似然比检验，以执行似然比检验步骤。本发明实施例的修正装置10可以保持原有数据中内在的基因信息，同时不违背原有的统计检验框架，从而原有的统计检验方法也可以直接使用，提高修正的适用性和准确性，简单易实现。

进一步地，在本发明的一个实施例中，本发明实施例的装置10还包括：训练模块。其中，训练模块用于获取训练的隐马尔科夫模型，其中，训练模块具体用于检测基因核苷酸多态性位点(SNP)s_i上游下游位置的L个SNP，并根据L个SNP得到基因集合并且在基因集合上，通过隐马尔科夫模型对序列进行建模，并通过训练隐马尔科夫模型到生成模型的参数集Θ，以得到训练的隐马尔科夫模型。

进一步地，在本发明的一个实施例中，获取模块100还用于获取新的样本的初始状态，并根据学习到的隐马尔科夫模型转移矩阵生成隐状态序列，并且获取从隐状态序列按照发射矩阵进行随机观测的结果，并生成新的样本的基因序列。

需要说明的是，前述对基因关联分析的修正方法实施例的解释说明也适用于该实施例的基因关联分析的修正装置，此处不再赘述。

根据本发明实施例提出的基因关联分析的修正装置，专门针对基因关联分析中存在的数据样本补平衡问题设计，可以利用概率生成模型，对已有数据的基因结构进行建模学习，获得数据内在的信息与统计结构，然后有针对性的生成新的样本，考虑整体的数据结构关系，赋给每个样本的标签类别，保持了原有数据中内在的基因信息，同时不违背原有的统计检验框架，从而原有的统计检验方法也可以直接使用，提高修正的适用性和准确性，简单易实现。

在本发明的描述中，需要理解的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基因关联分析的修正方法，其特征在于，包括以下步骤：

获取序列步骤：根据训练的隐马尔科夫模型学到的生成概率分布获取新的样本的基因序列；

生成样本步骤：根据所述新的样本的基因序列生成新的样本；

标签赋值步骤：对所述新的样本进行标签赋值，其中，将所述新的样本与预设的患病以及健康的样本进行比对，以确定所属类别并放弃或者保留；以及

似然比检验步骤：重复执行所述获取序列步骤、生成样本步骤和所述标签赋值步骤，以得到满足预设条件的多个样本，并获取新的数据集，以进行基于回归方程的似然比检验。

2.根据权利要求1所述的基因关联分析的修正方法，其特征在于，所述训练的隐马尔科夫模型的训练方法包括：

检测基因核苷酸多态性位点(SNP)s_i上游下游位置的L个SNP；

根据所述L个SNP得到基因集合

在所述基因集合上，通过隐马尔科夫模型对序列进行建模，并通过训练所述隐马尔科夫模型到生成模型的参数集Θ，以得到所述训练的隐马尔科夫模型。

3.根据权利要求2所述的基因关联分析的修正方法，其特征在于，所述得到所述训练的隐马尔科夫模型，进一步包括：

通过最大化所述参数集Θ＝{π,A,B}来计算得到最适合所述基因集合的隐马尔科夫模型，且所述隐马尔科夫模型为：

<mrow> <mi>&Theta;</mi> <mo>=</mo> <mi>arg</mi> <mi> </mi> <msubsup> <mi>max&Sigma;</mi> <mrow> <mi>n</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </msubsup> <mi>log</mi> <mi> </mi> <mi>P</mi> <mrow> <mo>(</mo> <msubsup> <mi>S</mi> <mi>i</mi> <mrow> <mo>(</mo> <mi>n</mi> <mo>)</mo> </mrow> </msubsup> <mo>|</mo> <mi>&Theta;</mi> <mo>)</mo> </mrow> <mo>,</mo> </mrow>

4.根据权利要求1所述的基因关联分析的修正方法，其特征在于，所述获取新的样本的基因序列，进一步包括：

获取所述新的样本的初始状态；

根据学习到的隐马尔科夫模型转移矩阵生成隐状态序列；

获取从所述隐状态序列按照发射矩阵进行随机观测的结果，并生成所述新的样本的基因序列。

5.根据权利要求1-4任一项所述的基因关联分析的修正方法，其特征在于，所述预设条件为所述多个样本组成的样本集合满足正负平衡。

6.一种基因关联分析的修正装置，其特征在于，包括：

获取模块，用于根据训练的隐马尔科夫模型学到的生成概率分布获取新的样本的基因序列，以执行获取序列步骤；

生成模块，用于根据所述新的样本的基因序列生成新的样本，以执行生成样本步骤；

赋值模块，用于对所述新的样本进行标签赋值，其中，将所述新的样本与预设的患病以及健康的样本进行比对，以确定所属类别并放弃或者保留，以执行标签赋值步骤；以及检验模块，用于重复执行所述获取序列步骤、生成样本步骤和所述标签赋值步骤，以得到满足预设条件的多个样本，并获取新的数据集，以进行基于回归方程的似然比检验，以执行似然比检验步骤。

7.根据权利要求6所述的基因关联分析的修正装置，其特征在于，还包括：训练模块，用于获取所述训练的隐马尔科夫模型，其中，所述训练模块具体用于检测基因核苷酸多态性位点(SNP)s_i上游下游位置的L个SNP，并根据所述L个SNP得到基因集合并且在所述基因集合上，通过隐马尔科夫模型对序列进行建模，并通过训练所述隐马尔科夫模型到生成模型的参数集Θ，以得到所述训练的隐马尔科夫模型。

8.根据权利要求7所述的基因关联分析的修正装置，其特征在于，所述得到所述训练的隐马尔科夫模型，进一步包括：

9.根据权利要求6所述的基因关联分析的修正装置，其特征在于，所述获取模块还用于获取所述新的样本的初始状态，并根据学习到的隐马尔科夫模型转移矩阵生成隐状态序列，并且获取从所述隐状态序列按照发射矩阵进行随机观测的结果，并生成所述新的样本的基因序列。

10.根据权利要求6-9任一项所述的基因关联分析的修正装置，其特征在于，所述预设条件为所述多个样本组成的样本集合满足正负平衡。