CN115881218A

CN115881218A - 用于全基因组关联分析的基因自动选择方法

Info

Publication number: CN115881218A
Application number: CN202211631266.7A
Authority: CN
Inventors: 刘志岩; 郑青松; 郭方
Original assignee: Harbin Xingyun Medical Laboratory Co ltd
Current assignee: Xingyun Gene Technology Co ltd
Priority date: 2022-12-15
Filing date: 2022-12-15
Publication date: 2023-03-31
Anticipated expiration: 2042-12-15
Also published as: CN115881218B

Abstract

本发明提供了用于全基因组关联分析的基因自动选择方法，对所有样品进行测序得到基因芯片数据，得到基因表达矩阵；对基因表达矩阵中的基因表达值进行分类，得到分类后的基因聚类集；对得到的基因聚类集进行差异性分析，筛选出差异概率P≤0.05的基因表达值，形成第一差异表达基因聚类集合集；对得到的第一差异表达基因聚类集合进行倍数分析，识别差异基因表达值，筛选出第二差异表达基因聚类集合；取两个差异表达基因聚类集合的交集，形成关键基因聚类集；选取关键基因聚类集与基因聚类集的均值距离最近的基因作为自动选择出的目标基因。本发明精简了差异性基因聚类集，降低了关键基因重复率，提高了关键基因的准确率。

Description

用于全基因组关联分析的基因自动选择方法

技术领域

本发明属于基因组数据分析技术领域，具体涉及到一种用于全基因组关联分析的基因自动选择方法。

背景技术

在大规模数据分析中，传统的数据分析工具只能分析出数据的简单关系，但是不能挖掘到数据之间潜在的关系和隐藏的信息。近年来，许多学者通过对数据深层信息的挖掘，在人工智能、人工神经网络和智能计算等学科的基础上，对数据挖掘进行多方面的研究，将聚类分析应用到数据挖掘技术上，并且得到了广泛的应用。聚类技术是指在无监督条件下，对未知数据进行类别预测的技术。常见的应用如：数据分析、图像分割处理、生物医学识别、肿瘤检测等实际应用。目前已经提出了很多多目标聚类算法，但是大部分算法并没有致力于处理高维数据集，而用于生物医学识别和肿瘤检测的基因数据集的最大特点就是具有很高的维度。

全基因组关联分析是对多个个体在全基因组范围的遗传变异多态性进行检测获得基因型，进而将基因型与可观测的性状，即表型，进行群体水平的统计学分析，根据统计量或P值筛选出最有可能影响该性状的遗传变异。全基因组上表达值变化显著突出的基因的发现和识别对疾病风险预测、复杂疾病的致病机理研究和生物药品研制等都有重要的意义。差异化分析是一种针对基因芯片数据进行差值计算并统计检验来筛选差异对象的方法，用于分析样本之间的关联。差异化分析单独用于基因筛选时，其结果区分显著差异的基因和无显著差异的基因，本发明提供了一种结合基因聚类和基因差异化分析用于全基因组关联分析的基因自动选择方法。

发明内容

为了解决上述技术问题，本发明提出了用于全基因组关联分析的基因自动选择方法，包括如下步骤：

步骤一，对所有样品进行杂交测序得到基因芯片数据，在对基因芯片数据进行数据处理，得到基因表达矩阵；

步骤二，对所述基因表达矩阵中的基因表达值进行分类，得到分类后的基因聚类集；

步骤三：对得到的基因聚类集X进行差异性分析，筛选出差异概率P≤0.05的基因表达值，形成第一差异表达基因聚类集合集G；

步骤四：对得到的第一差异表达基因聚类集合G进行倍数分析，识别差异基因表达值，筛选出第二差异表达基因聚类集合F；

步骤五：取所述步骤三和步骤四得到的两个差异表达基因聚类集合的交集，形成关键基因聚类集Y；

步骤六：选取关键基因聚类集Y与步骤二中所述的基因聚类集的均值距离最近的基因作为自动选择出的目标基因。

进一步地，所述步骤一包括如下步骤：

S1.1，数据提取步骤，将高通量的荧光信号转化成基因表达数据，形成原始表达矩阵；

S1.2，数据过滤步骤，把原始表达矩阵中的噪音数据去除；

S1.3，补缺失值步骤，对表达矩阵中的缺失数据用0补齐；

S1.4，标准化处理步骤，通过对表达矩阵标准化处理使数据近似服从正态分布，得到基因表达矩阵。

进一步地，所述步骤二包括如下步骤：

S2.1，取基因表达矩阵中的任意基因表达值作为初聚类中心，进行初步聚类，得到初聚类集；

S2.2，将每个初聚类集中所有基因表达值的均值作为次聚类中心，计算初聚类集中的每个基因表达值与次聚类中心的距离，将距离向量在-1到1的基因表达值聚集到一起，形成次聚类集；

S2.3，计算次聚类集中所有基因表达值的均值，再次作为次聚类中心，将距离向量在-1到1的基因表达值聚集到一起，重新形成次聚类集；

S2.4，循环执行S2.2、S2.3，直到聚类集不再发生变化为止；

S2.5，最终得到基因聚类集X，X＝{X₁，X₂，...X_i...X_k}，X_i代表其中一个基因表达值，并用

表示基因聚类集内所有基因表达值的均值。

进一步地，所述步骤三中，

对基因聚类集内的基因表达值进行两两的差异性检验，计算所得检定值n：

式中，

为两个基因表达值；/>

为两个基因表达值的标准差，

根据检定值n查临界值表而决定两个基因表达值是否显著，若计算所得检定值n在临界值表中所得概率P≤0.05，则两个基因表达值差异显著，反之则两个基因表达值不显著，

将P≤0.05的基因表达值的集合作为第一差异表达基因聚类集合G＝{g₁，g₂，...，g_i，...，g_k}，其中g_i表示第一差异表达基因聚类集合G中的k个基因表达值中的一个基因表达值。

进一步地，所述步骤四中，用|log₂(C)|＞1作为筛选标准，筛选代表差异性的基因表达值，形成第二差异表达基因聚类集合F，其中f_i表示第二差异表达基因聚类集合F中的m个基因表达值中的一个基因表达值，其中C是差异倍数，为一个基因表达值与另一基因表达值的倍数差异。

进一步地，通路分析和G0富集分析对所述步骤六中自动选择出的目标基因的生物功能进行注释，诠释所述目标基因的重要性。

相比于现有技术，本申请具有如下有益技术效果：将基因芯片数据进行基因聚类，再对基因聚类进行不同方式的基因差异化分析，得到两个差异性基因聚类集，取交集得到关键基因聚类集，最后选取关键基因聚类集中代表性最好、可信度最高的基因作为关键基因，此方法精简了差异性基因聚类集，降低了关键基因重复率，提高了关键基因的准确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的用于全基因组关联分析的基因自动选择方法的流程示意图；

图2为本发明的基因芯片数据的处理方法流程示意图；

图3为本发明的将基因数据进行聚类的流程示意图；

图4为本发明的检验法临界值表的部分示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本发明的具体实施例附图中，为了更好、更清楚的描述系统中的各元件的工作原理，表现所述装置中各部分的连接关系，只是明显区分了各元件之间的相对位置关系，并不能构成对元件或结构内的信号传输方向、连接顺序及各部分结构大小、尺寸、形状的限定。

如图1所示，为本发明的用于全基因组关联分析的基因自动选择方法的流程示意图，包括以下步骤：

步骤一：对所有样品进行杂交测序得到基因芯片数据，在对基因芯片数据进行数据处理，得到基因表达矩阵。

杂交测序是指提取样本总mRNA后，通过反转录过程获得标记荧光的核酸序列，然后与探针进行杂交反应后，再将未互补结合的片段洗去。对基片进行激光共聚焦扫描，测定芯片上各点的荧光强度来推算样品中各种基因的表达量。

基因芯片数据预处理包括数据提取，数据过滤，补缺失值和标准化处理。图2所示本发明的基因芯片数据的处理方法流程示意图，包括如下步骤：

S1.1，数据提取步骤，用于将高通量的荧光信号转化成基因表达数据，形成原始表达矩阵，样本中每个基因对应的表达水平，即荧光强度。

S1.2，数据过滤步骤，用于把原始表达矩阵中表达量很小、负值或明显的噪音数据去除。

S1.3，补缺失值步骤，用于对表达矩阵中的缺失数据用0补齐。

S1.4，标准化处理步骤，由于基因芯片的原始数据呈偏态分布，本步骤通过对矩阵标准化处理使数据近似服从正态分布，得到基因表达矩阵。

步骤二：对基因表达矩阵中的基因表达值进行分类，用均值聚类法得到分类后的基因聚类集，如图3所示，将基因数据进行聚类具体包括如下步骤：

S2.1，取基因表达矩阵中的任意基因表达值作为初聚类中心，进行初步聚类，得到初聚类集。

S2.2，将每个初聚类集中所有基因表达值的均值作为次聚类中心，计算初聚类集中的每个基因表达值与次聚类中心的距离，将距离向量在-1到1的基因表达值聚集到一起，形成次聚类集。

S2.3，计算次聚类集中所有基因表达值的均值，再次作为次聚类中心，将距离向量在-1到1的基因表达值聚集到一起，重新形成次聚类集。

S2.4，循环执行S2.2、S2.3，直到聚类集不再发生变化为止；

表示基因聚类集内所有基因表达值的均值。

步骤三：对得到的基因聚类集X进行差异性分析，筛选出差异概率P≤0.05的基因表达值，形成第一差异表达基因聚类集合集G。

差异性分析的方法为对基因聚类集内的基因表达值进行两两的差异性检验，统计检定值n，与随机变量的概率分布进行比较，即可确定得到目标结构的概率。计算所得检定值n，根据检定值n查临界值表而决定差异性是否显著，临界值表如图4所示。

若计算所得检定值n在临界值表中所得概率P≤0.05，就表示两个基因表达值差异显著，反之则认为两个基因表达值不显著。检定值n的计算公式如下：

式中，

为两个基因表达值；/>

为两个基因表达值的标准差。

根据检定值n查临界值表而决定两个基因表达值是否显著。若计算所得检定值n在临界值表中所得概率P≤0.05，就表示两个基因表达值差异显著，反之则认为两个基因表达值不显著。最终将P≤0.05的基因表达值的集合作为第一差异表达基因聚类集合G＝{g₁，g₂，...，g_i，...，g_k}，其中g_i表示第一差异表达基因聚类集合G中的k个基因表达值中的一个基因表达值。

步骤四：对得到的第一差异表达基因聚类集合G进行倍数分析，识别|log₂(C)|＞1的差异基因表达值，筛选出第二差异表达基因聚类集合F。

C是差异倍数，即一个基因表达值与另一基因表达值的倍数差异；用|log₂(C)|＞1作为筛选标准，最终得到代表差异性的基因表达值形成第二差异表达基因聚类集合F，其中f_i表示第二差异表达基因聚类集合F中的m个基因表达值中的一个基因表达值，

F＝{f₁，f2，...，fi，...，f_m}。

步骤五：取步骤三和步骤四得到的两个差异表达基因聚类集合的交集，确定关键基因聚类集Y＝(y₁，y₂，...，y_i，...，y_M)，M为最终确定的关键基因聚类集中的基因表达值个数。其中y_i表示关键基因聚类集中Y中的M个基因表达值中的一个基因表达值，即：

Y＝F∩G。

步骤六：选取关键基因聚类集Y与步骤二中基因聚类集X＝{X₁，X₂，...X_i...X_k}中的均值

最近的基因作为自动选择出的目标基因。

通过以上六个步骤就完成了用于全基因组关联分析的基因选择，在优选实施例中，可采用通路分析和G0富集分析对这些基因的生物功能注释，从生物功能角度诠释这些关键基因的重要性。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者通过所述计算机可读存储介质进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如，固态硬盘(solid state disk，SSD))等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.用于全基因组关联分析的基因自动选择方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基因自动选择方法，其特征在于，所述步骤一包括如下步骤：

S1.2，数据过滤步骤，把原始表达矩阵中的噪音数据去除；

Sl.3，补缺失值步骤，对表达矩阵中的缺失数据用0补齐；

3.根据权利要求1所述的基因自动选择方法，其特征在于，所述步骤二包括如下步骤：

S2.4，循环执行S2.2、S2.3，直到聚类集不再发生变化为止；

表示基因聚类集内所有基因表达值的均值。

4.根据权利要求1所述的基因自动选择方法，其特征在于，所述步骤三中，

式中，

为两个基因表达值；/>

为两个基因表达值的标准差，

5.根据权利要求1所述的基因自动选择方法，其特征在于，所述步骤四中，用|log₂(C)|>1作为筛选标准，筛选代表差异性的基因表达值，形成第二差异表达基因聚类集合F，其中f_i表示第二差异表达基因聚类集合F中的m个基因表达值中的一个基因表达值，其中C是差异倍数，为一个基因表达值与另一基因表达值的倍数差异。

6.根据权利要求1所述的基因自动选择方法，其特征在于，通路分析和G0富集分析对所述步骤六中自动选择出的目标基因的生物功能进行注释，诠释所述目标基因的重要性。