CN112634982B

CN112634982B - 一种筛选与研究目的相关的关键基因、关键蛋白集的方法

Info

Publication number: CN112634982B
Application number: CN202011320196.4A
Authority: CN
Inventors: 公光业; 肖云平; 唐旋; 栗鹏; 王树伟; 史贤俊; 林博; 刘钰钏
Original assignee: Shanghai Oe Biotech Co ltd
Current assignee: Shanghai Oe Biotech Co ltd
Priority date: 2020-11-23
Filing date: 2020-11-23
Publication date: 2023-06-16
Anticipated expiration: 2040-11-23
Also published as: CN112634982A

Abstract

本发明公开了一种筛选与研究目的相关的关键基因、关键蛋白集的方法，包括以下步骤：对不同组学数据内容，以差异基因/蛋白或差异基因/蛋白并集为总目标集，筛选出与研究相关的指标，根据所述指标的生物学意义进行赋值；使用一套支持自定义修改和权重设置的打分机制，对总目标集的各个指标进行综合打分；对综合打分的topN基因/蛋白，进行表达和功能上的复现和展示，根据结果返回验证筛选的准确性。本发明不仅可以通过筛选出的top目标集的表达和功能复现实现自我验证和自我完善，也可以通过目标筛选数据集的积累形成字典不断丰富和完善，从而使得整套方法更趋准确和可靠。

Description

一种筛选与研究目的相关的关键基因、关键蛋白集的方法

技术领域

本发明属于组学分析领域，涉及一种用于转录组、蛋白组及其他组学以及多组学联合中，挖掘筛选研究目的相关基因或蛋白集合的方法，具体涉及一种综合组学结果指标进行打分以筛选与研究目的相关的关键基因、关键蛋白集的方法及应用。

背景技术

目前的转录组、蛋白组以及其他组学或者联合组学，在生信分析上有系统和成熟的流程，能够提供丰富的结果数据，然而尽管这些结果在流程或者功能上相互关联，但尚没有一套自动、流程化的方法，将研究者的研究背景、研究目的和数据的各个表达以及功能指标关联，并基于这些结果指标，以一套科学合理的打分机制，筛选出与研究者研究相关的目标基因(蛋白)集。

不管是转录组、蛋白组还是其他组学，基于多年以来的不断完善和丰富，每一个单组学提供的结果是庞大的，少则几M多则十几甚至几十G。而研究者，尤其是无生信基础的研究者，要从海量的数据结果中提取研究开发需要的内容，必然要耗费大量的时间和精力，甚至可能劳无所获。

因此，亟需一种方法，可以自动从组学的庞大数据中，提取各个与研究背景、研究目的相关的数据指标，并进行打分，然后按照综合打分从高到低进行排序，为研究者提供经过筛选的关键基因(蛋白)集合列表。

发明内容

为了解决上述现有方法存在的问题，本发明旨在提供一种生物信息方法，应用于转录组、蛋白组等组学中，以直观的图表，呈现数据背后的，潜在的可能与研究目的相关的关键基因和蛋白的集合。

本发明提供了一种筛选与研究目的相关的关键基因、关键蛋白集的方法，包括以下步骤：

步骤(1)：对不同组学数据内容，以差异基因/蛋白或差异基因/蛋白并集为总目标集，筛选出与研究相关的指标，根据所述指标的生物学意义进行赋值；

步骤(2)：对打分算法进行参数设置和指标权重设置，对总目标集的各个指标进行综合打分；

步骤(3)：对综合得分top N的基因/蛋白，进行表达和功能上的复现和展示，根据结果返回验证筛选的准确性；

步骤(4)：将关键词与top N基因/蛋白建立关联字典，根据文献、研究者反馈、人工校正和功能验证等方法，获取top N基因/蛋白对关键词的贡献度、重要性和关键性，对字典数据库中的top N基因/蛋白进行赋值，作为同物种同关键词关键基因筛选的可选指标，实现不断修正和完善。

步骤(1)中，所述指标包括但不限于：研究相关关键词、差异分组中出现频次、转录因子及调控靶基因、蛋白互作、可变多聚腺苷酸化DaPars、多组差异分析TCC、差异可变剪切及本地数据库字典等。

步骤(1)中，所述赋值的范围为0-1；其中，对于关键词匹配等布尔值型指标，有或是，则赋值为1；无或否，则赋值为0；对于靶基因个数，蛋白互作中互作蛋白的个数，DaPars、差异分组、差异可变剪切等指标，以所有数值(或频次)除以其中的最大值(理论最大频次)进行赋值；对于TCC中基因差异显著性排序(1..N)，以最大排名数值加上0.1，减去其排名数值，再除以最大排名数值进行赋值。

步骤(2)中，对所有指标施以相同权重，或根据研究背景或实际指标贡献不同设置不同权重。

步骤(3)中，所述展示的内容包括但不限于top N基因/蛋白的表达、差异表达和注释信息，表达变化水平变化图，表达聚类热图，PCA图，GO及KEGG富集，蛋白互作以及转录因子注释及靶基因调控分析。

若关键基因筛选准确，在表达上，所述关键基因应当贡献或者带动了比较组之间主要的差异，表达变化有显著规律；在功能上，所述关键基因存在功能上的紧密相关，它们本身或者其GO及KEGG富集与研究背景或者关键词紧密相关。

步骤(4)中，根据关键基因/蛋白筛选报告、文献以及研究者反馈的关键基因/蛋白结果，通过生物信息方法和人工校验，进行总结、梳理和验证，将验证后的基因蛋白结果与关键词进行关联，纳入研究关键词数据库，形成字典，在新项目的关键基因筛选中进行应用。对持续累积的不同项目同样关键词和基因/蛋白结果，不断加以总结和验证，以实现反复校验，使字典数据更趋完整和精准。

在一个具体实施方式中，所述步骤(1)具体为：对不同组学数据内容，以差异基因(蛋白)或者差异基因(蛋白)并集为总目标集，筛选出与研究相关的各个指标，根据指标的生物学意义进行赋值。以转录组为例，包括但不限于以下指标：研究者提供的研究相关关键词(包括基因/蛋白名、基因/蛋白功能描述，基因/蛋白涉及的GO条目和KEGG通路，及关于前列信息的提炼、总结和延伸描述)，差异信息(基因在所有比较组中表现为差异的频次)、转录因子及调控靶基因、蛋白互作、可变多聚腺苷酸化DaPars、多组差异分析TCC和差异可变剪切。对于布尔值型指标，比如关键词是否匹配到，有(是)则赋值为1，无(否)则赋值为0。其他数值型指标，比如基因在所有比较组中表现为差异的频次、基因在所有比较组存在可变剪切的频次、基因显著可变多聚腺苷酸化在各比较组中的出现的频次、转录因子调控的靶基因个数，蛋白互作中互作蛋白个数，则要赋值到0-1的范围，以其本身数值(频次)除以其中的最大值(理论最大频次)进行赋值。对于TCC显著差异基因排序(正整数，从1到最大值，即1..N)，则以最大排名数值加上0.1，减去其排名数值，再除以最大排名数值进行赋值。如此，将获得总目标集及其在各个指标中的具体赋值。

在一个具体实施方式中，所述步骤(2)具体为：对STRING(https://string-db.org/)数据库打分算法进行适当修改和调整，以对总目标集的各个指标进行综合打分。根据研究的具体情况，可以对所有指标施以相同权重为0.9(不设为1的原因是避免combined_score_one_minus值被计算为0)，也可以根据研究相关度和贡献不同设置不同权重，比如关键词最为重要，与研究最相关，权重设置为0.5而其他指标的权重值小于0.5，且所有指标的权重加和为1。因为针对一个项目的所有目标集的打分方法是完全一样的，最终值的绝对大小并无具体意义，而根据相对大小，由高到低进行排序，排名靠前的，更有可能是与研究相关的关键基因(蛋白)。同时，即使某个指标或者某些指标同时缺失，也不会影响基因(蛋白)最终的相对排名。

在一个具体实施方式中，所述步骤(3)具体为：对综合打分的top N基因(蛋白)，进行表达和功能上的复现和展示，根据实际结果返回验证筛选的准确性。其中，所述展示的内容包括但不限于top N基因(蛋白)的表达，差异表达和注释信息，表达变化水平变化图，表达聚类热图，PCA图，GO及KEGG富集，蛋白互作以及转录因子注释及靶基因调控分析。根据top N基因(蛋白)表达和功能结果，返回验证关键基因筛选的可靠性。理论上来讲，如果关键基因筛选准确，在表达上，这些关键基因应当贡献或者带动比较组之间主要的差异，那么top N的PCA图，重复样本的接近，不同分组的偏离，与所有基因的PCA应当是接近的。表达变化应有显著规律(理想情况下，有趋同，也有趋反，总体上应表现出一定的规律)。在功能上，这些关键基因(蛋白)应存在功能上的紧密相关，它们本身以及GO、KEGG富集应与研究背景或者研究者提供的关键词紧密相关。

在一个具体实施方式中，所述步骤(4)具体为：依据文献、欧易关键基因(蛋白)筛选报告以及研究者反馈的关键基因(蛋白)等结果，通过生物信息方法和人工校验，进行总结、梳理和验证，将验证后的基因(蛋白)结果与关键词进行关联，纳入研究关键词数据库，形成字典，在新项目的关键基因筛选中进行应用。对持续累积的不同项目同样关键词和基因(蛋白)结果，不断加以总结和验证，以实现反复校验，使字典数据更趋完整和精准。

现有技术中，各组学信息庞大，甚至包含很多无关和无用信息。不管是基于人工挑选还是现有生物信息分析方法，难以通过简单的处理和推导，从如此庞大的数据中提取出研究者想要的或者与研究背景相关的关键信息。目前的关键信息挑选，也缺乏统一的方法和标准，对挑选出的关键目标，无法依赖现有工具和简单方法，对关键目标重要和显著程度进行区分。对于关键目标的初步验证，也没有系统的方法和内容。

本发明的指标赋值方法和打分算法，示例公式如下：

假设选取三个指标：关键词匹配(key)、转录因子调控靶基因(TF)以及差异比较出现频次(diff)

假设赋值分别为：

score_key＝1(匹配到关键词，赋值为1)

score_TF＝0.8(调控8个靶基因，理论最大调控靶基因数为10，赋值0.8)

score_diff＝0.6(共10组差异，该基因出现次数为6，赋值0.6)

prior＝0.011

等权重：

prior_corrected_key＝(score_key*0.9-prior)/(1-prior)

prior_corrected_TF＝(score_TF*0.9-prior)/(1-prior)

prior_corrected_diff＝(score_diff*0.9-prior)/(1-prior)

非等权重：

prior_corrected_key＝(score_key*0.5-prior)/(1-prior)

prior_corrected_TF＝(score_TF*0.2-prior)/(1-prior)

prior_corrected_diff＝(score_diff*0.3-prior)/(1-prior)

combined_score＝1-(1-prior_corrected_key)*(prior_corrected_TF)*(1-prior_corrected_diff)

Score＝(combined_score+prior*(1-combined_score))*1000

该方法能够基于研究背景和目的，对指标项进行挑选组合、赋值和权重设置，不仅能得到关键基因(蛋白)集，而且可以展示它们对研究背景的贡献、重要和显著程度。本发明通过更加区分和细化的赋值、合理打分和权重设置，克服现实分析中只基于表达和差异表达的关键基因(蛋白)进行挑选验证，而没有或者无法合理关联功能指标的缺陷，克服指标简单赋值和赋值简单累加的算法缺陷。

本发明的top N表达和功能结果复现，为关键基因初步验证提供了系统和全面的方法。通过表达和功能的规律表现，与理论表现的拟合程度，来验证top N筛选的准确性。

本发明还提出了一种上述方法在筛选与研究目的相关的关键基因/蛋白集中的应用。

本发明的有益效果包括：对关键词和关键基因(蛋白)结果进行关联，形成字典式的数据库。基于累积项目形成的大数据，对相同或类似关键词和关键基因进行关联，并不断校验、完善和丰富，使得字典数据库更趋完整和精准。将数据库加入打分指标，与项目关键词结果合并参与打分，有助于挖掘更为精准和全面的研究相关基因(蛋白)集。总体而言，本发明的突破和创新性在于，为组学分析挑选研究相关关键基因(蛋白)，提供了一套完整的涵盖指标筛选、指标赋值、权重设置、打分、复现验证以及自我校正和自我完善机制的筛选方法。

附图说明

图1是示例top50基因(蛋白)在各样本间表达变化点线图。

图2是示例所有基因(蛋白)PCA图。

图3是示例各样本top50基因(蛋白)PCA图，在理想状态下，top 50基因(蛋白)能极大程度上代表样本间(组间)的差别，而使得top 50的PCA与所有基因(蛋白)的PCA(图2)比较相似。

图4是示例top50基因(蛋白)的表达聚类热图。

图5是示例top50基因(蛋白)的GO富集图。

图6是示例top50基因(蛋白)的KEGG富集图。

图7是示例top50基因(蛋白)的结合转录因子信息的蛋白互作网络图。

具体实施方式

结合以下具体实施例和附图，对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等，除以下专门提及的内容之外，均为本领域的普遍知识和公知常识，本发明没有特别限制内容。下面将参考附图并结合实施例来详细说明本发明。

1、确定目标集及其表达和功能指标

1)根据项目差异结果，取各差异比较组差异基因的并集为总目标集。当项目只有一组差异的时候，则选取该组差异基因(蛋白)集为目标集。

2)进一步地，根据具体项目的表达和功能结果，获取与研究相关的各个指标。以有参考基因组的转录组为例，根据研究者提供的关键词，从基因(蛋白)名(gene symbol)，基因(蛋白)描述，GO和KEGG注释信息中查找。以上四项匹配结果合为一个指标(Keywords)。挑选差异基因在比较分组中出现的频次(Diff)、转录因子及其调控靶基因个数(TFs)、蛋白互作关联基因个数(PPI)，可变多聚腺苷酸化(Dapars)、多组差异分析(TCC)和差异可变剪切(Diff_AS)等数据结果作为功能指标。其他组学或者其他项目可根据具体的数据结果，选择与研究目的相关的各类表达和功能结果纳入打分指标。

3)进一步地，对各个指标进行赋值，将值的范围控制在0-1。以上一步获取的各个指标为例，Keywords为关键词匹配结果，匹配到则赋值为1，未匹配到赋值为0。Diff为基因(蛋白)在各组差异比较中出现的频次，以频次除以理论最大频次进行赋值，则Diff值在0-1之间分布，在所有差异分组中都出现则值为1。Diff_AS为差异可变剪切频次，与Diff赋值方法相同。TFs分两种情况：i.若只有转录因子注释，即是否是转录因子，注释为转录因子则赋值1，不能注释为转录因子则赋值0；ii.若同时存在转录因子靶基因调控信息，则根据转录因子调控的靶基因数目进行赋值，各转录因子的靶基因数除以其中最大靶基因数即为最终赋值结果，非转录因子赋值为0，则TFs的值在0-1之间分布，数值越大，则代表调控的靶基因数目越多。相似地，PPI根据与其互作的基因(蛋白)数进行赋值，同样除以最大互作基因(蛋白)数，值在0-1之间分布，数值越大，代表与其互作的基因(蛋白)越多。Dapars为Dapars软件推断的可变多聚腺苷酸化(APA)信息，赋值方法与Diff和Diff_AS相同。TCC为多组差异比较，是一种鉴定多组之间差异基因(蛋白)的方法，当只有一组差异比较(只有两组样本)时，TCC的值为0，当有两组及以上差异分组(三组及以上样本)时，TCC根据多组样本间差异基因(蛋白)的排序进行赋值，具体为，对于TCC显著差异基因的排序(正整数，从1到最大值)，则以最大排名数值加上0.1，减去其排名数值，再除以最大排名数值进行赋值。则TCC赋值在0-1范围内。

2、根据计算公式对各指标进行打分

确定目标集、各指标及其具体初始数值后，基于修改之后的string打分方法进行综合打分。

1)设定prior值为0.011(prior一般预设为0.11，可以根据实际结果调整，一般不高于0.4。设置得越高，对低打分指标的区分度越低)；定义一个prior_corrected公式：如果输入打分值score小于prior，则score＝prior，定义prior_corrected＝(score-prior)/(1-prior)；

2)如果各个指标权重相等，每个指标的原始值乘以0.9作为该指标下一步的输入值；

3)根据1)中的公式，以2)中的数值为输入值，计算各个指标的prior_corrected值；

4)定义combined_score_one_minus为1减去各个指标prior_corrected值之后得到的各个值的乘积；

5)定义combined_score1＝1-combined_score_one_minus；

6)定义combined_score2＝combined_score1*(1-prior)；

7)定义combined_score3＝combined_score2+prior；

8)定义Score＝combined_score3*1000；

9)最终的Score即为最终总分，如表1最后一列。

10)以上示例算法为各指标等权重，若需要对指标设置不同权重，则需将权重值设置在0-1之间，各指标权重值总和为1。步骤2)需修改为：每个指标的原始值乘以该指标的权重值作为该指标下一步的输入值。后续3)到10)算法不变。

3、Top基因(蛋白)的表达与功能分析

1)根据Score得分从大到小进行排序，选取top N(N＝30或50或100及其他值)基因(蛋白)。

2)基于原始项目结果，对top N进行表达分析，包含但不限于表达水平变化点线图(如图1)，PCA分析(如图3)及热图分析(如图4)。

3)基于原始项目结果，对top N进行功能分析，包含但不限于GO富集(如图5)，KEGG(如图6)及蛋白互作与转录因子网络图(如图7)。

4)基于以上步骤得到的表达和功能图表结果，挖掘数据规律，与理论模型(理论模型是来自实际数据或者根据试验预期模拟的模型，即按照实验设计和预期，关键基因集应该表征出的表达和功能的模型，理论模型的构建没有固定的方法，也不一样是完全可量化的数据)进行拟合，进一步返回校正打分指标、指标赋值和权重设置，基于新的打分结果，重新进行top N基因(蛋白)表达和功能分析，反复验证和校正。

4、关键基因筛选可靠性及准确性校验与自优化

1)根据3的表达及功能特征，以及文献，其他辅助数据，以人工和生物信息方法返回验证top N的关联性和可靠性。

2)基于步骤1的验证结果，把修正后的top N与关键词建立字典，留同存异，并入数据库，比如关键词相同，则相同物种字典合并。根据文献、客户反馈，后期验证，梳理总结，对字典中与关键词关联的基因(蛋白)，根据与关键词(研究目的)关联的紧密性、重要性和关键性等进行0-1范围内的赋值。分值越高，该基因(蛋白)相对关键词来说越为关键。在同物种同关键词的新项目中，字典数据库赋值可纳入打分指标，因为其与关键词重叠性和关联性比较高，故而需将两个指标合为一个指标分，在2中步骤3)得到关键词(Keywords)、物种关键词字典数据库初始打分值(Database)和其他指标的prior_corrected值后，需在步骤3)之后步骤4)之前增加如下修正：

prior_corrected_Keywords＝1-((1-prior_corrected_Keywords)*(1-prior_corrected_Database))

3)以合并计算后的prior_corrected_Keywords继续2中步骤4)-步骤8)。通过累积项目不断完善物种关键词字典数据库(Database)的赋值，不断提高总体算法的准确性和可靠性。

表1

根据本发明的实际分析案例，关键基因筛选得到的top 50基因的PCA图与所有基因总体PCA图十分接近(图2与图3)，说明top 50基因比较好地表征了组与组之间的差别而且没有造成生物学重复之间的偏离。从基因表达变化水平看(图1和图4)，top 50基因呈现出显著的变化规律，在第三组样本(第7、8、9个样本)中出现了明显的表达升高和降低。从top 50富集功能上看(图4-图6)，top N富集的功能条目与研究背景和目的相关性和统一性比较高。基于数据库的不断完善和丰富，本发明能显著提升关键基因筛选的效率和准确性，完整性。

本发明的保护内容不局限于以上实施例。在不背离发明构思的精神和范围下，本领域技术人员能够想到的变化和优点都被包括在本发明中，并且以所附的权利要求书为保护范围。

Claims

1.一种筛选与研究目的相关的关键基因、关键蛋白集的方法，其特征在于，包括以下步骤：

步骤(1)：对不同组学数据内容，以差异基因/蛋白，或，以差异基因/蛋白并集为总目标集，筛选出与研究相关的指标，根据所述指标的生物学意义进行赋值；

所述步骤(2)中，对所有指标施以相同权重，或根据研究背景或实际指标贡献不同设置不同权重；所述设置各指标权重的算法步骤如下：

确定目标集、各指标及其具体初始数值后，基于修改之后的string打分方法进行综合打分：

1)设定prior值为0.011；定义一个prior_corrected公式：如果输入打分值score小于prior，则score＝prior，定义prior_corrected＝(score-prior)/(1-prior)；

2)每个指标的原始值乘以0.9作为该指标下一步的输入值；

5)定义combined_score1＝1-combined_score_one_minus；

6)定义combined_score2＝combined_score1*(1-prior)；

7)定义combined_score3＝combined_score2+prior；

8)定义Score＝combined_score3*1000；

9)最终的Score即为最终总分；

步骤(4)：将关键词与top N基因/蛋白建立关联字典，根据文献、研究者反馈、人工校正和功能验证方法，获取top N基因/蛋白对关键词的贡献度、重要性和关键性，对字典数据库中的top N基因/蛋白进行赋值，作为同物种同关键词关键基因筛选的可选指标，实现不断修正和完善。

2.如权利要求1所述的筛选与研究目的相关的关键基因、关键蛋白集的方法，其特征在于，步骤(1)中，所述指标包括：研究相关关键词、差异分组中出现频次、转录因子及调控靶基因、蛋白互作、可变多聚腺苷酸化DaPars、多组差异分析TCC、差异可变剪切及本地数据库字典。

3.如权利要求2所述的筛选与研究目的相关的关键基因、关键蛋白集的方法，其特征在于，步骤(1)中，所述赋值的范围为0-1。

4.如权利要求3所述的筛选与研究目的相关的关键基因、关键蛋白集的方法，其特征在于，

对于所述研究相关关键词、转录因子和本地数据库字典，有或是，则赋值为1；无或否，则赋值为0；

对于所述转录因子靶基因的个数，蛋白互作中互作蛋白的个数，可变多聚腺苷酸化DaPars、差异分组，差异可变剪切，以所有数值或频次除以其中的最大值进行赋值；

对于所述多组差异分析TCC中基因差异显著性排序，排名数值为正整数，从1到最大值，以最大排名数值加上0.1，减去其排名数值，再除以最大排名数值进行赋值。

5.如权利要求1所述的筛选与研究目的相关的关键基因、关键蛋白集的方法，其特征在于，若需要对指标设置不同权重，则需将权重值设置在0-1之间，各指标权重值总和为1；

其中，步骤2)需修改为：每个指标的原始值乘以该指标的权重值作为该指标下一步的输入值。

6.如权利要求1所述的筛选与研究目的相关的关键基因、关键蛋白集的方法，其特征在于，所述步骤(3)中，所述展示的内容包括top N基因/蛋白的表达，差异表达和注释信息，表达变化水平变化图，表达聚类热图，PCA图，GO及KEGG富集，蛋白互作以及转录因子注释及靶基因调控分析。

7.如权利要求1所述的筛选与研究目的相关的关键基因、关键蛋白集的方法，其特征在于，若关键基因筛选准确，在表达上，所述关键基因应当贡献或者带动了比较组之间主要的差异，表达变化有显著规律；在功能上，所述关键基因存在功能上的紧密相关，它们本身或者其GO及KEGG富集与研究背景或者关键词紧密相关。

8.如权利要求1所述的筛选与研究目的相关的关键基因、关键蛋白集的方法，其特征在于，所述步骤(4)中，根据关键基因/蛋白筛选报告、文献以及研究者反馈的关键基因/蛋白结果，通过生物信息方法和人工校验，进行总结、梳理和验证，将验证后的基因蛋白结果与关键词进行关联，纳入研究关键词数据库，形成字典，在新项目的关键基因筛选中进行应用；对持续累积的不同项目同样关键词和基因/蛋白结果，不断加以总结和验证，以实现反复校验，使字典数据更趋完整和精准。