CN114627963B

CN114627963B - 蛋白数据填充方法、系统、计算机设备及可读存储介质

Info

Publication number: CN114627963B
Application number: CN202210529178.XA
Authority: CN
Inventors: 吴健民; 曹丽华; 谢豫豪
Original assignee: Beijing Cancer Hospital
Current assignee: Beijing Cancer Hospital
Priority date: 2022-05-16
Filing date: 2022-05-16
Publication date: 2022-08-30
Anticipated expiration: 2042-05-16
Also published as: CN114627963A

Abstract

本发明公开了一种蛋白数据填充方法、系统、计算机设备及可读存储介质，蛋白数据填充方法包括：共表达网络构建步骤：利用多套蛋白表达数据集进行目标蛋白的相关性分析，为每个目标蛋白构建共表达网络；预测模型构建步骤：基于待预测样本集对共表达网络进行修剪后构建预测模型；预测结果输出步骤：通过预测模型对待预测样本集的蛋白表达谱中的未定量的目标蛋白的丰度进行预测，输出未定量的目标蛋白的表达值。通过本发明填充缺失目标蛋白可以有效地提升下游应用性能，包括反卷积分析性能，即随着目标蛋白数目的增多，细胞比例的预测结果稳定性更高，即波动性更小，标准差更小，并且在确保填充准确性的前提下，降低模型了复杂程度，提升速度。

Description

蛋白数据填充方法、系统、计算机设备及可读存储介质

技术领域

本发明为质谱技术领域，尤其涉及一种能够对定量缺失的目标蛋白的蛋白数据进行精准填充的蛋白数据填充方法、系统、计算机设备及可读存储介质。

背景技术

无论是无标记还是标记策略，缺失值问题一直以来都是蛋白质谱技术进行定量研究面临的主要挑战。造成蛋白数据缺失的原因有很多，比如蛋白丰度过低、蛋白未充分离子化、蛋白前体选择随机性、实验仪器噪音、蛋白自身生物学原因等，这些缺失值会影响下游分析的效果。目前有很多算法尝试填充蛋白数据的缺失值，然而这些方法并不能有效地提升蛋白数据的目标蛋白的数目，因为他们仅能填充蛋白数据中部分样本缺失的蛋白。尤其是，如果某个重要的目标蛋白（譬如细胞标志蛋白）在所有样本中都缺失，就无法使用传统的蛋白填充算法进行填充。

细胞标志蛋白的准确定量对肿瘤研究具有重大意义。因为肿瘤组织微环境中除了癌细胞，还包括各种免疫细胞，它们对肿瘤的发生、发展及预后有较大影响。了解肿瘤浸润免疫细胞的相对比例对肿瘤的分型和治疗意义重大。与传统的实验方法相比，反卷积（deconvolution）算法可以利用组学数据推测肿瘤组织中的免疫细胞比例，有着成本低、耗时短、灵活性高等优点。目前很多基于转录组数据的反卷积算法软件被开发，它们利用不同的先验知识（如免疫特征表达矩阵或标志基因）从mRNA 表达数据中得到免疫细胞比例。但随着质谱技术的高速发展，蛋白数据越来越多，并且蛋白质比mRNA 更稳定，不易降解，因此利用蛋白数据进行反卷积分析有着广阔的前景，但目前仍然面临着蛋白数据中目标蛋白（譬如重要免疫细胞标志蛋白）缺失严重的问题直接利用现有的反卷积工具对蛋白数据进行分析难以达到理想的性能。

因此亟需开发一种新的填充策略可以对蛋白数据中所有样本都缺失的目标蛋白进行预测。

发明内容

针对上述问题，本发明提供一种蛋白数据填充方法、系统、计算机设备及可读存储介质，从而至少解决现有技术中由于蛋白数据中一些重要的目标蛋白缺失严重，直接利用现有的反卷积工具对蛋白数据进行分析难以达到理想性能的问题。

本发明的一种蛋白数据填充方法，其中，包括：

共表达网络构建步骤：利用多套蛋白表达数据集进行目标蛋白的相关性分析，为每个目标蛋白构建共表达网络；

预测模型构建步骤：基于待预测样本集对所述共表达网络进行修剪后构建预测模型；

预测结果输出步骤：通过所述预测模型对所述待预测样本集的蛋白表达谱中的未定量的目标蛋白的丰度进行预测，输出未定量的所述目标蛋白的表达值。

上述的蛋白数据填充方法，其中，所述共表达网络构建步骤包括：

蛋白数据预处理步骤：对每一所述蛋白表达数据集进行预处理去除缺失度超过第一阈值的蛋白数据以及极端值的蛋白数据；

初级网络构建步骤：将预处理后的多套所述蛋白表达数据集中的至少部分所述蛋白表达数据集做为训练集，将出现在至少两个所述训练集中的所述目标蛋白做为稳定目标蛋白，将所述稳定目标蛋白做为网络核心并将一致性相关蛋白做为节点构建所述初级共表达网络；

初级网络处理步骤：去除所述初级共表达网络中的相关性弱的节点蛋白及/或关系不稳定的节点蛋白后获得所述共表达网络。

上述的蛋白数据填充方法，其中，所述初级网络处理步骤包括：

计算每一所述目标蛋白和非自身的其他所有蛋白的相关系数和相关性检验P值，通过所述相关性检验P值与第二阈值对比后去除所述共表达网络中的相关性弱的节点蛋白，通过所述稳定目标蛋白的所述相关系数与第三阈值对比去除所述共表达网络中的不稳定的节点蛋白。

上述的蛋白数据填充方法，其中，所述预测模型构建步骤包括：

动态修剪网络步骤：根据待预测样本集的蛋白定量情况对处理后的所述共表达网络进行动态修剪，去掉所述共表达网络中未定量的节点蛋白。

上述的蛋白数据填充方法，其中，所述动态修剪网络步骤包括：如果所述训练集中不存在所述稳定目标蛋白，则所述训练集对所述稳定目标蛋白的预测值记为NA。

上述的蛋白数据填充方法，其中，所述预测模型构建步骤还包括：

样本集合获取步骤：选取所述训练集中存在所述稳定目标蛋白且所述预测值不为NA的样本集合；

蛋白集合获取步骤：对所述待预测样本集中的每一样本定义一个在所述共表达网络中与所述稳定目标蛋白相关的蛋白集合；

模型选取构建步骤：当所述蛋白集合中蛋白数量大于等于第四阈值时，基于所述共表达网络构建弹性网络回归模型做为所述预测模型；当所述蛋白集合中蛋白数量小于所述第四阈值时，基于所述共表达网络构建逐步回归模型或最小二乘回归模型做为所述预测模型。

上述的蛋白数据填充方法，其中，所述预测结果输出步骤包括：

初级预测矩阵获得步骤：通过所述预测模型对所述待预测样本集进行预测获得每一样本的表达值和预测值，通过所述表达值和所述预测值构建所述初级预测矩阵；

初级预测矩阵调整步骤：基于所述待预测样本集中已经有其表达值的集合对所述初级预测矩阵进行样本特异的重新调整操作获得调整后初级预测矩阵；

矩阵合并步骤：将所述整后初级预测矩阵与所述待预测样本集经离差标准化处理后获得的表达矩阵进行整合获得整合矩阵；

蛋白表达矩阵获得步骤：通过离差标准化转换公式对所述整合矩阵进行逆离差标准化操作获得最终的非log₂的蛋白表达矩阵。

上述的蛋白数据填充方法，其中，所述目标蛋白包括但不局限于细胞标志物蛋白、药效标志物蛋白、预后标志物蛋白、诊断标志物蛋白。

本发明还提供一种蛋白数据填充系统，其中，包括：

共表达网络构建单元，利用多套蛋白表达数据集进行目标蛋白的相关性分析，为每个目标蛋白构建共表达网络；

预测模型构建单元，基于待预测样本集对所述共表达网络进行修剪后构建预测模型；

预测结果输出单元，通过所述预测模型对所述待预测样本集的蛋白表达谱中的未定量的目标蛋白的丰度进行预测，输出未定量的所述目标蛋白的表达值。

本发明还提供一种计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如上述中任一项所述的蛋白数据填充方法。

本发明还提供一种可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如上述中任一项所述的蛋白数据填充方法。

本发明相对于现有技术其功效在于：

通过填充缺失目标蛋白可以有效地提升反卷积性能，即随着目标蛋白数目的增多，细胞比例的预测结果稳定性更高，即波动性更小，标准差更小，并且在确保填充准确性的前提下，降低模型了复杂程度，提升速度；同时本发明与现有填充方法不同，本方法不仅可以填充蛋白数据集中部分样本中存在但在其他样本中缺失的目标蛋白，还能填充蛋白数据集所有样本都缺失的目标蛋白，因此适用性强；另外通过针对蛋白数目的免疫细胞的特征表达矩阵，提高其与蛋白数据的兼容性，进一步提升蛋白数据的反卷积性能；从而为肿瘤的临床治疗和科研实践提供更精确的指导。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书以及附图中所指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明蛋白数据填充方法的流程图。

图2为图1中步骤S1的分步骤流程图。

图3为图1中步骤S2的分步骤流程图。

图4为图1中步骤S3的分步骤流程图。

图5为共表达网络示意图。

图6为基于图5去除相关性弱或不稳定关系的共表达网络示意图。

图7为基于图6进行网络修剪后的共表达网络示意图。

图8为六套蛋白数据免疫细胞标志蛋白和全部免疫细胞标志蛋白的韦恩图。

图9为CPTAC蛋白数据填充前后样本的免疫细胞标志蛋白数目分布密度图。

图10为配对样本的预测值和真实值的Spearman 相关系数的分布。

图11为每个免疫细胞标志蛋白的预测值和真实值的Spearman相关系数与召回率的散点图。

图12为OV-2016两中心测量的一致性和预测和真实值的一致性示意图。

图13为OV-2020两中心测量的一致性和预测和真实值的一致性示意图。

图14为本发明蛋白数据填充系统的结构示意图。

图15为根据本申请实施例的计算机设备的框架图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地说明，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

关于本文中所使用的“第一”、“第二”、“S1”、“S2”、…等，并非特别指称次序或顺位的意思，也非用以限定本发明，其仅为了区别以相同技术用语描述的元件或操作。

关于本文中所使用的“包含”、“包括”、“具有”、“含有”等等，均为开放性的用语，即意指包含但不限于。

关于本文中所使用的“及/或”，包括所述事物的任一或全部组合。

关于本文中的“多个”包括“两个”及“两个以上”；关于本文中的“多组”包括“两组”及“两组以上”。

某些用以描述本申请的用词将于下或在此说明书的别处讨论，以提供本领域技术人员在有关本申请的描述上额外的引导。

本发明是基于共表达网络动态回归模型的蛋白填充方法，该方法通过填补蛋白数据中的缺失目标蛋白从而提升细胞比例预测的准确性，尤其是该算法通过填补蛋白数据中的缺失免疫细胞标志蛋白来提升免疫细胞比例预测的准确性。

请参阅图1，图1为本发明蛋白数据填充方法的流程图。如图1所示，本发明的一种蛋白数据填充方法，包括：

共表达网络构建步骤S1：利用多套蛋白表达数据集进行目标蛋白的相关性分析，为每个目标蛋白构建共表达网络；

预测模型构建步骤S2：基于待预测样本集对所述共表达网络进行修剪后构建预测模型；

预测结果输出步骤S3：通过所述预测模型对所述待预测样本集的蛋白表达谱中的未定量的目标蛋白的丰度进行预测，输出未定量的所述目标蛋白的表达值。

本发明的主要原理是基于其他已定量蛋白质推断未知目标蛋白。将以六套CPTAC数据集上“留一法”（leave-one-out, LOO）交叉验证试验为例，来说明蛋白填充方法通过构建模型推测缺失蛋白的详细过程。留一法，顾名思义，就是每次只用一个CPTAC 数据集作为验证集，而其他的五套数据集都用来作为训练集。这种方法虽然计算成本较高，但是由于每个回合，几乎所有的样本都用于训练模型，这样训练集样本和原始样本的分布最为接近，建立的模型更为稳定，可推算的目标蛋白数目也更多，评估的结果更为可靠。

进一步地，请参阅图2，图2为图1中步骤S1的分步骤流程图。如图2所示，所述共表达网络构建步骤S1包括：

蛋白数据预处理步骤S11：对每一所述蛋白表达数据集进行预处理去除缺失度超过第一阈值（缺失度50%）的蛋白数据以及极端值的蛋白数据。其中，第一阈值为缺失度50%，但本发明并不对此进行限制。

具体地说，在本步骤中，对由CPTAC下载得到的由CDAP处理过log₂转化的蛋白数据都进行如下的统一处理：

1）用R软件 limma包进行分位数标准化（quantile normalization）；

2）取回2 的指数；

3）去掉缺失度超过50%的蛋白。蛋白缺失度是指数据集中该蛋白缺失的样本数目除以总样本数；

4）去除极端值。认为超过75%分位数加上1.5倍四分位间距（interquartilerange，IQR）为极大的极端值；低于25%分位数减去1.5 倍IQR 为极小的极端值，其中IQR为75%分位数减去25%分位数。分别用数据的5%和95%分位数代替数据集中的极小的和极大的极端值。

网络构建步骤S12：将预处理后的多套所述蛋白表达数据集中的至少部分所述蛋白表达数据集做为训练集，将出现在至少两个所述训练集中的所述目标蛋白做为稳定目标蛋白，将所述稳定目标蛋白做为网络核心并将一致性相关蛋白做为节点构建共表达网络。

具体地说，请结合图5，图5为共表达网络示意图，其中M1、M3及M7为稳定目标蛋白即核心，P为一致性相关蛋白即节点。在初级网络构建步骤S12中，首先，在进行建模之前，需要确定模型的预测对象，即因变量（dependent variables）。因为想推测一些目标蛋白的表达值，所以因变量就是这些目标蛋白，但是并不会推测所有出现在训练集中的目标蛋白，比如，蛋白A 即使是目标蛋白，但由于某些原因导致其不太容易被定量到，从而仅在一套训练集中出现，而在其他的四套训练集中都没有定量到。如果推测这样的目标蛋白，会导致建模的时候仅仅用到出现过该目标蛋白的数据集中的样本，这样构建的模型容易不稳定且容易出现预测的偏差。基于上面的原因，在选择待推测的目标蛋白的时候会保留至少在两套训练集中出现过的目标蛋白，这样的目标蛋白称之为稳定目标蛋白。所有的稳定目标蛋白构成了共表达网络（co-expression network）的核心（见图5）。

初级网络处理步骤S13：去除所述初级共表达网络中的相关性弱的节点蛋白及/或关系不稳定的节点蛋白后获得所述共表达网络。

其中，所述初级网络处理步骤S13具体包括：计算每一所述目标蛋白和非自身的其他所有蛋白的相关系数和相关性检验P值（以下称P值），通过P值与第二阈值对比后去除所述初级共表达网络中的相关性弱的节点蛋白，通过所述稳定目标蛋白的所述相关系数与第三阈值对比去除所述初级共表达网络中的不稳定的节点蛋白。

在本实施例中，以第二阈值为设为0.05及第三阈值为至少两个数据集上的相关系数的绝对值大于等于0.3为较佳的实施方式，但本发明并不以此为限。

具体地说，请结合图6，图6为基于图5去除相关性弱或不稳定关系的共表达网络示意图。在初级网络处理步骤S13中，确定模型的因变量之后，对每个稳定目标蛋白需要确定自变量（independent variables），基于这些变量，可以预测该目标蛋白的表达值。在许多预测模型的研究中，使用的预测变量的数量越多，在最终模型中错误地选择到相关关系弱的和无信息的预测变量的机会就越大，并且容易导致模型过度拟合，尤其是在小型数据集中，这种影响会更大。此外，较小的模型比较大的模型更易于在临床实践中应用。因此，有必要通过初级网络处理步骤S13先进行预测变量的筛选，具体如下：

1)在所有训练集中，计算每一个目标蛋白和非自身的其他所有蛋白的为Pearson相关系数和P值；

2) 然后忽略所有不显著相关（P值> 0.05）的蛋白对的P值，即将其设为NA 并对接下来的构建网络不起任何作用；

3) 如果某蛋白和稳定目标蛋白之间的Pearson相关系数在所有非NA 的数据集上的方向都一致，且在至少两个数据集上的相关系数的绝对值大于等于0.3，则该蛋白跟目标蛋白的相关关系就很稳定，该蛋白被纳入到共表达网络中，成为可推算该目标目标蛋白的候选蛋白（图6）。

另外，在本实施例中，采用以Pearson相关性分析方法获得相关系数和相关性检验P值为较佳的实施方式，在其他实施例中还可采用Spearman相关性分析方法获得相关系数和相关性检验P值。

至此初级共表达网络已经建成。截止到这一步，只要给定多套（n ≥ 3）训练集，以及感兴趣的目标蛋白集合，就可以构建成而没有用到任何待填充数据集的信息。

再进一步地，请参阅图3，图3为图1中步骤S2的分步骤流程图。如图3所示，所述预测模型构建步骤S2包括：

动态修剪网络步骤S21：根据待预测样本集的蛋白定量情况对处理后的所述初级共表达网络进行动态修剪，去掉所述初级共表达网络中未定量的节点蛋白获得所述共表达网络；

样本集合获取步骤S22：选取所述训练集中存在所述稳定目标蛋白且所述预测值不为NA的样本集合；

蛋白集合获取步骤S23：对所述待预测样本集中的每一样本定义一个在所述共表达网络中与所述稳定目标蛋白相关的蛋白集合；

模型选取构建步骤S24：当所述蛋白集合中蛋白数量大于等于第四阈值时，基于所述共表达网络构建弹性网络回归模型做为所述预测模型；当所述蛋白集合中蛋白数量小于所述第四阈值时，基于所述共表达网络构建逐步回归模型或最小二乘回归模型做为所述预测模型。

其中，在本实施例中，以第四阈值为10为较佳的实施方式，但本发明并不以此为限。

其中，所述动态修剪网络步骤S21具体包括：所述训练集中不存在所述稳定目标蛋白，则所述训练集对所述稳定目标蛋白的预测值记为NA。即，对于初级共表达网络中的每一个稳定目标蛋白，记作𝑝_y，返回五套训练集中分别建模，如果某套训练集中该稳定目标蛋白不存在，则该训练集对该稳定目标蛋白的预测值为NA。

具体地说，请结合图7，图7为基于图6进行网络修剪后的共表达网络示意图。初级共表达网络虽然建成，但是其网络关系全部是由训练集得到，对于每一个待推测的稳定目标蛋白，与其有网络关系的蛋白并不能全部用来当作自变量，这是因为待预测样本集中可能由于某些原因没有该蛋白，比如该蛋白含量低，比较难定量到；或者由于该蛋白在该数据集中有超过一半的样本中为NA，导致在蛋白数据预处理步骤S11被去掉了。因此建模之前需要对初级共表达网络进一步修剪，即在确定建模的关系式时，去掉那些目标数据集中不存在的蛋白。由于修剪网络需要结合目标数据集中蛋白的存在情况，因此这一步是无法预先完成的，而必须在提供了待预测样本集后才能够进行下去（见图7）。

第一，待填充数据集的每个样本的蛋白存在状态都不一样，样本A 中存在的蛋白在样本B中有可能是NA，所以构建模型关系式的时候要针对每个样本不同对待。第二，构建模型关系式并不仅仅只考虑到目标数据集的蛋白存在状态，它还需要考虑训练集的蛋白存在状态以及缺失程度。

首先，初级网络中与待推测目标蛋白有网络关系的蛋白不一定在所有的训练集中都存在，因为只需要在2 个训练集里Pearson相关系数的绝对值大于等于0.3 就能被纳入到该目标蛋白的共表达网络中。其次，即使该蛋白在用来建模的训练集中也存在，也有可能在该训练集中不完整，即在部分样本中的表达值为NA。因为建模过程中是不允许任何NA值存在，因此在构建模型关系式时就需要选择去掉部分缺失预测蛋白，或者去掉有缺失的样本。一般来说，一个数据集中，比如样本数等于100，如果待推测目标蛋白在训练集中的部分样本缺失，此时只能去掉部分缺失的样本，即在预处理中去除在超过一半样本中缺失的蛋白，也是为了防止训练模型的样本数过于少。因此，蛋白数目是远远多于样本数目，即使是修剪后网络，关于目标目标蛋白相关的蛋白一般也多于样本数目。参与建模的样本数目即观测数（observations）一般要求大于模型最终的变量数目，否则会产生过拟合。鉴于此，当自变量在训练集中部分样本缺失，在构建模型输入的关系式时选择去掉这样的蛋白。

具体地说，构建模型的时候，本发明采取LASSO-StepOLS 混合回归模型。简而言之，当自变量数目过多时，采用LASSO（Least Absolute Shrinkage and SelectionOperator）回归模型。LASSO 回归属于弹性网络回归的一种，它在惩罚函数中加入了L1 正则项（L1-regularization)使得部分学习到的系数为0，从而达到稀疏化和特征选择的目的，它的目标函数见公式一。保留了子集收缩的优点，可以用来处理具有复杂共线性数据。当自变量数目较低时，采用普通的逐步回归模型，其目标函数见公式二，求解这类问题会用到最小二乘法（ordinary least square，OLS）。然后用根据赤池信息准则（akaikeinformation criterion，AIC）并利用逐步回归法进行自变量的选择。AIC通常被用来衡量统计模型拟合优良性(goodness of fit)，从而可以最好地解释数据但包含最少自由参数的模型。另外，如果无需进行自变量的选择时可采用最小二乘回归（OLS）模型。

其中，n是样本数，β^*是使得损失函数最小化的最优系数，y是因变量（即目标蛋白的定量值），X是自变量（即节点蛋白的定量值矩阵），λ是LASSO回归的正则化参数。

具体说明如下：

1) 如果𝑝_y存在于该训练集，将该训练集中𝑝_y不为NA 的样本集合记为𝜙，这些样本将会用来构建𝑝_y的预测模型。

2) 对待预测样本集中的每一个样本𝑠定义一个𝑝_y相关的蛋白集合Ω= {𝑝_1,𝑝₂,⋯, 𝑝_n}，其中集合里面的每一个蛋白𝑝_𝑖 (𝑖 ∈ {1,2,…, 𝑛})都满足三个条件：a)𝑝_𝑖和𝑝_y是共表达关系网中的一对相关蛋白；b) 𝑝_𝑖在样本𝑠中非NA；c) 𝑝_𝑖在𝜙里面的所有样本均非NA。

3) 合并待预测样本集中Ω相同的样本，对于这些样本来说，用到的建模关系式完全一致，因此可以一块建模来节约计算成本和时间，它们的建模关系式为𝑝_y~𝑝₁+ 𝑝₂ +⋯+𝑝_n。

4) 模型选择。当Ω中的蛋白数目大于等于10，选择使用LASSO 回归模型，构造模型用到R 包“glmnet”的cv.glmnet(x = matx, y = maty, alpha = 1,family=”gaussian”, nfolds = 10)，“lambda”选择的是“lambda.1se”或“lambda.min”；当Ω中的蛋白数目小于10，直接用lm()函数构建普通的逐步回归模型，然后采用AIC原则逐步回归法进行自变量的选择，这是用step()函数实现的，其中“direction”参数可以为“both”、“backward”及“forward”中的一者。

需要说明的是，在本实施例中采用的是LASSO回归模型和逐步回归模型最为最佳实施方式对本发明进行说明，但本发明并不以此为限在其他实施例中可根据实际需求选择适合的模型。

最后，请参照图4，图4为图1中步骤S3的分步骤流程图。如图4所示，所述预测结果输出步骤S3包括：

初级预测矩阵获得步骤S31：通过所述预测模型对所述待预测样本集进行预测获得每一样本的表达值和预测值，通过所述表达值和所述预测值构建所述初级预测矩阵（P）；

初级预测矩阵调整步骤S32：基于所述待预测样本集中已经有其表达值的集合对所述初级预测矩阵进行样本特异的重新调整操作获得调整后初级预测矩阵；

矩阵合并步骤S33：将所述整后初级预测矩阵与所述待预测样本集经离差标准化处理后获得的表达矩阵进行整合获得整合矩阵；

蛋白表达矩阵获得步骤S34：通过离差标准化转换公式对所述整合矩阵进行逆离差标准化操作获得最终的非log₂的蛋白表达矩阵。

具体地说，首先，将待预测样本集中每一个样本𝑝_y的表达值推算出来，将所有训练集中非NA 的推测值求平均值得到𝑝_y的预测值。由此获得了待预测样本集中的所有可推目标蛋白的表达值，汇总起来就是一个表达矩阵及初级预测矩阵，记作𝑃，初级预测矩阵其中每一行为一个稳定目标蛋白，每一列为一个样本，矩阵中的值全部是根据多个训练集中训练的回归模型推测出来的。

其次，初级预测矩阵𝑃里的目标蛋白（记作𝑀₀）分为两种，一种是待预测样本集里之前没有的，记作集合𝑀₁，另一种就是待预测样本集中已经有其表达值，但依旧对其进行了预测，这一类目标蛋白集合记作𝑀₂。为了提高预测的准确性，再基于𝑀₂对𝑃进行样本特异的重新调整（rescale）操作，即对于每个样本𝑠，进行如公式三所示的转换：

其中，y_rescaled和y₀分别是重新调整前后样本𝑠在𝑀₀上的预测值，

和σ_truth 是样本𝑠在𝑀₂上的真实值的均值和标准差，

和σ_pred是重新调整前样本𝑠在𝑀₂上预测值的均值和标准差。重新调整前后预测矩阵的行数列数都相同，将调整后的初级预测矩阵记P^，。

然后，将待预测样本集经离差标准化处理后获得的表达矩阵X^，和调整后的初级预测矩阵记P^，进行整合获得整合矩阵X'₁，X'₁的蛋白为X^，和P^，的蛋白的并集，因此根据情况可以简单地将X'₁的蛋白分成三类：X^，特有的蛋白、P^，特有的蛋白、X^，和P^，共有的蛋白。

其中，在本实施例中，可以通过以下步骤获得整合矩阵X'₁：

1) X'₁中X^，和P^，特有蛋白的表达值分别对应各自在X^，和P^，中的表达；

2) X'₁中X^，和P^，共有蛋白的表达值优先参考X^，中的表达，若X^，中该位置的表达值为NA，则参考P^，中的表达。

最后，利用离差标准化时存储的转换公式，对X'₁进行逆离差标准化操作，将矩阵还原到最初的表达水平，得到最终的非log₂的蛋白表达矩阵𝑋₁，矩阵𝑋₁将会用来进行后续的反卷积分析。

以下对将本发明应用于扩充目标蛋白中的免疫细胞标志蛋白的效果进行说明，其中，在本发明中目标蛋白包括但不局限于细胞标志物蛋白、药效标志物蛋白、预后标志物蛋白及诊断标志物蛋白，而细胞标志物蛋白包括但不局限于免疫细胞标志蛋白。

请参阅图8，其中左边的图例上的圆括号里数字是对应的免疫细胞标志蛋白的数目以及占总免疫细胞标志蛋白数目的百分比，下方的文字括号内的百分数为当前免疫细胞标志蛋白占全部免疫细胞标志蛋白的百分比。由图8可见，6 套CPTAC 蛋白数据中的免疫细胞标志蛋白数目包含情况。从六套蛋白数据免疫细胞标志蛋白的韦恩图中，可以看到6 套蛋白数据均有不同程度的缺失，并且缺失免疫细胞标志蛋白数目十分严重，平均每套数据仅存在39.8%的免疫细胞标志蛋白。

请参阅图9，图9为CPTAC蛋白数据填充前后样本的免疫细胞标志蛋白数目分布密度图，图中虚线位置为各自对应的中位数。填充前后的每套数据集的样本中包含的免疫细胞标志蛋白数目的分布进行比较，由图9可见，每套数据集通过本发明填充后的总免疫细胞标志蛋白数目大致相同，总免疫细胞标志蛋白数为540左右，其中BCIC、LM22、LM6 的最终免疫细胞标志蛋白数目分别约等于65、230、360。这是因为在填充一套数据集时，训练集用的是另外五套，因此每两套数据的训练集有四套（80%）是重叠的，同时结合图8中得出大部分免疫细胞标志蛋白是多个数据集共有的。但是由于每套数据的初始免疫细胞标志蛋白数目不同，每套数据的免疫细胞标志蛋白数目增长幅度也不同。其中LUAD 提升幅度最小，COAD、GC等数据集的免疫细胞标志蛋白数目都有较大幅度的提升。

请参阅图10-图11，图10为配对样本的预测值和真实值的Spearman相关系数的分布；图11为每个免疫细胞标志蛋白的预测值和真实值的Spearman相关系数与召回率的散点图；图10中，样本层面预测值和真实值的Spearman 相关系数分布（黄色）和SIMnull（灰色）的分布，纵轴为密度，SIMnull为所有不配对的样本真实值之间的Spearman相关系数，AR：accurate rate；图11中每个免疫细胞标志蛋白的预测值和真实值的Spearman相关系数（x轴）与召回率（y轴）的散点图，虚线纵坐标为召回率的界限（0.8），高于0.8的免疫细胞标志蛋白为预测准确的免疫细胞标志蛋白。

评估中，分别计算了样本水平和免疫细胞标志蛋白水平的召回率。结果显示，在6套CPTAC数据上无论是样本水平还是蛋白水平，都达到了一个较高的预测准确率（AR）。其中，样本水平（见图10）的AR较高，平均达到99.3%（97.9%-100%），从密度分布图中，也能看出来配对样本的预测值和真实值的Spearman相关系数的分布明显大于非配对样本的预测值和真实值的Spearman相关系数的分布（即SIMnull分布）。蛋白水平的AR相对较低（见图11），从散点图可以看出位于0.8 上方的蛋白仍然占绝大部分，平均AR达到83.3%（77.4%-88.3%），详细数据见下表1。这反映在蛋白水平或是样本水平都达到了较高的准确率。

表1：CPTAC蛋白数据Recall汇总表

请参阅图12-13，图12为OV-2016两中心测量的一致性和预测和真实值的一致性示意图；图13为OV-2020两中心测量的一致性和预测和真实值的一致性示意图；图12及图13显示两套多中心定量数据集在不去除（上）或去除（下）低召回率的免疫细胞标志蛋白的情况下的两中心一致性和各中心预测值和真实值一致性的比较。y轴上圆括号里的数字为对应的中位数。

由图12-图13可见，利用两套两中心定量的乳腺癌蛋白数据（OV-2016 和OV-2020）分别比较两中心测量的一致性和本发明的预测和真实值的一致性。结果显示，在OV-2016数据集中（见图12），两中心一致性略高于各中心的预测值和真实值的一致性，但都达到了较高的水平，其中，两中心测量数据、JHU 数据集和PNNL 数据集填充的预测值和真实值的Spearman相关系数中位数分别为0.67、0.57、0.53。经过过滤低Recall蛋白后，JHU数据集和PNNL数据集填充的预测值和真实值的整体一致性有了部分提升，Spearman相关系数中位数分别为0.61、0.62，分别提升0.04、0.09，其中后者上升幅度较大。在OV-2020数据集里（见图13），各中心的预测和真实值的一致性甚至高于两个中心的一致性，两中心测量数据、JHU数据集和PNNL数据集填充的预测值和真实值的Spearman相关系数中位数分别0.38、0.47、0.4，去除预测中低Recall的蛋白后，三者中位数分别为0.38、0.58、0.46，JHU和PNNL的中位数分别提升0.11和0.06。从而说明本发明对蛋白数据的预测比较准确，接近甚至高于两个中心对同一批样本测量的一致性。

综合以上对6 套数据的召回率评估结果和对两套双中心测量数据的一致性比较的结果，进一步验证本发明的填充准确性。

请参阅图14，图14为本发明蛋白数据填充系统的结构示意图。如图14所示，本发明的蛋白数据填充系统包括：

共表达网络构建单元1，利用多套蛋白表达数据集进行目标蛋白的相关性分析，为每个目标蛋白构建共表达网络；

预测模型构建单元2，基于待预测样本集对所述共表达网络进行修剪后构建预测模型；

预测结果输出单元3，通过所述预测模型对所述待预测样本集的蛋白表达谱中的未定量的目标蛋白的丰度进行预测，输出未定量的所述目标蛋白的表达值。

其中，共表达网络构建单元1包括：

蛋白数据预处理模块11：对每一所述蛋白表达数据集进行预处理去除缺失度超过第一阈值的蛋白数据以及极端值的蛋白数据；

初级网络构建模块12：将预处理后的多套所述蛋白表达数据集中的至少部分所述蛋白表达数据集做为训练集，将出现在至少两个所述训练集中的所述目标蛋白做为稳定目标蛋白，将所述稳定目标蛋白做为网络核心并将一致性相关蛋白做为节点构建所述初级共表达网络；

初级网络处理模块13：去除所述初级共表达网络中的相关性弱的节点蛋白及/或关系不稳定的节点蛋白后获得所述共表达网络。

通过所述初级网络处理模块13计算每一所述目标蛋白和非自身的其他所有蛋白的相关系数和相关性检验P值，通过所述相关性检验P值与第二阈值对比后去除所述初级共表达网络中的相关性弱的节点蛋白，通过所述稳定目标蛋白的所述相关系数与第三阈值对比去除所述初级共表达网络中的不稳定的节点蛋白。

所述预测模型构建单元2包括：

动态修剪网络模块21：根据待预测样本集的蛋白定量情况对处理后的所述初级共表达网络进行动态修剪，去掉所述初级共表达网络中未定量的节点蛋白获得所述共表达网络。

样本集合获取模块22：选取所述训练集中存在所述稳定目标蛋白且所述预测值不为NA的样本集合；

蛋白集合获取模块23：对所述待预测样本集中的每一样本定义一个在所述共表达网络中与所述稳定目标蛋白相关的蛋白集合；

模型选取构建模块24：当所述蛋白集合中蛋白数量大于等于第四阈值时，基于所述共表达网络构建弹性网络回归模型做为所述预测模型；当所述蛋白集合中蛋白数量小于所述第四阈值时，基于所述共表达网络构建逐步回归模型或最小二乘回归模型做为所述预测模型。

所述预测结果输出单元3包括：

初级预测矩阵获得模块31：通过所述预测模型对所述待预测样本集进行预测获得每一样本的表达值和预测值，通过所述表达值和所述预测值构建所述初级预测矩阵；

初级预测矩阵调整模块32：基于所述待预测样本集中已经有其表达值的集合对所述初级预测矩阵进行样本特异的重新调整操作获得调整后初级预测矩阵；

矩阵合并模块33：将所述整后初级预测矩阵与所述待预测样本集经离差标准化处理后获得的表达矩阵进行整合获得整合矩阵；

蛋白表达矩阵获得模块34：通过离差标准化转换公式对所述整合矩阵进行逆离差标准化操作获得最终的非log₂的蛋白表达矩阵。

请参阅图15，图15为根据本申请实施例的计算机设备的框架图。如图15所示，本实施例揭示了一种计算机设备的一种具体实施方式。计算机设备可以包括处理器81以及存储有计算机程序指令的存储器82。

具体地，上述处理器81可以包括中央处理器（CPU），或者特定集成电路（Application Specific Integrated Circuit，简称为ASIC），或者可以被配置成实施本申请实施例的一个或多个集成电路。

其中，存储器82可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器82可包括硬盘驱动器（Hard Disk Drive，简称为HDD）、软盘驱动器、固态驱动器（SolidState Drive，简称为SSD）、闪存、光盘、磁光盘、磁带或通用串行总线（Universal SerialBus，简称为USB）驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器82可包括可移除或不可移除（或固定）的介质。在合适的情况下，存储器82可在数据处理装置的内部或外部。在特定实施例中，存储器82是非易失性（Non-Volatile）存储器。在特定实施例中，存储器82包括只读存储器（Read-Only Memory，简称为ROM）和随机存取存储器（RandomAccess Memory，简称为RAM）。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM（Programmable Read-Only Memory，简称为PROM）、可擦除PROM（Erasable ProgrammableRead-Only Memory，简称为EPROM）、电可擦除PROM（Electrically Erasable ProgrammableRead-Only Memory，简称为EEPROM）、电可改写ROM（Electrically Alterable Read-OnlyMemory，简称为EAROM）或闪存（FLASH）或者两个或更多个以上这些的组合。在合适的情况下，该RAM可以是静态随机存取存储器（Static Random-Access Memory，简称为SRAM）或动态随机存取存储器（Dynamic Random Access Memory，简称为DRAM），其中，DRAM可以是快速页模式动态随机存取存储器（Fast Page Mode Dynamic Random Access Memory，简称为FPMDRAM）、扩展数据输出动态随机存取存储器（Extended Date Out Dynamic RandomAccess Memory，简称为EDODRAM）、同步动态随机存取内存（Synchronous Dynamic Random-Access Memory，简称SDRAM）等。

存储器82可以用来存储或者缓存需要处理和/或通信使用的各种数据文件，以及处理器81所执行的可能的计算机程序指令。

处理器81通过读取并执行存储器82中存储的计算机程序指令，以实现上述实施例中的任意一种蛋白数据填充方法。

在其中一些实施例中，计算机设备还可包括通信接口83和总线80。其中，如图15所示，处理器81、存储器82、通信接口83通过总线80连接并完成相互间的通信。

通信接口83用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信端口83还可以实现与其他部件例如：外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。

总线80包括硬件、软件或两者，将计算机设备的部件彼此耦接在一起。总线80包括但不限于以下至少之一：数据总线（Data Bus）、地址总线（Address Bus）、控制总线（Control Bus）、扩展总线（Expansion Bus）、局部总线（Local Bus）。举例来说而非限制，总线80可包括图形加速接口（Accelerated Graphics Port，简称为AGP）或其他图形总线、增强工业标准架构（Extended Industry Standard Architecture，简称为EISA）总线、前端总线（Front Side Bus，简称为FSB）、超传输（Hyper Transport，简称为HT）互连、工业标准架构（Industry Standard Architecture，简称为ISA）总线、无线带宽（InfiniBand）互连、低引脚数（Low Pin Count，简称为LPC）总线、存储器总线、微信道架构（Micro ChannelArchitecture，简称为MCA）总线、外围组件互连（Peripheral Component Interconnect，简称为PCI）总线、PCI-Express（PCI-X）总线、串行高级技术附件（Serial AdvancedTechnology Attachment，简称为SATA）总线、视频电子标准协会局部（Video ElectronicsStandards Association Local Bus，简称为VLB）总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线80可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

另外，结合上述实施例中的蛋白数据填充方法，本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种蛋白数据填充方法。

以下对填充缺失细胞标志蛋白的重要性进行说明：1）特征表达中不同的细胞标志蛋白（Marker）对反卷积结果的重要程度不同，并且在模拟缺失细胞标志蛋白时，是随机对混合组织表达矩阵中的细胞标志蛋白进行去除，在同等的其他外界条件下，混合组织表达矩阵中的细胞标志蛋白越多，则包含到重要细胞标志蛋白的概率越大；2）每个细胞标志蛋白都是某种细胞特有的，即在该细胞中高表达，而在其他细胞中低表达或不表达的基因，当细胞标志蛋白数目过少时，有较大的概率出现所有细胞标志蛋白全是某一类或某几类细胞的特有基因，也就是有几类细胞的特有基因全都不在混合组织表达矩阵里，此时该细胞类型的推算肯定是不准确的。由此可见，混合组织表达矩阵中的细胞标志蛋白对反卷积的准确性和稳定性较为重要。

综上所述，通过本发明填充缺失细胞标志蛋白可以有效地提升反卷积性能，即随着细胞标志蛋白数目的增多，细胞比例的预测结果稳定性更高，即波动性更小，标准差更小，并且在确保填充准确性的前提下，降低模型了复杂程度，提升速度；同时本发明与现有填充方法不同，本方法不仅可以填充蛋白数据集中部分样本中存在但在其他样本中缺失的细胞标志蛋白，还能填充蛋白数据集所有样本都缺失的细胞标志蛋白，因此适用性强；另外通过针对蛋白数目的免疫细胞的特征表达矩阵，提高其与蛋白数据的兼容性，进一步提升蛋白数据的反卷积性能；从而为肿瘤的临床治疗和科研实践提供更精确的指导。

尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种蛋白数据填充方法，其特征在于，包括：

共表达网络构建步骤：利用多套蛋白表达数据集进行目标蛋白的相关性分析，为每个目标蛋白构建共表达网络，其中包括将多套所述蛋白表达数据集中的至少部分所述蛋白表达数据集做为训练集，为出现在至少两个所述训练集中的每个所述目标蛋白构建所述共表达网络后，去除所述共表达网络中相关性弱的节点蛋白或关系不稳定的节点蛋白；

预测模型构建步骤：基于待预测样本集对所述共表达网络进行修剪后构建预测模型，其中包括，选取所述训练集中目标蛋白不为NA的样本集作为构建所述预测模型的训练样本集，然后对所述待预测样本集中的每一个样本定义一个在所述共表达网络中与所述目标蛋白相关的蛋白集合，所述蛋白集合中的每一个蛋白满足：与所述共表达网络中的所述目标蛋白是一对相关蛋白，且每一个蛋白在所述待预测样本集中非NA以及每一个蛋白在所述训练样本集中非NA；

预测结果输出步骤：通过所述预测模型对所述待预测样本集的蛋白表达谱中的未定量的目标蛋白的丰度进行预测，输出未定量的所述目标蛋白的表达值；

其中，所述预测结果输出步骤包括：

矩阵合并步骤：将所述调整后初级预测矩阵与所述待预测样本集经离差标准化处理后获得的表达矩阵进行整合获得整合矩阵；

蛋白表达矩阵获得步骤：通过离差标准化转换公式对所述整合矩阵进行逆离差标准化操作获得最终的蛋白表达矩阵。

2.如权利要求1所述的蛋白数据填充方法，其特征在于，所述共表达网络构建步骤包括：

初级网络处理步骤：去除所述初级共表达网络中的相关性弱的节点蛋白或关系不稳定的节点蛋白后获得所述共表达网络。

3.如权利要求2所述的蛋白数据填充方法，其特征在于，所述初级网络处理步骤包括：

4.如权利要求2所述的蛋白数据填充方法，其特征在于，所述预测模型构建步骤包括：

动态修剪网络步骤：根据所述待预测样本集的蛋白定量情况对处理后的所述共表达网络进行动态修剪，去掉所述共表达网络中未定量的节点蛋白。

5.如权利要求4所述的蛋白数据填充方法，其特征在于，所述动态修剪网络步骤包括：如果所述训练集中不存在所述稳定目标蛋白，则所述训练集对所述稳定目标蛋白的预测值记为NA。

6.如权利要求5所述的蛋白数据填充方法，其特征在于，所述预测模型构建步骤还包括：

7.如权利要求6所述的蛋白数据填充方法，其特征在于，所述蛋白表达矩阵获得步骤中包括，通过离差标准化转换公式对所述整合矩阵进行逆离差标准化操作获得最终的非log2的蛋白表达矩阵。

8.如权利要求1所述的蛋白数据填充方法，其特征在于，所述目标蛋白包括但不局限于细胞标志物蛋白、药效标志物蛋白、预后标志物蛋白、诊断标志物蛋白。

9.一种蛋白数据填充系统，其特征在于，应用上述权利要求1-8中任一项所述的蛋白数据填充方法，所述蛋白数据填充系统包括：

10.一种计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至8中任一项所述的蛋白数据填充方法。

11.一种可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至8中任一项所述的蛋白数据填充方法。