CN115662510A

CN115662510A - 因果参数的确定方法、装置、设备以及存储介质

Info

Publication number: CN115662510A
Application number: CN202211115933.6A
Authority: CN
Inventors: 柳一君; 孙骥; 孙慧妍; 常毅
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2022-09-14
Filing date: 2022-09-14
Publication date: 2023-01-31

Abstract

本申请公开了一种因果参数的确定方法、装置、设备以及存储介质，属于计算机技术领域。通过本申请实施例提供的技术方案，对多个生物组织的基因表达数据进行处理，得到多个生物组织变为目标状态的参考生物过程活性数据。对多个生物组织的体细胞突变数据、多个生物组织的第一类混杂因子数据以及参考生物过程活性数据进行编码，得到第二类混杂因子数据，第一类混杂因子数据和第二类混杂因子数据具有不同的可观测性。对第二类混杂因子数据进行解码，就能够得到多个生物组织变为目标状态的目标生物过程活性数据。通过目标生物过程活性数据，能够确定目标基因与目标状态之间的因果参数，确定该因果参数的过程消除了混杂因子的混杂影响，准确性较高。

Description

因果参数的确定方法、装置、设备以及存储介质

技术领域

本申请涉及计算机技术领域，特别涉及一种因果参数的确定方法、装置、设备以及存储介质。

背景技术

随着计算机技术的发展，人们对基因的研究越来越深入，利用计算机技术能够大大提高对基因进行研究的效率。生物组织的状态发生变化可能是由于基因突变导致的，研究状态与基因突变之间的关联有着十分重大的意义。比如，大量的研究表明，癌症通常是由于基因突变引起的。然而，由于各种技术限制，人们仍然不完全了解哪些基因突变导致癌症的发生以及发展。

相关技术中，通常利用大量的多组学数据通过计算突变频率来识别驱动癌症的基因突变。但是，相关技术往往忽略了由于混杂因子的存在而产生的混杂偏差，导致预测基因突变和癌症生物过程的状态变化之间的因果关系的准确性较低。

发明内容

本申请实施例提供了一种因果参数的确定方法、装置、设备以及存储介质，可以提升预测基因突变和状态变化之间的因果关系的准确性，所述技术方案如下：

一方面，提供了一种因果参数的确定方法，所述方法包括：

对多个生物组织的基因表达数据进行处理，得到所述多个生物组织变为目标状态的参考生物过程活性数据，所述多个生物组织均携带目标基因且处于所述目标状态；

对所述多个生物组织的体细胞突变数据、所述多个生物组织的第一类混杂因子数据以及所述参考生物过程活性数据进行编码，得到所述多个生物组织的第二类混杂因子数据，所述第一类混杂因子数据和所述第二类混杂因子数据具有不同的可观测性；

对所述多个生物组织的第二类混杂因子数据进行解码，得到所述多个生物组织变为所述目标状态的目标生物过程活性数据；

基于所述目标生物过程活性数据，确定所述目标基因与所述目标状态之间的因果参数，所述因果参数用于表示所述目标基因发生突变导致生物组织处于所述目标状态的可能性。

一方面，提供了一种因果参数的确定装置，所述装置包括：

参考生物过程数据获取模块，用于对多个生物组织的基因表达数据进行处理，得到所述多个生物组织变为目标状态的参考生物过程活性数据，所述多个生物组织均携带目标基因且处于所述目标状态；

编码模块，用于对所述多个生物组织的体细胞突变数据、所述多个生物组织的第一类混杂因子数据以及所述参考生物过程活性数据进行编码，得到所述多个生物组织的第二类混杂因子数据，所述第一类混杂因子数据和所述第二类混杂因子数据具有不同的可观测性；

解码模块，用于对所述多个生物组织的第二类混杂因子数据进行解码，得到所述多个生物组织变为所述目标状态的目标生物过程活性数据；

因果参数确定模块，用于基于所述目标生物过程活性数据，确定所述目标基因与所述目标状态之间的因果参数，所述因果参数用于表示所述目标基因发生突变导致生物组织处于所述目标状态的可能性。

在一种可能的实施方式中，所述参考生物过程数据获取模块，用于基于所述多个生物组织的基因表达数据，确定所述多个生物组织中多个基因之间的相关性；基于所述多个生物组织中多个基因之间的相关性，从所述多个基因中确定所述多个生物组织的核心基因；对所述多个生物组织的核心基因的基因表达数据对所述多个生物组织的核心基因的平均表达向量进行回归，得到所述多个生物组织变为所述目标状态的参考生物过程活性数据。

在一种可能的实施方式中，所述参考生物过程数据获取模块，用于从所述多个生物组织的基因表达数据中获取所述多个基因分别对应的多个基因表达向量；基于所述多个基因表达向量之间的相关性，确定所述多个生物组织中多个基因之间的相关性。

在一种可能的实施方式中，所述参考生物过程数据获取模块，用于基于所述多个生物组织中多个基因之间的相关性，确定所述多个基因中各个基因与其他基因之间的全局相关性；基于所述多个基因中各个基因与其他基因之间的全局相关性，从所述多个基因中确定所述多个生物组织的核心基因。

在一种可能的实施方式中，所述参考生物过程数据获取模块，用于对于所述多个基因中的任一基因，将所述基因与所述多个基因中其他基因之间的相关性与对应的显著性进行融合，得到所述基因与其他基因之间的目标相关性；将所述基因与其他基因之间的目标相关性进行加权求和，得到所述基因与其他基因之间的全局相关性。

在一种可能的实施方式中，所述参考生物过程数据获取模块，用于按照全局相关性从大至小的顺序对所述多个基因进行排序；将所述多个基因中前目标数量个基因确定为所述多个生物组织的核心基因。

在一种可能的实施方式中，所述参考生物过程数据获取模块，用于确定所述多个生物组织的核心基因的表达向量在所述多个生物组织上的平均表达向量上的回归系数，所述平均表达向量是所述核心基因在所述多个生物组织上的基因表达向量的平均值；将所述回归系数确定为所述多个生物组织变为所述目标状态的参考生物过程活性数据。

在一种可能的实施方式中，所述编码模块，用于将所述多个生物组织的体细胞突变数据、所述多个生物组织的第一类混杂因子数据以及所述参考生物过程活性数据输入编码器；通过所述编码器，对所述多个生物组织的第一类混杂因子数据以及所述参考生物过程活性数据进行编码，得到各个所述生物组织的第一编码向量；通过所述编码器，基于所述多个生物组织的体细胞突变数据，对所述第一编码向量进行二次编码，得到所述多个生物组织的第二类混杂因子数据。

在一种可能的实施方式中，所述编码模块，用于对于所述多个生物组织中的任一生物组织，对所述生物组织的第一类混杂因子数据和参考生物过程活性数据进行至少一次全连接，得到所述生物组织的第一编码向量。

在一种可能的实施方式中，所述编码模块，用于对于所述多个生物组织中的任一生物组织，在所述生物组织的体细胞突变数据指示所述生物组织未发生基因突变的情况下，通过所述编码器的第一神经网络对所述生物组织的第一编码向量进行编码，得到所述生物组织的第二类混杂因子数据；在所述生物组织的体细胞突变数据指示所述生物组织发生基因突变的情况下，通过所述编码器的第二神经网络对所述生物组织的第一编码向量进行编码，得到所述生物组织的第二类混杂因子数据。

在一种可能的实施方式中，所述解码模块，用于将所述多个生物组织的第二类混杂因子数据输入生成器；通过所述生成器基于所述第二类混杂因子进行数据生成，得到所述多个生物组织的目标生物过程活性数据。

在一种可能的实施方式中，所述目标生物过程活性数据包括第一生物过程活性数据和第二生物过程活性数据，所述第一生物过程活性数据为生物组织在所述目标基因未发生突变时的生物过程活性数据，所述第二生物过程活性数据为生物组织在所述目标基因发生突变时的生物过程活性数据，所述因果参数确定模块，用于对目标差值进行加权求和，得到所述目标基因与所述目标状态之间的因果参数，所述目标差值为所述第一生物过程活性数据和第二生物过程活性数据之间的差值。

一方面，提供了一种计算机设备，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条计算机程序，所述计算机程序由所述一个或多个处理器加载并执行以实现所述因果参数的确定方法。

一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条计算机程序，所述计算机程序由处理器加载并执行以实现所述因果参数的确定方法。

一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括程序代码，该程序代码存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取该程序代码，处理器执行该程序代码，使得该计算机设备执行上述因果参数的确定方法。通过本申请实施例提供的技术方案，通过对多个生物组织的基因表达数据进行处理，得到多个生物组织变为目标状态的参考生物过程活性数据，借助参考生物过程活性数据能够确定最终的目标生物过程活性数据，多个生物组织均携带目标基因且均处于目标状态。对多个生物组织的体细胞突变数据、多个生物组织的第一类混杂因子数据以及参考生物过程活性数据进行编码，得到第二类混杂因子数据，第一类混杂因子数据和第二类混杂因子数据具有不同的可观测性。通过上述过程，实现了对不可观测的第二类混杂因子数据的估计。对第二类混杂因子数据进行解码，就能够得到多个生物组织变为目标状态的目标生物过程活性数据。通过目标生物过程活性数据，能够确定目标基因与目标状态之间的因果参数，确定该因果参数的过程消除了混杂因子的混杂影响，准确性较高。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种因果参数的确定方法的实施环境的示意图；

图2是本申请实施例提供的一种因果参数的确定方法的流程图；

图3是本申请实施例提供的另一种因果参数的确定方法的流程图；

图4是本申请实施例提供的一种因果参数的确定方法的原理示意图；

图5是本申请实施例提供的一种因果参数的确定方法的架构图；

图6是本申请实施例提供的一种因果参数的确定装置的结构示意图；

图7是本申请实施例提供的一种终端的结构示意图；

图8是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式做进一步的详细描述。

本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识子模型使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

高斯分布(Gaussian Distribution)：也被称为正态分布(NormalDistribution)，高斯分布的曲线呈钟形，中间高，两头低。高斯分布的期望值μ决定了高斯分布曲线的位置，标准差σ决定了曲线的范围。当μ＝0，σ＝1时的高斯分布是标准高斯分布。

嵌入编码(Embedded Coding)：嵌入编码在数学上表示一个对应关系，即通过一个函数F将X空间上的数据映射到Y空间上，其中该函数F是单射函数，映射的结果是结构保存，单射函数表示映射后的数据与映射前的数据唯一对应，结构保存表示映射前数据的大小关系后映射后数据的大小关系相同，例如映射前存在数据X₁以及X₂，映射后得到X₁对应的Y₁以及X₂对应的Y₂。若映射前的数据X₁＞X₂，那么相应地，映射后的数据Y₁大于Y₂。对于词语来说，就是将词语映射到另外一个空间，便于后续的机器学习和处理。

因果关系研究中的一个重要任务是因果效应估计，是估计如果赋予治疗变量另一种值，那么结果变量的变化程度。因果效应估计的一个基本挑战是如何消除混杂效应，特别是在数据维度极高的时候。混杂效应是由于未对混杂因子正确建模导致的，混杂因子是指同时影响治疗变量和结果变量的一类变量，模型中混杂因子的存在会扭曲治疗变量(如突变)和结果(如细胞增殖过程)之间的关系，导致错误的结果。例如，当估计突变的TP53对细胞增殖的因果效应时，氧化应激水平可能是一个混杂因素，因为它同时影响TP53的突变概率和细胞增殖程度。当TP53突变和非突变样本组之间的氧化应激水平分布不同时，会导致TP53突变对细胞增殖的真正影响出现偏差。传统的统计学因果模型通过平衡各组的混杂因子，对数据进行标准化和分层，或对观察性数据进行混杂变量和治疗变量之间的回归分析来减少混杂因素的影响。但这些因果模型都是建立在非混杂性的假设上，即所有混杂因子都是可观察的，而这在许多复杂的生物系统研究中是不太可能的。例如，我们既不能确切地知道什么微环境因子对突变有影响，也不能测量大多数微环境因子的指标，本申请实施例提供的技术方案在研究因果关系时，考虑了混杂因子的影响，尽可能消除混杂因子的存在对因果关系的影响。

图1是本申请实施例提供的一种因果参数的确定方法的实施环境示意图，参见图1，该实施环境中可以包括终端110和服务器140。

终端110通过无线网络或有线网络与服务器140相连。可选地，终端110是智能手机、平板电脑、笔记本电脑、台式计算机、智能手表等，但并不局限于此。终端110安装和运行有支持因果参数确定的应用程序。

服务器140是独立的物理服务器，或者是多个物理服务器构成的服务器集群或者分布式系统，或者是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

本领域技术人员可以知晓，上述终端和服务器的数量可以更多或更少。比如上述终端和服务器仅为一个，或者上述终端为几十个或几百个，或者更多数量，此时上述实施环境中还包括其他终端和服务器。本申请实施例对终端和服务器的数量和设备类型不加以限定。

在本申请实施例中，可以由服务器或终端作为执行主体来实施本申请实施例提供的技术方案，也可以通过终端和服务器之间的交互来实施本申请提供的技术方法，本申请实施例对此不作限定。

在介绍完本申请实施例的实施环境之后，下面对本申请实施例的应用场景进行说明，在下述说明过程中，终端也即是上述实施环境中的终端110，服务器也即是上述实施环境中的服务器140。

本申请实施例提供的技术方案能够应用在确定基因突变与疾病发生的因果性的场景下，比如应用在确定基因突变与癌症发生的因果性的场景下，或者应用在确定基因突变与其他疾病发生的因果性的场景下，本申请实施例对此不作限定。

在确定基因突变与癌症发生的因果性的场景下，对多个生物组织的基因表达数据进行处理，得到多个生物组织变为癌症状态的参考生物过程活性数据，该参考生物过程活性数据是一个估计的生物过程活性数据，借助参考生物过程活性数据能够确定最终的目标生物过程活性数据，多个生物组织均携带目标基因且均处于癌症状态，也即是探究因果性的样本。对多个生物组织的体细胞突变数据、多个生物组织的第一类混杂因子数据以及参考生物过程活性数据进行编码，得到第二类混杂因子数据，第一类混杂因子数据和第二类混杂因子数据具有不同的可观测性，在一些实施例中，第一类混杂因子数据是可观测的，第二类混杂因子数据是不可观测的，通过上述过程，实现了对不可观测的第二类混杂因子数据的估计。对第二类混杂因子数据进行解码，就能够得到多个生物组织变为癌症状态的目标生物过程活性数据。通过目标生物过程活性数据，能够确定目标基因与癌症状态之间的因果参数，也即是确定目标基因发生突变导致生物组织处于癌症状态的可能性。

需要说明的是，上述是以确定基因突变与癌症发生的因果性为例进行说明的，在其他可能的实施方式中，本申请实施例提供的技术方案也能够应用在确定基因突变与其他状态发生的因果性的场景下，本申请实施例对此不作限定。

需要注意的是，在下述对本申请提供的技术方案进行说明的过程中，是以终端作为执行主体为例进行的。在其他可能的实施方式中，也可以由终端和服务器来共同执行本申请提供的技术方案，本申请实施例对于执行主体的类型不作限定。

在介绍完本申请实施例的实施环境和应用场景之后，下面对本申请实施例提供的技术方案进行介绍，参见图2，以执行主体为终端为例，方法包括下述步骤。

202、终端对多个生物组织的基因表达数据进行处理，得到该多个生物组织变为目标状态的参考生物过程活性数据，该多个生物组织均携带目标基因且处于该目标状态。

其中，该多个生物组织是探究基因发生突变与目标状态之间因果关系的样本。在一些实施例中，目标状态是指癌症，那么该多个生物组织均是癌症组织，目标基因是生物组织中的一个基因，是被选中探究基因突变与癌症之间因果性的目标基因。参考生物过程活性数据是估计的生物过程活性数据，生物过程活性是指在一个生物过程上生物组织的转录水平，该转录水平与该生物过程相关的一组基因的表达值相关联。

204、终端对该多个生物组织的体细胞突变数据、该多个生物组织的第一类混杂因子数据以及该参考生物过程活性数据进行编码，得到该多个生物组织的第二类混杂因子数据，该第一类混杂因子数据和该第二类混杂因子数据具有不同的可观测性。

其中，生物组织的体细胞突变数据用于表示生物组织中的目标基因是否发生突变，在一些实施例中，在一个生物组织中的目标基因发生突变的情况下，该生物组织的体细胞突变数据为第一数值；在一个生物组织中的目标基因未发生突变的情况下，该生物组织的体细胞突变数据为第二数值，该第一数值和该第二数值不同。第一类混杂因子数据是对第一类混杂因子的抽象表达，在一些实施例中，第一类混杂因子是指可观测的混杂因子。相应地，第二类混杂因子数据是对第二类混杂因子的抽象表达，在一些实施例中，第二类混杂因子是指不可观测的混杂因子。

206、终端对该多个生物组织的第二类混杂因子数据进行解码，得到该多个生物组织变为该目标状态的目标生物过程活性数据。

其中，目标生物过程活性数据是基于第二类混杂因子数据重新生成的生物过程活性数据，该目标生物过程活性数据消除了第二类混杂因子的影响。

208、终端基于该目标生物过程活性数据，确定该目标基因与该目标状态之间的因果参数，该因果参数用于表示该目标基因发生突变导致生物组织处于该目标状态的可能性。

通过本申请实施例提供的技术方案，通过对多个生物组织的基因表达数据进行处理，得到多个生物组织变为目标状态的参考生物过程活性数据，借助参考生物过程活性数据能够确定最终的目标生物过程活性数据，多个生物组织均携带目标基因且均处于目标状态。对多个生物组织的体细胞突变数据、多个生物组织的第一类混杂因子数据以及参考生物过程活性数据进行编码，得到第二类混杂因子数据，第一类混杂因子数据和第二类混杂因子数据具有不同的可观测性。通过上述过程，实现了对不可观测的第二类混杂因子数据的估计。对第二类混杂因子数据进行解码，就能够得到多个生物组织变为目标状态的目标生物过程活性数据。通过目标生物过程活性数据，能够确定目标基因与目标状态之间的因果参数，确定该因果参数的过程消除了混杂因子的混杂影响，准确性较高。

下面结合图3对本申请实施例的原理进行说明。

参见图3，节点代表变量，箭头表示因果关系的方向。具体来说，我们希望估计基因对癌症生物过程的因果效应，则因果系统的结果变量(Outcome)记为Y(目标生物过程活性数据)，即癌症样本的生物过程活性；治疗变量(Treatment)记为M(基因突变数据)，即基因g的体细胞突变数据，基因g也即是目标基因；可观察到的混杂因子记为X(第一类混杂因子数据)，即除基因g以外的其他基因的体细胞数据；不可观测到的混杂因子记为Z(第二类混杂因子数据)，如氧化应激水平等难以测量的混杂因子。虽然我们不能直接对未观察到的混杂因子Z采取行动，但可以找到它们的代理变量，并通过生成模型，如变分自动编码器，从观察数据中恢复Z的后验概率分布。推断因果关系(M→Y)的一个关键步骤是消除混杂因素造成的混杂效应，因为混杂因素同时影响干预变量(M，通过Z→M)和结果变量(Y，通过Z→Y)，导致M和Y之间的虚假统计相关性。采用本申请实施例提供的技术方案能够消除这种虚假统计相关性。

上述步骤202-208是对本申请实施例提供的技术方案的简单说明，下面将结合一些例子和上述图3所描述的原理，对本申请实施例提供的技术方案进行更加详细地说明，参见图4，以执行主体为终端为例，方法包括下述步骤。

402、终端获取多个生物组织的基因表达数据。

其中，该多个生物组织是探究基因发生突变与目标状态之间因果关系的样本。生物组织的基因表达数据是通过基因测序的方法得到的基因表达数据，也即是碱基对的排列顺序。由于人体有两万多个基因，那么每个生物组织也就有两万多条基因表达数据，基因和基因表达数据是一一对应的关系。基因表达数据是通过转录组测序技术获得的高分辨率的数字化表达谱信息。举例来说，某个基因的表达数据是指它转录出RNA的数量，表达数据越大，说明该基因对应的生物功能可能越活跃。

404、终端对多个生物组织的基因表达数据进行处理，得到该多个生物组织变为目标状态的参考生物过程活性数据，该多个生物组织均携带目标基因且处于该目标状态。

在一些实施例中，目标状态是指癌症，那么该多个生物组织均是癌症组织，相应地，一个生物组织是从癌症患者身上的癌症组织中取出一块组织或细胞样本。目标基因是生物组织中的一个基因，是被选中探究基因突变与癌症之间因果性的目标基因。参考生物过程活性数据是估计的生物过程活性数据，生物过程活性是指在一个生物过程上生物组织的转录水平，该转录水平与该生物过程相关的一组基因的表达值相关联。

在一种可能的实施方式中，终端基于该多个生物组织的基因表达数据，确定该多个生物组织中多个基因之间的相关性。终端基于该多个生物组织中多个基因之间的相关性，从该多个基因中确定该多个生物组织的核心基因。终端对该生物组织的核心基因的基因表达数据对该多个生物组织的核心基因的平均表达向量进行回归，得到该多个生物组织变为该目标状态的参考生物过程活性数据。

其中，生物组织中的多个基因是指，参与生物组织变为目标状态的生物过程的基因，在下述说明过程中，该生物过程被称为目标生物过程。

在这种实施方式下，终端能够根据多个生物组织中多个基因之间的相关性来确定多个生物组织中的核心基因，基于核心基因来对生物过程进行估计，得到参考生物过程活性数据，准确性和效率较高。

为了对上述实施方式进行更加清楚地说明，下面将分为几个部分对上述实施方式进行说明。

第一部分、终端基于该多个生物组织的基因表达数据，确定该多个生物组织中多个基因之间的相关性。

在一种可能的实施方式中，终端从该多个生物组织的基因表达数据中获取该多个基因分别对应的多个基因表达向量。终端基于该多个基因表达向量之间的相关性，确定该多个生物组织中多个基因之间的相关性。

其中，一个基因对应于一个基因表达向量，基因表达向量是对应基因的抽象表达。

举例来说，终端将该多个生物组织的基因表达数据转化为基因表达数据矩阵，该基因表达数据矩阵的每一行为一个基因的基因表达向量。终端确定该基因表达矩阵中每两个基因表达向量之间的皮尔逊(Pearson)相关性系数和显著性系数，其中，显著性系数也被称为显著性水平。在一些实施例中，该基因表达矩阵中每两个基因表达向量之间的皮尔逊相关性系数构成该多个基因的相关性矩阵，相应地，多个显著性系数构成多个基因的显著性矩阵，通过相关性矩阵和显著性矩阵能够快速确定多个基因中每两个基因之间的皮尔逊相关性系数和显著性系数。

比如，该多个生物组织包括P个参与目标生物过程的基因，生物组织的数量为N，N个生物组织的基因表达数据矩阵为

其中，

表示第i个生物组织的基因表达向量集合，

表示第j个基因的基因表达向量集合，1≤i≤N，1≤j≤P，N、P、i和j均为正整数。对于该基因表达数据矩阵U，终端确定P个基因之间的皮尔逊相关性系数，得到相关性矩阵

和显著性矩阵

其中，

是第i个基因和第j个基因之间的皮尔逊相关性系数，

是对应的显著性系数。

第二部分、终端基于该多个生物组织中多个基因之间的相关性，从该多个基因中确定该多个生物组织的核心基因。

在一种可能的实施方式中，终端基于该多个生物组织中多个基因之间的相关性，确定该多个基因中各个基因与其他基因之间的全局相关性。终端基于该多个基因中各个基因与其他基因之间的全局相关性，从该多个基因中确定该多个生物组织的核心基因。

其中，全局相关性是指一个基因与其他基因之间的相关性之和，核心基因是指多个基因中全局相关性符合相关性条件的基因。

举例来说，对于该多个基因中的任一基因，终端将该基因与该多个基因中其他基因之间的相关性与对应的显著性进行融合，得到该基因与其他基因之间的目标相关性。终端将该基因与其他基因之间的目标相关性进行加权求和，得到该基因与其他基因之间的全局相关性。终端按照全局相关性从大至小的顺序对该多个基因进行排序。终端将该多个基因中前目标数量个基因确定为该多个生物组织的核心基因。

比如，对于该多个基因中的任一基因，终端通过下述公式(1)，将该基因与该多个基因中的其他基因之间的相关性和指示函数相乘，得到该基因与其他基因之间的目标相关性，该指示函数的值与显著性相关。终端将该基因与其他基因之间的目标相关性进行加权求和，得到该基因与其他基因之间的全局相关性。终端按照全局相关性从大至小的顺序对该多个基因进行排序。终端将该多个基因中前目标数量个基因确定为该多个生物组织的核心基因。在一些实施例中，终端将全局相关性前50％的基因确定为该多个生物组织的核心基因。

其中，

为基因j的全局相关性，

为指示函数，α为显著性阈值，指示函数的意义在于将显著性低于显著性阈值的相关性过滤，得到最终的全局相关性。

第三部分、终端对该多个生物组织的核心基因的基因表达数据进行回归，得到该多个生物组织变为该目标状态的参考生物过程活性数据。

在一种可能的实施方式中，终端确定该多个生物组织的核心基因在该多个生物组织上的平均表达向量上的回归系数，该平均表达向量是该核心基因在该多个生物组织上的基因表达向量的平均值。终端将该回归系数确定为该多个生物组织变为该目标状态的参考生物过程活性数据。

为了对上述实施方式进行更加清楚地说明，下面先对确定核心基因在该多个生物组织上的平均表达向量的方法进行说明。

在一种可能的实施方式中，对于生物样本的多个核心基因中的任一核心基因，终端确定该核心基因的平均表示值，该平均表示值是该核心基因在多个生物组织中的表示向量的平均值。终端将多个核心基因的平均表示值进行拼接，得到多个核心基因在该多个生物组织上的平均表达向量。比如，终端通过下述公式(2)来确定核心基因的平均表示值，通过下述公式(3)来确定平均表达向量。

其中，

是指核心基因j^*的平均表示值。

其中，K为平均表达向量，[]为向下取整函数。

在介绍完确定核心基因在该多个生物组织上的平均表达向量的方法之后，下面继续对上述实施方式中确定参考生物过程活性数据的方法进行说明。

举例来说，终端通过下述公式(4)来确定核心基因在该多个生物组织上的平均表达向量上的回归系数。

其中，y_i是第i个生物组织的回归系数，也即是参考生物过程活性数据。

406、终端对该多个生物组织的体细胞突变数据、该多个生物组织的第一类混杂因子数据以及该参考生物过程活性数据进行编码，得到该多个生物组织的第二类混杂因子数据，该第一类混杂因子数据和该第二类混杂因子数据具有不同的可观测性。

其中，生物组织的体细胞突变数据用于表示生物组织中的目标基因是否发生突变，在一些实施例中，在一个生物组织中的目标基因发生突变的情况下，该生物组织的体细胞突变数据为第一数值。在一个生物组织中的目标基因未发生突变的情况下，该生物组织的体细胞突变数据为第二数值，该第一数值和该第二数值不同。第一类混杂因子数据是对第一类混杂因子的抽象表达，在一些实施例中，第一类混杂因子是指可观测的混杂因子。相应地，第二类混杂因子数据是对第二类混杂因子的抽象表达，在一些实施例中，第二类混杂因子是指不可观测的混杂因子。第一类混杂因子为生物组织中除目标基因之外，其他基因的体细胞突变数据。

在一种可能的实施方式中，终端将该多个生物组织的体细胞突变数据、该多个生物组织的第一类混杂因子数据以及该参考生物过程活性数据输入编码器。终端通过该编码器，对该多个生物组织的第一类混杂因子数据以及该参考生物过程活性数据进行编码，得到各个该生物组织的第一编码向量。终端通过该编码器，基于该多个生物组织的体细胞突变数据，对该第一编码向量进行二次编码，得到该多个生物组织的第二类混杂因子数据。

为了对上述实施方式进行更加清楚地说明，下面将分为两个部分对上述实施方式进行说明。

第一部分、终端通过该编码器，对该多个生物组织的第一类混杂因子数据以及该参考生物过程活性数据进行编码，得到各个该生物组织的第一编码向量。

在一种可能的实施方式中，对于该多个生物组织中的任一生物组织，终端对该生物组织的第一类混杂因子数据和参考生物过程活性数据进行至少一次全连接，得到该生物组织的第一编码向量。

在一种可能的实施方式中，对于该多个生物组织中的任一生物组织，终端对该生物组织的第一类混杂因子数据和参考生物过程活性数据进行至少一次卷积，得到该生物组织的第一编码向量。

需要说明的是，该第一部分的步骤是编码器第一阶段的处理过程，目的是学习第一类混杂因子数据和参考生物过程活性数据的抽象表示。将第一类混杂因子数据记作x_i，将参考生物过程活性数据记作y_i，第一编码向量也即是g(x_i，y_i)的抽象表示。该编码器包括两个阶段的处理过程，目的是估计第二类混杂因子数据的后验概率q(z|m，x，y)，其中，z表示第二类混杂因子数据，m表示体细胞突变数据。在一些实施例中，第二类混杂因子数据的分布为多变量高斯分布，通过两个阶段能够估计第二类混杂因子数据的均值和方差。

第二部分、终端通过该编码器，基于该多个生物组织的体细胞突变数据，对该第一编码向量进行二次编码，得到该多个生物组织的第二类混杂因子数据。

在一种可能的实施方式中，对于该多个生物组织中的任一生物组织，在该生物组织的体细胞突变数据指示该生物组织未发生基因突变的情况下，终端通过该编码器的第一神经网络对该生物组织的第一编码向量进行编码，得到该生物组织的第二类混杂因子数据。在该生物组织的体细胞突变数据指示该生物组织发生基因突变的情况下，终端通过该编码器的第二神经网络对该生物组织的第一编码向量进行编码，得到该生物组织的第二类混杂因子数据。

其中，体细胞突变数据包括第一数值和第二数值，第一数值表示生物组织中的目标基因未发生突变，第二数值表示生物组织中目标基因发生了突变，在一些实施例中，第一数值为0，第二数值为1。

举例来说，对于该多个生物组织中的任一生物组织，在该生物组织的体细胞突变数据为第一数值的情况下，终端通过该编码器的第一神经网络，对该生物组织的第一编码向量进行编码，得到该生物组织的第二类混杂因子数据。在该生物组织的体细胞突变数据为第二数值的情况下，终端通过该编码器的第二神经网络，对该生物组织的第一编码向量进行编码，得到该生物组织的第二类混杂因子数据。比如，终端通过下述公式(5)或(6)来获取第二类混杂因子数据。其中，使用第一神经网络和第二神经网络进行编码的构成，也即是进行拟合的过程。

其中，f₀()为第一神经网络对应的函数，f₁()为第二神经网络对应的函数，μ_j为生物组织j的第二类混杂因子的均值，ε_j为生物组织j的第二类混杂因子的标准差，z_i为第二类混杂因子。

408、终端对该多个生物组织的第二类混杂因子数据进行解码，得到该多个生物组织变为该目标状态的目标生物过程活性数据。

在一种可能的实施方式中，终端将该多个生物组织的第二类混杂因子数据输入生成器。终端通过该生成器基于该第二类混杂因子进行数据生成，得到该多个生物组织的目标生物过程活性数据。

其中，本申请实施例中的编码器和生成器属于同一个变分自编码器(VariationalAuto Encoder，VAE)，在变分自编码器中，该生成器也被称为解码器。

举例来说，终端通过该生成器，基于下述公式(7)来对第二类混杂因子进行解码，得到目标生物过程活性数据。

p(x_i，y_i)m_i|z_i)＝p(x_i|z_i)p(m_i|z_i)p(y_i|z_i，m_i) (7)

其中，p(x_i|z_i)＝f_x(z_i)，p(m_i|z_i)＝Ber(elu(f_m(z_i)))，

在上述公式(7)中，z的先验分布被确定为每个维度上的标准正态分布，即

elu()是ELU层以捕捉非线性表示，Ber()表示伯努利分布，被用于计算体细胞突变数据为m_i的概率。由于生物过程活性值是连续的，y_i的分布被参数化为高斯分布，不同的体细胞突变数据对应不同的平均值，方差均被固定为ε。

需要说明的是，本申请实施例提供的变分自编码器是通过最小化数据和重建数据之间的KL散度训练得到的，训练过程的损失函数为下述公式(8)。

其中，L为损失函数。

在训练过程中，对于包含N个样本的数据集，使用80％的样本作为训练集，20％的样本作为测试集。

410、终端基于该目标生物过程活性数据，确定该目标基因与该目标状态之间的因果参数，该因果参数用于表示该目标基因发生突变导致生物组织处于该目标状态的可能性。

在一种可能的实施方式中，该目标生物过程活性数据包括第一生物过程活性数据和第二生物过程活性数据，该第一生物过程活性数据为生物组织在该目标基因未发生突变时的生物过程活性数据，该第二生物过程活性数据为生物组织在该目标基因发生突变时的生物过程活性数据。终端对目标差值进行加权求和，得到该目标基因与该目标状态之间的因果参数，该目标差值为该第一生物过程活性数据和第二生物过程活性数据之间的差值。

举例来说，终端通过下述公式(9)来确定因果参数。

其中，ATE为因果参数，当ATE为正值时，该基因的突变促进了生物过程的活性；当ATE为0或者负值时，该基因的突变并不促进生物过程的活性。Y_i(m＝0)为第一生物过程活性数据，Y_i(m＝1)为第二生物过程活性数据。在一些实施中，上述公式(9)也被称为平均治疗公式(Average Treatment Effect，ATE)。Y_i(m＝0)和Y_i(m＝1)的确定方法为，通过编码器能够得到q(z_i|m＝0，x_i，y_i)和q(z_i|m＝1，x_i，y_i)，也就能够得到z_i的表示。将z_i带入上述公式(7)就能够得到p(y_i|z_i，m_i＝0)和p(y_i|z_i，m_i＝1)。

下面将结合图5，对本申请实施例提供的技术方案进行说明。

参见图5，对于多个生物组织中的任一生物组织，终端基于该生物组织的基因表达数据501，确定生物组织中多个基因之间的相关性，得到相关性矩阵502。终端基于该基因表达数据501和该相关性矩阵502，确定生物组织的核心基因503。终端基于该生物组织的核心基因，确定参考生物过程活性数据504。终端对该多个生物组织的体细胞突变数据、该多个生物组织的第一类混杂因子数据以及该参考生物过程活性数据504进行编码，得到该多个生物组织的第二类混杂因子数据z。终端基于该第二类混杂因子数据z，确定目标生物过程活性数据

目标体细胞突变数据

和目标第一类混杂因子数据

最后基于目标生物过程活性数据，能够确定因果参数。图5所示的技术方案的框架被称为CEBP(Causal Effectof a Mutation on Cancer Biological Process)用于估计基因突变对癌症生物过程的因果效应。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

图6是本申请实施例提供的一种因果参数的确定装置的结构示意图，参见图6，装置包括：参考生物过程数据获取模块601、编码模块602、解码模块603以及因果参数确定模块604。

参考生物过程数据获取模块601，用于对多个生物组织的基因表达数据进行处理，得到该多个生物组织变为目标状态的参考生物过程活性数据，该多个生物组织均携带目标基因且处于该目标状态。

编码模块602，用于对该多个生物组织的体细胞突变数据、该多个生物组织的第一类混杂因子数据以及该参考生物过程活性数据进行编码，得到该多个生物组织的第二类混杂因子数据，该第一类混杂因子数据和该第二类混杂因子数据具有不同的可观测性。

解码模块603，用于对该多个生物组织的第二类混杂因子数据进行解码，得到该多个生物组织变为该目标状态的目标生物过程活性数据。

因果参数确定模块604，用于基于该目标生物过程活性数据，确定该目标基因与该目标状态之间的因果参数，该因果参数用于表示该目标基因发生突变导致生物组织处于该目标状态的可能性。

在一种可能的实施方式中，该参考生物过程数据获取模块601，用于基于该多个生物组织的基因表达数据，确定该多个生物组织中多个基因之间的相关性。基于该多个生物组织中多个基因之间的相关性，从该多个基因中确定该多个生物组织的核心基因。对该多个生物组织的核心基因的基因表达数据对该多个生物组织的核心基因的平均表达向量进行回归，得到该多个生物组织变为该目标状态的参考生物过程活性数据。

在一种可能的实施方式中，该参考生物过程数据获取模块601，用于从该多个生物组织的基因表达数据中获取该多个基因分别对应的多个基因表达向量。基于该多个基因表达向量之间的相关性，确定该多个生物组织中多个基因之间的相关性。

在一种可能的实施方式中，该参考生物过程数据获取模块601，用于基于该多个生物组织中多个基因之间的相关性，确定该多个基因中各个基因与其他基因之间的全局相关性。基于该多个基因中各个基因与其他基因之间的全局相关性，从该多个基因中确定该多个生物组织的核心基因。

在一种可能的实施方式中，该参考生物过程数据获取模块601，用于对于该多个基因中的任一基因，将该基因与该多个基因中其他基因之间的相关性与对应的显著性进行融合，得到该基因与其他基因之间的目标相关性。将该基因与其他基因之间的目标相关性进行加权求和，得到该基因与其他基因之间的全局相关性。

在一种可能的实施方式中，该参考生物过程数据获取模块601，用于按照全局相关性从大至小的顺序对该多个基因进行排序。将该多个基因中前目标数量个基因确定为该多个生物组织的核心基因。

在一种可能的实施方式中，该参考生物过程数据获取模块601，用于确定该多个生物组织的核心基因的表达向量在该多个生物组织上的平均表达向量上的回归系数，该平均表达向量是该核心基因在该多个生物组织上的基因表达向量的平均值。将该回归系数确定为该多个生物组织变为该目标状态的参考生物过程活性数据。

在一种可能的实施方式中，该编码模块602，用于将该多个生物组织的体细胞突变数据、该多个生物组织的第一类混杂因子数据以及该参考生物过程活性数据输入编码器。通过该编码器，对该多个生物组织的第一类混杂因子数据以及该参考生物过程活性数据进行编码，得到各个该生物组织的第一编码向量。通过该编码器，基于该多个生物组织的体细胞突变数据，对该第一编码向量进行二次编码，得到该多个生物组织的第二类混杂因子数据。

在一种可能的实施方式中，该编码模块602，用于对于该多个生物组织中的任一生物组织，对该生物组织的第一类混杂因子数据和参考生物过程活性数据进行至少一次全连接，得到该生物组织的第一编码向量。

在一种可能的实施方式中，该编码模块602，用于对于该多个生物组织中的任一生物组织，在该生物组织的体细胞突变数据指示该生物组织未发生基因突变的情况下，通过该编码器的第一神经网络对该生物组织的第一编码向量进行编码，得到该生物组织的第二类混杂因子数据。在该生物组织的体细胞突变数据指示该生物组织发生基因突变的情况下，通过该编码器的第二神经网络对该生物组织的第一编码向量进行编码，得到该生物组织的第二类混杂因子数据。

在一种可能的实施方式中，该解码模块603，用于将该多个生物组织的第二类混杂因子数据输入生成器。通过该生成器基于该第二类混杂因子进行数据生成，得到该多个生物组织的目标生物过程活性数据。

在一种可能的实施方式中，该目标生物过程活性数据包括第一生物过程活性数据和第二生物过程活性数据，该第一生物过程活性数据为生物组织在该目标基因未发生突变时的生物过程活性数据，该第二生物过程活性数据为生物组织在该目标基因发生突变时的生物过程活性数据，该因果参数确定模块604，用于对目标差值进行加权求和，得到该目标基因与该目标状态之间的因果参数，该目标差值为该第一生物过程活性数据和第二生物过程活性数据之间的差值。

需要说明的是：上述实施例提供的因果参数的确定装置在确定因果参数时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将计算机设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的因果参数的确定装置与因果参数的确定方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本申请实施例提供了一种计算机设备，用于执行上述方法，该计算机设备可以实现为终端或者服务器，下面先对终端的结构进行介绍：

图7是本申请实施例提供的一种终端的结构示意图。该终端700可以是：智能手机、平板电脑、笔记本电脑或台式电脑。终端700还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端700包括有：一个或多个处理器701和一个或多个存储器702。

处理器701可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器701可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器701也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器701可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器701还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器702可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器702还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器702中的非暂态的计算机可读存储介质用于存储至少一个计算机程序，该至少一个计算机程序用于被处理器701所执行以实现本申请中方法实施例提供的因果参数的确定方法。

在一些实施例中，终端700还可选包括有：外围设备接口703和至少一个外围设备。处理器701、存储器702和外围设备接口703之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口703相连。具体地，外围设备包括：射频电路704、显示屏705、摄像头组件706、音频电路707和电源708中的至少一种。

外围设备接口703可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器701和存储器702。在一些实施例中，处理器701、存储器702和外围设备接口703被集成在同一芯片或电路板上；在一些其他实施例中，处理器701、存储器702和外围设备接口703中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路704用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路704通过电磁信号与通信网络以及其他通信设备进行通信。射频电路704将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路704包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。

显示屏705用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏705是触摸显示屏时，显示屏705还具有采集在显示屏705的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器701进行处理。此时，显示屏705还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。

摄像头组件706用于采集图像或视频。可选地，摄像头组件706包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。

音频电路707可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器701进行处理，或者输入至射频电路704以实现语音通信。

电源708用于为终端700中的各个组件进行供电。电源708可以是交流电、直流电、一次性电池或可充电电池。

在一些实施例中，终端700还包括有一个或多个传感器709。该一个或多个传感器709包括但不限于：加速度传感器710、陀螺仪传感器711、压力传感器712、光学传感器713以及接近传感器714。

加速度传感器710可以检测以终端700建立的坐标系的三个坐标轴上的加速度大小。

陀螺仪传感器711可以终端700的机体方向及转动角度，陀螺仪传感器711可以与加速度传感器710协同采集用户对终端700的3D动作。

压力传感器712可以设置在终端700的侧边框和/或显示屏705的下层。当压力传感器712设置在终端700的侧边框时，可以检测用户对终端700的握持信号，由处理器701根据压力传感器712采集的握持信号进行左右手识别或快捷操作。当压力传感器712设置在显示屏705的下层时，由处理器701根据用户对显示屏705的压力操作，实现对UI界面上的可操作性控件进行控制。

光学传感器713用于采集环境光强度。在一个实施例中，处理器701可以根据光学传感器713采集的环境光强度，控制显示屏705的显示亮度。

接近传感器714用于采集用户与终端700的正面之间的距离。

本领域技术人员可以理解，图7中示出的结构并不构成对终端700的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

上述计算机设备还可以实现为服务器，下面对服务器的结构进行介绍：

图8是本申请实施例提供的一种服务器的结构示意图，该服务器800可因配置或性能不同而产生比较大的差异，可以包括一个或多个处理器(Central Processing Units，CPU)801和一个或多个的存储器802，其中，所述一个或多个存储器802中存储有至少一条计算机程序，所述至少一条计算机程序由所述一个或多个处理器801加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器800还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器800还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括计算机程序的存储器，上述计算机程序可由处理器执行以完成上述实施例中的因果参数的确定方法。例如，该计算机可读存储介质可以是只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括程序代码，该程序代码存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取该程序代码，处理器执行该程序代码，使得该计算机设备执行上述因果参数的确定方法。

在一些实施例中，本申请实施例所涉及的计算机程序可被部署在一个计算机设备上执行，或者在位于一个地点的多个计算机设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算机设备上执行，分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链系统。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种因果参数的确定方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对多个生物组织的基因表达数据进行处理，得到所述多个生物组织变为目标状态的参考生物过程活性数据包括：

基于所述多个生物组织的基因表达数据，确定所述多个生物组织中多个基因之间的相关性；

基于所述多个生物组织中多个基因之间的相关性，从所述多个基因中确定所述多个生物组织的核心基因；

对所述多个生物组织的核心基因的基因表达数据对所述多个生物组织的核心基因的平均表达向量进行回归，得到所述多个生物组织变为所述目标状态的参考生物过程活性数据。

3.根据权利要求2所述的方法，其特征在于，所述基于所述多个生物组织的基因表达数据，确定所述多个生物组织中多个基因之间的相关性包括：

从所述多个生物组织的基因表达数据中获取所述多个基因分别对应的多个基因表达向量；

基于所述多个基因表达向量之间的相关性，确定所述多个生物组织中多个基因之间的相关性。

4.根据权利要求2所述的方法，其特征在于，所述基于所述多个生物组织中多个基因之间的相关性，从所述多个基因中确定所述多个生物组织的核心基因包括：

基于所述多个生物组织中多个基因之间的相关性，确定所述多个基因中各个基因与其他基因之间的全局相关性；

基于所述多个基因中各个基因与其他基因之间的全局相关性，从所述多个基因中确定所述多个生物组织的核心基因。

5.根据权利要求4所述的方法，其特征在于，所述基于所述多个生物组织中多个基因之间的相关性，确定所述多个基因中各个基因与其他基因之间的全局相关性包括：

对于所述多个基因中的任一基因，将所述基因与所述多个基因中其他基因之间的相关性与对应的显著性进行融合，得到所述基因与其他基因之间的目标相关性；

将所述基因与其他基因之间的目标相关性进行加权求和，得到所述基因与其他基因之间的全局相关性。

6.根据权利要求4所述的方法，其特征在于，所述基于所述多个基因中各个基因与其他基因之间的全局相关性，从所述多个基因中确定所述多个生物组织的核心基因包括：

按照全局相关性从大至小的顺序对所述多个基因进行排序；

将所述多个基因中前目标数量个基因确定为所述多个生物组织的核心基因。

7.根据权利要求2所述的方法，其特征在于，所述对所述多个生物组织的核心基因的基因表达数据进行回归，得到所述多个生物组织变为所述目标状态的参考生物过程活性数据包括：

确定所述多个生物组织的核心基因的表达向量在所述多个生物组织上的平均表达向量上的回归系数，所述平均表达向量是所述核心基因在所述多个生物组织上的基因表达向量的平均值；

将所述回归系数确定为所述多个生物组织变为所述目标状态的参考生物过程活性数据。

8.根据权利要求1所述的方法，其特征在于，所述对所述多个生物组织的体细胞突变数据、所述多个生物组织的第一类混杂因子数据以及所述参考生物过程活性数据进行编码，得到所述多个生物组织的第二类混杂因子数据包括：

将所述多个生物组织的体细胞突变数据、所述多个生物组织的第一类混杂因子数据以及所述参考生物过程活性数据输入编码器；

通过所述编码器，对所述多个生物组织的第一类混杂因子数据以及所述参考生物过程活性数据进行编码，得到各个所述生物组织的第一编码向量；

通过所述编码器，基于所述多个生物组织的体细胞突变数据，对所述第一编码向量进行二次编码，得到所述多个生物组织的第二类混杂因子数据。

9.根据权利要求8所述的方法，其特征在于，所述通过所述编码器，对所述多个生物组织的第一类混杂因子数据以及所述参考生物过程活性数据进行编码，得到各个所述生物组织的第一编码向量包括：

对于所述多个生物组织中的任一生物组织，对所述生物组织的第一类混杂因子数据和参考生物过程活性数据进行至少一次全连接，得到所述生物组织的第一编码向量。

10.根据权利要求8所述的方法，其特征在于，所述通过所述编码器，基于所述多个生物组织的体细胞突变数据，对所述第一编码向量进行二次编码，得到所述多个生物组织的第二类混杂因子数据包括：

对于所述多个生物组织中的任一生物组织，在所述生物组织的体细胞突变数据指示所述生物组织未发生基因突变的情况下，通过所述编码器的第一神经网络对所述生物组织的第一编码向量进行编码，得到所述生物组织的第二类混杂因子数据；

在所述生物组织的体细胞突变数据指示所述生物组织发生基因突变的情况下，通过所述编码器的第二神经网络对所述生物组织的第一编码向量进行编码，得到所述生物组织的第二类混杂因子数据。

11.根据权利要求1所述的方法，其特征在于，所述对所述多个生物组织的第二类混杂因子数据进行解码，得到所述多个生物组织变为所述目标状态的目标生物过程活性数据包括：

将所述多个生物组织的第二类混杂因子数据输入生成器；

通过所述生成器基于所述第二类混杂因子进行数据生成，得到所述多个生物组织的目标生物过程活性数据。

12.根据权利要求1所述的方法，其特征在于，所述目标生物过程活性数据包括第一生物过程活性数据和第二生物过程活性数据，所述第一生物过程活性数据为生物组织在所述目标基因未发生突变时的生物过程活性数据，所述第二生物过程活性数据为生物组织在所述目标基因发生突变时的生物过程活性数据，所述基于所述目标生物过程活性数据，确定所述目标基因与所述目标状态之间的因果参数包括：

对目标差值进行加权求和，得到所述目标基因与所述目标状态之间的因果参数，所述目标差值为所述第一生物过程活性数据和第二生物过程活性数据之间的差值。

13.一种因果参数的确定装置，其特征在于，所述装置包括：

14.一种计算机设备，其特征在于，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条计算机程序，所述计算机程序由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求12任一项所述的因果参数的确定方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条计算机程序，所述计算机程序由处理器加载并执行以实现如权利要求1至权利要求12任一项所述的因果参数的确定方法。

16.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至权利要求12任一项所述的因果参数的确定方法。