CN114913921B

CN114913921B - 一种标志基因识别的系统和方法

Info

Publication number: CN114913921B
Application number: CN202210491212.9A
Authority: CN
Inventors: 王颖; 林仁豪
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2022-05-07
Filing date: 2022-05-07
Publication date: 2024-07-09
Anticipated expiration: 2042-05-07
Also published as: CN114913921A

Abstract

本发明公开了一种基于聚类网络模型解释的标志基因识别系统，包括：数据提取和预处理单元，配置用于数据提取和预处理，获取基因表达矩阵原数据；聚类网络模型单元，配置用于通过聚类网络模型获得所述基因表达矩阵的低维表达向量并聚类成簇；模型解释单元，配置用于通过模型解释算法解释所述聚类网络模型，获得特征贡献度，所述特征贡献度为基因表达数据特征对所述聚类网络模型的聚类结果的影响程度；标志基因识别单元，配置用于根据所述特征贡献度，识别标志基因。该系统能够依据特征贡献度对基因表达矩阵数据的去冗余，与常规的聚类模型相比，有较强的可解释性与可信度。

Description

一种标志基因识别的系统和方法

技术领域

本发明涉及基因数据处理技术领域，尤其是一种基于聚类网络模型解释的标志基因识别的系统与方法。

背景技术

随着科技与医疗的不断发展与结合，大量的数据被医疗仪器所采集，RNA-seq通常能够测得几万个基因的表达量。在研究生物学问题上，常常希望把更多的特征纳入模型，这些基因的表达往往存在相关性，然而庞大的基因表达矩阵增大了问题的复杂性。在很多实际问题的分析中，例如疾病类型诊断，大部分基因表达与疾病的关联并不紧密，反而带来了冗余信息。因此，在众多的特征表达中提取出少数几个具有代表性的特征表达，能够用于更好的识别和区分不同疾病的基因特征，给临床应用提供很大的帮助。

聚类分析是基因表达数据分析中常用的手段之一，通过多个样本的全基因表达谱对比，来找到它们之间的相似性和相近关系。然而现有技术中，聚类的过程通常接近一个黑盒模型，无法解释基因表达数据中特征对聚类分析结果的影响，也无法获得关键的基因。

发明内容

针对现有技术存在的问题，第一方面，本发明提出一种基于聚类网络模型解释的标志基因识别系统，包括：

数据提取和预处理单元，配置用于数据提取和预处理，获取基因表达矩阵原数据

其中，Z为原数据，包括n个样本，每个样本包括个基因的表达水平，即个特征，即原数据的维度，表示数据样本；

聚类网络模型单元，配置用于通过聚类网络模型获得所述基因表达矩阵的低维表达向量并聚类成簇(其中Z'为低维数据，d为低维数据的维度)；

模型解释单元，配置用于通过模型解释算法解释所述聚类网络模型，获得特征贡献度，所述特征贡献度为基因表达数据特征对所述聚类网络模型的聚类结果的影响程度；

标志基因识别单元，配置用于根据所述特征贡献度，识别标志基因。

本发明提出的系统首先对基因表达矩阵进行降维和聚类处理，再依靠解释算法对降维和聚类过程进行解释，进而获得特征贡献度，识别出其中影响显著的标志基因。该系统能够依据特征贡献度实现基因表达矩阵数据的去冗余，与现有技术中常用的聚类模型相比，有较强的可解释性与可信度。

进一步地，聚类网络模型单元具体包括：

降维单元，通过非监督神经网络模型，获得所述基因表达矩阵的低维表达，即

其中，Z'为低维数据，z_i为低维样本；

聚类单元，通过聚类算法，将低维表达聚类成簇。

优选地，所述降维单元中的非监督神经网络模型为训练后的AutoEncoder模型，所述AutoEncoder模型包括编码器(Encoder)和解码器(Decoder)，所述编码器将高维原数据输入编码为低维隐变量，所述解码器将所述低维隐变量恢复至高维。

优选地，所述聚类单元中的聚类算法包括神经化K-Means算法，通过对比聚类的概率判定聚类结果。

在一优选方案中，模型解释单元基于SHAP算法思想计算特征贡献度，具体包括：

S51，通过对原数据的各个特征进行扰动，获得扰动后的数据集，以及对应的扰动后的聚类结果；

S52，根据所述扰动后的聚类结果和原数据聚类结果的差异，计算Shapley值，确定特征贡献度。

另一优选方案中，模型解释单元基于Smooth算法思想计算特征贡献度，具体包括：

根据聚类结果对于特征的敏感度确定特征贡献度，即

其中，res_i表示特征贡献度，F(x)表示聚类网络模型。

第二方面，本发明提出一种疾病类型识别的系统，包括以下步骤：

致病基因获取单元：配置用于应用上述任一项所述的系统获得疾病标志基因；

疾病类型识别单元：配置用于获取所述标志基因的表达矩阵并应用分类模型区分疾病类型。

上述系统通过所识别的致病基因表达矩阵进行疾病类型区分，有助于提高临床疾病识别的效率和准确率。

第三方面，本发明提出一种标志基因识别的方法，其特征在于，包括以下步骤：

S1，通过数据提取和预处理，获取基因表达矩阵原数据，即

其中，Z为原数据，包括n个样本，每个样本包括个基因的表达水平，即个特征，p即原数据的维度，z_i表示数据样本；

S2，通过聚类网络模型，获得基因表达矩阵的低维表达向量并聚类成簇，即

其中，Z'为低维数据，d为低维数据的维度；

S3，通过模型解释算法解释聚类网络模型，获得特征贡献度，该特征贡献度为基因表达数据特征对聚类网络模型的聚类结果的影响程度；

S4，根据特征贡献度，识别标志基因。

第四方面，本发明提出一种用于标志基因识别的计算机可读存储介质，其上存储有一或多个计算机程序，其特征在于，所述一或多个计算机程序被计算机处理器执行时实施上述任一方法。

本发明所提出的基于聚类网络模型解释识别标志基因的系统，通过聚类以及解释的方式，提取关键的标志基因。该系统可以应用于临床医学的诊断中，通过采集患者的基因表达谱，提取其重要特征，识别其疾病类型，帮助临床的医疗判断。

附图说明

附图帮助进一步理解本申请。为了便于描述，附图中仅示出了与有关发明相关的部分。

图1是本发明可以应用于其中的示例性系统架构图；

图2是本发明一实施例中一种基于聚类网络模型解释的标志基因识别系统示意图；

图3是本发明一实施例中应用的AutoEncoder模型结构示意图；

图4是本发明的一实施例中的聚类网络模型的结构示意图；

图5是本发明的一实施例中标志基因识别的流程示意图；

图6是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。此处所描述的具体实施例仅用于解释相关发明，而非对该发明的限定。为了便于描述，附图中仅示出了与有关发明相关的部分。在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

图1示出了可以应用本申请实施例的一种基于三元组网络的病毒识别和宿主预测方法的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种应用，例如数据处理类应用、数据可视化类应用、网页浏览器应用等。

终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、 103为硬件时，可以是各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块)，也可以实现成单个软件或软件模块。在此不做具体限定。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上展示的基因表达矩阵提供支持的后台信息处理服务器。后台信息处理服务器可以对获取的基因表达矩阵进行处理，并生成处理结果(例如识别结果)。

需要说明的是，本申请实施例所提供的方法可以由服务器105执行，也可以由终端设备101、102、103执行，相应的装置一般设置于服务器105中，也可以设置于终端设备101、102、103中。

需要说明的是，服务器可以是硬件，也可以是软件。当服务器为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块)，也可以实现成单个软件或软件模块。在此不做具体限定。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

图2为本发明一实施例中一种基于聚类网络模型解释的标志基因识别系统示意图，该系统包括：

数据提取和预处理单元201，通过数据提取和预处理，获取基因表达矩阵原数据，即

其中，Z为原数据，包括n个样本，每个样本包括个基因的表达水平，即个特征，p即原数据的维度，z_i表示数据样本。

具体实施例中，针对疾病的类型识别，提取不同疾病人群的基因表达谱，获得基因表达矩阵数据，样本按行存储；进行数据清洗，对缺失数据赋予统一数值，对基因表达矩阵进行归一化处理，获得原数据。

聚类网络模型单元202，通过聚类网络模型，获得基因表达矩阵的低维表达向量并聚类成簇，即

其中，Z'为低维数据，d为低维数据的维度，p>>d。

优选实施例中，聚类网络模型单元202进一步包括：

降维单元，应用非监督神经网络模型将高维数据通过非线性变化投影到低维空间上，获得基因表达矩阵的低维表达；再通过聚类算法，将低维表达聚类成簇。

其中，可以通过训练一个AutoEncoder模型获得该低维表达。图3为AutoEncoder模型的结构示意图。该模型包括编码器(Encoder)和解码器(Decoder)。模型的输入是数据预处理后的数据，编码器的作用是把高维输入X编码成低维的隐变量h，从而强迫神经网络学习最有信息量的特征；解码器的作用是把隐藏层的隐变量h还原到初始维度，通常希望解码器的输出能够完美地或者近似恢复出原来的输入,即X^R约等于X。

聚类单元，通过聚类算法，如K-Means算法，将低维表达聚类成簇。

其中，可以应用神经化K-Means算法进行聚类。传统的K-Means算法属于硬聚类，旨在最小化每个样本与聚类中心的距离，每个样本会被划分为某一类。神经化K- Means算法属于软聚类，每个样本以一定的概率属于某一类。

模型解释单元203，通过模型解释算法解释聚类网络模型，获得特征贡献度，该特征贡献度为基因表达数据特征对聚类网络模型的聚类结果的影响程度。

在具体实施例中，取AutoEncoder的Encoder部分和神经化K-Means构成聚类网络模型，该模型将样本由高维转换到低维，并计算到每一类的概率。然后，利用模型解释算法对该聚类网络模型进行模型解释，以此获得特征的贡献度。

一优选实施例中，模型解释单元203基于SHAP算法思想计算特征贡献度，即通过扰动输入，计算对输出的影响，来计算特征重要性。具体来说，对于需要解释的样本集x，通过对其各个特征进行扰动，得到新的样本集x’；两样本经过聚类网络模型可以分别得到各自的预测值F(x)和F(x’)，根据F(x)和F(x’)的差别，计算Shapley值，则可以获得各个特征的贡献度。

另一优选实施例中，模型解释单元203基于Smooth算法的思想，即根据梯度计算特征重要性，通过计算聚类结果对于特征的敏感度获得特征贡献度，即

其中，res_i表示特征贡献度，F(x)表示聚类网络模型。

标志基因识别单元204，根据特征贡献度，识别标志基因。根据模型解释的结果能够得到原数据中的重要特征，从而获得影响表达的标志基因。

图4为一实施例中聚类网络模型的结构示意图。本实施例中，从样本细胞检测得到p个基因，通过训练一个AutoEncoder模型，可以对基因表达矩阵进行降维，获得低维表达(Embedding)。随后，在低维表达空间进行无监督聚类(Clustering)，根据数据的潜在关系聚类成簇。编码(Encoder)、低维表达(Embedding)和聚类(Clustering)构成了本实施例中的聚类网络模型，运用模型解释算法对上述模型进行解释，则可以得出对聚类结果影响的特征贡献度，提取出重要特征。

在另一实施例中，本发明提出的基因识别的系统被应用于构成疾病类型识别系统，该系统具体包括：

致病基因获取单元，应用上述标志基因识别的系统获得致病标志基因；

疾病类型识别单元，获取致病基因的表达矩阵，并应用分类模型区分疾病类型。

图5为本发明一实施例中标志基因识别的方法流程示意图，其包括：

S501，通过数据提取和预处理，获取基因表达矩阵原数据；

S502，通过聚类网络模型，获得基因表达矩阵的低维表达向量并聚类成簇；

S503，通过模型解释算法解释聚类网络模型，获得特征贡献度，特征贡献度为基因表达数据特征对聚类网络模型的聚类结果的影响程度；

S504，根据特征贡献度，识别标志基因。

图6适于用来实现本申请实施例的电子设备的计算机系统600的结构示意图。如图6所示，计算机系统600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603 中的程序而执行各种适当的动作和处理。在RAM 603中，还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610 上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读存储介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时，执行本申请的方法中限定的上述功能。需要说明的是，本申请所述的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM 或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读存储介质，该计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、 C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，并且这些单元的名称在某种情况下并不构成对该单元本身的限定。

本发明的实施例还涉及一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被计算机处理器执行时实施上文中的方法。该计算机程序包含用于执行流程图所示的方法的程序代码。需要说明的是，本申请的计算机可读介质可以是计算机可读信号介质或者计算机可读介质或者是上述两者的任意组合。

尽管结合优选实施方案具体展示和介绍了本申请的内容，但所属领域的技术人员应该明白，在不脱离所附权利要求书所限定的本申请的精神和范围内，没有做出创造性劳动的情况下，在形式上和细节上对本申请做出的各种变化，均为本申请的保护范围。

Claims

1.一种标志基因识别的系统，其特征在于，包括：

数据提取和预处理单元，配置用于数据提取和预处理，获取基因表达矩阵原数据其中Z为原数据，包括n个样本，每个样本包括p个基因的表达水平，即p个特征，z_i表示数据样本；

聚类网络模型单元，配置用于通过聚类网络模型获得所述基因表达矩阵的低维表达向量并聚类成簇，计算公式如下：

其中，Z'为低维数据，d为低维数据的维度，p>>d；

具体地，应用非监督神经网络模型将高维数据通过非线性变化投影到低维空间上，并通过训练一个AutoEncoder模型获得基因表达矩阵的低维表达；再通过聚类算法将低维表达聚类成簇；

模型解释单元，配置用于通过模型解释算法解释所述聚类网络模型，获得特征贡献度，所述特征贡献度为基因表达数据特征对所述聚类网络模型的聚类结果的影响程度,

具体地，取AutoEncoder的Encoder部分和神经化K-Means构成聚类网络模型并将样本由高维转换到低维并计算到每一类的概率，再通过模型解释算法解释所述聚类网络模型，获得特征贡献度；

所述模型解释算法包括SHAP算法和Smooth算法；

2.根据权利要求1所述的一种标志基因识别的系统，其特征在于，所述聚类网络模型单元具体包括：

降维单元，通过非监督神经网络模型，获得所述基因表达矩阵的低维表达其中Z'为低维数据，z_i'为低维数据样本，f(*)表示降维函数；

聚类单元，通过聚类算法，将所述低维表达聚类成簇。

3.根据权利要求2所述的一种标志基因识别的系统，其特征在于，所述降维单元中的非监督神经网络模型为训练后的AutoEncoder模型，所述AutoEncoder模型包括编码器(Encoder)和解码器(Decoder)，所述编码器将高维原数据输入编码为低维隐变量，所述解码器将所述低维隐变量恢复至高维。

4.根据权利要求2所述的一种标志基因识别的系统，其特征在于，所述聚类单元中的聚类算法包括神经化K-Means算法。

5.根据权利要求1所述的一种标志基因识别的系统，其特征在于，所述模型解释单元基于模型解释单元SHAP算法计算特征贡献度，具体包括：

6.根据权利要求1所述的一种标志基因识别的系统，其特征在于，所述模型解释单元基于Smooth算法计算特征贡献度，具体包括：

根据聚类结果对于特征的敏感度确定特征贡献度其中，res_i表示特征贡献度，F(x)表示聚类网络模型。

7.一种疾病类型识别的系统，其特征在于，包括：

致病基因获取单元：配置用于应用权利要求1-6任一项所述的系统获得疾病标志基因；

8.一种标志基因识别的方法，其特征在于，包括以下步骤：

S1，通过数据提取和预处理，获取基因表达矩阵原数据其中Z为原数据，包括n个样本，每个样本由p个特征组成，p即原数据的维度；

S2，通过聚类网络模型，获得所述基因表达矩阵的低维表达向量并聚类成簇，计算公式如下：

其中，Z'为低维数据，d为低维数据的维度,p>>d；

S3，通过模型解释算法解释所述聚类网络模型，获得特征贡献度，所述特征贡献度为基因表达数据特征对所述聚类网络模型的聚类结果的影响程度；

具体地，取AutoEncoder的Encoder部分和神经化K-Means构成聚类网络模型将样本由高维转换到低维并计算到每一类的概率，再通过模型解释算法解释所述聚类网络模型，获得特征贡献度；

所述模型解释算法包括SHAP算法和Smooth算法；

S4，根据所述特征贡献度，识别标志基因。

9.一种用于标志基因识别的计算机可读存储介质，其上存储有一或多个计算机程序，其特征在于，所述一或多个计算机程序被计算机处理器执行时实施权利要求8所述的方法。