CN105469108B

CN105469108B - 基于生物学数据的聚类方法及系统、聚类结果评价方法及系统

Info

Publication number: CN105469108B
Application number: CN201510795928.8A
Authority: CN
Inventors: 王莹莹; 蔡云鹏
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2015-11-17
Filing date: 2015-11-17
Publication date: 2019-04-05
Anticipated expiration: 2035-11-17
Also published as: CN105469108A

Abstract

本发明提供了一种基于生物学数据的聚类方法，包括如下步骤：数据获取步骤、数据分类步骤、距离计算步骤以及聚类步骤。本发明还提供了一种基于生物学数据的聚类结果评价方法，包括如下步骤：获取聚类结果的步骤、计算聚类评价分数的步骤、转换聚类评价分数的步骤以及集成决策的步骤。本发明还提供了一种基于生物学数据的聚类系统以及一种基于生物学数据的聚类结果评价系统。本发明的基于生物学数据的聚类方法及系统、聚类结果评价方法及系统，提高了聚类结果的生物学应用价值，实用性强。

Description

基于生物学数据的聚类方法及系统、聚类结果评价方法及系统

技术领域

本发明涉及聚类分析技术领域，特别是涉及一种基于生物学数据的聚类方法及系统、聚类结果评价方法及系统。

背景技术

随着生物学数据的大量涌现，如何快速合理的分析各类不同的生物学数据成为目前生物学相关领域的热点和难点问题。以基因分析为例，目前的技术可以一次性同时检测几万个基因的表达值，并可通过各种途径获取基因的序列信息、功能信息等。因此，如何将众多的基因进行聚类及分析，挖掘出具有生物学意义的基因是该领域的重要研究方向之一。常用的方法是利用机器学习领域的聚类方法，但是一般的聚类方法仅从计算角度出发进行聚类和聚类结果的评价，而忽略了生物学数据本身的含义，从而导致聚类结果不具备实际应用价值，聚类结果的应用性低。

发明内容

鉴于现有技术的现状，本发明的目的在于提供一种基于生物学数据的聚类方法及系统、聚类结果评价方法及系统，提高了聚类结果的生物学应用价值，实用性强。

为实现上述目的，本发明采用如下技术方案：

一种基于生物学数据的聚类方法，包括如下步骤：

数据获取步骤：获取包含多个生物样本的原始生物学数据，每个所述生物样本均包含一种或多种生物学特征，每种所述生物学特征的信息类型包括表达值、序列信息以及功能信息中的一种或多种；

数据分类步骤：根据每个所述生物样本具有的生物学特征的信息类型，将所述原始生物学数据的多个生物样本分为不同组别，至少包括有表达值的生物样本数据、有序列信息的生物样本数据以及有功能信息的生物样本数据，每组生物样本数据采用矩阵形式进行表达，其中，矩阵的行表示生物学特征，矩阵的列表示生物学样本；

距离计算步骤：根据每组的生物样本数据具有的生物学特征的信息类型选择不同的距离计算方式，分别计算每组生物样本数据中多个所述生物样本之间的距离，将计算获得的每组生物样本数据中的多个所述生物样本之间的距离形成距离矩阵；

聚类步骤：根据所述距离矩阵，分别对每组生物样本数据中的多个生物样本采用层次聚类方法进行聚类。

在其中一个实施例中，在所述距离计算步骤之前还包括采用如下步骤对有表达值的生物样本数据进行标准化：

根据所述有表达值的生物样本数据中多个所述生物样本对应的表达值的数据类型，将所述有表达值的生物样本数据采用矩阵形式进行表达，获得表达矩阵，并对所述表达矩阵进行标准化，其中，所述表达矩阵的行表示所述生物样本对应的表达值，所述表达矩阵的列表示所述生物学样本，所述数据类型包括离散型数据和连续型数据。

在其中一个实施例中，所述对所述表达矩阵进行标准化的步骤包括：

当所述数据类型为离散型数据时，剔除所述表达矩阵中的特定行，并将所述表达矩阵中除所述特定行以外的剩余行的表达值缺失处补充为0，形成第一表达矩阵，其中所述特定行为表达值缺失程度大于或等于第一阈值的行；

对所述第一表达矩阵分别进行行标准化和列标准化，获得标准化后的有表达值的生物样本数据。

当所述数据类型为连续型数据时，剔除所述表达矩阵中的特定行，并将所述表达矩阵中除所述特定行以外的剩余行的表达值缺失处补充为预设数据，形成第二表达矩阵，其中，所述特定行为表达值缺失程度大于或等于第二阈值的行；所述预设数据为零、所述表达矩阵中所有表达值的几何平均值、所述表达矩阵中所有表达值的算术平均值或所述表达矩阵中所有表达值的中位数；

对所述第二表达矩阵分别进行行标准化和列标准化，获得标准化后的有表达值的生物样本数据。

在其中一个实施例中，在所述距离计算步骤中，将计算获得的所述有表达值的生物样本数据中的多个所述生物样本之间的距离形成距离矩阵形成所述距离矩阵的步骤包括：

计算任意两个所述生物样本之间的距离，获得所述距离矩阵；其中，任意两个生物样本之间的距离计算方式为两种以上，获得的所述距离矩阵为两个以上。

在其中一个实施例中，在所述距离计算步骤之前还包括采用如下步骤对有序列信息的生物样本数据进行序列对比的步骤：

根据所述有序列信息的生物样本数据中多个所述生物样本具有的序列特征将多个所述生物样本分为两组以上，其中，所述生物样本的序列特征包括核酸序列特征以及蛋白质/氨基酸序列特征；

针对每组所述生物样本选择不同的替换矩阵，并选择至少两种以上的序列对比算法进行序列对比，获得两个以上序列对比结果。

在其中一个实施例中，在所述距离计算步骤中，将计算获得的所述有序列信息的生物样本数据中的多个所述生物样本之间的距离形成所述距离矩阵的步骤包括：

针对每个所述序列对比结果计算任意两个生物样本的第一相似性得分；

分别根据所述第一相似性得分计算任意两个所述生物样本之间的第一距离分数，每个所述序列对比结果对应的多个所述第一距离分数形成所述距离矩阵；

其中，所述第一距离分数＝1-所述第一相似性得分。

在其中一个实施例中，在所述距离计算步骤之前还包括采用如下步骤对所述有功能信息的生物样本数据进行分组：

根据所述有功能信息的生物样本数据中的多个所述生物样本的结构特征将多个所述生物样本至少分为包含结构特征的生物样本和不包含结构特征的生物样本。

在其中一个实施例中，在距离计算步骤中，将计算获得的所述有功能信息的生物样本数据中的多个所述生物样本之间的距离形成所述距离矩阵的步骤包括：

当所述生物样本为包括结构特征的生物样本时，采用两种以上的语义相似性测度算法计算任意两个所述生物样本功能信息的节点的第二相似性得分，其中，所述语义性测度算法包括基于边的算法和基于点的算法；

分别根据每种语义相似性测度算法获得的第二相似性得分计算任意两个所述生物样本之间的第二距离分数，每种语义相似性测度算法获得的多个所述第二距离分数形成所述距离矩阵；

其中，所述第二距离分数＝1-所述第二相似性得分。

当所述生物样本为不包括结构特征的生物样本时，采用两种以上的集合相似性测度算法计算任意两个生物样本功能信息的节点的第三相似性得分；

分别根据每种集合相似性测度算法获得的所述第三相似性得分计算任意两个所述生物样本之间的第三距离分数，每种所述集合相似性测度算法获得的多个所述第三距离分数形成所述距离矩阵；

其中，所述第三距离分数＝1-所述第三相似性得分。

在其中一个实施例中，所述聚类步骤中，采用三种以上层次聚类方法进行聚类，所述层次聚类方法包括单连通层次聚类方法、完全连通层次聚类方法和平均连通层次聚类方法。

本发明还提供了一种基于生物学数据的聚类结果评价方法，包括如下步骤：

获取聚类结果的步骤：采用上述任一项所述的基于生物学数据的聚类方法分别获取每组生物样本数据具有的多个聚类结果；

计算聚类评价分数的步骤：针对每组所述生物样本数据，采用两种以上评价方式分别计算每个所述聚类结果计算的聚类评价分数，每个所述聚类结果对应获得两个以上聚类评价分数；

转换聚类评价分数的步骤：针对多个所述聚类结果，分别将采用同一种所述评价方式获得的多个所述聚类评价分数进行排秩，从而将所述聚类评价分数转换为秩次；

集成决策的步骤：针对每个所述聚类结果，计算两个以上聚类评价分数对应的秩次的平均值，获得每个所述聚类结果对应的秩次平均值；将多个聚类结果对应的秩次平均值进行总体排秩，将排名靠前的秩次平均值对应的聚类结果作为优选聚类结果。

在其中一个实施例中，计算聚类评价分数的步骤还包括如下步骤：

分别计算每个聚类结果的内部评价分数；

分别判断每个聚类结果是否具有类别信息，若是，则计算所述聚类结果的外部评价分数，若否，则执行转换聚类评价分数的步骤。

本发明还提供了一种基于生物学数据的聚类系统，包括：

数据获取模块，用于获取包含多个生物样本的原始生物学数据，每个所述生物样本均包含一种或多种生物学特征，每种所述生物学特征的信息类型包括表达值信息、序列信息以及功能信息的一种或多种；

数据分类模块，用于根据每个所述生物样本具有的生物学特征的信息类型，将所述原始生物学数据的多个生物样本分为不同组别，至少包括有表达值的生物样本数据、有序列信息的生物样本数据以及有功能信息的生物样本数据，每组生物样本数据采用矩阵形式进行表达，其中，矩阵的行表示生物学特征，矩阵的列表示生物学样本；

距离计算模块，用于针对根据每组生物样本数据具有的生物学特征的信息类型选择不同的距离计算方式，分别计算每组生物样本数据中多个所述生物样本之间的距离，将计算获得的每组生物样本数据中多个所述生物样本之间的距离形成距离矩阵；

聚类模块，用于根据所述距离矩阵，分别对每组生物样本数据中的多个生物样本采用层次聚类方法进行聚类。

本发明还提供了一种基于生物学数据的聚类结果评价系统，其特征在于，包括：

获取聚类结果模块，用于获取上述的基于生物学数据的聚类系统得出每组生物样本数据具有的多个聚类结果；

聚类结果评价模块，用于针对每组所述生物样本数据，采用两种以上评价方式分别计算每个所述聚类结果的聚类评价分数；

评价分数转换模块，用于针对多个所述聚类结果，分别将采用同一种种所述评价方式获得的多个所述聚类评价分数进行排秩，从而将所述聚类评价分数转换为秩次；

集成决策模块，用于针对每个所述聚类结果，计算两个以上聚类评价分数对应的秩次的平均值，获得每个所述聚类结果对应的秩次平均值；将多个聚类结果对应的秩次平均值进行总体排秩，将排名靠前的秩次平均值对应的聚类结果作为优选聚类结果。

本发明的有益效果是：

本发明的基于生物学数据的聚类方法及系统、聚类结果评价方法及系统，首先通过数据分类步骤将复杂的原始生物学数据分为不同的组别，然后针对每组的生物样本数据根据其具有的生物学特征的信息类型选择不同的距离计算方式，分别计算每组生物样本数据中多个生物样本之间的距离，提高了聚类结果的生物学应用价值，实用性强。同时，针对每个聚类结果采用两种以上的评价方式计算聚类评价分数，并采用集成决策的方式选择优选聚类结果，提高了聚类结果评价的精度及实用性。

附图说明

图1为本发明的基于生物学数据的聚类方法及聚类结果评价方法的基本流程图；

图2为本发明的有表达值的生物样本数据的聚类方法一实施例的流程图；

图3为本发明的有序列特征的生物样本数据的聚类方法一实施例的流程图；

图4为本发明的有功能信息的生物样本数据的聚类方法一实施例的流程图；

图5为本发明的基于生物学数据的聚类结果评价方法一实施例的流程图；

图6为本发明的基于生物学数据的聚类系统一实施例的结构框图；

图7为本发明的基于生物学数据的聚类结果评价系统一实施例的结构框图。

具体实施方式

为了使本发明的技术方案更加清楚，以下结合附图，对本发明的生物学数据的聚类方法、聚类结果评价方法及系统作进一步详细的说明。应当理解，此处所描述的具体实施例仅用以解释本发明并不用于限定本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

参见图1，本发明提供了一种基于生物学数据的聚类方法，包括如下步骤：

数据获取步骤S100：获取包含多个生物样本的原始生物学数据，每个生物样本均包一种或多种生物学特征。本实施例中，每个生物学样本包含10种以上生物学特征，其中，生物样本指的是诸如人类的血液样本、动物组织样本或植物组织样本等，多个生物样本的要求是为了保证后续的数据分析可以进行下去，以表达谱分析为例，表达谱可以用一个矩阵来表示，矩阵的行表示生物学特征，矩阵的列表示生物学样本，此处要求获取包含多个生物样本的数据即为了保证矩阵的列数大于1。生物学特征包括核酸、氨基酸以及蛋白质等。每种生物学特征的信息类型包含表达值信息、序列信息或以及功能信息中的一种或多种。

数据分类步骤S110：根据每个生物样本具有的生物学特征的信息类型，将原始生物学数据的多个生物样本分为不同的组别，至少包括有表达值的生物样本数据、有序列信息的生物样本数据以及有功能信息的生物样本数据。每组生物样本数据采用矩阵形式进行表达，其中，矩阵的行表示生物学特征，矩阵的列表示生物学样本。比如，当同一生物样本的生物学特征同时具有表达值信息、序列信息和功能信息时，针对该生物样本可以分别采用不同的距离算法计算距离，具体见距离计算步骤。

距离计算步骤S120：针对每组生物样本数据具有的生物学特征的信息类型选择不同的距离计算方式，分别计算每组生物样本数据中多个生物样本之间的距离，将计算获得的每组生物样本数据的多个生物样本之间的距离形成距离矩阵。这样提高了聚类结果的生物学应用价值，实用性强。

对每组生物样本数据进行聚类分析之前，必须首先确定每组生物样本数据中多个生物样本基于同种生物学特征的信息类型的相似程度的度量函数，根据该相似性度量函数可以将相似程度高的生物样本分为一类。在实际计算中，可以用距离代替相似的概念，相似性度量被转化为两个生物样本之间的距离。距离越小，两个生物样本越相似；反之，则两个生物样本的差异越大。

聚类步骤S130：根据距离矩阵，分别对每组生物样本数据中的多个生物样本采用层次聚类方法进行聚类。即在生物学样本的每种信息类型的层面上分别进行聚类，如将有表达值的生物样本数据的多个生物样本之间进行聚类，将有序列信息的生物样本数据的多个生物样本之间进行聚类，将有功能信息的生物样本数据的多个生物样本之间进行聚类。本实施例中，首先通过数据分类步骤将复杂的原始生物学数据分为不同的组别，针对每组的生物样本数据根据其具有的生物学特征的信息类型选择不同的距离计算方式，分别计算每组的生物样本数据中多个生物样本之间的距离，提高了聚类结果的生物学应用价值，实用性强。

其中，层次聚类方法的基本思想是先将每类生物样本数据中的n个生物样本分为n类，然后计算n类生物样本两两之间的距离，并依照此值来衡量任意两个生物样本之间的相似程度，将相似程度最高的两个生物样本合为一类，此时变为n-1类，以此类推，直至将所有生物样本合为一类为止。优选地，采用三种以上层次聚类方法进行聚类，其中层次聚类方法包括单连通层次聚类方法、完全连通层次聚类方法和平均连通层次聚类方法。

其中，单连通层次聚类方法(SL，Single-Linkage)是指：取两个类间任意两个样本间距离的最小值为类间距离：

其中，D(C₁,C₂)表示两个类C1与C2间的距离，D(X_i,X_j)表示两个类C1与C2之中任意两个样本间的距离。

完全连通方法(CL，Complete-Linkage)是指：取两个类间任意两个样本间距离的最大值为类间距离：

平均连通层次聚类方法(AL，Average-Linkage)是指：取两个类间任意两个样本间距离的平均值为类间距离：

如图2所示，作为一种可实施方式，在距离计算步骤之前还包括采用如下步骤S140对有表达值的生物样本数据进行标准化：

根据有表达值的生物样本数据中多个生物样本对应的表达值的数据类型，将有表达值的生物样本数据采用矩阵形式进行表达，获得表达矩阵，并对表达矩阵进行标准化，其中，表达矩阵的行表示生物样本对应的表达值，表达矩阵的列表示生物学样本，数据类型包括离散型数据和连续型数据。

具体地，步骤S140对表达值得生物样本数据进行标准化具体实现过程如下：

步骤S141、首先判断有表达值的生物样本数据中多个生物样本对应的表达值的数据类型是否为离散型数据，若是，则执行步骤S142，若否，则执行步骤S145。

当数据类型为离散型数据时，对表达矩阵进行标准化的步骤包括：

S142、剔除表达矩阵中的特定行，并将表达矩阵中除所述特定行以外的剩余行的表达值缺失处补充为0，形成第一表达矩阵，其中特定行是指表达值缺失程度大于或等于第一阈值的行。其中，本实施例的第一阈值优选为30％，即当表达矩阵中某一行的表达值缺失程度大于或等于30％时，则剔除该行。在其他实施例中，第一阈值还可以小于30％。

例如：表达矩阵为：

其中，a～g表示有表达值的生物样本数据中多个生物样本的表达值，×表示生物样本表达值缺失处。由于表达矩阵的第一行的表达值缺失程度为50％(大于30％)，因此，剔除表达矩阵的第一行，并将表达矩阵的第二行及第三行中表达值缺失处补充为0(即将表达矩阵中的×替换为0)，形成第一表达矩阵。第一表达矩阵如下：

S143、对第一表达矩阵分别进行行标准化和列标准化，获得标准化后的有表达值的生物样本数据。

在其他实施例中，当数据类型为连续型数据时，对表达矩阵进行标准化的步骤包括：

S145、剔除表达矩阵中的特定行，并将表达矩阵中除特定行以外的剩余行的表达值缺失处补充为预设数据，形成第二表达矩阵，其中，特定行为表达值缺失程度大于或等于第二阈值的行。其中，本实施例的第一阈值优选为30％，即当表达矩阵中某一行的表达值缺失程度大于或等于30％时，则剔除该行。此时第一阈值等于第二阈值，当然，第一阈值和第二阈值也可以取不同的值，具体视具体情况进行选择。在其他实施例中，第一阈值还可以小于30％。

本实施例中，剔除表达矩阵特定行的步骤与上述数据类型为离散型时的操作一致，此处不再赘述。与上述不同的是，此处的预设数据为零、表达矩阵中所有表达值的几何平均值、表达矩阵中所有表达值的算术平均值或表达矩阵中所有表达值的中位数的一种，可以根据具体情况进行选择，以此来具体确定第二表达矩阵。

S146、对第二表达矩阵分别进行行标准化和列标准化，获得标准化后的有表达值的生物样本数据。

较优地，在距离计算步骤中，将计算获得的有表达值的生物样本数据中的多个生物样本之间距离形成距离矩阵的步骤包括：

计算任意两个生物样本之间的距离，获得所述距离矩阵；其中，任意两个生物样本之间的距离计算方式为两种以上，获得的距离矩阵为两个以上。应当清楚的是，此处的距离计算方法包括但不限于欧式距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、马氏距离、夹角余弦、汉明距离、相关系数以及信息熵等。

如图3所示，作为一种可实施方式，在距离计算步骤之前还包括采用如下步骤S150对有序列信息的生物样本数据进行序列对比：

根据有序列信息的生物样本数据中多个生物样本具有的序列特征将多个生物样本分为两组以上，其中，生物样本的序列特征包括核酸序列特征和蛋白质序列特征。例如，将有序列信息的生物样本数据中多个生物样本分为两组，分别为具有核酸序列特征、及蛋白质/氨基酸序列特征。

针对每组生物样本选择不同的替换矩阵，并选择至少两种以上的序列对比算法进行序列对比，获得两个以上序列对比结果。其中，替换矩阵可以采用BLOSUM系列等。序列对比算法包括但不限于双序列比对算法(Pairwise-Blast)，ESPRIT(一组可对大规模测序数据如16s rRNA进行双序列比对及物种丰度评价的算法集合)、MUSCLE(一组基于log-expectation的多序列比对算法集合)以及MAFFT(一组用于对氨基酸或者核酸序列进行多序列比对的算法集合)。两个以上的序列对比结果可以通过以下两种方式获得：

(1)针对每组生物样本选择特定的替换矩阵，采用两种以上的序列对比算法进行序列对比得到。例如：替换矩阵为C1，采用ESPRIT序列对比算法与替换矩阵C1结合进行序列对比得到第一序列对比结果，MUSCLE序列对比算法与替换矩阵C1结合进行序列对比得到第二序列对比结果，以及MAFFT序列对比算法与替换矩阵C1结合进行序列对比得到第三序列对比结果。

(2)针对每组生物样本选择两种以上的替换矩阵，采用一种序列对比算法进行序列比对得到。例如，序列对比算法为ESPRIT，采用ESPRIT序列对比算法与替换矩阵C1结合进行序列对比得到第一序列对比结果；采用ESPRIT序列对比算法与替换矩阵C2结合进行序列对比得到第一序列对比结果。

在距离计算步骤中，将计算获得的有序列信息的生物样本数据的多个生物样本之间的距离形成距离矩阵的步骤包括：

S121、针对每个序列对比结果计算任意两个生物样本的第一相似性得分；

S122、分别根据第一相似性得分计算任意两个生物样本之间的第一距离分数，每个序列对比结果对应的多个第一距离分数形成距离矩阵；

其中，第一距离分数＝1-第一相似性得分。

下面举例说明针对有序列信息的生物样本数据的聚类过程：

首先输入生物学数据，本实施例中优选为蛋白质序列数据，并且通过数据分类步骤确定该蛋白质序列数据具有蛋白质序列特征。然后选择BLOSUM62替换矩阵为该蛋白质序列数据的替换矩阵，采用ESPRIT、MUSCLE以及MAFFT三种序列对比算法分别进行序列对比(即采用上述(1)的方法得到两个以上的序列对比结果)。

然后根据每个序列对比结果计算第一相似性得分，因此，第一相似性得分与序列对比结果的数量一一对应，第一相似性得分至少也为两个。然后根据“第一距离分数＝1-第一相似性得分”分别计算第一距离分数，两个以上第一距离得分形成距离矩阵。此时，获得距离矩阵的数量为3个。

最后，采用单连通层次聚类方法、完全连通层次聚类方法以及平均连通层次聚类方法分别根据3个距离矩阵进行聚类分析，得到9个聚类结果(3个距离矩阵*3种聚类分析方法＝9种聚类结果)。

如图4所示，作为一种可实施方式，在距离计算步骤之前还包括采用如下步骤S160对有功能信息的生物样本数据进行分组：

根据有功能信息的生物样本数据中的多个生物样本的结构特征，将多个生物样本至少分为包含结构特征的生物样本和不包含结构特征的生物样本。

较优地，在距离计算步骤S120中，将计算获得的所述有功能信息的生物样本数据中的多个所述生物样本之间的距离形成距离矩阵的步骤包括：

S123、首先分别判断有功能信息的生物样本数据中多个生物样本是否具有结构特征，其中，有功能信息的生物样本数据中生物样本的结构特征是指结构特征的本体论数据，如有功能信息的生物样本的基因本体论数据或蛋白质的本体论数据等。

S124、当生物样本为包括结构特征的生物样本时，采用两种以上的语义相似性测度算法计算任意两个生物样本功能信息的节点的第二相似性得分，多个第二相似性得分形成相似性得分矩阵，且相似性得分矩阵的数量至少为两个。其中，语义性测度算法包括基于边的算法和基于点的算法。

S125、分别根据每种语义相似性测度算法获得的第二相似性得分计算任意两个生物样本之间的第二距离分数，每种语义相似性测度算法获得的多个第二距离分数形成距离矩阵；其中，第二距离分数＝1-第二相似性得分。其具体聚类实现过程可参照有序列信息的生物样本数据的聚类过程。

S126、当生物样本为不包括结构特征的生物样本时，采用两种以上的集合相似性测度算法计算任意两个生物样本功能信息的节点的第三相似性得分。多个第二相似性得分形成相似性得分矩阵，且相似性得分矩阵的数量至少为两个。

S127、分别根据每种集合相似性测度算法获得的第三相似性得分计算任意两个生物样本之间的第三距离分数，每种集合相似性测度算法获得的多个所述第三距离分数形成距离矩阵；其中，第三距离分数＝1-第三相似性得分。其具体聚类实现过程可参照有序列信息的生物样本数据的聚类过程。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

如图6所示，本发明还提供了一种基于生物学数据的聚类系统，包括：

数据获取模块100，用于获取包含多个生物样本的原始生物学数据，每个生物样本均包含一种或多种生物学特征，每种生物学特征的信息类型包括含表达值信息、序列信息或功能信息中的一种或多种。其中，生物样本指的是血液样本、动物组织样本或植物组织样本等，每个生物样本包含至少10个生物学特征。生物学特征包括核酸、蛋白质以及氨基酸等。本实施例中，原始生物学数据可以存储在存储器中，数据获取模块与存储器连接，从而可以获得原始生物学数据。当然，数据获取模块也可以通过键盘等输入设备连接，通过外部输入的方式直接获得原始生物学数据。

数据分类模块200，用于根据每个生物样本具有的生物学特征，将原始生物学数据的多个生物样本分组，至少包括有表达值的生物样本数据、有序列信息的生物样本数据以及有功能信息的生物样本数据，每组生物样本数据采用矩阵形式进行表达，其中，矩阵的行表示生物学特征，矩阵的列表示生物学样本。为了区分每组生物样本数据，数据分类模块至少包含三个数据存储单元，每个生物样本数据存储在一个数据存储单元内，便于每组生物样本数据的距离计算。

距离计算模块300，用于针对每组生物样本数据具有的生物学特征的信息类型选择不同的距离计算方式，分别计算每组生物样本数据中多个生物样本之间的距离，将计算获得的每组生物样本数据的多个生物样本之间的距离形成距离矩阵。针对每一组生物样本数据根据其具有的生物学特征的信息类型选择不同的距离计算方式，分别计算每组生物样本数据中多个生物样本之间的距离，提高了聚类结果的生物学应用价值，实用性强。

聚类模块400，用于根据距离矩阵，分别对每组生物样本数据中的多个生物样本采用层次聚类方法进行聚类。具体的，采用三种以上层次聚类方法进行聚类，其中层次聚类方法包括单连通层次聚类方法、完全连通层次聚类方法和平均连通层次聚类方法。这样，每类生物样本数据通过距离计算步骤均获得两个以上的距离矩阵，并通过三种以上的层次聚类方法进行聚类，使得每组生物样本数据具有至少6个聚类结果，然后通过多个聚类结果的分析评价，筛选出每组生物样本数据的优选聚类结果，提高聚类分析的可靠性及精度。

本发明的基于生物学数据的聚类方法及系统，首先通过数据分类步骤将复杂的原始生物学数据进行分为不同的组别，然后针对每一组生物样本数据根据其具有的生物学特征的信息类型选择不同的距离计算方式，分别计算每组生物样本数据中多个生物样本之间的距离，提高了聚类结果的生物学应用价值，实用性强。

获取聚类结果的步骤S200：采用上述任一实施例的基于生物学数据的聚类方法分别获取每类生物样本数据具有的多个聚类结果。由于每类生物样本数据通过距离计算步骤均获得两个以上的距离矩阵，并通过三种以上的层次聚类方法进行聚类，因此，每类生物样本数据至少包括6种聚类结果。

计算聚类评价分数的步骤S210：针对每组生物样本数据，采用两种以上评价方式分别计算每个聚类结果的聚类评价分数。其中，评价方式包括内部评价方式和外部评价方式。内部评价方式包括但不限于Dunn and Dunn like Indices(邓恩以及邓恩类指数)，Davies Bouldin Index(戴维森堡丁指数/分类适确性指标)，SD Validity Index(SD验证指数)，S_Dbw Validity Index(S_Dbw验证指数)，Silhouette Width(Silhouette宽度指数)，R Squared index(R平方指数)。外部评价方式用于计算聚类结果与真实分类情况的匹配程度，包括但不限于以下算法，纯度(Purity)，标准互信息(Normalized mutualinformation)以及Rand指数(Rand index)。

转换聚类评价分数的步骤S220：针对多个聚类结果，分别将采用同一种评价方式获得的多个聚类评价分数进行排秩，从而将聚类评价分数转换为秩次，即以秩次替代聚类评价分数的数值，避免由于聚类评价分数范围不同带来无法比较的情况。其中，采用同种评价方式获得的每一个聚类评价分数对应一个聚类结果。

集成决策的步骤S230：针对每个聚类结果，计算两个以上聚类评价分数对应的秩次的平均值，获得每个聚类结果对应的秩次平均值。其中，每个聚类结果对应的秩次平均值可以是两个以上聚类评价分数的秩次的几何平均值，也可以是两个以上聚类评价分数的秩次的算术平均值等。然后将多个聚类结果对应的秩次平均值进行总体排秩，将排名靠前的秩次平均值对应的聚类结果作为优选聚类结果。本实施例中，将排名第一的秩次平均值对应的聚类结果作为优选聚类结果。在其他实施例中，优选聚类结果还可以是从秩次平均值总体排秩后的前三名中的任意一个，或者从秩次平均值总体排秩后的前四名中的任意一个等，或者是从秩次平均值总体排秩后的秩次在一定范围内任选其一等等。

例如，在上述有序列信息的生物样本数据的聚类过程中，有序列信息的生物样本数据具有9种聚类结果，分别标记为A～I。其中，每个聚类结果分别对应3种聚类评价分数，分别标记为X、Y、Z。则聚类结果A对应的聚类评价分数分别为X-a、Y-a以及Z-a，聚类结果B对应的聚类评价分数分别为X-b、Y-b以及Z-b，以此类推，聚类结果I对应的聚类评价分数分别为X-i、Y-i以及Z-i。

针对聚类评价分数X，将9个聚类结果采用第一种聚类评价方式获得的聚类评价分数X-a、X-b、X-c……X-i进行排秩，并分别标记每个聚类评价分数X-a～X-i的秩次为：

X-a	X-b	X-c	X-d	X-e	X-f	X-g	X-h	X-i
									1	3	5	9	4	2	8	7	6

即X-a的秩次为1，X-b的秩次为3、X-c的秩次为5，X-d的秩次为2，X-e的秩次为4，X-f的秩次为6，X-g的秩次为7，X-h的秩次为8，X-i的秩次为9。根据聚类评价分数，将聚类结果进行排秩，即以秩次替代聚类评价分数的数值，避免由于聚类评价分数结果范围不同带来无法比较的情况。同理，针对聚类评价分数Y，对9个聚类结果采用的第二种聚类评价方式获得的聚类评价分数Y-a～Y-i进行排秩，并分别标记每个聚类评价分数Y-a～Y-i的秩次为：

Y-a	Y-b	Y-c	Y-d	Y-e	Y-f	Y-g	Y-h	Y-i
									2	5	6	1	8	7	4	9	3

针对聚类评价分数Z，对9个聚类结果采用的第三种聚类评价方式获得的聚类评价分数Z-a～Z-i进行排秩，并分别标记每个聚类评价分数Z-a～Z-i的秩次为：

Z-a	Z-b	Z-c	Z-d	Z-e	Z-f	Z-g	Z-h	Z-i
									3	4	7	9	1	2	8	5	6

然后，针对聚类结果A，计算其对应的三个聚类评价分数X-a、Y-a以及Z-a的算术平均值，得到聚类结果A对应的聚类评价分数的秩次平均值。即聚类结果A对应的秩次平均值A-fin＝(1+2+3)/3＝6/3，同理，分别计算聚类结果B～I对应的三个聚类评价分数的秩次平均值为，B-fin＝12/3，C-fin＝18/3，D-fin＝19/3,E-fin＝13/3，F-fin＝11/3，G-fin＝20/3，H-fin＝21/3，I-fin＝15/3。然后将获得秩次平均值A-fin～I-fin按照从大到小或从小到大等顺序进行总体排秩，本实施例中，得到的排名顺序为A-fin、F-fin、B-fin、E-fin、I-fin、C-fin、D-fin、G-fin以及H-fin。由于聚类结果A对应的秩次平均值A-fin排名第一(即排名靠前)，因此，聚类结果A为有序列信息的生物样本数据的优选聚类结果。

较优地，计算聚类评价分数的步骤还包括如下步骤：

S211、分别计算每个聚类结果的内部评价分数；

S212、分别判断每个聚类结果是否具有类别信息，若是，则执行步骤S213，计算聚类结果的外部评价分数，若否，则执行步骤S220，即执行转换聚类评价分数的步骤。其中，类别信息指的是原始生物学数据是否具有类标签，如果具有类标签也就意味着此套数据是具有聚类结果的金标准的，可以利用外部评价分数来评价。如果原始数据没有类标签，那么就要利用内部评价分数来计算。即为有无类标签都可以计算内部评价分数；有类标签才可以计算外部评价分数。若每个聚类结果不具有类别信息，则不用计算其外部评价分数，节约计算步骤及计算时间，提高了评价分数的计算效率。进一步的，此处的类标签可以用来区分疾病与正常的类别信息，也可以是用于区分疾病1与疾病2的类别信息。

下面举例说明该基于生物学数据的聚类结果的评价方法的实现过程：

获取上述基于生物学数据的聚类方法得到的9个聚类结果，然后针对每个聚类结果采用Silhouette Width内部评价方式,R Squared index内部评价方式以及标准互信息(Normalized mutual information)外部评价方式计算得到3种评价分数，即每个聚类结果具有3种聚类评价分数，每种聚类评价分数对应9个聚类结果。

然后根据每个聚类评价分数对应的9个聚类结果进行排秩，将评价分数转换为秩次，具体过程参见上述转换聚类评价分数的步骤。然后，分别计算每个聚类结果对应的3个聚类评价分数的秩次的几何平均值或算术平均值，从而获得每个聚类结果对应的秩次平均值。最后，根据每个聚类结果对应的秩次平均值对聚类结果进行总体排秩，将排名第一的秩次平均值对应的聚类结果作为优选聚类结果，具体步骤可参见上述集成决策步骤。实验证明，采用ESPRIT序列对比算法与平均连通层次聚类方法获得的聚类结果为优选聚类结果。

相应的，如图7所示，本发明还提供了一种基于生物学数据的聚类结果评价系统，包括：

获取聚类结果模块500，用于获取上述基于生物学数据的聚类系统得出每组生物样本数据具有的多个聚类结果；其中，每组生物样本数据至少具有6个聚类结果。

聚类结果评价模块600，用于针对每组生物样本数据，采用两种以上评价方式分别计算每个聚类结果计算的聚类评价分数；其中，评价方式包括内部评价方式和外部评价方式。内部评价方式包括Dunn and Dunn like Indices(邓恩以及邓恩类指数)，DaviesBouldin Index(戴维森堡丁指数/分类适确性指标)，SD Validity Index(SD验证指数)，S_Dbw Validity Index(S_Dbw验证指数)，Silhouette Width(Silhouette宽度指数)，RSquared index(R平方指数)。外部评价方式用于计算聚类结果与真实分类情况的匹配程度，包括纯度(Purity)，标准互信息(Normalized mutual information)以及Rand指数(Rand index)。

评价分数转换模块700，用于针对每个聚类结果，将每种评价方式获得的聚类评价分数进行排秩，从而将聚类评价分数转换为秩次，即以秩次替代聚类评价分数的数值，避免由于聚类评价分数范围不同带来无法比较的情况。

集成决策模块800，计算两个以上聚类评价分数秩次的平均值，获得每个聚类结果的聚类评价分数秩次平均值；然后将多个聚类结果对应的聚类评价分数秩次平均值进行总体排秩，将排名靠前的聚类评价分数秩次平均值对应的聚类结果作为优选聚类结果。

本实施例的基于生物学数据的聚类结果评价方法，针对每个聚类结果采用两种以上的评价方式计算聚类评价分数，并采用集成决策的方式选择优选聚类结果，提高了聚类结果评价的精度及实用性。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于生物学数据的聚类方法，其特征在于，包括如下步骤：

数据获取步骤：获取包含多个生物样本的原始生物学数据，每个所述生物样本均包含一种或多种生物学特征，每种所述生物学特征的信息类型包含表达值信息、序列信息以及功能信息中的一种或多种；

数据分类步骤：根据每个所述生物样本具有的生物学特征的信息类型，将所述原始生物学数据的多个所述生物样本分为不同的组别，至少包括有表达值的生物样本数据、有序列信息的生物样本数据以及有功能信息的生物样本数据，每组生物样本数据采用矩阵形式进行表达，其中，矩阵的行表示生物学特征，矩阵的列表示生物学样本；

距离计算步骤：根据每组生物样本数据具有的生物学特征的信息类型，选择不同的距离计算方式，分别计算每组生物样本数据中多个所述生物样本之间的距离，将计算获得的每组生物样本数据中的多个所述生物样本之间的距离形成距离矩阵；

其中，在所述距离计算步骤之前还包括采用如下步骤对有序列信息的生物样本数据进行序列对比的步骤：

根据所述有序列信息的生物样本数据中多个所述生物样本具有的序列特征将多个所述生物样本分为两组以上，其中，所述生物样本的序列特征包括核酸序列特征、以及蛋白质/氨基酸序列特征；针对每组所述生物样本选择不同的替换矩阵，并选择至少两种以上的序列对比算法进行序列对比，获得两个以上序列对比结果；

针对每个所述序列对比结果计算任意两个生物样本的第一相似性得分；分别根据所述第一相似性得分计算任意两个所述生物样本之间的第一距离分数，每个所述序列对比结果对应的多个所述第一距离分数形成所述距离矩阵；其中，所述第一距离分数＝1-所述第一相似性得分；

2.根据权利要求1所述的基于生物学数据的聚类方法，其特征在于，在所述距离计算步骤之前还包括采用如下步骤对有表达值的生物样本数据进行标准化：

3.根据权利要求2所述的基于生物学数据的聚类方法，其特征在于，所述对所述表达矩阵进行标准化的步骤包括：

4.根据权利要求2所述的基于生物学数据的聚类方法，其特征在于，所述对所述表达矩阵进行标准化的步骤包括：

5.根据权利要求1所述的基于生物学数据的聚类方法，其特征在于，在所述距离计算步骤中，将计算获得的所述有表达值的生物样本数据中的多个所述生物样本之间的距离形成距离矩阵步骤包括：

6.根据权利要求1所述的基于生物学数据的聚类方法，其特征在于，在所述距离计算步骤之前还包括采用如下步骤对所述有功能信息的生物样本数据进行分组：

根据所述有功能信息的生物样本数据中的多个所述生物样本的结构特征，将多个所述生物样本至少分为包含结构特征的生物样本和不包含结构特征的生物样本。

7.根据权利要求6所述的基于生物学数据的聚类方法，其特征在于，在距离计算步骤中，将计算获得的所述有功能信息的生物样本数据中的多个所述生物样本之间的距离形成所述距离矩阵的步骤包括：

当所述生物样本为包括结构特征的生物样本时，采用两种以上的语义相似性测度算法计算任意两个所述生物样本功能信息的节点的第二相似性得分，其中，所述语义相似性测度算法包括基于边的算法和基于点的算法；

其中，所述第二距离分数＝1-所述第二相似性得分。

8.根据权利要求6所述的基于生物学数据的聚类方法，其特征在于，在距离计算步骤中，将计算获得的所述有功能信息的生物样本数据中的多个所述生物样本之间的距离形成所述距离矩阵的步骤包括：

其中，所述第三距离分数＝1-所述第三相似性得分。

9.根据权利要求1所述的基于生物学数据的聚类方法，其特征在于，所述聚类步骤中，采用三种以上层次聚类方法进行聚类，所述层次聚类方法包括单连通层次聚类方法、完全连通层次聚类方法和平均连通层次聚类方法。

10.一种基于生物学数据的聚类结果评价方法，其特征在于，包括如下步骤：

获取聚类结果的步骤：采用权利要求1-9任一项所述的基于生物学数据的聚类方法分别获取每组生物样本数据具有的多个聚类结果；

计算聚类评价分数的步骤：针对每组所述生物样本数据，采用两种以上评价方式分别计算每个所述聚类结果的聚类评价分数，每个所述聚类结果对应获得两个以上聚类评价分数；

转换聚类评价分数的步骤：针对多个聚类结果，分别将采用同一种所述评价方式获得的多个所述聚类评价分数进行排秩，从而将所述聚类评价分数转换为秩次；

11.根据权利要求10所述的生物学数据的聚类结果评价方法，其特征在于，计算聚类评价分数的步骤还包括如下步骤：

分别计算每个聚类结果的内部评价分数；

12.一种基于生物学数据的聚类系统，其特征在于，包括：

数据获取模块，用于获取包含多个生物样本的原始生物学数据，每个所述生物样本均包含一种或多种生物学特征，每种所述生物学特征的信息类型包括表达值信息、序列信息以及功能信息中的一种或多种；

数据分类模块，用于根据每种所述生物样本具有的生物学特征的信息类型，将所述原始生物学数据的多个生物样本分为不同组别，至少包括有表达值的生物样本数据、有序列信息的生物样本数据以及有功能信息的生物样本数据，每组生物样本数据采用矩阵形式进行表达，其中，矩阵的行表示生物学特征，矩阵的列表示生物学样本；

距离计算模块，用于针对每组生物样本数据具有的生物学特征的信息类型选择不同的距离计算方式，分别计算每组生物样本数据中多个所述生物样本之间的距离，将计算获得的每组生物样本数据中的多个所述生物样本之间的距离形成距离矩阵；

13.一种基于生物学数据的聚类结果评价系统，其特征在于，包括：

获取聚类结果模块，用于获取权利要求12所述的基于生物学数据的聚类系统得出每组生物样本数据具有的多个聚类结果；

聚类结果评价模块，用于针对每组所述生物样本数据，采用两种以上评价方式分别计算每个所述聚类结果的聚类评价分数，每个所述聚类结果对应获得两个以上聚类评价分数；

评价分数转换模块，用于针对多个所述聚类结果，分别将采用同一种所述评价方式获得的多个所述聚类评价分数进行排秩，从而将所述聚类评价分数转换为秩次；