CN107273931B

CN107273931B - 一种交叉渐进提取信息的生物聚类方法

Info

Publication number: CN107273931B
Application number: CN201710469402.XA
Authority: CN
Inventors: 毛华; 蔺庚梅; 杨兰珍; 王刚; 刘祎超; 边迅
Original assignee: Hebei University
Current assignee: Hebei University
Priority date: 2017-04-01
Filing date: 2017-06-20
Publication date: 2019-11-08
Anticipated expiration: 2037-06-20
Also published as: CN107273931A

Abstract

本发明提供了一种交叉渐进提取信息的生物聚类方法，包括对原始生物信息系统进行二元化和净化预处理，得到净化后的生物信息系统；将子信息系统产生生物聚类集合作为输入，依次交叉插入生物个体、生物特征，再将预处理中净化除去的生物特征与生物个体恢复到净化后的生物信息系统中，得到由原始生物信息系统产生的更新生物聚类集合、生成生物聚类集合、不变生物聚类集合及生物聚类集合。本发明对原始生物信息系统实现进行预处理，合理设置对应每个生物特征的上沿和下沿，同时考虑了生物个体和生物特征两种因素，降低了复杂度，能够得到客观的二元化生物信息系统，且无需对聚类结果重新进行准确性判断，直接得出准确的生物聚类结果。

Description

一种交叉渐进提取信息的生物聚类方法

技术领域

本发明涉及一种生物聚类方法，具体地说是一种交叉渐进提取信息的生物聚类方法。

背景技术

生物信息系统是由生物个体集合、生物特征集合及两个集合间的关系组成。该系统为人们进一步进行生物分析提供基础信息。生物聚类是人们进行生物信息表达的一种手段。每个聚类结果，即一个概念，是由两部分组成，一部分是生物个体子集合A，另一部分是生物个体子集合A拥有的公共生物特征B，此外，A和B之间的关系为：拥有公共生物特征B的生物个体子集合必为A，生物个体子集合A拥有的公共生物特征必为B。通常将生物个体子集合A称为概念的外延，公共生物特征B称为概念的内涵。

SPSS方法是进行生物信息分析的常用方法，然而，采用SPSS方法只能针对生物个体或生物特征进行聚类，从而导致聚类结果丢失很多有用信息；SPSS方法不能对原始生物信息系统进行预处理，需要用生物学方法将每一聚类结果重新进行准确性判断，同时，由于原始生物信息系统中可能存在由测量误差、基因突变等导致的错误信息，这使得应用SPSS方法得到的聚类结果是不确定的，而且可能存在误差，降低了聚类结果的准确性。

全部概念的集合称为概念集，概念之间的层次结构称为概念格。概念格可以通过Hasse图描述，图中每个结点称为一个概念，概念之间的关系用边连接表示。目前，有很多基于概念格的信息提取方法，如基于对象和属性交叉渐进模糊概念格生成算法，但尚未有将概念格的信息提取方法应用于生物聚类的相关报道。

此外，如果采用现有的基于对象和属性交叉渐进模糊概念格生成算法进行生物聚类信息提取，需要遍历全部已有的概念，而且对应每个生物特征设置的上沿与下沿是由用户主观指定的，无法确定上沿与下沿是否合适，需经多次反复指定上沿和下沿才能找到真实的生物聚类。事实上，若上沿过大而下沿过小，可导致无用信息过多；若上沿过小而下沿过大，可导致丢失很多有用信息，而在这两种情形下，应用现有方法，很难甚至不能得到真实的生物聚类。

发明内容

本发明的目的就是提供一种交叉渐进提取信息的生物聚类方法，以解决现有生物聚类方法丢失有用信息、过程复杂、准确性差以及无法确定生物聚类类型等问题。

本发明的目的是这样实现的：

一种交叉渐进提取信息的生物聚类方法，包括如下步骤：

a.将原始生物信息系统进行预处理：

a1.将进行二元化，得到二元化生物信息系统(G_m′,M_n′,R_m′×n′)；

a2.对(G_m′,M_n′,R_m′×n′)进行净化，得到净化后的生物信息系统(G_m,M_n,R_m×n)；

对于给定的原始生物信息系统G_m′是m′个生物个体构成的集合，即G_m′＝{g₁,…,g_i,…,g_m′}，(i＝1,2,…,m′,m′＝|G_m′|)，g_i为第i个生物个体；M_n′是n′个生物特征构成的集合，即M_n′＝{m₁,…,m_i,…,m_n′}，(i＝1,2,…,n′,n′＝|M_n′|)，m_i为第i个生物特征；为生物个体集合G_m′和生物特征集合M_n′间的二元关系，即

b.将子生物信息系统(G_i,M_i,R_i×i)产生的生物聚类集合L_i,i作为输入，插入第i+1个生物个体g_i+1，得到由子生物信息系统(G_i+1,M_i,R_(i+1)×i)产生的更新生物聚类集合S_i+1,1、生成生物聚类集合S_i+1,2、不变生物聚类集合S_i+1,3及生物聚类集合L_i+1,i；

c.将子生物信息系统(G_i+1,M_i,R_(i+1)×i)产生的生物聚类集合L_i+1,i作为输入，插入第i+1个生物特征m_i+1，得到由子生物信息系统(G_i+1,M_i+1,R_(i+1)×(i+1))产生的更新生物聚类集合W_i+1,1、生成生物聚类集合W_i+1,2、不变生物聚类集合W_i+1,3及生物聚类集合L_i+1,i+1；

d.交叉插入生物个体g_i+2和生物特征m_i+2，重复步骤b和c，得到由子生物信息系统(G_λ,M_λ,R_λ)产生的更新生物聚类集合W_λ,1、生成生物聚类集合W_λ,2、不变生物聚类集合W_λ,3及生物聚类集合L_λ,λ，其中λ＝min(m,n)；

e.根据生物个体总数m与生物特征总数n的大小确定是否重复步骤b或步骤c，得到由净化后的生物信息系统(G_m,M_n,R_m×n)产生的更新生物聚类、生成生物聚类集合、不变生物聚类集合及生物聚类集合L_m,n；

f.将步骤a中净化除去的生物特征与生物个体恢复到净化后的生物信息系统(G_m,M_n,R_m×n)中，得到由原始生物信息系统产生的更新生物聚类集合、生成生物聚类集合、不变生物聚类集合及生物聚类集合L_m′,_n′。

所述步骤a1将进行二元化的具体过程为：

a1.1.计算m′个生物个体拥有第i种生物特征m_i程度的平均值与标准差

a1.2.确定m′个生物个体拥有第i种生物特征m_i程度的变化范围，即下沿和上沿构成的窗口：

a1.3.依窗口对原始生物信息系统进行二元化：

当时，

当时，得到二元化生物信息系统(G_m′,M_n′,R_m′×n′)。

所述步骤a2对(G_m′,M_n′,R_m′×n′)进行净化的过程为：对二元化生物信息系统(G_m′,M_n′,R_m′×n′)中不拥有任何生物特征的生物个体、不拥有任何生物个体的生物特征、拥有全部生物特征的生物个体、拥有全部生物个体的生物特征进行删除处理；对于两个或两个以上拥有相同生物特征的生物个体，保留生物个体中的一个，将其它的生物个体进行删除处理；对于两个或两个以上拥有相同生物个体的生物特征，保留生物特征中的一个，将其它的生物特征进行删除处理，即可得到净化后的生物信息系统(G_m,M_n,R_m×n)。

在步骤b中，当i＝1时，将子生物信息系统(G₁,M₁,R_1×1)产生的生物聚类集合L_1,1作为初始输入；当i≠1时，将子生物信息系统(G_i,M_i,R_i×i)产生的生物聚类集合L_i,i作为初始输入。

在步骤b中，当i≠1时，在子生物信息系统(G_i,M_i,R_i×i)中插入第i+1个生物个体g_i+1，令g_i+1 ^*为第i+1个生物个体g_i+1所拥有的生物特征集合，具体过程如下：

b1.当时，则在L_i,i中找到概念内涵与g_i+1 ^*相交非空的所有概念，记为集合同时将中所有概念的内涵(这里每一概念内涵表示为某些生物特征组成的集合)与g_i+1 ^*相交，所得到的交集的全体记为集合其中k₀为中的元素个数，C_t是由某些生物特征组成的集合(简称生物特征子集合)；

b2.当或时，则由子生物信息系统(G_i+1,M_i,R_(i+1)×i)产生的生物聚类集合为L_i+1,i＝L_i,i，进而操作步骤c。

所述步骤b1包括如下过程：

b1.1.逐一对每个生物特征子集合在中找出概念内涵包含C_t的所有生物聚类中的最大生物聚类并对最大生物聚类进行如下判断与操作：

当时，则由最大生物聚类得到一个更新生物聚类

当不是g_i+1 ^*的子集时，则由最大生物聚类得到一个生成生物聚类

b1.2.当时，则得到一个生成生物聚类({g_i+1},g_i+1 ^*)。

b1.3.得到由子生物信息系统(G_i+1,M_i,R_(i+1)×i)产生的更新生物聚类集合S_i+1,1、生成生物聚类集合S_i+1,2、不变生物聚类集合S_i+1,3及生物聚类集合L_i+1,i，其中L_i+1,i＝S_i+1,1∪S_i+1,2∪S_i+1,3。

在所述步骤c中，将子生物信息系统(G_i+1,M_i,R_(i+1)×i)产生的生物聚类集合L_i+1,i作为输入，插入第i+1个生物特征m_i+1，令m_i+1 ^*为第i+1个生物特征m_i+1所拥有的生物个体集合，具体包括如下过程：

c1.当时，则在L_i+1,i中找到概念外延(这里每一概念外延表示为某些生物个体组成的集合)与m_i+1 ^*相交非空的所有概念，记为集合同时将中所有概念的外延与m_i+1 ^*相交，所得到的交集的全体记为集合其中l₀为中的元素个数，D_t是由某些生物个体组成的集合(简称生物个体子集合)。

c2.当或时，则由子生物信息系统(G_i+1,M_i+1,R_(i+1)×(i+1))产生的生物聚类集合为L_i+1,i+1＝L_i+1,i，进而操作步骤d。

所述步骤c1包括如下过程：

c1.1.逐一对每个生物个体子集合在中找出外延包含D_t的所有生物聚类中的最小生物聚类并对最小生物聚类进行如下判断与操作：

当时，则由最小生物聚类得到一个更新生物聚类

当不是m_i+1 ^*的子集时，则由最小生物聚类得到一个生成生物聚类

c1.2.当时，则得到一个生成生物聚类(m_i+1 ^*,{m_i+1})。

c1.3.得到由子生物信息系统(G_i+1,M_i+1,R_(i+1)×(i+1))产生的更新生物聚类集合W_i+1,1、生成生物聚类集合W_i+1,2、不变生物聚类集合W_i+1,3及生物聚类集合L_i+1,i+1，其中L_i+1,i+1＝W_i+1,1∪W_i+1,2∪W_i+1,3。

所述步骤e包括如下过程：

当m＞λ时，重复步骤b共m-λ次，得到由净化后的生物信息系统(G_m,M_n,R_m×n)产生的更新生物聚类集合S_m,1、生成生物聚类集合S_m,2、不变生物聚类集合S_m,3及生物聚类集合L_m,n；

当n＞λ时，重复步骤c共n-λ次，得到由净化后的生物信息系统(G_m,M_n,R_m×n)产生的更新生物聚类集合W_n,1、生成生物聚类集合W_n,2、不变生物聚类集合W_n,3及生物聚类集合L_m,n；

当m＝n＝λ时，则无需重复步骤b和步骤c。

所述步骤f包括如下过程：

f1.将步骤a2净化除去的每个空生物个体g，重新恢复到生物聚类的外延中，得到生物聚类

f2.将步骤a2净化除去的每个空生物特征m，重新恢复到生物聚类的内涵中，得到生物聚类

f3.将步骤a2净化除去的每个全局生物个体g，重新恢复到生物聚类集合L_m,n中每个概念(A,B)的外延中，得到生物聚类(A∪{g},B)；

f4.将步骤a2净化除去的每个全局生物特征m，重新恢复到生物聚类集合L_m,n中每个概念(A,B)的内涵中，得到生物聚类(A,B∪{m})；

f5.对于步骤a2中的等价生物个体，若生物个体g₁与g₂等价，则将满足g₁∈A的生物聚类(A,B)替换为生物聚类(A∪{g₂},B)；

f6.对于步骤a2中的等价生物特征，若生物特征m₁与m₂等价，则将满足m₁∈B的生物聚类(A,B)替换为生物聚类(A,B∪{m₂})。

本发明对原始生物信息系统进行预处理，消除了可能的冗余信息，降低了空间复杂度，而且本发明同时考虑了生物个体和生物特征两种因素，不仅不会丢失信息，而且获得的生物聚类结果还会提供更多信息，有利于生物学者进一步地进行生物信息分析。当插入新的生物个体时，仅需要遍历已有概念中的部分概念，这些概念中的内涵与新增生物个体拥有的生物特征的交集非空；当插入生物特征时，也仅需遍历已有概念中的部分概念，这些概念中的外延与新增生物特征拥有的生物个体的交集非空，缩短了寻找每个生物聚类的时间，降低了时间复杂度。

本发明对原始生物信息系统实现预处理，降低错误信息带来的影响，而且基于统计学的均值和标准差计算出的客观值设置对应每个生物特征的上沿和下沿，能够得到客观的二元化生物信息系统，反映出更加真实的生物信息，提取生物聚类信息的过程更加合理，且无需对聚类结果重新进行准确性判断，可以直接得出准确的生物聚类结果。

附图说明

图1是本发明的方法流程图。

具体实施方式

下面结合附图对本发明做进一步详细说明。

本发明受到国家自然科学基金项目资助(项目号：61572011)。

如图1所示，采用交叉渐进提取信息的生物聚类方法具体包括如下步骤：

给定原始生物信息系统其中G_m′是m′个生物个体构成的集合，简称生物个体集合，即G_m′＝{gx,∪,g_i,∪,g_m′}，(i＝1,2,…,m′,m′＝|G_m′|)，g_i为第i个生物个体；M_n′是n′个生物特征构成的集合，简称生物特征集合，即M_n′＝{m₁,…,m_i,…,m_n′}，(i＝1,2,…,n′,n′＝|M_n′|)，m_i为第i个生物特征；为生物个体集合G_m′和生物特征集合M_n′间的二元关系，即

a.将原始生物信息系统进行预处理。

a1.将进行二元化，得到二元化生物信息系统(G_m′,M_n′,R_m′×n′)，具体步骤如下：

a1.1.计算m′个生物个体拥有第i种生物特征m_i(i＝1,2,…,n′,n′＝|M_n′|)程度的平均值与标准差即其中，g_s∈G_m′，s＝1,2,…,m′，m′＝|G_m′|，是生物个体g_s拥有生物特征m_i的程度。

a1.2.确定m′个生物个体拥有第i种生物特征m_i(i＝1,2,…,n′,n′＝|M_n′|)程度的变化范围，即下沿和上沿构成的窗口：

a1.3.依窗口对原始生物信息系统进行二元化，具体过程为：

当时，

当时，得到二元化生物信息系统(G_m′,M_n′,R_m′×n′)。

a2.对(G_m′,M_n′,R_m′×n′)进行净化，得到净化后的生物信息系统(G_m,M_n,R_m×n)

通过删除二元化生物信息系统中空生物个体、空生物特征、全局生物个体、全局生物特征；保留等价生物个体中的一个生物个体，其它的生物个体删除；保留等价生物特征中的一个生物特征，其它的生物特征删除，从而降低后期计算的复杂度。具体步骤如下：

a2.1.二元化生物信息系统(G_m′,M_n′,R_m′×n′)中不拥有任何生物特征的生物个体，即空生物个体，进行删除处理；

a2.2.二元化生物信息系统(G_m′,M_n′,R_m′×n′)中不拥有任何生物个体的生物特征，即空生物特征，进行删除处理；

a2.3.二元化生物信息系统(G_m′,M_n′,R_m′×n′)中拥有全部生物特征M_n′的生物个体，即全局生物个体，进行删除处理；

a2.4.二元化生物信息系统(G_m′,M_n′,R_m′×n′)中拥有全部生物个体G_m′的生物特征，即全局生物特征，进行删除处理；

a2.5.对于两个或两个以上拥有相同生物特征的生物个体，即等价生物个体，则只保留这些生物个体中的一个，将其它的生物个体进行删除处理；

a2.6.对于两个或两个以上拥有相同生物个体的生物特征，即等价生物特征，则只保留这些生物特征中的一个，将其它的生物特征进行删除处理；

a2.7.得到净化后的生物信息系统(G_m,M_n,R_m×n)，其中m＝|G_m|，n＝|M_n|，

R_m×n＝R_m′×n′∩(G_m×M_n)。

b.在子生物信息系统(G_i,M_i,R_i×i)中插入生物个体g_i+1，得到由子生物信息系统(G_i+1,M_i,R_(i+1)×i)产生的更新生物聚类集合S_i+1,1、生成生物聚类集合S_i+1,2、不变生物聚类集合S_i+1,3及生物聚类集合L_i+1,i；

当i＝1时，将子生物信息系统(G₁,M₁,R_1×1)产生的生物聚类集合L_1,1作为初始输入；其中G₁为第1个生物个体构成的集合，即G₁＝{g₁}；M₁为第1个生物特征构成的集合，即M₁＝{m₁}；R_1×1为生物个体集合G₁与生物特征集合M₁间的二元关系，

当i≠1时，将子生物信息系统(G_i,M_i,R_i×i)产生的生物聚类集合L_i,i作为初始输入，其中G_i为前i个生物个体构成的集合，即G_i＝{g₁,g₂…,g_i}；M_i为前i个生物特征构成的集合，即M_i＝{m₁,m₂,…,m_i}；R_i×i为生物个体集合G_i与生物特征集合M_i之间的二元关系，L_i,i＝{(A₁,B₁),(A₂,B₂),…,(A_k′,B_k′)}，其中|L_i,i|＝k′，值得注意的是，每个概念是一个生物聚类，即L_i,i为k′个概念构成的集合。令g_i+1 ^*为第i+1个生物个体g_i+1所拥有的生物特征集合，S_i+1,1、S_i+1,2、S_i+1,3分别是插入生物个体g_i+1后得到的更新生物聚类集合、生成生物聚类集合、不变生物聚类集合，初始状态分别为S_i+1,3＝L_i,i，具体步骤如下：

b1.当时，则在L_i,i中找到概念内涵与g_i+1 ^*相交非空的所有概念，记为集合其中概念内涵表示为某些生物特征组成的集合，即其中同时将中所有概念的内涵与g_i+1 ^*相交，所得到的交集的全体记为集合即其中C_t是由某些生物特征组成的集合，简称生物特征子集合。

b1.1.逐一对每个生物特征子集合在中找出概念内涵包含C_t的所有生物聚类中的最大生物聚类此时其中(1≤t≤k)，对最大生物聚类进行如下判断与操作：

当时，则由最大生物聚类得到一个更新生物聚类此时

当不是g_i+1 ^*的子集时，则由最大生物聚类得到一个生成生物聚类此时

b1.2.当时，则得到一个生成生物聚类({g_i+1},g_i+1 ^*)，即

S_i+1,2＝S_i+1,2∪{({g_i+1},g_i+1 ^*)}

c.将子生物信息系统(G_i+1,M_i,R_(i+1)×i)产生的生物聚类集合L_i+1,i作为输入，插入第i+1个生物特征m_i+1，得到由子生物信息系统(G_i+1,M_i+1,R_(i+1)×(i+1))产生的更新生物聚类集合W_i+1,1、生成生物聚类集合W_i+1,2、不变生物聚类集合W_i+1,3及生物聚类集合L_i+1,i+1。

对于子生物信息系统(G_i+1,M_i,R_(i+1)×i)，G_i+1为前i+1个生物个体构成的集合，即G_i+1＝{g₁,g₂,…,g_i+1}；R_(i+1)×i为生物个体集合G_i+1与生物特征集合M_i之间的二元关系，即该系统产生的生物聚类集合L_i+1,i＝{(A₁,B₁),(A₂,B₂),…,(A_l′,B_l′)}，其中|L_i+1,i|＝l′，即L_i+1,i为l′个概念构成的集合；令m_i+1 ^*为第i+1个生物特征m_i+1所拥有的生物个体集合，W_i+1,1、W_i+1,2、W_i+1,3分别是插入生物特征m_i+1后得到的更新生物聚类集合、生成生物聚类集合、不变生物聚类集合，初始状态分别为W_i+1,3＝L_i+1,i，具体步骤如下：

c1.当时，则在L_i+1，i中找到概念外延与m_i+1 ^*相交非空的所有概念，记为集合其中概念外延表示为某些生物个体组成的集合，即其中同时将中所有概念的外延与m_i+1 ^*相交，所得到的交集的全体记为集合即其中D_t是由某些生物个体组成的集合，简称生物个体子集合。

c1.1.逐一对每个生物个体子集合在中找出外延包含D_t的所有生物聚类中的最小生物聚类此处其中对最小生物聚类进行如下判断与操作：

当时，则由最小生物聚类得到一个更新生物聚类此时

当不是m_i+1 ^*的子集时，则由最小生物聚类得到一个生成生物聚类此时

c1.2.当时，则得到一个生成生物聚类(m_i+1 ^*,{m_i+1})，即

W_i+1,2＝W_i+1,2∪{(m_i+1 ^*,{m_i+1})}。

d.交叉插入生物个体g_i+2和生物特征m_i+2，重复步骤b和c，得到由子生物信息系统(G_λ,M_λ,R_λ×λ)产生的更新生物聚类集合W_λ,1、生成生物聚类集合W_λ,2、不变生物聚类集合W_λ,3及生物聚类集合L_λ,λ，其中λ＝min(m,n)。

e.根据生物个体总数m与生物特征总数n的大小确定是否重复步骤b或步骤c，最终得到由净化后的生物信息系统(G_m,M_n,R_m×n)产生的更新生物聚类集合、生成生物聚类集合、不变生物聚类集合及生物聚类集合L_m,n，包括如下过程：

当m＝n＝λ时，则无需重复步骤b和步骤c。

f.将步骤a中净化除去的生物特征与生物个体重新恢复到净化后的生物信息系统(G_m,M_n,R_m×n)中，得到由原始生物信息系统产生的更新生物聚类集合、生成生物聚类集合、不变生物聚类集合及生物聚类集合L_m′,n′，包括如下过程：

f1.将步骤a2.1净化除去的每个空生物个体g，重新恢复到生物聚类的外延中，得到生物聚类

f2.将步骤a2.2净化除去的每个空生物特征m，重新恢复到生物聚类的内涵中，得到生物聚类

f3.将步骤a2.3净化除去的每个全局生物个体g，重新恢复到生物聚类集合L_m,n中每个概念(A,B)的外延中，得到生物聚类(A∪{g},B)；

f4.将步骤a2.4净化除去的每个全局生物特征m，重新恢复到生物聚类集合L_m,n中每个概念(A,B)的内涵中，得到生物聚类(A,B∪{m})；

f5.对于步骤a2.5中的等价生物个体，若生物个体g₁与g₂等价，则将满足g₁∈A的生物聚类(A,B)替换为生物聚类(A∪{g₂},B)；

f6.对于步骤a2.6中的等价生物特征，若生物特征m₁与m₂等价，则将满足m₁∈B的生物聚类(A,B)替换为生物聚类(A,B∪{m₂})。

实施例1

给定10头纺织娘及其9个生物特征构成原始生物信息系统(见表1)，即G₁₀＝{1,2,3,4,5,6,7,8,9,10}，M₉＝{a,b,c,d,e,f,g,h,i}，其中a代表体长，b代表翅长，c代表翅宽，d代表前胸背板长，e代表前胸背板高，f代表前足股节长，g代表中足股节长，h代表后足股节长，i代表产卵瓣长；为生物个体集合G₁₀和生物特征集合M₉间的二元关系，如表1所示。

表1原始生物信息系统

根据步骤a，对原始生物信息系统进行预处理，得到净化后的生物信息系统(G₅,M₆,R_5×6)：

根据步骤a1，首先对原始生物信息系统进行二元化，具体步骤如下：

根据步骤a1.1，计算10头纺织娘拥有每种生物特征的程度的平均值与标准差(见表1)，即：σ_a＝3.37,λ_a＝0.56；σ_b＝5.66,λ_b＝1.08；σ_c＝1.30,λ_c＝0.25；σ_d＝0.87,λ_d＝0.13；σ_e＝0.67,λ_e＝0.08；σ_f＝1.26,λ_f＝0.23；σ_g＝1.59,λ_g＝0.28；σ_h＝4.65,λ_h＝0.65；σ_i＝2.89,λ_i＝0.26。

根据步骤a1.2，确定10头纺织娘拥有每种生物特征的程度的变化范围，即对应每个生物特征的窗口：

根据步骤a1.3，由步骤a1.2得到的窗口对原始生物信息系统进行二元化，得到二元化生物信息系统(G₁₀,M₉,R_10×9)，其如表2所示。

表2二元化生物信息系统(G₁₀,M₉,R_10×9)

a

b

c

d

e

f

g

h

i

1

×

2

×

3

×

4

×

5

×

6

×

7

×

8

×

9

×

10

根据步骤a2，对二元化生物信息系统(G₁₀,M₉,R_10×9)进行净化，得到净化后的生物信息系统(G₅,M₆,R_5×6)，具体包括如下过程：

根据步骤a2.1，二元化生物信息系统(G₁₀,M₉,R_10×9)中不拥有任何生物特征的生物个体10，进行删除处理；

根据步骤a2.3，二元化生物信息系统(G₁₀,M₉,R_10×9)中拥有生物特征集合M₉的生物个体1、6、7、8，进行删除处理；

根据步骤a2.4，二元化生物信息系统(G₁₀,M₉,R_10×9)中拥有生物个体集合{2,3,4,5,9}的生物特征i，进行删除处理；

根据步骤a2.6，f和g在(G₁₀,M₉,R_10×9)中各自拥有的生物个体相同，保留f，删除g；b和d在(G₁₀,M₉,R_10×9)中各自拥有的生物个体相同，保留b，删除d；

根据步骤a2.7，得到净化后的生物信息系统(G₅,M₆,R_5×6)(见表3)，其中G₅＝{2,3,4,5,9}，M₆＝{a,b,c,e,f,h}。

表3净化后的生物信息系统(G₅,M₆,R_5×6)

a

b

c

e

f

h

2

×

3

×

4

×

5

×

9

×

根据步骤b，将子生物信息系统(G₁,M₁,R_1×1)产生的生物聚类集合L_1,1作为初始输入，其中G₁＝{2}，M₁＝{a}，L_1,1＝{({2},{a})}。插入第2个生物个体“3”，根据步骤b，得到由子生物信息系统(G₂,M₁,R_2×1)产生的更新生物聚类集合S_2,1、生成生物聚类集合S_2,2、不变生物聚类的集合S_2,3及生物聚类集合L_2,1，初始状态分别为S_2,3＝L_1,1。具体步骤如下：

由表3可知根据步骤b2，则子生物信息系统(G₂,M₁,R_2×1)产生的生物聚类集合L₂,₁＝L_1,1＝{({2},{a})}。继续执行步骤c。

将子生物信息系统(G₂,M₁,R_2×1)产生的生物聚类集合L_2,1作为输入，其中G₂＝{2,3}，M₁＝{a}，L_2,1＝{({2},{a})}。插入第2个生物特征“b”，根据步骤c，得到由子生物信息系统(G₂,M₂,R_2×2)产生的更新生物聚类集合W_2,1、生成生物聚类集合W_2,2、不变生物聚类集合W_2,3及生物聚类集合L₂₂，初始状态分别为W_2,3＝L_2,1。具体步骤如下：

由表3可知在L_2,1中，首先找到概念外延与{2,3}相交非空的所有概念集合其中同时将中所有概念的外延与{2,3}相交，所得到的交集的全体为其中

根据步骤c1.1，取在中找出外延包含{2}的所有生物聚类中的最小生物聚类即由于可得更新生物聚类({2},{a}∪{b})＝({2},{ab})，从而

W_2,1＝W_2,1∪{({2},{ab})}＝{({2},{ab})}，

根据步骤c1.2，由于则得到一个生成生物聚类(b^*,{b})＝({2,3},{b})，即W_2,2＝W_2,2∪(b^*,{b})＝{({2,3},{b})}。

根据步骤c1.3，得到由子生物信息系统(G₂,M₂,R_2×2)产生的更新生物集合W_2,1、生成生物聚类集合W_2,2、不变生物聚类集合W_2,3及生物聚类集合L_2,2，分别如下：

W_2,1＝{({2},{ab})}，W_2,2＝{({2,3},{b})}，

L_2,2＝W_2,1∪W_2,2∪W_2,3＝{({2},{ab}),{2,3},{b}}。

将子生物信息系统(G₂,M₂,R_2×2)产生的生物聚类集合L_2,2作为输入，其中G₂＝{2,3}，M₂＝{a,b}，L_2,2＝{({2},{ab}),{2,3},{b}}。插入第3个生物个体“4”，根据步骤b，得到由子生物信息系统(G₃,M₂,R_3×2)产生的更新生物聚类集合S_3,1、生成生物聚类集合S_3,2、不变生物聚类的集合S_3,3及生物聚类集合L_3,2，初始状态分别为S_3,3＝L_2,2。具体步骤如下：

由表3可知在L_2,2中，首先找到概念内涵与{a}相交非空的所有概念集合其中同时将中所有概念的内涵与{a}相交，所得到的交集的全体为其中

根据步骤b1.1，取在中找出内涵包含{a}的所有生物聚类中的最大生物聚类即由于{ab}不是{a}的子集，可得生成生物聚类({2}∪{4},{ab}∩{a})＝({2,4},{a})，从而

S_3,2＝S_3,2∪{({2,4},{a})}＝{({2,4},{a})}，S_3,3＝L_2,2。

根据步骤b1.2，由于({4},4^*)＝({4},{a})不是生成生物聚类。

根据步骤b1.3，得到由子生物信息系统(G₃,M₂,R_3×2)产生的更新生物聚类的集合S_3,1、生成生物聚类的集合S_3,2、不变生物聚类的集合S_3,3及生物聚类集合L_3,2，分别如下：

S_3,2＝{({2,4},{a})}，S_3,3＝L_2,2；

L_3,2＝S_3,1∪S_3,2∪S_3,3＝＝{({2,4},{a}),({2},{ab}),{2,3},{b}}。

将子生物信息系统(G₃,M₂,R_3×2)产生的生物聚类集合L_3,2作为输入，其中G₃＝{2,3,4}，M₂＝{a,b}，L_3,2＝{({2,4},{a}),({2},{ab}),{2,3},{b}}。插入第3个生物特征“c”，根据步骤c，得到由子生物信息系统(G₃,M₃,R_3×3)产生的更新生物聚类集合W_3,1、生成生物聚类集合W_3,2、不变生物聚类集合W_3,3及生物聚类集合L_3,3，初始状态分别为W_3,3＝L_3,2，具体步骤如下：

由表3可知在L_3,2中，首先找到概念外延与{2,4}相交非空的所有概念集合其中同时将中所有概念的外延与{2,4}相交，所得到的交集的全体为其中

根据步骤c1.1，取在中取出外延包含{2,4}的所有生物聚类中的最小生物聚类即由于可得更新生物聚类({2,4},{a}∪{c})＝({2,4},{ac})，从而

W_3,1＝W_3,1∪{({2,4},{ac})}＝{({2,4},{ac})}，

W_3,3＝L_3,2-{({2,4},{a})}＝{({2},{ab}),{2,3},{b}}。

根据步骤c1.1，取在中取出外延包含{2}的所有生物聚类中的最小生物聚类，即即由于可得更新生物聚类({2},{ab}∪{c})＝({2},{abc})，从而

W_3,1＝W_3,1∪{({2},{abc})}＝{({2,4},{ac}),({2},{abc})}，

W_3,3＝W_3,3-{({2},{ab})}＝{({2,3},{b})}。

根据步骤c1.2，(c^*,{c})＝({2,4},{c})不是生成生物聚类。

根据步骤c1.3，得到由子生物信息系统(G₃,M₃,R_3×3)产生的更新生物聚类集合W_3,1、生成生物聚类集合W_3,2、不变生物聚类集合W_3,3及生物聚类集合L_3,3，分别如下：

W_3,1＝{({2,4},{ac}),({2},{abc})}，W_3,3＝{({2,3},{b})}，

L_3,3＝W_3,1∪W_3,2∪W_3,3＝{({2,4},{ac}),({2},{abc}),({2,3},{b})}。

接下来，依次插入生物个体和生物特征：“5”，“e”，“9”，“f”，根据步骤d，重复步骤b和c，得到由子生物信息系统(G₅,M₅,R_5×5)产生的更新生物聚类集合W_5,1、生成生物聚类集合W₅,₂、不变生物聚类集合W_5,3及生物聚类集合L_5,5，分别如下：

W_5,2＝{({4,9},{aef}),({3,4,9},{ef}),({4},{acef}),({3},{bef}),({4,5},{cf})({3,4,5,9},{f})}，

W_5,3＝{({2,3,4,9},{e}),({2,4,9},{ae}),({2,4},{ace}),({2},{abce}),({2,3},{be}),({2,4,5},{c})}，

将子生物信息系统(G₅,M₅,R_5×5)产生的生物聚类集合L_5,5作为输入，其中G₅＝{2,3,4,5,9}，M₅＝{a,b,c,e,f}，

插入第6个生物特征“h”，根据步骤e，得到由子生物信息系统(G₅,M₆,R_5×6)产生的更新生物聚类集合W_6,1、生成生物聚类集合W_6,2、不变生物聚类集合W_6,3及生物聚类集合L_5,6，初始状态分别为W_6,3＝L_5,5。由于m＝5＜n＝6，需要重复步骤c共1次，具体步骤如下：

由表3知在L_5,5中首先找到概念外延与{2,3,5}相交非空的所有概念集合其中同时将中所有概念的外延与{2,3,5}相交，所得到的交集的全体为

其中

根据步骤c1.1，取D₁＝{3}，在中取出外延包含{3}的所有生物聚类中的最小生物聚类，即其中由于可得更新生物聚类为({3},{bef}∪{h})＝({3},{befh})，从而

W_6,1＝W_6,1∪{({3},{befh})}＝{({3},{befh})}，

取D₂＝{5}，在中取出外延包含{5}的最小生物聚类，即其中由于{4,5}不是{2,3,5}的子集，可得生成生物聚类({4,5}∩{2,3,5},{cf}∪{h})＝({5},{cfh})，从而

W_6,2＝W_6,2∪{({5},{cfh})}＝{({5},{cfh})}。

取D₃＝{3,5}，在中取出外延包含{3,5}的最小生物聚类由于{3,4,5,9}不是{2,3,5}的子集，可得生成生物聚类({3,4,5,9}∩{2,3,5},{f}∪{h})＝({3,5},{fh})，从而

W_6,2＝W_6,2∪{({3,5},{fh})}＝{({5},{cfh}),({3,5},{fh})}。

取D₄＝{2,3}，在中取出外延包含{2,3}的最小生物聚类其中由于可得更新生物聚类({2,3},{be}∪{h})＝({2,3},{beh})，从而

W_6,1＝W_6,1∪{({2,3},{beh})}＝{({3},{befh}),({2,3},{beh})}，

取D₅＝{2}，在中取出外延包含{2}的最小生物聚类其中由于可得更新生物聚类({2},{abce}∪{h})＝({2},{abceh})，从而

W_6,1＝W_6,1∪{({2},{abceh})}＝{({3},{befh}),({2,3},{beh}),({2},{abceh})}，

取D₆＝{2,5}，在中取出外延包含{2,5}的最小生物聚类其中由于{2,4,5}不是{2,3,5}的子集，可得生成生物聚类({2,4,5}∩{2,3,5},{c}∪{h})＝({2,5},{ch})，从而

W_6,2＝W_6,2∪{({2,5},{ch})}＝{({5},{cfh}),({3,5},{fh}),({2,5},{ch})}。

根据步骤c1.2，由于则得到一个生成生物聚类({2,3,5},{h})，即

W_6,2＝W_6,2∪{({2,3,5},{h})}＝{({5},{cfh}),({3,5},{fh}),({2,5},{ch}),({2,3,5},{h})}。

根据步骤c1.3，得到由净化后的生物信息系统(G₅,M₆,R_5×6)产生的更新生物聚类集合W_6,1、生成生物聚类集合W_6,2、不变生物聚类集合W_6,3及生物聚类集合L_5,6，分别如下：

W_6,1＝{({3},{befh}),({2,3},{beh}),({2},{abceh})}，

W_6,2＝{({5},{cfh}),({3,5},{fh}),({2,5},{ch}),({2,3,5},{h})}，

在该实施例中，通过交叉插入生物个体和生物特征：“3”，“b”，“4”，“c”,“5”，“e”，“9”，“f”，“h”，每步得到的更新、生成、不变生物聚类的集合如表4所示。值得注意的是，表4中最后一行对应的是插入最后一个生物特征“h”得到的更新、生成、不变生物聚类。

表4净化后的生物信息系统(G₅,M₆,R_5×6)交叉插入生物个体和生物特征产生的更新、生成、不变生物聚类

根据步骤f，将步骤a中净化除去的生物特征与生物个体恢复到(G₅,M₆,R_5×6)中，得到由原始生物信息系统产生的更新、生成、不变生物聚类集合，如表5所示。

表5由原始生物信息系统产生的更新、生成、不变生物聚类

实施例2

为了进一步说明本发明的实用性，该实施例采用的数据来源是河北大学螽斯研究室。该实验室人员采集广西、贵州、西藏、云南、海南、江西、湖南、浙江、台湾、重庆等地区的300头纺织娘属昆虫作为实验材料。本发明提取了57头雌性纺织娘作为生物个体集合G₅₇，以及6种纺织娘的生物特征作为生物特征集合M₆。6种生物特征分别为：前胸背板长与体长比(a)、前足股节长与体长比(b)、中足股节长与体长比(c)、后足股节长与体长比(d)、产卵瓣长与体长比(e)、翅长与翅宽比(f)。由生物个体集合G₅₇与生物特征集合M₆构成的原始生物信息系统如表6所示。

表6原始生物信息系统

根据步骤a，对原始生物信息系统进行预处理，得到净化后的生物信息系统(G₂₀,M₆,R_20×6)，见表7。

表7净化后的生物信息系统(G₂₀,M₆,R_20×6)

编号

采集地点

a

b

c

d

e

f

1

广西龙州弄岗

×

2

广西兴安塘洞

×

3

广西龙州弄岗

×

7

广西龙州弄岗

×

11

广西三联陇卡

×

12

贵州绥阳茶场

×

13

贵州绥阳白哨沟

×

15

海南五指山保护区

×

16

海南白沙鹦哥岭

×

17

贵州绥阳茶场

×

18

海南乐东尖峰岭

×

21

海南乐东尖峰岭

×

26

海南乐东尖峰岭

×

27

海南乐东尖峰岭

×

43

海南白沙鹦哥岭

×

44

海南白沙鹦哥岭

×

47

海南白沙鹦哥岭

×

49

海南昌江霸王岭

×

52

海南白沙鹦哥岭

×

56

西藏墨脱达木

×

值得注意的是，对原始生物信息系统进行二元化的过程中，会出现某些生物个体的所有生物特征都取值为0，我们称这种情形为极端情形。事实上，该极端情形极少发生。因为在极端情形下，表明生物个体拥有的所有生物特征值大于上沿或小于下沿。然而这类数据对于生物聚类信息提取而言，贡献很小，完全可以忽略不计。因此，对二元化生物信息系统进行净化时将该类生物个体进行删除。为了客观地比较本发明方法与其他方法，预先将原始生物信息系统中对应该极端情形的生物个体去掉，而后再实行本发明方法和其它方法。

根据步骤b、c、d和e，可得交叉插入生物个体和生物特征后产生的更新、生成、不变生物聚类，见表8。值得注意的是，表8中最后一行对应的是由净化后的生物信息系统(G₂₀,M₆,R_20×6)产生的更新、生成、不变生物聚类。

表8净化后的生物信息系统(G₂₀,M₆,R_20×6)交叉插入生物个体和生物特征产生的更新、生成、不变生物聚类

注：表8中“数字”表示生物个体编号(见表7)，表8中“字母”表示生物特征(亦见表7)。以下同。

最后，根据步骤f，将表8中由净化后的生物信息系统(G₂₀,M₆,R_20×6)产生的更新、生成、不变生物聚类恢复为由原始生物信息系统产生的更新、生成及不变生物聚类，见表9。

表9由原始生物信息系统产生的更新、生成、不变生物聚类

下面根据生物聚类结果，从生物学角度对其加以分析，给出其生物意义。

(1)生物意义分析之一

本发明能够很好地验证生态学中的贝格曼规律(Bergmann's rule)，即：动物生物特征随外界环境温度的差异而有所不同，而纬度差异是影响温度的最直接因素。同时也表明，同纬度地区的生物个体受相似的环境等因素的影响，其生物特征有趋同的现象。具体分析如下：

由表8可知，拥有生物特征a的生物个体有：

1,10,11,13,14,15,17,18,19,20,21,22,23,24,25,28,3,30,31,32,

33,34,35,36,38,4,41,42,46,48,49,5,50,51,52,53,54,56,57,6,7,8,9。

这些生物个体分别来自：广西龙州弄岗(1,3,4,5,6,7,8,9,10)、广西三联陇卡(11)、贵州绥阳白哨沟(13)、海南昌江坝王镇(14)、海南五指山保护区(15,30,35)、贵州绥阳茶场(17)、海南乐东尖峰岭(18,19,21,26,28,33,34,53,54)、海南琼中吊罗山(20)、海南白沙鹦哥岭(22,23,24,25,38,41,48,52)、海南昌江霸王岭东二(31,36,46,51)、海南昌江霸王岭(32,49)、海南五指山水海(42,50)、西藏墨脱达木(56)、云南高黎贡山百花岭1855m(57)。

拥有生物特征a和e的生物个体有：

10,11,15,19,20,22,23,24,25,28,3,30,31,33,34,35,36,38,4,41,

42,46,48,49,5,50,51,52,53,54,57,6,8。

这些生物个体分别来自：广西龙州弄岗(10,3,4,5,6,8)、广西三联陇卡(11)、海南五指山保护区(15,30,35)、海南乐东尖峰岭(19,28,33,34,53,54)、海南琼中吊罗山(20)、海南白沙鹦哥岭(22,23,24,25,38,41,48,52)、海南昌江霸王岭东二(31,36,46,51)、海南五指山水海(42,50)、海南昌江霸王岭(49)、云南高黎贡山百花岭1855m(57)。

拥有生物特征a、e、f的生物个体有：

15,19,20,22,23,24,28,30,31,34,4,42,46,49,50,51,53,54,6,8。

这些生物个体分别来自：广西龙州弄岗(4,6,8)、海南五指山保护区(15,30)、海南乐东尖峰岭(19,28,34,53,54)、海南琼中吊罗山(20)、海南白沙鹦哥岭(22,23,24)、海南昌江霸王岭东二(31,46,51)、海南五指山水海(42,50)、海南昌江霸王岭(49)。

拥有生物特征a、e、d、f生物个体有：

19,20,22,28,30,31,34,4,42,46,49,50,51,53,54,6,8。

这些生物个体分别来自：海南乐东尖峰岭(19,28,34,53,54)、海南琼中吊罗山(20)、海南白沙鹦哥岭(22)、海南五指山保护区(30)、海南昌江霸王岭东二(31,46,51)、广西龙州弄岗(4,6,8)、海南五指山水海(42,50)、海南昌江霸王岭(49)。

拥有生物特征a、b、c、e、d、f的生物个体有：

19,20,22,28,30,31,34,4,42,46,50,51,53,54,6,8。

这些生物个体分别来自：海南乐东尖峰岭(19,28,34,53,54)、海南琼中吊罗山(20)、海南白沙鹦哥岭(22)、海南五指山保护区(30)、海南昌江霸王岭东二(31,46,51)、广西龙州弄岗(4,6,8)、海南五指山水海(42,50)。

分析结果表明，对于采自高纬度的贵州绥阳白哨沟(年平均气温为11.5～17.5℃)的生物个体、低纬度的广西龙州(年平均气温为22℃)和海南岛(年平均气温为22℃～26℃)的生物个体，当使用特征a和e进行聚类时，所得聚类能够很好地将高维度地区(如贵州绥阳白哨沟)的生物个体与低纬度地区(如：海南五指山、海南昌江霸王岭、广西龙州三联等)的生物个体区分开。然而，随着生物特征数量的增加，同维度不同地区生物个体之间生物学特征差异并不明显。本发明能够很好地验证生态学中的贝格曼规律(Bergmann's rule)，即：动物生物特征随外界环境温度的差异而有所不同，而纬度差异是影响温度的最直接因素。同时也表明，同纬度地区的生物个体受相似的环境等因素的影响，其生物特征有趋同的现象。

(2)生物意义分析之二

一方面，确定未知生物个体的聚类类别及其重要的生物特征；另一方面，确定未知生物特征对现有生物个体的影响。

对子原始生物信息系统中(取自原始生物信息系统其中G₄＝{1,2,3,4}，M₄＝{a,b,c,d}，实施本发明方法，得到的全部生物聚类：({1,3,4},{abcd})与({1,2,3,4},{bc})。

假定生物个体“5”是未知的(其生物特征参见表6)，为了确定其聚类类别及其重要的生物特征，现将该生物个体插入到子生物信息系统中，得到子生物信息系统其中G₅＝{1,2,3,4,5}。实施本发明方法，得到产生的更新生物聚类：({1,3,4,5},{abcd})和({1,2,3,4,5},{bc})(见表10)。根据更新生物聚类的含义，可知未知生物个体“5”与生物个体集合{1,3,4}拥有相同的生物特征a,b,c,d；未知生物个体“5”与生物个体集合{1,2,3,4}拥有相同的生物特征b,c。显然，未知生物个体“5”的重要生物特征是b,c。因此本发明方法能够确定未知生物个体的聚类类别及其重要的生物特征。

假定生物特征e是未知的，为了分析该特征的重要性及对已有生物聚类的影响，现将该生物特征插入到子生物信息系统中，得到子生物信息系统其中M₅＝{a,b,c,d,e}。实施本发明方法，得到产生的生物聚类集合：

生成生物聚类集合：({3,4,5},{abcde})，({2,3,4,5},{bce})；

不变生物聚类集合：({1,3,4,5},{abcd})，({1,2,3,4,5},{bc})。

根据生成生物聚类的含义，比较这些生物聚类结果，可知未知生物特征e是相对重要的生物特征，并对原有的生物聚类产生了影响。例如，比较生物聚类({1,3,4,5},{abcd})和({3,4,5},{abcde})，显然，由于生物特征集合{abcd}中未知特征e的加入，导致相应聚类中的生物个体集合从{1,3,4,5}变为{3,4,5}，从而说明未知生物特征e是相对重要的，会对已有的生物聚类产生影响。

此外，表10中所有的生物聚类是在子原始生物信息系统的基础上，交叉插入生物个体和生物特征：“5”，“e”，“6”，“f”，“7”，“8”，“9”，“10”，“11”，实施本发明方法所得。分析表10可知，随着插入生物特征数量的增加，所得的生物聚类中均出现生物特征b、c；随着插入生物个体数量的增加，所得的生物聚类大多出现生物特征b、c。因此可以得出结论：无论生物特征和生物个体数如何变化，生物特征b、c在不同生物个体间是恒定的。因此根据生物特征b、c可以判定一个未知生物个体是否属于纺织娘。从此案例来看，本发明在筛选重要的生物特征及未知个体的正确鉴定方面，不受生物特征数及样本量的限制。

表10子原始生物信息系统中所产生的部分生物聚类

对比例1

SPSS方法是进行生物信息分析的常用方法，然而，由于SPSS(本发明选用版本19.0)的源程序代码未公开，所以这里只写出SPSS使用操作步骤。

该方法通过SPSS的Hierarchical Cluster子过程实现，具体操作如下：

第一步：从菜单上依次点选Analyze→Classify→Hierarchical Cluster命令，打开Hierarchical Cluster Analysis对话框。

第二步：在打开Hierarchical Cluster Analysis对话框中，选中所有数值型生物特征且将其移入Variable(s)栏下；并将字符型生物特征移入Label Cases by栏下作为标识；选择Cluster栏内的Cases，即做Q型聚类分析。

第三步：单击打开Statistics对话框，选择Cluster Membership栏下的Singlesolution项，并在Number of clusters框内输入聚类结果类别的个数，例如输入4，即4种聚类结果。最后单击Continue按钮，回到Hierarchical Cluster Analysis对话框。

第四步：在Hierarchical Cluster Analysis对话框中，单击打开Method子对话框，打开Cluster Method下拉框，选择其中一种聚类方法，例如Ward’s method。最后单击Continue按钮，回到Hierarchical Cluster Analysis对话框。

第五步：在Hierarchical Cluster Analysis对话框中，单击OK按钮，完成操作。

SPSS方法仅针对生物特征或生物个体进行聚类，则聚类结果或是某些生物特征的集合或是某些生物个体的集合。实施本发明方法得到的生物聚类结果同时包括某些生物特征的集合和某些生物个体的集合，即同时考虑生物特征和生物个体两个因素。显然SPSS方法和本发明方法所得的结果不同，所以无法将SPSS方法的所得结果与本发明方法的所得结果直接进行比较，而需通过人为分析的方式，将SPSS方法得到的结果与本发明方法所得的聚类结果进行比较。

下面，将SPSS方法应用于净化后的生物信息系统(G₂₀,M₆,R_20×6)(见表7)和删除极端情形下的生物个体(“45”)的原始生物信息系统，聚类结果分别如表11和表12所示。

注意：此时需选中所有数值型生物特征(即a,b,c,d,e,f)，并将其移入Variable(s)栏下；同时将字符型生物特征(编号)移入Label Cases by栏下作为标识，并在Numberof clusters框内输入10，即将生物个体分为10类。

表11

案例	10群集	案例	10群集	案例	10群集	案例	10群集
								1	1	12	6	18	8	44	9
2	2	13	3	21	1	47	2
								3	3	15	5	26	6	49	10
7	4	16	7	27	2	52	5
								11	5	17	8	43	6	56	1

表12

案例	10群集	案例	10群集	案例	10群集	案例	10群集	案例	10群集	案例	10群集
												1	1	11	4	21	7	31	6	41	8	52	7
2	2	12	5	22	6	32	8	42	2	53	2
												3	3	13	4	23	6	33	4	43	2	54	6
4	1	14	2	24	2	34	2	44	3	55	6
												5	3	15	2	25	3	35	8	46	8	56	8
6	1	16	6	26	2	36	8	47	3	57	9
												7	1	17	2	27	6	37	6	48	9
8	1	18	2	28	2	38	8	49	10
												9	1	19	2	29	6	39	6	50	2
10	3	20	6	30	8	40	6	51	8

应用本发明方法与SPSS方法进行生物聚类，比较结果见表13和表14。

表13针对净化后的生物信息系统比较SPSS方法与本发明方法所得结果

表14针对原始生物信息系统比较SPSS方法与本发明方法所得结果

值得注意的是，对于原始生物信息系统，需要删除极端情形的生物个体或生物特征，并通过上沿、下沿进行二元化，进而对得到的二元化生物信息系统实施本发明方法。而对二元化数据对应的原始数据背景中的生物个体集合，即删除极端情形后的原始生物信息系统，实施SPSS方法。

通过表13可看出SPSS方法有很多不足之处，具体如下：

(1)采用SPSS方法将表7中的所有生物个体进行分组，最多可分为20组。采用本发明方法对表7中净化后的生物信息系统(G₂₀,M₆,R_20×6)进行聚类，得到的有用聚类组数为41个。从数量上可看出，本发明方法提供的生物信息量远远多于用SPSS方法所提供的生物信息量。

(2)若采用SPSS方法将表7中的生物个体集合分为10组，则不丢失数据的组数为2个，占总组数的20％，其余80％均有信息丢失，其中有5组信息丢失超过一半(即50％及以上)，占总组数的50％，占丢失信息组的63％。这些分析数据表明，由于SPSS方法自身的原因导致多数信息丢失，这也导致SPSS方法的结果不能够直接反映生物信息系统具有的信息量。

(3)表13还显示出应用SPSS方法不能够直接给出每组生物个体拥有的公共生物特征，需要研究人员用其他方法再一一找出。与此同时，表13表明本发明方法给出的生物聚类，不仅可以反映SPSS方法分组得到的生物个体，还能够将SPSS方法丢失的信息找回，而且对应SPSS方法得到的每个生物个体组所拥有的公共生物特征，也可以从本发明方法提供的结果中直接得到。这说明本发明方法完全可以反映生物信息系统所具有的聚类信息。

对于表14，同样可得到类似于表13的分析结果，这里从略。此外，由表14还可以看出，应用SPSS方法可将具有相同生物特征f的生物个体集合分为3组：(2)、(5)、(6)，而且无论哪一组都有丢失的数据。然而，应用本发明方法可将具有同一生物特征f的生物个体集合仅聚为一类，并且此聚类将所有可能的生物个体全部包含，没有丢失任何信息。这说明SPSS方法分组粗糙，本发明方法在信息聚类方面是精细的。

综上所述，本发明方法可对生物信息系统进行聚类，得到三种类型的聚类：更新生物聚类、生成生物聚类和不变生物聚类。对于提供的这些聚类信息，研究者可以根据自身所需选择所需要的生物聚类。

此外，在对生物信息系统进行分析时，有时需要考虑生物个体的来源地点，本发明方法可以将每个具体来源地点(例如某个生物个体来源于河北省保定市易县)作为一个生物特征加入到原始生物信息系统中，当某个生物个体来源于该地点时，在信息系统表中取值1，否则取值0。这样得到一个新的生物信息系统，对该新信息系统实施本发明方法，将会得到拥有生物个体来源地点的生物聚类。

Claims

1.一种交叉渐进提取信息的生物聚类方法，其特征在于，包括如下步骤：

a.将原始生物信息系统进行预处理：

a1.将进行二元化，得到二元化生物信息系统(G_m′,M_n′,R_m′×n′)；将进行二元化的具体过程为：

a1.2.确定m′个生物个体拥有第种i生物特征m_i程度的变化范围，即下沿和上沿构成的窗口：

a1.3.依窗口对原始生物信息系统进行二元化：

当时，

当时，得到二元化生物信息系统(G_m′,M_n′,R_m′×n′)；

对(G_m′,M_n′,R_m′×n′)进行净化的过程为：对二元化生物信息系统中不拥有任何生物特征的生物个体、不拥有任何生物个体的生物特征、拥有全部生物特征的生物个体、拥有全部生物个体的生物特征进行删除处理；对于两个或两个以上拥有相同生物特征的生物个体，保留生物个体中的一个，将其它的生物个体进行删除处理；对于两个或两个以上拥有相同生物个体的生物特征，保留生物特征中的一个，将其它的生物特征进行删除处理，即可得到净化后的生物信息系统；

d.交叉插入生物个体g_i+2和生物特征m_i+2，重复步骤b和c，得到由子生物信息系统(G_λ,M_λ,R_λ×λ)产生的更新生物聚类集合W_λ,1、生成生物聚类集合W_λ,2、不变生物聚类集合W_λ,3及生物聚类集合L_λ,λ，其中λ＝min(m,n)；

e.根据生物个体总数m与生物特征总数n的大小确定是否重复步骤b或步骤c，得到由净化后的生物信息系统(G_m,M_n,R_m×n)产生的更新生物聚类集合、生成生物聚类集合、不变生物聚类集合及生物聚类集合L_m,n；

f.将步骤a中净化除去的生物特征与生物个体恢复到净化后的生物信息系统(G_m,M_n,R_m×n)中，得到由原始生物信息系统产生的更新生物聚类集合、生成生物聚类集合、不变生物聚类集合及生物聚类集合L_m′,n′。

2.根据权利要求1所述的交叉渐进提取信息的生物聚类方法，其特征在于，在步骤b中，当i＝1时，将子生物信息系统(G₁,M₁,R_1×1)产生的生物聚类集合L_1,1作为初始输入；当i≠1时，将子生物信息系统(G_i,M_i,R_i×i)产生的生物聚类集合L_i,i作为初始输入。

3.根据权利要求2所述的交叉渐进提取信息的生物聚类方法，其特征在于，在步骤b中，当i≠1时，在子生物信息系统(G_i,M_i,R_i×i)中插入第i+1个生物个体g_i+1，令g_i+1 ^*为第i+1个生物个体g_i+1所拥有的生物特征集合，具体过程如下：

b1.当时，则在L_i,i中找到概念内涵与g_i+1 ^*相交非空的所有概念，记为集合其中所述概念内涵表示为某些生物特征组成的集合；同时将中所有概念的内涵与g_i+1 ^*相交，所得到的交集的全体记为集合其中，k₀为中的元素个数，C_t是由某些生物特征组成的集合，简称生物个体子集合；

4.根据权利要求3所述的交叉渐进提取信息的生物聚类方法，其特征在于，所述步骤b1包括如下过程：

b1.1.逐一对每个生物特征集合在中找出概念内涵包含C_t的所有生物聚类中的最大生物聚类并对最大生物聚类进行如下判断与操作：

当时，则由最大生物聚类得到一个更新生物聚类

b1.2.当时，则得到一个生成生物聚类({g_i+1},g_i+1 ^*)；

5.根据权利要求1所述的交叉渐进提取信息的生物聚类方法，其特征在于，在所述步骤c中，将子生物信息系统(G_i+1,M_i,R_(i+1)×i)产生的生物聚类集合L_i+1,i作为输入，插入第i+1个生物特征m_i+1，令m_i+1 ^*为第i+1个生物特征m_i+1所拥有的生物个体集合，具体包括如下过程：

c1.当时，则在L_i+1,i中找到概念外延与m_i+1 ^*相交非空的所有概念，记为集合其中所述概念外延表示为某些生物个体组成的集合；同时将中所有概念的外延与m_i+1 ^*相交，所得到的交集的全体记为集合其中l₀为中的元素个数，D_t是由某些生物个体组成的集合，简称生物个体子集合；

6.根据权利要求5所述的交叉渐进提取信息的生物聚类方法，其特征在于，所述步骤c1包括如下过程：

c1.1.逐一对每个生物个体集合在中找出外延包含D_t的所有生物聚类中的最小生物聚类并对最小生物聚类进行如下判断与操作：

当时，则由最小生物聚类得到一个更新生物聚类

c1.2.当时，则得到一个生成生物聚类(m_i+1 ^*,{m_i+1})；

c1.3.得到由子生物信息系统(G_i+1,M_i+1,R_(i+1)×(i+1))产生的更新生物聚类集合W_i+1,1、生成生物聚类集合W_i+1,2、不变生物聚类集合W_i+1,3及生物聚类集合L_i+1,i+1，其中

7.根据权利要求1所述的交叉渐进提取信息的生物聚类方法，其特征在于，所述步骤e包括如下过程：

当m＝n＝λ时，则无需重复步骤b和步骤c。

8.根据权利要求1所述的交叉渐进提取信息的生物聚类方法，其特征在于，所述步骤f包括如下过程：