CN107273931B - 一种交叉渐进提取信息的生物聚类方法 - Google Patents

一种交叉渐进提取信息的生物聚类方法 Download PDF

Info

Publication number
CN107273931B
CN107273931B CN201710469402.XA CN201710469402A CN107273931B CN 107273931 B CN107273931 B CN 107273931B CN 201710469402 A CN201710469402 A CN 201710469402A CN 107273931 B CN107273931 B CN 107273931B
Authority
CN
China
Prior art keywords
biology
cluster
bion
biological
biological characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201710469402.XA
Other languages
English (en)
Other versions
CN107273931A (zh
Inventor
毛华
蔺庚梅
杨兰珍
王刚
刘祎超
边迅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hebei University
Original Assignee
Hebei University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hebei University filed Critical Hebei University
Publication of CN107273931A publication Critical patent/CN107273931A/zh
Application granted granted Critical
Publication of CN107273931B publication Critical patent/CN107273931B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Biophysics (AREA)
  • General Physics & Mathematics (AREA)
  • Epidemiology (AREA)
  • General Engineering & Computer Science (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medicines That Contain Protein Lipid Enzymes And Other Medicines (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种交叉渐进提取信息的生物聚类方法,包括对原始生物信息系统进行二元化和净化预处理,得到净化后的生物信息系统;将子信息系统产生生物聚类集合作为输入,依次交叉插入生物个体、生物特征,再将预处理中净化除去的生物特征与生物个体恢复到净化后的生物信息系统中,得到由原始生物信息系统产生的更新生物聚类集合、生成生物聚类集合、不变生物聚类集合及生物聚类集合。本发明对原始生物信息系统实现进行预处理,合理设置对应每个生物特征的上沿和下沿,同时考虑了生物个体和生物特征两种因素,降低了复杂度,能够得到客观的二元化生物信息系统,且无需对聚类结果重新进行准确性判断,直接得出准确的生物聚类结果。

Description

一种交叉渐进提取信息的生物聚类方法
技术领域
本发明涉及一种生物聚类方法,具体地说是一种交叉渐进提取信息的生物聚类方法。
背景技术
生物信息系统是由生物个体集合、生物特征集合及两个集合间的关系组成。该系统为人们进一步进行生物分析提供基础信息。生物聚类是人们进行生物信息表达的一种手段。每个聚类结果,即一个概念,是由两部分组成,一部分是生物个体子集合A,另一部分是生物个体子集合A拥有的公共生物特征B,此外,A和B之间的关系为:拥有公共生物特征B的生物个体子集合必为A,生物个体子集合A拥有的公共生物特征必为B。通常将生物个体子集合A称为概念的外延,公共生物特征B称为概念的内涵。
SPSS方法是进行生物信息分析的常用方法,然而,采用SPSS方法只能针对生物个体或生物特征进行聚类,从而导致聚类结果丢失很多有用信息;SPSS方法不能对原始生物信息系统进行预处理,需要用生物学方法将每一聚类结果重新进行准确性判断,同时,由于原始生物信息系统中可能存在由测量误差、基因突变等导致的错误信息,这使得应用SPSS方法得到的聚类结果是不确定的,而且可能存在误差,降低了聚类结果的准确性。
全部概念的集合称为概念集,概念之间的层次结构称为概念格。概念格可以通过Hasse图描述,图中每个结点称为一个概念,概念之间的关系用边连接表示。目前,有很多基于概念格的信息提取方法,如基于对象和属性交叉渐进模糊概念格生成算法,但尚未有将概念格的信息提取方法应用于生物聚类的相关报道。
此外,如果采用现有的基于对象和属性交叉渐进模糊概念格生成算法进行生物聚类信息提取,需要遍历全部已有的概念,而且对应每个生物特征设置的上沿与下沿是由用户主观指定的,无法确定上沿与下沿是否合适,需经多次反复指定上沿和下沿才能找到真实的生物聚类。事实上,若上沿过大而下沿过小,可导致无用信息过多;若上沿过小而下沿过大,可导致丢失很多有用信息,而在这两种情形下,应用现有方法,很难甚至不能得到真实的生物聚类。
发明内容
本发明的目的就是提供一种交叉渐进提取信息的生物聚类方法,以解决现有生物聚类方法丢失有用信息、过程复杂、准确性差以及无法确定生物聚类类型等问题。
本发明的目的是这样实现的:
一种交叉渐进提取信息的生物聚类方法,包括如下步骤:
a.将原始生物信息系统进行预处理:
a1.将进行二元化,得到二元化生物信息系统(Gm′,Mn′,Rm′×n′);
a2.对(Gm′,Mn′,Rm′×n′)进行净化,得到净化后的生物信息系统(Gm,Mn,Rm×n);
对于给定的原始生物信息系统Gm′是m′个生物个体构成的集合,即Gm′={g1,…,gi,…,gm′},(i=1,2,…,m′,m′=|Gm′|),gi为第i个生物个体;Mn′是n′个生物特征构成的集合,即Mn′={m1,…,mi,…,mn′},(i=1,2,…,n′,n′=|Mn′|),mi为第i个生物特征;为生物个体集合Gm′和生物特征集合Mn′间的二元关系,即
b.将子生物信息系统(Gi,Mi,Ri×i)产生的生物聚类集合Li,i作为输入,插入第i+1个生物个体gi+1,得到由子生物信息系统(Gi+1,Mi,R(i+1)×i)产生的更新生物聚类集合Si+1,1、生成生物聚类集合Si+1,2、不变生物聚类集合Si+1,3及生物聚类集合Li+1,i
c.将子生物信息系统(Gi+1,Mi,R(i+1)×i)产生的生物聚类集合Li+1,i作为输入,插入第i+1个生物特征mi+1,得到由子生物信息系统(Gi+1,Mi+1,R(i+1)×(i+1))产生的更新生物聚类集合Wi+1,1、生成生物聚类集合Wi+1,2、不变生物聚类集合Wi+1,3及生物聚类集合Li+1,i+1
d.交叉插入生物个体gi+2和生物特征mi+2,重复步骤b和c,得到由子生物信息系统(Gλ,Mλ,Rλ)产生的更新生物聚类集合Wλ,1、生成生物聚类集合Wλ,2、不变生物聚类集合Wλ,3及生物聚类集合Lλ,λ,其中λ=min(m,n);
e.根据生物个体总数m与生物特征总数n的大小确定是否重复步骤b或步骤c,得到由净化后的生物信息系统(Gm,Mn,Rm×n)产生的更新生物聚类、生成生物聚类集合、不变生物聚类集合及生物聚类集合Lm,n
f.将步骤a中净化除去的生物特征与生物个体恢复到净化后的生物信息系统(Gm,Mn,Rm×n)中,得到由原始生物信息系统产生的更新生物聚类集合、生成生物聚类集合、不变生物聚类集合及生物聚类集合Lm′,n′。
所述步骤a1将进行二元化的具体过程为:
a1.1.计算m′个生物个体拥有第i种生物特征mi程度的平均值与标准差
a1.2.确定m′个生物个体拥有第i种生物特征mi程度的变化范围,即下沿和上沿构成的窗口:
a1.3.依窗口对原始生物信息系统进行二元化:
时,
时,得到二元化生物信息系统(Gm′,Mn′,Rm′×n′)。
所述步骤a2对(Gm′,Mn′,Rm′×n′)进行净化的过程为:对二元化生物信息系统(Gm′,Mn′,Rm′×n′)中不拥有任何生物特征的生物个体、不拥有任何生物个体的生物特征、拥有全部生物特征的生物个体、拥有全部生物个体的生物特征进行删除处理;对于两个或两个以上拥有相同生物特征的生物个体,保留生物个体中的一个,将其它的生物个体进行删除处理;对于两个或两个以上拥有相同生物个体的生物特征,保留生物特征中的一个,将其它的生物特征进行删除处理,即可得到净化后的生物信息系统(Gm,Mn,Rm×n)。
在步骤b中,当i=1时,将子生物信息系统(G1,M1,R1×1)产生的生物聚类集合L1,1作为初始输入;当i≠1时,将子生物信息系统(Gi,Mi,Ri×i)产生的生物聚类集合Li,i作为初始输入。
在步骤b中,当i≠1时,在子生物信息系统(Gi,Mi,Ri×i)中插入第i+1个生物个体gi+1,令gi+1 *为第i+1个生物个体gi+1所拥有的生物特征集合,具体过程如下:
b1.当时,则在Li,i中找到概念内涵与gi+1 *相交非空的所有概念,记为集合同时将中所有概念的内涵(这里每一概念内涵表示为某些生物特征组成的集合)与gi+1 *相交,所得到的交集的全体记为集合其中k0中的元素个数,Ct是由某些生物特征组成的集合(简称生物特征子集合);
b2.当时,则由子生物信息系统(Gi+1,Mi,R(i+1)×i)产生的生物聚类集合为Li+1,i=Li,i,进而操作步骤c。
所述步骤b1包括如下过程:
b1.1.逐一对每个生物特征子集合中找出概念内涵包含Ct的所有生物聚类中的最大生物聚类并对最大生物聚类进行如下判断与操作:
时,则由最大生物聚类得到一个更新生物聚类
不是gi+1 *的子集时,则由最大生物聚类得到一个生成生物聚类
b1.2.当时,则得到一个生成生物聚类({gi+1},gi+1 *)。
b1.3.得到由子生物信息系统(Gi+1,Mi,R(i+1)×i)产生的更新生物聚类集合Si+1,1、生成生物聚类集合Si+1,2、不变生物聚类集合Si+1,3及生物聚类集合Li+1,i,其中Li+1,i=Si+1,1∪Si+1,2∪Si+1,3
在所述步骤c中,将子生物信息系统(Gi+1,Mi,R(i+1)×i)产生的生物聚类集合Li+1,i作为输入,插入第i+1个生物特征mi+1,令mi+1 *为第i+1个生物特征mi+1所拥有的生物个体集合,具体包括如下过程:
c1.当时,则在Li+1,i中找到概念外延(这里每一概念外延表示为某些生物个体组成的集合)与mi+1 *相交非空的所有概念,记为集合同时将中所有概念的外延与mi+1 *相交,所得到的交集的全体记为集合其中l0中的元素个数,Dt是由某些生物个体组成的集合(简称生物个体子集合)。
c2.当时,则由子生物信息系统(Gi+1,Mi+1,R(i+1)×(i+1))产生的生物聚类集合为Li+1,i+1=Li+1,i,进而操作步骤d。
所述步骤c1包括如下过程:
c1.1.逐一对每个生物个体子集合中找出外延包含Dt的所有生物聚类中的最小生物聚类并对最小生物聚类进行如下判断与操作:
时,则由最小生物聚类得到一个更新生物聚类
不是mi+1 *的子集时,则由最小生物聚类得到一个生成生物聚类
c1.2.当时,则得到一个生成生物聚类(mi+1 *,{mi+1})。
c1.3.得到由子生物信息系统(Gi+1,Mi+1,R(i+1)×(i+1))产生的更新生物聚类集合Wi+1,1、生成生物聚类集合Wi+1,2、不变生物聚类集合Wi+1,3及生物聚类集合Li+1,i+1,其中Li+1,i+1=Wi+1,1∪Wi+1,2∪Wi+1,3
所述步骤e包括如下过程:
当m>λ时,重复步骤b共m-λ次,得到由净化后的生物信息系统(Gm,Mn,Rm×n)产生的更新生物聚类集合Sm,1、生成生物聚类集合Sm,2、不变生物聚类集合Sm,3及生物聚类集合Lm,n
当n>λ时,重复步骤c共n-λ次,得到由净化后的生物信息系统(Gm,Mn,Rm×n)产生的更新生物聚类集合Wn,1、生成生物聚类集合Wn,2、不变生物聚类集合Wn,3及生物聚类集合Lm,n
当m=n=λ时,则无需重复步骤b和步骤c。
所述步骤f包括如下过程:
f1.将步骤a2净化除去的每个空生物个体g,重新恢复到生物聚类的外延中,得到生物聚类
f2.将步骤a2净化除去的每个空生物特征m,重新恢复到生物聚类的内涵中,得到生物聚类
f3.将步骤a2净化除去的每个全局生物个体g,重新恢复到生物聚类集合Lm,n中每个概念(A,B)的外延中,得到生物聚类(A∪{g},B);
f4.将步骤a2净化除去的每个全局生物特征m,重新恢复到生物聚类集合Lm,n中每个概念(A,B)的内涵中,得到生物聚类(A,B∪{m});
f5.对于步骤a2中的等价生物个体,若生物个体g1与g2等价,则将满足g1∈A的生物聚类(A,B)替换为生物聚类(A∪{g2},B);
f6.对于步骤a2中的等价生物特征,若生物特征m1与m2等价,则将满足m1∈B的生物聚类(A,B)替换为生物聚类(A,B∪{m2})。
本发明对原始生物信息系统进行预处理,消除了可能的冗余信息,降低了空间复杂度,而且本发明同时考虑了生物个体和生物特征两种因素,不仅不会丢失信息,而且获得的生物聚类结果还会提供更多信息,有利于生物学者进一步地进行生物信息分析。当插入新的生物个体时,仅需要遍历已有概念中的部分概念,这些概念中的内涵与新增生物个体拥有的生物特征的交集非空;当插入生物特征时,也仅需遍历已有概念中的部分概念,这些概念中的外延与新增生物特征拥有的生物个体的交集非空,缩短了寻找每个生物聚类的时间,降低了时间复杂度。
本发明对原始生物信息系统实现预处理,降低错误信息带来的影响,而且基于统计学的均值和标准差计算出的客观值设置对应每个生物特征的上沿和下沿,能够得到客观的二元化生物信息系统,反映出更加真实的生物信息,提取生物聚类信息的过程更加合理,且无需对聚类结果重新进行准确性判断,可以直接得出准确的生物聚类结果。
附图说明
图1是本发明的方法流程图。
具体实施方式
下面结合附图对本发明做进一步详细说明。
本发明受到国家自然科学基金项目资助(项目号:61572011)。
如图1所示,采用交叉渐进提取信息的生物聚类方法具体包括如下步骤:
给定原始生物信息系统其中Gm′是m′个生物个体构成的集合,简称生物个体集合,即Gm′={gx,∪,gi,∪,gm′},(i=1,2,…,m′,m′=|Gm′|),gi为第i个生物个体;Mn′是n′个生物特征构成的集合,简称生物特征集合,即Mn′={m1,…,mi,…,mn′},(i=1,2,…,n′,n′=|Mn′|),mi为第i个生物特征;为生物个体集合Gm′和生物特征集合Mn′间的二元关系,即
a.将原始生物信息系统进行预处理。
a1.将进行二元化,得到二元化生物信息系统(Gm′,Mn′,Rm′×n′),具体步骤如下:
a1.1.计算m′个生物个体拥有第i种生物特征mi(i=1,2,…,n′,n′=|Mn′|)程度的平均值与标准差其中,gs∈Gm′,s=1,2,…,m′,m′=|Gm′|,是生物个体gs拥有生物特征mi的程度。
a1.2.确定m′个生物个体拥有第i种生物特征mi(i=1,2,…,n′,n′=|Mn′|)程度的变化范围,即下沿和上沿构成的窗口:
a1.3.依窗口对原始生物信息系统进行二元化,具体过程为:
时,
时,得到二元化生物信息系统(Gm′,Mn′,Rm′×n′)。
a2.对(Gm′,Mn′,Rm′×n′)进行净化,得到净化后的生物信息系统(Gm,Mn,Rm×n)
通过删除二元化生物信息系统中空生物个体、空生物特征、全局生物个体、全局生物特征;保留等价生物个体中的一个生物个体,其它的生物个体删除;保留等价生物特征中的一个生物特征,其它的生物特征删除,从而降低后期计算的复杂度。具体步骤如下:
a2.1.二元化生物信息系统(Gm′,Mn′,Rm′×n′)中不拥有任何生物特征的生物个体,即空生物个体,进行删除处理;
a2.2.二元化生物信息系统(Gm′,Mn′,Rm′×n′)中不拥有任何生物个体的生物特征,即空生物特征,进行删除处理;
a2.3.二元化生物信息系统(Gm′,Mn′,Rm′×n′)中拥有全部生物特征Mn′的生物个体,即全局生物个体,进行删除处理;
a2.4.二元化生物信息系统(Gm′,Mn′,Rm′×n′)中拥有全部生物个体Gm′的生物特征,即全局生物特征,进行删除处理;
a2.5.对于两个或两个以上拥有相同生物特征的生物个体,即等价生物个体,则只保留这些生物个体中的一个,将其它的生物个体进行删除处理;
a2.6.对于两个或两个以上拥有相同生物个体的生物特征,即等价生物特征,则只保留这些生物特征中的一个,将其它的生物特征进行删除处理;
a2.7.得到净化后的生物信息系统(Gm,Mn,Rm×n),其中m=|Gm|,n=|Mn|,
Rm×n=Rm′×n′∩(Gm×Mn)。
b.在子生物信息系统(Gi,Mi,Ri×i)中插入生物个体gi+1,得到由子生物信息系统(Gi+1,Mi,R(i+1)×i)产生的更新生物聚类集合Si+1,1、生成生物聚类集合Si+1,2、不变生物聚类集合Si+1,3及生物聚类集合Li+1,i
当i=1时,将子生物信息系统(G1,M1,R1×1)产生的生物聚类集合L1,1作为初始输入;其中G1为第1个生物个体构成的集合,即G1={g1};M1为第1个生物特征构成的集合,即M1={m1};R1×1为生物个体集合G1与生物特征集合M1间的二元关系,
当i≠1时,将子生物信息系统(Gi,Mi,Ri×i)产生的生物聚类集合Li,i作为初始输入,其中Gi为前i个生物个体构成的集合,即Gi={g1,g2…,gi};Mi为前i个生物特征构成的集合,即Mi={m1,m2,…,mi};Ri×i为生物个体集合Gi与生物特征集合Mi之间的二元关系,Li,i={(A1,B1),(A2,B2),…,(Ak′,Bk′)},其中|Li,i|=k′,值得注意的是,每个概念是一个生物聚类,即Li,i为k′个概念构成的集合。令gi+1 *为第i+1个生物个体gi+1所拥有的生物特征集合,Si+1,1、Si+1,2、Si+1,3分别是插入生物个体gi+1后得到的更新生物聚类集合、生成生物聚类集合、不变生物聚类集合,初始状态分别为Si+1,3=Li,i,具体步骤如下:
b1.当时,则在Li,i中找到概念内涵与gi+1 *相交非空的所有概念,记为集合其中概念内涵表示为某些生物特征组成的集合,即其中同时将中所有概念的内涵与gi+1 *相交,所得到的交集的全体记为集合其中Ct是由某些生物特征组成的集合,简称生物特征子集合。
b1.1.逐一对每个生物特征子集合中找出概念内涵包含Ct的所有生物聚类中的最大生物聚类此时其中(1≤t≤k),对最大生物聚类进行如下判断与操作:
时,则由最大生物聚类得到一个更新生物聚类此时
不是gi+1 *的子集时,则由最大生物聚类得到一个生成生物聚类此时
b1.2.当时,则得到一个生成生物聚类({gi+1},gi+1 *),即
Si+1,2=Si+1,2∪{({gi+1},gi+1 *)}
b1.3.得到由子生物信息系统(Gi+1,Mi,R(i+1)×i)产生的更新生物聚类集合Si+1,1、生成生物聚类集合Si+1,2、不变生物聚类集合Si+1,3及生物聚类集合Li+1,i,其中Li+1,i=Si+1,1∪Si+1,2∪Si+1,3
b2.当时,则由子生物信息系统(Gi+1,Mi,R(i+1)×i)产生的生物聚类集合为Li+1,i=Li,i,进而操作步骤c。
c.将子生物信息系统(Gi+1,Mi,R(i+1)×i)产生的生物聚类集合Li+1,i作为输入,插入第i+1个生物特征mi+1,得到由子生物信息系统(Gi+1,Mi+1,R(i+1)×(i+1))产生的更新生物聚类集合Wi+1,1、生成生物聚类集合Wi+1,2、不变生物聚类集合Wi+1,3及生物聚类集合Li+1,i+1
对于子生物信息系统(Gi+1,Mi,R(i+1)×i),Gi+1为前i+1个生物个体构成的集合,即Gi+1={g1,g2,…,gi+1};R(i+1)×i为生物个体集合Gi+1与生物特征集合Mi之间的二元关系,即该系统产生的生物聚类集合Li+1,i={(A1,B1),(A2,B2),…,(Al′,Bl′)},其中|Li+1,i|=l′,即Li+1,i为l′个概念构成的集合;令mi+1 *为第i+1个生物特征mi+1所拥有的生物个体集合,Wi+1,1、Wi+1,2、Wi+1,3分别是插入生物特征mi+1后得到的更新生物聚类集合、生成生物聚类集合、不变生物聚类集合,初始状态分别为Wi+1,3=Li+1,i,具体步骤如下:
c1.当时,则在Li+1,i中找到概念外延与mi+1 *相交非空的所有概念,记为集合其中概念外延表示为某些生物个体组成的集合,即其中同时将中所有概念的外延与mi+1 *相交,所得到的交集的全体记为集合其中Dt是由某些生物个体组成的集合,简称生物个体子集合。
c1.1.逐一对每个生物个体子集合中找出外延包含Dt的所有生物聚类中的最小生物聚类此处其中对最小生物聚类进行如下判断与操作:
时,则由最小生物聚类得到一个更新生物聚类此时
不是mi+1 *的子集时,则由最小生物聚类得到一个生成生物聚类此时
c1.2.当时,则得到一个生成生物聚类(mi+1 *,{mi+1}),即
Wi+1,2=Wi+1,2∪{(mi+1 *,{mi+1})}。
c1.3.得到由子生物信息系统(Gi+1,Mi+1,R(i+1)×(i+1))产生的更新生物聚类集合Wi+1,1、生成生物聚类集合Wi+1,2、不变生物聚类集合Wi+1,3及生物聚类集合Li+1,i+1,其中Li+1,i+1=Wi+1,1∪Wi+1,2∪Wi+1,3
c2.当时,则由子生物信息系统(Gi+1,Mi+1,R(i+1)×(i+1))产生的生物聚类集合为Li+1,i+1=Li+1,i,进而操作步骤d。
d.交叉插入生物个体gi+2和生物特征mi+2,重复步骤b和c,得到由子生物信息系统(Gλ,Mλ,Rλ×λ)产生的更新生物聚类集合Wλ,1、生成生物聚类集合Wλ,2、不变生物聚类集合Wλ,3及生物聚类集合Lλ,λ,其中λ=min(m,n)。
e.根据生物个体总数m与生物特征总数n的大小确定是否重复步骤b或步骤c,最终得到由净化后的生物信息系统(Gm,Mn,Rm×n)产生的更新生物聚类集合、生成生物聚类集合、不变生物聚类集合及生物聚类集合Lm,n,包括如下过程:
当m>λ时,重复步骤b共m-λ次,得到由净化后的生物信息系统(Gm,Mn,Rm×n)产生的更新生物聚类集合Sm,1、生成生物聚类集合Sm,2、不变生物聚类集合Sm,3及生物聚类集合Lm,n
当n>λ时,重复步骤c共n-λ次,得到由净化后的生物信息系统(Gm,Mn,Rm×n)产生的更新生物聚类集合Wn,1、生成生物聚类集合Wn,2、不变生物聚类集合Wn,3及生物聚类集合Lm,n
当m=n=λ时,则无需重复步骤b和步骤c。
f.将步骤a中净化除去的生物特征与生物个体重新恢复到净化后的生物信息系统(Gm,Mn,Rm×n)中,得到由原始生物信息系统产生的更新生物聚类集合、生成生物聚类集合、不变生物聚类集合及生物聚类集合Lm′,n′,包括如下过程:
f1.将步骤a2.1净化除去的每个空生物个体g,重新恢复到生物聚类的外延中,得到生物聚类
f2.将步骤a2.2净化除去的每个空生物特征m,重新恢复到生物聚类的内涵中,得到生物聚类
f3.将步骤a2.3净化除去的每个全局生物个体g,重新恢复到生物聚类集合Lm,n中每个概念(A,B)的外延中,得到生物聚类(A∪{g},B);
f4.将步骤a2.4净化除去的每个全局生物特征m,重新恢复到生物聚类集合Lm,n中每个概念(A,B)的内涵中,得到生物聚类(A,B∪{m});
f5.对于步骤a2.5中的等价生物个体,若生物个体g1与g2等价,则将满足g1∈A的生物聚类(A,B)替换为生物聚类(A∪{g2},B);
f6.对于步骤a2.6中的等价生物特征,若生物特征m1与m2等价,则将满足m1∈B的生物聚类(A,B)替换为生物聚类(A,B∪{m2})。
实施例1
给定10头纺织娘及其9个生物特征构成原始生物信息系统(见表1),即G10={1,2,3,4,5,6,7,8,9,10},M9={a,b,c,d,e,f,g,h,i},其中a代表体长,b代表翅长,c代表翅宽,d代表前胸背板长,e代表前胸背板高,f代表前足股节长,g代表中足股节长,h代表后足股节长,i代表产卵瓣长;为生物个体集合G10和生物特征集合M9间的二元关系,如表1所示。
表1原始生物信息系统
根据步骤a,对原始生物信息系统进行预处理,得到净化后的生物信息系统(G5,M6,R5×6):
根据步骤a1,首先对原始生物信息系统进行二元化,具体步骤如下:
根据步骤a1.1,计算10头纺织娘拥有每种生物特征的程度的平均值与标准差(见表1),即:σa=3.37,λa=0.56;σb=5.66,λb=1.08;σc=1.30,λc=0.25;σd=0.87,λd=0.13;σe=0.67,λe=0.08;σf=1.26,λf=0.23;σg=1.59,λg=0.28;σh=4.65,λh=0.65;σi=2.89,λi=0.26。
根据步骤a1.2,确定10头纺织娘拥有每种生物特征的程度的变化范围,即对应每个生物特征的窗口:
根据步骤a1.3,由步骤a1.2得到的窗口对原始生物信息系统进行二元化,得到二元化生物信息系统(G10,M9,R10×9),其如表2所示。
表2二元化生物信息系统(G10,M9,R10×9)
a b c d e f g h i
1 × × × × × × × × ×
2 × × × × × × ×
3 × × × × × × ×
4 × × × × × ×
5 × × × × ×
6 × × × × × × × × ×
7 × × × × × × × × ×
8 × × × × × × × × ×
9 × × × × ×
10
根据步骤a2,对二元化生物信息系统(G10,M9,R10×9)进行净化,得到净化后的生物信息系统(G5,M6,R5×6),具体包括如下过程:
根据步骤a2.1,二元化生物信息系统(G10,M9,R10×9)中不拥有任何生物特征的生物个体10,进行删除处理;
根据步骤a2.3,二元化生物信息系统(G10,M9,R10×9)中拥有生物特征集合M9的生物个体1、6、7、8,进行删除处理;
根据步骤a2.4,二元化生物信息系统(G10,M9,R10×9)中拥有生物个体集合{2,3,4,5,9}的生物特征i,进行删除处理;
根据步骤a2.6,f和g在(G10,M9,R10×9)中各自拥有的生物个体相同,保留f,删除g;b和d在(G10,M9,R10×9)中各自拥有的生物个体相同,保留b,删除d;
根据步骤a2.7,得到净化后的生物信息系统(G5,M6,R5×6)(见表3),其中G5={2,3,4,5,9},M6={a,b,c,e,f,h}。
表3净化后的生物信息系统(G5,M6,R5×6)
a b c e f h
2 × × × × ×
3 × × × ×
4 × × × ×
5 × × ×
9 × × ×
根据步骤b,将子生物信息系统(G1,M1,R1×1)产生的生物聚类集合L1,1作为初始输入,其中G1={2},M1={a},L1,1={({2},{a})}。插入第2个生物个体“3”,根据步骤b,得到由子生物信息系统(G2,M1,R2×1)产生的更新生物聚类集合S2,1、生成生物聚类集合S2,2、不变生物聚类的集合S2,3及生物聚类集合L2,1,初始状态分别为S2,3=L1,1。具体步骤如下:
由表3可知根据步骤b2,则子生物信息系统(G2,M1,R2×1)产生的生物聚类集合L2,1=L1,1={({2},{a})}。继续执行步骤c。
将子生物信息系统(G2,M1,R2×1)产生的生物聚类集合L2,1作为输入,其中G2={2,3},M1={a},L2,1={({2},{a})}。插入第2个生物特征“b”,根据步骤c,得到由子生物信息系统(G2,M2,R2×2)产生的更新生物聚类集合W2,1、生成生物聚类集合W2,2、不变生物聚类集合W2,3及生物聚类集合L22,初始状态分别为W2,3=L2,1。具体步骤如下:
由表3可知在L2,1中,首先找到概念外延与{2,3}相交非空的所有概念集合其中同时将中所有概念的外延与{2,3}相交,所得到的交集的全体为其中
根据步骤c1.1,取中找出外延包含{2}的所有生物聚类中的最小生物聚类由于可得更新生物聚类({2},{a}∪{b})=({2},{ab}),从而
W2,1=W2,1∪{({2},{ab})}={({2},{ab})},
根据步骤c1.2,由于则得到一个生成生物聚类(b*,{b})=({2,3},{b}),即W2,2=W2,2∪(b*,{b})={({2,3},{b})}。
根据步骤c1.3,得到由子生物信息系统(G2,M2,R2×2)产生的更新生物集合W2,1、生成生物聚类集合W2,2、不变生物聚类集合W2,3及生物聚类集合L2,2,分别如下:
W2,1={({2},{ab})},W2,2={({2,3},{b})},
L2,2=W2,1∪W2,2∪W2,3={({2},{ab}),{2,3},{b}}。
将子生物信息系统(G2,M2,R2×2)产生的生物聚类集合L2,2作为输入,其中G2={2,3},M2={a,b},L2,2={({2},{ab}),{2,3},{b}}。插入第3个生物个体“4”,根据步骤b,得到由子生物信息系统(G3,M2,R3×2)产生的更新生物聚类集合S3,1、生成生物聚类集合S3,2、不变生物聚类的集合S3,3及生物聚类集合L3,2,初始状态分别为S3,3=L2,2。具体步骤如下:
由表3可知在L2,2中,首先找到概念内涵与{a}相交非空的所有概念集合其中同时将中所有概念的内涵与{a}相交,所得到的交集的全体为其中
根据步骤b1.1,取中找出内涵包含{a}的所有生物聚类中的最大生物聚类由于{ab}不是{a}的子集,可得生成生物聚类({2}∪{4},{ab}∩{a})=({2,4},{a}),从而
S3,2=S3,2∪{({2,4},{a})}={({2,4},{a})},S3,3=L2,2
根据步骤b1.2,由于({4},4*)=({4},{a})不是生成生物聚类。
根据步骤b1.3,得到由子生物信息系统(G3,M2,R3×2)产生的更新生物聚类的集合S3,1、生成生物聚类的集合S3,2、不变生物聚类的集合S3,3及生物聚类集合L3,2,分别如下:
S3,2={({2,4},{a})},S3,3=L2,2
L3,2=S3,1∪S3,2∪S3,3=={({2,4},{a}),({2},{ab}),{2,3},{b}}。
将子生物信息系统(G3,M2,R3×2)产生的生物聚类集合L3,2作为输入,其中G3={2,3,4},M2={a,b},L3,2={({2,4},{a}),({2},{ab}),{2,3},{b}}。插入第3个生物特征“c”,根据步骤c,得到由子生物信息系统(G3,M3,R3×3)产生的更新生物聚类集合W3,1、生成生物聚类集合W3,2、不变生物聚类集合W3,3及生物聚类集合L3,3,初始状态分别为W3,3=L3,2,具体步骤如下:
由表3可知在L3,2中,首先找到概念外延与{2,4}相交非空的所有概念集合其中同时将中所有概念的外延与{2,4}相交,所得到的交集的全体为其中
根据步骤c1.1,取中取出外延包含{2,4}的所有生物聚类中的最小生物聚类由于可得更新生物聚类({2,4},{a}∪{c})=({2,4},{ac}),从而
W3,1=W3,1∪{({2,4},{ac})}={({2,4},{ac})},
W3,3=L3,2-{({2,4},{a})}={({2},{ab}),{2,3},{b}}。
根据步骤c1.1,取中取出外延包含{2}的所有生物聚类中的最小生物聚类,即由于可得更新生物聚类({2},{ab}∪{c})=({2},{abc}),从而
W3,1=W3,1∪{({2},{abc})}={({2,4},{ac}),({2},{abc})},
W3,3=W3,3-{({2},{ab})}={({2,3},{b})}。
根据步骤c1.2,(c*,{c})=({2,4},{c})不是生成生物聚类。
根据步骤c1.3,得到由子生物信息系统(G3,M3,R3×3)产生的更新生物聚类集合W3,1、生成生物聚类集合W3,2、不变生物聚类集合W3,3及生物聚类集合L3,3,分别如下:
W3,1={({2,4},{ac}),({2},{abc})},W3,3={({2,3},{b})},
L3,3=W3,1∪W3,2∪W3,3={({2,4},{ac}),({2},{abc}),({2,3},{b})}。
接下来,依次插入生物个体和生物特征:“5”,“e”,“9”,“f”,根据步骤d,重复步骤b和c,得到由子生物信息系统(G5,M5,R5×5)产生的更新生物聚类集合W5,1、生成生物聚类集合W5,2、不变生物聚类集合W5,3及生物聚类集合L5,5,分别如下:
W5,2={({4,9},{aef}),({3,4,9},{ef}),({4},{acef}),({3},{bef}),({4,5},{cf})({3,4,5,9},{f})},
W5,3={({2,3,4,9},{e}),({2,4,9},{ae}),({2,4},{ace}),({2},{abce}),({2,3},{be}),({2,4,5},{c})},
将子生物信息系统(G5,M5,R5×5)产生的生物聚类集合L5,5作为输入,其中G5={2,3,4,5,9},M5={a,b,c,e,f},
插入第6个生物特征“h”,根据步骤e,得到由子生物信息系统(G5,M6,R5×6)产生的更新生物聚类集合W6,1、生成生物聚类集合W6,2、不变生物聚类集合W6,3及生物聚类集合L5,6,初始状态分别为W6,3=L5,5。由于m=5<n=6,需要重复步骤c共1次,具体步骤如下:
由表3知在L5,5中首先找到概念外延与{2,3,5}相交非空的所有概念集合其中同时将中所有概念的外延与{2,3,5}相交,所得到的交集的全体为
其中
根据步骤c1.1,取D1={3},在中取出外延包含{3}的所有生物聚类中的最小生物聚类,即其中 由于可得更新生物聚类为({3},{bef}∪{h})=({3},{befh}),从而
W6,1=W6,1∪{({3},{befh})}={({3},{befh})},
取D2={5},在中取出外延包含{5}的最小生物聚类,即其中由于{4,5}不是{2,3,5}的子集,可得生成生物聚类({4,5}∩{2,3,5},{cf}∪{h})=({5},{cfh}),从而
W6,2=W6,2∪{({5},{cfh})}={({5},{cfh})}。
取D3={3,5},在中取出外延包含{3,5}的最小生物聚类 由于{3,4,5,9}不是{2,3,5}的子集,可得生成生物聚类({3,4,5,9}∩{2,3,5},{f}∪{h})=({3,5},{fh}),从而
W6,2=W6,2∪{({3,5},{fh})}={({5},{cfh}),({3,5},{fh})}。
取D4={2,3},在中取出外延包含{2,3}的最小生物聚类其中由于可得更新生物聚类({2,3},{be}∪{h})=({2,3},{beh}),从而
W6,1=W6,1∪{({2,3},{beh})}={({3},{befh}),({2,3},{beh})},
取D5={2},在中取出外延包含{2}的最小生物聚类其中由于 可得更新生物聚类({2},{abce}∪{h})=({2},{abceh}),从而
W6,1=W6,1∪{({2},{abceh})}={({3},{befh}),({2,3},{beh}),({2},{abceh})},
取D6={2,5},在中取出外延包含{2,5}的最小生物聚类其中由于{2,4,5}不是{2,3,5}的子集,可得生成生物聚类({2,4,5}∩{2,3,5},{c}∪{h})=({2,5},{ch}),从而
W6,2=W6,2∪{({2,5},{ch})}={({5},{cfh}),({3,5},{fh}),({2,5},{ch})}。
根据步骤c1.2,由于则得到一个生成生物聚类({2,3,5},{h}),即
W6,2=W6,2∪{({2,3,5},{h})}={({5},{cfh}),({3,5},{fh}),({2,5},{ch}),({2,3,5},{h})}。
根据步骤c1.3,得到由净化后的生物信息系统(G5,M6,R5×6)产生的更新生物聚类集合W6,1、生成生物聚类集合W6,2、不变生物聚类集合W6,3及生物聚类集合L5,6,分别如下:
W6,1={({3},{befh}),({2,3},{beh}),({2},{abceh})},
W6,2={({5},{cfh}),({3,5},{fh}),({2,5},{ch}),({2,3,5},{h})},
在该实施例中,通过交叉插入生物个体和生物特征:“3”,“b”,“4”,“c”,“5”,“e”,“9”,“f”,“h”,每步得到的更新、生成、不变生物聚类的集合如表4所示。值得注意的是,表4中最后一行对应的是插入最后一个生物特征“h”得到的更新、生成、不变生物聚类。
表4净化后的生物信息系统(G5,M6,R5×6)交叉插入生物个体和生物特征产生的更新、生成、不变生物聚类
根据步骤f,将步骤a中净化除去的生物特征与生物个体恢复到(G5,M6,R5×6)中,得到由原始生物信息系统产生的更新、生成、不变生物聚类集合,如表5所示。
表5由原始生物信息系统产生的更新、生成、不变生物聚类
实施例2
为了进一步说明本发明的实用性,该实施例采用的数据来源是河北大学螽斯研究室。该实验室人员采集广西、贵州、西藏、云南、海南、江西、湖南、浙江、台湾、重庆等地区的300头纺织娘属昆虫作为实验材料。本发明提取了57头雌性纺织娘作为生物个体集合G57,以及6种纺织娘的生物特征作为生物特征集合M6。6种生物特征分别为:前胸背板长与体长比(a)、前足股节长与体长比(b)、中足股节长与体长比(c)、后足股节长与体长比(d)、产卵瓣长与体长比(e)、翅长与翅宽比(f)。由生物个体集合G57与生物特征集合M6构成的原始生物信息系统如表6所示。
表6原始生物信息系统
根据步骤a,对原始生物信息系统进行预处理,得到净化后的生物信息系统(G20,M6,R20×6),见表7。
表7净化后的生物信息系统(G20,M6,R20×6)
编号 采集地点 a b c d e f
1 广西 龙州 弄岗 × × × × ×
2 广西 兴安 塘洞 × × × ×
3 广西 龙州 弄岗 × × × × ×
7 广西 龙州 弄岗 × ×
11 广西 三联 陇卡 × × × ×
12 贵州 绥阳 茶场 ×
13 贵州 绥阳 白哨沟 × × × ×
15 海南 五指山保护区 × × × × ×
16 海南 白沙 鹦哥岭 × × × × ×
17 贵州 绥阳 茶场 × × ×
18 海南 乐东 尖峰岭 × ×
21 海南 乐东 尖峰岭 × × ×
26 海南 乐东 尖峰岭 × ×
27 海南 乐东 尖峰岭 × × ×
43 海南 白沙 鹦哥岭 × × ×
44 海南 白沙 鹦哥岭 ×
47 海南 白沙 鹦哥岭 × × ×
49 海南 昌江 霸王岭 × × × ×
52 海南 白沙 鹦哥岭 × × ×
56 西藏 墨脱 达木 × × × ×
值得注意的是,对原始生物信息系统进行二元化的过程中,会出现某些生物个体的所有生物特征都取值为0,我们称这种情形为极端情形。事实上,该极端情形极少发生。因为在极端情形下,表明生物个体拥有的所有生物特征值大于上沿或小于下沿。然而这类数据对于生物聚类信息提取而言,贡献很小,完全可以忽略不计。因此,对二元化生物信息系统进行净化时将该类生物个体进行删除。为了客观地比较本发明方法与其他方法,预先将原始生物信息系统中对应该极端情形的生物个体去掉,而后再实行本发明方法和其它方法。
根据步骤b、c、d和e,可得交叉插入生物个体和生物特征后产生的更新、生成、不变生物聚类,见表8。值得注意的是,表8中最后一行对应的是由净化后的生物信息系统(G20,M6,R20×6)产生的更新、生成、不变生物聚类。
表8净化后的生物信息系统(G20,M6,R20×6)交叉插入生物个体和生物特征产生的更新、生成、不变生物聚类
注:表8中“数字”表示生物个体编号(见表7),表8中“字母”表示生物特征(亦见表7)。以下同。
最后,根据步骤f,将表8中由净化后的生物信息系统(G20,M6,R20×6)产生的更新、生成、不变生物聚类恢复为由原始生物信息系统产生的更新、生成及不变生物聚类,见表9。
表9由原始生物信息系统产生的更新、生成、不变生物聚类
下面根据生物聚类结果,从生物学角度对其加以分析,给出其生物意义。
(1)生物意义分析之一
本发明能够很好地验证生态学中的贝格曼规律(Bergmann's rule),即:动物生物特征随外界环境温度的差异而有所不同,而纬度差异是影响温度的最直接因素。同时也表明,同纬度地区的生物个体受相似的环境等因素的影响,其生物特征有趋同的现象。具体分析如下:
由表8可知,拥有生物特征a的生物个体有:
1,10,11,13,14,15,17,18,19,20,21,22,23,24,25,28,3,30,31,32,
33,34,35,36,38,4,41,42,46,48,49,5,50,51,52,53,54,56,57,6,7,8,9。
这些生物个体分别来自:广西龙州弄岗(1,3,4,5,6,7,8,9,10)、广西三联陇卡(11)、贵州绥阳白哨沟(13)、海南昌江坝王镇(14)、海南五指山保护区(15,30,35)、贵州绥阳茶场(17)、海南乐东尖峰岭(18,19,21,26,28,33,34,53,54)、海南琼中吊罗山(20)、海南白沙鹦哥岭(22,23,24,25,38,41,48,52)、海南昌江霸王岭东二(31,36,46,51)、海南昌江霸王岭(32,49)、海南五指山水海(42,50)、西藏墨脱达木(56)、云南高黎贡山百花岭1855m(57)。
拥有生物特征a和e的生物个体有:
10,11,15,19,20,22,23,24,25,28,3,30,31,33,34,35,36,38,4,41,
42,46,48,49,5,50,51,52,53,54,57,6,8。
这些生物个体分别来自:广西龙州弄岗(10,3,4,5,6,8)、广西三联陇卡(11)、海南五指山保护区(15,30,35)、海南乐东尖峰岭(19,28,33,34,53,54)、海南琼中吊罗山(20)、海南白沙鹦哥岭(22,23,24,25,38,41,48,52)、海南昌江霸王岭东二(31,36,46,51)、海南五指山水海(42,50)、海南昌江霸王岭(49)、云南高黎贡山百花岭1855m(57)。
拥有生物特征a、e、f的生物个体有:
15,19,20,22,23,24,28,30,31,34,4,42,46,49,50,51,53,54,6,8。
这些生物个体分别来自:广西龙州弄岗(4,6,8)、海南五指山保护区(15,30)、海南乐东尖峰岭(19,28,34,53,54)、海南琼中吊罗山(20)、海南白沙鹦哥岭(22,23,24)、海南昌江霸王岭东二(31,46,51)、海南五指山水海(42,50)、海南昌江霸王岭(49)。
拥有生物特征a、e、d、f生物个体有:
19,20,22,28,30,31,34,4,42,46,49,50,51,53,54,6,8。
这些生物个体分别来自:海南乐东尖峰岭(19,28,34,53,54)、海南琼中吊罗山(20)、海南白沙鹦哥岭(22)、海南五指山保护区(30)、海南昌江霸王岭东二(31,46,51)、广西龙州弄岗(4,6,8)、海南五指山水海(42,50)、海南昌江霸王岭(49)。
拥有生物特征a、b、c、e、d、f的生物个体有:
19,20,22,28,30,31,34,4,42,46,50,51,53,54,6,8。
这些生物个体分别来自:海南乐东尖峰岭(19,28,34,53,54)、海南琼中吊罗山(20)、海南白沙鹦哥岭(22)、海南五指山保护区(30)、海南昌江霸王岭东二(31,46,51)、广西龙州弄岗(4,6,8)、海南五指山水海(42,50)。
分析结果表明,对于采自高纬度的贵州绥阳白哨沟(年平均气温为11.5~17.5℃)的生物个体、低纬度的广西龙州(年平均气温为22℃)和海南岛(年平均气温为22℃~26℃)的生物个体,当使用特征a和e进行聚类时,所得聚类能够很好地将高维度地区(如贵州绥阳白哨沟)的生物个体与低纬度地区(如:海南五指山、海南昌江霸王岭、广西龙州三联等)的生物个体区分开。然而,随着生物特征数量的增加,同维度不同地区生物个体之间生物学特征差异并不明显。本发明能够很好地验证生态学中的贝格曼规律(Bergmann's rule),即:动物生物特征随外界环境温度的差异而有所不同,而纬度差异是影响温度的最直接因素。同时也表明,同纬度地区的生物个体受相似的环境等因素的影响,其生物特征有趋同的现象。
(2)生物意义分析之二
一方面,确定未知生物个体的聚类类别及其重要的生物特征;另一方面,确定未知生物特征对现有生物个体的影响。
对子原始生物信息系统中(取自原始生物信息系统其中G4={1,2,3,4},M4={a,b,c,d},实施本发明方法,得到的全部生物聚类:({1,3,4},{abcd})与({1,2,3,4},{bc})。
假定生物个体“5”是未知的(其生物特征参见表6),为了确定其聚类类别及其重要的生物特征,现将该生物个体插入到子生物信息系统中,得到子生物信息系统其中G5={1,2,3,4,5}。实施本发明方法,得到产生的更新生物聚类:({1,3,4,5},{abcd})和({1,2,3,4,5},{bc})(见表10)。根据更新生物聚类的含义,可知未知生物个体“5”与生物个体集合{1,3,4}拥有相同的生物特征a,b,c,d;未知生物个体“5”与生物个体集合{1,2,3,4}拥有相同的生物特征b,c。显然,未知生物个体“5”的重要生物特征是b,c。因此本发明方法能够确定未知生物个体的聚类类别及其重要的生物特征。
假定生物特征e是未知的,为了分析该特征的重要性及对已有生物聚类的影响,现将该生物特征插入到子生物信息系统中,得到子生物信息系统其中M5={a,b,c,d,e}。实施本发明方法,得到产生的生物聚类集合:
生成生物聚类集合:({3,4,5},{abcde}),({2,3,4,5},{bce});
不变生物聚类集合:({1,3,4,5},{abcd}),({1,2,3,4,5},{bc})。
根据生成生物聚类的含义,比较这些生物聚类结果,可知未知生物特征e是相对重要的生物特征,并对原有的生物聚类产生了影响。例如,比较生物聚类({1,3,4,5},{abcd})和({3,4,5},{abcde}),显然,由于生物特征集合{abcd}中未知特征e的加入,导致相应聚类中的生物个体集合从{1,3,4,5}变为{3,4,5},从而说明未知生物特征e是相对重要的,会对已有的生物聚类产生影响。
此外,表10中所有的生物聚类是在子原始生物信息系统的基础上,交叉插入生物个体和生物特征:“5”,“e”,“6”,“f”,“7”,“8”,“9”,“10”,“11”,实施本发明方法所得。分析表10可知,随着插入生物特征数量的增加,所得的生物聚类中均出现生物特征b、c;随着插入生物个体数量的增加,所得的生物聚类大多出现生物特征b、c。因此可以得出结论:无论生物特征和生物个体数如何变化,生物特征b、c在不同生物个体间是恒定的。因此根据生物特征b、c可以判定一个未知生物个体是否属于纺织娘。从此案例来看,本发明在筛选重要的生物特征及未知个体的正确鉴定方面,不受生物特征数及样本量的限制。
表10子原始生物信息系统中所产生的部分生物聚类
对比例1
SPSS方法是进行生物信息分析的常用方法,然而,由于SPSS(本发明选用版本19.0)的源程序代码未公开,所以这里只写出SPSS使用操作步骤。
该方法通过SPSS的Hierarchical Cluster子过程实现,具体操作如下:
第一步:从菜单上依次点选Analyze→Classify→Hierarchical Cluster命令,打开Hierarchical Cluster Analysis对话框。
第二步:在打开Hierarchical Cluster Analysis对话框中,选中所有数值型生物特征且将其移入Variable(s)栏下;并将字符型生物特征移入Label Cases by栏下作为标识;选择Cluster栏内的Cases,即做Q型聚类分析。
第三步:单击打开Statistics对话框,选择Cluster Membership栏下的Singlesolution项,并在Number of clusters框内输入聚类结果类别的个数,例如输入4,即4种聚类结果。最后单击Continue按钮,回到Hierarchical Cluster Analysis对话框。
第四步:在Hierarchical Cluster Analysis对话框中,单击打开Method子对话框,打开Cluster Method下拉框,选择其中一种聚类方法,例如Ward’s method。最后单击Continue按钮,回到Hierarchical Cluster Analysis对话框。
第五步:在Hierarchical Cluster Analysis对话框中,单击OK按钮,完成操作。
SPSS方法仅针对生物特征或生物个体进行聚类,则聚类结果或是某些生物特征的集合或是某些生物个体的集合。实施本发明方法得到的生物聚类结果同时包括某些生物特征的集合和某些生物个体的集合,即同时考虑生物特征和生物个体两个因素。显然SPSS方法和本发明方法所得的结果不同,所以无法将SPSS方法的所得结果与本发明方法的所得结果直接进行比较,而需通过人为分析的方式,将SPSS方法得到的结果与本发明方法所得的聚类结果进行比较。
下面,将SPSS方法应用于净化后的生物信息系统(G20,M6,R20×6)(见表7)和删除极端情形下的生物个体(“45”)的原始生物信息系统,聚类结果分别如表11和表12所示。
注意:此时需选中所有数值型生物特征(即a,b,c,d,e,f),并将其移入Variable(s)栏下;同时将字符型生物特征(编号)移入Label Cases by栏下作为标识,并在Numberof clusters框内输入10,即将生物个体分为10类。
表11
案例 10群集 案例 10群集 案例 10群集 案例 10群集
1 1 12 6 18 8 44 9
2 2 13 3 21 1 47 2
3 3 15 5 26 6 49 10
7 4 16 7 27 2 52 5
11 5 17 8 43 6 56 1
表12
案例 10群集 案例 10群集 案例 10群集 案例 10群集 案例 10群集 案例 10群集
1 1 11 4 21 7 31 6 41 8 52 7
2 2 12 5 22 6 32 8 42 2 53 2
3 3 13 4 23 6 33 4 43 2 54 6
4 1 14 2 24 2 34 2 44 3 55 6
5 3 15 2 25 3 35 8 46 8 56 8
6 1 16 6 26 2 36 8 47 3 57 9
7 1 17 2 27 6 37 6 48 9
8 1 18 2 28 2 38 8 49 10
9 1 19 2 29 6 39 6 50 2
10 3 20 6 30 8 40 6 51 8
应用本发明方法与SPSS方法进行生物聚类,比较结果见表13和表14。
表13针对净化后的生物信息系统比较SPSS方法与本发明方法所得结果
表14针对原始生物信息系统比较SPSS方法与本发明方法所得结果
值得注意的是,对于原始生物信息系统,需要删除极端情形的生物个体或生物特征,并通过上沿、下沿进行二元化,进而对得到的二元化生物信息系统实施本发明方法。而对二元化数据对应的原始数据背景中的生物个体集合,即删除极端情形后的原始生物信息系统,实施SPSS方法。
通过表13可看出SPSS方法有很多不足之处,具体如下:
(1)采用SPSS方法将表7中的所有生物个体进行分组,最多可分为20组。采用本发明方法对表7中净化后的生物信息系统(G20,M6,R20×6)进行聚类,得到的有用聚类组数为41个。从数量上可看出,本发明方法提供的生物信息量远远多于用SPSS方法所提供的生物信息量。
(2)若采用SPSS方法将表7中的生物个体集合分为10组,则不丢失数据的组数为2个,占总组数的20%,其余80%均有信息丢失,其中有5组信息丢失超过一半(即50%及以上),占总组数的50%,占丢失信息组的63%。这些分析数据表明,由于SPSS方法自身的原因导致多数信息丢失,这也导致SPSS方法的结果不能够直接反映生物信息系统具有的信息量。
(3)表13还显示出应用SPSS方法不能够直接给出每组生物个体拥有的公共生物特征,需要研究人员用其他方法再一一找出。与此同时,表13表明本发明方法给出的生物聚类,不仅可以反映SPSS方法分组得到的生物个体,还能够将SPSS方法丢失的信息找回,而且对应SPSS方法得到的每个生物个体组所拥有的公共生物特征,也可以从本发明方法提供的结果中直接得到。这说明本发明方法完全可以反映生物信息系统所具有的聚类信息。
对于表14,同样可得到类似于表13的分析结果,这里从略。此外,由表14还可以看出,应用SPSS方法可将具有相同生物特征f的生物个体集合分为3组:(2)、(5)、(6),而且无论哪一组都有丢失的数据。然而,应用本发明方法可将具有同一生物特征f的生物个体集合仅聚为一类,并且此聚类将所有可能的生物个体全部包含,没有丢失任何信息。这说明SPSS方法分组粗糙,本发明方法在信息聚类方面是精细的。
综上所述,本发明方法可对生物信息系统进行聚类,得到三种类型的聚类:更新生物聚类、生成生物聚类和不变生物聚类。对于提供的这些聚类信息,研究者可以根据自身所需选择所需要的生物聚类。
此外,在对生物信息系统进行分析时,有时需要考虑生物个体的来源地点,本发明方法可以将每个具体来源地点(例如某个生物个体来源于河北省保定市易县)作为一个生物特征加入到原始生物信息系统中,当某个生物个体来源于该地点时,在信息系统表中取值1,否则取值0。这样得到一个新的生物信息系统,对该新信息系统实施本发明方法,将会得到拥有生物个体来源地点的生物聚类。

Claims (8)

1.一种交叉渐进提取信息的生物聚类方法,其特征在于,包括如下步骤:
a.将原始生物信息系统进行预处理:
a1.将进行二元化,得到二元化生物信息系统(Gm′,Mn′,Rm′×n′);将进行二元化的具体过程为:
a1.1.计算m′个生物个体拥有第i种生物特征mi程度的平均值与标准差
a1.2.确定m′个生物个体拥有第种i生物特征mi程度的变化范围,即下沿和上沿构成的窗口:
a1.3.依窗口对原始生物信息系统进行二元化:
时,
时,得到二元化生物信息系统(Gm′,Mn′,Rm′×n′);
a2.对(Gm′,Mn′,Rm′×n′)进行净化,得到净化后的生物信息系统(Gm,Mn,Rm×n);
对于给定的原始生物信息系统Gm′是m′个生物个体构成的集合,即Gm′={g1,…,gi,…,gm′},(i=1,2,…,m′,m′=|Gm′|),gi为第i个生物个体;Mn′是n′个生物特征构成的集合,即Mn′={m1,…,mi,…,mn′},(i=1,2,…,n′,n′=|Mn′|),mi为第i个生物特征;为生物个体集合Gm′和生物特征集合Mn′间的二元关系,即
对(Gm′,Mn′,Rm′×n′)进行净化的过程为:对二元化生物信息系统中不拥有任何生物特征的生物个体、不拥有任何生物个体的生物特征、拥有全部生物特征的生物个体、拥有全部生物个体的生物特征进行删除处理;对于两个或两个以上拥有相同生物特征的生物个体,保留生物个体中的一个,将其它的生物个体进行删除处理;对于两个或两个以上拥有相同生物个体的生物特征,保留生物特征中的一个,将其它的生物特征进行删除处理,即可得到净化后的生物信息系统;
b.将子生物信息系统(Gi,Mi,Ri×i)产生的生物聚类集合Li,i作为输入,插入第i+1个生物个体gi+1,得到由子生物信息系统(Gi+1,Mi,R(i+1)×i)产生的更新生物聚类集合Si+1,1、生成生物聚类集合Si+1,2、不变生物聚类集合Si+1,3及生物聚类集合Li+1,i
c.将子生物信息系统(Gi+1,Mi,R(i+1)×i)产生的生物聚类集合Li+1,i作为输入,插入第i+1个生物特征mi+1,得到由子生物信息系统(Gi+1,Mi+1,R(i+1)×(i+1))产生的更新生物聚类集合Wi+1,1、生成生物聚类集合Wi+1,2、不变生物聚类集合Wi+1,3及生物聚类集合Li+1,i+1
d.交叉插入生物个体gi+2和生物特征mi+2,重复步骤b和c,得到由子生物信息系统(Gλ,Mλ,Rλ×λ)产生的更新生物聚类集合Wλ,1、生成生物聚类集合Wλ,2、不变生物聚类集合Wλ,3及生物聚类集合Lλ,λ,其中λ=min(m,n);
e.根据生物个体总数m与生物特征总数n的大小确定是否重复步骤b或步骤c,得到由净化后的生物信息系统(Gm,Mn,Rm×n)产生的更新生物聚类集合、生成生物聚类集合、不变生物聚类集合及生物聚类集合Lm,n
f.将步骤a中净化除去的生物特征与生物个体恢复到净化后的生物信息系统(Gm,Mn,Rm×n)中,得到由原始生物信息系统产生的更新生物聚类集合、生成生物聚类集合、不变生物聚类集合及生物聚类集合Lm′,n′
2.根据权利要求1所述的交叉渐进提取信息的生物聚类方法,其特征在于,在步骤b中,当i=1时,将子生物信息系统(G1,M1,R1×1)产生的生物聚类集合L1,1作为初始输入;当i≠1时,将子生物信息系统(Gi,Mi,Ri×i)产生的生物聚类集合Li,i作为初始输入。
3.根据权利要求2所述的交叉渐进提取信息的生物聚类方法,其特征在于,在步骤b中,当i≠1时,在子生物信息系统(Gi,Mi,Ri×i)中插入第i+1个生物个体gi+1,令gi+1 *为第i+1个生物个体gi+1所拥有的生物特征集合,具体过程如下:
b1.当时,则在Li,i中找到概念内涵与gi+1 *相交非空的所有概念,记为集合其中所述概念内涵表示为某些生物特征组成的集合;同时将中所有概念的内涵与gi+1 *相交,所得到的交集的全体记为集合其中,k0中的元素个数,Ct是由某些生物特征组成的集合,简称生物个体子集合;
b2.当时,则由子生物信息系统(Gi+1,Mi,R(i+1)×i)产生的生物聚类集合为Li+1,i=Li,i,进而操作步骤c。
4.根据权利要求3所述的交叉渐进提取信息的生物聚类方法,其特征在于,所述步骤b1包括如下过程:
b1.1.逐一对每个生物特征集合中找出概念内涵包含Ct的所有生物聚类中的最大生物聚类并对最大生物聚类进行如下判断与操作:
时,则由最大生物聚类得到一个更新生物聚类
不是gi+1 *的子集时,则由最大生物聚类得到一个生成生物聚类
b1.2.当时,则得到一个生成生物聚类({gi+1},gi+1 *);
b1.3.得到由子生物信息系统(Gi+1,Mi,R(i+1)×i)产生的更新生物聚类集合Si+1,1、生成生物聚类集合Si+1,2、不变生物聚类集合Si+1,3及生物聚类集合Li+1,i,其中Li+1,i=Si+1,1∪Si+1,2∪Si+1,3
5.根据权利要求1所述的交叉渐进提取信息的生物聚类方法,其特征在于,在所述步骤c中,将子生物信息系统(Gi+1,Mi,R(i+1)×i)产生的生物聚类集合Li+1,i作为输入,插入第i+1个生物特征mi+1,令mi+1 *为第i+1个生物特征mi+1所拥有的生物个体集合,具体包括如下过程:
c1.当时,则在Li+1,i中找到概念外延与mi+1 *相交非空的所有概念,记为集合其中所述概念外延表示为某些生物个体组成的集合;同时将中所有概念的外延与mi+1 *相交,所得到的交集的全体记为集合其中l0中的元素个数,Dt是由某些生物个体组成的集合,简称生物个体子集合;
c2.当时,则由子生物信息系统(Gi+1,Mi+1,R(i+1)×(i+1))产生的生物聚类集合为Li+1,i+1=Li+1,i,进而操作步骤d。
6.根据权利要求5所述的交叉渐进提取信息的生物聚类方法,其特征在于,所述步骤c1包括如下过程:
c1.1.逐一对每个生物个体集合中找出外延包含Dt的所有生物聚类中的最小生物聚类并对最小生物聚类进行如下判断与操作:
时,则由最小生物聚类得到一个更新生物聚类
不是mi+1 *的子集时,则由最小生物聚类得到一个生成生物聚类
c1.2.当时,则得到一个生成生物聚类(mi+1 *,{mi+1});
c1.3.得到由子生物信息系统(Gi+1,Mi+1,R(i+1)×(i+1))产生的更新生物聚类集合Wi+1,1、生成生物聚类集合Wi+1,2、不变生物聚类集合Wi+1,3及生物聚类集合Li+1,i+1,其中
7.根据权利要求1所述的交叉渐进提取信息的生物聚类方法,其特征在于,所述步骤e包括如下过程:
当m>λ时,重复步骤b共m-λ次,得到由净化后的生物信息系统(Gm,Mn,Rm×n)产生的更新生物聚类集合Sm,1、生成生物聚类集合Sm,2、不变生物聚类集合Sm,3及生物聚类集合Lm,n
当n>λ时,重复步骤c共n-λ次,得到由净化后的生物信息系统(Gm,Mn,Rm×n)产生的更新生物聚类集合Wn,1、生成生物聚类集合Wn,2、不变生物聚类集合Wn,3及生物聚类集合Lm,n
当m=n=λ时,则无需重复步骤b和步骤c。
8.根据权利要求1所述的交叉渐进提取信息的生物聚类方法,其特征在于,所述步骤f包括如下过程:
f1.将步骤a2净化除去的每个空生物个体g,重新恢复到生物聚类的外延中,得到生物聚类
f2.将步骤a2净化除去的每个空生物特征m,重新恢复到生物聚类的内涵中,得到生物聚类
f3.将步骤a2净化除去的每个全局生物个体g,重新恢复到生物聚类集合Lm,n中每个概念(A,B)的外延中,得到生物聚类(A∪{g},B);
f4.将步骤a2净化除去的每个全局生物特征m,重新恢复到生物聚类集合Lm,n中每个概念(A,B)的内涵中,得到生物聚类(A,B∪{m});
f5.对于步骤a2中的等价生物个体,若生物个体g1与g2等价,则将满足g1∈A的生物聚类(A,B)替换为生物聚类(A∪{g2},B);
f6.对于步骤a2中的等价生物特征,若生物特征m1与m2等价,则将满足m1∈B的生物聚类(A,B)替换为生物聚类(A,B∪{m2})。
CN201710469402.XA 2017-04-01 2017-06-20 一种交叉渐进提取信息的生物聚类方法 Expired - Fee Related CN107273931B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2017102119042 2017-04-01
CN201710211904 2017-04-01

Publications (2)

Publication Number Publication Date
CN107273931A CN107273931A (zh) 2017-10-20
CN107273931B true CN107273931B (zh) 2019-11-08

Family

ID=60069439

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710469402.XA Expired - Fee Related CN107273931B (zh) 2017-04-01 2017-06-20 一种交叉渐进提取信息的生物聚类方法

Country Status (1)

Country Link
CN (1) CN107273931B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109166601B (zh) * 2018-08-03 2021-09-07 河北大学 一种使用三支概念判断物种间系统发育的方法
CN113539375B (zh) * 2021-07-16 2022-03-15 河北大学 一种基于三支半概念的生物信息类提取方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103064991A (zh) * 2013-02-05 2013-04-24 杭州易和网络有限公司 一种海量数据聚类方法
CN104765763A (zh) * 2015-02-02 2015-07-08 中国测绘科学研究院 一种基于概念格的异构空间信息服务分类的语义匹配方法
CN105824936A (zh) * 2016-03-18 2016-08-03 河北大学 一种基于概念格的信息提取方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103064991A (zh) * 2013-02-05 2013-04-24 杭州易和网络有限公司 一种海量数据聚类方法
CN104765763A (zh) * 2015-02-02 2015-07-08 中国测绘科学研究院 一种基于概念格的异构空间信息服务分类的语义匹配方法
CN105824936A (zh) * 2016-03-18 2016-08-03 河北大学 一种基于概念格的信息提取方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A lattice conceptual clustering system and its application to browsing retrieval;CLAUDIO CARPINETO 等;《Machine Learning》;19960831;第24卷(第2期);95-122 *
基于对象和属性交叉的渐进式概念格生成算法;刘群 等;《计算机工程》;20090430;第35卷(第7期);59-60,67 *
模糊本体构建的概念距离聚类方法;李慧琳 等;《计算机工程与设计》;20120430;第33卷(第4期);1538-1541,1568 *

Also Published As

Publication number Publication date
CN107273931A (zh) 2017-10-20

Similar Documents

Publication Publication Date Title
CN105550171B (zh) 一种垂直搜索引擎的查询信息纠错方法和系统
CN103793501B (zh) 基于社交网络的主题社团发现方法
Bertoin et al. The cut-tree of large Galton–Watson trees and the Brownian CRT
CN110597870A (zh) 一种企业关系挖掘方法
CN107247739B (zh) 一种基于因子图的金融公报文本知识提取方法
JP2007052744A (ja) 分類ルール作成支援方法
CN106897371A (zh) 中文文本分类系统及方法
CN104820724B (zh) 文本类教育资源知识点预测模型获得方法及模型应用方法
CN103812872A (zh) 一种基于混合狄利克雷过程的网络水军行为检测方法及系统
CN107273931B (zh) 一种交叉渐进提取信息的生物聚类方法
CN101751399A (zh) 决策树优化方法和优化系统
CN106547864A (zh) 一种基于查询扩展的个性化信息检索方法
CN107291895A (zh) 一种快速的层次化文档查询方法
CN110008388A (zh) 一种基于决策树的流数据分类方法
CN106407473B (zh) 一种基于事件相似性建模的获取事件脉络的方法及其系统
CN110837568A (zh) 实体对齐方法及装置、电子设备、存储介质
Gerhana et al. Comparison of naive Bayes classifier and C4. 5 algorithms in predicting student study period
CN105653567A (zh) 一种文本序列数据中快速查找特征字符串的方法
CN104657473B (zh) 一种保证质量单调性的大规模数据挖掘方法
Hao et al. The research and analysis in decision tree algorithm based on C4. 5 algorithm
CN105740329B (zh) 一种非结构化大数据流的内容语义挖掘方法
CN108197295A (zh) 基于多粒度属性树的属性约简在文本分类中的应用方法
CN107871167A (zh) 一种基于似然度的因果结构学习方法
Zhou et al. Evidential communities for complex networks
Yi-Yang et al. Data mining and analysis of our agriculture based on the decision tree

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20191108

CF01 Termination of patent right due to non-payment of annual fee