CN111341387B

CN111341387B - 一种基于基本组分序向量的单向编码无监督分类的方法

Info

Publication number: CN111341387B
Application number: CN202010105694.0A
Authority: CN
Inventors: 田圃
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2020-02-19
Filing date: 2020-02-19
Publication date: 2023-06-30
Anticipated expiration: 2040-02-19
Also published as: CN111341387A

Abstract

本发明公开了一种基于基本组分序向量的单向编码无监督分类的方法，包括如下步骤：1.定义基本组分；2.对每一条记录，构建基本组分序向量；3.把基本组分序向量插入到多叉树中，4.所有记录都录入后多叉树构建完成；树中的每一个节点中的记录和所有后代节点中的记录，以及标注的局部基本组分排序反转对应的非相邻节点中的记录及其后代节点一起为一类，所以是多层次分类，距离根节点越近，则分类越粗略；5.有新数据时按照上述方法加入即可，本发明实现了高维非线性强关联复杂数据的线性时空间复杂度多层次无监督分类。实现了对超大蛋白质序列和结构数据集的无监督多层次分类，也可用于其他高维非线性强关联数据无监督分类。

Description

一种基于基本组分序向量的单向编码无监督分类的方法

技术领域

本发明涉及一种较大范围，具体是一种基于基本组分序向量的单向编码无监督分类的方法。

背景技术

现代人工智能应用的最主要场景是分类识别问题。而无监督分类更是难点和迫切需要解决的挑战。虽然深度学习在图像，语音和文本应用中的迅猛发展使得相关技术迅速市场化，但对很多实际问题依然有诸多不足之处。最突出的问题之一是需要进行大量耗时并且昂贵的数据标签过程，而且人工标签过程发生错误也在所难免。此外有些神经网络的稳健型不够好，会有意想不到失败的情况。而对大量的高维无标签数据，目前尚无高效可靠的分类方法。典型的高维无标签数据包括生物学序列，大分子结构。大量人们非常熟知的音视频文本数据也是高维无标签数据，只不过在深度学习的应用中人们花费大量时间和资金对其中的一小部分进行了标签赋值作为训练集使用而已。

基于距离比较(和其他因素如密度等)的诸多无监督聚类算法(K-MEANS，K-Meloids，BIRCH，DBSCAN，CURE，CLAR(NS)，MEANSHIFT)对高维数据效果不佳，主要原因是高维空间中距离并不能很好的表征复杂数据记录之间多方面的差异，而且数据记录之间的比较使得计算代价较高。此外这些方法中参数的选取也对结果可靠性有很大的影响。

由于基于距离的无监督聚类方法对低维数据表现会更好，因此人们常常使用主成分分析方法首先对高维数据降维然后使用较为合适的基于距离比较的方法进行聚类。不过主成分分析技术需要把每条记录和平均值比较以获取协方差矩阵，另外还有比构建协方差矩阵计算代价更高的矩阵对角化操作，而且只能处理非线性相关。此外主成分分析技术的非线性延伸(比如利用核函数)则需要付出更高的计算代价而且核函数的选择也有一定的困难。所有目前的无监督分类技术都涉及到数据记录之间的对比，因此有大量新数据补充后整个计算往往需要从头再来，进一步增加了这些无监督分类(降维)技术的代价。

所以开发对高维无标签数据高效可靠的无监督分类算法是目前人工智能/机器学习领域的主要瓶颈之一。基于基本组分序向量的单向编码(无监督分类)技术正是为迎接这一挑战而开发的一类基层技术。该技术主要用于高维复杂数据的无监督多层次聚类，其特点是线性时空间计算复杂度和能够利用数据不同维度之间的非线性关联。线性时空间复杂度使得该技术可以应用于任意大海量数据集，而利用数据维度之间非线性关联的特点则使得该技术可以应用于诸多复杂非线性高维数据。目前尚无任何类似技术能够在达到基本组分序向量分类技术效率的同时能够有效处理具有复杂非线性关联的高维数据。

随着测序技术的突飞猛进，对比分析海量生物学序列的能力成为迫切需求。尽管人们在半个世纪的努力中获得了不少生物学序列比较的进展，但远远不能满足现实的需求。序列空间非常巨大，比如基于20个天然氨基酸的长度为300的蛋白质序列空间是20³⁰⁰以上，可能的1兆(Megabyte)DNA序列空间则在4^1000000以上。尽管生物学序列具有较高多样性，但不同生物学序列的数目与可能的序列空间相比则是非常微小的。基于进化论，所有的生物学序列应该在序列空间中连续。所以可以认为生物学序列是浩瀚的序列空间中的一个微小连续流形(manifold)。更加广义的理解是物质世界的多样性与物质世界的可能高维空间相比，都是非常微小的流形，音视频信号都是微小物质流形和和微小生命序列流形控制的生物体相互作用的结果，也应该被限制在未知的微小流形中。当我们的目标是分类和识别时，我们只要保留能够把序列/图像/音频等数据中规定其所在流形不同位置的部分保留即有可能实现目标。因此对于特定高维数据，应该存在相应的高效单向编码机制可以大大简化分类问题，目前没有这样的技术只是人们没有朝这个方向探索而已。基于基本组分序向量的单向编码无监督分类技术就是在这种思想指导下的一次成功的尝试。目前的生物学序列比较方法可以被用于任何字符集上的任意序列，没有充分利用这个特殊性。因而效率非常低，1000000条或更大的序列数据集的多序列比较是目前算法无法完成的。

各种神经网络可以被认为是不同机制的单向编码/降维方法。在绝大多数情况下，不论架构形式和复杂程度，神经网络都是把维度较高的输入数据转化成为维度较低的张量(绝大多数情况下就是向量)表现形式。这些张(向)量可以通过较为简单的线性运算与激活函数以及损失函数处理与标签约束相联系，但不能恢复原来的数据，因此可以认为是一大类单向编码。不过绝大多数神经网络需要标签进行监督学习。神经网络构架中能够被用于无监督学习/降维的主要有自动编码机(autoencoder)和玻尔兹曼机(BoltzmannMachine)，但训练都比较困难，原因很可能是这些方法都试图在整个可能的浩瀚高维空间进行探索。而基本组分序向量则充分利用未知流形约束，大大降低了降维分类的难度。

发明内容

本发明的目的在于提供一种基于基本组分序向量的单向编码无监督分类的方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种基于基本组分序向量的单向编码无监督分类的方法，包括如下步骤：

1.定义基本组分；

2.对每一条记录，构建基本组分序向量；

3.把基本组分序向量插入到多叉树中，这个过程是每一条记录独立进行的，不需要同所有多叉树中的已有记录比较，这是基本组分序向量无监督分类高效的根本原因；插入时如果发现和落在同一节点的已有记录重复，则放弃该记录；另外，要检查由于个别易反转组分次序形成的在多叉树中非相邻节点但又相似的序列的存在，如果发现则须相互标注；

4.所有记录都录入后多叉树构建完成；树中的每一个节点中的记录和所有子节点中的记录，以及标注的局部基本组分排序反转对应的非相邻节点中的记录一起为一类，所以是多层次分类，距离根节点越近，则分类越粗略；

5.有新数据时按照上述方法加入即可，原来多叉树中已有的数据记录不受影响；这也是基本组分序向量无监督分类的根本优势之一。

与现有技术相比，本发明的有益效果是：本发明实现了对超大蛋白质序列和结构数据集的无监督多层次分类，也可用于其他高维非线性强关联数据无监督分类。例如我们利用该技术实现了对超大蛋白质序列数据集的多序列分类；实现了对所有蛋白质结构数据库(PDB)中结构模型的分类；该技术也可以用来对全基因组，大文本数据，甚至图像音视频进行多层次无监督聚类。

附图说明

图1.以20个天然氨基酸作为基本组分的序向量多叉树示意图。完整的多叉树共有20层，本示意图仅展示第1，2，3，4，5和第19，20层，而第6到18层则用省略号代替以节省篇幅。第一层共有20个节点(对应于20个基本组分)，图中仅展示四个，其余均以省略号代替；第一层的每个节点最多可以有19个子节点，第二层的每个节点最多可以有18个子节点，以此类推，第18层和第19层每个节点分别最多只能有2个和一个子节点。图中每一层均展示一个父节点的部分子节点。每个节点有三部分信息(对应于途中每个节点的三个框)组成：节点名对应于相应的基本组分名称(图中的氨基酸单字母名)；落到该节点的序列(图中用实心圆表示)，这些序列的基本组分序向量构成了从根节点到所在节点的路径(图中红色节点展示了1.1.1中实例蛋白质序列按照其基本组分序向量[GLKRVIDESPANTYFWQMCH]被保存到一个节点的情况)；还有由于局部组分序反转引起的序列相似但在基本组分序向量多叉树中距离较远处保存的记录(图中用长方形表示，具体说明见3)权重易反转组分的处理)。节点分三类用带圈数字标出，(1)有序列落到该节点；(2)仅为其他序列提供路径的节点；(3)除自身序列之外在多叉树距离较远处有与自身序列相似序列的节点。每条序列都对应于唯一的节点，但有些节点可以对应多个高度相似的序列。图底的数字是对应层最大可能节点数(具体节点数)见下表.当单个节点中有多条高度相似的序列时，我们可以使用权重向量或直接比对序列。由于这样的节点数不多，不会形成显著的计算代价。另外也会有极个别例外节点有对应于相似度较低的序列，这些个别节点可以进行标注；

图2使用单个氨基酸八类DSSP二级结构状态作为基本组分的序向量多叉树示意图。每一层仅展示一个节点的展开。未展开的节点右面用(…)表示有可能存在的子树。1.2.1例子中基本组分序向量在该树中的占据的节点是最右面“B”所在的节点，而前面的七个节点则是从根节点开始的路径。每个蛋白质结构都可以用类似方式存贮到这个多叉树对应的节点中。当然有些节点可能对应于多个差异很小的不同结构。这个多叉树的最大节点数为109600(从一到八层最大节点数分别为8,56,336,1680,6720,20160,40320,40320)。为了减少多个不同结构被分到同一节点的可能性，我们可以使用更加细节的基本组分，比如64个不同的二肽DSSP八类二级结构状态组合，或者27个不同三肽的DSSP 3类二级结构组合，或者不同二级结构和序列的组合，如三类二级结构和20个氨基酸类型的组合。每个节点和它所有的子节点形成一类，离根节点越近则分类越粗略。每个节点内部的详细数据结构与图1类似，此处省略。

具体实施方式

下面结合具体实施方式对本发明的技术方案作进一步详细地说明。

1.定义基本组分；

2.对每一条记录，构建基本组分序向量；

1.基本组分定义的灵活性与基本组分序向量序向量(Sorted CompositionVector，SCV)的构建

1.1以蛋白质序列数据为例，定义二十个天然氨基酸作为基本组分。

1.1.1例如蛋白质分子Alpha Hemolysin的序列有87个19类不同氨基酸，具体如下：

MELKNSISDYTEAEFVQLLKEIEKENVAATDDVLDVLLEHFVKITEHPDGTDLIYYPSDNR

DDSPEGIVKEIKEWRAANGKPGFKQG

其中有11个E，9个D，8个K，7个L，6个V/I，5个A/G，4个S/T/P/N，3个F/Y，2个R/Q/H，1个M/W，按照从多到少排序就有如下组分序向量(SCV)：

[EDKLVIAGSTPNFYRQHMW]，对应的权重向量则是[11,9,8,7,6,6,5,5,4,4,4,4,3,3,2,2,

2,1,1]。

1.1.2再如蛋白质分子Thrombin_H_Chain的序列有259个20类氨基酸，具体如下：

IVEGSDAEIGMSPWQVMLFRKSPQELLCGASLISDRWVLTAAHCLLYPPWDKNFTENDLL

VRIGKHSRTRYERNIEKISMLEKIYIHPRYNWRENLDRDIALMKLKKPVAFSDYIHPVCLPD

RETAASLLQAGYKGRVTGWGNLKETWTANVGKGQPSVLQVVNLPIVERPVCKDSTRIRIT

DNMFCAGYKPDEGKRGDACEGDSGGPFVMKSPFNNRWYQMGIVSWGEGCDRDGKYGF

YTHVFRLKKWIQKVIDQFGE

其中有22个G，20个L，19个K，18个R，17个V，16个I/D，15个E，14个S/P，12个A，11个N，10个T/Y，9个F/W，8个Q，7个M/C，5个H。所以对应的组分序向量为:

[GLKRVIDESPANTYFWQMCH](见图1)，权重向量为[22,20,19,18,17,16,16,15,14,14,

12,11,10,10,9,9,8,7,7,5]

1.1.3又如蛋白质分子ANTENNAPEDIA_HOMEODOMAIN的序列有62个16类氨基酸，具

体如下：

MERKRGRQTYTRYQTLELEKEFHFNRYLTRRRRIEIAHALSLTERQIKIWFQNRRMKWKK

EN

其中有12个R，7个E，6个K，5个L/T，4个I/Q，3个N/F/Y，2个A/H/M/W，1个S/G。所以对应组分序向量为:[REKLTIQNFYAHMWSG]，权重向量为[12,7,6,5,5,4,4,3,3,3,2,2,2,2,1,1]

1.2以蛋白质结构数据为例。首先使用DSSP定义的八类单个氨基酸二级结构状态作为基本组分(分别是H：α螺旋；G:3₁₀螺旋；I：π螺旋；E：平行β折叠；B：独立β双链；T：氢键转角；S：弯曲；-：卷曲或其他)。

1.2.1蛋白质分子Minimal human CFTR first nucleotide binding domain的结构(PDB编号2PZG)

有241个氨基酸共8类不同二级结构，具体如下：

------------------EEEEEEEE-SSTTS--SEEEEEEEE-TT-EEEEE-STTSSHHHHHHHHTTSS-EEEEEEE--

B-EEEE-SS----SEEHHHHHHTTS---HHHHHHHHHHTT-HHHHTTSTTGGG-EE--------

HHHHHHHHHHHHHHS--SEEEEESTTTT--HHHHHHHHHHIIIIITTTSEEEEE---HHHHHH-

SEEEEEETTEEEEEE-HHHHH------------

其中有67个’-’，63个H，58个E，25个T，19个S，5个I，3个G和1个B。按照从多到少排序就有如下基本组分序向量(SCV)[-HETSIGB](见图2)，对应的权重向量则是[67,63,58,25,19,5,3,1]

1.2.2再如蛋白质分子ceH2A-H2B的结构(PDB编号6K03)有207个共5类二级结构，具体如下：

-------HHHHHHHHHHH-TT-EE-HHHHHHHHHHHHHHHHHHHHHHHHHHHHTT--EE-HHHHHHHHHTTS-THHHHHHHHHHHHHHHHT---------------------S-HHHHHHHHHHH-TTSEE-THHHHHHHHHHHHHHHHHHHHHHHHHHTTT-SEE-HHHHHHHHHH-HHHHHH-----------------------

其中有117个H，64个‘-’，14个T，8个E和4个S。所以对应的组分序向量为[H-TES]，对应的权重向量为[117,64,14,8,4]

1.2.3再如蛋白质分子Flock House virus particle的结构(PDB编号4FTB)有44个氨基酸共3类二级结构，具体如下：

--HHHHHHHHHHHHHHT---------------------------

其中有29个H，14个‘-’和一个T，因此序向量为[-HT]，对应的权重向量为[29,14,1]

1.3DNA序列基本组分序向量的构建。将ATCG四种碱基以一定的长度进行排列组合，并将这些碱基的排列组合作为基本组分，

1.3.1以连续两个碱基的组合作为基本组分，则共有16个基本组分。以COI基因序列为例，

该序列包含624个共16类碱基对，具体如下：

TTGGAATCTGAACAGGACTAGTAGCCACGAGAATGAGACTCCTAATTCGAGCTGAGCTTGGACAACCTGGAACTCTTCTAGGAGACGATCAAATTTATAATTGCCTTATTACCGCTCATGGTCTATTAATGATATTTTTTGTAGTCCTACCTATTTTAATAGGAGGATTTGGAAATTGACTAGTTCCCTTAATACTAGGAGCTCCAGACATGGCTTTTCCCCGGATTAATAATCTTGGGTTCTGACTTATTCCCCCCGCAGTAATTCTCCTAGTAATATCCGCTTTTATCGAAAAAGGGGCTGGAACAGGATGAACTGTCTACCCTCCTTTAGCCTCTAATATTGCCCATGCAGGGCCATGCATTGATTTAGCTATTTTTGCCCTTCATTTATCCGGAGTATCCTCAATTCTAGCCTCTATCAACTTTATTACAACTGTAATAAATATACGATATAAAGGTCTTCGACTAGAACGAGTTCCTTTATTTGTATGAAGAGTAAAACTAACTGCAGTTCTTCTTCTTCTCTCAATTCCAGTTCTTGCCGGTGGACTTACTATACTTCTCACCGATCGAAATTTAAATACGTCCTTCTTTGACCCCGCAGGAGGAGGGGACCCAGTTC

其中有73个TT，58个CT，56个TA，53个AT，46个TC，44个AA，42个CC，42个GA，36个AG，32个AC，30个TG，30个GG，23个CA，21个GC，20个GT和17个CG，，基本组分序向量为[TT，CT，TA，AT，TC，AA，CC，GA，AG，AC，TG，GG，CA，GC，GT，CG]，

则对应的权重向量为[73，58，56，53，46，44，42，42，36，32，30，30，23，21，20，17]

1.3.2以连续三个碱基的组合作为基本组分，则共有64个基本组分。例如人类白细胞介素IL3基因共有924个碱基，具体如下：

AGAGCCCCACGAAGGACCAGAACAAGACAGAGTGCCTCCTGCCGATCCAAACATGAGCCGC

CTGCCCGTCCTGCTCCTGCTCCAACTCCTGGTCCGCCCCGGACTCCAAGCTCCCATGACCCAGA

CAACGCCCTTGAAGACAAGCTGGGTTAACTGCTCTAACATGATCGATGAAATTATAACACACTT

AAAGCAGCCACCTTTGCCTTTGCTGGACTTCAACAACCTCAATGGGGAAGACCAAGACATTCT

GATGGAAAATAACCTTCGAAGGCCAAACCTGGAGGCATTCAACAGGGCTGTCAAGAGTTTAC

AGAACGCATCAGCAATTGAGAGCATTCTTAAAAATCTCCTGCCATGTCTGCCCCTGGCCACGGC

CGCACCCACGCGACATCCAATCCATATCAAGGACGGTGACTGGAATGAATTCCGGAGGAAACT

GACGTTCTATCTGAAAACCCTTGAGAATGCGCAGGCTCAACAGACGACTTTGAGCCTCGCGAT

CTTTTGAGTCCAACGTCCAGCTCGTTCTCTGGGCCTTCTCACCACAGAGCCTCGGGACATCAAA

AACAGCAGAACTTCTGAAACCTCTGGGTCATCTCTCACACATTCCAGGACCAGAAGCATTTCA

CCTTTTCCTGCGGCATCAGATGAATTGTTAATTATCTAATTTCTGAAATGTGCAGCTCCCATTTGG

CCTTGTGCGGTTGTGTTCTCATTTTTATCCCATTGAGACTATTTATTTATGTATGTATGTATTTATTT

ATTTATTGCCTGGAGTGTGAACTGTATTTATTTTAGCAGAGGAGCCATGTCCTGCTGCTTCTGCA

AAAAACTCAGAGTGGGGTGGGGAGCATGTTCATTTGTACCTCGAGTTTTAAACTGGTTCCTAG

GGATGTGTGAGAATAAACTAGACTCTGAACA

其中有29个CTG，26个CCT，25个TTT，25个AAC，23个AAA，23个CTC，23个ATT，

23个CCA，22个AGA，21个GAA，21个TCC，21个TGA，21个CAT，21个GCC，20个GAG，20个TCT，20个CAA，20个ACA，19个GAC，19个CAG，18个TTC，18个TGC，17个AGC，17个ATG，17个TGT，16个TAT，16个TCA，16个GGA，16个TTA，

15个CTT，15个TGG，15个ACT，14个TTG，14个AAT，14个GCA，14个ACC，14个CCC，14个ATC，12个GGG，12个CAC，12个AAG，12个GCT，11个GTG，10个TAA，

10个AGG，10个GTT，9个GGC，9个ACG，8个CGC，8个CGA，8个GTC，7个GGT，

7个CCG，7个CGG，7个GAT，6个AGT，6个CTA，6个TCG，5个GCG，5个GTA，4个ATA，4个CGT，3个TAG，2个TAC，

对应的基本组分序向量为[CTG，CCT，TTT，AAC，AAA，CTC，ATT，CCA，AGA，GAA，

TCC，TGA，CAT，GCC，GAG，TCT，CAA，ACA，GAC，CAG，TTC，TGC，AGC，ATG，

TGT，TAT，TCA，GGA，TTA，CTT，TGG，ACT，TTG，AAT，GCA，ACC，CCC，ATC，GGG，CAC，AAG，GCT，GTG，TAA，AGG，GTT，GGC，ACG，CGC，CGA，GTC，GGT，CCG，CGG，GAT，AGT，CTA，TCG，GCG，GTA，ATA，CGT，TAG，TAC]

对应的权重向量为[29，26，25，25，23，23，23，23，22，21，21，21，21，21，20，

20，20，20，19，19，18，18，17，17，17，16，16，16，16，15，15，15，14，

14，14，14，14，14，12，12，12，12，11，10，10，10，9，9，8，8，8，7，7，7，7，

6，6，6，5，5，4，4，3，2]

基本组分序向量构建的灵活性主要体现在组分定义上，在蛋白质序列编码中，除以二十个天然氨基酸为基本组分，可以用四百个二肽做基本组分，可以把二十个氨基酸归为七大类别作为基本组分，然后也可以用它们的组合做基本组分，可以加入氨基酸修饰，非天然氨基酸或者它们的组合作为新的基本组分；在蛋白质结构分类中，除以单个氨基酸主链的八类二级结构做基本组分以外，也可以使用8类二级结构的二肽组合共64类基本组分，也可以可以使用主链上二肽的三类二级结构(把原来的八类合并为三类)组合共九类或者三肽的组合共27类作为基本组分，(还可以把序列与局部二级结构组合，比如20类氨基酸和三类二级结构组合为60类基本组分，20类氨基酸和八类二级结构组合成为160类基本组分等等)；在基因(DNA)序列中，可以使用四类碱基的二次方组合共16类基本组分，三次方组合共64类基本组分，四次方组合256类基本组分等等。对于图像数据，可以首先把二维像素矩阵展开(可以按行，按列或者其他确定的映射关系展开)成为序列数据，在此基础上把每个像素点的灰度级别离散化后同颜色一起组合定义为基本组分，例如把灰度使用线性或对数离散化分割成8个组分和RGB三原色结合成为24个基本组分。大范围尺度的基本组分定义则显然需要更加粗粒化否则基本组分会过多。声音信号可以使用倒谱频率等作为基本组分。文本可以使用单个词或者把词分成某些类别后作为基本组分。(总之基本组分的定义非常灵活，但基本组分序向量有效分类的前提是基本组分之间多级复杂的差异性相互作用，在实践中需要尝试寻找较好的定义从而实现卓越分类效果)。

2.组分序向量多叉树的构建

2.1蛋白质序列数据多叉树的构建

把高维数据编码成基本组分序向量后，本技术的关键是构建基本组分序向量多叉树，该多叉树的最大深度(层数)等于基本组分数。例如以20个天然氨基酸作为基本组分的序向量多叉树共20层，第一层最多有20个节点(图一仅显示其中的几个，其余的用省略号取代)，其中每个可以有19个子节点，所以第二层最多可能有380个节点，第n层的最大可能节点数为20！/(20-n)！(！：阶乘)，总数为6613313319248080000。具体各层最大节点数目如下表所示：

下表.20个基本组分对应的基本组分序向量多叉树各层最大节点数；

这些节点究竟有多少个能够对应天然蛋白质序列需要等待未来很多年不停的测序来验证。当前已经测出的天然蛋白质序列分散在不同数据库中，估计数量在几十亿(10¹⁰)以内，而这个序向量多叉树有大约(10¹⁹)个节点，所以很可能是不会填满的，但是仍需强调10¹⁹和20³⁰⁰相比较的差异说明利用基本组分序向量对问题空间的限制，这正是本技术非常高效的最根本原因。利用序向量建树的好处是这个树是个自然的分类器，最上层对应所有蛋白质序列，每深一层分类数目增加，分类变得更细。蛋白质序列基于20类天然氨基酸的基本组分序向量多叉树示意图见图1.

使用基本组分序向量多叉树进行多层次聚类的另外一个根本优越性是每一条数据记录独立处理，因而后续更多数据的加入可以向原来已有的多叉树中进行存贮。以多序列比对为例，目前算法对特定序列数据集进行的多序列比对结果在有后续序列加入时需要从头再来一遍。而基本组分序向量多叉树则提供了一个固定的坐标系，其中不同节点距离表达的定性相似关系可以逐步被定量计算所补充，当我们拥有足够多序列时且完成定量计算后，后续加入的序列与所有其他树中的蛋白质序列的相似关系可以直接从其所在节点推测出来，不需要任何计算。

2.2蛋白质结构数据基本组分序向量多叉树的构建

虽然多序列比对非常昂贵，但却是个定义非常清楚的问题。但目前尚无可靠全自动对多个蛋白质结构进行比较和聚类的方法。我们使用组分序向量多叉树可以在几分钟之内对蛋白质结构数据库(PDB)中所有的蛋白质结构进行多层次。使用8类单个氨基酸DSSP二级结构状态对蛋白质主链结构进行分类使用的多叉树示意图如图2所示。该图中每一层仅展示一个节点的展开，每个节点就是单独一类，距离根节点越远，分类越细。

使用目前的任何超级计算机实现的。以1000000条序列的数据集为例，利用本专利技术分类要比目前的多序列比较技术快大约1000，000，000，000，000倍以上。基于组分序向量多叉树的分类方法可以实现对任意大(只要计算机硬盘空间容许)序列数据集的分类，我们成功对目前最大的单个蛋白质序列数据集(经过处理后190000000条序列)在小型工作站上进行了分类。

2.3由于基本组分定义的灵活性，虽然上述多叉树构建例子都是基于一个基本组分的定义展开的。但也可以使用多个不同基本组分序向量构建多叉树已进行更有效的分类，这些都需要在实践中进行尝试。

3.权重易反转组分的处理。

当两类基本组分的计数相等时，它们的相对排序没有实质性的意义但可能随不同的排序算法而呈现不同的组分序向量，这显然不应该是我们想要的结果。针对这个问题，我们可以规定一个缺省顺序，所有计数相等的基本组分按照确实顺序排序即可解决这一潜在问题。另外大多数相近的序列在组分序向量多叉树中距离较近，但也会出现例外的情况。具体见下例：两条蛋白质序列的组分序向量分别为’ASDFGENQHWY’

和’SADFGENQHWY’，也就是说只有前面两个基本组分互换位置，这种情况对应于这两个序列很相近，它们的前两个基本组分的计数也非常相近的情况，但却因为前两个序列的反转而被存贮到基本序向量多叉树上很远的位置(22步)。我们需要对每一条链因这种原因而在基本组分序向量多叉树较远处的相近序列进行标注(图1第三类节点)，虽然这个过程需要一定的计算和存贮代价，但对每一条记录，计算和存贮代价都是数据类型特定的常数，因此不改变线性时空间复杂度的特性。

上面对本发明的较佳实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域的普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于基本组分序向量的单向编码无监督分类的方法，其特征在于，包括如下步骤：

1).定义基本组分；蛋白质序列数据中定义二十个天然氨基酸作为基本组分，或者二十个天然氨基酸的两次组合，或者首先把二十个氨基酸合并定义为更少类别，包括生物化学教科书通常定义的七类，再对这些类别进行两次或者两次以上组合；

2).对每一条记录，构建基本组分序向量；

3).把基本组分序向量插入到多叉树中，这个过程是每一条记录独立进行的，不需要同所有多叉树中的已有记录比较，这是基本组分序向量无监督分类高效的根本原因；插入时如果发现和落在同一节点的已有记录重复，则放弃该记录；另外，要检查由于个别易反转组分次序形成的在多叉树中非相邻节点但又相似的序列的存在，如果发现则须相互标注；

4).所有记录都录入后多叉树构建完成；树中的每一个节点中的记录和所有后代节点中的记录，以及标注的局部基本组分排序反转对应的非相邻节点中的记录及其后代节点一起为一类，所以是多层次分类，距离根节点越近，则分类越粗略；

5).有新数据时按照上述方法加入即可，原来多叉树中已有的数据记录不受影响。

2.根据权利要求1所述的基于基本组分序向量的单向编码无监督分类的方法，其特征在于，蛋白质结构数据,首先使用DSSP定义的八类单个氨基酸二级结构状态作为基本组分；=；分别是H：α螺旋；G:3₁₀螺旋；I：π螺旋；E：平行β折叠；B：独立β双链；T：氢键转角；S：弯曲；-：卷曲或者把连续两个氨基酸（二肽）的二级结构状态组合定义为基本组分，这样基本组分的数量就有8乘以8共64类，或者同时考虑每个氨基酸的化学类别（共20类氨基酸）和8种二级结构类别定义基本组分，这样共有8乘以20类基本组分，或者其他单个氨基酸二级结构的类定义与序列组分定义的组合。

3.根据权利要求1所述的基于基本组分序向量的单向编码无监督分类的方法，其特征在于， DNA序列基本组分序向量的构建；将ATCG四种碱基以一定的长度进行排列组合，并将这些碱基的排列组合作为基本组分，对RNA序列基本组分序向量的构建则以AUCG四种碱基的排列组合或组合的不同合并类定义基本组分。