CN105631464A

CN105631464A - 对染色体序列和质粒序列进行分类的方法及装置

Info

Publication number: CN105631464A
Application number: CN201510956205.1A
Authority: CN
Inventors: 周丰丰; 彭超; 王普; 葛瑞泉
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2015-12-18
Filing date: 2015-12-18
Publication date: 2016-06-01
Anticipated expiration: 2035-12-18
Also published as: CN105631464B

Abstract

本发明适用于数据挖掘技术领域，提供了对染色体序列和质粒序列进行分类的方法及装置。该方法包括：获取染色体序列和质粒序列并得到第一训练样本和第二训练样本；提取所有k字符短串及其反向互补序列对的频数特征，生成第一频数特征表和第二频数特征表，其中，k大于或等于2且小于或等于5；从第一频数特征表和第二频数特征表中抽取训练集和测试集，采用卡方检验算法计算训练集中所有特征数据的权重值；采用随机森林算法，并根据权重值满足预设条件的特征数据训练分类模型；根据分类模型对染色体序列和质粒序列进行分类。本发明提高了分类模型的训练效率和训练效果，并提高了对染色体序列和质粒序列进行分类的准确率。

Description

对染色体序列和质粒序列进行分类的方法及装置

技术领域

本发明属于数据挖掘技术领域，尤其涉及对染色体序列和质粒序列进行分类的方法及装置。

背景技术

宏基因组是将环境中多个微生物细胞混在一个样本中，采用基因组测序技术获取样本所有DNA(Deoxyribonucleicacid，脱氧核糖核酸)数据的一种生物组学技术。宏基因组数据提供了所在环境中活跃的所有微生物种群信息，对研究包括人类疾病、生物质能源和自然界生命进化等重大问题具有关键作用。

将DNA提取出来后，由于现有的测序技术只能测序一定长度限制下的序列，因此需要将很长的DNA链打断成片段进行测序。对所有片段完成测序后，需要对片段进行组装，还原DNA序列，从而进行更深层次的分析工作。基因组序列组装，是指在测序工作完成之后，对片段进行组装的过程。正确组装片段还原DNA序列的前提是所有片段来自同一基因组，然而，质粒的存在使这一前提条件很难得到满足。以微生物基因组为例，微生物细胞中的质粒是可以在不同细胞之间转移的环形脱氧核苷酸分子，其可以将部分序列插入到宿主的染色体上，因此在组装序列时，某些片段可能属于外源的质粒序列，而非宿主的染色体序列。因此，在基因组序列的组装过程中，精确检测出属于质粒的片段对进行正确的组装过程非常重要，是DNA序列得以正确还原的重要前提。

检测出质粒序列的问题，可以转化为染色体序列与质粒序列的分类问题。对于微生物物种的染色体序列与质粒序列的分类问题，目前相关方面的研究较少，cBar是仅有的比较有代表性的研究。在cBar中染色体序列和质粒序列以FASTA格式的文本文件进行存储，cBar提取的特征是五字符短串(pentamer)出现的频率特征，即五字符短串出现的频数除以序列的长度，提取特征后，cBar选取了朴素贝叶斯、决策树、神经网络和支持向量机四种算法进行模拟训练，其中，支持向量机学习的模型得到的分类结果最优，分类准确率达到90％。

在实现本发明的过程中，发明人发现现有技术中至少存在如下问题：cBar采用的是五字符短串的频率特征，总共有512个特征，未考虑不同长度的k字符短串(kmer)出现频率的组合效应、以及去除不相关特征的噪音影响，需要通过进一步的分类模型优化研究；cBar方案未进行特征选择，没有选择出最优的特征组合，最优特征组合意味着最优的字符短串组合，对进一步研究染色体序列和质粒序列的差异有重要意义，并且能够提高模型训练的效率和效果；cBar训练得到的最优结果是90％的分类准确率，还具有提高的空间。

发明内容

鉴于此，本发明实施例提供了一种对染色体序列和质粒序列进行分类的方法及装置，以解决现有的对染色体序列和质粒序列进行分类的准确率较低，训练模型的效率较低、效果较差的问题。

第一方面，本发明实施例提供了一种对染色体序列和质粒序列进行分类的方法，包括：

获取染色体序列和质粒序列；

对所述染色体序列和所述质粒序列进行预处理，得到第一训练样本和第二训练样本；

提取所述第一训练样本中所有所述染色体序列的所有k字符短串及其反向互补序列对的频数特征，并生成第一频数特征表，其中，k大于或等于2且小于或等于5；

提取所述第二训练样本中所有所述质粒序列的所有k字符短串及其反向互补序列对的频数特征，并生成第二频数特征表；

从所述第一频数特征表和所述第二频数特征表中随机抽取第一预设比例的特征数据作为训练集，将剩余的所述特征数据作为测试集，采用卡方检验算法计算所述训练集中所有所述特征数据的权重值，并从所述训练集中选取权重值满足预设条件的所述特征数据；

采用随机森林算法，并根据权重值满足所述预设条件的所述特征数据训练分类模型；

根据所述分类模型对所述染色体序列和所述质粒序列进行分类。

第二方面，本发明实施例提供了一种对染色体序列和质粒序列进行分类的装置，包括：

序列获取单元，用于获取染色体序列和质粒序列；

预处理单元，用于对所述染色体序列和所述质粒序列进行预处理，得到第一训练样本和第二训练样本；

第一频数特征表生成单元，用于提取所述第一训练样本中所有所述染色体序列的所有k字符短串及其反向互补序列对的频数特征，并生成第一频数特征表，其中，k大于或等于2且小于或等于5；

第二频数特征表生成单元，用于提取所述第二训练样本中所有所述质粒序列的所有k字符短串及其反向互补序列对的频数特征，并生成第二频数特征表；

第一特征数据选取单元，用于从所述第一频数特征表和所述第二频数特征表中随机抽取第一预设比例的特征数据作为训练集，将剩余的所述特征数据作为测试集，采用卡方检验算法计算所述训练集中所有所述特征数据的权重值，并从所述训练集中选取权重值满足预设条件的所述特征数据；

分类模型训练单元，用于采用随机森林算法，并根据权重值满足所述预设条件的所述特征数据训练分类模型；

分类单元，用于根据所述分类模型对所述染色体序列和所述质粒序列进行分类。

本发明实施例与现有技术相比存在的有益效果是：本发明实施例通过提取染色体序列和质粒序列中所有k字符短串及其反向互补序列对的频数特征，优化了分类模型；通过结合卡方检验算法与随机森林算法，从训练集中选取权重值满足预设条件的特征数据，提高了分类模型的训练效率和训练效果；提高了对染色体序列和质粒序列进行分类的准确率，分类准确率超过95％。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的对染色体序列和质粒序列进行分类的方法的实现流程图；

图2是本发明实施例提供的对染色体序列和质粒序列进行分类的方法步骤S102的具体实现流程图；

图3是本发明实施例提供的对染色体序列和质粒序列进行分类的装置的结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

图1示出了本发明实施例提供的对染色体序列和质粒序列进行分类的方法的实现流程图，详述如下：

在步骤S101中，获取染色体序列和质粒序列。

例如，从美国国家生物信息中心获取所有已测序完成的细菌(Bacteria)的染色体序列和质粒序列，其中染色体序列2044条，质粒序列3198条，将这些数据作为实验数据。

在步骤S102中，对染色体序列和质粒序列进行预处理，得到第一训练样本和第二训练样本。

其中，第一训练样本是染色体序列对应的训练样本，是正类训练样本；第二训练样本是质粒序列对应的训练样本，是负类训练样本。

在步骤S103中，提取第一训练样本中所有染色体序列的所有k字符短串及其反向互补序列对的频数特征，并生成第一频数特征表，其中，k大于或等于2且小于或等于5。

在步骤S104中，提取第二训练样本中所有质粒序列的所有k字符短串及其反向互补序列对的频数特征，并生成第二频数特征表。

由于卡方检测算法要求特征必须为离散属性，因此在本发明实施例中提取的特征为k取值2至5之间的所有k字符短串与其反向互补序列对出现的频数特征，总共690个特征。将染色体序列和质粒序列转换为数值特征后，将染色体序列的类标设置为1，质粒序列的类标设置为0。

对于第一训练样本中的染色体序列，所有的字符短串及其反向互补序列对的个数为690，例如第一训练样本包括4915条染色体序列，则创建一张4925行、690列的第一频数特征表，该第一频数特征表中的每一行代表一条染色体序列，每一列代表一个字符短串及其反向互补序列对。每一对组合被映射到对应的下标中，当一对组合出现在一条染色体序列中，二维表对应的位置加1。对于第二训练样本中的质粒序列，所有的字符短串及其反向互补序列对的个数为690，例如第二训练样本包括3198条质粒序列，则创建一张3198行、690列的第二频数特征表。

表1

表1是染色体序列和质粒序列被转换为数值数据的示意表格，表1中的每一行代表一条序列，每一列代表一个特征。

在本发明实施例中，提取的特征为第一训练样本中的染色体序列和第二训练样本中的质粒序列的A、C、G和T四个碱基组组成的所有k字符短串及其反向互补序列对的频数特征。当k为奇数时，反向互补序列对的数目为N(k)＝4k/2；当k为偶数时，反向互补序列对的数目为N(k)＝(4k+4k/2)/2。

在步骤S105中，从第一频数特征表和第二频数特征表中随机抽取第一预设比例的特征数据作为训练集，将剩余的特征数据作为测试集，采用卡方检验算法计算训练集中所有特征数据的权重值，并从训练集中选取权重值满足预设条件的特征数据。

例如，第一预设比例可以为90％，在每次抽取训练集和测试集时，采用十折交叉验证的方法，抽取90％的特征数据作为训练集，剩余10％的特征数据作为测试集。

需要说明的是，还可以选择留一叉验证法或者五折交叉验证法等进行特征数据的抽取和分类模型的训练，在此不作限定。

卡方检验算法用于计算特征数据t_k与类别c_i之间的卡方值，计算公式为

χ^{2} (t_{k}, c_{i}) = \frac{N {(a_{k i} d_{k i} - b_{k i} c_{k i})}^{2}}{(a_{k i} + b_{k i}) (a_{k i} + c_{k i}) (b_{k i} + d_{k i}) (c_{k i} + d_{k i})} .

卡方值越小，表明特征数据t_k与类别c_i的独立性越强，即特征数据t_k与类别c_i的关联性越弱，特征数据t_k的分类能力越弱；卡方值越大，表明特征数据t_k与类别c_i之间的关联性越强，特征数据t_k的分类能力越强。特征数据的权重值可以特征数据的卡方值确定，特征数据的卡方值越大，权重值越大；特征数据的卡方值越小，权重值越小。

优选地，从训练集中选取权重值满足预设条件的特征数据具体为：将训练集中的所有特征数据按照权重值由大到小的顺序降序排序；从降序排序的特征数据中选取排序靠前的多个特征数据。

表2

表2中的attr_importance表示权重值，表2是对特征数据进行降序排序的示意表格。通过十折交叉验证，每次卡方检验算法对特征数据的排序都有略微的差别，但是排序在前的特征数据的集合基本保持一致，每次只有小的排名波动，例如第一次选出的最重要的特征数据是第27个特征数据，但第二次第27个特征数据排名降为第二，第2个特征数据也有这种表现，但是都是比较小的波动，这意味着，每次选择的前10到前100个特征数据都是非常相似的特征数据的组合，对分类结果不会造成偏差。

进一步地，在从训练集中选取权重值满足预设条件的特征数据之后，采用随机森林算法，并根据权重值满足预设条件的特征数据训练分类模型之前，该方法还包括：根据权重值满足预设条件的特征数据重新构建训练集和测试集，采用卡方检验算法计算重新构建的训练集中所有特征数据的权重值，并从重新构建的训练集中选取权重值满足预设条件的特征数据。

作为本发明的一个实施例，在第一次构建的训练集中选取权重值排序最靠前的10个特征数据；结合这10个特征数据构建第二个训练集，从第二个训练集中选取权重值排序最靠前的20个特征数据；结合这20个特征数据构建第三个训练集，从第三个训练集中选取权重值排序最靠前的30个特征数据；以此类推，依次构建第四个训练集至第十个训练集，依次选取40个至100个特征数据。根据所有选取的权重值满足预设条件的特征数据训练分类模型。

在步骤S106中，采用随机森林算法，并根据权重值满足预设条件的特征数据训练分类模型。

随机森林算是是基于决策树的数据挖掘分类算法，它集成了多棵决策树，通过有放回采样输入样本和特征数据来建立一棵决策树。在每次输入样本进行分类时，每棵决策树对样本所属的类进行投票，输出选择得票最多的类。

在本发明实施例中，可设置随机森林算法每次训练500棵决策树，以信息增益作为分裂准则。这500棵决策树对每条测试序列所属的类进行预测，最后选择得票最多的类作为输出。

优选地，在根据权重值满足预设条件的特征数据训练分类模型之后，该方法还包括：通过测试集计算分类模型对应的曲线面积、特异性和/或敏感度，以测试分类模型的准确性。

其中，曲线面积(AUC，AreaUndertheCurve)表示ROC(ReceiverOperationCharacteristic，受试者工作特征)曲线下的面积，可用于衡量分类模型的分类准确性；特异性(Specificity)用于识别二分类器负样本的准确率；敏感度(Sensitivity)用于识别二分类器正样本的准确率。

按照对特征数据的权重值进行排序的结果，依次选择前10到前100的特征数据的集合，每次增加10个特征数据，得到的数据表现如表3所示，不进行特征数据的选择，采用所有的690个特征进行分类模型的训练，得到的分类模型的分类效果是，曲线面积达到0.97631，表示有97.631％的数据被分类正确。选择前10个特征时，分类模型的曲线面积为0.953309，表示有95.3309％的数据被分类正确，从选择前20个特征数据开始，有96％以上的数据被分类正确，到前100个特征数据时，三项指标已非常接近全特征模型的结果，且负样本的识别准确率即质粒序列的识别准确率普遍高于90％，大于全特征时的结果。

表3

在步骤S107中，根据分类模型对染色体序列和质粒序列进行分类。

图2示出了本发明实施例提供的对染色体序列和质粒序列进行分类的方法步骤S102的具体实现流程图，参照图2：

在步骤S201中，对染色体序列和质粒序列进行同源性比对，找出染色体序列上质粒片段的位置；

在步骤S202中，对染色体序列进行切割，并去除质粒片段；

在步骤S203中，从切割后的所有染色体序列中抽取长度大于第一预设值的染色体序列作为第一训练样本，并将质粒序列作为第二训练样本。

可移动的质粒分子以较高频率侵入宿主细胞的染色体序列中，与染色体序列进行拼接，导致染色体序列含有大量的质粒序列片段。为了保证分类模型的准确性，需要对染色体序列进行预处理，找出每条染色体序列中含有的质粒片段，并去除这些质粒片段。在具体实现时，可采用NCBIBLAST软件包的BLASTN功能对染色体序列进行切割并去除质粒片段。2044条染色体序列在进行比对和切割之后，得到955102条染色体序列，该数量大大超过3098条的质粒序列，会导致正负样本训练集失去平衡，导致分类模型的分类效果不佳，因此，从切割后的所有染色体序列中抽取长度大于第一预设值的染色体序列作为第一训练样本，例如，抽取4915条长度大于20000碱基组的染色体序列作为第一训练样本。

应理解，在本发明实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

本发明实施例通过提取染色体序列和质粒序列中所有k字符短串及其反向互补序列对的频数特征，优化了分类模型；通过结合卡方检验算法与随机森林算法，从训练集中选取权重值满足预设条件的特征数据，提高了分类模型的训练效率和训练效果；提高了对染色体序列和质粒序列进行分类的准确率，分类准确率超过95％。

图3示出了本发明实施例提供的对染色体序列和质粒序列进行分类的装置的结构框图，该装置可以用于运行图1或图2所示的对染色体序列和质粒序列进行分类的方法。为了便于说明，仅示出了与本发明实施例相关的部分。

参照图3，该装置包括：

序列获取单元31，用于获取染色体序列和质粒序列；

预处理单元32，用于对所述染色体序列和所述质粒序列进行预处理，得到第一训练样本和第二训练样本；

第一频数特征表生成单元33，用于提取所述第一训练样本中所有所述染色体序列的所有k字符短串及其反向互补序列对的频数特征，并生成第一频数特征表，其中，k大于或等于2且小于或等于5；

第二频数特征表生成单元34，用于提取所述第二训练样本中所有所述质粒序列的所有k字符短串及其反向互补序列对的频数特征，并生成第二频数特征表；

第一特征数据选取单元35，用于从所述第一频数特征表和所述第二频数特征表中随机抽取第一预设比例的特征数据作为训练集，将剩余的所述特征数据作为测试集，采用卡方检验算法计算所述训练集中所有所述特征数据的权重值，并从所述训练集中选取权重值满足预设条件的所述特征数据；

分类模型训练单元36，用于采用随机森林算法，并根据权重值满足所述预设条件的所述特征数据训练分类模型；

分类单元37，用于根据所述分类模型对所述染色体序列和所述质粒序列进行分类。

优选地，所述预处理单元32包括：

质粒片段位置确定子单元321，用于对所述染色体序列和所述质粒序列进行同源性比对，找出所述染色体序列上质粒片段的位置；

质粒片段去除子单元322，用于对所述染色体序列进行切割，并去除所述质粒片段；

训练样本生成子单元323，用于从切割后的所有所述染色体序列中抽取长度大于第一预设值的所述染色体序列作为第一训练样本，并将所述质粒序列作为第二训练样本。

优选地，所述第一特征数据选取单元35包括：

排序子单元351，用于将所述训练集中的所有所述特征数据按照权重值由大到小的顺序降序排序；

选取子单元352，用于从降序排序的所述特征数据中选取排序靠前的多个所述特征数据。

进一步地，所述装置还包括：

第二特征数据选取单元38，用于根据权重值满足所述预设条件的所述特征数据重新构建所述训练集和所述测试集，采用卡方检验算法计算重新构建的所述训练集中所有所述特征数据的权重值，并从重新构建的所述训练集中选取权重值满足所述预设条件的所述特征数据。

优选地，所述装置还包括：

分类模型测试单元39，用于通过所述测试集计算所述分类模型对应的曲线面积、特异性和/或敏感度，以测试所述分类模型的准确性。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种对染色体序列和质粒序列进行分类的方法，其特征在于，包括：

获取染色体序列和质粒序列；

2.如权利要求1所述的方法，其特征在于，所述对所述染色体序列和所述质粒序列进行预处理，得到第一训练样本和第二训练样本包括：

对所述染色体序列和所述质粒序列进行同源性比对，找出所述染色体序列上质粒片段的位置；

对所述染色体序列进行切割，并去除所述质粒片段；

从切割后的所有所述染色体序列中抽取长度大于第一预设值的所述染色体序列作为第一训练样本，并将所述质粒序列作为第二训练样本。

3.如权利要求1所述的方法，其特征在于，所述从所述训练集中选取权重值满足预设条件的所述特征数据具体为：

将所述训练集中的所有所述特征数据按照权重值由大到小的顺序降序排序；

从降序排序的所述特征数据中选取排序靠前的多个所述特征数据。

4.如权利要求1所述的方法，其特征在于，在所述从所述训练集中选取权重值满足预设条件的所述特征数据之后，所述采用随机森林算法，并根据权重值满足所述预设条件的所述特征数据训练分类模型之前，所述方法还包括：

根据权重值满足所述预设条件的所述特征数据重新构建所述训练集和所述测试集，采用卡方检验算法计算重新构建的所述训练集中所有所述特征数据的权重值，并从重新构建的所述训练集中选取权重值满足所述预设条件的所述特征数据。

5.如权利要求1所述的方法，其特征在于，在所述根据权重值满足预设条件的所述特征数据训练分类模型之后，所述方法还包括：

通过所述测试集计算所述分类模型对应的曲线面积、特异性和/或敏感度，以测试所述分类模型的准确性。

6.一种对染色体序列和质粒序列进行分类的装置，其特征在于，包括：

序列获取单元，用于获取染色体序列和质粒序列；

7.如权利要求6所述的装置，其特征在于，所述预处理单元包括：

质粒片段位置确定子单元，用于对所述染色体序列和所述质粒序列进行同源性比对，找出所述染色体序列上质粒片段的位置；

质粒片段去除子单元，用于对所述染色体序列进行切割，并去除所述质粒片段；

训练样本生成子单元，用于从切割后的所有所述染色体序列中抽取长度大于第一预设值的所述染色体序列作为第一训练样本，并将所述质粒序列作为第二训练样本。

8.如权利要求6所述的装置，其特征在于，所述第一特征数据选取单元包括：

排序子单元，用于将所述训练集中的所有所述特征数据按照权重值由大到小的顺序降序排序；

选取子单元，用于从降序排序的所述特征数据中选取排序靠前的多个所述特征数据。

9.如权利要求6所述的装置，其特征在于，所述装置还包括：

第二特征数据选取单元，用于根据权重值满足所述预设条件的所述特征数据重新构建所述训练集和所述测试集，采用卡方检验算法计算重新构建的所述训练集中所有所述特征数据的权重值，并从重新构建的所述训练集中选取权重值满足所述预设条件的所述特征数据。

10.如权利要求6所述的装置，其特征在于，所述装置还包括：

分类模型测试单元，用于通过所述测试集计算所述分类模型对应的曲线面积、特异性和/或敏感度，以测试所述分类模型的准确性。