CN111243679B

CN111243679B - 微生物群落物种多样性数据的存储检索方法

Info

Publication number: CN111243679B
Application number: CN202010043999.3A
Authority: CN
Inventors: 白明泽; 黄家顺; 覃春园; 邓川
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Guangzhou Dayu Chuangfu Technology Co ltd
Priority date: 2020-01-15
Filing date: 2020-01-15
Publication date: 2023-03-31
Anticipated expiration: 2040-01-15
Also published as: CN111243679A

Abstract

本发明涉及生物信息学领域，具体涉及一种微生物群落物种多样性数据的存储检索方法，包括：确定需要存储到ElasticSearch中的数据；根据ElasticSearch的要求建立存储数据的index；收集并存储数据到ElasticSearch中；构建检索功能获取分类单元的谱系信息；根据分类单元的谱系信息计算肽段对应的分类单元的最小公共祖先，用所有肽段对应的最小公共祖先表示整个微生物群落的物种多样性分布。本发明在ElasticSearch中配置满足相应水解酶水解规则的分词器，不需要编写处理酶切和漏切代码；若蛋白质序列库更新不需要重新计算最小公共祖先进行存储。

Description

微生物群落物种多样性数据的存储检索方法

技术领域

本发明涉及生物信息学领域，具体涉及一种微生物群落物种多样性数据的存储检索方法。

背景技术

ElasticSearch是一个开源的、基于Lucene的搜索服务器，其提供了一个分布式多用户能力的全文搜索引擎。在大数据行业里，ElasticSearch的分布式检索功能便于数据多维度呈现、分析、预测，有利于发挥数据的价值。

在宏蛋白质组学中，以肽段为中心分析微生物群落物种多样性的方法主要是将肽段映射到一个指定的蛋白质序列库，然后计算某一肽段映射到的蛋白质的物种的最小公共祖先。通常，首先需要对蛋白质序列库进行理论酶切，获得肽段，并计算肽段在这个蛋白质序列库中的最小公共祖先，然后将这一信息存储到数据库中，检索时根据输入的肽段获得对应的最小公共祖先。但是上述流程通常会存在以下问题：①需要手动编写处理理论酶切和漏切的代码；②如果新增蛋白质序列到蛋白质序列库中，则需要重新计算最小公共祖先并存储。

发明内容

为了解决上述问题，本发明提供一种微生物群落物种多样性数据的存储检索方法。

一种微生物群落物种多样性数据的存储检索方法，包括以下步骤：

S1、确定需要存储到ElasticSearch中的数据，本发明必须要存储的数据包含蛋白质序列、蛋白质序列对应的分类单元信息以及分类单元的谱系信息，其他信息根据需要存储；所述分类单元的谱系信息是指某一分类单元在界门纲目科属种各个层级的分类单元信息，存在某些分类单元在部分层级没有分类信息的情况。

S2、根据ElasticSearch的要求构建存储数据的index，ElasticSearch中的index就像关系数据库中的“数据库”，在index中的mapping确定index中存储的数据及其类型；所述存储数据的index包括两个index，分别为：①蛋白质序列index：用于存储蛋白质序列和序列对应的分类单元信息；②分类单元谱系index：用于存储分类单元的谱系信息。

S3、收集蛋白质序列、蛋白质序列对应的分类单元信息、分类单元的谱系信息，并存储数据到ElasticSearch中。

S4、构建检索功能获取分类单元的谱系信息：

S41、输入肽段列表并对输入的肽段列表进行预处理，所述预处理包括：去除重复肽段、去除长度小于5或长度大于70的肽段；

S42、使用ElasticSearch检索预处理后的肽段，得到肽段对应的蛋白质信息、分类单元信息；

S43、得到肽段对应的蛋白质及其分类单元信息后，通过分类单元信息查询分类单元谱系index，得到分类单元的谱系信息。

S5、计算肽段对应的分类单元的最小公共祖先，用所有肽段对应的最小公共祖先表示整个微生物群落的物种多样性分布。

进一步的，肽段对应的分类单元的最小公共祖先的计算流程为：从层次“界”到“种”依次扫描每个分类单元的谱系信息，找到最低层次中包含相同分类单元的节点，这个节点对应的分类单元即为最小公共祖先，重复此步骤，直至计算出所有肽段所对应的最小公共祖先。假设某一肽段对应的分类单元的谱系信息如下表所示，从层级“界”开始向右扫描每个分类单元的谱系信息，找到最右边一个包含相同分类单元的节点，这个节点对应的分类单元即为最小公共祖先。其中，在某些层级可能存在缺失值，在计算最小公共祖先时忽略缺失值。下表所示的谱系对应的最小公共祖先为family1，因为在“属”层次包含了两个分类单元。

进一步的，步骤S2中根据ElasticSearch的要求构建存储数据的index具体包括以下步骤：

S21、建立蛋白质序列index；

S211、设置蛋白质序列index的主分片数；

S212、设置蛋白质序列index的mapping，蛋白质序列index的mapping必须定义的字段包含：蛋白质序列和分类单元；

S213、在蛋白质序列字段配置分词器，所述分词器包含三个部分：①characterfilter：用于对蛋白质序列中的单个字符进行处理，将蛋白质序列中的I转换成L；②tokenizer：用于将蛋白质序列切割成肽段，由于不同的水解酶切割位点不同，需要根据选择的水解酶类型配置相应的规则；③token filter：用于去除过长和/或过短的肽段。所述分词器的主要作用是将蛋白质序列切割成肽段序列从而用于ElasticSearch建立倒排索引，这样就不需要手动编写理论酶切代码；同时，在搜索时根据检索的肽段序列通过倒排索引可以直接找到对应的蛋白质序列及其分类单元信息，而不需要进行全文搜索，节约时间；

S22、建立分类单元谱系index；

S221、设置分类单元谱系index的主分片数；

S222、设置分类单元谱系index的mapping，分类单元谱系index的mapping必须定义的字段包含分类单元id、分类单元名和分类单元谱系。

进一步的，步骤S3具体包括：

S31、从公共数据库下载蛋白质序列和序列对应的分类单元信息并存储到蛋白质序列index中，如果蛋白质序列及其分类单元信息分散在不同的公共数据库中则需要依据下载的数据提取相应的信息；

S32、从美国国家生物技术信息中心(NCBI)的taxonomy数据库中下载分类单元的谱系信息，提取分类单元id、分类单元名称和分类单元谱系存储到分类单元谱系index中。

进一步的，步骤S42还包括：确定每条肽段的检索方式。详细步骤为遍历预处理后的肽段列表，依据有无漏切进行分类，针对没有漏切的肽段使用ElasticSearch中的term检索方式，针对存在漏切的肽段使用ElasticSearch中的match_phrase检索方式；在确定检索方式后，还需要根据用户的设置判断是否需要等同异亮氨酸(I)和亮氨酸(L)。若等同异亮氨酸(I)和亮氨酸(L)，则针对蛋白质序列index的seq.eqILSeq字段搜索，若区分异亮氨酸(I)和亮氨酸(L)，则针对蛋白质序列index的seq字段搜索。最终，通过检索能够得到肽段对应的蛋白质及其分类单元信息。这一步骤中，一个肽段会匹配到一个或多个蛋白质，即一个肽段对应一个或多个蛋白质和分类单元。

本发明的有益效果：

1.本发明在ElasticSearch中配置满足相应水解酶水解规则的分词器，不需要编写处理理论酶切和漏切代码。

2.本发明包括分离映射肽段到蛋白质及其物种信息和计算最小公共祖先两个步骤，如果发生蛋白质序列库更新不需要重新计算最小公共祖先进行存储。

附图说明

下面结合附图和具体实施方式对本发明做进一步详细的说明。

图1为本发明实施例的数据处理和存储流程

图2为本发明实施例通过肽段检索物种多样性的流程

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了使本发明的方法更加清楚、完整，以存储和检索NCBI的NR蛋白质序列库为实施例进行详细说明，实施例中选择的水解酶为胰蛋白酶，该水解酶在赖氨酸(K)和精氨酸(R)氨基酸残基的C末端侧切割肽，然而如果脯氨酸(P)残基位于切割位点的羧基侧，则不发生切割。实施例使用的ElasticSearch版本为6.6.1。

步骤1：确定需要存储到ElasticSearch中的数据。本实施例存储的数据如下表所示。

步骤2：根据ElasticSearch的要求构建存储数据的index。首先，通过ElasticSearch的客户端连接ElasticSearch服务器(集群)，然后建立蛋白质序列index：

1)设置蛋白质序列index的主分片数为6；

2)根据步骤1中“蛋白质序列信息”定义的字段创建mapping；

3)在字段seq和seq.eqILSeq上定义分词器。这里定义了两个分词器：①trypsin_analyzer：按照胰蛋白酶水解规则切割蛋白质序列并去除长度超过70的肽段；②equateIL_trypsin_analyzer：具有trypsin_analyzer分词器的全部功能，并且将肽段中的I替换成L。设置两个分词器的目的是使用户既可以搜索区分异亮氨酸(I)和亮氨酸(L)的情况(针对seq字段搜索)，又可以搜索等同异亮氨酸(I)和亮氨酸(L)的情况(针对seq.eqILSeq字段搜索)。

进一步的，所述分词器包括三个部分：character filter、tokenizer和tokenfilters，其中，①character filter：用于对蛋白质序列中的单个字符进行处理。通常，由于无法区分异亮氨酸(I)和亮氨酸(L)，可以设置将蛋白质序列中的I转换成L，equateIL_trypsin_analyzer定义了这种类型的character filter。②tokenizer：用于将蛋白质序列切割成肽段。由于不同的水解酶切割位点不同，因此需要根据选择的水解酶类型配置相应的规则。本实施例使用的水解酶是胰蛋白酶，采用基于正则表达式的tokenizer，具体的水解规则配置为“(？<＝[KR](？！P))”。③token filter：用于去除某些肽段。例如去除某些过长和/或过短的肽段。在本实施例中，使用基于长度过滤肽段的tokenfilter去除长度大于70的肽段。分词器的主要作用是将蛋白质序列切割成肽段序列从而用于ElasticSearch建立倒排索引，这样就不需要手动编写理论酶切代码。同时，在搜索时根据待检索的肽段序列通过倒排索引可以直接找到对应的蛋白质序列及其分类单元信息，而不需要进行全文搜索，节约时间。

蛋白质序列index建立完成后，建立分类单元谱系index：

1)设置分类单元谱系index的分片数为1；

2)根据步骤1中“分类单元谱系信息”定义的字段创建mapping。

步骤3：收集蛋白质序列、蛋白质序列对应的分类单元信息、分类单元的谱系信息，并存储数据到ElasticSearch中。

首先存储蛋白质序列信息：

1)从NCBI下载NR蛋白质序列库(https://ftp.ncbi.nih.gov/blast/db/FASTA/nr.gz)和蛋白质id到分类单元id的映射文件(https://ftp.ncbi.nlm.nih.gov/pub/taxonomy/accession2taxid/prot.accession2taxid.gz和https://ftp.ncbi.nlm.nih.gov/pub/taxonomy/accession2taxid/pdb.accession2taxid.gz)。

2)提取蛋白质id、蛋白质序列、gi和分类单元id。然而，由于这些字段对应的值分散在上述几个文件中，因此需要从这些文件中提取相应信息。但是这些文件大小较大，无法在内存中处理，为了优化这一处理过程，如图1所示，这里使用一种分割-合并的方法，即①按照蛋白质id字段拆分文件，具体来说首先逐一计算nr.gz文件中每条记录蛋白质id的哈希，然后用该哈希对分片数求余，最后将记录写入求余后得到的编号所对应的文件中。同样，对文件prot.accessio n2taxid.gz和pdb.accession2taxid.gz做相同的处理。这样大文件被拆分成小文件，并且对于这两种不同类型的大文件，具有相同蛋白质id的记录处于同一编号对应的小文件中；②将小文件逐一读入内存进行合并，同时提取蛋白质id、蛋白质序列、gi和分类单元id。这样做的好处是可以在内存中完成数据预处理，而不需要先存入数据库再逐一更新，提高了效率，同时对内存的要求比较小。

3)将数据通过ElasticSearch的客户端存储到蛋白质序列index中。

蛋白质序列信息存储完后，接着，存储分类单元的谱系信息：

1)从NCBI下载taxonomy数据库的相关文件(https://ftp.ncbi.nih.gov/pub/taxonomy/taxdump.tar.gz)。

2)解压文件，解析其中的names.dmp和nodes.dmp。从上述两个文件中提取分类单元id、分类单元名称和分类单元的谱系信息；

3)将数据通过ElasticSearch的客户端存储到分类单元谱系index中。

步骤4：构建检索功能获取分类单元的谱系信息。如图2所示构建检索功能获取分类单元的谱系信息包括以下三步：

1)首先输入肽段列表，然后对输入的肽段列表进行预处理，所述预处理包括：去除重复肽段、去除长度小于5和/或长度大于70的肽段。

2)使用ElasticSearch检索预处理后的肽段，得到肽段对应的蛋白质及其物种信息。所述检索流程包括：首先确定每条肽段的检索方式。遍历预处理后的肽段列表，依据有无漏切进行分类，针对没有漏切的肽段使用ElasticSearch中的term检索方式，针对存在漏切的肽段使用ElasticSearch中的match_phrase检索方式；在确定检索方式后，根据用户的设置判断是否需要等同异亮氨酸(I)和亮氨酸(L)。若等同异亮氨酸(I)和亮氨酸(L)，则针对蛋白质序列index的seq.eqILSeq字段搜索，若区分异亮氨酸(I)和亮氨酸(L)，则针对蛋白质序列index的seq字段搜索。最终，通过检索能够得到肽段对应的蛋白质及其分类单元信息。

3)通过分类单元信息查询分类单元谱系index，得到分类单元的谱系信息。此时，已得到肽段对应的蛋白质信息、分类单元信息和分类单元的谱系信息。

步骤5：计算肽段对应的分类单元的最小公共祖先，用所有肽段对应的最小公共祖先表征整个微生物群落的物种多样性分布。计算某一肽段对应的分类单元的最小公共祖先步骤如下：在上一步骤中已检索得到肽段对应的分类单元的谱系信息，针对某一肽段，从层次“界”到“种”依次扫描每个分类单元的谱系信息，找到最低层次中包含相同分类单元的节点，这个节点对应的分类单元即为最小公共祖先。假设某一肽段对应的分类单元的谱系信息如下表所示，从层级“界”开始向右扫描每个分类单元的谱系信息，找到最右边一个包含相同分类单元的节点，这个节点对应的分类单元即为最小公共祖先。其中，在某些层级可能存在缺失值，在计算最小公共祖先时忽略缺失值。下表所示的谱系对应的最小公共祖先为family1，因为在“属”层次包含了两个分类单元。

最后，遍历所有肽段，计算所有的肽段对应的最小公共祖先。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种微生物群落物种多样性数据的存储检索方法，其特征在于，包括以下步骤：

S1、确定需要存储到ElasticSearch中的数据，需要存储的数据包含蛋白质序列、蛋白质序列对应的分类单元信息以及分类单元的谱系信息，其他信息根据需要存储；

S2、根据ElasticSearch的要求建立存储数据的index，在index中的mapping确定index中存储的数据及其类型；所述存储数据的index包括两个index，分别为：①蛋白质序列index：用于存储蛋白质序列和蛋白质序列对应的分类单元信息；②分类单元谱系index：用于存储分类单元的谱系信息；

步骤S2中根据ElasticSearch的要求构建存储数据的index具体包括以下步骤：

S21、建立蛋白质序列index；

S211、设置蛋白质序列index的主分片数；

S212、设置蛋白质序列index的mapping，蛋白质序列index的mapping中的字段包含：蛋白质序列和蛋白质序列对应的分类单元；

S213、在蛋白质序列字段配置分词器；

S22、建立分类单元谱系index；

S221、设置分类单元谱系index的主分片数；

S222、设置分类单元谱系index的mapping，分类单元谱系index的mapping中的字段包含分类单元id、分类单元名和分类单元谱系；

所述分词器包含三个部分：①character filter：用于将蛋白质序列中的异亮氨酸I转换成亮氨酸L；②tokenizer：用于将蛋白质序列切割成肽段，由于不同的水解酶切割位点不同，需要根据选择的水解酶类型配置相应的规则；③token filter：用于去除过长和/或过短的肽段；

S3、收集蛋白质序列、蛋白质序列对应的分类单元信息、分类单元的谱系信息，并存储数据到ElasticSearch中；

S4、构建检索功能获取分类单元的谱系信息；

S42、使用ElasticSearch检索预处理后的肽段，得到肽段对应的蛋白质及其分类单元信息；

S43、得到肽段对应的蛋白质及其分类单元信息后，通过分类单元信息查询分类单元谱系index，得到分类单元的谱系信息；

S5、根据分类单元的谱系信息计算肽段对应的分类单元的最小公共祖先，用所有肽段对应的最小公共祖先表示整个微生物群落的物种多样性分布。

2.根据权利要求1所述的一种微生物群落物种多样性数据的存储检索方法，其特征在于，步骤S3具体包括以下步骤：

S31、从公共数据库下载蛋白质序列和蛋白质序列对应的分类单元信息并存储到蛋白质序列index中；

S32、从公共数据库中的taxonomy数据库中下载分类单元的谱系信息，提取分类单元id、分类单元名称和分类单元谱系并存储到分类单元谱系index中。

3.根据权利要求1所述的一种微生物群落物种多样性数据的存储检索方法，其特征在于，步骤S42包括：

S421、确定每条肽段的检索方式，遍历预处理后的肽段列表，依据有无漏切进行分类，针对没有漏切的肽段使用ElasticSearch中的term检索方式，针对存在漏切的肽段使用ElasticSearch中的match_phrase检索方式；

S422、在确定检索方式后，根据用户的设置判断是否需要等同异亮氨酸I和亮氨酸L，若等同异亮氨酸I和亮氨酸L，则针对蛋白质序列index的seq.eqILSeq字段搜索，若区分异亮氨酸I和亮氨酸L，则针对蛋白质序列index的seq字段搜索，最终，通过检索能够得到肽段对应的蛋白质及其分类单元信息。

4.根据权利要求1所述的一种微生物群落物种多样性数据的存储检索方法，其特征在于，计算肽段对应的分类单元的最小公共祖先的流程为：从层次“界”到“种”依次扫描每个分类单元的谱系信息，找到最低层次中包含相同分类单元的节点，这个节点对应的分类单元即为最小公共祖先，重复此步骤，直至计算出所有肽段所对应的最小公共祖先。