CN111243679B - 微生物群落物种多样性数据的存储检索方法 - Google Patents

微生物群落物种多样性数据的存储检索方法 Download PDF

Info

Publication number
CN111243679B
CN111243679B CN202010043999.3A CN202010043999A CN111243679B CN 111243679 B CN111243679 B CN 111243679B CN 202010043999 A CN202010043999 A CN 202010043999A CN 111243679 B CN111243679 B CN 111243679B
Authority
CN
China
Prior art keywords
classification unit
protein sequence
index
information
pedigree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010043999.3A
Other languages
English (en)
Other versions
CN111243679A (zh
Inventor
白明泽
黄家顺
覃春园
邓川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Dayu Chuangfu Technology Co ltd
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202010043999.3A priority Critical patent/CN111243679B/zh
Publication of CN111243679A publication Critical patent/CN111243679A/zh
Application granted granted Critical
Publication of CN111243679B publication Critical patent/CN111243679B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioethics (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及生物信息学领域,具体涉及一种微生物群落物种多样性数据的存储检索方法,包括:确定需要存储到ElasticSearch中的数据;根据ElasticSearch的要求建立存储数据的index;收集并存储数据到ElasticSearch中;构建检索功能获取分类单元的谱系信息;根据分类单元的谱系信息计算肽段对应的分类单元的最小公共祖先,用所有肽段对应的最小公共祖先表示整个微生物群落的物种多样性分布。本发明在ElasticSearch中配置满足相应水解酶水解规则的分词器,不需要编写处理酶切和漏切代码;若蛋白质序列库更新不需要重新计算最小公共祖先进行存储。

Description

微生物群落物种多样性数据的存储检索方法
技术领域
本发明涉及生物信息学领域,具体涉及一种微生物群落物种多样性数据的存储检索方法。
背景技术
ElasticSearch是一个开源的、基于Lucene的搜索服务器,其提供了一个分布式多用户能力的全文搜索引擎。在大数据行业里,ElasticSearch的分布式检索功能便于数据多维度呈现、分析、预测,有利于发挥数据的价值。
在宏蛋白质组学中,以肽段为中心分析微生物群落物种多样性的方法主要是将肽段映射到一个指定的蛋白质序列库,然后计算某一肽段映射到的蛋白质的物种的最小公共祖先。通常,首先需要对蛋白质序列库进行理论酶切,获得肽段,并计算肽段在这个蛋白质序列库中的最小公共祖先,然后将这一信息存储到数据库中,检索时根据输入的肽段获得对应的最小公共祖先。但是上述流程通常会存在以下问题:①需要手动编写处理理论酶切和漏切的代码;②如果新增蛋白质序列到蛋白质序列库中,则需要重新计算最小公共祖先并存储。
发明内容
为了解决上述问题,本发明提供一种微生物群落物种多样性数据的存储检索方法。
一种微生物群落物种多样性数据的存储检索方法,包括以下步骤:
S1、确定需要存储到ElasticSearch中的数据,本发明必须要存储的数据包含蛋白质序列、蛋白质序列对应的分类单元信息以及分类单元的谱系信息,其他信息根据需要存储;所述分类单元的谱系信息是指某一分类单元在界门纲目科属种各个层级的分类单元信息,存在某些分类单元在部分层级没有分类信息的情况。
S2、根据ElasticSearch的要求构建存储数据的index,ElasticSearch中的index就像关系数据库中的“数据库”,在index中的mapping确定index中存储的数据及其类型;所述存储数据的index包括两个index,分别为:①蛋白质序列index:用于存储蛋白质序列和序列对应的分类单元信息;②分类单元谱系index:用于存储分类单元的谱系信息。
S3、收集蛋白质序列、蛋白质序列对应的分类单元信息、分类单元的谱系信息,并存储数据到ElasticSearch中。
S4、构建检索功能获取分类单元的谱系信息:
S41、输入肽段列表并对输入的肽段列表进行预处理,所述预处理包括:去除重复肽段、去除长度小于5或长度大于70的肽段;
S42、使用ElasticSearch检索预处理后的肽段,得到肽段对应的蛋白质信息、分类单元信息;
S43、得到肽段对应的蛋白质及其分类单元信息后,通过分类单元信息查询分类单元谱系index,得到分类单元的谱系信息。
S5、计算肽段对应的分类单元的最小公共祖先,用所有肽段对应的最小公共祖先表示整个微生物群落的物种多样性分布。
进一步的,肽段对应的分类单元的最小公共祖先的计算流程为:从层次“界”到“种”依次扫描每个分类单元的谱系信息,找到最低层次中包含相同分类单元的节点,这个节点对应的分类单元即为最小公共祖先,重复此步骤,直至计算出所有肽段所对应的最小公共祖先。假设某一肽段对应的分类单元的谱系信息如下表所示,从层级“界”开始向右扫描每个分类单元的谱系信息,找到最右边一个包含相同分类单元的节点,这个节点对应的分类单元即为最小公共祖先。其中,在某些层级可能存在缺失值,在计算最小公共祖先时忽略缺失值。下表所示的谱系对应的最小公共祖先为family1,因为在“属”层次包含了两个分类单元。
Figure GDA0004083075050000021
Figure GDA0004083075050000031
进一步的,步骤S2中根据ElasticSearch的要求构建存储数据的index具体包括以下步骤:
S21、建立蛋白质序列index;
S211、设置蛋白质序列index的主分片数;
S212、设置蛋白质序列index的mapping,蛋白质序列index的mapping必须定义的字段包含:蛋白质序列和分类单元;
S213、在蛋白质序列字段配置分词器,所述分词器包含三个部分:①characterfilter:用于对蛋白质序列中的单个字符进行处理,将蛋白质序列中的I转换成L;②tokenizer:用于将蛋白质序列切割成肽段,由于不同的水解酶切割位点不同,需要根据选择的水解酶类型配置相应的规则;③token filter:用于去除过长和/或过短的肽段。所述分词器的主要作用是将蛋白质序列切割成肽段序列从而用于ElasticSearch建立倒排索引,这样就不需要手动编写理论酶切代码;同时,在搜索时根据检索的肽段序列通过倒排索引可以直接找到对应的蛋白质序列及其分类单元信息,而不需要进行全文搜索,节约时间;
S22、建立分类单元谱系index;
S221、设置分类单元谱系index的主分片数;
S222、设置分类单元谱系index的mapping,分类单元谱系index的mapping必须定义的字段包含分类单元id、分类单元名和分类单元谱系。
进一步的,步骤S3具体包括:
S31、从公共数据库下载蛋白质序列和序列对应的分类单元信息并存储到蛋白质序列index中,如果蛋白质序列及其分类单元信息分散在不同的公共数据库中则需要依据下载的数据提取相应的信息;
S32、从美国国家生物技术信息中心(NCBI)的taxonomy数据库中下载分类单元的谱系信息,提取分类单元id、分类单元名称和分类单元谱系存储到分类单元谱系index中。
进一步的,步骤S42还包括:确定每条肽段的检索方式。详细步骤为遍历预处理后的肽段列表,依据有无漏切进行分类,针对没有漏切的肽段使用ElasticSearch中的term检索方式,针对存在漏切的肽段使用ElasticSearch中的match_phrase检索方式;在确定检索方式后,还需要根据用户的设置判断是否需要等同异亮氨酸(I)和亮氨酸(L)。若等同异亮氨酸(I)和亮氨酸(L),则针对蛋白质序列index的seq.eqILSeq字段搜索,若区分异亮氨酸(I)和亮氨酸(L),则针对蛋白质序列index的seq字段搜索。最终,通过检索能够得到肽段对应的蛋白质及其分类单元信息。这一步骤中,一个肽段会匹配到一个或多个蛋白质,即一个肽段对应一个或多个蛋白质和分类单元。
本发明的有益效果:
1.本发明在ElasticSearch中配置满足相应水解酶水解规则的分词器,不需要编写处理理论酶切和漏切代码。
2.本发明包括分离映射肽段到蛋白质及其物种信息和计算最小公共祖先两个步骤,如果发生蛋白质序列库更新不需要重新计算最小公共祖先进行存储。
附图说明
下面结合附图和具体实施方式对本发明做进一步详细的说明。
图1为本发明实施例的数据处理和存储流程
图2为本发明实施例通过肽段检索物种多样性的流程
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了使本发明的方法更加清楚、完整,以存储和检索NCBI的NR蛋白质序列库为实施例进行详细说明,实施例中选择的水解酶为胰蛋白酶,该水解酶在赖氨酸(K)和精氨酸(R)氨基酸残基的C末端侧切割肽,然而如果脯氨酸(P)残基位于切割位点的羧基侧,则不发生切割。实施例使用的ElasticSearch版本为6.6.1。
步骤1:确定需要存储到ElasticSearch中的数据。本实施例存储的数据如下表所示。
Figure GDA0004083075050000051
步骤2:根据ElasticSearch的要求构建存储数据的index。首先,通过ElasticSearch的客户端连接ElasticSearch服务器(集群),然后建立蛋白质序列index:
1)设置蛋白质序列index的主分片数为6;
2)根据步骤1中“蛋白质序列信息”定义的字段创建mapping;
3)在字段seq和seq.eqILSeq上定义分词器。这里定义了两个分词器:①trypsin_analyzer:按照胰蛋白酶水解规则切割蛋白质序列并去除长度超过70的肽段;②equateIL_trypsin_analyzer:具有trypsin_analyzer分词器的全部功能,并且将肽段中的I替换成L。设置两个分词器的目的是使用户既可以搜索区分异亮氨酸(I)和亮氨酸(L)的情况(针对seq字段搜索),又可以搜索等同异亮氨酸(I)和亮氨酸(L)的情况(针对seq.eqILSeq字段搜索)。
进一步的,所述分词器包括三个部分:character filter、tokenizer和tokenfilters,其中,①character filter:用于对蛋白质序列中的单个字符进行处理。通常,由于无法区分异亮氨酸(I)和亮氨酸(L),可以设置将蛋白质序列中的I转换成L,equateIL_trypsin_analyzer定义了这种类型的character filter。②tokenizer:用于将蛋白质序列切割成肽段。由于不同的水解酶切割位点不同,因此需要根据选择的水解酶类型配置相应的规则。本实施例使用的水解酶是胰蛋白酶,采用基于正则表达式的tokenizer,具体的水解规则配置为“(?<=[KR](?!P))”。③token filter:用于去除某些肽段。例如去除某些过长和/或过短的肽段。在本实施例中,使用基于长度过滤肽段的tokenfilter去除长度大于70的肽段。分词器的主要作用是将蛋白质序列切割成肽段序列从而用于ElasticSearch建立倒排索引,这样就不需要手动编写理论酶切代码。同时,在搜索时根据待检索的肽段序列通过倒排索引可以直接找到对应的蛋白质序列及其分类单元信息,而不需要进行全文搜索,节约时间。
蛋白质序列index建立完成后,建立分类单元谱系index:
1)设置分类单元谱系index的分片数为1;
2)根据步骤1中“分类单元谱系信息”定义的字段创建mapping。
步骤3:收集蛋白质序列、蛋白质序列对应的分类单元信息、分类单元的谱系信息,并存储数据到ElasticSearch中。
首先存储蛋白质序列信息:
1)从NCBI下载NR蛋白质序列库(https://ftp.ncbi.nih.gov/blast/db/FASTA/nr.gz)和蛋白质id到分类单元id的映射文件(https://ftp.ncbi.nlm.nih.gov/pub/taxonomy/accession2taxid/prot.accession2taxid.gz和https://ftp.ncbi.nlm.nih.gov/pub/taxonomy/accession2taxid/pdb.accession2taxid.gz)。
2)提取蛋白质id、蛋白质序列、gi和分类单元id。然而,由于这些字段对应的值分散在上述几个文件中,因此需要从这些文件中提取相应信息。但是这些文件大小较大,无法在内存中处理,为了优化这一处理过程,如图1所示,这里使用一种分割-合并的方法,即①按照蛋白质id字段拆分文件,具体来说首先逐一计算nr.gz文件中每条记录蛋白质id的哈希,然后用该哈希对分片数求余,最后将记录写入求余后得到的编号所对应的文件中。同样,对文件prot.accessio n2taxid.gz和pdb.accession2taxid.gz做相同的处理。这样大文件被拆分成小文件,并且对于这两种不同类型的大文件,具有相同蛋白质id的记录处于同一编号对应的小文件中;②将小文件逐一读入内存进行合并,同时提取蛋白质id、蛋白质序列、gi和分类单元id。这样做的好处是可以在内存中完成数据预处理,而不需要先存入数据库再逐一更新,提高了效率,同时对内存的要求比较小。
3)将数据通过ElasticSearch的客户端存储到蛋白质序列index中。
蛋白质序列信息存储完后,接着,存储分类单元的谱系信息:
1)从NCBI下载taxonomy数据库的相关文件(https://ftp.ncbi.nih.gov/pub/taxonomy/taxdump.tar.gz)。
2)解压文件,解析其中的names.dmp和nodes.dmp。从上述两个文件中提取分类单元id、分类单元名称和分类单元的谱系信息;
3)将数据通过ElasticSearch的客户端存储到分类单元谱系index中。
步骤4:构建检索功能获取分类单元的谱系信息。如图2所示构建检索功能获取分类单元的谱系信息包括以下三步:
1)首先输入肽段列表,然后对输入的肽段列表进行预处理,所述预处理包括:去除重复肽段、去除长度小于5和/或长度大于70的肽段。
2)使用ElasticSearch检索预处理后的肽段,得到肽段对应的蛋白质及其物种信息。所述检索流程包括:首先确定每条肽段的检索方式。遍历预处理后的肽段列表,依据有无漏切进行分类,针对没有漏切的肽段使用ElasticSearch中的term检索方式,针对存在漏切的肽段使用ElasticSearch中的match_phrase检索方式;在确定检索方式后,根据用户的设置判断是否需要等同异亮氨酸(I)和亮氨酸(L)。若等同异亮氨酸(I)和亮氨酸(L),则针对蛋白质序列index的seq.eqILSeq字段搜索,若区分异亮氨酸(I)和亮氨酸(L),则针对蛋白质序列index的seq字段搜索。最终,通过检索能够得到肽段对应的蛋白质及其分类单元信息。
3)通过分类单元信息查询分类单元谱系index,得到分类单元的谱系信息。此时,已得到肽段对应的蛋白质信息、分类单元信息和分类单元的谱系信息。
步骤5:计算肽段对应的分类单元的最小公共祖先,用所有肽段对应的最小公共祖先表征整个微生物群落的物种多样性分布。计算某一肽段对应的分类单元的最小公共祖先步骤如下:在上一步骤中已检索得到肽段对应的分类单元的谱系信息,针对某一肽段,从层次“界”到“种”依次扫描每个分类单元的谱系信息,找到最低层次中包含相同分类单元的节点,这个节点对应的分类单元即为最小公共祖先。假设某一肽段对应的分类单元的谱系信息如下表所示,从层级“界”开始向右扫描每个分类单元的谱系信息,找到最右边一个包含相同分类单元的节点,这个节点对应的分类单元即为最小公共祖先。其中,在某些层级可能存在缺失值,在计算最小公共祖先时忽略缺失值。下表所示的谱系对应的最小公共祖先为family1,因为在“属”层次包含了两个分类单元。
Figure GDA0004083075050000081
Figure GDA0004083075050000091
最后,遍历所有肽段,计算所有的肽段对应的最小公共祖先。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (4)

1.一种微生物群落物种多样性数据的存储检索方法,其特征在于,包括以下步骤:
S1、确定需要存储到ElasticSearch中的数据,需要存储的数据包含蛋白质序列、蛋白质序列对应的分类单元信息以及分类单元的谱系信息,其他信息根据需要存储;
S2、根据ElasticSearch的要求建立存储数据的index,在index中的mapping确定index中存储的数据及其类型;所述存储数据的index包括两个index,分别为:①蛋白质序列index:用于存储蛋白质序列和蛋白质序列对应的分类单元信息;②分类单元谱系index:用于存储分类单元的谱系信息;
步骤S2中根据ElasticSearch的要求构建存储数据的index具体包括以下步骤:
S21、建立蛋白质序列index;
S211、设置蛋白质序列index的主分片数;
S212、设置蛋白质序列index的mapping,蛋白质序列index的mapping中的字段包含:蛋白质序列和蛋白质序列对应的分类单元;
S213、在蛋白质序列字段配置分词器;
S22、建立分类单元谱系index;
S221、设置分类单元谱系index的主分片数;
S222、设置分类单元谱系index的mapping,分类单元谱系index的mapping中的字段包含分类单元id、分类单元名和分类单元谱系;
所述分词器包含三个部分:①character filter:用于将蛋白质序列中的异亮氨酸I转换成亮氨酸L;②tokenizer:用于将蛋白质序列切割成肽段,由于不同的水解酶切割位点不同,需要根据选择的水解酶类型配置相应的规则;③token filter:用于去除过长和/或过短的肽段;
S3、收集蛋白质序列、蛋白质序列对应的分类单元信息、分类单元的谱系信息,并存储数据到ElasticSearch中;
S4、构建检索功能获取分类单元的谱系信息;
S41、输入肽段列表并对输入的肽段列表进行预处理,所述预处理包括:去除重复肽段、去除长度小于5或长度大于70的肽段;
S42、使用ElasticSearch检索预处理后的肽段,得到肽段对应的蛋白质及其分类单元信息;
S43、得到肽段对应的蛋白质及其分类单元信息后,通过分类单元信息查询分类单元谱系index,得到分类单元的谱系信息;
S5、根据分类单元的谱系信息计算肽段对应的分类单元的最小公共祖先,用所有肽段对应的最小公共祖先表示整个微生物群落的物种多样性分布。
2.根据权利要求1所述的一种微生物群落物种多样性数据的存储检索方法,其特征在于,步骤S3具体包括以下步骤:
S31、从公共数据库下载蛋白质序列和蛋白质序列对应的分类单元信息并存储到蛋白质序列index中;
S32、从公共数据库中的taxonomy数据库中下载分类单元的谱系信息,提取分类单元id、分类单元名称和分类单元谱系并存储到分类单元谱系index中。
3.根据权利要求1所述的一种微生物群落物种多样性数据的存储检索方法,其特征在于,步骤S42包括:
S421、确定每条肽段的检索方式,遍历预处理后的肽段列表,依据有无漏切进行分类,针对没有漏切的肽段使用ElasticSearch中的term检索方式,针对存在漏切的肽段使用ElasticSearch中的match_phrase检索方式;
S422、在确定检索方式后,根据用户的设置判断是否需要等同异亮氨酸I和亮氨酸L,若等同异亮氨酸I和亮氨酸L,则针对蛋白质序列index的seq.eqILSeq字段搜索,若区分异亮氨酸I和亮氨酸L,则针对蛋白质序列index的seq字段搜索,最终,通过检索能够得到肽段对应的蛋白质及其分类单元信息。
4.根据权利要求1所述的一种微生物群落物种多样性数据的存储检索方法,其特征在于,计算肽段对应的分类单元的最小公共祖先的流程为:从层次“界”到“种”依次扫描每个分类单元的谱系信息,找到最低层次中包含相同分类单元的节点,这个节点对应的分类单元即为最小公共祖先,重复此步骤,直至计算出所有肽段所对应的最小公共祖先。
CN202010043999.3A 2020-01-15 2020-01-15 微生物群落物种多样性数据的存储检索方法 Active CN111243679B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010043999.3A CN111243679B (zh) 2020-01-15 2020-01-15 微生物群落物种多样性数据的存储检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010043999.3A CN111243679B (zh) 2020-01-15 2020-01-15 微生物群落物种多样性数据的存储检索方法

Publications (2)

Publication Number Publication Date
CN111243679A CN111243679A (zh) 2020-06-05
CN111243679B true CN111243679B (zh) 2023-03-31

Family

ID=70876186

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010043999.3A Active CN111243679B (zh) 2020-01-15 2020-01-15 微生物群落物种多样性数据的存储检索方法

Country Status (1)

Country Link
CN (1) CN111243679B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112732650A (zh) * 2020-12-31 2021-04-30 中国工商银行股份有限公司 文件分片方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU1351501A (en) * 1999-10-26 2001-05-08 Mitokor Gene sequences identified by protein motif database searching
CN103810200A (zh) * 2012-11-12 2014-05-21 中国科学院计算技术研究所 开放式蛋白质鉴定的数据库搜索方法及其系统
WO2019020054A1 (zh) * 2017-07-25 2019-01-31 南京金斯瑞生物科技有限公司 一种基于免疫算法的密码子优化方法

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6377893B1 (en) * 1992-03-25 2002-04-23 Steven Albert Benner Application of protein structure predictions
US6189013B1 (en) * 1996-12-12 2001-02-13 Incyte Genomics, Inc. Project-based full length biomolecular sequence database
GB0006153D0 (en) * 2000-03-14 2000-05-03 Inpharmatica Ltd Database
GB0302774D0 (en) * 2003-02-06 2003-03-12 European Molecular Biology Lab Embl Method for predicting protein function
JP2004348532A (ja) * 2003-05-23 2004-12-09 Kigyo Kumiai Bioinformatics バイオデータ提供方法及びそのシステム
US7962489B1 (en) * 2004-07-08 2011-06-14 Sage-N Research, Inc. Indexing using contiguous, non-overlapping ranges
KR100853786B1 (ko) * 2006-07-12 2008-08-22 한국기초과학지원연구원 단백질 동정을 위한 단백질 데이터베이스의 재구성방법 및이를 이용한 단백질 동정 방법
US9501467B2 (en) * 2007-12-21 2016-11-22 Thomson Reuters Global Resources Systems, methods, software and interfaces for entity extraction and resolution and tagging
US8401798B2 (en) * 2008-06-06 2013-03-19 Dna Twopointo, Inc. Systems and methods for constructing frequency lookup tables for expression systems
EP2633316A1 (en) * 2010-10-28 2013-09-04 Jonas Nilsson Diagnosis and treatment of alzheimer's disease
CN103678950B (zh) * 2012-08-30 2016-05-18 中国科学院计算技术研究所 一种开放式蛋白质鉴定的分布式加速方法及其系统
CN106022000B (zh) * 2016-05-11 2018-06-08 大连理工大学 一种基于压缩和聚类的批量蛋白质同源性搜索方法
GB201703416D0 (en) * 2017-03-03 2017-04-19 Ge Healthcare Bio Sciences Ab Method for protein expression
JP7364604B2 (ja) * 2018-03-16 2023-10-18 カタログ テクノロジーズ, インコーポレイテッド 核酸ベースのデータ記憶のための化学的方法
CN112313749A (zh) * 2018-04-13 2021-02-02 香港理工大学 使用肽的数据存储
WO2019209888A1 (en) * 2018-04-23 2019-10-31 Seer, Inc. Systems and methods for complex biomolecule sampling and biomarker discovery
CN109542930A (zh) * 2018-11-16 2019-03-29 重庆邮电大学 一种基于ElasticSearch的数据高效检索方法
CN110277136A (zh) * 2019-07-05 2019-09-24 湖南大学 蛋白质序列数据库并行搜索鉴定方法与装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU1351501A (en) * 1999-10-26 2001-05-08 Mitokor Gene sequences identified by protein motif database searching
CN103810200A (zh) * 2012-11-12 2014-05-21 中国科学院计算技术研究所 开放式蛋白质鉴定的数据库搜索方法及其系统
WO2019020054A1 (zh) * 2017-07-25 2019-01-31 南京金斯瑞生物科技有限公司 一种基于免疫算法的密码子优化方法

Also Published As

Publication number Publication date
CN111243679A (zh) 2020-06-05

Similar Documents

Publication Publication Date Title
Chen et al. Feature selection to improve generalization of genetic programming for high-dimensional symbolic regression
Li et al. Tolerating some redundancy significantly speeds up clustering of large protein databases
Li et al. Clustering of highly homologous sequences to reduce the size of large protein databases
Wang et al. Vchunkjoin: An efficient algorithm for edit similarity joins
WO2015123269A1 (en) System and methods for analyzing sequence data
CN109460386B (zh) 基于多维模糊哈希匹配的恶意文件同源性分析方法及装置
Saheb Kashaf et al. Recovering prokaryotic genomes from host-associated, short-read shotgun metagenomic sequencing data
CN108920898B (zh) 一种快速分析真核生物蛋白质基因组学数据的方法
CN111241217B (zh) 数据处理的方法、装置和系统
O'Bryon et al. Flying blind, or just flying under the radar? The underappreciated power of de novo methods of mass spectrometric peptide identification
CN111243679B (zh) 微生物群落物种多样性数据的存储检索方法
WO2008156773A1 (en) Biological database index and query searching
CN117873905B (zh) 一种代码同源检测的方法、装置、设备及介质
CN117174182A (zh) 一种兼顾基因序列进化重排的序列搜索工具CircBLAST的应用方法
US10614102B2 (en) Method and system for creating entity records using existing data sources
CN114816518A (zh) 基于simhash的源代码中开源成分筛选识别方法及系统
CN114334006A (zh) 过滤酶切建库方式引入噪音的方法和装置
Ruback et al. A new approach for creating forensic hashsets
Esmat et al. A parallel hash‐based method for local sequence alignment
US20240259183A1 (en) Similarity hashing of binary file feature sets for clustering and malicious detection
CN114882950A (zh) 基于软件识别宏基因组序列中微生物种类与序列的方法
CN109710656A (zh) 近似查询方法及装置
Lenadora et al. An adapter architecture for heterogeneous data processing in bioinformatics pipelines
CN110797087B (zh) 测序序列处理方法及装置、存储介质、电子设备
JP3812799B2 (ja) 文書集合特徴化方法および該方法を用いた文書集合検索方法およびそれらの装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240129

Address after: Room 801, 85 Kefeng Road, Huangpu District, Guangzhou City, Guangdong Province

Patentee after: Guangzhou Dayu Chuangfu Technology Co.,Ltd.

Country or region after: China

Address before: 400065 Chongwen Road, Nanshan Street, Nanan District, Chongqing

Patentee before: CHONGQING University OF POSTS AND TELECOMMUNICATIONS

Country or region before: China