CN110473594A - 病原微生物基因组数据库及其建立方法 - Google Patents

病原微生物基因组数据库及其建立方法 Download PDF

Info

Publication number
CN110473594A
CN110473594A CN201910779825.0A CN201910779825A CN110473594A CN 110473594 A CN110473594 A CN 110473594A CN 201910779825 A CN201910779825 A CN 201910779825A CN 110473594 A CN110473594 A CN 110473594A
Authority
CN
China
Prior art keywords
genome
strain
species
sequence
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910779825.0A
Other languages
English (en)
Other versions
CN110473594B (zh
Inventor
许腾
陈文景
李永军
王小锐
苏杭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Vision Gene Technology Co ltd
Guangzhou Weiyuan Medical Equipment Co ltd
Guangzhou Weiyuan Medical Laboratory Co ltd
Shenzhen Weiyuan Medical Technology Co ltd
Original Assignee
Guangzhou Weiyuan Gene Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Weiyuan Gene Technology Co Ltd filed Critical Guangzhou Weiyuan Gene Technology Co Ltd
Priority to CN201910779825.0A priority Critical patent/CN110473594B/zh
Publication of CN110473594A publication Critical patent/CN110473594A/zh
Application granted granted Critical
Publication of CN110473594B publication Critical patent/CN110473594B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • G16B35/10Design of libraries

Landscapes

  • Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Biochemistry (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种病原微生物基因组数据库及其建立方法,属于宏基因组技术领域。该方法包括以下步骤:数据获取:获取病原微生物基因组数据;菌株基因组筛选:按照预定筛选规则选取物种菌株基因组;去除质粒序列:去除上述得到的菌株基因组中存在的质粒序列;过滤:按照预定过滤规则,去除标注信息有误、染色体组装不完整,以及分类错误的菌株,得到该物种的参考菌株基因组;构建融合基因组:将上述参考菌株基因组打断,去除冗余,重新组装,再将序列重新拼接,得到该物种的融合基因组;组库:重复上述步骤,得到预定物种的融合基因组,汇总,即得病原微生物基因组数据库。该基因组数据库既有准确率高的优点,又具有分析时效短,节约成本的优势。

Description

病原微生物基因组数据库及其建立方法
技术领域
本发明涉及宏基因组技术领域,特别是涉及一种病原微生物基因组数据库及其建立方法。
背景技术
病原宏基因(转录)组测序是一种应用于临床病原感染检测的新兴技术,具有检测病原种类广、灵敏度高、准确度高、时效快等优点,正在逐渐成为临床一线的病原感染检测手段。而病原宏基因组技术核心之一是病原微生物基因组数据库,数据库的质量直接影响着病原宏基因组检测的病原微生物种类数、准确度及分析性能等。
病原微生物基因组数据库是由多种物种的基因组构成的,大部分都收集于NCBI等公共数据库,经过筛选、加工构建而成。在公共数据库中,每个物种可能测有多个不同的菌株基因组,如何选择、加工这些菌株基因组来代表该物种是一个难题。
目前大多数宏基因组分析的流程都只是随机或通过聚类等分析后选取其中一株作为该物种的代表基因组,或不加选择地将全部菌株纳入到数据库中,这两种方法都各有优缺点。只选取一株作为代表的方法的优点是构建的数据库数据量比较小,分析时效快,但是缺点也比较突出,因为微生物基因组进化较快,同一个物种的菌株间的基因组存在差异,不同地区、不同时间,甚至是同时分离的不同菌株测序的基因组就可能存在差异,部分进化较快的物种菌株间的基因组差异可达3%以上。
目前病原宏基因组在临床实际应用中,大多数病原体的检出序列数在几十到几百之间,甚至是个位数,基因组覆盖率在0.1%以下,而菌株间基因组的突变率已高达3%以上,甚至含有特有序列,因此对于只选取一株作为物种代表基因组的方法,0.1%覆盖率的检出难以覆盖突变区域或特有序列区,常常会造成漏检而得出假阴的检测结果。
而将同一物种所有菌株基因组纳入数据库的方法则可以有效避免这种情况的漏检,但这方法的缺点也尤为明显。一方面,将所有菌株基因组纳入以后,数据库数据量变得很大,导致分析时间变得很长,甚至需要一天以上,这对临床应用的时效要求是难以接受的,往往早一个小时就可能多救治一个病患,同时对计算服务器或集群的资源需求也极大增加,分析成本大大增加;另一方面,来源于公共数据库的菌株基因组的测序质量参差不齐,部分菌株含有污染序列,甚至含有分类错误的菌株,如果不加以筛选过滤,就容易导致假阳的结果产生,给临床诊治带来极大的困扰。
发明内容
基于此,有必要针对上述问题,提供一种病原微生物基因组数据库及其建立方法,采用该方法得到的基因组数据库,既有准确率高的优点,又具有分析时效短,节约成本的优势。
一种病原微生物基因组数据库的建立方法,包括以下步骤:
数据获取:获取病原微生物基因组数据;
菌株基因组筛选:按照预定筛选规则选取物种菌株基因组;
去除质粒序列:去除上述得到的菌株基因组中存在的质粒序列;
过滤:按照预定过滤规则,去除标注信息有误、染色体组装不完整,以及分类错误的菌株,得到该物种的参考菌株基因组;
构建融合基因组:将上述参考菌株基因组打断,得到序列集,将上述序列集中的序列通过比较去除冗余,再对非冗余数据集进行组装得到重新组装的基因组,并过滤低质量的Contigs,根据长度将Contigs从大到小重新拼接,得到该物种的融合基因组;
组库:重复上述步骤,得到预定物种的融合基因组,汇总,即得病原微生物基因组数据库。
上述数据库的建立方法,通过下载微生物基因组,筛选高质量基因组,去除质粒序列,去除标注、分类错误基因组,过滤基因组低质量或污染片段,物种菌株间基因组去冗余后融合,最后将所有物种融合基因组进行组库得到病原微生物基因组数据库。
可以理解的,上述去除质粒序列步骤中,可根据具体情况调整,对于古菌、细菌等有质粒序列的基因组,进行去除质粒序列处理,没有质粒的基因组则不需要去除。
在其中一个实施例中,所述数据获取步骤中,所述病原微生物基因组数据来源于PATRIC数据库和/或NCBI的RefSeq和Genbank数据库中分类为archaea、bacteria、fungi、protozoa和viral的基因组数据。上述数据库中的病原微生物基因组数据具有较高的数据质量,上述数据既包括基因组序列,也包括描述该序列的说明性文件。
在其中一个实施例中,所述菌株基因组筛选步骤中,所述筛选规则为:
如物种具有若干个菌株基因组数据,则选取组装完成且组装质量高的菌株基因组数据;
如物种仅有单个菌株基因组数据,则直接选取该菌株基因组数据。
具体的,在上述数据库中,组装完成指组装完成度为“Complete Genome”,质量高指质量为“Good”或有文献支持的菌株基因组。
在其中一个实施例中,所述过滤步骤中,所述过滤规则包括勘误过滤规则,所述勘误过滤规则为:
如物种为多菌株基因组的物种,统计各菌株基因组的Chromosome和Contig数量,若Contig数量大于Chromosome数量,剩余Contig无信息标注的,则舍弃该菌株基因组;
如物种为单菌株基因组的物种,计算该菌株基因组的Contig数及每个Contig的长度,进而获得该单菌株基因的N90,舍弃N90以外的Contigs,或者,舍弃长度小于设定值的Contigs。优选地,病毒中,该设定值为300;细菌、古菌、真菌、寄生虫中,该设定值为1000;
上述N90以外的Contigs具体指:通过组装软件直接拼接成的序列片段称作Contig,按照Contig长度从大到小排序,并从大到小进行累加,当累加值大于或等于该物种基因组长度的90%时所加上的那个Contig的长度定义为N90,小于该长度的Contigs即为N90以外的Contigs。
上述勘误过滤规则用于去除标注信息有误、染色体组装不完整的数据。
在其中一个实施例中,所述构建融合基因组步骤中,具体包括以下步骤:
基因组打断:将所述参考菌株基因组打断为长度为n且移步步长为k的序列集;例如,可截取基因组序列第1个碱基至第n个碱基之间的序列为第一条序列,然后起始位置定位至第k个碱基,截取第k至k+n位碱基间的序列为第二条序列,依次类推,对于截取的第N条序列,其位置为(N-1)k至(N-1)k+n;
序列集去冗余:以上述序列集中的一条序列为参考序列集,将其余序列分别与该参考序列集比较,如100%匹配,则将该条序列舍弃,若非100%匹配则加入到参考集中,重复上述过程,历遍整个序列集,得到非冗余序列集;
非冗余序列集组装:对上述非冗余序列集进行组装,组装完成后统计Contigs的长度,指定长度L,过滤长度小于L的Contigs,得到重新组装的基因组;
基因组Contigs拼接:根据长度将Contigs从大到小排序,Contigs间使用m个连续N连接,融合为完整的基因组,得到的该物种的融合基因组。
可以理解的,上述N指在数据库中以符号“N”表示序列间隙和不同菌株的连接,也可根据需求,选用除“A、T、C、G”外等其它不会产生混淆的符号代替。
在其中一个实施例中,所述n为30~10000的自然数;所述k为1~n的自然数。
在其中一个实施例中,所述n选自:100~500。
在其中一个实施例中,所述非冗余序列集组装步骤中,所述长度L为100~10000。优选100-1000,更优选300-500。
在其中一个实施例中,所述聚类序列集坐标回溯步骤中,m为大于4的自然数。优选的,m选自10~100。
本发明还公开了上述的建立方法得到的病原微生物基因组数据库。
上述病原微生物基因组数据库,既整合了物种所有可靠菌株的差异序列,保留了丰富的物种菌株信息,能有效避免病原宏基因(转录)组检测结果的假阳性、假阴性,提高检测准确度;同时也去除了物种内的冗余序列,大大减少了数据库的数据量,减少了分析计算资源的需求,缩短了分析时间,降低了分析成本。
与现有技术相比,本发明具有以下有益效果:
本发明的一种病原微生物基因组数据库的建立方法,通过对病原微生物基因组数据的筛选、过滤和融合,去除了冗余序列,得到的病原微生物基因组数据库,既整合了物种所有可靠菌株的差异序列,保留了丰富的物种菌株信息,能有效避免病原宏基因(转录)组检测结果的假阳性、假阴性,提高检测准确度;同时也去除了物种内的冗余序列,大大减少了数据库的数据量,减少了分析计算资源的需求,缩短了分析时间,降低了分析成本。
附图说明
图1为实施例2中5株模拟测序集数据比对到三种方法构建的数据库的比对准确率;
图2为实施例2中5株模拟测序集数据比对到三种方法构建的数据库的准确率箱型图;
图3为实施例2中5株模拟测序集数据比对到三种方法构建的数据库分析时间;
图4为实施例2中5株模拟测序集数据比对到三种方法构建的数据库分析时间箱型图。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的较佳实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。
实施例1
一种病原微生物基因组数据库,通过以下方法建立:
一、数据获取
从PATRIC下载细菌基因组数据,具体如下:
PATRIC全称为美国病原微生物资源整合中心,网站上收录了目前已知的绝大部分细菌类病原微生物基因组数据,可从其ftp服务器上下载所有收录的细菌基因组数据。
在PATRIC网站ftp服务器(ftp://ftp.patricbrc.org/)上面下载了所有分类为archaea、bacteria的基因组数据,并下载了对应的基因组信息统计文件PATRIC_genome.txt,共包含227577株基因组信息。
二、菌株基因组筛选
根据文件表头信息,选取“Public”列为“True”,“Genome Status”列为“Complete”,“Genome Quality”列为“Good”的基因组,筛选后得到13537株基因组。
以下通过肺炎克雷伯菌(Klebsiella pneumoniae)为例,进行物种内的菌株筛选与处理说明。
三、去除质粒序列
去除上述得到的菌株基因组中存在的质粒序列,具体为:
经上述初步筛选后,肺炎克雷伯菌共有289株菌株基因组,根据基因组fasta文件里面的序列名称标注,带有“Plasmid”或“plasmid”关键词即可确认该序列为质粒序列,将该质粒序列去除,得到289株不含质粒序列的基因组。
四、过滤
按照预定过滤规则,去除标注信息有误、染色体组装不完整,以及分类错误的菌株,具体为:
1、去除标注信息有误、染色体组装不完整的基因组。
统计上述289株不含质粒序列的菌株基因组的contig数,肺炎克雷伯菌的染色体(Chromosome)为1个,所以将所有contig数大于1的菌株都舍弃,得到110株只含有一个contig的基因组。
五、构建融合基因组
以上述得到的110株肺炎克雷伯菌优质参考菌株基因组为例,构建肺炎克雷伯菌的融合基因组。
1、基因组打断
将110株肺炎克雷伯菌优质菌株基因组按照长度为300bp,步长为1bp打断,即n=300,k=1,得到序列集。
2、序列集去冗余
将上述序列集进行去冗余处理,第一条序列为参考集,从第二序列开始历遍整个序列集,去相似度为100%的序列,得到非冗余序列集。
3、非冗余序列集组装
将非冗余序列集转换为fastq格式文件,使用spades软件对fastq文件进行组装,组装完成后统计所有Contigs长度,过滤长度小于100的Contigs,即L=100,得到重新组装的基因组。
4、基因组Contigs拼接
根据长度将上述重新组装的基因组Contigs按照从大到小进行排序,Contigs间用10个“N”碱基进行连接,连接得到的即为肺炎克雷伯菌的融合基因组,可用于微生物基因组组建。
六、组库
重复上述步骤,得到上述下载13537株基因组所覆盖的物种的融合基因组,汇总,即得病原微生物基因组数据库。
实施例2
为了评价上述实施例1所构建的肺炎克雷伯菌的融合基因组效果,对肺炎克雷伯菌的未经处理的所有菌株基因组、肺炎克雷伯菌的NCBI参考菌株基因组、上述肺炎克雷伯菌的融合基因组进行准确度和分析时效等进行分析比较。
一、数据量评估比较
首先在NCBI Genome数据库查询下载肺炎克雷伯的reference genome,用于构建“一个物种只选取一株菌株基因组”方法(传统方法一)的数据库(肺炎克雷伯菌参考菌株基因组),在NCBI assembly数据库查询肺炎克雷伯菌的所有组装基因组,仅RefSeq数据库上就有7280条组装结果,总碱基数据量超过20G,一个物种的数据量就如此之大,普通计算服务器已经难以处理,为了顺利分析,只选取了组装状态为“Complete genome”的菌株,共347株,从中随机选取5株出来作为临床模拟菌株,生成长度为75bp,深度为2x的模拟测序数据集,用于评价测试。
剩余342株菌株基因组用于构建“一个物种选取所有菌株基因”(传统方法二)方法的数据库(肺炎克雷伯菌所有菌株基因组)。
上述传统方法一构建的数据库数据量大小为5.5M,传统方法二所构建的数据库数据量大小为1.8G,本专利实施例1方法所构建的数据库(肺炎克雷伯菌融合基因组)数据量大小为54M。
相对于传统方法一,本专利方法构建得到的数据库数据量上仅增加了8.8倍,却包含了肺炎克雷伯菌几乎所有的真实基因组序列,而传统方法二的数据是本专利方法的33倍,且两者包含的真实基因组序列接近。在数据库数据量大小方面的比较已初步看出本专利方法的优势。
二、数据分析效果比较
使用bwa软件mem模块将模拟测序数据集分别比对到上述构建的三种数据库中,统计分析时间及比对的准确度。
1、准确率。
结果如图1和图2所示,图1为5株模拟测序集数据比对到三种方法构建的数据库的准确率示意图,图2为5株模拟测序集数据比对到三种方法构建的数据库的准确率的波动情况示意图。
从图中可以看出,5株模拟测序数据集中,传统方法一的准确率平均值为81.81%,传统方法二的准确率平均值为98.88%,本专利方法的准确率平均值为98.73%。即本专利方法的准确率与传统方法二几乎一致,且显著高于传统方法一。
2、分析时间。
在分析时间方面,如图3、4所示,图3为5株模拟测序集数据比对到三种方法构建的数据库分析时间示意图,图4为5株模拟测序集数据比对到三种方法构建的数据库分析时间波动情况示意图。
从图中可以看出,方法一平均分析时间为1.59s,方法二平均分析时间为22.98s,本专利方法平均分析时间为2.53s。本专利方法时间上是方法一的1.6倍,是方法二的0.1倍。综上可以看出本专利方法具有高准确率、分析资源需求较低、分析时间较短等优点,显著优于两种传统的数据库构建方法。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种病原微生物基因组数据库的建立方法,其特征在于,包括以下步骤:
数据获取:获取病原微生物基因组数据;
菌株基因组筛选:按照预定筛选规则选取物种菌株基因组;
去除质粒序列:去除上述得到的菌株基因组中存在的质粒序列;
过滤:按照预定过滤规则,去除标注信息有误、染色体组装不完整,以及分类错误的菌株,得到该物种的参考菌株基因组;
构建融合基因组:将上述参考菌株基因组打断,得到序列集,将上述序列集中的序列通过比较去除冗余,再对非冗余数据集进行组装得到重新组装的基因组,并过滤低质量的Contigs,根据长度将Contigs从大到小重新拼接,得到该物种的融合基因组;
组库:重复上述步骤,得到预定物种的融合基因组,汇总,即得病原微生物基因组数据库。
2.根据权利要求1所述的病原微生物基因组数据库的建立方法,其特征在于,所述数据获取步骤中,所述病原微生物基因组数据来源于PATRIC数据库和/或NCBI的RefSeq和Genbank数据库中分类为archaea、bacteria、fungi、protozoa和viral的基因组数据。
3.根据权利要求1所述的病原微生物基因组数据库的建立方法,其特征在于,所述菌株基因组筛选步骤中,所述筛选规则为:
如物种具有若干个菌株基因组数据,则选取组装完成且组装质量高的菌株基因组数据;
如物种仅有单个菌株基因组数据,则直接选取该菌株基因组数据。
4.根据权利要求1所述的病原微生物基因组数据库的建立方法,其特征在于,所述过滤步骤中,所述过滤规则包括勘误过滤规则,所述勘误过滤规则为:
如物种为多菌株基因组的物种,统计各菌株基因组的Chromosome和Contig数量,若Contig数量大于Chromosome数量,剩余Contig无信息标注的,则舍弃该菌株基因组;
如物种为单菌株基因组的物种,计算该菌株基因组的Contig数及每个Contig的长度,进而获得该单菌株基因的N90,舍弃N90以外的Contigs;或者,舍弃长度小于设定值的Contigs。
5.根据权利要求1-4任一项所述的病原微生物基因组数据库的建立方法,其特征在于,所述构建融合基因组步骤中,具体包括以下步骤:
基因组打断:将所述参考菌株基因组打断为长度为n且移步步长为k的序列集;
序列集去冗余:以上述序列集中的一条序列为参考序列集,将其余序列分别与该参考序列集比较,如100%匹配,则将该条序列舍弃,若非100%匹配则加入到参考集中,重复上述过程,历遍整个序列集,得到非冗余序列集;
非冗余序列集组装:对上述非冗余序列集进行组装,组装完成后统计Contigs的长度,指定长度L,过滤长度小于L的Contigs,得到重新组装的基因组;
基因组Contigs拼接:根据长度将Contigs从大到小排序,Contigs间使用m个连续N连接,融合为完整的基因组,得到的该物种的融合基因组。
6.根据权利要求5所述的病原微生物基因组数据库的建立方法,其特征在于,所述n为30~10000的自然数;所述k为1~n的自然数。
7.根据权利要求6所述的病原微生物基因组数据库的建立方法,其特征在于,所述n选自:100~500。
8.根据权利要求5所述的病原微生物基因组数据库的建立方法,其特征在于,所述非冗余序列集组装步骤中,所述长度L为100~10000。
9.根据权利要求5所述的病原微生物基因组数据库的建立方法,其特征在于,所述基因组Contigs拼接步骤中,m为大于4的自然数。
10.权利要求1-9任一项所述的建立方法得到的病原微生物基因组数据库。
CN201910779825.0A 2019-08-22 2019-08-22 病原微生物基因组数据库及其建立方法 Active CN110473594B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910779825.0A CN110473594B (zh) 2019-08-22 2019-08-22 病原微生物基因组数据库及其建立方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910779825.0A CN110473594B (zh) 2019-08-22 2019-08-22 病原微生物基因组数据库及其建立方法

Publications (2)

Publication Number Publication Date
CN110473594A true CN110473594A (zh) 2019-11-19
CN110473594B CN110473594B (zh) 2020-05-05

Family

ID=68513342

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910779825.0A Active CN110473594B (zh) 2019-08-22 2019-08-22 病原微生物基因组数据库及其建立方法

Country Status (1)

Country Link
CN (1) CN110473594B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111161798A (zh) * 2019-12-31 2020-05-15 余珂 宏基因组的重组装方法、重组装装置及终端设备
CN111187813A (zh) * 2020-02-20 2020-05-22 予果生物科技(北京)有限公司 全流程质控的病原微生物高通量测序检测方法
CN111402961A (zh) * 2020-02-28 2020-07-10 上海鹿明生物科技有限公司 一种多物种gc-ms内源性代谢物数据库及其建立方法
CN112037865A (zh) * 2020-08-13 2020-12-04 中国科学院微生物研究所 物种科学名称确定方法、装置、电子设备及存储介质
CN112863606A (zh) * 2021-03-08 2021-05-28 杭州微数生物科技有限公司 细菌鉴定和分型分析基因组数据库及鉴定和分型分析方法
CN112992277A (zh) * 2021-03-18 2021-06-18 南京先声医学检验有限公司 一种微生物基因组数据库构建方法及其应用
CN113284560A (zh) * 2021-04-28 2021-08-20 广州微远基因科技有限公司 病原检测背景微生物判断方法及应用
CN114121167A (zh) * 2021-11-30 2022-03-01 深圳零一生命科技有限责任公司 一种微生物基因数据库的构建方法及系统
CN115083527A (zh) * 2022-08-18 2022-09-20 北京大学人民医院 一种聚类泛基因组数据库构建方法
CN115346608A (zh) * 2022-06-27 2022-11-15 北京吉因加科技有限公司 一种构建病原生物基因组数据库的方法及装置
CN115394361A (zh) * 2022-08-15 2022-11-25 中国科学院心理研究所 用于构建微生物基因组数据库的方法、设备和介质
CN115719616A (zh) * 2022-11-24 2023-02-28 江苏先声医疗器械有限公司 一种病原物种特异性序列的筛选方法及系统
CN115938491A (zh) * 2022-11-24 2023-04-07 江苏先声医疗器械有限公司 一种用于临床病原诊断的高质量细菌基因组数据库构建方法及系统
CN116564423A (zh) * 2023-07-05 2023-08-08 广州源古纪科技有限公司 一种微生物宏基因组数据库构建方法及系统
CN118522353A (zh) * 2024-07-19 2024-08-20 西北工业大学 基于高通量染色体构象捕获的超大染色体组装方法及应用

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102517392A (zh) * 2011-12-26 2012-06-27 深圳华大基因研究院 基于宏基因组16s高可变区v3的分类方法和装置
US20130013213A1 (en) * 2011-07-08 2013-01-10 Medical College Of Wisconsin Methods and apparatus for identification of disease associated mutations
CN103186716A (zh) * 2011-12-29 2013-07-03 上海生物信息技术研究中心 基于元基因组学的未知病原快速鉴定系统及分析方法
CN106886689A (zh) * 2015-12-15 2017-06-23 浙江大学 一种病原微生物基因组快速分析方法及系统
CN107103205A (zh) * 2017-05-27 2017-08-29 湖北普罗金科技有限公司 一种基于蛋白质质谱数据注释真核生物基因组的生物信息学方法
CN108804875A (zh) * 2018-06-21 2018-11-13 中国科学院北京基因组研究所 一种利用宏基因组数据分析微生物群体功能的方法
CN109686408A (zh) * 2018-04-19 2019-04-26 江苏先声医学诊断有限公司 一种鉴定耐药基因和/或耐药基因突变位点的宏基因组数据分析方法及系统
CN109949866A (zh) * 2018-06-22 2019-06-28 深圳市达仁基因科技有限公司 病原体操作组的检测方法、装置、计算机设备和存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130013213A1 (en) * 2011-07-08 2013-01-10 Medical College Of Wisconsin Methods and apparatus for identification of disease associated mutations
CN102517392A (zh) * 2011-12-26 2012-06-27 深圳华大基因研究院 基于宏基因组16s高可变区v3的分类方法和装置
CN103186716A (zh) * 2011-12-29 2013-07-03 上海生物信息技术研究中心 基于元基因组学的未知病原快速鉴定系统及分析方法
CN106886689A (zh) * 2015-12-15 2017-06-23 浙江大学 一种病原微生物基因组快速分析方法及系统
CN107103205A (zh) * 2017-05-27 2017-08-29 湖北普罗金科技有限公司 一种基于蛋白质质谱数据注释真核生物基因组的生物信息学方法
CN109686408A (zh) * 2018-04-19 2019-04-26 江苏先声医学诊断有限公司 一种鉴定耐药基因和/或耐药基因突变位点的宏基因组数据分析方法及系统
CN108804875A (zh) * 2018-06-21 2018-11-13 中国科学院北京基因组研究所 一种利用宏基因组数据分析微生物群体功能的方法
CN109949866A (zh) * 2018-06-22 2019-06-28 深圳市达仁基因科技有限公司 病原体操作组的检测方法、装置、计算机设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
阳波,王海涛,张婷婷,张雯,曹立娜,李文平,罗成旺: "传染病控制中基因组大数据管理的初步构建", 《中国媒介生物学及控制杂志》 *

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111161798A (zh) * 2019-12-31 2020-05-15 余珂 宏基因组的重组装方法、重组装装置及终端设备
CN111161798B (zh) * 2019-12-31 2024-03-19 余珂 宏基因组的重组装方法、重组装装置及终端设备
CN111187813A (zh) * 2020-02-20 2020-05-22 予果生物科技(北京)有限公司 全流程质控的病原微生物高通量测序检测方法
CN111187813B (zh) * 2020-02-20 2020-12-04 予果生物科技(北京)有限公司 全流程质控的病原微生物高通量测序检测方法
CN111402961A (zh) * 2020-02-28 2020-07-10 上海鹿明生物科技有限公司 一种多物种gc-ms内源性代谢物数据库及其建立方法
CN112037865A (zh) * 2020-08-13 2020-12-04 中国科学院微生物研究所 物种科学名称确定方法、装置、电子设备及存储介质
CN112037865B (zh) * 2020-08-13 2024-02-06 中国科学院微生物研究所 物种科学名称确定方法、装置、电子设备及存储介质
CN112863606B (zh) * 2021-03-08 2022-07-26 杭州微数生物科技有限公司 细菌鉴定和分型分析基因组数据库及鉴定和分型分析方法
CN112863606A (zh) * 2021-03-08 2021-05-28 杭州微数生物科技有限公司 细菌鉴定和分型分析基因组数据库及鉴定和分型分析方法
CN112992277A (zh) * 2021-03-18 2021-06-18 南京先声医学检验有限公司 一种微生物基因组数据库构建方法及其应用
CN112992277B (zh) * 2021-03-18 2021-10-26 南京先声医学检验实验室有限公司 一种微生物基因组数据库构建方法及其应用
CN113284560A (zh) * 2021-04-28 2021-08-20 广州微远基因科技有限公司 病原检测背景微生物判断方法及应用
CN114121167A (zh) * 2021-11-30 2022-03-01 深圳零一生命科技有限责任公司 一种微生物基因数据库的构建方法及系统
CN114121167B (zh) * 2021-11-30 2022-07-01 深圳零一生命科技有限责任公司 一种微生物基因数据库的构建方法及系统
WO2023098152A1 (zh) * 2021-11-30 2023-06-08 深圳零一生命科技有限责任公司 一种微生物基因数据库的构建方法及系统
CN115346608A (zh) * 2022-06-27 2022-11-15 北京吉因加科技有限公司 一种构建病原生物基因组数据库的方法及装置
CN115394361A (zh) * 2022-08-15 2022-11-25 中国科学院心理研究所 用于构建微生物基因组数据库的方法、设备和介质
CN115394361B (zh) * 2022-08-15 2024-10-01 中国科学院心理研究所 用于构建微生物基因组数据库的方法、设备和介质
CN115083527A (zh) * 2022-08-18 2022-09-20 北京大学人民医院 一种聚类泛基因组数据库构建方法
CN115719616B (zh) * 2022-11-24 2023-09-29 江苏先声医疗器械有限公司 一种病原物种特异性序列的筛选方法及系统
CN115938491B (zh) * 2022-11-24 2023-09-29 江苏先声医疗器械有限公司 一种用于临床病原诊断的高质量细菌基因组数据库构建方法及系统
CN115938491A (zh) * 2022-11-24 2023-04-07 江苏先声医疗器械有限公司 一种用于临床病原诊断的高质量细菌基因组数据库构建方法及系统
CN115719616A (zh) * 2022-11-24 2023-02-28 江苏先声医疗器械有限公司 一种病原物种特异性序列的筛选方法及系统
CN116564423B (zh) * 2023-07-05 2023-09-15 广州源古纪科技有限公司 一种微生物宏基因组数据库构建方法及系统
CN116564423A (zh) * 2023-07-05 2023-08-08 广州源古纪科技有限公司 一种微生物宏基因组数据库构建方法及系统
CN118522353A (zh) * 2024-07-19 2024-08-20 西北工业大学 基于高通量染色体构象捕获的超大染色体组装方法及应用

Also Published As

Publication number Publication date
CN110473594B (zh) 2020-05-05

Similar Documents

Publication Publication Date Title
CN110473594A (zh) 病原微生物基因组数据库及其建立方法
Mangul et al. ROP: dumpster diving in RNA-sequencing to find the source of 1 trillion reads across diverse adult human tissues
Jansen et al. Constructing dense genetic linkage maps
US20050227278A1 (en) Recursive categorical sequence assembly
US20190149344A1 (en) Intelligent search system for service cost and method thereof
CN105389480A (zh) 多类不平衡基因组学数据迭代集成特征选择方法及系统
Adebali et al. Phylogenetic analysis of SARS-CoV-2 genomes in Turkey
CN109448842B (zh) 人体肠道微生态失衡的确定方法、装置及电子设备
CN107451429A (zh) 一种一键化分析rna数据的系统
Chen et al. Tree2GD: a phylogenomic method to detect large-scale gene duplication events
Storato et al. K2mem: discovering discriminative k-mers from sequencing data for metagenomic reads classification
CN103902798A (zh) 数据预处理方法
CN115295084A (zh) 一种肿瘤新抗原免疫组库数据可视化分析方法和系统
CN103136440B (zh) 数据处理方法和装置
CN110335641A (zh) 一种四个体组合亲缘关系鉴定方法及装置
CN110098944A (zh) 一种基于FP-Growth和RNN预测协议数据流量的方法
CN109543712B (zh) 时态数据集上的实体识别方法
CN111710360A (zh) 一种预测蛋白质序列的方法、系统、装置及介质
CN106021978A (zh) 基于光学图谱平台Irys的一种de novo测序数据组装方法
CN113986990B (zh) 一种基于区块链数据挖掘的数据资源采集和标注方法及装置
CN103942403B (zh) 一种对海量变量进行筛选的方法及设备
CN111027599B (zh) 基于随机抽样的聚类可视化方法及装置
CN112215256A (zh) 一种低压配电网多源数据处理方法
CN109727645A (zh) 生物序列指纹
CN117373036B (zh) 基于智能ai的数据分析处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210929

Address after: Room 303, G10, South China new material innovation park, building 3, No. 31, Kefeng Road, Guangzhou hi tech Industrial Development Zone, Guangdong 510130

Patentee after: GUANGZHOU VISION GENE TECHNOLOGY Co.,Ltd.

Patentee after: Guangzhou Weiyuan Medical Equipment Co.,Ltd.

Patentee after: Guangzhou Weiyuan medical laboratory Co.,Ltd.

Patentee after: Shenzhen Weiyuan Medical Technology Co.,Ltd.

Patentee after: Weiyuan (Shenzhen) Medical Research Center Co.,Ltd.

Address before: Room 303, G10, South China new material innovation park, building 3, No. 31, Kefeng Road, Guangzhou hi tech Industrial Development Zone, Guangdong 510130

Patentee before: GUANGZHOU VISION GENE TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230828

Address after: Room 303, G10, South China new material innovation park, building 3, No. 31, Kefeng Road, Guangzhou hi tech Industrial Development Zone, Guangdong 510130

Patentee after: GUANGZHOU VISION GENE TECHNOLOGY Co.,Ltd.

Patentee after: Guangzhou Weiyuan Medical Equipment Co.,Ltd.

Patentee after: Guangzhou Weiyuan medical laboratory Co.,Ltd.

Patentee after: Shenzhen Weiyuan Medical Technology Co.,Ltd.

Address before: Room 303, G10, South China new material innovation park, building 3, No. 31, Kefeng Road, Guangzhou hi tech Industrial Development Zone, Guangdong 510130

Patentee before: GUANGZHOU VISION GENE TECHNOLOGY Co.,Ltd.

Patentee before: Guangzhou Weiyuan Medical Equipment Co.,Ltd.

Patentee before: Guangzhou Weiyuan medical laboratory Co.,Ltd.

Patentee before: Shenzhen Weiyuan Medical Technology Co.,Ltd.

Patentee before: Weiyuan (Shenzhen) Medical Research Center Co.,Ltd.