CN116230078B - 一种de novo评估组装基因组污染度的方法 - Google Patents
一种de novo评估组装基因组污染度的方法 Download PDFInfo
- Publication number
- CN116230078B CN116230078B CN202310505622.9A CN202310505622A CN116230078B CN 116230078 B CN116230078 B CN 116230078B CN 202310505622 A CN202310505622 A CN 202310505622A CN 116230078 B CN116230078 B CN 116230078B
- Authority
- CN
- China
- Prior art keywords
- module
- genome
- sequencing depth
- clustering
- reads
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000012163 sequencing technique Methods 0.000 claims description 56
- 238000005192 partition Methods 0.000 claims description 7
- 238000003908 quality control method Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 2
- 238000000638 solvent extraction Methods 0.000 claims description 2
- 238000011109 contamination Methods 0.000 description 11
- 241000894007 species Species 0.000 description 11
- 108090000623 proteins and genes Proteins 0.000 description 9
- 241000588724 Escherichia coli Species 0.000 description 6
- 239000003550 marker Substances 0.000 description 4
- 108020004707 nucleic acids Proteins 0.000 description 4
- 150000007523 nucleic acids Chemical class 0.000 description 4
- 102000039446 nucleic acids Human genes 0.000 description 4
- 241000607142 Salmonella Species 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 2
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 241000203069 Archaea Species 0.000 description 1
- 241000894006 Bacteria Species 0.000 description 1
- 241000206602 Eukaryota Species 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 229940104302 cytosine Drugs 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 210000001035 gastrointestinal tract Anatomy 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 239000002689 soil Substances 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Analytical Chemistry (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于分子生物学领域,提供一种de novo评估组装基因组污染度的方法,使用组装后计算得到的GC含量以及测序深度两个维度的数据来进行聚类,通过聚类的结果来评估组装的基因组中是否含有污染。本申请的方法无需依赖数据库,使用情况广泛,运行速度稳定。
Description
技术领域
本发明属于分子生物学领域,具体涉及一种de novo评估组装基因组污染度的方法及其相应计算设备。
背景技术
物种基因组组装是物种鉴定过程中重要的过程,由于样本来源,核酸提取,建库,上机测序等过程可能会混入其他物种的核酸。样本来源如来自肠道,土壤,水体中的样本本身包含多种物种,而实验室培养的菌落类似的样本中只包含一种样本由此导致的组装结果存在污染,最终会影响物种的鉴定结果。
目前对组装结果进行评估的工具较为常用的是checkm工具,该工具是根据基因组在参考基因组发育树中的位置来推断精确的单拷贝标记基因(lineage-specificmarkerset),同时也提供数据库可用的基于分类学的基因集(taxonomic-specificmarker set),利用单拷贝基因来估计基因组的污染度(如图1所示)。使用此方法来进行污染度评估是需要有参考数据库的,若是新物种的单拷贝基因并没有在数据库中则使用该方法得到的结果并不准确;checkm中对于组装基因组的基因预测是基于prodigal方法,该方法适合细菌和古生细菌的基因预测,不能用于真核生物。而且此种方法中使用的工具,如python, hmmer,prodigal, pplacer中有的步骤并不能充分利用cpu,导致速度比较慢。
不同物种基因组核酸种类组成中会有不同,鸟嘌呤(G)和胞嘧啶(C)在总碱基中所占的比例(GC含量)是一个重要的指标,不同物种中该指标会有所不同,可根据组装后基因组不同核酸比例来进行评估组装结果是否是来源于不同物种。此外相较于相同物种的测序数据比对到自身基因组与比对到其他基因组的比对率会有不同,比对到自身的基因组会有大量的reads能够比对上,而比对到其他基因组则会有大量的reads不能比对上,因此测序深度也会受影响,在污染度较低的基因组中测序深度是比较高且稳定的,而有污染的基因组因为混入了其他物种的序列则会低很多。
发明内容
本发明将利用组装后计算得到的GC含量以及测序深度这两个维度的数据来进行聚类,通过聚类的结果来评估组装的基因组中是否含有污染。相较于chekm方法,本方法是一种无需依赖任何数据库的de novo方法,运行速度也会比较稳定;不依赖参考数据库,即便未检测到相应的marker基因也能计算基因组的污染度。
一方面,本申请提供了一种de novo评估组装基因组污染度的方法,所述方法使用组装后计算得到的GC含量以及测序深度这两个维度的数据来进行聚类,通过聚类的结果来评估组装的基因组中是否含有污染。
进一步地,所述方法包括以下步骤:
(1)对样品基因组进行测序,获得质控后的reads以及组装的基因组;
(2)对组装的基因组构建需要比对的index;
(3)使用短序列比对软件对reads进行比对获得比对结果bam文件;
(4)计算基因组序列中每个位点测序深度;
(5)对基因组序列统计GC含量:将每条组装的序列分割成等长的分割区域,每个分割区域长度为100—3000个碱基,计算每个分割区域中的GC含量:GC% = 每个分割区域中GC总数/每个分割区域中的碱基总数);
(6)按照步骤(5)的分割方式并结合步骤(4)得到的每个位点的测序深度结果,计算每个分割区域的平均测序深度;某个位点测序深度 = 比对到该位点的reads数;某个分割区域的测序深度 = (比对到该位点的reads数 * 比对的reads长度)/分割碱基总数;
(7)将步骤(5)得到的GC含量数据和步骤(6)计算得到的测序深度结果合并在一起,形成二维数据;
(8)对步骤(7)得到的二维数据进行无监督聚类;
(9)根据聚类结果判断污染程度。
另一方面,本申请提供了一种de novo评估组装基因组污染度的系统,所述系统包括以下模块:
模块1:用于对样品基因组进行测序,获得质控后的reads以及组装的基因组;
模块2:用于对组装的基因组构建需要比对的index;
模块3:用于使用短序列比对软件对reads进行比对获得比对结果bam文件;
模块4:用于计算基因组序列中每个位点测序深度;
模块5:用于对基因组序列统计GC含量:对每条组装的序列进行分割,每个分割区域长度为100—3000个碱基,计算每个分割区域中的GC含量:GC% = 每个分割区域中GC总数/每个分割区域中的碱基总数;
模块6:用于按照模块5的分割方式并结合模块4得到的每个位点的测序深度结果,计算每个分割区域的平均测序深度;某个位点测序深度 = 比对到该位点的reads数;某个分割区域的测序深度 = (比对到该位点的reads数 * 比对的reads长度)/分割碱基总数;
模块7:用于将模块5得到的GC含量数据和模块6计算得到的测序深度结果合并在一起,形成二维数据;
模块8:用于对模块7得到的二维数据进行无监督聚类;
模块9:用于根据聚类结果判断污染程度;
模块1-9中均包括存储和计算设备。
每个模块中包括存储和计算设备。
进一步地,模块3短序列比对软件选自bowtie2、bwa、bwa-mem。
进一步地,模块4中使用samtools depth工具。
进一步地,模块5中的分隔长度为200—1000个碱基。
进一步地,模块5中的分隔长度为500个碱基。
进一步地,模块8中的聚类方法选自kmeans、层次聚类(hierarchicalclustering), DBSCAN算法以及Density Peaks聚类(局部密度聚类)。
进一步地,步骤模块8中聚类方法为kmeans;模块9包括寻找最优的k值;确定好最优的k值后,若k值为1,则表示只有一个类,表示没有污染;若k值大于1,则计算每个聚类中数据的数据量,计算最大的类占总数据量的比例,若大于95%则表示污染很少或是无污染。
进一步地,所述基因组为真核生物基因组。
本申请中步骤(1)/模块1中的“测序”可以使用现有技术中已知的研究中的各种方法和设备来处理样本、提取、建立文库和进行测序。
本申请中的设备中的模块可以是物理上有明显区分的单独设备,通过一定的方式连接传输数据;也可以有多个模块存在于同一物理设备(如包括CPU和存储器的计算机)中,其仅在程序中做出相应划分;每个模块对应的程序本领域技术人员可以常规设计编写。
由于不依赖现有数据库,本申请的GC-depth方法的运行速度快,时间和内存资源消耗表现均明显优于现有的方法;而且在未检测到相应的marker基因的情况下也能计算基因组的污染度,适用范围较现有方法更为广泛。
附图说明
图1为常用质量评估工具checkm的实现原理图。
图2为测序深度示意图。
图3A为计算得到的GC含量和测序深度结果存在污染的情况,图3B为计算得到的GC含量和测序深度结果不存在污染的情况。
图4为本申请方法的流程图。
具体实施方式
下面结合具体实施例详述本发明。以下实施例仅做展示用,本发明的保护范围由权利要求限定,不局限于以下实施例。
实施例1 :本申请方法的流程
本申请方法的基本过程如图4所示:
(1)数据准备:质控后的reads、组装的基因组文件;
(2)使用bowtie2-build对组装的基因组构建需要比对的index;
(3)利用构建好的数据库使用bowtie2对reads进行比对获得比对结果bam文件;
(4)使用samtools depth工具计算基因组序列中每个位点测序深度;
(5)使用python对基因组序列统计GC含量,对每条组装的序列进行分割,分割长度为500个碱基,计算这500个碱基的GC含量(GC(%) = 区域内GC总数/区域碱基长度);若基因组序列为10000个碱基,则此序列会生成20个GC含量的值;
(6)按照步骤(5)的分割方式并结合步骤(4)得到的每个位点的测序深度结果,计算500个碱基的平均测序深度;某个位点测序深度 = 比对到该位点的reads数;某个区域测序深度 = (比对到该位点的reads数 * 比对的reads长度)/目标区域长度。如图2所示,图中横向连续线条表示基因组序列,横向短线条的表示短reads,纵向线条表示基因组序列上特定的位点。在图示示例中:上方低测序深度reads并未比对到该点的碱基,此时此处测序深度为0;在下方的高测序深度有3条reads比对上(纵向线条与横向短线条交叉),此处测序深度为3;
(7)将步骤(5)得到的GC含量数据和步骤(6)计算得到的测序深度结果合并在一起,合并规则同一个序列相同顺序(第一个500碱基结果,第二个500碱基结果)合并在一起,形成一个二维数据结果;
(8)使用python中sklearn包对GC-depth二维数据进行Kmeans聚类,k值选择范围为1-5,每选择1个k值记录下SSE(误差平方和);
(9)使用kneed包中的KneeLocator函数来寻找最优的k值;确定好最优的k值后,若k值为1,则表示只有一个类,表示没有污染。若k值大于1,则计算每个聚类中数据的数据量,计算最大的类占总数据量的比例,若大于95%则表示污染很少或是无污染。
实施例2: 计算实例
1)数据准备:用于测试的数据来源于NCBI下载的大肠杆菌数据(SRR10003456),此外准备沙门氏菌的基因组一个。NCBI下载的数据进行使用fastp进行数据质控。质控后数据使用spades软件进行组装获得大肠杆菌组装的基因组。挑选50%的大肠杆菌组装基因组以及50%沙门氏菌基因组序列合并成一个的有污染的混合基因组。后续会用到clean reads,混合基因组以及大肠杆菌基因组这三种数据。
2)使用clean reads同组装的大肠杆菌基因组使用bowtie2进行比对。
3)对比对后的结果使用samtools depth计算每个位点测序深度。
4)对基因组结果每条序列进行划分,每500碱基统计GC含量,同时也计算相应的该区域的平均测序深度,获得GC-depth的二维结果。以GC含量为x轴,测序深度depth为y轴对GC-depth结果展示。从这样的图(如图3A、3B所示的存在或不存在污染的情况)可以进行初步判断是否存在污染。若横轴纵轴的频率分布曲线的峰值有不止一个,则表示存在污染;不存在污染的基因组同reads比对后GC-depth在任何的维度上都是不存在两个峰值。计算得到的GC含量和测序深度分别是两个维度,类似二维数据的x、y的点(展示方式是密度累积图,和二维散点图一致,只是展示方式不同,颜色越深,线越密集,表示此处的点越多。上方的是GC含量累积密度曲线表示了数据在该维度的分布,若此处有峰,则表示该区域数据分布密集。右侧的是测序深度的累积密度曲线)。
5)利用上述得到的数据使用无监督聚类方法kmeans进行聚类。
6)为kmeans聚类选择最优的k值,初始k值设置为1-5,计算SSE(误差平方和),根据SSE确定最佳k值。
7)污染判断标准,若最优k值等于1,则表示无污染。若k值大于1,则会计算聚类中最大类包含数据占比总数据量的比例。若超过95%则表示无污染,或污染极低,若未超过95%。则表示组装的基因组中存在污染。
8)使用相同方式对大肠杆菌基因组计算测序的深度以及GC含量进行kmeans聚类。
9) 使用checkm对大肠杆菌组装的基因组结果直接进行污染度评估。
统计程序运行的时间方法,使用date命令获取当前的开始时间,程序结束后同样调用date命令获取最终结束的时间,计算两次时间的时间差。
内存统计方法,使用python中psutil包在程序运行过程中每隔10s统计系统占用内存大小,最后程序运行完成后,计算平均内存占用大小,和内存峰值。使用的线程数均为32个线程分别在耗时,污染度评估结果,是否依赖数据库以及内存消耗几个方面比较了两种方法的差别。
表1本申请的GC-depth方法与Checkm方法的效果比较
如表1所述,在保证准确性的前提下,相较于checkm方法:GC-depth方法无需依赖任何数据库,运行速度和内存消耗表现均明显优于checkm;特别是,由于GC-depth方法不依赖参考数据库,即便未检测到相应的marker基因也能计算基因组的污染度,明显扩展了方法的适用条件。
Claims (10)
1.一种de novo评估组装基因组污染度的方法,其特征在于,所述方法使用组装后计算得到的GC含量以及测序深度两个维度的数据来进行聚类,通过聚类的结果来评估组装的基因组中是否含有污染;所述方法包括以下步骤:
(1)对样品基因组进行测序,获得质控后的reads以及组装的基因组;
(2)对组装的基因组构建需要比对的index;
(3)使用短序列比对软件对reads进行比对获得比对结果bam文件;
(4)计算基因组序列中每个位点测序深度;
(5)对基因组序列统计GC含量:将每条组装的序列分割成等长的分割区域,每个分割区域长度为100-3000个碱基,计算每个分割区域中的GC含量:GC% = 每个分割区域中GC总数/每个分割区域中的碱基总数;
(6)按照步骤(5)的分割方式并结合步骤(4)得到的每个位点的测序深度结果,计算每个分割区域的平均测序深度;某个位点测序深度 = 比对到该位点的reads数;某个分割区域的测序深度 = (比对到该位点的reads数 * 比对的reads长度)/分割碱基总数;
(7)将步骤(5)得到的GC含量数据和步骤(6)计算得到的测序深度结果合并在一起,形成二维数据;
(8)对步骤(7)得到的二维数据进行无监督聚类;
(9)根据聚类结果判断污染程度。
2. 根据权利要求1所述的方法,其中步骤(3)短序列比对软件选自bowtie2、bwa、bwa-mem;步骤(4)中使用samtools depth工具;步骤(8)中的聚类方法选自kmeans、层次聚类,DBSCAN算法或Density Peaks聚类。
3.根据权利要求2所述的方法,其中步骤(5)中的每个分割区域长度为500个碱基。
4.根据权利要求3所述的方法,其中步骤(8)中聚类方法为kmeans;步骤(9)包括寻找最优的k值;确定好最优的k值后,若k值为1,则表示只有一个类,表示没有污染;若k值大于1,则计算每个聚类中数据的数据量,计算最大的类占总数据量的比例,若大于95%则表示污染很少或是无污染。
5.根据权利要求1-4任一项所述的方法,其中所述基因组为真核生物基因组。
6. 一种de novo评估组装基因组污染度的系统,其特征在于,所述系统包括以下模块:
模块1:用于对样品基因组进行测序,获得质控后的reads以及组装的基因组;
模块2:用于对组装的基因组构建需要比对的index;
模块3:用于使用短序列比对软件对reads进行比对获得比对结果bam文件;
模块4:用于计算基因组序列中每个位点测序深度;
模块5:用于对基因组序列统计GC含量:对每条组装的序列进行分割,每个分割区域长度为100—3000个碱基,计算每个分割区域中的GC含量:GC% = 每个分割区域中GC总数/每个分割区域中的碱基总数;
模块6:用于按照模块5的分割方式并结合模块4得到的每个位点的测序深度结果,计算每个分割区域的平均测序深度;某个位点测序深度 = 比对到该位点的reads数;某个分割区域的测序深度 = (比对到该位点的reads数 * 比对的reads长度)/分割碱基总数;
模块7:用于将模块5得到的GC含量数据和模块6计算得到的测序深度结果合并在一起,形成二维数据;
模块8:用于对模块7得到的二维数据进行无监督聚类;
模块9:用于根据聚类结果判断污染程度;
模块1-9中均包括存储和计算设备。
7. 根据权利要求6所述的系统,其中模块3中的短序列比对软件选自bowtie2、bwa、bwa-mem;模块4中使用samtools depth工具;模块5中的聚类方法选自kmeans、层次聚类,DBSCAN算法或Density Peaks聚类。
8.根据权利要求7所述的系统,其中模块5中每个分割区域长度为500个碱基。
9.根据权利要求8所述的系统,其中模块8中聚类方法为kmeans;模块9的功能包括寻找最优的k值;确定好最优的k值后,若k值为1,则表示只有一个类,表示没有污染;若k值大于1,则计算每个聚类中数据的数据量,计算最大的类占总数据量的比例,若大于95%则表示污染很少或是无污染。
10.根据权利要求6-9任一项所述的系统,其中所述基因组为真核生物基因组。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310505622.9A CN116230078B (zh) | 2023-05-08 | 2023-05-08 | 一种de novo评估组装基因组污染度的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310505622.9A CN116230078B (zh) | 2023-05-08 | 2023-05-08 | 一种de novo评估组装基因组污染度的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116230078A CN116230078A (zh) | 2023-06-06 |
CN116230078B true CN116230078B (zh) | 2023-07-07 |
Family
ID=86584651
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310505622.9A Active CN116230078B (zh) | 2023-05-08 | 2023-05-08 | 一种de novo评估组装基因组污染度的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116230078B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105734122A (zh) * | 2014-12-31 | 2016-07-06 | 深圳市作物分子设计育种研究院 | Simm法快速定位突变性状相关基因 |
CN111933218A (zh) * | 2020-07-01 | 2020-11-13 | 广州基迪奥生物科技有限公司 | 一种优化的宏基因组binning分析微生物群落的方法 |
CN112669901A (zh) * | 2020-12-31 | 2021-04-16 | 北京优迅医学检验实验室有限公司 | 基于低深度高通量基因组测序的染色体拷贝数变异检测装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014019180A1 (zh) * | 2012-08-01 | 2014-02-06 | 深圳华大基因研究院 | 确定异常状态生物标记物的方法及系统 |
WO2014019271A1 (en) * | 2012-08-01 | 2014-02-06 | Bgi Shenzhen | Biomarkers for diabetes and usages thereof |
US20190214109A1 (en) * | 2018-01-08 | 2019-07-11 | Rutgers, The State University Of New Jersey | Methods For Finding Genome Rearrangments From Sequencing Data |
-
2023
- 2023-05-08 CN CN202310505622.9A patent/CN116230078B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105734122A (zh) * | 2014-12-31 | 2016-07-06 | 深圳市作物分子设计育种研究院 | Simm法快速定位突变性状相关基因 |
CN111933218A (zh) * | 2020-07-01 | 2020-11-13 | 广州基迪奥生物科技有限公司 | 一种优化的宏基因组binning分析微生物群落的方法 |
CN112669901A (zh) * | 2020-12-31 | 2021-04-16 | 北京优迅医学检验实验室有限公司 | 基于低深度高通量基因组测序的染色体拷贝数变异检测装置 |
Non-Patent Citations (1)
Title |
---|
根瘤菌适应共生互作的基因组进化机制;田长富 等;2012年第五届全国微生物遗传学学术研讨会论文摘要集;第13-14页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116230078A (zh) | 2023-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Churchill et al. | Empirical threshold values for quantitative trait mapping. | |
CN107622185B (zh) | 一种数字pcr浓度计算方法 | |
CN104992079B (zh) | 基于采样学习的蛋白质-配体绑定位点预测方法 | |
CN115428088A (zh) | 用于基因表达和dna染色质可及性的联合交互式可视化的系统和方法 | |
KR101936933B1 (ko) | 염기서열의 변이 검출방법 및 이를 이용한 염기서열의 변이 검출 디바이스 | |
CN112599198A (zh) | 一种用于宏基因组测序数据的微生物物种与功能组成分析方法 | |
CN117253539B (zh) | 基于胚系突变检测高通量测序中样本污染的方法和系统 | |
CN115035950A (zh) | 基因型检测方法、样本污染检测方法、装置、设备及介质 | |
CN116230078B (zh) | 一种de novo评估组装基因组污染度的方法 | |
WO2014083018A1 (en) | Method and system for processing data for evaluating a quality level of a dataset | |
CN109997193B (zh) | 一种对特定群中的亚群进行定量分析的方法 | |
CN115948521B (zh) | 一种检测非整倍体缺失染色体信息的方法 | |
CN115248837B (zh) | 一种获取文本的地理实体的数据处理系统 | |
Schaefer et al. | AD-LIBS: inferring ancestry across hybrid genomes using low-coverage sequence data | |
CN110232951A (zh) | 判断测序数据饱和的方法、计算机可读介质和应用 | |
CN106570350A (zh) | 单核苷酸多态位点分型算法 | |
CN113053461B (zh) | 一种基于靶标的基因簇定向挖掘方法 | |
CN114400045A (zh) | 基于二代测序检测同源重组修复缺陷的方法、探针组、试剂盒和系统 | |
CN110633337B (zh) | 一种特征区域确定方法及装置,电子设备 | |
CN107784197B (zh) | 一种pcr实验优化方法 | |
CN111199776B (zh) | 评估肿瘤基因组测序数据分析质量的方法、装置及应用 | |
US8478537B2 (en) | Methods and systems for clustering biological assay data | |
CN110544510A (zh) | 基于邻接代数模型及质量等级评估的contig集成方法 | |
CN116434830B (zh) | 基于ctDNA多位点甲基化的肿瘤病灶位置识别方法 | |
CN117854594B (zh) | 一种空间组学的测序定位匹配方法及装置、空间组学测序设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20230914 Address after: Room 404, 1st to 10th floors, Innovation Apartment, National University Science and Technology Park, No. 8 Tangxun Hubei Road, Donghu New Technology Development Zone, Wuhan City, Hubei Province, 430000 Patentee after: Ruin Maituo Technology (Wuhan) Co.,Ltd. Address before: Room 102, Building 7, No. 188 Kaiyuan Avenue, Huangpu District, Guangzhou City, Guangdong Province, 510530 Patentee before: Ruiyinmaituo Technology (Guangzhou) Co.,Ltd. |