CN114155914B - 基于宏基因组拼接错误的检测校正系统 - Google Patents
基于宏基因组拼接错误的检测校正系统 Download PDFInfo
- Publication number
- CN114155914B CN114155914B CN202111451194.3A CN202111451194A CN114155914B CN 114155914 B CN114155914 B CN 114155914B CN 202111451194 A CN202111451194 A CN 202111451194A CN 114155914 B CN114155914 B CN 114155914B
- Authority
- CN
- China
- Prior art keywords
- contig
- assembly
- data
- error
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012937 correction Methods 0.000 title claims abstract description 31
- 238000001514 detection method Methods 0.000 title claims abstract description 25
- 239000011159 matrix material Substances 0.000 claims abstract description 30
- 238000000034 method Methods 0.000 claims abstract description 16
- 238000012163 sequencing technique Methods 0.000 claims abstract description 9
- 238000004458 analytical method Methods 0.000 claims abstract description 7
- 238000012549 training Methods 0.000 claims description 31
- 238000000605 extraction Methods 0.000 claims description 18
- 238000012216 screening Methods 0.000 claims description 12
- 238000013500 data storage Methods 0.000 claims description 10
- 238000007637 random forest analysis Methods 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 5
- 238000010801 machine learning Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000004907 flux Effects 0.000 abstract description 5
- 238000012268 genome sequencing Methods 0.000 abstract description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 244000005700 microbiome Species 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000007481 next generation sequencing Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/20—Sequence assembly
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Public Health (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Bioethics (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了基于宏基因组拼接错误的检测校正系统,涉及基因组测序拼接技术领域,解决了由于高通量测序数据的通量高,序列短,噪声大的特点,这就导致基因组的组装结果通常会引入组装错误,而组装错误也给下游分析带来影响的问题,通过利用提取的contig水平的相关特征建立的样本特征矩阵预测可能存在组装错误的contig,利用提取的短窗口水平的相关特征建立的窗口特征矩阵在基于无监督的预测方法下得到组装错误所在的具体位点;在预测到的组装错误所在具体位点处进行contig打断,从而进行校正,便能够检测出宏基因组组装的重叠群中的组装错误并进行校正,从而降低组装过程中引入的错误,提高组装结果的准确性。
Description
技术领域
本发明属于基因组测序拼接技术领域,具体是基于宏基因组拼接错误的检测校正系统。
背景技术
基于下一代测序的基因组测序拼接算法能够帮助了解环境样本中的微生物组成,由于高通量测序数据的通量高,序列短,噪声大的特点,以及宏基因组样本中通常包含数千物种的DNA片段,这就导致基因组的组装结果通常会引入组装错误,而组装错误也会给下游分析带来影响。
因此为了提高组装基因组的质量以及改善下游分析结果,故需要一种能够不基于参考基因组的宏基因组组装错误检测及校正系统,能够检测出宏基因组组装的重叠群中的组装错误并进行校正,从而降低组装过程中引入的错误,提高组装结果的准确性。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提出基于宏基因组拼接错误的检测校正系统,该基于宏基因组拼接错误的检测校正系统解决了由于高通量测序数据的通量高,序列短,噪声大的特点,以及宏基因组样本中通常包含数千物种的DNA片段,这就导致基因组的组装结果通常会引入组装错误,而组装错误也会给下游分析带来影响的问题。
为实现上述目的,根据本发明的第一方面的实施例提出基于宏基因组拼接错误的检测校正系统,包括:
数据存储模块用于对初始bam文件以及初始fasta文件内部的测序数据序列进行整理,并生成比对结果bam文件;
特征提取模块用于对比对结果bam文件中提取并处理相关特征,其中样本特征主要包括四类:1、基于覆盖率的特征;2、基于双端短读段比对一致性的特征;3、基于k-mer一致性的特征;4、基于单碱基变异的特征;
数据预处理模块提取满足条件的比对结果bam文件并且对比对结果bam文件内部的数据进行整理,将整理后的数据输送至模型训练模块内;
模型训练模块根据整理好的数据集训练机器学习模型;
组装错误contig检测模块对存在组装错误的contig进行识别,其中contig存在于比对结果bam文件中;
组装错误位点识别模块,对拼接错误的contig上的组装错误位点进行识别;
组装错误校正模块对识别到的组装错误进行组装校正,生成contig特征矩阵。
优选的,模型训练模块内集训方式采用的是随机森林模型。
优选的,数据存储模块内部包括数据筛选单元和bwa比对单元;
数据存储模块对测序数据序列进行整理的步骤为:首先对输入包含contigs的fasta文件通过数据筛选单元进行过滤筛选,筛选出大于1000bp的contig文件用于后续的分析;将组装成大于1000bp的contig文件中所用到的双端短读段序列及read文件输入至bwa比对单元进行比对,bwa比对单元会生成比对结果,并且过滤掉低质量比对结果,最终得到比对结果bam文件。
优选的,特征提取模块对基于覆盖率的特征处理方式为:通过双端短读段映射到contig上的覆盖率的均匀程度来衡量组装质量,同时通过双端短读段映射后得到的覆盖率的变异度,生成contig对应的组装质量的标签。
优选的,特征提取模块对基于双端短读段比对一致性的特征的处理方式为:双端短读段映射到contig上后,基于双端短读段之间的距离远近,方向是否一致性,以及比对上的短读段是否能够或者仅部分能够比对上划分为不同类型的短读段,然后将这些不同类型短读段平均每个contig或者每个窗口的比例做为特征,生成短窗口水平的相关特征和contig水平的相关特征,通过短窗口水平的相关特征建立窗口特征矩阵。
优选的,特征提取模块对基于k-mer一致性的特征的处理方式为:衡量映射到contig上的短读段中的k-mer的丰度与对应的contig上的k-mer的丰度是否一致,计算KAD值,计算方式为:通过所计算的KAD值对特征进行提取。
优选的,特征提取模块对基于单碱基变异的特征的处理通过衡量contig上每一个碱基位点与映射到该位点上的短读段中的碱基的是否一致,一致,则进行提取。
优选的,基于宏基因组拼接错误的检测校正系统,其检测校正步骤为:
S1、通过特征提取模块从比对结果bam文件中提取相关的特征;
S2、检测是否为训练模块;
S21、若是训练模块,则利用样本特征矩阵以及contig对应的组装质量的标签训练随机森林模型;
S22、若不是训练模块;
S221、若输入数据为宏基因组数据;
S2211、利用提取的contig水平的相关特征建立的样本特征矩阵预测可能存在组装错误的contig;
S2212、利用提取的短窗口水平的相关特征建立的窗口特征矩阵,通过组装错误位点识别模块进行识别得到组装错误所在的具体位点,并生成错误位点报告文件;
S2213、在预测到的组装错误所在具体位点处通过组装错误位点校正模块进行contig打断,从而进行校正,生成校正后的contig文件;
S222、若输入的数据不是宏基因组数据,那么则只执行S2212以及S22133步骤,而不需要执行S2211步骤;
S3、将校正后的contig文件以及错误位点报告文件进行输出。
与现有技术相比,本发明的有益效果是:通过利用提取的contig水平的相关特征建立的样本特征矩阵预测可能存在组装错误的contig,利用提取的短窗口水平的相关特征建立的窗口特征矩阵在基于无监督的预测方法下得到组装错误所在的具体位点;在预测到的组装错误所在具体位点处进行contig打断,从而进行校正,便能够检测出宏基因组组装的重叠群中的组装错误并进行校正,从而降低组装过程中引入的错误,提高组装结果的准确性。
附图说明
图1为本发明的原理图;
图2为本发明的流程图
图3为本发明的几种不同类型的短读段示意图。
具体实施方式
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
如图1所示,基于宏基因组拼接错误的检测校正系统,包括数据存储模块、数据预处理模块、模型训练模块、组织错误contig检测模块、组织错误位点识别模块以及组织错误校正模块和特征提取模块;
数据存储模块用于对初始bam文件以及初始fasta文件内部的测序数据序列进行整理,并生成比对结果bam文件;
特征提取模块用于对比对结果bam文件中提取相关特征,其中样本特征主要包括四类:1、基于覆盖率的特征;2、基于双端短读段比对一致性的特征;3、基于k-mer一致性的特征;4、基于单碱基变异的特征;四类特征分别在contig水平和窗口水平上计算从而分别得到contig特征矩阵以及窗口特征矩阵。
数据预处理模块提取满足条件的比对结果bam文件并且对比对结果bam文件内部的数据进行整理,将整理后的数据输送至模型训练模块内;
模型训练模块根据整理好的数据集训练机器学习模型,其中整理好的数据为比对结果bam文件内部的数据,其集训方式采用的是随机森林模型;
组装错误contig检测模块对存在组装错误的contig进行识别,其中contig存在于比对结果bam文件中;
组装错误位点识别模块,对拼接错误的contig上的组装错误位点进行识别;
组装错误校正模块对识别到的组装错误进行组装校正,生成contig特征矩阵;
数据存储模块内部包括数据筛选单元和bwa比对单元;
数据存储模块的具体操作步骤为:首先对输入包含contigs的fasta文件通过数据筛选单元进行过滤筛选,筛选出大于1000bp的contig文件用于后续的分析;将组装成大于1000bp的contig文件中所用到的双端短读段序列及read文件输入至bwa比对单元进行比对,bwa比对单元会生成比对结果,并且过滤掉低质量的比对结果,低质量比对结果为比对值低于10的比对结果,最终得到比对结果bam文件;
bwa比对单元主要用于将低差异度的短序列与参考基因组进行比对。
基于覆盖率的特征:通过双端短读段映射到contig上的覆盖率的均匀程度来衡量组装质量,主要计算短读段映射后得到的覆盖率的变异度,生成contig对应的组装质量的标签;
如图3所示,基于双端短读段比对一致性的特征:双端短读段映射到contig上后,基于双端短读段之间的距离远近,方向是否一致性,以及比对上的短读段是否能够仅部分能够比对上划分为不同类型的短读段,然后计算这些不同类型短读段平均每个contig或者每个窗口的比例做为特征,此类特征为短窗口水平的相关特征和contig水平的相关特征,通过短窗口水平的相关特征建立窗口特征矩阵;
基于k-mer一致性的特征:衡量映射到contig上的短读段中的k-mer的丰度与对应的contig上的k-mer的丰度的一致性,这里主要通过计算KAD(k-mer abundancedifference)值;
对于给定的某一个k-mer,c表示为映射到的某个contig中该类型k-mer的出现频率,n表示为映射到的某个contig上的双端短读段中该类型k-mer的丰度,m表示为该contig的平均测序深度。因此KAD计算方法如下:
通过所计算的KAD值对特征进行提取,其中提取限定值由操作人员自行设定;
基于单碱基变异的特征:主要衡量contig上每一个碱基位点与映射到该位点上的短读段中的碱基的一致性。
样本特征矩阵为基于以上提取的四类特征建立样本特征矩阵,包括基于contig水平的特征矩阵,以及基于窗口的特征矩阵;
如图2所示,基于宏基因组拼接错误的检测校正系统,其检测校正步骤为:
S1、通过特征提取模块从比对结果bam文件中提取相关的特征;
S2、检测是否为训练模块;
S21、若是训练模块,则利用样本特征矩阵以及contig对应的组装质量的标签训练随机森林模型;
S22、若不是训练模块;
S221、若输入数据为宏基因组数据;
S2211、利用提取的contig水平的相关特征建立的样本特征矩阵预测可能存在组装错误的contig;
S2212、利用提取的短窗口水平的相关特征建立的窗口特征矩阵,通过组装错误位点识别模块进行识别得到组装错误所在的具体位点,并生成错误位点报告文件;
S2213、在预测到的组装错误所在具体位点处通过组装错误位点校正模块进行contig打断,从而进行校正,生成校正后的contig文件;
S222、若输入的数据不是宏基因组数据,那么则只执行S2212以及S22133步骤,而不需要执行S2211步骤;
S3、将校正后的contig文件以及错误位点报告文件进行输出。
得到contig特征矩阵后,即每一个contig都由特征向量表示,之后根据训练好的随机森林模型预测可能存在组装错误的contig,每一个contig都能得到相应的打分;
根据得到的窗口特征矩阵,即每一个100bp的窗口都由特征向量表示,此后则利用无监督的异常检测算法,即孤立森林算法检测出异常的位点,即可能存在组装错误的窗口,并利用read breakpoint的特征来最终定位拼接错误所在的碱基位置。
上述公式均是去除量纲取其数值计算,公式是由采集大量数据进行软件模拟得到最接近真实情况的一个公式,公式中的预设参数和预设阈值由本领域的技术人员根据实际情况设定或者大量数据模拟获得。
本发明的工作原理:从bam文件中提取相关的特征,若实验选择训练模块,则利用样本特征矩阵以及contig对应的组装质量的标签训练随机森林模型,若实验选择预测模块,将考虑以下两种情况。若输入数据为宏基因组数据,则执行如下步骤:1、利用提取的contig水平的相关特征建立的样本特征矩阵预测可能存在组装错误的contig,2、利用提取的短窗口水平的相关特征建立的窗口特征矩阵在基于无监督的预测方法下得到组装错误所在的具体位点;3、在预测到的组装错误所在具体位点处进行contig打断,从而进行校正。而若输入的数据为单基因组数据(single),那么则只执行2、3步骤,而不需要执行1步骤。
以上实施例仅用以说明本发明的技术方法而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方法进行修改或等同替换,而不脱离本发明技术方法的精神和范围。
Claims (7)
1.基于宏基因组拼接错误的检测校正系统,其特征在于,包括:
数据存储模块,用于对初始bam文件以及初始fasta文件内部的测序数据序列进行整理,并生成比对结果bam文件;
特征提取模块,用于对比对结果bam文件中提取并处理相关样本特征,其中样本特征包括基于覆盖率的特征、基于双端短读段比对一致性的特征、基于k-mer一致性的特征和基于单碱基变异的特征,得到满足条件的比对结果bam文件;
数据预处理模块,提取满足条件的比对结果bam文件并且对比对结果bam文件内部的数据进行整理,将整理后的数据输送至模型训练模块内;
模型训练模块,根据整理好的数据集训练机器学习模型,生成存在拼接错误的contig;
组装错误contig检测模块,对存在拼接错误的contig进行识别,其中contig存在于比对结果bam文件中;
组装错误位点识别模块,对拼接错误的contig上的组装错误位点进行识别;
组装错误校正模块,对识别到的组装错误进行组装校正,生成contig特征矩阵;
其检测校正步骤为:
S1、通过特征提取模块从比对结果bam文件中提取相关的特征;
S2、检测是否为训练数据;
S21、若是训练模块,则利用样本特征矩阵以及contig对应的组装质量的标签训练随机森林模型;
S22、若不是训练数据;
S221、若输入数据为宏基因组数据;
S2211、利用提取的contig水平的相关特征建立的样本特征矩阵预测可能存在组装错误的contig;
S2212、利用提取的短窗口水平的特征建立的窗口特征矩阵,通过组装错误位点识别模块进行识别得到组装错误所在的具体位点,并生成错误位点报告文件;
S2213、在预测到的组装错误所在具体位点处通过组装错误位点校正模块进行contig打断,从而进行校正,生成校正后的contig文件;
S222、若输入的数据不是宏基因组数据,那么则只执行S2212以及S22133步骤,而不需要执行S2211步骤;
S3、将校正后的contig文件以及错误位点报告文件进行输出。
2.根据权利要求1所述的基于宏基因组拼接错误的检测校正系统,其特征在于,模型训练模块内所采用的机器学习模型为随机森林模型,其中整理好的数据为训练数据。
3.根据权利要求1所述的基于宏基因组拼接错误的检测校正系统,其特征在于,数据存储模块内部包括数据筛选单元和bwa比对单元;
数据存储模块对测序数据序列进行整理的步骤为:
对输入包含contigs的fasta文件通过数据筛选单元进行过滤筛选,筛选出大于1000bp的contig文件用于后续的分析;
将组装成大于1000bp的contig文件中所用到的双端短读段序列及read文件输入至bwa比对单元进行比对,bwa比对单元生成比对结果,并且过滤掉低质量比对结果,低质量比对结果为比对值低于10的比对结果,最终得到比对结果bam文件。
4.根据权利要求1所述的基于宏基因组拼接错误的检测校正系统,其特征在于,特征提取模块对基于覆盖率的特征处理方式为:通过双端短读段映射到contig上的覆盖率的均匀程度来衡量组装质量,同时通过双端短读段映射后得到的覆盖率的变异度,生成contig对应的组装质量的标签。
5.根据权利要求1所述的基于宏基因组拼接错误的检测校正系统,其特征在于,特征提取模块对基于双端短读段比对一致性的特征的处理方式为:双端短读段映射到contig上后,基于双端短读段之间的距离远近,方向是否一致性,以及比对上的短读段是否能够或者仅部分能够比对上划分为不同类型的短读段,然后将这些不同类型短读段平均每个contig或者每个窗口的比例做为特征,生成短窗口水平的相关特征和contig水平的相关特征,通过短窗口水平的相关特征建立窗口特征矩阵。
6.根据权利要求1所述的基于宏基因组拼接错误的检测校正系统,其特征在于,特征提取模块对基于k-mer一致性的特征的处理方式为:衡量映射到contig上的短读段中的k-mer的丰度与对应的contig上的k-mer的丰度是否一致,计算KAD值,计算方式为:通过所计算的KAD值对特征进行提取。
7.根据权利要求1所述的基于宏基因组拼接错误的检测校正系统,其特征在于,特征提取模块对基于单碱基变异的特征的处理通过衡量contig上每一个碱基位点与映射到该位点上的短读段中的碱基的是否一致,一致,则进行提取。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111451194.3A CN114155914B (zh) | 2021-12-01 | 2021-12-01 | 基于宏基因组拼接错误的检测校正系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111451194.3A CN114155914B (zh) | 2021-12-01 | 2021-12-01 | 基于宏基因组拼接错误的检测校正系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114155914A CN114155914A (zh) | 2022-03-08 |
CN114155914B true CN114155914B (zh) | 2024-06-25 |
Family
ID=80455279
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111451194.3A Active CN114155914B (zh) | 2021-12-01 | 2021-12-01 | 基于宏基因组拼接错误的检测校正系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114155914B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115910216B (zh) * | 2022-12-01 | 2023-07-25 | 杭州瑞普基因科技有限公司 | 一种基于机器学习识别基因组序列分类错误的方法和系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111583996A (zh) * | 2020-04-20 | 2020-08-25 | 西安交通大学 | 一种模型非依赖的基因组结构变异检测系统及方法 |
CN113689912A (zh) * | 2020-12-14 | 2021-11-23 | 广东美格基因科技有限公司 | 基于宏基因组测序的微生物对比结果校正的方法和系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102035285B1 (ko) * | 2017-05-30 | 2019-10-22 | 단국대학교 산학협력단 | Dna 샷건 시퀀싱 또는 rna 전사체 어셈블리를 위한 콘티그 프로파일의 업데이트 방법 및 콘티그 형성 방법 |
CN109712671B (zh) * | 2018-12-20 | 2020-06-26 | 北京优迅医学检验实验室有限公司 | 基于ctDNA的基因检测装置、存储介质及计算机系统 |
CN112908415B (zh) * | 2021-02-23 | 2022-05-17 | 广西壮族自治区农业科学院 | 一种获得染色体水平基因组的方法 |
-
2021
- 2021-12-01 CN CN202111451194.3A patent/CN114155914B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111583996A (zh) * | 2020-04-20 | 2020-08-25 | 西安交通大学 | 一种模型非依赖的基因组结构变异检测系统及方法 |
CN113689912A (zh) * | 2020-12-14 | 2021-11-23 | 广东美格基因科技有限公司 | 基于宏基因组测序的微生物对比结果校正的方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114155914A (zh) | 2022-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110704224A (zh) | 一种线上故障处理方法及系统 | |
CN111026653B (zh) | 异常程序行为检测方法、装置、电子设备和存储介质 | |
US20130166221A1 (en) | Method and system for sequence correlation | |
CN111459700A (zh) | 设备故障的诊断方法、诊断装置、诊断设备及存储介质 | |
CN111081315A (zh) | 一种同源假基因变异检测的方法 | |
CN114155914B (zh) | 基于宏基因组拼接错误的检测校正系统 | |
CN116166983A (zh) | 一种基于机器学习的列车弓网故障检测方法 | |
CN111177655A (zh) | 一种数据处理方法、装置及电子设备 | |
CN112529109A (zh) | 一种基于无监督多模型的异常检测方法及系统 | |
CN112199670A (zh) | 一种基于深度学习改进iforest对行为异常检测的日志监控方法 | |
CN115269314A (zh) | 一种基于日志的事务异常检测方法 | |
CN116708038A (zh) | 基于资产测绘的工业互联网企业网络安全威胁识别方法 | |
CN115793552A (zh) | 一种基于数据处理的电子气体生产监测方法及系统 | |
CN116088454B (zh) | 基于数据融合的智能制造管理系统 | |
CN113096737A (zh) | 一种用于对病原体类型进行自动分析的方法及系统 | |
CN116630809A (zh) | 基于智能图像分析的地质雷达数据自动识别方法及系统 | |
CN113571132B (zh) | 一种基于cnv结果判定样本降解的方法 | |
CN107590362B (zh) | 一种基于长读序测序判断重叠组装正误的方法 | |
CN115659271A (zh) | 传感器异常检测方法、模型训练方法、系统、设备及介质 | |
CN113407520A (zh) | 一种基于机器学习的电力网络安全数据清洗系统及方法 | |
CN115205747A (zh) | 一种基于图像识别的道路自动化检测系统 | |
CN114416417A (zh) | 系统异常监测方法、装置、设备及存储介质 | |
CN114139853A (zh) | 一种基于大数据的钢结构产品清单处理方法和装置 | |
CN112801013A (zh) | 一种基于关键点识别校验的人脸识别方法、系统及装置 | |
WO2016033305A1 (en) | Methods, systems and computer readable storage media for generating accurate nucleotide sequences |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |