CN115527612A - 基于数值特征表达的基因组二四代融合组装方法及系统 - Google Patents

基于数值特征表达的基因组二四代融合组装方法及系统 Download PDF

Info

Publication number
CN115527612A
CN115527612A CN202211336402.XA CN202211336402A CN115527612A CN 115527612 A CN115527612 A CN 115527612A CN 202211336402 A CN202211336402 A CN 202211336402A CN 115527612 A CN115527612 A CN 115527612A
Authority
CN
China
Prior art keywords
generation
sequencing data
generation sequencing
sequence
sequencing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211336402.XA
Other languages
English (en)
Other versions
CN115527612B (zh
Inventor
李国良
张也
陆嘉华
彭德华
陈建邦
江熠
陈星霖
唐善雯
张芷硕
吴蕾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Innovation Research Institute Of Tianjin University
Sichuan Tianling Innovation Technology Group Co ltd
Original Assignee
Sichuan Innovation Research Institute Of Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Innovation Research Institute Of Tianjin University filed Critical Sichuan Innovation Research Institute Of Tianjin University
Priority to CN202211336402.XA priority Critical patent/CN115527612B/zh
Publication of CN115527612A publication Critical patent/CN115527612A/zh
Application granted granted Critical
Publication of CN115527612B publication Critical patent/CN115527612B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了基于数值特征表达的基因组二四代融合组装方法及系统,该方法包括如下步骤:S1:读入测序文件,进行基因解析获得测序序列reads的自定义编号和碱基序列;S2:截取测序序列reads的碱基序列,获得质心特征值,并生成二代测序数据特征值矩阵和四代测序数据特征值矩阵;S3:按照设定误差阈值A搜索四代测序数据之间相似特征值对应的序列,将四代测序数据组装为基因序列骨架;S4:按照设定误差阈值B搜索二代测序数据和四代测序数据相似特征值对应的序列,将二代测序数据回帖至基因序列骨架;S5:输出最终组装结果和SNP信息表。本发明可提高涉及二四代组装和有参映射组装分析的生物信息学分析流程的速度。

Description

基于数值特征表达的基因组二四代融合组装方法及系统
技术领域
本发明涉及机器学习技术领域,尤其涉及基于数值特征表达的基因组二四代融合组装方法及系统。
背景技术
第二代测序技术大大提高了基因测序的通量,但其获得的单条序列长度很短,往往只在50~300bp,相对于整个基因组而言是极小的,并且因为测序的覆盖范围更深,导致基因组项目中需要处理的序列数量迅速增加。二代测序获得的原始碱基数据准确度大于99.94%,在15X覆盖率时的准确度就可以达到99.999%。
自2014年牛津纳米孔科技有限公司(Oxford Nanopore Technologies, ONT)发布第一台纳米孔测序仪MinION以来,纳米孔测序技术及其应用研究飞速增长。纳米孔测序技术(又称第四代测序技术)是最近几年兴起的新一代测序技术,目前测序长度可以达到150kb。随着ONT纳米孔测序技术不断升级和改进,目前最新的ONT测序芯片能够达到接近99.999%的准确率。
第四代测序技术在开发组装算法时不适合利用NGS数据组装的De Bruijn Graph进行组装,主要存在两方面的原因。首先,De Bruijn Graph等方法依赖测序reads拆分的K-mer测序准确,而高错误率的MinION测序reads不能保证这一点;其次,De Bruijn Graph的结构不适用长reads,其会导致截取后产生的K-mer片段急剧增加从而加大内存开销。因此MinION测序数据的长reads更适合Sanger测序时期基于Overlap-Layout-Consensus(OLC,重叠-分布-共识)的方法获得一致性序列,再通过一致性序列进行数据矫正,矫正后的准确率可达99.9%到99.99%;并且同时使用二代数据进行纠错,准确率可以更高。但是一步组装,两步纠错的从头组装算法需要大量重复测序,因此增加了极高的测序成本。
基因组组装是进行生物信息学分析的第一步,许多物种的基因组未知,得到高质量的参考基因组,对开展该物种进一步的分析具有重大意义。高准确率的长读长,相比二代测序能够更好地跨越重复区域,组装出更高质量的基因组,但已有的组装方法均需要进行两轮纠错消耗算力成本和时间成本。
发明内容
本发明的目的是提供一种基于数值特征表达的基因组二四代融合组装方法及系统,以解决现有基因组组装方法成本较高的技术问题。
本发明的目的是采用以下技术方案实现的:基于数值特征表达的基因组二四代融合组装方法,包括如下步骤:
S1:读入测序文件,进行基因解析获得测序序列reads的自定义编号和碱基序列;
S2:截取测序序列reads的碱基序列,获得质心特征值,并生成二代测序数据特征值矩阵和四代测序数据特征值矩阵;
S3:按照设定误差阈值A搜索四代测序数据之间相似特征值对应的序列,将四代测序数据组装为基因序列骨架;
S4:按照设定误差阈值B搜索二代测序数据和四代测序数据相似特征值对应的序列,将二代测序数据回帖至基因序列骨架;
S5:输出最终组装结果和SNP信息表。
进一步的,步骤S1具体为:从磁盘读入测序文件,所述测序文件包括fasta和/或fastq文件,,并通过识别文件标识行对测序文件进行基因解析,获得测序序列reads的自定义编号和碱基序列。
进一步的,所述测序序列reads包括二代测序数据和四代测序数据。
进一步的,步骤S2包括如下子步骤:
S21:按照预设长度滑动截取测序序列reads的碱基序列,并将其映射为坐标系散点,采用Kmeans聚类获得质心特征值;
S22:按照预设间隔向前滑动截取,依次获得所截取测序序列reads碱基序列的质心特征值,直到该条测序序列reads的最后一位停止;
S23:将计算得到的一系列质心特征值作为该条测序序列reads的特征值矩阵,所述特征值矩阵包括二代测序数据特征值矩阵和四代测序数据特征值矩阵。
进一步的,步骤S3包括如下子步骤:
S31:将四代测序数据特征值矩阵进行数值快排;
S32:按照设定误差阈值A搜索四代测序数据之间相似特征值对应的序列;
S33:将筛选出来的特征值相似的四代测序数据组装为基因序列骨架。
进一步的,步骤S3还包括如下子步骤:
S34:生成读长ID,以及读长ID在基因序列骨架中位置的对应索引表。
进一步的,步骤S4包括如下子步骤:
S41:将二代测序数据特征值矩阵进行数值快排;
S42:按照设定误差阈值B搜索二代测序数据和四代测序数据相似特征值对应的序列,得到与二代读长特征值相似的四代读长ID和该四代读长ID在基因序列骨架中的定位;
S43:将二代测序数据按照位置比对定位到基因序列骨架上进行对比,根据比对结果,将二代测序数据回帖至基因序列骨架。
进一步的,步骤S43具体为:若重合区域超过阈值C,则判定该二代测序数据已经回帖定位至基因序列骨架;若重合区域低于阈值C,则判定该二代测序数据不能回帖至基因序列骨架,此时,需要缩小阈值C,进行下一轮搜索回帖。
基于数值特征表达的基因组二四代融合组装系统,包括读取模块、截取模块、四代测序数据搜索模块、二代测序数据搜索模块和输出模块,所述读取模块用以读入测序文件,进行基因解析获得测序序列reads的自定义编号和碱基序列;所述截取模块用以截取测序序列reads的碱基序列,获得质心特征值,并生成二代测序数据特征值矩阵和四代测序数据特征值矩阵;所述四代测序数据搜索模块用以按照设定误差阈值A搜索四代测序数据之间相似特征值对应的序列,将四代测序数据组装为基因序列骨架;所述二代测序数据搜索模块用以按照设定误差阈值B搜索二代测序数据和四代测序数据相似特征值对应的序列,将二代测序数据回帖至基因序列骨架;所述输出模块用以输出最终组装结果和SNP信息表。
本发明的有益效果在于:本发明相较于现有的基因组组装算法,依托高准确度的四代测序数据将其组装为准确的基因序列骨架,无需自纠错,减少算力成本,使用无监督机器学习获得二四代或参考基因组的特征值矩阵,从而进行模糊匹配定位,无需传统的比对算法构建FM-index。总而言之,本发明是一种集高精准度、低算力需求、高效率于一体的二四代融合组装方案,大幅提高了涉及二四代组装和有参映射组装分析的生物信息学分析流程的速度,有助于生信分析人员以更快的速度、更短的时间获得准确的分析结果。
依托于基因测序技术以及生物信息学等科学领域的快速发展,本发明为低成本、快速高效的二四代融合组装和有参映射组装分析提供了有力保障,在真正意义上实现了以计算机科学技术为工具,对生物信息进行储存、检索与分析。同时,生物信息学是21世纪自然科学的核心领域之一,本发明作为生物信息学中DNA-seq分析的关键技术,在基因组学中具有极高技术优势和市场价值,适合于基因分析的实际应用与技术上的进一步推广。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明流程图;
图2为本发明系统框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
下面结合附图,对本发明的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
实施例1:
参阅图1,基于数值特征表达的基因组二四代融合组装方法,包括如下步骤:
S1:读入测序文件,进行基因解析获得测序序列reads的自定义编号和碱基序列;
S2:截取测序序列reads的碱基序列,获得质心特征值,并生成二代测序数据特征值矩阵和四代测序数据特征值矩阵;
S3:按照设定误差阈值A搜索四代测序数据之间相似特征值对应的序列,将四代测序数据组装为基因序列骨架;
S4:按照设定误差阈值B搜索二代测序数据和四代测序数据相似特征值对应的序列,将二代测序数据回帖至基因序列骨架;
S5:输出最终组装结果和SNP信息表。
在本实施例当中,步骤S1具体为:从磁盘读入测序文件,所述测序文件包括fasta和/或fastq文件,,并通过识别文件标识行对测序文件进行基因解析,获得测序序列reads的自定义编号和碱基序列,所述测序序列reads包括二代测序数据和四代测序数据。
在本实施例当中,步骤S2包括如下子步骤:
S21:按照1-100(长度可根据实际情况进行相应调整)滑动截取测序序列reads的碱基序列,并将其映射为坐标系散点,采用Kmeans聚类获得质心特征值;
S22:按照11-110、21-120…(间隔可根据实际情况进行相应调整)间隔向前滑动截取,依次获得所截取测序序列reads碱基序列的质心特征值,直到该条测序序列reads的最后一位停止;
S23:将计算得到的一系列质心特征值作为该条测序序列reads的特征值矩阵,所述特征值矩阵包括二代测序数据特征值矩阵和四代测序数据特征值矩阵。
虽然二代测序数据和四代测序数据之间可能存在测序错误导致某部分的特征值不一致的问题,但在整体的特征值矩阵中,该部分偏差不会造成严重影响。针对有参映射组装,按照相同方法将参考基因组和重测序reads进行特征数值化即可。
在本实施例当中,步骤S3可视为四代测序数据组装,具体包括如下子步骤:
S31:将四代测序数据特征值矩阵进行数值快排;
S32:按照设定误差阈值80%(数值相识度可根据实际情况进行相应调整)搜索四代测序数据之间相似特征值对应的序列,并进行提取,找到四代测序数据之间的一致性序列;
S33:将筛选出来的特征值相似的四代测序数据组装为基因序列骨架(一致性序列骨架);
S34:生成读长ID,以及读长ID在基因序列骨架中位置的对应索引表。
在本实施例当中,步骤S4可视为二代测序数据定位,具体包括如下子步骤:
S41:将二代测序数据特征值矩阵进行数值快排;
S42:按照设定误差阈值80%(数值相识度可根据实际情况进行相应调整)搜索二代测序数据和四代测序数据相似特征值对应的序列,得到与二代读长特征值相似的四代读长ID和该四代读长ID在基因序列骨架中的定位;
S43:将该二代测序数据按照位置比对定位到基因序列骨架上进行对比,根据比对结果,将二代测序数据回帖至基因序列骨架。
进一步的,步骤S43具体为:若重合区域超过阈值80%(可根据实际情况进行相应调整),则判定该二代测序数据已经回帖定位至基因序列骨架,并同时生成SNP信息表;若重合区域低于阈值80%,则判定该二代测序数据不能回帖至基因序列骨架,此时,需要缩小阈值80%,进行下一轮搜索回帖。
针对有参映射组装,只需将重测序读长按照相同方法定位到参考基因组而不是一致性序列骨架上即可。
参阅图2,基于同一发明构思,本发明还提供了一种基于数值特征表达的基因组二四代融合组装系统,以实现上述基于数值特征表达的基因组二四代融合组装方法,该系统包括读取模块、截取模块、四代测序数据搜索模块、二代测序数据搜索模块和输出模块,所述读取模块用以读入测序文件,进行基因解析获得测序序列reads的自定义编号和碱基序列;所述截取模块用以截取测序序列reads的碱基序列,获得质心特征值,并生成二代测序数据特征值矩阵和四代测序数据特征值矩阵;所述四代测序数据搜索模块用以按照设定误差阈值A搜索四代测序数据之间相似特征值对应的序列,将四代测序数据组装为基因序列骨架;所述二代测序数据搜索模块用以按照设定误差阈值B搜索二代测序数据和四代测序数据相似特征值对应的序列,将二代测序数据回帖至基因序列骨架;所述输出模块用以输出最终组装结果和SNP信息表。
本发明相较于现有的基因组组装算法,依托高准确度的四代测序数据将其组装为准确的基因序列骨架,无需自纠错,减少算力成本,使用无监督机器学习获得二四代或参考基因组的特征值矩阵,从而进行模糊匹配定位,无需传统的比对算法构建FM-index。总而言之,本发明是一种集高精准度、低算力需求、高效率于一体的二四代融合组装方案,大幅提高了涉及二四代组装和有参映射组装分析的生物信息学分析流程的速度,有助于生信分析人员以更快的速度、更短的时间获得准确的分析结果。
依托于基因测序技术以及生物信息学等科学领域的快速发展,本发明为低成本、快速高效的二四代融合组装和有参映射组装分析提供了有力保障,在真正意义上实现了以计算机科学技术为工具,对生物信息进行储存、检索与分析。同时,生物信息学是21世纪自然科学的核心领域之一,本发明作为生物信息学中DNA-seq分析的关键技术,在基因组学中具有极高技术优势和市场价值,适合于基因分析的实际应用与技术上的进一步推广。
需要说明的是,对于前述的实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例属于优选实施例,所涉及的动作并不一定是本申请所必须的。
上述实施例中,描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (9)

1.基于数值特征表达的基因组二四代融合组装方法,其特征在于,包括如下步骤:
S1:读入测序文件,进行基因解析获得测序序列reads的自定义编号和碱基序列;
S2:截取测序序列reads的碱基序列,获得质心特征值,并生成二代测序数据特征值矩阵和四代测序数据特征值矩阵;
S3:按照设定误差阈值A搜索四代测序数据之间相似特征值对应的序列,将四代测序数据组装为基因序列骨架;
S4:按照设定误差阈值B搜索二代测序数据和四代测序数据相似特征值对应的序列,将二代测序数据回帖至基因序列骨架;
S5:输出最终组装结果和SNP信息表。
2.如权利要求1所述的基于数值特征表达的基因组二四代融合组装方法,其特征在于,步骤S1具体为:从磁盘读入测序文件,所述测序文件包括fasta和/或fastq文件,并通过识别文件标识行对测序文件进行基因解析,获得测序序列reads的自定义编号和碱基序列。
3.如权利要求1所述的基于数值特征表达的基因组二四代融合组装方法,其特征在于,所述测序序列reads包括二代测序数据和四代测序数据。
4.如权利要求1所述的基于数值特征表达的基因组二四代融合组装方法,其特征在于,步骤S2包括如下子步骤:
S21:按照预设长度滑动截取测序序列reads的碱基序列,并将其映射为坐标系散点,采用Kmeans聚类获得质心特征值;
S22:按照预设间隔向前滑动截取,依次获得所截取测序序列reads碱基序列的质心特征值,直到该条测序序列reads的最后一位停止;
S23:将计算得到的一系列质心特征值作为该条测序序列reads的特征值矩阵,所述特征值矩阵包括二代测序数据特征值矩阵和四代测序数据特征值矩阵。
5.如权利要求1所述的基于数值特征表达的基因组二四代融合组装方法,其特征在于,步骤S3包括如下子步骤:
S31:将四代测序数据特征值矩阵进行数值快排;
S32:按照设定误差阈值A搜索四代测序数据之间相似特征值对应的序列;
S33:将筛选出来的特征值相似的四代测序数据组装为基因序列骨架。
6.如权利要求5所述的基于数值特征表达的基因组二四代融合组装方法,其特征在于,步骤S3还包括如下子步骤:
S34:生成读长ID,以及读长ID在基因序列骨架中位置的对应索引表。
7.如权利要求1所述的基于数值特征表达的基因组二四代融合组装方法,其特征在于,步骤S4包括如下子步骤:
S41:将二代测序数据特征值矩阵进行数值快排;
S42:按照设定误差阈值B搜索二代测序数据和四代测序数据相似特征值对应的序列,得到与二代读长特征值相似的四代读长ID和该四代读长ID在基因序列骨架中的定位;
S43:将二代测序数据按照位置比对定位到基因序列骨架上进行对比,根据比对结果,将二代测序数据回帖至基因序列骨架。
8.如权利要求7所述的基于数值特征表达的基因组二四代融合组装方法,其特征在于,步骤S43具体为:若重合区域超过阈值C,则判定该二代测序数据已经回帖定位至基因序列骨架;若重合区域低于阈值C,则判定该二代测序数据不能回帖至基因序列骨架,此时,需要缩小阈值C,进行下一轮搜索回帖。
9.基于数值特征表达的基因组二四代融合组装系统,用以实现权利要求1~8任意一项所述的基于数值特征表达的基因组二四代融合组装方法,其特征在于,包括读取模块、截取模块、四代测序数据搜索模块、二代测序数据搜索模块和输出模块,所述读取模块用以读入测序文件,进行基因解析获得测序序列reads的自定义编号和碱基序列;所述截取模块用以截取测序序列reads的碱基序列,获得质心特征值,并生成二代测序数据特征值矩阵和四代测序数据特征值矩阵;所述四代测序数据搜索模块用以按照设定误差阈值A搜索四代测序数据之间相似特征值对应的序列,将四代测序数据组装为基因序列骨架;所述二代测序数据搜索模块用以按照设定误差阈值B搜索二代测序数据和四代测序数据相似特征值对应的序列,将二代测序数据回帖至基因序列骨架;所述输出模块用以输出最终组装结果和SNP信息表。
CN202211336402.XA 2022-10-28 2022-10-28 基于数值特征表达的基因组二四代融合组装方法及系统 Active CN115527612B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211336402.XA CN115527612B (zh) 2022-10-28 2022-10-28 基于数值特征表达的基因组二四代融合组装方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211336402.XA CN115527612B (zh) 2022-10-28 2022-10-28 基于数值特征表达的基因组二四代融合组装方法及系统

Publications (2)

Publication Number Publication Date
CN115527612A true CN115527612A (zh) 2022-12-27
CN115527612B CN115527612B (zh) 2023-11-14

Family

ID=84703592

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211336402.XA Active CN115527612B (zh) 2022-10-28 2022-10-28 基于数值特征表达的基因组二四代融合组装方法及系统

Country Status (1)

Country Link
CN (1) CN115527612B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160342737A1 (en) * 2015-05-22 2016-11-24 The University Of British Columbia Methods for the graphical representation of genomic sequence data
US20210174958A1 (en) * 2018-04-13 2021-06-10 Freenome Holdings, Inc. Machine learning implementation for multi-analyte assay development and testing
CN113611359A (zh) * 2021-08-13 2021-11-05 江苏先声医学诊断有限公司 一种提高宏基因组纳米孔测序数据菌种组装效率的方法
CN113963749A (zh) * 2021-09-10 2022-01-21 华南农业大学 高通量测序数据自动化组装方法、系统、设备及存储介质
CN114822699A (zh) * 2022-04-07 2022-07-29 天津大学四川创新研究院 一种基于聚类算法的高性能k-mer频次计数方法及系统
CN115064215A (zh) * 2022-08-18 2022-09-16 北京大学人民医院 一种通过相似度进行菌株溯源及属性鉴定的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160342737A1 (en) * 2015-05-22 2016-11-24 The University Of British Columbia Methods for the graphical representation of genomic sequence data
US20210174958A1 (en) * 2018-04-13 2021-06-10 Freenome Holdings, Inc. Machine learning implementation for multi-analyte assay development and testing
CN113611359A (zh) * 2021-08-13 2021-11-05 江苏先声医学诊断有限公司 一种提高宏基因组纳米孔测序数据菌种组装效率的方法
CN113963749A (zh) * 2021-09-10 2022-01-21 华南农业大学 高通量测序数据自动化组装方法、系统、设备及存储介质
CN114822699A (zh) * 2022-04-07 2022-07-29 天津大学四川创新研究院 一种基于聚类算法的高性能k-mer频次计数方法及系统
CN115064215A (zh) * 2022-08-18 2022-09-16 北京大学人民医院 一种通过相似度进行菌株溯源及属性鉴定的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
STUART CANTSILIERIS等: "《Recurrent structural variation, clustered sites of selection, and disease risk for the complement factor H(CFH) gene family》", 《PNAS》, vol. 115, no. 19 *
马东娜 等: "《基因组二代测序数据与三代测序数据的混合校正和组装》", 《基因组学与应用生物学》, vol. 37, no. 4 *

Also Published As

Publication number Publication date
CN115527612B (zh) 2023-11-14

Similar Documents

Publication Publication Date Title
US11810648B2 (en) Systems and methods for adaptive local alignment for graph genomes
US10600217B2 (en) Methods for the graphical representation of genomic sequence data
US10679727B2 (en) Genome compression and decompression
CN110289050B (zh) 一种基于图卷积和词向量的药物-靶标相互作用预测方法
Haque et al. Pairwise sequence alignment algorithms: a survey
Liu et al. Towards optimal binary code learning via ordinal embedding
US9589102B2 (en) Base sequence cluster generating system, base sequence cluster generating method, program for performing cluster generating method, and computer readable recording medium on which program is recorded and system for providing base sequence information
Kucherov Evolution of biosequence search algorithms: a brief survey
Recanati et al. A spectral algorithm for fast de novo layout of uncorrected long nanopore reads
CN112085245A (zh) 一种基于深度残差神经网络的蛋白质残基接触预测方法
CN116779044A (zh) 基于多标签特征选择的基因分类方法、系统及设备
CN115527612A (zh) 基于数值特征表达的基因组二四代融合组装方法及系统
Zhu et al. A generic framework for efficient and effective subsequence retrieval
Sun et al. Designing patterns for profile HMM search
Li et al. Seeding with minimized subsequence
CN114564306A (zh) 一种基于GPU并行计算的第三代测序RNA-seq比对方法
CN110111837B (zh) 基于两阶段结构比对的蛋白质相似性的搜索方法及系统
Chen et al. An algorithm for linear metabolic pathway alignment
Odibat et al. A generalized framework for mining arbitrarily positioned overlapping co-clusters
Chen et al. CGAP-align: a high performance DNA short read alignment tool
JP3237606B2 (ja) 複数文字列アライメント方法およびシステム
Swenson et al. Inversion-based genomic signatures
Perera et al. A hybrid algorithm for identifying partially conserved regions in multiple sequence alignment
Xiang et al. EdtClust: A fast homologous protein sequences clustering method based on edit distance
Fajardo et al. Multiprocess Implementation of DNA Pre-alignment Filtering using the Bit Matrix Algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20231025

Address after: F13, Building 6, Block B, No. 99, West Section of Hupan Road, Tianfu New Area, China (Sichuan) Pilot Free Trade Zone, Chengdu, Sichuan Province, 610000

Applicant after: Sichuan Tianling Innovation Technology Group Co.,Ltd.

Applicant after: Sichuan Innovation Research Institute of Tianjin University

Address before: 610000 13th floor, building B6, Tianfu New Economic Industrial Park, Chengdu, Sichuan

Applicant before: Sichuan Innovation Research Institute of Tianjin University

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: 610000 13th floor, building B6, Tianfu New Economic Industrial Park, Chengdu, Sichuan

Patentee after: Sichuan Innovation Research Institute of Tianjin University

Patentee after: Sichuan Tianling Innovation Technology Group Co.,Ltd.

Address before: F13, Building 6, Block B, No. 99, West Section of Hupan Road, Tianfu New Area, China (Sichuan) Pilot Free Trade Zone, Chengdu, Sichuan Province, 610000

Patentee before: Sichuan Tianling Innovation Technology Group Co.,Ltd.

Patentee before: Sichuan Innovation Research Institute of Tianjin University

CP03 Change of name, title or address