CN115410651A - 一种基于特征向量的高性能基因匹配判别方法及系统 - Google Patents

一种基于特征向量的高性能基因匹配判别方法及系统 Download PDF

Info

Publication number
CN115410651A
CN115410651A CN202211034348.3A CN202211034348A CN115410651A CN 115410651 A CN115410651 A CN 115410651A CN 202211034348 A CN202211034348 A CN 202211034348A CN 115410651 A CN115410651 A CN 115410651A
Authority
CN
China
Prior art keywords
gene
matching
sequence
base sequences
data reads
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211034348.3A
Other languages
English (en)
Inventor
李国良
江熠
谢宇涛
张也
彭德华
刘原驰
陈建邦
唐善雯
章璐
于鑫慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Innovation Research Institute Of Tianjin University
Sichuan Tianling Innovation Technology Group Co ltd
Original Assignee
Sichuan Innovation Research Institute Of Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Innovation Research Institute Of Tianjin University filed Critical Sichuan Innovation Research Institute Of Tianjin University
Priority to CN202211034348.3A priority Critical patent/CN115410651A/zh
Publication of CN115410651A publication Critical patent/CN115410651A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Biomedical Technology (AREA)
  • Public Health (AREA)
  • Bioethics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于特征向量的高性能基因匹配判别方法及系统,该方法包括如下步骤:S1:CPU多线程基因解析,获得基因数据reads的ID、碱基序列和序列长度,并传回GPU;S2:GPU计算每条基因数据reads片段的质心值;S3:评价碱基序列相似性;S4:训练DNN模型:将输入向量x送至DNN网络的输入层,进行前向传播,经过若干隐层后得到前向输出y';S5:计算y'与真实值y之间的误差,并调整DNN网络的各个连接权值;S6:完成DNN模型的训练后,利用训练好的DNN模型识别基因数据reads之间的匹配关系,由此获得每条基因数据reads间的相似性关系。本发明大幅提高了生物信息学分析流程的速度,有助于生信分析人员以更快的速度、更短的时间获得准确的分析结果。

Description

一种基于特征向量的高性能基因匹配判别方法及系统
技术领域
本发明属于生物信息学技术领域,尤其涉及一种基于特征向量的高性能基因匹配判别方法及系统。
背景技术
自2005年罗氏推出第一款二代测序仪罗氏454后,生命科学正式开始进入高通量测序时代。Illumina(因美纳)系列测序平台的推出,极大地降低了二代测序的价格,使得高通量测序在生命科学各个研究领域得到了广泛的普及。至今,第二代短读长测序技术在全球测序市场上仍然占有绝对的优势地位。
在生物信息学领域,寻找基因序列相似性是基因组分析的核心问题。第二代测序技术虽然大大提高了测序的通量,但其获得的单条序列长度很短,往往只在50~300bp,并且因为测序的覆盖范围更深,导致基因组项目中需要处理的序列数量迅速增加,需要将这些较短的序列进行前后匹配对齐,以实现更长序列的拼接和有参基因组的回帖比对。
目前由于比对技术的限制和实际情况的复杂性,最终进行比对和匹配所需的算力成本过高。目前主流的双序列比对算法是Blast和动态规划。Blast使用启发式算法(seed-extend),在种子向两边的延伸过程中消耗较大算力。动态规划受打分矩阵影响过大,在双序列比对中属于全局比对,无法实现头尾匹配拼接。
发明内容
本发明的目的在于提供一种基因组装的多线程化方法及系统,以解决在基因组组装、有参基因组比对中,寻找测序片段reads相似性和前后重叠对齐速度慢、算力需求大的技术问题。
本发明的目的是采用以下技术方案实现的:一种基于特征向量的高性能基因匹配判别方法,包括如下步骤:
S1:CPU多线程基因解析,获得基因数据reads的ID、碱基序列和序列长度,并传回GPU;
S2:GPU计算每条基因数据reads片段的质心值;
S3:随机选择两条碱基序列进行匹配对齐,并对匹配结果进行打分,以此评价碱基序列相似性;
S4:将两条碱基序列的两组质心值及其序列长度通过线性特征比例变换至[-1,1]以内,作为数据集的输入向量x;
S5:将两条碱基序列匹配对齐的结果输出,作为数据集的输出向量;
S6:训练DNN模型:将输入向量x送至DNN网络的输入层,进行前向传播,经过若干隐层后得到前向输出y';
S7:计算y'与真实值y之间的误差,并调整DNN网络的各个连接权值;
S8:完成DNN模型的训练后,利用训练好的DNN模型识别基因数据reads之间的匹配关系,由此获得每条基因数据reads间的相似性关系。
进一步的,所述步骤S1具体包括:CPU通过内置RAID卡或NFS协议或者直接读取基因测序数据文件的方式,多线程并行计算基因解析获得基因数据reads序列的ID、碱基序列和序列长度,并从不同位置开始读取碱基序列,即:将每条基因数据reads头尾剪裁各n和m个碱基,得到首尾各去n个和首尾各去m个的基因数据reads片段,并将基因数据reads片段及对应ID编号传回给GPU。
进一步的,所述步骤S2具体包括:使用异步操作,当GPU接收到基因数据reads片段时,立即启动核函数,而无需等待全部数据回传完毕,通过基因数值化表达算法,计算每个基因数据reads片段的质心特征值,其中,一条基因数据reads共有四个质心值。
进一步的,所述步骤S3具体包括:随机选择两条碱基序列进行匹配对齐,并对匹配结果进行打分,以此评价碱基序列相似性,若相似性得分在0.8以上,则认为此两条碱基序列能够匹配,反之则不能。
进一步的,所述步骤S4具体包括:将两条碱基序列的两组共8个前后质心值及其序列长度的十个分量通过线性特征比例变换至[-1,1]以内,作为数据集的输入向量x。
进一步的,所述步骤S5具体包括:将两条碱基序列匹配对齐的结果输出,若能对齐匹配则返回TRUE,y=1,若不能对齐匹配则返回FALSE,y=0,y作为数据集的输出向量。
进一步的,所述步骤S6具体包括:
S61:训练前,首先设置一个均值为0的随机分布初始化网络权重;
S62:训练时,先将输入向量x送至DNN网络的输入层,进行前向传播,经过若干隐层后得到前向输出y'。
进一步的,所述步骤S7具体包括:计算y'与真实值y之间的误差,再从输出层开始将误差反向传播至第一个隐层,按照减小误差的方向调整DNN网络的各个连接权值。
进一步的,所述步骤S8具体包括:不断循环步骤S7调整权值的过程,直到训练误差收敛到极小值,即得到符合要求的DNN网络权重,并利用训练好的DNN模型识别基因数据reads之间的匹配关系,由此获得每条基因数据reads间的相似性关系。
一种基于特征向量的高性能基因匹配判别系统,包括基因解析模块、数据集生成模块、神经网络模型训练模块,其中,所述基因解析模块用以实现碱基序列、ID和序列长度的提取;所述数据集生成模块用以基因数据reads片段前后特征值计算、匹配结果计算;所述神经网络模型训练模块用以通过数据集进行训练,调整网络连接权值,以此获得收敛误差极小,准确率最高的神经网络模型。
本发明的有益效果在于:本发明创造性地提出了一种基于特征向量的高性能基因匹配判别方法及系统,完成了基因测序数据的低成本高性能匹配判别,相较于以往的匹配方法,本发明没有使用打分矩阵以及序列索引,而是通过无监督机器学习等方法将测序碱基数值化,通过神经网络模糊匹配算法将序列匹配的相似关系转换为特征值之间的相似关系,以此实现基因数据的前后匹配对齐,以实现更长序列的拼接和有参基因组的回帖比对,总而言之,本发明是一种集高精准度、高性能、高效率于一体的基因匹配判别方案,大幅提高了生物信息学分析流程的速度,有助于生信分析人员以更快的速度、更短的时间获得准确的分析结果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为发明流程图;
图2为本发明系统框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
下面结合附图,对本发明的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
实施例1:
参阅图1,一种基于特征向量的高性能基因匹配判别方法,包括如下步骤:
S1:CPU多线程基因解析,获得基因数据reads的ID、碱基序列和序列长度,并传回GPU;
S2:GPU计算每条基因数据reads片段的质心值;
S3:随机选择两条碱基序列进行匹配对齐,并对匹配结果进行打分,以此评价碱基序列相似性;
S4:将两条碱基序列的两组质心值及其序列长度通过线性特征比例变换至[-1,1]以内,作为数据集的输入向量x;
S5:将两条碱基序列匹配对齐的结果输出,作为数据集的输出向量;
S6:训练DNN模型:将输入向量x送至DNN网络的输入层,进行前向传播,经过若干隐层后得到前向输出y';
S7:计算y'与真实值y之间的误差,并调整DNN网络的各个连接权值;
S8:完成DNN模型的训练后,利用训练好的DNN模型识别基因数据reads之间的匹配关系,由此获得每条基因数据reads间的相似性关系。
在本实施例当中,所述步骤S1具体包括:CPU通过内置RAID卡或NFS协议或者直接读取基因测序数据文件的方式,多线程并行计算基因解析获得基因数据reads序列的ID、碱基序列和序列长度,并从不同位置开始读取碱基序列,即:将每条基因数据reads头尾剪裁各n和m个碱基,得到首尾各去n个和首尾各去m个的基因数据reads片段,并将基因数据reads片段及对应ID编号传回给GPU。进一步的,步骤S1,可以看作测序片段reads的基因解析,目的是要得到根据碱基序列、ID、序列长度。CPU按行读取FASTQ文件的内容,并去除行首和行尾的特殊字符;所述特殊字符包括空格字符、回车字符。获取碱基序列信息是获取文件中以字符@开头的后一行,得到碱基序列后,将序列头尾剪裁各n和m个碱基,得到首尾各去n个和首尾各去m个的reads片段,并将以字符@开头的一行替换为本条read的自定义ID编号,保留其“length=number”中的数值,其代表序列长度,将以上信息传入GPU。
在本实施例当中,所述步骤S2具体包括:使用异步操作,当GPU接收到基因数据reads片段时,立即启动核函数,而无需等待全部数据回传完毕,通过基因数值化表达算法,计算每个基因数据reads片段的质心特征值,其中,一条基因数据reads共有四个质心值。
在本实施例当中,所述步骤S3具体包括:随机选择两条碱基序列进行匹配对齐,并对匹配结果进行打分,以此评价碱基序列相似性,若相似性得分在0.8以上,即重叠部分存在80%及以上完全匹配的碱基时,则认为此两条碱基序列能够匹配,反之则不能。
在本实施例当中,所述步骤S4具体包括:将两条碱基序列的两组共8个前后质心值及其序列长度的十个分量通过线性特征比例变换至[-1,1]以内,作为数据集的输入向量x。
在本实施例当中,所述步骤S5具体包括:将两条碱基序列匹配对齐的结果输出,若能对齐匹配则返回TRUE,y=1,若不能对齐匹配则返回FALSE,y=0,y作为数据集的输出向量。
进一步的,步骤S2~S5,可以看作神经网络模型数据集的生成,目的是要得到神经网络模型训练所需的输入向量。GPU利用无监督机器学习方法,将各reads片段映射转换为质心特征值,一条reads共有四个质心值。随机选择两条序列进行匹配对齐,并对匹配情况进行打分,以此评价序列相似性,若相似性得分在0.8以上,则认为此两条序列能够匹配,反之则不能。将两条序列的两组共8个前后质心值及其序列长度等十个分量(第一条序列去掉头部n个碱基的质心坐标(x1,y1),第一条序列去掉尾部n个碱基的质心坐标(x2,y2),第一条序列去掉头部m个碱基的质心坐标(x3,y3),第一条序列去掉尾部m个碱基的质心坐标(x4,y4),第二条序列去掉头部n个碱基的质心坐标(x5,y5),第二条序列去掉尾部n个碱基的质心坐标(x6,y6),第二条序列去掉头部m个碱基的质心坐标(x7,y7),第二条序列去掉尾部m个碱基的质心坐标(x8,y8),第一条序列的长度length1,第二条序列的长度length2)通过线性特征比例变换至[-1,1]以内,作为数据集的输入向量x。将两条序列匹配对齐的情况输出,若能对齐匹配(相似)则返回TRUE,y=1,不能对齐匹配(不相似)返回FALSE,y=0,y作为数据集的输出向量。由此得到了神经网络模型所需的数据集。
在本实施例当中,所述步骤S6具体包括:
S61:训练前,首先设置一个均值为0的随机分布初始化网络权重;
S62:训练时,先将输入向量x送至DNN网络的输入层,进行前向传播,经过若干隐层后得到前向输出y'。
在本实施例当中,所述步骤S7具体包括:计算y'与真实值y之间的误差,再从输出层开始将误差反向传播至第一个隐层,按照减小误差的方向调整DNN网络的各个连接权值。
在本实施例当中,所述步骤S8具体包括:不断循环步骤S7调整权值的过程,直到训练误差收敛到极小值,即得到符合要求的DNN网络权重,并利用训练好的DNN模型识别基因数据reads之间的匹配关系,由此获得每条基因数据reads间的相似性关系。
进一步的,步骤S6-S8,可以看作神经网络模型的训练过程,训练前,首先设置一个均值为0的随机分布初始化网络权重,训练时先将输入向量x送至DNN网络的输入层,进行前向传播,经过若干隐层后得到前向输出y'。计算y'与真实值y之间的误差,再从输出层开始将误差反向传播至第一个隐层,按照减小误差的方向调整网络的各个连接权值。不断循环步骤S7调整权值的过程,直到训练误差收敛到极小值,即得到符合要求的DNN网络权重,利用训练好的DNN模型识别测序文件reads之间的匹配关系,由此获得每条read间的相似性关系。
参阅图2,基于同一发明构思,本发明还提供一种基于特征向量的高性能基因匹配判别系统,以实现上述基于特征向量的高性能基因匹配判别方法,该系统包括基因解析模块、数据集生成模块、神经网络模型训练模块,其中,所述基因解析模块用以实现碱基序列、ID和序列长度的提取;所述数据集生成模块用以基因数据reads片段前后特征值计算、匹配结果计算;所述神经网络模型训练模块用以通过数据集进行训练,调整网络连接权值,以此获得收敛误差极小,准确率最高的神经网络模型。
本发明至少具备以下技术效果:
本发明创造性地提出了一种基于特征向量的高性能基因匹配判别方法及系统,完成了基因测序数据的低成本高性能匹配判别,相较于以往的匹配方法,本发明没有使用打分矩阵以及序列索引,而是通过无监督机器学习等方法将测序碱基数值化,通过神经网络模糊匹配算法将序列匹配的相似关系转换为特征值之间的相似关系,以此实现基因数据的前后匹配对齐,以实现更长序列的拼接和有参基因组的回帖比对,总而言之,本发明是一种集高精准度、高性能、高效率于一体的基因匹配判别方案,大幅提高了生物信息学分析流程的速度,有助于生信分析人员以更快的速度、更短的时间获得准确的分析结果。
需要说明的是,对于前述的实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例属于优选实施例,所涉及的动作并不一定是本申请所必须的。
上述实施例中,描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (10)

1.一种基于特征向量的高性能基因匹配判别方法,其特征在于,包括如下步骤:
S1:CPU多线程基因解析,获得基因数据reads的ID、碱基序列和序列长度,并传回GPU;
S2:GPU计算每条基因数据reads片段的质心值;
S3:随机选择两条碱基序列进行匹配对齐,并对匹配结果进行打分,以此评价碱基序列相似性;
S4:将两条碱基序列的两组质心值及其序列长度通过线性特征比例变换至[-1,1]以内,作为数据集的输入向量x;
S5:将两条碱基序列匹配对齐的结果输出,作为数据集的输出向量;
S6:训练DNN模型:将输入向量x送至DNN网络的输入层,进行前向传播,经过若干隐层后得到前向输出y';
S7:计算y'与真实值y之间的误差,并调整DNN网络的各个连接权值;
S8:完成DNN模型的训练后,利用训练好的DNN模型识别基因数据reads之间的匹配关系,由此获得每条基因数据reads间的相似性关系。
2.如权利要求1所述的一种基于特征向量的高性能基因匹配判别方法,其特征在于,所述步骤S1具体包括:CPU通过内置RAID卡或NFS协议或者直接读取基因测序数据文件的方式,多线程并行计算基因解析获得基因数据reads序列的ID、碱基序列和序列长度,并从不同位置开始读取碱基序列,即:将每条基因数据reads头尾剪裁各n和m个碱基,得到首尾各去n个和首尾各去m个的基因数据reads片段,并将基因数据reads片段及对应ID编号传回给GPU。
3.如权利要求1所述的一种基于特征向量的高性能基因匹配判别方法,其特征在于,所述步骤S2具体包括:使用异步操作,当GPU接收到基因数据reads片段时,立即启动核函数,而无需等待全部数据回传完毕,通过基因数值化表达算法,计算每个基因数据reads片段的质心特征值,其中,一条基因数据reads共有四个质心值。
4.如权利要求1所述的一种基于特征向量的高性能基因匹配判别方法,其特征在于,所述步骤S3具体包括:随机选择两条碱基序列进行匹配对齐,并对匹配结果进行打分,以此评价碱基序列相似性,若相似性得分在0.8以上,则认为此两条碱基序列能够匹配,反之则不能。
5.如权利要求1所述的一种基于特征向量的高性能基因匹配判别方法,其特征在于,所述步骤S4具体包括:将两条碱基序列的两组共8个前后质心值及其序列长度的十个分量通过线性特征比例变换至[-1,1]以内,作为数据集的输入向量x。
6.如权利要求1所述的一种基于特征向量的高性能基因匹配判别方法,其特征在于,所述步骤S5具体包括:将两条碱基序列匹配对齐的结果输出,若能对齐匹配则返回TRUE,y=1,若不能对齐匹配则返回FALSE,y=0,y作为数据集的输出向量。
7.如权利要求1所述的一种基于特征向量的高性能基因匹配判别方法,其特征在于,所述步骤S6具体包括:
S61:训练前,首先设置一个均值为0的随机分布初始化网络权重;
S62:训练时,先将输入向量x送至DNN网络的输入层,进行前向传播,经过若干隐层后得到前向输出y'。
8.如权利要求1所述的一种基于特征向量的高性能基因匹配判别方法,其特征在于,所述步骤S7具体包括:计算y'与真实值y之间的误差,再从输出层开始将误差反向传播至第一个隐层,按照减小误差的方向调整DNN网络的各个连接权值。
9.如权利要求1所述的一种基于特征向量的高性能基因匹配判别方法,其特征在于,所述步骤S8具体包括:不断循环步骤S7调整权值的过程,直到训练误差收敛到极小值,即得到符合要求的DNN网络权重,并利用训练好的DNN模型识别基因数据reads之间的匹配关系,由此获得每条基因数据reads间的相似性关系。
10.一种基于特征向量的高性能基因匹配判别系统,用以实现权利要求1~9任意一项所述的一种基于特征向量的高性能基因匹配判别方法,其特征在于,包括基因解析模块、数据集生成模块、神经网络模型训练模块,其中,所述基因解析模块用以实现碱基序列、ID和序列长度的提取;所述数据集生成模块用以基因数据reads片段前后特征值计算、匹配结果计算;所述神经网络模型训练模块用以通过数据集进行训练,调整网络连接权值,以此获得收敛误差极小,准确率最高的神经网络模型。
CN202211034348.3A 2022-08-26 2022-08-26 一种基于特征向量的高性能基因匹配判别方法及系统 Pending CN115410651A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211034348.3A CN115410651A (zh) 2022-08-26 2022-08-26 一种基于特征向量的高性能基因匹配判别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211034348.3A CN115410651A (zh) 2022-08-26 2022-08-26 一种基于特征向量的高性能基因匹配判别方法及系统

Publications (1)

Publication Number Publication Date
CN115410651A true CN115410651A (zh) 2022-11-29

Family

ID=84160512

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211034348.3A Pending CN115410651A (zh) 2022-08-26 2022-08-26 一种基于特征向量的高性能基因匹配判别方法及系统

Country Status (1)

Country Link
CN (1) CN115410651A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117275583A (zh) * 2023-09-27 2023-12-22 四川大学 基于量子技术的基因搜索blast加速方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117275583A (zh) * 2023-09-27 2023-12-22 四川大学 基于量子技术的基因搜索blast加速方法及系统
CN117275583B (zh) * 2023-09-27 2024-04-16 四川大学 基于量子技术的基因搜索blast加速方法及系统

Similar Documents

Publication Publication Date Title
Chiang et al. A ranking-based KNN approach for multi-label classification
CN112735528A (zh) 一种基因序列比对方法及系统
CN105051741A (zh) 并行局部序列对齐
CN110555203A (zh) 文本复述方法、装置、服务器及存储介质
CN115410651A (zh) 一种基于特征向量的高性能基因匹配判别方法及系统
CN116383422B (zh) 一种基于锚点的无监督跨模态哈希检索方法
Liao et al. A parallel implementation of the Smith-Waterman algorithm for massive sequences searching
CN105069325B (zh) 一种对核酸序列信息进行匹配的方法
Nishimura et al. Accelerating the Smith-waterman algorithm using bitwise parallel bulk computation technique on GPU
CN114564306B (zh) 一种基于GPU并行计算的第三代测序RNA-seq比对方法
Wong et al. Predicting approximate protein-DNA binding cores using association rule mining
CN107220317B (zh) 基于人工智能的匹配度评估方法、装置、设备及存储介质
CN115691658A (zh) 一种基于三维原子密度图优化分子结构的处理方法和装置
Mishra et al. A genetic algorithm based approach for the optimization of multiple sequence alignment
JP3370787B2 (ja) 文字配列検索方法
Khaled et al. Accelerating pairwise DNA Sequence Alignment using the CUDA compatible GPU
Myoupo et al. Time-efficient parallel algorithms for the longest common subsequence and related problems
CN113362898A (zh) 一种融合多种序列频率信息识别rna亚细胞定位方法
Yousefi et al. Fast sequence alignment algorithm using bloom filters
Böer Multiple alignment using hidden Markov models
CN111724221A (zh) 确定商品匹配信息的方法、系统、电子设备及存储介质
Junyan et al. Sequence pattern mining based on markov chain
JP2005284595A (ja) Rna配列情報処理方法、プログラムおよび装置
McClannahan et al. Classification of noncoding rna elements using deep convolutional neural networks
CN108470113A (zh) 多物种未出现k-mer子序列计算和特征分析方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20231012

Address after: F13, Building 6, Block B, No. 99, West Section of Hupan Road, Tianfu New Area, China (Sichuan) Pilot Free Trade Zone, Chengdu, Sichuan Province, 610000

Applicant after: Sichuan Tianling Innovation Technology Group Co.,Ltd.

Applicant after: Sichuan Innovation Research Institute of Tianjin University

Address before: 610000 13th floor, building B6, Tianfu New Economic Industrial Park, Chengdu, Sichuan

Applicant before: Sichuan Innovation Research Institute of Tianjin University

CB02 Change of applicant information
CB02 Change of applicant information

Address after: 610000 13th floor, building B6, Tianfu New Economic Industrial Park, Chengdu, Sichuan

Applicant after: Sichuan Innovation Research Institute of Tianjin University

Applicant after: Sichuan Tianling Innovation Technology Group Co.,Ltd.

Address before: F13, Building 6, Block B, No. 99, West Section of Hupan Road, Tianfu New Area, China (Sichuan) Pilot Free Trade Zone, Chengdu, Sichuan Province, 610000

Applicant before: Sichuan Tianling Innovation Technology Group Co.,Ltd.

Applicant before: Sichuan Innovation Research Institute of Tianjin University