CN114496070A - 转录组序列分类方法、装置、电子设备及可读存储介质 - Google Patents
转录组序列分类方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN114496070A CN114496070A CN202210074550.2A CN202210074550A CN114496070A CN 114496070 A CN114496070 A CN 114496070A CN 202210074550 A CN202210074550 A CN 202210074550A CN 114496070 A CN114496070 A CN 114496070A
- Authority
- CN
- China
- Prior art keywords
- sequence
- transcriptome
- sequences
- classified
- coding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000003860 storage Methods 0.000 title claims abstract description 12
- 244000005700 microbiome Species 0.000 claims abstract description 82
- 238000012549 training Methods 0.000 claims description 69
- 238000000819 phase cycle Methods 0.000 claims description 65
- 108020004705 Codon Proteins 0.000 claims description 55
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 45
- 108091026890 Coding region Proteins 0.000 claims description 42
- 241000894007 species Species 0.000 claims description 33
- NTIZESTWPVYFNL-UHFFFAOYSA-N Methyl isobutyl ketone Chemical group CC(C)CC(C)=O NTIZESTWPVYFNL-UHFFFAOYSA-N 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000010200 validation analysis Methods 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 5
- 241000700605 Viruses Species 0.000 abstract description 27
- 241001493065 dsRNA viruses Species 0.000 abstract description 9
- 244000052769 pathogen Species 0.000 abstract description 7
- 238000001514 detection method Methods 0.000 abstract description 5
- 241000203069 Archaea Species 0.000 description 13
- 238000012795 verification Methods 0.000 description 13
- 241000894006 Bacteria Species 0.000 description 12
- 241000233866 Fungi Species 0.000 description 12
- 238000012163 sequencing technique Methods 0.000 description 12
- 238000012360 testing method Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 10
- 241000238631 Hexapoda Species 0.000 description 9
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 239000013598 vector Substances 0.000 description 8
- 238000012545 processing Methods 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 238000013145 classification model Methods 0.000 description 4
- 201000010099 disease Diseases 0.000 description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 108090000623 proteins and genes Proteins 0.000 description 4
- 102000004169 proteins and genes Human genes 0.000 description 4
- 108020004418 ribosomal RNA Proteins 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 150000001413 amino acids Chemical class 0.000 description 3
- 210000004027 cell Anatomy 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000001404 mediated effect Effects 0.000 description 3
- 230000003612 virological effect Effects 0.000 description 3
- 241000235349 Ascomycota Species 0.000 description 2
- 241000221198 Basidiomycota Species 0.000 description 2
- 241000255925 Diptera Species 0.000 description 2
- 241000282412 Homo Species 0.000 description 2
- 108091028043 Nucleic acid sequence Proteins 0.000 description 2
- 241000425347 Phyla <beetle> Species 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 229910003460 diamond Inorganic materials 0.000 description 2
- 239000010432 diamond Substances 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000002265 prevention Effects 0.000 description 2
- 102000040650 (ribonucleotides)n+m Human genes 0.000 description 1
- 241000238876 Acari Species 0.000 description 1
- 241000186361 Actinobacteria <class> Species 0.000 description 1
- 241000605059 Bacteroidetes Species 0.000 description 1
- 208000035473 Communicable disease Diseases 0.000 description 1
- 241001137853 Crenarchaeota Species 0.000 description 1
- 241000256054 Culex <genus> Species 0.000 description 1
- 108020004414 DNA Proteins 0.000 description 1
- 102000053602 DNA Human genes 0.000 description 1
- 208000001490 Dengue Diseases 0.000 description 1
- 206010012310 Dengue fever Diseases 0.000 description 1
- 241001137858 Euryarchaeota Species 0.000 description 1
- 241000192125 Firmicutes Species 0.000 description 1
- 241000255129 Phlebotominae Species 0.000 description 1
- 241001674048 Phthiraptera Species 0.000 description 1
- 206010035148 Plague Diseases 0.000 description 1
- 241000192142 Proteobacteria Species 0.000 description 1
- 238000003559 RNA-seq method Methods 0.000 description 1
- 108091081024 Start codon Proteins 0.000 description 1
- 208000003152 Yellow Fever Diseases 0.000 description 1
- 241000607479 Yersinia pestis Species 0.000 description 1
- 230000001154 acute effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000011109 contamination Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 208000025729 dengue disease Diseases 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000010304 firing Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000002538 fungal effect Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 244000052637 human pathogen Species 0.000 description 1
- 201000004792 malaria Diseases 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000000813 microbial effect Effects 0.000 description 1
- 244000000010 microbial pathogen Species 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001717 pathogenic effect Effects 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000010839 reverse transcription Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 238000002864 sequence alignment Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
Landscapes
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Genetics & Genomics (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- Chemical & Material Sciences (AREA)
- Molecular Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Bioinformatics & Computational Biology (AREA)
- Analytical Chemistry (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明实施例提供了一种转录组序列分类方法、装置、电子设备及计算机可读存储介质,本发明实施例中,转录组序列分类预测模型预先学习了多个已知类别的微生物的转录组序列的碱基序列、密码子序列和氨基酸序列,从而,本发明实施例采用的转录组序列分类预测模型,可以结合待分类转录组序列的碱基序列、密码子序列和氨基酸序列,准确地预测该待分类转录组序列所属的微生物类别。本发明实施例中,通过对转录组序列进行比对和预测,可以确定转录组序列所属的微生物类别。从而可以从虫媒介宏转录组中发现更多的未知的RNA病毒(主要的人类病毒),以作为疾病的检测、防控,以及新病毒或其他病原体的研究的基础。
Description
技术领域
本发明涉及生物信息处理技术领域,特别是涉及一种转录组序列分类方法、装置、电子设备及计算机可读存储介质。
背景技术
虫媒介是指能够在不同宿主之间传播病原(包括细菌、病毒等致病微生物)的昆虫,例如蚊子、蜱虫等。虫媒介是重要的人类传染性病的传播途径,它们携带着大量人类致病原,尤其是病毒。当这些病原体接触到人时,会造成疾病,或者大范围流行病的发生,对人类健康造成巨大的威胁。例如,蚊子、蜱虫、白蛉、虱子等昆虫在对人进行叮咬时可能将其所携带的病原体传给人从而引起疾病,包括疟疾、登革热、黄热病、鼠疫等。对这些虫媒介所携带微生物的研究对于疾病的检测、防控,以及新病毒或其他病原体的发现具有重要意义。
目前,宏转录组测序方法是对虫媒介所携带的微生物进行检测的常规方法。宏转录组测序是指对特定样品中所有的RNA进行提取并进行高通量测序的研究技术。其中,所提取的RNA包含细胞及所有微生物的转录产物,及RNA病毒的基因组序列,从而可以对包含RNA病毒在内所有种类的微生物进行检测。
在人类疾病防控相关的研究中,研究者们常对媒介生物进行碾压,然后采用宏转录组的方式来检测及研究其中的可能感染人的病毒。这类研究通常采用去除核糖体RNA(rRNA)的total RNA-seq的方式进行测序,即,在提取样本中全部的RNA物质后,首先要去掉样品中大量的来源于环境宿主的rRNA,并进一步对RNA进行纯化后进行建库并测序。这样,测得的序列中包含了宿主的RNA序列、病毒、细菌、古菌、真菌等不同微生物的RNA序列,如果要对RNA序列所属的微生物类别进行鉴定,需要利用算法来实现。
然而,目前几乎所有的序列分类方法都是基于宏基因组测序的基础上所设计的,还没有专门针对宏转录组测序数据进行序列分类的方法。可以理解,宏基因组测序技术是通过对样品中所有的双链DNA物质进行提取并测序,对基因组的编码区和非编码区没有偏好性,且不包含样品中的RNA病毒的基因组;而宏转录组是通过对RNA进行富集及进行测序,序列主要来源于各类微生物的转录组和RNA病毒的基因组,从而在编码区序列上有更多富集。所以宏转录组测序样本和宏基因组测序样本在序列组成上有很大的差异。因此,基于宏基因组测序数据的序列分类方法无法应用于宏转录组测序数据。
由此可见,目前亟需一种可以实现对转录组序列进行准确地分类的技术方案。
发明内容
鉴于上述问题,提出了本发明实施例提供一种转录组序列分类方法、装置、电子设备及计算机可读存储介质,可以实现对虫媒介宏转录组中的转录组序列所属类别进行准确地鉴定。
本发明实施例的第一方面,提供了一种转录组序列分类方法,所述方法包括:
获取宏转录组中的待分类转录组序列;
将所述待分类转录组序列与已知数据库中的各个已知序列分别进行比对;
在比对成功的情况下,通过已知数据库确定所述待分类转录组序列所属类别;
在比对失败的情况下,利用转录组序列分类预测模型对所述待分类转录组序列所属类别进行预测;
其中,所述转录组序列分类预测模型预先学习了多个已知类别的微生物的转录组序列的碱基序列、密码子序列和氨基酸序列。
可选地,在利用转录组序列分类预测模型对所述待分类转录组序列所属的物种分类进行预测之前,所述方法还包括:
提取所述待分类转录组序列的六个可能的读码框的相位序列;
对六个相位序列分别进行分析,得到所述六个相位序列各自对应的六连体序列串;
通过每一个相位序列各自对应的六连体序列串确定每一个相位序列的最大编码可能性得分,以及最大编码可能性得分对应的连续子序列;
将最大编码可能性得分最高且高于预设阈值的相位序列对应的连续子序列,作为所述待分类转录组序列的编码序列;
根据所述编码序列,确定所述待分类转录组序列的密码子序列和氨基酸序列。
可选地,通过每一个相位序列各自对应的六连体序列串确定每一个相位序列的最大编码可能性得分,以及最大编码可能性得分对应的连续子序列,包括:
根据单个六连体序列在单个微生物类别中的已知编码序列中出现的频率,和所述单个六连体序列在单个微生物类别中的已知非编码序列中出现的频率的比值,确定该单个六连体序列在单个微生物类别中的编码可能性得分;
对一个相位序列对应的六连体序列串包括的所有单个六连体序列在单个微生物类别中的编码可能性得分进行最大子串和计算,确定该相位序列在对应微生物类别中的最大编码可能性得分,以及所述最大编码可能性得分对应的连续子序列。
可选地,所述方法还包括:
获得多条已知类别的微生物的转录组序列,并为每条转录组序列添加对应的类别标签;
将具有标签的转录组序列中的一部分添加到验证集,剩余部分添加到训练集;
提取训练集中的每个具有标签的转录组序列的碱基序列、密码子序列和氨基酸序列;
将训练集中具有标签的转录组序列的碱基序列、密码子序列和氨基酸序列输入预设模型进行训练,得到所述转录组序列分类预测模型。
可选地,所述方法还包括:
获得多条序列长度为指定长度范围的已知类别的微生物的转录组序列,并为每条转录组序列添加对应的类别标签;
针对每种长度范围:将具有标签的转录组序列中的一部分添加到验证集,剩余部分添加到训练集;提取训练集中的每个具有标签的转录组序列的碱基序列、密码子序列和氨基酸序列;将训练集中具有标签的转录组序列的碱基序列、密码子序列和氨基酸序列输入预设模型进行训练,得到与该长度范围相对应的转录组序列分类预测模型;
利用转录组序列分类预测模型对所述待分类转录组序列所属类别进行预测,包括:
根据所述待分类转录组序列所属的长度范围,确定相对应的目标转录组序列分类预测模型;
利用所述目标转录组序列分类预测模型对所述待分类转录组序列所属类别进行预测。
本发明实施例的第二方面,提供一种转录组序列分类装置,所述装置包括:
获取模块,用于获取宏转录组中的待分类转录组序列;
比对模块,用于将所述待分类转录组序列与已知数据库中的各个已知序列分别进行比对;
第一确定模块,用于在比对成功的情况下,利用LCA算法确定所述待分类转录组序列所属类别;
预测模块,用于在比对失败的情况下,利用转录组序列分类预测模型对所述待分类转录组序列所属类别进行预测;
其中,所述转录组序列分类预测模型预先学习了多个已知类别的微生物的转录组序列的碱基序列、密码子序列和氨基酸序列。
可选地,所述装置包括:
提取模块,用于提取所述待分类转录组序列的六个可能的读码框的相位序列;
分析模块,用于对所述六个相位序列分别进行分析,得到所述六个相位序列各自对应的六连体序列串;
计算模块,用于通过每一个相位序列各自对应的六连体序列串确定每一个相位序列的最大编码可能性得分,以及最大编码可能性得分对应的连续子序列;
第二确定模块,用于将最大编码可能性得分最高且高于预设阈值的相位序列对应的连续子序列,作为所述待分类转录组序列的编码序列;
第三确定模块,用于根据所述编码序列,确定所述待分类转录组序列的密码子序列和氨基酸序列。
可选地,所述计算模块包括:
第一编码可能性得分确定子模块,用于根据单个六连体序列在单个微生物类别中的已知编码序列中出现的频率,和所述单个六连体序列在单个微生物类别中的已知非编码序列中出现的频率的比值,确定该单个六连体序列在单个微生物类别中的编码可能性得分;
第二编码可能性得分确定子模块,对一个相位序列对应的六连体序列串包括的所有单个六连体序列在单个微生物类别中的编码可能性得分进行最大子串和计算,确定该相位序列在对应微生物类别中的最大编码可能性得分,以及所述最大编码可能性得分对应的连续子序列。
可选地,所述装置还包括:
第一样本获取模块,用于获得多条已知类别的微生物的转录组序列,并为每条转录组序列添加对应的类别标签;
样本划分模块,用于将具有标签的转录组序列中的一部分添加到验证集,剩余部分添加到训练集;
特征提取模块,用于提取训练集中的每个具有标签的转录组序列的碱基序列、密码子序列和氨基酸序列;
第一训练模块,用于将训练集中具有标签的转录组序列的碱基序列、密码子序列和氨基酸序列输入预设模型进行训练,得到所述转录组序列分类预测模型。
可选地,所述装置还包括:
第二样本获取模块,用于获得多条序列长度为指定长度范围的已知类别的微生物的转录组序列,并为每条转录组序列添加对应的类别标签;
第二训练模块,用于针对每种长度范围:将具有标签的转录组序列中的一部分添加到验证集,剩余部分添加到训练集;提取训练集中的每个具有标签的转录组序列的碱基序列、密码子序列和氨基酸序列;将训练集中具有标签的转录组序列的碱基序列、密码子序列和氨基酸序列输入预设模型进行训练,得到与该长度范围相对应的转录组序列分类预测模型;
所述预测模块,具体用于:
根据所述待分类转录组序列所属的长度范围,确定相对应的目标转录组序列分类预测模型;利用所述目标转录组序列分类预测模型对所述待分类转录组序列所属类别进行预测。
本发明实施例的第三方面,提供一种电子设备,包括:
存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器被配置为:执行如上述第一方面所述的任一种转录组序列分类方法。
本发明实施例的第四方面,提供一种计算机可读存储介质,其存储的计算机程序使得处理器执行如上述第一方面所述的任一种转录组序列分类方法。
本发明实施例中,转录组序列分类预测模型预先学习了多个已知类别的微生物的转录组序列的碱基序列、密码子序列和氨基酸序列,从而,本发明实施例采用的转录组序列分类预测模型,可以结合待分类转录组序列的碱基序列、密码子序列和氨基酸序列,准确地预测该待分类转录组序列所属的微生物类别。
本发明实施例中,通过对转录组序列进行比对和预测,可以确定转录组序列所属的微生物类别。从而可以从虫媒介宏转录组中发现更多的未知的RNA病毒(主要的人类病毒),以作为疾病的检测、防控,以及新病毒或其他病原体的研究的基础。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例中的一种转录组序列分类方法的步骤流程图;
图2是本发明实施例中的一种确定待分类转录组序列的密码子序列和氨基酸序列的方法的步骤流程图;
图3是本发明实施例中的一种转录组序列分类模型的训练方法的步骤流程图;
图4是本发明实施例中的另一种转录组序列分类模型的训练方法的步骤流程图;
图5是本发明实施例中的一种转录组序列分类装置的示意图;
图6是本发明实施例中的一种相位序列的编码可能性得分计算过程示例图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
虫媒介昆虫通常携带了细菌、古菌、真菌、病毒四种类型的微生物。因此,本发明实施例提出,采用序列比对与深度学习结合的方法,对虫媒介宏转录组中的待分类转录组序列所属的微生物类别进行鉴定。其中,微生物类别包括:细菌、古菌、真菌、病毒。
以下,对本发明实施例中的一种转录组序列分类方法进行具体的介绍,图1示出了本发明实施例中的一种转录组序列分类方法的步骤流程图,如图1所示,该转录组序列分类方法具体可以包括以下步骤:
步骤S101,获取宏转录组中的待分类转录组序列。
本发明实施例中,可以通过对库蚊、蜱虫等媒介生物进行碾压,通过提取RNA、建库、测序等步骤后,从而获得对应生物的宏转录组,进而对宏转录组中的病毒等微生物进行检测。
本发明实施例中,在对宏转录组中的转录组序列进行检测之前还可以先去除样品中大量的来源于环境宿主的rRNA,并进一步对转录组序列组进行纯化后进行建库并测序,这样,测得的序列中包含的转录组序列有:宿主的转录组序列、病毒、细菌、古菌、真菌等不同微生物的转录组序列。进而本发明实施例可以对这些转录组序列进行分类鉴定。
步骤S102,将所述待分类转录组序列与已知数据库中的各个已知序列分别进行比对。
本发明实施例中,首先采用序列对比的方式的待分类转录组序列进行鉴定。具体地,待分类转录组序列先通过DIAMOND(v2.0.9.147)与NCBI的非冗余蛋白库(nr库)进行序列比对,以对数据库中已知的序列进行注释。
本发明实施例中,DIAMOND还可以通过LCA(Least Common Ancestors)算法找到序列所属的物种分类。从而确定待分类转录组序列所属的类别(细菌、古菌、真菌、病毒中的任意一种)。
步骤S103,在比对成功的情况下,通过已知数据库确定所述待分类转录组序列所属类别。
本发明实施例中,可以对比对结果设置较为严格的阈值,例如:90%的相似度及e值小于0.00001,以保证比对过程所得到的结果的可靠性。从而,在相似性大于90%且e值小于0.00001,表明比对成功,将比对到的已知数据库中的已知序列所属的类别,作为所述待分类转录组序列所属类别。
步骤S104,在比对失败的情况下,利用转录组序列分类预测模型对所述待分类转录组序列所属类别进行预测。
本发明实施例中,对于不能比对上数据库,以及不能通过LCA找到具体物种分类的序列,可以通过转录组序列分类预测模型来进行四类微生物水平的鉴定,以对待分类转录组序列进行初步的分类,同时也可以鉴定出新的可能的病毒序列。从而可以对鉴定出的新的可能的病毒序列进行后续的分析研究。
本发明实施例中,所述转录组序列分类预测模型预先学习了多个已知类别的微生物的转录组序列的碱基序列、密码子序列和氨基酸序列。
本发明实施例中,采用的预设模型是一个三通道的卷积神经网络,每个通道输入序列的三个维度的信息,其中第一个通道是碱基序列,第二个通道是密码子序列,第三个通道是密码子序列。因此,本发明实施例中,可以通过多个已知类别的微生物的转录组序列的碱基序列、密码子序列和氨基酸序列对该预设模型进行训练得到转录组序列分类预测模型。该转录组序列分类预测模型可以基于输入的转录组序列的碱基序列特征、密码子序列特征和密码子序列特征,预测该转录组序列所述的微生物类别。
其中,对转录组序列的碱基序列特征、密码子序列特征和密码子序列特征进行提取的方法可以采用相关技术中可行的任意方法。本发明对此不作具体限制。
本发明实施例中,通过对转录组序列进行比对和预测,可以确定转录组序列所属的微生物类别。从而可以从虫媒介宏转录组中发现更多的未知的RNA病毒(主要的人类病毒),以作为疾病的检测、防控,以及新病毒或其他病原体的研究的基础。
本发明实施例中,转录组序列分类预测模型预先学习了多个已知类别的微生物的转录组序列的碱基序列、密码子序列和氨基酸序列,从而,本发明实施例采用的转录组序列分类预测模型,可以结合待分类转录组序列的碱基序列、密码子序列和氨基酸序列,准确地预测该待分类转录组序列所属的微生物类别。
在本发明实施例一种可选地实施方式中,提供了一种确定待分类转录组序列的密码子序列和氨基酸序列的方法,如图2所示,所述方法包括:
步骤S201,提取所述待分类转录组序列的六个可能的读码框的相位序列。
在转录组数据中,通常混合了非编码区的序列,以及不完整的转录本序列,因此,在本发明实施例中,首先需要提取待分类转录组序列的编码信息,以确定其密码子序列和氨基酸序列。
本发明实施例中,对于每条待分类转录组序列,首先提取其六个可能的读码框的相位的序列,即原序列从第1,2,3个碱基开始的序列和反向互补序列从第1,2,3个碱基开始的序列。
在得到待分类转录组序列的六个相位序列之后,再对各个相位序列进行下一步的编码信息的分析。
步骤S202,对六个相位序列分别进行分析,得到所述六个相位序列各自对应的六连体序列串。
本发明实施例中,可以对每个相位序列进行分析,得到对应的六连体序列串,从而基于每个六连体的编码可能性得分判定其编码蛋白的可能性。
本发明实施例中,对于每个相位序列,可以从起始密码子到终止密码子进行截取,然后每隔三个碱基截取一个六连体,从而将相位序列转换为对应的六连体序列串。
步骤S203,通过每一个相位序列各自对应的六连体序列串确定每一个相位序列的最大编码可能性得分,以及最大编码可能性得分对应的连续子序列。
本发明实施例中,事先计算了病毒、细菌、古菌和真菌四类微生物的编码序列所有六连体的频率,以及非编码序列的所有六连体频率,从而可以通过以这四类微生物为背景的六连体编码频率分布,利用“最大子串和”(Maximum Subarray Sum,MSS)动态规划的方法,确定使相位序列的编码可能性得分最大化的六连体序列子串,将该六连体序列子串中所有的单个六连体在单个微生物类别中的编码可能性得分求和,从而得到该相位的编码可能性得分。同时也确定出了最大编码可能性得分对应的连续子序列。
具体地,步骤S203包括:
步骤S2031,根据单个六连体序列在单个微生物类别中的已知编码序列中出现的频率,和所述单个六连体序列在单个微生物类别中的已知非编码序列中出现的频率的比值,确定该单个六连体序列在单个微生物类别中的编码可能性得分。
本发明实施例中,可以采用以下公式1计算单个六连体序列在单个微生物类别中的编码可能性得分:
其中,H表示一个六连体序列,Fc(H)和Fnc(H)分别表示六连体序列H在已知的某个种类的微生物的编码序列中的频率和非编码序列中的频率,λ(H)表示六连体序列H在该种类的微生物中的编码可能性得分。
步骤S2032,对一个相位序列对应的六连体序列串包括的所有单个六连体序列在单个微生物类别中的编码可能性得分进行最大子串和计算,确定该相位序列在对应微生物类别中的最大编码可能性得分,以及所述最大编码可能性得分对应的连续子序列。
本发明实施例中,可以采用以下公式2计算各个六连体序列串在对应微生物类别中的编码可能性得分:
其中,S表示一个六连体序列串,Hi表示组成六连体序列串S的六连体序列。
图6是本发明实施例中所提供的一种相位序列的编码可能性得分计算过程示例图。如图6所示,本发明实施例在将序列转换为六连体序列串之后,通过“最大子串和”算法来计算每条序列中编码可能性得分最大的值所对应的序列。该算法利用动态规划来找出一个使相位序列的编码可能性得分值最大的连续子序列(如图6中的H3-H10),从而得到每一个相位序列的编码可能性得分。
步骤S204,将最大编码可能性得分最高且高于预设阈值的相位序列对应的连续子序列,作为所述待分类转录组序列的编码序列。
本发明实施例中,在确定每个相位序列相对于四种类别的微生物分别对应的编码可能性得分之后,可以取四个值中的最大值作为最终的编码可能性得分值。
然后取六个相位序列中编码可能性得分值最大的相位序列作为可能编码蛋白的序列,并且,如果该最大的编码可能性得分值大于给定的阈值,则可以将该可能编码蛋白的序列在步骤S203中确定的编码可能性得分值最大的连续的子序列(如图6中的H3-H10)作为该待分类转录组序列的编码序列,否则,将该序列被认定为非编码序列。
步骤S205,根据所述编码序列,确定所述待分类转录组序列的密码子序列和氨基酸序列。
本发明实施例中,在确定编码序列之后,即可根据该编码序列,确定待分类转录组序列的密码子序列和氨基酸序列。
具体地,将编码序列翻译成密码子,即得到待分类转录组序列的密码子序列。将编码序列翻译成氨基酸,即得到待分类转录组序列的氨基酸序列。
本发明实施例提出了一种转录组序列分类模型的训练方法,如图3所示,具体可以包括以下步骤:
步骤S301,获得多条已知类别的微生物的转录组序列,并为每条转录组序列添加对应的类别标签。
本发明实施例中,将添加了类别标签的转录组序列作为模型训练的样本集。
步骤S302,将具有标签的转录组序列中的一部分添加到验证集,剩余部分添加到训练集。
其中,训练集用于训练预设模型,验证集用于在训练过程中对模型参数进行调整,以使模型在验证集上能够达到最好的表现。
本发明实施例中,还可以包括测试集,用于评估训练得到的转录组序列分类预测模型的性能。
本发明实施例中,为了训练可以预测病毒序列及其他三类微生物序列的预测模型,构建了含有细菌、病毒、古菌和真菌等四类微生物的宏转录组训练集、验证集和测试集,数据来源为NCBI的RefSeq数据库的全基因组及编码区(CDS)序列。
具体地,对于病毒序列,截至2021年2月,RefSeq上共有10450个病毒的全基因组序列,本发明实施例以2019年为时间节点,2019年前所发表基因组的8126个病毒物种作为测试集,2019年及之后发表基因组的2322个病毒物种中,随机选一半作为验证集,另一半作为测试集。
对于细菌、古菌及真菌,由于这三类微生物的基因组相对于病毒基因组较大,全部用于训练会造成数据的不平衡,因此,本发明实施例中只选取了代表性物种的基因组进行模型的训练和评估。
其中,对于细菌,本发明实施例筛选了有全基因组的2772个细菌物种,然后选取了拥有20个以上基因组的门,其中包含变形菌门1217个,厚壁菌门492个,放线菌门472个,拟杆菌门218个,及其他6个门的258个物种。这些门水平的细菌中,本发明实施例进一步在每个属水平选取一个作为代表基因组,最终得到308个物种作为训练集物种,99个物种作为验证集物种,以及99个基因组作为测试集物种。
对于古菌序列,在古菌的421个代表物种中,本发明实施例在其中按比例随机选取了广古菌门(Euryarchaeota)的280个物种,泉古菌门(Crenarchaeota)的45个物种和剩下的其他门中的8个物种作为训练集,在除去训练集中的物种后,继续选取广古菌门中的6个物种,泉古菌门中的1个物种和其他古菌门中的1个物种组成验证集,以及以和验证集同样的方式选取8个物种作为测试集(训练集,验证集和测试集的物种互不重合)。
对于真菌序列,本发明实施例在子囊菌门(Ascomycota)中随机选取80个物种,担子菌门(Basidiomycota)中随机选取14个物种,其他真菌门的物种中随机选取2个物种组成训练集,然后在子囊菌门随机选取14个物种,担子菌门中随机选取3个物种,及其他真菌门中随机选取1个物种作为验证集,并以和验证集相同的方式选取18个物种作为测试集(训练集,验证集和测试集的物种互不重合)。
在本发明一种可选的实施方式中,考虑到待检测样品中可能含有DNA序列污染,还在样本集中加入了部分来自全基因组的序列,具体包括:在细菌、古菌和真菌三种微生物的三个物种库中,以4:1的比例从编码序列和全基因组序列中随机抽取序列片段,添加到样本集中。
对于病毒序列而言,部分RNA病毒除了其逆转录产物可以被测到,其基因组序列也能大量被测到,因此,本发明实施例中,还可以增加RNA病毒基因组序列的比例。
此外,为了提高人类病毒的检测效率,本发明实施例中还可以提高样本集中人类病毒的覆盖度。
在模拟每个类型的序列时,本发明实施例中,可以通过Grinder软件指定特定的序列条数和序列长度。
步骤S303,提取训练集中的每个具有标签的转录组序列的碱基序列、密码子序列和氨基酸序列。
本发明实施例中,可以参照上述确定待分类转录组序列的密码子序列和氨基酸序列的方法,提取训练集中的每个具有标签的转录组序列的碱基序列、密码子序列和氨基酸序列。
步骤S304,将训练集中具有标签的转录组序列的碱基序列、密码子序列和氨基酸序列输入预设模型进行训练,得到所述转录组序列分类预测模型。
本发明实施例中,预设模型是三通道卷积神经网络。对于一条给定的碱基序列,预设模型将其三个维度的信息,即碱基序列、密码子序列和氨基酸序列进行one-hot编码后,分别输入三个平行且构造一致的通道中。所述预设模型的每一层的具体设置如下:
第一层:一维卷积层。卷积核(过滤器)个数为64,每个卷积核的长度为3,激活函数为ReLU。
第二层:一维最大池化层。池大小(pooling size)设为3。
第三层:批量正则化层(batch normalization)。由于在训练过程中受到参数初始化的随机性和输入数据的随机性的影响,该层对输入的数据的每一维进行中心化和标准化。神经网络的每一层输入都有对应的分布,在网络的训练过程中,随着前一层参数的变化,当前层的输入分布也随之变化,使得当前层需要不断地重新调整到新的分布。这个问题对于深层网络尤其严重,因为较浅的隐藏层的微小变化会随着它们在网络中的传播而被放大,从而导致更深的隐藏层发生显著变化。因此,批量正则化用来减少这些不需要的转变,以加快训练速度并生成更可靠的模型。该层之后紧接着dropout操作,即随机删掉部分单元,以防止过拟合。本发明实施例中,dropout的单元的比例为0.25。
第四层-第六层:与第一层-第三层的结构一致,不同的是,在第四层卷积层中,卷积核的个数为128。
第七层:一维卷积层,三个通道各有256个卷积核,卷积核的长度为3,并使用ReLU作为激活函数。
第八层:一维全局平均池化层。该层对以上输出的特征图中的值取全局的平均值。
第九层:批量正则化层(batch normalization)。将三个通道的信息合并后输入批量正则化层,随后执行dropout操作,比例为0.25。
第十层-第十三层:两个全连接层,中间通过批量正则化层和一个ReLU激活函数相连,最后的全连接层的激活函数使用softmax,输出四类微生物的得分。
本发明实施例中,使用“one-hot”的方式对序列进行编码。“one-hot”是一种“0”,“1”编码方法,以使序列转换为能够输入深度学习模型的形式。
具体地,本发明对一条转录组序列进行三种形式的编码:(1)对于转录组序列本身,每一个碱基,分别由一个的向量来表示。(2)从转录组序列中确定编码序列后,将编码序列翻译成64个密码子,每个密码子对应一个的向量。(3)从转录组序列中确定编码序列后,将编码序列翻译成21种氨基酸,每种氨基酸对应一个向量。
本发明实施例中,在利用多条已知类别的微生物的转录组序列,对预设模型进行训练之后,可以得到转录组序列分类预测模型。
为了能够使模型适用于不同的长度的转录组序列,本发明实施例还提出了另外一种转录组序列分类模型的训练方法,如图4所示,具体可以包括以下步骤:
步骤S401,获得多条序列长度为指定长度范围的已知类别的微生物的转录组序列,并为每条转录组序列添加对应的类别标签。
其中,所述指定长度范围包括三种长度范围:0-400bp,400-1000bp,,1000-2000bp。
本发明实施例中,对于每种长度范围,可以用Grinder软件模拟相同数目的病毒、细菌、古菌和真菌序列各500000条作为训练集,各50000条序列作为验证集,以及各50000条序列作为测试集。
步骤S402,针对每种长度范围:将具有标签的转录组序列中的一部分添加到测试集,剩余部分添加到训练集;提取训练集中的每个具有标签的转录组序列的碱基序列、密码子序列和氨基酸序列;将训练集中具有标签的转录组序列的碱基序列、密码子序列和氨基酸序列输入预设模型进行训练,得到与该长度范围相对应的转录组序列分类预测模型。
本发明实施例中,具体的模型训练方法可以参照上述步骤S03-S304。
在本发明实施例中,上述步骤S104可以包括子步骤:
S1041,根据所述待分类转录组序列所属的长度范围,确定相对应的目标转录组序列分类预测模型。
S1042,利用所述目标转录组序列分类预测模型对所述待分类转录组序列所属类别进行预测。
本发明实施例中,在确定待分类转录组序列之后,可以采用与该序列长度相对应的目标转录组序列分类预测模型进行类别预测。如果所述待分类转录组序列长度在2000bp以上,则将其切断成长度为2000bp的片段,对于分割得到的每个片段,使用长度范围为1000-2000bp的转录组序列分类预测模型进行预测,剩下的不足2000bp长度的片段依照对应长度范围的转录组序列分类预测模型进行预测,最后,将片段的长度作为权重,对每个片段的打分进行加权平均后得到整条序列的得分,从而确定该待分类转录组序列所属的微生物类别。
参考图5,示出了一种转录组序列分类装置,所述装置包括:
获取模块501,用于获取宏转录组中的待分类转录组序列;
比对模块502,用于将所述待分类转录组序列与已知数据库中的各个已知序列分别进行比对;
第一确定模块503,用于在比对成功的情况下,利用LCA算法确定所述待分类转录组序列所属类别;
预测模块504,用于在比对失败的情况下,利用转录组序列分类预测模型对所述待分类转录组序列所属类别进行预测;
其中,所述转录组序列分类预测模型预先学习了多个已知类别的微生物的转录组序列的碱基序列、密码子序列和氨基酸序列。
可选地,所述装置包括:
提取模块,用于提取所述待分类转录组序列的六个可能的编码框的相位序列;
分析模块,用于对六个相位序列分别进行分析,得到所述六个相位序列各自对应的六连体序列串;
计算模块,用于通过每一个相位序列各自对应的六连体序列串确定每一个相位序列的最大编码可能性得分,以及最大编码可能性得分对应的连续子序列;
第二确定模块,用于将最大编码可能性得分最高且高于预设阈值的相位序列对应的连续子序列,作为所述待分类转录组序列的编码序列;
第三确定模块,用于根据所述编码序列,确定所述待分类转录组序列的密码子序列和氨基酸序列。
可选地,所述计算模块包括:
第一编码可能性得分确定子模块,用于根据单个六连体序列在单个微生物类别中的已知编码序列中出现的频率,和所述单个六连体序列在单个微生物类别中的已知非编码序列中出现的频率的比值,确定该单个六连体序列在单个微生物类别中的编码可能性得分;
第二编码可能性得分确定子模块,对一个相位序列对应的六连体序列串包括的所有单个六连体序列在单个微生物类别中的编码可能性得分进行最大子串和计算,确定该相位序列在对应微生物类别中的最大编码可能性得分,以及所述最大编码可能性得分对应的连续子序列。
可选地,所述装置还包括:
第一样本获取模块,用于获得多条已知类别的微生物的转录组序列,并为每条转录组序列添加对应的类别标签;
样本划分模块,用于将具有标签的转录组序列中的一部分添加到验证集,剩余部分添加到训练集;
特征提取模块,用于提取训练集中的每个具有标签的转录组序列的碱基序列、密码子序列和氨基酸序列;
第一训练模块,用于将训练集中具有标签的转录组序列的碱基序列、密码子序列和氨基酸序列输入预设模型进行训练,得到所述转录组序列分类预测模型。
可选地,所述装置还包括:
第二样本获取模块,用于获得多条序列长度为指定长度范围的已知类别的微生物的转录组序列,并为每条转录组序列添加对应的类别标签;
第二训练模块,用于针对每种长度范围:将具有标签的转录组序列中的一部分添加到验证集,剩余部分添加到训练集;提取训练集中的每个具有标签的转录组序列的碱基序列、密码子序列和氨基酸序列;将训练集中具有标签的转录组序列的碱基序列、密码子序列和氨基酸序列输入预设模型进行训练,得到与该长度范围相对应的转录组序列分类预测模型;
所述预测模块503,具体用于:
根据所述待分类转录组序列所属的长度范围,确定相对应的目标转录组序列分类预测模型;利用所述目标转录组序列分类预测模型对所述待分类转录组序列所属类别进行预测。
需要说明的是,装置实施例与方法实施例相近,故描述的较为简单,相关之处参见方法实施例即可。
本发明实施例还提供了一种电子设备,包括:
存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器被配置为:执行如上述任一实施例所述的转录组序列分类方法。
本发明实施例还提供了一种计算机可读存储介质,其存储的计算机程序使得处理器执行上述任一实施例所述的转录组序列分类方法。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种转录组序列分类方法、装置、设备和存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种转录组序列分类方法,其特征在于,所述方法包括:
获取宏转录组中的待分类转录组序列;
将所述待分类转录组序列与已知数据库中的各个已知序列分别进行比对;
在比对成功的情况下,通过已知数据库确定所述待分类转录组序列所属类别;
在比对失败的情况下,利用转录组序列分类预测模型对所述待分类转录组序列所属类别进行预测;
其中,所述转录组序列分类预测模型预先学习了多个已知类别的微生物的转录组序列的碱基序列、密码子序列和氨基酸序列。
2.根据权利要求1所述的方法,其特征在于,在利用转录组序列分类预测模型对所述待分类转录组序列所属的物种分类进行预测之前,所述方法还包括:
提取所述待分类转录组序列的六个可能的读码框的相位序列;
对六个相位序列分别进行分析,得到所述六个相位序列各自对应的六连体序列串;
通过每一个相位序列各自对应的六连体序列串确定每一个相位序列的最大编码可能性得分,以及最大编码可能性得分对应的连续子序列;
将最大编码可能性得分最高且高于预设阈值的相位序列对应的连续子序列,作为所述待分类转录组序列的编码序列;
根据所述编码序列,确定所述待分类转录组序列的密码子序列和氨基酸序列。
3.根据权利要求2所述的方法,其特征在于,通过每一个相位序列各自对应的六连体序列串确定每一个相位序列的最大编码可能性得分,以及最大编码可能性得分对应的连续子序列,包括:
根据单个六连体序列在单个微生物类别中的已知编码序列中出现的频率,和所述单个六连体序列在单个微生物类别中的已知非编码序列中出现的频率的比值,确定该单个六连体序列在单个微生物类别中的编码可能性得分;
对一个相位序列对应的六连体序列串包括的所有单个六连体序列在单个微生物类别中的编码可能性得分进行最大子串和计算,确定该相位序列在对应微生物类别中的最大编码可能性得分,以及所述最大编码可能性得分对应的连续子序列。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获得多条已知类别的微生物的转录组序列,并为每条转录组序列添加对应的类别标签;
将具有标签的转录组序列中的一部分添加到验证集,剩余部分添加到训练集;
提取训练集中的每个具有标签的转录组序列的碱基序列、密码子序列和氨基酸序列;
将训练集中具有标签的转录组序列的碱基序列、密码子序列和氨基酸序列输入预设模型进行训练,得到所述转录组序列分类预测模型。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获得多条序列长度为指定长度范围的已知类别的微生物的转录组序列,并为每条转录组序列添加对应的类别标签;
针对每种长度范围:将具有标签的转录组序列中的一部分添加到验证集,剩余部分添加到训练集;提取训练集中的每个具有标签的转录组序列的碱基序列、密码子序列和氨基酸序列;将训练集中具有标签的转录组序列的碱基序列、密码子序列和氨基酸序列输入预设模型进行训练,得到与该长度范围相对应的转录组序列分类预测模型;
利用转录组序列分类预测模型对所述待分类转录组序列所属类别进行预测,包括:
根据所述待分类转录组序列所属的长度范围,确定相对应的目标转录组序列分类预测模型;
利用所述目标转录组序列分类预测模型对所述待分类转录组序列所属类别进行预测。
6.一种转录组序列分类装置,其特征在于,所述装置包括:
获取模块,用于获取宏转录组中的待分类转录组序列;
比对模块,用于将所述待分类转录组序列与已知数据库中的各个已知序列分别进行比对;
第一确定模块,用于在比对成功的情况下,利用LCA算法确定所述待分类转录组序列所属类别;
预测模块,用于在比对失败的情况下,利用转录组序列分类预测模型对所述待分类转录组序列所属类别进行预测;
其中,所述转录组序列分类预测模型预先学习了多个已知类别的微生物的转录组序列的碱基序列、密码子序列和氨基酸序列。
7.根据权利要求6所述的装置,其特征在于,所述装置包括:
提取模块,用于提取所述待分类转录组序列的六个可能的读码框的相位序列;
分析模块,用于对六个相位序列分别进行分析,得到所述六个相位序列各自对应的六连体序列串;
计算模块,用于通过每一个相位序列各自对应的六连体序列串确定每一个相位序列的最大编码可能性得分,以及最大编码可能性得分对应的连续子序列;
第二确定模块,用于将最大编码可能性得分最高且高于预设阈值的相位序列对应的连续子序列,作为所述待分类转录组序列的编码序列;
第三确定模块,用于根据所述编码序列,确定所述待分类转录组序列的密码子序列和氨基酸序列。
8.根据权利要求7所述的装置,其特征在于,所述计算模块包括:
第一编码可能性得分确定子模块,用于根据单个六连体序列在单个微生物类别中的已知编码序列中出现的频率,和所述单个六连体序列在单个微生物类别中的已知非编码序列中出现的频率的比值,确定该单个六连体序列在单个微生物类别中的编码可能性得分;
第二编码可能性得分确定子模块,对一个相位序列对应的六连体序列串包括的所有单个六连体序列在单个微生物类别中的编码可能性得分进行最大子串和计算,确定该相位序列在对应微生物类别中的最大编码可能性得分,以及所述最大编码可能性得分对应的连续子序列。
9.一种电子设备,其特征在于,包括:
存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器被配置为:执行如权利要求1至5任一项所述的转录组序列分类方法。
10.一种计算机可读存储介质,其特征在于,其存储的计算机程序使得处理器执行如权利要求1至5任一项所述的转录组序列分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210074550.2A CN114496070A (zh) | 2022-01-21 | 2022-01-21 | 转录组序列分类方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210074550.2A CN114496070A (zh) | 2022-01-21 | 2022-01-21 | 转录组序列分类方法、装置、电子设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114496070A true CN114496070A (zh) | 2022-05-13 |
Family
ID=81472627
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210074550.2A Pending CN114496070A (zh) | 2022-01-21 | 2022-01-21 | 转录组序列分类方法、装置、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114496070A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116978445B (zh) * | 2023-08-03 | 2024-03-26 | 北京师范大学珠海校区 | 一种天然产物的结构预测系统、预测方法及设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111564179A (zh) * | 2020-05-09 | 2020-08-21 | 厦门大学 | 一种基于三元组神经网络的物种生物学分类方法及系统 |
CN112863599A (zh) * | 2021-03-12 | 2021-05-28 | 南开大学 | 一种病毒测序序列的自动化分析方法及系统 |
CN113658641A (zh) * | 2021-07-20 | 2021-11-16 | 北京大学 | 一种噬菌体分类方法、装置、设备及存储介质 |
CN113658633A (zh) * | 2021-07-20 | 2021-11-16 | 北京大学 | 噬菌体宿主属预测方法、装置、设备及存储介质 |
CN113744807A (zh) * | 2021-11-03 | 2021-12-03 | 微岩医学科技(北京)有限公司 | 一种基于宏基因组学的病原微生物检测方法及装置 |
-
2022
- 2022-01-21 CN CN202210074550.2A patent/CN114496070A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111564179A (zh) * | 2020-05-09 | 2020-08-21 | 厦门大学 | 一种基于三元组神经网络的物种生物学分类方法及系统 |
CN112863599A (zh) * | 2021-03-12 | 2021-05-28 | 南开大学 | 一种病毒测序序列的自动化分析方法及系统 |
CN113658641A (zh) * | 2021-07-20 | 2021-11-16 | 北京大学 | 一种噬菌体分类方法、装置、设备及存储介质 |
CN113658633A (zh) * | 2021-07-20 | 2021-11-16 | 北京大学 | 噬菌体宿主属预测方法、装置、设备及存储介质 |
CN113744807A (zh) * | 2021-11-03 | 2021-12-03 | 微岩医学科技(北京)有限公司 | 一种基于宏基因组学的病原微生物检测方法及装置 |
Non-Patent Citations (5)
Title |
---|
SHUFANG WU等: "DeePhage: distinguishing virulent and temperate phage-derived sequences in metavirome data with a deep learning approach", 《 GIGASCIENCE》, vol. 10, no. 9, 29 September 2021 (2021-09-29), pages 1 - 12 * |
XUBO TANG等: "Fast and accurate microRNA search using CNN", 《 BMC BIOINFORMATICS》, vol. 20, no. 1, 17 February 2020 (2020-02-17), pages 1 - 14 * |
ZHENCHENG FANG等: "PlasGUN: gene prediction in plasmid metagenomic short reads using deep learning", 《 BIOINFORMATICS》, vol. 36, no. 10, 15 May 2020 (2020-05-15), pages 3239 - 3241 * |
方臻成等: "基于深度学习的宏基因组噬菌体与质粒 序列片段识别算法", 《中国生物工程学会第十三届学术年会暨2019 年全国生物技术大会》, 9 November 2019 (2019-11-09), pages 1 - 15 * |
蔡元锋;贾仲君;: "基于新一代高通量测序的环境微生物转录组学研究进展", 生物多样性, no. 04, 15 July 2013 (2013-07-15), pages 401 - 410 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116978445B (zh) * | 2023-08-03 | 2024-03-26 | 北京师范大学珠海校区 | 一种天然产物的结构预测系统、预测方法及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Calderón‐Sanou et al. | From environmental DNA sequences to ecological conclusions: How strong is the influence of methodological choices? | |
Porter et al. | Scaling up: A guide to high‐throughput genomic approaches for biodiversity analysis | |
Coissac et al. | Bioinformatic challenges for DNA metabarcoding of plants and animals | |
CN110704840A (zh) | 一种基于卷积神经网络cnn的恶意软件检测方法 | |
CN111797394A (zh) | 基于stacking集成的APT组织识别方法、系统及存储介质 | |
Piro et al. | DUDes: a top-down taxonomic profiler for metagenomics | |
CN111785328B (zh) | 基于门控循环单元神经网络的冠状病毒序列识别方法 | |
Stobbe et al. | E-probe Diagnostic Nucleic acid Analysis (EDNA): a theoretical approach for handling of next generation sequencing data for diagnostics | |
US20130166221A1 (en) | Method and system for sequence correlation | |
US11610649B2 (en) | Method and system for identification of key driver organisms from microbiome / metagenomics studies | |
CN111564179B (zh) | 一种基于三元组神经网络的物种生物学分类方法及系统 | |
Scott et al. | Optimization and performance testing of a sequence processing pipeline applied to detection of nonindigenous species | |
CN109067708B (zh) | 一种网页后门的检测方法、装置、设备及存储介质 | |
CN112863599A (zh) | 一种病毒测序序列的自动化分析方法及系统 | |
JP5946149B2 (ja) | 二次代謝系遺伝子を含む遺伝子クラスタの予測方法、予測プログラム及び予測装置 | |
CN114420212A (zh) | 一种大肠杆菌菌株鉴定方法和系统 | |
CN114496070A (zh) | 转录组序列分类方法、装置、电子设备及可读存储介质 | |
Wang et al. | rRNAFilter: a fast approach for ribosomal RNA read removal without a reference database | |
Salekin et al. | A deep learning model for predicting transcription factor binding location at single nucleotide resolution | |
Logan et al. | 3GOLD: optimized Levenshtein distance for clustering third-generation sequencing data | |
CN113658641A (zh) | 一种噬菌体分类方法、装置、设备及存储介质 | |
CN117607120A (zh) | 基于改进型ResNext模型的食品添加剂拉曼光谱检测方法和装置 | |
WO2018086045A1 (zh) | 一种对特定群中的亚群进行定量分析的方法 | |
Xie et al. | Similarity evaluation of DNA sequences based on frequent patterns and entropy | |
CN114005489B (zh) | 基于三代测序数据检测点突变的分析方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |