CN111785328A - 基于门控循环单元神经网络的冠状病毒序列识别方法 - Google Patents

基于门控循环单元神经网络的冠状病毒序列识别方法 Download PDF

Info

Publication number
CN111785328A
CN111785328A CN202010537286.2A CN202010537286A CN111785328A CN 111785328 A CN111785328 A CN 111785328A CN 202010537286 A CN202010537286 A CN 202010537286A CN 111785328 A CN111785328 A CN 111785328A
Authority
CN
China
Prior art keywords
coronavirus
sequence
sequences
test set
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010537286.2A
Other languages
English (en)
Other versions
CN111785328B (zh
Inventor
应晓敏
何振
卢康
胡朔枫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Pharmacology and Toxicology of AMMS
Academy of Military Medical Sciences AMMS of PLA
Original Assignee
Institute of Pharmacology and Toxicology of AMMS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Pharmacology and Toxicology of AMMS filed Critical Institute of Pharmacology and Toxicology of AMMS
Priority to CN202010537286.2A priority Critical patent/CN111785328B/zh
Publication of CN111785328A publication Critical patent/CN111785328A/zh
Application granted granted Critical
Publication of CN111785328B publication Critical patent/CN111785328B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Physiology (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及基于门控循环单元神经网络的冠状病毒序列识别方法,其包括如下步骤:S1:进行数据收集;S2:对所收集的数据进行预处理,从原始训练样本中进行数据抽取得到训练集、验证集和测试集;建立基于冠状病毒序列的独立测试集;S3:对S2中获得各数据集进行编码,建立训练冠状病毒序列的分类模型;S4:对该模型进行修正;S5:统计该模型对将冠状病毒序列与人的基因组序列合并以后的测试集的每条序列的输出分值;S6:并根据该输出分值的分布情况设置拒识区间,以便减少误差;S7:当输出分值≥拒识区间的上限阈值时,判断序列为冠状病毒序列;当输出分值≤拒识区间的下限阈值时,判断序列为人基因组序列。

Description

基于门控循环单元神经网络的冠状病毒序列识别方法
技术领域
本发明涉及神经网络、数据处理以及计算机模拟技术领域,更为具体地是涉及一种基于门控循环单元神经网络的冠状病毒序列识别方法。
背景技术
冠状病毒(Coronavirus,CoV)是一类具有包膜的单股正链RNA病毒,该病毒在哺乳动物和鸟类中引起多种疾病。部分冠状病毒在人类中具有很高的传染性、致病性和致死率,对国民健康、社会稳定和国家经济发展有着巨大的负面影响。
实时逆转录聚合酶链式反应(Real-time Reverse-transcription PolymeraseChain Reaction,RT-PCR)扩增方法是检测冠状病毒的首选方法。该方法具有实时监测、敏感度高、特异性高等优点,但也存在一些缺点,例如无法对新型和高变异株冠状病毒进行检测,对引物要求高,需要实验人员掌握相应实验操作技能等。
对新发和高变异株冠状病毒,通常处理为分离出病毒,然后利用电子显微镜在细胞培养物中鉴定病毒。这在技术层面上要求很高,同时耗时长、敏感性低。
而高通量测序数据分析的传统方法是序列比对,尽管已经有不少针对高通量测序序列特点的序列比对算法,但这些序列比对算法具有计算时间长、对计算资源要求高等缺点。
发明内容
针对现有技术中存在的问题,本发明的目的在于提供一种基于门控循环单元神经网络的冠状病毒序列识别方法,其从NCBI中获得冠状病毒和人基因组数据。对收集到的序列进行数据预处理,构建冠状病毒感染者样品高通量测序模拟数据集,将其划分为训练集、验证集和测试集,在训练集上训练循环神经网络,在验证集和测试集上测试效果,并收集新型冠状病毒2019-nCoV基因组数据作为独立测试集。该循环神经网络模型能够灵敏、快速地从高通量测序数据中检测出冠状病毒序列,同时具有很好的泛化能力,能够对新发和高变异株冠状病毒序列进行准确地检测,为新发和高变异株冠状病毒的鉴定提供了新思路。
本发明的本质在于提高对冠状病毒识别的准确率,即提高判断的精度,虽然本模型本质是对核酸序列进行分类,但是其结果不是为了获得诊断结果或健康状况,而只是一种获取作为中间结果的信息的方法,其中涉及对信息的处理方法。
根据现有技术中的医学知识和本申请中公开的内容从所获得信息本身不能够直接得出疾病的诊断结果或健康状况,也就是说,其并不能直接用于对疾病的诊断。
具体地,该模型只能对病毒样本测序的结果进行分类,但是测序样品结果的准确性会受到测序实验过程的影响,具有不稳定的因素。即使病毒样本中含有冠状病毒的序列,但是并不代表该病人已经患病,因为人体自身的免疫系统会抵抗病毒的入侵。另外,该模型的结果只能作为一种中间信息,知晓该模型的分类结果并不能直接获得疾病的诊断结果。疾病的诊断需要医生结合病人多方面的表现和结果,比如临床表现和测试化验结果。
本发明的技术方案如下:
一种基于门控循环单元神经网络的冠状病毒序列识别方法,其特征在于,其包括如下步骤:
S1:进行数据收集;所收集的数据包括冠状病毒序列和人的参考基因组序列;
S2:对所收集的数据进行预处理:首先,基于S1中所收集的冠状病毒序列和人的参考基 因组序列得到冠状病毒序列与人的参考基因组序列合并后的训练集
Figure 75776DEST_PATH_IMAGE001
、验证集
Figure 230814DEST_PATH_IMAGE002
和测试集
Figure 500121DEST_PATH_IMAGE003
, 其中该测试集
Figure 347991DEST_PATH_IMAGE003
用于在训练过程中模型效果的测试;其次,基于S1中所收集的冠状病毒序 列,建立基于冠状病毒序列的独立测试集
Figure 319227DEST_PATH_IMAGE004
,所述独立测试集
Figure 277956DEST_PATH_IMAGE004
用于建立模型后对模型的效果 进行验证;
S3:对S2中获得各数据集进行编码,建立冠状病毒序列的分类模型;
S4:对该模型进行修正;
S5:统计该模型对将冠状病毒序列与人的参考基因组序列合并后的测试集的每条序列的输出分值;
S6:并根据该输出分值的分布情况设置拒识区间,以便减少误差;
S7:当输出分值≥拒识区间的上限阈值时,判断序列为冠状病毒序列;当输出分值≤拒识区间的下限阈值时,判断序列为人的参考基因组序列。
具体地,一种基于门控循环单元神经网络的冠状病毒序列识别方法,其具体包括如下步骤:
S1:进行数据收集,所收集的数据包括冠状病毒序列和人的参考基因组序列;
S2:对所收集的数据进行预处理,首先,基于S1中所收集的冠状病毒序列和人的参考基 因组序列得到冠状病毒序列与人的参考基因组序列合并后的训练集
Figure 401770DEST_PATH_IMAGE001
、验证集
Figure 482858DEST_PATH_IMAGE002
和测试集
Figure 629806DEST_PATH_IMAGE003
,其中该测试集
Figure 205275DEST_PATH_IMAGE003
用于在训练过程中模型效果的测试;其次,基于S1中所收集的冠状病毒序 列,建立基于冠状病毒序列的独立测试集
Figure 386857DEST_PATH_IMAGE004
,所述独立测试集
Figure 310951DEST_PATH_IMAGE004
用于建立模型后对模型的效果 进行验证,并对该独立测试集中的数据进行预处理;
S3:对最终用于模型的训练集
Figure 7512DEST_PATH_IMAGE001
、验证集
Figure 308043DEST_PATH_IMAGE002
和测试集
Figure 406449DEST_PATH_IMAGE003
进行编码,使每条序列向量化;建 立冠状病毒序列的分类模型;并对独立测试集进行编码处理,使序列向量化;
S4:对S3中所建立的模型进行修正;
当其交叉熵小于第一阈值停止训练,或训练集的准确率达到第二阈值并且验证集的准确率能够达到第三阈值时停止训练;
具体地,当其交叉熵小于0.001时停止训练,或训练集的准确率达到99.99%和验证集的准确率能够达到99.90%停止训练;
更进一步地,当其交叉熵小于0.001时或训练集和验证集的准确率分别能够达到99.99%和99.90%以及验证集的敏感性和特异性分别达到99.92%和99.88%时,停止训练;也就是说,交叉熵小于0.001时停止训练。并列地,训练集的准确率达到99.99%和验证集的准确率能够达到99.90%时,停止训练;更进一步地,交叉熵小于0.001时停止训练,并列地,训练集的准确率达到99.99%和验证集的准确率能够达到99.90%时以及验证集的敏感性达到99.92%且和验证集的特异性达到99.88%停止训练;
S5:统计该模型对将冠状病毒序列与人的参考基因组序列合并以后的测试集的每条序列的输出分值;
S6:并根据该输出分值的分布情况设置拒识区间,以便减少误差;
S7:当输出分值≥拒识区间的上限阈值时,判断序列为冠状病毒序列;当输出分值≤拒识区间的下限阈值时,判断序列为人的参考基因组序列;
S8:在独立测试集上对训练完毕的模型和拒识区间进行验证。
优选地,所述数据为冠状病毒完整的全基因组序列。
优选地,所述数据还包括人的hg38参考基因组序列,由此构建冠状病毒感染者样本的模拟高通量测序数据。
优选地,所述训练集、验证集和测试集的数据均包括冠状病毒序列片段和和人hg38基因组序列片段。
优选地,S2中,获得冠状病毒序列与人的参考基因组序列合并后的训练集、验证集和测试集的方法步骤如下:
步骤一、对S1中所获得的冠状病毒全基因组序列按照预设比例进行划分;
步骤二、设置冠状病毒的训练集、冠状病毒的验证集以及冠状病毒的测试集内的冠状病毒序列片段的片段长度,将冠状病毒的训练集中的数据转化成连续的子序列,其中,冠状病毒序列片段的片段长度设置为150个碱基,步长为1,分别在冠状病毒的训练集、冠状病毒的验证集和冠状病毒的测试集的序列上连续滑动取值,每个数据集内均获得多个长度为150个碱基的核酸序列,使其与模拟测序数据的序列长度相等;
步骤三、将步骤二中所获得的冠状病毒的各个数据集进行去重处理以去掉重复序列,避免序列之间不平衡,避免某一类占比过大会影响预测的准确性;所述数据集为冠状病毒的训练集、冠状病毒的验证集以及冠状病毒的测试集;
步骤四、冠状病毒的训练集、冠状病毒的验证集和冠状病毒的测试集中,含有“N”的序列片段舍去;
步骤五、设置人的参考基因组序列片段的片段长度,建立人的参考基因组序列的第一片段集、第二片段集和第三片段集,使得来自于人参考基因组的核酸片段数目分别与冠状病毒的训练集、冠状病毒的验证集和冠状病毒的测试集的核酸片段数目保持一致;第一片段集为人的参考基因组序列的训练集,第二片段集为人的参考基因组序列的验证集,第三片段集为人的参考基因组序列的测试集;
步骤六、将步骤五中所获得的人的参考基因组序列各片段集去重处理以去掉重复序列,避免序列之间不平衡,避免某一类占比过大会影响预测的准确性;
步骤七、舍弃人的参考基因组序列各片段集中含有“N”的片段,提高模型最终的准确率、敏感性和特异性;
步骤八、将分别来自冠状病毒的训练集
Figure 501444DEST_PATH_IMAGE005
和人的参考基因组序列的训练集
Figure 685301DEST_PATH_IMAGE006
合并为 新的训练集
Figure 789523DEST_PATH_IMAGE007
、分别来自冠状病毒的验证集
Figure 726124DEST_PATH_IMAGE008
和人的参考基因组序列的验证集
Figure 257599DEST_PATH_IMAGE009
合并为新 的验证集
Figure 663173DEST_PATH_IMAGE010
、分别来自冠状病毒的测试集
Figure 571086DEST_PATH_IMAGE011
和人的参考基因组序列的测试集
Figure 378505DEST_PATH_IMAGE012
合并为新 的测试集
Figure 80882DEST_PATH_IMAGE013
,得到最终的训练集
Figure 973751DEST_PATH_IMAGE007
、验证集
Figure 685355DEST_PATH_IMAGE010
和测试集
Figure 284964DEST_PATH_IMAGE013
,分别用于模型的训练、验证和测 试。
优选地,将冠状病毒全基因组序列的数量按照90:5:5的比例随机划分为训练集
Figure 971291DEST_PATH_IMAGE014
、 验证集
Figure 289140DEST_PATH_IMAGE015
和测试集
Figure 538856DEST_PATH_IMAGE016
优选地,人参考基因组的核酸片段数目分别与冠状病毒训练集、验证集和测试集的核酸片段数目保持一致。
优选地,在步骤五中,在人的参考基因组序列中随机选取位点,保持150个碱基长度不变,进行取值。例如,可以从人的参考基因组序列片段中每条序列的第一个碱基开始,保持取值大小为150个碱基的长度不变,步长为1,依次取值至最后一个碱基,形成人的参考基因组片段集。
优选地,S2中,建立基于冠状病毒序列的独立测试集
Figure 320867DEST_PATH_IMAGE004
的具体步骤如下:
步骤A:建立冠状病毒的原始独立测试集;
步骤B:设置原始独立测试集的冠状病毒序列片段的片段长度,将冠状病毒独立测试集的数据转化成连续的子序列,构成基于冠状病毒序列的一个样本子集;
步骤C:将步骤B中所获得的冠状病毒的样本子集进行去重处理以去掉重复序列,避免序列之间不平衡,避免某一类占比过大会影响预测的准确性;
步骤四、舍弃所得到的冠状病毒序列中含有“N”的片段,得到基于冠状病毒序列的独立 测试集
Figure 365047DEST_PATH_IMAGE004
优选地,对逐个的子样本集进行测试,如果发现“N”就舍弃,没有“N”就保留,由此,将各个数据集中含有“N”的序列片段舍去。
优选地,在冠状病毒样本高通量测序模拟数据集上,把每一个碱基作为一个特征,每条序列包含150个特征,然后对每个特征进行one-hot编码,使每条序列向量化。
优选地,需要进行编码的对象包括S2中最终得到的训练集、验证集、测试集以及独立测试集中的每一条序列。
优选地,所述分类模型包括核酸序列单元、one-hot编码单元、GRU单元、线性层、以及Sigmoid函数层;所述分类模型从左到右依次为核酸序列单元、one-hot编码单元、GRU单元、线性层、以及Sigmoid函数层,在GRU单元的后面设置线性层,通过该线性层将GRU单元的高维输出转换为低维,最后通过Sigmoid函数将线性层的输出映射到[0,1]之间。
优选地,对序列中每一个碱基进行one-hot编码后,最终每条序列变成包含150个碱基编码的向量,其中one-hot表示如下:
Figure 232508DEST_PATH_IMAGE017
其中:
Figure 20336DEST_PATH_IMAGE018
Figure 656854DEST_PATH_IMAGE019
表示one-hot向量,
Figure 871934DEST_PATH_IMAGE020
表示类别的总数,
Figure 164375DEST_PATH_IMAGE021
表示向量
Figure 610355DEST_PATH_IMAGE019
中第
Figure 39063DEST_PATH_IMAGE022
个元素,
Figure 487362DEST_PATH_IMAGE023
为狄拉克函数,
Figure 267099DEST_PATH_IMAGE024
表示第
Figure 459046DEST_PATH_IMAGE024
类。
优选地,所述分类模型如下所示,
Figure 663631DEST_PATH_IMAGE025
Figure 282831DEST_PATH_IMAGE026
Figure 81023DEST_PATH_IMAGE027
Figure 14344DEST_PATH_IMAGE028
其中,
Figure 214381DEST_PATH_IMAGE029
表示权重,
Figure 207745DEST_PATH_IMAGE022
表示第
Figure 509544DEST_PATH_IMAGE022
个,
Figure 246556DEST_PATH_IMAGE030
表示时间,
Figure 504362DEST_PATH_IMAGE031
表示Sigmoid函数,
Figure 730944DEST_PATH_IMAGE032
表示哈达玛积,
Figure 441411DEST_PATH_IMAGE033
表示 偏置,tanh是tanh函数,
Figure 982114DEST_PATH_IMAGE034
表示隐层的状态,
Figure 422322DEST_PATH_IMAGE035
表示输入,
Figure 491910DEST_PATH_IMAGE036
分别是重置门,更新门,r是重置 门,z是更新门,
Figure 17569DEST_PATH_IMAGE037
表示循环神经网络中的一个中间状态。
Figure 96383DEST_PATH_IMAGE038
表示
Figure 328782DEST_PATH_IMAGE030
时刻重置门的状态,
Figure 880854DEST_PATH_IMAGE039
表 示第
Figure 831493DEST_PATH_IMAGE022
个重置门
Figure 510736DEST_PATH_IMAGE040
的权重,
Figure 863220DEST_PATH_IMAGE041
表示
Figure 540189DEST_PATH_IMAGE030
时刻的输入,
Figure 774861DEST_PATH_IMAGE042
表示第
Figure 929899DEST_PATH_IMAGE022
个重置门
Figure 199206DEST_PATH_IMAGE040
的偏置,
Figure 47077DEST_PATH_IMAGE043
表示第
Figure 706728DEST_PATH_IMAGE044
个 隐层状态重置门
Figure 478506DEST_PATH_IMAGE040
的权重,
Figure 540003DEST_PATH_IMAGE045
表示
Figure 824354DEST_PATH_IMAGE046
时刻隐层的状态,
Figure 33618DEST_PATH_IMAGE047
表示第
Figure 530459DEST_PATH_IMAGE044
个隐层状态重置门
Figure 508779DEST_PATH_IMAGE040
的偏置,
Figure 698452DEST_PATH_IMAGE048
表示
Figure 175438DEST_PATH_IMAGE030
时刻更新门的状态,
Figure 475970DEST_PATH_IMAGE049
表示第
Figure 512059DEST_PATH_IMAGE022
个更新门
Figure 934950DEST_PATH_IMAGE050
的权重,
Figure 56490DEST_PATH_IMAGE051
表示第
Figure 957450DEST_PATH_IMAGE022
个更新门
Figure 848045DEST_PATH_IMAGE050
的偏置,
Figure 441838DEST_PATH_IMAGE052
表示第
Figure 785094DEST_PATH_IMAGE044
个隐层状态更新门
Figure 958587DEST_PATH_IMAGE050
的权重,
Figure 516738DEST_PATH_IMAGE053
表示第
Figure 219115DEST_PATH_IMAGE044
个隐层状态更新门
Figure 111985DEST_PATH_IMAGE050
的偏置,
Figure 558009DEST_PATH_IMAGE054
表示
Figure 423197DEST_PATH_IMAGE030
时刻的中间状态,
Figure 358792DEST_PATH_IMAGE055
表示第
Figure 676641DEST_PATH_IMAGE022
个中间状态
Figure 926357DEST_PATH_IMAGE037
的权重,
Figure 708368DEST_PATH_IMAGE056
表示第
Figure 752547DEST_PATH_IMAGE022
个中间状态
Figure 869277DEST_PATH_IMAGE037
的偏 置,
Figure 922683DEST_PATH_IMAGE057
表示第
Figure 496884DEST_PATH_IMAGE044
个隐层状态中间状态
Figure 774282DEST_PATH_IMAGE037
的权重,
Figure 801144DEST_PATH_IMAGE058
表示第
Figure 454979DEST_PATH_IMAGE044
个隐层状态中间状态
Figure 149265DEST_PATH_IMAGE037
的偏 置,
Figure 535247DEST_PATH_IMAGE059
表示
Figure 377302DEST_PATH_IMAGE030
时刻隐层的状态;
线性层:
Figure 506932DEST_PATH_IMAGE060
其中x为分类模型输出的集合,y为集合转换的数值,w为权重,b为偏置。
Sigmoid函数层:
Figure 55725DEST_PATH_IMAGE061
其中,y为线性层的输出,
Figure 691236DEST_PATH_IMAGE050
为该序列的最终得分。
优选地,保证每个特征向量与其他特征向量之间的距离相同,避免特征与特征之间出现人为的误差。
优选地,将GRU隐层单元数的范围设置为[128,512]。
优选地,将GRU隐层的单元数设置为256,以便极大的缩小训练时间,最终通过网格搜索策略。
优选地,S4中,所述模型中的参数每迭代一次后,该模型都会对训练集中的样本数 据输出模型预测的结果,根据模型预测结果与实际结果的交叉熵,更新GRU模型中的参数
Figure 692690DEST_PATH_IMAGE062
,即,每个一个神经元的权重不断循环这个过程,直到找到局部最优解。
优选地,所述交叉熵的表达如下:
Figure 422749DEST_PATH_IMAGE063
Figure 91628DEST_PATH_IMAGE064
Figure 84992DEST_PATH_IMAGE065
其中,
Figure 370479DEST_PATH_IMAGE066
表示交叉熵损失,
Figure 107491DEST_PATH_IMAGE067
表示真实标签,
Figure 427614DEST_PATH_IMAGE068
表示预测标签,
Figure 591879DEST_PATH_IMAGE069
表示序列的最终得 分。
优选地,拒识区间为(0.2,0.8),优选地,为了避免通过二分类模型对冠状病毒序列做出“非此即彼”的判断,计算该模型对测试集中每条序列的输出分值。
优选地,对该输出分值进行统计分析,图3A至图3D中给出了测试集中序列的得分分布情况,从图3A至图3D可知,99.78%的测试集冠状病毒序列得分≥0.9,而99.28%的测试集人基因组片段得分≤0.1。
优选地,S7中,当输出分值≥0.8时,判断序列为冠状病毒序列;当输出分值≤0.2时,判断序列为人基因组序列。当输出分值>0.2并且<0.8时,即当0.2<输出分值<0.8时,判断序列为其他物种序列。
与现有技术相比,本发明的有益效果在于:
本发明的基于门控循环单元神经网络的冠状病毒序列识别方法,其为一种冠状病毒序列判别工具,其研究对象具有高度复杂性,其中四种碱基的前后顺序非常重要,四种碱基的不同排列顺序代表多种信息;因此,为了更好的利用本发明的冠状病毒序列的序列信息,建立基于门控循环单元(Gated Recurrent Unit,GRU)的循环神经网络(Recurrent NeuralNetwork,RNN)模型,其能够更好地处理具有前后顺序特征的数据,能够提高其对样本高通量测序数据中新型和高变异株冠状病毒序列的检测效率和性能。同时我们设计的数据预处理方式可以保证不同数据集内部两类样本的平衡性,避免失衡带来的误差,提升GRU模型的性能。本发明所建立的模型参数少,收敛速度快,能够快速从患者样品中鉴定出冠状病毒,尤其是新发和高变异株冠状病毒,对于冠状病毒疫情的防控和诊疗有着重要的意义。
附图说明
本发明上述和/或附加方面的优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是根据本发明实施例的基于门控循环单元神经网络的冠状病毒序列识别方法的流程图。
图2是根据分发明实施例的基于门控循环单元神经网络的冠状病毒序列识别方法的神经网络模型结构示意图。
图3A是根据本发明实施例的基于门控循环单元神经网络的冠状病毒序列识别方法中训练集的准确率与迭代次数的拟合曲线.
图3B是根据本发明实施例的基于门控循环单元神经网络的冠状病毒序列识别方法中验证集的准确率与迭代次数的拟合曲线。
图3C是根据本发明实施例的基于门控循环单元神经网络的冠状病毒序列识别方法中验证集的敏感性与迭代次数的拟合曲线。
图3D是根据本发明实施例的基于门控循环单元神经网络的冠状病毒序列识别方法中验证集的特异性与迭代次数的拟合曲线。
图4是根据本发明实施例的基于门控循环单元神经网络的冠状病毒序列识别方法的测试集中序列的得分分布示意图。
图5是根据本发明实施例的基于门控循环单元神经网络的冠状病毒序列识别方法与其他对比模型对独立测试集的敏感性的比较结果图。
图6是根据本发明实施例的基于门控循环单元神经网络的冠状病毒序列识别方法与其他对比模型的计算速度比较。
图7是根据本发明实施例的基于门控循环单元神经网络的冠状病毒序列识别方法中冠状病毒数据全基因组序列预处理的流程图。
图8是根据本发明实施例的基于门控循环单元神经网络的冠状病毒序列识别方法中独立测试集的数据预处理流程图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
根据本发明的基于门控循环单元神经网络的冠状病毒序列识别方法,如图1所示,其具体包括如下步骤:
S1:进行冠状病毒全基因组序列的数据收集;
优选地,所述数据为冠状病毒完整的全基因组序列,其表达式如下所示,D={M1,M2,...,Mi,...,M2621};
其中,D表示冠状病毒完整的全基因组序列数据集,M表示一条冠状病毒完整的全基因 组序列,
Figure 567926DEST_PATH_IMAGE022
表示第
Figure 154634DEST_PATH_IMAGE022
个Mi
Figure 266946DEST_PATH_IMAGE070
表示第
Figure 664429DEST_PATH_IMAGE022
条冠状病毒完整的全基因组序列。
优选地,所述数据包括冠状病毒完整的全基因组序列以及人的hg38参考基因组序列,由此构建冠状病毒感染者样本的模拟高通量测序数据。其中冠状病毒完整的全基因组序列以下简称冠状病毒全基因组序列,即冠状病毒序列。人的hg38参考基因序列以下简称人的参考基因组序列。
具体地,其所收集的数据为从NCBI中下载所有冠状病毒的全基因组序列。截止到2019年12月16日,收集了2621条序列。同时,从NCBI Genomic Data Commons(GDC)下载人的参考基因组序列hg38。另外,从国家基因组科学中心(National Genomics Data Center,NGDC)的2019新冠病毒信息数据库中下载了2019-nCoV全基因组序列,截止到2020年2月19日,共获得50条序列。
S2:对所收集的数据进行预处理,从原始训练样本中进行数据抽取得到训练集、验 证集和测试集;建立独立测试集
Figure 127772DEST_PATH_IMAGE004
,并对所述独立测试集中的数据进行预处理;
优选地,所述训练集配置用于训练模型,根据各次迭代的结果进而提高模型的准确性、敏感性和特异性;所述验证集配置用于模型每次迭代后的效果与性能;所述测试集用于测试所建立模型的最终效果和最终性能;所述训练集、验证集和测试集的数据均包括冠状病毒序列片段和和人hg38基因组序列片段。
具体地,对冠状病毒全基因组序列的数据预处理方法,其具体包括如下步骤:
步骤一、对S1中所获得的冠状病毒全基因组序列按照预设比例进行划分。
优选地,将冠状病毒全基因组序列的数量按照90:5:5的比例随机划分为训练集
Figure 206586DEST_PATH_IMAGE014
、 验证集
Figure 501301DEST_PATH_IMAGE015
和测试集
Figure 272948DEST_PATH_IMAGE016
步骤二、设置训练集、验证集以及测试集内的冠状病毒序列片段的片段长度,将冠状病毒训练集中的数据转化成连续的子序列,获取多个样本子集。将滑动窗口的长度,即,冠状病毒序列片段的片段长度设置为150个碱基,步长为1,分别在冠状病毒训练集、验证集和测试集的序列上连续滑动取值,每个数据集内均获得多个长度为150个碱基的核酸序列。
优选地,由于目前的高通量测序一般采用PE150测序,每个读长为150个碱基,为了使得本发明中用于训练的模型能够适用于PE150高通量测序数据,在冠状病毒的训练集内,将冠状病毒序列片段的片段长度设置为150个碱基,使其与模拟测序数据的序列长度相等。
优选地,将冠状病毒训练集中的数据转化成连续的子序列,获取多个样本子集。具体地,从冠状病毒训练集中每条序列的第一个碱基开始,保持取值大小为150个碱基的长度不变,步长为1,依次取值至最后一个碱基,形成冠状病毒的训练集,
Figure 36636DEST_PATH_IMAGE071
Figure 653562DEST_PATH_IMAGE005
表示冠状病毒的训练集,
Figure 802784DEST_PATH_IMAGE072
表示冠状病毒的训练集中核酸序列片段,
Figure 479753DEST_PATH_IMAGE022
表示第
Figure 652108DEST_PATH_IMAGE022
个,
Figure 135042DEST_PATH_IMAGE073
表示第
Figure 76453DEST_PATH_IMAGE022
个冠状病毒的训练集中核酸序列片段。
优选地,将冠状病毒验证集中的数据转化成连续的子序列,获取多个样本子集。具体地,从冠状病毒验证集中每条序列的第一个碱基开始,保持取值大小为150个碱基的长度不变,步长为1,依次取值至最后一个碱基,形成冠状病毒的验证集,
Figure 986640DEST_PATH_IMAGE074
Figure 911871DEST_PATH_IMAGE008
表示冠状病毒的验证集,
Figure 870600DEST_PATH_IMAGE075
表示冠状病毒的验证集中核酸序列片段,
Figure 243681DEST_PATH_IMAGE022
表示第
Figure 262453DEST_PATH_IMAGE022
个,
Figure 409400DEST_PATH_IMAGE076
表示第
Figure 234137DEST_PATH_IMAGE022
个冠状病毒的验证集中核酸序列片段。
优选地,将冠状病毒测试集中的数据转化成连续的子序列,获取多个样本子集。具体地,从冠状病毒测试集中每条序列的第一个碱基开始,保持取值大小为150个碱基的长度不变,步长为1,依次取值至最后一个碱基,形成冠状病毒的测试集,
Figure 150140DEST_PATH_IMAGE077
Figure 402130DEST_PATH_IMAGE078
表示冠状病毒的测试集,
Figure 36374DEST_PATH_IMAGE079
表示冠状病毒的测试集中核酸序列片段,
Figure 602484DEST_PATH_IMAGE022
表示第
Figure 435311DEST_PATH_IMAGE022
个,
Figure 795885DEST_PATH_IMAGE080
表示第
Figure 464895DEST_PATH_IMAGE022
个冠状病毒的测试集中核酸序列片段。
步骤三、将步骤二中所获得的冠状病毒的各个数据集进行去重处理以去掉重复序列,避免序列之间不平衡,避免某一类占比过大会影响预测的准确性。所述数据集为冠状病毒的训练集、冠状病毒的验证集以及冠状病毒的测试集。
例如,冠状病毒的训练集内去掉重复序列,避免序列之间不平衡,避免某一类占比过大会影响预测的准确性,同时能够减少训练量,减少训练误差。
步骤四、舍弃冠状病毒全基因组序列中含有“N”的片段。
优选地,由于冠状病毒全基因组序列中除了“A”、“T”、“C”、“G”四种碱基外,还有代表该位置碱基种类不确定的“N”,在数据预处理的过程中舍弃含有“N”的片段。“N”的出现是由于测序错误导致的,删除“N”的以提高模型最终的准确率、敏感性和特异性。
本申请文件中将各个数据集,例如,冠状病毒训练集、冠状病毒验证集和冠状病毒测试集中,含有“N”的序列片段舍去。
对人的参考基因组序列的数据预处理方法为,步骤五、设置人的参考基因组片段的片段长度,建立人的参考基因组序列的第一片段集、第二片段集和第三片段集,使得来自于人参考基因组的核酸片段数目分别与冠状病毒的训练集、冠状病毒的验证集和冠状病毒的测试集的核酸片段数目保持一致;第一片段集为人的参考基因组序列的训练集,第二片段集为人的参考基因组序列的验证集,第三片段集为人的参考基因组序列的测试集。
优选地,由于人的hg38参考基因组长度远远大于收集到的所有冠状病毒的核酸序列长度总和,为了保证两类数据量的平衡性,采用150个碱基长度的窗口在人参考基因组,例如,人的hg38参考基因组序列上随机选取150个碱基长的片段,使得来自于人的参考基因组序列的核酸片段数目分别与冠状病毒训练集、验证集和测试集的核酸片段数目保持一致。
具体地,将人的参考基因组序列中的数据转化成连续的子序列,获取多个样本子集。具体地,人的参考基因组序列片段中每条序列的第一个碱基开始,保持取值大小为150个碱基的长度不变,步长为1,依次取值至最后一个碱基,形成人的参考基因组片段集,上下文中人参考基因组即为人的参考基因组序列。
Figure 834697DEST_PATH_IMAGE081
Figure 725292DEST_PATH_IMAGE006
表示人参考基因组的训练集,
Figure 319085DEST_PATH_IMAGE082
表示人参考基因组的训练集中核酸序列片段,
Figure 927920DEST_PATH_IMAGE022
表示 第
Figure 570254DEST_PATH_IMAGE022
个,
Figure 377673DEST_PATH_IMAGE083
表示第
Figure 80050DEST_PATH_IMAGE022
个人参考基因组的训练集中核酸序列片段。
Figure 176182DEST_PATH_IMAGE084
Figure 464950DEST_PATH_IMAGE009
表示人参考基因组的验证集,
Figure 330138DEST_PATH_IMAGE085
表示人参考基因组的验证集中核酸序列片段,
Figure 265733DEST_PATH_IMAGE022
表示 第
Figure 318002DEST_PATH_IMAGE022
个,
Figure 833297DEST_PATH_IMAGE086
表示第
Figure 615308DEST_PATH_IMAGE022
个人参考基因组的验证集中核酸序列片段。
Figure 659488DEST_PATH_IMAGE087
Figure 261370DEST_PATH_IMAGE012
表示人参考基因组的测试集,
Figure 49198DEST_PATH_IMAGE088
表示人参考基因组的测试集中核酸序列片段,
Figure 888978DEST_PATH_IMAGE022
表示 第
Figure 917108DEST_PATH_IMAGE022
个,
Figure 209549DEST_PATH_IMAGE089
表示第
Figure 597805DEST_PATH_IMAGE022
个人参考基因组的测试集中核酸序列片段。
步骤六、将步骤五中所获得的人的参考基因组序列各片段集去重处理以去掉重复序列,避免序列之间不平衡,避免某一类占比过大会影响预测的准确性。
例如,人的参考基因组序列各片段集内去掉重复序列,避免序列之间不平衡,避免某一类占比过大会影响预测的准确性,同时能够减少训练量,减少训练误差。
步骤七、舍弃人的参考基因组序列各片段集中含有“N”的片段。
优选地,由于人的参考基因组序列中除了“A”、“T”、“C”、“G”四种碱基外,还有代表该位置碱基种类不确定的“N”,在数据预处理的过程中舍弃含有“N”的片段。“N”的出现是由于测序错误导致的,删除“N”的以提高模型最终的准确率、敏感性和特异性。
步骤八、将分别来自冠状病毒的训练集
Figure 292092DEST_PATH_IMAGE005
和人参考基因组的训练集
Figure 943653DEST_PATH_IMAGE006
合并为新的 训练集
Figure 520128DEST_PATH_IMAGE007
、分别来自冠状病毒的验证集
Figure 649758DEST_PATH_IMAGE008
和人的验证集
Figure 260868DEST_PATH_IMAGE009
合并为新的验证集
Figure 817751DEST_PATH_IMAGE010
、分别来自 冠状病毒的测试集
Figure 84784DEST_PATH_IMAGE011
和人的测试集
Figure 341408DEST_PATH_IMAGE012
合并为新的测试集
Figure 744708DEST_PATH_IMAGE013
,得到最终的训练集
Figure 534809DEST_PATH_IMAGE007
、验证 集
Figure 289139DEST_PATH_IMAGE010
和测试集
Figure 26150DEST_PATH_IMAGE013
,分别用于模型的训练、验证和测试。
优选地,所述最终的训练集、验证集和测试集中均包括冠状病毒序列片段和人的参考基因组序列片段。
所述训练集配置用于模型的训练,所述验证集配置用于验证每次迭代完成后模型的效果,所述测试集配置用于衡量该最优模型的性能和分类能力。
建立基于冠状病毒序列的独立测试集
Figure 346273DEST_PATH_IMAGE004
的具体步骤如下:
步骤A:建立冠状病毒的原始独立测试集;
步骤B:设置原始独立测试集的冠状病毒序列片段的片段长度,将冠状病毒独立测试集的数据转化成连续的子序列,获取一个样本子集。
优选地,将滑动窗口的长度,即,冠状病毒序列片段的片段长度设置为150个碱基,步长为1,在独立测试集内的冠状病毒序列上连续滑动取值,获得多个长度为150个碱基的核酸序列,使其与模拟测序数据的序列长度相等。
步骤C:将步骤B中所获得的冠状病毒的样本子集进行去重处理以去掉重复序列,避免序列之间不平衡,避免某一类占比过大会影响预测的准确性。
步骤D、舍弃冠状病毒全基因组序列中含有“N”的片段,得到冠状病毒独立测试集。
优选地,由于冠状病毒全基因组序列中除了“A”、“T”、“C”、“G”四种碱基外,还有代表该位置碱基种类不确定的“N”,在数据预处理的过程中舍弃含有“N”的片段。“N”的出现是由于测序错误导致的,删除“N”的以提高模型最终的准确率、敏感性和特异性。
优选地,对逐个的子样本集进行测试,如果发现“N”就舍弃,没有“N”就保留,由此,将各个数据集中含有“N”的序列片段舍去。
具体地,针对2019-nCoV序列,将滑动窗口长度设置为150个碱基,步长为1,在2019-nCoV的序列上连续滑动取值,获得多个长度为150个碱基的核酸序列。
S3:对最终用于模型的训练集、验证集和测试集进行编码,使每条序列向量化;建立训练冠状病毒序列的分类模型;并对独立测试集进行编码处理,使序列向量化。
进一步地,在冠状病毒样本高通量测序模拟数据集上,把每一个碱基作为一个特征,每条序列包含150个特征,然后对每个特征进行one-hot编码,使每条序列向量化。
优选地,需要进行编码的对象包括S2中最终得到的训练集、验证集、测试集以及独立测试集中的每一条序列。
优选地,所述分类训练模型包括核酸序列单元、one-hot编码单元、GRU单元、线性层、以及Sigmoid函数层。优选地,所述分类训练模型从左到右依次为核酸序列单元、one-hot编码单元、GRU单元、线性层、以及Sigmoid函数层,其具体结构如图2所示。
优选地,对训练集
Figure 244959DEST_PATH_IMAGE007
、验证集
Figure 283322DEST_PATH_IMAGE010
、测试集
Figure 824025DEST_PATH_IMAGE013
和独立测试集
Figure 936338DEST_PATH_IMAGE004
中每条序列中每一个碱 基进行one-hot编码后,最终训练集
Figure 84553DEST_PATH_IMAGE007
、验证集
Figure 282317DEST_PATH_IMAGE010
、测试集
Figure 626710DEST_PATH_IMAGE013
和独立测试集
Figure 655846DEST_PATH_IMAGE004
中每条序列变 成包含150个碱基编码的向量,其中one-hot表示如下:
Figure 161914DEST_PATH_IMAGE090
Figure 909290DEST_PATH_IMAGE091
Figure 526216DEST_PATH_IMAGE092
,小写字母o表示
Figure 878700DEST_PATH_IMAGE093
向量中每一维度只能选0或者是1;
Figure 617986DEST_PATH_IMAGE094
Figure 790341DEST_PATH_IMAGE095
Figure 522543DEST_PATH_IMAGE096
Figure 463954DEST_PATH_IMAGE097
表示训练集
Figure 577403DEST_PATH_IMAGE007
、验证集
Figure 299372DEST_PATH_IMAGE010
、测试集
Figure 258101DEST_PATH_IMAGE013
或独立测试集
Figure 381914DEST_PATH_IMAGE004
中每条序列的集合,
Figure 400686DEST_PATH_IMAGE093
表示集合
Figure 547633DEST_PATH_IMAGE098
中第
Figure 372370DEST_PATH_IMAGE022
个向量,
Figure 288373DEST_PATH_IMAGE093
是四维向量,
Figure 743626DEST_PATH_IMAGE037
表示向量的第
Figure 190919DEST_PATH_IMAGE037
维,
Figure 553767DEST_PATH_IMAGE099
表示第
Figure 855435DEST_PATH_IMAGE037
维的数值,
Figure 216009DEST_PATH_IMAGE023
为狄拉克函数,
Figure 134287DEST_PATH_IMAGE024
表示第
Figure 238509DEST_PATH_IMAGE024
类碱基。
优选地,所述分类模型如下所示,
Figure 440689DEST_PATH_IMAGE025
Figure 237744DEST_PATH_IMAGE026
Figure 581000DEST_PATH_IMAGE027
Figure 285651DEST_PATH_IMAGE028
其中,
Figure 30753DEST_PATH_IMAGE029
表示权重,
Figure 795447DEST_PATH_IMAGE022
表示第
Figure 891579DEST_PATH_IMAGE022
个,
Figure 337604DEST_PATH_IMAGE030
表示时间,
Figure 999529DEST_PATH_IMAGE031
表示Sigmoid函数,
Figure 872807DEST_PATH_IMAGE032
表示哈达玛积,
Figure 456235DEST_PATH_IMAGE033
表 示偏置,tanh是tanh函数,
Figure 519001DEST_PATH_IMAGE034
表示隐层的状态,
Figure 973116DEST_PATH_IMAGE035
表示输入,
Figure 79612DEST_PATH_IMAGE036
分别是重置门,更新门,
Figure 150336DEST_PATH_IMAGE037
表示 循环神经网络中的一个中间状态。
Figure 938164DEST_PATH_IMAGE038
表示
Figure 574681DEST_PATH_IMAGE030
时刻重置门的状态,
Figure 789762DEST_PATH_IMAGE039
表示第
Figure 144520DEST_PATH_IMAGE022
个重置门
Figure 736038DEST_PATH_IMAGE040
的权 重,
Figure 164746DEST_PATH_IMAGE041
表示
Figure 127891DEST_PATH_IMAGE030
时刻的输入,
Figure 642049DEST_PATH_IMAGE042
表示第
Figure 37258DEST_PATH_IMAGE022
个重置门
Figure 648368DEST_PATH_IMAGE040
的偏置,
Figure 205252DEST_PATH_IMAGE043
表示第
Figure 269023DEST_PATH_IMAGE044
个隐层状态重置门
Figure 202343DEST_PATH_IMAGE040
的 权重,
Figure 871222DEST_PATH_IMAGE045
表示
Figure 661324DEST_PATH_IMAGE046
时刻隐层的状态,
Figure 150074DEST_PATH_IMAGE047
表示第
Figure 182359DEST_PATH_IMAGE044
个隐层状态重置门
Figure 971323DEST_PATH_IMAGE040
的偏置,
Figure 932326DEST_PATH_IMAGE048
表示
Figure 970689DEST_PATH_IMAGE030
时刻更新门的状态,
Figure 26238DEST_PATH_IMAGE049
表示第
Figure 404130DEST_PATH_IMAGE022
个更新门
Figure 536034DEST_PATH_IMAGE050
的权重,
Figure 264956DEST_PATH_IMAGE100
表示第
Figure 78191DEST_PATH_IMAGE022
个更新门
Figure 372906DEST_PATH_IMAGE050
的偏置,
Figure 878974DEST_PATH_IMAGE101
表示 第
Figure 829612DEST_PATH_IMAGE044
个隐层状态更新门
Figure 508855DEST_PATH_IMAGE050
的权重,
Figure 595760DEST_PATH_IMAGE102
表示第
Figure 85778DEST_PATH_IMAGE044
个隐层状态更新门
Figure 258134DEST_PATH_IMAGE050
的偏置,
Figure 678751DEST_PATH_IMAGE054
表示
Figure 948058DEST_PATH_IMAGE030
时刻的中 间状态,
Figure 795928DEST_PATH_IMAGE055
表示第
Figure 517897DEST_PATH_IMAGE022
个中间状态
Figure 476625DEST_PATH_IMAGE037
的权重,
Figure 334860DEST_PATH_IMAGE056
表示第
Figure 619211DEST_PATH_IMAGE022
个中间状态
Figure 766158DEST_PATH_IMAGE037
的偏置,
Figure 851881DEST_PATH_IMAGE057
表示第
Figure 767885DEST_PATH_IMAGE044
个隐层状态中间状态
Figure 957558DEST_PATH_IMAGE037
的权重,
Figure 654118DEST_PATH_IMAGE058
表示第
Figure 954649DEST_PATH_IMAGE044
个隐层状态中间状态
Figure 53055DEST_PATH_IMAGE037
的偏置,
Figure 413630DEST_PATH_IMAGE059
表示
Figure 535169DEST_PATH_IMAGE030
时刻隐 层的状态;
线性层:
Figure 701709DEST_PATH_IMAGE103
其中x为分类模型输出的集合,y为集合转换的数值,w为权重,b为偏置。
Sigmoid函数层:
Figure 326725DEST_PATH_IMAGE104
其中,y为线性层的输出,
Figure 671250DEST_PATH_IMAGE050
为该序列的最终得分。
优选地,保证每个特征向量与其他特征向量之间的距离相同,避免特征与特征之间出现人为的误差。
根据每条序列包含150个特征,以及既往的经验,因此将GRU隐层单元数的范围设置为[128,512],通过选定范围,可以极大的缩小训练时间,最终通过网格搜索策略,将GRU隐层的单元数设置为256。在GRU单元的后面设置线性层,通过该线性层将GRU计算单元的高维输出转换为低维,最后通过Sigmoid函数将线性层的输出映射到[0,1]之间。
S4:对S3中所建立的模型进行修正;
优选地,GRU模型中的参数每迭代一次后,该模型都会对训练集中的样本数据输出模型预测的结果,得到模型预测结果与实际结果的交叉熵,
具体地,当其交叉熵小于0.001时或训练集和验证集的准确率分别能够达到99.99%和99.90%以及验证集的敏感性和特异性分别达到99.92%和99.88%时,停止训练。
优选地,通过Adam算法更新GRU模型中的参数
Figure 280086DEST_PATH_IMAGE062
,即,每个一个神经元的权重。不 断循环这个过程,直到找到局部最优解。
具体地,交叉熵损失L的表示如下:
Figure 187999DEST_PATH_IMAGE063
Figure 995418DEST_PATH_IMAGE064
Figure 697795DEST_PATH_IMAGE065
其中,
Figure 590664DEST_PATH_IMAGE066
表示交叉熵损失,
Figure 302268DEST_PATH_IMAGE067
表示真实标签,
Figure 901877DEST_PATH_IMAGE068
表示预测标签,
Figure 837472DEST_PATH_IMAGE069
表示序列的最终得 分。
具体地,由图3A至图3D可知,随着迭代次数的增长,训练集和验证集的准确率分别能够达到99.99%和99.90%,也就是说训练集的准确率能够达到99.99%,验证集的准确率能够达到99.90%。更近一步地,验证集的敏感性达到99.92%,验证集的特异性99.88%。
通过以下公式对模型的准确率(Accuracy,Acc)、敏感性(Sensitivity,Sen)和特异性(Specificity,Spe)进行计算:
Figure 155321DEST_PATH_IMAGE105
Figure 405036DEST_PATH_IMAGE106
Figure 436315DEST_PATH_IMAGE107
其中TP表示真阳性(True Positive),TN表示真阴性(True Negative),FP表示假阳性(False Positive),FN表示假阴性(False Negative)。
S5:统计该模型对测试集,即将冠状病毒序列与人的基因组序列合并以后的测试集,每条序列的输出分值,同时计算每条序列的准确率、敏感性和特异性,验证该模型最终的效果;并根据该输出分值的分布情况设置拒识区间,以便减少误差;
优选地,对该输出分值进行统计分析,图3A至图3D中给出了测试集中序列的得分分布情况,可知,99.78%的测试集冠状病毒序列得分≥0.9,而99.28%的测试集人基因组片段得分≤0.1。
输出分值在0.2-0.8之间时,判断序列既不是冠状病毒也不是人基因组序列。
优选地,拒识区间为(0.2,0.8),优选地,为了避免通过二分类模型对冠状病毒序列做出“非此即彼”的判断,计算该模型对测试集中每条序列的输出分值。
图3A的横坐标
Figure 480495DEST_PATH_IMAGE108
表示模型的迭代次数,纵坐标
Figure 613536DEST_PATH_IMAGE109
表示训练集的准确率,其中
Figure 463680DEST_PATH_IMAGE110
图3B的横坐标
Figure 37881DEST_PATH_IMAGE108
表示模型的迭代次数,纵坐标
Figure 66011DEST_PATH_IMAGE109
表示验证集的准确率,其中
Figure 358452DEST_PATH_IMAGE111
图3C的横坐标
Figure 949970DEST_PATH_IMAGE108
表示模型的迭代次数,纵坐标
Figure 440994DEST_PATH_IMAGE109
表示验证集的敏感性,其中
Figure 826976DEST_PATH_IMAGE112
图3D的横坐标
Figure 669030DEST_PATH_IMAGE108
表示模型的迭代次数,纵坐标
Figure 64240DEST_PATH_IMAGE109
表示验证集的特异性,其中
Figure 347454DEST_PATH_IMAGE113
S7:当输出分值≥0.8时,判断序列为冠状病毒序列;当输出分值≤0.2时,判断序列为人基因组序列。
实施例1
(1)冠状病毒感染者样本高通量测序模拟数据集
本实例中选择冠状病毒全基因组序列以及人hg38参考基因组序列构建冠状病毒感染者样本的模拟高通量测序数据,再对模型进行训练、验证和测试。我们共获得2621条冠状病毒全基因组序列(不包含2019-nCoV)、2779人参考基因组染色体序列以及50条2019-nCoV序列,如表1所示。
表1冠状病毒和人全基因组序列数量
Figure 232233DEST_PATH_IMAGE114
*不包含2019-nCoV
将冠状病毒基因组序列按照90:5:5比例随机分组后,采用150nt滑窗取序列片段,去除重复,同时在人基因组中随机选取同等数量的150nt片段,去除包含‘N’的序列片段后,最终得到训练集、验证集、测试集和独立测试集的片段数分别为20,988,873条、3,510,806条、3,259,979条和142,670条,如表2所示。
表2预处理后的序列数量
Figure 233687DEST_PATH_IMAGE115
在冠状病毒样本高通量测序模拟数据集上,本研究把每一个碱基作为一个特征,因此每条序列包含150个特征,然后对每个特征进行one-hot编码,使每条序列向量化,保证每个特征向量与其他特征向量之间的距离相同,避免特征与特征之间出现人为的误差。将GRU隐层的单元数设置为256。我们在GRU单元的后面加入一个线性层,该层将GRU计算单元的高维输出转换为低维,最后通过Sigmoid函数将线性层的输出映射到[0,1]之间,将结果大于0.5的序列判断为冠状病毒序列,如图2所示。同时将数据批处理大小设置为5000。优选地,由于显存的大小为11GB,因此,将数据批处理大小设置为5000。
得到训练集准确率、验证集准确率、验证集敏感性特异性与迭代次数的关系。从图3A至图3D中可以看出,随着迭代次数的增长,训练集和验证集的准确率分别能够达到99.99%和99.90%。验证集的敏感性和特异性分别达到99.92%和99.88%。随后,用测试集对模型进行评估。当取输出结果大于0.5的序列为冠状病毒序列时该GRU模型在测试集的准确率、敏感性和特异性分别为99.89%、99.85%和99.94%,如表3所示。
表3模型的性能
Figure 478592DEST_PATH_IMAGE116
针对构建的是二分类模型,为了避免对序列做出“非此即彼”的判断,设置拒识区间。观测了该模型对测试集每条序列的输出分值。结果显示,99.78%的测试集冠状病毒序列得分为≥0.9,例如,得分为[0.9,1],而99.28%的测试集人基因组片段得分≤0.1,例如,得分为[0,0.1],如图4所示。因此,设置该GRU模型的拒识区间为(0.2,0.8),也就是说,当输出分值≥0.8时,判断序列为冠状病毒序列;当输出分值≤0.2时,判断序列为人基因组序列;当输出分值在0.2-0.8之间时,判断序列既不是冠状病毒也不是人基因组序列,具体地,判断序列为其他物种序列。
使用由新型冠状病毒2019-nCoV构成的独立测试集在分发明的模型、Kraken(Version1.1.1)和Megablast(Version2.9.0)上进行性能比较。Kraken是一个使用k-mers精确比对的序列分类软件,能够对宏基因组序列进行分类,是目前用于宏基因组序列分类的最常用软件之一,也是速度最快的序列分类工具之一。Megablast是经典的序列比对算法,具有很好的性能,且在序列比对中广泛应用。对于Kraken与Megablast,使用人hg38参考基因组序列和不包含2019-nCoV的所有冠状病毒序列构建比对数据库。GRU模型采用(0.2,0.8)的拒识区间,Kraken和Megablast均使用默认参数,最终得到三个工具在独立测试集上的结果,GRU模型、Kraken和Megablast的敏感性分别为99.81%、65.80%和74.29%,如图5。
将GRU模型对测试集的计算时间与其他几种常见方法进行了比较。如图6所示,Kraken和Megablast的计算速度来源于Wood等人的工作,GRU模型的分类速度与目前宏基因组序列分类软件“Kraken”相比,提高了约14.4%,同时大幅领先于Megablast。
优选地,本发明的配置环境要求如下所示,
GRU模型在如下的配置中进行计算:
CPU:Intel(R)Xeon(R)Silver4110CPU@2.10GHz
RAM:128GBytesMemoriaDDR42666MHz
HD:4TSATA
GPU:NVIDIARTX2080Ti11GVideoMemory
OS:Ubuntu18.04.2LTS
Kraken和Megablast在如下配置中进行:
CPU:AMDOpteron6172CPU@2.1GHz×48
RAM:252GBytes
HD:NA
GPU:NA
OS:RedHatEnterpriseLinux5
在本发明的描述中,需要说明的是,术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“连通”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接连通,也可以通过中间媒介间接连通,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。此外,在本发明的描述中,除非另有说明,“至少三个”的含义是两个或两个以上。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于门控循环单元神经网络的冠状病毒序列识别方法,其特征在于,其包括如下步骤:
S1:进行数据收集;所收集的数据包括冠状病毒序列和人的参考基因组序列;
S2:对所收集的数据进行预处理:
首先,基于S1中所收集的冠状病毒序列和人的参考基因组序列得到冠状病毒序列与人 的参考基因组序列合并后的训练集
Figure DEST_PATH_IMAGE001
、验证集
Figure DEST_PATH_IMAGE002
和测试集
Figure DEST_PATH_IMAGE003
,其中该测试集
Figure 249584DEST_PATH_IMAGE003
用于在训练过 程中模型效果的测试;其次,基于S1中所收集的冠状病毒序列,建立基于冠状病毒序列的独 立测试集
Figure DEST_PATH_IMAGE004
,所述独立测试集
Figure 714195DEST_PATH_IMAGE004
用于建立模型后对模型的效果进行验证;
S3:对S2中获得各数据集进行编码,建立冠状病毒序列的分类模型;
S4:对该模型进行修正;
S5:统计该模型对将冠状病毒序列与人的参考基因组序列合并后的测试集的每条序列的输出分值;
S6:并根据该输出分值的分布情况设置拒识区间,以便减少误差;
S7:当输出分值≥拒识区间的上限阈值时,判断序列为冠状病毒序列;当输出分值≤拒识区间的下限阈值时,判断序列为人的参考基因组序列。
2.一种如权利要求1所述的基于门控循环单元神经网络的冠状病毒序列识别方法,其特征在于,其具体步骤如下:
S1:进行数据收集,所收集的数据包括冠状病毒序列和人的参考基因组序列;
S2:对所收集的数据进行预处理:
首先,基于S1中所收集的冠状病毒序列和人的参考基因组序列得到冠状病毒序列与人 的参考基因组序列合并后的训练集
Figure 228353DEST_PATH_IMAGE001
、验证集
Figure 420300DEST_PATH_IMAGE002
和测试集
Figure 969093DEST_PATH_IMAGE003
,其中该测试集
Figure 588293DEST_PATH_IMAGE003
用于在训练过 程中模型效果的测试;其次,基于S1中所收集的冠状病毒序列,建立基于冠状病毒序列的独 立测试集
Figure 855326DEST_PATH_IMAGE004
,所述独立测试集
Figure 788647DEST_PATH_IMAGE004
用于建立模型后对模型的效果进行验证,并对该独立测试集中 的数据进行预处理;
S3:对最终用于模型的训练集、验证集和测试集进行编码,使每条序列向量化;建立训练冠状病毒序列的分类模型;并对独立测试集进行编码处理,使序列向量化;
S4:对S3中所建立的模型进行修正;
当其交叉熵小于第一阈值停止训练,或训练集的准确率达到第二阈值并且验证集的准确率能够达到第三阈值时停止训练;
S5:统计该模型对将冠状病毒序列与人的参考基因组序列合并后的测试集的每条序列的输出分值;
S6:并根据该输出分值的分布情况设置拒识区间,以便减少误差;
S7:当输出分值≥拒识区间的上限阈值时,判断序列为冠状病毒序列;当输出分值≤拒识区间的下限阈值时,判断序列为人的参考基因组序列;
S8:在独立测试集上对训练完毕的模型和拒识区间进行验证。
3.如权利要求2所述的基于门控循环单元神经网络的冠状病毒序列识别方法,其特征在于,S2中,获得冠状病毒序列与人的参考基因组序列合并后的训练集、验证集和测试集的方法步骤如下:
步骤一、对S1中所获得的冠状病毒全基因组序列按照预设比例进行划分;
步骤二、设置冠状病毒的训练集、冠状病毒的验证集以及冠状病毒的测试集内的冠状病毒序列片段的片段长度,将冠状病毒的训练集、冠状病毒的验证集以及冠状病毒的测试集中的数据转化成连续的子序列,其中,冠状病毒序列片段的片段长度设置为150个碱基,步长为1,分别在冠状病毒的训练集、冠状病毒的验证集和冠状病毒的测试集的序列上连续滑动取值,每个数据集内均获得多个长度为150个碱基的核酸序列,使其与模拟测序数据的序列长度相等;
步骤三、将步骤二中所获得的冠状病毒的各个数据集进行去重处理以去掉重复序列,避免序列之间不平衡,避免某一类占比过大会影响预测的准确性;所述数据集为冠状病毒的训练集、冠状病毒的验证集以及冠状病毒的测试集;
步骤四、冠状病毒的训练集、冠状病毒的验证集和冠状病毒的测试集中,含有“N”的序列片段舍去;
步骤五、设置人的参考基因组片段的片段长度,建立人的参考基因组序列的第一片段集、第二片段集和第三片段集,使得来自于人的参考基因组序列的核酸片段数目分别与冠状病毒的训练集、冠状病毒的验证集和冠状病毒的测试集的核酸片段数目保持一致;第一片段集为人的参考基因组序列的训练集,第二片段集为人的参考基因组序列的验证集,第三片段集为人的参考基因组序列的测试集;
步骤六、将步骤五中所获得的人的参考基因组序列各片段集去重处理以去掉重复序列,避免序列之间不平衡,避免某一类占比过大会影响预测的准确性;
步骤七、舍弃人的参考基因组序列各片段集中含有“N”的片段,提高模型最终的准确率、敏感性和特异性;
步骤八、将分别来自冠状病毒的训练集
Figure DEST_PATH_IMAGE005
和人的参考基因组序列的训练集
Figure DEST_PATH_IMAGE006
合并为新 的训练集
Figure 34690DEST_PATH_IMAGE001
、分别来自冠状病毒的验证集
Figure DEST_PATH_IMAGE007
和人的参考基因组序列的验证集
Figure DEST_PATH_IMAGE008
合并为新的 验证集
Figure 559212DEST_PATH_IMAGE002
、分别来自冠状病毒的测试集
Figure DEST_PATH_IMAGE009
和人的参考基因组序列的测试集
Figure DEST_PATH_IMAGE010
合并为新的测试 集
Figure 844700DEST_PATH_IMAGE003
,得到最终的训练集
Figure 316132DEST_PATH_IMAGE001
、验证集
Figure 636255DEST_PATH_IMAGE002
和测试集
Figure 800520DEST_PATH_IMAGE003
,分别用于模型的训练、验证和测试。
4.如权利要求3所述的基于门控循环单元神经网络的冠状病毒序列识别方法,其特征在于,在步骤五中,在人的参考基因组序列中随机选取位点,保持150个碱基长度不变,进行取值。
5.如权利要求4所述的基于门控循环单元神经网络的冠状病毒序列识别方法,其特征 在于,S2中,建立基于冠状病毒序列的独立测试集
Figure 589616DEST_PATH_IMAGE004
的具体步骤如下:
步骤A:建立冠状病毒的原始独立测试集;
步骤B:设置原始独立测试集的冠状病毒序列片段的片段长度,将冠状病毒独立测试集的数据转化成连续的子序列,构成基于冠状病毒序列的一个样本子集;
步骤C:将步骤B中所获得的冠状病毒的样本子集进行去重处理以去掉重复序列,避免序列之间不平衡,避免某一类占比过大会影响预测的准确性;
步骤D、舍弃所得到的冠状病毒序列中含有“N”的片段,得到基于冠状病毒序列的独立 测试集
Figure 864739DEST_PATH_IMAGE004
6.如权利要求5所述的基于门控循环单元神经网络的冠状病毒序列识别方法,其特征在于,所述分类模型包括核酸序列单元、one-hot编码单元、GRU单元、线性层、以及Sigmoid函数层;所述分类模型从左到右依次为核酸序列单元、one-hot编码单元、GRU单元、线性层、以及Sigmoid函数层,在GRU单元的后面设置线性层,通过该线性层将GRU单元的高维输出转换为低维,最后通过Sigmoid函数将线性层的输出映射到[0,1]之间。
7.如权利要求6所述的基于门控循环单元神经网络的冠状病毒序列识别方法,其特征在于,将GRU隐层单元数的范围设置为[128,512]。
8.如权利要求7中所述的基于门控循环单元神经网络的冠状病毒序列识别方法,其特征在于,拒识区间为(0.2,0.8),当输出分值≥0.8时,判断序列为冠状病毒序列;当输出分值≤0.2时,判断序列为人基因组序列。
9.如权利要求8所述的基于门控循环单元神经网络的冠状病毒序列识别方法,其特征在于,当0.2<输出分值<0.8时,判断序列为其他物种序列。
CN202010537286.2A 2020-06-12 2020-06-12 基于门控循环单元神经网络的冠状病毒序列识别方法 Active CN111785328B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010537286.2A CN111785328B (zh) 2020-06-12 2020-06-12 基于门控循环单元神经网络的冠状病毒序列识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010537286.2A CN111785328B (zh) 2020-06-12 2020-06-12 基于门控循环单元神经网络的冠状病毒序列识别方法

Publications (2)

Publication Number Publication Date
CN111785328A true CN111785328A (zh) 2020-10-16
CN111785328B CN111785328B (zh) 2021-11-23

Family

ID=72756177

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010537286.2A Active CN111785328B (zh) 2020-06-12 2020-06-12 基于门控循环单元神经网络的冠状病毒序列识别方法

Country Status (1)

Country Link
CN (1) CN111785328B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112599196A (zh) * 2020-12-21 2021-04-02 北京诺赛基因组研究中心有限公司 构建对核酸序列进行分类的模型方法及其应用
CN112735604A (zh) * 2021-01-13 2021-04-30 大连海事大学 一种基于深度学习算法的新型冠状病毒分类方法
CN112766352A (zh) * 2021-01-13 2021-05-07 大连海事大学 一种基于极端梯度提升算法的新型冠状病毒分类方法
CN112863599A (zh) * 2021-03-12 2021-05-28 南开大学 一种病毒测序序列的自动化分析方法及系统
CN113096740A (zh) * 2020-12-21 2021-07-09 北京诺赛基因组研究中心有限公司 使用机器学习对核酸序列进行分类的方法
CN113299345A (zh) * 2021-06-30 2021-08-24 中国人民解放军军事科学院军事医学研究院 病毒基因分类的方法、装置及电子设备
CN113362901A (zh) * 2021-05-14 2021-09-07 海南大学 快速进行全基因组注释区间比较的方法及系统
CN114496297A (zh) * 2022-02-07 2022-05-13 上海图灵智算量子科技有限公司 量子门控循环神经网络预测新冠疫苗稳定性的方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101320404A (zh) * 2007-06-06 2008-12-10 中国科学院半导体研究所 一种生物病毒的计算机自动分类方法
CN106033502A (zh) * 2015-03-20 2016-10-19 深圳华大基因股份有限公司 鉴定病毒的方法和装置
WO2017004448A1 (en) * 2015-07-02 2017-01-05 Indevr, Inc. Methods of processing and classifying microarray data for the detection and characterization of pathogens
CN108829763A (zh) * 2018-05-28 2018-11-16 电子科技大学 一种基于深度神经网络的影评网站用户的属性预测方法
CN111048151A (zh) * 2019-11-19 2020-04-21 中国人民解放军疾病预防控制中心 一种病毒亚型识别方法、装置、电子设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101320404A (zh) * 2007-06-06 2008-12-10 中国科学院半导体研究所 一种生物病毒的计算机自动分类方法
CN106033502A (zh) * 2015-03-20 2016-10-19 深圳华大基因股份有限公司 鉴定病毒的方法和装置
WO2017004448A1 (en) * 2015-07-02 2017-01-05 Indevr, Inc. Methods of processing and classifying microarray data for the detection and characterization of pathogens
CN108829763A (zh) * 2018-05-28 2018-11-16 电子科技大学 一种基于深度神经网络的影评网站用户的属性预测方法
CN111048151A (zh) * 2019-11-19 2020-04-21 中国人民解放军疾病预防控制中心 一种病毒亚型识别方法、装置、电子设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JUNYOUNG C.等: "Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling", 《ARXIV》 *
卢康 等: "从高通量测序数据中快速鉴定冠状病毒序列的循环神经网络模型", 《军事医学》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113096740A (zh) * 2020-12-21 2021-07-09 北京诺赛基因组研究中心有限公司 使用机器学习对核酸序列进行分类的方法
CN112599196A (zh) * 2020-12-21 2021-04-02 北京诺赛基因组研究中心有限公司 构建对核酸序列进行分类的模型方法及其应用
CN112599196B (zh) * 2020-12-21 2021-11-05 北京诺赛基因组研究中心有限公司 构建对核酸序列进行分类的模型方法及其应用
CN112735604B (zh) * 2021-01-13 2024-03-26 大连海事大学 一种基于深度学习算法的新型冠状病毒分类方法
CN112735604A (zh) * 2021-01-13 2021-04-30 大连海事大学 一种基于深度学习算法的新型冠状病毒分类方法
CN112766352A (zh) * 2021-01-13 2021-05-07 大连海事大学 一种基于极端梯度提升算法的新型冠状病毒分类方法
CN112766352B (zh) * 2021-01-13 2024-03-29 大连海事大学 一种基于极端梯度提升算法的新型冠状病毒分类方法
CN112863599A (zh) * 2021-03-12 2021-05-28 南开大学 一种病毒测序序列的自动化分析方法及系统
CN113362901A (zh) * 2021-05-14 2021-09-07 海南大学 快速进行全基因组注释区间比较的方法及系统
CN113362901B (zh) * 2021-05-14 2023-09-01 海南大学 快速进行全基因组注释区间比较的方法及系统
CN113299345A (zh) * 2021-06-30 2021-08-24 中国人民解放军军事科学院军事医学研究院 病毒基因分类的方法、装置及电子设备
CN113299345B (zh) * 2021-06-30 2024-05-07 中国人民解放军军事科学院军事医学研究院 病毒基因分类的方法、装置及电子设备
CN114496297A (zh) * 2022-02-07 2022-05-13 上海图灵智算量子科技有限公司 量子门控循环神经网络预测新冠疫苗稳定性的方法及装置

Also Published As

Publication number Publication date
CN111785328B (zh) 2021-11-23

Similar Documents

Publication Publication Date Title
CN111785328B (zh) 基于门控循环单元神经网络的冠状病毒序列识别方法
Ij Statistics versus machine learning
Liu et al. RNN-VirSeeker: a deep learning method for identification of short viral sequences from metagenomes
CN114424287A (zh) 单细胞rna-seq数据处理
CN116092598A (zh) 基于流形正则化非负矩阵分解的抗病毒药物筛选方法
CN112259167A (zh) 基于高通量测序的病原体分析方法、装置和计算机设备
Liu et al. Mixed-Weight Neural Bagging for Detecting $ m^ 6A $ Modifications in SARS-CoV-2 RNA Sequencing
Huang et al. Cause of gene tree discord? Distinguishing incomplete lineage sorting and lateral gene transfer in phylogenetics
CN112908414B (zh) 一种大规模单细胞分型方法、系统及存储介质
Khodaei et al. Identification and classification of coronavirus genomic signals based on linear predictive coding and machine learning methods
Souza et al. Detecting clustered independent rare variant associations using genetic algorithms
Muflikhah et al. Profiling DNA sequence of SARS-Cov-2 virus using machine learning algorithm
Chan et al. Evaluation of dynamic time warp barycenter averaging (DBA) for its potential in generating a consensus nanopore signal for genetic and epigenetic sequences
US20220367011A1 (en) Identification of unknown genomes and closest known genomes
CN116959561B (zh) 一种基于神经网络模型的基因相互作用预测方法和装置
Hsu et al. High-performance virus detection system by using deep learning
Nie et al. Evolution-guided large language model is a predictor of virus mutation trends
Luo et al. Triple-view Learning for Predicting Antibiotic Resistance Genes
Marić et al. Approaches to metagenomic classification and assembly
Chen et al. Forest Fire Clustering: Iterative Label Propagation Clustering and Monte Carlo Validation for Single-cell Sequencing Analysis
Chen et al. Forest Fire Clustering for Single-cell Sequencing with Iterative Label Propagation and Parallelized Monte Carlo Simulation
Rafi et al. Predicting Novel Coronavirus (nCoV) strains detecting the mutation process applying neural networking
Kim et al. Pre-processing SARS-CoV-2 Sequence Data for Application of Machine Learning Techniques for Visualization and Clustering of Virus Characteristics
CN116344067A (zh) 流感易感标志物和基于该标志物的流感高危人群预测模型的构建方法与应用
Rakesh et al. Enhancing Classification Accuracy and Speed with ML-DSP: A Game-Changer in Genomic Sequence Analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant