CN111048151B - 一种病毒亚型识别方法、装置、电子设备及存储介质 - Google Patents

一种病毒亚型识别方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN111048151B
CN111048151B CN201911146286.3A CN201911146286A CN111048151B CN 111048151 B CN111048151 B CN 111048151B CN 201911146286 A CN201911146286 A CN 201911146286A CN 111048151 B CN111048151 B CN 111048151B
Authority
CN
China
Prior art keywords
gene sequence
sequence
virus
sample
target gene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911146286.3A
Other languages
English (en)
Other versions
CN111048151A (zh
Inventor
李鹏
刘宇奇
宋宏彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinese Pla Center For Disease Control & Prevention
Original Assignee
Chinese Pla Center For Disease Control & Prevention
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chinese Pla Center For Disease Control & Prevention filed Critical Chinese Pla Center For Disease Control & Prevention
Priority to CN201911146286.3A priority Critical patent/CN111048151B/zh
Publication of CN111048151A publication Critical patent/CN111048151A/zh
Application granted granted Critical
Publication of CN111048151B publication Critical patent/CN111048151B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Abstract

本申请提供一种病毒亚型识别方法、装置、电子设备及存储介质,方法包括:对待识别病毒的至少一基因序列进行拆分处理,得到至少一基因序列中每个基因序列对应的目标基因序列;利用预设的基因向量库对目标基因序列进行索引,得到至少一基因序列中每个基因序列对应的序列向量;将所有序列向量输入预设的病毒分类神经网络模型,根据病毒分类神经网络模型的输出结果确定待识别病毒的亚型。通过对病毒基因进行拆分处理来增加基因序列的特征有效性,利用向量序列来表征基因序列可以降低亚型识别过程的误差率,使用病毒分类神经网络模型对序列向量进行识别,可以更加准确地得到待识别病毒的亚型,并且根据病毒的亚型对该病毒进行针对性的防护。

Description

一种病毒亚型识别方法、装置、电子设备及存储介质
技术领域
本申请涉及生物基因领域,具体而言,涉及一种病毒亚型识别方法、装置、电子设备及存储介质。
背景技术
流感是由流感病毒引起的人畜共患急性呼吸道传染病,每年在全球范围内造成25~50万人死亡,其中威胁最大的是甲型流感,病毒具有变异快、宿主种类丰富等特点,且常出现跨宿主传播,难以有效预防。而病毒根据血凝素(Hemagglutinin,HA)和神经氨酸酶(Neuraminidase,NA)抗原特性的不同,可分为多种亚型,不同亚型的病毒具有不同的致病性和传染性,部分亚型对公共健康构成了巨大威胁。
而现有的病毒识别方法是通过采用特异性抗体对病毒的抗原进行检测,而由于特异性抗体的特殊性,传统的病毒识别方法难以准确地确定新的病毒变异体的亚型。
发明内容
本申请实施例的目的在于提供一种病毒亚型识别方法、装置、电子设备及存储介质,以改善传统的病毒识别方法检测病毒的亚型不够准确的问题。
第一方面,本申请实施例提供了一种病毒亚型识别方法,包括:对待识别病毒的至少一基因序列进行拆分处理,得到所述至少一基因序列中每个基因序列对应的目标基因序列;利用预设的基因向量库对所述目标基因序列进行索引,得到所述至少一基因序列中每个基因序列对应的序列向量;将所有序列向量输入预设的病毒分类神经网络模型,根据所述病毒分类神经网络模型的输出结果确定所述待识别病毒的亚型。
本申请实施例通过对病毒基因进行拆分处理来增加基因序列的特征有效性,利用向量序列来表征基因序列可以降低亚型识别过程的误差率,使用病毒分类神经网络模型对序列向量进行识别,由此可以更加准确地得到待识别病毒的亚型,并且根据病毒的亚型对该病毒进行针对性的防护。
进一步地,所述对待识别病毒的至少一基因序列进行拆分处理,得到所述至少一基因序列中每个基因序列对应的目标基因序列,包括:获取所述待识别病毒的至少一基因序列;根据三联碱基将每个基因序列拆分,得到每个基因序列对应的预设数目的目标基因序列。
本申请实施例根据三联碱基将基因序列拆分成预设数目的目标基因序列,来增加基因序列的特征的有效性,使得后续可以更加准确地利用序列向量表征基因序列。
进一步地,所述预设数目的目标基因序列包括第一目标基因序列、第二目标基因序列和第三目标基因序列;所述根据三联碱基将每个基因序列拆分,得到每个基因序列对应的预设数目的目标基因序列,包括:从每个基因序列的第一个碱基、第二个碱基和第三个碱基开始,以三联碱基为单位,将每个基因序列拆分成对应的第一目标基因序列、第二目标基因序列和第三目标基因序列。
本申请实施例通过从基因序列的第一个碱基、第二个碱基和第三个碱基开始将基因序列拆分成三条目标基因序列,来增加基因序列的特征的有效性,使得后续可以更加准确地利用序列向量表征基因序列。
进一步地,所述利用预设的基因向量库对所述目标基因序列进行索引,得到所述至少一基因序列中每个基因序列对应的序列向量,包括:利用所述基因向量库对每个基因序列对应的各目标基因序列分别进行索引,得到各目标基因序列对应的序列矩阵,所述序列矩阵包括多个子序列向量;分别将各序列矩阵中的多个子序列向量对应进行加和平均,得到各目标基因序列对应的目标序列向量;将每个基因序列对应的所有目标序列向量进行加和平均,得到每个基因序列对应的序列向量。
本申请实施例通过利用基因向量库对各目标基因序列进行索引,并对得到的多个子序列向量进行整合,由此,来增加序列向量的精度,序列向量可以更加准确地表征待识别病毒的特征。
进一步地,所述利用预设的基因向量库对所述目标基因序列进行索引之前,所述方法还包括:获取多个病毒样本对应的样本基因序列;对各病毒样本的样本基因序列分别进行拆分处理,得到各自对应的样本目标基因序列;将所有样本目标基因序列输入CBOW模型中进行训练,得到所述基因向量库。
本申请实施例通过利用预先获得的病毒样本以及对应的样本目标基因序列,对CBOW模型进行训练,以得到基因向量库,使得后续可以更加准确地对待识别病毒的目标基因序列进行索引,得到的序列向量可以更加准确地对目标基因序列进行表征。
进一步地,所述对各病毒样本的样本基因序列分别进行拆分处理,得到各自对应的样本目标基因序列,包括:根据三联碱基将各病毒样本的样本基因序列拆分,得到各病毒样本对应的预设数目的样本目标基因序列。
本申请实施例根据三联碱基将样本基因序列拆分成预设数目的样本目标基因序列,来增加样本基因序列的特征的有效性,使得后续训练得到的基因向量库可以更加准确地对样本基因序列进行索引。
进一步地,所述各病毒样本对应的预设数目的样本目标基因序列包括:第一样本目标基因序列、第二样本目标基因序列和第三样本目标基因序列;所述根据三联碱基将各病毒样本的样本基因序列拆分,得到各病毒样本对应的预设数目的样本目标基因序列,包括:分别从所述样本基因序列的第一个碱基、第二个碱基和第三个碱基开始,以三联碱基为单位,将所述样本基因序列拆分成对应的第一样本目标基因序列、第二样本目标基因序列和第三样本目标基因序列。
本申请实施例通过从样本基因序列的第一个碱基、第二个碱基和第三个碱基开始将样本基因序列拆分成三条样本目标基因序列,来增加基因序列的特征的有效性,使得后续可以更加准确地利用序列向量表征基因序列。
进一步地,所述病毒分类神经网络模型包括至少一池化卷积层和至少一分类层;所述将所有序列向量输入预设的病毒分类神经网络模型,根据所述病毒分类神经网络模型的输出结果确定所述待识别病毒的亚型,包括:将所有序列向量进行拆分再拼接,得到所有序列向量中每个序列向量对应的拼接矩阵;利用所述池化卷积层对所述拼接矩阵进行特征提取,得到分别表征所有序列向量中每个序列向量的特征向量;利用所述分类层对所述特征向量进行分类,得到所述待识别病毒的亚型和宿主类别。
本申请实施例通过在病毒分类神经网络中设置池化卷积层,对拼接矩阵进行特征提取,再设置分类层将特征向量进行分类得到对应的亚型和宿主类别,使得病毒分类神经网络可以更加准确地识别出待识别病毒的亚型和宿主类别,有利于后续对病毒进行防护。
进一步地,所述至少一基因序列包括第一基因序列和第二基因序列,所述第一基因序列用于表示待识别病毒的NA基因的基因序列,所述第二基因序列用于表示待识别病毒的HA基因的基因序列;所述特征向量包括第一特征向量和第二特征向量,所述第一特征向量用于表示所述第一基因序列对应的特征向量,所述第二特征向量用于表示所述第二基因序列对应的特征向量,所述第一特征向量与所述第二特征向量对应的通道数不同。
本申请实施例利用不同的特征提取方式对不同的基因序列进行处理,得到的特征向量的通道数也不同,使得后续可以针对性地对各个基因序列对应的特征向量进行分类。
进一步地,所述分类层包括第一分类器、第二分类器和第三分类器;所述利用所述分类层对所述特征向量进行分类,包括:利用所述第一分类器对所述第一特征向量进行分类,得到所述待识别病毒的NA亚型;利用所述第二分类器和第三分类器分别对所述第二特征向量进行分类,得到所述待识别病毒的HA亚型和宿主类别。
本申请实施例利用不同的分类器对不同的特征向量进行处理,由此,可以根据不同的特征向量更加准确地识别得到对应的亚型和宿主类别。
进一步地,所述将所有序列向量输入预设的病毒分类神经网络模型之前,所述方法还包括:获取多个病毒样本对应的序列向量,以及所述病毒样本对应的亚型和宿主类别;将多个病毒样本对应的序列向量、亚型及宿主类别作为输入,对卷积神经网络进行训练,得到所述病毒分类神经网络模型。
本申请实施例通过利用病毒样本对应的序列向量、亚型和宿主类别作为输入,对卷积神经网络进行训练,以得到精度较高的病毒分类神经网络模型,使得后续病毒分类神经网络模型可以快速地、准确地识别出待识别病毒的亚型及宿主类别。
第二方面,本申请实施例提供了一种病毒亚型识别装置,包括:基因获取模块,用于对待识别病毒的至少一基因序列进行拆分处理,得到所述至少一基因序列中每个基因序列对应的目标基因序列;向量获取模块,用于利用预设的基因向量库对所述目标基因序列进行索引,得到所述至少一基因序列中每个基因序列对应的序列向量;识别模块,用于将所有序列向量输入预设的病毒分类神经网络模型,根据所述病毒分类神经网络模型的输出结果确定所述待识别病毒的亚型。
本申请实施例通过基因获取模块对病毒基因进行拆分处理来增加基因序列的特征有效性,向量获取模块利用向量序列来表征基因序列可以降低亚型识别过程的误差率,识别模块使用病毒分类神经网络模型对序列向量进行识别,由此可以更加准确地得到待识别病毒的亚型,并且根据病毒的亚型对该病毒进行针对性的防护。
进一步地,所述基因获取模块具体用于:获取所述待识别病毒的至少一基因序列;根据三联碱基将每个基因序列拆分,得到每个基因序列对应的预设数目的目标基因序列。
本申请实施例中基因获取模块根据三联碱基将基因序列拆分成预设数目的目标基因序列,来增加基因序列的特征的有效性,使得后续可以更加准确地利用序列向量表征基因序列。
进一步地,所述预设数目的目标基因序列包括第一目标基因序列、第二目标基因序列和第三目标基因序列;所述基因获取模块具体用于:从每个基因序列的第一个碱基、第二个碱基和第三个碱基开始,以三联碱基为单位,将每个基因序列拆分成对应的第一目标基因序列、第二目标基因序列和第三目标基因序列。
本申请实施例通过基因获取模块从基因序列的第一个碱基、第二个碱基和第三个碱基开始将基因序列拆分成三条目标基因序列,来增加基因序列的特征的有效性,使得后续可以更加准确地利用序列向量表征基因序列。
进一步地,所述向量获取模块具体用于:利用所述基因向量库对每个基因序列对应的各目标基因序列分别进行索引,得到各目标基因序列对应的序列矩阵,所述序列矩阵包括多个子序列向量;分别将各序列矩阵中的多个子序列向量对应进行加和平均,得到各目标基因序列对应的目标序列向量;将每个基因序列对应的所有目标序列向量进行加和平均,得到每个基因序列对应的序列向量。
本申请实施例通过向量获取模块利用基因向量库对各目标基因序列进行索引,并对得到的多个子序列向量进行整合,由此,来增加序列向量的精度,序列向量可以更加准确地表征待识别病毒的特征。
进一步地,所述装置还包括向量训练模块,所述向量训练模块用于:获取多个病毒样本对应的样本基因序列;对各病毒样本的样本基因序列分别进行拆分处理,得到各自对应的样本目标基因序列;将所有样本目标基因序列输入CBOW模型中进行训练,得到所述基因向量库。
本申请实施例通过向量训练模块利用预先获得的病毒样本以及对应的样本目标基因序列,对CBOW模型进行训练,以得到基因向量库,使得后续可以更加准确地对待识别病毒的目标基因序列进行索引,得到的序列向量可以更加准确地对目标基因序列进行表征。
进一步地,所述向量训练模块具体用于:根据三联碱基将各病毒样本的样本基因序列拆分,得到各病毒样本对应的预设数目的样本目标基因序列。
本申请实施例中的向量训练模块根据三联碱基将样本基因序列拆分成预设数目的样本目标基因序列,来增加样本基因序列的特征的有效性,使得后续训练得到的基因向量库可以更加准确地对样本基因序列进行索引。
进一步地,所述各病毒样本对应的预设数目的样本目标基因序列包括:第一样本目标基因序列、第二样本目标基因序列和第三样本目标基因序列;所述向量训练模块具体用于:分别从所述样本基因序列的第一个碱基、第二个碱基和第三个碱基开始,以三联碱基为单位,将所述样本基因序列拆分成对应的第一样本目标基因序列、第二样本目标基因序列和第三样本目标基因序列。
本申请实施例通过向量训练模块从样本基因序列的第一个碱基、第二个碱基和第三个碱基开始将样本基因序列拆分成三条样本目标基因序列,来增加基因序列的特征的有效性,使得后续可以更加准确地利用序列向量表征基因序列。
进一步地,所述病毒分类神经网络模型包括至少一池化卷积层和至少一分类层;所述识别模块具体用于:将所有序列向量进行拆分再拼接,得到所有序列向量中每个序列向量对应的拼接矩阵;利用所述池化卷积层对所述拼接矩阵进行特征提取,得到分别表征所有序列向量中每个序列向量的特征向量;利用所述分类层对所述特征向量进行分类,得到所述待识别病毒的亚型。
本申请实施例通过在病毒分类神经网络中设置池化卷积层,对拼接矩阵进行特征提取,再设置分类层将特征向量进行分类得到对应的亚型,使得识别模块可以更加准确地识别出待识别病毒的亚型和宿主类别,有利于后续对病毒进行防护。
进一步地,所述至少一基因序列包括第一基因序列和第二基因序列,所述第一基因序列用于表示待识别病毒的NA基因的基因序列,所述第二基因序列用于表示待识别病毒的HA基因的基因序列;所述特征向量包括第一特征向量和第二特征向量,所述第一特征向量用于表示所述第一基因序列对应的特征向量,所述第二特征向量用于表示所述第二基因序列对应的特征向量,所述第一特征向量与所述第二特征向量对应的通道数不同。
本申请实施例通过利用不同的特征提取方式对不同的基因序列进行处理,得到的特征向量的通道数也不同,使得后续可以针对性地对各个基因序列对应的特征向量进行分类。
进一步地,所述分类层包括第一分类器、第二分类器和第三分类器;所述识别模块具体用于:利用所述第一分类器对所述第一特征向量进行分类,得到所述待识别病毒的NA亚型;利用所述第二分类器和第三分类器分别对所述第二特征向量进行分类,得到所述待识别病毒的HA亚型和宿主类别。
本申请实施例提供的识别模块,通过利用不同的分类器对不同的特征向量进行处理,由此,可以根据不同的特征向量更加准确地识别得到对应的亚型和宿主类别。
进一步地,所述装置还包括分类训练模块,所述分类训练模块具体用于:获取多个病毒样本对应的序列向量,以及所述病毒样本对应的亚型和宿主类别;将多个病毒样本对应的序列向量、亚型及宿主类别作为输入,对卷积神经网络进行训练,得到所述病毒分类神经网络模型。
本申请实施例通过分类训练模块利用病毒样本对应的序列向量、亚型和宿主类别作为输入,对卷积神经网络进行训练,以得到精度较高的病毒分类神经网络模型,使得后续病毒分类神经网络模型可以快速地、准确地识别出待识别病毒的亚型及宿主类别。
第三方面,本申请实施例还提供了一种电子设备,包括:处理器、存储器和总线,其中,所述处理器和所述存储器通过所述总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如上述的方法。
第四方面,本申请实施例还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如上述任一项所述的方法。
本申请的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种病毒亚型识别方法的流程示意图;
图2为本申请实施例提供的一种基因向量库索引方法的流程示意图;
图3为本申请实施例提供的一种基因向量库训练方法的流程示意图;
图4为本申请实施例提供的一种病毒分类神经网络模型的结构示意图;
图5为本申请实施例提供的一种病毒亚型识别装置的结构示意图;
图6为一种可应用于本申请实施例中的电子设备的结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
下面对本实施例中需要用到的名称进行解释:
1、病毒的亚型:
首先,病毒是一种个体微小,结构简单,只含一种核酸(DNA或RNA),必须在活细胞内寄生并以复制方式增殖的非细胞型生物。流感病毒的外层有两种不同糖蛋白构成辐射状突起,即血凝素(Hemagglutinin,HA)和神经氨酸酶(Neuraminidase,NA)。由于这两种糖蛋白容易变异的性质,将病毒根据血凝素和神经氨酸酶的不同类型,来区分病毒的亚型。
2、病毒的宿主:
在病毒繁殖的过程中,病毒可以利用细胞中的物质和能量以及复制、转录和转译的能力,按照它自己的核酸所包含的遗传信息产生新一代病毒。因此,在通常情况下,是可以根据病毒的基因来追溯产生该病毒的宿主。
3、病毒的基因序列:
病毒的基因序列为一种带有遗传信息的核苷酸组合,一般有脱氧核糖核酸(DNA)、核糖核酸(RNA)和互补脱氧核糖核酸(cDNA)。其中,cDNA为与RNA链互补的单链DNA,以其RNA为模板,在适当引物的存在下,由依赖RNA的DNA聚合酶(反转录酶)作用而合成的。并且,在合成单链cDNA后,再用碱处理除去与其对应的RNA以后,以单链cDNA为模板,由依赖DNA的DNA聚合酶或依赖RNA的DNA聚合酶作用合成双链cDNA。即,根据病毒的基因序列可以对应确定病毒的血凝素和神经氨酸酶的类型,以及病毒的宿主来源,最后确定出病毒的亚型。
4.三联碱基:
三联碱基也即密码子,指在基因序列中每3个相邻的核苷酸为一组密码子,代表一种氨基酸或其他信息。在病毒利用系统进行蛋白质合成时,可以根据密码子合成对应的蛋白质。
目前,流感病毒主要有三种类型,分别是甲型流感病毒、乙型流感病毒以及丙型流感病毒,这三种病毒的流行程度相继递减,甲型通常会造成大暴发流行,乙型则是局限性流行,而丙型仅是散发,引起流行的概率非常低。
对于大部分病毒来说,病毒的亚型是根据病毒中血凝素和神经氨酸酶抗原特性的不同而划分的,而病毒的血凝素和神经氨酸酶抗原是根据病毒的基因序列生成的。不同亚型的病毒具有不同的致病性和传染性,部分亚型对公共健康构成了巨大威胁。另一方面,宿主在病毒的传播和变异中起重要作用,由于宿主种类丰富,病毒在传播过程中常出现交叉重组,对宿主来源进行追溯有助于理解病毒的演化路径,开展针对性防控和隔离。
图1为本申请实施例提供的一种病毒亚型识别方法的流程示意图,本申请实施例提供了一种病毒亚型识别方法,包括:
步骤110:对待识别病毒的至少一基因序列进行拆分处理,得到至少一基因序列中每个基因序列对应的目标基因序列。
在本申请可选的实施过程中,病毒的基因序列存在不稳定性,在繁殖的过程中,可能会出现基因序列变异,同时根据基因序列产生的蛋白质也会发生变异,使得病毒的亚型发生变化。其中,变异可能是由于在病毒繁殖的过程中基因序列插入了部分核苷酸,也可能是由于部分核苷酸丢失。因此,为了识别出病毒的亚型,可以通过对待识别病毒的基因序列进行拆分,得到多条目标基因序列,来保证基因序列具有较高有效性的特征,后续可以根据目标基因序列来确定待识别病毒的亚型。
其中,与病毒的亚型相关的基因序列可以包括DNA序列、RNA序列或者cDNA序列,进行拆分处理的基因序列的具体类型,可以根据待识别病毒遗传信息的种类进行选择。举例来说,如果待识别病毒为甲型流感病毒,简称甲流病毒,则可以对待识别的甲流病毒的HA和NA对应的cDNA序列进行拆分,得到多条目标基因序列。
值得说明的是,步骤110具体包括:获取待识别病毒的至少一基因序列;根据三联碱基将每个基因序列拆分,得到每个基因序列对应的预设数目的目标基因序列。
在本申请可选的实施过程中,由于病毒的HA与NA的类型主要是根据基因序列中三联碱基的排列组合有关。由此,可以根据三联碱基将待识别病毒的基因序列进行拆分,得到预设数目的目标基因序列。
需要说明的是,如果设定通过拆分基因序列可以得到第一目标基因序列、第二目标基因序列和第三基因序列,其中,步骤110具体包括:从每个基因序列的第一个碱基、第二个碱基和第三个碱基开始,以三联碱基为单位,将每个基因序列拆分成对应的第一目标基因序列、第二目标基因序列和第三目标基因序列。
在本申请可选的实施过程中,拆分基因序列的方式有多种,而本申请基于病毒的易变异性以及追溯病毒的宿主的需求,同时为了避免基因序列的特征有效性不足,由此,采用3-gram拆分法对基因序列进行拆分。从基因序列的第一个碱基开始,以三联碱基为单位,将基因序列拆分成第一目标基因序列。从基因序列的第二个碱基开始,以三联碱基为单位,将基因序列拆分成第二目标基因序列。从基因序列的第三个碱基开始,以三联碱基为单位,将基因序列拆分成第三目标基因序列。考虑到病毒在繁殖过程中发生变异时基因的变化情况,使得目标基因序列相较于原有的基因序列具有更多有效性的特征,以便后续对目标基因序列的处理。
值得说明的是,在对基因序列进行拆分后得到的目标基因序列可能会存在不足三个碱基的部分,则可以舍去不足三个碱基的部分。
举例来说,如果待识别的甲流病毒的HA和NA对应的基因序列中有由ABCDEFGHI组成的基因序列,每一字母代表一个碱基。则可以分别从第一个碱基、第二个碱基和第三个碱基开始将该基因序列拆分为目标基因序列X、目标基因序列Y和目标基因序列Z,同时,可以将不足三个碱基的部分进行舍去,则目标基因序列X可以为:ABC-DEF-GHI;目标基因序列Y可以为:BCD-EFG;目标基因序列Z可以为:CDE-FGH。
还可以说明的是,本申请实施例采用的是3-gram拆分法对基因序列进行拆分,而基因序列的拆分方法有多种,可以根据实际需求选择合适的拆分方法对基因序列进行拆分。
步骤120:利用预设的基因向量库对目标基因序列进行索引,得到至少一基因序列中每个基因序列对应的序列向量。
在本申请可选的实施过程中,在得到与待识别病毒对应的目标基因序列之后,为了后续利用计算的方法对基因序列进行处理,可以对目标基因序列进行表征,即将目标基因序列转换为可计算的向量。由此,可以利用预设的基因向量库对目标基因序列进行索引,来得到表征待识别病毒的序列向量。由此,通过利用向量来表征目标基因序列,可以减少人工实验的偶然误差,避免人工特征工程导致的特征有效性不足的问题。
其中,基因向量库可以根据一个碱基的前后碱基的种类和连接关系,推出该碱基对应的序列向量,也可以根据三联碱基的前后碱基组的种类和连接关系,推出该碱基对应的序列向量,还可以是根据目标基因序列的碱基种类,推出对应的序列向量。基因向量库中具体的对应关系可以根据实际需求进行调整。
图2为本申请实施例提供的一种基因向量库索引方法的流程示意图,步骤120具体包括:
步骤210:利用基因向量库对每个基因序列对应的各目标基因序列分别进行索引,得到各目标基因序列对应的序列矩阵,序列矩阵包括多个子序列向量。
步骤220:分别将各序列矩阵中的多个子序列向量对应进行加和平均,得到各目标基因序列对应的目标序列向量。
步骤230:将每个基因序列对应的所有目标序列向量进行加和平均,得到每个基因序列对应的序列向量。
在本申请可选的实施过程中,可以通过将基因向量库分别对多个目标基因序列进行表征,再对得到的多个序列矩阵进行整合,得到表征待识别病毒的序列向量。由此,通过基因向量库分别对每一目标基因序列进行索引处理,可以得到与每一目标基因序列对应的序列矩阵。其中,序列矩阵包括多个子序列向量,每一子序列向量与一个基因序列的三联碱基对应。分别将各个序列矩阵中所有的子序列向量进行加和平均,得到与序列矩阵一一对应的目标序列向量。再将所有的目标序列向量进行加和平均,得到待识别病毒的序列向量。通过采用对目标基因序列分别表征再进行整合的方式可以得到精度更高的序列向量,使得后续可以更加精确地得出待识别病毒的亚型。
值得说明的是,我们也须将子序列向量的长度设置为一致,以便后续再对子序列向量进行加和平均。而对各序列矩阵对应的所有子序列向量进行加和平均,相当于将所有子序列向量对应位置的数值求和,再求平均值,每一位置对应一个平均值,最后得到长度与子序列向量一致的目标序列向量。同时再对目标序列向量进行加和平均,相当于将所有目标序列向量对应位置的数值求和,再求平均值,每一位置对应一个平均值,得到长度与目标序列向量一致的序列向量。
其中,序列向量的长度可以为100、200、500等数值,具体的序列向量的长度可以根据实际病毒识别的需求进行选择。
图3为本申请实施例提供的一种基因向量库训练方法的流程示意图,步骤120之前,方法还包括:
步骤310:获取多个病毒样本对应的样本基因序列。
步骤320:对各病毒样本的样本基因序列分别进行拆分处理,得到各自对应的样本目标基因序列。
步骤330:将所有样本目标基因序列输入CBOW模型中进行训练,得到基因向量库。
在本申请可选的实施过程中,为了构建基因向量库,可以通过获取多个病毒样本对应的样本基因序列,对样本基因序列进行拆分,得到样本目标基因序列,再将样本目标基因型序列作为输入,对CBOW模型进行迭代训练,由此,可以得到基因向量库。
其中,在基因向量库内,一种三联碱基对应一个子序列向量,也即三联碱基向量,一条三联碱基基因序列即对应一个序列矩阵,该序列矩阵中包括多个子序列向量。
在上述实施例的基础上,步骤320具体包括:根据三联碱基将各病毒样本的样本基因序列拆分,得到各病毒样本对应的预设数目的样本目标基因序列。
在本申请可选的实施过程中,在获取到病毒样本对应的样本基因序列之后,也会根据三联碱基对样本基因序列进行拆分处理,来得到各病毒对应的预设数目的样本目标基因序列。以增加样本基因序列的特征的有效性,使得后续训练得到的基因向量库,可以更加准确地对样本基因序列进行索引。
在上述实施例的基础上,各病毒样本对应的预设数目的样本目标基因序列包括:第一样本目标基因序列、第二样本目标基因序列和第三样本目标基因序列;步骤320具体包括:分别从样本基因序列的第一个碱基、第二个碱基和第三个碱基开始,以三联碱基为单位,将样本基因序列拆分成对应的第一样本目标基因序列、第二样本目标基因序列和第三样本目标基因序列。
在本申请可选的实施过程中,还可以采用3-gram拆分法对样本基因序列进行拆分,从样本基因序列的第一个碱基开始,以三联碱基为单位,将样本基因序列拆分成第一样本目标基因序列。从样本基因序列的第二个碱基开始,以三联碱基为单位,将样本基因序列拆分成第二样本目标基因序列。从样本基因序列的第三个碱基开始,以三联碱基为单位,将样本基因序列拆分成第三样本目标基因序列。由此,使得通过拆分得到样本目标基因序列,在后续的过程中可以更加准确地对CBOW模型进行训练。
并且,具体的对于基因序列的拆分方法,在上述已经详细进行了解释,此处不再赘述。
请继续参阅图1,如图1所示,步骤130:将所有序列向量输入预设的病毒分类神经网络模型,根据病毒分类神经网络模型的输出结果确定待识别病毒的亚型。
在本申请可选的实施过程中,为了确定出待识别病毒的亚型,可以利用序列向量表征待识别病毒的基因序列,再利用训练好的病毒分类神经网络模型来对基因序列进行计算处理,由此得到待识别病毒的亚型。即,在得到待识别病毒的序列向量之后,可以利用预设的病毒分类神经网络模型对序列向量进行识别,得到待识别病毒的亚型。
由此,本申请实施例通过对病毒基因进行拆分处理来增加基因序列的特征有效性,利用向量序列来表征基因序列可以降低亚型识别过程的误差率,使用病毒分类神经网络模型对序列向量进行识别,由此可以更加准确地得到待识别病毒的亚型,可以根据病毒的亚型对该病毒进行针对性的防护。
值得说明的是,本申请中还可以通过病毒分类神经网络的输出结果确定出待识别病毒的宿主类别,根据病毒的宿主类别也可以对该病毒进行针对性的防护。
图4为本申请实施例提供的一种病毒检测模型的结构示意图,如图4所示,所述病毒分类神经网络模型包括至少一池化卷积层和至少一分类层。步骤130,包括:将所有序列向量进行拆分再拼接,得到所有序列向量中每个序列向量对应的拼接矩阵;利用所述池化卷积层对所述拼接矩阵进行特征提取,得到分别表征所有序列向量中每个序列向量的特征向量;利用所述分类层对所述特征向量进行分类,得到所述待识别病毒的亚型和宿主类别。
在本申请可选的实施过程中,卷积池化层主要是对序列向量进行特征提取,以得到特征向量,因此,卷积池化层可以包括多个卷积层和多个池化层。为了便于卷积池化层对序列向量的处理,可以将每个序列向量进行拆分再拼接,将序列向量转换为拼接矩阵。再利用卷积池化层对每个拼接矩阵进行特征提取,可以得到多个特征向量,每一特征向量表征一个拼接矩阵对应的序列向量。之后再利用分类层对特征向量进行分类处理,由此来得到待识别病毒的亚型和宿主类别。
值得说明的是,在卷积池化层进行特征提取的过程中,为了更加全面地提取出特征,通常情况下是对矩阵进行特征提取。由此,为了便于卷积池化层对序列向量进行特征提取,可以根据序列向量的长度,将序列向量拆分为等长的多个子向量,再将多个子向量对应进行拼接,即可得到拼接矩阵。其中,拼接矩阵的行数和列数可以根据序列向量的长度来进行调整。例如:长度为100的序列向量可以拆分为长度为10的10个子向量,再将10个子向量依次进行拼接,可以得到10*10的拼接矩阵。
在上述实施例的基础上,所述至少一基因序列包括第一基因序列和第二基因序列,所述第一基因序列用于表示待识别病毒的NA基因的基因序列,所述第二基因序列用于表示待识别病毒的HA基因的基因序列;所述特征向量包括第一特征向量和第二特征向量,所述第一特征向量用于表示所述第一基因序列对应的特征向量,所述第二特征向量用于表示所述第二基因序列对应的特征向量,所述第一特征向量与所述第二特征向量对应的通道数不同。
在本申请可选的实施过程中,若待识别病毒的基因序列包括NA基因的基因序列和HA基因的基因序列,其中,第一基因序列表征NA基因,第二基因序列表征HA基因,则可以利用不同的特征提取方式分别对第一基因序列和第二基因序列对应的拼接矩阵进行特征提取。即:在进行特征提取时,利用包括不同卷积核的卷积池化层分别对与第一基因序列对应的第一拼接矩阵、第二基因序列对应的第二拼接矩阵进行特征提取,得到对应的第一特征向量和第二特征向量,由此得到的第一特征向量的通道数和第二特征向量的通道数不同,以便于后续再针对性的对不同的特征向量进行更加精确地处理,可以有效地识别病毒的亚型和宿主类别。
举例来说,对于NA基因对应的第一基因序列,可以采用包括5个卷积核的卷积池化层对第一基因序列对应的第一拼接矩阵进行特征提取,得到表征第一基因序列的第一特征向量,第一特征向量有五个通道。对于HA基因对应的第二基因序列,可以采用包括11个卷积核的卷积池化层对第二基因序列对应的第二拼接矩阵进行特征提取,得到表征第二基因序列的第二特征向量,第二特征向量有11个通道。卷积池化层具体的卷积核数可以根据实际的病毒亚型和宿主类别的识别的需求进行调整。
在上述实施例的基础上,分类层包括第一分类器、第二分类器和第三分类器;利用分类层对特征向量进行分类,包括:利用第一分类器对第一特征向量进行分类,得到待识别病毒的NA亚型;利用第二分类器和第三分类器分别对第二特征向量进行分类,得到待识别病毒的HA亚型和宿主类别。
在本申请可选的实施过程中,由于不同的基因序列对应的特征向量不同以及特征向量的通道数也不同,使用不同的分类器对不同的特征向量进行分类,可以更加准确地得到分类结果,并根据分类结果更加高效地确定出待识别病毒的亚型和宿主类别。
例如,利用第一分类器对表征NA基因的特征向量进行分类,根据第一分类器的处理结果可以确定出对应的NA亚型。利用第二分类器对表征HA基因的特征向量进行分类,根据第二分类器的处理结果可以确定出对应的HA亚型。利用第三分类器再对表征HA基因的特征向量进行分类,根据第三分类器的处理结果可以确定出待识别病毒的宿主类别。
还需要说明的是,卷积池化层主要是对序列向量进行特征提取,以得到特征向量,因此,卷积池化层可以包括多个卷积层和多个池化层。同时,分类器主要使用softmax回归对特征向量进行分类。并且,在出现变异病毒对应的序列向量后,可以将新的变异病毒样本对应的序列向量、亚型及宿主类别对神经网络再次进行迭代训练,利用Adam优化器来不断更新网络参数。具体的卷积池化层与分类器的数量和结构可以根据实际需求进行调整。
还可以说明的是,宿主主要是待识别病毒产生的根源,了解宿主类别可以方便研究人员了解病毒的演化路径,从而开展针对性的防护和隔离。宿主类别主要包括:人、马、犬、猪、禽。具体的其他宿主类别可以根据实际需求进行调整。
举例来说,假设有待识别的甲流病毒的NA序列向量和HA序列向量,在将表征待识别病毒的序列向量输入至病毒分类神经网络模型后,病毒分类神经网络模型可以将序列向量分别转化为10*10的矩阵,再经过一个8层卷积的神经网络,其中每两个卷积层接一个最大池化层,最终得到的向量通过一个全局池化层,得到1*1矩阵构成的11个通道的NA序列的特征向量和5个通道的HA序列的特征向量。再通过通过softmax分类器对特征向量进行分类,最后得到通过HA特征向量得到HA亚型和宿主类别,NA特征向量得到NA亚型,将HA和NA亚型组合即可得到甲流病毒的具体亚型。
在上述任一实施例的基础上,为了构建病毒分类神经网络模型,在步骤130之前,方法还包括:获取多个病毒样本对应的序列向量,以及所述病毒样本对应的亚型和宿主类别;将多个病毒样本对应的序列向量、亚型及宿主类别作为输入,对卷积神经网络进行训练,得到所述病毒分类神经网络模型。
其中,通过预先利用多个病毒样本对应的序列向量、亚型及宿主类别作为输入,对卷积神经网络进行重复多次的训练,即可得到病毒分类神经网络模型,以便后续利用病毒分类神经网络模型对待识别病毒的序列向量进行处理,可以得到待识别病毒对应的亚型及宿主类别。同时,在对卷积神经网络进行训练的过程中,须利用Adam优化器来不断训练更新网络参数。具体的对卷积神经网络的训练的方式可以根据实际识别需求进行调整。
图5为本申请实施例提供的一种病毒亚型识别装置的结构示意图;基于同一发明构思,本申请实施例中还提供一种病毒亚型识别装置500,包括:基因获取模块510,用于对待识别病毒的至少一基因序列进行拆分处理,得到所述至少一基因序列中每个基因序列对应的目标基因序列。向量获取模块520,用于利用预设的基因向量库对所述目标基因序列进行索引,得到所述至少一基因序列中每个基因序列对应的序列向量。识别模块530,用于将所有序列向量输入预设的病毒分类神经网络模型,根据所述病毒分类神经网络模型的输出结果确定所述待识别病毒的亚型。
进一步地,基因获取模块510具体用于:获取所述待识别病毒的至少一基因序列;根据三联碱基将每个基因序列拆分,得到每个基因序列对应的预设数目的目标基因序列。
进一步地,预设数目的目标基因序列包括第一目标基因序列、第二目标基因序列和第三目标基因序列。基因获取模块510具体用于:从每个基因序列的第一个碱基、第二个碱基和第三个碱基开始,以三联碱基为单位,将每个基因序列拆分成对应的第一目标基因序列、第二目标基因序列和第三目标基因序列。
进一步地,向量获取模块520具体用于:利用所述基因向量库对每个基因序列对应的各目标基因序列分别进行索引,得到各目标基因序列对应的序列矩阵,所述序列矩阵包括多个子序列向量;分别将各序列矩阵中的多个子序列向量对应进行加和平均,得到各目标基因序列对应的目标序列向量;将每个基因序列对应的所有目标序列向量进行加和平均,得到每个基因序列对应的序列向量。
进一步地,装置还包括向量训练模块,向量训练模块用于:获取多个病毒样本对应的样本基因序列;对各病毒样本的样本基因序列分别进行拆分处理,得到各自对应的样本目标基因序列;将所有样本目标基因序列输入CBOW模型中进行训练,得到所述基因向量库。
进一步地,向量训练模块具体用于:根据三联碱基将各病毒样本的样本基因序列拆分,得到各病毒样本对应的预设数目的样本目标基因序列。
进一步地,各病毒样本对应的预设数目的样本目标基因序列包括:第一样本目标基因序列、第二样本目标基因序列和第三样本目标基因序列。向量训练模块具体用于:分别从样本基因序列的第一个碱基、第二个碱基和第三个碱基开始,以三联碱基为单位,将样本基因序列拆分成对应的第一样本目标基因序列、第二样本目标基因序列和第三样本目标基因序列。
进一步地,所述病毒分类神经网络模型包括至少一池化卷积层和至少一分类层;所述识别模块具体用于:将所有序列向量进行拆分再拼接,得到所有序列向量中每个序列向量对应的拼接矩阵;利用所述池化卷积层对所述拼接矩阵进行特征提取,得到分别表征所有序列向量中每个序列向量的特征向量;利用所述分类层对所述特征向量进行分类,得到所述待识别病毒的亚型和宿主类别。
进一步地,所述至少一基因序列包括第一基因序列和第二基因序列,所述第一基因序列用于表示待识别病毒的NA基因的基因序列,所述第二基因序列用于表示待识别病毒的HA基因的基因序列;所述特征向量包括第一特征向量和第二特征向量,所述第一特征向量用于表示所述第一基因序列对应的特征向量,所述第二特征向量用于表示所述第二基因序列对应的特征向量,所述第一特征向量与所述第二特征向量对应的通道数不同。
进一步地,所述分类层包括第一分类器、第二分类器和第三分类器;所述识别模块具体用于:利用所述第一分类器对所述第一特征向量进行分类,得到所述待识别病毒的NA亚型;利用所述第二分类器和第三分类器分别对所述第二特征向量进行分类,得到所述待识别病毒的HA亚型和宿主类别。
进一步地,所述装置还包括分类训练模块,所述分类训练模块具体用于:获取多个病毒样本对应的序列向量,以及所述病毒样本对应的亚型和宿主类别;将多个病毒样本对应的序列向量、亚型及宿主类别作为输入,对卷积神经网络进行训练,得到所述病毒分类神经网络模型。
本申请实施例提供病毒亚型识别装置500用于执行上述方法,其具体的实施方式与病毒亚型识别方法的实施方式一致,此处不再赘述。
请参照图6,图6示出了一种可应用于本申请实施例中的电子设备10的结构框图。电子设备10可以包括存储器101、存储控制器102、处理器103、外设接口104、输入输出单元105、显示单元107。
所述存储器101、存储控制器102、处理器103、外设接口104、输入输出单元105、显示单元107各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。至少一个软件或固件(firmware)存储于所述存储器101中或固化在操作系统(operating system,OS)中的软件功能模块。所述处理器103用于执行存储器101中存储的可执行模块,软件功能模块或计算机程序。
其中,存储器101可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。其中,存储器101用于存储程序,所述处理器103在接收到执行指令后,执行所述程序,前述本申请实施例任一实施例揭示的方法可以应用于处理器103中,或者由处理器103实现。
处理器103可以是一种集成电路芯片,具有信号的处理能力。上述的处理器103可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器103也可以是任何常规的处理器等。
所述外设接口104将各种输入/输出装置耦合至处理器103以及存储器101。在一些实施例中,外设接口104,处理器103以及存储控制器102可以在单个芯片中实现。在其他一些实例中,他们可以分别由独立的芯片实现。
输入输出单元105用于提供给用户输入数据实现用户与所述电子设备10的交互。所述输入输出单元105可以是,但不限于,鼠标和键盘等。
显示单元107在所述电子设备10与用户之间提供一个交互界面(例如用户操作界面)或用于显示图像数据给用户参考。在本实施例中,所述显示单元107可以是液晶显示器或触控显示器。若为触控显示器,其可为支持单点和多点触控操作的电容式触控屏或电阻式触控屏等。支持单点和多点触控操作是指触控显示器能感应到来自该触控显示器上一个或多个位置处同时产生的触控操作,并将该感应到的触控操作交由处理器103进行计算和处理。
可以理解,图6所示的结构仅为示意,所述电子设备10还可包括比图6中所示更多或者更少的组件,或者具有与图6所示不同的配置。图6中所示的各组件可以采用硬件、软件或其组合实现。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法中的对应过程,在此不再过多赘述。
综上所述,本申请实施例提供了一种病毒亚型识别方法、装置、电子设备及存储介质,所述方法包括:对待识别病毒的至少一基因序列进行拆分处理,得到所述至少一基因序列中每个基因序列对应的目标基因序列;利用预设的基因向量库对所述目标基因序列进行索引,得到所述至少一基因序列中每个基因序列对应的序列向量;将所有序列向量输入预设的病毒分类神经网络模型,根据所述病毒分类神经网络模型的输出结果确定所述待识别病毒的亚型。本申请实施例通过对病毒基因进行拆分处理来增加基因序列的特征有效性,利用向量序列来表征基因序列可以降低亚型识别过程的误差率,使用病毒分类神经网络模型对序列向量进行识别,由此可以更加准确地得到待识别病毒的亚型,并且根据病毒的亚型对该病毒进行针对性的防护。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
需要说明的是,功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (20)

1.一种病毒亚型识别方法,其特征在于,包括:
对待识别病毒的至少一基因序列进行拆分处理,得到所述至少一基因序列中每个基因序列对应的目标基因序列;
利用预设的基因向量库对所述目标基因序列进行索引,得到所述至少一基因序列中每个基因序列对应的序列向量;
将所有序列向量输入预设的病毒分类神经网络模型,根据所述病毒分类神经网络模型的输出结果确定所述待识别病毒的亚型;
其中,所述病毒分类神经网络模型包括至少一池化卷积层和至少一分类层;所述将所有序列向量输入预设的病毒分类神经网络模型,根据所述病毒分类神经网络模型的输出结果确定所述待识别病毒的亚型,包括:
将所有序列向量进行拆分再拼接,得到所有序列向量中每个序列向量对应的拼接矩阵;
利用所述池化卷积层对所述拼接矩阵进行特征提取,得到分别表征所有序列向量中每个序列向量的特征向量;
利用所述分类层对所述特征向量进行分类,得到所述待识别病毒的亚型和宿主类别;
其中,所述至少一基因序列包括第一基因序列和第二基因序列,所述第一基因序列用于表示待识别病毒的NA基因的基因序列,所述第二基因序列用于表示待识别病毒的HA基因的基因序列;
所述特征向量包括第一特征向量和第二特征向量,所述第一特征向量用于表示所述第一基因序列对应的特征向量,所述第二特征向量用于表示所述第二基因序列对应的特征向量,所述第一特征向量与所述第二特征向量对应的通道数不同。
2.根据权利要求1所述的方法,其特征在于,所述对待识别病毒的至少一基因序列进行拆分处理,得到所述至少一基因序列中每个基因序列对应的目标基因序列,包括:
获取所述待识别病毒的至少一基因序列;
根据三联碱基将每个基因序列拆分,得到每个基因序列对应的预设数目的目标基因序列。
3.根据权利要求2所述的方法,其特征在于,所述预设数目的目标基因序列包括第一目标基因序列、第二目标基因序列和第三目标基因序列;所述根据三联碱基将每个基因序列拆分,得到每个基因序列对应的预设数目的目标基因序列,包括:
从每个基因序列的第一个碱基、第二个碱基和第三个碱基开始,以三联碱基为单位,将每个基因序列拆分成对应的第一目标基因序列、第二目标基因序列和第三目标基因序列。
4.根据权利要求2所述的方法,其特征在于,所述利用预设的基因向量库对所述目标基因序列进行索引,得到所述至少一基因序列中每个基因序列对应的序列向量,包括:
利用所述基因向量库对每个基因序列对应的各目标基因序列分别进行索引,得到各目标基因序列对应的序列矩阵,所述序列矩阵包括多个子序列向量;
分别将各序列矩阵中的多个子序列向量对应进行加和平均,得到各目标基因序列对应的目标序列向量;
将每个基因序列对应的所有目标序列向量进行加和平均,得到每个基因序列对应的序列向量。
5.根据权利要求1所述的方法,其特征在于,所述利用预设的基因向量库对所述目标基因序列进行索引之前,所述方法还包括:
获取多个病毒样本对应的样本基因序列;
对各病毒样本的样本基因序列分别进行拆分处理,得到各自对应的样本目标基因序列;
将所有样本目标基因序列输入CBOW模型中进行训练,得到所述基因向量库。
6.根据权利要求5所述的方法,其特征在于,所述对各病毒样本的样本基因序列分别进行拆分处理,得到各自对应的样本目标基因序列,包括:
根据三联碱基将各病毒样本的样本基因序列拆分,得到各病毒样本对应的预设数目的样本目标基因序列。
7.根据权利要求6所述的方法,其特征在于,所述各病毒样本对应的预设数目的样本目标基因序列包括:第一样本目标基因序列、第二样本目标基因序列和第三样本目标基因序列;所述根据三联碱基将各病毒样本的样本基因序列拆分,得到各病毒样本对应的预设数目的样本目标基因序列,包括:
分别从所述样本基因序列的第一个碱基、第二个碱基和第三个碱基开始,以三联碱基为单位,将所述样本基因序列拆分成对应的第一样本目标基因序列、第二样本目标基因序列和第三样本目标基因序列。
8.根据权利要求1所述的方法,其特征在于,所述分类层包括第一分类器、第二分类器和第三分类器;
所述利用所述分类层对所述特征向量进行分类,包括:
利用所述第一分类器对所述第一特征向量进行分类,得到所述待识别病毒的NA亚型;
利用所述第二分类器和第三分类器分别对所述第二特征向量进行分类,得到所述待识别病毒的HA亚型和宿主类别。
9.根据权利要求1-7任一项所述的方法,其特征在于,所述将所有序列向量输入预设的病毒分类神经网络模型之前,所述方法还包括:
获取多个病毒样本对应的序列向量,以及所述病毒样本对应的亚型和宿主类别;
将多个病毒样本对应的序列向量、亚型及宿主类别作为输入,对卷积神经网络进行训练,得到所述病毒分类神经网络模型。
10.一种病毒亚型识别装置,其特征在于,包括:
基因获取模块,用于对待识别病毒的至少一基因序列进行拆分处理,得到所述至少一基因序列中每个基因序列对应的目标基因序列;
向量获取模块,用于利用预设的基因向量库对所述目标基因序列进行索引,得到所述至少一基因序列中每个基因序列对应的序列向量;
识别模块,用于将所有序列向量输入预设的病毒分类神经网络模型,根据所述病毒分类神经网络模型的输出结果确定所述待识别病毒的亚型;
其中,所述病毒分类神经网络模型包括至少一池化卷积层和至少一分类层;所述识别模块具体用于:将所有序列向量进行拆分再拼接,得到所有序列向量中每个序列向量对应的拼接矩阵;利用所述池化卷积层对所述拼接矩阵进行特征提取,得到分别表征所有序列向量中每个序列向量的特征向量;利用所述分类层对所述特征向量进行分类,得到所述待识别病毒的亚型和宿主类别;
所述至少一基因序列包括第一基因序列和第二基因序列,所述第一基因序列用于表示待识别病毒的NA基因的基因序列,所述第二基因序列用于表示待识别病毒的HA基因的基因序列;
所述特征向量包括第一特征向量和第二特征向量,所述第一特征向量用于表示所述第一基因序列对应的特征向量,所述第二特征向量用于表示所述第二基因序列对应的特征向量,所述第一特征向量与所述第二特征向量对应的通道数不同。
11.根据权利要求10所述的装置,其特征在于,所述基因获取模块具体用于:
获取所述待识别病毒的至少一基因序列;
根据三联碱基将每个基因序列拆分,得到每个基因序列对应的预设数目的目标基因序列。
12.根据权利要求11所述的装置,其特征在于,所述预设数目的目标基因序列包括第一目标基因序列、第二目标基因序列和第三目标基因序列;所述基因获取模块具体用于:
从每个基因序列的第一个碱基、第二个碱基和第三个碱基开始,以三联碱基为单位,将每个基因序列拆分成对应的第一目标基因序列、第二目标基因序列和第三目标基因序列。
13.根据权利要求11所述的装置,其特征在于,所述向量获取模块具体用于:
利用所述基因向量库对每个基因序列对应的各目标基因序列分别进行索引,得到各目标基因序列对应的序列矩阵,所述序列矩阵包括多个子序列向量;
分别将各序列矩阵中的多个子序列向量对应进行加和平均,得到各目标基因序列对应的目标序列向量;
将每个基因序列对应的所有目标序列向量进行加和平均,得到每个基因序列对应的序列向量。
14.根据权利要求10所述的装置,其特征在于,所述装置还包括向量训练模块,所述向量训练模块用于:
获取多个病毒样本对应的样本基因序列;
对各病毒样本的样本基因序列分别进行拆分处理,得到各自对应的样本目标基因序列;
将所有样本目标基因序列输入CBOW模型中进行训练,得到所述基因向量库。
15.根据权利要求14所述的装置,其特征在于,所述向量训练模块具体用于:
根据三联碱基将各病毒样本的样本基因序列拆分,得到各病毒样本对应的预设数目的样本目标基因序列。
16.根据权利要求15所述的装置,其特征在于,所述各病毒样本对应的预设数目的样本目标基因序列包括:第一样本目标基因序列、第二样本目标基因序列和第三样本目标基因序列;所述向量训练模块具体用于:
分别从所述样本基因序列的第一个碱基、第二个碱基和第三个碱基开始,以三联碱基为单位,将所述样本基因序列拆分成对应的第一样本目标基因序列、第二样本目标基因序列和第三样本目标基因序列。
17.根据权利要求10所述的装置,其特征在于,所述分类层包括第一分类器、第二分类器和第三分类器;
所述识别模块具体用于:
利用所述第一分类器对所述第一特征向量进行分类,得到所述待识别病毒的NA亚型;
利用所述第二分类器和第三分类器分别对所述第二特征向量进行分类,得到所述待识别病毒的HA亚型和宿主类别。
18.根据权利要求10-17任一项所述的装置,其特征在于,所述装置还包括分类训练模块,所述分类训练模块具体用于:
获取多个病毒样本对应的序列向量,以及所述病毒样本对应的亚型和宿主类别;
将多个病毒样本对应的序列向量、亚型及宿主类别作为输入,对卷积神经网络进行训练,得到所述病毒分类神经网络模型。
19.一种电子设备,其特征在于,包括:处理器、存储器和总线,其中,
所述处理器和所述存储器通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1-9任一项所述的方法。
20.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1-9任一项所述的方法。
CN201911146286.3A 2019-11-19 2019-11-19 一种病毒亚型识别方法、装置、电子设备及存储介质 Active CN111048151B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911146286.3A CN111048151B (zh) 2019-11-19 2019-11-19 一种病毒亚型识别方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911146286.3A CN111048151B (zh) 2019-11-19 2019-11-19 一种病毒亚型识别方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN111048151A CN111048151A (zh) 2020-04-21
CN111048151B true CN111048151B (zh) 2023-08-29

Family

ID=70232616

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911146286.3A Active CN111048151B (zh) 2019-11-19 2019-11-19 一种病毒亚型识别方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN111048151B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11398297B2 (en) * 2018-10-11 2022-07-26 Chun-Chieh Chang Systems and methods for using machine learning and DNA sequencing to extract latent information for DNA, RNA and protein sequences
CN111554351B (zh) * 2020-04-26 2021-05-04 深圳市儒翰基因科技有限公司 病毒识别的方法、终端及存储介质
CN111584007A (zh) * 2020-05-25 2020-08-25 北京理工大学 基因功能序列权利范围认定、检索及侵权判定方法与系统
CN111785328B (zh) * 2020-06-12 2021-11-23 中国人民解放军军事科学院军事医学研究院 基于门控循环单元神经网络的冠状病毒序列识别方法
CN112116954A (zh) * 2020-09-18 2020-12-22 上海商汤智能科技有限公司 抗体的预测方法及装置、电子设备和存储介质
CN113299345B (zh) * 2021-06-30 2024-05-07 中国人民解放军军事科学院军事医学研究院 病毒基因分类的方法、装置及电子设备
CN115547414B (zh) * 2022-10-25 2023-04-14 黑龙江金域医学检验实验室有限公司 潜在毒力因子的确定方法、装置、计算机设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110322931A (zh) * 2019-05-29 2019-10-11 南昌大学 一种碱基识别方法、装置、设备及存储介质
CN110343783A (zh) * 2019-07-08 2019-10-18 广东省公共卫生研究院 基于高通量测序的诺如病毒测序引物、试剂盒及检测方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080154567A1 (en) * 2006-12-22 2008-06-26 Schering Corporation Viral genotyping method
US20140038836A1 (en) * 2012-05-29 2014-02-06 Assurerx Health, Inc. Novel Pharmacogene Single Nucleotide Polymorphisms and Methods of Detecting Same
CA3044254A1 (en) * 2016-11-18 2018-05-24 Nantomics, Llc Methods and systems for predicting dna accessibility in the pan-cancer genome
US20190180000A1 (en) * 2017-12-07 2019-06-13 International Business Machines Corporation Patient diagnosis and treatment based on genomic tensor motifs
US20190318806A1 (en) * 2018-04-12 2019-10-17 Illumina, Inc. Variant Classifier Based on Deep Neural Networks

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110322931A (zh) * 2019-05-29 2019-10-11 南昌大学 一种碱基识别方法、装置、设备及存储介质
CN110343783A (zh) * 2019-07-08 2019-10-18 广东省公共卫生研究院 基于高通量测序的诺如病毒测序引物、试剂盒及检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
付旭平,戴建凉,田立峰,黄达蔷,沈健民,吕军,谢毅,毛裕民.人cDNA序列中二类甲硫氨酸密码子的区分.复旦学报(自然科学版).2000,第39卷(第06期),第675-679页. *

Also Published As

Publication number Publication date
CN111048151A (zh) 2020-04-21

Similar Documents

Publication Publication Date Title
CN111048151B (zh) 一种病毒亚型识别方法、装置、电子设备及存储介质
Hughes et al. Comprehensive phylogeny of ray-finned fishes (Actinopterygii) based on transcriptomic and genomic data
Muhire et al. SDT: a virus classification tool based on pairwise sequence alignment and identity calculation
CA2927723C (en) Systems and methods for using paired-end data in directed acyclic structure
Eriksson et al. Viral population estimation using pyrosequencing
Schbath et al. Mapping reads on a genomic sequence: an algorithmic overview and a practical comparative analysis
Vezzi et al. Feature-by-feature–evaluating de novo sequence assembly
Poon et al. Detecting signatures of selection from DNA sequences using Datamonkey
Kosakovsky Pond et al. Evolutionary fingerprinting of genes
Poon et al. Mapping the shapes of phylogenetic trees from human and zoonotic RNA viruses
García-López et al. Fragmentation and coverage variation in viral metagenome assemblies, and their effect in diversity calculations
Zhao et al. EDAR: an efficient error detection and removal algorithm for next generation sequencing data
Chappidi et al. Using Mothur to determine bacterial community composition and structure in 16S ribosomal RNA datasets
Shepard et al. LABEL: fast and accurate lineage assignment with assessment of H5N1 and H9N2 influenza A hemagglutinins
US10896743B2 (en) Secure communication of nucleic acid sequence information through a network
CA3064226A1 (en) Deep learning-based framework for identifying sequence patterns that cause sequence-specific errors (sses)
Ding et al. Laplacian Regularized Sparse Representation Based Classifier for Identifying DNA N4-Methylcytosine Sites via $ L_ {2, 1/2} $ L 2, 1/2-Matrix Norm
Dearlove et al. Measuring asymmetry in time-stamped phylogenies
Yu A new dynamic correlation algorithm reveals novel functional aspects in single cell and bulk RNA-seq data
Morselli Gysi et al. Whole transcriptomic network analysis using co-expression differential network analysis (CoDiNA)
CN112885412A (zh) 基因组注释方法、装置、可视化平台和存储介质
CN114424287A (zh) 单细胞rna-seq数据处理
Berman et al. MutaGAN: A sequence-to-sequence GAN framework to predict mutations of evolving protein populations
JP2021179867A (ja) ゲノム分析装置及び方法
Kiening et al. Conserved RNA structures in the intergenic regions of ambisense viruses

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant