CN113299345A - 病毒基因分类的方法、装置及电子设备 - Google Patents
病毒基因分类的方法、装置及电子设备 Download PDFInfo
- Publication number
- CN113299345A CN113299345A CN202110735404.5A CN202110735404A CN113299345A CN 113299345 A CN113299345 A CN 113299345A CN 202110735404 A CN202110735404 A CN 202110735404A CN 113299345 A CN113299345 A CN 113299345A
- Authority
- CN
- China
- Prior art keywords
- data set
- gene sequence
- characteristic data
- sequence characteristic
- gene
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 207
- 241000700605 Viruses Species 0.000 title claims abstract description 105
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000013145 classification model Methods 0.000 claims description 27
- 238000005259 measurement Methods 0.000 claims description 23
- 238000012549 training Methods 0.000 claims description 23
- 108700005077 Viral Genes Proteins 0.000 claims description 19
- 238000013528 artificial neural network Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000011160 research Methods 0.000 abstract description 10
- 238000004891 communication Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 241000894007 species Species 0.000 description 2
- 101150012509 sub gene Proteins 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 244000052769 pathogen Species 0.000 description 1
- 230000001717 pathogenic effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000002864 sequence alignment Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Abstract
本申请实施例提供一种病毒基因分类的方法、装置及电子设备,其中,能够获取表征待分类病毒基因的基因序列特征数据集后,通过计算基因序列特征数据集与指定病毒基因对应的特定基因序列特征数据集的相似距;根据相似距对待分类病毒基因进行分类,实现了病毒基因的准确分类,有利于科研人员对病毒的研究。
Description
技术领域
本发明涉及数据处理技术领域,尤其是涉及一种病毒基因分类的方法、装置及电子设备。
背景技术
目前主流的病毒病原体检测与溯源方案主要是通过序列比对的方法,例如BLAST,Kraken2等方法,基于比对的病毒检测方法在区分物种间特异性时容易引入假阳性结果,因此,不利于新型未知病毒基因的准确识别。
发明内容
有鉴于此,本发明的目的在于提供一种病毒基因分类的方法、装置及电子设备,有效缓解上述技术问题。
第一方面,本发明实施例提供了一种病毒基因分类的方法,其中,该方法包括:获取表征待分类病毒基因的基因序列特征数据集;计算基因序列特征数据集与指定病毒基因对应的特定基因序列特征数据集的相似距;根据相似距对待分类病毒基因进行分类。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,计算基因序列特征数据集与指定病毒基因对应的特定基因序列特征数据集的相似距的步骤,包括:将基因序列特征数据集输入至预先训练好的度量分类模型,通过度量分类模型计算基因序列特征数据集与指定基因对应的特定基因序列特征数据集的相似距;其中,度量分类模型为通过指定基因对应的特定基因序列特征数据集对神经网络训练得到的分类模型;特定基因序列特征数据集为对指定病毒基因对应的基因序列特征数据集进行相似距标记的数据。
结合第一方面的第一种可能的实施方式,本发明实施例提供了第一方面的第二种可能的实施方式,其中,该方法还包括:对特定基因序列特征数据集进行预处理,得到训练数据集;将训练数据集输入至神经网络进行训练,直到训练周期的次数达到预设值或者网络损失值达到预设网络损失阈值为止,得到度量分类模型。
结合第一方面的第二种可能的实施方式,本发明实施例提供了第一方面的第三种可能的实施方式,其中,在对特定基因序列特征数据集进行预处理之前,该方法还包括:基于k-mer基因序列划分方法对基因序列特征数据集进行等长基因序列划分;对划分后的基因序列特征数据集进行相似距标记,得到特定基因序列特征数据集。
结合第一方面的第二种可能的实施方式,本发明实施例提供了第一方面的第四种可能的实施方式,其中,神经网络为包含4个隐含层的孪生卷积神经网络。
结合第一方面的第二种可能的实施方式,本发明实施例提供了第一方面的第五种可能的实施方式,其中,训练网络损失值对应的网络损失函数为交叉熵损失函数。
第二方面,本发明实施例还提供一种病毒基因分类的装置,其中,该装置包括:获取模块,用于获取表征待分类病毒基因的基因序列特征数据集;计算模块,用于计算基因序列特征数据集与指定病毒基因对应的特定基因序列特征数据集的相似距;分类模块,用于根据相似距对待分类病毒基因进行分类。
结合第二方面,本发明实施例提供了第二方面的第一种可能的实施方式,其中,计算模块还用于:将基因序列特征数据集输入至预先训练好的度量分类模型,通过度量分类模型计算基因序列特征数据集与指定基因对应的特定基因序列特征数据集的相似距;其中,度量分类模型为通过指定基因对应的特定基因序列特征数据集对神经网络训练得到的分类模型;特定基因序列特征数据集为对指定病毒基因对应的基因序列特征数据集进行相似距标记的数据。
第三方面,本发明实施例还提供一种电子设备,其中,包括处理器和存储器,存储器存储有能够被处理器执行的计算机可执行指令,处理器执行计算机可执行指令以实现上述方法。
第四方面,本发明实施例还提供一种计算机可读存储介质,其中,计算机可读存储介质存储有计算机可执行指令,计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现上述的方法。
本发明实施例带来了以下有益效果:
本申请实施例提供一种病毒基因分类的方法、装置及电子设备,其中,能够获取表征待分类病毒基因的基因序列特征数据集后,通过计算基因序列特征数据集与指定病毒基因对应的特定基因序列特征数据集的相似距;根据相似距对待分类病毒基因进行分类,实现了病毒基因的准确分类,有利于科研人员对病毒的研究。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种病毒基因分类的方法的流程图;
图2为本发明实施例提供的另一种病毒基因分类的方法的流程图;
图3为本发明实施例提供的一种度量分类模型训练的流程图;
图4为本发明实施例提供的一种病毒基因分类的装置的结构示意图;
图5为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
考虑到现有是通过比对的病毒检测方法实现病毒分类的,该检测方式容易引入假阳性结果造成分类不准确的问题;本发明实施例提供的一种病毒基因分类的方法、装置及电子设备,有效缓解上述技术问题。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种基因分类的方法进行详细介绍。
本实施例提供了一种病毒基因分类的方法,参见图1所示的一种病毒基因分类的方法的流程图,该方法具体包括如下步骤:
步骤S102,获取表征待分类病毒基因的基因序列特征数据集;
在实际使用时,基因序列特征数据集中包括待分类病毒基因对应的多个基因序列特征数据,该基因序列特征数据用于表征待分类病毒基因的基因特点。
步骤S104,计算基因序列特征数据集与指定病毒基因对应的特定基因序列特征数据集的相似距;
该相似距可理解为病毒物种之间的距离,相似距越小表明病毒之间越相近,在本实施例中,通过计算出的待分类病毒基因与指定病毒基因之间的相似距,即可得到待分类病毒基因属于哪类病毒,从而有利于后续对该待分类病毒基因的研究。具体来说,若计算出的相似距为0,则表明该待分类病毒基因与指定病毒基因之间属于同物种病毒内部不同毒株;若计算出的相似距为1,则表明该待分类病毒基因与指定病毒基因之间同属不同种病毒;若计算出的相似距为3,则表明该待分类病毒基因与指定病毒基因之间为不同科病毒;若计算出的相似距为5,则表明该待分类病毒基因与指定病毒基因之间为不同基因组类型的病毒基因组;上述相似距的数值仅是举例说明。
步骤S106,根据相似距对待分类病毒基因进行分类。
在实际应用时,上述指定病毒基因可以为多个不同的指定病毒基因,因此,上述步骤S104可以分别计算待分类病毒基因与各个指定病毒基因之间的相似距,当待分类病毒基因与某一指定病毒基因之间计算出的相似距最小,进而可确定该待分类病毒基因与该指定病毒基因之间属于同物种病毒,从而实现了待分类病毒基因的分类。
本申请实施例提供一种病毒基因分类的方法,其中,能够获取表征待分类病毒基因的基因序列特征数据集后,通过计算基因序列特征数据集与指定病毒基因对应的特定基因序列特征数据集的相似距;根据相似距对待分类病毒基因进行分类,实现了病毒基因的准确分类,有利于科研人员对病毒的研究。
本实施例提供了另一种病毒基因分类的方法,该方法在上述实施例的基础上实现;本实施例重点描述计算相似距的具体实施方式。如图2所示的另一种病毒基因分类的方法的流程图,本实施例中的病毒基因分类的方法包括如下步骤:
步骤S202,获取表征待分类病毒基因的基因序列特征数据集;
步骤S204,将基因序列特征数据集输入至预先训练好的度量分类模型,通过度量分类模型计算基因序列特征数据集与指定病毒基因对应的特定基因序列特征数据集的相似距;其中,度量分类模型为通过指定基因对应的特定基因序列特征数据集对神经网络训练得到的分类模型;特定基因序列特征数据集为对指定病毒基因对应的基因序列特征数据集进行相似距标记的数据;
具体地,可以依据病毒的分类学数据,按照病毒基因组类型、病毒科、病毒属性以及病毒种类这四个等级信息对指定病毒基因对应的基因序列特征数据集中的每个基因序列特征数据进行相似距标记,得到特定基因序列特征数据集。
度量分类模型是通过上述特定基因序列特征数据集对神经网络训练得到的分类模型,为了便于理解,如图3示出了一种度量分类模型训练的流程图,包括以下步骤:
步骤S302,对特定基因序列特征数据集进行预处理,得到训练数据集;
该预处理可以包括归一化处理,剔除不准确数据、修正数据等处理,预处理的目的是为了更好的训练网络模型,使得训练好的模型计算出的相似距更加准确。
步骤S304,将训练数据集输入至神经网络进行训练,直到训练周期的次数达到预设值或者网络损失值达到预设网络损失阈值为止,得到度量分类模型。
上述神经网络为包含4个隐含层的孪生卷积神经网络。通常,交叉熵损失函数是一个平滑函数,其本质是信息理论(information theory)中的交叉熵(cross entropy)在分类问题中的应用。由交叉熵的定义可知,最小化交叉熵等价于最小化观测值和估计值的相对熵(relative entropy),即两者概率分布的Kullback-Leibler散度,因此其是一个提供无偏估计的代理损失,交叉熵损失函数是使用最广泛的代理损失,对应的分类器例子包括logistic回归、人工神经网络和概率输出的支持向量机,基于此,在本实施例中,可将交叉熵损失函数作为训练网络损失值的网络损失函数。
具体实现时,在对特定基因序列特征数据集进行预处理之前需要:基于k-mer基因序列划分方法对基因序列特征数据集进行等长基因序列划分;对划分后的基因序列特征数据集进行相似距标记,得到特定基因序列特征数据集。
k-mer基因序列划分方法是指将基因序列分成包含k个碱基的等长基因序列,一般长短为m的基因序列可以分成m-k+1个子基因序列。比如,一段含有14个碱基的基因序列如下:GATCCTACTGATGC,如果取k -mer的长度为8,那么从上述基因序列的开头,每8个碱基作为一个新基因序列,依次进行,直到基因序列的最后,我们一共可以得到7个子基因序列:GATCCTAC,ATCCTAC,TCCTACTG,CCTACTGA,CTACTGAT,TACTGATG,ACTGATGC。
步骤S206,根据相似距对待分类病毒基因进行分类。
本申请实施例提供的病毒基因分类的方法,能够将获取到的表征待分类病毒基因的基因序列特征数据集输入至预先训练好的度量分类模型中,通过度量分类模型计算基因序列特征数据集与指定基因对应的特定基因序列特征数据集的相似距,根据相似距对待分类病毒基因进行分类,实现了病毒基因的准确分类,有利于科研人员对病毒的研究。
对应于上述方法实施例,本发明实施例提供了一种病毒基因分类的装置,其中,图4示出了一种病毒基因分类的装置的结构示意图,如图4所示,该装置包括:
获取模块402,用于获取表征待分类病毒基因的基因序列特征数据集;
计算模块404,用于计算基因序列特征数据集与指定病毒基因对应的特定基因序列特征数据集的相似距;
分类模块406,用于根据相似距对待分类病毒基因进行分类。
本申请实施例提供一种病毒基因分类的装置,其中,能够获取表征待分类病毒基因的基因序列特征数据集后,通过计算基因序列特征数据集与指定病毒基因对应的特定基因序列特征数据集的相似距;根据相似距对待分类病毒基因进行分类,实现了病毒基因的准确分类,有利于科研人员对病毒的研究。
上述计算模块404还用于:将基因序列特征数据集输入至预先训练好的度量分类模型,通过度量分类模型计算基因序列特征数据集与指定基因对应的特定基因序列特征数据集的相似距;其中,度量分类模型为通过指定基因对应的特定基因序列特征数据集对神经网络训练得到的分类模型;特定基因序列特征数据集为对指定病毒基因对应的基因序列特征数据集进行相似距标记的数据。
本发明实施例提供的病毒基因分类的装置,与上述实施例提供的病毒基因分类的方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
本申请实施例还提供了一种电子设备,如图5所示,为该电子设备的结构示意图,其中,该电子设备包括处理器121和存储器120,该存储器120存储有能够被该处理器121执行的计算机可执行指令,该处理器121执行该计算机可执行指令以实现上述病毒基因分类的方法。
在图5示出的实施方式中,该电子设备还包括总线122和通信接口123,其中,处理器121、通信接口123和存储器120通过总线122连接。
其中,存储器120可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口123(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。总线122可以是ISA(IndustryStandard Architecture,工业标准体系结构)总线、PCI(Peripheral ComponentInterconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线122可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
处理器121可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器121中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器121可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DigitalSignal Processor,简称DSP)、专用集成电路(Application Specific IntegratedCircuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器121读取存储器中的信息,结合其硬件完成前述实施例的病毒基因分类的方法的步骤。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令在被处理器调用和执行时,该计算机可执行指令促使处理器实现上述病毒基因分类的方法,具体实现可参见前述方法实施例,在此不再赘述。
本申请实施例所提供的病毒基因分类的方法、装置及电子设备的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本申请的范围。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在本申请的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种病毒基因分类的方法,其特征在于,所述方法包括:
获取表征待分类病毒基因的基因序列特征数据集;
计算所述基因序列特征数据集与指定病毒基因对应的特定基因序列特征数据集的相似距;
根据所述相似距对所述待分类病毒基因进行分类。
2.根据权利要求1所述方法,其特征在于,计算所述基因序列特征数据集与指定病毒基因对应的特定基因序列特征数据集的相似距的步骤,包括:
将所述基因序列特征数据集输入至预先训练好的度量分类模型,通过所述度量分类模型计算所述基因序列特征数据集与指定基因对应的特定基因序列特征数据集的相似距;
其中,所述度量分类模型为通过所述指定病毒基因对应的特定基因序列特征数据集对神经网络训练得到的分类模型;所述特定基因序列特征数据集为对所述指定病毒基因对应的基因序列特征数据集进行相似距标记的数据。
3.根据权利要求2所述方法,其特征在于,所述方法还包括:
对所述特定基因序列特征数据集进行预处理,得到训练数据集;
将所述训练数据集输入至神经网络进行训练,直到训练周期的次数达到预设值或者网络损失值达到预设网络损失阈值为止,得到度量分类模型。
4.根据权利要求3所述方法,其特征在于,在对所述特定基因序列特征数据集进行预处理之前,所述方法还包括:
基于k-mer基因序列划分方法对所述基因序列特征数据集进行等长基因序列划分;
对划分后的所述基因序列特征数据集进行相似距标记,得到所述特定基因序列特征数据集。
5.根据权利要求3所述方法,其特征在于,所述神经网络为包含4个隐含层的孪生卷积神经网络。
6.根据权利要求3所述方法,其特征在于,训练所述网络损失值对应的网络损失函数为交叉熵损失函数。
7.一种基因分类的装置,其特征在于,所述装置包括:
获取模块,用于获取表征待分类病毒基因的基因序列特征数据集;
计算模块,用于计算所述基因序列特征数据集与指定病毒基因对应的特定基因序列特征数据集的相似距;
分类模块,用于根据所述相似距对所述待分类病毒基因进行分类。
8.根据权利要求7所述装置,其特征在于,所述计算模块还用于:
将所述基因序列特征数据集输入至预先训练好的度量分类模型,通过所述度量分类模型计算所述基因序列特征数据集与指定基因对应的特定基因序列特征数据集的相似距;
其中,所述度量分类模型为通过所述指定基因对应的特定基因序列特征数据集对神经网络训练得到的分类模型;所述特定基因序列特征数据集为对所述指定病毒基因对应的基因序列特征数据集进行相似距标记的数据。
9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机可执行指令,所述处理器执行所述计算机可执行指令以实现权利要求1至5任一项所述方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现权利要求1至5任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110735404.5A CN113299345B (zh) | 2021-06-30 | 2021-06-30 | 病毒基因分类的方法、装置及电子设备 |
PCT/CN2021/108975 WO2023272855A1 (zh) | 2021-06-30 | 2021-07-28 | 病毒基因分类的方法、装置、电子设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110735404.5A CN113299345B (zh) | 2021-06-30 | 2021-06-30 | 病毒基因分类的方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113299345A true CN113299345A (zh) | 2021-08-24 |
CN113299345B CN113299345B (zh) | 2024-05-07 |
Family
ID=77330055
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110735404.5A Active CN113299345B (zh) | 2021-06-30 | 2021-06-30 | 病毒基因分类的方法、装置及电子设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN113299345B (zh) |
WO (1) | WO2023272855A1 (zh) |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002037313A2 (en) * | 2000-11-06 | 2002-05-10 | Thrasos, Inc. | Computer method and apparatus for classifying objects |
US20080154567A1 (en) * | 2006-12-22 | 2008-06-26 | Schering Corporation | Viral genotyping method |
WO2010045475A1 (en) * | 2008-10-17 | 2010-04-22 | F. Hoffmann La-Roche Ag | Techniques for predicting hiv viral tropism and classifying amino acid sequences |
CN110070914A (zh) * | 2019-03-15 | 2019-07-30 | 崔大超 | 一种基因序列识别方法、系统和计算机可读存储介质 |
WO2019191649A1 (en) * | 2018-03-29 | 2019-10-03 | Freenome Holdings, Inc. | Methods and systems for analyzing microbiota |
CN110322931A (zh) * | 2019-05-29 | 2019-10-11 | 南昌大学 | 一种碱基识别方法、装置、设备及存储介质 |
US20200118040A1 (en) * | 2018-10-11 | 2020-04-16 | International Business Machines Corporation | Identifying Gene Signatures and Corresponding Biological Pathways on Large Scale Gene Expression Datasets |
CN111048151A (zh) * | 2019-11-19 | 2020-04-21 | 中国人民解放军疾病预防控制中心 | 一种病毒亚型识别方法、装置、电子设备及存储介质 |
CN111328419A (zh) * | 2018-10-15 | 2020-06-23 | 因美纳有限公司 | 基于深度学习的深度卷积神经网络预训练技术 |
CN111564179A (zh) * | 2020-05-09 | 2020-08-21 | 厦门大学 | 一种基于三元组神经网络的物种生物学分类方法及系统 |
CN111785328A (zh) * | 2020-06-12 | 2020-10-16 | 中国人民解放军军事科学院军事医学研究院 | 基于门控循环单元神经网络的冠状病毒序列识别方法 |
CN112259167A (zh) * | 2020-10-22 | 2021-01-22 | 深圳华大基因科技服务有限公司 | 基于高通量测序的病原体分析方法、装置和计算机设备 |
CN112289369A (zh) * | 2020-12-15 | 2021-01-29 | 武汉华美生物工程有限公司 | 一种基于深度学习的抗体库构建方法及装置 |
CN112863599A (zh) * | 2021-03-12 | 2021-05-28 | 南开大学 | 一种病毒测序序列的自动化分析方法及系统 |
-
2021
- 2021-06-30 CN CN202110735404.5A patent/CN113299345B/zh active Active
- 2021-07-28 WO PCT/CN2021/108975 patent/WO2023272855A1/zh unknown
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002037313A2 (en) * | 2000-11-06 | 2002-05-10 | Thrasos, Inc. | Computer method and apparatus for classifying objects |
US20080154567A1 (en) * | 2006-12-22 | 2008-06-26 | Schering Corporation | Viral genotyping method |
WO2010045475A1 (en) * | 2008-10-17 | 2010-04-22 | F. Hoffmann La-Roche Ag | Techniques for predicting hiv viral tropism and classifying amino acid sequences |
WO2019191649A1 (en) * | 2018-03-29 | 2019-10-03 | Freenome Holdings, Inc. | Methods and systems for analyzing microbiota |
US20200118040A1 (en) * | 2018-10-11 | 2020-04-16 | International Business Machines Corporation | Identifying Gene Signatures and Corresponding Biological Pathways on Large Scale Gene Expression Datasets |
CN111328419A (zh) * | 2018-10-15 | 2020-06-23 | 因美纳有限公司 | 基于深度学习的深度卷积神经网络预训练技术 |
CN110070914A (zh) * | 2019-03-15 | 2019-07-30 | 崔大超 | 一种基因序列识别方法、系统和计算机可读存储介质 |
CN110322931A (zh) * | 2019-05-29 | 2019-10-11 | 南昌大学 | 一种碱基识别方法、装置、设备及存储介质 |
CN111048151A (zh) * | 2019-11-19 | 2020-04-21 | 中国人民解放军疾病预防控制中心 | 一种病毒亚型识别方法、装置、电子设备及存储介质 |
CN111564179A (zh) * | 2020-05-09 | 2020-08-21 | 厦门大学 | 一种基于三元组神经网络的物种生物学分类方法及系统 |
CN111785328A (zh) * | 2020-06-12 | 2020-10-16 | 中国人民解放军军事科学院军事医学研究院 | 基于门控循环单元神经网络的冠状病毒序列识别方法 |
CN112259167A (zh) * | 2020-10-22 | 2021-01-22 | 深圳华大基因科技服务有限公司 | 基于高通量测序的病原体分析方法、装置和计算机设备 |
CN112289369A (zh) * | 2020-12-15 | 2021-01-29 | 武汉华美生物工程有限公司 | 一种基于深度学习的抗体库构建方法及装置 |
CN112863599A (zh) * | 2021-03-12 | 2021-05-28 | 南开大学 | 一种病毒测序序列的自动化分析方法及系统 |
Non-Patent Citations (4)
Title |
---|
AHMED, O. ET AL.: ""Gene Expression Classification Based on Deep Learning"", 《 2019 4TH SCIENTIFIC INTERNATIONAL CONFERENCE NAJAF》, pages 145 - 149 * |
余晓龙,等: ""基于标签相关性的卷积神经网络多标签分类"", 《闽南师范大学学报》, vol. 32, no. 2, pages 19 - 25 * |
滕越,等: ""DNA数据存储技术原理及其研究进展"", 《生物化学与生物物理进展》, vol. 48, no. 5, pages 494 - 504 * |
肖蕾,等: ""基于遗传神经网络的相似重复记录检测方法研究"", 《舰船电子工程》, vol. 31, no. 2, pages 240 - 245 * |
Also Published As
Publication number | Publication date |
---|---|
CN113299345B (zh) | 2024-05-07 |
WO2023272855A1 (zh) | 2023-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10013636B2 (en) | Image object category recognition method and device | |
WO2019200782A1 (zh) | 样本数据分类方法、模型训练方法、电子设备及存储介质 | |
WO2016180268A1 (zh) | 一种文本聚合方法及装置 | |
CN109685092B (zh) | 基于大数据的聚类方法、设备、存储介质及装置 | |
CN111291824B (zh) | 时间序列的处理方法、装置、电子设备和计算机可读介质 | |
CN109918498B (zh) | 一种问题入库方法和装置 | |
CN112131322B (zh) | 时间序列分类方法及装置 | |
CN110222790B (zh) | 用户身份识别方法、装置及服务器 | |
WO2014177050A1 (zh) | 对文档进行聚类的方法和装置 | |
CN112070506A (zh) | 风险用户识别方法、装置、服务器及存储介质 | |
CN112612887A (zh) | 日志处理方法、装置、设备和存储介质 | |
WO2019095587A1 (zh) | 人脸识别方法、应用服务器及计算机可读存储介质 | |
CN112597978B (zh) | 指纹匹配方法、装置、电子设备及存储介质 | |
WO2019096176A1 (zh) | 数据处理学习方法、系统以及电子设备 | |
CN114398350A (zh) | 训练数据集的清洗方法、装置及服务器 | |
CN105224954B (zh) | 一种基于Single-pass去除小话题影响的话题发现方法 | |
TW202044110A (zh) | 無監督模型評估方法、裝置、伺服器及可讀儲存媒體 | |
CN112632000B (zh) | 日志文件聚类方法、装置、电子设备和可读存储介质 | |
CN111737694B (zh) | 一种基于行为树的恶意软件同源性分析方法 | |
CN111783088B (zh) | 一种恶意代码家族聚类方法、装置和计算机设备 | |
WO2024016949A1 (zh) | 标签生成、图像分类模型的方法、图像分类方法及装置 | |
CN113299345B (zh) | 病毒基因分类的方法、装置及电子设备 | |
CN110866831A (zh) | 资产活跃度等级的确定方法、装置及服务器 | |
CN111382760A (zh) | 图片类别的识别方法、装置及计算机可读存储介质 | |
CN113946566B (zh) | Web系统指纹库的构建方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |