CN107563150A - 蛋白质结合位点的预测方法、装置、设备及存储介质 - Google Patents
蛋白质结合位点的预测方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN107563150A CN107563150A CN201710770933.2A CN201710770933A CN107563150A CN 107563150 A CN107563150 A CN 107563150A CN 201710770933 A CN201710770933 A CN 201710770933A CN 107563150 A CN107563150 A CN 107563150A
- Authority
- CN
- China
- Prior art keywords
- training
- amino acid
- vector
- protein sequence
- protein
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
- Investigating Or Analysing Biological Materials (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明适用生物信息技术领域,提供了一种蛋白质结合位点的预测方法、装置、设备及存储介质,该方法包括:接收待预测的蛋白质序列,使用预设的滑动窗口和滑动步长对蛋白质序列进行序列划分,得到多个氨基酸子序列,根据这些氨基酸子序列构建蛋白质序列的词向量,对词元素进行文档特征提取,根据提取的文档特征构建蛋白质序列的文档特征向量,对这些氨基酸子序列进行蛋白质链生物学特征提取,根据提取的生物学特征构建蛋白质序列的生物学特征向量,使用预设的氨基酸残基分类模型对使用文档特征向量和生物学特征向量表示的氨基酸子序列进行分类,得到蛋白质序列的氨基酸残基类型,从而提高了蛋白质结合位点预测的准确性和泛用性。
Description
技术领域
本发明属于生物信息技术领域,尤其涉及一种蛋白质结合位点的预测方法、装置、设备及存储介质。
背景技术
近年来,生物信息学受到人们的广泛关注,越来越多不同领域的研究者投入到对生物信息学的研究工作中去。生物信息学是一门研究生物和生物相关系统中信息内容和信息流向的综合性学科,其知识体系中包含了生物学(遗传学、生物化学等)、数学(概率论与数理统计、算法等)、计算机科学(机器学习、计算理论等)、物理化学(分子建模、热力学等)等多个不同学科的知识。
蛋白质是生命活动的体现者,是一切生物藉以表现生命的最重要基本单元,可以算是自然界最微小的自动机器,并且在与生物体系的运作中有着无可替代的作用。蛋白质在细胞内的不同作用是由蛋白质之间、蛋白质与DNA、蛋白质与RNA以及蛋白质与配体之间的相互作用来进行调控的。蛋白质-蛋白质相互作用涉及蛋白质分子的关联,该关联在活细胞的每一个生物学过程中都起到非常关键的作用,例如DNA合成、基因转录激活、蛋白质翻译、修饰和定位以及信息传导,这些重要的生物过程均涉及到蛋白质-蛋白质的相互作用。因此,探索蛋白质间相互作用的序列和结构特性对理解细胞活动至关重要。
随着新一代测序技术的不断发展,已测定的蛋白质序列数据不断增加。于是,人们对能够快速可靠地识别蛋白质结合位点的计算工具的需求也愈发强烈。蛋白质结合位点的定位对分析理解蛋白质相互作用的分子细节以及蛋白质功能至关重要。目前,国内外的对蛋白质结合位点的研究预测,大多基于通过对单个位点进行专业测定,得到的理化特征,以及通过对蛋白质链进行分析,计算得到的位点间序列特征。这样忽略了蛋白质结合位点的聚簇特性和氨基酸残基之间的关联信息,从而对蛋白质结合位点预测的准确性和泛用性不高。
发明内容
本发明的目的在于提供一种蛋白质结合位点的预测方法、装置、计算设备及存储介质,旨在解决由于现有技术对蛋白质结合位点预测的准确性和泛用性不高的问题。
一方面,本发明提供了一种蛋白质结合位点的预测方法,所述方法包括下述步骤:
接收待预测的蛋白质序列,使用预设的滑动窗口和滑动步长对所述蛋白质序列进行序列划分,得到组成所述蛋白质序列的多个氨基酸子序列;
根据所述多个氨基酸子序列构建所述蛋白质序列的词向量,所述词向量的词元素表示每个所述氨基酸子序列,对所述词元素进行文档特征提取,根据提取的文档特征构建所述蛋白质序列的文档特征向量;
对所述词元素表示的氨基酸子序列进行蛋白质链生物学特征提取,根据提取到的生物学特征构建所述蛋白质序列的生物学特征向量;
使用预设的氨基酸残基分类模型对所述文档特征向量和所述生物学特征向量进行分类,得到所述蛋白质序列的氨基酸残基类型。
另一方面,本发明提供了一种蛋白质结合位点的预测装置,所述装置包括:
序列划分单元,用于接收待预测的蛋白质序列,使用预设的滑动窗口和滑动步长对所述蛋白质序列进行序列划分,得到组成所述蛋白质序列的多个氨基酸子序列;
第一向量构建单元,用于根据所述多个氨基酸子序列构建所述蛋白质序列的词向量,所述词向量的词元素表示每个所述氨基酸子序列,对所述词元素进行文档特征提取,根据提取的文档特征构建所述蛋白质序列的文档特征向量;
第二向量构建单元,用于对所述词元素表示的氨基酸子序列进行蛋白质链生物学特征提取,根据提取到的生物学特征构建所述蛋白质序列的生物学特征向量;以及
结果获取单元,用于使用预设的氨基酸残基分类模型对所述文档特征向量和所述生物学特征向量进行分类,得到所述蛋白质序列的氨基酸残基类型。
另一方面,本发明还提供了序列划分和分类模型构建所需的计算环境以及可在所述环境中运行的计算机程序,所述处理器执行所述计算机程序时实现如所述蛋白质结合位点的预测方法的步骤。
另一方面,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如所述蛋白质结合位点的预测方法的步骤。
本发明接收待预测的蛋白质序列,使用预设的滑动窗口和滑动步长对蛋白质序列进行序列划分,得到组成该待预测蛋白质序列的多个氨基酸子序列,根据得到的多个氨基酸子序列构建蛋白质序列的词向量,该词向量的词元素表示每个氨基酸子序列,对词元素进行文档特征提取,根据提取的文档特征构建蛋白质序列的文档特征向量,对氨基酸子序列进行蛋白质链生物学特征提取,根据提取到的生物学特征构建蛋白质序列的生物学特征向量,使用预设的氨基酸残基分类模型对同时使用文档特征向量和生物学特征向量表示的氨基酸子序列进行分类,得到蛋白质序列的氨基酸残基类型,从而提高了蛋白质结合位点预测的准确性和泛用性。
附图说明
图1是本发明实施例一提供的蛋白质结合位点的预测方法的实现流程图;
图2是本发明实施例二提供的蛋白质结合位点的预测装置的结构示意图;
图3是本发明实施例三提供的蛋白质结合位点的预测装置的结构示意图;以及
图4是本发明实施例四提供的计算设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以下结合具体实施例对本发明的具体实现进行详细描述:
实施例一:
图1示出了本发明实施例一提供的蛋白质结合位点的预测方法的实现流程,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:
在步骤S101中,接收待预测的蛋白质序列,使用预设的滑动窗口和滑动步长对蛋白质序列进行序列划分,得到组成该待预测蛋白质序列的多个氨基酸子序列。
本发明实施例适用于蛋白质结合位点的预测系统。在本发明实施例中,为体现蛋白质-蛋白质结合位点的聚集特性,在接收到待预测的蛋白质序列后,启动滑动窗口,通过调节滑动窗口大小与滑动步长,对蛋白质序列进行划分,得到组成该待预测蛋白质序列的多个氨基酸子序列,从而将蛋白质序列的局部分块作为后续的分析单元。
在本发明实施例中,优选地,滑动窗口的大小为(2*window+1-2*b),其中,window为预设值,b是随机生成的、大小处于0到window-1之间的变量。这样的滑动窗口中包含了目标残基两侧各window-b个邻域残基,随着窗口在氨基酸序列上的滑动,滑动窗口的大小在3(b=window-1)到2*window+1(b=0)之间随机改变,得到以若干个氨基酸残基构成的蛋白质分块,从而方便以蛋白质分块作为基本单位进行后续分析,充分体现蛋白质结合位点的聚簇特性,进而提高后续的特征表示能力、预测精度和泛用性。
优选地,在接收待预测的蛋白质序列之前,通过机器学习训练得到氨基酸残基分类模型。优选地,可以使用Stacking集成学习算法来进行机器学习,从而提高氨基酸残基分类模型的分类准确性和泛化能力。
优选地,在通过机器学习训练得到氨基酸残基分类模型时,首先使用预设的滑动窗口和滑动步长对预设训练集中的训练蛋白质序列进行序列划分,得到组成该训练蛋白质序列的多个训练氨基酸子序列,然后根据得到的多个训练氨基酸子序列构建训练蛋白质序列的训练词向量,训练词向量的训练词元素表示每个训练氨基酸子序列,对训练词元素进行文档特征提取,根据提取的文档特征构建训练蛋白质序列的文档特征训练向量,并对训练词元素表示的训练氨基酸子序列进行蛋白质链生物学特征提取,根据提取到的生物学特征构建训练蛋白质序列的生物学特征训练向量,最后使用文档特征训练向量和生物学特征训练向量表示的训练氨基酸子序列对预先构建的分类模型进行训练,当达到预设的训练结束条件时,将训练得到分类模型设置为氨基酸残基分类模型,从而为后续的氨基酸残基分类提供了分类模型,提高了分类模型的分类效率。其中,训练结束条件可以设置为训练次数到的预设次数或者训练过程中的损失达到预设值。
具体地,在得到多种类型的特征后,使用Stacking集成学习算法来训练预设的模型,以得到氨基酸残基分类模型。Stacking模型第一层分别使用不同种类的蛋白质链生物学特征训练多种基分类器,之后将多种基分类器的预测结果与文档特征向量进行拼接,以此作为最终的特征向量进行训练,得到氨基酸残基分类模型。
在步骤S102中,根据得到的多个氨基酸子序列构建蛋白质序列的词向量,词向量的词元素表示每个氨基酸子序列,该对词元素进行文档特征提取,根据提取的文档特征构建蛋白质序列的文档特征向量。
在本发明实施例中,序列划分得到多个氨基酸子序列后,首先根据氨基酸子序列构建蛋白质序列的词向量,其中,该词向量的词元素表示每个氨基酸子序列,然后对词元素进行文档特征提取,最后根据提取的文档特征构建蛋白质序列的文档特征向量。其中,提取的文档特征包括TFIDF序列特征和N-gram序列特征等特征。
优选地,在根据氨基酸子序列构建蛋白质序列的词向量时,对每种氨基酸子序列分配一个唯一编号并使用word2vec算法将原始的子序列唯一编号映射到K维向量空间中,得到蛋白质序列的词向量。这样可以有效地降低特征维度,为文本数据寻求更加深层次的特征表示,并且利用了高维词向量中的所有数据,使得数据规模更大,有利于提高后续的分类效果。
在步骤S103中,对词元素表示的氨基酸子序列进行蛋白质链生物学特征提取,根据提取到的生物学特征构建蛋白质序列的生物学特征向量。
在本发明实施例中,首先对序列划分得到的氨基酸子序列进行蛋白质链生物学特征提取,然后根据提取到的生物学特征,构建蛋白质序列的生物学特征向量,其中,提取的生物学特征包括位置特异性打分矩阵特征和伪氨基酸组成特征等特征,从而有效地表示氨基酸在序列中出现顺序等局部信息,增强了特征向量对蛋白质序列信息的表示能力,进而提高了生物学特征向量中生物学特征的全面性。
在步骤S104中,使用预设的氨基酸残基分类模型对使用文档特征向量和生物学特征向量表示的氨基酸子序列进行分类,得到蛋白质序列的氨基酸残基类型。
在本发明实施例中,氨基酸残基类型用于说明氨基酸残基是否为蛋白质序列的结合位点。优选地,在对文档特征向量和生物学特征向量进行分类时,首先对生物学特征向量进行预测,然后将预测的预测结果与文档特征向量进行特征拼接,最后对特征拼接得到的拼接特征向量进行分类,从而进一步提高了蛋白质结合位点预测的准确性。其中,预设的氨基酸残基分类模型为前述训练得到的氨基酸残基分类模型,从而提高蛋白质序列的结合位点的预测准确性。
实施例二:
图2示出了本发明实施例二提供的蛋白质结合位点的预测装置的结构,为了便于说明,仅示出了与本发明实施例相关的部分,其中包括:
序列划分单元21,用于接收待预测的蛋白质序列,使用预设的滑动窗口和滑动步长对蛋白质序列进行序列划分,得到组成该待预测蛋白质序列的多个氨基酸子序列。
第一向量构建单元22,用于根据得到的多个氨基酸子序列构建蛋白质序列的词向量,词向量的词元素表示每个氨基酸子序列,对词元素进行文档特征提取,根据提取的文档特征构建蛋白质序列的文档特征向量。
第二向量构建单元23,用于对词元素表示的氨基酸子序列进行蛋白质链生物学特征提取,根据提取到的生物学特征构建蛋白质序列的生物学特征向量。
结果获取单元24,用于使用预设的氨基酸残基分类模型对使用文档特征向量和生物学特征向量表示的氨基酸子序列进行分类,得到蛋白质序列的氨基酸残基类型。
在本发明实施例中,序列划分单元21接收待预测的蛋白质序列,使用预设的滑动窗口和滑动步长对蛋白质序列进行序列划分,得到组成该待预测蛋白质序列的多个氨基酸子序列,第一向量构建单元22根据得到的多个氨基酸子序列构建蛋白质序列的词向量,该词向量的词元素表示每个氨基酸子序列,对词元素进行文档特征提取,根据提取的文档特征构建蛋白质序列的文档特征向量,第二向量构建单元23对词元素表示的氨基酸子序列进行蛋白质链生物学特征提取,根据提取到的生物学特征构建蛋白质序列的生物学特征向量,结果获取单元24使用预设的氨基酸残基分类模型对使用文档特征向量和生物学特征向量表示的氨基酸子序列进行分类,得到蛋白质序列的氨基酸残基类型,从而提高了蛋白质结合位点预测的准确性和泛用性。
在本发明实施例中,蛋白质结合位点的预测装置的各单元可由相应的硬件或软件单元实现,各单元可以为独立的软、硬件单元,也可以集成为一个软、硬件单元,在此不用以限制本发明。各单元的具体实施方式可参考前述实施例一的描述,在此不再赘述。
实施例三:
图3示出了本发明实施例三提供的蛋白质结合位点的预测装置的结构,为了便于说明,仅示出了与本发明实施例相关的部分,其中包括:
训练序列划分单元31,用于使用预设的滑动窗口和滑动步长对预设训练集中的训练蛋白质序列进行序列划分,得到组成该训练蛋白质序列的多个训练氨基酸子序列。
第一特征处理单元32,用于根据得到的多个训练氨基酸子序列构建训练蛋白质序列的训练词向量,训练词向量的训练词元素表示每个训练氨基酸子序列,对训练词元素进行文档特征提取,根据提取的文档特征构建训练蛋白质序列的文档特征训练向量。
第二特征处理单元33,用于对训练词元素表示的训练氨基酸子序列进行蛋白质链生物学特征提取,根据提取到的生物学特征构建训练蛋白质序列的生物学特征训练向量。
模型训练单元34,用于使用文档特征训练向量和生物学特征训练向量表示的训练氨基酸子序列对预先构建的分类模型进行训练,当达到预设的训练结束条件时,将训练得到分类模型设置为氨基酸残基分类模型。
在本发明实施例中,在接收待预测的蛋白质序列之前,通过机器学习训练得到氨基酸残基分类模型。优选地,可以使用Stacking集成学习算法来进行机器学习,从而提高氨基酸残基分类模型的分类准确性和泛化能力。
具体地,在通过机器学习训练得到氨基酸残基分类模型时,首先训练序列划分单元31使用预设的滑动窗口和滑动步长对预设训练集中的训练蛋白质序列进行序列划分,得到组成该训练蛋白质序列的多个训练氨基酸子序列,然后第一特征处理单元32根据得到的多个训练氨基酸子序列构建训练蛋白质序列的训练词向量,训练词向量的训练词元素表示每个训练氨基酸子序列,对训练词元素进行文档特征提取,根据提取的文档特征构建训练蛋白质序列的文档特征训练向量,第二特征处理单元33对训练词元素表示的训练氨基酸子序列进行蛋白质链生物学特征提取,根据提取到的生物学特征构建训练蛋白质序列的生物学特征训练向量,最后模型训练单元34使用文档特征训练向量和生物学特征训练向量表示的训练氨基酸子序列对预先构建的分类模型进行训练,当达到预设的训练结束条件时,将训练得到分类模型设置为氨基酸残基分类模型,从而为后续的氨基酸残基分类提供了分类模型,提高了分类模型的分类效率。其中,训练结束条件可以设置为训练次数到的预设次数或者训练过程中的损失达到预设值。
具体地,在得到多种类型的特征后,使用Stacking集成学习算法来训练预设的模型,以得到氨基酸残基分类模型。Stacking模型第一层分别使用不同种类的蛋白质链生物学特征训练多种基分类器,之后将多种基分类器的预测结果与文档特征向量进行拼接,以此作为最终的特征向量进行训练,得到氨基酸残基分类模型。
序列划分单元35,用于接收待预测的蛋白质序列,使用预设的滑动窗口和滑动步长对蛋白质序列进行序列划分,得到组成该待预测蛋白质序列的多个氨基酸子序列。
在本发明实施例中,为体现蛋白质-蛋白质结合位点的聚集特性,在接收到待预测的蛋白质序列后,序列划分单元35启动滑动窗口,通过调节滑动窗口大小与滑动步长,对蛋白质序列进行划分,得到组成该待预测蛋白质序列的多个氨基酸子序列,从而将蛋白质序列的局部分块作为后续的分析单元。
在本发明实施例中,优选地,滑动窗口的大小为(2*window+1-2*b),其中,window为预设值,b是随机生成的、大小处于0到window-1之间的变量。这样的滑动窗口中包含了目标残基两侧各window-b个邻域残基,随着窗口在氨基酸序列上的滑动,滑动窗口的大小在3(b=window-1)到2*window+1(b=0)之间随机改变,得到以若干个氨基酸残基构成的蛋白质分块,从而方便以蛋白质分块作为基本单位进行后续分析,充分体现蛋白质结合位点的聚簇特性,进而提高后续的特征表示能力、预测精度和泛用性。
第一向量构建单元36,用于根据得到的多个氨基酸子序列构建蛋白质序列的词向量,词向量的词元素表示每个氨基酸子序列,对词元素进行文档特征提取,根据提取的文档特征构建蛋白质序列的文档特征向量。
在本发明实施例中,序列划分得到多个氨基酸子序列后,第一向量构建单元36首先根据氨基酸子序列构建蛋白质序列的词向量,其中,该词向量的词元素表示每个氨基酸子序列,然后对词元素进行文档特征提取,最后根据提取的文档特征构建蛋白质序列的文档特征向量。其中,提取的文档特征包括TFIDF序列特征和N-gram序列特征等特征。
优选地,在根据氨基酸子序列构建蛋白质序列的词向量时,对每种氨基酸子序列分配一个唯一编号并使用word2vec算法将原始的子序列唯一编号映射到K维向量空间中,得到蛋白质序列的词向量。这样可以有效地降低特征维度,为文本数据寻求更加深层次的特征表示,并且利用了高维词向量中的所有数据,使得数据规模更大,有利于提高后续的分类效果。
第二向量构建单元37,用于对词元素表示的氨基酸子序列进行蛋白质链生物学特征提取,根据提取到的生物学特征构建蛋白质序列的生物学特征向量。
在本发明实施例中,第二向量构建单元37首先对序列划分得到的氨基酸子序列进行蛋白质链生物学特征提取,然后根据提取到的生物学特征,构建蛋白质序列的生物学特征向量,其中,提取的生物学特征包括位置特异性打分矩阵特征和伪氨基酸组成特征等特征,从而有效地表示氨基酸在序列中出现顺序等局部信息,增强了特征向量对蛋白质序列信息的表示能力,进而提高了生物学特征向量中生物学特征的全面性。
结果获取单元38,用于使用预设的氨基酸残基分类模型对使用文档特征向量和生物学特征向量表示的氨基酸子序列进行分类,得到蛋白质序列的氨基酸残基类型。
在本发明实施例中,氨基酸残基类型用于说明氨基酸残基是否为蛋白质序列的结合位点。优选地,在对文档特征向量和生物学特征向量进行分类时,首先对生物学特征向量进行预测,然后将预测的预测结果与文档特征向量进行特征拼接,最后对特征拼接得到的拼接特征向量进行分类,从而进一步提高了蛋白质结合位点预测的准确性。其中,预设的氨基酸残基分类模型为前述训练得到的氨基酸残基分类模型,从而提高蛋白质序列的结合位点的预测准确性。
因此,优选地,该结果获取单元38包括:
特征拼接单元381,用于对生物学特征向量进行预测,将预测的预测结果与文档特征向量进行特征拼接;以及
特征分类单元382,用于对特征拼接得到的拼接特征向量进行分类。
在本发明实施例中,蛋白质结合位点的预测装置的各单元可由相应的硬件或软件单元实现,各单元可以为独立的软、硬件单元,也可以集成为一个软、硬件单元,在此不用以限制本发明。
实施例四:
图4示出了本发明实施例四提供的计算设备的结构,为了便于说明,仅示出了与本发明实施例相关的部分。
本发明实施例的计算设备4包括处理器40、存储器41以及存储在存储器41中并可在处理器40上运行的计算机程序42。该处理器40执行计算机程序42时实现上述蛋白质结合位点的预测方法实施例中的步骤,例如图1所示的步骤S101至S104。或者,处理器40执行计算机程序42时实现上述各装置实施例中各单元的功能,例如图2所示单元21至24、图3所示单元31至38的功能。
在本发明实施例中,该处理器40执行计算机程序42时实现上述各个蛋白质结合位点的预测方法实施例中的步骤时,接收待预测的蛋白质序列,使用预设的滑动窗口和滑动步长对蛋白质序列进行序列划分,得到组成该待预测蛋白质序列的多个氨基酸子序列,根据得到的多个氨基酸子序列构建蛋白质序列的词向量,该词向量的词元素表示每个氨基酸子序列,对词元素进行文档特征提取,根据提取的文档特征构建蛋白质序列的文档特征向量,对词元素表示的氨基酸子序列进行蛋白质链生物学特征提取,根据提取到的生物学特征构建蛋白质序列的生物学特征向量,使用预设的氨基酸残基分类模型对使用文档特征向量和生物学特征向量表示的氨基酸子序列进行分类,得到蛋白质序列的氨基酸残基类型,从而提高了蛋白质结合位点预测的准确性和泛用性。该计算设备4中处理器40在执行计算机程序42时实现的步骤具体可参考实施例一中方法的描述,在此不再赘述。
实施例五:
在本发明实施例中,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述蛋白质结合位点的预测方法实施例中的步骤,例如,图1所示的步骤S101至S104。或者,该计算机程序被处理器执行时实现上述各装置实施例中各单元的功能,例如图2所示单元21至24、图3所示单元31至38的功能。
在本发明实施例中,接收待预测的蛋白质序列,使用预设的滑动窗口和滑动步长对蛋白质序列进行序列划分,得到组成该待预测蛋白质序列的多个氨基酸子序列,根据得到的多个氨基酸子序列构建蛋白质序列的词向量,该词向量的词元素表示每个氨基酸子序列,对词元素进行文档特征提取,根据提取的文档特征构建蛋白质序列的文档特征向量,对词元素表示的氨基酸子序列进行蛋白质链生物学特征提取,根据提取到的生物学特征构建蛋白质序列的生物学特征向量,使用预设的氨基酸残基分类模型对使用文档特征向量和生物学特征向量表示的氨基酸子序列进行分类,得到蛋白质序列的氨基酸残基类型,从而提高了蛋白质结合位点预测的准确性和泛用性。该计算机程序被处理器执行时实现的蛋白质结合位点的预测方法进一步可参考前述方法实施例中步骤的描述,在此不再赘述。
本发明实施例的计算机可读存储介质可以包括能够携带计算机程序代码的任何实体或装置、记录介质,例如,ROM/RAM、磁盘、光盘、闪存等存储器。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种蛋白质结合位点的预测方法,其特征在于,所述方法包括下述步骤:
接收待预测的蛋白质序列,使用预设的滑动窗口和滑动步长对所述蛋白质序列进行序列划分,得到组成所述蛋白质序列的多个氨基酸子序列;
根据所述多个氨基酸子序列构建所述蛋白质序列的词向量,所述词向量的词元素表示每个所述氨基酸子序列,对所述词元素进行文档特征提取,根据提取的文档特征构建所述蛋白质序列的文档特征向量;
对所述词元素表示的氨基酸子序列进行蛋白质链生物学特征提取,根据提取到的生物学特征构建所述蛋白质序列的生物学特征向量;
使用预设的氨基酸残基分类模型对使用所述文档特征向量和所述生物学特征向量表示的氨基酸子序列进行分类,得到所述蛋白质序列的氨基酸残基类型。
2.如权利要求1所述的方法,其特征在于,接收待预测的蛋白质序列的步骤之前,所述方法还包括:
使用预设的滑动窗口和滑动步长对预设训练集中的训练蛋白质序列进行序列划分,得到组成所述训练蛋白质序列的多个训练氨基酸子序列;
根据所述多个训练氨基酸子序列构建所述训练蛋白质序列的训练词向量,所述训练词向量的训练词元素表示每个所述训练氨基酸子序列,对所述训练词元素进行文档特征提取,根据提取的文档特征构建所述训练蛋白质序列的文档特征训练向量;
对所述训练词元素表示的训练氨基酸子序列进行蛋白质链生物学特征提取,根据提取到的生物学特征构建所述训练蛋白质序列的生物学特征训练向量;
使用所述文档特征训练向量和生物学特征训练向量表示的训练氨基酸子序列对预先构建的分类模型进行训练,当达到预设的训练结束条件时,将训练得到分类模型设置为所述氨基酸残基分类模型。
3.如权利要求1所述的方法,其特征在于,所述预设的滑动窗口的大小为(2*window+1-2*b),所述window为预设值,所述b是随机生成的、大小位于0到window-1之间的变量。
4.如权利要求1或2所述的方法,其特征在于,所述文档特征包括TFIDF序列特征和N-gram序列特征,所述生物学特征包括位置特异性打分矩阵特征和伪氨基酸组成特征。
5.如权利要求1所述的方法,其特征在于,使用预设的氨基酸残基分类模型对所述文档特征向量和所述生物学特征向量进行分类的步骤,包括:
对所述生物学特征向量进行预测,将预测的预测结果与所述文档特征向量进行特征拼接;
对所述特征拼接得到的拼接特征向量进行分类。
6.一种蛋白质结合位点的预测装置,其特征在于,所述装置包括:
序列划分单元,用于接收待预测的蛋白质序列,使用预设的滑动窗口和滑动步长对所述蛋白质序列进行序列划分,得到组成所述蛋白质序列的多个氨基酸子序列;
第一向量构建单元,用于根据所述多个氨基酸子序列构建所述蛋白质序列的词向量,所述词向量的词元素表示每个所述氨基酸子序列,对所述词元素进行文档特征提取,根据提取的文档特征构建所述蛋白质序列的文档特征向量;
第二向量构建单元,用于对所述词元素表示的氨基酸子序列进行蛋白质链生物学特征提取,根据提取到的生物学特征构建所述蛋白质序列的生物学特征向量;以及
结果获取单元,用于使用预设的氨基酸残基分类模型对使用所述文档特征向量和所述生物学特征向量表示的氨基酸子序列进行分类,得到所述蛋白质序列的氨基酸残基类型。
7.如权利要求6所述的装置,其特征在于,所述装置还包括:
训练序列划分单元,用于使用预设的滑动窗口和滑动步长对预设训练集中的训练蛋白质序列进行序列划分,得到组成所述训练蛋白质序列的多个训练氨基酸子序列;
第一特征处理单元,用于根据所述多个训练氨基酸子序列构建所述训练蛋白质序列的训练词向量,所述训练词向量的训练词元素表示每个所述训练氨基酸子序列,对所述训练词元素进行文档特征提取,根据提取的文档特征构建所述训练蛋白质序列的文档特征训练向量;
第二特征处理单元,用于对所述训练词元素表示的训练氨基酸子序列进行蛋白质链生物学特征提取,根据提取到的生物学特征构建所述训练蛋白质序列的生物学特征训练向量;以及
模型训练单元,用于使用所述文档特征训练向量和生物学特征训练向量表示的训练氨基酸子序列对预先构建的分类模型进行训练,当达到预设的训练结束条件时,将训练得到分类模型设置为所述氨基酸残基分类模型。
8.如权利要求6所述的装置,其特征在于,所述结果获取单元包括:
特征拼接单元,用于对所述生物学特征向量进行预测,将预测的预测结果与所述文档特征向量进行特征拼接;以及
特征分类单元,用于对所述特征拼接得到的拼接特征向量进行分类。
9.一种计算设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710770933.2A CN107563150B (zh) | 2017-08-31 | 2017-08-31 | 蛋白质结合位点的预测方法、装置、设备及存储介质 |
PCT/CN2017/100314 WO2019041333A1 (zh) | 2017-08-31 | 2017-09-04 | 蛋白质结合位点的预测方法、装置、设备及存储介质 |
JP2019511995A JP6850874B2 (ja) | 2017-08-31 | 2017-09-04 | タンパク質結合部位予測の方法、装置、設備及び記憶媒体 |
US16/255,857 US11620567B2 (en) | 2017-08-31 | 2019-01-24 | Method, apparatus, device and storage medium for predicting protein binding site |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710770933.2A CN107563150B (zh) | 2017-08-31 | 2017-08-31 | 蛋白质结合位点的预测方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107563150A true CN107563150A (zh) | 2018-01-09 |
CN107563150B CN107563150B (zh) | 2021-03-19 |
Family
ID=60977894
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710770933.2A Expired - Fee Related CN107563150B (zh) | 2017-08-31 | 2017-08-31 | 蛋白质结合位点的预测方法、装置、设备及存储介质 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11620567B2 (zh) |
JP (1) | JP6850874B2 (zh) |
CN (1) | CN107563150B (zh) |
WO (1) | WO2019041333A1 (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108830043A (zh) * | 2018-06-21 | 2018-11-16 | 苏州大学 | 基于结构网络模型的蛋白质功能位点预测方法 |
CN109147868A (zh) * | 2018-07-18 | 2019-01-04 | 深圳大学 | 蛋白质功能预测方法、装置、设备及存储介质 |
CN109215737A (zh) * | 2018-09-30 | 2019-01-15 | 东软集团股份有限公司 | 蛋白质特征提取、功能模型生成、功能预测的方法及装置 |
CN109326324A (zh) * | 2018-09-30 | 2019-02-12 | 河北省科学院应用数学研究所 | 一种抗原表位的检测方法、系统及终端设备 |
CN109637580A (zh) * | 2018-12-06 | 2019-04-16 | 上海交通大学 | 一种蛋白质氨基酸关联矩阵预测方法 |
CN109767814A (zh) * | 2019-01-17 | 2019-05-17 | 中国科学院新疆理化技术研究所 | 一种基于GloVe模型的氨基酸全局特征向量表示方法 |
CN110335640A (zh) * | 2019-07-09 | 2019-10-15 | 河南师范大学 | 一种药物-DBPs结合位点的预测方法 |
CN110706738A (zh) * | 2019-10-30 | 2020-01-17 | 腾讯科技(深圳)有限公司 | 蛋白质的结构信息预测方法、装置、设备及存储介质 |
CN111091874A (zh) * | 2019-12-20 | 2020-05-01 | 东软集团股份有限公司 | 蛋白质特征构建方法、装置、设备、存储介质及程序产品 |
CN111091871A (zh) * | 2019-12-19 | 2020-05-01 | 上海交通大学 | 基于融合领域规则和深度学习的蛋白质信号肽及其切割位点预测实现方法 |
CN111462822A (zh) * | 2020-04-29 | 2020-07-28 | 北京晶派科技有限公司 | 一种蛋白质序列特征的生成方法、装置和计算设备 |
CN111599412A (zh) * | 2020-04-24 | 2020-08-28 | 山东大学 | 基于词向量与卷积神经网络的dna复制起始区域识别方法 |
CN116844637A (zh) * | 2023-07-07 | 2023-10-03 | 北京分子之心科技有限公司 | 一种获取第一源抗体序列对应的第二源蛋白质序列的方法与设备 |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11676685B2 (en) | 2019-03-21 | 2023-06-13 | Illumina, Inc. | Artificial intelligence-based quality scoring |
US11210554B2 (en) | 2019-03-21 | 2021-12-28 | Illumina, Inc. | Artificial intelligence-based generation of sequencing metadata |
US11593649B2 (en) | 2019-05-16 | 2023-02-28 | Illumina, Inc. | Base calling using convolutions |
CN110517730A (zh) * | 2019-09-02 | 2019-11-29 | 河南师范大学 | 一种基于机器学习识别嗜热蛋白的方法 |
CN112818679A (zh) * | 2019-11-15 | 2021-05-18 | 阿里巴巴集团控股有限公司 | 事件类别确定方法、装置及电子设备 |
CN111091865B (zh) * | 2019-12-20 | 2023-04-07 | 东软集团股份有限公司 | MoRFs预测模型的生成方法、装置、设备和存储介质 |
CN111063393B (zh) * | 2019-12-26 | 2023-04-07 | 青岛科技大学 | 基于信息融合和深度学习的原核生物乙酰化位点预测方法 |
EP4107735A2 (en) | 2020-02-20 | 2022-12-28 | Illumina, Inc. | Artificial intelligence-based many-to-many base calling |
CN112489723B (zh) * | 2020-12-01 | 2022-09-06 | 南京理工大学 | 基于局部进化信息的dna结合蛋白预测方法 |
US20220336054A1 (en) | 2021-04-15 | 2022-10-20 | Illumina, Inc. | Deep Convolutional Neural Networks to Predict Variant Pathogenicity using Three-Dimensional (3D) Protein Structures |
CN113299339B (zh) * | 2021-05-28 | 2024-05-07 | 平安科技(深圳)有限公司 | 基于深度学习的药物疗效预测方法、装置、设备以及存储介质 |
CN114023376B (zh) * | 2021-11-02 | 2023-04-18 | 四川大学 | 基于自注意力机制的rna-蛋白质结合位点预测方法和系统 |
CN114927165B (zh) * | 2022-07-20 | 2022-12-02 | 深圳大学 | 泛素化位点的识别方法、装置、系统和存储介质 |
CN116884473B (zh) * | 2023-05-22 | 2024-04-26 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种蛋白质功能预测模型生成方法及装置 |
CN117711532B (zh) * | 2024-02-05 | 2024-05-10 | 北京悦康科创医药科技股份有限公司 | 多肽氨基酸序列生成模型训练方法以及多肽氨基酸序列生成方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1773517A (zh) * | 2005-11-10 | 2006-05-17 | 上海交通大学 | 基于中文分词技术的蛋白质序列特征提取方法 |
CN103473483A (zh) * | 2013-10-07 | 2013-12-25 | 谢华林 | 一种蛋白质结构与功能的在线预测方法 |
CN105930318A (zh) * | 2016-04-11 | 2016-09-07 | 深圳大学 | 一种词向量训练方法及系统 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102760210A (zh) * | 2012-06-19 | 2012-10-31 | 南京理工大学常熟研究院有限公司 | 一种蛋白质三磷酸腺苷绑定位点预测方法 |
US20150278441A1 (en) * | 2014-03-25 | 2015-10-01 | Nec Laboratories America, Inc. | High-order semi-Restricted Boltzmann Machines and Deep Models for accurate peptide-MHC binding prediction |
CN104077499B (zh) * | 2014-05-25 | 2018-01-05 | 南京理工大学 | 基于有监督上采样学习的蛋白质‑核苷酸绑定位点预测方法 |
US9652688B2 (en) * | 2014-11-26 | 2017-05-16 | Captricity, Inc. | Analyzing content of digital images |
CN104992079B (zh) * | 2015-06-29 | 2018-07-06 | 南京理工大学 | 基于采样学习的蛋白质-配体绑定位点预测方法 |
-
2017
- 2017-08-31 CN CN201710770933.2A patent/CN107563150B/zh not_active Expired - Fee Related
- 2017-09-04 WO PCT/CN2017/100314 patent/WO2019041333A1/zh active Application Filing
- 2017-09-04 JP JP2019511995A patent/JP6850874B2/ja active Active
-
2019
- 2019-01-24 US US16/255,857 patent/US11620567B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1773517A (zh) * | 2005-11-10 | 2006-05-17 | 上海交通大学 | 基于中文分词技术的蛋白质序列特征提取方法 |
CN103473483A (zh) * | 2013-10-07 | 2013-12-25 | 谢华林 | 一种蛋白质结构与功能的在线预测方法 |
CN105930318A (zh) * | 2016-04-11 | 2016-09-07 | 深圳大学 | 一种词向量训练方法及系统 |
Non-Patent Citations (2)
Title |
---|
杨骥: "基于序列与结构特征结合的蛋白质与DNA绑定位点预测", 《计算机与现代化》 * |
魏华夏: "基于氨基酸属性和机器学习的蛋白质相互作用位点预测研究", 《中国优秀硕士学位论文全文数据库 基础科学辑》 * |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108830043B (zh) * | 2018-06-21 | 2021-03-30 | 苏州大学 | 基于结构网络模型的蛋白质功能位点预测方法 |
CN108830043A (zh) * | 2018-06-21 | 2018-11-16 | 苏州大学 | 基于结构网络模型的蛋白质功能位点预测方法 |
CN109147868A (zh) * | 2018-07-18 | 2019-01-04 | 深圳大学 | 蛋白质功能预测方法、装置、设备及存储介质 |
CN109215737A (zh) * | 2018-09-30 | 2019-01-15 | 东软集团股份有限公司 | 蛋白质特征提取、功能模型生成、功能预测的方法及装置 |
CN109326324A (zh) * | 2018-09-30 | 2019-02-12 | 河北省科学院应用数学研究所 | 一种抗原表位的检测方法、系统及终端设备 |
CN109326324B (zh) * | 2018-09-30 | 2022-01-25 | 河北省科学院应用数学研究所 | 一种抗原表位的检测方法、系统及终端设备 |
CN109637580A (zh) * | 2018-12-06 | 2019-04-16 | 上海交通大学 | 一种蛋白质氨基酸关联矩阵预测方法 |
CN109637580B (zh) * | 2018-12-06 | 2023-06-13 | 上海交通大学 | 一种蛋白质氨基酸关联矩阵预测方法 |
CN109767814A (zh) * | 2019-01-17 | 2019-05-17 | 中国科学院新疆理化技术研究所 | 一种基于GloVe模型的氨基酸全局特征向量表示方法 |
CN110335640A (zh) * | 2019-07-09 | 2019-10-15 | 河南师范大学 | 一种药物-DBPs结合位点的预测方法 |
CN110335640B (zh) * | 2019-07-09 | 2022-01-25 | 河南师范大学 | 一种药物-DBPs结合位点的预测方法 |
CN110706738A (zh) * | 2019-10-30 | 2020-01-17 | 腾讯科技(深圳)有限公司 | 蛋白质的结构信息预测方法、装置、设备及存储介质 |
CN111091871B (zh) * | 2019-12-19 | 2022-02-18 | 上海交通大学 | 蛋白质信号肽及其切割位点预测实现方法 |
CN111091871A (zh) * | 2019-12-19 | 2020-05-01 | 上海交通大学 | 基于融合领域规则和深度学习的蛋白质信号肽及其切割位点预测实现方法 |
CN111091874A (zh) * | 2019-12-20 | 2020-05-01 | 东软集团股份有限公司 | 蛋白质特征构建方法、装置、设备、存储介质及程序产品 |
CN111091874B (zh) * | 2019-12-20 | 2024-01-19 | 东软集团股份有限公司 | 蛋白质特征构建方法、装置、设备、存储介质及程序产品 |
CN111599412A (zh) * | 2020-04-24 | 2020-08-28 | 山东大学 | 基于词向量与卷积神经网络的dna复制起始区域识别方法 |
CN111599412B (zh) * | 2020-04-24 | 2024-03-29 | 山东大学 | 基于词向量与卷积神经网络的dna复制起始区域识别方法 |
CN111462822A (zh) * | 2020-04-29 | 2020-07-28 | 北京晶派科技有限公司 | 一种蛋白质序列特征的生成方法、装置和计算设备 |
CN111462822B (zh) * | 2020-04-29 | 2023-12-05 | 北京晶泰科技有限公司 | 一种蛋白质序列特征的生成方法、装置和计算设备 |
CN116844637A (zh) * | 2023-07-07 | 2023-10-03 | 北京分子之心科技有限公司 | 一种获取第一源抗体序列对应的第二源蛋白质序列的方法与设备 |
CN116844637B (zh) * | 2023-07-07 | 2024-02-09 | 北京分子之心科技有限公司 | 一种获取第一源抗体序列对应的第二源蛋白质序列的方法与设备 |
Also Published As
Publication number | Publication date |
---|---|
WO2019041333A1 (zh) | 2019-03-07 |
US11620567B2 (en) | 2023-04-04 |
JP6850874B2 (ja) | 2021-03-31 |
CN107563150B (zh) | 2021-03-19 |
US20190156915A1 (en) | 2019-05-23 |
JP2019535057A (ja) | 2019-12-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107563150A (zh) | 蛋白质结合位点的预测方法、装置、设备及存储介质 | |
CN111312329B (zh) | 基于深度卷积自动编码器的转录因子结合位点预测的方法 | |
Can | Introduction to bioinformatics | |
JP2019535057A5 (zh) | ||
CN106649853A (zh) | 一种基于深度学习的短文本聚类方法 | |
CN104346629A (zh) | 一种模型参数训练方法、装置及系统 | |
Robin et al. | PanelomiX: a threshold-based algorithm to create panels of biomarkers | |
Goolsby | Likelihood-based parameter estimation for high-dimensional phylogenetic comparative models: overcoming the limitations of “distance-based” methods | |
CN111461168A (zh) | 训练样本扩充方法、装置、电子设备及存储介质 | |
Nguyen et al. | A deep manifold-regularized learning model for improving phenotype prediction from multi-modal data | |
CN109063418A (zh) | 疾病预测分类器的确定方法、装置、设备及可读存储介质 | |
Tian et al. | Model-based autoencoders for imputing discrete single-cell RNA-seq data | |
CN112052663A (zh) | 客服语句质检方法及相关设备 | |
CN111639500A (zh) | 语义角色标注方法、装置、计算机设备及存储介质 | |
Osman et al. | Hybrid learning algorithm in neural network system for enzyme classification | |
CN114999566A (zh) | 基于词向量表征和注意力机制的药物重定位方法及系统 | |
US20230326542A1 (en) | Genomic sequence dataset generation | |
Bichat et al. | Hierarchical correction of p-values via an ultrametric tree running Ornstein-Uhlenbeck process | |
Wagner | Monet: An open-source Python package for analyzing and integrating scRNA-Seq data using PCA-based latent spaces | |
WO2021114626A1 (zh) | 一种病历数据的质量检测方法和相关装置 | |
Sharma et al. | Using machine learning to determine the time of exposure to infection by a respiratory pathogen | |
Sanchez-Gendriz et al. | Gene Sequence to 2D Vector Transformation for Virus Classification | |
Putri et al. | Dimensionality reduction for clustering and cluster tracking of cytometry data | |
EP4270398A1 (en) | Method for visualization of developmental landscapes from single-cell multimodal data | |
Siren | Statistical models for inferring the structure and history of populations from genetic data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210319 Termination date: 20210831 |
|
CF01 | Termination of patent right due to non-payment of annual fee |