CN109326324A - 一种抗原表位的检测方法、系统及终端设备 - Google Patents
一种抗原表位的检测方法、系统及终端设备 Download PDFInfo
- Publication number
- CN109326324A CN109326324A CN201811153746.0A CN201811153746A CN109326324A CN 109326324 A CN109326324 A CN 109326324A CN 201811153746 A CN201811153746 A CN 201811153746A CN 109326324 A CN109326324 A CN 109326324A
- Authority
- CN
- China
- Prior art keywords
- epitope
- sample
- vector
- amino acid
- feature vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Peptides Or Proteins (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明适用于计算机应用技术领域,提供了一种抗原表位的检测方法、系统以及终端设备,所述方法包括:获取训练样本和待检测蛋白质序列,训练样本包括表位样本和非表位样本,表位样本为包含抗原表位的蛋白质序列,非表位样本为未包含抗原表位的蛋白质序列,分别提取表位样本的特征向量和非表位样本的特征向量,利用表位样本的特征向量和非表位样本的特征向量对标准神经网络模型进行训练,得到预测神经网络模型,提取待检测蛋白质序列的特征向量,并将待检测蛋白质序列的特征向量输入至预测神经网络模型中,得到对应的抗原表位检测结果,所需步骤较少以及耗时较短。
Description
技术领域
本发明属于计算机应用技术领域,尤其涉及一种抗原表位的检测方法、系统及终端设备。
背景技术
在抗原抗体的结合反应中,抗体参与结合的部位称抗体的对位,抗原参与结合的部位称抗原的表位。表位就是抗原中能被免疫细胞特异性识别的线性片段或空间构象性结构,是引起免疫应答和免疫反应的基本单位。
现有技术中,一般是通过X-射线衍射方法确定细胞的表位,通过X-射线衍射方法确定抗原表位的过程比较繁琐,需要进行的步骤较多,工作量大,耗时较长。
发明内容
有鉴于此,本发明实施例提供了一种抗原表位的检测方法、系统及终端设备,以解决现有技术中通过X-射线衍射方法确定细胞的表位存在步骤繁琐以及耗时较长的问题。
本发明实施例的第一方面提供了一种抗原表位的检测方法,包括:
获取训练样本和待检测蛋白质序列,所述训练样本包括表位样本和非表位样本,所述表位样本为包含抗原表位的蛋白质序列,所述非表位样本为未包含抗原表位的蛋白质序列;
分别提取所述表位样本的特征向量和所述非表位样本的特征向量;
利用所述表位样本的特征向量和所述非表位样本的特征向量对标准神经网络模型进行训练,得到预测神经网络模型;
提取所述待检测蛋白质序列的特征向量,并将所述待检测蛋白质序列的特征向量输入至所述预测神经网络模型中,得到对应的抗原表位检测结果。
本发明实施例的第二方面提供了一种抗原表位的检测系统,包括:
样本获取模块,用于获取训练样本和待检测蛋白质序列,所述训练样本包括表位样本和非表位样本,所述表位样本为包含抗原表位的蛋白质序列,所述非表位样本为未包含抗原表位的蛋白质序列;
特征向量提取模块,用于分别提取所述表位样本的特征向量和所述非表位样本的特征向量;
神经网络模型生成模块,用于利用所述表位样本的特征向量和所述非表位样本的特征向量对标准神经网络模型进行训练,得到预测神经网络模型;
表位检测结果生成模块,用于提取所述待检测蛋白质序列的特征向量,并将所述待检测蛋白质序列的特征向量输入至所述预测神经网络模型中,得到对应的抗原表位检测结果。
本发明实施例的第三方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述抗原表位的检测方法的步骤。
本发明实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上所述抗原表位的检测方法的步骤。
本发明实施例与现有技术相比存在的有益效果是:本发明实施例通过获取训练样本和待检测蛋白质序列,训练样本包括表位样本和非表位样本,表位样本为包含抗原表位的蛋白质序列,非表位样本为未包含抗原表位的蛋白质序列,分别提取表位样本的特征向量和非表位样本的特征向量,利用表位样本的特征向量和非表位样本的特征向量对标准神经网络模型进行训练,得到预测神经网络模型,提取待检测蛋白质序列的特征向量,并将待检测蛋白质序列的特征向量输入至预测神经网络模型中,得到对应的抗原表位检测结果。本发明实施例分别提取表位样本的特征向量和非表位样本的特征向量,利用表位样本的特征向量和非表位样本的特征向量对标准神经网络模型进行训练,得到可以判断出蛋白质序列是否包含抗原表位的预测神经网络模型,当需要判断一段蛋白质序列是否包含抗原表位时,直接提取该蛋白质序列的特征向量,将该特征向量输入至预测神经网络模型中,便可以得到该蛋白质序列对应的抗原表位检测结果,所需步骤较少以及耗时较短,有效解决了现有技术中通过X-射线衍射方法确定细胞的表位存在步骤繁琐以及耗时较长的问题。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例提供的抗原表位的检测方法的实现流程示意图;
图2是本发明另一个实施例提供的抗原表位的检测方法的实现流程示意图;
图3是本发明一个实施例提供的抗原表位的检测系统的结构示意图;
图4是本发明一个实施例提供的位置特征向量提取单元的具体结构示意图;
图5是本发明一个实施例提供的终端设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
实施例1:
图1示出了本发明的一个实施例提供的抗原表位的检测方法的实现流程,其过程详述如下:
在步骤S101中,获取训练样本和待检测蛋白质序列,训练样本包括表位样本和非表位样本,表位样本为包含抗原表位的蛋白质序列,非表位样本为未包含抗原表位的蛋白质序列。
在本实施例中,待检测蛋白质序列为一段由氨基酸组成的蛋白质序列,例如,待检测蛋白质序列是由20个氨基酸组成,其可以通过最终搭建的预测神经网络模型检测蛋白质序列中是否包括抗原表位。
在本实施例中,表位样本是从表位数据库(例如,IEDB数据库)中获取到的,非表位样本是从蛋白质数据库(例如,Uniport蛋白质数据库)中获取到的。包含抗原表位的蛋白质序列是经标记为抗原表位的蛋白质序列片段,未包含抗原表位的蛋白质序列是未经标记为表位的蛋白质序列片段。
其中,抗原表位为线性表位,即连续性表位。蛋白质序列的结构为一级结构。
在步骤S102中,分别提取表位样本的特征向量和非表位样本的特征向量。
在本发明的一个实施例中,步骤S102包括:
1)提取表位样本的位置特征向量。
2)提取表位样本的理化特征向量。
3)将位置特征向量和理化特征向量进行组合,得到表位样本的特征向量。
在本发明的一个实施例中,理化特征向量包括亲水特征向量。
在本发明的一个实施例中,所述提取所述表位样本的理化特征向量,包括:
1)获取表位样本中的每个氨基酸的亲水度。
2)将所有氨基酸的亲水度进行排列,得到亲水特征向量。
在本实施例中,从预存理化性质表中获取每个氨基酸的亲水度,将每个氨基酸的亲水度依次进行排列,得到亲水特征向量,例如,表位样本为ACDA,即包含抗原表位的蛋白质序列为ACDA,从预存理化性质表中获取丙氨酸A的亲水度为-0.5,半胱氨酸C的亲水度为-1.0,天冬氨酸D的亲水度为3.0和丙氨酸A的亲水度为-0.5,将丙氨酸A的亲水度、半胱氨酸C的亲水度、天冬氨酸D的亲水度和丙氨酸A的亲水度依次进行排列,得到亲水特征向量为(-0.5,-1.0,3.0,-0.5)。
在本实施例中,每个氨基酸的亲水度是研究人员根据氨基酸的亲水性设定的。
在本发明的一个实施例中,理化特征向量包括疏水特征向量。
在本发明的一个实施例中,所述提取所述表位样本的理化特征向量,包括:
1)获取表位样本中的每个氨基酸的疏水度。
2)将所有氨基酸的疏水度进行排列,得到疏水特征向量。
在本实施例中,从预存氨基酸理化性质表中获取包含抗原表位的蛋白质序列中的每个氨基酸的疏水度。
在本实施例中,从预存理化性质表中获取每个氨基酸的疏水度,将每个氨基酸的疏水度依次进行排列,得到疏水特征向量,例如,表位样本为ACDA,从预存理化性质表中获取丙氨酸A的疏水度为0.62,半胱氨酸C的疏水度为0.29,天冬氨酸D的疏水度为0.90和丙氨酸A的疏水度为0.62,将丙氨酸A的疏水度、半胱氨酸C的疏水度、天冬氨酸D的疏水度和丙氨酸A的疏水度依次进行排列,得到疏水特征向量为(0.62,0.29,0.90,0.62)。
在本实施例中,每个氨基酸的疏水度是研究人员根据氨基酸的亲水性设定的。
在一个实施例中,理化特征向量包括侧链基团特征向量。
在本发明的一个实施例中,所述提取所述表位样本的理化特征向量,包括:
1)获取表位样本中的每个氨基酸的侧链基团数值。
2)将所有氨基酸的侧链基团数值进行排列,得到侧链基团特征向量。
在本实施例中,从预存理化性质表中获取每个氨基酸的侧链基团数值,将每个氨基酸的侧链基团数值依次进行排列,得到侧链基团数值,例如,表位样本为ACDA,从预存理化性质表中获取丙氨酸A的侧链基团数值为15.0,半胱氨酸C的侧链基团数值为47.0,天冬氨酸D的侧链基团数值为59.0和丙氨酸A的侧链基团数值为15.0,将丙氨酸A的侧链基团数值、半胱氨酸C的侧链基团数值、天冬氨酸D的侧链基团数值和丙氨酸A的侧链基团数值依次进行排列,得到侧链基团特征向量为(15.0,47.0,59.0,15.0)。
在本实施例中,每个氨基酸的侧链基团数值是研究人员根据氨基酸包含的侧链基团特征设定的。
在本实施例中,将位置特征向量、亲水特征向量、疏水特征向量和侧链基团特征向量依次进行组合,即将位置特征向量、亲水特征向量、疏水特征向量和侧链基团特征向量中的元素依次进行排列,得到表位样本的特征向量,例如,亲水特征向量为(-0.5,-1.0,3.0,-0.5),疏水特征向量为(0.62,0.29,0.90,0.62),侧链基团特征向量为(15.0,47.0,59.0,15.0),将该四种向量依次进行组合,得到表位样本的特征向量为(-0.5,-1.0,3.0,-0.5,0.62,0.29,0.90,0.62,15.0,47.0,59.0,15.0)。
在一个实施例中,生成非表位样本的特征向量的过程与生成表位样本的特征向量的过程相同,即先提取非表位样本的位置特征向量和理化特征向量,将非表位样本的位置特征向量和理化特征向量进行组合,得到非表位样本的特征向量。
在本实施例中,氨基酸的理化性质也可以体现出表位和非表位之间的差异,因此,可以将氨基酸的理化性质作为表位预测的特征指标。
在步骤S103中,利用表位样本的特征向量和非表位样本的特征向量对标准神经网络模型进行训练,得到预测神经网络模型。
在本实施例中,基于RNN-RBM算法,将表位样本的特征向量和非表位样本的特征向量输入至标准神经网络模型中,对标准神经网络模型进行训练,得到预测神经网络模型。RNN-RBM算法具有改进预测表位能力,该算法能有效获得蛋白质序列的关联信息,在采用多种复合特征作为输入的情况下,有有效降低输入层维度的能力,从而获得更好的预测效果。
在本实施例中,预测神经网络模型可以检测出一段蛋白质序列是否包含抗原表位。
在步骤S104中,提取待检测蛋白质序列的特征向量,并将待检测蛋白质序列的特征向量输入至预测神经网络模型中,得到对应的抗原表位检测结果。
在本实施例中,按照提取表位样本的特征向量的过程提取待检测蛋白质序列的特征向量,即先提取待检测蛋白质序列的蛋白质序列的位置特征向量和理化特征向量,将待检测蛋白质序列的位置特征向量和理化特征向量进行组合,得到待检测蛋白质序列的特征向量,将该待检测蛋白质序列的特征向量输入至预测神经网络模型中,便可以得到该待检测蛋白质序列对应的抗原表位检测结果,抗原表位检测结果包括包含抗原表位和不包含抗原表位。
其中,包含抗原表位是指包含线性表位,不包含抗原表位是指不包含线性表位。通过本方法对待检测蛋白质序列进行抗原表位的检测,检测该待检测蛋白质序列是否包含抗原表位,提高了检测线性表位的准确率。
在本实施例中,分别提取表位样本的特征向量和非表位样本的特征向量,利用利用表位样本的特征向量和非表位样本的特征向量对标准神经网络模型进行训练,得到可以判断出蛋白质序列是否包含抗原表位的预测神经网络模型,当需要判断一段蛋白质序列是否包含抗原表位时,直接提取该蛋白质序列的特征向量,将该特征向量输入至预测神经网络模型中,便可以得到该蛋白质序列对应的抗原表位检测结果,所需步骤较少以及耗时较短,且预测准确率较高。
图2示出了本发明的另一个实施例提供的抗原表位的检测方法的实现流程,其过程详述如下:
在步骤S201中,获取表位样本包含的氨基酸的种类。
在本实施例中,表位样本包含的氨基酸的种类为包含抗原表位的蛋白质序列所包含的氨基酸的种类,即该蛋白质序列包含多少种不同的氨基酸。
在步骤S202中,统计每一种氨基酸在表位样本中的位置信息。
在本实施例中,统计每种氨基酸在抗原表位的蛋白质序列中的位置信息,例如,该蛋白质序列为ACDA,则丙氨酸A的位置信息为1和4,半胱氨酸C的位置信息为2,天冬氨酸的位置信息为3。
在步骤S203中,根据每一种氨基酸的位置信息生成对应的位置向量。
在本实施例中,将每一种氨基酸对应的位置信息进行排列,生成对应的位置向量,例如,上述蛋白质序列ACDA中的丙氨酸A的位置向量为(1,4)。
在步骤S204中,对每一种氨基酸的位置向量进行归一化处理得到对应的概率向量。
在本发明的一个实施例中,步骤S204包括:
1)根据得到一种氨基酸在表位样本中第i次出现的概率值,
其中,di为一种氨基酸在表位样本中第i次出现的位置信息,c为一种氨基酸在表位样本中出现的总次数,pi为一种氨基酸在表位样本中第i次出现的概率值。
2)将一种氨基酸对应的所有概率值进行排列,生成一种氨基酸对应的概率向量。
在本实施例中,依次对该表位样本包含的氨基酸所对应的位置向量进行归一化处理得到该氨基酸对应的概率向量,概率向量中包含的元素的值均在0至1之间。
在本实施例中,氨基酸在表位样本中出现的总次数表示表位样本包含该种氨基酸的数目,即一种氨基酸对应的位置向量中包含的元素的数目。
以一个具体应用场景为例,表位样本为ACDEADA,则丙氨酸A的位置向量为(1,5,7),位置向量中的1表示丙氨酸A在表位样本中第1次出现的位置信息,位置向量中的5表示丙氨酸A在表位样本中第2次出现的位置信息,位置向量中的7表示丙氨酸A在表位样本中第3次出现的位置信息,丙氨酸A在表位样本中出现的总次数为3。
在本实施例中,氨基酸在表位样本中第i次出现的概率值实际为对氨基酸第i次出现的位置进行归一化后的概率值。
在步骤S205中,根据每一种氨基酸的概率向量计算对应的位置熵。
在本发明的一个实施例中,步骤S205包括:
根据计算一种氨基酸的位置熵,h表示一种氨基酸的位置熵。
在本实施例中,依次计算表位样本即包含抗原表位的蛋白质序列中每一种氨基酸的位置熵,例如,表位样本为ACA,则先计算丙氨酸A对应的位置熵,在计算半胱氨酸C对应的位置熵。
在本实施例中,氨基酸的位置熵能够有效体现出氨基酸的位置分布特征,能够很好地体现出表位和非表位之间的差异,因此,将位置熵以此作为特征指标用于表位预测具有很好的效果。
在步骤S206中,将所有种类的氨基酸对应的位置熵进行排列,生成表位样本的位置特征向量。
在本实施例中,获取表位样本包含的所有种类的氨基酸对应的位置熵,并将获取的位置熵依次进行排列,生成位置特征向量。
以一个具体应用场景为例,表位样本为ACDA,包含的氨基酸的种类为A,C和D,丙氨酸A对应的位置熵为a,半胱氨酸C对应的位置熵为c,天冬氨酸D对应的位置熵为d,对a、c和d依次进行排列,得到该表位样本对应的位置特征向量为(a,c,d)。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
实施例2:
图3示出了本发明的一个实施例提供的抗原表位的检测系统100,用于执行图1所对应的实施例中的方法步骤,其包括:
样本获取模块110,用于获取训练样本和待检测蛋白质序列,训练样本包括表位样本和非表位样本,表位样本为包含抗原表位的蛋白质序列,非表位样本为未包含抗原表位的蛋白质序列。
特征向量提取模块120,用于分别提取表位样本的特征向量和非表位样本的特征向量。
神经网络模型生成模块130,用于利用表位样本的特征向量和非表位样本的特征向量对标准神经网络模型进行训练,得到预测神经网络模型。
表位检测结果生成模块140,用于提取待检测蛋白质序列的特征向量,并将待检测蛋白质序列的特征向量输入至预测神经网络模型中,得到对应的抗原表位检测结果。
在本发明的一个实施例中,特征向量提取模块120包括:
位置特征向量提取单元121,用于提取表位样本的位置特征向量。
理化特征向量提取单元122,用于提取表位样本的理化特征向量。
特征向量生成单元123,用于将位置特征向量和理化特征向量进行组合,得到表位样本的特征向量。
在本发明的一个实施例中,理化特征向量包括亲水特征向量。
在本发明的一个实施例中,理化特征向量提取单元122包括:
亲水度获取模块,用于获取表位样本中的每个氨基酸的亲水度。
亲水特征向量生成子单元,用于将所有氨基酸的亲水度进行排列,得到亲水特征向量。
在本发明的一个实施例中,理化特征向量包括疏水特征向量。
在本发明的一个实施例中,理化特征向量提取单元122包括:
疏水度获取模块,用于获取表位样本中的每个氨基酸的疏水度;
疏水特征向量生成子单元,用于将所有氨基酸的疏水度进行排列,得到疏水特征向量。
如图4所示,在本发明的一个实施例中,位置特征向量提取单元121具体包括:
氨基酸种类获取子单元10,用于获取表位样本包含的氨基酸的种类。
位置信息统计子单元20,用于统计每一种氨基酸在表位样本中的位置信息。
位置向量生成子单元30,用于根据每一种氨基酸的位置信息生成对应的位置向量。
概率向量生成子单元40,用于对每一种氨基酸的位置向量进行归一化处理得到对应的概率向量。
位置熵计算子单元50,用于根据每一种氨基酸的概率向量计算对应的位置熵。
位置特征向量生成子单元60,用于将所有种类的氨基酸对应的位置熵进行排列,生成表位样本的位置特征向量。
在本发明的一个实施例中,概率向量生成子单元用于:
1)根据得到一种氨基酸在表位样本中第i次出现的概率值,
其中,di为一种氨基酸在表位样本中第i次出现的位置信息,c为一种氨基酸在表位样本中出现的总次数,pi为一种氨基酸在表位样本中第i次出现的概率值。
2)将一种氨基酸对应的所有概率值进行排列,生成一种氨基酸对应的概率向量。
在本发明的一个实施例中,位置熵计算子单元用于:
根据计算所述一种氨基酸的位置熵,h表示所述一种氨基酸的位置熵。
在一个实施例中,抗原表位的检测系统100还包括其他功能模块/单元,用于实现实施例1中各实施例中的方法步骤。
实施例3:
图5是本发明一实施例提供的终端设备的示意图。如图5所示,该实施例的终端设备5包括:处理器50、存储器51以及存储在所述存储器51中并可在所述处理器50上运行的计算机程序52。所述处理器50执行所述计算机程序52时实现如实施例1中所述的各实施例的步骤,例如图1所示的步骤S101至步骤S104。或者,所述处理器50执行所述计算机程序52时实现如实施例2中所述的各系统实施例中的各模块/单元的功能,例如图3所示模块110至140的功能。
示例性的,所述计算机程序52可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器51中,并由所述处理器50执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序52在所述终端设备5中的执行过程。例如,所述计算机程序52可以被分割成样本获取模块、特征向量提取模块、神经网络模型生成模块和表位检测结果生成模块。各模块具体功能如下:
样本获取模块,用于获取训练样本和待检测蛋白质序列,训练样本包括表位样本和非表位样本,表位样本为包含抗原表位的蛋白质序列,非表位样本为未包含抗原表位的蛋白质序列。
特征向量提取模块,用于分别提取表位样本的特征向量和非表位样本的特征向量。
神经网络模型生成模块,用于利用表位样本的特征向量和非表位样本的特征向量对标准神经网络模型进行训练,得到预测神经网络模型。
表位检测结果生成模块,用于提取待检测蛋白质序列的特征向量,并将待检测蛋白质序列的特征向量输入至预测神经网络模型中,得到对应的抗原表位检测结果。
所述终端设备5可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备5可包括,但不仅限于,处理器50、存储器51。本领域技术人员可以理解,图5仅仅是终端设备5的示例,并不构成对终端设备5的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器50可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器51可以是所述终端设备5的内部存储单元,例如终端设备5的硬盘或内存。所述存储器51也可以是所述终端设备5的外部存储设备,例如所述终端设备5上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器51还可以既包括所述终端设备5的内部存储单元也包括外部存储设备。所述存储器51用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器51还可以用于暂时地存储已经输出或者将要输出的数据。
实施例4:
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现如实施例1中所述的各实施例中的步骤,例如图1所示的步骤S101至步骤S104。或者,所述计算机程序被处理器执行时实现如实施例2中所述的各系统实施例中的各模块/单元的功能,例如图3所示的模块110至140的功能。
所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。
在上述实施例中,对各个实施例的描述都各有侧重,实施例1至4可以任意组合,组合后形成的新的实施例也在本申请的保护范围之内。某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的终端设备和方法,可以通过其它的方式实现。例如,以上所描述的系统/终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种抗原表位的检测方法,其特征在于,包括:
获取训练样本和待检测蛋白质序列,所述训练样本包括表位样本和非表位样本,所述表位样本为包含抗原表位的蛋白质序列,所述非表位样本为未包含抗原表位的蛋白质序列;
分别提取所述表位样本的特征向量和所述非表位样本的特征向量;
利用所述表位样本的特征向量和所述非表位样本的特征向量对标准神经网络模型进行训练,得到预测神经网络模型;
提取所述待检测蛋白质序列的特征向量,并将所述待检测蛋白质序列的特征向量输入至所述预测神经网络模型中,得到对应的抗原表位检测结果。
2.如权利要求1所述的抗原表位的检测方法,其特征在于,所述提取所述表位样本的特征向量,包括:
提取所述表位样本的位置特征向量;
提取所述表位样本的理化特征向量;
将所述位置特征向量和所述理化特征向量进行组合,得到所述表位样本的特征向量。
3.如权利要求2所述的抗原表位的检测方法,其特征在于,所述提取所述表位样本的位置特征向量,包括:
获取所述表位样本包含的氨基酸的种类;
统计每一种氨基酸在所述表位样本中的位置信息;
根据所述每一种氨基酸的位置信息生成对应的位置向量;
对所述每一种氨基酸的位置向量进行归一化处理得到对应的概率向量;
根据所述每一种氨基酸的概率向量计算对应的位置熵;
将所有种类的氨基酸对应的位置熵进行排列,生成所述表位样本的位置特征向量。
4.如权利要求3所述的抗原表位的检测方法,其特征在于,所述对所述每一种氨基酸的位置向量进行归一化处理得到对应的概率向量,包括:
根据得到一种氨基酸在所述表位样本中第i次出现的概率值;
其中,di为所述一种氨基酸在所述表位样本中第i次出现的位置信息,c为所述一种氨基酸在所述表位样本中出现的总次数,pi为所述一种氨基酸在所述表位样本中第i次出现的概率值;
将所述一种氨基酸对应的所有概率值进行排列,生成所述一种氨基酸对应的概率向量。
5.如权利要求4所述的抗原表位的检测方法,其特征在于,所述根据所述每一种氨基酸的概率向量计算对应的位置熵,包括:
根据计算所述一种氨基酸的位置熵,h表示所述一种氨基酸的位置熵。
6.如权利要求1所述的抗原表位的检测方法,其特征在于,所述理化特征向量包括亲水特征向量;
所述提取所述表位样本的理化特征向量,包括:
获取所述表位样本中的每个氨基酸的亲水度;
将所有氨基酸的亲水度进行排列,得到所述亲水特征向量。
7.如权利要求1所述的抗原表位的检测方法,其特征在于,所述理化特征向量包括疏水特征向量;
所述提取所述表位样本的理化特征向量,包括:
获取所述表位样本中的每个氨基酸的疏水度;
将所有氨基酸的疏水度进行排列,得到所述疏水特征向量。
8.一种抗原表位的检测系统,其特征在于,包括:
样本获取模块,用于获取训练样本和待检测蛋白质序列,所述训练样本包括表位样本和非表位样本,所述表位样本为包含抗原表位的蛋白质序列,所述非表位样本为未包含抗原表位的蛋白质序列;
特征向量提取模块,用于分别提取所述表位样本的特征向量和所述非表位样本的特征向量;
神经网络模型生成模块,用于利用所述表位样本的特征向量和所述非表位样本的特征向量对标准神经网络模型进行训练,得到预测神经网络模型;
表位检测结果生成模块,用于提取所述待检测蛋白质序列的特征向量,并将所述待检测蛋白质序列的特征向量输入至所述预测神经网络模型中,得到对应的抗原表位检测结果。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的抗原表位的检测方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的抗原表位的检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811153746.0A CN109326324B (zh) | 2018-09-30 | 2018-09-30 | 一种抗原表位的检测方法、系统及终端设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811153746.0A CN109326324B (zh) | 2018-09-30 | 2018-09-30 | 一种抗原表位的检测方法、系统及终端设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109326324A true CN109326324A (zh) | 2019-02-12 |
CN109326324B CN109326324B (zh) | 2022-01-25 |
Family
ID=65266572
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811153746.0A Active CN109326324B (zh) | 2018-09-30 | 2018-09-30 | 一种抗原表位的检测方法、系统及终端设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109326324B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112116954A (zh) * | 2020-09-18 | 2020-12-22 | 上海商汤智能科技有限公司 | 抗体的预测方法及装置、电子设备和存储介质 |
WO2023163518A1 (ko) * | 2022-02-25 | 2023-08-31 | 주식회사 스탠다임 | 면역원 결정부 및 면역원 결합부 예측 방법 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102521527A (zh) * | 2011-12-12 | 2012-06-27 | 同济大学 | 一种根据抗体物种分类预测蛋白质抗原空间表位的方法 |
CN104331642A (zh) * | 2014-10-28 | 2015-02-04 | 山东大学 | 用于识别细胞外基质蛋白的集成学习方法 |
CN106650314A (zh) * | 2016-11-25 | 2017-05-10 | 中南大学 | 预测氨基酸突变的方法及系统 |
CN107341363A (zh) * | 2017-06-29 | 2017-11-10 | 河北省科学院应用数学研究所 | 一种蛋白质抗原表位的预测方法 |
CN107563150A (zh) * | 2017-08-31 | 2018-01-09 | 深圳大学 | 蛋白质结合位点的预测方法、装置、设备及存储介质 |
-
2018
- 2018-09-30 CN CN201811153746.0A patent/CN109326324B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102521527A (zh) * | 2011-12-12 | 2012-06-27 | 同济大学 | 一种根据抗体物种分类预测蛋白质抗原空间表位的方法 |
CN104331642A (zh) * | 2014-10-28 | 2015-02-04 | 山东大学 | 用于识别细胞外基质蛋白的集成学习方法 |
CN106650314A (zh) * | 2016-11-25 | 2017-05-10 | 中南大学 | 预测氨基酸突变的方法及系统 |
CN107341363A (zh) * | 2017-06-29 | 2017-11-10 | 河北省科学院应用数学研究所 | 一种蛋白质抗原表位的预测方法 |
CN107563150A (zh) * | 2017-08-31 | 2018-01-09 | 深圳大学 | 蛋白质结合位点的预测方法、装置、设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
ZHAO-HUI QI, MENG-ZHE JIN, HONG YANG: "A Measure of Protein Sequence Characteristics Based on the Frequency and the Position Entropy of Existing K-words", 《MATCH COMMUNICATIONS IN MATHEMATICAL AND IN COMPUTER CHEMISTRY》 * |
弓红岩: "基于特征选择的线性B细胞表位的预测", 《中国优秀硕士学位论文全文数据库 医药卫生科技辑》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112116954A (zh) * | 2020-09-18 | 2020-12-22 | 上海商汤智能科技有限公司 | 抗体的预测方法及装置、电子设备和存储介质 |
WO2022057388A1 (zh) * | 2020-09-18 | 2022-03-24 | 上海商汤智能科技有限公司 | 抗体的预测方法及装置、电子设备、存储介质和程序 |
WO2023163518A1 (ko) * | 2022-02-25 | 2023-08-31 | 주식회사 스탠다임 | 면역원 결정부 및 면역원 결합부 예측 방법 |
Also Published As
Publication number | Publication date |
---|---|
CN109326324B (zh) | 2022-01-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113822209B (zh) | 高光谱图像识别方法、装置、电子设备及可读存储介质 | |
CN107688823B (zh) | 一种图像特征获取方法及装置,电子设备 | |
Geman et al. | Visual turing test for computer vision systems | |
CN109522942A (zh) | 一种图像分类方法、装置、终端设备和存储介质 | |
CN104933428B (zh) | 一种基于张量描述的人脸识别方法及装置 | |
CN111027576B (zh) | 基于协同显著性生成式对抗网络的协同显著性检测方法 | |
CN110210513A (zh) | 数据分类方法、装置及终端设备 | |
CN113822207B (zh) | 高光谱遥感图像识别方法、装置、电子设备及存储介质 | |
CN109739844A (zh) | 基于衰减权重的数据分类方法 | |
CN107463683A (zh) | 代码元素的命名方法及终端设备 | |
CN108205580A (zh) | 一种图像检索方法、装置及计算机可读存储介质 | |
CN113239227B (zh) | 图像数据结构化方法、装置、电子设备及计算机可读介质 | |
CN109492093A (zh) | 基于高斯混合模型和em算法的文本分类方法及电子装置 | |
CN111931002A (zh) | 一种匹配方法以及相关设备 | |
CN113254354A (zh) | 测试用例推荐方法、装置、可读存储介质及电子设备 | |
WO2024060684A1 (zh) | 模型训练方法、图像处理方法、设备及存储介质 | |
CN109308616A (zh) | 一种交易记录的风险判定方法及装置 | |
CN113065997B (zh) | 一种图像处理方法、神经网络的训练方法以及相关设备 | |
CN110457677A (zh) | 实体关系识别方法及装置、存储介质、计算机设备 | |
CN115563477B (zh) | 谐波数据识别方法、装置、计算机设备和存储介质 | |
CN109326324A (zh) | 一种抗原表位的检测方法、系统及终端设备 | |
CN116978483A (zh) | 基于图神经网络和三维编码器的分子性质预测方法、系统 | |
CN113435900A (zh) | 交易风险确定方法、装置和服务器 | |
CN111291803A (zh) | 一种图像分级粒度迁移方法、系统、设备和介质 | |
CN117884379A (zh) | 一种矿石分选方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |