CN115691654A - 一种基于较少参数的量子门控循环神经网络的抗菌肽的预测方法 - Google Patents

一种基于较少参数的量子门控循环神经网络的抗菌肽的预测方法 Download PDF

Info

Publication number
CN115691654A
CN115691654A CN202310000899.6A CN202310000899A CN115691654A CN 115691654 A CN115691654 A CN 115691654A CN 202310000899 A CN202310000899 A CN 202310000899A CN 115691654 A CN115691654 A CN 115691654A
Authority
CN
China
Prior art keywords
quantum
neural network
polypeptide sequence
gated
state vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310000899.6A
Other languages
English (en)
Other versions
CN115691654B (zh
Inventor
胡咏梅
刘海建
耿咏忠
李宁
杨昱升
赵立祥
崔国龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongke Arc Quantum Software Technology Co ltd
Sinopharm Bio Pharmaceutical Co Ltd
Original Assignee
Beijing Zhongke Arc Quantum Software Technology Co ltd
Sinopharm Bio Pharmaceutical Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongke Arc Quantum Software Technology Co ltd, Sinopharm Bio Pharmaceutical Co Ltd filed Critical Beijing Zhongke Arc Quantum Software Technology Co ltd
Priority to CN202310000899.6A priority Critical patent/CN115691654B/zh
Publication of CN115691654A publication Critical patent/CN115691654A/zh
Application granted granted Critical
Publication of CN115691654B publication Critical patent/CN115691654B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Investigating Or Analysing Biological Materials (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于较少参数的量子门控循环神经网络的抗菌肽的预测方法,其中所述方法包括:获取表征待预测的多肽序列氨基酸的属性的多维数据
Figure 794245DEST_PATH_IMAGE002
;将所述多维数据
Figure 467803DEST_PATH_IMAGE002
逐元素的取反正切,获得所述多维数据
Figure 197861DEST_PATH_IMAGE002
的量子门的旋转角;基于所述量子门的旋转角,将所述多肽序列氨基酸的属性的多维数据
Figure 991374DEST_PATH_IMAGE002
加载到所述第一量子门控循环神经网络模型;输出针对所述多肽序列氨基酸的预测结果。通过本发明提出的一种高效的量子计算机神经网络模型,可以高效的分类抗菌肽与非抗菌肽,并预测未知的多肽是否为抗菌肽。该模型可以大大加速抗菌肽药物的研发。

Description

一种基于较少参数的量子门控循环神经网络的抗菌肽的预测 方法
技术领域
本发明属于量子计算机技术领域,尤其涉及一种基于较少参数的量子门控循环神经网络的抗菌肽的预测方法。
背景技术
抗菌肽是一种具有抗菌活性的多肽,一般由不到50个氨基酸组成,广泛存在于所有的生命形式中。由于其具有高效的抗菌活性,近年来备受医学界的关于,其有望成为化学抗生素的替代品。由于多肽序列复杂多变,人们无法从序列结构简单地预测其是否是抗菌肽。计算机技术不断发展,人们逐渐尝试使用计算机去预测未知的抗菌肽。传统的预测方法一般使用人工智能模型,将多肽数据编码到计算机上,通过循环神经网络,预测其性质。这些人工智能模型使用经典计算机。而经典计算机处理信息的能力有限。多肽数据库数据庞大,经典计算机使用经典比特储存数据,效率不高,其处理氨基酸序列的能力也有限,很难找到序列中存在内禀关系。
发明内容
量子计算机储存信息的能力强大,并且量子计算机的计算单元量子比特本身具有纠缠性质,可以高效地处理这类信息。
针对上述现有技术中存在的缺陷,本发明提供一种基于较少参数的量子门控循环神经网络的抗菌肽的预测方法,包括以下步骤:
步骤S101、获取表征待预测的多肽序列氨基酸的属性的多维数据
Figure 681492DEST_PATH_IMAGE001
步骤S103、将所述多维数据
Figure 924255DEST_PATH_IMAGE001
逐元素的取反正切,获得所述多维数据
Figure 710814DEST_PATH_IMAGE001
的量子门 的旋转角;
步骤S105、基于所述量子门的旋转角,将所述多肽序列氨基酸的属性的多维数据
Figure 52934DEST_PATH_IMAGE001
加载到所述第一量子门控循环神经网络模型;
步骤S107、输出针对所述多肽序列氨基酸的预测结果。
其中,所述第一量子门控循环神经网络模型采用较少参数的多个门控循环单元。
其中,所述较少参数的门控循环单元包括复位门和更新门。
其中,步骤S103中所述多维数据
Figure 901941DEST_PATH_IMAGE001
的量子门的旋转角表示如下:
Figure 574493DEST_PATH_IMAGE002
,
Figure 90925DEST_PATH_IMAGE003
表示氨基酸的某一固有属性。
其中,所述复位门,其用于控制上一个时间戳的状态
Figure 807208DEST_PATH_IMAGE004
对新输入
Figure 877932DEST_PATH_IMAGE005
的贡献,其量 子实现如下:
Figure 587131DEST_PATH_IMAGE006
其中s表示Sigmoid激活函数,
Figure 958070DEST_PATH_IMAGE007
为参数化的量子线路,
Figure 845254DEST_PATH_IMAGE008
表示当前时 间戳输入的隐藏状态向量和输入
Figure 934433DEST_PATH_IMAGE009
的结合。
其中,所述新输入
Figure 479946DEST_PATH_IMAGE005
的量子实现如下:
Figure 174233DEST_PATH_IMAGE010
其中,
Figure 232319DEST_PATH_IMAGE011
为参数化量子线路,t为激活函数tanh。
其中,所述更新门
Figure 464586DEST_PATH_IMAGE012
,其用于控制上一个时间戳的隐藏状态向量
Figure 390953DEST_PATH_IMAGE004
以及新输入
Figure 611850DEST_PATH_IMAGE005
对下一个时间戳的隐藏状态向量的影响程度,其量子实现为:
Figure 965471DEST_PATH_IMAGE013
其中s表示Sigmoid激活函数,
Figure 389762DEST_PATH_IMAGE014
为参数化的量子线路,
Figure 119820DEST_PATH_IMAGE015
表示当前时间戳输入的 隐藏状态向量和输入
Figure 195224DEST_PATH_IMAGE009
的结合。
其中,当前时间戳输出的隐藏状态向量
Figure 719746DEST_PATH_IMAGE016
Figure 129867DEST_PATH_IMAGE017
其中
Figure 398038DEST_PATH_IMAGE004
为当前时间戳输入的隐藏状态向量,
Figure 327948DEST_PATH_IMAGE005
为新输入。
其中,所述步骤S107包括:
由当前时间戳输出的隐藏状态向量
Figure 23371DEST_PATH_IMAGE016
经过参数化的量子线路之后可以得到当前时 间戳的输出
Figure 422254DEST_PATH_IMAGE018
实现如下:
Figure 494115DEST_PATH_IMAGE019
其中,每次将数据输入到当前门控循环单元之前,需要判断演化到当前时间戳的 门控循环单元的长度是否达到了进行处理的多肽序列长度,如果达到了多肽序列长度则停 止,将最后一个时间戳的输出
Figure 278531DEST_PATH_IMAGE018
作为最终多肽序列是否为抗菌肽的预测结果。
与现有技术相比,本发明基于角度编码方式将输入
Figure 410435DEST_PATH_IMAGE009
和隐藏状态向量
Figure 529570DEST_PATH_IMAGE016
输入到设 计的单个参数化量子线路(PQC)中,使得我们新设计的量子门控循环神经网络的门控循环 单元用于输出隐藏状态向量的参数化量子线路相比于之前提出的门控循环单元所需要的 参数量减少了一半,且可结合不同的角度编码方式,在不增加量子比特数目的情况下可以 根据需要改变隐藏向量的维度,以满足不同序列记忆的要求,此外我们在将隐藏状态向量
Figure 77226DEST_PATH_IMAGE016
输出之前采用了参数化量子线路QC进行处理,使最终的输出更加灵活多变,且可以满足 不同的输出要求。
其次本门控循环单元可根据真实量子计算机可提供的保真度较好的量子比特数,结合不同的角度编码方式减少或增加门控循环单元中参数化量子线路的比特数,使得本算法能更灵活的适应目前的含噪声中尺度(NISQ)量子计算机。从模型本身的角度来说通过利用量子计算的非定域特性,使得我们的模型相比于经典的循环神经网络,攫取特征的能力以及收敛速度更强、更快。且就我们所知目前关于量子循环神经网络在多肽抗菌肽分类领域尚为空白。
通过本发明提出的一种高效的量子计算机神经网络模型,可以高效的分类抗菌肽与非抗菌肽,并预测未知的多肽是否为抗菌肽。该模型可以大大加速抗菌肽药物的研发。
附图说明
通过参考附图阅读下文的详细描述,本申请示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本申请的若干实施方式,并且相同或对应的标号表示相同或对应的部分,其中:
图1是示出根据本发明实施例的一种基于较少参数的量子门控循环神经网络的抗菌肽的预测方法流程图;
图2是示出根据本发明实施例的角度编码方式通过
Figure 840783DEST_PATH_IMAGE020
Figure 769687DEST_PATH_IMAGE021
旋转量子门作用 在量子比特上将特征向量
Figure 251484DEST_PATH_IMAGE015
加载到量子态的振幅的示意图;
图3是示出根据本发明实施例的较少参数的量子门控循环神经网络原理框架图;
图4是示出根据本发明实施例的门控循环单元的原理框架示意图;
图5是示出根据本发明实施例的参数化量子线路的原理示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种。
应当理解,尽管在本发明实施例中可能采用术语第一、第二、第三等来描述……,但这些……不应限于这些术语。这些术语仅用来将……区分开。例如,在不脱离本发明实施例范围的情况下,第一……也可以被称为第二……,类似地,第二……也可以被称为第一……。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者装置中还存在另外的相同要素。
文中缩略语解释
PDB(Protein Data Bank)蛋白质数据库
NISQ(noisy intermediate-scale quantum) 含噪声中尺度量子计算机
下面结合附图详细说明本发明的可选实施例。
实施例一、
如图1所示,本发明提出的一种基于较少参数的量子门控循环神经网络的抗菌肽的预测方法,包括以下步骤:
步骤S101、获取表征待预测的多肽序列氨基酸的属性的多维数据
Figure 540514DEST_PATH_IMAGE001
步骤S103、将所述多维数据
Figure 424156DEST_PATH_IMAGE022
逐元素的取反正切,获得所述多维数据
Figure 22496DEST_PATH_IMAGE022
的量子门 的旋转角;
步骤S105、基于所述量子门的旋转角,将所述多肽序列氨基酸的属性的多维数据
Figure 991589DEST_PATH_IMAGE022
加载到所述第一量子门控循环神经网络模型;
步骤S107、输出针对所述多肽序列氨基酸的预测结果。
其中,所述第一量子门控循环神经网络模型采用较少参数的多个门控循环单元。
其中,所述较少参数的门控循环单元包括复位门和更新门。
其中,步骤S103中所述多维数据
Figure 84310DEST_PATH_IMAGE022
的量子门的旋转角表示如下:
Figure 822459DEST_PATH_IMAGE002
Figure 93166DEST_PATH_IMAGE003
表示氨基酸的某一固有属性。
其中,所述复位门,其用于控制上一个时间戳的状态
Figure 549555DEST_PATH_IMAGE004
对新输入
Figure 180387DEST_PATH_IMAGE005
的贡献,其量 子实现如下:
Figure 38622DEST_PATH_IMAGE006
其中s表示Sigmoid激活函数,
Figure 713186DEST_PATH_IMAGE007
为参数化的量子线路,
Figure 656871DEST_PATH_IMAGE008
表示当前时 间戳输入的隐藏状态向量和输入
Figure 825815DEST_PATH_IMAGE009
的结合。
其中,所述新输入
Figure 538557DEST_PATH_IMAGE005
的量子实现如下:
Figure 947803DEST_PATH_IMAGE010
其中,
Figure 988572DEST_PATH_IMAGE011
为参数化量子线路,t为激活函数tanh。
其中,所述更新门
Figure 820261DEST_PATH_IMAGE012
,其用于控制上一个时间戳的隐藏状态向量
Figure 777722DEST_PATH_IMAGE004
以及新输入
Figure 935034DEST_PATH_IMAGE005
对下一个时间戳的隐藏状态向量的影响程度,其量子实现为:
Figure 728678DEST_PATH_IMAGE013
其中s表示Sigmoid激活函数,
Figure 629637DEST_PATH_IMAGE014
为参数化的量子线路,
Figure 665771DEST_PATH_IMAGE015
表示当前时间戳输入的 隐藏状态向量和输入
Figure 993985DEST_PATH_IMAGE009
的结合。
其中,当前时间戳输出的隐藏状态向量
Figure 9345DEST_PATH_IMAGE016
Figure 448417DEST_PATH_IMAGE017
其中
Figure 911628DEST_PATH_IMAGE004
为当前时间戳输入的隐藏状态向量,
Figure 286109DEST_PATH_IMAGE005
为新输入。
其中,所述步骤S107包括:
由当前时间戳输出的隐藏状态向量
Figure 913399DEST_PATH_IMAGE016
经过参数化的量子线路之后可以得到当前时 间戳的输出
Figure 782260DEST_PATH_IMAGE018
实现如下:
Figure 178606DEST_PATH_IMAGE019
其中,每次将数据输入到当前门控循环单元之前,需要判断演化到当前时间戳的 门控循环单元的长度是否达到了进行处理的多肽序列长度,如果达到了多肽序列长度则停 止,将最后一个时间戳的输出
Figure 723988DEST_PATH_IMAGE018
作为最终多肽序列是否为抗菌肽的预测结果。
其中,将每个批次b中的多肽氨基酸属性序列数据
Figure 838575DEST_PATH_IMAGE001
输入第一量子门控循环神经 网络模型中,每个多肽氨基酸属性序列均能获得一个预测值
Figure 9662DEST_PATH_IMAGE018
,然后通过求每个批次所有多 肽氨基酸属性序列预测值的均方误差获得用于表征模型性能的均方差损失函数,所述均方 误差损失函数的表达式如下式所示:
Figure 260515DEST_PATH_IMAGE023
其中
Figure 976798DEST_PATH_IMAGE024
表示当前多肽氨基酸属性序列是否为抗菌肽的真实标签,k为批次b所包含 的蛋白质氨基酸序列个数。
其中,基于参数移动法则,求所述均方差损失函数关于量子线路参数的分析梯度,然后利用经典计算机更新量子线路参数,最后将多肽氨基酸属性序列训练数据集,训练多个epoch,使得预测所述多肽氨基酸序列是否为抗菌肽达到期望的准确度后停止。
实施二、
本发明还提出了一种基于较少参数的量子门控循环神经网络的抗菌肽的预测系统,其包括:
抗菌肽数据库,其用于存储抗菌肽数据集;
预处理模块,其用于对多肽序列氨基酸属性数据的预处理;
隐藏状态向量和表征多肽属性数据加载模块,其用于将当前时间戳输入的隐藏状 态向量
Figure 578681DEST_PATH_IMAGE004
和上一个模块的表征多肽序列氨基酸属性数据
Figure 789345DEST_PATH_IMAGE009
结合为特征向量
Figure 894704DEST_PATH_IMAGE015
,然后利用角 度编码方式通过
Figure 781888DEST_PATH_IMAGE020
Figure 871067DEST_PATH_IMAGE021
旋转量子门作用在量子比特上将特征向量
Figure 118378DEST_PATH_IMAGE015
加载到量子态的 振幅上;
循环处理模块,其用于将多肽序列氨基酸属性数据
Figure 343823DEST_PATH_IMAGE009
按序输入到所述较少参数的 量子门控循环神经网络模型中,进行量子态信息的处理以实现序列特征的提取,每次将数 据输入到当前门控循环单元之前,需要判断演化到当前时间戳的门控循环单元的长度是否 达到了进行处理的多肽序列长度,如果达到了多肽序列长度则停止,将最后一个时间戳的 输出
Figure 667488DEST_PATH_IMAGE018
作为最终多肽序列是否为抗菌肽的预测结果;
构建损失函数模块,其用于获取表征所述模型性能的损失函数;
更新量子线路参数模块,其用于对所述较少参数的量子门控循环神经网络模型的参数进行更新,以提高所述模型的预测准确性。
以下为具体处理过程:
首先准备抗菌肽的训练数据集。使用公开数据集收集抗菌肽数据,例如APD3数据库、DRAMP数据库、BaAMPs数据库。从数据库中,我们可以得到5000个左右的抗菌肽的氨基酸序列信息。从PDB蛋白数据库中,随机选取与之前选取的抗菌肽数量相当的多肽氨基酸序列,这些多肽作为负例,我们认为其没有抗菌肽的活性。
得到氨基酸序列数据集之后,使用CD-HIT降低序列的冗余性。将正例和负例组合到一起,选取其中的80%作为训练数据,20%作为测试数据。
多肽序列氨基酸属性数据的预处理模块用于:将表征多肽序列氨基酸属性的多维 数据
Figure 978383DEST_PATH_IMAGE001
逐元素的取反正切获得量子门的旋转角如式所示
Figure 530850DEST_PATH_IMAGE002
注意此处
Figure 876380DEST_PATH_IMAGE003
表示氨基酸的一种固有属性,i表示某一属性的序号。
具体的此处以丙氨酸为例,其相应的特征属性数据为
Figure 105368DEST_PATH_IMAGE025
,对其逐元素的取反正切我们得到特征属性
Figure 903559DEST_PATH_IMAGE001
相应的旋转 角度
Figure 758252DEST_PATH_IMAGE026
,而此处量子门控循环神经网络的初始隐藏状态 向量我们设置为全零
Figure 958289DEST_PATH_IMAGE027
隐藏状态向量和表征多肽序列氨基酸属性数据加载模块用于:采用
Figure 358177DEST_PATH_IMAGE028
旋 转量子门作用在量子比特上将多肽序列氨基酸属性数据加载到量子态的振幅上。使用测试 数据集验证模型的好坏。此处所使用的较少参数的门控循环单元主要由复位门和更新门组 成具体如下:
首先是复位门,它用于控制上一个时间戳的状态
Figure 643665DEST_PATH_IMAGE004
对新输入
Figure 334672DEST_PATH_IMAGE005
的贡献。
复位门的量子实现如下:
Figure 264582DEST_PATH_IMAGE006
其中s表示Sigmoid激活函数,
Figure 225584DEST_PATH_IMAGE007
为参数化的量子线路,
Figure 123002DEST_PATH_IMAGE008
表示当前时 间戳输入的隐藏状态向量和输入
Figure 929284DEST_PATH_IMAGE009
的结合。
在复位门的基础上我们可以进一步得到新输入
Figure 979280DEST_PATH_IMAGE005
的量子实现
Figure 845605DEST_PATH_IMAGE010
其中
Figure 731783DEST_PATH_IMAGE011
为参数化量子线路,t为激活函数tanh。
接着是更新门
Figure 341756DEST_PATH_IMAGE012
,它用于控制上一个时间戳的隐藏状态向量
Figure 246258DEST_PATH_IMAGE004
以及新输入
Figure 549064DEST_PATH_IMAGE005
对下 一个时间戳的隐藏状态向量的影响程度。
更新门
Figure 155494DEST_PATH_IMAGE012
的量子实现为
Figure 569158DEST_PATH_IMAGE013
其中s表示Sigmoid激活函数,
Figure 328167DEST_PATH_IMAGE014
为参数化的量子线路,
Figure 801873DEST_PATH_IMAGE015
表示当前时间戳输入的 隐藏状态向量和输入
Figure 131486DEST_PATH_IMAGE009
的结合。
基于更新门我们便可得到当前时间戳输出的隐藏状态向量
Figure 83261DEST_PATH_IMAGE016
Figure 962356DEST_PATH_IMAGE017
其中
Figure 606964DEST_PATH_IMAGE004
为当前时间戳输入的隐藏状态向量,
Figure 453566DEST_PATH_IMAGE005
为新输入。
由当前时间戳输出的隐藏状态向量
Figure 943453DEST_PATH_IMAGE016
经过参数化的量子线路之后可以得到当前时 间戳的输出
Figure 411474DEST_PATH_IMAGE018
实现如下:
Figure 226984DEST_PATH_IMAGE019
循环处理模块用于:在开始的时候将隐藏状态向量初始化,输入第一个门控循环 单元中,然后将多肽序列氨基酸属性数据按序输入到本发明提出的较少参数的量子门控循 环神经网络中,进行量子态信息的处理以实现序列特征的提取。每次将数据输入到当前门 控循环单元之前,需要判断演化到当前时间戳的门控循环单元的长度是否大于进行处理的 多肽序列长度,如果大于则停止输入。将最后一个时间戳的输出
Figure 796768DEST_PATH_IMAGE018
作为最终多肽序列是否为 抗菌肽的预测。
构建损失函数模块用于:将每个批次b中的多肽氨基酸属性序列数据
Figure 355925DEST_PATH_IMAGE029
输入基于 较少参数的量子门控循环神经网络当中,每个多肽氨基酸属性序列均能通过上述循环处理 模块获得一个预测值
Figure 740770DEST_PATH_IMAGE018
,然后通过求每个批次所有多肽氨基酸属性序列预测值的均方误差 获得用于表征模型性能的损失函数。
更新量子线路参数模块用于:基于已有的参数移动法则,求上一个模块的损失函数关于量子线路参数的分析梯度,然后利用经典计算机更新量子线路参数,最后将多肽氨基酸属性序列训练数据集,训练多个epoch,使得本发明提出的基于较少参数的量子门控循环神经网络预测多肽序列是否为抗菌肽方法得到期望的准确度后停止。
实施例三、
为了进一步解释本发明提出的基于较少参数的量子门控循环神经网络预测氨基酸序列是否为是抗菌肽方法,我们提出了如下的实施列。
多肽序列氨基酸属性数据的预处理模块:将表征多肽序列氨基酸属性的多维数据
Figure 586235DEST_PATH_IMAGE001
,例如此处取丙氨酸的极化,归一化范德华体积,疏水性,等电点,螺旋性,折叠性的六种 属性数据为
Figure 17216DEST_PATH_IMAGE025
,根据式(6)逐元素的取反正切获得相应于多 肽序列氨基酸属性的量子门的旋转角
Figure 989851DEST_PATH_IMAGE030
Figure 822678DEST_PATH_IMAGE031
隐藏状态向量和表征多肽序列氨基酸属性数据加载模块:将当前时间戳输入的隐 藏状态向量
Figure 352228DEST_PATH_IMAGE004
和上一个模块的表征多肽序列氨基酸属性数据
Figure 270506DEST_PATH_IMAGE009
结合为特征向量
Figure 46832DEST_PATH_IMAGE015
,然后利 用角度编码方式通过
Figure 468586DEST_PATH_IMAGE020
Figure 921433DEST_PATH_IMAGE021
旋转量子门作用在量子比特上将特征向量
Figure 61427DEST_PATH_IMAGE015
加载到量子 态的振幅上,如图2所示。
循环处理模块:本发明新设计的较少参数的量子门控循环神经网络整体框架如图 3所示,其中的RNN表示本发明提出的较少参数的门控循环单元如图4所示。图4中的s和t分 别表示sigmoid和tanh激活函数,与之前的门控循环单元直接将隐藏状态向量作为输出相 比,本发明设计的门控循环单元,通过参数化量子线路
Figure 641444DEST_PATH_IMAGE032
对隐藏状态向量
Figure 183284DEST_PATH_IMAGE016
处理之后再将 最后的测量结果作为输出
Figure 308497DEST_PATH_IMAGE018
,从而使得我们设计架构更加灵活。
Figure 935787DEST_PATH_IMAGE033
表示参数化量子线路, 其具体形式如图5所示,图中虚线框的
Figure 53916DEST_PATH_IMAGE020
Figure 184683DEST_PATH_IMAGE021
门将特征向量
Figure 979333DEST_PATH_IMAGE015
编码为量子态。后面的 CNOT和参数化的旋转门用于对前面包含特征向量
Figure 93919DEST_PATH_IMAGE015
的量子态进行处理。
循环处理模块的整体过程如下:在开始的时候根据自行设定的隐藏向量的维度 (此处我们设置为3)将最初的隐藏状态向量
Figure 750160DEST_PATH_IMAGE034
初始化为全零向量,输入第一个门控循环单 元中,然后将多肽序列氨基酸属性数据
Figure 266592DEST_PATH_IMAGE009
按序输入到本发明提出的较少参数的量子门控循 环神经网络中,进行量子态信息的处理以实现序列特征的提取。每次将数据输入到当前门 控循环单元之前,需要判断演化到当前时间戳的门控循环单元的长度是否达到了进行处理 的多肽序列长度,如果达到了多肽序列长度则停止。将最后一个时间戳的输出
Figure 733607DEST_PATH_IMAGE018
作为最终多 肽序列是否为抗菌肽的预测结果。
构建损失函数模块:将每个批次b中的多肽氨基酸属性序列数据
Figure 335490DEST_PATH_IMAGE001
输入基于较少 参数的量子门控循环神经网络当中,通过上述循环处理模块每个多肽氨基酸属性序列均能 获得一个预测值
Figure 795421DEST_PATH_IMAGE018
,然后根据每个批次求出的预测值
Figure 166360DEST_PATH_IMAGE018
结合预测值相应的是否为抗菌肽的 真实标签求出多肽氨基酸属性序列预测值和真实值之间的均方误差,从而获得用于表征模 型性能的损失函数,均方误差损失函数的表达式如下式所示:
Figure 302812DEST_PATH_IMAGE023
其中
Figure 126411DEST_PATH_IMAGE024
表示当前多肽氨基酸属性序列是否为抗菌肽的真实标签,k为批次b所包含 的蛋白质氨基酸序列个数。
更新量子线路参数模块:首先一个测量算符
Figure 186771DEST_PATH_IMAGE035
在参数化量子线路
Figure 38315DEST_PATH_IMAGE036
下的期望值 可表示为
Figure 221035DEST_PATH_IMAGE037
则期望值函数
Figure 672876DEST_PATH_IMAGE038
关于参数化量子线路参数
Figure 599243DEST_PATH_IMAGE039
的梯度可以表示为
Figure 803829DEST_PATH_IMAGE040
以上便是已有的求参数化量子线路关于算符期望值分析梯度的参数移动法则。在已有的参数移动法则的基础上,可以求上一个模块的均方误差损失函数关于量子线路参数的分析梯度。然后利用经典计算机通过梯度下降方法更新参数化量子线路参数,最后根据多肽氨基酸属性序列训练数据集,训练多个epoch,直到本发明提出的基于较少参数的量子门控循环神经网络预测多肽序列是否为抗菌肽方法得到期望的准确度后停止。
实施例四、
本发明实施例提供了一种非易失性计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行如上实施例所述的方法步骤。
需要说明的是,本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质可以但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(AN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定。
以上介绍了本发明的较佳实施方式,旨在使得本发明的精神更加清楚和便于理解,并不是为了限制本发明,凡在本发明的精神和原则之内,所做的修改、替换、改进,均应包含在本发明所附的权利要求概括的保护范围之内。

Claims (10)

1.一种基于较少参数的量子门控循环神经网络的抗菌肽的预测方法,其特征是,包括以下步骤:
步骤S101、获取表征待预测的多肽序列氨基酸的属性的多维数据
Figure 250211DEST_PATH_IMAGE001
步骤S103、将所述多维数据
Figure 13768DEST_PATH_IMAGE001
逐元素的取反正切,获得所述多维数据
Figure 175628DEST_PATH_IMAGE001
的量子门的旋转 角;
步骤S105、基于所述量子门的旋转角,将所述多肽序列氨基酸的属性的多维数据
Figure 923004DEST_PATH_IMAGE002
加载 到所述第一量子门控循环神经网络模型;
步骤S107、输出针对所述多肽序列氨基酸的预测结果。
2.如权利要求1所述基于较少参数的量子门控循环神经网络的抗菌肽的预测方法,其特征是,其中所述第一量子门控循环神经网络模型采用较少参数的多个门控循环单元。
3.如权利要求2所述基于较少参数的量子门控循环神经网络的抗菌肽的预测方法,其特征是,其中所述较少参数的门控循环单元包括复位门和更新门。
4.如权利要求1或3所述基于较少参数的量子门控循环神经网络的抗菌肽的预测方法, 其特征是,其中步骤S103中所述多维数据
Figure 212034DEST_PATH_IMAGE002
的量子门的旋转角表示如下:
Figure 95676DEST_PATH_IMAGE003
,
Figure 726640DEST_PATH_IMAGE004
表示氨基酸的某一固有属性。
5.如权利要求4所述基于较少参数的量子门控循环神经网络的抗菌肽的预测方法,其 特征是,其中所述复位门,其用于控制上一个时间戳的状态
Figure 571099DEST_PATH_IMAGE005
对新输入
Figure 788454DEST_PATH_IMAGE006
的贡献,其量子 实现如下:
Figure 651236DEST_PATH_IMAGE007
其中s表示Sigmoid激活函数,
Figure 295844DEST_PATH_IMAGE008
为参数化的量子线路,
Figure 627600DEST_PATH_IMAGE009
表示当前时间戳 输入的隐藏状态向量和输入
Figure 383066DEST_PATH_IMAGE010
的结合。
6.如权利要求5所述基于较少参数的量子门控循环神经网络的抗菌肽的预测方法,其 特征是,其中所述新输入
Figure 867399DEST_PATH_IMAGE011
的量子实现如下:
Figure 682909DEST_PATH_IMAGE012
其中,
Figure 236381DEST_PATH_IMAGE013
为参数化量子线路,t为激活函数tanh。
7.如权利要求4所述基于较少参数的量子门控循环神经网络的抗菌肽的预测方法,其 特征是,其中所述更新门
Figure 795538DEST_PATH_IMAGE014
,其用于控制上一个时间戳的隐藏状态向量
Figure 632913DEST_PATH_IMAGE005
以及新输入
Figure 619324DEST_PATH_IMAGE006
对 下一个时间戳的隐藏状态向量的影响程度,其量子实现为:
Figure 925671DEST_PATH_IMAGE015
其中s表示Sigmoid激活函数,
Figure 22940DEST_PATH_IMAGE016
为参数化的量子线路 ,
Figure 204568DEST_PATH_IMAGE017
表示当前时间戳输入的隐藏 状态向量和输入
Figure 361879DEST_PATH_IMAGE010
的结合。
8.如权利要求7所述基于较少参数的量子门控循环神经网络的抗菌肽的预测方法,其 特征是,其中当前时间戳输出的隐藏状态向量
Figure 624365DEST_PATH_IMAGE018
Figure 525325DEST_PATH_IMAGE019
其中
Figure 337292DEST_PATH_IMAGE020
为当前时间戳输入的隐藏状态向量,
Figure 665505DEST_PATH_IMAGE006
为新输入。
9.如权利要求8所述基于较少参数的量子门控循环神经网络的抗菌肽的预测方法,其特征是,其中所述步骤S107包括:
由当前时间戳输出的隐藏状态向量
Figure 680865DEST_PATH_IMAGE018
经过参数化的量子线路之后可以得到当前时间戳 的输出
Figure 119937DEST_PATH_IMAGE021
实现如下:
Figure 287875DEST_PATH_IMAGE022
10.如权利要2所述基于较少参数的量子门控循环神经网络的抗菌肽的预测方法,其特 征是,其中每次将数据输入到当前门控循环单元之前,需要判断演化到当前时间戳的门控 循环单元的长度是否达到了进行处理的多肽序列长度,如果达到了多肽序列长度则停止, 将最后一个时间戳的输出
Figure 786990DEST_PATH_IMAGE021
作为最终多肽序列是否为抗菌肽的预测结果。
CN202310000899.6A 2023-01-03 2023-01-03 一种基于较少参数的量子门控循环神经网络的抗菌肽的预测方法 Active CN115691654B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310000899.6A CN115691654B (zh) 2023-01-03 2023-01-03 一种基于较少参数的量子门控循环神经网络的抗菌肽的预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310000899.6A CN115691654B (zh) 2023-01-03 2023-01-03 一种基于较少参数的量子门控循环神经网络的抗菌肽的预测方法

Publications (2)

Publication Number Publication Date
CN115691654A true CN115691654A (zh) 2023-02-03
CN115691654B CN115691654B (zh) 2023-05-19

Family

ID=85057155

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310000899.6A Active CN115691654B (zh) 2023-01-03 2023-01-03 一种基于较少参数的量子门控循环神经网络的抗菌肽的预测方法

Country Status (1)

Country Link
CN (1) CN115691654B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116341667A (zh) * 2023-04-03 2023-06-27 正则量子(北京)技术有限公司 一种量子线路搭建方法及设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010049585A1 (en) * 2000-01-05 2001-12-06 Gippert Garry Paul Computer predictions of molecules
US20210011748A1 (en) * 2019-07-08 2021-01-14 Tencent America LLC Quantum variational method, apparatus, and storage medium for simulating quantum systems
CN112786141A (zh) * 2021-01-21 2021-05-11 北京晶派科技有限公司 一种功能肽推荐方法、装置和计算设备
US20210202043A1 (en) * 2018-08-20 2021-07-01 Nantomics, Llc Methods and systems for improved major histocompatibility complex (mhc)-peptide binding prediction of neoepitopes using a recurrent neural network encoder and attention weighting
CN114283903A (zh) * 2022-02-07 2022-04-05 上海图灵智算量子科技有限公司 基于量子门控循环神经网络预测蛋白质药物结合力的方法
CN114446383A (zh) * 2022-01-24 2022-05-06 电子科技大学 一种基于量子计算的配体-蛋白相互作用的预测方法
CN114446412A (zh) * 2022-02-07 2022-05-06 上海图灵智算量子科技有限公司 基于量子门控循环神经网络的分子生成方法及装置
CN114492760A (zh) * 2022-02-07 2022-05-13 上海图灵智算量子科技有限公司 基于量子门控循环神经网络的预测方法及装置
CN114724643A (zh) * 2021-01-06 2022-07-08 腾讯科技(深圳)有限公司 一种多肽化合物的筛选方法以及相关装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010049585A1 (en) * 2000-01-05 2001-12-06 Gippert Garry Paul Computer predictions of molecules
US20210202043A1 (en) * 2018-08-20 2021-07-01 Nantomics, Llc Methods and systems for improved major histocompatibility complex (mhc)-peptide binding prediction of neoepitopes using a recurrent neural network encoder and attention weighting
US20210011748A1 (en) * 2019-07-08 2021-01-14 Tencent America LLC Quantum variational method, apparatus, and storage medium for simulating quantum systems
CN114724643A (zh) * 2021-01-06 2022-07-08 腾讯科技(深圳)有限公司 一种多肽化合物的筛选方法以及相关装置
CN112786141A (zh) * 2021-01-21 2021-05-11 北京晶派科技有限公司 一种功能肽推荐方法、装置和计算设备
CN114446383A (zh) * 2022-01-24 2022-05-06 电子科技大学 一种基于量子计算的配体-蛋白相互作用的预测方法
CN114283903A (zh) * 2022-02-07 2022-04-05 上海图灵智算量子科技有限公司 基于量子门控循环神经网络预测蛋白质药物结合力的方法
CN114446412A (zh) * 2022-02-07 2022-05-06 上海图灵智算量子科技有限公司 基于量子门控循环神经网络的分子生成方法及装置
CN114492760A (zh) * 2022-02-07 2022-05-13 上海图灵智算量子科技有限公司 基于量子门控循环神经网络的预测方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116341667A (zh) * 2023-04-03 2023-06-27 正则量子(北京)技术有限公司 一种量子线路搭建方法及设备
CN116341667B (zh) * 2023-04-03 2024-03-12 正则量子(北京)技术有限公司 一种量子线路搭建方法及设备

Also Published As

Publication number Publication date
CN115691654B (zh) 2023-05-19

Similar Documents

Publication Publication Date Title
US11681913B2 (en) Method and system with neural network model updating
Herzog et al. Data-driven modeling and prediction of complex spatio-temporal dynamics in excitable media
US9436912B1 (en) Symmetric schema instantiation method for use in a case-based reasoning system
CN112086144A (zh) 分子生成方法、装置、电子设备及存储介质
CN112948155A (zh) 模型训练方法、状态预测方法、装置、设备及存储介质
Gao et al. Adversarial mobility learning for human trajectory classification
CN115691654B (zh) 一种基于较少参数的量子门控循环神经网络的抗菌肽的预测方法
KR20220079726A (ko) 의료 영상 기반의 질환 예측 방법
CN113963200A (zh) 模态数据融合处理方法、装置、设备及存储介质
KR20210099795A (ko) 준 지도 학습을 위한 오토인코더 기반 그래프 설계
WO2021012263A1 (en) Systems and methods for end-to-end deep reinforcement learning based coreference resolution
KR102352954B1 (ko) 예측 자동 회귀 기반 실시간 기업정보시스템 사용자 이상행위 탐지 시스템 및 방법
Yi et al. Intergroup cascade broad learning system with optimized parameters for chaotic time series prediction
AV et al. Evaluation of Recurrent Neural Network Models for Parkinson's Disease Classification Using Drawing Data
CN116646001B (zh) 基于联合式跨域注意力模型预测药物靶标结合性的方法
CN113314188A (zh) 图结构增强的小样本学习方法、系统、设备及存储介质
Wezeman et al. Distance-based classifier on the Quantum Inspire
Padha et al. QCLR: Quantum-LSTM contrastive learning framework for continuous mental health monitoring
KR102457893B1 (ko) 딥러닝 기반의 강수량 예측 방법
KR102308752B1 (ko) 객체 추적 방법 및 장치
KR102454742B1 (ko) 뇌 피질 영역의 두께를 분석하는 방법
Lijun et al. An intuitionistic calculus to complex abnormal event recognition on data streams
Zhao et al. Pareto-based many-objective convolutional neural networks
CN115691669B (zh) 一种基于量子卷积神经网络的蛋白质结构分类系统
Vavra et al. Optimization of the novelty detection model based on LSTM autoencoder for ICS environment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: Hu Yongmei

Inventor after: Liu Haijian

Inventor after: Geng Yongzhong

Inventor after: Li Ning

Inventor after: Yang Yusheng

Inventor after: Zhao Lixiang

Inventor after: Cui Guolong

Inventor before: Hu Yongmei

Inventor before: Liu Haijian

Inventor before: Geng Yongzhong

Inventor before: Li Ning

Inventor before: Yang Yusheng

Inventor before: Zhao Lixiang

Inventor before: Cui Guolong

CB03 Change of inventor or designer information