CN114444664B - 基于量子计算的注意力模型及神经网络模型 - Google Patents
基于量子计算的注意力模型及神经网络模型 Download PDFInfo
- Publication number
- CN114444664B CN114444664B CN202210115013.8A CN202210115013A CN114444664B CN 114444664 B CN114444664 B CN 114444664B CN 202210115013 A CN202210115013 A CN 202210115013A CN 114444664 B CN114444664 B CN 114444664B
- Authority
- CN
- China
- Prior art keywords
- quantum
- tensor
- attention
- input data
- constructing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N10/00—Quantum computing, i.e. information processing based on quantum-mechanical phenomena
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/30—Drug targeting using structural data; Docking or binding prediction
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/10—Analysis or design of chemical reactions, syntheses or processes
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Chemical & Material Sciences (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Crystallography & Structural Chemistry (AREA)
- Bioinformatics & Computational Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Pharmacology & Pharmacy (AREA)
- Medicinal Chemistry (AREA)
- Probability & Statistics with Applications (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Analytical Chemistry (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Computational Mathematics (AREA)
- Condensed Matter Physics & Semiconductors (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请实施例涉及基于量子计算的注意力模型及神经网络模型。根据本申请的一些实施例,一种基于量子计算的注意力模型,其包括:参数化量子线路,其包括三个子线路,其中所述输入数据的量子态通过所述参数化量子线路生成三个第一张量,所述三个第一张量包括K张量、Q张量和V张量,且所述输入数据中的每一者经编码为量子态;以及量子注意力线路,其经配置作用于所述三个第一张量以得到所述输入数据的注意力信息。本申请实施例还提供了一种神经网络模型,其包括上述一或多个基于量子计算的注意力模型。本申请实施例提供的量基于量子计算的注意力模型及神经网络模型可有效解决传统技术中遇到的问题。
Description
技术领域
本申请实施例大体上涉及量子计算领域,更具体地,涉及基于量子计算的注意力模型及神经网络模型。
背景技术
近年来,机器学习已在众多领域中得到了大量的应用。作为人工智能的核心,随着大数据时代各行业对数据分析需求的持续增加,如何基于机器学习对复杂多样的数据进行深层次的分析,更高效地利用信息成为当前大数据环境下机器学习研究的主要方向。为进一步优化传统机器学习,人们对利用量子线路辅助机器学习已开始有所研究。然而,目前的基于量子计算的注意力模型及神经网络模型相关的研究较少。
因此,本申请提出一种基于量子计算的注意力模型及神经网络模型。
发明内容
本申请实施例的目的之一在于提供一种基于量子计算的注意力模型及神经网络模型,与传统的方法与模型(即使用经典比特)相比,其可减少所使用的参数量,且所用的存储介质,即量子比特数目相比于经典比特也大幅减少,同时提高了运行效率。
本申请的一实施例提供一种基于量子计算的注意力模型,其包括:参数化量子线路,其包括三个子线路,其中输入数据的量子态通过所述参数化量子线路生成三个第一张量,其中该三个第一张量包括K张量、Q张量和V张量,且输入数据中的每一者经编码为量子态;以及量子注意力线路,其经配置作用于三个第一张量以得到输入数据的注意力信息。
本申请的另一实施例提供一种神经网络模型,其包括上述一或多个基于量子计算的注意力模型。
与现有技术相比,本申请实施例提供的基于量子计算的注意力模型及神经网络模型,利用量子计算对经典计算方式作为替换或补充,可有效提高数据处理速度与准确度。
附图说明
在下文中将简要地说明为了描述本申请实施例或现有技术所必要的附图以便于描述本申请的实施例。显而易见地,下文描述中的附图仅只是本申请中的部分实施例。对本领域技术人员而言,在不需要创造性劳动的前提下,依然可以根据这些附图中所例示的结构来获得其他实施例的附图。
图1为根据本申请一些实施例的基于量子计算的注意力模型100的示意图。
图2为根据本申请一些实施例通过使用参数化量子线路生成三个第一张量的第一示意图。
图3为根据本申请一些实施例的量子注意力线路106的示意图。
图4为根据本申请另一些实施例通过使用参数化量子线路生成三个第一张量的第二示意图。
图5为根据本申请另一些实施例的量子注意力线路206的示意图。
图6为根据本申请一些实施例的加权线路212的示意图。
图7为根据本申请一些实施例的点积线路210和测量层220的示意图。
图8是根据本申请的一些实施例的量子transformer模型300的示意图。
图9为根据本申请的一些实施例基于量子transformer模型对药物靶点结合能的预测方法的流程图。
具体实施方式
为更好的理解本申请实施例的精神,以下结合本申请的部分优选实施例对其作进一步说明。
本申请的实施例将会被详细的描示在下文中。在本申请说明书全文中,将相同或相似的组件以及具有相同或相似的功能的组件通过类似附图标记来表示。在此所描述的有关附图的实施例为说明性质的、图解性质的且用于提供对本申请的基本理解。本申请的实施例不应该被解释为对本申请的限制。
另外,为便于描述,“第一”、“第二”、“第三”等等可在本文中用于区分一个图或一系列图的不同组件。“第一”、“第二”、“第三”等等不意欲描述对应组件。
在对本申请技术方案进行介绍之前,首先对本申请中涉及的一些关键术语进行解释说明:
1.量子计算:基于量子力学规律以调控量子信息单元的计算方式。在量子世界中,微观粒子的状态是不可确定的,系统以不同的概率处于不同状态的叠加之中。量子计算和现有的计算模式完全不同,它借助量子力学的叠加特征,能够实现计算状态的叠加,它不仅包含0和1,还包含0和1同时存在的叠加态(superposition)。量子计算存储数据的基本单元是量子比特,量子计算可以同时操纵n个量子比特的2n个状态,从而实现并行计算能力,节省了大量的运算资源,如时间、记忆单元等,其效果相当于经典计算机要重复执行2n次操作,或者采用2n个不同处理器实行并行操作。
2.量子比特:量子计算的基本单元。传统计算机将信息编码为比特(bit),使用0和1作为二进制的基本单元,1bit信息只能是0和1中的一种,而量子计算可以同时处理0和1,使得系统可以处于0和1的线性叠加态:|ψ>=α|0>+β|1>,其中α,β代表系统在0和1上的复数概率幅。它们的模平方|α|2,|β|2分别代表处于0和1的概率。
3.量子态:一个量子态对应于希尔伯特空间的一个矢量,指的是量子系统的状态。态矢量可以用来抽象地表示量子态,采用狄拉克符号标记:右矢(可以理解为一个列向量)及左矢(可以理解为一个行向量)例如两个二维态矢和可以构成一个二维空间的基,而任意一个态便可以写成这两个基在复数空间上的线性组合:|ψ>=α|0>+βeiθ|1>,这里eiθ表示模为1、幅角为θ的复数。
4.量子线路:其由量子门组成,以对量子比特的状态进行变换,其代表了相应量子算法/程序在量子门模型下的硬件实现,是一种对量子计算可视化的表达。若量子线路中包含可调的控制量子门的参数,则被称为参数化的量子线路。
5.量子门:用于处理信息和执行计算,常使用矩阵表示,操作n个量子比特的门可以用2nx2n的酉矩阵表示。一个门输入跟输出的量子比特数量必须要相等。量子门的操作可以用代表量子门的矩阵与代表量子比特状态的向量作相乘来表示。
7.量子经典混合计算:一种内层利用量子线路进行计算得出相应物理量或损失函数,外层用传统的经典优化器调节量子线路变分参数的计算范式,可以最大限度地发挥量子计算的优势,被相信是有潜力证明量子优势的重要方向之一。
8.密度矩阵:如果一个量子态用态矢表示为密度矩阵则表示为即右矢和左矢的外积表示。而对于一个混合态,其密度矩阵为其中是指系统所处的态及其概率。在数学上如果一个密度矩阵只由一个量子态的左右矢外积得到,那么这个量子态就是纯态,反之就是混态。
本申请提出的基于量子计算的注意力模型及神经网络模型,通过使用量子线路,有效提高了模型学习能力和运行效率。
图1为根据本申请一些实施例的基于量子计算的注意力模型100的示意图。
本申请提出的基于量子计算的注意力模型及神经网络模型基于量子比特的数据表达能力更优,以实现在量子计算设备和量子芯片上高度并行地处理数据特征。
如图1所示,一种基于量子计算的注意力模型100可包括:参数化量子线路101,其包括三个子线路,其中输入数据102的量子态103通过参数化量子线路101生成三个第一张量104,其中三个第一张量104包括K张量、Q张量和V张量,三个第一张量104的量子态可分别相应地由|K>、|Q>和|V>来表示,输入数据102中的每一者(例如x0、x1等)都经编码为量子态;以及量子注意力线路106,其经配置作用于三个第一张量104以输出输入数据102的注意力信息|T>。注意力信息|T>由一个n量子比特的融合态表示,它代表了输入数据中的任一数据的相邻数据的信息的融合。
在基于量子计算的注意力模型100中,输入数据102可以是由N个单词组成的一个句子X=[x0 x1 … x(N-1)],其中每个单词可表示为:xi,i∈(0,N-1)。为了得到X的注意力信息,可将输入数据X中的每一者xi编码为量子态,例如,可通过振幅编码得到量子态103,表示为|x0> |x1> … |x(N-1)>。每个单词xi的量子态|xi>都可以由一个矢量来表示,假设单词中的最长的矢量维度为d,则需要n=log2(d)个量子比特来表示这些单词。而通过上述注意力模型100得到的注意力信息,例如图1中的|T>=[t0> |t1> … |tN-1>]则记载了输入数据中的更重要的信息,同时忽略了不相关的信息,以便于更高效地使用在后续各个模型中。本申请中使用量子线路的方式进行数据表达,极大的减少了存储的硬件资源。
图2为根据本申请一些实施例通过使用参数化量子线路生成三个第一张量的第一示意图。
如图2所示,参数化量子线路101可包括三个子线路110、111和112,三个子线路110、111和112的作用算符分别表示为U(θq)、U(θk)和U(θv),其中三个子线路中的每一者可分别包括与输入数据102中的每一者(例如x0)相应的次子线路(如图2中与x0的量子态|x0>生成|q0>相应的由n个量子比特构成的次子线路115、生成|k0>相应的次子线路116和生成|v0>相应的次子线路117),使得输入数据中的每一者经编码的量子态(即|x0> |x1> … |x(N-1)>)同时通过参数化量子线路101各自同时生成三个第一张量104,从而使得三个量子线路作用在输入数据的量子态的操作的执行在时序上能够同时并行地进行,提高了计算效率。
如图2所示,每个子线路中的N个次子线路之间相互不纠缠,是各为独立的单元,彼此之间的结构可以相同也可以不同。次子线路中的至少一者可包括两个子模块,一个是由任意旋转门组成的旋转模块,任意旋转门可由3个分别绕着Y轴、Z轴、Y轴的旋转操作组合而来,可调参数θq、θk和θv是相应的量子比特旋转的角度,另一个是由受控非(CNOT)门组成的纠缠模块,纠缠可使量子线路包含比较全面的输入数据的信息。
图3为根据本申请一些实施例的量子注意力线路106的示意图。
如图3所示,通过构建与Q张量中的每一者相应的量子注意力次子线路118(其作用算符为UVK)使得量子注意力线路106作用于Q张量以得到注意力信息|T>,即|T>=UVK|Q>。
量子注意力次子线路118经构建使得UVK=|v0><k0|+|v1><k1|+…+|vN-1><kN-1|,即将K张量和V张量中的同一位置的元素分别进行相乘后再将各自相乘的结果进行线性叠加。
图4为根据本申请另一些实施例通过使用参数化量子线路生成三个第一张量的第二示意图。
如图4所示,根据本申请另一些实施例,第二示意图中的参数化量子线路201包括三个子线路,其算符表示分别为和输入数据中的每一者经编码的量子态分别通过参数化量子线路201的三个子线路各自依次生成三个第一张量。
相比而言,图2所示的通过使用参数化量子线路生成三个第一张量的第一示意图中的情形只需执行一次运算即可得到输入数据的三个第一张量,而图4所示的通过使用参数化量子线路生成三个第一张量的第二示意图中的情形则需要分别执行N次运算才可得到三个第一张量,但所需的量子比特的数量相对减少。
根据本申请的另一些实施例,与图2中的参数化量子线101相同或类似,图4中的三个子线路中的至少一者也可包括与非门和旋转门。
根据本申请的另一些实施例,图4中的三个子线路201也可与图2中的子线路不同,例如,图4中的子线路中的至少一者可仅包括旋转门。
图5为根据本申请另一些实施例的量子注意力线路206的示意图。
根据本申请的另一些实施例,如图5所示,该实施例中的量子注意力线路206可包括:点积线路210,其作用于Q张量和K张量以生成第二张量,例如将Q张量和K张量的密度矩阵进行点积(也即ρQ和ρK的张量积)操作从而得到了Q张量和K张量的相关性分数,其中第二张量通过对点积线路的输出进行测量(例如通过测量层220进行测量)而生成;加权线路212,其基于该第二张量而构建,且与V张量进行融合以生成第三张量,即将第二张量和对应的|V>的密度矩阵“相乘”,以得到加权过的|V>的密度矩阵ρwv;以及求和线路213,其将第三张量中的全部元素相加以得到输入数据的注意力信息|T>。
根据本申请的一些实施例,点积线路和求和线路中的至少一者包括量子纠缠模块。加权线路可包括多个旋转门,其中旋转门的参数与第二张量相关。
图6为根据本申请一些实施例的加权线路212的示意图,其中ω∈(-π,π)。
图7为根据本申请一些实施例的点积线路210和测量层220的示意图。
如图7所示,点积线路可包括控制交换门(SWAP)以及使用辅助量子比特,SWAP表示互换状态,测量是在Pauli Z方向上进行。
对于任意两个n量子比特的密度矩阵,我们可以使用求和线路213将它们“相加”,相加后的结果使用偏迹使得输出和输入具有相同的维度。
本申请的一些实施例还提供一种神经网络模型,神经网络模型可包括上述一或多个基于量子计算的注意力模型。神经网络模型还包括前馈神经网络,其中注意力信息可作为前馈神经网络的输入,以进一步增强神经网络网络的性能。神经网络模型的输出为输出量子态的每一个基态对应的概率。
根据本申请的一些实施例,神经网络模型可以是量子transformer模型。
图8是根据本申请的一些实施例的量子transformer模型300的示意图。
如图8所示,量子transformer模型300可包括一或多个头H,例如,图8中所示的两个头H0和H1,可先使用线性变换对输入数据序列A进行降维处理,从E降到D,这里可引入两个可以学习的矩阵W0和W1。接下来这两个头的计算将同步并行,且都可由上述基于量子计算的注意力模型进行。例如对每一个头,通过使用上述基于量子计算的注意力模型得到注意力信息的输出,将这两个头的输出结果拼接起来并且经过一个线性层。拼接过程使得维度从D升到E,因此输出Z与输入A具有相同的形状,之后可通过残差网络以及正则化过程303、前馈神经网络302、残差网络以及正则化过程303完成一整套量子Transformer的编码操作,由此构成的编码器已经足以提取出输入数据序列的长程短程关联,从而使得进一步的预测成为可能。可根据不同的应用需求,通过堆积多个编码器,使模型具有更多的参数,从而拥有更加强大的学习能力。输出Y是一个序列,该序列中的每一个元素融合了序列中相关元素信息。多头的使用可以使输入数据为三阶张量,而上述的基于量子计算的注意力模型可对输入数据中的每一者执行并行操作,从而更加提升了量子计算对数据的并行处理效率。
根据本申请的一些实施例,可根据具体的应用需求,使用各种数据集或样本对上述神经网络模型进行训练,以得到经训练的参数化量子线路,训练方法包括使用损失函数BCEloss:
利用随机梯度下降,可通过对参数化量子线路中的参数和/或经典神经网络中的参数同时进行调节,使得上述损失函数达到最小值。
根据本申请的另一实施例,也可通过计算交叉熵函数损失函数和神经网络模型中可调参数的梯度,来更新模型的可调参数,损失函数值越小则说明差异越小。
例如也可使用如下的损失函数:
其中M为输入数据中的每一者的类别的数量,yic是符号函数(0或1),如果样本i的真实类别等于c取1,否则取0,pic为观察样本i属于第i类词的预测概率。
本申请提出的基于量子计算的注意力模型及神经网络模型可适用于多种应用场景,如生物医药、材料、神经科学等领域。由于这些模型的运行都需要消耗大量的计算资源。传统方法中的计算资源主要由电子集成电路制造的芯片提供,而随着电子遂穿效应对制程接近纳米极限后的制约,算力很难再持续提升。量子芯片是对电子芯片计算方式的补充,然而经典的图注意力机制算法在量子芯片上的运行无法按照其在电子芯片上的方式进行处理。本申请由于采用了量子-经典混合/全量子的数据处理方法,相比传统的方法更节省计算资源,同时算力也有很大的提升。例如,本申请提出的基于量子计算的注意力模型及神经网络模型可用于预测蛋白质功能。
由于蛋白质分子不是独立工作的,而是工作在一个复杂的分子相互作用网络中,例如在通常被可视化为图的PPI数据集中,蛋白质被表示为节点,而相互作用则是节点之间的连接。如果两个蛋白质之间的相互作用是由Y2H实验检测出来的,则可以用两个节点之间的无定向连接来表示这种相互作用。因此想要理解蛋白质的功能以及相互作用是一件非常困难的事情。而通过本申请提出的基于量子计算的注意力模型和神经网络模型,可从人体组织PPI图数据中学习蛋白质作用规则。只要提供新的人体组织PPI图数据,就能够准确预测蛋白质功能,从而为药物开发,疾病治疗打下基础。
根据本申请的一些实施例,可使用来自斯坦福大学PPI数据集(http://snap.stanford.edu/graphsage/)的经典数据集来进行蛋白质功能预测。该数据集是图结构的,图的节点表示蛋白质,图的连接表示蛋白质之间的相互作用。每个蛋白质节点可由一个50维的特征矢量描述,可使用位置基因组、主题基因组和免疫学信息来构建特征矢量。每个图对应一个不同的人体组织。使用基因本体组蛋白质功能分类信息作为标签(共121个)。所以每个蛋白质节点可以同时属于多个类别(含有多个标签)。平均来讲,每张图包含2373个节点,每个节点有28.8个连接。
可通过对经典输入数据,即蛋白质信息,进行振幅编码,使它变成量子态,然后使用上述基于量子计算的注意力模型及神经网络模型,得到相应的输出。例如,通过使用如图8所示的神经网络模型,可得到输出结果为一个形状为[batch_size,n_nodes,121]的张量,即预测了每一个节点蛋白质所属的类别。蛋白质功能分类信息作为标签(共121个)。每个蛋白质节点可以同时属于多个类别(含有多个标签)。例如,将一组蛋白质(某一节点)的信息作为输入数据,通过上述量子transformer模型,可输出一组对应的矢量,每个矢量表示相应蛋白质的功能。比如输出矢量为[0.9,0.8,…],该矢量表示该蛋白质有多种不同的功能,功能1是与染色质结合的概率为0.9,功能2是解开DNA双链的概率为0.8等。
根据本申请的另一实施例,基于上述量子transformer模型还可用于预测蛋白质配体结合亲和力。
预测蛋白质与配体的结合亲和力已被广泛认为是计算药物发现中最重要的任务之一。这里的配体通常是指包括小分子和生物制剂在内的候选药物,它们可以在生物过程中作为激动剂或抑制剂与蛋白质相互作用以治疗疾病。结合亲和力,即蛋白质和配体(如药物)之间的结合作用的强度,可以通过实验方法测量,但是这些生物测试是费时费力的。通过计算机辅助模拟方法和数据驱动学习模型,可以在药物发现的早期阶段预测结合亲和力。与直接应用昂贵的生物方法来筛选众多候选分子不同,预测结合亲和力可以帮助对候选药物进行排序,优先选择合适的药物进行后续测试,从而加快药物筛选的进程。
例如可使用经典数据集(来自http://www.pdbbind.org.cn/browse.php)通过使用本申请提出的量子Transformer模型来预测蛋白质与配体的结合亲和力。
PDBbind数据库的目的是为蛋白质数据库(PDB)中存放的所有生物分子复合物提供实验测量的结合亲和力数据的综合集合。它提供了这些复合物的能量和结构信息之间的基本联系,这有助于有关分子识别、药物发现等的各种计算和统计研究。
PDBbind数据库最初由美国密歇根大学王少萌教授课题组开发,于2004年5月首次对外发布,现由药学院王任晓教授课题组维护和进一步开发,中国复旦大学。PDBbind数据库每年更新一次,以跟上蛋白质数据库的增长。该数据集包含五列信息:pdbidsmilessequence pocket label(分别是id,药物分子的smiles编码,蛋白质序列,蛋白质口袋序列),结合亲和力,一共有近1万条数据,基于本申请的量子Transformer模型的输出则代表了药物分子与蛋白质的亲和力。
本申请的一些实施例还提供一种编码器和解码器,编码器和解码器可分别包括上述基于量子计算的注意力模型,以根据实际需求实现编码和解码的操作。
根据本申请的一些实施例,还可利用上述量子transformer模型构建编码器和解码器,以实现对药物靶点结合能的预测。
例如,可首先对蛋白质和化合物数据分别进行预处理,可通过以下方法进行:
S1-蛋白质数据预处理:
1.将UniProt数据库中所有的人类蛋白序列作为语料库。
2.首先利用n-gram方法将输入的氨基酸序列进行划分得到单词,在本文中用到的是n=3的有重叠的划分。
3.将UniProt中所有的人类蛋白序列作为语料库去训练word2vec模型。word2vec是一种无监督的模型,包括两种预训练的方法,称为Skip-Gram和Continue Bag-of-Words(CBOW)。结合Skip-Gram和CBOW,word2vec最终可以将输入数据映射到低维的实值向量,其中输入数据中相关的数据映射出来的向量也彼此靠近。
4.然后利用预训练好的word2vec模型将输入数据转为实值嵌入,得到一个100维的实值嵌入表示向量。
S2-化合物预处理:
1.首先使用RDKit将化合物中每个原子的特征转换为长度为34的向量表示。
2.然后使用图卷积网络通过集成相邻原子的特征来学习每个原子的表示,通过半监督节点分类问题的训练得到对应分子的表示。
对输入数据进行预处理之后,构建分别包括本申请提出的量子transformer模型的编码器和解码器的神经网络模型,使用上述输入数据对该神经网络模型进行训练,训练过程如下:
1.将蛋白质长度为b,m1维度的蛋白质特征输入到编码器提取特征,输出得到长度为b,维度为m2的蛋白质序列。
将编码器输出得到的蛋白质序列与原子序列特征输入一起输入解码器,得到表示蛋白质与小分子相互作用的特征序列x1,x2,…,xa.然后通过softmax公式计算权重α,其中i为1,2,3,..a:
再通过加权求和得到预测的相互作用向量:
2.最后将相互作用向量输入到神经网络模型的一系列的全连接层和非线性激活函数得到预测值,以此判断化合物-蛋白质之间是否会发生相互作用。作为一种传统的二分类任务,使用二元交叉熵损失来训练该神经网络模型。
其中蛋白质序列是编码器的输入,而原子序列是解码器的输入,解码器的输出是包含有与原子序列相同长度的相互作用特征向量,利用上述训练好的模型可实现对结合能进行预测。
图9为根据本申请的一些实施例基于量子transformer模型对药物靶点结合能的预测方法的流程图。
根据本申请的另一实施例,通过获取待分析化合物的分子表达信息为分子的简化分子线性输入规范(SMILES),即用字符串来表示分子的化学结构,同时作为上述神经网络模型的输入数据序列,可实现对化学分子的逆合成推理,通过构建相应的解码器,使解码器输出与输入需要推理的分子相应的结果化合物。
应理解,虽然上述实施例中的输入数据为蛋白质或化合物分子信息,但是这仅只是用于说明本申请提供的基于量子计算的注意力模型及神经网络模型的示范性实施例,而不应理解为对本申请所保护范围的限制。根据本申请的另一些实施例,其它类似的应用也可使用本申请提出的基于量子计算的注意力模型及神经网络模型。
本申请的基于量子计算的注意力模型及神经网络模型使得需要优化的参数量大大减少,用到的存储介质,即量子比特数目也大大减少,从而使得基于量子计算的数据处理的方法更便捷、准确。
本申请的技术内容及技术特点已揭示如上,然而熟悉本领域的技术人员仍可能基于本申请的教示及揭示而作种种不背离本申请精神的替换及修饰。因此,本申请的保护范围应不限于实施例所揭示的内容,而应包括各种不背离本申请的替换及修饰,并为本专利申请权利要求书所涵盖。
Claims (24)
1.一种基于量子计算的注意力模型的构建方法,其包括:
构建参数化量子线路,所述参数化量子线路包括三个子线路,其中输入数据的量子态通过所述参数化量子线路生成三个第一张量,所述三个第一张量包括K张量、Q张量和V张量,且所述输入数据中的每一者经编码为量子态;以及
构建量子注意力线路,所述量子注意力线路经配置作用于所述三个第一张量以得到所述输入数据的注意力信息,其中所述量子注意力线路包括与所述Q张量中的每一者相应的量子注意力次子线路,使得所述量子注意力线路作用于所述Q张量以得到所述注意力信息,且所述量子注意力次子线路将所述K张量和所述V张量中的同一位置的元素分别进行相乘后再将各自相乘的结果线性叠加。
2.根据权利要求1所述的构建方法,其中所述三个子线路中的每一者分别包括与所述输入数据中的每一者相应的次子线路,使得所述输入数据中的每一者经编码的量子态同时通过所述参数化量子线路各自同时生成所述三个第一张量。
3.根据权利要求2所述的构建方法,其中所述次子线路包括与非门和旋转门。
4.根据权利要求1所述的构建方法,其中所述输入数据中的每一者经编码的量子态分别通过所述参数化量子线路各自依次生成所述三个第一张量。
5.根据权利要求4所述的构建方法,其中所述三个子线路中的至少一者包括旋转模块,所述旋转模块包括多个单量子比特任意旋转门。
6.根据权利要求5所述的构建方法,其中所述三个子线路中的至少一者还包括CNOT门。
7.根据权利要求1所述的构建方法,其中所述参数化量子线路经训练而得到。
8.根据权利要求7所述的构建方法,其中所述训练包括使用损失函数BCEloss。
9.根据权利要求7所述的构建方法,其中所述训练包括使用梯度下降法。
10.根据权利要求1所述的构建方法,其中所述输入数据的量子态通过振幅编码的方法得到。
11.根据权利要求1所述的构建方法,其中所述输入数据为三阶张量。
12.根据权利要求1-11中的任一权利要求所述的构建方法,其中所述输入数据所表达的信息为句子。
13.根据权利要求1-11中的任一权利要求所述的构建方法,其中所述输入数据所表达的信息为蛋白质。
14.一种神经网络模型的构建方法,其包括根据上述权利要求1-13中任一权利要求所述的基于量子计算的注意力模型的构建方法。
15.根据权利要求14所述的构建方法,其还包括构建前馈神经网络,其中所述注意力信息作为所述前馈神经网络的输入。
16.根据权利要求14所述的构建方法,其还包括构建线性变换模块。
17.根据权利要求16所述的构建方法,其中使用一或多个可以学习的矩阵通过线性变换对所述输入数据进行降维操作。
18.根据权利要求14所述的构建方法,其中所述神经网络模型是量子transformer模型。
19.一种基于量子计算的注意力模型的构建方法,其包括:构建参数化量子线路,其包括三个子线路,其中输入数据的量子态通过所述参数化量子线路生成三个第一张量,所述三个第一张量包括K张量、Q张量和V张量,且所述输入数据中的每一者经编码为量子态;以及构建量子注意力线路,其经配置作用于所述三个第一张量以得到所述输入数据的注意力信息,其中所述量子注意力线路包括:
点积线路,其作用于所述Q张量和所述K张量以生成第二张量;
加权线路,其基于所述第二张量而构建,且与所述V张量进行融合以生成第三张量;以及
求和线路,其将所述第三张量中的全部元素相加。
20.根据权利要求19所述的构建方法,其中所述第二张量通过对所述点积线路的输出进行测量而生成。
21.根据权利要求19所述的构建方法,其中所述点积线路和所述求和线路中的至少一者包括量子纠缠模块。
22.根据权利要求19所述的构建方法,其中所述加权线路包括多个旋转门,其中所述旋转门的参数与所述第二张量相关。
23.根据权利要求19所述的构建方法,其中所述点积线路包括控制交换门swap test。
24.根据权利要求23所述的构建方法,其中生成所述第二张量包括:使用辅助量子比特。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210115013.8A CN114444664B (zh) | 2022-02-01 | 2022-02-01 | 基于量子计算的注意力模型及神经网络模型 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210115013.8A CN114444664B (zh) | 2022-02-01 | 2022-02-01 | 基于量子计算的注意力模型及神经网络模型 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114444664A CN114444664A (zh) | 2022-05-06 |
CN114444664B true CN114444664B (zh) | 2022-10-14 |
Family
ID=81371899
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210115013.8A Active CN114444664B (zh) | 2022-02-01 | 2022-02-01 | 基于量子计算的注意力模型及神经网络模型 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114444664B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115130676B (zh) * | 2022-09-02 | 2023-01-24 | 之江实验室 | 基于生命周期的路径搜索判别、优化方法和装置 |
CN116092577B (zh) * | 2023-01-09 | 2024-01-05 | 中国海洋大学 | 一种基于多源异质信息聚合的蛋白质功能预测方法 |
CN116011682A (zh) * | 2023-02-22 | 2023-04-25 | 合肥本源量子计算科技有限责任公司 | 一种气象数据预测方法、装置、存储介质及电子装置 |
CN116431807A (zh) * | 2023-03-31 | 2023-07-14 | 本源量子计算科技(合肥)股份有限公司 | 一种文本分类方法、装置、存储介质及电子装置 |
CN117787248B (zh) * | 2024-02-23 | 2024-05-14 | 北京航空航天大学杭州创新研究院 | 量子自注意力文本处理方法、装置、量子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003056512A1 (en) * | 2001-12-22 | 2003-07-10 | D-Wave Systems, Inc. | Quantum computing integrated development environment |
CN108416445A (zh) * | 2018-03-13 | 2018-08-17 | 广西师范大学 | 一种量子实信号的存储与量子线路实现的设计方法 |
CN108921049A (zh) * | 2018-06-14 | 2018-11-30 | 华东交通大学 | 基于量子门线路神经网络的肿瘤细胞图像识别装置及设备 |
US10535809B1 (en) * | 2017-08-30 | 2020-01-14 | Rigetti & Co, Inc. | Substrate materials for quantum processors |
CN113361664A (zh) * | 2021-08-10 | 2021-09-07 | 北京航空航天大学 | 一种基于量子卷积神经网络的图像识别系统及方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7400761B2 (en) * | 2003-09-30 | 2008-07-15 | Microsoft Corporation | Contrast-based image attention analysis framework |
EP3646250A1 (en) * | 2017-05-30 | 2020-05-06 | GTN Ltd | Tensor network machine learning system |
WO2020095051A2 (en) * | 2018-11-07 | 2020-05-14 | Gtn Ltd | A quantum circuit based system configured to model physical or chemical systems |
WO2020245013A1 (en) * | 2019-06-04 | 2020-12-10 | Universita' Degli Studi Di Pavia | Artificial neural network on quantum computing hardware |
-
2022
- 2022-02-01 CN CN202210115013.8A patent/CN114444664B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003056512A1 (en) * | 2001-12-22 | 2003-07-10 | D-Wave Systems, Inc. | Quantum computing integrated development environment |
US10535809B1 (en) * | 2017-08-30 | 2020-01-14 | Rigetti & Co, Inc. | Substrate materials for quantum processors |
CN108416445A (zh) * | 2018-03-13 | 2018-08-17 | 广西师范大学 | 一种量子实信号的存储与量子线路实现的设计方法 |
CN108921049A (zh) * | 2018-06-14 | 2018-11-30 | 华东交通大学 | 基于量子门线路神经网络的肿瘤细胞图像识别装置及设备 |
CN113361664A (zh) * | 2021-08-10 | 2021-09-07 | 北京航空航天大学 | 一种基于量子卷积神经网络的图像识别系统及方法 |
Non-Patent Citations (1)
Title |
---|
Universal discriminative quantum neural networks;H. Chen 等;《Quantum Machine Intelligence》;20201215;1-11 * |
Also Published As
Publication number | Publication date |
---|---|
CN114444664A (zh) | 2022-05-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114444664B (zh) | 基于量子计算的注意力模型及神经网络模型 | |
Agrawal et al. | Deep materials informatics: Applications of deep learning in materials science | |
Carrasquilla | Machine learning for quantum matter | |
Wang et al. | Scientific discovery in the age of artificial intelligence | |
Bishara et al. | A state-of-the-art review on machine learning-based multiscale modeling, simulation, homogenization and design of materials | |
Mishra et al. | Quantum machine learning: A review and current status | |
Sonsare et al. | Investigation of machine learning techniques on proteomics: A comprehensive survey | |
Koeppe et al. | Explainable artificial intelligence for mechanics: physics-explaining neural networks for constitutive models | |
Buehler | Multiscale modeling at the interface of molecular mechanics and natural language through attention neural networks | |
Araujo et al. | Quantum ensemble of trained classifiers | |
Koeppe et al. | Explainable artificial intelligence for mechanics: physics-informing neural networks for constitutive models | |
Divya et al. | Quantum machine learning: A comprehensive review on optimization of machine learning algorithms | |
Chen et al. | Antn: Bridging autoregressive neural networks and tensor networks for quantum many-body simulation | |
Metawei et al. | Survey on hybrid classical-quantum machine learning models | |
Bonde et al. | The Future of Drug Development with Quantum Computing | |
Sander et al. | Towards hamiltonian simulation with decision diagrams | |
CN114283903A (zh) | 基于量子门控循环神经网络预测蛋白质药物结合力的方法 | |
CN114511097A (zh) | 基于量子线路的互学习方法及系统 | |
Banerjee et al. | A hybrid quantum-classical fusion neural network to improve protein-ligand binding affinity predictions for drug discovery | |
Altares-López et al. | AutoQML: Automatic generation and training of robust quantum-inspired classifiers by using evolutionary algorithms on grayscale images | |
Vasuki et al. | Overview of Quantum Computing in Quantum Neural Network and Artificial Intelligence | |
Rafi et al. | SYNERGY BETWEEN QUANTUM COMPUTING AND MACHINE LEARNING IN QUANTUM NEURAL NETWORK | |
Bhuvan et al. | A review of quantum machine learning and discussion of its current status | |
Bosch et al. | Neural networks for programming quantum annealers | |
Nguyen et al. | How Quantum Mechanics and Machine Learning Could Collaboratively Advance the Field of Pharmaceutical Research |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |