CN115116539A - 对象确定方法、装置、计算机设备和存储介质 - Google Patents
对象确定方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN115116539A CN115116539A CN202210498684.7A CN202210498684A CN115116539A CN 115116539 A CN115116539 A CN 115116539A CN 202210498684 A CN202210498684 A CN 202210498684A CN 115116539 A CN115116539 A CN 115116539A
- Authority
- CN
- China
- Prior art keywords
- index
- amino acid
- protein
- determining
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/30—Drug targeting using structural data; Docking or binding prediction
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biotechnology (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- Medicinal Chemistry (AREA)
- Pharmacology & Pharmacy (AREA)
- Crystallography & Structural Chemistry (AREA)
- Artificial Intelligence (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请涉及一种对象确定方法、装置、计算机设备和存储介质。涉及到人工智能技术领域,包括:获取第一对象集合中的各对象分别在预设指标上的指标预测值;从所述第一对象集合中选取所述指标预测值满足指标值筛选条件的对象,得到第二对象集合;基于所述第一对象集合中的多个对象在所述预设指标上的指标实验值和对象特征,确定预设指标与对象特征之间的映射关系;基于所述映射关系从所述第二对象集合中确定符合所述预设指标的指标要求的目标对象。采用本方法能够降低时间成本。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种对象确定方法、装置、计算机设备和存储介质。
背景技术
随着计算机技术的发展,出现了定向进化技术,定向进化可以在较短时间而获得具有新的功能和特性的蛋白质。通过明确的设定目标,可以重新设计分子,定向进化已成为新药研发以及化学工程等领域的重要研究工具。
传统的蛋白质定向进化中,针对目标功能确立初始蛋白,在一个或多个位置上构建变种库,通过筛选确定最常见的突变体,对这些突变体随机重组,进行筛选,利用筛选出的突变体进行下一轮“突变、重组、筛选”的循环,直至达到预期的蛋白性能。
然而,目前的定向进化技术大多费力且耗时,时间成本较大。
发明内容
基于此,有必要针对上述技术问题,提供一种能够降低时间成本的对象确定方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
一方面,本申请提供了一种对象确定方法。所述方法包括:获取第一对象集合中的各对象分别在预设指标上的指标预测值;从所述第一对象集合中选取所述指标预测值满足指标值筛选条件的对象,得到第二对象集合;基于所述第一对象集合中的多个对象在所述预设指标上的指标实验值和对象特征,确定预设指标与对象特征之间的映射关系;基于所述映射关系从所述第二对象集合中确定符合所述预设指标的指标要求的目标对象。
另一方面,本申请还提供了一种对象确定装置。所述装置包括:预测值获取模块,用于获取第一对象集合中的各对象分别在预设指标上的指标预测值;对象集合得到模块,用于从所述第一对象集合中选取所述指标预测值满足指标值筛选条件的对象,得到第二对象集合;映射关系确定模块,用于基于所述第一对象集合中的多个对象在所述预设指标上的指标实验值和对象特征,确定预设指标与对象特征之间的映射关系;目标对象确定模块,用于基于所述映射关系从所述第二对象集合中确定符合所述预设指标的指标要求的目标对象。
在一些实施例中,所述第一对象集合中的对象为突变型蛋白质,所述装置还包括参照对象集合筛选模块,用于基于所述第一对象集合中筛选得到参照对象集合;所述参照对象集合满足每种氨基酸在每个突变位置上至少出现目标次数的条件;所述预测值获取模块,还用于基于所述参照对象集合中的每个对象的对象特征和指标实验值,训练指标检测模型;利用训练好的所述指标检测模型,预测所述第一对象集合中的每个对象的指标预测值。
在一些实施例中,所述映射关系确定模块,还用于基于所述参照对象集合中每个对象在所述预设指标上的指标实验值,确定所述参照对象集合中各个对象的对象特征;基于所述参照对象集合中每个对象在所述预设指标上的指标实验值和对象特征,确定预设指标与对象特征之间的映射关系。
在一些实施例中,所述参照对象集合筛选模块,还用于获取当前得分集合;所述当前得分集合包括每种氨基酸分别对应的当前得分;基于所述第一对象集合得到第二蛋白质集合,基于当前得分集合从所述第二蛋白质集合中选取目标蛋白质;将当前得分集合中与目标蛋白质中的每个突变位置的氨基酸分别对应的当前得分进行递减,并将所述目标蛋白质从第二蛋白质集合移到第一蛋白质集合中;在当前得分集合表征第一蛋白质集合不满足每种氨基酸在每个突变位置上至少出现目标次数的条件的情况下,返回基于当前得分集合从所述第二蛋白质集合中选取目标蛋白质的步骤,直到当前得分集合表征第一蛋白质集合满足每种氨基酸在每个突变位置上至少出现目标次数的条件为止,将第一蛋白质集合确定为参照对象集合。
在一些实施例中,所述参照对象集合筛选模块,还用于获取初始得分集合;所述初始得分集合中每种氨基酸分别对应的初始得分为所述目标次数;将所述初始得分集合中与野生型蛋白质中的每个突变位置的氨基酸分别对应的初始得分进行递减,得到当前得分集合,并基于所述野生型蛋白质确定第一蛋白质集合;所述野生型蛋白质为未发生突变的蛋白质。
在一些实施例中,所述映射关系确定模块,还用于对于所述第二蛋白质集合中的每个突变型蛋白质,从当前得分集合中确定所述突变型蛋白质中每个突变位置处的氨基酸分别对应的当前得分;基于得到的各个当前得分确定所述突变型蛋白质的当前蛋白质得分;基于当前蛋白质得分,从所述第二蛋白质集合中选取得到目标蛋白质。
在一些实施例中,每种氨基酸对应有氨基酸,所述当前得分集合中的得分由氨基酸和突变位置唯一标识;所述映射关系确定模块,还用于对于每个突变位置处的氨基酸,根据所述氨基酸对应的氨基酸以及所述突变位置,从当前得分集合中确定所述突变位置处的氨基酸对应的当前得分。
在一些实施例中,所述对象特征为蛋白质特征,所述映射关系确定模块,还用于对于每个突变位置,按照所述突变位置处的氨基酸的种类对所述参照对象集合进行划分,得到每种氨基酸分别对应的第一子对象集合;对于每个所述突变位置处的每种氨基酸,基于所述氨基酸对应的第一子对象集合中的每个对象的指标实验值,确定所述氨基酸在所述突变位置处的氨基酸特征;基于所述对象中每个突变位置处的氨基酸的氨基酸特征,得到所述对象的蛋白质特征。
在一些实施例中,所述映射关系确定模块,还用于对所述氨基酸对应的第一子对象集合中的每个对象的指标实验值进行统计计算,得到至少一个指标实验统计值;基于所述至少一个指标实验统计值确定所述氨基酸在所述突变位置处的氨基酸特征。
在一些实施例中,所述对象特征为蛋白质特征;所述映射关系确定模块,还用于:对于每种氨基酸,从所述参照对象集合中确定突变位置处的氨基酸包括所述氨基酸的对象,得到所述氨基酸对应的第二子对象集合;对于每种氨基酸,基于所述氨基酸对应的第二子对象集合中的各个对象的指标实验值,确定所述氨基酸的氨基酸特征;基于所述对象中每个突变位置处的氨基酸的氨基酸特征,得到所述对象的蛋白质特征。
在一些实施例中,所述目标对象确定模块,还用于基于所述映射关系,确定所述第二对象集合中的每个对象在目标统计指标上的统计指标值,基于所述统计指标值从所述第二对象集合中确定选取对象;在不满足迭代停止条件的情况下,将所述选取对象加入到参照对象集合;返回基于所述参照对象集合中每个对象在所述预设指标上的指标实验值,确定所述参照对象集合中各个对象的对象特征的步骤,直到满足迭代停止条件;将满足迭代停止条件的情况下得到的选取对象,确定为符合所述预设指标的指标要求的目标对象。
另一方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述对象确定方法中的步骤。
另一方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述对象确定方法中的步骤。
另一方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述对象确定方法中的步骤。
上述对象确定方法、装置、计算机设备、存储介质和计算机程序产品,获取第一对象集合中的各对象分别在预设指标上的指标预测值,从第一对象集合中选取指标预测值满足指标值筛选条件的对象,得到第二对象集合,基于第一对象集合中的多个对象在预设指标上的指标实验值和对象特征,确定预设指标与对象特征之间的映射关系,基于映射关系从第二对象集合中确定符合预设指标的指标要求的目标对象。由于第二对象集合是从第一对象集合中筛选出来的,从而从第二对象集合中确定符合预设指标的指标要求的目标对象,要比从第一对象集合中筛选目标对象的效率要高,因此降低了确定目标对象的时间成本。
附图说明
图1为一些实施例中对象确定方法的应用环境图;
图2为一些实施例中对象确定方法的流程示意图;
图3A为一些实施例中酶的应用图;
图3B为一些实施例中机器学习辅助定向进化的原理图;
图4为一些实施例中氨基酸的平均适应度示意图;
图5为一些实施例中对象确定方法的流程示意图;
图6为一些实施例中对象确定方法的原理图;
图7为一些实施例中对象确定方法的原理图;
图8为一些实施例中对象确定方法的应用环境图;
图9为一些实施例中对象确定方法的应用环境图;
图10为一些实施例中不同数据集的适应度分布图;
图11为一些实施例中不同方法在四个蛋白质定向进化数据集上的效果图;
图12为一些实施例中不同方法在数据集上的效果图;
图13为一些实施例中对象确定装置的结构框图;
图14为一些实施例中计算机设备的内部结构图;
图15为一些实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的对象确定方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他服务器上。
具体地,服务器104可以获取第一对象集合中的各对象分别在预设指标上的指标预测值,从第一对象集合中选取指标预测值满足指标值筛选条件的对象,得到第二对象集合,基于第一对象集合中的多个对象在预设指标上的指标实验值和对象特征,确定预设指标与对象特征之间的映射关系,基于映射关系从第二对象集合中确定符合预设指标的指标要求的目标对象,服务器104确定到目标对象后,可以将目标对象存储,还可以将目标对象发送至终端102,终端102可以展示目标对象的相关信息。
其中,终端102可以但不限于是各种台式计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一些实施例中,指标预测值可以是通过训练好的指标检测模型预测出的。指标检测模型可以是基于人工智能和机器学习的,例如可以是神经网络模型。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的方案涉及人工智能的神经网络等技术,具体通过如下实施例进行说明:
在一些实施例中,如图2所示,提供了一种对象确定方法,该方法可以由终端或服务器执行,还可以由终端和服务器共同执行,以该方法应用于图1中的服务器104为例进行说明,包括以下步骤:
步骤202,获取第一对象集合中的各对象分别在预设指标上的指标预测值。
其中,第一对象集合中包括多个对象。对象可以是真实的物质,包括但不限于是蛋白质、材料或电池等中的至少一种。对象还可以是抽象出来的具体概念,例如对象为电池快充协议。
对象可以对应有多个指标,预设指标可以为对象的多个指标中的任意一个,例如,若对象为蛋白质,则对象的指标包括但不限于是适应度、浓缩分数或活性或亮度等中的至少一个,若对象为材料,则对象的指标包括但不限于是材料的成分或成分的比例等中的至少一种,若对象为电池快充协议,则对象的指标包括但不限于是电池快充协议中的各个参数。
指标预测值是为对象预测出的该预设指标对应的值。指标预测值可以是通过训练好的指标检测模型预测出的。指标检测模型可以是神经网络模型。
第一对象集合中的各个对象可以同属于一个对象类别,对象类别包括但不限于是蛋白质或材料等物质中的至少一类,还可以包括电池充电协议等抽象概念。例如,第一对象集合中的各个对象均属于某类蛋白质,例如各个对象分别是对同一种蛋白质进行突变后所得到的突变型蛋白质。其中,突变型蛋白质是相对于野生型蛋白质而言的,野生型蛋白质是未发生过突变的蛋白质,突变型蛋白质是在野生型蛋白质的基础上进行突变后所得到的蛋白质。在蛋白质定向进化中可以通过突变得到所需要的蛋白质。蛋白质定向进化中包括两种突变的场景,一种是k位的饱和诱变场景,另一种是非饱和诱变场景。
k位的饱和诱变场景用于对k个指定的突变位点的氨基酸进行突变,该场景下生成的突变型蛋白质中,该k个指定的突变位点中的至少一个突变位点上的氨基酸是突变后得到的,例如,k=4,则得到的突变型蛋白质中该指定的4个突变位点中的至少一个突变位点的氨基酸是通过突变得到的,即k位的饱和诱变场景中的突变位点的位置和数量是固定的,突变只会发生在该指定的k个突变位点。突变位点是指蛋白质中有可能发生突变的位置,故突变位点也可以称为突变位置,蛋白质中的每个位置上有一个氨基酸。
非饱和诱变场景中突变位点不固定但发生突变的氨基酸的数量是固定的,例如,非饱和诱变场景中得到的每个突变型蛋白质中均存在2个位置的氨基酸是通过突变得到的,但是发生突变的位置可以是相同或者不同的,例如一个是在位置1和位置2发生的突变,一个是在位置3和位置4发生的突变。
若对象类别为蛋白质,则第一对象集合中的各个对象可以是在k位的饱和诱变场景中生成的突变型蛋白质,也可以是在非饱和诱变场景中生成的突变型蛋白质。突变型蛋白质也可以称为突变体。蛋白质可以通过氨基酸序列表示。假如,第一对象集合中包括n个突变型蛋白质,则第一对象集合可以表示为,其中,n代表突变体的个数,Si代表突变体,Si=(Si1,Si2,…,SiL),Si代表第i个具有L个氨基酸的氨基酸序列,Sij代表氨基酸,1≤j≤L,yi代表第i个蛋白质的适应度,适应度是通过实验测量所得到的,蛋白质的适应度表征蛋白质的特性,适应度例如可以是亲和力。
具体地,对于第一对象集合中的每个对象,服务器可以预测每个对象在预设指标上的指标预测值,得到每个对象的指标预测值,例如可以利用训练好的指标检测模型预测得到指标预测值。
在一些实施例中,服务器可以从第一对象集合中筛选多个对象,得到参照对象集合,确定参照对象集合中每个对象的对象特征,对象特征是指对象的特征,并通过实验的手段获取参照对象集合中每个对象在预设指标上的取值,得到参照对象集合中的每个对象的指标实验值,指标实验值是指通过实验的手段获取的对象在预设指标上的取值,即对象的指标实验值为对象在预设指标上的真实的取值。服务器可以利用参照对象集合中的各个对象的对象特征以及各个对象的指标实验值,对指标检测模型进行训练,得到训练好的指标检测模型,确定第一对象集合中的各个对象的对象特征,将第一对象集合中的各个对象的对象特征输入到训练好的指标检测模型中,利用训练好的指标检测模型预测得到第一对象集合中的每个对象分别对应的指标预测值。
在一些实施例中,对象为突变型蛋白质,对象特征为蛋白质特征,蛋白质特征可以是基于突变型蛋白质中的突变位点上的氨基酸进行编码得到的特征。例如可以基于突变型蛋白质在预设指标上的指标实验值对氨基酸进行编码,得到氨基酸对应的氨基酸特征,基于每个突变位置上的氨基酸对应的氨基酸特征,得到突变型蛋白质的蛋白质特征。例如,对于k位的饱和诱变场景中生成的突变型蛋白质,可以利用该k位上的氨基酸的氨基酸特征得到突变型蛋白质的蛋白质特征。对于非饱和诱变场景中生成的突变型蛋白质,若2个位置发生了突变,则将这2个位置上的氨基酸的氨基酸特征组成的向量确定为该突变型蛋白质的蛋白质特征。
步骤204,从第一对象集合中选取指标预测值满足指标值筛选条件的对象,得到第二对象集合。
其中,指标值筛选条件包括指标预测值大于第一指标阈值,第一指标阈值可以预设或者根据需要设置。第二对象集合是从第一对象集合中筛选出的对象组成的集合,第二对象集合中的对象的指标预测值满足指标值筛选条件。
具体地,服务器可以将第一对象集合中的每个对象的指标预测值与第一指标阈值进行对比,将指标预测值大于第一指标阈值的各个对象组成第二对象集合。例如,对象为突变型蛋白质,预设指标为亲和力,第一指标阈值为亲和力阈值,则将第一对象集合中亲和力大于亲和力阈值的各个对象组成第二对象集合,亲和力阈值可以预设或者根据需要设置。
步骤206,基于第一对象集合中的多个对象在预设指标上的指标实验值和对象特征,确定预设指标与对象特征之间的映射关系。
其中,第一对象集合中的多个对象可以是指上述的参照对象集合中的各个对象。预设指标与对象特征之间的映射关系,用于反映随着对象特征的变化,预设指标的取值的变化,可以利用曲线表示预设指标与对象特征之间的映射关系,例如该映射关系可以用曲线y1=f1(x)表示,其中y1代表预设指标,x代表对象特征。
具体地,服务器在得到参照对象集合后,除了可以利用参照对象集合训练指标检测模型外,还可以利用参照对象集合中的各个对象在预设指标上的指标实验值和对象特征,确定预设指标与对象特征之间的映射关系。
在一些实施例中,得到参照对象集合中各个对象的指标实验值后,对于参照对象集合中每个对象,服务器可以将对象的对象特征和指标实验值作为曲线y1=f1(x)上的点,多个曲线上的多个点,对得到的该多个点进行拟合,生成表征该映射关系的曲线y1=f1(x)。
步骤208,基于映射关系从第二对象集合中确定符合预设指标的指标要求的目标对象。
其中,预设指标的指标要求例如可以是指标实验值尽可能大或指标实验值大于第二指标阈值中的至少一个,目标对象为第二对象集合中符合预设指标的指标要求的对象。
具体地,预设指标与对象特征之间的映射关系为第一映射关系,服务器可以基于第一映射关系进行统计运算,得到目标统计指标与对象特征之间的第二映射关系,基于第二映射关系,确定第二对象集合中的每个对象在目标统计指标上的统计指标值,基于每个对象的统计指标值,从第二对象集合中的各个对象中确定选取对象,基于选取对象得到符合预设指标的指标要求的对象。第一映射关系表征预设指标的取值随着对象特征的变化而变化的规律,第二映射关系表征目标统计指标的取值随着对象特征的变化而变化的规律。例如第二映射关系可以用曲线y2=f2(x)表示,其中y2代表目标统计指标,x代表对象特征。
目标统计指标可以为一个或多个。例如,目标统计指标包括但不限于是期望提升(Expected Improvement,EI)、概率提升(Probability of Improvement,PI)、置信边界策略(Upper Confidence Bound,UCB)或汤普森采样(Thompson Sampling,TS)等中的至少一个。第一映射关系还可以称为概率代理模型,第二映射关系还可以称为采集函数。其中,采集函数通过概率代理模型获得的后验概率分布构造,通过最大化采集函数来选择下一个最有“潜力”的实验点。采集函数负责在探索与利用权衡的基础上,对提议的新点进行测试。探索,即尽量选择远离已知点的点进行下一次实验,即尽量探索未知的区域;利用,即尽量选择靠近已知点的点进行下一次实验,即尽量挖掘已知点周围的点。
在一些实施例中,服务器可以基于第二映射关系,确定第二对象集合中的每个对象在目标统计指标上的统计指标值,基于每个对象的统计指标值,从第二对象集合中的各个对象中确定选取对象,具体地,选取对象可以为一个或多个,可以将最大的统计指标值所对应的对象确定为选取对象,或者可以将统计指标值大于第三指标阈值的对象确定为选取对象,第三指标阈值可以根据需要设置。服务器可以基于选取对象得到符合预设指标的指标要求的对象,例如服务器可以将选取对象确定为符合预设指标的指标要求的对象。
在一些实施例中,服务器得到选取对象后,可以获取选取对象的指标实验值,将选取对象的指标实验值与第二指标阈值进行对比,当确定选取对象的指标实验值达到第二指标阈值时,将选取对象确定为目标对象,其中,在得到选取对象后,可以通过实验确定选取对应的指标实验值,若确定选取对象的指标实验值未达到第二指标阈值,则可以将选取对象加入到参照对象集合中,再次的利用参照对象集合中的各个对象在预设指标上的指标实验值和对象特征,确定预设指标与对象特征之间的第一映射关系,从而再次基于第一映射关系从第二对象集合中确定符合预设指标的指标要求的目标对象,不断的循环,在找到指标实验值达到第二指标阈值选取对象的情况下,结束循环,将指标实验值达到第二指标阈值选取对象确定为目标对象,或者当循环的次数达到次数阈值时,将筛选出的选取对象确定为目标对象。
上述对象确定方法中,获取第一对象集合中的各对象分别在预设指标上的指标预测值,从第一对象集合中选取指标预测值满足指标值筛选条件的对象,得到第二对象集合,基于第一对象集合中的多个对象在预设指标上的指标实验值和对象特征,确定预设指标与对象特征之间的映射关系,基于映射关系从第二对象集合中确定符合预设指标的指标要求的目标对象。由于第二对象集合是从第一对象集合中筛选出来的,从而从第二对象集合中确定符合预设指标的指标要求的目标对象,要比从第一对象集合中筛选目标对象的效率要高,因此降低了确定目标对象的时间成本。
在实际的设计应用场景中,如:环境学家通过设计传感器部署位置来获取环境状况;化学家通过设计实验来获取新的物质;制药厂商通过设计新型药物来抵抗疾病等。通常,将这些设计问题考虑成如下最优化问题加以求解(只考虑最大化问题,最小化问题可以简单通过取负号操作转换成最小化问题):
其中,x表示d维决策向量,X表示决策空间,f(x)表示目标函数。对应上述例子,x可以表示成传感器部署位置,实验配置,药物配方等,f(x)可表示为环境,实验,配方等表现优劣的测度。在这些实际的设计应用场景中,包含很多复杂的设计决策,其优化目标通常具有以下特点:计算成本高:理想情况下,可以多次执行函数以确定其最优解,但实际的优化问题中计算过多采样是不现实的,计算代价很高;黑箱函数:实际问题中,目标函数的结构难以数学化描述,没有一阶或高阶导数,不能通过梯度下降或牛顿相关算法求解;要找到全局最小/大值:需要某种机制避免陷入局部最小/大值。从而为了获取所需要的物质,需要付出很高的时间成本。
而本申请提出的对象确定方法,可以加快获取所需要的物体的过程,提高了效率,从而降低了时间成本。例如可以利用本申请提供的对象确定方法应用于计算方法辅助蛋白质进化中,从而得到所需要的蛋白质。蛋白质在人们的生活中起到重要作用,例如,酶在人类社会,从日常到工业,如图3A所示。日常用的洗衣粉中,有的就含有酶,促进油污等污渍的分解;食品工业上的发酵、降解等过程中,酶更是必不可少;药物以及精细化工中酶作为绿色高效催化剂已经替代了传统化学中一些需要重金属参与且高耗能的生产过程;此外,酶更是生物能源发展中最为重要的角色。定向进化可以在较短时间而获得具有新的功能和特性的蛋白质。通过明确的人为设定目标,能让科学家重新设计分子,已成为新药研发、化学工程等领域的重要研究工具。可以采用机器学习辅助定向进化,如图3B所示,例如机器学习方法辅助定向进化的流程可以包含四个步骤,1)针对目标功能确立初始蛋白,在k个位置上构建变种库;2)利用已有的数据训练模型;3)使用训练好的模型对变种库中的其他突变体进行预测;4)选择最优的突变体进行实验测试,并将其加入到训练集中,用于下一轮的模型训练。通过计算方法辅助定向进化可以加速优化并减少实验负担。
在一些实施例中,第一对象集合中的对象为突变型蛋白质,方法还包括:基于第一对象集合中筛选得到参照对象集合;参照对象集合满足每种氨基酸在每个突变位置上至少出现目标次数的条件;获取第一对象集合中的各对象分别在预设指标上的指标预测值包括:基于参照对象集合中的每个对象的对象特征和指标实验值,训练指标检测模型;利用训练好的指标检测模型,预测第一对象集合中的每个对象的指标预测值。
其中,参照对象集合中的各个对象可以均为突变型蛋白质,或者参照对象集合中可以包括野生型蛋白质以及突变型蛋白质。第一对象集合中的对象为突变型蛋白质,目标次数可以预设或根据需要设置,例如可以为2次。突变位置即突变位点。参照对象集合满足每个氨基酸在每个突变位置上至少出现目标次数的条件,例如若氨基酸为20种,目标次数为2,则参照对象集合中的各个蛋白质中,这20个氨基酸在每个突变位点至少出现2次。以k位的饱和诱变场景生成的突变型蛋白质为例,有4个突变位点,20种的氨基酸中每个氨基酸在每个突变位点出现2次,则可以从样本空间中选择40个样本作为初始样本。这样既保证初始样本量中涵盖的氨基酸编码信息覆盖范围最大,同时所需的实验次数最少,减少实验成本。其中,样本空间可以包括突变型蛋白质,还可以包括野生型蛋白质,样本是指蛋白质,参照对象集合可以是不断变化的,初始样本是指初始确定的参照对象集合。
指标检测模型用于根据对象特征确定对象在预设指标上的取值,即确定对象在预设指标上的指标预测值,指标检测模型可以是神经网络模型,例如可以是XGBOD(ImprovingSupervised Outlier Detection with Unsupervised Representation Learning,用无监督表示学习改进有监督离群点检测),当然也可以是其他的模型,这里不做限定。其中,XGBOD的基本流程是通过采用多种无监督模型学习原始数据,得到各个样本的离群值得分,并将离群值得分作为新的数据表示形式。随后,将原始特征与合并,生成新的特征空间。最后,在新的特征空间上训练XGBoost分类器,并将其输出视为预测结果。
具体地,服务器可以获取参照对象集合中每个对象在预设指标上的指标实验值(记作对象对应的指标实验值),基于参照对象集合中每个对象在预设指标上的指标实验值,确定参照对象集合中每个对象的对象特征。服务器可以将对象的对象特征输入到待训练的指标检测模型中进行预测,得到对象在预设指标上的指标预测值(记作对象对应的指标预测值),基于对象对应的的指标实验值与对应的指标预测值之间差值,调整指标检测模型的模型参数,直到模型收敛,得到训练好的指标检测模型。服务器可以将第一对象集合中的每个对象的对象特征输入到训练好的指标检测模型中进行预测,得到第一对象集合中每个对象对应的指标预测值。
在一些实施例中,服务器可以基于参照对象集合中的每个对象的指标实验值,确定每种氨基酸的氨基酸特征,从而在确定第一对象集合中的对象的对象特征(即蛋白质特征)时,服务器利用参照对象集合确定出的每种氨基酸的氨基酸特征,确定第一对象集合中对象的蛋白质特征,例如,在k位饱和诱变场景中,基于参照对象集合中的每个对象的指标实验值,可以确定出每种氨基酸在每个突变位置上的氨基酸特征,对于第一对象集合中的对象,可以确定该对象中突变位置上的各个氨基酸,从已确定的“每种氨基酸在每个突变位置上的氨基酸特征”中确定该对象中每个突变位置的氨基酸对应的氨基酸特征,将确定出的各个氨基酸特征组成的向量确定为该对象的对象特征(即蛋白质特征)。
在一些实施例中,基于第一对象集合中筛选得到参照对象集合的方法,可以作为贝叶斯优化中确定初始样本的样本选择策略,从而提高优化效率,降低贝叶斯优化的时间成本,既保证初始样本量中涵盖的氨基酸编码信息覆盖范围最大,同时所需的实验次数最少,减少实验成本。其中,贝叶斯优化通常采用基于高斯分布的高斯过程(Gaussianprocess,GP)回归作为先概率代理模型。GP具有灵活性和可扩展性,理论上能代理任意线性/非线性函数。当然,也可以采用基于student-t先验的高斯过程回归作为先概率代理模型,将稳健回归(基于student-t分布的高斯过程)与异常点检测相结合,将数据点分为异常点(outliers)和正常点(inliers),从而消除离群值对模型拟合的影响。基于student-t先验的高斯过程可以简称为“Robust GP”,基于高斯分布的高斯过程可以简称为“GP”。
本实施例中,由于参照对象集合满足每种氨基酸在每个突变位置上至少出现目标次数的条件,从而使得得到的参照对象集合中的各个氨基酸的数量是均衡的,从而基于参照对象集合训练指标检测模型,提高了训练准确度,从而提高了训练好的指标检测模型预测出的指标预测值的准确度。
在一些实施例中,基于第一对象集合中的多个对象在预设指标上的指标实验值和对象特征,确定预设指标与对象特征之间的映射关系包括:基于参照对象集合中每个对象在预设指标上的指标实验值,确定参照对象集合中各个对象的对象特征;基于参照对象集合中每个对象在预设指标上的指标实验值和对象特征,确定预设指标与对象特征之间的映射关系。
具体地,服务器可以对参照对象集合中每个对象对应的指标实验值进行统计计算,得到参照对象中各个对象的对象特征。其中,对象对应的指标实验值是指对象在预设指标上的指标实验值。统计计算包括但不限于是计算均值、最大值或最小值中的至少一个。
在一些实施例中,预设指标与对象特征之间的映射关系为第一映射关系,映射关系可以采用曲线表示,例如第一映射关系用曲线y1=f1(x)表示,对于参照对象集合中每个对象,服务器可以将对象的对象特征和指标实验值作为曲线y1=f1(x)上的点,多个曲线上的多个点,对得到的该多个点进行拟合,生成表征该映射关系的曲线y1=f1(x)。
本实施例中,由于参照对象集合满足每种氨基酸在每个突变位置上至少出现目标次数的条件,从而使得得到的参照对象集合中的各个氨基酸是均衡的,从而基于参照对象集合中每个对象在预设指标上的指标实验值,确定参照对象集合中各个对象的对象特征,可以使得氨基酸编码信息覆盖范围较大,即提高了对象特征所覆盖的信息范围。
在一些实施例中,基于第一对象集合中筛选得到参照对象集合包括:获取当前得分集合;当前得分集合包括每种氨基酸分别对应的当前得分;基于第一对象集合得到第二蛋白质集合,基于当前得分集合从第二蛋白质集合中选取目标蛋白质;将当前得分集合中与目标蛋白质中的每个突变位置的氨基酸分别对应的当前得分进行递减,并将目标蛋白质从第二蛋白质集合移到第一蛋白质集合中;在当前得分集合表征第一蛋白质集合不满足每种氨基酸在每个突变位置上至少出现目标次数的条件的情况下,返回基于当前得分集合从第二蛋白质集合中选取目标蛋白质的步骤,直到当前得分集合表征第一蛋白质集合满足每种氨基酸在每个突变位置上至少出现目标次数的条件为止,将第一蛋白质集合确定为参照对象集合。
其中,当前得分集合包括每种氨基酸分别对应的当前得分。当前得分为整数,例如为2。每种氨基酸分别对应的当前得到可以不同也可以相同,每种氨基酸可以对应一个当前得分,也可以对应多个当前得分,例如同一种氨基酸在不同的突变位置分别所对应有当前得分。当前得分集合中是不断变化的。目标蛋白质是基于当前得分集合从第二蛋白质集合中选取的,目标蛋白质可以为一个或多个。
具体地,服务器可以将第一对象集合确定为第二蛋白质集合,即第二蛋白质集合中的对象与第一对象集合中的对象一致,或者,服务器可以从第一对象集合中获取除参照对象集合中的对象之外的对象,组成第二对象集合。
在一些实施例中,将当前得分集合,确定第二蛋白质集合中每个突变型蛋白质的当前蛋白质得分,将最大的当前蛋白质得分所对应的突变型蛋白质确定为目标蛋白质。服务器可以按照当前蛋白质得分从大到小的顺序,对第二蛋白质集合中的各个突变型蛋白质进行排列,得到第一蛋白质序列,将第一蛋白质序列中排列在排序阈值之前的突变型蛋白质确定为目标蛋白质,排序阈值可以预设或根据需要设置,例如为第1位或第2位等中的任意一个。
在一些实施例中,服务器可以将当前得分集合中与目标蛋白质中的每个突变位置的氨基酸分别对应的当前得分进行递减,并将目标蛋白质从第二蛋白质集合移到第一蛋白质集合中。
举例说明,若第一对象集合中的对象是在k位饱和诱变场景下生成的突变型蛋白质,则当前得分集合中包括每种氨基酸在每种突变位置上的当前得分,以突变位置为4个为例,当前得分集合可以采用矩阵形式表示,当前得分集合还可以称为当前得分矩阵,当前得分集合对应的矩阵中,第u行第w列表示第u种氨基酸在第w个突变位置上所对应的当前得分,1≤u≤m,1≤w≤k,m为氨基酸的种类的数量,例如为20种,k表示突变位置的数量,例如为4。例如,若突变型蛋白质中第1个突变位置上的氨基酸为第1种氨基酸,则对应的当前得分为矩阵中第1行第1列的得分。
若第一对象集合中的对象是非饱和诱变场景下生成的突变型蛋白质,则当前得分集合中包括每种氨基酸分别对应的当前得分,当前得分集合可以通过一个向量来表示,当前得分集合还可以称为当前得分向量,该向量中排列在第u个位置处的得分表示第u种氨基酸的当前得分,例如,若突变型蛋白质中第1个突变位置上的氨基酸为第1种氨基酸,则对应的当前得分为该向量中排列在第1位的得分。
在一些实施例中,在当前得分集合表征第一蛋白质集合不满足每种氨基酸在每个突变位置上至少出现目标次数的条件的情况下,服务器返回执行基于当前得分集合从第二蛋白质集合中选取目标蛋白质的步骤,直到当前得分集合表征第一蛋白质集合满足每种氨基酸在每个突变位置上至少出现目标次数的条件为止,将第一蛋白质集合确定为参照对象集合。具体地,第一蛋白质集合是不断变化的,若初始的第一蛋白质集合中不包括任何的蛋白质,则初始的当前得分集合中的得分均等于目标次数,例如,目标次数为2,则当前得分集合中的每个当前得分等于2,初始的当前得分集合中的。在确定了目标蛋白质后,可以将目标蛋白质从第二蛋白质集合移到第一蛋白质集合中,并将目标蛋白质中各个突变位置的氨基酸在当期得分矩阵中对应的当前分数进行递减,每次减1,例如从2减到1或从1减到0,从而不断的更新当前得分矩阵,在当前得分矩阵中不存在大于0的得分的情况下,确定第一蛋白质集合满足每种氨基酸在每个突变位置上至少出现目标次数的条件,从而将第一蛋白质集合确定为参照对象集合。
本实施例中,基于第一对象集合得到第二蛋白质集合,从第二蛋白质集合中选取目标蛋白值,基于目标蛋白质更新当前得分集合,并将目标蛋白质从第二蛋白质集合移到第一蛋白质集合中,从而不断的选取蛋白质对当前得分进行更新,在当前得分集合中表征第一蛋白质集合满足每种氨基酸在每个突变位置上至少出现目标次数的条件的情况,将第一蛋白质集合确定为参照对象集合,从而快速的从第一对象集合中选取了满足每种氨基酸在每个突变位置上至少出现目标次数之一条件的参照对象集合,减少了确定参照对象集合的实验次数,从而减少了实验成本和时间成本。
在一些实施例中,获取当前得分集合包括:获取初始得分集合;初始得分集合中每种氨基酸分别对应的初始得分为目标次数;将初始得分集合中与野生型蛋白质中的每个突变位置的氨基酸分别对应的初始得分进行递减,得到当前得分集合,并基于野生型蛋白质确定第一蛋白质集合;野生型蛋白质为未发生突变的蛋白质。
其中,初始得分集合中每种氨基酸分别对应的初始得分为目标次数,目标次数为整数,例如为2,则初始得分为2。例如,若第一对象集合中的对象是在k位饱和诱变场景下生成的突变型蛋白质,则初始得分集合中包括每种氨基酸在每种突变位置上的初始得分,以突变位置为4个为例,初始得到集合可以采用矩阵形式表示,且矩阵中每个元素均为2,初始得到集合对应的矩阵中,第u行第w列表示第u种氨基酸在第w个突变位置上所对应的初始得分,1≤u≤m,1≤w≤k,m为氨基酸的种类的数量,例如为20种,k表示突变位置的数量,例如为4。例如,若突变型蛋白质中第1个突变位置上的氨基酸为第1种氨基酸,则对应的初始得分为矩阵中第1行第1列的初始得分。
若第一对象集合中的对象是非饱和诱变场景下生成的突变型蛋白质,则初始得分集合中包括每种氨基酸分别对应的初始得分,初始得分集合可以通过一个向量来表示,且该向量中的元素均为2,该向量中排列在第u个位置处的得分表示第u种氨基酸的初始得分。若突变型蛋白质中第1个突变位置上的氨基酸为第1种氨基酸,则对应的初始得分为该向量中排列在第1位的得分。
具体地,k位饱和诱变场景下,k个突变位置,服务器可以从野生型蛋白质中确定每个突变位置所对应的氨基酸,将初始得分集合中与该氨基酸对应的当前得分进行递减,每次减1,得到当前得分集合。以4位饱和诱变场景为例,突变位置有4个,若这4个突变位置在野生型蛋白质中对应的氨基酸分别为第1种氨基酸A1、第2种氨基酸A2、第3种氨基酸A3以及第4种氨基酸A4,则将初始得分集合对应的矩阵中的第1行第1列、第2行第2列、第3行第3列、第4行第4列的得分均减1,将均减1后的该初始得分集合确定为当前得分集合。
非饱和诱变场景下,每种突变型蛋白质对应有目标数量的突变位置,目标数量例如为2,服务可以统计非饱和诱变场景下多个突变型蛋白质分别对应的突变位置,得到突变位置集合,服务器可以从野生型蛋白质中确定突变位置集合中每个突变位置所对应的氨基酸,服务器可以从野生型蛋白质中确定突变位置集合中每个突变位置在野生型蛋白质分别对应的氨基酸,将初始得分集合中与确定出的每种氨基酸分别对应的当前得分进行递减,每次减1,得到当前得分集合。
在一些实施例中,服务器可以将野生型蛋白质组成的集合确定为第一蛋白质集合,即初始的第一蛋白质集合中包括一个野生型蛋白质。
本实施例中,基于未发生突变的野生型蛋白质对初始得分集合进行更新,得到当前得分集合,从而加速得分递减的速度,提高了得到参照对象集合的效率,降低了时间成本。
在一些实施例中,基于当前得分集合从第二蛋白质集合中选取目标蛋白质包括:对于第二蛋白质集合中的每个突变型蛋白质,从当前得分集合中确定突变型蛋白质中每个突变位置处的氨基酸分别对应的当前得分;基于得到的各个当前得分确定突变型蛋白质的当前蛋白质得分;基于当前蛋白质得分,从第二蛋白质集合中选取得到目标蛋白质。
具体地,对于第二蛋白质集合中的每个突变型蛋白质,从当前得分集合中确定突变型蛋白质中每个突变位置处的氨基酸分别对应的当前得分,将得到的各个当前得分进行求和计算,将求和计算的结果确定为突变型蛋白质的当前蛋白质得分。
在一些实施例中,服务器可以按照当前蛋白质得分从大到小的顺序,对第二蛋白质集合中的各个突变型蛋白质进行排列,得到第一蛋白质序列,将第一蛋白质序列中排列在排序阈值之前的突变型蛋白质确定为目标蛋白质,排序阈值可以预设或根据需要设置,例如为第1位或第2位等中的任意一个。
本实施例中,从第二蛋白质集合中选取当前蛋白质得分满足得分较大条件的突变型蛋白质,得到目标蛋白质,由于当前蛋白质得分越大,则对当前得分集合更新的力度越大,从而加快了使得当前得分集合表征第一蛋白质集合满足每种氨基酸在每个突变位置上至少出现目标次数的条件的速度,加快了得到参照对象集合的效率。
在一些实施例中,每种氨基酸对应有氨基酸,当前得分集合中的得分由氨基酸和突变位置唯一标识;从当前得分集合中确定突变型蛋白质中每个突变位置处的氨基酸分别对应的当前得分包括:对于每个突变位置处的氨基酸,根据氨基酸对应的氨基酸以及突变位置,从当前得分集合中确定突变位置处的氨基酸对应的当前得分。
具体地,在第一对象集合中的对象是在k位饱和诱变场景下生成的突变型蛋白质的情况下,则当前得分集合中包括每种氨基酸在每种突变位置上的当前得分,即当前得分矩阵中的得分由氨基酸和突变位置唯一标识,以突变位置为4个为例,当前得分集合可以采用矩阵形式表示,当前得分集合对应的矩阵中,第u行第w列表示第u种氨基酸在第w个突变位置上所对应的当前得分,1≤u≤m,1≤w≤k,m为氨基酸的种类的数量,例如为20种,k表示突变位置的数量,例如为4。例如,若突变型蛋白质中第1个突变位置上的氨基酸为第1种氨基酸,则对应的当前得分为矩阵中第1行第1列的得分。
对于非饱和诱变场景,若当前得分集合为当前得分向量,当前得分向量中第u个元素为第u种氨基酸的得分,若突变型蛋白质有2个突变位置,这两个突变位置的氨基酸分别为第3种氨基酸以及第10种氨基酸,则第3种氨基酸对应的分数为当前得分向量中第3个位置的得分,第10种氨基酸对应的分数为当前得分向量中第10个位置的得分。
在一些实施例中,对于k位饱和诱变场景,服务器可以通过下列的算法确定筛选得到参照对象集合:
该算法的输入数据:p,集合Dtrain={(S0,y0)},矩阵M。
其中,p指的是在每个突变位点上每种氨基酸的出现次数,即目标次数,例如为2。Dtrain指的是第一蛋白质集合,(S0,y0)中的S0表示野生型蛋白质,y0表示野生型蛋白质的指标实验值。M指的是当前得分矩阵,其中,m为氨基酸的种类的数量,例如为20,AAINDEX(a)表示矩阵M中氨基酸a的坐标,即氨基酸a对应的得分在M中的位置。
初始化当前得分矩阵的步骤为:如果第u种氨基酸出现在S0的第w个突变位置,则Muw=p-1,否则Muw=p,Muw为M中第u行第w列的元素,1≤w≤k。
该算法的输出数据为:更新后的集合Dtrain。算法输出的Dtrain为初始的参照对象集合。
该算法的步骤:
其中,Scorei为第一对象集合中的第i个突变型蛋白质Si的当前蛋白质得分,Vi={(u,w)|AAINDEX(Sij)}表示Si中的每个突变位置上的每个氨基酸Sij对应的当前得分在矩阵M中的坐标(u,w)。
步骤3:选择得分最大的突变型蛋白质i*=argmaxScorei。该步骤用于确定当前蛋白质得分最大的突变型蛋白质。
其中,i*表示当前蛋白质得分最大的突变型蛋白质为第一对象集合中的第i*个突变型蛋白质。
步骤4:更新集合Dtrain←(Si*,yi*)。该步骤的意思为:将第一对象集合中的第i*个突变型蛋白质加入到第一蛋白质集合中。
其中,(Si*,yi*)中的Si*表示第一对象集合中的第i*个突变型蛋白质,yi*表示第i*个突变型蛋白质的指标实验值。
步骤5:更新得分矩阵M,如果第u种氨基酸出现在Si*的第w个突变位置,则Muw=Muw-1,否则Muw=Muw。
步骤6:end while。如果M中不存在大于0的元素,则执行步骤7。
步骤7:输出Dtrain。
在一些实施例中,对于非饱和诱变场景,服务器可以通过下列的算法筛选得到参照对象集合:
该算法的输入数据:p,集合Dtrain={(S0,y0)},向量Q。
其中,p指的是在每个突变位点上每种氨基酸的出现次数,即目标次数,例如为2。Dtrain指的是第一蛋白质集合,(S0,y0)中的S0表示野生型蛋白质,y0表示野生型蛋白质的指标实验值。向量Q指的是当前得分向量,Q∈Rm,m为氨基酸的种类的数量,例如为20,AAINDEX(a)表示向量Q中氨基酸a的坐标,即氨基酸a对应的得分在Q中的位置。
初始化当前得分向量的步骤为:如果第u种氨基酸出现在S0的突变位置上,则Qu=p-1,否则Qu=p,Qu为向量Q中的第u个元素。
该算法的输出数据为:更新后的集合Dtrain。算法输出的Dtrain为初始的参照对象集合。
其中,Scorei为第一对象集合中的第i个突变型蛋白质Si的当前蛋白质得分,Bi={u|AAINDEX(Sij)}表示Si中的每个突变位置上的每个氨基酸Sij对应的当前得分在矩阵Q中的坐标u。
步骤3:选择得分最大的突变体i*=argmaxScorei。该步骤用于确定当前蛋白质得分最大的突变型蛋白质。
其中,i*表示当前蛋白质得分最大的突变型蛋白质为第一对象集合中的第i*个突变型蛋白质。
步骤4:更新集合Dtrain←(Si*,yi*)。该步骤的意思为:将第一对象集合中的第i*个突变型蛋白质加入到第一蛋白质集合中。
步骤5:更新得分矩阵Q,如果第u种氨基酸出现在Si*的突变位置上,则Qu=p-1,否则Qu=p,Qu为向量Q中的第u个元素。
步骤6:end while。如果Q中不存在大于0的元素,则执行步骤7。
步骤7:输出Dtrain
本实施例中,由于每种氨基酸对应有氨基酸,当前得分集合中的得分由氨基酸和突变位置唯一标识,对于每个突变位置处的氨基酸,根据氨基酸对应的氨基酸以及突变位置,从当前得分集合中确定突变位置处的氨基酸对应的当前得分,从而可以准确快速的确定每个氨基酸在每个突变位置的当前得分。
本申请提供的蛋白质编码的方法(即确定蛋白质特征的方法)可以结合贝叶斯优化辅助蛋白质进化,对蛋白质进行编码得到蛋白质特征的过程可以称为蛋白质特征表示的过程,有效的蛋白质特征表示对于贝叶斯优化找到最佳蛋白质突变体至关重要。为了更好地结合领域知识来构建精确且信息丰富的低维特征表示,在本申请中提出一种新的低维编码策略来表示每个位点的每个氨基酸。具体来说,针对蛋白质定向进化中的两个实验场景:k位的饱和诱变场景和非饱和诱变场景,制定了两种方式来计算每个位点的氨基酸表示。
在一些实施例中,对象特征为蛋白质特征,基于参照对象集合中每个对象在预设指标上的指标实验值,确定参照对象集合中各个对象的对象特征包括:对于每个突变位置,按照突变位置处的氨基酸的种类对参照对象集合进行划分,得到每种氨基酸分别对应的第一子对象集合;对于每个突变位置处的每种氨基酸,基于氨基酸对应的第一子对象集合中的每个对象的指标实验值,确定氨基酸在突变位置处的氨基酸特征;基于对象中每个突变位置处的氨基酸的氨基酸特征,得到对象的蛋白质特征。
其中,第一子对象集合由突变位置以及氨基酸的种类唯一确定,例如,突变位置有4个,分别为第1个突变位置、第2个突变位置、第3个突变位置以及第4个突变位置,氨基酸为20种,分别为第ii种氨基酸,1≤ii≤20,则生成80个第一子对象集合,不同的第一子对象集合对应的突变位置以及氨基酸中的至少一个不同,例如第一子对象集合1为第1个突变位置和第1种氨基酸对应的第一子对象集合,第一子对象集合2为第1个突变位置和第2种氨基酸对应的第一子对象集合。
具体地,对于每个突变位置,服务器可以按照突变位置处的氨基酸的种类对参照对象集合进行划分,得到每种氨基酸分别对应的第一子对象集合。例如,对于第kk个突变位置,服务器可以从参照对象集合中的每个对象中,获取第kk个突变位置上的氨基酸,组成第kk个突变位置对应的氨基酸集合,例如,若参数对象集合中包括40个对象,则氨基酸集合中包括40个氨基酸,不同的对象中第kk个突变位置上的氨基酸的种类可以相同也可以不同。得到第kk个突变位置对应的氨基酸集合后,服务器可以根据氨基酸的种类,将氨基酸集合进行划分得到多个子集合,将同一种氨基酸划分到同一个子集合,将不同的氨基酸划分到不同的子集合,每个子集合中只包括一种氨基酸,划分得到的各个子集合即为第kk个突变位置上每种氨基酸分别对应的第一子对象集合。例如,假如蛋白质中的第j个位置为突变位置,则该突变位置对应的第一子对象集合可以表示为Vj(a)={i|Sij=a},其中,j表示突变位置,i为参照对象集合中的对象的编号,Sij代表第参照对象集合中第i个对象Si中在突变位置j上的氨基酸。a表示任意一种氨基酸,例如,若氨基酸有20种,则a代表这20种氨基酸中的任意一种。若a为第1种氨基酸(记作A1),则突变位置j处氨基酸A1对应的第一子对象集合为Vj(A1)={i|Sij=A1}。
在一些实施例中,对于每个突变位置处的每种氨基酸,服务器可以基于氨基酸对应的第一子对象集合中的每个对象的指标实验值,确定氨基酸在突变位置处的氨基酸特征。举例说明,突变位置j处氨基酸A1对应的第一子对象集合为Vj(A1)={i|Sij=A1},则在计算氨基酸A1在突变位置j处的氨基酸特征时,可以利用Vj(A1)={i|Sij=A1}中的各个对象的编号对应的对象的指标实验值,确定氨基酸A1在突变位置j处的氨基酸特征。
本实施例中,对于每个突变位置处的每种氨基酸,基于氨基酸对应的第一子对象集合中每个对象的指标实验值,确定氨基酸在突变位置处的氨基酸特征,从而使得同一种氨基酸在不同的突变位置的氨基酸特征与突变位置相关,即相同的氨基酸在不同的位置具有不同的特征表示,例如处于不同突变位置处的同一种类的氨基酸的特征可以是各不相同的,提高了对氨基酸编码的精准度。本实施例提供的确定蛋白质特征的方法,可以应用于对在k位的饱和诱变场景中的生成的突变型蛋白质进行编码,得到突变型蛋白质的蛋白质特征。
本申请提供的对象确定方法可以应用于贝叶斯优化中,运用贝叶斯优化方法辅助蛋白质定向进化。贝叶斯优化能够在少量测量样本中用尽可能少的实验次数,通过平衡探索和利用,有效探索组合空间,找到样本空间中的最优解。然而,在贝叶斯优化的应用中,目前的编码策略不可避免地会遇到一些问题。一方面,高维编码策略对贝叶斯优化具有挑战性,因为成功的全局优化搜索需要准确且信息丰富的低维表示。另一方面,分类标签(例如,one-hot编码)可能会导致从特定蛋白质的可用实验数据中丢失关于死亡变体的知识。这一点可以从图4中看出,图4中横坐标对应的每个字母代表一种氨基酸,例如V为一种氨基酸,图4计算了从GB1数据集中选择的384个实验样本(GB1变体)中的4个突变位点上20种氨基酸(AA,Amino Acid)的平均适应度。每个突变位点上的每种氨基酸的平均适应度是通过计算该突变位点上具有亲和力测量值的平均值得到的,对应的标准差显示为误差条(即图4中的竖向的线条)。从图4中可以清楚地看到,无论在其他位置选择氨基酸如何,在特定突变位点存在一些死变体将直接导致低适应度或零适应度。因此,采用现有的蛋白质编码方式运用到贝叶斯优化方法中辅助蛋白质定向进化,通常效果不佳。
而本申请提出的蛋白质编码方法(即确定蛋白质特征的方法),编码得到的蛋白质特征是准确且信息丰富的低维特征,从而将本申请提供的对象确定方法应用于贝叶斯优化中,可以快速的利用贝叶斯优化辅助蛋白质定向进化。
在一些实施例中,基于氨基酸对应的第一子对象集合中的每个对象的指标实验值,确定氨基酸在突变位置处的氨基酸特征包括:对氨基酸对应的第一子对象集合中的每个对象的指标实验值进行统计计算,得到至少一个指标实验统计值;基于至少一个指标实验统计值确定氨基酸在突变位置处的氨基酸特征。
其中,指标实验统计值可以为一个或多个,多个是指至少两个。统计计算包括但不限于是计算均值、最小值或最小值等中的至少一种。
具体地,服务器可以对氨基酸对应的第一子对象集合中的每个对象的指标实验值进行统计计算,得到至少一个指标实验统计值,基于至少一个指标实验统计值确定氨基酸在突变位置处的氨基酸特征。举例说明,突变位置j处氨基酸A1对应的第一子对象集合为Vj(A1)={i|Sij=A1},则在计算氨基酸A1在突变位置j处的氨基酸特征时,获取Vj(A1)={i|Sij=A1}中的各个编号对应的对象的指标实验值,计算获取的各个指标实验值的均值,得到第一指标均值,从各个指标实验值中确定最大值,得到第一指标最大值,第一指标均值为一个指标实验统计值,最大值也为一个指标实验统计值,基于第一指标均值或第一指标最大值中的至少一个,确定氨基酸A1在突变位置j处的氨基酸特征。例如,可以将第一指标均值以及第一指标最大值分别作为特征值组成氨基酸特征,即氨基酸特征中包括第一指标均值以及第一指标最大值。例如,第一指标均值可以表示为公式(1),第一指标最大值可以表示为公式(2)。公式(1)和公式(2)中的yi代表参照对象集合中的第i个对象在预设指标上的指标实验值。
举例说明,以参照对象集合中的突变型蛋白质为在k位的饱和诱变场景中生成的突变型蛋白质为例,通过计算每个突变位点的每种氨基酸所在突变型蛋白质的亲和力的测量值的平均值或最大值来对氨基酸进行编码。相应的突变型蛋白质的特征由这些氨基酸编码组成的特征向量表示。这种方式允许相同的氨基酸在不同的位置具有不同的特征表示,为回归创建一个更平滑的局部变量。
本实施例中,对氨基酸对应的第一子对象集合中的每个突变型蛋白质的指标实验值进行统计计算,基于统计出的指标实验统计值确定氨基酸在突变位置处的氨基酸特征,通过统计数据提高了编码得到的氨基酸特征的精准度。本实施例提供的确定蛋白质特征的方法,可以应用于对在k位的饱和诱变场景中的生成的突变型蛋白质进行编码,得到突变型蛋白质的蛋白质特征。
在一些实施例中,对象特征为蛋白质特征;基于参照对象集合中每个对象在预设指标上的指标实验值,确定参照对象集合中各个对象的对象特征包括:对于每种氨基酸,从参照对象集合中确定突变位置处的氨基酸包括氨基酸的对象,得到氨基酸对应的第二子对象集合;对于每种氨基酸,基于氨基酸对应的第二子对象集合中的各个对象的指标实验值,确定氨基酸的氨基酸特征;基于对象中每个突变位置处的氨基酸的氨基酸特征,得到对象的蛋白质特征。
其中,每个第二子对象集合分别对应一种氨基酸,不同的第二子对象集合对一个的氨基酸不同。
具体地,参照对象集合中的对象为蛋白质,参照对象集合可以包括突变型蛋白质以及野生型蛋白质。对于每种氨基酸,服务器可以从参照对象集合中确定突变位置处的氨基酸中包括该氨基酸的对象,组成该氨基酸对应的第二子对象集合。例如,对于第1种氨基酸A1,对于每个对象,确定该对象的各个突变位置上的氨基酸,组成该对象对应的氨基酸集合,得到参照对象集合中的各个对象分别对应的氨基酸集合后,从各个对象分别对应的氨基酸集合中,确定包括第1中氨基酸A1的氨基酸集合,将包括A1的氨基酸集合所对应的对象组合成氨基酸A1对应的第二子对象集合。
在一些实施例中,对于参照对象集合中的每个对象,对于每种氨基酸,服务器可以从该对象中确定每种氨基酸分别对应的突变位置,其中,当突变位置1上的氨基酸为A1时,则氨基酸A1对应的突变位置为突变位置1。每种氨基酸可以对应0个、1个或多个突变位置,多个是指至少两个,例如对于参照对象集合中的第i个对象Sij,每种氨基酸分别对应的突变位置组成的集合Ni(a)可以表示为公式(3),其中,j为突变位置。对于每种氨基酸,可以基于每个氨基酸中每种氨基酸分别对应的突变位置组成的集合,确定每种氨基酸对应的第二子对象集合。例如,第二子对象集合V(a)可以表示为公式(4),公式(4)中,对于氨基酸a,若第i个对象中氨基酸a对应的突变位置的数量(即|Ni(a)|)不为0,则将第i个对象作为氨基酸a对应的第二子对象集合中的对象。|Ni(a)|表示集合Ni(a)中包括的元素的数量。
Ni(a)=|{j|Sij=a}| (3) V(a)={i||Ni(a)|≠0} (4)
在一些实施例中,对于每种氨基酸,服务器可以基于该氨基酸对应的第二子对象集合中的各个对象的指标实验值进行统计计算,得到该氨基酸的氨基酸特征。统计计算包括但不限于是计算均值、最大值或最小值中的至少一个。例如,服务器可以对第二子对象集合中的各个对象的指标实验值进行均值计算,得到第二指标均值,获取第二子对象集合中的各个对象的指标实验值中的最大的指标实验值,得到第二指标最大值,基于第二指标均值或第二指标最大值中的至少一个得到该氨基酸的氨基酸特征,例如可以将第二指标均值以及第二指标最大值作为特征值,构成氨基酸特征,即氨基酸特征包括第二指标均值以及第二指标最大值。例如,第二指标均值可以表示为公式(5),第二指标最大值可以表示为公式(6)。公式(5)和公式(6)中的yi代表参照对象集合中的第i个对象在预设指标上的指标实验值。
在一些实施例中,服务器可以基于突变型蛋白质中每个突变位置、以及每个突变位置上的氨基酸的氨基酸特征编码得到该突变型蛋白质的蛋白质特征。例如,对于非饱和诱变的场景生成的突变型蛋白质,若每个突变型蛋白质包括2个突变位置,则将这个2个突变位置以及这2个突变位置分别对应的氨基酸的氨基酸特征构成的向量,确定为该突变型蛋白质的蛋白质特征。从而,对于非饱和诱变的场景生成的突变型蛋白质,突变型蛋白质中的氨基酸可以通过计算在任何位置包含该氨基酸的蛋白质的适应度测量值(指标实验值)的平均值或最大值来编码的,突变型蛋白质的表示载体由突变位置和相应的突变氨基酸编码组成,这种编码方式更符合蛋白质进化的生物学意义,且大大降低了特征的维度。
本实施例中,由于某个氨基酸对应的第二子对象集合中的每个突变型蛋白质的突变位置处的氨基酸包括该氨基酸,对于每种氨基酸,基于该氨基酸对应的第二子对象集合中的各个突变型蛋白质的指标实验值,得到氨基酸的氨基酸特征,从而基于包括该氨基酸的蛋白质的指标实验值对该氨基酸进行编码,提高了氨基酸编码的精准度。本实施例提供的确定蛋白质特征的方法,可以应用于对在非饱和诱变的场景中的生成的突变型蛋白质进行编码,得到突变型蛋白质的蛋白质特征。
在一些实施例中,基于映射关系从第二对象集合中确定符合预设指标的指标要求的目标对象包括:基于映射关系,确定第二对象集合中的每个对象在目标统计指标上的统计指标值,基于统计指标值从第二对象集合中确定选取对象;在不满足迭代停止条件的情况下,将选取对象加入到参照对象集合;返回基于参照对象集合中每个对象在预设指标上的指标实验值,确定参照对象集合中各个对象的对象特征的步骤,直到满足迭代停止条件;将满足迭代停止条件的情况下得到的选取对象,确定为符合预设指标的指标要求的目标对象。
其中,预设指标与对象特征之间的映射关系为第一映射关系。迭代停止条件包括迭代次数(即循环次数)达到次数阈值、选取对象的指标实验值达到第二指标阈值中的至少一种。选取对象可以是不断变化的,不同的循环次数中确定的选取对象是不同的。
具体地,服务器可以基于第一映射关系进行统计计算,得到目标统计指标与对象特征之间的第二映射关系,基于第二映射关系确定第二对象集合中每个对象在目标统计指标上的统计指标值,统计指标值是指对象在目标统计指标上的取值。例如,第二映射关系用曲线y2=f2(x)表示,为了确定对象在目标统计指标上的指标统计值,可以计算在曲线y2=f2(x)中的x为该对象的对象特征的情况下,y2的取值,将y2的取值确定为该对象在目标统计指标上的指标统计值。
在一些实施例中,选取对象可以为一个或多个,可以将最大的统计指标值所对应的对象确定为选取对象,或者可以将统计指标值大于第三指标阈值的对象确定为选取对象,第三指标阈值可以根据需要设置。服务器可以基于选取对象得到符合预设指标的指标要求的对象,例如服务器可以将选取对象确定为符合预设指标的指标要求的对象。
在一些实施例中,在不满足迭代停止条件的情况下,服务器可以将选取对象加入到参照对象集合,返回基于参照对象集合中每个对象在预设指标上的指标实验值,确定参照对象集合中各个对象的对象特征的步骤,直到满足迭代停止条件,将满足迭代停止条件的情况下得到的选取对象,确定为符合预设指标的指标要求的目标对象。例如,迭代停止条件为迭代次数(即循环次数)达到次数阈值,则当迭代次数(即循环次数)达到次数阈值的情况,将选取对象确定为目标对象。
本实施例中,在不满足迭代停止条件的情况下,再次的确定新的选取对象,从而逐渐的寻找到满足预设指标的指标要求的目标对象,由于将选取对象加入到了参照对象集合中,从而参照对象集合中的对象的数量增加了,故在每次确定新的选取对象的过程中,执行确定参照对象集合中各个对象的对象特征的步骤,逐渐的提高了编码得到的对象特征的精准度,提高了最终选出的目标对象的准确度。
在一些实施例中,如图5所示,提供了一种对象确定方法,该方法中的对象为突变型蛋白质,该方法可以由终端或服务器执行,还可以由终端和服务器共同执行,以该方法应用于服务器为例进行说明,包括以下步骤:
步骤502,获取初始得分集合;初始得分集合中每种氨基酸分别对应的初始得分为目标次数。步骤504,将初始得分集合中与野生型蛋白质中的每个突变位置的氨基酸分别对应的初始得分进行递减,得到当前得分集合,并基于野生型蛋白质确定第一蛋白质集合;野生型蛋白质为未发生突变的蛋白质,基于第一对象集合得到第二蛋白质集合。
步骤506,对于第二蛋白质集合中的每个突变型蛋白质,从当前得分集合中确定突变型蛋白质中每个突变位置处的氨基酸分别对应的当前得分,基于得到的各个当前得分确定突变型蛋白质的当前蛋白质得分,基于当前蛋白质得分,从第二蛋白质集合中选取得到目标蛋白质。
步骤508,将当前得分集合中与目标蛋白质中的每个突变位置的氨基酸分别对应的当前得分进行递减,并将目标蛋白质从第二蛋白质集合移到第一蛋白质集合中。
步骤510,判断当前得分集合中是否存在大于0的得分,若是,则返回步骤506,若否,则执行步骤512。
步骤512,将第一蛋白质集合确定为参照对象集合。
如图6所示,展示了一种对象确定方法的原理图,用于确定亲和力较高的突变型蛋白质。候选样本空间中包括野生型蛋白质和多个突变型蛋白质。步骤508中的参照对象集合为初始的参照对象集合,参照对象集合之后会发生变化,初始的参照对象集合例如为图6中的初始样本集合,按照本申请提供的确定初始的参照对象集合的方法,从候选样本空间中筛选得到初始样本集合,初始样本集合中的样本为野生型蛋白质或突变型蛋白质中的任意一种。步骤514,基于参照对象集合中的每个对象的对象特征和指标实验值,训练指标检测模型,利用训练好的指标检测模型,预测第一对象集合中的每个对象的指标预测值,从第一对象集合中选取指标预测值满足指标值筛选条件的对象,得到第二对象集合。
如图6中,得到初始样本集合后,“亲和力”阶段用于获取初始样本集合中样本的亲和力(通过实验测得的),得到亲和力后,在“蛋白质特征表示”阶段对初始样本集合中的蛋白质进行编码,得到初始样本集合中各个蛋白质的蛋白质特征,利用蛋白质的亲和力(通过实验测得的)和蛋白质特征训练指标检测模型,训练好后,将候选样本空间中的蛋白质对应的蛋白质特征输入待指标检测模型中,预测得到该蛋白质的亲和力预测值,从候选样本空间中选择亲和力预测值大于亲和力阈值的蛋白质,组成第二对象集合。
通过基于候选样本空间中筛选出初始样本集合(即基于第一对象集合筛选出第二对象集合),提供了一种搜索空间预筛选策略,候选样本空间中很多的突变体的亲和力的值较低,通过采用样本的搜索空间预筛选策略,提前将低亲和力值的样本进行剔除,减少贝叶斯优化中需要搜索的样本空间,提升计算效率。例如,可以采用XGBOD,将低亲和力的突变体其从样本搜索空间中进行剔除。具体而言,在每一次贝叶斯优化的迭代流程中,可以先对候选样本空间中的样本进行预筛选,通过阈值设置,低于该阈值的样本则判别为低适应度(剔除点,Postive class),高于该阈值的样本判别为高适应度(非剔除点,Negative class)。利用已有实验值的样本(即已通过实验确定亲和力的蛋白质)作为训练集训练XGBOD,对候选样本空间中的样本进行筛选,提前过滤掉潜在的亲和力很低的样本点,来减少采样空间的样本量,提高模型效率。
每次从第二对象集合中确定一个选取对象的过程可以看作是一次贝叶斯优化,例如,图6中,每次利用采集函数从过滤掉亲和力较低的样本后所剩余的样本中筛选出样本的过程为一次贝叶斯优化。
步骤516,基于参照对象集合中每个对象在预设指标上的指标实验值,确定参照对象集合中各个对象的对象特征,基于参照对象集合中每个对象在预设指标上的指标实验值和对象特征,确定预设指标与对象特征之间的映射关系。
其中,预设指标与对象特征之间的映射关系例如为图6中的概率代理模型,概率代理模型可以为基于高斯分布的高斯过程回归模型,或者为基于student-t分布的高斯过程回归模型等中的任意一个。
步骤518,基于映射关系,确定第二对象集合中的每个对象在目标统计指标上的统计指标值,基于统计指标值从第二对象集合中确定选取对象。
如图6中,目标统计指标例如为图6中采集函数,利用预设指标与对象特征之间的映射关系确定采集函数,基于采集函数从剩余的样本中选出样本。
步骤520,判断是否满足迭代停止条件,若否,则执行步骤522,若是,则执行步骤524。
步骤522,将选取对象加入到参照对象集合,返回步骤514。
步骤524,将满足迭代停止条件的情况下得到的选取对象,确定为符合预设指标的指标要求的目标对象。
例如,服务器可以利用以下的算法,该算法为基于搜索空间预筛选的贝叶斯优化(ODBO,Bayesian optimization with prescreened search space via outlierdetection),实现基于参照对象集合从第二对象集合中确定出目标对象的过程。
该算法的输入数据:初始样本集合Dt,实验次数T(即循环次数为T)。
其中,初始样本集合Dt即为初始的参照对象集合,即第一迭代时的采用的参照对象集合。
该算法的输出数据:样本空间中的最优值(s*,y*)。s*代表最优的突变体,y*代表s*的亲和力(通过实验测得的)。
该算法的过程:
t←1;//将1赋值给t,t表示当前迭代的次数;
while t≤T do;//在t≤T的情况下,向下执行,T为实验次数(即循环次数);
if Robust GP then;//如果采用Robust GP作为概率代理模型,则向下执行;
使用Dt训练基于student-t分布的高斯过程回归模型;//t为1的情况下,Dt根据等于D1,表示初始样本集合即初始的参照对象集合(第一迭代时的采用的参照对象集合);
Dtin={(Si,yi)||ft(Si)-yi|≤α}根据拒绝阈值α过滤掉离群点,保留正常点;//Dtin表示从Dt中过滤掉离群点(样本)后剩余的样本组成的集合;
使用Dtin训练基于高斯分布的高斯过程回归模型;
else if GP then;//如果采用Robust GP作为概率代理模型,则向下执行;
使用Dt训练基于高斯分布的高斯过程回归模型;
if Naivo BO then;//如果采用朴素贝叶斯优化,则向下执行。Naivo BO指的是朴素贝叶斯优化;
实验评估数据点St+1并更新该实验结果到观测样本集合中D t+1←(St+1,yt+1)//yt+1为确定St+1的亲和力(实验测出的);
else if TuRBO then;//TuRBO(Trust region Bayesian optimization,信赖域贝叶斯优化);
根据当前的置信阈TR设置置信阈区间Ω;
实验评估数据点St+1并更新该实验结果到观测样本集合中Dt+1←(St+1,yt+1);
end if;//结束本次循环;
更新概率代理模型;
t←t+1//将t递增1;
end while;
输出(s*,y*)。
其中,TuRBO是一种全局优化方法,通过构建一系列的局部GPs代理模型,从全局角度能够避免过度探索搜索空间中的高度不确定区域,同时在局部能够充分利用信赖方法的二阶收敛性,进行高效的求解。
举例说明本申请提供的对象确定方法的基本流程,如图7所示,主要包含四个步骤:1)获取初始实验数据;2)对数据进行特征表征;3)搜索空间预筛选;4)对于筛选后的搜索空间,贝叶斯优化算法通过初始实验数据中训练概率代理模型。在训练代理模型之后,通过优化采集函数,在搜索空间中选择下一轮实验样本。对所提出的实验设计进行验证,并将实验结果添加到训练集中,并更新代理模型后验。这一过程不断重复,直到设计最大化,资源耗尽或空间探索到不太可能找到改进的条件。图7的(a)中为获取的初始实验数据,即从第一对象集合中筛选出的初始的参照对象集合,(a)中展示了8个突变体,每个突变体对应有分数,这是分数代表适应度,例如突变体“H76L,K78R”代表一个突变体,“H76L,K78R”的分数为0.18。图7的(b)是对数据进行特征表征(即编码确定氨基酸特征的过程),图7的(b)中的条形图为20种氨基酸在第i个突变位点上的平均适应度,图7的(b)中的表中展示了5种氨基酸的在第i个突变位点上的平均适应度,例如氨基酸“V”的平均适应度为1.12。图7的(c)中为搜索空间预筛选的过程,该过程中确定初始实验数据中的突变体的特征,图7的(c)中的“P1 P2 A1 A2”为突变体的特征,其中,P为position(位置)的缩写,A为Amino Acid(氨基酸)的缩写,P1和P2分别代表氨基酸在突变体中的位置,A1和A2分别代表氨基酸的特征。利用确定出的突变体的特征对搜索空间进行预筛选,图7的(c)中,实心圆代表离群点(即适应度较低的突变体),实心三角形代表正常点(即适应度较高的突变体)。图7的(d)中为贝叶斯优化算法的过程。通过图7的四个过程可以确定出适应度高的突变体。
针对计算方法辅助实验设计,本申请方案提出了一个高效的,面向实验设计的框架。通过搜索空间预筛选策略提前对候选样本空间中的样本进行预筛选(即从第一对象集合中筛选得到第二对象集合),结合贝叶斯优化算法,平衡探索和利用,有效探索样本空间,在尽可能少的步骤中找到最优实验设计方案。在本申请方案中,针对蛋白质定向进化的实际应用场景,设计了一种基于平均适应度的氨基酸编码策略来精确而有效进行特征表示(即得到氨基酸特征的方法)。为了更好的辅助实验人员进行实验设计,还提出了一种初始样本选择策略来辅助实验人员选择初始实验样本(即确定参照对象集合的方法),以保证初始样本量中涵盖的氨基酸编码信息覆盖范围最大且所需初始实验次数最少。通过搜索空间预筛选的贝叶斯优化算法,减少了实验成本和时间成本。本申请方案中实现了一个高效的,面向实验设计的框架,称之为ODBO(Bayesian optimization with prescreened searchspace via outlier detection)。该方法通过筛选搜索空间结合贝叶斯优化来辅助实验设计,帮助实验人员减少实验成本和时间成本。针对蛋白质定向进化的实际应用场景,提出了一种基于平均适应度的氨基酸编码策略来精确而有效进行特征表示。为了更好的辅助实验人员进行实验设计,本方案中还提出了一种初始样本选择策略来辅助实验人员选择初始实验样本,以保证初始样本量中涵盖的氨基酸编码信息覆盖范围最大,同时所需的实验次数最少,减少实验成本。
本发明可以用于解决计算方法辅助蛋白质定向进化的实验设计,其中所提的结合搜索空间预筛选的贝叶斯优化也可应用于其他领域的自动化实验设计,如:新材料开发和电池快充协议等。
在材料科学中,发现产生具有确定的性能的材料既昂贵又费时。随着每一个新的成分或材料参数的增加,候选实验的空间呈指数增长。例如,如果研究一个新参数的影响(例如引入掺杂)需要在参数范围内进行大约10次实验,那么N个参数将需要10N次可能的实验。随着每一个新参数的出现,候选实验的数量迅速地超出了穷尽探索的可行性。材料组成-结构-性质(CSP)关系的多样性和复杂性,包括材料-加工参数和原子无序性,使研究更加混乱。再加上最佳材料的稀缺,这些挑战威胁着创新和工业进步。基于贝叶斯优化的辅助材料发现方法,可指导实验室的实验人员进行实验设计,其平衡了利用实验探索未知功能和利用先验知识识别极值的实验,可以在材料探索的实验中,加快材料发现的速度,同时花费更少的资源。
锂离子电池是电动汽车最常用的储能装置之一。随着电池化学技术的不断进步,一个重要的问题是如何有效地确定充电协议,以最好地平衡快速充电的需求,同时最大限度的延长电池使用寿命。然而,想要确定一个合适的充电协议并非易事。一方面,对一个电池的循环寿命估计需要花费几个月到几年不等。另一方面,巨大的参数调整空间和样本的多样性使得实验更加难上加难。如何进一步减小参数范围和缩短实验时间对于发展锂离子电池至关重要。计算辅助实验设计的方法可用于降低实验优化的成本,利用已完成的实验的反馈为随后的实验决策提供了信息,平衡实验结果和需求的关系,即测试具有高度不确定性的实验参数空间,并进行探索,根据完成的实验结果预测有希望的参数。最终达到减少所需实验的数量和时间,降低成本,找到有效的充电协议。
本申请还提供一种应用场景,该应用场景为新材料开发场景,该应用场景应用上述的对象确定方法。具体地,该对象确定方法在该应用场景的应用如下:服务器可以获取第一材料集合中的各材料分别在预设指标上的指标预测值,从第一材料集合中选取指标预测值满足指标值筛选条件的材料,得到第二材料集合,基于第一材料集合中的多个材料在预设指标上的指标实验值和材料特征,确定预设指标与材料特征之间的映射关系,基于映射关系从第二材料集合中确定符合预设指标的指标要求的目标材料。从而快速的确定具有指定性能的材料。其中,第一材料集合中的每个材料的至少一种组成成分不同或至少一种的组成成分的含量不同。如图8所示,展示了基于机器学习的钙钛矿电解质的闭环优化,利用贝叶斯优化实现从钙钛矿固态电解质中发现快速锂离子导体的有效实验搜索。
本申请还提供一种应用场景,该应用场景为电池快充协议场景,该应用场景应用上述的对象确定方法。具体地,该对象确定方法在该应用场景的应用如下:服务器可以获取第一电池充电协议集合中的各电池充电协议分别在预设指标上的指标预测值,从第一电池充电协议集合中选取指标预测值满足指标值筛选条件的电池充电协议,得到第二电池充电协议集合,基于第一电池充电协议集合中的多个电池充电协议在预设指标上的指标实验值和电池充电协议特征,确定预设指标与电池充电协议特征之间的映射关系,基于映射关系从第二电池充电协议集合中确定符合预设指标的指标要求的目标电池充电协议。从而快速的确定具有指定性能的电池充电协议。其中,第一电池充电协议集合中的每个电池充电协议的至少一个参数不同或至少一个参数的取值不同。如图9所示,展示了基于机器学习的电池快速充电协议的闭环优化。通过机器学习方法,有效地优化参数空间,指定快速充电协议的电流和电压配置参数,最大限度地延长电池寿命。
本申请提供的对象确定方法,可基于Python语言和Botorch库,部署在搭载Linux操作系统或Windows操作系统和CPU/GPU计算资源的服务器上。
为了验证本申请提供的对象确定方法在辅助蛋白质定向进化上的有效性,故在四个蛋白质定向进化数据集上进行了测试:1)GB1数据集(具有55个突变部分);2)GB1数据集(有4个突变部分);3)BRCA1数据集;4)绿色荧光蛋白数据集。
其中,GB1是指蛋白G的B1结构域。蛋白G是一种免疫球蛋白结合蛋白,在C组和G组链球菌中表达。蛋白G的B1结构域(GB1)与免疫球蛋白的Fc结构域相互作用。我们分别对生成的GB1数据集进行了实验。在GB1中四个精心挑选的残基位点39、40、41和51上进行了饱和诱变。在149,361个变体中具有实验测量的适应度值。适合度标准是与IgG-Fc的结合亲和力。在GB1蛋白的整个55个密码子随机区域中突变了一个或两个氨基酸,共收集了536,944个突变体数据。
BRCA1是一种多域蛋白,属于肿瘤抑制基因家族,最常在三个域中发生突变:N端RING域、外显子11-13和BRCT域。BRCA1 RING结构域负责BRCA1的E3泛素连接酶活性,并介导BRCA1与其他蛋白质之间的相互作用。研究了BRCA1残基的单个或多个点突变对E3泛素连接酶活性的功能影响。该数据集共包含98,300个具有E3 score的突变体。
绿荧光蛋白(green fluorescent protein,GFP),又称绿色荧光蛋白,最早是在一种学名Aequorea victoria(avGFP)的水母中发现,当暴露在光线下时会呈现绿色荧光。通过估计通过avGFP序列的随机诱变获得的基因型的荧光水平,分析了avGFP的局部适应度景观。该数据集包括54,025个不同的蛋白质序列。表1中详细展示了使用的四个数据集的详细信息。
表1蛋白质定向进化数据集详细信息。
图10显示了不同数据集的适应度分布。图10中横坐标为度量值,纵坐标为Density(浓度或密度),图10中(a)为数据集GB1(4)的适应度分布,图10中(b)为数据集GB1(55)的适应度分布,图10中(c)为数据集BRCA1的适应度分布,图10中(d)为数据集avGFP的适应度分布。
采用初始样本选择策略来生成初始样本集合。对于符合饱和突变情景的GB1(4)数据集,设置每个氨基酸在每个位置至少出现2次,获得40个初始训练样本。对于符合非饱和突变情景的GB1(55)、Ube4b和avGFP数据集,设置每个氨基酸在所有位置至少出现一次,分别获得136、217和142个初始训练样本。对于ODBO算法,搜索空间预筛选的过滤阈值设置为0.05。对于每种方法,我们都用10种不同的随机种子进行每次实验。每个方法在GB1(55)、Ube4b和avGFP数据集中每次从样本空间中选择一个样本并运行迭代50次。对于GB1(55)数据集,每次从样本空间中选择一个样本并运行迭代100次。采用期望提升(EI)作为采集函数。Ube4b与BRCA1指代同一个蛋白质。
图11总结了不同方法在四个蛋白质定向进化数据集上的性能。其中,数据集1指的是数据集GB1(4),数据集2指的是数据集GB1(55),数据集3指的是数据集Ube4,数据集4指的是avGFP。方法1指的是随机选取(Random)的方法,方法2指的是TuRBO结合GP的方法,方法3指的是ODBO结合TuRBO以及GP的方法,方法4指的是ODBO结合TuRBO以及RobustGP的方法,方法5指的是BO结合GP的方法,方法6指的是ODBO结合BO以及GP的方法,方法7指的是ODBO结合BO和RobustGP的方法,图11中的四幅图中分别包括一条直线,该直线指的是真实的最大适应度(True maximum fitness)。
图12总结了不同方法对四种蛋白质定向进化数据集的比较,每条曲线表示各个方法在10个不同的随机种子上获得的平均值。其中,F1表示ODBO结合TuRBO以及GP的方法且q=1,F2表示ODBO结合TuRBO以及GP的方法且q=5,F3表示ODBO结合TuRBO以及GP的方法且q=10,F4表示ODBO结合TuRBO以及RobustGP且q=1,F5表示ODBO结合TuRBO以及RobustGP且q=5,F6表示ODBO结合TuRBO以及RobustGP且q=10。G1表示ODBO结合TuRBO以及GP且采集函数为期望提升,G2表示ODBO结合TuRBO以及GP且采集函数为置信边界策略,G3表示ODBO结合TuRBO以及GP且采集函数为汤普森采样。q代表每次迭代选择的进行下一轮实验的样本的数量。
可以发现,ODBO在所有数据集上获得最佳性能。搜索空间预筛选步骤可以进行更有效的样本采集,有助于更快地找到具有最优性质的突变体。例如,对于饱和突变场景(即GB1(4)数据集),ODBO结合TuRBO以及RobustGP的方法可以在一个大的样本空间(204=16000)中通过少于50次的评估找到最优变量(适应度=8.76)。然而,在没有采用预筛选策略的方法中,贝叶斯优化算法(如BO、TuRBO)通常会收敛到一个糟糕的局部最优,从而降低了平均性能。这说明了搜索空间预筛选的重要性。对于非饱和突变情形,除了BO结合GP的方法外,几乎所有的贝叶斯优化方法都采用所提出的低维蛋白编码策略来寻找最优突变体。虽然所有方法都只能在GB1(55)和avGFP数据集中找到接近最优的突变体,但本方案提出的方法也优于其他方法。
表2展示了不同计算方法在GB1(4)数据集上筛选到样本空间中属于前1%、2%和5%亲和力值的样本在50轮的推荐选择中所占的比例。可以看出,采用了样本空间预筛选更有利于从每轮的样本选择中选择到更优的样本,进行下一轮的实验测试。
表2
方法 | Top 1% | Top 2% | Top 5% |
Random | 1.8 | 3.6 | 6.4 |
Naive BO+GP | 14 | 20.6 | 31.2 |
TuRBO+GP | 20.8 | 32.2 | 45 |
ODBO,BO+GP | 29.6 | 41 | 62.2 |
ODBO,TuRBO+GP | 31.6 | 44.6 | 67.2 |
ODBO,BO+RobustGP | 35.6 | 50 | 65.8 |
ODBO,TuRBO+RobustGP | 41.2 | 58.2 | 71.2 |
此外,还测试了不同的采集函数、概率代理模型的贝叶斯优化算法在蛋白质定向进化中的性能表现。如图10所示,展示了不同的采集函数、概率代理模型的贝叶斯优化算法在GB1(4)数据集中的表现。图10中的(a)中每次迭代的批量大小(batch size)不同,图10中的(b)展示了在“ODBO,TuRBO+GP”方法中分别使用EI、UCB、PI和TS作为采集函数的性能表现,图10中的(c)中展示了在“ODBO,TuRBO+RobustGP”方法中分别使用EI、UCB、PI和TS作为采集函数的性能表现。
我们还计算了各个方法在GB1数据集上运行所消耗的计算资源,如表3所示。采用传统的编码方式(这里展示的是使用物理化学性质编码的特征georgiev)具有76维的特征,利用TuRBO需要消耗较大的计算资源和时间,当使用我们提出的氨基酸编码规则,可以将氨基酸的特征维度(Feature dimension)降低到4维,并且可以大幅减少计算的时间和资源消耗。此外,通过采用搜索预筛选策略,可以大幅降低计算消耗的时间和资源。而且ODBO能够在最少的实验步骤中找到样本空间中的最优值,有助于降低实验成本和时间成本。
表3
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的对象确定方法的对象确定装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个对象确定装置实施例中的具体限定可以参见上文中对于对象确定方法的限定,在此不再赘述。
在一些实施例中,如图13所示,提供了一种对象确定装置,包括:预测值获取模块1302、对象集合得到模块1304、映射关系确定模块1306和目标对象确定模块1308,其中:
预测值获取模块1302,用于获取第一对象集合中的各对象分别在预设指标上的指标预测值;
对象集合得到模块1304,用于从第一对象集合中选取指标预测值满足指标值筛选条件的对象,得到第二对象集合;
映射关系确定模块1306,用于基于第一对象集合中的多个对象在预设指标上的指标实验值和对象特征,确定预设指标与对象特征之间的映射关系;
目标对象确定模块1308,用于基于映射关系从第二对象集合中确定符合预设指标的指标要求的目标对象。
在一些实施例中,第一对象集合中的对象为突变型蛋白质,装置还包括参照对象集合筛选模块,用于基于第一对象集合中筛选得到参照对象集合;参照对象集合满足每种氨基酸在每个突变位置上至少出现目标次数的条件;预测值获取模块,还用于基于参照对象集合中的每个对象的对象特征和指标实验值,训练指标检测模型;利用训练好的指标检测模型,预测第一对象集合中的每个对象的指标预测值。
在一些实施例中,映射关系确定模块,还用于基于参照对象集合中每个对象在预设指标上的指标实验值,确定获取参照对象集合中各个对象的对象特征;基于参照对象集合中每个对象在预设指标上的指标实验值和对象特征,确定预设指标与对象特征之间的映射关系。
在一些实施例中,参照对象集合筛选模块,还用于获取当前得分集合;当前得分集合包括每种氨基酸分别对应的当前得分;基于第一对象集合得到第二蛋白质集合,基于当前得分集合从第二蛋白质集合中选取目标蛋白质;将当前得分集合中与目标蛋白质中的每个突变位置的氨基酸分别对应的当前得分进行递减,并将目标蛋白质从第二蛋白质集合移到第一蛋白质集合中;在当前得分集合表征第一蛋白质集合不满足每种氨基酸在每个突变位置上至少出现目标次数的条件的情况下,返回基于当前得分集合从第二蛋白质集合中选取目标蛋白质的步骤,直到当前得分集合表征第一蛋白质集合满足每种氨基酸在每个突变位置上至少出现目标次数的条件为止,将第一蛋白质集合确定为参照对象集合。
在一些实施例中,参照对象集合筛选模块,还用于获取初始得分集合;初始得分集合中每种氨基酸分别对应的初始得分为目标次数;将初始得分集合中与野生型蛋白质中的每个突变位置的氨基酸分别对应的初始得分进行递减,得到当前得分集合,并基于野生型蛋白质确定第一蛋白质集合;野生型蛋白质为未发生突变的蛋白质。
在一些实施例中,映射关系确定模块,还用于对于第二蛋白质集合中的每个突变型蛋白质,从当前得分集合中确定突变型蛋白质中每个突变位置处的氨基酸分别对应的当前得分;基于得到的各个当前得分确定突变型蛋白质的当前蛋白质得分;基于当前蛋白质得分,从第二蛋白质集合中选取得到目标蛋白质。
在一些实施例中,每种氨基酸对应有氨基酸,当前得分集合中的得分由氨基酸和突变位置唯一标识;映射关系确定模块,还用于对于每个突变位置处的氨基酸,根据氨基酸对应的氨基酸以及突变位置,从当前得分集合中确定突变位置处的氨基酸对应的当前得分。
在一些实施例中,对象特征为蛋白质特征,映射关系确定模块,还用于对于每个突变位置,按照突变位置处的氨基酸的种类对参照对象集合进行划分,得到每种氨基酸分别对应的第一子对象集合;对于每个突变位置处的每种氨基酸,基于氨基酸对应的第一子对象集合中的每个对象的指标实验值,确定氨基酸在突变位置处的氨基酸特征;基于对象中每个突变位置处的氨基酸的氨基酸特征,得到对象的蛋白质特征。
在一些实施例中,映射关系确定模块,还用于对氨基酸对应的第一子对象集合中的每个对象的指标实验值进行统计计算,得到至少一个指标实验统计值;基于至少一个指标实验统计值确定氨基酸在突变位置处的氨基酸特征。
在一些实施例中,对象特征为蛋白质特征;映射关系确定模块,还用于:对于每种氨基酸,从参照对象集合中确定突变位置处的氨基酸包括氨基酸的对象,得到氨基酸对应的第二子对象集合;对于每种氨基酸,基于氨基酸对应的第二子对象集合中的各个对象的指标实验值,确定氨基酸的氨基酸特征;基于对象中每个突变位置处的氨基酸的氨基酸特征,得到对象的蛋白质特征。
在一些实施例中,目标对象确定模块,还用于基于映射关系,确定第二对象集合中的每个对象在目标统计指标上的统计指标值,基于统计指标值从第二对象集合中确定选取对象;在不满足迭代停止条件的情况下,将选取对象加入到参照对象集合;返回基于参照对象集合中每个对象在预设指标上的指标实验值,确定参照对象集合中各个对象的对象特征的步骤,直到满足迭代停止条件;将满足迭代停止条件的情况下得到的选取对象,确定为符合预设指标的指标要求的目标对象。
上述对象确定装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一些实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图14所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储对象确定方法中涉及到的数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种对象确定方法。
在一些实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图15所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种对象确定方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置,显示屏可以是液晶显示屏或电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图14和图15中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一些实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述对象确定方法中的步骤。
在一些实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述对象确定方法中的步骤。
在一些实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述对象确定方法中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (15)
1.一种对象确定方法,其特征在于,所述方法包括:
获取第一对象集合中的各对象分别在预设指标上的指标预测值;
从所述第一对象集合中选取所述指标预测值满足指标值筛选条件的对象,得到第二对象集合;
基于所述第一对象集合中的多个对象在所述预设指标上的指标实验值和对象特征,确定预设指标与对象特征之间的映射关系;
基于所述映射关系从所述第二对象集合中确定符合所述预设指标的指标要求的目标对象。
2.根据权利要求1所述的方法,其特征在于,所述第一对象集合中的对象为突变型蛋白质,所述方法还包括:
基于所述第一对象集合中筛选得到参照对象集合;所述参照对象集合满足每种氨基酸在每个突变位置上至少出现目标次数的条件;
所述获取第一对象集合中的各对象分别在预设指标上的指标预测值包括:
基于所述参照对象集合中的每个对象的对象特征和指标实验值,训练指标检测模型;
利用训练好的所述指标检测模型,预测所述第一对象集合中的每个对象的指标预测值。
3.根据权利要求2所述的方法,其特征在于,所述基于所述第一对象集合中的多个对象在所述预设指标上的指标实验值和对象特征,确定预设指标与对象特征之间的映射关系包括:
基于所述参照对象集合中每个对象在所述预设指标上的指标实验值,确定所述参照对象集合中各个对象的对象特征;
基于所述参照对象集合中每个对象在所述预设指标上的指标实验值和对象特征,确定预设指标与对象特征之间的映射关系。
4.根据权利要求2所述的方法,其特征在于,所述基于所述第一对象集合中筛选得到参照对象集合包括:
获取当前得分集合;所述当前得分集合包括每种氨基酸分别对应的当前得分;
基于所述第一对象集合得到第二蛋白质集合,基于当前得分集合从所述第二蛋白质集合中选取目标蛋白质;
将当前得分集合中与目标蛋白质中的每个突变位置的氨基酸分别对应的当前得分进行递减,并将所述目标蛋白质从第二蛋白质集合移到第一蛋白质集合中;
在当前得分集合表征第一蛋白质集合不满足每种氨基酸在每个突变位置上至少出现目标次数的条件的情况下,返回基于当前得分集合从所述第二蛋白质集合中选取目标蛋白质的步骤,直到当前得分集合表征第一蛋白质集合满足每种氨基酸在每个突变位置上至少出现目标次数的条件为止,将第一蛋白质集合确定为参照对象集合。
5.根据权利要求4所述的方法,其特征在于,所述获取当前得分集合包括:
获取初始得分集合;所述初始得分集合中每种氨基酸分别对应的初始得分为所述目标次数;
将所述初始得分集合中与野生型蛋白质中的每个突变位置的氨基酸分别对应的初始得分进行递减,得到当前得分集合,并基于所述野生型蛋白质确定第一蛋白质集合;所述野生型蛋白质为未发生突变的蛋白质。
6.根据权利要求4所述的方法,其特征在于,所述基于当前得分集合从所述第二蛋白质集合中选取目标蛋白质包括:
对于所述第二蛋白质集合中的每个突变型蛋白质,从当前得分集合中确定所述突变型蛋白质中每个突变位置处的氨基酸分别对应的当前得分;
基于得到的各个当前得分确定所述突变型蛋白质的当前蛋白质得分;
基于当前蛋白质得分,从所述第二蛋白质集合中选取得到目标蛋白质。
7.根据权利要求6所述的方法,其特征在于,每种氨基酸对应有氨基酸,所述当前得分集合中的得分由氨基酸和突变位置唯一标识;
所述从当前得分集合中确定所述突变型蛋白质中每个突变位置处的氨基酸分别对应的当前得分包括:
对于每个突变位置处的氨基酸,根据所述氨基酸对应的氨基酸以及所述突变位置,从当前得分集合中确定所述突变位置处的氨基酸对应的当前得分。
8.根据权利要求3所述的方法,其特征在于,所述对象特征为蛋白质特征,所述基于所述参照对象集合中每个对象在所述预设指标上的指标实验值,确定所述参照对象集合中各个对象的对象特征包括:
对于每个突变位置,按照所述突变位置处的氨基酸的种类对所述参照对象集合进行划分,得到每种氨基酸分别对应的第一子对象集合;
对于每个所述突变位置处的每种氨基酸,基于所述氨基酸对应的第一子对象集合中的每个对象的指标实验值,确定所述氨基酸在所述突变位置处的氨基酸特征;
基于所述对象中每个突变位置处的氨基酸的氨基酸特征,得到所述对象的蛋白质特征。
9.根据权利要求8所述的方法,其特征在于,所述基于所述氨基酸对应的第一子对象集合中的每个对象的指标实验值,确定所述氨基酸在所述突变位置处的氨基酸特征包括:
对所述氨基酸对应的第一子对象集合中的每个对象的指标实验值进行统计计算,得到至少一个指标实验统计值;
基于所述至少一个指标实验统计值确定所述氨基酸在所述突变位置处的氨基酸特征。
10.根据权利要求3所述的方法,其特征在于,所述对象特征为蛋白质特征;所述基于所述参照对象集合中每个对象在所述预设指标上的指标实验值,确定所述参照对象集合中各个对象的对象特征包括:
对于每种氨基酸,从所述参照对象集合中确定突变位置处的氨基酸包括所述氨基酸的对象,得到所述氨基酸对应的第二子对象集合;
对于每种氨基酸,基于所述氨基酸对应的第二子对象集合中的各个对象的指标实验值,确定所述氨基酸的氨基酸特征;
基于所述对象中每个突变位置处的氨基酸的氨基酸特征,得到所述对象的蛋白质特征。
11.根据权利要求3所述的方法,其特征在于,所述基于所述映射关系从所述第二对象集合中确定符合所述预设指标的指标要求的目标对象包括:
基于所述映射关系,确定所述第二对象集合中的每个对象在目标统计指标上的统计指标值,基于所述统计指标值从所述第二对象集合中确定选取对象;
在不满足迭代停止条件的情况下,将所述选取对象加入到参照对象集合;
返回基于所述参照对象集合中每个对象在所述预设指标上的指标实验值,确定所述参照对象集合中各个对象的对象特征的步骤,直到满足迭代停止条件;
将满足迭代停止条件的情况下得到的选取对象,确定为符合所述预设指标的指标要求的目标对象。
12.一种对象确定装置,其特征在于,所述装置包括:
预测值获取模块,用于获取第一对象集合中的各对象分别在预设指标上的指标预测值;
对象集合得到模块,用于从所述第一对象集合中选取所述指标预测值满足指标值筛选条件的对象,得到第二对象集合;
映射关系确定模块,用于基于所述第一对象集合中的多个对象在所述预设指标上的指标实验值和对象特征,确定预设指标与对象特征之间的映射关系;
目标对象确定模块,用于基于所述映射关系从所述第二对象集合中确定符合所述预设指标的指标要求的目标对象。
13.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至11中任一项所述的方法的步骤。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。
15.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210498684.7A CN115116539A (zh) | 2022-05-09 | 2022-05-09 | 对象确定方法、装置、计算机设备和存储介质 |
PCT/CN2023/084640 WO2023216747A1 (zh) | 2022-05-09 | 2023-03-29 | 对象确定方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210498684.7A CN115116539A (zh) | 2022-05-09 | 2022-05-09 | 对象确定方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115116539A true CN115116539A (zh) | 2022-09-27 |
Family
ID=83326611
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210498684.7A Pending CN115116539A (zh) | 2022-05-09 | 2022-05-09 | 对象确定方法、装置、计算机设备和存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN115116539A (zh) |
WO (1) | WO2023216747A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116913393A (zh) * | 2023-09-12 | 2023-10-20 | 浙江大学杭州国际科创中心 | 一种基于强化学习的蛋白质进化方法及装置 |
WO2023216747A1 (zh) * | 2022-05-09 | 2023-11-16 | 腾讯科技(深圳)有限公司 | 对象确定方法、装置、计算机设备和存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1887351A4 (en) * | 2005-05-31 | 2009-04-08 | Jcl Bioassay Corp | SCREENING METHOD FOR SPECIFIC PROTEIN IN DETAILED PROTEOME ANALYSIS |
CN101353372A (zh) * | 2008-08-04 | 2009-01-28 | 林峻 | 一种新型蛋白质分子定向进化方法 |
EP2482212A4 (en) * | 2009-09-25 | 2014-02-26 | Sh Nat Eng Res Ct Nanotech Co | METHOD FOR DETECTING HIGH AFFAIR PROTEINS WITH COMPUTER BASED DESIGN |
CN111048145B (zh) * | 2019-12-20 | 2024-01-19 | 东软集团股份有限公司 | 蛋白质预测模型的生成方法、装置、设备和存储介质 |
CN114333985B (zh) * | 2022-03-03 | 2022-07-12 | 北京晶泰科技有限公司 | 环肽设计方法、复合物结构的生成方法、装置及电子设备 |
CN115116539A (zh) * | 2022-05-09 | 2022-09-27 | 腾讯科技(深圳)有限公司 | 对象确定方法、装置、计算机设备和存储介质 |
-
2022
- 2022-05-09 CN CN202210498684.7A patent/CN115116539A/zh active Pending
-
2023
- 2023-03-29 WO PCT/CN2023/084640 patent/WO2023216747A1/zh unknown
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023216747A1 (zh) * | 2022-05-09 | 2023-11-16 | 腾讯科技(深圳)有限公司 | 对象确定方法、装置、计算机设备和存储介质 |
CN116913393A (zh) * | 2023-09-12 | 2023-10-20 | 浙江大学杭州国际科创中心 | 一种基于强化学习的蛋白质进化方法及装置 |
CN116913393B (zh) * | 2023-09-12 | 2023-12-01 | 浙江大学杭州国际科创中心 | 一种基于强化学习的蛋白质进化方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2023216747A1 (zh) | 2023-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7125544B2 (ja) | 品質スコアの勾配を使用した反復的なタンパク質構造予測 | |
Hong et al. | DeepHiC: A generative adversarial network for enhancing Hi-C data resolution | |
Vlasblom et al. | Markov clustering versus affinity propagation for the partitioning of protein interaction graphs | |
WO2022206320A1 (zh) | 预测模型训练、数据预测方法、装置和存储介质 | |
KR20200129130A (ko) | 약물 발견에 대한 애플리케이션 및 분자 시뮬레이션에 의한 공간 그래프 컨볼루션을 위한 시스템 및 방법 | |
Kato et al. | Selective integration of multiple biological data for supervised network inference | |
CN113705772A (zh) | 一种模型训练方法、装置、设备及可读存储介质 | |
CN115116539A (zh) | 对象确定方法、装置、计算机设备和存储介质 | |
CN113299346B (zh) | 分类模型训练和分类方法、装置、计算机设备和存储介质 | |
CN111933212A (zh) | 一种基于机器学习的临床组学数据处理方法及装置 | |
Zhang et al. | Predicting protein-protein interactions using high-quality non-interacting pairs | |
CN111243682A (zh) | 药物的毒性预测方法及装置、介质和设备 | |
CN111627494B (zh) | 基于多维特征的蛋白质性质预测方法、装置和计算设备 | |
CN114503203A (zh) | 使用自注意力神经网络的由氨基酸序列的蛋白质结构预测 | |
Yang et al. | Locally sparse neural networks for tabular biomedical data | |
Cheng et al. | DGCyTOF: Deep learning with graphic cluster visualization to predict cell types of single cell mass cytometry data | |
Sriwastava et al. | Predicting protein-protein interaction sites with a novel membership based fuzzy SVM classifier | |
Yu et al. | The applications of deep learning algorithms on in silico druggable proteins identification | |
Wu et al. | scHiCStackL: a stacking ensemble learning-based method for single-cell Hi-C classification using cell embedding | |
Ghadiri et al. | BigFCM: Fast, precise and scalable FCM on hadoop | |
Jin et al. | CAPLA: improved prediction of protein–ligand binding affinity by a deep learning approach based on a cross-attention mechanism | |
Wang et al. | Bayesian hidden Markov models for dependent large-scale multiple testing | |
Su et al. | Multi-view heterogeneous molecular network representation learning for protein–protein interaction prediction | |
Ruan et al. | Prediction of heterotrimeric protein complexes by two-phase learning using neighboring kernels | |
WO2023174064A1 (zh) | 自动搜索方法、自动搜索的性能预测模型训练方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |