CN116844637B

CN116844637B - 一种获取第一源抗体序列对应的第二源蛋白质序列的方法与设备

Info

Publication number: CN116844637B
Application number: CN202310835230.9A
Authority: CN
Inventors: 邹鸿刚; 许锦波
Original assignee: Beijing Molecular Heart Technology Co ltd
Current assignee: Beijing Molecular Heart Technology Co ltd
Priority date: 2023-07-07
Filing date: 2023-07-07
Publication date: 2024-02-09
Anticipated expiration: 2043-07-07
Also published as: CN116844637A

Abstract

本申请的目的是提供一种获取第一源抗体序列对应的第二源蛋白质序列的方法与设备，该方法包括：基于蛋白质序列集合，构建所述蛋白质序列集合对应的蛋白质子序列搜索池；确定第一源抗体序列对应的第二表征信息；基于所述第二表征信息，从所述蛋白质子序列搜索池确定多个候选蛋白质子序列；基于所述多个候选蛋白质子序列，确定所述第一源抗体序列对应的第二源蛋白质序列。本申请从第一源抗体序列中氨基酸的理化功能出发，确定相匹配的第二源蛋白质序列，从而在保证抗原亲和性的基础上，有效降低获得的第二源蛋白质序列的免疫原性。本申请还可以确定第二源蛋白质序列中各氨基酸位点对应的候选氨基酸，以便于后续进行回复突变，提高回复突变效率。

Description

一种获取第一源抗体序列对应的第二源蛋白质序列的方法与设备

技术领域

本申请涉及生物信息技术领域，尤其涉及一种获取第一源抗体序列对应的第二源蛋白质序列的技术。

背景技术

抗体(也称为免疫球蛋白)在人体免疫反应中发挥着重要作用，可以广泛应用于疾病的诊断和治疗。通常，每条抗体包含两条相同的重链和两条相同的轻链，它们之间由二硫键相连。每条重链和轻链都包含三个高可变区(也称为互补决定区，ComplementarityDetermining Region，CDR)。重链和轻链的三个高变区共同形成抗体结合表位。

抗体人源化旨在将非人源的抗体通过序列改造降低其免疫原性，同时尽可能地保留其与抗原结合的特异性和亲和力。其是将非人源的抗体开发为可用于人的抗体药的必要步骤。目前行业中较成熟的、应用较多的抗体人源化方法是CDR移植。其通过找到一条合适的人源抗体作为受体(Receptor)，将人源抗体的CDR区替换为非人源抗体的来进行抗体人源化。通过该方法得到的新抗体的抗原亲和性相比原先的非人源抗体会显著下降。为了恢复其抗原亲和性，还需要对该新抗体进行回复突变，往往需要消耗大量人力物力及时间。学术界中也在研究基于计算方法来进行抗体人源化，例如，基于人源性打分的抗体人源化方法、基于能量计算的抗体人源化方法。该基于人源性打分的抗体人源化方法只考虑了抗体的人源性，而忽视了抗原亲和性。该基于能量计算的抗体人源化方法虽然同时考虑了抗体的人源性和抗原亲和性，但是其能量计算算法仍较为耗时，并且其有效性和能量计算算法的正确性高度相关。

发明内容

本申请的一个目的是提供一种获取第一源抗体序列对应的第二源蛋白质序列的方法与设备。

根据本申请的一个方面，提供了一种获取第一源抗体序列对应的第二源蛋白质序列的方法，该方法包括：

基于蛋白质序列集合，构建所述蛋白质序列集合对应的蛋白质子序列搜索池，其中，所述蛋白质序列集合包括多个蛋白质序列，所述蛋白质子序列搜索池包括多个蛋白质子序列以及每个蛋白质子序列对应的第一表征信息，所述多个蛋白质序列中每个蛋白质序列对应所述多个蛋白质子序列中至少一个蛋白质子序列；

确定第一源抗体序列对应的第二表征信息，其中，所述第二表征信息包括所述第一源抗体序列中每个氨基酸对应的第一氨基酸表征信息；

基于所述第二表征信息，从所述蛋白质子序列搜索池确定多个候选蛋白质子序列；

基于所述多个候选蛋白质子序列，确定所述第一源抗体序列对应的第二源蛋白质序列。

根据本申请的一个方面，提供了一种获取第一源抗体序列对应的第二源蛋白质序列的计算机设备，包括存储器、处理器及存储在存储器上的计算机程序，其特征在于，所述处理器执行所述计算机程序以实现如上所述任一方法的步骤。

根据本申请的一个方面，提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如上所述任一方法的步骤。

根据本申请的一个方面，提供了一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现如上所述任一方法的步骤。

根据本申请的一个方面，提供了一种获取第一源抗体序列对应的第二源蛋白质序列的设备，该设备包括：

一一模块，用于基于蛋白质序列集合，构建所述蛋白质序列集合对应的蛋白质子序列搜索池，其中，所述蛋白质序列集合包括多个蛋白质序列，所述蛋白质子序列搜索池包括多个蛋白质子序列以及每个蛋白质子序列对应的第一表征信息，所述多个蛋白质序列中每个蛋白质序列对应所述多个蛋白质子序列中至少一个蛋白质子序列；

一二模块，用于确定第一源抗体序列对应的第二表征信息，其中，所述第二表征信息包括所述第一源抗体序列中每个氨基酸对应的第一氨基酸表征信息；

一三模块，用于基于所述第二表征信息，从所述蛋白质子序列搜索池确定多个候选蛋白质子序列；

一四模块，用于基于所述多个候选蛋白质子序列，确定所述第一源抗体序列对应的第二源蛋白质序列。

与现有技术相比，本申请基于蛋白质序列集合，构建所述蛋白质序列集合对应的蛋白质子序列搜索池，其中，所述蛋白质序列集合包括多个蛋白质序列，所述蛋白质子序列搜索池包括多个蛋白质子序列以及每个蛋白质子序列对应的第一表征信息，所述多个蛋白质序列中每个蛋白质序列对应所述多个蛋白质子序列中至少一个蛋白质子序列；确定第一源抗体序列对应的第二表征信息，其中，所述第二表征信息包括所述第一源抗体序列中每个氨基酸对应的第一氨基酸表征信息；基于所述第二表征信息，从所述蛋白质子序列搜索池确定多个候选蛋白质子序列；基于所述多个候选蛋白质子序列，确定所述第一源抗体序列对应的第二源蛋白质序列。本申请从第一源抗体序列中每个氨基酸的理化功能出发，解析第一源抗体序列中各氨基酸的理化特性及功能，确定相匹配的第二源蛋白质序列，从而在保证抗原亲和性的基础上，有效降低获得的第二源蛋白质序列的免疫原性。同时，本方案还可以确定第二源蛋白质序列中各氨基酸位点对应的候选氨基酸，以便于后续进行回复突变，提高回复突变效率。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1示出根据本申请一个实施例的一种获取第一源抗体序列对应的第二源蛋白质序列的方法流程图；

图2示出根据本申请一个实施例的一种确定第二源蛋白质序列的示例图；

图3示出根据本申请一个实施例的一种获取第一源抗体序列对应的第二源蛋白质序列的设备结构图；

图4示出可被用于实施本申请中所述的各个实施例的示例性系统。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本申请作进一步详细描述。

在本申请一个典型的配置中，终端、服务网络的设备和可信方均包括一个或多个处理器(例如，中央处理器(Central Processing Unit，CPU))、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RandomAccess Memory，RAM)和/或非易失性内存等形式，如只读存储器(Read OnlyMemory，ROM)或闪存(Flash Memory)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(Phase-Change Memory，PCM)、可编程随机存取存储器(Programmable RandomAccess Memory，PRAM)、静态随机存取存储器(StaticRandom-Access Memory，SRAM)、动态随机存取存储器(Dynamic Random Access Memory，DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、数字多功能光盘(Digital Versatile Disc，DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

本申请所指设备包括但不限于用户设备、网络设备、或用户设备与网络设备通过网络相集成所构成的设备。所述用户设备包括但不限于任何一种可与用户进行人机交互(例如通过触摸板进行人机交互)的移动电子产品，例如智能手机、平板电脑等，所述移动电子产品可以采用任意操作系统，如Android操作系统、iOS操作系统等。其中，所述网络设备包括一种能够按照事先设定或存储的指令，自动进行数值计算和信息处理的电子设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific IntegratedCircuit，ASIC)、可编程逻辑器件(Programmable Logic Device，PLD)、现场可编程门阵列(Field Programmable GateArray，FPGA)、数字信号处理器(Digital Signal Processor，DSP)、嵌入式设备等。所述网络设备包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云；在此，云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个虚拟超级计算机。所述网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc网络)等。优选地，所述设备还可以是运行于所述用户设备、网络设备、或用户设备与网络设备、网络设备、触摸终端或网络设备与触摸终端通过网络相集成所构成的设备上的程序。

当然，本领域技术人员应能理解上述设备仅为举例，其他现有的或今后可能出现的设备如可适用于本申请，也应包含在本申请保护范围以内，并在此以引用方式包含于此。

在本申请的描述中，“多个”的含义是两个或者更多，除非另有明确具体的限定。

图1示出根据本申请一个实施例的一种获取第一源抗体序列对应的第二源蛋白质序列的方法流程图，该方法包括：步骤S11、步骤S12、步骤S13和步骤S14。在步骤S11中，设备1基于蛋白质序列集合，构建所述蛋白质序列集合对应的蛋白质子序列搜索池，其中，所述蛋白质序列集合包括多个蛋白质序列，所述蛋白质子序列搜索池包括多个蛋白质子序列以及每个蛋白质子序列对应的第一表征信息，所述多个蛋白质序列中每个蛋白质序列对应所述多个蛋白质子序列中至少一个蛋白质子序列；在步骤S12中，设备1确定第一源抗体序列对应的第二表征信息，其中，所述第二表征信息包括所述第一源抗体序列中每个氨基酸对应的第一氨基酸表征信息；在步骤S13中，设备1基于所述第二表征信息，从所述蛋白质子序列搜索池确定多个候选蛋白质子序列；在步骤S14中，设备1基于所述多个候选蛋白质子序列，确定所述第一源抗体序列对应的第二源蛋白质序列。

在步骤S11中，设备1基于蛋白质序列集合，构建所述蛋白质序列集合对应的蛋白质子序列搜索池，其中，所述蛋白质序列集合包括多个蛋白质序列，所述蛋白质子序列搜索池包括多个蛋白质子序列以及每个蛋白质子序列对应的第一表征信息，所述多个蛋白质序列中每个蛋白质序列对应所述多个蛋白质子序列中至少一个蛋白质子序列。在一些实施例中，所述设备1包括但不限于具有信息处理或者计算能力的用户设备、网络设备，例如，平板电脑、计算机、服务器。在一些实施例中，所述蛋白质序列集合中每个蛋白质序列均与相应的第二源相匹配。以将非人源的抗体序列(例如，鼠源抗体序列或者兔源抗体序列等)转化为相应的人源蛋白质序列为例，该蛋白质序列集合中每个蛋白质序列均属于相应的人源序列。在一些实施例中，设备1确定每个蛋白质序列对应的一个或多个蛋白质子序列。这些蛋白质子序列对应的长度均相同。设备1可以利用蛋白质语言模型(例如，ESM2蛋白质语言模型、或者蛋白质生成语言模型(ProGen)等)确定各蛋白质子序列对应的第一表征信息。该第一表征信息可以反映相应蛋白质子序列对应的上下文信息、理化性质以及共进化信息等。基于各蛋白质子序列以及对应的第一表征信息来构建相应的蛋白质子序列搜索池。

在一些实施例中，所述步骤S11包括：步骤S111(未示出)，设备1确定所述蛋白质序列集合中每个蛋白质序列对应的第三表征信息，其中，所述第三表征信息包括该蛋白质序列中每个氨基酸对应的第二氨基酸表征信息；步骤S112(未示出)，设备1基于所述蛋白质序列集合以及所述蛋白质序列集合中每个蛋白质序列对应的第三表征信息，确定蛋白质子序列搜索池，其中，所述蛋白质子序列搜索池包括多个蛋白质子序列以及每个蛋白质子序列对应的第一表征信息，所述多个蛋白质序列中每个蛋白质序列对应所述多个蛋白质子序列中至少一个蛋白质子序列，所述第一表征信息基于该蛋白质子序列对应的蛋白质序列的第三表征信息确定。在一些实施例中，设备1可以利用蛋白质语言模型(例如，ESM2蛋白质语言模型、或者蛋白质生成语言模型(ProGen)等)生成每个蛋白质序列对应的第三表征信息。该第三表征信息包含蛋白质序列中每个氨基酸对应的第二氨基酸表征信息。该第二氨基酸表征信息反映了相应氨基酸在该蛋白质序列的上下文信息、理化性质和共进化信息。拥有相近表征信息的氨基酸具有类似的性质，可以在保持抗体序列原有功能的前提下相互替换。因而可以基于相应的表征信息构建搜索池，利用该搜索池查询可以用于替换的氨基酸。在一些实施例中，为了使搜索结果更稳定，可以基于各蛋白质序列对应的预设长度的蛋白质子序列来构建相应的搜索池。

在一些实施例中，所述步骤S112包括：设备1确定所述蛋白质序列集合中每个蛋白质序列对应的多个蛋白质子序列，其中，所述蛋白质子序列包括该蛋白质序列中连续的多个氨基酸；基于所述蛋白质序列集合中每个蛋白质序列对应的第三表征信息，确定所述多个蛋白质子序列中每个蛋白质子序列对应的第一表征信息；基于所述多个蛋白质子序列以及所述多个蛋白质子序列中每个蛋白质子序列对应的第一表征信息，确定蛋白质子序列搜索池。例如，某蛋白质序列为{A，B，C，D，E，F，G}，设备1可以基于设定的子序列长度确定该蛋白质序列对应的多个蛋白质子序列。子序列长度可以基于相应的免疫学原理设置。若假定该长度为4，则依次截取连续的4个氨基酸确定相应的蛋白质子序列{A，B，C，D}、{B，C，D，E}、{C，D，E，F}、{D，E，F，G}。在一些实施例中，对于每个蛋白质子序列，设备1可以根据第三表征信息中与该蛋白质子序列对应的氨基酸的第二氨基酸表征信息，确定相应的第一表征信息。例如，设备1可以将相应第二氨基酸表征信息的均值确定为该第一表征信息；也可以相应第二氨基酸表征信息连接(concatenate)起来，作为该第一表征信息；还可以对于该蛋白质子序列对应的每个氨基酸，用该氨基酸的第二氨基酸表征信息减去相应蛋白质序列对应的所有氨基酸表征信息的平均值得到相应的目标表征信息，连接这些目标表征信息或者对这些目标表征信息求平均得到相应第一表征信息。设备1再基于得到的蛋白质子序列与相应的第一表征信息，确定相应的蛋白质子序列搜索池。

在一些实施例中，所述方法还包括：步骤S15(未示出)，设备1获取多个候选蛋白质序列，其中，所述候选蛋白质序列包括第二源抗体序列或者相应的种系基因序列；步骤S16(未示出)，设备1基于所述多个候选蛋白质序列，构建蛋白质序列集合。在一些实施例中，设备1可以从与所述第二源相匹配的蛋白质序列数据库中查询获取候选蛋白质序列。例如，若要将非人源的抗体序列转化为相应的人源蛋白质序列，则可以从OAS(Observed AntibodySpace，https://opig.stats.ox.ac.uk/webapps/oas/)、或者IMGT(https://www.imgt.org/)等蛋白质序列数据库中获取人源抗体序列或者相应的人类种系基因序列。在一些实施例中，设备1可以选取所述候选蛋白质序列全部或者部分来构建所述蛋白质序列集合。

在一些实施例中，所述步骤S16包括：设备1对所述多个候选蛋白质序列进行聚类处理，确定多个蛋白质序列聚类；基于所述多个蛋白质序列聚类，确定相应的蛋白质序列集合。在一些实施例中，设备1可以利用序列比对算法对所述多个候选蛋白质序列进行聚类处理，确定多个蛋白质序列聚类。例如，设备1可以利用MMseqs2(Many-against-Manysequence searching，多对多序列搜索)、CD-HIT、或者PSI-BLAST等算法确定所述候选蛋白质序列间的相似性，基于各候选蛋白质序列间的相似性大小进行候选蛋白质序列的聚类。在一些实施例中，设备1可以从每个蛋白质序列聚类中选取一个或多个蛋白质序列来构建蛋白质序列集合。例如，设备1可以从每个蛋白质序列聚类中随机抽取一个或多个蛋白质序列，或者选择位于聚类中心的一个或多个蛋白质序列；也可以基于所述多个蛋白质序列聚类进行分层采样，提取相应的蛋白质序列来构建蛋白质序列集合。在此，通过聚类方法对候选蛋白质序列进行处理来选取用于构建蛋白质序列集合的蛋白质序列，可以使得建立的蛋白质序列集合具有更好的多样性、分布更均匀。

在一些实施例中，在所述步骤S16之前，所述方法还包括：步骤S17(未示出)，设备1检测所述多个候选蛋白质序列是否满足相应的聚类条件。在一些实施例中，所述聚类条件包括但不限于候选蛋白质序列数量高于相应的数量阈值。所述数量阈值可以基于设备1的数据处理能力确定。从而设备1可以仅在候选蛋白质序列数量过多，会影响设备处理速度时，采用上述聚类方法从候选蛋白质序列中选取部分蛋白质序列组建蛋白质序列集合。

在步骤S12中，设备1确定第一源抗体序列对应的第二表征信息，其中，所述第二表征信息包括所述第一源抗体序列中每个氨基酸对应的第一氨基酸表征信息。在一些实施例中，所述第一源抗体序列为与第二源不同源的序列。例如，若进行抗体人源化，则该第一源抗体序列可以为鼠源抗体序列、或者兔源抗体序列等非人源的抗体序列。在一些实施例中，设备1利用与前述步骤中相同的蛋白质语言模型，确定所述第一源抗体序列对应的第二表征信息。在此，本方案并不限定所述步骤S11与步骤S12的执行顺序，所述步骤S11可以先于所述步骤S12执行，也可以在步骤S12后执行，也可以同时执行。

在步骤S13中，设备1基于所述第二表征信息，从所述蛋白质子序列搜索池确定多个候选蛋白质子序列。例如，设备1基于所述第二表征信息在所述蛋白质子序列搜索池中查询与其性质相近的候选蛋白质子序列，以用于后续进行替换。

在一些实施例中，所述步骤S12还包括：设备1确定所述第一源抗体序列对应的多个第一源抗体子序列，其中，所述第一源抗体子序列包括所述第一源抗体序列中连续的多个氨基酸；基于所述第二表征信息，确定所述多个第一源抗体子序列中每个第一源抗体子序列对应的第四表征信息。例如，与步骤S11类似地，对于第一源抗体序列抗体{a，b，c，d，e，f，g}，设备1可以基于与步骤S11相同的子序列长度，确定该第一源抗体序列对应的多个第一源抗体子序列{a，b，c，d}、{b，c，d，e}、{c，d，e，f}、{d，e，f，g}。设备1根据第二表征信息中与该第一源抗体子序列对应的氨基酸的第一氨基酸表征信息，确定相应的第四表征信息。在此，设备1确定所述第四表征信息的方法与前述步骤S11中确定第一表征信息的方法相同或相似，故不再赘述，以引用方式包含于此。

在一些实施例中，所述步骤S13包括：设备1基于所述多个第一源抗体子序列中每个第一源抗体子序列对应的第四表征信息，从所述蛋白质子序列搜索池确定多个候选蛋白质子序列。在一些实施例中，所述设备1基于所述第四表征信息，利用k近邻算法(kNN)，在所述蛋白质子序列搜索池中搜索确定每个第一源抗体子序列对应的多个候选蛋白质子序列。

在步骤S14中，设备1基于所述多个候选蛋白质子序列，确定所述第一源抗体序列对应的第二源蛋白质序列。例如，设备1可以基于每个候选蛋白质子序列中氨基酸，统计其对应在第一源抗体序列中各氨基酸位点的氨基酸信息。进而利用该氨基酸信息进行第一源抗体序列中各氨基酸位点对应氨基酸的替换，从而将第一源抗体序列转换为相应的第二源蛋白质序列。

在一些实施例中，所述步骤S14包括：步骤S141(未示出)，设备1基于所述多个候选蛋白质子序列，确定所述第一源抗体序列对应的多个氨基酸位点中每个氨基酸位点对应的一个或多个氨基酸信息；步骤S142(未示出)，设备1基于所述多个氨基酸位点中每个氨基酸位点对应的一个或多个氨基酸信息，确定所述第一源抗体序列对应的第二源蛋白质序列。在一些实施例中，所述候选蛋白质子序列与相应第一源抗体子序列对应。可以基于该第一源抗体子序列确定所述候选蛋白质子序列中各氨基酸对应在所述第一源抗体序列中的氨基酸位点。设备1可以基于此统计第一源抗体序列中各氨基酸位点对应的氨基酸信息。例如，对于第一源抗体序列中某一氨基酸位点，存在n条候选蛋白质子序列其中相应氨基酸对应该氨基酸位点，设备1可以统计该n条候选蛋白质子序列中对应该氨基酸位点的各氨基酸类型及相应计数作为相应氨基酸信息。例如，该氨基酸位点对应为甘氨酸的候选蛋白质子序列有i条，则相应氨基酸类型为甘氨酸及计数i。在一些实施例中，设备1可以基于确定的每个氨基酸位点对应的一个或多个氨基酸信息，从中任意选取一种氨基酸或者选取计数较高的氨基酸进行替换。通过将第一源抗体序列中氨基酸替换为有相似性质的、基于来自第二源的蛋白质序列确定的氨基酸来完成第一源抗体序列的转化。

在一些实施例中，为了最大限度保证抗体的抗原亲和性，设备1仅对第一源抗体序列中框架区(Framework)进行替换，保留原来的高可变区(Complementarity DeterminingRegion，CDR)。在一些实施例中，所述步骤S141包括：设备1确定所述第一源抗体序列中框架区对应的多个氨基酸位点；基于所述多个候选蛋白质子序列，确定所述多个氨基酸位点中每个氨基酸位点对应的一个或多个氨基酸信息。在一些实施例中，设备1也可以对所述框架区以及高可变区中部分氨基酸位点进行替换。

在一些实施例中，所述步骤S142包括：设备1从所述每个氨基酸位点对应的一个或多个氨基酸信息中确定每个氨基酸位点对应的目标氨基酸与候选氨基酸；基于所述每个氨基酸位点对应的目标氨基酸，确定所述第一源抗体序列对应的第二源蛋白质序列。在一些实施例中，所述氨基酸信息包括所述氨基酸位点对应的氨基酸以及相应的计数。所述设备1根据所述计数对所述氨基酸信息进行排序，将计数最多的氨基酸信息对应的氨基酸作为目标氨基酸，其他氨基酸信息对应的氨基酸作为候选氨基酸。利用所述目标氨基酸对所述第一源抗体序列中相应氨基酸位点的氨基酸进行替换，得到所述第二源蛋白质序列。

例如，参考图2所示的一种确定第二源蛋白质序列的示例图，每个第一源抗体子序列对应确定了4个候选蛋白质子序列。例如，第一个第一源抗体子序列对应的4个候选蛋白质子序列分别为{E，V，Q，L}、{E，V，Q，L}、{Q，V，Q，L}、{Q，V，Q，L}，其中，各字母符号对应为相应氨基酸缩写，E为谷氨酸、V为缬氨酸、Q为谷氨酰胺、L为亮氨酸。设备1可以基于该候选蛋白质子序列依次确定各位点对应的氨基酸信息。例如，对于首位氨基酸，设备1对与该氨基酸位点对应的候选蛋白质子序列进行统计，可以确定该氨基酸位点对应的氨基酸信息(E，2)、(Q，2)。设备1基于该计数对所述氨基酸信息进行排序，进而确定相应目标氨基酸与候选氨基酸。例如，对于首位氨基酸，其对应的2个可选的氨基酸的计数相同，则可以从中任选一个作为目标氨基酸，另一个作为候选氨基酸。对于第二位氨基酸，其对应一个可选的氨基酸，则将该氨基酸确定为目标氨基酸，候选氨基酸则记为空集。对于第五位氨基酸，缬氨酸对应计数高于谷氨酰胺，则将缬氨酸确定为目标氨基酸，谷氨酰胺确定位候选氨基酸。在确定完成后，可以基于各氨基酸位点对应的目标氨基酸，确定相应的第二源蛋白质序列，也即图2最下列所示序列。

在一些实施例中，所述步骤S142还包括：设备1基于所述每个氨基酸位点对应的候选氨基酸，确定所述第二源蛋白质序列对应的突变序列。在一些实施例中，设备1还可以利用所述候选氨基酸为回复突变提供指导。例如，在候选氨基酸中选择相应氨基酸进行回复突变，在确保合适的免疫原性的基础上，确定抗原亲和性更高的突变序列。针对抗体人源化，在此过程中，可以利用IgBLAST(https://www.ncbi.nlm.nih.gov/igblast/)和OASis(Observed Antibody Space identity search)来评估获取的人源化序列的免疫原性，利用Rosetta(一种用于蛋白质结构的计算建模和分析的算法)评估获取的人源化序列的抗原亲和性。相较于现有技术中进行随机回复突变，本方案可以利用候选氨基酸提供相应的突变方向，提高回复突变效率。

图3示出根据本申请一个实施例的一种获取第一源抗体序列对应的第二源蛋白质序列的设备结构图，所述设备1包括一一模块11、一二模块12、一三模块13和一四模块14。所述一一模块11基于蛋白质序列集合，构建所述蛋白质序列集合对应的蛋白质子序列搜索池，其中，所述蛋白质序列集合包括多个蛋白质序列，所述蛋白质子序列搜索池包括多个蛋白质子序列以及每个蛋白质子序列对应的第一表征信息，所述多个蛋白质序列中每个蛋白质序列对应所述多个蛋白质子序列中至少一个蛋白质子序列；所述一二模块12确定第一源抗体序列对应的第二表征信息，其中，所述第二表征信息包括所述第一源抗体序列中每个氨基酸对应的第一氨基酸表征信息；所述一三模块13基于所述第二表征信息，从所述蛋白质子序列搜索池确定多个候选蛋白质子序列；所述一四模块14基于所述多个候选蛋白质子序列，确定所述第一源抗体序列对应的第二源蛋白质序列。在此，所述图3示出的一一模块11、一二模块12、一三模块13和一四模块14对应的具体实施方式分别与前述步骤S11、步骤S12、步骤S13和步骤S14的具体实施例相同或相近，故不再赘述，以引用方式包含于此。

在一些实施例中，所述设备1还包括：一五模块15(未示出)，获取多个候选蛋白质序列，其中，所述候选蛋白质序列包括第二源抗体序列或者相应的种系基因序列；一六模块16(未示出)，基于所述多个候选蛋白质序列，构建蛋白质序列集合。在此，该一五模块15和一六模块16的具体实施方式分别与前述步骤S15和步骤S16的具体实施方式相同或相近，故不再赘述，以引用方式包含于此。

在一些实施例中，所述设备1还包括：一七模块17(未示出)，检测所述多个候选蛋白质序列是否满足相应的聚类条件。在此，该一七模块17的具体实施方式与前述步骤S17的具体实施方式相同或相近，故不再赘述，以引用方式包含于此。

在一些实施例中，所述一一模块11包括一一一单元111(未示出)和一一二单元112(未示出)。所述一一一单元111确定所述蛋白质序列集合中每个蛋白质序列对应的第三表征信息，其中，所述第三表征信息包括该蛋白质序列中每个氨基酸对应的第二氨基酸表征信息；所述一一二单元112基于所述蛋白质序列集合以及所述蛋白质序列集合中每个蛋白质序列对应的第三表征信息，确定蛋白质子序列搜索池，其中，所述蛋白质子序列搜索池包括多个蛋白质子序列以及每个蛋白质子序列对应的第一表征信息，所述多个蛋白质序列中每个蛋白质序列对应所述多个蛋白质子序列中至少一个蛋白质子序列，所述第一表征信息基于该蛋白质子序列对应的蛋白质序列的第三表征信息确定。在此，该一一一单元111和一一二单元112的具体实施方式分别与前述步骤S111和步骤S112的具体实施例相同或相近，故不再赘述，以引用方式包含于此。

在一些实施例中，所述一四模块14包括一四一单元141(未示出)和一四二单元142(未示出)。所述一四一单元141基于所述多个候选蛋白质子序列，确定所述第一源抗体序列对应的多个氨基酸位点中每个氨基酸位点对应的一个或多个氨基酸信息；所述一四二单元142基于所述多个氨基酸位点中每个氨基酸位点对应的一个或多个氨基酸信息，确定所述第一源抗体序列对应的第二源蛋白质序列。在此，该一四一单元141和一四二单元142的具体实施方式分别与前述步骤S141和步骤S142的具体实施例相同或相近，故不再赘述，以引用方式包含于此。

图4示出了可被用于实施本申请中所述的各个实施例的示例性系统；如图4所示在一些实施例中，系统300能够作为各所述实施例中的任意一个设备。在一些实施例中，系统300可包括具有指令的一个或多个计算机可读介质(例如，系统存储器或NVM/存储设备320)以及与该一个或多个计算机可读介质耦合并被配置为执行指令以实现模块从而执行本申请中所述的动作的一个或多个处理器(例如，(一个或多个)处理器305)。

对于一个实施例，系统控制模块310可包括任意适当的接口控制器，以向(一个或多个)处理器305中的至少一个和/或与系统控制模块310通信的任意适当的设备或组件提供任意适当的接口。

系统控制模块310可包括存储器控制器模块330，以向系统存储器315提供接口。存储器控制器模块330可以是硬件模块、软件模块和/或固件模块。

系统存储器315可被用于例如为系统300加载和存储数据和/或指令。对于一个实施例，系统存储器315可包括任意适当的易失性存储器，例如，适当的DRAM。在一些实施例中，系统存储器315可包括双倍数据速率类型四同步动态随机存取存储器(DDR4SDRAM)。

对于一个实施例，系统控制模块310可包括一个或多个输入/输出(I/O)控制器，以向NVM/存储设备320及(一个或多个)通信接口325提供接口。

例如，NVM/存储设备320可被用于存储数据和/或指令。NVM/存储设备320可包括任意适当的非易失性存储器(例如，闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如，一个或多个硬盘驱动器(HDD)、一个或多个光盘(CD)驱动器和/或一个或多个数字通用光盘(DVD)驱动器)。

NVM/存储设备320可包括在物理上作为系统300被安装在其上的设备的一部分的存储资源，或者其可被该设备访问而不必作为该设备的一部分。例如，NVM/存储设备320可通过网络经由(一个或多个)通信接口325进行访问。

(一个或多个)通信接口325可为系统300提供接口以通过一个或多个网络和/或与任意其他适当的设备通信。系统300可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信。

对于一个实施例，(一个或多个)处理器305中的至少一个可与系统控制模块310的一个或多个控制器(例如，存储器控制器模块330)的逻辑封装在一起。对于一个实施例，(一个或多个)处理器305中的至少一个可与系统控制模块310的一个或多个控制器的逻辑封装在一起以形成系统级封装(SiP)。对于一个实施例，(一个或多个)处理器305中的至少一个可与系统控制模块310的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例，(一个或多个)处理器305中的至少一个可与系统控制模块310的一个或多个控制器的逻辑集成在同一模具上以形成片上系统(SoC)。

在各个实施例中，系统300可以但不限于是：服务器、工作站、台式计算设备或移动计算设备(例如，膝上型计算设备、手持计算设备、平板电脑、上网本等)。在各个实施例中，系统300可具有更多或更少的组件和/或不同的架构。例如，在一些实施例中，系统300包括一个或多个摄像机、键盘、液晶显示器(LCD)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(ASIC)和扬声器。

除上述各实施例介绍的方法和设备外，本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机代码，当所述计算机代码被执行时，如前任一项所述的方法被执行。

本申请还提供了一种计算机程序产品，当所述计算机程序产品被计算机设备执行时，如前任一项所述的方法被执行。

本申请还提供了一种计算机设备，所述计算机设备包括：

一个或多个处理器；

存储器，用于存储一个或多个计算机程序；

当所述一个或多个计算机程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如前任一项所述的方法。

需要注意的是，本申请可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中，本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本申请的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

另外，本申请的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本申请的方法和/或技术方案。本领域技术人员应能理解，计算机程序指令在计算机可读介质中的存在形式包括但不限于源文件、可执行文件、安装包文件等，相应地，计算机程序指令被计算机执行的方式包括但不限于：该计算机直接执行该指令，或者该计算机编译该指令后再执行对应的编译后程序，或者该计算机读取并执行该指令，或者该计算机读取并安装该指令后再执行对应的安装后程序。在此，计算机可读介质可以是可供计算机访问的任意可用的计算机可读存储介质或通信介质。

通信介质包括藉此包含例如计算机可读指令、数据结构、程序模块或其他数据的通信信号被从一个系统传送到另一系统的介质。通信介质可包括有导的传输介质(诸如电缆和线(例如，光纤、同轴等))和能传播能量波的无线(未有导的传输)介质，诸如声音、电磁、RF、微波和红外。计算机可读指令、数据结构、程序模块或其他数据可被体现为例如无线介质(诸如载波或诸如被体现为扩展频谱技术的一部分的类似机制)中的已调制数据信号。术语“已调制数据信号”指的是其一个或多个特征以在信号中编码信息的方式被更改或设定的信号。调制可以是模拟的、数字的或混合调制技术。

作为示例而非限制，计算机可读存储介质可包括以用于存储诸如计算机可读指令、数据结构、程序模块或其它数据的信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动的介质。例如，计算机可读存储介质包括，但不限于，易失性存储器，诸如随机存储器(RAM，DRAM，SRAM)；以及非易失性存储器，诸如闪存、各种只读存储器(ROM，PROM，EPROM，EEPROM)、磁性和铁磁/铁电存储器(MRAM，FeRAM)；以及磁性和光学存储设备(硬盘、磁带、CD、DVD)；或其它现在已知的介质或今后开发的能够存储供计算机系统使用的计算机可读信息/数据。

在此，根据本申请的一个实施例包括一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其他的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种获取第一源抗体序列对应的第二源蛋白质序列的方法，其中，所述方法包括：

2.根据权利要求1所述的方法，其中，所述方法还包括：

获取多个候选蛋白质序列，其中，所述候选蛋白质序列包括第二源抗体序列或者相应的种系基因序列；

基于所述多个候选蛋白质序列，构建蛋白质序列集合。

3.根据权利要求2所述的方法，其中，所述基于所述多个候选蛋白质序列，构建蛋白质序列集合包括：

对所述多个候选蛋白质序列进行聚类处理，确定多个蛋白质序列聚类；

基于所述多个蛋白质序列聚类，确定相应的蛋白质序列集合。

4.根据权利要求3所述的方法，其中，在所述基于所述多个候选蛋白质序列，构建蛋白质序列集合之前，所述方法还包括：

检测所述多个候选蛋白质序列是否满足相应的聚类条件。

5.根据权利要求1所述的方法，其中，所述基于蛋白质序列集合，构建所述蛋白质序列集合对应的蛋白质子序列搜索池，其中，所述蛋白质序列集合包括多个蛋白质序列，所述蛋白质子序列搜索池包括多个蛋白质子序列以及每个蛋白质子序列对应的第一表征信息，所述多个蛋白质序列中每个蛋白质序列对应所述多个蛋白质子序列中至少一个蛋白质子序列包括：

确定所述蛋白质序列集合中每个蛋白质序列对应的第三表征信息，其中，所述第三表征信息包括该蛋白质序列中每个氨基酸对应的第二氨基酸表征信息；

基于所述蛋白质序列集合以及所述蛋白质序列集合中每个蛋白质序列对应的第三表征信息，确定蛋白质子序列搜索池，其中，所述蛋白质子序列搜索池包括多个蛋白质子序列以及每个蛋白质子序列对应的第一表征信息，所述多个蛋白质序列中每个蛋白质序列对应所述多个蛋白质子序列中至少一个蛋白质子序列，所述第一表征信息基于该蛋白质子序列对应的蛋白质序列的第三表征信息确定。

6.根据权利要求5所述的方法，其中，所述基于所述蛋白质序列集合以及所述蛋白质序列集合中每个蛋白质序列对应的第三表征信息，确定蛋白质子序列搜索池，其中，所述蛋白质子序列搜索池包括多个蛋白质子序列以及每个蛋白质子序列对应的第一表征信息，所述多个蛋白质序列中每个蛋白质序列对应所述多个蛋白质子序列中至少一个蛋白质子序列，所述第一表征信息基于该蛋白质子序列对应的蛋白质序列的第三表征信息确定包括：

确定所述蛋白质序列集合中每个蛋白质序列对应的多个蛋白质子序列，其中，所述蛋白质子序列包括该蛋白质序列中连续的多个氨基酸；

基于所述蛋白质序列集合中每个蛋白质序列对应的第三表征信息，确定所述多个蛋白质子序列中每个蛋白质子序列对应的第一表征信息；

基于所述多个蛋白质子序列以及所述多个蛋白质子序列中每个蛋白质子序列对应的第一表征信息，确定蛋白质子序列搜索池。

7.根据权利要求1所述的方法，其中，所述确定第一源抗体序列对应的第二表征信息，其中，所述第二表征信息包括所述第一源抗体序列中每个氨基酸对应的第一氨基酸表征信息还包括：

确定所述第一源抗体序列对应的多个第一源抗体子序列，其中，所述第一源抗体子序列包括所述第一源抗体序列中连续的多个氨基酸；

基于所述第二表征信息，确定所述多个第一源抗体子序列中每个第一源抗体子序列对应的第四表征信息。

8.根据权利要求7所述的方法，其中，所述基于所述第二表征信息，从所述蛋白质子序列搜索池确定多个候选蛋白质子序列包括：

基于所述多个第一源抗体子序列中每个第一源抗体子序列对应的第四表征信息，从所述蛋白质子序列搜索池确定多个候选蛋白质子序列。

9.根据权利要求1所述的方法，其中，所述基于所述多个候选蛋白质子序列，确定所述第一源抗体序列对应的第二源蛋白质序列包括：

基于所述多个候选蛋白质子序列，确定所述第一源抗体序列对应的多个氨基酸位点中每个氨基酸位点对应的一个或多个氨基酸信息；

基于所述多个氨基酸位点中每个氨基酸位点对应的一个或多个氨基酸信息，确定所述第一源抗体序列对应的第二源蛋白质序列。

10.根据权利要求9所述的方法，其中，所述基于所述多个候选蛋白质子序列，确定所述第一源抗体序列对应的多个氨基酸位点中每个氨基酸位点对应的一个或多个氨基酸信息包括：

确定所述第一源抗体序列中框架区对应的多个氨基酸位点；

基于所述多个候选蛋白质子序列，确定所述多个氨基酸位点中每个氨基酸位点对应的一个或多个氨基酸信息。

11.根据权利要求9所述的方法，其中，所述基于所述多个氨基酸位点中每个氨基酸位点对应的一个或多个氨基酸信息，确定所述第一源抗体序列对应的第二源蛋白质序列包括：

从所述每个氨基酸位点对应的一个或多个氨基酸信息中确定每个氨基酸位点对应的目标氨基酸与候选氨基酸；

基于所述每个氨基酸位点对应的目标氨基酸，确定所述第一源抗体序列对应的第二源蛋白质序列。

12.根据权利要求11所述的方法，其中，所述基于所述多个氨基酸位点中每个氨基酸位点对应的一个或多个氨基酸信息，确定所述第一源抗体序列对应的第二源蛋白质序列还包括：

基于所述每个氨基酸位点对应的候选氨基酸，确定所述第二源蛋白质序列对应的突变序列。

13.一种获取第一源抗体序列对应的第二源蛋白质序列的计算机设备，包括存储器、处理器及存储在存储器上的计算机程序，其特征在于，所述处理器执行所述计算机程序以实现如权利要求1至12中任一项所述方法的步骤。

14.一种计算机可读存储介质，其上存储有计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现如权利要求1至12中任一项所述方法的步骤。