CN117976074B

CN117976074B - Mhc分子和抗原表位亲和力确定方法、模型训练方法及装置

Info

Publication number: CN117976074B
Application number: CN202410381542.1A
Authority: CN
Inventors: 赵化建; 宋更申
Original assignee: Beijing Youcare Kechuang Pharmaceutical Technology Co ltd
Current assignee: Beijing Youcare Kechuang Pharmaceutical Technology Co ltd
Priority date: 2024-03-29
Filing date: 2024-03-29
Publication date: 2024-06-25
Anticipated expiration: 2044-03-29
Also published as: CN117976074A

Abstract

本发明涉及生物医药技术领域，公开了一种MHC分子和抗原表位亲和力确定方法、模型训练方法及装置，其中，MHC分子和抗原表位亲和力确定方法包括：获取待确定亲和力的MHC分子序列和抗原表位序列；根据所述MHC分子序列和所述抗原表位序列，获取序列对相关信息；基于所述MHC分子序列和所述抗原表位序列，获取描述符对相关信息；利用预先训练的亲和力预测模型，基于所述序列对相关信息、和所述描述符对相关信息，进行MHC分子和抗原表位亲和力预测，输出预测结果。本发明能够提高MHC分子和抗原表位亲和力的预测准确度。

Description

MHC分子和抗原表位亲和力确定方法、模型训练方法及装置

技术领域

本发明涉及生物医药技术领域，具体涉及一种MHC分子和抗原表位亲和力确定方法、模型训练方法及装置。

背景技术

主要组织相容性复合体（major histocompatibility complex，MHC）是一组和免疫应答密切相关、决定移植组织是否相容、紧密连锁的基因群。人的MHC 称为人类白细胞抗原（human leukocyte antigen，HLA）基因复合体。MHC类分子与抗原表位亲和力可以影响T细胞免疫应答的效果和强度。

如果能准确预测MHC类分子与抗原表位亲和力，则可加速疫苗设计、肿瘤免疫治疗研究、自身免疫性基本研究等。

发明内容

有鉴于此，本发明提供了一种MHC分子和抗原表位亲和力确定方法、模型训练方法及装置，以解决如何准确预测MHC类分子与抗原表位亲和力的问题。

第一方面，本发明提供了一种MHC分子和抗原表位亲和力确定方法，方法包括：

获取待确定亲和力的MHC分子序列和抗原表位序列；

根据MHC分子序列和抗原表位序列，获取序列对相关信息；

基于MHC分子序列和抗原表位序列，获取描述符对相关信息；

利用预先训练的亲和力预测模型，基于序列对相关信息、和描述符对相关信息，进行MHC分子和抗原表位亲和力预测，输出预测结果。

在一种可选的实施方式中，亲和力预测模型包括第一特征提取模块、第二特征提取模块和预测模块；

利用预先训练的亲和力预测模型，基于序列对相关信息、和描述符对相关信息，进行MHC分子和抗原表位亲和力预测，输出预测结果，包括：

第一特征提取模块对序列对相关信息进行特征提取，得到序列对特征；

第二特征提取模块对描述符对相关信息进行特征提取，得到描述符对特征；

预测模块基于序列对特征和描述符对特征，得到MHC分子和抗原表位亲和力的预测结果。

在一种可选的实施方式中，第一特征提取模块为Star-Transformer模型；和/或，

第二特征提取模块为Vision Transformer模型；和/或，

预测模块包括多个全连接网络。

在一种可选的实施方式中，根据MHC分子序列和抗原表位序列，获取序列对相关信息，包括：

分别将MHC分子序列和抗原表位序列进行词元切分，得到对应的MHC分子词元序列、抗原表位词元序列；

将MHC分子词元序列与抗原表位词元序列进行拼接，得到拼接词元序列；

将拼接词元序列中的每个词元进行嵌入特征表示，得到序列对相关信息。

在一种可选的实施方式中，将拼接词元序列中的每个词元进行嵌入特征表示，包括：

统计拼接词元序列中出现的词元；

获取拼接词元序列中出现的词元对应的词元嵌入特征；

按照拼接词元序列中各词元对应的词元嵌入特征，进行嵌入特征表示。

在一种可选的实施方式中，基于MHC分子序列和抗原表位序列，获取描述符对相关信息，包括：

基于MHC分子序列，计算预先确定的至少一个多肽描述符，得到MHC分子多肽描述符信息；

基于抗原表位序列，计算至少一个多肽描述符，得到抗原表位多肽描述符信息；

对MHC分子多肽描述符信息和抗原表位多肽描述符信息进行拼接，得到描述符对相关信息。

在一种可选的实施方式中，至少一个多肽描述符包括以下至少之一项：氨基酸组成、二肽组成、k-间隔氨基酸基团对的组成、伪氨基酸组成和理化性质。

第二方面，本发明提供了一种MHC分子和抗原表位亲和力预测模型的训练方法，包括：

获取多对样本MHC分子序列和样本抗原表位序列；

对于每一对样本MHC分子序列和样本抗原表位序列，根据样本MHC分子序列和样本抗原表位序列，获取样本序列对相关信息；

对于每一对样本MHC分子序列和样本抗原表位序列，基于样本MHC分子序列和样本抗原表位序列，获取样本描述符对相关信息；

获取每一对样本MHC分子序列和样本抗原表位序列所对应的亲和力标签；

建立初始亲和力预测模型；

利用多对样本MHC分子序列和样本抗原表位序列，所对应的样本序列对相关信息、样本描述符对相关信息和亲和力标签，对初始亲和力预测模型进行训练。

第三方面，本发明提供了一种MHC分子和抗原表位亲和力确定装置，该装置包括：

获取模块，用于获取待确定亲和力的MHC分子序列和抗原表位序列；

第一信息获取模块，用于根据MHC分子序列和抗原表位序列，获取序列对相关信息；

第二信息获取模块，用于基于MHC分子序列和抗原表位序列，获取描述符对相关信息；

预测模块，用于利用预先训练的亲和力预测模型，基于序列对相关信息、和描述符对相关信息，进行MHC分子和抗原表位亲和力预测，输出预测结果。

第四方面，本发明提供了一种MHC分子和抗原表位亲和力预测模型的训练装置，该装置包括：

样本获取模块，用于获取多对样本MHC分子序列和样本抗原表位序列；

第一样本信息获取模块，用于对于每一对样本MHC分子序列和样本抗原表位序列，根据样本MHC分子序列和样本抗原表位序列，获取样本序列对相关信息；

第二样本信息获取模块，用于对于每一对样本MHC分子序列和样本抗原表位序列，基于样本MHC分子序列和样本抗原表位序列，获取样本描述符对相关信息；

标签获取模块，用于获取每一对样本MHC分子序列和样本抗原表位序列所对应的亲和力标签；

模型建立模块，用于建立初始亲和力预测模型；

模型训练模块，用于利用多对样本MHC分子序列和样本抗原表位序列，所对应的样本序列对相关信息、样本描述符对相关信息和亲和力标签，对初始亲和力预测模型进行训练。

第五方面，本发明提供了一种计算机设备，包括：存储器和处理器，存储器和处理器之间互相通信连接，存储器中存储有计算机指令，处理器通过执行计算机指令，从而执行上述第一方面或其对应的任一实施方式的MHC分子和抗原表位亲和力确定方法或者执行上述第二方面或其对应的任意实施方式的MHC分子和抗原表位亲和力预测模型的训练方法。

第六方面，本发明提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机指令，计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的MHC分子和抗原表位亲和力确定方法或者执行上述第二方面或其对应的任意实施方式的MHC分子和抗原表位亲和力预测模型的训练方法。

本发明具有以下技术效果：

本发明实施例提供的MHC分子和抗原表位亲和力确定方法、模型训练方法、装置、计算机设备及计算机可读存储介质，并非基于单一的序列对相关信息预测MHC分子和抗原表位亲和力，而是依据序列对相关信息、和基于MHC分子序列和抗原表位序列得到的描述符对相关信息，预测MHC分子和抗原表位亲和力，预测准确度得到了很大地提升。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是可以应用本发明实施例提供的MHC分子和抗原表位亲和力确定方法、模型训练方法、装置的实施例的示例性系统架构示意图；

图2是根据本发明实施例的MHC分子和抗原表位亲和力确定方法的流程示意图；

图3是根据本发明实施例的另一MHC分子和抗原表位亲和力确定方法的流程示意图；

图4是根据本发明实施例的词元和对应的词元嵌入特征的映射示意图；

图5是根据本发明实施例的不同多肽描述符信息的信息值的示意图；

图6是根据本发明实施例的亲和力预测模型的结构示意图；

图7是根据本发明实施例的Vision Transformer模型的结构示意图；

图8是根据本发明实施例的MHC分子和抗原表位亲和力预测模型的训练方法的流程示意图；

图9是根据本发明实施例的模型训练输入数据的结构示意图；

图10是本发明实施例的模型和相关文献中的模型的AUC对比示意图；

图11是根据本发明实施例的MHC分子和抗原表位亲和力确定装置的结构框图；

图12是根据本发明实施例的MHC分子和抗原表位亲和力预测模型的训练装置的结构框图；

图13是本发明实施例的计算机设备的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

相关技术中，在利用机器学习预测MHC分子和抗原表位亲和力时，仅利用单一特征进行预测，准确度较低，本发明实施例提供了一种MHC分子和抗原表位亲和力确定方法，通过融合MHC分子和抗原表位的序列对特征和描述符特征，达到了提升预测准确度的效果。

图1示出了可以应用本发明实施例提供的MHC分子和抗原表位亲和力确定方法、模型训练方法、装置、计算机可读存储介质的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如生物信息分析类应用、多肽亲和力确定类应用、网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是具有摄像头和显示屏的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块（例如用来提供MHC分子和抗原表位亲和力确定服务、模型训练服务等），也可以实现成单个软件或软件模块。在此不做具体限定。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的MHC分子和抗原表位亲和力确定应用提供支持的后台服务器。后台服务器可以对接收到的待预测数据、样本数据等进行相应处理。

在一些情况下，本发明所提供的MHC分子和抗原表位亲和力确定方法可以由终端设备101、102、103和服务器105共同执行，也可以由服务器105单独执行，本发明对此不做限定。相应地，MHC分子和抗原表位亲和力确定装置也可以分别设置于终端设备101、102、103和服务器105中。

在一些情况下，本发明所提供的MHC分子和抗原表位亲和力确定方法可以由终端设备101、102、103执行，相应地，MHC分子和抗原表位亲和力确定装置也可以设置于终端设备101、102、103中，这时，系统架构100也可以不包括服务器105。

需要说明的是，服务器105可以是硬件，也可以是软件。当服务器105为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器105为软件时，可以实现成多个软件或软件模块（例如用来提供分布式服务），也可以实现成单个软件或软件模块。在此不做具体限定。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

根据本发明实施例，提供了一种MHC分子和抗原表位亲和力确定方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组可执行计算机指令的计算机设备中执行，例如上述的终端设备或服务器，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

在本实施例中提供了一种MHC分子和抗原表位亲和力确定方法，可用于上述的终端设备或服务器，图2是根据本发明实施例的MHC分子和抗原表位亲和力确定方法的流程图，如图2所示，该流程包括如下步骤：

步骤S201，获取待确定亲和力的MHC分子序列和抗原表位序列。

MHC分子序列，为用于表征MHC分子一级结构中氨基酸残基排列顺序的文本数据，也可以称为MHC分子多肽氨基酸序列、或MHC分子氨基酸序列；抗原表位序列为用于表征抗原表位一级结构中氨基酸残基排列顺序的文本数据，也可以称为抗原表位多肽氨基酸序列、或抗原表位氨基酸序列。

待确定亲和力的MHC分子序列和抗原表位序列可以有多对，但是需要一对一对地进行确定，且每一对MHC分子序列和抗原表位序列的亲和力确定方法都一样，因此这里以一对MHC分子序列和抗原表位序列的亲和力确定为例。

步骤S202，根据MHC分子序列和抗原表位序列，获取序列对相关信息。

步骤S203，基于MHC分子序列和抗原表位序列，获取描述符对相关信息。

本发明实施例中，需要对MHC分子序列和抗原表位序列进行信息提取，得到能够被亲和力预测模型处理的信息，一般为数值化的信息。这里的提取方式和提取到的信息可以有多种，这里不做限定。

步骤S204，利用预先训练的亲和力预测模型，基于序列对相关信息、和描述符对相关信息，进行MHC分子和抗原表位亲和力预测，输出预测结果。

具体地，可以直接将序列对相关信息和描述符对相关信息输入至亲和力预测模型中输出预测结果。

本发明实施例提供的利用机器学习的MHC分子和抗原表位亲和力确定方法，并非基于单一的序列对相关信息预测MHC分子和抗原表位亲和力，而是依据序列对相关信息、和基于MHC分子序列和抗原表位序列得到的描述符对相关信息，预测MHC分子和抗原表位亲和力，预测准确度得到了很大地提升。

在本实施例中提供了一种MHC分子和抗原表位亲和力确定方法，可用于上述的终端设备或服务器，图3是根据本发明实施例的MHC分子和抗原表位亲和力确定方法的流程图，如图3所示，该流程包括如下步骤：

步骤S301，获取待确定亲和力的MHC分子序列和抗原表位序列。

步骤S302，根据MHC分子序列和抗原表位序列，获取序列对相关信息。

一些可选的具体实施方式中，步骤S302，即根据MHC分子序列和抗原表位序列，获取序列对相关信息，具体包括：

步骤S3021，分别将MHC分子序列和抗原表位序列进行词元切分，得到对应的MHC分子词元序列、抗原表位词元序列；

词元切分可以按照k-mer进行，具体的，k-mer等于1，步长为1。

步骤S3022，将MHC分子词元序列与抗原表位词元序列进行拼接，得到拼接词元序列；具体的拼接方式可以根据需要预先设定。

步骤S3023，将拼接词元序列中的每个词元进行嵌入特征表示，得到序列对相关信息。

其中，步骤S3023，具体可以包括：

步骤S30231，统计拼接词元序列中出现的词元；

步骤S30232，获取拼接词元序列中出现的词元对应的词元嵌入特征；

具体地，这一步可以获取预先建立的词元字典，该词元字典用于表征词元和词元嵌入特征之间的对应关系。词元字典可以按照下述方式建立：

在模型训练阶段，统计所有样本对应的拼接词元序列中出现的词元，并统计各不同词元在所有样本对应的拼接词元序列中的出现次数，然后基于统计出的词元生成词元字典，并将词元字典中词元对应的词元嵌入特征设置为相应词元按照出现次数进行排序得到的序号。如此设计，可以提升模型训练过程中对样本数据的处理速度，例如提升了特征提取的速度。

例如，如图4所示，词元字典的健为词元，字典的值为词元嵌入特征，词元嵌入特征为从0开始的连续正整数，字典中的键按照词元的出现次数由高到低进行排序。在图4中，词元字典中词元按照出现次数由高到低进行排序后，共计22个词元，分别为：<pad>、<unk>、Y、A、T、L、E、V、W、R、D、N、S、I、H、G、K、Q、M、F、P、C。

步骤S30233，按照拼接词元序列中各词元对应的词元嵌入特征，进行嵌入特征表示。

本发明实施例中，词元嵌入特征可以为各种数值形式，例如可以是整数。

步骤S303，基于MHC分子序列和抗原表位序列，获取描述符对相关信息。

本发明实施例中，需要对MHC分子序列和抗原表位序列进行信息提取，得到能够被亲和力预测模型处理的信息。这里的提取方式和提取到的信息可以有多种，这里不做限定。

其中一种可选的具体实施方式中，具体的描述符对相关信息的获取过程如下：

步骤S3031，基于MHC分子序列，计算预先确定的至少一个多肽描述符，得到MHC分子多肽描述符信息；

具体地，可以预先建立多肽描述符集合，该集合中包括上述的至少一个多肽描述符。

步骤S3032，基于抗原表位序列，计算至少一个多肽描述符，得到抗原表位多肽描述符信息；

本发明实施例中，可以利用Python工具ifeatpro和peptides，基于MHC分子序列和抗原表位序列，计算至少一个多肽描述符。

步骤S3033，对MHC分子多肽描述符信息和抗原表位多肽描述符信息进行拼接，得到描述符对相关信息。具体的拼接方式可以是预先确定的拼接方式。

其中，至少一个多肽描述符为以下至少之一项：氨基酸组成（Amino AcidComposition，AAC）、二肽组成（Dipeptide Composition，DiC）、k-间隔氨基酸基团对的组成（k-Spaced Amino Acid Group Pairs，CKSAAGP）、伪氨基酸组成（Pseudo Amino AcidComposition，PAAC）和理化性质（Physicochemical，PHYC）。

本发明实施例中，若计算了以上全部多肽描述符，则可以得到1152个信息值，即描述符对相关信息包括1152个信息值，每个信息值为浮点数。1152个信息值中，包含MHC分子多肽描述符576个信息值、抗原表位多肽描述符576个信息值。不同多肽描述符信息的信息值如图5所示，其中，aac为氨基酸组成，比如，第一列“aac_1”对应为“氨基酸组成”中的第1个描述符取值。hydrophobic_moment为疏水矩，boman为蛋白相互作用的一种度量，aliphatic_index为脂肪指数。

在本发明实施例中，对描述符对相关信息的信息值进行了归一化，使得每个信息值的取值范围均在0和1之间。

步骤S304，利用预先训练的亲和力预测模型，基于序列对相关信息、和描述符对相关信息，进行MHC分子和抗原表位亲和力预测，输出预测结果。

一些可选的具体实施方式中，亲和力预测模型包括第一特征提取模块、第二特征提取模块和预测模块；

请参阅图6，步骤S304，即利用预先训练的亲和力预测模型，基于序列对相关信息、和描述符对相关信息，进行MHC分子和抗原表位亲和力预测，输出预测结果，包括：

步骤S3041，第一特征提取模块对序列对相关信息进行特征提取，得到序列对特征；其中，第一特征提取模块可以为Star-Transformer模型。

步骤S3042，第二特征提取模块对描述符对相关信息进行特征提取，得到描述符对特征；其中，第二特征提取模块可以为Vision Transformer模型。

具体地，请参阅图7，本发明实施例中，Transformer的编码器分别包含规范化层、多头自注意力层、残差连接层、规范化层、前馈连接层、残差连接层。Transformer层数为2，多头自注意力层的头数为2。

如上述，若描述符对相关信息包括1152个信息值，那么这1152个信息值可以按照块（patch）大小为16，被切分成72个不同patch。然后和位置嵌入相加，输入到Transformer的编码器中。

步骤S3043，预测模块基于序列对特征和描述符对特征，得到MHC分子和抗原表位亲和力的预测结果。其中，预测模块包括多个全连接网络，例如可以为三层，输出维度为2。

具体地，序列对特征可以是第一特征张量，维度为256维，描述符对特征可以是第二特征张量，维度为256维，基于第一特征张量和第二特征张量，确定联合特征张量，维度为512维（256维+256维），将联合特征张量输入预测模块进行全方面的信息融合，得到预测结果，即预测的亲和力值。

在本实施例中提供了一种MHC分子和抗原表位亲和力预测模型的训练方法，可用于图1所示的终端设备和/或服务器，图8是根据本发明实施例的MHC分子和抗原表位亲和力预测模型的训练方法的流程图，如图8所示，该流程包括如下步骤：

步骤S801，获取多对样本MHC分子序列和样本抗原表位序列；

本发明实施例中，MHC分子和抗原表位亲和力预测模型的训练方法的执行主体（终端设备和/或服务器）可以与MHC分子和抗原表位亲和力确定方法的执行主体相同，也可以不同。样本MHC分子序列和样本抗原表位序列的获取方式有多种，这里不做限定。

步骤S802，对于每一对样本MHC分子序列和样本抗原表位序列，根据样本MHC分子序列和样本抗原表位序列，获取样本序列对相关信息；

以一对样本MHC分子序列和样本抗原表位序列为例，具体可以按照以下过程获取样本序列对相关信息：

分别将样本MHC分子序列和样本抗原表位序列进行词元切分，得到对应的样本MHC分子词元序列、样本抗原表位词元序列；

将样本MHC分子词元序列与样本抗原表位词元序列进行拼接，得到样本拼接词元序列。

将样本拼接词元序列中的每个词元进行嵌入特征表示，得到样本序列对相关信息。具体地，可以先统计样本拼接词元序列中出现的词元，然后获取样本拼接词元序列中出现的词元对应的词元嵌入特征，最后按照样本拼接词元序列中各词元对应的词元嵌入特征，进行嵌入特征表示。

详细可参阅上述MHC分子和抗原表位亲和力确定方法实施例，这里不再赘述。

步骤S803，对于每一对样本MHC分子序列和样本抗原表位序列，基于样本MHC分子序列和样本抗原表位序列，获取样本描述符对相关信息；

以一对样本MHC分子序列和样本抗原表位序列为例，具体可以按照以下过程获取样本描述符对相关信息：

基于样本MHC分子序列，计算预先确定的至少一个多肽描述符，得到样本MHC分子多肽描述符信息；至少一个多肽描述符为以下至少之一项：氨基酸组成（Amino AcidComposition，AAC）、二肽组成（Dipeptide Composition，DiC）、k-间隔氨基酸基团对的组成（k-Spaced Amino Acid Group Pairs，CKSAAGP）、伪氨基酸组成（Pseudo Amino AcidComposition，PAAC）和理化性质（Physicochemical，PHYC）。

基于样本抗原表位序列，计算至少一个多肽描述符，得到样本抗原表位多肽描述符信息；

对样本MHC分子多肽描述符信息和样本抗原表位多肽描述符信息进行拼接，得到样本描述符对相关信息。

在本发明实施例中，还在计算得到每个训练样本对应的样本描述符对相关信息后，基于所有训练样本对应的样本描述符对相关信息，对每个训练样本对应的样本描述符对相关信息对信息值进行了归一化，使得每个训练样本对应的样本描述符对相关信息中每个信息值的取值范围均在0和1之间。

步骤S804，获取每一对样本MHC分子序列和样本抗原表位序列所对应的亲和力标签；

亲和力标签为用于表征样本MHC分子和样本抗原表位亲和力程度的标注值。样本MHC分子和样本抗原表位亲和力标签可以为具体的数值，也可以按照一定阈值进行切分，如切分为是否有亲和力，变为2分类标签（有亲和力、无亲和力）。

步骤S805，建立初始亲和力预测模型；初始亲和力预测模型包括第一特征提取模块、第二特征提取模块和预测模块。第一特征提取模块可以为Star-Transformer模型，第二特征提取模块可以为Vision Transformer模型，预测模块包括多个全连接网络。

步骤S806，利用多对样本MHC分子序列和样本抗原表位序列，所对应的样本序列对相关信息、样本描述符对相关信息和亲和力标签，对初始亲和力预测模型进行训练。

训练过程中，第一特征提取模块对样本序列对相关信息进行特征提取，得到样本序列对特征，第二特征提取模块对样本描述符对相关信息进行特征提取，得到样本描述符对特征。预测模块基于样本序列对特征和样本描述符对特征，得到样本MHC分子和样本抗原表位亲和力的样本预测结果。具体请参阅MHC分子和抗原表位亲和力确定方法实施例中的相关说明，这里不再赘述。

具体地模型训练过程是：将样本序列对相关信息、样本描述符对相关信息作为初始亲和力预测模型的输入数据，以相应的亲和力标签为监督数据，对初始亲和力预测模型进行训练。

关于输入数据的结构，请参阅图9，采用预设的字典实现，字典的键分别为input1_ids、input1_lens、input2_ids、labels，即分别表示样本序列对相关信息、样本序列对相关信息中的词元长度、样本描述符对相关信息、亲和力标签值。字典的值分别为键对应的数值，为浮点数或整数类型。其中，亲和力标签值为1或0，分别表示有亲和力或无亲和力。

训练过程中每个批次包括训练样本的相关信息数量设置为1024，并对每个批次进行打乱。

训练过程中，基于亲和力预测值与样本的亲和力标签之间的差异调整初始亲和力预测模型的参数。具体的，参数调整可以采用Adam优化器。

本发明实施例中，模型训练采用K折交叉验证，样本集被分为K个不重叠的子集，执行K次模型训练和验证。通过K次验证的ROC曲线（受试者工作特征曲线（receiveroperating characteristic curve））下与坐标轴围成的面积（Area Under Curve，AUC）的平均值来对模型进行评估，选择最优的亲和力预测模型。

本发明实施例中，经过训练的亲和力预测模型，由于融合了样本序列对相关信息、样本描述符对相关信息，相对于仅采用序列的单一信息进行预测，MHC分子和抗原表位亲和力的预测准确度得到了很大的提升。

举例来说，本发明实施例采用《STMHCpan, an accurate Star-Transformer-based extensible framework for predicting MHC I allele binding peptides》（Ye,Zheng, et al. Briefings in Bioinformatics 24.3 (2023): bbad164.）中收集整理的MHC I分子序列（包含36个MHC I分子亚型：A0202、A0205、A0206、A0211、A1101、A2301、A2501、A2601、A3001、A3002、A3201、A3301、A6601、A6801、B0702、B0801、B1402、B1501、B1502、B1503、B1517、B1801、B3503、B3701、B3801、B4001、B4002、B4501、B4601、B5301、B5801、C0303、C0501、C0702、C0802、C1203）和抗原表位序列作为样本，对应的亲和力数据作为标签。

上述文献中只采用了样本的MHC分子和抗原表位序列对相关信息和亲和力标签进行训练的训练，而本发明实施例中采用了样本的MHC分子和抗原表位序列对相关信息、MHC分子和抗原表位的描述符对相关信息和亲和力标签进行模型的训练。

相关技术中一般用AUC来评估模型，AUC的值介于0.1和1之间，AUC值越大，模型的预测准确度越好。若AUC为0.5，则为随机模型。若0.5<AUC<1，则模型优于随机模型。如图10所示，采用同样的MHC分子序列和抗原表位序列作为样本，本发明实施例提供的模型的AUC平均值为0.960，而上述文献中的模型的AUC平均值为0.950，本发明提供的模型的AUC值相比文献中的模型提高了1.0%。其中，针对MHC I分子亚型C1203，本发明提供的模型的AUC值相比文献中的模型提高了17.5%（AUC从0.773提高至0.948）；针对MHC I分子亚型A6801，本发明实施例提供的模型的AUC值相比文献中的模型提高了4.3%（AUC从0.871提高至0.914）。因此，本发明实施例提供的模型优于文献中的模型，大幅提升了MHC分子和抗原表位亲和力预测的准确性。

在本实施例中还提供了一种MHC分子和抗原表位亲和力确定装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

本实施例提供一种MHC分子和抗原表位亲和力确定装置，如图11所示，包括：

获取模块1101，用于获取待确定亲和力的MHC分子序列和抗原表位序列；

第一信息获取模块1102，用于根据MHC分子序列和抗原表位序列，获取序列对相关信息；

第二信息获取模块1103，用于基于MHC分子序列和抗原表位序列，获取描述符对相关信息；

预测模块1104，用于利用预先训练的亲和力预测模型，基于序列对相关信息、和描述符对相关信息，进行MHC分子和抗原表位亲和力预测，输出预测结果。

在一些可选的实施方式中，亲和力预测模型包括第一特征提取模块、第二特征提取模块和预测模块；

预测模块1104，包括：

第一特征提取单元，用于利用第一特征提取模块对序列对相关信息进行特征提取，得到序列对特征；

第二特征提取单元，用于利用第二特征提取模块对描述符对相关信息进行特征提取，得到描述符对特征；

预测单元，用于利用预测模块基于序列对特征和描述符对特征，得到MHC分子和抗原表位亲和力的预测结果。

在一些可选的实施方式中，第一特征提取模块为Star-Transformer模型；和/或，

第二特征提取模块为Vision Transformer模型；和/或，

预测模块包括多个全连接网络。

在一些可选的实施方式中，第一信息获取模块1102包括：

词元切分单元，用于分别将MHC分子序列和抗原表位序列进行词元切分，得到对应的MHC分子词元序列、抗原表位词元序列；

第一拼接单元，用于将MHC分子词元序列与抗原表位词元序列进行拼接，得到拼接词元序列；

特征表示单元，用于将拼接词元序列中的每个词元进行嵌入特征表示，得到序列对相关信息。

在一些可选的实施方式中，特征表示单元包括：

统计子单元，用于统计拼接词元序列中出现的词元；

词元嵌入特征获取子单元，用于获取拼接词元序列中出现的词元对应的词元嵌入特征；

嵌入特征表示子单元，用于按照拼接词元序列中各词元对应的词元嵌入特征，进行嵌入特征表示。

在一些可选的实施方式中，第二信息获取模块1103包括：

第一计算单元，用于基于MHC分子序列，计算预先确定的至少一个多肽描述符，得到MHC分子多肽描述符信息；

第二计算单元，用于基于抗原表位序列，计算至少一个多肽描述符，得到抗原表位多肽描述符信息；

第二拼接单元，用于对MHC分子多肽描述符信息和抗原表位多肽描述符信息进行拼接，得到描述符对相关信息。

在一些可选的实施方式中，至少一个多肽描述符包括以下至少之一项：氨基酸组成、二肽组成、k-间隔氨基酸基团对的组成、伪氨基酸组成和理化性质。

上述各个模块和单元的更进一步的功能描述与上述对应实施例相同，在此不再赘述。

本实施例中的MHC分子和抗原表位亲和力确定装置是以功能单元的形式来呈现，这里的单元是指ASIC（Application Specific Integrated Circuit，专用集成电路）电路，执行一个或多个软件或固定程序的处理器和存储器，和/或其他可以提供上述功能的器件。

本实施例提供一种MHC分子和抗原表位亲和力预测模型的训练装置，如图12所示，包括：

样本获取模块1201，用于获取多对样本MHC分子序列和样本抗原表位序列；

第一样本信息获取模块1202，用于对于每一对样本MHC分子序列和样本抗原表位序列，根据样本MHC分子序列和样本抗原表位序列，获取样本序列对相关信息；

第二样本信息获取模块1203，用于对于每一对样本MHC分子序列和样本抗原表位序列，基于样本MHC分子序列和样本抗原表位序列，获取样本描述符对相关信息；

标签获取模块1204，用于获取每一对样本MHC分子序列和样本抗原表位序列所对应的亲和力标签；

模型建立模块1205，用于建立初始亲和力预测模型；

模型训练模块1206，用于利用多对样本MHC分子序列和样本抗原表位序列，所对应的样本序列对相关信息、样本描述符对相关信息和亲和力标签，对初始亲和力预测模型进行训练。

上述各个模块的更进一步的功能描述与上述对应实施例相同，在此不再赘述。

本实施例中的MHC分子和抗原表位亲和力预测模型的训练装置是以功能单元的形式来呈现，这里的单元是指ASIC（Application Specific Integrated Circuit，专用集成电路）电路，执行一个或多个软件或固定程序的处理器和存储器，和/或其他可以提供上述功能的器件。

本发明实施例还提供一种计算机设备，具有上述图11所示的MHC分子和抗原表位亲和力确定装置或者上述图12所示的MHC分子和抗原表位亲和力预测模型的训练装置。

请参阅图13，图13是本发明可选实施例提供的一种计算机设备的结构示意图，如图13所示，该计算机设备，具体可以是终端设备或服务器，包括：一个或多个处理器10、存储器20，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相通信连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在计算机设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在一些可选的实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个计算机设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图13中以一个处理器10为例。

处理器10可以是中央处理器，网络处理器或其组合。其中，处理器10还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路，可编程逻辑器件或其组合。上述可编程逻辑器件可以是复杂可编程逻辑器件，现场可编程逻辑门阵列，通用阵列逻辑或其任意组合。

其中，存储器20存储有可由至少一个处理器10执行的指令，以使至少一个处理器10执行实现上述实施例示出的方法。

存储器20可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器20可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些可选的实施方式中，存储器20可选包括相对于处理器10远程设置的存储器，这些远程存储器可以通过网络连接至该计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

存储器20可以包括易失性存储器，例如，随机存取存储器；存储器也可以包括非易失性存储器，例如，快闪存储器，硬盘或固态硬盘；存储器20还可以包括上述种类的存储器的组合。

该计算机设备还包括输入装置30和输出装置40。处理器10、存储器20、输入装置30和输出装置40可以通过总线或者其他方式连接，图13中以通过总线连接为例。

输入装置30可接收输入的数字或字符信息，以及产生与该计算机设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等。输出装置40可以包括显示设备、辅助照明装置（例如，LED）和触觉反馈装置（例如，振动电机）等。上述显示设备包括但不限于液晶显示器，发光二极管，显示器和等离子体显示器。在一些可选的实施方式中，显示设备可以是触摸屏。

该计算机设备还包括通信接口，用于该计算机设备与其他设备或通信网络通信。

本发明实施例还提供了一种计算机可读存储介质，上述根据本发明实施例的方法可在硬件、固件中实现，或者被实现为可记录在存储介质，或者被实现通过网络下载的原始存储在远程存储介质或非暂时机器可读存储介质中并将被存储在本地存储介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件的存储介质上的这样的软件处理。其中，存储介质可为磁碟、光盘、只读存储记忆体、随机存储记忆体、快闪存储器、硬盘或固态硬盘等；进一步地，存储介质还可以包括上述种类的存储器的组合。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件，当软件或计算机代码被计算机、处理器或硬件访问且执行时，实现上述实施例示出的方法。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种MHC分子和抗原表位亲和力确定方法，其特征在于，所述方法包括：

获取待确定亲和力的MHC分子序列和抗原表位序列；

根据所述MHC分子序列和所述抗原表位序列，获取序列对相关信息；

基于所述MHC分子序列和所述抗原表位序列，获取描述符对相关信息；

利用预先训练的亲和力预测模型，基于所述序列对相关信息、和所述描述符对相关信息，进行MHC分子和抗原表位亲和力预测，输出预测结果；

其中，

所述根据所述MHC分子序列和所述抗原表位序列，获取序列对相关信息，包括：

分别将所述MHC分子序列和所述抗原表位序列进行词元切分，得到对应的MHC分子词元序列、抗原表位词元序列；

将所述MHC分子词元序列与所述抗原表位词元序列进行拼接，得到拼接词元序列；

将所述拼接词元序列中的每个词元进行嵌入特征表示，得到所述序列对相关信息；在模型训练阶段，统计所有样本对应的拼接词元序列中出现的词元，并统计各不同词元在所有样本对应的拼接词元序列中的出现次数，然后基于统计出的词元生成词元字典，词元字典中的键按照词元的出现次数由高到低进行排序；词元共计22个；

所述亲和力预测模型包括第一特征提取模块、第二特征提取模块和预测模块；

所述利用预先训练的亲和力预测模型，基于所述序列对相关信息、和所述描述符对相关信息，进行MHC分子和抗原表位亲和力预测，输出预测结果，包括：

所述第一特征提取模块对所述序列对相关信息进行特征提取，得到序列对特征；

所述第二特征提取模块对所述描述符对相关信息进行特征提取，得到描述符对特征；

所述预测模块基于所述序列对特征和所述描述符对特征，得到所述MHC分子和抗原表位亲和力的预测结果；

所述第一特征提取模块为Star-Transformer模型；和/或，所述第二特征提取模块为Vision Transformer模型。

2.根据权利要求1所述的方法，其特征在于，所述预测模块包括多个全连接网络。

3.根据权利要求1所述的方法，其特征在于，所述将所述拼接词元序列中的每个词元进行嵌入特征表示，包括：

统计所述拼接词元序列中出现的词元；

获取所述拼接词元序列中出现的所述词元对应的词元嵌入特征；

按照所述拼接词元序列中各所述词元对应的词元嵌入特征，进行嵌入特征表示。

4.根据权利要求1-2中任一项所述的方法，其特征在于，所述基于所述MHC分子序列和所述抗原表位序列，获取描述符对相关信息，包括：

基于所述MHC分子序列，计算预先确定的至少一个多肽描述符，得到MHC分子多肽描述符信息；

基于所述抗原表位序列，计算所述至少一个多肽描述符，得到抗原表位多肽描述符信息；

对所述MHC分子多肽描述符信息和所述抗原表位多肽描述符信息进行拼接，得到所述描述符对相关信息。

5.根据权利要求4所述的方法，其特征在于，所述至少一个多肽描述符包括以下至少之一项：氨基酸组成、二肽组成、k-间隔氨基酸基团对的组成、伪氨基酸组成和理化性质。

6.一种MHC分子和抗原表位亲和力预测模型的训练方法，其特征在于，包括：

获取多对样本MHC分子序列和样本抗原表位序列；

对于每一对样本MHC分子序列和样本抗原表位序列，根据所述样本MHC分子序列和所述样本抗原表位序列，获取样本序列对相关信息；

其中，所述对于每一对样本MHC分子序列和样本抗原表位序列，根据所述样本MHC分子序列和所述样本抗原表位序列，获取样本序列对相关信息，包括：

分别将所述样本MHC分子序列和所述样本抗原表位序列进行词元切分，得到对应的样本MHC分子词元序列、样本抗原表位词元序列；

将所述样本MHC分子词元序列与所述样本抗原表位词元序列进行拼接，得到样本拼接词元序列；

将所述样本拼接词元序列中的每个词元进行嵌入特征表示，得到所述样本序列对相关信息；统计所有样本对应的拼接词元序列中出现的词元，并统计各不同词元在所有样本对应的拼接词元序列中的出现次数，然后基于统计出的词元生成词元字典，词元字典中的键按照词元的出现次数由高到低进行排序；词元共计22个；

对于每一对样本MHC分子序列和样本抗原表位序列，基于所述样本MHC分子序列和所述样本抗原表位序列，获取样本描述符对相关信息；

获取每一对所述样本MHC分子序列和样本抗原表位序列所对应的亲和力标签；

建立初始亲和力预测模型；

利用多对所述样本MHC分子序列和所述样本抗原表位序列，所对应的所述样本序列对相关信息、所述样本描述符对相关信息和所述亲和力标签，对所述初始亲和力预测模型进行训练；

其中，所述初始亲和力预测模型包括第一特征提取模块、第二特征提取模块和预测模块；

所述利用多对所述样本MHC分子序列和所述样本抗原表位序列，所对应的所述样本序列对相关信息、所述样本描述符对相关信息和所述亲和力标签，对所述初始亲和力预测模型进行训练，包括：

所述第一特征提取模块对所述样本序列对相关信息进行特征提取，得到样本序列对特征；

所述第二特征提取模块对所述样本描述符对相关信息进行特征提取，得到样本描述符对特征；

所述预测模块基于所述样本序列对特征和所述样本描述符对特征，得到所述样本MHC分子和样本抗原表位亲和力的预测结果；

7.一种MHC分子和抗原表位亲和力确定装置，其特征在于，所述装置包括：

第一信息获取模块，用于根据所述MHC分子序列和所述抗原表位序列，获取序列对相关信息；其中，所述第一信息获取模块包括：

特征表示单元，用于将拼接词元序列中的每个词元进行嵌入特征表示，得到序列对相关信息；在模型训练阶段，统计所有样本对应的拼接词元序列中出现的词元，并统计各不同词元在所有样本对应的拼接词元序列中的出现次数，然后基于统计出的词元生成词元字典，词元字典中的键按照词元的出现次数由高到低进行排序；词元共计22个；

第二信息获取模块，用于基于所述MHC分子序列和所述抗原表位序列，获取描述符对相关信息；

预测模块，用于利用预先训练的亲和力预测模型，基于所述序列对相关信息、和所述描述符对相关信息，进行MHC分子和抗原表位亲和力预测，输出预测结果；所述亲和力预测模型包括第一特征提取模块、第二特征提取模块和预测模块；所述预测模块包括：

预测单元，用于利用预测模块基于序列对特征和描述符对特征，得到MHC分子和抗原表位亲和力的预测结果；

8.一种MHC分子和抗原表位亲和力预测模型的训练装置，其特征在于，包括：

第一样本信息获取模块，用于对于每一对样本MHC分子序列和样本抗原表位序列，根据所述样本MHC分子序列和所述样本抗原表位序列，获取样本序列对相关信息；其中，所述第一样本信息获取模块，具体用于分别将所述样本MHC分子序列和所述样本抗原表位序列进行词元切分，得到对应的样本MHC分子词元序列、样本抗原表位词元序列；将所述样本MHC分子词元序列与所述样本抗原表位词元序列进行拼接，得到样本拼接词元序列；将所述样本拼接词元序列中的每个词元进行嵌入特征表示，得到所述样本序列对相关信息；统计所有样本对应的拼接词元序列中出现的词元，并统计各不同词元在所有样本对应的拼接词元序列中的出现次数，然后基于统计出的词元生成词元字典，词元字典中的键按照词元的出现次数由高到低进行排序；词元共计22个；

第二样本信息获取模块，用于对于每一对样本MHC分子序列和样本抗原表位序列，基于所述样本MHC分子序列和所述样本抗原表位序列，获取样本描述符对相关信息；

标签获取模块，用于获取每一对所述样本MHC分子序列和样本抗原表位序列所对应的亲和力标签；

模型建立模块，用于建立初始亲和力预测模型；

模型训练模块，用于利用多对所述样本MHC分子序列和所述样本抗原表位序列，所对应的所述样本序列对相关信息、所述样本描述符对相关信息和所述亲和力标签，对所述初始亲和力预测模型进行训练；其中，所述初始亲和力预测模型包括第一特征提取模块、第二特征提取模块和预测模块；所述第一特征提取模块对所述样本序列对相关信息进行特征提取，得到样本序列对特征；所述第二特征提取模块对所述样本描述符对相关信息进行特征提取，得到样本描述符对特征；所述预测模块基于所述样本序列对特征和所述样本描述符对特征，得到所述样本MHC分子和样本抗原表位亲和力的预测结果；

9.一种计算机设备，其特征在于，包括：

存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行权利要求1至5中任一项所述的MHC分子和抗原表位亲和力确定方法或者权利要求6所述的MHC分子和抗原表位亲和力预测模型的训练方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机指令，所述计算机指令用于使计算机执行权利要求1至5中任一项所述的MHC分子和抗原表位亲和力确定方法或者权利要求6所述的MHC分子和抗原表位亲和力预测模型的训练方法。