CN115171787A - 抗原预测方法、装置、设备以及存储介质 - Google Patents

抗原预测方法、装置、设备以及存储介质 Download PDF

Info

Publication number
CN115171787A
CN115171787A CN202210804792.2A CN202210804792A CN115171787A CN 115171787 A CN115171787 A CN 115171787A CN 202210804792 A CN202210804792 A CN 202210804792A CN 115171787 A CN115171787 A CN 115171787A
Authority
CN
China
Prior art keywords
cell receptor
immune cell
sequence
information
antigen
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210804792.2A
Other languages
English (en)
Inventor
赵宇
何冰
姚建华
苏小娜
许志梦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202210804792.2A priority Critical patent/CN115171787A/zh
Publication of CN115171787A publication Critical patent/CN115171787A/zh
Priority to PCT/CN2023/091052 priority patent/WO2024007700A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Bioethics (AREA)
  • Physiology (AREA)
  • Genetics & Genomics (AREA)
  • Artificial Intelligence (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Peptides Or Proteins (AREA)

Abstract

本申请公开了一种抗原预测方法、装置、设备以及存储介质,属于计算机技术领域。通过本申请实施例提供的技术方案,抗原预测模型对免疫细胞受体的基因信息以及序列进行特征提取,得到免疫细胞受体的基因特征以及序列特征。在获取免疫细胞受体的受体特征的过程中,融合了基因特征、序列特征以及三维结构特征。三维结构特征的引入丰富了受体特征的内容,提高了受体特征的表达能力,从而基于受体特征进行抗原预测时,得到的目标抗原的准确性较高。

Description

抗原预测方法、装置、设备以及存储介质
技术领域
本申请涉及计算机技术领域,特别涉及一种抗原预测方法、装置、设备以及存储介质。
背景技术
人体免疫系统由先天性免疫和适应性免疫构成。适应性免疫系统由多种免疫细胞实现,免疫细胞可以对特定的病原体做出特异性的反应。免疫细胞受体是免疫细胞对抗原进行识别的区域,成功识别抗原可以激活免疫系统消灭病原体,对维护人体健康发挥重要作用。免疫细胞受体具有抗原特异性,也即是一种免疫细胞受体只能够与特定抗原结合,研究免疫细胞受体的抗原特异性对于理解免疫系统至关重要,并进一步可以促进免疫治疗和疫苗的设计和研发。基于此,亟需一种预测与免疫细胞受体能够进行特异性结合的抗原方法。
发明内容
本申请实施例提供了一种抗原预测方法、装置、设备以及存储介质,可以预测与免疫细胞受体进行特异性结合的抗原,所述技术方案如下:
一方面,提供了一种抗原预测方法,所述方法包括:
将免疫细胞受体的基因信息、序列信息以及三维结构特征输入抗原预测模型;
通过所述抗原预测模型,对所述免疫细胞受体的基因信息以及序列信息进行特征提取,得到所述免疫细胞受体的基因特征以及序列特征;
通过所述抗原预测模型,将所述免疫细胞受体的基因特征、序列特征以及三维结构特征进行融合,得到所述免疫细胞受体的受体特征;
通过所述抗原预测模型,对所述免疫细胞受体的受体特征进行全连接和归一化,输出所述免疫细胞受体对应于多个候选抗原的概率;
基于所述免疫细胞受体对应于多个候选抗原的概率,从所述多个候选抗原中确定目标抗原,所述目标抗原为能够与所述免疫细胞受体特异性结合的抗原。
一方面,提供了一种抗原预测模型的训练方法,所述方法包括:
将样本免疫细胞受体的基因信息、序列信息以及三维结构特征输入抗原预测模型;
通过所述抗原预测模型,对所述样本免疫细胞受体的基因信息以及序列信息进行特征提取,得到所述样本免疫细胞受体的基因特征以及序列特征;
通过所述抗原预测模型,将所述样本免疫细胞受体的基因特征、序列特征以及三维结构特征进行融合,得到所述样本免疫细胞受体的受体特征;
通过所述抗原预测模型,对所述样本免疫细胞受体的受体特征进行全连接和归一化,输出所述样本免疫细胞受体对应于多个候选预测抗原的概率;
基于所述样本免疫细胞受体对应于多个样本候选抗原的概率,从所述多个样本候选抗原中确定所述样本免疫细胞受体对应的预测抗原;
基于所述样本免疫细胞受体对应的预测抗原与标注抗原之间的差异信息,对所述抗原预测模型进行训练。
一方面,提供了一种抗原预测装置,所述装置包括:
输入单元,用于将免疫细胞受体的基因信息、序列信息以及三维结构特征输入抗原预测模型;
特征提取单元,用于通过所述抗原预测模型,对所述免疫细胞受体的基因信息以及序列信息进行特征提取,得到所述免疫细胞受体的基因特征以及序列特征;
特征融合单元,用于通过所述抗原预测模型,将所述免疫细胞受体的基因特征、序列特征以及三维结构特征进行融合,得到所述免疫细胞受体的受体特征;
抗原预测单元,用于通过所述抗原预测模型,对所述免疫细胞受体的受体特征进行全连接和归一化,输出所述免疫细胞受体对应于多个候选抗原的概率;基于所述免疫细胞受体对应于多个候选抗原的概率,从所述多个候选抗原中确定目标抗原,所述目标抗原为能够与所述免疫细胞受体特异性结合的抗原。
在一种可能的实施方式中,所述特征提取单元,用于通过所述抗原预测模型的基因编码器,对所述免疫细胞受体的VDJ信息进行编码,得到所述免疫细胞受体的基因特征,其中,V为编码可变区,D为编码高变区,J为编码交联区;通过所述抗原预测模型的序列编码器,对所述免疫细胞受体的氨基酸序列进行编码,得到所述免疫细胞受体的序列特征。
在一种可能的实施方式中,所述特征提取单元,用于执行下述任一项:
在所述免疫细胞受体为B细胞受体的情况下,对所述免疫细胞受体的轻链的VJ信息和重链的VDJ信息进行编码,得到所述免疫细胞受体的基因特征;
在所述免疫细胞受体为T细胞受体的情况下,对所述免疫细胞受体的α链的VJ信息和β链的VDJ信息进行编码,得到所述免疫细胞受体的基因特征。
在一种可能的实施方式中,所述特征提取单元,用于对所述免疫细胞受体的轻链的VJ信息和重链的VDJ信息进行全连接,得到所述免疫细胞受体的基因特征,所述免疫细胞受体的基因特征包括所述免疫细胞受体的轻链基因特征以及所述免疫细胞受体的重链基因特征;所述对所述免疫细胞受体的α链的VJ信息和β链的VDJ信息进行编码,得到所述免疫细胞受体的基因特征包括:对所述免疫细胞受体的α链的VJ信息和β链的VDJ信息进行全连接,得到所述免疫细胞受体的基因特征,所述免疫细胞受体的基因特征包括所述免疫细胞受体的α链基因特征以及所述免疫细胞受体的β链基因特征。
在一种可能的实施方式中,所述特征提取单元,用于执行下述任一项:
在所述免疫细胞受体为B细胞受体的情况下,通过所述抗原预测模型的序列编码器,基于注意力机制对所述免疫细胞受体的轻链的氨基酸序列以及重链的氨基酸序列进行编码,得到所述免疫细胞受体的序列特征,所述免疫细胞受体的序列特征包括所述免疫细胞受体的轻链序列特征和重链序列特征;
在所述免疫细胞受体为T细胞受体的情况下,通过所述抗原预测模型的序列编码器,基于注意力机制对所述免疫细胞受体的α链的氨基酸序列以及β链的氨基酸序列进行编码,得到所述免疫细胞受体的序列特征,所述免疫细胞受体的序列特征包括所述免疫细胞受体的α链序列特征和β链序列特征。
在一种可能的实施方式中,所述特征融合单元,用于通过所述抗原预测模型的特征融合模块,将所述免疫细胞受体的基因特征以及序列特征进行拼接,得到所述免疫细胞受体的基因序列融合特征;基于门控注意力机制,将所述免疫细胞受体的基因序列融合特征和三维结构特征进行加权融合,得到所述免疫细胞受体的受体特征。
在一种可能的实施方式中,所述装置还包括:
三维结构特征获取单元,用于获取所述免疫细胞受体的目标氨基酸序列,所述目标氨基酸序列包括所述免疫细胞受体的CDR3区域;对所述免疫细胞受体的目标氨基酸序列进行多序列比对,得到至少一个参考氨基酸序列,所述参考氨基酸序列与所述目标氨基酸序列之间的相似度符合相似度条件;获取所述目标氨基酸序列对应的同源模板,同源模板包括所述目标氨基酸序列的同源序列的结构信息;基于所述目标氨基酸序列、所述至少一个参考氨基酸序列以及所述同源模板进行多轮迭代,得到所述免疫细胞受体的三维结构特征。
在一种可能的实施方式中,所述装置还包括:
三维结构特征获取单元,用于获取所述免疫细胞受体的三维结构信息,所述三维结构信息包括所述免疫细胞受体中多个氨基酸的三维坐标;
所述三维结构特征获取单元用于执行下述任一项:
对所述免疫细胞受体的三维结构信息进行图卷积,得到所述免疫细胞受体的三维结构特征;
基于注意力机制对所述免疫细胞受体的三维结构信息进行编码,得到所述免疫细胞受体的三维结构特征。
在一种可能的实施方式中,所述特征融合单元,还用于通过所述抗原预测模型,将所述免疫细胞受体的基因特征、序列特征、三维结构特征以及所述免疫细胞受体中氨基酸的物化信息进行融合,得到所述免疫细胞受体的受体特征。
一方面,提供了一种抗原预测模型的训练装置,所述装置包括:
训练信息输入单元,用于将样本免疫细胞受体的基因信息、序列信息以及三维结构特征输入抗原预测模型;
训练特征提取单元,用于通过所述抗原预测模型,对所述样本免疫细胞受体的基因信息以及序列信息进行特征提取,得到所述样本免疫细胞受体的基因特征以及序列特征;
训练特征融合单元,用于通过所述抗原预测模型,将所述样本免疫细胞受体的基因特征、序列特征以及三维结构特征进行融合,得到所述样本免疫细胞受体的受体特征;
预测抗原输出单元,用于通过所述抗原预测模型,对所述样本免疫细胞受体的受体特征进行全连接和归一化,输出所述样本免疫细胞受体对应于多个候选预测抗原的概率;基于所述样本免疫细胞受体对应于多个样本候选抗原的概率,从所述多个样本候选抗原中确定所述样本免疫细胞受体对应的预测抗原;
训练单元,用于基于所述样本免疫细胞受体对应的预测抗原与标注抗原之间的差异信息,对所述抗原预测模型进行训练。
一方面,提供了一种计算机设备,所述计算机设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条计算机程序,所述计算机程序由所述一个或多个处理器加载并执行以实现所述抗原预测方法或所述抗原预测模型的训练方法。
一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条计算机程序,所述计算机程序由处理器加载并执行以实现所述抗原预测方法或所述抗原预测模型的训练方法。
一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括程序代码,该程序代码存储在计算机可读存储介质中,计算机设备的处理器从计算机可读存储介质读取该程序代码,处理器执行该程序代码,使得该计算机设备执行上述抗原预测方法或所述抗原预测模型的训练方法。
通过本申请实施例提供的技术方案,抗原预测模型对免疫细胞受体的基因信息以及序列进行特征提取,得到免疫细胞受体的基因特征以及序列特征。在获取免疫细胞受体的受体特征的过程中,融合了基因特征、序列特征以及三维结构特征。三维结构特征的引入丰富了受体特征的内容,提高了受体特征的表达能力,从而基于受体特征进行抗原预测时,得到的目标抗原的准确性较高。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种抗原预测方法的实施环境的示意图;
图2是本申请实施例提供的一种抗原预测方法的流程图;
图3是本申请实施例提供的另一种抗原预测方法的流程图;
图4是本申请实施例提供的一种确定三维结构特征的流程图;
图5是本申请实施例提供的又一种抗原预测方法流程图;
图6是本申请实施例提供的一种实验结果的示意图;
图7是本申请实施例提供的一种抗原预测模型的训练方法的流程图;
图8是本申请实施例提供的一种抗原预测装置的结构示意图;
图9是本申请实施例提供的一种抗原预测模型的训练装置的结构示意图;
图10是本申请实施例提供的一种终端的结构示意图;
图11是本申请实施例提供的一种服务器的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式做进一步的详细描述。
本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分,应理解,“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系,也不对数量和执行顺序进行限定。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识子模型使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
嵌入编码(Embedded Coding):嵌入编码在数学上表示一个对应关系,即通过一个函数F将X空间上的数据映射到Y空间上,其中该函数F是单射函数,映射的结果是结构保存,单射函数表示映射后的数据与映射前的数据唯一对应,结构保存表示映射前数据的大小关系后映射后数据的大小关系相同,例如映射前存在数据X1以及X2,映射后得到X1对应的Y1以及X2对应的Y2。若映射前的数据X1>X2,那么相应地,映射后的数据Y1大于Y2。对于词语来说,就是将词语映射到另外一个空间,便于后续的机器学习和处理。
注意力权重:可以表示训练或预测过程中某个数据的重要性,重要性表示输入的数据对输出数据影响的大小。重要性高的数据其对应的注意力权重的值较高,重要性低的数据其对应的注意力权重的值较低。在不同的场景下,数据的重要性并不相同,模型的训练注意力权重的过程也即是确定数据重要性的过程。
免疫细胞:俗称白细胞,包括先天性淋巴细胞、各种吞噬细胞等和能识别抗原、产生特异性免疫应答的淋巴细胞等。
T细胞:全称为T淋巴细胞(T-lymphocyte),来源于骨髓的多能干细胞(胚胎期则来源于卵黄囊和肝)。在人体胚胎期和初生期,骨髓中的一部分多能干细胞或前T细胞迁移到胸腺内,在胸腺激素的诱导下分化成熟,成为具有免疫活性的T细胞。
TCR:T细胞抗原受体(T cell receptor,TCR)为所有T细胞表面的特征性标志,TCR的作用是识别抗原。
B细胞:全称为B淋巴细胞,来源于骨髓的多能干细胞。B淋巴细胞的祖细胞存在于胎肝(胚胎小鼠14天或通顺儿8-9周)的造血细胞岛中,此后B淋巴细胞的产生和分化场所逐渐被骨髓所代替。成熟的B细胞主要定居于淋巴结皮质浅层的淋巴小结和脾脏的红髓和白髓的淋巴小结内。B细胞在抗原刺激下可分化为浆细胞,浆细胞可合成和分泌抗体(免疫球蛋白),主要执行机体的体液免疫。
BCR:B细胞抗原受体(B-cell receptor,BCR)是一种位于B细胞表面的负责特异性识别及结合抗原的分子,其本质是一种膜表面免疫球蛋白。BCR具有抗原结合特异性。
抗原:泛指所有可以刺激机体产生特异免疫反应(体液免疫及细胞免疫)的物质。
云技术(Cloud Technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。
本申请实施例提供的技术方案还能够与云技术相结合,例如,将训练得到的抗原预测模型部署在云端服务器。其中,云技术中的医疗云(Medical Cloud)是指在云计算、移动技术、多媒体、4G通信、大数据、以及物联网等新技术基础上,结合医疗技术,使用“云计算”来创建医疗健康服务云平台,实现了医疗资源的共享和医疗范围的扩大。
需要说明的是,本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号,均为经用户授权或者经过各方充分授权的,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如,本申请中涉及到的基因信息都是在充分授权的情况下获取的。
图1是本申请实施例提供的一种抗原预测方法的实施环境示意图,参见图1,该实施环境中可以包括终端110和服务器140。
终端110通过无线网络或有线网络与服务器140相连。可选地,终端110是智能手机、平板电脑、笔记本电脑、台式计算机、智能手表等,但并不局限于此。终端110安装和运行有支持抗原预测的应用程序。
服务器140是独立的物理服务器,或者是多个物理服务器构成的服务器集群或者分布式系统,或者是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
本领域技术人员可以知晓,上述终端和服务器的数量可以更多或更少。比如上述终端仅为一个,或者上述终端为几十个或几百个,或者更多数量,此时上述实施环境中还包括其他终端。本申请实施例对终端的数量和设备类型不加以限定。
在介绍完本申请实施例的实施环境之后,下面将结合上述实施环境对本申请实施例提供的技术方案进行说明,在下述说明过程中,终端也即是上述实施环境中的终端110,服务器也即是上述实施环境中的服务器140。
本申请实施例提供的抗原预测方法能够应用在科学研究以及疫苗设计等领域中,也即是确定免疫细胞受体的抗原特异性的场景下,其中,抗原特异性是指能够与免疫细胞受体特异性结合的目标抗原。通过本申请实施例提供的技术方案,技术人员通过终端将免疫细胞受体的基因信息、序列信息以及三维结构特征上传至服务器,由服务器通过训练完毕的抗原预测模型对该免疫细胞受体的基因信息、序列信息以及三维结构特征进行处理,得到该免疫细胞受体的受体特征,其中,该免疫细胞受体的基因信息包括该免疫细胞受体的VDJ信息、序列信息为该免疫细胞受体的氨基酸序列,三维结构特征用于表示该免疫细胞受体的三维结构。服务器通过该抗原预测模型,基于该免疫细胞受体的受体特征进行抗原预测,输出该免疫细胞受体对应的目标抗原,该目标抗原也即是能够与该免疫细胞受体特异性结合的抗原,技术人员能够基于该目标抗原来进行进一步的科学研究或者疫苗设计。采用本申请实施例提供的技术方案,能够减少技术人员基于免疫细胞受体进行实验的次数,提高科学研究和疫苗设计的效率。
在介绍完本申请实施例的实施环境和应用场景之后,下面对本申请实施例提供的抗原预测方法进行说明。本申请实施例提供的技术方案可以由终端或服务器执行,也可以由终端和服务器共同执行,在下述说明过程中,以执行主体为服务器为例进行说明,参见图2,方法包括下述步骤。
201、服务器将免疫细胞受体的基因信息、序列信息以及三维结构特征输入抗原预测模型。
其中,免疫细胞受体为T细胞受体或者B细胞受体。在一些实施例中,免疫细胞受体的基因信息包括免疫细胞受体的VDJ信息,其中,V为编码可变区,D为编码高变区,J为编码交联区。免疫细胞受体的序列信息为该免疫细胞受体的氨基酸序列。免疫细胞受体的三维结构特征是基于免疫细胞受体的三维结构确定的,其中,三维结构用于表示该免疫细胞受体中多个氨基酸的位置,三维结构特征能够从整体上反映该免疫细胞受体的三维结构。抗原预测模型为基于样本免疫细胞受体的基因信息、序列信息以及三维结构特征训练得到的模型,具有预测免疫细胞受体对应抗原的功能。
202、服务器通过该抗原预测模型,对该免疫细胞受体的基因信息以及序列信息进行特征提取,得到该免疫细胞受体的基因特征以及序列特征。
其中,对该免疫细胞受体的基因信息以及序列信息进行特征提取的过程,也即是对该免疫细胞受体的基因信息以及序列信息进行抽象表达的过程,得到的基因特征以及序列特征既能够表示该免疫细胞受体的基因信息以及序列信息,也便于服务器进行后续处理。
203、服务器通过该抗原预测模型,将该免疫细胞受体的基因特征、序列特征以及三维结构特征进行融合,得到该免疫细胞受体的受体特征。
其中,该免疫细胞受体的受体特征是融合基因特征、序列特征以及三维结构特征得到的,也就能够从基因、序列以及结构三个方面表示该免疫细胞受体,因此该受体特征的表达能力较强。
204、服务器通过该抗原预测模型,对该免疫细胞受体的受体特征进行全连接和归一化,输出该免疫细胞受体对应于多个候选抗原的概率。
其中,基于该免疫细胞受体的受体特征进行全连接和归一化的过程,也即是基于该免疫细胞受体的受体特征进行抗原预测的过程。
205、服务器基于该免疫细胞受体对应于多个候选抗原的概率,从该多个候选抗原中确定目标抗原,该目标抗原为能够与该免疫细胞受体特异性结合的抗原。
通过本申请实施例提供的技术方案,抗原预测模型对免疫细胞受体的基因信息以及序列进行特征提取,得到免疫细胞受体的基因特征以及序列特征。在获取免疫细胞受体的受体特征的过程中,融合了基因特征、序列特征以及三维结构特征。三维结构特征的引入丰富了受体特征的内容,提高了受体特征的表达能力,从而基于受体特征进行抗原预测时,得到的目标抗原的准确性较高。
上述步骤201-205是对本申请实施例提供的抗原预测方法的简单说明,下面将结合一些例子,对本申请实施例提供的抗原预测方法进行进一步说明,参见图3,以执行主体为服务器为例,方法包括下述步骤。
301、服务器获取免疫细胞受体的三维结构特征。
其中,免疫细胞受体为T细胞受体或者B细胞受体,免疫细胞受体用于识别抗原并与抗原特异性结合,从而激活免疫系统。免疫细胞受体为一种蛋白质,蛋白质包括多个氨基酸,免疫细胞受体的三维结构特征用于表示该免疫细胞受体的多个氨基酸在空间中的位置。
在一种可能的实施方式中,服务器获取该免疫细胞受体的目标氨基酸序列,该目标氨基酸序列包括该免疫细胞受体的CDR3区域。服务器对该免疫细胞受体的目标氨基酸序列进行多序列比对,得到至少一个参考氨基酸序列,该参考氨基酸序列与该目标氨基酸序列之间的相似度符合相似度条件。服务器获取该目标氨基酸序列对应的同源模板,同源模板包括该目标氨基酸序列的同源序列的结构信息。服务器基于该目标氨基酸序列、该至少一个参考氨基酸序列以及该同源模板进行多轮迭代,得到该免疫细胞受体的三维结构特征。
其中,免疫细胞受体上存在互补决定区(Complementary Determining Region,CDR),该互补决定区包括三个子区域CDR1、CDR2和CDR3,其中CDR3最高变,在抗原识别中起关键作用。
在这种实施方式下,服务器能够基于该免疫细胞受体的目标氨基酸序列确定该免疫细胞受体的三维结构特征,无需通过冷冻电镜等其他设备来进行观察,提高了三维结构特征的获取效率,降低了三维结构特征的获取成本。
举例来说,服务器获取该免疫细胞受体的测序数据,该测序数据包括该免疫细胞受体的多个氨基酸以及该多个氨基酸的排列顺序,该测序数据是技术人员通过基因测序设备测试得到的,本申请实施例对此不做限定。服务器对该免疫细胞受体的测序数据进行预处理(Data Preprocessing),得到该免疫细胞受体的参考测序数据,其中,对该测序数据进行预处理包括消除该测序数据中的错误数据以及将该测序数据转换为便于服务器处理的格式等,预处理的规则由技术人员根据实际情况进行设置,本申请实施例对此不做限定。服务器对该参考测序数据进行质量控制(Quality Control),得到该免疫细胞受体的目标测序数据,其中,对该参考测序数据进行质量控制包括死细胞去除(Filtering out deadcells)、背景估计(Background estimation)、链配对(Paired chains)、信号矫正(Dextramer Signal Correction)、Log-rank检验以及受体基因聚集等。服务器从该目标测序数据中截取目标长度的包含CDR3区域的氨基酸序列,该目标长度的包含CDR3区域的氨基酸序列也即是目标氨基酸序列,其中,目标长度由技术人员根据实际情况进行设置,比如设置为大于50个氨基酸等,本申请实施例对此不做限定。服务器基于该目标氨基酸序列在基因数据库中进行搜索,得到至少一个参考氨基酸序列,该至少一个参考氨基酸序列也即是与该目标氨基酸序列之间的相似度大于或等于相似度阈值的氨基酸序列,确定氨基酸序列之间的相似度是通过比较氨基酸序列中氨基酸的类型和排列顺序实现的,多序列比对也被称为多序列对齐,用于从一个大的数据库中抽取和输入氨基酸序列相近的序列,并且顺便进行对齐。由于序列类似的氨基酸序列一般来说折叠方式也类似,进行多序列比对能够在特征中加入相近的序列结构信息。服务器基于该目标氨基酸序列在结构数据库中进行搜索,得到该目标氨基酸序列对应的同源模板,同源模板包括该目标氨基酸序列的同源序列的结构信息。服务器基于注意力机制,对该目标氨基酸序列、该至少一个参考氨基酸序列以及该同源模板进行多轮迭代编码,得到该目标氨基酸序列中每对氨基酸之间的距离分布以及连接它们的化学键的角度。服务器利用注意力机制,对该目标氨基酸序列中每对氨基酸之间的距离分布以及连接它们的化学键的角度进行编码,输出该免疫细胞受体的三维结构信息,其中,该免疫细胞受体的三维结构信息包括该免疫细胞受体中多个氨基酸的三维位置。服务器对该免疫细胞受体的三维结构进行特征提取,比如采用图网络对该免疫细胞受体进行处理,得到该免疫细胞受体的三维结构特征。
为了对上述实施方式进行更加清楚地说明,下面将结合图4对上述实施方式进行说明。
参见图4,服务器对该免疫细胞受体的测序数据进行预处理401,得到该免疫细胞受体的参考测序数据。服务器对该参考测序数据进行质量控制402,得到该免疫细胞受体的目标测序数据,其中,质量控制402包括死细胞去除4021、背景估计4022、链配对4023、信号矫正4024、Log-rank检验4025以及受体基因聚集4026。服务器对该目标测序数据进行序列截取403,得到目标氨基酸序列。服务器基于目标氨基酸序列进行多序列比对404,得到至少一个参考氨基酸序列。服务器基于该目标氨基酸序列在结构数据库中进行搜索,得到该目标氨基酸序列对应的同源模板。服务器基于注意力机制,对该目标氨基酸序列、该至少一个参考氨基酸序列以及该同源模板进行多轮迭代编码405,得到该免疫细胞受体的三维结构信息。
上述实施方式是服务器基于该免疫细胞受体的目标氨基酸序列来确定该免疫细胞受体的三维结构特征的方法,在其他可能的实施方式中,服务器可以使用训练完毕的结构预测模型来基于氨基酸序列获取三维结构特征,其中,该结构预测模型包括RoseTTAFold、AlphaFold以及AlphaFold2等模型,当然,随着科学技术的发展,也可以采用其他结构预测模型,本申请实施例对此不做限定。
下面对服务器基于该免疫细胞受体的三维结构信息来获取该免疫细胞受体的三维结构特征的方法进行说明,其中,该三维结构信息包括该免疫细胞受体中多个氨基酸的三维位置。
在一种可能的实施方式中,服务器获取该免疫细胞受体的三维结构信息,该三维结构信息包括该免疫细胞受体中多个氨基酸的三维坐标。服务器对该免疫细胞受体的三维结构信息进行图卷积,得到该免疫细胞受体的三维结构特征。
其中,该三维结构信息为该免疫细胞受体的三维结构文件。在一些实施例中,该三维结构信息通过冷冻电镜拍摄的图像获得,或者通过结构预测模型基于该免疫细胞受体的氨基酸序列获得,本申请实施例对此不做限定。图卷积的全称是图卷积神经网络(GraphConvolutional Network,GCN),用于提取图(Graph)的特征,在本申请实施例中,图中的节点为该免疫细胞受体中的氨基酸,图中的连线用于表示氨基酸之间的相对位置关系。
在这种实施方式下,服务器直接对该免疫细胞受体的三维结构信息进行图卷积就能够得到该免疫细胞受体的三维结构特征,无需先确定该免疫细胞受体的三维结构信息,确定三维结构特征的效率较高。
举例来说,服务器获取该免疫细胞受体的三维结构信息。服务器基于该三维结构信息生成该免疫细胞受体的三维结构图,该三维结构图中的节点对应于该免疫细胞受体的氨基酸,该三维结构图中的连线用于表示氨基酸之间的连接关系,该三维结构图中节点的节点特征包括对应氨基酸的类型以及三维坐标。服务器对该三维结构图进行图卷积,得到该免疫细胞受体的三维结构特征。
在一种可能的实施方式中,服务器获取该免疫细胞受体的三维结构信息,该三维结构信息包括该免疫细胞受体中多个氨基酸的三维坐标。服务器基于注意力机制对该免疫细胞受体的三维结构信息进行编码,得到该免疫细胞受体的三维结构特征。
在这种实施方式下,服务器基于注意力机制直接对该免疫细胞受体的三维结构信息进行编码就能够得到该免疫细胞受体的三维结构特征,无需先确定该免疫细胞受体的三维结构信息,确定三维结构特征的效率较高。
举例来说,服务器获取该免疫细胞受体的三维结构信息。服务器对该三维结构信息中的多个氨基酸进行嵌入编码,得到多个氨基酸嵌入特征,其中,对多个氨基酸进行嵌入编码的过程也即是将多个氨基酸通过离散化的形式进行表示,便于服务器后续的处理。服务器利用注意力机制,基于该三维结构信息对该多个氨基酸嵌入特征进行编码,得到多个氨基酸的注意力权重。服务器基于该多个氨基酸的注意力权重,将该多个氨基酸嵌入特征进行融合,得到该免疫细胞受体的三维结构特征。在一些实施例中,服务器能够采用Transformer模型的编码器来对该免疫细胞受体的三维结构信息进行编码,得到该免疫细胞受体的三维结构特征。
需要说明的是,上述两种实施方式是以服务器分别利用图卷积以及注意力机制对该免疫细胞受体的三维结构信息进行编码,得到三维结构特征为例进行说明的,在其他可能的实施方式中,服务器也能够采用其他模型对该免疫细胞受体的三维结构信息进行编码,本申请实施例对此不做限定。
需要说明的是,上述步骤301是可选步骤。
302、服务器将免疫细胞受体的基因信息、序列信息以及三维结构特征输入抗原预测模型。
其中,免疫细胞受体的基因信息包括免疫细胞受体的VDJ信息,其中,V为编码可变区,D为编码高变区,J为编码交联区。免疫细胞受体的序列信息为该免疫细胞受体的氨基酸序列,比如,AEGAL为一个氨基酸序列,其中,A表示丙氨酸(Alanine),E表示谷氨酸(Glutamicacid),G表示甘氨酸(Glycine),L表示亮氨酸(Leucine),免疫细胞受体为一种蛋白质,氨基酸序列也被称为蛋白质的一维结构。抗原预测模型为基于样本免疫细胞受体的基因信息、序列信息以及三维结构特征训练得到的模型,具有预测免疫细胞受体对应抗原的功能。
在一种可能的实施方式中,该抗原预测模型包括三个信息编码通道,其中,第一个信息编码通道为基因信息编码通道,该基因信息编码通道包括基因编码器,该基因编码器用于对基因信息进行编码;第二个信息编码通道为序列信息编码通道,该序列信息编码通道包括序列编码器,该序列编码器用于对序列信息进行编码;第三个信息编码通道为结构特征编码通道,该结构特征编码通道包括结构编码器,该结构编码器用于对结构特征进行编码。服务器将该免疫细胞受体的基因信息输入该抗原预测模型的基因信息编码通道,后续通过基因信息编码通道中的基因编码器对该基因信息进行编码。服务器将该免疫细胞受体的序列信息输入该抗原预测模型的序列信息编码通道,后续通过该序列信息编码通道中的序列编码器对该序列信息进行编码。服务器将该免疫细胞受体的三维结构特征输入结构特征编码通道,后续通过该结构特征编码通道中的结构编码器对该三维结构特征进行编码。
在一些实施例中,在将该免疫细胞受体的序列信息输入该抗原预测模型之前,服务器还能够对该免疫细胞受体的序列信息进行预处理,以保证输入到抗原预测模型中的序列信息的长度均相同。在该免疫细胞受体的序列信息的长度大于长度阈值的情况下,服务器将该免疫细胞受体的序列信息中长度大于或等于长度阈值的部分截断,得到长度为该长度阈值的序列信息,后续将该截断后的序列信息输入抗原预测模型。在该免疫细胞受体的序列信息的长度小于长度阈值的情况下,服务器在该免疫细胞受体的序列信息中填充目标符号,得到长度为该长度阈值的序列信息,后续将该截断后的序列信息输入抗原预测模型,其中,该目标符号为技术人员根据实际情况进行设置,比如为0。
需要说明的是,上述步骤301-302是以服务器提前获取该免疫细胞受体的三维结构特征为例进行说明的,在其他可能的实施方式中,服务器也可以提前获取该免疫细胞受体的三维结构信息,将该三维结构信息输入该抗原预测模型的结构特征编码通道,后续通过该结构特征编码通道的结构编码器来获取该免疫细胞受体的三维结构特征,本申请实施例对此不做限定。
另外,上述步骤301-302是以服务器获取该免疫细胞受体的三维结构特征,并将该免疫细胞受体的基因信息、序列信息以及三维结构特征输入抗原预测模型为例进行说明的,在其他可能的实施方式中,在服务器未获取到该免疫细胞受体的三维结构特征的情况下,也可以只将该免疫细胞受体的基因信息以及序列信息输入该抗原预测模型。
303、服务器通过该抗原预测模型,对该免疫细胞受体的基因信息以及序列信息进行特征提取,得到该免疫细胞受体的基因特征以及序列特征。
其中,对该免疫细胞受体的基因信息以及序列信息进行特征提取的过程,也即是对该免疫细胞受体的基因信息以及序列信息进行抽象表达的过程,得到的基因特征以及序列特征既能够表示该免疫细胞受体的基因信息以及序列信息,也便于服务器进行后续处理。
在一种可能的实施方式中,该抗原预测模型包括基因编码器和序列编码器。服务器通过该抗原预测模型的基因编码器,对该免疫细胞受体的VDJ信息进行编码,得到该免疫细胞受体的基因特征,其中,V为编码可变区,D为编码高变区,J为编码交联区。服务器通过该抗原预测模型的序列编码器,对该免疫细胞受体的氨基酸序列进行编码,得到该免疫细胞受体的序列特征。
在这种实施方式下,服务器能够通过该抗原预测模型的基因编码器和序列编码器分别对该免疫细胞受体的基因信息和序列信息进行编码,也即是对该基因信息和序列信息进行特征提取,得到的基因特征和序列特征能够从不同维度上表示该免疫细胞受体。
为了对上述实施方式进行更加清楚地说明,下面将分为两个部分对上述实施方式进行说明。
第一部分、服务器通过该抗原预测模型的基因编码器,对该免疫细胞受体的VDJ信息进行编码,得到该免疫细胞受体的基因特征。
在一种可能的实施方式中,在该免疫细胞受体为B细胞受体的情况下,服务器通过该抗原预测模型的基因编码器,对该免疫细胞受体的轻链的VJ信息和重链的VDJ信息进行编码,得到该免疫细胞受体的基因特征。
其中,B细胞受体包括两条相同的重链(Heavy Chain,H链)和两条相同的轻链(Light Chain,L链),两条重链和两条轻链通过链间二硫键连接而成四肽链结构。重链的分子量约为50~75kD,由450~550个氨基酸残基组成。轻链的分子量约25kD,由214个氨基酸残基构成。
为了对上述实施方式进行更加清楚地说明,下面将通过三个例子对上述实施方式进行说明。
例1、服务器通过该抗原预测模型的基因编码器,对该免疫细胞受体的轻链的VJ信息和重链的VDJ信息进行全连接,得到该免疫细胞受体的基因特征,该免疫细胞受体的基因特征包括该免疫细胞受体的轻链基因特征以及该免疫细胞受体的重链基因特征。
在一种可能的实施方式中,该抗原预测模型包括两个基因编码器,服务器通过该抗原预测模型的第一个基因编码器,将该B细胞受体的轻链的VJ信息进行拼接,得到该B细胞受体的轻链基因信息。服务器通过该抗原预测模型的第二个基因编码器,将该B细胞受体的轻链的VDJ信息进行拼接,得到该B细胞受体的重链基因信息。服务器通过该抗原预测模型的第一个基因编码器,对该B细胞受体的轻链基因信息进行两次全连接,得到该B细胞受体的轻链基因特征。服务器通过该抗原预测模型的第二个基因编码器,对该B细胞受体的重链基因信息进行两次全连接,得到该B细胞受体的重链基因特征。该B细胞受体的轻链基因特征和重链基因特征构成该B细胞受体的基因特征。
例2、服务器通过该抗原预测模型的基因编码器,对该免疫细胞受体的轻链的VJ信息和重链的VDJ信息进行卷积,得到该免疫细胞受体的基因特征,该免疫细胞受体的基因特征包括该免疫细胞受体的轻链基因特征以及该免疫细胞受体的重链基因特征。
在一种可能的实施方式中,该抗原预测模型包括两个基因编码器,服务器通过该抗原预测模型的第一个基因编码器,将该B细胞受体的轻链的VJ信息进行拼接,得到该B细胞受体的轻链基因信息。服务器通过该抗原预测模型的第二个基因编码器,将该B细胞受体的轻链的VDJ信息进行拼接,得到该B细胞受体的重链基因信息。服务器通过该抗原预测模型的第一个基因编码器,对该B细胞受体的轻链基因信息进行两次卷积,得到该B细胞受体的轻链基因特征。服务器通过该抗原预测模型的第二个基因编码器,对该B细胞受体的重链基因信息进行两次卷积,得到该B细胞受体的重链基因特征。该B细胞的轻链基因特征和重链基因特征构成该B细胞受体的基因特征。
例3、服务器通过该抗原预测模型的基因编码器,基于注意力机制对该免疫细胞受体的轻链的VJ信息和重链的VDJ信息进行编码,得到该免疫细胞受体的基因特征,该免疫细胞受体的基因特征包括该免疫细胞受体的轻链基因特征以及该免疫细胞受体的重链基因特征。
在一种可能的实施方式中,该抗原预测模型包括两个基因编码器,服务器通过该抗原预测模型的第一个基因编码器,将该B细胞受体的轻链的VJ信息进行拼接,得到该B细胞受体的轻链基因信息。服务器通过该抗原预测模型的第二个基因编码器,将该B细胞受体的轻链的VDJ信息进行拼接,得到该B细胞受体的重链基因信息。服务器通过该抗原预测模型的第一个基因编码器,基于注意力机制对该B细胞受体的轻链基因信息进行编码,得到该B细胞受体的轻链基因特征。服务器通过该抗原预测模型的第二个基因编码器,基于注意力机制对该B细胞受体的重链基因信息进行编码,得到该B细胞受体的重链基因特征。该B细胞受体的轻链基因特征和重链基因特征构成该B细胞受体的基因特征。
上述是以该免疫细胞受体为B细胞受体为例进行说明的,下面以该免疫细胞受体为T细胞受体为例进行说明。
在一种可能的实施方式中,在该免疫细胞受体为T细胞受体的情况下,服务器通过该抗原预测模型的基因编码器,对该免疫细胞受体的α链的VJ信息和β链的VDJ信息进行编码,得到该免疫细胞受体的基因特征。
其中,一些T细胞受体包括α链和β链,这种T细胞受体也被称为αβ-TCR。另一些T细胞受体包括γ链和δ链,这种T细胞受体也被称为γδ-TCR。由于人体中αβ-TCR的数量远远多于γδ-TCR的数量,在下述说明过程中以T细胞受体为αβ-TCR为例进行说明。对于γδ-TCR,其结构与αβ-TCR类似均是双链结构,处理方式属于同一发明构思,实现过程参见下述描述。
为了对上述实施方式进行更加清楚地说明,下面将通过三个例子对上述实施方式进行说明。
例1、服务器通过该抗原预测模型的基因编码器,对该免疫细胞受体的α链的VJ信息和β链的VDJ信息进行全连接,得到该免疫细胞受体的基因特征,该免疫细胞受体的基因特征包括该免疫细胞受体的α链基因特征以及该免疫细胞受体的β链基因特征。
在一种可能的实施方式中,该抗原预测模型包括两个基因编码器,服务器通过该抗原预测模型的第一个基因编码器,将该T细胞受体的α链的VJ信息进行拼接,得到该T细胞受体的α链基因信息。服务器通过该抗原预测模型的第二个基因编码器,将该T细胞受体的α链的VDJ信息进行拼接,得到该T细胞受体的β链基因信息。服务器通过该抗原预测模型的第一个基因编码器,对该T细胞受体的α链基因信息进行两次全连接,得到该T细胞受体的α链基因特征。服务器通过该抗原预测模型的第二个基因编码器,对该T细胞受体的β链基因信息进行两次全连接,得到该T细胞受体的β链基因特征。该T细胞受体的α链基因特征和β链基因特征构成该T细胞受体的基因特征。
例2、服务器通过该抗原预测模型的基因编码器,对该免疫细胞受体的α链的VJ信息和β链的VDJ信息进行卷积,得到该免疫细胞受体的基因特征,该免疫细胞受体的基因特征包括该免疫细胞受体的α链基因特征以及该免疫细胞受体的β链基因特征。
在一种可能的实施方式中,该抗原预测模型包括两个基因编码器,服务器通过该抗原预测模型的第一个基因编码器,将该T细胞受体的α链的VJ信息进行拼接,得到该T细胞受体的α链基因信息。服务器通过该抗原预测模型的第二个基因编码器,将该T细胞受体的α链的VDJ信息进行拼接,得到该T细胞受体的β链基因信息。服务器通过该抗原预测模型的第一个基因编码器,对该T细胞受体的α链基因信息进行两次卷积,得到该T细胞受体的α链基因特征。服务器通过该抗原预测模型的第二个基因编码器,对该T细胞受体的β链基因信息进行两次卷积,得到该T细胞受体的β链基因特征。该T细胞受体的α链基因特征和β链基因特征构成该T细胞受体的基因特征。
例3、服务器通过该抗原预测模型的基因编码器,基于注意力机制对该免疫细胞受体的α链的VJ信息和β链的VDJ信息进行编码,得到该免疫细胞受体的基因特征,该免疫细胞受体的基因特征包括该免疫细胞受体的α链基因特征以及该免疫细胞受体的β链基因特征。
在一种可能的实施方式中,该抗原预测模型包括两个基因编码器,服务器通过该抗原预测模型的第一个基因编码器,将该T细胞受体的α链的VJ信息进行拼接,得到该T细胞受体的α链基因信息。服务器通过该抗原预测模型的第二个基因编码器,将该T细胞受体的α链的VDJ信息进行拼接,得到该T细胞受体的β链基因信息。服务器通过该抗原预测模型的第一个基因编码器,基于注意力机制对该T细胞受体的α链基因信息进行编码,得到该T细胞受体的α链基因特征。服务器通过该抗原预测模型的第二个基因编码器,基于注意力机制对该T细胞受体的β链基因信息进行编码,得到该T细胞受体的β链基因特征。该T细胞受体的α链基因特征和β链基因特征构成该T细胞受体的基因特征。
第二部分、服务器通过该抗原预测模型的序列编码器,对该免疫细胞受体的氨基酸序列进行编码,得到该免疫细胞受体的序列特征。
在一种可能的实施方式中,在该免疫细胞受体为B细胞受体的情况下,服务器通过该抗原预测模型的序列编码器,基于注意力机制对该免疫细胞受体的轻链的氨基酸序列以及重链的氨基酸序列进行编码,得到该免疫细胞受体的序列特征,该免疫细胞受体的序列特征包括该免疫细胞受体的轻链序列特征和重链序列特征。在一些实施例中,该序列编码器为Transformer模型的编码器。
举例来说,该抗原预测模型包括两个序列编码器,在该免疫细胞受体为B细胞受体的情况下,服务器通过该抗原预测模型的第一个序列编码器,对该B细胞受体的轻链的氨基酸序列进行嵌入编码,得到该B细胞受体的轻链嵌入特征,一个轻链嵌入特征对应于轻链上的一个氨基酸。服务器通过该第一个序列编码器,基于该B细胞受体的氨基酸序列中多个氨基酸的顺序,对多个轻链嵌入特征进行编码,得到各个轻链嵌入特征对应的注意力权重。服务器通过该第一个序列编码器,基于各个轻链嵌入特征对应的注意力权重,将多个轻链嵌入特征进行加权融合,得到该B细胞受体的轻链序列特征。服务器通过该抗原预测模型的第二个序列编码器,对该B细胞受体的重链的氨基酸序列进行嵌入编码,得到该B细胞受体的重链嵌入特征,一个重链嵌入特征对应于重链上的一个氨基酸。服务器通过该第二个序列编码器,基于该B细胞受体的氨基酸序列中多个氨基酸的顺序,对多个重链嵌入特征进行编码,得到各个重链嵌入特征对应的注意力权重。服务器通过该第二个序列编码器,基于各个重链嵌入特征对应的注意力权重,将多个重链嵌入特征进行加权融合,得到该B细胞受体的重链序列特征。该B细胞受体的轻链序列特征和该B细胞受体的重链序列特征构成该B细胞受体的序列特征。在一些实施例中,嵌入编码可以采用one-hot(热独)方式其他方式,本申请实施例对此不做限定。
在一种可能的实施方式中,在该免疫细胞受体为T细胞受体的情况下,服务器通过该抗原预测模型的序列编码器,基于注意力机制对该免疫细胞受体的α链的氨基酸序列以及β链的氨基酸序列进行编码,得到该免疫细胞受体的序列特征,该免疫细胞受体的序列特征包括该免疫细胞受体的α链序列特征和β链序列特征。
举例来说,该抗原预测模型包括两个序列编码器,在该免疫细胞受体为T细胞受体的情况下,服务器通过该抗原预测模型的第一个序列编码器,对该T细胞受体的α链的氨基酸序列进行嵌入编码,得到该T细胞受体的α链嵌入特征,一个α链嵌入特征对应于α链上的一个氨基酸。服务器通过该第一个序列编码器,基于该T细胞受体的氨基酸序列中多个氨基酸的顺序,对多个α链嵌入特征进行编码,得到各个α链嵌入特征对应的注意力权重。服务器通过该第一个序列编码器,基于各个α链嵌入特征对应的注意力权重,将多个α链嵌入特征进行加权融合,得到该T细胞受体的α链序列特征。服务器通过该抗原预测模型的第二个序列编码器,对该T细胞受体的β链的氨基酸序列进行嵌入编码,得到该T细胞受体的β链嵌入特征,一个β链嵌入特征对应于β链上的一个氨基酸。服务器通过该第二个序列编码器,基于该T细胞受体的氨基酸序列中多个氨基酸的顺序,对多个β链嵌入特征进行编码,得到各个β链嵌入特征对应的注意力权重。服务器通过该第二个序列编码器,基于各个β链嵌入特征对应的注意力权重,将多个β链嵌入特征进行加权融合,得到该T细胞受体的β链序列特征。该T细胞受体的轻链序列特征和该T细胞受体的重链序列特征构成该T细胞受体的序列特征。
304、服务器通过该抗原预测模型,将该免疫细胞受体的基因特征、序列特征以及三维结构特征进行融合,得到该免疫细胞受体的受体特征。
其中,该免疫细胞受体的受体特征是融合基因特征、序列特征以及三维结构特征得到的,也就能够从基因、序列以及结构三个方面表示该免疫细胞受体,该受体特征能够较为完整地表示该免疫细胞受体。
在一种可能的实施方式中,服务器通过该抗原预测模型的特征融合模块,将该免疫细胞受体的基因特征以及序列特征进行拼接,得到该免疫细胞受体的基因序列融合特征。服务器通过该抗原预测模型的特征融合模块,基于门控注意力机制,将该免疫细胞受体的基因序列融合特征和三维结构特征进行加权融合,得到该免疫细胞受体的受体特征。
在这种实施方式下,服务器能够通过特征融合模块先将该免疫细胞受体的基因特征以及序列特征进行融合,从而得到该免疫细胞受体的基因序列融合特征。服务器再利用门控注意力机制将基于序列融合特征和三维结构特征进行融合,最终得到该免疫细胞受体的受体特征,门控注意力机制的引入使得模型能够更加关注重要程度较高的内容。通过上述实施方式提供的特征融合方式,能够将基因特征、序列特征以及三维结构特征进行有机结合,得到的受体特征具有更强的表达能力。
在该免疫细胞受体为B细胞受体的情况下,该B细胞受体的基因特征包括该B细胞受体的轻链基因特征和重链基因特征,该B细胞受体的序列特征包括该B细胞受体的轻链序列特征和该B细胞受体的重链序列特征。服务器通过该特征融合模块,将该B细胞受体的轻链基因特征和该B细胞受体的轻链序列特征相加,得到该B细胞受体的轻链基因序列特征。服务器通过该特征融合模块,将该B细胞受体的重链基因特征和该B细胞受体的重链序列特征相加,得到该B细胞受体的重链基因序列特征。服务器通过该特征融合模块,将该B细胞受体的轻链基因序列特征和重链基因序列特征进行拼接,得到该B细胞受体的基因序列融合特征。服务器通过该特征融合模块,利用注意力机制对该B细胞受体的基因序列融合特征和三维结构特征进行编码,得到该基因序列融合特征对该三维结构特征进行编码的第一注意力权重以及该三维结构特征进行编码对该基因序列融合特征的第二注意力权重。服务器通过该特征融合模块,采用门控函数对该第一注意力权重和该第二注意力权重进行处理,得到第一门控权重和第二门控权重,该第一门控权重和第二门控权重用于控制特征融合时信息的流量。服务器通过该特征融合模块,利用第一门控权重将该B细胞受体的基因序列融合特征和三维结构特征进行加权融合,得到该B细胞受体的目标基因序列融合特征。在一些实施例中,也即是将该第一门控权重与该三维结构特征相乘后与该基因序列融合特征相加,得到该目标基因序列融合特征。服务器通过该特征融合模块,利用第二门控权重将该B细胞受体的基因序列融合特征和三维结构特征进行加权融合,得到该B细胞受体的目标三维结构特征。在一些实施例中,也即是将该第二门控权重与该基因序列融合特征相乘后与该三维结构特征相加,得到该目标三维结构特征。服务器通过该特征融合模块,将该目标基因序列融合特征与该目标三维结构特征进行张量融合,比如将该目标基因序列融合特征与该目标三维结构相乘,得到该B细胞受体的初始受体特征。服务器通过该特征融合模块,对该B细胞受体的初始受体特征进行至少两次全连接,得到该B细胞受体的受体特征。
在该免疫细胞受体为T细胞受体的情况下,该T细胞受体的基因特征包括该T细胞受体的α链基因特征和β链基因特征,该T细胞受体的序列特征包括该T细胞受体的α链序列特征和该T细胞受体的β链序列特征。服务器通过该特征融合模块,将该T细胞受体的α链基因特征和该T细胞受体的α链序列特征相加,得到该T细胞受体的α链基因序列特征。服务器通过该特征融合模块,将该T细胞受体的β链基因特征和该T细胞受体的β链序列特征相加,得到该T细胞受体的β链基因序列特征。服务器通过该特征融合模块,将该T细胞受体的α链基因序列特征和β链基因序列特征进行拼接,得到该T细胞受体的基因序列融合特征。服务器通过该特征融合模块,利用注意力机制对该T细胞受体的基因序列融合特征和三维结构特征进行编码,得到该基因序列融合特征对该三维结构特征进行编码的第三注意力权重以及该三维结构特征进行编码对该基因序列融合特征的第四注意力权重。服务器通过该特征融合模块,采用门控函数对该第三注意力权重和该第四注意力权重进行处理,得到第三门控权重和第四门控权重,该第三门控权重和第四门控权重用于控制特征融合时信息的流量。服务器通过该特征融合模块,利用第三门控权重将该T细胞受体的基因序列融合特征和三维结构特征进行加权融合,得到该T细胞受体的目标基因序列融合特征,在一些实施例中,也即是将该第三门控权重与该三维结构特征相乘后与该基因序列融合特征相加,得到该目标基因序列融合特征。服务器通过该特征融合模块,利用第四门控权重将该T细胞受体的基因序列融合特征和三维结构特征进行加权融合,得到该T细胞受体的目标三维结构特征,在一些实施例中,也即是将该第四门控权重与该基因序列融合特征相乘后与该三维结构特征相加,得到该目标三维结构特征。服务器通过该特征融合模块,将该目标基因序列融合特征与该目标三维结构特征进行张量融合,比如将该目标基因序列融合特征与该目标三维结构相乘,得到该T细胞受体的初始受体特征。服务器通过该特征融合莫阿奎,对该T细胞受体的初始受体特征进行至少两次全连接,得到该T细胞受体的受体特征。
在一种可能的实施方式中,服务器通过该抗原预测模型的特征融合模块,将该免疫细胞受体的基因特征以及序列特征相加,得到该免疫细胞受体的基因序列融合特征。服务器通过该特征融合模块,将该免疫细胞受体的基于序列特征和三维结构特征进行拼接和至少一次全连接,得到该免疫细胞受体的受体特征。
在这种实施方式下,服务器利用该特征融合模块,通过相加、拼接和全连接的方式就能够快速将该免疫细胞受体的基因特征、序列特征以及三维结构特征进行融合,从而得到该免疫细胞受体的受体特征,效率较高。
在该免疫细胞受体为B细胞受体的情况下,该B细胞受体的基因特征包括该B细胞受体的轻链基因特征和重链基因特征,该B细胞受体的序列特征包括该B细胞受体的轻链序列特征和该B细胞受体的重链序列特征。服务器通过该特征融合模块,将该B细胞受体的轻链基因特征和该B细胞受体的轻链序列特征相加,得到该B细胞受体的轻链基因序列特征。服务器通过该特征融合模块,将该B细胞受体的重链基因特征和该B细胞受体的重链序列特征相加,得到该B细胞受体的重链基因序列特征。该B细胞受体的轻链基因序列特征和重链基因序列特征构成该B细胞受体的基因序列融合特征。服务器通过该特征融合模块,将该B细胞受体的基因序列融合特征和三维结构特征进行拼接,得到该B细胞受体的初始受体特征。服务器通过该特征融合模块,对该B细胞受体的初始受体特征进行至少一次全连接,得到该B细胞受体的受体特征。
在该免疫细胞受体为T细胞受体的情况下,该T细胞受体的基因特征包括该T细胞受体的α链基因特征和β链基因特征,该T细胞受体的序列特征包括该T细胞受体的α链序列特征和该T细胞受体的β链序列特征。服务器通过该特征融合模块,将该T细胞受体的α链基因特征和该T细胞受体的α链序列特征相加,得到该T细胞受体的α链基因序列特征。服务器通过该特征融合模块,将该T细胞受体的β链基因特征和该T细胞受体的β链序列特征相加,得到该T细胞受体的β链基因序列特征。该T细胞受体的α链基因序列特征和β链基因序列特征构成该T细胞受体的基因序列融合特征。服务器通过该特征融合模块,将该T细胞受体的基因序列融合特征和三维结构特征进行拼接,得到该T细胞受体的初始受体特征。服务器通过该特征融合模块,对该T细胞受体的初始受体特征进行至少一次全连接,得到该T细胞受体的受体特征。
需要说明的是,上述是以服务器将该免疫细胞受体的基因特征、序列特征以及三维结构特征进行融合,从而得到该免疫细胞受体的受体特征为例进行说明的,在其他可能的实施方式中,除了融合该免疫细胞受体的基因特征、序列特征以及三维结构特征之外,服务器还能够融合其他信息来得到该免疫细胞受体的受体特征,参见下述实施方式。
在一种可能的实施方式中,服务器通过该抗原预测模型的特征融合模块,将该免疫细胞受体的基因特征、序列特征、三维结构特征以及该免疫细胞受体中氨基酸的物化信息进行融合,得到该免疫细胞受体的受体特征。
其中,该免疫细胞受体中氨基酸的物化信息包括氨基酸的物理特性和化学特性,其中,物理特性包括基本组成和结构、溶解性、熔点、沸点、光学行为和旋光性等。化学特性包括酸碱性和疏水性等。在该免疫细胞受体的受体特征中引入氨基酸的物化信息能够提高受体特征的表达能力,使得受体特征能够更加完整地表示该免疫细胞受体。
举例来说,服务器通过该特征融合模块,将该免疫细胞受体的基因特征以及序列特征进行拼接,得到该免疫细胞受体的基因序列融合特征。服务器通过该抗原预测模型的特征融合模块,基于门控注意力机制,将该免疫细胞受体的基因序列融合特征和三维结构特征进行加权融合,得到该免疫细胞受体的初始受体特征。服务器通过该特征融合模块,将该免疫细胞受体的初始受体特征和该免疫细胞受体中氨基酸的物化信息相加,得到该免疫细胞受体的受体特征。
305、服务器通过该抗原预测模型,对该免疫细胞受体的受体特征进行全连接和归一化,输出该免疫细胞受体对应于多个候选抗原的概率。
在一种可能的实施方式中,服务器通过该抗原预测模型的分类模块,对该免疫细胞受体的受体特征进行全连接,得到该免疫细胞受体的分类矩阵。服务器通过该分类模块,对该免疫细胞受体的分类矩阵进行归一化,得到该免疫细胞受体对应的概率集合,该概率集合包括多个概率,每个概率对应于一个候选抗原。其中,该分类模块也被称为分类头。
306、服务器基于该免疫细胞受体对应于多个候选抗原的概率,从该多个候选抗原中确定该目标抗原。
在一种可能的实施方式中,服务器通过该分类模型,将该概率集合中符合目标条件的概率对应的候选抗原确定为该目标抗原,该概率集合包括多个概率,每个概率对应于一个候选抗原。在一些实施例中,符合目标条件的概率是指该概率集合中最高的概率,或者是该概率集合中概率大于或等于概率阈值的概率,概率阈值由技术人员根据实际情况进行设置,本申请实施例对此不做限定。在一些实施例中,该分类模块包括一个多层感知机(Multilayer Perception,MLP)。
在这种实施方式下,服务器通过该抗原预测模型的分类模块基于该受体特征进行预测,最终能够得到该免疫细胞受体对应的目标抗原,无需进行反复实验,效率较高。
下面将结合图5对上述步骤301-306进行说明。
参见图5,服务器将免疫细胞受体的基因信息、序列信息以及三维结构信息输入抗原预测模型,该抗原预测模型包括基因编码器501、序列编码器502和结构编码器503。服务器通过该基因编码器501,对该免疫细胞受体的基因信息进行编码,得到该免疫细胞受体的基因特征。服务器通过该序列编码器502,对该免疫细胞受体的序列信息进行编码,得到该免疫细胞受体的序列特征。服务器通过该结构编码器503,对该免疫细胞受体的三维结构信息进行编码,得到该免疫细胞受体的三维结构特征。该抗原预测模型还包括特征融合模块504,服务器通过该特征融合模块504,将该免疫细胞受体的基因特征以及序列特征进行拼接,得到该免疫细胞受体的基因序列融合特征hbio。服务器通过该抗原预测模型的特征融合模块,基于门控注意力机制,将该免疫细胞受体的基因序列融合特征hbio和三维结构特征hstru进行加权融合,得到该免疫细胞受体目标基因序列融合特征h/ bio和目标三维结构特征h/ stru。服务器通过该特征融合模块504,将该目标基因序列融合特征h/ bio与该目标三维结构相乘h/ stru,得到该B细胞受体的初始受体特征hfusion。服务器通过该特征融合模块504,对该初始受体特征hfusion。进行两次全连接(FC1,FC2),得到该B细胞受体的受体特征Representation。该抗原预测模型还包括分类模块,服务器通过该抗原预测模型的分类模块,基于该免疫细胞受体的受体特征进行抗原预测,从多个候选抗原中确定与该免疫细胞受体对应的目标受体505。
需要说明的是,上述说明过程中是以服务器来执行上述步骤301-306为例进行的,在其他可能的实施方式中,上述步骤301-306也可以由终端执行,本申请实施例对此不做限定。
上述所有可选技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
图6示出了本申请实施例提供的抗原预测方法在公开数据集上进行测试的结果。
参见图6,本申请实施例提供的抗原预测方法提供的抗原预测模型在公开数据集上进行测试时的准确率,从图6中可以看出,本申请是实施例提供的抗原预测模型的准确率高于相关技术中的其他模型。
通过本申请实施例提供的技术方案,抗原预测模型对免疫细胞受体的基因信息以及序列进行特征提取,得到免疫细胞受体的基因特征以及序列特征。在获取免疫细胞受体的受体特征的过程中,融合了基因特征、序列特征以及三维结构特征。三维结构特征的引入丰富了受体特征的内容,提高了受体特征的表达能力,从而基于受体特征进行抗原预测时,得到的目标抗原的准确性较高。
为了对本申请实施例提供的抗原预测方法进行更加清楚地说明,下面对本申请实施例提供的抗原预测模型的训练方法进行说明,参见图7,以执行主体为服务器为例,方法包括下述步骤。
701、服务器将样本免疫细胞受体的基因信息、序列信息以及三维结构特征输入抗原预测模型。
步骤701与上述步骤302属于同一发明构思,实现过程参见上述步骤302的相关描述,在此不再赘述。
702、服务器通过该抗原预测模型,对该样本免疫细胞受体的基因信息以及序列信息进行特征提取,得到该样本免疫细胞受体的基因特征以及序列特征。
步骤702与上述步骤303属于同一发明构思,实现过程参见上述步骤303的相关描述,在此不再赘述。
703、服务器通过该抗原预测模型,将该样本免疫细胞受体的基因特征、序列特征以及三维结构特征进行融合,得到该样本免疫细胞受体的受体特征。
步骤703与上述步骤304属于同一发明构思,实现过程参见上述步骤304的相关描述,在此不再赘述。
704、服务器通过该抗原预测模型,通过该抗原预测模型,对该样本免疫细胞受体的受体特征进行全连接和归一化,输出该样本免疫细胞受体对应于多个候选预测抗原的概率。
步骤704与上述步骤305属于同一发明构思,实现过程参见上述步骤305的相关描述,在此不再赘述。
705、服务器基于该样本免疫细胞受体对应于多个样本候选抗原的概率,从该多个样本候选抗原中确定该样本免疫细胞受体对应的预测抗原。
步骤705与上述步骤306属于同一发明构思,实现过程参见上述步骤306的相关描述,在此不再赘述。
706、服务器基于该样本免疫细胞受体对应的预测抗原与标注抗原之间的差异信息,对该抗原预测模型进行训练。
在一种可能的实施方式中,服务器基于该免疫细胞受体对应的预测抗原与标注抗原之间的差异信息,构建交叉熵损失函数。服务器采用梯度下降法,利用该交叉熵损失函数对该抗原预测模型进行训练,也即是对该抗原预测模型的模型参数进行调整。
需要说明的是,上述步骤701-706是以服务器对该抗原预测模型进行一轮训练为例进行说明,对该抗原预测模型进行多轮训练的过程与上述步骤701-706属于同一发明构思,在此不再赘述。
图8是本申请实施例提供的一种抗原预测装置的结构示意图,参见图8,装置包括:输入单元801、特征提取单元802、特征融合单元803以及抗原预测单元804。
输入单元801,用于将免疫细胞受体的基因信息、序列信息以及三维结构特征输入抗原预测模型。
特征提取单元802,用于通过该抗原预测模型,对该免疫细胞受体的基因信息以及序列信息进行特征提取,得到该免疫细胞受体的基因特征以及序列特征。
特征融合单元803,用于通过该抗原预测模型,将该免疫细胞受体的基因特征、序列特征以及三维结构特征进行融合,得到该免疫细胞受体的受体特征。
抗原预测单元804,用于通过该抗原预测模型,对该免疫细胞受体的受体特征进行全连接和归一化,输出该免疫细胞受体对应于多个候选抗原的概率;基于该免疫细胞受体对应于多个候选抗原的概率,从该多个候选抗原中确定目标抗原,该目标抗原为能够与该免疫细胞受体特异性结合的抗原。
在一种可能的实施方式中,该特征提取单元802,用于通过该抗原预测模型的基因编码器,对该免疫细胞受体的VDJ信息进行编码,得到该免疫细胞受体的基因特征,其中,V为编码可变区,D为编码高变区,J为编码交联区。通过该抗原预测模型的序列编码器,对该免疫细胞受体的氨基酸序列进行编码,得到该免疫细胞受体的序列特征。
在一种可能的实施方式中,该特征提取单元802,用于执行下述任一项:
在该免疫细胞受体为B细胞受体的情况下,对该免疫细胞受体的轻链的VJ信息和重链的VDJ信息进行编码,得到该免疫细胞受体的基因特征。
在该免疫细胞受体为T细胞受体的情况下,对该免疫细胞受体的α链的VJ信息和β链的VDJ信息进行编码,得到该免疫细胞受体的基因特征。
在一种可能的实施方式中,该特征提取单元802,用于对该免疫细胞受体的轻链的VJ信息和重链的VDJ信息进行全连接,得到该免疫细胞受体的基因特征,该免疫细胞受体的基因特征包括该免疫细胞受体的轻链基因特征以及该免疫细胞受体的重链基因特征。该对该免疫细胞受体的α链的VJ信息和β链的VDJ信息进行编码,得到该免疫细胞受体的基因特征包括:对该免疫细胞受体的α链的VJ信息和β链的VDJ信息进行全连接,得到该免疫细胞受体的基因特征,该免疫细胞受体的基因特征包括该免疫细胞受体的α链基因特征以及该免疫细胞受体的β链基因特征。
在一种可能的实施方式中,该特征提取单元802,用于执行下述任一项:
在该免疫细胞受体为B细胞受体的情况下,通过该抗原预测模型的序列编码器,基于注意力机制对该免疫细胞受体的轻链的氨基酸序列以及重链的氨基酸序列进行编码,得到该免疫细胞受体的序列特征,该免疫细胞受体的序列特征包括该免疫细胞受体的轻链序列特征和重链序列特征。
在该免疫细胞受体为T细胞受体的情况下,通过该抗原预测模型的序列编码器,基于注意力机制对该免疫细胞受体的α链的氨基酸序列以及β链的氨基酸序列进行编码,得到该免疫细胞受体的序列特征,该免疫细胞受体的序列特征包括该免疫细胞受体的α链序列特征和β链序列特征。
在一种可能的实施方式中,该特征融合单元803,用于通过该抗原预测模型的特征融合模块,将该免疫细胞受体的基因特征以及序列特征进行拼接,得到该免疫细胞受体的基因序列融合特征。基于门控注意力机制,将该免疫细胞受体的基因序列融合特征和三维结构特征进行加权融合,得到该免疫细胞受体的受体特征。
在一种可能的实施方式中,该装置还包括:
三维结构特征获取单元,用于获取该免疫细胞受体的目标氨基酸序列,该目标氨基酸序列包括该免疫细胞受体的CDR3区域。对该免疫细胞受体的目标氨基酸序列进行多序列比对,得到至少一个参考氨基酸序列,该参考氨基酸序列与该目标氨基酸序列之间的相似度符合相似度条件。获取该目标氨基酸序列对应的同源模板,同源模板包括该目标氨基酸序列的同源序列的结构信息。基于该目标氨基酸序列、该至少一个参考氨基酸序列以及该同源模板进行多轮迭代,得到该免疫细胞受体的三维结构特征。
在一种可能的实施方式中,该装置还包括:
三维结构特征获取单元,用于获取该免疫细胞受体的三维结构信息,该三维结构信息包括该免疫细胞受体中多个氨基酸的三维坐标。
该三维结构特征获取单元用于执行下述任一项:
对该免疫细胞受体的三维结构信息进行图卷积,得到该免疫细胞受体的三维结构特征。
基于注意力机制对该免疫细胞受体的三维结构信息进行编码,得到该免疫细胞受体的三维结构特征。
在一种可能的实施方式中,该特征融合单元803,还用于通过该抗原预测模型,将该免疫细胞受体的基因特征、序列特征、三维结构特征以及该免疫细胞受体中氨基酸的物化信息进行融合,得到该免疫细胞受体的受体特征。
需要说明的是:上述实施例提供的抗原预测装置在预测抗原时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将计算机设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的抗原预测装置与抗原预测方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
通过本申请实施例提供的技术方案,抗原预测模型对免疫细胞受体的基因信息以及序列进行特征提取,得到免疫细胞受体的基因特征以及序列特征。在获取免疫细胞受体的受体特征的过程中,融合了基因特征、序列特征以及三维结构特征。三维结构特征的引入丰富了受体特征的内容,提高了受体特征的表达能力,从而基于受体特征进行抗原预测时,得到的目标抗原的准确性较高。
图9是本申请实施例提供的一种抗原预测模型的训练装置的结构示意图,参见图9,装置包括:训练信息输入单元901、训练特征提取单元902、训练特征融合单元903、预测抗原输出单元904以及训练单元905。
训练信息输入单元901,用于将样本免疫细胞受体的基因信息、序列信息以及三维结构特征输入抗原预测模型。
训练特征提取单元902,用于通过该抗原预测模型,对该样本免疫细胞受体的基因信息以及序列信息进行特征提取,得到该样本免疫细胞受体的基因特征以及序列特征。
训练特征融合单元903,用于通过该抗原预测模型,将该样本免疫细胞受体的基因特征、序列特征以及三维结构特征进行融合,得到该样本免疫细胞受体的受体特征。
预测抗原输出单元904,用于通过该抗原预测模型,对该样本免疫细胞受体的受体特征进行全连接和归一化,输出该样本免疫细胞受体对应于多个候选预测抗原的概率。基于该样本免疫细胞受体对应于多个样本候选抗原的概率,从该多个样本候选抗原中确定该样本免疫细胞受体对应的预测抗原。
训练单元905,用于基于该样本免疫细胞受体对应的预测抗原与标注抗原之间的差异信息,对该抗原预测模型进行训练。
需要说明的是:上述实施例提供的抗原预测模型的训练装置在训练抗原预测模型时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将计算机设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的抗原预测装置与抗原预测方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本申请实施例提供了一种计算机设备,用于执行上述方法,该计算机设备可以实现为终端或者服务器,下面先对终端的结构进行介绍:
图10是本申请实施例提供的一种终端的结构示意图。该终端1000可以是:智能手机、平板电脑、笔记本电脑或台式电脑。终端1000还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,终端1000包括有:一个或多个处理器1001和一个或多个存储器1002。
处理器1001可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器1001可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1001也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1001可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1001还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器1002可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器1002还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1002中的非暂态的计算机可读存储介质用于存储至少一个计算机程序,该至少一个计算机程序用于被处理器1001所执行以实现本申请中方法实施例提供的抗原预测方法或抗原预测模型的训练方法。
在一些实施例中,终端1000还可选包括有:外围设备接口1003和至少一个外围设备。处理器1001、存储器1002和外围设备接口1003之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1003相连。具体地,外围设备包括:射频电路1004、显示屏1005、摄像头组件1006、音频电路1007和电源1008中的至少一种。
外围设备接口1003可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器1001和存储器1002。在一些实施例中,处理器1001、存储器1002和外围设备接口1003被集成在同一芯片或电路板上;在一些其他实施例中,处理器1001、存储器1002和外围设备接口1003中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路1004用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路1004通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1004将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路1004包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。
显示屏1005用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1005是触摸显示屏时,显示屏1005还具有采集在显示屏1005的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1001进行处理。此时,显示屏1005还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。
摄像头组件1006用于采集图像或视频。可选地,摄像头组件1006包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。
音频电路1007可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器1001进行处理,或者输入至射频电路1004以实现语音通信。
电源1008用于为终端1000中的各个组件进行供电。电源1008可以是交流电、直流电、一次性电池或可充电电池。
在一些实施例中,终端1000还包括有一个或多个传感器1009。该一个或多个传感器1009包括但不限于:加速度传感器1010、陀螺仪传感器1011、压力传感器1012、光学传感器1013以及接近传感器1014。
加速度传感器1010可以检测以终端1000建立的坐标系的三个坐标轴上的加速度大小。
陀螺仪传感器1011可以终端1000的机体方向及转动角度,陀螺仪传感器1011可以与加速度传感器1010协同采集用户对终端1000的3D动作。
压力传感器1012可以设置在终端1000的侧边框和/或显示屏1005的下层。当压力传感器1012设置在终端1000的侧边框时,可以检测用户对终端1000的握持信号,由处理器1001根据压力传感器1012采集的握持信号进行左右手识别或快捷操作。当压力传感器1012设置在显示屏1005的下层时,由处理器1001根据用户对显示屏1005的压力操作,实现对UI界面上的可操作性控件进行控制。
光学传感器1013用于采集环境光强度。在一个实施例中,处理器1001可以根据光学传感器1013采集的环境光强度,控制显示屏1005的显示亮度。
接近传感器1014用于采集用户与终端1000的正面之间的距离。
本领域技术人员可以理解,图10中示出的结构并不构成对终端1000的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
上述计算机设备还可以实现为服务器,下面对服务器的结构进行介绍:
图11是本申请实施例提供的一种服务器的结构示意图,该服务器1100可因配置或性能不同而产生比较大的差异,可以包括一个或多个处理器(Central Processing Units,CPU)1101和一个或多个的存储器1102,其中,所述一个或多个存储器1102中存储有至少一条计算机程序,所述至少一条计算机程序由所述一个或多个处理器1101加载并执行以实现上述各个方法实施例提供的方法。当然,该服务器1100还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器1100还可以包括其他用于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括计算机程序的存储器,上述计算机程序可由处理器执行以完成上述实施例中的抗原预测方法或抗原预测模型的训练方法。例如,该计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、只读光盘(Compact Disc Read-OnlyMemory,CD-ROM)、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括程序代码,该程序代码存储在计算机可读存储介质中,计算机设备的处理器从计算机可读存储介质读取该程序代码,处理器执行该程序代码,使得该计算机设备执行上述抗原预测方法或抗原预测模型的训练方法。
在一些实施例中,本申请实施例所涉及的计算机程序可被部署在一个计算机设备上执行,或者在位于一个地点的多个计算机设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算机设备上执行,分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链系统。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
上述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (15)

1.一种抗原预测方法,其特征在于,所述方法包括:
将免疫细胞受体的基因信息、序列信息以及三维结构特征输入抗原预测模型;
通过所述抗原预测模型,对所述免疫细胞受体的基因信息以及序列信息进行特征提取,得到所述免疫细胞受体的基因特征以及序列特征;
通过所述抗原预测模型,将所述免疫细胞受体的基因特征、序列特征以及三维结构特征进行融合,得到所述免疫细胞受体的受体特征;
通过所述抗原预测模型,对所述免疫细胞受体的受体特征进行全连接和归一化,输出所述免疫细胞受体对应于多个候选抗原的概率;
基于所述免疫细胞受体对应于多个候选抗原的概率,从所述多个候选抗原中确定目标抗原,所述目标抗原为能够与所述免疫细胞受体特异性结合的抗原。
2.根据权利要求1所述的方法,其特征在于,所述通过所述抗原预测模型,对所述免疫细胞受体的基因信息以及序列信息进行特征提取,得到所述免疫细胞受体的基因特征以及序列特征包括:
通过所述抗原预测模型的基因编码器,对所述免疫细胞受体的VDJ信息进行编码,得到所述免疫细胞受体的基因特征,其中,V为编码可变区,D为编码高变区,J为编码交联区;
通过所述抗原预测模型的序列编码器,对所述免疫细胞受体的氨基酸序列进行编码,得到所述免疫细胞受体的序列特征。
3.根据权利要求2所述的方法,其特征在于,所述对所述免疫细胞受体的VDJ信息进行编码,得到所述免疫细胞受体的基因特征包括下述任一项:
在所述免疫细胞受体为B细胞受体的情况下,对所述免疫细胞受体的轻链的VJ信息和重链的VDJ信息进行编码,得到所述免疫细胞受体的基因特征;
在所述免疫细胞受体为T细胞受体的情况下,对所述免疫细胞受体的α链的VJ信息和β链的VDJ信息进行编码,得到所述免疫细胞受体的基因特征。
4.根据权利要求3所述的方法,其特征在于,所述对所述免疫细胞受体的轻链的VJ信息和重链的VDJ信息进行编码,得到所述免疫细胞受体的基因特征包括:
对所述免疫细胞受体的轻链的VJ信息和重链的VDJ信息进行全连接,得到所述免疫细胞受体的基因特征,所述免疫细胞受体的基因特征包括所述免疫细胞受体的轻链基因特征以及所述免疫细胞受体的重链基因特征;
所述对所述免疫细胞受体的α链的VJ信息和β链的VDJ信息进行编码,得到所述免疫细胞受体的基因特征包括:
对所述免疫细胞受体的α链的VJ信息和β链的VDJ信息进行全连接,得到所述免疫细胞受体的基因特征,所述免疫细胞受体的基因特征包括所述免疫细胞受体的α链基因特征以及所述免疫细胞受体的β链基因特征。
5.根据权利要求2所述的方法,其特征在于,所述通过所述抗原预测模型的序列编码器,对所述免疫细胞受体的氨基酸序列进行编码,得到所述免疫细胞受体的序列特征包括下述任一项:
在所述免疫细胞受体为B细胞受体的情况下,通过所述抗原预测模型的序列编码器,基于注意力机制对所述免疫细胞受体的轻链的氨基酸序列以及重链的氨基酸序列进行编码,得到所述免疫细胞受体的序列特征,所述免疫细胞受体的序列特征包括所述免疫细胞受体的轻链序列特征和重链序列特征;
在所述免疫细胞受体为T细胞受体的情况下,通过所述抗原预测模型的序列编码器,基于注意力机制对所述免疫细胞受体的α链的氨基酸序列以及β链的氨基酸序列进行编码,得到所述免疫细胞受体的序列特征,所述免疫细胞受体的序列特征包括所述免疫细胞受体的α链序列特征和β链序列特征。
6.根据权利要求1所述的方法,其特征在于,所述通过所述抗原预测模型,将所述免疫细胞受体的基因特征、序列特征以及三维结构特征进行融合,得到所述免疫细胞受体的受体特征包括:
通过所述抗原预测模型的特征融合模块,将所述免疫细胞受体的基因特征以及序列特征进行拼接,得到所述免疫细胞受体的基因序列融合特征;
基于门控注意力机制,将所述免疫细胞受体的基因序列融合特征和三维结构特征进行加权融合,得到所述免疫细胞受体的受体特征。
7.根据权利要求1所述的方法,其特征在于,所述将免疫细胞受体的基因信息、序列信息以及三维结构特征输入抗原预测模型之前,所述方法包括:
获取所述免疫细胞受体的目标氨基酸序列,所述目标氨基酸序列包括所述免疫细胞受体的CDR3区域;
对所述免疫细胞受体的目标氨基酸序列进行多序列比对,得到至少一个参考氨基酸序列,所述参考氨基酸序列与所述目标氨基酸序列之间的相似度符合相似度条件;
获取所述目标氨基酸序列对应的同源模板,同源模板包括所述目标氨基酸序列的同源序列的结构信息;
基于所述目标氨基酸序列、所述至少一个参考氨基酸序列以及所述同源模板进行多轮迭代,得到所述免疫细胞受体的三维结构特征。
8.根据权利要求1所述的方法,其特征在于,所述将免疫细胞受体的基因信息、序列信息以及三维结构特征输入抗原预测模型之前,所述方法包括:
获取所述免疫细胞受体的三维结构信息,所述三维结构信息包括所述免疫细胞受体中多个氨基酸的三维坐标;
所述方法还包括下述任一项:
对所述免疫细胞受体的三维结构信息进行图卷积,得到所述免疫细胞受体的三维结构特征;
基于注意力机制对所述免疫细胞受体的三维结构信息进行编码,得到所述免疫细胞受体的三维结构特征。
9.根据权利要求1所述的方法,其特征在于,所述通过所述抗原预测模型,对所述免疫细胞受体的基因信息以及序列信息进行特征提取,得到所述免疫细胞受体的基因特征以及序列特征之后,所述方法还包括:
通过所述抗原预测模型,将所述免疫细胞受体的基因特征、序列特征、三维结构特征以及所述免疫细胞受体中氨基酸的物化信息进行融合,得到所述免疫细胞受体的受体特征。
10.一种抗原预测模型的训练方法,其特征在于,所述方法包括:
将样本免疫细胞受体的基因信息、序列信息以及三维结构特征输入抗原预测模型;
通过所述抗原预测模型,对所述样本免疫细胞受体的基因信息以及序列信息进行特征提取,得到所述样本免疫细胞受体的基因特征以及序列特征;
通过所述抗原预测模型,将所述样本免疫细胞受体的基因特征、序列特征以及三维结构特征进行融合,得到所述样本免疫细胞受体的受体特征;
通过所述抗原预测模型,对所述样本免疫细胞受体的受体特征进行全连接和归一化,输出所述样本免疫细胞受体对应于多个候选预测抗原的概率;
基于所述样本免疫细胞受体对应于多个样本候选抗原的概率,从所述多个样本候选抗原中确定所述样本免疫细胞受体对应的预测抗原;
基于所述样本免疫细胞受体对应的预测抗原与标注抗原之间的差异信息,对所述抗原预测模型进行训练。
11.一种抗原预测装置,其特征在于,所述装置包括:
输入单元,用于将免疫细胞受体的基因信息、序列信息以及三维结构特征输入抗原预测模型;
特征提取单元,用于通过所述抗原预测模型,对所述免疫细胞受体的基因信息以及序列信息进行特征提取,得到所述免疫细胞受体的基因特征以及序列特征;
特征融合单元,用于通过所述抗原预测模型,将所述免疫细胞受体的基因特征、序列特征以及三维结构特征进行融合,得到所述免疫细胞受体的受体特征;
抗原预测单元,用于通过所述抗原预测模型,对所述免疫细胞受体的受体特征进行全连接和归一化,输出所述免疫细胞受体对应于多个候选抗原的概率;基于所述免疫细胞受体对应于多个候选抗原的概率,从所述多个候选抗原中确定目标抗原,所述目标抗原为能够与所述免疫细胞受体特异性结合的抗原。
12.一种抗原预测模型的训练装置,其特征在于,所述装置包括:
训练信息输入单元,用于将样本免疫细胞受体的基因信息、序列信息以及三维结构特征输入抗原预测模型;
训练特征提取单元,用于通过所述抗原预测模型,对所述样本免疫细胞受体的基因信息以及序列信息进行特征提取,得到所述样本免疫细胞受体的基因特征以及序列特征;
训练特征融合单元,用于通过所述抗原预测模型,将所述样本免疫细胞受体的基因特征、序列特征以及三维结构特征进行融合,得到所述样本免疫细胞受体的受体特征;
预测抗原输出单元,用于通过所述抗原预测模型,对所述样本免疫细胞受体的受体特征进行全连接和归一化,输出所述样本免疫细胞受体对应于多个候选预测抗原的概率;基于所述样本免疫细胞受体对应于多个样本候选抗原的概率,从所述多个样本候选抗原中确定所述样本免疫细胞受体对应的预测抗原;
训练单元,用于基于所述样本免疫细胞受体对应的预测抗原与标注抗原之间的差异信息,对所述抗原预测模型进行训练。
13.一种计算机设备,其特征在于,所述计算机设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条计算机程序,所述计算机程序由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求9任一项所述的抗原预测方法,或实现如权利要求10所述的抗原预测模型的训练方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条计算机程序,所述计算机程序由处理器加载并执行以实现如权利要求1至权利要求9任一项所述的抗原预测方法,或实现如权利要求10所述的抗原预测模型的训练方法。
15.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至权利要求9任一项所述的抗原预测方法,或实现如权利要求10所述的抗原预测模型的训练方法。
CN202210804792.2A 2022-07-08 2022-07-08 抗原预测方法、装置、设备以及存储介质 Pending CN115171787A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210804792.2A CN115171787A (zh) 2022-07-08 2022-07-08 抗原预测方法、装置、设备以及存储介质
PCT/CN2023/091052 WO2024007700A1 (zh) 2022-07-08 2023-04-27 抗原预测方法、装置、设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210804792.2A CN115171787A (zh) 2022-07-08 2022-07-08 抗原预测方法、装置、设备以及存储介质

Publications (1)

Publication Number Publication Date
CN115171787A true CN115171787A (zh) 2022-10-11

Family

ID=83492526

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210804792.2A Pending CN115171787A (zh) 2022-07-08 2022-07-08 抗原预测方法、装置、设备以及存储介质

Country Status (2)

Country Link
CN (1) CN115171787A (zh)
WO (1) WO2024007700A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116913383A (zh) * 2023-09-13 2023-10-20 鲁东大学 一种基于多模态的t细胞受体序列分类方法
WO2024007700A1 (zh) * 2022-07-08 2024-01-11 腾讯科技(深圳)有限公司 抗原预测方法、装置、设备以及存储介质
WO2024078246A1 (zh) * 2022-10-12 2024-04-18 腾讯科技(深圳)有限公司 抗原特异性确定方法、装置、电子设备、存储介质及计算机程序产品

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SI2618835T1 (sl) * 2010-09-20 2017-10-30 Biontech Cell & Gene Therapies Gmbh Antigen-specifični t celični receptorji in t celični epitopi
WO2014180490A1 (en) * 2013-05-10 2014-11-13 Biontech Ag Predicting immunogenicity of t cell epitopes
CN106047857B (zh) * 2016-06-01 2020-04-03 苏州金唯智生物科技有限公司 一种发掘特异性功能抗体的方法
JP6500144B1 (ja) * 2018-03-28 2019-04-10 Kotaiバイオテクノロジーズ株式会社 免疫実体の効率的クラスタリング
EP3917542A4 (en) * 2019-01-29 2023-03-08 Gritstone bio, Inc. MULTISPECIFIC BINDING PROTEINS
CN113727994A (zh) * 2019-05-02 2021-11-30 德克萨斯大学董事会 提高合成蛋白质稳定性的系统和方法
WO2020236839A2 (en) * 2019-05-19 2020-11-26 Just Biotherapeutics, Inc. Generation of protein sequences using machine learning techniques
CN114360644A (zh) * 2021-12-30 2022-04-15 山东师范大学 T细胞受体与抗原表位的结合预测方法及系统
CN114464247A (zh) * 2022-01-30 2022-05-10 腾讯科技(深圳)有限公司 基于抗原和抗体序列的结合亲和力预测方法和装置
CN115171787A (zh) * 2022-07-08 2022-10-11 腾讯科技(深圳)有限公司 抗原预测方法、装置、设备以及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024007700A1 (zh) * 2022-07-08 2024-01-11 腾讯科技(深圳)有限公司 抗原预测方法、装置、设备以及存储介质
WO2024078246A1 (zh) * 2022-10-12 2024-04-18 腾讯科技(深圳)有限公司 抗原特异性确定方法、装置、电子设备、存储介质及计算机程序产品
CN116913383A (zh) * 2023-09-13 2023-10-20 鲁东大学 一种基于多模态的t细胞受体序列分类方法
CN116913383B (zh) * 2023-09-13 2023-11-28 鲁东大学 一种基于多模态的t细胞受体序列分类方法

Also Published As

Publication number Publication date
WO2024007700A1 (zh) 2024-01-11

Similar Documents

Publication Publication Date Title
CN115171787A (zh) 抗原预测方法、装置、设备以及存储介质
CN111930992B (zh) 神经网络训练方法、装置及电子设备
CN115148277A (zh) 亲和力预测方法、装置、设备以及存储介质
CN111476783A (zh) 基于人工智能的图像处理方法、装置、设备及存储介质
CN112069309A (zh) 信息获取方法、装置、计算机设备及存储介质
CN115512005A (zh) 一种数据处理方法及其装置
CN111930964B (zh) 内容处理方法、装置、设备及存储介质
KR102131592B1 (ko) 딥러닝 기반 3차원 원형 예측 장치
CN115601485B (zh) 任务处理模型的数据处理方法及虚拟人物动画生成方法
WO2024083121A1 (zh) 一种数据处理方法及其装置
CN114495916B (zh) 背景音乐的插入时间点确定方法、装置、设备和存储介质
CN111709289A (zh) 一种用于提高人体解析效果的多任务深度学习模型
CN114693952A (zh) 一种基于多模态差异性融合网络的rgb-d显著性目标检测方法
CN116245086A (zh) 文本处理方法、模型训练方法和系统
CN115439927A (zh) 基于机器人的步态监测方法、装置、设备及存储介质
Sudhakaran et al. Gate-shift-fuse for video action recognition
CN114627353B (zh) 一种图像描述生成方法、装置、设备、介质及产品
CN115131291A (zh) 对象计数模型的训练方法、装置、设备以及存储介质
CN115171788A (zh) 状态预测方法、装置、设备以及存储介质
CN112820412B (zh) 用户信息的处理方法、装置、存储介质和电子设备
CN115035559A (zh) 人脸活体检测方法、装置、电子设备及计算机存储介质
CN111291640B (zh) 用于识别步态的方法和装置
CN115116437A (zh) 语音识别方法、装置、计算机设备、存储介质及产品
CN114328948A (zh) 文本标准化模型的训练方法、文本标准化方法及装置
CN113569886A (zh) 网络结构调整方法、装置和存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40075335

Country of ref document: HK