CN115171788A - 状态预测方法、装置、设备以及存储介质 - Google Patents

状态预测方法、装置、设备以及存储介质 Download PDF

Info

Publication number
CN115171788A
CN115171788A CN202210804793.7A CN202210804793A CN115171788A CN 115171788 A CN115171788 A CN 115171788A CN 202210804793 A CN202210804793 A CN 202210804793A CN 115171788 A CN115171788 A CN 115171788A
Authority
CN
China
Prior art keywords
immune cell
cell receptor
sequence
information
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210804793.7A
Other languages
English (en)
Inventor
赵宇
何冰
姚建华
许志梦
苏小娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202210804793.7A priority Critical patent/CN115171788A/zh
Publication of CN115171788A publication Critical patent/CN115171788A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Engineering & Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Chemical & Material Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Peptides Or Proteins (AREA)

Abstract

本申请公开了一种状态预测方法、装置、设备以及存储介质,属于计算机技术领域。通过本申请实施例提供的技术方案,状态预测模型对免疫细胞受体的基因信息以及序列进行特征提取,得到免疫细胞受体的基因特征以及序列特征。在获取免疫细胞受体的受体特征的过程中,融合了基因特征、序列特征以及三维结构特征。三维结构特征的引入丰富了受体特征的内容,提高了受体特征的表达能力,从而基于受体特征进行目标对象的状态预测时的准确性较高。

Description

状态预测方法、装置、设备以及存储介质
技术领域
本申请涉及计算机技术领域,特别涉及一种状态预测方法、装置、设备以及存储介质。
背景技术
人体免疫系统由先天性免疫和适应性免疫构成。适应性免疫系统由多种免疫细胞实现,免疫细胞可以对特定的病原体做出特异性的反应。免疫细胞受体是免疫细胞对抗原进行识别的区域,成功识别抗原可以激活免疫系统消灭病原体,对维护人体健康发挥重要作用。免疫组库是某个个体的循环系统内所有免疫细胞的总和,研究免疫库组与状态(比如疾病)的关系有助于探究肿瘤免疫机制、发现疾病治疗靶点、进行抗体开发和疫苗效用评估。基于此,亟需一种基于免疫组库预测个体状态的方法。
发明内容
本申请实施例提供了一种状态预测方法、装置、设备以及存储介质,可以基于免疫组库预测个体状态,所述技术方案如下:
一方面,提供了一种状态预测方法,所述方法包括:
将目标对象的免疫组库中多个免疫细胞受体的基因信息、序列信息以及三维结构特征输入状态预测模型;
通过所述状态预测模型,对所述多个免疫细胞受体的基因信息以及序列信息进行特征提取,得到各个所述免疫细胞受体的基因特征以及序列特征;
通过所述状态预测模型,将各个所述免疫细胞受体的基因特征、序列特征以及三维结构特征进行融合,得到各个所述免疫细胞受体的受体特征;
通过所述状态预测模型,基于各个所述免疫细胞受体的受体特征进行状态预测,输出所述目标对象的至少一个目标状态。
一方面,提供了一种状态预测模型的训练方法,所述方法包括:
将样本对象的免疫组库中多个免疫细胞受体的基因信息、序列信息以及三维结构特征输入状态预测模型;
通过所述状态预测模型,对所述多个免疫细胞受体的基因信息以及序列信息进行特征提取,得到各个所述免疫细胞受体的基因特征以及序列特征;
通过所述状态预测模型,将各个所述免疫细胞受体的基因特征、序列特征以及三维结构特征进行融合,得到各个所述免疫细胞受体的受体特征;
通过所述状态预测模型,基于各个所述免疫细胞受体的受体特征进行状态预测,输出所述样本对象的至少一个样本状态;
基于所述样本对象的至少一个样本状态与标注状态之间的差异信息,对所述状态预测模型进行训练。
一方面,提供了一种状态预测装置,所述装置包括:
输入单元,用于将目标对象的免疫组库中多个免疫细胞受体的基因信息、序列信息以及三维结构特征输入状态预测模型;
特征提取单元,用于通过所述状态预测模型,对所述多个免疫细胞受体的基因信息以及序列信息进行特征提取,得到各个所述免疫细胞受体的基因特征以及序列特征;
特征融合单元,用于通过所述状态预测模型,将各个所述免疫细胞受体的基因特征、序列特征以及三维结构特征进行融合,得到各个所述免疫细胞受体的受体特征;
状态预测单元,用于通过所述状态预测模型,基于各个所述免疫细胞受体的受体特征进行状态预测,输出所述目标对象的至少一个目标状态。
在一种可能的实施方式中,所述特征提取单元,用于对于所述多个免疫细胞受体中的任一免疫细胞受体,通过所述状态预测模型的基因编码器,对所述免疫细胞受体的VDJ信息进行编码,得到所述免疫细胞受体的基因特征,其中,V为编码可变区,D为编码高变区,J为编码交联区;通过所述状态预测模型的序列编码器,对所述免疫细胞受体的氨基酸序列进行编码,得到所述免疫细胞受体的序列特征。
在一种可能的实施方式中,所述特征提取单元,用于执行下述任一项:
在所述免疫细胞受体为B细胞受体的情况下,对所述免疫细胞受体的轻链的VJ信息和重链的VDJ信息进行编码,得到所述免疫细胞受体的基因特征;
在所述免疫细胞受体为T细胞受体的情况下,对所述免疫细胞受体的α链的VJ信息和β链的VDJ信息进行编码,得到所述免疫细胞受体的基因特征。
在一种可能的实施方式中,所述特征提取单元,用于对所述免疫细胞受体的轻链的VJ信息和重链的VDJ信息进行全连接,得到所述免疫细胞受体的基因特征,所述免疫细胞受体的基因特征包括所述免疫细胞受体的轻链基因特征以及所述免疫细胞受体的重链基因特征;所述对所述免疫细胞受体的α链的VJ信息和β链的VDJ信息进行编码,得到所述免疫细胞受体的基因特征包括:对所述免疫细胞受体的α链的VJ信息和β链的VDJ信息进行全连接,得到所述免疫细胞受体的基因特征,所述免疫细胞受体的基因特征包括所述免疫细胞受体的α链基因特征以及所述免疫细胞受体的β链基因特征。
在一种可能的实施方式中,所述特征提取单元,用于执行下述任一项:
在所述免疫细胞受体为B细胞受体的情况下,通过所述状态预测模型的序列编码器,基于注意力机制对所述免疫细胞受体的轻链的氨基酸序列以及重链的氨基酸序列进行编码,得到所述免疫细胞受体的序列特征,所述免疫细胞受体的序列特征包括所述免疫细胞受体的轻链序列特征和重链序列特征;
在所述免疫细胞受体为T细胞受体的情况下,通过所述状态预测模型的序列编码器,基于注意力机制对所述免疫细胞受体的α链的氨基酸序列以及β链的氨基酸序列进行编码,得到所述免疫细胞受体的序列特征,所述免疫细胞受体的序列特征包括所述免疫细胞受体的α链序列特征和β链序列特征。
在一种可能的实施方式中,所述特征融合单元,用于对于所述多个免疫细胞受体中的任一免疫细胞受体,通过所述状态预测模型的特征融合器,将所述免疫细胞受体的基因特征以及序列特征进行拼接,得到所述免疫细胞受体的基因序列融合特征;
基于门控注意力机制,将所述免疫细胞受体的基因序列融合特征和三维结构特征进行加权融合,得到所述免疫细胞受体的受体特征。
在一种可能的实施方式中,所述状态预测单元,用于通过所述状态预测模型的分类模块,对各个所述免疫细胞受体的受体特征进行全连接和归一化,输出各个所述免疫细胞受体对应于多个候选状态的概率;基于各个所述免疫细胞受体对应于多个候选状态的概率,确定所述目标对象的至少一个目标状态。
在一种可能的实施方式中,所述状态预测单元,用于基于各个所述免疫细胞受体对应于多个候选状态的概率,确定各个所述免疫细胞受体对应的参考候选状态,所述参考候选状态为所述多个候选状态中概率符合第一概率条件的候选状态;基于所述多个免疫细胞受体对应的参考候选状态,确定所述目标对象的至少一个目标状态。
在一种可能的实施方式中,所述状态预测单元,用于执行下述任一项:
对于所述多个免疫细胞受体对应的参考候选状态中的第一参考候选状态,在所述多个免疫细胞受体对应于所述第一参考候选状态的次数符合次数条件的情况下,将所述第一参考候选状态确定为所述目标对象的目标状态;
对于所述多个免疫细胞受体对应的参考候选状态中的第二参考候选状态,确定所述多个免疫细胞受体对应于所述第二参考候选状态的平均概率;在所述平均概率符合第二概率条件的情况下,将所述第二参考候选状态确定为所述目标对象的目标状态。
在一种可能的实施方式中,所述状态预测单元,用于执行下述任一项:
按照概率从大至少的顺序,对所述多个免疫细胞受体对应的参考候选状态进行排序;将前目标数量个参考候选状态确定为所述目标对象的目标状态;
将所述多个免疫细胞受体对应的参考候选状态以及参考候选状态对应的概率输入状态筛选模型;通过所述状态筛选模型对所述多个免疫细胞受体对应的参考候选状态以及参考候选状态对应的概率进行处理,输出所述至少一个目标状态。
在一种可能的实施方式中,所述装置还包括三维结构特征确定单元,用于对于所述多个免疫细胞受体中的任一免疫细胞受体,获取所述免疫细胞受体的CDR3区域的氨基酸序列;对所述免疫细胞受体的CDR3区域的氨基酸序列进行多序列比对,得到至少一个参考氨基酸序列,所述参考氨基酸序列与所述免疫细胞受体的CDR3区域的氨基酸序列之间的相似度符合相似度条件;获取所述免疫细胞受体的CDR3区域的氨基酸序列对应的同源模板,同源模板包括所述免疫细胞受体的CDR3区域的氨基酸序列的同源序列的结构信息;基于所述免疫细胞受体的CDR3区域的氨基酸序列、所述至少一个参考氨基酸序列以及所述同源模板进行多轮迭代,得到所述免疫细胞受体的三维结构特征。
在一种可能的实施方式中,所述装置还包括三维结构特征确定单元,用于对于所述多个免疫细胞受体中的任一免疫细胞受体,获取所述免疫细胞受体的三维结构信息,所述三维结构信息包括所述免疫细胞受体中多个氨基酸的三维坐标;
所述三维结构特征确定单元还用于执行下述任一项:
对所述免疫细胞受体的三维结构信息进行图卷积,得到所述免疫细胞受体的三维结构特征;
基于注意力机制对所述免疫细胞受体的三维结构信息进行编码,得到所述免疫细胞受体的三维结构特征。
在一种可能的实施方式中,所述特征融合单元还用于通过所述状态预测模型,将各个所述免疫细胞受体的基因特征、序列特征、三维结构特征以及各个所述免疫细胞受体中氨基酸的物化信息进行融合,得到各个所述免疫细胞受体的受体特征。
一方面,提供了一种状态预测模型的训练装置,所述装置包括:
训练信息输入单元,用于将样本对象的免疫组库中多个免疫细胞受体的基因信息、序列信息以及三维结构特征输入状态预测模型;
训练特征提取单元,用于通过所述状态预测模型,对所述多个免疫细胞受体的基因信息以及序列信息进行特征提取,得到各个所述免疫细胞受体的基因特征以及序列特征;
训练特征融合单元,用于通过所述状态预测模型,将各个所述免疫细胞受体的基因特征、序列特征以及三维结构特征进行融合,得到各个所述免疫细胞受体的受体特征;
样本状态输出单元,用于通过所述状态预测模型,基于各个所述免疫细胞受体的受体特征进行状态预测,输出所述样本对象的至少一个样本状态;
训练单元,用于基于所述样本对象的至少一个样本状态与标注状态之间的差异信息,对所述状态预测模型进行训练。
一方面,提供了一种计算机设备,所述计算机设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条计算机程序,所述计算机程序由所述一个或多个处理器加载并执行以实现所述状态预测方法或状态预测模型的训练方法。
一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条计算机程序,所述计算机程序由处理器加载并执行以实现所述状态预测方法或状态预测模型的训练方法。
一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括程序代码,该程序代码存储在计算机可读存储介质中,计算机设备的处理器从计算机可读存储介质读取该程序代码,处理器执行该程序代码,使得该计算机设备执行上述状态预测方法或状态预测模型的训练方法。
通过本申请实施例提供的技术方案,状态预测模型对免疫细胞受体的基因信息以及序列进行特征提取,得到免疫细胞受体的基因特征以及序列特征。在获取免疫细胞受体的受体特征的过程中,融合了基因特征、序列特征以及三维结构特征。三维结构特征的引入丰富了受体特征的内容,提高了受体特征的表达能力,从而基于受体特征进行目标对象的状态预测时的准确性较高。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种状态预测方法的实施环境的示意图;
图2是本申请实施例提供的一种状态预测方法的流程图;
图3是本申请实施例提供的另一种状态预测方法的流程图;
图4是本申请实施例提供的一种确定三维结构特征的流程图;
图5是本申请实施例提供的一种确定候选状态的概率的流程图;
图6是本申请实施例提供的又一种状态预测方法的流程图;
图7是本申请实施例提供的一种状态预测界面的示意图;
图8是本申请实施例提供的一种状态展示界面的示意图;
图9是本申请实施例提供的一种实验结果示意图;
图10是本申请实施例提供的另一种实验结果示意图;
图11是本申请实施例提供的一种状态预测模型的训练方法的流程图;
图12是本申请实施例提供的一种状态预测装置的结构示意图;
图13是本申请实施例提供的一种状态预测模型的训练装置的结构示意图;
图14是本申请实施例提供的一种终端的结构示意图;
图15是本申请实施例提供的一种服务器的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式做进一步地详细描述。
本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分,应理解,“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系,也不对数量和执行顺序进行限定。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识子模型使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
嵌入编码(Embedded Coding):嵌入编码在数学上表示一个对应关系,即通过一个函数F将X空间上的数据映射到Y空间上,其中该函数F是单射函数,映射的结果是结构保存,单射函数表示映射后的数据与映射前的数据唯一对应,结构保存表示映射前数据的大小关系后映射后数据的大小关系相同,例如映射前存在数据X1以及X2,映射后得到X1对应的Y1以及X2对应的Y2。若映射前的数据X1>X2,那么相应地,映射后的数据Y1大于Y2。对于词语来说,就是将词语映射到另外一个空间,便于后续的机器学习和处理。
注意力权重:可以表示训练或预测过程中某个数据的重要性,重要性表示输入的数据对输出数据影响的大小。重要性高的数据其对应的注意力权重的值较高,重要性低的数据其对应的注意力权重的值较低。在不同的场景下,数据的重要性并不相同,模型的训练注意力权重的过程也即是确定数据重要性的过程。
免疫组库:在任何指定时间,某个个体的循环系统中所有功能多样性的免疫细胞的总和。
免疫细胞:俗称白细胞,包括先天性淋巴细胞、各种吞噬细胞等和能识别抗原、产生特异性免疫应答的淋巴细胞等。
T细胞:全称为T淋巴细胞(T-lymphocyte),来源于骨髓的多能干细胞(胚胎期则来源于卵黄囊和肝)。在人体胚胎期和初生期,骨髓中的一部分多能干细胞或前T细胞迁移到胸腺内,在胸腺激素的诱导下分化成熟,成为具有免疫活性的T细胞。
TCR:T细胞抗原受体(T cell receptor,TCR)为所有T细胞表面的特征性标志,TCR的作用是识别抗原。
B细胞:全称为B淋巴细胞,来源于骨髓的多能干细胞。B淋巴细胞的祖细胞存在于胎肝(胚胎小鼠14天或通顺儿8-9周)的造血细胞岛中,此后B淋巴细胞的产生和分化场所逐渐被骨髓所代替。成熟的B细胞主要定居于淋巴结皮质浅层的淋巴小结和脾脏的红髓和白髓的淋巴小结内。B细胞在抗原刺激下可分化为浆细胞,浆细胞可合成和分泌抗体(免疫球蛋白),主要执行机体的体液免疫。
BCR:B细胞抗原受体(B-cell receptor,BCR)是一种位于B细胞表面的负责特异性识别及结合抗原的分子,其本质是一种膜表面免疫球蛋白。BCR具有抗原结合特异性。
抗原:泛指所有可以刺激机体产生特异免疫反应(体液免疫及细胞免疫)的物质。
云技术(Cloud Technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。
本申请实施例提供的技术方案还能够与云技术相结合,例如,将训练得到的状态预测模型部署在云端服务器。其中,云技术中的医疗云(Medical Cloud)是指在云计算、移动技术、多媒体、4G通信、大数据、以及物联网等新技术基础上,结合医疗技术,使用“云计算”来创建医疗健康服务云平台,实现了医疗资源的共享和医疗范围的扩大。
需要说明的是,本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号,均为经用户授权或者经过各方充分授权的,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如,本申请中涉及到的基因信息都是在充分授权的情况下获取的。
图1是本申请实施例提供的一种状态预测方法的实施环境示意图,参见图1,该实施环境中可以包括终端110和服务器140。
终端110通过无线网络或有线网络与服务器140相连。可选地,终端110是智能手机、平板电脑、笔记本电脑、台式计算机、智能手表等,但并不局限于此。终端110安装和运行有支持状态预测的应用程序。
服务器140是独立的物理服务器,或者是多个物理服务器构成的服务器集群或者分布式系统,或者是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
可选地,终端110泛指多个终端中的一个,本申请实施例仅以终端110来举例说明。
本领域技术人员可以知晓,上述终端的数量可以更多或更少。比如上述终端仅为一个,或者上述终端为几十个或几百个,或者更多数量,此时上述实施环境中还包括其他终端。本申请实施例对终端的数量和设备类型不加以限定。
在介绍完本申请实施例的实施环境之后,下面将结合上述实施环境对本申请实施例提供的技术方案进行说明,在下述说明过程中,终端也即是上述实施环境中的终端110,服务器也即是上述实施环境中的服务器140。
本申请实施例提供的状态预测方法能够应用在科学研究以及疾病预测等领域中,比如,应用在确定目标对象(人)的状态(疾病)的场景下。通过本申请实施例提供的技术方案,技术人员通过终端将目标对象的免疫组库中多个免疫细胞受体的基因信息、序列信息以及三维结构特征上传至服务器,由服务器通过训练完毕的状态预测模型对该多个免疫细胞受体的基因信息、序列信息以及三维结构特征进行处理,得到各个免疫细胞受体的受体特征,其中,各个免疫细胞受体的基因信息包括该免疫细胞受体的VDJ信息、序列信息为各个免疫细胞受体的氨基酸序列,三维结构特征用于表示各个免疫细胞受体的三维结构。服务器通过该状态预测模型,基于各个免疫细胞受体的受体特征进行状态预测,输出各个免疫细胞受体对应的状态,各个免疫细胞受体对应的状态也即是受体级别的预测。服务器通过该状态预测模型,基于多个免疫细胞受体对应的状态,确定目标对象的至少一个目标状态,该目标状态为个体级别的预测。在目标对象为人的情况下,该至少一个目标状态为该人可能患有的至少一种疾病,医生可以基于该状态预测模型的输出来制定相应的治疗方案。
在介绍完本申请实施例的实施环境和应用场景之后,下面对本申请实施例提供的状态预测方法进行说明。本申请实施例提供的技术方案可以由终端或服务器执行,也可以由终端和服务器共同执行,在下述说明过程中,以执行主体为服务器为例进行说明,参见图2,方法包括下述步骤。
201、服务器将目标对象的免疫组库中多个免疫细胞受体的基因信息、序列信息以及三维结构特征输入状态预测模型。
其中,目标对象为待进行状态预测的对象,免疫组库为该目标对象的循环系统中免疫细胞的总和,免疫细胞受体为T细胞受体或者B细胞受体。在一些实施例中,免疫细胞受体的基因信息包括免疫细胞受体的VDJ信息,其中,V为编码可变区,D为编码高变区,J为编码交联区。免疫细胞受体的序列信息为该免疫细胞受体的氨基酸序列。免疫细胞受体的三维结构特征是基于免疫细胞受体的三维结构确定的,其中,三维结构用于表示该免疫细胞受体中多个氨基酸的位置,三维结构特征能够从整体上反映该免疫细胞受体的三维结构。状态预测模型为基于样本对象的多个免疫细胞受体的基因信息、序列信息以及三维结构特征训练得到的模型,具有对象对应状态的功能。
202、服务器通过该状态预测模型,对该多个免疫细胞受体的基因信息以及序列信息进行特征提取,得到各个免疫细胞受体的基因特征以及序列特征。
其中,对各个免疫细胞受体的基因信息以及序列信息进行特征提取的过程,也即是对各个免疫细胞受体的基因信息以及序列信息进行抽象表达的过程,得到的基因特征以及序列特征既能够表示各个免疫细胞受体的基因信息以及序列信息,也便于服务器进行后续处理。
203、服务器通过该状态预测模型,将各个免疫细胞受体的基因特征、序列特征以及三维结构特征进行融合,得到各个免疫细胞受体的受体特征。
其中,各个免疫细胞受体的受体特征是融合基因特征、序列特征以及三维结构特征得到的,也就能够从基因、序列以及结构三个方面表示该免疫细胞受体,因此该受体特征的表达能力较强。
204、服务器通过该状态预测模型,基于各个免疫细胞受体的受体特征进行状态预测,输出该目标对象的至少一个目标状态。
其中,目标状态为该目标对象可能处于的状态,比如,在该目标对象为人的情况下,该目标状态为人可能患有的疾病。
通过本申请实施例提供的技术方案,状态预测模型对免疫细胞受体的基因信息以及序列进行特征提取,得到免疫细胞受体的基因特征以及序列特征。在获取免疫细胞受体的受体特征的过程中,融合了基因特征、序列特征以及三维结构特征。三维结构特征的引入丰富了受体特征的内容,提高了受体特征的表达能力,从而基于受体特征进行目标对象的状态预测时的准确性较高。
上述步骤201-204是对本申请实施例提供的状态预测方法的简单说明,下面将结合一些例子,对本申请实施例提供的状态预测方法进行进一步说明,参见图3,以执行主体为服务器为例,方法包括下述步骤。
301、服务器获取目标对象的免疫组库中多个免疫细胞受体的三维结构特征。
其中,免疫细胞受体为T细胞受体或者B细胞受体,免疫细胞受体用于识别抗原并与抗原特异性结合,从而激活免疫系统。免疫细胞受体为一种蛋白质,蛋白质包括多个氨基酸,免疫细胞受体的三维结构特征用于表示该免疫细胞受体的多个氨基酸在空间中的位置。
在一种可能的实施方式中,对于该多个免疫细胞受体中的任一免疫细胞受体,服务器获取该免疫细胞受体的目标氨基酸序列,该目标氨基酸序列包括该免疫细胞受体的CDR3区域。服务器对该免疫细胞受体的目标氨基酸序列进行多序列比对,得到至少一个参考氨基酸序列,该参考氨基酸序列与该目标氨基酸序列之间的相似度符合相似度条件。服务器获取该目标氨基酸序列对应的同源模板,同源模板包括该目标氨基酸序列的同源序列的结构信息。服务器基于该目标氨基酸序列、该至少一个参考氨基酸序列以及该同源模板进行多轮迭代,得到该免疫细胞受体的三维结构特征。
其中,免疫细胞受体上存在互补决定区(Complementary Determining Region,CDR),该互补决定区包括三个子区域CDR1、CDR2和CDR3,其中CDR3最高变,在抗原识别中起关键作用。
在这种实施方式下,服务器能够基于各个免疫细胞受体的目标氨基酸序列确定该免疫细胞受体的三维结构特征,无需通过冷冻电镜等其他设备来进行观察,提高了三维结构特征的获取效率,降低了三维结构特征的获取成本。
举例来说,对于该多个免疫细胞受体中的任一免疫细胞受体,服务器获取该免疫细胞受体的测序数据,该测序数据包括该免疫细胞受体的多个氨基酸以及该多个氨基酸的排列顺序,该测序数据是技术人员通过基因测序设备测试得到的,本申请实施例对此不做限定。服务器对该免疫细胞受体的测序数据进行预处理(Data Preprocessing),得到该免疫细胞受体的参考测序数据,其中,对该测序数据进行预处理包括消除该测序数据中的错误数据以及将该测序数据转换为便于服务器处理的格式等,预处理的规则由技术人员根据实际情况进行设置,本申请实施例对此不做限定。服务器对该参考测序数据进行质量控制(Quality Control),得到该免疫细胞受体的目标测序数据,其中,对该参考测序数据进行质量控制包括死细胞去除(Filtering out dead cells)、背景估计(Backgroundestimation)、链配对(Paired chains)、信号矫正(Dextramer Signal Correction)、Log-rank检验以及受体基因聚集等。服务器从该目标测序数据中截取目标长度的包含CDR3区域的氨基酸序列,该目标长度的包含CDR3区域的氨基酸序列也即是目标氨基酸序列,其中,目标长度由技术人员根据实际情况进行设置,比如设置为大于50个氨基酸等,本申请实施例对此不做限定。服务器基于该目标氨基酸序列在基因数据库中进行搜索,得到至少一个参考氨基酸序列,该至少一个参考氨基酸序列也即是与该目标氨基酸序列之间的相似度大于或等于相似度阈值的氨基酸序列,确定氨基酸序列之间的相似度是通过比较氨基酸序列中氨基酸的类型和排列顺序实现的,多序列比对也被称为多序列对齐,用于从一个大的数据库中抽取和输入氨基酸序列相近的序列,并且顺便进行对齐。由于序列类似的氨基酸序列一般来说折叠方式也类似,进行多序列比对能够在特征中加入相近的序列结构信息。服务器基于该目标氨基酸序列在结构数据库中进行搜索,得到该目标氨基酸序列对应的同源模板,同源模板包括该目标氨基酸序列的同源序列的结构信息。服务器基于注意力机制,对该目标氨基酸序列、该至少一个参考氨基酸序列以及该同源模板进行多轮迭代编码,得到该目标氨基酸序列中每对氨基酸之间的距离分布以及连接它们的化学键的角度。服务器利用注意力机制,对该目标氨基酸序列中每对氨基酸之间的距离分布以及连接它们的化学键的角度进行编码,输出该免疫细胞受体的三维结构信息,其中,该免疫细胞受体的三维结构信息包括该免疫细胞受体中多个氨基酸的三维位置。服务器对该免疫细胞受体的三维结构进行特征提取,比如采用图网络对该免疫细胞受体进行处理,得到该免疫细胞受体的三维结构特征。
为了对上述实施方式进行更加清楚地说明,下面将结合图4对上述实施方式进行说明。
参见图4,对于该多个免疫细胞受体中的任一免疫细胞受体,服务器对该免疫细胞受体的测序数据进行预处理401,得到该免疫细胞受体的参考测序数据。服务器对该参考测序数据进行质量控制402,得到该免疫细胞受体的目标测序数据,其中,质量控制402包括死细胞去除4021、背景估计4022、链配对4023、信号矫正4024、Log-rank检验4025以及受体基因聚集4026。服务器对该目标测序数据进行序列截取403,得到目标氨基酸序列。服务器基于目标氨基酸序列进行多序列比对404,得到至少一个参考氨基酸序列。服务器基于该目标氨基酸序列在结构数据库中进行搜索,得到该目标氨基酸序列对应的同源模板。服务器通过状态基于注意力机制,对该目标氨基酸序列、该至少一个参考氨基酸序列以及该同源模板进行多轮迭代编码405,得到该免疫细胞受体的三维结构信息。
上述实施方式是服务器基于该免疫细胞受体的目标氨基酸序列来确定该免疫细胞受体的三维结构特征的方法,在其他可能的实施方式中,服务器可以使用训练完毕的结构预测模型来基于氨基酸序列获取三维结构特征,其中,该结构预测模型包括RoseTTAFold、AlphaFold以及AlphaFold2等模型,当然,随着科学技术的发展,也可以采用其他结构预测模型,本申请实施例对此不做限定。
下面对服务器基于该免疫细胞受体的三维结构信息来获取该免疫细胞受体的三维结构特征的方法进行说明,其中,该三维结构信息包括该免疫细胞受体中多个氨基酸的三维位置。
在一种可能的实施方式中,对于该多个免疫细胞受体中的任一免疫细胞受体,服务器获取该免疫细胞受体的三维结构信息,该三维结构信息包括该免疫细胞受体中多个氨基酸的三维坐标。服务器对该免疫细胞受体的三维结构信息进行图卷积,得到该免疫细胞受体的三维结构特征。
其中,该三维结构信息为该免疫细胞受体的三维结构文件。在一些实施例中,该三维结构信息通过冷冻电镜拍摄的图像获得,或者通过结构预测模型基于该免疫细胞受体的氨基酸序列获得,本申请实施例对此不做限定。图卷积的全称是图卷积神经网络(GraphConvolutional Network,GCN),用于提取图(Graph)的特征,在本申请实施例中,图中的节点为该免疫细胞受体中的氨基酸,图中的连线用于表示氨基酸之间的相对位置关系。
在这种实施方式下,服务器直接对该免疫细胞受体的三维结构信息进行图卷积就能够得到该免疫细胞受体的三维结构特征,无需先确定该免疫细胞受体的三维结构信息,确定三维结构特征的效率较高。
举例来说,对于该多个免疫细胞受体中的任一免疫细胞受体,服务器获取该免疫细胞受体的三维结构信息。服务器基于该三维结构信息生成该免疫细胞受体的三维结构图,该三维结构图中的节点对应于该免疫细胞受体的氨基酸,该三维结构图中的连线用于表示氨基酸之间的连接关系,该三维结构图中节点的节点特征包括对应氨基酸的类型以及三维坐标。服务器对该三维结构图进行图卷积,得到该免疫细胞受体的三维结构特征。
在一种可能的实施方式中,对于该多个免疫细胞受体中的任一免疫细胞受体,服务器获取该免疫细胞受体的三维结构信息,该三维结构信息包括该免疫细胞受体中多个氨基酸的三维坐标。服务器基于注意力机制对该免疫细胞受体的三维结构信息进行编码,得到该免疫细胞受体的三维结构特征。
在这种实施方式下,服务器基于注意力机制直接对该免疫细胞受体的三维结构信息进行编码就能够得到该免疫细胞受体的三维结构特征,无需先确定该免疫细胞受体的三维结构信息,确定三维结构特征的效率较高。
举例来说,对于该多个免疫细胞受体中的任一免疫细胞受体服务器获取该免疫细胞受体的三维结构信息。服务器对该三维结构信息中的多个氨基酸进行嵌入编码,得到多个氨基酸嵌入特征,其中,对多个氨基酸进行嵌入编码的过程也即是将多个氨基酸通过离散化的形式进行表示,便于服务器后续的处理。服务器利用注意力机制,基于该三维结构信息对该多个氨基酸嵌入特征进行编码,得到多个氨基酸的注意力权重。服务器基于该多个氨基酸的注意力权重,将该多个氨基酸嵌入特征进行融合,得到该免疫细胞受体的三维结构特征。在一些实施例中,服务器能够采用Transformer模型的编码器来对该免疫细胞受体的三维结构信息进行编码,得到该免疫细胞受体的三维结构特征。
需要说明的是,上述两种实施方式是以服务器分别利用图卷积以及注意力机制对该免疫细胞受体的三维结构信息进行编码,得到三维结构特征为例进行说明的,在其他可能的实施方式中,服务器也能够采用其他模型对该免疫细胞受体的三维结构信息进行编码,本申请实施例对此不做限定。
需要说明的是,上述几个实施方式是以服务器对一个免疫细胞受体进行处理,得到该免疫细胞受体的三维结构特征为例进行说明的,对于该多个免疫细胞受体中的其他免疫细胞受体,服务器获取三维结构特征的方式与上述几个实施方式属于同一发明构思,实现过程不再赘述。
需要说明的是,上述步骤301是可选步骤。
302、服务器将目标对象的免疫组库中多个免疫细胞受体的基因信息、序列信息以及三维结构特征输入状态预测模型。
其中,免疫细胞受体的基因信息包括免疫细胞受体的VDJ信息,其中,V为编码可变区,D为编码高变区,J为编码交联区。免疫细胞受体的序列信息为该免疫细胞受体的氨基酸序列,比如,AEGAL为一个氨基酸序列,其中,A表示丙氨酸(Alanine),E表示谷氨酸(Glutamicacid),G表示甘氨酸(Glycine),L表示亮氨酸(Leucine),免疫细胞受体为一种蛋白质,氨基酸序列也被称为蛋白质的一维结构。
在一种可能的实施方式中,该状态预测模型包括三个信息编码通道,其中,第一个信息编码通道为基因信息编码通道,该基因信息编码通道包括基因编码器,该基因编码器用于对基因信息进行编码;第二个信息编码通道为序列信息编码通道,该序列信息编码通道包括序列编码器,该序列编码器用于对序列信息进行编码;第三个信息编码通道为结构特征编码通道,该结构特征编码通道包括结构编码器,该结构编码器用于对结构特征进行编码。服务器将该免疫细胞受体的基因信息输入该抗原预测模型的基因信息编码通道,后续通过基因信息编码通道中的基因编码器对该基因信息进行编码。服务器将该免疫细胞受体的序列信息输入该抗原预测模型的序列信息编码通道,后续通过该序列信息编码通道中的序列编码器对该序列信息进行编码。服务器将该免疫细胞受体的三维结构特征输入结构特征编码通道,后续通过该结构特征编码通道中的结构编码器对该三维结构特征进行编码。
在一些实施例中,对于该多个免疫细胞受体中的任一免疫细胞受体,在将该免疫细胞受体的序列信息输入该状态预测模型之前,服务器还能够对该免疫细胞受体的序列信息进行预处理,以保证输入到状态预测模型中的序列信息的长度均相同。在该免疫细胞受体的序列信息的长度大于长度阈值的情况下,服务器将该免疫细胞受体的序列信息中长度大于或等于长度阈值的部分截断,得到长度为该长度阈值的序列信息,后续将该截断后的序列信息输入状态预测模型。在该免疫细胞受体的序列信息的长度小于长度阈值的情况下,服务器在该免疫细胞受体的序列信息中填充目标符号,得到长度为该长度阈值的序列信息,后续将该截断后的序列信息输入状态预测模型,其中,该目标符号为技术人员根据实际情况进行设置,比如为0。
需要说明的是,上述步骤301-302是以服务器提前获取多个免疫细胞受体的三维结构特征为例进行说明的,在其他可能的实施方式中,服务器也可以提前获取多个免疫细胞受体的三维结构信息,将多个免疫细胞受体的三维结构信息输入该状态预测模型的结构特征编码通道,后续通过该结构特征编码通道的结构编码器来获取多个免疫细胞受体的三维结构特征,本申请实施例对此不做限定。
另外,上述步骤301-302是以服务器获取多个免疫细胞受体的三维结构特征,并将各个免疫细胞受体的基因信息、序列信息以及三维结构特征输入状态预测模型为例进行说明的,在其他可能的实施方式中,在服务器未获取到任一免疫细胞受体的三维结构特征的情况下,也可以只将该免疫细胞受体的基因信息以及序列信息输入该状态预测模型。
303、服务器通过该状态预测模型,对该多个免疫细胞受体的基因信息以及序列信息进行特征提取,得到各个免疫细胞受体的基因特征以及序列特征。
其中,对各个免疫细胞受体的基因信息以及序列信息进行特征提取的过程,也即是对各个免疫细胞受体的基因信息以及序列信息进行抽象表达的过程,得到的基因特征以及序列特征既能够表示各个免疫细胞受体的基因信息以及序列信息,也便于服务器进行后续处理。
在一种可能的实施方式中,该状态预测模型包括基因编码器和序列编码器。对于该多个免疫细胞受体中的任一免疫细胞受体,服务器通过该状态预测模型的基因编码器,对该免疫细胞受体的VDJ信息进行编码,得到该免疫细胞受体的基因特征,其中,V为编码可变区,D为编码高变区,J为编码交联区。服务器通过该状态预测模型的序列编码器,对该免疫细胞受体的氨基酸序列进行编码,得到该免疫细胞受体的序列特征。
在这种实施方式下,服务器能够通过该状态预测模型的基因编码器和序列编码器分别对该免疫细胞受体的基因信息和序列信息进行编码,也即是对该基因信息和序列信息进行特征提取,得到的基因特征和序列特征能够从不同维度上表示该免疫细胞受体。
为了对上述实施方式进行更加清楚地说明,下面将分为两个部分对上述实施方式进行说明。需要说明的是,在下述说明过程中,是以服务器对该多个免疫细胞受体中的任一免疫细胞受体进行处理为例进行说明的,对于该多个免疫细胞受体中的其他免疫细胞受体,处理方式与对该免疫细胞受体进行处理的方法属于同一发明构思。
第一部分、服务器通过该状态预测模型的基因编码器,对该免疫细胞受体的VDJ信息进行编码,得到该免疫细胞受体的基因特征。
在一种可能的实施方式中,在该免疫细胞受体为B细胞受体的情况下,服务器通过该状态预测模型的基因编码器,对该免疫细胞受体的轻链的VJ信息和重链的VDJ信息进行编码,得到该免疫细胞受体的基因特征。
其中,B细胞受体包括两条相同的重链(Heavy Chain,H链)和两条相同的轻链(Light Chain,L链),两条重链和两条轻链通过链间二硫键连接而成四肽链结构。重链的分子量约为50~75kD,由450~550个氨基酸残基组成。轻链的分子量约25kD,由214个氨基酸残基构成。
为了对上述实施方式进行更加清楚地说明,下面将通过三个例子对上述实施方式进行说明。
例1、服务器通过该状态预测模型的基因编码器,对该免疫细胞受体的轻链的VJ信息和重链的VDJ信息进行全连接,得到该免疫细胞受体的基因特征,该免疫细胞受体的基因特征包括该免疫细胞受体的轻链基因特征以及该免疫细胞受体的重链基因特征。
在一种可能的实施方式中,该状态预测模型包括两个基因编码器,服务器通过该状态预测模型的第一个基因编码器,将该B细胞受体的轻链的VJ信息进行拼接,得到该B细胞受体的轻链基因信息。服务器通过该状态预测模型的第二个基因编码器,将该B细胞受体的轻链的VDJ信息进行拼接,得到该B细胞受体的重链基因信息。服务器通过该状态预测模型的第一个基因编码器,对该B细胞受体的轻链基因信息进行两次全连接,得到该B细胞受体的轻链基因特征。服务器通过该状态预测模型的第二个基因编码器,对该B细胞受体的重链基因信息进行两次全连接,得到该B细胞受体的重链基因特征。该B细胞受体的轻链基因特征和重链基因特征构成该B细胞受体的基因特征。
例2、服务器通过该状态预测模型的基因编码器,对该免疫细胞受体的轻链的VJ信息和重链的VDJ信息进行卷积,得到该免疫细胞受体的基因特征,该免疫细胞受体的基因特征包括该免疫细胞受体的轻链基因特征以及该免疫细胞受体的重链基因特征。
在一种可能的实施方式中,该状态预测模型包括两个基因编码器,服务器通过该状态预测模型的第一个基因编码器,将该B细胞受体的轻链的VJ信息进行拼接,得到该B细胞受体的轻链基因信息。服务器通过该状态预测模型的第二个基因编码器,将该B细胞受体的轻链的VDJ信息进行拼接,得到该B细胞受体的重链基因信息。服务器通过该状态预测模型的第一个基因编码器,对该B细胞受体的轻链基因信息进行两次卷积,得到该B细胞受体的轻链基因特征。服务器通过该状态预测模型的第二个基因编码器,对该B细胞受体的重链基因信息进行两次卷积,得到该B细胞受体的重链基因特征。该B细胞受体的轻链基因特征和重链基因特征构成该B细胞受体的基因特征。
例3、服务器通过该状态预测模型的基因编码器,基于注意力机制对该免疫细胞受体的轻链的VJ信息和重链的VDJ信息进行编码,得到该免疫细胞受体的基因特征,该免疫细胞受体的基因特征包括该免疫细胞受体的轻链基因特征以及该免疫细胞受体的重链基因特征。
在一种可能的实施方式中,该状态预测模型包括两个基因编码器,服务器通过该状态预测模型的第一个基因编码器,将该B细胞受体的轻链的VJ信息进行拼接,得到该B细胞受体的轻链基因信息。服务器通过该状态预测模型的第二个基因编码器,将该B细胞受体的轻链的VDJ信息进行拼接,得到该B细胞受体的重链基因信息。服务器通过该状态预测模型的第一个基因编码器,基于注意力机制对该B细胞受体的轻链基因信息进行编码,得到该B细胞受体的轻链基因特征。服务器通过该状态预测模型的第二个基因编码器,基于注意力机制对该B细胞受体的重链基因信息进行编码,得到该B细胞受体的重链基因特征。该B细胞受体的轻链基因特征和重链基因特征构成该B细胞受体的基因特征。
上述是以该免疫细胞受体为B细胞受体为例进行说明的,下面以该免疫细胞受体为T细胞受体为例进行说明。
在一种可能的实施方式中,在该免疫细胞受体为T细胞受体的情况下,服务器通过该状态预测模型的基因编码器,对该免疫细胞受体的α链的VJ信息和β链的VDJ信息进行编码,得到该免疫细胞受体的基因特征。
其中,一些T细胞受体包括α链和β链,这种T细胞受体也被称为αβ-TCR。另一些T细胞受体包括γ链和δ链,这种T细胞受体也被称为γδ-TCR。由于人体中αβ-TCR的数量远远多于γδ-TCR的数量,在下述说明过程中以T细胞受体为αβ-TCR为例进行说明。对于γδ-TCR,其结构与αβ-TCR类似均是双链结构,处理方式属于同一发明构思,实现过程参见下述描述。
为了对上述实施方式进行更加清楚地说明,下面将通过三个例子对上述实施方式进行说明。
例1、服务器通过该状态预测模型的基因编码器,对该免疫细胞受体的α链的VJ信息和β链的VDJ信息进行全连接,得到该免疫细胞受体的基因特征,该免疫细胞受体的基因特征包括该免疫细胞受体的α链基因特征以及该免疫细胞受体的β链基因特征。
在一种可能的实施方式中,该状态预测模型包括两个基因编码器,服务器通过该状态预测模型的第一个基因编码器,将该T细胞受体的α链的VJ信息进行拼接,得到该T细胞受体的α链基因信息。服务器通过该状态预测模型的第二个基因编码器,将该T细胞受体的α链的VDJ信息进行拼接,得到该T细胞受体的β链基因信息。服务器通过该状态预测模型的第一个基因编码器,对该T细胞受体的α链基因信息进行两次全连接,得到该T细胞受体的α链基因特征。服务器通过该状态预测模型的第二个基因编码器,对该T细胞受体的β链基因信息进行两次全连接,得到该T细胞受体的β链基因特征。该T细胞受体的α链基因特征和β链基因特征构成该T细胞受体的基因特征。
例2、服务器通过该状态预测模型的基因编码器,对该免疫细胞受体的α链的VJ信息和β链的VDJ信息进行卷积,得到该免疫细胞受体的基因特征,该免疫细胞受体的基因特征包括该免疫细胞受体的α链基因特征以及该免疫细胞受体的β链基因特征。
在一种可能的实施方式中,该状态预测模型包括两个基因编码器,服务器通过该状态预测模型的第一个基因编码器,将该T细胞受体的α链的VJ信息进行拼接,得到该T细胞受体的α链基因信息。服务器通过该状态预测模型的第二个基因编码器,将该T细胞受体的α链的VDJ信息进行拼接,得到该T细胞受体的β链基因信息。服务器通过该状态预测模型的第一个基因编码器,对该T细胞受体的α链基因信息进行两次卷积,得到该T细胞受体的α链基因特征。服务器通过该状态预测模型的第二个基因编码器,对该T细胞受体的β链基因信息进行两次卷积,得到该T细胞受体的β链基因特征。该T细胞受体的α链基因特征和β链基因特征构成该T细胞受体的基因特征。
例3、服务器通过该状态预测模型的基因编码器,基于注意力机制对该免疫细胞受体的α链的VJ信息和β链的VDJ信息进行编码,得到该免疫细胞受体的基因特征,该免疫细胞受体的基因特征包括该免疫细胞受体的α链基因特征以及该免疫细胞受体的β链基因特征。
在一种可能的实施方式中,该状态预测模型包括两个基因编码器,服务器通过该状态预测模型的第一个基因编码器,将该T细胞受体的α链的VJ信息进行拼接,得到该T细胞受体的α链基因信息。服务器通过该状态预测模型的第二个基因编码器,将该T细胞受体的α链的VDJ信息进行拼接,得到该T细胞受体的β链基因信息。服务器通过该状态预测模型的第一个基因编码器,基于注意力机制对该T细胞受体的α链基因信息进行编码,得到该T细胞受体的α链基因特征。服务器通过该状态预测模型的第二个基因编码器,基于注意力机制对该T细胞受体的β链基因信息进行编码,得到该T细胞受体的β链基因特征。该T细胞受体的α链基因特征和β链基因特征构成该T细胞受体的基因特征。
第二部分、服务器通过该状态预测模型的序列编码器,对该免疫细胞受体的氨基酸序列进行编码,得到该免疫细胞受体的序列特征。
在一种可能的实施方式中,在该免疫细胞受体为B细胞受体的情况下,服务器通过该状态预测模型的序列编码器,基于注意力机制对该免疫细胞受体的轻链的氨基酸序列以及重链的氨基酸序列进行编码,得到该免疫细胞受体的序列特征,该免疫细胞受体的序列特征包括该免疫细胞受体的轻链序列特征和重链序列特征。在一些实施例中,该序列编码器为Transformer模型的编码器。
举例来说,该状态预测模型包括两个序列编码器,在该免疫细胞受体为B细胞受体的情况下,服务器通过该状态预测模型的第一个序列编码器,对该B细胞受体的轻链的氨基酸序列进行嵌入编码,得到该B细胞受体的轻链嵌入特征,一个轻链嵌入特征对应于轻链上的一个氨基酸。服务器通过该第一个序列编码器,基于该B细胞受体的氨基酸序列中多个氨基酸的顺序,对多个轻链嵌入特征进行编码,得到各个轻链嵌入特征对应的注意力权重。服务器通过该第一个序列编码器,基于各个轻链嵌入特征对应的注意力权重,将多个轻链嵌入特征进行加权融合,得到该B细胞受体的轻链序列特征。服务器通过该状态预测模型的第二个序列编码器,对该B细胞受体的重链的氨基酸序列进行嵌入编码,得到该B细胞受体的重链嵌入特征,一个重链嵌入特征对应于重链上的一个氨基酸。服务器通过该第二个序列编码器,基于该B细胞受体的氨基酸序列中多个氨基酸的顺序,对多个重链嵌入特征进行编码,得到各个重链嵌入特征对应的注意力权重。服务器通过该第二个序列编码器,基于各个重链嵌入特征对应的注意力权重,将多个重链嵌入特征进行加权融合,得到该B细胞受体的重链序列特征。该B细胞受体的轻链序列特征和该B细胞受体的重链序列特征构成该B细胞受体的序列特征。在一些实施例中,嵌入编码可以采用one-hot(热独)方式其他方式,本申请实施例对此不做限定。
在一种可能的实施方式中,在该免疫细胞受体为T细胞受体的情况下,服务器通过该状态预测模型的序列编码器,基于注意力机制对该免疫细胞受体的α链的氨基酸序列以及β链的氨基酸序列进行编码,得到该免疫细胞受体的序列特征,该免疫细胞受体的序列特征包括该免疫细胞受体的α链序列特征和β链序列特征。
举例来说,该状态预测模型包括两个序列编码器,在该免疫细胞受体为T细胞受体的情况下,服务器通过该状态预测模型的第一个序列编码器,对该T细胞受体的α链的氨基酸序列进行嵌入编码,得到该T细胞受体的α链嵌入特征,一个α链嵌入特征对应于α链上的一个氨基酸。服务器通过该第一个序列编码器,基于该T细胞受体的氨基酸序列中多个氨基酸的顺序,对多个α链嵌入特征进行编码,得到各个α链嵌入特征对应的注意力权重。服务器通过该第一个序列编码器,基于各个α链嵌入特征对应的注意力权重,将多个α链嵌入特征进行加权融合,得到该T细胞受体的α链序列特征。服务器通过该状态预测模型的第二个序列编码器,对该T细胞受体的β链的氨基酸序列进行嵌入编码,得到该T细胞受体的β链嵌入特征,一个β链嵌入特征对应于β链上的一个氨基酸。服务器通过该第二个序列编码器,基于该T细胞受体的氨基酸序列中多个氨基酸的顺序,对多个β链嵌入特征进行编码,得到各个β链嵌入特征对应的注意力权重。服务器通过该第二个序列编码器,基于各个β链嵌入特征对应的注意力权重,将多个β链嵌入特征进行加权融合,得到该T细胞受体的β链序列特征。该T细胞受体的轻链序列特征和该T细胞受体的重链序列特征构成该T细胞受体的序列特征。
304、服务器通过该状态预测模型,将各个免疫细胞受体的基因特征、序列特征以及三维结构特征进行融合,得到各个免疫细胞受体的受体特征。
其中,该免疫细胞受体的受体特征是融合基因特征、序列特征以及三维结构特征得到的,也就能够从基因、序列以及结构三个方面表示该免疫细胞受体,该受体特征能够较为完整地表示该免疫细胞受体。
在一种可能的实施方式中,对于该多个免疫细胞受体中的任一免疫细胞受体,服务器通过该状态预测模型的特征融合模块,将该免疫细胞受体的基因特征以及序列特征进行拼接,得到该免疫细胞受体的基因序列融合特征。服务器通过该状态预测模型的特征融合模块,基于门控注意力机制,将该免疫细胞受体的基因序列融合特征和三维结构特征进行加权融合,得到该免疫细胞受体的受体特征。需要说明的是,在下述说明过程中,是以服务器对该多个免疫细胞受体中的任一免疫细胞受体进行处理为例进行说明的,对于该多个免疫细胞受体中的其他免疫细胞受体,处理方式与对该免疫细胞受体进行处理的方法属于同一发明构思。
在这种实施方式下,服务器能够通过特征融合模块先将该免疫细胞受体的基因特征以及序列特征进行融合,从而得到该免疫细胞受体的基因序列融合特征。服务器再利用门控注意力机制将基于序列融合特征和三维结构特征进行融合,最终得到该免疫细胞受体的受体特征,门控注意力机制的引入使得模型能够更加关注重要程度较高的内容。通过上述实施方式提供的特征融合方式,能够将基因特征、序列特征以及三维结构特征进行有机结合,得到的受体特征具有更强的表达能力。
在该免疫细胞受体为B细胞受体的情况下,该B细胞受体的基因特征包括该B细胞受体的轻链基因特征和重链基因特征,该B细胞受体的序列特征包括该B细胞受体的轻链序列特征和该B细胞受体的重链序列特征。服务器通过该特征融合模块,将该B细胞受体的轻链基因特征和该B细胞受体的轻链序列特征相加,得到该B细胞受体的轻链基因序列特征。服务器通过该特征融合模块,将该B细胞受体的重链基因特征和该B细胞受体的重链序列特征相加,得到该B细胞受体的重链基因序列特征。服务器通过该特征融合模块,将该B细胞受体的轻链基因序列特征和重链基因序列特征进行拼接,得到该B细胞受体的基因序列融合特征。服务器通过该特征融合模块,利用注意力机制对该B细胞受体的基因序列融合特征和三维结构特征进行编码,得到该基因序列融合特征对该三维结构特征进行编码的第一注意力权重以及该三维结构特征进行编码对该基因序列融合特征的第二注意力权重。服务器通过该特征融合模块,采用门控函数对该第一注意力权重和该第二注意力权重进行处理,得到第一门控权重和第二门控权重,该第一门控权重和第二门控权重用于控制特征融合时信息的流量。服务器通过该特征融合模块,利用第一门控权重将该B细胞受体的基因序列融合特征和三维结构特征进行加权融合,得到该B细胞受体的目标基因序列融合特征。在一些实施例中,也即是将该第一门控权重与该三维结构特征相乘后与该基因序列融合特征相加,得到该目标基因序列融合特征。服务器通过该特征融合模块,利用第二门控权重将该B细胞受体的基因序列融合特征和三维结构特征进行加权融合,得到该B细胞受体的目标三维结构特征。在一些实施例中,也即是将该第二门控权重与该基因序列融合特征相乘后与该三维结构特征相加,得到该目标三维结构特征。服务器通过该特征融合模块,将该目标基因序列融合特征与该目标三维结构特征进行张量融合,比如将该目标基因序列融合特征与该目标三维结构相乘,得到该B细胞受体的初始受体特征。服务器通过该特征融合模块,对该B细胞受体的初始受体特征进行至少两次全连接,得到该B细胞受体的受体特征。
在该免疫细胞受体为T细胞受体的情况下,该T细胞受体的基因特征包括该T细胞受体的α链基因特征和β链基因特征,该T细胞受体的序列特征包括该T细胞受体的α链序列特征和该T细胞受体的β链序列特征。服务器通过该特征融合模块,将该T细胞受体的α链基因特征和该T细胞受体的α链序列特征相加,得到该T细胞受体的α链基因序列特征。服务器通过该特征融合模块,将该T细胞受体的β链基因特征和该T细胞受体的β链序列特征相加,得到该T细胞受体的β链基因序列特征。服务器通过该特征融合模块,将该T细胞受体的α链基因序列特征和β链基因序列特征进行拼接,得到该T细胞受体的基因序列融合特征。服务器通过该特征融合模块,利用注意力机制对该T细胞受体的基因序列融合特征和三维结构特征进行编码,得到该基因序列融合特征对该三维结构特征进行编码的第三注意力权重以及该三维结构特征进行编码对该基因序列融合特征的第四注意力权重。服务器通过该特征融合模块,采用门控函数对该第三注意力权重和该第四注意力权重进行处理,得到第三门控权重和第四门控权重,该第三门控权重和第四门控权重用于控制特征融合时信息的流量。服务器通过该特征融合模块,利用第三门控权重将该T细胞受体的基因序列融合特征和三维结构特征进行加权融合,得到该T细胞受体的目标基因序列融合特征,在一些实施例中,也即是将该第三门控权重与该三维结构特征相乘后与该基因序列融合特征相加,得到该目标基因序列融合特征。服务器通过该特征融合模块,利用第四门控权重将该T细胞受体的基因序列融合特征和三维结构特征进行加权融合,得到该T细胞受体的目标三维结构特征,在一些实施例中,也即是将该第四门控权重与该基因序列融合特征相乘后与该三维结构特征相加,得到该目标三维结构特征。服务器通过该特征融合模块,将该目标基因序列融合特征与该目标三维结构特征进行张量融合,比如将该目标基因序列融合特征与该目标三维结构相乘,得到该T细胞受体的初始受体特征。服务器通过该特征融合莫阿奎,对该T细胞受体的初始受体特征进行至少两次全连接,得到该T细胞受体的受体特征。
在一种可能的实施方式中,服务器通过该状态预测模型的特征融合模块,将该免疫细胞受体的基因特征以及序列特征相加,得到该免疫细胞受体的基因序列融合特征。服务器通过该特征融合模块,将该免疫细胞受体的基于序列特征和三维结构特征进行拼接和至少一次全连接,得到该免疫细胞受体的受体特征。
在这种实施方式下,服务器利用该特征融合模块,通过相加、拼接和全连接的方式就能够快速将该免疫细胞受体的基因特征、序列特征以及三维结构特征进行融合,从而得到该免疫细胞受体的受体特征,效率较高。
在该免疫细胞受体为B细胞受体的情况下,该B细胞受体的基因特征包括该B细胞受体的轻链基因特征和重链基因特征,该B细胞受体的序列特征包括该B细胞受体的轻链序列特征和该B细胞受体的重链序列特征。服务器通过该特征融合模块,将该B细胞受体的轻链基因特征和该B细胞受体的轻链序列特征相加,得到该B细胞受体的轻链基因序列特征。服务器通过该特征融合模块,将该B细胞受体的重链基因特征和该B细胞受体的重链序列特征相加,得到该B细胞受体的重链基因序列特征。该B细胞受体的轻链基因序列特征和重链基因序列特征构成该B细胞受体的基因序列融合特征。服务器通过该特征融合模块,将该B细胞受体的基因序列融合特征和三维结构特征进行拼接,得到该B细胞受体的初始受体特征。服务器通过该特征融合模块,对该B细胞受体的初始受体特征进行至少一次全连接,得到该B细胞受体的受体特征。
在该免疫细胞受体为T细胞受体的情况下,该T细胞受体的基因特征包括该T细胞受体的α链基因特征和β链基因特征,该T细胞受体的序列特征包括该T细胞受体的α链序列特征和该T细胞受体的β链序列特征。服务器通过该特征融合模块,将该T细胞受体的α链基因特征和该T细胞受体的α链序列特征相加,得到该T细胞受体的α链基因序列特征。服务器通过该特征融合模块,将该T细胞受体的β链基因特征和该T细胞受体的β链序列特征相加,得到该T细胞受体的β链基因序列特征。该T细胞受体的α链基因序列特征和β链基因序列特征构成该T细胞受体的基因序列融合特征。服务器通过该特征融合模块,将该T细胞受体的基因序列融合特征和三维结构特征进行拼接,得到该T细胞受体的初始受体特征。服务器通过该特征融合模块,对该T细胞受体的初始受体特征进行至少一次全连接,得到该T细胞受体的受体特征。
需要说明的是,上述是以服务器将该免疫细胞受体的基因特征、序列特征以及三维结构特征进行融合,从而得到该免疫细胞受体的受体特征为例进行说明的,在其他可能的实施方式中,除了融合该免疫细胞受体的基因特征、序列特征以及三维结构特征之外,服务器还能够融合其他信息来得到该免疫细胞受体的受体特征,参见下述实施方式。
在一种可能的实施方式中,服务器通过该状态预测模型,将各个该免疫细胞受体的基因特征、序列特征、三维结构特征以及各个该免疫细胞受体中氨基酸的物化信息进行融合,得到各个该免疫细胞受体的受体特征。
其中,免疫细胞受体中氨基酸的物化信息包括氨基酸的物理特性和化学特性,其中,物理特性包括基本组成和结构、溶解性、熔点、沸点、光学行为和旋光性等。化学特性包括酸碱性和疏水性等。在免疫细胞受体的受体特征中引入氨基酸的物化信息能够提高受体特征的表达能力,使得受体特征能够更加完整地表示免疫细胞受体。
举例来说,对于该多个免疫细胞受体中的任一免疫细胞受体,服务器通过该特征融合模块,将该免疫细胞受体的基因特征以及序列特征进行拼接,得到该免疫细胞受体的基因序列融合特征。服务器通过该状态预测模型的特征融合模块,基于门控注意力机制,将该免疫细胞受体的基因序列融合特征和三维结构特征进行加权融合,得到该免疫细胞受体的初始受体特征。服务器通过该特征融合模块,将该免疫细胞受体的初始受体特征和该免疫细胞受体中氨基酸的物化信息相加,得到该免疫细胞受体的受体特征。
305、服务器通过该状态预测模型的分类模块,对各个免疫细胞受体的受体特征进行全连接和归一化,输出各个免疫细胞受体对应于多个候选状态的概率。
在一种可能的实施方式中,对于该多个免疫细胞受体中的任一免疫细胞受体,服务器通过该状态预测模型的分类模块,对该免疫细胞受体的受体特征进行全连接,得到该免疫细胞受体对应的全连接矩阵。服务器通过该状态预测模型的分类模块,对该免疫细胞受体对应的全连接矩阵进行归一化,输出该免疫细胞受体对应的概率集合,该概率集合包括多个概率,每个概率对应于一个候选状态。在该目标对象为人,该候选状态为疾病的情况下,该多个候选状态的概率也即是人患有对应疾病的概率。
在这种实施方式下,服务器通过该状态预测模型的分类模块,能够将免疫细胞受体的受体特征映射为多个候选状态的概率,也就是在细胞受体层级进行了状态预测,有助于后续在个体层级的状态预测。
下面将结合图5对上述步骤301-305进行说明。
参见图5,对于该多个免疫细胞受体中的任一免疫细胞受体,服务器将免疫细胞受体的基因信息、序列信息以及三维结构信息输入状态预测模型,该状态预测模型包括基因编码器501、序列编码器502和结构编码器503。服务器通过该基因编码器501,对该免疫细胞受体的基因信息进行编码,得到该免疫细胞受体的基因特征。服务器通过该序列编码器502,对该免疫细胞受体的序列信息进行编码,得到该免疫细胞受体的序列特征。服务器通过该结构编码器503,对该免疫细胞受体的三维结构信息进行编码,得到该免疫细胞受体的三维结构特征。该状态预测模型还包括特征融合模块504,服务器通过该特征融合模块504,将该免疫细胞受体的基因特征以及序列特征进行拼接,得到该免疫细胞受体的基因序列融合特征hbio。服务器通过该状态预测模型的特征融合模块,基于门控注意力机制,将该免疫细胞受体的基因序列融合特征hbio和三维结构特征hstru进行加权融合,得到该免疫细胞受体目标基因序列融合特征h/ bio和目标三维结构特征h/ stru。服务器通过该特征融合模块504,将该目标基因序列融合特征h/ bio与该目标三维结构相乘h/ stru,得到该B细胞受体的初始受体特征hfusion。该过程也被称为张量融合的过程。服务器通过该特征融合模块504,对该初始受体特征hfusion。进行两次全连接(FC1,FC2),得到该B细胞受体的受体特征Representation。该状态预测模型还包括分类模块,服务器通过该状态预测模型的分类模块,基于该免疫细胞受体的受体特征进行状态预测,确定该免疫细胞受体对应于多个候选状态的概率。
306、服务器基于各个免疫细胞受体对应于多个候选状态的概率,确定该目标对象的至少一个目标状态。
在一种可能的实施方式中,服务器基于各个免疫细胞受体对应于多个候选状态的概率,确定各个免疫细胞受体对应的参考候选状态,该参考候选状态为该多个候选状态中概率符合第一概率条件的候选状态。服务器基于该多个免疫细胞受体对应的参考候选状态,确定该目标对象的至少一个目标状态。
其中,各个免疫细胞受体对应的参考候选状态为细胞受体层级的状态预测。
在这种实施方式下,服务器能够根据免疫细胞受体对应的参考候选状态来确定目标对象的至少一个目标状态,充分利用了目标对象的免疫组库中多个免疫细胞受体提供的信息,确定出的目标状态的准确性较高。
为了对上述实施方式进行更加清楚地说明,下面将分为两个部分对上述实施方式进行说明。
第一部分、服务器基于各个免疫细胞受体对应于多个候选状态的概率,确定各个免疫细胞受体对应的参考候选状态。
在一种可能的实施方式中,对于该多个免疫细胞受体中的任一免疫细胞受体,服务器将该免疫细胞受体对应的多个候选状态中,概率大于或等于第一概率阈值的候选状态确定为参考候选状态,其中,该第一概率阈值由技术人员根据实际情况进行设置,本申请实施例对此不做限定。
在这种实施方式下,服务器能够通过第一概率阈值来确定各个免疫细胞受体对应的参考候选状态,保证每个确定出的参考候选状态均是概率较高的候选状态,参考候选状态的准确性较高。
在一种可能的实施方式中,对于该多个免疫细胞受体中的任一免疫细胞受体,服务器将该免疫细胞受体对应的多个候选状态中,概率最高的候选状态确定为参考候选状态。
在这种实施方式下,服务器能够将该多个候选状态中概率最高的候选状态确定为参考候选状态,从而保证每个免疫细胞受体均能够确定出一个参考候选状态,有助于后续确定目标对象的目标状态。
第二部分、服务器基于该多个免疫细胞受体对应的参考候选状态,确定该目标对象的至少一个目标状态。
在一种可能的实施方式中,对于该多个免疫细胞受体对应的参考候选状态中的第一参考候选状态,在该多个免疫细胞受体对应于该第一参考候选状态的次数符合次数条件的情况下,服务器将该第一参考候选状态确定为该目标对象的目标状态。
在这种实施方式下,服务器能够根据该第一参考候选状态的出现次数来确定该第一参考候选状态是否为该目标对象的目标状态。这种方式为一种“投票”机制,由多个免疫细胞受体来“投票”决定出该目标状态,确定出的目标状态的准确性较高。
举例来说,对于该多个免疫细胞受体对应的参考候选状态中的第一参考候选状态,服务器确定该多个免疫细胞受体对应于该第一参考候选状态的次数。在该多个免疫细胞受体对应于该第一参考候选状态的次数大于或等于次数阈值的情况下,服务器将该第一参考候选状态确定为该目标对象的目标状态,该次数阈值由技术人员根据实际情况进行设置,本申请实施例对此不做限定。在该多个免疫细胞受体对应于该第一参考候选状态的次数小于该次数阈值的情况下,服务器不将该第一参考候选状态确定为该目标对象的目标状态。比如,服务器通过下述公式(1)来确定该第一参考候选状态是否为该目标对象的目标状态。
Figure BDA0003736484340000291
其中,gfrequency(pm)为确定目标状态的函数,0表示对应参考候选状态不是目标状态,1表示对应参考候选状态为目标状态,pm为编号为m的参考候选状态的出现次数,也即是第一参考候选状态的出现次数,T为次数阈值。在一些实施例中,gfrequency(pm)也被称为基于频率的投票机制。
在一种可能的实施方式中,对于该多个免疫细胞受体对应的参考候选状态中的第二参考候选状态,服务器确定该多个免疫细胞受体对应于该第二参考候选状态的平均概率。在该平均概率符合第二概率条件的情况下,服务器将该第二参考候选状态确定为该目标对象的目标状态。
在这种实施方式下,服务器能够根据第二参考候选状态的平均概率来确定该第二参考候选状态是否为目标状态,确定目标状态时考虑了多个免疫细胞受体的结果,确定出目标状态的准确性较高。
举例来说,对于该多个免疫细胞受体对应的参考候选状态中的第二参考候选状态,服务器确定该第二参考候选状态对应的多个概率。服务器确定该多个概率的平均概率,该平均概率也即是该多个免疫细胞受体对应于该第二参考候选状态的平均概率。在该平均概率大于或等于第二概率阈值的情况下,服务器将该第二参考候选状态确定为该目标对象的目标状态,其中,该第二概率阈值由技术人员根据实际情况进行设置,本申请实施例对此不做限定。在该平均概率小于该第二概率阈值的情况下,服务器不将该第二参考候选状态确定为该目标对象的目标状态。比如,服务器通过下述公式(2)来确定该第二参考候选状态的平均概率。
Figure BDA0003736484340000301
其中,gmean(pn)为确定目标状态的函数,0表示对应参考候选状态不是目标状态,1表示对应参考候选状态为目标状态,pn为编号为n的参考候选状态的状态,也即是第二参考候选状态的概率,pn=f(rn,θ),f(rn,θ)为概率预测函数,rn为编号为n的参考候选状态,θ为状态预测模型的模型参数,N为多个免疫细胞受体中对应于该第二参考候选状态的数量,K为第二概率阈值。
需要说明的是,上述两个实施方式是分别确定第一参考候选状态和第二参考候选状态是否为目标状态为例进行说明的,对于该多个参考候选状态中的其他候选状态,确定是否为目标状态的方式与上述实施方式属于同一发明构思,比如,服务器通过下述公式(3)来确定该目标对象的至少一个目标状态。
Figure BDA0003736484340000302
其中,L为参考候选状态的数量,pl为上述pm或者pn,g( )为上述gfrequency( )或者gmean( ),
Figure BDA0003736484340000311
为至少一个目标状态的集合。
在一种可能的实施方式中,服务器按照概率从大至少的顺序,对该多个免疫细胞受体对应的参考候选状态进行排序。服务器将前目标数量个参考候选状态确定为该目标对象的目标状态。
其中,该目标数量由技术人员根据实际情况进行设置,比如设置为多个参考候选状态的前10%、前25%或者前50%等,本申请实施例对此不做限定。
在这种实施方式下,服务器能够对基于免疫细胞受体确定出的参考候选状态按照概率进行排序,将多个参考候选状态中概率较大的参考候选状态确定为目标状态,充分利用了各个免疫细胞受体的信息,确定出的目标状态的准确性较高。
在一种可能的实施方式中,服务器将该多个免疫细胞受体对应的参考候选状态以及参考候选状态对应的概率输入状态筛选模型。服务器通过该状态筛选模型对该多个免疫细胞受体对应的参考候选状态以及参考候选状态对应的概率进行处理,输出该至少一个目标状态。
其中,该状态筛选模型是基于多个样本候选状态以及样本候选状态对应的概率训练得到的,具有基于候选状态以及候选状态对应的概率输出目标状态的能力。
在这种实施方式下,服务器通过状态筛选模型来从多个参考候选状态中确定目标状态,由于训练得到的状态筛选模型具有一定的泛化能力,确定出的目标状态的准确性较高。
举例来说,服务器将该多个免疫细胞受体对应的参考候选状态以及参考候选状态对应的概率输入状态筛选模型。服务器通过该状态筛选模型,对该参考候选状态以及参考候选状态对应的概率进行卷积、全连接和归一化,输出该多个参考候选状态中的至少一个目标状态。
比如,服务器将该多个免疫细胞受体对应的参考候选状态以及参考候选状态对应的概率组成状态确定矩阵。服务器将该状态确定矩阵输入该状态筛选模型,通过该状态筛选模型对该状态确定矩阵进行卷积、全连接和归一化,输出该状态筛选矩阵对应的概率集合,该概率集合包括多个概率,每个概率对应于一个候选状态。服务器将该概率集合中大于或等于第三概率阈值的概率所对应的参考候选状态确定为目标状态。
下面将结合图6对上述步骤301-306进行说明。
参见图6,服务器确定目标对象601的免疫组库中多个免疫细胞受体602。服务器获取该多个免疫细胞受体基因信息6031、序列信息6032以及三维结构信息6033。服务器将该多个免疫细胞受体的基因信息6031、序列信息6032以及三维结构信息6033输入状态预测模型604,由该状态预测模型604输出各个免疫细胞受体对应于多个候选状态的概率605。服务器基于各个免疫细胞受体对应于多个候选状态的概率605,确定该目标对象的至少一个目标状态606。
在一种可能的实施方式中,本申请实施例提供的状态预测方法可以提供为一种云服务,也即是用户通过终端将相关数据传输到云服务器上,由云服务器执行本申请实施例提供的状态预测方法,将至少一个目标状态返回给终端,由终端将该至少一个目标状态显示给用户。
比如,参见图7,终端显示状态预测界面700,该状态预测界面700用于获取目标对象的免疫组库中多个免疫细胞受体的基因信息、序列信息以及三维结构特征。该状态预测界面700包括文件上传控件701,通过该文件上传控件701能够上传携带上述信息的文件。该状态预测界面700还包括状态选择区域702,该状态选择区域702用于选择想要进行预测的状态,在该状态为疾病的情况下,该状态选择区域702也即是疾病选择区域。该状态预测界面700还包括提交控件703,响应于对该提交控件703的点击操作,终端将该多个免疫细胞受体的基因信息、序列信息以及三维结构特征上传至云服务器,由云服务器基于该多个免疫细胞受体的基因信息、序列信息以及三维结构特征进行运算,得到该目标对象是否处于在该状态选择区域702中选择的状态。比如,参见图8,终端显示状态展示界面800,在该状态展示界面800中显示目标对象是否处于在该状态选择区域702中选择的状态以及处于该状态的概率。
上述所有可选技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
图9展示了本申请实施例提供的技术方案的预测结果(基于BCR免疫组库预测病人是否有炎症性肠病(IBD))。图9A给出了每个病人单个受体级别预测的准备度。图9B给出了每个病人受体级别预测的概率分布。图9C和D给出了融合后每个病人采用top10%、top25%、基于平均值以及取大于0.5预测概率的受体所占的频率等四种方法进行组库级别表征的结果。图10展示了本申请实施例提供的技术方案在基于TCR免疫组库预测病人是否有炎症性肠病(IBD)上的结果。图10A给出了每个病人单个受体级别预测的准备度。图10B给出了每个病人受体级别预测的概率分布。图10C和D给出了融合后每个病人采用top10%、top25%、基于平均值以及取大于0.5预测概率的受体所占的频率等四种方法进行组库级别表征的结果。由图9和图10可见利用本申请实施例提供的技术方案可以实现组库级别的正确预测,组库级别是指个体级别,也即是预测目标对象的状态的级别,受体级别是基于免疫细胞受体预测的级别。
通过本申请实施例提供的技术方案,状态预测模型对免疫细胞受体的基因信息以及序列进行特征提取,得到免疫细胞受体的基因特征以及序列特征。在获取免疫细胞受体的受体特征的过程中,融合了基因特征、序列特征以及三维结构特征。三维结构特征的引入丰富了受体特征的内容,提高了受体特征的表达能力,从而基于受体特征进行目标对象的状态预测时的准确性较高。
本申请实施例提供的技术方案可以基于整个免疫组库信息进行个体级别的相关预测,并给出每个BCR/TCR与疾病的关联。因为免疫组库蕴含着个体当前应对多种疾病,癌症的免疫反应。本申请实施例提供的技术方案有助于探究是否可以通过一次免疫组库检测,实现同时推断多种疾病状态。此外,本申请实施例提供的技术方案可以指示与预测的个体状态相关的TCR和BCR。因此可以为生物药物研发和临床应用筛选和提供有效的TCR/BCR。本申请实施例提供的技术方案可以利用海量的生物数据,优化药物开发,提高新药研发效率,而且能够为精准医疗,免疫治疗,以及疫苗研发等提供基础支撑。
为了对本申请实施例提供的状态预测方法进行更加清楚地说明,下面对本申请实施例提供的状态预测模型的训练方法进行说明,参见图11,以执行主体为服务器为例,方法包括下述步骤。
1101、服务器将样本对象的免疫组库中多个免疫细胞受体的基因信息、序列信息以及三维结构特征输入状态预测模型。
步骤1101与上述步骤302属于同一发明构思,实现过程参见上述步骤302的相关描述,在此不再赘述。
1102、服务器通过该状态预测模型,对该多个免疫细胞受体的基因信息以及序列信息进行特征提取,得到各个该免疫细胞受体的基因特征以及序列特征。
步骤1102与上述步骤303属于同一发明构思,实现过程参见上述步骤303的相关描述,在此不再赘述。
1103、服务器通过该状态预测模型,将各个该免疫细胞受体的基因特征、序列特征以及三维结构特征进行融合,得到各个该免疫细胞受体的受体特征。
步骤1103与上述步骤304属于同一发明构思,实现过程参见上述步骤304的相关描述,在此不再赘述。
1104、服务器通过该状态预测模型,基于各个该免疫细胞受体的受体特征进行状态预测,输出该样本对象的至少一个样本状态。
步骤1104与上述步骤305和306属于同一发明构思,实现过程参见上述步骤305和306的相关描述,在此不再赘述。
1105、服务器基于该样本对象的至少一个样本状态与标注状态之间的差异信息,对该状态预测模型进行训练。
在一种可能的实施方式中,服务器基于该样本对象的样本状态与标注状态之间的差异信息,构建交叉熵损失函数。服务器采用梯度下降法,利用该交叉熵损失函数对该状态预测模型进行训练,也即是对该状态预测模型的模型参数进行调整。
需要说明的是,上述步骤1101-1105是以服务器对该状态预测模型进行一轮训练为例进行说明,对该状态预测模型进行多轮训练的过程与上述步骤1101-1105属于同一发明构思,在此不再赘述。
图12是本申请实施例提供的一种状态预测装置的结构示意图,参见图12,装置包括:输入单元1201、特征提取单元1202、特征融合单元1203以及状态预测单元1204。
输入单元1201,用于将目标对象的免疫组库中多个免疫细胞受体的基因信息、序列信息以及三维结构特征输入状态预测模型。
特征提取单元1202,用于通过该状态预测模型,对该多个免疫细胞受体的基因信息以及序列信息进行特征提取,得到各个该免疫细胞受体的基因特征以及序列特征。
特征融合单元1203,用于通过该状态预测模型,将各个该免疫细胞受体的基因特征、序列特征以及三维结构特征进行融合,得到各个该免疫细胞受体的受体特征。
状态预测单元1204,用于通过该状态预测模型,基于各个该免疫细胞受体的受体特征进行状态预测,输出该目标对象的至少一个目标状态。
在一种可能的实施方式中,该特征提取单元1202,用于对于该多个免疫细胞受体中的任一免疫细胞受体,通过该状态预测模型的基因编码器,对该免疫细胞受体的VDJ信息进行编码,得到该免疫细胞受体的基因特征,其中,V为编码可变区,D为编码高变区,J为编码交联区。通过该状态预测模型的序列编码器,对该免疫细胞受体的氨基酸序列进行编码,得到该免疫细胞受体的序列特征。
在一种可能的实施方式中,该特征提取单元1202,用于执行下述任一项:
在该免疫细胞受体为B细胞受体的情况下,对该免疫细胞受体的轻链的VJ信息和重链的VDJ信息进行编码,得到该免疫细胞受体的基因特征。
在该免疫细胞受体为T细胞受体的情况下,对该免疫细胞受体的α链的VJ信息和β链的VDJ信息进行编码,得到该免疫细胞受体的基因特征。
在一种可能的实施方式中,该特征提取单元1202,用于对该免疫细胞受体的轻链的VJ信息和重链的VDJ信息进行全连接,得到该免疫细胞受体的基因特征,该免疫细胞受体的基因特征包括该免疫细胞受体的轻链基因特征以及该免疫细胞受体的重链基因特征。该对该免疫细胞受体的α链的VJ信息和β链的VDJ信息进行编码,得到该免疫细胞受体的基因特征包括:对该免疫细胞受体的α链的VJ信息和β链的VDJ信息进行全连接,得到该免疫细胞受体的基因特征,该免疫细胞受体的基因特征包括该免疫细胞受体的α链基因特征以及该免疫细胞受体的β链基因特征。
在一种可能的实施方式中,该特征提取单元1202,用于执行下述任一项:
在该免疫细胞受体为B细胞受体的情况下,通过该状态预测模型的序列编码器,基于注意力机制对该免疫细胞受体的轻链的氨基酸序列以及重链的氨基酸序列进行编码,得到该免疫细胞受体的序列特征,该免疫细胞受体的序列特征包括该免疫细胞受体的轻链序列特征和重链序列特征。
在该免疫细胞受体为T细胞受体的情况下,通过该状态预测模型的序列编码器,基于注意力机制对该免疫细胞受体的α链的氨基酸序列以及β链的氨基酸序列进行编码,得到该免疫细胞受体的序列特征,该免疫细胞受体的序列特征包括该免疫细胞受体的α链序列特征和β链序列特征。
在一种可能的实施方式中,该特征融合单元1203,用于对于该多个免疫细胞受体中的任一免疫细胞受体,通过该状态预测模型的特征融合器,将该免疫细胞受体的基因特征以及序列特征进行拼接,得到该免疫细胞受体的基因序列融合特征。
基于门控注意力机制,将该免疫细胞受体的基因序列融合特征和三维结构特征进行加权融合,得到该免疫细胞受体的受体特征。
在一种可能的实施方式中,该状态预测单元1204,用于通过该状态预测模型的分类模块,对各个该免疫细胞受体的受体特征进行全连接和归一化,输出各个该免疫细胞受体对应于多个候选状态的概率。基于各个该免疫细胞受体对应于多个候选状态的概率,确定该目标对象的至少一个目标状态。
在一种可能的实施方式中,该状态预测单元1204,用于基于各个该免疫细胞受体对应于多个候选状态的概率,确定各个该免疫细胞受体对应的参考候选状态,该参考候选状态为该多个候选状态中概率符合第一概率条件的候选状态。基于该多个免疫细胞受体对应的参考候选状态,确定该目标对象的至少一个目标状态。
在一种可能的实施方式中,该状态预测单元1204,用于执行下述任一项:
对于该多个免疫细胞受体对应的参考候选状态中的第一参考候选状态,在该多个免疫细胞受体对应于该第一参考候选状态的次数符合次数条件的情况下,将该第一参考候选状态确定为该目标对象的目标状态。
对于该多个免疫细胞受体对应的参考候选状态中的第二参考候选状态,确定该多个免疫细胞受体对应于该第二参考候选状态的平均概率。在该平均概率符合第二概率条件的情况下,将该第二参考候选状态确定为该目标对象的目标状态。
在一种可能的实施方式中,该状态预测单元1204,用于执行下述任一项:
按照概率从大至少的顺序,对该多个免疫细胞受体对应的参考候选状态进行排序。将前目标数量个参考候选状态确定为该目标对象的目标状态。
将该多个免疫细胞受体对应的参考候选状态以及参考候选状态对应的概率输入状态筛选模型。通过该状态筛选模型对该多个免疫细胞受体对应的参考候选状态以及参考候选状态对应的概率进行处理,输出该至少一个目标状态。
在一种可能的实施方式中,该装置还包括三维结构特征确定单元,用于对于该多个免疫细胞受体中的任一免疫细胞受体,获取该免疫细胞受体的CDR3区域的氨基酸序列。对该免疫细胞受体的CDR3区域的氨基酸序列进行多序列比对,得到至少一个参考氨基酸序列,该参考氨基酸序列与该免疫细胞受体的CDR3区域的氨基酸序列之间的相似度符合相似度条件。获取该免疫细胞受体的CDR3区域的氨基酸序列对应的同源模板,同源模板包括该免疫细胞受体的CDR3区域的氨基酸序列的同源序列的结构信息。基于该免疫细胞受体的CDR3区域的氨基酸序列、该至少一个参考氨基酸序列以及该同源模板进行多轮迭代,得到该免疫细胞受体的三维结构特征。
在一种可能的实施方式中,该装置还包括三维结构特征确定单元,用于对于该多个免疫细胞受体中的任一免疫细胞受体,获取该免疫细胞受体的三维结构信息,该三维结构信息包括该免疫细胞受体中多个氨基酸的三维坐标。
该三维结构特征确定单元还用于执行下述任一项:
对该免疫细胞受体的三维结构信息进行图卷积,得到该免疫细胞受体的三维结构特征。
基于注意力机制对该免疫细胞受体的三维结构信息进行编码,得到该免疫细胞受体的三维结构特征。
在一种可能的实施方式中,该特征融合单元1203还用于通过该状态预测模型,将各个该免疫细胞受体的基因特征、序列特征、三维结构特征以及各个该免疫细胞受体中氨基酸的物化信息进行融合,得到各个该免疫细胞受体的受体特征。
需要说明的是:上述实施例提供的状态预测装置在状态预测时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将计算机设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的状态预测装置与状态预测方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
通过本申请实施例提供的技术方案,状态预测模型对免疫细胞受体的基因信息以及序列进行特征提取,得到免疫细胞受体的基因特征以及序列特征。在获取免疫细胞受体的受体特征的过程中,融合了基因特征、序列特征以及三维结构特征。三维结构特征的引入丰富了受体特征的内容,提高了受体特征的表达能力,从而基于受体特征进行目标对象的状态预测时的准确性较高。
图13是本申请实施例提供的一种状态预测模型的训练装置的结构示意图,参见图13,装置包括:训练信息输入单元1301、训练特征提取单元1302、训练特征融合单元1303、样本状态输出单元1304以及训练单元1305。
训练信息输入单元1301,用于将样本对象的免疫组库中多个免疫细胞受体的基因信息、序列信息以及三维结构特征输入状态预测模型。
训练特征提取单元1302,用于通过该状态预测模型,对该多个免疫细胞受体的基因信息以及序列信息进行特征提取,得到各个该免疫细胞受体的基因特征以及序列特征。
训练特征融合单元1303,用于通过该状态预测模型,将各个该免疫细胞受体的基因特征、序列特征以及三维结构特征进行融合,得到各个该免疫细胞受体的受体特征。
样本状态输出单元1304,用于通过该状态预测模型,基于各个该免疫细胞受体的受体特征进行状态预测,输出该样本对象的至少一个样本状态。
训练单元1305,用于基于该样本对象的至少一个样本状态与标注状态之间的差异信息,对该状态预测模型进行训练。
需要说明的是:上述实施例提供的状态预测模型的训练装置在训练状态预测模型时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将计算机设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的状态预测装置与状态预测方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本申请实施例提供了一种计算机设备,用于执行上述方法,该计算机设备可以实现为终端或者服务器,下面先对终端的结构进行介绍:
图14是本申请实施例提供的一种终端的结构示意图。该终端1400可以是:智能手机、平板电脑、笔记本电脑或台式电脑。终端1400还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,终端1400包括有:一个或多个处理器1401和一个或多个存储器1402。
处理器1401可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器1401可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1401也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1401可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1401还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器1402可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器1402还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1402中的非暂态的计算机可读存储介质用于存储至少一个计算机程序,该至少一个计算机程序用于被处理器1401所执行以实现本申请中方法实施例提供的状态预测方法或状态预测模型的训练方法。
在一些实施例中,终端1400还可选包括有:外围设备接口1403和至少一个外围设备。处理器1401、存储器1402和外围设备接口1403之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1403相连。具体地,外围设备包括:射频电路1404、显示屏1405、摄像头组件1406、音频电路1407和电源1408中的至少一种。
外围设备接口1403可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器1401和存储器1402。在一些实施例中,处理器1401、存储器1402和外围设备接口1403被集成在同一芯片或电路板上;在一些其他实施例中,处理器1401、存储器1402和外围设备接口1403中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路1404用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路1404通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1404将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路1404包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。
显示屏1405用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1405是触摸显示屏时,显示屏1405还具有采集在显示屏1405的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1401进行处理。此时,显示屏1405还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。
摄像头组件1406用于采集图像或视频。可选地,摄像头组件1406包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。
音频电路1407可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器1401进行处理,或者输入至射频电路1404以实现语音通信。
电源1408用于为终端1400中的各个组件进行供电。电源1408可以是交流电、直流电、一次性电池或可充电电池。
在一些实施例中,终端1400还包括有一个或多个传感器1409。该一个或多个传感器1409包括但不限于:加速度传感器1410、陀螺仪传感器1411、压力传感器1412、光学传感器1413以及接近传感器1414。
加速度传感器1410可以检测以终端1400建立的坐标系的三个坐标轴上的加速度大小。
陀螺仪传感器1411可以终端1400的机体方向及转动角度,陀螺仪传感器1411可以与加速度传感器1410协同采集用户对终端1400的3D动作。
压力传感器1412可以设置在终端1400的侧边框和/或显示屏1405的下层。当压力传感器1412设置在终端1400的侧边框时,可以检测用户对终端1400的握持信号,由处理器1401根据压力传感器1412采集的握持信号进行左右手识别或快捷操作。当压力传感器1412设置在显示屏1405的下层时,由处理器1401根据用户对显示屏1405的压力操作,实现对UI界面上的可操作性控件进行控制。
光学传感器1413用于采集环境光强度。在一个实施例中,处理器1401可以根据光学传感器1413采集的环境光强度,控制显示屏1405的显示亮度。
接近传感器1414用于采集用户与终端1400的正面之间的距离。
本领域技术人员可以理解,图14中示出的结构并不构成对终端1400的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
上述计算机设备还可以实现为服务器,下面对服务器的结构进行介绍:
图15是本申请实施例提供的一种服务器的结构示意图,该服务器1500可因配置或性能不同而产生比较大的差异,可以包括一个或多个处理器(Central Processing Units,CPU)1501和一个或多个的存储器1502,其中,所述一个或多个存储器1502中存储有至少一条计算机程序,所述至少一条计算机程序由所述一个或多个处理器1501加载并执行以实现上述各个方法实施例提供的方法。当然,该服务器1500还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器1500还可以包括其他用于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括计算机程序的存储器,上述计算机程序可由处理器执行以完成上述实施例中的状态预测方法或状态预测模型的训练方法。例如,该计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、只读光盘(Compact Disc Read-OnlyMemory,CD-ROM)、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括程序代码,该程序代码存储在计算机可读存储介质中,计算机设备的处理器从计算机可读存储介质读取该程序代码,处理器执行该程序代码,使得该计算机设备执行上述状态预测方法或状态预测模型的训练方法。
在一些实施例中,本申请实施例所涉及的计算机程序可被部署在一个计算机设备上执行,或者在位于一个地点的多个计算机设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算机设备上执行,分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链系统。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
上述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (19)

1.一种状态预测方法,其特征在于,所述方法包括:
将目标对象的免疫组库中多个免疫细胞受体的基因信息、序列信息以及三维结构特征输入状态预测模型;
通过所述状态预测模型,对所述多个免疫细胞受体的基因信息以及序列信息进行特征提取,得到各个所述免疫细胞受体的基因特征以及序列特征;
通过所述状态预测模型,将各个所述免疫细胞受体的基因特征、序列特征以及三维结构特征进行融合,得到各个所述免疫细胞受体的受体特征;
通过所述状态预测模型,基于各个所述免疫细胞受体的受体特征进行状态预测,输出所述目标对象的至少一个目标状态。
2.根据权利要求1所述的方法,其特征在于,所述通过所述状态预测模型,对所述多个免疫细胞受体的基因信息以及序列信息进行特征提取,得到各个所述免疫细胞受体的基因特征以及序列特征包括:
对于所述多个免疫细胞受体中的任一免疫细胞受体,通过所述状态预测模型的基因编码器,对所述免疫细胞受体的VDJ信息进行编码,得到所述免疫细胞受体的基因特征,其中,V为编码可变区,D为编码高变区,J为编码交联区;
通过所述状态预测模型的序列编码器,对所述免疫细胞受体的氨基酸序列进行编码,得到所述免疫细胞受体的序列特征。
3.根据权利要求2所述的方法,其特征在于,所述对所述免疫细胞受体的VDJ信息进行编码,得到所述免疫细胞受体的基因特征包括下述任一项:
在所述免疫细胞受体为B细胞受体的情况下,对所述免疫细胞受体的轻链的VJ信息和重链的VDJ信息进行编码,得到所述免疫细胞受体的基因特征;
在所述免疫细胞受体为T细胞受体的情况下,对所述免疫细胞受体的α链的VJ信息和β链的VDJ信息进行编码,得到所述免疫细胞受体的基因特征。
4.根据权利要求3所述的方法,其特征在于,所述对所述免疫细胞受体的轻链的VJ信息和重链的VDJ信息进行编码,得到所述免疫细胞受体的基因特征包括:
对所述免疫细胞受体的轻链的VJ信息和重链的VDJ信息进行全连接,得到所述免疫细胞受体的基因特征,所述免疫细胞受体的基因特征包括所述免疫细胞受体的轻链基因特征以及所述免疫细胞受体的重链基因特征;
所述对所述免疫细胞受体的α链的VJ信息和β链的VDJ信息进行编码,得到所述免疫细胞受体的基因特征包括:
对所述免疫细胞受体的α链的VJ信息和β链的VDJ信息进行全连接,得到所述免疫细胞受体的基因特征,所述免疫细胞受体的基因特征包括所述免疫细胞受体的α链基因特征以及所述免疫细胞受体的β链基因特征。
5.根据权利要求2所述的方法,其特征在于,所述通过所述状态预测模型的序列编码器,对所述免疫细胞受体的氨基酸序列进行编码,得到所述免疫细胞受体的序列特征包括下述任一项:
在所述免疫细胞受体为B细胞受体的情况下,通过所述状态预测模型的序列编码器,基于注意力机制对所述免疫细胞受体的轻链的氨基酸序列以及重链的氨基酸序列进行编码,得到所述免疫细胞受体的序列特征,所述免疫细胞受体的序列特征包括所述免疫细胞受体的轻链序列特征和重链序列特征;
在所述免疫细胞受体为T细胞受体的情况下,通过所述状态预测模型的序列编码器,基于注意力机制对所述免疫细胞受体的α链的氨基酸序列以及β链的氨基酸序列进行编码,得到所述免疫细胞受体的序列特征,所述免疫细胞受体的序列特征包括所述免疫细胞受体的α链序列特征和β链序列特征。
6.根据权利要求1所述的方法,其特征在于,所述通过所述状态预测模型,将各个所述免疫细胞受体的基因特征、序列特征以及三维结构特征进行融合,得到各个所述免疫细胞受体的受体特征包括:
对于所述多个免疫细胞受体中的任一免疫细胞受体,通过所述状态预测模型的特征融合器,将所述免疫细胞受体的基因特征以及序列特征进行拼接,得到所述免疫细胞受体的基因序列融合特征;
基于门控注意力机制,将所述免疫细胞受体的基因序列融合特征和三维结构特征进行加权融合,得到所述免疫细胞受体的受体特征。
7.根据权利要求1所述的方法,其特征在于,所述通过所述状态预测模型,基于各个所述免疫细胞受体的受体特征进行状态预测,输出所述目标对象的至少一个目标状态包括:
通过所述状态预测模型的分类模块,对各个所述免疫细胞受体的受体特征进行全连接和归一化,输出各个所述免疫细胞受体对应于多个候选状态的概率;
基于各个所述免疫细胞受体对应于多个候选状态的概率,确定所述目标对象的至少一个目标状态。
8.根据权利要求7所述的方法,其特征在于,所述基于各个所述免疫细胞受体对应于多个候选状态的概率,确定所述目标对象的至少一个目标状态包括:
基于各个所述免疫细胞受体对应于多个候选状态的概率,确定各个所述免疫细胞受体对应的参考候选状态,所述参考候选状态为所述多个候选状态中概率符合第一概率条件的候选状态;
基于所述多个免疫细胞受体对应的参考候选状态,确定所述目标对象的至少一个目标状态。
9.根据权利要求8所述的方法,其特征在于,所述基于所述多个免疫细胞受体对应的参考候选状态,确定所述目标对象的至少一个目标状态包括下述任一项:
对于所述多个免疫细胞受体对应的参考候选状态中的第一参考候选状态,在所述多个免疫细胞受体对应于所述第一参考候选状态的次数符合次数条件的情况下,将所述第一参考候选状态确定为所述目标对象的目标状态;
对于所述多个免疫细胞受体对应的参考候选状态中的第二参考候选状态,确定所述多个免疫细胞受体对应于所述第二参考候选状态的平均概率;在所述平均概率符合第二概率条件的情况下,将所述第二参考候选状态确定为所述目标对象的目标状态。
10.根据权利要求8所述的方法,其特征在于,所述基于所述多个免疫细胞受体对应的参考候选状态,确定所述目标对象的至少一个目标状态包括下述任一项:
按照概率从大至少的顺序,对所述多个免疫细胞受体对应的参考候选状态进行排序;将前目标数量个参考候选状态确定为所述目标对象的目标状态;
将所述多个免疫细胞受体对应的参考候选状态以及参考候选状态对应的概率输入状态筛选模型;通过所述状态筛选模型对所述多个免疫细胞受体对应的参考候选状态以及参考候选状态对应的概率进行处理,输出所述至少一个目标状态。
11.根据权利要求1所述的方法,其特征在于,所述将目标对象的免疫组库中多个免疫细胞受体的基因信息、序列信息以及三维结构特征输入状态预测模型之前,所述方法包括:
对于所述多个免疫细胞受体中的任一免疫细胞受体,获取所述免疫细胞受体的CDR3区域的氨基酸序列;
对所述免疫细胞受体的CDR3区域的氨基酸序列进行多序列比对,得到至少一个参考氨基酸序列,所述参考氨基酸序列与所述免疫细胞受体的CDR3区域的氨基酸序列之间的相似度符合相似度条件;
获取所述免疫细胞受体的CDR3区域的氨基酸序列对应的同源模板,同源模板包括所述免疫细胞受体的CDR3区域的氨基酸序列的同源序列的结构信息;
基于所述免疫细胞受体的CDR3区域的氨基酸序列、所述至少一个参考氨基酸序列以及所述同源模板进行多轮迭代,得到所述免疫细胞受体的三维结构特征。
12.根据权利要求1所述的方法,其特征在于,所述将目标对象的免疫组库中多个免疫细胞受体的基因信息、序列信息以及三维结构特征输入状态预测模型之前,所述方法包括:
对于所述多个免疫细胞受体中的任一免疫细胞受体,获取所述免疫细胞受体的三维结构信息,所述三维结构信息包括所述免疫细胞受体中多个氨基酸的三维坐标;
所述方法还包括下述任一项:
对所述免疫细胞受体的三维结构信息进行图卷积,得到所述免疫细胞受体的三维结构特征;
基于注意力机制对所述免疫细胞受体的三维结构信息进行编码,得到所述免疫细胞受体的三维结构特征。
13.根据权利要求1所述的方法,其特征在于,所述通过所述状态预测模型,对所述多个免疫细胞受体的基因信息以及序列信息进行特征提取,得到各个所述免疫细胞受体的基因特征以及序列特征之后,所述方法还包括:
通过所述状态预测模型,将各个所述免疫细胞受体的基因特征、序列特征、三维结构特征以及各个所述免疫细胞受体中氨基酸的物化信息进行融合,得到各个所述免疫细胞受体的受体特征。
14.一种状态预测模型的训练方法,其特征在于,所述方法包括:
将样本对象的免疫组库中多个免疫细胞受体的基因信息、序列信息以及三维结构特征输入状态预测模型;
通过所述状态预测模型,对所述多个免疫细胞受体的基因信息以及序列信息进行特征提取,得到各个所述免疫细胞受体的基因特征以及序列特征;
通过所述状态预测模型,将各个所述免疫细胞受体的基因特征、序列特征以及三维结构特征进行融合,得到各个所述免疫细胞受体的受体特征;
通过所述状态预测模型,基于各个所述免疫细胞受体的受体特征进行状态预测,输出所述样本对象的至少一个样本状态;
基于所述样本对象的至少一个样本状态与标注状态之间的差异信息,对所述状态预测模型进行训练。
15.一种状态预测装置,其特征在于,所述装置包括:
输入单元,用于将目标对象的免疫组库中多个免疫细胞受体的基因信息、序列信息以及三维结构特征输入状态预测模型;
特征提取单元,用于通过所述状态预测模型,对所述多个免疫细胞受体的基因信息以及序列信息进行特征提取,得到各个所述免疫细胞受体的基因特征以及序列特征;
特征融合单元,用于通过所述状态预测模型,将各个所述免疫细胞受体的基因特征、序列特征以及三维结构特征进行融合,得到各个所述免疫细胞受体的受体特征;
状态预测单元,用于通过所述状态预测模型,基于各个所述免疫细胞受体的受体特征进行状态预测,输出所述目标对象的至少一个目标状态。
16.一种状态预测模型的训练装置,其特征在于,所述装置包括:
训练信息输入单元,用于将样本对象的免疫组库中多个免疫细胞受体的基因信息、序列信息以及三维结构特征输入状态预测模型;
训练特征提取单元,用于通过所述状态预测模型,对所述多个免疫细胞受体的基因信息以及序列信息进行特征提取,得到各个所述免疫细胞受体的基因特征以及序列特征;
训练特征融合单元,用于通过所述状态预测模型,将各个所述免疫细胞受体的基因特征、序列特征以及三维结构特征进行融合,得到各个所述免疫细胞受体的受体特征;
样本状态输出单元,用于通过所述状态预测模型,基于各个所述免疫细胞受体的受体特征进行状态预测,输出所述样本对象的至少一个样本状态;
训练单元,用于基于所述样本对象的至少一个样本状态与标注状态之间的差异信息,对所述状态预测模型进行训练。
17.一种计算机设备,其特征在于,所述计算机设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条计算机程序,所述计算机程序由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求13任一项所述的状态预测方法,或实现如权利要求14所述的状态预测模型的训练方法。
18.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条计算机程序,所述计算机程序由处理器加载并执行以实现如权利要求1至权利要求13任一项所述的状态预测方法,或实现如权利要求14所述的状态预测模型的训练方法。
19.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至权利要求13任一项所述的状态预测方法,或实现如权利要求14所述的状态预测模型的训练方法。
CN202210804793.7A 2022-07-08 2022-07-08 状态预测方法、装置、设备以及存储介质 Pending CN115171788A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210804793.7A CN115171788A (zh) 2022-07-08 2022-07-08 状态预测方法、装置、设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210804793.7A CN115171788A (zh) 2022-07-08 2022-07-08 状态预测方法、装置、设备以及存储介质

Publications (1)

Publication Number Publication Date
CN115171788A true CN115171788A (zh) 2022-10-11

Family

ID=83492483

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210804793.7A Pending CN115171788A (zh) 2022-07-08 2022-07-08 状态预测方法、装置、设备以及存储介质

Country Status (1)

Country Link
CN (1) CN115171788A (zh)

Similar Documents

Publication Publication Date Title
JP7459159B2 (ja) Mhcペプチド結合予測のためのgan-cnn
CN111930992B (zh) 神经网络训练方法、装置及电子设备
CN107861938B (zh) 一种poi文案生成方法及装置,电子设备
CN115171787A (zh) 抗原预测方法、装置、设备以及存储介质
CN115148277A (zh) 亲和力预测方法、装置、设备以及存储介质
CN110225368B (zh) 一种视频定位方法、装置及电子设备
WO2024041479A1 (zh) 一种数据处理方法及其装置
CN114388064A (zh) 用于蛋白质表征学习的多模态信息融合方法、系统、终端及存储介质
CN112767303B (zh) 一种图像检测方法、装置、设备及计算机可读存储介质
WO2024083121A1 (zh) 一种数据处理方法及其装置
CN113764037A (zh) 模型训练、抗体改造和结合位点预测的方法与装置
CN116245086A (zh) 文本处理方法、模型训练方法和系统
Sudhakaran et al. Gate-shift-fuse for video action recognition
CN112820412A (zh) 用户信息的处理方法、装置、存储介质和电子设备
CN117149982A (zh) 基于人工智能的问答处理方法、装置、设备及存储介质
CN115171788A (zh) 状态预测方法、装置、设备以及存储介质
CN115131291A (zh) 对象计数模型的训练方法、装置、设备以及存储介质
CN117037917A (zh) 细胞类型预测模型训练方法、细胞类型预测方法和装置
Li et al. Improving ultrasound image classification with local texture quantisation
CN115035559A (zh) 人脸活体检测方法、装置、电子设备及计算机存储介质
Li et al. Progress and Opportunities of Foundation Models in Bioinformatics
CN117012281A (zh) 抗原特异性确定方法、装置、设备及存储介质
CN116959576A (zh) 抗体序列生成方法、装置、计算机设备及存储介质
CN114359582B (zh) 一种基于神经网络的小样本特征提取方法及相关设备
US20220319635A1 (en) Generating minority-class examples for training data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40074966

Country of ref document: HK