CN115116548A - 数据处理方法、装置、计算机设备、介质及程序产品 - Google Patents
数据处理方法、装置、计算机设备、介质及程序产品 Download PDFInfo
- Publication number
- CN115116548A CN115116548A CN202210483905.3A CN202210483905A CN115116548A CN 115116548 A CN115116548 A CN 115116548A CN 202210483905 A CN202210483905 A CN 202210483905A CN 115116548 A CN115116548 A CN 115116548A
- Authority
- CN
- China
- Prior art keywords
- training
- sequence
- antibody
- antigen
- amino acid
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 48
- 238000003672 processing method Methods 0.000 title claims abstract description 24
- 238000012549 training Methods 0.000 claims abstract description 532
- 239000000427 antigen Substances 0.000 claims abstract description 352
- 102000036639 antigens Human genes 0.000 claims abstract description 187
- 108091007433 antigens Proteins 0.000 claims abstract description 187
- 238000000034 method Methods 0.000 claims abstract description 54
- 238000002372 labelling Methods 0.000 claims abstract description 32
- 150000001413 amino acids Chemical class 0.000 claims description 171
- 230000035772 mutation Effects 0.000 claims description 66
- 238000012360 testing method Methods 0.000 claims description 56
- 239000013598 vector Substances 0.000 claims description 42
- 230000015654 memory Effects 0.000 claims description 22
- 238000000605 extraction Methods 0.000 claims description 18
- 230000011218 segmentation Effects 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 10
- 238000004891 communication Methods 0.000 claims description 6
- 230000000873 masking effect Effects 0.000 claims description 5
- 230000000007 visual effect Effects 0.000 claims description 4
- 230000001976 improved effect Effects 0.000 abstract description 16
- 230000008569 process Effects 0.000 description 22
- 238000010586 diagram Methods 0.000 description 19
- 238000005516 engineering process Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 16
- 238000013473 artificial intelligence Methods 0.000 description 11
- 238000003058 natural language processing Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 9
- 102000004169 proteins and genes Human genes 0.000 description 8
- 108090000623 proteins and genes Proteins 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 7
- 238000012512 characterization method Methods 0.000 description 6
- 238000011160 research Methods 0.000 description 6
- 241000282414 Homo sapiens Species 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 238000012800 visualization Methods 0.000 description 4
- 229910052739 hydrogen Inorganic materials 0.000 description 3
- 238000000513 principal component analysis Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 239000001257 hydrogen Chemical group 0.000 description 2
- 230000002209 hydrophobic effect Effects 0.000 description 2
- 230000028993 immune response Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000011056 performance test Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 108010032595 Antibody Binding Sites Proteins 0.000 description 1
- 241000711573 Coronaviridae Species 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 230000000890 antigenic effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 210000003719 b-lymphocyte Anatomy 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000009509 drug development Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000001900 immune effect Effects 0.000 description 1
- 238000001727 in vivo Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000013101 initial test Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000000638 stimulation Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 210000004881 tumor cell Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/30—Unsupervised data analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/30—Drug targeting using structural data; Docking or binding prediction
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Software Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Public Health (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Bioethics (AREA)
- Chemical & Material Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Medicinal Chemistry (AREA)
- Pharmacology & Pharmacy (AREA)
- Crystallography & Structural Chemistry (AREA)
- Peptides Or Proteins (AREA)
Abstract
本申请实施例公开了一种数据处理方法、装置、计算机设备、介质及程序产品。其中方法包括:获取待预测的抗体抗原对;将抗体抗原对中的抗体序列和抗原序列进行拼接,得到输入序列;调用目标预测模型对输入序列进行亲和力预测,得到预测结果,预测结果用于指示抗体抗原对中抗体序列对抗原序列的亲和力;目标预测模型是利用预训练样本对预训练语言模型进行训练得到初始预测模型之后,利用训练样本和训练样本对应的标注信息对初始预测模型进行训练得到的;预训练样本包括预训练抗体序列和预训练抗原序列,训练样本包括训练抗体序列和训练抗原序列,标注信息用于指示训练样本中训练抗体序列对训练抗原序列的亲和力,从而可以提高亲和力预测的准确性。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据处理方法、装置、计算机设备、介质及程序产品。
背景技术
抗体是一种重要的免疫蛋白,可以负责识别生物体内的外来入侵者,即抗原。抗体可以与抗原相结合,以清除抗原,使机体保持正常平衡。
抗体中最重要的性质就是与抗原结合的亲和力,亲和力是一种非共价作用力,包含了对氨基酸之间的吸引力,氢键、疏水性作用力等。识别抗体与抗原的亲和力是一项非常关键的工作,通常,亲和力较强的抗体可以进一步应用在各种场景中,如医疗、科研等场景下;而亲和力弱的抗体则可以被淘汰掉,因此,准确预测抗体抗原之间的亲和力是亟需解决的问题。
发明内容
本申请实施例提供了一种数据处理方法、装置、计算机设备、介质及程序产品,可以提高亲和力预测的准确性。
第一方面,本申请提供一种数据处理方法,包括:
获取待预测的抗体抗原对,所述抗体抗原对包括抗体序列和抗原序列;
将所述抗体抗原对中的抗体序列和抗原序列进行拼接,得到输入序列;
调用目标预测模型对所述输入序列进行亲和力预测,得到预测结果,所述预测结果用于指示所述抗体抗原对中抗体序列对抗原序列的亲和力;
其中,所述目标预测模型是利用预训练样本对预训练语言模型进行训练得到初始预测模型之后,利用训练样本和所述训练样本对应的标注信息对所述初始预测模型进行训练得到的;所述预训练样本包括预训练抗体序列和预训练抗原序列,所述训练样本包括训练抗体序列和训练抗原序列,所述标注信息用于指示所述训练样本中训练抗体序列对训练抗原序列的亲和力。
第二方面,本申请提供一种数据处理装置,包括:
获取单元,用于获取待预测的抗体抗原对,所述抗体抗原对包括抗体序列和抗原序列;
拼接单元,用于将所述抗体抗原对中的抗体序列和抗原序列进行拼接,得到输入序列;
预测单元,用于调用目标预测模型对所述输入序列进行亲和力预测,得到预测结果,所述预测结果用于指示所述抗体抗原对中抗体序列对抗原序列的亲和力;
其中,所述目标预测模型是利用预训练样本对预训练语言模型进行训练得到初始预测模型之后,利用训练样本和所述训练样本对应的标注信息对所述初始预测模型进行训练得到的;所述预训练样本包括预训练抗体序列和预训练抗原序列,所述训练样本包括训练抗体序列和训练抗原序列,所述标注信息用于指示所述训练样本中训练抗体序列对训练抗原序列的亲和力。
第三方面,本申请提供了一种计算机设备,包括:处理器、存储器、网络接口;
上述处理器与存储器、网络接口相连,其中,网络接口用于提供数据通信功能,上述存储器用于存储计算机程序,上述处理器用于调用上述计算机程序,以使包含该处理器的计算机设备执行上述数据处理方法。
第四方面,本申请提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,该计算机程序适于由处理器加载并执行,以使得具有该处理器的计算机设备执行上述数据处理方法。
第五方面,本申请提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,计算机指令被处理器执行时实现上述数据处理方法。例如,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请第一方面中提供的数据处理方法。
本申请实施例中,可以获取待预测的抗体抗原对,并将抗体抗原对中的抗体序列和抗原序列进行拼接,得到输入序列;进一步的,可以调用目标预测模型对输入序列进行亲和力预测,得到抗体抗原对中抗体序列对抗原序列的亲和力。其中,该目标预测模型可以是利用预训练样本对预训练语言模型进行训练得到初始预测模型之后,利用训练样本和训练样本对应的标注信息对初始预测模型进行训练得到的;预训练样本可以包括预训练抗体序列和预训练抗原序列,训练样本可以包括训练抗体序列和训练抗原序列,标注信息可以用于指示训练样本中训练抗体序列对训练抗原序列的亲和力。通过实施上述方法,可以调用预测模型实现对抗体抗原的亲和力预测,该预测模型可以采用大量无标注信息的抗体抗原数据进行预训练,并结合少量有标注信息的抗体抗原数据进行微调得到,从而得到一个精准且鲁棒的预测模型,进而将该预测模型应用在亲和力预测任务中,可以实现对抗体抗原对的亲和力预测的自动化,提高预测智能化,也可以提高亲和力预测的准确性以及预测效率。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种数据处理系统的架构示意图;
图2是本申请实施例提供的一种数据处理方法的流程示意图;
图3a是本申请实施例提供的一种确定存在亲和力预测需求的结构示意图;
图3b是本申请实施例提供的一种目标预测模型的结构示意图;
图3c是本申请实施例提供的另一种目标预测模型的结构示意图;
图4是本申请实施例提供的另一种数据处理方法的流程示意图;
图5a是本申请实施例提供的一种抗体突变的结构示意图;
图5b是本申请实施例提供的一种预训练输入序列构建的结构示意图;
图5c是本申请实施例提供的一种预训练语言模型的预训练处理的结构示意图;
图6a是本申请实施例提供的一种预训练语言模型在预训练过程中的损失值变化图;
图6b是本申请实施例提供的一种测试数据的特征展示图;
图6c是本申请实施例提供的一种突变测试数据的特征展示图;
图6d是本申请实施例提供的一种在预训练语言模型下突变前后的特征差距展示图;
图6e是本申请实施例提供的一种在Port-BERT模型下突变前后的特征差距展示图;
图6f是本申请实施例提供的一种抗体抗原序列通过特征PCA降维后的散点展示图;
图7是本申请实施例提供的一种数据处理装置的组成结构示意图;
图8是本申请实施例提供的一种计算机设备的组成结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为更好理解本申请实施例,首先对本申请实施例所涉及到的相关术语进行说明。
抗原:可以诱发生物体免疫反应的分子都称之为抗原,可以来源于生物体外,如新冠病毒上的蛋白;也可以是来自生物体内,如肿瘤细胞产生的带有突变的蛋白。
抗体:在抗原的刺激下,生物体中的B细胞所产生的一种与抗原相结合的蛋白分子,结合后引起免疫反应将抗原清除。
抗体结合位点:抗体与抗原相结合的氨基酸位点。
抗体亲和力:抗体亲和力是指抗体与抗原表位或抗原决定簇之间的结合力,本质是一种非共价作用力,包含了对氨基酸之间的吸引力,氢键、疏水性作用力等。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
自然语言模型:自然语言相对于机器语言。而自然语言模型就是通过统计学模型将人类大量的语言文字转换成机器语言,进而用于认知、理解和生成。具体用途包括机器翻译和自动问答等。
预训练:通过大量无标注的语言文本进行语言模型的训练,得到一套模型参数,利用这套参数对模型进行初始化,再根据具体任务在现有语言模型的基础上进行精调。预训练的方法在自然语言处理的分类和标记任务中,都被证明拥有更好的效果。
基于上述人工智能技术中所提及的自然语言处理技术和机器学习等技术,本申请实施例提出了一种数据处理方案,以实现抗体抗原对中抗体序列对抗原序列的亲和力预测。具体的,可以获取待预测的抗体抗原对,该抗体抗原对中可以包括抗体序列和抗原序列,然后对抗体抗原对进行亲和力预测,以得到预测结果,该预测结果可以用于指示抗体抗原对中抗体序列对抗原序列的亲和力。可选的,在获取到抗体抗原对之后,可以先将抗体抗原对中的抗体序列和抗原序列进行拼接,以得到输入序列;在得到该输入序列之后,进一步基于该输入序列实现抗体抗原对中抗体序列对抗原序列的亲和力预测,以得到预测结果。
在一种可能的实现方式中,具体可以采用一个目标预测模型来实现对抗体抗原对中抗体序列对抗原序列的亲和力预测,如可以调用目标预测模型对输入序列进行亲和力预测,以得到预测结果,从而实现亲和力预测的智能化。其中,目标预测模型可以是基于预训练语言模型所得到的,如该预训练语言模型可以是BERT模型,或其他以BERT模型为基础的变种模型。例如,可以先对该预训练模型进行预训练;得到预训练后的预训练语言模型之后,可以进一步对该预训练后的预训练语言模型进行微调(finetune),以得到本申请中的目标预测模型。可选的,预训练可以是指:利用预训练样本对预训练语言模型进行训练得到初始预测模型;微调可以是指:利用训练样本以及训练样本对应的标注信息对初始预测模型进行训练得到目标预测模型。其中,预训练样本可以包括预训练抗体序列和预训练抗原序列,训练样本包括训练抗体序列和训练抗原序列;标注信息可以用于指示训练样本中训练抗体序列对训练抗原序列的亲和力。
可以理解的是,BERT模型是一种自然语言处理模型,该BERT模型在文本分类、文本问答、文本生成等任务上都已取得了惊艳的效果,而在本申请中,目标预测模型对应的输入序列是由抗体序列和抗原序列拼接而成的,其中,抗体序列是由一个或多个氨基酸字符组成,抗原序列同样如此,而氨基酸字符可以利用字母来表征,则输入序列可以是一个或多个字母所组成的文本序列。因此,可以将本申请中的亲和力预测任务类比于自然语言处理中的文本预测任务,以通过端到端的模型来进行亲和力预测。
通过实施上述方法,可以调用预测模型实现对抗体抗原的亲和力预测,实现对抗体抗原对的亲和力预测的自动化,也可以提高预测智能化,相比于人工预测,可以提高预测效率以及预测准确性。同时,该预测模型可以采用大量无标注信息的抗体抗原数据进行预训练,并结合少量有标注信息的抗体抗原数据进行微调得到,从而得到一个精准且鲁棒的预测模型,进而将该预测模型应用在亲和力预测任务中,也可以提高亲和力预测的准确性。
在具体实现中,上述所提及的数据处理方案的执行主体可以是计算机设备,该计算机设备包括但不限于终端或服务器。换句话说,计算机设备可以是服务器或终端,也可以是服务器和终端组成的系统。其中,以上所提及的终端可以是一种电子设备,包括但不限于手机、平板电脑、台式电脑、笔记本电脑、掌上电脑、车载设备、智能语音交互设备、增强现实/虚拟现实(Augmented Reality/Virtual Reality,AR/VR)设备、头盔显示器、可穿戴设备、智能音箱、智能家电、飞行器、数码相机、摄像头及其他具备网络接入能力的移动互联网设备(Mobile Internet Device,MID)等。其中,以上所提及的服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、车路协同、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
在一种实现方式中,当计算机设备为服务器时,本申请实施例提供了一种数据处理系统,如图1所示,该数据处理系统包括至少一个终端和至少一个服务器;终端可以获取待预测的抗体抗原对,并将获取到的待预测的抗体抗原对上传至服务器(即计算机设备),以使计算机设备可以获取到该待预测的抗体抗原对,并调用目标预测模型对该抗体抗原对进行亲和力预测,以得到抗体抗原对中抗体序列对抗原序列的亲和力。
或者,上述所提及的数据处理方案也可由终端和服务器共同执行,例如,终端可以在获取到待预测的抗体抗原对之后,可以先对抗体抗原对中的抗体序列和抗原序列进行拼接,以得到输入序列;然后,将该输入序列上传至服务器,以使服务器可以直接基于该输入序列进行亲和力预测,以得到抗体抗原对中抗体序列对抗原序列的亲和力。需要说明的是,当该数据处理方案由终端和服务器共同执行时,该终端和服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例在此不做限制。
基于上述所提供的数据处理方案,本申请实施例提供了一种数据处理方法,该数据处理方法可由上述所提及的计算机设备执行。请参阅图2,该数据处理方法包括但不限于以下步骤:
S201,获取待预测的抗体抗原对。
其中,抗体抗原对可以包括抗体序列和抗原序列;抗体序列可以包括抗体重链序列和抗体轻链序列。抗体重链序列、抗体轻链序列以及抗原序列均可以是由一个或多个氨基酸字符组成,一个氨基酸字符可以利用一个字母来表征,不同的氨基酸字符可以利用不同的字母来表征。例如,可以由字母M、B来表征不同的氨基酸字符。
在一种实现方式中,可以在当存在针对抗体抗原对的亲和力预测需求时,获取待预测的抗体抗原对。
可选的,可以是在计算机设备接收到一个亲和力预测请求时,确定当前存在针对抗体抗原对的亲和力预测需求。例如,研发人员可以向计算机设备发送一个针对抗体抗原的亲和力预测请求,以使计算机设备可以接收该亲和力预测请求,而在计算机设备接收到该亲和力预测请求之后,也就确定存在针对抗体抗原对的亲和力预测需求。在一种可能的实现方式中,当研发人员需要对抗体抗原对进行亲和力预测时,可以通过在终端所输出的亲和力预测界面执行相关操作,以向计算机设备发送针对抗体抗原对的亲和力预测请求。
例如参见图3a所示:研发人员所使用的终端可在终端屏幕中显示一个亲和力预测界面,该亲和力预测界面可以至少包括由301标记的抗体抗原对设置区域,以及由302标记的确认控件。若研发人员想要对抗体抗原对进行亲和力预测,则研发人员可在该抗体抗原对设置区域301中输入抗体抗原对的相关信息,如可以是具体的抗体抗原对,或者,可以是抗体抗原对所在存储区域的路径;然后,研发人员可以对该确认控件302执行触发操作(如点击操作、按压操作等),从而触发研发人员所使用的终端可以获取在抗体抗原对设置区域301中设置的用于指示抗体抗原对的相关信息,并向计算机设备发送针对该抗体抗原对的亲和力预测请求。
例如,如果抗体抗原对设置区域301中输入的抗体抗原对的相关信息为具体的抗体抗原对时,终端可以直接从该抗体抗原对设置区域301中获取该抗体抗原对;而在获取待抗体抗原对之后,即可以向计算机设备发送针对该抗体抗原对的亲和力预测请求,该亲和力预测请求可以携带有终端所获取到的抗体抗原对。又如,如果抗体抗原对设置区域301中输入的抗体抗原对的相关信息为抗体抗原对的路径时,在一种可能的实现方式中,终端可以基于路径获取对应的抗体抗原对,则计算机设备所接收到的亲和力预测请求可以携带该抗体抗原对;在一种可能的实现方式中,终端可以直接从该抗体抗原对设置区域301中获取用于指示抗体抗原对的路径,并将该路径携带在亲和力预测请求中,以使计算机设备在接收到该亲和力预测请求之后,可以基于该亲和力预测请求中的路径获取对应的待预测的抗体抗原对。
可选的,亲和力预测需求还可以是触发亲和力预测任务所产生的。例如,可以预先设置一个亲和力预测任务,该亲和力预测任务中指示了对计算机设备在目标存储区域中的抗体抗原对进行亲和力预测的触发条件,该触发亲和力预测任务还可以包括用于指示当前计算机设备所要获取的待预测的抗体抗原对的指示信息。其中,该目标存储区域可以用于存储大量的抗体抗原对。
例如,该触发条件可以是当前时间到达预设亲和力预测时间,或者,该触发条件可以是目标存储区域中新增了一个亲和力未知的抗体抗原对,或者,该触发条件可以是计算机设备在目标存储区域的剩余存储空间到达了预设剩余存储空间,或者,该触发条件可以是目标存储区域中亲和力未知的抗体抗原对的数量到达了预测数量,等等。则在触发亲和力预测任务之后,计算机设备可以获取指示信息所指示的抗体抗原对,并将获取到的抗体抗原对作为待预测的抗体抗原对。示例性的,该指示信息所指示的抗体抗原对可以是目标存储区域中所有的亲和力未知的抗体抗原对,或者是部分的亲和力未知的抗体抗原对,或者是其他指示信息,在本申请不做具体限定。
在一种实现方式中,获取的待预测的抗体抗原对的数量可以是一个或多个,例如,在上述亲和力预测界面的抗体抗原对设置区域301中可以输入一个或多个抗体抗原对,或者可以输入一个或多个抗体抗原对分别对应的路径;又如,亲和力预测任务中可以指示对一个或多个抗体抗原对进行预测,以使后续计算机设备可以接收到一个或多个待预测的抗体抗原对。
在一种实现方式中,在计算机设备所获取到的抗体抗原对的数量为多个的情况下,后续对多个抗体抗原对进行亲和力预测时,可以进行并行预测,也可以进行串行预测,在本申请不做限定。本申请主要对一个抗体抗原对的亲和力预测进行相关阐述。
S202,将抗体抗原对中的抗体序列和抗原序列进行拼接,得到输入序列。
在一种实现方式中,考虑到后续利用目标预测模型进行亲和力预测时,该目标预测模型的输入数据需要是一个完整的序列,则可以将抗体抗原对中的抗体序列和抗原序列进行拼接,以拼接成一个序列,该拼接而成的序列可以称之为输入序列。
可选的,可以先将抗体序列和抗原序列利用分割字符进行拼接,得到拼接序列,分割字符用于分割抗体序列和抗原序列,以区分不同的序列,例如,该分割字符可以是[SEP]。接着,可以利用预设字符与拼接序列进行拼接,得到输入序列,例如,可以在拼接序列的开头插入该预测字符,该预测字符可以是特定的分类字符[CLS],在后续目标预测模型中进行序列的处理过程中,该分类字符[CLS]对应的特征向量可以被用来起到聚集整个序列表征信息的作用。
上述可知,抗体序列可以包括重链序列和轻链序列,则可以利用分割字符将重链序列、轻链序列以及抗原序列进行拼接,以得到拼接序列。可以理解的是,在进行拼接时,可以利用到两个分割字符。其中,在进行拼接时,重链序列、轻链序列以及抗原序列在拼接序列中的位置不做具体限定。例如,可以是按照重链序列、轻链序列、抗原序列的顺序依次利用分割字符进行拼接。又如,可以是按照抗原序列、重链序列、轻链序列的顺序依次利用分割字符进行拼接。或者是其他依照其他顺序进行拼接,在此处不一一举例。
可选的,也可以用一个分割字符作为拼接序列的结束字符,该分割字符可以添加至拼接序列的最后一个氨基酸字符之后,也可以不用结束字符,在本申请不做具体限定。
S203,调用目标预测模型对输入序列进行亲和力预测,得到预测结果,预测结果用于指示抗体抗原对中抗体序列对抗原序列的亲和力。
其中,该目标预测模型可以是对预训练语言模型进行训练得到的,如该预训练语言模型可以是BERT模型,或其他以BERT模型为基础的变种模型,本申请主要以预训练语言模型为BERT模型为例进行说明。其中,该训练过程可以包括预训练过程和微调过程。例如,该目标预测模型可以是对预训练语言模型进行预训练之后,再进行微调得到的。可选的,可以利用预训练样本实现对预训练语言模型的预训练,以得到初始预测模型,该初始预测模型可以是基于预训练后的预训练语言模型所构成的;在得到初始预测模型之后,可以进一步利用训练样本以及训练样本对应的标注信息对初始预测模型进行微调,而微调后的初始预测模型即是目标预测模型。
其中,预训练样本可以是无标注信息的样本,训练样本可以是有标注信息的样本。例如,预训练样本可以包括预训练抗体序列和预训练抗原序列;训练样本可以包括训练抗体序列和训练抗原序列,该训练样本还对应有标注信息,该标注信息可以用于指示训练样本中训练抗体序列对训练抗原序列的亲和力。需要说明的是,预训练样本中可以包括大量无标注信息的样本,一个样本可以是一个预训练抗体抗原对,一个预训练抗体抗原对可以包括一个预训练抗体序列和一个预训练抗原序列;同理训练样本可以包括大量有标注信息的样本,一个样本可以是一个训练抗体抗原对,一个训练抗体抗原对可以包括一个训练抗体序列和一个训练抗原序列。在本申请中,主要以预训练样本中包括一个预训练抗体抗原对,训练样本中包括一个训练抗体抗原对为例进行阐述。
在实际场景中,无标注信息的抗体抗原对数据是较多的,有标注信息的抗体抗原对数据是较少的,则可以使用大量的无标注信息的抗体抗原对数据对预训练语言模型进行预训练,以使该预训练语言模型可以得到充分的训练,提高预训练语言模型的训练准确性。而在得到预训练后的预训练语言模型后,进一步可以利用少量的有标注信息的抗体抗原对数据在预训练后的预训练语言模型上对模型参数进行微调,以得到一个精准且鲁棒的用于进行亲和力预测的预测模型。
在一种实现方式中,可以调用目标预测模型对输入序列进行亲和力预测,以得到对应的预测结果,该预测结果可以用于指示抗体抗原对中抗体序列对抗原序列的亲和力。可选的,该预测结果可以是例如数值范围为(-17,-3)的标签数值;其中,标签数值的绝对值越大,表明对应的亲和力越高。
可选的,该目标预测模型可以包括特征提取层和全连接层,例如,目标预测模型的架构示意图可以如图3b所示。其中,特征提取层可以是BERT层,全连接层可以是Softmax层,例如,目标预测模型的架构示意图也可以如图3c所示。具体实现中,特征提取层可以用于从输入序列中提取特征,全连接层可以用于基于特征提取层所提取的特征进行亲和力预测。
在一种可能的实现方式中,可以将输入序列输入目标预测模型的特征提取层,以得到该输入序列中各个氨基酸字符分别对应的特征向量;进一步的,各个氨基酸字符分别对应的特征向量可以输入全连接层进行回归处理,从而得到该输入序列的预测结果。
在一种实现方式中,预测结果可以显示是在上述提及的亲和力预测界面上,例如参见图3a所示:该亲和力预测界面还可以包括由303标记的预测结果显示区域,则计算机设备在得到对应的预测结果之后,可以将该预测结果显示在预测结果显示区域303中。
在一种实现方式中,在得到抗体抗原对的亲和力之后,可以基于亲和力对抗体抗原对进行筛选。在实际场景中,通常需要亲和力较高的抗原对,例如,在医疗场景中,亲和力较高的抗原对可以用于后续的药物开发中。示例性的,可以将待预测的抗体抗原对的亲和力与预设亲和力进行比较。如果该亲和力大于或等于预设亲和力,可以将该抗体抗原对添加到抗体抗原对数据库中,该抗体抗原对数据库可以用于存储大量优质的抗体抗原对,以便于后续医疗、科研等场景中的利用。如果该亲和力小于预设亲和力,可以将该抗体抗原对进行过滤,即可以淘汰掉;或者,也可以将该抗体抗原对进行改造,以使改造后的抗体抗原对的亲和力可以达到预设亲和力。其中,预设亲和力可以根据需求设置,例如,若亲和力要求较高,预设亲和力可以设置较高,而若亲和力要求较低,预设亲和力可以设置较低。
在一种实现方式中,若待预测的抗体抗原对包括:抗体突变前的抗体抗原对以及,抗体突变后的抗体抗原对。其中,抗体突变可以是指原始抗体序列中的某一个氨基酸字符或多个氨基酸字符发生了变化,通常突变对应的氨基酸字符的数量较小。例如,抗体突变后的抗体抗原对可以是指对抗体突变前的抗体抗原对的抗体序列中一个位置对应的氨基酸字符进行改变得到的。
通过调用目标预测模型可以确定抗体突变前的抗体抗原对对应的第一亲和力,以及抗体突变后的抗体抗原对的第二亲和力。在得到第一亲和力和第二亲和力之后,可以将第一亲和力和第二亲和力进行比较,可以确定相对于第一亲合力而言,第二亲和力的升降情况(是上升还是下降)。通常,亲和力的升降可以决定抗体抗原对中抗体与抗原之间的接触强度大小。例如,亲和力上升,可以表明抗体抗原对中抗体序列与抗原序列之间的接触强度变大;亲和力下降,可以表明抗体抗原对中抗体序列与抗原序列之间的接触强度变小。
如果第二亲和力是上升,则可以表明抗体突变后的抗体抗原对中抗体序列与抗原序列之间的接触强度变大;如果第二亲和力是下降,则可以表明抗体突变后的抗体抗原对中抗体序列与抗原序列之间的接触强度变小。可知的是,亲和力的大小通常可以由抗体序列与抗原序列的结合位点(或者说接触点)决定。则对于第二亲和力上升的情况,可以进一步标记抗体突变后的抗体抗原对的突变位置,以便于后续可以基于该突变位置进行抗体抗原对的改造。例如,上述提及为使改造后的抗体抗原对的亲和力可以达到预设亲和力情况,即可以结合该突变位置进行改造,以使改造后的抗体抗原对的亲和力上升。
在本申请实施例中,可以获取待预测的抗体抗原对,并将抗体抗原对中的抗体序列和抗原序列进行拼接,得到输入序列;进一步的,可以调用目标预测模型对输入序列进行亲和力预测,得到抗体抗原对中抗体序列对抗原序列的亲和力。通过实施上述方法,可以调用预测模型实现对抗体抗原的亲和力预测,实现对抗体抗原对的亲和力预测的自动化,也可以提高预测智能化,相比于人工预测,可以提高预测效率以及预测准确性。
基于上述描述,本申请实施例进一步提出了另一种数据处理方法;在本申请实施例中,主要以计算机设备执行该数据处理方法为例进行说明。如图4所示,该数据处理方法包括但不限于以下步骤:
S401,获取预训练样本。
其中,预训练样本可以是无标注信息的样本,标注信息可以用于指示样本中抗体序列对抗原序列的亲和力。例如,无标注信息的样本可以是指结合位点未知的抗体抗原对,亲和力的大小通常可以由抗体与抗原的结合位点决定。该预训练样本可以包括预训练抗体序列和预训练抗原序列;预训练抗体序列可以包括一个或多个氨基酸字符,预训练抗原序列可以包括一个或多个氨基酸字符;其中,通常抗体可以包括重链和轻链,对应的,预训练抗体序列可以包括预训练重链序列和预训练轻链序列。
需要说明的是,用于对预训练语言模型进行预训练的预训练样本的数量可以是较大的,本申请主要以一个预训练样本为例进行阐述。例如,在实际预训练场景中,可以从公开数据中获取超过60万的预训练样本,这些预训练样本中的抗体序列或抗原序列大多数结构不明,亲和力未知,但仍可以利用这些数据通过自学习机制来建立预训练语言模型,以利用这些数据进行预训练语言的预训练。在实际场景中,无标注信息的抗体抗原对数据是较多的,有标注信息的抗体抗原对数据是较少的,则可以使用大量的无标注信息的抗体抗原对数据对预训练语言模型进行预训练,以使该预训练语言模型可以得到充分的训练,提高预训练语言模型的训练准确性。在得到预训练后的预训练语言模型后,进一步可以利用少量的有标注信息的抗体抗原对数据在预训练语言模型上对模型参数进行微调,即可得到一个精准且鲁棒的用于进行亲和力预测的预测模型。
其中,这些预训练样本中,可以存在6种不同的预训练抗原序列,每种预训练抗原序列对应有大约10万个预训练抗体序列,该10万个预训练抗体序列可以是抗体突变序列。抗体突变序列可以是指基于原始抗体序列中的某一个氨基酸字符或多个氨基酸字符发生了变化,通常突变对应的氨基酸字符的数量较小。其中,抗体突变可能存在于预训练抗体重链序列,也可能存在于预训练抗体轻链序列中,也可能同时存在预训练抗体重链序列和预训练抗体轻链序列中。
例如,图5a所示为抗体突变的举例。参见如图5a所示,图5a中由501标记的方框中的氨基酸字符为重链中产生的突变,如原始重链中为N的氨基酸字符突变为T的氨基酸字符;由502标记的方框中的氨基酸字符为轻链中产生的突变,如原始轻链中为N的氨基酸字符突变为K的氨基酸字符。
考虑到抗体突变仅是对抗体序列中的较少部分氨基酸字符进行变化,则通过利用抗体突变序列对应的预训练样本对预训练语言模型进行预训练,可以使得预训练语言模型可以学习到序列之间微小的差异,从而提高模型鲁棒性。
S402,将预训练样本中的预训练抗体序列和预训练抗原序列进行拼接,得到预训练输入序列。
在一种实现方式中,考虑到后续所利用的预训练语言模型在进行数据处理时,所需要的输入数据是一个完整的序列,则可以将预训练样本中的预训练抗体序列和预训练抗原序列进行拼接,以拼接成一个序列,该拼接而成的序列可以称之为预训练输入序列。其中,预训练输入序列可以包括多个氨基酸字符。
可选的,可以先将预训练抗体序列和预训练抗原序列利用分割字符进行拼接,得到拼接序列;该分割字符可以用于分割预训练抗体序列和预训练抗原序列,以区分不同的序列,例如,该分割字符可以是[SEP]。接着,可以利用预设字符与拼接序列进行拼接,得到预训练输入序列,例如,可以在拼接序列的开头插入该预测字符。该预测字符可以是特定的分类字符[CLS],在后续预训练语言模型中进行序列的处理过程中,该分类字符[CLS]对应的在预训练语言模型中的最后一个Transformer层的输出可以被用来起到聚集整个序列表征信息的作用。预训练语言模型(如BERT模型)可以由多个Transformer层组成。
在一种实现方式中,预训练抗体序列可以包括预训练重链序列和预训练轻链序列,则可以利用分割字符将预训练重链序列、预训练轻链序列以及预训练抗原序列进行拼接,以得到拼接序列。可以理解的是,在进行拼接时,需要利用到两个分割字符。可选的,也可以再用一个分割字符作为拼接序列的最后一个字符,即作为拼接序列的结束字符;也可以不用结束字符,在本申请不做具体限定。其中,在进行拼接时,预训练重链序列、预训练轻链序列以及预训练抗原序列在拼接序列中的位置不做具体限定。例如,可以是按照预训练重链序列、预训练轻链序列、预训练抗原序列的顺序依次利用分割字符进行拼接。又如,可以是按照预训练抗原序列、预训练重链序列、预训练轻链序列的顺序依次利用分割字符进行拼接。或者是其他依照其他顺序进行拼接,在此处不一一举例。
例如,预训练输入序列可以如图5b所示,该图5b中显示了2种不同拼接所得到的预训练输入序列。
S403,获取预训练语言模型,并利用预训练输入序列对预训练语言模型进行训练,得到初始预测模型。
其中,预训练语言模型可以是BERT模型,或其他以BERT模型为基础的变种模型。本申请主要以预训练语言模型是BERT模型为例进行说明。
在一种实现方式中,可以调用预训练语言模型对预训练输入序列进行处理,以得到初始预测模型。可选的,可以利用预训练输入序列对预训练语言模型进行训练,以得到初始预测模型。其中,利用预训练样本对预训练语言模型的训练过程可以称之为预训练过程。
可以理解的是,预训练语言模型的输入可以是每个Token(单词)对应的向量表征,则在得到预训练输入序列之后,可以进一步确定该预训练输入序列中所包括的Token,以便于后续可以基于各个Token的向量表征对预训练语言模型进行预训练。可以理解的是,在利用预训练语言模型在自然语言处理的领域中,针对预训练语言模型的输入数据通常是文本。在输入数据为中文文本的情况下,通常可以利用分词方式来确定一个中文文本中所包括的Token,例如,一个中文文本为“我叫鲍比”,则对应的Token可以包括“我”、“叫”、“鲍比”。在输入数据为英文文本的情况下,通常可以利用空格符来确定一个英文文本中所包括的Token,例如,一个英文文本为“I am Bob”,则对应的Token可以包括“I”、“am”、“Bob”。
而在本申请中,预训练输入序列是一个由多个氨基酸字符组成的氨基酸文本序列,且该氨基酸文本序列不存在空格。可选的,可以按照预设数量的氨基酸字符对该预训练输入序列进行依次拆分,以得到该预训练输入序列中所包括的Token。在利用预设数量进行拆分时,若最后所分割得到的氨基酸字符的数量小于预设数量,则可以将最后所分割得到的氨基酸字符作为一个Token。
例如,预设数量可以是1、3、4等数值,在本申请不做具体限定。示例性的,在预设数量为1的情况下,预训练输入序列中所包括的一个Token可以为该预训练输入序列中的一个氨基酸字符。例如,假设预训练输入序列为BNHK…,则Token可以包括B、N、H、K、…。示例性的,在预设数量为3的情况下,预训练输入序列中所包括的一个Token可以为该预训练输入序列中的三个氨基酸字符。例如,假设预训练输入序列为BNHKLKUYF…,则Token可以包括BNH、KLK、UYF、…。
可以看出,相比于预设数量为1的情况,利用预设数量大于1的情况所得到的Token的数量要相对少一些,则在利用预训练语言模型进行处理的过程中,所需要的处理的Token的数量也就少一些,则在预设数量大于1的情况下,预训练语言模型的处理速度较快。而当预设数量为1时,即一个氨基酸字符对应一个Token时,可以使得预训练语言模型对每一个氨基酸字符进行学习,则相对于在预设数量大于1的情况下,预训练语言模型的训练效果较好。例如,经实践证明,当预设数量在大于1的情况下,预设数量为3时,预训练语言模型的训练效果较好。在一种可能的实现方式中,可以在当前条件处于第一条件时,获取第一预设数量,以基于该第一预设数量对预训练输入序列进行依次拆分,得到该预训练输入序列中所包括的Token;而在当前条件处于第二条件时,获取第二预设数量,以基于该第二预设数量对预训练输入序列进行依次拆分,得到该预训练输入序列中所包括的Token。例如,第一条件可以是指精确度要求,对应的第一预设数量可以是1;第二条件可以是指速度要求,对应的第一预设数量可以是3。
需要说明的是,预训练输入序列中包括预测字符(如[CLS])和分割字符(如[SEP]),在上述确定预训练输入序列中的Token时,一个预测字符对应一个Token,一个分割字符对应一个Token,即在对预训练输入序列进行拆分得到多个Token的过程中,可以将预测字符和分割字符除外。
在一种实现方式中,预训练输入序列中每个Token(单词)对应的向量表征可以包括三种嵌入(Embedding):Token的Embedding(如可称之为Token Embedding),位置的Embedding(如可称之为Position Embedding),句子的Embedding(如可称之为SegmentEmbedding)。针对一个Token而言,可以将该Token对应的Token Embedding、PositionEmbedding以及Segment Embedding叠加,叠加后所得到的Embedding即是该Token对应的向量表征。
综上所述,对预训练语言模型预训练的过程可以是:在得到预训练输入序列之后,可以先确定该预训练输入序列所包括的所有Token;然后,可以确定每一个Token对应的向量表征;进一步的,可以将每一个Token对应的向量表征输入预训练语言模型中,以实现对预训练语言模型的预训练。例如,在将每一个Token对应的向量表征输入预训练语言模型中,基于该预训练语言模型可以得到每一个Token对应的特征向量,以便于后续可以基于该特征向量对预训练语言模型进行预训练。
例如,图5c所示为预训练语言模型的预训练处理示意图。如图5c所示中,由503标记的数据为进行拼接后得到的预训练输入序列;由504标记的数据为预训练输入序列中所包括的各个Token,其中,预训练输入序列中的一个氨基酸字符为一个Token。由505标记的数据为各个Token分别对应的向量表征,如图5c所示,各个Token分别对应的向量表征可以输入预训练语言模型中,以得到由506标记的数据,该数据对各个Token分别对应的特征向量。
在一种实现方式中,在将预训练输入序列中每一个Token对应的向量表征输入预训练语言模型中,以实现对预训练语言模型的预训练的训练过程中,可以对预训练输入序列中的某些氨基酸字符进行掩码(或掩盖)处理,以通过预训练语言模型来预测这些被掩盖的氨基酸字符,进而可以通过预训练输入序列中掩码前对应的氨基酸字符以及预测的氨基酸字符实现对预训练语言模型的预训练。
下述对预训练语言模型的预训练过程进行具体阐述,其中,主要以一个Token为预训练输入序列中的一个氨基酸字符为例进行说明。
在一种实现方式中,首先,可以对预训练输入序列进行掩码处理,以得到预训练输入序列中目标氨基酸字符对应的预测氨基酸字符,其中,该目标氨基酸字符可以包括预训练输入序列进行掩码处理的氨基酸字符。可选的,考虑到预训练语言模型的输入数据实际上是预训练输入序列中每一个Token(即氨基酸字符)对应的向量表征,则在预训练语言模型的实际处理中,可以将预训练输入序列中目标氨基酸字符对应的向量表征进行掩码处理。可选的,也可以对预训练输入序列中的目标氨基酸字符直接进行掩码处理,相比于对目标氨基酸字符的向量表征进行掩码处理,对目标氨基酸字符直接进行掩码处理可以避免后续还需确定目标氨基酸字符对应的向量表征。下述主要以对目标氨基酸字符直接进行掩码处理为例进行描述。
可选的,为实现掩码处理并得到对应的预测氨基酸字符,可以先从预训练输入序列的氨基酸字符中获取目标氨基酸字符,并利用掩码字符替换目标氨基酸字符,从而得到目标预训练输入序列。其中,目标氨基酸字符的数量可以是一个或多个;掩码字符可以是[MASK],或者是其他掩码字符,在本申请不做限定,例如,可以将目标氨基酸字符替换为[MASK]。在得到该目标预训练输入序列之后,进一步可以对目标预训练输入序列进行特征提取,得到目标预训练输入序列中各个氨基酸字符分别对应的特征向量;其中,预训练语言模型可以用于进行特征提取。从而可以基于各个氨基酸字符中掩码字符对应的特征向量,得到预训练输入序列中目标氨基酸字符对应的预测氨基酸字符。
在一种可能的实现方式中,在确定预训练输入序列中目标氨基酸字符时,可以从该预训练输入序列中随机选择预设数量的氨基酸字符作为目标氨基酸字符,其中,预设数量可以预先设置,如可以是1、3等数值。可选的,也可以是从该预训练输入序列中选择预设位置的氨基酸字符作为目标氨基酸字符,其中,预设位置可以预先设置,该预设位置的数量可以是一个或多个,如预设位置可以是预训练输入序列中的第五个氨基酸字符,又如预设位置可以是预训练输入序列中的第一个氨基酸字符和最后一个氨基酸字符。可选的,也可以是从该预训练输入序列中随机选择预设占比的氨基酸字符作为目标氨基酸字符,其中,预设占比可以预先设置,如可以是10%、15%等数值。
考虑到在预训练时,需要对输入序列进行掩码处理,以引入掩码字符;而在后续的微调过程中,不需要对输入序列进行掩码处理,从而可能导致预训练阶段和微调阶段不一致的问题,为了缓解这一问题,可以采取了如下措施:例如,如果某个Token在被选中在预设占比(如15%)的Token中,则可以按照下面的方式随机的执行:该某个Token有80%的概率替换成掩码字符(如[MASK]);有10%的概率替换成随机的一个Token;有10%的概率替换成它本身(即不被替换)。
在一种可能的实现方式中,为实现对预训练语言模型的预训练过程,在该预训练语言模型之后还可以包括全连接层,以利用该全连接层,并基于掩码字符对应的特征向量预测目标氨基酸字符对应的预测氨基酸字符。具体实现中,可以利用各个氨基酸字符中掩码字符对应的特征向量进行分类处理,如可以将掩码字符对应的特征向量输入全连接层进行分类处理,以得到掩码字符的字符概率;其中,该字符概率可以包括参考氨基酸字符集中各个参考氨基酸字符分别对应的字符概率,该参考氨基酸字符集中可以包括大量的参考氨基酸字符。进一步的,可以从各个参考氨基酸字符分别对应的字符概率中确定最大字符概率,并将最大字符概率对应的参考氨基酸字符,确定为目标氨基酸字符对应的预测氨基酸字符。
在一种实现方式中,进一步的,在得到预测氨基酸字符之后,即可以基于该预测氨基酸字符和目标氨基酸字符对预训练语言模型进行训练,以得到初始预测模型。
可选的,可以获取预训练语言模型对应的模型损失函数,以采用该模型损失函数,并利用预测氨基酸字符和目标氨基酸字符计算模型损失值;在得到模型损失值之后,即可以基于该模型损失值对预训练语言模型进行训练,从而得到初始预测模型。例如,该模型损失函数可以是交叉熵损失函数、或其他损失函数,在本申请不做具体限定。
其中,初始预测模型可以是指预训练后得到的预训练语言模型;也可以由预训练后得到的预训练语言模型与上述提及的全连接层构成,在这种情况下,初始预测模型的结构示意图可以参考图3b或图3c所示,预训练语言模型可以对应于图3b中的特征提取层,也可以对应于图3c中的BERT层。
在一种实现方式中,通过实践证明,在利用大量的预训练样本对预训练语言模型进行预训练时,预训练过程中的模型损失值(loss)的变化可以如图6a所示。从图6a中可以看出。当训练到25个epoch的时候,loss不再下降,即表明预训练语言模型达到拟合,也可以表明经过训练后的预训练语言模型(或者说初始预测模型)可以对特征任务进行微调,以得到所需要的模型。例如,在本申请中,特征任务可以是亲和力预测任务。其中,所有预训练样本训练完成1次即可以称为一个epoch,在一个epoch中每次参与训练的预训练样本数在本申请不做具体限定,例如预训练样本数可以称之为batch_size,batch_size可以是所有的预训练样本,也可以是部分的预训练样本。
在一种实现方式中,为了证明该预训练语言模型的可用性,可以对使用该预训练语言模型抽取的特征进行多方面的分析。
可选的,可以选取一个抗体抗原对进行实验。首先,可以将抗体抗原对的抗体序列和抗原序列使用[SEP]进行拼接输入到初始预测模型中,以得到该抗体抗原对的特征;还可以对抗体抗原对中的抗体序列中一个位置对应的氨基酸字符进行改变,并将改变后的抗体抗原对(或称之突变抗体抗原对)输入到初始预测模型中,以得到该突变抗体抗原对的特征。具体实现中,可以获取测试数据以及突变测试数据;该测试数据可以包括测试抗体抗原对(即上述提及的一个抗体抗原对),测试抗体抗原对可以包括测试抗体序列和测试抗原序列,突变测试数据包括对序列对中测试抗体序列的氨基酸字符进行调整的序列对(即上述提及的突变抗体抗原对)。其中,可以在测试抗体序列对应的重链中调整一个氨基酸字符,也可以在测试抗体序列对应的轻链中调整一个氨基酸字符,在本申请不做具体限定。然后,可以利用初始预测模型对测试数据进行处理,以得到针对测试数据的特征数据(即上述提及的抗体抗原对的特征),并可以利用初始预测模型对突变测试数据进行处理,得到针对突变测试数据的突变特征数据(即上述提及的突变抗体抗原对的特征)。其中,特征数据和突变特征数据可以包括利用初始预测模型所得到各个Token对应的特征向量。
进一步的,可以通过可视化的方式展示特征数据和突变特征数据,以区别特征数据和突变特征数据之间的差距,进而可以基于所展示的数据进行数据分析。例如,如图6b和图6c所示为可视化展示,其中,图6b展示的是突变前序列的特征(即特征数据),图6c展示的是突变后序列的特征(即突变特征数据)。对比图6b和图6c,可以看出突变前序列的特征与突变后序列的特征之间存在微弱的差异,因此,可以证明初始测试模型可以捕捉到突变前后的信息。
在一种可能的实现方式中,可以进一步通过特征数据和突变特征数据数据进行数据分析。例如,可以对比特征数据突变特征数据之间的差异,并确定该差异是否达到预设差异。示例性的,差异可以是特征数据突变特征数据之间的相减结果。如果确定该差异达到预测差异,则可以停止对预训练语言模型的预训练,如果确定该差异未达到预测差异,则可以在继续对预训练语言模型的预训练,直到确定差异达到预测差异。该预设差异可以预先设置。可以理解的是,差异越大,表明初始预测模型捕获突变前后序列之间的差异的能力越强,所得到的特征更为准确,对于突变前后的序列也越敏感;对应的,差异越小,表明初始预测模型捕获突变前后序列之间的差异的能力越弱。那么,通过将差异与预设差异进行比较,也可以更好的提高初始预测模型的模型效果,进而可以提高基于初始预测模型进行微调所得到的目标预测模型的模型效果。
为了更能证明本申请中初始预测模型的优势,可以进一步与Prot_BERT模型进行对比。可选的,可以将抗体抗原对和突变抗体抗原对均输入到初始预测模型中,以得到在初始预测模型的情况下,针对抗体抗原对的特征和针对突变抗体抗原对的特征;进一步的,可以将突变前后的特征进行相减,如可以将针对抗体抗原对的特征和针对突变抗体抗原对的特征进行相减,其相减结果可以作为第一特征差距;同样,可以将抗体抗原对和突变抗体抗原对均输入到Prot_BERT模型中,以得到在Prot_BERT模型的情况下,针对抗体抗原对的特征和针对突变抗体抗原对的特征;进一步的,可以将针对抗体抗原对的特征和针对突变抗体抗原对的特征进行相减,其相减结果可以作为第二特征差距。
进一步的,可以通过可视化的方式展示第一特征差距和第二特征差距,以展示第一特征差距和第二特征差距之间的区别。例如,如图6d和图6e所示为可视化展示,其中,图6d是初始预测模型突变前后的特征差距图(即是针对第一特征差距的可视化展示),图6e是Prot_BERT模型突变前后特征差距图(即是针对第二特征差距的可视化展示)。对比图6d和图6e,图6d中展示的第一特征差距浮动较大,而图6e中展示的第二特征差距浮动较小,可以看出,初始预测模型对于突变前后的序列更具有敏感,而Prot_BERT模型却不能捕捉到强信息,因此,在特征提取方面初始预测模型更具有应用价值。
为了证明初始预测模型的确学到了特征,可以对同一个抗原抗体对进行特征PCA(Principal Component Analysis,主成分分析)降维后展示。如图6f所示,从图6f中可以看到,相同的蛋白质结构(pdb)可以被低维映射到相近的位置,表明初始预测模型可以捕捉到真实序列的高维特征,证明了初始预测模型的可解释性。
S404,获取训练样本,并将训练样本中的训练抗体序列和训练抗原序列进行拼接,得到训练输入序列。
在一种实现方式中,当预训练语言模型的预训练完成之后,就是下游任务的微调。例如,该下游任务可以是实现抗体抗原对中抗体序列对抗原序列的亲和力预测。而为完成上述下游任务,可以获取训练样本以及训练样本对应的标注信息,以利用该训练样本以及训练样本对应的标注信息对初始预测模型进行微调,得到微调后的初始预测模型,可以将该微调后的初始预测模型称之为目标预测模型。该目标预测模型即可以用于实现抗体抗原对中抗体序列对抗原序列的亲和力预测。
其中,训练样本可以是有标注信息的样本;该训练样本可以包括训练抗体序列和训练抗原序列,且该训练样本还可以对应有标注信息,该标注信息可以用于指示训练样本中的训练抗体序列对训练抗原序列的亲和力。
需要说明的是,用于对初始预测模型进行微调的训练样本的数量可以是较大的,本申请主要以一个训练样本为例进行阐述。在实际场景中,相比于无标注信息的预训练样本,由于对抗体抗原对的亲和力预测比较困难,有标注信息的训练样本要相对少一些,目前,公开整理的大约1700个有标签的抗体抗原亲和力数据,则在实际微调场景中,可以获取到大约1700个有标签的抗体抗原亲和力数据,也就是可以获取到大约1700个训练样本,这些标签的数值范围为(-17,-3),此处的标签的数值可以表征亲和力,其中,数值的绝对值越大,则表明对应的亲和力越高。
其中,对训练样本中的训练抗体序列和训练抗原序列进行拼接,得到训练输入序列的具体实施方式可以参考上述确定预训练输入序列的具体实施方式,在此处不再赘述。
S405,利用训练输入序列对初始预测模型进行训练,得到训练输入序列的预测标注信息。
其中,预测标注信息用于指示训练样本中训练抗体序列对训练抗原序列的预测亲和力。
在一种实现方式中,可以利用训练输入序列对初始预测模型进行训练,以得到训练输入序列的预测标注信息。可选的,可以先确定训练输入序列所包括的Token,并确定每个Token对应的向量表征;进而可以利用每个Token对应的向量表征对初始预测模型进行训练,并得到训练输入序列的预测标注信息。
其中,确定训练输入序列所包括的Token,以及确定每个Token对应的向量表征的具体实现方式可以与上述确定预训练输入序列中包括的Token,以及每个Token对应的向量表征的实现方式相似,具体实现可以参考上述描述,在此次不再赘述。
可选的,该初始预测模型可以包括特征提取层和全连接层,特征提取层可以是BERT层,全连接层可以是Softmax层。其中,特征提取层可以用于从训练输入序列中提取特征,全连接层可以用于基于特征提取层所提取的特征进行亲和力预测。例如,初始预测模型的架构示意图可以如图3b或如图3c所示。
在一种可能的实现方式中,可以将输入序列输入初始预测模型的特征提取层,以得到该训练输入序列中各个氨基酸字符分别对应的特征向量;进一步的,各个氨基酸字符分别对应的特征向量可以输入全连接层进行回归处理,从而得到该训练输入序列的预测标注信息。
S406,基于标注信息和预测标注信息对初始预测模型进行训练,得到目标预测模型。
在一种实现方式中,可以基于标注信息和预测标注信息对初始预测模型进行微调,以得到微调后的初始预测模型,即目标预测模型。
可选的,可以获取初始预测模型对应的模型损失函数,以采用该模型损失函数,并利用标注信息和预测标注信息计算模型损失值;在得到模型损失值之后,即可以基于该模型损失值对初始预测模型进行训练,从而得到目标预测模型。例如,该模型损失函数可以是交叉熵损失函数、或其他损失函数,在本申请不做具体限定。
在一种实现方式中,通过实施表明,当预训练语言模型的预训练完成之后,进行下游任务的微调时。在具体实现中,可以利用公开整理的1708有标签的抗体抗原亲和力数据对初始预测模型进行训练(微调)时,在测试集结果上的AUC(Area under ROC Curve,ROC曲线下的曲线)精度可以达到0.899,同时在抗体亲和力预测比赛中排名前1%,证明了该初始预测模型的可行性。其中,AUC是机器学习中一个常用的性能度量指标,AUC越大,表明对应方法的效果越好。同时本申请可以脱离抽取特征这一个繁琐的环节,直接端到端的进行亲和力的预测,并达到目前较高水平。
在一种实现方式中,为了评估目标预测模型的模型性能,可以将本申请中的目标预测模型与GeoPPI框架模型的预测性能进行比较,其中,该GeoPPI框架模型可以用于预测突变后蛋白质-蛋白质结合亲和力的变化。在一种可能的实现方式中,可以获取M1101数据集以及S645数据集,以确定目标预测模型在M1101数据集以及S645数据集上的表现,并确定GeoPPI框架模型在数据集M1101以及数据集S645上的表现。例如,为了比较目标预测模型与GeoPPI框架模型的模型效果,可以利用模型的预测相关系数(可简称为相关性)来表征,其中,相关性对应的数值越大,表明对应模型的模型效果越好。
可选的,可以将M1101数据集划分为5个M1101子数据集,以利用目标预测模型与GeoPPI框架模型分别在每个M1101子数据集上进行处理,并得到对应的相关性。同理,在S645数据集上也可以作同样处理,以得到目标预测模型与GeoPPI框架模型分别在每个S645子数据集上的相关性。例如,表1所示为目标预测模型在M1101数据集以及S645数据集上的表现。其中,表1中的数据表示的是相关性。
表1:
Fold/Dataset | 1 | 2 | 3 | 4 | 5 |
M1101 | 0.57 | 0.51 | 0.33 | 0.53 | 0.49 |
S645 | 0.52 | 0.54 | 0.38 | 0.51 | 0.31 |
其中,GeoPPI框架模型在M1101数据集中的第一个M1101子数据集上的相关性为0.53,在S645数据集中的第二个S645子数据集上的相关性为0.51。根据表1中所显示的数据可知,目标预测模型在M1101数据集中的第一个M1101子数据集上的相关性为0.57,在S645数据集中的第二个S645子数据集上的相关性为0.54。通过上述的数据比较可以看出,目标预测模型在5个子数据集(如M1101子数据集和S645子数据集)中一些子数据集上可以超越GeoPPI框架模型的性能,但在一些子数据集上不如GeoPPI框架模型的性能。考虑到在对预训练语言模型进行预训练以及微调的过程中,所利用到的训练集以及测试集进行划分的时候可能按照结构进行划分,可能导致会有一些样本非常难以学习到特征。
进一步的,为了展示目标预测模型与GeoPPI框架模型的性能差异,还可以按照结构对S645数据集进行划分,以利用不同结构的数据集对目标预测模型与GeoPPI框架模型的性能进行测试。可选的,S645数据集中存在29个不同的蛋白质结构,则可以利用蛋白质结构对S645数据集进行划分,以得到29个S645子数据集,其中每一个蛋白质结构对应一个S645子数据集。进一步的,可以将这29个S645子数据集作为验证集,从而可以利用该验证集实现对目标预测模型与GeoPPI框架模型的性能测试。通过实践表明,利用验证集分别对目标预测模型与GeoPPI框架模型进行性能测试时,目标预测模型对应的相关性可以达到0.6447,而GeoPPI框架模型可以达到0.57,可以看出,目标预测模型的模型性能要明显优于GeoPPI框架模型的模型性能,这也再次证明目标预测模型的预测效果较好。同时,相比于GeoPPI框架模型,目标预测模型可以脱离抽取特征这一个繁琐的环节,直接实现端到端的亲和力预测,以减少预测复杂度,提高预测效率。
上述方法实施例都是对本申请的方法的举例说明,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。例如,训练得到目标预测模型之后,即可获取待预测的抗体抗原对,以基于目标预测模型实现对抗体抗原对的亲和力预测,得到该抗体抗原对中抗体序列对抗原序列的亲和力,此处不赘述。
在本申请实施例中,可以利用大规模的“抗体抗原对”数据作为“语料”进行自然语言模型的预训练,再利用自然语言模型实现在抗体抗原亲和力预测任务上进行微调,以得到可以进行亲和力预测的预测模型。换言之,该预测模型可以采用大量无标签的抗体抗原数据进行预训练,并结合少量的有标签的抗体抗原数据进行微调得到,从而得到一个精准且鲁棒的预测模型,进而将该预测模型应用在亲和力预测任务中,也可以提高亲和力预测的准确性。相比于传统的不采用预训练的方式所得到的预测模型,本申请中的预测模型的预测精度可以得到提升。
上面介绍了本申请实施例的方法,下面介绍本申请实施例的装置。
参见图7,图7是本申请实施例提供的一种数据处理装置的组成结构示意图,上述数据处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码);该数据处理装置可以用于执行本申请实施例提供的数据处理方法中的相应步骤。例如,该数据处理装置70包括:
获取单元701,用于获取待预测的抗体抗原对,所述抗体抗原对包括抗体序列和抗原序列;
拼接单元702,用于将所述抗体抗原对中的抗体序列和抗原序列进行拼接,得到输入序列;
预测单元703,用于调用目标预测模型对所述输入序列进行亲和力预测,得到预测结果,所述预测结果用于指示所述抗体抗原对中抗体序列对抗原序列的亲和力;
其中,所述目标预测模型是利用预训练样本对预训练语言模型进行训练得到初始预测模型之后,利用训练样本和所述训练样本对应的标注信息对所述初始预测模型进行训练得到的;所述预训练样本包括预训练抗体序列和预训练抗原序列,所述训练样本包括训练抗体序列和训练抗原序列,所述标注信息用于指示所述训练样本中训练抗体序列对训练抗原序列的亲和力。
在一种实现方式中,所述装置还包括预训练单元704;所述预训练单元704,具体用于:
获取预训练样本;所述预训练样本包括预训练抗体序列和预训练抗原序列,所述预训练抗体序列包括多个氨基酸字符,所述预训练抗原序列包括多个氨基酸字符;
将所述预训练样本中的预训练抗体序列和预训练抗原序列进行拼接,得到预训练输入序列;所述预训练输入序列包括多个氨基酸字符;
获取预训练语言模型,并利用所述预训练输入序列对所述预训练语言模型进行训练,得到初始预测模型。
在一种实现方式中,所述预训练单元704,具体用于:
对所述预训练输入序列进行掩码处理,得到所述预训练输入序列中目标氨基酸字符对应的预测氨基酸字符;所述目标氨基酸字符包括所述预训练输入序列进行掩码处理的氨基酸字符;
基于所述预测氨基酸字符和所述目标氨基酸字符对所述预训练语言模型进行训练,得到初始预测模型。
在一种实现方式中,所述预训练单元704,具体用于:
从所述预训练输入序列的氨基酸字符中获取目标氨基酸字符,并利用掩码字符替换所述目标氨基酸字符,得到目标预训练输入序列;
对所述目标预训练输入序列进行特征提取,得到所述目标预训练输入序列中各个氨基酸字符分别对应的特征向量;
基于所述各个氨基酸字符中掩码字符对应的特征向量,得到所述预训练输入序列中目标氨基酸字符对应的预测氨基酸字符。
在一种实现方式中,所述预训练单元704,具体用于:
利用所述各个氨基酸字符中掩码字符对应的特征向量进行分类处理,得到所述掩码字符的字符概率;所述字符概率包括参考氨基酸字符集中各个参考氨基酸字符分别对应的字符概率;
从所述各个参考氨基酸字符分别对应的字符概率中确定最大字符概率;
将所述最大字符概率对应的参考氨基酸字符确定为所述目标氨基酸字符对应的预测氨基酸字符。
在一种实现方式中,所述装置还包括微调单元705,所述微调单元705,具体用于:
获取训练样本,并将所述训练样本中的训练抗体序列和训练抗原序列进行拼接,得到训练输入序列;
利用所述训练输入序列对所述初始预测模型进行训练,得到所述训练输入序列的预测标注信息;所述预测标注信息用于指示训练样本中训练抗体序列对训练抗原序列的预测亲和力;
基于所述标注信息和所述预测标注信息对所述初始预测模型进行训练,得到目标预测模型。
在一种实现方式中,所述拼接单元702,具体用于:
将所述抗体序列和所述抗原序列利用分割字符进行拼接,得到拼接序列,所述分割字符用于分割所述抗体序列和所述抗原序列;
利用预设字符与所述拼接序列进行拼接,得到输入序列。
在一种实现方式中,所述装置还包括测试单元706,所述测试单元706,具体用于:
获取测试数据以及突变测试数据;所述测试数据包括测试抗体抗原对,所述测试抗体抗原对包括测试抗体序列和测试抗原序列,所述突变测试数据包括对所述序列对中测试抗体序列的氨基酸字符进行调整的序列对;
利用所述初始预测模型对所述测试数据进行处理,得到针对所述测试数据的特征数据,并利用所述初始预测模型对所述突变测试数据进行处理,得到针对所述突变测试数据的突变特征数据;
通过可视化的方式展示所述特征数据和所述突变特征数据。
可以理解,本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。本申请实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
基于上述数据处理方法实施例的描述,本申请实施例还公开了一种计算机设备,请参见图8,图8是本申请实施例提供的一种计算机设备的组成结构示意图。如图8所示,上述计算机设备80可以包括:处理器801、存储器802。可选的,该计算机设备80还可包括网络接口803。处理器801连接到存储器802和网络接口803,例如处理器801可以通过总线连接到存储器802和网络接口803。
处理器801被配置为支持数据处理装置执行上述的数据处理方法中相应的功能。该处理器801可以是中央处理器(Central Processing Unit,CPU),网络处理器(NetworkProcessor,NP),硬件芯片或者其任意组合。上述硬件芯片可以是专用集成电路(Application-Specific Integrated Circuit,ASIC),可编程逻辑器件(ProgrammableLogic Device,PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(ComplexProgrammable Logic Device,CPLD),现场可编程逻辑门阵列(Field-Programmable GateArray,FPGA),通用阵列逻辑(Generic Array Logic,GAL)或其任意组合。
存储器802存储器用于存储程序代码等。存储器802可以包括易失性存储器(Volatile Memory,VM),例如随机存取存储器(Random Access Memory,RAM);存储器802也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如只读存储器(Read-OnlyMemory,ROM),快闪存储器(flash memory),硬盘(Hard Disk Drive,HDD)或固态硬盘(Solid-State Drive,SSD);存储器802还可以包括上述种类的存储器的组合。本申请实施例中,存储器802用于存储网站安全检测的程序、交互流量数据等。
网络接口803用于提供网络通讯功能。
处理器801可以调用该程序代码以执行以下操作:
获取待预测的抗体抗原对,所述抗体抗原对包括抗体序列和抗原序列;
将所述抗体抗原对中的抗体序列和抗原序列进行拼接,得到输入序列;
调用目标预测模型对所述输入序列进行亲和力预测,得到预测结果,所述预测结果用于指示所述抗体抗原对中抗体序列对抗原序列的亲和力;
其中,所述目标预测模型是利用预训练样本对预训练语言模型进行训练得到初始预测模型之后,利用训练样本和所述训练样本对应的标注信息对所述初始预测模型进行训练得到的;所述预训练样本包括预训练抗体序列和预训练抗原序列,所述训练样本包括训练抗体序列和训练抗原序列,所述标注信息用于指示所述训练样本中训练抗体序列对训练抗原序列的亲和力。
在一种实现方式中,所述处理器801,还用于:
获取预训练样本;所述预训练样本包括预训练抗体序列和预训练抗原序列,所述预训练抗体序列包括多个氨基酸字符,所述预训练抗原序列包括多个氨基酸字符;
将所述预训练样本中的预训练抗体序列和预训练抗原序列进行拼接,得到预训练输入序列;所述预训练输入序列包括多个氨基酸字符;
获取预训练语言模型,并利用所述预训练输入序列对所述预训练语言模型进行训练,得到初始预测模型。
在一种实现方式中,所述处理器801,具体用于:
对所述预训练输入序列进行掩码处理,得到所述预训练输入序列中目标氨基酸字符对应的预测氨基酸字符;所述目标氨基酸字符包括所述预训练输入序列进行掩码处理的氨基酸字符;
基于所述预测氨基酸字符和所述目标氨基酸字符对所述预训练语言模型进行训练,得到初始预测模型。
在一种实现方式中,所述处理器801,具体用于:
从所述预训练输入序列的氨基酸字符中获取目标氨基酸字符,并利用掩码字符替换所述目标氨基酸字符,得到目标预训练输入序列;
对所述目标预训练输入序列进行特征提取,得到所述目标预训练输入序列中各个氨基酸字符分别对应的特征向量;
基于所述各个氨基酸字符中掩码字符对应的特征向量,得到所述预训练输入序列中目标氨基酸字符对应的预测氨基酸字符。
在一种实现方式中,所述处理器801,具体用于:
利用所述各个氨基酸字符中掩码字符对应的特征向量进行分类处理,得到所述掩码字符的字符概率;所述字符概率包括参考氨基酸字符集中各个参考氨基酸字符分别对应的字符概率;
从所述各个参考氨基酸字符分别对应的字符概率中确定最大字符概率;
将所述最大字符概率对应的参考氨基酸字符确定为所述目标氨基酸字符对应的预测氨基酸字符。
在一种实现方式中,所述处理器801,还用于:
获取训练样本,并将所述训练样本中的训练抗体序列和训练抗原序列进行拼接,得到训练输入序列;
利用所述训练输入序列对所述初始预测模型进行训练,得到所述训练输入序列的预测标注信息;所述预测标注信息用于指示训练样本中训练抗体序列对训练抗原序列的预测亲和力;
基于所述标注信息和所述预测标注信息对所述初始预测模型进行训练,得到目标预测模型。
在一种实现方式中,所述处理器801,具体用于:
将所述抗体序列和所述抗原序列利用分割字符进行拼接,得到拼接序列,所述分割字符用于分割所述抗体序列和所述抗原序列;
利用预设字符与所述拼接序列进行拼接,得到输入序列。
在一种实现方式中,所述处理器801,还用于:
获取测试数据以及突变测试数据;所述测试数据包括测试抗体抗原对,所述测试抗体抗原对包括测试抗体序列和测试抗原序列,所述突变测试数据包括对所述序列对中测试抗体序列的氨基酸字符进行调整的序列对;
利用所述初始预测模型对所述测试数据进行处理,得到针对所述测试数据的特征数据,并利用所述初始预测模型对所述突变测试数据进行处理,得到针对所述突变测试数据的突变特征数据;
通过可视化的方式展示所述特征数据和所述突变特征数据。
本申请实施例还提供了一种计算机存储介质,该计算机存储介质中存储有程序指令,程序执行时可包括如图2或者图4对应实施例中的数据处理方法的部分或全部步骤。
需要说明的是,对于前述的各个方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random AccessMemory,RAM)、磁盘或光盘等。
本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可从计算机可读存储介质读取该计算机指令,处理器可执行该计算机指令,使得该计算机设备执行上述各方法的实施例中所执行的步骤。
本申请还涉及到区块链的相关技术。其中,区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。区块链中包括一系列按照产生的先后时间顺序相互接续的区块(Block),新区块一旦加入到区块链中就不会再被移除,区块中记录了区块链系统中节点提交的记录数据。本申请中,可以将所获取到的数据添加至区块链中进行存储,以保证数据的不可篡改性。
以上对本申请实施例所提供的一种数据处理方法、装置、计算机设备、介质及程序产品进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (12)
1.一种数据处理方法,其特征在于,包括:
获取待预测的抗体抗原对,所述抗体抗原对包括抗体序列和抗原序列;
将所述抗体抗原对中的抗体序列和抗原序列进行拼接,得到输入序列;
调用目标预测模型对所述输入序列进行亲和力预测,得到预测结果,所述预测结果用于指示所述抗体抗原对中抗体序列对抗原序列的亲和力;
其中,所述目标预测模型是利用预训练样本对预训练语言模型进行训练得到初始预测模型之后,利用训练样本和所述训练样本对应的标注信息对所述初始预测模型进行训练得到的;所述预训练样本包括预训练抗体序列和预训练抗原序列,所述训练样本包括训练抗体序列和训练抗原序列,所述标注信息用于指示所述训练样本中训练抗体序列对训练抗原序列的亲和力。
2.根据权利要求1所述的方法,其特征在于,还包括:
获取预训练样本;所述预训练样本包括预训练抗体序列和预训练抗原序列,所述预训练抗体序列包括多个氨基酸字符,所述预训练抗原序列包括多个氨基酸字符;
将所述预训练样本中的预训练抗体序列和预训练抗原序列进行拼接,得到预训练输入序列;所述预训练输入序列包括多个氨基酸字符;
获取预训练语言模型,并利用所述预训练输入序列对所述预训练语言模型进行训练,得到初始预测模型。
3.根据权利要求2所述的方法,其特征在于,所述利用所述预训练输入序列对所述预训练语言模型进行训练,得到初始预测模型,包括:
对所述预训练输入序列进行掩码处理,得到所述预训练输入序列中目标氨基酸字符对应的预测氨基酸字符;所述目标氨基酸字符包括所述预训练输入序列进行掩码处理的氨基酸字符;
基于所述预测氨基酸字符和所述目标氨基酸字符对所述预训练语言模型进行训练,得到初始预测模型。
4.根据权利要求3所述的方法,其特征在于,所述对所述预训练输入序列进行掩码处理,得到所述预训练输入序列中目标氨基酸字符对应的预测氨基酸字符,包括:
从所述预训练输入序列的氨基酸字符中获取目标氨基酸字符,并利用掩码字符替换所述目标氨基酸字符,得到目标预训练输入序列;
对所述目标预训练输入序列进行特征提取,得到所述目标预训练输入序列中各个氨基酸字符分别对应的特征向量;
基于所述各个氨基酸字符中掩码字符对应的特征向量,得到所述预训练输入序列中目标氨基酸字符对应的预测氨基酸字符。
5.根据权利要求4所述的方法,其特征在于,所述基于所述各个氨基酸字符中掩码字符对应的特征向量,得到所述预训练输入序列中目标氨基酸字符对应的预测氨基酸字符,包括:
利用所述各个氨基酸字符中掩码字符对应的特征向量进行分类处理,得到所述掩码字符的字符概率;所述字符概率包括参考氨基酸字符集中各个参考氨基酸字符分别对应的字符概率;
从所述各个参考氨基酸字符分别对应的字符概率中确定最大字符概率;
将所述最大字符概率对应的参考氨基酸字符确定为所述目标氨基酸字符对应的预测氨基酸字符。
6.根据权利要求2所述的方法,其特征在于,还包括:
获取训练样本,并将所述训练样本中的训练抗体序列和训练抗原序列进行拼接,得到训练输入序列;
利用所述训练输入序列对所述初始预测模型进行训练,得到所述训练输入序列的预测标注信息;所述预测标注信息用于指示训练样本中训练抗体序列对训练抗原序列的预测亲和力;
基于所述标注信息和所述预测标注信息对所述初始预测模型进行训练,得到目标预测模型。
7.根据权利要求1所述的方法,其特征在于,所述将所述待预测的抗体抗原对中的抗体序列和抗原序列进行拼接,得到输入序列,包括:
将所述抗体序列和所述抗原序列利用分割字符进行拼接,得到拼接序列,所述分割字符用于分割所述抗体序列和所述抗原序列;
利用预设字符与所述拼接序列进行拼接,得到输入序列。
8.根据权利要求2所述的方法,其特征在于,还包括:
获取测试数据以及突变测试数据;所述测试数据包括测试抗体抗原对,所述测试抗体抗原对包括测试抗体序列和测试抗原序列,所述突变测试数据包括对所述序列对中测试抗体序列的氨基酸字符进行调整的序列对;
利用所述初始预测模型对所述测试数据进行处理,得到针对所述测试数据的特征数据,并利用所述初始预测模型对所述突变测试数据进行处理,得到针对所述突变测试数据的突变特征数据;
通过可视化的方式展示所述特征数据和所述突变特征数据。
9.一种数据处理装置,其特征在于,包括:
获取单元,用于获取待预测的抗体抗原对,所述抗体抗原对包括抗体序列和抗原序列;
拼接单元,用于将所述抗体抗原对中的抗体序列和抗原序列进行拼接,得到输入序列;
预测单元,用于调用目标预测模型对所述输入序列进行亲和力预测,得到预测结果,所述预测结果用于指示所述抗体抗原对中抗体序列对抗原序列的亲和力;
其中,所述目标预测模型是利用预训练样本对预训练语言模型进行训练得到初始预测模型之后,利用训练样本和所述训练样本对应的标注信息对所述初始预测模型进行训练得到的;所述预训练样本包括预训练抗体序列和预训练抗原序列,所述训练样本包括训练抗体序列和训练抗原序列,所述标注信息用于指示所述训练样本中训练抗体序列对训练抗原序列的亲和力。
10.一种计算机设备,其特征在于,包括:处理器、存储器以及网络接口;
所述处理器与所述存储器、所述网络接口相连,其中,所述网络接口用于提供数据通信功能,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,以使得所述计算机设备执行权利要求1-8任一项所述的方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序适于由处理器加载并执行,以使得具有所述处理器的计算机设备执行权利要求1-8任一项所述的方法。
12.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机指令,所述计算机指令被处理器执行时实现权利要求1-8任一项所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210483905.3A CN115116548A (zh) | 2022-05-05 | 2022-05-05 | 数据处理方法、装置、计算机设备、介质及程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210483905.3A CN115116548A (zh) | 2022-05-05 | 2022-05-05 | 数据处理方法、装置、计算机设备、介质及程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115116548A true CN115116548A (zh) | 2022-09-27 |
Family
ID=83326625
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210483905.3A Pending CN115116548A (zh) | 2022-05-05 | 2022-05-05 | 数据处理方法、装置、计算机设备、介质及程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115116548A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102439591A (zh) * | 2009-02-25 | 2012-05-02 | 特拉华大学 | 识别结构上或功能上重要的氨基酸序列的系统和方法 |
CN113764037A (zh) * | 2021-05-28 | 2021-12-07 | 腾讯科技(深圳)有限公司 | 模型训练、抗体改造和结合位点预测的方法与装置 |
CN113808664A (zh) * | 2021-09-26 | 2021-12-17 | 平安科技(深圳)有限公司 | 基于机器学习的抗体筛选方法及装置 |
CN114008713A (zh) * | 2019-06-07 | 2022-02-01 | 中外制药株式会社 | 信息处理系统、信息处理方法、程序、以及制备抗原结合分子或蛋白质的方法 |
WO2022026551A1 (en) * | 2020-07-28 | 2022-02-03 | Flagship Pioneering Innovations Vi, Llc | Deep learning for de novo antibody affinity maturation (modification) and property improvement |
US20220122689A1 (en) * | 2020-10-15 | 2022-04-21 | Salesforce.Com, Inc. | Systems and methods for alignment-based pre-training of protein prediction models |
-
2022
- 2022-05-05 CN CN202210483905.3A patent/CN115116548A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102439591A (zh) * | 2009-02-25 | 2012-05-02 | 特拉华大学 | 识别结构上或功能上重要的氨基酸序列的系统和方法 |
CN114008713A (zh) * | 2019-06-07 | 2022-02-01 | 中外制药株式会社 | 信息处理系统、信息处理方法、程序、以及制备抗原结合分子或蛋白质的方法 |
WO2022026551A1 (en) * | 2020-07-28 | 2022-02-03 | Flagship Pioneering Innovations Vi, Llc | Deep learning for de novo antibody affinity maturation (modification) and property improvement |
US20220122689A1 (en) * | 2020-10-15 | 2022-04-21 | Salesforce.Com, Inc. | Systems and methods for alignment-based pre-training of protein prediction models |
CN113764037A (zh) * | 2021-05-28 | 2021-12-07 | 腾讯科技(深圳)有限公司 | 模型训练、抗体改造和结合位点预测的方法与装置 |
CN113808664A (zh) * | 2021-09-26 | 2021-12-17 | 平安科技(深圳)有限公司 | 基于机器学习的抗体筛选方法及装置 |
Non-Patent Citations (3)
Title |
---|
JACOB DEVLIN等: "BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding", ARXIV * |
李海潮;陈强;: "基于人工免疫的监督学习模型及其应用", 计算技术与自动化, no. 02 * |
蔡曦;胡昌华;刘炳杰;: "基于免疫神经网络的陀螺仪漂移预测", 计算机工程, no. 24 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112949786B (zh) | 数据分类识别方法、装置、设备及可读存储介质 | |
CN111897964B (zh) | 文本分类模型训练方法、装置、设备及存储介质 | |
CN112966074B (zh) | 一种情感分析方法、装置、电子设备以及存储介质 | |
CN113139628B (zh) | 样本图像的识别方法、装置、设备及可读存储介质 | |
CN111737552A (zh) | 训练信息抽取模型和获取知识图谱的方法、装置和设备 | |
CN112084331A (zh) | 文本处理、模型训练方法、装置、计算机设备和存储介质 | |
CN113011186B (zh) | 命名实体识别方法、装置、设备及计算机可读存储介质 | |
CN111046275B (zh) | 基于人工智能的用户标签确定方法及装置、存储介质 | |
CN113704460B (zh) | 一种文本分类方法、装置、电子设备和存储介质 | |
CN112988963B (zh) | 基于多流程节点的用户意图预测方法、装置、设备及介质 | |
CN113095415A (zh) | 一种基于多模态注意力机制的跨模态哈希方法及系统 | |
CN115221846A (zh) | 一种数据处理方法及相关设备 | |
CN113722474A (zh) | 文本分类方法、装置、设备及存储介质 | |
CN116975350A (zh) | 图文检索方法、装置、设备及存储介质 | |
CN117521675A (zh) | 基于大语言模型的信息处理方法、装置、设备及存储介质 | |
Zhu et al. | NAGNet: A novel framework for real‐time students' sentiment analysis in the wisdom classroom | |
CN113516142A (zh) | 文本图像匹配方法、装置、设备及存储介质 | |
CN116955591A (zh) | 用于内容推荐的推荐语生成方法、相关装置和介质 | |
CN113610080B (zh) | 基于跨模态感知的敏感图像识别方法、装置、设备及介质 | |
CN115129849A (zh) | 题目表示的获取方法、设备以及计算机可读存储介质 | |
CN115116548A (zh) | 数据处理方法、装置、计算机设备、介质及程序产品 | |
CN115130461A (zh) | 一种文本匹配方法、装置、电子设备及存储介质 | |
CN114510561A (zh) | 答案选择方法、装置、设备及存储介质 | |
CN113821610A (zh) | 信息匹配方法、装置、设备及存储介质 | |
Abu-Jamie et al. | Classification of Sign-Language Using Deep Learning by ResNet |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |