CN115312127B - 识别模型的预训练方法、识别方法、装置、介质和设备 - Google Patents
识别模型的预训练方法、识别方法、装置、介质和设备 Download PDFInfo
- Publication number
- CN115312127B CN115312127B CN202210947783.9A CN202210947783A CN115312127B CN 115312127 B CN115312127 B CN 115312127B CN 202210947783 A CN202210947783 A CN 202210947783A CN 115312127 B CN115312127 B CN 115312127B
- Authority
- CN
- China
- Prior art keywords
- protein
- training
- sequence
- knowledge
- recognition model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 278
- 238000000034 method Methods 0.000 title claims abstract description 89
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 460
- 102000004169 proteins and genes Human genes 0.000 claims abstract description 376
- 230000000873 masking effect Effects 0.000 claims abstract description 67
- 238000000605 extraction Methods 0.000 claims abstract description 33
- 230000004927 fusion Effects 0.000 claims abstract description 30
- 238000004590 computer program Methods 0.000 claims description 19
- 230000007246 mechanism Effects 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 16
- 238000005070 sampling Methods 0.000 claims description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 8
- 238000010586 diagram Methods 0.000 description 26
- 230000006870 function Effects 0.000 description 21
- 230000008569 process Effects 0.000 description 16
- 238000004891 communication Methods 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 230000031018 biological processes and functions Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 210000004027 cell Anatomy 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 238000013475 authorization Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000012509 protein identification method Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 241000206602 Eukaryota Species 0.000 description 1
- 238000005481 NMR spectroscopy Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000004071 biological effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000004879 molecular function Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- -1 relationship Proteins 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 229960005486 vaccine Drugs 0.000 description 1
- 238000002424 x-ray crystallography Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Theoretical Computer Science (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Bioethics (AREA)
- Genetics & Genomics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Image Analysis (AREA)
Abstract
本公开涉及一种识别模型的预训练方法、识别方法、装置、介质和设备,涉及电子信息技术领域,该方法包括:获取预训练样本集和蛋白质知识图谱,针对每个预训练蛋白质序列,对该预训练蛋白质序列进行掩蔽操作,得到该预训练蛋白质序列对应的掩蔽序列,利用预设的识别模型对每个预训练蛋白质序列对应的掩蔽序列进行特征提取,得到序列特征,并对包含该预训练蛋白质序列的三元组进行特征提取,得到知识特征,利用识别模型对序列特征和知识特征进行融合,并根据融合结果进行解码,以得到解码结果,根据解码结果、该预训练蛋白质序列和蛋白质知识图谱,对识别模型进行预训练,预训练后的识别模型,经过微调能够对蛋白质进行识别。
Description
技术领域
本公开涉及电子信息技术领域,具体地,涉及一种识别模型的预训练方法、识别方法、装置、介质和设备。
背景技术
蛋白质是机体细胞最基本的组成部分,对蛋白质的研究有助于理解生物的本质,从而推动生物技术、医疗技术的发展,例如蛋白质的结构能够用于判断蛋白质的功能,有助于药物、疫苗的研发。传统的方式,是在实验室中通过X射线结晶学和核磁共振等方式计算出蛋白质的结构,耗时耗力。由于蛋白质序列与文本具有一定的相似度,受NLP(英文:Natural Language Processing,中文:自然语言处理)技术的启发,可以利用已知的蛋白质序列预训练识别模型,使得识别模型能够被微调(英文:Fine-tune)来完成对蛋白质的识别。然而,蛋白质序列通常比文本要长很多,预训练过程需要大量的计算资源,很难进行实际应用。
发明内容
提供该发明内容部分以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该发明内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
第一方面,本公开提供一种识别模型的预训练方法,所述方法包括:
获取预训练样本集和蛋白质知识图谱,所述预训练样本集中包括多个预训练蛋白质序列,所述蛋白质知识图谱包括多个三元组,每个所述三元组由蛋白质、基因本体,以及蛋白质与基因本体之间的关系组成;
针对每个所述预训练蛋白质序列,对该预训练蛋白质序列进行掩蔽操作,得到该预训练蛋白质序列对应的掩蔽序列;
利用预设的识别模型对每个预训练蛋白质序列对应的掩蔽序列进行特征提取,得到序列特征,并对包含该预训练蛋白质序列的三元组进行特征提取,得到知识特征;
利用所述识别模型对所述序列特征和所述知识特征进行融合,并根据融合结果进行解码,以得到解码结果;
根据所述解码结果、该预训练蛋白质序列和所述蛋白质知识图谱,对所述识别模型进行预训练,预训练后的所述识别模型,经过微调能够对蛋白质进行识别。
第二方面,本公开提供一种蛋白质识别方法,所述方法包括:
获取待识别的目标蛋白质对应的目标序列;
将所述目标序列输入蛋白质识别模型,以确定所述目标蛋白质的识别信息,所述识别信息包括以下至少一种:所述目标蛋白质的二级结构、残基接触、远程同源性、稳定性,以及荧光性;
所述蛋白质识别模型为根据训练样本集对本公开第一方面所述的识别模型进行微调得到的,所述训练样本集包括多个训练蛋白质序列。
第三方面,本公开提供一种蛋识别模型的预训练装置,所述装置包括:
获取模块,用于获取预训练样本集和蛋白质知识图谱,所述预训练样本集中包括多个预训练蛋白质序列,所述蛋白质知识图谱包括多个三元组,每个所述三元组由蛋白质、基因本体,以及蛋白质与基因本体之间的关系组成;
掩蔽模块,用于针对每个所述预训练蛋白质序列,对该预训练蛋白质序列进行掩蔽操作,得到该预训练蛋白质序列对应的掩蔽序列;
预训练模块,用于利用预设的识别模型对每个预训练蛋白质序列对应的掩蔽序列进行特征提取,得到序列特征,并对包含该预训练蛋白质序列的三元组进行特征提取,得到知识特征;利用所述识别模型对所述序列特征和所述知识特征进行融合,并根据融合结果进行解码,以得到解码结果;根据所述解码结果、该预训练蛋白质序列和所述蛋白质知识图谱,对所述识别模型进行预训练,预训练后的所述识别模型,经过微调能够对蛋白质进行识别。
第四方面,本公开提供一种蛋白质识别装置,所述装置包括:
获取模块,用于获取待识别的目标蛋白质对应的目标序列;
识别模块,用于将所述目标序列输入蛋白质识别模型,以确定所述目标蛋白质的识别信息,所述识别信息包括以下至少一种:所述目标蛋白质的二级结构、残基接触、远程同源性、稳定性,以及荧光性;
所述蛋白质识别模型为根据训练样本集对本公开第一方面所述的识别模型进行微调得到的,所述训练样本集包括多个训练蛋白质序列。
第五方面,本公开提供一种计算机可读介质,其上存储有计算机程序,该程序被处理装置执行时实现本公开第一方面所述方法的步骤。
第六方面,本公开提供一种计算机可读介质,其上存储有计算机程序,该程序被处理装置执行时实现本公开第二方面所述方法的步骤。
第七方面,本公开提供一种电子设备,包括:
存储装置,其上存储有计算机程序;
处理装置,用于执行所述存储装置中的所述计算机程序,以实现本公开第一方面所述方法的步骤。
第八方面,本公开提供一种电子设备,包括:
存储装置,其上存储有计算机程序;
处理装置,用于执行所述存储装置中的所述计算机程序,以实现本公开第二方面所述方法的步骤。
通过上述技术方案,本公开首先获取蛋白质知识图谱和多个预训练蛋白质序列,蛋白质知识图谱包括多个由蛋白质、基因本体、关系组成的三元组。之后对每个预训练蛋白质序列进行掩蔽操作,得到对应的掩蔽序列。然后利用识别模型分别对每个预训练蛋白质序列对应的掩蔽序列和包含该预训练蛋白质序列的三元组进行特征提取,得到序列特征和知识特征,再利用识别模型对序列特征和知识特征进行融合并进行解码,最后根据解码结果、该预训练蛋白质序列和蛋白质知识图谱对预设的识别模型进行预训练。预训练后的识别模型,经过微调能够对蛋白质进行识别。本公开将序列特征和知识特征进行融合再解码,使得蛋白质知识图谱能够直接影响到识别模型的输出结果,这样在预训练的过程中,识别模型能够充分学习蛋白质知识图谱所包含的信息,提升了识别模型的能力,从而提高识别模型用于下游任务的准确度。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。在附图中:
图1是根据一示例性实施例示出的一种识别模型的预训练方法的流程图;
图2是根据一示例性实施例示出的一种识别模型的结构示意图;
图3是根据一示例性实施例示出的另一种识别模型的预训练方法的流程图;
图4是根据一示例性实施例示出的另一种识别模型的预训练方法的流程图;
图5是根据一示例性实施例示出的另一种识别模型的预训练方法的流程图;
图6是根据一示例性实施例示出的另一种识别模型的预训练方法的流程图;
图7是根据一示例性实施例示出的另一种识别模型的预训练方法的流程图;
图8是根据一示例性实施例示出的一种解码层的结构示意图;
图9是根据一示例性实施例示出的一种蛋白质识别方法的流程图;
图10是根据一示例性实施例示出的一种蛋白质识别模型的结构示意图;
图11是根据一示例性实施例示出的一种识别模型的预训练装置的框图;
图12是根据一示例性实施例示出的另一种识别模型的预训练装置的框图;
图13是根据一示例性实施例示出的另一种识别模型的预训练装置的框图;
图14是根据一示例性实施例示出的一种蛋白质识别装置的框图;
图15是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
可以理解的是,在使用本公开各实施例公开的技术方案之前,均应当依据相关法律法规通过恰当的方式对本公开所涉及个人信息的类型、使用范围、使用场景等告知用户并获得用户的授权。
例如,在响应于接收到用户的主动请求时,向用户发送提示信息,以明确地提示用户,其请求执行的操作将需要获取和使用到用户的个人信息。从而,使得用户可以根据提示信息来自主地选择是否向执行本公开技术方案的操作的电子设备、应用程序、服务器或存储介质等软件或硬件提供个人信息。
作为一种可选的但非限定性的实现方式,响应于接收到用户的主动请求,向用户发送提示信息的方式例如可以是弹窗的方式,弹窗中可以以文字的方式呈现提示信息。此外,弹窗中还可以承载供用户选择“同意”或者“不同意”向电子设备提供个人信息的选择控件。
可以理解的是,上述通知和获取用户授权过程仅是示意性的,不对本公开的实现方式构成限定,其它满足相关法律法规的方式也可应用于本公开的实现方式中。
同时,可以理解的是,本技术方案所涉及的数据(包括但不限于数据本身、数据的获取或使用)应当遵循相应法律法规及相关规定的要求。
图1是根据一示例性实施例示出的一种识别模型的预训练方法的流程图,如图1所示,该方法包括:
步骤101,获取预训练样本集和蛋白质知识图谱,预训练样本集中包括多个预训练蛋白质序列,蛋白质知识图谱包括多个三元组,每个三元组由蛋白质、基因本体,以及蛋白质与基因本体之间的关系组成。
步骤102,针对每个预训练蛋白质序列,对该预训练蛋白质序列进行掩蔽操作,得到该预训练蛋白质序列对应的掩蔽序列。
举例来说,对识别模型的预训练过程,首先要获取用于预训练识别模型的样本输入集和样本输出集。样本输入集中包括多个样本输入,样本输出集中包括了与每个样本输入对应的样本输出。可以预先获取包括多个预训练蛋白质序列的预训练样本集,例如可以将Swiss-Prot数据库中包括的蛋白质序列作为预训练样本集。还可以获取蛋白质知识图谱,蛋白质知识图谱中包括多个三元组,每个三元组包括了蛋白质、基因本体(英文:GeneOntology,缩写:GO),以及蛋白质与基因本体之间的关系,三元组可以表示为(蛋白质,relation,基因本体)。基因本体是具有动态形式的控制字汇,用于解释真核生物的基因或者蛋白质在细胞内所扮演的角色及生物医学方面的知识,关系是文字描述,用于描述三元组中蛋白质与基因本体之间的关联,因此蛋白质知识图谱包含了能够描述蛋白质各种特性的信息。
之后可以对预训练样本集中的每个预训练蛋白质序列进行掩蔽操作(英文:mask),得到该预训练蛋白质序列对应的掩蔽序列。每个预训练蛋白质序列进行掩蔽操作的掩蔽位置可以是一个也可以是多个,例如可以是预训练蛋白质序列中的第15位、第173位、第210位等。掩蔽位置的确定,可以是随机生成的,也可以按照预设算法确定的,本公开对此不作具体限定。可以将一个预训练蛋白质序列对应的掩蔽序列,与包含该预训练蛋白质序列的三元组作为一个样本输入,将该预训练蛋白质序列作为对应的样本输出,从而得到样本输入集和样本输出集。
步骤103,利用预设的识别模型对每个预训练蛋白质序列对应的掩蔽序列进行特征提取,得到序列特征,并对包含该预训练蛋白质序列的三元组进行特征提取,得到知识特征。
步骤104,利用识别模型对序列特征和知识特征进行融合,并根据融合结果进行解码,以得到解码结果。
步骤105,根据解码结果、该预训练蛋白质序列和蛋白质知识图谱,对识别模型进行预训练,预训练后的识别模型,经过微调能够对蛋白质进行识别。
示例的,可以将样本输入集作为预设的识别模型的输入,然后再将样本输出集作为识别模型的输出,来对识别模型进行预训练,使得在输入样本输入集时,识别模型的输出,能够和样本输出集匹配。具体的,可以将样本输入集包括的每个预训练蛋白质序列对应的掩蔽序列和包含该预训练蛋白质序列的三元组作为识别模型的输入,然后根据识别模型的输出,以及该预训练蛋白质序列和蛋白质知识图谱,对识别模型进行预训练。例如,可以先利用识别模型分别对每个预训练蛋白质序列对应的掩蔽序列进行特征提取,得到序列特征,并对包含该预训练蛋白质序列的三元组进行特征提取,得到知识特征。序列特征用于表征该预训练蛋白质序列对应的掩蔽序列,知识特征用于表征包含该预训练蛋白质序列的三元组。
之后,利用识别模型对序列特征和知识特征进行融合,例如可以将序列特征和知识特征进行拼接,得到融合结果,也可以利用注意力机制对序列特征和知识特征进行融合,得到融合结果,还可以按照预设权重对序列特征和知识特征进行加权求和,得到融合结果,本公开对此不作具体限定。然后根据融合结果进行解码,以得到解码结果。最后根据解码结果、该预训练蛋白质序列和蛋白质知识图谱,对识别模型进行预训练。例如,可以根据解码结果、该预训练蛋白质序列和蛋白质知识图谱确定识别模型的损失函数,以降低损失函数为目标,利用反向传播算法来修正识别模型中的神经元的参数,神经元的参数例如可以是神经元的权重(英文:Weight)和偏置量(英文:Bias)。重复上述步骤,直至损失函数满足预设条件,例如损失函数小于预设的损失阈值,或者损失函数收敛,以达到预训练识别模型的目的。预训练得到的识别模型,可以根据具体的下游任务进行微调,使得微调后的识别模型能够完成下游任务,对蛋白质进行识别。下游任务例如可以是识别蛋白质的二级结构,识别蛋白质的残基接触,或者识别蛋白质的远程同源性等。
识别模型分别提取序列特征和知识特征,并对序列特征和知识特征进行融合再解码,使得蛋白质知识图谱能够直接影响到识别模型的输出结果,即解码结果,这样在预训练的过程中,识别模型在学习预训练蛋白质序列的同时,还能够充分学习蛋白质知识图谱所包含的信息,提升了识别模型的能力,从而提高识别模型用于下游任务的准确度。
在一种应用场景中,识别模型的结构可以包括:序列编码器、知识编码器和解码器,序列编码器的输入和知识编码器的输入作为识别模型的输入,序列编码器的输出和知识编码器的输出一同输入解码器,解码器的输出作为识别模型的输出,如图2所示。
图3是根据一示例性实施例示出的另一种识别模型的预训练方法的流程图,如图3所示,步骤103的实现方式可以包括:
步骤1031,利用序列编码器对该预训练蛋白质序列对应的掩蔽序列进行特征提取,得到序列特征。
示例的,将该预训练蛋白质序列对应的掩蔽序列输入序列编码器,以使序列编码器进行特征提取,可以根据序列编码器的输出确定序列特征(可以表示为proteinembedding),特征提取过程也可以理解为编码过程,序列特征也可以理解为该预训练蛋白质序列的向量表示。在一种实现方式中,可以将序列编码器的输出直接作为序列特征。在另一种实现方式中,还可以根据进行掩蔽操作的掩蔽位置,生成该预训练蛋白质序列对应的掩蔽令牌(可以表示为masked token),掩蔽令牌与掩蔽位置一一对应,可以理解为一个共享,可学习的向量,同时,掩蔽令牌中还可以包括用于表征掩蔽位置的位置向量。也就说是,掩蔽令牌用于表示掩蔽位置处的信息。可以将编码器的输出与掩蔽令牌进行融合得到的结果作为序列特征。序列编码器可以是采用ProtBert中的Encoder,也可以采用其他PPLM(英文:Protein Pre-trained Language Models)中的Encoder,本公开对此不作具体限定。
步骤1032,利用知识编码器分别对包含该预训练蛋白质序列的三元组中的基因本体和关系进行特征提取,得到基因本体特征和关系特征。
步骤1033,根据基因本体特征和关系特征,确定知识特征,知识特征用于表征包含该预训练蛋白质序列的三元组。
示例的,可以分别将包含该预训练蛋白质序列的三元组中的基因本体和关系输入知识编码器,以使知识编码器进行特征提取,得到知识编码器输出的基因本体特征(可以表示为GO embedding)和关系特征(可以表示为relation embedding),特征提取过程也可以理解为编码过程,基因本体特征可以理解为包含该预训练蛋白质序列的三元组中的基因本体的向量表示,同样的,关系特征可以理解为包含该预训练蛋白质序列的三元组中的关系的向量表示。
之后,可以根据基因本体特征和关系特征,确定用于表征包含该预训练蛋白质序列的三元组的知识特征(可以表示为knowledge embedding)。具体的,可以将基因本体特征和关系特征进行拼接(英文:Concat),将拼接得到的结果作为知识特征。也可以利用注意力机制对基因本体特征和关系特征进行融合,得到知识特征。例如,识别模型中可以包括一个注意力单元,如图2所示,将基因本体特征和关系特征输入该注意力单元,得到注意力单元输出的知识特征。注意力单元的实现可以通过公式1来表示:
Eknowledge=fGO+Attn(fGOWQ,fRWK,fKWV)
其中,Eknowledge表示知识特征,fGO表示基因本体特征,fR表示关系特征,Attn表示注意力机制,可以将fGO作为注意力机制的Query(表示为Q),将fR作为注意力机制的Key(表示为K)和Value(表示为V),WQ表示Query对应的权重矩阵,WK表示Key对应的权重矩阵,WV表示Value对应的权重矩阵,dk表示Key的长度。
图4是根据一示例性实施例示出的另一种识别模型的预训练方法的流程图,如图4所示,步骤101可以通过以下步骤来实现:
步骤1011,获取预训练样本集。
步骤1012,将预训练样本集与基因本体知识图谱对齐,得到初始知识图谱,初始知识图谱包括多个正三元组,正三元组中包括的蛋白质与基因本体之间的关系为真。
步骤1013,对初始知识图谱进行负采样,得到多个负三元组,负三元组包括的蛋白质与基因本体之间的关系为假。
步骤1014,根据多个负三元组和初始知识图谱,得到蛋白质知识图谱,蛋白质知识图谱包括多个三元组,和每个三元组的标识,标识用于指示该三元组属于正三元组或负三元组。
举例来说,可以将能够公开获得的基因本体知识图谱与预训练样本集进行对齐,从而构建初始知识图谱。初始知识图谱中包括多个正三元组,每个正三元组包括了蛋白质、基因本体,以及蛋白质与基因本体之间的关系,并且关系为真,也就是说正三元组中表征的蛋白质与基因本体之间的关系为符合生物学特性的关系。
之后,可以对初始知识图谱进行负采样,得到多个负三元组,每个负三元组包括了蛋白质、基因本体,以及蛋白质与基因本体之间的关系,负三元组包括的蛋白质与基因本体之间的关系为假,也就是说正三元组中表征的蛋白质与基因本体之间的关系为不符合生物学特性的关系。之后,可以根据多个负三元组和初始知识图谱,生成蛋白质知识图谱,蛋白质知识图谱包括多个三元组以及每个三元组的标识,标识用于指示该三元组属于正三元组或负三元组,也就是说标识用于指示该三元组中包括的关系是否服务生物学特性。
具体的,可以通过公式2来实现对初始知识图谱的负采样:
T'Protein-GO={(h,r,t')|t'∈E'}公式2
其中,T'Protein-GO(h,r,t)表示负三元组,h表示负三元组的头部(即蛋白质),r表示负三元组中的关系,t’表示负三元组的尾部(即基因本体),t表示正三元组的尾部,E表示初始知识图谱中基因本体的集合,E’表示与E的交集为空的集合。
负采样的具体实现:总共有3类基因本体:生物过程、分子功能以及细胞组成。可以只从同一类基因本体中进行负采样。例如,正三元组的基因本体为生物过程,那么负三元组中的基因本体也为生物过程。正三元组的基因本体为分子功能,那么负三元组中的基因本体也为分子功能。
图5是根据一示例性实施例示出的另一种识别模型的预训练方法的流程图,如图5所示,步骤105可以通过以下步骤来实现:
步骤1051,根据解码结果确定预测序列,并根据预测序列与该预训练蛋白质序列确定预测损失。
举例来说,识别模型中可以采用两个Classifier来做多任务预训练,一个任务可以将解码结果输入MLP(英文:Multilayer Perceptron,中文:多层感知器),将MLP输出的结果作为预测序列,预测序列可以理解为识别模型对蛋白质序列的预测,预测序列与该预训练蛋白质序列的长度相同。因此可以根据预测序列与该预训练蛋白质序列确定预测损失,预测损失可以理解为MLM(英文:Masked Language Model,中文:掩蔽语言模型)损失。例如,可以根据公式3确定预测损失:
其中,LMLM表示预测损失,E表示期望运算,xi表示该预训练蛋白质序列中第i个被掩蔽的元素,M表示该预训练蛋白质序列中被masked的元素的数量,P(xi)表示预测序列中第i个元素被预测为xi的概率。
步骤1052,根据解码结果确定预测识别结果,并根据预测识别结果与包含该预训练蛋白质序列的三元组的标识,确定识别损失。
示例的,第二个任务可以先将解码结果经过一个池化层,再输入MLP,让MLP完成一个二分类任务,即根据MLP输出的结果确定预测识别结果,预测识别结果可以理解为识别模型对知识特征的预测,确定知识特征表征的三元组为正三元组还是负三元组。因此可以根据预测识别结果与包含该预训练蛋白质序列的三元组的标识,确定识别损失。例如,可以根据公式4确定识别损失:
其中,LPFI表示识别损失,y表示正三元组的标识(可以为1),p表示识别模型将正三元组识别为正三元组的概率,N表示蛋白质知识图谱中负三元组的数量,yi表示i个负三元组的标识为(均为0),pi表示识别模型将第i个负三元组识别为正三元组的概率。通过负采样和识别损失,使得识别模型能够区分正确和错误的知识,从而辅助蛋白质知识图谱的嵌入。
步骤1053,根据预测损失和识别损失确定总损失。
步骤1054,以降低总损失为目标,利用反向传播算法对识别模型进行预训练。
示例的,可以根据预测损失和识别损失确定总损失,例如可以将预测损失和识别损失的和作为总损失,也可以对预测损失和识别损失进行加权求和,得到总损失。最后,可以以降低总损失为目标,利用反向传播算法对识别模型进行预训练。例如可以根据公式5确定总损失:
Ltotal=LMLM+αLPFI公式5
其中,Ltotal表示总损失,α表示识别损失对应的权重,例如可以设置为1。
图6是根据一示例性实施例示出的另一种识别模型的预训练方法的流程图,如图6所示,步骤104可以包括:
步骤1041,将序列特征和知识特征进行拼接,得到综合特征。
步骤1042,对综合特征进行解码,得到解码结果。
示例的,解码过程可以先将序列特征和知识特征进行拼接(即Concat),得到综合特征,然后将综合特征输入解码器(英文:Decoder),由解码器对综合特征进行解码,得到解码结果。解码器例如可以是Bert中的Decoder,也可以采用其他PPLM中的Decoder,本公开对此不作具体限定。
图7是根据一示例性实施例示出的另一种识别模型的预训练方法的流程图,如图7所示,步骤104可以包括:
步骤1043,利用注意力机制,将知识特征中与序列特征匹配的信息,与序列特征进行融合,得到跨模态融合特征。
步骤1044,利用自注意力机制,对跨模态融合特征进行解码,得到解码结果。
示例的,解码器中包括可以多个依次连接的解码层(例如可以包括3个解码层),每个解码层包括:多头跨模态注意力模块、多头自注意力(英文:Multi-head self-attention)模块、MLP,如图8所示(图中仅以一个解码层作为示意,并未展示出多个解码层)。可以将知识特征与序列特征分别经过LN(英文:Layer Normalization)层再输入多头跨模态注意力模块,多头跨模态注意力模块能够将知识特征中与序列特征匹配的信息,与序列特征进行融合,得到跨模态融合特征。之后,可以设置一个残差单元,将跨模态融合特征和序列特征一起输入多头自注意力模块、MLP进行解码,得到解码结果。
多头跨模态注意力模块的实现可以通过公式6来表示:
其中,表示第i个解码层中多头跨模态注意力模块的输出,即跨模态融合特征,Eknowledge表示知识特征。表示第i-1个解码层的输出,即第i个解码层的一个输入(另外一个输入为Eknowledge),相应的,第1个解码层两个输入分别为和Eknowledge,即为序列特征),Eknowledge表示知识特征,Attn表示注意力机制,将作为注意力机制的Query(表示为Q),将Eknowledge作为注意力机制的Key(表示为K)和Value(表示为V),WQ表示Query对应的权重矩阵,WK表示Key对应的权重矩阵,WV表示Value对应的权重矩阵,dk表示Key的长度。多头跨模态注意力模块,可以筛选出知识特征中与序列特征匹配的信息,这样能够减少两种模态(蛋白质序列的模态,基因本体、关系的文本模态)匹配过程中的噪声,同时还可以对齐两种模态,提升跨模态融合特征的质量,从而提高识别模型的能力。
综上所述,本公开首先获取蛋白质知识图谱和多个预训练蛋白质序列,蛋白质知识图谱包括多个由蛋白质、基因本体、关系组成的三元组。之后对每个预训练蛋白质序列进行掩蔽操作,得到对应的掩蔽序列。然后利用识别模型分别对每个预训练蛋白质序列对应的掩蔽序列和包含该预训练蛋白质序列的三元组进行特征提取,得到序列特征和知识特征,再利用识别模型对序列特征和知识特征进行融合并进行解码,最后根据解码结果、该预训练蛋白质序列和蛋白质知识图谱对预设的识别模型进行预训练。预训练后的识别模型,经过微调能够对蛋白质进行识别。本公开将序列特征和知识特征进行融合再解码,使得蛋白质知识图谱能够直接影响到识别模型的输出结果,这样在预训练的过程中,识别模型能够充分学习蛋白质知识图谱所包含的信息,提升了识别模型的能力,从而提高识别模型用于下游任务的准确度。
图9是根据一示例性实施例示出的一种蛋白质识别方法的流程图,如图9所示,该方法包括:
步骤201,获取待识别的目标蛋白质对应的目标序列。
步骤202,将目标序列输入蛋白质识别模型,以确定目标蛋白质的识别信息,识别信息包括以下至少一种:目标蛋白质的二级结构、残基接触、远程同源性、稳定性,以及荧光性。
蛋白质识别模型为根据训练样本集对上述识别模型的预训练方法得到的识别模型进行微调得到的,训练样本集包括多个训练蛋白质序列。
举例来说,可以利用上述识别模型的预训练方法完成对识别模型的预训练,之后可以利用预设的训练样本集对识别模型进行微调,得到蛋白质识别模型,使得蛋白质识别模型能够完成以下至少一种任务:识别蛋白质的二级结构、残基接触、远程同源性、稳定性,以及荧光性。训练样本集可以和预训练样本集相同,也可以不相同,本公开对此不作具体限定。因为识别模型充分学习了蛋白质知识图谱所包含的信息,能够快速准确地微调得到蛋白质识别模型,缩短微调时间,减少微调消耗的计算资源。
蛋白质识别模型可以只采用识别模型中的序列编码器,并在序列编码器之后连接一个MLP,如图10所示,微调过程可以是将训练样本集作为蛋白质识别模型的输入,然后再将训练样本集对应的输出集作为识别模型的输出,来对蛋白质识别模型进行微调,使得在输入训练样本集时,蛋白质识别模型的输出,能够和对应的输出集匹配。训练样本集对应的输出集可以根据具体的任务来确定,例如蛋白质识别模型的任务是要识别蛋白质的二级结构,那么对应的输出集可以是训练样本集中每个训练蛋白质序列对应的二级结构。可以根据蛋白质识别模型的输出与对应的输出集确定损失函数,并以降低损失函数为目标,利用反向传播算法来修正蛋白质识别模型中的神经元的参数。重复上述步骤,直至损失函数满足预设条件,例如损失函数小于预设的损失阈值,或者损失函数收敛,以达到微调蛋白质识别模型的目的。
在完成对蛋白质识别模型的微调后,可以获取待识别的目标蛋白质对应的目标序列,然后将目标序列输入蛋白质识别模型,蛋白质识别模型能够对目标序列进行识别,以得到目标蛋白质的识别信息,识别信息包括以下至少一种:目标蛋白质的二级结构、残基接触、远程同源性、稳定性,以及荧光性。
综上所述,本公开中使用的蛋白质识别模型,是对识别模型进行微调得到的,而识别模型在预训练过程中,充分学习了蛋白质知识图谱所包含的信息,因此对识别模型进行微调的计算量低、效率高,从而提高了蛋白质识别模型的准确度。
图11是根据一示例性实施例示出的一种识别模型的预训练装置的框图,如图11所示,该装置300包括:
获取模块301,用于获取预训练样本集和蛋白质知识图谱,预训练样本集中包括多个预训练蛋白质序列,蛋白质知识图谱包括多个三元组,每个三元组由蛋白质、基因本体,以及蛋白质与基因本体之间的关系组成。
掩蔽模块302,用于针对每个预训练蛋白质序列,对该预训练蛋白质序列进行掩蔽操作,得到该预训练蛋白质序列对应的掩蔽序列。
预训练模块303,用于利用预设的识别模型对每个预训练蛋白质序列对应的掩蔽序列进行特征提取,得到序列特征,并对包含该预训练蛋白质序列的三元组进行特征提取,得到知识特征。利用识别模型对序列特征和知识特征进行融合,并根据融合结果进行解码,以得到解码结果。根据解码结果、该预训练蛋白质序列和蛋白质知识图谱,对识别模型进行预训练,预训练后的识别模型,经过微调能够对蛋白质进行识别。
图12是根据一示例性实施例示出的另一种识别模型的预训练装置的框图,如图12所示,识别模型包括:序列编码器和知识编码器。
预训练模块303可以包括:
第一提取子模块3031,用于利用序列编码器对该预训练蛋白质序列对应的掩蔽序列进行特征提取,得到序列特征。
第二提取子模块3032,用于利用知识编码器分别对包含该预训练蛋白质序列的三元组中的基因本体和关系进行特征提取,得到基因本体特征和关系特征。
确定子模块3033,用于根据基因本体特征和关系特征,确定知识特征,知识特征用于表征包含该预训练蛋白质序列的三元组。
在一种实现方式中,确定子模块3033可以用于:
利用注意力机制对基因本体特征和关系特征进行融合,得到知识特征。
图13是根据一示例性实施例示出的另一种识别模型的预训练装置的框图,如图13所示,获取模块301可以包括:
获取子模块3011,用于获取预训练样本集。
对齐子模块3012,用于将预训练样本集与基因本体知识图谱对齐,得到初始知识图谱,初始知识图谱包括多个正三元组,正三元组中包括的蛋白质与基因本体之间的关系为真。
负采样子模块3013,用于对初始知识图谱进行负采样,得到多个负三元组,负三元组包括的蛋白质与基因本体之间的关系为假。
处理子模块3014,用于根据多个负三元组和初始知识图谱,得到蛋白质知识图谱,蛋白质知识图谱包括多个三元组,和每个三元组的标识,标识用于指示该三元组属于正三元组或负三元组。
在另一种实现方式中,预训练模块303可以用于执行以下步骤:
步骤1)根据解码结果确定预测序列,并根据预测序列与该预训练蛋白质序列确定预测损失。
步骤2)根据解码结果确定预测识别结果,并根据预测识别结果与包含该预训练蛋白质序列的三元组的标识,确定识别损失。
步骤3)根据预测损失和识别损失确定总损失。
步骤4)以降低总损失为目标,利用反向传播算法对识别模型进行预训练。
在又一种实现方式中,预训练模块303可以用于执行以下步骤:
步骤5)将序列特征和知识特征进行拼接,得到综合特征。
步骤6)对综合特征进行解码,得到解码结果。
在又一种实现方式中,预训练模块303可以用于执行以下步骤:
步骤7)利用注意力机制,将知识特征中与序列特征匹配的信息,与序列特征进行融合,得到跨模态融合特征。
步骤8)利用自注意力机制,对跨模态融合特征进行解码,得到解码结果。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
综上所述,本公开首先获取蛋白质知识图谱和多个预训练蛋白质序列,蛋白质知识图谱包括多个由蛋白质、基因本体、关系组成的三元组。之后对每个预训练蛋白质序列进行掩蔽操作,得到对应的掩蔽序列。然后利用识别模型分别对每个预训练蛋白质序列对应的掩蔽序列和包含该预训练蛋白质序列的三元组进行特征提取,得到序列特征和知识特征,再利用识别模型对序列特征和知识特征进行融合并进行解码,最后根据解码结果、该预训练蛋白质序列和蛋白质知识图谱对预设的识别模型进行预训练。预训练后的识别模型,经过微调能够对蛋白质进行识别。本公开将序列特征和知识特征进行融合再解码,使得蛋白质知识图谱能够直接影响到识别模型的输出结果,这样在预训练的过程中,识别模型能够充分学习蛋白质知识图谱所包含的信息,提升了识别模型的能力,从而提高识别模型用于下游任务的准确度。
图14是根据一示例性实施例示出的一种蛋白质识别装置的框图,如图14所示,该装置400包括:
获取模块401,用于获取待识别的目标蛋白质对应的目标序列。
识别模块402,用于将目标序列输入蛋白质识别模型,以确定目标蛋白质的识别信息,识别信息包括以下至少一种:目标蛋白质的二级结构、残基接触、远程同源性、稳定性,以及荧光性。
蛋白质识别模型为根据训练样本集对上述识别模型的预训练方法得到的识别模型进行微调得到的,训练样本集包括多个训练蛋白质序列。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
综上所述,本公开中使用的蛋白质识别模型,是对识别模型进行微调得到的,而识别模型在预训练过程中,充分学习了蛋白质知识图谱所包含的信息,因此对识别模型进行微调的计算量低、效率高,从而提高了蛋白质识别模型的准确度。
下面参考图15,其示出了适于用来实现本公开实施例的电子设备(例如可以上述实施例中的执行主体,可以是终端设备或服务器)600的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图15示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图15所示,电子设备600可以包括处理装置(例如中央处理器、图形处理器等)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储装置608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有电子设备600操作所需的各种程序和数据。处理装置601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
通常,以下装置可以连接至I/O接口605:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置606;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置607;包括例如磁带、硬盘等的存储装置608;以及通信装置609。通信装置609可以允许电子设备600与其他设备进行无线或有线通信以交换数据。虽然图15示出了具有各种装置的电子设备600,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置609从网络上被下载和安装,或者从存储装置608被安装,或者从ROM 602被安装。在该计算机程序被处理装置601执行时,执行本公开实施例的方法中限定的上述功能。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
在一些实施方式中,终端设备、服务器可以利用诸如HTTP(HyperText TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:获取预训练样本集和蛋白质知识图谱,所述预训练样本集中包括多个预训练蛋白质序列,所述蛋白质知识图谱包括多个三元组,每个所述三元组由蛋白质、基因本体,以及蛋白质与基因本体之间的关系组成;针对每个所述预训练蛋白质序列,对该预训练蛋白质序列进行掩蔽操作,得到该预训练蛋白质序列对应的掩蔽序列;利用预设的识别模型对每个预训练蛋白质序列对应的掩蔽序列进行特征提取,得到序列特征,并对包含该预训练蛋白质序列的三元组进行特征提取,得到知识特征;利用所述识别模型对所述序列特征和所述知识特征进行融合,并根据融合结果进行解码,以得到解码结果;根据所述解码结果、该预训练蛋白质序列和所述蛋白质知识图谱,对所述识别模型进行预训练,预训练后的所述识别模型,经过微调能够对蛋白质进行识别。
或者,上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:获取待识别的目标蛋白质对应的目标序列;将所述目标序列输入蛋白质识别模型,以确定所述目标蛋白质的识别信息,所述识别信息包括以下至少一种:所述目标蛋白质的二级结构、残基接触、远程同源性、稳定性,以及荧光性;所述蛋白质识别模型为根据训练样本集对上述识别模型的预训练方法训练的识别模型进行微调得到的,所述训练样本集包括多个训练蛋白质序列。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,模块的名称在某种情况下并不构成对该模块本身的限定,例如,获取模块还可以被描述为“获取预训练样本集和蛋白质知识图谱的模块”。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
根据本公开的一个或多个实施例,示例1提供了一种识别模型的预训练方法,包括:获取预训练样本集和蛋白质知识图谱,所述预训练样本集中包括多个预训练蛋白质序列,所述蛋白质知识图谱包括多个三元组,每个所述三元组由蛋白质、基因本体,以及蛋白质与基因本体之间的关系组成;针对每个所述预训练蛋白质序列,对该预训练蛋白质序列进行掩蔽操作,得到该预训练蛋白质序列对应的掩蔽序列;利用预设的识别模型对每个预训练蛋白质序列对应的掩蔽序列进行特征提取,得到序列特征,并对包含该预训练蛋白质序列的三元组进行特征提取,得到知识特征;利用所述识别模型对所述序列特征和所述知识特征进行融合,并根据融合结果进行解码,以得到解码结果;根据所述解码结果、该预训练蛋白质序列和所述蛋白质知识图谱,对所述识别模型进行预训练,预训练后的所述识别模型,经过微调能够对蛋白质进行识别。
根据本公开的一个或多个实施例,示例2提供了示例1的方法,所述识别模型包括:序列编码器和知识编码器;所述利用预设的识别模型对对每个预训练蛋白质序列对应的掩蔽序列进行特征提取,得到序列特征,并对包含该预训练蛋白质序列的三元组进行特征提取,得到知识特征,包括:利用所述序列编码器对该预训练蛋白质序列对应的掩蔽序列进行特征提取,得到序列特征;利用所述知识编码器分别对包含该预训练蛋白质序列的三元组中的基因本体和关系进行特征提取,得到基因本体特征和关系特征;根据所述基因本体特征和所述关系特征,确定所述知识特征,所述知识特征用于表征包含该预训练蛋白质序列的三元组。
根据本公开的一个或多个实施例,示例3提供了示例2的方法,所述根据所述基因本体特征和所述关系特征,确定所述知识特征,包括:利用注意力机制对所述基因本体特征和所述关系特征进行融合,得到所述知识特征。
根据本公开的一个或多个实施例,示例4提供了示例1的方法,所述获取预训练样本集和蛋白质知识图谱,包括:获取所述预训练样本集;将所述预训练样本集与基因本体知识图谱对齐,得到初始知识图谱,所述初始知识图谱包括多个正三元组,所述正三元组中包括的蛋白质与基因本体之间的关系为真;对所述初始知识图谱进行负采样,得到多个负三元组,所述负三元组包括的蛋白质与基因本体之间的关系为假;根据多个所述负三元组和所述初始知识图谱,得到所述蛋白质知识图谱,所述蛋白质知识图谱包括多个所述三元组,和每个所述三元组的标识,所述标识用于指示该三元组属于所述正三元组或所述负三元组。
根据本公开的一个或多个实施例,示例5提供了示例4的方法,所述根据所述解码结果、该预训练蛋白质序列和所述蛋白质知识图谱,对所述识别模型进行预训练,包括:根据所述解码结果确定预测序列,并根据所述预测序列与该预训练蛋白质序列确定预测损失;根据所述解码结果确定预测识别结果,并根据所述预测识别结果与包含该预训练蛋白质序列的三元组的标识,确定识别损失;根据所述预测损失和所述识别损失确定总损失;以降低所述总损失为目标,利用反向传播算法对所述识别模型进行预训练。
根据本公开的一个或多个实施例,示例6提供了示例1的方法,所述利用所述识别模型对所述序列特征和所述知识特征进行融合,并根据融合结果进行解码,以得到解码结果,包括:将所述序列特征和所述知识特征进行拼接,得到综合特征;对所述综合特征进行解码,得到所述解码结果。
根据本公开的一个或多个实施例,示例7提供了示例1的方法,所述利用所述识别模型对所述序列特征和所述知识特征进行融合,并根据融合结果进行解码,以得到解码结果,包括:利用注意力机制,将所述知识特征中与所述序列特征匹配的信息,与所述序列特征进行融合,得到跨模态融合特征;利用自注意力机制,对所述跨模态融合特征进行解码,得到所述解码结果。
根据本公开的一个或多个实施例,示例8提供了一种蛋白质识别方法,包括:获取待识别的目标蛋白质对应的目标序列;将所述目标序列输入蛋白质识别模型,以确定所述目标蛋白质的识别信息,所述识别信息包括以下至少一种:所述目标蛋白质的二级结构、残基接触、远程同源性、稳定性,以及荧光性;所述蛋白质识别模型为根据训练样本集对示例1-7中任一项所述的识别模型进行微调得到的,所述训练样本集包括多个训练蛋白质序列。
根据本公开的一个或多个实施例,示例9提供了一种识别模型的预训练装置,包括:获取模块,用于获取预训练样本集和蛋白质知识图谱,所述预训练样本集中包括多个预训练蛋白质序列,所述蛋白质知识图谱包括多个三元组,每个所述三元组由蛋白质、基因本体,以及蛋白质与基因本体之间的关系组成;掩蔽模块,用于针对每个所述预训练蛋白质序列,对该预训练蛋白质序列进行掩蔽操作,得到该预训练蛋白质序列对应的掩蔽序列;预训练模块,用于利用预设的识别模型对每个预训练蛋白质序列对应的掩蔽序列进行特征提取,得到序列特征,并对包含该预训练蛋白质序列的三元组进行特征提取,得到知识特征;利用所述识别模型对所述序列特征和所述知识特征进行融合,并根据融合结果进行解码,以得到解码结果;根据所述解码结果、该预训练蛋白质序列和所述蛋白质知识图谱,对所述识别模型进行预训练,预训练后的所述识别模型,经过微调能够对蛋白质进行识别。
根据本公开的一个或多个实施例,示例10提供了一种蛋白质识别方法,包括:获取模块,用于获取待识别的目标蛋白质对应的目标序列;识别模块,用于将所述目标序列输入蛋白质识别模型,以确定所述目标蛋白质的识别信息,所述识别信息包括以下至少一种:所述目标蛋白质的二级结构、残基接触、远程同源性、稳定性,以及荧光性;所述蛋白质识别模型为根据训练样本集对示例1-7中任一项所述的识别模型进行微调得到的,所述训练样本集包括多个训练蛋白质序列。
根据本公开的一个或多个实施例,示例11提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理装置执行时实现示例1至示例8中所述方法的步骤。
根据本公开的一个或多个实施例,示例12提供了一种电子设备,包括:存储装置,其上存储有计算机程序;处理装置,用于执行所述存储装置中的所述计算机程序,以实现示例1至示例8中所述方法的步骤。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
Claims (11)
1.一种识别模型的预训练方法,其特征在于,所述方法包括:
获取预训练样本集和蛋白质知识图谱,所述预训练样本集中包括多个预训练蛋白质序列,所述蛋白质知识图谱包括多个三元组,每个所述三元组由蛋白质、基因本体,以及蛋白质与基因本体之间的关系组成;
针对每个所述预训练蛋白质序列,对该预训练蛋白质序列进行掩蔽操作,得到该预训练蛋白质序列对应的掩蔽序列;
利用预设的识别模型对每个预训练蛋白质序列对应的掩蔽序列进行特征提取,得到序列特征,并对包含该预训练蛋白质序列的三元组进行特征提取,得到知识特征;
利用所述识别模型对所述序列特征和所述知识特征进行融合,并根据融合结果进行解码,以得到解码结果;
根据所述解码结果、该预训练蛋白质序列和所述蛋白质知识图谱,对所述识别模型进行预训练,预训练后的所述识别模型,经过微调能够对蛋白质进行识别;
其中,所述获取预训练样本集和蛋白质知识图谱,包括:
获取所述预训练样本集;
将所述预训练样本集与基因本体知识图谱对齐,得到初始知识图谱,所述初始知识图谱包括多个正三元组,所述正三元组中包括的蛋白质与基因本体之间的关系为真;
对所述初始知识图谱进行负采样,得到多个负三元组,所述负三元组包括的蛋白质与基因本体之间的关系为假;
根据多个所述负三元组和所述初始知识图谱,得到所述蛋白质知识图谱,所述蛋白质知识图谱包括多个所述三元组,和每个所述三元组的标识,所述标识用于指示该三元组属于所述正三元组或所述负三元组。
2.根据权利要求1所述的方法,其特征在于,所述识别模型包括:序列编码器和知识编码器;所述利用预设的识别模型对对每个预训练蛋白质序列对应的掩蔽序列进行特征提取,得到序列特征,并对包含该预训练蛋白质序列的三元组进行特征提取,得到知识特征,包括:
利用所述序列编码器对该预训练蛋白质序列对应的掩蔽序列进行特征提取,得到序列特征;
利用所述知识编码器分别对包含该预训练蛋白质序列的三元组中的基因本体和关系进行特征提取,得到基因本体特征和关系特征;
根据所述基因本体特征和所述关系特征,确定所述知识特征,所述知识特征用于表征包含该预训练蛋白质序列的三元组。
3.根据权利要求2所述的方法,其特征在于,所述根据所述基因本体特征和所述关系特征,确定所述知识特征,包括:
利用注意力机制对所述基因本体特征和所述关系特征进行融合,得到所述知识特征。
4.根据权利要求1所述的方法,其特征在于,所述根据所述解码结果、该预训练蛋白质序列和所述蛋白质知识图谱,对所述识别模型进行预训练,包括:
根据所述解码结果确定预测序列,并根据所述预测序列与该预训练蛋白质序列确定预测损失;
根据所述解码结果确定预测识别结果,并根据所述预测识别结果与包含该预训练蛋白质序列的三元组的标识,确定识别损失;
根据所述预测损失和所述识别损失确定总损失;
以降低所述总损失为目标,利用反向传播算法对所述识别模型进行预训练。
5.根据权利要求1所述的方法,其特征在于,所述利用所述识别模型对所述序列特征和所述知识特征进行融合,并根据融合结果进行解码,以得到解码结果,包括:
将所述序列特征和所述知识特征进行拼接,得到综合特征;
对所述综合特征进行解码,得到所述解码结果。
6.根据权利要求1所述的方法,其特征在于,所述利用所述识别模型对所述序列特征和所述知识特征进行融合,并根据融合结果进行解码,以得到解码结果,包括:
利用注意力机制,将所述知识特征中与所述序列特征匹配的信息,与所述序列特征进行融合,得到跨模态融合特征;
利用自注意力机制,对所述跨模态融合特征进行解码,得到所述解码结果。
7.一种蛋白质识别方法,其特征在于,所述方法包括:
获取待识别的目标蛋白质对应的目标序列;
将所述目标序列输入蛋白质识别模型,以确定所述目标蛋白质的识别信息,所述识别信息包括以下至少一种:所述目标蛋白质的二级结构、残基接触、远程同源性、稳定性,以及荧光性;
所述蛋白质识别模型为根据训练样本集对权利要求1-6中任一项所述的识别模型进行微调得到的,所述训练样本集包括多个训练蛋白质序列。
8.一种识别模型的预训练装置,其特征在于,所述装置包括:
获取模块,用于获取预训练样本集和蛋白质知识图谱,所述预训练样本集中包括多个预训练蛋白质序列,所述蛋白质知识图谱包括多个三元组,每个所述三元组由蛋白质、基因本体,以及蛋白质与基因本体之间的关系组成;
掩蔽模块,用于针对每个所述预训练蛋白质序列,对该预训练蛋白质序列进行掩蔽操作,得到该预训练蛋白质序列对应的掩蔽序列;
预训练模块,用于利用预设的识别模型对每个预训练蛋白质序列对应的掩蔽序列进行特征提取,得到序列特征,并对包含该预训练蛋白质序列的三元组进行特征提取,得到知识特征;利用所述识别模型对所述序列特征和所述知识特征进行融合,并根据融合结果进行解码,以得到解码结果;根据所述解码结果、该预训练蛋白质序列和所述蛋白质知识图谱,对所述识别模型进行预训练,预训练后的所述识别模型,经过微调能够对蛋白质进行识别;
其中,所述获取模块,用于:获取所述预训练样本集;将所述预训练样本集与基因本体知识图谱对齐,得到初始知识图谱,所述初始知识图谱包括多个正三元组,所述正三元组中包括的蛋白质与基因本体之间的关系为真;对所述初始知识图谱进行负采样,得到多个负三元组,所述负三元组包括的蛋白质与基因本体之间的关系为假;根据多个所述负三元组和所述初始知识图谱,得到所述蛋白质知识图谱,所述蛋白质知识图谱包括多个所述三元组,和每个所述三元组的标识,所述标识用于指示该三元组属于所述正三元组或所述负三元组。
9.一种蛋白质识别装置,其特征在于,所述装置包括:
获取模块,用于获取待识别的目标蛋白质对应的目标序列;
识别模块,用于将所述目标序列输入蛋白质识别模型,以确定所述目标蛋白质的识别信息,所述识别信息包括以下至少一种:所述目标蛋白质的二级结构、残基接触、远程同源性、稳定性,以及荧光性;
所述蛋白质识别模型为根据训练样本集对权利要求1-6中任一项所述的识别模型进行微调得到的,所述训练样本集包括多个训练蛋白质序列。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理装置执行时实现权利要求1-7中任一项所述方法的步骤。
11.一种电子设备,其特征在于,包括:
存储装置,其上存储有计算机程序;
处理装置,用于执行所述存储装置中的所述计算机程序,以实现权利要求1-7中任一项所述方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210947783.9A CN115312127B (zh) | 2022-08-05 | 2022-08-05 | 识别模型的预训练方法、识别方法、装置、介质和设备 |
PCT/CN2023/110347 WO2024027663A1 (zh) | 2022-08-05 | 2023-07-31 | 识别模型的预训练方法、识别方法、装置、介质和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210947783.9A CN115312127B (zh) | 2022-08-05 | 2022-08-05 | 识别模型的预训练方法、识别方法、装置、介质和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115312127A CN115312127A (zh) | 2022-11-08 |
CN115312127B true CN115312127B (zh) | 2023-04-18 |
Family
ID=83860964
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210947783.9A Active CN115312127B (zh) | 2022-08-05 | 2022-08-05 | 识别模型的预训练方法、识别方法、装置、介质和设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN115312127B (zh) |
WO (1) | WO2024027663A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115312127B (zh) * | 2022-08-05 | 2023-04-18 | 抖音视界有限公司 | 识别模型的预训练方法、识别方法、装置、介质和设备 |
CN115937689B (zh) * | 2022-12-30 | 2023-08-11 | 安徽农业大学 | 一种农业害虫智能识别与监测技术 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111462822A (zh) * | 2020-04-29 | 2020-07-28 | 北京晶派科技有限公司 | 一种蛋白质序列特征的生成方法、装置和计算设备 |
CN112614538A (zh) * | 2020-12-17 | 2021-04-06 | 厦门大学 | 一种基于蛋白质预训练表征学习的抗菌肽预测方法和装置 |
CN114218926A (zh) * | 2021-12-17 | 2022-03-22 | 中山大学 | 一种基于分词与知识图谱的中文拼写纠错方法及系统 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11587644B2 (en) * | 2017-07-28 | 2023-02-21 | The Translational Genomics Research Institute | Methods of profiling mass spectral data using neural networks |
CN110263324B (zh) * | 2019-05-16 | 2021-02-12 | 华为技术有限公司 | 文本处理方法、模型训练方法和装置 |
CN111401534B (zh) * | 2020-04-29 | 2023-12-05 | 北京晶泰科技有限公司 | 一种蛋白质性能预测方法、装置和计算设备 |
CN113535972B (zh) * | 2021-06-07 | 2022-08-23 | 吉林大学 | 一种融合上下文语义的知识图谱链路预测模型方法及装置 |
CN114333982B (zh) * | 2021-11-26 | 2023-09-26 | 北京百度网讯科技有限公司 | 蛋白质表示模型预训练、蛋白质相互作用预测方法和装置 |
CN114780691B (zh) * | 2022-06-21 | 2022-12-02 | 安徽讯飞医疗股份有限公司 | 模型预训练及自然语言处理方法、装置、设备及存储介质 |
CN115312127B (zh) * | 2022-08-05 | 2023-04-18 | 抖音视界有限公司 | 识别模型的预训练方法、识别方法、装置、介质和设备 |
-
2022
- 2022-08-05 CN CN202210947783.9A patent/CN115312127B/zh active Active
-
2023
- 2023-07-31 WO PCT/CN2023/110347 patent/WO2024027663A1/zh unknown
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111462822A (zh) * | 2020-04-29 | 2020-07-28 | 北京晶派科技有限公司 | 一种蛋白质序列特征的生成方法、装置和计算设备 |
CN112614538A (zh) * | 2020-12-17 | 2021-04-06 | 厦门大学 | 一种基于蛋白质预训练表征学习的抗菌肽预测方法和装置 |
CN114218926A (zh) * | 2021-12-17 | 2022-03-22 | 中山大学 | 一种基于分词与知识图谱的中文拼写纠错方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
WO2024027663A1 (zh) | 2024-02-08 |
CN115312127A (zh) | 2022-11-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115312127B (zh) | 识别模型的预训练方法、识别方法、装置、介质和设备 | |
CN113470619B (zh) | 语音识别方法、装置、介质及设备 | |
CN112883968B (zh) | 图像字符识别方法、装置、介质及电子设备 | |
CN112883967B (zh) | 图像字符识别方法、装置、介质及电子设备 | |
US20240233334A1 (en) | Multi-modal data retrieval method and apparatus, medium, and electronic device | |
CN112200173B (zh) | 多网络模型训练方法、图像标注方法和人脸图像识别方法 | |
CN113723341B (zh) | 视频的识别方法、装置、可读介质和电子设备 | |
CN116166271A (zh) | 代码生成方法、装置、存储介质及电子设备 | |
CN115578570A (zh) | 图像处理方法、装置、可读介质及电子设备 | |
CN111933119B (zh) | 用于生成语音识别网络的方法、装置、电子设备和介质 | |
CN116244431A (zh) | 文本分类方法、装置、介质及电子设备 | |
CN114625876B (zh) | 作者特征模型的生成方法、作者信息处理方法和装置 | |
CN115662517A (zh) | 序列预测方法、装置、介质及电子设备 | |
CN116343905B (zh) | 蛋白质特征的预处理方法、装置、介质及设备 | |
CN115938470B (zh) | 蛋白质特征预处理方法、装置、介质及设备 | |
CN117743555B (zh) | 答复决策信息发送方法、装置、设备和计算机可读介质 | |
CN115240042B (zh) | 多模态图像识别方法、装置、可读介质和电子设备 | |
CN116503849B (zh) | 异常地址识别方法、装置、电子设备与计算机可读介质 | |
CN113345426B (zh) | 一种语音意图识别方法、装置及可读存储介质 | |
CN111681660B (zh) | 语音识别方法、装置、电子设备和计算机可读介质 | |
CN111538806B (zh) | 查询负例的泛化方法及装置 | |
CN116362233A (zh) | 虚假地址识别模型训练方法、信息生成方法、装置和设备 | |
CN116775816A (zh) | 解题模型的确定方法、数据处理方法、装置、介质及设备 | |
CN117556201A (zh) | 路网信息识别方法、装置、可读介质及电子设备 | |
CN116824592A (zh) | 地址信息识别方法、装置、电子设备与计算机可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |