CN110853704B - 蛋白质数据获取方法、装置、计算机设备及存储介质 - Google Patents

蛋白质数据获取方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN110853704B
CN110853704B CN201911097122.6A CN201911097122A CN110853704B CN 110853704 B CN110853704 B CN 110853704B CN 201911097122 A CN201911097122 A CN 201911097122A CN 110853704 B CN110853704 B CN 110853704B
Authority
CN
China
Prior art keywords
sample
secondary structure
model
dihedral angle
main chain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911097122.6A
Other languages
English (en)
Other versions
CN110853704A (zh
Inventor
吴家祥
黄俊洲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201911097122.6A priority Critical patent/CN110853704B/zh
Publication of CN110853704A publication Critical patent/CN110853704A/zh
Application granted granted Critical
Publication of CN110853704B publication Critical patent/CN110853704B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/20Protein or domain folding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Abstract

本申请实施例公开了一种蛋白质数据获取方法、装置、计算机设备及存储介质,属于计算机技术领域。该方法包括:根据蛋白质的氨基酸序列信息,获取氨基酸序列信息的序列特征,基于数据获取模型,获取蛋白质的第一主链二面角和第一二级结构,基于第一转换模型,获取与第一二级结构对应的第二主链二面角,基于第二转换模型,获取与第一主链二面角对应的第二二级结构。该方法由于第一转换模型的输入为第一二级结构,第二转换模型的输入为第一主链二面角,考虑了二级结构和主链二面角之间的关联关系,保证了获取的第二主链二面角和第二二级结构的一致性,提高了获取的二级结构和主链二面角的精确度。

Description

蛋白质数据获取方法、装置、计算机设备及存储介质
技术领域
本申请实施例涉及计算机技术领域,特别涉及一种蛋白质数据获取方法、装置、计算机设备及存储介质。
背景技术
蛋白质在生物体中具有极其重要的作用,其作用主要由蛋白质的结构决定,而蛋白质的二级结构和主链二面角是预测蛋白质结构的基础,如何获取准确的蛋白质二级结构和主链二面角具有重要的研究意义。
相关技术中,将获取蛋白质的二级结构和获取蛋白质的主链二面角作为两个独立的问题,分别提出了获取二级结构和获取主链二面角的方法。但是并未考虑二级结构和主链二面角之间的关联关系,因此无法保证所获取的二级结构和主链二面角的一致性,且所获取的二级结构和主链二面角的精确度低。
发明内容
本申请实施例提供了一种蛋白质数据获取方法、装置、计算机设备及存储介质,可以解决相关技术存在的获取的二级结构和主链二面角精确度低的问题。所述技术方案如下:
一方面,提供了一种蛋白质数据获取方法,所述方法包括:
根据蛋白质的氨基酸序列信息,获取所述氨基酸序列信息的序列特征;
将所述序列特征输入至数据获取模型,基于所述数据获取模型,获取所述蛋白质的第一主链二面角和第一二级结构;
将所述序列特征和所述第一二级结构输入至第一转换模型,基于所述第一转换模型,获取与所述第一二级结构对应的第二主链二面角;
将所述序列特征和所述第一主链二面角输入至第二转换模型,基于所述第二转换模型,获取与所述第一主链二面角对应的第二二级结构。
另一方面,提供了一种模型训练方法,所述方法包括:
根据多个样本蛋白质的三级结构和氨基酸序列信息,获取第一样本数据、第二样本数据和第三样本数据,每条样本数据包括一个样本蛋白质的序列特征、样本主链二面角和样本二级结构;
根据所述第一样本数据,训练第一转换模型;
根据所述第二样本数据,训练第二转换模型;
根据所述第三样本数据及已训练的第一转换模型和第二转换模型,训练数据获取模型。
另一方面,提供了一种蛋白质数据获取装置,所述装置包括:
特征获取模块,用于根据蛋白质的氨基酸序列信息,获取所述氨基酸序列信息的序列特征;
第一数据获取模块,用于将所述序列特征输入至数据获取模型,基于所述数据获取模型,获取所述蛋白质的第一主链二面角和第一二级结构;
主链二面角获取模块,用于将所述序列特征和所述第一二级结构输入至第一转换模型,基于所述第一转换模型,获取与所述第一二级结构对应的第二主链二面角;
二级结构获取模块,用于将所述序列特征和所述第一主链二面角输入至第二转换模型,基于所述第二转换模型,获取与所述第一主链二面角对应的第二二级结构。
可选地,所述装置还包括:
三级结构获取模块,用于根据所述第二主链二面角和所述第二二级结构,确定所述蛋白质的三级结构。
可选地,所述装置还包括:
第一样本获取模块,用于根据第一样本蛋白质的三级结构和氨基酸序列信息,获取所述第一样本蛋白质的序列特征、样本主链二面角和样本二级结构;
第一测试数据获取模块,用于将所述序列特征和所述样本二级结构输入至第一转换模型,基于所述第一转换模型,获取与所述样本二级结构对应的测试主链二面角;
第一训练模块,用于根据获取到的测试主链二面角与所述样本主链二面角之间的差异,对所述第一转换模型的模型参数进行调整,得到调整后的第一转换模型。
可选地,所述装置还包括:
第二样本获取模块,用于根据第二样本蛋白质的三级结构和氨基酸序列信息,获取所述第二样本蛋白质的序列特征、样本主链二面角和样本二级结构;
第二测试数据获取模块,用于将所述序列特征和所述样本主链二面角输入至第二转换模型,基于所述第二转换模型,获取与所述样本主链二面角对应的测试二级结构;
第二训练模块,用于根据获取到的测试二级结构与所述样本二级结构之间的差异,对所述第二转换模型的模型参数进行调整,得到调整后的第二转换模型。
可选地,所述装置还包括:
第三样本获取模块,用于根据第三样本蛋白质的三级结构和氨基酸序列信息,获取所述第三样本蛋白质的序列特征、样本主链二面角和样本二级结构;
第三测试数据获取模块,用于将所述序列特征输入至数据获取模型,基于所述数据获取模型,获取所述第三样本蛋白质的第一测试主链二面角和第一测试二级结构;
所述第三测试数据获取模块还用于将所述序列特征和所述第一测试二级结构输入至已训练的第一转换模型,基于所述第一转换模型,获取与所述第一测试二级结构对应的第二测试主链二面角;
第三训练模块,用于获取所述样本主链二面角与所述第一测试主链二面角之间的第一差异、所述第一测试主链二面角与所述第二测试主链二面角之间的第二差异和所述样本二级结构与所述第一测试二级结构之间的第三差异;
所述第三训练模块还用于根据所述第一差异、所述第二差异和所述第三差异,对所述数据获取模型的模型参数进行调整,得到调整后的数据获取模型。
可选地,所述装置还包括:
第四样本获取模块,用于根据第四样本蛋白质的三级结构和氨基酸序列信息,获取所述第四样本蛋白质的序列特征、样本主链二面角和样本二级结构;
第四测试数据获取模块,用于将所述序列特征输入至数据获取模型,基于所述数据获取模型,获取所述第四样本蛋白质的第一测试主链二面角和第一测试二级结构;
所述第四测试数据获取模块还用于将所述序列特征和所述第一测试主链二面角输入至已训练的第二转换模型,基于所述第二转换模型,获取与所述第一测试主链二面角对应的第二测试二级结构;
第四训练模块,用于获取所述样本主链二面角与所述第一测试主链二面角之间的第一差异、所述样本二级结构与所述第一测试二级结构之间的第三差异和所述第一测试二级结构与所述第二测试二级结构之间的第四差异;
所述第四训练模块还用于根据所述第一差异、所述第三差异和所述第四差异,对所述数据获取模型的模型参数进行调整,得到调整后的数据获取模型。
另一方面,提供了一种模型训练装置,所述装置包括:
样本获取模块,用于根据多个样本蛋白质的三级结构和氨基酸序列信息,获取第一样本数据、第二样本数据和第三样本数据,每条样本数据包括一个样本蛋白质的序列特征、样本主链二面角和样本二级结构;
第一训练模块,用于根据所述第一样本数据,训练第一转换模型;
第二训练模块,用于根据所述第二样本数据,训练第二转换模型;
第三训练模块,用于根据所述第三样本数据及已训练的第一转换模型和第二转换模型,训练数据获取模型。
可选地,所述装置还包括:
特征获取模块,用于根据蛋白质的氨基酸序列信息,获取所述氨基酸序列信息的序列特征;
数据获取模块,用于将所述序列特征输入至已训练的数据获取模型,基于所述数据获取模型,获取所述蛋白质的主链二面角和二级结构。
可选地,所述第一训练模块包括:
第一样本获取单元,用于根据第一样本蛋白质的三级结构和氨基酸序列信息,获取第一样本蛋白质的序列特征、样本主链二面角和样本二级结构;
第一测试数据获取单元,用于将所述序列特征和所述样本二级结构输入至第一转换模型,基于所述第一转换模型,获取与所述样本二级结构对应的测试主链二面角;
第一训练单元,用于根据获取到的测试主链二面角与所述样本主链二面角之间的差异,对所述第一转换模型的模型参数进行调整,得到调整后的第一转换模型。
可选地,所述第二训练模块包括:
第二样本获取单元,用于根据第二样本蛋白质的三级结构和氨基酸序列信息,获取第二样本蛋白质的序列特征、样本主链二面角和样本二级结构;
第二测试数据获取单元,用于将所述序列特征和所述样本主链二面角输入至第二转换模型,基于所述第二转换模型,获取与所述样本主链二面角对应的测试二级结构;
第二训练模块,用于根据获取到的测试二级结构与所述样本二级结构之间的差异,对所述第二转换模型的模型参数进行调整,得到调整后的第二转换模型。
可选地,所述第三训练模块包括:
第三样本获取单元,用于根据第三样本蛋白质的三级结构和氨基酸序列信息,获取第三样本蛋白质的序列特征、样本主链二面角和样本二级结构;
第三测试数据获取单元,用于将所述序列特征输入至数据获取模型,基于所述数据获取模型,获取所述第三样本蛋白质的第一测试主链二面角和第一测试二级结构;
所述第三测试数据获取单元还用于将所述序列特征和所述第一测试二级结构输入至已训练的第一转换模型,基于所述第一转换模型,获取与所述第一测试二级结构对应的第二测试主链二面角;
第三训练单元,用于获取所述样本主链二面角与所述第一测试主链二面角之间的第一差异、所述第一测试主链二面角与所述第二测试主链二面角之间的第二差异和所述样本二级结构与所述第一测试二级结构之间的第三差异;
所述第三训练单元还根据所述第一差异、所述第二差异和所述第三差异,对所述数据获取模型的模型参数进行调整,得到调整后的数据获取模型。
可选地,所述第三训练模块还包括:
所述第三样本获取单元用于根据第三样本蛋白质的三级结构和氨基酸序列信息,获取第三样本蛋白质的序列特征、样本主链二面角和样本二级结构;
第四测试数据获取单元,用于将所述序列特征输入至数据获取模型,基于所述数据获取模型,获取所述第三样本蛋白质的第一测试主链二面角和第一测试二级结构;
所述第四测试数据获取单元还用于将所述序列特征和所述第一测试主链二面角输入至已训练的第二转换模型,基于所述第二转换模型,获取与所述第一测试主链二面角对应的第二测试二级结构;
第四训练单元,用于获取所述样本主链二面角与所述第一测试主链二面角之间的第一差异、所述样本二级结构与所述第一测试二级结构之间的第三差异和所述第一测试二级结构与所述第二测试二级结构之间的第四差异;
所述第四训练单元还用于根据所述第一差异、所述第三差异和所述第四差异,对所述数据获取模型的模型参数进行调整,得到调整后的数据获取模型。
另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述至少一条程序代码由所述处理器加载并执行,以实现如所述蛋白质数据获取方法中所执行的操作,或者以实现如所述模型训练方法中所执行的操作。
另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行,以实现如所述蛋白质数据获取方法中所执行的操作,或者以实现如所述模型训练方法中所执行的操作。
再一方面,提供了一种计算机程序,所述计算机程序中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行,以实现如所述蛋白质数据获取方法中所执行的操作,或者以实现如所述模型训练方法中所执行的操作。
本申请实施例提供的方法、装置、计算机设备及存储介质,根据第一样本蛋白质的三级结构和氨基酸序列信息,获取该第一样本蛋白质的序列特征、样本主链二面角和样本二级结构,将序列特征和样本二级结构输入至第一转换模型,基于该第一转换模型,获取与该样本二级结构对应的测试主链二面角,根据获取到的测试主链二面角与样本主链二面角之间的差异,对第一转换模型的模型参数进行调整,得到调整后的第一转换模型。根据第一样本蛋白质的主链二面角与二级结构之间的关联关系训练得到第一转换模型,能够提高第一转换模型的精确度,保证后续在基于第一转换模型获取蛋白质的主链二面角时,能够提高主链二面角的精确度。
并且,根据第二样本蛋白质的三级结构和氨基酸序列信息,获取该第二样本蛋白质的序列特征、样本主链二面角和样本二级结构,将序列特征和样本主链二面角输入至第二转换模型,基于该第二转换模型,获取与样本二级结构对应的测试二级结构,根据获取到的测试二级结构与样本二级结构之间的差异,对第二转换模型的模型参数进行调整,得到调整后的第二转换模型。根据第二样本蛋白质的主链二面角与二级结构之间的关联关系训练得到的第二转换模型,能够提高第二转换模型的精确度,保证后续在基于第二转换模型获取蛋白质的二级结构时,能够提高二级结构的精确度。
并且,根据第三样本蛋白质的三级结构和氨基酸序列信息,获取每个第三样本蛋白质的序列特征、样本主链二面角和样本二级结构,将序列特征输入至数据获取模型,基于数据获取模型,获取第三样本蛋白质的第一测试主链二面角和第一测试二级结构,将序列特征和第一测试二级结构输入至已训练的第一转换模型,基于该第一转换模型,获取与该第一测试二级结构对应的第二测试主链二面角,将序列特征和第一测试主链二面角输入至已训练的第二转换模型,基于该第二转换模型,获取与该第一测试主链二面角对应的第二测试二级结构,获取样本主链二面角与第一测试主链二面角之间的第一差异、第一测试主链二面角与第二测试主链二面角之间的第二差异、样本二级结构与第一测试二级结构之间的第三差异和第一测试二级结构与第二测试二级结构之间的第四差异,根据第一差异、第二差异、第三差异和第四差异,对数据获取模型的模型参数进行调整,得到调整后的数据获取模型。该方法由于在训练过程中,根据第一转换模型和第二转换模型的输出对数据获取模型的参数进行调整,考虑了二级结构和主链二面角之间的关联关系,保证了二级结构和主链二面角之间的一致性,并且能够提高数据获取模型的精确度,保证后续在基于数据获取模型获取蛋白质的主链二面角和二级结构时,能够提高主链二面角和二级结构的精确度。
并且,本申请实施例提供的方法,根据蛋白质的氨基酸序列信息,获取氨基酸序列信息的序列特征,将序列特征输入至数据获取模型,基于该数据获取模型,获取蛋白质的第一主链二面角和第一二级结构,将序列特征和第一二级结构输入至第一转换模型,基于该第一转换模型,获取与第一二级结构对应的第二主链二面角,将序列特征和第一主链二面角输入至第二转换模型,基于第二转换模型,获取与第一主链二面角对应的第二二级结构。该方法基于第一转换模型获取第二主链二面角,基于第二转换模型获取第二二级结构,由于第一转换模型的输入为第一二级结构,第二转换模型的输入为第一主链二面角,考虑了二级结构和主链二面角之间的关联关系,保证了获取的第二主链二面角和第二二级结构的一致性,提高了获取的二级结构和主链二面角的精确度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种实施环境的示意图。
图2是本申请实施例提供的一种网络模型的结构示意图。
图3是本申请实施例提供的一种第一转换模型的训练方法的流程图。
图4是本申请实施例提供的一种蛋白质的三级结构的示意图。
图5是本申请实施例提供的一种第一转换模型训练过程的示意图。
图6是本申请实施例提供的一种第二转换模型的训练方法的流程图。
图7是本申请实施例提供的一种第二转换模型训练过程的示意图。
图8是本申请实施例提供的一种第一转换模型和第二转换模型训练过程的示意图。
图9是本申请实施例提供的一种数据获取模型的训练方法的流程图。
图10是本申请实施例提供的一种数据获取模型训练过程的示意图。
图11是本申请实施例提供的另一种数据获取模型训练过程的示意图。
图12是本申请实施例提供的一种蛋白质数据获取方法的流程图。
图13是本申请实施例提供的一种获取蛋白质数据的过程的示意图。
图14是本申请实施例提供的一种蛋白质数据获取装置的结构示意图。
图15是本申请实施例提供的另一种蛋白质数据获取装置的结构示意图。
图16是本申请实施例提供的一种模型训练装置的结构示意图。
图17是本申请实施例提供的另一种模型训练装置的结构示意图。
图18是本申请实施例提供的一种终端的结构示意图。
图19是本申请实施例提供的一种服务器的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种概念,但除非特别说明,这些概念不受这些术语限制。这些术语仅用于将一个概念与另一个概念区分。举例来说,在不脱离本申请的范围的情况下,可以将第一主链二面角称为第二主链二面角,将第二主链二面角称为第一主链二面角。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
本申请实施例提供的蛋白质数据获取方法可以应用于计算机设备中,计算机设备可以根据蛋白质的氨基酸序列信息,基于已训练的数据获取模型、第一转换模型和第二转换模型,获取蛋白质的二级结构和主链二面角。
本申请实施例提供的模型训练方法可以应用于计算机设备中,计算机设备可以根据样本蛋白质的样本三级结构和氨基酸序列信息,对第一转换模型和第二转换模型进行训练。在第一转换模型和第二转换模型训练完成之后,计算机设备可以根据样本蛋白质的氨基酸序列信息、第一转换模型和第二转换模型,对数据获取模型进行训练。
在一种可能实现方式中,计算机设备可以为终端,终端可以为手机、电脑、平板电脑等设备。在另一种可能实现方式中,计算机设备还可以为服务器,服务器可以是一台服务器,也可以是若干台服务器组成的服务器集群,或者是一个云计算服务中心。
图1是本申请实施例提供的一种实施环境的示意图,参见图1,该实施环境包括:终端101和服务器102,终端101和服务器102通过网络连接。
服务器102根据可以根据样本蛋白质的三级结构和氨基酸序列信息,对第一转换模型和第二转换模型进行训练。在第一转换模型和第二转换模型训练完成之后,服务器102可以根据样本蛋白质的氨基酸序列信息、第一转换模型和第二转换模型,对数据获取模型进行训练。
训练完成之后,服务器102可以将第一转换模型、第二转换模型和数据获取模型发送给终端101,终端101可以根据蛋白质的氨基酸序列信息,基于服务器102训练的模型,获取蛋白质的二级结构和主链二面角。
图2是本申请实施例提供的一种网络模型的结构示意图,参见图2,该网络模型包括数据获取模型201、第一转换模型202和第二转换模型203,数据获取模型201和第一转换模型202连接,数据获取模型201和第二转换模型202连接。
其中,数据获取模型201用于根据蛋白质的序列特征,得到该蛋白质的二级结构和主链二面角,第一转换模型202用于根据蛋白质的序列特征和二级结构,得到该二级结构对应的主链二面角,第二转换模型203用于根据蛋白质的序列特征和主链二面角,得到该主链二面角对应的二级结构。
本申请实施例提供了第一转换模型、第二转换模型和数据获取模型,在训练上述三种模型时,可以根据样本蛋白质的三级结构和氨基酸序列信息,获取第一样本数据、第二样本数据和第三样本数据,样本数据包括样本蛋白质的序列特征、样本主链二面角和样本二级结构;根据第一样本数据,训练第一转换模型;根据多条第二样本数据,训练第二转换模型;根据第三样本数据及已训练的第一转换模型和第二转换模型,训练数据获取模型。
以下实施例将对上述三种模型的训练过程进行详细说明。
图3是本申请实施例提供的一种第一转换模型的训练方法的流程图,本申请实施例的执行主体为服务器,参见图3,该方法包括:
301、根据第一样本蛋白质的三级结构和氨基酸序列信息,获取该第一样本蛋白质的序列特征、样本主链二面角和样本二级结构。
为了便于理解本申请实施例中的训练方法,首先对蛋白质结构进行说明:
蛋白质的一级结构是指多肽链中氨基酸残基的排列顺序,即氨基酸序列,蛋白质的一级结构决定了蛋白质的二级、三级等高级结构。
蛋白质的二级结构是指多肽链中主链原子的局部空间排布,可以基于三分类划分标准来定义蛋白质的二级结构,包括α-螺旋、β-折叠以及无规则结构三大类别,还可以基于八分类划分标准来定义蛋白质的二级结构。
蛋白质的三级结构是指多肽链在二级结构的基础上进一步盘曲或折叠形成的具有一定规律的三维空间结构,蛋白质的三级结构参见图4。
对于蛋白质的主链二面角,蛋白质的主链由每个氨基酸中的N-CA-C(氮原子-α碳原子-碳原子)这三个原子依次相连构成,其中,前一个氨基酸中的C原子与当前氨基酸的N-CA-C三个原子构成二面角φ,当前氨基酸的N-CA-C三个原子和后一个氨基酸中的N原子构成二面角ψ,蛋白质的主链二面角包括二面角φ和二面角ψ。
本申请实施例中,根据已知的氨基酸序列信息和三级结构,训练第一转换模型。
以第一样本蛋白质为例,在训练第一转换模型之前,可以根据第一样本蛋白质的三级结构,获取该第一样本蛋白质的样本主链二面角和样本二级结构。
在一种可能实现方式中,可以采用预设算法对三级结构进行计算,得到样本主链二面角和样本二级结构。例如,可以采用DSSP(Definition of Secondary Structure ofProteins,一种标准化算法)算法或者其他算法进行计算。
根据第一样本蛋白质的氨基酸序列信息,提取该氨基酸序列信息的序列特征。可以采用PSSM(Position Specific Scoring Matrix,位置特异性得分矩阵)、伪氨基酸组成等方法。
302、将序列特征和样本二级结构输入至第一转换模型,基于该第一转换模型,获取与该样本二级结构对应的测试主链二面角。
第一转换模型用于根据蛋白质的序列特征和二级结构,获取对应的主链二面角。
则将第一样本蛋白质的序列特征和样本二级结构作为第一转换模型的输入,由第一转换模型对序列特征和样本二级结构进行处理,得到与该样本二级结构对应的测试主链二面角,该过程参见图5。
本申请实施例中的第一转换模型可以为BLSTM(BidirectionalLong-ShortTermMemory,双向长短期记忆单元网络)模型、Transformer(变压器)网络模型或者BERT(Bidirectional Encoder Representations from Transformers,一种预训练语言模型)网络模型等。
303、根据获取到的测试主链二面角与样本主链二面角之间的差异,对第一转换模型的模型参数进行调整,得到调整后的第一转换模型。
比较测试主链二面角和样本主链二面角,根据两者之间的差异,调整该第一转换模型的模型参数,以使调整后第一转换模型输出的测试主链二面角和样本主链二面角之间的差异减小,达到训练第一转换模型的目的。
通过训练该第一转换模型,使第一转换模型学习到根据序列特征和二级结构获得二级结构对应的主链二面角的能力,且能够提高第一转换模型的精确度。
需要说明的是,本申请实施例仅是以一个样本蛋白质为例进行说明,在另一实施例中,可以根据多个第一样本蛋白质的三级结构和氨基酸序列信息,获取每个第一样本蛋白质的序列特征、样本主链二面角和样本二级结构,训练第一转换模型。
需要说明的是,在另一实施例中可以由终端来执行本申请实施例提供的第一转换模型训练方法。
本申请实施例提供的方法,根据第一样本蛋白质的三级结构和氨基酸序列信息,获取该第一样本蛋白质的序列特征、样本主链二面角和样本二级结构,将序列特征和样本二级结构输入至第一转换模型,基于该第一转换模型,获取与该样本二级结构对应的测试主链二面角,根据获取到的测试主链二面角与样本主链二面角之间的差异,对第一转换模型的模型参数进行调整,得到调整后的第一转换模型。根据第一样本蛋白质的主链二面角与二级结构之间的关联关系训练得到第一转换模型,能够提高第一转换模型的精确度,保证后续在基于第一转换模型获取蛋白质的主链二面角时,能够提高主链二面角的精确度。
图6是本申请实施例提供的一种第二转换模型的训练方法的流程图,本申请实施例的执行主体为服务器,参见图6,该方法包括:
601、根据第二样本蛋白质的三级结构和氨基酸序列信息,获取该第二样本蛋白质的序列特征、样本主链二面角和样本二级结构。
本申请实施例中,第二样本蛋白质的序列特征、样本主链二面角和样本二级结构的获取方法,与上述实施例中步骤301的实施方式类似,在此不再一一赘述。
本申请实施例中的第二样本蛋白质与上述实施例中的第一样本蛋白质可以相同,也可以不同。
602、将序列特征和样本主链二面角输入至第二转换模型,基于该第二转换模型,获取与样本二级结构对应的测试二级结构。
第二转换模型用于根据蛋白质的序列特征和主链二面角,获取对应的二级结构。
则将第二样本蛋白质的序列特征和样本主链二面角作为第二转换模型的输入,由第二转换模型对序列特征和样本主链二面角进行处理,得到与该样本主链二面角对应的测试二级结构,该过程参见图7。
本申请实施例中的第二转换模型可以为BLSTM模型、Transformer网络模型或者BERT网络模型等。
603、根据获取到的测试二级结构与样本二级结构之间的差异,对第二转换模型的模型参数进行调整,得到调整后的第二转换模型。
比较测试二级结构和样本二级结构,根据两者之间的差异,调整该第二转换模型的模型参数,以使调整后第二转换模型输出的测试二级结构和样本二级结构之间的差异减小,达到训练第二转换模型的目的。
通过训练该第二转换模型,使第二转换模型学习到根据序列特征和主链二面角,获得主链二面角对应的二级结构的能力。
需要说明的是,本申请实施例仅是以一个样本蛋白质为例进行说明,在另一实施例中,可以根据多个第二样本蛋白质的三级结构和氨基酸序列信息,获取每个第二样本蛋白质的序列特征、样本主链二面角和样本二级结构,训练第二转换模型。
需要说明的是,在另一实施例中可以由终端来执行本申请实施例提供的第二转换模型训练方法。
本申请实施例提供的方法,根据第二样本蛋白质的三级结构和氨基酸序列信息,获取该第二样本蛋白质的序列特征、样本主链二面角和样本二级结构,将序列特征和样本主链二面角输入至第二转换模型,基于该第二转换模型,获取与样本二级结构对应的测试二级结构,根据获取到的测试二级结构与样本二级结构之间的差异,对第二转换模型的模型参数进行调整,得到调整后的第二转换模型。根据第二样本蛋白质的主链二面角与二级结构之间的关联关系训练得到的第二转换模型,能够提高第二转换模型的精确度,保证后续在基于第二转换模型获取蛋白质的二级结构时,能够提高二级结构的精确度。
需要说明的一点是,上述实施例中,分别对第一转换模型和第二转换模型进行训练,在另一实施例中,可以基于相同的样本蛋白质,同时训练第一转换模型和第二转换模型。训练过程参见图8,训练过程与上述实施例中第一转换模型和第二转换模型的训练方式类似。
图9是本申请实施例提供的一种数据获取模型的训练方法的流程图,本申请实施例的执行主体为服务器,参见图9,该方法包括:
901、根据第三样本蛋白质的三级结构和氨基酸序列信息,获取第三样本蛋白质的序列特征、样本主链二面角和样本二级结构。
本申请实施例中,第三样本蛋白质的序列特征、样本主链二面角和样本二级结构的获取方式与上述实施例中步骤301的实施方式类似,在此不再一一赘述。
本申请实施例中的第三样本蛋白质与上述实施例中的第一样本蛋白质、第二样本蛋白质可以相同,也可以不同。
902、将序列特征输入至数据获取模型,基于数据获取模型,获取第三样本蛋白质的第一测试主链二面角和第一测试二级结构。
数据获取模型用于根据蛋白质的序列特征,获取对应的主链二面角和二级结构。
参见图10,将第三样本蛋白质的序列特征作为数据获取模型的输入,由数据获取模型对序列特征进行处理,得到与该序列特征对应的第一测试主链二面角和第一测试二级结构。
本申请实施例中的数据获取模型可以为双向长短时记忆单元网络模型、多层长短时记忆单元网络模型和针对一维序列数据的全卷积神经网络模型等模型。
903、将序列特征和第一测试二级结构输入至已训练的第一转换模型,基于该第一转换模型,获取与该第一测试二级结构对应的第二测试主链二面角。
第一转换模型可以为采用上述实施例中的训练方法得到的第一转换模型,也可以为采用其他方法训练得到的。
参见图11,将数据获取模型输出的第一测试二级结构作为第一转换模型的输入,由第一转换模型对第一测试二级结构进行处理,得到与第一测试二级结构对应的第二测试主链二面角。
904、将序列特征和第一测试主链二面角输入至已训练的第二转换模型,基于该第二转换模型,获取与该第一测试主链二面角对应的第二测试二级结构。
第二转换模型可以为采用上述实施例中的训练方法得到的第二转换模型,也可以为采用其他方法训练得到的。
参见图11,将数据获取模型输出的第一测试主链二面角作为第二转换模型的输入,由第二转换模型对第一测试主链二面角进行处理,得到与第一测试二级结构对应的第二测试主链二面角。
905、获取样本主链二面角与第一测试主链二面角之间的第一差异、第一测试主链二面角与第二测试主链二面角之间的第二差异、样本二级结构与第一测试二级结构之间的第三差异和第一测试二级结构与第二测试二级结构之间的第四差异。
获取样本主链二面角与第一测试主链二面角之间的第一差异和样本二级结构与第一测试二级结构之间的第三差异,第一差异和第三差异表示数据获取模型的输出数据与实际数据之间的差异。
获取第一测试主链二面角与第二测试主链二面角之间的第二差异和第一测试二级结构与第二测试二级结构之间的第四差异,第二差异和第四差异表示数据获取模型的输出数据和转换模型的输出数据之间的差异,在训练过程中考虑到主链二面角与二级结构之间的相关性和依赖关系,减小第二差异和第四差异,进一步提高数据获取模型的精确度。
906、根据第一差异、第二差异、第三差异和第四差异,对数据获取模型的模型参数进行调整,得到调整后的数据获取模型。
根据第一差异、第二差异、第三差异和第四差异,调整数据获取模型的模型参数,以使调整后得到的第一差异、第二差异、第三差异和第四差异减小,达到训练数据获取模型的目的。
并且,当数据获取模型训练一次或多次之后,还可以根据样本蛋白质的三级结构和氨基酸序列信息,继续训练数据获取模型、第一转换模型和第二转换模型。
在一种可能实现方式中,根据样本蛋白质的三级结构和氨基酸序列信息,获取样本蛋白质的序列特征、样本主链二面角和样本二级结构,将序列特征输入至数据获取模型,基于数据获取模型,获取样本蛋白质的第一测试主链二面角和第一测试二级结构,将序列特征和第一测试二级结构输入至第一转换模型,基于该第一转换模型,获取与该第一测试二级结构对应的第二测试主链二面角,将序列特征和第一测试主链二面角输入至第二转换模型,基于该第二转换模型,获取与该第一测试主链二面角对应的第二测试二级结构,获取样本主链二面角与第一测试主链二面角之间的第一差异、第一测试主链二面角与第二测试主链二面角之间的第二差异、样本二级结构与第一测试二级结构之间的第三差异、第一测试二级结构与第二测试二级结构之间的第四差异、样本主链二面角与第二测试主链二面角之间的第五差异和样本二级结构与第二测试二级结构之间的第六差异,根据第一差异、第二差异、第三差异、第四差异、第五差异和第六差异,对数据获取模型的模型参数、第一转换模型的模型参数和第二转换模型的模型参数进行调整,得到调整后的数据获取模型、第一转换模型和第二转换模型。
得到已训练的数据获取模型之后,可以根据任一蛋白质的氨基酸序列信息,获取氨基酸序列信息的序列特征;将序列特征输入至已训练的数据获取模型,基于该数据获取模型,获取蛋白质的主链二面角和二级结构。由于数据获取模型在训练过程中,考虑了主链二面角和二级结构之间的相关性和依赖关系,因此,基于数据获取模型得到的主链二面角和二级结构更为准确,精确度更高。
需要说明的是,本申请实施例中对步骤903和步骤904执行的先后顺序不做限定,在另一实施例中,可以先执行步骤904,再执行步骤903。
需要说明的另一点是,在另一实施例中,可以不执行步骤903,只基于第二转换模型进行训练,获取样本主链二面角与第一测试主链二面角之间的第一差异、样本二级结构与第一测试二级结构之间的第三差异和第一测试二级结构与第二测试二级结构之间的第四差异,根据第一差异、第三差异和第四差异,对数据获取模型的模型参数进行调整,得到调整后的数据获取模型。
需要说明的另一点是,在另一实施例中,可以不执行步骤904,只基于第一转换模型进行训练,获取样本主链二面角与第一测试主链二面角之间的第一差异、第一测试主链二面角与第二测试主链二面角之间的第二差异和样本二级结构与第一测试二级结构之间的第三差异,根据第一差异、第二差异和第三差异,对数据获取模型的模型参数进行调整,得到调整后的数据获取模型。
需要说明的另一点是,本申请实施例仅是以一个样本蛋白质为例进行说明,在另一实施例中,可以根据多个第三样本蛋白质的三级结构和氨基酸序列信息,获取每个第三样本蛋白质的序列特征、样本主链二面角和样本二级结构,训练数据获取模型。
需要说明的另一点是,在另一实施例中可以由终端来执行本申请实施例提供的数据获取模型训练方法。
本申请实施例提供的方法,根据第三样本蛋白质的三级结构和氨基酸序列信息,获取每个第三样本蛋白质的序列特征、样本主链二面角和样本二级结构,将序列特征输入至数据获取模型,基于数据获取模型,获取第三样本蛋白质的第一测试主链二面角和第一测试二级结构,将序列特征和第一测试二级结构输入至已训练的第一转换模型,基于该第一转换模型,获取与该第一测试二级结构对应的第二测试主链二面角,将序列特征和第一测试主链二面角输入至已训练的第二转换模型,基于该第二转换模型,获取与该第一测试主链二面角对应的第二测试二级结构,获取样本主链二面角与第一测试主链二面角之间的第一差异、第一测试主链二面角与第二测试主链二面角之间的第二差异、样本二级结构与第一测试二级结构之间的第三差异和第一测试二级结构与第二测试二级结构之间的第四差异,根据第一差异、第二差异、第三差异和第四差异,对数据获取模型的模型参数进行调整,得到调整后的数据获取模型。该方法由于在训练过程中,根据第一转换模型和第二转换模型的输出对数据获取模型的参数进行调整,考虑了二级结构和主链二面角之间的关联关系,保证了二级结构和主链二面角之间的一致性,并且能够提高数据获取模型的精确度,保证后续在基于数据获取模型获取蛋白质的主链二面角和二级结构时,能够提高主链二面角和二级结构的精确度。
图12是本申请实施例提供的一种蛋白质数据获取方法的流程图,本申请实施例的执行主体为服务器,参见图12,该方法包括:
1201、根据蛋白质的氨基酸序列信息,获取氨基酸序列信息的序列特征。
本申请实施例中,将数据获取模型、第一转换模型和第二转换模型进行组合,作为联合模型,基于该联合模型,获取蛋白质的二级结构和主链二面角。
本申请实施例中的序列特征获取方式与上述实施例中步骤301的实施方式类似,在此不再一一赘述。
1202、将序列特征输入至数据获取模型,基于该数据获取模型,获取蛋白质的第一主链二面角和第一二级结构。
数据获取模型可以为采用上述实施例中的训练方法得到的数据获取模型,也可以为采用其他方式训练得到的。
1203、将序列特征和第一二级结构输入至第一转换模型,基于该第一转换模型,获取与第一二级结构对应的第二主链二面角。
该第一转换模型可以为上述实施例中训练得到的第一转换模型,或者也可以为通过其他方式训练得到的。
将数据获取模型输出的蛋白质的第一二级结构作为第一转换模型的输入,基于第一转换模型,获得与第一二级结构对应的第二主链二面角,该第二主链二面角为蛋白质的主链二面角,考虑了二级结构和主链二面角之间的关联关系,因此获取的第二主链二面角更为准确。
1204、将序列特征和第一主链二面角输入至第二转换模型,基于第二转换模型,获取与第一主链二面角对应的第二二级结构。
该第二转换模型可以为上述实施例中训练得到的第二转换模型,或者也可以为通过其他训练方式得到的。
将数据获取模型输出的蛋白质的第一主链二面角作为第二转换模型的输入,基于第二转换模型,获得与第一主链二面角对应的第二二级结构,该第二二级结构为蛋白质的二级结构,考虑了二级结构和主链二面角之间的关联关系,因此获取的第二二级结构更为准确。
获取第二主链二面角和第二二级结构之后,可以根据该第二主链二面角和第二二级结构,确定蛋白质的三级结构。由于获取的第二主链二面角的第二二级结构更加精确,因此得到的三级结构也更加精确。
本申请实施例中,基于数据获取模型、第一转换模型和第二转换模型,获取主链二面角和二级结构参见图13,将序列特征作为数据获取模型的输入,得到第一二级结构和第一主链二面角,再将第一二级结构和序列特征作为第一转换模型的输入,得到第二主链二面角,将第一主链二面角和序列特征作为第二转换模型的输入,得到第二二级结构。
需要说明的是,在另一实施例中可以由终端来执行本申请实施例提供的蛋白质数据获取方法。
需要说明的是,本申请实施例中对步骤1203和步骤1204执行的先后顺序不做限定,在另一实施例中,可以先执行步骤1204,再执行步骤1203。
本申请实施例提供的方法,根据蛋白质的氨基酸序列信息,获取氨基酸序列信息的序列特征,将序列特征输入至数据获取模型,基于该数据获取模型,获取蛋白质的第一主链二面角和第一二级结构,将序列特征和第一二级结构输入至第一转换模型,基于该第一转换模型,获取与第一二级结构对应的第二主链二面角,将序列特征和第一主链二面角输入至第二转换模型,基于第二转换模型,获取与第一主链二面角对应的第二二级结构。该方法基于第一转换模型获取第二主链二面角,基于第二转换模型获取第二二级结构,由于第一转换模型的输入为第一二级结构,第二转换模型的输入为第一主链二面角,考虑了二级结构和主链二面角之间的关联关系,保证了获取的第二主链二面角和第二二级结构的一致性,提高了获取的二级结构和主链二面角的精确度。
需要说明的是,在另一实施例中,如果数据获取模型是采用上述训练方法得到的,则可以不执行步骤1203和步骤1204,直接将基于数据获取模型得到的第一主链二面角和第一二级结构作为输出结果。
由于采用上述实施例中的训练方法得到的数据获取模型,是基于第一转换模型和第二转换模型的输出进行训练得到的,在训练过程中,已经考虑了二级结构和主链二面角之间的关联关系,能够保证二级结构和主链二面角之间的一致性,该数据获取模型具有较高的精确度。因此,将基于数据获取模型得到的第一主链二面角和第一二级结构作为输出结果时,仍然能够提高获取的主链二面角和二级结构的精确度。
相关技术中,对蛋白质的主链二面角和二级结构是分别进行获取的,分别提出来了获取二级结构和主链二面角的方法。获取主链二面角和二级结构的方法包括以下几种:
第一种,获取蛋白质的主链二面角:采用RaptorX-Angle(一种数据获取方法)方法,通过k-均值聚类将主链二面角的获取转换为分类问题,并采用卷积神经网络获取主链二面角。
第二种,获取蛋白质的二级结构:采用逐步预测方法,通过在卷积神经网络中考虑局部序列信息以及位于当前氨基酸之前的二级结构,获取二级结构。
第三种,获取蛋白质的二级结构:采用一种集成多种网络结构的方法,将时序卷积神经网络、加入注意力机制的双向长短时记忆单元网络等作为集成网络,采用该集成网络获取二级结构。
上述三种方法,在获取蛋白质的主链二面角和二级结构时,没有考虑主链二面角和二级结构之间的关联关系,因此获取的主链二面角和二级结构不够准确,精确度较低。
例如,蛋白质中某个片段的主链二面角具有很多可能的取值范围,有些取值范围可以支持该片段属于α-螺旋这种二级结构,但有些取值范围无法支持该片段属于α-螺旋这种二级结构。那么,如果蛋白质中某个片段属于α-螺旋这种二级结构,如果不考虑主链二面角和二级结构之间的关联关系,就需要从主链二面角的所有取值范围中确定主链二面角的数值,而如果考虑主链二面角和二级结构之间的关联关系,就可以过滤掉无法支持该片段属于α-螺旋这种二级结构的取值范围,根据支持该片段属于α-螺旋这种二级结构的取值范围来确定主链二面角的数值,从而提高主链二面角的精确度。
而本申请实施例提供的方法,在训练数据获取模型时,考虑了主链二面角和二级结构之间的关联关系,因此,基于数据获取模型得到的二级结构和主链二面角更为准确,提高了获取的二级结构和主链二面角的精确度。
第四种,基于实验方法获取蛋白质的三级结构,例如X射线结晶、核磁共振以及冷冻电镜等方法,实验方法需要花费大量的时间,导致成本较高。
而本申请实施例中,可以根据获取的二级结构和主链二面角,采用计算方法得到三级结构,由于获取的二级结构和主链二面角的精确度高,因此,通过计算得到的三级结构的精确度也高,并且降低了成本。
图14是本申请实施例提供的一种蛋白质数据获取装置的结构示意图。参见图14,该装置包括:
特征获取模块1401,用于根据蛋白质的氨基酸序列信息,获取氨基酸序列信息的序列特征;
第一数据获取模块1402,用于将序列特征输入至数据获取模型,基于数据获取模型,获取蛋白质的第一主链二面角和第一二级结构;
主链二面角获取模块1403,用于将序列特征和第一二级结构输入至第一转换模型,基于第一转换模型,获取与第一二级结构对应的第二主链二面角;
二级结构获取模块1404,用于将序列特征和第一主链二面角输入至第二转换模型,基于第二转换模型,获取与第一主链二面角对应的第二二级结构。
可选地,参见图15,装置还包括:
三级结构获取模块1405,用于根据第二主链二面角和第二二级结构,确定蛋白质的三级结构。
可选地,参见图15,装置还包括:
第一样本获取模块1406,用于根据第一样本蛋白质的三级结构和氨基酸序列信息,获取第一样本蛋白质的序列特征、样本主链二面角和样本二级结构;
第一测试数据获取模块1407,用于将序列特征和样本二级结构输入至第一转换模型,基于第一转换模型,获取与样本二级结构对应的测试主链二面角;
第一训练模块1408,用于根据获取到的测试主链二面角与样本主链二面角之间的差异,对第一转换模型的模型参数进行调整,得到调整后的第一转换模型。
可选地,参见图15,装置还包括:
第二样本获取模块1409,用于根据第二样本蛋白质的三级结构和氨基酸序列信息,获取第二样本蛋白质的序列特征、样本主链二面角和样本二级结构;
第二测试数据获取模块1410,用于将序列特征和样本主链二面角输入至第二转换模型,基于第二转换模型,获取与样本主链二面角对应的测试二级结构;
第二训练模块1411,用于根据获取到的测试二级结构与样本二级结构之间的差异,对第二转换模型的模型参数进行调整,得到调整后的第二转换模型。
可选地,参见图15,装置还包括:
第三样本获取模块1412,用于根据第三样本蛋白质的三级结构和氨基酸序列信息,获取第三样本蛋白质的序列特征、样本主链二面角和样本二级结构;
第三测试数据获取模块1413,用于将序列特征输入至数据获取模型,基于数据获取模型,获取第三样本蛋白质的第一测试主链二面角和第一测试二级结构;
第三测试数据获取模块1413,还用于将序列特征和第一测试二级结构输入至已训练的第一转换模型,基于第一转换模型,获取与第一测试二级结构对应的第二测试主链二面角;
第三训练模块1414,用于获取样本主链二面角与第一测试主链二面角之间的第一差异、第一测试主链二面角与第二测试主链二面角之间的第二差异和样本二级结构与第一测试二级结构之间的第三差异;
第三训练模块1414,还用于根据第一差异、第二差异和第三差异,对数据获取模型的模型参数进行调整,得到调整后的数据获取模型。
可选地,参见图15,装置还包括:
第四样本获取模块1415,用于根据第四样本蛋白质的三级结构和氨基酸序列信息,获取第四样本蛋白质的序列特征、样本主链二面角和样本二级结构;
第四测试数据获取模块1416,用于将序列特征输入至数据获取模型,基于数据获取模型,获取第四样本蛋白质的第一测试主链二面角和第一测试二级结构;
第四测试数据获取模块1416,还用于将序列特征和第一测试主链二面角输入至已训练的第二转换模型,基于第二转换模型,获取与第一测试主链二面角对应的第二测试二级结构;
第四训练模块1417,用于获取样本主链二面角与第一测试主链二面角之间的第一差异、样本二级结构与第一测试二级结构之间的第三差异和第一测试二级结构与第二测试二级结构之间的第四差异;
第四训练模块1417,还用于根据第一差异、第三差异和第四差异,对数据获取模型的模型参数进行调整,得到调整后的数据获取模型。
图16是本申请实施例提供的一种模型训练装置的结构示意图。参见图16,该装置包括:
样本获取模块1601,用于根据多个样本蛋白质的三级结构和氨基酸序列信息,获取第一样本数据、第二样本数据和第三样本数据,每条样本数据包括一个样本蛋白质的序列特征、样本主链二面角和样本二级结构;
第一训练模块1602,用于根据第一样本数据,训练第一转换模型;
第二训练模块1603,用于根据第二样本数据,训练第二转换模型;
第三训练模块1604,用于根据第三样本数据及已训练的第一转换模型和第二转换模型,训练数据获取模型。
可选地,参见图17,装置还包括:
特征获取模块1605,用于根据蛋白质的氨基酸序列信息,获取氨基酸序列信息的序列特征;
数据获取模块1606,用于将序列特征输入至已训练的数据获取模型,基于数据获取模型,获取蛋白质的主链二面角和二级结构。
可选地,参见图17,第一训练模块1602包括:
第一样本获取单元16021,用于根据第一样本蛋白质的三级结构和氨基酸序列信息,获取第一样本蛋白质的序列特征、样本主链二面角和样本二级结构;
第一测试数据获取单元16022,用于将序列特征和样本二级结构输入至第一转换模型,基于第一转换模型,获取与样本二级结构对应的测试主链二面角;
第一训练单元16023,用于根据获取到的测试主链二面角与样本主链二面角之间的差异,对第一转换模型的模型参数进行调整,得到调整后的第一转换模型。
可选地,参见图17,第二训练模块1603包括:
第二样本获取单元16031,用于根据第二样本蛋白质的三级结构和氨基酸序列信息,获取第二样本蛋白质的序列特征、样本主链二面角和样本二级结构;
第二测试数据获取单元16032,用于将序列特征和样本主链二面角输入至第二转换模型,基于第二转换模型,获取与样本主链二面角对应的测试二级结构;
第二训练单元16033,用于根据获取到的测试二级结构与样本二级结构之间的差异,对第二转换模型的模型参数进行调整,得到调整后的第二转换模型。
可选地,参见图17,第三训练模块1604包括:
第三样本获取单元16041,用于根据第三样本蛋白质的三级结构和氨基酸序列信息,获取第三样本蛋白质的序列特征、样本主链二面角和样本二级结构;
第三测试数据获取单元16042,用于将序列特征输入至数据获取模型,基于数据获取模型,获取第三样本蛋白质的第一测试主链二面角和第一测试二级结构;
第三测试数据获取单元16042,还用于将序列特征和第一测试二级结构输入至已训练的第一转换模型,基于第一转换模型,获取与第一测试二级结构对应的第二测试主链二面角;
第三训练单元16043,用于获取样本主链二面角与第一测试主链二面角之间的第一差异、第一测试主链二面角与第二测试主链二面角之间的第二差异和样本二级结构与第一测试二级结构之间的第三差异;
第三训练单元16043,还用于根据第一差异、第二差异和第三差异,对数据获取模型的模型参数进行调整,得到调整后的数据获取模型。
可选地,参见图17,第三训练模块1604还包括:
第三样本获取单元16041,用于根据第三样本蛋白质的三级结构和氨基酸序列信息,获取第三样本蛋白质的序列特征、样本主链二面角和样本二级结构;
第四测试数据获取单元16044,用于将序列特征输入至数据获取模型,基于数据获取模型,获取第三样本蛋白质的第一测试主链二面角和第一测试二级结构;
第四测试数据获取单元16044,还用于将序列特征和第一测试主链二面角输入至已训练的第二转换模型,基于第二转换模型,获取与第一测试主链二面角对应的第二测试二级结构;
第四训练单元16045,用于获取样本主链二面角与第一测试主链二面角之间的第一差异、样本二级结构与第一测试二级结构之间的第三差异和第一测试二级结构与第二测试二级结构之间的第四差异;
第四训练单元16045,还用于根据第一差异、第三差异和第四差异,对数据获取模型的模型参数进行调整,得到调整后的数据获取模型。
需要说明的是:上述实施例提供的蛋白质数据获取装置在获取蛋白质数据时,提供的模型训练装置在训练模型时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,以完成以上描述的全部或者部分功能。另外,上述实施例提供的蛋白质数据获取装置与蛋白质数据获取方法实施例属于同一构思,提供的模型训练装置与模型训练方法属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图18是本申请实施例提供的一种终端1800的结构示意图。
通常,终端1800包括有:处理器1801和存储器1802。
处理器1801可以包括一个或多个处理核心,比如4核心处理器、5核心处理器等。处理器1801可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1801也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1801可以在集成有GPU(Graphics Processing Unit,图像处理的交互器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1801还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器1802可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器1802还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1802中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器1801所具有以实现本申请中方法实施例提供的蛋白质数据获取方法。
在一些实施例中,终端1800还可选包括有:外围设备接口1803和至少一个外围设备。处理器1801、存储器1802和外围设备接口1803之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1803相连。具体地,外围设备包括:射频电路1804、触摸显示屏1805、摄像头1806、音频电路1807、定位组件1808和电源1809中的至少一种。
外围设备接口1803可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器1801和存储器1802。在一些实施例中,处理器1801、存储器1802和外围设备接口1803被集成在同一芯片或电路板上;在一些其他实施例中,处理器1801、存储器1802和外围设备接口1803中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路1804用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路1804通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1804将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路1804包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1804可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及8G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路1804还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏1805用于显示UI(UserInterface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1805是触摸显示屏时,显示屏1805还具有采集在显示屏1805的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1801进行处理。此时,显示屏1805还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏1805可以为一个,设置终端1800的前面板;在另一些实施例中,显示屏1805可以为至少两个,分别设置在终端1800的不同表面或呈折叠设计;在再一些实施例中,显示屏1805可以是柔性显示屏,设置在终端1800的弯曲表面上或折叠面上。甚至,显示屏1805还可以设置成非矩形的不规则图形,也即异形屏。显示屏1805可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件1806用于采集图像或视频。可选地,摄像头组件1806包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端1800的前面板,后置摄像头设置在终端1800的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件1806还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路1807可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器1801进行处理,或者输入至射频电路1804以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端1800的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1801或射频电路1804的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路1807还可以包括耳机插孔。
定位组件1808用于定位终端1800的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件1808可以是基于美国的GPS(GlobalPositioning System,全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。
电源1809用于为终端1800中的各个组件进行供电。电源1809可以是交流电、直流电、一次性电池或可充电电池。当电源1809包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端1800还包括有一个或多个传感器1810。该一个或多个传感器1810包括但不限于:加速度传感器1811、陀螺仪传感器1812、压力传感器1813、指纹传感器1814、光学传感器1815以及接近传感器1816。
加速度传感器1811可以检测以终端1800建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器1811可以用于检测重力加速度在三个坐标轴上的分量。处理器1801可以根据加速度传感器1811采集的重力加速度信号,控制触摸显示屏1805以横向视图或纵向视图进行用户界面的显示。加速度传感器1811还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器1812可以检测终端1800的机体方向及转动角度,陀螺仪传感器1812可以与加速度传感器1811协同采集用户对终端1800的3D动作。处理器1801根据陀螺仪传感器1812采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器1813可以设置在终端1800的侧边框和/或触摸显示屏1805的下层。当压力传感器1813设置在终端1800的侧边框时,可以检测用户对终端1800的握持信号,由处理器1801根据压力传感器1813采集的握持信号进行左右手识别或快捷操作。当压力传感器1813设置在触摸显示屏1805的下层时,由处理器1801根据用户对触摸显示屏1805的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器1814用于采集用户的指纹,由处理器1801根据指纹传感器1414采集到的指纹识别用户的身份,或者,由指纹传感器1814根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器1801授权该用户具有相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1814可以被设置终端1800的正面、背面或侧面。当终端1800上设置有物理按键或厂商Logo时,指纹传感器1814可以与物理按键或厂商标志集成在一起。
光学传感器1815用于采集环境光强度。在一个实施例中,处理器1801可以根据光学传感器1815采集的环境光强度,控制触摸显示屏1805的显示亮度。具体地,当环境光强度较高时,调高触摸显示屏1805的显示亮度;当环境光强度较低时,调低触摸显示屏1805的显示亮度。在另一个实施例中,处理器1801还可以根据光学传感器1815采集的环境光强度,动态调整摄像头组件1806的拍摄参数。
接近传感器1816,也称距离传感器,通常设置在终端1800的前面板。接近传感器1816用于采集用户与终端1800的正面之间的距离。在一个实施例中,当接近传感器1816检测到用户与终端1800的正面之间的距离逐渐变小时,由处理器1801控制触摸显示屏1805从亮屏状态切换为息屏状态;当接近传感器1816检测到用户与终端1800的正面之间的距离逐渐变大时,由处理器1801控制触摸显示屏1805从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图18中示出的结构并不构成对终端1800的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
图19是本申请实施例提供的一种服务器的结构示意图,该服务器1900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(Central ProcessingUnits,CPU)1901和一个或一个以上的存储器1902,其中,存储器1902中存储有至少一条指令,该至少一条指令由处理器1901加载并执行以实现上述各个方法实施例提供的方法。当然,该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。
服务器1900可以用于执行上述蛋白质数据获取方法中服务器所执行的步骤。
本申请实施例还提供了一种用于获取蛋白质数据的计算机设备,该计算机设备包括处理器和存储器,存储器中存储有至少一条程序代码,该至少一条程序代码由处理器加载并执行,以实现上述实施例的蛋白质数据获取方法中所执行的操作,或者以实现上述实施例的模型训练方法中所执行的操作。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一条程序代码,该至少一条程序代码由处理器加载并执行,以实现上述实施例的蛋白质数据获取方法中所执行的操作,或者以实现上述实施例的模型训练方法中所执行的操作。
本申请实施例还提供了一种计算机程序,该计算机程序中存储有至少一条程序代码,该至少一条程序代码由处理器加载并执行,以实现上述实施例的蛋白质数据获取方法中所执行的操作,或者以实现上述实施例的模型训练方法中所执行的操作。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请实施例的可选实施例,并不用以限制本申请实施例,凡在本申请实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (19)

1.一种蛋白质数据获取方法,其特征在于,所述方法包括:
根据蛋白质的氨基酸序列信息,获取所述氨基酸序列信息的序列特征;
将所述序列特征输入至数据获取模型,基于所述数据获取模型,获取所述蛋白质的第一主链二面角和第一二级结构;
将所述序列特征和所述第一二级结构输入至第一转换模型,基于所述第一转换模型,获取与所述第一二级结构对应的第二主链二面角;
将所述序列特征和所述第一主链二面角输入至第二转换模型,基于所述第二转换模型,获取与所述第一主链二面角对应的第二二级结构;
所述将所述序列特征输入至数据获取模型,基于所述数据获取模型,获取所述蛋白质的第一主链二面角和第一二级结构之前,所述方法还包括:
根据第三样本蛋白质的三级结构和氨基酸序列信息,获取所述第三样本蛋白质的序列特征、样本主链二面角和样本二级结构;
将所述序列特征输入至所述数据获取模型,基于所述数据获取模型,获取所述第三样本蛋白质的第一测试主链二面角和第一测试二级结构;
将所述序列特征和所述第一测试二级结构输入至已训练的所述第一转换模型,基于所述第一转换模型,获取与所述第一测试二级结构对应的第二测试主链二面角;
获取所述样本主链二面角与所述第一测试主链二面角之间的第一差异、所述第一测试主链二面角与所述第二测试主链二面角之间的第二差异和所述样本二级结构与所述第一测试二级结构之间的第三差异;
根据所述第一差异、所述第二差异和所述第三差异,对所述数据获取模型的模型参数进行调整,得到调整后的数据获取模型。
2.根据权利要求1所述的方法,其特征在于,所述将所述序列特征和所述第一二级结构输入至第一转换模型,基于所述第一转换模型,获取与所述第一二级结构对应的第二主链二面角之前,所述方法还包括:
根据第一样本蛋白质的三级结构和氨基酸序列信息,获取所述第一样本蛋白质的序列特征、样本主链二面角和样本二级结构;
将所述序列特征和所述样本二级结构输入至所述第一转换模型,基于所述第一转换模型,获取与所述样本二级结构对应的测试主链二面角;
根据获取到的测试主链二面角与所述样本主链二面角之间的差异,对所述第一转换模型的模型参数进行调整,得到调整后的第一转换模型。
3.根据权利要求1所述的方法,其特征在于,所述将所述序列特征和所述第一主链二面角输入至第二转换模型,基于所述第二转换模型,获取与所述第一主链二面角对应的第二二级结构之前,所述方法还包括:
根据第二样本蛋白质的三级结构和氨基酸序列信息,获取所述第二样本蛋白质的序列特征、样本主链二面角和样本二级结构;
将所述序列特征和所述样本主链二面角输入至所述第二转换模型,基于所述第二转换模型,获取与所述样本主链二面角对应的测试二级结构;
根据获取到的测试二级结构与所述样本二级结构之间的差异,对所述第二转换模型的模型参数进行调整,得到调整后的第二转换模型。
4.根据权利要求1所述的方法,其特征在于,所述将所述序列特征输入至数据获取模型,基于所述数据获取模型,获取所述蛋白质的第一主链二面角和第一二级结构之前,所述方法还包括:
根据第四样本蛋白质的三级结构和氨基酸序列信息,获取所述第四样本蛋白质的序列特征、样本主链二面角和样本二级结构;
将所述序列特征输入至所述数据获取模型,基于所述数据获取模型,获取所述第四样本蛋白质的第一测试主链二面角和第一测试二级结构;
将所述序列特征和所述第一测试主链二面角输入至已训练的所述第二转换模型,基于所述第二转换模型,获取与所述第一测试主链二面角对应的第二测试二级结构;
获取所述样本主链二面角与所述第一测试主链二面角之间的第一差异、所述样本二级结构与所述第一测试二级结构之间的第三差异和所述第一测试二级结构与所述第二测试二级结构之间的第四差异;
根据所述第一差异、所述第三差异和所述第四差异,对所述数据获取模型的模型参数进行调整,得到调整后的数据获取模型。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述第二主链二面角和所述第二二级结构,确定所述蛋白质的三级结构。
6.一种蛋白质数据获取方法,其特征在于,所述方法包括:
根据蛋白质的氨基酸序列信息,获取所述氨基酸序列信息的序列特征;
将所述序列特征输入至数据获取模型,基于所述数据获取模型,获取所述蛋白质的第一主链二面角和第一二级结构;
将所述序列特征和所述第一二级结构输入至第一转换模型,基于所述第一转换模型,获取与所述第一二级结构对应的第二主链二面角;
将所述序列特征和所述第一主链二面角输入至第二转换模型,基于所述第二转换模型,获取与所述第一主链二面角对应的第二二级结构;
所述将所述序列特征输入至数据获取模型,基于所述数据获取模型,获取所述蛋白质的第一主链二面角和第一二级结构之前,所述方法还包括:
根据第四样本蛋白质的三级结构和氨基酸序列信息,获取所述第四样本蛋白质的序列特征、样本主链二面角和样本二级结构;
将所述序列特征输入至所述数据获取模型,基于所述数据获取模型,获取所述第四样本蛋白质的第一测试主链二面角和第一测试二级结构;
将所述序列特征和所述第一测试主链二面角输入至已训练的所述第二转换模型,基于所述第二转换模型,获取与所述第一测试主链二面角对应的第二测试二级结构;
获取所述样本主链二面角与所述第一测试主链二面角之间的第一差异、所述样本二级结构与所述第一测试二级结构之间的第三差异和所述第一测试二级结构与所述第二测试二级结构之间的第四差异;
根据所述第一差异、所述第三差异和所述第四差异,对所述数据获取模型的模型参数进行调整,得到调整后的数据获取模型。
7.根据权利要求6所述的方法,其特征在于,所述将所述序列特征和所述第一二级结构输入至第一转换模型,基于所述第一转换模型,获取与所述第一二级结构对应的第二主链二面角之前,所述方法还包括:
根据第一样本蛋白质的三级结构和氨基酸序列信息,获取所述第一样本蛋白质的序列特征、样本主链二面角和样本二级结构;
将所述序列特征和所述样本二级结构输入至所述第一转换模型,基于所述第一转换模型,获取与所述样本二级结构对应的测试主链二面角;
根据获取到的测试主链二面角与所述样本主链二面角之间的差异,对所述第一转换模型的模型参数进行调整,得到调整后的第一转换模型。
8.根据权利要求6所述的方法,其特征在于,所述将所述序列特征和所述第一主链二面角输入至第二转换模型,基于所述第二转换模型,获取与所述第一主链二面角对应的第二二级结构之前,所述方法还包括:
根据第二样本蛋白质的三级结构和氨基酸序列信息,获取所述第二样本蛋白质的序列特征、样本主链二面角和样本二级结构;
将所述序列特征和所述样本主链二面角输入至所述第二转换模型,基于所述第二转换模型,获取与所述样本主链二面角对应的测试二级结构;
根据获取到的测试二级结构与所述样本二级结构之间的差异,对所述第二转换模型的模型参数进行调整,得到调整后的第二转换模型。
9.根据权利要求6所述的方法,其特征在于,所述方法还包括:
根据所述第二主链二面角和所述第二二级结构,确定所述蛋白质的三级结构。
10.一种模型训练方法,其特征在于,所述方法包括:
根据多个样本蛋白质的三级结构和氨基酸序列信息,获取第一样本数据、第二样本数据和第三样本数据,每条样本数据包括一个样本蛋白质的序列特征、样本主链二面角和样本二级结构;
根据所述第一样本数据,训练第一转换模型,所述第一转换模型的输入为样本蛋白质的序列特征和样本二级结构,输出为所述样本二级结构对应的测试主链二面角;
根据所述第二样本数据,训练第二转换模型,所述第二转换模型的输入为样本蛋白质的序列特征和样本主链二面角,输出为所述样本主链二面角对应的测试二级结构;
根据所述第三样本数据及已训练的第一转换模型和第二转换模型,训练数据获取模型,所述数据获取模型的输入为样本蛋白质的序列特征,输出为所述样本蛋白质的测试主链二面角和测试二级结构。
11.根据权利要求10所述的方法,其特征在于,所述根据所述第三样本数据及已训练的第一转换模型和第二转换模型,训练数据获取模型之后,所述方法还包括:
根据蛋白质的氨基酸序列信息,获取所述氨基酸序列信息的序列特征;
将所述序列特征输入至已训练的数据获取模型,基于所述数据获取模型,获取所述蛋白质的主链二面角和二级结构。
12.根据权利要求10所述的方法,其特征在于,所述根据所述第一样本数据,训练第一转换模型,包括:
根据第一样本蛋白质的三级结构和氨基酸序列信息,获取第一样本蛋白质的序列特征、样本主链二面角和样本二级结构;
将所述序列特征和所述样本二级结构输入至所述第一转换模型,基于所述第一转换模型,获取与所述样本二级结构对应的测试主链二面角;
根据获取到的测试主链二面角与所述样本主链二面角之间的差异,对所述第一转换模型的模型参数进行调整,得到调整后的第一转换模型。
13.根据权利要求10所述的方法,其特征在于,所述根据所述第二样本数据,训练第二转换模型,包括:
根据第二样本蛋白质的三级结构和氨基酸序列信息,获取第二样本蛋白质的序列特征、样本主链二面角和样本二级结构;
将所述序列特征和所述样本主链二面角输入至所述第二转换模型,基于所述第二转换模型,获取与所述样本主链二面角对应的测试二级结构;
根据获取到的测试二级结构与所述样本二级结构之间的差异,对所述第二转换模型的模型参数进行调整,得到调整后的第二转换模型。
14.根据权利要求10所述的方法,其特征在于,所述根据所述第三样本数据及已训练的第一转换模型和第二转换模型,训练数据获取模型,包括:
根据第三样本蛋白质的三级结构和氨基酸序列信息,获取第三样本蛋白质的序列特征、样本主链二面角和样本二级结构;
将所述序列特征输入至所述数据获取模型,基于所述数据获取模型,获取所述第三样本蛋白质的第一测试主链二面角和第一测试二级结构;
将所述序列特征和所述第一测试二级结构输入至已训练的所述第一转换模型,基于所述第一转换模型,获取与所述第一测试二级结构对应的第二测试主链二面角;
获取所述样本主链二面角与所述第一测试主链二面角之间的第一差异、所述第一测试主链二面角与所述第二测试主链二面角之间的第二差异和所述样本二级结构与所述第一测试二级结构之间的第三差异;
根据所述第一差异、所述第二差异和所述第三差异,对所述数据获取模型的模型参数进行调整,得到调整后的数据获取模型。
15.根据权利要求10所述的方法,其特征在于,所述根据所述第三样本数据及已训练的第一转换模型和第二转换模型,训练数据获取模型,所述方法还包括:
根据第三样本蛋白质的三级结构和氨基酸序列信息,获取第三样本蛋白质的序列特征、样本主链二面角和样本二级结构;
将所述序列特征输入至所述数据获取模型,基于所述数据获取模型,获取所述第三样本蛋白质的第一测试主链二面角和第一测试二级结构;
将所述序列特征和所述第一测试主链二面角输入至已训练的所述第二转换模型,基于所述第二转换模型,获取与所述第一测试主链二面角对应的第二测试二级结构;
获取所述样本主链二面角与所述第一测试主链二面角之间的第一差异、所述样本二级结构与所述第一测试二级结构之间的第三差异和所述第一测试二级结构与所述第二测试二级结构之间的第四差异;
根据所述第一差异、所述第三差异和所述第四差异,对所述数据获取模型的模型参数进行调整,得到调整后的数据获取模型。
16.一种蛋白质数据获取装置,其特征在于,所述装置包括:
特征获取模块,用于根据蛋白质的氨基酸序列信息,获取所述氨基酸序列信息的序列特征;
第一数据获取模块,用于将所述序列特征输入至数据获取模型,基于所述数据获取模型,获取所述蛋白质的第一主链二面角和第一二级结构;
主链二面角获取模块,用于将所述序列特征和所述第一二级结构输入至第一转换模型,基于所述第一转换模型,获取与所述第一二级结构对应的第二主链二面角;
二级结构获取模块,用于将所述序列特征和所述第一主链二面角输入至第二转换模型,基于所述第二转换模型,获取与所述第一主链二面角对应的第二二级结构;
第三样本获取模块,用于根据第三样本蛋白质的三级结构和氨基酸序列信息,获取所述第三样本蛋白质的序列特征、样本主链二面角和样本二级结构;
第三测试数据获取模块,用于将所述序列特征输入至所述数据获取模型,基于所述数据获取模型,获取所述第三样本蛋白质的第一测试主链二面角和第一测试二级结构;
所述第三测试数据获取模块,还用于将所述序列特征和所述第一测试二级结构输入至已训练的所述第一转换模型,基于所述第一转换模型,获取与所述第一测试二级结构对应的第二测试主链二面角;
第三训练模块,用于获取所述样本主链二面角与所述第一测试主链二面角之间的第一差异、所述第一测试主链二面角与所述第二测试主链二面角之间的第二差异和所述样本二级结构与所述第一测试二级结构之间的第三差异;
所述第三训练模块,还用于根据所述第一差异、所述第二差异和所述第三差异,对所述数据获取模型的模型参数进行调整,得到调整后的数据获取模型。
17.一种蛋白质数据获取装置,其特征在于,所述装置包括:
特征获取模块,用于根据蛋白质的氨基酸序列信息,获取所述氨基酸序列信息的序列特征;
第一数据获取模块,用于将所述序列特征输入至数据获取模型,基于所述数据获取模型,获取所述蛋白质的第一主链二面角和第一二级结构;
主链二面角获取模块,用于将所述序列特征和所述第一二级结构输入至第一转换模型,基于所述第一转换模型,获取与所述第一二级结构对应的第二主链二面角;
二级结构获取模块,用于将所述序列特征和所述第一主链二面角输入至第二转换模型,基于所述第二转换模型,获取与所述第一主链二面角对应的第二二级结构;
第四样本获取模块,用于根据第四样本蛋白质的三级结构和氨基酸序列信息,获取所述第四样本蛋白质的序列特征、样本主链二面角和样本二级结构;
第四测试数据获取模块,用于将所述序列特征输入至所述数据获取模型,基于所述数据获取模型,获取所述第四样本蛋白质的第一测试主链二面角和第一测试二级结构;
所述第四测试数据获取模块,还用于将所述序列特征和所述第一测试主链二面角输入至已训练的所述第二转换模型,基于所述第二转换模型,获取与所述第一测试主链二面角对应的第二测试二级结构;
第四训练模块,用于获取所述样本主链二面角与所述第一测试主链二面角之间的第一差异、所述样本二级结构与所述第一测试二级结构之间的第三差异和所述第一测试二级结构与所述第二测试二级结构之间的第四差异;
所述第四训练模块,还用于根据所述第一差异、所述第三差异和所述第四差异,对所述数据获取模型的模型参数进行调整,得到调整后的数据获取模型。
18.一种模型训练装置,其特征在于,所述装置包括:
样本获取模块,用于根据多个样本蛋白质的三级结构和氨基酸序列信息,获取第一样本数据、第二样本数据和第三样本数据,每条样本数据包括一个样本蛋白质的序列特征、样本主链二面角和样本二级结构;
第一训练模块,用于根据所述第一样本数据,训练第一转换模型,所述第一转换模型的输入为样本蛋白质的序列特征和样本二级结构,输出为所述样本二级结构对应的测试主链二面角;
第二训练模块,用于根据所述第二样本数据,训练第二转换模型,所述第二转换模型的输入为样本蛋白质的序列特征和样本主链二面角,输出为所述样本主链二面角对应的测试二级结构;
第三训练模块,用于根据所述第三样本数据及已训练的第一转换模型和第二转换模型,训练数据获取模型,所述数据获取模型的输入为样本蛋白质的序列特征,输出为所述样本蛋白质的测试主链二面角和测试二级结构。
19.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述至少一条程序代码由所述处理器加载并执行,以实现如权利要求1至5任一权利要求所述的蛋白质数据获取方法中所执行的操作,或者以实现如权利要求6至9任一权利要求所述的蛋白质数据获取方法中所执行的操作,或者以实现如权利要求10至15任一项权利要求所述的模型训练方法中所执行的操作。
CN201911097122.6A 2019-11-11 2019-11-11 蛋白质数据获取方法、装置、计算机设备及存储介质 Active CN110853704B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911097122.6A CN110853704B (zh) 2019-11-11 2019-11-11 蛋白质数据获取方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911097122.6A CN110853704B (zh) 2019-11-11 2019-11-11 蛋白质数据获取方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN110853704A CN110853704A (zh) 2020-02-28
CN110853704B true CN110853704B (zh) 2020-11-06

Family

ID=69601369

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911097122.6A Active CN110853704B (zh) 2019-11-11 2019-11-11 蛋白质数据获取方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN110853704B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080099559A (ko) * 2007-05-10 2008-11-13 연세대학교 산학협력단 핵자기분광학을 이용한 단백질 2차 구조 예측 방법
CN103093117A (zh) * 2013-01-16 2013-05-08 湖州师范学院 一种蛋白质侧链预测的层次化建模方法
CN109448784A (zh) * 2018-08-29 2019-03-08 浙江工业大学 一种基于二面角信息辅助能量函数选择的蛋白质结构预测方法
CN109801675A (zh) * 2018-12-26 2019-05-24 东软集团股份有限公司 一种确定蛋白质脂质功能的方法、装置和设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103282378B (zh) * 2010-10-06 2015-03-11 华盛顿大学商业中心 多肽及其在治疗和限制呼吸道合胞病毒感染中的用途

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080099559A (ko) * 2007-05-10 2008-11-13 연세대학교 산학협력단 핵자기분광학을 이용한 단백질 2차 구조 예측 방법
CN103093117A (zh) * 2013-01-16 2013-05-08 湖州师范学院 一种蛋白质侧链预测的层次化建模方法
CN109448784A (zh) * 2018-08-29 2019-03-08 浙江工业大学 一种基于二面角信息辅助能量函数选择的蛋白质结构预测方法
CN109801675A (zh) * 2018-12-26 2019-05-24 东软集团股份有限公司 一种确定蛋白质脂质功能的方法、装置和设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Prediction of backbone dihedral angles and protein secondary structure using support vector machines;Petros Kountouris;《BMC Bioinformatics》;20091222;1-14 *
Protein Secondary Structure Prediction with Dihedral Angles;Matthew J. Wood et al.;《PROTEINS: Structure, Function, and Bioinformatics》;20050515;第59卷(第3期);476-481 *
使用人工神经网络方法预测蛋白质分子主链的二面角;王化军;《生物物理学报》;19920630;第7卷(第2期);157-160 *

Also Published As

Publication number Publication date
CN110853704A (zh) 2020-02-28

Similar Documents

Publication Publication Date Title
CN108629747B (zh) 图像增强方法、装置、电子设备及存储介质
WO2020224479A1 (zh) 目标的位置获取方法、装置、计算机设备及存储介质
CN109815150B (zh) 应用测试方法、装置、电子设备及存储介质
CN108288032B (zh) 动作特征获取方法、装置及存储介质
CN109522863B (zh) 耳部关键点检测方法、装置及存储介质
CN111104980B (zh) 确定分类结果的方法、装置、设备及存储介质
CN112907725A (zh) 图像生成、图像处理模型的训练、图像处理方法和装置
CN111127509A (zh) 目标跟踪方法、装置和计算机可读存储介质
CN111192262A (zh) 基于人工智能的产品缺陷分类方法、装置、设备及介质
CN110796248A (zh) 数据增强的方法、装置、设备及存储介质
CN111738365B (zh) 图像分类模型训练方法、装置、计算机设备及存储介质
CN111589138B (zh) 动作预测方法、装置、设备及存储介质
CN110991457A (zh) 二维码处理方法、装置、电子设备及存储介质
CN110705614A (zh) 模型训练方法、装置、电子设备及存储介质
CN113918767A (zh) 视频片段定位方法、装置、设备及存储介质
CN110070143B (zh) 获取训练数据的方法、装置、设备及存储介质
CN109961802B (zh) 音质比较方法、装置、电子设备及存储介质
CN111753606A (zh) 一种智能模型的升级方法及装置
CN111857793A (zh) 网络模型的训练方法、装置、设备及存储介质
CN110728167A (zh) 文本检测方法、装置及计算机可读存储介质
CN113160031A (zh) 图像处理方法、装置、电子设备及存储介质
CN112819103A (zh) 基于图神经网络的特征识别方法、装置、存储介质及终端
CN111898535A (zh) 目标识别方法、装置及存储介质
CN110990549A (zh) 获取答案的方法、装置、电子设备及存储介质
CN112925922A (zh) 获取地址的方法、装置、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40021531

Country of ref document: HK