CN114116857B - 抗体数据库的生成、更新和查询方法、装置及存储介质 - Google Patents

抗体数据库的生成、更新和查询方法、装置及存储介质 Download PDF

Info

Publication number
CN114116857B
CN114116857B CN202210089350.4A CN202210089350A CN114116857B CN 114116857 B CN114116857 B CN 114116857B CN 202210089350 A CN202210089350 A CN 202210089350A CN 114116857 B CN114116857 B CN 114116857B
Authority
CN
China
Prior art keywords
antibody
information
database
sequence
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210089350.4A
Other languages
English (en)
Other versions
CN114116857A (zh
Inventor
王天元
吴炜坤
黄健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingtai Technology Co ltd
Original Assignee
Beijing Jingtai Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingtai Technology Co ltd filed Critical Beijing Jingtai Technology Co ltd
Priority to CN202210089350.4A priority Critical patent/CN114116857B/zh
Publication of CN114116857A publication Critical patent/CN114116857A/zh
Application granted granted Critical
Publication of CN114116857B publication Critical patent/CN114116857B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • Quality & Reliability (AREA)
  • Peptides Or Proteins (AREA)

Abstract

本发明公开了一种抗体数据库的生成、更新和查询方法、装置及存储介质。其中,该抗体数据库的生成方法包括:获取原始抗体的结构信息和序列信息;解析原始抗体的序列信息,对序列信息中的抗体序列进行抗体编号;若抗体编号成功,对原始抗体的结构信息进行数据清洗和结构优化,得到优化后的目标抗体的结构信息;根据目标抗体的结构信息生成抗体数据库。本发明解决了现有的抗体数据库中的抗体数据不完整,导致抗体数据库的使用体验差的技术问题。

Description

抗体数据库的生成、更新和查询方法、装置及存储介质
技术领域
本发明涉及计算化学技术领域,具体而言,涉及一种抗体数据库的生成、更新和查询方法、装置及存储介质。
背景技术
数据库是按照数据结构进行组织、存储和管理数据的仓库,其是一个长期存储在计算机内的、有组织的、可共享的、统一管理的大量数据的集合。在化学领域,已经建立了一些公开的数据库用于存储抗体数据。
在实际应用中发现,现有的抗体数据库中存储的抗体数据的质量良莠不齐,甚至存在部分抗体结构数据不完整的情况,从而严重影响了对抗体数据库的使用。而且,现有的抗体数据库往往无法实时更新,导致数据库更新缓慢。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种抗体数据库的生成、更新和查询方法、装置及存储介质,以至少解决现有的抗体数据库中的抗体数据不完整,导致抗体数据库的使用体验差的技术问题。
根据本发明实施例的一个方面,提供了一种抗体数据库的生成方法,包括:获取原始抗体的结构信息和序列信息;解析原始抗体的序列信息,对序列信息中的抗体序列进行抗体编号;若抗体编号成功,对原始抗体的结构信息进行数据清洗和结构优化,得到优化后的目标抗体的结构信息;根据目标抗体的结构信息生成抗体数据库。
可选地,抗体数据库的生成方法还包括:根据检索关键词从蛋白质结构数据库中下载并获取与检索关键词相关联的抗体的结构信息和序列信息,并将获取到的抗体的结构信息和序列信息作为原始抗体的结构信息和序列信息。
可选地,抗体数据库的生成方法还包括:若序列信息中存在一个或多个抗体序列编号失败,从序列信息中删除该编号失败的抗体序列。
可选地,抗体数据库的生成方法还包括:在对原始抗体的结构信息进行数据清洗和结构优化之前,解析原始抗体中抗体编号成功的抗体序列对应的结构信息,得到对应的抗体链结构;对每条抗体链结构进行配对,得到配对结果,配对结果包括配对成功的抗体链结构组成的抗体以及无配对的抗体链结构形成的抗体;其中,对原始抗体的结构信息进行数据清洗和结构优化,得到优化后的目标抗体的结构信息,包括:对配对后形成的各抗体的结构信息进行数据清洗和结构优化,得到优化后的各目标抗体的结构信息。
可选地,抗体数据库的生成方法还包括:获取每条抗体链结构与其余抗体链结构之间的距离,根据距离对抗体链结构进行配对,得到配对结果;和/或,获取每条抗体链结构与其余抗体链结构之间存在相互作用的目标原子的数量,根据目标原子的数量对抗体链结构进行配对,得到配对结果。
可选地,抗体数据库的生成方法还包括:解析原始抗体中抗体编号成功的抗体序列对应的结构信息,若一条抗体序列中同时存在重链结构和轻链结构,对抗体序列进行结构切分为重链结构和轻链结构,以得到每条抗体序列对应的抗体链结构。
可选地,抗体数据库的生成方法还包括:对原始抗体的结构信息进行数据清洗,包括以下至少一种操作:对原始抗体的抗体结构中的多重占位信息进行删除;对原始抗体的抗体结构中的无法被识别的预设残基进行删除处理;将原始抗体的抗体结构中的非标准氨基酸转换为对应的标准氨基酸。
可选地,抗体数据库的生成方法还包括:对经过数据清洗后的原始抗体的结构信息进行解析,得到对应的抗体结构序列;将抗体结构序列与序列信息中对应的抗体序列进行比对,确定抗体结构序列中的缺失部分;对缺失部分进行结构补全,并对补全后的抗体结构进行能量最小化处理,得到优化后的目标抗体的结构信息。
可选地,抗体数据库的生成方法还包括:在对原始抗体的结构信息进行结构优化之后,对目标抗体的抗体结构序列进行抗体编号,以对原始抗体的抗体编号进行更新。
可选地,抗体数据库的生成方法还包括:根据目标抗体的结构信息生成抗体数据库之前,检测目标抗体中的主链结构是否发生断裂;若主链结构发生断裂,利用预设结构参数对主链结构进行结构修复,得到修复后的目标抗体;其中,根据目标抗体的结构信息生成抗体数据库,包括:利用修复后的目标抗体的结构信息生成抗体数据库。
可选地,抗体数据库的生成方法还包括:根据目标抗体的结构信息生成抗体数据库之前,检测目标抗体的抗体编号是否存在异常;若抗体编号存在异常,删除抗体编号异常的目标抗体,得到抗体编号正常的目标抗体;其中,根据目标抗体的结构信息生成抗体数据库,包括:利用抗体编号正常的目标抗体的结构信息生成抗体数据库。
可选地,抗体数据库包括抗体结构数据库、抗体特征数据库和抗体序列数据库中的至少一种。
可选地,抗体数据库的生成方法还包括:根据目标抗体的结构信息确定目标抗体的抗体类型,其中,抗体类型至少包括:双链抗体、单链抗体和单域抗体;生成与抗体类型对应的抗体结构数据库。
可选地,抗体数据库的生成方法还包括:提取目标抗体的特征信息,特征信息至少包括以下之一:结构信息、序列信息、编号信息、配对信息、结构优化信息;根据特征信息生成抗体特征数据库。
可选地,在抗体数据库还包括抗体序列数据库时,抗体数据库的生成方法还包括:在提取目标抗体的特征信息之后,从特征信息中提取目标序列信息;基于目标序列信息生成抗体序列数据库。
根据本发明实施例的另一方面,还提供了一种抗体数据库的更新方法,包括:获取新增抗体的结构信息和新增抗体的序列信息;解析新增抗体的序列信息,对新增抗体的序列信息中的抗体序列进行抗体编号;若抗体编号成功,对新增抗体的结构信息进行数据清洗和结构优化,得到优化后的目标新增抗体的结构信息;根据所述优化后的目标新增抗体的结构信息对基于上述的抗体数据库的生成方法所生成的抗体数据库进行更新。
可选地,抗体数据库的更新方法还包括:基于当前检索关键词从蛋白质结构数据库中获取与当前检索关键词对应的当前结构编号;将当前结构编号与历史结构编号进行比对,从当前结构编号中确定出未出现在历史结构编号中的新增结构编号;基于新增结构编号,从蛋白质结构数据库中下载与新增结构编号对应的抗体的结构信息和序列信息,并将下载得到的抗体的结构信息和序列信息作为新增抗体的结构信息和序列信息。
根据本发明实施例的另一方面,还提供了一种数据查询方法,包括:获取待查询抗体的关键信息;根据关键信息从基于上述的抗体数据库的生成方法所生成的抗体数据库中查询得到与关键信息相对应的抗体数据。
根据本发明实施例的另一方面,还提供了一种抗体数据库的生成装置,包括:第一获取模块,用于获取原始抗体的结构信息和序列信息;第一编号模块,用于解析原始抗体的序列信息,对序列信息中的抗体序列进行抗体编号;第一优化模块,用于当第一编号模块进行抗体编号成功时,对原始抗体的结构信息进行数据清洗和结构优化,得到优化后的目标抗体的结构信息;生成模块,用于根据目标抗体的结构信息生成抗体数据库。
根据本发明实施例的另一方面,还提供了一种抗体数据库的更新装置,包括:第二获取模块,用于获取新增抗体的结构信息和新增抗体的序列信息;第二编号模块,用于解析新增抗体的序列信息,对新增抗体的序列信息中的抗体序列进行抗体编号;第二优化模块,用于当第二编号模块进行抗体编号成功时,对新增抗体的结构信息进行数据清洗和结构优化,得到优化后的目标新增抗体的结构信息;更新模块,用于根据优化后的目标新增抗体的结构信息对目标抗体数据库进行更新,其中,目标抗体数据库至少包括基于上述的抗体数据库的生成方法所生成的抗体数据库。
根据本发明实施例的另一方面,还提供了一种数据查询装置,包括:第三获取模块,用于获取待查询抗体的关键信息;查询模块,用于根据关键信息从基于上述的抗体数据库的生成装置所生成的抗体数据库中查询得到与关键信息相对应的抗体数据。
根据本发明实施例的另一个方面,提供了一种计算机可读存储介质,该计算机可读存储介质包括存储的程序,其中,在程序运行时控制计算机可读存储介质所在设备执行上述的抗体数据库的生成方法,和/或上述的抗体数据库的更新方法,和/或上述的数据查询方法。
根据本发明实施例的另一个方面,提供了一种电子设备,该电子设备包括一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现用于运行程序,其中,程序被设置为运行时执行上述的抗体数据库的生成方法,和/或上述的抗体数据库的更新方法,和/或上述的数据查询方法。
在本发明实施例中,采用对原始抗体的抗体结构进行数据清洗和结构优化的方式,在获取到原始抗体的结构信息和序列信息之后,解析原始抗体的序列信息,并对序列信息中的抗体序列进行抗体编号,如果抗体编号成功,则对原始抗体的结构信息进行数据清洗和结构优化,得到优化后的目标抗体的结构信息,最后,根据目标抗体的结构信息生成抗体数据库。
在上述过程中,在本申请中,可对原始抗体的序列信息中的抗体序列进行自动编号,而且,在完成对抗体序列的编号之后,还可对原始抗体的结构信息进行数据清洗和结构优化,实现了抗体结构的自动修补优化。另外,在本申请中,通过对原始抗体的结构信息进行数据清洗和结构优化,从而保证了抗体数据库中抗体数据的质量。此外,在本申请中,还可基于优化处理后的目标抗体的结构信息生成抗体数据库,从而使用户可从抗体数据库中搜索到抗体结构的抗体特征,或者根据抗体特征确定该抗体特征所对应的抗体结构,为机器学习算法等领域提供了数据来源。
由此可见,本申请所提供的方案达到了对抗体数据库中的抗体结构进行自动清洗优化的目的,从而实现了提高抗体数据库中的抗体数据的质量的技术效果,进而解决了现有的抗体数据库中的抗体数据不完整,导致抗体数据库的使用体验差技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种抗体数据库的生成方法流程图;
图2是根据本发明实施例的一种可选的特征过滤界面的示意图;
图3是根据本发明实施例的一种抗体数据库的更新方法流程图;
图4是根据本发明实施例的一种数据查询方法流程图;
图5是根据本发明实施例的一种抗体数据库的生成装置示意图;
图6是根据本发明实施例的一种抗体数据库的更新装置示意图;
图7是根据本发明实施例的一种数据查询装置示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本发明实施例,提供了一种抗体数据库的生成方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
此外,还需要说明的是,终端设备可作为本实施例所提供方法的执行主体,该终端设备可对抗体数据库进行构建和管理,实现对抗体数据库的实时更新、数据清洗以及抗体结构的修复,其中,该终端设备至少具有输入单元、输出单元以及处理单元,输入单元用于获取构建和/或更新抗体数据库所需的相关数据,处理单元用于对上述的相关数据进行编号、清洗、修复等处理,并基于处理结果对抗体数据库进行构建、实时更新、查询等操作,输出单元可对上述的处理结果以及对抗体数据库的相关内容(如抗体数据库的操作界面、查询结果等)进行输出。
图1是根据本发明实施例的抗体数据库的生成方法流程图,如图1所示,该方法包括如下步骤:
步骤S102,获取原始抗体的结构信息和序列信息。
在步骤S102中,终端设备可从蛋白质结构数据库(Protein Data Back,PDB)中获取原始抗体的结构文件和序列文件,并从结构文件和序列文件中分别获取结构信息和序列信息,其中,结构文件中至少包括原始抗体的结构信息,序列文件中至少包括组成原始抗体的氨基酸的序列信息。
在步骤S102中,终端设备可通过蛋白质结构数据库的API(ApplicationProgramming Interface,应用程序接口)从蛋白质结构数据库中搜索关键词,例如,“antibody”、“vhh”、“nanobody”等,以获取所有与抗体相关的结构数据的PDB编号。然后,终端设备可以从蛋白质结构数据库中下载搜索到的PDB编号对应的抗体数据,具体的,终端设备可以从蛋白质结构数据库中下载搜索到的抗体的结构文件和序列文件。其中,上述结构文件用于存储抗体的结构信息,其可以为PDB文件;上述序列文件用于存储抗体的序列信息,例如,上述序列文件可以为Fasta文件。通过解析抗体的结构文件和序列文件,从而得到抗体的结构信息和序列信息,作为后续用于构建抗体数据库的原始抗体的结构信息和序列信息。
可以理解的是,原始抗体的结构信息和序列信息除可以从PDB数据库中获取得到之外,也可以从其他现有数据库(如UniProt、IMGT数据库等)中进行获取,还可以是人工手动输入的,本申请实施例不作限定。
步骤S104,解析原始抗体的序列信息,对序列信息中的抗体序列进行抗体编号。
在步骤S104中,终端设备可使用编号软件对原始抗体进行编号,该编号软件可以为但不限于ANARCI软件,例如,终端设备可使用ANARCI软件中的Chothia编号系统对抗体序列进行抗体编号。其中,在抗体编号成功的情况下,当前序列成功被识别属于抗体家族;在抗体编号失败的情况下,表征当前序列为非抗体序列。
可选的,终端设备还可对抗体序列进行抗体编号的编号结果进行分析,其中,在检测到序列文件中存在无法识别的抗体序列,则确定该抗体序列不属于抗体家族,终端设备丢弃该抗体序列,并确定该抗体序列编号失败。如果序列文件中的抗体序列编号成功,则终端设备使用分子生物学工具将对应结构文件中的每条链中的氨基酸进行重新编号,并区分重链与轻链,其中,上述的分子生物学工具可以为但不限于使用Python开发的Biopython工具。
步骤S106,若抗体编号成功,对原始抗体的结构信息进行数据清洗和结构优化,得到优化后的目标抗体的结构信息。
需要说明的是,在本申请中,终端设备通过对原始抗体的结构信息进行分析来确定原始抗体的抗体结构是否存在异常,并在确定抗体结构存在异常时,对抗体结构进行数据清洗和修补优化。而若序列信息中存在一个或多个抗体序列编号失败,终端设备从序列信息中删除该编号失败的抗体序列。
可选的,可通过对原始抗体中的抗体结构进行检测来确定抗体结构是否出现了异常。例如,可通过检查原始抗体的序列文件来确定原始抗体的结构中是否出现多重占位的问题,其中,在根据原始抗体的序列文件确定原始抗体的结构中出现多重占位的问题时,确定原始抗体的抗体结构发生了异常。又例如,可通过对原始抗体的抗体结构中的氨基酸的类型进行检测来确定原始抗体的抗体结构中的氨基酸是否为非标准氨基酸,其中,在确定抗体结构中的氨基酸为非标准氨基酸时,确定原始抗体的抗体结构发生了异常。又例如,可通过原始抗体的结构文件和序列文件进行检查来确定原始抗体的抗体结构序列是否出现了缺失部分,其中,在确定原始抗体的抗体结构出现了序列缺失的部分时,确定原始抗体的抗体结构发生了异常。又例如,还可检测原始抗体的主链氨基酸骨架的二面角是否处于拉氏图允许的范围以及骨架原子之间的距离是否满足化学约束来确定原始抗体的抗体结构的主链是否存在断裂的问题,其中,在确定原始抗体的抗体结构存在主链断裂的问题时,确定原始抗体的抗体结构发生了异常。
对于抗体结构的不同异常,终端设备可使用不同的抗体修复工具对原始抗体的结构进行修补优化处理,例如,终端设备可使用抗体修复工具将抗体结构中的非标准氨基酸转换为标准的天然氨基酸,终端设备可使用程序脚本识别抗体结构中的多重占位信息,终端设备可使用建模工具PyRosetta来对抗体结构中的序列缺失部分进行修补,使用FastRelaxMover对修复区域的原子坐标能量进行优化等。
此外,还需要说明的是,终端设备还可以对修复后的抗体结构重新进行抗体编号,从而使抗体编号与抗体结构之间的关联关系的准确性。
步骤S108,根据目标抗体的结构信息生成抗体数据库。
在步骤S108中,上述抗体数据库可以包括抗体结构数据库(AntibodyDB)、抗体特征数据库(FeatureyDB)和抗体序列数据库(BlastDB)中的至少一种。在本实施例中,上述三种数据库可集成在同一个平台上,通过该平台上不同的数据库访问接口来访问对应的数据库。
其中,可以利用目标抗体的结构信息来生成抗体结构数据库,以便用户可以利用抗体结构数据库来查询相关抗体的结构。可以对目标抗体进行特征信息提取,根据提取的特征信息来生成抗体特征数据库,以便用户可以查询相关抗体的各种特征信息,也可用于辅助机器学习、深度学习建模。可以进一步从特征信息中获取序列信息来构建抗体序列数据库,以便用户进行同源序列搜索比对等。
其中,目标抗体的特征信息至少包括以下之一:结构信息、序列信息、编号信息、配对信息、结构优化信息。
上述的结构信息可以包括但不限于二面角分布、电荷数、电荷分布;上述的序列信息可以包括但不限于抗体CDRs(Complementarity-determining region,决定簇互补区)的序列、抗体FRH、抗体FRL区域的序列;上述的编号信息可以包括但不限于抗体CDRs、FRH、FRL区域的抗体编号(如Chothia编号);上述的配对信息可以为重链轻链配对信息,可以包括但不限于抗体重链轻链配对界面的朝向角度和距离分布信息、结合自由能量、配对界面的形状互补系数、氢键数量、氨基酸数量、极性相互作用面积、非极性相互作用面积、平均残基能量;结构优化信息可以为但不限于抗体结构的结构修复信息。
基于上述步骤S102至步骤S108所限定的方案,可以获知,在本发明实施例中,采用对原始抗体的抗体结构进行数据清洗和结构优化的方式,在获取到原始抗体的结构信息和序列信息之后,解析原始抗体的序列信息,并对序列信息中的抗体序列进行抗体编号,如果抗体编号成功,则对原始抗体的结构信息进行数据清洗和结构优化,得到优化后的目标抗体的结构信息,最后,根据目标抗体的结构信息生成抗体数据库。
容易注意到的是,在本申请中,可对原始抗体的序列信息中的抗体序列进行自动编号,而且,在完成对抗体序列的编号之后,还可对原始抗体的结构信息进行数据清洗和结构优化,实现了抗体结构的自动修补优化。另外,在本申请中,通过对原始抗体的结构信息进行数据清洗和结构优化,从而保证了抗体数据库中抗体数据的质量。此外,在本申请中,还可基于优化处理后的目标抗体的结构信息生成抗体数据库,从而使用户可从抗体数据库中搜索到抗体结构的抗体特征,或者根据抗体特征确定该抗体特征所对应的抗体结构,为机器学习算法等领域提供了数据来源。
由此可见,本申请所提供的方案达到了对抗体数据库中的抗体结构进行自动清洗优化的目的,从而实现了提高抗体数据库中的抗体数据的质量的技术效果,进而解决了现有的抗体数据库中的抗体数据不完整,导致抗体数据库的使用体验差技术问题。
在一种可选的实施例中,在对原始抗体中的抗体序列进行抗体编号之前,终端设备首先获取原始抗体的结构信息和序列信息。具体的,终端设备可以根据检索关键词从蛋白质结构数据库中下载并获取与检索关键词相关联的抗体的结构信息和序列信息,并将获取到的抗体的结构信息和序列信息作为原始抗体的结构信息和序列信息。
可选的,终端设备首先基于检索关键词从蛋白质结构数据库检索到与检索关键词对应的抗体的结构信息和序列信息,在用户点击下载控件之后,终端设备可将与检索关键词相关联的抗体的结构信息和序列信息下载到预设文件夹中,此时,终端设备可从预设文件夹中读取抗体的结构信息和序列信息作为原始抗体的结构信息和序列信息。
需要说明的是,终端设备可通过蛋白质结构数据库提供的数据访问与下载接口,分别下载对应抗体的结构文件以及序列文件。其中,上述的结构文件可以为但不限于PDB格式,用于存储抗体的结构信息;上述的序列文件可以为但不限于Fasta格式,用于存储抗体的序列信息。可选的,可以从蛋白质结构数据库中的下载模块中默认尝试下载一定次数(如20次)。当从蛋白质结构数据库下载数据失败时,该下载失败的抗体的PDB编号不会加入数据检索记录表,方便下次更新时再次尝试下载,避免网络等因素的影响。
更进一步的,在结构信息和序列信息下载完毕后,终端设备对抗体数据的完整性进行检查,以确保数据的准确性。
进一步的,在抗体编号成功的情况下,可检测原始抗体的抗体结构是否存在异常,其中,在检测原始抗体的抗体结构是否存在异常之前,终端设备还可确定原始抗体的抗体类型,并根据抗体类型获取对原始抗体中的抗体序列进行配对的配对数据。
在一种可选的实施例中,在对原始抗体的结构信息进行数据清洗和结构优化之前,终端设备解析原始抗体中抗体编号成功的抗体序列对应的结构信息,得到对应的抗体链结构,然后对每条抗体链结构进行配对,得到配对结果,然后,终端设备对配对后形成的各抗体的结构信息进行数据清洗和结构优化,得到优化后的各目标抗体的结构信息。其中,配对结果可以包括配对成功的抗体链结构组成的抗体以及无配对的抗体链结构形成的抗体。
需要说明的是,终端设备可根据抗体链结构之间的距离来对抗体链结构进行配对,还可通过抗体链结构之间的相互作用的原子数量来对抗体链结构进行配对。
在一种可选的实施例中,在根据抗体链结构之间的距离来对抗体链结构进行配对的过程中,终端设备可以遍历每条抗体链的原子坐标,获取每条抗体链结构与其余抗体链结构之间的距离,根据距离对抗体链结构进行配对,得到配对结果。例如,在多条抗体链结构中,存在与当前抗体链结构之间的距离小于或等于预设距离的目标抗体链结构时,则该目标抗体链结构与当前抗体链结构匹配成功;若当前抗体链结构与其余的抗体链结构之间的距离均大于预设距离,则其余的抗体链结构中不存在与当前抗体链结构相匹配的抗体链结构,即当前抗体链结构配对失败。
需要说明的是,终端设备遍历原始抗体中每条抗体链的抗体序列的结构与其他抗体链结构之间的距离,并根据距离识别出原始抗体中的重链结构和轻链结构的配对数据。例如,在PDB文件中包含A、B、C、D四条抗体链,则终端设备需要识别这四条抗体链之间的配对情况,其中,首先对抗体链A进行配对,则抗体链B、C、D为其余抗体链,如果抗体链A和C为重链,抗体链B和D为轻链,且抗体链A和B之间的距离较近,抗体链C和D之间的距离较远,则抗体链A和B配对成功,抗体链C和D无法配对,配对失败,此时,终端设备可得到三种抗体,即抗体链A和B组成的抗体、C表示的重链抗体以及D表示的轻链抗体。
在另一种可选的实施例中,在通过抗体链结构之间的相互作用的原子数量来对抗体链结构进行配对的过程中,终端设备获取每条抗体链结构与其余抗体链结构之间存在相互作用的目标原子(如Ca原子之间的距离小于12埃)的数量,并根据目标原子的数量对抗体链结构进行配对,得到配对结果。例如,在多条抗体链结构中,存在与当前抗体链结构之间相互作用的目标原子的数量大于或等于预设数量的目标抗体链结构,则该目标抗体链结构与当前抗体链结构匹配成功;若当前抗体链结构与其余的抗体链结构之间相互作用的目标原子的数量均小于预设数量,则其余的抗体链结构中不存在与当前抗体链结构相匹配的抗体链结构,即当前抗体链结构配对失败。
需要说明的是,终端设备可通过遍历每条抗体序列的结构来确定其它抗体链结构与当前抗体结构之间的存在相互作用的原子数量,并将相互作用原子数量最多的链进行配对,从而正确识别出PDB文件中每条重链、轻链抗体结构的配对信息。
例如,在PDB文件中包含A、B、C、D四条抗体链,则终端设备需要识别这四条抗体链之间的配对情况,其中,首先对抗体链A进行配对,则抗体链B、C、D为其余抗体链,如果抗体链A和C为重链,抗体链B和D为轻链,且抗体链A和B之间相互作用的原子数量最多,抗体链C和D之间相互作用的原子数量较少,则抗体链A和B配对成功,抗体链C和D无法配对,配对失败,此时,终端设备可得到三种抗体,即抗体链A和B组成的抗体、C表示的重链抗体以及D表示的轻链抗体。
此外,还需要说明的是,终端设备还可通过计算在截断半径内相互作用的原子数量最多的链作为相互作用最多的链以进行配对,具体的配对方式与上述原理相同,在此不再赘述。
进一步地,可以将成功配对的抗体链结构输出为单独的PDB文件,并以配对的链号命名。对于未配对成功的抗体链结构,则将该抗体链结构单独输出为PDB文件。
在一种可选的实施例中,在对抗体链结构进行配对之前,终端设备需解析原始抗体中抗体编号成功的抗体序列对应的结构信息,得到对应的抗体链结构。具体的,终端设备解析原始抗体中抗体编号成功的抗体序列对应的结构信息,若一条抗体序列中同时存在重链结构和轻链结构,对抗体序列进行结构切分为重链结构和轻链结构,以得到每条抗体序列对应的抗体链结构。
需要说明的是,当一条抗体序列中同时存在重链结构和轻链结构时,需要进行切分,从中分离出重链结构和轻链结构;当一条抗体序列中仅包含重链结构或轻链结构,则无需进行切分,按照上述方法,终端设备可得到每一条抗体序列对应的抗体链结构。
进一步的,在识别出原始抗体中的重链结构和轻链结构的配对数据之后,在抗体编号成功的情况下,终端设备对原始抗体的结构信息进行数据清洗。
具体的,终端设备可通过如下至少一种操作来对原始抗体的结构信息进行数据清洗:
操作方式一:对原始抗体的抗体结构中的多重占位信息进行删除;其中,终端设备可使用程序脚本将PDB文件中的多重占位信息进行删除。
操作方式二:对原始抗体的抗体结构中的无法被识别的预设残基进行删除处理;其中,无法被识别的预设残基可以包括但不限于名为PCS和CSD的残基。PCS残基和CSD残基在人为修饰的情况下可能会产生,在抗体修复工具pdbfixer中无法被正常识别,因此需要对其进行删除。
操作方式三:将原始抗体的抗体结构中的非标准氨基酸转换为对应的标准氨基酸。在该操作方式中,终端设备可使用抗体修复工具对蛋白质结构中的非标准氨基酸进行转换,将其转换为对应的标准的天然氨基酸,以避免抗体数据库建模过程中所出现的错误。其中,非标准氨基酸可以是转录后修饰得到的氨基酸,标准氨基酸可以属于标准的20种天然氨基酸。上述抗体修复工具可以为但不限于PDFfixer修复工具,在该场景下,终端设备可使用PDFfixer修复工具中的findNonstandardResidues,replaceNonstandardResidues,removeHeterogens三个函数将转录后修饰的氨基酸转换为其对应的标准的天然氨基酸。
进一步的,终端设备对原始抗体的结构信息进行数据清洗之后,还可对原始抗体的结构信息进行结构优化,得到优化后的目标抗体的结构信息。具体的,终端设备对经过数据清洗后的原始抗体的结构信息进行解析,得到对应的抗体结构序列,然后再将抗体结构序列与序列信息中对应的抗体序列进行比对,确定抗体结构序列中的缺失部分,最后,对缺失部分进行结构补全,并对补全后的抗体结构进行能量最小化处理,得到优化后的目标抗体的结构信息。
可选的,终端设备对PDB文件中的结构信息进行解析,得到抗体结构序列,然后将得到的抗体结构序列与Fasta文件中的序列信息中对应的抗体序列进行比对,以确定抗体结构序列中的缺失部分,并将序列缺失部分的起始、结尾的氨基酸编号以及序列信息进行记录,为后续的抗体修复模块提供数据输入。
在确定抗体结构序列中的缺失部分之后,终端设备可根据得到的结构序列缺失的信息,使用建模工具PyRosetta的Pose API、KinematicMover对缺失的结构进行补全。
更进一步的,对缺失部分进行结构补全之后,终端设备对补全后的抗体结构中的原子坐标进行能量最小化处理,得到优化后的目标抗体的结构信息。其中,终端设备可以使用FastRelaxMover算法对补全后的抗体结构的原子坐标进行能量最小化。
更进一步的,在对原始抗体的结构信息进行结构优化之后,终端设备对优化后的抗体结构序列进行抗体编号,以对原始抗体的抗体编号进行更新。终端设备可使用ANARCI算法重新对补全后的抗体结构进行编号,例如,对优化后的抗体结构进行Chothia编号。
需要说明的是,在本实施例中,需对抗体序列进行两次编号,其中,第一次编号为对Fasta文件中的序列信息中的抗体序列进行编号;第二次编号为对数据清洗和结构优化后的PDB文件解析出的结构序列进行重新编号,以对原始抗体的抗体编号进行更新。在对原始抗体的抗体编号进行更新的过程中,使用第二次编号覆盖第一次编号。
另外,在对原始抗体的抗体编号进行更新之后,在根据目标抗体的结构信息生成抗体数据库之前,终端设备还可以检测目标抗体中的主链结构是否发生断裂。其中,若主链结构发生断裂,则终端设备利用预设结构参数对主链结构进行结构修复,得到修复后的目标抗体,并利用修复后的目标抗体的结构信息生成抗体数据库。
需要说明的是,由于晶体结构中可能会存在主链断裂等数据错误,因此,在本申请中,可使用PyRosetta中的过滤器工具对输入的PDB结构进行主链断裂的检查,主要检查抗体结构的主链氨基酸骨架的Phi、Psi角是否处于拉氏图允许的范围、检查骨架原子之间的距离是否满足化学约束。其中,当检测到原始抗体的抗体结构异常时,终端设备可使用PyRosetta中的IdealizeMover工具对破损的氨基酸残基主链结构进行几何结构参数的理想化修复。其中,预设结构参数可以为使抗体结构的主链氨基酸骨架的Phi、Psi角处于拉氏图允许的范围内,和/或,骨架原子之间的距离满足化学约束的理想几何结构参数。
此外,还需要说明的是,在对原始抗体的结构信息进行数据清洗和结构优化之后,在根据目标抗体的结构信息生成抗体数据库之前,终端设备还可以检测目标抗体的抗体编号是否存在异常,若抗体编号存在异常,删除抗体编号异常的目标抗体,得到抗体编号正常的目标抗体,并利用抗体编号正常的目标抗体的结构信息生成抗体数据库。
需要说明的是,可使用PyRosetta中抗体编号模块(AntibodyInfo)对抗体结构的抗体编号进行检查,其检查内容包括但不限于抗体结构中的抗体编号有无错误编号、编号缺失等内容。其中,可根据程序能否正确读入抗体结构来确定抗体结构是否编号正确,在程序成功读入抗体结构时,表明该抗体结构编号正确;如果有编号错误或缺失,则程序无法读入抗体结构,此时,程序对该抗体编号异常的抗体结构进行丢弃处理。
在一种可选的实施例中,抗体数据库包括抗体结构数据库、抗体特征数据库和抗体序列数据库中的至少一种。当所述抗体数据库包括所述抗体结构数据库时,终端设备根据目标抗体的结构信息确定目标抗体的抗体类型,并生成与抗体类型对应的抗体结构数据库。其中,抗体类型至少包括:双链抗体、单链抗体和单域抗体。
当目标抗体包括双链抗体时,可以根据双链抗体的结构信息构建双链抗体结构数据库;当目标抗体包括单链抗体时,可以根据单链抗体的结构信息构建单链抗体结构数据库;当目标抗体包括单域抗体时,可以根据单域抗体的结构信息构建单域抗体结构数据库。
可选的,终端设备可根据原始抗体中所包含的多肽链的类型来确定原始抗体是单链抗体,还是双链抗体。例如,在抗体为单一多肽链,并且,该多肽链中同时存在重链结构和轻链结构时,确定该原始抗体为单链抗体;而重链结构和轻链结构位于不同的多肽链中时,确定该原始抗体为双链抗体。另外,终端设备还可根据重链结构与轻链结构之间的距离来确定原始抗体的类型,例如,在多肽链中,重链结构与轻链结构之间的距离大于预设距离,则确定该原始抗体为单域抗体;如果在多肽链中,重链结构与轻链结构之间的距离不大于预设距离,则确定该原始抗体为单链抗体或双链抗体。
需要说明的是,PDB结构不仅存在抗体的结构,还存在其他的非抗体蛋白的结构和序列。因此,在对PDB进行预处理的第一个步骤为抗体序列的识别,与抗体类型的分类。
可选的,终端设备首先根据重链结构与轻链结构之间的距离来确定原始抗体的初始类型,例如,在多肽链中,重链结构与轻链结构之间的距离大于预设距离,则确定该原始抗体为单域抗体;如果在多肽链中,重链结构与轻链结构之间的距离不大于预设距离,则确定该原始抗体为单链抗体或双链抗体。在确定原始抗体不是单域抗体之后,终端设备进一步根据原始抗体中所包含的多肽链的类型来确定原始抗体是单链抗体,还是双链抗体。例如,在一条多肽链中同时存在重链结构和轻链结构时,确定该原始抗体为单链抗体;而重链结构和轻链结构位于不同的多肽链中时,确定该原始抗体为双链抗体。
进一步的,在确定了原始抗体的抗体类型之后,终端设备还可将单链抗体还原为双链抗体。具体的,在原始抗体编号成功后,终端设备在根据抗体编号识别到一条序列中同时存在重链和轻链结构时,可根据抗体的编号结果将抗体序列重新切分为重链和轻链两个部分,即将单链抗体还原为双链抗体,从而得到还原后的双链抗体。
需要说明的是,对重链的信息和轻链的信息进行分离,便于PDB数据的管理和检索。
在一种可选的实施例中,在抗体数据库包括抗体特征数据库时,终端设备还可提取目标抗体的特征信息,并根据特征信息生成抗体特征数据库,即终端设备根据目标抗体的特征信息生成Feature DB,其中,目标抗体的特征信息至少包括以下之一:结构信息、序列信息、编号信息、配对信息、结构优化信息。
在另一种可选的实施例中,在抗体数据库还包括抗体序列数据库时,在提取目标抗体的特征信息之后,终端设备还可从特征信息中提取目标序列信息,并基于目标序列信息生成抗体序列数据库,即终端设备根据目标序列信息生成Blast DB。
需要说明的是,可以将上述三个数据库集成在同一个平台上,通过该平台上不同的数据库接口来访问对应的数据库。例如,用户通过AntibodyDB接口可以访问抗体结构数据库,用户可在抗体结构数据库中查看和下载抗体结构数据。用户通过FeatureyDB接口可以访问抗体特征数据库,用户可在抗体特征数据库中通过各种条件来筛选,得到符合条件的抗体特征数据,例如,在图2所示的特征过滤界面中,用户可在特征过滤界面中勾选过滤条件,在点击“过滤”控件之后,抗体特征数据库即可根据用户所勾选的过滤条件对抗体特征数据进行筛选。用户通过BlastDB接口可以访问抗体序列数据库,可用于抗体结构建模时,进行同源模板的匹配,用户可以输入抗体的重链或轻链的数据,数据库将自动进行Blast搜索,用户可以方便地在相应的接口处下载对应的结构,以及查看提交序列与模板序列相应区域的序列匹配程度等。
可选的,终端设备可使用PyRosetta中AntibodyInfo模块工具提取目标抗体结构的抗体特征信息。在提取到目标抗体结构的抗体特征信息之后,终端设备可将抗体特征信息添加至数据库中,从而生成抗体特征数据库。同时,终端设备还可将所有的抗体特征信息生成特征数据库类别csv文件,方便其他程序进行检索和信息调用。
进一步地,针对抗体的序列信息,还可以生成抗体序列数据库。
具体的,终端设备获取目标抗体的序列信息,可以以序列信息中的CDR的序列长度、CDR的类型等作为分类的标准,如CDR-H1-10代表序列长度为10个氨基酸的CDR H1的序列集合。按照此标准分类,将所有数据整理为Fasta文件格式,并使用Blast程序中的makeblastdb命令构建用于Blast搜索比对的抗体序列数据库(Blast数据库)。其中,构建的Blast数据库中可以包含fasta文件以及Blast数据库的phr、pin、psq文件。可选的,此处的Blast数据库可以命名为CDR-Blast数据库,用于抗体CDR区同源序列的搜索比对。另外,还可以基于序列信息中的FR序列的长度、类型等信息作为分类标准,构建相应的抗体序列数据库。
其中,可基于Blastp工具命令对抗体片段进行分段匹配,其可通过输入抗体的重链或轻链的完整序列,自动识别抗体序列的CDR区和Framework区的序列,并分别根据CDR的长度或Framework序列的类型分别进行匹配检索,并获取返回的搜索匹配的PDB编号、对应CDR的簇分类信息、CDR模板的序列信息、CDR序列与输入序列的相似性打分、CDR序列与输入序列比对情况、Blast比对的打分信息等信息。
由上述内容可知,本实施例所提供的抗体数据库的生成方法弥补了目前现有数据库数据质量差的缺点,通过完善的处理逻辑,可实现抗体数据的自动清洗,能够自动识别出各类型的抗体如单链抗体、双链抗体、纳米抗体等,并自动搜索结构域之间匹配关系。而且,清洗后的数据修复了晶体数据的部分缺失信息,使用从头建模的计算方法对缺失的序列和结构部进行重新建模,增加了抗体结构的完整性,有效地扩增了抗体结构的同源模板数量。此外,本实施例所提供的抗体数据库的生成方法对抗体结构和序列的特征进行了自动化的提取,可用于辅助机器学习、深度学习建模,而且,还构建了简单友好的用户界面,可以非常方便地实现数据搜索、数据下载等功能。
实施例2
根据本发明实施例,还提供了一种抗体数据库的更新方法实施例,其中,图3是根据本发明实施例的抗体数据库的更新方法流程图,如图3所示,该方法包括如下步骤:
步骤S302,获取新增抗体的结构信息和新增抗体的序列信息。
在步骤S302中,终端设备可从蛋白质结构数据库中获取新增抗体的结构文件和序列文件,并结构文件和序列文件中分别获取结构信息和序列信息,其中,结构文件中至少包括新增抗体的抗体结构信息,序列文件中至少包括组成新增抗体的氨基酸的序列信息。
可以理解的是,新增抗体的结构信息和序列信息除可以从PDB数据库中获取得到之外,也可以从其他现有数据库(如UniProt、IMGT数据库等)中进行获取,还可以是人工手动输入的,本申请实施例不作限定。
在一种可选的实施例中,终端设备可以基于当前检索关键词从蛋白质结构数据库中获取与当前检索关键词对应的当前结构编号,并将当前结构编号与历史结构编号进行比对,从当前结构编号中确定未出现在历史结构编号中的新增结构编号,最后,基于新增结构编号,从蛋白质结构数据库中下载与新增结构编号对应的抗体的结构信息和序列信息,并将下载得到的抗体的结构信息和序列信息作为新增抗体的结构信息和序列信息。
在蛋白质结构数据库中,结构编号可以为PDB编号。可以理解的是,结构编号也可以是人为编写并录入的。终端设备可以建立一张历史检索列表,该历史检索列表可以记录过往所有已经成功下载的抗体的结构编号。当前检索时,可以建立一张临时检索列表,即当用户通过相关接口在PDB库中进行抗体相关关键词的索引时,将产生临时检索列表,其中,该临时检索列表中包括当前检索得到的所有抗体的结构编号。
另外,终端设备可通过比对临时检索列表与历史检索列表的差异来获取蛋白质结构数据库中哪些为未被检索的数据信息,即未出现在历史检索列表,而出现在临时检索列表中的新增抗体的抗体数据为未被检索的数据信息。
进一步地,当从蛋白质结构数据库中成功下载到新增抗体的结构信息和序列信息后,将该新增抗体的结构编号保存至历史检索列表中,避免后续重复下载。当因为网络等原因导致有新增抗体下载失败时,该新增抗体的结构编号将不保存到历史检索列表中,以便后续再次对其进行下载。
步骤S304,解析新增抗体的序列信息,对新增抗体的序列信息中的抗体序列进行抗体编号。
步骤S306,若抗体编号成功,对新增抗体的结构信息进行数据清洗和结构优化,得到优化后的目标新增抗体的结构信息。
步骤S308,根据优化后的目标新增抗体的结构信息对上述抗体数据库的生成方法所生成的抗体数据库进行更新。
需要说明的是,通过步骤S308对抗体数据库进行更新,从而避免了现有技术中,由于无法实时更新抗体数据库所导致的抗体数据库更新缓慢的问题,进而提高了抗体数据库的更新效率。
基于上述步骤S302至步骤S308所限定的方案,可以获知,在本发明实施例中,采用对新增抗体的抗体结构进行数据清洗和结构优化的方式,在获取到新增抗体的结构信息和序列信息之后,解析新增抗体的序列信息,并对序列信息中的抗体序列进行抗体编号,如果抗体编号成功,则对新增抗体的结构信息进行数据清洗和结构优化,得到优化后的目标新增抗体的结构信息,最后,根据优化后的目标新增抗体的结构信息对目标抗体数据库进行更新。
容易注意到的是,在本申请中,可对新增抗体的序列信息中的抗体序列进行自动编号,而且,在完成对抗体序列的编号之后,还可对原始抗体的结构信息进行数据清洗和结构优化,实现了抗体结构的自动修补优化。另外,在本申请中,通过对新增抗体的结构信息进行数据清洗和结构优化,从而保证了抗体数据库中抗体数据的质量。此外,在本申请中,还可基于优化处理后的目标抗体的结构信息对抗体数据库进行更新,从而避免了现有技术中,由于无法实时更新抗体数据库所导致的抗体数据库更新缓慢的问题,进而提高了抗体数据库的更新效率。
由此可见,本申请所提供的方案达到了对抗体数据库中的抗体结构进行自动清洗优化的目的,从而实现了提高抗体数据库中的抗体数据的质量的技术效果,进而解决了现有技术中,由于无法实时更新抗体数据库所导致的抗体数据库更新缓慢的问题。
此外,还需要说明的是,在本申请中,抗体数据库的生成以及抗体数据库的更新均涉及抗体编号、数据清洗、结构优化等操作,这些处理过程在抗体数据库的生成过程中的处理方式与在抗体数据库的更新的生成过程中的处理方式相同,相关的处理方式已在实施例1中进行说明,在此不再赘述。
实施例3
根据本发明实施例,还提供了一种数据查询方法实施例,其中,图4是根据本发明实施例的数据查询方法流程图,如图4所示,该方法包括如下步骤:
步骤S402,获取待查询抗体的关键信息。
可选的,用户可通过使用界面化的数据库查询工具模块进行待查询抗体的关键信息的数据检索。其中,该数据库查询工具模块的输入数据(即上述的关键信息)可以为但不限于需要查询的抗体的结构编号(如PDB编号)、抗体类型、待比对的抗体重链或轻链序列等等。
步骤S404,根据关键信息从基于实施例1所提供的抗体数据库的生成方法所生成的抗体数据库中查询得到与关键信息相对应的抗体数据。
在步骤S404中,抗体数据库包括抗体结构数据库(AntibodyDB)、抗体特征数据库(FeatureyDB)和抗体序列数据库(BlastDB)中的至少一种。在本实施例中,上述三种数据库可集成在同一个平台上,通过该平台上不同的数据库访问接口来访问对应的数据库。
可选的,在从抗体结构数据库中查询与关键信息对应的抗体数据的过程中,在终端设备的显示界面上,可显示抗体的数据库列表,以及关键信息的输入框。在用户向输入框中输入所要查询的抗体的结构编号(例如,PDB编号)之后,终端设备在抗体结构数据库查询与结构编号对应的结构数据,并在终端设备的显示界面上显示查询结果。同时,用户还可对查询结果进行批量下载。
可选的,在从抗体特征数据库中查询与关键信息对应的抗体数据的过程中,用户可通过设置各种条件来筛选得到符合条件的抗体特征数据,例如,用户可在终端设备的关键信息输入框中输入结构编号、抗体类型等信息来查询到某一个或某一类抗体的特征信息。其中,抗体的特征信息至少包括理化特征,理化特征可以包括但不限于:CDR长度、CDR带电量、CDR的结构簇类型、抗体的类型(例如,重链抗体、 双链抗体、轻链抗体)、抗体重链轻链朝向与距离分布特征、抗体带电量、抗体重链轻链结合自由能抗体重链轻链结合界面面积等。例如,用户可通过各种条件对内置的抗体特征的数据库列表进行筛选,得到符合条件的抗体特征数据。例如,以筛选获得CDR-H1结构属于H1-13-1簇的所有PDB编号信息为例,用户通过使用相应的抗体特征过滤器工具界面,仅需要勾选对应分类信息并确认,即可获得相应信息汇总列表csv文件。另外,在本申请中,对抗体特征进行筛选的筛选工具可为多选项筛选,支持同时筛选所有支持的特征类型。
可选的,在从抗体序列数据库中查询与关键信息对应的抗体数据的过程中,用户可以输入抗体的重链或轻链的序列信息,数据库将自动进行Blast搜索,用户可以方便地在相应的接口处下载对应的结构,以及查看提交序列与模板序列相应区域的序列匹配程度等。
此外,还需要说明的是,在本实施例中,抗体数据库的生成过程已在实施例1中进行说明,在此不再赘述。
实施例4
根据本发明实施例,还提供了一种抗体数据库的生成装置实施例,其中,图5是根据本发明实施例的抗体数据库的生成装置示意图,如图5所示,该装置包括:第一获取模块501、第一编号模块503、第一优化模块505以及生成模块507。
其中,第一获取模块501,用于获取原始抗体的结构信息和序列信息;第一编号模块503,用于解析原始抗体的序列信息,对序列信息中的抗体序列进行抗体编号;第一优化模块505,用于当第一编号模块503进行抗体编号成功时,对原始抗体的结构信息进行数据清洗和结构优化,得到优化后的目标抗体的结构信息;生成模块507,用于根据目标抗体的结构信息生成抗体数据库。
需要说明的是,上述第一获取模块501、第一编号模块503、第一优化模块505以及生成模块507对应于上述实施例1中的步骤S102至步骤S108,四个模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。
可选的,第一获取模块501具体可以用于根据检索关键词从蛋白质结构数据库中下载并获取与检索关键词相关联的抗体的结构信息和序列信息,并将获取到的抗体的结构信息和序列信息作为原始抗体的结构信息和序列信息。
可选的,抗体数据库的生成装置还包括:第一删除模块,用于若序列信息中存在一个或多个抗体序列编号失败,从序列信息中删除该编号失败的抗体序列。
可选的,抗体数据库的生成装置还包括:第一解析模块以及配对模块。其中,第一解析模块,用于在第一优化模块505对原始抗体的结构信息进行数据清洗和结构优化之前,解析原始抗体中抗体编号成功的抗体序列对应的结构信息,得到对应的抗体链结构;配对模块,用于对每条抗体链结构进行配对,得到配对结果,配对结果包括配对成功的抗体链结构组成的抗体以及无配对的抗体链结构形成的抗体;
相应地,第一优化模块505具体可以用于对配对后形成的各抗体的结构信息进行数据清洗和结构优化,得到优化后的各目标抗体的结构信息。
可选的,配对模块具体可以用于获取每条抗体链结构与其余抗体链结构之间的距离,根据距离对抗体链结构进行配对,得到配对结果;和/或,获取每条抗体链结构与其余抗体链结构之间存在相互作用的目标原子的数量,根据目标原子的数量对抗体链结构进行配对,得到配对结果。
可选的,第一解析模块具体可以用于解析原始抗体中抗体编号成功的抗体序列对应的结构信息,若一条抗体序列中同时存在重链结构和轻链结构,对抗体序列进行结构切分为重链结构和轻链结构,以得到每条抗体序列对应的抗体链结构。
可选的,第一优化模块505包括:清洗模块,用于通过以下至少一种操作对原始抗体的结构信息进行数据清洗:对原始抗体的抗体结构中的多重占位信息进行删除;对原始抗体的抗体结构中的无法被识别的预设残基进行删除处理;将原始抗体的抗体结构中的非标准氨基酸转换为对应的标准氨基酸。
可选的,第一优化模块505包括:第二解析模块、比对模块以及结构补全模块。其中,第二解析模块,用于对经过数据清洗后的原始抗体的结构信息进行解析,得到对应的抗体结构序列;比对模块,用于将抗体结构序列与序列信息中对应的抗体序列进行比对,确定抗体结构序列中的缺失部分;结构补全模块,用于对缺失部分进行结构补全,并对补全后的抗体结构进行能量最小化处理,得到优化后的目标抗体的结构信息。
可选的,抗体数据库的生成装置还包括:编号更新模块,用于在第一优化模块505对原始抗体的结构信息进行结构优化之后,对目标抗体的抗体结构序列进行抗体编号,以对原始抗体的抗体编号进行更新。
可选的,抗体数据库的生成装置还包括:第一检测模块以及结构修复模块。其中,第一检测模块,用于在生成模块507根据目标抗体的结构信息生成抗体数据库之前,检测目标抗体中的主链结构是否发生断裂;结构修复模块,用于当第一检测模块检测出主链结构发生断裂时,利用预设结构参数对主链结构进行结构修复,得到修复后的目标抗体。
可选的,生成模块包括:第一生成模块,用于利用修复后的目标抗体的结构信息生成抗体数据库。
可选的,抗体数据库的生成装置还包括:第二检测模块以及第二删除模块。其中,第二检测模块,用于在生成模块507根据目标抗体的结构信息生成抗体数据库之前,检测目标抗体的抗体编号是否存在异常;第二删除模块,用于当第二检测模块检测出抗体编号存在异常时,删除抗体编号异常的目标抗体,得到抗体编号正常的目标抗体。
可选的,生成模块包括:第二生成模块,用于利用抗体编号正常的目标抗体的结构信息生成抗体数据库。
可选的,抗体数据库包括抗体结构数据库、抗体特征数据库和抗体序列数据库中的至少一种。
可选的,当抗体数据库包括抗体结构数据库时,生成模块507包括:确定模块以及第三生成模块。其中,确定模块,用于根据目标抗体的结构信息确定目标抗体的抗体类型,其中,抗体类型至少包括:双链抗体、单链抗体和单域抗体;第三生成模块,用于生成与抗体类型对应的抗体结构数据库。
可选的,当抗体数据库包括抗体特征数据库时,生成模块507包括:第一提取模块以及第四生成模块。其中,第一提取模块,用于提取目标抗体的特征信息,特征信息至少包括以下之一:结构信息、序列信息、编号信息、配对信息、结构优化信息;第四生成模块,用于根据特征信息生成抗体特征数据库。
可选的,在抗体数据库还包括抗体序列数据库时,生成模块507还包括:第二提取模块以及第五生成模块。其中,第二提取模块,用于在第一提取模块提取目标抗体的特征信息之后,从特征信息中提取目标序列信息;第五生成模块,用于基于目标序列信息生成抗体序列数据库。
实施例5
根据本发明实施例,还提供了一种抗体数据库的更新装置实施例,其中,图6是根据本发明实施例的抗体数据库的更新装置示意图,如图6所示,该装置包括:第二获取模块601、第二编号模块603、第二优化模块605以及更新模块607。
第二获取模块601,用于获取新增抗体的结构信息和新增抗体的序列信息;第二编号模块603,用于解析新增抗体的序列信息,对新增抗体的序列信息中的抗体序列进行抗体编号;第二优化模块605,用于当第二编号模块603进行抗体编号成功时,对新增抗体的结构信息进行数据清洗和结构优化,得到优化后的目标新增抗体的结构信息;更新模块607,用于根据优化后的目标新增抗体的结构信息对基于实施例4所提供的抗体数据库的生成装置所生成的抗体数据库进行更新。
需要说明的是,上述第二获取模块601、第二编号模块603、第二优化模块605以及更新模块607对应于上述实施例2中的步骤S302至步骤S308,四个模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例2所公开的内容。
可选的,第二获取模块601包括:第四获取模块、第一确定模块以及下载模块。其中,第四获取模块,用于基于当前检索关键词从蛋白质结构数据库中获取与当前检索关键词对应的当前结构编号;第一确定模块,用于将当前结构编号与历史结构编号进行比对,从当前结构编号中确定出未出现在历史结构编号中的新增结构编号;下载模块,用于基于新增结构编号,从蛋白质结构数据库中下载与新增结构编号对应的抗体的结构信息和序列信息,并将下载得到的抗体的结构信息和序列信息作为新增抗体的结构信息和序列信息。
实施例6
根据本发明实施例,还提供了一种数据查询装置实施例,其中,图7是根据本发明实施例的数据查询装置示意图,如图7所示,该装置包括:第三获取模块701以及查询模块703。
其中,第三获取模块701,用于获取待查询抗体的关键词;查询模块703,用于根据关键信息从基于实施例4所提供的抗体数据库的生成装置所生成的抗体数据库中查询得到与关键信息相对应的抗体数据。
需要说明的是,上述第三获取模块701以及查询模块703对应于上述实施例3中的步骤S402至步骤S404,两个模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例3所公开的内容。
实施例7
根据本发明实施例的另一个方面,提供了一种计算机可读存储介质,该计算机可读存储介质包括存储的程序,其中,在程序运行时控制计算机可读存储介质所在设备执行上述实施例1中的抗体数据库的生成方法,和/或上述实施例2中的抗体数据库的更新方法,和/或上述实施例3中的数据查询方法。
实施例8
根据本发明实施例的另一个方面,提供了一种电子设备,该电子设备包括一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现用于运行程序,其中,程序被设置为运行时执行上述实施例1中的抗体数据库的生成方法,和/或上述实施例2中的抗体数据库的更新方法,和/或上述实施例3中的数据查询方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (22)

1.一种抗体数据库的生成方法,其特征在于,包括:
获取原始抗体的结构信息和序列信息;
解析所述原始抗体的序列信息,对所述序列信息中的抗体序列进行抗体编号;
若抗体编号成功,对所述原始抗体的结构信息进行数据清洗和结构优化,得到优化后的目标抗体的结构信息;
根据所述目标抗体的结构信息生成抗体数据库;
在对所述原始抗体的结构信息进行数据清洗和结构优化之前,所述方法还包括:解析所述原始抗体中抗体编号成功的抗体序列对应的结构信息,得到对应的抗体链结构;对每条所述抗体链结构进行配对,得到配对结果,所述配对结果包括配对成功的抗体链结构组成的抗体以及无配对的抗体链结构形成的抗体;所述对所述原始抗体的结构信息进行数据清洗和结构优化,得到优化后的目标抗体的结构信息,包括:对配对后形成的各抗体的结构信息进行数据清洗和结构优化,得到优化后的各目标抗体的结构信息。
2.根据权利要求1所述的生成方法,其特征在于,获取原始抗体的结构信息和序列信息,包括:
根据检索关键词从蛋白质结构数据库中下载并获取与所述检索关键词相关联的抗体的结构信息和序列信息,并将获取到的抗体的结构信息和序列信息作为原始抗体的结构信息和序列信息。
3.根据权利要求1所述的生成方法,其特征在于,所述方法还包括:
若所述序列信息中存在一个或多个抗体序列编号失败,从所述序列信息中删除该编号失败的抗体序列。
4. 根据权利要求1所述的生成方法,其特征在于,所述对每条所述抗体链结构进行配对,得到配对结果,包括:
获取每条所述抗体链结构与其余抗体链结构之间的距离,根据所述距离对所述抗体链结构进行配对,得到配对结果;和/或
获取每条所述抗体链结构与其余抗体链结构之间存在相互作用的目标原子的数量,根据所述目标原子的数量对所述抗体链结构进行配对,得到配对结果。
5.根据权利要求1所述的生成方法,其特征在于,所述解析所述原始抗体中抗体编号成功的抗体序列对应的结构信息,得到对应的抗体链结构,包括:
解析所述原始抗体中抗体编号成功的抗体序列对应的结构信息,若一条抗体序列中同时存在重链结构和轻链结构,对所述抗体序列进行结构切分为重链结构和轻链结构,以得到每条所述抗体序列对应的抗体链结构。
6.根据权利要求1所述的生成方法,其特征在于,对所述原始抗体的结构信息进行数据清洗,包括以下至少一种操作:
对所述原始抗体的抗体结构中的多重占位信息进行删除;
对所述原始抗体的抗体结构中的无法被识别的预设残基进行删除处理;
将所述原始抗体的抗体结构中的非标准氨基酸转换为对应的标准氨基酸。
7.根据权利要求1所述的生成方法,其特征在于,对所述原始抗体的结构信息进行结构优化,得到优化后的目标抗体的结构信息,包括:
对经过数据清洗后的原始抗体的结构信息进行解析,得到对应的抗体结构序列;
将所述抗体结构序列与所述序列信息中对应的抗体序列进行比对,确定所述抗体结构序列中的缺失部分;
对所述缺失部分进行结构补全,并对补全后的抗体结构进行能量最小化处理,得到优化后的目标抗体的结构信息。
8.根据权利要求7所述的生成方法,其特征在于,在对所述原始抗体的结构信息进行结构优化之后,所述方法还包括:
对所述目标抗体的抗体结构序列进行抗体编号,以对所述原始抗体的抗体编号进行更新。
9.根据权利要求1所述的生成方法,其特征在于,在根据所述目标抗体的结构信息生成抗体数据库之前,所述方法还包括:
检测所述目标抗体中的主链结构是否发生断裂;
若所述主链结构发生断裂,利用预设结构参数对所述主链结构进行结构修复,得到修复后的目标抗体;
所述根据所述目标抗体的结构信息生成抗体数据库,包括:
利用所述修复后的目标抗体的结构信息生成抗体数据库。
10.根据权利要求1所述的生成方法,其特征在于,在根据所述目标抗体的结构信息生成抗体数据库之前,所述方法还包括:
检测所述目标抗体的抗体编号是否存在异常;
若抗体编号存在异常,删除抗体编号异常的目标抗体,得到抗体编号正常的目标抗体;
所述根据所述目标抗体的结构信息生成抗体数据库,包括:
利用所述抗体编号正常的目标抗体的结构信息生成抗体数据库。
11.根据权利要求1-10任一项所述的生成方法,其特征在于,所述抗体数据库包括抗体结构数据库、抗体特征数据库和抗体序列数据库中的至少一种。
12.根据权利要求11所述的生成方法,其特征在于,当所述抗体数据库包括所述抗体结构数据库时,根据所述目标抗体的结构信息生成抗体数据库,包括:
根据所述目标抗体的结构信息确定所述目标抗体的抗体类型,其中,所述抗体类型至少包括:双链抗体、单链抗体和单域抗体;
生成与所述抗体类型对应的所述抗体结构数据库。
13.根据权利要求11所述的生成方法,其特征在于,当所述抗体数据库包括所述抗体特征数据库时,根据所述目标抗体的结构信息生成抗体数据库,包括:
提取所述目标抗体的特征信息,所述特征信息至少包括以下之一:结构信息、序列信息、编号信息、配对信息、结构优化信息;
根据所述特征信息生成所述抗体特征数据库。
14.根据权利要求13所述的生成方法,其特征在于,在所述抗体数据库还包括所述抗体序列数据库时,在提取所述目标抗体的特征信息之后,所述方法还包括:
从所述特征信息中提取目标序列信息;
基于所述目标序列信息生成所述抗体序列数据库。
15.一种抗体数据库的更新方法,其特征在于,包括:
获取新增抗体的结构信息和所述新增抗体的序列信息;
解析所述新增抗体的序列信息,对所述新增抗体的序列信息中的抗体序列进行抗体编号;
若抗体编号成功,对所述新增抗体的结构信息进行数据清洗和结构优化,得到优化后的目标新增抗体的结构信息;
根据所述优化后的目标新增抗体的结构信息对基于权利要求1-14任一项所述的抗体数据库的生成方法所生成的抗体数据库进行更新。
16.根据权利要求15所述的更新方法,其特征在于,获取新增抗体的结构信息和所述新增抗体的序列信息,包括:
基于当前检索关键词从蛋白质结构数据库中获取与所述当前检索关键词对应的当前结构编号;
将所述当前结构编号与历史结构编号进行比对,从所述当前结构编号中确定出未出现在所述历史结构编号中的新增结构编号;
基于所述新增结构编号,从所述蛋白质结构数据库中下载与所述新增结构编号对应的抗体的结构信息和序列信息,并将下载得到的抗体的结构信息和序列信息作为所述新增抗体的结构信息和序列信息。
17.一种抗体数据库的查询方法,其特征在于,包括:
获取待查询抗体的关键信息;
根据所述关键信息从基于权利要求1-14任一项所述的抗体数据库的生成方法所生成的抗体数据库中查询得到与所述关键信息相对应的抗体数据。
18.一种抗体数据库的生成装置,其特征在于,包括:
第一获取模块,用于获取原始抗体的结构信息和序列信息;
第一编号模块,用于解析所述原始抗体的序列信息,对所述序列信息中的抗体序列进行抗体编号;
第一优化模块,用于当所述第一编号模块进行抗体编号成功时,对所述原始抗体的结构信息进行数据清洗和结构优化,得到优化后的目标抗体的结构信息;
生成模块,用于根据所述目标抗体的结构信息生成抗体数据库;
第一解析模块,用于在所述第一优化模块对所述原始抗体的结构信息进行数据清洗和结构优化之前,解析所述原始抗体中抗体编号成功的抗体序列对应的结构信息,得到对应的抗体链结构;
配对模块,用于对每条所述抗体链结构进行配对,得到配对结果,所述配对结果包括配对成功的抗体链结构组成的抗体以及无配对的抗体链结构形成的抗体;
所述第一优化模块用于对配对后形成的各抗体的结构信息进行数据清洗和结构优化,得到优化后的各目标抗体的结构信息。
19.一种抗体数据库的更新装置,其特征在于,包括:
第二获取模块,用于获取新增抗体的结构信息和所述新增抗体的序列信息;
第二编号模块,用于解析所述新增抗体的序列信息,对所述新增抗体的序列信息中的抗体序列进行抗体编号;
第二优化模块,用于当所述第二编号模块进行抗体编号成功时,对所述新增抗体的结构信息进行数据清洗和结构优化,得到优化后的目标新增抗体的结构信息;
更新模块,用于根据所述优化后的目标新增抗体的结构信息对基于权利要求18所述的抗体数据库的生成装置所生成的抗体数据库进行更新。
20.一种抗体数据库的查询装置,其特征在于,包括:
第三获取模块,用于获取待查询抗体的关键信息;
查询模块,用于根据所述关键信息从基于权利要求18所述的抗体数据库的生成装置所生成的抗体数据库中查询得到与所述关键信息相对应的抗体数据。
21.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至14中任意一项所述的抗体数据库的生成方法,和/或权利要求15至16中任意一项所述的抗体数据库的更新方法,和/或权利要求17所述的抗体数据库的查询方法。
22.一种电子设备,其特征在于,所述电子设备包括一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现用于运行程序,其中,所述程序被设置为运行时执行所述权利要求1至14中任意一项所述的抗体数据库的生成方法,和/或权利要求15至16中任意一项所述的抗体数据库的更新方法,和/或权利要求17所述的抗体数据库的查询方法。
CN202210089350.4A 2022-01-26 2022-01-26 抗体数据库的生成、更新和查询方法、装置及存储介质 Active CN114116857B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210089350.4A CN114116857B (zh) 2022-01-26 2022-01-26 抗体数据库的生成、更新和查询方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210089350.4A CN114116857B (zh) 2022-01-26 2022-01-26 抗体数据库的生成、更新和查询方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN114116857A CN114116857A (zh) 2022-03-01
CN114116857B true CN114116857B (zh) 2022-06-17

Family

ID=80361391

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210089350.4A Active CN114116857B (zh) 2022-01-26 2022-01-26 抗体数据库的生成、更新和查询方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN114116857B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117116363B (zh) * 2023-10-20 2024-07-16 江苏普若维生物技术有限责任公司 一种抗体数据库的构建方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010056893A1 (en) * 2008-11-13 2010-05-20 Imclone Llc Humanization and affinity-optimization of antibodies
CN104530228A (zh) * 2014-12-18 2015-04-22 吉林大学 一种人源抗乙肝病毒表面抗体及其制备方法和应用
CN106661629A (zh) * 2014-08-07 2017-05-10 深圳华大基因科技有限公司 筛选纳米抗体的方法及系统
WO2018165046A1 (en) * 2017-03-07 2018-09-13 Igc Bio, Inc. A computational pipeline for antibody modeling and design
CN112365919A (zh) * 2020-12-01 2021-02-12 北京迈迪培尔信息技术有限公司 一种基于遗传算法的抗体计算优化方法
CN113838523A (zh) * 2021-09-17 2021-12-24 深圳太力生物技术有限责任公司 一种抗体蛋白cdr区域氨基酸序列预测方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8108384B2 (en) * 2002-10-22 2012-01-31 University Of Utah Research Foundation Managing biological databases

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010056893A1 (en) * 2008-11-13 2010-05-20 Imclone Llc Humanization and affinity-optimization of antibodies
CN106661629A (zh) * 2014-08-07 2017-05-10 深圳华大基因科技有限公司 筛选纳米抗体的方法及系统
CN104530228A (zh) * 2014-12-18 2015-04-22 吉林大学 一种人源抗乙肝病毒表面抗体及其制备方法和应用
WO2018165046A1 (en) * 2017-03-07 2018-09-13 Igc Bio, Inc. A computational pipeline for antibody modeling and design
CN112365919A (zh) * 2020-12-01 2021-02-12 北京迈迪培尔信息技术有限公司 一种基于遗传算法的抗体计算优化方法
CN113838523A (zh) * 2021-09-17 2021-12-24 深圳太力生物技术有限责任公司 一种抗体蛋白cdr区域氨基酸序列预测方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
人源化单克隆抗体研究进展;吴永强等;《微生物学免疫学进展》;20080515(第02期);75-79 *

Also Published As

Publication number Publication date
CN114116857A (zh) 2022-03-01

Similar Documents

Publication Publication Date Title
CN109977110B (zh) 数据清洗方法、装置及设备
US7814111B2 (en) Detection of patterns in data records
CN111143226B (zh) 自动化测试方法及装置、计算机可读存储介质、电子设备
CN110162516B (zh) 一种基于海量数据处理的数据治理的方法及系统
CN114116857B (zh) 抗体数据库的生成、更新和查询方法、装置及存储介质
CN106649557B (zh) 一种缺陷报告与邮件列表语义关联挖掘方法
CN110852107A (zh) 一种关系提取方法、装置、及存储介质
CN111353004A (zh) 一种药品文档的数据关联分析方法和系统
CN116258178B (zh) 模型转换方法、装置、电子设备和可读存储介质
CN114996331B (zh) 一种数据挖掘控制方法和系统
CN111932394A (zh) 一种基于关联规则挖掘的不良根因路径分析方法及系统
Vesterstrøm et al. Flexible secondary structure based protein structure comparison applied to the detection of circular permutation
CN117492825A (zh) 一种基于上下文学习和大语言模型的Solidity注释生成方法
CN112199376A (zh) 一种基于聚类分析的标准知识库管理方法及系统
CN109493918B (zh) 一种生物数据管理及系统发育分析流程化方法
CN111585809A (zh) 一种利用大数据统计分析进行网络设备配置稽核的方法
CN101425141B (zh) 图像识别装置和图像识别方法
Sikibi Use data mining cleansing to prepare data for strategic decisions
Jamil et al. Knowledge Synthesis using Large Language Models for a Computational Biology Workflow Ecosystem
CN114821396A (zh) Lng卸车作业流程的规范性检测方法、设备及存储介质
CN114974564B (zh) 一种规则驱动的肿瘤医疗辅助决策系统的数据智能存储方法
CN111243679A (zh) 微生物群落物种多样性数据的存储检索方法
CN113468155B (zh) 问题数据处理方法和装置
CN114969131B (zh) 一种信息的查询方法、装置及设备
CN114692595B (zh) 一种基于文本匹配的重复冲突方案检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant