CN114300065A - 分子设计方案的确定方法、装置、设备及存储介质 - Google Patents

分子设计方案的确定方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114300065A
CN114300065A CN202111511073.3A CN202111511073A CN114300065A CN 114300065 A CN114300065 A CN 114300065A CN 202111511073 A CN202111511073 A CN 202111511073A CN 114300065 A CN114300065 A CN 114300065A
Authority
CN
China
Prior art keywords
molecule
preset
molecules
target
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111511073.3A
Other languages
English (en)
Inventor
袁久闯
曾群
金颖滴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Jingtai Technology Co Ltd
Original Assignee
Shenzhen Jingtai Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Jingtai Technology Co Ltd filed Critical Shenzhen Jingtai Technology Co Ltd
Priority to CN202111511073.3A priority Critical patent/CN114300065A/zh
Publication of CN114300065A publication Critical patent/CN114300065A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种分子设计方案的确定方法、装置、设备及存储介质。其中,该确定方法包括:获取待设计的目标分子;计算所述目标分子的分子描述符;根据所述目标分子的分子描述符,确定所述目标分子与预先构建的目标化学空间中各预设分子之间的距离;根据所述目标分子与各所述预设分子之间的距离,从各所述预设分子中确定出候选分子;获取所述候选分子的设计方案;根据所述候选分子的设计方案,确定所述目标分子的设计方案。本发明解决了现有技术中尚未出现根据实际需要,高效、便捷且低成本地筛选出合理的实验方案和参数的技术问题。

Description

分子设计方案的确定方法、装置、设备及存储介质
技术领域
本发明涉及计算化学技术领域,具体而言,涉及一种分子设计方案的确定方法、装置、设备及存储介质。
背景技术
目前,市场上大部分药物是以晶体的形式存在,因此在药物研发和生产中会面临药物结晶实验方案的选择。不同实验方案,一方面会直接决定药物分子结晶与否;另一方面决定药物的结晶得到的固体形态,如多晶型、水合物、溶剂合物、盐型和共晶,而不同的固体形态在理化性质、机械性能、化学稳定性、生物利用度与工艺可行性等方面存在差异。常用的实验方案有多种,而每种方法又涉及到多个实验参数,如何能从中根据需要筛选出合理的实验方案和参数是非常有意义的。
目前存在的结晶实验方案选择主要有:
A、大规模实验方法遍历筛选,即:对于任何药物分子,采用统一预设的多种实验方法和实验参数进行大规模的结晶实验,从中找出可以结晶的方案。
其缺点为:实验方案没有对指定的药物分子进行优化,需要做的实验过多,物料、人力、时间成本过高。
B、凭借专家经验,即:结晶实验专家通过大量的学习和实践,对某些分子的结晶特性具有深刻的理解,可以帮助针对特定的分子设计出个性的实验方案,从而通过少量的实验就可以获得理想的晶体形态。
其缺点为:具有丰富经验的结晶实验专家难以培养,过于依赖个人经验,无法高通量地设计方案。
针对现有技术中尚未出现根据实际需要,高效、便捷且低成本地筛选出合理的实验方案和参数的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种分子设计方案的确定方法、装置、设备及存储介质,以至少解决有技术中尚未出现根据实际需要,高效、便捷且低成本地筛选出合理的实验方案和参数的问的技术问题。
根据本发明实施例的一个方面,提供了一种分子设计方案的确定方法,所述确定方法包括:获取待设计的目标分子,并计算所述目标分子的分子描述符;根据所述目标分子的分子描述符,确定所述目标分子与预先构建的目标化学空间中各预设分子之间的距离;根据所述目标分子与各所述预设分子之间的距离,从各所述预设分子中确定出候选分子;获取所述候选分子的设计方案;根据所述候选分子的设计方案,确定所述目标分子的设计方案。
可选的,所述获取待设计的目标分子之前,所述方法还包括:获取多个预设分子;确定每个所述预设分子的分子描述符,其中,一个所述预设分子的分子描述符在多维空间中占据一个位置;基于每个所述预设分子的分子描述符在所述多维空间中占据的位置,构建目标化学空间。
可选的,所述获取多个预设分子,包括:获取多个初始分子的设计方案;对每个初始分子的设计方案进行解析,确定每个初始分子的设计方案的完整性;将具有完整设计方案的初始分子作为预设分子。
可选的,所述对每个初始分子的设计方案进行解析,确定每个初始分子的设计方案的完整性,包括:对每个初始分子的设计方案进行解析,得到设计方案完整的第一初始分子和设计方案不完整的第二初始分子;所述将具有完整设计方案的初始分子作为预设分子,包括:将具有完整设计方案的所述第一初始分子作为预设分子。
可选的,所述方法还包括:对所述第二初始分子的设计方案进行补全处理,并将设计方案经补全处理的第二初始分子作为所述预设分子。
可选的,所述确定每个所述预设分子的分子描述符,包括:采用预设算法计算每个所述预设分子的多个分子描述符;对每个所述预设分子的多个分子描述符进行筛选处理,得到用于表征所述预设分子的一组分子描述符。
可选的,对每个所述预设分子的多个分子描述符进行筛选处理,包括:对于任一分子描述符,当有超过第一阈值数量的预设分子对应的该分子描述符的值相同时,删除该分子描述符。
可选的,对每个所述预设分子的多个分子描述符进行筛选处理,包括:对于任一分子描述符,当有预设分子对应的该分子描述符的值与其余预设分子对应的该分子描述符的值之间的差异低于第二阈值时,删除该分子描述符。
可选的,对每个所述预设分子的多个分子描述符进行筛选处理,包括:对于任一分子描述符,当有预设分子对应的该分子描述符的值异常时,删除该分子描述符。
可选的,对每个所述预设分子的多个分子描述符进行筛选处理,包括:对于任意两个分子描述符,当基于所有预设分子对应的所述两个分子描述符的值计算得到所述两个分子描述符的相关系数高于第三阈值时,删除所述两个分子描述符中的其中一个分子描述符。
可选的,对每个所述预设分子的多个分子描述符进行筛选处理,包括:对所有的分子描述符进行降维处理。
可选的,所述根据所述目标分子的分子描述符,确定所述目标分子与预先构建的目标化学空间中各预设分子之间的距离,包括:根据所述目标分子的分子描述符,确定所述目标分子在预先构建的目标化学空间中的位置;根据所述目标分子在所述目标化学空间中的位置以及所述目标化学空间中各预设分子的位置,计算得到所述目标分子与各所述预设分子之间的距离。
可选的,所述根据所述目标分子与各所述预设分子之间的距离,从各所述预设分子中确定出候选分子,包括:根据所述目标分子与各所述预设分子之间的距离,选取距离较小的预设数量或预设比例的预设分子作为候选分子;或者,根据所述目标分子与各所述预设分子之间的距离,选取距离最小的预设分子作为候选分子。
可选的,当所述候选分子为多个时,所述根据所述候选分子的设计方案,确定所述目标分子的设计方案,包括:按照预设评分策略对每个所述候选分子的设计方案进行评分,得到每个所述候选分子的设计方案的分数值;将分数值最高的候选分子的设计方案作为所述目标分子的设计方案。
可选的,当所述候选分子为一个,且所述候选分子的设计方案为多套时,所述根据所述候选分子的设计方案,确定所述目标分子的设计方案,包括:按照预设评分策略对所述候选分子的每套设计方案进行评分,得到所述候选分子的每套设计方案的分数值;将分数值最高的设计方案作为所述目标分子的设计方案。
根据本发明实施例的另一方面,还提供了一种分子设计方案的确定装置,所述确定装置包括:第一获取单元,用于获取待设计的目标分子,并计算所述目标分子的分子描述符;第一确定单元,用于根据所述目标分子的分子描述符,确定所述目标分子与预先构建的目标化学空间中各预设分子之间的距离;第二确定单元,用于根据所述目标分子与各所述预设分子之间的距离,从各所述预设分子中确定出候选分子;第二获取单元,用于获取所述候选分子的设计方案;第三确定单元,用于根据所述候选分子的设计方案,确定所述目标分子的设计方案。
可选的,所述确定装置还包括:第三获取单元,用于在所述第一获取单元获取待设计的目标分子之前,获取多个预设分子;第四确定单元,用于确定每个所述预设分子的分子描述符,其中,一个所述预设分子的分子描述符在多维空间中占据一个位置;构建单元,用于基于每个所述预设分子的分子描述符在所述多维空间中占据的位置,构建目标化学空间。
可选的,所述第三获取单元包括:第一获取子单元,用于获取多个初始分子的设计方案;第一确定子单元,用于对每个初始分子的设计方案进行解析,确定每个初始分子的设计方案的完整性;第二确定子单元,用于将具有完整设计方案的初始分子作为预设分子。
可选的,所述第一确定子单元包括:第一获取模块,用于对每个初始分子的设计方案进行解析,得到设计方案完整的第一初始分子和设计方案不完整的第二初始分子。
可选的,所述第二确定子单元包括:第一确定模块,用于将具有完整设计方案的所述第一初始分子作为预设分子。
可选的,所述确定装置还包括:补全单元,用于对所述第二初始分子的设计方案进行补全处理,并将设计方案经补全处理的第二初始分子作为所述预设分子。
可选的,所述第四确定单元包括:第一计算子单元,用于采用预设算法计算每个所述预设分子的多个分子描述符;筛选子单元,用于对每个所述预设分子的多个分子描述符进行筛选处理,得到用于表征所述预设分子的一组分子描述符。
可选的,筛选子单元,包括以下至少任一:第一处理模块,用于对于任一分子描述符,当有超过第一阈值数量的预设分子对应的该分子描述符的值相同时,删除该分子描述符;第二处理模块,用于对于任一分子描述符,当有预设分子对应的该分子描述符的值与其余预设分子对应的该分子描述符的值之间的差异低于第二阈值时,删除该分子描述符;第三处理模块,用于对于任一分子描述符,当有预设分子对应的该分子描述符的值异常时,删除该分子描述符;第四处理模块,用于对于任意两个分子描述符,当基于所有预设分子对应的所述两个分子描述符的值计算得到所述两个分子描述符的相关系数高于第三阈值时,删除所述两个分子描述符中的其中一个分子描述符;第五处理模块,用于对所有的分子描述符进行降维处理。
可选的,所述第一确定单元,包括:第三确定子单元,用于根据所述目标分子的分子描述符,确定所述目标分子在预先构建的目标化学空间中的位置;第二计算子单元,用于根据所述目标分子在所述目标化学空间中的位置以及所述目标化学空间中各预设分子的位置,计算得到所述目标分子与各所述预设分子之间的距离。
可选的,所述第二确定单元,包括至少以下任一:第一选取子单元,用于根据所述目标分子与各所述预设分子之间的距离,选取距离较小的预设数量或预设比例的预设分子作为候选分子;第二选取子单元,用于根据所述目标分子与各所述预设分子之间的距离,选取距离最小的预设分子作为候选分子。
可选的,所述第三确定单元,包括:第一评分子单元,用于当所述候选分子为多个时,按照预设评分策略对每个所述候选分子的设计方案进行评分,得到每个所述候选分子的设计方案的分数值;第四确定子单元,用于将分数值最高的候选分子的设计方案作为所述目标分子的设计方案。
可选的,所述第三确定单元,包括:第二评分子单元,用于当所述候选分子为一个,且所述候选分子的设计方案为多套时,按照预设评分策略对所述候选分子的每套设计方案进行评分,得到所述候选分子的每套设计方案的分数值;第五确定子单元,用于将分数值最高的设计方案作为所述目标分子的设计方案。
根据本发明实施例的另一个方面,提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行上述所述分子设计方案的确定方法。
根据本发明实施例的另一个方面,提供了一种电子设备,该电子设备包括存储器和处理器,所述存储器中存储有程序,所述处理器用于执行所述程序以实现上述分子设计方案的确定方法。
在本发明实施例中,通过获取待设计的目标分子,并计算所述目标分子的分子描述符;根据所述目标分子的分子描述符,确定所述目标分子与预先构建的目标化学空间中各预设分子之间的距离;根据所述目标分子与各所述预设分子之间的距离,从各所述预设分子中确定出候选分子;获取所述候选分子的设计方案;根据所述候选分子的设计方案,确定所述目标分子的设计方案。
此时,当需要确定某个药物分子的相关设计方案(如结晶实验方案、合成实验方案等)时,则可以通过计算该目标分子的分子描述符,同时确定该目标分子的分子描述符在所述目标化学空间中占据的位置,并基于多个所述预设分子与所述目标分子在所述目标化学空间中占据位置之间的欧式距离,在所述多个预设分子中,确定需要推送其对应的设计方案的候选分子,并对候选分子的设计方案进行推送处理,从而可以参考候选分子的设计方案对目标分子进行相应设计。进而达到了高效、快速、低成本地针对目标分子特点推荐出相应的设计方案的技术效果。
也即,本申请实施例是通过搜集药物分子的设计方案,计算其中药物分子的分子描述符,采用重要的分子描述符构建出相应的化学空间。应用时,计算新分子的分子描述符,并计算新分子的分子描述符在化学空间中与已有分子描述符之间的距离;然后由距离由近到远依次推荐相应的设计方案。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的分子设计方案的确定方法的流程图;
图2是根据本发明实施例的一种可选的分子设计方案的确定方法的示意图;
图3是根据本发明实施例的一种可选的甲基巴多索隆对应的目标分子的示意图;
图4是根据本发明实施例的一种可选的甲基巴多索隆对应的预设分子的示意图;
图5是根据本发明实施例的一种可选的分子设计方案的确定装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例,提供了一种分子设计方案的确定方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的分子设计方案的确定方法,如图1所示,该方法包括如下步骤:
步骤S102,获取待设计的目标分子,并计算所述目标分子的分子描述符。
步骤S104,根据所述目标分子的分子描述符,确定所述目标分子与预先构建的目标化学空间中各预设分子之间的距离。
步骤S106,根据所述目标分子与各所述预设分子之间的距离,从各所述预设分子中确定出候选分子。
步骤S108,获取所述候选分子的设计方案。
步骤S110,根据所述候选分子的设计方案,确定所述目标分子的设计方案。
需要说明的是:在本发明实施例中,如图2所示,所述获取待设计的目标分子之前,所述方法还包括:获取多个预设分子;确定每个所述预设分子的分子描述符,其中,一个所述预设分子的分子描述符在多维空间中占据一个位置;基于每个所述预设分子的分子描述符在所述多维空间中占据的位置,构建目标化学空间。
此时,当需要确定某个药物分子的相关结晶实验方案时,则可以通过计算该目标分子的分子描述符,同时确定该目标分子的分子描述符在所述目标化学空间中占据的位置,并基于多个所述预设分子与所述目标分子在所述目标化学空间中占据位置之间的欧式距离,在所述多个预设分子中,确定需要推送其对应的设计方案的候选分子,并对候选分子的设计方案进行推送处理,其中,所述设计方案至少包括所述预设分子的结晶实验数据。进而达到了高效、快速、低成本地针对目标分子特点推荐出相应的结晶实验方案的技术效果。
也即,本申请实施例是通过搜集药物分子的结晶实验数据,计算其中药物分子的分子描述符,采用重要的分子描述符构建出相应的化学空间。应用时,计算新分子的分子描述符,并计算新分子的分子描述符在化学空间中与已有分子描述符之间的距离;然后由距离由近到远依次推荐相应的实验方案。
其中,分子的设计方案可以用分子的实验数据来表示,实验数据可以包括但不限于实验条件(包括实验方法、如挥发法、溶析法等;以及相关实验参数,如温度、压力等),以及结晶类型(如单晶、水合物、溶剂合物及共晶等)。还可以从分子种类多样性的角度出发,设计实验来补充更多的数据,来保证实验数据具有高覆盖性。
另外,本申请实施例除适用于结晶实验方案的推荐外,也可以适用于对其他设计方案的推荐,例如分子合成实验设计。
在一个可选的示例中,所述获取多个预设分子,包括:获取多个初始分子的设计方案;对每个初始分子的设计方案进行解析,确定每个初始分子的设计方案的完整性;将具有完整设计方案的初始分子作为预设分子。
换言之,从多个数据源中采集大量的药物分子的实验数据,进而从大量的药物分子的实验数据中确定可以构建目标化学空间的预设分子,其中,每个预设分子对应有完善的结晶实验数据。
需要说明的是:上述多个数据源可以为论文库、实验数据库、具体实验数据等等。
进一步的,所述对每个初始分子的设计方案进行解析,确定每个初始分子的设计方案的完整性,包括:对每个初始分子的设计方案进行解析,得到设计方案完整的第一初始分子和设计方案不完整的第二初始分子;所述将具有完整设计方案的初始分子作为预设分子,包括:将具有完整设计方案的所述第一初始分子作为预设分子;此外,所述方法还包括:对所述第二初始分子的设计方案进行补全处理,并将设计方案经补全处理的第二初始分子作为所述预设分子。
需要说明的是:设计方案至少包括:1、实验条件,例如:方法(如挥发法、溶析法等)、相关参数(如温度、压力等);2、结晶类型,例如:单晶、水合物、溶剂合物及共晶等。
换言之,若部分初始分子的设计方案并不完整,则可以通过设计实验来补充该初始分子的设计方案,以保证本申请实施例所建立的数据库具有高覆盖性。
在一个可选的示例中,所述确定每个所述预设分子的分子描述符,包括:采用预设算法计算每个所述预设分子的多个分子描述符;对每个所述预设分子的多个分子描述符进行筛选处理,得到用于表征所述预设分子的一组分子描述符。
换言之,针对每个预设分子,可以采用化学信息计算软件(如RDKit等)计算其对应的分子描述符(一般情况下,每个预设分子均对应多个分子描述符)。此时,再采用无监督和/或有监督的特征工程方法对每个所述预设分子的多个分子描述符进行筛选处理,得到用于表征所述预设分子的一组分子描述符,此时,用于表征预设分子的分子描述符在多维空间中占据着一个数据点,而这些数据点的集合及其覆盖范围则构成了相关的目标化学空间。
可选的,对每个所述预设分子的多个分子描述符进行筛选处理,至少包括如下处理方式:
其一、对于任一分子描述符,当有超过第一阈值数量的预设分子对应的该分子描述符的值相同时,删除该分子描述符。
其二、对于任一分子描述符,当有预设分子对应的该分子描述符的值与其余预设分子对应的该分子描述符的值之间的差异低于第二阈值时,删除该分子描述符。
需要说明的是:所述差异可以用多种形式来表征,如方差、标准偏差、标准方差、均方差、均方根差等等。
其三、对于任一分子描述符,当有预设分子对应的该分子描述符的值异常时,删除该分子描述符;
其四、对于任意两个分子描述符,当基于所有预设分子对应的所述两个分子描述符的值计算得到所述两个分子描述符的相关系数高于第三阈值时,删除所述两个分子描述符中的其中一个分子描述符。
其五、对所有的分子描述符进行降维处理。
需要说明的是:对分子描述符进行降维处理是为了剔除无关和冗余的信息,减少变量个数的目的;其中,无关信息是指与设计方案无关的分子描述符,如原子个数、所有分子中均不含的原子类型等;冗余信息是指两个或以上的分子描述符含义比较相近,如分子质量和重原子质量,可以仅保留其中一种。
举例说明:如果有90%的样本(药物分子)对应的同一个分子描述符的值相同,则删除将该分子描述符;如果对任意一个分子描述符,遍及所有的样本计算该分子描述符的相对标准偏差/相对标准方差过低(如小于0.05),则删除该分子描述符;如果某个分子描述符出现异常值(如NaN或无限大等),删除该分子描述符;如果有两个分子描述符的相关系数过高(如大于0.9),则删除这两个分子描述符中的任意一个分子描述符。
在一个可选的示例中,所述根据所述目标分子的分子描述符,确定所述目标分子与预先构建的目标化学空间中各预设分子之间的距离,包括:根据所述目标分子的分子描述符,确定所述目标分子在预先构建的目标化学空间中的位置;根据所述目标分子在所述目标化学空间中的位置以及所述目标化学空间中各预设分子的位置,计算得到所述目标分子与各所述预设分子之间的距离。
进一步的,所述根据所述目标分子与各所述预设分子之间的距离,从各所述预设分子中确定出候选分子,包括:根据所述目标分子与各所述预设分子之间的距离,选取距离较小的预设数量或预设比例的预设分子作为候选分子;或者,根据所述目标分子与各所述预设分子之间的距离,选取距离最小的预设分子作为候选分子。
需要说明的是:目标分子与各所述预设分子之间的距离可以为欧式距离。
在一个可选的示例中,当所述候选分子为多个时,所述根据所述候选分子的设计方案,确定所述目标分子的设计方案,包括:按照预设评分策略对每个所述候选分子的设计方案进行评分,得到每个所述候选分子的设计方案的分数值;将分数值最高的候选分子的设计方案作为所述目标分子的设计方案。此外,当所述候选分子为一个,且所述候选分子的设计方案为多套时,所述根据所述候选分子的设计方案,确定所述目标分子的设计方案,包括:按照预设评分策略对所述候选分子的每套设计方案进行评分,得到所述候选分子的每套设计方案的分数值;将分数值最高的设计方案作为所述目标分子的设计方案。
当需要获取目标分子的结晶方案时,用于对候选分子的设计方案进行打分的预设评分策略可以由结晶度、结晶时长、结晶速率等至少一种信息来表征。例如,结晶度高的设计方案要比结晶度低的设计方案的分数高,结晶速率快的设计方案要比结晶速率低的设计方案的分数高。
为了使得本领域技术人员能够更加清楚地了解本申请的技术方案,以下将结合具体的实施例来说明。
以甲基巴多索隆(Bardoxolone methyl)为例子,工作人员输入目标分子,如图3所示;此时,在目标化学空间中找到与目标分子最近的10个预设分子,如图4所示;最后,将10个预设分子的设计方案按照计算距离依次推送,得到甲基巴多索隆的结晶实验的参考数据。
综上所述,本申请实施例实现了如下技术效果:1、推荐合理的结晶实验方案速度快,可实现高通量;2、在实现结晶目标的前提下,减少实验次数,节省成本;3、只需给出分子基本信息而无需更多操作,使用方便。
根据本发明的又一个实施例,还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行上述所述分子设计方案的确定方法。
根据本发明的又一个实施例,还提供了一种电子设备,该电子设备包括存储器和处理器,所述存储器中存储有程序,所述处理器用于执行所述程序以实现上述分子设计方案的确定方法。
根据本发明的又一个实施例,还提供了一种分子设计方案的确定装置实施例,需要说明的是,该分子设计方案的确定装置可以用于执行本发明实施例中的分子设计方案的确定方法,本发明实施例中的分子设计方案的确定方法可以在该分子设计方案的确定装置中执行。
图5是根据本发明实施例的一种分子设计方案的确定装置的示意图,如图5所示,该装置可以包括:第一获取单元51,用于获取待设计的目标分子,并计算所述目标分子的分子描述符;第一确定单元53,用于根据所述目标分子的分子描述符,确定所述目标分子与预先构建的目标化学空间中各预设分子之间的距离;第二确定单元55,用于根据所述目标分子与各所述预设分子之间的距离,从各所述预设分子中确定出候选分子;第二获取单元57,用于获取所述候选分子的设计方案;第三确定单元59,用于根据所述候选分子的设计方案,确定所述目标分子的设计方案。
可选的,所述确定装置还包括:第三获取单元,用于在所述第一获取单元51获取待设计的目标分子之前,获取多个预设分子;第四确定单元,用于确定每个所述预设分子的分子描述符,其中,一个所述预设分子的分子描述符在多维空间中占据一个位置;构建单元,用于基于每个所述预设分子的分子描述符在所述多维空间中占据的位置,构建目标化学空间。
可选的,所述第三获取单元包括:第一获取子单元,用于获取多个初始分子的设计方案;第一确定子单元,用于对每个初始分子的设计方案进行解析,确定每个初始分子的设计方案的完整性;第二确定子单元,用于将具有完整设计方案的初始分子作为预设分子。
可选的,所述第一确定子单元包括:第一获取模块,用于对每个初始分子的设计方案进行解析,得到设计方案完整的第一初始分子和设计方案不完整的第二初始分子。
可选的,所述第二确定子单元包括:第一确定模块,用于将具有完整设计方案的所述第一初始分子作为预设分子。
可选的,所述确定装置还包括:补全单元,用于对所述第二初始分子的设计方案进行补全处理,并将设计方案经补全处理的第二初始分子作为所述预设分子。
可选的,所述第四确定单元包括:第一计算子单元,用于采用预设算法计算每个所述预设分子的多个分子描述符;筛选子单元,用于对每个所述预设分子的多个分子描述符进行筛选处理,得到用于表征所述预设分子的一组分子描述符。
可选的,筛选子单元,包括以下至少任一:第一处理模块,用于对于任一分子描述符,当有超过第一阈值数量的预设分子对应的该分子描述符的值相同时,删除该分子描述符;第二处理模块,用于对于任一分子描述符,当有预设分子对应的该分子描述符的值与其余预设分子对应的该分子描述符的值之间的差异低于第二阈值时,删除该分子描述符;第三处理模块,用于对于任一分子描述符,当有预设分子对应的该分子描述符的值异常时,删除该分子描述符;第四处理模块,用于对于任意两个分子描述符,当基于所有预设分子对应的所述两个分子描述符的值计算得到所述两个分子描述符的相关系数高于第三阈值时,删除所述两个分子描述符中的其中一个分子描述符;第五处理模块,用于对所有的分子描述符进行降维处理。
可选的,所述第一确定单元53,包括:第三确定子单元,用于根据所述目标分子的分子描述符,确定所述目标分子在预先构建的目标化学空间中的位置;第二计算子单元,用于根据所述目标分子在所述目标化学空间中的位置以及所述目标化学空间中各预设分子的位置,计算得到所述目标分子与各所述预设分子之间的距离。
可选的,所述第二确定单元55,包括至少以下任一:第一选取子单元,用于根据所述目标分子与各所述预设分子之间的距离,选取距离较小的预设数量或预设比例的预设分子作为候选分子;第二选取子单元,用于根据所述目标分子与各所述预设分子之间的距离,选取距离最小的预设分子作为候选分子。
可选的,所述第三确定单元59,包括:第一评分子单元,用于当所述候选分子为多个时,按照预设评分策略对每个所述候选分子的设计方案进行评分,得到每个所述候选分子的设计方案的分数值;第四确定子单元,用于将分数值最高的候选分子的设计方案作为所述目标分子的设计方案。
可选的,所述第三确定单元59,包括:第二评分子单元,用于当所述候选分子为一个,且所述候选分子的设计方案为多套时,按照预设评分策略对所述候选分子的每套设计方案进行评分,得到所述候选分子的每套设计方案的分数值;第五确定子单元,用于将分数值最高的设计方案作为所述目标分子的设计方案。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (14)

1.一种分子设计方案的确定方法,其特征在于,包括:
获取待设计的目标分子,并计算所述目标分子的分子描述符;
根据所述目标分子的分子描述符,确定所述目标分子与预先构建的目标化学空间中各预设分子之间的距离;
根据所述目标分子与各所述预设分子之间的距离,从各所述预设分子中确定出候选分子;
获取所述候选分子的设计方案;
根据所述候选分子的设计方案,确定所述目标分子的设计方案。
2.根据权利要求1所述的方法,其特征在于,所述获取待设计的目标分子之前,所述方法还包括:
获取多个预设分子;
确定每个所述预设分子的分子描述符,其中,一个所述预设分子的分子描述符在多维空间中占据一个位置;
基于每个所述预设分子的分子描述符在所述多维空间中占据的位置,构建目标化学空间。
3.根据权利要求2所述的方法,其特征在于,所述获取多个预设分子,包括:
获取多个初始分子的设计方案;
对每个初始分子的设计方案进行解析,确定每个初始分子的设计方案的完整性;
将具有完整设计方案的初始分子作为预设分子。
4.根据权利要求3所述的方法,其特征在于,
所述对每个初始分子的设计方案进行解析,确定每个初始分子的设计方案的完整性,包括:对每个初始分子的设计方案进行解析,得到设计方案完整的第一初始分子和设计方案不完整的第二初始分子;
所述将具有完整设计方案的初始分子作为预设分子,包括:将具有完整设计方案的所述第一初始分子作为预设分子。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
对所述第二初始分子的设计方案进行补全处理,并将设计方案经补全处理的第二初始分子作为所述预设分子。
6.根据权利要求2所述的方法,其特征在于,所述确定每个所述预设分子的分子描述符,包括:
采用预设算法计算每个所述预设分子的多个分子描述符;
对每个所述预设分子的多个分子描述符进行筛选处理,得到用于表征所述预设分子的一组分子描述符。
7.根据权利要求6所述的方法,其特征在于,对每个所述预设分子的多个分子描述符进行筛选处理,包括:
对于任一分子描述符,当有超过第一阈值数量的预设分子对应的该分子描述符的值相同时,删除该分子描述符;和/或,
对于任一分子描述符,当有预设分子对应的该分子描述符的值与其余预设分子对应的该分子描述符的值之间的差异低于第二阈值时,删除该分子描述符;和/或,
对于任一分子描述符,当有预设分子对应的该分子描述符的值异常时,删除该分子描述符;和/或,
对于任意两个分子描述符,当基于所有预设分子对应的所述两个分子描述符的值计算得到所述两个分子描述符的相关系数高于第三阈值时,删除所述两个分子描述符中的其中一个分子描述符;和/或,
对所有的分子描述符进行降维处理。
8.根据权利要求1-7任一所述的方法,其特征在于,所述根据所述目标分子的分子描述符,确定所述目标分子与预先构建的目标化学空间中各预设分子之间的距离,包括:
根据所述目标分子的分子描述符,确定所述目标分子在预先构建的目标化学空间中的位置;
根据所述目标分子在所述目标化学空间中的位置以及所述目标化学空间中各预设分子的位置,计算得到所述目标分子与各所述预设分子之间的距离。
9.根据权利要求1-7任一所述的方法,其特征在于,所述根据所述目标分子与各所述预设分子之间的距离,从各所述预设分子中确定出候选分子,包括:
根据所述目标分子与各所述预设分子之间的距离,选取距离较小的预设数量或预设比例的预设分子作为候选分子;或者,
根据所述目标分子与各所述预设分子之间的距离,选取距离最小的预设分子作为候选分子。
10.根据权利要求1-7任一所述的方法,其特征在于,当所述候选分子为多个时,所述根据所述候选分子的设计方案,确定所述目标分子的设计方案,包括:
按照预设评分策略对每个所述候选分子的设计方案进行评分,得到每个所述候选分子的设计方案的分数值;
将分数值最高的候选分子的设计方案作为所述目标分子的设计方案。
11.根据权利要求1-7任一所述的方法,其特征在于,当所述候选分子为一个,且所述候选分子的设计方案为多套时,所述根据所述候选分子的设计方案,确定所述目标分子的设计方案,包括:
按照预设评分策略对所述候选分子的每套设计方案进行评分,得到所述候选分子的每套设计方案的分数值;
将分数值最高的设计方案作为所述目标分子的设计方案。
12.一种分子设计方案的确定装置,其特征在于,所述装置包括:
第一获取单元,用于获取待设计的目标分子,并计算所述目标分子的分子描述符;
第一确定单元,用于根据所述目标分子的分子描述符,确定所述目标分子与预先构建的目标化学空间中各预设分子之间的距离;
第二确定单元,用于根据所述目标分子与各所述预设分子之间的距离,从各所述预设分子中确定出候选分子;
第二获取单元,用于获取所述候选分子的设计方案;
第三确定单元,用于根据所述候选分子的设计方案,确定所述目标分子的设计方案。
13.一种电子设备,其特征在于,包括存储器和处理器,所述存储器中存储有程序,所述处理器用于执行所述程序以实现权利要求1至11中任意一项所述的分子设计方案的确定方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至11中任意一项所述的分子设计方案的确定方法。
CN202111511073.3A 2021-12-10 2021-12-10 分子设计方案的确定方法、装置、设备及存储介质 Pending CN114300065A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111511073.3A CN114300065A (zh) 2021-12-10 2021-12-10 分子设计方案的确定方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111511073.3A CN114300065A (zh) 2021-12-10 2021-12-10 分子设计方案的确定方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114300065A true CN114300065A (zh) 2022-04-08

Family

ID=80968084

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111511073.3A Pending CN114300065A (zh) 2021-12-10 2021-12-10 分子设计方案的确定方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114300065A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024012017A1 (zh) * 2022-07-14 2024-01-18 腾讯科技(深圳)有限公司 反应物分子的预测、模型的训练方法、装置、设备及介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030028330A1 (en) * 2001-07-13 2003-02-06 Ailan Cheng System and method for aqueous solubility prediction
US6727100B1 (en) * 1999-10-21 2004-04-27 4Sc Ag Method of identifying candidate molecules
US20110202328A1 (en) * 2009-10-02 2011-08-18 Exxonmobil Research And Engineering Company System for the determination of selective absorbent molecules through predictive correlations
CN103650100A (zh) * 2011-04-28 2014-03-19 菲利普莫里斯生产公司 计算机辅助结构识别
CN108416184A (zh) * 2017-02-09 2018-08-17 清华大学深圳研究生院 化合物的3d展示方法和系统
WO2018234718A1 (fr) * 2017-06-22 2018-12-27 Arianegroup Sas Procédé et dispositif de sélection d'un sous-ensemble de molécules destinées à être utilisées pour prédire au moins une propriété d'une structure moléculaire
WO2019236940A2 (en) * 2018-06-08 2019-12-12 Covestro Llc System, method, and computer program product for predicting properties of a polymer
CN110648725A (zh) * 2019-08-21 2020-01-03 复旦大学 基于结构及药代动力学的物质结构优化指导方法和系统
CN111341390A (zh) * 2020-02-18 2020-06-26 中南大学 定量构效关系辅助匹配分子对分析方法
CN113764054A (zh) * 2021-08-30 2021-12-07 深圳晶泰科技有限公司 一种功能有机晶体材料设计方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6727100B1 (en) * 1999-10-21 2004-04-27 4Sc Ag Method of identifying candidate molecules
US20030028330A1 (en) * 2001-07-13 2003-02-06 Ailan Cheng System and method for aqueous solubility prediction
US20110202328A1 (en) * 2009-10-02 2011-08-18 Exxonmobil Research And Engineering Company System for the determination of selective absorbent molecules through predictive correlations
CN103650100A (zh) * 2011-04-28 2014-03-19 菲利普莫里斯生产公司 计算机辅助结构识别
CN108416184A (zh) * 2017-02-09 2018-08-17 清华大学深圳研究生院 化合物的3d展示方法和系统
WO2018234718A1 (fr) * 2017-06-22 2018-12-27 Arianegroup Sas Procédé et dispositif de sélection d'un sous-ensemble de molécules destinées à être utilisées pour prédire au moins une propriété d'une structure moléculaire
WO2019236940A2 (en) * 2018-06-08 2019-12-12 Covestro Llc System, method, and computer program product for predicting properties of a polymer
US20210233618A1 (en) * 2018-06-08 2021-07-29 Covestro Llc System, method, and computer program product for predicting properties of a polymer
CN110648725A (zh) * 2019-08-21 2020-01-03 复旦大学 基于结构及药代动力学的物质结构优化指导方法和系统
CN111341390A (zh) * 2020-02-18 2020-06-26 中南大学 定量构效关系辅助匹配分子对分析方法
CN113764054A (zh) * 2021-08-30 2021-12-07 深圳晶泰科技有限公司 一种功能有机晶体材料设计方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
AYANA GHOSH ET AL.: "Assessment of machine learning approaches for predicting the crystallization propensity of active pharmaceutical ingredients", CRYSTENGCOMM, vol. 21, no. 8, 28 February 2019 (2019-02-28), pages 1215 - 1223 *
RAJNI M. BHARDWAJ ET AL.: "A random forest model for predicting the crystallisability of organic molecules", CRYSTENGCOMM, vol. 17, no. 23, 1 January 2015 (2015-01-01), pages 4272 - 4275 *
龚俊波 等: "面向智能制造的工业结晶研究进展", 化工学报, vol. 69, no. 11, 31 December 2018 (2018-12-31), pages 4505 - 4517 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024012017A1 (zh) * 2022-07-14 2024-01-18 腾讯科技(深圳)有限公司 反应物分子的预测、模型的训练方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
US9024955B2 (en) Method and system for displaying proiritized live thumbnail of process graphic views
Morisse et al. Hybrid correction of highly noisy long reads using a variable-order de Bruijn graph
US8843504B2 (en) Method and system for updating images in an image database
CN106682213A (zh) 基于Hadoop平台的物联网任务订制方法及系统
WO2018095299A1 (zh) 一种时序数据管理方法、设备和装置
CN114300065A (zh) 分子设计方案的确定方法、装置、设备及存储介质
CN106294219A (zh) 一种设备识别、数据处理方法、装置及系统
CN104378659A (zh) 基于智能电视的个性化推荐方法
CN106933897B (zh) 数据查询方法和装置
CN104933054A (zh) 缓存资源文件的url存储方法及装置、缓存服务器
CN106933908B (zh) 最短路径识别方法及装置
US10509800B2 (en) Visually interactive identification of a cohort of data objects similar to a query based on domain knowledge
CN110008395A (zh) 评论内容的呈现方法、装置、存储介质及终端
WO2017065795A1 (en) Incremental update of a neighbor graph via an orthogonal transform based indexing
CN107085603A (zh) 一种数据处理方法及装置
CN105068879B (zh) 一种查找目标订阅的方法及装置
CN105589683B (zh) 样本抽取方法和装置
WO2023102923A1 (zh) 分子设计方案的确定方法、装置、设备及存储介质
JP6934662B2 (ja) 化合物設計装置と化合物設計方法及び化合物設計プログラム
CN107085576A (zh) 一种流式数据统计算法及装置
US20140143669A1 (en) Method and apparatus for retrieving a media file of interest
JP5528388B2 (ja) 情報推薦装置及び方法及びプログラム
WO2015027868A1 (en) Storing method and apparatus for data acquisition
US10387024B2 (en) Interactive analysis of data based on progressive visualizations
CN111831863A (zh) 数据可视化方法和装置、计算机可读的存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination