CN114842926A - 数据处理方法、装置和模型训练方法、装置和电子设备 - Google Patents
数据处理方法、装置和模型训练方法、装置和电子设备 Download PDFInfo
- Publication number
- CN114842926A CN114842926A CN202210502445.4A CN202210502445A CN114842926A CN 114842926 A CN114842926 A CN 114842926A CN 202210502445 A CN202210502445 A CN 202210502445A CN 114842926 A CN114842926 A CN 114842926A
- Authority
- CN
- China
- Prior art keywords
- training
- molecular
- training data
- data
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 502
- 238000000034 method Methods 0.000 title claims abstract description 82
- 238000003672 processing method Methods 0.000 title claims abstract description 24
- 238000011156 evaluation Methods 0.000 claims description 51
- 238000013461 design Methods 0.000 claims description 25
- 230000008569 process Effects 0.000 claims description 21
- 238000005315 distribution function Methods 0.000 claims description 17
- 238000013210 evaluation model Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 12
- 230000001186 cumulative effect Effects 0.000 claims description 9
- 238000009510 drug design Methods 0.000 claims description 8
- 239000000463 material Substances 0.000 claims description 8
- 125000004429 atom Chemical group 0.000 description 42
- 230000000875 corresponding effect Effects 0.000 description 29
- 238000010586 diagram Methods 0.000 description 26
- 239000003814 drug Substances 0.000 description 21
- 229940079593 drug Drugs 0.000 description 19
- 125000004432 carbon atom Chemical group C* 0.000 description 11
- 230000000694 effects Effects 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 9
- 238000009396 hybridization Methods 0.000 description 9
- 150000003384 small molecules Chemical class 0.000 description 9
- 238000013473 artificial intelligence Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 229910052799 carbon Inorganic materials 0.000 description 6
- 150000002500 ions Chemical group 0.000 description 6
- 239000000126 substance Substances 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 238000013499 data model Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 5
- 238000009509 drug development Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000000873 masking effect Effects 0.000 description 4
- 238000013508 migration Methods 0.000 description 4
- 230000005012 migration Effects 0.000 description 4
- 230000002085 persistent effect Effects 0.000 description 4
- 241000894007 species Species 0.000 description 4
- 208000036142 Viral infection Diseases 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 208000015181 infectious disease Diseases 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 102000004169 proteins and genes Human genes 0.000 description 3
- 108090000623 proteins and genes Proteins 0.000 description 3
- 230000009385 viral infection Effects 0.000 description 3
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 3
- KBPLFHHGFOOTCA-UHFFFAOYSA-N 1-Octanol Chemical compound CCCCCCCCO KBPLFHHGFOOTCA-UHFFFAOYSA-N 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 2
- 125000003118 aryl group Chemical group 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000005094 computer simulation Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 125000004435 hydrogen atom Chemical group [H]* 0.000 description 2
- 229920002521 macromolecule Polymers 0.000 description 2
- 239000002184 metal Substances 0.000 description 2
- 229910052755 nonmetal Inorganic materials 0.000 description 2
- 125000001997 phenyl group Chemical group [H]C1=C([H])C([H])=C(*)C([H])=C1[H] 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000007363 ring formation reaction Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- -1 small molecule compound Chemical class 0.000 description 2
- 230000001988 toxicity Effects 0.000 description 2
- 231100000419 toxicity Toxicity 0.000 description 2
- 208000035143 Bacterial infection Diseases 0.000 description 1
- XDTMQSROBMDMFD-UHFFFAOYSA-N Cyclohexane Chemical compound C1CCCCC1 XDTMQSROBMDMFD-UHFFFAOYSA-N 0.000 description 1
- 102000007399 Nuclear hormone receptor Human genes 0.000 description 1
- 108020005497 Nuclear hormone receptor Proteins 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004774 atomic orbital Methods 0.000 description 1
- 208000022362 bacterial infectious disease Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000003115 biocidal effect Effects 0.000 description 1
- 230000004071 biological effect Effects 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 230000008499 blood brain barrier function Effects 0.000 description 1
- 210000001218 blood-brain barrier Anatomy 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 210000002249 digestive system Anatomy 0.000 description 1
- 238000002651 drug therapy Methods 0.000 description 1
- 239000002355 dual-layer Substances 0.000 description 1
- 230000002526 effect on cardiovascular system Effects 0.000 description 1
- 230000009881 electrostatic interaction Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 201000007102 hereditary spastic paraplegia 6 Diseases 0.000 description 1
- 230000036571 hydration Effects 0.000 description 1
- 238000006703 hydration reaction Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000010410 layer Substances 0.000 description 1
- 150000002632 lipids Chemical class 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000329 molecular dynamics simulation Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 108020004017 nuclear receptors Proteins 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000035699 permeability Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 229940000044 respiratory system drug Drugs 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000007614 solvation Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000009221 stress response pathway Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000002485 urinary effect Effects 0.000 description 1
- 238000003041 virtual screening Methods 0.000 description 1
- 230000005428 wave function Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/50—Molecular design, e.g. of drugs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
Landscapes
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Theoretical Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Data Mining & Analysis (AREA)
- Crystallography & Structural Chemistry (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Medicinal Chemistry (AREA)
- Pharmacology & Pharmacy (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请涉及了一种数据处理方法、装置和模型训练方法、装置和电子设备。该数据处理方法包括:获得训练数据集;确定训练数据集中至少部分训练数据各自的难度系数,以便基于至少部分训练数据各自的难度系数对训练数据集中至少部分数据进行难度分类;其中,训练数据包括分子数据,分子数据的难度系数是基于分子属性和/或模型训练属性来确定的。本申请能够提升预训练模型在目标任务中的精准度。
Description
技术领域
本申请涉及人工智能和计算机仿真技术领域,尤其涉及一种数据处理方法、装置和模型训练方法、装置和电子设备。
背景技术
随着计算机技术和人工智能技术的快速发展,计算机仿真技术被应用到越来越多的场景中,如材料设计、药物设计等。
然而,申请人发现相关技术得到的预训练模型在应用到某一目标任务中时,预测精准度有待提升。
发明内容
为解决或部分解决相关技术中存在的问题,本申请提供一种数据处理方法、装置和模型训练方法、装置和电子设备,能够有效提升预训练模型在特定目标任务中的精准度。
本申请的第一个方面提供了一种数据处理方法,包括:获得训练数据集;确定训练数据集中至少部分训练数据各自的难度系数,以便基于至少部分训练数据各自的难度系数对训练数据集中至少部分数据进行难度分类;其中,训练数据包括分子数据,分子数据的难度系数是基于分子属性和/或模型训练属性来确定的。
本申请的第二个方面提供了一种模型训练方法,包括:获得训练数据集,训练数据集中至少部分训练数据各自具有难度系数,难度系数是基于根据上述数据处理方法来确定的;利用训练数据集中的至少部分训练数据,按照难度系数从低到高的顺序,分轮对待训练模型进行训练。
本申请的第三方面提供了一种分子属性预测方法,包括:获得分子数据;基于所述分子数据,利用如上经训练的所述待训练模型得到的分子预测模型预测得到所述分子数据的分子属性。
本申请的第四方面提供了一种分子属性评价方法,包括:获得分子数据,分子数据具有标签信息;基于分子数据,利用如上述的经训练的待训练模型得到的分子评价模型进行评估,得到分子数据的分子评价结果。
本申请的第五方面提供了一种设计方法,包括:根据如上述的方法,获得分子属性和/或分子评价结果;基于分子属性和/或分子评价结果进行药物设计或者材料设计。
本申请的第六方面提供了一种数据处理装置,包括:训练数据集获得模块,用于获得训练数据集,其中,训练数据包括分子数据;难度系数确定模块,用于确定训练数据集中至少部分训练数据各自的难度系数,以便基于至少部分训练数据各自的难度系数对训练数据集中至少部分数据进行难度分类,其中,分子数据的难度系数是基于分子属性和/或模型训练属性来确定的。
本申请的第七方面提供了一种模型训练装置,包括:训练数据集获得模块,用于获得训练数据集,训练数据集中至少部分训练数据各自具有难度系数,难度系数是基于根据上述数据处理装置来获得的;模型训练模块,用于利用训练数据集中的至少部分训练数据,按照难度系数从低到高的顺序,分轮对待训练模型进行训练。
本申请的第八个方面提供了一种分子属性预测装置,包括:第一分子数据获得模块,用于获得分子数据;分子属性预测模块,用于基于所述分子数据,利用根据上述经训练的待训练模型得到的分子预测模型,预测得到分子数据的分子属性。
本申请的第九个方面提供了一种分子属性评价装置,包括:第二分子数据获得模块,用于获得分子数据,分子数据具有标签信息;分子属性预测模块,用于基于所述分子数据,利用根据上述经训练的待训练模型得到的分子评价模型进行评估,得到分子数据的分子评价结果。
本申请的第十方面提供了一种设计装置,上述装置包括:信息获得模块,用于根据上述分子属性预测装置获得分子属性,和/或根据上述分子属性评价装置获得分子评价结果;设计模块,用于基于分子属性和/或分子评价结果进行药物设计或者材料设计。
本申请的第十一方面提供了一种电子设备,包括:处理器;存储器,其上存储有可执行代码,当上述可执行代码被处理器执行时,使得处理器执行上述方法。
本申请的第十二方面还提供了一种计算机可读存储介质,其上存储有可执行代码,当可执行代码被电子设备的处理器执行时,使处理器执行上述方法。
本申请的第十三方面还提供了一种计算机程序产品,包括可执行代码,可执行代码被处理器执行时实现上述方法。
本申请提供的数据处理方法、装置和模型训练方法、装置和电子设备,通过定义训练数据学习的难度系数,使得能够基于难度系数对训练数据进行难度分类。这样便于用户可以从所需的难度分类中选取所需的训练数据,进行诸如模型训练等应用。
此外,由于得到不同训练数据的难度系数,使得在进行模型训练的过程,可以先利用难度系数低的训练数据进行模型训练,并逐渐进阶到难度系数高的训练数据,以便模型能更好地学习知识,从而由易到难完成整个数据集的训练。上述分阶段按照难度从易到难的方式训练模型,能够有效提升模型训练效果,提升模型预测结果的精准度。
此外,使用诸如竞争函数构造一个单调递增曲线,该单调递增曲线是训练轮数为自变量、训练数据的难度系数为因变量的曲线,通过该曲线对训练数据集进行划分,便于实现在不同时期使用具有对应难度系数的训练数据进行训练。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
通过结合附图对本申请示例性实施方式进行更详细地描述,本申请的上述以及其它目的、特征和优势将变得更加明显,其中,在本申请示例性实施方式中,相同的参考标号通常代表相同部件。
图1示意性示出了根据本申请实施例的可以应用数据处理方法、装置和模型训练方法、装置和电子设备的一种示例性系统架构;
图2示意性示出了根据本申请实施例的数据处理方法的流程图;
图3示意性示出了根据本申请实施例的预测值与标签值之间距离的示意图;
图4示意性示出了根据本申请实施例的分子复杂度与训练轮数之间对应关系的示意图;
图5示意性示出了根据本申请实施例的训练结果与训练轮数之间对应关系的示意图;
图6示意性示出了根据本申请实施例的模型训练方法的流程图;
图7示意性示出了根据本申请实施例的一种获得目标训练数据的过程示意图;
图8示意性示出了根据本申请实施例的另一种获得目标训练数据的过程示意图;
图9示意性示出了根据本申请实施例的模型训练系统的架构图;
图10示意性示出了根据本申请实施例的模型训练过程的示意图;
图11示意性示出了根据本申请实施例的分子属性预测方法的流程图;
图12示意性示出了根据本申请实施例的分子属性评价方法的流程图;
图13示意性示出了根据本申请实施例的设计方法的流程图;
图14示意性示出了根据本申请实施例的数据处理装置的方框图;
图15示意性示出了根据本申请实施例的训练装置的方框图;
图16示意性示出了根据本申请实施例的预测装置的方框图;
图17示意性示出了根据本申请实施例的评价装置的方框图;
图18示意性示出了根据本申请实施例的设计装置的方框图;
图19示意性示出了根据本申请实施例的一种电子设备的方框图。
具体实施方式
下面将参照附图更详细地描述本申请的实施方式。虽然附图中显示了本申请的实施方式,然而应该理解,可以以各种形式实现本申请而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本申请更加透彻和完整,并且能够将本申请的范围完整地传达给本领域的技术人员。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在此使用的术语“包括”、“包含”等表明了特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
应当理解,尽管在本申请可能采用术语“第一”、“第二”、“第三”等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在对本申请的技术方案进行描述之前,先对本申请涉及的本领域的部分技术术语进行说明。
预训练模型,在大批量的无标签数据上,在预先设置的任务上进行预先的无监督的训练得到的模型,而后,该模型将会被用于下游任务的迁移,取得更好的效果。
模型评价指标,用于评价经训练的模型性能。模型评价指标包括但不限于以下至少一种:评价指标决定系数、操作特征曲线(receiver operating characteristic curve,简称ROC曲线)下面积、准确率、召回率、敏感度、特异性、均方根误差(STD)、平均绝对误差。
传统医药研发的特点为漫长和失败率高,如将近四分之三的预研药物都会因功效或安全原因导致失败。相比于计算机辅助药物设计等传统方法,人工智能驱动药物研发(AIDD)方法近年来逐渐受到认可和应用。目前行业内对分子属性预测等业务需求的人工智能(AI)解决方案,可以为基于传统机器学习或者较早期的图神经网络技术,并未发挥深度学习大数据方法的优势。
在这样的背景下,数据成为AIDD发展的瓶颈。尽管某个应用域有大量的无标签信息的数据(如数据有分子序列或结构而没有性质等),但是,有标签信息的数据却非常少。其中,一个应用域可以对应多个目标任务。
通过训练预训练模型,并将其迁移到下游任务的方式,可在只有少量具有标签信息的训练数据的情况下,训练得到预测精度较高的经训练模型。预训练模型已应用于多个工业场景中,如自然语言处理、计算机视觉等。
在药物研发过程中,申请人发现:将预训练模型迁移到下游时,预训练模型的输入数据可能存在数据量少、噪声高、数据之间存在批次效应等问题,这导致迁移至下游的预训练模型的预测精准度无法满足用户需求。由于基于人工智能模型的分子属性预测的精度等较低,无法满足辅助药物等的筛选设计需求。
例如,通过特定表示下的药物分子进行预训练,并将预训练得到的模型用于下游小样本量任务的迁移,是一种针对该场景可能的有效解决方案。在基于人工智能的药物研发领域,已经出现了大量的预训练模型,包括Pretrained-GNN、GROVER等等。相关技术可以通过在下游任务增加网络层数、只调整子网等方式进行预训练模型迁移,但模型预测精度仍然难以满足用户需求。
如何在基于人工智能的药物研发中充分使用预训练模型,使其在下游小样本量的任务上最大效果完成迁移,提高模型表现,尚未有过相应的较为相似的尝试。
本申请实施例中,通过定义训练数据的学习难易程度,在进行模型训练过程中,先利用容易的训练数据进行模型训练,并逐渐进阶到复杂的训练数据和知识,从而由易到难完成整个数据集的训练。通过以上方式有效提升了迁移至目标领域的预训练模型的预测精准度。
以下将通过图1至图19对本申请实施例的一种数据处理方法、装置和模型训练方法、装置和电子设备进行详细描述。
图1示意性示出了根据本申请实施例的可以应用数据处理方法、装置和模型训练方法、装置和电子设备的一种示例性系统架构。需要注意的是,图1所示仅为可以应用本申请实施例的系统架构的示例,以帮助本领域技术人员理解本申请的技术内容,但并不意味着本申请实施例不可以用于其他设备、系统、环境或场景。
参见图1,根据该实施例的系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与其他终端设备和服务器105进行交互,以接收或发送信息等,如发送训练数据(集)请求、模型训练请求、分子属性预测请求、分子设计请求和接收训练数据(集)、模型参数、分子属性和分子结构等。终端设备101、102、103可以安装有各种通讯客户端应用,例如,药物开发应用、材料设计应用、网页浏览器应用、数据库类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等应用等。
终端设备101、102、103包括但不限于智能台式电脑、平板电脑、膝上型便携计算机等等可以支持上网、建模、分析计算、设计等功能的电子设备。
服务器105可以接收训练数据(集)请求、模型训练请求、分子属性预测请求、分子设计请求等,还可以用于发送目标数据、模型训练结果、分子属性和分子结构等给终端设备101、102、103。例如,服务器105可以为后台管理服务器、服务器集群等。
需要说明的是,终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和云端。
图2示意性示出了根据本申请实施例的数据处理方法的流程图。
如图2所示,该实施例提供了一种数据处理的方法,该方法包括操作S210~操作S220,具体如下。
在操作S210中,获得训练数据集。
其中,训练数据集中的训练数据可以有标签信息。训练数据可以包括分子数据,相应地,训练数据集可以包括分子数据集合。例如,训练数据集可以用于对预训练模型进行微调(fine-tune)。又例如,训练数据集可以用于进行预训练。
训练数据集可以通过多种途径获得。例如,训练数据集可为通过公开途径免费获得的所有训练数据集的集合,也可为通过商业购买获得的小分子化合物数据的集合。例如,训练数据集可以是通过商业购买的ZINC15数据集(约含两千万的小分子化合物数据)。例如,训练数据集可以是用户基于历史研发经历积累的分子数据集。
需要说明的是,训练数据集中还可以包括类药小分子数据,该类药小分子数据同样可以通过多种途径获得。例如,可为通过公开途径免费获得的所有类药小分子数据的集合,如具备生物活性的类药小分子数据的CHEMBL数据集等。
在操作S220中,确定训练数据集中至少部分训练数据各自的难度系数,以便基于至少部分训练数据各自的难度系数对训练数据集中至少部分数据进行难度分类。
在本实施例中,在利用某个训练数据进行模型训练时,难度系数可以用于表征模型能够通过机器学习掌握训练数据所隐含的知识的难易程度。例如,如果训练数据包括分子数据,分子数据的难度系数可以是基于分子属性和/或模型训练属性来确定的。
分子属性可以表征分子结构的复杂程度,例如,复杂程度越高的分子,其包含的信息量越大,能够抽象出的知识越多,利用该分子数据进行模型训练的难度系数也相应越高。
例如,分子数据可以符合简化分子线性输入规范(Simplified molecular inputline entry system,简称SMILES)的格式,是一种用ASCII字符串描述分子结构的规范。此外,除了可以将分子结构表示为SMILES之外,还可以将分子表示为MACCS、摩根(Morgan)以及混合指纹等低维描述符,在此不做限定。例如,Morgan指纹可以大致等同于扩展连通性指纹(Extended-Connectivity Fingerprints,ECFPs)。通过使用Morgan指纹可以有效提升计算速度。此外,可以无需经过预定义(可以表示无穷多种不同的分子特征)、可以包含手性信息、指纹中的每个元素代表一种特定子结构、可以方便地进行分析和解释、可以根据不同的需要进行相应的修改等。此外也可以用于相似性搜索、聚类、虚拟筛选等方向。
模型训练属性可以表征利用某些训练数据将待训练模型训练成:满足预测精度要求的模型的难易程度。例如,利用训练数据在越短的时间内训练待训练模型得到越高置信度的输出结果,则该训练数据的训练难度系数越低。
具体地,对于训练数据集中的至少部分训练数据中的每一个,确定训练数据集中至少部分训练数据各自的难度系数可以包括如下操作。
首先,获得训练数据的至少一个难度特征,难度特征包括:分子复杂度特征或者训练结果特征中至少一种。然后,基于至少一个难度特征确定训练数据的难度系数。
例如,分子复杂度特征包括:原子数、键数、特定种类杂化原子数量、特定种类杂化原子占比、成环原子数、成环原子占比、手性原子占比中至少一种。
其中,原子数可以指与分子数据对应的分子中包括的特定种类原子的原子数或者所有种类原子的总原子数。例如,对于有机分子,上述原子数可以仅包括碳原子个数,也可以是碳原子和氢原子的总个数等。
键数可以是指特定种类化学键和/或物理键的数量。其中,化学键包括但不限于离子键和共价键。离子键是电负性很小的金属原子和电负性很大的非金属离原子相互靠近时,金属原子失电子形成正离子,非金属离原子得到原子形成负离子,由正、负离子靠静电引力形成的化学键。共价键是分子内原子间通过共用电子对(电子云重叠)所形成的化学键。此外,还可以对离子键和/或共价键进行细分,以研究用户所关注的特定种类的键,如共价键还可以细化为杂化键,如sp3杂化键。
特定种类杂化原子数量是指杂化的原子的数量。在成键的过程中,由于原子间的相互影响,同一分子中几个能量相近的不同类型的原子轨道(即波函数),可以进行线性组合,重新分配能量和确定空间方向,组成数目相等的新原子轨道,这种轨道重新组合的方式称为杂化(Hybridization),杂化后形成的新轨道称为杂化轨道(Hybrid Orbital)。按参加杂化的原子轨道种类,轨道杂化有sp和spd两种主要类型,分为sp,sp2,sp3,dsp2,sp3d,sp3d2,d2sp3。
例如,特定种类杂化原子数量可以是sp3碳的数量。sp3杂化,是指同一原子内由1个ns轨道和3个np轨道参与的杂化,所形成的4个杂化轨道称sp3杂化轨道。各含有1/4的s成分和3/4的p成分,杂化轨道间的夹角为109°28',空间构型为正四面体。例如,环己烷的sp3碳原子的三维性质提供了一个优势,可以探测与环平面正交的药效团或骨架区域。
成环原子,比如苯环,其骨架主要是由六个碳原子C构成,六个C由一个大π键链接在一起,在结构式上表现为两两相隔的双键,而其氢原子H,是接在C原子上,没有参与构成苯环的骨架,所以是六元环。成环原子数可以包括与分子数据对应的分子中所有成环的原子的个数。
手性原子,也可以手性碳原子(chiral carbon atom),是指与四个各不相同原子或基团相连的碳原子,用C*表示。绝大多数的药物由手性分子(其包括手性原子)构成。药物分子与人体组织的作用是很复杂的。有的是小分子之间的化学反应,有些是药物小分子与蛋白质大分子之间的化学反应,有些则是药物小分子与蛋白质大分子之间的静电相互作用。这样,由于人体组织的蛋白质上都有不对称碳原子,所以许多能够与人体组织起药理作用的药物分子往往必须持某一个特定的手性。
在某些实施例中,训练结果特征可以包括:预测值与标签值之间距离、样本不确定性中至少一种。
其中,预测值与标签值之间距离是指利用经训练的模型处理有标签数据后,得到的预测结果与该标签之间的距离。图3示意性示出了根据本申请实施例的预测值与标签值之间距离的示意图。
参见图3,分子结构1是标注信息(正确预测结果),分子结构2是基于第一训练数据得到的经训练模型的预测结果,分子结构3是基于第二训练数据得到的经训练模型的预测结果。图3中可以看出预测的分子结构2和分子结构3与分子结构1比较相似,但是都存在一定的偏差。但是,相对而言,分子结构2和分子结构1之间的相似度比分子结构3和分子结构1之间的相似度要高。因此,第一训练数据的难度系数要比第二训练数据的难度系数高。
图3中示出了预测结果与真实结果之间存在偏差的场景。在某些场景中,利用第一训练数据得到的经训练模型的预测结果和真实结果之间是相符的,利用第二训练数据得到的经训练模型的预测结果和真实结果之间也是相符的。此时,可以基于样本不确定性来对第一训练数据和第二训练数据进行难度系数划分。
以下对样本不确定性的确定方式进行示例性说明。
假设训练数据集X={x1,x2,……,xn},xi∈Rd,属于m类,即f(xi)∈{y1,y2,……,ym}。其中,xi是训练数据,ym是标签信息。
与训练数据对应的预测结果的后验概率值大小,可以表明预测结果的置信度。例如,训练数据属于某一类的可能性越小,不确定性越大。xi后验概率xi*如式(1)所示。
即只考虑xi后验概率最大的类别,将这个类别的可能性作为信任度。
将xi后验概率xi*应用到针对训练数据的不确定性计算中时,可以采用式(2)进行计算。
x*=argmaxi=1,2,……,n-∑P(yi|xi)logP(yi|xi) 式(2)
其中,其中P(yj|xi)表示xi中属于第j类的可能性。基于熵的方法考虑了训练数据属于每种类别的可能性,以此来衡量训练数据的不确定性,所以在多类问题中更加适用。当训练数据被划分到各类的可能性相同时,得到的熵值最大,即认为这种训练数据的不确定性最大,而当处理两类问题时,每种类别的后验概率相差越大,则认为这种训练数据的不确定性最小。
此外,为了更好地应用于多类问题,每个样例对各个类别的可能性都有一个评分值,挑选第一预测类别和第二预测类别差值最小的样例进行标注,即为基于Margin的挑选标准,如式(3)所示。
具体地,样本不确定性可以通过如下方式得到:对于当前训练数据,计算该当前训练数据的预测概率值与决策概率阈值之间的差值。
例如,经第一训练数据进行训练的模型1的预测结果包括:输出第一结果(正确结果)的置信度是90%,输出第二结果(错误结果)的置信度是10%(如可以理解为不确定度约10%,以上仅为示例,还可以输出更多结果)。经第二训练数据进行训练的模型2的预测结果包括:输出第一结果(正确结果)的置信度是60%,输出第二结果(错误结果)的置信度是40%(如可以理解为不确定度约40%)。在该实施例中,虽然模型1和模型2输出的结果都是第一结果,但是,相对而言,模型1能输出置信度更高的正确结果。这也表明采用第一训练数据对待训练模型进行训练的效果更好,相应地,第一训练数据相对于第二训练数据的训练难度更低。
在一个具体实施例中,定义训练数据的难度系数,并根据训练数据的难度系数给出一个难度系数计算累计分布函数。
例如,难度系数计算累计分布函数中可以包括如下所示的多种变量作为难度系数或者难度值。
变量1:原子的原子数Num(Atoms)+键数Num(Bonds)。说明,该变量1更适于1000个分子以内时使用。
变量2:分子中sp3碳的个数。
变量3:分子的复杂性MCE18指数,如可以通过公式(4)来确定。需要说明的是,可以基于分子的复杂性MCE18指数确定难度系数,如对MCE18指数进行函数运算处理等。
MCE18=QINDEX*(2*Fsp3Ring/(1+Fsp3)+Int(AR>0)+int(AR<NRING)+int(CHIRALC)+int(SPIRO>0) 式(4)
其中,QINDEX:分子内每一个原子的成键数的平方/2–2后求和。
分子内芳香碳的比例AR,该比例=芳香碳原子数/分子内所有的碳原子数。
分子内螺环原子的个数SPIRO。
分子内的成环数NRING。
分子内环中SP3原子占全分子中的碳原子比例FSP3RING。
分子内手性原子占分子内所有原子数的比例CHIRALC。
变量4:标签距离(LabelDistance),在训练一次后计算模型的预测值和标签值的距离的绝对值,定义该绝对值为难度系数。说明,变量4更适于1000个分子以上时使用。
上述变量1~变量4可以择一作为难度系数,也可以按照各自的权重系数进行加权求和或者加权求平均,在此不做限定。
在某些实施例中,为了进一步提升训练模型时按照训练轮数获得具有特定难度系数的训练数据的便捷度,还可以确定训练轮数和难度系数之间的对应关系。
具体地,上述方法还可以包括如下操作,确定难度系数与训练轮数之间的对应关系,以便在针对待训练模型的特定训练轮数,确定与该特定训练轮数对应的难度系数和/或训练数据。
其中,难度系数和训练轮数之间可以正相关,如随着训练轮数的增加,可以采用具有更高难度系数的训练数据。这样便于采用难度系数低的训练数据在初期对待训练模型进行训练,如可以提升初期模型的鲁棒性等。
在某些实施例中,确定难度系数与训练轮数之间的对应关系可以包括如下操作,基于难度系数的累计分布函数确定难度系数与训练轮数之间的对应关系,其中,难度系数的累计分布函数的变量包括难度分布函数竞争系数和训练轮数,或者变量包括难度分布函数竞争系数以及以下至少一种:当前训练轮数、总训练轮数、难度系数的指数幂中至少一种。
在一个具体实施例中,在定义了难度系数的原始值之后,可以定义随着训练轮数变化的难度系数计算累计分布函数c(t)。例如,c(t)的计算公式可以如式(5)所示。
其中,c0是分布函数竞争常数,根据难度系数的累计分布函数取值,范围为0-1。
p是难度系数开方的幂次数,其取值可以为1-4,越大表示越随机采样(分布)的数据进行训练,越小表示越按难度系数采样(分布)的数据进行训练。
T是总的训练轮数,根据每次训练的一批次样本数和总样本数计算为:100*(总样本数/一批次样本数)。
t是当前训练轮数。
图4示意性示出了根据本申请实施例的分子复杂度与训练轮数之间对应关系的示意图。
参见图4,示出了三组训练数据,其中,最下方一行为第一组训练数据的相关信息,中间一行为第二组训练数据的相关信息,最上方一行为第三组训练数据的相关信息。
第一组训练数据中的分子结构最简单,如没有成环、原子数较少、键数较少。第一组训练数据的难度系数最低,可以作为第一轮的训练数据。
第二组训练数据中的分子结构可以比第一组训练数据中的分子结构复杂一些,如有手性碳原子、存在sp3杂化等。第二组训练数据的难度系数高于第一组训练数据的难度系数,可以作为第二轮的训练数据。
第三组训练数据中的分子结构可以比第二组训练数据中的分子结构更加复杂。如分子内的原子数超过1000、存在sp3杂化等。第三组训练数据的难度系数最高,可以作为第三轮的训练数据。
图5示意性示出了根据本申请实施例的训练结果与训练轮数之间对应关系的示意图。
参见图5,示出了三组训练数据,其中,最下方一行为第一组训练数据的相关信息,中间一行为第二组训练数据的相关信息,最上方一行为第三组训练数据的相关信息。
例如,与第一组训练数据模型对应的输出结果的置信度较高等,可以作为第一轮的训练数据。例如,与第二组训练数据模型对应的输出结果的置信度,高于与第一组训练数据模型对应的输出结果的置信度,第二组训练数据可以作为第二轮的训练数据。例如,与第三组训练数据模型对应的输出结果的置信度,可以高于与第二组训练数据模型对应的输出结果的置信度,第三组训练数据可以作为第三轮的训练数据。
本申请实施例通过给训练数据定义机器学习的难易程度,使得待训练模型的训练过程中,可以先从容易的训练数据开始学习,并逐渐进阶到复杂的训练数据和知识,从而由易到难完成整个训练数据集的训练。
此外,使用竞争函数(如仅与当前训练轮数相关)构造了一个单调递增曲线,该曲线是训练轮数为自变量、训练数据难度为因变量的曲线,通过该曲线便于对训练数据集进行划分,在不同的训练轮数使用不同的数据集,提升了获得具有特定难度系数的训练数据的便捷度。
本申请在另一个方面还提供了一种模型训练方法。
图6示意性示出了根据本申请实施例的模型训练方法的流程图。
参见图6,该模型训练方法可以包括操作S610~操作S620。
在操作S610,获得训练数据集,训练数据集中至少部分训练数据各自具有难度系数,难度系数是基于根据上述数据处理方法来确定的。例如,训练数据集可以包括多个训练数据子集合,每个训练数据子集合可以分别具有不同的难度系数。例如,训练数据集中每个训练数据各自具有难度系数,以便基于训练数据各自具有难度系数选取具有特定难度系数的训练数据。
利用训练数据集中的至少部分训练数据,按照难度系数从低到高的顺序,分轮对待训练模型进行训练。
将上述数据处理方法中获得的具有难度系数信息的训练数据用于预训练模型的微调,通过定义数据的难度来对应微调的难度,按照难度的难易程度进行微调,有效提升了模型训练效果。
在某些实施例中,利用训练数据集中的至少部分训练数据,按照难度系数从低到高的顺序,分轮对待训练模型进行训练可以包括如下操作。
首先,基于难度系数与训练轮数之间的对应关系确定与当前训练轮数对应的难度系数。例如,当前训练轮数是第一轮,则可以选取难度系数较低的训练数据。
然后,基于难度系数从训练数据集中获取与难度系数对应的子训练数据集,其中,子训练数据集是基于训练数据的难度系数从训练数据集中获取的数据集。
接着,基于子训练数据集中的训练数据对待训练模型进行训练。
图7示意性示出了根据本申请实施例的一种获得目标训练数据的过程示意图。
参见图7,以目标任务1为例进行说明,可以针对目标任务1中的多个训练数据进行难度分类,得到多个子数据集,如虚线方框所示。每个虚线方框中的训练数据具有相同的特定难度系数,以便获取针对目标任务1中具有特定难度系数的训练数据。例如,图7中的训练数据1、2、7、8、13、14等所在的子数据集可以被表征为具有第一难度系数的训练数据子集合。训练数据3、4、9、10、15、16等所在的子数据集可以被表征为具有第三难度系数的训练数据子集合。训练数据5、6、11、12、17、18所在的子数据集可以被表征为具有第二难度系数的训练数据子集合。
需要说明的是,上述多个子数据集被存储在了相同或相邻的存储空间中,上述多个子数据集也可以各自分别被存储在不同的存储空间(如不同的数据库、数据表)中,在此不做限定。
本实施例通过选取与难度系数对应的子训练数据集,并且从子训练数据集中选取特定个数的候选数据作为特定训练轮数的训练数据,有效提升了获得具有特定难度系数的训练数据的便捷度,并且便于利用具有特定难度系数的训练数据(集)进行模型训练。
在某些实施例中,也可以在需要进行模型训练时,直接基于难度系数从训练数据集中选取所需的训练数据。
具体地,利用训练数据集中的至少部分训练数据,按照难度系数从低到高的顺序,分轮对待训练模型进行训练可以包括如下操作。
首先,基于难度系数与训练轮数之间的对应关系确定与当前训练轮数对应的难度系数。
然后,从训练数据集中获取与难度系数对应的目标训练数据。
接着,基于目标训练数据对待训练模型进行训练。
图8示意性示出了根据本申请实施例的另一种获得目标训练数据的过程示意图。
参见图8,用户可以从针对目标任务2的训练数据中先选取训练数据1,将其作为候选数据1,然后确定候选数据1的难度系数。如果难度系数不符难度系数要求,则可以确定训练数据1是非目标数据。例如,用户还可以选取训练数据5,将其作为候选数据5,然后确定候选数据5的难度系数。如果相似度满足相似度要求,则可以确定训练数据5是目标数据。
在某些实施例中,待训练模型包括预训练模型,训练数据存在对应的标签信息。
模型预训练是在一个原始任务(如某个或某些应用域)上预先训练一个初始模型,然后在目标任务上使用该模型,针对目标任务的特性,对该初始模型进行精调,从而达到提高目标任务的目的。在本质上,模型预训练是一种迁移学习的方法,在自己的目标任务上使用别人训练好的模型。
为了便于理解应用域和目标任务之间的关系,进行如下示例性说明。与分子数据对应的分子可以被应用于至少一种应用域。例如,应用域可以指分子可以被应用的领域,如药物治疗、造影、保健等。当然,还可以对应用域进行细分,如药物治疗的应用域还可以进一步分为:感染治疗、特定疾病治疗、免疫力增强治疗等。其中,感染治疗还可以进一步分为:病毒感染治疗、细菌感染治疗、特定类型病毒感染治疗(其可以理解为目标任务)。特定疾病治疗还可以进一步分为:抗生素类药品、心脑血管用药、消化系统用药、呼吸系统用药、泌尿系统用药、血液系统用药等。例如,可以使用具有丰富训练数据的针对感染治疗的药物数据库进行预训练,然后再利用针对病毒感染的药物数据库对经训练的预训练模型进行微调,以提升模型训练效果。
本实施例中可以适用于已经获得预训练模型的情况,通过对预训练模型进行微调(如按照不同训练数据各自的难度系数分轮进行微调)来提升针对目标任务的预测精准度。例如,预训练模型可以是下载的由第三方提供的预训练模型。例如,预训练模型还可以是对第三方提供的预训练模型,再经过特定应用域的训练数据进行二次预训练后,得到的经调整的预训练模型。
在某些实施例中,在训练预训练模型的过程中,可以加入上下文预测、属性屏蔽(Attribute masking)、图级别motif预测等任务。
例如,属性屏蔽通过屏蔽掉原子或边的属性并预测该位置屏蔽掉的内容。具体地,可以随机遮蔽了每个输入字符串中10%的标识符(token)。为了防止过拟合,可以采用早停方式训练了5个训练过程epoch(前向计算+反向传播)。在学习恢复屏蔽标识符(masktoken)时,该模型形成了一个化学空间的表征拓扑结构,可以应用到不同的分子属性预测任务中。
例如,上下文预测用于预测与给定中心词相对应的上下文词。例如,在Skip-gram中,中心词是输入词(input word),上下文词是输出词(output word)。
在本实施例中,预训练模型可以是如下所示的两种模型:如利用现有的模型(例如开源模型)的参数赋值获得的模型。又例如,基于开源模型经过迁移后的预训练模型。
例如,在一个原始任务上预先训练一个初始模型,然后在目标任务上使用该模型。在进行模型微调过程中,可以按照训练数据的难度系数选取与当前训练轮数对应的训练数据,以便分轮采用不同难度系数的训练数据对预训练模型进行微调,从而有助于提高模型预测结果的准确度。
上述的预训练模型的架构包括但不限于:图同构网络(GIN)、图注意力网络(GAT)、图聚合网络(GraphSage)、图卷积网络(GCN)。
例如,图同构网络的图表征学习主要包含以下两个过程:首先计算得到节点表征。然后,对图上各个节点的表征做图池化(Graph Pooling),或称为图读出(Graph Readout),得到图的表征(Graph Representation)。
为了便于理解,对首次预训练过程进行如下说明。原始模型可以为Contextpred模型或者GROVER模型等。对于Contextpred模型,可以添加包括上下文预测和属性屏蔽两个自监督任务。例如,预测中心节点周围一定范围内的相邻节点和预测被随机屏蔽的节点/边。对于GROVER模型,可以添加包括上下文预测和图级别motif(小分子中重要的功能片段)预测两个无监督任务。例如,输入目标原子/键预测相邻原子/键信息和预测Rdkit(RationalDiscovery Kit)检测出的motif是否出现。通过预训练自监督学习,使得Contextpred模型和GROVER模型对分子空间全局特征有所掌握,实现首次预训练过程。
图9示意性示出了根据本申请实施例的模型训练系统的架构图。
参见图9,训练数据集可以为下游任务数据集,其中,训练数据集中的训练数据可以是用于对预训练模型进行微调(Fine-tune)的数据。如moleculenet及其他理化数据集。微调过程可以如下所示,首先,可以对训练数据集中的训练数据进行难度分析,得到对应的难度系数。然后基于竞争曲线对与难度系数对应的训练数据进行划分,得到多个具有不同难度系数的训练数据子集合,以便进行叠代(Iteration)训练。在特定训练轮数时,从与该特定训练轮数对应的训练数据子集合中进行抽样,得到该特定训练轮数需要使用的训练数据。这样就可以实现利用具有不同难度系数的训练数据分轮对预训练模型进行微调,得到微调后的下游模型。
在某些实施例中,分轮对待训练模型进行训练可以包括:添加线性分类器或者多层感知器给经调整的多个预训练模型,得到一个或多个待调整的分子预测模型或者分子评价模型。需要说明的是,针对不同的训练数据和模型结构,可以分别实现分子属性预测或者分子评估等不同功能。
例如,对于每一轮训练过程,采用无标签信息的训练数据对一个或多个待调整的分子预测模型的模型参数进行调整,得到一个或多个经调整的分子预测模型。
例如,对于每一轮训练过程,采用具有标签信息的训练数据对一个或多个待调整的分子评价模型的模型参数进行调整,得到一个或多个经调整的分子评价模型。
图10示意性示出了根据本申请实施例的模型训练过程的示意图。
参见图10,利用无标签的训练数据进行预训练,得到预训练模型。然后可以利用目标任务对应的无标签训练数据按照从易到难的顺序对预训练模型进行分轮训练,得到经调整模型,以进行预测任务。此外,可以利用目标任务对应的有标签训练数据对预训练模型进行微调,得到经调整模型,该经调整模型可以用于评价任务等。
本实施例中,根据所定义的难度系数来定义训练数据取样顺序,来实现针对下游任务对预训练模型进行分轮微调。可以在不增加过多训练任务的基础上,有效提升模型训练效果。
为了确定各实施例得到的经调整的预训练模型的效果,测试如下。
具体地,使用的数据集包括来自于MoleculeNet以及申请人内部的物理化学性质的数据集,如表一所示。表一中包括记录分子的溶剂化能的Freesolv数据集、记录分子的溶解度的数据集ESOL、记录分子渗透性的Caco2数据集以及记录分子脂溶性的Lipolicity数据集。
表一
其中,FreeSolv数据集,包含小分子在水中的水化自由能的实验值,这些数值可以是通过分子动力学模拟得到的。ESOL数据集,包含常见的有机小分子的水溶性数据(例如:对数溶解度,摩尔/升)。Lipophilicity数据集,包含已知分子的辛醇或水分配系数的实验结果,辛醇或水分配系数反映了分子的溶解度。此外,还可以采用如下所示的数据集。例如,BBBP数据集,包含测得的穿透血脑屏障的分子的数据集。ClinTox数据集,包括由FDA批准的药物和那些由于毒性原因导致临床试验失败的药物的数据。Tox21数据集,包括已测量过的化合物对12个不同目标的毒性的数据,包括核受体和应激反应途径的实验测量结果。HIV数据集,包括为实验测定的具有抑制HIV复制能力的小分子的数据。
在p=2的情况下,最高可提升20%,最低也可提升1.304%,说明在事先定义训练数据的难度系数,再让模型根据该难度进行由易到难的训练,更有利于预训练模型迁移到下游任务。
上述的预设评价指标可以包括以下至少之一:评价指标决定系数,ROC曲线下面积,准确率,召回率,敏感度,特异性,均方根误差,平均绝对误差。
其中,均方根误差RMSE的计算公式如式(6)所示。
决定系数R2的计算公式如式(7)所示。
R2=SSR/SST=1-SSE/SST 式(7)
其中,总平方和(total sum of squares,简称SST),回归平方和(regression sumof squares,简称SSR),残差平方和(error sum of squares,简称SSE)。
此外,可以采用平均值(MEAN)和均方根误差(STD)等进行评价。
表二
表三
表四
表五
本申请实施例中,通过定义训练数据学习的难易程度,使得在进行模型微调过程中,模型可以先从容易的训练数据开始学习,并逐渐进阶到复杂的训练数据和知识,从而由易到难完成整个数据集的训练,有效提升了模型训练效果和模型预测结果的精准度。
本申请的另一方面还提供了一种分子属性预测方法。
图11示意性示出了根据本申请实施例的分子属性预测方法的流程图。
参见图11,该分子属性预测方法可以包括操作S1110~操作S1120。
在操作S1110,获得分子数据。
在操作S1120,基于该分子数据,利用如上述经训练的待训练模型得到的分子预测模型,预测得到分子数据的分子属性。
分子属性可为分子基于数据的结构功能分数,在本申请中预测的分子属性包括但不限于水溶性的分子生理、生化、生物物理性质等。在进行分子属性预测时,需要一个已经微调好的模型。然后将分子数据输入到经过微调的模型中,可以获得分子的属性预测。
在某些实施例中,分子数据具有标签信息,上述方法还可以包括:基于分子数据,利用经训练的待训练模型得到的分子评价模型进行评估,得到分子数据的分子评价结果。
例如,当前分子数据对应的分子是否为针对某种疾病的潜在有效药物。该评价结果可以为是或者否,也可以为打分结果,在此不做限定。
本申请的另一方面还提供了一种分子属性预测方法。
图12示意性示出了根据本申请实施例的分子属性评价方法的流程图。
参见图12,该分子属性预测方法可以包括操作S1210~操作S1220。
在操作S1210,获得分子数据,该分子数据具有标签信息。
在操作S1220,基于该分子数据,利用上述经训练的待训练模型得到的分子评价模型进行评估,得到所述分子数据的分子评价结果。其中,分子评价结果可以如上所示。
本实施例中按照训练数据从易到难的顺序,采用分轮的方式微调下游任务,有效提升了分子属性预测和分子评估的准确度。
本申请另一方面还提供了一种设计方法。
图13示意性示出了根据本申请实施例的设计方法的流程图。
参见图13,上述设计方法可以包括操作S1310~操作S1320。
在操作S1310,获得分子属性和/或分子评价结果。具体可以参考如上相关实施例,在此不再赘述。
在操作S1320,基于分子属性和/或分子评价结果进行药物设计或者材料设计。
本实施例中采用具有较高置信度的分子属性和分子评估结果进行设计,如医药开发等,能够有效提升设计效率和成功率。
本申请另一方面还提供了一种数据处理装置。
图14示意性示出了根据本申请实施例的数据处理装置的方框图。
参见图14,该数据处理装置1400可以包括:训练数据集获得模块1410和难度系数确定模块1420。
其中,训练数据集获得模块1410用于获得训练数据集,其中,训练数据包括分子数据。
难度系数确定模块1420用于确定训练数据集中至少部分训练数据各自的难度系数,以便基于至少部分训练数据各自的难度系数对训练数据集中至少部分数据进行难度分类,其中,分子数据的难度系数是基于分子属性和/或模型训练属性来确定的。
在某些实施例中,难度系数确定模块1420包括难度特征获得单元和难度系数确定单元。
其中,难度特征获得单元用于获得训练数据的至少一个难度特征,难度特征包括:分子复杂度特征或者训练结果特征中至少一种。
难度系数确定单元用于基于至少一个难度特征确定训练数据的难度系数。
在某些实施例中,分子复杂度特征包括:原子数、键数、特定种类杂化原子数量、特定种类杂化原子占比、成环原子数、成环原子占比、手性原子占比中至少一种。
训练结果特征包括:预测值与标签值之间距离、样本不确定性中至少一种。
在某些实施例中,样本不确定性通过如下方式得到:对于当前训练数据,计算该当前训练数据的预测概率值与决策概率阈值之间的差值。
在某些实施例中,上述装置1400还包括:对应关系确定模块,用于确定难度系数与训练轮数之间的对应关系,以便在针对待训练模型的特定训练轮数,确定与该特定训练轮数对应的难度系数和/或训练数据。
在某些实施例中,对应关系确定模块具体用于基于难度系数的累计分布函数确定难度系数与训练轮数之间的对应关系,其中,难度系数的累计分布函数的变量包括难度分布函数竞争系数和训练轮数,或者变量包括难度分布函数竞争系数以及以下至少一种:当前训练轮数、总训练轮数、难度系数的指数幂中至少一种。
本申请另一方面还提供了一种模型训练装置。
图15示意性示出了根据本申请实施例的训练装置的方框图。
参见图15,该模型训练装置1500可以包括:训练数据集获得模块1510和模型训练模块1520。
训练数据集获得模块1510用于获得训练数据集,训练数据集中至少部分训练数据各自具有难度系数,难度系数是基于上述数据处理装置来获得的。
模型训练模块1520用于利用训练数据集中的至少部分训练数据,按照难度系数从低到高的顺序,分轮对预训练模型进行训练。
本申请另一方面还提供了一种分子属性预测装置。
图16示意性示出了根据本申请实施例的预测装置的方框图。
参见图16,该分子属性预测装置1600可以包括:第一分子数据获得模块1610和分子属性预测模块1620。
第一分子数据获得模块1610用于获得分子数据。
分子属性预测模块1620用于基于分子数据,利用根据如上经训练的待训练模型得到的分子预测模型,预测分子数据的分子属性。
在某些实施例中,上述预测装置1600还可以包括:评价模型训练模块,用于利用如上经训练的待训练模型得到的分子评价模型进行评估,得到分子数据的分子评价结果。
本申请另一方面还提供了一种评价装置。
图17示意性示出了根据本申请实施例的评价装置的方框图。
参见图17,该评价装置1700可以包括:第二分子数据获得模块1710和分子属性评价模块1720。
第二分子数据获得模块1710用于获得分子数据,该分子数据具有标签信息。
分子属性评价模块1720用于基于分子数据,利用根据如上经训练的待训练模型得到的分子评价模型进行评估,得到分子数据的分子评价结果。
本申请另一方面还提供了一种设计装置。
图18示意性示出了根据本申请实施例的设计装置的方框图。
参见图18,该预测装置1800可以包括:信息获得模块1810和设计模块1820。
信息获得模块1810用于根据如上分子属性预测装置获得分子属性,和/或,根据如上述分子属性评价装置获得分子评价结果。
设计模块1820用于基于分子属性和/或分子评价结果进行药物设计或者材料设计。
关于上述实施例中的装置1400、1500、1600、1700、1800,其中各个模块、单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不再做详细阐述说明。
本申请的另一方面还提供了一种电子设备。
图19示意性示出了根据本申请实施例的一种电子设备的方框图。
参见图19,电子设备1900包括存储器1910和处理器1920。
处理器1920可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器1910可以包括各种类型的存储单元,例如系统内存、只读存储器(ROM)和永久存储装置。其中,ROM可以存储处理器1920或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中,永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中,永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备,例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外,存储器1910可以包括任意计算机可读存储媒介的组合,包括各种类型的半导体存储芯片(例如DRAM,SRAM,SDRAM,闪存,可编程只读存储器),磁盘和/或光盘也可以采用。在一些实施方式中,存储器1910可以包括可读和/或写的可移除的存储设备,例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM,双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等)、磁性软盘等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。
存储器1910上存储有可执行代码,当可执行代码被处理器1920处理时,可以使处理器1920执行上文述及的方法中的部分或全部。
此外,根据本申请的方法还可以实现为一种计算机程序或计算机程序产品,该计算机程序或计算机程序产品包括用于执行本申请的上述方法中部分或全部步骤的计算机程序代码指令。
或者,本申请还可以实施为一种计算机可读存储介质(或非暂时性机器可读存储介质或机器可读存储介质),其上存储有可执行代码(或计算机程序或计算机指令代码),当可执行代码(或计算机程序或计算机指令代码)被电子设备(或服务器等)的处理器执行时,使处理器执行根据本申请的上述方法的各个步骤的部分或全部。
以上已经描述了本申请的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其他普通技术人员能理解本文披露的各实施例。
Claims (22)
1.一种数据处理方法,其特征在于,包括:
获得训练数据集;
确定所述训练数据集中至少部分训练数据各自的难度系数,以便基于所述至少部分训练数据各自的难度系数对所述训练数据集中至少部分数据进行难度分类;
其中,所述训练数据包括分子数据,所述分子数据的难度系数是基于分子属性和/或模型训练属性来确定的。
2.根据权利要求1所述的数据处理方法,其特征在于,所述确定所述训练数据集中至少部分训练数据各自的难度系数,包括:对于所述训练数据集中的至少部分训练数据中的每一个,
获得所述训练数据的至少一个难度特征,所述难度特征包括:分子复杂度特征或者训练结果特征中至少一种;
基于所述至少一个难度特征确定所述训练数据的难度系数。
3.根据权利要求2所述的数据处理方法,其特征在于:
所述分子复杂度特征包括:原子数、键数、特定种类杂化原子数量、特定种类杂化原子占比、成环原子数、成环原子占比、手性原子占比中至少一种;
所述训练结果特征包括:预测值与标签值之间距离、样本不确定性中至少一种。
4.根据权利要求3所述的数据处理方法,其特征在于,所述样本不确定性通过如下方式得到:对于当前训练数据,计算该当前训练数据的预测概率值与决策概率阈值之间的差值。
5.根据权利要求1至4任一项所述的数据处理方法,其特征在于,还包括:
确定难度系数与训练轮数之间的对应关系,以便在针对待训练模型的特定训练轮数,确定与该特定训练轮数对应的难度系数和/或训练数据。
6.根据权利要求5所述的数据处理方法,其特征在于,所述确定难度系数与训练轮数之间的对应关系,包括:
基于难度系数的累计分布函数确定难度系数与训练轮数之间的对应关系,其中,所述难度系数的累计分布函数的变量包括难度分布函数竞争系数和训练轮数,或者所述变量包括难度分布函数竞争系数以及以下至少一种:当前训练轮数、总训练轮数、难度系数的指数幂中至少一种。
7.一种模型训练方法,其特征在于,包括:
获得训练数据集,所述训练数据集中至少部分训练数据各自具有难度系数,所述难度系数是基于根据权利要求1至5任一项所述的数据处理方法来确定的;
利用所述训练数据集中的至少部分训练数据,按照难度系数从低到高的顺序,分轮对所述待训练模型进行训练。
8.根据权利要求7所述的模型训练方法,其特征在于,所述利用所述训练数据集中的至少部分训练数据,按照难度系数从低到高的顺序,分轮对所述待训练模型进行训练,包括:
基于难度系数与训练轮数之间的对应关系确定与当前训练轮数对应的难度系数;
从所述训练数据集中获取与所述难度系数对应的目标训练数据;
基于所述目标训练数据对待训练模型进行训练。
9.根据权利要求7所述的模型训练方法,其特征在于,所述利用所述训练数据集中的至少部分训练数据,按照难度系数从低到高的顺序,分轮对所述待训练模型进行训练,包括:
基于难度系数与训练轮数之间的对应关系确定与当前训练轮数对应的难度系数;
基于所述难度系数从所述训练数据集中获取与所述难度系数对应的子训练数据集,其中,所述子训练数据集是基于训练数据的难度系数从所述训练数据集中获取的数据集;
基于所述子训练数据集中的训练数据对待训练模型进行训练。
10.根据权利要求7所述的模型训练方法,其特征在于,所述待训练模型包括预训练模型,所述训练数据存在对应的标签信息。
11.根据权利要求7所述的模型训练方法,其特征在于,所述分轮对所述待训练模型进行训练,包括:
添加线性分类器或者多层感知器给经调整的多个预训练模型,得到一个或多个待调整的分子预测模型或者分子评价模型;
对于每一轮训练过程,采用无标签信息的训练数据对一个或多个待调整的所述分子预测模型的模型参数进行调整,得到一个或多个经调整的所述分子预测模型;或者,
对于每一轮训练过程,采用具有标签信息的训练数据对一个或多个待调整的所述分子评价模型的模型参数进行调整,得到一个或多个经调整的所述分子评价模型。
12.一种分子属性预测方法,其特征在于,包括:
获得分子数据;
基于所述分子数据,利用根据权利要求7至11任一项提供的经训练的所述待训练模型得到的分子预测模型,预测得到所述分子数据的分子属性。
13.根据权利要求12所述的分子属性预测方法,其特征在于,所述分子数据具有标签信息,上述方法还包括:
基于所述分子数据,利用经训练的所述待训练模型得到的分子评价模型进行评估,得到所述分子数据的分子评价结果。
14.一种分子属性评价方法,其特征在于,包括:
获得分子数据,所述分子数据具有标签信息;
基于所述分子数据,利用根据权利要求7至11任一项提供的经训练的所述待训练模型得到的分子评价模型进行评估,得到所述分子数据的分子评价结果。
15.一种设计方法,其特征在于,所述方法包括:
根据权利要求12所述的方法得到分子属性,和/或,根据权利要求14所述的方法得到分子评价结果;
基于所述分子属性和/或所述分子评价结果进行药物设计或者材料设计。
16.一种数据处理装置,其特征在于,包括:
训练数据集获得模块,用于获得训练数据集,其中,所述训练数据包括分子数据;
难度系数确定模块,用于确定所述训练数据集中至少部分训练数据各自的难度系数,以便基于所述至少部分训练数据各自的难度系数对所述训练数据集中至少部分数据进行难度分类,其中,所述分子数据的难度系数是基于分子属性和/或模型训练属性来确定的。
17.一种模型训练装置,其特征在于,包括:
训练数据集获得模块,用于获得训练数据集,所述训练数据集中至少部分训练数据各自具有难度系数,所述难度系数是基于根据权利要求16所述的数据处理装置来获得的;
模型训练模块,用于利用所述训练数据集中的至少部分训练数据,按照难度系数从低到高的顺序,分轮对所述待训练模型进行训练。
18.一种分子属性预测装置,其特征在于,包括:
第一分子数据获得模块,用于获得分子数据;
分子属性预测模块,用于基于所述分子数据,利用根据权利要求17提供的经训练的所述待训练模型得到的分子预测模型,预测得到所述分子数据的分子属性。
19.一种分子属性评价装置,其特征在于,包括:
第二分子数据获得模块,用于获得分子数据,所述分子数据具有标签信息;
分子属性评价模块,用于基于所述分子数据,利用根据权利要求17提供的经训练的所述待训练模型得到的分子评价模型进行评估,得到所述分子数据的分子评价结果。
20.一种设计装置,其特征在于,包括:
信息获得模块,用于根据权利要求18所述的分子属性预测装置得到所述分子属性,和/或,根据权利要求19所述分子属性评价装置获得所述分子评价结果;
设计模块,用于基于所述分子属性和/或所述分子评价结果进行药物设计或者材料设计。
21.一种电子设备,其特征在于,包括:
处理器;以及
存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行根据权利要求1-15中任一项所述的方法。
22.一种计算机可读存储介质,其特征在于,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行根据权利要求1-15中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210502445.4A CN114842926A (zh) | 2022-05-10 | 2022-05-10 | 数据处理方法、装置和模型训练方法、装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210502445.4A CN114842926A (zh) | 2022-05-10 | 2022-05-10 | 数据处理方法、装置和模型训练方法、装置和电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114842926A true CN114842926A (zh) | 2022-08-02 |
Family
ID=82569706
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210502445.4A Pending CN114842926A (zh) | 2022-05-10 | 2022-05-10 | 数据处理方法、装置和模型训练方法、装置和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114842926A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112102899A (zh) * | 2020-09-15 | 2020-12-18 | 北京晶派科技有限公司 | 一种分子预测模型的构建方法和计算设备 |
CN113762579A (zh) * | 2021-01-07 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 一种模型训练方法、装置、计算机存储介质及设备 |
CN114187980A (zh) * | 2022-02-15 | 2022-03-15 | 北京晶泰科技有限公司 | 模型训练方法、模型预测方法、分子筛选方法及其装置 |
-
2022
- 2022-05-10 CN CN202210502445.4A patent/CN114842926A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112102899A (zh) * | 2020-09-15 | 2020-12-18 | 北京晶派科技有限公司 | 一种分子预测模型的构建方法和计算设备 |
CN113762579A (zh) * | 2021-01-07 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 一种模型训练方法、装置、计算机存储介质及设备 |
CN114187980A (zh) * | 2022-02-15 | 2022-03-15 | 北京晶泰科技有限公司 | 模型训练方法、模型预测方法、分子筛选方法及其装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jin et al. | Application of deep learning methods in biological networks | |
Stravs et al. | MSNovelist: de novo structure generation from mass spectra | |
Ghazal et al. | Feature optimization and identification of ovarian cancer using internet of medical things | |
Abdi et al. | A novel weighted support vector machine based on particle swarm optimization for gene selection and tumor classification | |
JP2023082017A (ja) | コンピュータシステム | |
US8055603B2 (en) | Automatic generation of new rules for processing synthetic events using computer-based learning processes | |
Ramos-González et al. | A CBR framework with gradient boosting based feature selection for lung cancer subtype classification | |
Peterson et al. | Merging K‐means with hierarchical clustering for identifying general‐shaped groups | |
Jiang et al. | Predicting drug‐disease associations via using Gaussian interaction profile and Kernel‐based autoencoder | |
US20080082356A1 (en) | System and method to optimize control cohorts using clustering algorithms | |
Obulesu et al. | [Retracted] Adaptive Diagnosis of Lung Cancer by Deep Learning Classification Using Wilcoxon Gain and Generator | |
Hsu et al. | A new approach for prediction of lung carcinoma using back propagation neural network with decision tree classifiers | |
CN113140254A (zh) | 元学习药物-靶点相互作用预测系统及预测方法 | |
Rezaee et al. | Deep learning‐based microarray cancer classification and ensemble gene selection approach | |
CN114067928B (zh) | 分子属性预测方法及系统、装置、存储介质和处理器 | |
Wang et al. | Challenge-enabled machine learning to drug-response prediction | |
Paul et al. | Heart disease prediction using scaled conjugate gradient backpropagation of artificial neural network | |
Zhang et al. | GCMM: graph convolution network based on multimodal attention mechanism for drug repurposing | |
Sameer et al. | Multi-objectives TLBO hybrid method to select the related risk features with rheumatism disease | |
CN114842926A (zh) | 数据处理方法、装置和模型训练方法、装置和电子设备 | |
Elezaj et al. | Data-driven machine learning approach for predicting missing values in large data sets: A comparison study | |
Bahra et al. | Parameterizing neural networks for disease classification | |
WO2020115730A1 (en) | Integrated system and method for personalized stratification and prediction of neurodegenerative disease | |
Kpanou et al. | Learning self-supervised molecular representations for drug–drug interaction prediction | |
Balasubramanian et al. | Rough set theory-based feature selection and FGA-NN classifier for medical data classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |