CN111599417A - 溶解度预测模型的训练数据获取方法及装置 - Google Patents

溶解度预测模型的训练数据获取方法及装置 Download PDF

Info

Publication number
CN111599417A
CN111599417A CN202010652020.2A CN202010652020A CN111599417A CN 111599417 A CN111599417 A CN 111599417A CN 202010652020 A CN202010652020 A CN 202010652020A CN 111599417 A CN111599417 A CN 111599417A
Authority
CN
China
Prior art keywords
data
solubility
data set
training
training data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010652020.2A
Other languages
English (en)
Other versions
CN111599417B (zh
Inventor
孟金涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010652020.2A priority Critical patent/CN111599417B/zh
Publication of CN111599417A publication Critical patent/CN111599417A/zh
Application granted granted Critical
Publication of CN111599417B publication Critical patent/CN111599417B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C10/00Computational theoretical chemistry, i.e. ICT specially adapted for theoretical aspects of quantum chemistry, molecular mechanics, molecular dynamics or the like
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本申请公开了一种溶解度预测模型的训练数据获取方法、装置、计算机设备及存储介质,属于计算机技术领域。本申请通过对每个训练数据集进行重复数据合并,确定训练数据集对应的第二溶解度数据以及各个数据的重复度;应用各个训练数据集训练模型,基于模型训练结果为训练数据集分配第二权重,由第二权重指示训练数据集的数据质量;基于数据质量高的训练数据集对应的第二溶解度数据,对待修复训练数据集进行修复,得到包含权重信息的目标训练数据。在上述方案中,应用高质量的数据进行数据修复,无需人工修改错误数据,且目标训练数据包括用于指示准确度的权重信息,准确度低的数据对应的权重小,从而降低准确度低的目标训练数据对模型训练的影响。

Description

溶解度预测模型的训练数据获取方法及装置
技术领域
本申请涉及计算机技术领域,特别涉及一种溶解度预测模型的训练数据获取方法、装置、计算机设备及存储介质。
背景技术
分子溶解度的确定是药物研发中的一个重要环节,为提高药物研发的速度,通常是应用数据驱动的人工智能方法,也即是,应用训练好的溶解度预测模型,来预测分子的溶解度。其中,该溶解度预测模型可以基于OCHEM、AQSOL、ESOL等现有的分子溶解度数据集来进行训练,但是这些数据集所包含训练数据的数量较少,且存在一些数据标注错误,数据质量较低。
目前,在获取训练数据时,通常是人工对已有的溶解度数据集中的各个数据进行数据修复,将数据修复后的溶解度数据集作为训练数据集,进行模型训练。例如,可以由人工查阅相关文献,再基于文献中所记载的数据对溶解度数据集中的各个溶解度数据进行纠正,从而获取到数据修复后的溶解度数据集,即获取到模型的训练数据集。但是,这种训练数据获取方法费时费力,效率极低,且无法确保数据修复过程中,对溶解度数据集中每个错误数据都进行了修复,也即是,无法确保获取到的训练数据集中各个训练数据均正确,训练数据集中错误的训练数据仍然会影响模型训练结果。因此,在进行溶解度模型训练时,如何准确度较高的训练数据,降低不准确数据对模型训练结果的影响,是一个重要研究方向。
发明内容
本申请实施例提供了一种溶解度预测模型的训练数据获取方法、装置、计算机设备及存储介质,可以提高训练数据获取的效率,提高训练数据的准确性。该技术方案如下:
一方面,提供了一种溶解度预测模型的训练数据获取方法,该方法包括:
获取至少两个训练数据集的第一溶解度数据,一个第一溶解度数据包括一个分子数据的溶解度值;
分别将每个训练数据集中重复的该第一溶解度数据合并,得到该每个训练数据集对应的第二溶解度数据以及各个第二溶解度数据的第一权重,该第一权重用于指示该第二溶解度数据对应的该第一溶解度数据的重复度;
基于该每个训练数据集的该第一溶解度数据,对溶解度预测模型进行训练,基于该溶解度预测模型的模型预测结果,确定该每个训练数据集对应的第二权重,该第二权重用于指示该每个训练数据集的数据准确度;
对于任一训练数据集,基于该每个训练数据集对应的第二权重,从该至少两个训练数据集中确定至少一个训练数据集,作为该任一训练数据集对应的至少一个参考数据集;
基于该任一训练数据集对应的参考数据集的第二权重、该参考数据集对应的第二溶解度数据以及各个该第二溶解度数据的第一权重,对该任一训练数据集进行数据修复,得到目标训练数据,一个该目标训练数据包括一个分子数据的溶解度值以及该溶解度值的目标权重,该目标权重用于指示该溶解度数据的准确度。
在一种可能实现方式中,该基于第二阈值,对该目标训练数据的目标权重进行正则化处理,包括:
将该目标训练数据的目标权重与该第二阈值进行比较;
响应于该目标权重大于该第二阈值,将该目标权重的数值设置为该第二阈值;响应于该目标权重小于或等于该第二阈值,不修改该目标权重;
将该目标权重除以该第二阈值,得到正则化的该目标权重。
一方面,提供了一种溶解度预测模型的训练数据获取装置,该装置包括:
第一获取模块,用于获取至少两个训练数据集的第一溶解度数据,一个第一溶解度数据包括一个分子数据的溶解度值;
第二获取模块,用于分别将每个训练数据集中重复的该第一溶解度数据合并,得到该每个训练数据集对应的第二溶解度数据以及各个第二溶解度数据的第一权重,该第一权重用于指示该第二溶解度数据对应的该第一溶解度数据的重复度;
第一确定模块,用于基于该每个训练数据集的该第一溶解度数据,对溶解度预测模型进行训练,基于该溶解度预测模型的模型预测结果,确定该每个训练数据集对应的第二权重,该第二权重用于指示该每个训练数据集的数据准确度;
第二确定模块,用于对于任一训练数据集,基于该每个训练数据集对应的第二权重,从该至少两个训练数据集中确定至少一个训练数据集,作为该任一训练数据集对应的至少一个参考数据集;
数据修复模块,用于基于该任一训练数据集对应的参考数据集的第二权重、该参考数据集对应的第二溶解度数据以及各个该第二溶解度数据的第一权重,对该任一训练数据集进行数据修复,得到目标训练数据,一个该目标训练数据包括一个分子数据的溶解度值以及该溶解度值的目标权重,该目标权重用于指示该溶解度数据的准确度。
在一种可能实现方式中,该第二获取模块,用于:
对于每个训练数据集,将对应于相同分子数据的该第一溶解度数据分为一组,得到至少两组溶解度数据;
对于每一组溶解度数据,分别将包括相同溶解度值的该第一溶解度数据合并,得到至少一个第二溶解度数据;
基于该第二溶解度数据所包含该第一溶解度数据的数目,确定该第二溶解度数据的该第一权重。
在一种可能实现方式中,该第一确定模块,用于:
对于该每个训练数据集,基于训练数据集中第一目标数量的该第一溶解度数据,对该溶解度预测模型进行训练,得到训练好的溶解度预测模型;
对于该每个训练数据集,基于训练数据集中第二目标数量的该第一溶解度数据,确定该训练好的溶解度预测模型的模型预测精度;
基于该每个训练数据集对应的该模型预测精度,确定该每个训练数据集对应的第二权重,该第二权重与该模型预测精度正相关。
在一种可能实现方式中,该第二确定模块,用于:
将该每个训练数据集对应的第二权重与该任一训练数据集对应的第二权重进行比较;
获取所对应的第二权重大于或等于该任一训练数据集对应的第二权重的该训练数据集,作为该任一训练数据集对应的参考数据集。
在一种可能实现方式中,该数据修复模块包括:
生成子模块,用于基于该参考数据集对应的第二权重、该参考数据集对应的第二溶解度数据以及各个该第二溶解度数据的第一权重,生成修复数据集,该修复数据集包括该参考数据集对应的第二溶解度数据以及各个该第二溶解度数据的第三权重,该第三权重用于指示该第二溶解度数据的准确度;
修复子模块,用于基于该修复数据集,对该任一训练数据集进行数据修复,得到目标训练数据。
在一种可能实现方式中,该生成子模块,用于:
将该第二溶解度数据的第一权重、该第二溶解度数据所属的参考数据集对应的第二权重相乘,得到该第二溶解度数据的该第三权重;
基于该至少一个参考数据集对应的第二溶解度数据以及各个第二溶解度数据的第三权重,生成该修复数据集。
在一种可能实现方式中,该修复子模块包括:
数据确定单元,用于将该任一训练数据的该第二溶解度数据对应的分子数据,确定为待修复分子数据;
数据组获取单元,用于基于该待修复分子数据,对该修复数据集对应的该第二溶解度数据进行分组,得到每个该待修复分子数据对应的一个修复数据组;
数据修复单元,用于对于每一个修复数据组,基于修复数据组中的该第二溶解度数据以及该第二溶解度数据的第三权重,对该任一训练数据集进行数据修复,得到至少一个目标训练数据。
在一种可能实现方式中,该数据修复单元包括:
排序子单元,用于对于每一个修复数据组中的该第二溶解度数据,按照该第二溶解度数据中溶解度值的大小,对该第二溶解度数据进行排序;
差值获取子单元,用于从已排序的该第二溶解度数据中,依次获取相邻两个第二溶解度数据的溶解度差值;
比较子单元,用于将该溶解度值与第一阈值进行比较;
数据确定子单元,用于基于比较结果、该相邻两个第二溶解度数据以及各个第二溶解度数据的第三权重,确定该至少一个目标训练数据。
在一种可能实现方式中,该数据确定子单元,用于:
响应于该溶解度差值小于或等于该第一阈值,将该相邻两个第二溶解度数据的溶解度值合并为一个目标训练数据的溶解度值,将该相邻两个第二溶解度数据的第三权重之和确定为该一个目标训练数据的目标权重;
响应于该溶解度差值大于该第一阈值,分别将该相邻两个第二溶解度数据的溶解度值以及各个第二溶解度数据的第三权重,确定为目标训练数据。
在一种可能实现方式中,该装置还包括:
正则化模块,用于基于第二阈值,对该目标训练数据的目标权重进行正则化处理。
在一种可能实现方式中,该正则化模块,用于:
将该目标训练数据的目标权重与该第二阈值进行比较;
响应于该目标权重大于该第二阈值,将该目标权重的数值设置为该第二阈值;响应于该目标权重小于或等于该第二阈值,不修改该目标权重;
将该目标权重除以该第二阈值,得到正则化的该目标权重。
在一种可能实现方式中,该装置还包括:
筛选模块,用于基于该第一溶解度数据所对应分子数据的分子标准化结果、分子构成以及该第一溶解度数据的数据测量环境信息中的至少一项,对该第一溶解度数据进行筛选;基于筛选后的该第一溶解度数据,执行该分别将每个训练数据集中重复的该第一溶解度数据合并,得到该每个训练数据集对应的第二溶解度数据以及各个第二溶解度数据的第一权重的步骤。
在一种可能实现方式中,该筛选模块,用于执行下述至少一项:
对该第一溶解度数据所对应的分子数据,进行分子结构标准化,去除未通过分子结构标准化的分子数据对应的该第一溶解度数据;
获取该第一溶解度数据的数据测量环境信息,去除数据测量环境信息不满足目标条件的该第一溶解度数据;
基于该第一溶解度数据所对应分子数据的分子构成,去除分子构成中包括目标粒子的分子数据对应的该第一溶解度数据。
一方面,提供了一种计算机设备,该计算机设备包括一个或多个处理器和一个或多个存储器,该一个或多个存储器中存储有至少一条程序代码,该至少一条程序代码由该一个或多个处理器加载并执行以实现该溶解度预测模型的训练数据获取方法所执行的操作。
一方面,提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一条程序代码,该至少一条程序代码由处理器加载并执行以实现该溶解度预测模型的训练数据获取方法所执行的操作。
一方面,提供了一种计算机程序产品,该计算机程序产品包括至少一条程序代码,该至少一条程序代码存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该至少一条程序代码,处理器执行该至少一条程序代码,使得该计算机设备实现该溶解度预测模型的训练数据获取方法所执行的操作。
本申请实施例提供的技术方案,通过对每个训练数据集进行重复数据合并,确定每个训练数据集对应的第二溶解度数据以及各个数据的重复度;应用各个训练数据集训练模型,基于模型训练结果为训练数据集分配第二权重,由第二权重来指示训练数据集的数据质量;再基于数据质量高的训练数据集所对应的第二溶解度数据,对待修复训练数据集进行数据修复,得到包含权重信息的目标训练数据。在上述方案中,应用高质量的数据进行数据修复,从而无需人工修改错误数据,且目标训练数据包括用于指示数据准确度的权重信息,准确度低的数据对应的权重小,从而可以降低准确度低的目标训练数据对模型训练的影响。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种溶解度预测模型的训练数据获取方法的实施环境示意图;
图2是本申请实施例提供的一种溶解度预测模型的训练数据获取方法的流程图;
图3是本申请实施例提供的一种溶解度预测模型的训练数据获取方法的具体流程图;
图4是本申请实施例提供的一种待修复训练数据集与参考数据集的对应关系示意图;
图5是本申请实施例提供的一种聚类修复算法的流程图;
图6是本申请实施例提供的一种数据修复流程图;
图7是本申请实施例提供的一种模型训练结果示意图;
图8是本申请实施例提供的一种溶解度预测模型的训练数据获取装置的结构示意图;
图9是本申请实施例提供的一种终端的结构示意图;
图10是本申请实施例提供的一种服务器的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习等几大方向。在人工智能技术中,往往会应用各类深度神经网络模型,通过大量训练数据对深度神经网络模型进行训练,使深度神经网络模型学习到训练数据的特征,从而基于已学习到的特征进行推理、预测等,因此,深度神经网络模型的性能与训练数据的质量密切相关。在本申请实施例中,涉及对训练数据进行修复,从而获取到准确度更高的训练数据,进而在基于这些准确度更高的训练数据进行模型训练时,可以得到性能更好的深度神经网络模型。
图1是本申请实施例提供的一种溶解度预测模型的训练数据获取方法的实施环境示意图。该实施环境包括:终端110和溶解度预测平台140。
终端110可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端110安装和运行有支持溶解度预测的应用程序。该应用程序可以是药物研发类应用程序等。终端110可以泛指多个终端中的一个,本实施例仅以终端110来举例说明。
溶解度预测平台140用于为支持溶解度预测的应用程序提供后台服务。可选地,溶解度预测平台140承担主要溶解度预测工作,终端110承担次要溶解度预测工作;或者,溶解度预测平台140承担次要溶解度预测工作,终端110承担主要溶解度预测工作;或者,溶解度预测平台140或终端110分别可以单独承担分割工作。可选地,溶解度预测平台140包括:接入服务器、溶解度预测服务器和数据库。接入服务器用于为终端110提供接入服务。溶解度预测服务器用于提供溶解度预测有关的后台服务。溶解度预测服务器可以是一台或多台。当溶解度预测服务器是多台时,存在至少两台溶解度预测服务器用于提供不同的服务,和/或,存在至少两台溶解度预测服务器用于提供相同的服务,比如以负载均衡方式提供同一种服务,本申请实施例对此不加以限定。溶解度预测服务器中可以设置有溶解度预测模型,该溶解度预测服务器为该模型的训练和应用过程提供支撑。其中,上述服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。
上述终端110与溶解度预测平台140可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例对此不作限定。
本领域技术人员可以知晓,上述终端的数量可以更多或更少。比如上述终端可以仅为一个,或者上述终端为几十个或几百个,或者更多数量,此时上述物体检测系统还包括其他终端。本申请实施例对终端的数量和设备类型不加以限定。
本申请实施例提供的技术方案,可以与多种应用场景相结合,在本申请实施例中,应用该技术方案提供的训练数据获取方法来获取溶解度预测模型的训练数据,训练数据获取过程中,无需人工进行数据修复,基于各个训练数据集中的重复数据进行聚类修复,可以获取到大量的、准确度较高的训练数据,且每个训练数据对应于一个目标权重,训练数据的准确度越高,其对应的目标权重越大,在训练数据应用过程中,可以通过较小的权重,来降低准确度较低的训练数据对模型训练结果的影响。
图2是本申请实施例提供的一种溶解度预测模型的训练数据获取方法的流程图。该方法可以应用于上述终端或者服务器,而终端和服务器均可以视为一种计算机设备,在本申请实施例中,以计算机设备作为执行主体,对该训练数据获取方法进行介绍,参见图2,该实施例具体可以包括以下步骤:
201、计算机设备获取至少两个训练数据集的第一溶解度数据,一个第一溶解度数据包括一个分子数据的溶解度值。
其中,该训练数据集可以为存储在计算机设备中的包含溶解度值的数据集合,也可以为计算机设备从网络中获取的数据集合,还可以为该计算机设计基于多个溶解度值构建的数据集合,本申请实施例对具体采用哪种训练数据集不作限定。
在一种可能实现方式中,该计算机设备接收到训练数据获取指令时,响应于该训练数据获取指令,来获取多个训练数据集的第一溶解度数据。本申请实施例对该训练数据获取指令的触发方式以及训练数据集的具体获取方式不作限定。
202、计算机设备分别将每个训练数据集中重复的第一溶解度数据合并,得到每个训练数据集对应的第二溶解度数据以及各个第二溶解度数据的第一权重,该第一权重用于指示该第二溶解度数据对应的第一溶解度数据的重复度。
在本申请实施例中,一个训练数据集中可以有多个第一溶解度数据对应于同一分子数据,这些第一溶解度数据中所记录的溶解度值可能相同,也可能不同。在一种可能实现方式中,该计算机设备可以基于第一溶解度数据中分子数据的溶解度值,将重复的第一溶解度数据合并,得到第二溶解度数据,基于各个第二溶解度数据所对应的第一溶解度数据的重复度,为该第二溶解度数据分配第一权重。
在本申请实施例中,对于每个训练数据集,进行重复数据合并,得到第二溶解度数据以及能够指示数据重复度的第一权重,再基于第二溶解度数据以及第二权重执行后续的训练数据获取步骤,可以降低后续数据处理过程中的冗余数据,降低数据处理量,提高数据处理效率。
203、计算机设备基于每个训练数据集的第一溶解度数据,对溶解度预测模型进行训练,基于该溶解度预测模型的模型预测结果,确定每个训练数据集对应的第二权重,该第二权重用于指示每个训练数据集的数据准确度。
其中,该溶解度预测模型可以为基于深度神经网络构建的模型,本申请实施例对该溶解度预测模型的具体结构不作限定。例如,该溶解度预测模型可以为Chemprop(化学物质)模型。
以确定一个训练数据集对应的第二权重为例,在一种可能实现方式中,该计算机设备基于训练数据集中的第一溶解度数据进行模型训练,得到训练完成的溶解度预测模型;再将该训练数据集的第一溶解度数据,输入该训练完成的溶解度预测模型,得到模型预测结果。该计算机设备可以基于各个训练数据集对应的模型训练结果,确定各个训练数据集对应的第二权重。例如,该模型预测结果可以包括模型预测精度,该计算机设备可以基于模型预测精度来确定该第二权重,若某一训练数据集对应的模型预测精度较高,则可以确定该某一训练数据集中第一溶解度数据的质量较高,该计算机设备可以为该某一训练数据集分配较大的第二权重。
需要说明的是,上述对第二权重确定方法的说明,仅是一种示例性说明,本申请实施例对此不作限定。在本申请实施例中,基于模型训练结果,为数据准确度较高的训练数据集,分配较大的第二权重,为数据准确度较低的训练数据集,分配较小的第二权重,可以降低不准确的数据对后续数据修复过程的影响。
204、对于任一训练数据集,计算机设备基于每个训练数据集对应的第二权重,从该至少两个训练数据集中确定至少一个训练数据集,作为该任一训练数据集对应的至少一个参考数据集。
其中,该参考数据集可以用于对该任一训练数据集进行数据修复。
在一种可能实现方式中,该计算机设备可以选取对应的第二权重较大的训练数据集,作为该任一训练数据集的参考数据集,以确保后续数据修复过程的数据修复效果良好。当然,该计算机设备也可以基于其他条件确定该参考数据集,本申请实施例对此不作限定。
205、计算机设备基于该任一训练数据集对应的参考数据集对应的第二权重、该参考数据集对应的第二溶解度数据以及各个该第二溶解度数据的第一权重,对该任一训练数据集进行数据修复,得到目标训练数据,一个该目标训练数据包括一个分子数据的溶解度值以及该溶解度值的目标权重,该目标权重用于指示该溶解度数据的准确度。
在一种可能实现方式中,该计算机设备可以通过聚类修复算法,应用该参考数据集对应的第二权重、该参考数据集对应的第二溶解度数据以及各个该第二溶解度数据的第一权重,对该任一训练数据集进行修复,即对该任一训练数据集对应的第二溶解度数据进行修复,得到数据准确度更高的目标训练数据,且该目标训练数据包括用于指示溶解度值准确度的目标权重,在应用该目标训练数据进行模型训练时,可以通过该目标权重,来降低准确度较低的数据对模型训练结果的影响。需要说明的是,本申请实施例对数据修复的具体方法不作限定。
本申请实施例提供的技术方案,通过对每个训练数据集进行重复数据合并,确定每个训练数据集对应的第二溶解度数据以及各个数据的重复度;应用各个训练数据集训练模型,基于模型训练结果为训练数据集分配第二权重,由第二权重来指示训练数据集的数据质量;再基于数据质量高的训练数据集所对应的第二溶解度数据,对待修复训练数据集进行数据修复,得到包含权重信息的目标训练数据。在上述方案中,应用高质量的数据进行数据修复,从而无需人工修改错误数据,且目标训练数据包括用于指示数据准确度的权重信息,准确度低的数据对应的权重小,从而可以降低准确度低的目标训练数据对模型训练的影响。
上述实施例是对本申请的实施方式的一个简要介绍,图3是本申请实施例提供的一种溶解度预测模型的训练数据获取方法的具体流程图,结合图3,以计算机设备为执行主体,对上述训练数据获取过程进行说明:
301、计算机设备获取至少两个训练数据集的第一溶解度数据。
其中,一个训练数据集包括多个第一溶解度数据,一个第一溶解度数据包括一个分子数据的溶解度值,在本申请实施例中,该第一溶解度数据中还标注有分子数据的分子标识、该溶解度值的数据测量环境信息等,该分子标识可以用于唯一的指示一个分子,该分子标识可以为分子数据的化学式、分子数据的名称等,该数据测量环境信息可以包括温度、PH值等。当然,该第一溶解度数据中还可以标注有其他信息,本申请实施例对此不作限定。
在本申请实施例中,对该计算机设备所获取的训练数据集的数目和具体类型不作限定。在本申请实施例中,以AQUA、PHYS、ESOL、OCHEM、AQSOL、CHEMBL这6个训练数据集为例进行说明。其中,AQUA、PHYS、ESOL这三个训练数据集所包括的数据较少,数据质量较高,OCHEM、AQSOL、CHEMBL这三个训练数据集所包括的训练数据较多,数据质量较差。该6个训练数据集均为热力学数据集。
302、计算机设备对每个训练数据集中的第一溶解度数据进行筛选。
在本申请实施例中,该计算机设备可以基于该第一溶解度数据所对应分子数据的分子标准化结果、分子构成以及该第一溶解度数据的数据测量环境信息中的至少一项,对该第一溶解度数据进行筛选。也即是,该计算机设备在进行数据修复之前,需对该第一溶解度数据进行数据过滤。该计算机设备可以以训练数据集为单位,分别对各个训练数据集中的第一溶解度数据进行筛选,下面以该计算机设备对一个训练数据集中的第一溶解度数据进行筛选为例进行说明。
在一种可能实现方式中,计算机设备可以基于分子数据的SMILES(SimplifiedMolecular Input Line Entry Specification,简化分子线性输入规范)标准化结果进行数据筛选。其中,SMILES是一种用ASCII字符串明确描述分子结构的规范,每个分子数据对应于一个SMILES表达式。在本申请实施例中,计算机设备对第一溶解度数据所对应的分子数据,进行分子结构标准化,从训练数据集中,去除未通过分子结构标准化的分子数据所对应的第一溶解度数据。例如,该计算机设备可以应用MolVS(分子标准化工具),将各个第一溶解度数据所对应分子数据的化学式输入MolVS,响应于MolVS输出该分子数据的SMILES表达式,则确定该分子数据通过分子结构标准化,响应于MolVS未输出该分子数据的SMILES表达式,则确定该分子数据未通过分子结构标准化。在本申请实施例中,基于能否通过分子结构标准化对第一溶解度数据进行筛选,去除不同通过分子结构标准化的分子数据所对应的第一溶解度数据,可以提高训练数据的通用性,避免一些不具备分子结构标准化功能的模型,在应用这些训练数据进行训练时出现报错的现象。
在一种可能实现方式中,该计算机设备可以基于数据测量环境信息对该第一溶解度数据进行筛选。例如,该计算机设备可以获取第一溶解度数据中所记录的数据测量环境信息,从训练数据集中,去除数据测量环境信息不满足目标条件的第一溶解度数据。其中,该目标条件可以由开发人员进行设置,本申请实施例对此不作限定,例如,该目标条件可以设置为数据测量温度在25±5℃之间,且数据测量的PH值在7±2之间。在本申请实施例中,基于数据测量环境对第一溶解度数据进行筛选,可以去除一些在极端实验环境下所取得的训练数据,这些训练数据与正常实验环境中所取得的训练数据,在数值上可能存在较大差异,因此,去除极端实验环境下所测得的训练数据,可避免这些数据对后续的模型训练过程造成影响。
在一种可能实现方式中,计算机设备可以基于第一溶解度数据集所对应分子数据的分子构成,对第一溶解度数据进行筛选。例如,该计算机设备可以基于第一溶解度数据所对应分子数据的分子构成,去除分子构成中包括目标粒子的分子数据对应的第一溶解度数据。其中,该目标粒子可以由开发人员进行设置,本申请实施例对此不作限定,例如,在药物研发过程中,所使用的分子数据应是无毒的,则该目标粒子可以设置为U、Ge、Pr、La、Dy、Ti、Zr、Rh、Lu、Mo、Sm、Sb、Nd、Gd、Cd、Ce、In、Pt、Sb、As、Ir、Ba、B、Hg、Se、Sn、Ti、Fe、Si、Al、Bi、Pb、Pd、Ag、Au、Cu、Pt、Co、Ni、Ru、Mg、Zn、Mn、Cr、Ca、K、Li等重金属粒子,该目标粒子还可以包括SF5、SF6等药物研发过程中使用频率极低的基团。在本申请实施例中,基于训练数据所对应分子数据的分子构成以及训练数据的实际应用场景,去除在实际应用场景中不会使用的分子数据所对应的第一溶解度数据,可以提高训练数据集的可用性,进而,应用过滤后的第一溶解度数据进行模型训练时,可以使训练得到的模型更符合实际的应用场景。
需要说明的是,上述对第一溶解度数据筛选方法的说明,仅是几种实现方式的示例性说明,本申请实施例对具体采用方式进行第一溶解度数据筛选不作限定。在本申请实施例中,上述多种第一溶解度数据筛选方法可以任意组合,本申请时实施例对第一溶解度数据筛选方法的具体组合方式以及执行顺序不作限定。
303、计算机设备分别将每个训练数据集中重复的第一溶解度数据合并,得到每个训练数据集对应的第二溶解度数据以及各个第二溶解度数据的第一权重。
在一种可能实现方式中,对于每个训练数据集,该计算机设备可以将对应于相同分子数据的第一溶解度数据分为一组,得到至少两组溶解度数据;对于每一组溶解度数据,分别将包括相同溶解度值的第一溶解度数据合并,得到至少一个第二溶解度数据。在本申请实施例中,该训练数据集中可以有多个第一溶解度数据对应于同一分子数据,这些第一溶解度数据中的溶解度值可以相同,也可以不同。例如,一个训练数据集中可以有4个第一溶解度数据均对应于分子数据A,其中,第一溶解度数据1所记录的溶解度值为9/100g水,第一溶解度数据2所记录的溶解度值为9.01/100g水,第一溶解度数据3所记录的溶解度值为9.5/100g水,第一溶解度数据4所记录的溶解度值为9.7/100g水。该计算机设备可以将第一溶解度数据1与第一溶解度数据2合并,作为一个第二溶解度数据,将第一溶解度数据3、第一溶解度数据4,分别作为一个第二溶解度数据。需要说明的是,在本申请实施例中,若同一分子数据对应的两个第一溶解度数据,其所包含溶解度值之差的绝对值小于0.01时,则可以确定这两个第一溶解度数据相同。
在一种可能实现方式中,该计算机设备可以基于该第二溶解度数据所包含的第一溶解度数据的数目,确定该第二溶解度数据对应的第一权重。其中,该第一权重与该第二溶解度数据所包含第一溶解度数据的数目正相关,即该第一权重用于指示第二溶解度数据对应的第一溶解度数据的重复度。在本申请实施例中,各个分子数据所对应第二溶解度数据的总权重为1,若一个分子数据对应于三个第二溶解度数据,其中,第二溶解度数据1由两个第一溶解度数据合并得到,第二溶解度数据2、第二溶解度数据3分别由一个第一溶解度数据确定,则该计算设备可以基于总权重以及各个第二溶解度数据所包含第一溶解度数据的数目,为各个第二溶解度数据分配第一权重,该第二溶解度数据1的第一权重为0.5,该第二溶解度数据2、第二溶解度数据3的第一权重均为0.25。
需要说明的是,上述对第一溶解度数据进行重复数据合并以及确定第一权重的方法的说明,仅是一种示例性说明,本申请实施例对具体采用哪种方法对第一溶解度数据进行重复数据合并处理以及确定第一权重不作限定。在本申请实施例中,通过对重复数据合并,可以降低训练数据集的数据冗余。基于相同第一溶解度数据的出现频率,为第二溶解度数据分配权重,可以降低错误数据对模型训练的影响。例如,出现频率较高的第一溶解度数据为准确数据的概率较大,则基于这些第一溶解度数据合并得到的第二溶解度数据对应的第一权重数值也较大;出现频率较高低第一溶解度数据为准确数据的概率较小,则基于这些第一溶解度数据合并得到的第二溶解度数据对应的第一权重数值也较小,也即是,可能存在错误的数据所对应的权重越小,则这些数据对模型训练的影响越小。
304、计算机设备基于每个训练数据集的第一溶解度数据,对溶解度预测模型进行训练,基于溶解度预测模型的训练结果,确定每个训练数据集对应的第二权重。
其中,该第二权重用于指示每个训练数据集的数据准确度。
在一种可能实现方式中,对于每个训练数据集,首先,该计算机设备可以基于训练数据集中第一目标数量的该第一溶解度数据,对该溶解度预测模型进行训练,得到训练好的溶解度预测模型;然后,基于训练数据集中第二目标数量的该第一溶解度数据,确定该训练好的溶解度预测模型的模型预测精度;最后,基于该每个训练数据集对应的该模型预测精度,确定该每个训练数据集对应的第二权重。其中,该第二权重与该模型预测精度正相关,即某一训练数据集训练得到的溶解度预测模型的模型预测精度越高,则该某一训练数据集对应的第二权重越大。在本申请实施例中,该第二权重的最大值为1,上述第一目标数量、第二目标数量均可以由开发人员进行设置,本申请实施例对此不作限定,例如该第一目标数量、第二目标数量之间的比例可以为8:2。当然,还可以按照8:1:1的比例对一个训练数据集中的第一溶解度数据进行划分,其中,80%的第一溶解度数据用于进行模型训练,10%的第一溶解度数据用于进行模型测试,10%的第一溶解度数据用于进行模型预测精度评估。在一种可能实现方式中,以AQUA、PHYS、ESOL、OCHEM、AQSOL、CHEMBL这6个训练数据集为例,基于该6个训练数据集分别对溶解度预测模型进行训练,各个训练数据集对应的模型训练结果如表1所示。
表1
Figure BDA0002575320250000161
其中,RMSE(Root Mean Square Error,均方根误差)可以用于指示模型预测精度,其数值与模型预测精度负相关。由表1中的数据可知,在数据随机划分以将基于Scaffold(分子片段)划分这两种情况下,AQUA、PHYS、ESOL这三个训练数据集所对应的模型训练效果较好,AQSOL、CHEMBL这两个训练数据集对应的模型训练效果较差,基于上述数据,各个训练数据集对应的第二权重分别确定为1、1、1、0.85、0.5、0.4。
需要说明的是,上述对第一溶解度数据的划分方法以及模型训练精度的具体确定方法的说明,仅是一种示例性说明,本申请实施例对具体采用哪种方法对第一溶解度数据进行划分以及确定模型训练精度不作限定。
在本申请实施例中,通过对各个训练数据集分配第二权重,为对应的模型训练效果较好的训练数据集分配较大的权重值,为对应的模型训练效果较差的训练数据集分配较小的权重值,可以降低质量较差的数据对模型训练结果的影响。
305、对于任一训练数据集,计算机设备基于每个训练数据集对应的第二权重,从该至少两个训练数据集中确定至少一个训练数据集,作为至少一个参考数据集。
在一种可能实现方式中,该计算机设备可以将该每个训练数据集对应的第二权重与该任一训练数据集对应的第二权重进行比较;获取所对应的第二权重大于或等于该任一训练数据集对应的第二权重的该训练数据集,作为该参考数据集。也即是,使用权重较高的训练数据集作为参考数据集。以AQUA、PHYS、ESOL、OCHEM、AQSOL、CHEMBL这6个训练数据集为例,各个训练数据集的第二权重分别为1、1、1、0.85、0.5、0.4,对于训练数据集OCHEM,其对应的参考数据集为AQUA、PHYS、ESOL、OCHEM。
以AQUA、PHYS、ESOL、OCHEM、AQSOL、CHEMBL这6个训练数据集为例,各个数据集之间存在数据交叉,因此,可以通过确定参考数据集,基于参考数据集与待修复的某一训练数据集之间的重复数据,对该待修复的某一训练数据集进行数据修复。表2和表3中的数据示出了各个训练数据集之间的数据交叉情况,其中,表2中的数据为各个训练数据集之间的数据重复比例,表3中的数据为各个训练数据集之间数据不重复的比例。
表2
AQUA PHYS ESOL OCHEM AQSOL CHEMBL
AQUA 100% 53.13% 51.07% 97.86% 66.03% 0.53%
PHYS 34.78% 100% 23.99% 77.81% 65.67% 1.75%
ESOL 59.95% 43.01% 100% 97.86% 65.23% 0.72%
OCHEM 33.39% 36.83% 25.94% 100% 66.49% 1.02%
AQSOL 9.94% 15.1% 8.37% 30.94% 100% 1.76%
CHEMBL 0.02% 0.11% 0.03% 0.14% 0.5% 100%
表3
Figure BDA0002575320250000171
Figure BDA0002575320250000181
由表2和表3中的数据可知,6个训练数据集均存在大量的分子数据具有相同的溶解度值的情况,同时也存在大量的分子数据具有不同溶解度值的情况。在本申请实施例中,应用来自不同数据集的具有相同溶解度值的数据,来进行数据修复,可以提高修复后的溶解度值的置信度。
图4是本申请实施例提供的一种待修复训练数据集与参考数据集的对应关系示意图,参见图4,在一种可能实现方式中,可以先基于各个训练数据集的第二权重,对训练数据集进行分组,例如,第二权重较高的训练数据集AQUA、PHYS、ESOL可以作为第一组401,训练数据集OCHEM单独作为第二组402,第二权重较低的训练数据集AQSOL、CHEMBL作为第三组403。在本申请实施例中,数据修复可以包括组内数据修复和组间数据修复,其中,组内数据修复,即为获取同组的训练数据集作为参考数据集,组间数据修复即为获取其他组的训练数据集作为参考数据集。在本申请实施例中,权重较高的一组训练数据集可以修复权重较低的一组训练数据集,例如,第一组401可以用于修复第二组402、第三组403,第二组402可以用于修复第三组403。以训练数据集OCHEM为例,对其进行数据修复时,该训练数据集OCHEM的参考数据集可以包括与其同组的训练数据集,即其本身,还可以包括第一组401中各个训练数据集。
在本申请实施例中,基于权重较高的训练数据集构建参考数据集,也即是,应用准确度较高的数据来修复其他数据,可以取得更好的数据修复效果。
306、计算机设备基于该参考数据集对应的第二权重、该参考数据集对应的第二溶解度数据以及各个该第二溶解度数据的第一权重,生成修复数据集。
其中,该修复数据集包括该参考数据集对应的第二溶解度数据以及各个该第二溶解度数据的第三权重,该第三权重用于指示该第二溶解度数据的准确度。
在一种可能实现方式中,该计算机设备可以将该第二溶解度数据的第一权重、该第二溶解度数据所属的参考数据集对应的第二权重相乘,得到该第二溶解度数据的该第三权重;再基于该至少一个参考数据集对应的第二溶解度数据以及各个第二溶解度数据的第三权重,生成该修复数据集,该修复数据集用于对待修复的该任一训练数据集进行修复。需要说明的是,上述对构建修复数据集的方法的说明,仅是一种示例性说明,本申请实施例对具体采用那种方法构建该修复数据集不作限定。
307、计算机设备基于该任一训练数据集中的第二溶解度数据对应的待修复分子数据,对该修复数据集进行分组,得到每个待修复分子数据对应的一个修复数据组。
在一种可能实现方式中,该计算机设备可以将该任一训练数据的该第二溶解度数据对应的分子数据,确定为待修复分子数据,以分子数据为单位,对该修复数据集进行分组,也即是,基于该待修复分子数据,对该修复数据集对应的该第二溶解度数据进行分组,得到每个该待修复分子数据对应的一个修复数据组。例如,该任一训练数据集的第二溶解度数据所对应的分子数据为分子数据A、分子数据B,则该计算机设备可以从该修复数据集所包括的第二溶解度数据中,获取对应于分子数据A的至少一个第二溶解度数据,作为一个修复数据组,获取对应于分子数据B的至少一个第二溶解度数据,作为一个修复数据组。
308、对于每一个修复数据组,计算机设备基于修复数据组中的第二溶解度数据以及第二溶解度数据的第三权重,对该任一训练数据集进行数据修复,得到至少一个目标训练数据。
在一种可能实现方式中,对于每一个修复数据组所包括的第二溶解度数据,该计算机设备可以按照该第二溶解度数据中溶解度值的大小进行排序,从已排序好的第二溶解度数据中,依次获取相邻两个第二溶解度数据的溶解度差值,将该溶解度差值与第一阈值进行比较,基于比较结果、该相邻两个第二溶解度数据及其第三权重,确定至少一个目标训练数据。其中,该第一阈值可以由开发人员进行设置,例如,该第一阈值可以设置为0.5,本申请实施例对该第一阈值的具体数值不作限定。响应于该溶解度差值小于或等于第一阈值,将该相邻两个第二溶解度数据的溶解度值合并为一个目标训练数据的溶解度值,将该相邻两个第二溶解度数据的第三权重之和确定为该一个目标训练数据的目标权重。例如,该计算机设备可以对两个第二溶解度数据的溶解度值加权平均来进行数据合并,即各个第二溶解度数据的溶解度值分别与其对应的第三权重相乘,将相乘结果再相加,得到该目标训练数据的溶解度值。以第i个第二溶解度数据为例,第i个第二溶解度数据的溶解度值表示为S(i),其对应的第三权重表示为W(i),若对第i个和第i+1个第二溶解度数据的溶解度值进行合并,则得到的目标训练数据的溶解度值表示为S(i)*W(i)+S(i+1)*W(i+1)。响应于该溶解度差值大于第一阈值,基于该相邻两个第二溶解度数据的溶解度值以及其对应的第三权重,确定两个该目标训练数据。
在上述数据合并过程中,由于目标训练数据的目标权重是由第三权重累加得到的,若参与累加的第三权重数目过多,则会导致该目标权重的数值较大,在模型训练过程中,该目标训练数据会对模型训练结果产生较大影响,例如,使模型过拟合等。在本申请实施例中,为避免因某一目标训练数据的权重过大,而影响模型的训练结果,该计算机设备可以基于第二阈值,对各个目标训练数据的目标权重进行正则化处理。在一种可能实现方式中,该计算机设备可以将目标训练数据的目标权重与第二阈值进行比较。响应于该目标权重大于该第二阈值,将该目标权重的数值设置为该第二阈值;响应于该目标权重小于或等于该第二阈值,不修改该目标权重。该计算机设备可以将该目标权重除以该第二阈值,得到正则化的目标权重。其中,该第二阈值可以由开发人员进行设置,本申请实施例对此不作限定。
图5是本申请实施例提供的一种聚类修复算法的流程图,结合图5,对上述数据修复过程进行说明。以参考数据集D(0),D(1)……D(n-1),待修复数据集为D(n-1)为例,如图5中的(a)图所示,首先,该计算机设备可以先执行基于参考数据集D(0),D(1)……D(n-1),构建修复数据集D的步骤501,也即是,该计算机设备执行上述步骤306中的内容;然后,该计算机设备执行从修复数据集D中提取在待修复数据集D(n-1)中出现过的分子数据的第二溶解度数据,将提取到的第二溶解度数据构建为数据集F的步骤502,也即是,实现上述步骤307中的内容构建各个待修复分子数据对应的修复数据组;该计算机设备执行将数据集F中的第二溶解度数据,按照其对应的分子数据进行分组,基于聚类修复算法,对已分组的数据进行数据修复的步骤503。该聚类修复算法的具体过程如图5中的(b)图所示,该计算机设备可以先执行第二溶解度数据排序步骤504,也即是,该计算机设备基于第二溶解度数据中的溶解度值进行数据排序;再执行判断将相邻两个第二溶解度数据的溶解度差值是否小于第一阈值的步骤505;若是,则执行将这两个相邻的第二溶解度数据中的溶解度值合并的步骤506,确定目标训练数据的溶解度值,再执行确定目标训练数据的目标权重,对该目标权重正则化的步骤507;若否,则继续获取下一组相邻的两个第二溶解度数据。
本申请实施例提供的技术方案,通过对每个训练数据集进行重复数据合并,确定每个训练数据集对应的第二溶解度数据以及各个数据的重复度;应用各个训练数据集训练模型,基于模型训练结果为训练数据集分配第二权重,由第二权重来指示训练数据集的数据质量;再基于数据质量高的训练数据集所对应的第二溶解度数据,对待修复训练数据集进行数据修复,得到包含权重信息的目标训练数据。在上述方案中,应用高质量的数据进行数据修复,从而无需人工修改错误数据,且目标训练数据包括用于指示数据准确度的权重信息,准确度低的数据对应的权重小,从而可以降低准确度低的目标训练数据对模型训练的影响。
图6是本申请实施例提供的一种数据修复流程图,结合图6,对上述训练数据获取方法进行说明,首先,该计算机设备执行数据过滤和标准化的步骤601,即基于AQUA、PHYS、ESOL、OCHEM、AQSOL、CHEMBL这六个训练数据执行上述步骤302和步骤303,得到过滤后的数据;然后,该计算机设备执行数据集质量评估以及权重赋值的步骤602,即执行上述步骤304中的内容;最后,计算机设备执行聚类修复和质量提升评估的步骤603,即执行上述步骤305至步骤308中的内容,完成数据清洗和数据修复,分别得到清洗后的数据和修复后的数据。表4示出了经过各个数据处理阶段,训练数据集所包括的数据量以及训练数据集对应的第二权重。
表4
Figure BDA0002575320250000211
又表4中的数据可知,在数据清洗、数据修复过程中,由于涉及到溶解度数据的聚类、合并,因此,经过数据清洗和数据修复阶段后的训练数据集的数据量会有所变化。这六个训练数据集中,AQUA、PHYS、ESOL的数据质量较高,其对应的第二权重均大于其他训练数据集的第二权重。
在本申请实施例中,可以基于各个阶段获得的训练数据集来进行模型训练,表5示出了基于各个阶段的训练数据集进行模型训练时,训练得到的溶解度预测模型的模型预测精度信息。其中,该模型预测精度信息表示为溶解度预测模型的RMSE指标及其置信区间。
表5
Figure BDA0002575320250000221
图7是本申请实施例提供的一种模型训练结果示意图,结合表5中的数据以及图7可知,经过数据修复的训练数据集,其对应的RMSE指标更低,即模型训练效果更好。根据表5中的数据可知,由于数据清洗节点涉及相同数据聚类,清洗后的数据增多,且在模型训练时使用加权的溶解度预测模型Chemprop来进行计算,因此,RMSE指标有所提高,在数据修复后RMSE会回落。
应用本申请实施例提供的技术方案进行数据修复,基于修复后数据训练的模型,相比于用原始训练数据集训练的模型,RMSE呈现明显下降的趋势。例如,最低的RMSE分数应用是CHEMBL训练的模型获得的,其RMSE低至0.35(置信区间为0.009)。应用ESOL训练的模型获得的RMSE指标从0.594降低到0.551,即RMSE指标在LogS单位上降低了0.043。利用其他修复后的训练数据集,采用随机数据划分策略,AQUA、PHYSP、OCHEM、AQSOL、CHEMBL训练的模型分别在RMSE指标上下降了0.044、0.042、0.004、0.41、0.55。基于scaffold数据划分策略,在AQUA、PHYSP、OCHEM、AQSOL、CHEMBL上的RMSE指标分别下降了0.12、0.08、0.06、0.371、0.96。
上述所有可选技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
图8是本申请实施例提供的一种溶解度预测模型的训练数据获取装置的结构示意图,参见图8,该装置包括:
第一获取模块801,用于获取至少两个训练数据集的第一溶解度数据,一个第一溶解度数据包括一个分子数据的溶解度值;
第二获取模块802,用于分别将每个训练数据集中重复的该第一溶解度数据合并,得到该每个训练数据集对应的第二溶解度数据以及各个第二溶解度数据的第一权重,该第一权重用于指示该第二溶解度数据对应的该第一溶解度数据的重复度;
第一确定模块803,用于基于该每个训练数据集的该第一溶解度数据,对溶解度预测模型进行训练,基于该溶解度预测模型的模型预测结果,确定该每个训练数据集对应的第二权重,该第二权重用于指示该每个训练数据集的数据准确度;
第二确定模块804,用于对于任一训练数据集,基于该每个训练数据集对应的第二权重,从该至少两个训练数据集中确定至少一个训练数据集,作为该任一训练数据集对应的至少一个参考数据集;
数据修复模块805,用于基于该任一训练数据集对应的参考数据集对应的第二权重、该参考数据集对应的第二溶解度数据以及各个该第二溶解度数据的第一权重,对该任一训练数据集进行数据修复,得到目标训练数据,一个该目标训练数据包括一个分子数据的溶解度值以及该溶解度值的目标权重,该目标权重用于指示该溶解度数据的准确度。
在一种可能实现方式中,该第二获取模块802,用于:
对于每个训练数据集,将对应于相同分子数据的该第一溶解度数据分为一组,得到至少两组溶解度数据;
对于每一组溶解度数据,分别将包括相同溶解度值的该第一溶解度数据合并,得到至少一个第二溶解度数据;
基于该第二溶解度数据所包含该第一溶解度数据的数目,确定该第二溶解度数据的该第一权重。
在一种可能实现方式中,该第一确定模块803,用于:
对于该每个训练数据集,基于训练数据集中第一目标数量的该第一溶解度数据,对该溶解度预测模型进行训练,得到训练好的溶解度预测模型;
对于该每个训练数据集,基于训练数据集中第二目标数量的该第一溶解度数据,确定该训练好的溶解度预测模型的模型预测精度;
基于该每个训练数据集对应的该模型预测精度,确定该每个训练数据集对应的第二权重,该第二权重与该模型预测精度正相关。
在一种可能实现方式中,该第二确定模块804,用于:
将该每个训练数据集对应的第二权重与该任一训练数据集对应的第二权重进行比较;
获取所对应的第二权重大于或等于该任一训练数据集对应的第二权重的该训练数据集,作为该任一训练数据集对应的参考数据集。
在一种可能实现方式中,该数据修复模块805包括:
生成子模块,用于基于该参考数据集对应的第二权重、该参考数据集对应的第二溶解度数据以及各个该第二溶解度数据的第一权重,生成修复数据集,该修复数据集包括该参考数据集对应的第二溶解度数据以及各个该第二溶解度数据的第三权重,该第三权重用于指示该第二溶解度数据的准确度;
修复子模块,用于基于该修复数据集,对该任一训练数据集进行数据修复,得到目标训练数据。
在一种可能实现方式中,该生成子模块,用于:
将该第二溶解度数据的第一权重、该第二溶解度数据所属的参考数据集对应的第二权重相乘,得到该第二溶解度数据的该第三权重;
基于该至少一个参考数据集对应的第二溶解度数据以及各个第二溶解度数据的第三权重,生成该修复数据集。
在一种可能实现方式中,该修复子模块包括:
数据确定单元,用于将该任一训练数据的该第二溶解度数据对应的分子数据,确定为待修复分子数据;
数据组获取单元,用于基于该待修复分子数据,对该修复数据集对应的该第二溶解度数据进行分组,得到每个该待修复分子数据对应的一个修复数据组;
数据修复单元,用于对于每一个修复数据组,基于修复数据组中的该第二溶解度数据以及该第二溶解度数据的第三权重,对该任一训练数据集进行数据修复,得到至少一个目标训练数据。
在一种可能实现方式中,该数据修复单元包括:
排序子单元,用于对于每一个修复数据组中的该第二溶解度数据,按照该第二溶解度数据中溶解度值的大小,对该第二溶解度数据进行排序;
差值获取子单元,用于从已排序的该第二溶解度数据中,依次获取相邻两个第二溶解度数据的溶解度差值;
比较子单元,用于将该溶解度值与第一阈值进行比较;
数据确定子单元,用于基于比较结果、该相邻两个第二溶解度数据以及各个第二溶解度数据的第三权重,确定该至少一个目标训练数据。
在一种可能实现方式中,该数据确定子单元,用于:
响应于该溶解度差值小于或等于该第一阈值,将该相邻两个第二溶解度数据的溶解度值合并为一个目标训练数据的溶解度值,将该相邻两个第二溶解度数据的第三权重之和确定为该一个目标训练数据的目标权重;
响应于该溶解度差值大于该第一阈值,分别将该相邻两个第二溶解度数据的溶解度值以及各个第二溶解度数据的第三权重,确定为目标训练数据。
在一种可能实现方式中,该装置还包括:
正则化模块,用于基于第二阈值,对该目标训练数据的目标权重进行正则化处理。
在一种可能实现方式中,该正则化模块,用于:
将该目标训练数据的目标权重与该第二阈值进行比较;
响应于该目标权重大于该第二阈值,将该目标权重的数值设置为该第二阈值;响应于该目标权重小于或等于该第二阈值,不修改该目标权重;
将该目标权重除以该第二阈值,得到正则化的该目标权重。
在一种可能实现方式中,该装置还包括:
筛选模块,用于基于该第一溶解度数据所对应分子数据的分子标准化结果、分子构成以及该第一溶解度数据的数据测量环境信息中的至少一项,对该第一溶解度数据进行筛选;基于筛选后的该第一溶解度数据,执行该分别将每个训练数据集中重复的该第一溶解度数据合并,得到该每个训练数据集对应的第二溶解度数据以及各个第二溶解度数据的第一权重的步骤。
在一种可能实现方式中,该筛选模块,用于执行下述至少一项:
对该第一溶解度数据所对应的分子数据,进行分子结构标准化,去除未通过分子结构标准化的分子数据对应的该第一溶解度数据;
获取该第一溶解度数据的数据测量环境信息,去除数据测量环境信息不满足目标条件的该第一溶解度数据;
基于该第一溶解度数据所对应分子数据的分子构成,去除分子构成中包括目标粒子的分子数据对应的该第一溶解度数据。
本申请实施例提供的装置,通过对每个训练数据集进行重复数据合并,确定每个训练数据集对应的第二溶解度数据以及各个数据的重复度;应用各个训练数据集训练模型,基于模型训练结果为训练数据集分配第二权重,由第二权重来指示训练数据集的数据质量;再基于数据质量高的训练数据集所对应的第二溶解度数据,对待修复训练数据集进行数据修复,得到包含权重信息的目标训练数据。应用上述装置,基于高质量的数据进行数据修复,从而无需人工修改错误数据,且目标训练数据包括用于指示数据准确度的权重信息,准确度低的数据对应的权重小,从而可以降低准确度低的目标训练数据对模型训练的影响。
需要说明的是:上述实施例提供的溶解度预测模型的训练数据获取装置在训练数据获取时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的溶解度预测模型的训练数据获取装置与溶解度预测模型的训练数据获取方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
上述技术方案所提供的计算机设备可以实现为终端或服务器,例如,图9是本申请实施例提供的一种终端的结构示意图。该终端900可以是:智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端900还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,终端900包括有:一个或多个处理器901和一个或多个存储器902。
处理器901可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器901可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器901也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器901可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器901还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器902可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器902还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器902中的非暂态的计算机可读存储介质用于存储至少一条程序代码,该至少一条程序代码用于被处理器901所执行以实现本申请中方法实施例提供的溶解度预测模型的训练数据获取方法。
在一些实施例中,终端900还可选包括有:外围设备接口903和至少一个外围设备。处理器901、存储器902和外围设备接口903之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口903相连。具体地,外围设备包括:射频电路904、显示屏905、摄像头组件906、音频电路907、定位组件908和电源909中的至少一种。
外围设备接口903可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器901和存储器902。在一些实施例中,处理器901、存储器902和外围设备接口903被集成在同一芯片或电路板上;在一些其他实施例中,处理器901、存储器902和外围设备接口903中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路904用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路904通过电磁信号与通信网络以及其他通信设备进行通信。射频电路904将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路904包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路904可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路904还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏905用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏905是触摸显示屏时,显示屏905还具有采集在显示屏905的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器901进行处理。此时,显示屏905还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏905可以为一个,设置终端900的前面板;在另一些实施例中,显示屏905可以为至少两个,分别设置在终端900的不同表面或呈折叠设计;在一些实施例中,显示屏905可以是柔性显示屏,设置在终端900的弯曲表面上或折叠面上。甚至,显示屏905还可以设置成非矩形的不规则图形,也即异形屏。显示屏905可以采用LCD(LiquidCrystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件906用于采集图像或视频。可选地,摄像头组件906包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件906还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路907可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器901进行处理,或者输入至射频电路904以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端900的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器901或射频电路904的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路907还可以包括耳机插孔。
定位组件908用于定位终端900的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件908可以是基于美国的GPS(GlobalPositioning System,全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。
电源909用于为终端900中的各个组件进行供电。电源909可以是交流电、直流电、一次性电池或可充电电池。当电源909包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端900还包括有一个或多个传感器910。该一个或多个传感器910包括但不限于:加速度传感器911、陀螺仪传感器912、压力传感器913、指纹传感器914、光学传感器915以及接近传感器916。
加速度传感器911可以检测以终端900建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器911可以用于检测重力加速度在三个坐标轴上的分量。处理器901可以根据加速度传感器911采集的重力加速度信号,控制显示屏905以横向视图或纵向视图进行用户界面的显示。加速度传感器911还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器912可以检测终端900的机体方向及转动角度,陀螺仪传感器912可以与加速度传感器911协同采集用户对终端900的3D动作。处理器901根据陀螺仪传感器912采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器913可以设置在终端900的侧边框和/或显示屏905的下层。当压力传感器913设置在终端900的侧边框时,可以检测用户对终端900的握持信号,由处理器901根据压力传感器93采集的握持信号进行左右手识别或快捷操作。当压力传感器913设置在显示屏905的下层时,由处理器901根据用户对显示屏905的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器914用于采集用户的指纹,由处理器901根据指纹传感器914采集到的指纹识别用户的身份,或者,由指纹传感器914根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器901授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器914可以被设置终端900的正面、背面或侧面。当终端900上设置有物理按键或厂商Logo时,指纹传感器914可以与物理按键或厂商Logo集成在一起。
光学传感器915用于采集环境光强度。在一个实施例中,处理器901可以根据光学传感器915采集的环境光强度,控制显示屏905的显示亮度。具体地,当环境光强度较高时,调高显示屏905的显示亮度;当环境光强度较低时,调低显示屏905的显示亮度。在另一个实施例中,处理器901还可以根据光学传感器915采集的环境光强度,动态调整摄像头组件906的拍摄参数。
接近传感器916,也称距离传感器,通常设置在终端900的前面板。接近传感器916用于采集用户与终端900的正面之间的距离。在一个实施例中,当接近传感器916检测到用户与终端900的正面之间的距离逐渐变小时,由处理器901控制显示屏905从亮屏状态切换为息屏状态;当接近传感器916检测到用户与终端900的正面之间的距离逐渐变大时,由处理器901控制显示屏905从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图9中示出的结构并不构成对终端900的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
图10是本申请实施例提供的一种服务器的结构示意图,该服务器1000可因配置或性能不同而产生比较大的差异,可以包括一个或多个处理器(Central Processing Units,CPU)1001和一个或多个的存储器1002,其中,该一个或多个存储器1002中存储有至少一条程序代码,该至少一条程序代码由该一个或多个处理器1001加载并执行以实现上述各个方法实施例提供的方法。当然,该服务器1000还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器1000还可以包括其他用于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括至少一条程序代码的存储器,上述至少一条程序代码可由处理器执行以完成上述实施例中的溶解度预测模型的训练数据获取方法。例如,该计算机可读存储介质可以是只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、只读光盘(Compact DiscRead-Only Memory,CD-ROM)、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种计算机程序产品,该计算机程序产品包括至少一条程序代码,该至少一条程序代码存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该至少一条程序代码,处理器执行该至少一条程序代码,使得该计算机设备实现该溶解度预测模型的训练数据获取方法所执行的操作。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来至少一条程序代码相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
上述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (15)

1.一种溶解度预测模型的训练数据获取方法,其特征在于,所述方法包括:
获取至少两个训练数据集的第一溶解度数据,一个第一溶解度数据包括一个分子数据的溶解度值;
分别将每个训练数据集中重复的所述第一溶解度数据合并,得到所述每个训练数据集对应的第二溶解度数据以及各个第二溶解度数据的第一权重,所述第一权重用于指示所述第二溶解度数据对应的所述第一溶解度数据的重复度;
基于所述每个训练数据集的所述第一溶解度数据,对溶解度预测模型进行训练,基于所述溶解度预测模型的模型预测结果,确定所述每个训练数据集对应的第二权重,所述第二权重用于指示所述每个训练数据集的数据准确度;
对于任一训练数据集,基于所述每个训练数据集对应的第二权重,从所述至少两个训练数据集中确定至少一个训练数据集,作为所述任一训练数据集对应的至少一个参考数据集;
基于所述任一训练数据集对应的参考数据集的第二权重、所述参考数据集对应的第二溶解度数据以及各个所述第二溶解度数据的第一权重,对所述任一训练数据集进行数据修复,得到目标训练数据,一个所述目标训练数据包括一个分子数据的溶解度值以及所述溶解度值的目标权重,所述目标权重用于指示所述溶解度数据的准确度。
2.根据权利要求1所述的方法,其特征在于,所述分别将每个训练数据集中重复的所述第一溶解度数据合并,得到所述每个训练数据集对应的第二溶解度数据以及各个第二溶解度数据的第一权重,包括:
对于每个训练数据集,将对应于相同分子数据的所述第一溶解度数据分为一组,得到至少两组溶解度数据;
对于每一组溶解度数据,分别将包括相同溶解度值的所述第一溶解度数据合并,得到至少一个第二溶解度数据;
基于所述第二溶解度数据所包含所述第一溶解度数据的数目,确定所述第二溶解度数据的所述第一权重。
3.根据权利要求1所述的方法,其特征在于,所述基于所述每个训练数据集的所述第一溶解度数据,对溶解度预测模型进行训练,基于所述溶解度预测模型的模型预测结果,确定所述每个训练数据集对应的第二权重,包括:
对于所述每个训练数据集,基于训练数据集中第一目标数量的所述第一溶解度数据,对所述溶解度预测模型进行训练,得到训练好的溶解度预测模型;
对于所述每个训练数据集,基于训练数据集中第二目标数量的所述第一溶解度数据,确定所述训练好的溶解度预测模型的模型预测精度;
基于所述每个训练数据集对应的所述模型预测精度,确定所述每个训练数据集对应的第二权重,所述第二权重与所述模型预测精度正相关。
4.根据权利要求1所述的方法,其特征在于,所述对于任一训练数据集,基于所述每个训练数据集对应的第二权重,从所述至少两个训练数据集中确定至少一个训练数据集,作为所述任一训练数据集对应的至少一个参考数据集,包括:
将所述每个训练数据集对应的第二权重与所述任一训练数据集对应的第二权重进行比较;
获取所对应的第二权重大于或等于所述任一训练数据集对应的第二权重的所述训练数据集,作为所述任一训练数据集对应的参考数据集。
5.根据权利要求1所述的方法,其特征在于,所述基于所述任一训练数据集对应的参考数据集的第二权重、所述参考数据集对应的第二溶解度数据以及各个所述第二溶解度数据的第一权重,对所述任一训练数据集进行数据修复,得到目标训练数据,包括:
基于所述参考数据集对应的第二权重、所述参考数据集对应的第二溶解度数据以及各个所述第二溶解度数据的第一权重,生成修复数据集,所述修复数据集包括所述参考数据集对应的第二溶解度数据以及各个所述第二溶解度数据的第三权重,所述第三权重用于指示所述第二溶解度数据的准确度;
基于所述修复数据集,对所述任一训练数据集进行数据修复,得到目标训练数据。
6.根据权利要求5所述的方法,其特征在于,所述基于所述参考数据集对应的第二权重、所述参考数据集对应的第二溶解度数据以及各个所述第二溶解度数据的第一权重,生成修复数据集,包括:
将所述第二溶解度数据的第一权重、所述第二溶解度数据所属的参考数据集对应的第二权重相乘,得到所述第二溶解度数据的所述第三权重;
基于所述至少一个参考数据集对应的第二溶解度数据以及各个第二溶解度数据的第三权重,生成所述修复数据集。
7.根据权利要求5所述的方法,其特征在于,所述基于所述修复数据集,对所述任一训练数据集进行数据修复,得到目标训练数据,包括:
将所述任一训练数据的所述第二溶解度数据对应的分子数据,确定为待修复分子数据;
基于所述待修复分子数据,对所述修复数据集对应的所述第二溶解度数据进行分组,得到每个所述待修复分子数据对应的一个修复数据组;
对于每一个修复数据组,基于修复数据组中的所述第二溶解度数据以及所述第二溶解度数据的第三权重,对所述任一训练数据集进行数据修复,得到至少一个目标训练数据。
8.根据权利要求7所述的方法,其特征在于,所述对于每一个修复数据组,基于修复数据组中的所述第二溶解度数据以及所述第二溶解度数据的第三权重,对所述任一训练数据集进行数据修复,得到至少一个目标训练数据,包括:
对于每一个修复数据组中的所述第二溶解度数据,按照所述第二溶解度数据中溶解度值的大小,对所述第二溶解度数据进行排序;
从已排序的所述第二溶解度数据中,依次获取相邻两个第二溶解度数据的溶解度差值;
将所述溶解度值与第一阈值进行比较;
基于比较结果、所述相邻两个第二溶解度数据以及各个第二溶解度数据的第三权重,确定所述至少一个目标训练数据。
9.根据权利要求8所述的方法,其特征在于,所述基于比较结果、所述相邻两个第二溶解度数据以及各个第二溶解度数据的第三权重,确定所述至少一个目标训练数据,包括:
响应于所述溶解度差值小于或等于所述第一阈值,将所述相邻两个第二溶解度数据的溶解度值合并为一个目标训练数据的溶解度值,将所述相邻两个第二溶解度数据的第三权重之和确定为所述一个目标训练数据的目标权重;
响应于所述溶解度差值大于所述第一阈值,分别将所述相邻两个第二溶解度数据的溶解度值以及各个第二溶解度数据的第三权重,确定为目标训练数据。
10.根据权利要求1所述的方法,其特征在于,所述基于所述任一训练数据集对应的参考数据集的第二权重、所述参考数据集对应的第二溶解度数据以及各个所述第二溶解度数据的第一权重,对所述任一训练数据集进行数据修复,得到目标训练数据之后,所述方法还包括:
基于第二阈值,对所述目标训练数据的目标权重进行正则化处理。
11.根据权利要求1所述的方法,其特征在于,所述分别将每个训练数据集中重复的所述第一溶解度数据合并,得到所述每个训练数据集对应的第二溶解度数据以及各个第二溶解度数据的第一权重之前,所述方法还包括:
基于所述第一溶解度数据所对应分子数据的分子标准化结果、分子构成以及所述第一溶解度数据的数据测量环境信息中的至少一项,对所述第一溶解度数据进行筛选;
基于筛选后的所述第一溶解度数据,执行所述分别将每个训练数据集中重复的所述第一溶解度数据合并,得到所述每个训练数据集对应的第二溶解度数据以及各个第二溶解度数据的第一权重的步骤。
12.根据权利要求11所述的方法,其特征在于,所述基于所述第一溶解度数据所对应分子数据的分子标准化结果、分子构成以及所述第一溶解度数据的数据测量环境信息中的至少一项,对所述第一溶解度数据进行筛选,包括下述至少一项:
对所述第一溶解度数据所对应的分子数据,进行分子结构标准化,去除未通过分子结构标准化的分子数据对应的所述第一溶解度数据;
获取所述第一溶解度数据的数据测量环境信息,去除数据测量环境信息不满足目标条件的所述第一溶解度数据;
基于所述第一溶解度数据所对应分子数据的分子构成,去除分子构成中包括目标粒子的分子数据对应的所述第一溶解度数据。
13.一种溶解度预测模型的训练数据获取装置,其特征在于,所述装置包括:
第一获取模块,用于获取至少两个训练数据集的第一溶解度数据,一个第一溶解度数据包括一个分子数据的溶解度值;
第二获取模块,用于分别将每个训练数据集中重复的所述第一溶解度数据合并,得到所述每个训练数据集对应的第二溶解度数据以及各个第二溶解度数据的第一权重,所述第一权重用于指示所述第二溶解度数据对应的所述第一溶解度数据的重复度;
第一确定模块,用于基于所述每个训练数据集的所述第一溶解度数据,对溶解度预测模型进行训练,基于所述溶解度预测模型的模型预测结果,确定所述每个训练数据集对应的第二权重,所述第二权重用于指示所述每个训练数据集的数据准确度;
第二确定模块,用于对于任一训练数据集,基于所述每个训练数据集对应的第二权重,从所述至少两个训练数据集中确定至少一个训练数据集,作为所述任一训练数据集对应的至少一个参考数据集;
数据修复模块,用于基于所述任一训练数据集对应的参考数据集的第二权重、所述参考数据集对应的第二溶解度数据以及各个所述第二溶解度数据的第一权重,对所述任一训练数据集进行数据修复,得到目标训练数据,一个所述目标训练数据包括一个分子数据的溶解度值以及所述溶解度值的目标权重,所述目标权重用于指示所述溶解度数据的准确度。
14.一种计算机设备,其特征在于,所述计算机设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条程序代码,所述至少一条程序代码由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求12任一项所述的溶解度预测模型的训练数据获取方法所执行的操作。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行以实现如权利要求1至权利要求12任一项所述的溶解度预测模型的训练数据获取方法所执行的操作。
CN202010652020.2A 2020-07-08 2020-07-08 溶解度预测模型的训练数据获取方法及装置 Active CN111599417B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010652020.2A CN111599417B (zh) 2020-07-08 2020-07-08 溶解度预测模型的训练数据获取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010652020.2A CN111599417B (zh) 2020-07-08 2020-07-08 溶解度预测模型的训练数据获取方法及装置

Publications (2)

Publication Number Publication Date
CN111599417A true CN111599417A (zh) 2020-08-28
CN111599417B CN111599417B (zh) 2023-10-20

Family

ID=72192580

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010652020.2A Active CN111599417B (zh) 2020-07-08 2020-07-08 溶解度预测模型的训练数据获取方法及装置

Country Status (1)

Country Link
CN (1) CN111599417B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113903409A (zh) * 2021-12-08 2022-01-07 北京晶泰科技有限公司 一种分子数据处理方法、模型构建与预测方法及相关装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010086332A (ja) * 2008-09-30 2010-04-15 Canon Inc 検索方法及び検索装置
US20130173503A1 (en) * 2010-08-25 2013-07-04 Matthew Segall Compound selection in drug discovery
US20150379430A1 (en) * 2014-06-30 2015-12-31 Amazon Technologies, Inc. Efficient duplicate detection for machine learning data sets
CN110147852A (zh) * 2019-05-29 2019-08-20 北京达佳互联信息技术有限公司 图像识别的方法、装置、设备及存储介质
CN110874648A (zh) * 2020-01-16 2020-03-10 支付宝(杭州)信息技术有限公司 联邦模型的训练方法、系统和电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010086332A (ja) * 2008-09-30 2010-04-15 Canon Inc 検索方法及び検索装置
US20130173503A1 (en) * 2010-08-25 2013-07-04 Matthew Segall Compound selection in drug discovery
US20150379430A1 (en) * 2014-06-30 2015-12-31 Amazon Technologies, Inc. Efficient duplicate detection for machine learning data sets
CN110147852A (zh) * 2019-05-29 2019-08-20 北京达佳互联信息技术有限公司 图像识别的方法、装置、设备及存储介质
CN110874648A (zh) * 2020-01-16 2020-03-10 支付宝(杭州)信息技术有限公司 联邦模型的训练方法、系统和电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黄震;钱育蓉;于炯;英昌甜;赵京霞;: "一种Spark下分布式DBN并行加速策略", 微电子学与计算机, no. 11 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113903409A (zh) * 2021-12-08 2022-01-07 北京晶泰科技有限公司 一种分子数据处理方法、模型构建与预测方法及相关装置
CN113903409B (zh) * 2021-12-08 2023-07-07 北京晶泰科技有限公司 一种分子数据处理方法、模型构建与预测方法及相关装置

Also Published As

Publication number Publication date
CN111599417B (zh) 2023-10-20

Similar Documents

Publication Publication Date Title
CN111476306B (zh) 基于人工智能的物体检测方法、装置、设备及存储介质
CN110083791B (zh) 目标群组检测方法、装置、计算机设备及存储介质
CN111931877B (zh) 目标检测方法、装置、设备及存储介质
CN109784351B (zh) 行为数据分类方法、分类模型训练方法及装置
CN111325699B (zh) 图像修复方法和图像修复模型的训练方法
CN112069414A (zh) 推荐模型训练方法、装置、计算机设备及存储介质
CN111104980B (zh) 确定分类结果的方法、装置、设备及存储介质
CN111209377B (zh) 基于深度学习的文本处理方法、装置、设备及介质
CN111078521A (zh) 异常事件的分析方法、装置、设备、系统及存储介质
CN111738365B (zh) 图像分类模型训练方法、装置、计算机设备及存储介质
CN111597922A (zh) 细胞图像的识别方法、系统、装置、设备及介质
CN111708944A (zh) 多媒体资源识别方法、装置、设备及存储介质
CN111339737A (zh) 实体链接方法、装置、设备及存储介质
CN111931075B (zh) 一种内容推荐方法、装置、计算机设备及存储介质
CN111599417B (zh) 溶解度预测模型的训练数据获取方法及装置
CN113570510A (zh) 图像处理方法、装置、设备及存储介质
CN110728167A (zh) 文本检测方法、装置及计算机可读存储介质
CN112819103A (zh) 基于图神经网络的特征识别方法、装置、存储介质及终端
CN112818979A (zh) 文本识别方法、装置、设备及存储介质
CN114612887B (zh) 单据异常检测方法、装置、设备及计算机可读存储介质
CN113343709B (zh) 意图识别模型的训练方法、意图识别方法、装置及设备
CN113032560B (zh) 语句分类模型训练方法、语句处理方法及设备
CN111294253B (zh) 测试数据处理方法、装置、计算机设备及存储介质
CN111984803A (zh) 多媒体资源处理方法、装置、计算机设备及存储介质
CN113742430A (zh) 确定图数据中结点构成三角形结构个数的方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40028344

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant