CN112396134B - 发光材料性质的预测方法、系统、电子设备和存储介质 - Google Patents
发光材料性质的预测方法、系统、电子设备和存储介质 Download PDFInfo
- Publication number
- CN112396134B CN112396134B CN202110076244.8A CN202110076244A CN112396134B CN 112396134 B CN112396134 B CN 112396134B CN 202110076244 A CN202110076244 A CN 202110076244A CN 112396134 B CN112396134 B CN 112396134B
- Authority
- CN
- China
- Prior art keywords
- data
- deep learning
- luminescent material
- chemical structure
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/30—Prediction of properties of chemical compounds, compositions or mixtures
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/50—Molecular design, e.g. of drugs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C60/00—Computational materials science, i.e. ICT specially adapted for investigating the physical or chemical properties of materials or phenomena associated with their design, synthesis, processing, characterisation or utilisation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Crystallography & Structural Chemistry (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Medicinal Chemistry (AREA)
- Pharmacology & Pharmacy (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Electroluminescent Light Sources (AREA)
Abstract
本发明涉及数据处理技术领域,具体公开了一种发光材料性质的预测方法、系统、电子设备和存储介质,包括以下步骤:将发光材料的样本数据输入第一深度学习模型中训练,得到第二深度学习模型;获取待预测发光材料的化学结构简式的第一图像数据;对所述第一图像数据进行增强得到第二图像数据;将所述第二图像数据输入到第二深度学习模型中,对发光材料的发光性质进行预测。本发明提供的技术方案通过采用深度学习的人工智能的方法,因此可以自动化地预测发光材料的发光性质,从而大幅度降低了人工验证发光材料性质的成本,进而加速了发光材料研发的进程。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种发光材料性质的预测方法、系统、电子设备和存储介质。
背景技术
有机电致发光材料(以下简称发光材料)指在电场作用下能发出光的高分子或小分子有机材料。基于电子给体(Donor)和电子受体(Acceptor)形成的有机发光分子在有机电致发光材料领域里具有非常重要的地位。给-受体型有机发光分子特有的电荷转移特性,使其成为调控分子激发态特性的理想体系,基于给体单元和受体单元的分子设计,可实现较小的单线态-三线态能极差,进而实现100%的激子利用率。传统的方法会在实验室由给体和受体合成发光材料,在获得分子的基础上,进而验证分子发光的性质。凭借实验研发人员的个人经验,可以优先选择可能性更大的给体和受体,减少实验的次数。
然而基于传统方法的有机电致发光材料性质检测需要耗费大量的人力、物力、财力,并且极其依靠一些进口设备。比如如果有100个给体和100个受体,则至少有10000中组合方式,依次实验验证需要耗费大量的时间。即使依靠一些研发人员的个人经验能够选出效果更好地给体和受体,但是依靠个人经验的方法不能大范围推广。
随着机器学习技术在全世界范围内的发展,各个研究领域均开始不同程度地应用机器学习技术。面对一些传统的问题,机器学习从统计、数学、计算机的思路出发,为许多传统学科提供了新的思路,并且取得了一定成果,比如遥感领域、医学图像领域、代码安全领域等。所以也出现了一系列基于机器学习方法的预测材料性质的技术。然而这些技术虽然已经引入了深度学习的方法加速材料预测的进度,但是该方法严重依赖有限元模型生成的材料性能关系表,如果待预测的材料性能不具有高质量的数据,则几乎不能预测,不具有推广性。该技术方法的预测准确率只能保持在30%左右,虽然加速了性质预测的速度,但是在预测的精准度方法还有待提升。
综上所述,现有的发光材料性质预测技术具有人工试验成本过高、预测模型过于依赖人工标注、预测准确率过低的缺点。
发明内容
本发明的第一个目的在于提供一种有机电致发光材料性质的预测方法,以解决现有技术中数据量少,预测精准低的缺陷。
为了实现上述目的,本发明提供的技术方案为:
一种有机电致发光材料性质的预测方法,包括以下步骤:
训练步骤:将发光材料的样本数据输入第一深度学习模型中训练,得到第二深度学习模型,所述样本数据为经过增强处理数量扩充后的样本数据;
获取步骤:获取待预测发光材料的化学结构简式的第一数据;
增强步骤:对所述第一数据进行增强得到第二数据,获得的第二数据的数量大于所述第一数据的数量;
判断步骤:将所述第二数据输入到第二深度学习模型中,对发光材料的发光性质进行预测。
进一步地,在所述训练步骤中对所述样本数据进行数据增强,具体包括以下步骤:
对发光材料的化学结构简式对应的分子进行旋转、转置或拉伸操作得到第一化学结构简式;
以发光材料的化学结构简式对应的分子中的给体和受体结合的部分为原点,对局部结构进行旋转、转置或拉伸操作得到第二化学结构简式;
对部分所述第二化学结构简式对应的分子中的局部结构进行旋转、转置或拉伸操作得到第三化学结构简式;
将所述第一化学结构简式、第二化学结构简式和第三化学结构简式的数据作为所述样本数据输入第一深度学习模型中训练。
进一步地,所述训练步骤具体包括:
加载第一深度学习模型的模型参数和网络结构;
选择模型架构,确定目标输出;
将样本数据输入到第一深度学习模型中的卷积神经网络中,计算得到网络实际输出值;
判断网络实际输出值与所述目标输出之间的误差是否在允许再进行一次训练的范围内,若误差不在范围,则模型选择模块对所述卷积神经网络进行评估;
选择评估结果最好的模型架构作为第二深度学习模型。
进一步地,若所述误差在范围内,则包括以下步骤:
将所述误差传回所述卷积神经网络,计算整个所述卷积神经网络的误差并进行权值更新;
计算网络实际输出值,判断网络实际输出值与所述目标输出之间的误差是否在允许再进行一次训练的范围内。
进一步地,所述增强步骤具体包括:
在所述第一数据中标记待预测发光材料中给体与受体可能结合的位置,遍历给体与受体所有可能结合的位置,依次生成每一种可能下发光材料的第四化学结构简式;
对所述第四化学结构简式对应的分子中的给体和受体结合的部分为原点,对局部结构进行旋转、转置或拉伸操作,得到第五化学结构简式;
将所述第四化学结构简式和所述第五化学结构简式的数据作为所述第二数据。
进一步地,在所述判断步骤结束后,将预测发光性质符合预定要求的发光材料的化学结构简式进行标记,标记的化学结构简式的数据作为第三数据,将所述第二数据和第三数据作为所述样本数据。
相应地,还提供一种有机电致发光材料性质的预测系统,包括:数据增强模块,深度学习模块和结果反馈模块;
所述数据增强模块用于执行获取步骤和增强步骤,所述获取步骤获取待预测发光材料的化学结构简式的第一数据,所述增强步骤中对所述第一数据进行增强得到第二数据,所述数据增强模块并将所述第二数据发送至所述深度学习模块中;
所述深度学习模块用于执行训练步骤和判断步骤,所述训练步骤中将发光材料的样本数据输入第一深度学习模型中训练,得到第二深度学习模型,所述判断步骤中将所述第二数据输入到所述第二深度学习模型中,对发光材料的发光性质进行预测;
所述结果反馈模块根据所述深度学习模块预测的发光性质对发光材料进行选择。
进一步地,所述深度学习模块包括预训练模块、卷积神经网络和模型选择模块,所述预训练模块加载预训练模型,所述卷积神经网络基于所述预训练模型进行训练,所述模型选择模块所述卷积神经网络进行评估。
相应地,还提供一种电子设备,包括存储器和处理器,所述存储器上存储有有机电致发光材料性质的预测程序,所述有机电致发光材料性质的预测程序被所述处理器执行时实现上述有机电致发光材料性质的预测方法的步骤。
相应地,还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有有机电致发光材料性质的预测程序,所述有机电致发光材料性质的预测程序可被一个或者多个处理器执行,以实现上述的有机电致发光材料性质的预测方法的步骤。
与现有技术相比,本发明具有以下有益效果:
本发明提供的技术方案通过采用深度学习的人工智能的方法,因此可以自动化地预测发光材料的发光性质,从而大幅度降低了人工验证发光材料性质的成本,进而加速了发光材料研发的进程。并且本发明运用到深度学习方法中的发光材料数据经过数据增强获得了更多的数据,因此解决了深度学习需要大量数据的问题,大幅度降低了对人工标注数据的依赖。本发明根据发光材料的自身特点,设计了数据增强技术,让深度学习模型获得更多的训练数据,大幅度提升深度学习模型预测的准确度。
附图说明
图1是本发明实施例预测系统的结构示意图;
图2是本发明实施例预测方法流程示意图;
图3是本发明实施例数据增强步骤流程图;
图4是本发明实施例一种发光材料结构简式;
图5是本发明实施例发光材料给体和受体结构简式;
图6是本发明实施例转置后发光材料的结构简式;
图7是本发明实施例旋转后发光材料的结构简式;
图8是本发明实施例经过步骤S22处理得到的发光材料的结构简式;
图9是本发明实施例训练模型步骤流程图;
图10是本发明实施例预测发光性质步骤流程图。
附图标记:
100-数据增强模块;200-深度学习模块;300-结果反馈模块。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明,本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
还需要说明的是,当元件被称为“固定于”或“设置于”另一个元件上时,它可以直接在另一个元件上或者可能同时存在居中元件。当一个元件被称为是“连接”另一个元件,它可以是直接连接另一个元件或者可能同时存在居中元件。
另外,在本发明中涉及“第一”“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
图1为本发明提供的预测系统实施例的结构示意图。
请参考图1,具体包括数据增强模块100,深度学习模块200和结果反馈模块300。
本实施例中,数据增强模块100接收发光材料的数据,数据增强模块100对发光材料的数据进行增强,获取更多的发光材料的数据,并将所有的发光材料数据发送至深度学习模块200中。数据增强模块100也会拆分、再组合给体和受体,以此构造更多的发光材料分子,辅助深度学习系统训练出更加出色的模型和挖掘更好地给体、受体结合方式。
本实施例中,深度学习模块200包括预训练模块和训练模块,其中预训练模块会预置已经预训练好的深度学习模型,训练模块会基于原始发光材料数据和数据增强系统生成的数据,训练出一个能够预测发光材料发光性质的深度学习模型。该深度学习模块200中搭建了几种深度学习模型框架,根据每种模型框架的表现,为不同的任务选择表现更好的模型,以提高材料性质预测的准确率。
深度学习模块200接收增强后的发光材料数据,并对发光材料的性质进行预测,预测的发光材料的性质包括光致发光性质和电致发光性质,其中光致发光性质包括光致发光波长和荧光量子产率,电致发光性质包括电致发光波长和外量子效率。通过对发光材料光致和电致发光性质的了解,研发人员可以判断发光材料的发光性能优劣,为后续研发方向提供建议。
本实施例中,结果反馈模块300会对所有预测的结果进行排序,并推荐预测出来的发光性能最好的结构或者分子合成方向。
本实施例中,深度学习模块200包括预训练模块、卷积神经网络和模型选择模块。
图2为本发明提供的预测方法实施例的流程示意图。
请参考图2,具体包括以下步骤:
S1、输入数据
将发光材料化学结构简式的二维图像输入到数据增强模块中,本实施例中接收发光材料的结构简式二维图像作为输入,在其他实施例中发光材料还有其他表达形式,比如三维坐标,Smile等,这些其他表达形式均可以转换为结构简式,然后再使用本发明所提出的方法进行发光性质预测;结构简式一般是一个字符串,比如CH3CH2CH3,但是基于这个字符串,可以有很多其他表示,比如二维图像,三维图像,三维坐标,本发明实施例就是加载这个字符串,然后转换为其他表示方式;
S2、数据增强
数据增强模块对输入的数据进行增强,基于已有的数据构造更多高质量的训练样本,然后把数据增强后的训练样本和输入的发光材料化学结构简式的二维图像或化学结构简式的其他表现形式一起作为训练样本输入深度学习模块中;
S3、训练模型
深度学习模块获得输入的训练样本后,开始训练模型,在训练之前,会根据指定,加载预训练好的模型参数;
S4、预测发光性质
待预测性质的发光材料结构简式对应的分子可以是已经合成,待检测性质的材料,也可以是由数据增强系统构造的结构简式,模型的训练结束后,把待预测性质的发光材料结构简式的数据输入深度学习模块,深度学习模块将会预测出待预测性质的发光材料的发光性质。
S5、研发人员根据预测结果,制定研发策略
深度学习模块对发光材料的性质预测结束后,研究人员根据预测的结果调整研发的方向,选择可能性最大的结构进行研发,极大的节省了人力和物力。
下面对上述S1-S4步骤进行详细说明:
数据增强的具体步骤流程如图3所示。为了构造更多高质量的训练样本,帮助后续训练深度学习模型,根据原始数据的质量,本发明技术方案最高可以让原始数据规模扩大100倍。
请参考图3,为数据增强步骤的流程图,具体包括以下步骤:
S21、数据增强模块获得发光材料化学结构简式后,对整个化学简式对应的分子进行旋转、转置、拉伸等操作,生成更多的训练样本;
S22、以发光材料化学结构简式对应的分子中的给体与受体的部分为原点,对局部结构进行旋转、转置、拉伸等操作,进一步生成更多的训练样本;具体来说一般包括两类,第一类是指在给体受体的连接点处进行旋转等操作(本质是合成分子的给体和受体进行旋转、转置等操作后再结合),第二种是随机选择一些连接键位,对键位两侧的分子结构进行旋转,拉伸等,这个随机键位没有规律,单纯就是随机选几个原子连接的键;
S23、随机选择部分在步骤S22中局部结构旋转、转置、拉伸过的训练样本,对整个化学简式进行旋转、装置、拉伸等操作。
结合图4-8对数据增强步骤进行具体阐述。以图4为例,是一种发光材料化学分子的结构简式,该发光材料包括如图5中所示的给体和受体,该发光材料化学分子的结构简式由本发明实施例的组合算法自动组合而成,组合得到的结果符合自然化学式分子价位的要求。步骤S21中的拉伸即为放大缩小结构简式的二维图像,转置是对结构简式对应的分子结构进行转置,一般为镜像操作,对图4所示的结构简式对应的分子结构做转置处理后得到的结构简式对应的分子结构如图6所示,旋转是对结构简式的二维图像进行旋转,对图4所示的结构简式做旋转处理后得到的结构简式如图7所示。步骤S22中改变给体、受体的连接位点,自动构造新的分子,构造的新分子满足化学式价位规则,在寻找可连接位点的过程中,给体、受体进行了选择、转置操作,经过步骤S22得到的结构简式如图8所示。
本发明实施例的数据增强步骤通过上述的数据处理方法,让深度学习模型获得了更多的训练数据,降低对人工标注的依赖,大幅度提升深度学习模型预测的准确度。
训练模型的具体步骤流程如图9所示。深度学习模块由预训练模块、卷积神经网络、模型选择模块三部分组成。其中预训练模块主要负责加载预训练模型,预训练模型由无监督训练而来,训练数据来自研究数据和网络上的开源数据集,并且在对数据训练之前,先对所有数据进行了清洗以及预处理,预处理即把开源数据集的格式转换成本发明需要的格式,并且筛选掉一些不相关的数据。本实施例中的卷积神经网络包括输入层、卷积层、池化层和输出层,卷积神经网络不需要单独对输入的数据进行特征工程。其中,输入层:把输入的图像信息转换为数字矩阵信息;卷积层:使用过滤器,筛选出输入图像的特征;池化层:如果输入图像过大,池化层会降低输入图像的尺寸;输出层:对神经网络输出的每种类别的概率进行softmax操作,即选出概率最大的类。模型选择模块会在卷积神经网络训练结束后,对训练的模型效果进行验证,然后加载其他模型架构,重新训练,并且从多次训练中,选择效果最好的模型框架。本发明实施例具有数据测试集,根据模型在测试集上面预测结果的召回率,准确率和F1值,判断模型框架的好坏。
请参考图9,具体包括以下步骤:
S31、加载预训练的模型参数和网络结构;
S32、选择模型架构,确定输入层的输入数据和目标输出,输入即数据增强后的化学结构简式二维图像,输出即光致发光和电致发光的波长和发光效率的数值;
S33、依次传递数据经过输入层、卷积层、池化层的向前传播得到输出值,输出的值最后在输出层经过softmax函数,得到最后的网络实际输出值;
S34、求出网络实际输出值和目标输出之间的误差,判断误差是否在允许再进行一次训练的范围内,如果在,则进入步骤S35,如果不在,则结束训练,进入步骤S36;
S35、把误差传回神经网络,求出整个网络的误差并进行权值更新,然后进行步骤S33;
S36、当训练结束时,模型选择模块对卷积神经网络进行评估,评估卷积神经网络是否能够对发光材料的性质进行预测;
S37、如果存在没有训练的模型架构,则重新加载行的卷积神经网络框架,进行新的训练,进行步骤S32,如果已经全部训练完模型架构,则进入步骤S38;
S38、选择评估结果最好的模型架构,作为最终的深度神经网络系统,即能够对发光材料预测结果最准确的模型架构作为最终的深度神经网络。
本发明实施例采用了超过五种深度学习模块,为了防止因为深度学习算法的原因导致预测的结果不准确,该方法会自动根据在每一个化学数据集上面深度学习算法框架的表现,选择最适合的算法框架,进一步提高后续预测发光材料性质的准确率。具体地,深度学习模块的种类包括Resnet模型及相关变种,VGG模型及相关变种,GoogleLeNet模型及相关变种,ResNeXt模型及相关变种和经典CNN网络。在深度学习训练中,通过标记特定的化学式结构,保留了大量的化学结构简式的特征,避免了其他一些方法因为只处理数值化后的输入,导致丢失了很大一部分特征,提高了深度学习模型预测的准确度。
预测发光性质的具体步骤流程如图10所示。为了预测给体和受体结合后的发光材料分子的发光性质,必须尽可能地遍历给体和受体所有可能的组合,找到给体和受体所有能够结合的方式。
请参考图10,具体包括以下步骤:
S41、自动标记给体、受体中可能结合的位置,假设给体中有m个位置可以结合受体,受体中有n个位置可结合给体;
S42、在给体的m个结合位置中,假设一个结合位置m1,依次在m1处结合受体中所有n个位置,生成n个结合后的发光材料分子;
S43、在给体m个结合位置中,依次执行步骤S42,遍历给体、受体所有可能结合位置,依次生成每一种可能下的发光材料分子,最终得到m*n个结合后的分子;
S44、针对步骤S43中生成的m*n个发光材料分子,以化学结构简式中给体和受体结合的部分为原点,对局部结构进行旋转、转置、拉伸等操作,进一步生成更多的测试样本;
S45、深度学习模块会对所有输入的给体、受体组合进行预测,并且推荐当前最有可能获得优秀发光性质的给体、受体组合以及组合的方式,即满足符合要求的发光波长和发光效率的给体和受体的组合。
在具体的实施过程中,材料研发人员获得深度学习系统的预测结果后,会进行少量实验进行验证,再最终根据验证的结果决定之后的研发方向。预测结束后的数据还可以作为模型训练步骤中新的样本数据,进一步提高模型预测的准确率。
本发明实施例采用的方法通过机器学习,基于已有的数据,对新的发光材料的性质进行预测,包括发光的波长、发光效率等。为了更多地保留发光材料的结构信息,本发明实施例直接采用发光材料的结构简式二维图像或其他表现形式作为输入。
本发明实施例基于发光材料的数据增强方法,包括:首先通过常规的数据增强手段,对发光材料的化学结构式进行对称、翻转、旋转等操作,增加可用于训练深度学习模型的样本。除了上述常规手段,本发明实施例还基于发光材料有给体受体组合的特性,通过改变给体和受体的组合方式,进一步增加可用于深度学习模型的样本。最后,本发明实施例还把预训练技术率先引入发光材料性质预测领域。本发明实施例收集研发积累的数据以及互联网上面的其他数据,制作了发光材料领域的深度学习数据集。基于此数据集,本发明实施例利用无监督学习,预训练机器学习模型。最后,本发明把预训练好的机器学习模型迁移到发光材料性质预测的下游任务。
除了上述的数据增强方法,本发明实施例通过对发光性质优秀的化学结构的抽取和自动学习,该方法实施例首先会识别出化学结构简式中特定的结构,然后基于这些特定结构,推荐给体和受体的组合方式,最后基于给体和受体的组合,预测组合后的发光性质。
本发明实施例采用深度学习的方法,自动化地预测发光材料的发光性质,大幅降低了人工验证的成本,加速了材料研发的进程。
本发明还提供一种电子设备的实施例,包括存储器和处理器,存储器上存储有有机电致发光材料性质的预测程序,有机电致发光材料性质的预测程序被处理器执行时实现上述有机电致发光材料性质的预测方法的步骤。
本发明还提供一种计算机可读存储介质的实施例,计算机可读存储介质上存储有有机电致发光材料性质的预测程序,有机电致发光材料性质的预测程序可被一个或者多个处理器执行,以实现上述有机电致发光材料性质的预测方法的步骤。
综上所述,本发明实施例首先通过数据增强方法,解决了深度学习需要大量数据的困境,大幅降低对人工标注数据的依赖,降低人力成本。当在材料领域使用机器学习技术的时候,往往会面对数据困乏,模型过拟合等问题,面对小数据量的机器学习,本发明实施例根据发光材料的自身特点,设计了数据增强技术,让深度学习模型获得更多的训练数据,大幅提升随后预测的准确度。除此之外,本发明实施例通过标记特定的化学式结构,保留了大量的化学结构简式的特征,避免了其他一些方法因为只处理数值化后的输入,导致丢失了很大一部分特征,提高了深度学习模型预测的准确度。最后,本发明实施例实现了多种深度学习模型,可以根据实验的结果,实时选择效果更好的深度学习模型。通过深度学习预测发光材料的性质,大幅降低了实验成本,加速了研发速度;通过多次的数据增强,大幅提高了本发明预测性质的准确性,通过标记特定的化学式结构,避免了图像在数字化过程中丢失特征,更多地保留了原始数据的特征;同时,提供多种深度模型,当某一种模型出现过拟合或者效果很差时,可以参考其他模型的结果,降低了离群数据的影响;实验证明平均准确率提高了30%。
综上所述,本发明以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。
Claims (9)
1.一种有机电致发光材料性质的预测方法,其特征在于,包括以下步骤:
训练步骤:将发光材料的样本数据输入第一深度学习模型中训练,得到第二深度学习模型,所述样本数据为经过增强处理数量扩充后的样本数据;
获取步骤:获取待预测发光材料的化学结构简式的第一数据;
增强步骤:对所述第一数据进行增强得到第二数据,获得的第二数据的数量大于所述第一数据的数量;
判断步骤:将所述第二数据输入到第二深度学习模型中,对发光材料的发光性质进行预测;
在所述训练步骤中对所述样本数据进行数据增强,具体包括以下步骤:
对发光材料的化学结构简式对应的分子进行旋转、转置或拉伸操作得到第一化学结构简式;
以发光材料的化学结构简式对应的分子中的给体和受体结合的部分为原点,对局部结构进行旋转、转置或拉伸操作得到第二化学结构简式;
对部分所述第二化学结构简式对应的分子中的局部结构进行旋转、转置或拉伸操作得到第三化学结构简式;
将所述第一化学结构简式、第二化学结构简式和第三化学结构简式的数据作为所述样本数据输入第一深度学习模型中训练。
2.根据权利要求1所述的一种有机电致发光材料性质的预测方法,其特征在于,所述训练步骤具体包括:
加载第一深度学习模型的模型参数和网络结构;
选择模型架构,确定目标输出;
将样本数据输入到第一深度学习模型中的卷积神经网络中,计算得到网络实际输出值;
判断网络实际输出值与所述目标输出之间的误差是否在允许再进行一次训练的范围内,若误差不在范围,则模型选择模块对所述卷积神经网络进行评估;
选择评估结果最好的模型架构作为第二深度学习模型。
3.根据权利要求2所述的一种有机电致发光材料性质的预测方法,其特征在于,若所述误差在范围内,则包括以下步骤:
将所述误差传回所述卷积神经网络,计算整个所述卷积神经网络的误差并进行权值更新;
计算网络实际输出值,判断网络实际输出值与所述目标输出之间的误差是否在允许再进行一次训练的范围内。
4.根据权利要求1所述的一种有机电致发光材料性质的预测方法,其特征在于,所述增强步骤具体包括:
在所述第一数据中标记待预测发光材料中给体与受体可能结合的位置,遍历给体与受体所有可能结合的位置,依次生成每一种可能下发光材料的第四化学结构简式;
对所述第四化学结构简式对应的分子中的给体和受体结合的部分为原点,对局部结构进行旋转、转置或拉伸操作,得到第五化学结构简式;
将所述第四化学结构简式和所述第五化学结构简式的数据作为所述第二数据。
5.根据权利要求4所述的一种有机电致发光材料性质的预测方法,其特征在于,在所述判断步骤结束后,将预测发光性质符合预定要求的发光材料的化学结构简式进行标记,标记的化学结构简式的数据作为第三数据,将所述第二数据和第三数据作为所述样本数据。
6.一种有机电致发光材料性质的预测系统,其特征在于,包括:数据增强模块,深度学习模块和结果反馈模块;
所述数据增强模块用于执行获取步骤和增强步骤,所述获取步骤中获取待预测发光材料的化学结构简式的第一数据,所述增强步骤中对所述第一数据进行增强得到第二数据,所述数据增强模块并将所述第二数据发送至所述深度学习模块中;
所述深度学习模块用于执行训练步骤和判断步骤,所述训练步骤中将发光材料的样本数据输入第一深度学习模型中训练,得到第二深度学习模型,所述判断步骤中将所述第二数据输入到所述第二深度学习模型中,对发光材料的发光性质进行预测;
所述结果反馈模块根据所述深度学习模块预测的发光性质对发光材料进行选择。
7.根据权利要求6所述的一种有机电致发光材料性质的预测系统,其特征在于,所述深度学习模块包括预训练模块、卷积神经网络和模型选择模块,所述预训练模块加载预训练模型,所述卷积神经网络基于所述预训练模型进行训练,所述模型选择模块所述卷积神经网络进行评估。
8.一种电子设备,其特征在于,包括存储器和处理器,所述存储器上存储有有机电致发光材料性质的预测程序,所述有机电致发光材料性质的预测程序被所述处理器执行时实现如权利要求1-5中任一项所述的有机电致发光材料性质的预测方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有有机电致发光材料性质的预测程序,所述有机电致发光材料性质的预测程序可被一个或者多个处理器执行,以实现如权利要求1-5中任一项所述的有机电致发光材料性质的预测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110076244.8A CN112396134B (zh) | 2021-01-20 | 2021-01-20 | 发光材料性质的预测方法、系统、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110076244.8A CN112396134B (zh) | 2021-01-20 | 2021-01-20 | 发光材料性质的预测方法、系统、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112396134A CN112396134A (zh) | 2021-02-23 |
CN112396134B true CN112396134B (zh) | 2021-07-02 |
Family
ID=74625421
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110076244.8A Active CN112396134B (zh) | 2021-01-20 | 2021-01-20 | 发光材料性质的预测方法、系统、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112396134B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113283644A (zh) * | 2021-05-11 | 2021-08-20 | 内蒙古科技大学包头师范学院 | 基于机器学习预测单重态裂分材料的三重态产率的方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111651916A (zh) * | 2020-05-15 | 2020-09-11 | 北京航空航天大学 | 一种基于深度学习的材料性能预测方法 |
CN111831808A (zh) * | 2020-07-16 | 2020-10-27 | 中国科学院计算机网络信息中心 | 一种数据驱动的人工智能材料预测系统 |
CN111899816A (zh) * | 2020-07-17 | 2020-11-06 | 北京航空航天大学 | 基于人工智能数据分析的热电材料性能预测 |
CN111897987A (zh) * | 2020-07-10 | 2020-11-06 | 山西大学 | 一种基于演化计算多视图融合的分子结构图检索方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110826289B (zh) * | 2019-10-29 | 2021-09-14 | 中国地质大学(武汉) | 一种基于深度学习的纳米结构设计方法 |
CN111139527B (zh) * | 2020-04-07 | 2020-07-24 | 季华实验室 | 有机晶体材料的制备方法、有机晶体材料和发光元件 |
-
2021
- 2021-01-20 CN CN202110076244.8A patent/CN112396134B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111651916A (zh) * | 2020-05-15 | 2020-09-11 | 北京航空航天大学 | 一种基于深度学习的材料性能预测方法 |
CN111897987A (zh) * | 2020-07-10 | 2020-11-06 | 山西大学 | 一种基于演化计算多视图融合的分子结构图检索方法 |
CN111831808A (zh) * | 2020-07-16 | 2020-10-27 | 中国科学院计算机网络信息中心 | 一种数据驱动的人工智能材料预测系统 |
CN111899816A (zh) * | 2020-07-17 | 2020-11-06 | 北京航空航天大学 | 基于人工智能数据分析的热电材料性能预测 |
Also Published As
Publication number | Publication date |
---|---|
CN112396134A (zh) | 2021-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11907853B2 (en) | Using hierarchical representations for neural network architecture searching | |
CN109886359B (zh) | 基于卷积神经网络的小目标检测方法及检测系统 | |
US11176715B2 (en) | Method and system for color representation generation | |
KR102523472B1 (ko) | 신규 물질의 구조 생성 방법 및 장치 | |
CN112199520B (zh) | 基于细粒度相似性矩阵的跨模态哈希检索算法 | |
CN107862173A (zh) | 一种先导化合物虚拟筛选方法和装置 | |
CN111724867B (zh) | 分子属性测定方法、装置、电子设备及存储介质 | |
CN106991439A (zh) | 基于深度学习与迁移学习的图像识别方法 | |
CN110046692A (zh) | 产生化学结构的方法、神经网络设备和计算机可读记录介质 | |
CN110362723A (zh) | 一种题目特征表示方法、装置及存储介质 | |
CN103605711B (zh) | 支持向量机分类器的构造方法及装置、分类方法及装置 | |
Ke et al. | Data equilibrium based automatic image annotation by fusing deep model and semantic propagation | |
CN115062710A (zh) | 基于深度确定性策略梯度的联邦学习分类模型训练方法 | |
CN112396134B (zh) | 发光材料性质的预测方法、系统、电子设备和存储介质 | |
CN114912578B (zh) | 结构响应预测模型的训练方法、装置和计算机设备 | |
Heghedus et al. | Neural network frameworks. comparison on public transportation prediction | |
Feng et al. | Incremental few-shot object detection via knowledge transfer | |
Rashidian et al. | Predicting the shear behavior of cemented and uncemented carbonate sands using a genetic algorithm-based artificial neural network | |
Eirgash et al. | A novel oppositional teaching learning strategy based on the golden ratio to solve the Time-Cost-Environmental impact Trade-off optimization problems | |
Heidenreich et al. | Transfer learning of recurrent neural network‐based plasticity models | |
Bonakdari et al. | Machine Learning in Earth, Environmental and Planetary Sciences: Theoretical and Practical Applications | |
CN116484868A (zh) | 一种基于生成扩散模型的跨域命名实体识别方法及装置 | |
CN113470761B (zh) | 发光材料性质预测方法、系统、电子设备和存储介质 | |
CN114821248A (zh) | 面向点云理解的数据主动筛选标注方法和装置 | |
Kumar et al. | State-of-the-art XGBoost, RF and DNN based soft-computing models for PGPN piles |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |