CN115035966A - 基于主动学习和符号回归的超导体筛选方法、装置及设备 - Google Patents
基于主动学习和符号回归的超导体筛选方法、装置及设备 Download PDFInfo
- Publication number
- CN115035966A CN115035966A CN202210953283.6A CN202210953283A CN115035966A CN 115035966 A CN115035966 A CN 115035966A CN 202210953283 A CN202210953283 A CN 202210953283A CN 115035966 A CN115035966 A CN 115035966A
- Authority
- CN
- China
- Prior art keywords
- data
- decision tree
- feature
- compound
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C60/00—Computational materials science, i.e. ICT specially adapted for investigating the physical or chemical properties of materials or phenomena associated with their design, synthesis, processing, characterisation or utilisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02E—REDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
- Y02E40/00—Technologies for an efficient electrical power generation, transmission or distribution
- Y02E40/60—Superconducting electric elements or equipment; Power systems integrating superconducting elements or equipment
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及人工智能技术,揭露了一种基于主动学习和符号回归的超导体筛选方法,包括:对材料数据进行多类型联合数据清洗,得到有效数据,识别有效数据的数值计算特征、化学特征、空间群特征及掺杂特征;将数值计算特征、化学特征、空间群特征及掺杂特征进行关联度筛选,得到特征子集;利用预先训练的特征分析决策树模型根据特征子集对有效数据中每种化合物的超导能力进行分析,并选取符合预设条件的化合物为潜在高温超导体,其中,特征分析决策树模型是通过主动学习及符号回归的方式预先训练得到的回归模型。本发明还提出一种基于主动学习和符号回归的超导体筛选装置及设备。本发明可以提高解析高温超导材料筛选的精确度。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于主动学习和符号回归的超导体筛选方法、装置及电子设备。
背景技术
在现代科学技术发展的环境下,能源对人类生活的影响愈加重大。目前,探索和研究高节能、高效率的新能源材料成为了解决可持续发展的核心途径。超导材料以其独特的零电阻效应和完全抗磁性,能够在电力、交通等领域展现出非凡的前景。
现有的超导体筛选多为对低温超导体、铁基超导体和铜基超导体的分析筛选,鲜有对于高温超导体的分析筛选,且现有分析筛选方法多为基于单一机器学习模型的超导体分析,分析结果的精确度无法满足一些特定情景。
发明内容
本发明提供一种基于主动学习和符号回归的超导体筛选方法、装置及设备,其主要目的在于解决进行高温超导材料筛选的精确度较低的问题。
为实现上述目的,本发明提供的一种基于主动学习和符号回归的超导体筛选方法,包括:
对预先获取的多种化合物的材料数据进行多类型联合数据清洗,得到有效数据,并获取预设人员对所述有效数据进行反馈得到的数值计算特征;
从所述有效数据中提取每种化合物的化学特征,其中,所述化学特征包括化学计量特征、元素统计特征、电子结构特征以及离子化合物特征;
获取所述有效数据中每种化合物的空间群信息,对所述空间群信息进行自然编号,得到空间群特征;
根据所述有效数据中每种化合物内每个原子的占比提取每种化合物的掺杂特征;
将所述数值计算特征、所述化学特征、所述空间群特征及所述掺杂特征进行关联度筛选,得到特征子集;
利用预先训练的特征分析决策树模型根据所述特征子集对所述有效数据中每种化合物的超导能力进行分析,并选取符合预设条件的化合物为潜在高温超导体,其中,所述特征分析决策树模型是通过主动学习及符号回归的方式预先训练得到的回归模型。
可选地,所述对预先获取的多种化合物的材料数据进行多类型联合数据清洗,得到有效数据,包括:
删除所述材料数据内的重复数据,得到非重复材料数据;
利用以下至少两项操作的组合筛选出所述非重复材料数据中的异常数据:
构建所述非重复材料数据的分布散点图,并根据所述分布散点图筛选出所述非重复材料数据的异常数据;
利用四分位距箱型图法筛选出所述非重复材料数据的异常数据;
利用预先构建的随机森林概率模型筛选出所述非重复材料数据的异常数据;
利用基于无监督聚类的K-Means模型筛选出所述非重复材料数据的异常数据;
通过预设的数据修补方式对所述异常数据进行修补,并删除所述非重复材料数据内无法进行修补的数据,得到有效数据。
可选地,所述从所述有效数据中提取每种化合物的化学特征,包括:
逐个从所述有效数据中选取其中一种化合物的有效数据为待提取数据;
获取预设长度的空值向量,按照独热编码方式将所述待提取数据中每个元素的比例填入所述空值向量,并将填充后的向量作为所述待提取数据的化学计量特征;
将所述待提取数据内每种元素在周期表上的周期数、原子序数、原子量汇集为所述待提取数据的元素统计特征;
统计所述待提取数据内电子在不同电子层的数量和电子占比,得到所述待提取数据的电子结构特征;
获取所述待提取数据在单一氧化状态存在电负性信息,并确定所述电负性信息为所述待提取数据的离子化合物特征;
将所述化学计量特征、所述元素统计特征、所述电子结构特征和所述离子化合物特征汇集为所述待提取数据的化学特征。
可选地,所述利用预先训练的特征分析决策树模型根据所述特征子集对所述有效数据中每种化合物的超导能力进行分析,包括:
获取所述特征子集内每个特征的描述符;
利用基于遗传算法的符号回归学习方法,构建超导材料临界转变温度和所述描述符之间的变量关系;
利用所述特征分析决策树模型根据所述变量关系对所述有效数据中每种化合物的超导性能进行分析,得到所述有效数据中每种化合物的超导材料临界转变温度,完成超导能力分析。
可选地,所述特征分析决策树模型为以梯度提升树作为核心算法进行训练得到的LightGBM模型。
可选地,所述特征分析决策树模型可利用如下算法表达:
其中,F(x)为特征分析决策树,x为输入至特征分析决策树模型中的样本,Im(x)为第m棵决策树,cmj为第m棵决策树内第j个参数的权重,M为决策树的总数量,J为第m棵决策树内参数的总数量。
可选地,所述以梯度提升树作为核心算法进行训练包括:
计算所述特征分析决策树模型的损失值;
根据所述损失值对所述特征分析决策树模型进行负梯度方向的加和更新;
利用预设样本测试更新后的特征分析决策树模型的模型性能指标;
当所述模型性能指标小于或等于预设阈值时,返回根据所述损失值对所述特征分析决策树模型进行负梯度方向的加和更新的步骤;
当所述模型性能指标大于预设阈值时,完成对所述特征分析决策树模型的训练。
可选地,所述计算所述特征分析决策树模型的损失值,包括:
利用如下平方误差损失函数计算所述特征分析决策树模型的损失值:
其中,LMES为平方误差损失函数的输出值,N代表样本的总数量,yi为样本xi对应的真实值,γ为决策树叶节点的正则化项,K为当前决策树的叶节点个数,λ为L2正则化项的系数,a为L1正则化项的系数,Wk为当前决策树的第k个叶节点,Fm-1(xi)为第m-1个特征分析决策树模型对于第xi个样本的输出值。
为了解决上述问题,本发明还提供一种基于主动学习和符号回归的超导体筛选装置,所述装置包括:
数据清洗模块,用于对预先获取的多种化合物的材料数据进行多类型联合数据清洗,得到有效数据,并获取预设人员对所述有效数据进行反馈得到的数值计算特征;
第一特征提取模块,用于从所述有效数据中提取每种化合物的化学特征,其中,所述化学特征包括化学计量特征、元素统计特征、电子结构特征以及离子化合物特征;
第二特征提取模块,用于获取所述有效数据中每种化合物的空间群信息,对所述空间群信息进行自然编号,得到空间群特征,根据所述有效数据中每种化合物内每个原子的占比提取每种化合物的掺杂特征;
特征筛选模块,用于将所述数值计算特征、所述化学特征、所述空间群特征及所述掺杂特征进行关联度筛选,得到特征子集;
模型分析模块,用于利用预先训练的特征分析决策树模型根据所述特征子集对所述有效数据中每种化合物的超导能力进行分析,并选取符合预设条件的化合物为潜在高温超导体,其中,所述特征分析决策树模型是通过主动学习及符号回归的方式预先训练得到的回归模型。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述所述的基于主动学习和符号回归的超导体筛选方法。
本发明实施例通过多类型联合数据清洗,可提升材料数据的正确率,进而有利于提升最终分析筛选出的高温超导材料的精确度;同时,结合数值计算特征、化学特征、空间群特征和掺杂特征综合对材料数据进行分析,实现了多维度、多特征的综合考量,有利于提升最终进行高温超导材料筛选的精确度;且将主动学习集成算法的思想与符号回归的思想应用于分析筛选高温超导材料的模型构建中,进而使得利用构建出的模型对材料进行精确分析与筛选,提升筛选高温超导体的精确度。因此本发明提出的基于主动学习和符号回归的超导体筛选方法、装置及设备,可以解决进行高温超导材料预测的精确度较低的问题。
附图说明
图1为本发明一实施例提供的基于主动学习和符号回归的超导体筛选方法的流程示意图;
图2为本发明一实施例提供的提取每种化合物的掺杂特征的流程示意图;
图3为本发明一实施例提供的利用关联度筛选得到特征子集的流程示意图;
图4为本发明一实施例提供的基于主动学习和符号回归的超导体筛选装置的功能模块图;
图5为本发明一实施例提供的实现所述基于主动学习和符号回归的超导体筛选方法的电子设备的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本申请实施例提供一种基于主动学习和符号回归的超导体筛选方法。所述基于主动学习和符号回归的超导体筛选方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之,所述基于主动学习和符号回归的超导体筛选方法可以由安装在终端设备或服务端设备的软件或硬件来执行。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。所述服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
参照图1所示,为本发明一实施例提供的基于主动学习和符号回归的超导体筛选方法的流程示意图。在本实施例中,所述基于主动学习和符号回归的超导体筛选方法包括:
S1、对预先获取的多种化合物的材料数据进行多类型联合数据清洗,得到有效数据,并获取预设人员对所述有效数据进行反馈得到的数值计算特征。
本发明实施例中,可利用具有数据抓取功能的计算机指令从预先确定的数据库内抓取多种化合物的材料数据。
优选地,本发明实施例可从SuperCon数据库内记载的文献中获取包括非超导材料的材料特性数据以及超导材料的超导特性及其相关特性(化学式、相结构、Tc值等)的材料数据,其中,所述Tc值为材料对应的超导临界转变温度。
本发明其中一个实际应用场景中,由于材料数据是通过现有数据库内的数据抓取得到的,而数据库内的数据为多渠道记载所汇集而成的数据,因此,所述材料数据内可能包含部分记载错误数据,本发明实施例为了实现后续对超导体材料的精确筛选,可对所述材料数据进行数据清洗,以提升所述材料数据的正确性,进而有利于提升后续根据所述材料数据分析筛选超导体材料的精确度。
本发明实施例中,由于所述材料数据中包含众多化合物的数据,且每一种化合物的数据记载内容可能存在差异,因此,所述材料数据中可能包含着多种类型的错误数据,从而使得单一类型的数据清洗,无法去除所述材料数据内包含的多种不同类型的错误数据,因此,本发明实施例可采用多类型联合数据清洗,即以多种数据清洗方式的联合对所述材料数据进行清洗,得到所述材料数据的有效数据。
本发明实施例中,所述对预先获取的多种化合物的材料数据进行多类型联合数据清洗,得到有效数据,包括:
删除所述材料数据内的重复数据,得到非重复材料数据;
利用以下至少两项操作的组合筛选出所述非重复材料数据中的异常数据:构建所述非重复材料数据的分布散点图,并根据所述分布散点图筛选出所述非重复材料数据的异常数据;
利用四分位距箱型图法筛选出所述非重复材料数据的异常数据;
利用预先构建的随机森林概率模型筛选出所述非重复材料数据的异常数据;
利用基于无监督聚类的K-Means模型筛选出所述非重复材料数据的异常数据;
通过预设的数据修补方式对所述异常数据进行修补,并删除所述非重复材料数据内无法进行修补的异常数据,得到有效数据。
本发明实施例中,采用多类型的数据清洗进行组合对所述材料数据进行清洗,可实现对所述材料数据的精确清洗,
详细地,所述构建所述非重复材料数据的分布散点图,并根据所述分布散点图筛选出所述非重复材料数据的异常数据,包括:
利用Pandas内的数据查看方法描述所述非重复材料数据的总体分布;
根据所述总体分布生成所述非重复材料数据中不同数据的分布散点图;
计算所述总体分布的标准差,逐个从所述分布散点图内选取其中一个非重复材料数据为目标数据;
判断所述目标数据是否分布于所述标准差的预设区间范围内;
若所述目标数据分布于所述标准差的预设区间范围内,确定所述目标数据为正常数据,或者若所述目标数据未分布于所述标准差的预设区间范围内,确定所述目标数据为异常数据,并返回逐个从所述分布散点图内选取其中一个非重复材料数据为目标数据的步骤直至所述分布散点图内所述非重复材料数据选取完毕。
具体地,本发明实施例可利用Pandas内的describe()、value_counts()等方法来查看所述非重复材料数据的描述性统计信息,以快速了解所述非重复材料数据的总体分布,并通过观察所述总体分布内不同变量之间(或观察所述总体分布内不同变量与预设标签之间)的相对位置,得到所述非重复材料数据中不同数据的分布散点图。
优选地,所述标准差的预设区间范围为:[μ - 3σ, μ + 3σ],其中,μ为所述非重复材料数据的平均值,σ为所述非重复材料数据的标准差。
进一步地,本发明实施例中可通过测量非重复材料数据的四分位距(IQR)从而找出异常点。所述利用四分位距箱型图法筛选出所述非重复材料数据的异常数据,包括:将非重复材料数据按数值排序后第25%的数字作为第一四分位数Q1,第75%的数字作为第三四分位数Q3,中位数(50%)作为Q2,则IQR = Q3 - Q1。那么,规定IQR的1.5倍作为标准,则超过Q3+ 1.5 IQR或者Q1 - 1.5 IQR的非重复材料数据就为异常值。
本发明实施例中,所述利用预先构建的随机森林概率模型筛选出所述非重复材料数据的异常数据,是指通过建立一个随机森林的概率分布模型来确定非重复材料数据内每个数据符合该模型的概率大小,并将低概率的数据视为异常值。
本发明另一实施例中,所述利用基于无监督聚类的K-Means模型筛选出所述非重复材料数据的异常数据,包括:利用无监督聚类K-Means模型将非重复材料数据内每个数据自动聚集成n个簇,若非重复材料数据内某个数据不强属于任何一簇,那么该数据属于异常点。
进一步地,本发明其中一个实际应用场景中,由于现有材料数据中包含了部分算法模型无法进行提取以及分析的特征,因此,为了实现对所述有效数据的精确分析,可对所述有效数据中算法模型难以学习到的特征行人为提取(即将所述有效数据发送至预设人员,并获取预设人员对所述有效数据进行反馈得到的数值计算特征),其中,所述数值计算特征包括计数特征(count)、唯一性特征(unique)、比例特征(ratio)以及数值特征之间、数值与类别特征之间的相互组合等。
S2、从所述有效数据中提取每种化合物的化学特征,其中,所述化学特征包括化学计量特征、元素统计特征、电子结构特征以及离子化合物特征。
本发明其中一个实际应用场景中,化合物的表达方式是影响最终预测精确度的关键因素,这种表示方式通常被称为“特征”(features)。一个特征的构建需要考虑尽可能多的影响分析的相关因素。例如,影响原子化学键形成的描述符电负性,影响晶体结构的描述符离子半径以及影响电子传输的电导率等。通常,这些特征的组成需要从材料共性和化学物理性质的角度来考虑。
因此,本发明实施例可从多种角度提取所述有效数据中每种化合物的多类型的化学特征,其中,所述化学特征包括化学计量特征、元素统计特征、电子结构特征以及离子化合物特征。
本发明实施例中,所述从所述有效数据中提取每种化合物的化学特征,包括:
逐个从所述有效数据中选取其中一种化合物的有效数据为待提取数据;
获取预设长度的空值向量,按照独热编码方式将所述待提取数据中每个元素的比例填入所述空值向量,并将填充后的向量作为所述待提取数据的化学计量特征;
将所述待提取数据内每种元素在周期表上的周期数、原子序数、原子量汇集为所述待提取数据的元素统计特征;
统计所述待提取数据内电子在不同电子层的数量和电子占比,得到所述待提取数据的电子结构特征;
获取所述待提取数据在单一氧化状态存在电负性信息,并确定所述电负性信息为所述待提取数据的离子化合物特征;
将所述化学计量特征、所述元素统计特征、所述电子结构特征和所述离子化合物特征汇集为所述待提取数据的化学特征。
详细地,所述按照独热编码方式将所述待提取数据中每个元素的比例填入所述空值向量是指将待提取数据对应的化合物的元素种类和配比信息,通过独热编码(One-Hot)向量来表示,优选地,向量长度可以设置为91。然后,根据待提取数据对应的化合物的化学式,统计组成化合物的每个元素的比例,将其值填入到向量的对应位置,并用零填充剩余的空缺元素,得到所述待提取数据的化学计量特征。
具体地,可获取所述待提取数据对应化合物的电子组成信息,计算电子在元素原子的s、p、d、f层的数量和比例,以得到所述电子结构特征。
本发明实施例中,通过从化学计量特征、元素统计特征、电子结构特征以及离子化合物特征等多种特征维度提取所述有效数据中每种化合物的化学特征,可实现对不同化合物特征的全面提取,进而有利于提升后续对高温超导材料进行预测的精确度。
S3、获取所述有效数据中每种化合物的空间群信息,对所述空间群信息进行自然编号,得到空间群特征。
本发明实施例中,步骤S2提取的均为所述有效数据内不同化合物自身元素性质的化学特征,仅依靠化学特征高温超导材料进行分析与筛选的精确度仍无法满足部分需求,因此,本发明实施例,还可识别所述有效数据中每种化合物的空间群信息,并以此得到所述有效数据中每种化合物的空间群特征。
根据固体物理理论,晶体的全部宏观对称元素至少汇聚于一点,这些相交在一起的全部对称元素的各种组合被称为晶体点群(也叫做对称类型)。比晶体点群更进一步区分结构的是空间群,表示晶体内部结构中全部对称要素的集合。
对于所有晶体内部结构中全部对称要素的旋转和旋转-反演对称操作,共包含32种可能的三维空间点群和230种空间群。因此,本发明实施例可将这上述空间群用自然编号(1-230)进行标识,以此表示所述有效数据中每种化合物的空间结构,得到所述有效数据中每种化合物的空间群特征。
S4、根据所述有效数据中每种化合物内每个原子的占比提取每种化合物的掺杂特征。
本发明其中一个实际应用场景中,若超导体材料中掺杂其他元素,会导致其本身超导性能的改变。
例如,在高温超导体中,掺杂离子的介入可以改变原来化合物的晶体结构,对电子间的关联带来影响。一方面,适量的掺杂既有利于电子形成自旋单态,又有利于这种相干的自旋单态运动,促使Cooper对的形成,从而引起Tc的升高;另一方面,过度的掺杂又可能会引入较多的空穴,降低电子浓度,破坏电子的自旋单态,拆散了Cooper对的相干凝聚,从而引起Tc的降低。但事实上非常微量的掺杂物质就能引起Tc值的显著改变。
因此,为了规避所述有效数据中化合物内掺杂的微量杂质对后续分析筛选的影响,实现对所述有效数据中每种化合物的精确分析,本发明实施例中可计算所述有效数据中每种化合物内每个原子的占比,并根据所述占比确定所述有效数据中每种化合物的掺杂特征。
本发明实施例中,参图2所示,所述根据所述有效数据中每种化合物内每个原子的占比提取每种化合物的掺杂特征,包括:
S21、计算所述有效数据中每种化合物内每个原子的占比;
S22、确定所述占比小于预设比例阈值的化合物为掺杂化合物;
S23、统计所述掺杂化合物的原子数占比、原子质量占比为所述掺杂化合物的掺杂特征。
详细地,本发明实施例中,可通过统计所述有效数据中每种化合物化学式中的每个原子的占比,取其最小值为minRatio,当出现minRatio的占比小于2%时,则该化合物被认定含有掺杂粒子。随后,通过预设的字典键值对的查找,得出掺杂元素,基于统计函数进一步创建掺杂元素的相关属性作为掺杂特征。例如,提取掺杂元素的原子数占比、原子质量占比以及其他元素属性。
本发明其他实施例中,还可对于掺杂元素的元素类型进行分类,可分类为碱金属、过渡金属、稀土元素、卤素元素、镧系元素和非金属元素等,以便于更细致地标记所述有效数据中化合物的掺杂特征,进而提升后续进行高温超导材料分析与筛选的精确度。
S5、将所述数值计算特征、所述化学特征、所述空间群特征及所述掺杂特征进行关联度筛选,得到特征子集。
本发明其中一个实际应用场景中,步骤S1至步骤S4从所述有效数据内按照不同维度提取出了所述数值计算特征、所述化学特征、所述空间群特征及所述掺杂特征,且每个类型的特征中均包含大量的特征数据,若直接利用所述特征数据进行分析,会占用大量的计算资源;且每种特征的实际物理意义和数量级不同,如果将原始特征直接用于分析,可能会引起一些模型识别错误的情况,如模型更倾向受到数值范围大的特征而忽略小数值特征,或是导致一些基于距离计算的ML(Machine Learning,机器学习)模型(KNN,SVM,MLP)分析过程中产生异常。
因此,本发明实施例可对所述数值计算特征、所述化学特征、所述空间群特征及所述掺杂特征进行关联度筛选,以实现对所有特征的归一化及去冗余,进而提升后续实现高温超导材料分析与筛选的精确度与效率。
本发明实施例中,参图3所示,所述将所述数值计算特征、所述化学特征、所述空间群特征及所述掺杂特征进行关联度筛选,得到特征子集,包括:
S31、将所述数值计算特征、所述化学特征、所述空间群特征及所述掺杂特征汇集为特征集合;
S32、计算所述特征集合中两两特征之间的相似度,根据所述相似度对所述特征集合中的特征进行冗余去除,得到非重复特征;
S33、将所述非重复特征中每个特征预设至预设取值区间,得到特征子集。
详细地,本发明实施例可利用具有距离值计算功能的余弦距离算法、欧氏距离算法等算法计算所述特征集合中两两特征之间的相似度,并根据所述相似度对所述特征集合中的特征进行冗余去除,得到非重复特征。
本发明其他实施例中,还可根据皮尔森相关系数和互信息大于90%的两个特征进行去冗,然后再将自方差(self-var)小于0.01的特征进行剔除,以实现对所述特征集合中的特征进行冗余去除,得到非重复特征。
可选地,还可根据包裹法的思想,使用递归特征消除(Recursive FeatureElimination,RFE),选择RFE模型作为学习器,每次根据树模型输出的特征重要性排序列表,循环剔除重要性较低的特征子集,直到特征数量删减至预设值,以实现对所述特征集合中的特征进行冗余去除,得到非重复特征。其中,RFE模型重要度排序前三的变量分别是“分子体积混合熵”(3.0%)、“算术平均热导率”(2.9%)和“晶格常数标准差”(2.6%)。
可选地,还可根据嵌入式的思想,使用带有L1正则项惩罚的线性模型Lasso进行特征选择,以保留非零系数项的变量,进而实现对所述特征集合中的特征进行冗余去除,得到非重复特征。
进一步地,所述将所述非重复特征中每个特征预设至预设取值区间,得到特征子集是指:分别采用了标准化和区间缩放这两种方式将所述非重复特征中每个特征预设至预设取值区间。
详细地,所述标准化是指计算特征集合中特征的均值和标准差,根据所述均值和标准差将特征集合中的特征映射到标准正态分布X ~ N (0, 1)上。
具体地,本发明实施例中可采用如下公式执行标准化操作:
其中,x1为标准化后的特征值,x为所述特征集合中任一特征的特征值,σ为所述特征集合中特征的标准差,μ为所述特征集合中特征的均值。
详细地,所述区间缩放是指采用最值归一化方法(Min-Max-Scaling),利用如下公式将所有数据点经线性变换后缩放在[0, 1]的范围内,以消除不平衡:
其中,x2为区间缩放后的特征值,x为所述特征集合中任一特征的特征值,Xmin为所述特征集合中最小的特征值,Xmax所述特征集合中最大的特征值。
S6、利用预先训练的特征分析决策树模型根据所述特征子集对所述有效数据中每种化合物的超导能力进行分析,并选取符合预设条件的化合物为潜在高温超导体,其中,所述特征分析决策树模型是通过主动学习及符号回归的方式预先训练得到的回归模型。
本发明实施例中,所述特征分析决策树模型是通过主动学习及符号回归的方式对多个基模型(如LightGBM、XGBoost、CatBoost、ExtraTree、AE+MLP等模型)进行多次迭代训练并集成得到的模型。
例如,以多个模型为基模型进行了两次集成模型的迭代。其中,第一次迭代在训练用特征集的基础上加入了一些自交叉的特征,并对模型的重要参数进行了搜索,采用“早停”、“学习率自适应下降”和“保留最佳模型”等回调函数来进行模型训练,以获得多个参数最优化的单个模型,其中,所述训练用特征集为当前已知超导体材料的材料特征的集合。
详细地,所述特征交叉,也叫做特征组合,目的是为了提取出更加有效的特征信息来弥补原始特征的不足。可以通过对训练用特征集中一个或多个原始特征使用不同的组合方式来衍生出新特征,用于表示其非线性关系。
进一步地,考虑到单个模型的分析准确度始终有限,而模型之间尚无关联。在第二次迭代中,本发明实施例将不同模型的优点汇集在一起,采用主动学习集成算法的思路构建一套融合预测的方案。同时,使用一些数据扩增方式,在保持测试数据集不变情况下,向训练数据集补充一些外部的“伪数据”以增强每个模型的学习水平。
本发明实施例中,可利用常用于图像识别任务中的半监督学习技巧:伪标签技术(Pesudo-label)以及无监督学习方法,生成式对抗网络(Generative AdversarialNetworks,GAN)来对模型的训练数据集进行扩增,且在主动学习集成算法模型建立中,可以使用加权平均法(Weighted-Average),使模型产出的多个结果乘以对应系数后加和作为输出。这种方法意味着对更平滑的边界值进行更稳定的分析,不同模型的权重可以通过它们的性能排名来确定,以是实现对模型的精准训练,得到训练完成的特征分析决策树模型。
本发明其中一个实际应用场景中,在利用预先训练的特征分析决策树模型根据所述特征子集对所述有效数据中每种化合物的超导能力进行分析之前,需对所述特征分析决策树模型进行训练调参,以获取精确的模型,提升数据分析的精确度。
详细地,为了快速准确地预测大多数超导体的Tc,必须正确理解ML算法背后的基本思想。由于其强大的拟合能力和可解释性,ML算法思想内梯度提升树(GBDT)模型有着较好的预测性能。
本发明采用以GBDT 作为核心算法的衍生模型LightGBM来训练完整的超导材料数据集。
详细地,GBDT是一个加法模型,它串行地训练一系列基于Gini系数划分的CART回归树,然后聚合所有回归树的预测结果,以获得一个由多个弱学习器组成的强学习器来对实现充分拟合。它结合了决策树和Boosting的思想,每生成的一颗新决策树都要在上一颗树的拟合残差下进行训练,换句话说,它是以残差的不断修正来达到逐步逼近真实值的目的。
其中,当构建包含N棵决策树的GBDT加法LightGBM模型,则有:
所述特征分析决策树模型可利用如下算法表达:
其中,F(x)为特征分析决策树,x为输入至特征分析决策树模型中的样本,Im(x)为第m棵决策树,cmj为第m棵决策树内第j个参数的权重,M为决策树的总数量,J为第m棵决策树内参数的总数量。
具体地,在不同的数据和决策树下,权重可以不同。
其中,Fm(x)为第m个特征分析决策树模型对于第xi个样本的输出值,Fm-1(x)为第m-1个强学习器特征分析决策树的模型输出,x为输入的样本,Im(x)为第m棵决策树,cm为第m棵决策树内参数的权重,M为决策树的总数量。
可见,第m个决策树都是前一个决策树加上第m棵决策树得来。
每次训练,决策树Im(x)都要以减小上一个强学习器Fm-1(x)的损失为目的:
其中,Fm(x)为第m棵决策树的输出,Fm-1(x)为第m-1棵决策树的输出,x为输入的样本,N为样本的总数量,Θm为第m棵决策树的内部参数,yi为样本xi对应的真实值,L为损失计算函数,Im(xi)为,Fm-1(xi)为第m-1个特征分析决策树模型对于第xi个样本的输出值。
在CART回归树中,损失函数一般用平方误差MSE,考虑到正则项有助于缓解过拟合问题,则损失函数可以表示成:
其中,LMES为平方误差损失函数的输出值,N代表样本的总数量,yi为样本xi对应的真实值,γ为决策树叶节点的正则化项,K为当前决策树的叶节点个数,λ为L2正则化项的系数,a为L1正则化项的系数,Wk为当前决策树的第k个叶节点,Fm-1(xi)为第m-1个特征分析决策树模型对于第xi个样本的输出值。
在分类任务中,损失函数通常选择的是二元交叉熵损失函数:
其中,Ljxs为所述二元交叉熵损失函数的输出值,N为样本的总数量,Fm(xi)为第m个特征分析决策树模型对于第xi个样本的输出值。
利用梯度下降的思想,计算全体样本的损失,然后以损失函数L对当前模型Fm-1(xi)的负梯度方向进行加和更新:
其中,N代表样本的数量,yi为样本xi对应的真实值,cm表示第m个棵决策树的权重,L为模型的特征分析损失函数,∇F为负梯度的算子,是标签对模型参数的偏导运算,Fm-1(x)为第m个特征分析决策树模型对于第xi个样本的输出值,Fm为第m个特征分析决策树模型对于第xi个样本的输出值,Fm-1(xi)为第m-1个特征分析决策树模型对于第xi个样本的输出值。
这样一来,我们就得到了由多棵决策树串行集成的GBDT加法LightGBM模型。
LightGBM(Light Gradient Boosting Machine)是一种基于GBDT算法的应用框架,它可以快速地进行海量数据的处理,支持高效的并行训练和分布式计算。具有迭代速度快、内存占用率低、准确性高等优点。与每次都要读取所有数据的GBDT相比,LightGBM的优化策略将大幅减少训练和推断阶段的时间、内存消耗,同时又不降低性能,这让它能更好地用在工业的实践中。
第一,它是基于直方图(Histogram)的决策树算法。LightGBM首先将连续的浮点型特征值离散成k个正整数,然后生成一个宽度为k的直方图。在遍历数据时,每个以离散值作为索引的直方图会统计各自的样本数量,这个过程只需要对数据进行一次遍历。接着,我们只需要根据直方图的离散值进行分裂,就能确定最佳的分割点。这样做的好处在于不需要对特征划分的信息增益做额外预排序,并且简化了连续值为离散值,使存储和计算都得到了优化;
第二,它使用了单边梯度采样法(Gradient-based One-Side Sampling,GOSS)。从缩减样本量的角度,它去除了大部分具有较小梯度的样本,只计算拥有较大梯度样本对应的信息增益,是一种在保持精度的同时最小化数据量的实用方法。具体而言,GOSS首先选取前a%个大梯度样本作为topSet,然后从剩余的1 - a%个样本中随机抽取b%个小梯度样本作为randSet,接着在randSet中的样本计算信息增益时乘以权重系数(1 - a%) / b%,最后合并topSet与randSet在数据集是计算所得的总增益值。这样一来,既减少了用于训练的样本数,又没完全丢弃小梯度样本的价值,权重系数的变化让这部分小样本在模型中仍然起着作用;
第三,互斥特征捆绑(Exclusive Feature Bundling,EFB)。将高维稀疏的若干特征进行捆绑合并,将其作为一个特征放入模型参与建树。当两个特征之间互不相容时(即不会同时为非零值),捆绑之后并不会丢失原有的特征信息;当两个特征之间不完全互斥时,一种“冲突比率”指标可用于衡量它们的不相容程度。如果该值较低,则仍然可以将不完全互斥的特征进行捆绑而不会改变准确度;
第四,带深度限制的按叶子生长(Leaf-wise)算法。相比于大多数GBDT工具使用的按层生长(Level-wise)的决策树策略,LightGBM使用的Leaf-wise算法能更快地找到特征分裂的方向。该方法每次从当前叶子中选择出分裂增益最大那个进行分裂,直到达到深度限制。与Level-wise相比,这样的好处在于当分裂次数相同时,后者能够减少更多的拟合误差,精度更高。
进一步地,构建出可用的特征分析决策树模型后,在ML模型的初始化阶段,系统设定的参数大多是默认值,无法保证最大化模型效果,故需要人为在后续的测试中进行调整。通常,任务中主要涉及到的参数分为模型参数和超参数两种。前者是指在模型内部配置的变量,在数据学习过程中会自动地获得最佳值,无需手动设置(如权重、截距);后者则存在于模型外部,需要根据建模经验进行设计(如学习率、神经元数)。有研究表明,合理的调节超参数可以在数据和特征受限时提升模型上限,以增强其在未知数据上的泛化能力。因此,当选定模型后,我们需要根据对于数据和算法的理解来调试参数。
调参(Model Tuning)的过程可通俗表达为:给定一组数据D和N个可调参数的算法,调参的目的就是在由参数组成的N维向量里,挑选一组参数,使得算法在数据学习之后能在验证集上取得最小的损失,其数学表达式为:
其中,Ψ为需要进行调参的参数,Dtrain为样本数据的训练集,Dvalid代表样本数量的验证集,E为模型预测损失的期望;Λ为参数配置空间,包括由实数、正数、布尔等类型的变量组成的集合,Ψ*为可预设在验证集上取得最小的损失。
在实际调参中,超参数配置空间很大,可以达到几万甚至几百万的尺度。因此,人工调参的方法显然不现实,本发明实施例可采用较为实用的方法有网格搜索(Grid-Search,GS)、随机搜索(Random-Search,RS)和贝叶斯优化(Bayes-Optimization,BO)等。
详细地,GS是一种通过对指定参数范围进行穷举从而确定模型最佳参数的搜索办法,它能尽最大可能找出模型的最优参数但耗时较长;RS是在网格法的给定范围中进行随机查找,有几率快速获得较好的参数比例;而 BO则是通过建立目标函数f,每次进行搜索时会基于前几次搜索结果来确定下次搜索方向以实现快速优化,对调参具有一定记忆性。
应该注意,在调整小数据模型的参数时,需要避免出现过拟合问题。一方面,由于数据量很少,模型分数会在相近的超参数下波动较大,因此除了跟踪某个参数下模型的偏差外,还需要留意分数之间的方差;另一方面,针对树模型这种容易形成过拟合的算法,需要警惕本地的高测试分数在应用过程中出现推断失效。本文综合了上述方式来对每个ML模型进行调参。
性能评估方面,根据任务类型的不同会有特定的指标。对于回归而言,一般可用均方误差(MSE)、平均绝对误差(MAE)、均方根误差(RMSE)和回归拟合系数(R2)来评估。假设现有样本容量为m,包含n个特征的数据集D,则MSE分数可以由下式表示:
其中,f (xi)为模型的预测值,yi为样本的真实值。
RMSE是MSE开平方后的结果,可以恢复经MSE计算后的量纲单位:
R 2 可以看作回归算法拟合的准确程度,取值在0 ~ 1之间:
显然,当模型具有更低的MSE和更高的R 2 时,其拟合能力越佳。
分类问题求解的是离散值的差异性,一般不能用MSE来直接评价,而是用准确率(Accuracy),精确率(Precision),召回率(Recall),调和分数(F1-Score)和曲线下面积(AUC)等来估计分类的“准确程度”。假设总体样本数是m,共含有c个类别,则ACC可以由下式表示:
其中,m为样本的数量,TP为模型预测正确的正样本数;TN为模型预测正确的负样本数。
相应的FP为预测错的负样本,FN为预测错的正样本。Recall通常用于检测有多少正样本被正确预测出的概率,而Precision则是检查预测出的正样本有多少是正确的:
其中,TP为模型预测对的正样本数,FP为预测错的负样本,FN为预测错的正样本。
需要指出,以上三个公式都是基于分类阈值p = 0.5来划分正负样本的。在某些分类任务中有一种动态阈值划分的评估指标是ROC的曲线下面积(Area under Curve,AUC)。它表示随机挑选一组正负样本对进行预测后,正样本得分大于负样本得分的概率。这是一种对模型性能指标的综合型描述:
其中,AUC为对模型性能指标的综合型描述的数值,Z为正样本个数,S为负样本个数,ranki为模型预测得分的升序排名,i代表第i个正样本的真实值,positiveClass为正样本集合。
对于聚类学习,根据数据是否有标准类别信息,可以分为两类指标:对于已知标签的聚类,通常用调整兰德系数(ARI)来评估,它是兰德系数(RI)经过均值归一化后得出的:
其中,RI为兰德系数,max(RI)为兰德系数的最大值,E(RI)为兰德系数的数学期望函数。
假定U是外部标准的聚类结果,而V是基于聚类模型的聚类结果,则RI可以如下表示:
其中,o、d为模型聚类结果与标准结果一致的情况数,p、c为模型聚类结果与标准结果不一致的情况数。
对不含标签的聚类任务,可以通过计算簇类内部聚合度和类间耦合度来评估聚类效果,最常见的有轮廓系数(Silhouette Coefficient,S系数)和CH指数:
其中,m为样本的数量,i为样本i与同簇其它样本到平均距离(簇类不相似度),i为样本i到其它簇样本的平均距离(簇间不相似度)。
CH指数定义为簇间离散与簇内离散的比值,是通过计算类间方差和类内方差来获取得分:
其中,C为需要聚类的类别数;N为数据样本总数;c为组间的协方差矩阵;c为组内的协方差矩阵;Tr为矩阵的迹运算(对角线元素之和)。
由上所述,当S系数和CH指数越大时,表明模型聚类的性能越好。
本发明实施例中,所述利用预先训练的特征分析决策树模型根据所述特征子集对所述有效数据中每种化合物的超导能力进行分析,包括:
获取所述特征子集内每个特征的描述符;
利用基于遗传算法的符号回归学习方法,构建超导材料临界转变温度和所述描述符之间的变量关系;
利用所述特征分析决策树模型根据所述变量关系对所述有效数据中每种化合物的超导性能进行分析,得到所述有效数据中每种化合物的超导材料临界转变温度,完成超导能力分析。
本发明实施例中,可通过预设的特征描述表查询得到所述特征子集内每个特征的描述符,其中,所述描述符可通过收集元素周期表内预设数量的元素的属性信息,将其保存为CSV文件并通过Pandas API加载,对于一些缺失的变量信息,例如La的原子半径,可以采用向前填充(forward-fill)、向后填充(back-fill)和均值填充等方式来填补,得到每种元素对应的描述符,并根据特征子集内每个特征对应的化合物的组合构建每个特征的描述符。
详细地,获取所述特征子集内每个特征的描述符是指使用基于遗传算法的符号回归这种监督学习方法,建立超导材料临界转变温度和材料描述符之间隐藏的潜在物理数学关系,并生成预测公式,以此利用特征变量(特征子集)预测目标变量(超导临界转变温度)。
具体地,所述符号回归是以遗传算法实现的,所表现的公式都会以二叉树中的符号形式进行表现。如利用“add”符号表示二元运算的加法;“sub” 符号表示二元运算的减法;“mul” 符号表示二元运算的乘法。
进一步地,所述选取符合预设条件的化合物为潜在高温超导体是指选取所述超导材料临界转变温度大于预设温度阈值的特征对应的化合物为高温超导体,其中,所述预设温度阈值优选为Tc> 70 K。
本发明实施例中,将主动学习集成算法的思想与符号回归的思想应用于分析筛选高温超导材料的模型构建中,可使得利用构建出的模型对材料进行精确分析与筛选,提升筛选高温超导体的精确度。
本发明实施例通过多类型联合数据清洗,可提升材料数据的正确率,进而有利于提升最终分析筛选出的高温超导材料的精确度;同时,结合数值计算特征、化学特征、空间群特征和掺杂特征综合对材料数据进行分析,实现了多维度、多特征的综合考量,有利于提升最终进行高温超导材料筛选的精确度;且将主动学习集成算法的思想与符号回归的思想应用于分析筛选高温超导材料的模型构建中,进而使得利用构建出的模型对材料进行精确分析与筛选,提升筛选高温超导体的精确度。因此本发明提出的基于主动学习和符号回归的超导体筛选方法,可以解决进行高温超导材料预测的精确度较低的问题。
如图4所示,是本发明一实施例提供的基于主动学习和符号回归的超导体筛选装置的功能模块图。
本发明所述基于主动学习和符号回归的超导体筛选装置100可以安装于电子设备中。根据实现的功能,所述基于主动学习和符号回归的超导体筛选装置100可以包括数据清洗模块101、第一特征提取模块102、第二特征提取模块103、特征筛选模块104及模型分析模块105。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
所述数据清洗模块101,用于对预先获取的多种化合物的材料数据进行多类型联合数据清洗,得到有效数据,并获取预设人员对所述有效数据进行反馈得到的数值计算特征;
所述第一特征提取模块102,用于从所述有效数据中提取每种化合物的化学特征,其中,所述化学特征包括化学计量特征、元素统计特征、电子结构特征以及离子化合物特征;
所述第二特征提取模块103,用于获取所述有效数据中每种化合物的空间群信息,对所述空间群信息进行自然编号,得到空间群特征,根据所述有效数据中每种化合物内每个原子的占比提取每种化合物的掺杂特征;
所述特征筛选模块104,用于将所述数值计算特征、所述化学特征、所述空间群特征及所述掺杂特征进行关联度筛选,得到特征子集;
所述模型分析模块105,用于利用预先训练的特征分析决策树模型根据所述特征子集对所述有效数据中每种化合物的超导能力进行分析,并选取符合预设条件的化合物为潜在高温超导体,其中,所述特征分析决策树模型是通过主动学习及符号回归的方式预先训练得到的回归模型。
详细地,本发明实施例中所述基于主动学习和符号回归的超导体筛选装置100中所述的各模块在使用时采用与上述图1至图3中所述的基于主动学习和符号回归的超导体筛选方法一样的技术手段,并能够产生相同的技术效果,这里不再赘述。
如图5所示,是本发明一实施例提供的实现基于主动学习和符号回归的超导体筛选方法的电子设备的结构示意图。
所述电子设备1可以包括处理器10、存储器11、通信总线12以及通信接口13,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如基于主动学习和符号回归的超导体筛选程序。
其中,所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(ControlUnit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如执行基于主动学习和符号回归的超导体筛选程序等),以及调用存储在所述存储器11内的数据,以执行电子设备的各种功能和处理数据。
所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备的内部存储单元,例如该电子设备的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备的外部存储设备,例如电子设备上配备的插接式移动硬盘、智能存储卡(Smart Media Card, SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括电子设备的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备的应用软件及各类数据,例如基于主动学习和符号回归的超导体筛选程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述通信总线12可以是外设部件互连标准(peripheral componentinterconnect,简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
所述通信接口13用于上述电子设备与其他设备之间的通信,包括网络接口和用户接口。可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备与其他电子设备之间建立通信连接。所述用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。
图中仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图中示出的结构并不构成对所述电子设备的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备1中的所述存储器11存储的基于主动学习和符号回归的超导体筛选程序是多个指令的组合,在所述处理器10中运行时,可以实现:
对预先获取的多种化合物的材料数据进行多类型联合数据清洗,得到有效数据,并获取预设人员对所述有效数据进行反馈得到的数值计算特征;
从所述有效数据中提取每种化合物的化学特征,其中,所述化学特征包括化学计量特征、元素统计特征、电子结构特征以及离子化合物特征;
获取所述有效数据中每种化合物的空间群信息,对所述空间群信息进行自然编号,得到空间群特征;
根据所述有效数据中每种化合物内每个原子的占比提取每种化合物的掺杂特征;
将所述数值计算特征、所述化学特征、所述空间群特征及所述掺杂特征进行关联度筛选,得到特征子集;
利用预先训练的特征分析决策树模型根据所述特征子集对所述有效数据中每种化合物的超导能力进行分析,并选取符合预设条件的化合物为潜在高温超导体,其中,所述特征分析决策树模型是通过主动学习及符号回归的方式预先训练得到的回归模型。
具体地,所述处理器10对上述指令的具体实现方法可参考附图对应实施例中相关步骤的描述,在此不赘述。
进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。所述计算机可读存储介质可以是易失性的,也可以是非易失性的。例如,所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一、第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种基于主动学习和符号回归的超导体筛选方法,其特征在于,所述方法包括:
对预先获取的多种化合物的材料数据进行多类型联合数据清洗,得到有效数据,并获取预设人员对所述有效数据进行反馈得到的数值计算特征;
从所述有效数据中提取每种化合物的化学特征,其中,所述化学特征包括化学计量特征、元素统计特征、电子结构特征以及离子化合物特征;
获取所述有效数据中每种化合物的空间群信息,对所述空间群信息进行自然编号,得到空间群特征;
根据所述有效数据中每种化合物内每个原子的占比提取每种化合物的掺杂特征;
将所述数值计算特征、所述化学特征、所述空间群特征及所述掺杂特征进行关联度筛选,得到特征子集;
利用预先训练的特征分析决策树模型根据所述特征子集对所述有效数据中每种化合物的超导能力进行分析,并选取符合预设条件的化合物为潜在高温超导体,其中,所述特征分析决策树模型是通过主动学习及符号回归的方式预先训练得到的回归模型。
2.如权利要求1所述的基于主动学习和符号回归的超导体筛选方法,其特征在于,所述对预先获取的多种化合物的材料数据进行多类型联合数据清洗,得到有效数据,包括:
删除所述材料数据内的重复数据,得到非重复材料数据;
利用以下至少两项操作的组合筛选出所述非重复材料数据中的异常数据:
构建所述非重复材料数据的分布散点图,并根据所述分布散点图筛选出所述非重复材料数据的异常数据;
利用四分位距箱型图法筛选出所述非重复材料数据的异常数据;
利用预先构建的随机森林概率模型筛选出所述非重复材料数据的异常数据;
利用基于无监督聚类的K-Means模型筛选出所述非重复材料数据的异常数据;
通过预设的数据修补方式对所述异常数据进行修补,并删除所述非重复材料数据内无法进行修补的数据,得到有效数据。
3.如权利要求1所述的基于主动学习和符号回归的超导体筛选方法,其特征在于,所述从所述有效数据中提取每种化合物的化学特征,包括:
逐个从所述有效数据中选取其中一种化合物的有效数据为待提取数据;
获取预设长度的空值向量,按照独热编码方式将所述待提取数据中每个元素的比例填入所述空值向量,并将填充后的向量作为所述待提取数据的化学计量特征;
将所述待提取数据内每种元素在周期表上的周期数、原子序数、原子量汇集为所述待提取数据的元素统计特征;
统计所述待提取数据内电子在不同电子层的数量和电子占比,得到所述待提取数据的电子结构特征;
获取所述待提取数据在单一氧化状态存在电负性信息,并确定所述电负性信息为所述待提取数据的离子化合物特征;
将所述化学计量特征、所述元素统计特征、所述电子结构特征和所述离子化合物特征汇集为所述待提取数据的化学特征。
4.如权利要求1所述的基于主动学习和符号回归的超导体筛选方法,其特征在于,所述利用预先训练的特征分析决策树模型根据所述特征子集对所述有效数据中每种化合物的超导能力进行分析,包括:
获取所述特征子集内每个特征的描述符;
利用基于遗传算法的符号回归学习方法,构建超导材料临界转变温度和所述描述符之间的变量关系;
利用所述特征分析决策树模型根据所述变量关系对所述有效数据中每种化合物的超导性能进行分析,得到所述有效数据中每种化合物的超导材料临界转变温度,完成超导能力分析。
5.如权利要求1所述的基于主动学习和符号回归的超导体筛选方法,其特征在于,所述特征分析决策树模型为以梯度提升树作为核心算法进行训练得到的LightGBM模型。
7.如权利要求5所述的基于主动学习和符号回归的超导体筛选方法,其特征在于,所述以梯度提升树作为核心算法进行训练包括:
计算所述特征分析决策树模型的损失值;
根据所述损失值对所述特征分析决策树模型进行负梯度方向的加和更新;
利用预设样本测试更新后的特征分析决策树模型的模型性能指标;
当所述模型性能指标小于或等于预设阈值时,返回根据所述损失值对所述特征分析决策树模型进行负梯度方向的加和更新的步骤;
当所述模型性能指标大于预设阈值时,完成对所述特征分析决策树模型的训练。
9.一种基于主动学习和符号回归的超导体筛选装置,其特征在于,所述装置包括:
数据清洗模块,用于对预先获取的多种化合物的材料数据进行多类型联合数据清洗,得到有效数据,并获取预设人员对所述有效数据进行反馈得到的数值计算特征;
第一特征提取模块,用于从所述有效数据中提取每种化合物的化学特征,其中,所述化学特征包括化学计量特征、元素统计特征、电子结构特征以及离子化合物特征;
第二特征提取模块,用于获取所述有效数据中每种化合物的空间群信息,对所述空间群信息进行自然编号,得到空间群特征,根据所述有效数据中每种化合物内每个原子的占比提取每种化合物的掺杂特征;
特征筛选模块,用于将所述数值计算特征、所述化学特征、所述空间群特征及所述掺杂特征进行关联度筛选,得到特征子集;
模型分析模块,用于利用预先训练的特征分析决策树模型根据所述特征子集对所述有效数据中每种化合物的超导能力进行分析,并选取符合预设条件的化合物为潜在高温超导体,其中,所述特征分析决策树模型是通过主动学习及符号回归的方式预先训练得到的回归模型。
10.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至8中任意一项所述的基于主动学习和符号回归的超导体筛选方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210953283.6A CN115035966B (zh) | 2022-08-09 | 2022-08-09 | 基于主动学习和符号回归的超导体筛选方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210953283.6A CN115035966B (zh) | 2022-08-09 | 2022-08-09 | 基于主动学习和符号回归的超导体筛选方法、装置及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115035966A true CN115035966A (zh) | 2022-09-09 |
CN115035966B CN115035966B (zh) | 2022-11-04 |
Family
ID=83130773
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210953283.6A Active CN115035966B (zh) | 2022-08-09 | 2022-08-09 | 基于主动学习和符号回归的超导体筛选方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115035966B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117435904A (zh) * | 2023-12-20 | 2024-01-23 | 电子科技大学 | 一种单一特征排序及复合特征提取方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060074594A1 (en) * | 2004-09-22 | 2006-04-06 | Massachusetts Institute Of Technology | Systems and methods for predicting materials properties |
CN111798940A (zh) * | 2020-06-28 | 2020-10-20 | 南方科技大学 | 一种基于深度神经网络算法预测超导材料的方法及装置 |
WO2020247949A1 (en) * | 2019-06-07 | 2020-12-10 | The Regents Of The University Of California | General form of the tree alternating optimization (tao) for learning decision trees |
CN112288191A (zh) * | 2020-11-19 | 2021-01-29 | 国家海洋信息中心 | 一种基于多类机器学习方法的海洋浮标寿命预测方法 |
CN114242178A (zh) * | 2021-10-29 | 2022-03-25 | 南通大学 | 基于梯度提升决策树的ERα拮抗剂的生物活性定量预测方法 |
US20220156519A1 (en) * | 2020-11-16 | 2022-05-19 | Salesforce.Com, Inc. | Methods and systems for efficient batch active learning of a deep neural network |
-
2022
- 2022-08-09 CN CN202210953283.6A patent/CN115035966B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060074594A1 (en) * | 2004-09-22 | 2006-04-06 | Massachusetts Institute Of Technology | Systems and methods for predicting materials properties |
WO2020247949A1 (en) * | 2019-06-07 | 2020-12-10 | The Regents Of The University Of California | General form of the tree alternating optimization (tao) for learning decision trees |
CN111798940A (zh) * | 2020-06-28 | 2020-10-20 | 南方科技大学 | 一种基于深度神经网络算法预测超导材料的方法及装置 |
US20220156519A1 (en) * | 2020-11-16 | 2022-05-19 | Salesforce.Com, Inc. | Methods and systems for efficient batch active learning of a deep neural network |
CN112288191A (zh) * | 2020-11-19 | 2021-01-29 | 国家海洋信息中心 | 一种基于多类机器学习方法的海洋浮标寿命预测方法 |
CN114242178A (zh) * | 2021-10-29 | 2022-03-25 | 南通大学 | 基于梯度提升决策树的ERα拮抗剂的生物活性定量预测方法 |
Non-Patent Citations (1)
Title |
---|
郑贤德: "钙钛矿型铋铅酸钡基超导体的合成及超导性能研究", 《中国优秀硕士学位论文全文数据库 基础科学辑》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117435904A (zh) * | 2023-12-20 | 2024-01-23 | 电子科技大学 | 一种单一特征排序及复合特征提取方法 |
CN117435904B (zh) * | 2023-12-20 | 2024-03-15 | 电子科技大学 | 一种单一特征排序及复合特征提取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115035966B (zh) | 2022-11-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113822494B (zh) | 风险预测方法、装置、设备及存储介质 | |
Fan et al. | A review on data preprocessing techniques toward efficient and reliable knowledge discovery from building operational data | |
CN108764273B (zh) | 一种数据处理的方法、装置、终端设备及存储介质 | |
CN108549954B (zh) | 风险模型训练方法、风险识别方法、装置、设备及介质 | |
Corizzo et al. | Anomaly detection and repair for accurate predictions in geo-distributed big data | |
CN106845717B (zh) | 一种基于多模型融合策略的能源效率评价方法 | |
CN111143838B (zh) | 数据库用户异常行为检测方法 | |
CN109871809A (zh) | 一种基于语义网的机器学习流程智能组装方法 | |
CN112800231A (zh) | 电力数据校验方法、装置、计算机设备和存储介质 | |
CN115035966B (zh) | 基于主动学习和符号回归的超导体筛选方法、装置及设备 | |
CN115905959A (zh) | 基于缺陷因子的电力断路器关联性故障分析方法及装置 | |
CN117131449A (zh) | 面向数据治理的具有传播学习能力的异常识别方法及系统 | |
CN117458440A (zh) | 基于关联特征融合的生成式电力负荷预测方法及系统 | |
CN116662839A (zh) | 基于多维智能采集的关联大数据聚类分析方法及装置 | |
CN113837266B (zh) | 一种基于特征提取和Stacking集成学习的软件缺陷预测方法 | |
CN116795977A (zh) | 数据处理方法、装置、设备和计算机可读存储介质 | |
CN114021425A (zh) | 电力系统运行数据建模与特征选择方法、装置、电子设备和存储介质 | |
CN114841268A (zh) | 基于Transformer和LSTM融合算法的异常电力客户识别方法 | |
CN117155771B (zh) | 一种基于工业物联网的设备集群故障溯源方法及装置 | |
Gao et al. | An improved XGBoost based on weighted column subsampling for object classification | |
CN113127464A (zh) | 农业大数据环境特征处理方法、装置及电子设备 | |
CN117010373A (zh) | 一种电力设备资产管理数据所属类别和组的推荐方法 | |
CN111768214A (zh) | 产品属性的预测方法、系统、设备和存储介质 | |
Singh et al. | Multiclass imbalanced big data classification utilizing spark cluster | |
CN112256735B (zh) | 一种用电监测方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |