CN113628701A - 一种基于密度不平衡样本数据的材料性能预测方法及系统 - Google Patents

一种基于密度不平衡样本数据的材料性能预测方法及系统 Download PDF

Info

Publication number
CN113628701A
CN113628701A CN202110922801.3A CN202110922801A CN113628701A CN 113628701 A CN113628701 A CN 113628701A CN 202110922801 A CN202110922801 A CN 202110922801A CN 113628701 A CN113628701 A CN 113628701A
Authority
CN
China
Prior art keywords
sample data
sample
boundary
data set
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110922801.3A
Other languages
English (en)
Other versions
CN113628701B (zh
Inventor
钱权
董甲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN202110922801.3A priority Critical patent/CN113628701B/zh
Publication of CN113628701A publication Critical patent/CN113628701A/zh
Application granted granted Critical
Publication of CN113628701B publication Critical patent/CN113628701B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C60/00Computational materials science, i.e. ICT specially adapted for investigating the physical or chemical properties of materials or phenomena associated with their design, synthesis, processing, characterisation or utilisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于密度不平衡样本数据的材料性能预测方法及系统。本发明首先定位第一材料数据集和第二材料数据集的边界样本,然后利用原始的样本数据集训练第一材料分类模型,利用边界样本训练第二材料分类模型,进而将第一材料分类模型和第二材料分类模型进行融合,利用融合后的集成模型进行材料性能的预测分类,实现了边界样本的定位,并通过基于边界样本的单独训练,提升了对少数类样本预测的准确性。

Description

一种基于密度不平衡样本数据的材料性能预测方法及系统
技术领域
本发明涉及材料性能研究技术领域,特别涉及一种基于密度不平衡样本数据的材料性能预测方法及系统。
背景技术
目前类别不平衡数据挖掘领域的研究已变得越来越重要。这是因为现实生活中的数据集基本是不平衡的,只是不平衡率不同,并且这种不平衡已经严重影响到分类算法的性能。不平衡分类的基本问题是不平衡数据造成多数机器学习算法性能降低。大多数机器学习算法是根据平衡数据集提出的,并且以总体分类准确率为分类算法的评价指标,因此对一些复杂的不平衡数据集进行处理时,这些传统分类算法不能充分地反映出数据的分布特征。因为识别少数类样本会比识别多数类样本要困难很多,很难确定少数类样本的真实决策边界,所以传统分类算法往往会出现将所有的样本划分为多数类的情况,而少数类的分类预测效果则很差。因此那些基于平衡数据提出的分类算法不适合处理不平衡数据分类任务。
在数据挖掘领域中集成分类是很有效的一种方法,在不平衡数据分类中,传统基于集成学习的分类方法,由于没有考虑不平衡数据分布的特点,也没有充分利用集成分类差异化学习的优势,导致在不平衡数据分类效果上不是很明显。
在材料领域中,缩短具有预期性能的新材料开发周期是现今材料工业界所迫切需要的。在大部分材料数据中,那些符合预期性能的材料数据往往会很少。现有的普遍做法是通过SMOTE方法在数据预处理上对少数类样本进行扩充,来增加少数类样本的数量。虽然这种方法在数据层面上使数据集得到平衡,但是这种方法容易产生一些不正确的样本,干扰模型对少数类的预测。
发明内容
本发明的目的是提供一种基于密度不平衡样本数据的材料性能预测方法及系统,以实现边界样本的定位,并通过基于边界样本的训练,提升对少数类样本预测的准确性。
为实现上述目的,本发明提供了如下方案:
一种基于密度不平衡样本数据的材料性能预测方法,所述预测方法包括如下步骤:
根据样本的类别标签将样本数据集划分为不符合预期性能的第一材料数据集和符合预期性能的第二材料数据集;所述第一材料数据集中样本数据的数量大于第二材料数据集中样本数据的数量;
检测所述第一材料数据集和所述第二材料数据集中的属于边界样本的样本数据,组成第三材料数据集;
利用所述样本数据集训练第一材料分类模型,利用所述第三材料数据集训练第二材料分类模型;
并行集成训练后的第一材料分类模型和第二材料分类模型,获得集成模型;
利用所述集成模型进行材料性能的预测分类。
可选的,所述检测所述第一材料数据集和所述第二材料数据集中的属于边界样本的样本数据,组成第三材料数据集,具体包括:
基于近邻计算方法确定所述第二材料数据集中的属于边界样本的样本数据,组成边界域;
将所述边界域和所述第一材料数据集合并获得融合样本集;
根据所述边界域,基于欧式距离计算方法确定所述融合样本集中的属于边界样本的样本数据,组成第三材料数据集。
可选的,所述基于近邻计算方法确定所述第二材料数据集中的属于边界样本的样本数据,组成边界域,具体包括:
基于近邻计算方法,计算第二材料数据集中每个样本数据在所述样本数据集中近邻的样本数据,获得第二材料数据集中每个样本数据的近邻的样本数据;
统计第二材料数据集中每个样本数据的近邻的样本数据中属于第一材料数据集的个数,获得第二材料数据集中每个样本数据的近邻统计个数;
将第二材料数据集中近邻统计个数在预设范围内的样本数据作为边界样本,添加至所述边界域。
可选的,所述根据所述边界域,基于欧式距离计算方法确定所述融合样本集中的属于边界样本的样本数据,组成第三材料数据集,具体包括:
获取所述边界域中的最靠前的样本数据添加至计算队列中,并将已添加至计算队列中的所述样本数据从所述边界域中删除;
获取所述计算队列中的第一个样本数据,作为待计算样本数据,并将所述待计算样本数据从所述计算队列中删除;
基于近邻计算方法,获取待计算样本数据在融合样本集中的近邻的样本数据,添加至统计集合中;
判断所述统计集合中近邻的样本数据的个数是否小于预设阈值,获得第一判断结果;
若所述第一判断结果表示否,则将统计集合中的所有近邻的样本数据添加至计算队列和所述第三材料数据集,并将所述统计集合中的所有近邻的样本数据从所述融合样本集中删除;
判断所述计算队列是否为空,获得第二判断结果;
若所述第二判断结果为否,则返回步骤“获取所述计算队列中的第一个样本数据,作为待计算样本数据,并将所述待计算样本数据从所述计算队列中删除”;
若所述第二判断结果为是,则判断所述边界域是否为空,获得第三判断结果;
若所述第三判断结果表示否,则返回步骤“获取所述边界域中的最靠前的样本数据添加至计算队列中,并将已添加至计算队列中的所述样本数据从所述边界域中删除”;
若所述第三判断结果表示是,输出所述第三材料数据集。
一种基于密度不平衡样本数据的材料性能预测系统,所述预测系统包括:
样本数据集划分模块,用于根据样本的类别标签将样本数据集划分为不符合预期性能的第一材料数据集和符合预期性能的第二材料数据集;所述第一材料数据集中样本数据的数量大于第二材料数据集中样本数据的数量;
边界样本检测模块,用于检测所述第一材料数据集和所述第二材料数据集中的属于边界样本的样本数据,组成第三材料数据集;
模型训练模块,用于利用所述样本数据集训练第一材料分类模型,利用所述第三材料数据集训练第二材料分类模型;
模型集成模块,用于并行集成训练后的第一材料分类模型和第二材料分类模型,获得集成模型;
性能预测模块,用于利用所述集成模型进行材料性能的预测分类。
可选的,所述边界样本检测模块,具体包括:
第一边界样本检测子模块,用于基于近邻计算方法确定所述第二材料数据集中的属于边界样本的样本数据,组成边界域;
数据集融合子模块,用于将所述边界域和所述第一材料数据集合并获得融合样本集;
第二边界样本检测子模块,用于根据所述边界域,基于欧式距离计算方法确定所述融合样本集中的属于边界样本的样本数据,组成第三材料数据集。
可选的,所述第一边界样本检测子模块,具体包括:
第一近邻的样本数据确定单元,用于基于近邻计算方法,计算第二材料数据集中每个样本数据在所述样本数据集中近邻的样本数据,获得第二材料数据集中每个样本数据的近邻的样本数据;
近邻统计个数获取单元,用于统计第二材料数据集中每个样本数据的近邻的样本数据中属于第一材料数据集的个数,获得第二材料数据集中每个样本数据的近邻统计个数;
第一边界样本检测单元,用于将第二材料数据集中近邻统计个数在预设范围内的样本数据作为边界样本,添加至所述边界域。
可选的,所述第二边界样本检测子模块,具体包括:
计算队列初始化单元,用于获取所述边界域中的最靠前的样本数据添加至计算队列中,并将已添加至计算队列中的所述样本数据从所述边界域中删除;
待计算样本数据获取单元,用于获取所述计算队列中的第一个样本数据,作为待计算样本数据,并将所述待计算样本数据从所述计算队列中删除;
第二近邻的样本数据,用于确定单元基于近邻计算方法,获取待计算样本数据在融合样本集中的近邻的样本数据,添加至统计集合中;
第一判断单元,用于判断所述统计集合中近邻的样本数据的个数是否小于预设阈值,获得第一判断结果;
第二边界样本检测单元,用于若所述第一判断结果表示否,则将统计集合中的所有近邻的样本数据添加至计算队列和所述第三材料数据集,并将所述统计集合中的所有近邻的样本数据从所述融合样本集中删除;
第二判断单元,用于判断所述计算队列是否为空,获得第二判断结果;
第一返回单元,用于若所述第二判断结果为否,则返回步骤“获取所述计算队列中的第一个样本数据,作为待计算样本数据,并将所述待计算样本数据从所述计算队列中删除”;
第三判断单元,用于若所述第二判断结果为是,则判断所述边界域是否为空,获得第三判断结果;
第二返回单元,用于若所述第三判断结果表示否,则返回步骤“获取所述边界域中的最靠前的样本数据添加至计算队列中,并将已添加至计算队列中的所述样本数据从所述边界域中删除”;
第三材料数据集输出单元,用于若所述第三判断结果表示是,输出所述第三材料数据集。
一种边界样本确定方法,所述确定方法包括如下步骤:
基于近邻计算方法确定第二材料数据集中的属于边界样本的样本数据,组成边界域;
将所述边界域和第一材料数据集合并获得融合样本集;
根据所述边界域,基于欧式距离计算方法确定所述融合样本集中的属于边界样本的样本数据,组成第三材料数据集。
可选的,所述基于近邻计算方法确定第二材料数据集中的属于边界样本的样本数据,组成边界域,具体包括:
基于近邻计算方法,计算第二材料数据集中每个样本数据在所述样本数据集中近邻的样本数据,获得第二材料数据集中每个样本数据的近邻的样本数据;
统计第二材料数据集中每个样本数据的近邻的样本数据中属于第一材料数据集的个数,获得第二材料数据集中每个样本数据的近邻统计个数;
将第二材料数据集中近邻统计个数在预设范围内的样本数据作为边界样本,添加至所述边界域。
可选的,所述根据所述边界域,基于欧式距离计算方法确定所述融合样本集中的属于边界样本的样本数据,组成第三材料数据集,具体包括:
获取所述边界域中的最靠前的样本数据添加至计算队列中,并将已添加至计算队列中的所述样本数据从所述边界域中删除;
获取所述计算队列中的第一个样本数据,作为待计算样本数据,并将所述待计算样本数据从所述计算队列中删除;
基于近邻计算方法,获取待计算样本数据在融合样本集中的近邻的样本数据,添加至统计集合中;
判断所述统计集合中近邻的样本数据的个数是否小于预设阈值,获得第一判断结果;
若所述第一判断结果表示否,则将统计集合中的所有近邻的样本数据添加至计算队列和所述第三材料数据集,并将所述统计集合中的所有近邻的样本数据从所述融合样本集中删除;
判断所述计算队列是否为空,获得第二判断结果;
若所述第二判断结果为否,则返回步骤“获取所述计算队列中的第一个样本数据,作为待计算样本数据,并将所述待计算样本数据从所述计算队列中删除”;
若所述第二判断结果为是,则判断所述边界域是否为空,获得第三判断结果;
若所述第三判断结果表示否,则返回步骤“获取所述边界域中的最靠前的样本数据添加至计算队列中,并将已添加至计算队列中的所述样本数据从所述边界域中删除”;
若所述第三判断结果表示是,输出所述第三材料数据集。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明公开了一种基于密度不平衡样本数据的材料性能预测方法,所述预测方法包括如下步骤:根据样本的类别标签将样本数据集划分为不符合预期性能的第一材料数据集和符合预期性能的第二材料数据集;检测所述第一材料数据集和所述第二材料数据集中的属于边界样本的样本数据,组成第三材料数据集;利用所述样本数据集训练第一材料分类模型,利用所述第三材料数据集训练第二材料分类模型;并行集成训练后的第一材料分类模型和第二材料分类模型,获得集成模型;利用所述集成模型进行材料性能的预测分类。本发明首先定位边界样本,然后利用原始的样本数据集训练第一材料分类模型,利用边界样本训练第二材料分类模型,进而将第一材料分类模型和第二材料分类模型进行融合,利用融合后的集成模型进行材料性能的预测分类,实现了边界样本的定位,并通过基于边界样本的单独训练,提升了对少数类样本预测的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种基于密度不平衡样本数据的材料性能预测方法的流程图;
图2为本发明提供的一种基于密度不平衡样本数据的材料性能预测方法的原理图;
图3为本发明提供的边界域确定的流程图;
图4为本发明提供的密度域(第三材料数据集)构建的流程图;
图5为本发明提供的材料分类模型训练与预测的原理图。
具体实施方式
本发明的目的是提供一种基于密度不平衡样本数据的材料性能预测方法及系统,以实现边界样本的定位,并通过基于边界样本的训练,提升对少数类样本预测的准确性。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对发明作进一步详细的说明。
实施例1
如图1和2所示,本发明提供一种基于密度不平衡样本数据的材料性能预测方法,本发明以大块非晶合金材料数据集为例进行说明,所述预测方法包括如下步骤:
步骤101,根据样本的类别标签将样本数据集划分为不符合预期性能的第一材料数据集D″(即多数类样本集)和符合预期性能的第二材料数据集D′(即少数类样本);所述第一材料数据集中样本数据的数量大于第二材料数据集中样本数据的数量。
数据集介绍:数据集T{(x1,y1),(x2,y2),…,(x5936,y5936)}共有16个特征分别为NT(Normalizing Temperature):归一化温度;THT(Through Hardening Temperature):穿透硬化温度;THt(Through Hardening Time):穿透硬化时间;THQCr(Cooling Rate forThrough Hardening):穿透硬化冷却速度;CT(Carburization Temperature):渗碳温度;Ct(Carburization Time):渗碳时间;DT(Diffusion Temperature):扩散温度;Dt(DiffusionTime):扩散时间;QmT(Quenching Media Temperature):淬火介质温度;TT(TemperingTemperature):回火温度;Tt(TemperingTime):回火时间;TCr(Cooling RateforTempering):回火冷却速度、C:碳含量;Ni:镍含量;Cr:铬含量;Mo:钼含量。其中温度的单位均用摄氏度表示,时间的单位为分钟,含量均被表示为百分比;和一个样本标签C(C∈(大块金属玻璃BMG,带状金属玻璃RMG,晶合金CRA))。数据集T有5936个样本,大块金属玻璃BMG样本有675个,带状金属玻璃RMG样本有3708个,晶合金CRA样本有1552个。随机地从数据集T中取4452个样本为训练集D,即样本数据集。根据样本标签将样本数据集分为不符合预期性能的第一材料数据集D″(C=RMG和CRA)和符合预期性能的第二材料数据集D′(C=BMG)。
步骤102,检测所述第一材料数据集和所述第二材料数据集中的属于边界样本的样本数据,组成第三材料数据集。
步骤102基于如下原理实现:
A.边界域构建:如图3所示,对每个少数类样本集D′中的材料样本xi进行近邻计算、近邻统计和边界判断等三种操作:
(1)近邻计算:从原数据集D中计算xi的m个近邻。从训练集D中计算材料样本xi(i∈[1,|D′|])的10个近邻。m表示距离该少数类样本最近的样本数。其取值需要根据数据集提前确定,一般m取10。其中的距离计算采用欧式距离计算。
(2)近邻统计:在m个近邻中统计多数类样本个数m′,即,在10个近邻中统计多数类样本个数m′。
(3)边界判断:如果m′介于
Figure BDA0003208048320000091
和m之间(即,m′∈[5,10)),则将该少数类样本放入边界域B中。否则不做任何操作,这一步是根据大块金属玻璃BMG附近的m个样本中多数类样本的个数是否超过总近邻的半数,来判断该样本是否为边界样本。
对下一个少数类样本同样进行上述(1)(2)(3)步操作。
B.密度域构建过程包括以下步骤(如图4所示):
步骤一、样本合并:将多数类样本集D″与边界域进行合并,得到样本集mergeSet。
步骤二、初始化队列:随机从边界域B中选择一个样本x放入队列Queue中,并从边界域B中删去此样本。由于本发明是利用密度的方法来确定边界样本,而算法刚开始不知道从哪个样本开始,这里选择从边界域B中随机选择一个样本开始。其中边界域B的样本均为大块金属玻璃BMG样本。选一个样本删除一个样本的原因是为了让边界域B中的所有样本都被选到。
步骤三、取样本:取出队列Queue中队首样本xi,并做出队列操作。
步骤四、计算近邻:计算在集合mergeSet中与样本xi的欧氏距离不大于邻域参数η的样本并放入集合Dη(xi)中。即,计算在集合mergeSet中与样本xi的欧氏距离不大于领域参数η=40的样本并放入集合D40(xi)中。这里的η表示欧式距离,作用是得到在η=40范围内(即以该样本为中心,η=40的一个圆的范围)的近邻样本。其取值需要根据具体数据集来确定,一般是通过网格搜索的方法来确定最佳参数。在大块非晶合金材料数据集中,η=40集成分类算法取得最好效果。
步骤五、近邻统计:统计集合Dη(xi)(D40(xi))中样本个数n。
步骤六、数量判断:如果n小于预定义的参数ω(其中ω表示在η=40范围内最少样本个数。η和ω的作用就是根据边界域的分布来找到其附近多数类,使得所选的多数类样本分布与边界域分布一致。其中ω的设定需要根据数据集来确定,一般ω∈[5,10]),则执行步骤七,否则进行下面步骤:
步骤1、放入队列和集合:将集合Dη(xi)中所有样本放入队列Queue和TempSet集合中。
步骤2、删除集合:从集合mergeSet删去集合Dη(xi)的所有样本。
步骤七、判断队列Queue是否为空:如果不为空,则执行步骤三,否则执行步骤八。
步骤八、判断边界域B是否为空:如果不为空,则执行步骤二,否则执行步骤九。
步骤九、合并集合获得密度域M:将TempSet集合中的多数类样本跟少数类样本集D′进行合并,得到最终的密度域M。
具体的,步骤102所述检测所述第一材料数据集和所述第二材料数据集中的属于边界样本的样本数据,组成第三材料数据集,具体包括:基于近邻计算方法确定所述第二材料数据集中的属于边界样本的样本数据,组成边界域;将所述边界域和所述第一材料数据集合并获得融合样本集;根据所述边界域,基于欧式距离计算方法确定所述融合样本集中的属于边界样本的样本数据,组成第三材料数据集。
其中,所述基于近邻计算方法确定所述第二材料数据集中的属于边界样本的样本数据,组成边界域,具体包括:基于近邻计算方法,计算第二材料数据集中每个样本数据在所述样本数据集中近邻的样本数据,获得第二材料数据集中每个样本数据的近邻的样本数据(边界域构建中的(1));统计第二材料数据集中每个样本数据的近邻的样本数据中属于第一材料数据集的个数,获得第二材料数据集中每个样本数据的近邻统计个数(边界域构建中的(2));将第二材料数据集中近邻统计个数在预设范围内的样本数据作为边界样本,添加至所述边界域(边界域构建中的(2),预设范围为
Figure BDA0003208048320000111
和m之间)。
所述根据所述边界域,基于欧式距离计算方法确定所述融合样本集中的属于边界样本的样本数据,组成第三材料数据集,具体包括:获取所述边界域中的最靠前的样本数据添加至计算队列中,并将已添加至计算队列中的所述样本数据从所述边界域中删除(B.密度域构建过程中的步骤二);获取所述计算队列中的第一个样本数据,作为待计算样本数据,并将所述待计算样本数据从所述计算队列中删除(B.密度域构建过程中的步骤三);基于近邻计算方法,获取待计算样本数据在融合样本集中的近邻的样本数据,添加至统计集合中(B.密度域构建过程中的步骤四);判断所述统计集合中近邻的样本数据的个数是否小于预设阈值,获得第一判断结果(B.密度域构建过程中的步骤五和六,所述预设阈值为ω);若所述第一判断结果表示否,则将统计集合中的所有近邻的样本数据添加至计算队列和所述第三材料数据集,并将所述统计集合中的所有近邻的样本数据从所述融合样本集中删除(B.密度域构建过程中的步骤1和2);判断所述计算队列是否为空,获得第二判断结果;若所述第二判断结果为否,则返回步骤“获取所述计算队列中的第一个样本数据,作为待计算样本数据,并将所述待计算样本数据从所述计算队列中删除”;若所述第二判断结果为是,则判断所述边界域是否为空,获得第三判断结果(B.密度域构建过程中的步骤七);若所述第三判断结果表示否,则返回步骤“获取所述边界域中的最靠前的样本数据添加至计算队列中,并将已添加至计算队列中的所述样本数据从所述边界域中删除”;若所述第三判断结果表示是,输出所述第三材料数据集(B.密度域构建过程中的步骤八和九)。
步骤103,利用所述样本数据集训练第一材料分类模型,利用所述第三材料数据集训练第二材料分类模型。
选择随机森林为集成学习模型,随机森林中总树量size=100,分配率p=0.5。size的设定没有固定要求,可以根据实际需求设定。分配率p根据实际需求选定,一般分配率p∈[0.4,0.6]。本发明中可将随机森林中的树分为两大块:用原始的样本数据集训练的树和用密度域训练的树。而p的作用就是分配这两大块中树的个数。
用样本数据集D构建集成模型RF1,其中随机森林RF1的总树量为size×(1-p)。
用密度域M(第三材料数据集)构建集成模型RF2,其中随机森林RF2的总树量为size×p。
步骤104,并行集成训练后的第一材料分类模型和第二材料分类模型,获得集成模型。将集成模型RF1和集成模型RF2进行合并,得到最终的集成学习模型RF。
步骤105,利用所述集成模型进行材料性能的预测分类。
输入待预测数据P,使用简单投票法(即每个弱分类器投票的权重相等),统计随机森林RF中各个弱分类器(即树)做出预测的类别,将统计数量最多的类别作为随机森林RF最终预测的结果。
步骤103-105,如图5所示。
实施例2
本发明还提供一种基于密度不平衡样本数据的材料性能预测系统,所述预测系统包括:
样本数据集划分模块,用于根据样本的类别标签将样本数据集划分为不符合预期性能的第一材料数据集和符合预期性能的第二材料数据集;所述第一材料数据集中样本数据的数量大于第二材料数据集中样本数据的数量。
边界样本检测模块,用于检测所述第一材料数据集和所述第二材料数据集中的属于边界样本的样本数据,组成第三材料数据集。
所述边界样本检测模块,具体包括:第一边界样本检测子模块,用于基于近邻计算方法确定所述第二材料数据集中的属于边界样本的样本数据,组成边界域;数据集融合子模块,用于将所述边界域和所述第一材料数据集合并获得融合样本集;第二边界样本检测子模块,用于根据所述边界域,基于欧式距离计算方法确定所述融合样本集中的属于边界样本的样本数据,组成第三材料数据集。
其中,所述第一边界样本检测子模块,具体包括:第一近邻的样本数据确定单元,用于基于近邻计算方法,计算第二材料数据集中每个样本数据在所述样本数据集中近邻的样本数据,获得第二材料数据集中每个样本数据的近邻的样本数据;近邻统计个数获取单元,用于统计第二材料数据集中每个样本数据的近邻的样本数据中属于第一材料数据集的个数,获得第二材料数据集中每个样本数据的近邻统计个数;第一边界样本检测单元,用于将第二材料数据集中近邻统计个数在预设范围内的样本数据作为边界样本,添加至所述边界域。
所述第二边界样本检测子模块,具体包括:计算队列初始化单元,用于获取所述边界域中的最靠前的样本数据添加至计算队列中,并将已添加至计算队列中的所述样本数据从所述边界域中删除;待计算样本数据获取单元,用于获取所述计算队列中的第一个样本数据,作为待计算样本数据,并将所述待计算样本数据从所述计算队列中删除;第二近邻的样本数据,用于确定单元基于近邻计算方法,获取待计算样本数据在融合样本集中的近邻的样本数据,添加至统计集合中;第一判断单元,用于判断所述统计集合中近邻的样本数据的个数是否小于预设阈值,获得第一判断结果;第二边界样本检测单元,用于若所述第一判断结果表示否,则将统计集合中的所有近邻的样本数据添加至计算队列和所述第三材料数据集,并将所述统计集合中的所有近邻的样本数据从所述融合样本集中删除;第二判断单元,用于判断所述计算队列是否为空,获得第二判断结果;第一返回单元,用于若所述第二判断结果为否,则返回步骤“获取所述计算队列中的第一个样本数据,作为待计算样本数据,并将所述待计算样本数据从所述计算队列中删除”;第三判断单元,用于若所述第二判断结果为是,则判断所述边界域是否为空,获得第三判断结果;第二返回单元,用于若所述第三判断结果表示否,则返回步骤“获取所述边界域中的最靠前的样本数据添加至计算队列中,并将已添加至计算队列中的所述样本数据从所述边界域中删除”;第三材料数据集输出单元,用于若所述第三判断结果表示是,输出所述第三材料数据集。
模型训练模块,用于利用所述样本数据集训练第一材料分类模型,利用所述第三材料数据集训练第二材料分类模型。
模型集成模块,用于并行集成训练后的第一材料分类模型和第二材料分类模型,获得集成模型。
性能预测模块,用于利用所述集成模型进行材料性能的预测分类。
实施例3
本发明还提供一种边界样本确定方法,所述确定方法包括如下步骤:
基于近邻计算方法确定第二材料数据集中的属于边界样本的样本数据,组成边界域。
所述基于近邻计算方法确定第二材料数据集中的属于边界样本的样本数据,组成边界域,具体包括:基于近邻计算方法,计算第二材料数据集中每个样本数据在所述样本数据集中近邻的样本数据,获得第二材料数据集中每个样本数据的近邻的样本数据;统计第二材料数据集中每个样本数据的近邻的样本数据中属于第一材料数据集的个数,获得第二材料数据集中每个样本数据的近邻统计个数;将第二材料数据集中近邻统计个数在预设范围内的样本数据作为边界样本,添加至所述边界域。
将所述边界域和第一材料数据集合并获得融合样本集;
根据所述边界域,基于欧式距离计算方法确定所述融合样本集中的属于边界样本的样本数据,组成第三材料数据集。
所述根据所述边界域,基于欧式距离计算方法确定所述融合样本集中的属于边界样本的样本数据,组成第三材料数据集,具体包括:获取所述边界域中的最靠前的样本数据添加至计算队列中,并将已添加至计算队列中的所述样本数据从所述边界域中删除;获取所述计算队列中的第一个样本数据,作为待计算样本数据,并将所述待计算样本数据从所述计算队列中删除;基于近邻计算方法,获取待计算样本数据在融合样本集中的近邻的样本数据,添加至统计集合中;判断所述统计集合中近邻的样本数据的个数是否小于预设阈值,获得第一判断结果;若所述第一判断结果表示否,则将统计集合中的所有近邻的样本数据添加至计算队列和所述第三材料数据集,并将所述统计集合中的所有近邻的样本数据从所述融合样本集中删除;判断所述计算队列是否为空,获得第二判断结果;若所述第二判断结果为否,则返回步骤“获取所述计算队列中的第一个样本数据,作为待计算样本数据,并将所述待计算样本数据从所述计算队列中删除”;若所述第二判断结果为是,则判断所述边界域是否为空,获得第三判断结果;若所述第三判断结果表示否,则返回步骤“获取所述边界域中的最靠前的样本数据添加至计算队列中,并将已添加至计算队列中的所述样本数据从所述边界域中删除”;若所述第三判断结果表示是,输出所述第三材料数据集。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明公开了一种基于密度不平衡样本数据的材料性能预测方法,能够精准地定位到决策边界不清晰的样本(即边界样本),然后利用集成模型的特点,在原来模型的基础上集成根据边界样本构建的模型,提升了模型对少数类样本的分类预测准确率。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
本文中应用了具体个例对发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

Claims (10)

1.一种基于密度不平衡样本数据的材料性能预测方法,其特征在于,所述预测方法包括如下步骤:
根据样本的类别标签将样本数据集划分为不符合预期性能的第一材料数据集和符合预期性能的第二材料数据集;所述第一材料数据集中样本数据的数量大于第二材料数据集中样本数据的数量;
检测所述第一材料数据集和所述第二材料数据集中的属于边界样本的样本数据,组成第三材料数据集;
利用所述样本数据集训练第一材料分类模型,利用所述第三材料数据集训练第二材料分类模型;
并行集成训练后的第一材料分类模型和第二材料分类模型,获得集成模型;
利用所述集成模型进行材料性能的预测分类。
2.根据权利要求1所述的基于密度不平衡样本数据的材料性能预测方法,其特征在于,所述检测所述第一材料数据集和所述第二材料数据集中的属于边界样本的样本数据,组成第三材料数据集,具体包括:
基于近邻计算方法确定所述第二材料数据集中的属于边界样本的样本数据,组成边界域;
将所述边界域和所述第一材料数据集合并获得融合样本集;
根据所述边界域,基于欧式距离计算方法确定所述融合样本集中的属于边界样本的样本数据,组成第三材料数据集。
3.根据权利要求2所述的基于密度不平衡样本数据的材料性能预测方法,其特征在于,所述基于近邻计算方法确定所述第二材料数据集中的属于边界样本的样本数据,组成边界域,具体包括:
基于近邻计算方法,计算第二材料数据集中每个样本数据在所述样本数据集中近邻的样本数据,获得第二材料数据集中每个样本数据的近邻的样本数据;
统计第二材料数据集中每个样本数据的近邻的样本数据中属于第一材料数据集的个数,获得第二材料数据集中每个样本数据的近邻统计个数;
将第二材料数据集中近邻统计个数在预设范围内的样本数据作为边界样本,添加至所述边界域。
4.根据权利要求2所述的基于密度不平衡样本数据的材料性能预测方法,其特征在于,所述根据所述边界域,基于欧式距离计算方法确定所述融合样本集中的属于边界样本的样本数据,组成第三材料数据集,具体包括:
获取所述边界域中的最靠前的样本数据添加至计算队列中,并将已添加至计算队列中的所述样本数据从所述边界域中删除;
获取所述计算队列中的第一个样本数据,作为待计算样本数据,并将所述待计算样本数据从所述计算队列中删除;
基于近邻计算方法,获取待计算样本数据在融合样本集中的近邻的样本数据,添加至统计集合中;
判断所述统计集合中近邻的样本数据的个数是否小于预设阈值,获得第一判断结果;
若所述第一判断结果表示否,则将统计集合中的所有近邻的样本数据添加至计算队列和所述第三材料数据集,并将所述统计集合中的所有近邻的样本数据从所述融合样本集中删除;
判断所述计算队列是否为空,获得第二判断结果;
若所述第二判断结果为否,则返回步骤“获取所述计算队列中的第一个样本数据,作为待计算样本数据,并将所述待计算样本数据从所述计算队列中删除”;
若所述第二判断结果为是,则判断所述边界域是否为空,获得第三判断结果;
若所述第三判断结果表示否,则返回步骤“获取所述边界域中的最靠前的样本数据添加至计算队列中,并将已添加至计算队列中的所述样本数据从所述边界域中删除”;
若所述第三判断结果表示是,则输出所述第三材料数据集。
5.一种基于密度不平衡样本数据的材料性能预测系统,其特征在于,所述预测系统包括:
样本数据集划分模块,用于根据样本的类别标签将样本数据集划分为不符合预期性能的第一材料数据集和符合预期性能的第二材料数据集;所述第一材料数据集中样本数据的数量大于第二材料数据集中样本数据的数量;
边界样本检测模块,用于检测所述第一材料数据集和所述第二材料数据集中的属于边界样本的样本数据,组成第三材料数据集;
模型训练模块,用于利用所述样本数据集训练第一材料分类模型,利用所述第三材料数据集训练第二材料分类模型;
模型集成模块,用于并行集成训练后的第一材料分类模型和第二材料分类模型,获得集成模型;
性能预测模块,用于利用所述集成模型进行材料性能的预测分类。
6.根据权利要求5所述的基于密度不平衡样本数据的材料性能预测系统,其特征在于,所述边界样本检测模块,具体包括:
第一边界样本检测子模块,用于基于近邻计算方法确定所述第二材料数据集中的属于边界样本的样本数据,组成边界域;
数据集融合子模块,用于将所述边界域和所述第一材料数据集合并获得融合样本集;
第二边界样本检测子模块,用于根据所述边界域,基于欧式距离计算方法确定所述融合样本集中的属于边界样本的样本数据,组成第三材料数据集。
7.根据权利要求6所述的基于密度不平衡样本数据的材料性能预测系统,其特征在于,所述第一边界样本检测子模块,具体包括:
第一近邻的样本数据确定单元,用于基于近邻计算方法,计算第二材料数据集中每个样本数据在所述样本数据集中近邻的样本数据,获得第二材料数据集中每个样本数据的近邻的样本数据;
近邻统计个数获取单元,用于统计第二材料数据集中每个样本数据的近邻的样本数据中属于第一材料数据集的个数,获得第二材料数据集中每个样本数据的近邻统计个数;
第一边界样本检测单元,用于将第二材料数据集中近邻统计个数在预设范围内的样本数据作为边界样本,添加至所述边界域。
8.一种边界样本确定方法,其特征在于,所述确定方法包括如下步骤:
基于近邻计算方法确定第二材料数据集中的属于边界样本的样本数据,组成边界域;
将所述边界域和第一材料数据集合并获得融合样本集;
根据所述边界域,基于欧式距离计算方法确定所述融合样本集中的属于边界样本的样本数据,组成第三材料数据集。
9.根据权利要求8所述的边界样本确定方法,其特征在于,所述基于近邻计算方法确定第二材料数据集中的属于边界样本的样本数据,组成边界域,具体包括:
基于近邻计算方法,计算第二材料数据集中每个样本数据在所述样本数据集中近邻的样本数据,获得第二材料数据集中每个样本数据的近邻的样本数据;
统计第二材料数据集中每个样本数据的近邻的样本数据中属于第一材料数据集的个数,获得第二材料数据集中每个样本数据的近邻统计个数;
将第二材料数据集中近邻统计个数在预设范围内的样本数据作为边界样本,添加至所述边界域。
10.根据权利要求8所述的边界样本确定方法,其特征在于,所述根据所述边界域,基于欧式距离计算方法确定所述融合样本集中的属于边界样本的样本数据,组成第三材料数据集,具体包括:
获取所述边界域中的最靠前的样本数据添加至计算队列中,并将已添加至计算队列中的所述样本数据从所述边界域中删除;
获取所述计算队列中的第一个样本数据,作为待计算样本数据,并将所述待计算样本数据从所述计算队列中删除;
基于近邻计算方法,获取待计算样本数据在融合样本集中的近邻的样本数据,添加至统计集合中;
判断所述统计集合中近邻的样本数据的个数是否小于预设阈值,获得第一判断结果;
若所述第一判断结果表示否,则将统计集合中的所有近邻的样本数据添加至计算队列和所述第三材料数据集,并将所述统计集合中的所有近邻的样本数据从所述融合样本集中删除;
判断所述计算队列是否为空,获得第二判断结果;
若所述第二判断结果为否,则返回步骤“获取所述计算队列中的第一个样本数据,作为待计算样本数据,并将所述待计算样本数据从所述计算队列中删除”;
若所述第二判断结果为是,则判断所述边界域是否为空,获得第三判断结果;
若所述第三判断结果表示否,则返回步骤“获取所述边界域中的最靠前的样本数据添加至计算队列中,并将已添加至计算队列中的所述样本数据从所述边界域中删除”;
若所述第三判断结果表示是,则输出所述第三材料数据集。
CN202110922801.3A 2021-08-12 2021-08-12 一种基于密度不平衡样本数据的材料性能预测方法及系统 Active CN113628701B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110922801.3A CN113628701B (zh) 2021-08-12 2021-08-12 一种基于密度不平衡样本数据的材料性能预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110922801.3A CN113628701B (zh) 2021-08-12 2021-08-12 一种基于密度不平衡样本数据的材料性能预测方法及系统

Publications (2)

Publication Number Publication Date
CN113628701A true CN113628701A (zh) 2021-11-09
CN113628701B CN113628701B (zh) 2024-04-26

Family

ID=78384758

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110922801.3A Active CN113628701B (zh) 2021-08-12 2021-08-12 一种基于密度不平衡样本数据的材料性能预测方法及系统

Country Status (1)

Country Link
CN (1) CN113628701B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105760889A (zh) * 2016-03-01 2016-07-13 中国科学技术大学 一种高效的不均衡数据集分类方法
CN105868775A (zh) * 2016-03-23 2016-08-17 深圳市颐通科技有限公司 基于pso算法的不平衡样本分类方法
US20190354833A1 (en) * 2018-05-18 2019-11-21 Advanced Micro Devices, Inc. Method and system for reducing communication frequency in neural network systems
US11067668B1 (en) * 2020-02-03 2021-07-20 Outsight SA System, method, and computer program product for automatically configuring a detection device

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105760889A (zh) * 2016-03-01 2016-07-13 中国科学技术大学 一种高效的不均衡数据集分类方法
CN105868775A (zh) * 2016-03-23 2016-08-17 深圳市颐通科技有限公司 基于pso算法的不平衡样本分类方法
US20190354833A1 (en) * 2018-05-18 2019-11-21 Advanced Micro Devices, Inc. Method and system for reducing communication frequency in neural network systems
US11067668B1 (en) * 2020-02-03 2021-07-20 Outsight SA System, method, and computer program product for automatically configuring a detection device

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JOSEY MATHEW: "Kernel-Based SMOTE for SVM Classification of Imbalanced Datasets", 《IEEE》, 15 November 2015 (2015-11-15), pages 1 - 6 *
徐玲玲: "面向不平衡数据集的机器学习分类策略", 《计算机工程与应用》, 15 December 2020 (2020-12-15), pages 12 - 27 *

Also Published As

Publication number Publication date
CN113628701B (zh) 2024-04-26

Similar Documents

Publication Publication Date Title
CN104462592B (zh) 基于不确定语义的社交网用户行为关系推演系统及方法
CN104391835A (zh) 文本中特征词选择方法及装置
CN104504583B (zh) 分类器的评价方法
CN105069470A (zh) 分类模型训练方法及装置
CN106228389A (zh) 基于随机森林算法的网络潜力用户挖掘方法及系统
CN102141978A (zh) 一种文本分类的方法及系统
CN105095223A (zh) 文本分类方法及服务器
CN108549817A (zh) 一种基于文本深度学习的软件安全漏洞预测方法
CN104573130A (zh) 基于群体计算的实体解析方法及装置
CN105183792B (zh) 一种基于局部敏感哈希的分布式快速文本分类方法
CN110689368B (zh) 一种移动应用内广告点击率预测系统设计方法
CN113516228B (zh) 一种基于深度神经网络的网络异常检测方法
CN103092931A (zh) 多策略结合文档自动分类方法
CN103559303A (zh) 一种对数据挖掘算法的评估与选择方法
CN106886576A (zh) 一种基于预分类的短文本关键词提取方法及系统
CN112463859B (zh) 基于大数据和业务分析的用户数据处理方法及服务器
CN103970747A (zh) 网络侧计算机对搜索结果进行排序的数据处理方法
CN103336771A (zh) 基于滑动窗口的数据相似检测方法
CN109783633A (zh) 数据分析服务流程模型推荐方法
CN110600135A (zh) 一种基于改进随机森林算法的乳腺癌预测系统
CN106469182A (zh) 一种基于映射关系的信息推荐方法及装置
CN105808602B (zh) 一种垃圾信息的检测方法及装置
CN114023407A (zh) 一种健康档案缺失值补全方法、系统以及存储介质
CN110196797B (zh) 适于信用评分卡系统的自动优化方法和系统
CN104573049A (zh) 一种基于中心向量的knn分类器训练样本裁剪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant