CN108733633A - 一种样本分布调整的不平衡数据回归方法及装置 - Google Patents

一种样本分布调整的不平衡数据回归方法及装置 Download PDF

Info

Publication number
CN108733633A
CN108733633A CN201810480319.7A CN201810480319A CN108733633A CN 108733633 A CN108733633 A CN 108733633A CN 201810480319 A CN201810480319 A CN 201810480319A CN 108733633 A CN108733633 A CN 108733633A
Authority
CN
China
Prior art keywords
sample data
sample
data
regression model
weights
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810480319.7A
Other languages
English (en)
Inventor
艾轶博
张卫冬
王璠
陈佳
张涛
孙畅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology Beijing USTB
Original Assignee
University of Science and Technology Beijing USTB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology Beijing USTB filed Critical University of Science and Technology Beijing USTB
Priority to CN201810480319.7A priority Critical patent/CN108733633A/zh
Publication of CN108733633A publication Critical patent/CN108733633A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Analysis (AREA)
  • Algebra (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Complex Calculations (AREA)

Abstract

本发明提供一种样本分布调整的不平衡数据回归方法及装置,能够建立更佳准确的回归模型。所述方法包括:S101,向初始设置的回归模型中输入待判别的样本数据,根据回归模型样本数据分类的准确性,更新样本数据的权值,其中,初始设置的回归模型为Adaboost算法的弱分类器,所述样本数据为:不平衡样本数据;S102,在回归模型中加入弱分类器,更新权值后的样本数据进入加入的弱分类器进行训练,不断迭代更新样本数据的权值直至达到预设的识别误差要求。本发明适用于解决样本数据中的不平衡数据问题。

Description

一种样本分布调整的不平衡数据回归方法及装置
技术领域
本发明涉及数据处理领域,特别是指一种样本分布调整的不平衡数据回归方法及装置。
背景技术
不平衡数据是指数据对象中的各类别数据不均衡。在实际分类问题中,少数类数据往往包含更重要的信息,通过解决不平衡数据问题,可以充分发挥包含更重要信息的少数类数据的作用。所常见的问题中,罕见病调查数据、吉祥物投票、以及不可维修长期服役结构的失效信息等,这些问题都是典型的不平衡数据问题。在这些不平衡数据问题中,对于表征目的具有重要信息的这类数据,叫做关键表征数据。关键表征数据与非关键表征数据严重不平衡,是典型的二分类不平衡数据问题,可以认为关键表征数据为不平衡数据中的正样本,而非关键表征数据为不平衡数据中的负样本,可以采用一定的方法通过数据中正负样本分布调整,来充分挖掘正样本中的数据信息。
基于不平衡数据直接构建的回归模型,其输出结果的准确性较低。
发明内容
本发明要解决的技术问题是提供一种样本分布调整的不平衡数据回归方法及装置,以解决现有技术所存在的基于不平衡数据直接构建的回归模型其输出结果准确性较低的问题。
为解决上述技术问题,本发明实施例提供一种样本分布调整的不平衡数据回归方法,包括:
S101,向初始设置的回归模型中输入待判别的样本数据,根据回归模型样本数据分类的准确性,更新样本数据的权值,其中,初始设置的回归模型为Adaboost算法的弱分类器,所述样本数据为:不平衡样本数据;
S102,在回归模型中加入弱分类器,更新权值后的样本数据进入加入的弱分类器进行训练,不断迭代更新样本数据的权值直至达到预设的识别误差要求。
进一步地,所述S101包括:
向初始设置的回归模型中输入待判别的样本数据;
判断回归模型的回归结果与真实的样本数据xi之间的相对误差是否大于预设的第一误差;
若大于,则判断样本数据xi为错分样本,提高样本数据xi的权值;
否则,则判断样本数据xi为非错分样本,降低样本数据xi的权值。
进一步地,所述S102包括:
S1021,在回归模型中加入弱分类器,更新权值后的样本数据进入加入的弱分类器进行训练,根据S101的权值更新规则不断更新样本数据的权值;
S1022,判断不平衡样本数据中的关键表征数据xm与回归模型的回归结果之间相对误差是否小于预设的第二误差;
S1023,若是,则认为迭代达到预设的识别误差要求,结束不平衡样本数据分布调整;
S1024,否则,则返回S1021继续执行。
本发明实施例还提供一种样本分布调整的不平衡数据回归装置,包括:
第一更新模块,用于向初始设置的回归模型中输入待判别的样本数据,根据回归模型样本数据分类的准确性,更新样本数据的权值,其中,初始设置的回归模型为Adaboost算法的弱分类器,所述样本数据为:不平衡样本数据;
第二更新模块,用于在回归模型中加入弱分类器,更新权值后的样本数据进入加入的弱分类器进行训练,不断迭代更新样本数据的权值直至达到预设的识别误差要求。
进一步地,所述第一更新模块包括:
输入单元,用于向初始设置的回归模型中输入待判别的样本数据;
判断单元,用于判断回归模型的回归结果与真实的样本数据xi之间的相对误差是否大于预设的第一误差;
提高单元,用于若大于,则判断样本数据xi为错分样本,提高样本数据xi的权值;
降低单元,用于否则,则判断样本数据xi为非错分样本,降低样本数据xi的权值。
进一步地,所述第二更新模块包括:
训练单元,用于在回归模型中加入弱分类器,更新权值后的样本数据进入加入的弱分类器进行训练,根据所述第一更新模块的权值更新规则不断更新样本数据的权值;
判断单元,用于判断不平衡样本数据中的关键表征数据xm与回归模型的回归结果之间相对误差是否小于预设的第二误差;
结束单元,用于若是,则认为迭代达到预设的识别误差要求,结束不平衡样本数据分布调整;
返回单元,用于否则,则返回所述训练单元继续执行。
本发明的上述技术方案的有益效果如下:
上述方案中,向初始设置的回归模型中输入待判别的样本数据,根据回归模型样本数据分类的准确性,更新样本数据的权值,其中,初始设置的回归模型为Adaboost算法的弱分类器,所述样本数据为:不平衡样本数据;在回归模型中加入弱分类器,更新权值后的样本数据进入加入的弱分类器进行训练,不断迭代更新样本数据的权值直至达到预设的识别误差要求,结束不平衡数据的分布调整,以便利用最后得到的更新权值后的样本数据及其分布建立最终的回归模型。这样,利用Adaboost分类器思想,通过不断更新样本权值调整样本数据分布来解决样本数据中的不平衡数据问题,再利用调整后的不平衡数据建立更佳准确的回归模型。
附图说明
图1为本发明实施例提供的样本分布调整的不平衡数据回归方法的流程示意图;
图2为本发明实施例提供的样本分布调整的不平衡数据回归方法的详细流程示意图;
图3为本发明实施例提供的利用本发明所述的不平衡数据回归方法建立累计振铃计数数峰值前Cacc趋势模型的流程示意图;
图4为本发明实施例提供的累计振铃计数峰值前直接指数回归与本发明所述的不平衡数据回归方法进行回归拟合结果对比示意图;
图5为本发明实施例提供的样本分布调整的不平衡数据回归装置的结构示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明针对现有的基于不平衡数据直接构建的回归模型其输出结果准确性较低的问题,提供一种样本分布调整的不平衡数据回归方法及装置。
实施例一
如图1所示,本发明实施例提供的样本分布调整的不平衡数据回归方法,包括:
S101,向初始设置的回归模型中输入待判别的样本数据,根据回归模型样本数据分类的准确性,更新样本数据的权值,其中,初始设置的回归模型为自适应提升算法(Adaptive boosting,Adaboost)算法的弱分类器,所述样本数据为:不平衡样本数据;
S102,在回归模型中加入弱分类器,更新权值后的样本数据进入加入的弱分类器进行训练,不断迭代更新样本数据的权值直至达到预设的识别误差要求,结束不平衡数据的分布调整。
本发明实施例所述的样本分布调整的不平衡数据回归方法,向初始设置的回归模型中输入待判别的样本数据,根据回归模型样本数据分类的准确性,更新样本数据的权值,其中,初始设置的回归模型为Adaboost算法的弱分类器,所述样本数据为:不平衡样本数据;在回归模型中加入弱分类器,更新权值后的样本数据进入加入的弱分类器进行训练,不断迭代更新样本数据的权值直至达到预设的识别误差要求,结束不平衡数据的分布调整,以便利用得到的更新权值后的样本数据及其分布建立最终的回归模型。这样,利用Adaboost分类器思想,通过不断更新样本权值调整样本数据分布来解决样本数据中的不平衡数据问题,再利用调整后的不平衡数据建立更佳准确的回归模型。
本实施例中,Adaboost分类器方法通过新的“弱分类器”的不断地加入,直到达到某个设定的误差要求,最终联合生成一个强分类器。在弱分类器训练时,其算法如下,在构造下一训练集时,对于被准确分类的样本点,要降低其权重;反之,对于未被准确分类的样本点则要提高其权重。然后,样本集及其样本点的更新权重进入下一个分类器进行训练,该过程不断迭代直至达到识别误差要求。Adaboost分类器能够自适应的调整弱学习算法的错误率,使其在弱学习算法学习的过程中经过若干次迭代以后整体错误率能够达到的期望值。
如图2所示,在前述样本分布调整的不平衡数据回归方法的具体实施方式中,进一步地,所述向初始设置的回归模型中输入待判别的样本数据,根据回归模型样本数据分类的准确性,更新样本数据的权值,其中,初始设置的回归模型为Adaboost算法的弱分类器,所述样本数据为:不平衡样本数据(S101)包括:
向初始设置的回归模型中输入待判别的样本数据(为初始样本数据);
判断回归模型的回归结果与真实的样本数据xi之间的相对误差是否大于预设的第一误差;
若大于,则判断样本数据xi为错分样本,提高样本数据xi的权值;
否则,则判断样本数据xi为非错分样本,降低样本数据xi的权值。
本实施例中,将回归模型看作Adaboost算法的弱分类器,初始情况时认为样本空间D中的所有样本数据为均匀分布,当回归模型的回归结果与真实的样本数据xi之间的相对误差大于预设的第一误差er时,则判断样本数据xi为错分样本,提高样本数据xi的权值,否则,则判断样本数据xi为非错分样本(也可以称为:正分样本),降低样本数据xi的权值。
本实施例中,对于被准确分类的样本(非错分样本),要降低其权值;反之,对于未被准确分类的样本(错分样本)则要提高其权值,具体算法如下:
begin initalize D={x1,y1…xn,yn},W1(i)=1/n,i=1,…,n;yi表示xi的标记,yi的取值为1或-1,将yi与下文的hk(xi)比较,如果一致表示xi被正确分类,不一致表示xi被错误分类;W1(i)表示样本数据xi在第1次迭代中的权值;
k←0 %←表示赋值
do k←k+1
将样本空间D按照Wk(i)分布输入参与第k次迭代的回归模型的弱分类器Ck
输出的回归结果
%确定错分样本与非错分样本
Ek←对使用Wk(i)的D测量Ck的训练误差
αk←0.5ln[(1-Ek)/Ek],其中,αk表示第k次迭代中根据训练误差计算出的权值调整系数;
%根据得到的αk调整xi的权值
其中,n表示样本空间D中的样本数,Zk为规范化因子,使得Wk+1成为一个概率分布。
如图2所示,在前述样本分布调整的不平衡数据回归方法的具体实施方式中,进一步地,所述在回归模型中加入弱分类器,更新权值后的样本数据进入加入的弱分类器进行训练,不断迭代更新样本数据的权值直至达到预设的识别误差要求,结束不平衡数据的分布调整(S102)包括:
S1021,在回归模型中加入弱分类器,更新权值后的样本数据进入加入的弱分类器进行训练,根据S101的权值更新规则不断更新样本数据的权值;
S1022,判断不平衡样本数据中的关键表征数据xm与回归模型的回归结果之间相对误差是否小于预设的第二误差;
S1023,若是,则认为迭代达到预设的识别误差要求,结束不平衡样本数据分布调整;
S1024,否则,则返回S1021继续执行。
本实施例中,执行S101得到新的权值之后,继续进行训练,按照S101的规律,不断更新样本权值,当不平衡数据中的关键表征数据xm与回归模型的回归结果之间相对误差小于预设的第二误差ep时,则认为不平衡数据分布调整结束,最后根据样本数据以及S102得到的更新后的样本数据的权值建立最终的回归模型。具体算法如下:
%关键表征数据回归结果达到精度要求
return Wk+1(i)%返回样本权值调整结果
end
G(x)=f(xi,Wk+1(i))%得到最终回归模型
为了更好地理解本发明如何调整不平衡数据的分布,以提高回归模型的准确度这一技术问题,提供了一个具体的实例:在高速列车齿轮箱箱体材料疲劳损伤基于性能退化的寿命预测研究中的累积振铃计数趋势模型的建立应用该算法进行具体的说明。
通过前期的大量的实验和研究,已经建立好累积振铃计数出现峰值前的趋势模型:
cacc=at1*exp(bt1*tacc)
其中,cacc表示累积振铃计数;tacc表示累积振铃计数对应的时间,为1,2,……,tpeak;at1表示指数拟合参数;bt1表示指数拟合参数。
由于箱体材料疲劳损伤过程较长,声发射信号数据量大,相对整个疲劳过程,累积振铃计数峰值信号附近的数据较少。因此,由疲劳试验中声发射信号得到的累积振铃计数值,直接利用指数回归方法拟合的cacc趋势模型,很难使累积振铃计数峰值信号出现在回归曲线的合理误差范围内。而累积振铃计数峰值信号对箱体材料的疲劳损伤表征具有重要意义,说明此刻箱体材料内部正发生着大量金属键的断裂,在累积振铃计数峰值信号以后,累计振铃计数值减少,说明材料微观层次的损伤正逐渐演变为宏观裂纹直至断裂。因此,需要对疲劳过程的声发射信号样本分布进行更新,增加峰值附近信号的权重,通过改变样本分布来解决这一问题,这是典型的不平衡数据问题。
将指数回归累积振铃计数出现峰值前的趋势模型看作Adaboost算法的弱分类器,初始情况时认为所有峰值信号前的累积振铃计数值为均匀分布,认为回归结果与真实值相对误差大于20%的为错分样本,增加错分样本训练权值,构成新样本,进行新的学习,以此规律,不断更新样本权值,当峰值时刻数据与回归模型相对误差为0.5%以下时,认为累积振铃计数数据分布调整结束,最后根据调整后的数据拟合峰值信号前cacc趋势模型,具体流程如图3所示。
图4为利用本发明实施例提供的样本分布调整的不平衡数据回归方法得到的累积振铃计数cacc趋势模型和直接用指数回归方法得到的cacc趋势模型的拟合结果。可以看出直接用指数回归方法是对现有数据的拟合,要满足大多数数据的误差要求,但不能突出累积振铃计数峰值信号的关键表征作用,不能反映箱体材料疲劳损伤过程的累积振铃计数cacc的趋势变化;利用Adaboost方法调整样本数据的分布,拟合结果能够强化累积振铃计数峰值信号的表征作用,反映累积振铃计数cacc序列的趋势变化,得到预期的拟合结果。
实施例二
本发明还提供一种样本分布调整的不平衡数据回归装置的具体实施方式,由于本发明提供的样本分布调整的不平衡数据回归装置与前述样本分布调整的不平衡数据回归方法的具体实施方式相对应,该样本分布调整的不平衡数据回归装置可以通过执行上述方法具体实施方式中的流程步骤来实现本发明的目的,因此上述样本分布调整的不平衡数据回归方法具体实施方式中的解释说明,也适用于本发明提供的样本分布调整的不平衡数据回归装置的具体实施方式,在本发明以下的具体实施方式中将不再赘述。
如图5所示,本发明实施例还提供一种样本分布调整的不平衡数据回归装置,包括:
第一更新模块11,用于向初始设置的回归模型中输入待判别的样本数据,根据回归模型样本数据分类的准确性,更新样本数据的权值,其中,初始设置的回归模型为Adaboost算法的弱分类器,所述样本数据为:不平衡样本数据;
第二更新模块12,用于在回归模型中加入弱分类器,更新权值后的样本数据进入加入的弱分类器进行训练,不断迭代更新样本数据的权值直至达到预设的识别误差要求。
本发明实施例所述的样本分布调整的不平衡数据回归装置,向初始设置的回归模型中输入待判别的样本数据,根据回归模型样本数据分类的准确性,更新样本数据的权值,其中,初始设置的回归模型为Adaboost算法的弱分类器,所述样本数据为:不平衡样本数据;在回归模型中加入弱分类器,更新权值后的样本数据进入加入的弱分类器进行训练,不断迭代更新样本数据的权值直至达到预设的识别误差要求,结束不平衡数据的分布调整;利用得到的更新权值后的样本数据及其分布建立最终的回归模型。这样,利用Adaboost分类器思想,通过不断更新样本权值调整样本数据分布来解决样本数据中的不平衡数据问题,再利用调整后的不平衡数据建立更佳准确的回归模型。
在前述样本分布调整的不平衡数据回归装置的具体实施方式中,进一步地,所述第一更新模块包括:
输入单元,用于向初始设置的回归模型中输入待判别的样本数据;
判断单元,用于判断回归模型的回归结果与真实的样本数据xi之间的相对误差是否大于预设的第一误差;
提高单元,用于若大于,则判断样本数据xi为错分样本,提高样本数据xi的权值;
降低单元,用于否则,则判断样本数据xi为非错分样本,降低样本数据xi的权值。
在前述样本分布调整的不平衡数据回归装置的具体实施方式中,进一步地,初始设置的回归模型为Adaboost算法的弱分类器,初始时认为所有样本数据为均匀分布。
在前述样本分布调整的不平衡数据回归装置的具体实施方式中,进一步地,所述第二更新模块包括:
训练单元,用于在回归模型中加入弱分类器,更新权值后的样本数据进入加入的弱分类器进行训练,根据所述第一更新模块的权值更新规则不断更新样本数据的权值;
判断单元,用于判断不平衡样本数据中的关键表征数据xm与回归模型的回归结果之间相对误差是否小于预设的第二误差;
结束单元,用于若是,则认为迭代达到预设的识别误差要求,结束不平衡样本数据分布调整;
返回单元,用于否则,则返回所述训练单元继续执行。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (6)

1.一种样本分布调整的不平衡数据回归方法,其特征在于,包括:
S101,向初始设置的回归模型中输入待判别的样本数据,根据回归模型样本数据分类的准确性,更新样本数据的权值,其中,初始设置的回归模型为Adaboost算法的弱分类器,所述样本数据为:不平衡样本数据;
S102,在回归模型中加入弱分类器,更新权值后的样本数据进入加入的弱分类器进行训练,不断迭代更新样本数据的权值直至达到预设的识别误差要求。
2.根据权利要求1所述的样本分布调整的不平衡数据回归方法,其特征在于,所述S101包括:
向初始设置的回归模型中输入待判别的样本数据;
判断回归模型的回归结果与真实的样本数据xi之间的相对误差是否大于预设的第一误差;
若大于,则判断样本数据xi为错分样本,提高样本数据xi的权值;
否则,则判断样本数据xi为非错分样本,降低样本数据xi的权值。
3.根据权利要求2所述的样本分布调整的不平衡数据回归方法,其特征在于,所述S102包括:
S1021,在回归模型中加入弱分类器,更新权值后的样本数据进入加入的弱分类器进行训练,根据S101的权值更新规则不断更新样本数据的权值;
S1022,判断不平衡样本数据中的关键表征数据xm与回归模型的回归结果之间相对误差是否小于预设的第二误差;
S1023,若是,则认为迭代达到预设的识别误差要求,结束不平衡样本数据分布调整;
S1024,否则,则返回S1021继续执行。
4.一种样本分布调整的不平衡数据回归装置,其特征在于,包括:
第一更新模块,用于向初始设置的回归模型中输入待判别的样本数据,根据回归模型样本数据分类的准确性,更新样本数据的权值,其中,初始设置的回归模型为Adaboost算法的弱分类器,所述样本数据为:不平衡样本数据;
第二更新模块,用于在回归模型中加入弱分类器,更新权值后的样本数据进入加入的弱分类器进行训练,不断迭代更新样本数据的权值直至达到预设的识别误差要求。
5.根据权利要求4所述的样本分布调整的不平衡数据回归装置,其特征在于,所述第一更新模块包括:
输入单元,用于向初始设置的回归模型中输入待判别的样本数据;
判断单元,用于判断回归模型的回归结果与真实的样本数据xi之间的相对误差是否大于预设的第一误差;
提高单元,用于若大于,则判断样本数据xi为错分样本,提高样本数据xi的权值;
降低单元,用于否则,则判断样本数据xi为非错分样本,降低样本数据xi的权值。
6.根据权利要求5所述的样本分布调整的不平衡数据回归装置,其特征在于,所述第二更新模块包括:
训练单元,用于在回归模型中加入弱分类器,更新权值后的样本数据进入加入的弱分类器进行训练,根据所述第一更新模块的权值更新规则不断更新样本数据的权值;
判断单元,用于判断不平衡样本数据中的关键表征数据xm与回归模型的回归结果之间相对误差是否小于预设的第二误差;
结束单元,用于若是,则认为迭代达到预设的识别误差要求,结束不平衡样本数据分布调整;
返回单元,用于否则,则返回所述训练单元继续执行。
CN201810480319.7A 2018-05-18 2018-05-18 一种样本分布调整的不平衡数据回归方法及装置 Pending CN108733633A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810480319.7A CN108733633A (zh) 2018-05-18 2018-05-18 一种样本分布调整的不平衡数据回归方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810480319.7A CN108733633A (zh) 2018-05-18 2018-05-18 一种样本分布调整的不平衡数据回归方法及装置

Publications (1)

Publication Number Publication Date
CN108733633A true CN108733633A (zh) 2018-11-02

Family

ID=63937619

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810480319.7A Pending CN108733633A (zh) 2018-05-18 2018-05-18 一种样本分布调整的不平衡数据回归方法及装置

Country Status (1)

Country Link
CN (1) CN108733633A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992712A (zh) * 2019-03-22 2019-07-09 网易传媒科技(北京)有限公司 数据处理方法、装置、介质和计算设备
CN110069997A (zh) * 2019-03-22 2019-07-30 北京字节跳动网络技术有限公司 场景分类方法、装置及电子设备
CN111666997A (zh) * 2020-06-01 2020-09-15 安徽紫薇帝星数字科技有限公司 一种样本平衡方法及目标器官分割模型构建方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105975992A (zh) * 2016-05-18 2016-09-28 天津大学 一种基于自适应升采样的不平衡数据集分类方法
CN106778853A (zh) * 2016-12-07 2017-05-31 中南大学 基于权重聚类和欠抽样的不平衡数据分类方法
US20170154209A1 (en) * 2015-12-01 2017-06-01 Canon Kabushiki Kaisha Image identification apparatus and image identification method

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170154209A1 (en) * 2015-12-01 2017-06-01 Canon Kabushiki Kaisha Image identification apparatus and image identification method
CN105975992A (zh) * 2016-05-18 2016-09-28 天津大学 一种基于自适应升采样的不平衡数据集分类方法
CN106778853A (zh) * 2016-12-07 2017-05-31 中南大学 基于权重聚类和欠抽样的不平衡数据分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
艾轶博: "高速列车齿轮箱箱体故障诊断及跨尺度寿命预测研究", 《中国博士学位论文全文数据库工程科技Ⅱ辑》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992712A (zh) * 2019-03-22 2019-07-09 网易传媒科技(北京)有限公司 数据处理方法、装置、介质和计算设备
CN110069997A (zh) * 2019-03-22 2019-07-30 北京字节跳动网络技术有限公司 场景分类方法、装置及电子设备
CN110069997B (zh) * 2019-03-22 2021-07-20 北京字节跳动网络技术有限公司 场景分类方法、装置及电子设备
CN109992712B (zh) * 2019-03-22 2021-11-30 网易传媒科技(北京)有限公司 数据处理方法、装置、介质和计算设备
CN111666997A (zh) * 2020-06-01 2020-09-15 安徽紫薇帝星数字科技有限公司 一种样本平衡方法及目标器官分割模型构建方法
CN111666997B (zh) * 2020-06-01 2023-10-27 安徽紫薇帝星数字科技有限公司 一种样本平衡方法及目标器官分割模型构建方法

Similar Documents

Publication Publication Date Title
CN108733633A (zh) 一种样本分布调整的不平衡数据回归方法及装置
EP3405843B1 (en) Model adaption and online learning for unstable environments
CN103597417B (zh) 状态监测方法及装置
CN109360604B (zh) 一种卵巢癌分子分型预测系统
CN104866692B (zh) 一种基于自适应代理模型的飞行器多目标优化方法
CN109034194B (zh) 基于特征分化的交易欺诈行为深度检测方法
CN104899135B (zh) 软件缺陷预测方法和系统
CN105589806A (zh) 一种基于SMOTE+Boosting算法的软件缺陷倾向预测方法
TW200949596A (en) Server and system and method for automatic virtual metrology
CN103166830A (zh) 一种智能选择训练样本的垃圾邮件过滤系统和方法
CN108520298A (zh) 一种基于改进lstm-rnn的陆空通话语义一致性校验方法
CN111079978B (zh) 基于逻辑回归和增强学习的煤与瓦斯突出预测的方法
CN113687250A (zh) 电芯容量预测方法、装置、电子设备及介质
CN105740984A (zh) 一种基于性能预测的产品概念性能评价方法
CN110765699B (zh) 一种压裂装备作业时健康状态的评估方法及装置
CN105975589A (zh) 一种高维数据的特征选择方法及装置
CN103020711A (zh) 分类器训练方法及其系统
CN111597760A (zh) 一种实现小样本条件下获取气路参数偏差值的方法
CN109508864B (zh) 一种基于xgboost的企业违约风险模型的建立方法
CN109656808B (zh) 一种基于混合式主动学习策略的软件缺陷预测方法
KR20210003596A (ko) 배터리의 노화 상태 추정 장치 및 방법
CN108416439A (zh) 基于变量加权深度学习的炼油过程产品预测方法和系统
CN113459867A (zh) 基于自适应深度置信网络的电动汽车充电过程故障预警方法
CN110059938B (zh) 一种基于关联规则驱动的配电网规划方法
CN106056164A (zh) 一种基于贝叶斯网络的分类预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181102