CN110796485A - 一种提高预测模型的预测精度的方法及装置 - Google Patents

一种提高预测模型的预测精度的方法及装置 Download PDF

Info

Publication number
CN110796485A
CN110796485A CN201910975598.9A CN201910975598A CN110796485A CN 110796485 A CN110796485 A CN 110796485A CN 201910975598 A CN201910975598 A CN 201910975598A CN 110796485 A CN110796485 A CN 110796485A
Authority
CN
China
Prior art keywords
decision tree
detected
training
sample
height
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910975598.9A
Other languages
English (en)
Inventor
赵毅仁
张俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Lake Information Technology Co Ltd
Original Assignee
Shanghai Lake Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Lake Information Technology Co Ltd filed Critical Shanghai Lake Information Technology Co Ltd
Priority to CN201910975598.9A priority Critical patent/CN110796485A/zh
Publication of CN110796485A publication Critical patent/CN110796485A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Technology Law (AREA)
  • Game Theory and Decision Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种提高预测模型的预测精度的方法及装置,该方法包括:基于随机森林算法使用训练数据训练获取对应的多棵决策树;计算待检测的样本点在多棵决策树中的每颗决策树的高度的平均值;根据平均值计算待检测的样本点的异常概率;将异常概率大于预设阈值的待检测的样本点去除,使用剩余的样本点训练预测模型,获取最终预测模型。本发明通过使用随机森林算法剔除掉样本数据中异常值,然后使用剔除掉异常值的样本数据训练预测模型,提高模型的泛化能力,最终提升预测模型输出的精确度以及可靠性。

Description

一种提高预测模型的预测精度的方法及装置
技术领域
本发明涉及数据处理技术领域,特别涉及一种提高预测模型的预测精度的方法及装置。
背景技术
用户在金融等平台注册办理相关业务之后,有些用户可能会自发的进行后续贷款申请等流程,但更多的用户会选择不进行后续操作,成为沉淀用户。很多金融机构为了提升业务转化率,会有人工专员进行电话营销,目的是为了提高沉淀用户的转化率。但是若是对所有用户都进行人工专员进行电话营销,需要耗费大量的人力及时间。为了提高效率,目前已经基于历史数据开发了一些营销模型,这些模型的目的是判断用户自动转化的概率。常用的模型算法是逻辑回归算法,依据模型输出结果,人工营销专员可以只针对自动转化率低的用户进行营销,极大的提升在这一环节沉淀用户的转化率。
目前使用较广泛的预测模型包括梯度提升决策树(Gradient Boosting DecisionTree,简称GBDT)模型等,该类算法的拟合能力大大强于逻辑回归算法,模型有着更高的精度,但是这类模型很容易受到异常值的影响,导致模型输出结果的准确度以及可靠性等下降。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种提高预测模型的预测精度的方法,以克服现有技术中模型受到异常值的影响,导致模型输出结果的准确度以及可靠性等下降等问题。
为解决上述一个或多个技术问题,本发明采用的技术方案是:
一方面,提供了一种提高预测模型的预测精度的方法,该方法包括如下步骤:
基于随机森林算法使用训练数据训练获取对应的多棵决策树;
计算待检测的样本点在所述多棵决策树中的每颗决策树的高度的平均值;
根据所述平均值计算所述待检测的样本点的异常概率;
将异常概率大于预设阈值的待检测的样本点去除,使用剩余的样本点训练预测模型,获取最终预测模型。
进一步的,所述基于随机森林算法使用训练数据训练获取对应的多棵决策树包括:
获取训练数据,对所述训练数据进行有放回的采样,获取采样数据;
使用采样数据中的每个样本的全部特征基于随机森林算法构建对应的决策树。
进一步的,所述使用采样数据中的每个样本的全部特征基于随机森林算法构建对应的决策树包括:
随机选择所述样本的特征,基于选中的特征按照预设的阈值进行决策树的分裂,直到所述决策树的层数达到限定阈值或特征数只剩一个。
进一步的,所述计算待检测的样本点在所述多棵决策树中的每颗决策树的高度的平均值包括:
遍历每棵决策树,获取待检测的样本点最终落在每棵决策树的层数,所述层数即为所述待检测的样本点在所述每棵决策树的高度;
根据所述待检测的样本点在所述每棵决策树的高度计算获取所述待检测的样本点在所述多棵决策树中的每颗决策树的高度的平均值。
进一步的,所述根据所述平均值计算所述待检测的样本点的异常概率包括:
对所述平均值进行归一化处理,获取所述待检测的样本点的异常概率。
另一方面,提供了一种提高预测模型的预测精度的装置,所述装置包括:
决策树训练模块,用于基于随机森林算法使用训练数据训练获取对应的多棵决策树;
高度计算模块,用于计算待检测的样本点在所述多棵决策树中的每颗决策树的高度的平均值;
异常计算模块,用于根据所述平均值计算所述待检测的样本点的异常概率;
模型训练模块,用于将异常概率大于预设阈值的待检测的样本点去除,使用剩余的样本点训练预测模型,获取最终预测模型。
进一步的,所述决策树训练模块包括:
数据获取单元,获取训练数据,对所述训练数据进行有放回的采样,获取采样数据;
决策树训练单元,用于使用采样数据中的每个样本的全部特征基于随机森林算法构建对应的决策树。
进一步的,所述决策树训练单元具体用于:
随机选择所述样本的特征,基于选中的特征按照预设的阈值进行决策树的分裂,直到所述决策树的层数达到限定阈值或特征数只剩一个。
进一步的,所述高度计算模块包括:
高度计算单元,遍历每棵决策树,获取待检测的样本点最终落在每棵决策树的层数,所述层数即为所述待检测的样本点在所述每棵决策树的高度;
平均值计算单元,用于根据所述待检测的样本点在所述每棵决策树的高度计算获取所述待检测的样本点在所述多棵决策树中的每颗决策树的高度的平均值。
进一步的,所述异常计算模块包括:
归一化处理单元,用于对所述平均值进行归一化处理,获取所述待检测的样本点的异常概率。
本发明实施例提供的技术方案带来的有益效果是:
本发明实施例提供的提高预测模型的预测精度的方法及装置,首先使用随机森林算法剔除掉样本数据中异常值,然后使用剔除掉异常值的样本数据训练预测模型,提高模型的泛化能力,最终提升预测模型输出的精确度以及可靠性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据一示例性实施例示出的提高预测模型的预测精度的方法的流程图;
图2是根据一示例性实施例示出的基于随机森林算法使用训练数据训练获取对应的多棵决策树的流程图;
图3是根据一示例性实施例示出的计算待检测的样本点在所述多棵决策树中的每颗决策树的高度的平均值的流程图;
图4是根据一示例性实施例示出的构建出的决策树的示意图;
图5是根据一示例性实施例示出的提高预测模型的预测精度的装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是根据一示例性实施例示出的提高预测模型的预测精度的方法的流程图,参照图1所示,该方法包括如下步骤:
S1:基于随机森林算法使用训练数据训练获取对应的多棵决策树。
具体的,本发明实施例中,采用基于随机森林算法训练获取多棵决策树来剔除样本数据中的异常值。这里的样本数据是指用于后续训练预测模型的数据。随机森林是一个包含多个决策树的分类器。分类器就是指给定一个样本的数据,判定这个样本属于哪个类别的算法。例如在股票涨跌预测中,我们认为前一天的交易量和收盘价对于第二天的涨跌是有影响的,那么分类器就是通过样本的交易量和收盘价预测第二天的涨跌情况的算法。
在决策树的训练过程中,需要一次次的将训练数据集分裂成两个子数据集,这个过程就叫做分裂。在分类问题中,输入到分类器中的数据叫做特征。以上述的股票涨跌预测问题为例,前一天的交易量和收盘价均为特征。
S2:计算待检测的样本点在所述多棵决策树中的每颗决策树的高度的平均值。
具体的,样本点在每颗决策树中的高度即为样本点最终落在每个决策树的层数。样本点离根节点越近,得到的高度值会越小,样本点越靠近底层,得到的高度值会越大,根节点的高度为0。
S3:根据所述平均值计算所述待检测的样本点的异常概率。
具体的,根据上述步骤获取到的待检测的样本点落在多棵决策树中的每颗决策树的高度的平均值计算待检测的样本点的异常概率。
S4:将异常概率大于预设阈值的待检测的样本点去除,使用剩余的样本点训练预测模型,获取最终预测模型。
具体的,本发明实施例中,会预先设置一个异常概率阈值,如0.9。这里需要说明的是,该异常概率阈值可以根据实际需求进行设置,这里不做限制。若计算得到异常概率大于上述异常概率阈值(如大于0.9),则说明该样本点的异常概率越大,应该将其剔除,若计算得到异常概率小于等于上述异常概率阈值(如小于等于0.9),则说明该样本点的异常概率不大,可以将其保留,作为后续训练预测模型的训练数据。将异常概率大于预设阈值的所有待检测的样本点去除,使用剩余的样本点训练预测模型,获取最终预测模型。
图2是根据一示例性实施例示出的基于随机森林算法使用训练数据训练获取对应的多棵决策树的流程图,参照图2所示,作为一种较优的实施方式,本发明实施例中,所述基于随机森林算法使用训练数据训练获取对应的多棵决策树包括:
S101:获取训练数据,对所述训练数据进行有放回的采样,获取采样数据。
具体的,首先,从原始的训练数据集中采取有放回的采样,获取采样数据,构造子数据集,子数据集的数据量和原始的训练数据集的数据量是相同的。不同子数据集的元素可以重复,同一个子数据集中的元素也可以重复。
S102:使用采样数据中的每个样本的全部特征基于随机森林算法构建对应的决策树。
具体的,利用采样数据来构建对应的决策树。具体构建时,随机选取采样数据中的每个样本的特征进行划分,然后再基于选中的特征随机选择划分阈值,进行决策树的分裂。现有技术中,随机森林中的每棵决策树的每一个分裂过程并未用到所有的待选特征,而是从所有的待选特征中随机选取一定的特征,之后再在随机选取的特征中选取最优的特征。而在本发明实施例中,是采用的采样数据中的每个样本的全部特征来构建单个的决策树。这样不仅能够使得随机森林中的决策树都能够彼此不同,提升系统的多样性,从而提升分类性能,而且能够保证每棵决策树提取到的特征更全面,避免出现某个特征出现异常,但是决策树不包括该特征的情况发生。
作为一种较优的实施方式,本发明实施例中,所述使用采样数据中的每个样本的全部特征基于随机森林算法构建对应的决策树包括:
随机选择所述样本的特征,基于选中的特征按照预设的阈值进行决策树的分裂,直到所述决策树的层数达到限定阈值或特征数只剩一个。
具体的,这里对预设的阈值不做限定,可以根据实际需求进行设置,也可以随机选取。分裂结束的条件可以设置为决策树的层数达到限定阈值,也可以设置为样本的特征数只剩一个。
图3是根据一示例性实施例示出的计算待检测的样本点在所述多棵决策树中的每颗决策树的高度的平均值的流程图,参照图3所示,作为一种较优的实施方式,本发明实施例中,所述计算待检测的样本点在所述多棵决策树中的每颗决策树的高度的平均值包括:
S201:遍历每棵决策树,获取待检测的样本点最终落在每棵决策树的层数,所述层数即为所述待检测的样本点在所述每棵决策树的高度。
具体的,计算待检测样本点在每棵决策树中的高度时,首先需要遍历每一棵决策树,得到待检测样本点(假设为x)最终落在每棵决策树中的层数,记为HT(x),这个HT(x)即表示待检测样本点在该棵决策树中的高度。
图4是根据一示例性实施例示出的构建出的决策树的示意图,参照图4所示,该决策树深度共有3层,特征包括“拥有房产”、“已婚”、“年收入”,其中“拥有房产”为根节点,80(这里可以指80万人民币等)为年收入的划分阈值。若是待检测样本点最终落在A处,则该待检测样本点在该棵决策树中的高度为2,若是待检测样本点最终落在B处,则该待检测样本点在该棵决策树中的高度为3。
S202:根据所述待检测的样本点在所述每棵决策树的高度计算获取所述待检测的样本点在所述多棵决策树中的每颗决策树的高度的平均值。
具体的,本发明实施例中,选取的是待检测的样本点在多棵决策树中的每颗决策树的高度的平均值。实际应用时,用户也可以根据实际需求,对获取到的待检测的样本点在每棵决策树中的高度设置权重,然后根据权重计算得到一个加权值。
作为一种较优的实施方式,本发明实施例中,所述根据所述平均值计算所述待检测的样本点的异常概率包括:
对所述平均值进行归一化处理,获取所述待检测的样本点的异常概率。
具体的,为了方便设置阈值来判断哪些待检测样本点为异常点,本发明实施例中,对异常概率进行归一化处理,具体实施时,对上述步骤获取到的平均值进行归一化处理。归一化处理后的取值范围为[0,1],越接近1,则该点为异常点的概率也越大。
作为一种较优的实施方式,本发明实施例中,对平均值进行归一化处理时采用如下公式:
Figure BDA0002229564610000081
其中,
Figure BDA0002229564610000082
ε是欧拉常数。x为样本点,m为样本的个数,h(x)为上述步骤计算出来的每棵树的高度平均值,s(x,m)取值范围为[0,1],s(x,m)的值越接近1,则该点为异常点的概率也越大。
图5是根据一示例性实施例示出的提高预测模型的预测精度的装置的结构示意图,参照图5所示,该装置包括:
决策树训练模块,用于基于随机森林算法使用训练数据训练获取对应的多棵决策树;
高度计算模块,用于计算待检测的样本点在所述多棵决策树中的每颗决策树的高度的平均值;
异常计算模块,用于根据所述平均值计算所述待检测的样本点的异常概率;
模型训练模块,用于将异常概率大于预设阈值的待检测的样本点去除,使用剩余的样本点训练预测模型,获取最终预测模型。
作为一种较优的实施方式,本发明实施例中,所述决策树训练模块包括:
数据获取单元,获取训练数据,对所述训练数据进行有放回的采样,获取采样数据;
决策树训练单元,用于使用采样数据中的每个样本的全部特征基于随机森林算法构建对应的决策树。
作为一种较优的实施方式,本发明实施例中,所述决策树训练单元具体用于:
随机选择所述样本的特征,基于选中的特征按照预设的阈值进行决策树的分裂,直到所述决策树的层数达到限定阈值或特征数只剩一个。
作为一种较优的实施方式,本发明实施例中,所述高度计算模块包括:
高度计算单元,遍历每棵决策树,获取待检测的样本点最终落在每棵决策树的层数,所述层数即为所述待检测的样本点在所述每棵决策树的高度;
平均值计算单元,用于根据所述待检测的样本点在所述每棵决策树的高度计算获取所述待检测的样本点在所述多棵决策树中的每颗决策树的高度的平均值。
作为一种较优的实施方式,本发明实施例中,所述异常计算模块包括:
归一化处理单元,用于对所述平均值进行归一化处理,获取所述待检测的样本点的异常概率。
综上所述,本发明实施例提供的技术方案带来的有益效果是:
本发明实施例提供的提高预测模型的预测精度的方法及装置,首先使用随机森林算法剔除掉样本数据中异常值,然后使用剔除掉异常值的样本数据训练预测模型,提高模型的泛化能力,最终提升预测模型输出的精确度以及可靠性。
需要说明的是:上述实施例提供的提高预测模型的预测精度的装置在触发提高模预测精度业务时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的提高预测模型的预测精度的装置与提高预测模型的预测精度的方法实施例属于同一构思,即该装置是基于该提高预测模型的预测精度的方法的,其具体实现过程详见方法实施例,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种提高预测模型的预测精度的方法,其特征在于,所述方法包括如下步骤:
基于随机森林算法使用训练数据训练获取对应的多棵决策树;
计算待检测的样本点在所述多棵决策树中的每颗决策树的高度的平均值;
根据所述平均值计算所述待检测的样本点的异常概率;
将异常概率大于预设阈值的待检测的样本点去除,使用剩余的样本点训练预测模型,获取最终预测模型。
2.根据权利要求1所述的提高预测模型的预测精度的方法,其特征在于,所述基于随机森林算法使用训练数据训练获取对应的多棵决策树包括:
获取训练数据,对所述训练数据进行有放回的采样,获取采样数据;
使用采样数据中的每个样本的全部特征基于随机森林算法构建对应的决策树。
3.根据权利要求2所述的提高预测模型的预测精度的方法,其特征在于,所述使用采样数据中的每个样本的全部特征基于随机森林算法构建对应的决策树包括:
随机选择所述样本的特征,基于选中的特征按照预设的阈值进行决策树的分裂,直到所述决策树的层数达到限定阈值或特征数只剩一个。
4.根据权利要求1至3任一所述的提高预测模型的预测精度的方法,其特征在于,所述计算待检测的样本点在所述多棵决策树中的每颗决策树的高度的平均值包括:
遍历每棵决策树,获取待检测的样本点最终落在每棵决策树的层数,所述层数即为所述待检测的样本点在所述每棵决策树的高度;
根据所述待检测的样本点在所述每棵决策树的高度计算获取所述待检测的样本点在所述多棵决策树中的每颗决策树的高度的平均值。
5.根据权利要求1至3任一所述的提高预测模型的预测精度的方法,其特征在于,所述根据所述平均值计算所述待检测的样本点的异常概率包括:
对所述平均值进行归一化处理,获取所述待检测的样本点的异常概率。
6.一种提高预测模型的预测精度的装置,其特征在于,所述装置包括:
决策树训练模块,用于基于随机森林算法使用训练数据训练获取对应的多棵决策树;
高度计算模块,用于计算待检测的样本点在所述多棵决策树中的每颗决策树的高度的平均值;
异常计算模块,用于根据所述平均值计算所述待检测的样本点的异常概率;
模型训练模块,用于将异常概率大于预设阈值的待检测的样本点去除,使用剩余的样本点训练预测模型,获取最终预测模型。
7.根据权利要求6所述的提高预测模型的预测精度的装置,其特征在于,所述决策树训练模块包括:
数据获取单元,获取训练数据,对所述训练数据进行有放回的采样,获取采样数据;
决策树训练单元,用于使用采样数据中的每个样本的全部特征基于随机森林算法构建对应的决策树。
8.根据权利要求7所述的提高预测模型的预测精度的装置,其特征在于,所述决策树训练单元具体用于:
随机选择所述样本的特征,基于选中的特征按照预设的阈值进行决策树的分裂,直到所述决策树的层数达到限定阈值或特征数只剩一个。
9.根据权利要求6至8任一所述的提高预测模型的预测精度的装置,其特征在于,所述高度计算模块包括:
高度计算单元,遍历每棵决策树,获取待检测的样本点最终落在每棵决策树的层数,所述层数即为所述待检测的样本点在所述每棵决策树的高度;
平均值计算单元,用于根据所述待检测的样本点在所述每棵决策树的高度计算获取所述待检测的样本点在所述多棵决策树中的每颗决策树的高度的平均值。
10.根据权利要求1至3任一所述的提高预测模型的预测精度的装置,其特征在于,所述异常计算模块包括:
归一化处理单元,用于对所述平均值进行归一化处理,获取所述待检测的样本点的异常概率。
CN201910975598.9A 2019-10-11 2019-10-11 一种提高预测模型的预测精度的方法及装置 Pending CN110796485A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910975598.9A CN110796485A (zh) 2019-10-11 2019-10-11 一种提高预测模型的预测精度的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910975598.9A CN110796485A (zh) 2019-10-11 2019-10-11 一种提高预测模型的预测精度的方法及装置

Publications (1)

Publication Number Publication Date
CN110796485A true CN110796485A (zh) 2020-02-14

Family

ID=69439074

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910975598.9A Pending CN110796485A (zh) 2019-10-11 2019-10-11 一种提高预测模型的预测精度的方法及装置

Country Status (1)

Country Link
CN (1) CN110796485A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112257076A (zh) * 2020-11-11 2021-01-22 福建奇点时空数字科技有限公司 一种基于随机探测算法和信息聚合的漏洞检测方法
CN112785415A (zh) * 2021-01-20 2021-05-11 深圳前海微众银行股份有限公司 评分卡模型构建方法、装置、设备及计算机可读存储介质
CN113537642A (zh) * 2021-08-20 2021-10-22 日月光半导体制造股份有限公司 产品品质预测方法、装置、电子设备及存储介质
CN115423148A (zh) * 2022-07-29 2022-12-02 江苏大学 一种基于克里金法和决策树的农机作业性能预测方法与装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112257076A (zh) * 2020-11-11 2021-01-22 福建奇点时空数字科技有限公司 一种基于随机探测算法和信息聚合的漏洞检测方法
CN112257076B (zh) * 2020-11-11 2023-12-15 厦门美域中央信息科技有限公司 一种基于随机探测算法和信息聚合的漏洞检测方法
CN112785415A (zh) * 2021-01-20 2021-05-11 深圳前海微众银行股份有限公司 评分卡模型构建方法、装置、设备及计算机可读存储介质
CN112785415B (zh) * 2021-01-20 2024-01-12 深圳前海微众银行股份有限公司 评分卡模型构建方法、装置、设备及计算机可读存储介质
CN113537642A (zh) * 2021-08-20 2021-10-22 日月光半导体制造股份有限公司 产品品质预测方法、装置、电子设备及存储介质
CN115423148A (zh) * 2022-07-29 2022-12-02 江苏大学 一种基于克里金法和决策树的农机作业性能预测方法与装置
CN115423148B (zh) * 2022-07-29 2023-10-31 江苏大学 一种基于克里金法和决策树的农机作业性能预测方法与装置

Similar Documents

Publication Publication Date Title
CN110796485A (zh) 一种提高预测模型的预测精度的方法及装置
CN113905391B (zh) 集成学习网络流量预测方法、系统、设备、终端、介质
CN111353534B (zh) 一种基于自适应分数阶梯度的图数据类别预测方法
CN108197795B (zh) 恶意团体账户识别方法、装置、终端及存储介质
CN111242191A (zh) 基于多分类器集成的信用评级方法及装置
CN112232944B (zh) 一种评分卡创建方法、装置和电子设备
CN110634060A (zh) 一种用户信用风险的评估方法、系统、装置及存储介质
CN113344438A (zh) 对贷中行为进行监控的贷款系统、监控方法、设备及介质
CN113537960A (zh) 一种异常资源转移链路的确定方法、装置和设备
CN114463036A (zh) 一种信息处理方法及装置、存储介质
CN111881972A (zh) 一种黑产用户识别方法及装置、服务器、存储介质
CN116170328A (zh) 图形编码的使用带宽预测方法及装置
Zhu et al. Loan default prediction based on convolutional neural network and LightGBM
CN114021612A (zh) 一种新型个人信用评估方法及系统
CN113450207A (zh) 一种智能催收方法、装置、设备及存储介质
CN113112347A (zh) 催收决策的确定方法、相关装置及计算机存储介质
CN117408736A (zh) 基于改进的Stacking融合算法的企业资金需求挖掘方法和介质
CN114997879B (zh) 一种支付路由方法、装置、设备和存储介质
CN117035207A (zh) 运钞车路径规划方法、路径预测模型的训练方法及装置
CN115600818A (zh) 多维评分方法、装置、电子设备和存储介质
CN115392582A (zh) 基于增量模糊粗糙集属性约简的作物产量预测方法
CN114170000A (zh) 信用卡用户风险类别识别方法、装置、计算机设备和介质
CN110837847A (zh) 用户分类方法及装置、存储介质、服务器
CN114678069B (zh) 器官移植的免疫排斥预测及信号通路确定装置
CN117875969B (zh) 训练方法、支付路由选取方法、系统、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200214