CN111325357A - 机器学习建模方法、装置、设备及计算机可读存储介质 - Google Patents

机器学习建模方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN111325357A
CN111325357A CN202010142192.5A CN202010142192A CN111325357A CN 111325357 A CN111325357 A CN 111325357A CN 202010142192 A CN202010142192 A CN 202010142192A CN 111325357 A CN111325357 A CN 111325357A
Authority
CN
China
Prior art keywords
variable
target
preset
decision tree
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010142192.5A
Other languages
English (en)
Inventor
黄勇卫
壮青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN202010142192.5A priority Critical patent/CN111325357A/zh
Publication of CN111325357A publication Critical patent/CN111325357A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种机器学习建模方法、装置、设备和计算机可读存储介质,该机器学习建模方法包括:获取多个第一变量和拟合目标,并确定各所述第一变量对应的预设变量方向;将各所述第一变量和所述拟合目标输入至预设模型进行训练,以获取多个决策树;基于各所述预设变量方向对各所述决策树进行筛选,以获取多个目标决策树;基于各所述目标决策树和所述拟合目标进行模型构建,以获取目标模型。本发明达到了在提高模型的区分效果的同时,又能够降低模型过拟合的风险的有益效果。

Description

机器学习建模方法、装置、设备及计算机可读存储介质
技术领域
本发明涉及科技金融(Fintech)技术领域,尤其涉及一种机器学习建模方法、装置、设备及计算机可读存储介质。
背景技术
随着金融科技(Fintech),尤其是互联网科技金融的不断发展,越来越多的技术应用在金融领域。例如,与科技金融密切挂钩的模型技术,传统的风险建模方法重点关注解释性,依赖于业务专家经验,但对模型的区分效果有所降低,不能完全满足用户的需求。而目前新兴的机器学习则是以区分效果为主,但是存在过拟合风险,模型结果可能不准确,因此,这两种方式均不能满足用户的需求,存在一定的缺陷。
因此,如何在提高模型的区分效果的同时,又能够降低模型过拟合的风险成为了目前亟待解决的技术问题。
发明内容
本发明的主要目的在于提供一种机器学习建模方法、装置、设备和计算机存储介质,旨在解决如何在提高模型的区分效果的同时,又能够降低模型过拟合的风险的技术问题。
为实现上述目的,本发明提供一种机器学习建模方法、装置、设备以及计算机可读存储介质,所述机器学习建模方法包括:
获取多个第一变量和拟合目标,并确定各所述第一变量对应的预设变量方向;
将各所述第一变量和所述拟合目标输入至预设模型进行训练,以获取多个决策树;
基于各所述预设变量方向对各所述决策树进行筛选,以获取多个目标决策树;
基于各所述目标决策树和所述拟合目标进行模型构建,以获取目标模型。
可选地,所述基于各所述预设变量方向对各所述决策树进行筛选,以获取多个目标决策树的步骤,包括:
计算各所述决策树所应用的应用变量,并确定各所述应用变量对应的应用变量方向;
基于各所述应用变量方向和各所述预设变量方向对各所述决策树进行筛选,以获取多个目标决策树。
可选地,所述基于各所述应用变量方向和各所述预设变量方向对各所述决策树进行筛选的步骤,包括:
依次遍历各所述应用变量方向,并在各所述预设变量方向中确定当前遍历的当前应用变量方向对应的当前预设变量方向;
检测所述当前应用变量方向是否和所述当前预设变量方向一致;
若是,则基于所述当前应用变量方向确定所述当前预设变量方向对应的决策树为目标决策树,直至各所应用变量方向遍历完成。
可选地,所述基于所述当前应用变量方向确定所述当前预设变量方向对应的决策树为目标决策树的步骤,包括:
确定所述当前应用变量方向在各所述决策树中的方向是否一致;
若所述当前应用变量方向在各所述决策树中的方向均一致,则确定所述当前预设变量方向对应的决策树为目标决策树。
可选地,所述在各所述预设变量方向中确定当前遍历的当前应用变量方向对应的当前预设变量方向的步骤,包括:
确定当前遍历的当前应用变量所在的当前决策树,并根据所述当前决策树在各所述第一变量中确定第二变量;
在各所述预设变量方向中获取所述第二变量对应的预设变量方向,并将所述第二变量对应的预设变量方向作为当前预设变量方向。
可选地,所述基于各所述目标决策树和所述拟合目标进行模型构建,以获取目标模型的步骤,包括:
确定各所述目标决策树与所述拟合目标的关联度,并在各所述目标决策树中获取关联度大于预设值的关联目标决策树,并根据各所述关联目标决策树和所述拟合目标进行模型构建,以获取目标模型。
可选地,所述根据各所述关联目标决策树和所述拟合目标进行模型构建,以获取目标模型的步骤,包括:
将各所述关联目标决策树作为输入,并将所述拟合目标作为目标变量,根据预设的建模方式、所述输入和所述目标变量进行模型构建,以获取目标模型。
此外,为实现上述目的,本发明还提供一种机器学习建模装置,所述机器学习建模装置包括:
获取模块,用于获取多个第一变量和拟合目标,并确定各所述第一变量对应的预设变量方向;
输入模块,用于将各所述第一变量和所述拟合目标输入至预设模型进行训练,以获取多个决策树;
筛选模块,用于基于各所述预设变量方向对各所述决策树进行筛选,以获取多个目标决策树;
构建模块,用于基于各所述目标决策树和所述拟合目标进行模型构建,以获取目标模型。
此外,为实现上述目的,本发明还提供一种机器学习建模设备;
所述机器学习建模设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中:
所述计算机程序被所述处理器执行时实现如上所述的机器学习建模方法的步骤。
此外,为实现上述目的,本发明还提供计算机存储介质;
所述计算机存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述的机器学习建模方法的步骤。
本发明实施例提出的一种机器学习建模方法、装置、设备及可读存储介质,通过获取多个第一变量和拟合目标,并确定各所述第一变量对应的预设变量方向;将各所述第一变量和所述拟合目标输入至预设模型进行训练,以获取多个决策树;基于各所述预设变量方向对各所述决策树进行筛选,以获取多个目标决策树;基于各所述目标决策树和所述拟合目标进行模型构建,以获取目标模型。通过将获取的各个第一变量和拟合目标输入至预设模型进行训练,得到多个决策树,并根据预设变量方向对各个决策树进行筛选,得到目标决策树,再基于目标决策树和拟合目标进行模型构建,得到目标模型,从而完美的将机器学习与传统建模方法结构,在模型构建的过程中引入机器学习方法挖掘信息的能力、提升区分效果,又让模型结果可解释,降低模型过拟合的风险,并能够在提高模型的区分效果的同时,又能够降低模型过拟合的风险。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的终端\装置结构示意图;
图2为本发明机器学习建模方法第一实施例的流程示意图;
图3为本发明机器学习建模设备一实施例的系统结构示意图;
图4为本发明机器学习建模方法中的流程示意图。
本发明目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图。
本发明实施例终端为机器学习建模设备。
如图1所示,该终端可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,终端还可以包括摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。其中,传感器比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示屏的亮度,接近传感器可在终端设备移动到耳边时,关闭显示屏和/或背光。当然,终端设备还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
本领域技术人员可以理解,图1中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及机器学习建模程序。
在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的机器学习建模程序,并执行以下操作:
获取多个第一变量和拟合目标,并确定各所述第一变量对应的预设变量方向;
将各所述第一变量和所述拟合目标输入至预设模型进行训练,以获取多个决策树;
基于各所述预设变量方向对各所述决策树进行筛选,以获取多个目标决策树;
基于各所述目标决策树和所述拟合目标进行模型构建,以获取目标模型。
本发明提供一种机器学习建模方法,在机器学习建模方法第一实施例中,参照图2,机器学习建模方法包括以下步骤:
步骤S10,获取多个第一变量和拟合目标,并确定各所述第一变量对应的预设变量方向;
在本实施例中,通过将机器学习与传统风险建模方法结合,取长补短,既引入机器学习方法挖掘信息的能力、提升区分效果,又让模型结果可解释,降低模型过拟合的风险。因此需要收集X变量(即第一变量),并确定拟合目标Y,并且收集的X变量的数量可以是多个,而收集X变量的方式即可以在数据库中已存储的历史数据中进行收集,也可以是获取用户主动输入的数据,还可以是通过网络进行在线收集等。并且获取到的第一变量可以是不同类型的。
并在获取到多个第一变量后,可以根据专家的业务经验对各个第一变量进行处理分析,以确定第一变量合理的方向(即预设变量方向),即可以先对不同类型的第一变量进行预测,以获取各个第一变量对应的预测结果,并在这些预测结果中选择合理的预测结果(即满足一定的条件),并将这些合理的预测结果作为正确的预设变量方向。例如,当存在有A、收入越大,风险越低;和B、收入越大,风险越高这两种预测结果时,并经过判断发现A符合用户的需求时,则可以将A作为预设变量方向。
其中,第一变量可以包括用户的年龄、性别、地区等与当前所要构建模型相关的各种参数,可以存在多个。而拟合目标则可以是基于第一变量中的参数进行预测的结果。预设变量方向可以是第一变量对应的变化规则,例如预设变量方向可以是收入越大,风险越低;或者是收入越大,风险越高等方向。
步骤S20,将各所述第一变量和所述拟合目标输入至预设模型进行训练,以获取多个决策树;
预设模型可以是GBDT(Gradient Boosting Decision Tree,梯度增强决策树)拟合模型,还可以是具有随机森林等其他机器学习算法的模型,而在本实施例中,优选的预设模型为GBDT拟合模型。而决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。
在本实施例中,由于新兴的机器学习存在过拟合风险,模型结果甚至可能与正确结果相反,因此在本实施例中优选的,采用GBDT拟合模型作为预设模型进行训练。过拟合就是模型在训练数据集上表现的过于好,分的过于细。以致于容错能力很低,也可以称作”泛化能力“低。这就会导致在实际测试数据中表现明显差很多。而GBDT拟合模型则可以完美地避免这一问题。
因此可以将获取到的各个第一变量和拟合目标都输入至GBDT拟合模型中进行模型训练,并基于训练结果生成各个决策树(如500颗决策树),并在获取到多会个决策树后,可以对其充分挖掘每个决策树所携带的信息。
步骤S30,基于各所述预设变量方向对各所述决策树进行筛选,以获取多个目标决策树;
当获取到多个决策树后,可以计算每颗决策树使用到的变量(即应用变量),以及在决策树上的方向(即应用变量方向),例如,收入越大,Y越趋向于0,还是趋向于1。需要说明的是,在本实施例中第一变量包括应用变量。
在本实施例中,需要对决策树进行筛选,即解决可解释性问题,而筛选的方式可以根据各个预设变量方向来对各个决策树进行筛选,以得到多个目标决策树。并且对决策树进行筛选的标准可以包括进行合理性检查,即决策树中X变量(即第一变量)的方向要与业务经验一致,决策树才可入选;同一变量在不同决策树中的方向要一致,对应的决策树才可入选。也就是需要决策树中的应用变量方向和该应用变量方向对应的预设变量方向一致,并且所有决策树中相同的应用变量的应用变量方向均一致,则可以确定该决策树为目标决策树。
步骤S40,基于各所述目标决策树和所述拟合目标进行模型构建,以获取目标模型。
当获取到各个目标决策树后,可以将各个目标决策树作为输入,并将拟合目标作为目标变量进行模型构建。而模型构建的方式可以采用传统的建模方法,进行构建,例如逻辑回归、线性回归等方式进行,以得到目标模型。需要说明的是,在本实施例中,还需要对目标决策树进行筛选,即在各个目标决策树中获取和拟合目标关联性高的关联目标决策树,并将各个关联目标决策树和拟合目标输入至模型算法中进行训练,以得到目标模型。
另外,为辅助理解对本实施例中的融合机器学习与传统建模的流程理解,下面进行举例说明。
例如,如图4所示,收集X变量,确定目标Y变量;根据业务经验,确定X变量合理的方向;使用GBDT拟合模型,生成5大量(如500)颗决策树;计算变量在每颗决策树上的方向;决策树筛选:剔除存在变量方向与业务经验得出的方向不一致,或者同一变量在不同树的方向不一致的树;采用传统的健模方法,将筛选后的决策树的结果作为输入,进行逻辑回归拟合,并将进行逻辑回归拟合训练好的模型进行输出,即输出模型。
在本实施例中,通过获取多个第一变量和拟合目标,并确定各所述第一变量对应的预设变量方向;将各所述第一变量和所述拟合目标输入至预设模型进行训练,以获取多个决策树;基于各所述预设变量方向对各所述决策树进行筛选,以获取多个目标决策树;基于各所述目标决策树和所述拟合目标进行模型构建,以获取目标模型。通过将获取的各个第一变量和拟合目标输入至预设模型进行训练,得到多个决策树,并根据预设变量方向对各个决策树进行筛选,得到目标决策树,再基于目标决策树和拟合目标进行模型构建,得到目标模型,从而完美的将机器学习与传统建模方法结构,在模型构建的过程中引入机器学习方法挖掘信息的能力、提升区分效果,又让模型结果可解释,降低模型过拟合的风险,并能够在提高模型的区分效果的同时,又能够降低模型过拟合的风险。
进一步地,在本发明第一实施例的基础上,提出了本发明机器学习建模方法的第二实施例,本实施例是本发明第一实施例的步骤S30,基于各所述预设变量方向对各所述决策树进行筛选,以获取多个目标决策树的步骤的细化,包括:
步骤a,计算各所述决策树所应用的应用变量,并确定各所述应用变量对应的应用变量方向;
在本实施例中,当获取到多个决策树后,可以提取各个决策树所携带的信息,即计算各个决策树所应用到的应用变量,并确定各个应用变量对应的应用变量方向。需要说明的是,在本实施例中,决策树所应用的应用变量属于第一变量,即第一变量包括应用变量。
步骤b,基于各所述应用变量方向和各所述预设变量方向对各所述决策树进行筛选,以获取多个目标决策树。
并当获取到各个应用变量方向后,还需要依次确定各个应用变量方向对应的预设变量方向,即同一个变量在决策树中的应用变量方向和该变量的预设变量方向。并依次将应用变量方向和该应用变量方向对应的预设变量方向进行匹配比较,并当匹配时,则可以将该应用变量方向对应的决策树筛选出来,以便进行目标决策树的获取。并且在本实施例中,目标决策树的数量可以是多个。
在本实施例中,通过计算各个决策树的应用变量对应的应用变量方向,并根据应用变量方向和预设变量方向确定目标决策树,从而保障了获取到的目标决策树的有效性。
具体地,基于各所述应用变量方向和各所述预设变量方向对各所述决策树进行筛选的步骤,包括:
步骤c,依次遍历各所述应用变量方向,并在各所述预设变量方向中确定当前遍历的当前应用变量方向对应的当前预设变量方向;
在本实施例中,在对决策树进行筛选时,可以依次遍历各个应用变量方向,并确定当前遍历的当前应用变量方向对应的第一变量,再在各个预设变量方向中获取该第一变量对应的预设变量方向,并将其作为当前应用变量方向对应的当前预设变量方向。
步骤d,检测所述当前应用变量方向是否和所述当前预设变量方向一致;
当确定当前应用变量方向和当前预设变量方向后,还需要检测当前应用变量方向是否和当前预设变量方向一致,并基于不同的检测结果执行不同的操作。例如,假设当前应用变量方向是收入越大,风险越高;而预设变量方向则是收入越大,风险越低,则可以确定当前应用变量方向和预设变量方向不一致。但是若当前应用变量方向是收入越大,风险越低,则可以确定当前应用变量方向和预设变量方向一致。
步骤e,若是,则基于所述当前应用变量方向确定所述当前预设变量方向对应的决策树为目标决策树,直至各所应用变量方向遍历完成。
当经过判断发现当前应用变量方向和当前预设变量方向一致,并在决策树满足其他限制条件的情况下,将当前预设变量方向对应的决策树作为目标决策树。但是若现当前应用变量方向和当前预设变量方向不一致,则对下一个应用变量方向进行检测。并且对其他应用变量方向也采用相同的方式来确定其他应用变量方向对应的决策树是否为目标决策树,即直至各个应用变量方向遍历完成。
在本实施例中,通过在当前应用变量方向和当前预设变量方向一致时,确定当前预设变量方向对应的决策树为目标决策树,从而保障了获取到的目标决策树的有效性。
具体地,基于所述当前应用变量方向确定所述当前预设变量方向对应的决策树为目标决策树的步骤,包括:
步骤f,确定所述当前应用变量方向在各所述决策树中的方向是否一致;
当经过判断发现当前应用变量方向和当前预设变量方向一致时,还需要确定当前应用变量方向在各个决策树中的方向是否一致。也就是判断同一个变量在不同的决策树中的方向是否相同,并根据不同的判断结果执行不同的操作。
步骤g,若所述当前应用变量方向在各所述决策树中的方向均一致,则确定所述当前预设变量方向对应的决策树为目标决策树。
当经过判断发现当前应用变量方向在各个决策树中的方向均一致时,则可以直接却大当前预设变量方向对应的决策树为目标决策树。但是若不一致,则确定当前预设变量方向对应的决策树存在问题,需要进行删除。
在本实施例中,通过在当前应用变量方向和当前预设变量方向一致,且当前应用变量方向在各个决策树中的方向均一致时,确定当前预设变量方向对应的决策树为目标决策树,从而保障了获取到的目标决策树的有效性。
具体地,在各所述预设变量方向中确定当前遍历的当前应用变量方向对应的当前预设变量方向的步骤,包括:
步骤h,确定当前遍历的当前应用变量所在的当前决策树,并根据所述当前决策树在各所述第一变量中确定第二变量;
在本实施例中,在确定当前预设变量方向时,还需要确定当前遍历的当前应用变量所在的当前决策树,并确定当前决策树所应用到的变量,即在各个第一变量中确定第二变量。其中,第二变量为当前决策树所应用的第一变量。
步骤k,在各所述预设变量方向中获取所述第二变量对应的预设变量方向,并将所述第二变量对应的预设变量方向作为当前预设变量方向。
当获取到第二变量后,在各个预设变量方向中获取第二变量对应的预设变量方向,并将此预设变量方向作为当前预设变量方向。
在本实施例中,通过确定当前应用变量所在的当前决策树,并基于当前决策树确定第二变量及其对应的预设变量方向,并将其作为当前预设变量方向,从而保障了获取到的当前预设变量方向的准确性。
进一步地,在本发明第一至第二任意一个实施例的基础上,提出了本发明机器学习建模方法的第三实施例,本实施例是本发明第一实施例的步骤S40,基于各所述目标决策树和所述拟合目标进行模型构建,以获取目标模型的步骤的细化,包括:
步骤k,确定各所述目标决策树与所述拟合目标的关联度,并在各所述目标决策树中获取关联度大于预设值的的关联目标决策树,并根据各所述关联目标决策树和所述拟合目标进行模型构建,以获取目标模型。
在本实施例中,需要先确定各个目标决策树和拟合目标的关联度,并在各个目标决策树中获取与拟合目标关联度高的关联目标决策树(也就是与拟合目标的关联度满足一定条件的目标决策树,如关联度大于预设值),并在获取到各个关联目标聚餐树后,可以和拟合目标一起进行模型构建,以获取目标模型。
在本实施例中,通过在各个目标决策树中选择和拟合目标关联度高的关联目标决策树,并根据关联目标决策树和拟合目标进行模型构建,以获取目标模型,从而保障了模型建立的准确有效性。
具体地,根据各所述关联目标决策树和所述拟合目标进行模型构建,以获取目标模型的步骤,包括:
步骤m,将各所述关联目标决策树作为输入,并将所述拟合目标作为目标变量,根据预设的建模方式、所述输入和所述目标变量进行模型构建,以获取目标模型。
基于预设的建模方式确定模型公式,将各个关联目标决策树作为输入,并将拟合目标作为目标变量输入至模型公式进行计算,并基于计算结果来进行模型构建,以获取目标模型。
通过将关联目标决策树作为输入,拟合目标作为目标变量,并根据预设的建模方式进行模型构建,以获取目标模型,从而保障了目标模型的有效性。
此外,参照图3,本发明实施例还提出一种机器学习建模装置,所述机器学习建模装置包括:
获取模块A10,用于获取多个第一变量和拟合目标,并确定各所述第一变量对应的预设变量方向;
输入模块A20,用于将各所述第一变量和所述拟合目标输入至预设模型进行训练,以获取多个决策树;
筛选模块A30,用于基于各所述预设变量方向对各所述决策树进行筛选,以获取多个目标决策树;
构建模块A40,用于基于各所述目标决策树和所述拟合目标进行模型构建,以获取目标模型。
可选地,所述筛选模块A30,还用于:
计算各所述决策树所应用的应用变量,并确定各所述应用变量对应的应用变量方向;
基于各所述应用变量方向和各所述预设变量方向对各所述决策树进行筛选,以获取多个目标决策树。
可选地,所述筛选模块A30,还用于:
依次遍历各所述应用变量方向,并在各所述预设变量方向中确定当前遍历的当前应用变量方向对应的当前预设变量方向;
检测所述当前应用变量方向是否和所述当前预设变量方向一致;
若是,则基于所述当前应用变量方向确定所述当前预设变量方向对应的决策树为目标决策树,直至各所应用变量方向遍历完成。
可选地,所述筛选模块A30,还用于:
确定所述当前应用变量方向在各所述决策树中的方向是否一致;
若所述当前应用变量方向在各所述决策树中的方向均一致,则确定所述当前预设变量方向对应的决策树为目标决策树。
可选地,所述筛选模块A30,还用于:
确定当前遍历的当前应用变量所在的当前决策树,并根据所述当前决策树在各所述第一变量中确定第二变量;
在各所述预设变量方向中获取所述第二变量对应的预设变量方向,并将所述第二变量对应的预设变量方向作为当前预设变量方向。
可选地,所述构建模块A40,还用于:
确定各所述目标决策树与所述拟合目标的关联度,并在各所述目标决策树中获取关联度大于预设值的的关联目标决策树,并根据各所述关联目标决策树和所述拟合目标进行模型构建,以获取目标模型。
可选地,所述构建模块A40,还用于:
将各所述关联目标决策树作为输入,并将所述拟合目标作为目标变量,根据预设的建模方式、所述输入和所述目标变量进行模型构建,以获取目标模型。
其中,机器学习建模装置的各个功能模块实现的步骤可参照本发明机器学习建模方法的各个实施例,此处不再赘述。
本发明还提供一种机器学习建模设备,所述终端包括:存储器、处理器、通信总线以及存储在所述存储器上的机器学习建模程序:
所述通信总线用于实现处理器和存储器之间的连接通信;
所述处理器用于执行所述机器学习建模程序,以实现上述机器学习建模方法各实施例的步骤。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序还可被一个或者一个以上的处理器执行以用于实现上述机器学习建模方法各实施例的步骤。
本发明计算机可读存储介质具体实施方式与上述机器学习建模方法各实施例基本相同,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种机器学习建模方法,其特征在于,所述机器学习建模方法包括以下步骤:
获取多个第一变量和拟合目标,并确定各所述第一变量对应的预设变量方向;
将各所述第一变量和所述拟合目标输入至预设模型进行训练,以获取多个决策树;
基于各所述预设变量方向对各所述决策树进行筛选,以获取多个目标决策树;
基于各所述目标决策树和所述拟合目标进行模型构建,以获取目标模型。
2.如权利要求1所述的机器学习建模方法,其特征在于,所述基于各所述预设变量方向对各所述决策树进行筛选,以获取多个目标决策树的步骤,包括:
计算各所述决策树所应用的应用变量,并确定各所述应用变量对应的应用变量方向;
基于各所述应用变量方向和各所述预设变量方向对各所述决策树进行筛选,以获取多个目标决策树。
3.如权利要求2所述的机器学习建模方法,其特征在于,所述基于各所述应用变量方向和各所述预设变量方向对各所述决策树进行筛选的步骤,包括:
依次遍历各所述应用变量方向,并在各所述预设变量方向中确定当前遍历的当前应用变量方向对应的当前预设变量方向;
检测所述当前应用变量方向是否和所述当前预设变量方向一致;
若是,则基于所述当前应用变量方向确定所述当前预设变量方向对应的决策树为目标决策树,直至各所应用变量方向遍历完成。
4.如权利要求3所述的机器学习建模方法,其特征在于,所述基于所述当前应用变量方向确定所述当前预设变量方向对应的决策树为目标决策树的步骤,包括:
确定所述当前应用变量方向在各所述决策树中的方向是否一致;
若所述当前应用变量方向在各所述决策树中的方向均一致,则确定所述当前预设变量方向对应的决策树为目标决策树。
5.如权利要求3所述的机器学习建模方法,其特征在于,所述在各所述预设变量方向中确定当前遍历的当前应用变量方向对应的当前预设变量方向的步骤,包括:
确定当前遍历的当前应用变量所在的当前决策树,并根据所述当前决策树在各所述第一变量中确定第二变量;
在各所述预设变量方向中获取所述第二变量对应的预设变量方向,并将所述第二变量对应的预设变量方向作为当前预设变量方向。
6.如权利要求1-5任一项所述的机器学习建模方法,其特征在于,所述基于各所述目标决策树和所述拟合目标进行模型构建,以获取目标模型的步骤,包括:
确定各所述目标决策树与所述拟合目标的关联度,并在各所述目标决策树中获取关联度大于预设值的关联目标决策树,根据各所述关联目标决策树和所述拟合目标进行模型构建,以获取目标模型。
7.如权利要求6所述的机器学习建模方法,其特征在于,所述根据各所述关联目标决策树和所述拟合目标进行模型构建,以获取目标模型的步骤,包括:
将各所述关联目标决策树作为输入,并将所述拟合目标作为目标变量,根据预设的建模方式、所述输入和所述目标变量进行模型构建,以获取目标模型。
8.一种机器学习建模装置,其特征在于,所述机器学习建模装置包括:
获取模块,用于获取多个第一变量和拟合目标,并确定各所述第一变量对应的预设变量方向;
输入模块,用于将各所述第一变量和所述拟合目标输入至预设模型进行训练,以获取多个决策树;
筛选模块,用于基于各所述预设变量方向对各所述决策树进行筛选,以获取多个目标决策树;
构建模块,用于基于各所述目标决策树和所述拟合目标进行模型构建,以获取目标模型。
9.一种机器学习建模设备,其特征在于,所述机器学习建模设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的机器学习建模程序,所述机器学习建模程序被所述处理器执行时实现如权利要求1至7中任一项所述的机器学习建模方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有机器学习建模程序,所述机器学习建模程序被处理器执行时实现如权利要求1至7中任一项所述的机器学习建模方法的步骤。
CN202010142192.5A 2020-03-03 2020-03-03 机器学习建模方法、装置、设备及计算机可读存储介质 Pending CN111325357A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010142192.5A CN111325357A (zh) 2020-03-03 2020-03-03 机器学习建模方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010142192.5A CN111325357A (zh) 2020-03-03 2020-03-03 机器学习建模方法、装置、设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN111325357A true CN111325357A (zh) 2020-06-23

Family

ID=71163666

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010142192.5A Pending CN111325357A (zh) 2020-03-03 2020-03-03 机器学习建模方法、装置、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111325357A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112766490A (zh) * 2021-01-13 2021-05-07 深圳前海微众银行股份有限公司 特征变量学习方法、装置、设备及计算机可读存储介质
CN114169541A (zh) * 2021-12-15 2022-03-11 深圳前海微众银行股份有限公司 模型构建方法、装置、设备与计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106355208A (zh) * 2016-08-31 2017-01-25 广州精点计算机科技有限公司 一种基于cox模型和随机生存森林的数据预测分析方法
US20190188007A1 (en) * 2017-12-20 2019-06-20 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Method for Preloading Application, Storage Medium, and Terminal Device
US20190213685A1 (en) * 2018-01-10 2019-07-11 Liberty Mutual Insurance Company Training gradient boosted decision trees with progressive maximum depth for parsimony and interpretability
CN110033098A (zh) * 2019-03-28 2019-07-19 阿里巴巴集团控股有限公司 在线gbdt模型学习方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106355208A (zh) * 2016-08-31 2017-01-25 广州精点计算机科技有限公司 一种基于cox模型和随机生存森林的数据预测分析方法
US20190188007A1 (en) * 2017-12-20 2019-06-20 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Method for Preloading Application, Storage Medium, and Terminal Device
US20190213685A1 (en) * 2018-01-10 2019-07-11 Liberty Mutual Insurance Company Training gradient boosted decision trees with progressive maximum depth for parsimony and interpretability
CN110033098A (zh) * 2019-03-28 2019-07-19 阿里巴巴集团控股有限公司 在线gbdt模型学习方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
兰军;严广乐;: "基于迭代自适应随机决策树的个人信用评估模型研究", 经济数学, no. 03, 1 September 2018 (2018-09-01) *
黄平;冯慧芬;王斌;赵敬;易佳音;: "数据挖掘与模型构建在预测重症手足口病中的应用", 中国现代医学杂志, no. 23, 14 August 2018 (2018-08-14) *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112766490A (zh) * 2021-01-13 2021-05-07 深圳前海微众银行股份有限公司 特征变量学习方法、装置、设备及计算机可读存储介质
CN112766490B (zh) * 2021-01-13 2024-05-24 深圳前海微众银行股份有限公司 特征变量学习方法、装置、设备及计算机可读存储介质
CN114169541A (zh) * 2021-12-15 2022-03-11 深圳前海微众银行股份有限公司 模型构建方法、装置、设备与计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN107908619B (zh) 基于舆情监控的处理方法、装置、终端及计算机存储介质
JP6402265B2 (ja) 意思決定モデルを構築する方法、コンピュータデバイス及び記憶デバイス
CN112328909B (zh) 信息推荐方法、装置、计算机设备及介质
EP3547327A1 (en) Feature engineering method, apparatus and system
CN110019823B (zh) 更新知识图谱的方法及装置
CN109684302B (zh) 数据预测方法、装置、设备及计算机可读存储介质
CN104933134A (zh) 一种用户特征的分析方法及装置
CN111325357A (zh) 机器学习建模方法、装置、设备及计算机可读存储介质
CN111292377A (zh) 目标检测方法、装置、计算机设备和存储介质
CN109285024B (zh) 在线特征确定方法、装置、电子设备及存储介质
CN114880310A (zh) 一种用户行为分析方法、装置、计算机设备及存储介质
CN115438740A (zh) 一种多源数据的汇聚融合方法和系统
CN109389972B (zh) 语义云功能的质量测试方法、装置、存储介质和设备
CN112115182A (zh) 时序数据的处理方法、装置、设备及存储介质
CN116383521B (zh) 主题词挖掘方法及装置、计算机设备及存储介质
US20210365831A1 (en) Identifying claim complexity by integrating supervised and unsupervised learning
CN116681131A (zh) 一种基于知识图谱的容器镜像仓库风险预测方法
CN110727436A (zh) 操作界面的脚本执行方法、装置、终端设备及存储介质
KR20210042709A (ko) 기업 관계 데이터를 이용한 주가 예측 방법 및 서버
CN113570070B (zh) 流式数据采样与模型更新方法、装置、系统与存储介质
CN113743445A (zh) 目标对象识别方法、装置、计算机设备和存储介质
CN113361811A (zh) 运行状态预测方法、系统、设备及计算机可读存储介质
CN106202390B (zh) 一种数据库完善系统及方法
CN113268670B (zh) 潜在因子混合推荐方法、装置、设备及计算机存储介质
CN113312552B (zh) 数据处理方法、装置、电子设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination