CN111753998A - 多数据源的模型训练方法、装置、设备及存储介质 - Google Patents

多数据源的模型训练方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111753998A
CN111753998A CN202010606991.3A CN202010606991A CN111753998A CN 111753998 A CN111753998 A CN 111753998A CN 202010606991 A CN202010606991 A CN 202010606991A CN 111753998 A CN111753998 A CN 111753998A
Authority
CN
China
Prior art keywords
model
training
target
qualified
evaluation index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010606991.3A
Other languages
English (en)
Inventor
刘安康
徐为恺
江旻
杨杨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN202010606991.3A priority Critical patent/CN111753998A/zh
Publication of CN111753998A publication Critical patent/CN111753998A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种多数据源的模型训练方法、装置、设备及存储介质,该方法通过目标雾计算节点对所述目标数据源进行模型训练,并发送至云计算中心;所述云计算中心对不同渠道数据源对应的各雾计算节点发送的模型及评价指标确定合格模型,并将全部合格模型发送至所述目标雾计算节点;所述目标雾计算节点将所述合格训练模型进行融合生成目标模型。本发明通过在各渠道数据源设置对应的雾计算节点,并在各雾计算节点内进行数据训练,提高了各渠道数据的安全性,并通过云计算中心对各渠道数据对应的模型参数进行合格模型筛选,并将合格模型分发至各雾计算节点,实现了不同雾计算节点之间模型数据的共同训练,提高了训练模型的准确性。

Description

多数据源的模型训练方法、装置、设备及存储介质
技术领域
本发明涉及金融科技(Fintech)技术领域,尤其涉及多数据源的模型训练方法、装置、设备及计算机可读存储介质。
背景技术
随着计算机技术的发展,越来越多的技术应用在金融领域,传统金融业正在逐步向金融科技(Finteh)转变,模型训练技术也不例外,但由于金融行业的安全性、实时性要求,也对模型训练技术提出的更高的要求。目前的机器学习模型训练,若训练数据源来源于多个渠道时,一般是将多个渠道的训练数据源统一收集到云计算中心,然后在云计算中心中,基于机器学习算法对训练数据源进行模型训练,得到最终模型,最后将最终模型分发到各个使用设备中进行应用。但是,由于金融行业的数据保密性要求较高,将不同渠道的数据统一收集到云计算中心,无法保证各个渠道数据之间的安全性,导致安全性较低。
发明内容
本发明的主要目的在于提出一种多数据源的模型训练方法、装置、设备及计算机可读存储介质,旨在解决现有模型训练数据安全性较低的技术问题。
为实现上述目的,本发明提供一种多数据源的模型训练方法,所述多数据源的模型训练方法包括如下步骤:
基于一目标数据源对应的目标雾计算节点,对所述目标数据源以预设算法进行模型训练,生成初始训练模型,并将所述初始训练模型以及初始模型评价指标发送至云计算中心;
基于所述云计算中心,对不同渠道数据源对应的各雾计算节点发送的模型评价指标,进行模型评价指标基准的计算;
基于所述云计算中心将所述初始模型评价指标与所述模型评价指标基准进行比对,以判断所述初始训练模型是否合格,并将所述云计算中心中的全部合格模型发送至所述目标雾计算节点;
基于所述目标雾计算节点,将所述合格训练模型进行融合,生成所述目标数据源对应的目标模型。
可选地,所述基于一目标数据源对应的目标雾计算节点,对所述目标数据源以预设算法进行模型训练,生成初始训练模型,并将所述初始训练模型以及初始模型评价指标发送至云计算中心的步骤具体包括:
基于所述目标雾计算节点对所述目标数据源进行数据预处理,并提取出所述目标数据源的目标特征数据集;
通过所述目标雾计算节点调用算法库中的一算法,对所述目标特征数据集中的训练集进行模型训练,生成所述初始训练模型;
通过所述目标雾计算节点计算所述初始训练模型的初始模型评价指标,并将所述初始训练模型以及初始模型评价指标发送至云计算中心。
可选地,所述基于所述目标雾计算节点,将所述合格训练模型进行融合,生成所述目标数据源对应的目标模型的步骤具体包括:
基于所述目标雾计算节点,将所述目标特征数据集中的测试集输入所述合格训练模型,以对所述合格训练模型进行验证;
基于所述目标雾计算节点获取所述合格训练模型对所述测试集的预测分类结果,并根据所述测试集对应的标准分类结果以及所述预测分类结果,计算所述合格训练模型的验证模型评价指标;
基于所述目标雾计算节点判定所述验证模型评价指标达到所述模型评价指标基准时,则将所述合格训练模型添加合格标识,并将添加合格标识的合格训练模型进行融合,生成所述目标模型。
可选地,所述将添加合格标识的合格训练模型进行融合,生成所述目标模型的步骤具体包括:
根据逻辑回归算法公式,将添加合格标识的合格训练模型进行融合,生成所述目标模型,其中,所述逻辑回归算法公式为:
Figure BDA0002556259470000021
其中,K为添加合格标识的合格训练模型个数,ht(x)为合格训练模型公式,αt为各添加合格标识的合格训练模型公式对应的权重。
可选地,所述基于所述云计算中心,对不同渠道数据源对应的各雾计算节点发送的模型评价指标,进行模型评价指标基准的计算的步骤具体包括:
基于所述云计算中心,判断各雾计算节点发送的模型评价指标是否符合正态分布;
若基于所述云计算中心判定各雾计算节点发送的模型评价指标符合所述正态分布,则将不属于预设范围的评价指标进行剔除;
基于所述云计算中心,计算剔除后的模型评价指标对应的均值,作为所述模型评价指标基准。
可选地,所述基于所述云计算中心,判断各雾计算节点发送的模型评价指标是否符合正态分布的步骤之后,还包括:
若基于所述云计算中心判定各雾计算节点发送的模型评价指标不符合所述正态分布,则将各雾计算节点发送的模型评价指标进行排序,并将排名低于预设值的模型评价指标剔除;
基于所述云计算中心,获取剔除后的模型评价指标中的最小值,作为所述模型评价指标基准。
可选地,所述模型评价指标包括真正率、假正率、假负率、真负率、准确率、精确率、召回率、F1-ScoreF1分数或AUC曲线下面积中的至少一种。
此外,为实现上述目的,本发明还提供一种多数据源的模型训练装置,所述多数据源的模型训练装置包括:
雾节点模型生成模块,用于基于一目标数据源对应的目标雾计算节点,对所述目标数据源以预设算法进行模型训练,生成初始训练模型,并将所述初始训练模型以及初始模型评价指标发送至云计算中心;
云中心基准计算模块,用于基于所述云计算中心,对不同渠道数据源对应的各雾计算节点发送的模型评价指标,进行模型评价指标基准的计算;
云中心模型校验模块,用于基于所述云计算中心将所述初始模型评价指标与所述模型评价指标基准进行比对,以判断所述初始训练模型是否合格,并将所述云计算中心中的全部合格模型发送至所述目标雾计算节点;
雾节点模型融合模块,用于基于所述目标雾计算节点,将所述合格训练模型进行融合,生成所述目标数据源对应的目标模型。
此外,为实现上述目的,本发明还提供一种多数据源的模型训练设备,所述多数据源的模型训练设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的多数据源的模型训练程序,所述多数据源的模型训练程序被所述处理器执行时实现如上所述的多数据源的模型训练方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有多数据源的模型训练程序,所述多数据源的模型训练程序被处理器执行时实现如上所述的多数据源的模型训练方法的步骤。
本发明提供一种多数据源的模型训练方法,通过基于一目标数据源对应的目标雾计算节点,对所述目标数据源以预设算法进行模型训练,生成初始训练模型,并将所述初始训练模型以及初始模型评价指标发送至云计算中心;基于所述云计算中心,对不同渠道数据源对应的各雾计算节点发送的模型评价指标,进行模型评价指标基准的计算;基于所述云计算中心将所述初始模型评价指标与所述模型评价指标基准进行比对,以判断所述初始训练模型是否合格,并将所述云计算中心中的全部合格模型发送至所述目标雾计算节点;基于所述目标雾计算节点,将所述合格训练模型进行融合,生成所述目标数据源对应的目标模型。通过上述方式,本发明通过在各渠道数据源设置对应的雾计算节点,并在各雾计算节点内进行数据训练,提高了各渠道数据的安全性,并通过云计算中心对各渠道数据对应的模型参数进行合格模型筛选,并将合格模型分发至各雾计算节点,实现了不同雾计算节点之间模型数据的共同训练,提高了训练模型的准确性,解决了现有模型训练数据安全性较低的技术问题。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图;
图2为本发明多数据源的模型训练方法第一实施例的流程示意图;
图3为本发明模型训练过程示意图;
图4为本发明模型评价指标的排名示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。
本发明实施例多数据源的模型训练设备可以是PC机或服务器设备,其上运行有Java虚拟机。
如图1所示,该多数据源的模型训练设备可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的设备结构并不构成对设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及多数据源的模型训练程序。
在图1所示的设备中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的多数据源的模型训练程序,并执行下述多数据源的模型训练方法中的操作。
基于上述硬件结构,提出本发明多数据源的模型训练方法实施例。
参照图2,图2为本发明多数据源的模型训练方法第一实施例的流程示意图,所述多数据源的模型训练方法包括:
步骤S10,基于一目标数据源对应的目标雾计算节点,对所述目标数据源以预设算法进行模型训练,生成初始训练模型,并将所述初始训练模型以及初始模型评价指标发送至云计算中心;
目前机器学习模型训练领域中,若训练数据源来源多个渠道,一般是将多个渠道的训练数据源统一收集到云计算中心。然后在云计算中心,对训练数据进行预处理和特征工程,得到特征数据集,然后通过机器学习算法进行模型参数的迭代,得到最终模型。云计算中心将最终模型分发到各个使用设备中进行应用。也就是说,云计算中心用于数据收集、模型训练和模型分发。但是,将不同渠道的数据收集在云计算中心,无法保证各个渠道数据之间的安全性。另外,如果某些渠道数据有安全性限制,云计算中心就无法使用这部分数据,降低了模型训练的准确率。为了解决上述方式,本发明通过雾计算节点在本渠道数据中进行模型训练,并计算对应的模型评价指标,然后江训练好的模型参数以及模型评价指标发送到云计算中心。通过云计算中心计算模型评价指标基准,并筛选出合格模型,将合格模型分发至各雾计算节点中进行应用,由此实现在保护各渠道数据的安全性的前提下,实现不同雾计算节点之间的模型共用,提高模型准确率。具体地,本发明提供的多数据的模型训练方法主要针对机器学习模型训练领域。不同雾计算节点中的数据源,具有相同特征数据的应用场景。采用云计算中心作为模型训练协调者,协调不同雾计算节点的模型训练。模型训练系统主要包括云计算中心以及雾计算节点,云计算中心用于分发合格模型组和模型评价指标基准值。雾计算节点用于机器学习模型训练和验证。雾计算节点包括操作系统、网络通信模块、用户接口模块、存储模块、雾计算节点机器学习训练模块。雾计算节点机器学习训练模块包括:数据处理模块,算法库,模型训练模块,模型评价模块,模型验证模块。其中,数据处理模块用于对原数据进行数据筛选和预处理,进行特征工程,得到机器学习模型的训练数据。算法库有常用机器学习算法,包含且不限于XgBoost、LightGBM、神经网络、随机森林等常用机器学习算法。模型训练模块用于对算法库中的各种算法进行模型训练得出合适的机器学习模型。模型评价模块用于对各种机器学习模型计算评价指标。模型验证模块是雾计算节点根据评价指标基准,用于对云计算中心输入的模型进行验证和筛选。其中,雾计算是一种分布式的计算模型,作为云数据中心和物联网设备/传感器之间的中间层,它提供了计算、网络和存储设备,让基于云的服务可以离物联网设备和传感器更近。云计算是分布式计算的一种,通过网络“云”把许多计算资源集合起来,通过软件实现自动化管理,只需要很少的人参与,就能让资源被快速提供。机器学习是专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。强化学习是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。XGBoost是一种高效的梯度提升决策树模型算法,广泛应用于机器学习领域。LigthGBM是一种高效的梯度提升决策树模型算法。神经网络算法由众多的神经元可调的连接权值连接而成,具有大规模并行处理、分布式信息存储、良好的自组织自学习能力等特点。真正率即被预测为正的正样本数/正样本实际数。假正率即被预测为正的负样本数/负样本实际数。假负率即被预测为负的正样本数/正样本实际数。准确率为预测正确的结果占总样本的百分比。精确率为精准率又叫查准率,指在所有被预测为正的样本中实际为正的样本的概率。召回率为在实际为正的样本中被预测为正样本的概率。F1-Score是精确率和召回率的调和平均数,最大为1,最小为0。AUC是定义为ROC曲线下的面积(ROC的积分),通常大于0.5小于1。其中,ROC曲线中横坐标为假正率(FPR),纵坐标为真正率(TPR),ROC曲线都应该处于(0,0)和(1,1)连线的上方。如图3所示,以三个雾计算节点和一个云计算中心进行举例说明,分别为雾计算节点1雾计算节点2、雾计算节点3和云计算中心1,具体实施例中的雾计算节点数可以大于等于二个,云计算中心数目可以大于等于一个。获取多个数据源中的一数据源,作为目标数据源(依次获取多个数据源中的各个数据源作为目标数据源)。并根据所述目标数据源对应的目标雾计算节点,即雾计算节点1,对目标数据源进行数据预处理和特征工程。通过算法库中的一相应算法(如依次获取XgBoost、LightGBM、神经网络、随机森林等常用机器学习算法中的一种作为训练算法),对所述目标数据源进行模型训练,生成初始训练模型,并计算所述初始训练模型对应的初始模型评价指标,并将所述初始模型参数及初始模型评价指标作为输出,发送至云计算中心。具体实施例中,可基于算法库中多个相应算法,如XgBoost、LightGBM、神经网络、随机森林等中至少两种算法,对目标数据源训练生成多个训练模型。并将多个训练模型对应的模型参数组成的模型参数矩阵以及模型评价指标组成的模型评价指标矩阵发送至所述云计算中心。
步骤S20,基于所述云计算中心,对不同渠道数据源对应的各雾计算节点发送的模型评价指标,进行模型评价指标基准的计算;
本实施例中,云计算中心收集各个雾计算节点输入的模型、模型参数及模型评价指标,并根据多数据源对应的模型数据,计算出模型评价指标基准,以基于所述模型评价指标基准筛选出合格模型,并将合格模型及型评价指标基准分发至各个雾计算节点。具体实施例中,云计算中心对各个雾计算节点输入的模型参数矩阵及评价指标矩阵,计算出模型评价规则,筛选出合格模型组,并将合格模型组及模型评价规则分发至各个雾计算节点。云计算中心在收集各个雾计算节点发送的模型评价指标后,将各个模型评价指标进行排序,并将排名低于预设值(如50%或60%)的模型评价指标进行剔除;或者将各个模型评价指标符合正态分布时,剔除不属于预设范围内的模型评价指标,并剔除排名低于预设值或不属于预设范围的模型评价指标对应的模型及模型参数。然后根据剔除后的模型对应的模型评价指标对应的最小值(还可以时平均值),设置模型评价指标基准,完成所述模型评价指标基准的计算。
步骤S30,基于所述云计算中心将所述初始模型评价指标与所述模型评价指标基准进行比对,以判断所述初始训练模型是否合格,并将所述云计算中心中的全部合格模型发送至所述目标雾计算节点;
本实施例中,云计算中心将目标雾计算节点发送的初始模型评价指标与所述模型评价指标基准进行比对,以判断所述初始训练模型是否达到合格模型的标准。具体实施例中,云计算中心可以通过将各雾计算节点发送的模型对应的各个模型评价指标按照评价类型进行排序,若一模型存在一排名靠后的模型评价指标,则将该模型标识为不合格模型,并剔除该模型以及该模型对应的模型评价指标。云计算中心在剔除不合格模型后,将全部合格模型(可以是单个模型或者多个模型组成的模型组)发送至各个雾计算节点。
步骤S40,基于所述目标雾计算节点,将所述合格训练模型进行融合,生成所述目标数据源对应的目标模型。
本实施例中,目标雾计算节点在接收到云计算中心下发的合格模型后,若合格模型为多个模型,则根据逻辑回归算法或者Bagging算法,将各个合格模型按照预设权重进行融合,生成最终的目标模型。
本实施例提供一种多数据源的模型训练方法,通过基于一目标数据源对应的目标雾计算节点,对所述目标数据源以预设算法进行模型训练,生成初始训练模型,并将所述初始训练模型以及初始模型评价指标发送至云计算中心;基于所述云计算中心,对不同渠道数据源对应的各雾计算节点发送的模型评价指标,进行模型评价指标基准的计算;基于所述云计算中心将所述初始模型评价指标与所述模型评价指标基准进行比对,以判断所述初始训练模型是否合格,并将所述云计算中心中的全部合格模型发送至所述目标雾计算节点;基于所述目标雾计算节点,将所述合格训练模型进行融合,生成所述目标数据源对应的目标模型。通过上述方式,本发明通过在各渠道数据源设置对应的雾计算节点,并在各雾计算节点内进行数据训练,提高了各渠道数据的安全性,并通过云计算中心对各渠道数据对应的模型参数进行合格模型筛选,并将合格模型分发至各雾计算节点,实现了不同雾计算节点之间模型数据的共同训练,提高了训练模型的准确性,解决了现有模型训练数据安全性较低的技术问题。
进一步地,基于本发明多数据源的模型训练方法第一实施例,提出本发明多数据源的模型训练方法第二实施例。
在本实施例中,所述步骤S10具体包括:
基于所述目标雾计算节点对所述目标数据源进行数据预处理,并提取出所述目标数据源的目标特征数据集;
通过所述目标雾计算节点调用算法库中的一算法,对所述目标特征数据集中的训练集进行模型训练,生成所述初始训练模型;
通过所述目标雾计算节点计算所述初始训练模型的初始模型评价指标,并将所述初始训练模型以及初始模型评价指标发送至云计算中心。
本实施例中,为了提高模型训练准确率,预先对数据源进行预处理,即目标雾计算节点对收集的训练数据进行预处理和数据清洗,进行特征工程,得到目标特征数据集D1,并将目标特征数据集D1划分为训练集Dtrain1={Xtrain1,Ytrain1}和测试集Dtest1={Xtest1,Ytest1},其中,Xtrain1为训练集的特征,Ytrain1为训练集的分类结果,Xtest1为测试集的特征,Ytest1为测试集的分类结果。通过模型训练模块,基于算法库中一相应算法,对训练集Dtrain1={Xtrain1,Ytrain1}数据进行训练,生成初始训练模型。或者通过模型训练模型基于算法库中的多个相应学习算法,对训练集数据进行训练,生成训练模型组。然后通过强化学习自动调参模块,训练出模型的超参数。最后通过训练好的模型,对测试集Dtest1={Xtest1,Ytest1},进行预测,得到分类结果{Ytest_predicate1}。具体实施例中,还可以采用贝叶斯优化、随机搜索、网络搜索方法和进化算法等算法进行自动调参。所述强化学习自动调参模块会自动获取当前数据集下模型最佳超参数。所述强化学习自动调参模块对输入参数进行数据预处理,特征预处理,针对机器学习算法,通过基于强化学习的参数优化器负反馈,不断迭代得到最优参数。由此,提高了训练模型的准确率。根据Dtrain={Xtrain,Ytrain}、Dtest1={Xtest1,Ytest1}、{Ytest_predicate},计算所述初始训练模型对应的初始模型评价指标。具体实施例中,为了进一步提高模型训练效率,还可以计算各个模型评价指标。所述评价指标包括且不限于真正率、假正率、假负率、真负率、准确率、精确率、召回率、F1-Score、AUC等评价指标。汇总得出雾计算节点1的模型评价指标矩阵eval1和模型超参数矩阵θ1。其中模型评价指标矩阵eval1包含模型编号、评价指标值等信息。将雾计算节点1、雾计算节点2、雾计算节点3上的模型评价指标矩阵(eval1,eval2,veal3}和模型超参数矩阵{θ1,θ2,θ3},分别发送到云计算中心。
进一步地,基于本发明多数据源的模型训练方法第二实施例,提出本发明多数据源的模型训练方法第三实施例。
在本实施例中,所述步骤S30具体包括:
基于所述目标雾计算节点,将所述目标特征数据集中的测试集输入所述合格训练模型,以对所述合格训练模型进行验证;
基于所述目标雾计算节点获取所述合格训练模型对所述测试集的预测分类结果,并根据所述测试集对应的标准分类结果以及所述预测分类结果,计算所述合格训练模型的验证模型评价指标;
基于所述目标雾计算节点判定所述验证模型评价指标达到所述模型评价指标基准时,则将所述合格训练模型添加合格标识,并将添加合格标识的合格训练模型进行融合,生成所述目标模型。
本实施例中,为了进一步提高模型准确率,在云计算中心反馈合格模型后,各雾计算节点可基于自身的数据源对合格模型进行验证,雾计算节点1根据云计算中心输入的模型评价指标和合格模型组,计算模型组中各个模型的合格情况,筛选出雾计算节点1中评价通过的合格模型组。雾计算节点1获取云计算中心输入的合格模型组M和模型评价指标基准值evalbase。训练数据集中选取合适比例的数据,作为验证集。对云计算中心输入的合格模型组M进行验证,得到预测结果为{Yvalidate_predicate1}。Dvalidate1={Xvalidate1,Yvalidate1}为验证集,Xvalidate1为验证集的特征,Yvalidate1为验证集的分类结果。根据Dvalidate1、{Yvalidate_predicate1}计算模型组M评价指标evalvalidate1。将计算出的评价指标evalvalidate1和模型评价指标基准值evalbase进行对比,剔除不合格模型。模型组中留下添加有合格标识的模型,记为K={model1,model2......,modelk},并将添加合格标识的合格训练模型进行融合,生成所述目标模型。
进一步地,所述将添加合格标识的合格训练模型进行融合,生成所述目标模型的步骤具体包括:
根据逻辑回归算法公式,将添加合格标识的合格训练模型进行融合,生成所述目标模型,其中,所述逻辑回归算法公式为:
Figure BDA0002556259470000111
其中,K为添加合格标识的合格训练模型个数,ht(x)为合格训练模型公式,αt为各添加合格标识的合格训练模型公式对应的权重。
本实施例中,雾计算节点1使用逻辑回归算法
Figure BDA0002556259470000112
对模型组K进行模型融合,使用强化学习调整超参数,选取合适权重αt,使模型具有最小指数损失函数
Figure BDA0002556259470000113
最小,即可得出最终模型。具体实施例中,还可以使用Bagging算法将添加合格标识的合格训练模型进行模型融合。
进一步地,所述步骤S20具体包括:
基于所述云计算中心,判断各雾计算节点发送的模型评价指标是否符合正态分布;
若基于所述云计算中心判定各雾计算节点发送的模型评价指标符合所述正态分布,则将不属于预设范围的评价指标进行剔除;
基于所述云计算中心,计算剔除后的模型评价指标对应的均值,作为所述模型评价指标基准。
其中,所述基于所述云计算中心,判断各雾计算节点发送的模型评价指标是否符合正态分布的步骤之后,还包括:
若基于所述云计算中心判定各雾计算节点发送的模型评价指标不符合所述正态分布,则将各雾计算节点发送的模型评价指标进行排序,并将排名低于预设值的模型评价指标剔除;
基于所述云计算中心,获取剔除后的模型评价指标中的最小值,作为所述模型评价指标基准。
本实施例中,为了提高模型训练的准确率,对训练后的模型进行筛选,并剔除不合格模型。云计算中心可基于正态分布剔除模型,或者数据分段方法来确定模型评价指标基准值。若所述模型评价指标数据符合所述正态分布规则,则基于正态分布中心以及左右两边确定一预设范围的评价指标取值,将不属于预设范围的评价指标进行剔除,并将不属于预设范围的评价指标对应的模型标记为不合格模型。计算剔除后的模型评价指标对应的均值或者最小值,作为所述模型评价指标基准。若所述模型评价指标数据不符合所述正态分布规则,如图4所示,根据Dtrain={Xtrain,Ytrain}、Dtest1={Xtest1,Ytest1}、{Ytest_predicate},计算各个模型评价指标。所述评价指标包括且不限于真正率、假正率、假负率、真负率、准确率、精确率、召回率、F1-Score、AUC等评价指标。汇总得出雾计算节点1的模型评价指标矩。汇总得出雾计算节点1的模型评价指标矩阵eval1和模型超参数矩阵θ1。其中模型评价指标矩阵eval1包含模型编号、评价指标值等信息。云计算中心收集各个雾计算节点输入的模型超参数矩阵{θ1,θ2,θ3}和模型评价指标矩阵{eval1,eval2,eval3},对模型评价指标矩阵{eval1,eval2,eval3}按照指标类型进行分类汇总。对模型评价指标按评价类型进行排序,计算排名位次。云计算中心共汇集n个模型,对于其中任意模型,若含有评价指标排名属于靠后30%的,则将该模型标记为不合格模型,予以丢弃。剩下m个模型记,作为合格模型组M={model1,model2......,modelm}。取合格模型组M各个评价指标的最低值记作模型评价指标基准值evalbase。其中,评价指标排名取值为后30%为经验值,实际取值包含且不限于30%。
本发明还提供一种多数据源的模型训练装置,所述多数据源的模型训练装置包括:
雾节点模型生成模块,用于基于一目标数据源对应的目标雾计算节点,对所述目标数据源以预设算法进行模型训练,生成初始训练模型,并将所述初始训练模型以及初始模型评价指标发送至云计算中心;
云中心基准计算模块,用于基于所述云计算中心,对不同渠道数据源对应的各雾计算节点发送的模型评价指标,进行模型评价指标基准的计算;
云中心模型校验模块,用于基于所述云计算中心将所述初始模型评价指标与所述模型评价指标基准进行比对,以判断所述初始训练模型是否合格,并将所述云计算中心中的全部合格模型发送至所述目标雾计算节点;
雾节点模型融合模块,用于基于所述目标雾计算节点,将所述合格训练模型进行融合,生成所述目标数据源对应的目标模型。
进一步地,所述雾节点模型生成模块具体包括:
初始特征提取单元,用于基于所述目标雾计算节点对所述目标数据源进行数据预处理,并提取出所述目标数据源的目标特征数据集;
初始模型生成单元,用于通过所述目标雾计算节点调用算法库中的一算法,对所述目标特征数据集中的训练集进行模型训练,生成所述初始训练模型;
初始指标计算单元,用于通过所述目标雾计算节点计算所述初始训练模型的初始模型评价指标,并将所述初始训练模型以及初始模型评价指标发送至云计算中心。
进一步地,所述云中心模型校验模块具体包括:
合格模型验证单元,用于基于所述目标雾计算节点,将所述目标特征数据集中的测试集输入所述合格训练模型,以对所述合格训练模型进行验证;
验证指标计算单元,用于基于所述目标雾计算节点获取所述合格训练模型对所述测试集的预测分类结果,并根据所述测试集对应的标准分类结果以及所述预测分类结果,计算所述合格训练模型的验证模型评价指标;
目标模型生成单元,用于基于所述目标雾计算节点判定所述验证模型评价指标达到所述模型评价指标基准时,则将所述合格训练模型添加合格标识,并将添加合格标识的合格训练模型进行融合,生成所述目标模型。
进一步地,所述目标模型生成单元还用于:
根据逻辑回归算法公式,将添加合格标识的合格训练模型进行融合,生成所述目标模型,其中,所述逻辑回归算法公式为:
Figure BDA0002556259470000141
其中,K为添加合格标识的合格训练模型个数,ht(x)为合格训练模型公式,αt为各添加合格标识的合格训练模型公式对应的权重。
进一步地,所述云中心基准计算模块具体包括:
正态分布判断单元,用于基于所述云计算中心,判断各雾计算节点发送的模型评价指标是否符合正态分布;
评价指标剔除单元,用于若基于所述云计算中心判定各雾计算节点发送的模型评价指标符合所述正态分布,则将不属于预设范围的评价指标进行剔除;
指标基准计算单元,用于基于所述云计算中心,计算剔除后的模型评价指标对应的均值,作为所述模型评价指标基准。
进一步地,所述评价指标剔除单元,还用于:
若基于所述云计算中心判定各雾计算节点发送的模型评价指标不符合所述正态分布,则将各雾计算节点发送的模型评价指标进行排序,并将排名低于预设值的模型评价指标剔除;
基于所述云计算中心,获取剔除后的模型评价指标中的最小值,作为所述模型评价指标基准。
上述各程序模块所执行的方法可参照本发明多数据源的模型训练方法各个实施例,此处不再赘述。
本发明还提供一种计算机可读存储介质。
本发明计算机可读存储介质上存储有多数据源的模型训练程序,所述多数据源的模型训练程序被处理器执行时实现如上所述的多数据源的模型训练方法的步骤。
其中,在所述处理器上运行的多数据源的模型训练程序被执行时所实现的方法可参照本发明多数据源的模型训练方法各个实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种多数据源的模型训练方法,其特征在于,所述多数据源的模型训练方法包括如下步骤:
基于一目标数据源对应的目标雾计算节点,对所述目标数据源以预设算法进行模型训练,生成初始训练模型,并将所述初始训练模型以及初始模型评价指标发送至云计算中心;
基于所述云计算中心,对不同渠道数据源对应的各雾计算节点发送的模型评价指标,进行模型评价指标基准的计算;
基于所述云计算中心将所述初始模型评价指标与所述模型评价指标基准进行比对,以判断所述初始训练模型是否合格,并将所述云计算中心中的全部合格模型发送至所述目标雾计算节点;
基于所述目标雾计算节点,将所述合格训练模型进行融合,生成所述目标数据源对应的目标模型。
2.如权利要求1所述的多数据源的模型训练方法,其特征在于,所述基于一目标数据源对应的目标雾计算节点,对所述目标数据源以预设算法进行模型训练,生成初始训练模型,并将所述初始训练模型以及初始模型评价指标发送至云计算中心的步骤具体包括:
基于所述目标雾计算节点对所述目标数据源进行数据预处理,并提取出所述目标数据源的目标特征数据集;
通过所述目标雾计算节点调用算法库中的一算法,对所述目标特征数据集中的训练集进行模型训练,生成所述初始训练模型;
通过所述目标雾计算节点计算所述初始训练模型的初始模型评价指标,并将所述初始训练模型以及初始模型评价指标发送至云计算中心。
3.如权利要求2所述的多数据源的模型训练方法,其特征在于,所述基于所述目标雾计算节点,将所述合格训练模型进行融合,生成所述目标数据源对应的目标模型的步骤具体包括:
基于所述目标雾计算节点,将所述目标特征数据集中的测试集输入所述合格训练模型,以对所述合格训练模型进行验证;
基于所述目标雾计算节点获取所述合格训练模型对所述测试集的预测分类结果,并根据所述测试集对应的标准分类结果以及所述预测分类结果,计算所述合格训练模型的验证模型评价指标;
基于所述目标雾计算节点判定所述验证模型评价指标达到所述模型评价指标基准时,则将所述合格训练模型添加合格标识,并将添加合格标识的合格训练模型进行融合,生成所述目标模型。
4.如权利要求3所述的多数据源的模型训练方法,其特征在于,所述将添加合格标识的合格训练模型进行融合,生成所述目标模型的步骤具体包括:
根据逻辑回归算法公式,将添加合格标识的合格训练模型进行融合,生成所述目标模型,其中,所述逻辑回归算法公式为:
Figure FDA0002556259460000021
其中,K为添加合格标识的合格训练模型个数,ht(x)为合格训练模型公式,αt为各添加合格标识的合格训练模型公式对应的权重。
5.如权利要求1所述的多数据源的模型训练方法,其特征在于,所述基于所述云计算中心,对不同渠道数据源对应的各雾计算节点发送的模型评价指标,进行模型评价指标基准的计算的步骤具体包括:
基于所述云计算中心,判断各雾计算节点发送的模型评价指标是否符合正态分布;
若基于所述云计算中心判定各雾计算节点发送的模型评价指标符合所述正态分布,则将不属于预设范围的评价指标进行剔除;
基于所述云计算中心,计算剔除后的模型评价指标对应的均值,作为所述模型评价指标基准。
6.如权利要求5所述的多数据源的模型训练方法,其特征在于,所述基于所述云计算中心,判断各雾计算节点发送的模型评价指标是否符合正态分布的步骤之后,还包括:
若基于所述云计算中心判定各雾计算节点发送的模型评价指标不符合所述正态分布,则将各雾计算节点发送的模型评价指标进行排序,并将排名低于预设值的模型评价指标剔除;
基于所述云计算中心,获取剔除后的模型评价指标中的最小值,作为所述模型评价指标基准。
7.如权利要求1所述的多数据源的模型训练方法,其特征在于,所述模型评价指标包括真正率、假正率、假负率、真负率、准确率、精确率、召回率、F1-ScoreF1分数或AUC曲线下面积中的至少一种。
8.一种多数据源的模型训练装置,其特征在于,所述多数据源的模型训练装置包括:
雾节点模型生成模块,用于基于一目标数据源对应的目标雾计算节点,对所述目标数据源以预设算法进行模型训练,生成初始训练模型,并将所述初始训练模型以及初始模型评价指标发送至云计算中心;
云中心基准计算模块,用于基于所述云计算中心,对不同渠道数据源对应的各雾计算节点发送的模型评价指标,进行模型评价指标基准的计算;
云中心模型校验模块,用于基于所述云计算中心将所述初始模型评价指标与所述模型评价指标基准进行比对,以判断所述初始训练模型是否合格,并将所述云计算中心中的全部合格模型发送至所述目标雾计算节点;
雾节点模型融合模块,用于基于所述目标雾计算节点,将所述合格训练模型进行融合,生成所述目标数据源对应的目标模型。
9.一种多数据源的模型训练设备,其特征在于,所述多数据源的模型训练设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的多数据源的模型训练程序,所述多数据源的模型训练程序被所述处理器执行时实现如权利要求1至7中任一项所述的多数据源的模型训练方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有多数据源的模型训练程序,所述多数据源的模型训练程序被处理器执行时实现如权利要求1至7中任一项所述的多数据源的模型训练方法的步骤。
CN202010606991.3A 2020-06-24 2020-06-24 多数据源的模型训练方法、装置、设备及存储介质 Pending CN111753998A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010606991.3A CN111753998A (zh) 2020-06-24 2020-06-24 多数据源的模型训练方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010606991.3A CN111753998A (zh) 2020-06-24 2020-06-24 多数据源的模型训练方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN111753998A true CN111753998A (zh) 2020-10-09

Family

ID=72678059

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010606991.3A Pending CN111753998A (zh) 2020-06-24 2020-06-24 多数据源的模型训练方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111753998A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112508462A (zh) * 2021-02-05 2021-03-16 北京芯盾时代科技有限公司 数据筛选方法、装置及存储介质
CN113657538A (zh) * 2021-08-24 2021-11-16 北京百度网讯科技有限公司 模型训练、数据分类方法、装置、设备、存储介质及产品

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112508462A (zh) * 2021-02-05 2021-03-16 北京芯盾时代科技有限公司 数据筛选方法、装置及存储介质
CN113657538A (zh) * 2021-08-24 2021-11-16 北京百度网讯科技有限公司 模型训练、数据分类方法、装置、设备、存储介质及产品

Similar Documents

Publication Publication Date Title
CN109816092B (zh) 深度神经网络训练方法、装置、电子设备及存储介质
WO2021179834A1 (zh) 基于异构图进行业务处理的方法及装置
CN110610193A (zh) 标注数据的处理方法及装置
CN111047173B (zh) 基于改进d-s证据理论的社团可信度评估方法
CN111695824B (zh) 风险尾端客户分析方法、装置、设备及计算机存储介质
CN116596095B (zh) 基于机器学习的碳排放量预测模型的训练方法及装置
CN113537807A (zh) 一种企业智慧风控方法及设备
CN107368526A (zh) 一种数据处理方法及装置
CN111753998A (zh) 多数据源的模型训练方法、装置、设备及存储介质
CN111754044A (zh) 员工行为审计方法、装置、设备及可读存储介质
CN112561685A (zh) 客户的分类方法和装置
CN114022202B (zh) 基于深度学习的用户流失预测方法及系统
CN109255389B (zh) 一种装备评价方法、装置、设备及可读存储介质
CN116484005B (zh) 一种分类模型构建方法、装置及存储介质
CN112508363B (zh) 基于深度学习的电力信息系统状态分析方法及装置
CN111292062B (zh) 基于网络嵌入的众包垃圾工人检测方法、系统及存储介质
CN108846577B (zh) 一种基于情境分析的群体任务分配方法
CN113393023B (zh) 模具质量评估方法、装置、设备及存储介质
CN115099934A (zh) 一种高潜客户识别方法、电子设备和存储介质
Xiong et al. L-RBF: A customer churn prediction model based on lasso+ RBF
CN109308565B (zh) 人群绩效等级识别方法、装置、存储介质及计算机设备
CN115687034A (zh) 一种业务系统平面可用性判定方法和装置
CN107784363A (zh) 数据处理方法、装置及系统
CN110009415A (zh) 一种电子商务系统中新卖家的声誉预测方法
CN109492046A (zh) 集成模型的失效判断方法及装置和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination