CN117312912A - 业务数据分类预测模型的生成方法、装置及计算机设备 - Google Patents
业务数据分类预测模型的生成方法、装置及计算机设备 Download PDFInfo
- Publication number
- CN117312912A CN117312912A CN202311198087.3A CN202311198087A CN117312912A CN 117312912 A CN117312912 A CN 117312912A CN 202311198087 A CN202311198087 A CN 202311198087A CN 117312912 A CN117312912 A CN 117312912A
- Authority
- CN
- China
- Prior art keywords
- data
- result
- prediction
- base learner
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000012549 training Methods 0.000 claims abstract description 85
- 238000004590 computer program Methods 0.000 claims abstract description 23
- 238000004422 calculation algorithm Methods 0.000 claims description 19
- 238000010801 machine learning Methods 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 3
- 238000013215 result calculation Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 6
- 239000002585 base Substances 0.000 description 117
- 238000010586 diagram Methods 0.000 description 8
- 238000011156 evaluation Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000000586 desensitisation Methods 0.000 description 1
- 239000012458 free base Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请涉及一种业务数据分类预测模型的生成方法、装置、计算机设备、计算机可读存储介质和计算机程序产品,可用于金融领域中的业务数据分类。其中,该方法包括:根据目标业务场景下的原始数据确定多个基学习器以及结果权重,用原始数据对基学习器进行训练并得到预测结果,再按照结果权重确定综合预测结果及预测准确率,基于标准阈值调整基学习器后生成分类预测模型。这样,通过对多个基学习器进行统筹训练,并根据预测结果调整基学习器的结果权重,从而使得到的综合预测结果更符合预设标准,预测准确率更高,若基学习器训练效果不佳可以减少训练样本数量,从而降低模型训练的资源消耗,节省模型训练时间。
Description
技术领域
本公开涉及大数据处理领域,尤其涉及一种业务数据分类预测模型的生成方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
背景技术
随着大数据技术的发展和数据库的广泛应用,数据资产的重要性日益凸显。特别是金融行业等领域,掌握着海量的客户业务数据。因此,如何对大量的业务数据进行评估,从而实现对不同客户群体数据的分类管理,一直是各大机构重点关注的问题。
目前的解决方案主要分为两种:一种是人工评估分类法,另一种是基于规则和指标的自动评估分类法。人工评估分类法是一种直观而且直接的方法,但当业务数据增长到一定规模后,人工评估工作量大,效率低,容易受到个人主观意识的影响;另一方面,人工评估容易遗漏或者忽略某些重要数据。基于规则和指标的模型分类法通过设定一些规则和指标训练特定的分类模型,由分类模型对数据进行评估分类,但这种模型往往过度依赖于训练时的原始数据,对新数据适用性不高,且由于数据和指标类型的复杂性和多样性,训练时间过长,模型的训练成本过高。
发明内容
基于此,针对上述技术问题,提供一种业务数据分类预测模型的生成方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。本公开的技术方案如下:
根据本公开实施例的一个方面,提供一种业务数据分类预测模型的生成方法,包括:
获取目标业务场景下的原始数据;
根据所述目标业务场景,确定多个基学习器并分别为每个基学习器分配初始的结果权重;
将所述原始数据作为训练集对所述基学习器进行训练,并获取所述基学习器输出的预测结果;
根据所述预测结果和所述结果权重,确定综合预测结果,并计算所述综合预测结果的预测准确率;
调整所述基学习器的结果权重以及训练样本数量,直至根据所述基学习器得到的预测准确率达到预设的标准阈值后,根据所述基学习器生成业务数据分类预测模型。
在其中一个实施例中,所述调整所述基学习器的结果权重以及训练样本数量包括:
计算所述预测结果与所述综合预测结果在预设指标下的差异系数;
根据所述差异系数,降低所述预测结果对应的基学习器的结果权重,并减少训练样本数量。
在其中一个实施例中,在根据所述差异系数,降低所述预测结果对应的基学习器的结果权重,并减少训练样本数量之后,还包括:
在所述结果权重低于预设权重阈值的情况下,调整所述基学习器的机器学习算法和训练样本数量。
在其中一个实施例中,所述获取目标业务场景下的原始数据包括:
获取目标业务场景下的历史业务数据;
基于信息熵算法,从所述历史业务数据中筛选出信息量达到预设阈值的初始业务数据;
计算所述初始业务数据中不同数据特征之间的相关系数,对相关系数达到预设的相关性阈值的数据特征进行合并,合并后得到原始数据。
在其中一个实施例中,在从所述历史业务数据中筛选出信息量达到预设阈值的初始业务数据之前,还包括:
识别所述历史业务数据中的敏感数据;所述敏感数据为能单独反映用户身份的业务数据;
对所述敏感数据进行脱敏处理。
在其中一个实施例中,提供一种业务数据分类预测方法,包括:
获取待预测的业务数据;
将所述业务数据输入业务数据分类预测模型,经所述业务数据分类预测模型输出所述业务数据的分类预测结果;
其中,所述业务数据分类预测模型根据上述各实施例中任一项生成方法得到。
根据本公开实施例的另一方面,提供一种业务数据分类预测模型的生成装置,包括:
数据获取模块,用于获取目标业务场景下的原始数据;
基学习器确定模块,用于根据所述目标业务场景,确定多个基学习器并分别为每个基学习器分配初始的结果权重;
初始训练模块,用于将所述原始数据作为训练集对所述基学习器进行训练,并获取所述基学习器输出的预测结果;
结果计算模块,用于根据所述预测结果和所述结果权重,确定综合预测结果,并计算所述综合预测结果的预测准确率;
调整优化模块,用于调整所述基学习器的结果权重以及训练样本数量,直至根据所述基学习器得到的预测准确率达到预设的标准阈值后,根据所述基学习器生成业务数据分类预测模型。
根据本公开实施例的另一方面,还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
根据本公开实施例的另一方面,还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
根据本公开实施例的另一方面,还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
本公开实施例提供的技术方案中,可以根据目标业务场景下的原始数据确定多个基学习器以及每个基学习器初始的结果权重,将原始数据作为训练集对基学习器进行训练并获取基学习器输出的预测结果,再按照结果权重确定综合预测结果及预测准确率,基于预设的标准阈值调整基学习器后生成分类预测模型。这样,通过对多个基学习器进行统筹训练,并根据预测结果调整基学习器的结果权重,从而使得到的综合预测结果更符合预设标准,生成的分类预测模型预测准确率更高,并且基学习器可以根据目标业务场景确定,基学习器的训练样本数量也可以不断调整,若基学习器训练效果不佳可以减少训练样本数量,从而降低模型训练的资源消耗,节省模型训练时间。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
为了更清楚地说明本说明书实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是一个实施例中一种业务数据分类预测模型的生成方法的流程示意图;
图2是一个实施例中一种调整基学习器结果权重的方法的流程示意图;
图3是另一个实施例中一种调整基学习器结果权重的方法的流程示意图;
图4是一个实施例中一种获取原始数据的方法的流程示意图;
图5是另一个实施例中一种获取原始数据的方法的流程示意图;
图6是一个实施例中一种业务数据分类预测方法的流程示意图;
图7是一个实施例中一种业务数据分类预测模型的生成装置的结构示意图;
图8是一个实施例中一种计算机设备的内部结构示意图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下,并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。例如若使用到第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
本文所使用的术语“垂直的”、“水平的”、“左”、“右”、“上”、“下”、“前”、“后”、“周向”、“行进方向”以及类似的表述是基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
除非另有定义,本文所使用的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义可以相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”、“和/或”、“至少…之一”包括一个或多个相关的所列项目的任意的和所有的组合。需要说明的是,本公开中所描述的相连、连接等,可以是通过器件间的接口或引脚直接连接,也可以是通过引线连接,还可以是通过无线连接(通信连接)。
随着大数据技术的发展,数据作为无形资产,在某些领域的重要性越来越高。特别是银行等金融机构掌握着海量用户的业务数据,如何对这些业务数据进行评估分类一直是热门问题。由于数据规模庞大,人工方式不再适用,相关技术中逐渐出现通过模型来取代人工进行数据的评估分类。然而,随着数据复杂性日渐增长,业务数据往往被划分为数个甚至数十个维度,训练一个业务模型的资源消耗和时间消耗过高,模型预测准确率也不理想。
针对上述技术问题,如图1所示,提供了一种业务数据分类预测模型的生成方法,包括以下步骤:
步骤S210,获取目标业务场景下的原始数据。
其中,目标业务场景可以包括银行等金融领域中的业务场景,也可以针对一个领域中进一步细分,例如贷款、存款等。
具体地,可以从存储历史数据的数据库服务器中提取目标业务场景下的业务数据,并可以对这些业务数据进行归一化、数据清洗等操作,得到原始数据。例如,数据清洗可以确定数据中是否存在缺失值、异常值,对缺失的无用数据进行清洗并根据缺失数据的特征类别进行相应的数据填充,得到清洗后的数据。其中,当特征类别为数值特征时,可以取该特征的平均值进行填充;当特征类别为非数值特征时,可以取该特征类别中出现次数最多的特征进行填充。
步骤S220,根据所述目标业务场景,确定多个基学习器并分别为每个基学习器分配初始的结果权重。
其中,基学习器(base learner)也可以被称为个体学习器,基学习器可以包含多种较为基本的机器学习或数据挖掘算法(如聚类、分类、关联规则等,可以称为基学习算法)。
具体地,可以根据目标业务场景确定包含不同算法的基学习器以及每种算法的基学习器的数量,并为每个基学习器分配一个初始的结果权重。例如,针对数据量较大且数据维度较多的业务场景,可以采用更多包含聚类算法的基学习器。在一些其他实施方式中,基学习器的初始选择可以综合考虑各类学习器模型的训练开销、计算时长及运行效率等方面的特点,初步筛选出适合业务场景的学习模型。
应当说明的是,各个基学习器之间可以相互独立,采用同时生成的并行化方法,此时基学习器可以是同一类型的学习器,基学习算法的作用比较接近,各基学习器的初始权重可以平均分配。在一些其他实施方式中,也可以在并行化的基础上,根据模型层级,在不同阶段设置类型不同的若干个学习器,一些学习器之间可以存在强依赖关系,采用串行生成的序列化方法。
步骤S230,将所述原始数据作为训练集对所述基学习器进行训练,并获取所述基学习器输出的预测结果。
具体地,可以使用原始数据作为训练集数据对确定出的多个基学习器进行学习训练,获取每个基学习器输出的预测结果。在一些具体的实施方式中,还可以根据每个基学习器输出结果的准确程度,调整基学习器的参数以及结果权重,例如可以根据基学习器输出值修改基学习器算法的参数,提高基学习器的预测准确率,并可以将准确率较差的基学习器的结果权重调低。
步骤S240,根据所述预测结果和所述结果权重,确定综合预测结果,并计算所述综合预测结果的预测准确率。
具体地,根据各个基学习器的预测结果以及每个基学习器对应的结果权重,可以确定综合预测结果,并计算该结果的准确率。在一些其他实施方式中,可以预先在原始数据中抽取部分符合模型需要的数据作为验证集,通过验证集来确定训练集得到的输出值的预测效果。
步骤S250,调整所述基学习器的结果权重以及训练样本数量,直至根据所述基学习器得到的预测准确率达到预设的标准阈值后,根据所述基学习器生成业务数据分类预测模型。
其中,训练样本数量可以是每个基学习器用于训练的数据量。
具体地,可以将步骤S240中综合预测结果的预测准确率与预设的标准阈值进行比较,若预测准确率小于标准阈值,则可以调整各基学习器的结果权重,也可以调整基学习器的训练样本数量,调整后继续进行训练,直至预测准确率达到标准阈值后,可以根据各基学习器生成用于对业务数据进行分类的预测模型。在一些具体的实施方式中,在调整基学习器的训练样本数量时,可以将大量样本训练后预测效果仍不佳的基学习器的训练样本数量逐渐减少,直至停止该基学习器的训练流程,不再采用该学习器的预测结果,以降低资源消耗。在一些其他实施方式中,也可以为基学习器设置阈值并计算单个基学习器的预测准确率,根据单个基学习器的预测准确率与所设阈值的差异程度,调整该基学习器的结果权重以及训练样本数量。
在一些具体的实现方式中,在模型层次架构上,可以将基学习器作为预测模型的底层,并可以选择ChatGPT(Chat Generative Pre-trained Transformer,聊天生成预训练转换器)等人工智能模型作为预测模型的顶层,由顶层模型来实现上述任意步骤。
本公开实施例提供的技术方案中,可以根据目标业务场景下的原始数据确定多个基学习器以及每个基学习器初始的结果权重,将原始数据作为训练集对基学习器进行训练并获取基学习器输出的预测结果,再按照结果权重确定综合预测结果及预测准确率,基于预设的标准阈值调整基学习器后生成分类预测模型。这样,通过对多个基学习器进行统筹训练,并根据预测结果调整基学习器的结果权重,从而使得到的综合预测结果更符合预设标准,生成的分类预测模型预测准确率更高,并且基学习器可以根据目标业务场景确定,基学习器的训练样本数量也可以不断调整,若基学习器训练效果不佳可以减少训练样本数量,从而降低模型训练的资源消耗,节省模型训练时间。
在一个实施例中,如图2所示,所述调整所述基学习器的结果权重以及训练样本数量包括:
步骤S2502,计算所述预测结果与所述综合预测结果在预设指标下的差异系数。
具体地,可以根据预测模型的类型以及预测结果的特点设置不同的指标,并计算在指标下的差异系数。例如,若预测模型用于挖掘银行用户的潜在营销价值,通过评估用户业务数据筛选出高价值用户和一般用户,则可以将高价值用户的预测结果作为指标,分别计算每个基学习器预测结果以及综合预测结果在高价值用户这一指标上的准确率,并将基学习器的指标准确率与综合预测结果的指标准确率的差值作为差异系数。
步骤S2504,根据所述差异系数,降低所述预测结果对应的基学习器的结果权重,并减少训练样本数量。
具体地,根据每个基学习器的差异系数,可以调整对应的结果权重和训练样本数量。例如,若基学习器的差异系数较大,则可以认为该基学习器对综合预测结果的帮助较小,可以降低该基学习器的结果权重,并可以将该基学习器的训练样本数量逐渐减少。
上述实施例中,可以根据各个基学习器的预测结果与综合预测结果之间的差异,减少部分基学习器的训练样本数量。这样,通过调整基学习器的训练量,可以有效降低训练过程中的资源消耗,从而降低模型的训练成本,还可以节省训练时间。
在一个实施例中,如图3所示,在根据所述差异系数,降低所述预测结果对应的基学习器的结果权重,并减少训练样本数量之后,还包括:
步骤S2506,在所述结果权重低于预设权重阈值的情况下,调整所述基学习器的机器学习算法和训练样本数量。
其中,权重阈值可以为任意值。
具体地,可以将基学习器的结果权重与预设的权重阈值比较,若低于权重阈值,可以停止该基学习器的训练流程,将该基学习器的训练样本数量设置为零,不再采用该基学习器的预测结果,以降低资源消耗。例如,若权重阈值为0.05,若基学习器的结果权重已被调整至低于0.05,则可以停止该基学习器的训练。在一些其他实施方式中,还可以将空闲的基学习器资源用于其他的机器学习算法,并重新分配训练样本,形成算法上的更新迭代。
上述实施例中,可以在基学习器的结果权重低于预设权重阈值的情况下,停止该基学习器的训练,并可以更改该基学习器的算法,再重新设置训练样本。这样,通过权重阈值可以筛选出作用较小的基学习器,及时更换基学习器的算法,有效利用基学习器资源,提高模型的预测准确率。
在一个实施例中,如图4所示,所述获取目标业务场景下的原始数据包括:
步骤S2102,获取目标业务场景下的历史业务数据。
具体地,可以根据目标业务场景从数据库中提取相关的历史业务数据,例如目标业务场景为贷款,可以从数据库中提取所有与贷款相关的历史记录以及贷款用户的基本信息等。
步骤S2106,基于信息熵算法,从所述历史业务数据中筛选出信息量达到预设阈值的初始业务数据。
其中,信息熵(information entropy)可以用于描述信息源各可能事件发生的不确定性。若不确定性越大,则信息量越大,熵越大;若不确定性越小,则信息量越小,熵越小。
具体地,可以将业务数据对预测结果的重要程度作为信息量的标准,根据阈值剔除信息量低于该阈值的数据维度,保留信息量大的数据维度。例如,预测结果为用户办理小额贷款的概率,年龄在18~28岁之间的用户办理概率明显高于其他年龄阶段的用户,因此年龄在哪个阶段对于预测结果较为重要,信息量较大,这一项数据需要保留,而性别对预测结果影响较小,信息量较小,可以将性别这一项数据剔除。
步骤S2108,计算所述初始业务数据中不同数据特征之间的相关系数,对相关系数达到预设的相关性阈值的数据特征进行合并,合并后得到原始数据。
其中,相关系数可以包括皮尔逊相关系数等,可以用于表示不同维度数据之间的相关性。
具体地,可以计算初始业务数据中不同维度数据的相关系数,并设置相关系数的相关性阈值,将超过该阈值的相关系数对应的数据进行合并。例如,“用户登录总天数”与“用户登录总次数”的相关性较强,可以通过相关性阈值筛选出此类相关性较强的数据,删除其中一项,将保留下来的数据用于组成原始数据。在一些其他实施方式中,也可以预先通过人工提前删除显而易见的无关维度。
上述实施例中,可以对目标业务场景下的业务数据进行预处理,通过信息熵算法剔除信息量低的数据维度,保留信息量达到预设阈值的数据维度,并可以根据相关系数对数据特征进行合并,这样可以有效减少原始数据的数据量,提高数据集的数据质量,降低模型的训练难度和训练成本。
在一个实施例中,如图5所示,在从所述历史业务数据中筛选出信息量达到预设阈值的初始业务数据之前,还包括:
步骤S2103,识别所述历史业务数据中的敏感数据。
其中,敏感数据为能单独反映用户身份的业务数据。
具体地,在根据信息量阈值筛选初始业务数据之前,可以通过算法识别历史业务数据中的证件号码、手机号码等敏感数据。
步骤S2104,对所述敏感数据进行脱敏处理。
具体地,若敏感数据明显与预测结果无关,可以直接剔除敏感数据。在一些其他实施方式中,也可以通过匿名化或数据变形等方式对敏感数据进行脱敏。
上述实施例中,可以预先识别业务数据中的敏感数据,并通过数据变形等方式对数据进行脱敏处理,从而实现敏感隐私数据的可靠保护。
在一个实施例中,如图6所示,提供了一种业务数据分类预测方法,包括以下步骤:
步骤S260,获取待预测的业务数据。
其中,待预测的业务数据可以是与目标业务场景相同或相近的业务场景下的数据。
步骤S270,将所述业务数据输入业务数据分类预测模型,经所述业务数据分类预测模型输出所述业务数据的分类预测结果。
其中,所述业务数据分类预测模型可以是根据上述任一实施例中的生成方法得到的。
具体地,可以将待预测的业务数据作为上述分类预测模型的输入,并获取该模型输出的分类预测结果。在一些其他实施方式中,也可以将待预测的业务数据进行归一化、数据清洗等预处理后再输入分类预测模型。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
本申请各实施例中可能涉及的业务数据、用户信息等,均为严格按照法律法规的要求,遵循合法、正当、必要的原则,基于业务场景的合理目的,处理业务相关的数据信息。
根据本公开实施例的另一方面,如图7所示,还提供一种业务数据分类预测模型的生成装置,包括:
数据获取模块310,用于获取目标业务场景下的原始数据;
基学习器确定模块320,用于根据所述目标业务场景,确定多个基学习器并分别为每个基学习器分配初始的结果权重;
初始训练模块330,用于将所述原始数据作为训练集对所述基学习器进行训练,并获取所述基学习器输出的预测结果;
结果计算模块340,用于根据所述预测结果和所述结果权重,确定综合预测结果,并计算所述综合预测结果的预测准确率;
调整优化模块350,用于调整所述基学习器的结果权重以及训练样本数量,直至根据所述基学习器得到的预测准确率达到预设的标准阈值后,根据所述基学习器生成业务数据分类预测模型。
关于上述生成装置的具体限定可以参见上文中对于上述生成方法的限定,在此不再赘述。根据上述生成方法,所述生成装置可以增加第一模块、第二模块等实现相应的方法实施例中的步骤。上述生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
需要说明的是,本发明的业务数据分类预测模型的生成方法和确定装置可用于金融领域中的业务处理流程,也可用于除金融领域之外的任意领域,本发明的方法和装置的应用领域不做限定。
根据本公开实施例的另一方面,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现上述生成方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
根据本公开实施例的另一方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
应当理解的是,本公开并不局限于已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。
Claims (10)
1.一种业务数据分类预测模型的生成方法,其特征在于,包括:
获取目标业务场景下的原始数据;
根据所述目标业务场景,确定多个基学习器并分别为每个基学习器分配初始的结果权重;
将所述原始数据作为训练集对所述基学习器进行训练,并获取所述基学习器输出的预测结果;
根据所述预测结果和所述结果权重,确定综合预测结果,并计算所述综合预测结果的预测准确率;
调整所述基学习器的结果权重以及训练样本数量,直至根据所述基学习器得到的预测准确率达到预设的标准阈值后,根据所述基学习器生成业务数据分类预测模型。
2.根据权利要求1所述的方法,其特征在于,所述调整所述基学习器的结果权重以及训练样本数量包括:
计算所述预测结果与所述综合预测结果在预设指标下的差异系数;
根据所述差异系数,降低所述预测结果对应的基学习器的结果权重,并减少训练样本数量。
3.根据权利要求2所述的方法,其特征在于,在根据所述差异系数,降低所述预测结果对应的基学习器的结果权重,并减少训练样本数量之后,还包括:
在所述结果权重低于预设权重阈值的情况下,调整所述基学习器的机器学习算法和训练样本数量。
4.根据权利要求1所述的方法,其特征在于,所述获取目标业务场景下的原始数据包括:
获取目标业务场景下的历史业务数据;
基于信息熵算法,从所述历史业务数据中筛选出信息量达到预设阈值的初始业务数据;
计算所述初始业务数据中不同数据特征之间的相关系数,对相关系数达到预设的相关性阈值的数据特征进行合并,合并后得到原始数据。
5.根据权利要求4所述的方法,其特征在于,在从所述历史业务数据中筛选出信息量达到预设阈值的初始业务数据之前,还包括:
识别所述历史业务数据中的敏感数据;所述敏感数据为能单独反映用户身份的业务数据;
对所述敏感数据进行脱敏处理。
6.一种业务数据分类预测方法,其特征在于,包括:
获取待预测的业务数据;
将所述业务数据输入业务数据分类预测模型,经所述业务数据分类预测模型输出所述业务数据的分类预测结果;
其中,所述业务数据分类预测模型根据权利要求1-5中任一项生成方法得到。
7.一种业务数据分类预测模型的生成装置,其特征在于,包括:
数据获取模块,用于获取目标业务场景下的原始数据;
基学习器确定模块,用于根据所述目标业务场景,确定多个基学习器并分别为每个基学习器分配初始的结果权重;
初始训练模块,用于将所述原始数据作为训练集对所述基学习器进行训练,并获取所述基学习器输出的预测结果;
结果计算模块,用于根据所述预测结果和所述结果权重,确定综合预测结果,并计算所述综合预测结果的预测准确率;
调整优化模块,用于调整所述基学习器的结果权重以及训练样本数量,直至根据所述基学习器得到的预测准确率达到预设的标准阈值后,根据所述基学习器生成业务数据分类预测模型。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311198087.3A CN117312912A (zh) | 2023-09-15 | 2023-09-15 | 业务数据分类预测模型的生成方法、装置及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311198087.3A CN117312912A (zh) | 2023-09-15 | 2023-09-15 | 业务数据分类预测模型的生成方法、装置及计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117312912A true CN117312912A (zh) | 2023-12-29 |
Family
ID=89259477
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311198087.3A Pending CN117312912A (zh) | 2023-09-15 | 2023-09-15 | 业务数据分类预测模型的生成方法、装置及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117312912A (zh) |
-
2023
- 2023-09-15 CN CN202311198087.3A patent/CN117312912A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108564286B (zh) | 一种基于大数据征信的人工智能金融风控授信评定方法和系统 | |
Bi et al. | A big data clustering algorithm for mitigating the risk of customer churn | |
CN112633962B (zh) | 业务推荐方法、装置、计算机设备和存储介质 | |
CN113537807B (zh) | 一种企业智慧风控方法及设备 | |
CN110738527A (zh) | 一种特征重要性排序方法、装置、设备和存储介质 | |
CN115659177A (zh) | 数据推荐模型的生成方法、装置和计算机设备 | |
CN111611488A (zh) | 基于人工智能的信息推荐方法、装置、电子设备 | |
US20230325632A1 (en) | Automated anomaly detection using a hybrid machine learning system | |
CN112328869A (zh) | 一种用户贷款意愿的预测方法、装置及计算机系统 | |
CN113935788B (zh) | 模型评估方法、装置、设备及计算机可读存储介质 | |
CN116915710A (zh) | 流量预警方法、装置、设备及可读存储介质 | |
CN117437001A (zh) | 目标对象的指标数据处理方法、装置及计算机设备 | |
CN113850654A (zh) | 物品推荐模型的训练方法、物品筛选方法、装置和设备 | |
CN116501979A (zh) | 信息推荐方法、装置、计算机设备及计算机可读存储介质 | |
CN116304851A (zh) | 数据标准确定方法、装置、设备、介质和计算机程序产品 | |
CN117312912A (zh) | 业务数据分类预测模型的生成方法、装置及计算机设备 | |
CN115099934A (zh) | 一种高潜客户识别方法、电子设备和存储介质 | |
CN114693325A (zh) | 基于神经网络的用户口碑智能保障方法及装置 | |
CN115222177A (zh) | 业务数据处理方法、装置、计算机设备和存储介质 | |
US20200342302A1 (en) | Cognitive forecasting | |
CN114510638B (zh) | 信息处理方法、装置、设备、存储介质及程序产品 | |
CN117349344B (zh) | 一种基于大数据的产品销售数据智能采集方法及系统 | |
US20240184812A1 (en) | Distributed active learning in natural language processing for determining resource metrics | |
CN118798977A (zh) | 付费会员转化的分析方法、装置、设备、存储介质和产品 | |
CN118657540A (zh) | 信息处理方法、信息处理装置及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |