CN116934371A - 联邦模型的构建方法、分期数据的获取方法及相关装置 - Google Patents
联邦模型的构建方法、分期数据的获取方法及相关装置 Download PDFInfo
- Publication number
- CN116934371A CN116934371A CN202310919790.2A CN202310919790A CN116934371A CN 116934371 A CN116934371 A CN 116934371A CN 202310919790 A CN202310919790 A CN 202310919790A CN 116934371 A CN116934371 A CN 116934371A
- Authority
- CN
- China
- Prior art keywords
- model
- training
- data
- federal
- local
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 75
- 238000010276 construction Methods 0.000 title claims abstract description 23
- 238000012549 training Methods 0.000 claims abstract description 130
- 230000004044 response Effects 0.000 claims abstract description 40
- 230000006870 function Effects 0.000 claims abstract description 39
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 36
- 239000013598 vector Substances 0.000 claims description 23
- 238000007781 pre-processing Methods 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 18
- 238000004140 cleaning Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 7
- 238000009960 carding Methods 0.000 claims description 6
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 230000006399 behavior Effects 0.000 description 10
- 230000008569 process Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000007637 random forest analysis Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- AZKVWQKMDGGDSV-BCMRRPTOSA-N Genipin Chemical group COC(=O)C1=CO[C@@H](O)[C@@H]2C(CO)=CC[C@H]12 AZKVWQKMDGGDSV-BCMRRPTOSA-N 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- AZKVWQKMDGGDSV-UHFFFAOYSA-N genipin Natural products COC(=O)C1=COC(O)C2C(CO)=CCC12 AZKVWQKMDGGDSV-UHFFFAOYSA-N 0.000 description 2
- 239000003999 initiator Substances 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000012502 risk assessment Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
Abstract
本申请实施例公开了一种联邦模型的构建方法、分期数据的获取方法及相关装置,应用于人工智能领域或金融领域。首先获取各个参与方的特征数据,并识别各个参与方共同的特征数据作为共同样本,对特征数据进行预处理得到处理样本。接着获取建模标签和训练算法,并根据模型训练的目标即建模标签获取各个参与方的本地模型。再将共同样本和处理样本输入到各个本地模型中,基于去中心化的网络架构利用训练算法进行模型训练得到各个本地模型的模型训练参数和损失函数。然后利用模型训练参数和损失函数在各个本地模型中进行迭代训练得到各个本地模型的目标模型,将各个目标模型作为联邦模型。本申请的联邦模型可以输出可信度更高的分期响应率和分期服务费。
Description
技术领域
本申请涉及人工智能领域及金融领域,具体涉及一种联邦模型的构建方法、分期数据的获取方法及相关装置。
背景技术
分期响应率(Installment Response Rate)是指在金融领域中,对于一项分期付款计划或信贷产品,用户选择进行分期付款的比例或概率。它反映了用户对于分期付款选项的态度或倾向性,以及其愿意按时还款的可能性。分期响应率通常用于风险评估和信用评级等金融决策过程中。例如,在某个信贷产品的申请过程中,银行或金融机构可能会根据申请人的历史数据、信用记录、收入状况等因素来预测其分期响应率。这样可以帮助机构评估申请人是否具备按时还款的能力和意愿,从而决定是否批准贷款申请或提供更有利的分期付款条件。现有技术中的分期响应率一般基于行内数据分析,进行各个渠道营销:电话营销、手机银行营销等方法进行分期响应率统计,通过该方法进行分期响应率统计的数据过于单一,从而使得分期响应率可信度过低。此外,现有的信用卡分期服务费定价基本无法做到一客一价,无法根据不同客户的情况设置价格去吸引客户。
因此,如何通过客户更多维度更丰富的数据获得客户的一个可信度更高的分期响应率,并根据不同的客户推送不同的分期服务费,从而实现精准营销,是本领域技术人员急需解决的技术问题。
发明内容
基于上述问题,本申请提供了联邦模型的构建方法、分期数据的获取方法及相关装置,可以通过客户更多维度更丰富的数据获得客户的一个可信度更高的分期响应率,并根据不同的客户推送不同的分期服务费,从而实现精准营销。
本申请实施例公开了如下技术方案:
一种联邦模型的构建方法,所述方法包括:
获取各个参与方的特征数据,并识别各个参与方共同的特征数据作为共同样本;
对所述特征数据进行预处理得到处理样本;
获取建模标签和训练算法,并根据所述建模标签获取各个参与方的本地模型,其中,所述建模标签为模型训练的目标;
将所述共同样本和所述处理样本输入到各个所述本地模型中,并基于去中心化的网络架构利用所述训练算法进行模型训练得到各个所述本地模型的模型训练参数和损失函数;
利用所述模型训练参数和所述损失函数在各个所述本地模型中进行迭代训练得到各个所述本地模型的目标模型,将各个所述目标模型作为联邦模型。
在一些可能的实现方式中,所述对所述特征数据进行预处理得到处理样本,包括:
对所述特征数据进行数据源梳理、数据清洗、异常值处理以及特征工程。
在一些可能的实现方式中,所述建模标签为分期响应率标签。
一种分期数据的获取方法,所述方法包括:
响应于接收到分期定价请求,获取所述分期定价请求携带的用户唯一标识;
将所述用户唯一标识输入到联邦模型中,从而得到N个输出结果;其中,所述联邦模型是根据如上所述的联邦模型的构建方法构建得到的;N为大于或等于1的正整数;
对N个所述输出结果进行向量组合得到所述分期定价请求的分期响应率和分期服务费。
在一些可能的实现方式中,,所述向量组合包括:平均值组合、加权平均组合、投票组合或线性组合。
一种联邦模型的构建装置,所述装置包括:
第一获取单元,用于获取各个参与方的特征数据,并识别各个参与方共同的特征数据作为共同样本;
预处理单元,用于对所述特征数据进行预处理得到处理样本;
第二获取单元,用于获取建模标签和训练算法,并根据所述建模标签获取各个参与方的本地模型,其中,所述建模标签为模型训练的目标;
第一模型训练单元,用于将所述共同样本和所述处理样本输入到各个所述本地模型中,并基于去中心化的网络架构利用所述训练算法进行模型训练得到各个所述本地模型的模型训练参数和损失函数;
第二模型训练单元,用于利用所述模型训练参数和所述损失函数在各个所述本地模型中进行迭代训练得到各个所述本地模型的目标模型,将各个所述目标模型作为联邦模型。
一种分期数据的获取装置,所述装置包括:
第三获取单元,响应于接收到分期定价请求,用于获取所述分期定价请求携带的用户唯一标识;
输入单元,用于将所述用户唯一标识输入到联邦模型中,从而得到N个输出结果;其中,所述联邦模型是根据如上所述的联邦模型的构建方法构建得到的;N为大于或等于1的正整数;
组合单元,用于对N个所述输出结果进行向量组合得到所述分期定价请求的分期响应率和分期服务费。
一种联邦模型的构建设备,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权上所述的联邦模型模型的构建方法。
一种分期数据的获取设备,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上所述的分期数据的获取方法。
一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行如上所述的联邦模型模型的构建方法,或者执行如上所述的分期数据的获取方法。
本申请提供了一种联邦模型的构建方法、分期数据的获取方法及相关装置。具体地,在执行本申请实施例提供的联邦模型的构建方法时,首先可以获取各个参与方的特征数据,并识别各个参与方共同的特征数据作为共同样本,对特征数据进行预处理得到处理样本。接着,获取建模标签和训练算法,并根据建模标签获取各个参与方的本地模型,其中,建模标签为模型训练的目标。然后将共同样本和处理样本输入到各个本地模型中,并基于去中心化的网络架构利用训练算法进行模型训练得到各个地模型的模型训练参数和损失函数。再利用模型训练参数和损失函数在各个本地模型中进行迭代训练得到各个本地模型的目标模型,将各个目标模型作为联邦模型。本申请基于去中心化的网络架构利用训练算法并结合利用各个参与方的特征数据进行模型训练得到各个本地模型的模型训练参数和损失函数,再利用模型训练参数和损失函数在各个本地模型中进行迭代训练得到各个本地模型的目标模型,并将各个目标模型作为联邦模型,以此构建的联邦模型可以输出可信度更高的分期响应率,同时可以根据不同的客户推送不同的分期服务费,从而实现精准营销。
附图说明
为更清楚地说明本实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种联邦模型的构建方法的方法流程图;
图2为本申请实施例提供的一种分期数据的获取方法的方法流程图;
图3为本申请实施例提供的一种联邦模型的构建装置的结构示意图;
图4为本申请实施例提供的一种分期数据的获取装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为便于理解本申请实施例提供的技术方案,下面将先对本申请实施例涉及的背景技术进行说明。
分期响应率(Installment Response Rate)是指在金融领域中,对于一项分期付款计划或信贷产品,用户选择进行分期付款的比例或概率。它反映了用户对于分期付款选项的态度或倾向性,以及其愿意按时还款的可能性。分期响应率通常用于风险评估和信用评级等金融决策过程中。例如,在某个信贷产品的申请过程中,银行或金融机构可能会根据申请人的历史数据、信用记录、收入状况等因素来预测其分期响应率。这样可以帮助机构评估申请人是否具备按时还款的能力和意愿,从而决定是否批准贷款申请或提供更有利的分期付款条件。现有技术中的分期响应率一般基于行内数据分析,进行各个渠道营销:电话营销、手机银行营销等方法进行分期响应率统计,通过该方法进行分期响应率统计的数据过于单一,从而使得分期响应率可信度过低。此外,现有的信用卡分期服务费定价基本无法做到一客一价,无法根据不同客户的情况设置价格去吸引客户。
为了解决这一问题,在本申请实施例提供了一种联邦模型的构建方法、分期数据的获取方法及相关装置,先获取各个参与方的特征数据,并识别各个参与方共同的特征数据作为共同样本。然后对特征数据进行预处理得到处理样本,并获取建模标签和训练算法,根据建模标签获取各个参与方的本地模型,其中,建模标签为模型训练的目标。接着,将共同样本和处理样本输入到各个本地模型中,基于去中心化的网络架构利用训练算法进行模型训练得到各个本地模型的模型训练参数和损失函数。最后,利用模型训练参数和损失函数在各个本地模型中进行迭代训练得到各个本地模型的目标模型,将各个目标模型作为联邦模型。本申请基于去中心化的网络架构利用训练算法并结合利用各个参与方的特征数据进行模型训练得到各个本地模型的模型训练参数和损失函数,再利用模型训练参数和损失函数在各个本地模型中进行迭代训练得到各个本地模型的目标模型,并将各个目标模型作为联邦模型,以此构建的联邦模型可以输出可信度更高的分期响应率,同时可以根据不同的客户推送不同的分期服务费,从而实现精准营销。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参见图1,该图为本申请实施例提供的一种联邦模型的构建方法的方法流程图,如图1所示,该联邦模型的构建方法可以包括步骤S101-S105:
S101:获取各个参与方的特征数据,并识别各个参与方共同的特征数据作为共同样本。
为了构建联邦模型,联邦模型的构建系统首先需要获取各个参与方的特征数据,并识别各个参与方共同的特征数据作为共同样本。
举例来说,例1:假设有A和B两个参与方。参与方A是银行,参与方B是京东。参与方A特征数据:资产、分期、征信、还款、代发薪等维度数据。参与方B特征数据:购物行为、分期行为、支付行为、理财行为等数据。那么他们的共同样本即为支付行为。
S102:对所述特征数据进行预处理得到处理样本。
在获取各个参与方的特征数据,并识别各个参与方共同的特征数据作为共同样本之后,联邦模型的构建系统则可以对特征数据进行预处理得到处理样本。
在一些可能的实现方式中,所述对所述特征数据进行预处理得到处理样本,包括:
对所述特征数据进行数据源梳理、数据清洗、异常值处理以及特征工程。
其中,数据源梳理:首先需要了解数据的来源和组织形式。确定数据的存储位置、数据类型、数据格式等信息,并进行数据源的整理和准备。
数据清洗:数据清洗是指对原始数据进行处理,去除重复值、缺失值、错误数据等。这可以通过填充缺失值、删除无用数据、修复错误数据等方法来实现。
异常值处理:异常值是指与其他样本明显不同的观测点,可能是由于测量误差、录入错误或其他原因引起的。异常值可能会影响模型的训练和性能。可以使用统计方法或基于领域知识的方法来检测和处理异常值。常见的方法包括删除异常值、替换为合理值、使用插值方法填充等。
特征工程:特征工程是指从原始数据中提取有用的特征,以供机器学习模型使用。这包括选择适当的特征子集、创建新的特征、进行特征缩放、进行编码转换等操作。特征工程的目标是提高模型性能和泛化能力。
此外,在进行数据预处理时,需要注意以下几点:①数据质量:确保数据的准确性、完整性和一致性,以及合理处理缺失值和异常值。②特征选择:选择与目标变量相关的特征,并剔除冗余或无关的特征,以降低维度和噪声的影响。③预处理流程复用:将数据预处理步骤整合为一个可复用的流程,并在后续的实验和部署中进行重复使用。
数据预处理是机器学习任务中至关重要的一步,它能够提升模型的性能和泛化能力,减少错误和不确定性。因此,合理有效地进行数据源梳理、数据清洗、异常值处理和特征工程对联邦模型的成功应用至关重要。
S103:获取建模标签和训练算法,并根据建模标签获取各个参与方的本地模型,其中,所述建模标签为模型训练的目标。
在得到处理样本之后,联邦模型的构建系统还需要获取建模标签和训练算法,并根据建模标签获取各个参与方的本地模型。其中,建模标签为模型训练的目标。
其中,训练算法由隐私计算平台提供。建模标签由众多参数方中的一个参数方提供。
在一些可能的实现方式中,所述建模标签为分期响应率标签。
在一些可能的实现方式中,训练算法可以采用随机森林、Xgboost、GBDT、lightGBM等算法。
S104:将所述共同样本和所述处理样本输入到各个所述本地模型中,并基于去中心化的网络架构利用所述训练算法进行模型训练得到各个所述本地模型的模型训练参数和损失函数。
在得到共同样本、处理样本、建模标签、训练算法和本地模型之后,联邦模型的构建系统则可以将共同样本和处理样本输入到各个本地模型中,并基于去中心化的网络架构利用训练算法进行模型训练得到各个本地模型的模型训练参数和损失函数。
S105:利用所述模型训练参数和所述损失函数在各个所述本地模型中进行迭代训练得到各个所述本地模型的目标模型,将各个所述目标模型作为联邦模型。
在得到本地模型的模型训练参数和损失函数之后,联邦模型的构建系统则可以利用模型训练参数和损失函数在各个本地模型中进行迭代训练得到各个本地模型的目标模型,将各个目标模型作为联邦模型。
举例来说,假设有两个参与方a和b,参与方a基于本地数据计算模型训练参数和损失函数,然后加密传输给参与方b,假设b是持有建模标签的一方,b基于a传输的参数和中间结果在本地数据的基础上运算,计算梯度信息,并更新本地模型,然后b将模型参数和中间结果再传输给a,如此循环,直到参与方b计算出的损失收敛或者达到设定的训练时间或轮次。
其中,每个参与方使用安全链路在相互之间传输模型训练参数和损失函数,为了保证任意两方之间的通信安全,需要使用加密机制,比如基于公共秘钥的加密方法等。
基于S101-S105的内容可知,先获取各个参与方的特征数据,并识别各个参与方共同的特征数据作为共同样本,对特征数据进行预处理得到处理样本。接着,获取建模标签和训练算法,根据建模标签获取各个参与方的本地模型,其中,建模标签为模型训练的目标。再将共同样本和处理样本输入到各个本地模型中,并基于去中心化的网络架构利用训练算法进行模型训练得到各个本地模型的模型训练参数和损失函数。最后,利用模型训练参数和损失函数在各个本地模型中进行迭代训练得到各个本地模型的目标模型,将各个目标模型作为联邦模型。本申请基于去中心化的网络架构利用训练算法并结合利用各个参与方的特征数据进行模型训练得到各个本地模型的模型训练参数和损失函数,再利用模型训练参数和损失函数在各个本地模型中进行迭代训练得到各个本地模型的目标模型,并将各个目标模型作为联邦模型,以此构建的联邦模型可以输出可信度更高的分期响应率,同时可以根据不同的客户推送不同的分期服务费,从而实现精准营销。
基于上述提供的分期数据的获取模型的训练方法的实施例,本申请实施例还提供了一种分期数据的获取方法。参见图2,图2为本申请实施例提供的一种分期数据的获取方法的方法流程图。如图2所示,该方法包括S201-S203:
S201:响应于接收到分期定价请求,获取所述分期定价请求携带的用户唯一标识。
在利用联邦模型进行分期数据的获取时,首先分期数据的获取系统需要在接收到分期定价请求,获取分期定价请求携带的用户唯一标识。
在一些可能的实现方式中,用户唯一标识可以是但不限于手机号或身份证号等。
S202:将所述用户唯一标识输入到联邦模型中,从而得到N个输出结果;其中,所述联邦模型是根据如上所述的联邦模型的构建方法构建得到的;N为大于或等于1的正整数。
在获取到分期定价请求携带的用户唯一标识之后,分期数据的获取系统则可以将用户唯一标识输入到联邦模型中,从而得到N个输出结果;其中,联邦模型是根据如上所述的联邦模型的构建方法构建得到的。N为大于或等于1的正整数。
S203:对N个所述输出结果进行向量组合得到所述分期定价请求的分期响应率和分期服务费。
在利用联邦模型得到N个输出结果之后,分期数据的获取系统则可以对N个所述输出结果进行向量组合得到所述分期定价请求的分期响应率和分期服务费。
在一些可能的实现方式中,联邦学习中的联邦模型可以通过对各个模型的输出数据进行向量组合来生成综合的结果。在联邦学习框架中,每个参与方(本地设备)拥有自己的局部模型,并使用本地数据进行训练。当需要生成全局模型的预测结果时,可以使用以下方法对各个模型的输出数据进行向量组合:①平均值组合:将各个模型的输出向量按照相同的权重进行平均。这种方法简单且易于实现,可以通过计算所有模型输出向量的平均值得到最终结果。②加权平均组合:为每个模型分配不同的权重,并将各个模型的输出向量按照权重进行加权平均。这些权重可以根据模型的性能或可信度进行设置。③投票组合:针对分类问题,可以使用投票组合的方式。通过将各个模型的输出看作投票意见(如类别标签),计算得票最多的类别作为最终预测结果。④线性组合:使用线性组合的方式将各个模型的输出向量按照一定的权重进行线性组合。这种方法可以根据具体应用场景和需求,通过调整权重来实现更灵活的组合方式。
在进行向量组合时,需要注意各个模型输出向量的维度和数据类型一致,以确保组合的有效性。此外,根据具体任务和数据特点,也可以采用其他更复杂的组合策略,如集成学习方法(如随机森林、梯度提升树)等,来进一步提升组合结果的准确性和鲁棒性。
基于上述S201-S203的内容可知,利用练完成的联邦模型和用户唯一标识进行数据清算得到清算报文。利用清算模型对经过数据转换和预处理的清算核心银行数据进行分期数据的计算得到清算报文分期响应率和分期服务费。本申请利用联邦模型进行分期数据的获取,当某个参与方发起某一客户分期定价请求时,只需要将该用户的唯一标识加密传输给联邦模型的各个目标模型,各个目标模型联合协作输出客户的分期响应率和分期服务费给发起方。
参见图3,图3为本申请实施例提供的一种联邦模型的构建装置的结构示意图。如图3所示,该联邦模型的构建装置包括:
第一获取单元301,用于获取各个参与方的特征数据,并识别各个参与方共同的特征数据作为共同样本。
举例来说,例1:假设有A和B两个参与方。参与方A是银行,参与方B是京东。参与方A特征数据:资产、分期、征信、还款、代发薪等维度数据。参与方B特征数据:购物行为、分期行为、支付行为、理财行为等数据。那么他们的共同样本即为支付行为。
预处理单元302,用于对所述特征数据进行预处理得到处理样本。
在一些可能的实现方式中,所述预处理单元具体用于:
对所述特征数据进行数据源梳理、数据清洗、异常值处理以及特征工程。
其中,数据源梳理:首先需要了解数据的来源和组织形式。确定数据的存储位置、数据类型、数据格式等信息,并进行数据源的整理和准备。
数据清洗:数据清洗是指对原始数据进行处理,去除重复值、缺失值、错误数据等。这可以通过填充缺失值、删除无用数据、修复错误数据等方法来实现。
异常值处理:异常值是指与其他样本明显不同的观测点,可能是由于测量误差、录入错误或其他原因引起的。异常值可能会影响模型的训练和性能。可以使用统计方法或基于领域知识的方法来检测和处理异常值。常见的方法包括删除异常值、替换为合理值、使用插值方法填充等。
特征工程:特征工程是指从原始数据中提取有用的特征,以供机器学习模型使用。这包括选择适当的特征子集、创建新的特征、进行特征缩放、进行编码转换等操作。特征工程的目标是提高模型性能和泛化能力。
此外,在进行数据预处理时,需要注意以下几点:①数据质量:确保数据的准确性、完整性和一致性,以及合理处理缺失值和异常值。②特征选择:选择与目标变量相关的特征,并剔除冗余或无关的特征,以降低维度和噪声的影响。③预处理流程复用:将数据预处理步骤整合为一个可复用的流程,并在后续的实验和部署中进行重复使用。
数据预处理是机器学习任务中至关重要的一步,它能够提升模型的性能和泛化能力,减少错误和不确定性。因此,合理有效地进行数据源梳理、数据清洗、异常值处理和特征工程对联邦模型的成功应用至关重要。
第二获取单元303,用于获取建模标签和训练算法,并根据所述建模标签获取各个参与方的本地模型,其中,所述建模标签为模型训练的目标。
其中,训练算法由隐私计算平台提供。建模标签由众多参数方中的一个参数方提供。
在一些可能的实现方式中,所述建模标签为分期响应率标签。
在一些可能的实现方式中,训练算法可以采用随机森林、Xgboost、GBDT、lightGBM等算法。
第一模型训练单元304,用于将所述共同样本和所述处理样本输入到各个所述本地模型中,并基于去中心化的网络架构利用所述训练算法进行模型训练得到各个所述本地模型的模型训练参数和损失函数。
第二模型训练单元305,用于利用所述模型训练参数和所述损失函数在各个所述本地模型中进行迭代训练得到各个所述本地模型的目标模型,将各个所述目标模型作为联邦模型。
举例来说,假设有两个参与方a和b,参与方a基于本地数据计算模型训练参数和损失函数,然后加密传输给参与方b,假设b是持有建模标签的一方,b基于a传输的参数和中间结果在本地数据的基础上运算,计算梯度信息,并更新本地模型,然后b将模型参数和中间结果再传输给a,如此循环,直到参与方b计算出的损失收敛或者达到设定的训练时间或轮次。
其中,每个参与方使用安全链路在相互之间传输模型训练参数和损失函数,为了保证任意两方之间的通信安全,需要使用加密机制,比如基于公共秘钥的加密方法等。
本申请实施例提供了一种联邦模型的构建装置,在第一获取单元301获取各个参与方的特征数据,并识别各个参与方共同的特征数据作为共同样本之后,预处理单元302对特征数据进行预处理得到处理样本。然后第二获取单元303获取建模标签和训练算法,并根据建模标签获取各个参与方的本地模型,其中,所述建模标签为模型训练的目标。接着第一模型训练单元304将共同样本和处理样本输入到各个本地模型中,并基于去中心化的网络架构利用训练算法进行模型训练得到各个本地模型的模型训练参数和损失函数,以使第二模型训练单元305可以利用模型训练参数和损失函数在各个本地模型中进行迭代训练得到各个本地模型的目标模型,将各个目标模型作为联邦模型。本申请基于去中心化的网络架构利用训练算法并结合利用各个参与方的特征数据进行模型训练得到各个本地模型的模型训练参数和损失函数,再利用模型训练参数和损失函数在各个本地模型中进行迭代训练得到各个本地模型的目标模型,并将各个目标模型作为联邦模型,以此构建的联邦模型可以输出可信度更高的分期响应率,同时可以根据不同的客户推送不同的分期服务费,从而实现精准营销。
参见图4,图4为本申请实施例提供的一种分期数据的获取装置的结构示意图。如图4所示,该分期数据的获取装置包括:
第三获取单元401,响应于接收到分期定价请求,用于获取所述分期定价请求携带的用户唯一标识。
在一些可能的实现方式中,用户唯一标识可以是但不限于手机号或身份证号等。
输入单元402,用于将所述用户唯一标识输入到联邦模型中,从而得到N个输出结果;其中,所述联邦模型是根据权利要求1-3任一项所述的联邦模型的构建方法构建得到的;N为大于或等于1的正整数;
组合单元403,用于对N个所述输出结果进行向量组合得到所述分期定价请求的分期响应率和分期服务费。
在一些可能的实现方式中,联邦学习中的联邦模型可以通过对各个模型的输出数据进行向量组合来生成综合的结果。在联邦学习框架中,每个参与方(本地设备)拥有自己的局部模型,并使用本地数据进行训练。当需要生成全局模型的预测结果时,可以使用以下方法对各个模型的输出数据进行向量组合:①平均值组合:将各个模型的输出向量按照相同的权重进行平均。这种方法简单且易于实现,可以通过计算所有模型输出向量的平均值得到最终结果。②加权平均组合:为每个模型分配不同的权重,并将各个模型的输出向量按照权重进行加权平均。这些权重可以根据模型的性能或可信度进行设置。③投票组合:针对分类问题,可以使用投票组合的方式。通过将各个模型的输出看作投票意见(如类别标签),计算得票最多的类别作为最终预测结果。④线性组合:使用线性组合的方式将各个模型的输出向量按照一定的权重进行线性组合。这种方法可以根据具体应用场景和需求,通过调整权重来实现更灵活的组合方式。
在进行向量组合时,需要注意各个模型输出向量的维度和数据类型一致,以确保组合的有效性。此外,根据具体任务和数据特点,也可以采用其他更复杂的组合策略,如集成学习方法(如随机森林、梯度提升树)等,来进一步提升组合结果的准确性和鲁棒性。
本申请实施例提供了一种分期数据的获取装置,当接收到分期定价请求时第三获取单元401获取所述分期定价请求携带的用户唯一标识,然后输入单元402将用户唯一标识输入到联邦模型中,从而得到N个输出结果;其中,联邦模型是如上所述的联邦模型的构建方法构建得到的;N为大于或等于1的正整数。最后组合单元403对N个输出结果进行向量组合得到分期定价请求的分期响应率和分期服务费。本申请利用联邦模型进行分期数据的获取,当某个参与方发起某一客户分期定价请求时,只需要将该用户的唯一标识加密传输给联邦模型的各个目标模型,各个目标模型联合协作输出客户的分期响应率和分期服务费给发起方。
以上对本申请所提供的一种联邦模型的构建方法、分期数据的获取方法及相关装置进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
需要说明的是,本发明提供的联邦模型的构建方法、分期数据的获取方法及相关装置可用于人工智能领域或金融领域,上述仅为示例,并不对本发明提供的联邦模型的构建方法、分期数据的获取方法及相关装置的应用领域进行限定。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种联邦模型的构建方法,其特征在于,所述方法包括:
获取各个参与方的特征数据,并识别各个参与方共同的特征数据作为共同样本;
对所述特征数据进行预处理得到处理样本;
获取建模标签和训练算法,并根据所述建模标签获取各个参与方的本地模型,其中,所述建模标签为模型训练的目标;
将所述共同样本和所述处理样本输入到各个所述本地模型中,并基于去中心化的网络架构利用所述训练算法进行模型训练得到各个所述本地模型的模型训练参数和损失函数;
利用所述模型训练参数和所述损失函数在各个所述本地模型中进行迭代训练得到各个所述本地模型的目标模型,将各个所述目标模型作为联邦模型。
2.根据权利要求1所述的方法,其特征在于,所述对所述特征数据进行预处理得到处理样本,包括:
对所述特征数据进行数据源梳理、数据清洗、异常值处理以及特征工程。
3.根据权利要求1所述的方法,其特征在于,所述建模标签为分期响应率标签。
4.一种分期数据的获取方法,其特征在于,所述方法包括:
响应于接收到分期定价请求,获取所述分期定价请求携带的用户唯一标识;
将所述用户唯一标识输入到联邦模型中,从而得到N个输出结果;其中,所述联邦模型是根据权利要求1-3任一项所述的联邦模型的构建方法构建得到的;N为大于或等于1的正整数;
对N个所述输出结果进行向量组合得到所述分期定价请求的分期响应率和分期服务费。
5.根据权利要求4所述的方法,其特征在于,所述向量组合包括:平均值组合、加权平均组合、投票组合或线性组合。
6.一种联邦模型的构建装置,其特征在于,所述装置包括:
第一获取单元,用于获取各个参与方的特征数据,并识别各个参与方共同的特征数据作为共同样本;
预处理单元,用于对所述特征数据进行预处理得到处理样本;
第二获取单元,用于获取建模标签和训练算法,并根据所述建模标签获取各个参与方的本地模型,其中,所述建模标签为模型训练的目标;
第一模型训练单元,用于将所述共同样本和所述处理样本输入到各个所述本地模型中,并基于去中心化的网络架构利用所述训练算法进行模型训练得到各个所述本地模型的模型训练参数和损失函数;
第二模型训练单元,用于利用所述模型训练参数和所述损失函数在各个所述本地模型中进行迭代训练得到各个所述本地模型的目标模型,将各个所述目标模型作为联邦模型。
7.一种分期数据的获取装置,其特征在于,所述装置包括:
第三获取单元,响应于接收到分期定价请求,用于获取所述分期定价请求携带的用户唯一标识;
输入单元,用于将所述用户唯一标识输入到联邦模型中,从而得到N个输出结果;其中,所述联邦模型是根据权利要求1-3任一项所述的联邦模型的构建方法构建得到的;N为大于或等于1的正整数;
组合单元,用于对N个所述输出结果进行向量组合得到所述分期定价请求的分期响应率和分期服务费。
8.一种联邦模型的构建设备,其特征在于,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-3任一项所述的联邦模型模型的构建方法。
9.一种分期数据的获取设备,其特征在于,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求4或5任一项所述的分期数据的获取方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行如权利要求1-3任一项所述的联邦模型模型的构建方法,或者执行如权利要求4或5所述的分期数据的获取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310919790.2A CN116934371A (zh) | 2023-07-25 | 2023-07-25 | 联邦模型的构建方法、分期数据的获取方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310919790.2A CN116934371A (zh) | 2023-07-25 | 2023-07-25 | 联邦模型的构建方法、分期数据的获取方法及相关装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116934371A true CN116934371A (zh) | 2023-10-24 |
Family
ID=88378741
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310919790.2A Pending CN116934371A (zh) | 2023-07-25 | 2023-07-25 | 联邦模型的构建方法、分期数据的获取方法及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116934371A (zh) |
-
2023
- 2023-07-25 CN CN202310919790.2A patent/CN116934371A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6913241B2 (ja) | 信用力があると判定された消費者にローンを発行するシステムおよび方法 | |
CN110263024B (zh) | 数据处理方法、终端设备及计算机存储介质 | |
US11170395B2 (en) | Digital banking platform and architecture | |
CN110443700A (zh) | 利用机器学习进行优化的跨区块货币交易 | |
CN111667267B (zh) | 一种区块链交易风险识别方法及装置 | |
CN111178219A (zh) | 票据识别管理方法、装置、存储介质及电子设备 | |
US11068885B2 (en) | Method and system for deanomymizing cryptocurrency users by analyzing bank transfers to a cryptocurrency exchange | |
WO2020073727A1 (zh) | 风险预测方法、装置、计算机设备和存储介质 | |
CN107784577A (zh) | 一种信贷产品分发及推荐方法和实现该方法的系统 | |
CN117422553A (zh) | 区块链网络的交易处理方法、装置、设备、介质和产品 | |
CN111245815B (zh) | 数据处理方法、装置、存储介质及电子设备 | |
CN111681044A (zh) | 积分兑换作弊行为处理方法及装置 | |
CN117094764A (zh) | 银行积分处理方法及装置 | |
CN112541765A (zh) | 用于检测可疑交易的方法和装置 | |
CN110619564B (zh) | 一种反欺诈特征生成方法和装置 | |
CN116645134A (zh) | 一种信用卡分期的推荐方法、装置、设备及介质 | |
CN116934371A (zh) | 联邦模型的构建方法、分期数据的获取方法及相关装置 | |
CN114723239A (zh) | 一种多方协同建模方法、装置、设备、介质及程序产品 | |
CN114493850A (zh) | 基于人工智能的在线公证方法、系统及存储介质 | |
CN114493686A (zh) | 一种运营内容生成推送方法及装置 | |
Malakani et al. | Trading 4.0: An online peer-to-peer money lending platform | |
Mendes | Forecasting bitcoin prices: ARIMA vs LSTM | |
US20220138712A1 (en) | Methods and Systems For Rendering Early Access To Paychecks | |
Maluleke | Trading 4.0: An Online Peer-to-Peer Money Lending Platform | |
CN116975160A (zh) | 交易数据处理方法、装置、设备、介质和产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |