CN114997419A - 评分卡模型的更新方法、装置、电子设备及存储介质 - Google Patents
评分卡模型的更新方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114997419A CN114997419A CN202210838265.3A CN202210838265A CN114997419A CN 114997419 A CN114997419 A CN 114997419A CN 202210838265 A CN202210838265 A CN 202210838265A CN 114997419 A CN114997419 A CN 114997419A
- Authority
- CN
- China
- Prior art keywords
- loss value
- coding
- similarity
- feature
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000003860 storage Methods 0.000 title claims abstract description 18
- 238000007477 logistic regression Methods 0.000 claims abstract description 27
- 239000013598 vector Substances 0.000 claims abstract description 14
- 238000006243 chemical reaction Methods 0.000 claims abstract description 13
- 230000010354 integration Effects 0.000 claims description 3
- 238000000926 separation method Methods 0.000 claims 2
- 238000000638 solvent extraction Methods 0.000 claims 1
- 230000000694 effects Effects 0.000 description 16
- 238000004891 communication Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 239000000047 product Substances 0.000 description 3
- 238000009826 distribution Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 208000031434 Device end of service Diseases 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 238000012954 risk control Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种评分卡模型的更新方法、装置、电子设备及存储介质,所述方法包括:对输入样本进行特征编码和数据分桶,获得第一编码特征和对应的分桶ID;对所述分桶ID进行embedding向量化处理,获得分桶向量;对所述分桶向量进行MLP转换,获得第二编码特征;根据所述第一编码特征和所述第二编码特征进行相似度比较,确定相似度损失值;根据所述第二编码特征进行逻辑回归预测,确定分类损失值;对所述相似度损失值和所述分类损失值进行整合,获得多任务学习损失值;通过多任务损失值对评分卡模型进行更新,获得更新后的评分卡模型,应用本方法,能够提升基于逻辑回归的评分卡模型在分类问题预测上的准确性。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种评分卡模型的更新方法、装置、电子设备及存储介质。
背景技术
评分卡模型的原理是基于逻辑回归机器学习算法转换来的,而逻辑回归机器学习算法本质上作为一个线性模型,在呈现线性关系的数据上会有更好的表现。为了使逻辑回归机器学习算法产生不错的效果,评分卡模型对输入样本做线性变换让经过转换的输入样本与目标值之间尽可能呈现线性关系。然而在实际应用中,仍然有一些特征经过线性变换之后存在非线性,对逻辑回归机器学习算法的学习带来负面影响。
发明内容
本申请提供了一种评分卡模型的更新方法、装置、电子设备及存储介质,以至少解决现有技术中存在的以上技术问题。
根据本申请实施例的第一方面,提供了一种评分卡模型的更新方法,所述方法包括:对输入样本进行特征编码和数据分桶,获得第一编码特征和对应的分桶ID;对所述分桶ID进行embedding向量化处理,获得分桶向量;对所述分桶向量进行MLP转换,获得第二编码特征;根据所述第二编码特征进行逻辑回归预测,确定分类损失值;根据所述第一编码特征和所述第二编码特征进行相似度比较,确定相似度损失值;对所述相似度损失值和所述分类损失值进行整合,获得多任务学习损失值;通过多任务损失值对模型进行更新,获得更新后的评分卡模型。
在一可实施方式中,所述对输入样本进行特征编码和数据分桶,获得第一编码特征和对应的分桶ID,包括:对所述输入样本进行WOE编码,获得所述第一编码特征;根据所述输入样本对所述第一编码特征进行分桶,获得分桶ID。
在一可实施方式中,根据所述第二编码特征进行逻辑回归预测,确定分类损失值,包括:根据所述第二编码特征进行逻辑回归预测,获得预测分类信息;根据所述预测分类信息和真实分类信息确定所述分类损失值。
在一可实施方式中,根据所述第一编码特征和所述第二编码特征进行相似度比较,确定相似度损失值,包括:对所述第一编码特征和所述第二编码特征进行比较,确定特征比较值;根据所述预测分类信息与所述真实分类信息进行比较,确定相似度权重;根据所述相似度权重和所述特征比较值确定相似度损失值。
在一可实施方式中,根据所述预测分类信息与真实分类信息进行比较,确定相似度权重,包括:根据所述预测分类信息与真实分类信息确定预测偏差值;根据所述预测偏差值确定所述相似度权重,其中,所述预测偏差值与所述相似度权重呈正比。
根据本申请实施例的第二方面,提供了一种评分卡模型的更新装置,所述装置包括:编码分桶模块,用于对输入样本进行特征编码和数据分桶,获得第一编码特征和对应的分桶ID;向量化模块,用于对所述分桶ID进行embedding向量化处理,获得分桶向量;转换模块,用于对所述分桶向量进行MLP转换,获得第二编码特征;预测模块,用于根据所述第二编码特征进行逻辑回归预测,确定分类损失值;比较模块,用于根据所述第一编码特征和所述第二编码特征进行相似度比较,确定相似度损失值;整合模块,用于对所述相似度损失值和所述分类损失值进行整合,获得多任务学习损失值;更新模块,用于通过多任务损失值对模型进行更新,获得更新后的评分卡模型。
在一可实施方式中,所述编码分桶模块,包括:编码子模块,用于对所述输入样本进行WOE编码,获得所述第一编码特征;分桶子模块,用于根据所述输入样本对所述第一编码特征进行分桶,获得分桶ID。
在一可实施方式中,所述预测模块,包括:预测子模块,用于根据所述第二编码特征进行逻辑回归预测,获得预测分类信息;第一确定子模块,用于根据所述预测分类信息和真实分类信息确定所述分类损失值。
在一可实施方式中,所述比较模块,包括:比较子模块,用于对所述第一编码特征和所述第二编码特征进行比较,确定特征比较值;所述比较子模块,还用于根据所述预测分类信息与所述真实分类信息进行比较,确定相似度权重;第二确定子模块,用于根据所述相似度权重和所述特征比较值确定相似度损失值;所述比较子模块,包括:根据所述预测分类信息与真实分类信息确定预测偏差值;根据所述预测偏差值确定所述相似度权重,其中,所述预测偏差值与所述相似度权重呈正比。
根据本申请实施例的第三方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请所述的方法。
根据本申请实施例的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本申请所述的方法。
本申请实施例提供的一种评分卡模型的更新方法、装置、设备及存储介质,通过特征编码挖掘线性特征,并通过对分桶ID做embedding向量化,利用相似度损失值在保留已有的线性特征的同时,可以挖掘非线性特征中的线性关系,并引入多任务学习机制整合多任务损失值对模型进行更新,不仅提高模型对每个任务的学习效果还提升每个任务的健壮性和泛化能力。
应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
通过参考附图阅读下文的详细描述,本申请示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本申请的若干实施方式,其中:
在附图中,相同或对应的标号表示相同或对应的部分。
图1示出了本申请实施例一种评分卡模型的更新方法的整体流程示意图;
图2示出了本申请实施例一种评分卡模型的更新方法的实施流程示意图;
图3示出了本申请实施例评分卡模型的更新装置的实现模块示意图;
图4示出了本申请实施例一种电子设备的组成结构示意图。
具体实施方式
为使本申请的目的、特征、优点能够更加的明显和易懂,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而非全部实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1示出了本申请实施例一种评分卡模型的更新方法的整体流程示意图;图2示出了本申请实施例一种评分卡模型的更新方法的实施流程示意图;
参见图1和图2,根据本申请实施例的第一方面,提供了一种评分卡模型的更新方法,方法包括:操作101,对输入样本进行特征编码和数据分桶,获得第一编码特征和对应的分桶ID;操作102,对分桶ID进行embedding向量化处理,获得分桶向量;操作103,对分桶向量进行MLP转换,获得第二编码特征;操作104,根据第二编码特征进行逻辑回归预测,确定分类损失值;操作105,根据第一编码特征和第二编码特征进行相似度比较,确定相似度损失值;操作106,对相似度损失值和分类损失值进行整合,获得多任务学习损失值;操作107,通过多任务损失值对评分卡模型进行更新,获得更新后的评分卡模型。
本申请实施例提供的一种评分卡模型的更新方法,通过编码挖掘线性特征,并通过对分桶ID做embedding向量化,利用相似度损失值在保留已有的线性特征的同时,可以挖掘非线性特征中的线性关系,并引入多任务学习机制整合多任务损失值对模型进行更新,不仅提高模型对每个任务的学习效果还提升每个任务的健壮性和泛化能力。
在本方法操作101中,根据评分卡模型的应用场景,输入样本为与对应应用领域对应的样本。例如,当评分卡模型应用于医疗分析的场景中,输入样本可以包含患者医疗数据;当评分卡模型应用于设备损耗分析的场景中,输入样本可以包含设备初始参数和损耗信息;当评分卡模型应用于生产过程中的生产产品质量分析的场景中,输入样本可以包含生产过程中的产品原料参数和生产参数;当评分卡模型应用于风险控制的情况下,输入样本可以包括对应的风险参数。
输入样本可以通过对原始数据进行整合获得,例如,通过整合患者的电子病历确定用于医疗分析的输入样本;通过设备说明书确定用于设备分析的输入样本;通过用户填写信息采集表确定用于风险分析的输入样本。需要理解的是,根据上述输入样本的特点可知,一个输入样本可以对应多个参数,即一个输入样本可以包含多个不同维度的特征。例如,每一个医疗分析样本中,可以包含患者的年龄特征、性别特征、病情特征、用药特征等;每一个设备分析样本中,可以包含设备的使用年限特征、报废年限特征、重量特征、零部件特征等。
本方法对输入样本的每一个特征进行特征编码和数据分桶,从而得到针对每一个特征的第一编码特征和每一个特征所属的分桶ID,通过数据分桶,使第一编码特征离散化。其中,特征编码可以为WOE编码。
在本方法操作102至操作104中,通过对分桶ID进行embedding向量化处理和MLP转换,从而能够将分桶ID转换为对应每一特征的第二编码特征,利用embedding向量化对分桶ID进行表征,可以学习分桶ID之间的潜在关系,并利用第二编码特征进行逻辑回归预测,从而确定对应的预测分类信息,可以根据与输入样本对应的真实标签信息确定与预测分类信息对应的分类损失值。
在本方法操作102至操作105中,通过MLP转换使第二编码特征与第一编码特征维度一致,以实现第一编码特征和第二编码特征的相似度比较。通过相似度比较可以获得对应的相似度损失值,本方法还可以将预测分类信息引入相似度比较中,从而可以通过相似度比较确定根据第二编码特征进行分类得到的分类效果好的输入样本,从而能够确定需要重点关注的输入样本,具体的,本申请可以对相似度损失值进行设计:使利用第二编码特征进行分类,得到的分类效果较好的输入样本对应的相似度损失值较小;使利用第二编码特征进行分类,得到的分类效果较差的相似度损失值较大,即本申请的相似度损失值与分类效果的好坏呈反比。
根据上述描述可知,本方法通过操作102至操作105使评分卡模型进行相似度学习任务,通过操作102至操作104使评分卡模型进行分类任务,即模型引入了多任务学习机制,能够学习相似度比较任务,以挖掘线性特征,并且能够进行分类任务,以学习对输入样本的分类。
通过操作106至操作107,本方法将相似度损失值和分类损失值进行整合,能够获得多任务学习损失值,并利用多任务学习损失值对评分卡模型进行优化。
具体的,本方法可以利用超参数对似度损失值和分类损失值进行整合,具体的多任务学习损失值计算公式如下:
其中,用于表征多任务学习损失值,用于表征相似度损失值,用
于表征分类损失值,其中和是超参数,可以在模型训练过程中调整。通过引入多任务学
习,一方面使得分类任务和相似度学习任务相辅相成,分类任务的学习效果可以以权重形
式作用于相似度学习任务,使得相似度学习任务可以学习非线性特征中的线性关系,相似
度学习任务将学习到的新线性特征输入到分类任务中提高分类效果,两者互相作用,最终
实现提高评分卡模型的预测准确率。
另外,多任务学习模型可以提高模型的健壮性和泛化性能,如果只学习分类任务要承担对分类任务的过拟合的风险,然而同时学习分类任务和相似度学习任务可以对噪音模式进行平均,可以使得模型获得更好的表示。
不仅可以提高每个任务的效果还可以提高每个模型的健壮性和泛化能力,从而消除特征编码后呈现非线性对逻辑回归机器学习算法的学习带来负面影响,使得基于逻辑回归的评分卡模型具有较高的准确率。
在一可实施方式中,操作101,对输入样本进行特征编码和数据分桶,获得第一编码特征和对应的分桶ID,包括:首先,对输入样本进行WOE编码,获得第一编码特征;然后,根据输入样本对第一编码特征进行分桶,获得分桶ID。
具体的,本方法对输入样本的每个原始特征进行WOE编码,从而挖掘输入样本中每个特征的第一编码特征,即线性特征。并利用输入样本对应的原始特征之间的差异对第一编码特征进行分桶处理,确定与每一个第一编码特征对应的分桶ID。从而使ID数值较远的分桶ID之间的原始特征差异性大于ID数值较近的分桶ID之间的原始特征差异性。例如,存在分桶ID为:ID1、ID2、ID3,存在原始特征为:10、15、20、40、35,存在与原始特征对应的编码特征:与原始特征“10”对应的编码1、与原始特征“15”对应的编码2、与原始特征“20”对应的编码3、与原始特征“25”对应的编码4、与原始特征“40”对应的编码5、与原始特征“35”对应的编码6,本方法可以将编码1和编码2分桶至ID1,将编码3和编码4分桶至ID2,将编码5和编码6分桶至ID3,从而使ID1和ID2所代表的原始特征数据更加接近,ID1和ID3所代表的原始特征数据差异性较大。
在一可实施方式中,操作105,根据第一编码特征和第二编码特征进行相似度比较,确定相似度损失值,包括:首先,对第一编码特征和第二编码特征进行比较,确定特征比较值;然后,根据预测分类信息与真实分类信息进行比较,确定相似度权重;再后,根据相似度权重和特征比较值确定相似度损失值。
需要理解的是,WOE编码针对原始特征的一种编码方式,embedding向量化是针对原始特征的另一种编码方式,Woe编码能够使得原始特征变得线性,因此,通过对分桶ID进行embedding向量化,并结果MLP转换,获得第二编码特征,并通过对原始特征进行WOE编码获得第一编码特征,通过对第一编码特征和第二编码特征做相似度计算,从而能够经过多次迭代使模型在保留WOE编码的线性特征的同时,从特征的非线性关系中学习线性关系,以提高模型学习线性关系的能力,从而提高分类效果。预测分类信息具体用于指代预测分类概率。
在一可实施方式中,根据预测分类信息与真实分类信息进行比较,确定相似度权重,包括:首先,根据预测分类信息与真实分类信息确定预测偏差值;然后,根据预测偏差值确定相似度权重,其中,预测偏差值与相似度权重呈正比。
相似度损失值通过预测分类信息与真实分类信息进行比较确定。其中,通过对第二编码特征进行逻辑回归预测可以确定预测分类信息,通过对输入样本进行标签标记可以确定真实分类信息。通过预测分类信息与真实分类信息进行比较,可以确定评分卡模型利用第二编码特征对输入样本进行分类的分类结果。即,预测分类信息与真实分类信息之间的预测偏差值越大,利用第二编码特征对输入样本进行分类的分类结果差;预测分类信息与真实分类信息之间的预测偏差值越小,利用第二编码特征对输入样本进行分类的分类结果好。为实现该目的,本申请可以根据预测偏差值确定相似度权重,通过相似度权重与特征比较值进行整合,以获得能够使模型重点关注分类效果差的输入样本的相似度损失值。
以下提供一种具体实施场景进行说明,以方便理解相似度损失值。
本申请的相似度损失值对应的损失函数为:
其中,loss1用于表征每一个输入样本对应的相似度损失值;n用于表征每一个输
入样本对应的原始特征总数量; 用于表征真实分类信息,即真实标签,通常通过0或1进
行表征;用于表征预测分类信息,即通过逻辑回归预测获得的预测结果,通常表征为
0~1之间的任一值;用于表征针对特征a的第一编码特征;用于表征针对特征a的第二
编码特征;
对应的,用于表征相似度特征比较值; 用于表征相似度权重。通过上述公式,
若预测分类信息与真实分类信息的差距越大,相似度权重越高,模型对于分类效果好的输
入样本,相似度权重小,模型可以直接保留第一编码特征,即直接保留WOE值;对于分类效果
差的输入样本,相似度权重大,模型可以重点关注,从输入样本的WOE值中提取线性关系提
高这些样本的分类效果。
在一可实施方式中,操作104,根据第二编码特征进行逻辑回归预测,确定分类损失值,包括:首先,根据第二编码特征进行逻辑回归预测,获得预测分类信息;然后,根据预测分类信息和真实分类信息确定分类损失值。
具体的,本方法根据通过交叉熵损失函数进行模型的分类训练和预测,
本申请的分类损失值对应的损失函数如下:
其中,用于表征每一个输入样本对应的分类损失值,n用于表征每一个输入
样本对应的原始特征总数量; 用于表征真实分类信息,即真实标签,通常通过0或1进行
表征;用于表征预测分类信息,即通过逻辑回归预测获得的预测结果,通常表征为0~
1之间的任一值。
图3示出了本申请实施例一种评分卡模型的更新装置的实现模块示意图;
参见图3,根据本申请实施例的第二方面,提供了一种评分卡模型的更新装置,装置包括:编码分桶模块301,用于对输入样本进行特征编码和数据分桶,获得第一编码特征和对应的分桶ID;向量化模块302,用于对分桶ID进行embedding向量化处理,获得分桶向量;转换模块303,用于对分桶向量进行MLP转换,获得第二编码特征;预测模块304,用于根据第二编码特征进行逻辑回归预测,确定分类损失值;比较模块305,用于根据第一编码特征和第二编码特征进行相似度比较,确定相似度损失值;整合模块306,用于对相似度损失值和分类损失值进行整合,获得多任务学习损失值;更新模块307,用于通过多任务损失值对评分卡模型进行更新,获得更新后的评分卡模型。
在一可实施方式中,编码分桶模块301,包括:编码子模块3011,用于对输入样本进行WOE编码,获得第一编码特征;分桶子模块3012,用于根据输入样本对第一编码特征进行分桶,获得分桶ID。
在一可实施方式中,预测模块304,包括:预测子模块3041,用于根据第二编码特征进行逻辑回归预测,获得预测分类信息;第一确定子模块3042,用于根据预测分类信息和真实分类信息确定分类损失值。
在一可实施方式中,比较模块305,包括:比较子模块3051,用于对第一编码特征和第二编码特征进行比较,确定特征比较值;比较子模块3051,还用于根据预测分类信息与真实分类信息进行比较,确定相似度权重;第二确定子模块3052,用于根据相似度权重和特征比较值确定相似度损失值;
在一可实施方式中,比较子模块3051,包括:根据预测分类信息与真实分类信息确定预测偏差值;根据预测偏差值确定相似度权重,其中,预测偏差值与相似度权重呈正比。
根据本申请实施例的第三方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本申请的方法。
根据本申请实施例的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行本申请的方法。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
图4示出了可以用来实施本申请的实施例的示例电子设备400的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图4所示,设备400包括计算单元401,其可以根据存储在只读存储器(ROM)402中的计算机程序或者从存储单元408加载到随机访问存储器(RAM)403中的计算机程序,来执行各种适当的动作和处理。在RAM 403中,还可存储设备400操作所需的各种程序和数据。计算单元401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。
设备400中的多个部件连接至I/O接口405,包括:输入单元406,例如键盘、鼠标等;输出单元407,例如各种类型的显示器、扬声器等;存储单元408,例如磁盘、光盘等;以及通信单元409,例如网卡、调制解调器、无线通信收发机等。通信单元409允许设备400通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元401可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元401的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元401执行上文所描述的各个方法和处理,例如一种评分卡模型的更新方法。例如,在一些实施例中,一种评分卡模型的更新方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元408。在一些实施例中,计算机程序的部分或者全部可以经由ROM 402和/或通信单元409而被载入和/或安装到设备400上。当计算机程序加载到RAM 403并由计算单元401执行时,可以执行上文描述的一种评分卡模型的更新方法的一个或多个步骤。备选地,在其他实施例中,计算单元401可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行一种评分卡模型的更新方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本申请的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本申请的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种评分卡模型的更新方法,其特征在于,所述方法包括:
对输入样本进行特征编码和数据分桶,获得第一编码特征和对应的分桶ID;
对所述分桶ID进行embedding向量化处理,获得分桶向量;
对所述分桶向量进行MLP转换,获得第二编码特征;
根据所述第二编码特征进行逻辑回归预测,确定分类损失值;
根据所述第一编码特征和所述第二编码特征进行相似度比较,确定相似度损失值;
对所述相似度损失值和所述分类损失值进行整合,获得多任务学习损失值;
通过多任务损失值对评分卡模型进行更新,获得更新后的评分卡模型。
2.根据权利要求1所述的方法,其特征在于,所述对输入样本进行特征编码和数据分桶,获得第一编码特征和对应的分桶ID,包括:
对所述输入样本进行WOE编码,获得所述第一编码特征;
根据所述输入样本对所述第一编码特征进行分桶,获得分桶ID。
3.根据权利要求1所述的方法,其特征在于,根据所述第二编码特征进行逻辑回归预测,确定分类损失值,包括:
根据所述第二编码特征进行逻辑回归预测,获得预测分类信息;
根据所述预测分类信息和真实分类信息确定所述分类损失值。
4.根据权利要求3所述的方法,其特征在于,根据所述第一编码特征和所述第二编码特征进行相似度比较,确定相似度损失值,包括:
对所述第一编码特征和所述第二编码特征进行比较,确定特征比较值;
根据所述预测分类信息与所述真实分类信息进行比较,确定相似度权重;
根据所述相似度权重和所述特征比较值确定相似度损失值。
5.根据权利要求4所述的方法,其特征在于,根据所述预测分类信息与真实分类信息进行比较,确定相似度权重,包括:
根据所述预测分类信息与真实分类信息确定预测偏差值;
根据所述预测偏差值确定所述相似度权重,所述预测偏差值与所述相似度权重呈正比。
6.一种评分卡模型的更新装置,其特征在于,所述装置包括:
编码分桶模块,用于对输入样本进行特征编码和数据分桶,获得第一编码特征和对应的分桶ID;
向量化模块,用于对所述分桶ID进行embedding向量化处理,获得分桶向量;
转换模块,用于对所述分桶向量进行MLP转换,获得第二编码特征;
预测模块,用于根据所述第二编码特征进行逻辑回归预测,确定分类损失值;
比较模块,用于根据所述第一编码特征和所述第二编码特征进行相似度比较,确定相似度损失值;
整合模块,用于对所述相似度损失值和所述分类损失值进行整合,获得多任务学习损失值;
更新模块,用于通过多任务损失值对模型进行更新,获得更新后的评分卡模型。
7.根据权利要求1所述的装置,其特征在于,所述编码分桶模块,包括:
编码子模块,用于对所述输入样本进行WOE编码,获得所述第一编码特征;
分桶子模块,用于根据所述输入样本对所述第一编码特征进行分桶,获得分桶ID。
8.根据权利要求1所述的装置,其特征在于,所述预测模块,包括:
预测子模块,用于根据所述第二编码特征进行逻辑回归预测,获得预测分类信息;
确定子模块,用于根据所述预测分类信息和真实分类信息确定所述分类损失值。
9.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1~5任一项所述的方法。
10.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如权利要求1~5任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210838265.3A CN114997419A (zh) | 2022-07-18 | 2022-07-18 | 评分卡模型的更新方法、装置、电子设备及存储介质 |
CN202310848029.4A CN116578925B (zh) | 2022-07-18 | 2023-07-11 | 基于特征画像的行为预测方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210838265.3A CN114997419A (zh) | 2022-07-18 | 2022-07-18 | 评分卡模型的更新方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114997419A true CN114997419A (zh) | 2022-09-02 |
Family
ID=83021802
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210838265.3A Pending CN114997419A (zh) | 2022-07-18 | 2022-07-18 | 评分卡模型的更新方法、装置、电子设备及存储介质 |
CN202310848029.4A Active CN116578925B (zh) | 2022-07-18 | 2023-07-11 | 基于特征画像的行为预测方法、装置及存储介质 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310848029.4A Active CN116578925B (zh) | 2022-07-18 | 2023-07-11 | 基于特征画像的行为预测方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN114997419A (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117407571B (zh) * | 2023-12-14 | 2024-02-09 | 天津畅玩网络科技有限公司 | 一种基于相关性分析的信息技术咨询服务方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110310206A (zh) * | 2019-07-01 | 2019-10-08 | 阿里巴巴集团控股有限公司 | 用于更新风险控制模型的方法和系统 |
CN111767325A (zh) * | 2020-09-03 | 2020-10-13 | 国网浙江省电力有限公司营销服务中心 | 基于深度学习的多源数据深度融合方法 |
CN112330048A (zh) * | 2020-11-18 | 2021-02-05 | 中国光大银行股份有限公司 | 评分卡模型训练方法、装置、存储介质及电子装置 |
CN112990443A (zh) * | 2021-05-06 | 2021-06-18 | 北京芯盾时代科技有限公司 | 神经网络评价方法及装置、电子设备、存储介质 |
CN113240130A (zh) * | 2020-06-22 | 2021-08-10 | 北京芯盾时代科技有限公司 | 数据分类方法及装置、计算机可读存储介质和电子设备 |
CN113538131A (zh) * | 2021-07-23 | 2021-10-22 | 中信银行股份有限公司 | 一种模块化评分卡建模的方法、装置、存储介质及电子设备 |
CN114140013A (zh) * | 2021-12-08 | 2022-03-04 | 重庆誉存大数据科技有限公司 | 一种基于xgboost的评分卡生成方法、装置及设备 |
WO2022142001A1 (zh) * | 2020-12-31 | 2022-07-07 | 平安科技(深圳)有限公司 | 基于多评分卡融合的目标对象评价方法及其相关设备 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111709766B (zh) * | 2020-04-14 | 2023-08-18 | 中国农业银行股份有限公司 | 一种用户行为预测方法、装置、存储介质及电子设备 |
CN114528994B (zh) * | 2022-03-17 | 2024-10-18 | 腾讯科技(深圳)有限公司 | 一种识别模型的确定方法和相关装置 |
CN114692972B (zh) * | 2022-03-31 | 2024-09-24 | 支付宝(杭州)信息技术有限公司 | 行为预测系统的训练方法及装置 |
CN114692978A (zh) * | 2022-04-07 | 2022-07-01 | 怀化学院 | 一种基于大数据的社交媒体用户行为预测方法及系统 |
CN114722281B (zh) * | 2022-04-07 | 2024-04-12 | 平安科技(深圳)有限公司 | 基于用户画像及用户选课行为的培训课程配置方法、装置 |
-
2022
- 2022-07-18 CN CN202210838265.3A patent/CN114997419A/zh active Pending
-
2023
- 2023-07-11 CN CN202310848029.4A patent/CN116578925B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110310206A (zh) * | 2019-07-01 | 2019-10-08 | 阿里巴巴集团控股有限公司 | 用于更新风险控制模型的方法和系统 |
CN113240130A (zh) * | 2020-06-22 | 2021-08-10 | 北京芯盾时代科技有限公司 | 数据分类方法及装置、计算机可读存储介质和电子设备 |
CN111767325A (zh) * | 2020-09-03 | 2020-10-13 | 国网浙江省电力有限公司营销服务中心 | 基于深度学习的多源数据深度融合方法 |
CN112330048A (zh) * | 2020-11-18 | 2021-02-05 | 中国光大银行股份有限公司 | 评分卡模型训练方法、装置、存储介质及电子装置 |
WO2022142001A1 (zh) * | 2020-12-31 | 2022-07-07 | 平安科技(深圳)有限公司 | 基于多评分卡融合的目标对象评价方法及其相关设备 |
CN112990443A (zh) * | 2021-05-06 | 2021-06-18 | 北京芯盾时代科技有限公司 | 神经网络评价方法及装置、电子设备、存储介质 |
CN113538131A (zh) * | 2021-07-23 | 2021-10-22 | 中信银行股份有限公司 | 一种模块化评分卡建模的方法、装置、存储介质及电子设备 |
CN114140013A (zh) * | 2021-12-08 | 2022-03-04 | 重庆誉存大数据科技有限公司 | 一种基于xgboost的评分卡生成方法、装置及设备 |
Non-Patent Citations (2)
Title |
---|
周胜利等: "基于评分卡――随机森林的云计算用户公共安全信誉模型研究", 《通信学报》 * |
阿里云: "评分卡训练", 《HTTPS://HELP.ALIYUN.COM/DOCUMENT_DETAIL/283800.HTML》 * |
Also Published As
Publication number | Publication date |
---|---|
CN116578925B (zh) | 2023-09-26 |
CN116578925A (zh) | 2023-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113326764B (zh) | 训练图像识别模型和图像识别的方法和装置 | |
CN112561077A (zh) | 多任务模型的训练方法、装置及电子设备 | |
CN115063875B (zh) | 模型训练方法、图像处理方法、装置和电子设备 | |
CN115082920B (zh) | 深度学习模型的训练方法、图像处理方法和装置 | |
CN113344089B (zh) | 模型训练方法、装置及电子设备 | |
CN114494784A (zh) | 深度学习模型的训练方法、图像处理方法和对象识别方法 | |
CN114648676A (zh) | 点云处理模型的训练和点云实例分割方法及装置 | |
CN112949433B (zh) | 视频分类模型的生成方法、装置、设备和存储介质 | |
CN112966744A (zh) | 模型训练方法、图像处理方法、装置和电子设备 | |
CN113705362A (zh) | 图像检测模型的训练方法、装置、电子设备及存储介质 | |
CN113627536A (zh) | 模型训练、视频分类方法,装置,设备以及存储介质 | |
CN113961765A (zh) | 基于神经网络模型的搜索方法、装置、设备和介质 | |
CN114462598A (zh) | 深度学习模型的训练方法、确定数据类别的方法和装置 | |
CN116578925B (zh) | 基于特征画像的行为预测方法、装置及存储介质 | |
CN113468857A (zh) | 风格转换模型的训练方法、装置、电子设备以及存储介质 | |
CN112784102A (zh) | 视频检索方法、装置和电子设备 | |
CN114492370B (zh) | 网页识别方法、装置、电子设备和介质 | |
CN115472257A (zh) | 一种招募用户的方法、装置、电子设备及存储介质 | |
CN115719433A (zh) | 图像分类模型的训练方法、装置及电子设备 | |
CN114254028A (zh) | 事件属性抽取方法、装置、电子设备和存储介质 | |
CN114330576A (zh) | 模型处理方法、装置、图像识别方法及装置 | |
CN113989569A (zh) | 图像处理方法、装置、电子设备和存储介质 | |
CN113591570A (zh) | 视频处理方法、装置、电子设备和存储介质 | |
CN114066278B (zh) | 物品召回的评估方法、装置、介质及程序产品 | |
CN115358223A (zh) | 信息预测方法、装置、设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220902 |
|
RJ01 | Rejection of invention patent application after publication |