CN117828545A - 一种续费率预测方法、系统、存储介质和电子设备 - Google Patents
一种续费率预测方法、系统、存储介质和电子设备 Download PDFInfo
- Publication number
- CN117828545A CN117828545A CN202410020710.4A CN202410020710A CN117828545A CN 117828545 A CN117828545 A CN 117828545A CN 202410020710 A CN202410020710 A CN 202410020710A CN 117828545 A CN117828545 A CN 117828545A
- Authority
- CN
- China
- Prior art keywords
- model
- rate
- features
- monetary
- regression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000013145 classification model Methods 0.000 claims abstract description 41
- 230000004927 fusion Effects 0.000 claims abstract description 17
- 230000007246 mechanism Effects 0.000 claims abstract description 17
- 238000011161 development Methods 0.000 claims abstract description 15
- 238000012549 training Methods 0.000 claims abstract description 15
- 238000004364 calculation method Methods 0.000 claims description 15
- 230000002159 abnormal effect Effects 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 10
- 238000012937 correction Methods 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 abstract description 15
- 238000004422 calculation algorithm Methods 0.000 abstract description 6
- 238000010801 machine learning Methods 0.000 abstract description 3
- 239000000047 product Substances 0.000 description 10
- 238000012545 processing Methods 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000008520 organization Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012502 risk assessment Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- PCTMTFRHKVHKIS-BMFZQQSSSA-N (1s,3r,4e,6e,8e,10e,12e,14e,16e,18s,19r,20r,21s,25r,27r,30r,31r,33s,35r,37s,38r)-3-[(2r,3s,4s,5s,6r)-4-amino-3,5-dihydroxy-6-methyloxan-2-yl]oxy-19,25,27,30,31,33,35,37-octahydroxy-18,20,21-trimethyl-23-oxo-22,39-dioxabicyclo[33.3.1]nonatriaconta-4,6,8,10 Chemical compound C1C=C2C[C@@H](OS(O)(=O)=O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2.O[C@H]1[C@@H](N)[C@H](O)[C@@H](C)O[C@H]1O[C@H]1/C=C/C=C/C=C/C=C/C=C/C=C/C=C/[C@H](C)[C@@H](O)[C@@H](C)[C@H](C)OC(=O)C[C@H](O)C[C@H](O)CC[C@@H](O)[C@H](O)C[C@H](O)C[C@](O)(C[C@H](O)[C@H]2C(O)=O)O[C@H]2C1 PCTMTFRHKVHKIS-BMFZQQSSSA-N 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000000739 chaotic effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000012467 final product Substances 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000013517 stratification Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/27—Regression, e.g. linear or logistic regression
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0202—Market predictions or forecasting for commercial activities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Business, Economics & Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Game Theory and Decision Science (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Computational Linguistics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请提供一种续费率预测方法、系统、存储介质和电子设备,包括:构建包含机构规模特征、自身发展特征、产品服务特征、流失风险特征和商务交易特征的特征合集;对特征合集中的特征利用回归标签,计算月度金额续费率;按照月度金额续费率的大小进行分类,到风险识别模型的标签;标签用于执行二分类训练;基于特征合集、月度金额续费率和标签构建预测分类模型、金额续费率回归模型、风险识别分类模型和多层级分类融合模型。本申请采用机器学习算法模型进行决策过程的分析,特别的,采用多模型进行综合决策的方式,以业务场景为导向,可以多趋势预测、风险预警等多维度进行结果的输出,以支撑业务场景下更精确的决策。
Description
技术领域
本申请涉及计算机技术领域,特别涉及一种续费率预测方法、系统、存储介质和电子设备。
背景技术
当前,针对回归预测类算法,大多采用神经网络进行企业风险分析预测和告警,采用单一模型进行预测,但是决策过程是一个系统性和多因素影响的过程,单一模型的预测很难支撑一个场景的决策。
发明内容
本申请的目的是提供一种续费率预测方法、系统、存储介质和电子设备,能够通过多模型进行综合决策,支撑业务场景下更精确的决策。
为解决上述技术问题,本申请提供一种续费率预测方法,具体技术方案如下:
构建包含机构规模特征、自身发展特征、产品服务特征、流失风险特征和商务交易特征的特征合集;
对所述特征合集中的特征利用回归标签,计算月度金额续费率;
按照所述月度金额续费率的大小进行分类,到风险识别模型的标签;所述标签用于执行二分类训练;
基于所述特征合集、所述月度金额续费率和所述标签构建预测分类模型、金额续费率回归模型、风险识别分类模型和多层级分类融合模型,以执行续费率预测;其中,所述预测分类模型用于构建回归模型;所述金额续费率回归模型用于基于所述回归模型确定金额续费率预测值;所述风险识别分类模型用于确定所述金额续费率回归模型的实时风险概率,所述多层级分类融合模型用于确定所述金额续费率预测值的修正值。
可选的,构建包含机构规模特征、自身发展特征、产品服务特征、流失风险特征和商务交易特征的特征合集时,还包括:
将历史续费比率作为时间序列的窗口特征添加至所述特征合集。
可选的,对所述特征合集中的特征利用回归标签,计算月度金额续费率之后,还包括:
剔除所述月度金额续费率中的异常值;所述异常值包括极端值或错误值。
可选的,剔除所述月度金额续费率中的异常值包括:
利用四分位距指标定义正常值区间,剔除所述月度金额续费率中落在所述正常值区间外的所有异常值。
可选的,按照所述月度金额续费率的大小进行分类,到风险识别模型的标签;所述标签用于执行二分类训练之后,还包括:
利用熵值法确定每个样本在所述机构规模特征、所述自身发展特征、所述产品服务特征、所述流失风险特征和所述商务交易特征中各维度的权重。
可选的,基于所述特征合集、所述月度金额续费率和所述标签构建金额续费率回归模型包括:
基于所述特征合集、所述金额续费率的回归标签计算和所述回归模型,通过初始设置参数的第一设定轮次迭代,学习得到金额续费率回归模型。
可选的,基于所述特征合集、所述月度金额续费率和所述标签构建风险识别分类模型包括:
基于所述特征合集、所述金额续费率的回归标签计算和所述回归模型,通过初始设置参数的第二设定轮次迭代,学习得到风险识别分类模型。
本申请还提供一种续费率预测系统,包括:
特征集构建模块,用于构建包含机构规模特征、自身发展特征、产品服务特征、流失风险特征和商务交易特征的特征合集;
回归计算模块,用于对所述特征合集中的特征利用回归标签,计算月度金额续费率;
标签分类计算模块,用于按照所述月度金额续费率的大小进行分类,到风险识别模型的标签;所述标签用于执行二分类训练;
模型预测模块,用于基于所述特征合集、所述月度金额续费率和所述标签构建预测分类模型、金额续费率回归模型、风险识别分类模型和多层级分类融合模型,以执行续费率预测;其中,所述预测分类模型用于构建回归模型;所述金额续费率回归模型用于基于所述回归模型确定金额续费率预测值;所述风险识别分类模型用于确定所述金额续费率回归模型的实时风险概率,所述多层级分类融合模型用于确定所述金额续费率预测值的修正值。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的方法的步骤。
本申请还提供一种电子设备,包括存储器和处理器,所述存储器中存有计算机程序,所述处理器调用所述存储器中的计算机程序时实现如上所述的方法的步骤。
本申请提供一种续费率预测方法,包括:构建包含机构规模特征、自身发展特征、产品服务特征、流失风险特征和商务交易特征的特征合集;对所述特征合集中的特征利用回归标签,计算月度金额续费率;按照所述月度金额续费率的大小进行分类,到风险识别模型的标签;所述标签用于执行二分类训练;基于所述特征合集、所述月度金额续费率和所述标签构建预测分类模型、金额续费率回归模型、风险识别分类模型和多层级分类融合模型,以执行续费率预测;其中,所述预测分类模型用于构建回归模型;所述金额续费率回归模型用于基于所述回归模型确定金额续费率预测值;所述风险识别分类模型用于确定所述金额续费率回归模型的实时风险概率,所述多层级分类融合模型用于确定所述金额续费率预测值的修正值。
本申请采用机器学习算法模型进行决策过程的分析,特别的,采用多模型进行综合决策的方式,以业务场景为导向,可以多趋势预测、风险预警等多维度进行结果的输出,以支撑业务场景下更精确的决策。此外,本申请同时构建了金额续费率回归模型、风险识别分类模型和多层级分类融合模型,在预测的同时进行风险定位和预测修正,实现了预测过程的层级衰减,更加贴合实际业务场景中对于续费比率的分级,将预测模型和风险模型的结果通过层次衰减机制进行融合,预测精确度更高。
本申请还提供一种续费率预测系统、存储介质和电子设备,具有上述有益效果,此处不再赘述。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例所提供的一种续费率预测方法的流程图;
图2为本申请实施例所提供的一种续费率预测系统结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参考图1,图1为本申请实施例所提供的一种续费率预测方法的流程图,该方法包括:
S101:构建包含机构规模特征、自身发展特征、产品服务特征、流失风险特征和商务交易特征的特征合集;
S102:对所述特征合集中的特征利用回归标签,计算月度金额续费率;
S103:按照所述月度金额续费率的大小进行分类,到风险识别模型的标签;所述标签用于执行二分类训练;
S104:基于所述特征合集、所述月度金额续费率和所述标签构建预测分类模型、金额续费率回归模型、风险识别分类模型和多层级分类融合模型,以执行续费率预测;其中,所述预测分类模型用于构建回归模型;所述金额续费率回归模型用于基于所述回归模型确定金额续费率预测值;所述风险识别分类模型用于确定所述金额续费率回归模型的实时风险概率,所述多层级分类融合模型用于确定所述金额续费率预测值的修正值。
本申请实施例采用的数据为财税代理机构相关的数据。在此对于数量级以及特征维度不作具体限定。一种可行的方式中,可以采用量级为100w以上,并基于这些数据按照业务进行一些数据加工和特征工程构造,最终生成144维度的特征合集。
特征合集中的特征主要通过机构自身信息、历史购买信息、活跃信息、票账税信息、业务标签信息、迁入迁出、离职和留存等信息,构建得到机构规模特征、自身发展特征、产品服务特征、流失风险特征、商务交易特征五个维度的特征合集,特征合集的维度为144维。
同时在构建特征的过程中,为充分利用历史信息,也将历史的续费比率,比如“上一个月续费率”,“上两个月续费率”该数据,作为时间序列的窗口特征添加的特征合集中,保证了模型预测结果的序列一致性。
此后可执行续费率预测回归标签计算。在加工完成上述数据特征之后,为支撑有监督的机器学习算法任务,需要进行标签加工。首先针对续费率预测模型,需要加工回归标签,目前定义的标准为机构id和月份为标识下的月度金额续费率作为标签。
月度金额续费率计算方式如下:
其中,t为当前月份,m为月份单位,t+3m为当前月份加3个月,例如当前为1月,t+3m为4月。上述公式分子Renew_amountguang_type为续费金额,分母Renew_amountorigin为到期金额,续费金额与到期金额的比例则为金额续费率。
由于机构进行续费的实际表现,一般是3个月后才会出现,因此考虑未来t+3m到t+6m之间的续费金额来计算金额续费率会更加准确。
经过金额续费率计算,通过箱线图分析,发现其中存在很多异常数据,此时可以剔除所述月度金额续费率中的异常值,该异常值包括极端值或错误值比如正常业务场景金额续费率通常不大于2,但是计算结果发现存在大于100的数值,且存在很多0的数值,经过与业务人员验证,发现数据中存在一些错误数据,为了批量发现和提出异常的错误数据,避免影响后续进行模型训练和预测的精度。
异常值处理采用四分位距指标方法,也即IQR,IQR=Q3-Q1。四分位距反映了中间50%数据的离散程度,其数值越小,说明中间的数据越集中;其数值越大,说明中间的数据越分散。
根据3σ识别原则,定义正常值区间,位于正常值区间内的值是正常的数值,而在正常值区间外的值就是定义异常值。在箱线图中,该正常值区间一般为[Q1-k×IQR,Q3+k×IQR],k是控制区间长度的一个正数,通常k可取为1.5,也可由本领域技术人员自行设定。因此,只需要判断这组数据中的每个值是否都位于[Q1 -1.5×IQR,Q3+1.5×IQR]这个区间内,如果不在正常值区间内就标记为异常值。
经过异常值处理后的数据,可以作为模型训练的输入。由于多模型决策,需要考虑对机构续费的风险预警,因此需要构建一个风险识别模型。首先根据计算的金额续费率rate,按照业务角度的分层,分为4层,如下:
风险预警,主要关注C和D层级的机构,因此基于4.2中的结果,对层级分为C和D的机构标注为风险标签1,其他为0。从而得到风险识别模型的标签,后续进行二分类训练和预测。
通过上述步骤处理得到的特征和标签,需要针对各自不同的特性,如回归标签,选择回归模型,分类标签选择分类模型。按照常规经验和方法,选择以梯度提升树为基本模型,来构建后续的回归和分类任务。
梯度提升树GBDT(Gradient Boosting Decison Tree)是一种集成算法,通过采用加法模型(即基函数的线性组合),以及不断减小训练过程产生的残差来达到将数据分类或者回归的算法。经过多轮迭代,每轮迭代产生一个弱分类器,每个分类器在上一轮分类器的残差基础上进行训练。
其基本的简化过程为:首先输入多维度的特征数据和计算的标签数据,训练数据集为T={(x1,y1),(x2,y2),…,(xN,yN)},xi∈Rn,yi∈R;然后定义损失函数为L(y,f(x));最后输出回归树。具体的步骤如下:
首先,初始化目标函数,是一棵只有根节点的树,
其次,对迭代次数m=1,2,…,M,每次迭代遵循以下四步操作。
第一步,对每个样本i=1,2,…,N。计算损失函数的负梯度,即为残差:
第二步,对rmi拟合一个回归树,得到第m棵树的叶节点区域Rmj,j=1,2,...,J。
第三步,对j=1,2,...,J,计算最小化的损失函数。
第四步,更新目标
最后得到最终的回归树:
经过上述过程的学习,最终得到的即为得到需要的预测或分类模型。
基于的特征数据,金额续费率的回归标签计算,以及梯度提升树模型。通过初始设置参数的第一设定轮次迭代,例如可为50轮迭代,最终学习到一个能够比较精准的表达金额续费率信息的预测模型,即金额续费率回归模型,评价指标在测试集上的r2为0.75,均方误差MSE为0.05,表明模型的区分性能良好,同时误差较小。金额续费率回归模型可以对新的数据进行实时预测,在财税代理机构的续费场景中,预测未来3个月到6个月该机构的续费率数值。
风险模型的学习过程同金额续费率回归模型相类似,基于特征数据,风险分类标签,以及梯度提升树模型。通过初始参数设置的第二设定轮次迭代,例如也可以设为50轮迭代,最终学习到一个能够反馈财税代理机构风险概率的风险识别分类模型,评价指标在测试集上的精准率为0.81,召回率为0.56。表明模型能够区分机构的风险类别。该风险识别分类模型后续会结合回归预测模进行实时的风险概率预测。
结合金额续费率回归模型风险识别分类模型的预测结果,由于决策主要依赖一个量化指标,主要依据机构未来一段时间内的金额续费率来进行。同时需要从潜力识别维度和风险识别维度进行验证,根据实际数据反映,金额续费率回归模型的结果对潜力识别有非常好的效果,风险识别模型对风险识别也有较好效果,为综合考虑两种因素,设计层次衰减机制的融合模型。
首先,根据风险标签分层ABCD进行范围划分。然后,结合金额续费率的预测数值和风险识别的概率,以风险识别概率作为衰减因子,对A和D级不做处理,对B级进行一次衰减,对C级进行二次衰减,得到最终的结果。
层次衰减公式如下:
衰减之后的Renew_rate作为修正后的金额续费率。
最后,基于修正后的金额续费率,根据业务的分析,得到潜力维度(A级别),风险维度(CD级)的评估指标。
经过上述过程,可以综合输出以下几个内容:
(1)回归模型预测的原始金额续费率预测值。(2)修正后多模型融合的金额续费率预测值。(3)风险识别概率。(4)潜力评估指标。(5)风险评估指标。则本领域技术人员根据可以上述五个指标综合性的考量续费可能。本申请所预测的续费率,等同于用户留存率。
本申请实施例依据未来一定时间,例如3个月至6个月来计算续费金额和到期金额,而非直接用当前月份所属金额来计算,与真实的情境的预期时间差对应。真实情况下,续费效应的反映存在3个月左右的滞后性。同时,风险分类标签的制定,将连续的金额续费率,转换成离散的二分类标签,能够更好的学习风险信息。本发明中由无监督确权模型和有监督的分类、回归模型融合的一种综合决策方法。多模型决策能够真实反映业务人员在进行分析过程中所考虑的思维方式,比如潜力识别和风险识别结合,同时无监督确权模型提供多维指标的解释性。且本申请实施例在多模型融合过程中,对连续的预测值,进行分层处理,并对不同层级的预测值采用衰减机制,用风险识别的风险概率对较低预测的数值做权重衰减,修正后的预测值能够更好的反映实际情况。
在上述实施例的基础上,为了增强最终决策的可解释性,可结合机构规模特征、自身发展特征、产品服务特征、流失风险特征、商务交易特征5个维度进行分析,需要确定每个样本在各个维度的权重。因此采用熵值法对5维特征进行权重计算。
熵值法是一种客观赋权方法,借鉴了信息熵思想,它通过计算指标的信息熵,根据指标的相对变化程度对系统整体的影响来决定指标的权重,即根据各个指标标志值的差异程度来进行赋权,从而得出各个指标相应的权重,相对变化程度大的指标具有较大的权重熵越大说明系统越混乱,携带的信息越少,权重越小;熵越小说明系统越有序,携带的信息越多,权重越大。
计算步骤和公式如下。
第一步,数据经过无量纲处理之后,计算第j个指标中,第i个样本指标值的比重。
得到数据的比重矩阵:
第二步,定义第j个指标的熵值:
第三步,定义第j个指标的差异程度:
dj=1-ej;
第四步,得到最终权重列表:
第五步,权重列表与原始数据矩阵相乘,得到评价结果为:
通过熵值法计算出5维特征的权重数值,与特征数值相乘后,得到评价系数。
下面对本申请实施例提供的一种续费率预测系统进行介绍,下文描述的续费率预测系统与上文描述的续费率预测方法可相互对应参照。
参见图2,图2为本申请实施例所提供的一种续费率预测系统结构示意图,该系统包括:
特征集构建模块,用于构建包含机构规模特征、自身发展特征、产品服务特征、流失风险特征和商务交易特征的特征合集;
回归计算模块,用于对所述特征合集中的特征利用回归标签,计算月度金额续费率;
标签分类计算模块,用于按照所述月度金额续费率的大小进行分类,到风险识别模型的标签;所述标签用于执行二分类训练;
模型预测模块,用于基于所述特征合集、所述月度金额续费率和所述标签构建预测分类模型、金额续费率回归模型、风险识别分类模型和多层级分类融合模型,以执行续费率预测;其中,所述预测分类模型用于构建回归模型;所述金额续费率回归模型用于基于所述回归模型确定金额续费率预测值;所述风险识别分类模型用于确定所述金额续费率回归模型的实时风险概率,所述多层级分类融合模型用于确定所述金额续费率预测值的修正值。
基于上述实施例,作为优选的实施例,还包括:
特征添加模块,用于将历史续费比率作为时间序列的窗口特征添加至所述特征合集。
基于上述实施例,作为优选的实施例,还包括:
异常剔除模块,用于剔除所述月度金额续费率中的异常值;所述异常值包括极端值或错误值。
基于上述实施例,作为优选的实施例,异常剔除模块为用于利用四分位距指标定义正常值区间,剔除所述月度金额续费率中落在所述正常值区间外的所有异常值的模块。
基于上述实施例,作为优选的实施例,还包括:
权重确定模块,用于利用熵值法确定每个样本在所述机构规模特征、所述自身发展特征、所述产品服务特征、所述流失风险特征和所述商务交易特征中各维度的权重。
基于上述实施例,作为优选的实施例,基于所述特征合集、所述月度金额续费率和所述标签构建金额续费率回归模型包括:
基于所述特征合集、所述金额续费率的回归标签计算和所述回归模型,通过初始设置参数的第一设定轮次迭代,学习得到金额续费率回归模型。
基于上述实施例,作为优选的实施例,模型预测模块包括:
风险识别分类模型构建单元,用于基于所述特征合集、所述金额续费率的回归标签计算和所述回归模型,通过初始设置参数的第二设定轮次迭代,学习得到风险识别分类模型。
本申请还提供了一种计算机可读存储介质,其上存有计算机程序,该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本申请还提供了一种电子设备,可以包括存储器和处理器,所述存储器中存有计算机程序,所述处理器调用所述存储器中的计算机程序时,可以实现上述实施例所提供的步骤。当然所述电子设备还可以包括各种网络接口,电源等组件。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例提供的系统而言,由于其与实施例提供的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
Claims (10)
1.一种续费率预测方法,其特征在于,包括:
构建包含机构规模特征、自身发展特征、产品服务特征、流失风险特征和商务交易特征的特征合集;
对所述特征合集中的特征利用回归标签,计算月度金额续费率;
按照所述月度金额续费率的大小进行分类,到风险识别模型的标签;所述标签用于执行二分类训练;
基于所述特征合集、所述月度金额续费率和所述标签构建预测分类模型、金额续费率回归模型、风险识别分类模型和多层级分类融合模型,以执行续费率预测;其中,所述预测分类模型用于构建回归模型;所述金额续费率回归模型用于基于所述回归模型确定金额续费率预测值;所述风险识别分类模型用于确定所述金额续费率回归模型的实时风险概率,所述多层级分类融合模型用于确定所述金额续费率预测值的修正值。
2.根据权利要求1所述的续费率预测方法,其特征在于,构建包含机构规模特征、自身发展特征、产品服务特征、流失风险特征和商务交易特征的特征合集时,还包括:
将历史续费比率作为时间序列的窗口特征添加至所述特征合集。
3.根据权利要求1所述的续费率预测方法,其特征在于,对所述特征合集中的特征利用回归标签,计算月度金额续费率之后,还包括:
剔除所述月度金额续费率中的异常值;所述异常值包括极端值或错误值。
4.根据权利要求3所述的续费率预测方法,其特征在于,剔除所述月度金额续费率中的异常值包括:
利用四分位距指标定义正常值区间,剔除所述月度金额续费率中落在所述正常值区间外的所有异常值。
5.根据权利要求1所述的续费率预测方法,其特征在于,按照所述月度金额续费率的大小进行分类,到风险识别模型的标签;所述标签用于执行二分类训练之后,还包括:
利用熵值法确定每个样本在所述机构规模特征、所述自身发展特征、所述产品服务特征、所述流失风险特征和所述商务交易特征中各维度的权重。
6.根据权利要求1所述的续费率预测方法,其特征在于,基于所述特征合集、所述月度金额续费率和所述标签构建金额续费率回归模型包括:
基于所述特征合集、所述金额续费率的回归标签计算和所述回归模型,通过初始设置参数的第一设定轮次迭代,学习得到金额续费率回归模型。
7.根据权利要求1所述的续费率预测方法,其特征在于,基于所述特征合集、所述月度金额续费率和所述标签构建风险识别分类模型包括:
基于所述特征合集、所述金额续费率的回归标签计算和所述回归模型,通过初始设置参数的第二设定轮次迭代,学习得到风险识别分类模型。
8.一种续费率预测系统,其特征在于,包括:
特征集构建模块,用于构建包含机构规模特征、自身发展特征、产品服务特征、流失风险特征和商务交易特征的特征合集;
回归计算模块,用于对所述特征合集中的特征利用回归标签,计算月度金额续费率;
标签分类计算模块,用于按照所述月度金额续费率的大小进行分类,到风险识别模型的标签;所述标签用于执行二分类训练;
模型预测模块,用于基于所述特征合集、所述月度金额续费率和所述标签构建预测分类模型、金额续费率回归模型、风险识别分类模型和多层级分类融合模型,以执行续费率预测;其中,所述预测分类模型用于构建回归模型;所述金额续费率回归模型用于基于所述回归模型确定金额续费率预测值;所述风险识别分类模型用于确定所述金额续费率回归模型的实时风险概率,所述多层级分类融合模型用于确定所述金额续费率预测值的修正值。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的续费率预测方法的步骤。
10.一种电子设备,其特征在于,包括存储器和处理器,所述存储器中存有计算机程序,所述处理器调用所述存储器中的计算机程序时实现如权利要求1-7任一项所述的续费率预测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410020710.4A CN117828545A (zh) | 2024-01-05 | 2024-01-05 | 一种续费率预测方法、系统、存储介质和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410020710.4A CN117828545A (zh) | 2024-01-05 | 2024-01-05 | 一种续费率预测方法、系统、存储介质和电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117828545A true CN117828545A (zh) | 2024-04-05 |
Family
ID=90515045
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410020710.4A Pending CN117828545A (zh) | 2024-01-05 | 2024-01-05 | 一种续费率预测方法、系统、存储介质和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117828545A (zh) |
-
2024
- 2024-01-05 CN CN202410020710.4A patent/CN117828545A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gu et al. | Predicting stock prices with finbert-lstm: Integrating news sentiment analysis | |
Rosati et al. | Machine learning in capital markets: decision support system for outcome analysis | |
CN114154716A (zh) | 一种基于图神经网络的企业能耗预测方法及装置 | |
CN114565021A (zh) | 基于量子循环神经网络的金融资产定价方法、系统及存储介质 | |
Zhang | Prediction of Purchase Volume of Cross‐Border e‐Commerce Platform Based on BP Neural Network | |
CN118364963A (zh) | 基于lstm神经网络的建筑材料价格预测方法 | |
Xu et al. | Copula-based high dimensional cross-market dependence modeling | |
CN117934162A (zh) | 多维动态评估的不动产抵押物金融风险防控方法与系统 | |
CN114186646A (zh) | 区块链异常交易识别方法及装置、存储介质及电子设备 | |
Jiang et al. | [Retracted] Research on Intelligent Prediction Method of Financial Crisis of Listed Enterprises Based on Random Forest Algorithm | |
Camelia et al. | A Computational Grey Based Model for Companies Risk Forecasting. | |
CN112766814A (zh) | 一种信用风险压力测试模型的训练方法、装置及设备 | |
KR102596740B1 (ko) | 기계학습을 이용한 경제불확실성 뉴스심리에 따른 거시경제적 요인과 주식수익률 예측방법 | |
Ferencek et al. | Deep learning predictive models for terminal call rate prediction during the warranty period | |
CN117828545A (zh) | 一种续费率预测方法、系统、存储介质和电子设备 | |
CN114612231A (zh) | 股票量化交易方法、装置、终端设备及可读存储介质 | |
CN113313581A (zh) | 信贷违约预警信息推送方法、设备、存储介质及程序产品 | |
CN118538036B (zh) | 一种基于深度学习方法的交通流短期预测方法及设备 | |
CN113379455B (zh) | 订单量预测方法和设备 | |
Andréasson et al. | Forecasting the OMXS30-a comparison between ARIMA and LSTM | |
US11769100B2 (en) | Leading indicators and monitor business KPIs and metrics for preemptive action | |
Wang | The Prediction of Stock Index Movements Based on Machine Learning | |
Khodabakhshian et al. | Check for updates Machine Learning Application in Construction Delay and Cost Overrun Risks Assessment | |
Liu et al. | Dynamic credit scoring on consumer behavior using fuzzy Markov model | |
Somaratne | Ultimate Loss Reserve Forecasting Using Bidirectional LSTMs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |