CN112927719B - 风险信息评估方法、装置、设备及存储介质 - Google Patents
风险信息评估方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112927719B CN112927719B CN202110091235.6A CN202110091235A CN112927719B CN 112927719 B CN112927719 B CN 112927719B CN 202110091235 A CN202110091235 A CN 202110091235A CN 112927719 B CN112927719 B CN 112927719B
- Authority
- CN
- China
- Prior art keywords
- information
- default
- characteristic information
- feature
- risk
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 29
- 238000000034 method Methods 0.000 claims abstract description 31
- 238000013210 evaluation model Methods 0.000 claims abstract description 28
- 238000007781 pre-processing Methods 0.000 claims abstract description 21
- 238000012502 risk assessment Methods 0.000 claims abstract description 4
- 238000004422 calculation algorithm Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 13
- 238000012216 screening Methods 0.000 claims description 8
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 4
- 238000012795 verification Methods 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000012549 training Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000013136 deep learning model Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012880 independent component analysis Methods 0.000 description 3
- 230000001186 cumulative effect Effects 0.000 description 2
- 238000003064 k means clustering Methods 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- BQCADISMDOOEFD-UHFFFAOYSA-N Silver Chemical compound [Ag] BQCADISMDOOEFD-UHFFFAOYSA-N 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000004900 laundering Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 229910052709 silver Inorganic materials 0.000 description 1
- 239000004332 silver Substances 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
- G06F18/295—Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Signal Processing (AREA)
- Probability & Statistics with Applications (AREA)
- Technology Law (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- General Health & Medical Sciences (AREA)
- Development Economics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种风险信息评估方法、装置、设备及存储介质,涉及机器学习领域。该方法包括:获取用户的经济特征信息、催收通话音频。对经济特征信息和催收通话音频进行预处理。根据预处理后的数据获取违约特征信息,违约特征信息包括违约相关的经济特征信息以及催收通话音频中的违约关键词。通过XGBoost模型,根据违约特征信息进行参数拟合,得到风险信息评估模型。根据风险信息评估模型对用户进行风险评估。由于XGBoost模型可以在数据变量较多时提供良好的可解释性以及拟合速度,使得在用户的历史数据中变量较多时也能得到良好的可解释性,且无需长时间的拟合。
Description
技术领域
本发明涉及机器学习领域,具体而言,涉及一种风险信息评估方法、装置、设备及存储介质。
背景技术
近年来,银行的借贷、理财业务越来越多,尽管在业务办理前对于用户进行了审核、建模以评估该用户的风险程度。例如,在理财征信评分模型时,根据用户的外部征信信息(例如消费记录、所有银行的存款等信息),预测用户的信用风险程度,可以比较客观全面地评估风险。
现有技术是通过神经网络,以及用户的历史数据训练随机森林,逻辑回归和支持向量机三个模型分别预测银行信用数据,然后选择三个模型中效果最佳的一个进行使用。
但是,当用户的历史数据中变量较多时,神经网络的可解释性较差,学习过程较长,评估效果不佳。
发明内容
基于上述现有技术存在的当用户的历史数据中变量较多时,神经网络的可解释性较差,学习过程较长,评估效果不佳的问题,本发明实施例提供一种风险信息评估方法、装置、设备及存储介质,可以改善历史数据中变量较多时的评估效果。
第一方面,一种风险信息评估方法,该方法包括:获取用户的经济特征信息、催收通话音频。对经济特征信息和催收通话音频进行预处理。根据预处理后的数据获取违约特征信息,违约特征信息包括违约相关的经济特征信息以及催收通话音频中的违约关键词。通过极端梯度提升(eXtreme Gradient Boosting,XGBoost)模型,根据违约特征信息进行参数拟合,得到风险信息评估模型。根据风险信息评估模型对用户进行风险评估。
一些实施方式中,对经济特征信息和催收通话音频进行预处理,包括:若经济特征信息中存在缺失值,则采用预设的预估算法,对缺失值进行预估处理。
一些实施方式中,对经济特征信息和催收通话音频进行预处理,包括:若经济特征信息中的违约特征信息与未违约特征信息的比例大于预设阈值,则对经济特征信息进行过采样处理或统一纲量处理。
一些实施方式中,对经济特征信息和催收通话音频进行预处理,包括:通过马尔可夫模型将催收通话音频识别为催收通话文本。对催收通话文本进行语义分割,通过预设的语义识别模型,获取催收通话音频中的违约关键词。
一些实施方式中,根据预处理后的数据获取违约特征信息,包括:采用预设的特征筛选算法,对预处理后的数据中的高相似度变量、违约的低相关度变量进行筛选剔除,得到违约特征信息。
一些实施方式中,通过XGBoost模型,根据违约特征信息进行参数拟合,得到风险信息评估模型,包括:根据预设的时间窗获取违约特征信息中每个特征的特征信息以及特征标签。根据每个特征信息以及特征标签,通过XGBoost模型进行参数拟合,得到风险信息评估模型。
一些实施方式中,在得到风险信息评估模型之后,包括:验证风险信息评估模型的精确度、召回率、精密度、均衡平均数(F1-score)以及接收机工作特性曲线(receiveroperating characteristic curve,ROC)。
第二方面,本发明实施例提供了一种风险信息评估装置,包括:获取模块,用于获取用户的经济特征信息、催收通话音频。预处理模块,用于对经济特征信息和催收通话音频进行预处理。获取模块,还用于根据预处理后的数据获取违约特征信息,违约特征信息包括违约相关的经济特征信息以及催收通话音频中的违约关键词。拟合模块,用于通过极端梯度提升XGBoost模型,根据违约特征信息进行参数拟合,得到风险信息评估模型。评估模块,用于根据风险信息评估模型对用户进行风险评估。
一些实施方式中,预处理模块,具体用于若经济特征信息中存在缺失值,则采用预设的预估算法,对缺失值进行预估处理。
一些实施方式中,预处理模块,具体用于若经济特征信息中的违约特征信息与未违约特征信息的比例大于预设阈值,则对经济特征信息进行过采样处理或统一纲量处理。
一些实施方式中,预处理模块,具体用于通过马尔可夫模型将催收通话音频识别为催收通话文本。对催收通话文本进行语义分割,通过预设的语义识别模型,获取催收通话音频中的违约关键词。
一些实施方式中,获取模块,具体用于采用预设的特征筛选算法,对预处理后的数据中的高相似度变量、违约的低相关度变量进行筛选剔除,得到违约特征信息。
一些实施方式中,拟合模块,具体用于根据预设的时间窗获取违约特征信息中每个特征的特征信息以及特征标签。根据每个特征信息以及特征标签,通过XGBoost模型进行参数拟合,得到风险信息评估模型。
一些实施方式中,该装置还包括验证模块,用于验证风险信息评估模型的精确度、召回率、精密度、F1-score以及ROC。
第三方面,本发明实施例提供一种终端设备,包括:处理器、存储介质和总线,存储介质存储有处理器可执行的机器可读指令,当电子设备运行时,处理器与存储介质之间通过总线通信,处理器执行机器可读指令,以执行时执行如第一方面的方法的步骤。
第四方面,本发明实施例提供一种存储介质,存储介质上存储有计算机程序,计算机程序被处理器运行时执行如第一方面的方法的步骤。
以上第二方面至第四方面的有益效果,可以参考第一方面中,在此不再赘述。
在本申请中,根据用户的经济特征信息、催收通话音频,通过XGBoost模型拟合得到风险信息评估模型,通过得到风险信息评估模型对用户进行风险信息评估。由于XGBoost模型可以在数据变量较多时提供良好的可解释性以及拟合速度,使得在用户的历史数据中变量较多时也能得到良好的可解释性,且无需长时间的拟合。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本发明实施例提供的一种风险信息评估方法的流程示意图;
图2示出了本发明另一实施例提供的一种风险信息评估方法的流程示意图;
图3示出了本发明实施例提供的风险信息评估装置的结构示意图;
图4示出了本发明另一实施例提供的风险信息评估装置的结构示意图;
图5示出了本发明实施例提供的终端设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,应当理解,本发明中附图仅起到说明和描述的目的,并不用于限定本发明的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本发明中使用的流程图示出了根据本发明的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本发明内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
另外,本发明所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明实施例中将会用到术语“包括”,用于指出其后所声明的特征的存在,但并不排除增加其它的特征。还应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。在本发明的描述中,还需要说明的是,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
图1示出了一种风险信息评估方法的流程示意图。该方法可以应用于终端设备,如台式电脑、服务器、定制终端或移动终端等,在此不做限制。
参考图1,该方法包括:
S101、获取用户的经济特征信息、催收通话音频。
一些实施方式中,用户的经济特征信息包括用户的外部征信信息和内部征信信息。其中,外部信息可以包括如消费记录、所有银行的存款等信息。而内部信息则可以包括银行内部数据集。例如,可以利用银行内部数据集、中国人民银行征信系统、政府系统等,搜集影响银行对公客户还款的因素及数据。
作为示例,可以将经济特征信息分为不同的维度,如身份信息特征(包括企业成立年限、企业规模、担保信息)、账户信息维度(包括存款余额、存款年日均余额、存贷比)、财报信息维度(包括表内外欠息、净利润、销售收入、营业收入)、交易信息维度(包括年累计交易次数、近一月交易金额、季度累计交易金额)、经营信息(包括注册资本、实收资本)、风险特征(包括授信客户四分类代)、产品信息(包括理财产品持有个数、电子对账签约标志)、行为特征(包括历史逾期天数、历史逾期次数、历史逾期本金利息)、银监客户风险统计数据(包括总资产、总负债、是否被列入监管、洗钱风险等级)等。
而催收通话音频,则是指当用户进行贷款后,在贷后还款期间,存在用户需进行催收的过程,才得以还款的时,催收电话的通话录音。对于通话录音中的关键词进行分析,可以用于评估用户违约的原因。
S102、对经济特征信息和催收通话音频进行预处理。
一些实施方式中,对经济特征信息和催收通话音频进行预处理可以包括:
若经济特征信息中存在缺失值,则采用预设的预估算法,对缺失值进行预估处理。其中,对于连续型变量,可以采用均值、中位数或利用k近邻的方法对于缺失值进行预估。而对于类别型变量,则可以将缺失值作为一种类别特征进行处理。
若经济特征信息中的违约特征信息与未违约特征信息的比例大于预设阈值,则对经济特征信息进行过采样处理或统一纲量处理。其中,过采样处理可以将部分连续变量进行离散化处理,可以通过等值划分(按照值域均分)和等量划分(按照样本数均分)的方式进行。而统一量纲处理则可以对特征信息进行归一化。
通过马尔可夫模型将催收通话音频识别为催收通话文本。对催收通话文本进行语义分割,通过预设的语义识别模型,获取催收通话音频中的违约关键词。
作为示例,可以通过文本分词对词语进行分割,在采用最大匹配分词(MaximumMatching Segment,MMSeg)算法得到以空格分割的词语序列。然后利用连续词汇(Continuous Bag-of-Words,CBOW)模型通过词的上下文信息,预测出词向量。再采用k均值聚类算法(k-means clustering algorithm,k-means)对所有的词向量进行聚类,选择聚类程度较高的词簇,构出关键词网络。最后获取到正负样本的录音文本的关键词,得出相关的数据集。
S103、根据预处理后的数据获取违约特征信息,违约特征信息包括违约相关的经济特征信息以及催收通话音频中的违约关键词。
一些实施方式中,以贷款违约为例,对于影响用户违约的因素较多,且存在高度相似的变量因素(一个违约特征即一个变量因素)。为了在拟合模型过程中,避免过拟合的情况。需要对变量进行筛选降维。如剔除原本特征中与违约的相关性较低的特征。
由于原始数据集(违约特征信息)特征较多,降维过程是对特征的计算组合构成新特征,可以采用主成分分析技术(principal components analysis,PCA)、独立成分分析(independent component analysis,ICA)、线性判别式分析(linear discriminantanalysis,LDA)等方法,本申请对此不做限制。
而特征筛选可以通过最大信息系数(MIC)、皮尔森相关系数(衡量变量间的线性相关性)、正则化方法(L1或L2)、基于模型的特征排序等方法,在此不做限制。
S104、通过XGBoost模型,根据违约特征信息进行参数拟合,得到风险信息评估模型。
参考图2,图2示出了另一种风险信息评估方法的流程示意图,其中包括:
S1041、根据预设的时间窗获取违约特征信息中每个特征的特征信息以及特征标签。
其中,在模型训练之前,可以先根据预设时间窗提取违约特征信息中每个特征的特征信息以及特征标签。如,以每个季度为时间窗提取特征。
S1042、根据每个特征信息以及特征标签,通过XGBoost模型进行参数拟合,得到风险信息评估模型。
需要说明的是,XGBoost是在梯度提升树(Gradient Boosting Decison Tree,GBDT)的基础上进行改进得来的。XGBoost可以根据特征分裂来生长一棵树,并不断地添加树。每次添加的一个树,是去拟合上次预测的残差而得到新函数。XGBoost可以逐次迭代来提高模型性能。在XGBoost训练完成得到k棵树后,即可以得到风险信息评估模型。
在得到风险信息评估模型之后,可通过预测一个样本的分数验证风险信息评估模型性能。风险信息评估模型会根据这个样本的特征,在每棵树中会落到对应的一个叶子节点,每个叶子节点就对应一个分数,最后将每棵树对应的分数加起来即可得到改样本的预测值。
其中,风险信息评估模型性能包括精确度、召回率、精密度、F1-score以及ROC。
精确度(Accuracy)为分类器正确分类的样本数与总数之比,可通过以下公式计算:
其中,TP为表示预测存在且真实存在的样本,TN是预测不存在但是真实存在的样本数,FP为预测存在但是真实不存在的样本数,FN预测不存且真实不存在的样本数。
召回率(Recall)即敏感性(sensitivity),也可以称之为真阳性率(Truepositive rate,TPR)。可以表征用于衡量分类器正确预测某一类实例的能力,可通过以下公式计算:
相应的,特异性(specificity),也就是假阳性率(False positive rate,FPR),可通过以下公式计算:
精密度(Precision)为预测存在的正确率,可通过以下公式计算:
F1-score是精度和召回率的谐波平均值,可通过以下公式计算:
ROC曲线是一个分类模型效果好坏评判的可视化表示。ROC曲线的纵轴为TPR,横轴为FPR,ROC曲线上每个坐标点的取值范围为(0,0)至(1,1)。ROC曲线将坐标系分为两个部分,曲线下覆盖的面积称为曲线下面积(AUC)。AUC越高,则表示该模型的效果越好。
S105、根据风险信息评估模型对用户进行风险评估。
最后,可以将用户的经济特征信息输入得到风险信息评估模型,以评估其具有风险的概率。例如,可以将用户的经济特征信息输入,评估其贷款违约的风险。
在本申请中,根据用户的经济特征信息、催收通话音频,通过XGBoost模型拟合得到风险信息评估模型,通过得到风险信息评估模型对用户进行风险信息评估。由于XGBoost模型可以在数据变量较多时提供良好的可解释性以及拟合速度,使得在用户的历史数据中变量较多时也能得到良好的可解释性,且无需长时间的拟合。
参考图3,本发明实施例提供了一种风险信息评估装置,包括:
获取模块31,用于获取用户的经济特征信息、催收通话音频。
预处理模块32,用于对经济特征信息和催收通话音频进行预处理。
获取模块31,还用于根据预处理后的数据获取违约特征信息,违约特征信息包括违约相关的经济特征信息以及催收通话音频中的违约关键词。
拟合模块33,用于通过极端梯度提升XGBoost模型,根据违约特征信息进行参数拟合,得到风险信息评估模型。
评估模块34,用于根据风险信息评估模型对用户进行风险评估。
一些实施方式中,预处理模块32,具体用于若经济特征信息中存在缺失值,则采用预设的预估算法,对缺失值进行预估处理。
一些实施方式中,预处理模块32,具体用于若经济特征信息中的违约特征信息与未违约特征信息的比例大于预设阈值,则对经济特征信息进行过采样处理或统一纲量处理。
一些实施方式中,预处理模块32,具体用于通过马尔可夫模型将催收通话音频识别为催收通话文本。对催收通话文本进行语义分割,通过预设的语义识别模型,获取催收通话音频中的违约关键词。
一些实施方式中,获取模块31,具体用于采用预设的特征筛选算法,对预处理后的数据中的高相似度变量、违约的低相关度变量进行筛选剔除,得到违约特征信息。
一些实施方式中,拟合模块34,具体用于根据预设的时间窗获取违约特征信息中每个特征的特征信息以及特征标签。根据每个特征信息以及特征标签,通过XGBoost模型进行参数拟合,得到风险信息评估模型。
一些实施方式中,参考图4,该装置还包括验证模块35,用于验证风险信息评估模型的精确度、召回率、精密度、F1-score以及ROC。
上述装置可以集成于服务器、计算机等设备,本发明在此不作限制。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,该深度学习模型训练装置的具体工作过程,可以参考前述方法实施例中所述的深度学习模型训练方法的对应过程,本发明中不再赘述。
应该理解,以上所描述的装置实施例仅仅是示意性的,本发明实施例所揭露的装置和方法,也可以通过其它的方式实现。例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得用户终端或司机终端执行本发明各个实施例所述方法的全部或部分步骤。
也即,本领域内的技术人员应明白,本发明实施例可以采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式中的任一种实现。
基于此,本发明实施例还提供一种程序产品,该程序产品可以是U盘、移动硬盘、ROM、RAM、磁碟或者光盘等存储介质,存储介质上可以存储有计算机程序,计算机程序被处理器运行时执行如前述方法实施例中所述的深度学习模型训练方法的步骤。具体实现方式和技术效果类似,在此不再赘述。
可选地,本发明实施例还提供一种电子设备,该电子设备可以是服务器、计算机等设备,图5示出了本发明实施例提供的电子设备的结构示意图。
如图5所示,该电子设备3可以包括:处理器301、存储介质302和总线303,存储介质302存储有处理器301可执行的机器可读指令,当电子设备运行时,处理器301与存储介质302之间通过总线303通信,处理器301执行机器可读指令,以执行时执行如前述实施例中所述的深度学习模型训练方法的步骤。具体实现方式和技术效果类似,在此不再赘述。
为了便于说明,在上述电子设备中仅描述了一个处理器。然而,应当注意,一些实施例中,本发明中的电子设备还可以包括多个处理器,因此本发明中描述的一个处理器执行的步骤也可以由多个处理器联合执行或单独执行。
以上仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (6)
1.一种风险信息评估方法,其特征在于,所述方法包括:
获取用户的经济特征信息、催收通话音频;
对所述经济特征信息和所述催收通话音频进行预处理,所述对所述经济特征信息和所述催收通话音频进行预处理,包括:
若所述经济特征信息中的违约特征信息与未违约特征信息的比例大于预设阈值,则对所述经济特征信息进行过采样处理或统一纲量处理;
根据预处理后的数据获取违约特征信息,所述违约特征信息包括违约相关的经济特征信息以及所述催收通话音频中的违约关键词,所述根据预处理后的数据获取违约特征信息,包括:
采用预设的特征筛选算法,对所述预处理后的数据中的高相似度变量、违约的低相关度变量进行筛选剔除,得到所述违约特征信息;
通过极端梯度提升XGBoost模型,根据所述违约特征信息进行参数拟合,得到风险信息评估模型,所述通过XGBoost模型,根据所述违约特征信息进行参数拟合,得到风险信息评估模型,包括:
根据预设的时间窗获取所述违约特征信息中每个特征的特征信息以及特征标签;
根据每个所述特征信息以及所述特征标签,通过XGBoost模型进行参数拟合,得到风险信息评估模型,在得到风险信息评估模型之后,包括:
验证所述风险信息评估模型的精确度、召回率、精密度、均衡平均数F1-score以及接收机工作特性曲线ROC;
根据所述风险信息评估模型对用户进行风险评估。
2.根据权利要求1所述的方法,其特征在于,所述对所述经济特征信息和所述催收通话音频进行预处理,包括:
若所述经济特征信息中存在缺失值,则采用预设的预估算法,对所述缺失值进行预估处理。
3.根据权利要求1所述的方法,其特征在于,所述对所述经济特征信息和所述催收通话音频进行预处理,包括:
通过马尔可夫模型将所述催收通话音频识别为催收通话文本;
对所述催收通话文本进行语义分割,通过预设的语义识别模型,获取所述催收通话音频中的违约关键词。
4.一种风险信息评估装置,其特征在于,所述装置包括:
获取模块,用于获取用户的经济特征信息、催收通话音频;
预处理模块,用于对所述经济特征信息和所述催收通话音频进行预处理,所述对所述经济特征信息和所述催收通话音频进行预处理,包括:
若所述经济特征信息中的违约特征信息与未违约特征信息的比例大于预设阈值,则对所述经济特征信息进行过采样处理或统一纲量处理;
所述获取模块,还用于根据预处理后的数据获取违约特征信息,所述违约特征信息包括违约相关的经济特征信息以及所述催收通话音频中的违约关键词,所述根据预处理后的数据获取违约特征信息,包括:
采用预设的特征筛选算法,对所述预处理后的数据中的高相似度变量、违约的低相关度变量进行筛选剔除,得到所述违约特征信息;
拟合模块,用于通过极端梯度提升XGBoost模型,根据所述违约特征信息进行参数拟合,得到风险信息评估模型;
拟合模块,用于根据预设的时间窗获取所述违约特征信息中每个特征的特征信息以及特征标签,根据每个所述特征信息以及所述特征标签,通过XGBoost模型进行参数拟合,得到风险信息评估模型;
验证模块,用于验证风险信息评估模型的精确度、召回率、精密度、F1-score以及ROC;
评估模块,用于根据所述风险信息评估模型对用户进行风险评估。
5.一种终端设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行时执行如权利要求1至3任一项所述的方法的步骤。
6.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至3任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110091235.6A CN112927719B (zh) | 2021-01-22 | 2021-01-22 | 风险信息评估方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110091235.6A CN112927719B (zh) | 2021-01-22 | 2021-01-22 | 风险信息评估方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112927719A CN112927719A (zh) | 2021-06-08 |
CN112927719B true CN112927719B (zh) | 2023-11-07 |
Family
ID=76165189
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110091235.6A Active CN112927719B (zh) | 2021-01-22 | 2021-01-22 | 风险信息评估方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112927719B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113762365A (zh) * | 2021-08-24 | 2021-12-07 | 上海数禾信息科技有限公司 | 用户意愿评估方法、装置、计算机设备和存储介质 |
CN116228398A (zh) * | 2023-02-28 | 2023-06-06 | 王宇轩 | 基于可解释提升机ebm的还款违约率预测算法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150127416A1 (en) * | 2013-11-01 | 2015-05-07 | Digital Risk Analytics, LLC | Systems, methods and computer readable media for multi-dimensional risk assessment |
CN108712586B (zh) * | 2018-04-12 | 2020-08-28 | 合肥天源迪科信息技术有限公司 | 一种信控提醒方法及装置 |
CN109063931A (zh) * | 2018-09-06 | 2018-12-21 | 盈盈(杭州)网络技术有限公司 | 一种预测货运物流司机违约概率的模型方法 |
CN110349009B (zh) * | 2019-07-02 | 2024-01-26 | 北京淇瑀信息科技有限公司 | 一种多头借贷违约预测方法、装置和电子设备 |
CN111191825A (zh) * | 2019-12-20 | 2020-05-22 | 北京淇瑀信息科技有限公司 | 用户违约预测方法、装置及电子设备 |
CN111882431A (zh) * | 2020-08-04 | 2020-11-03 | 武汉众邦银行股份有限公司 | 一种基于nlp深度学习智能消息推送方法 |
-
2021
- 2021-01-22 CN CN202110091235.6A patent/CN112927719B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112927719A (zh) | 2021-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Machine learning and sampling scheme: An empirical study of money laundering detection | |
CN108960833B (zh) | 一种基于异构金融特征的异常交易识别方法,设备及存储介质 | |
Paleologo et al. | Subagging for credit scoring models | |
CN111784502A (zh) | 异常交易账户群体识别方法及装置 | |
CN112927719B (zh) | 风险信息评估方法、装置、设备及存储介质 | |
EP3726441A1 (en) | Company bankruptcy prediction system and operating method therefor | |
CN114298176A (zh) | 一种欺诈用户检测方法、装置、介质及电子设备 | |
CN109726918A (zh) | 基于生成式对抗网络和半监督学习的个人信用确定方法 | |
Uddin et al. | An ensemble machine learning based bank loan approval predictions system with a smart application | |
CN115908022A (zh) | 一种基于网络建模的异常交易风险预警方法及系统 | |
CN115187066A (zh) | 风险识别方法、装置、电子设备及存储介质 | |
CN114240633A (zh) | 信贷风险评估方法、系统、终端设备及存储介质 | |
Lai | Default Prediction of Internet Finance Users Based on Imbalance-XGBoost | |
Hemachandran et al. | Performance analysis of k-nearest neighbor classification algorithms for bank loan sectors | |
Bhardwaj et al. | Machine learning techniques based exploration of various types of crimes in India | |
CN113011503B (zh) | 一种电子设备的数据取证方法、存储介质及终端 | |
CN114722941A (zh) | 信贷违约识别方法、装置、设备和介质 | |
CN112446505B (zh) | 一种元学习建模方法及装置、电子设备、存储介质 | |
CN115237970A (zh) | 数据预测方法、装置、设备、存储介质及程序产品 | |
CN115114851A (zh) | 基于五折交叉验证的评分卡建模方法及装置 | |
Sinaga et al. | Data Mining Classification Of Filing Credit Customers Without Collateral With K-Nearest Neighbor Algorithm (Case study: PT. BPR Diori Double) | |
Lubis et al. | Knn method on credit risk classification with binary particle swarm optimization based feature selection | |
CN111461420A (zh) | 模型预测结果的解释方法和装置 | |
CN113283979A (zh) | 一种贷款申请人的贷款信用评估方法、装置及存储介质 | |
Desrousseaux et al. | Identify Theft Detection on e-Banking Account Opening. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |