CN117556225B - 一种人行征信数据风险管理系统 - Google Patents
一种人行征信数据风险管理系统 Download PDFInfo
- Publication number
- CN117556225B CN117556225B CN202410049225.XA CN202410049225A CN117556225B CN 117556225 B CN117556225 B CN 117556225B CN 202410049225 A CN202410049225 A CN 202410049225A CN 117556225 B CN117556225 B CN 117556225B
- Authority
- CN
- China
- Prior art keywords
- data
- analysis
- external
- data set
- expert
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 claims abstract description 128
- 230000008451 emotion Effects 0.000 claims abstract description 72
- 230000002159 abnormal effect Effects 0.000 claims abstract description 68
- 230000004927 fusion Effects 0.000 claims abstract description 40
- 238000012502 risk assessment Methods 0.000 claims abstract description 37
- 238000007405 data analysis Methods 0.000 claims abstract description 29
- 238000000605 extraction Methods 0.000 claims abstract description 25
- 238000012544 monitoring process Methods 0.000 claims abstract description 18
- 238000007781 pre-processing Methods 0.000 claims abstract description 15
- 238000011156 evaluation Methods 0.000 claims abstract description 6
- 230000006399 behavior Effects 0.000 claims description 34
- 239000000284 extract Substances 0.000 claims description 19
- 238000000034 method Methods 0.000 claims description 18
- 230000008859 change Effects 0.000 claims description 15
- 230000008878 coupling Effects 0.000 claims description 12
- 238000010168 coupling process Methods 0.000 claims description 12
- 238000005859 coupling reaction Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 7
- 230000005856 abnormality Effects 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 238000003066 decision tree Methods 0.000 claims description 6
- 241000287127 Passeridae Species 0.000 claims description 3
- 238000002955 isolation Methods 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 3
- 238000013433 optimization analysis Methods 0.000 claims description 3
- 238000007637 random forest analysis Methods 0.000 claims description 3
- 238000005215 recombination Methods 0.000 claims description 3
- 230000006798 recombination Effects 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 238000013450 outlier detection Methods 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims 1
- 238000011835 investigation Methods 0.000 description 10
- 238000010801 machine learning Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000013058 risk prediction model Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Databases & Information Systems (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种人行征信数据风险管理系统,系统包括数据采集模块、数据预处理模块、特征提取模块、专家分析模块、外部分析模块、动态分析模块、特征融合模块、异常数据分析模块、风险预测模块,由专家分析模块结合外部分析模块的分析结果对专家数据进行情感倾向分析得到专家经验特征,动态分析模块对第一数据集和外部数据集进行动态变量监测,并对数据指标进行标记,特征融合模块结合外部分析模块、专家分析模块和动态分析模块的分析结果实现外部数据集与第一数据集之间的数据融合,得到第二数据集,再由风险评估模块根据第二数据集进行人行征信数据风险评估,大大提高了人行征信数据风险分析的效率和准确性。
Description
技术领域
本发明涉及风险管理技术领域,具体涉及一种人行征信数据风险管理系统。
背景技术
人行征信数据是指中国人民银行征信系统所收集和整理的关于企业和个人的信用信息,信用信息中包括个人信息、信用交易信息和其他信息,现有技术中多采用机器学习方法对企业和个人进行风险评估,但是人行征信数据中用户的数据完备程度是不同的,人行征信数据为训练集,训练集的完备性直接影响机器学习训练的结果;特别是当发生社会实时变化事件时,用户的人行征信数据的更新需要一个过程,信息更新的不同步性对数据分析的结果产生影响,风险分析过程的特征变量分析也应将与人行征信数据相关的外部数据考虑在内,而外部数据不能直接提供有价值的信息;为了提高人行征信数据风险预测的准确性,对用户的信用风险进行动态监控与预测,实现对金融机构、企业和个人的信用状况进行监管,本发明提出了一种人行征信数据风险管理系统。
发明内容
针对上述情况,为了克服现有技术之缺陷,本发明之目的提供了一种人行征信数据风险管理系统,系统对包括人行征信数据的第一数据集和外部数据进行动态监控分析,当外部数据异常改变时,动态分析模块对外部数据集与第一数据集之间的关系进行动态分析,由特征融合模块对第一数据集和外部数据集进行选择的融合得到第二数据集,解决了人行征信数据与外部数据之间更新不同步的问题,并通过专家数据的分析将情感影响因素考虑在人行征信数据风险分析过程中,大大提高了人行征信数据风险分析的效率和准确性。
一种人行征信数据风险管理系统,包括数据采集模块、数据预处理模块、特征提取模块、专家分析模块、外部分析模块、动态分析模块、特征融合模块、异常数据分析模块、风险评估模块;
所述数据采集模块获取用户的第一数据集和外部数据集,并由所述数据预处理模块对第一数据集和外部数据集进行数据预处理,提炼数据中的信息维度;
所述特征提取模块分别提取第一数据集和外部数据集的特征参量;
进一步地,由所述外部分析模块对用户的外部数据集进行分析,提取外部数据集中用户相关的图像数据、音视频数据和文本数据,利用SURF特征提取技术提取图像的关键特征,再结合用户的音视频数据和文本数据对用户的行为分析得到用户的行为数据集,外部分析模块再对用户的所有行为进行情感描述得到用户情感词典;
进一步地,再由所述专家分析模块对专家数据库中专家的发言、报告、学术论文和著作进行文本分析,提取专家数据中的关键词和语义关系,并得到关键词的情感词汇列表,构建专家情感词典,将专家情感词典与用户情感词典的重组记为融合情感词典,根据融合情感词典对专家的观点进行情感倾向分析得到专家分析结果;
特别地,所述动态分析模块对用户的第一数据集和外部数据集进行变量监控,分别提取用户的人行征信数据报告和外部数据中数据监控的数据指标,计算无数据异常时第一数据集与外部数据集中数据指标变化幅度平衡的关联系数,当外部数据集的数据指标变化异常时,所述异常数据分析模块对外部数据集的数据指标进行异常数据分析得到异常率,再根据异常率和关联系数对人行征信数据的特征参数变化进行验证分析得到耦合参量特征,将对应的数据指标进行标记;
所述特征融合模块根据标记的数据指标将第一数据集与外部数据进行融合得到第二数据集,再由所述风险评估模块根据客户的第二数据集进行对应的风险评估分析。
所述动态分析模块对用户的第一数据集和外部数据集的进行动态监控,当异常数据分析模块检测到数据异常时,对发生数据异常的数据指标进行根因分析,确定异常数据指标的信息维度,再调取异常数据指标对应异常客户的外部数据集,由外部分析模块进行客户行为分析,同时利用搜索引擎提取异常的数据指标相关的专家数据,由专家分析模块对专家数据进行情感倾向分析得到情感加权系数,当外部数据指标发生异常时,建立情感加权下第一数据集与外部数据集之间的耦合关联关系。
所述特征融合模块结合第一数据集与外部数据集之间的耦合关联关系进行数据特征融合,所述风险评估模块对用户进行风险评估时,确定数据分析的目标函数,提取标记过的数据指标中与目标函数相关的行外特征,将行外特征与人行征信数据中的特征参数进行组合变换创建新的数据特征,行外特征包括专家经验特征和耦合参量特征。
所述专家分析模块对外部数据中的专家数据进行特征提取,利用TF-IDF的关键词提取技术提取专家发表的发言、报告、学术论文和著作中文本的语义关键词,通过计算词语的TF词频和IDF逆文档频率来评价词语的重要性,再根据关键词组件语义网络,将专家的文本转化为节点和边的集合,再结合融合情感词典对专家的文本进行情感分析,得到专家的情感倾向和专家经验特征。
所述外部分析模块是对外部数据中不同类型的数据进行融合分析的过程,利用不同传感器分别对外部数据中的测量结果进行特征提取和分类判决,然后计算概率分配值,N个传感器对目标进行敌我识别,得到概率分配值m1,m2,...,mN,再使用Dempster-Shafer方法计算概率矩阵中元素的值对应项的乘积,并将空集概率清零,并进行概率的归一化得到决策级融合结果,将同一用户的不同类型的外部数据特征进行特征融合得到用户的行为特征,再对行为数据集进行情感描述与评估得到用户情感词典。
所述异常数据分析模块根据行为特征构建Isolation Forests算法对外部数据进行异常分析,利用随机森林算法训练数据集得到多个决策组成的森林,每颗决策树都独立地对输入的数据进行分类,再根据不同决策树分类结果的统计分布计算异常得分,对异常得分进行判断,将异常得分高于设定阈值的样本判定为异常点,并计算数据指标对应的异常率。
所述数据采集模块获取的第一数据集包括人行征信数据和行内衍生数据,人行征信数据报告中包括用户的基本信息、贷款信息、财务信息,外部数据中包括专家数据、第三方数据和公共数据,按照时间戳更新人行征信数据报表内的对应数据,外部数据与人行征信数据报表的数据更新速度不同,当外部数据中数据更新速度大于人行征信数据更新速度时,通过对外部数据的数据分析结果进行分析得到第二数据集。
所述风险评估模块根据用户的信用风险进行评估,提取用户的第一数据集和对应用户的外部数据,利用外部数据的分析过程降低信息熵,将第一数据集经过数据融合分析得到第二数据集,利用麻雀种群搜索方法对所有特征参数组成的训练集进行训练,根据特征参数对应的位置变化进行优化分析得到最优评估参数,再结合优化后的最优评估参数建立预测模型,并得到风险预测结果。
由于以上技术方案的采用,本发明与现有技术相比具有以下优点:
1、本发明的动态分析模块对外部数据集与第一数据集中数据指标的动态变化和采集过程进行变量监控,当第一数据集与外部数据集之间的数据指标均无变化异常时,动态分析模块对二者之间的关联关系进行分析,当外部数据集中的数据指标发生异常变化时,动态分析模块结合外部数据集正常时刻的分析结果对异常变化进行分析,并确定耦合参量特征,并对对应的数据指标进行标记,通过动态分析模块对第一数据集和外部数据集实现了数据动态监测,当对数据进行风险评估时,大大提高了数据风险分析的效率。
2、本发明的外部分析模块对外部数据进行目标决策分析,将外部数据集中不同类型的图像数据、音频数据和文本数据进行融合分析,不同类型的传感器采集的数据经过特征提取和归一化计算,得到用户的行为数据集,并对用户的行为进行情感评价得到用户情感词典,同时专家分析模块根据专家数据库中专家数据进行情感分析,根据用户情感词典与专家情感词典融合得到的情感词典对专家进行情感倾向分析,在特征融合过程中将情感因素计算在内,提高了风险决策的准确性。
3、当外部数据发生异常时,通过外部分析模块、专家分析模块和动态分析模块对外部数据进行的分析,将无直接关联的外部数据集与第一数据集进行合并得到第二数据集,将复杂的外部数据按照标记有选择的与第一数据结合,简化了复杂的数据结构,降低了数据冗余带来的分析困难的问题,人行征信数据与外部数据的变化不同步时,降低了数据不完备的影响。
附图说明
图1为本发明的整体分析流程图;
图2为本发明中整体模块图;
图3为本发明的动态分析模块的分析流程图。
具体实施方式
有关本发明的前述及其他技术内容、特点与功效,在以下配合参考附图1到附图3对实施例的详细说明中,将可清楚的呈现。本申请的实施方式及实施方式中的特征可以相互组合,说明书中所使用的术语为本发明的技术领域技术人员通常理解的含义。
人行征信数据是指中国人民银行征信系统所收集和整理的关于企业和个人的信用信息,人行征信数据中包括基本身份信息、职业信息、贷款账户信息、信贷交易概要信息、非信贷交易概要;基本身份信息中包括姓名、性别、身份证号、家庭住址、出生日期、工作单位、联系电话,贷款账户信息中包括贷款、信用卡、担保、逾期记录、社会信用记录;人行征信报告(包括企业征信报告和个人征信报告)是获取企业贷款人在同业的贷款表现信息的重要来源,但征信风险不会体现在人行报告中;通过对人行征信数据实时监测和分析征信数据,及时的发现潜在风险时,并发出风险预警,帮助个人用户、企业和金融机构及时采取措施,防止潜在的信用风险,通过风险评估识别潜在的欺诈行为、恶意拖欠债务的行为以及其他不良信用行为;
训练数据的完备性和人行征信数据特征提取的好坏直接影响风险预测模型的效果,对风险特征提取过程进行特征优化以提高风险分析的准确性;人行征信数据具有一定的权威性,但是在实际数据采集过程中,不同机构的数据更新过程存在不同步的问题,不同的单位采集的数据之间存在信息孤岛,在紧急事件的影响下,外部数据发生了异常变化,而人行征信数据及相关监测的数据指标无异常变化时,基于人行征信数据分析的风险分析效果大打折扣,为了降低数据更新的不同步性,本发明提出了一种人行征信数据风险管理系统,包括数据采集模块、数据预处理模块、特征提取模块、专家分析模块、外部分析模块、动态分析模块、特征融合模块、异常数据分析模块、风险评估模块;
如附图1整体分析流程图所示:
所述数据采集模块获取用户的第一数据集和外部数据集,并由所述数据预处理模块对第一数据集和外部数据集进行数据预处理,提炼数据中的信息维度;数据采集模块通过获取人行征信数据报告的形式获取征信数据和行内衍生数据,数据的来源包括但不限于银行、金融机构、信贷公司和其他数据提供商,第一数据集是与人行征信数据直接相关的数据信息;外部数据集是与征信数据间接相关的数据,但是当外部数据发生异常变化时,产生的影响不直接对人行征信数据风险分析产生影响,例如,外部数据受到数据窃取、网络监听、数据篡改的数据威胁时,人行征信数据风险评估过程也会被数据威胁;所述数据预处理模块对采集到的数据进行清洗和标准化,以确保数据的准确性和一致性,去除重复信息、纠正错误数据以及将不同格式或标准的数据进行整合和转换;
所述特征提取模块分别提取第一数据集和外部数据集的特征参量;人行征信数据报告的特征参量包括贷款金额、贷款期限、还款状态等,特征提取模块根据对应的数据集建立特征工程对提取的特征进行优化,外部分析模块对外部数据集进行数据分析时,外部数据对应的信息熵大,选取的特征变量的数据规模较大,为了实现数据信息的调用,对特征的进行选取,构建的用户特征矩阵为:
模块输入矩阵为:
Y=(y1,y2,...,yj)T,
其中,X为用户特征矩阵,Xmn表示用户第m个数据指标在第n个特征上的表现,即值的大小,yj表示第j个用户是外部数据,Xmn为不同传感器获取的数据在对应位置作用的总和;
所述外部分析模块对用户的外部数据集进行分析,提取外部数据集中用户相关的图像数据、音视频数据和文本数据,利用SURF特征提取技术提取图像的关键特征,再结合用户的音视频数据和文本数据对用户的行为分析得到用户的行为数据集,外部分析模块得到行为数据集的过程记为外部数据特征提取的过程,特征提取模块提取外部数据的特征,并进行特征优化,特征字段对应用户的行为数据,外部分析模块再对用户的所有行为进行情感描述得到用户情感词典;
通过对数据集的训练分析预测人行征信数据风险,所述专家分析模块对专家数据库中专家的发言、报告、学术论文和著作进行文本分析,提取专家数据中的关键词和语义关系,并得到关键词的情感词汇列表,构建专家情感词典,将专家情感词典与用户情感词典的重组记为融合情感词典,根据融合情感词典对专家的观点进行情感倾向分析得到专家分析结果;
所述动态分析模块对用户的第一数据集和外部数据集进行变量监控,分别提取用户的人行征信数据报告和外部数据中数据监控的数据指标,计算无数据异常时第一数据集与外部数据集中数据指标变化幅度平衡的关联系数,当外部数据集的数据指标变化异常时,所述异常数据分析模块对外部数据集的数据指标进行异常数据分析得到异常率,再根据异常率和关联系数对人行征信数据的特征参数变化进行验证分析得到耦合参量特征,将对应的数据指标进行标记;
所述特征融合模块根据标记的数据指标将第一数据集与外部数据进行融合得到第二数据集,再由所述风险评估模块根据客户的第二数据集进行对应的风险评估分析,利用深度神经网络(DNN)对从第一数据集和外部数据集中提取的原始特征,根据目标函数进行特征融合得到新的特征,再新的特征表示输入到另一个模型中进行分类或预测。
如附图3动态分析模块的分析流程图所示:
所述动态分析模块对用户的第一数据集和外部数据集的进行动态监控,动态分析模块同时对第一数据集和外部数据集进行监测时,监测的数据指标数据更新速度与数据指标的更新内容处于动态变化的状态,所述异常数据分析模块对更新速度和更显数据值进行异常检测,动态分析模块对第一数据集和外部数据集中不同数据指标的更新速度v和更新数据值xi的分布进行动态分析,并计算正常情况下,第一数据集与外部数据集的关联系数,当异常数据分析模块检测到数据异常时,对发生数据异常的数据指标进行根因分析,确定异常数据指标的信息维度,再调取异常数据指标对应异常客户的外部数据集,在外部数据的采集过程中,外部数据中存在内在因果关系,当一个变量监测的数据指标发生变化时,外部数据中其他数据指标随之变化,由外部分析模块进行客户行为分析,同时利用搜索引擎提取异常的数据指标相关的专家数据,由专家分析模块对专家数据进行情感倾向分析得到情感加权系数,当外部数据指标发生异常时,建立情感加权下第一数据集与外部数据集之间的关联关系。
所述特征融合模块结合第一数据集与外部数据集之间的耦合关联关系进行数据特征融合,所述风险评估模块对用户进行风险评估时,确定数据分析的目标函数,提取标记过的数据指标中与目标函数相关的行外特征,将行外特征与人行征信数据中的特征参数进行组合变换创建新的数据特征,行外特征包括专家经验特征和耦合参量特征。
所述专家分析模块对外部数据中的专家数据进行特征提取,利用TF-IDF的关键词提取技术提取专家发表的发言、报告、学术论文和著作中文本的语义关键词,通过计算词语的TF(词频)和IDF(逆文档频率)来评价词语的重要性,再根据关键词组件语义网络,将专家的文本转化为节点和边的集合,再结合融合情感词典对专家的文本进行情感分析,得到专家的情感倾向和专家经验特征,在人行征信数据风险的分析过程中,不同地域的人民群众受到不同的文化背景和情感倾向因素影响,将专家数据的分析结果与风险预测结合大大提高了风险预测的准确性,但当专家与用户的情感环境不同时,且不同的专家数据之间存在差异,若专家的言论脱离了实际群众的生活情感常识,则专家发布的专家数据则不具有权威性,仅仅对专家数据和用户数据进行单一分析得到情感倾向结果不具有代表性,就会失去参考意义。
所述外部分析模块是对外部数据中不同类型的数据进行融合分析的过程,用户特征矩阵中对应元素Xmn的值为外部数据作用的总和,不同类型传感器获取不同类型外部数据,在对特征进行融合分析前,先进过数据转换,利用不同传感器分别对外部数据中的测量结果进行特征提取和分类判决,然后计算概率分配值,N个传感器对目标进行敌我识别,得到概率分配值m1,m2,...,mN,再使用Dempster-Shafer方法计算概率矩阵中元素的值对应项的乘积,并将空集概率清零,并进行概率的归一化得到决策级融合结果,将同一用户的不同类型的外部数据特征进行特征融合得到用户的行为特征,再对行为数据集进行情感描述与评估得到用户情感词典,不通过的行为对应不同的特征时段,对行为数据集内的总有行为数据进行分析,提取数据中与情感相关的特征,例如社交内的互动次数,并匹配对应的情感词典,将所有行为的情感特征配到的情感词典的集合记为用户情感词典。
所述异常数据分析模块根据行为特征构建Isolation Forests离群值检测算法对外部数据进行异常分析,利用随机森林算法训练数据集得到多个决策组成的森林,每颗决策树都独立地对输入的数据进行分类,再根据不同决策树分类结果的统计分布计算异常得分,对异常得分进行判断,将异常得分高于设定阈值的样本判定为异常点,并计算数据指标对应的异常率,阈值的设定是外部数据所述技术领域的分析基础,异常数据分析模块计算得到的异常率根据关联系数推测出相关数据指标的变化率,变化率的异常判定指标不同,动态分析模块再根据第一数据集内匹配到的变化率进行数据分析得到耦合参量特征。
所述数据采集模块获取的第一数据集包括人行征信数据和行内衍生数据,人行征信数据报告中包括用户的基本信息、贷款信息、财务信息,行内衍生数据是根据与人行征信数据的相关关系确定的,不同数据来源的数据信息由于保密性共享程度是不同的,外部数据集与第一数据集的关联经过数据分析得到,外部数据中包括专家数据、第三方数据和公共数据,按照时间戳更新人行征信数据报表内的对应数据,外部数据与人行征信数据报表的数据更新速度不同,当外部数据中数据更新速度大于人行征信数据更新速度时,通过对外部数据的数据分析结果进行分析得到第二数据集,将第一数据集与标记的数据指标对应的数据进行融合,在第二数据集中数据指标对应的外部数据与专家数据的分析结果,通过对外部数据的分析提高第一数据集的完备性。
所述风险评估模块根据用户的信用风险进行评估,提取用户的第一数据集和对应用户的外部数据,利用外部数据的分析过程降低信息熵,将第一数据集经过数据融合分析得到第二数据集,利用麻雀种群搜索方法对所有特征参数组成的训练集进行训练,根据特征参数对应的位置变化进行优化分析得到最优评估参数,再结合优化后的最优评估参数建立预测模型,并得到风险预测结果,基于机器学习的风险评估模型能够从大量的征信数据中学习规律和模式,从而对借款人的信用风险进行准确评估,风险评估模块预测模型中构造目标函数,并通过最优搜索算法对第二数据集进行训练,提取最优评估参数,大大提高了风险评估的准确性。
本发明具体实用时,如附图2整体模块图所示,系统包括数据采集模块、数据预处理模块、特征提取模块、专家分析模块、外部分析模块、动态分析模块、特征融合模块、异常数据分析模块、风险评估模块,数据采集模块获取用户的第一数据集和外部数据集,并由数据预处理模块对第一数据集和外部数据集进行数据预处理,提炼数据中的信息维度,所述特征提取模块分别提取外部数据集的特征参量,再由外部分析模块对外部数据集进行数据分析得到行为数据集,并对行为数据集进行情感描述得到用户情感词典,所述专家分析模块对专家数据库中专家的发言、报告、学术论文和著作进行文本分析,提取专家数据中的关键词和语义关系,并得到关键词的情感词汇列表,构建专家情感词典,将用户情感词典和专家情感词典进行融合,再对专家的进行情感倾向分析得到专家经验特征,所述动态分析模块对第一数据集和外部数据集进行动态变量监测,并对外部数据集中与第一数据集关联的数据指标进行标记,所述特征融合模块结合外部分析模块、专家分析模块和动态分析模块的分析结果实现外部数据集与第一数据集之间的数据融合,得到第二数据集,再由风险评估模块根据第二数据集进行人行征信数据风险评估,识别潜在的欺诈行为等不良信用行为,通过动态变量的监测构建无直接关联关系的数据之间的关系,并将情感特征的分析结果考虑在内,当数据的更新速度不同步时,大大搞了人行征信数据风险分析的效率和准确性。
以上所述是结合具体实施方式对本发明所作的进一步详细说明,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (7)
1.一种人行征信数据风险管理系统,其特征在于,包括数据采集模块、数据预处理模块、特征提取模块、专家分析模块、外部分析模块、动态分析模块、特征融合模块、异常数据分析模块、风险评估模块;
所述数据采集模块获取用户的第一数据集和外部数据集,第一数据集包括人行征信数据和行内衍生数据,人行征信数据报告中包括用户的基本信息、贷款信息、财务信息,外部数据中包括专家数据、第三方数据和公共数据,并由所述数据预处理模块对第一数据集和外部数据集进行数据预处理,提炼数据中的信息维度;
所述特征提取模块分别提取第一数据集和外部数据集的特征参量,根据对应的数据集建立特征工程对提取的特征进行优化;
所述外部分析模块对用户的外部数据集进行分析,提取外部数据集中用户相关的图像数据、音视频数据和文本数据,利用SURF特征提取技术提取图像的关键特征,再结合用户的音视频数据和文本数据对用户的行为分析得到用户的行为数据集,外部分析模块再对用户的所有行为进行情感描述得到用户情感词典;
所述专家分析模块对专家数据库中专家的发言、报告、学术论文和著作进行文本分析,提取专家数据中的关键词和语义关系,并得到关键词的情感词汇列表,构建专家情感词典,将专家情感词典与用户情感词典的重组记为融合情感词典,根据融合情感词典对专家的观点进行情感倾向分析得到专家分析结果;
所述动态分析模块对用户的第一数据集和外部数据集进行变量监控,分别提取用户的人行征信数据报告和外部数据中数据监控的数据指标,计算无数据异常时第一数据集与外部数据集中数据指标变化幅度平衡的关联系数,当外部数据集的数据指标变化异常时,所述异常数据分析模块对外部数据集的数据指标进行异常数据分析得到异常率,再根据异常率和关联系数对人行征信数据的特征参数变化进行验证分析得到耦合参量特征,将对应的数据指标进行标记;
所述特征融合模块根据标记的数据指标将第一数据集与外部数据进行融合得到第二数据集,再由所述风险评估模块根据客户的第二数据集进行对应的风险评估分析;
所述动态分析模块对用户的第一数据集和外部数据集的进行动态监控,当异常数据分析模块检测到数据异常时,对发生数据异常的数据指标进行根因分析,确定异常数据指标的信息维度,再调取异常数据指标对应异常用户的外部数据集,由外部分析模块进行行为分析,同时利用搜索引擎提取异常的数据指标相关的专家数据,由专家分析模块对专家数据进行情感倾向分析得到情感加权系数,当外部数据指标发生异常时,建立情感加权下第一数据集与外部数据集之间的关联关系。
2.根据权利要求1所述的一种人行征信数据风险管理系统,其特征在于,所述特征融合模块结合第一数据集与外部数据集之间的耦合关联关系进行数据特征融合,所述风险评估模块对用户进行风险评估时,确定数据分析的目标函数,提取标记过的数据指标中与目标函数相关的行外特征,将行外特征与人行征信数据中的特征参数进行组合变换创建新的数据特征,行外特征包括专家经验特征和耦合参量特征。
3.根据权利要求1所述的一种人行征信数据风险管理系统,其特征在于,所述专家分析模块对外部数据中的专家数据进行特征提取,利用TF-IDF的关键词提取技术提取专家发表的发言、报告、学术论文和著作中文本的语义关键词,通过计算词语的TF词频和IDF逆文档频率来评价词语的重要性,再根据关键词组件语义网络,将专家的文本转化为节点和边的集合,再结合融合情感词典对专家的文本进行情感分析,得到专家的情感倾向和专家经验特征。
4.根据权利要求1所述的一种人行征信数据风险管理系统,其特征在于,所述外部分析模块是对外部数据中不同类型的数据进行融合分析的过程,利用不同传感器分别对外部数据中的测量结果进行特征提取和分类判决,然后计算概率分配值,N个传感器对目标进行敌我识别,得到概率分配值m1,m2,...,mN,再使用Dempster-Shafer方法计算概率矩阵中元素的值对应项的乘积,并将空集概率清零,并进行概率的归一化得到决策级融合结果,将同一用户的不同类型的外部数据特征进行特征融合得到用户的行为特征,再对行为数据集进行情感描述与评估得到用户情感词典。
5.根据权利要求1所述的一种人行征信数据风险管理系统,其特征在于,所述异常数据分析模块根据行为特征构建Isolation Forests离群值检测算法对外部数据进行异常分析,利用随机森林算法训练数据集得到多个决策组成的森林,每颗决策树都独立地对输入的数据进行分类,再根据不同决策树分类结果的统计分布计算异常得分,对异常得分进行判断,将异常得分高于设定阈值的样本判定为异常点,并计算数据指标对应的异常率。
6.根据权利要求1所述的一种人行征信数据风险管理系统,其特征在于,
所述数据采集模块获取的第一数据集包括人行征信数据和行内衍生数据,人行征信数据报告中包括用户的基本信息、贷款信息、财务信息,外部数据中包括专家数据、第三方数据和公共数据,按照时间戳更新人行征信数据报表内的对应数据,外部数据与人行征信数据报表的数据更新速度不同,当外部数据中数据更新速度大于人行征信数据更新速度时,通过对外部数据的数据分析结果进行分析得到第二数据集。
7.根据权利要求1所述的一种人行征信数据风险管理系统,其特征在于,所述风险评估模块根据用户的信用风险进行评估,提取用户的第一数据集和对应用户的外部数据,利用外部数据的分析过程降低信息熵,将第一数据集经过数据融合分析得到第二数据集,利用麻雀种群搜索方法对所有特征参数组成的训练集进行训练,根据特征参数对应的位置变化进行优化分析得到最优评估参数,再结合优化后的最优评估参数建立预测模型,并得到风险预测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410049225.XA CN117556225B (zh) | 2024-01-12 | 2024-01-12 | 一种人行征信数据风险管理系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410049225.XA CN117556225B (zh) | 2024-01-12 | 2024-01-12 | 一种人行征信数据风险管理系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117556225A CN117556225A (zh) | 2024-02-13 |
CN117556225B true CN117556225B (zh) | 2024-04-05 |
Family
ID=89820969
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410049225.XA Active CN117556225B (zh) | 2024-01-12 | 2024-01-12 | 一种人行征信数据风险管理系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117556225B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117876103B (zh) * | 2024-03-12 | 2024-06-18 | 杭银消费金融股份有限公司 | 一种人行征信用户画像搭建方法及系统 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107644375A (zh) * | 2016-07-22 | 2018-01-30 | 花生米浙江数据信息服务股份有限公司 | 一种专家模型与机器学习模型融合的小商户信用评估方法 |
CN108596495A (zh) * | 2018-04-26 | 2018-09-28 | 浙江工业大学 | 一种零售信贷业务评分系统及方法 |
CN108629686A (zh) * | 2018-05-09 | 2018-10-09 | 国家计算机网络与信息安全管理中心 | 基于大数据的互联网金融企业征信风险分析方法和系统 |
WO2019080407A1 (zh) * | 2017-10-25 | 2019-05-02 | 深圳壹账通智能科技有限公司 | 信贷评估方法、装置、设备及计算机可读存储介质 |
CN110866819A (zh) * | 2019-10-18 | 2020-03-06 | 华融融通(北京)科技有限公司 | 一种基于元学习的自动化信贷评分卡生成方法 |
AU2020103340A4 (en) * | 2020-11-10 | 2021-01-21 | Guizhou Provincial Center For Disease Control And Prevention | A Physical and Chemical Data Analysis System for Food Safety Risk Monitoring |
CN114066242A (zh) * | 2021-11-11 | 2022-02-18 | 北京道口金科科技有限公司 | 一种企业风险的预警方法及装置 |
CN114595909A (zh) * | 2020-12-03 | 2022-06-07 | 国家电网有限公司大数据中心 | 一种电费回收风险评估方法和系统 |
CN114997588A (zh) * | 2022-05-05 | 2022-09-02 | 深圳市星火电子工程公司 | 一种金融企业风险识别预警方法及系统 |
CN115018625A (zh) * | 2022-05-27 | 2022-09-06 | 上海孚厘科技有限公司 | 征信融合报告生成方法、装置、设备及存储介质 |
CN115330120A (zh) * | 2022-07-08 | 2022-11-11 | 苏州数智源信息技术有限公司 | 一种海关数据风控类型识别系统 |
CN115456793A (zh) * | 2022-09-06 | 2022-12-09 | 山东大学 | 一种用户投资决策的智能风险控制系统 |
CN116664012A (zh) * | 2023-07-19 | 2023-08-29 | 深圳市爱为物联科技有限公司 | 一种基于大数据分析的企业信用评估方法及系统 |
CN116861331A (zh) * | 2023-06-16 | 2023-10-10 | 四川三闲人网络科技有限公司 | 一种融合专家模型决策的数据识别方法及系统 |
CN117012389A (zh) * | 2023-07-27 | 2023-11-07 | 哈尔滨学院 | 一种心理健康状态评估系统及评估方法 |
CN117237095A (zh) * | 2023-09-28 | 2023-12-15 | 杭银消费金融股份有限公司 | 基于大数据分析的小微金融行业风险预警与监测平台 |
-
2024
- 2024-01-12 CN CN202410049225.XA patent/CN117556225B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107644375A (zh) * | 2016-07-22 | 2018-01-30 | 花生米浙江数据信息服务股份有限公司 | 一种专家模型与机器学习模型融合的小商户信用评估方法 |
WO2019080407A1 (zh) * | 2017-10-25 | 2019-05-02 | 深圳壹账通智能科技有限公司 | 信贷评估方法、装置、设备及计算机可读存储介质 |
CN108596495A (zh) * | 2018-04-26 | 2018-09-28 | 浙江工业大学 | 一种零售信贷业务评分系统及方法 |
CN108629686A (zh) * | 2018-05-09 | 2018-10-09 | 国家计算机网络与信息安全管理中心 | 基于大数据的互联网金融企业征信风险分析方法和系统 |
CN110866819A (zh) * | 2019-10-18 | 2020-03-06 | 华融融通(北京)科技有限公司 | 一种基于元学习的自动化信贷评分卡生成方法 |
AU2020103340A4 (en) * | 2020-11-10 | 2021-01-21 | Guizhou Provincial Center For Disease Control And Prevention | A Physical and Chemical Data Analysis System for Food Safety Risk Monitoring |
CN114595909A (zh) * | 2020-12-03 | 2022-06-07 | 国家电网有限公司大数据中心 | 一种电费回收风险评估方法和系统 |
CN114066242A (zh) * | 2021-11-11 | 2022-02-18 | 北京道口金科科技有限公司 | 一种企业风险的预警方法及装置 |
CN114997588A (zh) * | 2022-05-05 | 2022-09-02 | 深圳市星火电子工程公司 | 一种金融企业风险识别预警方法及系统 |
CN115018625A (zh) * | 2022-05-27 | 2022-09-06 | 上海孚厘科技有限公司 | 征信融合报告生成方法、装置、设备及存储介质 |
CN115330120A (zh) * | 2022-07-08 | 2022-11-11 | 苏州数智源信息技术有限公司 | 一种海关数据风控类型识别系统 |
CN115456793A (zh) * | 2022-09-06 | 2022-12-09 | 山东大学 | 一种用户投资决策的智能风险控制系统 |
CN116861331A (zh) * | 2023-06-16 | 2023-10-10 | 四川三闲人网络科技有限公司 | 一种融合专家模型决策的数据识别方法及系统 |
CN116664012A (zh) * | 2023-07-19 | 2023-08-29 | 深圳市爱为物联科技有限公司 | 一种基于大数据分析的企业信用评估方法及系统 |
CN117012389A (zh) * | 2023-07-27 | 2023-11-07 | 哈尔滨学院 | 一种心理健康状态评估系统及评估方法 |
CN117237095A (zh) * | 2023-09-28 | 2023-12-15 | 杭银消费金融股份有限公司 | 基于大数据分析的小微金融行业风险预警与监测平台 |
Non-Patent Citations (3)
Title |
---|
Credit Risk Assessment Using BP Neural Network with Dempster-Shafer Theory;Lin Lin 等;2009 International Conference on Artificial Intelligence and Computational Intelligence;20091231;397-401 * |
Uncertainty Modelling in Risk Assessment Based on Dempster-Shafer Theory of evidence and with generalized fuzzy focal elements;Palash Dutta;Fuzzy information and Engineering;20151231;15-30 * |
互联网金融信用风险分析与大数据征信体系构建;赵海蕾 等;中小企业管理与科技;20151231;230-233 * |
Also Published As
Publication number | Publication date |
---|---|
CN117556225A (zh) | 2024-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109165840B (zh) | 风险预测处理方法、装置、计算机设备和介质 | |
US20210049700A1 (en) | System and method for machine learning architecture for enterprise capitalization | |
CN117556225B (zh) | 一种人行征信数据风险管理系统 | |
CN104321794A (zh) | 一种使用多维评级来确定一实体的未来商业可行性的系统和方法 | |
CN111583012B (zh) | 融合文本信息的信用债发债主体违约风险评估方法 | |
Habiba et al. | A comparative study on fake job post prediction using different data mining techniques | |
CN113742733B (zh) | 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置 | |
CN108492001A (zh) | 一种用于担保贷款网络风险管理的方法 | |
Rouhollahi | Towards artificial intelligence enabled financial crime detection | |
CN115908022A (zh) | 一种基于网络建模的异常交易风险预警方法及系统 | |
Sun | The incremental informativeness of the sentiment of conference calls for internal control material weaknesses | |
Wu et al. | Tedm-pu: A tax evasion detection method based on positive and unlabeled learning | |
CN111951093A (zh) | 一种个人信用分评分方法 | |
de Jesus et al. | Machine learning and sentiment analysis: Projecting bank insolvency risk | |
Liu et al. | Attentive feature fusion for credit default prediction | |
Zhang et al. | Can sentiment analysis help mimic decision-making process of loan granting? A novel credit risk evaluation approach using GMKL model | |
CN112102069A (zh) | 一种个人房产按揭贷款信息录入分析系统 | |
CN111598691A (zh) | 信用债发债主体违约风险评估方法、系统及装置 | |
CN116245645A (zh) | 一种基于图神经网络的金融类罪团伙检测方法 | |
CN116681383A (zh) | 一种基于大数据分析的文化企业画像方法 | |
Ravula | Bankruptcy prediction using disclosure text features | |
CN114266646A (zh) | 基于网联摘要计算的用户消费行为监测分析方法及系统 | |
Fan et al. | Unearthing Financial Statement Fraud: Insights from News Coverage Analysis | |
CN113222471A (zh) | 一种基于新媒体数据的资产风控方法及设备 | |
Lee et al. | Application of machine learning in credit risk scorecard |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |