一种金融贷款数字化信息管理系统架构
技术领域
本发明涉及数字化信息管理技术领域,具体为一种金融贷款数字化信息管理系统架构。
背景技术
数字化信息管理是将传统的纸质或非数字形式的信息转化为电子数据,并通过计算机和相关技术进行存储、处理、传输和管理的过程。它涉及将各种类型的信息转换为数字形式,以便更方便地进行存储、检索、共享和分析,然而在金融贷款领域内,金融贷款数据化信息管理是将金融机构在贷款业务中产生的各类数据进行数字化处理和管理的过程。它包括将贷款申请、客户信息、财务数据、还款记录等相关信息转化为电子形式,并通过计算机系统进行存储、处理、传输和管理。
对此,中国申请公开号CN116402477A的专利文件,公开了一种档案数字化信息管理系统,档案数字化信息管理系统是由档案综合管理系统、权限管理数据库、登入验证系统、档案入库管理系统、档案数据库组成。本发明中,在档案入库操作过程中,基于证书信息和印章信息生成对应数字证书、电子签章,作为检索相关条件,并基于内容项识别单元运作,达成标题、内容识别效果,对档案文件进行数字化处理,并提取关键词和短句,过滤无效词汇并生成档案词汇表,基于数据标签建立改写单元运作生成档案的状态标签以及特征标签,并基于此在管理过程中建立状态索引、特征索引、特征门类索引,以此达成对于档案数据高自动化、准确性的归类管理功能,确保审核、处理工作的高效执行。
在金融贷款中,信息的审核是十分重要的,由于信息可能存在不准确性和延时性,这可能导致银行在审核贷款申请时出现问题,影响贷款审批的速度和结果,导致这样问题发生的主要原因是信息审核效率慢,对比分析及其审批的周期较长。
针对上述问题,为此,提出一种金融贷款数字化信息管理系统架构。
发明内容
本发明的目的在于提供一种金融贷款数字化信息管理系统架构,解决了背景技术中的数据处理效率低审批周期长的问题。
为实现上述目的,本发明提供如下技术方案:一种金融贷款数字化信息管理系统架构,包括用户界面层、应用服务层、数据访问层、第三方接口层和数据库层;
用户界面层,用户通过页面进行账户注册和登录操作,访问和管理贷款信息,用户填写贷款申请;
应用服务层,处理用户请求,进行业务逻辑处理;
数据访问层,对用户提供的贷款提供相关证明文件、雇主或其他相关机构核实信息的真实性;
数据访问层包括数据验证和内部审查,内部审查;
内部审查中实行文件审查,确定文件命名规则,同时确定文件存储的主要位置,从文件中提取文本数据,利用分词工具jieba将文本数据进行分词处理,将连续的文本序列切分成有意义的单词或短语,去除无意义的词汇,并且分析得到该词汇的词频,使用TF-IDF方法计算每个词汇的权重,使用倒排索引等方法将词汇和对应的文件进行关联,建立索引,当用户输入查询词汇时,检索索引,找到所有包含该词汇的文件,根据权重对文件进行排序,并返回搜索结果;
内部审查资料提取包括:
S1,资料提取,资料提取访问本地数据库,数据经过加密算法和密钥,对选定的数据对象进行加密操作,加密后的数据存储在数据库中或独立的数据文件中,客户端访问加密文件并使用解密工具,对加密文件进行解密操作;
S2,资料分为入库资料和未入库资料;
S3,对入库资料进行读档;
S4,主动提取未入库的资料;
S5,对主动提取的入库资料进行系统审核,系统审核判定结果未审核通过、未审核或审核不通过;
S6,审核通过对资料文件进行提取,未审核或审核不通过判定未提取失败;
第三方的数据,读取第三方数据,对数据进行解析、转换格式、存储的处理;
第三方数据中对数据安全性进行检测,包括数据验证、数据整合和数据更新;
内部审查和第三方数据进行数据对比,实行数据评估。
优选的,文件中提取文本数据,使用程序语言中的文件读取函数或库来读取待处理的文本文件,将文件内容加载到程序中,使用正则表达式对读取到的文本数据进行清洗,去除一些特殊字符、标点符号、HTML标签等非文本内容。
优选的,TF-IDF方法计算词汇权重;
计算词频,对于给定的文档,统计每个词在文档中出现的频率,对于给定的文档集合,统计包含特定词汇的文档数量,并计算逆文档频率,将词频(TF)和逆文档频率(IDF)相乘,得到词汇的TF-IDF值,对于每个文档中的词汇TF-IDF向量,计算其L2范数(即向量的长度),将每个词汇TF-IDF向量中的每个分量都除以该向量的L2范数,从而得到单位向量。
优选的,内部审查中数据加密包括以下步骤:
a.对选定的数据对象进行序列化;
b.使用密钥和加密算法对序列化数据对象进行加密操作;
c.将加密后的数据对象存储在数据库中。
优选的,数据库分为本地数据库和拓展数据库,其中本地数据库和扩展数据库均由防火墙进行环境安全监测,数据访问需经过解密访问,并自行生成访问记录。
优选的,第三方提供的数据进行预处理,进行缺失值处理、异常值处理、数据标准化处理,第三方提供的全部特征作为输入,利用L1正则化进行特征选择,L1正则化的目标函数为:
LossFunction+α*||W||1,其中LossFunction为损失函数,W为特征系数向量,α为正则化参数,||W||1为W的L1范数,将数据集划分为训练集和验证集,对于每个α值,利用训练集进行模型训练,然后在验证集上计算模型性能指标,选择使得性能最优的α值,确定正则化参数α后,使用全部的数据训练模型,并得到特征系数向量W,使用测试集对训练好的模型进行测试,计算模型的性能指标,绘制ROC曲线评估模型性能的指标,利用训练好的模型对新的第三方数据进行判断。
优选的,第三方数据的数据集划分为训练集和测试集,训练集用于构建可信度判断模型,按照70%-80%的比例划分训练集,30%-20%划分为测试集。
优选的,根据逻辑回归模型的定义,将输入特征通过sigmoid函数映射到0-1之间的概率值,对于二分类问题,假设标签为0或1,预测值为y_pred,真实值为y_true;
交叉熵损失函数可以表示为:
Loss=-[y_true*log(y_pred)+(1-y_true)*log(1-y_pred)];
log表示自然对数;
将损失函数应用于训练集的每个样本,并计算其平均值。
优选的,随机初始化模型参数,权重w和偏置b,迭代地对每个样本进行训练,计算损失函数关于模型参数的偏导数,对于交叉熵损失函数,偏导数可以表示为:
dw=(y_pred-y_true)*x;
db=(y_pred-y_true);
其中,x表示输入特征,y_pred表示模型的预测输出,y_true表示真实标签;
根据梯度的反方向,沿着损失函数下降的方向更新参数,更新规则可以表示为:
w=w-learning_rate*dw
b=b-learning_rate*db
其中,learning_rate表示学习率,控制更新参数的步长和方向,重复以上步骤,直到达到停止条件。
优选的,第三方数据和内部审核数据进行对比,将待评估的数据与基准数据进行对比,预测为正例的样本数;
计算公式为:精确度=预测正确的正例数/预测为正例的样本数,根据评估结果。
与现有技术相比,本发明的有益效果如下:
1、本发明提供的一种金融贷款数字化信息管理系统架构,数据质量评估:通过计算数据的准确度进行评估,可以更加客观地评估数据的质量,发现数据的准确性问题,并及时采取改进措施,并且为数据的可信度提供客观的评价,使得数据的使用者能够更加信任数据的准确性,准确的数据是正确决策的基础,通过评估数据的准确度,为后续的数据分析和决策提供了更为可靠的支持,做出更加准确的决策,为数据质量管理提供了参考,促进了数据质量的持续改进和优化。
附图说明
图1为本发明的系统架构示意图;
图2为本发明内部审查流程图;
图3为本发明第三方数据流程图;
图4为本发明内部审查和第三方数据评估示意图;
图5为本发明内部审查系统程序图;
图6为本发明第三方数据评估判定图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为进一步了解本发明的内容,结合附图对本发明作详细描述。
结合图1-图6,本发明的一种金融贷款数字化信息管理系统架构,包括用户界面层、应用服务层、数据访问层、第三方接口层和数据库层;
用户界面层,用户通过页面进行账户注册和登录操作,访问和管理贷款信息,用户填写贷款申请;
应用服务层,处理用户请求,进行业务逻辑处理;
数据访问层,对用户提供的贷款提供相关证明文件、雇主或其他相关机构核实信息的真实性;
数据访问层包括数据验证和内部审查,内部审查;
内部审查中实行文件审查,确定文件命名规则,根据文件版本的标识方式,创建不同的文件版本类别,同时确定文件存储的主要位置,从文件中提取文本数据,文件中提取文本数据,使用程序语言中的文件读取函数或库来读取待处理的文本文件,将文件内容加载到程序中,使用正则表达式对读取到的文本数据进行清洗,去除一些特殊字符、标点符号、HTML标签等非文本内容,利用分词工具jieba将文本数据进行分词处理,将连续的文本序列切分成有意义的单词或短语,去除无意义的词汇,并且分析得到该词汇的词频,使用TF-IDF方法计算每个词汇的权重,TF-IDF方法计算词汇权重;
计算词频,对于给定的文档,统计每个词在文档中出现的频率,对于给定的文档集合,统计包含特定词汇的文档数量,并计算逆文档频率,将词频(TF)和逆文档频率(IDF)相乘,得到词汇的TF-IDF值,对于每个文档中的词汇TF-IDF向量,计算其L2范数(即向量的长度),将每个词汇TF-IDF向量中的每个分量都除以该向量的L2范数,从而得到单位向量,使用倒排索引等方法将词汇和对应的文件进行关联,建立索引,当用户输入查询词汇时,检索索引,找到所有包含该词汇的文件,根据权重对文件进行排序,并返回搜索结果;
内部审查资料提取包括:
4.S1,资料提取,资料提取访问本地数据库,数据经过加密算法和密钥,对选定的数据对象进行加密操作,内部审查中数据加密包括以下步骤:
a.对选定的数据对象进行序列化;
b.使用密钥和加密算法对序列化数据对象进行加密操作;
c.将加密后的数据对象存储在数据库中;
数据库分为本地数据库和拓展数据库,其中本地数据库和扩展数据库均由防火墙进行环境安全监测,数据访问需经过解密访问,并自行生成访问记录;
加密后的数据存储在数据库中或独立的数据文件中,客户端访问加密文件并使用解密工具,对加密文件进行解密操作;
S2,资料分为入库资料和未入库资料,创建入库资料文件夹,数据管理系统或文件系统中创建一个用于存储入库资料的文件夹,并设定适当的访问权限,对待处理的资料进行检查,以判断其是否符合入库标准,对每个资料进行评估和审核,对于符合入库标准的资料,将其移动到事先创建的入库资料文件夹中,使用文件管理来执行此操作;
对于未符合入库标准的资料,标记为未入库资料,使用特定的标识符或标签来标记这些资料,以便稍后进行进一步处理,对于每个入库资料,记录相关的信息,有助于跟踪和管理入库资料;
定期回顾和检查未入库资料,以确定是否可以重新评估它们是否符合入库标准或采取其他处理措施。
S3,对入库资料进行读档;
S4,主动提取未入库的资料;
S5,对主动提取的入库资料进行系统审核,系统审核判定结果未审核通过、未审核或审核不通过;
S6,审核通过对资料文件进行提取,未审核或审核不通过判定未提取失败;读取已入库资料:根据相关的标识符或文件名等信息来检索已入库的资料,主动提取未入库资料,定期检查未入库资料,并根据需要主动提取,对尚未入库的资料进行评估,以确定其是否符合入库标准,将符合标准的资料移动到入库文件夹中,进行系统审核:对主动提取的入库资料进行系统审核,确定审核所需的标准或条件,并将资料与这些标准进行比较,根据审核结果,将资料标记为审核通过、未审核或审核不通过,处理审核结果,对于审核通过的资料,可以进行进一步的处理和使用,对于未审核或审核不通过的资料,您可以选择重新评估或采取其他处理措施。
记录每个资料的审核结果,包括审核时间、审核人员及审核状态等信息。
第三方的数据,读取第三方数据,对数据进行解析、转换格式、存储的处理,第三方数据中对数据安全性进行检测,包括数据验证、数据整合和数据更新;
第三方提供的数据进行预处理,进行缺失值处理、异常值处理、数据标准化处理,第三方提供的全部特征作为输入,利用L1正则化进行特征选择,L1正则化的目标函数为:
LossFunction+α*||W||1,其中LossFunction为损失函数,W为特征系数向量,α为正则化参数,||W||1为W的L1范数,将数据集划分为训练集和验证集,对于每个α值,利用训练集进行模型训练,然后在验证集上计算模型性能指标,选择使得性能最优的α值,确定正则化参数α后,使用全部的数据训练模型,并得到特征系数向量W,使用测试集对训练好的模型进行测试,计算模型的性能指标,绘制ROC曲线评估模型性能的指标,利用训练好的模型对新的第三方数据进行判断;
第三方数据的数据集划分为训练集和测试集,训练集用于构建可信度判断模型,按照70%-80%的比例划分训练集,30%-20%划分为测试集,根据逻辑回归模型的定义,将输入特征通过sigmoid函数映射到0-1之间的概率值,对于二分类问题,假设标签为0或1,预测值为y_pred,真实值为y_true;
交叉熵损失函数可以表示为:
Loss=-[y_true*log(y_pred)+(1-y_true)*log(1-y_pred)];
log表示自然对数;
将损失函数应用于训练集的每个样本,并计算其平均值;
随机初始化模型参数,权重w和偏置b,迭代地对每个样本进行训练,计算损失函数关于模型参数的偏导数,对于交叉熵损失函数,偏导数可以表示为:
dw=(y_pred-y_true)*x;
db=(y_pred-y_true);
其中,x表示输入特征,y_pred表示模型的预测输出,y_true表示真实标签;
根据梯度的反方向,沿着损失函数下降的方向更新参数,更新规则可以表示为:
w=w-learning_rate*dw
b=b-learning_rate*db
其中,learning_rate表示学习率,控制更新参数的步长和方向,重复以上步骤,直到达到停止条件;
内部审查和第三方数据进行数据对比,实行数据评估,第三方数据和内部审核数据进行对比,将待评估的数据与基准数据进行对比,预测为正例的样本数;
计算公式为:精确度=预测正确的正例数/预测为正例的样本数,根据评估结果。
通过内部审查和第三方数据结合对用户信息进行评估,其中具体是,首先客户提交贷款申请,申请后对客户提交的文本资料进行格式规范性审核,其次对用户的信息进行审核,审核的范围包括了个人的征信,身份信息等,通过这些信息对用户贷款进行评估,但是目前市场上的审核机制数据更新较慢,主要体现在,数据提取慢以及资料未审核或者审核后未上传,针对这种缺陷,涉及在内部审核时,主动去提取未审核或者审核未上传的资料,针对未审核的资料不参与评估,对于审核未上传的资料直接提取过来进行评估,这样可以加快审核周期,另外和第三方数据进行对比审核,在对第三方提供的数据进行评估,判断可信度,如果可信度相对较高则和内部审核资料进行对比审核,如果第三方提供的资料可信度较低,则仅作为参考资料不作为决策资料,通过内部审核资料和第三方资料进行结合,对用户信息进行评估,一方面可以提高审核速度,另外一方面可以提高数据的准确性。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解为在不脱离本发明的原理和精神的情况下对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。