CN117290508A - 一种基于自然语言处理的贷后文本数据处理方法和系统 - Google Patents
一种基于自然语言处理的贷后文本数据处理方法和系统 Download PDFInfo
- Publication number
- CN117290508A CN117290508A CN202311342109.9A CN202311342109A CN117290508A CN 117290508 A CN117290508 A CN 117290508A CN 202311342109 A CN202311342109 A CN 202311342109A CN 117290508 A CN117290508 A CN 117290508A
- Authority
- CN
- China
- Prior art keywords
- post
- data
- text
- credit
- text data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003058 natural language processing Methods 0.000 title claims abstract description 68
- 238000003672 processing method Methods 0.000 title claims description 21
- 238000012545 processing Methods 0.000 claims abstract description 101
- 238000000034 method Methods 0.000 claims abstract description 82
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 55
- 238000005516 engineering process Methods 0.000 claims abstract description 38
- 238000012549 training Methods 0.000 claims abstract description 27
- 238000007726 management method Methods 0.000 claims description 39
- 238000004458 analytical method Methods 0.000 claims description 23
- 238000012544 monitoring process Methods 0.000 claims description 21
- 238000011156 evaluation Methods 0.000 claims description 17
- 230000008451 emotion Effects 0.000 claims description 14
- 238000004519 manufacturing process Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000002790 cross-validation Methods 0.000 claims description 4
- 230000002708 enhancing effect Effects 0.000 claims description 4
- 230000008439 repair process Effects 0.000 claims description 4
- 238000012795 verification Methods 0.000 claims description 4
- 238000012896 Statistical algorithm Methods 0.000 claims description 3
- 230000036541 health Effects 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000004590 computer program Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 8
- 238000011160 research Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000003860 storage Methods 0.000 description 5
- 230000006399 behavior Effects 0.000 description 3
- 238000013145 classification model Methods 0.000 description 3
- 230000003749 cleanliness Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000010200 validation analysis Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003862 health status Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 235000014347 soups Nutrition 0.000 description 1
- 238000013517 stratification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0202—Market predictions or forecasting for commercial activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2123/00—Data types
- G06F2123/02—Data types in the time domain, e.g. time-series data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Marketing (AREA)
- Databases & Information Systems (AREA)
- General Business, Economics & Management (AREA)
- Technology Law (AREA)
- Probability & Statistics with Applications (AREA)
- Game Theory and Decision Science (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本申请提供了一种基于自然语言处理的贷后文本数据的处理方法和系统,其中,基于自然语言处理的贷后文本数据处理方法,包括:使用多种渠道收集和整理贷后文本数据;根据自然语言处理技术,对贷后文本数据进行数据修复和标准化处理,得到数据处理后的贷后文本数据;为数据处理后的贷后文本数据中每个文本样本分配状态标签;选择与贷后文本数据的数据类型对应的AI算法模型,使用文本样本和对应的状态标签训练和评估AI算法模型,得到训练完成的贷后文本大语言模型;使用贷后文本大语言模型进行贷后风险管理,得到风险管理结果并将风险管理结果输出至贷后业务系统。本申请的技术方案能解决现有技术中数据繁杂、有效数据不足且模型更新困难的问题。
Description
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种基于自然语言处理的贷后文本数据处理方法和系统。
背景技术
贷后管理是银行信贷管理的常用术语,是指从贷款发放或其他信贷业务发生后直到本息收回或信用结束的全过程的信贷管理。贷后文本数据即贷后管理所必须的文本数据。因为贷后文本数据是贷后管理的凭证,所以贷后文本数据处理技术显得尤为重要。
通常,贷后文本数据处理技术主要包括以下步骤:贷后文本数据的清洗和重建、特征提取、词嵌入、情感分析、主题建模、训练模型、模型评估和优化以及实时文本分析。传统的贷后文本数据处理存在着很多的问题,这些问题会很大程度上的限制银行和金融机构有效管理风险、提高贷款回收率以及改进客户服务。
第一,数据来源繁杂,存在多样性,因为贷后的数据通常来自不容的渠道和系统,所以导致了数据格式、结构、质量的不同,进而影响数据分类的准确性。
第二,数据量不足的问题,尤其是对于新客户或新兴市场,数据量的缺少会导致模型的训练不充分,难以建立准确的分类模型。
第三,模型更新困难:一旦建立了传统的贷后数据分类模型,更新和调整模型可能会相对复杂。由于需要重新训练和验证模型,这可能需要大量的时间和资源。
发明内容
本申请提供一种基于自然语言处理的贷后文本数据处理方案,能够解决现有技术中数据来源繁杂,种类多样,且部分数据量不足以及模型更新困难的问题。
为解决上述问题,根据本申请的第一方面,本申请提出了一种基于自然语言处理的贷后文本数据处理方法,包括:
使用多种渠道收集和整理贷后文本数据;
根据自然语言处理技术,对贷后文本数据进行数据修复和标准化处理,得到数据处理后的贷后文本数据;
为数据处理后的贷后文本数据中每个文本样本分配状态标签;
选择与贷后文本数据的数据类型对应的AI算法模型,使用文本样本和对应的状态标签训练和评估AI算法模型,得到训练完成的贷后文本大语言模型;
使用贷后文本大语言模型进行贷后风险管理,得到风险管理结果并将风险管理结果输出至贷后业务系统。
优选的,上述贷后文本数据处理方法中,根据自然语言处理技术,对贷后文本数据进行数据修复和标准化处理,得到数据处理后的贷后文本数据的步骤,包括:
使用自然语言处理技术,对贷后文本数据依次进行数据清理和数据修复;
使用自然语言处理技术和文本分析工具,对数据修复后的贷后文本数据进行标准化处理;
对标准化处理后的贷后文本数据进行增强扩大处理;
使用随机生成的隐私密钥对增强扩大处理后的贷后文本数据进行加密处理。
优选的,上述贷后文本数据处理方法中,使用自然语言处理技术和文本分析工具,对数据修复后的贷后文本数据进行标准化处理的步骤,包括:
使用自然语言处理技术和文本分析工具,对贷后文本数据进行拆分并识别贷后文本数据的语言类型;
使用自然语言处理模型,对拆分后的贷后文本数据进行实体识别,并对识别出的实体进行标记;
对贷后文本数据中的词汇进行规范化以及对实体进行标准化处理;
按照数据交互要求,对标准化处理后的贷后文本数据进行格式和标准转换;
使用数据质量指标,评估标准转换后的贷后文本数据的数据质量,当贷后文本数据的数据质量达到数据质量指标时,执行对标准化处理后的贷后文本数据进行增强扩大处理的步骤。
优选的,上述贷后文本数据处理方法中,使用随机生成的隐私密钥对增强扩大处理后的贷后文本数据进行加密处理的步骤,包括:
按照数据完整性对贷后文本数据进行分割,得到多个数据块;
使用随机生成的隐私密钥对每一数据块进行加密,分别得到每一数据块的隐私密钥;
使用私钥对整个贷后文本数据进行数字签名,将加密后的数据块和数字签名发送至接收方;
接收方使用私钥解密数据块的隐私密钥,并验证数字签名。
优选的,上述贷后文本数据处理方法,在根据自然语言处理技术,对贷后文本数据进行数据修复和标准化处理,得到数据处理后的贷后文本数据的步骤之后,方法还包括:
对数据处理后的贷后文本数据进行图结构建模,得到贷后文本数据对应的无向全连接图结构;
使用文本摘要算法包含的评估分数计算公式,计算无向全连接图结构中各节点的评估分数;
使用各节点的评估分数,从贷后文本数据中提取关键词和关键句,使用关键词和关键句组合得到贷后文本数据的摘要信息。
优选的,上述贷后文本数据处理方法,选择与贷后文本数据的类型对应的AI算法模型,使用文本样本和对应的状态标签训练和评估AI算法模型的步骤,包括:
使用自然语言处理技术,提取贷后文本数据的语义特征;
使用文本统计算法,提取贷后文本数据的统计信息;
使用情感分析技术,提取贷后文本数据的情感信息;
使用主题建模技术,识别贷后文本数据的主题信息;
提取贷后文本数据的时间序列特征;
使用特征工程技术,从贷后文本数据的语义特征、统计信息、情感信息、主题信息和时间序列特征中提取文本特征,得到文本特征集。
优选的,上述贷后文本数据处理方法,选择与贷后文本数据的数据类型对应的AI算法模型,使用文本样本和对应的状态标签训练和评估AI算法模型的步骤,包括:
选择与贷后文本数据的数据类型对应的AI算法模型,将已标记的文本样本输入至AI算法模型进行训练,输出得到数据识别状态;
使用交叉验证技术评估数据识别状态,根据数据识别状态调节AI算法模型的模型参数;
重新将已标记的文本样本输入至模型参数调节后的AI算法模型,直至AI算法模型的损失函数收敛,得到贷后文本大语言模型;
使用模型性能监控指标评估贷后文本大语言模型的模型性能,当贷后文本大语言模型的模型性能达标时,将贷后文本大语言模型部署至实际生产环境中。
优选的,上述贷后文本数据处理方法,使用模型性能监控指标评估贷后文本大语言模型的模型性能的步骤,包括:
建立模型性能监控指标,使用模型性能监控指标评估贷后文本大语言模型的模型性能;
若评估贷后文本大语言模型的模型性能不达标或下降,则使用增量学习或在线学习技术重新训练贷后文本大语言模型,重新使用模型性能健康指标评估贷后文本大语言模型的模型性能;
若评估贷后文本大语言模型的模型性能达标,则使用验证数据集重新验证贷后文本大语言模型的模型性能;
当重新验证的贷后文本大语言模型的模型性能达标时,将贷后文本大语言模型部署至实际生产环境中。
优选的,上述贷后文本数据处理方法,使用贷后文本大语言模型进行贷后风险管理,得到风险管理结果并将风险管理结果输出至贷后业务系统的步骤,包括:
使用贷后文本大语言模型分析贷款数据,识别贷款数据的潜在风险因素;
使用贷后文本大语言模型分析客户数据,检测得到贷款欺诈行为;
使用贷后文本大语言模型分析催收数据,分析得到贷款催收策略;
使用贷后文本大语言模型检查贷款文件和贷款合同,检测得到合规性风险;
以及,使用贷后文本大语言模型分析市场经济数据,得到市场趋势预测结果。
根据本发明的第二方面,本发明还提供了一种基于自然语言处理的贷后文本数据处理系统,包括:
存储器、处理器及存储在存储器上并在处理器上运行的基于自然语言处理的贷后文本数据处理程序,贷后文本数据处理程序被处理器执行时实现上述任一项技术方案提供的贷后文本数据处理方法的步骤。
综上,本申请上述技术方案提供的基于自然语言处理的贷后文本数据处理方案,通过使用多种渠道收集和整理贷后文本数据,能够得到多种类型的贷后文本数据,从而为贷后文本处理和贷后风险预警提供大量的数据支撑,解决数据量不足的问题;然后使用自然语言处理技术对上述贷后文本数据进行数据修复和标准化处理,能够去除贷后文本数据的噪声,并提高贷后文本数据的信息密度,并通过标准化处理,保障数据的格式、结构和质量的一致性,从而提升数据分类和研究的准确性,解决数据来源繁杂,数据多样的问题;其次,为数据处理后的贷后文本数据中每个文本样本分配状态标签,这样就能够使用该状态标签选择对应的AI算法模型训练上述贷后文本数据,并且使用上述文本样本和对应的状态标签评估AI算法模型的训练结果,从而得到训练完成的贷后文本大语言模型,从而方便快速地更新AI算法模型,得到训练完成的贷后文本大语言模型;最后使用该贷后文本大语言模型进行贷后风险管理,能够得到风险管理结果并输出到贷后业务系统,从而帮助贷后业务系统处理数据和做出决策。综上,通过上述方案能够解决现有技术中数据来源繁杂,存在多样性;数据量不足且模型更新困难的问题。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1是本申请实施例提供的一种基于自然语言处理的贷后文本数据处理方法的流程示意图;
图2是图1所示实施例提供的一种贷后文本数据的数据处理方法的流程示意图;
图3是图2所示实施例提供的一种贷后文本数据的数据清理与修复方法的流程示意图;
图4是图2所示实施例提供的一种贷后文本数据的标准化处理方法的流程示意图;
图5是图2所示实施例提供的一种贷后文本数据的加密处理方法的流程示意图;
图6是本发明实施例提供的一种电话文本数据的摘要信息生成方法的流程示意图;
图7是图1所示实施例提供的第一种贷后文本大语言模型的训练方法的流程示意图;
图8是图1所示实施例提供的第二种贷后文本大语言模型的训练方法的流程示意图;
图9是图8所示实施例提供的一种贷后文本大语言模型的部署方法的流程示意图;
图10是图8所示实施例提供的一种贷后风险管理方法的流程示意图;
图11是本申请实施例提供的一种基于自然语言处理的贷后文本数据处理系统的结构示意图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
现有技术的技术方案存在如下技术问题:
传统的贷后文本数据处理存在着很多的问题,首先,数据来源繁杂,数据多样性高,导致数据格式、结构等不同,影响数据分类;其次,数据量往往不足,难以建立准确的分类模型;最后是模型更新困难,更新和调整模型可能会相对复杂。这些问题会很大程度上的限制银行和金融机构有效管理风险、提高贷款回收率以及改进客户服务。
为解决上述问题,本申请下述实施例提供了一种基于NLP和大语言模型的贷后智能文本处理方案,通过自然语言处理技术(NLP)对贷后文本数据进行处理和分析,利用文本摘要算法生成贷后文本的摘要信息,从而提供简洁准确的贷后文本摘要内容。通过利用大语言模型,并设置合适的指令集,实现对贷后文本数据的智能分类和标签。通过上述方法能够提供准确的分类结果和标签信息,以及通过训练处的大语言模型进行初步的贷后风险管理,并将结果输出给相关贷后业务系统,帮助贷后业务系统机构处理数据以及做决策。
为实现上述目的,参见图1,图1为本申请实施例提供的一种基于自然语言处理的贷后文本数据处理方法的流程示意图。如图1所示,该贷后文本数据处理方法包括:
S110:使用多种渠道收集和整理贷后文本数据。该步骤主要包括贷后文本数据的收集和抓取两个阶段。具体地,首先进行贷后文本数据的收集阶段,该阶段收集各种与贷款相关的历史贷后文本数据数据和实时贷后文本数据,这些数据包括但不限于还款通知、客户服务对话、电子邮件、电话记录和信用报告等。贷后文本数据的获取方法主要通过合作伙伴或金融机构、数据提供商、网络抓取、机构内部数据、社交媒体分析、调查问卷、政府和监管机构报告等渠道获取数据。其次进行贷后文本数据的抓取阶段,该阶段基于上述贷后文本数据收集阶段收集到的贷后文本数据,开发网络爬虫程序,从选定的数据源中抓取贷后文本数据。例如,能够使用Python的Beautiful Soup或Scrapy等工具自动化地抓取数据。
S120:根据自然语言处理技术,对贷后文本数据进行数据修复和标准化处理,得到数据处理后的贷后文本数据。该对贷后文本数据进行数据修复和标准化处理的方案主要包括以下四个步骤:1、贷后文本数据的清理和修复;2、贷后文本数据的标准化处理;3、贷后文本数据的数据量扩大处理;4、贷后文本数据的加密处理。通过上述方法对贷后文本数据进行数据修复和标准化,能够减少噪音并提高贷后文本数据的信息密度,并且保证数据的干净和一致性,将贷后文本数据规范化为特定格式或标准,能够满足数据交换或分析的要求。
具体地,作为一种优选的实施例,如图2所示,上述贷后文本数据处理方法中,步骤S120:根据自然语言处理技术,对贷后文本数据进行数据修复和标准化处理,得到数据处理后的贷后文本数据,具体包括:
S121:使用自然语言处理技术,对贷后文本数据依次进行数据清理和数据修复。清理和修复现有提取到的贷后文本数据,具体包括去除HTML标签、去除标记点符号、去除失效词和非字符文本等步骤。如图3所示,具体方法如下:
S1211:将S110环节收集抓取的贷后文本数据导入到本环节中。
S1212:对导入的贷后文本数据进行基本改造,包括去除HTML标签、特殊字符、多余的空格和换行符。将所有文本转换为统一的字符编码(如UTF-8)以确保一致性。
S1213:使用自然语言处理(NLP)技术和文本分析技术,检测和修复拼写错误、语法错误和语言规范错误。该步骤具体能够包括使用开源单词检查器、语法分析器和语言模型进行自动校正。
S1214:利用NLP模型执行实体识别,识别文本中的人名、地名、组织机构等实体,并进行标记。这有助于文本的语义理解和进一步分析。
S1215:去除常见的失效词,如“的”、“是”、“在”等,以减少噪音并提高文本的信息密度。
S1216:将处理后的文本数据传输到下一个环节。
图2所示实施例提供的贷后文本数据进行数据修复和标准化处理方法,还包括:
S122:使用自然语言处理技术和文本分析工具,对数据修复后的贷后文本数据进行标准化处理。该步骤主要是对贷后文本数据进行标准化处理,从而保障数据格式、结构和质量的一致性,进而提升数据分类和研究的准确性。
具体地,作为一种优选的实施例,如图4所示,上述贷后文本数据处理方法中,在S122:使用自然语言处理技术和文本分析工具,对数据修复后的贷后文本数据进行标准化处理的步骤,包括:
S1221:使用自然语言处理技术和文本分析工具,对贷后文本数据进行拆分并识别贷后文本数据的语言类型。这里对贷后文本数据进行拆分主要包括将贷后文本数据拆分为段落、句子和单词;同时识别贷后文本数据的语言,以进行同一化和规范化处理。
S1222:使用自然语言处理模型,对拆分后的贷后文本数据进行实体识别,并对识别出的实体进行标记。这里主要利用自然语言处理技术识别贷后文本数据中的人名、地名、组织机构、日期和货币等特定实体并进行标记。自然语言处理(Natural LanguageProcessing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学和数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。通过自然语言处理模型,能够快速准确地对实体进行识别和标记。
S1223:对贷后文本数据中的词汇进行规范化以及对实体进行标准化处理。本申请实施例将贷后文本数据中的词汇规范化为其基本形式,包括词干提取和词形还原;例如,将动词的各种时态还原为基本形式;去除贷后文本中的停用词,这些词汇通常不携带重要信息,如"的"、"是"以及"在"等;对文本中的数字、日期以及各种单位进行标准化,以提高数据的可比性;处理文本中的特殊字符、符号和标点符号,以确保数据的干净和一致性。
S1224:按照数据交互要求,对标准化处理后的贷后文本数据进行格式和标准转换。通过对标准化处理后的贷后文本数据规范化为特定格式或标准,能够满足数据交换或分析需求,从而保持数据的干净和一致性。
S1225:使用数据质量指标,评估标准转换后的贷后文本数据的数据质量,当贷后文本数据的数据质量达到数据质量指标时,执行对标准化处理后的贷后文本数据进行增强扩大处理的步骤。
最后,使用数据质量指标(如准确性、完整性和一致性等)对标准化后的文本数据的质量进行评估,能够准确评估贷后文本数据的质量,并进行相应的数据质量处理。具体通过制定自定义的数据质量规则,确保数据符合标准;最后,将处理后的文本数据传输到下一个环节。
图2所示实施例提供的贷后文本数据进行数据修复和标准化处理方法,还包括:
S123:对标准化处理后的贷后文本数据进行增强扩大处理。
本申请实施例从上述环节中获取标准化处理后的贷后文本数据,对这些贷后文本数据进行增强扩大处理。具体方法如下:首先,使用同义词搜索,将文本中的一些词汇替换为同义词,从而生成新的样本;然后,在文本中随机插入一些单词或删除一些单词,以生成增加的样本;最后,将文本与其他类型的数据(如图像和音频等)进行融合,从而生成多模态数据,以扩大文本数据量。
S124:使用随机生成的隐私密钥对增强扩大处理后的贷后文本数据进行加密处理。
为保障贷后文本数据的安全性并防止数据外泄,对需要对上述环节处理后的贷后文本数据进行加密处理,从而提高数据的安全性。
具体地,作为一种优选的实施例,如图5所示,上述贷后文本数据处理方法中,步骤S124:使用随机生成的隐私密钥对增强扩大处理后的贷后文本数据进行加密处理的步骤,包括:
S1241:按照数据完整性对贷后文本数据进行分割,得到多个数据块。
S1242:使用随机生成的隐私密钥对每一数据块进行加密,分别得到每一数据块的隐私密钥。
S1243:使用私钥对整个贷后文本数据进行数字签名,将加密后的数据块和数字签名发送至接收方。
S1244:接收方使用私钥解密数据块的隐私密钥,并验证数字签名。
具体地,将需要加密的贷后文本数据分割为较小的数据块,对每个数据块使用随机生成的隐私密钥进行加密,将加密后的私有密钥附加到相应的数据块上,且对于每个数据块的隐私密钥都是独立生成的,从而增加数据的安全性。然后,发送方使用其私钥对整个文本数据进行数字签名,将加密的文本数据块以及数字签名发送给接收方,以确保数据的完整性和来源验证。最后,接收方使用其私钥解密密钥,然后使用解密后的解密密钥来解密数据块。接收方还使用发送方的公钥验证数字签名,通过上述方法,能够确保贷后文本数据的完整性和来源正确,保证数据内容的安全,避免数据的外泄。
图1所示实施例提供的贷后文本数据处理方法,在对贷后文本数据进行数据处理后,还包括:
S130:为数据处理后的贷后文本数据中每个文本样本分配状态标签。本申请实施例能够利用NLP技术以及其他技术,从贷后文本数据中提取各种有意义的特征。然后使用折特征组合得到多个文本样本,并为每个文本样本分配对应的状态标签。该状态标签能够包括贷款状态(逾期、正常和结清等)、客户风险满意度和等级等。状态标签能够为二分类、多分类或连续值,具体取决于具体的贷后风险处理任务。
S140:选择与贷后文本数据的数据类型对应的AI算法模型,使用文本样本和对应的状态标签训练和评估AI算法模型,得到训练完成的贷后文本大语言模型。在获取到贷后文本数据的状态标签后,能够使用该状态标签选择与贷后文本数据的数据类型对应的AI算法模型,然后使用上述状态标签和文本样本训练和评估该AI算法模型。从而得到完整的贷后文本大语言模型。
本申请实施例在使用贷后文本数据进行AI算法模型的训练时,需要利用NLP技术以及其他数据,从贷后文本数据中提取各种有意义的文本特征。这些特征包括但不限于:词表达、主体模型和情感分析特征等。通过多次重复提取这些文本特征,能够形成文本特征集
具体地,作为一种优选的实施例,如图7所示,上述步骤S140:选择与贷后文本数据的类型对应的AI算法模型,使用文本样本和对应的状态标签训练和评估AI算法模型,具体包括:
S141:使用自然语言处理技术,提取贷后文本数据的语义特征。这里的语义特征具体能够包括词向量、句向量或文档管理数据等语义特征。
S142:使用文本统计算法,提取贷后文本数据的统计信息。这里的统计信息包括词频、字符长度、句子长度和标点符号使用频率等统计特征。这些统计特征可以用来描述文本的结构和风格。
S143:使用情感分析技术,提取贷后文本数据的情感信息。这里的情感信息包括贷后文本数据的正面、负面和中性情感分数。这些情感信息能够帮助了解贷后文本数据中的情感状态。
S144:使用主题建模技术,识别贷后文本数据的主题信息。具体能够使用主题建模技术(例如潜在狄利克雷分配LDA或非负矩阵分层NMF),来识别文本中的主题信息。这样能够帮助理解贷后文本数据的主要内容。
S145:提取贷后文本数据的时间序列特征。若贷后文本数据包含时间信息,这样能够提取得到贷后文本数据的时间序列特征,例如时间间隔、趋势和趋势等
S146:使用特征工程技术,从贷后文本数据的语义特征、统计信息、情感信息、主题信息和时间序列特征中提取文本特征,得到文本特征集。
本申请实施例提供的技术方案,利用NLP技术以及其他技术,从文本中提取各种有意义的特征。这些特征包括但不限于:词表达、主题模型和情感分析等,通过多次重复提取这些特征,形成文本特征集。通过将所有提取的文本特征组合形成一个综合的特征管理数据库中,能够便于进一步的分析和建模。另外能够利用特征工程技术选择最重要的文本特征或进行特定特征的选择。最后能够多次执行上述特征提取步骤,每次使用不同的参数或模型,得到不同的特征集;这样能够增加特征的多样性和信息量。
另外,作为一种优选的实施例,如图8所示,上述贷后文本数据处理方法,S140:选择与贷后文本数据的数据类型对应的AI算法模型,使用文本样本和对应的状态标签训练和评估AI算法模型的步骤,包括:
S147:选择与贷后文本数据的数据类型对应的AI算法模型,将已标记的文本样本输入至AI算法模型进行训练,输出得到数据识别状态。具体地,本申请实施例能够根据上述贷后文本样本对应的状态标签,选择合适的AI算法模型,这里选择的AI算法模型包括机器学习模型或深度学习模型,例如逻辑回归模型、随机森林模型和神经网络模型等。
S148:使用交叉验证技术评估数据识别状态,根据数据识别状态调节AI算法模型的模型参数。通过使用已标记的文本数据集进行模型训练,能够利用交叉验证等技术评估模型的性能,从而对模型进行参数调优。
S149:重新将已标记的文本样本输入至模型参数调节后的AI算法模型,直至AI算法模型的损失函数收敛,得到贷后文本大语言模型。在模型训练完成时,具体如AI算法模型的损失函数收敛到一定阈值以下,或者识别结果与状态标签的重合率达到一定范围,此时就能够确定AI算法模型的模型参数调节完成,即AI算法模型训练完成,此时能够使用该贷后文本大语言模型处理实际的贷后文本数据。具体设置自动化流程,使得新数据能够被持续处理并分配标签。
S1410:使用模型性能监控指标评估贷后文本大语言模型的模型性能,当贷后文本大语言模型的模型性能达标时,将贷后文本大语言模型部署至实际生产环境中。具体能够通过建立监控系统来跟踪贷后文本大语言模型的性能,以及发现潜在的互连问题。此时需要定期重新训练模型,以保持模型的准确性。
具体地,作为一种优选的实施例,如图9所示,上述贷后文本数据处理方法,步骤S1410:使用模型性能监控指标评估贷后文本大语言模型的模型性能的步骤,包括:
S1411:建立模型性能监控指标,使用模型性能监控指标评估贷后文本大语言模型的模型性能。该性能监控指标用于衡量贷后文本大语言模型的准确性和效用。模型性能监控指标能够包括精确度、召回率和F1分数等,还能够包括模型的误差率或其他相关指标。
S1412:若评估贷后文本大语言模型的模型性能不达标或下降,则使用增量学习或在线学习技术重新训练贷后文本大语言模型,重新使用模型性能健康指标评估贷后文本大语言模型的模型性能。当模型性能监控指标表明模型性能下降或不达标时,启动自动化模型重新训练流程。此时使用新收集的数据与原始训练数据合并,确保贷后文本大语言模型在更广泛的数据分布上训练。利用增量学习(Incremental Learning)或在线学习(OnlineLearning)技术,能够避免完全重新训练模型,从而节省计算资源和时间。
S1413:若评估贷后文本大语言模型的模型性能达标,则使用验证数据集重新验证贷后文本大语言模型的模型性能。
在使用验证数据集重新验证贷后文本大语言模型的模型性能时,即在重新训练贷后文本大语言模型后对新模型进行评估,以确保其性能有所改善。并使用验证数据集进行评估,检查模型的性能是否达到了预期的标准。
S1414:当重新验证的贷后文本大语言模型的模型性能达标时,将贷后文本大语言模型部署至实际生产环境中。通过进行贷后文本大语言模型的部署,若新模型的性能达到了要求,则将其部署到实际生产环境中,以用于贷后文本数据的实际应用。
模型自动更新迭代方法,具体为:建立监控系统来跟踪模型的性能,以及发现潜在的互连。定期重新训练模型,以保持模型的准确性。具体方法为:首先,监控模型性能,建立性能监控指标,用于衡量模型的准确性和效用。监控指标可以包括精确度、召回率、F1分数等,还可以包括模型的误差率或其他相关指标。当监控指标表明模型性能下降或不达标时,启动自动化模型重新训练流程。使用新收集的数据与原始训练数据合并,确保模型在更广泛的数据分布上训练。利用增量学习(Incremental Learning)或在线学习(OnlineLearning)技术,避免完全重新训练模型,从而节省计算资源和时间。然后进行新模型评估,在重新训练后,对新模型进行评估,以确保其性能有所改善。并使用验证数据集进行评估,检查模型的性能是否达到了预期的标准。最后,进行模型部署,如果新模型的性能达到了要求,将其部署到生产环境中,以用于贷后文本数据的实际应用。
图1所示实施例提供的贷后文本数据处理方法,在使用文本样本和对应的状态标签训练和评估AI算法模型,得到训练完成的贷后文本大语言模型后,还包括:
S150:使用贷后文本大语言模型进行贷后风险管理,得到风险管理结果并将风险管理结果输出至贷后业务系统。
优选的,如图10所示,上述贷后文本数据处理方法,步骤S150:使用贷后文本大语言模型进行贷后风险管理,得到风险管理结果并将风险管理结果输出至贷后业务系统的步骤,包括:
S151:使用贷后文本大语言模型分析贷款数据,识别贷款数据的潜在风险因素。贷后文本大语言模型,能够进行贷后管理的风险评估和监控。具体地,利用训练完成的贷后文本大语言模型分析大量贷款数据,能够识别潜在的风险因素,可以检测到与还款问题相关的模式,如支付延迟、收入停滞或其他不利因素,并提供警报以及建议采取措施降低风险。这里可以使用预先得到的风险因素标签和风险样本训练贷后文本大语言模型,从而识别潜在风险因素。
S152:使用贷后文本大语言模型分析客户数据,检测得到贷款欺诈行为。这里的贷款欺诈行为的检查,主要利用贷后文本大语言模型分析客户的交流信息和历史行为等数据,通过模型识别不合格行为的模式,向团队发送警报,传达风险以进一步调查欺诈团伙。这里能够预先使用欺诈行为标签和欺诈行为样本训练上述贷后文本大语言模型,从而检测得到贷款欺诈行为。
S153:使用贷后文本大语言模型分析催收数据,分析得到贷款催收策略。通过利用大语言模型分析大量催收数据,能够修改得到最有效的催收策略。根据客户的特定情况和历史表现,推荐最佳的联系方式、时间和催收信息,从而提高催收成功率。
S154:使用贷后文本大语言模型检查贷款文件和贷款合同,检测得到合规性风险。本申请实施例能够利用贷后文本大语言模型自动检查贷款文件和合同,以确保其符合法规和政策要求。防止不当的贷款做法并降低合规风险。
S155:使用贷后文本大语言模型分析市场经济数据,得到市场趋势预测结果。本申请实施例能够利用大语言模型分析金融市场和经济趋势的数据,帮助金融机构做出更明智的贷后管理决策。包括利率预测、市场变化分析和其他因素的研究。
另外,本申请实施例提供的技术方案,使用贷后文本大语言模型,还能够实现客户支持和自动化、预测风险违约以及进行客户管理;具体地,1、利用训练好的贷后文本大语言模型开发自动化客户支持系统,解答客户关于还款、账户余额和还款计划等问题。这样能够帮助减少信贷后期管理部门的工作量,提高效率,同时提供更多良好的客户体验。2、利用大语言模型根据客户的历史数据和当前情况,预测特定贷款是否可能违约。帮助金融机构采取措施,如调整还款计划或提前采取催收措施,以减少违约风险。3、利用贷后文本大语言模型帮助金融机构更好地了解客户,包括客户的偏好、需求和行为,从而有利于提供个性化的客户服务,增强客户忠诚度。
综上,本申请上述实施例提供的基于自然语言处理的贷后文本数据处理方法,通过使用多种渠道收集和整理贷后文本数据,能够得到多种类型的贷后文本数据,从而为贷后文本处理和贷后风险预警提供大量的数据支撑,解决数据量不足的问题;然后使用自然语言处理技术对上述贷后文本数据进行数据修复和标准化处理,能够去除贷后文本数据的噪声,并提高贷后文本数据的信息密度,并通过标准化处理,保障数据的格式、结构和质量的一致性,从而提升数据分类和研究的准确性,解决数据来源繁杂,数据多样的问题;其次,为数据处理后的贷后文本数据中每个文本样本分配状态标签,这样就能够使用该状态标签选择对应的AI算法模型训练上述贷后文本数据,并且使用上述文本样本和对应的状态标签评估AI算法模型的训练结果,从而得到训练完成的贷后文本大语言模型,从而方便快速地更新AI算法模型,得到训练完成的贷后文本大语言模型;最后使用该贷后文本大语言模型进行贷后风险管理,能够得到风险管理结果并输出到贷后业务系统,从而帮助贷后业务系统处理数据和做出决策。综上,通过上述方案能够解决现有技术中数据来源繁杂,存在多样性;数据量不足且模型更新困难的问题。
另外,作为一种优选的实施例,如图6所示,上述贷后文本数据处理方法,在步骤S120:根据自然语言处理技术,对贷后文本数据进行数据修复和标准化处理,得到数据处理后的贷后文本数据的步骤之后,方法还包括:
S210:对数据处理后的贷后文本数据进行图结构建模,得到贷后文本数据对应的无向全连接图结构。本申请实施例通过将贷后文本数据建模成无向全连接图结构,在该无向全连接图结构上利用PageRank迭代计算每个节点的重要性分数,从而能够提取关键节点。
对于关键词的提取,无向全连接图结构的每个节点即为文档的词,边则代表词和词之间的共现关系,即在长度为N的滑动窗口内部的所有词认为是存在共现关系的,这些词也就相互之间有边连接。这里构造的图是无边权的,
S220:使用文本摘要算法包含的评估分数计算公式,计算无向全连接图结构中各节点的评估分数;
计算每个节点Vi的评估分数的方法如下式:
其中,d存在的目的是为了使模型有一定的概率跳到图上其它随机点上,避免孤立点计算出现死循环,一般取d=0.85,初始节点分数均为1。注意上式是迭代计算的,一般设为20次;S(Vi)是节点Vi的评估分数,Vj是第j个节点。关键句对应节点的评估分数计算结果也参照关键词节点的评估分数计算方法。所不同的是关键句提取中,评估方法建立的结构图为带边权的图。
S230:使用各节点的评估分数,从贷后文本数据中提取关键词和关键句,使用关键词和关键句组合得到贷后文本数据的摘要信息。
本申请实施例,通过自然语言处理技术对贷后文本数据进行处理和分析,能够利用文本摘要算法生成贷后文本的摘要信息,从而提供简洁准确的贷后文本摘要内容。
另外,基于上述方法实施例的同一构思,本申请实施例还提供了贷后文本数据处理系统,用于实现本申请的上述方法,由于该系统实施例解决问题的原理与方法相似,因此至少具有上述实施例的技术方案所带来的所有有益效果,在此不再一一赘述。
参见图11,图11为本申请实施例提供的一种基于自然语言处理的贷后文本数据处理系统的结构示意图。如图11所示,该基于自然语言处理的贷后文本数据处理系统,包括:
处理器1001、通信线路1002、通信模块1003、存储器1004及存储在存储器1004上并在处理器1001上运行的基于自然语言处理的贷后文本数据处理程序,贷后文本数据处理程序被处理器执行时实现上述任一项实施例提供的贷后文本数据处理方法的步骤。
本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例,本实施例在此不再赘述。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
本申请的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例提供的宠物健康状态的线上预测方法的步骤。
在一个示例性实施例中,上述计算机可读存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM和光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
应当注意的是,在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本申请可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (10)
1.一种基于自然语言处理的贷后文本数据处理方法,其特征在于,包括:
使用多种渠道收集和整理贷后文本数据;
根据自然语言处理技术,对所述贷后文本数据进行数据修复和标准化处理,得到数据处理后的贷后文本数据;
为所述数据处理后的贷后文本数据中每个文本样本分配状态标签;
选择与所述贷后文本数据的数据类型对应的AI算法模型,使用所述文本样本和对应的状态标签训练和评估所述AI算法模型,得到训练完成的贷后文本大语言模型;
使用所述贷后文本大语言模型进行贷后风险管理,得到风险管理结果并将所述风险管理结果输出至贷后业务系统。
2.根据权利要求1所述的贷后文本数据处理方法,其特征在于,所述根据自然语言处理技术,对所述贷后文本数据进行数据修复和标准化处理,得到数据处理后的贷后文本数据的步骤,包括:
使用所述自然语言处理技术,对所述贷后文本数据依次进行数据清理和数据修复;
使用所述自然语言处理技术和文本分析工具,对所述数据修复后的贷后文本数据进行标准化处理;
对所述标准化处理后的贷后文本数据进行增强扩大处理;
使用随机生成的隐私密钥对所述增强扩大处理后的贷后文本数据进行加密处理。
3.根据权利要求2所述的贷后文本数据处理方法,其特征在于,所述使用所述自然语言处理技术和文本分析工具,对所述数据修复后的贷后文本数据进行标准化处理的步骤,包括:
使用自然语言处理技术和文本分析工具,对所述贷后文本数据进行拆分并识别所述贷后文本数据的语言类型;
使用自然语言处理模型,对拆分后的贷后文本数据进行实体识别,并对识别出的实体进行标记;
对所述贷后文本数据中的词汇进行规范化以及对所述实体进行标准化处理;
按照数据交互要求,对标准化处理后的所述贷后文本数据进行格式和标准转换;
使用数据质量指标,评估标准转换后的所述贷后文本数据的数据质量,当所述贷后文本数据的数据质量达到所述数据质量指标时,执行所述对所述标准化处理后的贷后文本数据进行增强扩大处理的步骤。
4.根据权利要求2所述的贷后文本数据处理方法,其特征在于,所述使用随机生成的隐私密钥对所述增强扩大处理后的贷后文本数据进行加密处理的步骤,包括:
按照数据完整性对所述贷后文本数据进行分割,得到多个数据块;
使用随机生成的隐私密钥对每一数据块进行加密,分别得到每一数据块的隐私密钥;
使用私钥对整个所述贷后文本数据进行数字签名,将加密后的所述数据块和所述数字签名发送至接收方;
所述接收方使用私钥解密所述数据块的隐私密钥,并验证所述数字签名。
5.根据权利要求1所述的贷后文本数据处理方法,其特征在于,所述根据自然语言处理技术,对所述贷后文本数据进行数据修复和标准化处理,得到数据处理后的贷后文本数据的步骤之后,所述方法还包括:
对所述数据处理后的贷后文本数据进行图结构建模,得到所述贷后文本数据对应的无向全连接图结构;
使用文本摘要算法包含的评估分数计算公式,计算所述无向全连接图结构中各节点的评估分数;
使用所述各节点的评估分数,从所述贷后文本数据中提取关键词和关键句,使用所述关键词和关键句组合得到所述贷后文本数据的摘要信息。
6.根据权利要求1所述的贷后文本数据处理方法,其特征在于,所述选择与所述贷后文本数据的类型对应的AI算法模型,使用所述文本样本和对应的状态标签训练和评估所述AI算法模型的步骤,包括:
使用自然语言处理技术,提取所述贷后文本数据的语义特征;
使用文本统计算法,提取所述贷后文本数据的统计信息;
使用情感分析技术,提取所述贷后文本数据的情感信息;
使用主题建模技术,识别所述贷后文本数据的主题信息;
提取所述贷后文本数据的时间序列特征;
使用特征工程技术,从所述贷后文本数据的语义特征、统计信息、情感信息、主题信息和时间序列特征中提取文本特征,得到文本特征集。
7.根据权利要求1或6所述的贷后文本数据处理方法,其特征在于,所述选择与所述贷后文本数据的数据类型对应的AI算法模型,使用所述文本样本和对应的状态标签训练和评估所述AI算法模型的步骤,包括:
选择与所述贷后文本数据的数据类型对应的AI算法模型,将已标记的所述文本样本输入至所述AI算法模型进行训练,输出得到数据识别状态;
使用交叉验证技术评估所述所述数据识别状态,根据所述数据识别状态调节所述AI算法模型的模型参数;
重新将已标记的所述文本样本输入至模型参数调节后的所述AI算法模型,直至所述AI算法模型的损失函数收敛,得到所述贷后文本大语言模型;
使用模型性能监控指标评估所述贷后文本大语言模型的模型性能,当所述贷后文本大语言模型的模型性能达标时,将所述贷后文本大语言模型部署至实际生产环境中。
8.根据权利要求7所述的贷后文本数据处理方法,其特征在于,所述使用模型性能监控指标评估所述贷后文本大语言模型的模型性能的步骤,包括:
建立所述模型性能监控指标,使用所述模型性能监控指标评估所述贷后文本大语言模型的模型性能;
若评估所述贷后文本大语言模型的模型性能不达标或下降,则使用增量学习或在线学习技术重新训练所述贷后文本大语言模型,重新使用所述模型性能健康指标评估所述贷后文本大语言模型的模型性能;
若评估所述贷后文本大语言模型的模型性能达标,则使用验证数据集重新验证所述贷后文本大语言模型的模型性能;
当重新验证的所述贷后文本大语言模型的模型性能达标时,将所述贷后文本大语言模型部署至实际生产环境中。
9.根据权利要求1所述的贷后文本数据处理方法,其特征在于,所述使用所述贷后文本大语言模型进行贷后风险管理,得到风险管理结果并将所述风险管理结果输出至贷后业务系统的步骤,包括:
使用所述贷后文本大语言模型分析贷款数据,识别所述贷款数据的潜在风险因素;
使用所述贷后文本大语言模型分析客户数据,检测得到贷款欺诈行为;
使用所述贷后文本大语言模型分析催收数据,分析得到贷款催收策略;
使用所述贷后文本大语言模型检查贷款文件和贷款合同,检测得到合规性风险;
以及,使用所述贷后文本大语言模型分析市场经济数据,得到市场趋势预测结果。
10.一种基于自然语言处理的贷后文本数据处理系统,其特征在于,包括:
存储器、处理器及存储在所述存储器上并在所述处理器上运行的基于自然语言处理的贷后文本数据处理程序,所述贷后文本数据处理程序被所述处理器执行时实现如权利要求1至9中任一项所述的贷后文本数据处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311342109.9A CN117290508A (zh) | 2023-10-17 | 2023-10-17 | 一种基于自然语言处理的贷后文本数据处理方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311342109.9A CN117290508A (zh) | 2023-10-17 | 2023-10-17 | 一种基于自然语言处理的贷后文本数据处理方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117290508A true CN117290508A (zh) | 2023-12-26 |
Family
ID=89247983
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311342109.9A Pending CN117290508A (zh) | 2023-10-17 | 2023-10-17 | 一种基于自然语言处理的贷后文本数据处理方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117290508A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117876104A (zh) * | 2024-03-13 | 2024-04-12 | 湖南三湘银行股份有限公司 | 一种基于ai语言模型的智能信贷管控方法及系统 |
-
2023
- 2023-10-17 CN CN202311342109.9A patent/CN117290508A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117876104A (zh) * | 2024-03-13 | 2024-04-12 | 湖南三湘银行股份有限公司 | 一种基于ai语言模型的智能信贷管控方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hoang et al. | Deepjit: an end-to-end deep learning framework for just-in-time defect prediction | |
US9990356B2 (en) | Device and method for analyzing reputation for objects by data mining | |
Zhou et al. | Classifying the political leaning of news articles and users from user votes | |
CN110968699A (zh) | 一种基于事理推荐的逻辑图谱构建及预警方法和装置 | |
US20200111019A1 (en) | Failure feedback system for enhancing machine learning accuracy by synthetic data generation | |
CN110675023B (zh) | 一种基于神经网络的诉讼请求合理性预测模型训练方法和预测方法及装置 | |
CN112434535B (zh) | 基于多模型的要素抽取方法、装置、设备及存储介质 | |
CN113656805B (zh) | 一种面向多源漏洞信息的事件图谱自动构建方法及系统 | |
CN109472462B (zh) | 一种基于多模型堆栈融合的项目风险评级方法及装置 | |
CN112036842B (zh) | 一种科技服务智能匹配装置 | |
CN117033571A (zh) | 知识问答系统构建方法及系统 | |
CN117290508A (zh) | 一种基于自然语言处理的贷后文本数据处理方法和系统 | |
Fu et al. | A sentiment-aware trading volume prediction model for P2P market using LSTM | |
CN116383399A (zh) | 一种事件舆情风险预测方法及系统 | |
Santosh et al. | Deconfounding legal judgment prediction for European court of human rights cases towards better alignment with experts | |
CN111709225B (zh) | 一种事件因果关系判别方法、装置和计算机可读存储介质 | |
Wu et al. | Tedm-pu: A tax evasion detection method based on positive and unlabeled learning | |
CN113449508B (zh) | 一种基于事件链的网络舆情关联推演预测分析方法 | |
Candaş et al. | Automating coordination efforts for reviewing construction contracts with multilabel text classification | |
CN113610626A (zh) | 银行信贷风险识别知识图谱构建方法、装置、计算机设备及计算机可读存储介质 | |
CN116841869A (zh) | 基于代码结构化信息及审查知识的Java代码审查评论生成方法及装置 | |
Cuadrado et al. | team UTB-NLP at finances 2023: financial targeted sentiment analysis using a phonestheme semantic approach | |
CN114912538A (zh) | 信息推送模型训练方法和信息推送方法、装置及设备 | |
Jishtu et al. | Prediction of the stock market based on machine learning and sentiment analysis | |
Pisarevskaya et al. | An anatomy of a lie |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |