CN117372144A - 应用于小样本场景的风控策略智能化方法及系统 - Google Patents
应用于小样本场景的风控策略智能化方法及系统 Download PDFInfo
- Publication number
- CN117372144A CN117372144A CN202311290406.3A CN202311290406A CN117372144A CN 117372144 A CN117372144 A CN 117372144A CN 202311290406 A CN202311290406 A CN 202311290406A CN 117372144 A CN117372144 A CN 117372144A
- Authority
- CN
- China
- Prior art keywords
- semantic
- enterprise
- wind control
- control strategy
- feature vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011217 control strategy Methods 0.000 title claims abstract description 172
- 238000000034 method Methods 0.000 title claims abstract description 50
- 239000013598 vector Substances 0.000 claims description 200
- 238000012549 training Methods 0.000 claims description 51
- 238000005259 measurement Methods 0.000 claims description 27
- 238000004458 analytical method Methods 0.000 claims description 18
- 230000008859 change Effects 0.000 claims description 14
- 238000013527 convolutional neural network Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 7
- 238000007405 data analysis Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 2
- 230000011218 segmentation Effects 0.000 claims description 2
- 238000004422 calculation algorithm Methods 0.000 abstract description 11
- 238000013135 deep learning Methods 0.000 abstract description 8
- 238000003058 natural language processing Methods 0.000 abstract description 7
- 238000005516 engineering process Methods 0.000 abstract description 5
- 238000011156 evaluation Methods 0.000 description 16
- 238000007726 management method Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 10
- 238000012216 screening Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000011084 recovery Methods 0.000 description 4
- 206010063385 Intellectualisation Diseases 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000005065 mining Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013526 transfer learning Methods 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000006555 catalytic reaction Methods 0.000 description 1
- 238000005352 clarification Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 238000012954 risk control Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Finance (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Accounting & Taxation (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Technology Law (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种应用于小样本场景的风控策略智能化方法及系统,其获取被分析客户的企业内部数据、相关外部数据和备选风控策略的文本描述,结合自然语言处理技术和深度学习算法来分析备选风控策略与被分析客户之间的匹配度,以提升策略规则匹配的效率。
Description
技术领域
本发明涉及智能化风控策略技术领域,尤其涉及一种应用于小样本场景的风控策略智能化方法及系统。
背景技术
风控策略是信贷风险管理的重要手段,在小样本冷启动和策略规则快速变化的场景下,由于缺乏足量逾期样本进行常规高维模型训练,策略规则主要依靠专家经验制定,存在挖掘规则不全面、规则更新费时费力等局限性。
因此,期待一种优化的方案。
发明内容
本发明实施例提供一种应用于小样本场景的风控策略智能化方法及系统,其获取被分析客户的企业内部数据、相关外部数据和备选风控策略的文本描述,结合自然语言处理技术和深度学习算法来分析备选风控策略与被分析客户之间的匹配度,以提升策略规则匹配的效率。
本发明实施例还提供了一种应用于小样本场景的风控策略智能化方法,其包括:
获取被分析客户的企业内部数据与相关外部数据,其中,所述企业内部数据包括所述被分析客户的企业交易数据、企业业务数据和风险管理数据,所述相关外部数据包括宏观经济指标数据、政策变化数据和行业报告;
对所述企业内部数据和所述相关外部数据分别进行编码以得到企业内部数据编码向量和企业外部数据编码向量;
对所述企业内部数据编码向量和所述企业外部数据编码向量进行联合分析以得到企业内部-外部数据语义关联特征向量;
获取备选风控策略的文本描述;
对所述备选风控策略的文本描述进行语义特征提取以得到风控策略上下文语义特征向量;以及
基于所述企业内部-外部数据语义关联特征向量和所述风控策略上下文语义特征向量,确定所述备选风控策略与所述被分析客户的匹配度是否超过预定阈值。
本发明实施例还提供了一种应用于小样本场景的风控策略智能化系统,其包括:
数据获取模块,用于获取被分析客户的企业内部数据与相关外部数据,其中,所述企业内部数据包括所述被分析客户的企业交易数据、企业业务数据和风险管理数据,所述相关外部数据包括宏观经济指标数据、政策变化数据和行业报告;
数据编码模块,用于对所述企业内部数据和所述相关外部数据分别进行编码以得到企业内部数据编码向量和企业外部数据编码向量;
联合分析模块,用于对所述企业内部数据编码向量和所述企业外部数据编码向量进行联合分析以得到企业内部-外部数据语义关联特征向量;
文本描述获取模块,用于获取备选风控策略的文本描述;
语义特征提取模块,用于对所述备选风控策略的文本描述进行语义特征提取以得到风控策略上下文语义特征向量;以及
匹配度确定模块,用于基于所述企业内部-外部数据语义关联特征向量和所述风控策略上下文语义特征向量,确定所述备选风控策略与所述被分析客户的匹配度是否超过预定阈值。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本发明实施例中提供的一种应用于小样本场景的风控策略智能化方法的流程图。
图2为本发明实施例中提供的一种应用于小样本场景的风控策略智能化方法的系统架构的示意图。
图3为本发明实施例中提供的一种应用于小样本场景的风控策略智能化系统的框图。
图4为本发明实施例中提供的一种应用于小样本场景的风控策略智能化方法的应用场景图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
如本发明和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其他的步骤或元素。
本发明中使用了流程图用来说明根据本发明的实施例的系统所执行的操作。应当理解的是,前面或下面操作不一定按照顺序来精确地执行。相反,根据需要,可以按照倒序或同时处理各种步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
风控策略是信贷风险管理的重要手段,在小样本冷启动和策略规则快速变化的场景下,由于缺乏足量逾期样本进行常规高维模型训练,策略规则主要依靠专家经验制定,存在挖掘规则不全面、规则更新费时费力等局限性。
本申请提出一种应用于小样本场景的风控策略智能化方法及系统,充分利用数据信息,全面高效地挖掘有效规则,识别高风险客户,并通过稳定性和解释性设置,保障规则应用稳健性,实现风控策略的快速迭代。
在本申请中,1.样本选择及标签定义:根据出催率、vintage定义样本标签,拆分训练集与测试集。2.特征评估与筛选:包含但不限于缺失率、稳定性、单变量区分度(IV、Lift等)、分箱Y趋势判断、特征分类等过程。3.规则生成:(1)模拟随机森林算法,特征随机抽样分桶,生成多棵决策树:固定随机种子数,随机抽样m次特征集,全量样本每次抽取的特征子集用决策树训练,其中设置树的深度不宜过高(一般为3),生成m棵树,解析树结构,每棵树解析的规则有ni个规则,则共有N条规则,其中N=n1+...+nm。(2)序贯覆盖修补,定向识别未捕获的黑样本:剔除N条规则已捕获的黑样本,在剩余的样本集重复(1),直至黑样本捕获率达到一定的期望比例。4.规则筛选:(1)有效性:单条规则及整体规则集准确率、召回率、风险Lift,按照风险Lift降序排序,筛选出Lift大于一定倍数的规则;(2)稳定性:a.近期月份申请量上规则命中率趋势;b.命中客户数。筛选命中率稳定的规则;(3)解释性:a.特征归类;b.入选特征业务理解和趋势。筛选出业务解释性较高的规则;(4)冗余性:去重拒绝相同客户的规则。5.规则迭代:黑样本量更新,重复以上步骤。
针对小样本场景,设计基于特征抽样和序贯覆盖修补的规则生成算法,实现更加全面高效泛化的规则挖掘,设定稳定性和解释性等规则评估筛选流程,保障规则上线应用的稳健性,实现风控策略的快速迭代.
在本发明的一个实施例中,图1为本发明实施例中提供的一种应用于小样本场景的风控策略智能化方法的流程图。图2为本发明实施例中提供的一种应用于小样本场景的风控策略智能化方法的系统架构的示意图。如图1和图2所示,根据本发明实施例的应用于小样本场景的风控策略智能化方法,包括:110,获取被分析客户的企业内部数据与相关外部数据,其中,所述企业内部数据包括所述被分析客户的企业交易数据、企业业务数据和风险管理数据,所述相关外部数据包括宏观经济指标数据、政策变化数据和行业报告;120,对所述企业内部数据和所述相关外部数据分别进行编码以得到企业内部数据编码向量和企业外部数据编码向量;130,对所述企业内部数据编码向量和所述企业外部数据编码向量进行联合分析以得到企业内部-外部数据语义关联特征向量;140,获取备选风控策略的文本描述;150,对所述备选风控策略的文本描述进行语义特征提取以得到风控策略上下文语义特征向量;以及,160,基于所述企业内部-外部数据语义关联特征向量和所述风控策略上下文语义特征向量,确定所述备选风控策略与所述被分析客户的匹配度是否超过预定阈值。
在所述步骤110中,在获取企业内部数据和相关外部数据时,确保数据的完整性、准确性和安全性,合规性也是一个重要的考虑因素,确保数据采集和使用符合相关法规和隐私政策。通过获取企业内部数据和相关外部数据,可以获得全面的信息来评估客户的风险状况和经营环境。企业内部数据提供了客户的具体交易和业务情况,风险管理数据可以揭示客户的风险历史和风险控制措施。相关外部数据提供了宏观经济环境、政策变化和行业趋势等信息,有助于了解客户所处的市场环境和行业风险。
在所述步骤120中,在进行数据编码时,选择合适的编码方法,如词嵌入(WordEmbedding)或其他向量表示方法,编码过程应考虑数据的特点和结构,以保留重要的语义信息。通过对企业内部数据和相关外部数据进行编码,可以将原始数据转化为向量表示,从而方便后续的数据分析和模型计算。编码向量可以捕捉到数据的语义信息和特征,为后续的联合分析提供了基础。
在所述步骤130中,在进行企业内部-外部数据的联合分析时,可以使用深度学习算法,如神经网络或其他联合学习方法,设计适当的模型结构和损失函数,以最大程度地捕捉企业内部数据和外部数据之间的语义关联。通过联合分析企业内部数据和外部数据,可以获得更丰富的特征表示,揭示数据之间的潜在关联和相互影响。这有助于更全面地理解客户的风险状况和经营环境,提高风控策略的匹配效果。
在所述步骤140中,在获取备选风控策略的文本描述时,确保文本的准确性和完整性。如果文本描述存在模糊或不明确的地方,可能需要与相关人员进行进一步的沟通和澄清。备选风控策略的文本描述提供了策略的具体信息和要求,包括风险评估标准、授信条件等,这些信息对于与客户的匹配度评估和风险管理决策非常重要。
在所述步骤150中,在进行语义特征提取时,可以使用自然语言处理技术,如词嵌入、文本向量化或其他文本表示方法。选择合适的方法和模型结构,以捕捉风控策略文本的语义信息。通过提取风控策略的语义特征,可以将文本描述转化为向量表示,从而方便后续的计算和匹配度评估,语义特征向量可以捕捉到策略文本的重要信息和要求,为后续的匹配度计算提供基础。
在所述步骤160中,在确定备选风控策略与被分析客户的匹配度时,可以使用相似度计算或分类模型等方法,预定阈值的选择需要根据具体情况和需求进行调整,以平衡匹配度的准确性和召回率。基于企业内部-外部数据语义关联特征向量和风控策略上下文语义特征向量的匹配度评估,可以确定备选风控策略与被分析客户的匹配程度。这有助于快速筛选出与客户最匹配的风控策略,提高风险管理的效率和准确性。
针对上述技术问题,本申请的技术构思是结合自然语言处理技术和深度学习算法来分析备选风控策略与被分析客户之间的匹配度。具体来说,对被分析客户进行分析,与现有的风控策略进行匹配,提升策略规则匹配的效率。
传统的风控策略匹配通常依赖于专家经验和手工规则,而结合自然语言处理和深度学习可以自动化和加速匹配过程,从而提高匹配效率,这种方法可以处理大量的备选策略和客户数据,并快速计算匹配度,减少人工干预和时间成本。通过深度学习算法,可以从大量的客户数据和策略规则中挖掘出潜在的规律和模式,包括非线性关系和高维特征的相互作用,这样可以发现那些传统手工规则难以捕捉到的信息,提升策略规则的全面性和准确性。结合自然语言处理技术,可以更好地理解客户的特征和需求,从而实现个性化的策略匹配,通过分析客户的文本信息,如自我介绍、需求描述等,可以更细致地了解客户的背景和目标,从而选择更适合的风控策略。深度学习算法可以通过在线学习和增量更新的方式,随着新数据的不断积累和策略规则的变化,实时调整模型参数和匹配结果,这样可以快速适应策略规则的变化和新客户的出现,保持风控策略的及时性和灵活性。
这里,不同的客户可能有不同的风险特征和发展需求,而如果从头到尾都依靠专家来对每位客户的风险特征和发展需求进行挖掘和分析,需要大量的时间和人力,但是又不可以一刀切地应用相同的风控策略。因此,在本申请的技术方案中,期待将现有的依靠专家经验而制定的风控策略作为通用的参考处理方案,在进行智能化的匹配后,可以针对性的对匹配后的现有的风控策略进行人为的精细修改和加工。这样,可以实现风控策略的智能化、动态化和个性化,提升风控策略的制定效率和执行效果。
基于此,在本申请的技术方案中,首先,获取被分析客户的企业内部数据与相关外部数据,其中,所述企业内部数据包括所述被分析客户的企业交易数据、企业业务数据和风险管理数据,所述相关外部数据包括宏观经济指标数据、政策变化数据和行业报告。这里,利用企业内部数据和相关外部数据,能够全面地反映被分析客户的经营状况、市场环境和风险状况。
然后,对所述企业内部数据和所述相关外部数据分别进行编码以得到企业内部数据编码向量和企业外部数据编码向量;并对所述企业内部数据编码向量和所述企业外部数据编码向量进行联合分析以得到企业内部-外部数据语义关联特征向量。
具体来说,企业内部数据反映了被分析客户的交易活动、业务状况和风险管理水平,是评估客户信用风险的重要依据。企业外部数据反映了被分析客户所处的宏观经济环境、政策变化和行业趋势,是评估客户发展前景的重要参考。通过对企业内部数据和企业外部数据进行编码、提取语义特征和建立语义关联,可以更准确地理解被分析客户的内在需求和外在机遇,从而为其匹配合适的风控策略。
在本申请的一个具体示例中,对所述企业内部数据编码向量和所述企业外部数据编码向量进行联合分析以得到企业内部-外部数据语义关联特征向量的编码过程,包括:先将所述企业内部数据编码向量和所述企业外部数据编码向量通过基于一维卷积神经网络的语义特征提取器以得到企业内部数据语义特征向量和企业外部数据语义特征向量;再将所述企业内部数据语义特征向量和所述企业外部数据语义特征向量通过联合语义传播模块以得到企业内部-外部数据语义关联特征向量。
其中,将所述企业内部数据语义特征向量和所述企业外部数据语义特征向量通过联合语义传播模块以得到所述企业内部-外部数据语义关联特征向量,包括:使用所述联合语义传播模块融合所述企业内部数据语义特征向量和所述企业外部数据语义特征向量以得到所述企业内部-外部数据语义关联特征向量。
随后,获取备选风控策略的文本描述;并对所述备选风控策略的文本描述进行语义特征提取以得到风控策略上下文语义特征向量。也就是,捕捉所述备选风控策略的语义特征,以理解备选风控策略所表达的含义与目的。
在本申请的一个具体示例中,对所述备选风控策略的文本描述进行语义特征提取以得到风控策略上下文语义特征向量的实现方式是对所述备选风控策略的文本描述通过包含词嵌入层的风控策略语义编码器以得到风控策略上下文语义特征向量。
其中,对所述备选风控策略的文本描述通过包含词嵌入层的风控策略语义编码器以得到所述风控策略上下文语义特征向量,包括:对所述备选风控策略的文本描述进行分词处理以将所述备选风控策略的文本描述转化为由多个词组成的词序列;使用所述包含词嵌入层的风控策略语义编码器的嵌入层将所述词序列中各个词映射到词向量以获得词向量的序列;以及,使用所述包含词嵌入层的风控策略语义编码器的转化器对所述词向量的序列进行基于全局的上下文语义编码以获得所述风控策略上下文语义特征向量。
通过使用包含词嵌入层的风控策略语义编码器,可以将备选风控策略的文本描述转化为语义特征向量。词嵌入层可以将单词映射到连续向量空间,从而捕捉单词之间的语义关系,编码器可以进一步将文本描述的上下文信息编码到特征向量中,从而更全面地表示风控策略的语义信息。使用词嵌入层可以将文本描述中的单词表示为低维稠密向量,从而降低特征的维度和稀疏性,这样可以减少特征向量的存储和计算复杂度,并提高后续分析和匹配度评估的效率。通过使用风控策略语义编码器,可以确保备选风控策略的文本描述在语义空间中具有一致性,编码器可以学习将语义相似的文本描述映射到相近的特征向量,从而提高匹配度评估的准确性和一致性。使用风控策略语义编码器可以支持迁移学习和泛化能力。编码器可以通过学习大规模数据集或预训练模型来捕捉通用的语义信息,从而在新的风控策略文本上表现出良好的泛化能力,这样可以减少对大量标注数据的需求,提高系统的可扩展性和适应性。
通过包含词嵌入层的风控策略语义编码器对备选风控策略的文本描述进行处理,可以得到风控策略上下文语义特征向量,从而提高匹配度评估的准确性和效率,并支持迁移学习和泛化能力。
接着,基于所述企业内部-外部数据语义关联特征向量和所述风控策略上下文语义特征向量,确定所述备选风控策略与所述被分析客户的匹配度是否超过预定阈值。也就是,将企业内外部数据的语义关联特征与风控策略的语义关联特征进行匹配度分析,优化风控策略的选择。
在本申请的一个具体示例中,基于所述企业内部-外部数据语义关联特征向量和所述风控策略上下文语义特征向量,确定所述备选风控策略与所述被分析客户的匹配度是否超过预定阈值的编码过程,包括:先将所述企业内部-外部数据语义关联特征向量和所述风控策略上下文语义特征向量通过基于全连接编码的语义度量模型以得到企业内外部发展-风控策略语义度量特征向量;再将所述企业内外部发展-风控策略语义度量特征向量通过分类器以得到分类结果,所述分类结果用于表示所述备选风控策略与所述被分析客户的匹配度是否超过预定阈值。
更具体地,在本申请的实施例中,将所述企业内部-外部数据语义关联特征向量和所述风控策略上下文语义特征向量通过基于全连接编码的语义度量模型以得到企业内外部发展-风控策略语义度量特征向量的编码过程,包括:先使用第一全连接层对所述企业内部-外部数据语义关联特征向量进行全连接编码以得到第一全连接特征向量;再使用第二全连接层对所述风控策略上下文语义特征向量进行全连接编码以得到第二全连接特征向量;随后,计算所述第一全连接特征向量和所述第二全连接特征向量之间的差分以得到所述企业内外部发展-风控策略语义度量特征向量。
在本申请的技术方案中,通过将所述训练企业内部数据语义特征向量和所述训练企业外部数据语义特征向量通过联合语义传播模块,得到的所述训练企业内部-外部数据语义关联特征向量可以表达所述被分析客户的企业内部数据与相关外部数据的联合文本语义特征,这样,进一步将所述训练企业内部-外部数据语义关联特征向量和表达所述备选风控策略的文本描述的文本语义特征的所述训练风控策略上下文语义特征向量通过基于全连接编码的语义度量模型后,得到的所述训练企业内外部发展-风控策略语义度量特征向量就可以表达多样本文本语义的基于语义联合-语义度量的多关联维度的语义特征表示。
但是,所述训练企业内外部发展-风控策略语义度量特征向量的这种多关联维度的语义特征表示在通过分类器时,会由于不同关联维度下的文本语义特征的关联精度差异,例如语义联合相对于语义度量对文本语义特征表示的不均衡,影响所述训练企业内外部发展-风控策略语义度量特征向量通过分类器训练时的训练效果,由此,本申请的申请人在训练过程中,对所述训练企业内外部发展-风控策略语义度量特征向量,例如记为V进行基于维度表征和反演式恢复的特征精度对齐,具体表示为:以如下优化公式对所述训练企业内外部发展-风控策略语义度量特征向量进行基于维度表征和反演式恢复的特征精度对齐;其中,所述优化公式为:
其中,vi是所述训练企业内外部发展-风控策略语义度量特征向量V的第i个位置的特征值,‖V‖0表示所述训练企业内外部发展-风控策略语义度量特征向量V的零范数,L是所述训练企业内外部发展-风控策略语义度量特征向量V的长度,且α是权重超参数,v′i是优化企业内外部发展-风控策略语义度量特征向量的第i个位置的特征值。
这里,针对基于维度的对于文本语义特征的高维特征空间语义编码与多维度语义特征关联编辑之间的精度矛盾,所述基于维度表征和反演式恢复的特征精度对齐通过将多维度语义特征关联编辑视为以文本语义为单参数的高维特征空间编码的反演式嵌入生成,来通过对作为编码表示的特征值配备尺度表征的稀疏分布均衡,并基于向量计数来进行关联细节的反演式恢复,以实现精度差异在训练过程中的自适应对齐,提升所述训练企业内外部发展-风控策略语义度量特征向量通过分类器进行分类回归训练时的训练效果。
继而,将企业内外部发展-风控策略语义度量特征向量通过分类器进行分类,可以得到分类结果,该结果用于表示备选风控策略与被分析客户的匹配度是否超过预定阈值。通过使用分类器,可以自动化地评估备选风控策略与被分析客户的匹配度。分类器可以学习从语义度量特征向量中提取的模式和规律,根据这些模式和规律进行分类判断,这样可以减少对人工专家的依赖,提高匹配度评估的效率。
使用分类器进行匹配度评估可以灵活适应策略的变化。如果备选风控策略发生调整或更新,只需要重新训练分类器即可,而不需要修改整个匹配过程的流程,这样可以快速适应策略规则的变化,提高系统的灵活性和可维护性。分类器可以综合考虑企业内外部发展-风控策略语义度量特征向量中的多个特征,从而更全面地评估备选风控策略与被分析客户的匹配度,这可以提高匹配度评估的准确性和鲁棒性,避免仅基于单一特征的评估结果可能存在的局限性。根据分类器的设计和选择,可以获得匹配度评估的可解释性和可调节性,分类器可以提供关于匹配度评估的置信度或概率,帮助用户理解评估结果的可靠程度。同时,可以通过调整分类器的阈值或参数,根据具体需求和偏好进行匹配度评估的控制和调节。通过将企业内外部发展-风控策略语义度量特征向量通过分类器进行分类,可以实现备选风控策略与被分析客户的匹配度评估,提高风险管理的效率和准确性,并具备灵活性和可解释性。
综上,基于本发明实施例的应用于小样本场景的风控策略智能化方法被阐明,其结合自然语言处理技术和深度学习算法来分析备选风控策略与被分析客户之间的匹配度。具体来说,对被分析客户进行分析,与现有的风控策略进行匹配,提升策略规则匹配的效率。
在本发明的一个实施例中,图3为本发明实施例中提供的一种应用于小样本场景的风控策略智能化系统的框图。如图3所示,根据本发明实施例的应用于小样本场景的风控策略智能化系统200,包括:数据获取模块210,用于获取被分析客户的企业内部数据与相关外部数据,其中,所述企业内部数据包括所述被分析客户的企业交易数据、企业业务数据和风险管理数据,所述相关外部数据包括宏观经济指标数据、政策变化数据和行业报告;数据编码模块220,用于对所述企业内部数据和所述相关外部数据分别进行编码以得到企业内部数据编码向量和企业外部数据编码向量;联合分析模块230,用于对所述企业内部数据编码向量和所述企业外部数据编码向量进行联合分析以得到企业内部-外部数据语义关联特征向量;文本描述获取模块240,用于获取备选风控策略的文本描述;语义特征提取模块250,用于对所述备选风控策略的文本描述进行语义特征提取以得到风控策略上下文语义特征向量;以及,匹配度确定模块260,用于基于所述企业内部-外部数据语义关联特征向量和所述风控策略上下文语义特征向量,确定所述备选风控策略与所述被分析客户的匹配度是否超过预定阈值。
在所述应用于小样本场景的风控策略智能化系统中,所述联合分析模块,包括:语义特征提取单元,用于将所述企业内部数据编码向量和所述企业外部数据编码向量通过基于一维卷积神经网络的语义特征提取器以得到企业内部数据语义特征向量和企业外部数据语义特征向量;以及,联合语义传播单元,用于将所述企业内部数据语义特征向量和所述企业外部数据语义特征向量通过联合语义传播模块以得到所述企业内部-外部数据语义关联特征向量。
这里,本领域技术人员可以理解,上述应用于小样本场景的风控策略智能化系统中的各个单元和模块的具体功能和操作已经在上面参考图1到图2的应用于小样本场景的风控策略智能化方法的描述中得到了详细介绍,并因此,将省略其重复描述。
如上所述,根据本发明实施例的应用于小样本场景的风控策略智能化系统200可以实现在各种终端设备中,例如用于应用于小样本场景的风控策略智能化的服务器等。在一个示例中,根据本发明实施例的应用于小样本场景的风控策略智能化系统200可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如,该应用于小样本场景的风控策略智能化系统200可以是该终端设备的操作系统中的一个软件模块,或者可以是针对于该终端设备所开发的一个应用程序;当然,该应用于小样本场景的风控策略智能化系统200同样可以是该终端设备的众多硬件模块之一。
替换地,在另一示例中,该应用于小样本场景的风控策略智能化系统200与该终端设备也可以是分立的设备,并且应用于小样本场景的风控策略智能化系统200可以通过有线和/或无线网络连接到该终端设备,并且按照约定的数据格式来传输交互信息。
图4为本发明实施例中提供的一种应用于小样本场景的风控策略智能化方法的应用场景图。如图4所示,在该应用场景中,首先,获取被分析客户的企业内部数据(例如,如图4中所示意的C1)与相关外部数据(例如,如图4中所示意的C2),以及获取备选风控策略的文本描述(例如,如图4中所示意的C3);然后,将获取的企业内部数据、相关外部数据和文本描述输入至部署有应用于小样本场景的风控策略智能化算法的服务器(例如,如图4中所示意的S)中,其中所述服务器能够基于应用于小样本场景的风控策略智能化算法对所述企业内部数据、所述相关外部数据和所述文本描述进行处理,以确定所述备选风控策略与所述被分析客户的匹配度是否超过预定阈值。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种应用于小样本场景的风控策略智能化方法,其特征在于,包括:
获取被分析客户的企业内部数据与相关外部数据,其中,所述企业内部数据包括所述被分析客户的企业交易数据、企业业务数据和风险管理数据,所述相关外部数据包括宏观经济指标数据、政策变化数据和行业报告;
对所述企业内部数据和所述相关外部数据分别进行编码以得到企业内部数据编码向量和企业外部数据编码向量;
对所述企业内部数据编码向量和所述企业外部数据编码向量进行联合分析以得到企业内部-外部数据语义关联特征向量;
获取备选风控策略的文本描述;
对所述备选风控策略的文本描述进行语义特征提取以得到风控策略上下文语义特征向量;以及
基于所述企业内部-外部数据语义关联特征向量和所述风控策略上下文语义特征向量,确定所述备选风控策略与所述被分析客户的匹配度是否超过预定阈值。
2.根据权利要求1所述的应用于小样本场景的风控策略智能化方法,其特征在于,对所述企业内部数据编码向量和所述企业外部数据编码向量进行联合分析以得到企业内部-外部数据语义关联特征向量,包括:
将所述企业内部数据编码向量和所述企业外部数据编码向量通过基于一维卷积神经网络的语义特征提取器以得到企业内部数据语义特征向量和企业外部数据语义特征向量;以及
将所述企业内部数据语义特征向量和所述企业外部数据语义特征向量通过联合语义传播模块以得到所述企业内部-外部数据语义关联特征向量。
3.根据权利要求2所述的应用于小样本场景的风控策略智能化方法,其特征在于,将所述企业内部数据语义特征向量和所述企业外部数据语义特征向量通过联合语义传播模块以得到所述企业内部-外部数据语义关联特征向量,包括:
使用所述联合语义传播模块融合所述企业内部数据语义特征向量和所述企业外部数据语义特征向量以得到所述企业内部-外部数据语义关联特征向量。
4.根据权利要求3所述的应用于小样本场景的风控策略智能化方法,其特征在于,对所述备选风控策略的文本描述进行语义特征提取以得到风控策略上下文语义特征向量,包括:
对所述备选风控策略的文本描述通过包含词嵌入层的风控策略语义编码器以得到所述风控策略上下文语义特征向量。
5.根据权利要求4所述的应用于小样本场景的风控策略智能化方法,其特征在于,对所述备选风控策略的文本描述通过包含词嵌入层的风控策略语义编码器以得到所述风控策略上下文语义特征向量,包括:
对所述备选风控策略的文本描述进行分词处理以将所述备选风控策略的文本描述转化为由多个词组成的词序列;
使用所述包含词嵌入层的风控策略语义编码器的嵌入层将所述词序列中各个词映射到词向量以获得词向量的序列;以及
使用所述包含词嵌入层的风控策略语义编码器的转化器对所述词向量的序列进行基于全局的上下文语义编码以获得所述风控策略上下文语义特征向量。
6.根据权利要求5所述的应用于小样本场景的风控策略智能化方法,其特征在于,基于所述企业内部-外部数据语义关联特征向量和所述风控策略上下文语义特征向量,确定所述备选风控策略与所述被分析客户的匹配度是否超过预定阈值,包括:
将所述企业内部-外部数据语义关联特征向量和所述风控策略上下文语义特征向量通过基于全连接编码的语义度量模型以得到企业内外部发展-风控策略语义度量特征向量;以及
将所述企业内外部发展-风控策略语义度量特征向量通过分类器以得到分类结果,所述分类结果用于表示所述备选风控策略与所述被分析客户的匹配度是否超过预定阈值。
7.根据权利要求6所述的应用于小样本场景的风控策略智能化方法,其特征在于,将所述企业内部-外部数据语义关联特征向量和所述风控策略上下文语义特征向量通过基于全连接编码的语义度量模型以得到企业内外部发展-风控策略语义度量特征向量,包括:
使用第一全连接层对所述企业内部-外部数据语义关联特征向量进行全连接编码以得到第一全连接特征向量;
使用第二全连接层对所述风控策略上下文语义特征向量进行全连接编码以得到第二全连接特征向量;以及
计算所述第一全连接特征向量和所述第二全连接特征向量之间的差分以得到所述企业内外部发展-风控策略语义度量特征向量。
8.根据权利要求7所述的应用于小样本场景的风控策略智能化方法,其特征在于,还包括训练步骤:对所述基于一维卷积神经网络的语义特征提取器、所述联合语义传播模块、所述包含词嵌入层的风控策略语义编码器、所述基于全连接编码的语义度量模型和所述分类器进行训练;
其中,所述训练步骤,包括:
获取训练数据,所述训练数据包括被分析客户的训练企业内部数据与训练相关外部数据,以及,所述备选风控策略与所述被分析客户的匹配度是否超过预定阈值的真实值;
对所述训练企业内部数据和所述训练相关外部数据分别进行编码以得到训练企业内部数据编码向量和训练企业外部数据编码向量;
将所述训练企业内部数据编码向量和所述训练企业外部数据编码向量通过所述基于一维卷积神经网络的语义特征提取器以得到训练企业内部数据语义特征向量和训练企业外部数据语义特征向量;
将所述训练企业内部数据语义特征向量和所述训练企业外部数据语义特征向量通过所述联合语义传播模块以得到训练企业内部-外部数据语义关联特征向量;
获取训练备选风控策略的文本描述;
对所述训练备选风控策略的文本描述通过所述包含词嵌入层的风控策略语义编码器以得到训练风控策略上下文语义特征向量;
将所述训练企业内部-外部数据语义关联特征向量和所述训练风控策略上下文语义特征向量通过所述基于全连接编码的语义度量模型以得到训练企业内外部发展-风控策略语义度量特征向量;
对所述训练企业内外部发展-风控策略语义度量特征向量进行特征分布优化以得到优化企业内外部发展-风控策略语义度量特征向量;
将所述优化企业内外部发展-风控策略语义度量特征向量通过分类器以得到分类损失函数值;以及
以所述分类损失函数值来对所述基于一维卷积神经网络的语义特征提取器、所述联合语义传播模块、所述包含词嵌入层的风控策略语义编码器、所述基于全连接编码的语义度量模型和所述分类器进行训练。
9.一种应用于小样本场景的风控策略智能化系统,其特征在于,包括:
数据获取模块,用于获取被分析客户的企业内部数据与相关外部数据,其中,所述企业内部数据包括所述被分析客户的企业交易数据、企业业务数据和风险管理数据,所述相关外部数据包括宏观经济指标数据、政策变化数据和行业报告;
数据编码模块,用于对所述企业内部数据和所述相关外部数据分别进行编码以得到企业内部数据编码向量和企业外部数据编码向量;
联合分析模块,用于对所述企业内部数据编码向量和所述企业外部数据编码向量进行联合分析以得到企业内部-外部数据语义关联特征向量;
文本描述获取模块,用于获取备选风控策略的文本描述;
语义特征提取模块,用于对所述备选风控策略的文本描述进行语义特征提取以得到风控策略上下文语义特征向量;以及
匹配度确定模块,用于基于所述企业内部-外部数据语义关联特征向量和所述风控策略上下文语义特征向量,确定所述备选风控策略与所述被分析客户的匹配度是否超过预定阈值。
10.根据权利要求9所述的应用于小样本场景的风控策略智能化系统,其特征在于,所述联合分析模块,包括:
语义特征提取单元,用于将所述企业内部数据编码向量和所述企业外部数据编码向量通过基于一维卷积神经网络的语义特征提取器以得到企业内部数据语义特征向量和企业外部数据语义特征向量;以及
联合语义传播单元,用于将所述企业内部数据语义特征向量和所述企业外部数据语义特征向量通过联合语义传播模块以得到所述企业内部-外部数据语义关联特征向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311290406.3A CN117372144A (zh) | 2023-10-08 | 2023-10-08 | 应用于小样本场景的风控策略智能化方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311290406.3A CN117372144A (zh) | 2023-10-08 | 2023-10-08 | 应用于小样本场景的风控策略智能化方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117372144A true CN117372144A (zh) | 2024-01-09 |
Family
ID=89393908
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311290406.3A Pending CN117372144A (zh) | 2023-10-08 | 2023-10-08 | 应用于小样本场景的风控策略智能化方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117372144A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118052577A (zh) * | 2024-04-16 | 2024-05-17 | 问策师信息科技南京有限公司 | 基于云平台的数据采集处理分析系统及方法 |
-
2023
- 2023-10-08 CN CN202311290406.3A patent/CN117372144A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118052577A (zh) * | 2024-04-16 | 2024-05-17 | 问策师信息科技南京有限公司 | 基于云平台的数据采集处理分析系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110597735B (zh) | 一种面向开源软件缺陷特征深度学习的软件缺陷预测方法 | |
CN111444952B (zh) | 样本识别模型的生成方法、装置、计算机设备和存储介质 | |
CN109492026B (zh) | 一种基于改进的主动学习技术的电信欺诈分类检测方法 | |
CN112016313A (zh) | 口语化要素识别方法及装置、警情分析系统 | |
CN117372144A (zh) | 应用于小样本场景的风控策略智能化方法及系统 | |
CN116861924A (zh) | 基于人工智能的项目风险预警方法及系统 | |
CN111586728B (zh) | 一种面向小样本特征的异构无线网络故障检测与诊断方法 | |
CN115358481A (zh) | 一种企业外迁预警识别的方法、系统及装置 | |
CN117349743A (zh) | 一种基于多模态数据的超图神经网络的数据分类方法及系统 | |
CN114897085A (zh) | 一种基于封闭子图链路预测的聚类方法及计算机设备 | |
CN111242028A (zh) | 基于U-Net的遥感图像地物分割方法 | |
CN118072829A (zh) | 一种蛋白质酸碱稳定性预测方法、电子设备及存储介质 | |
CN115357718B (zh) | 主题集成服务重复材料发现方法、系统、设备和存储介质 | |
CN116432835A (zh) | 客户流失预警归因方法、装置、计算机设备及存储介质 | |
CN116434273A (zh) | 一种基于单正标签的多标记预测方法及系统 | |
CN115098681A (zh) | 一种基于有监督对比学习的开放服务意图检测方法 | |
CN115310999A (zh) | 基于多层感知机和排序网络的企业用电行为分析方法及系统 | |
CN114818849A (zh) | 基于大数据信息的卷积神经网络和遗传算法的反窃电方法 | |
CN111078882A (zh) | 一种文本情感测量方法和装置 | |
CN117058432B (zh) | 图像查重方法、装置、电子设备及可读存储介质 | |
CN117633140B (zh) | 一种基于大数据云计算技术的城市地质调查方法 | |
CN115831339B (zh) | 基于深度学习的医疗系统风险管控事前预测方法、系统 | |
CN118485046B (zh) | 标注数据处理方法和装置、电子设备、计算机存储介质 | |
CN118537144B (zh) | 一种农业保险核保风险预测方法及系统 | |
Sirothia et al. | Damage Classification of Oil & Gas Equipment Components Using Siamese Networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |