CN116934468B - 一种基于语义识别的授信客户分级方法 - Google Patents
一种基于语义识别的授信客户分级方法 Download PDFInfo
- Publication number
- CN116934468B CN116934468B CN202311189182.7A CN202311189182A CN116934468B CN 116934468 B CN116934468 B CN 116934468B CN 202311189182 A CN202311189182 A CN 202311189182A CN 116934468 B CN116934468 B CN 116934468B
- Authority
- CN
- China
- Prior art keywords
- information
- client
- layer
- input end
- output end
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 239000013598 vector Substances 0.000 claims abstract description 119
- 238000000605 extraction Methods 0.000 claims abstract description 87
- 238000012545 processing Methods 0.000 claims abstract description 13
- 230000008569 process Effects 0.000 claims abstract description 8
- 238000012216 screening Methods 0.000 claims abstract description 7
- 238000011176 pooling Methods 0.000 claims description 22
- 238000012549 training Methods 0.000 claims description 10
- 238000005070 sampling Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000010365 information processing Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 description 10
- 239000000463 material Substances 0.000 description 7
- 230000009286 beneficial effect Effects 0.000 description 6
- 239000000284 extract Substances 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000004927 fusion Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Business, Economics & Management (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Technology Law (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于语义识别的授信客户分级方法,属于语义识别技术领域,本发明将原始的信息资料,拆分成多条客户信息,对每条客户信息进行编码处理,得到多条客户信息向量,并通过重要度衡量每条客户信息向量的内容重要情况,筛选出有效客户信息向量,采用语义提取模型对多个有效客户信息向量和重要度进行处理,有效客户信息向量中包含了客户信息,重要度在语义提取模型起对有效客户信息向量特征施加更多关注度的目的,使得语义提取模型对重要特征施加更多关注度,提高语义提取精度,本发明一方面减少了工作人员的工作量,另一方面授信客户分级完全出自于客观角度,不存在主观因素,提高了分级的精度。
Description
技术领域
本发明涉及语义识别技术领域,具体涉及一种基于语义识别的授信客户分级方法。
背景技术
随着大数据和人工智能技术的发展,金融机构在信贷业务中需要对客户进行精细化管理。传统的授信客户分级由工作人员阅读客户信息资料,从客户信息资料中提取出关键信息,例如:客户收入信息、客户消费信息、客户资产信息和客户负债信息等,再根据客户收入信息、客户消费信息、客户资产信息和客户负债信息等,对客户进行评定,其评定结果存在主观意识强的问题,无法完全从客观角度实现对客户的分级,造成分级精度不高,同时,采用工作人员从客户信息资料中提取出关键信息,造成工作人员工作强度大的问题。
发明内容
针对现有技术中的上述不足,本发明提供的一种基于语义识别的授信客户分级方法解决了现有授信客户分级方法存在工作人员工作强度大、以及分级精度不高的问题。
为了达到上述发明目的,本发明采用的技术方案为:一种基于语义识别的授信客户分级方法,包括以下步骤:
S1、根据客户的信息资料中标点符号所在位置,对客户的信息资料中文字信息进行分句处理,得到多条客户信息;
S2、将每条客户信息进行编码处理,得到客户信息向量;
S3、计算出客户信息向量的重要度,并筛选出有效客户信息向量;
S4、通过语义提取模型对多个有效客户信息向量和重要度进行处理,得到客户收入信息、客户消费信息、客户资产信息和客户负债信息;
S5、根据客户收入信息、客户消费信息、客户资产信息和客户负债信息,计算授信客户信用等级。
综上,本发明的有益效果为:本发明中步骤S1实现对信息资料的分句处理,将原始的信息资料,拆分成多条客户信息,对每条客户信息进行编码处理,得到多条客户信息向量,并通过重要度衡量每条客户信息向量的内容重要情况,筛选出有效客户信息向量,实现将部分与客户收入信息、客户消费信息、客户资产信息和客户负债信息无关的内容丢弃,采用语义提取模型对多个有效客户信息向量和重要度进行处理,有效客户信息向量中包含了客户信息,重要度在语义提取模型起对有效客户信息向量特征施加更多关注度的目的,使得语义提取模型对重要特征施加更多关注度,提高语义提取精度,根据提取的客户收入信息、客户消费信息、客户资产信息和客户负债信息,计算出授信客户信用等级,一方面减少了工作人员的工作量,另一方面授信客户分级完全出自于客观角度,不存在主观因素,提高了分级的精度。
进一步地,所述S3具体包括:统计出客户信息向量中每个词向量出现在所有客户信息向量中的次数,并基于词向量权重,计算出客户信息向量的重要度,将重要度大于阈值的客户信息向量筛选出来,作为有效客户信息向量。
进一步地,所述计算出客户信息向量的重要度的公式为:
,
其中,Imi为第i条客户信息向量的重要度,Ti,j为第i条客户信息向量中第j个词向量在所有客户信息向量中出现的次数,wi,j为第i条客户信息向量中第j个词向量的权重,J为客户信息向量中词向量的数量。
上述进一步地方案的有益效果为:本发明中根据每个词向量出现在所有客户信息向量中的次数,以及词向量权重,从而计算出每条客户信息向量的重要度,词向量权重为提前设定好的,对关键信息的词向量权重设定较大,对非关键信息的词向量权重设定较小或者设定为0,在词向量权重越大,词向量出现次数越多时,对应的客户信息向量的重要度越高。
进一步地,所述S4中语义提取模型包括:信息特征提取单元、Concat单元、LSTM单元和CRF解码单元,其中,信息特征提取单元的数量大于等于2;
每个所述信息特征提取单元的输入端用于输入一条客户信息向量;所述Concat单元的输入端分别与多个信息特征提取单元的输出端连接,其输出端与LSTM单元的输入端连接;所述CRF解码单元的输入端与LSTM单元的输出端连接,其输出端作为语义提取模型的输出端。
上述进一步地方案的有益效果为:本发明中一个信息特征提取单元用于处理一条客户信息向量,从而提取出客户信息特征,Concat单元用于将所有客户信息特征进行拼接,得到拼接特征,再利用LSTM单元的记忆性,提高语义提取的精度,最后采用CRF解码单元进行解码处理,还原文字信息。
进一步地,所述信息特征提取单元包括:信息特征提取模块、信息权重输出模块和乘法器;
所述信息特征提取模块的输入端与信息权重输出模块的输入端连接,并作为信息特征提取单元的输入端;所述乘法器的第一输入端与信息特征提取模块的输出端连接,其第二输入端与信息权重输出模块的输出端连接,其输出端作为信息特征提取单元的输出端。
进一步地,所述信息权重输出模块的表达式为:
,
其中,ωk为信息权重输出模块输出的第k个权重,Imi为第i条客户信息向量的重要度,arctan为反正切函数,xi,k为第i条客户信息向量中第k个元素,K为客户信息向量中元素的数量,u为调节系数。
上述进一步地方案的有益效果为:本发明中信息权重输出模块中考虑每条客户信息向量的重要度和客户信息向量中元素所占权重,从而得到信息权重输出模块输出的多个权重,在客户信息向量的重要度越高时,对信息特征提取模块输出的特征施加的关注度越高,从而自适应的增强关键信息的关注度。
进一步地,所述信息特征提取模块包括:第一卷积层、第二卷积层、第三卷积层、第一BN层、第二BN层、第三BN层、第一上采样层、第二上采样层、第三上采样层、加法器、最大池化层和平均池化层;
所述第一卷积层的输入端作为信息特征提取模块的输入端;所述第一BN层的输入端与第一卷积层的输出端连接,其输出端分别与第二卷积层的输入端和第一上采样层的输入端连接;所述第二BN层的输入端与第二卷积层的输出端连接,其输出端分别与第二上采样层的输入端和第三卷积层的输入端连接;所述第三BN层的输入端与第三卷积层的输出端连接,其输出端与第三上采样层的输入端连接;所述加法器的输入端分别与第一上采样层的输出端、第二上采样层的输出端和第三上采样层的输出端连接,其输出端分别与最大池化层的输入端和平均池化层的输入端连接;所述最大池化层的输出端和平均池化层的输出端均作为信息特征提取模块的输出端。
上述进一步地方案的有益效果为:本发明设置了三个上采样层,采集不同层次的特征,在加法器处实现特征的融合,再通过最大池化层提取显著特征,平均池化层提取全局特征,实现减少数据量的同时,最大程度保留住特征信息。
进一步地,所述S4使用的语义提取模型为采用样本训练后的语义提取模型,训练语义提取模型的损失函数为:
,
其中,loss为损失函数,| |为取绝对值,ym为训练过程中语义提取模型输出第m个预测值,Ym为标签中第m个实际值,M为实际值Ym或预测值ym的数量,G为相关度,ln为对数函数。
进一步地,所述相关度G的计算公式为:
,
其中,ym为训练过程中语义提取模型输出第m个预测值,Ym为标签中第m个实际值,M为实际值Ym或预测值ym的数量。
上述进一步地方案的有益效果为:本发明中损失函数反映了预测值构成的向量与标签的相关性,损失函数越小,预测值与标签越相近。
进一步地,所述S5中计算授信客户信用等级的公式为:
,
其中,d为授信客户信用等级,p为客户资产信息中资产值,in为客户收入信息中收入值,C为客户消费信息中消费值,li为客户负债信息中负债值。
附图说明
图1为一种基于语义识别的授信客户分级方法的流程图;
图2为语义提取模型的结构示意图;
图3为信息特征提取单元的结构示意图;
图4为信息特征提取模块的结构示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
如图1所示,一种基于语义识别的授信客户分级方法,包括以下步骤:
S1、根据客户的信息资料中标点符号所在位置,对客户的信息资料中文字信息进行分句处理,得到多条客户信息;在本实施例中,标点符号包括句号和分号等;
S2、将每条客户信息进行编码处理,得到客户信息向量;
S3、计算出客户信息向量的重要度,并筛选出有效客户信息向量;
S4、通过语义提取模型对多个有效客户信息向量和重要度进行处理,得到客户收入信息、客户消费信息、客户资产信息和客户负债信息;
S5、根据客户收入信息、客户消费信息、客户资产信息和客户负债信息,计算授信客户信用等级。
本发明中步骤S1实现对信息资料的分句处理,将原始的信息资料,拆分成多条客户信息,对每条客户信息进行编码处理,得到多条客户信息向量,并通过重要度衡量每条客户信息向量的内容重要情况,筛选出有效客户信息向量,实现将部分与客户收入信息、客户消费信息、客户资产信息和客户负债信息无关的内容丢弃,采用语义提取模型对多个有效客户信息向量和重要度进行处理,有效客户信息向量中包含了客户信息,重要度在语义提取模型起对有效客户信息向量特征施加更多关注度的目的,使得语义提取模型对重要特征施加更多关注度,提高语义提取精度,根据提取的客户收入信息、客户消费信息、客户资产信息和客户负债信息,计算出授信客户信用等级,一方面减少了工作人员的工作量,另一方面授信客户分级完全出自于客观角度,不存在主观因素,提高了分级的精度。
所述S3具体包括:统计出客户信息向量中每个词向量出现在所有客户信息向量中的次数,并基于词向量权重,计算出客户信息向量的重要度,将重要度大于阈值的客户信息向量筛选出来,作为有效客户信息向量。
所述计算出客户信息向量的重要度的公式为:
,
其中,Imi为第i条客户信息向量的重要度,Ti,j为第i条客户信息向量中第j个词向量在所有客户信息向量中出现的次数,wi,j为第i条客户信息向量中第j个词向量的权重,J为客户信息向量中词向量的数量。
本发明中根据每个词向量出现在所有客户信息向量中的次数,以及词向量权重,从而计算出每条客户信息向量的重要度,词向量权重为提前设定好的,对关键信息的词向量权重设定较大,对非关键信息的词向量权重设定较小或者设定为0,在词向量权重越大,词向量出现次数越多时,对应的客户信息向量的重要度越高。
如图2所示,所述S4中语义提取模型包括:信息特征提取单元、Concat单元、LSTM单元和CRF解码单元,其中,信息特征提取单元的数量大于等于2;
每个所述信息特征提取单元的输入端用于输入一条客户信息向量;所述Concat单元的输入端分别与多个信息特征提取单元的输出端连接,其输出端与LSTM单元的输入端连接;所述CRF解码单元的输入端与LSTM单元的输出端连接,其输出端作为语义提取模型的输出端。
本发明中一个信息特征提取单元用于处理一条客户信息向量,从而提取出客户信息特征,Concat单元用于将所有客户信息特征进行拼接,得到拼接特征,再利用LSTM单元的记忆性,提高语义提取的精度,最后采用CRF解码单元进行解码处理,还原文字信息。
在图2中,包括:第1信息特征提取单元到第N信息特征提取单元,共N个信息特征提取单元,可用于同时输入N条客户信息向量。
如图3所示,所述信息特征提取单元包括:信息特征提取模块、信息权重输出模块和乘法器;
所述信息特征提取模块的输入端与信息权重输出模块的输入端连接,并作为信息特征提取单元的输入端;所述乘法器的第一输入端与信息特征提取模块的输出端连接,其第二输入端与信息权重输出模块的输出端连接,其输出端作为信息特征提取单元的输出端。
所述信息权重输出模块的表达式为:
,
其中,ωk为信息权重输出模块输出的第k个权重,Imi为第i条客户信息向量的重要度,arctan为反正切函数,xi,k为第i条客户信息向量中第k个元素,K为客户信息向量中元素的数量,u为调节系数。
本发明中信息权重输出模块中考虑每条客户信息向量的重要度和客户信息向量中元素所占权重,从而得到信息权重输出模块输出的多个权重,在客户信息向量的重要度越高时,对信息特征提取模块输出的特征施加的关注度越高,从而自适应的增强关键信息的关注度。
如图4所示,所述信息特征提取模块包括:第一卷积层、第二卷积层、第三卷积层、第一BN层、第二BN层、第三BN层、第一上采样层、第二上采样层、第三上采样层、加法器、最大池化层和平均池化层;
所述第一卷积层的输入端作为信息特征提取模块的输入端;所述第一BN层的输入端与第一卷积层的输出端连接,其输出端分别与第二卷积层的输入端和第一上采样层的输入端连接;所述第二BN层的输入端与第二卷积层的输出端连接,其输出端分别与第二上采样层的输入端和第三卷积层的输入端连接;所述第三BN层的输入端与第三卷积层的输出端连接,其输出端与第三上采样层的输入端连接;所述加法器的输入端分别与第一上采样层的输出端、第二上采样层的输出端和第三上采样层的输出端连接,其输出端分别与最大池化层的输入端和平均池化层的输入端连接;所述最大池化层的输出端和平均池化层的输出端均作为信息特征提取模块的输出端。
本发明设置了三个上采样层,采集不同层次的特征,在加法器处实现特征的融合,再通过最大池化层提取显著特征,平均池化层提取全局特征,实现减少数据量的同时,最大程度保留住特征信息。
所述S4使用的语义提取模型为采用样本训练后的语义提取模型,训练语义提取模型的损失函数为:
,
其中,loss为损失函数,| |为取绝对值,ym为训练过程中语义提取模型输出第m个预测值,Ym为标签中第m个实际值,M为实际值Ym或预测值ym的数量,G为相关度,ln为对数函数。
所述相关度G的计算公式为:
,
其中,ym为训练过程中语义提取模型输出第m个预测值,Ym为标签中第m个实际值,M为实际值Ym或预测值ym的数量。
本实施例中,训练语义提取模型的样本为有效客户信息向量标注标签后的数据,其中标签包括:客户收入信息、客户消费信息、客户资产信息和客户负债信息。
本发明中损失函数反映了预测值构成的向量与标签的相关性,损失函数越小,预测值与标签越相近。
所述S5中计算授信客户信用等级的公式为:
,
其中,d为授信客户信用等级,p为客户资产信息中资产值,in为客户收入信息中收入值,C为客户消费信息中消费值,li为客户负债信息中负债值。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种基于语义识别的授信客户分级方法,其特征在于,包括以下步骤:
S1、根据客户的信息资料中标点符号所在位置,对客户的信息资料中文字信息进行分句处理,得到多条客户信息;
S2、将每条客户信息进行编码处理,得到客户信息向量;
S3、计算出客户信息向量的重要度,并筛选出有效客户信息向量;
S4、通过语义提取模型对多个有效客户信息向量和重要度进行处理,得到客户收入信息、客户消费信息、客户资产信息和客户负债信息;
S5、根据客户收入信息、客户消费信息、客户资产信息和客户负债信息,计算授信客户信用等级;
所述S3具体包括:统计出客户信息向量中每个词向量出现在所有客户信息向量中的次数,并基于词向量权重,计算出客户信息向量的重要度,将重要度大于阈值的客户信息向量筛选出来,作为有效客户信息向量;
所述计算出客户信息向量的重要度的公式为:
,
其中,Imi为第i条客户信息向量的重要度,Ti,j为第i条客户信息向量中第j个词向量在所有客户信息向量中出现的次数,wi,j为第i条客户信息向量中第j个词向量的权重,J为客户信息向量中词向量的数量;
所述S4中语义提取模型包括:信息特征提取单元、Concat单元、LSTM单元和CRF解码单元,其中,信息特征提取单元的数量大于等于2;
每个所述信息特征提取单元的输入端用于输入一条客户信息向量;所述Concat单元的输入端分别与多个信息特征提取单元的输出端连接,其输出端与LSTM单元的输入端连接;所述CRF解码单元的输入端与LSTM单元的输出端连接,其输出端作为语义提取模型的输出端;
所述信息特征提取单元包括:信息特征提取模块、信息权重输出模块和乘法器;
所述信息特征提取模块的输入端与信息权重输出模块的输入端连接,并作为信息特征提取单元的输入端;所述乘法器的第一输入端与信息特征提取模块的输出端连接,其第二输入端与信息权重输出模块的输出端连接,其输出端作为信息特征提取单元的输出端;
所述信息权重输出模块的表达式为:
,
其中,ωk为信息权重输出模块输出的第k个权重,Imi为第i条客户信息向量的重要度,arctan为反正切函数,xi,k为第i条客户信息向量中第k个元素,K为客户信息向量中元素的数量,u为调节系数;
所述S5中计算授信客户信用等级的公式为:
,
其中,d为授信客户信用等级,p为客户资产信息中资产值,in为客户收入信息中收入值,C为客户消费信息中消费值,li为客户负债信息中负债值。
2.根据权利要求1所述的基于语义识别的授信客户分级方法,其特征在于,所述信息特征提取模块包括:第一卷积层、第二卷积层、第三卷积层、第一BN层、第二BN层、第三BN层、第一上采样层、第二上采样层、第三上采样层、加法器、最大池化层和平均池化层;
所述第一卷积层的输入端作为信息特征提取模块的输入端;所述第一BN层的输入端与第一卷积层的输出端连接,其输出端分别与第二卷积层的输入端和第一上采样层的输入端连接;所述第二BN层的输入端与第二卷积层的输出端连接,其输出端分别与第二上采样层的输入端和第三卷积层的输入端连接;所述第三BN层的输入端与第三卷积层的输出端连接,其输出端与第三上采样层的输入端连接;所述加法器的输入端分别与第一上采样层的输出端、第二上采样层的输出端和第三上采样层的输出端连接,其输出端分别与最大池化层的输入端和平均池化层的输入端连接;所述最大池化层的输出端和平均池化层的输出端均作为信息特征提取模块的输出端。
3.根据权利要求1所述的基于语义识别的授信客户分级方法,其特征在于,所述S4使用的语义提取模型为采用样本训练后的语义提取模型,训练语义提取模型的损失函数为:
,
其中,loss为损失函数,| |为取绝对值,ym为训练过程中语义提取模型输出第m个预测值,Ym为标签中第m个实际值,M为实际值Ym或预测值ym的数量,G为相关度,ln为对数函数。
4.根据权利要求3所述的基于语义识别的授信客户分级方法,其特征在于,所述相关度G的计算公式为:
,
其中,ym为训练过程中语义提取模型输出第m个预测值,Ym为标签中第m个实际值,M为实际值Ym或预测值ym的数量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311189182.7A CN116934468B (zh) | 2023-09-15 | 2023-09-15 | 一种基于语义识别的授信客户分级方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311189182.7A CN116934468B (zh) | 2023-09-15 | 2023-09-15 | 一种基于语义识别的授信客户分级方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116934468A CN116934468A (zh) | 2023-10-24 |
CN116934468B true CN116934468B (zh) | 2023-12-22 |
Family
ID=88384701
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311189182.7A Active CN116934468B (zh) | 2023-09-15 | 2023-09-15 | 一种基于语义识别的授信客户分级方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116934468B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017124245A1 (zh) * | 2016-01-18 | 2017-07-27 | 阮元 | 根据客户金融负债匹配是否融资的方法以及智能融资系统 |
CN110414004A (zh) * | 2019-07-31 | 2019-11-05 | 阿里巴巴集团控股有限公司 | 一种核心信息提取的方法和系统 |
CN111221966A (zh) * | 2019-12-31 | 2020-06-02 | 北京科东电力控制系统有限责任公司 | 一种文本语义关系提取方法及系统 |
CN111898374A (zh) * | 2020-07-30 | 2020-11-06 | 腾讯科技(深圳)有限公司 | 文本识别方法、装置、存储介质和电子设备 |
CN112784601A (zh) * | 2021-02-03 | 2021-05-11 | 中山大学孙逸仙纪念医院 | 关键信息提取方法、装置、电子设备和存储介质 |
CN114722810A (zh) * | 2022-03-21 | 2022-07-08 | 浙江工业大学 | 一种基于信息抽取和多属性决策的房地产客户画像方法和系统 |
CN116503872A (zh) * | 2023-06-26 | 2023-07-28 | 四川集鲜数智供应链科技有限公司 | 一种基于机器学习的授信客户挖掘方法 |
CN116596663A (zh) * | 2023-06-19 | 2023-08-15 | 江苏艾辰鑫数字科技有限公司 | 一种经营性客户信用评分模型的建立方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11893632B2 (en) * | 2021-01-06 | 2024-02-06 | Capital One Services, Llc | Systems and methods for determining financial security risks using self-supervised natural language extraction |
-
2023
- 2023-09-15 CN CN202311189182.7A patent/CN116934468B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017124245A1 (zh) * | 2016-01-18 | 2017-07-27 | 阮元 | 根据客户金融负债匹配是否融资的方法以及智能融资系统 |
CN110414004A (zh) * | 2019-07-31 | 2019-11-05 | 阿里巴巴集团控股有限公司 | 一种核心信息提取的方法和系统 |
CN111221966A (zh) * | 2019-12-31 | 2020-06-02 | 北京科东电力控制系统有限责任公司 | 一种文本语义关系提取方法及系统 |
CN111898374A (zh) * | 2020-07-30 | 2020-11-06 | 腾讯科技(深圳)有限公司 | 文本识别方法、装置、存储介质和电子设备 |
CN112784601A (zh) * | 2021-02-03 | 2021-05-11 | 中山大学孙逸仙纪念医院 | 关键信息提取方法、装置、电子设备和存储介质 |
CN114722810A (zh) * | 2022-03-21 | 2022-07-08 | 浙江工业大学 | 一种基于信息抽取和多属性决策的房地产客户画像方法和系统 |
CN116596663A (zh) * | 2023-06-19 | 2023-08-15 | 江苏艾辰鑫数字科技有限公司 | 一种经营性客户信用评分模型的建立方法及装置 |
CN116503872A (zh) * | 2023-06-26 | 2023-07-28 | 四川集鲜数智供应链科技有限公司 | 一种基于机器学习的授信客户挖掘方法 |
Non-Patent Citations (2)
Title |
---|
基于文本特征挖掘与融合的中小企业信用风险评价方法;殷畅;《中国博士学位论文全文数据库 经济与管理科学辑(月刊)》(第6期);第J152-13页 * |
科技型小微企业信用风险评估指标及特征提取模型研究;达芳;《中国博士学位论文全文数据库 经济与管理科学辑(月刊)》(第1期);第J152-32页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116934468A (zh) | 2023-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110222188B (zh) | 一种多任务学习的公司公告处理方法及服务端 | |
CN109960724B (zh) | 一种基于tf-idf的文本摘要方法 | |
CN112035658B (zh) | 基于深度学习的企业舆情监测方法 | |
CN105975459B (zh) | 一种词项的权重标注方法和装置 | |
CN112101043A (zh) | 一种基于注意力的语义文本相似度计算方法 | |
CN112084334B (zh) | 语料的标签分类方法、装置、计算机设备及存储介质 | |
CN105183833A (zh) | 一种基于用户模型的微博文本推荐方法及其推荐装置 | |
CN113591483A (zh) | 一种基于序列标注的文档级事件论元抽取方法 | |
CN111680225B (zh) | 基于机器学习的微信金融消息分析方法及系统 | |
Sun et al. | Two-channel attention mechanism fusion model of stock price prediction based on CNN-LSTM | |
CN114330354B (zh) | 一种基于词汇增强的事件抽取方法、装置及存储介质 | |
CN112148831B (zh) | 图文混合检索方法、装置、存储介质、计算机设备 | |
CN114911958B (zh) | 一种基于语义偏好的快速图像检索方法 | |
CN110263343A (zh) | 基于短语向量的关键词抽取方法及系统 | |
CN111859967A (zh) | 实体识别方法、装置,电子设备 | |
CN113822776A (zh) | 课程推荐方法、装置、设备及存储介质 | |
CN110569355B (zh) | 一种基于词块的观点目标抽取和目标情感分类联合方法及系统 | |
CN113378090B (zh) | 一种互联网网站相似度分析方法、装置以及可读存储介质 | |
CN116934468B (zh) | 一种基于语义识别的授信客户分级方法 | |
CN115269768A (zh) | 要素文本处理方法、装置、电子设备和存储介质 | |
CN116777607A (zh) | 一种基于nlp技术的智能审计方法 | |
CN117033961A (zh) | 一种上下文语境感知的多模态图文分类方法 | |
CN107729509B (zh) | 基于隐性高维分布式特征表示的篇章相似度判定方法 | |
CN111581386A (zh) | 多输出文本分类模型的构建方法、装置、设备及介质 | |
CN113011174B (zh) | 一种基于文本分析的围标串标识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |