CN111950625A - 基于人工智能的风险识别方法、装置、计算机设备及介质 - Google Patents
基于人工智能的风险识别方法、装置、计算机设备及介质 Download PDFInfo
- Publication number
- CN111950625A CN111950625A CN202010798036.4A CN202010798036A CN111950625A CN 111950625 A CN111950625 A CN 111950625A CN 202010798036 A CN202010798036 A CN 202010798036A CN 111950625 A CN111950625 A CN 111950625A
- Authority
- CN
- China
- Prior art keywords
- data set
- risk
- sample data
- sample
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 36
- 238000012549 training Methods 0.000 claims abstract description 45
- 238000013528 artificial neural network Methods 0.000 claims abstract description 38
- 238000012545 processing Methods 0.000 claims description 26
- 238000004422 calculation algorithm Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 7
- 238000004140 cleaning Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 4
- 238000007726 management method Methods 0.000 description 4
- 238000012015 optical character recognition Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012502 risk assessment Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Accounting & Taxation (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及人工智能技术领域,提供一种基于人工智能的风险识别方法、装置、计算机设备及介质,包括:采用XDeep FM模型提取出多个结构化数据中的多个高阶特征数据;根据结构化数据和高阶特征生成正负样本数据集,根据正负样本数据集中的风险样本对之间的相似度确定正负样本数据集的相似度分布,根据相似度分布为正负样本数据集生成不同的权重;基于正样本数据集及对应的权重、负样本数据集及对应的权重训练神经网络得到风险识别模型;输入目标用户的多个目标用户数据至所述风险识别模型中进行识别得到风险级别。本发明可应用于金融领域,能够提高识别用户的风险级别的准确率。
Description
技术领域
本发明涉及人工智能技术领域,具体涉及一种基于人工智能的风险识别方法、装置、计算机设备及介质。
背景技术
随着互联网、物联网、传感器等技术的快速发展,催生出了一种新的金融工具-互联网金融服务。互联网金融服务能够为没有抵押品且很可能被传统金融机构拒绝的人群提供了帮助,在金融领域中起着重要作用。对于提供此类金融服务的平台,主要挑战在于对用户进行风险管理和信用评分。
然而,发明人在实现本发明的的过程中发现,在对用户进行风险管理时,经常要面对大量原始数据,而传统的风险评分或者信用评分在很大程度上取决于领域专家知识,且一次仅能构建一个特征,特征构建效率极其低下,导致风险评估效率较低;此外,凭直觉和反复试验构建的特征和权重,导致风险评估准确率较低。
发明内容
鉴于以上内容,有必要提出一种基于人工智能的风险识别方法、装置、计算机设备及介质,能够自动生成数据集并为数据集分配不同的权重,能够提高识别用户的风险级别的准确率。
本发明的第一方面提供一种基于人工智能的风险识别方法,所述方法包括:
对多个用户数据进行结构化处理得到多个结构化数据;
采用XDeep FM模型提取出所述多个结构化数据中的多个高阶特征数据;
根据所述多个结构化数据和所述多个高阶特征生成正样本数据集和负样本数据集,所述正样本数据集包括多个第一风险样本对,所述负样本数据集包括多个第二风险样本对;
根据所述第一风险样本对之间的相似度确定所述正样本数据集的第一相似度分布,根据所述第二风险样本对之间的相似度确定所述负样本数据集的第二相似度分布;
根据所述第一相似度分布为所述正样本数据集生成第一权重,根据所述第二相似度分布为所述负样本数据集生成第二权重;
基于所述正样本数据集及所述第一权重、所述负样本数据集及所述第二权重训练神经网络得到风险识别模型;
输入目标用户的多个目标用户数据至所述风险识别模型中进行识别得到风险级别。
根据本发明的一个可选的实施例,所述根据所述多个结构化数据和所述多个高阶特征生成正样本数据集和负样本数据集包括:
将所述多个高阶特征数据与所述多个结构化数据进行两两组合得到多个样本数据;
为每个用户数据生成第一风险标识或者第二风险标识;
根据所述第一风险标识及与所述第一风险标识对应的样本数据生成正样本数据集;
根据所述第二风险标识及与所述第二风险标识对应的样本数据生成负样本数据集。
根据本发明的一个可选的实施例,所述对多个用户数据进行结构化处理得到多个结构化数据包括:
获取所述多个用户数据中的多个非结构化数据及多个原始结构化数据;
采用证据权重算法对所述多个非结构化数据进行编码得到多个编码数据;
对所述多个编码数据及所述多个原始结构化数据进行数据清洗得到多个结构化数据。
根据本发明的一个可选的实施例,所述根据所述第一相似度分布为所述正样本数据集生成第一权重,根据所述第二相似度分布为所述负样本数据集生成第二权重包括:
基于所述第一相似度分布及所述第二相似度分布,确定分类正确的第一样本数据集及确定分类错误的第二样本数据集;
将所述第一相似度分布与所述第二相似度分布的交叉点对应的相似度作为样本数据集的相似度分布的均值;
在所述均值的基础上减少预设第一值并作为所述第一样本数据集中每个风险样本对的第一权重;
在所述均值的基础上增加预设第二值并作为所述第二样本数据集中每个风险样本对的第二权重。
根据本发明的一个可选的实施例,在确定分类正确的第一样本数据集及确定分类错误的第二样本数据集之后,所述方法还包括:
对所述第一样本数据集进行缺失值填充得到第一目标样本数据集,对所述第二样本数据集进行缺失值填充得到第二目标样本数据集;
计算所述第一目标样本数据集的第一群体稳定性指标和第一信息价值指标,及计算所述第二目标样本数据集的第二群体稳定性指标和第二信息价值指标;
根据所述第一群体稳定性指标和所述第一信息价值指标更新所述第一目标样本数据集,及根据所述第二群体稳定性指标和所述第二信息价值指标更新所述第二目标样本数据集。
根据本发明的一个可选的实施例,所述根据所述第一群体稳定性指标和所述第一信息价值指标更新所述第一目标样本数据集,及根据所述第二群体稳定性指标和所述第二信息价值指标更新所述第二目标样本数据集包括:
剔除所述第一目标样本数据集中大于第一群体稳定性指标阈值的第一群体稳定性指标对应的第一目标风险样本对,并对剔除所述第一目标风险样本对之后的第一目标样本数据集中的风险样本对的第一信息价值指标进行排序,获取排序在前预设第一数量的第一信息价值指标对应的第二目标风险样本对,确定所述第二目标风险样本对为更新后的第一目标样本数据集;
剔除所述第二目标样本数据集中大于第二群体稳定性指标阈值的第二群体稳定性指标对应的第三目标风险样本对,并对剔除所述第三目标风险样本对之后的第二目标样本数据集中的风险样本对的第二信息价值指标进行排序,获取排序在前预设第二数量的第二信息价值指标对应的第四目标风险样本对,确定所述第四目标风险样本对为更新后的所述第二目标样本数据集。
根据本发明的一个可选的实施例,基于所述正样本数据集及所述第一权重、所述负样本数据集及所述第二权重训练所述神经网络得到风险识别模型包括:
基于所述正样本数据集及所述第一权重、所述负样本数据集及所述第二权重对所述神经网络进行第一轮训练;
获取第一轮训练的每个用户的预测结果及对应的真实结果;
根据所述预测结果及对应的真实结果计算准确率;
当所述准确率小于所述预设准确率阈值时,在所述第一权重的基础上减少所述预设第一值得到第三权重,及在所述第二权重的基础上增加所述预设第二值得到第四权重;
基于所述正样本数据集及所述第三权重、所述负样本数据集及所述第四权重对所述神经网络进行第二轮训练,重复上述过程,直至所述准确率大于或者等于所述预设准确率阈值,停止所述神经网络的训练,得到风险识别模型。
本发明的第二方面提供一种基于人工智能的风险识别装置,所述装置包括:
结构化处理模块,用于对多个用户数据进行结构化处理得到多个结构化数据;
特征提取模块,用于采用XDeep FM模型提取出所述多个结构化数据中的多个高阶特征数据;
数据集生成模块,用于根据所述多个结构化数据和所述多个高阶特征生成正样本数据集和负样本数据集,所述正样本数据集包括多个第一风险样本对,所述负样本数据集包括多个第二风险样本对;
分布确定模块,用于根据所述第一风险样本对之间的相似度确定所述正样本数据集的第一相似度分布,根据所述第二风险样本对之间的相似度确定所述负样本数据集的第二相似度分布;
权重生成模块,用于根据所述第一相似度分布为所述正样本数据集生成第一权重,根据所述第二相似度分布为所述负样本数据集生成第二权重;
模型训练模块,用于基于所述正样本数据集及所述第一权重、所述负样本数据集及所述第二权重训练神经网络得到风险识别模型;
风险识别模块,用于输入目标用户的多个目标用户数据至所述风险识别模型中进行识别得到风险级别。
本发明的第三方面提供一种计算机设备,所述计算机设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现所述基于人工智能的风险识别方法。
本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述基于人工智能的风险识别方法。
综上所述,本发明所述的基于人工智能的风险识别方法、装置、计算机设备及介质,通过采用XDeep FM模型自动提取出用户的结构化数据中的高阶特征数据,挖掘出了潜在有意义的特征,特征提取效率高;并通过高阶特征与用户数据进行组合得到组合数据,不仅丰富了用户数据的数量,同时提高了用户数据的多样性,能够提高风险识别模型的泛化能力;在构建样本数据集时,根据风险样本对之间的相似度确定正负样本数据集的相似度分布,以样本数据集的相似度分布的均值为轴,越靠近相似度分布的均值的相似度对应的风险样本对,越表示分类错误,越远离所述相似度分布的均值的相似度对应的风险样本对,越表示分类正确,基于相似度分布为正负样本数据集生成不同的权重,为越靠近样本数据集的相似度分布的均值的相似度对应的风险样本对生成越大的权重,为越靠近样本数据集的相似度分布的均值的相似度对应的风险样本对生成越小的权重,即增加分类错误的样本对的权重并减少分类正确的风险样本对的权重,从而增大所述分类错误的样本对神经网络的贡献,更好地修正模型参数、提高模型参数的表达能力,提高风险识别模型的准确率,进而提高识别用户的风险级别的准确率。
附图说明
图1是本发明实施例一提供的基于人工智能的风险识别方法的流程图。
图2是本发明实施例二提供的基于人工智能的风险识别装置的结构图。
图3是本发明实施例三提供的计算机设备的结构示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
图1是本发明实施例一提供的基于人工智能的风险识别方法的流程图。所述基于人工智能的风险识别方法具体包括以下步骤,根据不同的需求,该流程图中步骤的顺序可以改变,某些可以省略。
S11,对多个用户数据进行结构化处理得到多个结构化数据。
在金融领域,所述用户数据可以包括,但不限于:用户的基础数据,用户的客户数据,用户的业务数据。其中,所述基础数据包括:年龄、性别、学历、财富值、工作年限、职业等。所述用户的客户数据则指与用户相关的人员的基础数据。所述用户的业务数据包括:保单金额、保单年限、坏单率、坏单金额等。
可以从企业内部或者互联网上获取多个用户的用户数据。所述用户数据可以为文本类或者图片类等非结构化数据,也可以为结构化数据。对于非结构化数据,需要先进行结构化处理,保证用户数据具有统一的数据格式,满足所述神经网络对输入数据的需求。
在一个可选的实施例中,所述对多个用户数据进行结构化处理得到多个结构化数据包括:
获取所述多个用户数据中的多个非结构化数据及多个原始结构化数据;
采用证据权重算法对所述多个非结构化数据进行编码得到多个编码数据;
对所述多个编码数据及所述多个原始结构化数据进行数据清洗得到多个结构化数据。
如果用户数据为图片类型的非结构化数据,则先通过光学字符识别(OpticalCharacter Recognition,OCR)算法识别出图片中的字符得到文本类型数据。对于文本类型数据则再采用证据权重算法进行编码得到编码数据。
证据权重(Weight of Evidence,WOE)算法是对原始自变量的一种编码形式。要对一个变量进行WOE编码,需要首先把这个变量进行分组处理(也叫离散化或者分箱处理等等)。关于WOE编码的过程,为现有技术,本发明在此不再详细阐述。
所述数据清洗包括异常值处理,例如,某用户的投保年龄为3岁,由于实际业务场景的投保年龄限定大于18岁,则需要剔除该用户的用户数据。
S12,采用XDeep FM模型提取出所述多个结构化数据中的多个高阶特征数据。
可以预先训练XDeep FM模型,XDeep FM模型能够利用多层全连接神经网络自动学习特征间的高阶交互关系,从而提取出所述多个结构化数据中的多个高阶特征数据。增加多个高阶特征数据能够提高用于训练风险识别模型的样本数据的数量与质量,从而提高训练风险识别模型的效率及准确率。
示例性的,在智能核保场景中,有两个结构化数据,其中一个结构化数据为:业务员被保人人均年龄45岁,另一个结构化数据为:被保人年龄45岁,可见这两个结构化数据略显单调,通过XDeep FM模型提取出的高阶特征数据为:业务员出险被保人人均出险年龄45岁*被保人年龄45岁。
S13,根据所述多个结构化数据和所述多个高阶特征生成正样本数据集和负样本数据集,所述正样本数据集包括多个第一风险样本对,所述负样本数据集包括多个第二风险样本对。
其中,所述第一风险样本对包括高风险标识及与高风险标识对应的样本数据,所述第二风险样本对包括低风险标识及与低风险标识对应的样本数据。
将多个结构化数据及多个高阶特征组合在一起得到新的数据集,并将所述新的数据集划分为正样本数据集和负样本数据集,基于所述正样本数据集和所述负样本数据集训练风险识别模型。
在一个可选的实施例中,所述根据所述多个结构化数据和所述多个高阶特征生成正样本数据集和负样本数据集包括:
将所述多个高阶特征数据与所述多个结构化数据进行两两组合得到多个样本数据;
为每个用户数据生成第一风险标识或者第二风险标识;
根据所述第一风险标识及与所述第一风险标识对应的样本数据生成正样本数据集;
根据所述第二风险标识及与所述第二风险标识对应的样本数据生成负样本数据集。
可以通过标注工具结合专家经验,为高风险的用户生成第一风险标识,为低风险的用户生成第二风险标识。
通过两两组合的方式生成多个样本数据,增加了样本数据的多样性,确保所述神经网络能够学习较多的数据的特征,得到识别准确率较高的风险识别模型,提高风险识别模型的泛化能力。
S14,根据所述第一风险样本对之间的相似度确定所述正样本数据集的第一相似度分布,根据所述第二风险样本对之间的相似度确定所述负样本数据集的第二相似度分布。
由于采用的是两两组合的方式将用户数据和高阶特征数据生成样本数据,所以可以计算每一个样本数据对中的高阶特征数据及用户数据之间的相似度,并将所述相似度作为横轴,所述相似度出现的次数作为纵轴,拟合计算样本数据集的相似度分布。
可以通过计算用户数据与高阶特征数据之间的余弦夹角得到风险样本对中用户数据与高阶特征数据之间的相似度。
S15,根据所述第一相似度分布为所述正样本数据集生成第一权重,根据所述第二相似度分布为所述负样本数据集生成第二权重。
当所述正样本数据集的第一相似度分布与所述负样本数据集的第二相似度分布之间没有交叉重叠部分时,表示所述正样本数据集与所述负样本数据集中不存在分类错误的风险样本对。当所述正样本数据集的第一相似度分布与所述负样本数据集的第二相似度分布之间有交叉重叠部分时,表示所述正样本数据集与所述负样本数据集中存在分类错误的风险样本对。
在一个可选的实施例中,所述根据所述第一相似度分布为所述正样本数据集生成第一权重,根据所述第二相似度分布为所述负样本数据集生成第二权重包括:
基于所述第一相似度分布及所述第二相似度分布,确定分类正确的第一样本数据集及确定分类错误的第二样本数据集;
将所述第一相似度分布与所述第二相似度分布的交叉点对应的相似度作为样本数据集的相似度分布的均值;
在所述均值的基础上减少预设第一值并作为所述第一样本数据集中每个风险样本对的第一权重;
在所述均值的基础上增加预设第二值并作为所述第二样本数据集中每个风险样本对的第二权重。
所述第一相似度分布与所述第二相似度分布的非交叉重叠部分的相似度对应的风险样本对表示分类正确的风险样本对,所述第一相似度分布与所述第二相似度分布的交叉重叠部分的相似度对应的风险样本对表示分类错误的风险样本对。
以所述样本数据集的相似度分布的均值为轴,越靠近所述相似度分布的均值的相似度对应的风险样本对,越表示分类错误,越远离所述相似度分布的均值的相似度对应的风险样本对,越表示分类正确。
在后续训练风险识别模型的过程中,通过减少分类正确的风险样本对的第一权重,并增加分类错误的风险样本对的第二权重,可以增大所述分类错误的风险样本对对风险识别模型参数的贡献率,从而提高风险识别模型对分类错误的风险样本对的表达能力的贡献率。
在一个可选的实施例中,在确定分类正确的第一样本数据集及确定分类错误的第二样本数据集之后,所述方法还包括:
对所述第一样本数据集进行缺失值填充得到第一目标样本数据集,对所述第二样本数据集进行缺失值填充得到第二目标样本数据集;
计算所述第一目标样本数据集的第一群体稳定性指标和第一信息价值指标,及计算所述第二目标样本数据集的第二群体稳定性指标和第二信息价值指标;
根据所述第一群体稳定性指标和所述第一信息价值指标更新所述第一目标样本数据集,及根据所述第二群体稳定性指标和所述第二信息价值指标更新所述第二目标样本数据集。
在智能核保场景中,首先需要通过风险识别模型进行风险识别,而风险识别模型正式上线运行后往往需要很久(通常一年以上)才会被替换下线。如果风险识别模型不稳定,预测出的风险值的可信度较低,将会直接影响决策的合理性。因此,在训练风险识别模型之前,可以通过群体稳定性指标(Population Stability Index,PSI)和信息价值(Information Value,IV)指标来筛选出稳定性较佳的风险样本对,从而使得基于稳定性较佳的风险样本对训练出的风险识别模型也具有较佳的稳定性。
PSI越小,表明目标样本数据集中的风险样本对的稳定性越好,PSI越大,表明目标样本数据集中的风险样本对的稳定性越差。IV越大,表明目标样本数据集中的风险样本对的稳定性越好,IV越小,表明目标样本数据集中的风险样本对的稳定性越差。
在一个可选的实施例中,所述根据所述第一群体稳定性指标和所述第一信息价值指标更新所述第一目标样本数据集,及根据所述第二群体稳定性指标和所述第二信息价值指标更新所述第二目标样本数据集包括:
剔除所述第一目标样本数据集中大于第一群体稳定性指标阈值的第一群体稳定性指标对应的第一目标风险样本对,并对剔除所述第一目标风险样本对之后的第一目标样本数据集中的风险样本对的第一信息价值指标进行排序,获取排序在前预设第一数量的第一信息价值指标对应的第二目标风险样本对,确定所述第二目标风险样本对为更新后的第一目标样本数据集;
剔除所述第二目标样本数据集中大于第二群体稳定性指标阈值的第二群体稳定性指标对应的第三目标风险样本对,并对剔除所述第三目标风险样本对之后的第二目标样本数据集中的风险样本对的第二信息价值指标进行排序,获取排序在前预设第二数量的第二信息价值指标对应的第四目标风险样本对,确定所述第四目标风险样本对为更新后的所述第二目标样本数据集。
其中,所述第一群体稳定性指标阈值与所述第二群体稳定性指标阈值可以相同,也可以不同。所述第一数量与所述第二数量可以相同,也可以不同。
由于绝大部分的数据都是基于月维度,因此,首先对风险样本对进行逐月对比PSI和IV值,选取较稳定的特征,剔除不稳定的风险样本对,基于稳定的风险样本构成的样本数据集训练风险识别模型,能够有效的保证风险识别模型的稳定性。示例性的,PSI浮动大于20%的特征,并选取IV排名前200的指标进入作为最新的目标样本数据集。
S16,基于所述正样本数据集及所述第一权重、所述负样本数据集及所述第二权重训练神经网络得到风险识别模型。
可以预先设置神经网络的初始框架,并设置学习率和步长等模型参数,将所述正样本数据集和所述负样本数据集输入所述神经网络框架中,神经网络基于所述第一权重对所述正样本数据集进行迭代训练,并基于所述第二权重对所述负样本数据集进行迭代训练。
应当理解的是,所述正样本数据集为所述更新后的第一目标样本数据集,所述负样本数据集为所述更新后的第二目标样本数据集。
在一个可选的实施例中,所述基于所述正样本数据集及所述第一权重、所述负样本数据集及所述第二权重训练所述神经网络得到风险识别模型包括:
基于所述正样本数据集及所述第一权重、所述负样本数据集及所述第二权重对所述神经网络进行第一轮训练;
获取第一轮训练的每个用户的预测结果及对应的真实结果;
根据所述预测结果及对应的真实结果计算准确率;
当所述准确率小于所述预设准确率阈值时,在所述第一权重的基础上减少所述预设第一值得到第三权重,及在所述第二权重的基础上增加所述预设第二值得到第四权重;
基于所述正样本数据集及所述第三权重、所述负样本数据集及所述第四权重对所述神经网络进行第二轮训练,重复上述过程,直至所述准确率大于或者等于所述预设准确率阈值,停止所述神经网络的训练,得到风险识别模型。
将所述预测结果中与所述真实结果一致的结果作为正确结果,计算所述正确结果的数量与所述用户数据的数量之间的比值得到准确率。以准确率作为风险识别模型的收敛条件,能进一步保证风险识别模型的识别准确率。
S17,输入目标用户的多个目标用户数据至所述风险识别模型中进行识别得到风险级别。
实际使用时,如需识别某个目标用户为高风险用户还是低风险用户,则可以获取与所述目标用户相关的用户数据作为目标用户数据,调用所述风险识别模型基于所述多个目标结构化数据识别出所述目标用户的风险级别。其中,所述风险级别包括高风险和低风险。
综上所述,本发明通过采用XDeep FM模型自动提取出用户的结构化数据中的高阶特征数据,挖掘出了潜在有意义的特征,特征提取效率高;并通过高阶特征与用户数据进行组合得到组合数据,不仅丰富了用户数据的数量,同时提高了用户数据的多样性,能够提高风险识别模型的泛化能力;在构建样本数据集时,根据风险样本对之间的相似度确定正负样本数据集的相似度分布,以样本数据集的相似度分布的均值为轴,越靠近相似度分布的均值的相似度对应的风险样本对,越表示分类错误,越远离所述相似度分布的均值的相似度对应的风险样本对,越表示分类正确,基于相似度分布为正负样本数据集生成不同的权重,为越靠近样本数据集的相似度分布的均值的相似度对应的风险样本对生成越大的权重,为越靠近样本数据集的相似度分布的均值的相似度对应的风险样本对生成越小的权重,即增加分类错误的样本对的权重并减少分类正确的风险样本对的权重,从而增大所述分类错误的样本对神经网络的贡献,进而更好地修正模型参数、提高模型参数的表达能力,提高风险识别模型的准确率,进而提高识别用户的风险级别的准确率。
本发明实施例所述的基于人工智能的风险识别方法可应用于金融领域。本发明所述的方法还可以应用于智慧政务中,推动智慧城市的建设。
需要强调的是,为进一步保证上述风险识别模型的私密性和安全性,上述风险识别模型可存储于区块链的节点中。
图2是本发明实施例二提供的基于人工智能的风险识别装置的结构图。
在一些实施例中,所述基于人工智能的风险识别装置20可以包括多个由计算机程序段所组成的功能模块。所述基于人工智能的风险识别装置20中的各个程序段的计算机程序可以存储于计算机设备的存储器中,并由至少一个处理器所执行,以执行(详见图1描述)基于人工智能的风险识别的功能。
本实施例中,所述基于人工智能的风险识别装置20根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:结构化处理模块201、特征提取模块202、数据集生成模块203、分布确定模块204、权重生成模块205、数据集更新模块206、模型训练模块207及风险识别模块208。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。在本实施例中,关于各模块的功能将在后续的实施例中详述。
所述结构化处理模块201,用于对多个用户数据进行结构化处理得到多个结构化数据。
在金融领域,所述用户数据可以包括,但不限于:用户的基础数据,用户的客户数据,用户的业务数据。其中,所述基础数据包括:年龄、性别、学历、财富值、工作年限、职业等。所述用户的客户数据则指与用户相关的人员的基础数据。所述用户的业务数据包括:保单金额、保单年限、坏单率、坏单金额等。
可以从企业内部或者互联网上获取多个用户的用户数据。所述用户数据可以为文本类或者图片类等非结构化数据,也可以为结构化数据。对于非结构化数据,需要先进行结构化处理,保证用户数据具有统一的数据格式,满足所述神经网络对输入数据的需求。
在一个可选的实施例中,所述结构化处理模块201对多个用户数据进行结构化处理得到多个结构化数据包括:
获取所述多个用户数据中的多个非结构化数据及多个原始结构化数据;
采用证据权重算法对所述多个非结构化数据进行编码得到多个编码数据;
对所述多个编码数据及所述多个原始结构化数据进行数据清洗得到多个结构化数据。
如果用户数据为图片类型的非结构化数据,则先通过光学字符识别(OpticalCharacter Recognition,OCR)算法识别出图片中的字符得到文本类型数据。对于文本类型数据则再采用证据权重算法进行编码得到编码数据。
证据权重(Weight of Evidence,WOE)算法是对原始自变量的一种编码形式。要对一个变量进行WOE编码,需要首先把这个变量进行分组处理(也叫离散化或者分箱处理等等)。关于WOE编码的过程,为现有技术,本发明在此不再详细阐述。
所述数据清洗包括异常值处理,例如,某用户的投保年龄为3岁,由于实际业务场景的投保年龄限定大于18岁,则需要剔除该用户的用户数据。
所述特征提取模块202,用于采用XDeep FM模型提取出所述多个结构化数据中的多个高阶特征数据。
可以预先训练XDeep FM模型,XDeep FM模型能够利用多层全连接神经网络自动学习特征间的高阶交互关系,从而提取出所述多个结构化数据中的多个高阶特征数据。增加多个高阶特征数据能够提高用于训练风险识别模型的样本数据的数量与质量,从而提高训练风险识别模型的效率及准确率。
示例性的,假设在智能核保场景中有两个结构化数据,其中一个结构化数据为:业务员被保人人均年龄45岁,另一个结构化数据为:被保人年龄45岁,可见这两个结构化数据略显单调,通过XDeep FM模型提取出的高阶特征数据为:业务员出险被保人人均出险年龄45岁*被保人年龄45岁。
所述数据集生成模块203,用于根据所述多个结构化数据和所述多个高阶特征生成正样本数据集和负样本数据集,所述正样本数据集包括多个第一风险样本对,所述负样本数据集包括多个第二风险样本对。
其中,所述第一风险样本对包括高风险标识及与高风险标识对应的样本数据,所述第二风险样本对包括低风险标识及与低风险标识对应的样本数据。
将多个结构化数据及多个高阶特征组合在一起得到新的数据集,并将所述新的数据集划分为正样本数据集和负样本数据集,基于所述正样本数据集和所述负样本数据集训练风险识别模型。
在一个可选的实施例中,所述数据集生成模块203根据所述多个结构化数据和所述多个高阶特征生成正样本数据集和负样本数据集包括:
将所述多个高阶特征数据与所述多个结构化数据进行两两组合得到多个样本数据;
为每个用户数据生成第一风险标识或者第二风险标识;
根据所述第一风险标识及与所述第一风险标识对应的样本数据生成正样本数据集;
根据所述第二风险标识及与所述第二风险标识对应的样本数据生成负样本数据集。
可以通过标注工具结合专家经验,为高风险的用户生成第一风险标识,为低风险的用户生成第二风险标识。
通过两两组合的方式生成多个样本数据,增加了样本数据的多样性,确保所述神经网络能够学习较多的数据的特征,得到识别准确率较高的风险识别模型,提高风险识别模型的泛化能力。
所述分布确定模块204,用于根据所述第一风险样本对之间的相似度确定所述正样本数据集的第一相似度分布,根据所述第二风险样本对之间的相似度确定所述负样本数据集的第二相似度分布。
由于采用的是两两组合的方式将用户数据和高阶特征数据生成样本数据,所以可以计算每一个样本数据对中的高阶特征数据及用户数据之间的相似度,并将所述相似度作为横轴,所述相似度出现的次数作为纵轴,拟合计算样本数据集的相似度分布。
可以通过计算用户数据与高阶特征数据之间的余弦夹角得到风险样本对中用户数据与高阶特征数据之间的相似度。
所述权重生成模块205,用于根据所述第一相似度分布为所述正样本数据集生成第一权重,根据所述第二相似度分布为所述负样本数据集生成第二权重。
当所述正样本数据集的第一相似度分布与所述负样本数据集的第二相似度分布之间没有交叉重叠部分时,表示所述正样本数据集与所述负样本数据集中不存在分类错误的风险样本对。当所述正样本数据集的第一相似度分布与所述负样本数据集的第二相似度分布之间有交叉重叠部分时,表示所述正样本数据集与所述负样本数据集中存在分类错误的风险样本对。
在一个可选的实施例中,所述权重生成模块205根据所述第一相似度分布为所述正样本数据集生成第一权重,根据所述第二相似度分布为所述负样本数据集生成第二权重包括:
基于所述第一相似度分布及所述第二相似度分布,确定分类正确的第一样本数据集及确定分类错误的第二样本数据集;
将所述第一相似度分布与所述第二相似度分布的交叉点对应的相似度作为样本数据集的相似度分布的均值;
在所述均值的基础上减少预设第一值并作为所述第一样本数据集中每个风险样本对的第一权重;
在所述均值的基础上增加预设第二值并作为所述第二样本数据集中每个风险样本对的第二权重。
所述第一相似度分布与所述第二相似度分布的非交叉重叠部分的相似度对应的风险样本对表示分类正确的风险样本对,所述第一相似度分布与所述第二相似度分布的交叉重叠部分的相似度对应的风险样本对表示分类错误的风险样本对。
以所述样本数据集的相似度分布的均值为轴,越靠近所述相似度分布的均值的相似度对应的风险样本对,越表示分类错误,越远离所述相似度分布的均值的相似度对应的风险样本对,越表示分类正确。
在后续训练风险识别模型的过程中,通过减少分类正确的风险样本对的第一权重,并增加分类错误的风险样本对的第二权重,可以增大所述分类错误的风险样本对对风险识别模型参数的贡献率,从而提高风险识别模型对分类错误的风险样本对的表达能力的贡献率。
所述数据集更新模块206,用于在确定分类正确的第一样本数据集及确定分类错误的第二样本数据集之后,对所述第一样本数据集进行缺失值填充得到第一目标样本数据集,对所述第二样本数据集进行缺失值填充得到第二目标样本数据集;计算所述第一目标样本数据集的第一群体稳定性指标和第一信息价值指标,及计算所述第二目标样本数据集的第二群体稳定性指标和第二信息价值指标;根据所述第一群体稳定性指标和所述第一信息价值指标更新所述第一目标样本数据集,及根据所述第二群体稳定性指标和所述第二信息价值指标更新所述第二目标样本数据集。
在智能核保场景中,首先需要通过风险识别模型进行风险识别,而风险识别模型正式上线运行后往往需要很久(通常一年以上)才会被替换下线。如果风险识别模型不稳定,预测出的风险值的可信度较低,将会直接影响决策的合理性。因此,在训练风险识别模型之前,可以通过群体稳定性指标(Population Stability Index,PSI)和信息价值(Information Value,IV)指标来筛选出稳定性较佳的风险样本对,从而使得基于稳定性较佳的风险样本对训练出的风险识别模型也具有较佳的稳定性。
PSI越小,表明目标样本数据集中的风险样本对的稳定性越好,PSI越大,表明目标样本数据集中的风险样本对的稳定性越差。IV越大,表明目标样本数据集中的风险样本对的稳定性越好,IV越小,表明目标样本数据集中的风险样本对的稳定性越差。
在一个可选的实施例中,所述根据所述第一群体稳定性指标和所述第一信息价值指标更新所述第一目标样本数据集,及根据所述第二群体稳定性指标和所述第二信息价值指标更新所述第二目标样本数据集包括:
剔除所述第一目标样本数据集中大于第一群体稳定性指标阈值的第一群体稳定性指标对应的第一目标风险样本对,并对剔除所述第一目标风险样本对之后的第一目标样本数据集中的风险样本对的第一信息价值指标进行排序,获取排序在前预设第一数量的第一信息价值指标对应的第二目标风险样本对,确定所述第二目标风险样本对为更新后的第一目标样本数据集;
剔除所述第二目标样本数据集中大于第二群体稳定性指标阈值的第二群体稳定性指标对应的第三目标风险样本对,并对剔除所述第三目标风险样本对之后的第二目标样本数据集中的风险样本对的第二信息价值指标进行排序,获取排序在前预设第二数量的第二信息价值指标对应的第四目标风险样本对,确定所述第四目标风险样本对为更新后的所述第二目标样本数据集。
其中,所述第一群体稳定性指标阈值与所述第二群体稳定性指标阈值可以相同,也可以不同。所述第一数量与所述第二数量可以相同,也可以不同。
由于绝大部分的数据都是基于月维度,因此,首先对风险样本对进行逐月对比PSI和IV值,选取较稳定的特征,剔除不稳定的风险样本对,基于稳定的风险样本构成的样本数据集训练风险识别模型,能够有效的保证风险识别模型的稳定性。示例性的,PSI浮动大于20%的特征,并选取IV排名前200的指标进入作为最新的目标样本数据集。
所述模型训练模块207,用于基于所述正样本数据集及所述第一权重、所述负样本数据集及所述第二权重训练神经网络得到风险识别模型。
可以预先设置神经网络的初始框架,并设置学习率和步长等模型参数,将所述正样本数据集和所述负样本数据集输入所述神经网络框架中,神经网络基于所述第一权重对所述正样本数据集进行迭代训练,并基于所述第二权重对所述负样本数据集进行迭代训练。
应当理解的是,所述正样本数据集为所述更新后的第一目标样本数据集,所述负样本数据集为所述更新后的第二目标样本数据集。
在一个可选的实施例中,所述模型训练模块207基于所述正样本数据集及所述第一权重、所述负样本数据集及所述第二权重训练所述神经网络得到风险识别模型包括:
基于所述正样本数据集及所述第一权重、所述负样本数据集及所述第二权重对所述神经网络进行第一轮训练;
获取第一轮训练的每个用户的预测结果及对应的真实结果;
根据所述预测结果及对应的真实结果计算准确率;
当所述准确率小于所述预设准确率阈值时,在所述第一权重的基础上减少所述预设第一值得到第三权重,及在所述第二权重的基础上增加所述预设第二值得到第四权重;
基于所述正样本数据集及所述第三权重、所述负样本数据集及所述第四权重对所述神经网络进行第二轮训练,重复上述过程,直至所述准确率大于或者等于所述预设准确率阈值,停止所述神经网络的训练,得到风险识别模型。
将所述预测结果中与所述真实结果一致的结果作为正确结果,计算所述正确结果的数量与所述用户数据的数量之间的比值得到准确率。以准确率作为风险识别模型的收敛条件,能进一步保证风险识别模型的识别准确率。
所述风险识别模块208,用于输入目标用户的多个目标用户数据至所述风险识别模型中进行识别得到风险级别。
实际使用时,如需识别某个目标用户为高风险用户还是低风险用户,则可以获取与所述目标用户相关的用户数据作为目标用户数据,调用所述风险识别模型基于所述多个目标结构化数据识别出所述目标用户的风险级别。其中,所述风险级别包括高风险和低风险。
综上所述,本发明通过采用XDeep FM模型自动提取出用户的结构化数据中的高阶特征数据,挖掘出了潜在有意义的特征,特征提取效率高;并通过高阶特征与用户数据进行组合得到组合数据,不仅丰富了用户数据的数量,同时提高了用户数据的多样性,能够提高风险识别模型的泛化能力;在构建样本数据集时,根据风险样本对之间的相似度确定正负样本数据集的相似度分布,以样本数据集的相似度分布的均值为轴,越靠近相似度分布的均值的相似度对应的风险样本对,越表示分类错误,越远离所述相似度分布的均值的相似度对应的风险样本对,越表示分类正确,基于相似度分布为正负样本数据集生成不同的权重,为越靠近样本数据集的相似度分布的均值的相似度对应的风险样本对生成越大的权重,为越靠近样本数据集的相似度分布的均值的相似度对应的风险样本对生成越小的权重,即增加分类错误的样本对的权重并减少分类正确的风险样本对的权重,从而增大所述分类错误的样本对神经网络的贡献,进而更好地修正模型参数、提高模型参数的表达能力,提高风险识别模型的准确率,进而提高识别用户的风险级别的准确率。
本发明实施例所述的基于人工智能的风险识别方法可应用于金融领域。本发明所述的方法还可以应用于智慧政务中,推动智慧城市的建设。
需要强调的是,为进一步保证上述风险识别模型的私密性和安全性,上述风险识别模型可存储于区块链的节点中。
参阅图3所示,为本发明实施例三提供的计算机设备的结构示意图。在本发明较佳实施例中,所述计算机设备3包括存储器31、至少一个处理器32、至少一条通信总线33及收发器34。
本领域技术人员应该了解,图3示出的计算机设备的结构并不构成本发明实施例的限定,既可以是总线型结构,也可以是星形结构,所述计算机设备3还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置。
在一些实施例中,所述计算机设备3是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的计算机设备,其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述计算机设备3还可包括客户设备,所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、数码相机等。
需要说明的是,所述计算机设备3仅为举例,其他现有的或今后可能出现的电子产品如可适应于本发明,也应包含在本发明的保护范围以内,并以引用方式包含于此。
在一些实施例中,所述存储器31中存储有计算机程序,所述计算机程序被所述至少一个处理器32执行时实现如所述的基于人工智能的风险识别方法中的全部或者部分步骤。所述存储器31包括只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除可编程只读存储器(ErasableProgrammable Read-Only Memory,EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory,OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
在一些实施例中,所述至少一个处理器32是所述计算机设备3的控制核心(Control Unit),利用各种接口和线路连接整个计算机设备3的各个部件,通过运行或执行存储在所述存储器31内的程序或者模块,以及调用存储在所述存储器31内的数据,以执行计算机设备3的各种功能和处理数据。例如,所述至少一个处理器32执行所述存储器中存储的计算机程序时实现本发明实施例中所述的基于人工智能的风险识别方法的全部或者部分步骤;或者实现基于人工智能的风险识别装置的全部或者部分功能。所述至少一个处理器32可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(CentralProcessing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。
在一些实施例中,所述至少一条通信总线33被设置为实现所述存储器31以及所述至少一个处理器32等之间的连接通信。
尽管未示出,所述计算机设备3还可以包括给各个部件供电的电源(比如电池),优选的,电源可以通过电源管理装置与所述至少一个处理器32逻辑相连,从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述计算机设备3还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,计算机设备,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种基于人工智能的风险识别方法,其特征在于,所述方法包括:
对多个用户数据进行结构化处理得到多个结构化数据;
采用XDeep FM模型提取出所述多个结构化数据中的多个高阶特征数据;
根据所述多个结构化数据和所述多个高阶特征生成正样本数据集和负样本数据集,所述正样本数据集包括多个第一风险样本对,所述负样本数据集包括多个第二风险样本对;
根据所述第一风险样本对之间的相似度确定所述正样本数据集的第一相似度分布,根据所述第二风险样本对之间的相似度确定所述负样本数据集的第二相似度分布;
根据所述第一相似度分布为所述正样本数据集生成第一权重,根据所述第二相似度分布为所述负样本数据集生成第二权重;
基于所述正样本数据集及所述第一权重、所述负样本数据集及所述第二权重训练神经网络得到风险识别模型;
输入目标用户的多个目标用户数据至所述风险识别模型中进行识别得到风险级别。
2.如权利要求1所述的基于人工智能的风险识别方法,其特征在于,所述根据所述多个结构化数据和所述多个高阶特征生成正样本数据集和负样本数据集包括:
将所述多个高阶特征数据与所述多个结构化数据进行两两组合得到多个样本数据;
为每个用户数据生成第一风险标识或者第二风险标识;
根据所述第一风险标识及与所述第一风险标识对应的样本数据生成正样本数据集;
根据所述第二风险标识及与所述第二风险标识对应的样本数据生成负样本数据集。
3.如权利要求1所述的基于人工智能的风险识别方法,其特征在于,所述对多个用户数据进行结构化处理得到多个结构化数据包括:
获取所述多个用户数据中的多个非结构化数据及多个原始结构化数据;
采用证据权重算法对所述多个非结构化数据进行编码得到多个编码数据;
对所述多个编码数据及所述多个原始结构化数据进行数据清洗得到多个结构化数据。
4.如权利要求1所述的基于人工智能的风险识别方法,其特征在于,所述根据所述第一相似度分布为所述正样本数据集生成第一权重,根据所述第二相似度分布为所述负样本数据集生成第二权重包括:
基于所述第一相似度分布及所述第二相似度分布,确定分类正确的第一样本数据集及确定分类错误的第二样本数据集;
将所述第一相似度分布与所述第二相似度分布的交叉点对应的相似度作为样本数据集的相似度分布的均值;
在所述均值的基础上减少预设第一值并作为所述第一样本数据集中每个风险样本对的第一权重;
在所述均值的基础上增加预设第二值并作为所述第二样本数据集中每个风险样本对的第二权重。
5.如权利要求4所述的基于人工智能的风险识别方法,其特征在于,在确定分类正确的第一样本数据集及确定分类错误的第二样本数据集之后,所述方法还包括:
对所述第一样本数据集进行缺失值填充得到第一目标样本数据集,对所述第二样本数据集进行缺失值填充得到第二目标样本数据集;
计算所述第一目标样本数据集的第一群体稳定性指标和第一信息价值指标,及计算所述第二目标样本数据集的第二群体稳定性指标和第二信息价值指标;
根据所述第一群体稳定性指标和所述第一信息价值指标更新所述第一目标样本数据集,及根据所述第二群体稳定性指标和所述第二信息价值指标更新所述第二目标样本数据集。
6.如权利要求5所述的基于人工智能的风险识别方法,其特征在于,所述根据所述第一群体稳定性指标和所述第一信息价值指标更新所述第一目标样本数据集,及根据所述第二群体稳定性指标和所述第二信息价值指标更新所述第二目标样本数据集包括:
剔除所述第一目标样本数据集中大于第一群体稳定性指标阈值的第一群体稳定性指标对应的第一目标风险样本对,并对剔除所述第一目标风险样本对之后的第一目标样本数据集中的风险样本对的第一信息价值指标进行排序,获取排序在前预设第一数量的第一信息价值指标对应的第二目标风险样本对,确定所述第二目标风险样本对为更新后的第一目标样本数据集;
剔除所述第二目标样本数据集中大于第二群体稳定性指标阈值的第二群体稳定性指标对应的第三目标风险样本对,并对剔除所述第三目标风险样本对之后的第二目标样本数据集中的风险样本对的第二信息价值指标进行排序,获取排序在前预设第二数量的第二信息价值指标对应的第四目标风险样本对,确定所述第四目标风险样本对为更新后的所述第二目标样本数据集。
7.如权利要求1至6中任意一项所述的基于人工智能的风险识别方法,其特征在于,基于所述正样本数据集及所述第一权重、所述负样本数据集及所述第二权重训练所述神经网络得到风险识别模型包括:
基于所述正样本数据集及所述第一权重、所述负样本数据集及所述第二权重对所述神经网络进行第一轮训练;
获取第一轮训练的每个用户的预测结果及对应的真实结果;
根据所述预测结果及对应的真实结果计算准确率;
当所述准确率小于所述预设准确率阈值时,在所述第一权重的基础上减少所述预设第一值得到第三权重,及在所述第二权重的基础上增加所述预设第二值得到第四权重;
基于所述正样本数据集及所述第三权重、所述负样本数据集及所述第四权重对所述神经网络进行第二轮训练,重复上述过程,直至所述准确率大于或者等于所述预设准确率阈值,停止所述神经网络的训练,得到风险识别模型。
8.一种基于人工智能的风险识别装置,其特征在于,所述装置包括:
结构化处理模块,用于对多个用户数据进行结构化处理得到多个结构化数据;
特征提取模块,用于采用XDeep FM模型提取出所述多个结构化数据中的多个高阶特征数据;
数据集生成模块,用于根据所述多个结构化数据和所述多个高阶特征生成正样本数据集和负样本数据集,所述正样本数据集包括多个第一风险样本对,所述负样本数据集包括多个第二风险样本对;
分布确定模块,用于根据所述第一风险样本对之间的相似度确定所述正样本数据集的第一相似度分布,根据所述第二风险样本对之间的相似度确定所述负样本数据集的第二相似度分布;
权重生成模块,用于根据所述第一相似度分布为所述正样本数据集生成第一权重,根据所述第二相似度分布为所述负样本数据集生成第二权重;
模型训练模块,用于基于所述正样本数据集及所述第一权重、所述负样本数据集及所述第二权重训练神经网络得到风险识别模型;
风险识别模块,用于输入目标用户的多个目标用户数据至所述风险识别模型中进行识别得到风险级别。
9.一种计算机设备,其特征在于,所述计算机设备包括:
存储器,用于存储计算机程序;
处理器,所述处理器用于执行所述计算机程序时实现如权利要求1至7中任意一项所述的基于人工智能的风险识别方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的基于人工智能的风险识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010798036.4A CN111950625B (zh) | 2020-08-10 | 2020-08-10 | 基于人工智能的风险识别方法、装置、计算机设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010798036.4A CN111950625B (zh) | 2020-08-10 | 2020-08-10 | 基于人工智能的风险识别方法、装置、计算机设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111950625A true CN111950625A (zh) | 2020-11-17 |
CN111950625B CN111950625B (zh) | 2023-10-27 |
Family
ID=73331971
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010798036.4A Active CN111950625B (zh) | 2020-08-10 | 2020-08-10 | 基于人工智能的风险识别方法、装置、计算机设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111950625B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112634023A (zh) * | 2020-12-28 | 2021-04-09 | 四川新网银行股份有限公司 | 一种用于群体性风险监测的早期预警系统及方法 |
CN112862594A (zh) * | 2021-02-01 | 2021-05-28 | 深圳无域科技技术有限公司 | 金融风险控制方法、系统、设备及计算机可读介质 |
CN112949384A (zh) * | 2021-01-23 | 2021-06-11 | 西北工业大学 | 一种基于对抗性特征提取的遥感图像场景分类方法 |
CN113344460A (zh) * | 2021-07-07 | 2021-09-03 | 上海软中信息技术有限公司 | 一种基于大数据图谱计算的智能风险预测与识别系统、设备和装置 |
CN113392889A (zh) * | 2021-06-07 | 2021-09-14 | 深圳市欢太数字科技有限公司 | 数据处理方法、装置以及电子设备 |
CN114398638A (zh) * | 2022-01-19 | 2022-04-26 | 中国平安人寿保险股份有限公司 | 网络黑产的识别方法、装置、设备及介质 |
CN118393975A (zh) * | 2024-06-28 | 2024-07-26 | 百信信息技术有限公司 | 一种安全控制系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101539990A (zh) * | 2008-03-20 | 2009-09-23 | 中国科学院自动化研究所 | 一种虹膜图像鲁棒特征选择和快速比对的方法 |
CN110046952A (zh) * | 2019-01-30 | 2019-07-23 | 阿里巴巴集团控股有限公司 | 一种推荐模型的训练方法及装置、一种推荐方法及装置 |
WO2019184124A1 (zh) * | 2018-03-30 | 2019-10-03 | 平安科技(深圳)有限公司 | 风控模型训练方法、风险识别方法、装置、设备及介质 |
CN110598126A (zh) * | 2019-09-05 | 2019-12-20 | 河南科技大学 | 基于行为习惯的跨社交网络用户身份识别方法 |
-
2020
- 2020-08-10 CN CN202010798036.4A patent/CN111950625B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101539990A (zh) * | 2008-03-20 | 2009-09-23 | 中国科学院自动化研究所 | 一种虹膜图像鲁棒特征选择和快速比对的方法 |
WO2019184124A1 (zh) * | 2018-03-30 | 2019-10-03 | 平安科技(深圳)有限公司 | 风控模型训练方法、风险识别方法、装置、设备及介质 |
CN110046952A (zh) * | 2019-01-30 | 2019-07-23 | 阿里巴巴集团控股有限公司 | 一种推荐模型的训练方法及装置、一种推荐方法及装置 |
CN110598126A (zh) * | 2019-09-05 | 2019-12-20 | 河南科技大学 | 基于行为习惯的跨社交网络用户身份识别方法 |
Non-Patent Citations (1)
Title |
---|
刘斌;陈凯;: "基于SMOTE和XGBoost的贷款风险预测方法", 计算机与现代化, no. 02, pages 30 - 34 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112634023A (zh) * | 2020-12-28 | 2021-04-09 | 四川新网银行股份有限公司 | 一种用于群体性风险监测的早期预警系统及方法 |
CN112949384A (zh) * | 2021-01-23 | 2021-06-11 | 西北工业大学 | 一种基于对抗性特征提取的遥感图像场景分类方法 |
CN112949384B (zh) * | 2021-01-23 | 2024-03-08 | 西北工业大学 | 一种基于对抗性特征提取的遥感图像场景分类方法 |
CN112862594A (zh) * | 2021-02-01 | 2021-05-28 | 深圳无域科技技术有限公司 | 金融风险控制方法、系统、设备及计算机可读介质 |
CN113392889A (zh) * | 2021-06-07 | 2021-09-14 | 深圳市欢太数字科技有限公司 | 数据处理方法、装置以及电子设备 |
CN113344460A (zh) * | 2021-07-07 | 2021-09-03 | 上海软中信息技术有限公司 | 一种基于大数据图谱计算的智能风险预测与识别系统、设备和装置 |
CN114398638A (zh) * | 2022-01-19 | 2022-04-26 | 中国平安人寿保险股份有限公司 | 网络黑产的识别方法、装置、设备及介质 |
CN118393975A (zh) * | 2024-06-28 | 2024-07-26 | 百信信息技术有限公司 | 一种安全控制系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111950625B (zh) | 2023-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111950625B (zh) | 基于人工智能的风险识别方法、装置、计算机设备及介质 | |
CN113946690A (zh) | 潜在客户挖掘方法、装置、电子设备及存储介质 | |
CN113590824A (zh) | 因果事理图谱的构建方法、装置及相关设备 | |
CN115081538A (zh) | 基于机器学习的客户关系识别方法、装置、设备及介质 | |
CN111984898A (zh) | 基于大数据的标签推送方法、装置、电子设备及存储介质 | |
CN111639706A (zh) | 基于图像集的个人风险画像生成方法及相关设备 | |
CN114399212A (zh) | 生态环境质量评估方法、装置、电子设备及存储介质 | |
CN112330432B (zh) | 风险等级识别模型训练方法、识别方法、终端及存储介质 | |
CN114880449A (zh) | 智能问答的答复生成方法、装置、电子设备及存储介质 | |
CN112818028B (zh) | 数据指标筛选方法、装置、计算机设备及存储介质 | |
CN113935880A (zh) | 政策推荐方法、装置、设备及存储介质 | |
CN113658002A (zh) | 基于决策树的交易结果生成方法、装置、电子设备及介质 | |
CN111460293B (zh) | 信息推送方法、装置及计算机可读存储介质 | |
CN112395432A (zh) | 课程推送方法、装置、计算机设备及存储介质 | |
CN112395401A (zh) | 自适应负样本对采样方法、装置、电子设备及存储介质 | |
CN111651452A (zh) | 数据存储方法、装置、计算机设备及存储介质 | |
CN115099680B (zh) | 风险管理方法、装置、设备及存储介质 | |
CN116484296A (zh) | 金融集资风险分析方法、装置、设备及存储介质 | |
CN114625340B (zh) | 基于需求分析的商用软件研发方法、装置、设备及介质 | |
CN113705201B (zh) | 基于文本的事件概率预测评估算法、电子设备及存储介质 | |
CN113657546B (zh) | 信息分类方法、装置、电子设备及可读存储介质 | |
CN113435746B (zh) | 用户工作量的评分方法、装置、电子设备及存储介质 | |
CN113987351A (zh) | 基于人工智能的智能推荐方法、装置、电子设备及介质 | |
CN113780473A (zh) | 基于深度模型的数据处理方法、装置、电子设备及存储介质 | |
CN112699285B (zh) | 数据分类方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |