CN111461216B - 一种基于机器学习的案件风险识别方法 - Google Patents
一种基于机器学习的案件风险识别方法 Download PDFInfo
- Publication number
- CN111461216B CN111461216B CN202010244378.1A CN202010244378A CN111461216B CN 111461216 B CN111461216 B CN 111461216B CN 202010244378 A CN202010244378 A CN 202010244378A CN 111461216 B CN111461216 B CN 111461216B
- Authority
- CN
- China
- Prior art keywords
- account
- machine learning
- risk
- data
- black
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Finance (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Accounting & Taxation (AREA)
- Software Systems (AREA)
- General Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Marketing (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Game Theory and Decision Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Operations Research (AREA)
- Educational Administration (AREA)
- Tourism & Hospitality (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- Technology Law (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于机器学习的案件风险识别方法,首先对案件进行分析,提取出有效案件特征列表,并利用随机欠采样的方式抽取白样本,平衡数据中的黑白样本比;然后基于交易流水、账户基本信息、客户基本信息等数据加工特征宽表,并基于特征宽表对随机森林算法进行训练,提取能够有效区分黑白样本的重要特征列表。最后基于重要特征宽表对随机森林算法进行训练与预测,得到最终可疑的账户集合,并针对可疑账户进行核查验证。本发明首次将机器学习有监督算法应用于小样本银行案件风险场景,不仅能够准确识别风险账户,还能够解析出有效的规则,为银行案件风险场景下的规则制定和防控思路提供参考依据。
Description
技术领域
本发明属于案件风险识别领域,尤其涉及一种基于机器学习的案件风险识别方法。
背景技术
近年来,我国金融操作风险案件呈现多发、高发态势,多家银行相继曝出涉案金额巨大的运营风险案件,由于内控管理、员工教育以及案件核查不到位,有关银行的业务操作方面案件屡屡发生,且运营操作风险方面的案情日趋复杂,作案手法隐秘。运营操作风险案件频发,造成了巨大的经济损失和社会影响,给银行业稳健运营带来全新挑战,不仅严重制约银行盈利能力,损害银行形象和声誉,而且严重干扰正常的业务经营秩序,影响金融安全及社会稳定。随着金融行业的改革发展不断深化,管理手段不断升级,尤其是国家大数据战略的推行,对银行的运营操作风险与案件防控能力提出了更高要求,有关银行积极响应政策号召,建立案件防控体系,制定防控风险的专家规则。
防控初期,专家规则在风险案件识别方面取得不错的效果,但随着作案手法越来越发杂,专家规则存在的一些问题也逐渐暴露出来:
1、加工逻辑复杂,加工、维护成本不断增加
规则逻辑复杂,业务人员无法深度参与规则的配置,只能通过科技人员写sql配置规则,工作效率低,且无法了解规则效果并及时进行针对性的改良,同时加工逻辑越来越多,对规则的管理与交接提出了更高的要求。
2、规则组合、参数选择等问题给业务人员带来巨大困扰
行内有些专家规则产出上万条预警单,而有些规则没有结果产出,而业务人员希望规则产出结果能够控制在行内核查能力范围内的数量,因此如何选择合适的规则组合方式和条件阈值是持续困扰业务人员的问题。
3、业务经验达到极限
行内专家规则以业务经验为导向,凭借对案件特征的分析和业务环节的深入,寻找可疑风险点,但随着犯罪分子作案手法越来越隐匿,凭借主观业务知识较难发现真正的风险。因此急需开辟以数据为导向的新道路,通过数据导向与业务导向并举的方式发现新案件。
为了解决当前专家规则存在的问题,引入人工智能机器学习技术。机器学习算法不仅能够根据已有案件特征进行自动学习并有效识别新的同类风险案件,同时机器学习算法在学习案件特征的过程中,能够筛选出案件的显著特征,同时能够将特征自动组合成识别风险案件的最优规则,最优规则包括运算符的选择、阈值的确定以及指标的组合方式等。这些显著特征和最优规则能够为业务人员在专家规则制定时提供参考依据,制定准确、高效的规则,从而实现在有限的核查能力下,使银行有能力抓取真实存在风险的案件。
发明内容
本发明的目的在于针对现有专家规则的不足,提供一种基于机器学习的案件风险识别方法,充分发挥机器学习算法的优势,通过机器学习模型更准确地识别风险案件,同时基于机器学习模型产出的中间结果对专家规则进行优化与完善。
本发明是通过以下方案来实现的:一种基于机器学习的案件风险识别方法,该方法包括以下步骤:
步骤1、对案件进行业务分析和数据分析,结合专家规则提炼案件特征,形成特征列表;
步骤2、通过随机欠采样的方式提取出白样本账户,并通过专家规则筛选出可能存在风险的被预测账户,然后提取白样本账户与黑样本账户以及被预测账户在一段时间T内的交易流水数据,并进行预处理,剔除脏数据,其中白样本账户与黑样本账户预处理后的交易流水数据形成数据集合A,被预测账户预处理后的交易流水数据形成数据集合B;
步骤3、以账户为主体,分别加工数据集合A和B中账户的特征列表,分别形成新的数据集合A1和B1,其中数据集合A1为特征宽表,用于机器学习模型的训练,数据集合B1即为预测集合,用于机器学习模型的预测;
步骤4、基于步骤3加工出来的特征宽表对机器学习模型进行训练,提取出能够有效区分黑白样本的重要特征列表;
步骤5、基于步骤3和步骤4的特征宽表和重要特征列表,加工形成重要特征宽表,对机器学习模型进行训练,通过auc值、召回率、精确率、F1综合指标等模型评价指标对机器学习模型进行评估并调优,确定最优的模型参数;
步骤6、基于步骤5参数调优后的机器学习模型对步骤3加工出来的数据集合B1进行预测,得到账户风险概率列表,并根据业务需求及核查能力提取确认风险账户列表;
步骤7、基于步骤6得到的确认风险账户列表,从账户基本信息、账户交易信息、账户操作信息以及是否涉及行内员工等层面核查账户是否真实存在风险,将真实存在风险的账户归档备案;
步骤8、将步骤7得到的真实存在风险的账户加入黑样本集合中,提取该类账户的显著特征并补充至特征宽表,作为机器学习模型迭代优化的新数据集合。
进一步地,所述步骤1中,所述案件即为违法犯罪分子有意图实施的确认有风险、损害人民与社会利益、影响银行正常经营的行为;所述业务分析即从银行正常业务流程的角度分析案件,发现其中异常的业务特征;所述数据分析即从数据的角度分析案件,发现其中异常的数据特征;所述专家规则即通过数据分析并结合案件特征和银行业务正常流程而形成的筛选或判断的逻辑表达语句;所述特征列表即为案件特征的集合,特征列表包含账户的基本信息特征、交易信息特征、操作信息特征等。
进一步地,所述步骤2中,所述交易流水数据为银行内部资金交易往来的流水数据,包括交易流水号、主账户代号、对手账户代号、借贷标识、交易时间、交易金额等,可选地,还可以包括交易代码、交易渠道、交易柜员等信息;所述预处理包括缺失值处理、异常值处理、数据逻辑错误处理,可选地,还包括数据标准化处理、数据格式内容处理、去重处理等;所述白样本即为确认没有风险的账户,所述黑样本即为确认有风险的账户,所述随机欠采样即通过随机抽样的方式选择白样本,减少白样本的数量,从而平衡黑白样本的比例,使机器学习模型训练结果更加精确,所述黑白样本比即黑样本与白样本的比值,理想状态下,黑白样本比为1:1。
进一步地,所述步骤3中,所述以账户为主体,即在特征加工过程中以账户为加工维度,加工出来的特征均为账户的属性;所述基本信息特征即为描述账户基本属性的信息,所述账户基本属性包括账户类型、账户开户地区、开户日期等;所述交易信息特征、操作信息特征即为描述账户外部属性的信息,所述账户外部属性包括账户近X月的累计交易金额、账户近X月的累计交易次数、账户近X月修改网银密码次数等;所述特征宽表即以账户为主体,每一列数据都对应账户的一个属性的数据表,它是账户与其自身属性的集合;同时,特征宽表中的黑样本与白样本具有明确标签,用于训练机器学习模型;所述预测集合即为未知风险的账户集合,其也是账户与自身属性的集合,但预测集合中的账户没有给出明确标签,只用于机器学习模型预测,通过已训练好的机器学习算法模型来判断预测集合中所有账户存在风险的概率,概率越高则说明账户有风险的可能性越大,反之越小。
进一步地,所述步骤4中,所述机器学习模型即为利用多棵树对样本进行训练并预测的一种分类器;所述重要特征列表即为所有特征对机器学习模型区分黑白样本的贡献率集合,并按照贡献率由高到低排序形成的列表,一般地,选取贡献率排名前10%的特征组成重要特征列表。
进一步地,所述步骤5中,所述重要特征宽表即以账户为主体,只包含重要特征的数据集合。
进一步地,基于重要特征宽表训练决策树模型并生成决策树,同时基于生成的决策树解析出智能规则;所述决策树模型即为一种分类与回归方法,决策树模型呈树形结构,在分类问题中,表示基于特征对主体进行分类的过程;所述智能规则即为决策树模型进行训练决策时基于信息熵产生的规则,是将黑白样本区分开而进行的决策过程,智能规则的制定反映了黑白样本之间的数据分布特征,能够为业务人员在进行案件特征分析以及规则制定时提供参考意见。
进一步地,所述步骤5中,所述auc值即为用于评估机器学习模型整体效果好坏的指标,当auc值越大,说明模型分类效果越好,反之越差;所述精确率即为将实际为黑样本的账户预测为黑样本的数量占所有预测为黑样本数量的比值;所述召回率即为将实际为黑样本的账户预测为黑样本的数量占所有实际为黑样本数量的比值;所述F1综合指标即为精确率和召回率的加权调和平均数,能够综合精确率和召回率的评估效果,为评估模型效果的一个客观、综合的指标。
进一步地,所述步骤6中,所述账户风险概率列表即为模型针对预测集合B1中所有的账户给出的账户是否有风险的概率集合,概率值越大,说明账户属于黑样本的可能性越大,反之,概率值越小,说明账户属于黑样本的可能性就越小。所述确认风险账户列表即通过业务需求与实际核查能力确定有风险的账户集合,该类账户存在风险的可能性非常高,需要重点分析和核查。
进一步地,所述步骤7中,所述账户基本信息即为账户开户时预留的基本属性,包括账户代号、预留手机号码、家庭住址等信息;所述账户交易信息即为账户自开户以来发生的所有交易流水,反映账户与其他账户之间的资金往来关系;所述账户操作信息即为账户开户以来发生的所有操作流水,包括修改手机银行密码、修改预留手机号码、登录网银等;所述是否涉及员工即检查账户是否存在勾结行内员工作案的风险,若涉及行内在职人员参案,需对这一类账户进行重点关注。
进一步地,所述步骤8中,所述模型迭代优化即通过加入新的样本和特征,对模型进行重新构建、训练、参数调整的过程,模型迭代优化能够有效提高模型的稳定性和适用性,是机器学习模型在生产应用过程中不可或缺的环节。
本发明的有益效果:
(1)本发明基于极端倾斜的黑白样本比数据进行建模,通过随机欠采样的方式解决数据失衡对模型的影响,训练出来的机器学习算法模型能够准确识别风险案件,实现了业务效果,为机器学习有监督算法在小样本风险案件场景的应用提供参考实例。
(2)本发明产出的重要特征能够帮助业务人员快速定位特定场景的显著特征,从而能够针对性地对风险场景制定专家规则进行风险案件识别。
(3)本发明产出地智能规则不仅展示了指标之间地组合方式,而且给出了相对应的阈值,为业务人员制定规则提供参考依据。
附图说明
图1为本发明之较佳实施例中基于机器学习的案件风险识别方法流程图;
图2为本发明之较佳实施例中决策树示意图;
图3为本发明数据集合A示意图;
图4为本发明数据集合B示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述,以下实施例为个人非法集资小样本场景下机器学习有监督模型应用,用于说明本发明,但不用来限制本发明的范围。
如图1所示,本发明提出的一种基于机器学习的案件风险识别方法,该方法包括以下步骤:
步骤1、对案件进行业务分析和数据分析,结合专家规则提炼案件特征,形成特征列表;
所述案件即为违法犯罪分子有意图实施的确认有风险的事件,该类事件损害了人民与社会的利益,影响了银行的正常经营;
所述业务分析即从银行正常业务流程的角度分析案件,发现其中异常的业务流程特征;
所述数据分析即从数据的角度分析案件,发现其中异常的数据特征;
所述专家规则即通过数据分析并结合案件特征和银行业务正常流程而形成的筛选或判断的逻辑表达语句;是能够正确识别风险的规则;通过专家规则初步筛选存在潜在风险的被预测账户集合,再将被预测账户集合放入模型中进行预测,不经过专家规则筛选之前,被预测账户集合可能有2000多万,经过专家规则筛选之后可以剩余40万,专家规则可以为:剔除近1年累计交易金额小于10万且近1年累计交易次数小于20次的账户集合。
所述特征列表即为案件特征的集合,特征列表包括账户的基本信息特征、交易信息特征等,可选地,还可以包括账户的操作信息特征等;特征列表示例如下:
账户号 | 基本信息特征(多个) | 交易信息特征(多个) | 操作信息特征(多个) |
A | *** | *** | *** |
步骤2、通过随机欠采样的方式提取出白样本账户,并通过专家规则筛选出可能存在风险的被预测账户,然后提取白样本账户与黑样本账户以及被预测账户在一段时间T内的交易流水数据,并进行预处理,剔除脏数据,其中白样本账户与黑样本账户预处理后的交易流水数据形成数据集合A,被预测账户预处理后的交易流水数据形成数据集合B;
所述T时间范围一般为1年,可选地,还可以为1个月、6个月、9个月、2年、3年等,根据业务需求及实际情况选取即可;
所述交易流水数据中包括交易流水号、主账户代号、对手账户代号、借贷标识、交易时间、交易金额等,可选地,还可以包括交易渠道、交易代码、交易描述、主账户客户代号等信息;
所述预处理具体包括缺失值处理、异常值处理、数据逻辑错误处理、数据标准化处理等,可选地,还可以包括数据格式内容处理、去重处理等。
所述随机欠采样即一种平衡黑白样本比例的方法,通过随机抽样的方式选择部分白样本作为机器学习模型的输入,通过减少白样本的数量,从而平衡黑白样本的比例,使机器学习模型训练结果更加精确。可选地,平衡数据黑白样本比的方法还有过采样、SMOT采样等方法;在基于个人非法集资场景的案件分析中,已发现并确认有风险的黑样本数量为43个,而白样本的数量有近2000万左右,黑白样本比为1:50万,在如此极端的倾斜样本比下,很难训练出较优的机器学习模型,因此采用随机欠采样的方式抽取1000个白样本,黑白样本比为1:25,从一定程度上解决了样本比例失衡导致的模型训练不准确的问题;
所述白样本即为确认没有风险的账户,所述黑样本即为确认有风险的账户,黑样本和白样本在交易流水中特指主账户。
如图3所示,所述数据集合A即黑样本与白样本在时间T内的交易流水数据,包含交易流水号、主账户代号,对手账户代号、交易时间、交易金额等信息,可选地,还可以包括交易代码、交易渠道、交易描述等信息。
通过专家规则将确定无风险的账户剔除,将其他账户留下来作为模型预测的数据集合,这样能够大大降低系统消耗的资源,提升模型预测的速度。
如图4所示,所述预测集合B即为不可确定风险的账户集合,其和数据集合A结构相似,只是主体不同。
步骤3、以账户为主体,分别加工数据集合A和B中账户的基本信息特征、交易信息特征、操作信息特征等,分别形成新的数据集合A1和B1,其中数据集合A1即为特征宽表,用于模型的训练,数据集合B1即为预测集合,用于模型的预测;
所述以账户为主体即在特征加工过程中以账户为最小加工维度,加工出来的特征均为账户的属性,可选地,特征加工的主体还有客户维度、银行卡维度等。一般地,一个客户可以拥有多张银行卡,一张银行卡可以拥有多个账户,账户是体现一个交易主体的最低维度。主体的选择不仅需要结合业务需求考虑,还要从数据分析、模型构建等角度去衡量;
所述加工即数据处理的过程,对原始数据进行剔除、汇总等操作,生成新的数据集合;
所述基本信息指标即为描述账户固有属性的信息,所述固有属性即为账户开户时记录的信息,一般不会有大的变动。固有属性包括账户类型、账户开户地区、开户日期等,这些属性存放于账户基本信息表、客户基本信息表中;
所述交易信息指标即为描述账户外部属性的信息,所述外部属性即为账户通过交易长时间累积下来的交易行为偏好,外部属性会随着交易的变化而不断变化,外部属性包括账户近X月的累计交易金额、账户近X月的累计交易次数等,这些属性必须通过交易流水聚合统计出来;
所述特征宽表即以账户为主体的数据表,表中每一列数据即代表账户的一个属性,它是账户与其自身属性的集合;同时,特征宽表中还有一列标签,用于区分黑样本与白样本,一般地,标签为0代表白样本,标签为1代表黑样本。机器学习模型基于特征宽表中各个账户的特征和标签学习区分黑白样本的知识,即模型训练,因此特征宽表是机器学习模型的知识来源。特征宽表如下表所示:
账户代号 | 特征1 | 特征2 | 特征3 | …… | 特征n | 标签 |
A | *** | *** | *** | …… | *** | 1 |
D | *** | *** | *** | …… | *** | 1 |
E | *** | *** | *** | …… | *** | 0 |
F | *** | *** | *** | …… | *** | 0 |
G | *** | *** | *** | …… | *** | 0 |
所述预测集合B1即为无法确定风险的账户集合,它也是账户与自身属性的集合,但预测集合中的账户没有给出明确标签,需要通过机器学习模型预测出每个账户存在风险的概率,预测集合B1如下表所示:
账户代号 | 特征1 | 特征2 | 特征3 | …… | 特征n |
H | *** | *** | *** | …… | *** |
I | *** | *** | *** | …… | *** |
J | *** | *** | *** | …… | *** |
K | *** | *** | *** | …… | *** |
L | *** | *** | *** | …… | *** |
M | *** | *** | *** | …… | *** |
步骤4、基于步骤3加工出来的特征宽表对随机森林算法进行训练,提取出能够有效区分黑白样本的重要特征列表;
所述随机森林算法即为利用多棵树对样本进行训练并预测的一种分类器,由于随机森林算法运行速度快、实现简便,是当前机器学习应用最广泛的树模型之一;
所述重要特征列表即为对机器学习算法区分黑白样本的贡献率较大的特征集合,重要特征列表包含两列,第一列即为特征的名称,第二列即为特征相应的贡献率,贡献率越大则说明特征越重要,反之越不重要;一般地,重要特征列表的确定有两种方式,一方面,通过确定特征数量来选择特征,如:选择贡献率降序排序的前30个特征作为重要特征,不管特征的贡献率多小,均将特征放入重要特征列表中;另一方面,通过确定贡献率的大小来选择特征,如:选择贡献率大于等于0.03的特征作为重要特征,不管贡献率大于等于0.03的特征有多少个,均将特征放入重要特征列表中;重要特征列表如下表所示:
特征名称 | 贡献率 |
特征1 | 0.05 |
特征2 | 0.04 |
特征3 | 0.03 |
…… | …… |
特征n | 0.001 |
步骤5、基于步骤3和步骤4提取出来的特征宽表和重要特征列表,加工形成重要特征宽表,基于重要特征宽表训练决策树模型并生成决策树,同时基于生成的决策树解析出智能规则;
所述重要特征宽表即以账户为主体,只包含重要特征列表中特征的特征宽表,重要特征宽表如下表所示:
账户代号 | 特征1 | 特征2 | 特征3 | …… | 特征30 | 标签 |
A | *** | *** | *** | …… | *** | 1 |
D | *** | *** | *** | …… | *** | 1 |
E | *** | *** | *** | …… | *** | 0 |
F | *** | *** | *** | …… | *** | 0 |
G | *** | *** | *** | …… | *** | 0 |
所述决策树算法即为一种基本的分类与回归方法,决策树模型呈树形结构,在分类问题中,表示基于特征对主体进行分类的过程;
所述决策树即为决策树算法训练过程中生成的树状决策逻辑,由于决策树算法在每一步决策时都会有两条分支,不同的决策分支对应不同的结果,导致决策树算法的决策过程就像一颗倒挂的树,如附图2所示:
所述智能规则即为决策树算法进行训练时加工出来的规则,这些规则即为决策树算法为了将黑白样本区分开而进行的决策过程,其准确率与有效性都非常高,智能规则列表如下表所示:
在针对特定场景进行规则开发时,智能规则不仅能够提供各类规则的组合方式,而且能够提供各指标对应的阈值和运算符,从而为规则开发人员提供一定的参考依据。
步骤6、基于步骤5加工出来的重要特征宽表,对随机森林算法进行训练,将重要性较低的特征剔除,通过auc值、召回率、准确率、F1综合指标等模型评价指标对模型进行调优,确定最优的模型参数,得到最优模型;
所述模型评价指标即为评估模型效果好坏的指标,评价指标除了本文提及的指标之外,可选地,还有K-S值,均方根误差,方差等指标;
所述auc值即为用于评估机器学习模型整体效果好坏的指标,当auc值越大,说明模型分类效果越好,反之越差。
所述精确率即为将实际为黑样本的账户预测为黑样本的数量占所有预测为黑样本数量的比值;
所述召回率即为将实际为黑样本的账户预测为黑样本的数量占所有实际为黑样本数量的比值;
所述F1综合指标即为精确率和召回率的加权调和平均数,能够综合精确率和召回率的评估效果,是评估模型效果的一个客观、综合的指标。
所述最优模型即为基于特征宽表确定的具备最优超参数的模型,该模型能够尽可能准确地将特征宽表中黑白样本区分开。
步骤7、基于步骤6得到的最优模型对步骤3加工出来的数据集合B1进行预测,得到账户风险概率列表,根据业务需求及核查能力产出确认风险账户列表;
所述风险概率即为账户存在风险的概率,其取值在0-1之间,当概率值越接近于1,则说明账户存在风险的可能性越高,当概率值越接近于0,则说明账户存在风险的可能性越低;
所述账户风险概率列表即为模型针对预测集合B1中所有的账户给出的是否属于黑样本的概率集合,概率值越大,说明账户属于黑样本的可能性越大,反之,概率值越小,说明账户属于黑样本的可能性就越小,账户风险概率列表如下表所示:
账户代号 | 概率 |
H | 0.9 |
I | 0.8 |
J | 0.7 |
K | 0.6 |
L | 0.5 |
M | 0.4 |
所述确认风险账户列表即通过业务需求和实际核查能力确定有风险的账户集合;一般地,确定账户风险列表的方式有两种,一方面可以通过确定核查的账户数量来确定账户风险列表,如:选取风险概率最高的前30个账户进行核查,不管这30个账户的风险概率值多小,都将这30个账户放入账户风险列表中;另一方面可以通过确定风险概率值来确定账户风险列表,如:选取风险概率值大于等于0.7的所有账户放入账户风险列表中,不管风险概率值大于等于0.7的账户有多少个,都将这些账户放入账户风险列表中。确定账户风险列表之后即可将风险账户列表交予业务人员进行核查验证。
步骤8、基于步骤7产出的确认风险账户列表,从账户基本信息、账户交易信息、账户操作信息以及是否涉及行内员工等层面核查账户是否真实存在风险,将真实存在风险的账户备案归档;
所述账户基本信息即为账户开户时预留的基本属性,如账户代号、预留手机号码、家庭住址等,在核查时主要检查账户的基本信息是否存在一对多的情况,如多个异常账户的家庭住址相同、多个异常账户预留的手机号码相同,但账户名称各不相同等,通过对这些异常特征的分析,从而抓出操纵案件的幕后之人;
所述账户交易信息即为账户自开户以来发生的所有交易流水,反映账户与其他账户之间的资金往来关系,如账户近1年的累计交易金额、账户近1年贷方交易为个人的累计交易次数等,在核查时主要检查账户自开户以来是否存在一些异常的资金流转,如账户资金来源是否异常、账户资金是否进行正常用途流转,账户是否存在过渡资金的嫌疑等,通过对这些统计特征的分析,验证确认风险账户列表中的账户是否真实存在风险;
所述账户操作信息即为账户开户以来发生的所有操作流水,如修改手机银行密码、修改预留手机号码、登录网银等,核查时主要检查该类账户自开户以来是否存在一些异常的信息变更,如频繁修改登录密码、预留手机号、家庭住址等信息,通过对这些特征的分析,排查账户是否存在被盗、集中虚假开户等问题;
所述是否涉及员工即检查账户是否存在勾结行内员工作案的风险,若涉及行内在职人员参案,需对这一类账户进行重点关注;
步骤9、将步骤8产出的确认风险账户加入黑样本集合中,针对该类账户进行分析,提取账户的显著特征并补充至特征宽表,作为模型迭代优化的新数据集合;
所述模型迭代优化即通过加入新的样本和特征,对模型进行重新构建、训练、参数调整的过程,模型迭代优化能够有效提高模型的稳定性和适用性,是机器学习模型在生产应用过程中不可或缺的环节。所述机器学习建模的环节即包括业务理解、数据理解、数据预处理、特征工程、模型构建、模型调优、模型预测和模型迭代优化等流程,本文基于非法集资场景进行机器学习有监督建模的流程主要遵循这些环节,具体建模流程如附图1所示。
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员在不脱离本发明的精神和范围的情况下,还可以作各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。
Claims (10)
1.一种基于机器学习的案件风险识别方法,其特征在于,该方法包括以下步骤:
步骤1、对案件进行业务分析和数据分析,结合专家规则提炼案件特征,形成特征列表;
步骤2、通过随机欠采样的方式提取出白样本账户,并通过专家规则筛选出可能存在风险的被预测账户,将确认没有风险的账户记为白样本账户,确认有风险的账户记为黑样本账户,然后提取白样本账户与黑样本账户以及被预测账户在一段时间T内的交易流水数据,并进行预处理,剔除脏数据,其中白样本账户与黑样本账户预处理后的交易流水数据形成数据集合A,被预测账户预处理后的交易流水数据形成数据集合B;
步骤3、以账户为主体,分别加工数据集合A和B中账户的特征列表,分别形成新的数据集合A1和B1,其中数据集合A1为特征宽表,用于机器学习模型的训练,数据集合B1即为预测集合,用于机器学习模型的预测;
步骤4、基于步骤3加工出来的特征宽表对机器学习模型进行训练,提取出能够有效区分黑白样本的重要特征列表;
步骤5、基于步骤3和步骤4的特征宽表和重要特征列表,加工形成重要特征宽表,对机器学习模型进行训练,通过auc值、召回率、精确率、F1综合指标对机器学习模型进行评估并调优,确定最优的模型参数;
步骤6、基于步骤5参数调优后的机器学习模型对步骤3加工出来的数据集合B1进行预测,得到账户风险概率列表,并根据业务需求及核查能力提取确认风险账户列表;
步骤7、基于步骤6得到的确认风险账户列表,从账户基本信息、账户交易信息、账户操作信息以及是否涉及行内员工层面核查账户是否真实存在风险,将真实存在风险的账户归档备案;
步骤8、将步骤7得到的真实存在风险的账户加入黑样本集合中,提取该类账户的显著特征并补充至特征宽表,作为机器学习模型迭代优化的新数据集合。
2.根据权利要求1所述的一种基于机器学习的案件风险识别方法,其特征在于,所述步骤1中,所述案件即为违法犯罪分子有意图实施的确认有风险、损害人民与社会利益、影响银行正常经营的行为;所述业务分析即从银行正常业务流程的角度分析案件,发现其中异常的业务特征;所述数据分析即从数据的角度分析案件,发现其中异常的数据特征;所述专家规则即通过数据分析并结合案件特征和银行业务正常流程而形成的筛选或判断的逻辑表达语句;所述特征列表即为案件特征的集合,特征列表包含账户的基本信息特征、交易信息特征、操作信息特征。
3.根据权利要求1所述的一种基于机器学习的案件风险识别方法,其特征在于,所述步骤2中,所述交易流水数据为银行内部资金交易往来的流水数据,包括交易流水号、主账户代号、对手账户代号、借贷标识、交易时间、交易金额,还包括交易代码、交易渠道、交易柜员信息;所述预处理包括缺失值处理、异常值处理、数据逻辑错误处理,还包括数据标准化处理、数据格式内容处理、去重处理;所述随机欠采样即通过随机抽样的方式选择白样本,减少白样本的数量,从而平衡黑白样本的比例,使机器学习模型训练结果更加精确,所述黑白样本比即黑样本与白样本的比值,理想状态下,黑白样本比为1:1。
4.根据权利要求1所述的一种基于机器学习的案件风险识别方法,其特征在于,所述步骤3中,所述以账户为主体,即在特征加工过程中以账户为加工维度,加工出来的特征均为账户的属性;所述基本信息特征即为描述账户基本属性的信息,所述账户基本属性包括账户类型、账户开户地区、开户日期;所述交易信息特征、操作信息特征即为描述账户外部属性的信息,所述账户外部属性包括账户近X月的累计交易金额、账户近X月的累计交易次数、账户近X月修改网银密码次数;所述特征宽表即以账户为主体,每一列数据都对应账户的一个属性的数据表,它是账户与其自身属性的集合;同时,特征宽表中的黑样本与白样本具有明确标签,用于训练机器学习模型;所述预测集合即为未知风险的账户集合,其也是账户与自身属性的集合,但预测集合中的账户没有给出明确标签,只用于机器学习模型预测,通过已训练好的机器学习算法模型来判断预测集合中所有账户存在风险的概率,概率越高则说明账户有风险的可能性越大,反之越小。
5.根据权利要求1所述的一种基于机器学习的案件风险识别方法,其特征在于,所述步骤4中,所述机器学习模型即为利用多棵树对样本进行训练并预测的一种分类器;所述重要特征列表即为所有特征对机器学习模型区分黑白样本的贡献率集合,并按照贡献率由高到低排序形成的列表,选取贡献率排名前10%的特征组成重要特征列表。
6.根据权利要求1所述的一种基于机器学习的案件风险识别方法,其特征在于,所述步骤5中,所述重要特征宽表即以账户为主体,只包含重要特征的数据集合。
7.根据权利要求6所述的一种基于机器学习的案件风险识别方法,其特征在于,基于重要特征宽表训练决策树模型并生成决策树,同时基于生成的决策树解析出智能规则;所述决策树模型即为一种分类与回归方法,决策树模型呈树形结构,在分类问题中,表示基于特征对主体进行分类的过程;所述智能规则即为决策树模型进行训练决策时基于信息熵产生的规则,是将黑白样本区分开而进行的决策过程,智能规则的制定反映了黑白样本之间的数据分布特征,能够为业务人员在进行案件特征分析以及规则制定时提供参考意见。
8.根据权利要求1所述的一种基于机器学习的案件风险识别方法,其特征在于,所述步骤5中,所述auc值即为用于评估机器学习模型整体效果好坏的指标,当auc值越大,说明模型分类效果越好,反之越差;所述精确率即为将实际为黑样本的账户预测为黑样本的数量占所有预测为黑样本数量的比值;所述召回率即为将实际为黑样本的账户预测为黑样本的数量占所有实际为黑样本数量的比值;所述F1综合指标即为精确率和召回率的加权调和平均数,能够综合精确率和召回率的评估效果,为评估模型效果的一个客观、综合的指标。
9.根据权利要求1所述的一种基于机器学习的案件风险识别方法,其特征在于,所述步骤6中,所述账户风险概率列表即为模型针对预测集合B1中所有的账户给出的账户是否有风险的概率集合,概率值越大,说明账户属于黑样本的可能性越大,反之,概率值越小,说明账户属于黑样本的可能性就越小;所述确认风险账户列表即通过业务需求与实际核查能力确定有风险的账户集合,该类账户存在风险的可能性非常高,需要重点分析和核查。
10.根据权利要求1所述的一种基于机器学习的案件风险识别方法,其特征在于,所述步骤7中,所述账户基本信息即为账户开户时预留的基本属性,包括账户代号、预留手机号码、家庭住址信息;所述账户交易信息即为账户自开户以来发生的所有交易流水,反映账户与其他账户之间的资金往来关系;所述账户操作信息即为账户开户以来发生的所有操作流水,包括修改手机银行密码、修改预留手机号码、登录网银;所述是否涉及员工即检查账户是否存在勾结行内员工作案的风险,若涉及行内在职人员参案,需对这一类账户进行重点关注。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010244378.1A CN111461216B (zh) | 2020-03-31 | 2020-03-31 | 一种基于机器学习的案件风险识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010244378.1A CN111461216B (zh) | 2020-03-31 | 2020-03-31 | 一种基于机器学习的案件风险识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111461216A CN111461216A (zh) | 2020-07-28 |
CN111461216B true CN111461216B (zh) | 2023-08-25 |
Family
ID=71680917
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010244378.1A Active CN111461216B (zh) | 2020-03-31 | 2020-03-31 | 一种基于机器学习的案件风险识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111461216B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112101952B (zh) * | 2020-09-27 | 2024-05-10 | 中国建设银行股份有限公司 | 银行可疑交易评估、数据处理方法及装置 |
CN112330462A (zh) * | 2020-11-05 | 2021-02-05 | 刘华玲 | 一种智能投顾方法 |
CN112463893A (zh) * | 2020-11-13 | 2021-03-09 | 中科金审(北京)科技有限公司 | 一种网络资金的智能分析系统及方法 |
CN113420789A (zh) * | 2021-05-31 | 2021-09-21 | 北京经纬信息技术有限公司 | 一种预测风险账号的方法、装置、存储介质和计算机设备 |
CN113487208A (zh) * | 2021-07-16 | 2021-10-08 | 支付宝(杭州)信息技术有限公司 | 风险评估方法及装置 |
CN114372806A (zh) * | 2022-03-23 | 2022-04-19 | 中国工商银行股份有限公司 | 一种预设交易特征提取模型训练方法及装置 |
CN114490626B (zh) * | 2022-04-18 | 2022-08-16 | 成都数融科技有限公司 | 一种基于并行计算的金融情报分析方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105791255A (zh) * | 2014-12-23 | 2016-07-20 | 阿里巴巴集团控股有限公司 | 基于账户聚类的计算机风险识别方法及其系统 |
CN106682067A (zh) * | 2016-11-08 | 2017-05-17 | 浙江邦盛科技有限公司 | 一种基于交易数据的机器学习反欺诈监测系统 |
CN108280541A (zh) * | 2018-01-11 | 2018-07-13 | 国网山东省电力公司 | 基于随机森林和决策树的客户服务策略制定方法、装置 |
CN108805416A (zh) * | 2018-05-22 | 2018-11-13 | 阿里巴巴集团控股有限公司 | 一种风险防控处理方法、装置及设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10181032B1 (en) * | 2017-07-17 | 2019-01-15 | Sift Science, Inc. | System and methods for digital account threat detection |
-
2020
- 2020-03-31 CN CN202010244378.1A patent/CN111461216B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105791255A (zh) * | 2014-12-23 | 2016-07-20 | 阿里巴巴集团控股有限公司 | 基于账户聚类的计算机风险识别方法及其系统 |
CN106682067A (zh) * | 2016-11-08 | 2017-05-17 | 浙江邦盛科技有限公司 | 一种基于交易数据的机器学习反欺诈监测系统 |
CN108280541A (zh) * | 2018-01-11 | 2018-07-13 | 国网山东省电力公司 | 基于随机森林和决策树的客户服务策略制定方法、装置 |
CN108805416A (zh) * | 2018-05-22 | 2018-11-13 | 阿里巴巴集团控股有限公司 | 一种风险防控处理方法、装置及设备 |
Non-Patent Citations (1)
Title |
---|
陈双双 ; .大数据时代背景下风险评估技术改进分析.全国流通经济.2019,(32),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111461216A (zh) | 2020-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111461216B (zh) | 一种基于机器学习的案件风险识别方法 | |
Kotsiantis et al. | Forecasting fraudulent financial statements using data mining | |
CN109523118A (zh) | 风险数据筛选方法、装置、计算机设备和存储介质 | |
CN111695597B (zh) | 基于改进式孤立森林算法的信贷欺诈团伙识别方法和系统 | |
CN111985937A (zh) | 交易商价值信息评估方法、系统、存储介质、计算机设备 | |
CN110689437A (zh) | 一种基于随机森林的通信施工项目财务风险预测方法 | |
CN115271912A (zh) | 一种基于大数据的信贷业务智能风控审批系统及方法 | |
CN111612519B (zh) | 一种识别金融产品潜在客户的方法、装置及存储介质 | |
CN108564465A (zh) | 一种企业信用管理方法 | |
CN110852884A (zh) | 用于反洗钱识别的数据处理系统及方法 | |
Mendes et al. | Insolvency prediction in the presence of data inconsistencies | |
Wang | Research on bank marketing behavior based on machine learning | |
CN111784360A (zh) | 一种基于网络链接回溯的反欺诈预测方法及系统 | |
CN110135509A (zh) | 一种基于神经网络的智能金融信用评分方法 | |
CN113177733B (zh) | 基于卷积神经网络的中小微企业数据建模方法及系统 | |
CN114708090A (zh) | 基于大数据的银行支付业务风险识别装置 | |
CN114493853A (zh) | 信用等级评价方法、装置、电子设备及存储介质 | |
CN107977804B (zh) | 一种保兑仓业务风险评估方法 | |
Howard et al. | Can Machine Learning Improve Correspondence Audit Case Selection? | |
CN117807406B (zh) | 支付平台的企业账户管理方法、系统、设备及存储介质 | |
Liu et al. | Empirical Study on Indicators Selection Model Based on Nonparametric K‐Nearest Neighbor Identification and R Clustering Analysis | |
CN111275541A (zh) | 基于多维度信息的借款人质量评价方法、系统、电子设备及计算机可读存储介质 | |
Zhang et al. | Anomaly credit data detection based on enhanced Isolation Forest | |
Enzinger et al. | Use Case—Fraud Detection Using Machine Learning Techniques | |
Li | Financial Fraud: Identifying Corporate Tax Report Fraud Under the Xgboost Algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: Room ABCD, 17th floor, building D, Paradise Software Park, No.3 xidoumen Road, Xihu District, Hangzhou City, Zhejiang Province, 310012 Applicant after: Zhejiang Bangsheng Technology Co.,Ltd. Address before: Room ABCD, 17th floor, building D, Paradise Software Park, No.3 xidoumen Road, Xihu District, Hangzhou City, Zhejiang Province, 310012 Applicant before: ZHEJIANG BANGSUN TECHNOLOGY Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |