CN113628029A - 基于数据分析的银行客户风控方法及装置 - Google Patents
基于数据分析的银行客户风控方法及装置 Download PDFInfo
- Publication number
- CN113628029A CN113628029A CN202110916997.5A CN202110916997A CN113628029A CN 113628029 A CN113628029 A CN 113628029A CN 202110916997 A CN202110916997 A CN 202110916997A CN 113628029 A CN113628029 A CN 113628029A
- Authority
- CN
- China
- Prior art keywords
- wind control
- user
- transaction
- picture
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000007405 data analysis Methods 0.000 title claims abstract description 52
- 238000011156 evaluation Methods 0.000 claims abstract description 38
- 238000012216 screening Methods 0.000 claims abstract description 19
- 238000005070 sampling Methods 0.000 claims description 32
- 238000004364 calculation method Methods 0.000 claims description 17
- 238000000605 extraction Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 12
- 230000008447 perception Effects 0.000 claims description 10
- 238000007689 inspection Methods 0.000 abstract description 11
- 238000013075 data extraction Methods 0.000 abstract description 3
- 238000010191 image analysis Methods 0.000 abstract description 3
- 238000012706 support-vector machine Methods 0.000 description 33
- 238000004422 calculation algorithm Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 12
- 230000006870 function Effects 0.000 description 11
- 238000012545 processing Methods 0.000 description 11
- 238000007781 pre-processing Methods 0.000 description 9
- 238000012954 risk control Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 7
- 238000013500 data storage Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000012790 confirmation Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 238000013480 data collection Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012502 risk assessment Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 230000002354 daily effect Effects 0.000 description 2
- 238000013501 data transformation Methods 0.000 description 2
- 238000013210 evaluation model Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Technology Law (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于大数据技术领域,本发明提供了一种基于数据分析的银行客户风控方法及装置,所述基于数据分析的银行客户风控方法包括:提取预先接收的客户视频数据的图片特征;计算所述图片特征与用户对照图片特征之间的相似度;根据预先生成的非增量SVM风控模型、所述相似度以及用户的交易特征对用户进行风控评价。本发明通过数据提取、数据分析、影像分析、风险交易预判断等多种技术手段,借助自定义风险模型,自动筛选可疑交易,提示支行网点人员进行整改和抽检,从而提升筛查风险交易的效率和准确性。
Description
技术领域
本申请属于大数据技术领域,具体涉及一种基于数据分析的银行客户风控方法及装置。
背景技术
以银行网点为单元的银行运营渠道有很多操作监管要求,当前银行网点落实规避风险交易监管要求是通过在不同的系统中关联查看交易凭证和录音录像等方式,耗时耗力,并且存在遗漏的风险,由于每日交易流量巨大,风险种类繁杂,人工筛查的方式效率和准确率上都存在隐患。
传统的风控模型大多研究企业和个人信用贷款的评价模型,对客户资产和其他信息进行打分,这些并不是针对客户在网点的风险行为的控制(客户在银行网点的风险行为包含但不限于利用人工操作漏洞规避双录操作,导致银行收集的数据不完整。客户为了达到更高风险评级等级来购买高风险金融产品,利用电脑系统漏洞进行多次风险评级来提高等级,增加了客户潜在风险,使得银行保护客户财产的机制失效等)。
发明内容
本发明可用于大数据技术在金融方面应用的技术领域,也可用于除金融领域之外的任意领域,本发明将机器学习算法结果和人工处理经验结合建立“风险控制模型”,对每天网点服务的客户基于模型建立“达标机制”预测筛选风险客户。
为解决上述技术问题,本发明提供以下技术方案:
第一方面,本发明提供一种基于数据分析的银行客户风控方法包括:
提取预先接收的客户视频数据的图片特征;
计算所述图片特征与用户对照图片特征之间的相似度;
根据预先生成的非增量SVM风控模型、所述相似度以及用户的交易特征对用户进行风控评价。
一实施例中,所述提取预先接收的客户视频数据的图片特征包括:
提取所述客户视频数据的采样频率以及每个采样点的信号强度数组信息;
根据所述采样频率以及所述每个采样点的信号强度数组信息筛选所述客户视频数据;
从筛选后的客户视频数据中截取多个图片数据;
提取所述多个图片数据的图片特征。
一实施例中,所述计算所述图片特征与用户对照图片特征之间的相似度包括:
计算所述图片特征与所述用户对照图片特征之间的均哈希值、差值哈希值以及感知哈希值;
提取所述图片特征的特征因子;
计算所述特征因子与用户对照图片的特征点的匹配个数;
根据所述均哈希值、差值哈希值、感知哈希值以及匹配个数计算所述相似度。
一实施例中,所述根据预先生成的非增量SVM风控模型、所述相似度以及用户的交易特征对用户进行风控评价,包括:
根据所述相似度判断交易是否为用户本人操作;
当交易为用户本人操作时,根据预先生成的非增量SVM风控模型以及用户的交易特征对用户进行风控评价;
所述交易特征包括:交易时间,交易金额,客户年龄、客户风险等级以及是否频繁做风险评价。
第二方面,本发明提供一种基于数据分析的银行客户风控装置,该装置包括:
图片特征提取模块,用于提取预先接收的客户视频数据的图片特征;
相似度计算模块,用于计算所述图片特征与用户对照图片特征之间的相似度;
用户风控评价模块,用于根据预先生成的非增量SVM风控模型、所述相似度以及用户的交易特征对用户进行风控评价。
一实施例中,所述图片特征提取模块包括:
信息提取单元,用于提取所述客户视频数据的采样频率以及每个采样点的信号强度数组信息;
视频筛选单元,用于根据所述采样频率以及所述每个采样点的信号强度数组信息筛选所述客户视频数据;
图片数据截取单元,用于从筛选后的客户视频数据中截取多个图片数据;
图片特征提取单元,用于提取所述多个图片数据的图片特征。
一实施例中,所述相似度计算模块包括:
哈希值计算单元,用于计算所述图片特征与所述用户对照图片特征之间的均哈希值、差值哈希值以及感知哈希值;
特征因子提取单元,用于提取所述图片特征的特征因子;
匹配个数计算单元,用于计算所述特征因子与用户对照图片的特征点的匹配个数;
相似度计算单元,用于根据所述均哈希值、差值哈希值、感知哈希值以及匹配个数计算所述相似度。
一实施例中,所述用户风控评价模块包括:
交易判断单元,用于根据所述相似度判断交易是否为用户本人操作;
用户风控评价单元,用于当交易为用户本人操作时,根据预先生成的非增量SVM风控模型以及用户的交易特征对用户进行风控评价;
所述交易特征包括:交易时间,交易金额,客户年龄、客户风险等级以及是否频繁做风险评价。
第三方面,本发明提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现基于数据分析的银行客户风控方法的步骤。
第四方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现基于数据分析的银行客户风控方法的步骤。
从上述描述可知,本发明实施例提供一种基于数据分析的银行客户风控方法及装置,首先提取预先接收的客户视频数据的图片特征;接着,计算所述图片特征与用户对照图片特征之间的相似度;最后根据预先生成的非增量SVM风控模型、所述相似度以及用户的交易特征对用户进行风控评价。本发明通过数据提取、数据分析、影像分析、风险交易预判断等多种技术手段,借助自定义风险模型,自动筛选可疑交易,提示支行网点人员进行整改和抽检,从而提升筛查风险交易的效率和准确性。具体地,本发明具有以下有益效果:
1、多数据源整合:智能风控系统涉及的数据分散在多个数据源和交易报文日志中,系统整合多个数据单独存在数据库是后续处理的基础。
2、多维度筛查:为了更加准确地筛选到风险数据,对于交易的的数据,提取了包含交易时间,交易金额,交易渠道,客户风险等级,产品风险等级,交易频率等多个特征进行分析。
3、数据自动化筛选:整个风险控制模型流程全自动进行筛查和预处理,提取汇总有风险的交易,无需人工干预。
4、系统可视化:风险交易提取完成后,通过智能风控系统前台,统一视图展现,提供报表查询下载功能,提供整改抽检流程和邮件提示,大大提升风险检查工作效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的实施例中基于数据分析的银行客户风控方法的流程示意图;
图2为本发明的实施例中步骤100的流程示意图;
图3为本发明的实施例中步骤200的流程示意图;
图4为本发明的实施例中步骤300的流程示意图;
图5为本发明的实施例中信号强度图;
图6为本发明中基于数据分析的银行客户风控系统的后台与前台交互图;
图7为本发明的具体实施方式中基于数据分析的银行客户风控方法的流程示意图;
图8为本发明的实施例中基于数据分析的银行客户风控装置的方块图;
图9为本发明的实施例中图片特征提取模块10的方块图;
图10为本发明的实施例中相似度计算模块20的方块图;
图11为本发明的实施例中用户风控评价模块30的方块图;
图12为本发明的实施例中的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
本发明的实施例提供一种基于数据分析的银行客户风控方法的具体实施方式,参见图1,该方法具体包括如下内容:
步骤100:提取预先接收的客户视频数据的图片特征。
具体地,通过python将视频中的音频信息分离成wav格式,然后从wav格式的视频中截取相同间隔时间段的图片,并提取其图片特征。
步骤200:计算所述图片特征与用户对照图片特征之间的相似度。
需要指出的是,用户对照图片是在银行端数据库预先采集的用户本人身份证明。
步骤300:根据预先生成的非增量SVM风控模型、所述相似度以及用户的交易特征对用户进行风控评价。
支持向量机(support vector machines,SVM)是一种二分类模型,它的基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大使它有别于感知机;SVM还包括核技巧,这使它成为实质上的非线性分类器。SVM的的学习策略就是间隔最大化,可形式化为一个求解凸二次规划的问题,也等价于正则化的合页损失函数的最小化问题。SVM的的学习算法就是求解凸二次规划的最优化算法。
支持向量机(Support Vector Machine,SVM)是一类按监督学习(supervisedlearning)方式对数据进行二元分类的广义线性分类器(generalized linearclassifier),其决策边界是对学习样本求解的最大边距超平面(maximum-marginhyperplane)。SVM使用铰链损失函数(hinge loss)计算经验风险(empirical risk)并在求解系统中加入了正则化项以优化结构风险(structural risk),是一个具有稀疏性和稳健性的分类器。SVM可以通过核方法(kernel method)进行非线性分类,是常见的核学习(kernel learning)方法之一。
从上述描述可知,本发明实施例提供一种基于数据分析的银行客户风控方法及装置,首先提取预先接收的客户视频数据的图片特征;接着,计算所述图片特征与用户对照图片特征之间的相似度;最后根据预先生成的非增量SVM风控模型、所述相似度以及用户的交易特征对用户进行风控评价。为了解决针对客户行为的风险控制模型少,网点监督客户交易工作量巨大的问题。本发明将机器学习算法结果和人工处理经验结合建立“风险控制模型”,对每天网点服务的客户基于模型建立“达标机制”预测筛选风险客户,并且最终由人工再次验证是否为风险客户并且将校验作为模型优化的依据,再次“优化”风险控制模型。
一实施例中,参见图2,步骤100进一步包括:
步骤101:提取所述客户视频数据的采样频率以及每个采样点的信号强度数组信息;
步骤102:根据所述采样频率以及所述每个采样点的信号强度数组信息筛选所述客户视频数据;
步骤103:从筛选后的客户视频数据中截取多个图片数据;
步骤104:提取所述多个图片数据的图片特征。
在步骤101至步骤104中,首先分离视频中的音频信息,进行信号强度分析。具体地,通过python将视频中的音频信息分离成wav格式,并引用librosa,提取采样频率和每个采样点的信号强度数组信息,若超过30%的采样点的信号强度为0.2以下,则标记该音频为信号弱。从视频全长中截取相同间隔时间段的十张图片,并提取图片特征。
一实施例中,参见图3,步骤200进一步包括:
步骤201:计算所述图片特征与所述用户对照图片特征之间的均哈希值、差值哈希值以及感知哈希值;
步骤202:提取所述图片特征的特征因子;
步骤203:计算所述特征因子与用户对照图片的特征点的匹配个数;
步骤204:根据所述均哈希值、差值哈希值、感知哈希值以及匹配个数计算所述相似度。
在步骤201至步骤204中,与对照组10张图片一一进行比对分析,提取图片特征,进行相似度计算。
对照组图片采集于规范的双录过程不同角度截图,选取10张。相似度匹配分为两个维度,一是进行哈希算法估算,分别计算每个比对过程两张图片的均值哈希(aHash)、差值哈希(dHash)和感知哈希(pHash)相似度;二是通过SIFT算法,提取图片特征因子,通过两张图片特征点的匹配个数,直接计算相似度(S)。二者平均值即为步骤204中的相似度,计算公式如(1),其中m为对照组的样本数量:
一实施例中,参见图4,步骤300进一步包括:
步骤301:根据所述相似度判断交易是否为用户本人操作;
当相似度超过50%标记为相似,即可以确定交易为用户本人操作。
步骤302:当交易为用户本人操作时,根据预先生成的非增量SVM风控模型以及用户的交易特征对用户进行风控评价;
交易特征包括:交易时间,交易金额,客户年龄、客户风险等级以及是否频繁做风险评价。机器学习算法训练中,首先进行特征选择,选择业务口径的特征例如交易时间,交易金额,客户年龄,客户风险等级,是否频繁做风险的等级评价等。然后是模型训练过程,将上述特征全部作为模型的变量输入模型,采用非增量SVM算法,得到初始多分类模型。非增量SVM决策模型的显著特点是,增加映射为度不会导致计算的复杂度增加,所以非增量SVM决策模型具有很好的扩展性。在输入数据有很大波动性的情况下,非增量SVM算法模型平稳,能够适应广泛的情况。
在一种具体实施方式中,本发明提供基于数据分析的银行客户风控方法中的具体实施方式。
术语介绍:
双录类风险交易:根据人行以及银监会要求,银行业金融机构在销售理财等金融产品时,需要在销售专区装配电子系统,对每笔产品销售过程同步录音录像,完整客观地记录营销推介、相关风险和关键信息提示、消费者确认和反馈等环节,最终形成的文件即为双录文件,对于在网点销售的金融产品要求进行双录影像操作,双录影像必须留存并且记录信息要完整,营销经理在引导客户在购买网点销售的金融产品的时候,并未进行影像留存操作或者影像不符合要求即为双录类风险交易。
代客操作类风险交易:对于网点销售的金融产品,客户经理违规代替客户进行操作的交易,即为代客操作类风险交易。
不当销售类风险交易:对于网点销售的金融产品,客户年龄偏大、购买金额较多、购买的产品为高风险产品以及客户风险评级与购买产品评级不符的交易等,均有可能存在潜在风险,需要网点进行抽检排查,该类明细即为不当销售类风险交易。
在本具体实施方式中,本发明还提供一种基于数据分析的银行用户风控系统,该系统包括:数据收集模块、数据变形模块、数据存储模块、数据预处理模块、数据分析模块、数据展现模块以及机器学习模块,具体地:
1、数据收集模块
数据收集模块每天发起执行自动化程序,在上游数据到位后自动从总行数据湖、EDW(数据仓库),其中数据湖的数据大多存在HADOOP(分布式存储架构)中,EDW数据存在总行MPP(大规模并行分析数据库)中,不同数据源在该模块中通过定时脚本获取到重点交易特征信息数据(客户基本信息,金融服务信息,金融产品基本信息、转账类交易信息和影像信息等)后再保存至分行MPP数据库,数据源时效性为T+2。
2、数据变形模块
数据变形模块用于处理数据中的参数信息,主要包含以下两部分。从MPP库中的机构名称机构号参数表中将原始数据中的网点号对应到和网点名称和上级支行名称,将网点的编号模式改为网点名称存储在MPP数据库中。从MPP库中的公共参数表将原始数据中渠道编号转换为“手机银行”,“柜面”和“网银系统”等直观的渠道名称,将渠道的编号模式改为直观的渠道名称存储在MPP数据库中。
3、数据存储模块
数据存储模块根据交易特征信息将数据从MPP数据库中导出生成TXT文件,然后通过SQLLDR(ORACLE导入导出工具)的方式,加载到ORACLE数据库中。
4、数据预处理模块
数据预处理模块实现从基金、保险和理财的明细数据以及转账类明细数据中提取交易时间,客户客编,交易机构号,渠道种类编号,营销人员编号,交易柜员号,交易金额,交易IP地址,产品风险等级等数据,按照以下策略将交易进行初步标识为一般交易、重点交易、双录交易。
一般交易识别策略:在数据预处理模块判断是否有购买基金保险理财、转账类或者风险评估类的交易行为,以此作为标准第一步模糊识别客户及其交易。(提取购买基金的客户就是满足“申购确认”或者“认购确认”,“认购申请”或者“申购申请”或者“定时定额申购申请”的客户。提取购买理财的客户就是满足“认购确认成功”或者“购买确认成功”,“认购”或者“预约购买”或者“购买”的客户。提取购买保险的客户就是满足已经付款购买保险且没有退款的客户)
重点交易识别策略:对于满足在柜面、智能终端、网吧机发生购买且录入营销代码的客户定义为重点关注客户。由于数据库没有直接存储交易是否发生柜面、智能终端、网吧机,这个属性需要间接获取。在为了鉴别交易发生是否在特别关注的地点,本策略特别设计识别具体的交易地点和交易机构名称的方法。在一般交易的基础上进行交易地点的判断,通过渠道字段区分智能终端和柜面,通过北京分行部署机具的规律用IP区分网吧机,例如一段IP(xxx.xxx.xxx.xxx),如果85开头则被认为是工行行内网段,再通过判断IP网段的第三段,如果除以16余数11则认为是网点发生的,再按照网点与IP字段对应关系归属到具体的网点。如果客户既购买了基金或者保险或者理财,又在柜面、智能终端、网吧机发生购买且录入了营销代码,就是重点关注的客户及交易。
双录交易识别策略:从“个人营销客户交易录音录像登记文件”和“理财类录音录像索引表”中,分别提取对应交易的唯一影像批次号。从一般交易中提取客户姓名,年龄和客编并进行关联匹配,形成双录类交易基本明细。
5、数据分析模块
数据预处理模块的交易明细流转到数据分析模块后,该数据分析模块根据具体的风险交易模型对交易明细进行进一步的划分,主要包含以下模型的分类:
(1)双录类风险模型:
在该模块中,通过定时任务将批次号从电子影像平台将双录文件获取到本地,解析文件的大小和时长,根据业务日常处理经验以及正常语速和视频清晰度推算,以1000个双录文件样本作为验证,最终设置为基金双录文件最低为210秒4M,保险双录文件最低为240秒6M,理财双录文件最低为210秒4M,风险评估双录文件最低为180秒3M,通过以上数据和参数设置,初步将双录类交易划分为应录未录、影像质检问题和影像质检通过三类,并通过邮件和系统的方式提示网点人员按照优先级逐笔核实,方便快捷,为业务规避风险。
双录文件深入解析装置主要分为以下两个方面设计实现:
A.分离视频中的音频信息,进行信号强度分析。
通过python将视频中的音频信息分离成wav格式,并引用librosa,提取采样频率和每个采样点的信号强度数组信息,若超过30%的采样点的信号强度为0.2以下,则标记该音频为信号弱,参见图5。
B.从视频全长中截取相同间隔时间段的十张图片,与对照组10张图片一一进行比对分析,提取图片特征,进行相似度计算。
对照组图片采集于规范的双录过程不同角度截图,选取10张。相似度匹配分为两个维度,一是进行哈希算法估算,分别计算每个比对过程两张图片的均值哈希(aHash)、差值哈希(dHash)和感知哈希(pHash)相似度;二是通过SIFT算法,提取图片特征因子,通过两张图片特征点的匹配个数,直接计算相似度(S)。二者平均值,超过50%标记为相似。计算公式如下:
(2)代客操作类风险模型:
在该模块中,从重点交易明细中筛选金额不为0的交易明细,即为代客操作类风险明细,并根据交易类型是理财购买或转账,进一步划分为代客理财风险明细和代客交易风险明细。
(3)不当销售类风险模型:
在该模块中,从一般交易明细中筛选出购买基金保险理财以及风险评估明细进行进一步划分,购买客户的年龄较大(初始参数大于等于65岁)的交易标记为高龄客户交易;金额较多(大于等于50万元)的交易标记为大额交易;产品等级大于等于PR4的为高风险产品交易;购买了基金且客户风险评级低于所购基金产品风险等级的交易标记为评级不符交易;高于指定参数年龄(初始参数大于等于65岁)并且客户风险风险评估级别高于指定参数(初始参数大于等于PR3)的交易标记为高龄客户高风险评级交易;当天至少一次风评(以最新为准)且前14天内至少一次风评(以最新为准)的客户,当天如有基金保险理财(金额不为0且能定位到网点)交易,为两周内多次风评交易;当天至少一次风评(以最新为准)且前14天内至少一次风评(以最新为准)的客户,风评日往后7天内(不含日)有交易(金额不为0且能定位到网点)的交易标记为风评7日后购买高风险产品交易。
经过以上步骤的一步步筛选和归类,该模块使风险客户和交易越来越精准,在对风险交易进行详细标记后,流转到数据展现模块。
6、数据展现模块
数据展现模块基于前端系统智能风控平台,会通过报表查询以及影像下载等功能,提供给支行网点人员,敏感信息隐藏处理,作为检查的辅助信息,支行和网点再按照制度要求进行整改和抽检。
7、机器学习模块
机器学习算法训练中,首先进行特征选择,选择业务口径的特征例如交易时间,交易金额,客户年龄,客户风险等级,是否频繁做风险的等级评价等。然后是模型训练过程,将上述特征全部作为模型的变量输入模型,采用非增量SVM算法,得到初始多分类模型。非增量SVM决策模型的显著特点是,增加映射为度不会导致计算的复杂度增加,所以非增量SVM决策模型具有很好的扩展性。在输入数据有很大波动性的情况下,非增量SVM算法模型平稳,能够适应广泛的情况。
参见图6以及图7,基于上述的基于数据分析的银行客户风控系统,本发明具体实施方式提供的基于数据分析的银行客户风控方法包括:
S1:数据收集。
提取总行转账汇款表、总行影像数据表、总行网上交易日志、总行客户风险评级数据、总行客户交易明细数据、分行客户基本信息数据以及网点信息数据。
S2:数据变形和存储
具体地,对影像明细表、交易明细表、客户信息表、客户风险评级表以及网点信息表进行数据变形和存储操作。
S3:数据预处理
提取关键字段:交易时间、交易金额、交易网点、交易种类、客户个人信息、网点机具以及Ip地址。
S4:数据分析
分别建立双录类风险控制模型、代客操作类风险控制模型以及不当销售类风险控制模型。
S5:数据展示。
基于以上模型的定义,本发明依托大数据和自动化处理,整合影像类数据源和交易类数据数据源,通过预设策略自动判断筛选和归类风险交易,重点监测和推送,包含数据收集模块、数据变形模块、数据存储模块、数据预处理模块、数据分析模块,数据按照模块顺序依次处理流转后,最后进入数据展现模块,将提取出的风险数据展示在前端供业务人员处理。
基于同一发明构思,本申请实施例还提供了一种基于数据分析的银行客户风控装置,可以用于实现上述实施例所描述的方法,如下面的实施例。由于基于数据分析的银行客户风控装置解决问题的原理与基于数据分析的银行客户风控方法相似,因此基于数据分析的银行客户风控装置的实施可以参见基于数据分析的银行客户风控方法实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
本发明的实施例提供一种能够实现基于数据分析的银行客户风控方法的基于数据分析的银行客户风控装置的具体实施方式,参见图8,基于数据分析的银行客户风控装置具体包括如下内容:
图片特征提取模块10,用于提取预先接收的客户视频数据的图片特征;
相似度计算模块20,用于计算所述图片特征与用户对照图片特征之间的相似度;
用户风控评价模块30,用于根据预先生成的非增量SVM风控模型、所述相似度以及用户的交易特征对用户进行风控评价。
一实施例中,参见图9,所述图片特征提取模块10包括:
信息提取单元101,用于提取所述客户视频数据的采样频率以及每个采样点的信号强度数组信息;
视频筛选单元102,用于根据所述采样频率以及所述每个采样点的信号强度数组信息筛选所述客户视频数据;
图片数据截取单元103,用于从筛选后的客户视频数据中截取多个图片数据;
图片特征提取单元104,用于提取所述多个图片数据的图片特征。
一实施例中,参见图10,所述相似度计算模块20包括:
哈希值计算单元201,用于计算所述图片特征与所述用户对照图片特征之间的均哈希值、差值哈希值以及感知哈希值;
特征因子提取单元202,用于提取所述图片特征的特征因子;
匹配个数计算单元203,用于计算所述特征因子与用户对照图片的特征点的匹配个数;
相似度计算单元204,用于根据所述均哈希值、差值哈希值、感知哈希值以及匹配个数计算所述相似度。
一实施例中,参见图11,所述用户风控评价模块30包括:
交易判断单元301,用于根据所述相似度判断交易是否为用户本人操作;
用户风控评价单元302,用于当交易为用户本人操作时,根据预先生成的非增量SVM风控模型以及用户的交易特征对用户进行风控评价;
所述交易特征包括:交易时间,交易金额,客户年龄、客户风险等级以及是否频繁做风险评价。
从上述描述可知,本发明实施例提供一种基于数据分析的银行客户风控装置,首先提取预先接收的客户视频数据的图片特征;接着,计算所述图片特征与用户对照图片特征之间的相似度;最后根据预先生成的非增量SVM风控模型、所述相似度以及用户的交易特征对用户进行风控评价。通过数据提取、数据分析、影像分析、风险交易预判断等多种技术手段,借助自定义风险模型,自动筛选可疑交易,提示支行网点人员进行整改和抽检,提升筛查风险交易的效率和准确性。具体地,本发明具有以下有益效果:
1、多数据源整合:智能风控系统涉及的数据分散在多个数据源和交易报文日志中,系统整合多个数据单独存在数据库是后续处理的基础。
2、多维度筛查:为了更加准确地筛选到风险数据,对于交易的的数据,提取了包含交易时间,交易金额,交易渠道,客户风险等级,产品风险等级,交易频率等多个特征进行分析。
3、数据自动化筛选:整个风险控制模型流程全自动进行筛查和预处理,提取汇总有风险的交易,无需人工干预。
4、系统可视化:风险交易提取完成后,通过智能风控系统前台,统一视图展现,提供报表查询下载功能,提供整改抽检流程和邮件提示,大大提升风险检查工作效率。
本申请的实施例还提供能够实现上述实施例中的基于数据分析的银行客户风控方法中全部步骤的一种电子设备的具体实施方式,参见图12,电子设备具体包括如下内容:
处理器(processor)1201、存储器(memory)1202、通信接口(CommunicationsInterface)1203和总线1204;
其中,处理器1201、存储器1202、通信接口1203通过总线1204完成相互间的通信;通信接口1203用于实现服务器端设备以及客户端设备等相关设备之间的信息传输;
处理器1201用于调用存储器1202中的计算机程序,处理器执行计算机程序时实现上述实施例中的基于数据分析的银行客户风控方法中的全部步骤,例如,处理器执行计算机程序时实现下述步骤:
步骤100:提取预先接收的客户视频数据的图片特征;
步骤200:计算所述图片特征与用户对照图片特征之间的相似度;
步骤300:根据预先生成的非增量SVM风控模型、所述相似度以及用户的交易特征对用户进行风控评价。
本申请的实施例还提供能够实现上述实施例中的基于数据分析的银行客户风控方法中全部步骤的一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的基于数据分析的银行客户风控方法的全部步骤,例如,处理器执行计算机程序时实现下述步骤:
步骤100:提取预先接收的客户视频数据的图片特征;
步骤200:计算所述图片特征与用户对照图片特征之间的相似度;
步骤300:根据预先生成的非增量SVM风控模型、所述相似度以及用户的交易特征对用户进行风控评价。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于硬件+程序类实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
虽然本申请提供了如实施例或流程图的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或客户端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现,也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
本说明书实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书实施例的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
以上所述仅为本说明书实施例的实施例而已,并不用于限制本说明书实施例。对于本领域技术人员来说,本说明书实施例可以有各种更改和变化。凡在本说明书实施例的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书实施例的权利要求范围之内。
Claims (10)
1.一种基于数据分析的银行客户风控方法,其特征在于,包括:
提取预先接收的客户视频数据的图片特征;
计算所述图片特征与用户对照图片特征之间的相似度;
根据预先生成的非增量SVM风控模型、所述相似度以及用户的交易特征对用户进行风控评价。
2.如权利要求1所述的基于数据分析的银行客户风控方法,其特征在于,所述提取预先接收的客户视频数据的图片特征包括:
提取所述客户视频数据的采样频率以及每个采样点的信号强度数组信息;
根据所述采样频率以及所述每个采样点的信号强度数组信息筛选所述客户视频数据;
从筛选后的客户视频数据中截取多个图片数据;
提取所述多个图片数据的图片特征。
3.如权利要求1所述的基于数据分析的银行客户风控方法,其特征在于,所述计算所述图片特征与用户对照图片特征之间的相似度包括:
计算所述图片特征与所述用户对照图片特征之间的均哈希值、差值哈希值以及感知哈希值;
提取所述图片特征的特征因子;
计算所述特征因子与用户对照图片的特征点的匹配个数;
根据所述均哈希值、差值哈希值、感知哈希值以及匹配个数计算所述相似度。
4.如权利要求1所述的基于数据分析的银行客户风控方法,其特征在于,所述根据预先生成的非增量SVM风控模型、所述相似度以及用户的交易特征对用户进行风控评价,包括:
根据所述相似度判断交易是否为用户本人操作;
当交易为用户本人操作时,根据预先生成的非增量SVM风控模型以及用户的交易特征对用户进行风控评价;
所述交易特征包括:交易时间,交易金额,客户年龄、客户风险等级以及是否频繁做风险评价。
5.一种基于数据分析的银行客户风控装置,其特征在于,包括:
图片特征提取模块,用于提取预先接收的客户视频数据的图片特征;
相似度计算模块,用于计算所述图片特征与用户对照图片特征之间的相似度;
用户风控评价模块,用于根据预先生成的非增量SVM风控模型、所述相似度以及用户的交易特征对用户进行风控评价。
6.如权利要求5所述的基于数据分析的银行客户风控装置,其特征在于,所述图片特征提取模块包括:
信息提取单元,用于提取所述客户视频数据的采样频率以及每个采样点的信号强度数组信息;
视频筛选单元,用于根据所述采样频率以及所述每个采样点的信号强度数组信息筛选所述客户视频数据;
图片数据截取单元,用于从筛选后的客户视频数据中截取多个图片数据;
图片特征提取单元,用于提取所述多个图片数据的图片特征。
7.如权利要求5所述的基于数据分析的银行客户风控装置,其特征在于,所述相似度计算模块包括:
哈希值计算单元,用于计算所述图片特征与所述用户对照图片特征之间的均哈希值、差值哈希值以及感知哈希值;
特征因子提取单元,用于提取所述图片特征的特征因子;
匹配个数计算单元,用于计算所述特征因子与用户对照图片的特征点的匹配个数;
相似度计算单元,用于根据所述均哈希值、差值哈希值、感知哈希值以及匹配个数计算所述相似度。
8.如权利要求5所述的基于数据分析的银行客户风控装置,其特征在于,所述用户风控评价模块包括:
交易判断单元,用于根据所述相似度判断交易是否为用户本人操作;
用户风控评价单元,用于当交易为用户本人操作时,根据预先生成的非增量SVM风控模型以及用户的交易特征对用户进行风控评价;
所述交易特征包括:交易时间,交易金额,客户年龄、客户风险等级以及是否频繁做风险评价。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至4任一项所述基于数据分析的银行客户风控方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至4任一项所述基于数据分析的银行客户风控方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110916997.5A CN113628029A (zh) | 2021-08-11 | 2021-08-11 | 基于数据分析的银行客户风控方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110916997.5A CN113628029A (zh) | 2021-08-11 | 2021-08-11 | 基于数据分析的银行客户风控方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113628029A true CN113628029A (zh) | 2021-11-09 |
Family
ID=78384230
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110916997.5A Pending CN113628029A (zh) | 2021-08-11 | 2021-08-11 | 基于数据分析的银行客户风控方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113628029A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020037942A1 (zh) * | 2018-08-20 | 2020-02-27 | 平安科技(深圳)有限公司 | 风险预测处理方法、装置、计算机设备和介质 |
CN111401907A (zh) * | 2020-03-11 | 2020-07-10 | 杭州首新网络科技有限公司 | 一种数据维度化金融大数据的智能风控方法 |
CN111932270A (zh) * | 2020-08-12 | 2020-11-13 | 中国银行股份有限公司 | 银行客户身份验证的方法及装置 |
CN111951044A (zh) * | 2020-07-30 | 2020-11-17 | 中国工商银行股份有限公司 | 银行终端交互方法及系统 |
CN112990796A (zh) * | 2021-05-12 | 2021-06-18 | 北京焦点新干线信息技术有限公司 | 房产交易风险的确定方法及装置、存储介质及电子设备 |
CN113159923A (zh) * | 2021-04-29 | 2021-07-23 | 中国工商银行股份有限公司 | 风险筛查方法及装置 |
-
2021
- 2021-08-11 CN CN202110916997.5A patent/CN113628029A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020037942A1 (zh) * | 2018-08-20 | 2020-02-27 | 平安科技(深圳)有限公司 | 风险预测处理方法、装置、计算机设备和介质 |
CN111401907A (zh) * | 2020-03-11 | 2020-07-10 | 杭州首新网络科技有限公司 | 一种数据维度化金融大数据的智能风控方法 |
CN111951044A (zh) * | 2020-07-30 | 2020-11-17 | 中国工商银行股份有限公司 | 银行终端交互方法及系统 |
CN111932270A (zh) * | 2020-08-12 | 2020-11-13 | 中国银行股份有限公司 | 银行客户身份验证的方法及装置 |
CN113159923A (zh) * | 2021-04-29 | 2021-07-23 | 中国工商银行股份有限公司 | 风险筛查方法及装置 |
CN112990796A (zh) * | 2021-05-12 | 2021-06-18 | 北京焦点新干线信息技术有限公司 | 房产交易风险的确定方法及装置、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108876133B (zh) | 基于业务信息的风险评估处理方法、装置、服务器和介质 | |
Huang et al. | Audit data analytics, machine learning, and full population testing | |
Chu et al. | Big data analytics for business intelligence in accounting and audit | |
JP7017149B2 (ja) | ディープラーニングを用いる情報処理装置、情報処理方法及び情報処理プログラム | |
CN112017040B (zh) | 信用评分模型训练方法、评分方法及系统、设备及介质 | |
CN112862298A (zh) | 一种针对用户画像的信用评估方法 | |
Laurent et al. | Intelligent automation entering the business world | |
CN111815207B (zh) | 一种针对供应链金融的风险定量评估方法 | |
Hosseini et al. | Identifying multi-channel value co-creator groups in the banking industry | |
CN111179051A (zh) | 金融目标客户确定方法、装置及电子设备 | |
CN115545886A (zh) | 逾期风险识别方法、装置、设备及存储介质 | |
CN116823469A (zh) | 一种基于大数据的金融交易平台及其交易方法 | |
Dai et al. | Audit analytics: A field study of credit card after-sale service problem detection at a major bank | |
CN113469759A (zh) | 智能生成发票的方法、装置、设备及存储介质 | |
Moro et al. | A data mining approach for bank telemarketing using the rminer package and r tool | |
CN117196630A (zh) | 交易风险预测方法、装置、终端设备以及存储介质 | |
CN117114812A (zh) | 一种针对企业的金融产品推荐方法及装置 | |
CN115277205B (zh) | 模型训练方法及装置、端口的风险识别方法 | |
CN117132383A (zh) | 一种信贷数据处理方法、装置、设备及可读存储介质 | |
CN113628029A (zh) | 基于数据分析的银行客户风控方法及装置 | |
CN116228403A (zh) | 一种基于机器学习算法的个人不良资产估值方法和系统 | |
CN115860482A (zh) | 店铺风险识别方法及其装置、设备、介质、产品 | |
CN114626940A (zh) | 数据分析方法、装置及电子设备 | |
CN113870007A (zh) | 一种产品推荐方法、装置、设备及介质 | |
Warganegara et al. | Tobit Regression Analysis on Factors Influencing Dividend Policy of Indonesian Manufacturing Firms. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |