CN116402512A - 一种基于人工智能的账户安全排查管理方法 - Google Patents
一种基于人工智能的账户安全排查管理方法 Download PDFInfo
- Publication number
- CN116402512A CN116402512A CN202310629777.3A CN202310629777A CN116402512A CN 116402512 A CN116402512 A CN 116402512A CN 202310629777 A CN202310629777 A CN 202310629777A CN 116402512 A CN116402512 A CN 116402512A
- Authority
- CN
- China
- Prior art keywords
- data
- account
- funds transfer
- model
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000007726 management method Methods 0.000 title claims abstract description 21
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 18
- 238000012546 transfer Methods 0.000 claims abstract description 114
- 238000012544 monitoring process Methods 0.000 claims abstract description 72
- 238000000034 method Methods 0.000 claims abstract description 52
- 238000003066 decision tree Methods 0.000 claims abstract description 43
- 230000007774 longterm Effects 0.000 claims abstract description 29
- 238000012545 processing Methods 0.000 claims abstract description 19
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 238000012549 training Methods 0.000 claims description 89
- 239000013598 vector Substances 0.000 claims description 35
- 230000006399 behavior Effects 0.000 claims description 34
- 238000007477 logistic regression Methods 0.000 claims description 24
- 238000004364 calculation method Methods 0.000 claims description 23
- 230000006870 function Effects 0.000 claims description 20
- 238000012360 testing method Methods 0.000 claims description 18
- 238000012795 verification Methods 0.000 claims description 18
- 230000002159 abnormal effect Effects 0.000 claims description 16
- 238000011282 treatment Methods 0.000 claims description 15
- 238000010606 normalization Methods 0.000 claims description 14
- 238000006243 chemical reaction Methods 0.000 claims description 13
- 238000011156 evaluation Methods 0.000 claims description 11
- 238000010276 construction Methods 0.000 claims description 9
- 238000013178 mathematical model Methods 0.000 claims description 9
- 238000004458 analytical method Methods 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000013515 script Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 5
- 238000010801 machine learning Methods 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 4
- 238000007635 classification algorithm Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000012417 linear regression Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 claims description 3
- 230000002265 prevention Effects 0.000 claims description 3
- 238000007637 random forest analysis Methods 0.000 claims description 3
- 238000012706 support-vector machine Methods 0.000 claims description 3
- 238000011161 development Methods 0.000 abstract description 3
- 238000004220 aggregation Methods 0.000 abstract 1
- 230000002776 aggregation Effects 0.000 abstract 1
- 230000000694 effects Effects 0.000 description 4
- 238000012954 risk control Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000012550 audit Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000003012 network analysis Methods 0.000 description 3
- 238000011276 addition treatment Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000035515 penetration Effects 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q20/00—Payment architectures, schemes or protocols
- G06Q20/38—Payment protocols; Details thereof
- G06Q20/40—Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
- G06Q20/401—Transaction verification
- G06Q20/4016—Transaction verification involving fraud or risk level assessment in transaction processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/02—Banking, e.g. interest calculation or account maintenance
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Artificial Intelligence (AREA)
- Strategic Management (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Business, Economics & Management (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Computer Security & Cryptography (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Economics (AREA)
- Fuzzy Systems (AREA)
- Development Economics (AREA)
- Technology Law (AREA)
- Marketing (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于人工智能的账户安全排查管理方法,属于账户安全管理技术领域。本发明利用业务数据库、外部数据、行内行为数据作为数据源;对原始数据进行数据预处理和聚合处理,根据处理后的原始数据构造反非法资金转移集市;构造客户账户长短期画像对反非法资金转移可疑监测模型进行预测和训练;将最终得到的反非法资金转移可疑监测模型进行部署并应用到业务的各种渠道中。本发明能够自动检测具有非法资金转移行为迹象的可疑账户,便于反非法资金转移风险岗人员快速定位和排查可疑交易账户,减少模型开发的成本与提高账户可疑排查的效率,采用梯度提升决策树模型进行特征组合,减少开发人员做模型特征工程的工作量。
Description
技术领域
本发明涉及账户安全管理技术领域,具体为一种基于人工智能的账户安全排查管理方法。
背景技术
目前,金融机构日常业务交易数量逐渐增多,特别是互联网金融业务的增长,加大了交易甄别的难度,传统金融机构交易监测及甄别的主要方式是按照可疑模型规则粒度的监测和模型的筛查进行初步识别,例如通过判断可疑预警模型中是否存在交易频率、资金集中转入、分散转出、交易行为异常、交易时间异常、交易对手频繁固定等可疑指标,根据判断结果对交易进行初步识别。在这种模型架构的开发模式下,模型存在如下几点局限性:
1.金融机构反非法资金转移模型岗需对非法资金转移行为进行持续不断的研究与实验,方能投产有效的可疑交易监测模型。在提出模型需求、模型实验分析、调整模型阈值、最终确认模型准确有效的过程中,需不断评估与调试优化,耗费大量的人力和物力。
2.金融机构信息安全一定程度上受到威胁。
发明内容
本发明的目的在于提供一种基于人工智能的账户安全排查管理方法,以解决上述背景技术中提出的问题。
为了解决上述技术问题,本发明提供如下技术方案:一种基于人工智能的账户安全排查管理方法,所述方法包括:
S10:对外部数据系统中的外部数据和银行业务系统中的内部数据进行获取,内部数据包括客户基础信息、客户账户信息、客户交易信息、客户行为特征和偏好、客户风险信息和客户社交信息,外部数据包括工商数据、司法数据和客户电话归属地信息;
S20:将外部数据系统和银行各业务系统(银行业务系统包括核心核算系统、财管系统等)与银行大数据平台ODS层进行链接,对S10中获取的外部数据和内部数据中的结构化数据和非结构化数据进行获取,将获取数据以表格形式整合汇聚到银行大数据平台ODS层;
S30:对银行大数据平台ODS层数据进行预处理,将非结构化数据转化为结构化数据,为后续数据仓库中二维表构建提供数据支撑;
S40:将S30中预处理后的银行大数据平台ODS层数据作为数据仓库的源数据,基于账户主题对源数据中的数据进行筛选,根据筛选数据构建数据仓库,使客户基础数据、账户基本信息、交易数据、行为数据的口径和规范得到统一,数据仓库的相应表包括:客户基础信息表、账户信息表和账户交易流水表;
S50:基于S40中构建的数据仓库,对客户基本信息、账户信息、交易信息、行为特征和偏好、风险信息、社会关联信息、工商、司法、电话归属地数据进行获取,根据获取数据所属时间区域,对客户账户的长期指标和短期指标进行计算,根据计算结果最终形成账户数据集市,为后续用户画像和模型的构建提供数据基础,长期指标=客户账户开户后对应指标数据对应的所有历史数据的和值,短期指标=客户账户开户后N天内对应指标数据对应的所有历史数据的和值,N为正数;
S60:基于S50中计算的长期指标和短期指标,采用知识图谱的自模式层向数据层的自上而下的构建方法,构建本行客户账户的关联知识图谱;
S70:根根据S50中计算的长期指标和短期指标、反非法资金转移专家规则以及S60中构建的客户账户知识图谱,为客户账户打上不同分类的标签,根据标签打上结果对客户账户长短期画像进行构造,反非法资金转移专家规则指人为制定的判断客户账户是否具有反非法资金转移可疑的规则,分类包括用户属性、用户行为、风险控制、社交属性和关系属性;
用户属性标签包括性别、年龄、地域、联系方式,身份、职业和薪资水平;
用户行为标签包括交易生命周期、购买定期产品信息和交易频率;
风险控制标签包括客户风险等级;
社交属性标签包括家庭成员、经常交易时间段和交易对手信息;
关系属性标签包括与该客户使用同一IP地址的客户及客户数、与该客户使用同一设备的客户及客户数、与该客户处于同一地区的客户及客户数、该客户的关联人和该客户的交易对手方;
例如:客户账户开户后交易频率对应的长期指标为500,反非法资金转移专家规则判断客户账户开户后交易频率对应的长期指标为300<500,由客户账户知识图谱获知客户账户与交易账户之间无关联,则认为客户账户存在反非法资金转移可疑行为,此时为客户账户贴上用户行为标签值为1的标签;
S80:以S50中计算的长期指标和短期指标作为特征向量,根据特征向量和S70中根据S50中计算的长期指标和短期指标对客户账户打上的标签值,构造适用于机器学习模型训练、测试和预测的数据集,数据集的表达形式为:特征向量,标签值;
S90:根据S70中为客户账户打上的反非法资金转移可疑客户分类标签,划分正负样本,标签Y为1的样本为正样本,标签Y为0的样本为负样本,标签为1表示客户账户存在反非法资金转移可疑行为,标签为0表示客户账号不存在反非法资金转移可疑行为;
S100:将S80中构造的数据集按照8:1:1的比例,划分为模型数据的训练集、测试集和验证集,每一部分的数据集均需保持正负样本均衡;
S110:对训练集、测试集和验证集中的特征进行缺失值填充处理,标准化、归一化处理和类别型特征转化处理;
S120:通过皮尔逊相关系数对各个特征与标签值之间的相关性,以及各个特征之间的相关性进行计算,根据计算结果,对相关性高于设定值的特征进行保留;
只保留对模型预测有用的特征,一方面可以提高模型准确度,另一方面可以降维,降低模型复杂度,提高训练效率,皮尔逊相关系数衡量的是变量之间的线性相关性,结果的取值区间为[−1 ,1] ,-1表示完全的负相关,+1表示完全的正相关,0表示没有线性相关,使用皮尔逊相关系数做特征选择,选择效果更佳;
S130:在训练集、测试集和验证集中分别使用梯度提升决策树、支持向量机、逻辑回归、k近邻、随机森林模型进行训练和预测,最终根据训练和预测处理后的各模型对应的准确率、精确率、召回率或f1分值,选择使用梯度提升决策树模型和逻辑回归模型进行结合作为反非法资金转移可疑监测模型,梯度提升决策树模型是一种基于boosting集成学习思想的加法模型,它串行地训练一组分类回归树,最终对所有回归树的预测结果进行加和处理,得到一个强学习器,每一棵新树都拟合当前损失函数的负梯度方向;
S140:将S100中划分的数据集输入反非法资金转移可疑监测模型中进行训练,使用验证集进行调参;
S150:使用评估指标精确率、召回率和F1-Score对反非法资金转移可疑监测模型的性能进行评估,F1-Score是统计学中用来衡量二分类模型精确度的一种指标;
S160:使用Flask框架对反非法资金转移可疑监测模型进行部署,业务人员在网页输入账户的相关特征,根据输入反馈结果判断此账户是否为可疑账户,以及判断与此账户相关的其他账户是否为可疑账户,Flask框架是一个使用Python 编写的轻量级 Web 应用框;例如:业务人员在网页输入账户的交易数据,网页根据输入的交易数据自动构建客户账户长短期画像,以及对反非法资金转移可疑监测模型进行预测,sigmoid函数将预测值的范围限定在0到1之间,即反非法资金转移可疑监测模型预测值为客户账户的反非法资金转移可疑程度,之后调用客户账户知识图谱找出与上述可疑账户相关的其他账户;
S170:业务人员根据输入网页账户的实际交易行为对输入账户是否为反非法资金转移可疑账户进行分析,将分析结果与S160中输出的反非法资金转移可疑账户分类结果进行比较,若业务人员的分析结果与网页输出的分类结果相同,则无需人工对标签Y进行修订,反之,则人工对标签Y进行修订,根据修订结果,对客户账户长短期画像进行更新,以及对反非法资金转移可疑监测模型进行优化。
进一步的,所述S30对银行大数据平台ODS层数据进行预处理的具体方法为:
S301:查询银行大数据平台ODS层数据中多个表在加载或合并过程中是否会产生冗余数据,若产生,则将产生的冗余数据进行删除处理,以节省表格空间,进而提高数据的精确性和可靠性;
S302:对银行大数据平台ODS层数据中的关键信息进行提取,根据提取结果设计匹配的字段,并对字段进行存储;
S303:根据银行大数据平台ODS层数据的实际情况对表格中的异常数据进行识别,将识别的异常数据使用其他数据进行替代,对识别的异常数据进行删除或对识别的异常数据进行格式变换,其他数据指根据历史数据求取的平均值、中位数或众数,格式转换指基于历史数据格式对识别的异常数据格式进行转换;
S304:根据银行大数据平台ODS层数据的实际情况对表中的缺失数据进行填充处理,填充方法为:直接删除、线性插值法、中位数、平均数和众数填充;
S305:将表格中同一字段使用不同格式进行表示的数据转换成同种数据格式。
进一步的,所述S60构建客户账户关联知识图谱的具体方法为:
S601:根据本行本地数据库中存在的关于客户账户的分类、结构层次以及客户账户之间的常见关联关系,对客户账户层面的本体和概念进行确定,基于确定结果,构建客户账户关联知识图谱的模式层;
S602:通过人为编写的aql脚本在外部数据系统和银行各业务系统中存在的异质数据中处理获得“客户账户—关系—客户账户”类、“客户账户—属性—属性值”类和“关系—属性—属性值”类的三元组格式数据,三元组格式数据获取后,利用自然语言处理技术对客户账户数据进行实体匹配、实体消歧和实体统一,提高了数据信息的可靠性和有效性,实现不同来源的数据之间的深度融合,完成客户账户关联知识图谱数据层的构建;实体消歧通过身份证md5处理实现,身份证md5处理解决了本质不同的两个实体具有同一命名实体的实体消歧问题;实体统一通过孪生神经网络的实体对齐模型中的余弦相似度,对异名实体之间的相似度得分进行计算,根据相似度得分对异名实体的相似概率进行描述,若异名实体的相似概率>标准相似概率,则认为异名实体为同一实体,此时对异名实体进行融合,解决了实体统一问题;
S603:将S602中处理后的三元组数据储存到图数据库Neo4j中,并定期更新,根据更新后的图数据库Neo4j中的数据和S601中构建的客户账户关联知识图谱的模式层构建客户账户关联知识图谱,Neo4j是一个高性能的NOSQL图形数据库。
通过图数据库Neo4j其自身携带的Neo4j-import工具,编写shell脚本对三元组数据进行存储,实现了客户账户关联关系的可视化呈现,保证构建出的客户账户关联知识图谱中的模式层与数据层能够完整、清晰的传达信息,以及有效提高了客户账户关联知识图谱中的数据质量;构建的客户账户关联知识图谱不仅能够可视化查询不同客户账户之间的IP关联关系、设备关联关系、地区关联关系、交易关联关系、家庭关联关系等一系列关联关系,还可以支持关联关系的穿透式查询、潜在关联关系挖掘、智能关系推导等多种高阶应用,弥补了传统客户画像方法在社会网络分析方面的不足。
进一步的,所述S90划分正负样本的具体方法为:
S901:将客户账户标签为1分的数据标记为正样本;
S902:将客户账户标签为0分的数据标记为负样本;
S903:使用sklearn中的过采样方法RandomOverSampler()来平衡正负样本数据量,sklearn是针对Python编程语言的免费软件机器学习库,RandomOverSampler()为过采样方法中使用的函数类型。
本发明中具有非法资金转移嫌疑的客户数占比很小,导致正负样本极度不平衡,因此本发明使用过采样方法平衡正负样本。
进一步的,所述S110中对训练集、测试集和验证集中的特征进行缺失值填充处理,标准化、归一化处理和类别型特征转化处理的具体方法为:
S1101:根据训练集、测试集和验证集中的缺失值对应的历史数据和缺失值的特征,选择相匹配的填充方式对缺失值进行填充;
S1102:使用max-min标准化方法,将不同维度之间的数值归一化到0-1之间,具体的归一化公式为:`u=(u-umin)/(umax-umin),其中,u表示原始数据,`u表示标准化处理后的数据,umin表示数据集中的最小值,umax表示数据集中的最大值,对特征进行归一化处理可以使不同维度之间的数值有一定的比较性,从而大大提高分类器的准确性;
S1103:将类别型特征数据转化为数值型特征数据,数值型特征数据包括字典映射、整数编码和独热编码;
进一步的,所述S140中对反非法资金转移可疑监测模型进行训练和调参的具体方法为:
S1401:将S100中划分的训练数据集输入梯度提升决策树模型进行训练,根据训练结果构造决策树组,得到强分类器,梯度提升决策树模型训练的具体流程为:
Ⅰ.获取训练集T={(x1,y1),(x2,y2),…,(xp,yp)},迭代次数M和损失函数L(y,f(x))=log(1+exp(-yf(x))),根据获取信息,得到初始化的弱分类器,初始化弱分类器为:
f0(x)=argminc∑pi=1L(yi,c);
其中,i=1,2,…,p,表示训练样本对应的编号,p表示训练样本总量,xi表示编号为i的训练样本对应的特征向量,yi表示编号为i的训练样本对应的标签值,c=1/p*∑pi=1yp,表示使损失函数取值最小时对应的分类值,y表示输入的训练样本的标签值,f(x)表示分类器预测的输入训练样本的标签值;
Ⅱ.对m=1,2,…,M,执行以下步骤:
根据数学模型rim=[∂L(yi,f(xi))/∂f(xi)]f(x)=fm-1(x)对损失函数的近似残差rim进行计算,根据计算结果拟合一棵回归树,其中,m表示拟合的回归树对应的编号,f(xi)表示训练样本xi对应的特征向量输入分类器后得到的标签值,第m棵回归树的叶子节点域为Rjm;
对j=1,2,…,J,根据数学模型cjm=argminc∑xi∈RjmL(yi,fm-1(xi)+c)对最佳拟合值进行计算,其中,jm表示编号为m的回归树的叶节点数量,cjm表示编号为m的回归树对应的最佳拟合值;
根据数学模型fm(x)=fm-1(x)+∑J j=1cjmI,x∈Rjm对弱分类器进行更新,其中,当x∈Rjm时,I=1,当x∉Rjm时,I=0;
Ⅲ.得到最终强分类器^ f=fM(x)=f0(x)+∑Mm=1∑J j=1cjmI,x∈Rjm;
S1402:通过每一棵决策树构造新的特征向量,将新的特征向量进行重构,形成新特征供逻辑回归模型使用;
新特征向量的取值为0或1,新特征向量的每个元素对应于梯度提升决策树模型中树的叶子结点,若一个样本点通过某棵树最终落在这棵树的一个叶子结点上,则认为新特征向量中这个叶子结点对应的元素值为1,而这棵树的其他叶子结点对应的元素值为0,新特征向量的长度=梯度提升决策树模型里所有树包含的叶子结点数之和;
S1403:把新特征向量和原始特征输入逻辑回归模型中进行训练,输出一个0-1之间的概率值,输出的概率值为客户账户是否具有反非法资金转移行为的概率值,逻辑回归模型的具体公式为:
^ y=W0+W1q1+…+Wnqn;
其中,z=1,2,…,表示训练特征对应的编号,qz表示编号为z的训练特征对应的特征值,Wn表示编号为n的训练特征对应的权重参数值,^ y表示预测的客户账户是否具有反非法资金转移行为的概率值;
逻辑回归模型是在线性回归的基础上加上了映射到(0,1)上的Sigmoid 函数,并设定一个划分阈值,将大于阈值的分为一类,小于等于阈值的分为另一类,使得逻辑回归成为二分类算法,Sigmoid 函数的具体表达式为:g(^ y)=1/(1+e-^ y);
S1404:对反非法资金转移可疑监测模型进行调参。
进一步的,所述S1404对反非法资金转移可疑监测模型进行调参的具体方法为:
选择一个学习率,根据选择的反非法资金转移可疑监测模型的学习率,对迭代次数进行网格化调参,选择的学习率的范围为0.05-0.1;
对梯度提升决策树模型中的决策树的最大深度和叶子结点数进行调整,调整后,根据梯度提升决策树模型输出的最优值,对决策树的最大深度进行确定,根据确定结果对决策树的叶子结点数进行调整;
对最大特征数和子采样比例进行网格化,最大特征数指在每次迭代树上随机选择的特征子集;
通过减小学习率,增大迭代次数,增加反非法资金转移可疑监测模型的泛化能力,防止反非法资金转移可疑监测模型过拟合。
进一步的,所述S150对反非法资金转移可疑监测模型的性能进行评估的具体方法为:
对反非法资金转移可疑监测模型的预测精确率进行计算,具体的计算公式P为:
P=TP/(TP+FP);
对反非法资金转移可疑监测模型的召回率进行计算,具体的计算公式R为:
R=TP/(TP+FN);
其中,TP表示真实值是正例,且反非法资金转移可疑监测模型也认为是正例的数量,FP表示真实值是负例,但反非法资金转移可疑监测模型认为是正例的数量,FN表示真实值是正例,但反非法资金转移可疑监测模型认为是负例的数量,P表示反非法资金转移可疑监测模型的精确率,R表示反非法资金转移可疑监测模型的召回率;
通过F1-Score计算公式对反非法资金转移可疑监测模型的训练结果进行评价,具体的F1-Score计算公式为:
F1=2×(P×R)/(P+R);
其中,F1表示反非法资金转移可疑监测模型训练结果的评价值,F1-Score计算公式能够兼顾精确率和召回率,通过一个统一的单值评价指标来评价反非法资金转移监测模型的训练效果,进一步提高了评价结果的精确度。
与现有技术相比,本发明所达到的有益效果是:
1.本发明能够自动检测具有涉嫌非法资金转移行为迹象的可疑账户,便于反非法资金转移风险岗人员快速定位和排查可疑交易账户,减少模型开发的成本与提高账户可疑排查的效率。
2.本发明采用梯度提升决策树模型进行特征组合,减少开发人员做模型特征工程的工作量。
3.本发明使用机器学习模型能有效筛选出新的、未知的潜在的危险客户以及群体或优质客户,给金融机构带来极大的竞争优势。
4.本发明使用知识图谱技术构建客户账户画像,不仅能弥补传统用户画像方法在社会网络分析方面的不足,有效地提高了用户画像精准度,还能在可疑客户的基础上进一步识别欺诈群体,对反非法资金转移排查工作具有极其重要的实践意义。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明一种基于人工智能的账户安全排查管理方法的工作流程示意图;
图2是本发明一种基于人工智能的账户安全排查管理方法的模型训练执行流程图;
图3是本发明一种基于人工智能的账户安全排查管理方法的技术框架图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1、图2和图3,本发明提供技术方案:一种基于人工智能的账户安全排查管理方法,所述方法包括:
S10:对外部数据系统中的外部数据和银行业务系统中的内部数据进行获取,内部数据包括客户基础信息、客户账户信息、客户交易信息、客户行为特征和偏好、客户风险信息和客户社交信息,外部数据包括工商数据、司法数据和客户电话归属地信息;
S20:将外部数据系统和银行各业务系统与银行大数据平台ODS层进行链接,对S10中获取的外部数据和内部数据中的结构化数据和非结构化数据进行获取,将获取数据以表格形式整合汇聚到银行大数据平台ODS层;
S30:对银行大数据平台ODS层数据进行预处理,将非结构化数据转化为结构化数据,为后续数据仓库中二维表构建提供数据支撑;
S30对银行大数据平台ODS层数据进行预处理的具体方法为:
S301:查询银行大数据平台ODS层数据中多个表在加载或合并过程中是否会产生冗余数据,若产生,则将产生的冗余数据进行删除处理,以节省表格空间,进而提高数据的精确性和可靠性;
S302:对银行大数据平台ODS层数据中的关键信息进行提取,根据提取结果设计匹配的字段,并对字段进行存储;例如:通过某个客户对某种存款产品的评论采用分词技术、TF-IDF算法筛选出一些关键信息,从而判断此客户对这款产品的偏好;
S303:根据银行大数据平台ODS层数据的实际情况对表格中的异常数据进行识别,将识别的异常数据使用其他数据进行替代,对识别的异常数据进行删除或对识别的异常数据进行格式变换,其他数据指根据历史数据求取的平均值、中位数或众数,格式转换指基于历史数据格式对识别的异常数据格式进行转换;例如:将交易时间为:2023-04-23 08:00:00的样本数据删除;
S304:根据银行大数据平台ODS层数据的实际情况对表中的缺失数据进行填充处理,填充方法为:直接删除、线性插值法、中位数、平均数和众数填充;
S305:将表格中同一字段使用不同格式进行表示的数据转换成同种数据格式;例如:从不同表中合并的时间格式包括:1323308943,20111208,2011-12-08,应统一转换为2011-12-08的数据格式。
S40:将S30中预处理后的银行大数据平台ODS层数据作为数据仓库的源数据,基于账户主题对源数据中的数据进行筛选,根据筛选数据构建数据仓库,使客户基础数据、账户基本信息、交易数据、行为数据的口径和规范得到统一,数据仓库的相应表包括:客户基础信息表、账户信息表和账户交易流水表;
S50:基于S40中构建的数据仓库,对客户基本信息、账户信息、交易信息、行为特征和偏好、风险信息、社会关联信息、工商、司法、电话归属地数据进行获取,根据获取数据所属时间区域,对客户账户的长期指标和短期指标进行计算,根据计算结果最终形成账户数据集市,长期指标=客户账户开户后对应指标数据对应的所有历史数据的和值,短期指标=客户账户开户后N天内对应指标数据对应的所有历史数据的和值,N为正数;
例如:根据账户近1天的开户、交易、换绑卡和购买产品行为,对客户账户的短期指标进行计算;
根据客户账户开户后3天内的交易、换绑卡和购买产品交易行为,对客户账户的短期指标进行计算;
S60:基于S50中计算的长期指标和短期指标,采用知识图谱的自模式层向数据层的自上而下的构建方法,构建本行客户账户的关联知识图谱;
S60构建客户账户关联知识图谱的具体方法为:
S601:根据本行本地数据库中存在的关于客户账户的分类、结构层次以及客户账户之间的常见关联关系,对客户账户层面的本体和概念进行确定,基于确定结果,构建客户账户关联知识图谱的模式层;
S602:通过人为编写的aql脚本对外部数据系统和银行各业务系统中存在的异质数据进行统一处理获得“客户账户—关系—客户账户”类、“客户账户—属性—属性值”类和“关系—属性—属性值”类的三元组格式数据,三元组格式数据获取后,利用自然语言处理技术对客户账户数据进行实体匹配、实体消歧和实体统一,提高了数据信息的可靠性和有效性,实现不同来源的数据之间的深度融合,完成客户账户关联知识图谱数据层的构建;实体消歧通过身份证md5处理实现,身份证md5处理解决了本质不同的两个实体具有同一命名实体的实体消歧问题;实体统一通过孪生神经网络的实体对齐模型中的余弦相似度,对异名实体之间的相似度得分进行计算,根据相似度得分对异名实体的相似概率进行描述,若异名实体的相似概率>标准相似概率,则认为异名实体为同一实体,此时对异名实体进行融合,解决了实体统一问题;
三元组数据包括:“客户-配偶关联-客户”、“客户-换绑卡-换绑卡次数”和“交易-交易金额-交易金额数值”;
S603:将S602中处理后的三元组数据储存到图数据库Neo4j中,并定期更新,根据更新后的图数据库Neo4j中的数据和S601中构建的客户账户关联知识图谱的模式层构建客户账户关联知识图谱;
通过图数据库Neo4j其自身携带的Neo4j-import工具,编写shell脚本对三元组数据进行存储,实现了客户账户关联关系的可视化呈现,保证构建出的客户账户关联知识图谱中的模式层与数据层能够完整、清晰的传达信息,以及有效提高了客户账户关联知识图谱中的数据质量;构建的客户账户关联知识图谱不仅能够可视化查询不同客户账户之间的IP关联关系、设备关联关系、地区关联关系、交易关联关系、家庭关联关系等一系列关联关系,还可以支持关联关系的穿透式查询、潜在关联关系挖掘、智能关系推导等多种高阶应用,弥补了传统客户画像方法在社会网络分析方面的不足,shell脚本是一种计算机程序,旨在由Unixshell(一种命令行解释器)运行,Neo4j-import工具用于支持并行、可扩展的大规模csv数据导入。
S70:根据S50中计算的长期指标和短期指标、反非法资金转移专家规则以及S60中构建的客户账户知识图谱,为客户账户打上不同分类的标签,根据标签打上结果对客户账户长短期画像进行构造,反非法资金转移专家规则指人为制定的判断客户账户是否具有反非法资金转移可疑的规则,分类包括用户属性、用户行为、风险控制、社交属性和关系属性;
用户属性标签包括性别、年龄、地域、联系方式,身份、职业和薪资水平;
用户行为标签包括交易生命周期、购买定期产品信息和交易频率;
风险控制标签包括客户风险等级;
社交属性标签包括家庭成员、经常交易时间段和交易对手信息;
关系属性标签包括与该客户使用同一IP地址的客户及客户数、与该客户使用同一设备的客户及客户数、与该客户处于同一地区的客户及客户数、该客户的关联人和该客户的交易对手方;
S80:以S50中计算的长期指标和短期指标作为特征向量,根据特征向量和S70中根据S50中计算的长期指标和短期指标对客户账户打上的标签值,构造适用于机器学习模型训练、测试和预测的数据集,数据集的表达形式为:特征向量,标签值;
S90:根据S70中为客户账户打上的反非法资金转移可疑客户分类标签,划分正负样本,标签Y为1的样本为正样本,标签Y为0的样本为负样本,标签为1表示客户账户存在反非法资金转移可疑行为,标签为0表示客户账号不存在反非法资金转移可疑行为;
所述S90划分正负样本的具体方法为:
S901:将客户账户标签为1分的数据标记为正样本;
S902:将客户账户标签为0分的数据标记为负样本;
S903:使用sklearn中的过采样方法RandomOverSampler()来平衡正负样本数据量,sklearn是针对Python编程语言的免费软件机器学习库,RandomOverSampler()为过采样方法中使用的函数类型。
本发明中具有非法资金转移嫌疑的客户数占比很小,导致正负样本极度不平衡,因此本发明使用过采样方法平衡正负样本。
S100:将S80中构造的数据集按照8:1:1的比例,划分为模型数据的训练集、测试集和验证集,每一部分的数据集均需保持正负样本均衡;
S110:对训练集、测试集和验证集中的特征进行缺失值填充处理,标准化、归一化处理和类别型特征转化处理;
S110中对训练集、测试集和验证集中的特征进行缺失值填充处理,标准化、归一化处理和类别型特征转化处理的具体方法为:
S1101:根据训练集、测试集和验证集中的缺失值对应的历史数据和缺失值的特征,选择相匹配的填充方式对缺失值进行填充,例如:对于连续型特征如:总交易数量,总交易金额等填充为0;对于比例型特征如:转入交易和转出交易的总金额比率,使用均值进行填充;
S1102:使用max-min标准化方法,将不同维度之间的数值归一化到0-1之间,具体的归一化公式为:`u=(u-umin)/(umax-umin),其中,u表示原始数据,`u表示标准化处理后的数据,umin表示数据集中的最小值,umax表示数据集中的最大值,对特征进行归一化处理可以使不同维度之间的数值有一定的比较性,从而大大提高分类器的准确性;
S1103:将类别型特征数据转化为数值型特征数据,数值型特征数据包括字典映射、整数编码和独热编码;
例如:客户号为字符型特征数据,将其转化为数值型特征数据后,得到整数编码1,2,3…。
S120:通过皮尔逊相关系数对各个特征与标签值之间的相关性,以及各个特征之间的相关性进行计算,根据计算结果,对相关性高于设定值的特征进行保留;
只保留对模型预测有用的特征,一方面可以提高模型准确度,另一方面可以降维,降低模型复杂度,提高训练效率,皮尔逊相关系数衡量的是变量之间的线性相关性,结果的取值区间为[−1 ,1] ,-1表示完全的负相关,+1表示完全的正相关,0表示没有线性相关,使用皮尔逊相关系数做特征选择,选择效果更佳;
S130:在训练集、测试集和验证集中分别使用梯度提升决策树、支持向量机、逻辑回归、k近邻、随机森林模型进行训练和预测,最终根据训练和预测处理后的各模型对应的准确率、精确率、召回率或f1分值,选择使用梯度提升决策树模型和逻辑回归模型进行结合作为反非法资金转移可疑监测模型,梯度提升决策树模型是一种基于boosting集成学习思想的加法模型,它串行地训练一组分类回归树,最终对所有回归树的预测结果进行加和处理,得到一个强学习器,每一棵新树都拟合当前损失函数的负梯度方向;
S140:将S100中划分的数据集输入反非法资金转移可疑监测模型中进行训练,使用验证集进行调参;
S140中对反非法资金转移可疑监测模型进行训练和调参的具体方法为:
S1401:将S100中划分的训练数据集输入梯度提升决策树模型进行训练,根据训练结果构造决策树组,得到强分类器,梯度提升决策树模型训练的具体流程为:
Ⅰ.获取训练集T={(x1,y1),(x2,y2),…,(xp,yp)},迭代次数M和损失函数L(y,f(x))=log(1+exp(-yf(x))),根据获取信息,得到初始化的弱分类器,初始化弱分类器为:
f0(x)=argminc∑pi=1L(yi,c);
其中,i=1,2,…,p,表示训练样本对应的编号,p表示训练样本总量,xi表示编号为i的训练样本对应的特征向量,yi表示编号为i的训练样本对应的标签值,c=1/p*∑pi=1yp,表示使损失函数取值最小时对应的分类值,y表示输入的训练样本的标签值,f(x)表示分类器预测的输入训练样本的标签值;
Ⅱ.对m=1,2,…,M,执行以下步骤:
根据数学模型rim=[∂L(yi,f(xi))/∂f(xi)]f(x)=fm-1(x)对损失函数的近似残差rim进行计算,根据计算结果拟合一棵回归树,其中,m表示拟合的回归树对应的编号,f(xi)表示训练样本xi对应的特征向量输入分类器后得到的标签值,第m棵回归树的叶子节点域为Rjm;
对j=1,2,…,J,根据数学模型cjm=argminc∑xi∈RjmL(yi,fm-1(xi)+c)对最佳拟合值进行计算,其中,jm表示编号为m的回归树的叶节点数量,cjm表示编号为m的回归树对应的最佳拟合值;
根据数学模型fm(x)=fm-1(x)+∑J j=1cjmI,x∈Rjm对弱分类器进行更新,其中,当x∈Rjm时,I=1,当x∉Rjm时,I=0;
Ⅲ.得到最终强分类器^ f=fM(x)=f0(x)+∑Mm=1∑J j=1cjmI,x∈Rjm;
S1402:通过每一棵决策树构造新的特征向量,将新的特征向量进行重构,形成新特征供逻辑回归模型使用;
新特征向量的取值为0或1,新特征向量的每个元素对应于梯度提升决策树模型中树的叶子结点,若一个样本点通过某棵树最终落在这棵树的一个叶子结点上,则认为新特征向量中这个叶子结点对应的元素值为1,而这棵树的其他叶子结点对应的元素值为0,新特征向量的长度=梯度提升决策树模型里所有树包含的叶子结点数之和;
S1403:把新特征向量和原始特征输入逻辑回归模型中进行训练,输出一个0-1之间的概率值,输出的概率值为客户账户是否具有反非法资金转移行为的概率值,逻辑回归模型的具体公式为:
^ y=W0+W1q1+…+Wnqn;
其中,z=1,2,…,表示训练特征对应的编号,qz表示编号为z的训练特征对应的特征值,Wn表示编号为n的训练特征对应的权重参数值,^ y表示预测的客户账户是否具有反非法资金转移行为的概率值;
逻辑回归模型是在线性回归的基础上加上了映射到(0,1)上的Sigmoid 函数,并设定一个划分阈值,将大于阈值的分为一类,小于等于阈值的分为另一类,使得逻辑回归成为二分类算法,Sigmoid 函数的具体表达式为:g(^ y)=1/(1+e-^ y);
S1404:对反非法资金转移可疑监测模型进行调参,具体的调参方法为:
选择一个学习率,根据选择的反非法资金转移可疑监测模型的学习率,对迭代次数进行网格化调参,选择的学习率的范围为0.05-0.1;
对梯度提升决策树模型中的决策树的最大深度和叶子结点数进行调整,调整后,根据梯度提升决策树模型输出的最优值,对决策树的最大深度进行确定,根据确定结果对决策树的叶子结点数进行调整;
对最大特征数和子采样比例进行网格化,最大特征数指在每次迭代树上随机选择的特征子集;
通过减小学习率,增大迭代次数,增加反非法资金转移可疑监测模型的泛化能力,防止反非法资金转移可疑监测模型过拟合。
S150:使用评估指标精确率、召回率和F1-Score对反非法资金转移可疑监测模型的性能进行评估;
S150对反非法资金转移可疑监测模型的性能进行评估的具体方法为:
对反非法资金转移可疑监测模型的预测精确率进行计算,具体的计算公式P为:
P=TP/(TP+FP);
对反非法资金转移可疑监测模型的召回率进行计算,具体的计算公式R为:
R=TP/(TP+FN);
其中,TP表示真实值是正例,且反非法资金转移可疑监测模型也认为是正例的数量,FP表示真实值是负例,但反非法资金转移可疑监测模型认为是正例的数量,FN表示真实值是正例,但反非法资金转移可疑监测模型认为是负例的数量,P表示反非法资金转移可疑监测模型的精确率,R表示反非法资金转移可疑监测模型的召回率;
通过F1-Score计算公式对反非法资金转移可疑监测模型的训练结果进行评价,具体的F1-Score计算公式为:
F1=2×(P×R)/(P+R);
其中,F1表示反非法资金转移可疑监测模型训练结果的评价值,F1-Score计算公式能够兼顾精确率和召回率,通过一个统一的单值评价指标来评价反非法资金转移监测模型的训练效果,进一步提高了评价结果的精确度。
S160:使用Flask框架对反非法资金转移可疑监测模型进行部署,业务人员在网页输入账户的相关特征,根据输入反馈结果判断此账户是否为可疑账户,以及判断与此账户相关的其他账户是否为可疑账户;例如:业务人员在网页输入账户的交易数据,网页根据输入的交易数据自动构建客户账户长短期画像,以及对反非法资金转移可疑监测模型进行预测,sigmoid函数将预测值的范围限定在0到1之间,即反非法资金转移可疑监测模型预测值为客户账户的反非法资金转移可疑程度,之后调用客户账户知识图谱找出与上述可疑账户相关的其他账户;
S170:业务人员根据输入网页账户的实际交易行为对输入账户是否为反非法资金转移可疑账户进行分析,将分析结果与S160中输出的反非法资金转移可疑账户分类结果进行比较,若业务人员的分析结果与网页输出的分类结果相同,则无需人工对标签Y进行修订,反之,则人工对标签Y进行修订,根据修订结果,对客户账户长短期画像进行更新,以及对反非法资金转移可疑监测模型进行优化。
实施例1:反非法资金转移可疑监测模型的最终参数如表1所示:
参数 | 学习率 | 迭代次数 | 最大深度 | 叶子结点数 | 最大特征数 | 子采样比例 | 采样次数 | 早停轮数 |
参数值 | 0.01 | 100 | 4 | 32 | 0.7 | 0.7 | 5 | 100 |
表1反非法资金转移可疑监测模型参数展示
对于逻辑回归模型,利用L2正则化防止模拟过拟合,逻辑回归模型的最终参数如表2所示:
参数 | 惩罚项 | 正则化强度倒数 | 最大迭代次数 |
参数值 | L2 | 1 | 100 |
表2逻辑回归模型参数展示。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于人工智能的账户安全排查管理方法,其特征在于:所述方法包括:
S10:对外部数据系统中的外部数据和银行业务系统中的内部数据进行获取,内部数据包括客户基础信息、客户账户信息、客户交易信息、客户行为特征和偏好、客户风险信息和客户社交信息,外部数据包括工商数据、司法数据和客户电话归属地信息;
S20:将外部数据系统和银行各业务系统与银行大数据平台ODS层进行链接,对S10中获取的外部数据和内部数据中的结构化数据和非结构化数据进行获取,将获取的数据整合汇聚到银行大数据平台ODS层;
S30:对银行大数据平台ODS层数据进行预处理,将非结构化数据转化为结构化数据;
S40:将S30中预处理后的银行大数据平台ODS层数据作为数据仓库的源数据,基于账户主题对源数据中的数据进行筛选,根据筛选数据构建数据仓库,数据仓库的相应表包括:客户基础信息表、账户信息表和账户交易流水表;
S50:基于S40中构建的数据仓库,对客户基本信息、账户信息、交易信息、行为特征和偏好、风险信息、社会关联信息、工商、司法、电话归属地数据进行获取,根据获取数据所属时间区域,对客户账户的长期指标和短期指标进行计算,根据计算结果最终形成账户数据集市,长期指标=客户账户开户后对应指标数据对应的所有历史数据的和值,短期指标=客户账户开户后N天内对应指标数据对应的所有历史数据的和值,N为正数;
S60:基于S50中计算的长期指标和短期指标,采用知识图谱的自模式层向数据层的自上而下的构建方法,构建本行客户账户的关联知识图谱;
S70:根据S50中计算的长期指标和短期指标、反非法资金转移专家规则以及S60中构建的客户账户知识图谱,为客户账户打上不同分类的标签,根据标签打上结果对客户账户长短期画像进行构造;
S80:以S50中计算的长期指标和短期指标作为特征向量,根据特征向量和S70中根据S50中计算的长期指标和短期指标对客户账户打上的标签值,构造适用于机器学习模型训练、测试和预测的数据集,数据集的表达形式为:特征向量,标签值;
S90:根据S70中为客户账户打上的反非法资金转移可疑客户分类标签,划分正负样本,标签Y为1的样本为正样本,标签Y为0的样本为负样本,标签为1表示客户账户存在反非法资金转移可疑行为,标签为0表示客户账号不存在反非法资金转移可疑行为;
S100:将S80中构造的数据集按照8:1:1的比例,划分为模型数据的训练集、测试集和验证集,每一部分的数据集均需保持正负样本均衡;
S110:对训练集、测试集和验证集中的特征进行缺失值填充处理,标准化、归一化处理和类别型特征转化处理;
S120:通过皮尔逊相关系数对各个特征与标签值之间的相关性,以及各个特征之间的相关性进行计算,根据计算结果,对相关性高于设定值的特征进行保留;
S130:在训练集、测试集和验证集中分别使用梯度提升决策树、支持向量机、逻辑回归、k近邻、随机森林模型进行训练和预测,最终根据训练和预测处理后的各模型对应的准确率、精确率、召回率或f1分值,选择使用梯度提升决策树模型和逻辑回归模型进行结合作为反非法资金转移可疑监测模型;
S140:将S100中划分的数据集输入反非法资金转移可疑监测模型中进行训练,使用验证集进行调参;
S150:对S140调参后的结果使用评估指标精确率、召回率和F1-Score对反非法资金转移可疑监测模型的性能进行评估;
S160:使用Flask框架对反非法资金转移可疑监测模型进行部署,业务人员在网页输入账户的相关特征,网页对输入账户的反非法资金转移可疑分类结果进行输出;
S170:业务人员根据输入网页账户的实际交易行为对输入账户是否为反非法资金转移可疑账户进行分析,将分析结果与S160中输出的反非法资金转移可疑账户分类结果进行比较,若业务人员的分析结果与网页输出的分类结果相同,则无需人工对标签Y进行修订,反之,则人工对标签Y进行修订,根据修订结果,对客户账户长短期画像进行更新,以及对反非法资金转移可疑监测模型进行优化。
2.根据权利要求1所述的一种基于人工智能的账户安全排查管理方法,其特征在于:所述S30对银行大数据平台ODS层数据进行预处理的具体方法为:
S301:查询银行大数据平台ODS层数据中多个表在加载或合并过程中是否会产生冗余数据,若产生,则将产生的冗余数据进行删除处理;
S302:对银行大数据平台ODS层数据中的关键信息进行提取,根据提取结果设计匹配的字段,并对字段进行存储;
S303:根据银行大数据平台ODS层数据的实际情况对表格中的异常数据进行识别,将识别的异常数据使用其他数据进行替代,对识别的异常数据进行删除或对识别的异常数据进行格式变换;
S304:根据银行大数据平台ODS层数据的实际情况对表中的缺失数据进行填充处理;
S305:将表格中同一字段使用不同格式进行表示的数据转换成同种数据格式。
3.根据权利要求2所述的一种基于人工智能的账户安全排查管理方法,其特征在于:所述S60构建客户账户关联知识图谱的具体方法为:
S601:根据本行本地数据库中存在的关于客户账户的分类、结构层次以及客户账户之间的常见关联关系,对客户账户层面的本体和概念进行确定,基于确定结果,构建客户账户关联知识图谱的模式层;
S602:通过人为编写的aql脚本对外部数据系统和银行各业务系统中存在的异质数据进行统一处理获得“客户账户—关系—客户账户”类、“客户账户—属性—属性值”类和“关系—属性—属性值”类的三元组格式数据,三元组格式数据获取后,利用自然语言处理技术对客户账户数据进行实体匹配、实体消歧和实体统一,完成客户账户关联知识图谱数据层的构建;
S603:将S602中处理后的三元组数据储存到图数据库Neo4j中,并定期更新,根据更新后的图数据库Neo4j中的数据和S601中构建的客户账户关联知识图谱的模式层构建客户账户关联知识图谱。
4.根据权利要求3所述的一种基于人工智能的账户安全排查管理方法,其特征在于:所述S90划分正负样本的具体方法为:
S901:将客户账户标签为1分的数据标记为正样本;
S902:将客户账户标签为0分的数据标记为负样本;
S903:使用sklearn中的过采样方法RandomOverSampler()来平衡正负样本数据量。
5.根据权利要求4所述的一种基于人工智能的账户安全排查管理方法,其特征在于:所述S110中对训练集、测试集和验证集中的特征进行缺失值填充处理,标准化、归一化处理和类别型特征转化处理的具体方法为:
S1101:根据训练集、测试集和验证集中的缺失值对应的历史数据和缺失值的特征,选择相匹配的填充方式对缺失值进行填充;
S1102:使用max-min标准化方法,将不同维度之间的数值归一化到0-1之间,具体的归一化公式为:`u=(u-umin)/(umax-umin),其中,u表示原始数据,`u表示标准化处理后的数据,umin表示数据集中的最小值,umax表示数据集中的最大值;
S1103:将类别型特征数据转化为数值型特征数据,数值型特征数据包括字典映射、整数编码和独热编码。
6.根据权利要求5所述的一种基于人工智能的账户安全排查管理方法,其特征在于:所述S140中对反非法资金转移可疑监测模型进行训练和调参的具体方法为:
S1401:将S100中划分的训练数据集输入梯度提升决策树模型进行训练,根据训练结果构造决策树组,得到强分类器,梯度提升决策树模型训练的具体流程为:
Ⅰ.获取训练集T={(x1,y1),(x2,y2),…,(xp,yp)},迭代次数M和损失函数L(y,f(x))=log(1+exp(-yf(x))),根据获取信息,得到初始化的弱分类器,初始化弱分类器为:
f0(x)=argminc∑pi=1L(yi,c);
其中,i=1,2,…,p,表示训练样本对应的编号,p表示训练样本总量,xi表示编号为i的训练样本对应的特征向量,yi表示编号为i的训练样本对应的标签值,c=1/p*∑pi=1yp,表示使损失函数取值最小时对应的分类值,y表示输入的训练样本的标签值,f(x)表示分类器预测的输入训练样本的标签值;
Ⅱ.对m=1,2,…,M,执行以下步骤:
根据数学模型rim=[∂L(yi,f(xi))/∂f(xi)]f(x)=fm-1(x)对损失函数的近似残差rim进行计算,根据计算结果拟合一棵回归树,其中,m表示拟合的回归树对应的编号,f(xi)表示训练样本xi对应的特征向量输入分类器后得到的标签值,第m棵回归树的叶子节点域为Rjm;
对j=1,2,…,J,根据数学模型cjm=argmin c∑xi∈RjmL(yi,fm-1(xi)+c)对最佳拟合值进行计算,其中,jm表示编号为m的回归树的叶节点数量,cjm表示编号为m的回归树对应的最佳拟合值;
根据数学模型fm(x)=fm-1(x)+∑J j=1cjmI,x∈Rjm对弱分类器进行更新,其中,当x∈Rjm时,I=1,当x∉Rjm时,I=0;
Ⅲ.得到最终强分类器^ f=fM(x)=f0(x)+∑Mm=1∑J j=1cjmI,x∈Rjm;
S1402:通过每一棵决策树构造新的特征向量,将新的特征向量进行重构,形成新特征供逻辑回归模型使用;
新特征向量的取值为0或1,新特征向量的每个元素对应于梯度提升决策树模型中树的叶子结点,若一个样本点通过某棵树最终落在这棵树的一个叶子结点上,则认为新特征向量中这个叶子结点对应的元素值为1,而这棵树的其他叶子结点对应的元素值为0,新特征向量的长度=梯度提升决策树模型里所有树包含的叶子结点数之和;
S1403:把新特征和原始特征输入逻辑回归模型中进行训练,输出一个0-1之间的概率值,输出的概率值为客户账户是否具有反非法资金转移行为的概率值,逻辑回归模型的具体公式为:
^ y=W0+W1q1+…+Wzqz;
其中,z=1,2,…,表示训练特征对应的编号,qz表示编号为z的训练特征对应的特征值,Wn表示编号为n的训练特征对应的权重参数值,^ y表示预测的客户账户是否具有反非法资金转移行为的概率值;
逻辑回归模型是在线性回归的基础上加上了映射到(0,1)上的Sigmoid 函数,并设定一个划分阈值,将大于阈值的分为一类,小于等于阈值的分为另一类,使得逻辑回归成为二分类算法,Sigmoid 函数的具体表达式为:g(^ y)=1/(1+e-^ y);
S1404:对反非法资金转移可疑监测模型进行调参。
7.根据权利要求6所述的一种基于人工智能的账户安全排查管理方法,其特征在于:所述S1404对反非法资金转移可疑监测模型进行调参的具体方法为:
选择一个学习率,根据选择的反非法资金转移可疑监测模型的学习率,对迭代次数进行网格化调参,选择的学习率的范围为0.05-0.1;
对梯度提升决策树模型中的决策树的最大深度和叶子结点数进行调整,调整后,根据梯度提升决策树模型输出的最优值,对决策树的最大深度进行确定,根据确定结果对决策树的叶子结点数进行调整;
对最大特征数和子采样比例进行网格化,最大特征数指在每次迭代树上随机选择的特征子集。
8.根据权利要求7所述的一种基于人工智能的账户安全排查管理方法,其特征在于:所述S150对反非法资金转移可疑监测模型的性能进行评估的具体方法为:
对反非法资金转移可疑监测模型的预测精确率进行计算,具体的计算公式P为:
P=TP/(TP+FP);
对反非法资金转移可疑监测模型的召回率进行计算,具体的计算公式R为:
R=TP/(TP+FN);
其中,TP表示真实值是正例,且反非法资金转移可疑监测模型也认为是正例的数量,FP表示真实值是负例,但反非法资金转移可疑监测模型认为是正例的数量,FN表示真实值是正例,但反非法资金转移可疑监测模型认为是负例的数量,P表示反非法资金转移可疑监测模型的精确率,R表示反非法资金转移可疑监测模型的召回率;
通过F1-Score计算公式对反非法资金转移可疑监测模型的训练结果进行评价,具体的F1-Score计算公式为:
F1=2×(P×R)/(P+R);
其中,F1表示反非法资金转移可疑监测模型训练结果的评价值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310629777.3A CN116402512B (zh) | 2023-05-31 | 2023-05-31 | 一种基于人工智能的账户安全排查管理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310629777.3A CN116402512B (zh) | 2023-05-31 | 2023-05-31 | 一种基于人工智能的账户安全排查管理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116402512A true CN116402512A (zh) | 2023-07-07 |
CN116402512B CN116402512B (zh) | 2023-08-22 |
Family
ID=87008973
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310629777.3A Active CN116402512B (zh) | 2023-05-31 | 2023-05-31 | 一种基于人工智能的账户安全排查管理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116402512B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116913525A (zh) * | 2023-09-12 | 2023-10-20 | 北京万物成理科技有限公司 | 特征组归一化方法、装置、电子设备和存储介质 |
CN117114843A (zh) * | 2023-10-25 | 2023-11-24 | 浙江农商数字科技有限责任公司 | 一种银行数据质量管控的方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160086185A1 (en) * | 2014-10-15 | 2016-03-24 | Brighterion, Inc. | Method of alerting all financial channels about risk in real-time |
CN108376366A (zh) * | 2018-02-07 | 2018-08-07 | 平安科技(深圳)有限公司 | 一种反洗钱模型的运算方法、存储介质和服务器 |
CN110458376A (zh) * | 2018-05-07 | 2019-11-15 | 上海诺悦智能科技有限公司 | 一种可疑风险交易筛查方法与相应系统 |
CN111160745A (zh) * | 2019-12-23 | 2020-05-15 | 中国建设银行股份有限公司 | 用户账户数据的处理方法及装置 |
CN112132693A (zh) * | 2020-09-28 | 2020-12-25 | 平安养老保险股份有限公司 | 交易验证方法、装置、计算机设备与计算机可读存储介质 |
CN112200583A (zh) * | 2020-10-28 | 2021-01-08 | 交通银行股份有限公司 | 一种基于知识图谱的欺诈客户识别方法 |
US20220067752A1 (en) * | 2020-08-28 | 2022-03-03 | Anchain.ai Inc. | System and method for blockchain transaction risk management using machine learning |
CN114372810A (zh) * | 2021-12-17 | 2022-04-19 | 南京维数软件股份有限公司 | 一种配资人资金账户识别及资金交易关系网络分析方法 |
CN115630113A (zh) * | 2022-09-02 | 2023-01-20 | 中国银行股份有限公司 | 一种账户流水核对方法及装置 |
-
2023
- 2023-05-31 CN CN202310629777.3A patent/CN116402512B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160086185A1 (en) * | 2014-10-15 | 2016-03-24 | Brighterion, Inc. | Method of alerting all financial channels about risk in real-time |
CN108376366A (zh) * | 2018-02-07 | 2018-08-07 | 平安科技(深圳)有限公司 | 一种反洗钱模型的运算方法、存储介质和服务器 |
CN110458376A (zh) * | 2018-05-07 | 2019-11-15 | 上海诺悦智能科技有限公司 | 一种可疑风险交易筛查方法与相应系统 |
CN111160745A (zh) * | 2019-12-23 | 2020-05-15 | 中国建设银行股份有限公司 | 用户账户数据的处理方法及装置 |
US20220067752A1 (en) * | 2020-08-28 | 2022-03-03 | Anchain.ai Inc. | System and method for blockchain transaction risk management using machine learning |
CN112132693A (zh) * | 2020-09-28 | 2020-12-25 | 平安养老保险股份有限公司 | 交易验证方法、装置、计算机设备与计算机可读存储介质 |
CN112200583A (zh) * | 2020-10-28 | 2021-01-08 | 交通银行股份有限公司 | 一种基于知识图谱的欺诈客户识别方法 |
CN114372810A (zh) * | 2021-12-17 | 2022-04-19 | 南京维数软件股份有限公司 | 一种配资人资金账户识别及资金交易关系网络分析方法 |
CN115630113A (zh) * | 2022-09-02 | 2023-01-20 | 中国银行股份有限公司 | 一种账户流水核对方法及装置 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116913525A (zh) * | 2023-09-12 | 2023-10-20 | 北京万物成理科技有限公司 | 特征组归一化方法、装置、电子设备和存储介质 |
CN116913525B (zh) * | 2023-09-12 | 2024-02-06 | 北京万物成理科技有限公司 | 特征组归一化方法、装置、电子设备和存储介质 |
CN117114843A (zh) * | 2023-10-25 | 2023-11-24 | 浙江农商数字科技有限责任公司 | 一种银行数据质量管控的方法 |
CN117114843B (zh) * | 2023-10-25 | 2024-02-23 | 浙江农商数字科技有限责任公司 | 一种银行数据质量管控的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116402512B (zh) | 2023-08-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3985578A1 (en) | Method and system for automatically training machine learning model | |
CN110889556B (zh) | 一种企业经营风险特征数据信息提取方法和提取系统 | |
CN110223168B (zh) | 一种基于企业关系图谱的标签传播反欺诈检测方法及系统 | |
CN109918511B (zh) | 一种基于bfs和lpa的知识图谱反欺诈特征提取方法 | |
CN110188198B (zh) | 一种基于知识图谱的反欺诈方法及装置 | |
CN116402512B (zh) | 一种基于人工智能的账户安全排查管理方法 | |
CN110704572A (zh) | 疑似非法集资风险的预警方法、装置、设备和存储介质 | |
CN113344700B (zh) | 一种基于多目标优化的风控模型构建方法、装置和电子设备 | |
Voican | Credit Card Fraud Detection using Deep Learning Techniques. | |
CN112927082A (zh) | 信用风险的预测方法、装置、设备、介质和程序产品 | |
CN112016313A (zh) | 口语化要素识别方法及装置、警情分析系统 | |
CN110866832A (zh) | 一种风险控制方法、系统、存储介质及计算设备 | |
CN112241805A (zh) | 使用历史检验数据进行缺陷预测 | |
Sun et al. | Design of macroeconomic growth prediction algorithm based on data mining | |
CN115545886A (zh) | 逾期风险识别方法、装置、设备及存储介质 | |
Han et al. | Semi-supervised clustering for financial risk analysis | |
CN117235811A (zh) | 基于互联网金融的支付大数据分析方法及大数据分析系统 | |
CN112950359B (zh) | 一种用户识别方法和装置 | |
Mohammadi et al. | Hierarchical neural regression models for customer churn prediction | |
Feng | Data Analysis and Prediction Modeling Based on Deep Learning in E‐Commerce | |
Li et al. | An improved genetic-XGBoost classifier for customer consumption behavior prediction | |
CN107424026A (zh) | 商家信誉评价方法和装置 | |
CN115496571A (zh) | 一种基于介科学的可解释性发票虚开检测方法 | |
WO2022143431A1 (zh) | 一种反洗钱模型的训练方法及装置 | |
CN115358878A (zh) | 理财用户风险偏好等级分析方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |