CN117974297A - 一种业务处理方法、装置、电子设备及计算机可读介质 - Google Patents
一种业务处理方法、装置、电子设备及计算机可读介质 Download PDFInfo
- Publication number
- CN117974297A CN117974297A CN202410209970.6A CN202410209970A CN117974297A CN 117974297 A CN117974297 A CN 117974297A CN 202410209970 A CN202410209970 A CN 202410209970A CN 117974297 A CN117974297 A CN 117974297A
- Authority
- CN
- China
- Prior art keywords
- data
- user
- feature
- behavior data
- type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title abstract description 28
- 230000002159 abnormal effect Effects 0.000 claims abstract description 80
- 238000000034 method Methods 0.000 claims abstract description 43
- 238000012545 processing Methods 0.000 claims abstract description 25
- 238000009795 derivation Methods 0.000 claims abstract description 24
- 230000008569 process Effects 0.000 claims abstract description 24
- 230000004044 response Effects 0.000 claims abstract description 21
- 238000003066 decision tree Methods 0.000 claims abstract description 15
- 238000012216 screening Methods 0.000 claims description 30
- 238000012549 training Methods 0.000 claims description 24
- 238000001212 derivatisation Methods 0.000 claims description 23
- 238000003062 neural network model Methods 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 16
- 230000002776 aggregation Effects 0.000 claims description 10
- 238000004220 aggregation Methods 0.000 claims description 10
- 230000005540 biological transmission Effects 0.000 claims description 10
- 230000008859 change Effects 0.000 claims description 9
- 230000035755 proliferation Effects 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 7
- 238000011835 investigation Methods 0.000 claims description 6
- 230000005856 abnormality Effects 0.000 claims description 5
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 5
- 230000006399 behavior Effects 0.000 description 107
- 238000010586 diagram Methods 0.000 description 14
- 238000012360 testing method Methods 0.000 description 10
- 238000012546 transfer Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 230000000977 initiatory effect Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 239000012141 concentrate Substances 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000004069 differentiation Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000002547 anomalous effect Effects 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011981 development test Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Strategic Management (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- General Engineering & Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Artificial Intelligence (AREA)
- Development Economics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Quality & Reliability (AREA)
- Educational Administration (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Tourism & Hospitality (AREA)
- Technology Law (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种业务处理方法、装置、电子设备及计算机可读介质,涉及大数据技术领域,该方法包括:响应于款项申请请求,获取用户标识和款项申请时点;基于款项申请请求中的业务标识,从历史异常用户画像中提取用户标识对应的预设维度,获取用户标识对应的预设维度的用户行为数据,其中,用户行为数据产生于款项申请时点之前;提取用户行为数据中的字段名称,以确定用户行为数据的数据类型,进而执行特征衍生进程,得到衍生特征数据;调用预测模型,以计算衍生特征数据经过预测模型中的决策树得到的预测分数;响应于预测分数大于预设阈值,基于用户标识生成异常提示信息,并拦截款项申请请求。从而提高对异常用户进行识别的效率和准确率。
Description
技术领域
本申请涉及大数据技术领域,尤其涉及一种业务处理方法、装置、电子设备及计算机可读介质。
背景技术
零售款项是指商业银行以个人为对象发放的款项,包括对消费者个人发放的、用于购买耐用消费品或支付各种费用的消费款项;向个人(不包括经纪人和证券交易商在内)发放购买或储存证券款项;为消费者个人提供的用于购买住宅等不动产的不动产款项。零售款项一般采用抵押款项方式。零售款项业务的标准化和线上化,容易发生中介介入的情形,中介会根据款项条件包装为正常款项的用户,由此增加了利用零售款项实现欺诈的风险。现有技术对中介用户(或称为异常用户)进行识别的效率和准确率低。
发明内容
有鉴于此,本申请实施例提供一种业务处理方法、装置、电子设备及计算机可读介质,能够解决现有的对异常用户进行识别的效率和准确率低的问题。
为实现上述目的,根据本申请实施例的一个方面,提供了一种业务处理方法,包括:
响应于款项申请请求,获取对应的用户标识和款项申请时点;
基于款项申请请求中的业务标识,调用对应的历史异常用户画像,从历史异常用户画像中提取用户标识对应的预设维度,获取用户标识对应的预设维度的用户行为数据,其中,用户行为数据产生于款项申请时点之前;
提取用户行为数据中的字段名称,基于字段名称确定用户行为数据的数据类型,进而根据数据类型,执行特征衍生进程,以得到衍生特征数据;
调用预测模型,以计算衍生特征数据经过预测模型中的决策树得到的预测分数;
响应于预测分数大于预设阈值,基于用户标识生成异常提示信息,并拦截款项申请请求。
可选地,获取用户标识对应的预设维度的用户行为数据,包括:
获取用户标识对应的在款项申请时点之前的款项集中流向数据、集中还款数据、工商行为特征数据、款项申请行为数据、数据激增行为数据、征信行为数据和埋点点击行为数据。
可选地,得到衍生特征数据,包括:
基于数据类型,确定对应的衍生方式;
基于衍生方式,执行对应的特征衍生进程,以得到衍生特征数据。
可选地,数据类型,包括:数值型、分类型和流水型;以及
基于数据类型,确定对应的衍生方式,包括:
响应于数据类型为分类型,确定对应的衍生方式为对出现频率小于预设阈值的类型进行合并;
响应于数据类型为流水型,确定对应的衍生方式为划分不同的时间窗口,进而计算各时间窗口内的统计变量。
可选地,计算各时间窗口内的统计变量,包括:
对于数值型字段计算求和、均值、分位数、最小值、最大值、标准差和变异系数;
对于分类型变量计算各类型的出现次数和出现类型的种类。
可选地,在调用预测模型之前,业务处理方法还包括:
获取样本用户行为数据和样本异常标签;
对样本用户行为数据基于透传、统计聚合和交叉衍生的方式进行特征衍生,以得到样本衍生特征数据;
基于有效性和稳定性对样本衍生特征数据进行特征筛选,以得到筛选特征;
将筛选特征作为初始神经网络模型的输入,将样本异常标签作为初始神经网络模型的期望输出,对初始神经网络模型进行训练,以得到预测模型。
可选地,业务处理方法还包括:
响应于预测分数小于或等于预设阈值,将对应的用户标识导入目标平台进行精准业务推送。
另外,本申请还提供了一种业务处理装置,包括:
第一获取单元,被配置成响应于款项申请请求,获取对应的用户标识和款项申请时点;
第二获取单元,被配置成基于款项申请请求中的业务标识,调用对应的历史异常用户画像,从历史异常用户画像中提取用户标识对应的预设维度,获取用户标识对应的预设维度的用户行为数据,其中,用户行为数据产生于款项申请时点之前;
特征衍生单元,被配置成提取用户行为数据中的字段名称,基于字段名称确定用户行为数据的数据类型,进而根据数据类型,执行特征衍生进程,以得到衍生特征数据;
预测单元,被配置成调用预测模型,以计算衍生特征数据经过预测模型中的决策树得到的预测分数;
异常提示单元,被配置成响应于预测分数大于预设阈值,基于用户标识生成异常提示信息,并拦截款项申请请求。
可选地,第二获取单元进一步被配置成:
获取用户标识对应的在款项申请时点之前的款项集中流向数据、集中还款数据、工商行为特征数据、款项申请行为数据、数据激增行为数据、征信行为数据和埋点点击行为数据。
可选地,特征衍生单元进一步被配置成:
基于数据类型,确定对应的衍生方式;
基于衍生方式,执行对应的特征衍生进程,以得到衍生特征数据。
可选地,数据类型,包括:数值型、分类型和流水型;以及
特征衍生单元进一步被配置成:
响应于数据类型为分类型,确定对应的衍生方式为对出现频率小于预设阈值的类型进行合并;
响应于数据类型为流水型,确定对应的衍生方式为划分不同的时间窗口,进而计算各时间窗口内的统计变量。
可选地,特征衍生单元进一步被配置成:
对于数值型字段计算求和、均值、分位数、最小值、最大值、标准差和变异系数;
对于分类型变量计算各类型的出现次数和出现类型的种类。
可选地,业务处理装置还包括模型训练单元,被配置成:
获取样本用户行为数据和样本异常标签;
对样本用户行为数据基于透传、统计聚合和交叉衍生的方式进行特征衍生,以得到样本衍生特征数据;
基于有效性和稳定性对样本衍生特征数据进行特征筛选,以得到筛选特征;
将筛选特征作为初始神经网络模型的输入,将样本异常标签作为初始神经网络模型的期望输出,对初始神经网络模型进行训练,以得到预测模型。
可选地,业务处理装置还包括推送单元,被配置成:
响应于预测分数小于或等于预设阈值,将对应的用户标识导入目标平台进行精准业务推送。
另外,本申请还提供了一种业务处理电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上述的业务处理方法。
另外,本申请还提供了一种计算机可读介质,其上存储有计算机程序,程序被处理器执行时实现如上述的业务处理方法。
为实现上述目的,根据本申请实施例的又一个方面,提供了一种计算机程序产品。
本申请实施例的一种计算机程序产品,包括计算机程序,程序被处理器执行时实现本申请实施例提供的业务处理方法。
上述发明中的一个实施例具有如下优点或有益效果:本申请通过响应于款项申请请求,获取对应的用户标识和款项申请时点;基于款项申请请求中的业务标识,调用对应的历史异常用户画像,从历史异常用户画像中提取用户标识对应的预设维度,获取用户标识对应的预设维度的用户行为数据,其中,用户行为数据产生于款项申请时点之前;提取用户行为数据中的字段名称,基于字段名称确定用户行为数据的数据类型,进而根据数据类型,执行特征衍生进程,以得到衍生特征数据;调用预测模型,以计算衍生特征数据经过预测模型中的决策树得到的预测分数;响应于预测分数大于预设阈值,基于用户标识生成异常提示信息,并拦截款项申请请求。从而提高对异常用户进行识别的效率和准确率。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本申请,不构成对本申请的不当限定。其中:
图1是根据本申请一个实施例的业务处理方法的主要流程的示意图;
图2是根据本申请一个实施例的业务处理方法的主要流程的示意图;
图3是根据本申请一个实施例的业务处理方法的主要流程示意图;
图4是根据本申请一个实施例的业务处理方法的训练得到预测模型的主要流程示意图;
图5是根据本申请实施例的业务处理装置的主要单元的示意图;
图6是本申请实施例可以应用于其中的示例性系统架构图;
图7是适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。需要说明的是,本申请的技术方案中,所涉及的用户个人信息的采集、分析、使用、传输、存储等方面,均符合相关法律法规的规定,被用于合法且合理的用途,不在这些合法使用等方面之外共享、泄露或出售,并且接受监管部门的监督管理。应当对用户个人信息采取必要措施,以防止对此类个人信息数据的非法访问,确保有权访问个人信息数据的人员遵守相关法律法规的规定,确保用户个人信息安全。一旦不再需要这些用户个人信息数据,应当通过限制甚至禁止数据收集和/或删除数据的方式将风险降至最低。
当使用时,包括在某些相关应用程序中,通过对数据去标识来保护用户隐私,例如在使用时通过移除特定标识符、控制所存储数据的量或特异性、控制数据如何被存储、和/或其他方法去标识。
图1是根据本申请一个实施例的业务处理方法的主要流程的示意图,如图1所示,业务处理方法包括:
步骤S101,响应于款项申请请求,获取对应的用户标识和款项申请时点。
本申请实施例中的款项,可以是一类资金的总称,为作为支付手段的货币资金,主要包括现金、银行存款以及其他视同现金和银行存款的银行汇票存款、银行本票存款、信用卡存款、信用证保证金存款、外埠存款和存出投资款等。
本实施例中,业务处理方法的执行主体(例如,可以是服务器)可以通过有线连接或无线连接的方式,接收款项申请请求。执行主体在接收到款项申请请求后,可以获取该请求对应的用户标识和款项申请时点。
用户标识可以是发起款项申请请求的用户的编号或者名称等。款项申请时点可以是发起款项申请请求时的时间点。
步骤S102,基于款项申请请求中的业务标识,调用对应的历史异常用户画像,从历史异常用户画像中提取用户标识对应的预设维度,获取用户标识对应的预设维度的用户行为数据,其中,用户行为数据产生于款项申请时点之前。
通过历史异常用户画像提取的预设维度,可以准确获取与款项申请请求相关的用户行为数据,为准确判定用户是否为异常用户提供有效依据。
具体地,获取用户标识对应的预设维度的用户行为数据,包括:获取用户标识对应的在款项申请时点之前的款项集中流向数据、集中还款数据、工商行为特征数据、款项申请行为数据、数据激增行为数据、征信行为数据和埋点点击行为数据。
通过获取产生于款项申请时点之前的用户行为数据,可以为后续的用户是否是异常用户提供判定依据,可以准确捕捉异常用户行为并发出异常提示信息,保障业务处理的安全性和合理性。
示例的,款项集中流向数据:款项支用后3天内集中(至少3个用户)流向同一对象,流向金额>5000元且小于支用金额;集中还款数据:款项还款日前3天内由同一对象集中(至少向3个用户转入)转入资金,转入金额为还款金额的95%~105%;工商行为特征数据:工商变更、工商异常等行为特征数据;款项申请行为数据:一个企业关联不同的实控人多次申请、一个实控人关联不同的企业多次申请;数据激增行为数据:款项申请前AUM(银行个人AUM是指银行管理的个人用户资产总额)激增、贷方结算额激增、纳税额激增等行为数据;征信行为数据:款项申请前多次查询征信、在不同的金融机构款项的行为数据;埋点点击行为数据:款项申请时各页面停留时长、申请时设备id、GPS位置、IP地址等聚集行为的数据。
步骤S103,提取用户行为数据中的字段名称,基于字段名称确定用户行为数据的数据类型,进而根据数据类型,执行特征衍生进程,以得到衍生特征数据。
用户行为数据中的字段名称,例如可以是年龄、学历等,也可以是学生专业、公司类型、职业等,也可以是住宅地址、职业信息等,本申请实施例对字段名称不做具体限定。具体地,执行主体可以根据字段名称确定对应的数据类型,例如年龄、学历对应的数据类型可以是数值类型,学生专业、公司类型、职业对应的数据类型可以是分类型,住宅地址、职业信息对应的数据类型可以是流水型。
执行主体可以根据数据类型匹配对应的特征衍生逻辑,基于对应的特征衍生逻辑执行特征衍生进程,得到衍生特征数据。
具体地,执行主体在根据数据类型匹配对应的特征衍生逻辑时,可以通过如下的方式实现:调用特征衍生逻辑池,以将数据类型对应的数据类型标识与特征衍生逻辑池中的各个特征衍生逻辑的编号进行一致性校验,将校验通过时对应的编号对应的特征衍生逻辑确定为与数据类型匹配的特征衍生逻辑。
作为另一实现方式,当特征衍生逻辑池中不存在与数据类型匹配的特征衍生逻辑时,执行主体可以根据确定出的数据类型从特征衍生逻辑池中的各个特征衍生逻辑中抽取与确定出的数据类型相匹配的逻辑单元,进而组装成与该数据类型对应的特征衍生逻辑。具体地,执行主体根据确定出的数据类型从特征衍生逻辑池中的各个特征衍生逻辑中抽取与确定出的数据类型相匹配的逻辑单元,可以是将确定出的数据类型进行拆解,例如当数据类型是分类型和流水型的混合类型时,将数据类型进行拆解后可以得到分类型和流水型的数据类型,进而执行主体可以从特征衍生逻辑池中抽取与分类型和流水型相对应的特征衍生逻辑并组装,以得到与确定出的数据类型对应的特征衍生逻辑。
在本申请的一些实施例中,得到衍生特征数据,还可以通过以下方式实现:基于预设维度对用户行为数据进行聚类,以得到各个聚类簇和各个聚类簇对应的聚类类型;确定各个聚类类型与款项申请相关的扩展维度,以各个聚类簇中的数据为基础,基于对应的扩展维度进行数据衍生,以得到衍生特征数据。其中,预设维度即为用户行为数据中存在的维度。扩展维度可以是获取的用户行为数据中不存在的、但是与款项申请相关的维度。从而丰富了用户行为数据,使得对异常用户的判定更准确。
步骤S104,调用预测模型,以计算衍生特征数据经过预测模型中的决策树得到的预测分数。
具体地,在调用预测模型之前,业务处理方法还包括:获取样本用户行为数据和样本异常标签;对样本用户行为数据基于透传、统计聚合和交叉衍生的方式进行特征衍生,以得到样本衍生特征数据;基于有效性和稳定性对样本衍生特征数据进行特征筛选,以得到筛选特征;将筛选特征作为初始神经网络模型的输入,将样本异常标签作为初始神经网络模型的期望输出,对初始神经网络模型进行训练,以得到预测模型。
预测模型为基于用户在款项机构内的多维度数据,利用机器学习算法构建的预测模型,并在款项申请时点,基于模型结果预测该用户为中介用户的可能性。对于可能性较高的用户,将该用户在准入阶段进行拦截。
示例的,如图4所示,预测模型的训练过程可以为:
获取样本用户行为数据和样本异常标签。其中,对样本异常标签的定义可以如下所示:
通过y标签中的y的值来标记样本异常标签,示例如下:y标签定义(完全基于数据维度):预测模型作为分类模型,核心在于目标y的定义。y=1表示中介用户,y=0表示非中介用户。从数据维度具体定义为:中介用户(y=1):集中流向:款项支用后3天内集中(至少3个用户)流向同一对象,流向金额>5000元且小于支用金额;集中还款:款项还款日前3天内由同一对象集中(至少向3个用户转入)转入资金,转入金额为还款金额的95%~105%;同一对象下款项不良率>10%。非中介用户(y=0):y不等于1且同时排除灰度用户,灰度用户为:集中流向:款项支用后3天内集中(至少2个用户)流向同一对象,流向金额>5000元且小于支用金额;集中还款:款项还款日前3天内由同一对象集中(至少向2个用户转入)转入资金,转入金额为还款金额的95%~105%;同一对象下款项不良率<10%。
样本筛选:筛选有明确y表现的样本用户,具体筛选方法如下:筛选y=1或y=0的用户,排除灰度样本;筛选有款项支用行为的样本;筛选款项已到期的样本,最终筛选得到样本用户行为数据。
样本设计:将每笔款项作为一个样本,以款项申请时点作为观察时点,按9:1比例抽取正负样本用户作为模型训练测试样本(其中训练集和测试集按7:3切分)。同时为验证模型效果,按距离最近的观察时点抽取验证样本。
对样本用户行为数据基于透传、统计聚合和交叉衍生的方式进行特征衍生,以得到样本衍生特征数据,具体地:
特征工程(即用户行为特征):侧重于中介用户表象特征的衍生,维度包含以下方面:工商行为特征:工商变更、工商异常等行为;款项申请行为:一个企业关联不同的实控人多次申请、一个实控人关联不同的企业多次申请;数据激增行为:款项申请前AUM(银行个人AUM是指银行管理的个人用户资产总额)激增、贷方结算额激增、纳税额激增等;征信行为:款项申请前多次查询征信、在不同的金融机构款项;埋点点击行为:款项申请时各页面停留时长、申请时设备id、GPS位置、IP地址等聚集。对于所有类型的原始行为数据,都会筛选出发生于观察时点前的行为数据以作为样本用户行为数据,然后用以下几种方法(透传、统计聚合、交叉衍生)进行特征衍生:示例的,透传:对于数值类型的字段,并且每一个样本只有单一条记录时,比如年龄、学历等无需对该特征进行多值聚合,可以直接透传作为入模特征。对于分类型变量,通常会对不常见类型进行类型合并,如学生专业、公司类型、职业等,然后再透传。统计聚合:对于AUM、交易信息、代发记录等特征,每个人都可能有多条不同时间发生的流水记录。还有人行款项明细、人行的住宅地址、职业信息、公积金信息等数据,都可以看作是流水型数据。对于这类流水特征,通常会划分不同的时间窗口计算各窗口内的统计变量,如对于数值型字段计算求和、均值、分位数、最小值、最大值、标准差、变异系数等。对于分类型变量计算主要类型的出现次数、出现类型的种类。交叉衍生:可以将两个衍生特征进行交叉运算,得到一个新的特征,比如计算近6个月AUM环比增长月份数/AUM月份数。
基于有效性和稳定性对样本衍生特征数据进行特征筛选,以得到筛选特征,具体地:
特征筛选:针对所有衍生特征,在不分客群的全量样本(开发训练集+开发测试集)上进行特征覆盖率及信息价值(Information Value,IV)计算,用以评估特征对预测目标的有效性;并在分客群的开发训练集与开发测试集之间计算特征的特征稳定性指标(Population Stability Index,PSI),用于评估特征的稳定性,其中IV(用于评估有效性)、PSI(用于评估稳定性)解读如下:
IV:小于0.02:几乎没有区分力;0.02~0.1:区分力较弱;0.1~0.3:中等区分力;大于0.3:强区分力。
PSI:小于0.1:分布变化不大;0.1~0.25:分布有较小变化;大于0.25:分布有较大变化。
衍生特征的覆盖度IV差异很大。对于覆盖度特别低的特征,即使IV数值很高,也很难确定是否偶然,其泛化能力会受到限制;PSI较高的特征在训练与测试集上的分布差距很大,说明其分布不够稳定,很难用这些特征构建泛化能力好的稳定模型;IV数值过低意味着特征与预测目标的关联度很低,放入模型中只会增加复杂度与噪音。需要根据这些指标,对特征进行初步筛选后进行建模。
将筛选特征作为初始神经网络模型的输入,将样本异常标签作为初始神经网络模型的期望输出,对初始神经网络模型进行训练,以得到预测模型,具体地:
模型构建:利用筛选后的特征构建预测模型,并根据预测模型使用特征权重,删除没有进入模型、模型权重低以及不能解释的特征,重新迭代建模。模型算法选择:机器学习模型算法选用lightGBM,学习到不同用户群特征的特点和差异,对异常用户(例如中介用户)做出更精准的判断。模型评价及调参:模型评价的指标有Gini和KS,是衡量模型区分度的指标,对于区分度指标不好的模型,可通过调参进行优化。调参可以使用训练数据,不使用测试数据。模型验证:1)模型稳定性验证。通过PSI来衡量,把测试集和训练集按分数化成成1至20组,划分可以按着等分数段进行,也可以等分位数(即每组样本占比相同)进行。计算表示每组训练样本占总训练样本的比例,表示每组测试样本占总测试样本的比例,最后加总ln(训练%/测试%)*(训练%-测试%)。模型业务效果评估:在模型完成之后,基于建模数据,在评分下设置界限cut-off,使得界限cut-off之上用户群被判定为异常用户。模型评分:基于构建的预测模型,批量筛选发起款项申请请求的用户,得到每个用户的模型得分(即预测分数),以基于每个用户的模型得分(即预测分数)对相应用户是否为异常用户进行精准判定,并对判定出的异常用户进行异常提示。模型筛选和用户推送:将不是异常用户的用户导入推送平台进行精准推送。
具体地,业务处理方法还包括:响应于预测分数小于或等于预设阈值,将对应的用户标识导入目标平台进行精准业务推送。
预测模型的预测分数表明对应的用户是异常用户的可能性,预测分数越大,用户是异常用户的可能性越大。预测模型的预测分数小于或等于预设阈值,表明对应的用户不是异常用户。
训练后得到的预测模型可以高效准确地区分出哪些是异常用户(即中介用户),保障业务处理的安全性。
步骤S105,响应于预测分数大于预设阈值,基于用户标识生成异常提示信息,并拦截款项申请请求。
预测模型的预测分数表明对应的用户是异常用户的可能性,预测分数越大,用户是异常用户的可能性越大。预测模型的预测分数大于预设阈值,表明对应的用户是异常用户,例如可能是中介用户,则执行主体可以基于发起款项申请请求的用户的用户标识生成异常提示信息,并拦截该用户发起的款项申请请求,以保障款项业务处理的安全性。
本实施例通过响应于款项申请请求,获取对应的用户标识和款项申请时点;基于款项申请请求中的业务标识,调用对应的历史异常用户画像,从历史异常用户画像中提取用户标识对应的预设维度,获取用户标识对应的预设维度的用户行为数据,其中,用户行为数据产生于款项申请时点之前;提取用户行为数据中的字段名称,基于字段名称确定用户行为数据的数据类型,进而根据数据类型,执行特征衍生进程,以得到衍生特征数据;调用预测模型,以计算衍生特征数据经过预测模型中的决策树得到的预测分数;响应于预测分数大于预设阈值,基于用户标识生成异常提示信息,并拦截款项申请请求。从而提高对异常用户进行识别的效率和准确率。
图2是根据本申请一个实施例的业务处理方法的主要流程示意图,如图2所示,业务处理方法包括:
步骤S201,响应于款项申请请求,获取对应的用户标识和款项申请时点。
用户标识可以是款项申请请求对应的用户的昵称、编号或者用户名等,本申请实施例对用户标识不做具体限定。款项申请时点,可以是用户发起款项申请请求的时间点。
步骤S202,基于款项申请请求中的业务标识,调用对应的历史异常用户画像,从历史异常用户画像中提取用户标识对应的预设维度,获取用户标识对应的预设维度的用户行为数据,其中,用户行为数据产生于款项申请时点之前。
用户标识对应的预设维度的用户行为数据,可以为在发起款项申请请求之前的同一用户的与款项相关的历史用户行为数据,例如,页面浏览数据、贷后行为数据、贷后消费凭证上传数据等,本申请实施例对用户行为数据不做具体限定。
步骤S203,提取用户行为数据中的字段名称,基于字段名称确定用户行为数据的数据类型。
执行主体可以调用预设的字段名称列表,进而从用户行为数据中识别存在于字段名称列表中的字段名称。执行主体可以基于识别得到的字段名称确定用户行为数据的数据类型。具体地,数据类型可以包括数值型数据、分类型数据、流水型数据和图像数据。
步骤S204,基于数据类型,确定对应的衍生方式。
当数据类型为图像数据时,执行主体可以确定对应的衍生方式为多方位扩展图像。例如当图像数据为主视图时,对应的衍生方式可以为基于主视图衍生俯视图、仰视图、左视图、右视图、后视图。
步骤S205,基于衍生方式,执行对应的特征衍生进程,以得到衍生特征数据。
执行主体可以根据确定出的衍生方式,例如基于主视图衍生俯视图、仰视图、左视图、右视图、后视图,调用智能绘图工具以根据主视图以及对用户行为数据中对图像数据的相关描述预测并绘制出与主视图相对应的俯视图、仰视图、左视图、右视图、后视图,以作为衍生特征数据。
步骤S206,调用预测模型,以计算衍生特征数据经过预测模型中的决策树得到的预测分数。
将衍生特征数据输入至预测模型,以使得预测模型的决策树基于输入的衍生特征数据计算相应的用户为异常用户的预测分数。
步骤S207,响应于预测分数大于预设阈值,基于用户标识生成异常提示信息,并拦截款项申请请求。
当预测模型输出的预测分数大于预设阈值时,则表明相对应的用户为异常用户,执行主体可以基于用户标识生成异常提示信息,并拦截款项申请请求,以防止异常用户的款项申请通过造成损失,准确识别异常用户,保证业务处理的安全性。
图3是根据本申请一个实施例的业务处理方法的主要流程示意图,如图3所示,业务处理方法包括:
步骤S301,响应于款项申请请求,获取对应的用户标识和款项申请时点。
款项申请请求,可以是批量款项的申请请求,请求发起用户可以是同一用户,也可以是不同用户,请求发起用户的数量可以是一个或者多个。获取的用户标识可以为一个或多个,款项申请时点可以为同一时间点,也可以为不同时间点。
步骤S302,基于款项申请请求中的业务标识,调用对应的历史异常用户画像,从历史异常用户画像中提取用户标识对应的预设维度,获取用户标识对应的预设维度的用户行为数据,其中,用户行为数据产生于款项申请时点之前。
预设维度可以是维度集合中与用户行为数据相匹配的维度。其中,维度集合为与款项相关的维度组成的集合。
步骤S303,提取用户行为数据中的字段名称,基于字段名称确定用户行为数据的数据类型。
步骤S304,响应于数据类型为分类型,确定对应的衍生方式为对出现频率小于预设阈值的类型进行合并。
示例的,当数据类型为分类型数据时,可以确定对应的衍生方式为对不常见类型数据进行合并,如学生专业、公司类型、职业等,得到衍生特征数据,然后再透传作为入模型的特征。
此外,当数据类型为数值型数据时,可以确定对应的衍生方式为空,即不进行数据衍生,直接将相对应的数值型数据透传作为入模型的特征。
步骤S305,响应于数据类型为流水型,确定对应的衍生方式为划分不同的时间窗口,进而计算各时间窗口内的统计变量。
具体地,计算各时间窗口内的统计变量,包括:对于数值型字段计算求和、均值、分位数、最小值、最大值、标准差和变异系数;对于分类型变量计算各类型的出现次数和出现类型的种类。
当数据类型为流水型数据时,确定对应的衍生方式为划分不同的窗口计算各窗口内的统计变量,例如对于数值型字段计算求和、均值、分位数、最小值、最大值、标准差、变异系数等,以得到衍生特征数据,对于分类型变量计算主要类型的出现次数、出现类型的种类等,以得到衍生特征数据。
此外,还可以将两个衍生特征进行交叉运算,得到新的特征。
步骤S306,基于衍生方式,执行对应的特征衍生进程,以得到衍生特征数据。
通过确定出的衍生方式,调用对应的衍生逻辑,以执行对应的特征衍生进程,得到对应的衍生特征数据。
进一步地,为了提升特征衍生响应速度,执行主体可以基于衍生方式和用户行为数据生成异步任务,调用线程池以执行异步任务,快速得到对应的衍生特征数据。
步骤S307,调用预测模型,以计算衍生特征数据经过预测模型中的决策树得到的预测分数。
将衍生特征数据输入至预测模型,以经过预测模型中的决策树预测对应的用户为异常用户的预测分数。
步骤S308,响应于预测分数大于预设阈值,基于用户标识生成异常提示信息,并拦截款项申请请求。
预测分数大于预设阈值,表明对应的用户为异常用户,当异常用户的数量为多个时,执行主体可以分别基于对应的用户标识生成异常提示信息并展示,同时拦截相应的款项申请请求以保证业务处理的安全性。
图5是根据本申请实施例的业务处理装置的主要单元的示意图。如图5所示,业务处理装置500包括第一获取单元501、第二获取单元502、特征衍生单元503、预测单元504和异常提示单元505。
第一获取单元501,被配置成响应于款项申请请求,获取对应的用户标识和款项申请时点。
第二获取单元502,被配置成基于款项申请请求中的业务标识,调用对应的历史异常用户画像,从历史异常用户画像中提取用户标识对应的预设维度,获取用户标识对应的预设维度的用户行为数据,其中,用户行为数据产生于款项申请时点之前。
特征衍生单元503,被配置成提取用户行为数据中的字段名称,基于字段名称确定用户行为数据的数据类型,进而根据数据类型,执行特征衍生进程,以得到衍生特征数据。
预测单元504,被配置成调用预测模型,以计算衍生特征数据经过预测模型中的决策树得到的预测分数。
异常提示单元505,被配置成响应于预测分数大于预设阈值,基于用户标识生成异常提示信息,并拦截款项申请请求。
在一些实施例中,第二获取单元502进一步被配置成:获取用户标识对应的在款项申请时点之前的款项集中流向数据、集中还款数据、工商行为特征数据、款项申请行为数据、数据激增行为数据、征信行为数据和埋点点击行为数据。
在一些实施例中,特征衍生单元503进一步被配置成:基于数据类型,确定对应的衍生方式;基于衍生方式,执行对应的特征衍生进程,以得到衍生特征数据。
在一些实施例中,数据类型,包括:数值型、分类型和流水型;以及特征衍生单元503进一步被配置成:响应于数据类型为分类型,确定对应的衍生方式为对出现频率小于预设阈值的类型进行合并;响应于数据类型为流水型,确定对应的衍生方式为划分不同的时间窗口,进而计算各时间窗口内的统计变量。
在一些实施例中,特征衍生单元503进一步被配置成:对于数值型字段计算求和、均值、分位数、最小值、最大值、标准差和变异系数;对于分类型变量计算各类型的出现次数和出现类型的种类。
在一些实施例中,业务处理装置还包括图5中未示出的模型训练单元,被配置成:获取样本用户行为数据和样本异常标签;对样本用户行为数据基于透传、统计聚合和交叉衍生的方式进行特征衍生,以得到样本衍生特征数据;基于有效性和稳定性对样本衍生特征数据进行特征筛选,以得到筛选特征;将筛选特征作为初始神经网络模型的输入,将样本异常标签作为初始神经网络模型的期望输出,对初始神经网络模型进行训练,以得到预测模型。
在一些实施例中,业务处理装置还包括图5中未示出的推送单元,被配置成:响应于预测分数小于或等于预设阈值,将对应的用户标识导入目标平台进行精准业务推送。
需要说明的是,本申请的业务处理方法和业务处理装置在具体实施内容上具有相应关系,故重复内容不再说明。
图6示出了可以应用本申请实施例的业务处理方法或业务处理装置的示例性系统架构600。
如图6所示,系统架构600可以包括终端设备601、602、603,网络604和服务器605。网络604用以在终端设备601、602、603和服务器605之间提供通信链路的介质。网络604可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备601、602、603通过网络604与服务器605交互,以接收或发送消息等。终端设备601、602、603上可以安装有各种通讯用户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱用户端、社交平台软件等(仅为示例)。
终端设备601、602、603可以是具有业务处理屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器605可以是提供各种服务的服务器,例如对用户利用终端设备601、602、603所提交的款项申请请求提供支持的后台管理服务器(仅为示例)。后台管理服务器可以响应于款项申请请求,获取对应的用户标识和款项申请时点;基于款项申请请求中的业务标识,调用对应的历史异常用户画像,从历史异常用户画像中提取用户标识对应的预设维度,获取用户标识对应的预设维度的用户行为数据,其中,用户行为数据产生于款项申请时点之前;提取用户行为数据中的字段名称,基于字段名称确定用户行为数据的数据类型,进而根据数据类型,执行特征衍生进程,以得到衍生特征数据;调用预测模型,以计算衍生特征数据经过预测模型中的决策树得到的预测分数;响应于预测分数大于预设阈值,基于用户标识生成异常提示信息,并拦截款项申请请求。从而提高对异常用户进行识别的效率和准确率。
需要说明的是,本申请实施例所提供的业务处理方法一般由服务器605执行,相应地,业务处理装置一般设置于服务器605中。
应该理解,图6中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图7,其示出了适于用来实现本申请实施例的终端设备的计算机系统700的结构示意图。图7示出的终端设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图7所示,计算机系统700包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM703中,还存储有计算机系统700操作所需的各种程序和数据。CPU701、ROM702以及RAM703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶征信授权查询处理器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
特别地,根据本申请公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时,执行本申请的系统中限定的上述功能。
需要说明的是,本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括第一获取单元、第二获取单元、特征衍生单元、预测单元和异常提示单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备响应于款项申请请求,获取对应的用户标识和款项申请时点;基于款项申请请求中的业务标识,调用对应的历史异常用户画像,从历史异常用户画像中提取用户标识对应的预设维度,获取用户标识对应的预设维度的用户行为数据,其中,用户行为数据产生于款项申请时点之前;提取用户行为数据中的字段名称,基于字段名称确定用户行为数据的数据类型,进而根据数据类型,执行特征衍生进程,以得到衍生特征数据;调用预测模型,以计算衍生特征数据经过预测模型中的决策树得到的预测分数;响应于预测分数大于预设阈值,基于用户标识生成异常提示信息,并拦截款项申请请求。
本申请的计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现本申请实施例中的业务处理方法。
根据本申请实施例的技术方案,可以提高对异常用户进行识别的效率和准确率。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (16)
1.一种业务处理方法,其特征在于,包括:
响应于款项申请请求,获取对应的用户标识和款项申请时点;
基于所述款项申请请求中的业务标识,调用对应的历史异常用户画像,从所述历史异常用户画像中提取所述用户标识对应的预设维度,获取所述用户标识对应的预设维度的用户行为数据,其中,所述用户行为数据产生于所述款项申请时点之前;
提取所述用户行为数据中的字段名称,基于所述字段名称确定所述用户行为数据的数据类型,进而根据所述数据类型,执行特征衍生进程,以得到衍生特征数据;
调用预测模型,以计算所述衍生特征数据经过所述预测模型中的决策树得到的预测分数;
响应于所述预测分数大于预设阈值,基于所述用户标识生成异常提示信息,并拦截所述款项申请请求。
2.根据权利要求1所述的方法,其特征在于,所述获取所述用户标识对应的预设维度的用户行为数据,包括:
获取所述用户标识对应的在所述款项申请时点之前的款项集中流向数据、集中还款数据、工商行为特征数据、款项申请行为数据、数据激增行为数据、征信行为数据和埋点点击行为数据。
3.根据权利要求1所述的方法,其特征在于,所述得到衍生特征数据,包括:
基于所述数据类型,确定对应的衍生方式;
基于所述衍生方式,执行对应的特征衍生进程,以得到衍生特征数据。
4.根据权利要求3所述的方法,其特征在于,所述数据类型,包括:数值型、分类型和流水型;以及
所述基于所述数据类型,确定对应的衍生方式,包括:
响应于所述数据类型为分类型,确定对应的衍生方式为对出现频率小于预设阈值的类型进行合并;
响应于所述数据类型为流水型,确定对应的衍生方式为划分不同的时间窗口,进而计算各所述时间窗口内的统计变量。
5.根据权利要求4所述的方法,其特征在于,所述计算各所述时间窗口内的统计变量,包括:
对于数值型字段计算求和、均值、分位数、最小值、最大值、标准差和变异系数;
对于分类型变量计算各类型的出现次数和出现类型的种类。
6.根据权利要求1所述的方法,其特征在于,在所述调用预测模型之前,所述方法还包括:
获取样本用户行为数据和样本异常标签;
对所述样本用户行为数据基于透传、统计聚合和交叉衍生的方式进行特征衍生,以得到样本衍生特征数据;
基于有效性和稳定性对所述样本衍生特征数据进行特征筛选,以得到筛选特征;
将所述筛选特征作为初始神经网络模型的输入,将所述样本异常标签作为所述初始神经网络模型的期望输出,对所述初始神经网络模型进行训练,以得到预测模型。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
响应于所述预测分数小于或等于预设阈值,将对应的用户标识导入目标平台进行精准业务推送。
8.一种业务处理装置,其特征在于,包括:
第一获取单元,被配置成响应于款项申请请求,获取对应的用户标识和款项申请时点;
第二获取单元,被配置成基于所述款项申请请求中的业务标识,调用对应的历史异常用户画像,从所述历史异常用户画像中提取所述用户标识对应的预设维度,获取所述用户标识对应的预设维度的用户行为数据,其中,所述用户行为数据产生于所述款项申请时点之前;
特征衍生单元,被配置成提取所述用户行为数据中的字段名称,基于所述字段名称确定所述用户行为数据的数据类型,进而根据所述数据类型,执行特征衍生进程,以得到衍生特征数据;
预测单元,被配置成调用预测模型,以计算所述衍生特征数据经过所述预测模型中的决策树得到的预测分数;
异常提示单元,被配置成响应于所述预测分数大于预设阈值,基于所述用户标识生成异常提示信息,并拦截所述款项申请请求。
9.根据权利要求8所述的装置,其特征在于,所述第二获取单元进一步被配置成:
获取所述用户标识对应的在所述款项申请时点之前的款项集中流向数据、集中还款数据、工商行为特征数据、款项申请行为数据、数据激增行为数据、征信行为数据和埋点点击行为数据。
10.根据权利要求8所述的装置,其特征在于,所述特征衍生单元进一步被配置成:
基于所述数据类型,确定对应的衍生方式;
基于所述衍生方式,执行对应的特征衍生进程,以得到衍生特征数据。
11.根据权利要求10所述的装置,其特征在于,所述数据类型,包括:数值型、分类型和流水型;以及
所述特征衍生单元进一步被配置成:
响应于所述数据类型为分类型,确定对应的衍生方式为对出现频率小于预设阈值的类型进行合并;
响应于所述数据类型为流水型,确定对应的衍生方式为划分不同的时间窗口,进而计算各所述时间窗口内的统计变量。
12.根据权利要求11所述的装置,其特征在于,所述特征衍生单元进一步被配置成:
对于数值型字段计算求和、均值、分位数、最小值、最大值、标准差和变异系数;
对于分类型变量计算各类型的出现次数和出现类型的种类。
13.根据权利要求8所述的装置,其特征在于,所述装置还包括模型训练单元,被配置成:
获取样本用户行为数据和样本异常标签;
对所述样本用户行为数据基于透传、统计聚合和交叉衍生的方式进行特征衍生,以得到样本衍生特征数据;
基于有效性和稳定性对所述样本衍生特征数据进行特征筛选,以得到筛选特征;
将所述筛选特征作为初始神经网络模型的输入,将所述样本异常标签作为所述初始神经网络模型的期望输出,对所述初始神经网络模型进行训练,以得到预测模型。
14.一种业务处理电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一项所述的方法。
15.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-7中任一项所述的方法。
16.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410209970.6A CN117974297A (zh) | 2024-02-26 | 2024-02-26 | 一种业务处理方法、装置、电子设备及计算机可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410209970.6A CN117974297A (zh) | 2024-02-26 | 2024-02-26 | 一种业务处理方法、装置、电子设备及计算机可读介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117974297A true CN117974297A (zh) | 2024-05-03 |
Family
ID=90853005
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410209970.6A Pending CN117974297A (zh) | 2024-02-26 | 2024-02-26 | 一种业务处理方法、装置、电子设备及计算机可读介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117974297A (zh) |
-
2024
- 2024-02-26 CN CN202410209970.6A patent/CN117974297A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11423365B2 (en) | Transaction card system having overdraft capability | |
CN111429258B (zh) | 一种监测贷款资金流向的方法和装置 | |
KR102032924B1 (ko) | 클라우드 환경에서 개인정보 보호를 지원하는 p2p 중개 보안 시스템 | |
CN114186626A (zh) | 一种异常检测方法、装置、电子设备及计算机可读介质 | |
KR20180060005A (ko) | 클라우드 환경에서 개인정보 보호를 지원하는 p2p 중개 보안 시스템 | |
Gao et al. | Research on Default Prediction for Credit Card Users Based on XGBoost‐LSTM Model | |
CN115545886A (zh) | 逾期风险识别方法、装置、设备及存储介质 | |
CN112990311A (zh) | 一种准入客户的识别方法和装置 | |
CN110930242B (zh) | 一种可信度预测方法、装置、设备和存储介质 | |
CN112950359B (zh) | 一种用户识别方法和装置 | |
Adam et al. | Anomaly Detection on Distributed Ledger Using Unsupervised Machine Learning | |
CN111245815B (zh) | 数据处理方法、装置、存储介质及电子设备 | |
CN117437020A (zh) | 商户风险判定方法、装置、电子设备和介质 | |
CN116703555A (zh) | 一种预警方法、装置、电子设备及计算机可读介质 | |
CN111429257B (zh) | 一种交易监控方法和装置 | |
CN114723548A (zh) | 数据处理方法、装置、设备、介质和程序产品 | |
CN114708090A (zh) | 基于大数据的银行支付业务风险识别装置 | |
CN117974297A (zh) | 一种业务处理方法、装置、电子设备及计算机可读介质 | |
Yang et al. | Automatic Feature Engineering‐Based Optimization Method for Car Loan Fraud Detection | |
Arifah et al. | Artificial Intelligence in Credit Risk Management of Peer-to-Peer Lending Financial Technology: Systematic Literature Review | |
CN113159937A (zh) | 识别风险的方法、装置和电子设备 | |
CN114880369A (zh) | 一种基于弱数据技术的风险授信方法和系统 | |
Li et al. | Research on Efficiency in Credit Risk Prediction Using Logistic‐SBM Model | |
EP4280142A1 (en) | System and method for automated feature generation and usage in identity decision making | |
Swetha et al. | Effective Feature Selection-Based Meta-heuristics Optimization Approach for Spam Detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |