CN112037001A - 打款风险预测模型训练方法、打款风险预测方法及其装置 - Google Patents
打款风险预测模型训练方法、打款风险预测方法及其装置 Download PDFInfo
- Publication number
- CN112037001A CN112037001A CN202010914882.8A CN202010914882A CN112037001A CN 112037001 A CN112037001 A CN 112037001A CN 202010914882 A CN202010914882 A CN 202010914882A CN 112037001 A CN112037001 A CN 112037001A
- Authority
- CN
- China
- Prior art keywords
- money
- data
- making
- historical
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 238000012549 training Methods 0.000 title claims abstract description 37
- 238000013058 risk prediction model Methods 0.000 title claims abstract description 20
- 238000013528 artificial neural network Methods 0.000 claims abstract description 99
- 239000013598 vector Substances 0.000 claims abstract description 51
- 238000012545 processing Methods 0.000 claims abstract description 33
- 238000009826 distribution Methods 0.000 claims description 40
- 230000000306 recurrent effect Effects 0.000 claims description 26
- 238000013527 convolutional neural network Methods 0.000 claims description 19
- 125000004122 cyclic group Chemical group 0.000 claims description 9
- 230000001174 ascending effect Effects 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 6
- 238000003860 storage Methods 0.000 claims description 5
- 230000005856 abnormality Effects 0.000 claims description 3
- 238000004519 manufacturing process Methods 0.000 claims 1
- 230000029305 taxis Effects 0.000 abstract description 16
- 238000012954 risk control Methods 0.000 abstract description 10
- 230000008569 process Effects 0.000 description 9
- 238000012546 transfer Methods 0.000 description 9
- 230000002159 abnormal effect Effects 0.000 description 6
- 230000006399 behavior Effects 0.000 description 6
- 238000000151 deposition Methods 0.000 description 6
- 238000005065 mining Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 4
- 230000002776 aggregation Effects 0.000 description 3
- 238000004220 aggregation Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000000750 progressive effect Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000007425 progressive decline Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Finance (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种打款风险预测模型训练方法、打款风险预测方法及其装置,该打款风险预测方法包括:获取多条第二历史打款数据与待预测的打款数据;对多条第二历史打款数据与待预测的打款数据进行处理,得到每一条第二历史打款数据与待预测的打款数据的特征向量;将第二历史打款数据与待预测的打款数据的特征向量分别输入至聚类算法和神经网络,并输出采用聚类算法进行预测得到的第一预测结果和采用神经网络进行预测到的第二预测结果;所述神经网络采用多条第一历史打款数据训练得到;对所述第一预测结果和第二预测结果进行融合,得到最终的打款风险预测结果。解决了共享经济领域中,对代付薪酬、代征个税等操作没有专用的风险控制方法的问题。
Description
技术领域
本发明涉及大数据技术领域,尤其涉及一种打款风险预测模型训练方法、打款风险预测方法及其装置。
背景技术
随着共享经济的发展,越来越多的公司选择通过第三方平台为自己以灵活用工方式工作的人员发放酬劳并代缴个税业务。然而随着共享经济的发展,灵活用工模式的成熟,有部分与企业签订劳动合同,不属于共享经济、灵活用工模式的人员受低廉税率的诱惑,企图偷税漏税,为代发酬劳、代缴个税的公司带来风险。此外,还存在从事传销、诈骗等违法活动的犯罪集团以共享经济为幌子进行利益分配的情况。基于此,有必要对每一笔打出的款项及使用代发酬劳服务的公司进行风险控制。而当前并无针对共享经济领域,代付薪酬、代扣缴个税场景下的风控方法及装置。
发明内容
本发明实施例的目的是提供一种打款风险预测模型训练方法、打款风险预测方法及其装置,用于解决共享经济领域中,对代付薪酬、代征个税等操作没有专用的风险控制方法的问题。
为了解决上述问题,本发明是这样实现的:
第一方面,本发明提供了一种打款风险预测模型训练方法,包括:
获取多条第一历史打款数据;
对所述多条第一历史打款数据进行处理,得到每一条所述历史打款数据的特征向量;
对所述多条第一历史打款数据进行聚类算法处理,获取每一条所述历史打款数据的标签,所述标签用于表示该条历史打款数据为无风险打款或有风险打款;
根据所述多条第一历史打款数据的特征向量以及所述多条第一历史打款数据的标签,对神经网络进行训练,得到训练后的神经网络。
可选的,所述多条第一历史打款数据包括收款人打款数据,所述神经网络包括循环神经网络;所述循环神经网络用来得到收款人打款数据的时间分布特征。
可选的,所述多条第一历史打款数据包括商户打款数据,所述神经网络采用循环神经网络和卷积神经网络;所述循环神经网络用于得到商户打款数据的时间分布特征;所述卷积神经网络用于得到商户打款数据的空间分布特征。
可选的,对神经网络进行训练前,还包括:
对输入神经网络的所述多条第一历史打款数据的特征向量进行归一化处理。
第二方面,本发明提供了一种打款风险预测方法,包括:
获取多条第二历史打款数据与待预测的打款数据;
对所述多条第二历史打款数据与待预测的打款数据进行处理,得到每一条所述第二历史打款数据与待预测的打款数据的特征向量;
将第二历史打款数据与待预测的打款数据的特征向量分别输入至聚类算法和神经网络,并输出采用聚类算法进行预测得到的第一预测结果和采用神经网络进行预测到的第二预测结果;所述神经网络采用多条第一历史打款数据训练得到;
对所述第一预测结果和第二预测结果进行融合,得到最终的打款风险预测结果。
可选的,当第二历史打款数据与待预测的打款数据为收款人打款数据时,所述神经网络包括循环神经网络;
其中,将第二历史打款数据与待预测的打款数据的特征向量输入至神经网络算法包括:
将第二历史打款数据与待预测的打款数据的特征向量按照时间升序输入至循环神经网络算法,使所述循环神经网络得到第二历史打款数据和待预测的打款数据的时间分布特征,并根据所述时间分布特征输出第一预测结果。
可选的,当第二历史打款数据与待预测的打款数据为打款商户打款数据时,所述神经网络包括循环神经网络和卷积神经网络;
其中,将第二历史打款数据与待预测的打款数据的特征向量输入至神经网络算法包括:
将第二历史打款数据与待预测的打款数据的特征向量按照时间升序输入至循环神经网络算法,使所述循环神经网络得到第二历史打款数据和待预测的打款数据的时间分布特征,并根据所述时间分布特征输出第三预测结果;
抽取m条打款数据并按统计量有序排布m条打款数据,将排布后的m条打款数据输入值卷积神经网络,使所述卷积神经网络得到第一历史打款数据和待预测的打款数据的空间分布特征,并根据所述空间分布特征输出第四预测结果;所述打款数据包括历史打款数据与待预测的打款数据;
将所述第三预测结果和所述第四预测结果作为所述第一预测结果。
可选的,比较打款风险预测结果和打款风险预测结果阈值;
若所述打款风险预测结果大于或等于所述打款风险预测结果阈值,则报警提示所述打款风险预测结果;
若所述打款风险预测结果小于所述打款风险预测结果阈值,则不进行报警。
可选的,所述打款风险预测结果包括以下至少一项:收款人收款的异常程度;收款人从事的经济领域;商户业务模式所属的经济领域类别;商户业务模式存在违法行为的可能性。
第三方面,本发明提供了一种打款风险预测模型训练装置,包括:
第一数据模块,用于获取多条第一历史打款数据;
第一处理模块,用于对所述多条第一历史打款数据进行处理,得到每一条所述历史打款数据的特征向量;
第二处理模块,用于对所述多条第一历史打款数据进行聚类算法处理,获取每一条所述历史打款数据的标签,所述标签用于表示该条历史打款数据为无风险打款或有风险打款;
模型训练模块,用于根据所述多条第一历史打款数据的特征向量以及所述多条第一历史打款数据的标签,对神经网络进行训练,得到训练后的神经网络。
第四方面,本发明提供了一种打款风险预测装置,包括:
第二数据模块,用于获取多条第二历史打款数据与待预测的打款数据;
第三处理模块,用于对所述多条第二历史打款数据与待预测的打款数据进行处理,得到每一条所述第二历史打款数据与待预测的打款数据的特征向量;
第四处理模块,用于将第二历史打款数据与待预测的打款数据的特征向量分别输入至聚类算法和神经网络,并输出采用聚类算法进行预测得到的第一预测结果和采用神经网络进行预测到的第二预测结果;所述神经网络采用多条第一历史打款数据训练得到;
第五处理模块,用于对所述第一预测结果和第二预测结果进行融合,得到最终的打款风险预测结果。
第五方面,提供了一种电子设备,该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面和第二方面所述的方法的步骤。
第六方面,提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面和第二方面所述的方法的步骤,或者实现如第一方面和第二方面所述的方法的步骤。
本发明实施例中,通过历史打款数据学习共享经济领域从业者的收入模式、发现已有潜在的异常打款模式,从而区分出不属于共享经济领域的、企图偷税漏税的人,避免风险;通过挖掘被打款人与签约公司间的关系,分析签约公司可能从事的业务,发现可能存在的违法经营行为的公司,解决了共享经济领域中,对代付薪酬、代征个税等操作没有专用的风险控制方法的问题。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明实施例提供的一种打款风险预测模型训练方法流程示意图;
图2为本发明实施例提供的一种聚类算法流程示意图;
图3为本发明实施例提供的一种打款风险预测方法的流程示意图;
图4为本发明实施例提供的一种打款风险预测方法收款人流程示意图;
图5为本发明实施例提供的一种打款风险预测方法打款商户流程示意图;
图6为本发明实施例提供的一种打款风险预测模型训练装置流程示意图;
图7为本发明实施例提供的一种打款风险预测装置的流程示意图;
图8为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”所区别的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”一般表示前后关联对象是一种“或”的关系。
请参考图1,本发明实施例提供了一种打款风险预测模型训练方法,该方法包括:
步骤11:获取多条第一历史打款数据;
步骤12:对所述多条第一历史打款数据进行处理,得到每一条所述历史打款数据的特征向量;
步骤13:对所述多条第一历史打款数据进行聚类算法处理,获取每一条所述历史打款数据的标签,所述标签用于表示该条历史打款数据为无风险打款或有风险打款;
步骤14:根据所述多条第一历史打款数据的特征向量以及所述多条第一历史打款数据的标签,对神经网络进行训练,得到训练后的神经网络。
请参考图2,本发明实施例中,所述聚类算法包括:
步骤201:若特征点全部被访问,则结束进程,若特征点未全部被访问,则进行步骤202;
步骤202:选择一个未被访问的特征点p,标记为已访问;
步骤203:统计以p为中心,r为半径的范围内的特征点数量;
步骤204:若特征点数量超过ξ,则进行步骤206,若特征点数量小于等于x,则进行步骤205;
步骤205:将r为半径的范围外的特征点标记为噪声;
步骤206:创建聚集簇c,标记p属于聚集簇c;
步骤207:将以p为中心,r为半径的范围内的未被访问的特征点集合为N,等待访问;
步骤208:访问N内的点p’,并标记为已访问,若全部访问完毕,则返回步骤201;
步骤209:若以p’为中心,r为半径的范围内的特征点数量超过ξ,则进行步骤210,若小于等于ξ,则标记为噪声,并返回步骤208;
步骤210:将p’领域内的点添加进集合N;
步骤211:将p’标记为属于聚集簇c。
其中,相似的特征点会聚集在同一个聚集簇内,与中心点的距离越近,代表打款风险概率越低,被标记为噪声的特征点代表风险概率更高;当历史打款数据的特征向量经过聚类算法对特征向量进行聚类标记后,输出预测结果,神经网络通过对历史打款数据的特征向量的学习进行训练,使其具有判断风险打款的能力,神经网络输出的预测结果越接近通过聚类算法输出的预测结果,所述神经网络的判断结果就更精确。
本发明实施例中,可选的,所述多条第一历史打款数据包括收款人打款数据,所述神经网络包括循环神经网络;所述循环神经网络用来得到收款人打款数据的时间分布特征。
本发明实施例中,可选的,所述多条第一历史打款数据包括商户打款数据,所述神经网络采用循环神经网络和卷积神经网络;所述循环神经网络用于得到商户打款数据的时间分布特征;所述卷积神经网络用于得到商户打款数据的空间分布特征。
本发明实施例中,可选的,对输入神经网络的所述多条第一历史打款数据的特征向量进行归一化处理。
本发明实施例中,考虑到打款数据可能比较离散,且一段时间内,每个人的收款次数也不相同,采取打款间隔与打款数目结合的方法表示打款数据,即s=[interval,amount,channel],interval=tn-tn-1,channel∈{1,2,3},其中tn,tn-1分别代表本次打款的时间和上次打款的时间,channel代表打款渠道,1,2,3分别代表三种不同的渠道,amount代表金额。为充分利用神经网络的激活层,interval,amount,channel在输入神经网络前均经过归一化处理。收款人性别、收款人年龄同样会经过编码与归一化处理。
考虑到商户委托打款人数的不同,本实施例中采用“多退少补”的策略,即每个商户必须提供m条收款人的收款数据,如果商户委托的打款人数不足m条,则通过随机从已有样本中抽取并重复的方式补齐置m条,反之如果商户委托的打款人数超过m条,则通过从已有样本中随机抽取m条的方式提供m条收款人数据。同时为保证有序性,m条数据应按收款人收款总数递增排列,记m条数据拼接得到的矩阵为R;其中,除按收款人收款总数递增排列外,也可以替换为任意使数据有序的方法,例如按标准差递增、递减排序,按中位数递增、递减排序等。
本发明实施例中,对收款人打款数据的处理为统计每人每月收款的平均值Epm、标准差Dpm,统计每次打款与前n次打款的偏离程度,即计算前n次打款的平均值Epm1、标准差Dpm1,计算本次打款计入后n+1次打款的平均值Epm2、标准差Dpm2,使用Cpe表示平均值的偏离程度,其中Cpe=|Epm1-Epm2|×(n+1)/(Epm1×n),使用Cpd表示平均值的偏离程度,其中Cpd=|Dpm1-Dpm2|×(n+1)/(Dpm1×n)。使用上述统计数据构成特征向量Vp,其中Vp=[Epm,Dpm,Cpe,Cpd]。
本发明实施例中,对商户打款数据的处理为统计商户每月委托打款数量的平均值Edm、标准差Ddm,统计收取该商户打款的收款人的平均月收入Edp、标准差Ddp,统计收取该商户打款的收款人每月收入总数的分布情况,即假设分布服从正态分布,确定正态分布的均值μ与标准差σ,统计商户本月打款数据计入后与前n个月打款数据的偏离程度,即计算前n个月打款的平均值Edm1、标准差Ddm1,计算本次打款计入后n+1个月打款的平均值Edm2、标准差Ddm2,使用Cde表示平均值的偏离程度,其中Cde=|Edm1-Edm2|×(n+1)/(Edm1×n),使用Cdd表示平均值的偏离程度,其中Cdd=|Ddm1-Ddm2|×(n+1)/(Ddm1×n)。使用上述统计数据构成特征向量Vd,其中Vd=[Edm,Ddm,Edp,Ddp,μ,σ,Cde,Cdd]。
本发明实施例中,收款人打款数据的特征点与特征点之间的距离计算公式为:dp=Vp1·Vp2/|Vp1||Vp2|,打款商户数据的特征点与特征点之间的距离计算公式为:dd=Vd1·Vd2/|Vd1||Vd2|。
本发明实施例中,通过历史打款数据学习共享经济领域从业者的收入模式、发现已有潜在的异常打款模式,从而区分出不属于共享经济领域的、企图偷税漏税的人,避免风险;通过挖掘被打款人与签约公司间的关系,分析签约公司可能从事的业务,发现可能存在的违法经营行为的公司,解决了共享经济领域中,对代付薪酬、代征个税等操作没有专用的风险控制方法的问题。
请参考图3,本发明实施例提供了一种打款风险预测方法,该方法包括:
步骤31:获取多条第二历史打款数据与待预测的打款数据;
步骤32:对所述多条第二历史打款数据与待预测的打款数据进行处理,得到每一条所述第二历史打款数据与待预测的打款数据的特征向量;
步骤33:将第二历史打款数据与待预测的打款数据的特征向量分别输入至聚类算法和神经网络,并输出采用聚类算法进行预测得到的第一预测结果和采用神经网络进行预测到的第二预测结果;所述神经网络采用多条第一历史打款数据训练得到;
步骤34:对所述第一预测结果和第二预测结果进行融合,得到最终的打款风险预测结果。
本发明实施例中,通过数据输入到训练后的神经网络和聚类算法中,所述神经网络和所述聚类算法进行预测得到最终的打款风险预测结果,解决了共享经济领域中,对代付薪酬、代征个税等操作没有专用的风险控制方法的问题。
本发明实施例中,所述聚类算法进行预测是通过计算待预测的打款数据相对聚集簇中心的偏移量,根据偏移量计算打款风险概率。
本发明实施例中,可选的,当第二历史打款数据与待预测的打款数据为收款人打款数据时,所述神经网络包括循环神经网络;
其中,将第二历史打款数据与待预测的打款数据的特征向量输入至神经网络算法包括:
将第二历史打款数据与待预测的打款数据的特征向量按照时间升序输入至循环神经网络算法,使所述循环神经网络得到第二历史打款数据和待预测的打款数据的时间分布特征,并根据所述时间分布特征输出第一预测结果。
本发明实施例中,可选的,当第二历史打款数据与待预测的打款数据为打款商户打款数据时,所述神经网络包括循环神经网络和卷积神经网络;
其中,将第二历史打款数据与待预测的打款数据的特征向量输入至神经网络算法包括:
将第二历史打款数据与待预测的打款数据的特征向量按照时间升序输入至循环神经网络算法,使所述循环神经网络得到第二历史打款数据和待预测的打款数据的时间分布特征,并根据所述时间分布特征输出第三预测结果;
抽取m条打款数据并按统计量有序排布m条打款数据,将排布后的m条打款数据输入值卷积神经网络,使所述卷积神经网络得到第一历史打款数据和待预测的打款数据的空间分布特征,并根据所述空间分布特征输出第四预测结果;所述打款数据包括历史打款数据与待预测的打款数据;
将所述第三预测结果和所述第四预测结果作为所述第一预测结果。
本发明实施例中,可选的,比较打款风险预测结果和风险预测结果阈值;
若所述风险预测结果大于或等于所述风险预测结果阈值,则报警提示所述风险预测结果;
若所述风险预测结果小于所述风险预测结果阈值,则不进行报警。
本发明实施例中,所述阈值都可根据具体要求进行调整,达到修改报警数量及需要报警的风险程度的目的。
本发明实施例中,可选的,所述风险预测结果包括以下至少一项:收款人收款的异常程度;收款人从事的经济领域;商户业务模式所属的经济领域类别;商户业务模式存在违法行为的可能性。
本发明实施例中,对收款人打款数据的处理为统计每人每月收款的平均值Epm、标准差Dpm,统计每次打款与前n次打款的偏离程度,即计算前n次打款的平均值Epm1、标准差Dpm1,计算本次打款计入后n+1次打款的平均值Epm2、标准差Dpm2,使用Cpe表示平均值的偏离程度,其中Cpe=|Epm1-Epm2|×(n+1)/(Epm1×n),使用Cpd表示平均值的偏离程度,其中Cpd=|Dpm1-Dpm2|×(n+1)/(Dpm1×n)。使用上述统计数据构成特征向量Vp,其中Vp=[Epm,Dpm,Cpe,Cpd]。
请参考图4,本发明实施例提供了一种打款风险预测方法,该方法包括:
步骤41:得到特征向量Vp;
步骤42:将特征向量Vp输入至输入层;
步骤43:循环神经网络提取时间特征;
步骤44:输出层输出结果;
步骤441:输出打款存在风险的概率;
步骤442:输出收款人所属行业类别。
其中循环神经网络可以为多层循环神经网络(Recurrent Neural Network,RNN)模型,或多层长短期记忆网络(Long Short-Term Memory,LSTM)、门控循环单元(GatedRecurrent Unit,GRU)模型,其中RNN模型既可以是单向RNN、LSTM、GRU模型,也可以是双向RNN、LSTM、GRU模型。其中RNN可以被LSTM、GRU、Transformer模型替代。
本发明实施例中,对商户打款数据的处理为统计商户每月委托打款数量的平均值Edm、标准差Ddm,统计收取该商户打款的收款人的平均月收入Edp、标准差Ddp,统计收取该商户打款的收款人每月收入总数的分布情况,即假设分布服从正态分布,确定正态分布的均值μ与标准差σ,统计商户本月打款数据计入后与前n个月打款数据的偏离程度,即计算前n个月打款的平均值Edm1、标准差Ddm1,计算本次打款计入后n+1个月打款的平均值Edm2、标准差Ddm2,使用Cde表示平均值的偏离程度,其中Cde=|Edm1-Edm2|×(n+1)/(Edm1×n),使用Cdd表示平均值的偏离程度,其中Cdd=|Ddm1-Ddm2|×(n+1)/(Ddm1×n)。使用上述统计数据构成特征向量Vd,其中Vd=[Edm,Ddm,Edp,Ddp,μ,σ,Cde,Cdd]。
请参考图5,本发明实施例提供了一种打款风险预测方法,该方法包括:
步骤51:分别得到特征向量Vp和收款数据拼接得到的矩阵R;
步骤52:将特征向量Vp收款数据拼接得到的矩阵R分别输入至输入层;
步骤53:循环神经网络提取时间特征;
步骤54:卷积神经网络提取空间分布特征;
步骤55:输出层输出结果;
步骤551:输出商户业务存在风险的概率;
步骤552:输出商户业务所属行业类别。
其中,考虑到商户打款数据在统计分布上的特征与时间上的联系,本方法使用循环神经网络(Recurrent Neural Network,RNN)模型抽取时间特征,卷积神经网络(Convolutional Neural Networks,CNN)抽取统计分布特征,然后结合时间特征与统计分布特征获得商户打款数据的总体特征表示;其中RNN可以被LSTM、GRU、Transformer模型替代,CNN模型可以被其变种替代,例如GoogLeNet、ResNet等。
本发明实施例中,收款人打款数据的特征点与特征点之间的距离计算公式为:dp=Vp1·Vp2/|Vp1||Vp2|,打款商户数据的特征点与特征点之间的距离计算公式为:dd=Vd1·Vd2/|Vd1||Vd2|。
本发明实施例中,通过历史打款数据学习共享经济领域从业者的收入模式、发现已有潜在的异常打款模式,从而区分出不属于共享经济领域的、企图偷税漏税的人,避免风险;通过挖掘被打款人与签约公司间的关系,分析签约公司可能从事的业务,发现可能存在的违法经营行为的公司,解决了共享经济领域中,对代付薪酬、代征个税等操作没有专用的风险控制方法的问题。
本发明实施例中,通过历史打款数据学习共享经济领域从业者的收入模式、发现已有潜在的异常打款模式,从而区分出不属于共享经济领域的、企图偷税漏税的人,避免风险;通过挖掘被打款人与签约公司间的关系,分析签约公司可能从事的业务,发现可能存在的违法经营行为的公司,解决了共享经济领域中,对代付薪酬、代征个税等操作没有专用的风险控制方法的问题。
请参考图6,本发明实施例提供了一种打款风险预测模型训练装置,包括:
第一数据模块61,用于获取多条第一历史打款数据;
第一处理模块62,用于对所述多条第一历史打款数据进行处理,得到每一条所述历史打款数据的特征向量;
第二处理模块63,用于对所述多条第一历史打款数据进行聚类算法处理,获取每一条所述历史打款数据的标签,所述标签用于表示该条历史打款数据为无风险打款或有风险打款;
模型训练模块64,用于根据所述多条第一历史打款数据的特征向量以及所述多条第一历史打款数据的标签,对神经网络进行训练,得到训练后的神经网络。
本发明实施例中,通过历史打款数据学习共享经济领域从业者的收入模式、发现已有潜在的异常打款模式,从而区分出不属于共享经济领域的、企图偷税漏税的人,避免风险;通过挖掘被打款人与签约公司间的关系,分析签约公司可能从事的业务,发现可能存在的违法经营行为的公司,解决了共享经济领域中,对代付薪酬、代征个税等操作没有专用的风险控制方法的问题。
请参考图7,本发明实施例提供了一种打款风险预测装置,包括:
第二数据模块71,用于获取多条第二历史打款数据与待预测的打款数据;
第三处理模块72,用于对所述多条第二历史打款数据与待预测的打款数据进行处理,得到每一条所述第二历史打款数据与待预测的打款数据的特征向量;
第四处理模块73,用于将第二历史打款数据与待预测的打款数据的特征向量分别输入至聚类算法和神经网络,并输出采用聚类算法进行预测得到的第一预测结果和采用神经网络进行预测到的第二预测结果;所述神经网络采用多条第一历史打款数据训练得到;
第五处理模块74,用于对所述第一预测结果和第二预测结果进行融合,得到最终的打款风险预测结果。
本发明实施例中,通过历史打款数据学习共享经济领域从业者的收入模式、发现已有潜在的异常打款模式,从而区分出不属于共享经济领域的、企图偷税漏税的人,避免风险;通过挖掘被打款人与签约公司间的关系,分析签约公司可能从事的业务,发现可能存在的违法经营行为的公司,解决了共享经济领域中,对代付薪酬、代征个税等操作没有专用的风险控制方法的问题。
请参考图8,本发明实施例还提供一种电子设备80,包括处理器81,存储器82,存储在存储器82上并可在所述处理器81上运行的程序或指令,该程序或指令被处理器81执行时实现上述打款风险预测模型训练方法和打款风险预测方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例还提供一种可读存储介质,所述可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述打款风险预测模型训练方法和打款风险预测方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本发明实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台电子设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。
Claims (13)
1.一种打款风险预测模型训练方法,其特征在于,包括:
获取多条第一历史打款数据;
对所述多条第一历史打款数据进行处理,得到每一条所述历史打款数据的特征向量;
对所述多条第一历史打款数据进行聚类算法处理,获取每一条所述历史打款数据的标签,所述标签用于表示该条历史打款数据为无风险打款或有风险打款;
根据所述多条第一历史打款数据的特征向量以及所述多条第一历史打款数据的标签,对神经网络进行训练,得到训练后的神经网络。
2.根据权利要求1所述的打款风险预测模型训练方法,其特征在于,
所述多条第一历史打款数据包括收款人打款数据,所述神经网络包括循环神经网络;所述循环神经网络用来得到收款人打款数据的时间分布特征。
3.根据权利要求1所述的打款风险预测模型训练方法,其特征在于,
所述多条第一历史打款数据包括商户打款数据,所述神经网络采用循环神经网络和卷积神经网络;所述循环神经网络用于得到商户打款数据的时间分布特征;所述卷积神经网络用于得到商户打款数据的空间分布特征。
4.根据权利要求1所述的打款风险预测模型训练方法,其特征在于,对神经网络进行训练前,还包括:
对输入神经网络的所述多条第一历史打款数据的特征向量进行归一化处理。
5.一种打款风险预测方法,其特征在于,包括:
获取多条第二历史打款数据与待预测的打款数据;
对所述多条第二历史打款数据与待预测的打款数据进行处理,得到每一条所述第二历史打款数据与待预测的打款数据的特征向量;
将第二历史打款数据与待预测的打款数据的特征向量分别输入至聚类算法和神经网络,并输出采用聚类算法进行预测得到的第一预测结果和采用神经网络进行预测到的第二预测结果;所述神经网络采用多条第一历史打款数据训练得到;
对所述第一预测结果和第二预测结果进行融合,得到最终的打款风险预测结果。
6.根据权利要求5所述的打款风险预测方法,其特征在于,
当第二历史打款数据与待预测的打款数据为收款人打款数据时,所述神经网络包括循环神经网络;
其中,将第二历史打款数据与待预测的打款数据的特征向量输入至神经网络算法包括:
将第二历史打款数据与待预测的打款数据的特征向量按照时间升序输入至循环神经网络算法,使所述循环神经网络得到第二历史打款数据和待预测的打款数据的时间分布特征,并根据所述时间分布特征输出第一预测结果。
7.根据权利要求5所述的打款风险预测方法,其特征在于,
当第二历史打款数据与待预测的打款数据为打款商户打款数据时,所述神经网络包括循环神经网络和卷积神经网络;
其中,将第二历史打款数据与待预测的打款数据的特征向量输入至神经网络算法包括:
将第二历史打款数据与待预测的打款数据的特征向量按照时间升序输入至循环神经网络算法,使所述循环神经网络得到第二历史打款数据和待预测的打款数据的时间分布特征,并根据所述时间分布特征输出第三预测结果;
抽取m条打款数据并按统计量有序排布m条打款数据,将排布后的m条打款数据输入值卷积神经网络,使所述卷积神经网络得到第一历史打款数据和待预测的打款数据的空间分布特征,并根据所述空间分布特征输出第四预测结果;所述打款数据包括历史打款数据与待预测的打款数据;
将所述第三预测结果和所述第四预测结果作为所述第一预测结果。
8.根据权利要求5所述的打款风险预测方法,其特征在于,还包括:
比较打款风险预测结果和打款风险预测结果阈值;
若所述打款风险预测结果大于或等于所述打款风险预测结果阈值,则报警提示所述打款风险预测结果;
若所述打款风险预测结果小于所述打款风险预测结果阈值,则不进行报警。
9.根据权利要求5所述的打款风险预测方法,其特征在于,
所述打款风险预测结果包括以下至少一项:收款人收款的异常程度;收款人从事的经济领域;商户业务模式所属的经济领域类别;商户业务模式存在违法行为的可能性。
10.一种打款风险预测模型训练装置,其特征在于,包括:
第一数据模块,用于获取多条第一历史打款数据;
第一处理模块,用于对所述多条第一历史打款数据进行处理,得到每一条所述历史打款数据的特征向量;
第二处理模块,用于对所述多条第一历史打款数据进行聚类算法处理,获取每一条所述历史打款数据的标签,所述标签用于表示该条历史打款数据为无风险打款或有风险打款;
模型训练模块,用于根据所述多条第一历史打款数据的特征向量以及所述多条第一历史打款数据的标签,对神经网络进行训练,得到训练后的神经网络。
11.一种打款风险预测装置,其特征在于,包括:
第二数据模块,用于获取多条第二历史打款数据与待预测的打款数据;
第三处理模块,用于对所述多条第二历史打款数据与待预测的打款数据进行处理,得到每一条所述第二历史打款数据与待预测的打款数据的特征向量;
第四处理模块,用于将第二历史打款数据与待预测的打款数据的特征向量分别输入至聚类算法和神经网络,并输出采用聚类算法进行预测得到的第一预测结果和采用神经网络进行预测到的第二预测结果;所述神经网络采用多条第一历史打款数据训练得到;
第五处理模块,用于对所述第一预测结果和第二预测结果进行融合,得到最终的打款风险预测结果。
12.一种电子设备,其特征在于,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1-9任一项所述打款风险预测模型训练方法和打款风险预测方法的步骤。
13.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1-9任一项所述打款风险预测模型训练方法和打款风险预测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010914882.8A CN112037001A (zh) | 2020-09-03 | 2020-09-03 | 打款风险预测模型训练方法、打款风险预测方法及其装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010914882.8A CN112037001A (zh) | 2020-09-03 | 2020-09-03 | 打款风险预测模型训练方法、打款风险预测方法及其装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112037001A true CN112037001A (zh) | 2020-12-04 |
Family
ID=73591827
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010914882.8A Pending CN112037001A (zh) | 2020-09-03 | 2020-09-03 | 打款风险预测模型训练方法、打款风险预测方法及其装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112037001A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112732983A (zh) * | 2020-12-31 | 2021-04-30 | 平安科技(深圳)有限公司 | 基于人工智能的数据检测方法、装置、服务器及存储介质 |
CN113793685A (zh) * | 2021-11-17 | 2021-12-14 | 北京智精灵科技有限公司 | 基于多维分层漂移扩散模型的认知决策评估方法及系统 |
CN116668095A (zh) * | 2023-05-16 | 2023-08-29 | 江苏信创网安数据科技有限公司 | 一种网络安全智能评估方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107886243A (zh) * | 2017-11-10 | 2018-04-06 | 阿里巴巴集团控股有限公司 | 风险识别模型构建和风险识别方法、装置及设备 |
CN109003089A (zh) * | 2018-06-28 | 2018-12-14 | 中国工商银行股份有限公司 | 风险识别方法及装置 |
CN109345260A (zh) * | 2018-10-09 | 2019-02-15 | 北京芯盾时代科技有限公司 | 一种欺诈检测模型训练方法和装置及欺诈检测方法和装置 |
CN109410036A (zh) * | 2018-10-09 | 2019-03-01 | 北京芯盾时代科技有限公司 | 一种欺诈检测模型训练方法和装置及欺诈检测方法和装置 |
CN109657890A (zh) * | 2018-09-14 | 2019-04-19 | 阿里巴巴集团控股有限公司 | 一种转账欺诈的风险确定方法及装置 |
CN110008991A (zh) * | 2019-02-26 | 2019-07-12 | 阿里巴巴集团控股有限公司 | 风险事件的识别、风险识别模型的生成方法及装置 |
CN110033362A (zh) * | 2018-11-14 | 2019-07-19 | 阿里巴巴集团控股有限公司 | 一种打款方法、装置及设备 |
CN111292195A (zh) * | 2020-02-28 | 2020-06-16 | 中国工商银行股份有限公司 | 风险账户的识别方法及装置 |
-
2020
- 2020-09-03 CN CN202010914882.8A patent/CN112037001A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107886243A (zh) * | 2017-11-10 | 2018-04-06 | 阿里巴巴集团控股有限公司 | 风险识别模型构建和风险识别方法、装置及设备 |
CN109003089A (zh) * | 2018-06-28 | 2018-12-14 | 中国工商银行股份有限公司 | 风险识别方法及装置 |
CN109657890A (zh) * | 2018-09-14 | 2019-04-19 | 阿里巴巴集团控股有限公司 | 一种转账欺诈的风险确定方法及装置 |
CN109345260A (zh) * | 2018-10-09 | 2019-02-15 | 北京芯盾时代科技有限公司 | 一种欺诈检测模型训练方法和装置及欺诈检测方法和装置 |
CN109410036A (zh) * | 2018-10-09 | 2019-03-01 | 北京芯盾时代科技有限公司 | 一种欺诈检测模型训练方法和装置及欺诈检测方法和装置 |
CN110033362A (zh) * | 2018-11-14 | 2019-07-19 | 阿里巴巴集团控股有限公司 | 一种打款方法、装置及设备 |
CN110008991A (zh) * | 2019-02-26 | 2019-07-12 | 阿里巴巴集团控股有限公司 | 风险事件的识别、风险识别模型的生成方法及装置 |
CN111292195A (zh) * | 2020-02-28 | 2020-06-16 | 中国工商银行股份有限公司 | 风险账户的识别方法及装置 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112732983A (zh) * | 2020-12-31 | 2021-04-30 | 平安科技(深圳)有限公司 | 基于人工智能的数据检测方法、装置、服务器及存储介质 |
CN112732983B (zh) * | 2020-12-31 | 2023-09-12 | 平安科技(深圳)有限公司 | 基于人工智能的数据检测方法、装置、服务器及存储介质 |
CN113793685A (zh) * | 2021-11-17 | 2021-12-14 | 北京智精灵科技有限公司 | 基于多维分层漂移扩散模型的认知决策评估方法及系统 |
CN113793685B (zh) * | 2021-11-17 | 2022-03-25 | 北京智精灵科技有限公司 | 基于多维分层漂移扩散模型的认知决策评估方法及系统 |
CN116668095A (zh) * | 2023-05-16 | 2023-08-29 | 江苏信创网安数据科技有限公司 | 一种网络安全智能评估方法及系统 |
CN116668095B (zh) * | 2023-05-16 | 2024-03-29 | 江苏信创网安数据科技有限公司 | 一种网络安全智能评估方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Carneiro et al. | A data mining based system for credit-card fraud detection in e-tail | |
Sun et al. | Predicting credit card delinquencies: An application of deep neural networks | |
CN112037001A (zh) | 打款风险预测模型训练方法、打款风险预测方法及其装置 | |
CN108062674B (zh) | 基于gps的订单欺诈识别方法、系统、存储介质和电子设备 | |
CN111192131A (zh) | 金融风险预测方法、装置和电子设备 | |
US20070156557A1 (en) | Enhancing Delinquent Debt Collection Using Statistical Models of Debt Historical Information and Account Events | |
CN111046184B (zh) | 文本的风险识别方法、装置、服务器和存储介质 | |
CN110852881B (zh) | 风险账户识别方法、装置、电子设备及介质 | |
US11423442B2 (en) | Method and system for predicting relevant offerings for users of data management systems using machine learning processes | |
CN111260189B (zh) | 一种风险控制方法、装置、计算机系统及可读存储介质 | |
WO2022155740A1 (en) | Systems and methods for outlier detection of transactions | |
Baghdasaryan et al. | Improving tax audit efficiency using machine learning: The role of taxpayer’s network data in fraud detection | |
Li et al. | Stock market analysis using social networks | |
CN115545886A (zh) | 逾期风险识别方法、装置、设备及存储介质 | |
CN115841345B (zh) | 跨境大数据智能化分析方法、系统以及存储介质 | |
US20240161117A1 (en) | Trigger-Based Electronic Fund Transfers | |
US11663658B1 (en) | Assessing the presence of selective omission via collaborative counterfactual interventions | |
CN116662546A (zh) | 投诉文本标注方法、装置、设备和介质 | |
TWI530901B (zh) | 自動化財務管理診斷方法及其系統 | |
Wu et al. | Customer churn prediction for commercial banks using customer-value-weighted machine learning models | |
WO2022143431A1 (zh) | 一种反洗钱模型的训练方法及装置 | |
Xu et al. | Early warning of telecom customer churn based on multialgorithm model optimization | |
Oliverio et al. | A hybrid model for fraud detection on purchase orders | |
US20220414663A1 (en) | Comparative features for machine learning based classification | |
MUN et al. | A customer credit Prediction Researched to Improve Credit Stability based on Artificial Intelligence |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |