CN116485511A - 金融行为检测方法及相关装置、电子设备和存储介质 - Google Patents
金融行为检测方法及相关装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN116485511A CN116485511A CN202310319239.4A CN202310319239A CN116485511A CN 116485511 A CN116485511 A CN 116485511A CN 202310319239 A CN202310319239 A CN 202310319239A CN 116485511 A CN116485511 A CN 116485511A
- Authority
- CN
- China
- Prior art keywords
- data
- sample
- financial
- behavior
- financial behavior
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 142
- 238000003860 storage Methods 0.000 title claims abstract description 39
- 230000006399 behavior Effects 0.000 claims abstract description 641
- 238000012549 training Methods 0.000 claims abstract description 197
- 230000002159 abnormal effect Effects 0.000 claims abstract description 32
- 238000009826 distribution Methods 0.000 claims description 145
- 238000000034 method Methods 0.000 claims description 49
- 238000012795 verification Methods 0.000 claims description 33
- 238000012216 screening Methods 0.000 claims description 17
- 230000004044 response Effects 0.000 claims description 13
- 238000002790 cross-validation Methods 0.000 claims description 7
- 230000000694 effects Effects 0.000 claims description 7
- 230000003190 augmentative effect Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 12
- 238000011156 evaluation Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 6
- 238000012360 testing method Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 4
- 238000013434 data augmentation Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000010365 information processing Effects 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 230000003321 amplification Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 238000003199 nucleic acid amplification method Methods 0.000 description 3
- 238000007637 random forest analysis Methods 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000004138 cluster model Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012407 engineering method Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013101 initial test Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Technology Law (AREA)
- Marketing (AREA)
- Finance (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Strategic Management (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Accounting & Taxation (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本申请公开了一种金融行为检测方法及相关装置、电子设备和存储介质,其中,金融行为检测方法包括:获取金融行为数据,并基于金融行为检测模型对金融行为数据进行检测,得到金融行为数据的行为标签;行为标签至少表征金融行为数据是否属于异常金融行为,金融行为检测模型基于训练样本集进行训练得到,训练样本集包含标注有样本行为标签的样本金融行为数据,样本行为标签至少表征样本金融行为数据是否属于异常金融行为,训练样本集基于初始样本集进行数据增强得到,且训练样本集内不同样本行为标签的样本金融行为数据具有相同数量级。上述方案,能够提高金融行为检测结果的准确性。
Description
技术领域
本申请涉及数据处理技术领域,特别是涉及一种金融行为检测方法及相关装置、电子设备和存储介质。
背景技术
随着社会发展、人均可支配收入的提高,越来越多的人选择购买金融作为规避生活风险的工具,金融场景因此有了持续高效发展。与此同时,随着机器学习技术的不断应用,金融业试图改变传统的需要投入大量人力的风险管理模式,开始尝试通过机器学习等智能化技术进行风险管理。
目前,一般是由数据科学家主导,采用特征工程方法对数据进行分析,然后特征构造、降维,采用基于机器学习如逻辑回归、决策树、随机森林、XGB、神经网络等方法,对获取的多维度特征需求场景数据进行建模分析,根据验证结果多次迭代模型超参数,选出验证集上最优模型。但是,由于金融场景数据分布大多为“长尾分布”,数据正负样本存在失衡现象,数据分布的失衡会使模型对少样本的特征难以学习,导致模型在少样本标签的召回率较低,且金融场景数据大多会随时间变化,数据分布常发生偏态迁移,因此,导致训练后的模型鲁棒性较差,进而难以保障金融行为检测结果的准确性。有鉴于此,如何提高金融行为检测结果的准确性成为亟待解决的问题。
发明内容
本申请主要解决的技术问题是提供一种金融行为检测方法及相关装置、电子设备和存储介质,能够提高金融行为检测结果的准确性。
为了解决上述技术问题,本申请第一方面提供了一种金融行为检测方法,包括:获取金融行为数据,并基于金融行为检测模型对金融行为数据进行检测,得到金融行为数据的行为标签;行为标签至少表征金融行为数据是否属于异常金融行为,金融行为检测模型基于训练样本集进行训练得到,训练样本集包含标注有样本行为标签的样本金融行为数据,样本行为标签至少表征样本金融行为数据是否属于异常金融行为,训练样本集基于初始样本集进行数据增强得到,且训练样本集内不同样本行为标签的样本金融行为数据具有相同数量级,初始样本集内不同样本行为标签的样本金融行为数据各自数据分布之间的散度、训练样本集内不同样本行为标签的样本金融行为数据各自数据分布之间的散度两者差异低于预设下限值。
为了解决上述技术问题,本申请第二方面提供了一种金融行为检测装置,包括获取模块和检测模块。其中,获取模块用于获取金融行为数据;检测模块用于基于金融行为检测模型对金融行为数据进行检测,得到金融行为数据的行为标签;其中,行为标签至少表征金融行为数据是否属于异常金融行为,金融行为检测模型基于训练样本集进行训练得到,训练样本集包含标注有样本行为标签的样本金融行为数据,样本行为标签至少表征样本金融行为数据是否属于异常金融行为,训练样本集基于初始样本集进行数据增强得到,且训练样本集内不同样本行为标签的样本金融行为数据具有相同数量级,初始样本集内不同样本行为标签的样本金融行为数据各自数据分布之间的散度、训练样本集内不同样本行为标签的样本金融行为数据各自数据分布之间的散度两者差异低于预设下限值。
为了解决上述技术问题,本申请第三方面提供了一种电子设备,包括相互耦接的存储器和处理器,存储器中存储有程序指令,处理器用于执行程序指令以实现上述第一方面中的金融行为检测方法。
为了解决上述技术问题,本申请第四方面提供了一种计算机可读存储介质,存储有能够被处理器运行的程序指令,程序指令用于实现上述第一方面中的金融行为检测方法。
上述方案,通过获取金融行为数据,并基于金融行为检测模型对金融行为数据进行检测,得到金融行为数据的行为标签;行为标签至少表征金融行为数据是否属于异常金融行为,金融行为检测模型基于训练样本集进行训练得到,训练样本集包含标注有样本行为标签的样本金融行为数据,样本行为标签至少表征样本金融行为数据是否属于异常金融行为,训练样本集基于初始样本集进行数据增强得到,且训练样本集内不同样本行为标签的样本金融行为数据具有相同数量级,初始样本集内不同样本行为标签的样本金融行为数据各自数据分布之间的散度、训练样本集内不同样本行为标签的样本金融行为数据各自数据分布之间的散度两者差异低于预设下限值,一方面训练样本集基于初始样本集进行数据增强得到,且训练样本集内不同样本行为标签的样本金融行为数据具有相同数量级,进而有效解决金融行为数据分布失衡的问题,另一方面初始样本集内不同样本行为标签的样本金融行为数据各自数据分布之间的散度、训练样本集内不同样本行为标签的样本金融行为数据各自数据分布之间的散度两者差异低于预设下限值,进而在对初始样本集进行数据增强的过程中,尽可能地保障初始样本集内数据的特征分布,再基于训练样本集训练金融行为检测模型,使金融行为检测模型的可迁移性和鲁棒性很好,在此基础上,基于金融行为检测模型对金融行为数据进行检测,能够提高金融行为检测结果的准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本申请的实施例,并与说明书一起用于说明本申请的技术方案。
图1是本申请金融行为检测方法一实施例的流程示意图;
图2是字段核验库中定义的若干键值对一实施例的示意图;
图3是训练金融行为检测模型一实施例的示意图;
图4是本申请金融行为检测方法一实施例的框架示意图;
图5是本申请金融行为检测装置一实施例的框架示意图;
图6是本申请电子设备一实施例的框架示意图;
图7是本申请计算机可读存储介质一实施例的框架示意图。
具体实施方式
下面结合说明书附图,对本申请实施例的方案进行详细说明。
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本申请。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。此外,本文中的“多”表示两个或者多于两个。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。“若干”表示至少一个。本文的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
请参阅图1,图1是本申请金融行为检测方法一实施例的流程示意图。具体而言,可以包括如下步骤:
步骤S11:获取金融行为数据。
在一个实施场景中,金融行为数据基于金融行为的使用场景进行确定。示例性地,在保险理赔场景中,获取的金融行为数据可以为保单数据;或者,在存储业务场景中,获取的金融行为数据可以为存储凭证。可以理解的是,上述所示方式仅为实际应用中可能采用的一种方式,并不因此而限定实际应用中金融行为数据的数据内容,具体金融行为数据可以根据实际情况进行确定,在此不做限定。
步骤S12:基于金融行为检测模型对金融行为数据进行检测,得到金融行为数据的行为标签。
在一个实施场景中,在获取到金融行为检测数据之后,可以通过金融行为检测模型对金融行为数据进行检测,得到金融行为数据的行为标签,行为标签至少表征金融行为数据是否属于异常金融行为。示例性地,在保险理赔场景中,金融行为数据可以为保单数据,通过金融行为检测模型对保单数据进行检测,可以确定保险理赔的保单数据是否属于异常金融行为,即保单数据是否涉及欺诈行为,若保险理赔的保单数据属于异常金融行为,则至少确定保单数据涉及欺诈行为;进一步地,还可以检测保单数据涉及欺诈金额。即若保险理赔的保单数据属于异常金融行为,可以确定保单数据涉及欺诈行为,且可以预测欺诈金额;若保险理赔的保单数据不属于异常金融行为,可以确定保单数据无欺诈行为,则欺诈金额为0。或者,在存储业务场景中,金融行为数据可以为存储凭证,通过金额行为检测模型对存储凭证进行检测,可以确定存储业务中存储凭证是否属于异常金融行为,即存储凭证是否存在存储利率异常和存储利率的异常值;可以理解的是,若存储业务的存储凭证存在异常,可以确定存储凭证中存储利率不是机构规定存储利率,并对存储利率与规定存储利率进行计算,确定存储利率的异常值,即存储利率增大/减小的具体数值;若存储业务的存储凭证无异常,可以确定存储凭证中存储利率是机构规定存储利率,则存储利率的异常值为0。
本公开实施例中,金融行为检测模型基于训练样本集进行训练得到,训练样本集包含标注有样本行为标签的样本金融行为数据,样本行为标签至少表征样本金融行为数据是否属于异常金融行为,示例性地,在保险理赔场景中,样本金融行为数据可以是样本保单数据,样本保单数据标注有样本行为标签,样本行为标签表征样本保单数据是否属于异常金融行为,即样本保单数据是否存在欺诈,还可以包括保单数据存在欺诈时,欺诈金额数值。或者,在贷款业务场景中,样本金融行为数据可以是样本贷款合同,样本贷款合同标注有样本行为标签,样本行为标签表征样本贷款合同是否属于异常金融行为,即样本贷款合同是否存在欺诈。此外,训练样本集基于初始样本集进行数据增强得到,且训练样本集内不同样本行为标签的样本金融行为数据具有相同数量级,初始样本集内不同样本行为标签的样本金融行为数据各自数据分布之间的散度、训练样本集内不同样本行为标签的样本金融行为数据各自数据分布之间的散度两者差异低于预设下限值。
在一个实施场景中,可以根据金融行为场景获取初始样本集,作为一种可能的实施方式,可以将金融行为场景中的数据直接作为初始样本,进而通过初始样本,汇聚得到初始样本集,示例性地,在保险理赔业务场景中,可以通过保险公司获取保单数据,通过保单数据汇聚得到初始样本集。区别于前述公开实施方式,由于金融行为数据的数据类型可以包括但不限于:连续数值型、离散数值型、时间型、文本类型等等,因此对金融行为数据中数据先进行核验,具体地,可以先获取字段核验库;字段核验库中定义有若干键值对,键值对中的键表征字段名称,键值对中的值表征数值类型;并基于字段核验库,在时间维度和标签维度对金融行为数据集内数据逐条筛选,得到初始样本集。上述方式,通过获取字段核验库,并基于字段核验库,在时间维度和标签维度对金融行为数据集内数据逐条筛选,得到初始样本集,进而通过在时间维度和标签维度对金融行为数据集内数据逐条筛选,有助于提高初始样本集的规范性,进一步提高金融行为检测模型的迁移性和鲁棒性。
在一个具体实施场景中,可以先获取字段核验库,由于字段核验库中定义有若干键值对,其中键值对中的键表征字段名称,键值对中的值表征数值类型。示例性地,可以参阅图2,图2是字段核验库中定义的若干键值对一实施例的示意图,字段核验库是由{Key:Value}成对构成的,不同的Key表征字段名称,即可以表征金融行为场景中数据表头名,Value表征数值类型,即可以表征对应金融行为场景中数据表头名的数据类型。例如,{“姓名”、“名字”:“string”}中Key为“姓名”或“名字”,Value为string字符串;或者,{“金额”:“float”}中Key为“金额”,Value为float浮点型。再通过字段核验库来判断金融行为数据集内数据的字段名称与数值类型是否满足第一条件,第一条件可以是字段名称与数值类型满足若干键值的对应关系,第一条件也可以是金融行为数据集内字段名称与数值类型满足若干键值的对应关系的数据占比不低于预设阈值,预设阈值可以设置为0.8、0.9等等,第一条件可以根据实际情况进行确定,在此不做具体限定。响应于金融行为数据集内数据的字段名称与数值类型不满足第一条件,对数值类型进行修正。例如,判断金融行为数据集内数据{“姓名”:“float”}字段名称与数值类型是否满足第一条件,由于数据的字段名称“姓名”与数值类型“float”不满足第一条件,对数值类型进行修正,即将“float”修正为“string”,得到新的数据{“姓名”:“string”}。上述方式,通过判断金融行为数据集内数据的字段名称与数值类型是否满足第一条件,进而对不满度第一条件的数据的数值类型进行修正,进而使获取到的初始样本集更规范,进一步使训练得到的金融行为检测模型有更好的技术效果。
进一步地,再基于字段核验库,在时间维度和标签维度对金融行为数据集内数据逐条筛选,得到初始样本集。作为一种可能的实施方式,通过字段核验库,基于时间维度和标签维度对金融行为数据集内数据逐条筛选,将筛选得到的数据汇集得到初始样本集。区别于前述实施方式,由于金融行为数据会随着时间、业务场景等因素影响不断累积和变化,因此可以对金融行为数据进行划分,先基于字段核验库,对金融行为数据集内数据以预设时间区间进行划分,得到至少一个第一初始子样本集;例如,预设时间区间为1年,将金融行为数据集内数据时间区间为1年的数据作为第一初始子样本集,当然,预设时间区间也可以为1月、1季度等等,在此不做具体限定。再基于行为标签,对各第一初始子样本集内数据进行筛选,得到第二初始子样本集;例如,在保险理赔场景中,行为标签可以包括保单数据存在欺诈、保单数据不存在欺诈,进而基于行为标签,将各第一初始子样本集内数据进行筛选,得到第二初始子样本集,第二初始子样本集可以为预设时间区间内保单数据存在欺诈的数据。再对第二初始子样本集,融合得到初始样本集,初始样本集内包含不同行为标签的金融行为数据。可以理解的是,可以采用离散型标签数据用于分类模型训练、连续型标签用于回归模型训练、标签与时间强相关型用于机器学习时间序列模型训练、无标签列数据用于聚类模型训练。然后不同时间段内相同标签的数据可以根据实际情况进行合并,并根据获取数据的时间进行排序,进而可以有序的对模型进行训练。上述方式,通过基于字段核验库,对金融行为数据集内数据以预设时间区间进行划分,得到至少一个第一初始子样本集,再基于行为标签,对各第一初始子样本集内数据进行筛选,得到第二初始子样本集,并对第二初始子样本集,融合得到初始样本集,通过对金融行为数据集中数据进行筛选,进而得到初始样本集,使初始样本集使用更高效方便。
需要说明的是,由于金融行为场景中数据标签分布失衡,即数据正负样本存在失衡现象,数据分布的失衡会使模型对少样本的特征难以学习,导致模型在少样本标签的召回率较低,进而可以对初始样本集进行数据增强得到训练样本集,进而避免数据中失衡现象。
在一个实施场景中,可以将初始样本集内不同样本行为标签的样本金融行为数据各自数据分布,作为参考数据,基于参考数据对初始样本集内不同样本行为标签的样本金融行为数据进行数据增强,得到训练样本集,训练样本集内不同样本行为标签的样本金融行为数据具有相同数量级。例如,在保险理赔场景中,存在欺诈保单数据与不存在欺诈保单数据具有相同数量级。
在另一个实施场景中,区别于前述实施方式,为了使扩增数据的准确性更高,可以基于初始样本集,扩增得到目标样本集,目标样本集内不同样本行为标签的样本金融行为数据具有相同数量级。示例性地,通过随机生成的样本数据,对初始样本集进行扩增,得到目标样本集;获取初始样本集内不同样本行为标签的样本金融行为数据各自数据分布之间的第一散度,并获取目标样本集内不同样本行为标签的样本金融行为数据各自数据分布之间的第二散度;响应于第一散度与第二散度之间的散度差异不低于预设下限值,基于散度差异,更新目标样本集内相对于初始样本集扩增的样本金融行为数据,并重新获取第二散度,直至散度差异低于预设下限值,将最新目标样本集作为训练样本集。上述方式,通过获取第一散度和第二散度,进而通过第一散度和第二散度之间的差异,更新目标样本集内相对于初始样本集扩增的样本金融行为数据,有助于提高对于初始样本集扩增的样本金融行为数据的准确性,进而提高训练样本集内数据的可迁移性,进一步提高金融行为检测模型的鲁棒性,同时提高对金融行为数据进行检测,得到金融行为数据的行为标签的准确性。
在一个具体实施场景中,样本金融行为数据涉及若干数据项,数据项可以是不同样本金融行为标签,数据项还可以是预设时间维度内不同样本金融行为标签,进而通过数据项可以获取对应的样本金融行为数据,在基于初始样本集,扩增得到目标样本集之后,可以基于目标样本集,分别选择若干数据项,作为目标项,目标项对应的样本金融行为数据具有相同样本金融行为标签。再获取初始样本集内不同样本行为标签的样本金融行为数据在目标项上数据分布之间的第一散度,示例性地,表达式可以表示如下:
其中,表征第一散度,m、n(m>>n,m:n≈1000:1)表征不同样本行为标签的样本金融行为数据,k表征样本金融行为数据中信息特征,对每个信息特征模拟高斯分布得到k个数据分布,且概率密度函数记为Fk(x),其中描述的不同样本行为标签的样本金融行为数据分布由m和n个数据构成,数据分布分别为/>和/>再获取目标样本集内不同样本行为标签的样本金融行为数据在目标项上数据分布之间的第二散度,示例性地,表达式可以表示如下:
其中,表征第二散度,m、n′表征目标样本集内不同样本行为标签的样本金融行为数据,n′=+nt(m≥n′,m:n′≈1:1),nt为扩增样本目标样本集,k表征样本金融行为数据中信息特征,对每个信息特征模拟高斯分布得到k个数据分布,且概率密度函数记为Fk(x),其中描述的不同样本行为标签的样本金融行为数据分布由m和n′个数据构成,数据分布分别为/>和/>在得到第一散度和第二散度之后,获取第一散度与第二散度之间的散度差异,响应于目标项上第一散度与第二散度之间的散度差异不低于预设下限值,基于目标项上的散度差异,更新目标金融行为数据中目标项的数据值;目标金融行为数据为目标样本集内相对于初始样本集扩增的样本金融行为数据。预设下限值可以为10-3、10-4等等,在此不做具体限定。上述方式,通过获取第一散度和第二散度,并响应于目标项上第一散度与第二散度之间的散度差异不低于预设下限值,基于目标项上的散度差异,更新目标金融行为数据中目标项的数据值,进而使目标金融行为数据中目标项的数据值更准确性,进而提高训练样本集内数据的可迁移性。
在一个具体实施场景中,为了获取目标项上散度差异,可以直接获取第一散度与第二散度之间的差值绝对值,将差值绝对值作为目标项上散度差异。区别于前述实施方式,可以进一步提高散度差异的准确性,先获取目标项上第一散度与第二散度之间差值绝对值,示例性地,表达式可以表示如下:
其中,Δk表征第一散度与第二散度之间差值绝对值,DkL表征第一散度,D′KL表征第二散度。并获取参考金融行为数据在目标项上的目标数据分布,参考金融行为数据为初始样本集内与目标金融行为数据标注有相同样本行为标签的样本金融行为数据,再基于目标数据分布对差值绝对值进行归一化,得到散度差异。示例性地,表达式可以表示如下:
其中,Δk-norm表征散度差异,Δk表征第一散度与第二散度之间差值绝对值,表征参考金融行为数据在目标项上的目标数据分布。上述方式,通过获取目标项上第一散度与第二散度之间差值绝对值,并获取参考金融行为数据在目标项上的目标数据分布,再基于目标数据分布对差值绝对值进行归一化,得到散度差异,有助于提高散度差异的准确性,进而提高训练样本集内数据的可迁移性。
进一步地,在得到目标项上的散度差异之后,基于目标项上的散度差异,更新目标金融行为数据中目标项的数据值。具体地,可以将目标项上的散度差异作为动态相对值,对目标金融行为数据中目标项的数据值进行调整。例如,将目标项上的散度差异Δk-norm作为动态相对值,对目标金融行为数据中目标项的数据值进行调整,即更新nt,示例性地,表达式可以表示如下:
nt+1=|nt-Δk-norm|
其中,nt为扩增样本目标样本集,nt+1为更新后的扩增样本目标样本集,目标金融行为数据中目标项的数据值为n′(n′=n+nt),对目标金融行为数据中目标项的数据值进行调整,直至第一散度与第二散度之间的散度差异低于预设下限值,示例性地,表达式可以表示如下:
Δk-norm<ε
其中,Δk-norm表征散度差异,ε表征预设下限值,进而将最新更新的目标金融行为数据中目标项的数据值,作为目标金融行为数据中目标项的数据值。此时,初始样本集内不同样本行为标签的样本金融行为数据在目标项上数据分布之间的第一散度近似等于目标样本集内不同样本行为标签的样本金融行为数据各自数据分布之间的第二散度,则训练样本集内不同样本行为标签的样本金融行为数据具有相同数量级,即初始样本集内不同样本行为标签的样本金融行为数据各自数据分布之间的散度、训练样本集内不同样本行为标签的样本金融行为数据各自数据分布之间的散度两者差异低于预设下限值。上述方式,通过将目标项上的散度差异作为动态相对值,对目标金融行为数据中目标项的数据值进行调整,有助于提高目标金融行为数据中目标项的数据值的准确性,进而提高训练样本集内数据的准确性。
需要说明的是,通过基于初始样本集进行数据增强得到训练样本集,且训练样本集内不同样本行为标签的样本金融行为数据具有相同数量级,初始样本集内不同样本行为标签的样本金融行为数据各自数据分布之间的散度、训练样本集内不同样本行为标签的样本金融行为数据各自数据分布之间的散度两者差异低于预设下限值,进而通过训练样本集对金融行为检测模型进行训练,金融行为检测模型基于训练样本集进行训练得到,训练样本集包含标注有样本行为标签的样本金融行为数据,样本行为标签至少表征样本金融行为数据是否属于异常金融行为。此外,基于散度约束的方法生成的失衡样本金融行为数据,既满足原有数据分布又扩充了类别较少的样本数量,较好解决的金融领域样本失衡严重的问题,进而尽可能地避免模型训练中数据标签分布失衡的问题。
在一个实施场景中,在获取到训练样本集之后,可以通过训练样本集内的数据训练金融行为检测模型,并通过金融行为检测模型的预测结果、训练样本集标注的样本行为标签之间的差异,调整金融行为检测模型的网络参数。
在另一个实施场景中,区别于前述实施方式,为了提高金融行为检测模型的鲁棒性,可以通过先获取预训练样本数据,预训练样本数据包括训练样本集内若干数据批次的样本金融行为数据,且各数据批次内样本金融行为数据的样本行为标签相同,即预训练样本数据可以包括若干批次相同样本行为标签对应的样本金融行为数据,进而基于预训练样本数据,采用k折交叉验证法训练参考行为检测模型。示例性地,可以将机器学习基础模型作为基础模型,通过预训练样本数据,采用k折交叉验证法对基础模型进行训练,得到参考行为检测模型。机器学习基础模型可以采用但不限于SVM(Support Vector Machine,支持向量机)、RF(Random Forest,随机森林)、LightGBM(Light Gradient Boosting Machine,轻量的梯度提升机)等等。上述方式,通过基于预训练样本数据,采用k折交叉验证法训练参考行为检测模型,有助于提高金融行为模型的鲁棒性。
进一步地,基于训练样本集内当前数据批次的样本金融行为数据,训练金融行为检测模型,得到第一特征数据分布,金融行为检测模型在参考行为检测模型的基础上训练得到,训练样本集内的数据批次基于时间维度进行确定,且各数据批次内样本金融行为数据的样本行为标签相同;再基于第一特征数据分布与第二特征数据分布的中心值,训练经训练样本集内当前数据批次的样本金融行为数据训练的金融行为检测模型,第二特征数据分布基于历史批次的样本金融行为数据训练得到,且第一特征数据分布与第二特征数据分布对应的样本金融行为数据的样本行为标签相同。上述方式,通过基于训练样本集内当前数据批次的样本金融行为数据,训练金融行为检测模型,得到第一特征数据分布,再基于第一特征数据分布与第二特征数据分布的中心值,训练经训练样本集内当前数据批次的样本金融行为数据训练的金融行为检测模型,进而通过不同时间区间、不同标签样本金融行为数据对金融行为检测模型进行训练,有助于提高金融行为检测模型的鲁棒性,进而提高金融行为检测结果的准确性。
在一个具体实施场景中,为了获取第二特征数据分布的中心值,可以通过基于训练样本集内各数据批次的样本金融行为数据,训练金融行为检测模型,得到参考特征数据分布,基于参考特征数据分布中众数作为第二特征数据分布的中心值,区别于前述实施方式,可以将参考特征数据分布的均值,作为第二特征数据分布的中心值。上述方式,通过基于训练样本集内各数据批次的样本金融行为数据,训练金融行为检测模型,得到参考特征数据分布,再将参考特征数据分布的均值,作为第二特征数据分布的中心值,有助于提高第二特征数据分布的中心值的准确性,进而提高金融行为检测模型的鲁棒性。
请参阅图3,图3是训练金融行为检测模型一实施例的示意图,如图3所示,T为不同批次X和Y为特征与标签,D为特征数据分布。可以先获取预训练样本数据,预训练样本数据包括训练样本集内若干数据批次的样本金融行为数据,各数据批次内样本金融行为数据的样本行为标签相同,并基于预训练样本数据,采用k折交叉验证法训练参考行为检测模型。再基于训练样本集内当前数据批次的样本金融行为数据,训练金融行为检测模型,得到第一特征数据分布,金融行为检测模型在参考行为检测模型的基础上训练得到,训练样本集内的数据批次基于时间维度进行确定;并获取第二特征数据分布的中心值,具体地,基于训练样本集内各数据批次的样本金融行为数据,训练金融行为检测模型,得到参考特征数据分布,并将参考特征数据分布的均值,作为第二特征数据分布的中心值。再基于第一特征数据分布与第二特征数据分布的中心值,训练经训练样本集内当前数据批次的样本金融行为数据训练的金融行为检测模型,第二特征数据分布基于历史批次的样本金融行为数据训练得到,且第一特征数据分布与第二特征数据分布对应的样本金融行为数据的样本行为标签相同。可以理解的是,在金融行为检测模型训练的过程中,每批次数据,需引入原有的数据分布并归一化,输入数据分布基于此,增强金融行为检测模型的鲁棒性。
此外,基于训练样本集进行训练得到金融行为检测模型过程中,可以采用基于贝叶斯优化,执行超参数自动化寻优以减小人工干预,降低成本。首先记录初试超参数及多几轮历史超参数,然后多轮超参数利用贝叶斯算法,计算后验概率推导出下一个最优效果的超参数点。示例性地,已知t轮超参数,则t+1轮超参数的选取可在t轮的基础上预测超参数最大或然值xt+1。表达式可以表示如下:
其中,f(xi)为第xi超参数上的效果,进而通过迭代不断更新最新超参数,完善贝叶斯优化算法的下一点预测。再针对初始超参数效果极差的训练批次,采用连续减半策略的早停策略(Successive Halving,SH)实现,减小模型训练次数过多造成的计算资源浪费。
上述方案,通过获取金融行为数据,并基于金融行为检测模型对金融行为数据进行检测,得到金融行为数据的行为标签;行为标签至少表征金融行为数据是否属于异常金融行为,金融行为检测模型基于训练样本集进行训练得到,训练样本集包含标注有样本行为标签的样本金融行为数据,样本行为标签至少表征样本金融行为数据是否属于异常金融行为,训练样本集基于初始样本集进行数据增强得到,且训练样本集内不同样本行为标签的样本金融行为数据具有相同数量级,初始样本集内不同样本行为标签的样本金融行为数据各自数据分布之间的散度、训练样本集内不同样本行为标签的样本金融行为数据各自数据分布之间的散度两者差异低于预设下限值,一方面训练样本集基于初始样本集进行数据增强得到,且训练样本集内不同样本行为标签的样本金融行为数据具有相同数量级,进而有效解决金融行为数据分布失衡的问题,另一方面初始样本集内不同样本行为标签的样本金融行为数据各自数据分布之间的散度、训练样本集内不同样本行为标签的样本金融行为数据各自数据分布之间的散度两者差异低于预设下限值,进而在对初始样本集进行数据增强的过程中,尽可能地保障初始样本集内数据的特征分布,再基于训练样本集训练金融行为检测模型,使金融行为检测模型的可迁移性和鲁棒性很好,在此基础上,基于金融行为检测模型对金融行为数据进行检测,能够提高金融行为检测结果的准确性。
请参阅图4,图4是本申请金融行为检测方法一实施例的框架示意图,金融行为检测方法可以分为三部分:数据采集、模型构建和模型部署。具体地,在数据采集过程中,可以先获取金融行为数据集和字段核验库,并基于字段核验库对金融行为数据集内数据的字段名称与数值类型进行判断,进而有效地对数据的数值类型进行修正,再基于字段核验库,在时间维度和标签维度对金融行为数据集内数据逐条筛选,得到初始样本集。在模型构建之前,可以将初始样本集分为训练数据和测试数据。训练数据在模型构建过程中先进行数据增强得到训练样本集,再通过训练样本集训练金融行为检测模型,并执行超参数寻优,得到最优的金融行为检测模型。测试数据用于对金融行为检测模型进行测试,即将测试数据输入金融行为检测模型,预测得到金融行为数据的行为标签,基于行为标签对金融行为检测模型进行精度评价,进而得到评估报告,通过评估报告可继续指导前向步骤调整。示例性地,评估报告信息包括:数据信息、建模模型信息、金融业务评估指标、特征信息。数据信息包括多个批次不同时间、地区数据描述;建模模型信息包括模型类型、大小等基本模型信息、模型参数动态变化增量信息。金融业务评估指标包括精准率、召回率、F1得分等模型内部评估指标;理赔保单的平均费率、损失率、赔付率等金融业务评估指标。特征信息包括数据扩充前后特征分布、特征重要度等特征描述,用于后续特征血缘、特征复用,最终,根据评估报告模板反馈预警模块,发送金融相关业务部门预警信息。例如,在保险理赔场景中,正负样本数量=200000:200,根据前述公开实施例中的数据增强对负样本数量进行扩增,进而得到正负样本数量=200000:180000,扩充前后F1从23.3%提升至78%;在模型采用三个不同时间、地区场景数据进行增量学习训练,前后F1从78%提升至88%;采用超参数寻优算法寻找最优超参数,前后F1从88%提升至90%。经过数据扩充、增量学习训练、超参数寻优算法,虚假保单效果,F1从23.3%提升至90%,可有效用于金融场景自动化建模,进而提高金融行为数据模型检测结果的准确性。
上述方案,通过获取金融行为数据,并基于金融行为检测模型对金融行为数据进行检测,得到金融行为数据的行为标签;行为标签至少表征金融行为数据是否属于异常金融行为,金融行为检测模型基于训练样本集进行训练得到,训练样本集包含标注有样本行为标签的样本金融行为数据,样本行为标签至少表征样本金融行为数据是否属于异常金融行为,训练样本集基于初始样本集进行数据增强得到,且训练样本集内不同样本行为标签的样本金融行为数据具有相同数量级,初始样本集内不同样本行为标签的样本金融行为数据各自数据分布之间的散度、训练样本集内不同样本行为标签的样本金融行为数据各自数据分布之间的散度两者差异低于预设下限值,一方面训练样本集基于初始样本集进行数据增强得到,且训练样本集内不同样本行为标签的样本金融行为数据具有相同数量级,进而有效解决金融行为数据分布失衡的问题,另一方面初始样本集内不同样本行为标签的样本金融行为数据各自数据分布之间的散度、训练样本集内不同样本行为标签的样本金融行为数据各自数据分布之间的散度两者差异低于预设下限值,进而在对初始样本集进行数据增强的过程中,尽可能地保障初始样本集内数据的特征分布,再基于训练样本集训练金融行为检测模型,使金融行为检测模型的可迁移性和鲁棒性很好,在此基础上,基于金融行为检测模型对金融行为数据进行检测,能够提高金融行为检测结果的准确性。
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
请参阅图5,图5是本申请金融行为检测装置一实施例的框架示意图。金融行为检测装置50包括获取模块51和检测模块52。其中,获取模块用于获取金融行为数据;检测模块用于基于金融行为检测模型对金融行为数据进行检测,得到金融行为数据的行为标签;其中,行为标签至少表征金融行为数据是否属于异常金融行为,金融行为检测模型基于训练样本集进行训练得到,训练样本集包含标注有样本行为标签的样本金融行为数据,样本行为标签至少表征样本金融行为数据是否属于异常金融行为,训练样本集基于初始样本集进行数据增强得到,且训练样本集内不同样本行为标签的样本金融行为数据具有相同数量级,初始样本集内不同样本行为标签的样本金融行为数据各自数据分布之间的散度、训练样本集内不同样本行为标签的样本金融行为数据各自数据分布之间的散度两者差异低于预设下限值。
上述方案,一方面训练样本集基于初始样本集进行数据增强得到,且训练样本集内不同样本行为标签的样本金融行为数据具有相同数量级,进而有效解决金融行为数据分布失衡的问题,另一方面初始样本集内不同样本行为标签的样本金融行为数据各自数据分布之间的散度、训练样本集内不同样本行为标签的样本金融行为数据各自数据分布之间的散度两者差异低于预设下限值,进而在对初始样本集进行数据增强的过程中,尽可能地保障初始样本集内数据的特征分布,再基于训练样本集训练金融行为检测模型,使金融行为检测模型的可迁移性和鲁棒性很好,在此基础上,基于金融行为检测模型对金融行为数据进行检测,能够提高金融行为检测结果的准确性。
在一些公开实施例中,金融行为检测装置50包括数据扩增模块,数据扩增模块用于基于初始样本集进行数据增强,数据扩增模块包括扩增子模块、获取子模块和更新子模块。其中,扩增子模块用于基于初始样本集,扩增得到目标样本集;目标样本集内不同样本行为标签的样本金融行为数据具有相同数量级;获取子模块用于获取初始样本集内不同样本行为标签的样本金融行为数据各自数据分布之间的第一散度,并获取目标样本集内不同样本行为标签的样本金融行为数据各自数据分布之间的第二散度;更新子模块用于响应于第一散度与第二散度之间的散度差异不低于预设下限值,基于散度差异,更新目标样本集内相对于初始样本集扩增的样本金融行为数据,并重新获取第二散度,直至散度差异低于预设下限值,将最新目标样本集作为训练样本集。
因此,通过获取第一散度和第二散度,进而通过第一散度和第二散度之间的差异,更新目标样本集内相对于初始样本集扩增的样本金融行为数据,有助于提高对于初始样本集扩增的样本金融行为数据的准确性,进而提高训练样本集内数据的可迁移性,进一步提高金融行为检测模型的鲁棒性,同时提高对金融行为数据进行检测,得到金融行为数据的行为标签的准确性。
在一些公开实施例中,样本金融行为数据涉及若干数据项,数据扩增模块包括选择子模块,选择子模块用于分别选择若干数据项,作为目标项;获取子模块包括第一获取单元和第二获取单元,第一获取单元用于获取初始样本集内不同样本行为标签的样本金融行为数据在目标项上数据分布之间的第一散度,第二获取单元用于获取目标样本集内不同样本行为标签的样本金融行为数据在目标项上数据分布之间的第二散度;更新子模块包括第一更新单元,第一更新单元用于响应于目标项上第一散度与第二散度之间的散度差异不低于预设下限值,基于目标项上的散度差异,更新目标金融行为数据中目标项的数据值;目标金融行为数据为目标样本集内相对于初始样本集扩增的样本金融行为数据。
因此,通过获取第一散度和第二散度,并响应于目标项上第一散度与第二散度之间的散度差异不低于预设下限值,基于目标项上的散度差异,更新目标金融行为数据中目标项的数据值,进而使目标金融行为数据中目标项的数据值更准确性,进而提高训练样本集内数据的可迁移性。
在一些公开实施例中,更新子模块包括获取单元和归一化单元,更新子模块用于执行目标项上散度差异的度量步骤;获取单元用于获取目标项上第一散度与第二散度之间差值绝对值,并获取参考金融行为数据在目标项上的目标数据分布;参考金融行为数据为初始样本集内与目标金融行为数据标注有相同样本行为标签的样本金融行为数据;归一化单元用于基于目标数据分布对差值绝对值进行归一化,得到散度差异。
因此,通过获取目标项上第一散度与第二散度之间差值绝对值,并获取参考金融行为数据在目标项上的目标数据分布,再基于目标数据分布对差值绝对值进行归一化,得到散度差异,有助于提高散度差异的准确性,进而提高训练样本集内数据的可迁移性。
在一些公开实施例中,更新子模块包括第二更新单元,第二更新单元用于将目标项上的散度差异作为动态相对值,对目标金融行为数据中目标项的数据值进行调整。
因此,通过将目标项上的散度差异作为动态相对值,对目标金融行为数据中目标项的数据值进行调整,有助于提高目标金融行为数据中目标项的数据值的准确性,进而提高训练样本集内数据的准确性。
在一些公开实施例中,金融行为检测装置50包括采集模块,采集模块用于执行初始样本集的获取步骤,采集模块包括获取子模块和筛选子模块;其中,获取子模块用于获取字段核验库;字段核验库中定义有若干键值对,键值对中的键表征字段名称,键值对中的值表征数值类型;筛选子模块用于基于字段核验库,在时间维度和标签维度对金融行为数据集内数据逐条筛选,得到初始样本集。
因此,通过获取字段核验库,并基于字段核验库,在时间维度和标签维度对金融行为数据集内数据逐条筛选,得到初始样本集,进而通过在时间维度和标签维度对金融行为数据集内数据逐条筛选,有助于提高初始样本集的规范性,进一步提高金融行为检测模型的迁移性和鲁棒性。
在一些公开实施例中,采集模块包括判断子模块和响应子模块;其中,判断子模块用于判断金融行为数据集内数据的字段名称与数值类型是否满足第一条件;响应子模块用于响应于金融行为数据集内数据的字段名称与数据类型不满足第一条件,对数据类型进行修正。
因此,通过判断金融行为数据集内数据的字段名称与数值类型是否满足第一条件,进而对不满度第一条件的数据的数值类型进行修正,进而使获取到的初始样本集更规范,进一步使训练得到的金融行为检测模型有更好的技术效果。
在一些公开实施例中,筛选子模块包括划分单元、筛选单元和融合单元;其中,划分单元用于基于字段核验库,对金融行为数据集内数据以预设时间区间进行划分,得到至少一个第一初始子样本集;筛选单元用于基于行为标签,对各第一初始子样本集内数据进行筛选,得到第二初始子样本集;融合单元用于基于第二初始子样本集,融合得到初始样本集。
因此,通过基于字段核验库,对金融行为数据集内数据以预设时间区间进行划分,得到至少一个第一初始子样本集,再基于行为标签,对各第一初始子样本集内数据进行筛选,得到第二初始子样本集,并对第二初始子样本集,融合得到初始样本集,通过对金融行为数据集中数据进行筛选,进而得到初始样本集,使初始样本集使用更高效方便。
在一些公开实施例中,金融行为检测装置50包括模型训练模块,模型训练模块用于执行训练样本集训练金融行为检测模型的步骤,模型训练模块包括第一训练子模块和第二训练子模块;其中,第一训练子模块用于基于训练样本集内当前数据批次的样本金融行为数据,训练金融行为检测模型,得到第一特征数据分布;其中,金融行为检测模型在参考行为检测模型的基础上训练得到,训练样本集内的数据批次基于时间维度进行确定,且各数据批次内样本金融行为数据的样本行为标签相同;第二训练子模块用于基于第一特征数据分布与第二特征数据分布的中心值,训练经训练样本集内当前数据批次的样本金融行为数据训练的金融行为检测模型;其中,第二特征数据分布基于历史批次的样本金融行为数据训练得到,且第一特征数据分布与第二特征数据分布对应的样本金融行为数据的样本行为标签相同。
因此,通过基于训练样本集内当前数据批次的样本金融行为数据,训练金融行为检测模型,得到第一特征数据分布,再基于第一特征数据分布与第二特征数据分布的中心值,训练经训练样本集内当前数据批次的样本金融行为数据训练的金融行为检测模型,进而通过不同时间区间、不同标签样本金融行为数据对金融行为检测模型进行训练,有助于提高金融行为检测模型的鲁棒性,进而提高金融行为检测结果的准确性。
在一些公开实施例中,第一训练子模块包括训练单元,训练单元用于基于预训练样本数据,采用k折交叉验证法训练参考行为检测模型;预训练样本数据包括训练样本集内若干数据批次的样本金融行为数据。
因此,通过基于预训练样本数据,采用k折交叉验证法训练所述参考行为检测模型,有助于提高金融行为模型的鲁棒性。
在一些公开实施例中,第二训练子模块包括训练单元和计算单元;其中,训练单元用于基于训练样本集内各数据批次的样本金融行为数据,训练金融行为检测模型,得到参考特征数据分布;计算单元用于将参考特征数据分布的均值,作为第二特征数据分布的中心值。
因此,通过基于训练样本集内各数据批次的样本金融行为数据,训练金融行为检测模型,得到参考特征数据分布,再将参考特征数据分布的均值,作为第二特征数据分布的中心值,有助于提高第二特征数据分布的中心值的准确性,进而提高金融行为检测模型的鲁棒性。
请参阅图6,图6是本申请电子设备一实施例的框架示意图。电子设备60包括相互耦接的存储器61和处理器62,存储器61中存储有程序指令,处理器62用于执行程序指令以实现上述任一金融行为检测方法实施例中的步骤。具体地,电子设备60可以包括但不限于:台式计算机、笔记本电脑、服务器、手机、平板电脑等等,在此不做限定。
具体而言,处理器62用于控制其自身以及存储器61以实现上述任一金融行为检测方法实施例中的步骤。处理器62还可以称为CPU(Central Processing Unit,中央处理单元)。处理器62可能是一种集成电路芯片,具有信号的处理能力。处理器62还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器62可以由集成电路芯片共同实现。
上述方案,电子设备60可以用于实现上述任一金融行为检测方法实施例中的步骤,一方面训练样本集基于初始样本集进行数据增强得到,且训练样本集内不同样本行为标签的样本金融行为数据具有相同数量级,进而有效解决金融行为数据分布失衡的问题,另一方面初始样本集内不同样本行为标签的样本金融行为数据各自数据分布之间的散度、训练样本集内不同样本行为标签的样本金融行为数据各自数据分布之间的散度两者差异低于预设下限值,进而在对初始样本集进行数据增强的过程中,尽可能地保障初始样本集内数据的特征分布,再基于训练样本集训练金融行为检测模型,使金融行为检测模型的可迁移性和鲁棒性很好,在此基础上,基于金融行为检测模型对金融行为数据进行检测,能够提高金融行为检测结果的准确性。
请参阅图7,图7是本申请计算机可读存储介质一实施例的框架示意图。计算机可读存储介质70存储有能够被处理器运行的程序指令71,程序指令71用于实现上述任一金融行为检测方法实施例中的步骤。
上述方案,计算机可读存储介质70可以用于实现上述任一金融行为检测方法实施例中的步骤,一方面训练样本集基于初始样本集进行数据增强得到,且训练样本集内不同样本行为标签的样本金融行为数据具有相同数量级,进而有效解决金融行为数据分布失衡的问题,另一方面初始样本集内不同样本行为标签的样本金融行为数据各自数据分布之间的散度、训练样本集内不同样本行为标签的样本金融行为数据各自数据分布之间的散度两者差异低于预设下限值,进而在对初始样本集进行数据增强的过程中,尽可能地保障初始样本集内数据的特征分布,再基于训练样本集训练金融行为检测模型,使金融行为检测模型的可迁移性和鲁棒性很好,在此基础上,基于金融行为检测模型对金融行为数据进行检测,能够提高金融行为检测结果的准确性。
在一些实施例中,本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。
上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考,为了简洁,本文不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
若本申请技术方案涉及个人信息,应用本申请技术方案的产品在处理个人信息前,已明确告知个人信息处理规则,并取得个人自主同意。若本申请技术方案涉及敏感个人信息,应用本申请技术方案的产品在处理敏感个人信息前,已取得个人单独同意,并且同时满足“明示同意”的要求。例如,在摄像头等个人信息采集装置处,设置明确显著的标识告知已进入个人信息采集范围,将会对个人信息进行采集,若个人自愿进入采集范围即视为同意对其个人信息进行采集;或者在个人信息处理的装置上,利用明显的标识/信息告知个人信息处理规则的情况下,通过弹窗信息或请个人自行上传其个人信息等方式获得个人授权;其中,个人信息处理规则可包括个人信息处理者、个人信息处理目的、处理方式以及处理的个人信息种类等信息。
Claims (14)
1.一种金融行为检测方法,其特征在于,包括:
获取金融行为数据;
基于金融行为检测模型对所述金融行为数据进行检测,得到所述金融行为数据的行为标签;
其中,所述行为标签至少表征所述金融行为数据是否属于异常金融行为,所述金融行为检测模型基于训练样本集进行训练得到,所述训练样本集包含标注有样本行为标签的样本金融行为数据,所述样本行为标签至少表征所述样本金融行为数据是否属于异常金融行为,所述训练样本集基于初始样本集进行数据增强得到,且所述训练样本集内不同所述样本行为标签的样本金融行为数据具有相同数量级,所述初始样本集内不同所述样本行为标签的样本金融行为数据各自数据分布之间的散度、所述训练样本集内不同所述样本行为标签的样本金融行为数据各自数据分布之间的散度两者差异低于预设下限值。
2.根据权利要求1所述的方法,其特征在于,基于所述初始样本集进行数据增强的步骤包括:
基于所述初始样本集,扩增得到目标样本集;其中,所述目标样本集内不同所述样本行为标签的样本金融行为数据具有相同数量级;
获取所述初始样本集内不同所述样本行为标签的样本金融行为数据各自数据分布之间的第一散度,并获取所述目标样本集内不同所述样本行为标签的样本金融行为数据各自数据分布之间的第二散度;
响应于所述第一散度与所述第二散度之间的散度差异不低于所述预设下限值,基于所述散度差异,更新所述目标样本集内相对于所述初始样本集扩增的样本金融行为数据,并重新获取所述第二散度,直至所述散度差异低于所述预设下限值,将最新所述目标样本集作为所述训练样本集。
3.根据权利要求2所述的方法,其特征在于,所述样本金融行为数据涉及若干数据项,在所述获取所述初始样本集内不同所述样本行为标签的样本金融行为数据各自数据分布之间的第一散度,并获取所述目标样本集内不同所述样本行为标签的样本金融行为数据各自数据分布之间的第二散度之前,所述方法还包括:
分别选择所述若干数据项,作为目标项;
所述获取所述初始样本集内不同所述样本行为标签的样本金融行为数据各自数据分布之间的第一散度,包括:
获取所述初始样本集内不同所述样本行为标签的样本金融行为数据在所述目标项上数据分布之间的第一散度;
所述获取所述目标样本集内不同所述样本行为标签的样本金融行为数据各自数据分布之间的第二散度,包括:
获取所述目标样本集内不同所述样本行为标签的样本金融行为数据在所述目标项上数据分布之间的第二散度;
所述响应于所述第一散度与所述第二散度之间的散度差异不低于所述预设下限值,基于所述散度差异,更新所述目标样本集内相对于所述初始样本集扩增的样本金融行为数据,包括:
响应于所述目标项上所述第一散度与所述第二散度之间的散度差异不低于所述预设下限值,基于所述目标项上的散度差异,更新目标金融行为数据中所述目标项的数据值;其中,所述目标金融行为数据为所述目标样本集内相对于所述初始样本集扩增的样本金融行为数据。
4.根据权利要求3所述的方法,其特征在于,所述目标项上所述散度差异的度量步骤包括:
获取所述目标项上所述第一散度与所述第二散度之间差值绝对值,并获取参考金融行为数据在所述目标项上的目标数据分布;其中,所述参考金融行为数据为所述初始样本集内与所述目标金融行为数据标注有相同所述样本行为标签的样本金融行为数据;
基于所述目标数据分布对所述差值绝对值进行归一化,得到所述散度差异。
5.根据权利要求3所述的方法,其特征在于,所述基于所述目标项上的散度差异,更新目标金融行为数据中所述目标项的数据值,包括:
将所述目标项上的散度差异作为动态相对值,对所述目标金融行为数据中所述目标项的数据值进行调整。
6.根据权利要求1所述的方法,其特征在于,所述初始样本集的获取步骤包括:
获取字段核验库;其中,所述字段核验库中定义有若干键值对,且所述键值对中的键表征字段名称,所述键值对中的值表征数值类型;
基于所述字段核验库,在时间维度和标签维度对金融行为数据集内数据逐条筛选,得到所述初始样本集。
7.根据权利要求6所述的方法,其特征在于,在所述获取字段核验库之后,以及在所述基于所述字段核验库,在时间维度和标签维度对金融行为数据集内数据逐条筛选,得到所述初始样本集之前,所述方法还包括:
判断所述金融行为数据集内数据的所述字段名称与所述数值类型是否满足第一条件;
响应于所述金融行为数据集内数据的所述字段名称与所述数值类型不满足第一条件,对所述数值类型进行修正。
8.根据权利要求6所述的方法,其特征在于,所述基于所述字段核验库,在时间维度和标签维度对金融行为数据集内数据逐条筛选,得到所述初始样本集,包括:
基于所述字段核验库,对所述金融行为数据集内数据以预设时间区间进行划分,得到至少一个第一初始子样本集;
基于所述行为标签,对各所述第一初始子样本集内数据进行筛选,得到第二初始子样本集;
基于所述第二初始子样本集,融合得到所述初始样本集。
9.根据权利要求1或6所述的方法,其特征在于,基于所述训练样本集训练所述金融行为检测模型的步骤包括:
基于所述训练样本集内当前数据批次的样本金融行为数据,训练所述金融行为检测模型,得到第一特征数据分布;其中,所述金融行为检测模型在参考行为检测模型的基础上训练得到,所述训练样本集内的数据批次基于时间维度进行确定,且各所述数据批次内所述样本金融行为数据的所述样本行为标签相同;
基于所述第一特征数据分布与第二特征数据分布的中心值,训练经所述训练样本集内当前数据批次的样本金融行为数据训练的金融行为检测模型;其中,所述第二特征数据分布基于历史批次的所述样本金融行为数据训练得到,且所述第一特征数据分布与所述第二特征数据分布对应的所述样本金融行为数据的所述样本行为标签相同。
10.根据权利要求9所述的方法,其特征在于,所述参考行为检测模型的训练步骤包括:
基于预训练样本数据,采用k折交叉验证法训练所述参考行为检测模型;其中,所述预训练样本数据包括所述训练样本集内若干数据批次的样本金融行为数据。
11.根据权利要求9所述的方法,其特征在于,所述第二特征数据分布的中心值的获取步骤包括:
基于所述训练样本集内各所述数据批次的样本金融行为数据,训练所述金融行为检测模型,得到参考特征数据分布;
将所述参考特征数据分布的均值,作为所述第二特征数据分布的中心值。
12.一种金融行为检测装置,其特征在于,
获取模块,用于获取金融行为数据;
检测模块,用于基于金融行为检测模型对所述金融行为数据进行检测,得到所述金融行为数据的行为标签;
其中,所述行为标签至少表征所述金融行为数据是否属于异常金融行为,所述金融行为检测模型基于训练样本集进行训练得到,所述训练样本集包含标注有样本行为标签的样本金融行为数据,所述样本行为标签至少表征所述样本金融行为数据是否属于异常金融行为,所述训练样本集基于初始样本集进行数据增强得到,且所述训练样本集内不同所述样本行为标签的样本金融行为数据具有相同数量级,所述初始样本集内不同所述样本行为标签的样本金融行为数据各自数据分布之间的散度、所述训练样本集内不同所述样本行为标签的样本金融行为数据各自数据分布之间的散度两者差异低于预设下限值。
13.一种电子设备,其特征在于,包括相互耦接的存储器和处理器,所述存储器中存储有程序指令,所述处理器用于执行所述程序指令以实现权利要求1至11任一项所述的金融行为检测方法。
14.一种计算机可读存储介质,其特征在于,存储有能够被处理器运行的程序指令,所述程序指令用于实现权利要求1至11任一项所述的金融行为检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310319239.4A CN116485511A (zh) | 2023-03-28 | 2023-03-28 | 金融行为检测方法及相关装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310319239.4A CN116485511A (zh) | 2023-03-28 | 2023-03-28 | 金融行为检测方法及相关装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116485511A true CN116485511A (zh) | 2023-07-25 |
Family
ID=87224229
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310319239.4A Pending CN116485511A (zh) | 2023-03-28 | 2023-03-28 | 金融行为检测方法及相关装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116485511A (zh) |
-
2023
- 2023-03-28 CN CN202310319239.4A patent/CN116485511A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107633265B (zh) | 用于优化信用评估模型的数据处理方法及装置 | |
Huang et al. | An empirical analysis of data preprocessing for machine learning-based software cost estimation | |
US10692019B2 (en) | Failure feedback system for enhancing machine learning accuracy by synthetic data generation | |
García et al. | An insight into the experimental design for credit risk and corporate bankruptcy prediction systems | |
Bahnsen et al. | A novel cost-sensitive framework for customer churn predictive modeling | |
CN110991474A (zh) | 一种机器学习建模平台 | |
CN113688042A (zh) | 测试场景的确定方法、装置、电子设备及可读存储介质 | |
AU2017251771B2 (en) | Statistical self learning archival system | |
CN111353689B (zh) | 一种风险评估方法及装置 | |
US20200193340A1 (en) | Business default prediction system and operation method thereof | |
KR101597939B1 (ko) | 거시경제지표를 활용한 산업별 신용위험도 예측 장치 및 방법 | |
CN117094184B (zh) | 基于内网平台的风险预测模型的建模方法、系统及介质 | |
US20220229854A1 (en) | Constructing ground truth when classifying data | |
CN114298176A (zh) | 一种欺诈用户检测方法、装置、介质及电子设备 | |
CN110717509A (zh) | 基于树分裂算法的数据样本分析方法及装置 | |
CN117009509A (zh) | 数据安全分级方法、装置、设备、存储介质和程序产品 | |
CN117010914A (zh) | 风险团伙的识别方法、装置、计算机设备及存储介质 | |
Kumar et al. | Smart school selection with supervised machine learning | |
CN111160929A (zh) | 一种客户类型的确定方法及装置 | |
CN116485511A (zh) | 金融行为检测方法及相关装置、电子设备和存储介质 | |
CN113177733B (zh) | 基于卷积神经网络的中小微企业数据建模方法及系统 | |
CN115907954A (zh) | 账户的识别方法、装置、计算机设备和存储介质 | |
Pendyala et al. | Analyzing and addressing data-driven fairness issues in machine learning models used for societal problems | |
CN114170000A (zh) | 信用卡用户风险类别识别方法、装置、计算机设备和介质 | |
US20240303543A1 (en) | Model training method and model training apparatus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |