CN117688491A - 交易数据异常信息的检测方法、装置及电子设备 - Google Patents
交易数据异常信息的检测方法、装置及电子设备 Download PDFInfo
- Publication number
- CN117688491A CN117688491A CN202311708558.0A CN202311708558A CN117688491A CN 117688491 A CN117688491 A CN 117688491A CN 202311708558 A CN202311708558 A CN 202311708558A CN 117688491 A CN117688491 A CN 117688491A
- Authority
- CN
- China
- Prior art keywords
- model
- data
- data table
- training
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 76
- 238000012549 training Methods 0.000 claims abstract description 269
- 230000002159 abnormal effect Effects 0.000 claims abstract description 113
- 238000000034 method Methods 0.000 claims abstract description 101
- 238000012545 processing Methods 0.000 claims abstract description 81
- 230000009467 reduction Effects 0.000 claims abstract description 49
- 238000005457 optimization Methods 0.000 claims abstract description 45
- 238000004364 calculation method Methods 0.000 claims description 43
- 239000011159 matrix material Substances 0.000 claims description 23
- 239000013598 vector Substances 0.000 claims description 19
- 238000011156 evaluation Methods 0.000 claims description 18
- 238000007781 pre-processing Methods 0.000 claims description 18
- 238000006243 chemical reaction Methods 0.000 claims description 17
- 238000007637 random forest analysis Methods 0.000 claims description 17
- 238000004140 cleaning Methods 0.000 claims description 16
- 238000012512 characterization method Methods 0.000 claims description 9
- 238000002790 cross-validation Methods 0.000 claims description 8
- 238000005516 engineering process Methods 0.000 abstract description 8
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000003860 storage Methods 0.000 description 19
- 238000004590 computer program Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 208000025174 PANDAS Diseases 0.000 description 3
- 108091033411 PCA3 Proteins 0.000 description 3
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 3
- 240000004718 Panda Species 0.000 description 3
- 235000016496 Panda oleosa Nutrition 0.000 description 3
- 238000003066 decision tree Methods 0.000 description 3
- 238000013210 evaluation model Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 206010000117 Abnormal behaviour Diseases 0.000 description 1
- -1 CBLOF Proteins 0.000 description 1
- 241000540325 Prays epsilon Species 0.000 description 1
- 238000012952 Resampling Methods 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种交易数据异常信息的检测方法、装置及电子设备,该方法应用于人工智能领域,该方法包括:获取待检测异常信息的交易数据,得到交易数据集合;对交易数据集合中的数据进行内存优化和降维处理,得到目标数据表;将目标数据表输入模型序列中的每个模型中,并按照目标训练计划进行训练,得到模型序列中每个训练后的模型;采用模型序列中每个训练后的模型检测目标数据表中的异常信息,得到检测结果。通过本申请,解决了相关技术中检测交易数据中的异常值时,采用传统的异常检测方法对海量交易数据进行检测时运行较慢的问题。
Description
技术领域
本申请涉及人工智能领域,具体而言,涉及一种交易数据异常信息的检测方法、装置及电子设备。
背景技术
在支付业务中,异常检测算法被广泛应用,通过用来识别异常值,业务人员可以根据异常值发现欺诈交易、系统异常等问题,有助于做出更好的数据决策。然而,由于支付数据的规模庞大,传统的异常检测方法在全量数据上的运行速度较慢,且消耗大量资源。而且,在实际的支付业务中存在的异常行为多种多样,需要使用高维度的视角去探查,这也会导致模型训练时产生维度灾难问题。
而且,在使用集成学习时,会存在多个异质的基模型的运行开销差距很大。并行训练时在调度上会存在不平衡问题,使得整个集成学习系统运行效率低下。
针对相关技术中检测交易数据中的异常值时,采用传统的异常检测方法对海量交易数据进行检测时运行较慢的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种交易数据异常信息的检测方法、装置及电子设备,以解决相关技术中检测交易数据中的异常值时,采用传统的异常检测方法对海量交易数据进行检测时运行较慢的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种交易数据异常信息的检测方法,该方法包括:获取待检测异常信息的交易数据,得到交易数据集合;对所述交易数据集合中的数据进行内存优化和降维处理,得到目标数据表;将所述目标数据表输入模型序列中的每个模型中,并按照目标训练计划进行训练,得到所述模型序列中每个训练后的模型,其中,所述模型序列中包含N个未训练的模型,所述目标训练计划是指所述模型序列中每个模型的训练计划;采用所述模型序列中每个训练后的模型检测所述目标数据表中的异常信息,得到检测结果。
进一步地,对所述交易数据集合中的数据进行内存优化和降维处理,得到目标数据表包括:采用表格表征所述交易数据集合中的数据,得到交易数据表集合;对所述交易数据表集合中的数据进行数据清洗和数据预处理操作,得到处理后的交易数据表集合;对所述处理后的交易数据表集合中的数据表进行拼接,得到第一数据表;对所述第一数据表中的数据进行内存优化和降维处理,得到所述目标数据表。
进一步地,在对所述处理后的交易数据表集合中的数据表进行拼接,得到第一数据表之前,所述方法还包括:依据业务需求确定交易数据的统计信息;依据所述统计信息扩展所述处理后的交易数据表集合中数据表的字段,得到统计字段;依据预设规则确定所述统计字段的计算规则,其中,所述计算规则至少包括以下规则之一:第一规则、第二规则、第三规则和第四规则,所述第一规则用于对单向交易中字段值进行直接计算,所述第二规则用于对单向交易中字段值进行逻辑计算,所述第三规则用于对单向交易中字段值进行间接计算,所述第四规则用于对单向交易中字段值集合进行计算;依据所述计算规则和所述处理后的交易数据表集合计算所述统计字段的字段值,并依据所述统计字段的字段值更新所述处理后的交易数据表集合。
进一步地,对所述第一数据表中的数据进行内存优化和降维处理,得到所述目标数据表包括:采用预设数据处理工具遍历所述第一数据表,检测所述第一数据表中是否存在第一字段,其中,所述第一字段是指字段值属于预设数据类型的字段;在检测到存在所述第一字段的情况下,确定所述第一字段对应的字段值的数值范围;依据所述数值范围和所述预设数据类型调整所述字段值的数据类型,得到调整后的第一数据表;从所述调整后的第一数据表中包含的字段中删除主键字段,得到第二数据表;基于约翰逊林登斯特劳斯引理构建维度转换矩阵,并采用所述维度转换矩阵对所述第二数据表中的数据进行降维,得到所述目标数据表。
进一步地,在将所述目标数据表输入模型序列中的每个模型中,并按照目标训练计划进行训练,得到所述模型序列中每个训练后的模型之前,所述方法还包括:在预设模型集合中确定N个基础模型,得到所述模型序列,其中,所述基础模型是指需要对交易数据中的异常信息进行无监督学习的模型;采用目标模型预测所述模型序列中每个模型的训练时长,得到训练时长序列,其中,所述目标模型是采用所述预设模型集合中每个模型的训练数据对随机森林回归模型进行训练后得到的模型;依据所述训练时长序列确定所述模型序列的训练计划,得到所述目标训练计划。
进一步地,所述目标模型由以下步骤得到:采集金融机构中的历史交易数据,并对所述历史交易数据进行表格表征、数据清洗、数据预处理、数据表拼接、内存优化和降维处理,得到历史数据表;在所述历史数据表中随机采集预设比例的数据,得到训练集;采用所述训练集对所述预设模型集合中的每个模型进行训练,得到模型性能数据集;对所述模型性能数据集中的数据进行编码转化,得到向量集合;
将所述向量集合输入随机森林回归模型中,并采用K折交叉验证方法进行训练,得到训练后的模型;采用预设指标评估所述训练后的模型,得到评估结果,并采用所述评估结果优化所述训练后的模型,得到所述目标模型。
进一步地,依据所述训练时长序列确定所述模型序列的训练计划,得到所述目标训练计划包括:确定运行每个模型的目标设备信息;依据所述目标设备信息和所述训练时长序列计算平均训练时长;计算所述平均训练时长与所述训练时长序列中每个训练时长的差值;依据所述平均训练时长与每个训练时长的差值确定所述目标训练计划。
进一步地,采用所述模型序列中每个训练后的模型检测所述目标数据表中的异常信息,得到检测结果包括:将所述目标数据表分别输入每个训练后的模型进行检测,得到每个训练后的模型输出的异常信息;采用线性加权法对每个训练后的模型输出的异常信息进行计算,得到所述检测结果。
为了实现上述目的,根据本申请的另一方面,提供了一种交易数据异常信息的检测装置,该装置包括:获取单元,用于获取待检测异常信息的交易数据,得到交易数据集合;处理单元,用于对所述交易数据集合中的数据进行内存优化和降维处理,得到目标数据表;训练单元,用于将所述目标数据表输入模型序列中的每个模型中,并按照目标训练计划进行训练,得到所述模型序列中每个训练后的模型,其中,所述模型序列中包含N个未训练的模型,所述目标训练计划是指所述模型序列中每个模型的训练计划;检测单元,用于采用所述模型序列中每个训练后的模型检测所述目标数据表中的异常信息,得到检测结果。
进一步地,所述处理单元包括:表征子单元,用于采用表格表征所述交易数据集合中的数据,得到交易数据表集合;第一处理子单元,用于对所述交易数据表集合中的数据进行数据清洗和数据预处理操作,得到处理后的交易数据表集合;拼接子单元,用于对所述处理后的交易数据表集合中的数据表进行拼接,得到第一数据表;第二处理子单元,用于对所述第一数据表中的数据进行内存优化和降维处理,得到所述目标数据表。
进一步地,所述装置还包括:第一确定单元,用于在对所述处理后的交易数据表集合中的数据表进行拼接,得到第一数据表之前,依据业务需求确定交易数据的统计信息;扩展单元,用于依据所述统计信息扩展所述处理后的交易数据表集合中数据表的字段,得到统计字段;第二确定单元,用于依据预设规则确定所述统计字段的计算规则,其中,所述计算规则至少包括以下规则之一:第一规则、第二规则、第三规则和第四规则,所述第一规则用于对单向交易中字段值进行直接计算,所述第二规则用于对单向交易中字段值进行逻辑计算,所述第三规则用于对单向交易中字段值进行间接计算,所述第四规则用于对单向交易中字段值集合进行计算;计算单元,用于依据所述计算规则和所述处理后的交易数据表集合计算所述统计字段的字段值,并依据所述统计字段的字段值更新所述处理后的交易数据表集合。
进一步地,所述第二处理子单元包括:检测模块,用于采用预设数据处理工具遍历所述第一数据表,检测所述第一数据表中是否存在第一字段,其中,所述第一字段是指字段值属于预设数据类型的字段;确定模块,用于在检测到存在所述第一字段的情况下,确定所述第一字段对应的字段值的数值范围;调整模块,用于依据所述数值范围和所述预设数据类型调整所述字段值的数据类型,得到调整后的第一数据表;删除模块,用于从所述调整后的第一数据表中包含的字段中删除主键字段,得到第二数据表;降维模块,用于基于约翰逊林登斯特劳斯引理构建维度转换矩阵,并采用所述维度转换矩阵对所述第二数据表中的数据进行降维,得到所述目标数据表。
进一步地,所述装置还包括:第三确定单元,用于在将所述目标数据表输入模型序列中的每个模型中,并按照目标训练计划进行训练,得到所述模型序列中每个训练后的模型之前,在预设模型集合中确定N个基础模型,得到所述模型序列,其中,所述基础模型是指需要对交易数据中的异常信息进行无监督学习的模型;预测单元,用于采用目标模型预测所述模型序列中每个模型的训练时长,得到训练时长序列,其中,所述目标模型是采用所述预设模型集合中每个模型的训练数据对随机森林回归模型进行训练后得到的模型;第四确定单元,用于依据所述训练时长序列确定所述模型序列的训练计划,得到所述目标训练计划。
进一步地,所述预测单元包括:第一采集子单元,用于采集金融机构中的历史交易数据,并对所述历史交易数据进行表格表征、数据清洗、数据预处理、数据表拼接、内存优化和降维处理,得到历史数据表;第二采集子单元,用于在所述历史数据表中随机采集预设比例的数据,得到训练集;第一训练子单元,用于采用所述训练集对所述预设模型集合中的每个模型进行训练,得到模型性能数据集;编码子单元,用于对所述模型性能数据集中的数据进行编码转化,得到向量集合;第二训练子单元,用于将所述向量集合输入随机森林回归模型中,并采用K折交叉验证方法进行训练,得到训练后的模型;评估子单元,用于采用预设指标评估所述训练后的模型,得到评估结果,并采用所述评估结果优化所述训练后的模型,得到所述目标模型。
进一步地,所述第四确定单元包括:第一确定子单元,用于确定运行每个模型的目标设备信息;第一计算子单元,用于依据所述目标设备信息和所述训练时长序列计算平均训练时长;第二计算子单元,用于计算所述平均训练时长与所述训练时长序列中每个训练时长的差值;第二确定子单元,用于依据所述平均训练时长与每个训练时长的差值确定所述目标训练计划。
进一步地,所述检测单元包括:检测子单元,用于将所述目标数据表分别输入每个训练后的模型进行检测,得到每个训练后的模型输出的异常信息;第三计算子单元,用于采用线性加权法对每个训练后的模型输出的异常信息进行计算,得到所述检测结果。
为了实现上述目的,根据本申请的一个方面,提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述任意一项所述交易数据异常信息的检测方法。
为了实现上述目的,根据本申请的一个方面,提供了一种电子设备,包括一个或多个处理器和存储器,存储器用于存储一个或多个程序,其中,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现上述任意一项所述交易数据异常信息的检测方法。
通过本申请,采用以下步骤:获取待检测异常信息的交易数据,得到交易数据集合;对所述交易数据集合中的数据进行内存优化和降维处理,得到目标数据表;将所述目标数据表输入模型序列中的每个模型中,并按照目标训练计划进行训练,得到所述模型序列中每个训练后的模型,其中,所述模型序列中包含N个未训练的模型,所述目标训练计划是指所述模型序列中每个模型的训练计划;采用所述模型序列中每个训练后的模型检测所述目标数据表中的异常信息,得到检测结果,解决了相关技术中检测交易数据中的异常值时,采用传统的异常检测方法对海量交易数据进行检测时运行较慢的问题。通过对交易数据进行内存优化和数据降维处理,能够节约存储空间,提高计算和模型训练的效率,同时通过动态地采用评估模型开销,制定目标训练计划,加快了多个模型的训练时间和预测时间,增加了异常数据检测的灵活性,提高了整体建模的效率,达到了提高检测异常数据的效率的效果。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例一提供的交易数据异常信息的检测方法的流程图;
图2是根据本申请实施例一提供的可选的交易数据异常信息的检测方法的示意图;
图3是根据本申请实施例二提供的交易数据异常信息的检测装置的示意图;
图4是根据本申请实施例五提供的交易数据异常信息的检测电子设备的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
需要说明的是,本申请文件的处理方法、装置、存储介质及电子设备确定的方法和装置可用于金融科技领域在检测异常数据的过程中,提高了检测效率,也可用于除金融科技领域之外的任意领域,本申请文件的处理方法、装置、存储介质及电子设备的方法和装置的应用领域不做限定。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息、采集的用户信息、采集的交易信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据、采集的用户数据、采集的交易数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关区域的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例一
下面结合优选的实施步骤对本发明进行说明,图1是根据本申请实施例一提供的交易数据异常信息的检测方法的流程图,如图1所示,该方法包括如下步骤:
步骤S101,获取待检测异常信息的交易数据,得到交易数据集合。
在本实施例一中,首先需要从业务方获取待检测异常信息的交易数据,即上述的交易数据集合。异常信息是指交易数据中与异常数据相关的信息,异常数据是指与正常数据或预期数据不符的数据,可能是由于测量误差、录入错误、系统故障或其他原因导致的,例如,某个交易场景中每笔交易的交易金额均小于100元,但突然有一笔2000元的交易,这笔交易的交易金额可称为异常数据。
步骤S102,对交易数据集合中的数据进行内存优化和降维处理,得到目标数据表。
在本实施例一中,为了提高异常数据的检测效率,需要对待识别的交易数据集进行内存优化和数据降维处理,从而降低计算复杂度,提高计算速度。
步骤S103,将目标数据表输入模型序列中的每个模型中,并按照目标训练计划进行训练,得到模型序列中每个训练后的模型,其中,模型序列中包含N个未训练的模型,目标训练计划是指模型序列中每个模型的训练计划。
在本实施例一中,采用对模型序列中的多个模型进行训练后,得到的多个模型检测目标数据表中的异常数据,以提高检测结果的准确性,同时为了提高异常数据的检测效率,需要根据目标模型分别预测多个模型的训练时长,从而根据训练时长制定多个模型的目标训练计划,以尽可能的缩短模型训练所占用的时间,提高异常数据的检测效率。
步骤S104,采用模型序列中每个训练后的模型检测目标数据表中的异常信息,得到检测结果。
在本实施例一中,在得到每个训练后的模型后,分别采用每个训练后的模型对目标数据表中的数据进行检测,并对得到的每个检测结果进行处理,得到最终的检测结果。
综上所述,本申请实施例一提供的交易数据异常信息的检测方法,通过获取待检测异常信息的交易数据,得到交易数据集合;对交易数据集合中的数据进行内存优化和降维处理,得到目标数据表;将目标数据表输入模型序列中的每个模型中,并按照目标训练计划进行训练,得到模型序列中每个训练后的模型,其中,模型序列中包含N个未训练的模型,目标训练计划是指模型序列中每个模型的训练计划;采用模型序列中每个训练后的模型检测目标数据表中的异常信息,得到检测结果,解决了相关技术中检测交易数据中的异常值时,采用传统的异常检测方法对海量交易数据进行检测时运行较慢的问题。通过对交易数据进行内存优化和数据降维处理,能够节约存储空间,提高计算和模型训练的效率,同时通过动态地采用评估模型开销,制定目标训练计划,加快了多个模型的训练时间和预测时间,增加了异常数据检测的灵活性,提高了整体建模的效率,达到了提高检测异常数据的效率的效果。
可选地,在本申请实施例一提供的交易数据异常信息的检测方法中,对交易数据集合中的数据进行内存优化和降维处理,得到目标数据表包括:采用表格表征交易数据集合中的数据,得到交易数据表集合;对交易数据表集合中的数据进行数据清洗和数据预处理操作,得到处理后的交易数据表集合;对处理后的交易数据表集合中的数据表进行拼接,得到第一数据表;对第一数据表中的数据进行内存优化和降维处理,得到目标数据表。
在本实施例一中,为了识别交易数据中的异常数据,需要先将数据表转换为表格形式,并进行预处理、内存优化和降维处理,降低数据的规模,得到目标数据表,以便从目标数据表中识别异常数据。
具体地,在业务方或客户的数据库中获取待识别异常数据的交易数据,对这些交易数据进行数据清洗和预处理。若这些待识别异常数据的交易数据采用表格形式进行存储,则直接获取数据表即可,若这些待识别异常数据的交易数据采用其它形式(例如,文本形式、图片形式等)进行存储,则需要将数据先转换为文本形式,再转换为数据表格式。
然后,经过处理后的数据表按照数据表的主键进行连接(例如,通过SQL语言中的join关键字进行连接),将处理后的数据表重构成可以进行特征开发的数据宽表,即上述的第一数据表。
最后,优化第一数据表中的数据占用的内存以及数据的维度,以减少数据复杂程度,提高后续处理数据的速度,达到了加快异常数据检测的效率的效果。
可选地,在本申请实施例一提供的交易数据异常信息的检测方法中,在对处理后的交易数据表集合中的数据表进行拼接,得到第一数据表之前,上述的方法还包括:依据业务需求确定交易数据的统计信息;依据统计信息扩展处理后的交易数据表集合中数据表的字段,得到统计字段;依据预设规则确定统计字段的计算规则,其中,计算规则至少包括以下规则之一:第一规则、第二规则、第三规则和第四规则,第一规则用于对单向交易中字段值进行直接计算,第二规则用于对单向交易中字段值进行逻辑计算,第三规则用于对单向交易中字段值进行间接计算,第四规则用于对单向交易中字段值集合进行计算;依据计算规则和处理后的交易数据表集合计算统计字段的字段值,并依据统计字段的字段值更新处理后的交易数据表集合。
在本实施例一中,为了增加异常数据的检测准确性,可以对交易数据的数据特征进行统计,得到更多关于交易信息的数据取值信息,从而根据计算出的数据特征进行检测,达到了提高异常数据检测结果的准确性的效果。
具体地,根据金融机构的业务需求或业务流程中的交易信息待统计的数据特征(即上述的统计字段),例如,某个业务场景下交易金额的平均数、中位数、最大值、最小值和方差等,并将这些统计字段添加到交易数据表中,例如,交易数据表A1中存在交易金额字段,则可以在该数据表中添加交易金额最大值、交易金额最小值、交易金额平均值等统计字段。
然后,根据预设规则确定每个统计字段的计算规则。预设规则如表1所示,其中,至少包含四种计算规则:第一规则是指对单向交易的交易数据进行直接计算(也可称为一度计算),例如,计算客户一天或一周内交易金额的总金额(如表1中的sum所示),计算客户一天或一周内某一类交易进行的次数(如表1中的count所示);第二规则是指对单向交易的交易数据进行逻辑计算,例如,计算客户是否属于存在交易风险的客户,如果是则将对应的字段值赋值为1,如果不是则将对应的字段值赋值为0;第三规则是指对单向交易的交易数据进行间接计算(也可称为二度计算),例如,通过Groupby将交易金额按照指定的列或条件进行分组,然后对每个组进行统计、聚合(如表1中的merge)或其他计算;第四规则是指对双向交易的交易数据的多个字段值(即上述的字段值集合)进行计算(也可称为一度计算),例如,对客户一天或一周内交易金额、交易时刻、交易类型等多个字段进行计算,得到统计字段值。
需要注意的是,可以根据交易数据表对应计算规则采用不同的硬件设备对交易数据表进行计算,例如,在计算规则属于第一规则和第二规则时,可以将交易数据表发送至HIVE集群中进行计算;在计算规则属于第三规则和第四规则时,将交易数据表通过ETL通道传入部署了python环境的服务器内进行计算。
表1
交易方向 | 特征类型 | 指标 | 计算分流 |
单向交易 | 一度计算 | sum,count | HIVE集群 |
单向交易 | 逻辑型 | 0/1 | HIVE集群 |
单向交易 | 二度计算 | Groupby,merge | 服务器(python环境) |
双向交易 | 多对多关系 | 集合 | 服务器(python环境) |
通过hive集群和服务器python环境提取数据特征,能够对多维度的数据特征有一定的表征能力,有利于模型的特征学习,达到了提高检测结果的准确性的效果。
可选地,在本申请实施例一提供的交易数据异常信息的检测方法中,对第一数据表中的数据进行内存优化和降维处理,得到目标数据表包括:采用预设数据处理工具遍历第一数据表,检测第一数据表中是否存在第一字段,其中,第一字段是指字段值属于预设数据类型的字段;在检测到存在第一字段的情况下,确定第一字段对应的字段值的数值范围;依据数值范围和预设数据类型调整字段值的数据类型,得到调整后的第一数据表;从调整后的第一数据表中包含的字段中删除主键字段,得到第二数据表;基于约翰逊林登斯特劳斯引理构建维度转换矩阵,并采用维度转换矩阵对第二数据表中的数据进行降维,得到目标数据表。
在本实施例一中,为了减少数据规模,加速异常数据的检测过程,需要对数据进行内存优化和降维处理。
具体地,采用python代码中pandas库的函数将第一数据表转换为dataframe格式,以便使用代码处理数据表数据。遍历第一数据表的每列数据,判断每个字段的字段值类型是numeric类型或者int类型(即上述的预设数据类型),并且找到该字段列的最大值max和最小值min(即上述的数值范围)。假设第一数据表有n个字段,则可以定义一个信息集合描述每个字段:{[column1,datatype1,max1,min1}],[column2,datatype2,max2,min2}],……,[columnn,datatypen,maxn,minn}]}。根据定义的信息集合调整每个字段值的数值类型,例如,当字段值为int类型时,若字段值大于等于0且小于255,则将该字段值的数据类型修改为“np.unit8”,若字段值大于等于255且小于65535,则将该字段值的数据类型修改为“np.unit16”,若字段值大于等于65535且小于4294967295,则将该字段值的数据类型修改为“np.unit32”,若字段值大于等于4294967295,则将该字段值的数据类型修改为“np.unit64”;当字段值为numeric类型时,若该字段的最小值大于“np.unit8”能表示的最小值且小于“np.unit8”能表示的最大值,则将该字段值的数据类型修改为“np.unit8”,若该字段的最小值大于“np.unit16”能表示的最小值且小于“np.unit16”能表示的最大值,则将该字段值的数据类型修改为“np.unit16”,若该字段的最小值大于“np.unit32”能表示的最小值且小于“np.unit32”能表示的最大值,则将该字段值的数据类型修改为“np.unit32”,若该字段的最小值大于“np.unit64”能表示的最小值且小于“np.unit64”能表示的最大值,则将该字段值的数据类型修改为“np.unit64”。
然后,根据Johnson-Lindenstrauss引理(即上述的约翰逊林登斯特劳斯引理)构建数据降维处理的理论:定义1:第一数据表的(rows,columns)剔除主体属性后构建矩阵,表示为T′(n_samples,n_features),记作X=(u,v),其中,n_samples等于第一数据表的行数rows,n_features等于第一数据表的列数减去数据表主键这一列的列数;定义2:有一个随机矩阵P∈Ru×v是独立重采样自定义3:ε∈(0,1)是给定的常数;通过定义1,2,3可以得到,至少有/>的概率,使得对于i≠j,只要/>都成立:(1-ε)‖vi-vj‖2≤‖Pvi-Pvj‖2≤(1+ε)‖vi-vj‖2。基于上述Johnson-Lindenstrauss引理,对(u,v)的高斯分布/>随机投影后的矩阵为(n_features,n_components),即降维矩阵的矩阵大小。采用公式一计算n_components,并对n_components的计算结果进行向上取整得到dim,公式一如下所示,
其中,nsamples表示第一数据表的行数rows,ε表示数据降维可接受的损失程度,ncomponents表示降维矩阵的列数。确定降维矩阵后,剔除第一数据表中的数据表主键,得到第二数据表,然后将第二数据表与降维矩阵相乘,将第二数据表的维度降低为(n_samples,dim),得到上述的目标数据表。
通过在特征处理过程中使用了JL投影方法(即上述的Johnson-Lindenstrauss引理),弱化了高纬度数据对算法的影响,扩展了算法选取的范围,提高了模型的泛化能力。
可选地,在本申请实施例一提供的交易数据异常信息的检测方法中,在将目标数据表输入模型序列中的每个模型中,并按照目标训练计划进行训练,得到模型序列中每个训练后的模型之前,上述的方法还包括:在预设模型集合中确定N个基础模型,得到模型序列,其中,基础模型是指需要对交易数据中的异常信息进行无监督学习的模型;采用目标模型预测模型序列中每个模型的训练时长,得到训练时长序列,其中,目标模型是采用预设模型集合中每个模型的训练数据对随机森林回归模型进行训练后得到的模型;依据训练时长序列确定模型序列的训练计划,得到目标训练计划。
在本实施例一中,为了得到目标训练计划,需要预先准备模型序列,并训练目标模型,从而使用目标模型计算出目标训练计划,以采用目标训练计划减少计算设备训练模型所需要的时间。
具体地,在现有的线性模型(例如,相似度量模型,概率模型,集成检测模型,神经网络算法等)中进行挑选,得到预设模型集合,在预设模型集合中确定N个基础模型,得到上述的模型序列。然后,将模型序列中每个模型的模型名称输入训练好的目标模型中,预测模型序列中每个模型的训练时长,得到训练时长序列。最后,根据训练时长序列确定训练模型的设备训练模型序列中每个模型的训练计划,得到目标训练计划。
可选地,在本申请实施例一提供的交易数据异常信息的检测方法中,上述的目标模型由以下步骤得到:采集金融机构中的历史交易数据,并对历史交易数据进行表格表征、数据清洗、数据预处理、数据表拼接、内存优化和降维处理,得到历史数据表;在历史数据表中随机采集预设比例的数据,得到训练集;采用训练集对预设模型集合中的每个模型进行训练,得到模型性能数据集;对模型性能数据集中的数据进行编码转化,得到向量集合;将向量集合输入随机森林回归模型中,并采用K折交叉验证方法进行训练,得到训练后的模型;采用预设指标评估训练后的模型,得到评估结果,并采用评估结果优化训练后的模型,得到目标模型。
在本实施例一中,通过目标模型预测模型的训练时间,从而制定计算设备训练模型的训练计划,减少模型训练时间,达到加速模型训练的效果,提高了异常数据的检测效率。
具体地,采集金融机构中的历史交易数据,并按照对交易数据集进行的表格表征、数据清洗、数据预处理、数据表拼接、内存优化和降维处理操作对历史交易数据进行同样的操作,得到历史数据表。在历史数据表中随机抽取10%(即上述的预设比例)的数据分别对预设模型集合中N个未训练的基础模型进行训练,得到模型性能数据集,模型性能数据集可以如表2所示,其中,决策树、HBOS、ECOD等模型表示基础模型,Tsample表示历史数据表中10%的数据,4CPU64GiMEM表示计算设备的硬件配置。
表2
然后,通过pandas库对模型性能数据集中的数据进行编码转化,转化为Numpy数组格式,以方便后续处理,并去除冗余列或异常值得到向量集合,对向量集合进行one-hot编码转换categorical特征,将算法类型、数据集大小等特征向量化和特征选择,得到特征向量,将特征向量输入随机森林回归模型中,采用K折交叉验证方法(例如,K等于10)进行训练,得到训练后的模型。
最后,采用预设指标(例如,R方、均方误差、皮尔逊相关系数等指标)评估所述训练后的模型,得到评估结果,并根据评估结果多轮训练优化随机森林的参数的模型参数,得到目标模型,将目标模型保存至服务器中。
可选地,在本申请实施例一提供的交易数据异常信息的检测方法中,依据训练时长序列确定模型序列的训练计划,得到目标训练计划包括:确定运行每个模型的目标设备信息;依据目标设备信息和训练时长序列计算平均训练时长;计算平均训练时长与训练时长序列中每个训练时长的差值;依据平均训练时长与每个训练时长的差值确定目标训练计划。
在本实施例一中,为了节省模型训练时间,需要根据目标模型的预测结果和训练目标数据表的计算设备制定目标训练计划,从而保证训练时长最小化,提高异常数据的检测效率。
具体地,根据目标模型预测模型序列中每个模型的训练时长,即上述的训练时长序列{time1,time2,time3,……,timen}。假设现在有x核的CPU(即上述的目标设备信息)可供进行并行化处理,则可以采用公式二计算平均训练时长,公式二如下所示,
其中,timei表示训练时长序列中第i个训练时长,x表示目标设备拥有x核的CPU,表示平均训练时长。根据公式三确定平均训练时长与训练时长序列中每个训练时长的差值,公式三如下所示,
其中,timei表示训练时长序列中第i个训练时长,表示平均训练时长。确定目标设备训练模型序列中不同模型的训练计划,并采用公式二计算每个训练计划对应的差值,将差值最小的训练计划确定为上述的目标训练计划。
可选地,在本申请实施例一提供的交易数据异常信息的检测方法中,采用模型序列中每个训练后的模型检测目标数据表中的异常信息,得到检测结果包括:将目标数据表分别输入每个训练后的模型进行检测,得到每个训练后的模型输出的异常信息;采用线性加权法对每个训练后的模型输出的异常信息进行计算,得到检测结果。
在本实施例一中,得到每个训练后的模型后,分别采用每个训练后的模型对目标数据表中的异常数据进行检测,得到每个训练后的模型输出的异常数据,以及每个异常数据的预测概率。可以将检测到的每个异常数据的每个预测概率进行平均,即将每个预测概率的权值看作相同的值,计算出每个异常数据的预测概率,将超过预设阈值的预测概率对应的异常数据作为最后的检测结果。也可以为不同模型检测出的异常数据的预测概率分配不同的权值,从而采用线性加权法计算每个异常数据的预测概率,计算出每个异常数据的预测概率。
可选地,在本实施例一中,本方案训练预测模型训练时长的流程可以如图2所示。首先,根据内部数据源和外部数据源获取到交易明细表,例如,选取2022年1月1日至2023年6月2日的新注册用户或者沉默用户,且产生的所有类型的转账交易的用户作为实际样本,数量级为百万级别,对数据进行预处理操作,选取783个特征变量,其中660个特征来源于hive集群,123个特征来源于服务器python环境开发,所构成的特征表为百万级*783。大小为9.4G。
然后,将特征表转化为dataframe格式,使用dataframe格式的相关函数对特征表的每一列进行检测,判断数据类型和每一个列字段值的最大值最小值,然后使用内存优化模块,经过压缩后,特征表所占内存变为原来的60%左右,使用gc工具删除代码中曾经出现的中间变量。对经过压缩后的特征集合先剔除主体属性后,使用JL维度优化模块,选取最优的维度转移矩阵,形状为:79*783。然后得到优化后的特征集形状为:百万级*79。
其次,对优化后的特征集随机采样10%的数据,记作特征集F。然后挑选不同参数的模型,例如,决策树10个(包含不同模型参数的决策树),HBOS,ECOD,LOF10个,PCA3个,孤立森林,CBLOF,不同核SVM10个,Feature Bagging,GMM等共50个算法。将50个算法分别应用于特征集F。选用4CPU,64Gi内存的硬件条件,构建性能算法数据集。总体训练时间5天左右,得到最终50个基础模型的训练时间,将性能统计表使用pandas读取,记为模型性能数据集PT。
最后,使用随机森林回归模型来预测新算法训练时间,将PT进行编码转换,将数值型向量化。现有一组需要训练的新模型{LOF_15,20,25,35,PCA_3,KNN,孤立森林,CBLOF,ECOD,HBOS}(相当于上述的模型序列)。匹配模型性能数据集PT中基模型的预估训练时间,进行从大到小排序,如下:{LOF_35,KNN,LOF_20,孤立森林,LOF_15,PCA_3,CBLOF,ECOD,HBOS}。通过对模型训练时间的抽象计算,得到最小的时间差:6mins。针对4CPU设置4个worker,对4个worker进行动态分配:{[worker1:LOF_35,HBOS],[worker2:KNN,ECOD],[worker3:LOF_20,CBLOF],[worker4:孤立森林,LOF_15,PCA_3]}。如果单独对这一组新模型训练,需要花费5小时以上的时间,采用动态分配后,实际测算时间开销为48mins。经过训练后得到模型结果,供业务人员查验。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
实施例二
本申请实施例二还提供了一种交易数据异常信息的检测装置,需要说明的是,本申请实施例二的交易数据异常信息的检测装置可以用于执行本申请实施例一所提供的用于交易数据异常信息的检测方法。以下对本申请实施例二提供的交易数据异常信息的检测装置进行介绍。
图3是根据本申请实施例二的交易数据异常信息的检测装置的示意图。如图3所示,该装置包括:获取单元301、处理单元302、训练单元303和检测单元304。
具体地,获取单元301,用于获取待检测异常信息的交易数据,得到交易数据集合。
处理单元302,用于对交易数据集合中的数据进行内存优化和降维处理,得到目标数据表。
训练单元303,用于将目标数据表输入模型序列中的每个模型中,并按照目标训练计划进行训练,得到模型序列中每个训练后的模型,其中,模型序列中包含N个未训练的模型,目标训练计划是指模型序列中每个模型的训练计划。
检测单元304,用于采用模型序列中每个训练后的模型检测目标数据表中的异常信息,得到检测结果。
本申请实施例二提供的交易数据异常信息的检测装置,通过获取单元301获取待检测异常信息的交易数据,得到交易数据集合;处理单元302对交易数据集合中的数据进行内存优化和降维处理,得到目标数据表;训练单元303将目标数据表输入模型序列中的每个模型中,并按照目标训练计划进行训练,得到模型序列中每个训练后的模型,其中,模型序列中包含N个未训练的模型,目标训练计划是指模型序列中每个模型的训练计划;检测单元304采用模型序列中每个训练后的模型检测目标数据表中的异常信息,得到检测结果,解决了相关技术中检测交易数据中的异常值时,采用传统的异常检测方法对海量交易数据进行检测时运行较慢的问题。通过对交易数据进行内存优化和数据降维处理,能够节约存储空间,提高计算和模型训练的效率,同时通过动态地采用评估模型开销,制定目标训练计划,加快了多个模型的训练时间和预测时间,增加了异常数据检测的灵活性,提高了整体建模的效率,达到了提高检测异常数据的效率的效果。
可选地,在本申请实施例二提供的交易数据异常信息的检测装置中,上述的处理单元302包括:表征子单元,用于采用表格表征交易数据集合中的数据,得到交易数据表集合;第一处理子单元,用于对交易数据表集合中的数据进行数据清洗和数据预处理操作,得到处理后的交易数据表集合;拼接子单元,用于对处理后的交易数据表集合中的数据表进行拼接,得到第一数据表;第二处理子单元,用于对第一数据表中的数据进行内存优化和降维处理,得到目标数据表。
可选地,在本申请实施例二提供的交易数据异常信息的检测装置中,上述的装置还包括:第一确定单元,用于在对处理后的交易数据表集合中的数据表进行拼接,得到第一数据表之前,依据业务需求确定交易数据的统计信息;扩展单元,用于依据统计信息扩展处理后的交易数据表集合中数据表的字段,得到统计字段;第二确定单元,用于依据预设规则确定统计字段的计算规则,其中,计算规则至少包括以下规则之一:第一规则、第二规则、第三规则和第四规则,第一规则用于对单向交易中字段值进行直接计算,第二规则用于对单向交易中字段值进行逻辑计算,第三规则用于对单向交易中字段值进行间接计算,第四规则用于对单向交易中字段值集合进行计算;计算单元,用于依据计算规则和处理后的交易数据表集合计算统计字段的字段值,并依据统计字段的字段值更新处理后的交易数据表集合。
可选地,在本申请实施例二提供的交易数据异常信息的检测装置中,上述的第二处理子单元包括:检测模块,用于采用预设数据处理工具遍历第一数据表,检测第一数据表中是否存在第一字段,其中,第一字段是指字段值属于预设数据类型的字段;确定模块,用于在检测到存在第一字段的情况下,确定第一字段对应的字段值的数值范围;调整模块,用于依据数值范围和预设数据类型调整字段值的数据类型,得到调整后的第一数据表;删除模块,用于从调整后的第一数据表中包含的字段中删除主键字段,得到第二数据表;降维模块,用于基于约翰逊林登斯特劳斯引理构建维度转换矩阵,并采用维度转换矩阵对第二数据表中的数据进行降维,得到目标数据表。
可选地,在本申请实施例二提供的交易数据异常信息的检测装置中,上述的装置还包括:第三确定单元,用于在将目标数据表输入模型序列中的每个模型中,并按照目标训练计划进行训练,得到模型序列中每个训练后的模型之前,在预设模型集合中确定N个基础模型,得到模型序列,其中,基础模型是指需要对交易数据中的异常信息进行无监督学习的模型;预测单元,用于采用目标模型预测模型序列中每个模型的训练时长,得到训练时长序列,其中,目标模型是采用预设模型集合中每个模型的训练数据对随机森林回归模型进行训练后得到的模型;第四确定单元,用于依据训练时长序列确定模型序列的训练计划,得到目标训练计划。
可选地,在本申请实施例二提供的交易数据异常信息的检测装置中,上述的预测单元包括:第一采集子单元,用于采集金融机构中的历史交易数据,并对历史交易数据进行表格表征、数据清洗、数据预处理、数据表拼接、内存优化和降维处理,得到历史数据表;第二采集子单元,用于在历史数据表中随机采集预设比例的数据,得到训练集;第一训练子单元,用于采用训练集对预设模型集合中的每个模型进行训练,得到模型性能数据集;编码子单元,用于对模型性能数据集中的数据进行编码转化,得到向量集合;第二训练子单元,用于将向量集合输入随机森林回归模型中,并采用K折交叉验证方法进行训练,得到训练后的模型;评估子单元,用于采用预设指标评估训练后的模型,得到评估结果,并采用评估结果优化训练后的模型,得到目标模型。
可选地,在本申请实施例二提供的交易数据异常信息的检测装置中,上述的第四确定单元包括:第一确定子单元,用于确定运行每个模型的目标设备信息;第一计算子单元,用于依据目标设备信息和训练时长序列计算平均训练时长;第二计算子单元,用于计算平均训练时长与训练时长序列中每个训练时长的差值;第二确定子单元,用于依据平均训练时长与每个训练时长的差值确定目标训练计划。
可选地,在本申请实施例二提供的交易数据异常信息的检测装置中,上述的检测单元304包括:检测子单元,用于将目标数据表分别输入每个训练后的模型进行检测,得到每个训练后的模型输出的异常信息;第三计算子单元,用于采用线性加权法对每个训练后的模型输出的异常信息进行计算,得到检测结果。
所述交易数据异常信息的检测装置包括处理器和存储器,上述的获取单元301、处理单元302、训练单元303和检测单元304等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来提高检测异常数据的效率。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例三提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现交易数据异常信息的检测方法。
本发明实施例四提供了一种处理器,处理器用于运行程序,其中,程序运行时执行交易数据异常信息的检测方法。
如图4所示,本发明实施例五提供了一种电子设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:获取待检测异常信息的交易数据,得到交易数据集合;对交易数据集合中的数据进行内存优化和降维处理,得到目标数据表;将目标数据表输入模型序列中的每个模型中,并按照目标训练计划进行训练,得到模型序列中每个训练后的模型,其中,模型序列中包含N个未训练的模型,目标训练计划是指模型序列中每个模型的训练计划;采用模型序列中每个训练后的模型检测目标数据表中的异常信息,得到检测结果。
处理器执行程序时还实现以下步骤:对交易数据集合中的数据进行内存优化和降维处理,得到目标数据表包括:采用表格表征交易数据集合中的数据,得到交易数据表集合;对交易数据表集合中的数据进行数据清洗和数据预处理操作,得到处理后的交易数据表集合;对处理后的交易数据表集合中的数据表进行拼接,得到第一数据表;对第一数据表中的数据进行内存优化和降维处理,得到目标数据表。
处理器执行程序时还实现以下步骤:在对处理后的交易数据表集合中的数据表进行拼接,得到第一数据表之前,上述的方法还包括:依据业务需求确定交易数据的统计信息;依据统计信息扩展处理后的交易数据表集合中数据表的字段,得到统计字段;依据预设规则确定统计字段的计算规则,其中,计算规则至少包括以下规则之一:第一规则、第二规则、第三规则和第四规则,第一规则用于对单向交易中字段值进行直接计算,第二规则用于对单向交易中字段值进行逻辑计算,第三规则用于对单向交易中字段值进行间接计算,第四规则用于对单向交易中字段值集合进行计算;依据计算规则和处理后的交易数据表集合计算统计字段的字段值,并依据统计字段的字段值更新处理后的交易数据表集合。
处理器执行程序时还实现以下步骤:对第一数据表中的数据进行内存优化和降维处理,得到目标数据表包括:采用预设数据处理工具遍历第一数据表,检测第一数据表中是否存在第一字段,其中,第一字段是指字段值属于预设数据类型的字段;在检测到存在第一字段的情况下,确定第一字段对应的字段值的数值范围;依据数值范围和预设数据类型调整字段值的数据类型,得到调整后的第一数据表;从调整后的第一数据表中包含的字段中删除主键字段,得到第二数据表;基于约翰逊林登斯特劳斯引理构建维度转换矩阵,并采用维度转换矩阵对第二数据表中的数据进行降维,得到目标数据表。
处理器执行程序时还实现以下步骤:在将目标数据表输入模型序列中的每个模型中,并按照目标训练计划进行训练,得到模型序列中每个训练后的模型之前,上述的方法还包括:在预设模型集合中确定N个基础模型,得到模型序列,其中,基础模型是指需要对交易数据中的异常信息进行无监督学习的模型;采用目标模型预测模型序列中每个模型的训练时长,得到训练时长序列,其中,目标模型是采用预设模型集合中每个模型的训练数据对随机森林回归模型进行训练后得到的模型;依据训练时长序列确定模型序列的训练计划,得到目标训练计划。
处理器执行程序时还实现以下步骤:上述的目标模型由以下步骤得到:采集金融机构中的历史交易数据,并对历史交易数据进行表格表征、数据清洗、数据预处理、数据表拼接、内存优化和降维处理,得到历史数据表;在历史数据表中随机采集预设比例的数据,得到训练集;采用训练集对预设模型集合中的每个模型进行训练,得到模型性能数据集;对模型性能数据集中的数据进行编码转化,得到向量集合;将向量集合输入随机森林回归模型中,并采用K折交叉验证方法进行训练,得到训练后的模型;采用预设指标评估训练后的模型,得到评估结果,并采用评估结果优化训练后的模型,得到目标模型。
处理器执行程序时还实现以下步骤:依据训练时长序列确定模型序列的训练计划,得到目标训练计划包括:确定运行每个模型的目标设备信息;依据目标设备信息和训练时长序列计算平均训练时长;计算平均训练时长与训练时长序列中每个训练时长的差值;依据平均训练时长与每个训练时长的差值确定目标训练计划。
处理器执行程序时还实现以下步骤:采用模型序列中每个训练后的模型检测目标数据表中的异常信息,得到检测结果包括:将目标数据表分别输入每个训练后的模型进行检测,得到每个训练后的模型输出的异常信息;采用线性加权法对每个训练后的模型输出的异常信息进行计算,得到检测结果。
本文中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:获取待检测异常信息的交易数据,得到交易数据集合;对交易数据集合中的数据进行内存优化和降维处理,得到目标数据表;将目标数据表输入模型序列中的每个模型中,并按照目标训练计划进行训练,得到模型序列中每个训练后的模型,其中,模型序列中包含N个未训练的模型,目标训练计划是指模型序列中每个模型的训练计划;采用模型序列中每个训练后的模型检测目标数据表中的异常信息,得到检测结果。
当在数据处理设备上执行时,还适于执行初始化有如下方法步骤的程序:对交易数据集合中的数据进行内存优化和降维处理,得到目标数据表包括:采用表格表征交易数据集合中的数据,得到交易数据表集合;对交易数据表集合中的数据进行数据清洗和数据预处理操作,得到处理后的交易数据表集合;对处理后的交易数据表集合中的数据表进行拼接,得到第一数据表;对第一数据表中的数据进行内存优化和降维处理,得到目标数据表。
当在数据处理设备上执行时,还适于执行初始化有如下方法步骤的程序:在对处理后的交易数据表集合中的数据表进行拼接,得到第一数据表之前,上述的方法还包括:依据业务需求确定交易数据的统计信息;依据统计信息扩展处理后的交易数据表集合中数据表的字段,得到统计字段;依据预设规则确定统计字段的计算规则,其中,计算规则至少包括以下规则之一:第一规则、第二规则、第三规则和第四规则,第一规则用于对单向交易中字段值进行直接计算,第二规则用于对单向交易中字段值进行逻辑计算,第三规则用于对单向交易中字段值进行间接计算,第四规则用于对单向交易中字段值集合进行计算;依据计算规则和处理后的交易数据表集合计算统计字段的字段值,并依据统计字段的字段值更新处理后的交易数据表集合。
当在数据处理设备上执行时,还适于执行初始化有如下方法步骤的程序:对第一数据表中的数据进行内存优化和降维处理,得到目标数据表包括:采用预设数据处理工具遍历第一数据表,检测第一数据表中是否存在第一字段,其中,第一字段是指字段值属于预设数据类型的字段;在检测到存在第一字段的情况下,确定第一字段对应的字段值的数值范围;依据数值范围和预设数据类型调整字段值的数据类型,得到调整后的第一数据表;从调整后的第一数据表中包含的字段中删除主键字段,得到第二数据表;基于约翰逊林登斯特劳斯引理构建维度转换矩阵,并采用维度转换矩阵对第二数据表中的数据进行降维,得到目标数据表。
当在数据处理设备上执行时,还适于执行初始化有如下方法步骤的程序:在将目标数据表输入模型序列中的每个模型中,并按照目标训练计划进行训练,得到模型序列中每个训练后的模型之前,上述的方法还包括:在预设模型集合中确定N个基础模型,得到模型序列,其中,基础模型是指需要对交易数据中的异常信息进行无监督学习的模型;采用目标模型预测模型序列中每个模型的训练时长,得到训练时长序列,其中,目标模型是采用预设模型集合中每个模型的训练数据对随机森林回归模型进行训练后得到的模型;依据训练时长序列确定模型序列的训练计划,得到目标训练计划。
当在数据处理设备上执行时,还适于执行初始化有如下方法步骤的程序:上述的目标模型由以下步骤得到:采集金融机构中的历史交易数据,并对历史交易数据进行表格表征、数据清洗、数据预处理、数据表拼接、内存优化和降维处理,得到历史数据表;在历史数据表中随机采集预设比例的数据,得到训练集;采用训练集对预设模型集合中的每个模型进行训练,得到模型性能数据集;对模型性能数据集中的数据进行编码转化,得到向量集合;将向量集合输入随机森林回归模型中,并采用K折交叉验证方法进行训练,得到训练后的模型;采用预设指标评估训练后的模型,得到评估结果,并采用评估结果优化训练后的模型,得到目标模型。
当在数据处理设备上执行时,还适于执行初始化有如下方法步骤的程序:依据训练时长序列确定模型序列的训练计划,得到目标训练计划包括:确定运行每个模型的目标设备信息;依据目标设备信息和训练时长序列计算平均训练时长;计算平均训练时长与训练时长序列中每个训练时长的差值;依据平均训练时长与每个训练时长的差值确定目标训练计划。
当在数据处理设备上执行时,还适于执行初始化有如下方法步骤的程序:采用模型序列中每个训练后的模型检测目标数据表中的异常信息,得到检测结果包括:将目标数据表分别输入每个训练后的模型进行检测,得到每个训练后的模型输出的异常信息;采用线性加权法对每个训练后的模型输出的异常信息进行计算,得到检测结果。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种交易数据异常信息的检测方法,其特征在于,包括:
获取待检测异常信息的交易数据,得到交易数据集合;
对所述交易数据集合中的数据进行内存优化和降维处理,得到目标数据表;
将所述目标数据表输入模型序列中的每个模型中,并按照目标训练计划进行训练,得到所述模型序列中每个训练后的模型,其中,所述模型序列中包含N个未训练的模型,所述目标训练计划是指所述模型序列中每个模型的训练计划;
采用所述模型序列中每个训练后的模型检测所述目标数据表中的异常信息,得到检测结果。
2.根据权利要求1所述的方法,其特征在于,对所述交易数据集合中的数据进行内存优化和降维处理,得到目标数据表包括:
采用表格表征所述交易数据集合中的数据,得到交易数据表集合;
对所述交易数据表集合中的数据进行数据清洗和数据预处理操作,得到处理后的交易数据表集合;
对所述处理后的交易数据表集合中的数据表进行拼接,得到第一数据表;
对所述第一数据表中的数据进行内存优化和降维处理,得到所述目标数据表。
3.根据权利要求2所述的方法,其特征在于,在对所述处理后的交易数据表集合中的数据表进行拼接,得到第一数据表之前,所述方法还包括:
依据业务需求确定交易数据的统计信息;
依据所述统计信息扩展所述处理后的交易数据表集合中数据表的字段,得到统计字段;
依据预设规则确定所述统计字段的计算规则,其中,所述计算规则至少包括以下规则之一:第一规则、第二规则、第三规则和第四规则,所述第一规则用于对单向交易中字段值进行直接计算,所述第二规则用于对单向交易中字段值进行逻辑计算,所述第三规则用于对单向交易中字段值进行间接计算,所述第四规则用于对单向交易中字段值集合进行计算;
依据所述计算规则和所述处理后的交易数据表集合计算所述统计字段的字段值,并依据所述统计字段的字段值更新所述处理后的交易数据表集合。
4.根据权利要求2所述的方法,其特征在于,对所述第一数据表中的数据进行内存优化和降维处理,得到所述目标数据表包括:
采用预设数据处理工具遍历所述第一数据表,检测所述第一数据表中是否存在第一字段,其中,所述第一字段是指字段值属于预设数据类型的字段;
在检测到存在所述第一字段的情况下,确定所述第一字段对应的字段值的数值范围;
依据所述数值范围和所述预设数据类型调整所述字段值的数据类型,得到调整后的第一数据表;
从所述调整后的第一数据表中包含的字段中删除主键字段,得到第二数据表;
基于约翰逊林登斯特劳斯引理构建维度转换矩阵,并采用所述维度转换矩阵对所述第二数据表中的数据进行降维,得到所述目标数据表。
5.根据权利要求1所述的方法,其特征在于,在将所述目标数据表输入模型序列中的每个模型中,并按照目标训练计划进行训练,得到所述模型序列中每个训练后的模型之前,所述方法还包括:
在预设模型集合中确定N个基础模型,得到所述模型序列,其中,所述基础模型是指需要对交易数据中的异常信息进行无监督学习的模型;
采用目标模型预测所述模型序列中每个模型的训练时长,得到训练时长序列,其中,所述目标模型是采用所述预设模型集合中每个模型的训练数据对随机森林回归模型进行训练后得到的模型;
依据所述训练时长序列确定所述模型序列的训练计划,得到所述目标训练计划。
6.根据权利要求5所述的方法,其特征在于,所述目标模型由以下步骤得到:
采集金融机构中的历史交易数据,并对所述历史交易数据进行表格表征、数据清洗、数据预处理、数据表拼接、内存优化和降维处理,得到历史数据表;
在所述历史数据表中随机采集预设比例的数据,得到训练集;
采用所述训练集对所述预设模型集合中的每个模型进行训练,得到模型性能数据集;
对所述模型性能数据集中的数据进行编码转化,得到向量集合;
将所述向量集合输入随机森林回归模型中,并采用K折交叉验证方法进行训练,得到训练后的模型;
采用预设指标评估所述训练后的模型,得到评估结果,并采用所述评估结果优化所述训练后的模型,得到所述目标模型。
7.根据权利要求5所述的方法,其特征在于,依据所述训练时长序列确定所述模型序列的训练计划,得到所述目标训练计划包括:
确定运行每个模型的目标设备信息;
依据所述目标设备信息和所述训练时长序列计算平均训练时长;
计算所述平均训练时长与所述训练时长序列中每个训练时长的差值;
依据所述平均训练时长与每个训练时长的差值确定所述目标训练计划。
8.根据权利要求1所述的方法,其特征在于,采用所述模型序列中每个训练后的模型检测所述目标数据表中的异常信息,得到检测结果包括:
将所述目标数据表分别输入每个训练后的模型进行检测,得到每个训练后的模型输出的异常信息;
采用线性加权法对每个训练后的模型输出的异常信息进行计算,得到所述检测结果。
9.一种交易数据异常信息的检测装置,其特征在于,包括:
获取单元,用于获取待检测异常信息的交易数据,得到交易数据集合;
处理单元,用于对所述交易数据集合中的数据进行内存优化和降维处理,得到目标数据表;
训练单元,用于将所述目标数据表输入模型序列中的每个模型中,并按照目标训练计划进行训练,得到所述模型序列中每个训练后的模型,其中,所述模型序列中包含N个未训练的模型,所述目标训练计划是指所述模型序列中每个模型的训练计划;
检测单元,用于采用所述模型序列中每个训练后的模型检测所述目标数据表中的异常信息,得到检测结果。
10.一种电子设备,其特征在于,包括一个或多个处理器和存储器,所述存储器用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1至8中任意一项所述的交易数据异常信息的检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311708558.0A CN117688491A (zh) | 2023-12-12 | 2023-12-12 | 交易数据异常信息的检测方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311708558.0A CN117688491A (zh) | 2023-12-12 | 2023-12-12 | 交易数据异常信息的检测方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117688491A true CN117688491A (zh) | 2024-03-12 |
Family
ID=90128053
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311708558.0A Pending CN117688491A (zh) | 2023-12-12 | 2023-12-12 | 交易数据异常信息的检测方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117688491A (zh) |
-
2023
- 2023-12-12 CN CN202311708558.0A patent/CN117688491A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11210144B2 (en) | Systems and methods for hyperparameter tuning | |
US10311044B2 (en) | Distributed data variable analysis and hierarchical grouping system | |
US20200302540A1 (en) | Applying a trained model to predict a future value using contextualized sentiment data | |
CN113298230B (zh) | 一种基于生成对抗网络的不平衡数据集的预测方法 | |
US11562252B2 (en) | Systems and methods for expanding data classification using synthetic data generation in machine learning models | |
CN111143578B (zh) | 基于神经网络抽取事件关系的方法、装置和处理器 | |
Yarragunta et al. | Prediction of air pollutants using supervised machine learning | |
CN112734106A (zh) | 用于预测能源负荷的方法及装置 | |
CN115358481A (zh) | 一种企业外迁预警识别的方法、系统及装置 | |
CN114997916A (zh) | 潜在用户的预测方法、系统、电子设备和存储介质 | |
CN113837635A (zh) | 风险检测处理方法、装置及设备 | |
US11295229B1 (en) | Scalable generation of multidimensional features for machine learning | |
CN117170915A (zh) | 数据中心设备故障预测方法、装置和计算机设备 | |
CN117688491A (zh) | 交易数据异常信息的检测方法、装置及电子设备 | |
US20240152818A1 (en) | Methods for mitigation of algorithmic bias discrimination, proxy discrimination and disparate impact | |
CN115481803A (zh) | 基于行业拥挤度的金融时间序列预测方法、装置及设备 | |
CN112862179A (zh) | 一种用能行为的预测方法、装置及计算机设备 | |
Chakrapani et al. | Predicting performance analysis of system configurations to contrast feature selection methods | |
WO2022156743A1 (zh) | 特征构建方法和装置、模型训练方法和装置、设备、介质 | |
JP7502345B2 (ja) | 製品不良要因を分析するシステム及び方法、コンピュータ可読媒体 | |
Zhou et al. | Research on Natural Disaster Risk Assessment and Insurance Decision-Making Using EWM-TOPSIS and ARIMA Models | |
CN117422545A (zh) | 信用风险识别方法、装置、设备及存储介质 | |
CN118195256A (zh) | 一种芯片任务人员推荐方法、设备和存储介质 | |
CN117131083A (zh) | 预测语句执行时间范围的方法、装置、处理器及电子设备 | |
CN117033726A (zh) | 报表访问时长的预测方法、装置、处理器及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |