CN116861272A - 数据处理方法、装置、计算机设备和存储介质 - Google Patents
数据处理方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN116861272A CN116861272A CN202310869042.8A CN202310869042A CN116861272A CN 116861272 A CN116861272 A CN 116861272A CN 202310869042 A CN202310869042 A CN 202310869042A CN 116861272 A CN116861272 A CN 116861272A
- Authority
- CN
- China
- Prior art keywords
- clustering
- target
- data
- determining
- results
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title abstract description 18
- 238000012545 processing Methods 0.000 claims abstract description 253
- 238000000034 method Methods 0.000 claims abstract description 58
- 238000004590 computer program Methods 0.000 claims abstract description 26
- 238000007621 cluster analysis Methods 0.000 claims abstract description 25
- 238000007405 data analysis Methods 0.000 claims abstract description 21
- 238000004458 analytical method Methods 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 16
- 238000004140 cleaning Methods 0.000 claims description 11
- 230000006399 behavior Effects 0.000 description 31
- 230000006870 function Effects 0.000 description 19
- 230000008520 organization Effects 0.000 description 14
- 230000007246 mechanism Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 230000001351 cycling effect Effects 0.000 description 4
- 230000003247 decreasing effect Effects 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 3
- 230000035772 mutation Effects 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000000903 blocking effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000003064 k means clustering Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004884 risky behavior Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种数据处理方法、装置、计算机设备、存储介质和计算机程序产品,涉及大数据技术领域。所述方法包括:获取目标数据表,所述目标数据表中包含目标时间段的多个业务处理数据;基于目标聚类分析策略,针对各聚类指标对所述目标数据表中的各所述业务处理数据进行聚类处理,得到各所述聚类指标对应的多个聚类结果;根据各所述聚类结果中的各所述业务处理数据,确定各所述聚类结果之间的关联关系;根据各所述聚类结果之间的关联关系,从各所述聚类结果中确定至少一个目标聚类结果组,并根据各所述目标聚类结果组,生成数据分析结果。采用本方法,能够确定存在单个工作人员负责全局业务的模式的风险的时间节点或行为节点。
Description
技术领域
本申请涉及大数据技术领域,特别是涉及一种数据处理方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
在业务处理过程中,用户发起的业务处理请求,往往通过一个工作人员进行处理。这种单个工作人员负责全局业务的模式,会导致业务系统安全性较低。
目前,针对单个工作人员负责用户全局业务的模式,能够在业务处理过程中,通过多个工作人员分别对部分业务进行处理,从而避免单个工作人员负责全局业务的模式带来的安全问题。
然而,在实际工作中,由于用户数量多、人力资源少等因素还是不可避免产生单个工作人员负责全局业务的模式的问题,并且业务系统中,也无法判断是否存在单个工作人员负责全局业务的模式的风险。
发明内容
基于此,有必要针对上述技术问题,提供一种能够检测业务系统中存在单个工作人员负责全局业务的模式风险的数据处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种数据处理方法。所述方法包括:
获取目标数据表,所述目标数据表中包含目标时间段的多个业务处理数据;
基于目标聚类分析策略,针对各聚类指标对所述目标数据表中的各所述业务处理数据进行聚类处理,得到各所述聚类指标对应的多个聚类结果;
根据各所述聚类结果中的各所述业务处理数据,确定各所述聚类结果之间的关联关系;
根据各所述聚类结果之间的关联关系,从各所述聚类结果中确定至少一个目标聚类结果组,并根据各所述目标聚类结果组,生成数据分析结果。
在其中一个实施例中,所述基于目标聚类分析策略,针对各聚类指标对所述目标数据表中的各所述业务处理数据进行聚类处理,得到各所述聚类指标对应的多个聚类结果,包括:
针对任一所述聚类指标,确定所述目标数据表中所述聚类指标对应的目标聚类结果数目;
基于所述目标聚类结果数目和目标聚类分析算法,对所述目标数据表中的各所述业务处理数据进行聚类处理,得到所述聚类指标对应的所述目标聚类结果数目个聚类结果。
在其中一个实施例中,所述针对任一所述聚类指标,确定所述目标数据表中所述聚类指标对应的目标聚类结果数目,包括:
针对任一所述聚类指标,根据所述聚类指标对应的业务处理数据的数目,确定所述聚类指标对应的多个聚类结果数目;
确定所述聚类指标对应的各所述聚类结果数目对应的误差平方和,并根据各所述聚类结果数目对应的误差平方和,确定任意两个相邻所述聚类结果数目对应的样本平方误差和之间的差值;
根据各所述差值中的目标差值,确定所述聚类指标对应的目标聚类结果数目,所述目标聚类结果数目为所述目标差值对应的两个相邻所述聚类结果数目中较大的聚类结果数目。
在其中一个实施例中,所述根据各所述聚类结果中的各所述业务处理数据,确定各所述聚类结果之间的关联关系,包括:
根据所述目标数据表中各所述业务处理数据针对各所述聚类结果的数据,确定所述目标数据表对应的事务表,所述事务表包括各所述业务处理数据针对各所述聚类结果的项;
根据所述事务表中各所述业务处理数据针对各所述聚类结果的项,确定第一项集;
根据预设最小支持度和所述第一项集,确定第二项集;
根据所述第二项集,确定所述第二项集中的各个项的关联规则,并基于所述第二项集中的各所述项的关联规则,确定各所述聚类结果之间的关联关系。
在其中一个实施例中,所述根据预设最小支持度和所述第一项集,确定第二项集,包括:
在第k轮处理过程中,根据预设最小支持度,在第k-1频繁项集中,确定满足所述预设最小支持度的第k频繁项集,并在所述第k频繁项集中项的数目低于或者等于预设项数时,进入第k+1轮处理过程,直至第m频繁项集中项的数目高于所述预设项数为止;
将各轮次处理过程中的频繁项集,作为第二项集;其中,k与m均为正整数,在k为1的情况下,所述第k-1频繁项集为包含一个项的所述第一项集。
在其中一个实施例中,所述基于所述第二项集中的各所述项的关联规则,确定各所述聚类结果之间的关联关系,包括:
根据所述第二项集的支持度以及各所述第二项集中各个项之间的关联规则,确定所述第二项集中各所述项之间的关联规则的置信度;
在所述第二项集中各所述项之间的关联规则中,将置信度大于或者等于预设最小置信度的关联规则,作为目标关联规则;
根据所述目标关联规则对应的各所述聚类结果及所述目标关联规则的置信度,确定各所述聚类结果之间的关联关系。
在其中一个实施例中,所述根据各所述聚类结果之间的关联关系,从各所述聚类结果中确定至少一个目标聚类结果组,包括:
针对各所述聚类结果中的目标聚类结果,在各所述聚类结果中,将所述目标聚类结果以及与所述目标聚类结果存在关联关系的所述聚类结果,确定为一个目标聚类结果组,所述目标聚类结果为各所述聚类结果中的任一所述聚类结果。
在其中一个实施例中,所述获取目标数据表之前,还包括:
获取多个初始业务处理数据;
对各所述初始业务处理数据进行数据清洗,得到多个业务处理数据;
基于各所述业务处理数据,构建目标数据表。
第二方面,本申请还提供了一种数据处理装置。所述装置包括:
获取模块,用于获取目标数据表,所述目标数据表中包含目标时间段的多个业务处理数据;
聚类模块,用于基于目标聚类分析策略,针对各聚类指标对所述目标数据表中的各所述业务处理数据进行聚类处理,得到各所述聚类指标对应的多个聚类结果;
确定模块,用于根据各所述聚类结果中的各所述业务处理数据,确定各所述聚类结果之间的关联关系;
生成模块,用于根据各所述聚类结果之间的关联关系,从各所述聚类结果中确定至少一个目标聚类结果组,并根据各所述目标聚类结果组,生成数据分析结果。
在其中一个实施例中,所述聚类模块具体用于:
针对任一所述聚类指标,确定所述目标数据表中所述聚类指标对应的目标聚类结果数目;
基于所述目标聚类结果数目和目标聚类分析算法,对所述目标数据表中的各所述业务处理数据进行聚类处理,得到所述聚类指标对应的所述目标聚类结果数目个聚类结果。
在其中一个实施例中,所述聚类模块具体用于:
针对任一所述聚类指标,根据所述聚类指标对应的业务处理数据的数目,确定所述聚类指标对应的多个聚类结果数目;
确定所述聚类指标对应的各所述聚类结果数目对应的误差平方和,并根据各所述聚类结果数目对应的误差平方和,确定任意两个相邻所述聚类结果数目对应的样本平方误差和之间的差值;
根据各所述差值中的目标差值,确定所述聚类指标对应的目标聚类结果数目,所述目标聚类结果数目为所述目标差值对应的两个相邻所述聚类结果数目中较大的聚类结果数目。
在其中一个实施例中,所述确定模块具体用于:
根据所述目标数据表中各所述业务处理数据针对各所述聚类结果的数据,确定所述目标数据表对应的事务表,所述事务表包括各所述业务处理数据针对各所述聚类结果的项;
根据所述事务表中各所述业务处理数据针对各所述聚类结果的项,确定第一项集;
根据预设最小支持度和所述第一项集,确定第二项集;
根据所述第二项集,确定所述第二项集中的各个项的关联规则,并基于所述第二项集中的各所述项的关联规则,确定各所述聚类结果之间的关联关系。
在其中一个实施例中,所述确定模块具体用于:
在第k轮处理过程中,根据预设最小支持度,在第k-1频繁项集中,确定满足所述预设最小支持度的第k频繁项集,并在所述第k频繁项集中项的数目低于或者等于预设项数时,进入第k+1轮处理过程,直至第m频繁项集中项的数目高于所述预设项数为止;
将各轮次处理过程中的频繁项集,作为第二项集;其中,k与m均为正整数,在k为1的情况下,所述第k-1频繁项集为包含一个项的所述第一项集。
在其中一个实施例中,所述确定模块具体用于:
根据所述第二项集的支持度以及各所述第二项集中各个项之间的关联规则,确定所述第二项集中各所述项之间的关联规则的置信度;
在所述第二项集中各所述项之间的关联规则中,将置信度大于或者等于预设最小置信度的关联规则,作为目标关联规则;
根据所述目标关联规则对应的各所述聚类结果及所述目标关联规则的置信度,确定各所述聚类结果之间的关联关系。
在其中一个实施例中,所述生成模块具体用于:
针对各所述聚类结果中的目标聚类结果,在各所述聚类结果中,将所述目标聚类结果以及与所述目标聚类结果存在关联关系的所述聚类结果,确定为一个目标聚类结果组,所述目标聚类结果为各所述聚类结果中的任一所述聚类结果。
在其中一个实施例中,所述装置还包括:
获取模块,用于获取多个初始业务处理数据;
清洗模块,用于对各所述初始业务处理数据进行数据清洗,得到多个业务处理数据;
构建模块,用于基于各所述业务处理数据,构建目标数据表。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面中各数据处理方法的步骤。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面中各数据处理方法的步骤。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述第一方面中各数据处理方法的步骤。
上述数据处理方法、装置、计算机设备、存储介质和计算机程序产品,获取目标数据表,所述目标数据表中包含目标时间段的多个业务处理数据;基于目标聚类分析策略,针对各聚类指标对所述目标数据表中的各所述业务处理数据进行聚类处理,得到各所述聚类指标对应的多个聚类结果;根据各所述聚类结果中的各所述业务处理数据,确定各所述聚类结果之间的关联关系;根据各所述聚类结果之间的关联关系,从各所述聚类结果中确定至少一个目标聚类结果组,并根据各所述目标聚类结果组,生成数据分析结果。由于能够基于多个业务处理数据,确定多个业务处理数据对应的聚类指标,并根据各聚类指标对各业务处理数据进行聚类分析处理,确定各聚类结果之间的关联关系。基于存在关联关系的多个聚类结果对应的数据分析结果,能够确定存在单个工作人员负责全局业务的模式的风险的时间节点或行为节点。
附图说明
图1为一个实施例中数据处理方法的流程示意图;
图2为一个实施例中聚类指标的数据表示例的示意图;
图3为一个实施例中得到聚类指标对应的目标聚类结果数目个聚类结果的流程示意图;
图4为一个实施例中确定聚类指标对应的目标聚类结果数目的流程示意图;
图5为一个实施例中确定第二项集的流程示意图;
图6为另一个实施例中确定第二项集的流程示意图;
图7为一个实施例中确定各聚类结果之间的关联关系的流程示意图;
图8为一个实施例中构建目标数据表的流程示意图;
图9为一个实施例中数据处理方法的处理过程示例的流程示意图;
图10为一个实施例中数据处理装置的结构框图;
图11为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种数据处理方法,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例中,该方法包括以下步骤:
步骤102,获取目标数据表。
其中,目标数据表中包含目标时间段的多个业务处理数据,业务处理数据为业务处理过程中产生的数据,例如,业务处理数据中包含工作人员标识信息、业务处理时间信息、工作人员行为信息等,本申请实施例对于业务处理数据的具体内容不做限定。
本申请实施例中,终端可以在业务系统的数据库中查询业务处理数据,并将目标时间段的多个业务处理数据构建为目标数据表。
示例性地,参照表1所示,终端可以根据数据湖等数据库平台,在业务系统的数据库中收集业务处理数据,业务处理数据中可以包括工作人员标识、业务处理时间信息、业务处理代码、交易数量、所在机构标识、用户标识等。
表1
步骤104,基于目标聚类分析策略,针对各聚类指标对目标数据表中的各业务处理数据进行聚类处理,得到各聚类指标对应的多个聚类结果。
其中,聚类就是指把数据规划为不同类别。在聚类过程中要注意与分类的区别,分类中的规则为人为制定的,而聚类由数据自身的特性决定自己的类别。常用的三种聚类方法分别是:基于群的聚类方法、神经网络方法和统计学方法,最基本的两个聚类算法为k-means(k-means clustering algorithm,K均值聚类算法)聚类分析算法和k-medoids(一种基于中心点的聚类算法)聚类分析方法。
其中,聚类指标为目标数据表中各待进行聚类处理的指标,例如聚类指标为表1中的业务处理时间信息、所在机构标识等。
本申请实施例中,终端基于目标聚类分析策略,针对每一聚类指标,对目标数据表中的各业务处理数据进行聚类处理,得到每一聚类指标对应的多个聚类结果。
示例性地,参照表1,终端可以基于k-means聚类分析策略,在聚类指标为所在机构标识的情况下,参照图2所示,终端可以确定针对该聚类指标的数据表。终端在目标数据表中插入数据透视表;在单元格区域选择全部业务处理数据,然后,终端在字段列表选择“所在机构标识”作为“行”,在字段列表选择“交易数量”的求和项作为“值”。然后,终端对数据透视表进行初步分析,得到针对该聚类指标的数据表。
针对该聚类指标,参照表2所示,终端对目标数据表中的各业务处理数据进行聚类处理,得到所在机构标识对应的多个聚类结果。各聚类结果包括第一类机构和第二类机构,第一类机构质心为47,第二类机构质心为504.33。
表2
终端可以基于k-means聚类分析策略,在聚类指标为业务处理时间信息的情况下,针对该聚类指标,对目标数据表中的各业务处理数据进行聚类处理,得到业务处理时间信息对应的多个聚类结果。各聚类结果包括第一类时间、第二类时间和第三类时间,第一类时间质心为18:20,第二类时间质心为20:00,第三类时间质心为22:30。以此类推,终端确定各聚类指标对应的多个聚类结果。
具体地,进行聚类处理的过程如下:
终端从所有业务处理数据中选取k个初始聚类中心;终端根据初始聚类中心,求得非初始聚类中心的业务处理数据与初始聚类中心的相似度(即距离),再根据各业务处理数据与初始聚类中心的相似度,将各业务处理数据放到其对应的聚类;然后终端根据聚类中所有业务处理数据的均值,确定k个新的中心;终端重复以上步骤直至标准测度函数开始收敛,停止聚类处理过程。
其中,对于标准测度函数,可以选择均方差来制定标准测度函数,本申请实施例对于标准测定函数的确定方式不做具体限定。标准测度函数可以参照公式(一)所示。
其中,E用于表征标准测度函数,k用于表征簇的数目(即聚类结果数目),C用于表征簇,Ci用于表征第i个簇,Zi用于表征第i簇的均值,x用于表征业务处理数据,d用于表征距离。
其中,两个业务处理数据的相似度(即距离)确定方式可以采取欧氏距离(Euclidean Distance),参照公式(二),具体过程如下:
其中,d用于表征距离,n用于表征业务处理数据的数据,x用于表征业务处理数据x,y用于表征业务处理数据y,i业务处理数据的第i个聚类指标。
其中,对于聚类分析策略,可以采取基于k-means聚类分析算法,本申请实施例对此不做具体限定。
步骤106,根据各聚类结果中的各业务处理数据,确定各聚类结果之间的关联关系。
本申请实施例中,终端根据各聚类结果中的各业务处理数据,确定各聚类结果之间的关联规则,然后,终端根据各聚类结果之间的关联规则,确定各聚类结果之间的关联关系。
其中,各聚类结果之间的关联规则用于确定各聚类结果之间的关联,例如,关联规则为能够表征第一类机构和第一类时间存在关联。各聚类结果之间的关联关系用于表征各聚类结果之间的关联。
其中,关联规则指的是从繁杂数据库系统中利用相应方法找出多种事物不能直观看出的但有用的关系,以规则展现关系,再经过科学整理从而得出对应的关联,提供准确的参考以便决策。
前件、后件:则P称为前件,Q称为后件。
项集DR:即属性,有多少个项集就有多少个属性,项集Item={Item1,Item2,...,Itemm};DR是事件的集合;并且DR是一个{0,1}属性的集合。
步骤108,根据各聚类结果之间的关联关系,从各聚类结果中确定至少一个目标聚类结果组,并根据各目标聚类结果组,生成数据分析结果。
其中,数据分析结果用于记录各目标聚类结果组中各聚类结果,以及各聚类结果之间的关联关系。
本申请实施例中,终端根据各聚类结果之间的关联关系,从各聚类结果中,确定存在关联关系的多个聚类结果,并将存在关联关系的每一组聚类结果,作为一个目标聚类结果组。终端根据多个目标聚类结果组,生成数据分析结果。
在终端生成数据分析结果后,技术人员可以根据各目标聚类结果组中各聚类结果之间的关联关系,确定存在单个工作人员负责全局业务的模式的风险的节点。
示例性地,终端生成的数据分析结果中,包含一个目标聚类结果组,该目标聚类结果组中包含了交易数量大机构、业务处理时间为20时和查看个人用户信息行为等三个聚类结果,并且终端确定该目标聚类结果组中的各聚类结果之间为强关联关系。因此,终端能够确定交易数量大机构、业务处理时间为20时和查看个人用户信息行为为强关联关系,因此,终端确定目标数据表中交易数量大机构、业务处理时间为20时且查看个人用户信息行为的业务处理数据为存在风险的数据。并且技术人员可知,存在单个工作人员负责全局业务的模式往往发生在交易数量大机构。因此,与交易数量大机构存在强关联的业务处理时间为20时、且查看个人用户信息行为的业务处理数据为有风险的数据,进而,终端能够确定20时为存在风险的时间节点,查看个人用户信息行为为存在风险的行为节点。
上述数据处理方法中,获取目标数据表,目标数据表中包含目标时间段的多个业务处理数据;基于目标聚类分析策略,针对各聚类指标对目标数据表中的各业务处理数据进行聚类处理,得到各聚类指标对应的多个聚类结果;根据各聚类结果中的各业务处理数据,确定各聚类结果之间的关联关系;根据各聚类结果之间的关联关系,从各聚类结果中确定至少一个目标聚类结果组,并根据各目标聚类结果组,生成数据分析结果。由于能够基于多个业务处理数据,确定多个业务处理数据对应的聚类指标,并根据各聚类指标对各业务处理数据进行聚类分析处理,确定各聚类结果之间的关联关系。基于存在关联关系的多个聚类结果对应的数据分析结果,能够确定存在单个工作人员负责全局业务的模式的风险的时间节点或行为节点。
在一个实施例中,如图3所示,步骤204包括:
步骤302,针对任一聚类指标,确定目标数据表中聚类指标对应的目标聚类结果数目。
现有k-means算法收敛速度快,可解释性比较强,聚类效果较优,运用比较广泛,但是K值的选取不好把握,在实际应用中,K值的选取一般是人为预先确定,再执行算法和流程得到结果,通过技术人员多次输入不同的K值得到不同的聚类结果,这也导致技术人员难以决定K值的选取。由于随着K的增加,每个类簇内的离散程度越小,总距离平方和(即误差平方和)E也就在不断减小,并且减小的程度越来越不明显,极限情况是当K=业务处理数据数量(即全部数据数量)时,每个类簇只有一个业务处理数据,总的误差平方和为0,因此,在选取最优选的K值时,需要选取当K值继续增大时,总误差平方和减少的趋势不再明显的斜率突变点,也就是“拐点”处,此处对应的K值就是最优选的类簇数量(即目标聚类结果数目)。
如果将K值作为横坐标x轴,K值对应的总距离平方和E作为纵坐标y轴建立平面直角坐标系,可以得到一条递减的曲折线图,由于不是标准曲线,难以形成函数关系导致难以直接用求导数公式算出斜率,现有方法往往只能通过绘图法找曲线的“拐点”,绘图法后需要人眼识别找到“拐点”,这种方式费时费力,人眼识别还容易产生误判。
其中,目标聚类结果数目为聚类指标对应的最优选的聚类的类别数目。
本申请实施例中,终端针对任一聚类指标,确定目标数据表中该聚类指标对应的目标聚类结果数目。
示例性地,终端在聚类指标为业务处理时间信息的情况下,针对该聚类指标,终端在目标聚类策略为基于k-means聚类分析策略的情况下,根据该聚类指标对应的业务处理数据的数量,确定多个K值。然后,终端针对每一K值,确定该K值对应的多个聚类结果中,每一K值对应的误差平方和。
终端根据每一K值对应的误差平方和、以及每一K值,建立二维平面直角坐标系。终端根据二维平面直角坐标系中每一K值对应的误差平方和、以及每一K值,确定该聚类指标对应的目标聚类结果数目。
步骤304,基于目标聚类结果数目和目标聚类分析算法,对目标数据表中的各业务处理数据进行聚类处理,得到聚类指标对应的目标聚类结果数目个聚类结果。
其中,目标聚类分析算法为k-means聚类分析算法。
本申请实施例中,终端根据每一聚类指标对应的目标聚类结果数目、以及目标聚类分析算法,对目标数据表中每一聚类指标对应的各业务处理数据进行聚类处理,得到每一聚类指标对应的目标聚类结果数目个聚类结果。
本实施例中,能够针对每一聚类指标,确定聚类指标对应的最优选的目标聚类结果数目,终端根据目标聚类结果数目和聚类分析算法,确定多个聚类分析结果,便于后续根据各聚类分析结果,确定各聚类分析结果之间的关联关系。
在一个实施例中,如图4所示,步骤302包括:
步骤402,针对任一聚类指标,根据聚类指标对应的业务处理数据的数目,确定聚类指标对应的多个聚类结果数目。
本申请实施例中,终端在各聚类指标中,针对任一聚类指标,确定该聚类指标对应的不同业务处理数据的数目。示例性地,终端在聚类指标为所在机构标识的情况下,参照表1所示,终端确定所在机构标识对应的不同业务处理数据为1、2、3、4、5和6,因此,终端确定该聚类指标对应的不同业务处理数据的数目为6。
然后,终端根据该聚类指标对应的业务处理数据的数目,确定该聚类指标对应的多个聚类结果数目。
示例性地,终端在聚类指标为所在机构标识的情况下,确定该聚类指标对应的不同业务处理数据的数目为6,进而确定该聚类指标对应的多个聚类结果数目分别为1、2、3、4、5和6。
步骤404,确定聚类指标对应的各聚类结果数目对应的误差平方和,并根据各聚类结果数目对应的误差平方和,确定任意两个相邻聚类结果数目对应的样本平方误差和之间的差值。
其中,由于平面直角坐标系中两个点可以形成一条直线,两点之间的斜率很容易计算,假设两点为(x1,y1),(x2,y2),则这两点之间的斜率为t=(y1-y2)/(x1-x2),斜率反映变化趋势,因此,终端能够根据平面直角坐标系中相邻两点之间斜率,得出斜率突变点。
由于K值为类簇数量,K的取值范围是大于0并且不超过种群量的整数,则折线上各点为(1,E1),(2,E2),(3,E3),(4,E4)等,相邻两点之间计算斜率t时,t1=(E1-E2)/(1-2),t2=(E2-E3)/(2-3),t3=(E3-E4)/(3-4),t4=(E4-E5)/(4-5),分母相同均为-1,此时斜率t的大小完全由平面直角坐标系中相邻两点总距离平方和E的差值决定。
平面直角坐标系中相邻两点总距离平方和E的差值f越大,斜率t越大。差值f1=(E1-E2),f2=(E2-E3),f3=(E3-E4),f4=(E4-E5)等,在平面直角坐标系中差值f为相邻两点在y轴的垂直距离。终端确定平面直角坐标系中相邻两点之间垂直距离f的差值依次为g1=|f1-f2|,g2=|f2-f3|,g3=|f3-f4|,g4=|f4-f5|等,终端将g1,g2,g3,g4比较,从各差值中确定最大的差值,该差值即为突变起始点。终端将最大的差值所对应的两个点中最大的点对应的K值作为目标聚类结果数目。
本申请实施例中,终端根据聚类指标对应的多个聚类结果数目,确定每一聚类结果数目对应的误差平方和,并根据各聚类结果数目对应的误差平方和,将每一相邻两个相邻聚类结果数目对应的样本平方误差和进行减法处理,确定任意两个相邻聚类结果数目对应的样本平方误差和之间的差值。
示例性地,终端在聚类指标对应的聚类结果数目为3个的情况下,分别确定聚类结果数目为1对应的误差平方和、聚类结果数目为2对应的误差平方和以及聚类结果数目为3对应的误差平方和。终端根据各误差平方和,将聚类结果数目为1对应的误差平方和以及聚类结果数目为2对应的误差平方和进行减法处理,得到第一差值;将聚类结果数目为2对应的误差平方和以及聚类结果数目为3对应的误差平方和进行减法处理,得到第二差值。
步骤406,根据各差值中的目标差值,确定聚类指标对应的目标聚类结果数目。
其中,目标聚类结果数目为目标差值对应的两个相邻聚类结果数目中较大的聚类结果数目。目标聚类结果数目用于表征聚类指标对应的最优选的聚类结果数目
本申请实施例中,终端对多个差值按照由大到小的顺序进行排序处理,得到多个差值中最大的差值,并将该最大的差值作为目标差值。终端根据各差值中的目标差值,将该目标差值对应的两个聚类结果数目中较大的聚类结果数目作为聚类指标对应的目标聚类结果数目。
其中,对于目标聚类分析策略可以包括以下内容:
根据要分析的实际数据定义数据维数NA,如果是一维数据则定义为1,如果是二维数据则定义为2,依次类推;根据要分析的实际数据定义种群大小Psize,例如一维数据中有600个数字需要聚类分析,则种群大小就为600;根据用户需要定义最大迭代数T,如果需要迭代多次调大迭代次数即可;根据用户需要定义结束条件ED,如果需要提高精度则增加小数位数;定义函数n_data(),n>1,通过n++循环,直至n<Psize,对每一个K,依次执行以下流程:
定义cluster_center簇类中心clu_cent[K]、簇类数组int cluster[K][Psize]、簇类中一组数据的编号cluster_num[K]、用于判断结束条件的样本适应度值fitness、前一次迭代的适应度值old_fitness、所有样本的平方误差和Je;
定义函数input_data(),从外部文件导入数据,例如数据存储文件为test.data,使用IF==NULL判断没有数据文件并提示报错,否则通过i<Psize和j<NA循环读取到数据内容all_data[i].p[j];
定义函数Is_equal(a[],b,c)检查数据是否有相等,相等返回1,循环i<b;i++,直到a[i]==c时返回1;
定义函数Init_center(),随机产生三个0~Psize的数,当随机数有相同时跳过继续执行,num=0,当num<K时num++,使用Is_equal(rand_num_tmp,num,rand_num)函数循环对rand_num=rand()%Psize结果判断得到随机初始化聚类质心all_data[rand_num_tmp[i]].p[j],其中i<K,j<NA;
定义Euclid(x,y)欧几里德距离公式函数,用于计算一组数据到对应簇中心的欧几里德距离,样本到簇心的值即为其欧几里德距离,i<NA,通过循环i++计算distance+=pow((all_data[x].p[i]-pop.clu_cent[y].p[i]),2),然后使用平方根公式sqrt(distance)得到欧几里德距离;
定义函数calculate_distance(),计算Psize组数据到K个质心的欧几里德距离,i<Psize,j<K,循环i++和j++,使用Euclid(i,j)函数计算得到Psize组数据到K个质心的欧几里德距离all_data[i].distance[j];
定义函数Make_new_cluster()产生新的聚类,将数据进行簇集归类,初始化编号i小于聚类数K循环,小于种群大小Psize循环,j<K,循环j++,从all_data[i].distance[0]开始循环,直到找到all_data[i].distance[j]的最小值min,此时的j赋值index,通过pop.cluster[index][pop.cluster_num[index]++]=i划分簇集,然后i<K,j<pop.cluster_num[i],循环i++和j++,通过所有样本欧几里德距离计算样本平方误差和pop.Je+=pow(all_data[pop.cluster[i][j]].distance[i],2),pop.fitness得到前一次迭代适应度值pop.old_fitness,所有样本平方误差和pop.Je即为适应度值pop.fitness;
定义函数Make_new_center()更新簇心,i<K,j<NA,循环i++和j++,m<pop.cluster_num[i],循环m++,计算出第i个簇的第j维数的所有数据和tmp_sum+=all_data[pop.cluster[i][m]].p[j],取平均数得到新的簇中心pop.clu_cent[i].p[j]=tmp_sum/pop.cluster_num[i];
定义主函数main(),(i<T)&&(differ>ED),循环i++,依次调用calculate_distance()计算欧几里德距离,调用Make_new_cluster()产生新的聚类,调用Make_new_center()对新的聚类产生新的质心;
定义函数output1_info()显示结果输出信息,n>1,通过n++循环,直至n<Psize,对每一个K=n,依次输出每一个K对应的初始化质心、最终质心、簇类。
以上流程每一个K均生成了对应所有样本平方误差和Je,利用循环语句k++,计算f[k]=Je[k]-Je[k+1],采用绝对值公式循环计算g[k]=abs(f[k]-f[k+1]),采用最大值公式max(g[k])得到最大的g[k],输出最合适的K为(k+1),同时将K=k+1对应的初始化质心、最终质心、簇类输出。
本实施例中,能够通过循环算法枚举K值进行聚类,得到每个K值对应的聚类结果,通过计算不同K值总簇间的误差平方和,通过算法取代绘图法,确定总簇间误差平方和对应的突变起始点,进而选出最优选的K值和聚类结果。便于后续基于目标聚类结果数目,进行聚类处理,得到更精确的聚类结果。并且能够提高聚类分析的效率,同时节省人力资源,本申请实施例也同样适用于做其他数据分析的聚类。
在一个实施例中,如图5所示,步骤206包括:
步骤502,根据目标数据表中各业务处理数据针对各聚类结果的数据,确定目标数据表对应的事务表。
其中,事务表包括各业务处理数据针对各聚类结果的项,聚类结果的项可以包括聚类结果标识。
本申请实施例中,终端将目标数据表中的各聚类结果映射为聚类结果标识,然后,终端根据各聚类结果标识,得到目标数据表中各业务处理数据针对各聚类结果标识的数据。
表3
示例性地,参照表3所示,在目标数据表为表3时,所在机构标识对应的聚类结果为第一类机构和第二类机构;工作人员行为信息对应的聚类结果为第一类行为(查询卡片信息),第二类行为(用户身份信息核实)和第三类行为(个人用户信息);业务处理时间对应的聚类结果为第一类时间(18时)、第二类时间(19时)和第三类时间(20时);业务处理季度对应的聚类结果为第一类季度(第一、二季度)、第二类季度(第三、四季度)。
终端根据目标数据表中各聚类指标对应的各聚类结果,确定各聚类结果的聚类结果标识。具体地,终端将第一类机构的聚类结果标识设置为K1,将第二类机构的聚类结果标识设置为K2;将第一类行为的聚类结果标识设置为K3,第二类行为的聚类结果标识设置为K4,第三类行为的聚类结果标识设置为K5;将第一类时间的聚类结果标识设置为K6,第二类时间的聚类结果标识设置为K7,第三类时间的聚类结果标识设置为K8;将第一类季度的聚类结果标识设置为K9、第二类季度的聚类结果标识设置为K10。
终端基于各聚类结果的聚类结果标识,将目标数据表中的业务处理数据映射为布尔值,得到目标数据表对应的数据逻辑表,其中,数据逻辑表参照表4所示。
表4
终端根据目标数据表对应的数据逻辑表和各聚类结果标识,确定目标数据表对应的事务表,其中,目标数据表对应的事务表可以参照表5所示。
表5
步骤504,根据事务表中各业务处理数据针对各聚类结果的项,确定第一项集。
本申请实施例中,终端根据事务表中各业务处理数据针对各聚类结果的项,确定多个第一项集,其中,每一项集中均包含至少一个项(即聚类结果标识)。
步骤506,根据预设最小支持度和第一项集,确定第二项集。
本申请实施例中,终端可以存储有预设最小支持度,终端根据每一第一项集在事务表中出现的次数,确定每一第一项集的支持度。
其中,支持度:support这里记为sup,是一条规则的前件(后件)的支持数比上记录数,也就是取多少个记录,sup计数就是各个属性出现的个数。设P的支持度是sup(P), 的支持度/> n是目标数据表中的业务处理数据数目,/>表示的是同一条记录中P、Q同时出现。
然后,终端可以在多个第一项集中,确定支持度大于或者等于预设最小支持度的第一项集,并将多个第一项集中支持度大于或者等于预设最小支持度的第一项集作为第二项集。
其中,预设最小支持度可以设置为20%,对于预设最小支持度,还可以在实际应用中由技术人员根据实际情况进行设置,本申请实施例对于预设最小支持度不做具体限定。
步骤508,根据第二项集,确定第二项集中的各个项的关联规则,并基于第二项集中的各项的关联规则,确定各聚类结果之间的关联关系。
本申请实施例中,终端根据第二项集,确定第二项集中的各个项的关联规则,并基于第二项集中的各项的关联规则,确定第二项集中,各项对应的聚类结果之间的关联关系。
本实施例中,终端能够基于各第一项集和预设最小支持度,确定第二项集,并基于第二项集中的各项,确定各聚类结果之间的关联关系,便于后续基于各聚类结果之间的关联关系,确定存在单个工作人员负责全局业务的模式的风险的时间节点或行为节点。
在一个实施例中,如图6所示,步骤506包括:
步骤602,在第k轮处理过程中,根据预设最小支持度,在第k-1频繁项集中,确定满足预设最小支持度的第k频繁项集,并在第k频繁项集中项的数目低于或者等于预设项数时,进入第k+1轮处理过程,直至第m频繁项集中项的数目高于预设项数为止。
其中,频繁项集为项集中大于预设最小支持度的项集。
本申请实施例中,终端根据预设最小支持度,对目标数据表对应的事务表中的各项进行k轮处理,确定多个第一项集。
具体地,在第1轮处理过程中,终端在第一项集中,确定满足预设最小支持度的第一频繁项集,并确定第一频繁项集中项的数目低于预设项数,进入第2轮处理过程。在第2轮处理过程中,终端在第一频繁项集中,确定满足预设最小支持度的第二频繁项集,并确定第二频繁项集中项的数目低于预设项数,进入第3轮处理过程,直至第m频繁项集中项的数目高于预设项数为止。
示例性地,第一项集为至少包含一个项的项集,第一项集可以有多个,其中,包含一个项的第一项集可以参照表6所示。
表6
然后,参照表7所示,终端根据多个包含一个项的第一项集的支持度,在多个包含一个项的第一项集中,将支持度高于或等于预设最小支持度的第一项集作为第一频繁项集。
表7
其中,参照表8所示,终端根据第一频繁项集,确定包含两个项的第一项集。
表8
其中,参照表9所示,终端根据多个包含两个项的第一项集的支持度,在多个包含两个项的第一项集中,将支持度高于或等于预设最小支持度的第一项集作为第二频繁项集。
表9
然后,参照表10所示,终端根据第二频繁项集,确定包含三个项的第一项集。
表10
然后,参照表11所示,终端根据多个包含三个项的第一项集的支持度,在多个包含三个项的第一项集中,将支持度高于或等于预设最小支持度的第一项集作为第三频繁项集。
表11
直至终端确定包含四个项的第一项集,参照表12所示,由于包含四个项的第一项集中,每一第一项集中项的数目为4,终端确定第四频繁项集中项的数目高于预设项数,结束k轮处理过程。
表12
步骤604,将各轮次处理过程中的频繁项集,作为第二项集。
其中,k与m均为正整数,在k为1的情况下,第k-1频繁项集为包含一个项的第一项集。
本申请实施例中,终端将各轮次处理过程中的各频繁项集,均作为第二项集。具体地,终端将第一频繁项集、第二频繁项集和第三频繁项集分别作为包含一个项的第二项集、包含两个项的第二项集和包含三个项的第二项集。
本实施例中,终端能够基于各第一项集、预设最小支持度,确定第二项集,便于后续基于第二项集,确定各项对应的各聚类分析结果的关联规则,进而确定各聚类分析结果之间的关联关系。
在一个实施例中,如图7所示,步骤508包括:
步骤702,根据第二项集的支持度以及各第二项集中各个项之间的关联规则,确定第二项集中各项之间的关联规则的置信度。
其中,对于置信度的确定方法:关联规则可以为关联规则具有可信度,)表示事务表中包含事件P的也同时包含事件Q的百分比;表示P∪Q的支持度sup(P∪Q)与前件P的支持度sup(P)的百分比。例如/>的置信度计算方法具体为2/3(即{K1,K3,K7}的支持度(2/9)/{K1,K3}的支持度计数(3/9))=66.7%。其中,sup表示support,即支持度,conf表示confidence,即置信度。
本申请实施例中,终端根据各第二项集中的项,能够确定各个项之间的关联规则。具体地,在第二项集为{K1,K3,K7}的情况下,第二项集对应的关联规则可以参考表13所示。
表13
在第二项集为{K1,K5,K8}的情况下,第二项集对应的关联规则可以参考表14所示。
表14
在第二项集为{K1,K5,K9}的情况下,第二项集对应的关联规则可以参考表15所示。
表15
在第二项集为{K1,K8,K9}的情况下,第二项集对应的关联规则可以参考表16所示。
表16
在第二项集为{K5,K8,K9}的情况下,第二项集对应的关联规则可以参考表17所示。
表17
在第二项集为第二频繁项集的情况下,第二项集对应的关联规则可以参考表18所示。
表18
其中,在第二项集为包括四个项的第二项集的情况下,第二项集对应的关联规则可以参考表19所示。
表19
然后,终端根据各第二项集的支持度、以及各第二项集中各个项之间的关联规则,确定第二项集中各项之间的关联规则的置信度。
步骤704,在第二项集中各项之间的关联规则中,将置信度大于或者等于预设最小置信度的关联规则,作为目标关联规则。
本申请实施例中,终端可以存储有预设最小置信度,终端根据各第二项集中各项之间的关联规则的置信度,在各第二项集中各项之间的关联规则中,将置信度大于预设最小置信度的关联规则,作为目标关联规则。
示例性地,在预设最小置信度为80%的情况下,包括两个项的第二项集对应的目标关联规则可以参照表20所示。
表20
其中,包括三个项的第二项集对应的目标关联规则可以参照表21所示。
表21
其中,包括四个项的第二项集对应的目标关联规则可以参照表22所示。
表22
其中,预设最小置信度可以为80%,对于预设最小置信度,还可以依据技术人员在应用中根据实际情况进行设置,本申请实施例对此不做具体限定。
步骤706,根据目标关联规则对应的各聚类结果及目标关联规则的置信度,确定各聚类结果之间的关联关系。
本申请实施例中,终端根据多个目标关联规则中的各项,确定各项对应的聚类结果。然后终端根据多个目标关联规则对应的各聚类结果、及目标关联规则的置信度,确定各聚类结果之间的关联关系。
可选地,终端可以根据目标关联规则对应的置信度的大小,确定目标关联规则中各项之间的关联关系的强弱,例如,在置信度大于预设最小置信度80%时,表征目标关联规则中各项之间存在关联,在置信度大于预设平均置信度90%时,表征目标关联规则中各项之间存在较强的关联。
示例性地,终端确定各聚类结果之间的关联规则为第一类行为第二类机构(即查询卡片信息/>交易数量大机构);第三类时间/>第三类行为(即业务处理时间为20时/>个人用户信息);第三类行为/>第三类时间(即个人用户信息/>业务处理时间为20时);第二类机构且第二类时间/>第一类行为(即交易数量大机构且业务处理时间为19时/>查询卡片信息);第一类行为且第二类时间/>第二类机构(即查询卡片信息且业务处理时间为19时/>交易数量大机构);第二类机构且第三类行为/>第三类时间(即交易数量大机构且个人用户信息/>业务处理时间为20时);第二类机构且第三类时间/>第三类行为(即交易数量大机构且业务处理时间为20时/>个人用户信息);第三类时间且第一类季度/>第二类机构(即业务处理时间为20时且业务处理季度为1、2季度/>交易数量大机构);第三类时间且第一类季度/>第三类行为(即业务处理时间为20时且业务处理季度为1、2季度/>个人用户信息)。第三类行为且第三类时间且第一类季度/>第二类机构(即个人用户信息且业务处理时间为20时且业务处理季度为1、2季度/>交易数量大机构);第二类机构且第三类时间且第一类季度/>第三类行为(即交易数量大机构且业务处理时间为20时且业务处理季度为1、2季度/>个人用户信息);第三类行为且第二类机构且第一类季度/>第三类时间(即个人用户信息且交易数量大机构且业务处理季度为1、2季度/>业务处理时间为20时);第三类行为且第三类时间且第二类机构/>第一类季度(即个人用户信息且业务处理时间为20时且交易数量大机构/>业务处理季度为1、2季度);第三类时间且第一类季度/>第二类机构且第三类行为(业务处理时间为20时且业务处理季度为1、2季度/>交易数量大机构且个人用户信息)。
终端根据各聚类结果之间的关联规则和置信度,确定各聚类结果之间的关联关系。
示例性地,终端能够确定第一类行为(即查询卡片信息)发生在第二类机构(即交易数量大机构);第三类时间(即业务处理时间为20时)后,与发生第二类行为(即用户身份信息核实)存在较强联系;第二类机构(即交易数量大机构)且业务处理时间为19时后,第一类行为(即查询卡片信息)较多等信息等各聚类结果之间的关联关系。
本实施例中,终端能够基于第二项集对应的目标关联规则和目标关联规则对应的置信度,确定各聚类结果之间的关联关系。便于后续基于各聚类结果之间的关联关系,进而找到相似机构或相似工作人员,通过关联规则得到各因素潜在的关联,挖掘信息找到风险点,进而为下一步阻断风险隐患提供科学决策依据,从而更好的采取措施进行规避风险,有效防范操作风险,增强对业务系统的安全性,并提高用户在业务处理过程中的体验,保障业务系统的运行。
在一个实施例中,步骤208包括:
针对各聚类结果中的目标聚类结果,在各聚类结果中,将目标聚类结果以及与目标聚类结果存在关联关系的聚类结果,确定为一个目标聚类结果组。
其中,目标聚类结果为各聚类结果中的任一聚类结果。
本申请实施例中,终端在各聚类结果中,选取任一一个聚类结果作为目标聚类结果。然后,终端针对目标聚类结果,在各聚类结果中,将目标聚类结果以及与目标聚类结果存在关联关系的聚类结果,确定为一个目标聚类结果组。
本实施例中,终端能够在多个聚类结果中,确定互相之间存在关联关系的目标聚类结果组,便于后续基于目标聚类结果组,生成数据分析结果。以使技术人员根据数据分析结果,确定存在单个工作人员负责全局业务的模式的风险的时间节点或行为节点。
在一个实施例中,如图8所示,步骤202之前,还包括:
步骤802,获取多个初始业务处理数据。
本申请实施例中,终端可以根据数据湖等数据库平台,在业务系统的数据库中收集初始业务处理数据,初始业务处理数据可以为时序数据、多媒体数据、Web(World WideWeb,全球广域网)数据、空间数据等。每一初始业务处理数据中可以包括工作人员标识、业务处理时间信息、业务处理代码、交易数量、所在机构标识、用户标识等。
步骤804,对各初始业务处理数据进行数据清洗,得到多个业务处理数据。
本申请实施例中,终端将初始业务处理数据进行数据清洗。示例性地,终端将多个初始业务处理数据转化为Excel表格数据,得到初始数据表。终端依次对初始数据表中的工作人员标识、业务处理时间信息、业务处理代码、交易数量、所在机构标识、用户标识等列进行数据遍历处理,检测初始数据表中某一列是否存在空数据,若某一列存在空数据的情况下,终端将该空数据对应的初始业务处理数据从初始数据表中进行删除。
可选地,终端还可以根据预设数据需求规则,对各初始业务处理数据进行进一步筛选,将不符合预设数据需求规则的初始业务处理数据进行删除处理。
其中,对于预设数据需求规则可以依据技术人员在实际应用中进行设置,本申请对此不作具体限定。
可选地,终端可以预先存储有不完整数据表,在将空数据对应的初始业务处理数据从初始数据表中进行删除之前,将该空数据对应的初始业务处理数据存储在不完整数据表,便于后续根据不完整数据表进行数据审查和校验。
在对初始数据表进行数据清洗处理后,终端可以对初始数据表进行数据预处理,具体地,终端可以对初始数据表提取业务处理时间列,获取各初始业务处理数据对应的年、月、日、时的数据列,对月份数据列进行筛选,得到各初始业务处理数据对应的季度数据列。终端还可以预先存储有交易代码与交易名单的映射表,根据交易代码与交易名单的映射表,对初始数据表中的交易代码进行匹配,确定各初始业务处理数据的交易名称。
示例性地,终端根据公式MID(text,start_num,num_chars)提取业务处理时间列,获取各初始业务处理数据对应的年、月、日、时的数据列,对月份数据列进行筛选,得到各初始业务处理数据对应的季度数据列;终端根据公式VLOOKUP(lookup_value,table_array,col_index_num,range_lookup)和交易代码与交易名单的映射表,对初始数据表中的交易代码进行匹配,确定各初始业务处理数据的交易名称。
终端在各初始业务处理数据完成数据清洗处理和数据预处理后,将各初始业务处理数据作为业务处理数据。
步骤806,基于各业务处理数据,构建目标数据表。
本申请实施例中,终端将业务处理数据构建为目标数据表。
本实施例中,能够对初始数据表进行数据清洗和数据预处理,得到与需求相关联的目标数据表,提高了后续进行数据聚类分析处理的准确度和效率。
在一个实施例中,如图9所示,还提供了一种数据处理方法的处理过程示例,具体内容包括:
步骤A1,通过数据湖等平台连接业务系统数据库。
步骤A2,在业务系统数据库中进行数据收集,得到初始数据表。
步骤A3,对初始数据表进行数据清洗和数据预处理,得到目标数据表。
步骤A4,对目标数据表中的业务处理数据进行聚类分析处理和关联关系分析处理,得到数据分析结果。
步骤A5,根据数据分析结果,进行风险因素识别。
步骤A6,确定风险阻断依据。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的数据处理方法的数据处理装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个数据处理装置实施例中的具体限定可以参见上文中对于数据处理方法的限定,在此不再赘述。
在一个实施例中,如图10所示,提供了一种数据处理装置1000,包括:获取模块1002、聚类模块1004、确定模块1006和生成模块1008,其中:
获取模块1002,用于获取目标数据表,所述目标数据表中包含目标时间段的多个业务处理数据。
聚类模块1004,用于基于目标聚类分析策略,针对各聚类指标对所述目标数据表中的各所述业务处理数据进行聚类处理,得到各所述聚类指标对应的多个聚类结果。
确定模块1006,用于根据各所述聚类结果中的各所述业务处理数据,确定各所述聚类结果之间的关联关系。
生成模块1008,用于根据各所述聚类结果之间的关联关系,从各所述聚类结果中确定至少一个目标聚类结果组,并根据各所述目标聚类结果组,生成数据分析结果。
采用本公开实施例提供的数据处理装置,由于能够基于多个业务处理数据,确定多个业务处理数据对应的聚类指标,并根据各聚类指标对各业务处理数据进行聚类分析处理,确定各聚类结果之间的关联关系。基于存在关联关系的多个聚类结果对应的数据分析结果,能够确定存在单个工作人员负责全局业务的模式的风险的时间节点或行为节点。
在其中一个实施例中,所述聚类模块1004具体用于:
针对任一所述聚类指标,确定所述目标数据表中所述聚类指标对应的目标聚类结果数目;
基于所述目标聚类结果数目和目标聚类分析算法,对所述目标数据表中的各所述业务处理数据进行聚类处理,得到所述聚类指标对应的所述目标聚类结果数目个聚类结果。
在其中一个实施例中,所述聚类模块1004具体用于:
针对任一所述聚类指标,根据所述聚类指标对应的业务处理数据的数目,确定所述聚类指标对应的多个聚类结果数目;
确定所述聚类指标对应的各所述聚类结果数目对应的误差平方和,并根据各所述聚类结果数目对应的误差平方和,确定任意两个相邻所述聚类结果数目对应的样本平方误差和之间的差值;
根据各所述差值中的目标差值,确定所述聚类指标对应的目标聚类结果数目,所述目标聚类结果数目为所述目标差值对应的两个相邻所述聚类结果数目中较大的聚类结果数目。
在其中一个实施例中,所述确定模块1006具体用于:
根据所述目标数据表中各所述业务处理数据针对各所述聚类结果的数据,确定所述目标数据表对应的事务表,所述事务表包括各所述业务处理数据针对各所述聚类结果的项;
根据所述事务表中各所述业务处理数据针对各所述聚类结果的项,确定第一项集;
根据预设最小支持度和所述第一项集,确定第二项集;
根据所述第二项集,确定所述第二项集中的各个项的关联规则,并基于所述第二项集中的各所述项的关联规则,确定各所述聚类结果之间的关联关系。
在其中一个实施例中,所述确定模块1006具体用于:
在第k轮处理过程中,根据预设最小支持度,在第k-1频繁项集中,确定满足所述预设最小支持度的第k频繁项集,并在所述第k频繁项集中项的数目低于或者等于预设项数时,进入第k+1轮处理过程,直至第m频繁项集中项的数目高于所述预设项数为止;
将各轮次处理过程中的频繁项集,作为第二项集;其中,k与m均为正整数,在k为1的情况下,所述第k-1频繁项集为包含一个项的所述第一项集。
在其中一个实施例中,所述确定模块1006具体用于:
根据所述第二项集的支持度以及各所述第二项集中各个项之间的关联规则,确定所述第二项集中各所述项之间的关联规则的置信度;
在所述第二项集中各所述项之间的关联规则中,将置信度大于或者等于预设最小置信度的关联规则,作为目标关联规则;
根据所述目标关联规则对应的各所述聚类结果及所述目标关联规则的置信度,确定各所述聚类结果之间的关联关系。
在一个实施例中,所述生成模块1008具体用于:
针对各所述聚类结果中的目标聚类结果,在各所述聚类结果中,将所述目标聚类结果以及与所述目标聚类结果存在关联关系的所述聚类结果,确定为一个目标聚类结果组,所述目标聚类结果为各所述聚类结果中的任一所述聚类结果。
在一个实施例中,所述装置还包括:
获取模块,用于获取多个初始业务处理数据;
清洗模块,用于对各所述初始业务处理数据进行数据清洗,得到多个业务处理数据;
构建模块,用于基于各所述业务处理数据,构建目标数据表。
上述数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图11所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种数据处理方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图11中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (12)
1.一种数据处理方法,其特征在于,所述方法包括:
获取目标数据表,所述目标数据表中包含目标时间段的多个业务处理数据;
基于目标聚类分析策略,针对各聚类指标对所述目标数据表中的各所述业务处理数据进行聚类处理,得到各所述聚类指标对应的多个聚类结果;
根据各所述聚类结果中的各所述业务处理数据,确定各所述聚类结果之间的关联关系;
根据各所述聚类结果之间的关联关系,从各所述聚类结果中确定至少一个目标聚类结果组,并根据各所述目标聚类结果组,生成数据分析结果。
2.根据权利要求1所述的方法,其特征在于,所述基于目标聚类分析策略,针对各聚类指标对所述目标数据表中的各所述业务处理数据进行聚类处理,得到各所述聚类指标对应的多个聚类结果,包括:
针对任一所述聚类指标,确定所述目标数据表中所述聚类指标对应的目标聚类结果数目;
基于所述目标聚类结果数目和目标聚类分析算法,对所述目标数据表中的各所述业务处理数据进行聚类处理,得到所述聚类指标对应的所述目标聚类结果数目个聚类结果。
3.根据权利要求2所述的方法,其特征在于,所述针对任一所述聚类指标,确定所述目标数据表中所述聚类指标对应的目标聚类结果数目,包括:
针对任一所述聚类指标,根据所述聚类指标对应的业务处理数据的数目,确定所述聚类指标对应的多个聚类结果数目;
确定所述聚类指标对应的各所述聚类结果数目对应的误差平方和,并根据各所述聚类结果数目对应的误差平方和,确定任意两个相邻所述聚类结果数目对应的样本平方误差和之间的差值;
根据各所述差值中的目标差值,确定所述聚类指标对应的目标聚类结果数目,所述目标聚类结果数目为所述目标差值对应的两个相邻所述聚类结果数目中较大的聚类结果数目。
4.根据权利要求1所述的方法,其特征在于,所述根据各所述聚类结果中的各所述业务处理数据,确定各所述聚类结果之间的关联关系,包括:
根据所述目标数据表中各所述业务处理数据针对各所述聚类结果的数据,确定所述目标数据表对应的事务表,所述事务表包括各所述业务处理数据针对各所述聚类结果的项;
根据所述事务表中各所述业务处理数据针对各所述聚类结果的项,确定第一项集;
根据预设最小支持度和所述第一项集,确定第二项集;
根据所述第二项集,确定所述第二项集中的各个项的关联规则,并基于所述第二项集中的各所述项的关联规则,确定各所述聚类结果之间的关联关系。
5.根据权利要求4所述的方法,其特征在于,所述根据预设最小支持度和所述第一项集,确定第二项集,包括:
在第k轮处理过程中,根据预设最小支持度,在第k-1频繁项集中,确定满足所述预设最小支持度的第k频繁项集,并在所述第k频繁项集中项的数目低于或者等于预设项数时,进入第k+1轮处理过程,直至第m频繁项集中项的数目高于所述预设项数为止;
将各轮次处理过程中的频繁项集,作为第二项集;其中,k与m均为正整数,在k为1的情况下,所述第k-1频繁项集为包含一个项的所述第一项集。
6.根据权利要求5所述的方法,其特征在于,所述基于所述第二项集中的各所述项的关联规则,确定各所述聚类结果之间的关联关系,包括:
根据所述第二项集的支持度以及各所述第二项集中各个项之间的关联规则,确定所述第二项集中各所述项之间的关联规则的置信度;
在所述第二项集中各所述项之间的关联规则中,将置信度大于或者等于预设最小置信度的关联规则,作为目标关联规则;
根据所述目标关联规则对应的各所述聚类结果及所述目标关联规则的置信度,确定各所述聚类结果之间的关联关系。
7.根据权利要求4所述的方法,其特征在于,所述根据各所述聚类结果之间的关联关系,从各所述聚类结果中确定至少一个目标聚类结果组,包括:
针对各所述聚类结果中的目标聚类结果,在各所述聚类结果中,将所述目标聚类结果以及与所述目标聚类结果存在关联关系的所述聚类结果,确定为一个目标聚类结果组,所述目标聚类结果为各所述聚类结果中的任一所述聚类结果。
8.根据权利要求1所述的方法,其特征在于,所述获取目标数据表之前,还包括:
获取多个初始业务处理数据;
对各所述初始业务处理数据进行数据清洗,得到多个业务处理数据;
基于各所述业务处理数据,构建目标数据表。
9.一种数据处理装置,其特征在于,所述装置包括:
获取模块,用于获取目标数据表,所述目标数据表中包含目标时间段的多个业务处理数据;
聚类模块,用于基于目标聚类分析策略,针对各聚类指标对所述目标数据表中的各所述业务处理数据进行聚类处理,得到各所述聚类指标对应的多个聚类结果;
确定模块,用于根据各所述聚类结果中的各所述业务处理数据,确定各所述聚类结果之间的关联关系;
生成模块,用于根据各所述聚类结果之间的关联关系,从各所述聚类结果中确定至少一个目标聚类结果组,并根据各所述目标聚类结果组,生成数据分析结果。
10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。
12.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310869042.8A CN116861272A (zh) | 2023-07-14 | 2023-07-14 | 数据处理方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310869042.8A CN116861272A (zh) | 2023-07-14 | 2023-07-14 | 数据处理方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116861272A true CN116861272A (zh) | 2023-10-10 |
Family
ID=88224796
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310869042.8A Pending CN116861272A (zh) | 2023-07-14 | 2023-07-14 | 数据处理方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116861272A (zh) |
-
2023
- 2023-07-14 CN CN202310869042.8A patent/CN116861272A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103080924B (zh) | 用于处理数据集的方法和装置 | |
CN107729519B (zh) | 基于多源多维数据的评估方法及装置、终端 | |
CN111612041A (zh) | 异常用户识别方法及装置、存储介质、电子设备 | |
CN111612038A (zh) | 异常用户检测方法及装置、存储介质、电子设备 | |
CN114510735A (zh) | 基于角色管理的智慧共享财务管理方法及平台 | |
CN115545103A (zh) | 异常数据识别、标签识别方法和异常数据识别装置 | |
CN117709968A (zh) | 人员分配方法、装置、计算机设备和存储介质 | |
CN117390011A (zh) | 报表数据处理方法、装置、计算机设备和存储介质 | |
CN109144999B (zh) | 一种数据定位方法、装置及存储介质、程序产品 | |
CN117035980A (zh) | 资源借调评估方法、装置、计算机设备和存储介质 | |
CN116610583A (zh) | Sca工具成熟度评价方法、装置、设备、介质和产品 | |
CN116451074A (zh) | 目标对象的画像生成方法、装置、计算机设备、存储介质 | |
CN111028012A (zh) | 景区客群定位方法、系统、装置及其可存储介质 | |
CN116861272A (zh) | 数据处理方法、装置、计算机设备和存储介质 | |
CN115758271A (zh) | 数据处理方法、装置、计算机设备和存储介质 | |
CN114170000A (zh) | 信用卡用户风险类别识别方法、装置、计算机设备和介质 | |
CN114706899A (zh) | 快递数据的敏感度计算方法、装置、存储介质及设备 | |
CN117827895A (zh) | 指标数据处理方法、装置和计算机设备 | |
CN117972080A (zh) | 业务数据处理、异常检测方法、装置和计算机设备 | |
CN116993342A (zh) | 异常交易操作检测方法、装置、计算机设备和存储介质 | |
CN117350801A (zh) | 虚拟产品推荐方法、装置、计算机设备、存储介质和产品 | |
CN117972570A (zh) | 数据降维处理方法、装置、计算机设备和存储介质 | |
CN118071512A (zh) | 穿透式风险分析方法、装置、计算机设备和存储介质 | |
CN117312892A (zh) | 用户聚类方法、装置、计算机设备和存储介质 | |
CN117113316A (zh) | 身份识别方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |