CN114021661A - 一种账户分类方法、装置及电子设备 - Google Patents
一种账户分类方法、装置及电子设备 Download PDFInfo
- Publication number
- CN114021661A CN114021661A CN202111328735.3A CN202111328735A CN114021661A CN 114021661 A CN114021661 A CN 114021661A CN 202111328735 A CN202111328735 A CN 202111328735A CN 114021661 A CN114021661 A CN 114021661A
- Authority
- CN
- China
- Prior art keywords
- account
- transaction
- feature set
- data
- accounts
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 230000009467 reduction Effects 0.000 claims abstract description 42
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 17
- 230000009471 action Effects 0.000 claims description 13
- 238000004140 cleaning Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 238000003064 k means clustering Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 description 13
- 230000000007 visual effect Effects 0.000 description 11
- 230000002159 abnormal effect Effects 0.000 description 10
- 238000013461 design Methods 0.000 description 10
- 239000011159 matrix material Substances 0.000 description 9
- 238000012545 processing Methods 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000010606 normalization Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000001502 supplementing effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2113—Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/231—Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Probability & Statistics with Applications (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本申请提供一种账户分类方法,所述方法包括:获取多个账户各自的交易数据;其中,每个交易数据包括如下一项或多项:交易时间、交易金额、和交易地点。根据多个账户各自的交易数据,确定第一特征集合。对第一特征集合进行数据降维,获得降维后的第二特征集合。根据第二特征集合中的特征对多个账户进行聚类,获得各个账户对应的账户组。如此,可以提高账户分类结果的准确性,此外,还可提高账户分类的效率以及减少资源消耗。
Description
技术领域
本申请涉及数据处理领域,具体而言,涉及一种账户分类方法、装置及电子设备。
背景技术
在金融交易场景中,资金流动过程中的安全合规监控或者异常识别排查具有非常重要的意义。一般来说,在对异常业务排查过程中,通常会对有关的业务进行分类,从而梳理出该异常资金流动过程中的特殊模式。目前,可以基于人为经验或可视化图谱排查存在异常业务的账户。具体地,基于人为经验的方式,可以根据作业人员的经验和人工对账户交易流水明细的观察与总结来区分账户。基于可视化图谱的方式,可以将账户间的交易流水数据以交易拓扑图的形式,形成可视化的交易网络图,从而区分账户。
然而,基于人为经验的方式,受到作业人员对相关业务的历史经验以及主观影响大,存在账户分类的效率和准确性低下的问题。基于可视化图谱的方式,在可视化图谱中呈现出来的节点多,重叠交叉的边多,仍然难以准确区分账户;此外,基于可视化图谱的方式中,处理交易流水数据的计算量大,消耗资源多。
综上可知,上述区分账户的方案,均存在准确性低下的问题,此外还难以兼顾分类的效率和资源消耗。
发明内容
为了克服现有技术中的上述不足,本申请的目的在于提供一种账户分类方法、装置及电子设备。
第一方面,提供一种账户分类方法。该账户分类方法包括:获取多个账户各自的交易数据;其中,每个所述交易数据包括如下一项或多项:交易时间、交易金额、或交易地点;
根据所述多个账户各自的交易数据,确定第一特征集合;
对所述第一特征集合进行数据降维,获得降维后的第二特征集合;
根据所述第二特征集合中的特征对所述多个账户进行聚类,获得各个所述账户对应的账户组。
一种可能的设计方案中,所述根据所述多个账户各自的交易数据,确定第一特征集合,包括:
对所述账户的交易数据进行数据清洗和数据合并,获得合并流水数据;
对每个所述合并流水数据进行特征提取,获得中间特征集合;所述中间特征集合包括与每个所述账户对应的特征;
对所述中间特征集合中每个特征进行标准化,得到所述第一特征集合。
可选地,所述第一特征集合包括多个维度的特征;所述对所述标准化后的特征集合中的特征进行降维操作,获得降维后的第二特征集合,包括:
根据所述多个维度的特征对所述第一特征集合进行降维,获得所述第二特征集合。
一种可能的设计方案中,所述方法还包括:
确定目标账户组;
获取所述目标账户组中每个账户的特征值;
根据所述目标账户组中每个账户的特征值,确定目标账户组的作用,以确定目标账户组中每个账户的作用。
一种可能的设计方案中,聚类的方法包括:K均值聚类法、均值漂移聚类法、或层次聚类法。
第二方面,提供一种账户分类装置,所述装置包括:
获取模块,用于获取多个账户各自的交易数据;其中,每个所述交易数据包括如下一项或多项:交易时间、交易金额、或交易地点;
确定模块,用于根据所述多个账户各自的交易数据,确定第一特征集合;
降维模块,用于对所述第一特征集合中的特征进行数据降维,获得降维后的第二特征集合;
聚类模块,用于根据所述第二特征集合对所述多个账户进行聚类,获得各个所述账户对应的账户组。
一种可能的设计方案中,所述确定模块,还用于对所述账户的交易数据进行数据清洗和数据合并,获得合并流水数据;
对每个所述合并流水数据进行特征提取,获得中间特征集合;所述中间特征集合包括与每个所述账户对应的特征;
对所述中间特征集合中每个特征进行标准化,得到所述第一特征集合。
可选地,所述第一特征集合包括多个维度的特征;所述降维模块,用于根据所述多个维度的特征对所述第一特征集合进行降维,获得所述第二特征集合。
一种可能的设计方案中,所述确定模块,还用于确定目标账户组;
所述获取模块,还用于获取所述目标账户组中每个账户的特征值;
所述确定模块,还用于根据所述目标账户组中每个账户的特征值,确定目标账户组的作用,以确定目标账户组中每个账户的作用。
一种可能的设计方案中,聚类的方法包括:K均值聚类法、均值漂移聚类法、或层次聚类法。
第三方面,提供一种电子设备,包括处理器及机器可读存储介质,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被所述处理器执行时,实现本申请提供的账户分类方法。
相对于现有技术而言,本申请具有以下有益效果:
本申请提供的账户分类方法、装置及电子设备,通过从多个账户各自的交易数据中提取特征,确定出第一特征集合,并对第一特征集合进行数据降维,获得第二特征集合,基于第二特征集合中的特征对多个账户进行聚类,以获得各个所述账户对应的账户组。如此,基于用户的特征确定用户的账户组,将金融交易中的原始底层流水记录,转化提炼为具有描述总结性质的量化特征,使得原本较为繁杂的交易流水数据呈现为结构化特征形式,充分挖掘交易明细数据的信息,提高原始流水数据的利用效率,提升分类准确性。
此外,在分类过程中,对特征进行降维,可以在保证原始数据分类和决策能力的前提下,去掉数据中的冗余信息,减少在原有高维空间中的特征不相关属性,更有效地提取简洁而有效的信息,能够简化交易数据的复杂度,减小数据量,从而提高分类效率和减少资源消耗并提升后续的聚类效果。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的账户分类方法的步骤流程示意图;
图2为本申请实施例提供的电子设备的示意图;
图3为本申请实施例提供的账户分类装置的功能模块示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本申请的描述中,需要说明的是,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本申请中的具体含义。
在金融交易场景中,资金流动过程中的安全合规监控或者异常识别排查具有非常重要的意义。对账户资金流动过程中的安全合规监控或者异常识别排查中,对账户进行分类是十分重要的环节。目前,可以基于人为经验或可视化图谱排查存在异常业务的账户。具体地,基于人为经验的方式,可以根据作业人员的经验和人工对账户交易流水明细的观察与总结来区分账户。基于可视化图谱的方式,可以将账户间的交易流水数据以交易拓扑图的形式,形成可视化的交易网络图,从而区分账户。
然而,基于人为经验的方式,受到作业人员对相关业务的历史经验以及主观影响大,存在账户分类的效率和准确性低下的问题。基于可视化图谱的方式,在可视化图谱中呈现出来的节点多,重叠交叉的边多,仍然难以准确区分账户;此外,基于可视化图谱的方式中,交易流水数据的数据量巨大,处理交易流水数据过程中的计算量大,消耗资源多。
综上可知,上述方案区分账户的方案,均存在准确性低下的问题,此外还难以兼顾分类的效率和资源消耗。
基于此,本实施例提供了一种账户分类方法、装置及电子设备以解决上述问题,为便于理解,下面结合金融场景对本实施例提供的方案进行详细阐述。
请参照图1,图1为本实施例提供的一种账户分类方法的流程示意图,该方法可以包括以下步骤。
步骤S110,获取多个账户各自的交易数据。
其中,每个所述交易数据包括如下一项或多项:交易时间、交易金额、和交易地点。
可以理解,交易数据还可以包括其他的数据,如交易双方的卡号(如交易双方的银行卡卡号)、交易双方的账号、交易双方的户名等。在具体实施中,交易数据的内容可以根据实际场景确定,此处不再赘述。
账户为用于标识用户的信息,一个账户与一个用户对应,本示例中的分类以账户为单位进行展开,目的是对账户进行分类,区分出不同资金交易用途的账户组。
本申请实施例中,可以从银行等金融机构的资金查控平台等查询多个账户的交易数据。账户为N个,第n个账户的交易数据可以表示为Xn。其中,N为大于1的整数,1≤n≤N,N、n均为正整数。为便于理解,以下结合第1个账户举例说明交易数据。第1个账户的交易数据X1包括该账户的账号、该账户的交易卡号、该账户的交易时间、以及该账户的交易对手账号、交易对手卡号、交易金额、借贷标签等。
表1
如上表1所示,可见,账号A的账户在交易时间T1、交易时间T2和交易时间T3分别进行了三次交易,其中,交易时间包括交易的日期和交易的时刻。每次的交易卡号均为交易卡号a,交易时间T1进行的交易借贷标签为“贷”,即收入,交易对手账号为交易对手账号B,交易对手卡号为b,交易金额为100元,即T1时刻B给A转账100元。交易时间T2进行的交易借贷标签为“贷”,交易对手账号为交易对手账号B,交易对手卡号为b,交易金额为200元,即T2时刻B给A转账100元。交易时间T3进行的交易借贷标签为“借”,即支出,交易对手账号为交易对手账号C,交易对手卡号为c,交易金额为199元,即T3时刻A给C转账199元。
此外,实际业务场景中的交易数据还包含其他更加详细的交易信息,此处不一一展示。
需要说明的是,本申请实施例中,不同账户的交易数据所包含的数据类别可以相同、也可以不同。例如,一些账户的交易数据可以包括“借贷标签”这一数据类别,另一些账户的交易数据可以不包括“借贷标签”这一数据类别。不同账户的交易数据的格式或表达方式可以相同、也可以不同。
例如,一些账户的交易时间中包括交易的日期和交易的时刻,一些账户中,交易的日期和交易的时刻分别记录。又如,不同账户的交易数据中数据类别表述不一致,如交易对手卡号,在一些账户的交易数据中,也可以记录为“借方账号”和“贷方账号”等。再如,借贷标签的内容显示为“进”或“出”,而非上述表1中的“借”或“贷”形式。
步骤S120,根据所述多个账户各自的交易数据,确定第一特征集合。
一种可能的设计方案中,所述根据所述多个账户各自的交易数据,确定第一特征集合,包括:
对每个所述账户的交易数据进行数据清洗和数据合并,获得合并流水数据。例如,在多个账户中,对每个账户的交易数据中,对账户分类作用不大的数据类别删除。此外,若存在至少两个交易数据所包含的数据类别不同时,或者存在数据类别的内容表述不一致时,可以对每个账户的交易数据进行数据转化从而将每个账户的交易数据的数据类别统一,以及将每个数据类别中含义相同的内容的形式统一。
示例性地,若将各个账户的数据类别以及数据的格式调整至与上述表1中的数据类别一致。对于不存在“借贷标签”,存在与“借贷标签”表达含义相同的信息,如交易金额正负的账户的交易数据,增加“借贷标签”数据类别,并根据交易金额的正负补充“借贷标签”的具体内容。对于交易的日期和交易的时刻分开的交易数据,可以将交易的日期和交易的时刻合并至同一列,并调整为与上述表1中“交易时间”中内容一致的格式。通过账号在借方账号或贷方账号的位置,判断借贷标签的取值,并将账号调整为交易账号,借贷方账号中的另一个账号调整为交易对手账号,填充完交易和交易对手方的账号卡号信息后,删除借方和贷方账号卡号列。将借贷标签中的“进”调整为“贷”,“出”调整为“借”。
此外,还可以对数据中出现的异常值进行处理,如对交易账号(也可以简称为账号)、交易卡号、交易对手账号、交易对手卡号中出现的异常字符或特殊前后缀进行删除;或者还可以对缺失值进行补齐,如:根据已有的账号与卡号的对应关系补齐缺失卡号、或根据已有卡号和户名的对应关系补齐缺失户名等。
例如,账户C的交易数据如下表2所示,账号C的账户在交易时间T4、交易时间T5和交易时间T6分别进行了三次交易,每次的交易卡号均为交易卡号c,交易时间T4交易对手账号为交易对手账号A,交易对手卡号为a,交易金额为199元。交易时间T5交易对手账号为交易对手账号D,交易对手卡号为d,交易金额为199元。交易时间T6交易对手账号为交易对手账号E,交易对手卡号为e,交易金额为199元。
表2
基于此,对表2进行处理的步骤可以是添加“贷款标签”。表2所示账户C的交易数据添加贷款标签后如表3所示。
表3
可选地,在进行数据清洗和调整格式后,可以将调整后的各个账户的交易数据合并,得到合并流水数据。
换言之,合并流水数据包含多个(如N个账户)的调整后的格式交易数据。
结合表1和表3,上述账户A和上述账户C调整后的交易数据合并后的合并流水数据如下表4所示。
表4
在得到合并流水数据后,对所述合并流水数据进行特征提取,即基于原交易数据衍生出可以用来描述交易特点的特征(也可以称为变量)。示例性地,特征的衍生以账户为单位,对每个账户的所有交易数据提取对应特征,获得中间特征集合。所述中间特征集合包括与每个所述账户对应的特征。
中间特征集合可以是矩阵,其中,矩阵的每一行为一个账户的交易数据的特征。矩阵中的每一列,对应一种特征,或者,也可以说,矩阵的每一列对应一个维度。示例性地,矩阵的对应的特征维度可以包括“交易总次数”、“交易总金额”、“交易总净额”、“收入次数”、“收入金额”、“支出次数”、“平均每笔收入”、“平均每笔支出”、“收入交易对手个数”、和“支出交易对手个数”等。其中,“账号”是每一行唯一的标识,即该行特征描述的对象。
例如,上述表4中的交易数据对应的中间特征集合各个维度的数据如下表5所示。此外,实际业务场景中生成的交易特征矩阵还包含其他更多维度的交易特征,此处不一一展示。
表5
在获得中间特征集合后,对所述中间特征集合中每个特征进行标准化,得到所述第一特征集合。
示例性地,可以对每个特征分别进行标准化。其中,进行标准化的方法有标准差(z-score)标准化、离差(min-max)标准化等。以标准差标准化为例,对于矩阵形式的中间特征集合而言,可以计算每列的标准差和均值,则第i列中一个元素进行标准化的计算方式为:yj=(xj-mi)/si。其中,yj为第i列中第j行元素标准化后的值,xj为第i列中第j行元素标准化前的值,mi为第i列元素的均值,si为第i列元素的标准差。
例如,若收入总金额依次有三个100、200、300,则该列均值为200,标准差为100,按照标准差标准化的处理方式,该列特征将变换为-1、0、1。而上述表5经过标准差标准化后,结果如下表6所示。
表6
本申请实施例中,经过标准差(z-score)标准化处理后映射得到的新特征,符合标准正态分布,均值为0,标准差为1。在异常账户的极值离群情况严重的情况下,以标准差(z-score)标准化的处理方式,可以获得各个对象更加准确的相对特征描述信息,排除过大或过小的绝对数值造成影响。
另一种可能的设计方案中,也可以直接根据多个账户各自的交易数据,确定第一特征集合。
在此情况下,上述中间特征集合即第一特征集合。
本申请实施例中,可以基于特征工程提取中间特征集合,关于特征工程的实现,可以参考现有技术中特征工程的实现方式,此处不再赘述。
步骤S130,对所述第一特征集合进行数据降维,获得降维后的第二特征集合。
可选地,所述第一特征集合包括多个维度的特征。所述对所述标准化后的特征集合中的特征进行降维操作,获得降维后的第二特征集合,包括:
根据多个维度的特征对所述第一特征集合进行降维,获得所述第二特征集合。
本申请实施例中,第一特征集合可以是第一特征矩阵。在此情况下,对第一特征集合降维,即对第一特征矩阵进行特征降维。
特征降维,是将数据从高维度降低至低维度,即将特征数量变少,即列数变少、行数不变。在保证原始数据分类和决策能力的前提下,去掉数据中的冗余信息,减少在原有高维空间中的特征不相关属性,可以更有效地提取简洁而有效的信息。如此,通过特征降维,可以将每个账户数千维的特征提炼为仅有几维。因此,通过特征降维后得到的第二特征集合相较于第一特征集合在列数上进行了大量缩减,而行数不变,如降维前为N行,降维后仍然为N行,每行对应一个账户。
需要说明的是,常用的数据降维方法有主成分分析(PCA)、t分布随机近邻嵌入(t-SNE)、一致的流形近似和投影(UMAP)等。关于数据降维的具体实现可以参考现有技术中数据降维的具体实现,本申请实施例中不再赘述。
步骤S140,根据所述第二特征集合中的特征对所述多个账户进行聚类,获得各个所述账户对应的账户组。
示例性地,可以基于第二特征集合,利用机器学习聚类算法,对账户进行聚类,得到所有账户的聚类结果,其中,聚类结果为同一簇的账户,即对应同一账户组。
需要说明的是,机器学习聚类算法可以是K均值(K-Means)聚类、均值漂移聚类、层次聚类算法。关于机器学习聚类算法的实现可以参考现有技术,此处不再赘述。
例如,对于账户A、账户X、账户Y、账户Z、账户C、账户U、账户V、账户W、账户D、账户E、账户F和账户G,聚类的结果可能为账户A、账户X、账户Y、账户Z属于第一个账户组,账户C、账户U、账户V、账户W属于第二个账户组,账户D、账户E、账户F、账户G属于第三个账户组。
一种可能的设计方案中,所述方法还包括对上述聚类结果进行进一步的类别定义,具体包括:
确定目标账户组。本申请实施例中,可以分别将每个账户组作为一个目标账户组。
获取所述目标账户组的综合特征值,即该账户组中每个账户的特征值的统计描述,如均值、中位数等。
根据所述目标账户组的综合特征值,定义目标账户组中账户的作用。
例如,对于账户A、账户X、账户Y、账户Z、账户C、账户U、账户V、账户W、账户D、账户E、账户F和账户G,聚类的结果可能为账户A、账户X、账户Y、账户Z属于第一个账户组,账户C、账户U、账户V、账户W属于第二个账户组,账户D、账户E、账户F、账户G属于第三个账户组。基于中间特征集合或第一特征集合,分别计算三个账户组别中每个账户组对应每个特征的均值,即第一个账户组的账户A、账户X、账户Y、账户Z的每个维度上特征的均值、第二个账户组的账户C、账户U、账户V、账户W的每个维度上特征的均值。第三个账户组的账户D、账户E、账户F、账户G的每个维度上特征的均值。接着,综合判断各账户组别在资金交易流转过程中的交易特点,判断账户组的作用,进而可以根据账户组的作用确定该账户组中每个账户的作用。
例如,第一个账户组中,若每个维度的特征的均值,具有在收入比支出交易对手个数比上明显偏高、每笔平均收入比每笔平均支出明显偏低、最大连续收入笔数明显偏高等特点,则认为该账户组别整体是以分散转入、集中转出的交易形式存在于整个交易网络中,因此可以推断该账户组别中的账户主要用于资金归集,扮演收款账户的角色。反之,如果一个账户组整体的交易特点为转入笔数少而金额大,支出笔数多而金额小、且支出的对手账户个数多,整体呈现集中转入、分散转出的特点,则推断该账户组中的账户可能为用于返款的资金分散账户。如果一个账户组别的特征均值体现为整体收支平衡、账户日均余额极低、且交易频率较快,呈现出快进快出、不留余额的特点,则推断该账户组别对应的账户为过渡账户类。
本申请提供的账户分类方法、装置及电子设备,通过从多个账户各自的交易数据中提取特征,确定出第一特征集合,并对第一特征集合进行数据降维,获得第二特征集合,基于第二特征集合中的特征对多个账户进行聚类,以获得各个所述账户对应的账户组。如此,基于用户的特征确定用户的账户组,将交易中的原始底层流水记录,转化提炼为具有描述总结性质的量化特征,使得原本较为繁杂的交易流水数据呈现为结构化特征形式,充分挖掘交易明细数据的信息,提高原始流水数据的利用效率,提升分类准确性。
此外,在分类过程中,对特征进行降维,可以在保证原始数据分类和决策能力的前提下,去掉数据中的冗余信息,减少在原有高维空间中的特征不相关属性,更有效地提取简洁而有效的信息,能够简化交易数据的复杂度,减小数据量,从而提高分类效率和减少资源消耗并提升后续的聚类效果。
另外,本申请实施例中的方案,可以通过对交易数据进行处理,从而实现账户等的分类,无需依赖先验知识,可以应用于不同的场景中。
需要说明的是,本申请实施例的方案,还可以应用于金融之外的其他需要对账户等分类的场景。关于本申请实施例中的账户分类方法在其他场景中的实现,可以参考金融场景中的具体实现,此处不再赘述。
请参照图2,图2是本申请实施例提供的电子设备100的示意图,所述电子设备100可以是,但不限于,服务器、个人电脑等具有数据处理能力的设备。所述电子设备100包括账户分类装置110、存储器(也称机器可读存储介质)120、处理器130。
所述存储器120、处理器130相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述账户分类装置110包括至少一个可以软件或固件(firmware)的形式存储于所述机器可读存储介质120中或固化在所述电子设备100的操作系统(operating system,OS)中的软件功能模块。所述处理器130用于执行存储器120中存储的可执行模块,例如所述账户分类装置110所包括的软件功能模块及计算机程序等。
其中,所述存储器120可以是,但不限于,随机存取存储器(Random AccessMemory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(ProgrammableRead-Only Memory,PROM),可擦除只读存储器(Erasable Programmable Read-OnlyMemory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-OnlyMemory,EEPROM)等。其中,存储器120用于存储程序,所述处理器130在接收到执行指令后,执行所述程序。
所述处理器130可能是一种集成电路芯片,具有信号的处理能力。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
请参照图3,本实施例还提供一种账户分类装置,账户分类装置包括至少一个可以软件形式存储于机器可读存储介质中的功能模块。从功能上划分,账户分类装置可以包括获取模块111、确定模块112、降维模块113及聚类模块114。
获取模块111,用于获取多个账户各自的交易数据。
其中,每个所述交易数据包括如下一项或多项:交易时间、交易金额、和交易地点。
本实施例中,所述获取模块111可用于执行图1所示的步骤S110,关于所述获取模块111的具体描述可参对所述步骤S110的描述。
确定模块,用于根据所述多个账户各自的交易数据,确定第一特征集合。
本实施例中,所述确定模块112可用于执行图1所示的步骤S120,关于所述确定模块112的具体描述可参对所述步骤S120的描述。
降维模块,用于对所述第一特征集合中的特征进行数据降维,获得降维后的第二特征集合。
本实施例中,所述降维模块113可用于执行图1所示的步骤S130,关于所述降维模块113的具体描述可参对所述步骤S130的描述。
聚类模块,用于根据所述第二特征集合对所述多个账户进行聚类,获得各个所述账户对应的账户组。
本实施例中,所述聚类模块114可用于执行图1所示的步骤S140,关于所述聚类模块114的具体描述可参对所述步骤S140的描述。
一种可能的设计方案中,所述确定模块,还用于对每个所述账户的交易数据进行数据清洗和数据合并,获得合并流水数据;
对所述合并流水数据进行特征提取,获得中间特征集合;所述中间特征集合包括与每个所述账户对应的特征;
对所述中间特征集合中每个特征进行标准化,得到所述第一特征集合。
可选地,所述第一特征包括多个维度的特征。所述降维模块,用于根据所述多个维度的特征对所述第一特征集合进行降维,获得所述第二特征集合。
一种可能的设计方案中,所述确定模块,还用于确定目标账户组;
所述获取模块,还用于获取所述目标账户组中每个账户的特征值。
所述确定模块,还用于根据所述目标账户组中每个账户的特征值,确定目标账户的作用,以确定所述目标账户组中每个账户的作用。
一种可能的设计方案中,聚类的方法包括:K均值聚类法、均值漂移聚类法、或层次聚类法。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述,仅为本申请的各种实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种账户分类方法,其特征在于,所述方法包括:
获取多个账户各自的交易数据;其中,每个所述交易数据包括如下一项或多项:交易时间、交易金额、或交易地点;
根据所述多个账户各自的交易数据,确定第一特征集合;
对所述第一特征集合进行数据降维,获得降维后的第二特征集合;
根据所述第二特征集合中的特征对所述多个账户进行聚类,获得各个所述账户对应的账户组。
2.根据权利要求1所述的账户分类方法,其特征在于,所述根据所述多个账户各自的交易数据,确定第一特征集合,包括:
对每个所述账户的交易数据进行数据清洗和数据合并,获得合并流水数据;
对所述合并流水数据进行特征提取,获得中间特征集合;所述中间特征集合包括与每个所述账户对应的特征;
对所述中间特征集合中每个特征进行标准化,得到所述第一特征集合。
3.根据权利要求2所述的账户分类方法,其特征在于,所述第一特征集合包括多个维度的特征;所述对所述第一特征集合进行数据降维,获得降维后的第二特征集合,包括:
根据所述多个维度的特征对所述第一特征集合进行降维,获得所述第二特征集合。
4.根据权利要求1-3中任一项所述的账户分类方法,其特征在于,所述方法还包括:
确定目标账户组;
获取所述目标账户组中每个账户的特征值;
根据所述目标账户组中每个账户的特征值,确定所述目标账户组的作用,以确定所述目标账户组中每个账户的作用。
5.根据权利要求1-3中任一项所述的方法,其特征在于,聚类的方法包括:K均值聚类法、均值漂移聚类法、或层次聚类法。
6.一种账户分类装置,其特征在于,所述装置包括:
获取模块,用于获取多个账户各自的交易数据;其中,每个所述交易数据包括如下一项或多项:交易时间、交易金额、或交易地点;
确定模块,用于根据所述多个账户各自的交易数据,确定第一特征集合;
降维模块,用于对所述第一特征集合中的特征进行数据降维,获得降维后的第二特征集合;
聚类模块,用于根据所述第二特征集合对所述多个账户进行聚类,获得各个所述账户对应的账户组。
7.根据权利要求6所述的账户分类装置,其特征在于,
所述确定模块,还用于对每个所述账户的交易数据进行数据清洗和数据合并,获得合并流水数据;
对所述合并流水数据进行特征提取,获得中间特征集合;所述中间特征集合包括与每个所述账户对应的特征;
对所述中间特征集合中每个特征进行标准化,得到所述第一特征集合。
8.根据权利要求7所述的账户分类装置,其特征在于,所述第一特征集合包括多个维度的特征;
所述降维模块,用于根据所述多个维度的特征对所述第一特征集合进行降维,获得所述第二特征集合。
9.根据权利要求6-8中任一项所述的账户分类装置,其特征在于,
所述确定模块,还用于确定目标账户组;
所述获取模块,还用于获取所述目标账户组中每个账户的特征值;
所述确定模块,还用于根据所述目标账户组中每个账户的特征值,确定所述目标账户组的作用,以确定所述目标账户组中每个账户的作用。
10.一种电子设备,其特征在于,包括处理器及机器可读存储介质,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被所述处理器执行时,实现如权利要求1-5中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111328735.3A CN114021661A (zh) | 2021-11-10 | 2021-11-10 | 一种账户分类方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111328735.3A CN114021661A (zh) | 2021-11-10 | 2021-11-10 | 一种账户分类方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114021661A true CN114021661A (zh) | 2022-02-08 |
Family
ID=80063167
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111328735.3A Pending CN114021661A (zh) | 2021-11-10 | 2021-11-10 | 一种账户分类方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114021661A (zh) |
-
2021
- 2021-11-10 CN CN202111328735.3A patent/CN114021661A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111126828A (zh) | 一种基于知识图谱的多层资金异常流向监控方法 | |
CN111597348B (zh) | 用户画像方法、装置、计算机设备和存储介质 | |
WO2022105525A1 (zh) | 预测用户概率的方法、装置和计算机设备 | |
CN111325248A (zh) | 降低贷前业务风险的方法及系统 | |
CN111985937A (zh) | 交易商价值信息评估方法、系统、存储介质、计算机设备 | |
US20230419402A1 (en) | Systems and methods of optimizing machine learning models for automated anomaly detection | |
CN112232950A (zh) | 针对借贷风险的评估方法及装置、设备、计算机可读存储介质 | |
CN112884480A (zh) | 异常交易识别模型的构造方法、装置、计算机设备和介质 | |
CN112464051A (zh) | 一种异常数据检测方法、装置及计算机可读存储介质 | |
CN115545886A (zh) | 逾期风险识别方法、装置、设备及存储介质 | |
CN116881687B (zh) | 一种基于特征提取的电网敏感数据识别方法及装置 | |
CN115115369A (zh) | 数据处理方法、装置、设备及存储介质 | |
CN112329862A (zh) | 基于决策树的反洗钱方法及系统 | |
CN117196808A (zh) | 一种同业业务的流动性风险预测方法及相关装置 | |
CN102393945B (zh) | 一种用于风险加权资产计算的数据处理方法和系统 | |
Liu | The evaluation of classification models for credit scoring | |
CN114021661A (zh) | 一种账户分类方法、装置及电子设备 | |
CN115860465A (zh) | 一种企业关联数据处理预警方法、系统及装置 | |
CN113065892B (zh) | 一种信息推送方法、装置、设备及存储介质 | |
CN113256351A (zh) | 用户业务需求识别方法、装置及计算机可读存储介质 | |
CN114626940A (zh) | 数据分析方法、装置及电子设备 | |
CN114418736A (zh) | 一种银行零售信贷客户分层方法、存储介质和服务器 | |
CN113487407A (zh) | 数据处理方法、装置及电子设备 | |
Lee et al. | Application of machine learning in credit risk scorecard | |
CN112347102A (zh) | 多表拼接方法和多表拼接装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |