CN115689407A - 账户异常检测方法、装置以及终端设备 - Google Patents
账户异常检测方法、装置以及终端设备 Download PDFInfo
- Publication number
- CN115689407A CN115689407A CN202110865200.3A CN202110865200A CN115689407A CN 115689407 A CN115689407 A CN 115689407A CN 202110865200 A CN202110865200 A CN 202110865200A CN 115689407 A CN115689407 A CN 115689407A
- Authority
- CN
- China
- Prior art keywords
- account
- abnormal
- detected
- score
- total
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请提供一种账户异常检测方法、装置以及终端设备,该方法包括:获取待检测账户的隔离得分;获取所述待检测账户与已知异常账户的相似得分;根据所述隔离得分和所述相似得分,计算所述待检测账户的异常程度总得分;根据所述异常程度总得分,检测所述待检测账户是否异常。本申请能够通过将待检测账户于已知的异常账户进行相似度的比较,通过比较结果来检测待检测账户是否异常,代替了传统技术中,利用人工经验手动设置异常识别阈值,减少了人工成本,且避免了采用监督学习模型,从而避免了因为监督学习模型易引入其他账户噪音信息,而导致检测账户异常不准确的问题,提高了检测账户异常的准确度。
Description
技术领域
本申请涉及物流领域,具体涉及一种账户异常检测方法、装置、终端设备及计算机可读存储介质。
背景技术
近年来,代收货款业务在快递行业迅猛发展,同时,关于“代收货款骗局”等新型的诈骗手段也让社会越来越多的关注到代收货款业务存在的风险,对于物流企业来说,如何防控代收货款业务存在的风险,管控异常账号,对于业务的健康发展,维护企业的声誉来说是至关重要的。
传统识别异常账号的方法很大程度上依赖于业务经验,通过监控相关指标是否超过人工设定的阈值来定义账号是否是异常账号。这种方法依赖于业务经验,只能利用到显性的信息,也忽略了不同的指标或者是特征维度之间的关联性。同时,由于异常账号数据量少,样本的收集难度大,在其他的领域会用到的异常检测算法,也不能直接应用到这个场景里。在这个场景里只有极少量的已知异常样本和大量的无标记数据,若简单的形式化为无监督学习,丢弃已有的部分标记信息会带来信息的极大损失,且效果不理想,若将无标记的数据完全当作正常样本,采用监督学习的模型来处理,则会因为引入的大量噪音导致效果欠佳。
发明内容
本申请提供一种账户异常检测方法,通过一种将待检测账户与已知异常账户进行一种比较的方式,用来判断待检测是否异常。
第一方面,本申请提供一种账户异常检测方法,所述方法包括:
获取待检测账户的隔离得分;
获取所述待检测账户与已知异常账户的相似得分;
根据所述隔离得分和所述相似得分,计算所述待检测账户的异常程度总得分;
根据所述异常程度总得分,检测所述待检测账户是否异常。
在本申请一些实施例中,所述获取待检测账户的隔离得分,包括:
获取待检测账户的物流特征属性;
根据所述物流特征属性,计算待检测账户的隔离得分。
在本申请一些实施例中,所述根据所述物流特征属性,计算待检测账户的隔离得分,包括:
将所述待检测账户的物流特征属性输入已训练孤立森林模型,得到所述待检测账户的树形图路径;
根据所述树形图路径,计算所述待检测账户的隔离得分。
在本申请一些实施例中,所述获取所述待检测账户与已知异常账户的相似得分,包括:
对已知异常账户进行聚类,得到已知异常账户样本簇,所述已知异常账户样本簇包括样本簇中心;
根据所述样本簇中心,计算所述待检测账户与已知异常账户的相似得分。
在本申请一些实施例中,所述对已知异常账户进行聚类,得到已知异常账户样本簇,包括:
获取所述已知异常账户的物流特征属性;
将所述已知异常账户的物流特征属性输入已训练的异常聚类模型,以聚类所述已知异常账户,得到所述已知异常账户样本簇。
在本申请一些实施例中,所述根据所述异常程度总得分,检测所述待检测账户是否异常,包括:
输入所述异常程度总得分至已训练的异常分类模型,得到所述待检测账户的异常分类结果;
根据所述异常分类结果,检测所述待检测账户是否异常。
在本申请一些实施例中,所述根据所述异常分类结果,检测所述待检测账户是否异常,包括:
根据所述异常分类结果,判断所述待检测账户是否异常;
若所述异常分类结果为预设的第一异常分类结果,确定所述待检测账户异常;
若所述异常分类结果为预设的第二异常分类结果,确定所述待检测账户正常。
在本申请一些实施例中,所述根据所述异常程度总得分,检测所述待检测账户是否异常之前,所述方法还包括:
获取多个样本账户的异常程度总得分;
根据所述多个样本账户的异常程度总得分,构建异常分类模型。
在本申请一些实施例中,所述根据所述多个样本账户的异常程度总得分,构建异常分类模型,包括:
将所述多个样本账户的异常程度总得分,分别与预设的第一异常检测阈值和预设的第二异常检测阈值进行比较,得到第一比较结果和第二比较结果;
根据所述第一比较结果和所述第二比较结果,构建异常分类模型。
第二方面,本申请还提供一种账户异常检测装置,所述装置包括:
第一获取模块,用于获取待检测账户的隔离得分;
第二获取模块,用于户获取所述待检测账户与已知异常账户的相似得分;
计算模块,用于根据所述隔离得分和所述相似得分,计算所述待检测账户的异常程度总得分;
检测模块,用于根据所述异常程度总得分,检测所述待检测账户是否异常。
在本申请一些实施例中,所述第一获取模块具体用于:
获取待检测账户的物流特征属性;
根据所述物流特征属性,计算待检测账户的隔离得分。
在本申请一些实施例中,所述第一获取模块具体还用于:
将所述待检测账户的物流特征属性输入已训练孤立森林模型,得到所述待检测账户的树形图路径;
根据所述树形图路径,计算所述待检测账户的隔离得分。
在本申请一些实施例中,所述第二获取模块具体用于:
对已知异常账户进行聚类,得到已知异常账户样本簇,所述已知异常账户样本簇包括样本簇中心;
根据所述样本簇中心,计算所述待检测账户与已知异常账户的相似得分。
在本申请一些实施例中,所述第二获取模块具体还用于:
获取所述已知异常账户的物流特征属性;
将所述已知异常账户的物流特征属性输入已训练的异常聚类模型,以聚类所述已知异常账户,得到所述已知异常账户样本簇。
在本申请一些实施例中,所述检测模块具体用于:
输入所述异常程度总得分至已训练的异常分类模型,得到所述待检测账户的异常分类结果;
根据所述异常分类结果,检测所述待检测账户是否异常。
在本申请一些实施例中,所述检测模块具体还用于:
根据所述异常分类结果,判断所述待检测账户是否异常;
若所述异常分类结果为预设的第一异常分类结果,确定所述待检测账户异常;
若所述异常分类结果为预设的第二异常分类结果,确定所述待检测账户正常。
第三方面,本申请还提供一种终端设备,所述终端设备包括处理器、存储器以及存储于所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序以实现任一项所述的账户异常检测方法中的步骤。
第四方面,本申请还提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行以实现任一项所述的账户异常检测方法中的步骤。
本申请可以通过将待检测账户于已知的异常账户进行相似度的比较,通过比较结果来检测待检测账户是否异常,代替了传统技术中,利用人工经验手动设置异常识别阈值,减少了人工成本,且避免了采用监督学习模型,从而避免了因为监督学习模型易引入其他账户噪音信息,而导致检测账户异常不准确的问题,提高了检测账户异常的准确度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例中提供的账户异常检测系统的场景示意图;
图2是本申请实施例中账户异常检测方法的一个实施例流程示意图;
图3是本申请实施例中账户异常检测方法的一个树形图路径示意图;
图4是本申请实施例中账户异常检测方法的一个实施例流程示意图;
图5是本申请实施例中账户异常检测装置的一个功能模块示意图;
图6是本申请实施例中终端设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本申请中,“示例性”一词用来表示“用作例子、例证或说明”。本申请中被描述为“示例性”的任何实施例不一定被解释为比其它实施例更优选或更具优势。为了使本领域任何技术人员能够实现和使用本申请,给出了以下描述。在以下描述中,为了解释的目的而列出了细节。应当明白的是,本领域普通技术人员可以认识到,在不使用这些特定细节的情况下也可以实现本申请。在其它实例中,不会对公知的结构和过程进行详细阐述,以避免不必要的细节使本申请的描述变得晦涩。因此,本申请并非旨在限于所示的实施例,而是与符合本申请所公开的原理和特征的最广范围相一致。
本申请提供了一种账户异常检测方法、装置、终端设备及计算机可读存储介质,以下分别进行详细说明。
首先,介绍本申请中出现的一些概念:
孤立森林模型:在孤立森林(isolation Forest)中,异常被定义为“容易被孤立的离群(more likely to be separated)”,可以将其理解为分布稀疏且离密度高的群体较远的点。在特征空间里,分布稀疏的区域表示事件发生在该区域的概率很低,因而可以认为落在这些区域里的数据是异常的。孤立森林是一种适用于连续数据(Continuous numericaldata)的无监督异常检测方法,即不需要有标记的样本来训练,但特征需要是连续的。对于如何查找哪些点容易被孤立(isolated),iForest使用了一套非常高效的策略。在孤立森林中,递归地随机分割数据集,直到所有的样本点都是孤立的。在这种随机分割的策略下,异常点通常具有较短的路径。
kmeans模型:kmeans模型为一种聚类算法,k均值聚类算法(k-means clusteringalgorithm)是一种迭代求解的聚类分析算法,其步骤是,预将数据分为K组,则随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本,聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类,没有(或最小数目)聚类中心再发生变化,误差平方和局部最小。
L2范数:为一种范数(Norm)函数,其赋予某个向量空间(或矩阵)中的每个向量以长度或大小。对于零向量,另其长度为零。直观的说,向量或矩阵的范数越大,则我们可以说这个向量或矩阵也就越大。有时范数有很多更为常见的叫法,如绝对值其实便是一维向量空间中实数或复数的范数,而Euclidean距离也是一种范数。
损失函数:损失函数(loss function)又称代价函数(cost function)是将随机事件或其有关随机变量的取值映射为非负实数以表示该随机事件的“风险”或“损失”的函数。在应用中,损失函数通常作为学习准则与优化问题相联系,即通过最小化损失函数求解和评估模型。
请参阅图1,图1为本申请实施例所提供的账户异常检测方法的场景示意图,该账户异常检测系统可以包括终端设备100和存储设备200,该存储设备200可以向该终端设备100传输数据。如图1中的终端设备100,可以获取该存储设备200中存储的待检测账户的数据,以执行本申请中的账户异常检测方法。
本申请实施例中,终端设备100其包括但不限可以是台式机、便携式电脑、网络服务器、掌上电脑(Personal Digital Assistant,PDA)、平板电脑、无线终端设备、嵌入式设备等。
本申请的实施例中,终端设备100和存储设备200之间可通过任何通信方式实现通信,包括但不限于,基于第三代合作伙伴计划(3rd Generation Partnership Project,3GPP)、长期演进(Long Term Evolution,LTE)、全球互通微波访问(WorldwideInteroperability for Microwave Access,WiMAX)的移动通信,或基于TCP/IP协议族(TCP/IP Protocol Suite,TCP/IP)、用户数据报协议(User Datagram Protocol,UDP)的计算机网络通信等。
需要说明的是,图1所示的账户异常检测系统的场景示意图仅仅是一个示例,本申请实施例描述的账户异常检测系统以及场景是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着账户异常检测系统的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
如图2所示,图2为本申请实施例中账户异常检测方法的一个实施例流程示意图,账户异常检测方法可以包括如下步骤201~204:
201、获取待检测账户的隔离得分。
首先,账户是指根据会计科目设置的,具有一定格式和结构,用于反映会计要素的增减变动情况及其结果的载体。然而,在实际运营中,往往会出现用户对自己的账户操作不规范的情况,账户的增减变动的记录便会出现异常,如何检测账户出现异常,便是本申请要解决的问题,这些需要检测的账户统称为待检测账户。
而待检测账户通常在机器学习、神经网络聚类等领域,认为一个目标客体是否异常的定义通常为:“容易被孤立的离群点(more likely to be separated)”,可以将其理解为分布稀疏且离密度高的群体较远的点。在特征空间里,分布稀疏的区域表示事件发生在该区域的概率很低,因而可以认为落在这些区域里的数据是异常的。因此本步骤中可以把待检测账户视为一个个孤立的点,正因为一个个待检测账户为单独的且孤立的,则计算这些单独且孤立的点异常得分概率则为本步骤的隔离得分。
为了更好的实现本申请实施例,在一个本申请实施例中,获取待检测账户的隔离得分,包括:获取待检测账户的物流特征属性;根据物流特征属性,计算待检测账户的隔离得分。
首先,获取待检测账户的物流特征属性,可以根据过往的运营数据记录,直接获取即可,这些过往的运营数据是包括用户对账户的各种操作记录,这些操作记录里便包括了账户的物流特征属性。
由于具体到账户的异常检测,没有具体的物流特征属性进行衡量是无法检测账户是否异常的。因此,本实施例中的物流特征属性是一种可以反映账户在物流方面情况的特征属性。
具体的,本申请实施例中描述的物流特征属性可以包括如下几种物流特征属性中至少两种:(1)妥投率:收到代收货款的运单量/代收货款运单总件量;(2)投诉率:被投诉“假冒伪劣”的代收货款运单量/代收货款运单总件量;(3)退货率:被退货的代收货款运单量/代收货款运单总件量;(4)作废率:作废的代收货款运单量/代收货款运单总件量(注:作废指的是被收件人拒收后寄方要求货物不退回,直接作废。一般是因为货物价值不高,寄方不愿意为了低价值的货物支付回程的运费,作废的损失跟回程的运费相差不大);(5)客单价:收到的代收货款的总金额/收到代收货款的运单量;(6)托寄物是否易作废:排名第一的托寄物二级分类是否属于前一个月全网作废率排名前十的托寄物二级分类(注:二级分类是指一种分类方式,例如:一级分类为果蔬类,二级分类为水果类,三级分类为苹果,以此类推);(7)预计盈利率:(应收总金额-总费用)/应收总金额(总应收金额指的是寄方客户初始设置的代收货款金额的和,总费用指的是总的运费);(8)相对妥投率:排名第一的托寄物二级分类妥投率与排名第一的托寄物二级分类全网妥投率的比;(9)相对作废率:排名第一的托寄物二级分类作废率与排名第一的托寄物二级分类全网作废率的比;(10)排名第一的产品是不是低价产品(低价产品指的是运费单价低于指定阈值的产品(比如10元))等。
当有了具体的物流特征属性,便可以根据具体的物流特征属性,来计算待检测账户的隔离得分。
为了更好的实现本申请实施例,在一个本申请实施例中,根据物流特征属性,计算待检测账户的隔离得分,包括:将待检测账户的物流特征属性输入已训练孤立森林模型,得到待检测账户的树形图路径;根据树形图路径,计算待检测账户的隔离得分。
孤立森林是一种适用于连续数据(Continuous numerical data)的无监督异常检测方法,即不需要有标记的样本来训练,但特征需要是连续的。对于如何查找哪些点容易被孤立(isolated),孤立森林模型使用了一套非常高效的策略。在孤立森林中,递归地随机分割数据集,直到所有的样本点都是孤立的。在这种随机分割的策略下,异常点通常具有较短的路径。
当将相应的物流特征属性输入进孤立森林模型之后,便会得到相应的树形图,树形图的分支点上具有随机筛选账户样本的条件,当将具体的待检测账户的物流特征属性输入至孤立森林模型后,便会得到每个待检测账户的树形图路径。带入到本申请具体来讲,假设待检测账户1=[x1=0.7,x2=0.15,x3=0.2……x10],按照上述实施例的描述,x1为妥投率、x2为投诉率、x3为退货率等10个物流特征属性;待检测账户2=[x1=0.7,x2=0.05,x3=0.4……x10],待检测账户2同样包括10相同的物流特征属性。当将待检测账户1和待检测账户2输入孤立森林模型后,具体表现可以为如图3所示,其中图3中的0.6,0.1和0.3分别为系统选择筛选数据,具体的筛选方法可以为:以x1为妥投率来举例,当待检测账户数量为100个时,x1也就有100个,计算100个x1的概率分布,以概率分布进行最终筛选数据具体方法,例如超过100个x1中,大于0.6的账户仅占2%,若以往对异常账户检测而检测出来的异常率也为2%,此时便可以将0.6作为x1的筛选数据,当然根据具体的情况,以及用户对账户的使用越来越规范,异常率越来越小时,该筛选数据也可以进行另外的手动调整,具体此处不做限定。
同样的,依旧如图3所示,假设待检测账户1仅经历过2轮筛选,即仅经过树形图的两个分支点时,此时待检测账户1的树形图路径则为2。同理,待检测账户2仅经历过3个树形图分支点时,则树形图路径为3。需要说明的是,图3中大于0.3的省略号为省略部分,省略为其他通过大于0.3筛选的待检测账户,由于图3是为了便于理解本实施例的树形图路径,仅举了2个待检测账户,在实际情况待检测账户数量远不止2个,即省略部分为x3大于0.3的待检测账户,具体筛选方式如本申请实施例所示,具体此处不再赘述。
其中,当知道了各个待检测账户的树形图路径后,根据树形图路径具体计算每个待检测账户的隔离得分可以通过以下方式进行计算:
IS(x)=2-E(h(x))/c(n)
其中,h(x)为每个待检测样本的树形图路径,c(n)=H(n)-2(n-1)/n,H(n)为调和数,n为待检测账户个数,E(h(x))为全部待检测账户的平均树形图路径,IS(x)为需要计算的隔离得分。
202、获取待检测账户与已知异常账户的相似得分。
本步骤中的已知异常账户为已经明确的异常账户,明确的异常账户可以是根据过往运营数据中,根据人工运营经验确定的异常账户,具体此处不做限定。
当已经确定已知异常账户时,对已知异常账户进行一个异常得分的运算,得到异常得分,目的是为了提供待检测账户隔离得分的一个比较标准。
为了更好的实现本申请实施例,在一个本申请实施例中,获取待检测账户与已知异常账户的相似得分,包括:对已知异常账户进行聚类,得到已知异常账户样本簇,已知异常账户样本簇包括样本簇中心;根据待检测账户与样本簇中心,计算待检测账户与已知异常账户的相似得分。
而聚类的过程就是从一堆数据(通常为向量)中找相似度较大的那些放到一堆,相似度较小的则分开成另一堆。最后完成所有数据的分堆,由于是基于相似度将那些物品分堆的,且输入到计算机中的都是一些向量,每一条向量代表着一个信息特征,如果是相似或相同的一个信息特征,他的数据化表示也就是向量也应该相似或相同,而越相似的东西他们的向量彼此之间就越接近(也就是样本簇中距离越接近),那么我们就可以根据向量之间的距离为他们彼此之间的相似程度,以相似程度进行聚类,由于涉及到向量的距离,因此根据各个向量之间的距离也就可以计算出样本簇中离样本簇中心距离最近的向量,该离样本簇中心位置越近的向量,就是本实施例的样本簇中心(即可以根据向量的距离的接近程度确定样本簇的中心为哪一个向量),当有多个样本簇时,便有多个样本簇中心。
由于上述对聚类进行的描述可知,对待检测账户进行聚类之后,会得到多个样本簇,样本簇中有不同样本簇中心(样本簇中心向量),由于每个样本簇是代表在某一个特征上因相似性而组成的样本簇,因此样本簇的中心向量是最具有代表性的特征(也可以理解为这个样本簇的中心向量可以代表样本簇的平均特征),因此将待检测账户与样本簇的中心进行对比,即是将待检测账户与样本簇的一个平均向量进行对比,所计算出的相似得分误差可以尽力达到最小。
示例性的,可以根据以下公式进行计算最大的相似得分:
其中,e为常数,x为待检测账户的数据(其中待检测账户的数据可以为根据各个物流特征属性得到的矩阵数据或向量数据),μi为样本簇的样本簇中心向量,i为多个样本簇的数量,假设数量为n个,当i=1时,即为第一个样本簇的中心向量,SS(x)为需要计算的相似得分。max为取待检测账户的数据与不同样本簇的样本簇中心向量分别计算出的最大值相似得分的最大值。
为了更好的实现本申请实施例,在一个本申请实施例中,对已知异常账户进行聚类,得到已知异常账户样本簇,包括:获取已知异常账户的物流特征属性。将已知异常账户的物流特征属性输入已训练的异常聚类模型,以聚类已知异常账户,得到已知异常账户样本簇。根据异常聚类模型,聚类已知异常账户,得到已知异常账户样本簇。
由于上述实施例中,已经描述聚类的原理,为了能够提高待检测账户是否异常的检测精度,本申请还需要获取已知异常账户的物理特征属性。假设,是根据妥投率和投诉率来获取待检测账户的隔离得分,就不能根据退货率和作废率来计算已知异常账户的平均异常得分,这样比较便会出现偏差,本申请实施例需要获取的已知异常账户的物流特征属性应与上述实施例中,待检测账户的物流特征属性类别相同。这样做的好处是可以避免比较客体出现偏差,例如:若不确定与待检测账户相同的物流特征属性,便可能出现以待检测账户的退货率与对已知异常账户妥投率进行聚类后的样本簇中心向量的比较,这样的比较结果便没有意义,从而降低的检测精度。
当获取了与上述实施例中相同类别的物流特征属性后,便可以进行聚类分析。
示例性的,使用异常聚类模型进行聚类分析的模型可以包括:系统(层次)聚类算法、DBSCAN算法、Kmeans模型算法等、优选地,本申请采用Kmeans模型算法。
203、根据隔离得分和相似得分,计算待检测账户的异常程度总得分。
本步骤中的待检测账户的异常程度总得分可以代表为待检测账户整体的异常情况。若该异常程度总得分越高,则代表待检测账户异常的可能性越大。异常程度总得分的分值越小,则代表待检测账户的异常程度越小,待检测账户越正常的可能性越大。
示例性的,计算待检测账户的异常程度总得分可以根据以下公式进行计算:
TS(x)=θ*IS(x)+(1-θ)*SS(x)
其中,IS(x)为待检测账户的隔离得分,具体待检测账户的隔离得分是如何得到的,可以参照上述实施例,具体此处不再赘述;SS(x)为待检测账户与已知异常账户的相似得分,具体计算相似得分的方式,可以参照上述实施例,具体此处不再赘述;其中权重参数θ∈[0,1],具体的θ取值可以根据实际情况进行人工调整,TS(x)为本申请需要计算的异常程度总得分。
204、根据异常程度总得分,检测待检测账户是否异常。
当得到待检测账户的异常程度总得分后,可以根据具体的异常程度总得分的分值,对待检测账户进行检测,例如该异常程度总得分大于等于某一个设定阈值时,可以确定该待检测账户异常,当该异常程度总得分小于该设定阈值时,可以确定该待检测账户正常。
为了更好的实现本申请实施例,在一个本申请实施例中,根据异常程度总得分,检测待检测账户是否异常,包括:输入异常程度总得分至已训练的异常分类模型,得到待检测账户的异常分类结果;根据异常分类结果,检测待检测账户是否异常。
其中,异常分类结果是将异常程度总得分输入至已经训练好的异常分类模型中得到的结果,具体的结果对应具体异常检测结果。
为了使得检测的结果更加精确,可以对获得的异常程度总得分输入至已经训练好的异常分类模型,该异常分类模型能够根据具体的异常程度总得分的具体分值,进行判断该待检测账户是否为正常或者异常。需要说明的是该已训练的异常分类模型是已经完成了训练的模型,具体可以通过深度学习完成对正常账户和异常账户的分析学习,根据分析学习的结果从而完成该异常分类模型的训练;也可以通过机器学习完成对正常账户和异常账户进的分析学习,根据分析学习的结果从而完成该异常分类模型的训练;当然也可以根据概率统计学对正常账户和异常账户的数据进行概率统计,根据概率统计结果完成该异常分类模型的训练,当然训练的方法还有很多,具体此处不做限定。
为了更好的实现本申请实施例,在一个本申请实施例中,根据异常分类结果,检测待检测账户是否异常,包括:根据异常分类结果,判断待检测账户是否异常。
本实施例将该异常分类模型输出的结果设定为两种,根据两种不同的结果进行相应判断该待检测账户是否异常,具体根据两种结果进行相应异常判断包括两种情况:
(1)若异常分类结果为预设的第一异常分类结果,确定待检测账户异常。
其中,第一异常分类结果可以是待检测账户的异常结果,由于在计算机的模型中,通常的输出结果均由数据展示,因此,进一步的,可以用数据标识来表示该第一分类结果,即在训练该异常分类模型时,可以将输出的结果设定为1和0。当将待检测账户的异常程度总得分输入进该异常分类模型后,输出的结果为1时,即为本情况的第一异常分类结果。因此,当模型输出结果为1时,可以确定该待检测账户异常。
(2)若异常分类结果为预设的第二异常分类结果,确定待检测账户正常。
该第二异常分类结果可以是待检测账户的正常结果,在待检测账户的异常程度总得分输入进该异常分类模型后,输出的结果为0时,即为本情况的第二异常分类结果。因此,当模型输出结果为0时,可以确定该待检测账户正常。
本申请可以通过将待检测账户于已知的异常账户进行相似度的比较,通过比较结果来检测待检测账户是否异常,代替了传统技术中,利用人工经验手动设置异常识别阈值,减少了人工成本,且避免了采用监督学习模型,从而避免了因为监督学习模型易引入其他账户噪音信息,而导致检测账户异常不准确的问题,提高了检测账户异常的准确度。
为了更好的实现本申请实施例,在一个本申请实施例中,还提供了一种训练该已训练的异常分类模型的方法,如图4所示,方法可以包括如下步骤401~402:
401、获取多个样本账户的异常程度总得分。
本步骤中的样本账户可以包括待检测账户,也可以包括已知的异常账户,具体如何计算异常程度总得分的方法,可以参照上述实施例,具体此处不再赘述。本步骤中利用多个样本账户的目的是为了在训练该异常分类模型是,有足够的数据支撑,使得训练出来的异常分类模型的计算误差能达到最小。
402、根据多个样本账户的异常程度总得分,构建已训练的异常分类模型。
当获取到多个样本账户的异常程度总得分后,便可以开始构建该异常分类模型,具体的构建方式可以为:将多个样本账户的异常程度总得分,分别与预设的第一异常检测阈值α和预设的第二异常检测阈值β进行比较,得到第一比较结果和第二比较结果。例如:将多个异常程度总得分与α进行比较,将大于等于α的异常程度总得分的样本账户确定为潜在异常账户,即比较结果确定为潜在异常账户则为该第一比较结果。再将多个异常程度总得分小于等于β的样本账户确定为潜在正常账户,即比较结果确定为潜在正常账户则为该第二比较结果。
当获取到第一比较结果和第二比较结果后,再根据第一比较结果和第二比较结果,构建已训练的异常分类模型。具体的构建方法可以按照以下公式进行构建:
首先,将比较结果为第一比较结果(潜在异常账户)的样本账户的异常程度总得分带入公式①,即计算潜在异常账户的权重向量ω(x),其中TS(x)为异常程度总得分;maxTS(x)为多个异常程度总得分中的最大异常程度总得分,具体计算异常程度总得分的方式和上述实施例相同,具体此处不再赘述。
将比较结果为第二比较结果(潜在正常账户)的样本账户的异常程度总得分带入公式②,即计算潜在正常账户权重向量ω(x),其中TS(x)为异常程度总得分;maxTS(x)为多个异常程度总得分中的最大异常程度总得分,minTS(x)为多个异常程度总得分中的最小异常程度总得分,具体计算异常程度总得分的方式和上述实施例相同,具体此处不再赘述。
当获取到权重向量后,可以再通过以下公式进行最终构建:
其中,其中ωi为上述公式的ω(x),i代表不同的样本,当i=1时,代表为样本账户1,其中yi取值为0或1,当为本实施例潜在异常账户时,yi为1;当为潜在正常样本时,yi为0;λ为常数,可以通过人工调整;R(ω)为权重向量的L2范数,L2范数的概念在前文中有所描述,此处不再赘述,f(xi)为本公式输出结果,当f(xi)为1时,确定待检测账户i为异常账户,当f(xi)为0时,确定待检测账户i为正常账户。
其中,若采用SVM算法(support vector machines,SVM),上述公式③中的常数1则被替代为一种损失函数,该损失函数为:
其中,损失函数的概念在前文有所提及,具体此处不再赘述。
本申请实施例提供的构建异常分类模型的方法可以解决模型构建的问题,当构建好异常分类模型之后,可以直接计算出新的待检测账户的异常程度总得分,再将新的待检测账户的异常程度总得分直接带入模型,便可以知道新的待检测账户是否异常,能有效的提高检测效率。
为了更好实施本申请实施例中的账户异常检测方法,在账户异常检测方法之上,本申请实施例中还提供了一种账户异常检测装置,如图5所示,装置500包括:
第一获取模块501,用于获取待检测账户的隔离得分。
第二获取模块502,用于户获取待检测账户与已知异常账户的相似得分。
计算模块503,用于根据隔离得分和相似得分,计算待检测账户的异常程度总得分。
检测模块504,用于根据异常程度总得分,检测待检测账户是否异常。
本申请实施例提供的账户异常检测装置,可以通过第一获取模块501计算待检测账户的隔离得分,再通过第二获取模块502计算待检测账户与已知的异常账户进行相似得分,再通过计算模块503,根据隔离得分和相似得分计算待检测账户的异常程度总得分,再通过检测模块504根据该异常程度总得分,进行待检测账户的异常判断。本申请实施例提供的装置代替了传统技术中,利用人工经验手动设置异常识别阈值,减少了人工成本,且避免了采用监督学习模型,从而避免了因为监督学习模型易引入其他账户噪音信息,而导致检测账户异常不准确的问题,提高了检测账户异常的准确度。
在本申请一些实施例中,第一获取模块501具体用于:
获取待检测账户的物流特征属性;
根据物流特征属性,计算待检测账户的隔离得分。
在本申请一些实施例中,第一获取模块501具体还用于:
将待检测账户的物流特征属性输入已训练孤立森林模型,得到待检测账户的树形图路径;
根据树形图路径,计算待检测账户的隔离得分。
在本申请一些实施例中,第二获取模块502具体用于:
对已知异常账户进行聚类,得到已知异常账户样本簇,已知异常账户样本簇包括样本簇中心;
根据待检测账户与样本簇中心,计算待检测账户与已知异常账户的相似得分。
在本申请一些实施例中,第二获取模块502具体还用于:
获取已知异常账户的物流特征属性;
将已知异常账户的物流特征属性输入已训练的异常聚类模型,以聚类已知异常账户,得到已知异常账户样本簇。
在本申请一些实施例中,检测模块504具体用于:
输入异常程度总得分至已训练的异常分类模型,得到待检测账户的异常分类结果;
根据异常分类结果,检测待检测账户是否异常。
在本申请一些实施例中,检测模块504具体还用于:
根据异常分类结果,判断待检测账户是否异常;
若异常分类结果为预设的第一异常分类结果,确定待检测账户异常;
若异常分类结果为预设的第二异常分类结果,确定待检测账户正常。
本申请实施例还提供一种终端设备,设备包括处理器、存储器以及存储于存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序以实现本申请实施例中任一项的账户异常检测方法中的步骤。其中,该终端设备,其集成了本申请实施例所提供的任一种账户异常检测方法,如图6所示,其示出了本申请实施例所涉及的终端设备的结构示意图,具体来讲:
该终端设备可以包括一个或者一个以上处理核心的处理器601、一个或一个以上计算机可读存储介质的存储器602、电源603和输入单元604等部件。本领域技术人员可以理解,图6中示出的终端设备结构并不构成对终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器601是该终端设备的控制中心,利用各种接口和线路连接整个终端设备的各个部分,通过运行或执行存储在存储器602内的软件程序和/或模块,以及调用存储在存储器602内的数据,执行终端设备的各种功能和处理数据,从而对终端设备进行整体监控。可选的,处理器601可包括一个或多个处理核心;处理器601可以是中央处理单元(CentralProcessing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,优选的,处理器601可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界是面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器601中。
存储器602可用于存储软件程序以及模块,处理器601通过运行存储在存储器602的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器602可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据终端设备的使用所创建的数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器602还可以包括存储器控制器,以提供处理器601对存储器602的访问。
终端设备还包括给各个部件供电的电源603,优选的,电源603可以通过电源管理系统与处理器601逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源603还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该终端设备还可包括输入单元604,该输入单元604可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,终端设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,终端设备中的处理器601会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器602中,并由处理器601来运行存储在存储器602中的应用程序,从而实现各种功能,例如:
获取待检测账户的隔离得分;
获取待检测账户与已知异常账户的相似得分;
根据隔离得分和相似得分,计算待检测账户的异常程度总得分;
根据异常程度总得分,检测待检测账户是否异常。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。其上存储有计算机程序,计算机程序被处理器进行加载,以执行本申请实施例所提供的任一种账户异常检测方法中的步骤。例如,计算机程序被处理器进行加载可以执行如下步骤:
获取待检测账户的隔离得分;
获取待检测账户与已知异常账户的相似得分;
根据隔离得分和相似得分,计算待检测账户的异常程度总得分;
根据异常程度总得分,检测待检测账户是否异常。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对其他实施例的详细描述,此处不再赘述。
具体实施时,以上各个单元或结构可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元或结构的具体实施可参见前面的方法实施例,在此不再赘述。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种账户异常检测方法及装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本申请的限制。
Claims (12)
1.一种账户异常检测方法,其特征在于,所述方法包括:
获取待检测账户的隔离得分;
获取所述待检测账户与已知异常账户的相似得分;
根据所述隔离得分和所述相似得分,计算所述待检测账户的异常程度总得分;
根据所述异常程度总得分,检测所述待检测账户是否异常。
2.根据权利要求1所述的账户异常检测方法,其特征在于,所述获取待检测账户的隔离得分,包括:
获取待检测账户的物流特征属性;
根据所述物流特征属性,计算待检测账户的隔离得分。
3.根据权利要求2所述的账户异常检测方法,其特征在于,所述根据所述物流特征属性,计算待检测账户的隔离得分,包括:
将所述待检测账户的物流特征属性输入已训练孤立森林模型,得到所述待检测账户的树形图路径;
根据所述树形图路径,计算所述待检测账户的隔离得分。
4.根据权利要求1所述的账户异常检测方法,其特征在于,所述获取所述待检测账户与已知异常账户的相似得分,包括:
对已知异常账户进行聚类,得到已知异常账户样本簇,所述已知异常账户样本簇包括样本簇中心;
根据所述样本簇中心,计算所述待检测账户与已知异常账户的相似得分。
5.根据权利要求4所述的账户异常检测方法,其特征在于,所述对已知异常账户进行聚类,得到已知异常账户样本簇,包括:
获取所述已知异常账户的物流特征属性;
将所述已知异常账户的物流特征属性输入已训练的异常聚类模型,以聚类所述已知异常账户,得到所述已知异常账户样本簇。
6.根据权利要求1所述的账户异常检测方法,其特征在于,所述根据所述异常程度总得分,检测所述待检测账户是否异常,包括:
输入所述异常程度总得分至已训练的异常分类模型,得到所述待检测账户的异常分类结果;
根据所述异常分类结果,检测所述待检测账户是否异常。
7.根据权利要求6所述的账户异常检测方法,其特征在于,所述根据所述异常分类结果,检测所述待检测账户是否异常,包括:
根据所述异常分类结果,判断所述待检测账户是否异常;
若所述异常分类结果为预设的第一异常分类结果,确定所述待检测账户异常;
若所述异常分类结果为预设的第二异常分类结果,确定所述待检测账户正常。
8.根据权利要求6所述的账户异常检测方法,其特征在于,所述根据所述异常程度总得分,检测所述待检测账户是否异常之前,所述方法还包括:
获取多个样本账户的异常程度总得分;
根据所述多个样本账户的异常程度总得分,构建异常分类模型。
9.根据权利要求8所述的账户异常检测方法,其特征在于,所述根据所述多个样本账户的异常程度总得分,构建异常分类模型,包括:
将所述多个样本账户的异常程度总得分,分别与预设的第一异常检测阈值和预设的第二异常检测阈值进行比较,得到第一比较结果和第二比较结果;
根据所述第一比较结果和所述第二比较结果,构建异常分类模型。
10.一种账户异常检测装置,其特征在于,所述装置包括:
第一获取模块,用于获取待检测账户的隔离得分;
第二获取模块,用于户获取所述待检测账户与已知异常账户的相似得分;
计算模块,用于根据所述隔离得分和所述相似得分,计算所述待检测账户的异常程度总得分;
检测模块,用于根据所述异常程度总得分,检测所述待检测账户是否异常。
11.一种终端设备,其特征在于,所述终端设备包括处理器、存储器以及存储于所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序以实现权利要求1至9任一项所述的账户异常检测方法中的步骤。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行以实现权利要求1至9任一项所述的账户异常检测方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110865200.3A CN115689407A (zh) | 2021-07-29 | 2021-07-29 | 账户异常检测方法、装置以及终端设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110865200.3A CN115689407A (zh) | 2021-07-29 | 2021-07-29 | 账户异常检测方法、装置以及终端设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115689407A true CN115689407A (zh) | 2023-02-03 |
Family
ID=85057744
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110865200.3A Pending CN115689407A (zh) | 2021-07-29 | 2021-07-29 | 账户异常检测方法、装置以及终端设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115689407A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116644372A (zh) * | 2023-07-24 | 2023-08-25 | 北京芯盾时代科技有限公司 | 一种账户类型的确定方法、装置、电子设备及存储介质 |
CN117235548A (zh) * | 2023-11-15 | 2023-12-15 | 山东济宁运河煤矿有限责任公司 | 基于激光灼烧的煤质数据处理方法及智能化系统 |
-
2021
- 2021-07-29 CN CN202110865200.3A patent/CN115689407A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116644372A (zh) * | 2023-07-24 | 2023-08-25 | 北京芯盾时代科技有限公司 | 一种账户类型的确定方法、装置、电子设备及存储介质 |
CN116644372B (zh) * | 2023-07-24 | 2023-11-03 | 北京芯盾时代科技有限公司 | 一种账户类型的确定方法、装置、电子设备及存储介质 |
CN117235548A (zh) * | 2023-11-15 | 2023-12-15 | 山东济宁运河煤矿有限责任公司 | 基于激光灼烧的煤质数据处理方法及智能化系统 |
CN117235548B (zh) * | 2023-11-15 | 2024-02-27 | 山东济宁运河煤矿有限责任公司 | 基于激光灼烧的煤质数据处理方法及智能化系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11093519B2 (en) | Artificial intelligence (AI) based automatic data remediation | |
US9489627B2 (en) | Hybrid clustering for data analytics | |
CN110837931A (zh) | 客户流失预测方法、装置及存储介质 | |
CN107633030B (zh) | 基于数据模型的信用评估方法及装置 | |
CN110991474A (zh) | 一种机器学习建模平台 | |
CN115689407A (zh) | 账户异常检测方法、装置以及终端设备 | |
CN112989332B (zh) | 一种异常用户行为检测方法和装置 | |
CN111340086A (zh) | 无标签数据的处理方法、系统、介质及终端 | |
CN107622326A (zh) | 用户分类、可用资源预测方法、装置及设备 | |
CN112270596A (zh) | 基于用户画像构建的风险控制系统及方法 | |
US11062236B2 (en) | Self-learning analytical attribute and clustering segmentation system | |
CN113704389A (zh) | 一种数据评估方法、装置、计算机设备及存储介质 | |
CN115238815A (zh) | 异常交易数据获取方法、装置、设备、介质和程序产品 | |
CN116414815A (zh) | 数据质量检测方法、装置、计算机设备和存储介质 | |
CN115330435A (zh) | 一种碳排放权价格指标体系建立方法、装置、设备及介质 | |
CN111046947B (zh) | 分类器的训练系统及方法、异常样本的识别方法 | |
CN112329862A (zh) | 基于决策树的反洗钱方法及系统 | |
CN110879821A (zh) | 评分卡模型衍生标签生成方法、装置、设备及存储介质 | |
CN112446660A (zh) | 网点聚类方法、装置、服务器及存储介质 | |
CN115688101A (zh) | 一种基于深度学习的文件分类方法及装置 | |
CN113935819A (zh) | 核算异常特征提取方法 | |
CN112926816B (zh) | 供应商评价方法、装置、计算机设备和存储介质 | |
Zhang et al. | Customer-churn research based on customer segmentation | |
Alizadeh et al. | An OWA-Powered Dynamic Customer Churn Modeling in the Banking Industry Based on Customer Behavioral Vectors | |
CN116188059A (zh) | 一种基于聚类的店铺销售占比的确定方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |