CN115982664A - 一种异常账户识别方法、装置、设备及存储介质 - Google Patents
一种异常账户识别方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN115982664A CN115982664A CN202310248273.7A CN202310248273A CN115982664A CN 115982664 A CN115982664 A CN 115982664A CN 202310248273 A CN202310248273 A CN 202310248273A CN 115982664 A CN115982664 A CN 115982664A
- Authority
- CN
- China
- Prior art keywords
- feature
- account
- characteristic
- data
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 54
- 238000000034 method Methods 0.000 title claims abstract description 40
- 239000013598 vector Substances 0.000 claims abstract description 161
- 238000000605 extraction Methods 0.000 claims abstract description 43
- 230000006870 function Effects 0.000 claims description 37
- 230000009466 transformation Effects 0.000 claims description 30
- 238000004364 calculation method Methods 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 6
- 230000001131 transforming effect Effects 0.000 claims description 5
- 230000000052 comparative effect Effects 0.000 claims description 4
- 241001522296 Erithacus rubecula Species 0.000 claims 1
- 238000012546 transfer Methods 0.000 description 148
- 238000010586 diagram Methods 0.000 description 13
- 238000004891 communication Methods 0.000 description 8
- 230000008901 benefit Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 5
- 230000003993 interaction Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000002547 anomalous effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本公开提供了一种异常账户识别方法、装置、设备及存储介质,涉及计算机技术领域。方法主要包括:获取原始特征数据,原始特征数据包括业务账户对应的特征数据,业务账户包括待识别账户和标注账户;根据对比学习模型,对原始特征数据中的时间类型特征数据进行特征编码,得到业务账户对应的高阶编码特征;根据自编码器模型,对原始特征数据中的统计类型特征数据和高阶编码特征进行特征提取,得到第一特征向量和第二特征向量,第一特征向量为待识别账户对应的特征向量,第二特征向量为标注账户对应的特征向量;根据第一特征向量和第二特征向量,对待识别账户进行识别,得到异常账户识别结果。
Description
技术领域
本公开涉及计算机技术领域,尤其涉及一种异常账户识别方法、装置、设备及存储介质。
背景技术
随着互联网技术的快速发展,各行各业的业务规模和账户规模均不断扩大,相应的,从业务中利用不法手段获取利益的异常账户也越来越多,因此,对于各个行业来说,识别异常账户都至关重要。
在现有技术中,主要依靠专家规则对异常账户进行识别。然而,异常账户获取利益的手段多种多样,专家需要对异常账户进行持续不断的研究,编写多套专家规则以适用于多种手段,这会消耗大量的人力和资源;另外,异常账户获取利益的手段不断升级,异常账户的特征也更加复杂,复杂的特征难以用专家规则刻画清楚,因此异常账户的识别精确度不高。
发明内容
本公开提供了一种异常账户识别方法、装置、设备及存储介质,以至少解决现有技术中存在的以上技术问题。
根据本公开的第一方面,提供了一种异常账户识别方法,该方法包括:获取原始特征数据,所述原始特征数据包括业务账户对应的特征数据,所述业务账户包括待识别账户和标注账户;根据对比学习模型,对所述原始特征数据中的时间类型特征数据进行特征编码,得到所述业务账户对应的高阶编码特征;根据自编码器模型,对所述原始特征数据中的统计类型特征数据和所述高阶编码特征进行特征提取,得到第一特征向量和第二特征向量,所述第一特征向量为待识别账户对应的特征向量,第二特征向量为标注账户对应的特征向量;根据所述第一特征向量和所述第二特征向量,对所述待识别账户进行识别,得到异常账户识别结果。
在一可实施方式中,所述根据对比学习模型,对所述原始特征数据中的时间类型特征数据进行特征编码,得到所述业务账户对应的高阶编码特征,包括:对所述时间类型特征数据进行特征变换,得到变换后时间类型特征数据;对每种所述时间类型特征数据,将所述时间类型特征数据与其对应的变换后时间类型特征数据作为正样本对,将所述时间类型特征数据与其他业务账户对应的时间类型特征数据作为负样本对;根据所述对比学习模型、所述正样本对和所述负样本对,构建每种所述时间类型特征数据对应的特征编码模型;根据所述特征编码模型和多任务损失函数,对所述时间类型特征数据进行特征编码,得到所述业务账户对应的高阶编码特征。
在一可实施方式中,所述对所述时间类型特征数据进行特征变换,得到变换后时间类型特征数据,包括:根据第一预设阈值,对所述时间类型特征数据中的特征值进行随机采样,得到待变换特征值;根据每种所述时间类型特征数据的特征值范围,对所述待变换特征值进行变换,得到所述变换后时间类型特征数据。
在一可实施方式中,根据如下公式计算所述多任务损失函数:
,其中,表示多任务损失函数,、、表示超参数,、、分别表示不同种类时间类型特征数据对应的特征编码模型的对比损失函数。
在一可实施方式中,所述对比学习模型的编码层包括门控循环单元GRU。
在一可实施方式中,所述根据自编码器模型,对所述原始特征数据中的统计类型特征数据和所述高阶编码特征进行特征提取,得到第一特征向量和第二特征向量,包括:根据所述自编码器模型和均方差损失函数,构建所述业务账户对应的特征提取模型;根据所述特征提取模型,对所述原始特征数据中的统计类型特征数据和所述高阶编码特征进行特征提取,得到所述第一特征向量和所述第二特征向量。
在一可实施方式中,所述根据所述第一特征向量和所述第二特征向量,对所述待识别账户进行识别,得到异常账户识别结果,包括:计算所述第一特征向量与所有所述第二特征向量的相似度,得到计算结果;统计大于第二预设阈值的计算结果的数量,得到统计结果;根据所述统计结果和所述标注账户的数量,计算所述第一特征向量对应的待识别账户与所有所述标注账户的整体相似度;所述整体相似度大于第三预设阈值,则将所述第一特征向量对应的待识别账户确定为异常账户。
根据本公开的第二方面,提供了一种异常账户识别装置,其特征在于,所述装置包括:获取模块,用于获取原始特征数据,所述原始特征数据包括业务账户对应的特征数据,所述业务账户包括待识别账户和标注账户;特征编码模块,用于根据对比学习模型,对所述原始特征数据中的时间类型特征数据进行特征编码,得到所述业务账户对应的高阶编码特征;特征提取模块,用于根据自编码器模型,对所述原始特征数据中的统计类型特征数据和所述高阶编码特征进行特征提取,得到第一特征向量和第二特征向量,所述第一特征向量为待识别账户对应的特征向量,第二特征向量为标注账户对应的特征向量;识别模块,用于根据所述第一特征向量和所述第二特征向量,对所述待识别账户进行识别,得到异常账户识别结果。
根据本公开的第三方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开所述的方法。
根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本公开所述的方法。
本公开的一种异常账户识别方法、装置、设备及存储介质,首先获取原始特征数据,原始特征数据包括业务账户对应的特征数据,业务账户包括待识别账户和标注账户,然后根据对比学习模型,对原始特征数据中的时间类型特征数据进行特征编码,得到业务账户对应的高阶编码特征,之后根据自编码器模型,对原始特征数据中的统计类型特征数据和所述高阶编码特征进行特征提取,得到待识别账户对应的第一特征向量和标注账户对应的第二特征向量,最后根据第一特征向量和第二特征向量,对待识别账户进行识别,得到异常账户识别结果。由此,通过对比学习模型,学习原始特征数据中的时间类型特征数据,得到业务账户对应的高阶编码特征,高阶编码特征可以更加准确的表征业务账户在时间维度上的特点,且根据自编码器模型,对原始特征数据中的统计类型特征数据和高阶编码特征进行特征提取,得到的第一特征向量和第二特征向量可以表征业务账户更本质的特点,从而提高异常账户识别结果的准确率,另外,本公开的方法可以自动进行异常账户识别,减少了人力和资源的消耗。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
通过参考附图阅读下文的详细描述,本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施方式,其中:
在附图中,相同或对应的标号表示相同或对应的部分。
图1示出了本公开第一实施例一种异常账户识别方法的流程示意图;
图2示出了本公开第二实施例一种异常账户识别方法的流程示意图;
图3示出了本公开第二实施例的第一特征编码模型的网络结构示意图;
图4示出了本公开第二实施例的第二特征编码模型的网络结构示意图;
图5示出了本公开第二实施例的第三特征编码模型的网络结构示意图;
图6示出了本公开第四实施例的特征提取模型的网络结构示意图;
图7示出了本公开第五实施例一种异常账户识别方法的流程示意图;
图8示出了本公开第六实施例一种异常账户识别装置的结构示意图;
图9示出了本公开实施例一种电子设备的组成结构示意图。
具体实施方式
为使本公开的目的、特征、优点能够更加的明显和易懂,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而非全部实施例。基于本公开中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
图1示出了本公开第一实施例一种异常账户识别方法的流程示意图,如图1所示,该方法主要包括:
步骤S101,获取原始特征数据。
在本实施例中,首先需要获取原始特征数据,原始特征数据包括业务账户对应的特征数据,业务账户包括待识别账户和标注账户。具体地,根据应用领域的不同,业务账户对应的特征数据可以不同,例如,在金融领域,业务账户对应的特征数据可以包括业务账户的统计特征、业务账户随时间变化的转账金额序列特征、业务账户随时间变化的转账标识序列特征、业务账户随时间变化的转账时间序列特征等,其中,业务账户的统计特征可以包括业务账户的转账总金额、转账总次数、出账总金额、出账总次数、入账总金额、入账总次数等;在普通消费领域,业务账户对应的特征数据可以包括业务账户的统计特征、业务账户随时间变化的购物金额序列特征、业务账户随时间变化的购物标识序列特征、业务账户随时间变化的购物时间序列特征等,其中,业务账户的统计特征可以包括业务账户的购物总金额、购物总次数、收货总金额、收货总次数、退货总金额、退货总次数等。在金融领域,标注账户可以为经常进行欺诈操作的黑产业务账户;在普通消费领域,标注账户可以为经常以不当理由退货的业务账户。需要强调的是,原始特征数据的来源领域并非仅限上述所举,可以更加丰富多样。
在一可实施方式中,以金融领域为例,业务账户随时间变化的转账金额序列特征为该业务账户按照时间先后排序的转账金额序列,其中,出账金额可以为负数,入账金额可以为正数,例如,一个业务账户随时间变化的转账金额序列特征可以为[100,-100,100,-100];业务账户随时间变化的转账标识序列特征为该业务账户按照时间先后排序的转账标识序列,其中,出账的标识可以为-1,入账的标识可以为1,例如,一个业务账户随时间变化的转账标识序列特征可以为[1,-1,1,-1];业务账户随时间变化的转账时间序列特征为该业务账户按照时间先后排序的转账时间序列,其中,转账时间可以精确到秒级,例如,一个业务账户随时间变化的转账时间序列特征可以为[20220929142001,20220929142003],20220929142001表示2022年09月29日14时20分01秒。需要强调的是,在本公开中,“业务账户随时间变化的转账金额序列特征”可以简写为“转账金额序列特征”,“业务账户随时间变化的转账标识序列特征”可以简写为“转账标识序列特征”,“业务账户随时间变化的转账时间序列特征”可以简写为“转账时间序列特征”。
在一可实施方式中,以普通消费领域为例,业务账户随时间变化的购物金额序列特征为该业务账户按照时间先后排序的购物金额序列,其中,收货金额可以为负数,退货金额可以为正数,例如,一个业务账户随时间变化的购物金额序列特征可以为[100,-100,100,-100];业务账户随时间变化的购物标识序列特征为该业务账户按照时间先后排序的购物标识序列,其中,收货的标识可以为-1,退货的标识可以为1,例如,一个业务账户随时间变化的购物标识序列特征可以为[1,-1,1,-1];业务账户随时间变化的购物时间序列特征为该业务账户按照时间先后排序的购物时间序列,其中,购物时间可以精确到秒级,例如,一个业务账户随时间变化的购物时间序列特征可以为[20220929142001,20220929142003],20220929142001表示2022年09月29日14时20分01秒。需要强调的是,在本公开中,“业务账户随时间变化的购物金额序列特征”可以简写为“购物金额序列特征”,“业务账户随时间变化的购物标识序列特征”可以简写为“购物标识序列特征”,“业务账户随时间变化的购物时间序列特征”可以简写为“购物时间序列特征”。
步骤S102,根据对比学习模型,对原始特征数据中的时间类型特征数据进行特征编码,得到业务账户对应的高阶编码特征。
在本实施例中,根据对比学习模型,对原始特征数据中的时间类型特征数据进行特征编码,从而得到业务账户对应的高阶编码特征,其中,时间类型特征数据为随时间变化的特征数据,以金融领域为例,时间类型特征数据包括转账金额序列特征、转账标识序列特征和转账时间序列特征等;以普通消费领域为例,时间类型特征数据包括购物金额序列特征、购物标识序列特征和购物时间序列特征等。
在一可实施方式中,由于每个业务账户进行业务活动的次数是不一样的,因此在对时间类型特征数据进行特征编码前,还需要对时间类型特征数据进行填充,使所有业务账户对应的时间类型特征数据的序列长度相等。具体地,确定所有业务账户中业务活动次数最大的业务账户,以该业务账户对应的业务活动次数作为最大序列长度,并对序列长度没有达到该最大序列长度的时间类型特征数据进行填充,即在时间类型特征数据对应的序列之后进行数字填充,使其达到最大序列长度,优选地,可以使用数字0对时间类型特征数据进行填充。
在一可实施方式中,以金融领域为例,若时间类型特征数据包括转账金额序列特征、转账标识序列特征和转账时间序列特征,则分别将转账金额序列特征、转账标识序列特征和转账时间序列特征输入至对比学习模型中进行特征编码,从而得到业务账户对应的高阶编码特征,其中,一个业务账户对应三个高阶编码特征,分别为转账金额序列高阶编码特征、转账标识序列高阶编码特征和转账时间序列高阶编码特征。
在一可实施方式中,以普通消费领域为例,若时间类型特征数据包括购物金额序列特征、购物标识序列特征和购物时间序列特征,则分别将购物金额序列特征、购物标识序列特征和购物时间序列特征输入至对比学习模型中进行特征编码,从而得到业务账户对应的高阶编码特征,其中,一个业务账户对应三个高阶编码特征,分别为购物金额序列高阶编码特征、购物标识序列高阶编码特征和购物时间序列高阶编码特征。
步骤S103,根据自编码器模型,对原始特征数据中的统计类型特征数据和高阶编码特征进行特征提取,得到第一特征向量和第二特征向量。
在本实施例中,获得业务账户对应的高阶编码特征之后,可以根据自编码器模型,对原始特征数据中的统计类型特征数据和高阶编码特征进行特征提取,得到第一特征向量和第二特征向量,其中,原始特征数据中的统计类型特征数据可以为业务账户的统计特征,以金融领域为例,统计类型特征数据可以包括业务账户的转账总金额、转账总次数、出账总金额、出账总次数、入账总金额、入账总次数等,以普通消费领域为例,统计类型特征数据可以包括业务账户的购物总金额、购物总次数、收货总金额、收货总次数、退货总金额、退货总次数等;第一特征向量为待识别账户对应的特征向量,第二特征向量为标注账户对应的特征向量。
在一可实施方式中,以金融领域为例,若业务账户对应的高阶编码特征分别为转账金额序列高阶编码特征、转账标识序列高阶编码特征和转账时间序列高阶编码特征,则将统计类型特征数据、转账金额序列高阶编码特征、转账标识序列高阶编码特征和转账时间序列高阶编码特征这四类特征一同输入至自编码器模型,提取这四类特征之间的交互信息,得到每个业务账户对应的特征向量,其中,将待识别账户对应的特征向量作为第一特征向量,将标注账户对应的特征向量作为第二特征向量。
在一可实施方式中,以普通消费领域为例,若业务账户对应的高阶编码特征分别为购物金额序列高阶编码特征、购物标识序列高阶编码特征和购物时间序列高阶编码特征,则将统计类型特征数据、购物金额序列高阶编码特征、购物标识序列高阶编码特征和购物时间序列高阶编码特征这四类特征一同输入至自编码器模型,提取这四类特征之间的交互信息,得到每个业务账户对应的特征向量,其中,将待识别账户对应的特征向量作为第一特征向量,将标注账户对应的特征向量作为第二特征向量。
步骤S104,根据第一特征向量和第二特征向量,对待识别账户进行识别,得到异常账户识别结果。
在本实施例中,可以根据第一特征向量和第二特征向量,对待识别账户进行识别,从而得到异常账户识别结果。具体地,第一特征向量表征待识别账户的特点,第二特征向量表征标注账户的特点,第一特征向量与第二特征向量之间的向量距离即可表征待识别账户与标注账户的相似度,若向量距离较近,证明待识别账户与标注账户的相似度高,则可将第一特征向量对应的待识别账户确定为异常账户,其中,可以根据欧氏距离公式、曼哈顿距离公式和余弦距离公式等计算第一特征向量与第二特征向量之间的向量距离。
在本公开第一实施例中,通过对比学习模型,学习原始特征数据中的时间类型特征数据,得到业务账户对应的高阶编码特征,高阶编码特征可以更加准确的表征业务账户在时间维度上的特点,且根据自编码器模型,对原始特征数据中的统计类型特征数据和高阶编码特征进行特征提取,得到的第一特征向量和第二特征向量可以表征业务账户更全面、更本质的特点,从而提高异常账户识别结果的准确率,另外,本公开的方法可以自动进行异常账户识别,减少了人力和资源的消耗。
图2示出了本公开第二实施例一种异常账户识别方法的流程示意图,如图2所示,步骤S102主要包括:
步骤S201,对时间类型特征数据进行特征变换,得到变换后时间类型特征数据。
步骤S202,对每种时间类型特征数据,将时间类型特征数据与其对应的变换后时间类型特征数据作为正样本对,将时间类型特征数据与其他业务账户对应的时间类型特征数据作为负样本对。
在本实施例中,首先需要对时间类型特征数据进行特征变换,得到变换后时间类型特征,并对于每种时间类型特征数据,将时间类型特征数据与其对应的变换后时间类型特征数据作为正样本对,将时间类型特征数据与其他业务账户对应的时间类型特征数据作为负样本对。以金融领域为例,若时间类型特征数据共三种,分别为转账金额序列特征、转账标识序列特征和转账时间序列特征,首先对所有时间类型特征数据进行特征变换,得到变换后时间类型特征,然后对于转账金额序列特征,将业务账户对应的转账金额序列特征与其对应的变换后转账金额序列特征作为正样本对,将业务账户对应的转账金额序列特征与其他业务账户对应的转账金额序列特征作为负样本对;转账标识序列特征和转账时间序列特征生成正样本对和负样本对的方式与转账金额序列特征类似,此处不再赘述。
在一可实施方式中,对时间类型特征数据进行特征变换时,可以根据每种时间类型特征数据的取值特点,对时间类型特征数据中的特征值进行替换,从而得到变换后时间类型特征数据。以金融领域中的转账金额序列特征为例,根据转账金额的取值特点,随机确定一个取值范围,例如(0,5000),则从0至5000中随机选取数值,对转账金额序列特征中的特征值进行替换,例如,若一个业务账户对应的转账金额序列特征为[100,-100,100,-100],则可将其变换为[200,-50,3000,-5000];转账标识序列特征和转账时间序列特征进行特征变换的方式与转账金额序列特征类似,此处不再赘述。
需要强调的是,以普通消费领域为例,若时间类型特征数据共三种,分别为购物金额序列特征、购物标识序列特征和购物时间序列特征,则其进行特征变换以及生成正样本对和负样本对的方式与金融领域类似,此处不再赘述。
步骤S203,根据对比学习模型、正样本对和负样本对,构建每种时间类型特征数据对应的特征编码模型。
步骤S204,根据特征编码模型和多任务损失函数,对时间类型特征数据进行特征编码,得到业务账户对应的高阶编码特征。
在本实施例中,可以分别将每种时间类型特征数据对应的正样本对和负样本对输入至对比学习模型中,构建每种时间类型特征数据对应的特征编码模型,然后根据特征编码模型和多任务损失函数,对时间类型特征数据进行特征编码,从而得到业务账户对应的高阶编码特征。
以金融领域为例,若时间类型特征数据共三种,分别为转账金额序列特征、转账标识序列特征和转账时间序列特征,则最终构建三种特征编码模型,分别为转账金额序列特征对应的第一特征编码模型、转账标识序列特征对应的第二特征编码模型和转账时间序列特征对应的第三特征编码模型。以普通消费领域为例,若时间类型特征数据共三种,分别为购物金额序列特征、购物标识序列特征和购物时间序列特征,则最终构建三种特征编码模型,分别为购物金额序列特征对应的第四特征编码模型、购物标识序列特征对应的第五特征编码模型和购物时间序列特征对应的第六特征编码模型。
图3示出了本公开第二实施例的第一特征编码模型的网络结构示意图,如图3所示,其中,转账金额序列特征1为业务账户1对应的转账金额序列特征,转账金额序列特征2为业务账户2对应的转账金额序列特征,变换后转账金额序列特征1由转账金额序列特征1进行特征变换得到,转账金额序列特征1和变换后转账金额序列特征1组成正样本对,转账金额序列特征1和转账金额序列特征2组成负样本对,将正样本对和负样本对输入至对比学习模型,对比学习模型的编码层可以学习到转账金额序列特征1、转账金额序列特征2和变换后转账金额序列特征1的高阶编码特征,正样本对对应的高阶编码特征组成正样本对向量,负样本对对应的高阶编码特征组成负样本对向量,并根据对比损失函数1,对高阶编码特征进行迭代,使得正样本对向量之间的距离更近,使负样本对向量之间的距离更远,迭代结束后即可得到业务账户1对应的转账金额序列高阶编码特征1,以及业务账户2对应的转账金额序列高阶编码特征2。需要强调的是,变换后转账金额序列高阶编码特征1并非业务账户1对应的高阶编码特征,因此,迭代结束后,可以无需对其进行获取。
图4示出了本公开第二实施例的第二特征编码模型的网络结构示意图,如图4所示,其中,转账标识序列特征1为业务账户1对应的转账标识序列特征,转账标识序列特征2为业务账户2对应的转账标识序列特征,变换后转账标识序列特征1由转账标识序列特征1进行特征变换得到,转账标识序列特征1和变换后转账标识序列特征1组成正样本对,转账标识序列特征1和转账标识序列特征2组成负样本对,将正样本对和负样本对输入至对比学习模型,对比学习模型的编码层可以学习到转账标识序列特征1、转账标识序列特征2和变换后转账标识序列特征1的高阶编码特征,正样本对对应的高阶编码特征组成正样本对向量,负样本对对应的高阶编码特征组成负样本对向量,并根据对比损失函数2,对高阶编码特征进行迭代,使得正样本对向量之间的距离更近,使负样本对向量之间的距离更远,迭代结束后即可得到业务账户1对应的转账标识序列高阶编码特征1,以及业务账户2对应的转账标识序列高阶编码特征2。需要强调的是,变换后转账标识序列高阶编码特征1并非业务账户1对应的高阶编码特征,因此,迭代结束后,可以无需对其进行获取。
图5示出了本公开第二实施例的第三特征编码模型的网络结构示意图,如图5所示,其中,转账时间序列特征1为业务账户1对应的转账时间序列特征,转账时间序列特征2为业务账户2对应的转账时间序列特征,变换后转账时间序列特征1由转账时间序列特征1进行特征变换得到,转账时间序列特征1和变换后转账时间序列特征1组成正样本对,转账时间序列特征1和转账时间序列特征2组成负样本对,将正样本对和负样本对输入至对比学习模型,对比学习模型的编码层可以学习到转账时间序列特征1、转账时间序列特征2和变换后转账时间序列特征1的高阶编码特征,正样本对对应的高阶编码特征组成正样本对向量,负样本对对应的高阶编码特征组成负样本对向量,并根据对比损失函数3,对高阶编码特征进行迭代,使得正样本对向量之间的距离更近,使负样本对向量之间的距离更远,迭代结束后即可得到业务账户1对应的转账时间序列高阶编码特征1,以及业务账户2对应的转账时间序列高阶编码特征2。需要强调的是,变换后转账时间序列高阶编码特征1并非业务账户1对应的高阶编码特征,因此,迭代结束后,可以无需对其进行获取。
需要强调的是,普通消费领域中购物金额序列特征对应的第四特征编码模型与图3所示的金融领域中转账金额序列特征对应的第一特征编码模型类似,可以将第一特征编码模型中的转账金额序列特征替换为购物金额序列特征,从而最终得到每个业务账户对应的购物金额序列高阶编码特征;普通消费领域中购物标识序列特征对应的第五特征编码模型与图4所示的金融领域中转账标识序列特征对应的第二特征编码模型类似,可以将第二特征编码模型中的转账标识序列特征替换为购物标识序列特征,从而最终得到每个业务账户对应的购物标识序列高阶编码特征;普通消费领域中购物时间序列特征对应的第六特征编码模型与图5所示的金融领域中转账时间序列特征对应的第三特征编码模型类似,可以将第三特征编码模型中的转账时间序列特征替换为购物时间序列特征,从而最终得到每个业务账户对应的购物时间序列高阶编码特征。
在本实施例中,可以根据不同种类时间类型特征数据对应的特征编码模型的对比损失函数对高阶编码特征进行迭代,也可以根据多任务损失函数对高阶编码特征进行迭代,多任务损失函数将不同种类时间类型特征数据对应的特征编码模型进行联立,可以增加高阶编码特征的鲁棒性。
在一可实施方式中,可以根据如下公式计算多任务损失函数:
,
其中,表示多任务损失函数,、、表示超参数,、、分别表示不同种类时间类型特征数据对应的特征编码模型的对比损失函数。具体地,以图3至图5为例,可以为对比损失函数1,可以为对比损失函数2,可以为对比损失函数3。
在一可实施方式中,对比学习模型的编码层可以为残差网络(ResNet,ResidualNeural Network)、门控循环单元(GRU,Residual Neural Network)等,优选地,对比学习模型的编码层可以包括GRU,GRU能够更好地学习时间类型特征数据随着时间变化的趋势特点。
在本公开第二实施例中,通过对比学习的思想对时间类型特征数据进行特征编码,其中对比学习模型的编码层可以为GRU,因此,学习到的高阶编码特征可以更加准确的表征业务账户在时间维度上的特点,并且采用多任务损失函数进行网络训练,多任务损失函数将不同种类时间类型特征数据对应的特征编码模型进行联立,使多种时间类型特征数据相辅相成,互相影响,可以增加高阶编码特征的鲁棒性。
在本公开第三实施例中,步骤S201主要包括:
根据第一预设阈值,对时间类型特征数据中的特征值进行随机采样,得到待变换特征值;根据每种时间类型特征数据的特征值范围,对待变换特征值进行变换,得到变换后时间类型特征数据。
在本实施例中,在对时间类型特征数据进行特征变换时,可以先根据第一预设阈值,对时间类型特征数据中的特征值进行随机采样,得到待变换特征值,然后根据时间类型特征数据的特征值范围,对待变换特征值进行变换,得到变换后时间类型特征数据,其中,第一预设阈值可以根据实际情况自行设定,例如第一预设阈值可以为80%,即从时间类型特征数据对应的特征序列中选取80%的特征值,从而得到待变换特征值;时间类型特征数据的特征值范围为每种时间类型特征数据中特征值的取值范围。
在一可实施方式中,以金融领域为例,若时间类型特征数据共三种,分别为转账金额序列特征、转账标识序列特征和转账时间序列特征,第一预设阈值为80%,则对于转账金额序列特征,可以从每个业务账户的转账金额序列特征中随机选定80%的特征值作为待变换特征值,然后以所有转账金额序列特征中的最大转账金额和最小转账金额作为特征值范围,从最大转账金额和最小转账金额之间随机选取一个数值替换转账金额序列特征中的待变换特征值,从而得到变换后转账金额序列特征,例如,若特征值范围为(0,5000),且一个业务账户对应的转账金额序列特征为[100,-200,300,-400,500],则从中随机选定80%的特征值如[100,-200,300,-400],并从0至5000中随机选取一个数值代替待变换特征值,从而得到变换后转账金额序列特征[10,-2000,301,-4000,500]。需要强调的是,转账标识序列特征和转账时间序列特征进行特征变换的方式与转账金额序列特征类似,此处不再赘述;普通消费领域中时间类型特征数据进行特征变换的方式与金融领域中时间类型特征数据进行特征变换的方式类似,此处不再赘述。
在本公开第四实施例中,步骤S103主要包括:
根据自编码器模型和均方差损失函数,构建业务账户对应的特征提取模型;根据特征提取模型,对原始特征数据中的统计类型特征数据和高阶编码特征进行特征提取,得到第一特征向量和第二特征向量。
在本实施例中,学习到业务账户对应的高阶编码特征之后,还可以将原始特征数据中的统计类型特征数据和高阶编码特征一同输入至自编码器模型中,从而构建业务账户对应的特征提取模型,并根据特征提取模型,对原始特征数据中的统计类型特征数据和高阶编码特征进行特征提取,得到待识别账户对应的第一特征向量和标注账户对应的第二特征向量。
图6示出了本公开第四实施例的特征提取模型的网络结构示意图,如图6所示,以金融领域为例,若时间类型特征数据共三种,分别为转账金额序列特征、转账标识序列特征和转账时间序列特征,则每个业务账户对应的高阶编码特征包括转账金额序列高阶编码特征、转账标识序列高阶编码特征和转账时间序列高阶编码特征,将业务账户对应的统计类型特征数据、转账金额序列高阶编码特征、转账标识序列高阶编码特征和转账时间序列高阶编码特征一同输入至自编码器模型,从而得到业务账户对应的特征提取模型,其中,MSELoss为均方差损失函数,Linear为特征提取模型的线性输出层,PRelu1、PRelu2和PRelu3分别为激活函数,PRelu1、PRelu2和PRelu3可以相同也可以不同,PRelu2的输出即为业务账户对应的特征向量,将待识别账户对应的特征向量作为第一特征向量,将标注账户对应的特征向量作为第二特征向量。
需要强调的是,普通消费领域中业务账户对应的特征提取模型与图6类似,可以将图6中的转账金额序列高阶编码特征、转账标识序列高阶编码特征和转账时间序列高阶编码特征替换为购物金额序列高阶编码特征、购物标识序列高阶编码特征和购物时间序列高阶编码特征,从而得到业务账户对应的特征提取模型,并最终输出业务账户对应的特征向量,将待识别账户对应的特征向量作为第一特征向量,将标注账户对应的特征向量作为第二特征向量。
在一可实施方式中,可以根据如下公式计算均方差损失函数:,其中,表示特征提取模型的输入,以金融领域为例,即业务账户对应的统计类型特征数据、转账金额序列高阶编码特征、转账标识序列高阶编码特征和转账时间序列高阶编码特征;以普通消费领域为例,即业务账户对应的统计类型特征数据、购物金额序列高阶编码特征、购物标识序列高阶编码特征和购物时间序列高阶编码特征,表示特征提取模型中线性输出层Linear的输出,根据均方差损失函数,可以使特征提取模型的输入和输出之间的距离更小,从而得到更加准确的特征向量。
在本公开第四实施例中,根据自编码器模型对原始特征数据中的统计类型特征数据和高阶编码特征进行特征提取,可以在对比学习模型的基础上学习到业务账户更加本质的特点,且对比学习模型和自编码器模型的结合可以使得最终得到的特征向量更具有鲁棒性,并可以从各个维度表征业务账户的特点,进一步提高异常账户识别结果的准确率,另外,根据对比学习模型得到的业务账户的高阶编码特征的特征维度较高,自编码器模型还可以对高阶编码特征进行降维,从而去除噪声数据并防止过拟合。
图7示出了本公开第五实施例一种异常账户识别方法的流程示意图,如图7所示,步骤S104主要包括:
步骤S301,计算第一特征向量与所有第二特征向量的相似度,得到计算结果。
步骤S302,统计大于第二预设阈值的计算结果的数量,得到统计结果。
步骤S303,根据统计结果和标注账户的数量,计算第一特征向量对应的待识别账户与所有标注账户的整体相似度。
步骤S304,整体相似度大于第三预设阈值,则将第一特征向量对应的待识别账户确定为异常账户。
在本实施例中,得到待识别账户对应的第一特征向量和标注账户对应的第二特征向量后,对于每个待识别账户对应的第一特征向量,可以计算该第一特征向量与所有第二特征向量的相似度,得到计算结果,然后统计计算结果中大于第二预设阈值的计算结果的数量,得到统计结果,并根据统计结果和标注账户的数量,计算第一特征向量对应的待识别账户与所有标注账户的整体相似度,如果整体相似度大于第三预设阈值,则将第一特征向量对应的待识别账户确定为异常账户,其中,第二预设阈值和第三预设阈值可以根据实际情况进行设定,本公开不对其进行限定。需要强调的是,以金融领域为例,若标注账户为经常进行欺诈操作的黑产业务账户,则最终识别出的异常账户也可作为经常进行欺诈操作的黑产业务账户;以普通消费领域为例,若标注账户为经常以不当理由退货的业务账户,则最终识别出的异常账户也可作为经常以不当理由退货的业务账户。
在一可实施方式中,可以根据余弦相似度公式、基于欧氏距离的相似度计算公式等计算第一特征向量与所有第二特征向量的相似度;可以根据以下公式计算整体相似度:,其中,为整体相似度,为统计结果,为标注账户的数量。
在本公开第五实施例中,根据第一特征向量和第二特征向量,计算第一特征向量对应的待识别账户与所有标注账户的整体相似度,并在整体相似度大于第三预设阈值时,将第一特征向量对应的待识别账户确定为异常账户,其中,整体相似度能够更加全面的表征待识别账户与所有标注账户的相似度,从而进一步保证异常账户识别结果的准确性。
图8示出了本公开第六实施例一种异常账户识别装置的结构示意图,如图8所示,该装置主要包括:
获取模块10,用于获取原始特征数据,原始特征数据包括业务账户对应的特征数据,业务账户包括待识别账户和标注账户;特征编码模块11,用于根据对比学习模型,对原始特征数据中的时间类型特征数据进行特征编码,得到业务账户对应的高阶编码特征;特征提取模块12,用于根据自编码器模型,对原始特征数据中的统计类型特征数据和高阶编码特征进行特征提取,得到第一特征向量和第二特征向量,第一特征向量为待识别账户对应的特征向量,第二特征向量为标注账户对应的特征向量;识别模块13,用于根据第一特征向量和第二特征向量,对待识别账户进行识别,得到异常账户识别结果。
在一可实施方式中,特征编码模块11主要包括:特征变换子模块,用于对时间类型特征数据进行特征变换,得到变换后时间类型特征数据,并对每种时间类型特征数据,将时间类型特征数据与其对应的变换后时间类型特征数据作为正样本对,将时间类型特征数据与其他业务账户对应的时间类型特征数据作为负样本对;第一构建子模块,用于根据对比学习模型、正样本对和负样本对,构建每种时间类型特征数据对应的特征编码模型;特征编码子模块,用于根据特征编码模型和多任务损失函数,对时间类型特征数据进行特征编码,得到业务账户对应的高阶编码特征。
在一可实施方式中,特征变换子模块包括:采样单元,用于根据第一预设阈值,对时间类型特征数据中的特征值进行随机采样,得到待变换特征值;变换单元,用于根据每种时间类型特征数据的特征值范围,对待变换特征值进行变换,得到变换后时间类型特征数据。
在一可实施方式中,可以根据如下公式计算多任务损失函数:
,
其中,表示多任务损失函数,、、表示超参数,、、分别表示不同种类时间类型特征数据对应的特征编码模型的对比损失函数。
在一可实施方式中,对比学习模型的编码层包括门控循环单元GRU。
在一可实施方式中,特征提取模块12主要包括:第二构建子模块,用于根据自编码器模型和均方差损失函数,构建业务账户对应的特征提取模型;特征提取子模块,用于根据特征提取模型,对原始特征数据中的统计类型特征数据和高阶编码特征进行特征提取,得到第一特征向量和第二特征向量。
在一可实施方式中,识别模块13主要包括:第一计算子模块,用于计算第一特征向量与所有第二特征向量的相似度,得到计算结果;统计子模块,用于统计大于第二预设阈值的计算结果的数量,得到统计结果;第二计算子模块,用于根据统计结果和标注账户的数量,计算第一特征向量对应的待识别账户与所有标注账户的整体相似度;识别子模块,用于整体相似度大于第三预设阈值,则将第一特征向量对应的待识别账户确定为异常账户。
根据本公开的实施例,本公开还提供了一种电子设备和一种可读存储介质。
图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图9所示,设备900包括计算单元901,其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序,来执行各种适当的动作和处理。在RAM 903中,还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。
设备900中的多个部件连接至I/O接口905,包括:输入单元906,例如键盘、鼠标等;输出单元907,例如各种类型的显示器、扬声器等;存储单元908,例如磁盘、光盘等;以及通信单元909,例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理,例如一种异常账户识别方法。例如,在一些实施例中,一种异常账户识别方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元908。在一些实施例中,计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时,可以执行上文描述的一种异常账户识别方法的一个或多个步骤。备选地,在其他实施例中,计算单元901可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行一种异常账户识别方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本公开的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
以上所述,仅为本公开的具体实施方式,但本公开的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种异常账户识别方法,其特征在于,所述方法包括:
获取原始特征数据,所述原始特征数据包括业务账户对应的特征数据,所述业务账户包括待识别账户和标注账户;
根据对比学习模型,对所述原始特征数据中的时间类型特征数据进行特征编码,得到所述业务账户对应的高阶编码特征;
根据自编码器模型,对所述原始特征数据中的统计类型特征数据和所述高阶编码特征进行特征提取,得到第一特征向量和第二特征向量,所述第一特征向量为待识别账户对应的特征向量,第二特征向量为标注账户对应的特征向量;
根据所述第一特征向量和所述第二特征向量,对所述待识别账户进行识别,得到异常账户识别结果。
2.根据权利要求1所述的方法,其特征在于,所述根据对比学习模型,对所述原始特征数据中的时间类型特征数据进行特征编码,得到所述业务账户对应的高阶编码特征,包括:
对所述时间类型特征数据进行特征变换,得到变换后时间类型特征数据;
对每种所述时间类型特征数据,将所述时间类型特征数据与其对应的变换后时间类型特征数据作为正样本对,将所述时间类型特征数据与其他业务账户对应的时间类型特征数据作为负样本对;
根据所述对比学习模型、所述正样本对和所述负样本对,构建每种所述时间类型特征数据对应的特征编码模型;
根据所述特征编码模型和多任务损失函数,对所述时间类型特征数据进行特征编码,得到所述业务账户对应的高阶编码特征。
3.根据权利要求2所述的方法,其特征在于,所述对所述时间类型特征数据进行特征变换,得到变换后时间类型特征数据,包括:
根据第一预设阈值,对所述时间类型特征数据中的特征值进行随机采样,得到待变换特征值;
根据每种所述时间类型特征数据的特征值范围,对所述待变换特征值进行变换,得到所述变换后时间类型特征数据。
4.根据权利要求2所述的方法,其特征在于,根据如下公式计算所述多任务损失函数:
,
其中,表示多任务损失函数,、、表示超参数,、、分别表示不同种类时间类型特征数据对应的特征编码模型的对比损失函数。
5.根据权利要求2所述的方法,其特征在于,所述对比学习模型的编码层包括门控循环单元GRU。
6.根据权利要求1所述的方法,其特征在于,所述根据自编码器模型,对所述原始特征数据中的统计类型特征数据和所述高阶编码特征进行特征提取,得到第一特征向量和第二特征向量,包括:
根据所述自编码器模型和均方差损失函数,构建所述业务账户对应的特征提取模型;
根据所述特征提取模型,对所述原始特征数据中的统计类型特征数据和所述高阶编码特征进行特征提取,得到所述第一特征向量和所述第二特征向量。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述根据所述第一特征向量和所述第二特征向量,对所述待识别账户进行识别,得到异常账户识别结果,包括:
计算所述第一特征向量与所有所述第二特征向量的相似度,得到计算结果;
统计大于第二预设阈值的计算结果的数量,得到统计结果;
根据所述统计结果和所述标注账户的数量,计算所述第一特征向量对应的待识别账户与所有所述标注账户的整体相似度;
所述整体相似度大于第三预设阈值,则将所述第一特征向量对应的待识别账户确定为异常账户。
8.一种异常账户识别装置,其特征在于,所述装置包括:
获取模块,用于获取原始特征数据,所述原始特征数据包括业务账户对应的特征数据,所述业务账户包括待识别账户和标注账户;
特征编码模块,用于根据对比学习模型,对所述原始特征数据中的时间类型特征数据进行特征编码,得到所述业务账户对应的高阶编码特征;
特征提取模块,用于根据自编码器模型,对所述原始特征数据中的统计类型特征数据和所述高阶编码特征进行特征提取,得到第一特征向量和第二特征向量,所述第一特征向量为待识别账户对应的特征向量,第二特征向量为标注账户对应的特征向量;
识别模块,用于根据所述第一特征向量和所述第二特征向量,对所述待识别账户进行识别,得到异常账户识别结果。
9.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。
10.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使计算机执行根据权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310248273.7A CN115982664B (zh) | 2023-03-09 | 2023-03-09 | 一种异常账户识别方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310248273.7A CN115982664B (zh) | 2023-03-09 | 2023-03-09 | 一种异常账户识别方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115982664A true CN115982664A (zh) | 2023-04-18 |
CN115982664B CN115982664B (zh) | 2023-08-04 |
Family
ID=85976459
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310248273.7A Active CN115982664B (zh) | 2023-03-09 | 2023-03-09 | 一种异常账户识别方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115982664B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116204843A (zh) * | 2023-04-24 | 2023-06-02 | 北京芯盾时代科技有限公司 | 一种异常账户的检测方法、装置、电子设备及存储介质 |
CN117668581A (zh) * | 2023-12-13 | 2024-03-08 | 北京知其安科技有限公司 | 一种多源数据的实体识别方法、装置及电子设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160119364A1 (en) * | 2014-10-28 | 2016-04-28 | Facebook, Inc. | Systems and methods for dynamically selecting model thresholds for identifying illegitimate accounts |
US20190295087A1 (en) * | 2018-03-23 | 2019-09-26 | Microsoft Technology Licensing, Llc | System and method for detecting fraud in online transactions by tracking online account usage characteristics indicative of user behavior over time |
CN112488163A (zh) * | 2020-11-17 | 2021-03-12 | 中国平安财产保险股份有限公司 | 一种异常账号的识别方法、装置、计算机设备及存储介质 |
CN113902037A (zh) * | 2021-11-08 | 2022-01-07 | 中国联合网络通信集团有限公司 | 非正常银行账户识别方法、系统、电子设备及存储介质 |
KR20220007470A (ko) * | 2020-07-10 | 2022-01-18 | 박수환 | 위치정보 분석 및 머신러닝 기법을 활용한 모바일 이상거래 탐지 장치 및 그 동작 방법 |
CN114548241A (zh) * | 2022-01-29 | 2022-05-27 | 北京三快在线科技有限公司 | 被盗账户检测方法、装置、电子设备 |
CN114637850A (zh) * | 2022-03-23 | 2022-06-17 | 上海携程小额贷款有限责任公司 | 异常行为识别及模型训练方法、装置、设备及存储介质 |
CN114862587A (zh) * | 2022-05-27 | 2022-08-05 | 中国工商银行股份有限公司 | 异常交易账户的识别方法、装置及计算机可读存储介质 |
-
2023
- 2023-03-09 CN CN202310248273.7A patent/CN115982664B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160119364A1 (en) * | 2014-10-28 | 2016-04-28 | Facebook, Inc. | Systems and methods for dynamically selecting model thresholds for identifying illegitimate accounts |
US20190295087A1 (en) * | 2018-03-23 | 2019-09-26 | Microsoft Technology Licensing, Llc | System and method for detecting fraud in online transactions by tracking online account usage characteristics indicative of user behavior over time |
KR20220007470A (ko) * | 2020-07-10 | 2022-01-18 | 박수환 | 위치정보 분석 및 머신러닝 기법을 활용한 모바일 이상거래 탐지 장치 및 그 동작 방법 |
CN112488163A (zh) * | 2020-11-17 | 2021-03-12 | 中国平安财产保险股份有限公司 | 一种异常账号的识别方法、装置、计算机设备及存储介质 |
CN113902037A (zh) * | 2021-11-08 | 2022-01-07 | 中国联合网络通信集团有限公司 | 非正常银行账户识别方法、系统、电子设备及存储介质 |
CN114548241A (zh) * | 2022-01-29 | 2022-05-27 | 北京三快在线科技有限公司 | 被盗账户检测方法、装置、电子设备 |
CN114637850A (zh) * | 2022-03-23 | 2022-06-17 | 上海携程小额贷款有限责任公司 | 异常行为识别及模型训练方法、装置、设备及存储介质 |
CN114862587A (zh) * | 2022-05-27 | 2022-08-05 | 中国工商银行股份有限公司 | 异常交易账户的识别方法、装置及计算机可读存储介质 |
Non-Patent Citations (3)
Title |
---|
仲丽君;杨文忠;袁婷婷;向进勇;: "社交网络异常用户识别技术综述", 计算机工程与应用, no. 16 * |
宋晨;王远;王利明;: "受控账户检测技术研究", 计算机系统应用, no. 11 * |
邓森林;陈卫东;: "基于一类支持向量机的财务数据异常模式识别", 信息工程大学学报, no. 02 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116204843A (zh) * | 2023-04-24 | 2023-06-02 | 北京芯盾时代科技有限公司 | 一种异常账户的检测方法、装置、电子设备及存储介质 |
CN117668581A (zh) * | 2023-12-13 | 2024-03-08 | 北京知其安科技有限公司 | 一种多源数据的实体识别方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN115982664B (zh) | 2023-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3648023A1 (en) | Risk identification model building method, apparatus and device and risk identification method, apparatus and device | |
CN115982664A (zh) | 一种异常账户识别方法、装置、设备及存储介质 | |
CN113837260A (zh) | 模型训练方法、对象匹配方法、装置及电子设备 | |
CN116402615A (zh) | 一种账户类型的识别方法、装置、电子设备及存储介质 | |
CN114936323B (zh) | 图表示模型的训练方法、装置及电子设备 | |
CN114049072B (zh) | 指标确定方法、装置、电子设备和计算机可读介质 | |
CN113761379B (zh) | 商品推荐方法及装置、电子设备和介质 | |
CN114828013A (zh) | 诈骗号码识别及其模型训练方法、相关设备及存储介质 | |
CN111401959B (zh) | 风险群体的预测方法、装置、计算机设备及存储介质 | |
CN116578925B (zh) | 基于特征画像的行为预测方法、装置及存储介质 | |
CN118094444A (zh) | 异常账户检测模型训练方法、装置、电子设备及存储介质 | |
CN114741433B (zh) | 一种社群挖掘方法、装置、设备及存储介质 | |
CN115601042A (zh) | 信息识别方法、装置、电子设备及存储介质 | |
CN116757476A (zh) | 一种风险预测模型的构建、风险防控方法和装置 | |
CN114021642A (zh) | 数据处理方法、装置、电子设备和存储介质 | |
CN113807391A (zh) | 任务模型的训练方法、装置、电子设备及存储介质 | |
CN117522614B (zh) | 一种数据的处理方法、装置、电子设备及存储介质 | |
CN112214387B (zh) | 基于知识图谱的用户操作行为预测方法及装置 | |
CN117273241B (zh) | 一种处理数据的方法和装置 | |
CN114428887A (zh) | 点击数据去噪方法、装置、电子设备及存储介质 | |
CN117522416A (zh) | 一种交易账号的识别方法及装置 | |
CN116823023A (zh) | 数据的离线计算方法、装置、设备以及存储介质 | |
CN117236995A (zh) | 付费率预估方法、装置、设备及存储介质 | |
CN115455260A (zh) | 数据生成方法、装置及电子设备 | |
CN118133168A (zh) | 数据处理方法和装置、电子设备、计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |