CN115271712A - 资源转移数据方法、装置、计算机设备和存储介质 - Google Patents
资源转移数据方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN115271712A CN115271712A CN202110476992.5A CN202110476992A CN115271712A CN 115271712 A CN115271712 A CN 115271712A CN 202110476992 A CN202110476992 A CN 202110476992A CN 115271712 A CN115271712 A CN 115271712A
- Authority
- CN
- China
- Prior art keywords
- resource transfer
- feature
- characteristic
- target
- target resource
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012546 transfer Methods 0.000 title claims abstract description 903
- 238000000034 method Methods 0.000 title claims abstract description 74
- 238000001514 detection method Methods 0.000 claims abstract description 470
- 230000002159 abnormal effect Effects 0.000 claims abstract description 165
- 238000012545 processing Methods 0.000 claims abstract description 18
- 230000005856 abnormality Effects 0.000 claims description 202
- 238000000638 solvent extraction Methods 0.000 claims description 23
- 238000004590 computer program Methods 0.000 claims description 17
- 238000005192 partition Methods 0.000 claims description 5
- 238000003672 processing method Methods 0.000 abstract description 15
- 230000000875 corresponding effect Effects 0.000 description 226
- 230000008569 process Effects 0.000 description 25
- 238000005516 engineering process Methods 0.000 description 19
- 238000010586 diagram Methods 0.000 description 15
- 238000013473 artificial intelligence Methods 0.000 description 13
- 230000005540 biological transmission Effects 0.000 description 13
- 230000006870 function Effects 0.000 description 11
- 238000010801 machine learning Methods 0.000 description 8
- 230000011218 segmentation Effects 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 3
- 238000005295 random walk Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000002547 anomalous effect Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000003064 k means clustering Methods 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q20/00—Payment architectures, schemes or protocols
- G06Q20/38—Payment protocols; Details thereof
- G06Q20/382—Payment protocols; Details thereof insuring higher security of transaction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q20/00—Payment architectures, schemes or protocols
- G06Q20/38—Payment protocols; Details thereof
- G06Q20/40—Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
- G06Q20/401—Transaction verification
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Computer Security & Cryptography (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Debugging And Monitoring (AREA)
Abstract
本申请涉及一种资源转移数据处理方法、装置、计算机设备和存储介质。所述方法包括:获取目标特征维度集合;获取待识别的目标资源转移记录集合,所述目标资源转移记录集合包括多个目标资源转移记录,获取各个目标资源转移记录在所述目标特征维度上的目标资源转移特征,组成所述目标资源转移记录对应的目标资源转移特征集合;确定异常检测模型集合,所述异常检测模型集合中包括多个不同的异常检测模型;通过异常检测模型对所述目标资源转移特征集合进行异常检测,得到所述异常检测模型对目标资源转移记录的模型检测结果;对目标资源转移记录的模型检测结果进行统计,得到所述目标资源转移记录的异常检测结果。采用本方法能够提高异常识别的准确性。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种资源转移数据方法、装置、计算机设备和存储介质。
背景技术
随着计算机技术的发展,出现了通过计算机来进行异常检测的技术。该技术中,可以通过计算机设备对输入的特征进行识别,进而得到对应的模型检测结果。
传统技术中,通常是由专家基于历史的异常资源转移记录总结出一些规则,然后计算机设备可以基于这些规则对对未知资源转移记录进行识别以判断是否为异常资源转移记录,这种方式由于受限于专家经验,识别准确性较低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高对异常资源转移记录识别的准确性的资源转移数据处理方法、装置、计算机设备和存储介质。
一种资源转移数据处理方法,所述方法包括:获取目标特征维度集合;所述目标特征维度集合是根据候选特征维度的维度异常度从候选特征维度集合中选取得到的;所述维度异常度是根据所述候选特征维度的第一资源转移特征在对应的历史特征集合中的特征分布确定的;获取待识别的目标资源转移记录集合,所述目标资源转移记录集合包括多个目标资源转移记录,获取各个所述目标资源转移记录在所述目标特征维度上的目标资源转移特征,组成所述目标资源转移记录对应的目标资源转移特征集合;确定异常检测模型集合,所述异常检测模型集合中包括多个不同的异常检测模型;通过所述异常检测模型对所述目标资源转移特征集合进行异常检测,得到所述异常检测模型对所述目标资源转移记录的模型检测结果;其中,至少一个异常检测模型是基于所述目标资源转移特征在所在特征维度对应的目标特征集合中的分布结果得到所述模型检测结果的;对所述目标资源转移记录的模型检测结果进行统计,得到所述目标资源转移记录的异常检测结果。
一种资源转移数据处理装置,所述装置包括:目标特征维度获取模块,用于获取目标特征维度集合;所述目标特征维度集合是根据候选特征维度的维度异常度从候选特征维度集合中选取得到的;所述维度异常度是根据所述候选特征维度的第一资源转移特征在对应的历史特征集合中的特征分布确定的;资源转移特征选择模块,用于获取待识别的目标资源转移记录集合,所述目标资源转移记录集合包括多个目标资源转移记录,获取各个所述目标资源转移记录在所述目标特征维度上的目标资源转移特征,组成所述目标资源转移记录对应的目标资源转移特征集合;检测模型确定模块,用于确定异常检测模型集合,所述异常检测模型集合中包括多个不同的异常检测模型;异常检测模块,用于通过所述异常检测模型对所述目标资源转移特征集合进行异常检测,得到所述异常检测模型对所述目标资源转移记录的模型检测结果;其中,至少一个异常检测模型是基于所述目标资源转移特征在所在特征维度对应的目标特征集合中的分布结果得到所述模型检测结果的;检测结果统计模块,用于对所述目标资源转移记录的模型检测结果进行统计,得到所述目标资源转移记录的异常检测结果。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:获取目标特征维度集合;所述目标特征维度集合是根据候选特征维度的维度异常度从候选特征维度集合中选取得到的;所述维度异常度是根据所述候选特征维度的第一资源转移特征在对应的历史特征集合中的特征分布确定的;获取待识别的目标资源转移记录集合,所述目标资源转移记录集合包括多个目标资源转移记录,获取各个所述目标资源转移记录在所述目标特征维度上的目标资源转移特征,组成所述目标资源转移记录对应的目标资源转移特征集合;确定异常检测模型集合,所述异常检测模型集合中包括多个不同的异常检测模型;通过所述异常检测模型对所述目标资源转移特征集合进行异常检测,得到所述异常检测模型对所述目标资源转移记录的模型检测结果;其中,至少一个异常检测模型是基于所述目标资源转移特征在所在特征维度对应的目标特征集合中的分布结果得到所述模型检测结果的;对所述目标资源转移记录的模型检测结果进行统计,得到所述目标资源转移记录的异常检测结果。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:获取目标特征维度集合;所述目标特征维度集合是根据候选特征维度的维度异常度从候选特征维度集合中选取得到的;所述维度异常度是根据所述候选特征维度的第一资源转移特征在对应的历史特征集合中的特征分布确定的;获取待识别的目标资源转移记录集合,所述目标资源转移记录集合包括多个目标资源转移记录,获取各个所述目标资源转移记录在所述目标特征维度上的目标资源转移特征,组成所述目标资源转移记录对应的目标资源转移特征集合;确定异常检测模型集合,所述异常检测模型集合中包括多个不同的异常检测模型;通过所述异常检测模型对所述目标资源转移特征集合进行异常检测,得到所述异常检测模型对所述目标资源转移记录的模型检测结果;其中,至少一个异常检测模型是基于所述目标资源转移特征在所在特征维度对应的目标特征集合中的分布结果得到所述模型检测结果的;对所述目标资源转移记录的模型检测结果进行统计,得到所述目标资源转移记录的异常检测结果。
上述资源转移数据处理方法、装置、计算机设备和存储介质,一方面,由于采用了多个不同的异常检测模型进行异常检测,综合统计这些异常检测模型对应的模型检测结果,得到目标资源转移记录的异常检测结果,能够基于多种不同的异常检测策略来确定目标资源转移记录的异常检测结果,有效提高了资源转移记录的准确度,另一方面,由于,在进行异常检测时,获取目标资源转移记录在目标特征维度集合中的目标特征维度上的目标资源转移特征组成目标资源转移特征集合来进行异常检测,其中目标特征维度集合是根据候选特征维度的维度异常度从候选特征维度集合中选取得到的,维度异常度是根据候选特征维度的第一资源转移特征在对应的历史特征集合中的特征分布确定的,那么分布结果可以很好地反映资源转移特征的异常性,而由于多个异常检测模型中至少一个异常检测模型是基于目标资源转移特征在所在特征维度对应的目标特征集合中的分布结果得到模型检测结果的,从而在异常检测过程中充分考虑到了资源转移特征的异常性,进一步提高了资源转移记录识别的准确性。
附图说明
图1为一些实施例中资源转移数据处理方法的应用环境图;
图2为一些实施例中资源转移数据处理方法的流程示意图;
图3为一些实施例中得到历史特征集合的示意图;
图4为一些实施例中得到目标资源转移特征集合的示意图;
图5为一些实施例中对特征集合内的资源转移特征进行划分的示意图;
图6为一些实施例中聚类结果的示意图;
图7为一些具体的实施例中资源转移数据处理方法的流程示意图;
图8为一些实施例中进行异常检测的示意图;
图9为一些实施例中资源转移数据处理装置的结构框图;
图10为一些实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
如本申请实施例所提供的资源转移数据处理方法,在该方法在运行过程中涉及的数据,例如目标资源转移记录集合,各个目标资源转移记录的异常检测结果,异常检测模型集合等等,这些数据均可以保存于区块链上。区块链对各个不同的数据生成不同的查询码返回至计算机设备,计算机设备可以基于查询码从区块链中查询对应的数据。例如,基于目标资源转移记录的查询码从区块链中查询该目标资源转移记录及对应的异常检测结果。
在一些实施例中,本申请提供的资源转移数据处理方法、装置、计算机设备和存储介质,可以通过人工智能技术实现。其中:
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
其中,机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。基于学习方法方式的分类,机器学习包括监督学习、无监督学习或者增强学习等中的至少一项。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的方案涉及人工智能的机器学习等技术,具体通过如下实施例进行说明:
本申请实施例提供的资源转移数据处理方法,可以应用于如图1所示的应用环境中。该应用环境中包括服务器102及第一终端104、第二终端106,其中第一终端104包括多个,多个指至少两个,例如终端104A和104B。其中,服务器102中可以部署有多个不同的异常检测模型,第一终端104可以向服务器发送资源转移请求,服务器102可以响应各个资源转移请求进行资源转移,资源转移完成后生成多个待识别的目标资源转移记录,服务器102可以获取各个目标资源转移记录在目标特征维度上的目标资源转移特征,组成目标资源转移记录对应的目标资源转移特征集合,通过异常检测模型对目标资源转移特征集合进行异常检测,得到异常检测模型对目标资源转移记录的模型检测结果,对目标资源转移记录的模型检测结果进行统计,得到目标资源转移记录的异常检测结果。
服务器102可以按照预设的时间间隔将得到的多个目标资源转移记录的异常检测结果发送至第二终端106,也可以是在接收到第二终端的请求后,向第二终端发送得到的异常检测结果,或者服务器可以在得到的异常检测结果表征目标资源转移记录异常时,将异常的目标资源转移记录发送至终端,并向终端发送警报信息。
第一终端104中可以安装有用于资源转移的应用程序。第二终端106可以与第一终端104中的其中一个终端采用同一设备实现。
其中,服务器102可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。第一终端104、第二终端106可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
本申请实施例所提供的资源转移数据处理方法或装置,其中多个服务器可组成为一区块链,而服务器为区块链上的节点。
在一些实施例中,如图2所示,提供了一种资源转移数据处理方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤202,获取目标特征维度集合;目标特征维度集合是根据候选特征维度的维度异常度从候选特征维度集合中选取得到的;维度异常度是根据候选特征维度的第一资源转移特征在对应的历史特征集合中的特征分布确定的。
其中,资源是指可以通过网络进行流通的物品,包括虚拟物品和实体物品中的至少一种。其中,虚拟物品具体可以包括但不限于各类账户的账户数值、基金、股票、债券、虚拟形象产品、虚拟充值卡、游戏装备等中的至少一种。实体物品可以是任意可被用户拥有的具有实际形态的物品,具体可以包括但不限于电子产品、玩具、工艺品或者签名照片等。资源转移可以是将资源从某一存储介质转移至另一存储介质,也可以是将资源对应的资源值从某一账户中转出,也可以是将向某一账户转入资源对应的资源值。其中,存储介质可以是具有资源存储功能的计算机设备,可以是银行对应的服务器、存储器等。资源转移记录指的是在一次资源转移过程中产生的数据记录,例如资源转移记录可以是在网购交易过程中产生的交易数据。当前时刻之前的资源转移记录可称为历史资源转移记录。多个历史资源转移记录组成历史资源转移记录集合。
资源转移特征指的是资源转移记录中各个字段对应的取值,不同的资源转移特征对应不同的字段。特征维度是根据字段进行划分的,一个字段可对应一个特征维度,或者可以将多个相同类型的字段对应一个特征维度。例如,特征维度可以包括以下至少一项:时间维度、频次维度、用户维度或者金额维度。进一步地,在时间维度下,资源转移特征可以为资源转移操作的时间;在频次维度下,资源转移特征可以为以下至少一项:资源转移操作的频率或者设定时间段的资源转移频率;在用户维度下,资源转移特征可以为以下至少一项:资源转移操作所面向的接收用户、接收用户的用户数量或者接收用户的用户特征,在交易场景下,接收用户也可以称为交易对手;在金额维度下,资源转移特征可以为以下至少一项:所转移的资源值或者设定时间段的资源转移值等。
候选特征维度集合中各个候选特征维度可基于历史资源转移记录集合得到各自对应的维度异常度。候选特征维度的维度异常度用于反映该候选特征维度的特征在异常检测过程中的重要程度,候选特征维度的维度异常度与该候选特征维度的重要程度呈正相关关系,即该候选特征维度越重要,则该候选特征维度的维度异常度越大。这里的重要性体现为在进行异常检测时,如果该候选特征维度越重要,则该候选特征维度下的资源转移特征与异常越相关。
候选特征维度可以是具体的数值,例如,候选特征维度可以为X(X为大于0的实数),也可以是根据数值大小进行划分得到的等级,例如,候选特征维度可以是一级、二级、三级、N级等等,数值越大,等级越高。
维度异常度是根据候选特征维度的资源转移特征在对应的历史特征集合中的特征分布确定的。候选特征维度对应的历史特征集合指的是资源转移记录集合中全部或者部分资源转移记录中在该候选特征维度上的资源转移特征所组成的集合。候选特征维度的第一资源转移特征在对应的历史特征集合中的特征分布用于反映该特征维度下各个资源转移特征在历史资源转移记录集合中的出现情况,包括该特征维度的资源转移特征数量,以及各个资源转移特征的出现次数。
如图3所示,为一些实施例中,得到历史特征集合的示意图。参考图3,历史资源转移记录集合中包括N个历史资源转移记录,分别为记录1,记录2,……,记录N,其中,每一个资源转移记录包括M个候选特征维度,以候选特征维度1为例,记录1在候选特征维度1上的资源转移值为X1,记录2在候选特征维度1上的资源转移值为X2,……,记录N在候选特征维度1上的资源转移值为XN,则历史特征集合中包括N个资源转移特征X1,X2,……,XN,这些资源转移特征可以各不相同,也可以是部分资源转移特征相同,例如X1=X2=XN。
目标特征维度集合是根据候选特征维度的维度异常度从候选特征维度集合中选取得到的。在一些实施例中,可以根据维度异常度对候选特征维度集合中的候选特征维度进行排序,根据排序结果选取预设数量的候选特征维度,选取的这些候选特征维度即为目标特征维度集合,例如,可以根据维度异常度对候选特征维度集合中的候选特征维度进行降序排列,选取排列靠前的预设数量的候选特征维度,得到目标特征维度。在其他一些实施例中,可以候选特征维度的维度异常度从候选特征维度集合中选取大于预设数值的候选特征维度作为目标特征维度。预设数值可以根据需要进行设定。
从候选特征维度集合中选取得到的目标特征维度的过程可以看成是降维的过程。服务器可以采用基于属性共现随机游走算法(Coupled Biased Random Walks,CBRW)、主成分分析算法(principal component analysis,PCA)等等算法对特征维度进行降维。
具体地,服务器可以基于历史资源转移记录集合预先确定目标特征维度集合并保存至本地,在需要对待识别的资源转移记录进行异常识别时,从本地获取到目标特征维度集合;或者,服务器可以从其他计算机设备获取到目标特征维度集合,该其他计算机设备可以通过历史资源转移记录集合预先确定目标特征维度集合并进行保存。
步骤204,获取待识别的目标资源转移记录集合,目标资源转移记录集合包括多个目标资源转移记录,获取各个目标资源转移记录在目标特征维度上的目标资源转移特征,组成目标资源转移记录对应的目标资源转移特征集合。
其中,目标资源转移记录集合包括多个目标资源转移记录组成的集合。多个指至少二个。目标资源转移记录指的是需要进行识别的资源转移记录。目标资源转移记录可以是历史资源转移记录集合中的资源转移记录,或者当前时刻从第一终端接收的资源转移记录。
具体地,服务器可以从存储了历史资源转移记录的数据库中获取到多个待识别的资源转移记录,得到目标资源转移记录集合;或者服务器可以将当前时间周期内接收的第一终端发送的多个资源转移记录,得到目标资源转移记录集合。在得到目标资源转移记录集合后,对于每一个目标资源转移记录,服务器获取该目标资源转移记录在各个目标特征维度上的目标资源转移特征,组成该目标资源转移记录对应的目标资源转移特征集合。
如图4所示,为一个实施例中,服务器得到目标资源转移记录对应的目标资源转移特征集合的示意图。参考图4,某个目标资源转移记录包括4个资源转移特征,各个资源转移特征对应不同的特征维度,其中,虚线框中的特征维度2和特征维度4为目标特征维度,该目标资源转移记录在特征维度2的目标资源转移特征为X2,在特征维度2的目标资源转移特征为X4,则得到的目标资源转移特征集合包括两个资源转移特征:X2和X4。
步骤206,确定异常检测模型集合,异常检测模型集合中包括多个不同的异常检测模型。
其中,异常检测模型为能按照特定的异常检测策略实现异常检测的网络模型。进一步地,异常检测模型可以为机器学习模型,例如:监督学习模型、半监督学习模型或者无监督学习模型。具体地,异常检测模型可以为随机森林、孤立森林(iForest)、HBOS(Histogram-based Outlier Score,基于直方图的异常得分)、COPOD(Copula-BasedOutlier Detection,基于耦合的异常检测)、Auto Encoder(自动编码器)、CBLOF(Cluster-Based Local Outlier Factor,基于聚类的本地异常因子)等等。在某些实施例中,异常检测模型也可以称为弱学习器。
异常检测策略为进行异常检测所采用的方式。异常检测策略具体可以为对资源转移特征进行类别划分或者特征聚类所对应的策略。各个异常检测模型对应的异常检测策略不同。
具体地,各个异常检测模型可以是配置在服务器中的功能模块,服务器分别调用各个异常检测模型来对目标资源转移特征集合中的资源转移特征进行异常检测,以得到该目标资源转移特征集合对应的目标资源转移记录的模型检测结果。另外,各个异常检测模型也可以是分别配置在不同终端或者服务器中的功能模块,服务器分别向这些终端或者服务器发送检测请求,以触发这些终端或者服务器基于对应的异常检测模型来对来对目标资源转移特征集合中的资源转移特征进行异常检测,以得到该目标资源转移特征集合对应的目标资源转移记录的模型检测结果。
步骤208,通过异常检测模型对目标资源转移特征集合进行异常检测,得到异常检测模型对目标资源转移记录的模型检测结果;其中,至少一个异常检测模型是基于目标资源转移特征在所在特征维度对应的目标特征集合中的分布结果得到模型检测结果的。
其中,模型检测结果为异常检测模型对资源转移记录所属类别的检测结果,可以通过所属类别的类别标识来表征异常检测模型对资源转移记录的模型检测结果。
另外,模型检测结果中还可以携带有各个异常检测模型的模型标识。据此,服务器可以获知各个模型检测结果是由哪个异常检测模型所输出。由于各个异常检测模型采样的异常检测策略并不相同,各个异常检测模型进行异常检测后得到的模型检测结果可能相同,也可能不同。
具体地,服务器可以通过异常检测模型集合中每一个异常检测模型,分别对目标资源转移特征集合进行异常检测,分别得到每一个异常检测模型对目标资源转移记录的模型检测结果。
其中,至少一个异常检测模型是基于目标资源转移特征在所在特征维度对应的目标特征集合中的分布结果得到模型检测结果的。其中,分布结果为各个目标资源转移特征在对应的目标特征集合中的分布归类结果。分布结果具体可以通过分类标识表示,例如:异常、正常等;也可以通过各个类别对应的概率值表示,例如:80%、90%等。另外,分布结果也可以是可以得到分类概率的分布密度等信息。目标特征集合为目标资源转移记录集合在某一特征维度下的所有或部分资源转移特征组成的特征集合。目标特征集合中的资源转移特征可以对应有特定的特征分布状态,可以基于该特征分布状态来对资源转移特征进行划分,进而得到分布结果。其中,特征分布状态可以通过树状图、直方图、正态分布图等中的至少一种形式表示。
在一些实施例中,至少一个异常检测模型是基于目标资源转移特征在所在特征维度对应的目标特征集合中的分布结果得到模型检测结果的,具体可以实现为:异常检测模型集合中所有异常检测模型均是基于目标资源转移特征在所在特征维度对应的目标特征集合中的分布结果得到模型检测结果的。
可以理解,不同的异常检测模型可以采用不同的方式来对目标资源转移特征进行归类,进而确定各个目标资源转移特征在所在目标特征集合中的分布结果。
在一些实施例中,至少一个异常检测模型可以确定某一目标特征维度对应的目标特征集合,按照对应的异常检测策略对该目标特征维度对应的目标特征集合的分布状态进行分析并进行分类,以得到与该目标特征维度对应的分布结果;之后将各个目标特征维度下的分布结果进行整合,以得到各个资源转移特征在所在特征维度对应的目标特征集合中的分布结果。另外,至少一个异常检测模型也可以对各个目标特征维度下的资源转移特征进行整体分析,例如,确定所有目标特征维度下的资源转移特征的整体分布状态,基于该分布状态进行分类,以得到所有目标特征维度对应的总体分布结果。
异常检测模型的分布结果可以表征异常检测模型对各个目标资源转移特征的归类结果。在此基础上,可以对分布结果进行分析,进而确定异常检测模型对目标资源转移记录的模型检测结果。进一步的,可以将通过分类标识或者概率值等形式表示的分布结果转化为数值的形式,将转化后的结果确定为对应的模型检测结果。例如:将概率值与概率值阈值进行比较,当概率值更大时,模型检测结果表示为1,当概率值更小时,模型检测结果表示为0。其中,概率值阈值可以根据实际场景进行确定。
步骤210,对目标资源转移记录的模型检测结果进行统计,得到目标资源转移记录的异常检测结果。
其中,异常检测结果可以为目标资源转移记录是否为异常资源转移记录的结果,因此,异常检测结果可以为目标资源转移记录为异常资源转移记录,也可以为目标资源转移记录是正常资源转移记录,还可以为目标资源转移记录为可疑资源转移记录。其中,对模型检测结果进行统计可以指对模型检测结果的数量等进行统计运算,将统计运算的结果作为异常检测结果。具体地,可以在模型检测结果的数量满足数量条件时将目标资源转移记录的异常检测结果确定为异常资源转移记录。其中,数量条件可以是大于设定的数量阈值,该数量阈值可以根据实际情况确定。基于各个异常检测模型对应的模型检测结果得到异常检测结果的过程可以认为是对各个异常检测模型的集成学习过程,当异常检测模型称为弱学习器时,这些弱学习器集成学习得到的异常检测模型集合可以称为强学习器。
在一些实施例中,对模型检测结果进行统计可以采用以下至少一种方式实现:bagging(自助聚合法)、boosting(提升法)、stacking(堆叠法)等。
上述资源转移数据处理方法中,一方面,由于采用了多个不同的异常检测模型进行异常检测,综合统计这些异常检测模型对应的模型检测结果,得到目标资源转移记录的异常检测结果,能够基于多种不同的异常检测策略来确定目标资源转移记录的异常检测结果,有效提高了资源转移记录的准确度,另一方面,由于,在进行异常检测时,获取目标资源转移记录在目标特征维度集合中的目标特征维度上的目标资源转移特征组成目标资源转移特征集合来进行异常检测,其中目标特征维度集合是根据候选特征维度的维度异常度从候选特征维度集合中选取得到的,维度异常度是根据候选特征维度的第一资源转移特征在对应的历史特征集合中的特征分布确定的,那么分布结果可以很好地反映资源转移特征的异常性,而由于多个异常检测模型中至少一个异常检测模型是基于目标资源转移特征在所在特征维度对应的目标特征集合中的分布结果得到模型检测结果的,从而在异常检测过程中充分考虑到了资源转移特征的异常性,进一步提高了资源转移记录识别的准确性。
在一些实施例中,得到候选特征维度的维度异常度的步骤包括:获取候选特征维度的第一资源转移特征在对应的历史特征集合中的第一特征分布值,以及获取历史特征集合对应的代表特征分布值;基于第一特征分布值与代表特征分布值的差异得到第一资源转移特征对应的特征异常度;基于第一资源转移特征对应的特征异常度得到候选特征维度对应的维度异常度。
其中,第一资源转移特征用于指代候选特征维度下的任意一个资源转移特征,第一资源转移特征在对应的历史特征集合中的第一特征分布值与第一资源转移特征在历史特征集合中的出现次数呈正相关,第一资源转移特征例如可以是第一资源转移特征在历史特征集合中的出现概率,举个例子,假设历史特征集合包括10万个金额数值,其中有1万个金额数值为50,则该资源转移特征的第一分布值为1/10。
历史特征集合对应的代表特征分布值与历史特征集合中出现次数最多的资源转移特征的出现次数呈正相关。可以理解,某个资源转移特征在历史特征集合中出现次数最多,那么从统计学的角度可以用该资源转移特征来代表该集合。代表特征分布值具体可以是出现次数最多的资源转移特征的出现概率,即:
p(m)=p(vi)=max(p(v1),……,p(vk))
其中,p指的是概率,p(m)为代表特征分布值,vi∈Vj,Vj为历史特征集合。举个例子,假设历史特征集合包括10万个金额数值,其中出现次数最多的金额数值为60,该金额数值的出现次数为5万次(即历史特征集合中有5万个金额数值为60),则该历史特征集合对应的代表特征分布值为1/2。
具体地,服务器在获取候选特征维度的第一资源转移特征在对应的历史特征集合中的第一特征分布值,以及历史特征集合对应的代表特征分布值后,服务器进一步获取第一特征分布值与代表特征分布值的差异,得到特征异常度,该特征异常度可以反映该第一资源转移特征在历史特征集合中的异常程度,特征异常度越大表示该第一资源转移特征在历史特征集合中的异常程度越大。服务器进一步基于第一资源转移特征对应的特征异常度得到候选特征维度对应的维度异常度。
在一些实施例中,第一特征分布值与代表特征分布值的差异具体可以是第一特征分布值与代表特征分布值的绝对差值。在另一些实施例中,第一特征分布值与代表特征分布值的差异可以通过以下公式计算得到,其中p(m)为代表特征分布值,p(v)为第一特征分布值:
在一些实施例中,服务器基于第一资源转移特征对应的特征异常度得到候选特征维度对应的维度异常度可以是统计该候选特征维度下的各个资源转移特征对应的特征异常度得到该候选特征维度对应的维度异常度,具体可以是对各个资源转移特征对应的特征异常度进行加和、求平均或者求中位数等等。
上述实施例中,基于第一特征分布值与代表特征分布值的差异得到第一资源转移特征对应的特征异常度,基于第一资源转移特征对应的特征异常度得到候选特征维度对应的维度异常度,可以考虑到历史特征集合中特征的整体分布情况,得到准确的维度异常度。
在一些实施例中,基于第一资源转移特征对应的特征异常度得到候选特征维度对应的维度异常度包括:获取第一资源转移特征与不同特征维度的第二资源转移特征在历史资源转移记录集合的共现次数;基于共现次数以及特征异常度得到第一资源转移特征与第二资源转移特征之间的异常传递权重;基于异常传递权重将第二资源转移特征的特征异常度传递至第一资源转移特征,得到第一资源转移特征的传递异常度;统计第一资源转移特征的传递异常度,得到候选特征维度的维度异常度。
其中,第一资源转移特征与不同特征维度的第二资源转移特征共现指的是第一资源转移特征与第二资源转移特征在历史资源转移记录集合中同一个历史资源转移记录中出现。例如,某个历史资源转移记录中包括了交易金额50元,交易渠道为支付宝,则“50”和“支付宝”这两个资源转移特征在该历史资源转移记录中共现。异常传递权重表征了一个资源转移特征的特征异常度传递至另一个资源转移特征的比重,异常传递权重越大,特征异常度传递的越多。
具体地,服务器可以基于第一资源转移特征与不同特征维度的第二资源转移特征在历史资源转移记录集合的共现次数在历史资源转移记录的总数量中的占比得到二者的共现概率,进一步可以基于共现概率得到第一资源转移特征和第二资源转移特征之间的特征共现度,公式如下:
其中,A(u,v)指的是第二资源转移特征u和第一资源转移特征v的特征共现度,p(u,v)指的是第二资源转移特征u和第一资源转移特征v的共现概率,p(u,v)指的是第一资源转移特征v的出现概率。
上述公式可以这么理解:若u=v,则p(u,v)=0。可以这么理解:若(u,v)总是同时出现,说明u和v有很强的关联性,此时,若u很异常,那么v必然也很异常,即异常性由u传递到了v。
服务器进一步可以基于第二资源转移特征u和第一资源转移特征之间的特征共现度与特征异常度得到异常传递权重,具体来说,服务器可以基于特征共现度与特征异常度的乘积来得到二者之间的异常传递权重。
在一些实施例中,异常传递权重可参考以下公式进行计算,其中,Wb(u,v)即指的是特征异常度:
如前文提到的,若两个资源转移特征之间有关联性,那么特征异常度可以由一个资源转移特征传递至另一资源转移特征,基于此,在得到异常传递权重后,服务器进一步可以基于异常传递权重将第二资源转移特征的特征异常度传递至第一资源转移特征,得到第一资源转移特征的传递异常度,最后统计候选特征维度下所有第一资源转移特征的传递异常度,得到该候选特征维度的维度异常度。
上述实施例中,基于第一资源转移特征与不同特征维度的第二资源转移特征在历史资源转移记录集合的共现次数及第一资源转移特征的特征异常度得到第一资源转移特征与第二资源转移特征之间的异常传递权重,然后基于该异常传递权重进行特征异常度传递,最终得到第一资源转移特征的传递异常度,统计这些传递异常度得到第一资源转移特征所在特征维度的维度异常度,不仅考虑到了该特征维度下的整体特征分布情况,而且考虑到了不同特征维度之间的关联影响,得到维度异常度更加准确,能够更好的反映该特征维度的特征在异常检测中的重要性。
在一些实施例中,基于异常传递权重将第二资源转移特征的特征异常度传递至第一资源转移特征,得到第一资源转移特征的传递异常度包括:将历史资源转移记录集合中各个历史资源转移记录的资源转移特征作为节点,将存在共现关系的资源转移特征进行连接,得到特征连接图,其中,特征连接图中第二资源转移特征的节点与第一资源转移特征的节点存在连接边;在特征连接图中,基于第二资源转移特征的特征异常度以及连接边对应的异常传递权重对第一资源转移特征的节点的特征异常度进行迭代更新,将满足迭代停止条件时第一资源转移特征的特征异常度作为第一资源转移特征的传递异常度。
具体地,将历史资源转移记录集合中各个历史资源转移记录的资源转移特征作为节点,将存在共现关系的资源转移特征进行连接,得到特征连接图:
G=(V,E)
其中,V由资源转移特征构成,之后,服务器可以基于随机游走的方式,在特征连接图中,基于第二资源转移特征的特征异常度以及连接边对应的异常传递权重对第一资源转移特征的节点的特征异常度进行迭代更新。令πt∈R|V|为时间t的随机游走的概率分布,于是有:
πt+1(v)=∑u∈VWb(u,v)πt(u)
在迭代更新的过程中,为了保证收敛,令:
其中,α可以根据需要进行设定,例如α可以取[0.85,0.95]之间的数值。当满足迭代停止条件时,π将收敛到一个静态的概率分布,即:
根据上式可以得出,最终的静态概率分布π*与其初始化无关。迭代停止条件为两次迭代得到的π之间的绝对差值不超过预设阈值,或者迭代的次数达到预设迭代次数,其中,预设阈值和预设迭代次数可以根据需要进行设定,例如,给预设阈值可以为0.001,该预设迭代次数可以为100次。
迭代得到的π之后,可得到每个资源转移特征的传递异常度,如下:
value_score(v)=π(v)
在具体实施例时,得到传递异常度后,服务器可以将该特征维度下各个资源转移特征的传递异常度求和,得到该特征维度的维度异常度。
上述实施例中,通过构建特征连接图,在在特征连接图中,基于第二资源转移特征的特征异常度以及连接边对应的异常传递权重对第一资源转移特征的节点的特征异常度进行迭代更新,可以最大程度的考虑到特征维度之间的关联影响,尽可能地提高传递异常度的准确性,从而提高特征维度异常度的准确性。
在一些实施例中,通过异常检测模型对目标资源转移特征集合进行异常检测,得到异常检测模型对目标资源转移记录的模型检测结果,包括:在目标资源转移记录所对应的目标资源转移特征集合中获取特征维度对应的资源转移特征,得到各个特征维度分别对应的目标特征集合;获取异常检测模型对目标特征集合的分布划分方式,基于分布划分方式对目标资源转移特征在所在特征维度的目标特征集合中进行划分,得到目标资源转移特征在所在特征维度对应的目标特征集合中的分布结果;基于异常检测模型所得到的分布结果确定异常检测模型对目标资源转移记录的模型检测结果。
其中,分布划分方式为将目标特征集合中的资源转移特征划分到对应的特征区间的方式。分布划分方式可以为基于阈值进行划分的方式,也可以是基于分布区间进行划分的方式。其中,基于阈值进行划分的方式可以是:将资源转移特征与特征划分阈值进行比较,当资源转移特征小于特征划分阈值时,将资源转移特征划分到一个特征区间A中,当资源转移特征大于或等于特征划分阈值时,将资源转移特征划分到另一个特征区间B中。基于分布区间进行划分的方式可以是:确定多个特征划分区间,每个特征划分区间对应有资源转移特征对应的特征值范围,将资源转移特征的特征值与特征值范围进行比对,进而将资源转移特征分配到特征值的特征划分区间中。其中,资源转移特征的特征值可以为资源转移特征对应的具体数值,例如:资源转移操作对应的时间值、所转移的资源值、资源转移操作的具体次数等。在一些实施例中,分布划分方式可以基于各个异常检测模型的异常检测策略确定。
在一些实施例中,从目标资源转移记录所对应的目标资源转移特征集合中选取各个目标特征维度对应的目标资源转移特征,一个目标特征维度下的目标资源转移特征构成一个目标特征集合,基于分布划分方式对目标特征集合中的资源转移特征进行划分,以将各个资源转移特征划分到对应的特征区间中,而一个特征区间可以对应一个分布结果,进而得到目标资源转移特征在所在特征维度的目标特征集合中的分布结果。
在一些实施例中,服务器在得到目标资源转移特征在所在特征维度的目标特征集合中的分布结果,对各个目标特征维度对应的分布结果进行统计,得到目标资源转移记录在对应异常检测模型下的分布结果,对目标资源转移记录在对应异常检测模型下的分布结果进行转化,将转化得到的结果作为异常检测模型对目标资源转移记录的模型检测结果。
上述实施例,将目标资源转移特征在特征维度对应的目标特征集合中进行划分,能确定各个特征维度下的分布结果,即使没有目标资源转移特征之间的距离也能准确确定出目标资源转移特征所对应的分布结果,能快速确定目标资源转移特征的分布结果,进而有效提高资源转移记录识别的效率。
在一些实施例中,特征集合对应的分布划分方式包括基于阈值进行划分的方式,获取异常检测模型对目标特征集合的分布划分方式,基于分布划分方式对目标资源转移特征在所在特征维度的目标特征集合中进行划分,得到目标资源转移特征在所在特征维度对应的目标特征集合中的分布结果包括:获取特征分布结构树,特征分布结构树包括多个子节点;将特征分布结构树的初始节点作为目标资源转移特征集合对应的当前子节点,获取当前子节点所对应的当前特征维度,获取当前特征维度所对应的当前特征集合的当前特征划分阈值;基于当前特征划分阈值以及目标资源转移特征集合在当前特征维度的资源转移特征,确定目标资源转移特征在当前特征集合中的分布结果;基于分布结果确定目标资源转移特征集合对应的下一子节点,将下一节点作为更新后的当前子节点,返回获取当前子节点所对应的当前特征维度,获取当前特征维度所对应的当前特征集合的当前特征划分阈值的步骤,直至目标资源转移特征集合对应的子节点更新完毕。
其中,特征分布结构树为基于资源转移特征所构建的分叉树,可以为孤立树或者随机树等中的至少一项。各个资源转移特征可以作为特征分布结构树中的节点。特征分布结构树可以作为异常检测模型。
特征分布结构树的数量可以为至少一个。当特征分布结构树的数量为多个时,可以将所有或者部分特征分布结构树一起作为异常检测模型。异常检测模型内的这些特征分布结构树可以并行对资源转移特征进行划分,以将目标资源转移记录对应的目标资源转移特征划分到对应的子节点上。进一步的,可以将某一目标资源转移记录对应的目标资源转移特征集合分别输入到各个特征分布结构树中,各个特征分布结构树输出该目标资源转移记录的分布结果,对各个特征分布结构树的分布结果进行整合,以得到特征分布结构树对应的总体分布结果,作为对应异常检测模型的分布结果。按照同样的方式,将其他目标资源转移记录对应的资源转移特征集合分别输入到各个特征分布结构树中,进而得到对应的分布结果。
当前特征划分阈值可以预先确定,也可以根据目标资源转移记录在当前特征维度下的资源转移特征的特征值确定,例如:可以将目标资源转移记录在当前特征维度下的资源转移特征的特征值的平均值、中位数或者方差等中的至少一项作为当前特征划分阈值。
子节点更新完毕的判断节点可以为资源转移特征对应的子节点为叶子节点,即没有下一节点。进一步的,可以将目标资源转移特征所在的叶子节点对应的分布结果确定为目标资源转移特征所在特征维度的目标特征集合中的分布结果。
在一些实施例中,基于当前特征划分阈值以及目标资源转移记录在当前特征维度的资源转移特征,确定目标资源转移特征在当前目标特征集合中的分布结果的实现过程可以为:将目标资源转移记录在当前特征维度的目标资源转移特征与当前特征划分阈值进行比对;当目标资源转移记录在当前特征维度的目标资源转移特征小于当前特征划分阈值时,将目标资源转移记录在当前特征维度的目标资源转移特征划分至第一节点;当目标资源转移记录在当前特征维度的目标资源转移特征大于或等于当前特征划分阈值时,将目标资源转移记录在当前特征维度的目标资源转移特征划分至第二节点。之后,以第一节点为例,将第一节点的下一子节点作为更新后的当前子节点,并重复上述过程。第二节点同理,在此不再赘述。
具体的,以目标资源转移特征为资源转移操作的频率、接收用户的用户特征以及所转移的资源值为例,各个目标资源转移特征作为一个特征维度;在第一层级的划分过程中,将资源转移操作的频率与频率阈值进行比对,以将资源转移特征划分为对应的第一节点和第二节点中;在第二层级的划分过程中,以其中一侧为例,将接收用户的用户特征与用户特征属性进行比对,以将第一节点中的资源转移特征划分为第三节点和第四节点;在第三层级的划分过程中,以其中一侧为例,将所转移的资源值与资源值阈值进行比对,以将第三节点中的资源转移特征划分为第五节点和第六节点。此时资源转移特征对应的子节点为叶子节点,判定为节点更新完毕。
上述实施例中,逐步获取当前子节点对应的当前特征维度,进而基于当前特征划分阈值对目标资源转移记录在当前特征维度的目标资源转移特征进行划分,每进行一次资源转移特征的划分可以认为是完成了一个层级的划分,各个层级的特征维度之间相互关联相互递进,因此可以得到准确的分布结果,进而可以得到准确的用户识别结果。
在一些实施例中,基于异常检测模型所得到的分布结果确定异常检测模型对目标资源转移记录的模型检测结果包括:基于分布结果确定目标资源转移特征集合所对应的子节点;对目标资源转移特征集合所对应的子节点的数量进行统计,得到目标资源转移特征集合在特征分布结构树中的路径长度;基于路径长度确定目标资源转移记录对应的第一异常检测值,第一异常检测值与路径长度成负相关关系;基于第一异常检测值确定目标资源转移记录的模型检测结果。
其中,目标资源转移特征集合所对应的子节点可以为目标资源转移特征集合的目标资源转移特征从根节点到叶子节点之间的各个节点,可以将这些子节点的数量确定为目标资源转移记录在特征分布结构树中的路径长度。第一异常检测值为能够评估目标资源转移记录是否为异常资源转移记录的检测值。
在一些实施例中,基于路径长度确定目标资源转移记录对应的第一异常检测值的实现过程可以为:当特征分布结构树为一个时,确定该特征分布结构树确定的目标资源转移记录对应的路径长度,以路径长度为指数以预设的常数值为底数构建指数函数,将目标资源转移记录对应的路径长度代入到该指数函数中,所得到的函数值即为第一异常检测值。当特征分布结构树为多个时,基于路径长度确定目标资源转移记录对应的路径长度的期望值,以路径长度的期望值为指数以预设的常数值为底数构建指数函数,将目标资源转移记录对应的路径长度的期望值代入到该指数函数中,所得到的函数值即为第一异常检测值。
基于目标资源转移记录所对应的子节点在特征分布结构树中的路径长度得到对应的异常检测值,路径长度越短,也即需要被分割的次数越少,则目标资源转移记录对应的资源转移特征远离正常数据点,异常检测值越大。进一步的,为保证异常检测值与路径长度成负相关关系,指数函数中的指数可以为负数。
在一些实施例中,基于第一异常检测值确定异常检测模型对目标资源转移记录的模型检测结果的实现过程可以为:将第一异常检测值与第一异常检测值阈值进行比对,当第一异常检测值大于第一异常检测值阈值时,将目标资源转移记录的模型检测结果确定为异常资源转移记录。其中,第一异常检测值阈值可以为预先确定的固定值,也可以是根据目标特征集合中的资源转移特征的特征值运算得到。
具体地,基于路径长度确定目标资源转移记录对应的第一异常检测值的实现过程可以为:
基于n个训练样本构建特征分布结构树,通过以下公式确定特征分布结构树的平均路径长度:
c(n)=2H(n-1)-(2(n-1)/n)
其中,H(i)是调和数,该值可以被估计为ln(i)+0.5772156649。
而对于目标资源转移记录的目标资源转移特征x,通过以下公式确定目标资源转移记录对应的第一异常检测值:
其中,E(h(x))为样本x在一批特征分布结构树中的路径长度的期望。
上述实施例的异常检测值确定方法,即使没有确定资源转移特征之间的距离或者密度也能基于特征分布结构树的节点划分实现可靠的异常检测,相比于距离与密度计算大大减少了计算消耗,具有接近线性的复杂度和低内存消耗的优势。
在一些实施例中,特征分布结构树的构建过程可以为基于多个训练样本构建多个特征分布结构树。其中,训练样本可以没有对应的标签,以基于无监督的方式实现特征分布结构树的构建。特征分布结构树的构建过程具体说明如下:
给定n个样本数据X={x_1,x_2,……,x_n},这n个样本数据是d个维度下的资源转移特征。随机选择一个资源转移特征q及其分割值p,递归地分割数据集X,即基于分割值p将当前子节点对应的样本数据划分为两个及以上个节点,直到满足以下任意一个条件:1、树达到限制的高度,2、节点上只有一个样本,3、节点上的样本所有特征都相同。
进一步地,假设T是特征分布结构树的一个节点,T可以是叶子结点,也可以是具有子节点(T_l,T_r)的内部节点。
在一些实施例中,对某一特征集合内的资源转移特征进行逐步分割的过程可以如图5所示。每一步分割,都确定在特征维度下的资源转移特征q和分割值p,基于分割值p将对应的资源转移特征q划分到对应的区间中,并对区间内的资源转移特征进行进一步分割。p对应的分割线如图3中的虚线所示。如果某一资源转移特征q<p,则将该资源转移特征分到T_l,如果某一资源转移特征q≥p,则将该资源转移特征分到T_r。逐次分割的过程可以如图3所示。为节约篇幅,图3中仅示出了一侧的划分过程。
进一步的,对于目标资源转移记录的目标资源转移特征x,确定样本点x的路径长度(path length),即,确定从特征分布结构树的根节点到叶子节点所经过的边数量。可以使用二分查找的方式确定路径长度。基于所构建的特征分布结构树输出特征分布结构树集合,即为特征分布结构森林。之后可以基于特征分布结构森林来确定目标资源转移记录对应的第一异常检测值。
在一些实施例中,特征集合对应的分布划分方式包括基于分布区间进行划分的方式,获取异常检测模型对目标特征集合的分布划分方式,基于分布划分方式对目标资源转移特征在所在特征维度的目标特征集合中进行划分,得到目标资源转移特征在所在特征维度对应的目标特征集合中的分布结果包括:获取异常检测模型中目标特征集合所对应的特征划分区间集合,特征划分区间集合包括多个特征划分区间;获取目标特征集合中的资源转移特征在各个特征划分区间的特征数量;基于特征数量确定特征划分区间所对应的分布密度,将分布密度作为目标资源转移特征在所在特征维度的目标特征集合中的分布结果。
其中,每个特征划分区间对应有资源转移特征的特征值范围。各个特征划分区间的特征值范围宽度可以一致,也可以不一致。分布密度可以包括概率密度等。
在一些实施例中,可以分别确定各个目标特征维度对应的目标特征集合,基于目标特征集合中的资源转移特征确定特征划分区间所对应的分布密度,分别得到各个分布结果。在得到各个目标特征维度对应的分布结果之后,可以对这些分布结果进行统计,基于统计结果得到目标资源转移记录的资源转移特征的总体分布结果。
上述实施例,基于多个特征划分区间对目标特征集合中的资源转移特征进行划分,基于资源转移特征在各个特征划分区间的特征数量确定对应的分布密度,进而得到分布结果,即使没有标签信息也能基于分布密度对目标资源转移记录的资源转移特征进行准确划分,进而得到准确的分布结果。
在一些实施例中,基于异常检测模型所得到的分布结果确定异常检测模型对目标资源转移记录的模型检测结果包括:基于分布密度确定目标资源转移特征所对应的特征异常检测值,特征异常检测值与分布密度成负相关关系;对目标资源转移特征集合中各个目标资源转移特征所对应的特征异常检测值进行统计,得到目标资源转移记录对应的第二异常检测值;基于第二异常检测值确定异常检测模型对目标资源转移记录的模型检测结果。
其中,特征异常检测值为能够评估目标资源转移记录是否为异常资源转移记录的检测值。进一步的,特征异常检测值可以是对分布密度确定资源转移特征所对应的特征异常检测值进行特定的统计运算得到,例如:进行倒数处理,进行指数运算等。具体的,为保证特征异常检测值与分布密度成负相关关系,可以将分布密度的倒数确定为特征异常检测值。
其中,第二异常检测值为能够评估目标资源转移记录是否为异常资源转移记录的检测值。
进一步地,确定目标资源转移记录对应的目标资源转移特征集合中各个资源转移特征所对应的特征异常检测值之后,可以确定各个目标特征维度对应的特征异常检测值,对各个目标特征维度下的特征异常检测值进行统计,得到目标资源转移记录对应的第二异常检测值。
具体地,对于目标资源转移记录对应的目标资源转移特征集合p,特征异常检测值可以表示为概率密度histi(p),当目标特征维度有d个时,可以通过以下公式确定目标资源转移记录对应的第二异常检测值:
在一些实施例中,基于第二异常检测值确定异常检测模型对目标资源转移记录的模型检测结果的实现过程可以为:将第二异常检测值与第二异常检测值阈值进行比对,当第二异常检测值大于第二异常检测值阈值时,将目标资源转移记录的模型检测结果确定为异常资源转移记录。其中,第二异常检测值阈值可以为预先确定的固定值,也可以是根据目标特征集合中的资源转移特征的特征值运算得到。
上述实施例,基于分布密度得到异常检测值,进而基于异常检测值得到异常检测模型对应的分布结果,即使没有标签信息,也能基于分布密度对目标资源转移记录的资源转移特征进行准确划分,确定出分布密度小的资源转移特征,进而得到准确的分布结果。
在一些实施例中,通过异常检测模型对目标资源转移特征集合进行异常检测,得到异常检测模型对目标资源转移记录的模型检测结果包括:获取参考聚类簇,参考聚类簇是基于资源转移特征对资源转移记录进行聚类得到的,参考聚类簇中的资源转移记录数量大于正常记录聚类簇对应的记录数量阈值;基于目标资源转移特征集合确定目标资源转移记录与参考聚类簇的距离;基于距离确定目标资源转移记录所对应的记录异常度,记录异常度与距离成正相关关系;基于记录异常度确定目标资源转移记录的模型检测结果。
其中,参考聚类簇用于作为对目标资源转移记录确定模型检测结果时的参考依据。正常记录簇指的是该聚类簇中的资源转移记录相对于其他聚类簇中的资源转移记录的正常概率高。正常记录聚类簇对应的记录数量阈值根据目标资源转移记录集合中目标资源转移记录的总数量进行确定,该记录数量阈值用于保证正常记录聚类簇中的目标资源转移记录的数量占总数量的绝对多数,而这个绝对多数,是一个可以设置的参数α,它的取值范围是0.5到1,一般取0.9。参考聚类簇的目标资源转移记录的数量占总数量的绝对多数,因此也可以将参考聚类簇称为大簇,将大簇之外的其他聚类簇称为小簇。
在一些实施例中,参数聚类簇可通过以下步骤生成:首先基于资源转移特征对资源转移记录进行聚类,得到多个聚类簇,统计各个聚类簇中目标资源转移记录的数量,将数量大于记录数量阈值的簇确定为参考聚类簇。在具体实施例时,聚类方法可以采用k-means算法(k-means clustering algorithm,k均值聚类算法)。其中,聚类时过程中的资源转移记录可以是历史资源转移记录,也可以是目标资源转移记录。
如图6所示,为一个具体的实施例中,对资源转移记录基于目标特征维度下的资源转移特征进行聚类得到的聚类结果图,参考图7,聚类得到四个聚类簇C1、C2、C3和C4,其中,C2和C4为大簇,C1和C3为小簇,那么对于如果一个目标资源转移记录集合中的一个目标资源转移记录,可以计算其与各个聚类簇的距离,可以理解的,距离C2或者C4的中心(即k-means里面的聚类中心)越近,则该目标资源转移记录越正常,反之越异常,那么当计算得到的距离中最短的距离为与C2或者C4的距离时,则该目标资源转移记录为正常资源转移记录。
基于此,服务器可以根据某个目标资源转移记录的目标资源转移特征集合确定该目标资源转移记录的特征向量,计算该特征向量与各个参考聚类簇的距离,根据最小的距离值确定目标资源转移记录所对应的记录异常度,记录异常度与距离成正相关关系,即距离越大,记录异常度越大。在具体实施过程中,本申请实施例中的距离可以为欧式距离。
进一步,服务器可以基于记录异常度确定目标资源转移记录的模型检测结果。具体地,服务器可以将记录异常度作为目标资源转移记录的模型检测结果;或者,服务器可以根据记录异常度与预设异常度阈值之间判断该目标资源转移记录是正常还是异常,当记录异常度大于该预设异常度阈值时,得到的模型检测结果为异常,反之,得到的模型检测结果为正常。在其他实施例中,服务器还可以统计目标资源转移记录集合中各个目标资源转移特征的记录异常度,将预设比例距离最大的目标资源转移记录的模型检测结果确定为异常。
上述实施例中,通过获取参考聚类簇,基于目标资源转移特征集合确定目标资源转移记录与参考聚类簇的距离,基于距离确定目标资源转移记录所对应的记录异常度,记录异常度与距离成正相关关系,基于记录异常度确定目标资源转移记录的模型检测结果,可以结合资源转移记录的整体特征分类进行异常检测,得到的模型检测结果可以从整体上反映资源转移记录是否异常。
在一些实施例中,通过异常检测模型对目标资源转移特征集合进行异常检测,得到异常检测模型对目标资源转移记录的模型检测结果包括:首先计算目标资源转移记录在资源转移记录集合中的K-临近距离,根据K-临近距离计算目标资源转移记录的可达距离,基于可达距离计算局部可达密度,最后基于局部可达密度计算局部异常因子,将计算得到的局部异常因子确定为目标资源转移记录的模型检测结果。其中,资源转移记录集合可以包括历史资源转移记录,也可以包括目标资源转移记录。
其中,在距离数据点p最近的几个点中,第k个最近的点跟点p之间的距离称为点p的K-邻近距离,记为k-distance(p),可达距离的定义跟K-邻近距离是相关的,给定参数k时,数据点p到数据点o的可达距离reach-dist(p,o)为数据点o的K-邻近距离和数据点p与点o之间的直接距离的最大值。即:
reach_distk(p,o)=max{k-distance(o),d(p,0)}
局部可达密度的定义是基于可达距离的,对于数据点p,那些跟点p的距离小于等于k-distance(p)的数据点称为它的k-nearest-neighbor,记为Nk(p),数据点p的局部可达密度lrdk(p)为它与邻近的数据点的平均可达距离的倒数,即:
根据局部可达密度的定义,如果一个数据点跟其他点比较疏远的话,那么显然它的局部可达密度就小。但是衡量一个数据点的异常程度,并不是看它的绝对局部密度,而是看它跟周围邻近的数据点的相对密度,从而可以允许数据分布不均匀、密度不同的情况。局部异常因子即是用局部相对密度来定义的。数据点p的局部相对密度(局部异常因子)为点p的邻居们的平均局部可达密度lrdk(o)跟数据点p的局部可达密度lrdk(p)的比值,即:
在一些实施例中,对目标资源转移记录的模型检测结果进行统计,得到目标资源转移记录的异常检测结果,包括:确定目标资源转移记录的各个模型检测结果中,模型检测结果为异常的异常结果数量;当异常结果数量超过异常数量阈值时,确定目标资源转移记录为异常资源转移记录。
其中,模型检测结果为异常指的是模型检测结果为目标资源转移记录为异常资源转移记录。其中,异常数量阈值的大小可以根据实际情况确定,可以是预先设定的固定阈值,也可以是根据目标资源转移记录的数量确定,例如:将目标资源转移记录的数量乘以固定的系数,将乘积作为异常数量阈值。
在一些实施例中,当异常结果数量超过异常数量阈值时,服务器可以判定超过异常数量阈值的异常检测模型将目标资源转移记录识别为异常资源转移记录。
在一些实施例中,当目标资源转移记录的数量为多个时,如果异常结果数量超过异常数量阈值,则可以将所有的目标资源转移记录都确定为异常资源转移记录,也可以将异常结果数量超过异常数量阈值所对应的目标资源转移记录确定为异常资源转移记录。
上述实施例,当确定超过异常数量阈值的模型检测结果为异常时,将目标资源转移记录确定为异常资源转移记录,将多个异常检测模型的结果进行整合进而得到异常检测结果,相比于通过单个异常检测模型得到异常检测结果而言,这种方式所得到的结果具有更高的准确性。
在一些实施例中,模型检测结果可以通过目标资源转移记录为异常资源转移记录的概率值表示。进一步地,对异常检测模型集合中各个异常检测模型对目标资源转移记录的模型检测结果进行统计,得到目标资源转移记录的异常检测结果,包括:基于各个异常检测模型对目标资源转移记录的模型检测结果,确定各个异常检测模型对目标资源转移记录为异常资源转移记录的模型概率;分别获取各个异常检测模型的模型概率相对于对应的概率阈值的比较信息,基于比较信息将各个异常检测模型的模型概率转化为目标资源转移记录为异常资源转移记录的投票结果;对各个异常检测模型对应的投票结果进行统计,得到目标资源转移记录的异常检测结果。
其中,概率阈值的大小可以根据实际情况确定,可以是预先设定的固定阈值,也可以是根据各个异常检测模型对应的模型概率确定,例如:将各个异常检测模型对应的模型概率的平均值作为概率阈值。进一步地,可以确定概率阈值的粗略范围,将概率阈值的粗略范围内的各个概率阈值构成候选概率阈值,进而逐个遍历候选概率阈值,基于所选取的候选概率阈值来确定用户的异常检测结果,将异常检测结果与标签数据库中对应用户的标签进行比对,如果两者比对一致,例如:两者均表征对应的用户为异常资源转移记录,则判定所选取的候选概率阈值选取得当,将其作为异常检测模型的概率阈值;而如果两者比对不一致,则判定所选取的候选概率阈值不合适,遍历下一个候选概率阈值,直到所选取的候选概率阈值得当。通过遍历的方式能够从多个候选概率阈值中确定合适的概率阈值,进而基于所选取的概率阈值得到准确可靠的异常检测模型。
在一些实施例中,对投票结果进行统计可以是确定投票结果为异常资源转移记录的投票数量,当投票数量大于投票数量阈值时,将目标资源转移记录的异常检测结果确定为异常资源转移记录,当投票数量小于或等于投票数量阈值时,将目标资源转移记录的异常检测结果确定为正常资源转移记录。其中,投票数量阈值可以根据实际情况确定,可以是预先设定的固定阈值,也可以是根据异常检测模型的个数确定,例如:异常检测模型的数量总和确定为投票数量阈值,在这种情况下,只有所有异常检测模型对应的投票结果均为异常资源转移记录时,服务器才会将目标资源转移记录确定为异常资源转移记录。
上述实施例,确定各个异常检测模型对应的投票结果,对这些投票结果进行统计,能够整合多个异常检测模型的投票信息来得到准确的异常检测结果。
如图7所示,为一个具体的实施例中,本申请实施例提供的资源处理方法的流程示意图。参考图7,服务器首先接入当前资源转移业务场景,从该业务场景对应的数据库中初步选择资源转移记录对应的特征维度,得到候选特征维度集合,然后对该集合中各个候选特征维度根据维度异常度进行排序,根据排序结果选择预设数量的目标特征维度,当需要进行异常识别时,服务器获取待识别的目标资源转移记录在各个目标特征维度上的资源转移特征,得到该目标资源转移记录的目标资源转移特征集合,然后基于三个不同的异常检测模型对目标资源转移特征集合进行异常检测,最后结果三个模型输出的模型检测结果进行统计以融合三个模型检测结果得到对目标资源转移记录的异常识别结果。
本申请还提供一种应用场景,该应用场景应用上述的资源转移数据处理方法。在该应用场景中,应用本申请实施例提供的资源转移数据处理方法可以对刷单交易进行识别,每一笔刷单交易产生的交易数据记录即为本申请实施例中的资源转移记录,通过对该交易数据记录进行异常识别,可以判断该笔交易是否为刷单交易。刷单,一般是由卖家提供购买费用,帮指定的网店卖家购买商品提高销量和信用度,并填写虚假好评的行为。通过这种方式,网店可以获得较好的搜索排名,比如,在平台搜索时“按销量”搜索,该店铺因为销量大(即便是虚假的)会更容易被买家找到。
具体地,该资源转移数据处理方法在该应用场景的应用如下:
(一)确定目标特征维度集合。
1、服务器获取候选特征维度的第一资源转移特征在对应的历史特征集合中的第一特征分布值,以及获取历史特征集合对应的代表特征分布值。
2、服务器基于第一特征分布值与代表特征分布值的差异得到第一资源转移特征对应的特征异常度。
具体地,获取第一资源转移特征与不同特征维度的第二资源转移特征在历史资源转移记录集合的共现次数,基于共现次数以及特征异常度得到第一资源转移特征与第二资源转移特征之间的异常传递权重,基于异常传递权重将第二资源转移特征的特征异常度传递至第一资源转移特征,得到第一资源转移特征的传递异常度,统计第一资源转移特征的传递异常度,得到候选特征维度的维度异常度。
在基于异常传递权重将第二资源转移特征的特征异常度传递至第一资源转移特征,得到第一资源转移特征的传递异常度时,具体实现为:将历史资源转移记录集合中各个历史资源转移记录的资源转移特征作为节点,将存在共现关系的资源转移特征进行连接,得到特征连接图,其中,特征连接图中第二资源转移特征的节点与第一资源转移特征的节点存在连接边;在特征连接图中,基于第二资源转移特征的特征异常度以及连接边对应的异常传递权重对第一资源转移特征的节点的特征异常度进行迭代更新,将满足迭代停止条件时第一资源转移特征的特征异常度作为第一资源转移特征的传递异常度。
3、服务器基于第一资源转移特征对应的特征异常度得到候选特征维度对应的维度异常度。
4、服务器根据候选特征维度的维度异常度从候选特征维度集合中选取得到目标特征维度,组成目标特征维度集合。
(二)异常检测。
参考图8,异常检测过程包括:服务器首先从目标资源转移记录中选择目标特征维度的资源转移特征(即特征选择),得到目标资源转移特征集合,进一步,基于异常检测模型集合中的三个异常检测模型分别进行异常检测,分别得到各自的模型检测结果,最后对三个模型检测结果进行统计以融合这三个模型检测结果得到异常检测结果。具体步骤如下:
1、服务器获取待识别的目标资源转移记录集合,目标资源转移记录集合包括多个目标资源转移记录,获取各个目标资源转移记录在目标特征维度上的目标资源转移特征,组成目标资源转移记录对应的目标资源转移特征集合。
2、服务器确定异常检测模型集合,异常检测模型集合中包括三个不同的异常检测模型,通过异常检测模型对目标资源转移特征集合进行异常检测,得到异常检测模型对目标资源转移记录的模型检测结果。具体地:
1)通过异常检测模型1进行异常检测。服务器获取特征分布结构树,特征分布结构树包括多个子节点;将特征分布结构树的初始节点作为目标资源转移特征集合对应的当前子节点,获取当前子节点所对应的当前特征维度,获取当前特征维度所对应的当前特征集合的当前特征划分阈值;基于当前特征划分阈值以及目标资源转移特征集合在当前特征维度的资源转移特征,确定目标资源转移特征在当前特征集合中的分布结果;基于分布结果确定目标资源转移特征集合对应的下一子节点,将下一节点作为更新后的当前子节点,返回获取当前子节点所对应的当前特征维度,获取当前特征维度所对应的当前特征集合的当前特征划分阈值的步骤,直至目标资源转移特征集合对应的子节点更新完毕,基于分布结果确定目标资源转移特征集合所对应的子节点;对目标资源转移特征集合所对应的子节点的数量进行统计,得到目标资源转移特征集合在特征分布结构树中的路径长度基于路径长度确定目标资源转移记录对应的第一异常检测值,第一异常检测值与路径长度成负相关关系,基于第一异常检测值确定目标资源转移记录的模型检测结果。
2)通过异常检测模型2进行异常检测。服务器获取异常检测模型中目标特征集合所对应的特征划分区间集合,特征划分区间集合包括多个特征划分区间,获取目标特征集合中的资源转移特征在各个特征划分区间的特征数量,基于特征数量确定特征划分区间所对应的分布密度,将分布密度作为目标资源转移特征在所在特征维度的目标特征集合中的分布结果,基于分布密度确定目标资源转移特征所对应的特征异常检测值,特征异常检测值与分布密度成负相关关系,对目标资源转移特征集合中各个目标资源转移特征所对应的特征异常检测值进行统计,得到目标资源转移记录对应的第二异常检测值,基于第二异常检测值确定异常检测模型对目标资源转移记录的模型检测结果。
3)通过异常检测模型2进行异常检测。服务器获取参考聚类簇,参考聚类簇是基于资源转移特征对资源转移记录进行聚类得到的,参考聚类簇中的资源转移记录数量大于正常记录聚类簇对应的记录数量阈值,基于目标资源转移特征集合确定目标资源转移记录与参考聚类簇的距离,基于距离确定目标资源转移记录所对应的记录异常度,记录异常度与距离成正相关关系,基于记录异常度确定目标资源转移记录的模型检测结果。
在融合三个模型检测结果时,服务器确定目标资源转移记录的各个模型检测结果中,模型检测结果为异常的异常结果数量;当异常结果数量超过异常数量阈值时,确定目标资源转移记录为异常资源转移记录。
通过本申请实施例提供的方法,可以准确地识别出刷单交易数据,进一步可以将刷单交易数据所对应的用户识别为异常用户。当识别到刷单交易时,服务器可以向第二终端发送提示信息。服务器还可以对异常用户的交易账户进行交易限制,以在预设时间段内禁止该交易账户再次进行刷单交易。
应该理解的是,虽然图2及图8的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2及图8中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一些实施例中,如图9所示,提供了一种资源转移数据处理装置900,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:
目标特征维度获取模块902,用于获取目标特征维度集合;目标特征维度集合是根据候选特征维度的维度异常度从候选特征维度集合中选取得到的;维度异常度是根据候选特征维度的第一资源转移特征在对应的历史特征集合中的特征分布确定的;
资源转移特征选择模块904,用于获取待识别的目标资源转移记录集合,目标资源转移记录集合包括多个目标资源转移记录,获取各个目标资源转移记录在目标特征维度上的目标资源转移特征,组成目标资源转移记录对应的目标资源转移特征集合;
检测模型确定模块906,用于确定异常检测模型集合,异常检测模型集合中包括多个不同的异常检测模型;
异常检测模块908,用于通过异常检测模型对目标资源转移特征集合进行异常检测,得到异常检测模型对目标资源转移记录的模型检测结果;其中,至少一个异常检测模型是基于目标资源转移特征在所在特征维度对应的目标特征集合中的分布结果得到模型检测结果的;
检测结果统计模块910,用于对目标资源转移记录的模型检测结果进行统计,得到目标资源转移记录的异常检测结果。
上述资源转移数据处理装置,一方面,由于采用了多个不同的异常检测模型进行异常检测,综合统计这些异常检测模型对应的模型检测结果,得到目标资源转移记录的异常检测结果,能够基于多种不同的异常检测策略来确定目标资源转移记录的异常检测结果,有效提高了资源转移记录的准确度,另一方面,由于,在进行异常检测时,获取目标资源转移记录在目标特征维度集合中的目标特征维度上的目标资源转移特征组成目标资源转移特征集合来进行异常检测,其中目标特征维度集合是根据候选特征维度的维度异常度从候选特征维度集合中选取得到的,维度异常度是根据候选特征维度的第一资源转移特征在对应的历史特征集合中的特征分布确定的,那么分布结果可以很好地反映资源转移特征的异常性,而由于多个异常检测模型中至少一个异常检测模型是基于目标资源转移特征在所在特征维度对应的目标特征集合中的分布结果得到模型检测结果的,从而在异常检测过程中充分考虑到了资源转移特征的异常性,进一步提高了资源转移记录识别的准确性。
在一些实施例中,上述装置还包括:维度异常度获得模块,用于获取候选特征维度的第一资源转移特征在对应的历史特征集合中的第一特征分布值,以及获取历史特征集合对应的代表特征分布值;基于第一特征分布值与代表特征分布值的差异得到第一资源转移特征对应的特征异常度;基于第一资源转移特征对应的特征异常度得到候选特征维度对应的维度异常度。
在一些实施例中,维度异常度获得模块,还用于获取第一资源转移特征与不同特征维度的第二资源转移特征在历史资源转移记录集合的共现次数;基于共现次数以及特征异常度得到第一资源转移特征与第二资源转移特征之间的异常传递权重;基于异常传递权重将第二资源转移特征的特征异常度传递至第一资源转移特征,得到第一资源转移特征的传递异常度;统计第一资源转移特征的传递异常度,得到候选特征维度的维度异常度。
在一些实施例中,维度异常度获得模块,还用于将历史资源转移记录集合中各个历史资源转移记录的资源转移特征作为节点,将存在共现关系的资源转移特征进行连接,得到特征连接图,其中,特征连接图中第二资源转移特征的节点与第一资源转移特征的节点存在连接边;在特征连接图中,基于第二资源转移特征的特征异常度以及连接边对应的异常传递权重对第一资源转移特征的节点的特征异常度进行迭代更新,将满足迭代停止条件时第一资源转移特征的特征异常度作为第一资源转移特征的传递异常度。
在一些实施例中,异常检测模块,还用于在目标资源转移记录所对应的目标资源转移特征集合中获取特征维度对应的资源转移特征,得到各个特征维度分别对应的目标特征集合;获取异常检测模型对目标特征集合的分布划分方式,基于分布划分方式对目标资源转移特征在所在特征维度的目标特征集合中进行划分,得到目标资源转移特征在所在特征维度对应的目标特征集合中的分布结果;基于异常检测模型所得到的分布结果确定异常检测模型对目标资源转移记录的模型检测结果。
在一些实施例中,特征集合对应的分布划分方式包括基于阈值进行划分的方式,异常检测模块,还用于获取特征分布结构树,特征分布结构树包括多个子节点;将特征分布结构树的初始节点作为目标资源转移特征集合对应的当前子节点,获取当前子节点所对应的当前特征维度,获取当前特征维度所对应的当前特征集合的当前特征划分阈值;基于当前特征划分阈值以及目标资源转移特征集合在当前特征维度的资源转移特征,确定目标资源转移特征在当前特征集合中的分布结果;基于分布结果确定目标资源转移特征集合对应的下一子节点,将下一节点作为更新后的当前子节点,返回获取当前子节点所对应的当前特征维度,获取当前特征维度所对应的当前特征集合的当前特征划分阈值的步骤,直至目标资源转移特征集合对应的子节点更新完毕。
在一些实施例中,异常检测模块,还用于基于分布结果确定目标资源转移特征集合所对应的子节点;对目标资源转移特征集合所对应的子节点的数量进行统计,得到目标资源转移特征集合在特征分布结构树中的路径长度;基于路径长度确定目标资源转移记录对应的第一异常检测值,第一异常检测值与路径长度成负相关关系;基于第一异常检测值确定目标资源转移记录的模型检测结果。
在一些实施例中,特征集合对应的分布划分方式包括基于分布区间进行划分的方式,异常检测模块,还用于获取异常检测模型中目标特征集合所对应的特征划分区间集合,特征划分区间集合包括多个特征划分区间;获取目标特征集合中的资源转移特征在各个特征划分区间的特征数量;基于特征数量确定特征划分区间所对应的分布密度,将分布密度作为目标资源转移特征在所在特征维度的目标特征集合中的分布结果。
在一些实施例中,异常检测模块,还用于基于分布密度确定目标资源转移特征所对应的特征异常检测值,特征异常检测值与分布密度成负相关关系;对目标资源转移特征集合中各个目标资源转移特征所对应的特征异常检测值进行统计,得到目标资源转移记录对应的第二异常检测值;基于第二异常检测值确定异常检测模型对目标资源转移记录的模型检测结果。
在一些实施例中,异常检测模块,还用于获取参考聚类簇,参考聚类簇是基于资源转移特征对资源转移记录进行聚类得到的,参考聚类簇中的资源转移记录数量大于正常记录聚类簇对应的记录数量阈值;基于目标资源转移特征集合确定目标资源转移记录与参考聚类簇的距离;基于距离确定目标资源转移记录所对应的记录异常度,记录异常度与距离成正相关关系;基于记录异常度确定目标资源转移记录的模型检测结果。
在一些实施例中,检测结果统计模块,还用于确定目标资源转移记录的各个模型检测结果中,模型检测结果为异常的异常结果数量;当异常结果数量超过异常数量阈值时,确定目标资源转移记录为异常资源转移记录。
关于资源转移数据处理装置的具体限定可以参见上文中对于资源转移数据处理方法的限定,在此不再赘述。上述资源转移数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一些实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储资源转移数据处理数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种资源转移数据处理方法。
本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一些实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一些实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一些实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (15)
1.一种资源转移数据处理方法,其特征在于,所述方法包括:
获取目标特征维度集合;所述目标特征维度集合是根据候选特征维度的维度异常度从候选特征维度集合中选取得到的;所述维度异常度是根据所述候选特征维度的第一资源转移特征在对应的历史特征集合中的特征分布确定的;
获取待识别的目标资源转移记录集合,所述目标资源转移记录集合包括多个目标资源转移记录,获取各个所述目标资源转移记录在所述目标特征维度上的目标资源转移特征,组成所述目标资源转移记录对应的目标资源转移特征集合;
确定异常检测模型集合,所述异常检测模型集合中包括多个不同的异常检测模型;
通过所述异常检测模型对所述目标资源转移特征集合进行异常检测,得到所述异常检测模型对所述目标资源转移记录的模型检测结果;其中,至少一个异常检测模型是基于所述目标资源转移特征在所在特征维度对应的目标特征集合中的分布结果得到所述模型检测结果的;
对所述目标资源转移记录的模型检测结果进行统计,得到所述目标资源转移记录的异常检测结果。
2.根据权利要求1所述的方法,其特征在于,得到所述候选特征维度的维度异常度的步骤包括:
获取所述候选特征维度的第一资源转移特征在对应的历史特征集合中的第一特征分布值,以及获取所述历史特征集合对应的代表特征分布值;
基于所述第一特征分布值与所述代表特征分布值的差异得到所述第一资源转移特征对应的特征异常度;
基于所述第一资源转移特征对应的特征异常度得到所述候选特征维度对应的维度异常度。
3.根据权利要求2所述的方法,其特征在于,所述基于所述第一资源转移特征对应的特征异常度得到所述候选特征维度对应的维度异常度包括:
获取所述第一资源转移特征与不同特征维度的第二资源转移特征在历史资源转移记录集合的共现次数;
基于所述共现次数以及所述特征异常度得到所述第一资源转移特征与所述第二资源转移特征之间的异常传递权重;
基于所述异常传递权重将所述第二资源转移特征的特征异常度传递至所述第一资源转移特征,得到所述第一资源转移特征的传递异常度;
统计所述第一资源转移特征的传递异常度,得到所述候选特征维度的维度异常度。
4.根据权利要求3所述的方法,其特征在于,所述基于所述异常传递权重将所述第二资源转移特征的特征异常度传递至所述第一资源转移特征,得到所述第一资源转移特征的传递异常度包括:
将所述历史资源转移记录集合中各个历史资源转移记录的资源转移特征作为节点,将存在共现关系的资源转移特征进行连接,得到特征连接图,其中,所述特征连接图中所述第二资源转移特征的节点与所述第一资源转移特征的节点存在连接边;
在所述特征连接图中,基于所述第二资源转移特征的特征异常度以及所述连接边对应的异常传递权重对所述第一资源转移特征的节点的特征异常度进行迭代更新,将满足迭代停止条件时所述第一资源转移特征的特征异常度作为所述第一资源转移特征的传递异常度。
5.根据权利要求1所述的方法,其特征在于,所述通过所述异常检测模型对所述目标资源转移特征集合进行异常检测,得到所述异常检测模型对所述目标资源转移记录的模型检测结果,包括:
在所述目标资源转移记录所对应的目标资源转移特征集合中获取特征维度对应的资源转移特征,得到各个特征维度分别对应的目标特征集合;
获取异常检测模型对所述目标特征集合的分布划分方式,基于所述分布划分方式对目标资源转移特征在所在特征维度的目标特征集合中进行划分,得到所述目标资源转移特征在所在特征维度对应的目标特征集合中的分布结果;
基于所述异常检测模型所得到的所述分布结果确定所述异常检测模型对所述目标资源转移记录的模型检测结果。
6.根据权利要求5所述的方法,其特征在于,所述特征集合对应的分布划分方式包括基于阈值进行划分的方式,所述获取异常检测模型对所述目标特征集合的分布划分方式,基于所述分布划分方式对目标资源转移特征在所在特征维度的目标特征集合中进行划分,得到目标资源转移特征在所在特征维度对应的目标特征集合中的分布结果包括:
获取特征分布结构树,所述特征分布结构树包括多个子节点;
将特征分布结构树的初始节点作为所述目标资源转移特征集合对应的当前子节点,获取当前子节点所对应的当前特征维度,获取当前特征维度所对应的当前特征集合的当前特征划分阈值;
基于当前特征划分阈值以及所述目标资源转移特征集合在当前特征维度的资源转移特征,确定所述目标资源转移特征在当前特征集合中的分布结果;
基于所述分布结果确定所述目标资源转移特征集合对应的下一子节点,将下一节点作为更新后的当前子节点,返回获取当前子节点所对应的当前特征维度,获取当前特征维度所对应的当前特征集合的当前特征划分阈值的步骤,直至所述目标资源转移特征集合对应的子节点更新完毕。
7.根据权利要求6所述的方法,其特征在于,所述基于所述异常检测模型所得到的所述分布结果确定所述异常检测模型对所述目标资源转移记录的模型检测结果包括:
基于所述分布结果确定所述目标资源转移特征集合所对应的子节点;对所述目标资源转移特征集合所对应的子节点的数量进行统计,得到所述目标资源转移特征集合在所述特征分布结构树中的路径长度;
基于所述路径长度确定所述目标资源转移记录对应的第一异常检测值,所述第一异常检测值与所述路径长度成负相关关系;
基于所述第一异常检测值确定所述目标资源转移记录的模型检测结果。
8.根据权利要求5所述的方法,其特征在于,所述特征集合对应的分布划分方式包括基于分布区间进行划分的方式,所述获取异常检测模型对所述目标特征集合的分布划分方式,基于所述分布划分方式对目标资源转移特征在所在特征维度的目标特征集合中进行划分,得到目标资源转移特征在所在特征维度对应的目标特征集合中的分布结果包括:
获取所述异常检测模型中所述目标特征集合所对应的特征划分区间集合,所述特征划分区间集合包括多个特征划分区间;
获取所述目标特征集合中的资源转移特征在各个特征划分区间的特征数量;
基于所述特征数量确定所述特征划分区间所对应的分布密度,将所述分布密度作为所述目标资源转移特征在所在特征维度的目标特征集合中的分布结果。
9.根据权利要求8所述的方法,其特征在于,所述基于所述异常检测模型所得到的所述分布结果确定所述异常检测模型对所述目标资源转移记录的模型检测结果包括:
基于所述分布密度确定所述目标资源转移特征所对应的特征异常检测值,所述特征异常检测值与所述分布密度成负相关关系;
对所述目标资源转移特征集合中各个目标资源转移特征所对应的特征异常检测值进行统计,得到所述目标资源转移记录对应的第二异常检测值;
基于所述第二异常检测值确定所述异常检测模型对所述目标资源转移记录的模型检测结果。
10.根据权利要求1所述的方法,其特征在于,所述通过所述异常检测模型对所述目标资源转移特征集合进行异常检测,得到所述异常检测模型对所述目标资源转移记录的模型检测结果包括:
获取参考聚类簇,所述参考聚类簇是基于资源转移特征对资源转移记录进行聚类得到的,所述参考聚类簇中的资源转移记录数量大于正常记录聚类簇对应的记录数量阈值;
基于所述目标资源转移特征集合确定所述目标资源转移记录与所述参考聚类簇的距离;
基于所述距离确定所述目标资源转移记录所对应的记录异常度,所述记录异常度与所述距离成正相关关系;
基于所述记录异常度确定所述目标资源转移记录的模型检测结果。
11.根据权利要求1至10任意一项所述的方法,其特征在于,所述对所述目标资源转移记录的模型检测结果进行统计,得到所述目标资源转移记录的异常检测结果,包括:
确定所述目标资源转移记录的各个模型检测结果中,模型检测结果为异常的异常结果数量;
当所述异常结果数量超过异常数量阈值时,确定所述目标资源转移记录为异常资源转移记录。
12.一种资源转移数据处理装置,其特征在于,所述装置包括:
目标特征维度获取模块,用于获取目标特征维度集合;所述目标特征维度集合是根据候选特征维度的维度异常度从候选特征维度集合中选取得到的;所述维度异常度是根据所述候选特征维度的第一资源转移特征在对应的历史特征集合中的特征分布确定的;
资源转移特征选择模块,用于获取待识别的目标资源转移记录集合,所述目标资源转移记录集合包括多个目标资源转移记录,获取各个所述目标资源转移记录在所述目标特征维度上的目标资源转移特征,组成所述目标资源转移记录对应的目标资源转移特征集合;
检测模型确定模块,用于确定异常检测模型集合,所述异常检测模型集合中包括多个不同的异常检测模型;
异常检测模块,用于通过所述异常检测模型对所述目标资源转移特征集合进行异常检测,得到所述异常检测模型对所述目标资源转移记录的模型检测结果;其中,至少一个异常检测模型是基于所述目标资源转移特征在所在特征维度对应的目标特征集合中的分布结果得到所述模型检测结果的;
检测结果统计模块,用于对所述目标资源转移记录的模型检测结果进行统计,得到所述目标资源转移记录的异常检测结果。
13.根据权利要求12所述的装置,其特征在于,所述装置还包括:
维度异常度获得模块,用于获取所述候选特征维度的第一资源转移特征在对应的历史特征集合中的第一特征分布值,以及获取所述历史特征集合对应的代表特征分布值;基于所述第一特征分布值与所述代表特征分布值的差异得到所述第一资源转移特征对应的特征异常度;基于所述第一资源转移特征对应的特征异常度得到所述候选特征维度对应的维度异常度。
14.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至11中任一项所述的方法的步骤。
15.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110476992.5A CN115271712A (zh) | 2021-04-29 | 2021-04-29 | 资源转移数据方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110476992.5A CN115271712A (zh) | 2021-04-29 | 2021-04-29 | 资源转移数据方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115271712A true CN115271712A (zh) | 2022-11-01 |
Family
ID=83744822
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110476992.5A Pending CN115271712A (zh) | 2021-04-29 | 2021-04-29 | 资源转移数据方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115271712A (zh) |
-
2021
- 2021-04-29 CN CN202110476992.5A patent/CN115271712A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI703503B (zh) | 風險交易識別方法、裝置、伺服器及儲存媒體 | |
CN109003089B (zh) | 风险识别方法及装置 | |
Ala’raj et al. | A deep learning model for behavioural credit scoring in banks | |
CN111931505A (zh) | 一种基于子图嵌入的跨语言实体对齐方法 | |
CN112214499B (zh) | 图数据处理方法、装置、计算机设备和存储介质 | |
CN111325248A (zh) | 降低贷前业务风险的方法及系统 | |
CN114187112A (zh) | 账户风险模型的训练方法和风险用户群体的确定方法 | |
TW201942814A (zh) | 物件分類方法、裝置、伺服器及儲存媒體 | |
CN113283902B (zh) | 一种基于图神经网络的多通道区块链钓鱼节点检测方法 | |
CN114298176A (zh) | 一种欺诈用户检测方法、装置、介质及电子设备 | |
CN114240659A (zh) | 一种基于动态图卷积神经网络的区块链异常节点识别方法 | |
CN117272204A (zh) | 异常数据检测方法、装置、存储介质和电子设备 | |
CN112836750A (zh) | 一种系统资源分配方法、装置及设备 | |
Sawant et al. | Study of Data Mining Techniques used for Financial Data Analysis | |
CN115618008A (zh) | 账户状态模型构建方法、装置、计算机设备和存储介质 | |
CN115797041A (zh) | 基于深度图半监督学习的金融信用评估方法 | |
US7343362B1 (en) | Low complexity classification from a single unattended ground sensor node | |
CN113538126A (zh) | 基于gcn的欺诈风险预测方法及装置 | |
CN115115369A (zh) | 数据处理方法、装置、设备及存储介质 | |
CN112766320A (zh) | 一种分类模型训练方法及计算机设备 | |
Santos et al. | Bayesian Method with Clustering Algorithm for Credit Card Transaction Fraud Detection. | |
CN116805245A (zh) | 基于图神经网络与解耦表示学习的欺诈检测方法及系统 | |
CN116595486A (zh) | 风险识别方法、训练风险识别模型的方法及对应装置 | |
CN113761292A (zh) | 对象识别方法、装置、计算机设备和存储介质 | |
CN115271712A (zh) | 资源转移数据方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |