CN116451050A - 异常行为识别模型训练、异常行为识别方法和装置 - Google Patents
异常行为识别模型训练、异常行为识别方法和装置 Download PDFInfo
- Publication number
- CN116451050A CN116451050A CN202210016874.0A CN202210016874A CN116451050A CN 116451050 A CN116451050 A CN 116451050A CN 202210016874 A CN202210016874 A CN 202210016874A CN 116451050 A CN116451050 A CN 116451050A
- Authority
- CN
- China
- Prior art keywords
- behavior
- label
- feature
- target
- tag
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 324
- 206010000117 Abnormal behaviour Diseases 0.000 title claims abstract description 215
- 238000000034 method Methods 0.000 title claims abstract description 105
- 230000006399 behavior Effects 0.000 claims abstract description 635
- 238000012546 transfer Methods 0.000 claims abstract description 317
- 238000009826 distribution Methods 0.000 claims abstract description 234
- 230000008859 change Effects 0.000 claims abstract description 101
- 230000002159 abnormal effect Effects 0.000 claims abstract description 82
- 238000003860 storage Methods 0.000 claims abstract description 18
- 238000012360 testing method Methods 0.000 claims description 136
- 238000013112 stability test Methods 0.000 claims description 68
- 238000004590 computer program Methods 0.000 claims description 27
- 238000012545 processing Methods 0.000 claims description 26
- 230000008569 process Effects 0.000 claims description 15
- 238000012795 verification Methods 0.000 claims description 14
- 230000003542 behavioural effect Effects 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 abstract description 9
- 238000005516 engineering process Methods 0.000 description 16
- 238000012216 screening Methods 0.000 description 16
- 238000013473 artificial intelligence Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 6
- 230000009471 action Effects 0.000 description 5
- 238000007477 logistic regression Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000005856 abnormality Effects 0.000 description 3
- 238000003066 decision tree Methods 0.000 description 3
- 230000004069 differentiation Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 208000001613 Gambling Diseases 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000004900 laundering Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 230000002547 anomalous effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000011840 criminal investigation Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请涉及一种异常行为识别模型训练、异常行为识别方法、装置、计算机设备和存储介质。所述方法包括:获取由会话应用中多个资源转移行为对应的行为特征组成的行为特征集合,资源转移行为存在对应的行为标签;基于同一特征维度对应的各个特征分箱计算标签分布差异,基于根据标签分布差异计算得到的标签分布差异变化信息,从各个特征维度中确定目标特征维度;基于同一资源转移行为中目标特征维度对应的目标行为特征建立训练样本,将资源转移行为对应的行为标签作为训练标签;基于训练样本和训练标签对初始异常行为识别模型进行训练,得到目标异常行为识别模型,通过模型识别会话应用中的异常资源转移行为,能够提高异常资源转移行为的识别准确性。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种异常行为识别模型训练、异常行为识别方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
随着计算机技术的发展,会话应用给人们的生活、工作带来了极大的便利,例如,人们可以在会话应用中进行资源转移。但是,在资源转移的过程中有可能出现异常行为,例如,存在欺骗性质的资源转移行为。
传统技术中,通常是基于黑名单来识别异常资源转移行为,若资源转移行为的资源接收方为黑名单用户,则确定该资源转移行为为异常资源转移行为。然而,网络上用户数量非常庞大,公开的黑名单用户只是包括一部分异常用户,容易出现漏判,从而导致异常资源转移行为的识别准确性低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高异常资源转移行为的识别准确性的异常行为识别模型训练、异常行为识别方法、装置、计算机设备、存储介质和计算机程序产品。
一种异常行为识别模型训练方法,所述方法包括:
获取行为特征集合,获取所述行为特征集合中各个特征维度的行为特征所对应的特征分箱;所述行为特征集合包括会话应用中多个资源转移行为对应的行为特征,所述资源转移行为存在对应的行为标签;
基于同一特征维度对应的各个特征分箱计算标签分布差异,基于同一特征维度对应的各个特征分箱的标签分布差异计算标签分布差异变化信息,得到所述各个特征维度对应的标签分布差异变化信息;
基于所述标签分布差异变化信息,从所述各个特征维度中确定目标特征维度;
基于同一资源转移行为中所述目标特征维度对应的目标行为特征建立训练样本,将资源转移行为对应的行为标签作为训练样本对应的训练标签;
基于所述训练样本和所述训练标签对初始异常行为识别模型进行训练,得到目标异常行为识别模型;所述目标异常行为识别模型用于识别所述会话应用中的异常资源转移行为。
一种异常行为识别模型训练装置,所述装置包括:
数据获取模块,用于获取行为特征集合,获取所述行为特征集合中各个特征维度的行为特征所对应的特征分箱;所述行为特征集合包括会话应用中多个资源转移行为对应的行为特征,所述资源转移行为存在对应的行为标签;
标签分布差异变化信息确定模块,用于基于同一特征维度对应的各个特征分箱计算标签分布差异,基于同一特征维度对应的各个特征分箱的标签分布差异计算标签分布差异变化信息,得到所述各个特征维度对应的标签分布差异变化信息;
目标特征维度确定模块,用于基于所述标签分布差异变化信息,从所述各个特征维度中确定目标特征维度;
训练样本建立模块,用于基于同一资源转移行为中所述目标特征维度对应的目标行为特征建立训练样本,将资源转移行为对应的行为标签作为训练样本对应的训练标签;
模型训练模块,用于基于所述训练样本和所述训练标签对初始异常行为识别模型进行训练,得到目标异常行为识别模型;所述目标异常行为识别模型用于识别所述会话应用中的异常资源转移行为。
一种异常行为识别方法,所述方法包括:
获取会话应用中待识别资源转移行为对应的行为特征作为待识别行为特征;
将所述待识别行为特征输入目标异常行为识别模型,得到行为识别结果;
所述目标异常行为识别模型的训练过程包括以下步骤:
获取行为特征集合,获取所述行为特征集合中各个特征维度的行为特征所对应的特征分箱;所述行为特征集合包括会话应用中多个资源转移行为对应的行为特征,所述资源转移行为存在对应的行为标签;基于同一特征维度对应的各个特征分箱计算标签分布差异,基于同一特征维度对应的各个特征分箱的标签分布差异计算标签分布差异变化信息,得到所述各个特征维度对应的标签分布差异变化信息;基于所述标签分布差异变化信息,从所述各个特征维度中确定目标特征维度;基于同一资源转移行为中所述目标特征维度对应的目标行为特征建立训练样本,将资源转移行为对应的行为标签作为训练样本对应的训练标签;基于所述训练样本和所述训练标签对初始异常行为识别模型进行训练,得到目标异常行为识别模型。
一种异常行为识别装置,所述装置包括:
特征获取模块,用于获取会话应用中待识别资源转移行为对应的行为特征作为待识别行为特征;
行为识别模块,用于将所述待识别行为特征输入目标异常行为识别模型,得到行为识别结果;
所述目标异常行为识别模型的训练过程包括以下步骤:
获取行为特征集合,获取所述行为特征集合中各个特征维度的行为特征所对应的特征分箱;所述行为特征集合包括会话应用中多个资源转移行为对应的行为特征,所述资源转移行为存在对应的行为标签;基于同一特征维度对应的各个特征分箱计算标签分布差异,基于同一特征维度对应的各个特征分箱的标签分布差异计算标签分布差异变化信息,得到所述各个特征维度对应的标签分布差异变化信息;基于所述标签分布差异变化信息,从所述各个特征维度中确定目标特征维度;基于同一资源转移行为中所述目标特征维度对应的目标行为特征建立训练样本,将资源转移行为对应的行为标签作为训练样本对应的训练标签;基于所述训练样本和所述训练标签对初始异常行为识别模型进行训练,得到目标异常行为识别模型。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述异常行为识别模型训练方法、异常行为识别方法所述的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述异常行为识别模型训练方法、异常行为识别方法所述的步骤。
一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现上述异常行为识别模型训练方法、异常行为识别方法所述的步骤。
上述异常行为识别模型训练、异常行为识别方法、装置、计算机设备、存储介质和计算机程序产品,通过获取行为特征集合,获取行为特征集合中各个特征维度的行为特征所对应的特征分箱,行为特征集合包括会话应用中多个资源转移行为对应的行为特征,资源转移行为存在对应的行为标签,基于同一特征维度对应的各个特征分箱计算标签分布差异,基于同一特征维度对应的各个特征分箱的标签分布差异计算标签分布差异变化信息,得到各个特征维度对应的标签分布差异变化信息,基于标签分布差异变化信息,从各个特征维度中确定目标特征维度,基于同一资源转移行为中目标特征维度对应的目标行为特征建立训练样本,将资源转移行为对应的行为标签作为训练样本对应的训练标签,基于训练样本和训练标签对初始异常行为识别模型进行训练,得到目标异常行为识别模型,目标异常行为识别模型用于识别会话应用中的异常资源转移行为。这样,针对会话应用中的资源转移行为,训练异常行为识别模型来识别异常的资源转移行为,可以提高异常资源转移行为的识别准确性。进一步的,由于资源转移行为对应的行为特征多种多样,不同的行为特征对行为识别的影响程度不同,为了提高模型的准确性,在生成模型的训练样本时,先基于各个特征维度对应的标签分布差异变化信息对行为特征进行筛选,从多个特征维度中确定比较重要的目标特征维度,进而基于资源转移行为中目标特征维度对应的目标行为特征建立训练样本,这样的训练样本在模型训练时可以提高模型的鲁棒性、准确性,避免模型过拟合。
附图说明
图1为一个实施例中异常行为识别模型训练、异常行为识别方法的应用环境图;
图2为一个实施例中异常行为识别模型训练方法的流程示意图;
图3为一个实施例中检验模型的可靠性的流程示意图;
图4为一个实施例中异常行为识别方法的流程示意图;
图5为一个实施例中识别社交应用中异常交易的流程示意图;
图6为一个实施例中异常行为识别模型训练装置的结构框图;
图7为一个实施例中异常行为识别装置的结构框图;
图8为一个实施例中计算机设备的内部结构图;
图9为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
应该理解,本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。除非上下文另外清楚地指出,否则单数形式“一个”、“一”或者“该”等类似词语也不表示数量限制,而是表示存在至少一个。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
本申请实施例提供的方案涉及人工智能的机器学习等技术,具体通过如下实施例进行说明:
本申请提供的异常行为识别模型训练、异常行为识别方法,可以应用于如图1所示的应用环境中。终端102和服务器104可协同用于执行本申请实施例中提供的异常行为识别模型训练方法、异常行为识别方法。例如,服务器从终端获取行为特征集合,行为特征集合包括会话应用中多个资源转移行为分别对应的多个特征维度的行为特征,资源转移行为存在对应的行为标签。服务器获取行为特征集合中各个特征维度的行为特征所对应的特征分箱,基于同一特征维度对应的各个特征分箱计算标签分布差异,基于同一特征维度对应的各个特征分箱的标签分布差异计算标签分布差异变化信息,得到各个特征维度对应的标签分布差异变化信息。服务器基于标签分布差异变化信息,从各个特征维度中确定目标特征维度,基于同一资源转移行为中目标特征维度对应的目标行为特征建立训练样本,将资源转移行为对应的行为标签作为训练样本对应的训练标签。服务器基于训练样本和训练标签对初始异常行为识别模型进行训练,得到目标异常行为识别模型。后续,服务器可以获取会话应用中待识别资源转移行为对应的行为特征作为待识别行为特征,将待识别行为特征输入目标异常行为识别模型,得到行为识别结果。服务器可以将行为识别结果发送至终端。
终端102和服务器104也可单独用于执行本申请实施例中提供的异常行为识别模型训练方法、异常行为识别方法。例如,由终端来训练初始异常行为识别模型,得到目标异常行为识别模型。由终端来基于目标异常行为识别模型识别会话应用中的异常资源转移行为。
终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能电视、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群或者云服务器来实现。
在一个实施例中,如图2所示,提供了一种异常行为识别模型训练方法,以该方法应用于计算机设备来举例说明,该计算机设备可以是上述图1中的终端102或服务器104。参考图2,异常行为识别模型训练方法包括以下步骤:
步骤S202,获取行为特征集合,获取行为特征集合中各个特征维度的行为特征所对应的特征分箱;行为特征集合包括会话应用中多个资源转移行为对应的行为特征,资源转移行为存在对应的行为标签。
其中,会话应用是指可以进行会话交流的应用程序,例如,即时通信应用、游戏应用等。会话应用可以是指安装在终端中的客户端,客户端(又可称为应用客户端、APP客户端)是指安装并运行在终端中的程序;会话应用也可以是指免安装的应用程序,即无需下载安装即可使用的应用程序,这类应用程序又可以称为小程序,它通常作为子程序运行于客户端中;会话应用还可以是指通过浏览器打开的web应用程序;等等。
用户可以在会话应用的会话界面中进行会话交流,在进行会话交流时,用户还可以进行资源转移。资源是指存在于电子账户中、能够进行流通的资源,例如,货币、虚拟红包、游戏币或者虚拟物品等。资源转移是指将资源从一个用户账户转移到另一个用户账户。资源转移行为是指用于进行资源转移的行为。用户可以在会话应用中触发资源转移行为,例如,玩家可以在游戏应用的会话界面中将自己游戏账户中的游戏币转移至其他玩家的游戏账户中,用户可以在即时通信应用的会话界面中将自己支付账户中的货币转移至其他用户的支付账户中。
一个资源转移行为对应多个行为特征,也就是,一个资源转移行为对应多个特征维度的行为特征。资源转移行为具体包括由资源转移方和资源接收方共同决定的至少一个行为特征、以及由资源转移方决定的至少一个行为特征和由资源接收方决定的至少一个行为特征。举例说明,由资源转移方和资源接收方共同决定的行为特征可以包括双方的社交关系信息,例如双方加好友的时间,双方的会话时间等。由资源转移方决定的行为特征可以包括资源转移方的对象属性信息、资源转移方的资源转移行为差异等行为特征,由资源接收方决定的行为特征可以包括资源接收方的对象属性信息,资源接收方的资源接收统计信息,资源接收方的会话频率、群发频率等行为特征。可以理解,同一资源转移行为对应的行为特征可以是基于当前资源转移行为确定的,例如,将当前资源转移行为对应的资源接收方的资源接收统计信息作为一个特征维度对应的行为特征。同一资源转移行为对应的行为特征也可以是基于当前资源转移行为和历史资源转移行为确定的,例如,将基于当前资源转移行为和历史资源转移行为之间的行为差异确定的资源转移行为差异作为一个特征维度对应的行为特征。
行为特征集合包括会话应用中多个资源转移行为分别对应的多个行为特征。行为特征集合对应的多个资源转移行为可以包括同一对资源接收方和资源发送方之间的至少一个资源转移行为,也可以包括多对资源接收方和资源发送方之间的至少一个资源转移行为。
可以理解,行为特征集合对应的各个资源转移行为是已知是否为异常行为的资源转移行为。也就是,资源转移行为存在对应的行为标签。例如,若资源转移行为是异常资源转移行为,则对应的行为标签为异常标签或负标签,若资源转移行为是正常资源转移行为,则对应的行为标签为正常标签或正标签。异常资源转移行为包括存在欺骗性质的资源转移行为、存在赌博性质的资源转移行为、存在色情性质的资源转移行为和存在洗钱性质的资源转移行为等中的至少一种。
对同一特征维度对应的多个行为特征进行分箱处理可以得到该特征维度对应的多个特征分箱。不同特征维度对应的行为特征是分开进行分箱处理的。一个特征分箱对应一个特征范围,各个行为特征归入特征数值落入的特征范围所对应的特征分箱中。
具体地,计算机设备可以获取会话应用中多个资源转移行为,对各个虚拟资源转移行为进行分析,得到各个资源转移行为对应的行为特征,将各个行为特征组成行为特征集合。计算机设备可以对行为特征集合中同一特征维度的行为特征进行分箱处理,得到各个特征维度分别对应的多个特征分箱。当然,计算机设备也可以从其他设备直接获取行为特征集合和行为特征集合对应的各个特征分箱。
步骤S204,基于同一特征维度对应的各个特征分箱计算标签分布差异,基于同一特征维度对应的各个特征分箱的标签分布差异计算标签分布差异变化信息,得到各个特征维度对应的标签分布差异变化信息。
其中,标签分布差异用于表示特征分箱中不同标签的分布差异。标签分布差异可以是基于特征分箱中不同标签的标签占比之间的差异得到的。标签分布差异变化信息用于表示同一特征维度对应的各个标签分布差异的变化趋势。可以理解,一个特征维度对应的各个特征分箱是有序排列的,例如,对会话频率进行分箱处理得到的各个会话频率分箱是按照会话频率的数值从小到大排列的。按照分箱顺序对同一特征维度对应的各个标签分布差异的变化趋势进行分析,可以得到标签分布差异变化信息。
具体地,计算机设备可以基于同一特征维度对应的各个特征分箱中不同类型行为标签的标签占比计算各个特征分箱对应的标签分布差异,进而计算机设备可以对同一特征维度对应的各个标签分布差异的变化趋势进行分析来计算标签分布差异变化信息,从而得到各个特征维度分别对应的标签分布差异变化信息。
步骤S206,基于标签分布差异变化信息,从各个特征维度中确定目标特征维度。
具体地,由于标签分布差异变化信息可以表征各个特征分箱的标签分布差异的变化趋势,针对具有稳定变化趋势的行为特征,将其用于训练模型,可以让模型更好地学习到行为特征和行为标签之间的联系,训练得到的模型会更稳定。因此,计算机设备可以基于标签分布差异变化信息,对行为特征进行筛选,从大量的特征维度中筛选出有利于模型训练的特征维度作为目标特征维度。计算机设备可以将标签分布差异变化信息符合稳定变化趋势的特征维度作为目标特征维度。
步骤S208,基于同一资源转移行为中目标特征维度对应的目标行为特征建立训练样本,将资源转移行为对应的行为标签作为训练样本对应的训练标签。
其中,目标行为特征是指目标特征维度对应的行为特征。
具体地,在确定目标特征维度后,计算机设备可以基于同一资源转移行为中目标特征维度对应的目标行为特征建立训练样本,将一个资源转移行为中目标特征维度对应的目标行为特征进行组合,得到一个训练样本,训练样本对应的训练标签为对应的资源转移行为对应的行为标签。
步骤S210,基于训练样本和训练标签对初始异常行为识别模型进行训练,得到目标异常行为识别模型;目标异常行为识别模型用于识别会话应用中的异常资源转移行为。
其中,初始异常行为识别模型是指待训练的异常行为识别模型。目标异常行为识别模型是指已训练的、训练完成的异常行为识别模型。将待识别是否异常的资源转移行为的行为特征输入目标异常行为识别模型,基于模型的输出数据可以确定该资源转移行为的行为识别结果,确定该资源转移行为是否有异常。
具体地,计算机设备可以基于训练样本和训练标签对初始异常行为识别模型进行训练,通过有监督训练,最终可以得到目标异常行为识别模型。计算机设备可以将目标异常行为识别模型部署到线上,在会话应用中的每个资源转移行为触发时,通过目标异常行为识别模型实时识别当前资源转移行为是否为异常资源转移行为,若识别出当前资源转移行为有异常,计算机设备可以对资源转移方进行提醒或拦截等操作,以减少、降低资源转移方的资源损失。例如,计算机设备可以生成告警信息,并发送至资源转移方,以提醒资源转移方当前存在资源转移风险。
在一个实施例中,可以将特征筛选部分也作为模型的组成部分,建立一个一体化的模型。例如,异常行为识别模型包括特征筛选网络和行为识别网络。将行为特征集合输入初始异常行为识别模型,通过特征筛选网络对行为特征集合进行分箱处理,通过特征筛选网络计算标签分布差异和标签分布差异变化信息,通过特征筛选网络从各个特征维度中确定目标特征维度。然后,特征筛选网络将资源转移行为中目标特征维度对应的目标行为特征输入行为识别网络,基于由资源转移行为中目标特征维度对应的目标行为特征建立的训练样本和训练样本对应的训练标签对行为识别网络进行网络训练,调整行为识别网络的网络参数。最终得到的目标异常行为识别模型包括已确定目标特征维度的特征筛选网络和已训练的行为识别网络。在模型应用时,将待识别的资源转移行为的行为特征输入目标异常行为识别模型,模型中的特征筛选网络从所有的行为特征中自动筛选出目标特征维度的行为特征输入行为识别网络,行为识别网络对目标特征维度的行为特征进行数据处理,输出行为识别结果。
在一个实施例中,异常行为识别模型可以为逻辑回归模型。逻辑回归模型可以通过逻辑判断和加权计算等简单的方式在线上部署,也就是,可以将逻辑回归模型的模型参数直接部署在会话应用对应的应用服务器或终端上。一旦检测到资源转移方触发了一个资源转移行为,就提取该资源转移行为对应的目标行为特征,将目标行为特征和相应的模型参数进行加权计算,根据计算结果判断该资源转移行为是否为异常资源转移行为。例如,可以将加权计算得到的计算结果作为行为分数,行为分数越高表示行为越正常、越安全,可以将小于预设分数的行为分数所对应的资源转移行为确定为异常资源转移行为。可以理解,异常行为识别模型也可以是其他模型,例如,XGB(Extreme Gradient Boosting,梯度提升树模型)等模型。
在一个实施例中,计算机设备可以获取测试样本,基于测试样本对目标异常行为识别模型进行模型评估,将通过模型评估的目标异常行为识别模型应用于识别会话应用中的异常资源转移行为。其中,模型评估可以包括准确性检验和稳定性检验中的至少一种。
上述异常行为识别模型训练方法中,通过获取行为特征集合,获取行为特征集合中各个特征维度的行为特征所对应的特征分箱,行为特征集合包括会话应用中多个资源转移行为对应的行为特征,基于同一特征维度对应的各个特征分箱计算标签分布差异,基于同一特征维度对应的各个特征分箱的标签分布差异计算标签分布差异变化信息,得到各个特征维度对应的标签分布差异变化信息,基于标签分布差异变化信息,从各个特征维度中确定目标特征维度,基于同一资源转移行为中目标特征维度对应的目标行为特征建立训练样本,将资源转移行为对应的行为标签作为训练样本对应的训练标签,基于训练样本和训练标签对初始异常行为识别模型进行训练,得到目标异常行为识别模型,目标异常行为识别模型用于识别会话应用中的异常资源转移行为。这样,针对会话应用中的资源转移行为,训练异常行为识别模型来识别异常的资源转移行为,可以提高异常资源转移行为的识别准确性。进一步的,由于资源转移行为对应的行为特征多种多样,不同的行为特征对行为识别的影响程度不同,为了提高模型的准确性,在生成模型的训练样本时,先基于各个特征维度对应的标签分布差异变化信息对行为特征进行筛选,从多个特征维度中确定比较重要的目标特征维度,进而基于资源转移行为中目标特征维度对应的目标行为特征建立训练样本,这样的训练样本在模型训练时可以提高模型的鲁棒性、准确性,避免模型过拟合。
在一个实施例中,资源转移行为对应的行为特征是基于资源转移方和资源接收方在会话应用中的会话消息得到的。
具体地,用户可以在会话应用的会话界面中进行会话交流,会话消息可以在一定程度上反映用户的特性,例如,诈骗用户经常群发相同或相似消息至大量用户,采用同样的诈骗手段进行欺诈。此外,用户还可以在会话界面中进行资源转移,例如,发送虚拟红包,进行转账等,因此,还可以从会话消息中提取资源转移行为。这样,在获取资源转移行为对应的行为特征时,计算机设备可以对资源转移方在会话应用中的会话消息进行分析,得到资源转移方对应的行为特征,例如,资源转移方的资源转移行为差异;对资源接收方在会话应用中的会话消息进行分析,得到资源接收方对应的行为特征,例如,资源转移方的资源接收统计信息、群发频率;对资源转移方和资源接收方之间的会话消息进行分析,得到资源转移方和资源接收方之间的行为特征,例如,资源转移方和资源接收方的社交关系信息。
在一个实施例中,在获取会话消息进行数据分析以提取资源转移行为的行为特征之前,可以在会话应用中提示用户是否同意开启会话消息分析功能。在用户同意开启会话消息分析功能后,再获取会话消息进行数据分析以提取资源转移行为的行为特征。
上述实施例中,从资源转移方和资源接收方在会话应用中的会话消息上可以挖掘出多维度的行为特征,来提高异常资源转移行为的识别精度和稳定性。
在一个实施例中,行为特征包括资源转移方和资源接收方之间的社交关系信息、资源转移方和资源接收方的对象属性信息、资源转移方的资源转移行为差异和资源接收方的资源接收统计信息,资源转移行为差异是基于资源转移方的当前资源转移行为和历史资源转移行为之间的差异得到的,资源接收统计信息是对资源接收方在预设时间段接收到的资源转移份额进行统计得到的。
其中,资源转移方是指发起资源转移的用户。资源接收方是指接收资源转移的用户。资源转移方和资源接收方之间的社交关系信息用于表征资源转移方和资源接收方之间的社交关系、双方的亲密度。经过对大量案例的案例分析可知,两个用户之间的社交关系比较疏远,双方之间容易发生异常的资源转移行为,因此,可以将社交关系信息作为识别异常资源转移行为的候选特征。社交关系信息具体可以包括双方加好友的时间、双方会话交流的时间等。例如,两个用户成为会话应用中好友的好友时间可以反映两个用户之间的亲密度,好友时间越长,用户之间越亲密,其中一方为诈骗方的可能性较低。
对象属性信息可以包括对象的基础属性、行为属性等。
资源转移行为差异是基于资源转移方的当前资源转移行为和历史资源转移行为之间的差异得到的,可以反映当前资源转移行为和历史资源转移行为是否相似。经过对大量案例的案例分析可知,若当前资源转移行为和历史资源转移行为的差异较大,在一定程度上当前资源转移行为有异常的可能性较大,因此,可以将资源转移行为差异作为识别异常资源转移行为的候选特征。资源转移行为差异可以是转移的资源份额差异,例如,若用户的当前转账金额与以往相比有较大幅度的增长,则当前资源转移行为极可能为异常行为,资源转移行为差异也可以是转移的时间差异,例如,用户往常都是在白天进行资源转移,若当前资源转移的时间为凌晨,则当前资源转移行为极可能为异常行为。
资源接收统计信息是对资源接收方在预设时间段接收到的资源转移份额进行统计得到的。预设时间段可以根据需要进行设置,例如,预设时间段可以设置为资源转移行为的触发时间所处的当天,对资源接收方在当天接收到的资源转移份额进行统计得到资源接收统计信息。举例说明,在即时通信应用中,诈骗分子由于集中作案可能存在当天收款金额突增,存在多次销赃行为,资金流水异常的情况,因此,可以将资源接收统计信息作为识别异常资源转移行为的候选特征。
上述实施例中,从资源发送方和资源接收方的双方关系、资源发送方、资源接收方三个视角出发挖掘用于行为识别的行为特征,挖掘到的行为特征多样化、多元化、具有代表性,可以提高异常资源转移行为的识别精度和稳定性。
在一个实施例中,获取行为特征集合中各个特征维度的行为特征所对应的特征分箱,包括:
基于同一特征维度对应的多个行为特征组成特征集合,得到各个特征维度对应的特征集合;分别对各个特征集合进行分箱处理,得到各个特征维度对应的特征分箱信息;分箱处理包括有监督分箱处理和无监督分箱处理中的至少一种,特征分箱信息包括同一特征维度对应的多个特征分箱。
其中,分箱处理用于把连续变量离散化、特征离散化。分箱处理方法包括有监督分箱处理方法和无监督分箱处理方法。有监督分箱处理方法包括决策树分箱、卡方分箱等方法。无监督分箱处理方法包括等频分箱、等距分箱、聚类分箱等方法。
具体地,为了评估行为特征的有效性,需要先对行为特征进行分箱,然后计算标签分布差异变化信息。关于特征分箱,计算机设备可以获取同一特征维度对应的多个行为特征组成特征集合,从而得到各个特征维度分别对应的特征集合,针对任意一个特征集合,计算机设备可以对特征集合进行分箱处理,将特征集合中的行为特征划分到多个组别中,得到多个特征分箱,一个特征分箱代表一个组别,同一特征维度对应的各个特征分箱组成特征分箱信息,最终得到各个特征维度分别对应的特征分箱信息。
上述实施例中,不同特征维度的行为特征分开进行分箱处理,并且在进行分箱处理时支持多样的分箱处理方式,灵活性较高。
在一个实施例中,基于同一特征维度对应的各个特征分箱计算标签分布差异,基于同一特征维度对应的各个特征分箱的标签分布差异计算标签分布差异变化信息,得到各个特征维度对应的标签分布差异变化信息,包括:
对各个特征分箱中同一类型的行为标签进行统计,得到各个特征分箱对应的初始标签分布信息;对同一特征维度对应的初始标签分布信息进行统计,得到各个特征维度对应的目标标签分布信息;基于同一特征维度对应的特征分箱的初始标签分布信息和目标标签分布信息计算标签占比信息,得到各个特征分箱对应的标签占比信息;标签占比信息包括各个类型的行为标签对应的标签占比;基于同一特征分箱对应的标签占比信息计算标签分布差异,得到各个特征分箱对应的标签分布差异;基于同一特征维度对应的各个特征分箱的标签分布差异确定标签分布差异的变化趋势,将标签分布差异的变化趋势作为标签分布差异变化信息,得到各个特征维度对应的标签分布差异变化信息。
其中,初始标签分布信息包括同一个特征分箱中不同类型的行为标签的标签数量,例如,初始标签分布信息包括一个特征分箱中正标签的数量、负标签的数量。目标标签分布信息包括同一特征维度下不同类型的行为标签的标签数量,例如,目标标签分布信息包括同一特征维度下正标签的总数量、负标签的总数量。将同一特征维度对应的各个初始分箱的初始标签分布信息进行汇总,可以得到目标标签分布信息。标签占比信息包括各个类型的行为标签对应的标签占比,标签占比是基于初始标签分布信息和目标标签分布信息中同一类型行为标签对应的数据的比值得到的,例如,针对一个特征分箱,基于初始标签分布信息中正标签数量和目标标签分布信息中正标签总数量的比值得到该特征分箱对应的正标签占比。
具体地,资源转移行为存在对应的行为标签,那么资源转移行为对应的行为特征和行为标签也存在关联关系。例如,若某一资源转移行为对应的行为标签为正标签,那么该资源转移行为对应的资源转移行为差异这个行为特征也可以对应正标签。计算机设备可以对各个特征分箱中行为特征对应的同一类型的行为标签进行统计,基于特征分箱中不同类型行为标签的数量得到初始标签分布信息,进而对同一特征维度对应的初始标签分布信息进行统计,基于同一特征维度下不同类型行为标签的数量得到目标标签分布信息。接着,计算机设备可以基于同一特征维度对应的特征分箱的初始标签分布信息和目标标签分布信息计算标签占比信息,具体可以基于初始标签分布信息和目标标签分布信息中同一类型的行为标签对应的数据计算标签占比,得到各种行为标签分别对应的标签占比,一个特征分箱中各种行为标签对应的标签占比组成特征分箱对应的标签占比信息。然后,计算机设备可以基于同一特征分箱对应的标签占比信息计算标签分布差异,例如,标签占比信息包括正标签占比和负标签占比,可以直接将正标签占比和负标签占比的比值作为标签分布差异,也可以对正标签占比和负标签占比的比值进行平滑处理得到标签分布差异。
在得到各个特征分箱分别对应的标签分布差异后,由于同一特征维度对应的各个特征分箱是有序排列的,计算机设备可以按照特征分箱排序,分析同一特征维度对应的各个特征分箱的标签分布差异的变化趋势,将标签分布差异的变化趋势作为标签分布差异变化信息,从而得到各个特征维度对应的标签分布差异变化信息。
在一个实施例中,标签分布差异的计算公式如下:
其中,WOEi表示第i个特征分箱对应的标签分布差异。表示第i个特征分箱对应的正标签占比,/>yi表示第i个特征分箱中正标签的数量,yT表示针对第i个特征分箱对应的特征维度,所有特征分箱中正标签的总数量。/>表示第i个特征分箱对应的负标签占比,/>ni表示第i个特征分箱中负标签的数量,nT表示针对第i个特征分箱对应的特征维度,所有特征分箱中负标签的总数量。
上述实施例中,基于初始标签分布信息和目标标签分布信息计算标签占比信息,基于标签占比信息可以快速计算得到标签分布差异。将同一特征维度对应的各个特征分箱的标签分布差异变化趋势作为标签分布差异变化信息,可以快速得到标签分布差异变化信息。
在一个实施例中,基于标签分布差异变化信息,从各个特征维度中确定目标特征维度之前,方法还包括:
基于同一特征维度对应的特征分箱的标签占比信息和标签分布差异计算分箱价值信息,得到各个特征分箱对应的初始分箱价值信息;对同一特征维度对应的各个特征分箱的初始分箱价值信息进行统计,得到各个特征维度对应的目标分箱价值信息;获取目标分箱价值信息大于预设分箱价值信息的特征维度作为候选特征维度;基于各个候选特征维度对应的标签分布差异变化信息,从各个候选特征维度中确定目标特征维度。
其中,初始分箱价值信息是指一个特征分箱对应的分箱价值信息。目标分箱价值信息是指一个特征维度对应的分箱价值信息。目标分箱价值信息是对同一特征维度的各个初始分箱价值信息进行汇总得到的。目标分箱价值信息用于表征一个特征维度的行为特征对于行为标签、行为识别结果的影响程度。可以理解,一个特征维度对应的目标分箱价值信息越大,影响程度越高,该特征维度的参考价值越高。预设分箱价值信息可以根据实际需要进行设置,例如,设置为0.3。
具体地,在从各个特征维度中确定目标特征维度时,计算机设备可以先基于各个特征维度对应的目标分箱价值信息进行初步筛选,过滤掉对行为识别结果影响程度较小的特征维度,从剩余的特征维度中基于标签分布差异变化信息进行二次筛选,从中筛选出具备稳定变化趋势的特征维度作为目标特征维度,进而将目标特征维度对应的行为特征作为入模特征进行模型训练。
在进行初步筛选时,计算机设备可以基于同一特征维度对应的特征分箱的标签占比信息和标签分布差异计算分箱价值信息,将特征分箱对应的标签占比信息和标签分布差异进行融合得到初始分箱价值信息,例如,基于标签占比信息中不同类型行为标签的标签占比计算标签占比差异,融合标签占比差异和标签分布差异得到初始分箱价值信息。接着,计算机设备对同一特征维度对应的各个特征分箱的初始分箱价值信息进行统计,将同一特征维度对应的各个初始分箱价值信息进行加权求和得到目标分箱价值信息,最终得到各个特征维度分别对应的目标分箱价值信息。考虑到一个特征维度对应的目标分箱价值信息越大,该特征维度的行为特征对行为识别结果的影响程度越高,因此,计算机设备可以获取目标分箱价值信息大于预设分箱价值信息的特征维度作为候选特征维度,在进行二次筛选时,计算机设备进一步基于各个候选特征维度分别对应的标签分布差异变化信息,从各个候选特征维度中确定目标特征维度。
在一个实施例中,初始分箱价值信息的计算公式如下:
其中,IVi表示第i个特征分箱对应的初始分箱价值信息。
目标分箱价值信息的计算公式如下:
其中,IV表示目标分箱价值信息,将同一特征维度对应的各个初始分箱价值信息相加得到目标分箱价值信息。
上述实施例中,先基于各个特征维度对应的目标分箱价值信息对特征维度进行初步筛选,确定候选特征维度,再基于各个候选特征维度对应的标签分布差异变化信息进行二次筛选,最终确定目标特征维度,经过两次筛选,可以提高目标特征维度的准确性、有效性。
在一个实施例中,基于标签分布差异变化信息,从各个特征维度中确定目标特征维度,包括:
将标签分布差异变化信息满足预设条件的特征维度作为目标特征维度;预设条件包括标签分布差异变化信息呈现单调变化和抛物线变化中的至少一种。
其中,标签分布差异变化信息呈现单调变化是指随着特征分箱的排序递增,标签分布差异单调递增或递减。标签分布差异变化信息呈现抛物线变化是指随着特征分箱的排序递增,标签分布差异先减小后增大或标签分布差异先增大后减少。
具体地,在基于标签分布差异变化信息确定目标特征维度时,计算机设备可以将标签分布差异变化信息呈现单调变化的特征维度作为目标特征维度,也可以将标签分布差异变化信息呈现抛物线变化的特征维度作为目标特征维度。若标签分布差异变化信息呈现单调变化或抛物线变化,表明行为特征随着特征值的增大,对行为标签的影响比较稳定,不会有大量剧烈的波动,这样的行为特征有利于模型更好地学习行为特征和行为标签之间的联系,训练得到的模型会更比较稳定。
举例说明,针对资源转移行为差异这个特征维度,特征分箱信息包括按照资源转移行为差异的数值从小到大排列的6个特征分箱,若这6个特征分箱的标签分布差异随着特征分箱的排序呈现单调递增,那么可以将资源转移行为差异作为目标特征维度,将资源转移行为差异作为入模特征进行模型训练。
上述实施例中,将标签分布差异变化信息呈现单调变化或抛物线变化的特征维度作为目标特征维度,基于资源转移行为中目标特征维度对应的目标行为特征进行模型训练,可以提高模型的训练效率、准确性和稳定性。
在一个实施例中,基于同一资源转移行为中目标特征维度对应的目标行为特征建立训练样本,包括:
基于目标行为特征对应的特征分箱的标签分布差异,对目标行为特征进行数据转换,得到更新行为特征;基于同一资源转移行为中各个更新行为特征建立训练样本。
具体地,在确定目标特征维度后,计算机设备可以进一步对目标行为特征进行数据转换,将属于同一特征分箱的各个行为特征的数值统一为相同的数值,以便模型进行数据处理。计算机设备具体可以将目标行为特征的数值转换为对应特征分箱的标签分布差异,得到更新行为特征,从而在保障属于同一特征分箱的各个行为特征具有相同数值的基础上,可以让入模特征隐含特征分箱之间标签分布差异的变化趋势,让模型可以借助标签分布差异的变化趋势更好地学习到不同区间的行为特征和行为标签之间的联系,从而让与正常资源转移行为相似的待识别资源转移行为可以识别为正常行为,让与异常资源转移行为相似的待识别资源转移行为可以识别为异常行为。
计算机设备可以基于目标行为特征对应的特征分箱的标签分布差异,将目标行为特征转换为更新行为特征,进而将同一资源转移行为中各个更新行为特征组成训练样本,得到各个资源转移行为分别对应的训练样本。
上述实施例中,基于标签分布差异对行为特征进行数据转换,再基于转换后的数据建立训练样本,也就是,将特征离散化建立训练样本,基于这样的训练样本进行模型训练,可以降低模型过拟合的风险,提高模型稳定性。
在一个实施例中,基于训练样本和训练标签对初始异常行为识别模型进行训练,得到目标异常行为识别模型,包括:
将训练样本输入初始异常行为识别模型,得到训练样本对应的预测标签;基于训练标签和预测标签计算训练损失,基于训练损失调整初始异常行为识别模型的模型参数,直至满足收敛条件,得到目标异常行为识别模型。
其中,收敛条件可以是训练损失小于预设损失、迭代次数大于预设次数等中的至少一种。
具体地,可以采用有监督训练方法进行模型训练,得到目标异常行为识别模型。计算机设备可以将训练样本输入初始异常行为识别模型,经过模型内部的数据处理,模型输出训练样本对应的预测标签,计算机设备可以基于训练样本对应的训练标签和预测标签之间的差异计算训练损失,基于训练损失进行反向传播来调整、更新模型的模型参数,得到更新后的初始异常行为识别模型,并返回将训练样本输入初始异常行为识别模型的步骤迭代执行,继续训练,直至满足收敛条件,则训练完成,得到目标异常行为识别模型。
上述实施例中,通过有监督训练方法进行模型训练,可以快速得到准确性较高的异常行为识别模型。
在一个实施例中,如图3所示,所述方法还包括:
步骤S302,获取与训练样本的行为触发时间的时间差异大于预设时间差异的样本作为测试样本;测试样本是基于资源转移行为中目标特征维度对应的目标行为特征得到的。
具体地,为了保障模型的识别准确性和稳定性,计算机设备可以采取跨时间验证的方式对模型进行评估。计算机设备可以获取行为触发时间与模型的训练样本不一致的样本作为测试样本,通过对训练样本和测试样本的模型输出数据进行分析比较,来评估模型的识别准确性和稳定性。后续,计算机设备利用通过可靠性检验的目标异常行为识别模型来识别会话应用中的异常资源转移行为,可以进一步提高异常资源转移行为的识别准确性。
计算机设备具体可以获取与训练样本的行为触发时间的时间差异大于预设时间差异的样本作为测试样本,例如,训练样本可以是基于11月的资源转移行为建立的,测试样本可以是基于12月的资源转移行为建立的。其中,预设时间差异可以根据实际需要进行设置,例如,设置为一个月,设置为三个月等。
可以理解,测试样本和训练样本一样,都是由资源转移行为中目标特征维度对应的目标行为特征组成。
步骤S304,将训练样本和测试样本分别输入目标异常行为识别模型,得到训练样本对应的第一预测标签和测试样本对应的第二预测标签。
步骤S306,基于第一预测标签和第二预测标签,对目标异常行为识别模型进行可靠性检验;通过可靠性检验的目标异常行为识别模型用于识别会话应用中的异常资源转移行为。
其中,可靠性检验用于检验模型的识别准确性和稳定性。
具体地,在对模型进行评估时,计算机设备可以将训练样本输入目标异常行为识别模型,得到训练样本对应的第一预测标签,将测试样本输入目标异常行为识别模型,得到测试样本对应的第二预测标签,基于第一预测标签和第二预测标签,对目标异常行为识别模型进行可靠性检验。若可靠性检验结果为通过,那么计算机设备可以基于通过可靠性检验的目标异常行为识别模型识别会话应用中的异常资源转移行为,若可靠性检验结果为不通过,那么计算机设备可以对目标异常行为识别模型进行二次训练,例如,基于训练样本和测试样本对目标异常行为识别模型进行二次训练,直至满足收敛条件,表明训练完成。进而,计算机设备采取相同的方法对二次训练后的目标异常行为识别模型再次进行可靠性检验,直至可靠性检验结果为通过,才应用目标异常行为识别模型识别会话应用中的异常资源转移行为。
可以理解,若在进行二次训练时,模型的训练样本包括第一轮可靠性检验时的测试样本,那在进行第二轮可靠性检验时,需要重新获取新的样本作为新的测试样本。
上述实施例中,对目标异常行为识别模型进行可靠性检验,基于通过可靠性检验的目标异常行为识别模型识别会话应用中的异常资源转移行为,可以进一步提高异常资源转移行为的识别准确性和稳定性。
在一个实施例中,基于第一预测标签和第二预测标签,对目标异常行为识别模型进行可靠性检验,包括:
基于第二预测标签对目标异常行为识别模型进行准确性检验,得到准确性检验结果;基于第一预测标签和第二预测标签,对目标异常行为识别模型进行稳定性检验,得到稳定性检验结果;基于准确性检验结果和稳定性检验结果得到可靠性检验结果。
其中,准确性检验用于检验模型的识别准确性,稳定性检验用于检验模型的稳定性。
具体地,计算机设备可以基于测试样本对应的第二预测标签对目标异常行为识别模型进行准确性检验,得到准确性检验结果,例如,可以基于测试样本对应的目标标签(即真实标签)和第二预测标签计算模型的预测准确度,若预测准确度大于预设准确度,则确定准确性检验结果为通过,反之,则确定准确性检验结果为不通过。进一步的,计算机设备可以基于第一预测标签和第二预测标签,对目标异常行为识别模型进行稳定性检验,得到稳定性检验结果,例如,可以基于训练样本对应的目标标签(即真实标签)和第一预测标签计算模型的第一预测准确度,基于测试样本对应的目标标签(即真实标签)和第二预测标签计算模型的第二预测准确度,若第一预测准确度和第二预测准确度的差异小于预设阈值,则确定稳定性检验结果为通过,反之,则确定稳定性检验结果为不通过。
若准确性检验结果和稳定性检验结果均为通过,则确定可靠性检验结果为通过,若准确性检验结果和稳定性检验结果中至少一个为不通过,则确定可靠性检验结果为不通过。
上述实施例中,通过准确性检验和稳定性检验的检测结果来确定可靠性检验结果,可以提高可靠性检测结果的准确性和可靠性。
在一个实施例中,基于第一预测标签和第二预测标签,对目标异常行为识别模型进行稳定性检验,得到稳定性检验结果,包括:
分别对第一预测标签和第二预测标签进行分箱处理,得到第一预测标签对应的第一分箱信息和第二预测标签对应的第二分箱信息;第一分箱信息和第二分箱信息均包括多个标签分箱;对第一预测标签和第二预测标签进行标签类型分类,对各个标签分箱中同一类型的预测标签进行统计,得到各个标签分箱对应的中间标签分布信息;基于同一分箱信息对应的各个中间标签分布信息计算各个标签分箱的标签占比差异;分别从第一分箱信息和第二分箱信息对应的各个标签占比差异中确定目标占比差异,得到第一目标占比差异和第二目标占比差异;基于第一目标占比差异和第二目标占比差异之间的差异,确定稳定性检验结果。
其中,中间标签分布信息是指标签分箱对应的标签分布信息,中间标签分布信息包括标签分箱中各个类型的预测标签的数量。标签占比差异是指一个标签分箱中不同类型的预测标签的标签占比之间的差异,例如,标签分箱中包括预测正标签和预测负标签,标签占比差异可以是预测正标签的标签占比与预测负标签的标签占比的差值。第一目标占比差异是从第一分箱信息对应的各个标签占比差异中确定的目标占比差异,第二目标占比差异是从第二分箱信息对应的各个标签占比差异中确定的目标占比差异。
具体地,在进行稳定性检验时,可以检验模型的区分度针对测试样本和训练样本来说是否有明显差异。模型区分度越大,说明模型的风险排序能力越强,可以更好地区分出不同的样本,若针对测试样本和训练样本,模型的区分度不大,则可以确定稳定性检验结果为通过。模型的区分度可以通过模型预测结果中不同类型预测标签的标签占比差异来体现。
模型输出的预测标签具体可以为预测概率、预测分数,即模型的输出数据可以为连续性变量,因此可以对预测标签进行分箱处理。计算机设备可以对第一预测标签进行分箱处理,得到第一预测标签对应的第一分箱信息,对第二预测标签进行分箱处理,得到第二预测标签对应的第二分箱信息,其中,第一分箱信息和第二分箱信息均包括多个标签分箱。
进一步的,计算机可以对预测标签进行标签类型分类,将预测标签分为不同类型的预测标签,例如,可以将大于预设概率的预测标签作为预测正标签,小于或等于预设概率的预测标签作为预测负标签,其中,预设概率可以根据实际需要进行设置,如设置为0.5。计算机设备可以对各个标签分箱中同一类型的预测标签进行统计,统计标签分箱中不同类型预测标签的数量,得到标签分箱对应的中间标签分布信息。计算机设备可以基于同一分箱信息对应的各个中间标签分布信息先统计分箱信息中不同类型预测标签的总数量,得到第一分箱信息中不同类型预测标签的总数量和第二分箱信息中不同类型预测标签的总数量,然后,基于同一标签分箱的中间标签分布信息中不同类型预测标签的数量和之前统计的总数量计算不同类型标签的标签占比,基于同一标签分箱中不同类型标签的标签占比之间的差异得到标签分箱对应的标签占比差异。
第一分箱信息和第二分箱信息均包括多个标签分箱,各个标签分箱都可以计算得到对应的标签占比差异,计算机设备可以从第一分箱信息对应的各个标签占比差异中选取至少一个标签占比差异生成目标占比差异,得到第一目标占比差异,从第二分箱信息对应的各个标签占比差异中选取至少一个标签占比差异生成目标占比差异,得到第二目标占比差异。例如,可以从第一分箱信息对应的各个标签占比差异中,选取数值最大的标签占比差异作为第一目标占比差异,也可以选取数值大于预设数值的各个标签占比差异计算平均值,将平均值作为第一目标占比差异。
最后,计算机设备可以基于第一目标占比差异和第二目标占比差异之间的差异确定稳定性检验结果,若第一目标占比差异和第二目标占比差异之间的差异小于第一差异,则确定稳定性检验结果为通过,反之,则确定稳定性检验结果为不通过。其中,第一差异可以根据实际需要进行设置。
在一个实施例中,模型的区分度也可以在一定程度上反映模型的预测准确性,因此,在进行准确性检验时,当第二目标占比差异大于预设占比差异时,可以确定准确性检验结果为通过,反之,则确定准确性检验结果为不通过。
在一个实施例中,目标占比差异的计算公式如下:
ks=max{|cum(bad_rate)-cum(good_rate)|
其中,ks表示目标占比差异,cum(bad_rate)表示标签分箱中的负标签数量占负标签总数量的比例,即负标签占比,cum(good_rate)表示标签分箱中的正标签数量占正标签总数量的比例,即正标签占比。计算各个标签分箱中负标签占比与正标签占比的差值的绝对值,从这些绝对值中获取最大值作为目标占比差异。
上述实施例中,通过对模型的预测标签进行分箱处理,计算分箱处理得到的各个标签分箱对应的标签占比差异,从标签占比差异中确定目标占比差异来表征模型的区分度。通过比较模型对于训练样本的区分度和模型对于测试样本的区分度之间的差异,来确定稳定性检验结果,从而可以保障模型对于行为触发时间不同的样本具备相似的区分度,保障模型的稳定性。
在一个实施例中,训练样本包括正训练样本和负训练样本,测试样本包括正测试样本和负测试样本,正训练样本和正测试样本对应的目标正标签,负训练样本和负测试样本对应目标负标签。
基于第一预测标签和第二预测标签,对目标异常行为识别模型进行稳定性检验,得到稳定性检验结果,包括:
获取多个标签分类阈值;基于标签分类阈值,将各个第一预测标签和各个第二预测标签划分为预测正标签和预测负标签,得到各个标签分类阈值对应的预测正标签和预测负标签;基于正训练样本对应的预测正标签和目标正标签、负训练样本对应的预测负标签和目标负标签,计算各个标签分类阈值对应的第一正标签预测准确度和第一负标签预测错误度,基于正测试样本对应的预测正标签和目标正标签、负测试样本对应的预测负标签和目标负标签,计算各个标签分类阈值对应的第二正标签预测准确度和第二负标签预测错误度;基于各个第一正标签预测准确度和第一负标签预测错误度生成第一曲线,获取第一曲线与坐标轴形成的第一面积,基于各个第二正标签预测准确度和第二负标签预测错误度生成第二曲线,获取第二曲线与坐标轴形成的第二面积;基于第一面积和第二面积之间的差异,确定稳定性检验结果。
其中,标签分类阈值用于对预测标签进行标签类型分类。在不同的标签分类阈值下,同一预测标签的分类结果可以相同可以不同。具体可以将大于标签分类阈值的预测标签作为预测正标签,将小于或等于标签分类阈值的预测标签作为预测负标签。
第一正标签预测准确度为训练样本对应的正标签预测准确度,第二正标签预测准确度为测试样本对应的正标签预测准确度。正标签预测准确度表示在所有实际为正标签的样本中,被模型正确判断为正标签的比例。第一负标签预测错误度为训练样本对应的负标签预测错误度,第二负标签预测错误度为测试样本对应的负标签预测错误度。负标签预测错误度表示在所有实际为负标签的样本中,被模型错误判断为正标签的比例。
具体地,模型的区分度还可以通过基于模型的正标签预测准确度和负标签预测错误度生成的曲线与坐标轴的面积来表示。
计算机设备可以基于标签分类阈值,将各个第一预测标签和各个第二预测标签划分为预测正标签和预测负标签,针对多个标签分类阈值,最终可以得到各个标签分类阈值分别对应的预测正标签和预测负标签。训练样本和测试样本都是基于已知是否为异常的资源转移行为建立的,因此,训练样本和测试样本都存在对应的真实标签,无异常的资源转移行为对应目标正标签,有异常的资源转移行为对应目标负标签,具备目标正标签的训练样本为正训练样本,具备目标负标签的训练样本为负训练样本,具备目标正标签的测试样本为正测试样本,具备目标负标签的测试样本为负测试样本。针对任意一个标签分类阈值,计算机设备基于正训练样本对应的预测正标签和目标正标签是否一致可以计算第一正标签预测准确度,以及基于负训练样本对应的预测负标签和目标负标签是否一致可以计算第一负标签预测错误度,同理,计算机设备可以计算得到第二正标签预测准确度和第二负标签预测错误度。
进一步的,可以将负标签预测错误度作为X轴,将正标签预测准确度作为Y轴,来建立坐标系。针对每一个标签分类阈值,根据计算得到的数据在坐标系中描点,将训练样本对应的各个数据点进行连线或拟合曲线得到第一曲线,将测试样本对应的各个数据点进行连线或拟合曲线得到第二曲线。进而,计算机设备可以获取第一曲线与坐标轴(具体为X轴)形成的面积作为第一面积,获取第二曲线与坐标轴(具体为X轴)形成的面积作为第二面积,基于第一面积和第二面积之间的差异确定稳定性检验结果。若第一面积和第二面积之间的差异小于第二差异,则确定稳定性检验结果为通过,反之,则确定稳定性检验结果为不通过。其中,第二差异可以根据实际需要进行设置。
在一个实施例中,曲线和坐标轴形成的面积也可以在一定程度上反映模型的预测准确性,面积越大,说明模型效果越好。因此,在进行准确性检验时,当第二面积大于预设面积时,可以确定准确性检验结果为通过,反之,则确定准确性检验结果为不通过。也可以是当第二面积大于预设面积且第二目标占比差异大于预设占比差异时,确定准确性检验结果为通过,反之,则确定准确性检验结果为不通过。
上述实施例中,通过计算模型在各个标签分类阈值下的正标签预测准确度和负标签预测错误度来生成曲线,通过曲线与坐标轴的形成的面积来表征模型的区分度。通过比较模型对于训练样本的区分度和模型对于测试样本的区分度之间的差异,来确定稳定性检验结果,从而可以保障模型对于行为触发时间不同的样本具备相似的区分度,保障模型的稳定性。
在一个实施例中,基于第一预测标签和第二预测标签,对目标异常行为识别模型进行稳定性检验,得到稳定性检验结果,包括:
分别对第一预测标签和第二预测标签进行分箱处理,得到第一预测标签对应的第一分箱信息和第二预测标签对应的第二分箱信息;第一分箱信息和第二分箱信息均包括多个标签分箱;计算第一分箱信息和第二分箱信息对应的目标分箱价值信息,得到第一分箱价值信息和第二分箱价值信息;基于第一分箱价值信息和第二分箱价值信息之间的差异,确定稳定性检验结果。
具体地,在进行稳定性检验时,也可以检验预测标签的目标分箱价值信息针对测试样本和训练样本来说是否有明显差异。计算机设备可以分别对第一预测标签和第二预测标签进行分箱处理,然后基于分箱处理得到的分箱信息计算目标分箱价值信息,得到训练样本对应的第一分箱价值信息和测试样本对应的第二分箱价值信息,基于第一分箱价值信息和第二分箱价值信息之间的差异确定稳定性检验结果。若第一分箱价值信息和第二分箱价值信息之间的差异小于第三差异,则确定稳定性检验结果为通过,反之,则确定稳定性检验结果为不通过。其中,第三差异可以根据实际需要进行设置。
可以理解,分箱处理方法和目标分箱价值信息的计算方法可以参照前述各个相关实施例的内容。
上述实施例中,通过比较模型对于训练样本的目标分箱价值信息和模型对于测试样本的目标分箱价值信息之间的差异,来确定稳定性检验结果,从而可以保障模型对于行为触发时间不同的样本具备相似的目标分箱价值信息,保障模型的稳定性。
在一个实施例中,基于第一预测标签和第二预测标签,对目标异常行为识别模型进行稳定性检验,得到稳定性检验结果,包括:
获取各个训练样本和测试样本对应的目标标签;从第一预测标签和第二预测标签中获取目标类型的预测标签作为参考标签;将同一样本对应的参考标签和目标标签进行匹配,确定训练样本对应的第一匹配成功数量和测试样本对应的第二匹配成功数量;基于训练样本对应的参考标签数量和第一匹配成功数量,计算第一匹配度,基于测试样本对应的参考标签数量和第二匹配成功数量,计算第二匹配度;基于训练样本对应的样本数量和第一匹配成功数量,计算第三匹配度,基于测试样本对应的样本数量和第二匹配成功数量,计算第四匹配度;基于第一匹配度和第二匹配度之间的差异、以及第三匹配度和第四匹配度之间的差异,确定稳定性检验结果。
其中,目标标签是指样本对应的真实标签,即资源转移行为对应的真实行为标签。训练样本对应的参考标签数量是指训练样本对应的所有预测标签中参考标签的数量,测试样本对应的参考标签数量是指测试样本对应的所有预测标签中参考标签的数量。
具体地,在进行稳定性检验时,可以检验模型的案例覆盖率和策略性价比针对测试样本和训练样本来说是否有明显差异。案例覆盖率可以反映模型的召回率,策略性价比可以反映模型的预测准确度。案例覆盖率=模型覆盖的目标类型预测标签的数量/模型预测的样本数量,策略性价比=模型干预的目标类型预测标签的数量/模型覆盖的目标类型预测标签的数量。模型覆盖的目标类型预测标签的数量是指模型输出的目标类型预测标签中,模型预测正确的数量。模型干预的目标类型预测标签的数量是指模型输出的目标类型预测标签的数量。举例说明,100个训练样本中有60个是负训练样本,40个是正训练样本。将训练样本输入训练完成的模型,根据模型输出数据从中判定55个训练样本的预测标签为预测负标签,45个训练样本的预测标签为预测正标签,其中55个预测负标签中有53个训练样本对应的目标标签为目标负标签,45个预测正标签中有39个训练样本对应的目标标签为目标正标签。若目标类型预测标签为预测负标签,则模型覆盖的目标类型预测标签的数量为53,模型干预的目标类型预测标签的数量为55,模型预测的样本数量为100。
计算机设备可以从第一预测标签和第二预测标签中获取目标类型的预测标签作为参考标签,例如,可以获取预测标签中的预测负标签作为参考标签。将同一样本对应的参考标签和目标标签进行匹配,若参考标签和目标标签一致表示匹配成功,若参考标签和目标标签不一致,表示匹配失败,根据匹配结果确定训练样本对应的第一匹配成功数量和测试样本对应的第二匹配成功数量。计算机设备可以基于训练样本对应的参考标签数量和第一匹配成功数量的比值计算第一匹配度,基于测试样本对应的参考标签数量和第二匹配成功数量的比值计算第二匹配度,第一匹配度和第二匹配度表示案例覆盖率。计算机设备可以基于训练样本对应的第一匹配成功数量和样本数量的比值计算第三匹配度,基于测试样本对应的第二匹配成功数量和样本数量的比值计算第四匹配度,第三匹配度和第四匹配度表示策略性价比。最终,计算机设备基于第一匹配度和第二匹配度之间的差异、以及第三匹配度和第四匹配度之间的差异确定稳定性检验结果。若第一匹配度和第二匹配度之间的差异小于第四差异、且第三匹配度和第四匹配度之间的差异小于第五差异,则确定稳定性检验结果为通过,反之,则确定稳定性检验结果为不通过。其中,第四差异和第五差异可以根据实际需要进行设置。
在一个实施例中,若目标占比差异对应的差异、面积差异、目标分箱价值信息差异和匹配度差异均小于对应的差异阈值,则确定稳定性检验结果为通过,反之,则确定稳定性检验结果为不通过。目标占比差异对应的差异是指第一目标占比差异和第二目标占比差异之间的差异,面积差异是指第一面积和第二面积之间的差异,目标分箱价值信息差异是指第一分箱价值信息和第二分箱价值信息之间的差异,匹配度差异包括第一匹配度和第二匹配度之间的差异、以及第三匹配度和第四匹配度之间的差异。
上述实施例中,通过比较模型的案例覆盖率和策略性价比针对测试样本和训练样本来说是否有明显差异,来确定稳定性检验结果,从而可以保障模型对于行为触发时间不同的样本具备稳定的识别准确性,保障模型的稳定性。
在一个实施例中,如图4所示,提供了一种异常行为识别方法,以该方法应用于计算机设备来举例说明,该计算机设备可以是上述图1中的终端102或服务器104。参考图4,异常行为识别方法包括以下步骤:
步骤S402,获取会话应用中待识别资源转移行为对应的行为特征作为待识别行为特征。
步骤S404,将待识别行为特征输入目标异常行为识别模型,得到行为识别结果。
其中,目标异常行为识别模型的训练过程包括以下步骤:获取行为特征集合,获取行为特征集合中各个特征维度的行为特征所对应的特征分箱;行为特征集合包括会话应用中多个资源转移行为对应的行为特征,资源转移行为存在对应的行为标签;基于同一特征维度对应的各个特征分箱计算标签分布差异,基于同一特征维度对应的各个特征分箱的标签分布差异计算标签分布差异变化信息,得到各个特征维度对应的标签分布差异变化信息;基于标签分布差异变化信息,从各个特征维度中确定目标特征维度;基于同一资源转移行为中目标特征维度对应的目标行为特征建立训练样本,将资源转移行为对应的行为标签作为训练样本对应的训练标签;基于训练样本和训练标签对初始异常行为识别模型进行训练,得到目标异常行为识别模型。
可以理解,目标异常行为识别模型的训练过程可以参照前述异常行为识别模型训练方法的各个实施例,此处不再赘述。
具体地,计算机设备可以利用训练好的目标异常行为识别模型识别会话应用中的异常资源转移行为。一旦用户在会话应用中触发资源转移行为,就将该资源转移行为作为待识别资源转移行为,获取待识别资源转移行为对应的行为特征作为待识别行为特征,将待识别行为特征输入目标异常行为识别模型,根据模型的输出数据确定待识别资源转移行为对应的行为识别结果。例如,模型输出预测概率,若预测概率大于预设概率,则确定行为识别结果为无异常,若预测概率小于或等于预设概率,则确定行为识别结果为有异常。若识别出当前资源转移行为有异常,计算机设备可以对资源转移方进行提醒或拦截等操作,以减少、降低资源转移方的资源损失。若识别出当前资源转移行为无异常,计算机设备可以执行待识别资源转移行为对应的资源转移请求,将资源转移方指定资源从资源转移方的账户转移至资源接收方的账户中。
在一个实施例中,可以结合模型输出数据和预设特征维度的行为特征来确定行为识别结果。预设特征维度可以根据业务经验进行设置,例如,将大量异常资源转移行为中重复率最高的行为特征对应的特征维度作为预设特征维度。举例说明,假设预设特征维度为双方的会话时间,若模型输出的预测概率小于或等于预设概率、且双方的会话时间小于预设时长,则确定行为识别结果为异常,否则,行为识别结果为无异常。
还可以设置多个异常等级,在满足不同条件的时候,行为识别结果为不同的异常等级。满足的条件越多,异常等级越高,行为越异常。例如,若模型输出的预测概率小于或等于预设概率,则确定行为识别结果为普通异常,若模型输出的预测概率小于或等于预设概率、且待识别资源转移行为中预设特征维度的行为特征满足预设条件,则确定行为识别结果为严重异常,若模型输出的预测概率大于预设概率,则确定行为识别结果为无异常。若预设特征维度有多个,待识别资源转移行为中满足对应预设条件的行为特征越多,则异常等级越高。
上述异常行为识别方法中,通过获取会话应用中待识别资源转移行为对应的行为特征作为待识别行为特征,将待识别行为特征输入目标异常行为识别模型,得到行为识别结果。针对会话应用中的资源转移行为,通过已训练的目标异常行为识别模型来识别异常的资源转移行为,可以提高异常资源转移行为的识别准确性。进一步的,由于资源转移行为对应的行为特征多种多样,不同的行为特征对行为识别的影响程度不同,为了提高模型的准确性,在生成模型的训练样本时,先基于各个特征维度对应的标签分布差异变化信息对行为特征进行筛选,从多个特征维度中确定比较重要的目标特征维度,进而基于资源转移行为中目标特征维度对应的目标行为特征建立训练样本,这样的训练样本在模型训练时可以提高模型的鲁棒性、准确性。基于准确性较高的目标异常行为识别模型识别会话应用中的异常资源转移行为,可以进一步提高异常资源转移行为的识别准确性,避免模型过拟合。
本申请还提供一种应用场景,该应用场景应用上述的异常行为识别模型训练、异常行为识别方法。具体地,上述的异常行为识别模型训练、异常行为识别方法可以应用于社交应用中,例如,即时通信应用。
社交应用中每天都有海量交易(即支付行为),其中存在部分欺诈交易。例如,现在的学生有较多机会接触到电子产品和网络世界,这大大提升了社交支付被骗的几率。学生通过网络渠道看到有一些免费送红包或者充值返利活动,或者诈骗分子主动加学生为好友。诈骗分子通过一些诈骗套路,比如威胁冻结账号、返利金额诱人、冒充执法人员等方式,让学生进行多次支付、支付大额资金。为了减少社交应用中的欺诈交易,在每笔交易发生的时候,通过部署线上模型对当笔交易进行识别,当识别出当笔交易有欺诈风险的时候,将会对用户进行提醒/拦截等操作,减少用户被骗、钱财损失的风险。
参考图5,具体流程如下:
一、离线部署
通过大量的数据和案例分析,筛选可疑特征进行特征工程,然后从中选取有效特征,通过变量分箱和WOE转换对数据进一步处理为异常行为识别模型的输入数据,建立训练样本。基于训练样本训练模型,并对模型进行可靠性验证。
1、特征工程
获取大量的交易欺诈案例,对交易欺诈案例进行分析,从中挖掘出欺诈场景下双方关系、被骗用户、诈骗分子视角的可疑特征,例如,双方社交关系、用户支付金额与历史支付行为的差异、用户当天收款金额等。
2、变量分箱及WOE转换
获取多笔正常交易和异常交易对应的行为特征,分别对各个特征维度的行为特征进行决策树分箱,根据分箱结果计算各个特征分箱对应的WOE和各个特征维度对应的IV。然后,先从多个可疑变量、可疑特征中筛取IV较高的特征作为备选变量、备选特征,再基于WOE的变化趋势,从备选特征中选取更有效且稳定的特征作为入模特征。在一个实施例中,针对决策树分箱的分箱结果,还可以基于业务经验对分箱结果进行调优,并对分箱调优后IV有明显波动的特征进行剔除,来提高模型的稳定性。
得到入模特征之后,将入模特征进行WOE转换,将入模特征的数值转换为对应的WOE,得到模型的输入数据。
3、模型训练和验证
基于WOE转换后的入模特征建立训练样本,基于训练样本和训练样本对应的训练标签进行模型训练。训练样本对应的训练标签用于表示训练样本对应的交易是正常交易,还是异常交易。
进一步的,可以获取测试样本对模型进行测试,评估模型的有效性、准确性。在确定模型有效后,还可以进一步基于训练样本和测试样本验证模型的稳定性。
4、模型部署
当模型验证的效果符合预期后,即可将模型部署到线上。在一个实施例中,模型具体可以是逻辑回归模型,由于逻辑回归模型是将特征和对应系数相乘后sigmoid转换得到输出数据。当得到了特征对应的系数,可以将该模型部署到线上,对每笔交易实时进行计算得到预测概率、预测分数,保证模型的时效性。
二、社交应用服务器
若模型验证通过,则将训练好的模型部署到社交应用服务器(社交应用对应的服务器)上。可以将模型部署在特定的模型存储区域中,基于模型建立风控策略,通过风控策略来识别社交应用中的异常交易。
三、在线识别
社交应用服务器可以实时识别社交应用中每笔交易的触发。当用户在社交应用上触发交易的时候,社交应用服务器可以基于模型对交易进行异常识别,当识别有异常、有风险时,社交应用服务器可以发送信息至终端,以提醒或拦截用户当笔交易,让用户意识到当笔交易有一定的欺诈风险,谨慎交易,从而减少用户被骗和资金损失。
上述实施例中,在社交应用场景下,多维度挖掘社交欺诈的异常特征,有助于提高欺诈交易的识别精度和稳定性。通过递归特征筛选、跨时间验证等方法可以提高模型鲁棒性,避免过拟合。将模型部署到线上策略,可以对欺诈交易进行实时识别,提高对欺诈交易的识别准确性,最终使得在社交应用的社交支付体系下欺诈交易的大幅降低,减少了用户被骗风险和资金损失。
可以理解,本申请的异常行为识别模型训练、异常行为识别方法还可以应用于其他可以进行会话交流、资源转移的应用中。例如,识别游戏应用中的异常交易,识别直播应用中的异常交易。本申请的异常行为识别模型训练、异常行为识别方法还可以应用于识别会话应用中存在赌博性质、色情性质、洗钱性质等恶劣、异常性质的资源转移行为。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的异常行为识别模型训练方法的异常行为识别模型训练装置,一种用于实现上述所涉及的异常行为识别方法的异常行为识别装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个异常行为识别模型训练装置、异常行为识别装置实施例中的具体限定可以参见上文中对于常行为识别模型训练方法、异常行为识别方法的限定,在此不再赘述。
在一个实施例中,如图6所示,提供了一种异常行为识别模型训练装置,该装置具体包括:数据获取模块602、标签分布差异变化信息确定模块604、目标特征维度确定模块606、训练样本建立模块608和模型训练模块610,其中:
数据获取模块602,用于获取行为特征集合,获取行为特征集合中各个特征维度的行为特征所对应的特征分箱;行为特征集合包括会话应用中多个资源转移行为对应的行为特征,资源转移行为存在对应的行为标签;
标签分布差异变化信息确定模块604,用于基于同一特征维度对应的各个特征分箱计算标签分布差异,基于同一特征维度对应的各个特征分箱的标签分布差异计算标签分布差异变化信息,得到各个特征维度对应的标签分布差异变化信息;
目标特征维度确定模块606,用于基于标签分布差异变化信息,从各个特征维度中确定目标特征维度;
训练样本建立模块608,用于基于同一资源转移行为中目标特征维度对应的目标行为特征建立训练样本,将资源转移行为对应的行为标签作为训练样本对应的训练标签;
模型训练模块610,用于基于训练样本和训练标签对初始异常行为识别模型进行训练,得到目标异常行为识别模型;目标异常行为识别模型用于识别会话应用中的异常资源转移行为。
上述异常行为识别模型训练装置,针对会话应用中的资源转移行为,训练异常行为识别模型来识别异常的资源转移行为,可以提高异常资源转移行为的识别准确性。进一步的,由于资源转移行为对应的行为特征多种多样,不同的行为特征对行为识别的影响程度不同,为了提高模型的准确性,在生成模型的训练样本时,先基于各个特征维度对应的标签分布差异变化信息对行为特征进行筛选,从多个特征维度中确定比较重要的目标特征维度,进而基于资源转移行为中目标特征维度对应的目标行为特征建立训练样本,这样的训练样本在模型训练时可以提高模型的鲁棒性、准确性,避免模型过拟合。
在一个实施例中,资源转移行为对应的行为特征是基于资源转移方和资源接收方在会话应用中的会话消息得到的。
在一个实施例中,行为特征包括资源转移方和资源接收方之间的社交关系信息、资源转移方和资源接收方的对象属性信息、资源转移方的资源转移行为差异和资源接收方的资源接收统计信息,资源转移行为差异是基于资源转移方的当前资源转移行为和历史资源转移行为之间的差异得到的,资源接收统计信息是对资源接收方在预设时间段接收到的资源转移份额进行统计得到的。
在一个实施例中,数据获取模块还用于基于同一特征维度对应的多个行为特征组成特征集合,得到各个特征维度对应的特征集合;分别对各个特征集合进行分箱处理,得到各个特征维度对应的特征分箱信息;分箱处理包括有监督分箱处理和无监督分箱处理中的至少一种,特征分箱信息包括同一特征维度对应的多个特征分箱。
在一个实施例中,标签分布差异变化信息确定模块还用于对各个特征分箱中同一类型的行为标签进行统计,得到各个特征分箱对应的初始标签分布信息;对同一特征维度对应的初始标签分布信息进行统计,得到各个特征维度对应的目标标签分布信息;基于同一特征维度对应的特征分箱的初始标签分布信息和目标标签分布信息计算标签占比信息,得到各个特征分箱对应的标签占比信息;标签占比信息包括各个类型的行为标签对应的标签占比;基于同一特征分箱对应的标签占比信息计算标签分布差异,得到各个特征分箱对应的标签分布差异;基于同一特征维度对应的各个特征分箱的标签分布差异确定标签分布差异的变化趋势,将标签分布差异的变化趋势作为标签分布差异变化信息,得到各个特征维度对应的标签分布差异变化信息。
在一个实施例中,目标特征维度确定模块还用于基于同一特征维度对应的特征分箱的标签占比信息和标签分布差异计算分箱价值信息,得到各个特征分箱对应的初始分箱价值信息;对同一特征维度对应的各个特征分箱的初始分箱价值信息进行统计,得到各个特征维度对应的目标分箱价值信息;获取目标分箱价值信息大于预设分箱价值信息的特征维度作为候选特征维度;基于各个候选特征维度对应的标签分布差异变化信息,从各个候选特征维度中确定目标特征维度。
在一个实施例中,目标特征维度确定模块还用于将标签分布差异变化信息满足预设条件的特征维度作为目标特征维度;预设条件包括标签分布差异变化信息呈现单调变化和抛物线变化中的至少一种。
在一个实施例中,训练样本建立模块还用于基于目标行为特征对应的特征分箱的标签分布差异,对目标行为特征进行数据转换,得到更新行为特征;基于同一资源转移行为中各个更新行为特征建立训练样本。
在一个实施例中,模型训练模块还用于将训练样本输入初始异常行为识别模型,得到训练样本对应的预测标签;基于训练标签和预测标签计算训练损失,基于训练损失调整初始异常行为识别模型的模型参数,直至满足收敛条件,得到目标异常行为识别模型。
在一个实施例中,异常行为识别模型训练装置还包括:
模型验证模块,用于获取与训练样本的行为触发时间的时间差异大于预设时间差异的样本作为测试样本;测试样本是基于资源转移行为中目标特征维度对应的目标行为特征得到的;将训练样本和测试样本分别输入目标异常行为识别模型,得到训练样本对应的第一预测标签和测试样本对应的第二预测标签;基于第一预测标签和第二预测标签,对目标异常行为识别模型进行可靠性检验;通过可靠性检验的目标异常行为识别模型用于识别会话应用中的异常资源转移行为。
在一个实施例中,模型验证模块还用于基于第二预测标签对目标异常行为识别模型进行准确性检验,得到准确性检验结果;基于第一预测标签和第二预测标签,对目标异常行为识别模型进行稳定性检验,得到稳定性检验结果;基于准确性检验结果和稳定性检验结果得到可靠性检验结果。
在一个实施例中,模型验证模块还用于分别对第一预测标签和第二预测标签进行分箱处理,得到第一预测标签对应的第一分箱信息和第二预测标签对应的第二分箱信息;第一分箱信息和第二分箱信息均包括多个标签分箱;对第一预测标签和第二预测标签进行标签类型分类,对各个标签分箱中同一类型的预测标签进行统计,得到各个标签分箱对应的中间标签分布信息;基于同一分箱信息对应的各个中间标签分布信息计算各个标签分箱的标签占比差异;分别从第一分箱信息和第二分箱信息对应的各个标签占比差异中确定目标占比差异,得到第一目标占比差异和第二目标占比差异;基于第一目标占比差异和第二目标占比差异之间的差异,确定稳定性检验结果。
在一个实施例中,训练样本包括正训练样本和负训练样本,测试样本包括正测试样本和负测试样本,正训练样本和正测试样本对应的目标正标签,负训练样本和负测试样本对应目标负标签。模型验证模块还用于获取多个标签分类阈值;基于标签分类阈值,将各个第一预测标签和各个第二预测标签划分为预测正标签和预测负标签,得到各个标签分类阈值对应的预测正标签和预测负标签;基于正训练样本对应的预测正标签和目标正标签、负训练样本对应的预测负标签和目标负标签,计算各个标签分类阈值对应的第一正标签预测准确度和第一负标签预测错误度,基于正测试样本对应的预测正标签和目标正标签、负测试样本对应的预测负标签和目标负标签,计算各个标签分类阈值对应的第二正标签预测准确度和第二负标签预测错误度;基于各个第一正标签预测准确度和第一负标签预测错误度生成第一曲线,获取第一曲线与坐标轴形成的第一面积,基于各个第二正标签预测准确度和第二负标签预测错误度生成第二曲线,获取第二曲线与坐标轴形成的第二面积;基于第一面积和第二面积之间的差异,确定稳定性检验结果。
在一个实施例中,模型验证模块还用于分别对第一预测标签和第二预测标签进行分箱处理,得到第一预测标签对应的第一分箱信息和第二预测标签对应的第二分箱信息;第一分箱信息和第二分箱信息均包括多个标签分箱;计算第一分箱信息和第二分箱信息对应的目标分箱价值信息,得到第一分箱价值信息和第二分箱价值信息;基于第一分箱价值信息和第二分箱价值信息之间的差异,确定稳定性检验结果。
在一个实施例中,模型验证模块还用于获取各个训练样本和测试样本对应的目标标签;从第一预测标签和第二预测标签中获取目标类型的预测标签作为参考标签;将同一样本对应的参考标签和目标标签进行匹配,确定训练样本对应的第一匹配成功数量和测试样本对应的第二匹配成功数量;基于训练样本对应的参考标签数量和第一匹配成功数量,计算第一匹配度,基于测试样本对应的参考标签数量和第二匹配成功数量,计算第二匹配度;基于训练样本对应的样本数量和第一匹配成功数量,计算第三匹配度,基于测试样本对应的样本数量和第二匹配成功数量,计算第四匹配度;基于第一匹配度和第二匹配度之间的差异、以及第三匹配度和第四匹配度之间的差异,确定稳定性检验结果。
在一个实施例中,如图7所示,提供了一种异常行为识别装置,该装置具体包括:特征获取模块702和行为识别模块704,其中:
特征获取模块702,用于获取会话应用中待识别资源转移行为对应的行为特征作为待识别行为特征;
行为识别模块704,用于将待识别行为特征输入目标异常行为识别模型,得到行为识别结果;
目标异常行为识别模型的训练过程包括以下步骤:
获取行为特征集合,获取行为特征集合中各个特征维度的行为特征所对应的特征分箱;行为特征集合包括会话应用中多个资源转移行为对应的行为特征,资源转移行为存在对应的行为标签;基于同一特征维度对应的各个特征分箱计算标签分布差异,基于同一特征维度对应的各个特征分箱的标签分布差异计算标签分布差异变化信息,得到各个特征维度对应的标签分布差异变化信息;基于标签分布差异变化信息,从各个特征维度中确定目标特征维度;基于同一资源转移行为中目标特征维度对应的目标行为特征建立训练样本,将资源转移行为对应的行为标签作为训练样本对应的训练标签;基于训练样本和训练标签对初始异常行为识别模型进行训练,得到目标异常行为识别模型。
上述异常行为识别装置,针对会话应用中的资源转移行为,通过已训练的目标异常行为识别模型来识别异常的资源转移行为,可以提高异常资源转移行为的识别准确性。进一步的,由于资源转移行为对应的行为特征多种多样,不同的行为特征对行为识别的影响程度不同,为了提高模型的准确性,在生成模型的训练样本时,先基于各个特征维度对应的标签分布差异变化信息对行为特征进行筛选,从多个特征维度中确定比较重要的目标特征维度,进而基于资源转移行为中目标特征维度对应的目标行为特征建立训练样本,这样的训练样本在模型训练时可以提高模型的鲁棒性、准确性。基于准确性较高的目标异常行为识别模型识别会话应用中的异常资源转移行为,可以进一步提高异常资源转移行为的识别准确性,避免模型过拟合。
上述异常行为识别模型训练装置、异常行为识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储资源转移行为的行为特征、特征分箱信息等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种异常行为识别模型训练方法、异常行为识别方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种异常行为识别模型训练方法、异常行为识别方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图8、9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (21)
1.一种异常行为识别模型训练方法,其特征在于,所述方法包括:
获取行为特征集合,获取所述行为特征集合中各个特征维度的行为特征所对应的特征分箱;所述行为特征集合包括会话应用中多个资源转移行为对应的行为特征,所述资源转移行为存在对应的行为标签;
基于同一特征维度对应的各个特征分箱计算标签分布差异,基于同一特征维度对应的各个特征分箱的标签分布差异计算标签分布差异变化信息,得到所述各个特征维度对应的标签分布差异变化信息;
基于所述标签分布差异变化信息,从所述各个特征维度中确定目标特征维度;
基于同一资源转移行为中所述目标特征维度对应的目标行为特征建立训练样本,将资源转移行为对应的行为标签作为训练样本对应的训练标签;
基于所述训练样本和所述训练标签对初始异常行为识别模型进行训练,得到目标异常行为识别模型;所述目标异常行为识别模型用于识别所述会话应用中的异常资源转移行为。
2.根据权利要求1所述的方法,其特征在于,所述资源转移行为对应的行为特征是基于资源转移方和资源接收方在所述会话应用中的会话消息得到的。
3.根据权利要求1所述的方法,其特征在于,所述行为特征包括资源转移方和资源接收方之间的社交关系信息、资源转移方和资源接收方的对象属性信息、资源转移方的资源转移行为差异和资源接收方的资源接收统计信息,所述资源转移行为差异是基于资源转移方的当前资源转移行为和历史资源转移行为之间的差异得到的,所述资源接收统计信息是对资源接收方在预设时间段接收到的资源转移份额进行统计得到的。
4.根据权利要求1所述的方法,其特征在于,所述获取所述行为特征集合中各个特征维度的行为特征所对应的特征分箱,包括:
基于同一特征维度对应的多个行为特征组成特征集合,得到所述各个特征维度对应的特征集合;
分别对各个特征集合进行分箱处理,得到所述各个特征维度对应的特征分箱信息;所述分箱处理包括有监督分箱处理和无监督分箱处理中的至少一种,所述特征分箱信息包括同一特征维度对应的多个特征分箱。
5.根据权利要求1所述的方法,其特征在于,所述基于同一特征维度对应的各个特征分箱计算标签分布差异,基于同一特征维度对应的各个特征分箱的标签分布差异计算标签分布差异变化信息,得到所述各个特征维度对应的标签分布差异变化信息,包括:
对各个特征分箱中同一类型的行为标签进行统计,得到所述各个特征分箱对应的初始标签分布信息;
对同一特征维度对应的初始标签分布信息进行统计,得到所述各个特征维度对应的目标标签分布信息;
基于同一特征维度对应的特征分箱的初始标签分布信息和目标标签分布信息计算标签占比信息,得到所述各个特征分箱对应的标签占比信息;所述标签占比信息包括各个类型的行为标签对应的标签占比;
基于同一特征分箱对应的标签占比信息计算标签分布差异,得到所述各个特征分箱对应的标签分布差异;
基于同一特征维度对应的各个特征分箱的标签分布差异确定标签分布差异的变化趋势,将标签分布差异的变化趋势作为标签分布差异变化信息,得到所述各个特征维度对应的标签分布差异变化信息。
6.根据权利要求5所述的方法,其特征在于,所述基于所述标签分布差异变化信息,从所述各个特征维度中确定目标特征维度之前,所述方法还包括:
基于同一特征维度对应的特征分箱的标签占比信息和标签分布差异计算分箱价值信息,得到各个特征分箱对应的初始分箱价值信息;
对同一特征维度对应的各个特征分箱的初始分箱价值信息进行统计,得到各个特征维度对应的目标分箱价值信息;
获取目标分箱价值信息大于预设分箱价值信息的特征维度作为候选特征维度;
基于各个候选特征维度对应的标签分布差异变化信息,从所述各个候选特征维度中确定所述目标特征维度。
7.根据权利要求1所述的方法,其特征在于,所述基于所述标签分布差异变化信息,从所述各个特征维度中确定目标特征维度,包括:
将标签分布差异变化信息满足预设条件的特征维度作为目标特征维度;所述预设条件包括标签分布差异变化信息呈现单调变化和抛物线变化中的至少一种。
8.根据权利要求1所述的方法,其特征在于,所述基于同一资源转移行为中所述目标特征维度对应的目标行为特征建立训练样本,包括:
基于所述目标行为特征对应的特征分箱的标签分布差异,对所述目标行为特征进行数据转换,得到更新行为特征;
基于同一资源转移行为中各个更新行为特征建立训练样本。
9.根据权利要求1所述的方法,其特征在于,所述基于所述训练样本和所述训练标签对初始异常行为识别模型进行训练,得到目标异常行为识别模型,包括:
将所述训练样本输入所述初始异常行为识别模型,得到所述训练样本对应的预测标签;
基于所述训练标签和所述预测标签计算训练损失,基于所述训练损失调整所述初始异常行为识别模型的模型参数,直至满足收敛条件,得到所述目标异常行为识别模型。
10.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取与所述训练样本的行为触发时间的时间差异大于预设时间差异的样本作为测试样本;所述测试样本是基于资源转移行为中所述目标特征维度对应的目标行为特征得到的;
将所述训练样本和所述测试样本分别输入所述目标异常行为识别模型,得到所述训练样本对应的第一预测标签和所述测试样本对应的第二预测标签;
基于所述第一预测标签和所述第二预测标签,对所述目标异常行为识别模型进行可靠性检验;通过可靠性检验的目标异常行为识别模型用于识别所述会话应用中的异常资源转移行为。
11.根据权利要求10所述的方法,其特征在于,所述基于所述第一预测标签和所述第二预测标签,对所述目标异常行为识别模型进行可靠性检验,包括:
基于所述第二预测标签对所述目标异常行为识别模型进行准确性检验,得到准确性检验结果;
基于所述第一预测标签和所述第二预测标签,对所述目标异常行为识别模型进行稳定性检验,得到稳定性检验结果;
基于所述准确性检验结果和所述稳定性检验结果得到可靠性检验结果。
12.根据权利要求11所述的方法,其特征在于,所述基于所述第一预测标签和所述第二预测标签,对所述目标异常行为识别模型进行稳定性检验,得到稳定性检验结果,包括:
分别对所述第一预测标签和所述第二预测标签进行分箱处理,得到所述第一预测标签对应的第一分箱信息和所述第二预测标签对应的第二分箱信息;所述第一分箱信息和所述第二分箱信息均包括多个标签分箱;
对所述第一预测标签和所述第二预测标签进行标签类型分类,对各个标签分箱中同一类型的预测标签进行统计,得到所述各个标签分箱对应的中间标签分布信息;
基于同一分箱信息对应的各个中间标签分布信息计算所述各个标签分箱的标签占比差异;
分别从所述第一分箱信息和所述第二分箱信息对应的各个标签占比差异中确定目标占比差异,得到第一目标占比差异和第二目标占比差异;
基于所述第一目标占比差异和所述第二目标占比差异之间的差异,确定所述稳定性检验结果。
13.根据权利要求11所述的方法,其特征在于,所述训练样本包括正训练样本和负训练样本,所述测试样本包括正测试样本和负测试样本,所述正训练样本和所述正测试样本对应的目标正标签,所述负训练样本和所述负测试样本对应目标负标签;
所述基于所述第一预测标签和所述第二预测标签,对所述目标异常行为识别模型进行稳定性检验,得到稳定性检验结果,包括:
获取多个标签分类阈值;
基于所述标签分类阈值,将各个第一预测标签和各个第二预测标签划分为预测正标签和预测负标签,得到各个标签分类阈值对应的预测正标签和预测负标签;
基于所述正训练样本对应的预测正标签和目标正标签、所述负训练样本对应的预测负标签和目标负标签,计算所述各个标签分类阈值对应的第一正标签预测准确度和第一负标签预测错误度,基于所述正测试样本对应的预测正标签和目标正标签、所述负测试样本对应的预测负标签和目标负标签,计算所述各个标签分类阈值对应的第二正标签预测准确度和第二负标签预测错误度;
基于各个第一正标签预测准确度和第一负标签预测错误度生成第一曲线,获取所述第一曲线与坐标轴形成的第一面积,基于各个第二正标签预测准确度和第二负标签预测错误度生成第二曲线,获取所述第二曲线与坐标轴形成的第二面积;
基于所述第一面积和所述第二面积之间的差异,确定所述稳定性检验结果。
14.根据权利要求11所述的方法,其特征在于,所述基于所述第一预测标签和所述第二预测标签,对所述目标异常行为识别模型进行稳定性检验,得到稳定性检验结果,包括:
分别对所述第一预测标签和所述第二预测标签进行分箱处理,得到所述第一预测标签对应的第一分箱信息和所述第二预测标签对应的第二分箱信息;所述第一分箱信息和所述第二分箱信息均包括多个标签分箱;
计算所述第一分箱信息和所述第二分箱信息对应的目标分箱价值信息,得到第一分箱价值信息和第二分箱价值信息;
基于所述第一分箱价值信息和所述第二分箱价值信息之间的差异,确定所述稳定性检验结果。
15.根据权利要求11所述的方法,其特征在于,所述基于所述第一预测标签和所述第二预测标签,对所述目标异常行为识别模型进行稳定性检验,得到稳定性检验结果,包括:
获取各个训练样本和测试样本对应的目标标签;
从第一预测标签和第二预测标签中获取目标类型的预测标签作为参考标签;
将同一样本对应的参考标签和目标标签进行匹配,确定所述训练样本对应的第一匹配成功数量和所述测试样本对应的第二匹配成功数量;
基于所述训练样本对应的参考标签数量和第一匹配成功数量,计算第一匹配度,基于所述测试样本对应的参考标签数量和第二匹配成功数量,计算第二匹配度;
基于所述训练样本对应的样本数量和第一匹配成功数量,计算第三匹配度,基于所述测试样本对应的样本数量和第二匹配成功数量,计算第四匹配度;
基于所述第一匹配度和所述第二匹配度之间的差异、以及所述第三匹配度和所述第四匹配度之间的差异,确定所述稳定性检验结果。
16.一种异常行为识别方法,其特征在于,所述方法包括:
获取会话应用中待识别资源转移行为对应的行为特征作为待识别行为特征;
将所述待识别行为特征输入目标异常行为识别模型,得到行为识别结果;
所述目标异常行为识别模型的训练过程包括以下步骤:
获取行为特征集合,获取所述行为特征集合中各个特征维度的行为特征所对应的特征分箱;所述行为特征集合包括会话应用中多个资源转移行为对应的行为特征,所述资源转移行为存在对应的行为标签;基于同一特征维度对应的各个特征分箱计算标签分布差异,基于同一特征维度对应的各个特征分箱的标签分布差异计算标签分布差异变化信息,得到所述各个特征维度对应的标签分布差异变化信息;基于所述标签分布差异变化信息,从所述各个特征维度中确定目标特征维度;基于同一资源转移行为中所述目标特征维度对应的目标行为特征建立训练样本,将资源转移行为对应的行为标签作为训练样本对应的训练标签;基于所述训练样本和所述训练标签对初始异常行为识别模型进行训练,得到目标异常行为识别模型。
17.一种异常行为识别模型训练装置,其特征在于,所述装置包括:
数据获取模块,用于获取行为特征集合,获取所述行为特征集合中各个特征维度的行为特征所对应的特征分箱;所述行为特征集合包括会话应用中多个资源转移行为对应的行为特征,所述资源转移行为存在对应的行为标签;
标签分布差异变化信息确定模块,用于基于同一特征维度对应的各个特征分箱计算标签分布差异,基于同一特征维度对应的各个特征分箱的标签分布差异计算标签分布差异变化信息,得到所述各个特征维度对应的标签分布差异变化信息;
目标特征维度确定模块,用于基于所述标签分布差异变化信息,从所述各个特征维度中确定目标特征维度;
训练样本建立模块,用于基于同一资源转移行为中所述目标特征维度对应的目标行为特征建立训练样本,将资源转移行为对应的行为标签作为训练样本对应的训练标签;
模型训练模块,用于基于所述训练样本和所述训练标签对初始异常行为识别模型进行训练,得到目标异常行为识别模型;所述目标异常行为识别模型用于识别所述会话应用中的异常资源转移行为。
18.一种异常行为识别装置,其特征在于,所述装置包括:
特征获取模块,用于获取会话应用中待识别资源转移行为对应的行为特征作为待识别行为特征;
行为识别模块,用于将所述待识别行为特征输入目标异常行为识别模型,得到行为识别结果;
所述目标异常行为识别模型的训练过程包括以下步骤:
获取行为特征集合,获取所述行为特征集合中各个特征维度的行为特征所对应的特征分箱;所述行为特征集合包括会话应用中多个资源转移行为对应的行为特征,所述资源转移行为存在对应的行为标签;基于同一特征维度对应的各个特征分箱计算标签分布差异,基于同一特征维度对应的各个特征分箱的标签分布差异计算标签分布差异变化信息,得到所述各个特征维度对应的标签分布差异变化信息;基于所述标签分布差异变化信息,从所述各个特征维度中确定目标特征维度;基于同一资源转移行为中所述目标特征维度对应的目标行为特征建立训练样本,将资源转移行为对应的行为标签作为训练样本对应的训练标签;基于所述训练样本和所述训练标签对初始异常行为识别模型进行训练,得到目标异常行为识别模型。
19.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至15或16中任一项所述的方法的步骤。
20.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至15或16中任一项所述的方法的步骤。
21.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至15或16中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210016874.0A CN116451050A (zh) | 2022-01-07 | 2022-01-07 | 异常行为识别模型训练、异常行为识别方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210016874.0A CN116451050A (zh) | 2022-01-07 | 2022-01-07 | 异常行为识别模型训练、异常行为识别方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116451050A true CN116451050A (zh) | 2023-07-18 |
Family
ID=87124287
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210016874.0A Pending CN116451050A (zh) | 2022-01-07 | 2022-01-07 | 异常行为识别模型训练、异常行为识别方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116451050A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117033052A (zh) * | 2023-08-14 | 2023-11-10 | 贵州慧码科技有限公司 | 基于模型识别的对象异常诊断方法及系统 |
-
2022
- 2022-01-07 CN CN202210016874.0A patent/CN116451050A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117033052A (zh) * | 2023-08-14 | 2023-11-10 | 贵州慧码科技有限公司 | 基于模型识别的对象异常诊断方法及系统 |
CN117033052B (zh) * | 2023-08-14 | 2024-05-24 | 企口袋(重庆)数字科技有限公司 | 基于模型识别的对象异常诊断方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chen et al. | Cyber security in smart cities: a review of deep learning-based applications and case studies | |
CN106803168B (zh) | 一种异常转账侦测方法和装置 | |
CN107316198B (zh) | 账户风险识别方法及装置 | |
CN109410036A (zh) | 一种欺诈检测模型训练方法和装置及欺诈检测方法和装置 | |
Sadineni | Detection of fraudulent transactions in credit card using machine learning algorithms | |
Chiu et al. | Internet auction fraud detection using social network analysis and classification tree approaches | |
Lopez-Rojas et al. | Money laundering detection using synthetic data | |
CN113344562B (zh) | 基于深度神经网络的以太坊钓鱼诈骗账户检测方法与装置 | |
CN110189134B (zh) | 基于疑似欺诈交易参照序位的网络支付反欺诈系统架构设计方法 | |
CN110348528A (zh) | 基于多维数据挖掘的用户信用确定方法 | |
US20220269796A1 (en) | Method and system for securely deploying an artificial intelligence model | |
CN112767136A (zh) | 基于大数据的信贷反欺诈识别方法、装置、设备及介质 | |
WO2023045691A1 (zh) | 对象识别方法、装置、电子设备及存储介质 | |
CN116823428A (zh) | 一种反欺诈检测方法、装置、设备及存储介质 | |
CN110457601B (zh) | 社交账号的识别方法和装置、存储介质及电子装置 | |
CN110347669A (zh) | 基于流式大数据分析的风险防范方法 | |
CN116451050A (zh) | 异常行为识别模型训练、异常行为识别方法和装置 | |
Ghaleb et al. | Ensemble Synthesized Minority Oversampling based Generative Adversarial Networks and Random Forest Algorithm for Credit Card Fraud Detection | |
CN115049397A (zh) | 识别社交网络中的风险账户的方法及装置 | |
Priyadarshini et al. | Fraudulent credit card transaction detection using soft computing techniques | |
CN117196630A (zh) | 交易风险预测方法、装置、终端设备以及存储介质 | |
Kumar et al. | Preserving security of crypto transactions with machine learning methodologies | |
CN111402048A (zh) | 一种可对海量金融大数据处理的智能风控系统 | |
Xiao et al. | Explainable fraud detection for few labeled time series data | |
Hu et al. | Cost-Sensitive GNN-Based Imbalanced learning for mobile social network fraud detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40090993 Country of ref document: HK |