CN115204395A - 数据的处理方法、装置及设备 - Google Patents

数据的处理方法、装置及设备 Download PDF

Info

Publication number
CN115204395A
CN115204395A CN202210707219.XA CN202210707219A CN115204395A CN 115204395 A CN115204395 A CN 115204395A CN 202210707219 A CN202210707219 A CN 202210707219A CN 115204395 A CN115204395 A CN 115204395A
Authority
CN
China
Prior art keywords
behavior data
feature vector
risk
data
trained
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210707219.XA
Other languages
English (en)
Inventor
许小龙
张长浩
王维强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202210707219.XA priority Critical patent/CN115204395A/zh
Publication of CN115204395A publication Critical patent/CN115204395A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例提供了一种数据的处理方法、装置及设备,所述方法包括:获取第一对象的第一行为数据和所述第一对象的风险标签;基于所述第一行为数据生成第二行为数据;基于预先训练的因果推断模型和所述第二行为数据,得到所述第二行为数据对应的第一特征向量,所述第一特征向量为所述预先训练的因果推断模型基于所述第二行为数据内的不同数据之间的依赖关系,生成的能够表征所述第二行为数据内的不同数据之间相关性的特征向量;将所述第一对象的风险标签确定为所述第一特征向量的风险标签,并基于所述第一特征向量和所述第一特征向量的风险标签,对由深度学习算法构建的风险识别模型进行对抗训练,得到训练后的风险识别模型。

Description

数据的处理方法、装置及设备
技术领域
本文件涉及数据处理技术领域,尤其涉及一种数据的处理方法、装置及设备。
背景技术
随着计算机技术的不断发展,终端设备成为人们生活和工作的必需品,终端设备可以为用户提供的服务越来越多,为保证用户的信息安全,可以通过风险识别模型对用户触发执行的业务是否存在风险进行识别。
但是,由于风险场景变化速度较快,样本数据较少,这就会导致训练得到的风险识别模型的识别准确性差,因此,需要一种能够提高风险识别模型的识别准确性的解决方案。
发明内容
本说明书实施例的目的是提供一种能够提高风险识别模型的识别准确性的解决方案。
为了实现上述技术方案,本说明书实施例是这样实现的:
第一方面,本说明书实施例提供了一种数据的处理方法,所述方法包括:获取第一对象的第一行为数据和所述第一对象的风险标签;基于所述第一行为数据生成第二行为数据,所述第二行为数据与所述第一行为数据之间的相似度小于预设相似度;基于预先训练的因果推断模型和所述第二行为数据,得到所述第二行为数据对应的第一特征向量,所述第一特征向量为所述预先训练的因果推断模型基于所述第二行为数据内的不同数据之间的依赖关系,生成的能够表征所述第二行为数据内的不同数据之间相关性的特征向量;将所述第一对象的风险标签确定为所述第一特征向量的风险标签,并基于所述第一特征向量和所述第一特征向量的风险标签,对由深度学习算法构建的风险识别模型进行对抗训练,得到训练后的风险识别模型,所述训练后的风险识别模型用于对待识别的目标对象进行风险识别处理,得到针对所述目标对象的风险识别结果。
第二方面,本说明书实施例提供了一种数据的处理装置,包括:第一获取模块,用于获取第一对象的第一行为数据和所述第一对象的风险标签;数据生成模块,用于基于所述第一行为数据生成第二行为数据,所述第二行为数据与所述第一行为数据之间的相似度小于预设相似度;向量确定模块,用于基于预先训练的因果推断模型和所述第二行为数据,得到所述第二行为数据对应的第一特征向量,所述第一特征向量为所述预先训练的因果推断模型基于所述第二行为数据内的不同数据之间的依赖关系,生成的能够表征所述第二行为数据内的不同数据之间相关性的特征向量;第一训练模块,用于将所述第一对象的风险标签确定为所述第一特征向量的风险标签,并基于所述第一特征向量和所述第一特征向量的风险标签,对由深度学习算法构建的风险识别模型进行对抗训练,得到训练后的风险识别模型,所述训练后的风险识别模型用于对待识别的目标对象进行风险识别处理,得到针对所述目标对象的风险识别结果。
第三方面,本说明书实施例提供了一种数据的处理设备,所述数据的处理设备包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:获取第一对象的第一行为数据和所述第一对象的风险标签;基于所述第一行为数据生成第二行为数据,所述第二行为数据与所述第一行为数据之间的相似度小于预设相似度;基于预先训练的因果推断模型和所述第二行为数据,得到所述第二行为数据对应的第一特征向量,所述第一特征向量为所述预先训练的因果推断模型基于所述第二行为数据内的不同数据之间的依赖关系,生成的能够表征所述第二行为数据内的不同数据之间相关性的特征向量;将所述第一对象的风险标签确定为所述第一特征向量的风险标签,并基于所述第一特征向量和所述第一特征向量的风险标签,对由深度学习算法构建的风险识别模型进行对抗训练,得到训练后的风险识别模型,所述训练后的风险识别模型用于对待识别的目标对象进行风险识别处理,得到针对所述目标对象的风险识别结果。
第四方面,本说明书实施例提供了一种存储介质,所述存储介质用于存储计算机可执行指令,所述可执行指令在被执行时实现以下流程:获取第一对象的第一行为数据和所述第一对象的风险标签;基于所述第一行为数据生成第二行为数据,所述第二行为数据与所述第一行为数据之间的相似度小于预设相似度;基于预先训练的因果推断模型和所述第二行为数据,得到所述第二行为数据对应的第一特征向量,所述第一特征向量为所述预先训练的因果推断模型基于所述第二行为数据内的不同数据之间的依赖关系,生成的能够表征所述第二行为数据内的不同数据之间相关性的特征向量;将所述第一对象的风险标签确定为所述第一特征向量的风险标签,并基于所述第一特征向量和所述第一特征向量的风险标签,对由深度学习算法构建的风险识别模型进行对抗训练,得到训练后的风险识别模型,所述训练后的风险识别模型用于对待识别的目标对象进行风险识别处理,得到针对所述目标对象的风险识别结果。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1A为本说明书一种数据的处理方法实施例的流程图;
图1B为本说明书一种数据的处理方法的处理过程示意图;
图2为本说明书又一种数据的处理方法的处理过程示意图;
图3为本说明书一种贝叶斯因果图的示意图;
图4为本说明书一种数据的处理方法的示意图;
图5为本说明书一种数据的处理装置实施例的结构示意图;
图6为本说明书一种数据的处理设备的结构示意图。
具体实施方式
本说明书实施例提供一种数据的处理方法、装置及设备。
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
实施例一
如图1A和1B所示,本说明书实施例提供一种数据的处理方法,该方法的执行主体可以为终端设备或服务器,其中,该终端设备可以是手机、平板电脑等移动终端设备,该服务器可以是独立的服务器,也可以是由多个服务器组成的服务器集群。该方法具体可以包括以下步骤:
在S102中,获取第一对象的第一行为数据和第一对象的风险标签。
其中,第一对象可以包括业务对象和/或账户对象,第一对象的第一行为数据可以包括预设更新周期内与第一对象对应的行为数据,例如,第一对象可以包括资源转移业务和/或资源转移业务的触发用户,若第一对象包括资源转移业务,则第一对象的第一行为数据可以包括近一个月内触发该资源转移业务的用户的用户标识、资源转移的时间、资源转移的数量等数据,若第一对象包括资源转移业务的触发用户,则第一对象的第一行为数据可以包括近一个月内该用户触发的与资源转移业务相关的业务的类型、触发的时间等数据,第一对象的风险标签可以为0-1标签,即标签为0,表示该第一对象不存在风险,标签为1,表示该第一对象存在风险。
在实施中,随着计算机技术的不断发展,终端设备成为人们生活和工作的必需品,终端设备可以为用户提供的服务越来越多,为保证用户的信息安全,可以通过风险识别模型对用户触发执行的业务是否存在风险进行识别。为应对风险场景变化速度较快,样本数据较少的情况,可以通过数据增强的方式构建训练样本数据集,以对风险识别模型进行更新,但是,通过数据增强的方式构建训练样本数据集,易引入噪声数据,造成数据污染,这就会导致基于该训练样本数据集训练得到的风险识别模型的识别准确性差,因此,需要一种能够提高风险识别模型的识别准确性的解决方案。
如图1B所示,以接收设备为服务器,发送设备为终端设备,第一对象包括账户对象为例,服务器可以接收多个终端设备发送的预设更新周期内的多个账户(即第一对象)对应的第一行为数据,例如,服务器接收到的第一行为数据可以包括终端设备1发送的账户1在近一个月内触发的登录业务的次数、触发的资源转移业务的次数以及触发的信息更新业务的次数,终端设备2发送的账户2在近一个月内触发的登录业务的次数、触发的资源转移业务的次数以及触发的信息更新业务的次数等。
此外,服务器可以接收终端设备发送的第一对象的风险标签(如终端设备可以基于第一对象的第一行为数据和预先训练的风险识别模型确定的第一对象的风险标签等),也可以是服务器基于接收到的第一对象的第一行为数据确定的第一对象的风险标签,或者,第一对象的风险标签也可以是人为标注的风险标签,如第一对象的风险标签可以是相关工作人员基于第一对象的历史行为数据确定的风险标签。
另外,第一对象的第一行为数据和第一对象的风险标签还可以是服务器中预先存储的数据,服务器可以基于预设更新周期获取存储的第一对象的第一行为数据和第一对象的风险标签。
上述第一对象的第一行为数据的数据类型、获取方式等是一种可选地、可实现的确定方法,在实际应用场景中,还可以有多种不同的数据类型和获取方式,可以根据实际应用场景的不同选取不同的数据类型和获取方式,本说明书实施例对此不做具体限定。
在S104中,基于第一行为数据生成第二行为数据。
其中,第二行为数据与第一行为数据之间的相似度可以小于预设相似度。
在实施中,可以基于预先训练的行为数据构造模型,生成与第一行为数据之间的相似度小于预设相似度的第二行为数据,其中,行为数据构造模型可以是基于历史第一行为数据和历史第二行为数据对由机器学习算法构建的模型训练得到。
例如,假设第一行为数据为(5,6,2),即第一对象(如可以为账户1)在近一个月内触发的登录业务的次数为5,触发的资源转移业务的次数为6,触发的信息更新业务的次数为2,将该第一行为数据输入预先训练的行为数据构造模型,生成的第二行为数据可以为(4,8,0),其中,第一行为数据(5,6,2)与第二行为数据(4,8,0)之间的相似度可以为(4+8+1)/(5+6+2)=0.92,预设相似度可以为0.8。
此外,上述第二行为数据的生成方法以及第二行为数据与第一行为数据之间的相似度的确定方法是一种可选地、可实现的生成方法和确定方法,在实际应用场景中,还可以有多种不同的生成方法和确定方法,可以根据实际应用场景的不同选取不同的生成方法和确定方法,本说明书实施例对此不做具体限定。
在S106中,基于预先训练的因果推断模型和第二行为数据,得到第二行为数据对应的第一特征向量。
其中,第一特征向量可以为预先训练的因果推断模型基于第二行为数据内的不同数据之间的依赖关系,生成的能够表征第二行为数据内的不同数据之间相关性的特征向量,因果推断模型可以是基于预设机器学习算法构建的用于分析结果变量在其原因变量变化时发生的回应的模型,即第二行为数据的第一特征向量在第二行为数据变化时发生的回应。
在实施中,可以通过因果推断模型对第二行为数据内的不同数据之间的依赖关系进行分析处理,得到能够表征第二行为数据内的不同数据之间相关性的第一特征向量。例如,假设第二行为数据包括子数据1、子数据2以及子数据3,则可以通过因果推断模型对这三个子数据之间的依赖关系进行分析处理,得到能够表征这三个子数据之间相关性的多个第一特征向量,例如,可以得到能够表征子数据1和子数据2之间相关性的第一特征向量1、能够表征子数据2和子数据3之间相关性的第一特征向量2,以及能够表征子数据1、子数据2以及子数据3之间相关性的第一特征向量3等。
在S108中,将第一对象的风险标签确定为第一特征向量的风险标签,并基于第一特征向量和第一特征向量的风险标签,对由深度学习算法构建的风险识别模型进行对抗训练,得到训练后的风险识别模型。
其中,训练后的风险识别模型可以用于对待识别的目标对象进行风险识别处理,得到针对目标对象的风险识别结果,风险识别模型可以通过多种不同的深度学习算法构建,而且风险识别模型可以根据不同的场景需求选取不同的深度学习算法,例如,风险识别模型可以是基于卷积神经网络(Convolutional Neural Networks,CNN)算法构建的模型,也可以是基于长短期记忆网络(Long Short-Term Memory,LSTM)算法构建的模型模型等。
在实施中,可以将第一对象的风险标签确定为第一特征向量的风险标签,这样,由于第二行为数据是基于第一行为数据生成的与第一行为数据的相似度较低(如可以是低于预设阈值)的行为数据,因此,可以通过第二行为数据对风险识别模型进行对抗训练,即通过寻找模型潜在威胁以建立对抗的策略,以建立安全的风险识别模型,增强风险识别模型的鲁棒性。
可以在预设训练样本集中加入第一特征向量,以实现对风险识别模型的对抗训练,得到训练后的风险识别模型。另外,由于第二行为数据是基于第一行为数据生成的能够起到干扰作用的行为数据,且第二行为数据与第一行为数据的风险标签相同,因此,可以不断通过第二行为数据的生成方法实现拓展样本数量的目的,且能够保证生成的样本数据(即第二行为数据)和原始样本数据(即第一行为数据)的数据模式(如数据结构、表征含义等)不变性,如假设第一行为数据为(5,6,2),即第一对象在近一个月内触发的登录业务的次数为5,触发的资源转移业务的次数为6,触发的信息更新业务的次数为2,基于该第一行为数据生成的第二行为数据可以为(4,8,0),即生成的第二行为数据可以表征近一个月内触发的登录业务的次数为4,触发的资源转移业务的次数为8,触发的信息更新业务的次数为0,可见,生成的第二行为数据与第一行为数据的数据模式相同。另外,还可以避免通过数据增强的方式构建训练样本数据集导致的噪声数据较多,样本不具备可解释性的问题。
在得到训练后的风险识别模型后,如图1B所示,以接收设备为服务器,发送设备为终端设备为例,服务器还可以将风险识别模型发送给终端设备,以使终端设备基于训练后的风险识别模型对待识别的目标对象进行风险识别处理,得到针对目标对象的风险识别结果。或者,终端设备也可以将待识别的目标对象发送给服务器,以使服务器基于训练后的风险识别模型对待识别的目标对象进行风险识别处理,得到针对目标对象的风险识别结果,并将风险识别结果返回给终端设备。
本说明书实施例提供一种数据的处理方法,获取第一对象的第一行为数据和第一对象的风险标签,基于第一行为数据生成第二行为数据,第二行为数据与第一行为数据之间的相似度小于预设相似度,基于预先训练的因果推断模型和第二行为数据,得到第二行为数据对应的第一特征向量,第一特征向量为预先训练的因果推断模型基于第二行为数据内的不同数据之间的依赖关系,生成的能够表征第二行为数据内的不同数据之间相关性的特征向量,将第一对象的风险标签确定为第一特征向量的风险标签,并基于第一特征向量和第一特征向量的风险标签,对由深度学习算法构建的风险识别模型进行对抗训练,得到训练后的风险识别模型,训练后的风险识别模型可以用于对待识别的目标对象进行风险识别处理,得到针对目标对象的风险识别结果。这样,由于第一特征向量是预先训练的因果推断模型基于第二行为数据内的不同数据之间的依赖关系,生成的能够表征第二行为数据内的不同数据之间相关性的特征向量,即用于训练风险识别模型的样本数据(即第一特征向量)能够表征第二行为数据内的不同数据之间的相关性,具有样本可解释性,因此,基于第一特征向量和第一特征向量的风险标签,对由深度学习算法构建的风险识别模型进行对抗训练,得到的训练后的风险识别模型的鲁棒性强,即通过训练后的风险识别模型对待识别的目标对象进行风险识别处理,得到的针对目标对象的风险识别结果的准确性高。
实施例二
如图2所示,本说明书实施例提供一种数据的处理方法,该方法的执行主体可以为终端设备或服务器,其中,该终端设备可以是手机、平板电脑等移动终端设备,该服务器可以是独立的服务器,也可以是由多个服务器组成的服务器集群。该方法具体可以包括以下步骤:
在S102中,获取第一对象的第一行为数据和第一对象的风险标签。
在S104中,基于第一行为数据生成第二行为数据。
其中,第二行为数据与第一行为数据之间的相似度可以小于预设相似度。
在实施中,在实际应用中,上述S316的处理方式可以多种多样,以下提供一种可选的实现方式,具体可以参见下述步骤A1~A2处理:
在A1中,获取第一行为数据内的多个属性数据。
其中,第一行为数据内的多个属性数据可以包括能够表征第一行为数据的数量,例如,若第一行为数据为某账户近一个月内的转账行为数据,则该第一行为数据的多个属性数据可以包括该账户近一个月内每次转账行为的时间、转账数量、转账对象等数据,此外,第一行为数据还可以包括与转账行为具有预设相关关系的行为的属性数据,如第一行为数据的多个属性数据还可以包括登录行为的属性数据,具体如该账户近一个月内每次登录行为的时间、地点、登录设备的信息等。
在A2中,基于预设变换规则,对属性数据进行变换处理,得到变换处理后的属性数据,并基于变换处理后的属性数据,确定第二行为数据。
在实施中,例如,可以获取与每个属性数据对应的预设变换范围,并从预设变换范围内随机选取一个数据,并基于随机选取的数据对该属性数据进行替换处理,得到变换处理后的属性数据。
例如,以第一行为数据为(5,6,2)为例,其中,(5,6,2)的含义可以为账户1在近一个月内触发5次登录业务,触发6次资源转移业务,触发2次信息更新业务。假设与登录业务的次数对应的预设变换范围是不小于登录业务的次数且小于登录业务的次数加10,即与触发5次登录业务对应的预设变换范围可以为不小于5且小于15,则可以在该范围内随机选取一个数据,并基于该数据对原属性数据进行替换处理,得到变换处理后的属性数据,如登录业务的次数可以为8。
上述变换处理后的属性数据的确定方法是一种可选地、可实现的确定方法,在实际应用场景中,还可以有多种不同的确定方法,可以根据实际应用场景的不同选取不同的确定方法,本说明书实施例对此不做具体限定。
可以基于变换处理后的属性数据,构建行为数据,若构建的行为数据与第一行为数据之间的相似度不小于预设相似度,则可以再次基于预设变换规则,对属性数据进行变换处理,得到变换处理后的属性数据,并基于变换处理后的属性数据,构建行为数据,直至构建的行为数据与第一行为数据之间的相似度小于预设相似度,并将与第一行为数据之间的相似度小于预设相似度的行为数据,确定为第二行为数据。
上述S316的处理方式可以多种多样,以下提供一种可选的实现方式,具体可以参见下述步骤B1处理:
在B1中,基于预先训练的生成式对抗网络模型和第一行为数据,生成与第一行为数据对应的对抗行为数据,并将对抗行为数据确定为第二行为数据。
其中,生成式对抗网络模型可以为基于历史行为数据对由深度学习算法构建的模型进行训练得到。
在实施中,生成式对抗网络模型可以包括生成模块和判别模块,生成模块可以通过拟合第一行为数据,得到生成行为数据,判别模块可以对生成行为数据和第一行为数据进行判别,以得到与第一行为数据之间的相似度小于预设相似度的第二行为数据。
在S202中,获取历史对象的历史行为数据,以及历史行为数据对应的历史特征向量。
其中,历史对象可以包括历史业务和/历史账户。
在实施中,可以基于预先训练的特征提取模型,对历史对象的历史行为数据进行特征提取处理,得到历史行为数据对应的历史特征向量。
此外,为提高风险识别模型在预设场景下的风险识别准确性,可以根据待识别的目标对象的不同,选取不同的历史对象,例如,若待识别的目标对象为某业务,则可以基于该业务选取对应的历史业务作为历史对象,相应的,若待识别的目标对象为某账户,则可以获取历史账户作为历史对象。
在S204中,基于历史行为数据和历史特征向量,对由贝叶斯网络构建的因果推断模型进行训练,得到训练后的因果推断模型。
其中,贝叶斯网络通过有向图将因果特征表示为网络,然后通过执行概率推理来预测复杂事件和不确定事件的可能性。
在实施中,可以通过历史行为数据生成贝叶斯因果图,生成的部分贝叶斯因果图可以如图3所示,其中,A、B、C可以为构成不同的历史行为数据的根因(如可以为历史数据内的属性数据),例如,A可以表示某账户在近一个月内触发A次登录业务,B可以表示该账户触发B次资源转移业务,C可以表示该账户触发C次信息更新业务,由这些根因可以组成不同的特征向量(即历史行为数据对应的历史特征向量),即可以基于A得到历史特征向量X1,基于A和B得到历史特征向量X2等。
在S106中,基于预先训练的因果推断模型和第二行为数据,得到第二行为数据对应的第一特征向量。
其中,第一特征向量可以为预先训练的因果推断模型基于第二行为数据内的不同数据之间的依赖关系,生成的能够表征第二行为数据内的不同数据之间相关性的特征向量。
在S108中,将第一对象的风险标签确定为第一特征向量的风险标签。
在S206中,基于第二行为数据的数量,获取第二对象的第三行为数据和第二对象的风险标签。
其中,第二对象可以包括业务对象和/或账户对象,第二对象可以与第一对象相同,即若第一对象包括业务对象,则第二对象也可以包括业务对象。
在实施中,可以基于预设样本比例,以及第二行为数据的数量,获取第二对象的第三行为数据,以基于第二行为数据和第三行为数据对风险识别模型进行对抗训练。
例如,若生成的第二行为数据有10个,预设样本比例为1:8,则可以获取80个第三行为数据,以提高对风险识别模型进行对抗训练的训练效果。
此外,预设样本比例可以根据待识别的目标对象的不同而有所不同,例如,若待识别的目标对象的安全需求较高,则预设样本比例可以较小,即用于进行干扰的第二行为数据的占比可以较大,反之,若待识别的目标对象的安全需求较低,则预设样本比例可以较大,即用于进行干扰的第二行为数据的占比可以较小。
在S208中,确定第三行为数据对应的第二特征向量,并将第二对象的风险标签确定为第二特征向量的风险标签。
在实施中,可以基于预先训练的特征提取模型对第三行为数据进行调整提取处理,得到第三行为数据的第二特征向量,或者,还可以基于预先训练的因果推断模型和第三行为数据,确定第三行为数据的第二特征向量,除此之外,第三行为数据的第二特征向量的确定方法还可以有多种,可以根据实际应用场景的不同而有所不同,本说明书实施例对此不作具体限定。
在S210中,基于第一特征向量、第一特征向量的风险标签、第二特征向量和第二特征向量的风险标签,对风险识别模型进行对抗训练,得到训练后的风险识别模型。
在S212中,获取目标场景下待识别的目标对象的目标行为数据。
其中,目标对象包括目标业务和/或目标账户。
在S214中,确定目标行为数据对应的目标特征向量。
在实施中,可以基于预先训练的因果推断模型和目标行为数据,确定目标行为数据对应的目标特征向量。
在S216中,基于训练后的风险识别模型和目标特征向量,确定针对目标对象的风险识别结果。
在实施中,如图4所示,可以将目标行为数据输入预先训练的因果推断模型,得到能够表征目标行为数据内不同数据之间相关性的目标特征向量,在将目标特征向量输入训练后的风险识别模型,可以得到针对目标对象的风险识别结果。
在S218中,基于风险识别结果,确定目标场景下目标对象是否存在风险。
在实施中,若基于风险识别结果,确定目标场景下目标对象存在风险,则可以输出预设报警信息。
另外,若目标对象包括目标业务和目标账户,则可以分别获取与目标业务对应的风险识别模型1,以及与目标账户对应的风险识别模型2,其中,风险识别模型1可以是基于预先训练的因果推荐模型1以及历史业务对应的历史行为数据训练得到,风险识别模型2可以是基于预先训练的因果推荐模型2以及历史账户对应的历史行为数据训练得到,预先训练的因果推荐模型1可以是基于业务对象的行为数据生成的第二行为数据1训练得到,预先训练的因果推荐模型2可以是基于账户对象的行为数据生成的第二行为数据2训练得到。
即可以通过不同的目标对象,选取由与目标对象对应的样本数据和因果推荐模型进行训练得到的风险识别模型进行风险识别处理。此外,在得到针对目标业务的风险识别结果1以及针对目标账户的风险识别结果2后,可以根据不同场景下不同对象的风险权重和风险识别结果,确定目标场景下目标对象是否存在风险,例如,若目标场景为资源转移场景,该场景下目标业务的风险权重为0.8,目标账户的风险权重为0.5,针对目标业务的风险识别结果为风险标签为1(即存在风险),针对目标账户的风险识别结果为风险标签为0(即不存在风险),则目标场景下目标对象的风险分数可以为0.8*1+0.5*0=0.8,若资源转移场景下的预设风险阈值为0.7,则可以确定该目标场景下目标对象存在风险。
上述针对目标场景下目标对象是否存在风险的判断方法是一种可选地、可实现的判断方法,在实际应用场景中,还可以有多种不同的判断方法,可以根据实际应用场景的不同选取不同的判断方法,本说明书实施例对此不做具体限定。
本说明书实施例提供一种数据的处理方法,获取第一对象的第一行为数据和第一对象的风险标签,基于第一行为数据生成第二行为数据,第二行为数据与第一行为数据之间的相似度小于预设相似度,基于预先训练的因果推断模型和第二行为数据,得到第二行为数据对应的第一特征向量,第一特征向量为预先训练的因果推断模型基于第二行为数据内的不同数据之间的依赖关系,生成的能够表征第二行为数据内的不同数据之间相关性的特征向量,将第一对象的风险标签确定为第一特征向量的风险标签,并基于第一特征向量和第一特征向量的风险标签,对由深度学习算法构建的风险识别模型进行对抗训练,得到训练后的风险识别模型,训练后的风险识别模型可以用于对待识别的目标对象进行风险识别处理,得到针对目标对象的风险识别结果。这样,由于第一特征向量是预先训练的因果推断模型基于第二行为数据内的不同数据之间的依赖关系,生成的能够表征第二行为数据内的不同数据之间相关性的特征向量,即用于训练风险识别模型的样本数据(即第一特征向量)能够表征第二行为数据内的不同数据之间的相关性,具有样本可解释性,因此,基于第一特征向量和第一特征向量的风险标签,对由深度学习算法构建的风险识别模型进行对抗训练,得到的训练后的风险识别模型的鲁棒性强,即通过训练后的风险识别模型对待识别的目标对象进行风险识别处理,得到的针对目标对象的风险识别结果的准确性高。
实施例三
以上为本说明书实施例提供的数据的处理方法,基于同样的思路,本说明书实施例还提供一种数据的处理装置,如图5所示。
该数据的处理装置包括:第一获取模块501、数据生成模块502、向量确定模块503和第一训练模块504,其中:
第一获取模块501,用于获取第一对象的第一行为数据和所述第一对象的风险标签;
数据生成模块502,用于基于所述第一行为数据生成第二行为数据,所述第二行为数据与所述第一行为数据之间的相似度小于预设相似度;
向量确定模块503,用于基于预先训练的因果推断模型和所述第二行为数据,得到所述第二行为数据对应的第一特征向量,所述第一特征向量为所述预先训练的因果推断模型基于所述第二行为数据内的不同数据之间的依赖关系,生成的能够表征所述第二行为数据内的不同数据之间相关性的特征向量;
第一训练模块504,用于将所述第一对象的风险标签确定为所述第一特征向量的风险标签,并基于所述第一特征向量和所述第一特征向量的风险标签,对由深度学习算法构建的风险识别模型进行对抗训练,得到训练后的风险识别模型,所述训练后的风险识别模型用于对待识别的目标对象进行风险识别处理,得到针对所述目标对象的风险识别结果。
本说明书实施例中,所述第一训练模块504,用于:
基于所述第二行为数据的数量,获取第二对象的第三行为数据和所述第二对象的风险标签;
确定所述第三行为数据对应的第二特征向量,并将所述第二对象的风险标签确定为所述第二特征向量的风险标签;
基于所述第一特征向量、所述第一特征向量的风险标签、所述第二特征向量和所述第二特征向量的风险标签,对所述风险识别模型进行对抗训练,得到所述训练后的风险识别模型。
本说明书实施例中,所述装置还包括:
第二获取模块,用于获取历史对象的历史行为数据,以及所述历史行为数据对应的历史特征向量;
第二训练模块,用于基于所述历史行为数据和所述历史特征向量,对由贝叶斯网络构建的所述因果推断模型进行训练,得到训练后的因果推断模型。
本说明书实施例中,所述装置还包括:
第三获取模块,用于获取目标场景下所述待识别的目标对象的目标行为数据,所述目标对象包括目标业务和/或目标账户;
结果确定模块,用于确定所述目标行为数据对应的目标特征向量,并基于所述训练后的风险识别模型和所述目标特征向量,确定针对所述目标对象的风险识别结果;
风险识别模块,用于基于所述风险识别结果,确定所述目标场景下所述目标对象是否存在风险。
本说明书实施例中,所述结果确定模块,用于:
基于所述预先训练的因果推断模型和所述目标行为数据,确定所述目标行为数据对应的目标特征向量。
本说明书实施例中,所述数据生成模块502,用于:
获取所述第一行为数据内的多个属性数据;
基于预设变换规则,对所述属性数据进行变换处理,得到变换处理后的属性数据,并基于所述变换处理后的属性数据,确定所述第二行为数据。
本说明书实施例中,所述数据生成模块502,用于:
基于预先训练的生成式对抗网络模型和所述第一行为数据,生成与所述第一行为数据对应的对抗行为数据,并将所述对抗行为数据确定为所述第二行为数据,所述生成式对抗网络模型为基于所述历史行为数据对由深度学习算法构建的模型进行训练得到。
本说明书实施例提供一种数据的处理装置,获取第一对象的第一行为数据和第一对象的风险标签,基于第一行为数据生成第二行为数据,第二行为数据与第一行为数据之间的相似度小于预设相似度,基于预先训练的因果推断模型和第二行为数据,得到第二行为数据对应的第一特征向量,第一特征向量为预先训练的因果推断模型基于第二行为数据内的不同数据之间的依赖关系,生成的能够表征第二行为数据内的不同数据之间相关性的特征向量,将第一对象的风险标签确定为第一特征向量的风险标签,并基于第一特征向量和第一特征向量的风险标签,对由深度学习算法构建的风险识别模型进行对抗训练,得到训练后的风险识别模型,训练后的风险识别模型可以用于对待识别的目标对象进行风险识别处理,得到针对目标对象的风险识别结果。这样,由于第一特征向量是预先训练的因果推断模型基于第二行为数据内的不同数据之间的依赖关系,生成的能够表征第二行为数据内的不同数据之间相关性的特征向量,即用于训练风险识别模型的样本数据(即第一特征向量)能够表征第二行为数据内的不同数据之间的相关性,具有样本可解释性,因此,基于第一特征向量和第一特征向量的风险标签,对由深度学习算法构建的风险识别模型进行对抗训练,得到的训练后的风险识别模型的鲁棒性强,即通过训练后的风险识别模型对待识别的目标对象进行风险识别处理,得到的针对目标对象的风险识别结果的准确性高。
实施例四
基于同样的思路,本说明书实施例还提供一种数据的处理设备,如图6所示。
数据的处理设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上的处理器601和存储器602,存储器602中可以存储有一个或一个以上存储应用程序或数据。其中,存储器602可以是短暂存储或持久存储。存储在存储器602的应用程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对数据的处理设备中的一系列计算机可执行指令。更进一步地,处理器601可以设置为与存储器602通信,在数据的处理设备上执行存储器602中的一系列计算机可执行指令。数据的处理设备还可以包括一个或一个以上电源603,一个或一个以上有线或无线网络接口604,一个或一个以上输入输出接口605,一个或一个以上键盘606。
具体在本实施例中,数据的处理设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对数据的处理设备中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:
获取第一对象的第一行为数据和所述第一对象的风险标签;
基于所述第一行为数据生成第二行为数据,所述第二行为数据与所述第一行为数据之间的相似度小于预设相似度;
基于预先训练的因果推断模型和所述第二行为数据,得到所述第二行为数据对应的第一特征向量,所述第一特征向量为所述预先训练的因果推断模型基于所述第二行为数据内的不同数据之间的依赖关系,生成的能够表征所述第二行为数据内的不同数据之间相关性的特征向量;
将所述第一对象的风险标签确定为所述第一特征向量的风险标签,并基于所述第一特征向量和所述第一特征向量的风险标签,对由深度学习算法构建的风险识别模型进行对抗训练,得到训练后的风险识别模型,所述训练后的风险识别模型用于对待识别的目标对象进行风险识别处理,得到针对所述目标对象的风险识别结果。
可选地,所述基于所述第一特征向量和所述第一特征向量的风险标签,对由深度学习算法构建的风险识别模型进行训练,得到训练后的风险识别模型,包括:
基于所述第二行为数据的数量,获取第二对象的第三行为数据和所述第二对象的风险标签;
确定所述第三行为数据对应的第二特征向量,并将所述第二对象的风险标签确定为所述第二特征向量的风险标签;
基于所述第一特征向量、所述第一特征向量的风险标签、所述第二特征向量和所述第二特征向量的风险标签,对所述风险识别模型进行对抗训练,得到所述训练后的风险识别模型。
可选地,在所述基于预先训练的因果推断模型和所述第二行为数据,得到所述第二行为数据对应的第一特征向量之前,还包括:
获取历史对象的历史行为数据,以及所述历史行为数据对应的历史特征向量;
基于所述历史行为数据和所述历史特征向量,对由贝叶斯网络构建的所述因果推断模型进行训练,得到训练后的因果推断模型。
可选地,所述方法还包括:
获取目标场景下所述待识别的目标对象的目标行为数据,所述目标对象包括目标业务和/或目标账户;
确定所述目标行为数据对应的目标特征向量,并基于所述训练后的风险识别模型和所述目标特征向量,确定针对所述目标对象的风险识别结果;
基于所述风险识别结果,确定所述目标场景下所述目标对象是否存在风险。
可选地,所述确定所述目标行为数据对应的目标特征向量,包括:
基于所述预先训练的因果推断模型和所述目标行为数据,确定所述目标行为数据对应的目标特征向量。
可选地,所述基于所述第一行为数据生成第二行为数据,包括:获取所述第一行为数据内的多个属性数据;
基于预设变换规则,对所述属性数据进行变换处理,得到变换处理后的属性数据,并基于所述变换处理后的属性数据,确定所述第二行为数据。
可选地,所述基于所述第一行为数据生成第二行为数据,包括:
基于预先训练的生成式对抗网络模型和所述第一行为数据,生成与所述第一行为数据对应的对抗行为数据,并将所述对抗行为数据确定为所述第二行为数据,所述生成式对抗网络模型为基于所述历史行为数据对由深度学习算法构建的模型进行训练得到。
本说明书实施例提供一种数据的处理设备,获取第一对象的第一行为数据和第一对象的风险标签,基于第一行为数据生成第二行为数据,第二行为数据与第一行为数据之间的相似度小于预设相似度,基于预先训练的因果推断模型和第二行为数据,得到第二行为数据对应的第一特征向量,第一特征向量为预先训练的因果推断模型基于第二行为数据内的不同数据之间的依赖关系,生成的能够表征第二行为数据内的不同数据之间相关性的特征向量,将第一对象的风险标签确定为第一特征向量的风险标签,并基于第一特征向量和第一特征向量的风险标签,对由深度学习算法构建的风险识别模型进行对抗训练,得到训练后的风险识别模型,训练后的风险识别模型可以用于对待识别的目标对象进行风险识别处理,得到针对目标对象的风险识别结果。这样,由于第一特征向量是预先训练的因果推断模型基于第二行为数据内的不同数据之间的依赖关系,生成的能够表征第二行为数据内的不同数据之间相关性的特征向量,即用于训练风险识别模型的样本数据(即第一特征向量)能够表征第二行为数据内的不同数据之间的相关性,具有样本可解释性,因此,基于第一特征向量和第一特征向量的风险标签,对由深度学习算法构建的风险识别模型进行对抗训练,得到的训练后的风险识别模型的鲁棒性强,即通过训练后的风险识别模型对待识别的目标对象进行风险识别处理,得到的针对目标对象的风险识别结果的准确性高。
实施例五
本说明书实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述数据的处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
本说明书实施例提供一种计算机可读存储介质,获取第一对象的第一行为数据和第一对象的风险标签,基于第一行为数据生成第二行为数据,第二行为数据与第一行为数据之间的相似度小于预设相似度,基于预先训练的因果推断模型和第二行为数据,得到第二行为数据对应的第一特征向量,第一特征向量为预先训练的因果推断模型基于第二行为数据内的不同数据之间的依赖关系,生成的能够表征第二行为数据内的不同数据之间相关性的特征向量,将第一对象的风险标签确定为第一特征向量的风险标签,并基于第一特征向量和第一特征向量的风险标签,对由深度学习算法构建的风险识别模型进行对抗训练,得到训练后的风险识别模型,训练后的风险识别模型可以用于对待识别的目标对象进行风险识别处理,得到针对目标对象的风险识别结果。这样,由于第一特征向量是预先训练的因果推断模型基于第二行为数据内的不同数据之间的依赖关系,生成的能够表征第二行为数据内的不同数据之间相关性的特征向量,即用于训练风险识别模型的样本数据(即第一特征向量)能够表征第二行为数据内的不同数据之间的相关性,具有样本可解释性,因此,基于第一特征向量和第一特征向量的风险标签,对由深度学习算法构建的风险识别模型进行对抗训练,得到的训练后的风险识别模型的鲁棒性强,即通过训练后的风险识别模型对待识别的目标对象进行风险识别处理,得到的针对目标对象的风险识别结果的准确性高。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书一个或多个实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书的实施例可提供为方法、系统、或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书的实施例是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据的处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据的处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据的处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据的处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书一个或多个实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。

Claims (10)

1.一种数据的处理方法,所述方法包括:
获取第一对象的第一行为数据和所述第一对象的风险标签;
基于所述第一行为数据生成第二行为数据,所述第二行为数据与所述第一行为数据之间的相似度小于预设相似度;
基于预先训练的因果推断模型和所述第二行为数据,得到所述第二行为数据对应的第一特征向量,所述第一特征向量为所述预先训练的因果推断模型基于所述第二行为数据内的不同数据之间的依赖关系,生成的能够表征所述第二行为数据内的不同数据之间相关性的特征向量;
将所述第一对象的风险标签确定为所述第一特征向量的风险标签,并基于所述第一特征向量和所述第一特征向量的风险标签,对由深度学习算法构建的风险识别模型进行对抗训练,得到训练后的风险识别模型,所述训练后的风险识别模型用于对待识别的目标对象进行风险识别处理,得到针对所述目标对象的风险识别结果。
2.根据权利要求1所述的方法,所述基于所述第一特征向量和所述第一特征向量的风险标签,对由深度学习算法构建的风险识别模型进行训练,得到训练后的风险识别模型,包括:
基于所述第二行为数据的数量,获取第二对象的第三行为数据和所述第二对象的风险标签;
确定所述第三行为数据对应的第二特征向量,并将所述第二对象的风险标签确定为所述第二特征向量的风险标签;
基于所述第一特征向量、所述第一特征向量的风险标签、所述第二特征向量和所述第二特征向量的风险标签,对所述风险识别模型进行对抗训练,得到所述训练后的风险识别模型。
3.根据权利要求2所述的方法,在所述基于预先训练的因果推断模型和所述第二行为数据,得到所述第二行为数据对应的第一特征向量之前,还包括:
获取历史对象的历史行为数据,以及所述历史行为数据对应的历史特征向量;
基于所述历史行为数据和所述历史特征向量,对由贝叶斯网络构建的所述因果推断模型进行训练,得到训练后的因果推断模型。
4.根据权利要求3所述的方法,所述方法还包括:
获取目标场景下所述待识别的目标对象的目标行为数据,所述目标对象包括目标业务和/或目标账户;
确定所述目标行为数据对应的目标特征向量,并基于所述训练后的风险识别模型和所述目标特征向量,确定针对所述目标对象的风险识别结果;
基于所述风险识别结果,确定所述目标场景下所述目标对象是否存在风险。
5.根据权利要求4所述的方法,所述确定所述目标行为数据对应的目标特征向量,包括:
基于所述预先训练的因果推断模型和所述目标行为数据,确定所述目标行为数据对应的目标特征向量。
6.根据权利要求5所述的方法,所述基于所述第一行为数据生成第二行为数据,包括:
获取所述第一行为数据内的多个属性数据;
基于预设变换规则,对所述属性数据进行变换处理,得到变换处理后的属性数据,并基于所述变换处理后的属性数据,确定所述第二行为数据。
7.根据权利要求5所述的方法,所述基于所述第一行为数据生成第二行为数据,包括:
基于预先训练的生成式对抗网络模型和所述第一行为数据,生成与所述第一行为数据对应的对抗行为数据,并将所述对抗行为数据确定为所述第二行为数据,所述生成式对抗网络模型为基于所述历史行为数据对由深度学习算法构建的模型进行训练得到。
8.一种数据的处理装置,所述装置包括:
第一获取模块,用于获取第一对象的第一行为数据和所述第一对象的风险标签;
数据生成模块,用于基于所述第一行为数据生成第二行为数据,所述第二行为数据与所述第一行为数据之间的相似度小于预设相似度;
向量确定模块,用于基于预先训练的因果推断模型和所述第二行为数据,得到所述第二行为数据对应的第一特征向量,所述第一特征向量为所述预先训练的因果推断模型基于所述第二行为数据内的不同数据之间的依赖关系,生成的能够表征所述第二行为数据内的不同数据之间相关性的特征向量;
第一训练模块,用于将所述第一对象的风险标签确定为所述第一特征向量的风险标签,并基于所述第一特征向量和所述第一特征向量的风险标签,对由深度学习算法构建的风险识别模型进行对抗训练,得到训练后的风险识别模型,所述训练后的风险识别模型用于对待识别的目标对象进行风险识别处理,得到针对所述目标对象的风险识别结果。
9.一种数据的处理设备,所述数据的处理设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
获取第一对象的第一行为数据和所述第一对象的风险标签;
基于所述第一行为数据生成第二行为数据,所述第二行为数据与所述第一行为数据之间的相似度小于预设相似度;
基于预先训练的因果推断模型和所述第二行为数据,得到所述第二行为数据对应的第一特征向量,所述第一特征向量为所述预先训练的因果推断模型基于所述第二行为数据内的不同数据之间的依赖关系,生成的能够表征所述第二行为数据内的不同数据之间相关性的特征向量;
将所述第一对象的风险标签确定为所述第一特征向量的风险标签,并基于所述第一特征向量和所述第一特征向量的风险标签,对由深度学习算法构建的风险识别模型进行对抗训练,得到训练后的风险识别模型,所述训练后的风险识别模型用于对待识别的目标对象进行风险识别处理,得到针对所述目标对象的风险识别结果。
10.一种存储介质,所述存储介质用于存储计算机可执行指令,所述可执行指令在被执行时实现以下流程:
获取第一对象的第一行为数据和所述第一对象的风险标签;
基于所述第一行为数据生成第二行为数据,所述第二行为数据与所述第一行为数据之间的相似度小于预设相似度;
基于预先训练的因果推断模型和所述第二行为数据,得到所述第二行为数据对应的第一特征向量,所述第一特征向量为所述预先训练的因果推断模型基于所述第二行为数据内的不同数据之间的依赖关系,生成的能够表征所述第二行为数据内的不同数据之间相关性的特征向量;
将所述第一对象的风险标签确定为所述第一特征向量的风险标签,并基于所述第一特征向量和所述第一特征向量的风险标签,对由深度学习算法构建的风险识别模型进行对抗训练,得到训练后的风险识别模型,所述训练后的风险识别模型用于对待识别的目标对象进行风险识别处理,得到针对所述目标对象的风险识别结果。
CN202210707219.XA 2022-06-21 2022-06-21 数据的处理方法、装置及设备 Pending CN115204395A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210707219.XA CN115204395A (zh) 2022-06-21 2022-06-21 数据的处理方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210707219.XA CN115204395A (zh) 2022-06-21 2022-06-21 数据的处理方法、装置及设备

Publications (1)

Publication Number Publication Date
CN115204395A true CN115204395A (zh) 2022-10-18

Family

ID=83576689

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210707219.XA Pending CN115204395A (zh) 2022-06-21 2022-06-21 数据的处理方法、装置及设备

Country Status (1)

Country Link
CN (1) CN115204395A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116070916A (zh) * 2023-03-06 2023-05-05 支付宝(杭州)信息技术有限公司 数据处理方法、装置及设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116070916A (zh) * 2023-03-06 2023-05-05 支付宝(杭州)信息技术有限公司 数据处理方法、装置及设备

Similar Documents

Publication Publication Date Title
CN112200132B (zh) 一种基于隐私保护的数据处理方法、装置及设备
CN113435585B (zh) 一种业务处理方法、装置及设备
CN114969293A (zh) 数据处理方法、装置及设备
CN114819614A (zh) 数据处理方法、装置、系统及设备
CN115712866B (zh) 数据处理方法、装置及设备
CN116049761A (zh) 数据处理方法、装置及设备
CN115545002A (zh) 一种模型训练和业务处理的方法、装置、存储介质及设备
CN115618964A (zh) 一种模型训练的方法、装置、存储介质及电子设备
CN115204395A (zh) 数据的处理方法、装置及设备
CN113221717A (zh) 一种基于隐私保护的模型构建方法、装置及设备
CN117392694A (zh) 数据处理方法、装置及设备
CN113992429B (zh) 一种事件的处理方法、装置及设备
CN114638998A (zh) 模型更新方法、装置、系统及设备
CN111598092A (zh) 图像中目标区域的确定方法、目标识别方法及装置
CN113344197A (zh) 一种识别模型的训练方法、业务执行的方法以及装置
CN111539520A (zh) 增强深度学习模型鲁棒性的方法及装置
CN115423485B (zh) 数据处理方法、装置及设备
CN114662706A (zh) 一种模型训练方法、装置及设备
CN115688130B (zh) 数据处理方法、装置及设备
CN116070916B (zh) 数据处理方法、装置及设备
CN115841335B (zh) 数据处理方法、装置及设备
CN115905876A (zh) 一种模型的处理方法、装置及设备
CN115994252A (zh) 数据处理方法、装置及设备
CN115795109A (zh) 数据处理方法、装置及设备
CN115859110A (zh) 一种数据处理方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination